From 809cecae0954f75a9aa4644c3c261f53ca9a15bc Mon Sep 17 00:00:00 2001
From: root <root@gpu-22-42.local>
Date: Thu, 5 Mar 2026 18:06:10 +0800
Subject: [PATCH] v1.0

---
 __init__.py                                   |  107 +
 __pycache__/__init__.cpython-312.pyc          |  Bin 0 -> 3434 bytes
 __pycache__/_aiter_ops.cpython-312.pyc        |  Bin 0 -> 36892 bytes
 __pycache__/_bc_linter.cpython-312.pyc        |  Bin 0 -> 1981 bytes
 __pycache__/_custom_ops.cpython-312.pyc       |  Bin 0 -> 148594 bytes
 __pycache__/_ipex_ops.cpython-312.pyc         |  Bin 0 -> 18566 bytes
 __pycache__/beam_search.cpython-312.pyc       |  Bin 0 -> 3723 bytes
 __pycache__/collect_env.cpython-312.pyc       |  Bin 0 -> 30083 bytes
 __pycache__/connections.cpython-312.pyc       |  Bin 0 -> 8813 bytes
 __pycache__/env_override.cpython-312.pyc      |  Bin 0 -> 12979 bytes
 __pycache__/envs.cpython-312.pyc              |  Bin 0 -> 71705 bytes
 __pycache__/forward_context.cpython-312.pyc   |  Bin 0 -> 13763 bytes
 __pycache__/logger.cpython-312.pyc            |  Bin 0 -> 9819 bytes
 __pycache__/logits_process.cpython-312.pyc    |  Bin 0 -> 4754 bytes
 __pycache__/logprobs.cpython-312.pyc          |  Bin 0 -> 9992 bytes
 __pycache__/outputs.cpython-312.pyc           |  Bin 0 -> 16434 bytes
 __pycache__/pooling_params.cpython-312.pyc    |  Bin 0 -> 8772 bytes
 __pycache__/sampling_params.cpython-312.pyc   |  Bin 0 -> 25874 bytes
 __pycache__/scalar_type.cpython-312.pyc       |  Bin 0 -> 14217 bytes
 __pycache__/scripts.cpython-312.pyc           |  Bin 0 -> 611 bytes
 __pycache__/sequence.cpython-312.pyc          |  Bin 0 -> 5252 bytes
 __pycache__/tasks.cpython-312.pyc             |  Bin 0 -> 503 bytes
 __pycache__/tracing.cpython-312.pyc           |  Bin 0 -> 6078 bytes
 __pycache__/version.cpython-312.pyc           |  Bin 0 -> 221 bytes
 _aiter_ops.py                                 |  983 +++
 _bc_linter.py                                 |   54 +
 _custom_ops.py                                | 3512 ++++++++++
 _ipex_ops.py                                  |  457 ++
 assets/__init__.py                            |    0
 assets/__pycache__/__init__.cpython-312.pyc   |  Bin 0 -> 156 bytes
 assets/__pycache__/audio.cpython-312.pyc      |  Bin 0 -> 2208 bytes
 assets/__pycache__/base.cpython-312.pyc       |  Bin 0 -> 1612 bytes
 assets/__pycache__/image.cpython-312.pyc      |  Bin 0 -> 2443 bytes
 assets/__pycache__/video.cpython-312.pyc      |  Bin 0 -> 6565 bytes
 assets/audio.py                               |   43 +
 assets/base.py                                |   40 +
 assets/image.py                               |   59 +
 assets/video.py                               |  149 +
 attention/__init__.py                         |   18 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 467 bytes
 attention/__pycache__/layer.cpython-312.pyc   |  Bin 0 -> 40423 bytes
 .../__pycache__/selector.cpython-312.pyc      |  Bin 0 -> 6689 bytes
 attention/backends/__init__.py                |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 168 bytes
 .../__pycache__/abstract.cpython-312.pyc      |  Bin 0 -> 16616 bytes
 .../__pycache__/registry.cpython-312.pyc      |  Bin 0 -> 9083 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 1266 bytes
 attention/backends/abstract.py                |  391 ++
 attention/backends/registry.py                |  195 +
 attention/backends/utils.py                   |   33 +
 attention/layer.py                            | 1051 +++
 attention/layers/__init__.py                  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 166 bytes
 .../chunked_local_attention.cpython-312.pyc   |  Bin 0 -> 4831 bytes
 .../cross_attention.cpython-312.pyc           |  Bin 0 -> 6697 bytes
 .../encoder_only_attention.cpython-312.pyc    |  Bin 0 -> 3740 bytes
 attention/layers/chunked_local_attention.py   |  121 +
 attention/layers/cross_attention.py           |  178 +
 attention/layers/encoder_only_attention.py    |  103 +
 attention/ops/__init__.py                     |    0
 .../ops/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 163 bytes
 ...unked_prefill_paged_decode.cpython-312.pyc |  Bin 0 -> 13417 bytes
 .../ops/__pycache__/common.cpython-312.pyc    |  Bin 0 -> 15147 bytes
 .../ops/__pycache__/flashmla.cpython-312.pyc  |  Bin 0 -> 8343 bytes
 .../merge_attn_states.cpython-312.pyc         |  Bin 0 -> 1952 bytes
 .../__pycache__/paged_attn.cpython-312.pyc    |  Bin 0 -> 8261 bytes
 .../pallas_kv_cache_update.cpython-312.pyc    |  Bin 0 -> 4764 bytes
 .../prefix_prefill.cpython-312.pyc            |  Bin 0 -> 25870 bytes
 .../rocm_aiter_paged_attn.cpython-312.pyc     |  Bin 0 -> 4201 bytes
 .../triton_decode_attention.cpython-312.pyc   |  Bin 0 -> 18817 bytes
 .../triton_merge_attn_states.cpython-312.pyc  |  Bin 0 -> 3363 bytes
 ...on_reshape_and_cache_flash.cpython-312.pyc |  Bin 0 -> 6317 bytes
 .../triton_unified_attention.cpython-312.pyc  |  Bin 0 -> 30039 bytes
 .../vit_attn_wrappers.cpython-312.pyc         |  Bin 0 -> 8158 bytes
 attention/ops/chunked_prefill_paged_decode.py |  401 ++
 attention/ops/common.py                       |  414 ++
 attention/ops/flashmla.py                     |  252 +
 attention/ops/merge_attn_states.py            |   47 +
 attention/ops/paged_attn.py                   |  262 +
 attention/ops/pallas_kv_cache_update.py       |  130 +
 attention/ops/prefix_prefill.py               |  814 +++
 attention/ops/rocm_aiter_paged_attn.py        |  123 +
 attention/ops/triton_decode_attention.py      |  712 ++
 attention/ops/triton_merge_attn_states.py     |  105 +
 .../ops/triton_reshape_and_cache_flash.py     |  184 +
 attention/ops/triton_unified_attention.py     |  941 +++
 attention/ops/vit_attn_wrappers.py            |  178 +
 attention/selector.py                         |  231 +
 attention/utils/__init__.py                   |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 165 bytes
 .../__pycache__/fa_utils.cpython-312.pyc      |  Bin 0 -> 3702 bytes
 .../kv_sharing_utils.cpython-312.pyc          |  Bin 0 -> 1285 bytes
 .../kv_transfer_utils.cpython-312.pyc         |  Bin 0 -> 2274 bytes
 attention/utils/fa_utils.py                   |  108 +
 attention/utils/kv_sharing_utils.py           |   33 +
 attention/utils/kv_transfer_utils.py          |   60 +
 beam_search.py                                |   88 +
 benchmarks/__init__.py                        |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 160 bytes
 .../__pycache__/datasets.cpython-312.pyc      |  Bin 0 -> 110697 bytes
 .../__pycache__/latency.cpython-312.pyc       |  Bin 0 -> 7622 bytes
 benchmarks/__pycache__/serve.cpython-312.pyc  |  Bin 0 -> 55361 bytes
 .../__pycache__/throughput.cpython-312.pyc    |  Bin 0 -> 30000 bytes
 benchmarks/datasets.py                        | 3222 +++++++++
 benchmarks/latency.py                         |  172 +
 benchmarks/lib/__init__.py                    |    3 +
 .../lib/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 209 bytes
 .../endpoint_request_func.cpython-312.pyc     |  Bin 0 -> 27725 bytes
 .../__pycache__/ready_checker.cpython-312.pyc |  Bin 0 -> 2862 bytes
 .../lib/__pycache__/utils.cpython-312.pyc     |  Bin 0 -> 3618 bytes
 benchmarks/lib/endpoint_request_func.py       |  777 +++
 benchmarks/lib/ready_checker.py               |   72 +
 benchmarks/lib/utils.py                       |   79 +
 benchmarks/serve.py                           | 1531 ++++
 benchmarks/sweep/__init__.py                  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 166 bytes
 .../sweep/__pycache__/cli.cpython-312.pyc     |  Bin 0 -> 1681 bytes
 .../__pycache__/param_sweep.cpython-312.pyc   |  Bin 0 -> 5865 bytes
 .../sweep/__pycache__/plot.cpython-312.pyc    |  Bin 0 -> 23877 bytes
 .../sweep/__pycache__/serve.cpython-312.pyc   |  Bin 0 -> 13925 bytes
 .../__pycache__/serve_sla.cpython-312.pyc     |  Bin 0 -> 16061 bytes
 .../sweep/__pycache__/server.cpython-312.pyc  |  Bin 0 -> 5061 bytes
 .../__pycache__/sla_sweep.cpython-312.pyc     |  Bin 0 -> 7045 bytes
 .../sweep/__pycache__/utils.cpython-312.pyc   |  Bin 0 -> 535 bytes
 benchmarks/sweep/cli.py                       |   38 +
 benchmarks/sweep/param_sweep.py               |   91 +
 benchmarks/sweep/plot.py                      |  580 ++
 benchmarks/sweep/serve.py                     |  416 ++
 benchmarks/sweep/serve_sla.py                 |  492 ++
 benchmarks/sweep/server.py                    |  114 +
 benchmarks/sweep/sla_sweep.py                 |  132 +
 benchmarks/sweep/utils.py                     |    4 +
 benchmarks/throughput.py                      |  799 +++
 collect_env.py                                |  857 +++
 compilation/__init__.py                       |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 161 bytes
 .../activation_quant_fusion.cpython-312.pyc   |  Bin 0 -> 9973 bytes
 .../__pycache__/backends.cpython-312.pyc      |  Bin 0 -> 28531 bytes
 .../base_static_graph.cpython-312.pyc         |  Bin 0 -> 2518 bytes
 .../__pycache__/caching.cpython-312.pyc       |  Bin 0 -> 9492 bytes
 .../collective_fusion.cpython-312.pyc         |  Bin 0 -> 54484 bytes
 .../compiler_interface.cpython-312.pyc        |  Bin 0 -> 24254 bytes
 .../__pycache__/counter.cpython-312.pyc       |  Bin 0 -> 2076 bytes
 .../__pycache__/cuda_graph.cpython-312.pyc    |  Bin 0 -> 9053 bytes
 .../__pycache__/decorators.cpython-312.pyc    |  Bin 0 -> 24185 bytes
 .../fix_functionalization.cpython-312.pyc     |  Bin 0 -> 12149 bytes
 .../__pycache__/fusion.cpython-312.pyc        |  Bin 0 -> 17363 bytes
 .../__pycache__/fusion_attn.cpython-312.pyc   |  Bin 0 -> 17705 bytes
 .../__pycache__/fx_utils.cpython-312.pyc      |  Bin 0 -> 4507 bytes
 .../__pycache__/inductor_pass.cpython-312.pyc |  Bin 0 -> 6564 bytes
 .../__pycache__/matcher_utils.cpython-312.pyc |  Bin 0 -> 17044 bytes
 .../__pycache__/monitor.cpython-312.pyc       |  Bin 0 -> 2468 bytes
 .../noop_elimination.cpython-312.pyc          |  Bin 0 -> 6746 bytes
 .../partition_rules.cpython-312.pyc           |  Bin 0 -> 2943 bytes
 .../__pycache__/pass_manager.cpython-312.pyc  |  Bin 0 -> 6980 bytes
 .../piecewise_backend.cpython-312.pyc         |  Bin 0 -> 4737 bytes
 .../__pycache__/post_cleanup.cpython-312.pyc  |  Bin 0 -> 1210 bytes
 .../qk_norm_rope_fusion.cpython-312.pyc       |  Bin 0 -> 10897 bytes
 .../sequence_parallelism.cpython-312.pyc      |  Bin 0 -> 19511 bytes
 .../torch25_custom_graph_pass.cpython-312.pyc |  Bin 0 -> 2170 bytes
 .../vllm_inductor_pass.cpython-312.pyc        |  Bin 0 -> 9703 bytes
 .../__pycache__/wrapper.cpython-312.pyc       |  Bin 0 -> 12449 bytes
 compilation/activation_quant_fusion.py        |  209 +
 compilation/backends.py                       |  759 ++
 compilation/base_static_graph.py              |   57 +
 compilation/caching.py                        |  178 +
 compilation/collective_fusion.py              | 1234 ++++
 compilation/compiler_interface.py             |  639 ++
 compilation/counter.py                        |   48 +
 compilation/cuda_graph.py                     |  216 +
 compilation/decorators.py                     |  571 ++
 compilation/fix_functionalization.py          |  253 +
 compilation/fusion.py                         |  374 +
 compilation/fusion_attn.py                    |  359 +
 compilation/fx_utils.py                       |   91 +
 compilation/inductor_pass.py                  |  133 +
 compilation/matcher_utils.py                  |  317 +
 compilation/monitor.py                        |   62 +
 compilation/noop_elimination.py               |  134 +
 compilation/partition_rules.py                |   72 +
 compilation/pass_manager.py                   |  135 +
 compilation/piecewise_backend.py              |  121 +
 compilation/post_cleanup.py                   |   21 +
 compilation/qk_norm_rope_fusion.py            |  238 +
 compilation/sequence_parallelism.py           |  363 +
 compilation/torch25_custom_graph_pass.py      |   44 +
 compilation/vllm_inductor_pass.py             |  173 +
 compilation/wrapper.py                        |  238 +
 config/__init__.py                            |  102 +
 config/__pycache__/__init__.cpython-312.pyc   |  Bin 0 -> 1981 bytes
 config/__pycache__/cache.cpython-312.pyc      |  Bin 0 -> 6069 bytes
 .../__pycache__/compilation.cpython-312.pyc   |  Bin 0 -> 33761 bytes
 config/__pycache__/device.cpython-312.pyc     |  Bin 0 -> 2978 bytes
 .../__pycache__/ec_transfer.cpython-312.pyc   |  Bin 0 -> 4526 bytes
 config/__pycache__/kv_events.cpython-312.pyc  |  Bin 0 -> 1417 bytes
 .../__pycache__/kv_transfer.cpython-312.pyc   |  Bin 0 -> 4599 bytes
 config/__pycache__/load.cpython-312.pyc       |  Bin 0 -> 3396 bytes
 config/__pycache__/lora.cpython-312.pyc       |  Bin 0 -> 4632 bytes
 config/__pycache__/model.cpython-312.pyc      |  Bin 0 -> 74258 bytes
 config/__pycache__/multimodal.cpython-312.pyc |  Bin 0 -> 8619 bytes
 .../__pycache__/observability.cpython-312.pyc |  Bin 0 -> 5399 bytes
 config/__pycache__/parallel.cpython-312.pyc   |  Bin 0 -> 21952 bytes
 config/__pycache__/pooler.cpython-312.pyc     |  Bin 0 -> 3113 bytes
 config/__pycache__/scheduler.cpython-312.pyc  |  Bin 0 -> 8976 bytes
 .../__pycache__/speculative.cpython-312.pyc   |  Bin 0 -> 22183 bytes
 .../speech_to_text.cpython-312.pyc            |  Bin 0 -> 1110 bytes
 .../structured_outputs.cpython-312.pyc        |  Bin 0 -> 3591 bytes
 config/__pycache__/utils.cpython-312.pyc      |  Bin 0 -> 8245 bytes
 config/__pycache__/vllm.cpython-312.pyc       |  Bin 0 -> 48524 bytes
 config/cache.py                               |  207 +
 config/compilation.py                         |  978 +++
 config/device.py                              |   75 +
 config/ec_transfer.py                         |  110 +
 config/kv_events.py                           |   56 +
 config/kv_transfer.py                         |  114 +
 config/load.py                                |  124 +
 config/lora.py                                |  112 +
 config/model.py                               | 2172 ++++++
 config/multimodal.py                          |  248 +
 config/observability.py                       |  123 +
 config/parallel.py                            |  655 ++
 config/pooler.py                              |  122 +
 config/scheduler.py                           |  298 +
 config/speculative.py                         |  654 ++
 config/speech_to_text.py                      |   38 +
 config/structured_outputs.py                  |   92 +
 config/utils.py                               |  178 +
 config/vllm.py                                | 1166 ++++
 connections.py                                |  189 +
 device_allocator/__init__.py                  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 166 bytes
 .../__pycache__/cumem.cpython-312.pyc         |  Bin 0 -> 13260 bytes
 device_allocator/cumem.py                     |  327 +
 distributed/__init__.py                       |    6 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 250 bytes
 .../communication_op.cpython-312.pyc          |  Bin 0 -> 2312 bytes
 .../__pycache__/kv_events.cpython-312.pyc     |  Bin 0 -> 16650 bytes
 .../parallel_state.cpython-312.pyc            |  Bin 0 -> 71265 bytes
 .../tpu_distributed_utils.cpython-312.pyc     |  Bin 0 -> 9285 bytes
 distributed/__pycache__/utils.cpython-312.pyc |  Bin 0 -> 23220 bytes
 distributed/communication_op.py               |   43 +
 distributed/device_communicators/__init__.py  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 182 bytes
 .../__pycache__/all2all.cpython-312.pyc       |  Bin 0 -> 20137 bytes
 .../all_reduce_utils.cpython-312.pyc          |  Bin 0 -> 12373 bytes
 .../base_device_communicator.cpython-312.pyc  |  Bin 0 -> 14463 bytes
 .../cpu_communicator.cpython-312.pyc          |  Bin 0 -> 10909 bytes
 .../cuda_communicator.cpython-312.pyc         |  Bin 0 -> 14466 bytes
 .../__pycache__/cuda_wrapper.cpython-312.pyc  |  Bin 0 -> 9500 bytes
 .../custom_all_reduce.cpython-312.pyc         |  Bin 0 -> 14661 bytes
 .../__pycache__/mnnvl_compat.cpython-312.pyc  |  Bin 0 -> 1783 bytes
 .../__pycache__/pynccl.cpython-312.pyc        |  Bin 0 -> 17305 bytes
 .../pynccl_allocator.cpython-312.pyc          |  Bin 0 -> 7588 bytes
 .../pynccl_wrapper.cpython-312.pyc            |  Bin 0 -> 15911 bytes
 .../quick_all_reduce.cpython-312.pyc          |  Bin 0 -> 13622 bytes
 .../ray_communicator.cpython-312.pyc          |  Bin 0 -> 11299 bytes
 .../__pycache__/shm_broadcast.cpython-312.pyc |  Bin 0 -> 31362 bytes
 .../shm_object_storage.cpython-312.pyc        |  Bin 0 -> 29775 bytes
 .../__pycache__/symm_mem.cpython-312.pyc      |  Bin 0 -> 6798 bytes
 .../tpu_communicator.cpython-312.pyc          |  Bin 0 -> 4209 bytes
 .../xpu_communicator.cpython-312.pyc          |  Bin 0 -> 4689 bytes
 distributed/device_communicators/all2all.py   |  490 ++
 .../device_communicators/all_reduce_utils.py  |  344 +
 .../base_device_communicator.py               |  311 +
 .../device_communicators/cpu_communicator.py  |  209 +
 .../device_communicators/cuda_communicator.py |  333 +
 .../device_communicators/cuda_wrapper.py      |  216 +
 .../device_communicators/custom_all_reduce.py |  326 +
 .../device_communicators/mnnvl_compat.py      |   27 +
 distributed/device_communicators/pynccl.py    |  386 ++
 .../device_communicators/pynccl_allocator.py  |  191 +
 .../device_communicators/pynccl_wrapper.py    |  564 ++
 .../device_communicators/quick_all_reduce.py  |  290 +
 .../device_communicators/ray_communicator.py  |  259 +
 .../device_communicators/shm_broadcast.py     |  733 ++
 .../shm_object_storage.py                     |  660 ++
 distributed/device_communicators/symm_mem.py  |  156 +
 .../device_communicators/tpu_communicator.py  |  107 +
 .../device_communicators/xpu_communicator.py  |   95 +
 distributed/ec_transfer/__init__.py           |   14 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 377 bytes
 .../ec_transfer_state.cpython-312.pyc         |  Bin 0 -> 1493 bytes
 .../ec_transfer/ec_connector/__init__.py      |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 186 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 9812 bytes
 .../__pycache__/factory.cpython-312.pyc       |  Bin 0 -> 3522 bytes
 .../shared_storage_connector.cpython-312.pyc  |  Bin 0 -> 9582 bytes
 distributed/ec_transfer/ec_connector/base.py  |  247 +
 .../ec_transfer/ec_connector/factory.py       |   88 +
 .../ec_connector/shared_storage_connector.py  |  201 +
 distributed/ec_transfer/ec_transfer_state.py  |   42 +
 distributed/eplb/__init__.py                  |    8 +
 .../eplb/__pycache__/__init__.cpython-312.pyc |  Bin 0 -> 291 bytes
 .../__pycache__/eplb_state.cpython-312.pyc    |  Bin 0 -> 27954 bytes
 .../rebalance_algo.cpython-312.pyc            |  Bin 0 -> 11139 bytes
 .../rebalance_execute.cpython-312.pyc         |  Bin 0 -> 13283 bytes
 distributed/eplb/eplb_state.py                |  837 +++
 distributed/eplb/rebalance_algo.py            |  260 +
 distributed/eplb/rebalance_execute.py         |  431 ++
 distributed/kv_events.py                      |  371 +
 distributed/kv_transfer/README.md             |   29 +
 distributed/kv_transfer/__init__.py           |   20 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 506 bytes
 .../kv_transfer_state.cpython-312.pyc         |  Bin 0 -> 2680 bytes
 .../kv_transfer/disagg_prefill_workflow.jpg   |  Bin 0 -> 142656 bytes
 .../kv_transfer/kv_connector/__init__.py      |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 186 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 433 bytes
 .../__pycache__/factory.cpython-312.pyc       |  Bin 0 -> 7051 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 11293 bytes
 distributed/kv_transfer/kv_connector/base.py  |   10 +
 .../kv_transfer/kv_connector/factory.py       |  192 +
 distributed/kv_transfer/kv_connector/utils.py |  268 +
 .../kv_transfer/kv_connector/v1/__init__.py   |   19 +
 .../v1/__pycache__/__init__.cpython-312.pyc   |  Bin 0 -> 528 bytes
 .../v1/__pycache__/base.cpython-312.pyc       |  Bin 0 -> 22740 bytes
 .../decode_bench_connector.cpython-312.pyc    |  Bin 0 -> 16090 bytes
 .../lmcache_connector.cpython-312.pyc         |  Bin 0 -> 9244 bytes
 .../lmcache_mp_connector.cpython-312.pyc      |  Bin 0 -> 36054 bytes
 .../v1/__pycache__/metrics.cpython-312.pyc    |  Bin 0 -> 8692 bytes
 .../multi_connector.cpython-312.pyc           |  Bin 0 -> 20049 bytes
 .../nixl_connector.cpython-312.pyc            |  Bin 0 -> 98101 bytes
 .../offloading_connector.cpython-312.pyc      |  Bin 0 -> 24140 bytes
 .../shared_storage_connector.cpython-312.pyc  |  Bin 0 -> 18463 bytes
 .../kv_transfer/kv_connector/v1/base.py       |  546 ++
 .../kv_connector/v1/decode_bench_connector.py |  419 ++
 .../kv_connector/v1/lmcache_connector.py      |  216 +
 .../v1/lmcache_integration/__init__.py        |   18 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 448 bytes
 .../multi_process_adapter.cpython-312.pyc     |  Bin 0 -> 16467 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 8840 bytes
 .../vllm_v1_adapter.cpython-312.pyc           |  Bin 0 -> 47697 bytes
 .../multi_process_adapter.py                  |  379 +
 .../v1/lmcache_integration/utils.py           |  221 +
 .../v1/lmcache_integration/vllm_v1_adapter.py | 1411 ++++
 .../kv_connector/v1/lmcache_mp_connector.py   |  867 +++
 .../kv_transfer/kv_connector/v1/metrics.py    |  189 +
 .../kv_connector/v1/multi_connector.py        |  454 ++
 .../kv_connector/v1/nixl_connector.py         | 2440 +++++++
 .../kv_connector/v1/offloading_connector.py   |  504 ++
 .../kv_connector/v1/p2p/__init__.py           |    0
 .../p2p/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 193 bytes
 .../p2p_nccl_connector.cpython-312.pyc        |  Bin 0 -> 20406 bytes
 .../p2p_nccl_engine.cpython-312.pyc           |  Bin 0 -> 29262 bytes
 .../tensor_memory_pool.cpython-312.pyc        |  Bin 0 -> 11585 bytes
 .../kv_connector/v1/p2p/p2p_nccl_connector.py |  531 ++
 .../kv_connector/v1/p2p/p2p_nccl_engine.py    |  632 ++
 .../kv_connector/v1/p2p/tensor_memory_pool.py |  273 +
 .../v1/shared_storage_connector.py            |  450 ++
 .../kv_transfer/kv_lookup_buffer/__init__.py  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 190 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 7381 bytes
 .../mooncake_store.cpython-312.pyc            |  Bin 0 -> 7413 bytes
 .../__pycache__/simple_buffer.cpython-312.pyc |  Bin 0 -> 10955 bytes
 .../kv_transfer/kv_lookup_buffer/base.py      |  179 +
 .../kv_lookup_buffer/mooncake_store.py        |  164 +
 .../kv_lookup_buffer/simple_buffer.py         |  242 +
 distributed/kv_transfer/kv_pipe/__init__.py   |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 181 bytes
 .../kv_pipe/__pycache__/base.cpython-312.pyc  |  Bin 0 -> 2697 bytes
 .../__pycache__/mooncake_pipe.cpython-312.pyc |  Bin 0 -> 17391 bytes
 .../__pycache__/pynccl_pipe.cpython-312.pyc   |  Bin 0 -> 13145 bytes
 distributed/kv_transfer/kv_pipe/base.py       |   66 +
 .../kv_transfer/kv_pipe/mooncake_pipe.py      |  295 +
 .../kv_transfer/kv_pipe/pynccl_pipe.py        |  285 +
 distributed/kv_transfer/kv_transfer_state.py  |   78 +
 distributed/parallel_state.py                 | 1794 +++++
 distributed/tpu_distributed_utils.py          |  188 +
 distributed/utils.py                          |  543 ++
 engine/__init__.py                            |    0
 engine/__pycache__/__init__.cpython-312.pyc   |  Bin 0 -> 156 bytes
 engine/__pycache__/arg_utils.cpython-312.pyc  |  Bin 0 -> 83319 bytes
 .../async_llm_engine.cpython-312.pyc          |  Bin 0 -> 251 bytes
 engine/__pycache__/llm_engine.cpython-312.pyc |  Bin 0 -> 244 bytes
 engine/__pycache__/protocol.cpython-312.pyc   |  Bin 0 -> 7586 bytes
 engine/arg_utils.py                           | 2144 ++++++
 engine/async_llm_engine.py                    |    6 +
 engine/llm_engine.py                          |    6 +
 engine/protocol.py                            |  170 +
 entrypoints/__init__.py                       |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 161 bytes
 .../__pycache__/api_server.cpython-312.pyc    |  Bin 0 -> 8173 bytes
 .../__pycache__/chat_utils.cpython-312.pyc    |  Bin 0 -> 63079 bytes
 .../__pycache__/constants.cpython-312.pyc     |  Bin 0 -> 320 bytes
 .../__pycache__/context.cpython-312.pyc       |  Bin 0 -> 27255 bytes
 .../__pycache__/dynamic_lora.cpython-312.pyc  |  Bin 0 -> 2943 bytes
 .../__pycache__/harmony_utils.cpython-312.pyc |  Bin 0 -> 19789 bytes
 .../__pycache__/launcher.cpython-312.pyc      |  Bin 0 -> 7957 bytes
 entrypoints/__pycache__/llm.cpython-312.pyc   |  Bin 0 -> 67802 bytes
 .../__pycache__/logger.cpython-312.pyc        |  Bin 0 -> 2680 bytes
 .../__pycache__/renderer.cpython-312.pyc      |  Bin 0 -> 15816 bytes
 .../responses_utils.cpython-312.pyc           |  Bin 0 -> 2616 bytes
 .../__pycache__/score_utils.cpython-312.pyc   |  Bin 0 -> 8667 bytes
 entrypoints/__pycache__/ssl.cpython-312.pyc   |  Bin 0 -> 4121 bytes
 entrypoints/__pycache__/tool.cpython-312.pyc  |  Bin 0 -> 6851 bytes
 .../__pycache__/tool_server.cpython-312.pyc   |  Bin 0 -> 10188 bytes
 entrypoints/__pycache__/utils.cpython-312.pyc |  Bin 0 -> 12679 bytes
 entrypoints/anthropic/__init__.py             |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 171 bytes
 .../__pycache__/protocol.cpython-312.pyc      |  Bin 0 -> 7151 bytes
 .../serving_messages.cpython-312.pyc          |  Bin 0 -> 15848 bytes
 entrypoints/anthropic/protocol.py             |  162 +
 entrypoints/anthropic/serving_messages.py     |  460 ++
 entrypoints/api_server.py                     |  184 +
 entrypoints/chat_utils.py                     | 1690 +++++
 entrypoints/cli/__init__.py                   |   13 +
 .../cli/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 638 bytes
 .../__pycache__/collect_env.cpython-312.pyc   |  Bin 0 -> 1690 bytes
 .../cli/__pycache__/main.cpython-312.pyc      |  Bin 0 -> 3560 bytes
 .../cli/__pycache__/openai.cpython-312.pyc    |  Bin 0 -> 9687 bytes
 .../cli/__pycache__/run_batch.cpython-312.pyc |  Bin 0 -> 3012 bytes
 .../cli/__pycache__/serve.cpython-312.pyc     |  Bin 0 -> 9913 bytes
 .../cli/__pycache__/types.cpython-312.pyc     |  Bin 0 -> 1431 bytes
 entrypoints/cli/benchmark/__init__.py         |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 175 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 1239 bytes
 .../__pycache__/latency.cpython-312.pyc       |  Bin 0 -> 1264 bytes
 .../__pycache__/main.cpython-312.pyc          |  Bin 0 -> 2913 bytes
 .../__pycache__/serve.cpython-312.pyc         |  Bin 0 -> 1244 bytes
 .../__pycache__/sweep.cpython-312.pyc         |  Bin 0 -> 1234 bytes
 .../__pycache__/throughput.cpython-312.pyc    |  Bin 0 -> 1272 bytes
 entrypoints/cli/benchmark/base.py             |   25 +
 entrypoints/cli/benchmark/latency.py          |   21 +
 entrypoints/cli/benchmark/main.py             |   56 +
 entrypoints/cli/benchmark/serve.py            |   21 +
 entrypoints/cli/benchmark/sweep.py            |   21 +
 entrypoints/cli/benchmark/throughput.py       |   21 +
 entrypoints/cli/collect_env.py                |   38 +
 entrypoints/cli/main.py                       |   79 +
 entrypoints/cli/openai.py                     |  256 +
 entrypoints/cli/run_batch.py                  |   68 +
 entrypoints/cli/serve.py                      |  249 +
 entrypoints/cli/types.py                      |   29 +
 entrypoints/constants.py                      |   10 +
 entrypoints/context.py                        |  572 ++
 entrypoints/dynamic_lora.py                   |   57 +
 entrypoints/harmony_utils.py                  |  535 ++
 entrypoints/launcher.py                       |  175 +
 entrypoints/llm.py                            | 1768 +++++
 entrypoints/logger.py                         |   84 +
 entrypoints/openai/__init__.py                |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 168 bytes
 .../__pycache__/api_server.cpython-312.pyc    |  Bin 0 -> 90943 bytes
 .../__pycache__/cli_args.cpython-312.pyc      |  Bin 0 -> 10785 bytes
 .../__pycache__/orca_metrics.cpython-312.pyc  |  Bin 0 -> 4734 bytes
 .../__pycache__/protocol.cpython-312.pyc      |  Bin 0 -> 108493 bytes
 .../__pycache__/run_batch.cpython-312.pyc     |  Bin 0 -> 21409 bytes
 .../__pycache__/serving_chat.cpython-312.pyc  |  Bin 0 -> 47992 bytes
 .../serving_classification.cpython-312.pyc    |  Bin 0 -> 9202 bytes
 .../serving_completion.cpython-312.pyc        |  Bin 0 -> 22040 bytes
 .../serving_embedding.cpython-312.pyc         |  Bin 0 -> 24167 bytes
 .../serving_engine.cpython-312.pyc            |  Bin 0 -> 49057 bytes
 .../serving_models.cpython-312.pyc            |  Bin 0 -> 13786 bytes
 .../serving_pooling.cpython-312.pyc           |  Bin 0 -> 13003 bytes
 .../serving_responses.cpython-312.pyc         |  Bin 0 -> 61788 bytes
 .../__pycache__/serving_score.cpython-312.pyc |  Bin 0 -> 17783 bytes
 .../serving_tokenization.cpython-312.pyc      |  Bin 0 -> 9533 bytes
 .../serving_tokens.cpython-312.pyc            |  Bin 0 -> 10031 bytes
 .../serving_transcription.cpython-312.pyc     |  Bin 0 -> 5567 bytes
 .../speech_to_text.cpython-312.pyc            |  Bin 0 -> 15387 bytes
 entrypoints/openai/api_server.py              | 2096 ++++++
 entrypoints/openai/cli_args.py                |  302 +
 entrypoints/openai/orca_metrics.py            |  120 +
 entrypoints/openai/protocol.py                | 3299 +++++++++
 entrypoints/openai/run_batch.py               |  547 ++
 entrypoints/openai/serving_chat.py            | 1772 +++++
 entrypoints/openai/serving_classification.py  |  235 +
 entrypoints/openai/serving_completion.py      |  715 ++
 entrypoints/openai/serving_embedding.py       |  695 ++
 entrypoints/openai/serving_engine.py          | 1433 ++++
 entrypoints/openai/serving_models.py          |  304 +
 entrypoints/openai/serving_pooling.py         |  346 +
 entrypoints/openai/serving_responses.py       | 2021 ++++++
 entrypoints/openai/serving_score.py           |  503 ++
 entrypoints/openai/serving_tokenization.py    |  203 +
 entrypoints/openai/serving_tokens.py          |  269 +
 entrypoints/openai/serving_transcription.py   |  148 +
 entrypoints/openai/speech_to_text.py          |  405 ++
 entrypoints/openai/tool_parsers/__init__.py   |  142 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 2762 bytes
 .../abstract_tool_parser.cpython-312.pyc      |  Bin 0 -> 11487 bytes
 .../deepseekv31_tool_parser.cpython-312.pyc   |  Bin 0 -> 12457 bytes
 .../deepseekv3_tool_parser.cpython-312.pyc    |  Bin 0 -> 12551 bytes
 .../ernie45_tool_parser.cpython-312.pyc       |  Bin 0 -> 9347 bytes
 .../glm4_moe_tool_parser.cpython-312.pyc      |  Bin 0 -> 9266 bytes
 ...granite_20b_fc_tool_parser.cpython-312.pyc |  Bin 0 -> 9334 bytes
 .../granite_tool_parser.cpython-312.pyc       |  Bin 0 -> 8520 bytes
 .../hermes_tool_parser.cpython-312.pyc        |  Bin 0 -> 15493 bytes
 .../hunyuan_a13b_tool_parser.cpython-312.pyc  |  Bin 0 -> 15019 bytes
 .../internlm2_tool_parser.cpython-312.pyc     |  Bin 0 -> 8009 bytes
 .../jamba_tool_parser.cpython-312.pyc         |  Bin 0 -> 10133 bytes
 .../kimi_k2_tool_parser.cpython-312.pyc       |  Bin 0 -> 18882 bytes
 ...lama4_pythonic_tool_parser.cpython-312.pyc |  Bin 0 -> 13678 bytes
 .../llama_tool_parser.cpython-312.pyc         |  Bin 0 -> 9198 bytes
 .../longcat_tool_parser.cpython-312.pyc       |  Bin 0 -> 2024 bytes
 .../minimax_m2_tool_parser.cpython-312.pyc    |  Bin 0 -> 19625 bytes
 .../minimax_tool_parser.cpython-312.pyc       |  Bin 0 -> 30942 bytes
 .../mistral_tool_parser.cpython-312.pyc       |  Bin 0 -> 12635 bytes
 .../olmo3_tool_parser.cpython-312.pyc         |  Bin 0 -> 14943 bytes
 .../openai_tool_parser.cpython-312.pyc        |  Bin 0 -> 3796 bytes
 .../phi4mini_tool_parser.cpython-312.pyc      |  Bin 0 -> 4282 bytes
 .../pythonic_tool_parser.cpython-312.pyc      |  Bin 0 -> 13216 bytes
 .../qwen3coder_tool_parser.cpython-312.pyc    |  Bin 0 -> 23599 bytes
 .../qwen3xml_tool_parser.cpython-312.pyc      |  Bin 0 -> 40883 bytes
 .../seed_oss_tool_parser.cpython-312.pyc      |  Bin 0 -> 23616 bytes
 .../step3_tool_parser.cpython-312.pyc         |  Bin 0 -> 11565 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 9136 bytes
 .../xlam_tool_parser.cpython-312.pyc          |  Bin 0 -> 15705 bytes
 .../tool_parsers/abstract_tool_parser.py      |  273 +
 .../tool_parsers/deepseekv31_tool_parser.py   |  390 ++
 .../tool_parsers/deepseekv3_tool_parser.py    |  390 ++
 .../tool_parsers/ernie45_tool_parser.py       |  210 +
 .../tool_parsers/glm4_moe_tool_parser.py      |  200 +
 .../granite_20b_fc_tool_parser.py             |  273 +
 .../tool_parsers/granite_tool_parser.py       |  253 +
 .../openai/tool_parsers/hermes_tool_parser.py |  494 ++
 .../tool_parsers/hunyuan_a13b_tool_parser.py  |  420 ++
 .../tool_parsers/internlm2_tool_parser.py     |  227 +
 .../openai/tool_parsers/jamba_tool_parser.py  |  323 +
 .../tool_parsers/kimi_k2_tool_parser.py       |  590 ++
 .../llama4_pythonic_tool_parser.py            |  341 +
 .../openai/tool_parsers/llama_tool_parser.py  |  290 +
 .../tool_parsers/longcat_tool_parser.py       |   37 +
 .../tool_parsers/minimax_m2_tool_parser.py    |  643 ++
 .../tool_parsers/minimax_tool_parser.py       |  849 +++
 .../tool_parsers/mistral_tool_parser.py       |  390 ++
 .../openai/tool_parsers/olmo3_tool_parser.py  |  366 +
 .../openai/tool_parsers/openai_tool_parser.py |   97 +
 .../tool_parsers/phi4mini_tool_parser.py      |  120 +
 .../tool_parsers/pythonic_tool_parser.py      |  332 +
 .../tool_parsers/qwen3coder_tool_parser.py    |  781 +++
 .../tool_parsers/qwen3xml_tool_parser.py      | 1316 ++++
 .../tool_parsers/seed_oss_tool_parser.py      |  744 ++
 .../openai/tool_parsers/step3_tool_parser.py  |  303 +
 entrypoints/openai/tool_parsers/utils.py      |  229 +
 .../openai/tool_parsers/xlam_tool_parser.py   |  556 ++
 entrypoints/renderer.py                       |  409 ++
 entrypoints/responses_utils.py                |   77 +
 entrypoints/sagemaker/__init__.py             |    4 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 228 bytes
 .../__pycache__/routes.cpython-312.pyc        |  Bin 0 -> 4235 bytes
 entrypoints/sagemaker/routes.py               |   72 +
 entrypoints/score_utils.py                    |  242 +
 entrypoints/ssl.py                            |   78 +
 entrypoints/tool.py                           |  143 +
 entrypoints/tool_server.py                    |  209 +
 entrypoints/utils.py                          |  319 +
 env_override.py                               |  378 +
 envs.py                                       | 1729 +++++
 forward_context.py                            |  356 +
 inputs/__init__.py                            |   44 +
 inputs/__pycache__/__init__.cpython-312.pyc   |  Bin 0 -> 794 bytes
 inputs/__pycache__/data.cpython-312.pyc       |  Bin 0 -> 8951 bytes
 inputs/__pycache__/parse.cpython-312.pyc      |  Bin 0 -> 5339 bytes
 inputs/__pycache__/preprocess.cpython-312.pyc |  Bin 0 -> 23443 bytes
 inputs/data.py                                |  359 +
 inputs/parse.py                               |  137 +
 inputs/preprocess.py                          |  727 ++
 logger.py                                     |  267 +
 logging_utils/__init__.py                     |   10 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 339 bytes
 .../__pycache__/dump_input.cpython-312.pyc    |  Bin 0 -> 4113 bytes
 .../__pycache__/formatter.cpython-312.pyc     |  Bin 0 -> 3900 bytes
 .../__pycache__/log_time.cpython-312.pyc      |  Bin 0 -> 1376 bytes
 logging_utils/dump_input.py                   |   83 +
 logging_utils/formatter.py                    |   77 +
 logging_utils/log_time.py                     |   34 +
 logits_process.py                             |  121 +
 logprobs.py                                   |  208 +
 lora/__init__.py                              |    0
 lora/__pycache__/__init__.cpython-312.pyc     |  Bin 0 -> 154 bytes
 lora/__pycache__/lora_weights.cpython-312.pyc |  Bin 0 -> 7808 bytes
 lora/__pycache__/models.cpython-312.pyc       |  Bin 0 -> 39871 bytes
 lora/__pycache__/peft_helper.cpython-312.pyc  |  Bin 0 -> 6076 bytes
 lora/__pycache__/request.cpython-312.pyc      |  Bin 0 -> 4310 bytes
 lora/__pycache__/resolver.cpython-312.pyc     |  Bin 0 -> 3875 bytes
 lora/__pycache__/utils.cpython-312.pyc        |  Bin 0 -> 10927 bytes
 .../worker_manager.cpython-312.pyc            |  Bin 0 -> 12899 bytes
 lora/layers/__init__.py                       |   41 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 1279 bytes
 lora/layers/__pycache__/base.cpython-312.pyc  |  Bin 0 -> 2976 bytes
 .../__pycache__/base_linear.cpython-312.pyc   |  Bin 0 -> 7931 bytes
 .../column_parallel_linear.cpython-312.pyc    |  Bin 0 -> 25344 bytes
 .../__pycache__/fused_moe.cpython-312.pyc     |  Bin 0 -> 19112 bytes
 .../logits_processor.cpython-312.pyc          |  Bin 0 -> 10762 bytes
 .../replicated_linear.cpython-312.pyc         |  Bin 0 -> 3314 bytes
 .../row_parallel_linear.cpython-312.pyc       |  Bin 0 -> 7678 bytes
 lora/layers/__pycache__/utils.cpython-312.pyc |  Bin 0 -> 2875 bytes
 .../vocal_parallel_embedding.cpython-312.pyc  |  Bin 0 -> 8478 bytes
 lora/layers/base.py                           |   67 +
 lora/layers/base_linear.py                    |  164 +
 lora/layers/column_parallel_linear.py         |  578 ++
 lora/layers/fused_moe.py                      |  472 ++
 lora/layers/logits_processor.py               |  252 +
 lora/layers/replicated_linear.py              |   70 +
 lora/layers/row_parallel_linear.py            |  181 +
 lora/layers/utils.py                          |   65 +
 lora/layers/vocal_parallel_embedding.py       |  166 +
 lora/lora_weights.py                          |  198 +
 lora/models.py                                |  890 +++
 lora/ops/__init__.py                          |    0
 lora/ops/__pycache__/__init__.cpython-312.pyc |  Bin 0 -> 158 bytes
 lora/ops/ipex_ops/__init__.py                 |    6 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 315 bytes
 .../__pycache__/lora_ops.cpython-312.pyc      |  Bin 0 -> 2053 bytes
 lora/ops/ipex_ops/lora_ops.py                 |   57 +
 lora/ops/torch_ops/__init__.py                |   20 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 392 bytes
 .../__pycache__/lora_ops.cpython-312.pyc      |  Bin 0 -> 5264 bytes
 lora/ops/torch_ops/lora_ops.py                |  128 +
 lora/ops/triton_ops/README_TUNING.md          |   60 +
 lora/ops/triton_ops/__init__.py               |   21 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 620 bytes
 .../fused_moe_lora_op.cpython-312.pyc         |  Bin 0 -> 19306 bytes
 .../__pycache__/kernel_utils.cpython-312.pyc  |  Bin 0 -> 10301 bytes
 .../lora_expand_op.cpython-312.pyc            |  Bin 0 -> 10691 bytes
 .../lora_kernel_metadata.cpython-312.pyc      |  Bin 0 -> 5305 bytes
 .../lora_shrink_op.cpython-312.pyc            |  Bin 0 -> 8865 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 13075 bytes
 lora/ops/triton_ops/fused_moe_lora_op.py      |  640 ++
 lora/ops/triton_ops/kernel_utils.py           |  364 +
 lora/ops/triton_ops/lora_expand_op.py         |  336 +
 lora/ops/triton_ops/lora_kernel_metadata.py   |  154 +
 lora/ops/triton_ops/lora_shrink_op.py         |  290 +
 lora/ops/triton_ops/utils.py                  |  362 +
 lora/ops/xla_ops/__init__.py                  |    6 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 313 bytes
 .../__pycache__/lora_ops.cpython-312.pyc      |  Bin 0 -> 5662 bytes
 lora/ops/xla_ops/lora_ops.py                  |  141 +
 lora/peft_helper.py                           |  128 +
 lora/punica_wrapper/__init__.py               |   10 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 379 bytes
 .../__pycache__/punica_base.cpython-312.pyc   |  Bin 0 -> 18772 bytes
 .../__pycache__/punica_cpu.cpython-312.pyc    |  Bin 0 -> 13293 bytes
 .../__pycache__/punica_gpu.cpython-312.pyc    |  Bin 0 -> 14975 bytes
 .../punica_selector.cpython-312.pyc           |  Bin 0 -> 1076 bytes
 .../__pycache__/punica_tpu.cpython-312.pyc    |  Bin 0 -> 16045 bytes
 .../__pycache__/punica_xpu.cpython-312.pyc    |  Bin 0 -> 11244 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 5789 bytes
 lora/punica_wrapper/punica_base.py            |  492 ++
 lora/punica_wrapper/punica_cpu.py             |  351 +
 lora/punica_wrapper/punica_gpu.py             |  422 ++
 lora/punica_wrapper/punica_selector.py        |   21 +
 lora/punica_wrapper/punica_tpu.py             |  359 +
 lora/punica_wrapper/punica_xpu.py             |  279 +
 lora/punica_wrapper/utils.py                  |  150 +
 lora/request.py                               |  100 +
 lora/resolver.py                              |   88 +
 lora/utils.py                                 |  293 +
 lora/worker_manager.py                        |  279 +
 model_executor/__init__.py                    |   11 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 378 bytes
 .../__pycache__/custom_op.cpython-312.pyc     |  Bin 0 -> 7872 bytes
 .../__pycache__/parameter.cpython-312.pyc     |  Bin 0 -> 28677 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 3798 bytes
 model_executor/custom_op.py                   |  194 +
 model_executor/layers/__init__.py             |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 171 bytes
 .../__pycache__/activation.cpython-312.pyc    |  Bin 0 -> 33991 bytes
 .../attention_layer_base.cpython-312.pyc      |  Bin 0 -> 1564 bytes
 .../batch_invariant.cpython-312.pyc           |  Bin 0 -> 31725 bytes
 .../layers/__pycache__/conv.cpython-312.pyc   |  Bin 0 -> 10853 bytes
 .../layers/__pycache__/kda.cpython-312.pyc    |  Bin 0 -> 16543 bytes
 .../__pycache__/layernorm.cpython-312.pyc     |  Bin 0 -> 24933 bytes
 .../lightning_attn.cpython-312.pyc            |  Bin 0 -> 23160 bytes
 .../layers/__pycache__/linear.cpython-312.pyc |  Bin 0 -> 57622 bytes
 .../logits_processor.cpython-312.pyc          |  Bin 0 -> 4444 bytes
 .../layers/__pycache__/mla.cpython-312.pyc    |  Bin 0 -> 8685 bytes
 .../layers/__pycache__/pooler.cpython-312.pyc |  Bin 0 -> 38340 bytes
 .../__pycache__/resampler.cpython-312.pyc     |  Bin 0 -> 11454 bytes
 .../layers/__pycache__/utils.cpython-312.pyc  |  Bin 0 -> 12499 bytes
 .../vocab_parallel_embedding.cpython-312.pyc  |  Bin 0 -> 24473 bytes
 model_executor/layers/activation.py           |  577 ++
 model_executor/layers/attention_layer_base.py |   35 +
 model_executor/layers/batch_invariant.py      |  854 +++
 model_executor/layers/conv.py                 |  236 +
 model_executor/layers/fla/__init__.py         |    8 +
 .../fla/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 175 bytes
 model_executor/layers/fla/ops/__init__.py     |   17 +
 .../ops/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 403 bytes
 .../fla/ops/__pycache__/chunk.cpython-312.pyc |  Bin 0 -> 9841 bytes
 .../__pycache__/chunk_delta_h.cpython-312.pyc |  Bin 0 -> 16360 bytes
 .../ops/__pycache__/chunk_o.cpython-312.pyc   |  Bin 0 -> 8069 bytes
 .../chunk_scaled_dot_kkt.cpython-312.pyc      |  Bin 0 -> 6716 bytes
 .../ops/__pycache__/cumsum.cpython-312.pyc    |  Bin 0 -> 11751 bytes
 .../fused_recurrent.cpython-312.pyc           |  Bin 0 -> 16544 bytes
 .../fla/ops/__pycache__/index.cpython-312.pyc |  Bin 0 -> 1941 bytes
 .../fla/ops/__pycache__/kda.cpython-312.pyc   |  Bin 0 -> 53731 bytes
 .../ops/__pycache__/l2norm.cpython-312.pyc    |  Bin 0 -> 6366 bytes
 .../layernorm_guard.cpython-312.pyc           |  Bin 0 -> 15289 bytes
 .../fla/ops/__pycache__/op.cpython-312.pyc    |  Bin 0 -> 1656 bytes
 .../__pycache__/solve_tril.cpython-312.pyc    |  Bin 0 -> 27843 bytes
 .../fla/ops/__pycache__/utils.cpython-312.pyc |  Bin 0 -> 9355 bytes
 .../ops/__pycache__/wy_fast.cpython-312.pyc   |  Bin 0 -> 6858 bytes
 model_executor/layers/fla/ops/chunk.py        |  240 +
 .../layers/fla/ops/chunk_delta_h.py           |  344 +
 model_executor/layers/fla/ops/chunk_o.py      |  183 +
 .../layers/fla/ops/chunk_scaled_dot_kkt.py    |  154 +
 model_executor/layers/fla/ops/cumsum.py       |  280 +
 .../layers/fla/ops/fused_recurrent.py         |  390 ++
 model_executor/layers/fla/ops/index.py        |   41 +
 model_executor/layers/fla/ops/kda.py          | 1351 ++++
 model_executor/layers/fla/ops/l2norm.py       |  146 +
 .../layers/fla/ops/layernorm_guard.py         |  396 ++
 model_executor/layers/fla/ops/op.py           |   60 +
 model_executor/layers/fla/ops/solve_tril.py   |  556 ++
 model_executor/layers/fla/ops/utils.py        |  194 +
 model_executor/layers/fla/ops/wy_fast.py      |  158 +
 model_executor/layers/fused_moe/__init__.py   |  106 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 3100 bytes
 .../__pycache__/all2all_utils.cpython-312.pyc |  Bin 0 -> 5248 bytes
 .../batched_deep_gemm_moe.cpython-312.pyc     |  Bin 0 -> 17338 bytes
 ...ed_triton_or_deep_gemm_moe.cpython-312.pyc |  Bin 0 -> 6732 bytes
 .../__pycache__/config.cpython-312.pyc        |  Bin 0 -> 37749 bytes
 .../__pycache__/cpu_fused_moe.cpython-312.pyc |  Bin 0 -> 15307 bytes
 .../__pycache__/cutlass_moe.cpython-312.pyc   |  Bin 0 -> 41691 bytes
 .../__pycache__/deep_gemm_moe.cpython-312.pyc |  Bin 0 -> 15603 bytes
 .../deep_gemm_utils.cpython-312.pyc           |  Bin 0 -> 14759 bytes
 ...deepep_ht_prepare_finalize.cpython-312.pyc |  Bin 0 -> 13810 bytes
 ...deepep_ll_prepare_finalize.cpython-312.pyc |  Bin 0 -> 13692 bytes
 .../flashinfer_cutlass_moe.cpython-312.pyc    |  Bin 0 -> 11265 bytes
 ...r_cutlass_prepare_finalize.cpython-312.pyc |  Bin 0 -> 13006 bytes
 .../flashinfer_trtllm_moe.cpython-312.pyc     |  Bin 0 -> 6560 bytes
 .../fused_batched_moe.cpython-312.pyc         |  Bin 0 -> 36161 bytes
 .../fused_marlin_moe.cpython-312.pyc          |  Bin 0 -> 30989 bytes
 .../__pycache__/fused_moe.cpython-312.pyc     |  Bin 0 -> 68741 bytes
 .../fused_moe_method_base.cpython-312.pyc     |  Bin 0 -> 5436 bytes
 .../fused_moe_modular_method.cpython-312.pyc  |  Bin 0 -> 6844 bytes
 ...gpt_oss_triton_kernels_moe.cpython-312.pyc |  Bin 0 -> 12376 bytes
 .../__pycache__/layer.cpython-312.pyc         |  Bin 0 -> 72036 bytes
 .../modular_kernel.cpython-312.pyc            |  Bin 0 -> 45735 bytes
 .../moe_align_block_size.cpython-312.pyc      |  Bin 0 -> 8126 bytes
 .../__pycache__/moe_pallas.cpython-312.pyc    |  Bin 0 -> 4926 bytes
 .../moe_permute_unpermute.cpython-312.pyc     |  Bin 0 -> 9456 bytes
 .../moe_torch_iterative.cpython-312.pyc       |  Bin 0 -> 2729 bytes
 .../pplx_prepare_finalize.cpython-312.pyc     |  Bin 0 -> 12401 bytes
 .../prepare_finalize.cpython-312.pyc          |  Bin 0 -> 3837 bytes
 .../rocm_aiter_fused_moe.cpython-312.pyc      |  Bin 0 -> 8618 bytes
 .../routing_simulator.cpython-312.pyc         |  Bin 0 -> 12370 bytes
 .../shared_fused_moe.cpython-312.pyc          |  Bin 0 -> 3716 bytes
 .../topk_weight_and_reduce.cpython-312.pyc    |  Bin 0 -> 7970 bytes
 .../triton_deep_gemm_moe.cpython-312.pyc      |  Bin 0 -> 6188 bytes
 .../__pycache__/trtllm_moe.cpython-312.pyc    |  Bin 0 -> 6222 bytes
 ...quantized_fused_moe_method.cpython-312.pyc |  Bin 0 -> 22021 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 13285 bytes
 .../layers/fused_moe/all2all_utils.py         |  160 +
 .../layers/fused_moe/batched_deep_gemm_moe.py |  406 ++
 .../batched_triton_or_deep_gemm_moe.py        |  180 +
 model_executor/layers/fused_moe/config.py     |  916 +++
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  146 +
 ...336,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  218 +
 ...792,device_name=NVIDIA_A100-SXM4-80GB.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...072,device_name=NVIDIA_H100_80GB_HBM3.json |  218 +
 ...ice_name=NVIDIA_H200,dtype=int8_w8a16.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  218 +
 ...584,device_name=NVIDIA_A100-SXM4-80GB.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  218 +
 ...168,device_name=NVIDIA_A100-SXM4-80GB.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=1024,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...evice_name=NVIDIA_H100,dtype=fp8_w8a8.json |  123 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=128,N=1024,device_name=NVIDIA_H200.json |  146 +
 ...856,device_name=NVIDIA_H100_80GB_HBM3.json |  147 +
 .../E=128,N=1856,device_name=NVIDIA_L40S.json |  147 +
 ...192,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...192,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...E=128,N=192,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=128,N=192,device_name=NVIDIA_H20.json   |  146 +
 .../E=128,N=192,device_name=NVIDIA_H200.json  |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  122 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...E=128,N=384,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=128,N=384,device_name=NVIDIA_H20.json   |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 .../E=128,N=384,device_name=NVIDIA_H200.json  |  146 +
 ...512,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_B200,dtype=fp8_w8a8.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  114 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...N=768,device_name=AMD_Instinct_MI308X.json |  213 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 .../E=128,N=768,device_name=NVIDIA_H20.json   |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 .../E=128,N=768,device_name=NVIDIA_H200.json  |  146 +
 ...name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json |   82 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |   82 +
 ...928,device_name=NVIDIA_H100_80GB_HBM3.json |  147 +
 .../E=128,N=928,device_name=NVIDIA_L40S.json  |  147 +
 .../E=128,N=96,device_name=NVIDIA_H20.json    |  146 +
 ...=1024,device_name=AMD_Instinct_MI300X.json |  200 +
 ...evice_name=NVIDIA_B200,dtype=fp8_w8a8.json |  147 +
 .../E=16,N=1024,device_name=NVIDIA_B200.json  |  146 +
 .../E=16,N=1024,device_name=NVIDIA_H100.json  |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=16,N=1024,device_name=NVIDIA_H200.json  |  146 +
 ...344,device_name=NVIDIA_A100-SXM4-40GB.json |  146 +
 ...344,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...344,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  146 +
 ...336,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  218 +
 ...792,device_name=NVIDIA_A100-SXM4-80GB.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...792,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=16,N=2048,device_name=NVIDIA_H200.json  |  146 +
 ...688,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...688,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  146 +
 ...me=NVIDIA_H100_80GB_HBM3,dtype=float8.json |  146 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...ice_name=NVIDIA_H200,dtype=int8_w8a16.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  130 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  146 +
 ...584,device_name=NVIDIA_A100-SXM4-80GB.json |  218 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  130 +
 ...VIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json |  146 +
 ...168,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...me=NVIDIA_H100_80GB_HBM3,dtype=float8.json |  146 +
 ...VIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  130 +
 ...N=192,device_name=AMD_Instinct_MI300X.json |  201 +
 ...AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json |  164 +
 ...192,device_name=NVIDIA_A800-SXM4-80GB.json |  146 +
 ...E=160,N=192,device_name=NVIDIA_H20-3e.json |  146 +
 ...E=160,N=320,device_name=NVIDIA_H20-3e.json |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json |  164 +
 ...AMD_Instinct_MI355_OAM,dtype=fp8_w8a8.json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...Instinct_MI325X,block_shape=[128,128].json |  200 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  200 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8.json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  200 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  200 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  147 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  200 +
 ...512,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...=64,device_name=NVIDIA_A800-SXM4-80GB.json |  146 +
 .../E=32,N=1408,device_name=NVIDIA_B200.json  |  147 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  147 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  147 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...evice_name=NVIDIA_B200,dtype=fp8_w8a8.json |  147 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...128,device_name=NVIDIA_A100-SXM4-80GB.json |  147 +
 .../E=512,N=128,device_name=NVIDIA_B200.json  |  146 +
 ...vice_name=NVIDIA_GB200,dtype=fp8_w8a8.json |  147 +
 ...128,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...E=512,N=128,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=512,N=128,device_name=NVIDIA_H200.json  |  146 +
 .../E=512,N=256,device_name=NVIDIA_B200.json  |  146 +
 ...vice_name=NVIDIA_GB200,dtype=fp8_w8a8.json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  147 +
 ...256,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...E=512,N=256,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=512,N=256,device_name=NVIDIA_H200.json  |  146 +
 .../E=512,N=512,device_name=NVIDIA_B200.json  |  146 +
 ...vice_name=NVIDIA_GB200,dtype=fp8_w8a8.json |  146 +
 ...512,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...E=512,N=512,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=512,N=512,device_name=NVIDIA_H200.json  |  146 +
 ...=64,device_name=NVIDIA_A100-SXM4-80GB.json |  147 +
 .../E=512,N=64,device_name=NVIDIA_B200.json   |  146 +
 .../E=512,N=64,device_name=NVIDIA_H20-3e.json |  146 +
 .../E=512,N=64,device_name=NVIDIA_H200.json   |  146 +
 ...=1408,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=176,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=352,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=704,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=128,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=256,device_name=AMD_Instinct_MI300X.json |  200 +
 ...256,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...N=512,device_name=AMD_Instinct_MI300X.json |  200 +
 ...512,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...280,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...280,device_name=NVIDIA_A800-SXM4-80GB.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...280,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=1280,device_name=NVIDIA_H200.json  |  146 +
 .../E=64,N=1408,device_name=NVIDIA_B200.json  |  147 +
 ...device_name=NVIDIA_H20,dtype=fp8_w8a8.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=2560,device_name=NVIDIA_H200.json  |  146 +
 ...device_name=NVIDIA_H20,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=3072,device_name=NVIDIA_H20.json   |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...320,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=320,device_name=NVIDIA_H200.json   |  146 +
 ...device_name=NVIDIA_H20,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=384,device_name=NVIDIA_H20.json    |  146 +
 ...640,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...640,device_name=NVIDIA_A800-SXM4-80GB.json |  146 +
 ...VIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...640,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=640,device_name=NVIDIA_H200.json   |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  147 +
 ...device_name=NVIDIA_H20,dtype=fp8_w8a8.json |  146 +
 .../E=64,N=768,device_name=NVIDIA_H20.json    |  146 +
 .../E=64,N=896,device_name=NVIDIA_H20.json    |  146 +
 ...name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json |   82 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |   82 +
 ...N=192,device_name=AMD_Instinct_MI300X.json |  200 +
 ...N=384,device_name=AMD_Instinct_MI300X.json |  200 +
 ...384,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...N=768,device_name=AMD_Instinct_MI300X.json |  200 +
 ...768,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...14336,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...14336,device_name=AMD_Instinct_MI325X.json |  200 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  138 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=14336,device_name=NVIDIA_H200.json  |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...16384,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...16384,device_name=AMD_Instinct_MI325X.json |  200 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=1792,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=1792,device_name=AMD_Instinct_MI325X.json |  200 +
 ...792,device_name=NVIDIA_A100-SXM4-40GB.json |  146 +
 ...792,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...792,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=1792,device_name=NVIDIA_H200.json   |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=2048,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=2048,device_name=AMD_Instinct_MI325X.json |  200 +
 ...048,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...048,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  154 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=2048,device_name=NVIDIA_H200.json   |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=3584,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=3584,device_name=AMD_Instinct_MI325X.json |  200 +
 ...584,device_name=NVIDIA_A100-SXM4-40GB.json |  146 +
 ...584,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...VIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...584,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=3584,device_name=NVIDIA_H200.json   |  146 +
 .../E=8,N=3584,device_name=NVIDIA_L40S.json   |  173 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=4096,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=4096,device_name=AMD_Instinct_MI325X.json |  200 +
 ...096,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...096,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=4096,device_name=NVIDIA_H200.json   |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=7168,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=7168,device_name=AMD_Instinct_MI325X.json |  200 +
 ...168,device_name=NVIDIA_A100-SXM4-80GB.json |  146 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...168,device_name=NVIDIA_H100_80GB_HBM3.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../E=8,N=7168,device_name=NVIDIA_H200.json   |  146 +
 ...me=AMD_Instinct_MI300X,dtype=fp8_w8a8.json |  164 +
 ...=8192,device_name=AMD_Instinct_MI300X.json |  200 +
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json |  164 +
 ...=8192,device_name=AMD_Instinct_MI325X.json |  200 +
 ...=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json |  146 +
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json |  146 +
 .../layers/fused_moe/configs/README           |   12 +
 .../layers/fused_moe/cpu_fused_moe.py         |  354 +
 .../layers/fused_moe/cutlass_moe.py           | 1052 +++
 .../layers/fused_moe/deep_gemm_moe.py         |  387 ++
 .../layers/fused_moe/deep_gemm_utils.py       |  416 ++
 .../fused_moe/deepep_ht_prepare_finalize.py   |  420 ++
 .../fused_moe/deepep_ll_prepare_finalize.py   |  367 +
 .../fused_moe/flashinfer_cutlass_moe.py       |  307 +
 .../flashinfer_cutlass_prepare_finalize.py    |  362 +
 .../layers/fused_moe/flashinfer_trtllm_moe.py |  192 +
 .../layers/fused_moe/fused_batched_moe.py     | 1012 +++
 .../layers/fused_moe/fused_marlin_moe.py      |  792 +++
 model_executor/layers/fused_moe/fused_moe.py  | 2306 +++++++
 .../layers/fused_moe/fused_moe_method_base.py |  112 +
 .../fused_moe/fused_moe_modular_method.py     |  164 +
 .../fused_moe/gpt_oss_triton_kernels_moe.py   |  316 +
 model_executor/layers/fused_moe/layer.py      | 2038 ++++++
 .../layers/fused_moe/modular_kernel.py        | 1222 ++++
 .../layers/fused_moe/moe_align_block_size.py  |  174 +
 model_executor/layers/fused_moe/moe_pallas.py |   83 +
 .../layers/fused_moe/moe_permute_unpermute.py |  229 +
 .../layers/fused_moe/moe_torch_iterative.py   |   60 +
 .../layers/fused_moe/pplx_prepare_finalize.py |  362 +
 .../layers/fused_moe/prepare_finalize.py      |   77 +
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  265 +
 .../layers/fused_moe/routing_simulator.py     |  310 +
 .../layers/fused_moe/shared_fused_moe.py      |   97 +
 .../fused_moe/topk_weight_and_reduce.py       |  171 +
 .../layers/fused_moe/triton_deep_gemm_moe.py  |  163 +
 model_executor/layers/fused_moe/trtllm_moe.py |  143 +
 .../fused_moe/unquantized_fused_moe_method.py |  578 ++
 model_executor/layers/fused_moe/utils.py      |  332 +
 model_executor/layers/kda.py                  |  448 ++
 model_executor/layers/layernorm.py            |  578 ++
 model_executor/layers/lightning_attn.py       |  729 ++
 model_executor/layers/linear.py               | 1496 ++++
 model_executor/layers/logits_processor.py     |  109 +
 model_executor/layers/mamba/__init__.py       |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 177 bytes
 .../__pycache__/abstract.cpython-312.pyc      |  Bin 0 -> 3273 bytes
 .../__pycache__/linear_attn.cpython-312.pyc   |  Bin 0 -> 20236 bytes
 .../__pycache__/mamba_mixer.cpython-312.pyc   |  Bin 0 -> 19928 bytes
 .../__pycache__/mamba_mixer2.cpython-312.pyc  |  Bin 0 -> 28575 bytes
 .../__pycache__/mamba_utils.cpython-312.pyc   |  Bin 0 -> 8024 bytes
 .../__pycache__/short_conv.cpython-312.pyc    |  Bin 0 -> 9617 bytes
 model_executor/layers/mamba/abstract.py       |   71 +
 model_executor/layers/mamba/linear_attn.py    |  402 ++
 model_executor/layers/mamba/mamba_mixer.py    |  535 ++
 model_executor/layers/mamba/mamba_mixer2.py   |  928 +++
 model_executor/layers/mamba/mamba_utils.py    |  225 +
 model_executor/layers/mamba/ops/__init__.py   |    0
 .../ops/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 181 bytes
 .../__pycache__/causal_conv1d.cpython-312.pyc |  Bin 0 -> 38667 bytes
 .../layernorm_gated.cpython-312.pyc           |  Bin 0 -> 7212 bytes
 .../ops/__pycache__/mamba_ssm.cpython-312.pyc |  Bin 0 -> 19389 bytes
 .../ops/__pycache__/ssd_bmm.cpython-312.pyc   |  Bin 0 -> 8508 bytes
 .../ssd_chunk_scan.cpython-312.pyc            |  Bin 0 -> 17232 bytes
 .../ssd_chunk_state.cpython-312.pyc           |  Bin 0 -> 27541 bytes
 .../__pycache__/ssd_combined.cpython-312.pyc  |  Bin 0 -> 5410 bytes
 .../ssd_state_passing.cpython-312.pyc         |  Bin 0 -> 6480 bytes
 .../layers/mamba/ops/causal_conv1d.py         | 1240 ++++
 .../layers/mamba/ops/layernorm_gated.py       |  172 +
 model_executor/layers/mamba/ops/mamba_ssm.py  |  478 ++
 model_executor/layers/mamba/ops/ssd_bmm.py    |  211 +
 .../layers/mamba/ops/ssd_chunk_scan.py        |  456 ++
 .../layers/mamba/ops/ssd_chunk_state.py       |  700 ++
 .../layers/mamba/ops/ssd_combined.py          |  230 +
 .../layers/mamba/ops/ssd_state_passing.py     |  157 +
 model_executor/layers/mamba/short_conv.py     |  264 +
 model_executor/layers/mla.py                  |  159 +
 model_executor/layers/pooler.py               |  817 +++
 .../layers/quantization/__init__.py           |  177 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 5204 bytes
 .../__pycache__/auto_round.cpython-312.pyc    |  Bin 0 -> 17005 bytes
 .../__pycache__/awq.cpython-312.pyc           |  Bin 0 -> 12290 bytes
 .../__pycache__/awq_marlin.cpython-312.pyc    |  Bin 0 -> 27763 bytes
 .../__pycache__/awq_triton.cpython-312.pyc    |  Bin 0 -> 13303 bytes
 .../__pycache__/base_config.cpython-312.pyc   |  Bin 0 -> 8171 bytes
 .../__pycache__/bitblas.cpython-312.pyc       |  Bin 0 -> 18008 bytes
 .../__pycache__/bitsandbytes.cpython-312.pyc  |  Bin 0 -> 25303 bytes
 .../__pycache__/deepspeedfp.cpython-312.pyc   |  Bin 0 -> 11053 bytes
 .../__pycache__/experts_int8.cpython-312.pyc  |  Bin 0 -> 10786 bytes
 .../__pycache__/fbgemm_fp8.cpython-312.pyc    |  Bin 0 -> 8582 bytes
 .../__pycache__/fp8.cpython-312.pyc           |  Bin 0 -> 48847 bytes
 .../__pycache__/fp_quant.cpython-312.pyc      |  Bin 0 -> 16355 bytes
 .../__pycache__/gguf.cpython-312.pyc          |  Bin 0 -> 27392 bytes
 .../__pycache__/gptq.cpython-312.pyc          |  Bin 0 -> 15138 bytes
 .../__pycache__/gptq_bitblas.cpython-312.pyc  |  Bin 0 -> 17169 bytes
 .../__pycache__/gptq_marlin.cpython-312.pyc   |  Bin 0 -> 36625 bytes
 .../gptq_marlin_24.cpython-312.pyc            |  Bin 0 -> 12232 bytes
 .../__pycache__/hqq_marlin.cpython-312.pyc    |  Bin 0 -> 16942 bytes
 .../__pycache__/inc.cpython-312.pyc           |  Bin 0 -> 2568 bytes
 .../input_quant_fp8.cpython-312.pyc           |  Bin 0 -> 8415 bytes
 .../__pycache__/ipex_quant.cpython-312.pyc    |  Bin 0 -> 22177 bytes
 .../__pycache__/kv_cache.cpython-312.pyc      |  Bin 0 -> 6894 bytes
 .../__pycache__/modelopt.cpython-312.pyc      |  Bin 0 -> 63209 bytes
 .../__pycache__/moe_wna16.cpython-312.pyc     |  Bin 0 -> 21307 bytes
 .../__pycache__/mxfp4.cpython-312.pyc         |  Bin 0 -> 47430 bytes
 .../__pycache__/petit.cpython-312.pyc         |  Bin 0 -> 14343 bytes
 .../__pycache__/ptpc_fp8.cpython-312.pyc      |  Bin 0 -> 6947 bytes
 .../__pycache__/qutlass_utils.cpython-312.pyc |  Bin 0 -> 6465 bytes
 .../__pycache__/rtn.cpython-312.pyc           |  Bin 0 -> 29542 bytes
 .../__pycache__/schema.cpython-312.pyc        |  Bin 0 -> 4340 bytes
 .../__pycache__/torchao.cpython-312.pyc       |  Bin 0 -> 15833 bytes
 .../__pycache__/tpu_int8.cpython-312.pyc      |  Bin 0 -> 7400 bytes
 .../__pycache__/w8a16.cpython-312.pyc         |  Bin 0 -> 5386 bytes
 .../layers/quantization/auto_round.py         |  454 ++
 model_executor/layers/quantization/awq.py     |  278 +
 .../layers/quantization/awq_marlin.py         |  869 +++
 .../layers/quantization/awq_triton.py         |  337 +
 .../layers/quantization/base_config.py        |  170 +
 model_executor/layers/quantization/bitblas.py |  502 ++
 .../layers/quantization/bitsandbytes.py       |  658 ++
 .../compressed_tensors/__init__.py            |    3 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 203 bytes
 .../compressed_tensors.cpython-312.pyc        |  Bin 0 -> 34493 bytes
 .../compressed_tensors_moe.cpython-312.pyc    |  Bin 0 -> 127709 bytes
 .../triton_scaled_mm.cpython-312.pyc          |  Bin 0 -> 9368 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 7738 bytes
 .../compressed_tensors/compressed_tensors.py  |  914 +++
 .../compressed_tensors_moe.py                 | 3534 ++++++++++
 .../compressed_tensors/schemes/__init__.py    |   35 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 1227 bytes
 .../compressed_tensors_24.cpython-312.pyc     |  Bin 0 -> 16077 bytes
 .../compressed_tensors_scheme.cpython-312.pyc |  Bin 0 -> 2420 bytes
 ...ompressed_tensors_w4a16_24.cpython-312.pyc |  Bin 0 -> 6711 bytes
 ...ressed_tensors_w4a16_nvfp4.cpython-312.pyc |  Bin 0 -> 4861 bytes
 ...pressed_tensors_w4a4_nvfp4.cpython-312.pyc |  Bin 0 -> 9136 bytes
 ...ompressed_tensors_w4a8_fp8.cpython-312.pyc |  Bin 0 -> 6831 bytes
 ...ompressed_tensors_w4a8_int.cpython-312.pyc |  Bin 0 -> 5695 bytes
 ...mpressed_tensors_w8a16_fp8.cpython-312.pyc |  Bin 0 -> 5787 bytes
 ...ompressed_tensors_w8a8_fp8.cpython-312.pyc |  Bin 0 -> 7849 bytes
 ...mpressed_tensors_w8a8_int8.cpython-312.pyc |  Bin 0 -> 5749 bytes
 .../compressed_tensors_wNa16.cpython-312.pyc  |  Bin 0 -> 7662 bytes
 .../schemes/compressed_tensors_24.py          |  392 ++
 .../schemes/compressed_tensors_scheme.py      |   55 +
 .../schemes/compressed_tensors_w4a16_24.py    |  176 +
 .../schemes/compressed_tensors_w4a16_nvfp4.py |  124 +
 .../schemes/compressed_tensors_w4a4_nvfp4.py  |  218 +
 .../schemes/compressed_tensors_w4a8_fp8.py    |  183 +
 .../schemes/compressed_tensors_w4a8_int.py    |  153 +
 .../schemes/compressed_tensors_w8a16_fp8.py   |  138 +
 .../schemes/compressed_tensors_w8a8_fp8.py    |  200 +
 .../schemes/compressed_tensors_w8a8_int8.py   |  137 +
 .../schemes/compressed_tensors_wNa16.py       |  219 +
 .../compressed_tensors/transform/__init__.py  |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 213 bytes
 .../__pycache__/linear.cpython-312.pyc        |  Bin 0 -> 10625 bytes
 .../__pycache__/module.cpython-312.pyc        |  Bin 0 -> 7745 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 661 bytes
 .../compressed_tensors/transform/linear.py    |  260 +
 .../compressed_tensors/transform/module.py    |  173 +
 .../transform/schemes/__init__.py             |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 221 bytes
 .../linear_qutlass_nvfp4.cpython-312.pyc      |  Bin 0 -> 2667 bytes
 .../transform/schemes/linear_qutlass_nvfp4.py |   64 +
 .../compressed_tensors/transform/utils.py     |   13 +
 .../compressed_tensors/triton_scaled_mm.py    |  224 +
 .../quantization/compressed_tensors/utils.py  |  216 +
 .../layers/quantization/deepspeedfp.py        |  218 +
 .../layers/quantization/experts_int8.py       |  240 +
 .../layers/quantization/fbgemm_fp8.py         |  195 +
 model_executor/layers/quantization/fp8.py     | 1333 ++++
 .../layers/quantization/fp_quant.py           |  420 ++
 model_executor/layers/quantization/gguf.py    |  651 ++
 model_executor/layers/quantization/gptq.py    |  393 ++
 .../layers/quantization/gptq_bitblas.py       |  482 ++
 .../layers/quantization/gptq_marlin.py        | 1099 +++
 .../layers/quantization/gptq_marlin_24.py     |  320 +
 .../layers/quantization/hqq_marlin.py         |  371 +
 model_executor/layers/quantization/inc.py     |   65 +
 .../layers/quantization/input_quant_fp8.py    |  171 +
 .../layers/quantization/ipex_quant.py         |  467 ++
 .../layers/quantization/kernels/__init__.py   |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 192 bytes
 .../kernels/mixed_precision/MPLinearKernel.py |   94 +
 .../kernels/mixed_precision/__init__.py       |  105 +
 .../MPLinearKernel.cpython-312.pyc            |  Bin 0 -> 4534 bytes
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 3766 bytes
 .../__pycache__/allspark.cpython-312.pyc      |  Bin 0 -> 5581 bytes
 .../__pycache__/bitblas.cpython-312.pyc       |  Bin 0 -> 13151 bytes
 .../__pycache__/conch.cpython-312.pyc         |  Bin 0 -> 4606 bytes
 .../__pycache__/cutlass.cpython-312.pyc       |  Bin 0 -> 6374 bytes
 .../__pycache__/dynamic_4bit.cpython-312.pyc  |  Bin 0 -> 5547 bytes
 .../__pycache__/exllama.cpython-312.pyc       |  Bin 0 -> 7644 bytes
 .../__pycache__/machete.cpython-312.pyc       |  Bin 0 -> 7850 bytes
 .../__pycache__/marlin.cpython-312.pyc        |  Bin 0 -> 12333 bytes
 .../kernels/mixed_precision/allspark.py       |  115 +
 .../kernels/mixed_precision/bitblas.py        |  323 +
 .../kernels/mixed_precision/conch.py          |   98 +
 .../kernels/mixed_precision/cutlass.py        |  119 +
 .../kernels/mixed_precision/dynamic_4bit.py   |  111 +
 .../kernels/mixed_precision/exllama.py        |  161 +
 .../kernels/mixed_precision/machete.py        |  154 +
 .../kernels/mixed_precision/marlin.py         |  325 +
 .../kernels/scaled_mm/ScaledMMLinearKernel.py |   73 +
 .../kernels/scaled_mm/__init__.py             |   97 +
 .../ScaledMMLinearKernel.cpython-312.pyc      |  Bin 0 -> 3478 bytes
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 3691 bytes
 .../__pycache__/aiter.cpython-312.pyc         |  Bin 0 -> 4849 bytes
 .../scaled_mm/__pycache__/cpu.cpython-312.pyc |  Bin 0 -> 10421 bytes
 .../__pycache__/cutlass.cpython-312.pyc       |  Bin 0 -> 6915 bytes
 .../__pycache__/triton.cpython-312.pyc        |  Bin 0 -> 2223 bytes
 .../scaled_mm/__pycache__/xla.cpython-312.pyc |  Bin 0 -> 4859 bytes
 .../quantization/kernels/scaled_mm/aiter.py   |  120 +
 .../quantization/kernels/scaled_mm/cpu.py     |  219 +
 .../quantization/kernels/scaled_mm/cutlass.py |  160 +
 .../quantization/kernels/scaled_mm/triton.py  |   42 +
 .../quantization/kernels/scaled_mm/xla.py     |  105 +
 .../layers/quantization/kv_cache.py           |  146 +
 .../layers/quantization/modelopt.py           | 1788 +++++
 .../layers/quantization/moe_wna16.py          |  541 ++
 model_executor/layers/quantization/mxfp4.py   | 1162 ++++
 model_executor/layers/quantization/petit.py   |  320 +
 .../layers/quantization/ptpc_fp8.py           |  137 +
 .../layers/quantization/quark/__init__.py     |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 190 bytes
 .../quark/__pycache__/quark.cpython-312.pyc   |  Bin 0 -> 22202 bytes
 .../__pycache__/quark_moe.cpython-312.pyc     |  Bin 0 -> 26404 bytes
 .../quark/__pycache__/utils.cpython-312.pyc   |  Bin 0 -> 3631 bytes
 .../layers/quantization/quark/quark.py        |  528 ++
 .../layers/quantization/quark/quark_moe.py    |  683 ++
 .../quantization/quark/schemes/__init__.py    |    9 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 450 bytes
 .../__pycache__/quark_ocp_mx.cpython-312.pyc  |  Bin 0 -> 12598 bytes
 .../__pycache__/quark_scheme.cpython-312.pyc  |  Bin 0 -> 2321 bytes
 .../quark_w8a8_fp8.cpython-312.pyc            |  Bin 0 -> 7144 bytes
 .../quark_w8a8_int8.cpython-312.pyc           |  Bin 0 -> 5708 bytes
 .../quark/schemes/quark_ocp_mx.py             |  306 +
 .../quark/schemes/quark_scheme.py             |   55 +
 .../quark/schemes/quark_w8a8_fp8.py           |  179 +
 .../quark/schemes/quark_w8a8_int8.py          |  139 +
 .../layers/quantization/quark/utils.py        |  105 +
 .../layers/quantization/qutlass_utils.py      |  185 +
 model_executor/layers/quantization/rtn.py     |  652 ++
 model_executor/layers/quantization/schema.py  |   90 +
 model_executor/layers/quantization/torchao.py |  380 +
 .../layers/quantization/tpu_int8.py           |  139 +
 .../layers/quantization/utils/__init__.py     |    6 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 319 bytes
 .../allspark_utils.cpython-312.pyc            |  Bin 0 -> 2201 bytes
 .../__pycache__/bitblas_utils.cpython-312.pyc |  Bin 0 -> 8574 bytes
 .../flashinfer_fp4_moe.cpython-312.pyc        |  Bin 0 -> 4159 bytes
 .../flashinfer_utils.cpython-312.pyc          |  Bin 0 -> 11727 bytes
 .../__pycache__/fp8_utils.cpython-312.pyc     |  Bin 0 -> 46575 bytes
 .../__pycache__/gguf_utils.cpython-312.pyc    |  Bin 0 -> 26672 bytes
 .../__pycache__/gptq_utils.cpython-312.pyc    |  Bin 0 -> 5958 bytes
 .../__pycache__/int8_utils.cpython-312.pyc    |  Bin 0 -> 21359 bytes
 .../__pycache__/layer_utils.cpython-312.pyc   |  Bin 0 -> 2026 bytes
 .../__pycache__/machete_utils.cpython-312.pyc |  Bin 0 -> 2322 bytes
 .../__pycache__/marlin_utils.cpython-312.pyc  |  Bin 0 -> 20344 bytes
 .../marlin_utils_fp4.cpython-312.pyc          |  Bin 0 -> 16876 bytes
 .../marlin_utils_fp8.cpython-312.pyc          |  Bin 0 -> 13583 bytes
 .../marlin_utils_test.cpython-312.pyc         |  Bin 0 -> 7010 bytes
 .../marlin_utils_test_24.cpython-312.pyc      |  Bin 0 -> 19041 bytes
 .../__pycache__/mxfp4_utils.cpython-312.pyc   |  Bin 0 -> 6661 bytes
 .../__pycache__/mxfp6_utils.cpython-312.pyc   |  Bin 0 -> 5059 bytes
 .../__pycache__/mxfp8_utils.cpython-312.pyc   |  Bin 0 -> 1144 bytes
 .../nvfp4_emulation_utils.cpython-312.pyc     |  Bin 0 -> 7531 bytes
 .../nvfp4_moe_support.cpython-312.pyc         |  Bin 0 -> 2252 bytes
 .../__pycache__/ocp_mx_utils.cpython-312.pyc  |  Bin 0 -> 1780 bytes
 .../__pycache__/petit_utils.cpython-312.pyc   |  Bin 0 -> 4228 bytes
 .../__pycache__/quant_utils.cpython-312.pyc   |  Bin 0 -> 30167 bytes
 .../__pycache__/w8a8_utils.cpython-312.pyc    |  Bin 0 -> 17323 bytes
 .../quantization/utils/allspark_utils.py      |   67 +
 .../quantization/utils/bitblas_utils.py       |  229 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   18 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...dtype=int8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  146 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |   26 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 ...,dtype=fp8_w8a8,block_shape=[128,128].json |  164 +
 .../quantization/utils/configs/README.md      |    3 +
 .../quantization/utils/flashinfer_fp4_moe.py  |   89 +
 .../quantization/utils/flashinfer_utils.py    |  298 +
 .../layers/quantization/utils/fp8_utils.py    | 1206 ++++
 .../layers/quantization/utils/gguf_utils.py   |  373 +
 .../layers/quantization/utils/gptq_utils.py   |  158 +
 .../layers/quantization/utils/int8_utils.py   |  489 ++
 .../layers/quantization/utils/layer_utils.py  |   41 +
 .../quantization/utils/machete_utils.py       |   56 +
 .../layers/quantization/utils/marlin_utils.py |  575 ++
 .../quantization/utils/marlin_utils_fp4.py    |  397 ++
 .../quantization/utils/marlin_utils_fp8.py    |  351 +
 .../quantization/utils/marlin_utils_test.py   |  161 +
 .../utils/marlin_utils_test_24.py             |  467 ++
 .../layers/quantization/utils/mxfp4_utils.py  |  181 +
 .../layers/quantization/utils/mxfp6_utils.py  |  142 +
 .../layers/quantization/utils/mxfp8_utils.py  |   24 +
 .../utils/nvfp4_emulation_utils.py            |  142 +
 .../quantization/utils/nvfp4_moe_support.py   |   63 +
 .../layers/quantization/utils/ocp_mx_utils.py |   51 +
 .../layers/quantization/utils/petit_utils.py  |  124 +
 .../layers/quantization/utils/quant_utils.py  |  687 ++
 .../layers/quantization/utils/w8a8_utils.py   |  516 ++
 model_executor/layers/quantization/w8a16.py   |  114 +
 model_executor/layers/resampler.py            |  283 +
 .../layers/rotary_embedding/__init__.py       |  278 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 6299 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 9571 bytes
 .../__pycache__/common.cpython-312.pyc        |  Bin 0 -> 6616 bytes
 .../deepseek_scaling_rope.cpython-312.pyc     |  Bin 0 -> 4452 bytes
 .../dual_chunk_rope.cpython-312.pyc           |  Bin 0 -> 10549 bytes
 .../dynamic_ntk_alpha_rope.cpython-312.pyc    |  Bin 0 -> 2145 bytes
 .../dynamic_ntk_scaling_rope.cpython-312.pyc  |  Bin 0 -> 2300 bytes
 .../ernie45_vl_rope.cpython-312.pyc           |  Bin 0 -> 4306 bytes
 .../linear_scaling_rope.cpython-312.pyc       |  Bin 0 -> 4154 bytes
 .../__pycache__/llama3_rope.cpython-312.pyc   |  Bin 0 -> 2400 bytes
 .../llama4_vision_rope.cpython-312.pyc        |  Bin 0 -> 5263 bytes
 .../__pycache__/mrope.cpython-312.pyc         |  Bin 0 -> 16796 bytes
 .../ntk_scaling_rope.cpython-312.pyc          |  Bin 0 -> 2333 bytes
 ...phi3_long_rope_scaled_rope.cpython-312.pyc |  Bin 0 -> 6041 bytes
 .../yarn_scaling_rope.cpython-312.pyc         |  Bin 0 -> 3760 bytes
 .../layers/rotary_embedding/base.py           |  235 +
 .../layers/rotary_embedding/common.py         |  188 +
 .../rotary_embedding/deepseek_scaling_rope.py |  106 +
 .../rotary_embedding/dual_chunk_rope.py       |  215 +
 .../dynamic_ntk_alpha_rope.py                 |   43 +
 .../dynamic_ntk_scaling_rope.py               |   68 +
 .../rotary_embedding/ernie45_vl_rope.py       |   75 +
 .../rotary_embedding/linear_scaling_rope.py   |  115 +
 .../layers/rotary_embedding/llama3_rope.py    |   54 +
 .../rotary_embedding/llama4_vision_rope.py    |   80 +
 .../layers/rotary_embedding/mrope.py          |  403 ++
 .../rotary_embedding/ntk_scaling_rope.py      |   47 +
 .../phi3_long_rope_scaled_rope.py             |  151 +
 .../rotary_embedding/yarn_scaling_rope.py     |   81 +
 .../shared_fused_moe.cpython-312.pyc          |  Bin 0 -> 2514 bytes
 .../shared_fused_moe/shared_fused_moe.py      |   56 +
 model_executor/layers/utils.py                |  253 +
 .../layers/vocab_parallel_embedding.py        |  558 ++
 model_executor/model_loader/__init__.py       |  152 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 4614 bytes
 .../__pycache__/base_loader.cpython-312.pyc   |  Bin 0 -> 2953 bytes
 .../bitsandbytes_loader.cpython-312.pyc       |  Bin 0 -> 33235 bytes
 .../default_loader.cpython-312.pyc            |  Bin 0 -> 11756 bytes
 .../__pycache__/dummy_loader.cpython-312.pyc  |  Bin 0 -> 1702 bytes
 .../__pycache__/gguf_loader.cpython-312.pyc   |  Bin 0 -> 8459 bytes
 .../online_quantization.cpython-312.pyc       |  Bin 0 -> 5077 bytes
 .../runai_streamer_loader.cpython-312.pyc     |  Bin 0 -> 5329 bytes
 .../sharded_state_loader.cpython-312.pyc      |  Bin 0 -> 9682 bytes
 .../__pycache__/tensorizer.cpython-312.pyc    |  Bin 0 -> 34493 bytes
 .../tensorizer_loader.cpython-312.pyc         |  Bin 0 -> 7756 bytes
 .../__pycache__/tpu.cpython-312.pyc           |  Bin 0 -> 5654 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 12738 bytes
 .../__pycache__/weight_utils.cpython-312.pyc  |  Bin 0 -> 47920 bytes
 model_executor/model_loader/base_loader.py    |   57 +
 .../model_loader/bitsandbytes_loader.py       |  822 +++
 model_executor/model_loader/default_loader.py |  329 +
 model_executor/model_loader/dummy_loader.py   |   28 +
 model_executor/model_loader/gguf_loader.py    |  176 +
 .../model_loader/online_quantization.py       |  224 +
 .../model_loader/runai_streamer_loader.py     |  116 +
 .../model_loader/sharded_state_loader.py      |  206 +
 model_executor/model_loader/tensorizer.py     |  790 +++
 .../model_loader/tensorizer_loader.py         |  151 +
 model_executor/model_loader/tpu.py            |  118 +
 model_executor/model_loader/utils.py          |  288 +
 model_executor/model_loader/weight_utils.py   | 1106 +++
 model_executor/models/__init__.py             |   44 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 854 bytes
 .../__pycache__/adapters.cpython-312.pyc      |  Bin 0 -> 23022 bytes
 .../models/__pycache__/afmoe.cpython-312.pyc  |  Bin 0 -> 27636 bytes
 .../models/__pycache__/aimv2.cpython-312.pyc  |  Bin 0 -> 12433 bytes
 .../__pycache__/apertus.cpython-312.pyc       |  Bin 0 -> 22496 bytes
 .../models/__pycache__/arcee.cpython-312.pyc  |  Bin 0 -> 15832 bytes
 .../models/__pycache__/arctic.cpython-312.pyc |  Bin 0 -> 25739 bytes
 .../models/__pycache__/aria.cpython-312.pyc   |  Bin 0 -> 29070 bytes
 .../__pycache__/aya_vision.cpython-312.pyc    |  Bin 0 -> 22096 bytes
 .../__pycache__/baichuan.cpython-312.pyc      |  Bin 0 -> 19811 bytes
 .../__pycache__/bailing_moe.cpython-312.pyc   |  Bin 0 -> 25387 bytes
 .../models/__pycache__/bamba.cpython-312.pyc  |  Bin 0 -> 20895 bytes
 .../models/__pycache__/bee.cpython-312.pyc    |  Bin 0 -> 7195 bytes
 .../models/__pycache__/bert.cpython-312.pyc   |  Bin 0 -> 40571 bytes
 .../bert_with_rope.cpython-312.pyc            |  Bin 0 -> 30603 bytes
 .../models/__pycache__/blip.cpython-312.pyc   |  Bin 0 -> 15226 bytes
 .../models/__pycache__/blip2.cpython-312.pyc  |  Bin 0 -> 30671 bytes
 .../models/__pycache__/bloom.cpython-312.pyc  |  Bin 0 -> 16589 bytes
 .../__pycache__/chameleon.cpython-312.pyc     |  Bin 0 -> 51176 bytes
 .../__pycache__/chatglm.cpython-312.pyc       |  Bin 0 -> 19890 bytes
 .../models/__pycache__/clip.cpython-312.pyc   |  Bin 0 -> 39577 bytes
 .../cohere2_vision.cpython-312.pyc            |  Bin 0 -> 21196 bytes
 .../__pycache__/commandr.cpython-312.pyc      |  Bin 0 -> 20204 bytes
 .../models/__pycache__/config.cpython-312.pyc |  Bin 0 -> 19057 bytes
 .../models/__pycache__/dbrx.cpython-312.pyc   |  Bin 0 -> 21474 bytes
 .../__pycache__/deepencoder.cpython-312.pyc   |  Bin 0 -> 31074 bytes
 .../deepseek_eagle.cpython-312.pyc            |  Bin 0 -> 10569 bytes
 .../__pycache__/deepseek_mtp.cpython-312.pyc  |  Bin 0 -> 15043 bytes
 .../__pycache__/deepseek_ocr.cpython-312.pyc  |  Bin 0 -> 26166 bytes
 .../__pycache__/deepseek_v2.cpython-312.pyc   |  Bin 0 -> 68524 bytes
 .../__pycache__/deepseek_vl2.cpython-312.pyc  |  Bin 0 -> 27455 bytes
 .../models/__pycache__/dots1.cpython-312.pyc  |  Bin 0 -> 22344 bytes
 .../__pycache__/dots_ocr.cpython-312.pyc      |  Bin 0 -> 40858 bytes
 .../__pycache__/ernie45.cpython-312.pyc       |  Bin 0 -> 1632 bytes
 .../__pycache__/ernie45_moe.cpython-312.pyc   |  Bin 0 -> 27862 bytes
 .../__pycache__/ernie45_vl.cpython-312.pyc    |  Bin 0 -> 71702 bytes
 .../ernie45_vl_moe.cpython-312.pyc            |  Bin 0 -> 27968 bytes
 .../__pycache__/ernie_mtp.cpython-312.pyc     |  Bin 0 -> 10929 bytes
 .../models/__pycache__/exaone.cpython-312.pyc |  Bin 0 -> 19637 bytes
 .../__pycache__/exaone4.cpython-312.pyc       |  Bin 0 -> 19564 bytes
 .../fairseq2_llama.cpython-312.pyc            |  Bin 0 -> 6728 bytes
 .../models/__pycache__/falcon.cpython-312.pyc |  Bin 0 -> 21587 bytes
 .../__pycache__/falcon_h1.cpython-312.pyc     |  Bin 0 -> 27523 bytes
 .../__pycache__/flex_olmo.cpython-312.pyc     |  Bin 0 -> 6661 bytes
 .../models/__pycache__/fuyu.cpython-312.pyc   |  Bin 0 -> 16120 bytes
 .../models/__pycache__/gemma.cpython-312.pyc  |  Bin 0 -> 17051 bytes
 .../models/__pycache__/gemma2.cpython-312.pyc |  Bin 0 -> 17800 bytes
 .../models/__pycache__/gemma3.cpython-312.pyc |  Bin 0 -> 21915 bytes
 .../__pycache__/gemma3_mm.cpython-312.pyc     |  Bin 0 -> 30048 bytes
 .../__pycache__/gemma3n.cpython-312.pyc       |  Bin 0 -> 43914 bytes
 .../__pycache__/gemma3n_mm.cpython-312.pyc    |  Bin 0 -> 32596 bytes
 .../models/__pycache__/glm.cpython-312.pyc    |  Bin 0 -> 1516 bytes
 .../models/__pycache__/glm4.cpython-312.pyc   |  Bin 0 -> 12153 bytes
 .../__pycache__/glm4_1v.cpython-312.pyc       |  Bin 0 -> 73665 bytes
 .../__pycache__/glm4_moe.cpython-312.pyc      |  Bin 0 -> 29377 bytes
 .../__pycache__/glm4_moe_mtp.cpython-312.pyc  |  Bin 0 -> 14288 bytes
 .../models/__pycache__/glm4v.cpython-312.pyc  |  Bin 0 -> 33722 bytes
 .../models/__pycache__/gpt2.cpython-312.pyc   |  Bin 0 -> 17469 bytes
 .../__pycache__/gpt_bigcode.cpython-312.pyc   |  Bin 0 -> 14468 bytes
 .../models/__pycache__/gpt_j.cpython-312.pyc  |  Bin 0 -> 14677 bytes
 .../__pycache__/gpt_neox.cpython-312.pyc      |  Bin 0 -> 14815 bytes
 .../__pycache__/gpt_oss.cpython-312.pyc       |  Bin 0 -> 29609 bytes
 .../__pycache__/granite.cpython-312.pyc       |  Bin 0 -> 19471 bytes
 .../granite_speech.cpython-312.pyc            |  Bin 0 -> 40569 bytes
 .../__pycache__/granitemoe.cpython-312.pyc    |  Bin 0 -> 21202 bytes
 .../granitemoehybrid.cpython-312.pyc          |  Bin 0 -> 26784 bytes
 .../granitemoeshared.cpython-312.pyc          |  Bin 0 -> 14924 bytes
 .../models/__pycache__/gritlm.cpython-312.pyc |  Bin 0 -> 10482 bytes
 .../models/__pycache__/grok1.cpython-312.pyc  |  Bin 0 -> 20514 bytes
 .../models/__pycache__/h2ovl.cpython-312.pyc  |  Bin 0 -> 16115 bytes
 .../__pycache__/hunyuan_v1.cpython-312.pyc    |  Bin 0 -> 39860 bytes
 .../hyperclovax_vision.cpython-312.pyc        |  Bin 0 -> 45437 bytes
 .../idefics2_vision_model.cpython-312.pyc     |  Bin 0 -> 17722 bytes
 .../__pycache__/idefics3.cpython-312.pyc      |  Bin 0 -> 29966 bytes
 .../__pycache__/interfaces.cpython-312.pyc    |  Bin 0 -> 40067 bytes
 .../interfaces_base.cpython-312.pyc           |  Bin 0 -> 7934 bytes
 .../__pycache__/intern_vit.cpython-312.pyc    |  Bin 0 -> 19385 bytes
 .../__pycache__/internlm2.cpython-312.pyc     |  Bin 0 -> 20047 bytes
 .../__pycache__/internlm2_ve.cpython-312.pyc  |  Bin 0 -> 6544 bytes
 .../__pycache__/interns1.cpython-312.pyc      |  Bin 0 -> 35563 bytes
 .../__pycache__/interns1_vit.cpython-312.pyc  |  Bin 0 -> 19530 bytes
 .../__pycache__/internvl.cpython-312.pyc      |  Bin 0 -> 55357 bytes
 .../models/__pycache__/jais.cpython-312.pyc   |  Bin 0 -> 16818 bytes
 .../models/__pycache__/jamba.cpython-312.pyc  |  Bin 0 -> 24369 bytes
 .../__pycache__/jina_vl.cpython-312.pyc       |  Bin 0 -> 7014 bytes
 .../models/__pycache__/keye.cpython-312.pyc   |  Bin 0 -> 72080 bytes
 .../__pycache__/keye_vl1_5.cpython-312.pyc    |  Bin 0 -> 30496 bytes
 .../__pycache__/kimi_linear.cpython-312.pyc   |  Bin 0 -> 24934 bytes
 .../__pycache__/kimi_vl.cpython-312.pyc       |  Bin 0 -> 21995 bytes
 .../models/__pycache__/lfm2.cpython-312.pyc   |  Bin 0 -> 22592 bytes
 .../__pycache__/lfm2_moe.cpython-312.pyc      |  Bin 0 -> 30736 bytes
 .../__pycache__/lightonocr.cpython-312.pyc    |  Bin 0 -> 8682 bytes
 .../models/__pycache__/llama.cpython-312.pyc  |  Bin 0 -> 27826 bytes
 .../models/__pycache__/llama4.cpython-312.pyc |  Bin 0 -> 30028 bytes
 .../__pycache__/llama4_eagle.cpython-312.pyc  |  Bin 0 -> 10746 bytes
 .../__pycache__/llama_eagle.cpython-312.pyc   |  Bin 0 -> 9989 bytes
 .../__pycache__/llama_eagle3.cpython-312.pyc  |  Bin 0 -> 15965 bytes
 .../models/__pycache__/llava.cpython-312.pyc  |  Bin 0 -> 34616 bytes
 .../__pycache__/llava_next.cpython-312.pyc    |  Bin 0 -> 23721 bytes
 .../llava_next_video.cpython-312.pyc          |  Bin 0 -> 21407 bytes
 .../llava_onevision.cpython-312.pyc           |  Bin 0 -> 35923 bytes
 .../__pycache__/longcat_flash.cpython-312.pyc |  Bin 0 -> 26831 bytes
 .../longcat_flash_mtp.cpython-312.pyc         |  Bin 0 -> 16797 bytes
 .../models/__pycache__/mamba.cpython-312.pyc  |  Bin 0 -> 12866 bytes
 .../models/__pycache__/mamba2.cpython-312.pyc |  Bin 0 -> 13159 bytes
 .../models/__pycache__/medusa.cpython-312.pyc |  Bin 0 -> 8335 bytes
 .../__pycache__/midashenglm.cpython-312.pyc   |  Bin 0 -> 37463 bytes
 .../models/__pycache__/mimo.cpython-312.pyc   |  Bin 0 -> 6408 bytes
 .../__pycache__/mimo_mtp.cpython-312.pyc      |  Bin 0 -> 11829 bytes
 .../__pycache__/minicpm.cpython-312.pyc       |  Bin 0 -> 26755 bytes
 .../__pycache__/minicpm3.cpython-312.pyc      |  Bin 0 -> 10448 bytes
 .../__pycache__/minicpm_eagle.cpython-312.pyc |  Bin 0 -> 16201 bytes
 .../__pycache__/minicpmo.cpython-312.pyc      |  Bin 0 -> 32959 bytes
 .../__pycache__/minicpmv.cpython-312.pyc      |  Bin 0 -> 73082 bytes
 .../__pycache__/minimax_m2.cpython-312.pyc    |  Bin 0 -> 21553 bytes
 .../minimax_text_01.cpython-312.pyc           |  Bin 0 -> 43778 bytes
 .../__pycache__/minimax_vl_01.cpython-312.pyc |  Bin 0 -> 18368 bytes
 .../__pycache__/mistral3.cpython-312.pyc      |  Bin 0 -> 27521 bytes
 .../__pycache__/mixtral.cpython-312.pyc       |  Bin 0 -> 23628 bytes
 .../__pycache__/mllama4.cpython-312.pyc       |  Bin 0 -> 48299 bytes
 .../mlp_speculator.cpython-312.pyc            |  Bin 0 -> 8279 bytes
 .../__pycache__/modernbert.cpython-312.pyc    |  Bin 0 -> 24727 bytes
 .../module_mapping.cpython-312.pyc            |  Bin 0 -> 2456 bytes
 .../models/__pycache__/molmo.cpython-312.pyc  |  Bin 0 -> 65613 bytes
 .../__pycache__/moonvit.cpython-312.pyc       |  Bin 0 -> 32302 bytes
 .../models/__pycache__/mpt.cpython-312.pyc    |  Bin 0 -> 16329 bytes
 .../nano_nemotron_vl.cpython-312.pyc          |  Bin 0 -> 68874 bytes
 .../__pycache__/nemotron.cpython-312.pyc      |  Bin 0 -> 19889 bytes
 .../__pycache__/nemotron_h.cpython-312.pyc    |  Bin 0 -> 32010 bytes
 .../__pycache__/nemotron_nas.cpython-312.pyc  |  Bin 0 -> 17261 bytes
 .../__pycache__/nemotron_vl.cpython-312.pyc   |  Bin 0 -> 25825 bytes
 .../models/__pycache__/nvlm_d.cpython-312.pyc |  Bin 0 -> 9100 bytes
 .../models/__pycache__/olmo.cpython-312.pyc   |  Bin 0 -> 15766 bytes
 .../models/__pycache__/olmo2.cpython-312.pyc  |  Bin 0 -> 19003 bytes
 .../models/__pycache__/olmoe.cpython-312.pyc  |  Bin 0 -> 19440 bytes
 .../__pycache__/openpangu.cpython-312.pyc     |  Bin 0 -> 39497 bytes
 .../__pycache__/openpangu_mtp.cpython-312.pyc |  Bin 0 -> 9825 bytes
 .../models/__pycache__/opt.cpython-312.pyc    |  Bin 0 -> 17130 bytes
 .../models/__pycache__/orion.cpython-312.pyc  |  Bin 0 -> 15731 bytes
 .../models/__pycache__/ouro.cpython-312.pyc   |  Bin 0 -> 19104 bytes
 .../models/__pycache__/ovis.cpython-312.pyc   |  Bin 0 -> 25979 bytes
 .../__pycache__/ovis2_5.cpython-312.pyc       |  Bin 0 -> 29516 bytes
 .../__pycache__/paddleocr_vl.cpython-312.pyc  |  Bin 0 -> 61436 bytes
 .../__pycache__/paligemma.cpython-312.pyc     |  Bin 0 -> 17608 bytes
 .../__pycache__/persimmon.cpython-312.pyc     |  Bin 0 -> 16085 bytes
 .../models/__pycache__/phi.cpython-312.pyc    |  Bin 0 -> 14166 bytes
 .../models/__pycache__/phi3.cpython-312.pyc   |  Bin 0 -> 599 bytes
 .../models/__pycache__/phi3v.cpython-312.pyc  |  Bin 0 -> 28443 bytes
 .../phi4_multimodal.cpython-312.pyc           |  Bin 0 -> 60670 bytes
 .../models/__pycache__/phi4mm.cpython-312.pyc |  Bin 0 -> 48134 bytes
 .../__pycache__/phi4mm_audio.cpython-312.pyc  |  Bin 0 -> 49487 bytes
 .../__pycache__/phi4mm_utils.cpython-312.pyc  |  Bin 0 -> 77869 bytes
 .../models/__pycache__/phimoe.cpython-312.pyc |  Bin 0 -> 24029 bytes
 .../__pycache__/pixtral.cpython-312.pyc       |  Bin 0 -> 66710 bytes
 .../models/__pycache__/plamo2.cpython-312.pyc |  Bin 0 -> 40287 bytes
 .../models/__pycache__/qwen.cpython-312.pyc   |  Bin 0 -> 15912 bytes
 .../models/__pycache__/qwen2.cpython-312.pyc  |  Bin 0 -> 20082 bytes
 .../qwen2_5_omni_thinker.cpython-312.pyc      |  Bin 0 -> 47069 bytes
 .../__pycache__/qwen2_5_vl.cpython-312.pyc    |  Bin 0 -> 62664 bytes
 .../__pycache__/qwen2_audio.cpython-312.pyc   |  Bin 0 -> 20529 bytes
 .../__pycache__/qwen2_moe.cpython-312.pyc     |  Bin 0 -> 22367 bytes
 .../__pycache__/qwen2_rm.cpython-312.pyc      |  Bin 0 -> 5524 bytes
 .../__pycache__/qwen2_vl.cpython-312.pyc      |  Bin 0 -> 66859 bytes
 .../models/__pycache__/qwen3.cpython-312.pyc  |  Bin 0 -> 14033 bytes
 .../__pycache__/qwen3_moe.cpython-312.pyc     |  Bin 0 -> 29684 bytes
 .../__pycache__/qwen3_next.cpython-312.pyc    |  Bin 0 -> 54763 bytes
 .../qwen3_next_mtp.cpython-312.pyc            |  Bin 0 -> 11917 bytes
 .../qwen3_omni_moe_thinker.cpython-312.pyc    |  Bin 0 -> 70411 bytes
 .../__pycache__/qwen3_vl.cpython-312.pyc      |  Bin 0 -> 68928 bytes
 .../__pycache__/qwen3_vl_moe.cpython-312.pyc  |  Bin 0 -> 13197 bytes
 .../__pycache__/qwen_vl.cpython-312.pyc       |  Bin 0 -> 33646 bytes
 .../models/__pycache__/radio.cpython-312.pyc  |  Bin 0 -> 24093 bytes
 .../__pycache__/registry.cpython-312.pyc      |  Bin 0 -> 44147 bytes
 .../__pycache__/roberta.cpython-312.pyc       |  Bin 0 -> 11941 bytes
 .../models/__pycache__/rvl.cpython-312.pyc    |  Bin 0 -> 5507 bytes
 .../__pycache__/seed_oss.cpython-312.pyc      |  Bin 0 -> 18362 bytes
 .../models/__pycache__/siglip.cpython-312.pyc |  Bin 0 -> 48402 bytes
 .../__pycache__/siglip2navit.cpython-312.pyc  |  Bin 0 -> 32260 bytes
 .../__pycache__/skyworkr1v.cpython-312.pyc    |  Bin 0 -> 35337 bytes
 .../__pycache__/smolvlm.cpython-312.pyc       |  Bin 0 -> 2255 bytes
 .../models/__pycache__/solar.cpython-312.pyc  |  Bin 0 -> 18938 bytes
 .../__pycache__/stablelm.cpython-312.pyc      |  Bin 0 -> 16058 bytes
 .../__pycache__/starcoder2.cpython-312.pyc    |  Bin 0 -> 15422 bytes
 .../__pycache__/step3_text.cpython-312.pyc    |  Bin 0 -> 22603 bytes
 .../__pycache__/step3_vl.cpython-312.pyc      |  Bin 0 -> 51493 bytes
 .../models/__pycache__/swin.cpython-312.pyc   |  Bin 0 -> 20902 bytes
 .../__pycache__/tarsier.cpython-312.pyc       |  Bin 0 -> 27177 bytes
 .../__pycache__/telechat2.cpython-312.pyc     |  Bin 0 -> 5791 bytes
 .../__pycache__/teleflm.cpython-312.pyc       |  Bin 0 -> 2894 bytes
 .../__pycache__/terratorch.cpython-312.pyc    |  Bin 0 -> 14318 bytes
 .../__pycache__/ultravox.cpython-312.pyc      |  Bin 0 -> 30805 bytes
 .../models/__pycache__/utils.cpython-312.pyc  |  Bin 0 -> 38448 bytes
 .../models/__pycache__/vision.cpython-312.pyc |  Bin 0 -> 20197 bytes
 .../__pycache__/voxtral.cpython-312.pyc       |  Bin 0 -> 37827 bytes
 .../__pycache__/whisper.cpython-312.pyc       |  Bin 0 -> 42285 bytes
 .../models/__pycache__/zamba2.cpython-312.pyc |  Bin 0 -> 35673 bytes
 model_executor/models/adapters.py             |  543 ++
 model_executor/models/afmoe.py                |  711 ++
 model_executor/models/aimv2.py                |  247 +
 model_executor/models/apertus.py              |  587 ++
 model_executor/models/arcee.py                |  439 ++
 model_executor/models/arctic.py               |  635 ++
 model_executor/models/aria.py                 |  655 ++
 model_executor/models/aya_vision.py           |  450 ++
 model_executor/models/baichuan.py             |  496 ++
 model_executor/models/bailing_moe.py          |  646 ++
 model_executor/models/bamba.py                |  522 ++
 model_executor/models/bee.py                  |  157 +
 model_executor/models/bert.py                 |  925 +++
 model_executor/models/bert_with_rope.py       |  732 ++
 model_executor/models/blip.py                 |  349 +
 model_executor/models/blip2.py                |  695 ++
 model_executor/models/bloom.py                |  390 ++
 model_executor/models/chameleon.py            | 1120 +++
 model_executor/models/chatglm.py              |  498 ++
 model_executor/models/clip.py                 |  965 +++
 model_executor/models/cohere2_vision.py       |  472 ++
 model_executor/models/commandr.py             |  473 ++
 model_executor/models/config.py               |  503 ++
 model_executor/models/dbrx.py                 |  482 ++
 model_executor/models/deepencoder.py          |  673 ++
 model_executor/models/deepseek_eagle.py       |  260 +
 model_executor/models/deepseek_mtp.py         |  360 +
 model_executor/models/deepseek_ocr.py         |  593 ++
 model_executor/models/deepseek_v2.py          | 1758 +++++
 model_executor/models/deepseek_vl2.py         |  655 ++
 model_executor/models/dots1.py                |  574 ++
 model_executor/models/dots_ocr.py             |  900 +++
 model_executor/models/ernie45.py              |   53 +
 model_executor/models/ernie45_moe.py          |  760 ++
 model_executor/models/ernie45_vl.py           | 1742 +++++
 model_executor/models/ernie45_vl_moe.py       |  803 +++
 model_executor/models/ernie_mtp.py            |  279 +
 model_executor/models/exaone.py               |  545 ++
 model_executor/models/exaone4.py              |  531 ++
 model_executor/models/fairseq2_llama.py       |  154 +
 model_executor/models/falcon.py               |  545 ++
 model_executor/models/falcon_h1.py            |  685 ++
 model_executor/models/flex_olmo.py            |  155 +
 model_executor/models/fuyu.py                 |  373 +
 model_executor/models/gemma.py                |  426 ++
 model_executor/models/gemma2.py               |  439 ++
 model_executor/models/gemma3.py               |  571 ++
 model_executor/models/gemma3_mm.py            |  741 ++
 model_executor/models/gemma3n.py              | 1166 ++++
 model_executor/models/gemma3n_mm.py           |  811 +++
 model_executor/models/glm.py                  |   23 +
 model_executor/models/glm4.py                 |  305 +
 model_executor/models/glm4_1v.py              | 1821 +++++
 model_executor/models/glm4_moe.py             |  754 ++
 model_executor/models/glm4_moe_mtp.py         |  359 +
 model_executor/models/glm4v.py                |  784 +++
 model_executor/models/gpt2.py                 |  397 ++
 model_executor/models/gpt_bigcode.py          |  339 +
 model_executor/models/gpt_j.py                |  346 +
 model_executor/models/gpt_neox.py             |  344 +
 model_executor/models/gpt_oss.py              |  725 ++
 model_executor/models/granite.py              |  516 ++
 model_executor/models/granite_speech.py       |  913 +++
 model_executor/models/granitemoe.py           |  569 ++
 model_executor/models/granitemoehybrid.py     |  709 ++
 model_executor/models/granitemoeshared.py     |  333 +
 model_executor/models/gritlm.py               |  245 +
 model_executor/models/grok1.py                |  558 ++
 model_executor/models/h2ovl.py                |  554 ++
 model_executor/models/hunyuan_v1.py           | 1053 +++
 model_executor/models/hyperclovax_vision.py   | 1166 ++++
 .../models/idefics2_vision_model.py           |  426 ++
 model_executor/models/idefics3.py             |  717 ++
 model_executor/models/interfaces.py           | 1092 +++
 model_executor/models/interfaces_base.py      |  214 +
 model_executor/models/intern_vit.py           |  453 ++
 model_executor/models/internlm2.py            |  460 ++
 model_executor/models/internlm2_ve.py         |  142 +
 model_executor/models/interns1.py             |  830 +++
 model_executor/models/interns1_vit.py         |  432 ++
 model_executor/models/internvl.py             | 1452 ++++
 model_executor/models/jais.py                 |  397 ++
 model_executor/models/jamba.py                |  610 ++
 model_executor/models/jina_vl.py              |  147 +
 model_executor/models/keye.py                 | 1761 +++++
 model_executor/models/keye_vl1_5.py           |  726 ++
 model_executor/models/kimi_linear.py          |  663 ++
 model_executor/models/kimi_vl.py              |  578 ++
 model_executor/models/lfm2.py                 |  532 ++
 model_executor/models/lfm2_moe.py             |  762 ++
 model_executor/models/lightonocr.py           |  195 +
 model_executor/models/llama.py                |  732 ++
 model_executor/models/llama4.py               |  859 +++
 model_executor/models/llama4_eagle.py         |  223 +
 model_executor/models/llama_eagle.py          |  218 +
 model_executor/models/llama_eagle3.py         |  367 +
 model_executor/models/llava.py                |  842 +++
 model_executor/models/llava_next.py           |  583 ++
 model_executor/models/llava_next_video.py     |  467 ++
 model_executor/models/llava_onevision.py      |  923 +++
 model_executor/models/longcat_flash.py        |  749 ++
 model_executor/models/longcat_flash_mtp.py    |  349 +
 model_executor/models/mamba.py                |  276 +
 model_executor/models/mamba2.py               |  289 +
 model_executor/models/medusa.py               |  179 +
 model_executor/models/midashenglm.py          |  827 +++
 model_executor/models/mimo.py                 |  188 +
 model_executor/models/mimo_mtp.py             |  294 +
 model_executor/models/minicpm.py              |  664 ++
 model_executor/models/minicpm3.py             |  242 +
 model_executor/models/minicpm_eagle.py        |  389 ++
 model_executor/models/minicpmo.py             |  768 +++
 model_executor/models/minicpmv.py             | 1745 +++++
 model_executor/models/minimax_m2.py           |  552 ++
 model_executor/models/minimax_text_01.py      | 1012 +++
 model_executor/models/minimax_vl_01.py        |  396 ++
 model_executor/models/mistral3.py             |  637 ++
 model_executor/models/mixtral.py              |  621 ++
 model_executor/models/mllama4.py              | 1147 +++
 model_executor/models/mlp_speculator.py       |  235 +
 model_executor/models/modernbert.py           |  450 ++
 model_executor/models/module_mapping.py       |   74 +
 model_executor/models/molmo.py                | 1555 +++++
 model_executor/models/moonvit.py              |  677 ++
 model_executor/models/mpt.py                  |  335 +
 model_executor/models/nano_nemotron_vl.py     | 1740 +++++
 model_executor/models/nemotron.py             |  518 ++
 model_executor/models/nemotron_h.py           |  852 +++
 model_executor/models/nemotron_nas.py         |  491 ++
 model_executor/models/nemotron_vl.py          |  653 ++
 model_executor/models/nvlm_d.py               |  216 +
 model_executor/models/olmo.py                 |  414 ++
 model_executor/models/olmo2.py                |  454 ++
 model_executor/models/olmoe.py                |  498 ++
 model_executor/models/openpangu.py            | 1062 +++
 model_executor/models/openpangu_mtp.py        |  265 +
 model_executor/models/opt.py                  |  426 ++
 model_executor/models/orion.py                |  372 +
 model_executor/models/ouro.py                 |  516 ++
 model_executor/models/ovis.py                 |  559 ++
 model_executor/models/ovis2_5.py              |  673 ++
 model_executor/models/paddleocr_vl.py         | 1407 ++++
 model_executor/models/paligemma.py            |  412 ++
 model_executor/models/persimmon.py            |  377 +
 model_executor/models/phi.py                  |  374 +
 model_executor/models/phi3.py                 |   18 +
 model_executor/models/phi3v.py                |  737 ++
 model_executor/models/phi4_multimodal.py      | 1447 ++++
 model_executor/models/phi4mm.py               | 1253 ++++
 model_executor/models/phi4mm_audio.py         | 1296 ++++
 model_executor/models/phi4mm_utils.py         | 1907 +++++
 model_executor/models/phimoe.py               |  676 ++
 model_executor/models/pixtral.py              | 1355 ++++
 model_executor/models/plamo2.py               |  981 +++
 model_executor/models/qwen.py                 |  371 +
 model_executor/models/qwen2.py                |  541 ++
 model_executor/models/qwen2_5_omni_thinker.py | 1246 ++++
 model_executor/models/qwen2_5_vl.py           | 1613 +++++
 model_executor/models/qwen2_audio.py          |  473 ++
 model_executor/models/qwen2_moe.py            |  596 ++
 model_executor/models/qwen2_rm.py             |  123 +
 model_executor/models/qwen2_vl.py             | 1670 +++++
 model_executor/models/qwen3.py                |  353 +
 model_executor/models/qwen3_moe.py            |  762 ++
 model_executor/models/qwen3_next.py           | 1397 ++++
 model_executor/models/qwen3_next_mtp.py       |  296 +
 .../models/qwen3_omni_moe_thinker.py          | 1721 +++++
 model_executor/models/qwen3_vl.py             | 1673 +++++
 model_executor/models/qwen3_vl_moe.py         |  415 ++
 model_executor/models/qwen_vl.py              |  804 +++
 model_executor/models/radio.py                |  555 ++
 model_executor/models/registry.py             | 1155 ++++
 model_executor/models/roberta.py              |  259 +
 model_executor/models/rvl.py                  |  107 +
 model_executor/models/seed_oss.py             |  497 ++
 model_executor/models/siglip.py               | 1174 ++++
 model_executor/models/siglip2navit.py         |  724 ++
 model_executor/models/skyworkr1v.py           |  953 +++
 model_executor/models/smolvlm.py              |   38 +
 model_executor/models/solar.py                |  502 ++
 model_executor/models/stablelm.py             |  359 +
 model_executor/models/starcoder2.py           |  367 +
 model_executor/models/step3_text.py           |  559 ++
 model_executor/models/step3_vl.py             | 1148 +++
 model_executor/models/swin.py                 |  514 ++
 model_executor/models/tarsier.py              |  619 ++
 model_executor/models/telechat2.py            |  153 +
 model_executor/models/teleflm.py              |   79 +
 model_executor/models/terratorch.py           |  319 +
 .../models/transformers/__init__.py           |  127 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 4347 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 20334 bytes
 .../__pycache__/causal.cpython-312.pyc        |  Bin 0 -> 2697 bytes
 .../__pycache__/legacy.cpython-312.pyc        |  Bin 0 -> 2531 bytes
 .../__pycache__/moe.cpython-312.pyc           |  Bin 0 -> 13223 bytes
 .../__pycache__/multimodal.cpython-312.pyc    |  Bin 0 -> 17102 bytes
 .../__pycache__/pooling.cpython-312.pyc       |  Bin 0 -> 4751 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 8536 bytes
 model_executor/models/transformers/base.py    |  464 ++
 model_executor/models/transformers/causal.py  |   65 +
 model_executor/models/transformers/legacy.py  |   90 +
 model_executor/models/transformers/moe.py     |  318 +
 .../models/transformers/multimodal.py         |  411 ++
 model_executor/models/transformers/pooling.py |  119 +
 model_executor/models/transformers/utils.py   |  207 +
 model_executor/models/ultravox.py             |  681 ++
 model_executor/models/utils.py                |  877 +++
 model_executor/models/vision.py               |  552 ++
 model_executor/models/voxtral.py              |  845 +++
 model_executor/models/whisper.py              |  959 +++
 model_executor/models/zamba2.py               |  986 +++
 model_executor/parameter.py                   |  649 ++
 model_executor/utils.py                       |   94 +
 model_executor/warmup/__init__.py             |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 171 bytes
 .../deep_gemm_warmup.cpython-312.pyc          |  Bin 0 -> 14426 bytes
 .../__pycache__/kernel_warmup.cpython-312.pyc |  Bin 0 -> 3870 bytes
 model_executor/warmup/deep_gemm_warmup.py     |  314 +
 model_executor/warmup/kernel_warmup.py        |   98 +
 multimodal/__init__.py                        |   40 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 699 bytes
 multimodal/__pycache__/audio.cpython-312.pyc  |  Bin 0 -> 5231 bytes
 multimodal/__pycache__/base.cpython-312.pyc   |  Bin 0 -> 1308 bytes
 multimodal/__pycache__/cache.cpython-312.pyc  |  Bin 0 -> 29736 bytes
 multimodal/__pycache__/evs.cpython-312.pyc    |  Bin 0 -> 10336 bytes
 multimodal/__pycache__/hasher.cpython-312.pyc |  Bin 0 -> 5420 bytes
 multimodal/__pycache__/image.cpython-312.pyc  |  Bin 0 -> 7508 bytes
 multimodal/__pycache__/inputs.cpython-312.pyc |  Bin 0 -> 39325 bytes
 multimodal/__pycache__/parse.cpython-312.pyc  |  Bin 0 -> 25551 bytes
 .../__pycache__/processing.cpython-312.pyc    |  Bin 0 -> 75627 bytes
 .../__pycache__/profiling.cpython-312.pyc     |  Bin 0 -> 14921 bytes
 .../__pycache__/registry.cpython-312.pyc      |  Bin 0 -> 13943 bytes
 multimodal/__pycache__/utils.cpython-312.pyc  |  Bin 0 -> 20131 bytes
 multimodal/__pycache__/video.cpython-312.pyc  |  Bin 0 -> 13385 bytes
 multimodal/audio.py                           |  118 +
 multimodal/base.py                            |   26 +
 multimodal/cache.py                           |  755 ++
 multimodal/evs.py                             |  294 +
 multimodal/hasher.py                          |  106 +
 multimodal/image.py                           |  130 +
 multimodal/inputs.py                          | 1036 +++
 multimodal/parse.py                           |  544 ++
 multimodal/processing.py                      | 2186 ++++++
 multimodal/profiling.py                       |  369 +
 multimodal/registry.py                        |  360 +
 multimodal/utils.py                           |  512 ++
 multimodal/video.py                           |  306 +
 outputs.py                                    |  345 +
 platforms/__init__.py                         |  277 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 10992 bytes
 platforms/__pycache__/cpu.cpython-312.pyc     |  Bin 0 -> 16371 bytes
 platforms/__pycache__/cuda.cpython-312.pyc    |  Bin 0 -> 26113 bytes
 .../__pycache__/interface.cpython-312.pyc     |  Bin 0 -> 27241 bytes
 platforms/__pycache__/rocm.cpython-312.pyc    |  Bin 0 -> 22319 bytes
 platforms/__pycache__/tpu.cpython-312.pyc     |  Bin 0 -> 12381 bytes
 platforms/__pycache__/xpu.cpython-312.pyc     |  Bin 0 -> 12738 bytes
 platforms/cpu.py                              |  414 ++
 platforms/cuda.py                             |  656 ++
 platforms/interface.py                        |  641 ++
 platforms/rocm.py                             |  466 ++
 platforms/tpu.py                              |  276 +
 platforms/xpu.py                              |  274 +
 plugins/__init__.py                           |   78 +
 plugins/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 2732 bytes
 plugins/io_processors/__init__.py             |   68 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 2457 bytes
 .../__pycache__/interface.cpython-312.pyc     |  Bin 0 -> 3760 bytes
 plugins/io_processors/interface.py            |   77 +
 plugins/lora_resolvers/__init__.py            |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 172 bytes
 .../filesystem_resolver.cpython-312.pyc       |  Bin 0 -> 2738 bytes
 plugins/lora_resolvers/filesystem_resolver.py |   52 +
 pooling_params.py                             |  228 +
 profiler/__init__.py                          |    0
 profiler/__pycache__/__init__.cpython-312.pyc |  Bin 0 -> 158 bytes
 .../__pycache__/gpu_profiler.cpython-312.pyc  |  Bin 0 -> 2114 bytes
 .../layerwise_profile.cpython-312.pyc         |  Bin 0 -> 19953 bytes
 profiler/__pycache__/utils.cpython-312.pyc    |  Bin 0 -> 8207 bytes
 profiler/gpu_profiler.py                      |   37 +
 profiler/layerwise_profile.py                 |  392 ++
 profiler/utils.py                             |  151 +
 py.typed                                      |    2 +
 ray/__init__.py                               |    0
 ray/__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 153 bytes
 ray/__pycache__/lazy_utils.cpython-312.pyc    |  Bin 0 -> 881 bytes
 ray/__pycache__/ray_env.cpython-312.pyc       |  Bin 0 -> 3096 bytes
 ray/lazy_utils.py                             |   26 +
 ray/ray_env.py                                |   79 +
 reasoning/__init__.py                         |   92 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 1804 bytes
 .../abs_reasoning_parsers.cpython-312.pyc     |  Bin 0 -> 12109 bytes
 .../__pycache__/basic_parsers.cpython-312.pyc |  Bin 0 -> 6808 bytes
 ...epseek_r1_reasoning_parser.cpython-312.pyc |  Bin 0 -> 2509 bytes
 ...epseek_v3_reasoning_parser.cpython-312.pyc |  Bin 0 -> 3258 bytes
 .../ernie45_reasoning_parser.cpython-312.pyc  |  Bin 0 -> 7251 bytes
 .../glm4_moe_reasoning_parser.cpython-312.pyc |  Bin 0 -> 6635 bytes
 .../gptoss_reasoning_parser.cpython-312.pyc   |  Bin 0 -> 7166 bytes
 .../granite_reasoning_parser.cpython-312.pyc  |  Bin 0 -> 13505 bytes
 ...yuan_a13b_reasoning_parser.cpython-312.pyc |  Bin 0 -> 9658 bytes
 .../identity_reasoning_parser.cpython-312.pyc |  Bin 0 -> 2671 bytes
 ...inimax_m2_reasoning_parser.cpython-312.pyc |  Bin 0 -> 3820 bytes
 .../mistral_reasoning_parser.cpython-312.pyc  |  Bin 0 -> 2734 bytes
 .../olmo3_reasoning_parser.cpython-312.pyc    |  Bin 0 -> 11043 bytes
 .../qwen3_reasoning_parser.cpython-312.pyc    |  Bin 0 -> 2668 bytes
 .../seedoss_reasoning_parser.cpython-312.pyc  |  Bin 0 -> 1277 bytes
 .../step3_reasoning_parser.cpython-312.pyc    |  Bin 0 -> 4618 bytes
 reasoning/abs_reasoning_parsers.py            |  290 +
 reasoning/basic_parsers.py                    |  162 +
 reasoning/deepseek_r1_reasoning_parser.py     |   67 +
 reasoning/deepseek_v3_reasoning_parser.py     |   62 +
 reasoning/ernie45_reasoning_parser.py         |  165 +
 reasoning/glm4_moe_reasoning_parser.py        |  171 +
 reasoning/gptoss_reasoning_parser.py          |  173 +
 reasoning/granite_reasoning_parser.py         |  363 +
 reasoning/hunyuan_a13b_reasoning_parser.py    |  237 +
 reasoning/identity_reasoning_parser.py        |   58 +
 reasoning/minimax_m2_reasoning_parser.py      |   67 +
 reasoning/mistral_reasoning_parser.py         |   55 +
 reasoning/olmo3_reasoning_parser.py           |  302 +
 reasoning/qwen3_reasoning_parser.py           |   67 +
 reasoning/seedoss_reasoning_parser.py         |   27 +
 reasoning/step3_reasoning_parser.py           |  107 +
 sampling_params.py                            |  669 ++
 scalar_type.py                                |  355 +
 scripts.py                                    |   17 +
 sequence.py                                   |   98 +
 tasks.py                                      |   13 +
 third_party/__init__.py                       |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 161 bytes
 .../__pycache__/pynvml.cpython-312.pyc        |  Bin 0 -> 250620 bytes
 third_party/pynvml.py                         | 6140 +++++++++++++++++
 tracing.py                                    |  135 +
 transformers_utils/__init__.py                |   26 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 934 bytes
 .../__pycache__/config.cpython-312.pyc        |  Bin 0 -> 42255 bytes
 .../config_parser_base.cpython-312.pyc        |  Bin 0 -> 961 bytes
 .../detokenizer_utils.cpython-312.pyc         |  Bin 0 -> 5861 bytes
 .../dynamic_module.cpython-312.pyc            |  Bin 0 -> 1832 bytes
 .../__pycache__/processor.cpython-312.pyc     |  Bin 0 -> 12491 bytes
 .../__pycache__/runai_utils.cpython-312.pyc   |  Bin 0 -> 4995 bytes
 .../__pycache__/s3_utils.cpython-312.pyc      |  Bin 0 -> 4136 bytes
 .../__pycache__/tokenizer.cpython-312.pyc     |  Bin 0 -> 10705 bytes
 .../tokenizer_base.cpython-312.pyc            |  Bin 0 -> 7013 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 6004 bytes
 transformers_utils/chat_templates/__init__.py |    5 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 280 bytes
 .../__pycache__/registry.cpython-312.pyc      |  Bin 0 -> 2553 bytes
 transformers_utils/chat_templates/registry.py |   73 +
 .../chat_templates/template_basic.jinja       |    3 +
 .../chat_templates/template_blip2.jinja       |   11 +
 .../chat_templates/template_chatml.jinja      |   10 +
 .../template_deepseek_ocr.jinja               |   14 +
 .../template_deepseek_vl2.jinja               |   23 +
 .../chat_templates/template_fuyu.jinja        |    3 +
 .../chat_templates/template_minicpmv45.jinja  |   93 +
 transformers_utils/config.py                  | 1203 ++++
 transformers_utils/config_parser_base.py      |   20 +
 transformers_utils/configs/__init__.py        |   70 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 2553 bytes
 .../configs/__pycache__/afmoe.cpython-312.pyc |  Bin 0 -> 3223 bytes
 .../__pycache__/arctic.cpython-312.pyc        |  Bin 0 -> 9285 bytes
 .../__pycache__/chatglm.cpython-312.pyc       |  Bin 0 -> 2241 bytes
 .../__pycache__/deepseek_vl2.cpython-312.pyc  |  Bin 0 -> 4846 bytes
 .../__pycache__/dotsocr.cpython-312.pyc       |  Bin 0 -> 2951 bytes
 .../configs/__pycache__/eagle.cpython-312.pyc |  Bin 0 -> 3182 bytes
 .../__pycache__/falcon.cpython-312.pyc        |  Bin 0 -> 2401 bytes
 .../__pycache__/flex_olmo.cpython-312.pyc     |  Bin 0 -> 2330 bytes
 .../configs/__pycache__/jais.cpython-312.pyc  |  Bin 0 -> 9355 bytes
 .../__pycache__/kimi_linear.cpython-312.pyc   |  Bin 0 -> 5090 bytes
 .../__pycache__/kimi_vl.cpython-312.pyc       |  Bin 0 -> 1518 bytes
 .../__pycache__/lfm2_moe.cpython-312.pyc      |  Bin 0 -> 7333 bytes
 .../__pycache__/medusa.cpython-312.pyc        |  Bin 0 -> 2766 bytes
 .../__pycache__/midashenglm.cpython-312.pyc   |  Bin 0 -> 3253 bytes
 .../__pycache__/mistral.cpython-312.pyc       |  Bin 0 -> 6508 bytes
 .../mlp_speculator.cpython-312.pyc            |  Bin 0 -> 2721 bytes
 .../__pycache__/moonvit.cpython-312.pyc       |  Bin 0 -> 1349 bytes
 .../__pycache__/nemotron.cpython-312.pyc      |  Bin 0 -> 8256 bytes
 .../__pycache__/nemotron_h.cpython-312.pyc    |  Bin 0 -> 11584 bytes
 .../configs/__pycache__/olmo3.cpython-312.pyc |  Bin 0 -> 2419 bytes
 .../configs/__pycache__/ovis.cpython-312.pyc  |  Bin 0 -> 7726 bytes
 .../__pycache__/qwen3_next.cpython-312.pyc    |  Bin 0 -> 13396 bytes
 .../configs/__pycache__/radio.cpython-312.pyc |  Bin 0 -> 4110 bytes
 .../__pycache__/step3_vl.cpython-312.pyc      |  Bin 0 -> 4707 bytes
 .../__pycache__/ultravox.cpython-312.pyc      |  Bin 0 -> 4685 bytes
 transformers_utils/configs/afmoe.py           |   84 +
 transformers_utils/configs/arctic.py          |  206 +
 transformers_utils/configs/chatglm.py         |   75 +
 transformers_utils/configs/deepseek_vl2.py    |  126 +
 transformers_utils/configs/dotsocr.py         |   71 +
 transformers_utils/configs/eagle.py           |   84 +
 transformers_utils/configs/falcon.py          |   89 +
 transformers_utils/configs/flex_olmo.py       |   77 +
 transformers_utils/configs/jais.py            |  243 +
 transformers_utils/configs/kimi_linear.py     |  144 +
 transformers_utils/configs/kimi_vl.py         |   38 +
 transformers_utils/configs/lfm2_moe.py        |  159 +
 transformers_utils/configs/medusa.py          |   65 +
 transformers_utils/configs/midashenglm.py     |  103 +
 transformers_utils/configs/mistral.py         |  174 +
 transformers_utils/configs/mlp_speculator.py  |   69 +
 transformers_utils/configs/moonvit.py         |   33 +
 transformers_utils/configs/nemotron.py        |  212 +
 transformers_utils/configs/nemotron_h.py      |  282 +
 transformers_utils/configs/olmo3.py           |   79 +
 transformers_utils/configs/ovis.py            |  182 +
 transformers_utils/configs/qwen3_next.py      |  274 +
 transformers_utils/configs/radio.py           |   89 +
 .../configs/speculators/__init__.py           |    2 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 188 bytes
 .../__pycache__/algos.cpython-312.pyc         |  Bin 0 -> 1843 bytes
 .../__pycache__/base.cpython-312.pyc          |  Bin 0 -> 4451 bytes
 .../configs/speculators/algos.py              |   38 +
 .../configs/speculators/base.py               |  114 +
 transformers_utils/configs/step3_vl.py        |  174 +
 transformers_utils/configs/ultravox.py        |  118 +
 transformers_utils/detokenizer_utils.py       |  198 +
 transformers_utils/dynamic_module.py          |   59 +
 transformers_utils/processor.py               |  402 ++
 transformers_utils/processors/__init__.py     |   15 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 727 bytes
 .../__pycache__/deepseek_ocr.cpython-312.pyc  |  Bin 0 -> 16200 bytes
 .../__pycache__/deepseek_vl2.cpython-312.pyc  |  Bin 0 -> 14878 bytes
 .../__pycache__/ovis.cpython-312.pyc          |  Bin 0 -> 20039 bytes
 .../__pycache__/ovis2_5.cpython-312.pyc       |  Bin 0 -> 19896 bytes
 transformers_utils/processors/deepseek_ocr.py |  438 ++
 transformers_utils/processors/deepseek_vl2.py |  406 ++
 transformers_utils/processors/ovis.py         |  453 ++
 transformers_utils/processors/ovis2_5.py      |  468 ++
 transformers_utils/runai_utils.py             |  104 +
 transformers_utils/s3_utils.py                |   95 +
 transformers_utils/tokenizer.py               |  293 +
 transformers_utils/tokenizer_base.py          |  155 +
 transformers_utils/tokenizers/__init__.py     |   16 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 365 bytes
 .../__pycache__/mistral.cpython-312.pyc       |  Bin 0 -> 21236 bytes
 transformers_utils/tokenizers/mistral.py      |  502 ++
 transformers_utils/utils.py                   |  130 +
 triton_utils/__init__.py                      |   19 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 575 bytes
 .../__pycache__/importing.cpython-312.pyc     |  Bin 0 -> 4223 bytes
 triton_utils/importing.py                     |  103 +
 usage/__init__.py                             |    0
 usage/__pycache__/__init__.cpython-312.pyc    |  Bin 0 -> 155 bytes
 usage/__pycache__/usage_lib.cpython-312.pyc   |  Bin 0 -> 12486 bytes
 usage/usage_lib.py                            |  294 +
 utils/__init__.py                             |   82 +
 utils/__pycache__/__init__.cpython-312.pyc    |  Bin 0 -> 3068 bytes
 .../argparse_utils.cpython-312.pyc            |  Bin 0 -> 21336 bytes
 utils/__pycache__/async_utils.cpython-312.pyc |  Bin 0 -> 15951 bytes
 utils/__pycache__/cache.cpython-312.pyc       |  Bin 0 -> 10893 bytes
 .../collection_utils.cpython-312.pyc          |  Bin 0 -> 7211 bytes
 utils/__pycache__/counter.cpython-312.pyc     |  Bin 0 -> 2586 bytes
 utils/__pycache__/deep_gemm.cpython-312.pyc   |  Bin 0 -> 15767 bytes
 utils/__pycache__/flashinfer.cpython-312.pyc  |  Bin 0 -> 18119 bytes
 utils/__pycache__/func_utils.cpython-312.pyc  |  Bin 0 -> 8474 bytes
 utils/__pycache__/gc_utils.cpython-312.pyc    |  Bin 0 -> 6677 bytes
 utils/__pycache__/hashing.cpython-312.pyc     |  Bin 0 -> 2462 bytes
 .../__pycache__/import_utils.cpython-312.pyc  |  Bin 0 -> 19180 bytes
 utils/__pycache__/jsontree.cpython-312.pyc    |  Bin 0 -> 5946 bytes
 utils/__pycache__/math_utils.cpython-312.pyc  |  Bin 0 -> 1400 bytes
 .../__pycache__/mem_constants.cpython-312.pyc |  Bin 0 -> 275 bytes
 utils/__pycache__/mem_utils.cpython-312.pyc   |  Bin 0 -> 10482 bytes
 utils/__pycache__/nccl.cpython-312.pyc        |  Bin 0 -> 2862 bytes
 .../__pycache__/network_utils.cpython-312.pyc |  Bin 0 -> 14246 bytes
 .../platform_utils.cpython-312.pyc            |  Bin 0 -> 3106 bytes
 utils/__pycache__/profiling.cpython-312.pyc   |  Bin 0 -> 2301 bytes
 utils/__pycache__/registry.cpython-312.pyc    |  Bin 0 -> 2164 bytes
 .../__pycache__/serial_utils.cpython-312.pyc  |  Bin 0 -> 6124 bytes
 .../__pycache__/system_utils.cpython-312.pyc  |  Bin 0 -> 9100 bytes
 .../__pycache__/tensor_schema.cpython-312.pyc |  Bin 0 -> 9848 bytes
 utils/__pycache__/torch_utils.cpython-312.pyc |  Bin 0 -> 27124 bytes
 utils/argparse_utils.py                       |  487 ++
 utils/async_utils.py                          |  303 +
 utils/cache.py                                |  214 +
 utils/collection_utils.py                     |  139 +
 utils/counter.py                              |   45 +
 utils/deep_gemm.py                            |  391 ++
 utils/flashinfer.py                           |  490 ++
 utils/func_utils.py                           |  236 +
 utils/gc_utils.py                             |  147 +
 utils/hashing.py                              |   63 +
 utils/import_utils.py                         |  411 ++
 utils/jsontree.py                             |  165 +
 utils/math_utils.py                           |   32 +
 utils/mem_constants.py                        |   13 +
 utils/mem_utils.py                            |  232 +
 utils/nccl.py                                 |   64 +
 utils/network_utils.py                        |  331 +
 utils/platform_utils.py                       |   59 +
 utils/profiling.py                            |   56 +
 utils/registry.py                             |   49 +
 utils/serial_utils.py                         |  169 +
 utils/system_utils.py                         |  229 +
 utils/tensor_schema.py                        |  255 +
 utils/torch_utils.py                          |  658 ++
 v1/__init__.py                                |    0
 v1/__pycache__/__init__.cpython-312.pyc       |  Bin 0 -> 152 bytes
 .../cudagraph_dispatcher.cpython-312.pyc      |  Bin 0 -> 6234 bytes
 .../kv_cache_interface.cpython-312.pyc        |  Bin 0 -> 23029 bytes
 v1/__pycache__/outputs.cpython-312.pyc        |  Bin 0 -> 8571 bytes
 v1/__pycache__/request.cpython-312.pyc        |  Bin 0 -> 11233 bytes
 v1/__pycache__/serial_utils.cpython-312.pyc   |  Bin 0 -> 26108 bytes
 v1/__pycache__/utils.cpython-312.pyc          |  Bin 0 -> 18864 bytes
 v1/attention/__init__.py                      |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 162 bytes
 v1/attention/backends/__init__.py             |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 171 bytes
 .../__pycache__/cpu_attn.cpython-312.pyc      |  Bin 0 -> 19526 bytes
 .../__pycache__/flash_attn.cpython-312.pyc    |  Bin 0 -> 40752 bytes
 .../__pycache__/flashinfer.cpython-312.pyc    |  Bin 0 -> 54410 bytes
 .../flex_attention.cpython-312.pyc            |  Bin 0 -> 39878 bytes
 .../__pycache__/gdn_attn.cpython-312.pyc      |  Bin 0 -> 14183 bytes
 .../__pycache__/linear_attn.cpython-312.pyc   |  Bin 0 -> 3100 bytes
 .../__pycache__/mamba1_attn.cpython-312.pyc   |  Bin 0 -> 5797 bytes
 .../__pycache__/mamba2_attn.cpython-312.pyc   |  Bin 0 -> 12457 bytes
 .../__pycache__/mamba_attn.cpython-312.pyc    |  Bin 0 -> 4703 bytes
 .../__pycache__/pallas.cpython-312.pyc        |  Bin 0 -> 16914 bytes
 .../__pycache__/rocm_aiter_fa.cpython-312.pyc |  Bin 0 -> 29813 bytes
 .../rocm_aiter_unified_attn.cpython-312.pyc   |  Bin 0 -> 7641 bytes
 .../__pycache__/rocm_attn.cpython-312.pyc     |  Bin 0 -> 13999 bytes
 .../short_conv_attn.cpython-312.pyc           |  Bin 0 -> 3891 bytes
 .../__pycache__/tree_attn.cpython-312.pyc     |  Bin 0 -> 16892 bytes
 .../__pycache__/triton_attn.cpython-312.pyc   |  Bin 0 -> 14470 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 38931 bytes
 .../__pycache__/xformers.cpython-312.pyc      |  Bin 0 -> 15355 bytes
 v1/attention/backends/cpu_attn.py             |  496 ++
 v1/attention/backends/flash_attn.py           | 1215 ++++
 v1/attention/backends/flashinfer.py           | 1572 +++++
 v1/attention/backends/flex_attention.py       |  926 +++
 v1/attention/backends/gdn_attn.py             |  387 ++
 v1/attention/backends/linear_attn.py          |   74 +
 v1/attention/backends/mamba1_attn.py          |  165 +
 v1/attention/backends/mamba2_attn.py          |  354 +
 v1/attention/backends/mamba_attn.py           |  115 +
 v1/attention/backends/mla/__init__.py         |    0
 .../mla/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 175 bytes
 .../mla/__pycache__/common.cpython-312.pyc    |  Bin 0 -> 83013 bytes
 .../__pycache__/cutlass_mla.cpython-312.pyc   |  Bin 0 -> 11604 bytes
 .../__pycache__/flashattn_mla.cpython-312.pyc |  Bin 0 -> 13253 bytes
 .../flashinfer_mla.cpython-312.pyc            |  Bin 0 -> 7353 bytes
 .../mla/__pycache__/flashmla.cpython-312.pyc  |  Bin 0 -> 12446 bytes
 .../flashmla_sparse.cpython-312.pyc           |  Bin 0 -> 21861 bytes
 .../mla/__pycache__/indexer.cpython-312.pyc   |  Bin 0 -> 14370 bytes
 .../rocm_aiter_mla.cpython-312.pyc            |  Bin 0 -> 11605 bytes
 .../__pycache__/triton_mla.cpython-312.pyc    |  Bin 0 -> 8208 bytes
 v1/attention/backends/mla/common.py           | 2200 ++++++
 v1/attention/backends/mla/cutlass_mla.py      |  275 +
 v1/attention/backends/mla/flashattn_mla.py    |  337 +
 v1/attention/backends/mla/flashinfer_mla.py   |  171 +
 v1/attention/backends/mla/flashmla.py         |  314 +
 v1/attention/backends/mla/flashmla_sparse.py  |  560 ++
 v1/attention/backends/mla/indexer.py          |  362 +
 v1/attention/backends/mla/rocm_aiter_mla.py   |  294 +
 v1/attention/backends/mla/triton_mla.py       |  206 +
 v1/attention/backends/pallas.py               |  436 ++
 v1/attention/backends/rocm_aiter_fa.py        |  816 +++
 .../backends/rocm_aiter_unified_attn.py       |  196 +
 v1/attention/backends/rocm_attn.py            |  362 +
 v1/attention/backends/short_conv_attn.py      |  105 +
 v1/attention/backends/tree_attn.py            |  425 ++
 v1/attention/backends/triton_attn.py          |  373 +
 v1/attention/backends/utils.py                | 1117 +++
 v1/attention/backends/xformers.py             |  417 ++
 v1/core/__init__.py                           |    0
 v1/core/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 157 bytes
 .../__pycache__/block_pool.cpython-312.pyc    |  Bin 0 -> 16194 bytes
 .../encoder_cache_manager.cpython-312.pyc     |  Bin 0 -> 14635 bytes
 .../kv_cache_coordinator.cpython-312.pyc      |  Bin 0 -> 18956 bytes
 .../kv_cache_manager.cpython-312.pyc          |  Bin 0 -> 18258 bytes
 .../kv_cache_utils.cpython-312.pyc            |  Bin 0 -> 49762 bytes
 ...ngle_type_kv_cache_manager.cpython-312.pyc |  Bin 0 -> 29272 bytes
 v1/core/block_pool.py                         |  428 ++
 v1/core/encoder_cache_manager.py              |  343 +
 v1/core/kv_cache_coordinator.py               |  480 ++
 v1/core/kv_cache_manager.py                   |  420 ++
 v1/core/kv_cache_utils.py                     | 1356 ++++
 v1/core/sched/__init__.py                     |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 163 bytes
 .../async_scheduler.cpython-312.pyc           |  Bin 0 -> 2774 bytes
 .../__pycache__/interface.cpython-312.pyc     |  Bin 0 -> 8735 bytes
 .../sched/__pycache__/output.cpython-312.pyc  |  Bin 0 -> 7276 bytes
 .../__pycache__/request_queue.cpython-312.pyc |  Bin 0 -> 11565 bytes
 .../__pycache__/scheduler.cpython-312.pyc     |  Bin 0 -> 51758 bytes
 .../sched/__pycache__/utils.cpython-312.pyc   |  Bin 0 -> 2838 bytes
 v1/core/sched/async_scheduler.py              |   62 +
 v1/core/sched/interface.py                    |  181 +
 v1/core/sched/output.py                       |  202 +
 v1/core/sched/request_queue.py                |  221 +
 v1/core/sched/scheduler.py                    | 1617 +++++
 v1/core/sched/utils.py                        |   72 +
 v1/core/single_type_kv_cache_manager.py       |  736 ++
 v1/cudagraph_dispatcher.py                    |  148 +
 v1/engine/__init__.py                         |  206 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 7557 bytes
 .../__pycache__/async_llm.cpython-312.pyc     |  Bin 0 -> 33097 bytes
 .../__pycache__/coordinator.cpython-312.pyc   |  Bin 0 -> 13737 bytes
 v1/engine/__pycache__/core.cpython-312.pyc    |  Bin 0 -> 55949 bytes
 .../__pycache__/core_client.cpython-312.pyc   |  Bin 0 -> 68308 bytes
 .../__pycache__/detokenizer.cpython-312.pyc   |  Bin 0 -> 13847 bytes
 .../__pycache__/exceptions.cpython-312.pyc    |  Bin 0 -> 1127 bytes
 .../__pycache__/llm_engine.cpython-312.pyc    |  Bin 0 -> 19373 bytes
 .../__pycache__/logprobs.cpython-312.pyc      |  Bin 0 -> 6010 bytes
 .../output_processor.cpython-312.pyc          |  Bin 0 -> 24927 bytes
 .../parallel_sampling.cpython-312.pyc         |  Bin 0 -> 5376 bytes
 .../__pycache__/processor.cpython-312.pyc     |  Bin 0 -> 22250 bytes
 v1/engine/__pycache__/utils.cpython-312.pyc   |  Bin 0 -> 38194 bytes
 v1/engine/async_llm.py                        |  797 +++
 v1/engine/coordinator.py                      |  377 +
 v1/engine/core.py                             | 1420 ++++
 v1/engine/core_client.py                      | 1400 ++++
 v1/engine/detokenizer.py                      |  351 +
 v1/engine/exceptions.py                       |   18 +
 v1/engine/llm_engine.py                       |  408 ++
 v1/engine/logprobs.py                         |  182 +
 v1/engine/output_processor.py                 |  642 ++
 v1/engine/parallel_sampling.py                |  145 +
 v1/engine/processor.py                        |  621 ++
 v1/engine/utils.py                            | 1072 +++
 v1/executor/__init__.py                       |    6 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 302 bytes
 .../__pycache__/abstract.cpython-312.pyc      |  Bin 0 -> 16251 bytes
 .../multiproc_executor.cpython-312.pyc        |  Bin 0 -> 36691 bytes
 .../ray_distributed_executor.cpython-312.pyc  |  Bin 0 -> 295 bytes
 .../__pycache__/ray_executor.cpython-312.pyc  |  Bin 0 -> 23654 bytes
 .../__pycache__/ray_utils.cpython-312.pyc     |  Bin 0 -> 20559 bytes
 .../uniproc_executor.cpython-312.pyc          |  Bin 0 -> 9603 bytes
 v1/executor/abstract.py                       |  352 +
 v1/executor/multiproc_executor.py             |  877 +++
 v1/executor/ray_distributed_executor.py       |    8 +
 v1/executor/ray_executor.py                   |  626 ++
 v1/executor/ray_utils.py                      |  498 ++
 v1/executor/uniproc_executor.py               |  183 +
 v1/kv_cache_interface.py                      |  443 ++
 v1/kv_offload/__init__.py                     |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 163 bytes
 .../__pycache__/abstract.cpython-312.pyc      |  Bin 0 -> 6713 bytes
 .../__pycache__/arc_manager.cpython-312.pyc   |  Bin 0 -> 10966 bytes
 .../__pycache__/backend.cpython-312.pyc       |  Bin 0 -> 4102 bytes
 v1/kv_offload/__pycache__/cpu.cpython-312.pyc |  Bin 0 -> 4414 bytes
 .../__pycache__/factory.cpython-312.pyc       |  Bin 0 -> 2858 bytes
 .../__pycache__/lru_manager.cpython-312.pyc   |  Bin 0 -> 6122 bytes
 .../__pycache__/mediums.cpython-312.pyc       |  Bin 0 -> 1873 bytes
 .../__pycache__/spec.cpython-312.pyc          |  Bin 0 -> 2790 bytes
 v1/kv_offload/abstract.py                     |  161 +
 v1/kv_offload/arc_manager.py                  |  237 +
 v1/kv_offload/backend.py                      |   97 +
 v1/kv_offload/backends/__init__.py            |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 172 bytes
 .../backends/__pycache__/cpu.cpython-312.pyc  |  Bin 0 -> 3682 bytes
 v1/kv_offload/backends/cpu.py                 |   62 +
 v1/kv_offload/cpu.py                          |   93 +
 v1/kv_offload/factory.py                      |   56 +
 v1/kv_offload/lru_manager.py                  |  139 +
 v1/kv_offload/mediums.py                      |   39 +
 v1/kv_offload/spec.py                         |   62 +
 v1/kv_offload/worker/__init__.py              |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 170 bytes
 .../__pycache__/cpu_gpu.cpython-312.pyc       |  Bin 0 -> 7817 bytes
 .../worker/__pycache__/worker.cpython-312.pyc |  Bin 0 -> 5297 bytes
 v1/kv_offload/worker/cpu_gpu.py               |  185 +
 v1/kv_offload/worker/worker.py                |  144 +
 v1/metrics/__init__.py                        |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 160 bytes
 .../__pycache__/loggers.cpython-312.pyc       |  Bin 0 -> 42175 bytes
 .../__pycache__/prometheus.cpython-312.pyc    |  Bin 0 -> 3416 bytes
 .../__pycache__/ray_wrappers.cpython-312.pyc  |  Bin 0 -> 7801 bytes
 v1/metrics/__pycache__/reader.cpython-312.pyc |  Bin 0 -> 8674 bytes
 v1/metrics/__pycache__/stats.cpython-312.pyc  |  Bin 0 -> 17798 bytes
 v1/metrics/loggers.py                         | 1238 ++++
 v1/metrics/prometheus.py                      |   82 +
 v1/metrics/ray_wrappers.py                    |  169 +
 v1/metrics/reader.py                          |  257 +
 v1/metrics/stats.py                           |  420 ++
 v1/outputs.py                                 |  249 +
 v1/pool/__init__.py                           |    0
 v1/pool/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 157 bytes
 v1/pool/__pycache__/metadata.cpython-312.pyc  |  Bin 0 -> 3972 bytes
 v1/pool/metadata.py                           |   82 +
 v1/request.py                                 |  259 +
 v1/sample/__init__.py                         |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 159 bytes
 .../__pycache__/metadata.cpython-312.pyc      |  Bin 0 -> 1529 bytes
 .../rejection_sampler.cpython-312.pyc         |  Bin 0 -> 26659 bytes
 v1/sample/__pycache__/sampler.cpython-312.pyc |  Bin 0 -> 12009 bytes
 v1/sample/logits_processor/__init__.py        |  352 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 12668 bytes
 .../__pycache__/builtin.cpython-312.pyc       |  Bin 0 -> 13159 bytes
 .../__pycache__/interface.cpython-312.pyc     |  Bin 0 -> 3583 bytes
 .../__pycache__/state.cpython-312.pyc         |  Bin 0 -> 7296 bytes
 v1/sample/logits_processor/builtin.py         |  274 +
 v1/sample/logits_processor/interface.py       |  106 +
 v1/sample/logits_processor/state.py           |  165 +
 v1/sample/metadata.py                         |   44 +
 v1/sample/ops/__init__.py                     |    0
 .../ops/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 163 bytes
 .../ops/__pycache__/bad_words.cpython-312.pyc |  Bin 0 -> 2096 bytes
 .../ops/__pycache__/logprobs.cpython-312.pyc  |  Bin 0 -> 1306 bytes
 .../ops/__pycache__/penalties.cpython-312.pyc |  Bin 0 -> 1925 bytes
 .../topk_topp_sampler.cpython-312.pyc         |  Bin 0 -> 12753 bytes
 v1/sample/ops/bad_words.py                    |   52 +
 v1/sample/ops/logprobs.py                     |   25 +
 v1/sample/ops/penalties.py                    |   57 +
 v1/sample/ops/topk_topp_sampler.py            |  290 +
 v1/sample/rejection_sampler.py                |  791 +++
 v1/sample/sampler.py                          |  316 +
 v1/sample/tpu/__init__.py                     |    0
 .../tpu/__pycache__/__init__.cpython-312.pyc  |  Bin 0 -> 163 bytes
 .../tpu/__pycache__/metadata.cpython-312.pyc  |  Bin 0 -> 5134 bytes
 .../tpu/__pycache__/sampler.cpython-312.pyc   |  Bin 0 -> 9288 bytes
 v1/sample/tpu/metadata.py                     |  120 +
 v1/sample/tpu/sampler.py                      |  215 +
 v1/serial_utils.py                            |  532 ++
 v1/spec_decode/__init__.py                    |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 164 bytes
 .../__pycache__/eagle.cpython-312.pyc         |  Bin 0 -> 44943 bytes
 .../__pycache__/medusa.cpython-312.pyc        |  Bin 0 -> 3886 bytes
 .../__pycache__/metadata.cpython-312.pyc      |  Bin 0 -> 2938 bytes
 .../__pycache__/metrics.cpython-312.pyc       |  Bin 0 -> 9531 bytes
 .../ngram_proposer.cpython-312.pyc            |  Bin 0 -> 8691 bytes
 .../suffix_decoding.cpython-312.pyc           |  Bin 0 -> 4670 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 858 bytes
 v1/spec_decode/eagle.py                       | 1229 ++++
 v1/spec_decode/medusa.py                      |   73 +
 v1/spec_decode/metadata.py                    |   66 +
 v1/spec_decode/metrics.py                     |  224 +
 v1/spec_decode/ngram_proposer.py              |  291 +
 v1/spec_decode/suffix_decoding.py             |  103 +
 v1/spec_decode/utils.py                       |   16 +
 v1/structured_output/__init__.py              |  338 +
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 11672 bytes
 .../backend_guidance.cpython-312.pyc          |  Bin 0 -> 11526 bytes
 ...backend_lm_format_enforcer.cpython-312.pyc |  Bin 0 -> 8551 bytes
 .../backend_outlines.cpython-312.pyc          |  Bin 0 -> 14526 bytes
 .../__pycache__/backend_types.cpython-312.pyc |  Bin 0 -> 5691 bytes
 .../backend_xgrammar.cpython-312.pyc          |  Bin 0 -> 15035 bytes
 .../__pycache__/request.cpython-312.pyc       |  Bin 0 -> 4702 bytes
 .../__pycache__/utils.cpython-312.pyc         |  Bin 0 -> 18018 bytes
 v1/structured_output/backend_guidance.py      |  265 +
 .../backend_lm_format_enforcer.py             |  177 +
 v1/structured_output/backend_outlines.py      |  324 +
 v1/structured_output/backend_types.py         |  136 +
 v1/structured_output/backend_xgrammar.py      |  362 +
 v1/structured_output/request.py               |   94 +
 v1/structured_output/utils.py                 |  469 ++
 v1/utils.py                                   |  414 ++
 v1/worker/__init__.py                         |    0
 .../__pycache__/__init__.cpython-312.pyc      |  Bin 0 -> 159 bytes
 .../__pycache__/block_table.cpython-312.pyc   |  Bin 0 -> 14690 bytes
 .../cpu_model_runner.cpython-312.pyc          |  Bin 0 -> 7884 bytes
 .../__pycache__/cpu_worker.cpython-312.pyc    |  Bin 0 -> 10410 bytes
 .../__pycache__/dp_utils.cpython-312.pyc      |  Bin 0 -> 7631 bytes
 ...nnector_model_runner_mixin.cpython-312.pyc |  Bin 0 -> 3934 bytes
 .../gpu_input_batch.cpython-312.pyc           |  Bin 0 -> 40325 bytes
 .../gpu_model_runner.cpython-312.pyc          |  Bin 0 -> 184645 bytes
 .../gpu_ubatch_wrapper.cpython-312.pyc        |  Bin 0 -> 19075 bytes
 .../__pycache__/gpu_worker.cpython-312.pyc    |  Bin 0 -> 41672 bytes
 ...nnector_model_runner_mixin.cpython-312.pyc |  Bin 0 -> 6245 bytes
 .../lora_model_runner_mixin.cpython-312.pyc   |  Bin 0 -> 8743 bytes
 .../tpu_input_batch.cpython-312.pyc           |  Bin 0 -> 27062 bytes
 .../tpu_model_runner.cpython-312.pyc          |  Bin 0 -> 87151 bytes
 .../__pycache__/tpu_worker.cpython-312.pyc    |  Bin 0 -> 15458 bytes
 .../__pycache__/ubatch_utils.cpython-312.pyc  |  Bin 0 -> 3318 bytes
 .../__pycache__/ubatching.cpython-312.pyc     |  Bin 0 -> 12408 bytes
 v1/worker/__pycache__/utils.cpython-312.pyc   |  Bin 0 -> 16353 bytes
 .../__pycache__/worker_base.cpython-312.pyc   |  Bin 0 -> 16809 bytes
 .../xpu_model_runner.cpython-312.pyc          |  Bin 0 -> 3324 bytes
 .../__pycache__/xpu_worker.cpython-312.pyc    |  Bin 0 -> 9256 bytes
 v1/worker/block_table.py                      |  327 +
 v1/worker/cpu_model_runner.py                 |  122 +
 v1/worker/cpu_worker.py                       |  206 +
 v1/worker/dp_utils.py                         |  230 +
 v1/worker/ec_connector_model_runner_mixin.py  |   87 +
 v1/worker/gpu_input_batch.py                  |  975 +++
 v1/worker/gpu_model_runner.py                 | 5143 ++++++++++++++
 v1/worker/gpu_ubatch_wrapper.py               |  466 ++
 v1/worker/gpu_worker.py                       |  894 +++
 v1/worker/kv_connector_model_runner_mixin.py  |  144 +
 v1/worker/lora_model_runner_mixin.py          |  213 +
 v1/worker/tpu_input_batch.py                  |  593 ++
 v1/worker/tpu_model_runner.py                 | 2173 ++++++
 v1/worker/tpu_worker.py                       |  355 +
 v1/worker/ubatch_utils.py                     |   73 +
 v1/worker/ubatching.py                        |  231 +
 v1/worker/utils.py                            |  415 ++
 v1/worker/worker_base.py                      |  378 +
 v1/worker/xpu_model_runner.py                 |   55 +
 v1/worker/xpu_worker.py                       |  189 +
 version.py                                    |    2 +
 vllm_flash_attn/.gitkeep                      |    0
 2569 files changed, 478204 insertions(+)
 create mode 100644 __init__.py
 create mode 100644 __pycache__/__init__.cpython-312.pyc
 create mode 100644 __pycache__/_aiter_ops.cpython-312.pyc
 create mode 100644 __pycache__/_bc_linter.cpython-312.pyc
 create mode 100644 __pycache__/_custom_ops.cpython-312.pyc
 create mode 100644 __pycache__/_ipex_ops.cpython-312.pyc
 create mode 100644 __pycache__/beam_search.cpython-312.pyc
 create mode 100644 __pycache__/collect_env.cpython-312.pyc
 create mode 100644 __pycache__/connections.cpython-312.pyc
 create mode 100644 __pycache__/env_override.cpython-312.pyc
 create mode 100644 __pycache__/envs.cpython-312.pyc
 create mode 100644 __pycache__/forward_context.cpython-312.pyc
 create mode 100644 __pycache__/logger.cpython-312.pyc
 create mode 100644 __pycache__/logits_process.cpython-312.pyc
 create mode 100644 __pycache__/logprobs.cpython-312.pyc
 create mode 100644 __pycache__/outputs.cpython-312.pyc
 create mode 100644 __pycache__/pooling_params.cpython-312.pyc
 create mode 100644 __pycache__/sampling_params.cpython-312.pyc
 create mode 100644 __pycache__/scalar_type.cpython-312.pyc
 create mode 100644 __pycache__/scripts.cpython-312.pyc
 create mode 100644 __pycache__/sequence.cpython-312.pyc
 create mode 100644 __pycache__/tasks.cpython-312.pyc
 create mode 100644 __pycache__/tracing.cpython-312.pyc
 create mode 100644 __pycache__/version.cpython-312.pyc
 create mode 100644 _aiter_ops.py
 create mode 100644 _bc_linter.py
 create mode 100644 _custom_ops.py
 create mode 100644 _ipex_ops.py
 create mode 100644 assets/__init__.py
 create mode 100644 assets/__pycache__/__init__.cpython-312.pyc
 create mode 100644 assets/__pycache__/audio.cpython-312.pyc
 create mode 100644 assets/__pycache__/base.cpython-312.pyc
 create mode 100644 assets/__pycache__/image.cpython-312.pyc
 create mode 100644 assets/__pycache__/video.cpython-312.pyc
 create mode 100644 assets/audio.py
 create mode 100644 assets/base.py
 create mode 100644 assets/image.py
 create mode 100644 assets/video.py
 create mode 100644 attention/__init__.py
 create mode 100644 attention/__pycache__/__init__.cpython-312.pyc
 create mode 100644 attention/__pycache__/layer.cpython-312.pyc
 create mode 100644 attention/__pycache__/selector.cpython-312.pyc
 create mode 100644 attention/backends/__init__.py
 create mode 100644 attention/backends/__pycache__/__init__.cpython-312.pyc
 create mode 100644 attention/backends/__pycache__/abstract.cpython-312.pyc
 create mode 100644 attention/backends/__pycache__/registry.cpython-312.pyc
 create mode 100644 attention/backends/__pycache__/utils.cpython-312.pyc
 create mode 100644 attention/backends/abstract.py
 create mode 100644 attention/backends/registry.py
 create mode 100644 attention/backends/utils.py
 create mode 100644 attention/layer.py
 create mode 100644 attention/layers/__init__.py
 create mode 100644 attention/layers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 attention/layers/__pycache__/chunked_local_attention.cpython-312.pyc
 create mode 100644 attention/layers/__pycache__/cross_attention.cpython-312.pyc
 create mode 100644 attention/layers/__pycache__/encoder_only_attention.cpython-312.pyc
 create mode 100644 attention/layers/chunked_local_attention.py
 create mode 100644 attention/layers/cross_attention.py
 create mode 100644 attention/layers/encoder_only_attention.py
 create mode 100644 attention/ops/__init__.py
 create mode 100644 attention/ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/chunked_prefill_paged_decode.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/common.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/flashmla.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/merge_attn_states.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/paged_attn.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/pallas_kv_cache_update.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/prefix_prefill.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/rocm_aiter_paged_attn.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/triton_decode_attention.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/triton_merge_attn_states.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/triton_reshape_and_cache_flash.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/triton_unified_attention.cpython-312.pyc
 create mode 100644 attention/ops/__pycache__/vit_attn_wrappers.cpython-312.pyc
 create mode 100644 attention/ops/chunked_prefill_paged_decode.py
 create mode 100644 attention/ops/common.py
 create mode 100644 attention/ops/flashmla.py
 create mode 100644 attention/ops/merge_attn_states.py
 create mode 100644 attention/ops/paged_attn.py
 create mode 100644 attention/ops/pallas_kv_cache_update.py
 create mode 100644 attention/ops/prefix_prefill.py
 create mode 100644 attention/ops/rocm_aiter_paged_attn.py
 create mode 100644 attention/ops/triton_decode_attention.py
 create mode 100644 attention/ops/triton_merge_attn_states.py
 create mode 100644 attention/ops/triton_reshape_and_cache_flash.py
 create mode 100644 attention/ops/triton_unified_attention.py
 create mode 100644 attention/ops/vit_attn_wrappers.py
 create mode 100644 attention/selector.py
 create mode 100644 attention/utils/__init__.py
 create mode 100644 attention/utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 attention/utils/__pycache__/fa_utils.cpython-312.pyc
 create mode 100644 attention/utils/__pycache__/kv_sharing_utils.cpython-312.pyc
 create mode 100644 attention/utils/__pycache__/kv_transfer_utils.cpython-312.pyc
 create mode 100644 attention/utils/fa_utils.py
 create mode 100644 attention/utils/kv_sharing_utils.py
 create mode 100644 attention/utils/kv_transfer_utils.py
 create mode 100644 beam_search.py
 create mode 100644 benchmarks/__init__.py
 create mode 100644 benchmarks/__pycache__/__init__.cpython-312.pyc
 create mode 100644 benchmarks/__pycache__/datasets.cpython-312.pyc
 create mode 100644 benchmarks/__pycache__/latency.cpython-312.pyc
 create mode 100644 benchmarks/__pycache__/serve.cpython-312.pyc
 create mode 100644 benchmarks/__pycache__/throughput.cpython-312.pyc
 create mode 100644 benchmarks/datasets.py
 create mode 100644 benchmarks/latency.py
 create mode 100644 benchmarks/lib/__init__.py
 create mode 100644 benchmarks/lib/__pycache__/__init__.cpython-312.pyc
 create mode 100644 benchmarks/lib/__pycache__/endpoint_request_func.cpython-312.pyc
 create mode 100644 benchmarks/lib/__pycache__/ready_checker.cpython-312.pyc
 create mode 100644 benchmarks/lib/__pycache__/utils.cpython-312.pyc
 create mode 100644 benchmarks/lib/endpoint_request_func.py
 create mode 100644 benchmarks/lib/ready_checker.py
 create mode 100644 benchmarks/lib/utils.py
 create mode 100644 benchmarks/serve.py
 create mode 100644 benchmarks/sweep/__init__.py
 create mode 100644 benchmarks/sweep/__pycache__/__init__.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/cli.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/param_sweep.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/plot.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/serve.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/serve_sla.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/server.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/sla_sweep.cpython-312.pyc
 create mode 100644 benchmarks/sweep/__pycache__/utils.cpython-312.pyc
 create mode 100644 benchmarks/sweep/cli.py
 create mode 100644 benchmarks/sweep/param_sweep.py
 create mode 100644 benchmarks/sweep/plot.py
 create mode 100644 benchmarks/sweep/serve.py
 create mode 100644 benchmarks/sweep/serve_sla.py
 create mode 100644 benchmarks/sweep/server.py
 create mode 100644 benchmarks/sweep/sla_sweep.py
 create mode 100644 benchmarks/sweep/utils.py
 create mode 100644 benchmarks/throughput.py
 create mode 100644 collect_env.py
 create mode 100644 compilation/__init__.py
 create mode 100644 compilation/__pycache__/__init__.cpython-312.pyc
 create mode 100644 compilation/__pycache__/activation_quant_fusion.cpython-312.pyc
 create mode 100644 compilation/__pycache__/backends.cpython-312.pyc
 create mode 100644 compilation/__pycache__/base_static_graph.cpython-312.pyc
 create mode 100644 compilation/__pycache__/caching.cpython-312.pyc
 create mode 100644 compilation/__pycache__/collective_fusion.cpython-312.pyc
 create mode 100644 compilation/__pycache__/compiler_interface.cpython-312.pyc
 create mode 100644 compilation/__pycache__/counter.cpython-312.pyc
 create mode 100644 compilation/__pycache__/cuda_graph.cpython-312.pyc
 create mode 100644 compilation/__pycache__/decorators.cpython-312.pyc
 create mode 100644 compilation/__pycache__/fix_functionalization.cpython-312.pyc
 create mode 100644 compilation/__pycache__/fusion.cpython-312.pyc
 create mode 100644 compilation/__pycache__/fusion_attn.cpython-312.pyc
 create mode 100644 compilation/__pycache__/fx_utils.cpython-312.pyc
 create mode 100644 compilation/__pycache__/inductor_pass.cpython-312.pyc
 create mode 100644 compilation/__pycache__/matcher_utils.cpython-312.pyc
 create mode 100644 compilation/__pycache__/monitor.cpython-312.pyc
 create mode 100644 compilation/__pycache__/noop_elimination.cpython-312.pyc
 create mode 100644 compilation/__pycache__/partition_rules.cpython-312.pyc
 create mode 100644 compilation/__pycache__/pass_manager.cpython-312.pyc
 create mode 100644 compilation/__pycache__/piecewise_backend.cpython-312.pyc
 create mode 100644 compilation/__pycache__/post_cleanup.cpython-312.pyc
 create mode 100644 compilation/__pycache__/qk_norm_rope_fusion.cpython-312.pyc
 create mode 100644 compilation/__pycache__/sequence_parallelism.cpython-312.pyc
 create mode 100644 compilation/__pycache__/torch25_custom_graph_pass.cpython-312.pyc
 create mode 100644 compilation/__pycache__/vllm_inductor_pass.cpython-312.pyc
 create mode 100644 compilation/__pycache__/wrapper.cpython-312.pyc
 create mode 100644 compilation/activation_quant_fusion.py
 create mode 100644 compilation/backends.py
 create mode 100644 compilation/base_static_graph.py
 create mode 100644 compilation/caching.py
 create mode 100644 compilation/collective_fusion.py
 create mode 100644 compilation/compiler_interface.py
 create mode 100644 compilation/counter.py
 create mode 100644 compilation/cuda_graph.py
 create mode 100644 compilation/decorators.py
 create mode 100644 compilation/fix_functionalization.py
 create mode 100644 compilation/fusion.py
 create mode 100644 compilation/fusion_attn.py
 create mode 100644 compilation/fx_utils.py
 create mode 100644 compilation/inductor_pass.py
 create mode 100644 compilation/matcher_utils.py
 create mode 100644 compilation/monitor.py
 create mode 100644 compilation/noop_elimination.py
 create mode 100644 compilation/partition_rules.py
 create mode 100644 compilation/pass_manager.py
 create mode 100644 compilation/piecewise_backend.py
 create mode 100644 compilation/post_cleanup.py
 create mode 100644 compilation/qk_norm_rope_fusion.py
 create mode 100644 compilation/sequence_parallelism.py
 create mode 100644 compilation/torch25_custom_graph_pass.py
 create mode 100644 compilation/vllm_inductor_pass.py
 create mode 100644 compilation/wrapper.py
 create mode 100644 config/__init__.py
 create mode 100644 config/__pycache__/__init__.cpython-312.pyc
 create mode 100644 config/__pycache__/cache.cpython-312.pyc
 create mode 100644 config/__pycache__/compilation.cpython-312.pyc
 create mode 100644 config/__pycache__/device.cpython-312.pyc
 create mode 100644 config/__pycache__/ec_transfer.cpython-312.pyc
 create mode 100644 config/__pycache__/kv_events.cpython-312.pyc
 create mode 100644 config/__pycache__/kv_transfer.cpython-312.pyc
 create mode 100644 config/__pycache__/load.cpython-312.pyc
 create mode 100644 config/__pycache__/lora.cpython-312.pyc
 create mode 100644 config/__pycache__/model.cpython-312.pyc
 create mode 100644 config/__pycache__/multimodal.cpython-312.pyc
 create mode 100644 config/__pycache__/observability.cpython-312.pyc
 create mode 100644 config/__pycache__/parallel.cpython-312.pyc
 create mode 100644 config/__pycache__/pooler.cpython-312.pyc
 create mode 100644 config/__pycache__/scheduler.cpython-312.pyc
 create mode 100644 config/__pycache__/speculative.cpython-312.pyc
 create mode 100644 config/__pycache__/speech_to_text.cpython-312.pyc
 create mode 100644 config/__pycache__/structured_outputs.cpython-312.pyc
 create mode 100644 config/__pycache__/utils.cpython-312.pyc
 create mode 100644 config/__pycache__/vllm.cpython-312.pyc
 create mode 100644 config/cache.py
 create mode 100644 config/compilation.py
 create mode 100644 config/device.py
 create mode 100644 config/ec_transfer.py
 create mode 100644 config/kv_events.py
 create mode 100644 config/kv_transfer.py
 create mode 100644 config/load.py
 create mode 100644 config/lora.py
 create mode 100644 config/model.py
 create mode 100644 config/multimodal.py
 create mode 100644 config/observability.py
 create mode 100644 config/parallel.py
 create mode 100644 config/pooler.py
 create mode 100644 config/scheduler.py
 create mode 100644 config/speculative.py
 create mode 100644 config/speech_to_text.py
 create mode 100644 config/structured_outputs.py
 create mode 100644 config/utils.py
 create mode 100644 config/vllm.py
 create mode 100644 connections.py
 create mode 100644 device_allocator/__init__.py
 create mode 100644 device_allocator/__pycache__/__init__.cpython-312.pyc
 create mode 100644 device_allocator/__pycache__/cumem.cpython-312.pyc
 create mode 100644 device_allocator/cumem.py
 create mode 100644 distributed/__init__.py
 create mode 100644 distributed/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/__pycache__/communication_op.cpython-312.pyc
 create mode 100644 distributed/__pycache__/kv_events.cpython-312.pyc
 create mode 100644 distributed/__pycache__/parallel_state.cpython-312.pyc
 create mode 100644 distributed/__pycache__/tpu_distributed_utils.cpython-312.pyc
 create mode 100644 distributed/__pycache__/utils.cpython-312.pyc
 create mode 100644 distributed/communication_op.py
 create mode 100644 distributed/device_communicators/__init__.py
 create mode 100644 distributed/device_communicators/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/all2all.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/all_reduce_utils.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/base_device_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/cpu_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/cuda_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/cuda_wrapper.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/custom_all_reduce.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/mnnvl_compat.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/pynccl.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/pynccl_allocator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/pynccl_wrapper.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/quick_all_reduce.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/ray_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/shm_broadcast.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/shm_object_storage.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/symm_mem.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/tpu_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/__pycache__/xpu_communicator.cpython-312.pyc
 create mode 100644 distributed/device_communicators/all2all.py
 create mode 100644 distributed/device_communicators/all_reduce_utils.py
 create mode 100644 distributed/device_communicators/base_device_communicator.py
 create mode 100644 distributed/device_communicators/cpu_communicator.py
 create mode 100644 distributed/device_communicators/cuda_communicator.py
 create mode 100644 distributed/device_communicators/cuda_wrapper.py
 create mode 100644 distributed/device_communicators/custom_all_reduce.py
 create mode 100644 distributed/device_communicators/mnnvl_compat.py
 create mode 100644 distributed/device_communicators/pynccl.py
 create mode 100644 distributed/device_communicators/pynccl_allocator.py
 create mode 100644 distributed/device_communicators/pynccl_wrapper.py
 create mode 100644 distributed/device_communicators/quick_all_reduce.py
 create mode 100644 distributed/device_communicators/ray_communicator.py
 create mode 100644 distributed/device_communicators/shm_broadcast.py
 create mode 100644 distributed/device_communicators/shm_object_storage.py
 create mode 100644 distributed/device_communicators/symm_mem.py
 create mode 100644 distributed/device_communicators/tpu_communicator.py
 create mode 100644 distributed/device_communicators/xpu_communicator.py
 create mode 100644 distributed/ec_transfer/__init__.py
 create mode 100644 distributed/ec_transfer/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/__pycache__/ec_transfer_state.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/ec_connector/__init__.py
 create mode 100644 distributed/ec_transfer/ec_connector/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/ec_connector/__pycache__/base.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/ec_connector/__pycache__/factory.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/ec_connector/__pycache__/shared_storage_connector.cpython-312.pyc
 create mode 100644 distributed/ec_transfer/ec_connector/base.py
 create mode 100644 distributed/ec_transfer/ec_connector/factory.py
 create mode 100644 distributed/ec_transfer/ec_connector/shared_storage_connector.py
 create mode 100644 distributed/ec_transfer/ec_transfer_state.py
 create mode 100644 distributed/eplb/__init__.py
 create mode 100644 distributed/eplb/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/eplb/__pycache__/eplb_state.cpython-312.pyc
 create mode 100644 distributed/eplb/__pycache__/rebalance_algo.cpython-312.pyc
 create mode 100644 distributed/eplb/__pycache__/rebalance_execute.cpython-312.pyc
 create mode 100644 distributed/eplb/eplb_state.py
 create mode 100644 distributed/eplb/rebalance_algo.py
 create mode 100644 distributed/eplb/rebalance_execute.py
 create mode 100644 distributed/kv_events.py
 create mode 100644 distributed/kv_transfer/README.md
 create mode 100644 distributed/kv_transfer/__init__.py
 create mode 100644 distributed/kv_transfer/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/__pycache__/kv_transfer_state.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/disagg_prefill_workflow.jpg
 create mode 100644 distributed/kv_transfer/kv_connector/__init__.py
 create mode 100644 distributed/kv_transfer/kv_connector/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/__pycache__/base.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/__pycache__/factory.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/__pycache__/utils.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/base.py
 create mode 100644 distributed/kv_transfer/kv_connector/factory.py
 create mode 100644 distributed/kv_transfer/kv_connector/utils.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__init__.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/base.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/decode_bench_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_mp_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/metrics.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/multi_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/nixl_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/offloading_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/__pycache__/shared_storage_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/base.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/multi_process_adapter.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/utils.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/vllm_v1_adapter.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/utils.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/metrics.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/multi_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/nixl_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/offloading_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/__init__.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_connector.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_engine.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/tensor_memory_pool.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.py
 create mode 100644 distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/__init__.py
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/__pycache__/base.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/__pycache__/mooncake_store.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/__pycache__/simple_buffer.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/base.py
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/mooncake_store.py
 create mode 100644 distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
 create mode 100644 distributed/kv_transfer/kv_pipe/__init__.py
 create mode 100644 distributed/kv_transfer/kv_pipe/__pycache__/__init__.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_pipe/__pycache__/base.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_pipe/__pycache__/mooncake_pipe.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_pipe/__pycache__/pynccl_pipe.cpython-312.pyc
 create mode 100644 distributed/kv_transfer/kv_pipe/base.py
 create mode 100644 distributed/kv_transfer/kv_pipe/mooncake_pipe.py
 create mode 100644 distributed/kv_transfer/kv_pipe/pynccl_pipe.py
 create mode 100644 distributed/kv_transfer/kv_transfer_state.py
 create mode 100644 distributed/parallel_state.py
 create mode 100644 distributed/tpu_distributed_utils.py
 create mode 100644 distributed/utils.py
 create mode 100644 engine/__init__.py
 create mode 100644 engine/__pycache__/__init__.cpython-312.pyc
 create mode 100644 engine/__pycache__/arg_utils.cpython-312.pyc
 create mode 100644 engine/__pycache__/async_llm_engine.cpython-312.pyc
 create mode 100644 engine/__pycache__/llm_engine.cpython-312.pyc
 create mode 100644 engine/__pycache__/protocol.cpython-312.pyc
 create mode 100644 engine/arg_utils.py
 create mode 100644 engine/async_llm_engine.py
 create mode 100644 engine/llm_engine.py
 create mode 100644 engine/protocol.py
 create mode 100644 entrypoints/__init__.py
 create mode 100644 entrypoints/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/api_server.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/chat_utils.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/constants.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/context.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/dynamic_lora.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/harmony_utils.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/launcher.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/llm.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/logger.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/renderer.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/responses_utils.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/score_utils.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/ssl.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/tool.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/tool_server.cpython-312.pyc
 create mode 100644 entrypoints/__pycache__/utils.cpython-312.pyc
 create mode 100644 entrypoints/anthropic/__init__.py
 create mode 100644 entrypoints/anthropic/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/anthropic/__pycache__/protocol.cpython-312.pyc
 create mode 100644 entrypoints/anthropic/__pycache__/serving_messages.cpython-312.pyc
 create mode 100644 entrypoints/anthropic/protocol.py
 create mode 100644 entrypoints/anthropic/serving_messages.py
 create mode 100644 entrypoints/api_server.py
 create mode 100644 entrypoints/chat_utils.py
 create mode 100644 entrypoints/cli/__init__.py
 create mode 100644 entrypoints/cli/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/collect_env.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/main.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/openai.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/run_batch.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/serve.cpython-312.pyc
 create mode 100644 entrypoints/cli/__pycache__/types.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__init__.py
 create mode 100644 entrypoints/cli/benchmark/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/base.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/latency.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/main.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/serve.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/sweep.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/__pycache__/throughput.cpython-312.pyc
 create mode 100644 entrypoints/cli/benchmark/base.py
 create mode 100644 entrypoints/cli/benchmark/latency.py
 create mode 100644 entrypoints/cli/benchmark/main.py
 create mode 100644 entrypoints/cli/benchmark/serve.py
 create mode 100644 entrypoints/cli/benchmark/sweep.py
 create mode 100644 entrypoints/cli/benchmark/throughput.py
 create mode 100644 entrypoints/cli/collect_env.py
 create mode 100644 entrypoints/cli/main.py
 create mode 100644 entrypoints/cli/openai.py
 create mode 100644 entrypoints/cli/run_batch.py
 create mode 100644 entrypoints/cli/serve.py
 create mode 100644 entrypoints/cli/types.py
 create mode 100644 entrypoints/constants.py
 create mode 100644 entrypoints/context.py
 create mode 100644 entrypoints/dynamic_lora.py
 create mode 100644 entrypoints/harmony_utils.py
 create mode 100644 entrypoints/launcher.py
 create mode 100644 entrypoints/llm.py
 create mode 100644 entrypoints/logger.py
 create mode 100644 entrypoints/openai/__init__.py
 create mode 100644 entrypoints/openai/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/api_server.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/cli_args.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/orca_metrics.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/protocol.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/run_batch.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_chat.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_classification.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_completion.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_embedding.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_engine.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_models.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_pooling.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_responses.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_score.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_tokenization.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_tokens.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/serving_transcription.cpython-312.pyc
 create mode 100644 entrypoints/openai/__pycache__/speech_to_text.cpython-312.pyc
 create mode 100644 entrypoints/openai/api_server.py
 create mode 100644 entrypoints/openai/cli_args.py
 create mode 100644 entrypoints/openai/orca_metrics.py
 create mode 100644 entrypoints/openai/protocol.py
 create mode 100644 entrypoints/openai/run_batch.py
 create mode 100644 entrypoints/openai/serving_chat.py
 create mode 100644 entrypoints/openai/serving_classification.py
 create mode 100644 entrypoints/openai/serving_completion.py
 create mode 100644 entrypoints/openai/serving_embedding.py
 create mode 100644 entrypoints/openai/serving_engine.py
 create mode 100644 entrypoints/openai/serving_models.py
 create mode 100644 entrypoints/openai/serving_pooling.py
 create mode 100644 entrypoints/openai/serving_responses.py
 create mode 100644 entrypoints/openai/serving_score.py
 create mode 100644 entrypoints/openai/serving_tokenization.py
 create mode 100644 entrypoints/openai/serving_tokens.py
 create mode 100644 entrypoints/openai/serving_transcription.py
 create mode 100644 entrypoints/openai/speech_to_text.py
 create mode 100644 entrypoints/openai/tool_parsers/__init__.py
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/abstract_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/deepseekv31_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/deepseekv3_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/ernie45_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/glm4_moe_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/granite_20b_fc_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/granite_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/hermes_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/hunyuan_a13b_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/internlm2_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/jamba_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/kimi_k2_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/llama4_pythonic_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/llama_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/longcat_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/minimax_m2_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/minimax_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/mistral_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/olmo3_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/openai_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/phi4mini_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/pythonic_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/qwen3coder_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/qwen3xml_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/seed_oss_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/step3_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/utils.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/__pycache__/xlam_tool_parser.cpython-312.pyc
 create mode 100644 entrypoints/openai/tool_parsers/abstract_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/ernie45_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/granite_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/hermes_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/internlm2_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/jamba_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/llama_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/longcat_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/minimax_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/mistral_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/olmo3_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/openai_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/pythonic_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/step3_tool_parser.py
 create mode 100644 entrypoints/openai/tool_parsers/utils.py
 create mode 100644 entrypoints/openai/tool_parsers/xlam_tool_parser.py
 create mode 100644 entrypoints/renderer.py
 create mode 100644 entrypoints/responses_utils.py
 create mode 100644 entrypoints/sagemaker/__init__.py
 create mode 100644 entrypoints/sagemaker/__pycache__/__init__.cpython-312.pyc
 create mode 100644 entrypoints/sagemaker/__pycache__/routes.cpython-312.pyc
 create mode 100644 entrypoints/sagemaker/routes.py
 create mode 100644 entrypoints/score_utils.py
 create mode 100644 entrypoints/ssl.py
 create mode 100644 entrypoints/tool.py
 create mode 100644 entrypoints/tool_server.py
 create mode 100644 entrypoints/utils.py
 create mode 100644 env_override.py
 create mode 100644 envs.py
 create mode 100644 forward_context.py
 create mode 100644 inputs/__init__.py
 create mode 100644 inputs/__pycache__/__init__.cpython-312.pyc
 create mode 100644 inputs/__pycache__/data.cpython-312.pyc
 create mode 100644 inputs/__pycache__/parse.cpython-312.pyc
 create mode 100644 inputs/__pycache__/preprocess.cpython-312.pyc
 create mode 100644 inputs/data.py
 create mode 100644 inputs/parse.py
 create mode 100644 inputs/preprocess.py
 create mode 100644 logger.py
 create mode 100644 logging_utils/__init__.py
 create mode 100644 logging_utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 logging_utils/__pycache__/dump_input.cpython-312.pyc
 create mode 100644 logging_utils/__pycache__/formatter.cpython-312.pyc
 create mode 100644 logging_utils/__pycache__/log_time.cpython-312.pyc
 create mode 100644 logging_utils/dump_input.py
 create mode 100644 logging_utils/formatter.py
 create mode 100644 logging_utils/log_time.py
 create mode 100644 logits_process.py
 create mode 100644 logprobs.py
 create mode 100644 lora/__init__.py
 create mode 100644 lora/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/__pycache__/lora_weights.cpython-312.pyc
 create mode 100644 lora/__pycache__/models.cpython-312.pyc
 create mode 100644 lora/__pycache__/peft_helper.cpython-312.pyc
 create mode 100644 lora/__pycache__/request.cpython-312.pyc
 create mode 100644 lora/__pycache__/resolver.cpython-312.pyc
 create mode 100644 lora/__pycache__/utils.cpython-312.pyc
 create mode 100644 lora/__pycache__/worker_manager.cpython-312.pyc
 create mode 100644 lora/layers/__init__.py
 create mode 100644 lora/layers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/base.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/base_linear.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/column_parallel_linear.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/fused_moe.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/logits_processor.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/replicated_linear.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/row_parallel_linear.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/utils.cpython-312.pyc
 create mode 100644 lora/layers/__pycache__/vocal_parallel_embedding.cpython-312.pyc
 create mode 100644 lora/layers/base.py
 create mode 100644 lora/layers/base_linear.py
 create mode 100644 lora/layers/column_parallel_linear.py
 create mode 100644 lora/layers/fused_moe.py
 create mode 100644 lora/layers/logits_processor.py
 create mode 100644 lora/layers/replicated_linear.py
 create mode 100644 lora/layers/row_parallel_linear.py
 create mode 100644 lora/layers/utils.py
 create mode 100644 lora/layers/vocal_parallel_embedding.py
 create mode 100644 lora/lora_weights.py
 create mode 100644 lora/models.py
 create mode 100644 lora/ops/__init__.py
 create mode 100644 lora/ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/ops/ipex_ops/__init__.py
 create mode 100644 lora/ops/ipex_ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/ops/ipex_ops/__pycache__/lora_ops.cpython-312.pyc
 create mode 100644 lora/ops/ipex_ops/lora_ops.py
 create mode 100644 lora/ops/torch_ops/__init__.py
 create mode 100644 lora/ops/torch_ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/ops/torch_ops/__pycache__/lora_ops.cpython-312.pyc
 create mode 100644 lora/ops/torch_ops/lora_ops.py
 create mode 100644 lora/ops/triton_ops/README_TUNING.md
 create mode 100644 lora/ops/triton_ops/__init__.py
 create mode 100644 lora/ops/triton_ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/fused_moe_lora_op.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/kernel_utils.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/lora_expand_op.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/lora_kernel_metadata.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/lora_shrink_op.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/__pycache__/utils.cpython-312.pyc
 create mode 100644 lora/ops/triton_ops/fused_moe_lora_op.py
 create mode 100644 lora/ops/triton_ops/kernel_utils.py
 create mode 100644 lora/ops/triton_ops/lora_expand_op.py
 create mode 100644 lora/ops/triton_ops/lora_kernel_metadata.py
 create mode 100644 lora/ops/triton_ops/lora_shrink_op.py
 create mode 100644 lora/ops/triton_ops/utils.py
 create mode 100644 lora/ops/xla_ops/__init__.py
 create mode 100644 lora/ops/xla_ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/ops/xla_ops/__pycache__/lora_ops.cpython-312.pyc
 create mode 100644 lora/ops/xla_ops/lora_ops.py
 create mode 100644 lora/peft_helper.py
 create mode 100644 lora/punica_wrapper/__init__.py
 create mode 100644 lora/punica_wrapper/__pycache__/__init__.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_base.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_cpu.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_gpu.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_selector.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_tpu.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/punica_xpu.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/__pycache__/utils.cpython-312.pyc
 create mode 100644 lora/punica_wrapper/punica_base.py
 create mode 100644 lora/punica_wrapper/punica_cpu.py
 create mode 100644 lora/punica_wrapper/punica_gpu.py
 create mode 100644 lora/punica_wrapper/punica_selector.py
 create mode 100644 lora/punica_wrapper/punica_tpu.py
 create mode 100644 lora/punica_wrapper/punica_xpu.py
 create mode 100644 lora/punica_wrapper/utils.py
 create mode 100644 lora/request.py
 create mode 100644 lora/resolver.py
 create mode 100644 lora/utils.py
 create mode 100644 lora/worker_manager.py
 create mode 100644 model_executor/__init__.py
 create mode 100644 model_executor/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/__pycache__/custom_op.cpython-312.pyc
 create mode 100644 model_executor/__pycache__/parameter.cpython-312.pyc
 create mode 100644 model_executor/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/custom_op.py
 create mode 100644 model_executor/layers/__init__.py
 create mode 100644 model_executor/layers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/activation.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/attention_layer_base.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/batch_invariant.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/conv.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/kda.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/layernorm.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/lightning_attn.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/linear.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/logits_processor.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/mla.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/pooler.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/resampler.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/__pycache__/vocab_parallel_embedding.cpython-312.pyc
 create mode 100644 model_executor/layers/activation.py
 create mode 100644 model_executor/layers/attention_layer_base.py
 create mode 100644 model_executor/layers/batch_invariant.py
 create mode 100644 model_executor/layers/conv.py
 create mode 100644 model_executor/layers/fla/__init__.py
 create mode 100644 model_executor/layers/fla/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__init__.py
 create mode 100644 model_executor/layers/fla/ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/chunk.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/chunk_delta_h.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/chunk_o.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/chunk_scaled_dot_kkt.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/cumsum.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/fused_recurrent.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/index.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/kda.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/l2norm.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/layernorm_guard.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/op.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/solve_tril.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/__pycache__/wy_fast.cpython-312.pyc
 create mode 100644 model_executor/layers/fla/ops/chunk.py
 create mode 100644 model_executor/layers/fla/ops/chunk_delta_h.py
 create mode 100644 model_executor/layers/fla/ops/chunk_o.py
 create mode 100644 model_executor/layers/fla/ops/chunk_scaled_dot_kkt.py
 create mode 100644 model_executor/layers/fla/ops/cumsum.py
 create mode 100644 model_executor/layers/fla/ops/fused_recurrent.py
 create mode 100644 model_executor/layers/fla/ops/index.py
 create mode 100644 model_executor/layers/fla/ops/kda.py
 create mode 100644 model_executor/layers/fla/ops/l2norm.py
 create mode 100644 model_executor/layers/fla/ops/layernorm_guard.py
 create mode 100644 model_executor/layers/fla/ops/op.py
 create mode 100644 model_executor/layers/fla/ops/solve_tril.py
 create mode 100644 model_executor/layers/fla/ops/utils.py
 create mode 100644 model_executor/layers/fla/ops/wy_fast.py
 create mode 100644 model_executor/layers/fused_moe/__init__.py
 create mode 100644 model_executor/layers/fused_moe/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/all2all_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/batched_deep_gemm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/batched_triton_or_deep_gemm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/config.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/cpu_fused_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/cutlass_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/deep_gemm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/deep_gemm_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/deepep_ht_prepare_finalize.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/deepep_ll_prepare_finalize.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_prepare_finalize.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/flashinfer_trtllm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/fused_batched_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/fused_marlin_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/fused_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/fused_moe_method_base.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/fused_moe_modular_method.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/gpt_oss_triton_kernels_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/layer.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/modular_kernel.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/moe_align_block_size.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/moe_pallas.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/moe_permute_unpermute.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/moe_torch_iterative.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/pplx_prepare_finalize.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/prepare_finalize.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/rocm_aiter_fused_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/routing_simulator.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/topk_weight_and_reduce.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/triton_deep_gemm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/trtllm_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/unquantized_fused_moe_method.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/fused_moe/all2all_utils.py
 create mode 100644 model_executor/layers/fused_moe/batched_deep_gemm_moe.py
 create mode 100644 model_executor/layers/fused_moe/batched_triton_or_deep_gemm_moe.py
 create mode 100644 model_executor/layers/fused_moe/config.py
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H100,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100755 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H100.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-40GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3200,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=6400,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=16,N=800,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_A800-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=320,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI355_OAM,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325X,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=256,N=64,device_name=NVIDIA_A800-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=32,N=1408,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=40,N=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H20-3e.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=60,N=1408,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=60,N=176,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=60,N=352,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=60,N=704,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=62,N=128,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=62,N=256,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=62,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=62,N=512,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=62,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A800-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1408,device_name=NVIDIA_B200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A800-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H100_PCIe,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=72,N=192,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=72,N=384,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=72,N=384,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=72,N=768,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=72,N=768,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-40GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-40GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_L40S.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
 create mode 100644 model_executor/layers/fused_moe/configs/README
 create mode 100644 model_executor/layers/fused_moe/cpu_fused_moe.py
 create mode 100644 model_executor/layers/fused_moe/cutlass_moe.py
 create mode 100644 model_executor/layers/fused_moe/deep_gemm_moe.py
 create mode 100644 model_executor/layers/fused_moe/deep_gemm_utils.py
 create mode 100644 model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
 create mode 100644 model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
 create mode 100644 model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
 create mode 100644 model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
 create mode 100644 model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
 create mode 100644 model_executor/layers/fused_moe/fused_batched_moe.py
 create mode 100644 model_executor/layers/fused_moe/fused_marlin_moe.py
 create mode 100644 model_executor/layers/fused_moe/fused_moe.py
 create mode 100644 model_executor/layers/fused_moe/fused_moe_method_base.py
 create mode 100644 model_executor/layers/fused_moe/fused_moe_modular_method.py
 create mode 100644 model_executor/layers/fused_moe/gpt_oss_triton_kernels_moe.py
 create mode 100644 model_executor/layers/fused_moe/layer.py
 create mode 100644 model_executor/layers/fused_moe/modular_kernel.py
 create mode 100644 model_executor/layers/fused_moe/moe_align_block_size.py
 create mode 100644 model_executor/layers/fused_moe/moe_pallas.py
 create mode 100644 model_executor/layers/fused_moe/moe_permute_unpermute.py
 create mode 100644 model_executor/layers/fused_moe/moe_torch_iterative.py
 create mode 100644 model_executor/layers/fused_moe/pplx_prepare_finalize.py
 create mode 100644 model_executor/layers/fused_moe/prepare_finalize.py
 create mode 100644 model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
 create mode 100644 model_executor/layers/fused_moe/routing_simulator.py
 create mode 100644 model_executor/layers/fused_moe/shared_fused_moe.py
 create mode 100644 model_executor/layers/fused_moe/topk_weight_and_reduce.py
 create mode 100644 model_executor/layers/fused_moe/triton_deep_gemm_moe.py
 create mode 100644 model_executor/layers/fused_moe/trtllm_moe.py
 create mode 100644 model_executor/layers/fused_moe/unquantized_fused_moe_method.py
 create mode 100644 model_executor/layers/fused_moe/utils.py
 create mode 100644 model_executor/layers/kda.py
 create mode 100644 model_executor/layers/layernorm.py
 create mode 100644 model_executor/layers/lightning_attn.py
 create mode 100644 model_executor/layers/linear.py
 create mode 100644 model_executor/layers/logits_processor.py
 create mode 100644 model_executor/layers/mamba/__init__.py
 create mode 100644 model_executor/layers/mamba/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/abstract.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/linear_attn.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/mamba_mixer.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/mamba_mixer2.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/mamba_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/__pycache__/short_conv.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/abstract.py
 create mode 100644 model_executor/layers/mamba/linear_attn.py
 create mode 100644 model_executor/layers/mamba/mamba_mixer.py
 create mode 100644 model_executor/layers/mamba/mamba_mixer2.py
 create mode 100644 model_executor/layers/mamba/mamba_utils.py
 create mode 100644 model_executor/layers/mamba/ops/__init__.py
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/causal_conv1d.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/layernorm_gated.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/mamba_ssm.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/ssd_bmm.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/ssd_chunk_scan.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/ssd_chunk_state.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/ssd_combined.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/__pycache__/ssd_state_passing.cpython-312.pyc
 create mode 100644 model_executor/layers/mamba/ops/causal_conv1d.py
 create mode 100644 model_executor/layers/mamba/ops/layernorm_gated.py
 create mode 100644 model_executor/layers/mamba/ops/mamba_ssm.py
 create mode 100644 model_executor/layers/mamba/ops/ssd_bmm.py
 create mode 100644 model_executor/layers/mamba/ops/ssd_chunk_scan.py
 create mode 100644 model_executor/layers/mamba/ops/ssd_chunk_state.py
 create mode 100644 model_executor/layers/mamba/ops/ssd_combined.py
 create mode 100644 model_executor/layers/mamba/ops/ssd_state_passing.py
 create mode 100644 model_executor/layers/mamba/short_conv.py
 create mode 100644 model_executor/layers/mla.py
 create mode 100644 model_executor/layers/pooler.py
 create mode 100644 model_executor/layers/quantization/__init__.py
 create mode 100644 model_executor/layers/quantization/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/auto_round.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/awq.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/awq_marlin.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/awq_triton.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/base_config.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/bitblas.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/bitsandbytes.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/deepspeedfp.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/experts_int8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/fbgemm_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/fp_quant.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/gguf.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/gptq.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/gptq_bitblas.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/gptq_marlin.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/gptq_marlin_24.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/hqq_marlin.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/inc.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/input_quant_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/ipex_quant.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/kv_cache.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/modelopt.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/moe_wna16.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/mxfp4.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/petit.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/ptpc_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/qutlass_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/rtn.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/schema.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/torchao.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/tpu_int8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/__pycache__/w8a16.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/auto_round.py
 create mode 100644 model_executor/layers/quantization/awq.py
 create mode 100644 model_executor/layers/quantization/awq_marlin.py
 create mode 100644 model_executor/layers/quantization/awq_triton.py
 create mode 100644 model_executor/layers/quantization/base_config.py
 create mode 100644 model_executor/layers/quantization/bitblas.py
 create mode 100644 model_executor/layers/quantization/bitsandbytes.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__init__.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__pycache__/triton_scaled_mm.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_24.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_scheme.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_24.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_nvfp4.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a4_nvfp4.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_int.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a16_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_int8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_wNa16.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_scheme.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_fp8.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_int.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/__init__.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/__pycache__/linear.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/__pycache__/module.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/linear.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/module.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/schemes/__init__.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/linear_qutlass_nvfp4.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/schemes/linear_qutlass_nvfp4.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/transform/utils.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
 create mode 100644 model_executor/layers/quantization/compressed_tensors/utils.py
 create mode 100644 model_executor/layers/quantization/deepspeedfp.py
 create mode 100644 model_executor/layers/quantization/experts_int8.py
 create mode 100644 model_executor/layers/quantization/fbgemm_fp8.py
 create mode 100644 model_executor/layers/quantization/fp8.py
 create mode 100644 model_executor/layers/quantization/fp_quant.py
 create mode 100644 model_executor/layers/quantization/gguf.py
 create mode 100644 model_executor/layers/quantization/gptq.py
 create mode 100644 model_executor/layers/quantization/gptq_bitblas.py
 create mode 100644 model_executor/layers/quantization/gptq_marlin.py
 create mode 100644 model_executor/layers/quantization/gptq_marlin_24.py
 create mode 100644 model_executor/layers/quantization/hqq_marlin.py
 create mode 100644 model_executor/layers/quantization/inc.py
 create mode 100644 model_executor/layers/quantization/input_quant_fp8.py
 create mode 100644 model_executor/layers/quantization/ipex_quant.py
 create mode 100644 model_executor/layers/quantization/kernels/__init__.py
 create mode 100644 model_executor/layers/quantization/kernels/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__init__.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/MPLinearKernel.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/allspark.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/bitblas.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/conch.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/cutlass.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/dynamic_4bit.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/exllama.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/machete.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/__pycache__/marlin.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/allspark.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/conch.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/cutlass.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/dynamic_4bit.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/exllama.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/machete.py
 create mode 100644 model_executor/layers/quantization/kernels/mixed_precision/marlin.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__init__.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/ScaledMMLinearKernel.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/aiter.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cpu.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cutlass.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/triton.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/__pycache__/xla.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/aiter.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/cpu.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/triton.py
 create mode 100644 model_executor/layers/quantization/kernels/scaled_mm/xla.py
 create mode 100644 model_executor/layers/quantization/kv_cache.py
 create mode 100644 model_executor/layers/quantization/modelopt.py
 create mode 100644 model_executor/layers/quantization/moe_wna16.py
 create mode 100644 model_executor/layers/quantization/mxfp4.py
 create mode 100644 model_executor/layers/quantization/petit.py
 create mode 100644 model_executor/layers/quantization/ptpc_fp8.py
 create mode 100644 model_executor/layers/quantization/quark/__init__.py
 create mode 100644 model_executor/layers/quantization/quark/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/__pycache__/quark.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/__pycache__/quark_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/quark.py
 create mode 100644 model_executor/layers/quantization/quark/quark_moe.py
 create mode 100644 model_executor/layers/quantization/quark/schemes/__init__.py
 create mode 100644 model_executor/layers/quantization/quark/schemes/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/schemes/__pycache__/quark_ocp_mx.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/schemes/__pycache__/quark_scheme.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_int8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
 create mode 100644 model_executor/layers/quantization/quark/schemes/quark_scheme.py
 create mode 100644 model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
 create mode 100644 model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
 create mode 100644 model_executor/layers/quantization/quark/utils.py
 create mode 100644 model_executor/layers/quantization/qutlass_utils.py
 create mode 100644 model_executor/layers/quantization/rtn.py
 create mode 100644 model_executor/layers/quantization/schema.py
 create mode 100644 model_executor/layers/quantization/torchao.py
 create mode 100644 model_executor/layers/quantization/tpu_int8.py
 create mode 100644 model_executor/layers/quantization/utils/__init__.py
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/allspark_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/bitblas_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/flashinfer_fp4_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/flashinfer_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/fp8_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/gguf_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/gptq_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/int8_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/layer_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/machete_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/marlin_utils_test.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/marlin_utils_test_24.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/mxfp4_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/mxfp6_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/mxfp8_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/nvfp4_emulation_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/nvfp4_moe_support.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/ocp_mx_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/petit_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/quant_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/__pycache__/w8a8_utils.cpython-312.pyc
 create mode 100644 model_executor/layers/quantization/utils/allspark_utils.py
 create mode 100644 model_executor/layers/quantization/utils/bitblas_utils.py
 create mode 100644 model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 model_executor/layers/quantization/utils/configs/README.md
 create mode 100644 model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
 create mode 100644 model_executor/layers/quantization/utils/flashinfer_utils.py
 create mode 100644 model_executor/layers/quantization/utils/fp8_utils.py
 create mode 100644 model_executor/layers/quantization/utils/gguf_utils.py
 create mode 100644 model_executor/layers/quantization/utils/gptq_utils.py
 create mode 100644 model_executor/layers/quantization/utils/int8_utils.py
 create mode 100644 model_executor/layers/quantization/utils/layer_utils.py
 create mode 100644 model_executor/layers/quantization/utils/machete_utils.py
 create mode 100644 model_executor/layers/quantization/utils/marlin_utils.py
 create mode 100644 model_executor/layers/quantization/utils/marlin_utils_fp4.py
 create mode 100644 model_executor/layers/quantization/utils/marlin_utils_fp8.py
 create mode 100644 model_executor/layers/quantization/utils/marlin_utils_test.py
 create mode 100644 model_executor/layers/quantization/utils/marlin_utils_test_24.py
 create mode 100644 model_executor/layers/quantization/utils/mxfp4_utils.py
 create mode 100644 model_executor/layers/quantization/utils/mxfp6_utils.py
 create mode 100644 model_executor/layers/quantization/utils/mxfp8_utils.py
 create mode 100644 model_executor/layers/quantization/utils/nvfp4_emulation_utils.py
 create mode 100644 model_executor/layers/quantization/utils/nvfp4_moe_support.py
 create mode 100644 model_executor/layers/quantization/utils/ocp_mx_utils.py
 create mode 100644 model_executor/layers/quantization/utils/petit_utils.py
 create mode 100644 model_executor/layers/quantization/utils/quant_utils.py
 create mode 100644 model_executor/layers/quantization/utils/w8a8_utils.py
 create mode 100644 model_executor/layers/quantization/w8a16.py
 create mode 100644 model_executor/layers/resampler.py
 create mode 100644 model_executor/layers/rotary_embedding/__init__.py
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/base.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/common.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/deepseek_scaling_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/dual_chunk_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_alpha_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_scaling_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/ernie45_vl_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/linear_scaling_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/llama3_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/llama4_vision_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/mrope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/ntk_scaling_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/phi3_long_rope_scaled_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/__pycache__/yarn_scaling_rope.cpython-312.pyc
 create mode 100644 model_executor/layers/rotary_embedding/base.py
 create mode 100644 model_executor/layers/rotary_embedding/common.py
 create mode 100644 model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/dual_chunk_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/dynamic_ntk_alpha_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/dynamic_ntk_scaling_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/ernie45_vl_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/linear_scaling_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/llama3_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/llama4_vision_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/mrope.py
 create mode 100644 model_executor/layers/rotary_embedding/ntk_scaling_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/phi3_long_rope_scaled_rope.py
 create mode 100644 model_executor/layers/rotary_embedding/yarn_scaling_rope.py
 create mode 100644 model_executor/layers/shared_fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc
 create mode 100644 model_executor/layers/shared_fused_moe/shared_fused_moe.py
 create mode 100644 model_executor/layers/utils.py
 create mode 100644 model_executor/layers/vocab_parallel_embedding.py
 create mode 100644 model_executor/model_loader/__init__.py
 create mode 100644 model_executor/model_loader/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/base_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/bitsandbytes_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/default_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/dummy_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/gguf_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/online_quantization.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/runai_streamer_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/sharded_state_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/tensorizer.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/tensorizer_loader.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/tpu.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/model_loader/__pycache__/weight_utils.cpython-312.pyc
 create mode 100644 model_executor/model_loader/base_loader.py
 create mode 100644 model_executor/model_loader/bitsandbytes_loader.py
 create mode 100644 model_executor/model_loader/default_loader.py
 create mode 100644 model_executor/model_loader/dummy_loader.py
 create mode 100644 model_executor/model_loader/gguf_loader.py
 create mode 100644 model_executor/model_loader/online_quantization.py
 create mode 100644 model_executor/model_loader/runai_streamer_loader.py
 create mode 100644 model_executor/model_loader/sharded_state_loader.py
 create mode 100644 model_executor/model_loader/tensorizer.py
 create mode 100644 model_executor/model_loader/tensorizer_loader.py
 create mode 100644 model_executor/model_loader/tpu.py
 create mode 100644 model_executor/model_loader/utils.py
 create mode 100644 model_executor/model_loader/weight_utils.py
 create mode 100644 model_executor/models/__init__.py
 create mode 100644 model_executor/models/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/adapters.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/afmoe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/aimv2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/apertus.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/arcee.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/arctic.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/aria.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/aya_vision.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/baichuan.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bailing_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bamba.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bee.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bert.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bert_with_rope.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/blip.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/blip2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/bloom.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/chameleon.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/chatglm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/clip.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/cohere2_vision.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/commandr.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/config.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/dbrx.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepencoder.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepseek_eagle.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepseek_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepseek_ocr.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepseek_v2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/deepseek_vl2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/dots1.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/dots_ocr.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ernie45.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ernie45_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ernie45_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ernie45_vl_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ernie_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/exaone.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/exaone4.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/fairseq2_llama.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/falcon.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/falcon_h1.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/flex_olmo.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/fuyu.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma3_mm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma3n.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gemma3n_mm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm4.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm4_1v.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm4_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm4_moe_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/glm4v.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gpt2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gpt_bigcode.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gpt_j.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gpt_neox.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gpt_oss.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/granite.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/granite_speech.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/granitemoe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/granitemoehybrid.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/granitemoeshared.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/gritlm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/grok1.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/h2ovl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/hunyuan_v1.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/hyperclovax_vision.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/idefics2_vision_model.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/idefics3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/interfaces.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/interfaces_base.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/intern_vit.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/internlm2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/internlm2_ve.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/interns1.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/interns1_vit.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/internvl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/jais.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/jamba.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/jina_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/keye.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/keye_vl1_5.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/kimi_linear.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/kimi_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/lfm2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/lfm2_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/lightonocr.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llama.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llama4.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llama4_eagle.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llama_eagle.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llama_eagle3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llava.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llava_next.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llava_next_video.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/llava_onevision.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/longcat_flash.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/longcat_flash_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mamba.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mamba2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/medusa.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/midashenglm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mimo.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mimo_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minicpm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minicpm3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minicpm_eagle.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minicpmo.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minicpmv.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minimax_m2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minimax_text_01.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/minimax_vl_01.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mistral3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mixtral.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mllama4.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mlp_speculator.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/modernbert.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/module_mapping.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/molmo.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/moonvit.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/mpt.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nano_nemotron_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nemotron.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nemotron_h.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nemotron_nas.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nemotron_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/nvlm_d.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/olmo.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/olmo2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/olmoe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/openpangu.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/openpangu_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/opt.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/orion.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ouro.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ovis.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ovis2_5.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/paddleocr_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/paligemma.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/persimmon.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi3v.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi4_multimodal.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi4mm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi4mm_audio.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phi4mm_utils.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/phimoe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/pixtral.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/plamo2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_5_omni_thinker.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_5_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_audio.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_rm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen2_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_next.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_next_mtp.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_omni_moe_thinker.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen3_vl_moe.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/qwen_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/radio.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/registry.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/roberta.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/rvl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/seed_oss.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/siglip.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/siglip2navit.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/skyworkr1v.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/smolvlm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/solar.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/stablelm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/starcoder2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/step3_text.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/step3_vl.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/swin.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/tarsier.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/telechat2.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/teleflm.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/terratorch.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/ultravox.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/vision.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/voxtral.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/whisper.cpython-312.pyc
 create mode 100644 model_executor/models/__pycache__/zamba2.cpython-312.pyc
 create mode 100644 model_executor/models/adapters.py
 create mode 100644 model_executor/models/afmoe.py
 create mode 100644 model_executor/models/aimv2.py
 create mode 100644 model_executor/models/apertus.py
 create mode 100644 model_executor/models/arcee.py
 create mode 100644 model_executor/models/arctic.py
 create mode 100644 model_executor/models/aria.py
 create mode 100644 model_executor/models/aya_vision.py
 create mode 100644 model_executor/models/baichuan.py
 create mode 100644 model_executor/models/bailing_moe.py
 create mode 100644 model_executor/models/bamba.py
 create mode 100644 model_executor/models/bee.py
 create mode 100644 model_executor/models/bert.py
 create mode 100644 model_executor/models/bert_with_rope.py
 create mode 100644 model_executor/models/blip.py
 create mode 100644 model_executor/models/blip2.py
 create mode 100644 model_executor/models/bloom.py
 create mode 100644 model_executor/models/chameleon.py
 create mode 100644 model_executor/models/chatglm.py
 create mode 100644 model_executor/models/clip.py
 create mode 100644 model_executor/models/cohere2_vision.py
 create mode 100644 model_executor/models/commandr.py
 create mode 100644 model_executor/models/config.py
 create mode 100644 model_executor/models/dbrx.py
 create mode 100644 model_executor/models/deepencoder.py
 create mode 100644 model_executor/models/deepseek_eagle.py
 create mode 100644 model_executor/models/deepseek_mtp.py
 create mode 100644 model_executor/models/deepseek_ocr.py
 create mode 100644 model_executor/models/deepseek_v2.py
 create mode 100644 model_executor/models/deepseek_vl2.py
 create mode 100644 model_executor/models/dots1.py
 create mode 100644 model_executor/models/dots_ocr.py
 create mode 100644 model_executor/models/ernie45.py
 create mode 100644 model_executor/models/ernie45_moe.py
 create mode 100644 model_executor/models/ernie45_vl.py
 create mode 100644 model_executor/models/ernie45_vl_moe.py
 create mode 100644 model_executor/models/ernie_mtp.py
 create mode 100644 model_executor/models/exaone.py
 create mode 100644 model_executor/models/exaone4.py
 create mode 100644 model_executor/models/fairseq2_llama.py
 create mode 100644 model_executor/models/falcon.py
 create mode 100644 model_executor/models/falcon_h1.py
 create mode 100644 model_executor/models/flex_olmo.py
 create mode 100644 model_executor/models/fuyu.py
 create mode 100644 model_executor/models/gemma.py
 create mode 100644 model_executor/models/gemma2.py
 create mode 100644 model_executor/models/gemma3.py
 create mode 100644 model_executor/models/gemma3_mm.py
 create mode 100644 model_executor/models/gemma3n.py
 create mode 100644 model_executor/models/gemma3n_mm.py
 create mode 100644 model_executor/models/glm.py
 create mode 100644 model_executor/models/glm4.py
 create mode 100644 model_executor/models/glm4_1v.py
 create mode 100644 model_executor/models/glm4_moe.py
 create mode 100644 model_executor/models/glm4_moe_mtp.py
 create mode 100644 model_executor/models/glm4v.py
 create mode 100644 model_executor/models/gpt2.py
 create mode 100644 model_executor/models/gpt_bigcode.py
 create mode 100644 model_executor/models/gpt_j.py
 create mode 100644 model_executor/models/gpt_neox.py
 create mode 100644 model_executor/models/gpt_oss.py
 create mode 100644 model_executor/models/granite.py
 create mode 100644 model_executor/models/granite_speech.py
 create mode 100644 model_executor/models/granitemoe.py
 create mode 100644 model_executor/models/granitemoehybrid.py
 create mode 100644 model_executor/models/granitemoeshared.py
 create mode 100644 model_executor/models/gritlm.py
 create mode 100644 model_executor/models/grok1.py
 create mode 100644 model_executor/models/h2ovl.py
 create mode 100644 model_executor/models/hunyuan_v1.py
 create mode 100644 model_executor/models/hyperclovax_vision.py
 create mode 100644 model_executor/models/idefics2_vision_model.py
 create mode 100644 model_executor/models/idefics3.py
 create mode 100644 model_executor/models/interfaces.py
 create mode 100644 model_executor/models/interfaces_base.py
 create mode 100644 model_executor/models/intern_vit.py
 create mode 100644 model_executor/models/internlm2.py
 create mode 100644 model_executor/models/internlm2_ve.py
 create mode 100644 model_executor/models/interns1.py
 create mode 100644 model_executor/models/interns1_vit.py
 create mode 100644 model_executor/models/internvl.py
 create mode 100644 model_executor/models/jais.py
 create mode 100644 model_executor/models/jamba.py
 create mode 100644 model_executor/models/jina_vl.py
 create mode 100644 model_executor/models/keye.py
 create mode 100644 model_executor/models/keye_vl1_5.py
 create mode 100644 model_executor/models/kimi_linear.py
 create mode 100644 model_executor/models/kimi_vl.py
 create mode 100644 model_executor/models/lfm2.py
 create mode 100644 model_executor/models/lfm2_moe.py
 create mode 100644 model_executor/models/lightonocr.py
 create mode 100644 model_executor/models/llama.py
 create mode 100644 model_executor/models/llama4.py
 create mode 100644 model_executor/models/llama4_eagle.py
 create mode 100644 model_executor/models/llama_eagle.py
 create mode 100644 model_executor/models/llama_eagle3.py
 create mode 100644 model_executor/models/llava.py
 create mode 100644 model_executor/models/llava_next.py
 create mode 100644 model_executor/models/llava_next_video.py
 create mode 100644 model_executor/models/llava_onevision.py
 create mode 100644 model_executor/models/longcat_flash.py
 create mode 100644 model_executor/models/longcat_flash_mtp.py
 create mode 100644 model_executor/models/mamba.py
 create mode 100644 model_executor/models/mamba2.py
 create mode 100644 model_executor/models/medusa.py
 create mode 100644 model_executor/models/midashenglm.py
 create mode 100644 model_executor/models/mimo.py
 create mode 100644 model_executor/models/mimo_mtp.py
 create mode 100644 model_executor/models/minicpm.py
 create mode 100644 model_executor/models/minicpm3.py
 create mode 100644 model_executor/models/minicpm_eagle.py
 create mode 100644 model_executor/models/minicpmo.py
 create mode 100644 model_executor/models/minicpmv.py
 create mode 100644 model_executor/models/minimax_m2.py
 create mode 100644 model_executor/models/minimax_text_01.py
 create mode 100644 model_executor/models/minimax_vl_01.py
 create mode 100644 model_executor/models/mistral3.py
 create mode 100644 model_executor/models/mixtral.py
 create mode 100644 model_executor/models/mllama4.py
 create mode 100644 model_executor/models/mlp_speculator.py
 create mode 100644 model_executor/models/modernbert.py
 create mode 100644 model_executor/models/module_mapping.py
 create mode 100644 model_executor/models/molmo.py
 create mode 100644 model_executor/models/moonvit.py
 create mode 100644 model_executor/models/mpt.py
 create mode 100644 model_executor/models/nano_nemotron_vl.py
 create mode 100644 model_executor/models/nemotron.py
 create mode 100644 model_executor/models/nemotron_h.py
 create mode 100644 model_executor/models/nemotron_nas.py
 create mode 100644 model_executor/models/nemotron_vl.py
 create mode 100644 model_executor/models/nvlm_d.py
 create mode 100644 model_executor/models/olmo.py
 create mode 100644 model_executor/models/olmo2.py
 create mode 100644 model_executor/models/olmoe.py
 create mode 100644 model_executor/models/openpangu.py
 create mode 100644 model_executor/models/openpangu_mtp.py
 create mode 100644 model_executor/models/opt.py
 create mode 100644 model_executor/models/orion.py
 create mode 100644 model_executor/models/ouro.py
 create mode 100644 model_executor/models/ovis.py
 create mode 100644 model_executor/models/ovis2_5.py
 create mode 100644 model_executor/models/paddleocr_vl.py
 create mode 100644 model_executor/models/paligemma.py
 create mode 100644 model_executor/models/persimmon.py
 create mode 100644 model_executor/models/phi.py
 create mode 100644 model_executor/models/phi3.py
 create mode 100644 model_executor/models/phi3v.py
 create mode 100644 model_executor/models/phi4_multimodal.py
 create mode 100644 model_executor/models/phi4mm.py
 create mode 100644 model_executor/models/phi4mm_audio.py
 create mode 100644 model_executor/models/phi4mm_utils.py
 create mode 100644 model_executor/models/phimoe.py
 create mode 100644 model_executor/models/pixtral.py
 create mode 100644 model_executor/models/plamo2.py
 create mode 100644 model_executor/models/qwen.py
 create mode 100644 model_executor/models/qwen2.py
 create mode 100644 model_executor/models/qwen2_5_omni_thinker.py
 create mode 100644 model_executor/models/qwen2_5_vl.py
 create mode 100644 model_executor/models/qwen2_audio.py
 create mode 100644 model_executor/models/qwen2_moe.py
 create mode 100644 model_executor/models/qwen2_rm.py
 create mode 100644 model_executor/models/qwen2_vl.py
 create mode 100644 model_executor/models/qwen3.py
 create mode 100644 model_executor/models/qwen3_moe.py
 create mode 100644 model_executor/models/qwen3_next.py
 create mode 100644 model_executor/models/qwen3_next_mtp.py
 create mode 100644 model_executor/models/qwen3_omni_moe_thinker.py
 create mode 100644 model_executor/models/qwen3_vl.py
 create mode 100644 model_executor/models/qwen3_vl_moe.py
 create mode 100644 model_executor/models/qwen_vl.py
 create mode 100644 model_executor/models/radio.py
 create mode 100644 model_executor/models/registry.py
 create mode 100644 model_executor/models/roberta.py
 create mode 100644 model_executor/models/rvl.py
 create mode 100644 model_executor/models/seed_oss.py
 create mode 100644 model_executor/models/siglip.py
 create mode 100644 model_executor/models/siglip2navit.py
 create mode 100644 model_executor/models/skyworkr1v.py
 create mode 100644 model_executor/models/smolvlm.py
 create mode 100644 model_executor/models/solar.py
 create mode 100644 model_executor/models/stablelm.py
 create mode 100644 model_executor/models/starcoder2.py
 create mode 100644 model_executor/models/step3_text.py
 create mode 100644 model_executor/models/step3_vl.py
 create mode 100644 model_executor/models/swin.py
 create mode 100644 model_executor/models/tarsier.py
 create mode 100644 model_executor/models/telechat2.py
 create mode 100644 model_executor/models/teleflm.py
 create mode 100644 model_executor/models/terratorch.py
 create mode 100644 model_executor/models/transformers/__init__.py
 create mode 100644 model_executor/models/transformers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/base.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/causal.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/legacy.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/moe.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/multimodal.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/pooling.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/__pycache__/utils.cpython-312.pyc
 create mode 100644 model_executor/models/transformers/base.py
 create mode 100644 model_executor/models/transformers/causal.py
 create mode 100644 model_executor/models/transformers/legacy.py
 create mode 100644 model_executor/models/transformers/moe.py
 create mode 100644 model_executor/models/transformers/multimodal.py
 create mode 100644 model_executor/models/transformers/pooling.py
 create mode 100644 model_executor/models/transformers/utils.py
 create mode 100644 model_executor/models/ultravox.py
 create mode 100644 model_executor/models/utils.py
 create mode 100644 model_executor/models/vision.py
 create mode 100644 model_executor/models/voxtral.py
 create mode 100644 model_executor/models/whisper.py
 create mode 100644 model_executor/models/zamba2.py
 create mode 100644 model_executor/parameter.py
 create mode 100644 model_executor/utils.py
 create mode 100644 model_executor/warmup/__init__.py
 create mode 100644 model_executor/warmup/__pycache__/__init__.cpython-312.pyc
 create mode 100644 model_executor/warmup/__pycache__/deep_gemm_warmup.cpython-312.pyc
 create mode 100644 model_executor/warmup/__pycache__/kernel_warmup.cpython-312.pyc
 create mode 100644 model_executor/warmup/deep_gemm_warmup.py
 create mode 100644 model_executor/warmup/kernel_warmup.py
 create mode 100644 multimodal/__init__.py
 create mode 100644 multimodal/__pycache__/__init__.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/audio.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/base.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/cache.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/evs.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/hasher.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/image.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/inputs.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/parse.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/processing.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/profiling.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/registry.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/utils.cpython-312.pyc
 create mode 100644 multimodal/__pycache__/video.cpython-312.pyc
 create mode 100644 multimodal/audio.py
 create mode 100644 multimodal/base.py
 create mode 100644 multimodal/cache.py
 create mode 100644 multimodal/evs.py
 create mode 100644 multimodal/hasher.py
 create mode 100644 multimodal/image.py
 create mode 100644 multimodal/inputs.py
 create mode 100644 multimodal/parse.py
 create mode 100644 multimodal/processing.py
 create mode 100644 multimodal/profiling.py
 create mode 100644 multimodal/registry.py
 create mode 100644 multimodal/utils.py
 create mode 100644 multimodal/video.py
 create mode 100644 outputs.py
 create mode 100644 platforms/__init__.py
 create mode 100644 platforms/__pycache__/__init__.cpython-312.pyc
 create mode 100644 platforms/__pycache__/cpu.cpython-312.pyc
 create mode 100644 platforms/__pycache__/cuda.cpython-312.pyc
 create mode 100644 platforms/__pycache__/interface.cpython-312.pyc
 create mode 100644 platforms/__pycache__/rocm.cpython-312.pyc
 create mode 100644 platforms/__pycache__/tpu.cpython-312.pyc
 create mode 100644 platforms/__pycache__/xpu.cpython-312.pyc
 create mode 100644 platforms/cpu.py
 create mode 100644 platforms/cuda.py
 create mode 100644 platforms/interface.py
 create mode 100644 platforms/rocm.py
 create mode 100644 platforms/tpu.py
 create mode 100644 platforms/xpu.py
 create mode 100644 plugins/__init__.py
 create mode 100644 plugins/__pycache__/__init__.cpython-312.pyc
 create mode 100644 plugins/io_processors/__init__.py
 create mode 100644 plugins/io_processors/__pycache__/__init__.cpython-312.pyc
 create mode 100644 plugins/io_processors/__pycache__/interface.cpython-312.pyc
 create mode 100644 plugins/io_processors/interface.py
 create mode 100644 plugins/lora_resolvers/__init__.py
 create mode 100644 plugins/lora_resolvers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 plugins/lora_resolvers/__pycache__/filesystem_resolver.cpython-312.pyc
 create mode 100644 plugins/lora_resolvers/filesystem_resolver.py
 create mode 100644 pooling_params.py
 create mode 100644 profiler/__init__.py
 create mode 100644 profiler/__pycache__/__init__.cpython-312.pyc
 create mode 100644 profiler/__pycache__/gpu_profiler.cpython-312.pyc
 create mode 100644 profiler/__pycache__/layerwise_profile.cpython-312.pyc
 create mode 100644 profiler/__pycache__/utils.cpython-312.pyc
 create mode 100644 profiler/gpu_profiler.py
 create mode 100644 profiler/layerwise_profile.py
 create mode 100644 profiler/utils.py
 create mode 100644 py.typed
 create mode 100644 ray/__init__.py
 create mode 100644 ray/__pycache__/__init__.cpython-312.pyc
 create mode 100644 ray/__pycache__/lazy_utils.cpython-312.pyc
 create mode 100644 ray/__pycache__/ray_env.cpython-312.pyc
 create mode 100644 ray/lazy_utils.py
 create mode 100644 ray/ray_env.py
 create mode 100644 reasoning/__init__.py
 create mode 100644 reasoning/__pycache__/__init__.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/abs_reasoning_parsers.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/basic_parsers.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/deepseek_r1_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/deepseek_v3_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/ernie45_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/glm4_moe_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/gptoss_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/granite_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/hunyuan_a13b_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/identity_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/minimax_m2_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/mistral_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/olmo3_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/qwen3_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/seedoss_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/__pycache__/step3_reasoning_parser.cpython-312.pyc
 create mode 100644 reasoning/abs_reasoning_parsers.py
 create mode 100644 reasoning/basic_parsers.py
 create mode 100644 reasoning/deepseek_r1_reasoning_parser.py
 create mode 100644 reasoning/deepseek_v3_reasoning_parser.py
 create mode 100644 reasoning/ernie45_reasoning_parser.py
 create mode 100644 reasoning/glm4_moe_reasoning_parser.py
 create mode 100644 reasoning/gptoss_reasoning_parser.py
 create mode 100644 reasoning/granite_reasoning_parser.py
 create mode 100644 reasoning/hunyuan_a13b_reasoning_parser.py
 create mode 100644 reasoning/identity_reasoning_parser.py
 create mode 100644 reasoning/minimax_m2_reasoning_parser.py
 create mode 100644 reasoning/mistral_reasoning_parser.py
 create mode 100644 reasoning/olmo3_reasoning_parser.py
 create mode 100644 reasoning/qwen3_reasoning_parser.py
 create mode 100644 reasoning/seedoss_reasoning_parser.py
 create mode 100644 reasoning/step3_reasoning_parser.py
 create mode 100644 sampling_params.py
 create mode 100644 scalar_type.py
 create mode 100644 scripts.py
 create mode 100644 sequence.py
 create mode 100644 tasks.py
 create mode 100644 third_party/__init__.py
 create mode 100644 third_party/__pycache__/__init__.cpython-312.pyc
 create mode 100644 third_party/__pycache__/pynvml.cpython-312.pyc
 create mode 100644 third_party/pynvml.py
 create mode 100644 tracing.py
 create mode 100644 transformers_utils/__init__.py
 create mode 100644 transformers_utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/config.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/config_parser_base.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/detokenizer_utils.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/dynamic_module.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/processor.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/runai_utils.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/s3_utils.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/tokenizer.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/tokenizer_base.cpython-312.pyc
 create mode 100644 transformers_utils/__pycache__/utils.cpython-312.pyc
 create mode 100644 transformers_utils/chat_templates/__init__.py
 create mode 100644 transformers_utils/chat_templates/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/chat_templates/__pycache__/registry.cpython-312.pyc
 create mode 100644 transformers_utils/chat_templates/registry.py
 create mode 100644 transformers_utils/chat_templates/template_basic.jinja
 create mode 100644 transformers_utils/chat_templates/template_blip2.jinja
 create mode 100644 transformers_utils/chat_templates/template_chatml.jinja
 create mode 100644 transformers_utils/chat_templates/template_deepseek_ocr.jinja
 create mode 100644 transformers_utils/chat_templates/template_deepseek_vl2.jinja
 create mode 100644 transformers_utils/chat_templates/template_fuyu.jinja
 create mode 100644 transformers_utils/chat_templates/template_minicpmv45.jinja
 create mode 100644 transformers_utils/config.py
 create mode 100644 transformers_utils/config_parser_base.py
 create mode 100644 transformers_utils/configs/__init__.py
 create mode 100644 transformers_utils/configs/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/afmoe.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/arctic.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/chatglm.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/deepseek_vl2.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/dotsocr.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/eagle.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/falcon.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/flex_olmo.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/jais.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/kimi_linear.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/kimi_vl.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/lfm2_moe.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/medusa.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/midashenglm.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/mistral.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/mlp_speculator.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/moonvit.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/nemotron.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/nemotron_h.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/olmo3.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/ovis.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/qwen3_next.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/radio.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/step3_vl.cpython-312.pyc
 create mode 100644 transformers_utils/configs/__pycache__/ultravox.cpython-312.pyc
 create mode 100644 transformers_utils/configs/afmoe.py
 create mode 100644 transformers_utils/configs/arctic.py
 create mode 100644 transformers_utils/configs/chatglm.py
 create mode 100644 transformers_utils/configs/deepseek_vl2.py
 create mode 100644 transformers_utils/configs/dotsocr.py
 create mode 100644 transformers_utils/configs/eagle.py
 create mode 100644 transformers_utils/configs/falcon.py
 create mode 100644 transformers_utils/configs/flex_olmo.py
 create mode 100644 transformers_utils/configs/jais.py
 create mode 100644 transformers_utils/configs/kimi_linear.py
 create mode 100644 transformers_utils/configs/kimi_vl.py
 create mode 100644 transformers_utils/configs/lfm2_moe.py
 create mode 100644 transformers_utils/configs/medusa.py
 create mode 100644 transformers_utils/configs/midashenglm.py
 create mode 100644 transformers_utils/configs/mistral.py
 create mode 100644 transformers_utils/configs/mlp_speculator.py
 create mode 100644 transformers_utils/configs/moonvit.py
 create mode 100644 transformers_utils/configs/nemotron.py
 create mode 100644 transformers_utils/configs/nemotron_h.py
 create mode 100644 transformers_utils/configs/olmo3.py
 create mode 100644 transformers_utils/configs/ovis.py
 create mode 100644 transformers_utils/configs/qwen3_next.py
 create mode 100644 transformers_utils/configs/radio.py
 create mode 100644 transformers_utils/configs/speculators/__init__.py
 create mode 100644 transformers_utils/configs/speculators/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/configs/speculators/__pycache__/algos.cpython-312.pyc
 create mode 100644 transformers_utils/configs/speculators/__pycache__/base.cpython-312.pyc
 create mode 100644 transformers_utils/configs/speculators/algos.py
 create mode 100644 transformers_utils/configs/speculators/base.py
 create mode 100644 transformers_utils/configs/step3_vl.py
 create mode 100644 transformers_utils/configs/ultravox.py
 create mode 100644 transformers_utils/detokenizer_utils.py
 create mode 100644 transformers_utils/dynamic_module.py
 create mode 100644 transformers_utils/processor.py
 create mode 100644 transformers_utils/processors/__init__.py
 create mode 100644 transformers_utils/processors/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/processors/__pycache__/deepseek_ocr.cpython-312.pyc
 create mode 100644 transformers_utils/processors/__pycache__/deepseek_vl2.cpython-312.pyc
 create mode 100644 transformers_utils/processors/__pycache__/ovis.cpython-312.pyc
 create mode 100644 transformers_utils/processors/__pycache__/ovis2_5.cpython-312.pyc
 create mode 100644 transformers_utils/processors/deepseek_ocr.py
 create mode 100644 transformers_utils/processors/deepseek_vl2.py
 create mode 100644 transformers_utils/processors/ovis.py
 create mode 100644 transformers_utils/processors/ovis2_5.py
 create mode 100644 transformers_utils/runai_utils.py
 create mode 100644 transformers_utils/s3_utils.py
 create mode 100644 transformers_utils/tokenizer.py
 create mode 100644 transformers_utils/tokenizer_base.py
 create mode 100644 transformers_utils/tokenizers/__init__.py
 create mode 100644 transformers_utils/tokenizers/__pycache__/__init__.cpython-312.pyc
 create mode 100644 transformers_utils/tokenizers/__pycache__/mistral.cpython-312.pyc
 create mode 100644 transformers_utils/tokenizers/mistral.py
 create mode 100644 transformers_utils/utils.py
 create mode 100644 triton_utils/__init__.py
 create mode 100644 triton_utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 triton_utils/__pycache__/importing.cpython-312.pyc
 create mode 100644 triton_utils/importing.py
 create mode 100644 usage/__init__.py
 create mode 100644 usage/__pycache__/__init__.cpython-312.pyc
 create mode 100644 usage/__pycache__/usage_lib.cpython-312.pyc
 create mode 100644 usage/usage_lib.py
 create mode 100644 utils/__init__.py
 create mode 100644 utils/__pycache__/__init__.cpython-312.pyc
 create mode 100644 utils/__pycache__/argparse_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/async_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/cache.cpython-312.pyc
 create mode 100644 utils/__pycache__/collection_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/counter.cpython-312.pyc
 create mode 100644 utils/__pycache__/deep_gemm.cpython-312.pyc
 create mode 100644 utils/__pycache__/flashinfer.cpython-312.pyc
 create mode 100644 utils/__pycache__/func_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/gc_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/hashing.cpython-312.pyc
 create mode 100644 utils/__pycache__/import_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/jsontree.cpython-312.pyc
 create mode 100644 utils/__pycache__/math_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/mem_constants.cpython-312.pyc
 create mode 100644 utils/__pycache__/mem_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/nccl.cpython-312.pyc
 create mode 100644 utils/__pycache__/network_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/platform_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/profiling.cpython-312.pyc
 create mode 100644 utils/__pycache__/registry.cpython-312.pyc
 create mode 100644 utils/__pycache__/serial_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/system_utils.cpython-312.pyc
 create mode 100644 utils/__pycache__/tensor_schema.cpython-312.pyc
 create mode 100644 utils/__pycache__/torch_utils.cpython-312.pyc
 create mode 100644 utils/argparse_utils.py
 create mode 100644 utils/async_utils.py
 create mode 100644 utils/cache.py
 create mode 100644 utils/collection_utils.py
 create mode 100644 utils/counter.py
 create mode 100644 utils/deep_gemm.py
 create mode 100644 utils/flashinfer.py
 create mode 100644 utils/func_utils.py
 create mode 100644 utils/gc_utils.py
 create mode 100644 utils/hashing.py
 create mode 100644 utils/import_utils.py
 create mode 100644 utils/jsontree.py
 create mode 100644 utils/math_utils.py
 create mode 100644 utils/mem_constants.py
 create mode 100644 utils/mem_utils.py
 create mode 100644 utils/nccl.py
 create mode 100644 utils/network_utils.py
 create mode 100644 utils/platform_utils.py
 create mode 100644 utils/profiling.py
 create mode 100644 utils/registry.py
 create mode 100644 utils/serial_utils.py
 create mode 100644 utils/system_utils.py
 create mode 100644 utils/tensor_schema.py
 create mode 100644 utils/torch_utils.py
 create mode 100644 v1/__init__.py
 create mode 100644 v1/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/__pycache__/cudagraph_dispatcher.cpython-312.pyc
 create mode 100644 v1/__pycache__/kv_cache_interface.cpython-312.pyc
 create mode 100644 v1/__pycache__/outputs.cpython-312.pyc
 create mode 100644 v1/__pycache__/request.cpython-312.pyc
 create mode 100644 v1/__pycache__/serial_utils.cpython-312.pyc
 create mode 100644 v1/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/attention/__init__.py
 create mode 100644 v1/attention/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/attention/backends/__init__.py
 create mode 100644 v1/attention/backends/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/cpu_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/flash_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/flashinfer.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/flex_attention.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/gdn_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/linear_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/mamba1_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/mamba2_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/mamba_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/pallas.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/rocm_aiter_fa.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/rocm_aiter_unified_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/rocm_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/short_conv_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/tree_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/triton_attn.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/attention/backends/__pycache__/xformers.cpython-312.pyc
 create mode 100644 v1/attention/backends/cpu_attn.py
 create mode 100644 v1/attention/backends/flash_attn.py
 create mode 100644 v1/attention/backends/flashinfer.py
 create mode 100644 v1/attention/backends/flex_attention.py
 create mode 100644 v1/attention/backends/gdn_attn.py
 create mode 100644 v1/attention/backends/linear_attn.py
 create mode 100644 v1/attention/backends/mamba1_attn.py
 create mode 100644 v1/attention/backends/mamba2_attn.py
 create mode 100644 v1/attention/backends/mamba_attn.py
 create mode 100644 v1/attention/backends/mla/__init__.py
 create mode 100644 v1/attention/backends/mla/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/common.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/cutlass_mla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/flashattn_mla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/flashinfer_mla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/flashmla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/flashmla_sparse.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/indexer.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/rocm_aiter_mla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/__pycache__/triton_mla.cpython-312.pyc
 create mode 100644 v1/attention/backends/mla/common.py
 create mode 100644 v1/attention/backends/mla/cutlass_mla.py
 create mode 100644 v1/attention/backends/mla/flashattn_mla.py
 create mode 100644 v1/attention/backends/mla/flashinfer_mla.py
 create mode 100644 v1/attention/backends/mla/flashmla.py
 create mode 100644 v1/attention/backends/mla/flashmla_sparse.py
 create mode 100644 v1/attention/backends/mla/indexer.py
 create mode 100644 v1/attention/backends/mla/rocm_aiter_mla.py
 create mode 100644 v1/attention/backends/mla/triton_mla.py
 create mode 100644 v1/attention/backends/pallas.py
 create mode 100644 v1/attention/backends/rocm_aiter_fa.py
 create mode 100644 v1/attention/backends/rocm_aiter_unified_attn.py
 create mode 100644 v1/attention/backends/rocm_attn.py
 create mode 100644 v1/attention/backends/short_conv_attn.py
 create mode 100644 v1/attention/backends/tree_attn.py
 create mode 100644 v1/attention/backends/triton_attn.py
 create mode 100644 v1/attention/backends/utils.py
 create mode 100644 v1/attention/backends/xformers.py
 create mode 100644 v1/core/__init__.py
 create mode 100644 v1/core/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/block_pool.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/encoder_cache_manager.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/kv_cache_coordinator.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/kv_cache_manager.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/kv_cache_utils.cpython-312.pyc
 create mode 100644 v1/core/__pycache__/single_type_kv_cache_manager.cpython-312.pyc
 create mode 100644 v1/core/block_pool.py
 create mode 100644 v1/core/encoder_cache_manager.py
 create mode 100644 v1/core/kv_cache_coordinator.py
 create mode 100644 v1/core/kv_cache_manager.py
 create mode 100644 v1/core/kv_cache_utils.py
 create mode 100644 v1/core/sched/__init__.py
 create mode 100644 v1/core/sched/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/async_scheduler.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/interface.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/output.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/request_queue.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/scheduler.cpython-312.pyc
 create mode 100644 v1/core/sched/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/core/sched/async_scheduler.py
 create mode 100644 v1/core/sched/interface.py
 create mode 100644 v1/core/sched/output.py
 create mode 100644 v1/core/sched/request_queue.py
 create mode 100644 v1/core/sched/scheduler.py
 create mode 100644 v1/core/sched/utils.py
 create mode 100644 v1/core/single_type_kv_cache_manager.py
 create mode 100644 v1/cudagraph_dispatcher.py
 create mode 100644 v1/engine/__init__.py
 create mode 100644 v1/engine/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/async_llm.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/coordinator.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/core.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/core_client.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/detokenizer.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/exceptions.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/llm_engine.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/logprobs.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/output_processor.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/parallel_sampling.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/processor.cpython-312.pyc
 create mode 100644 v1/engine/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/engine/async_llm.py
 create mode 100644 v1/engine/coordinator.py
 create mode 100644 v1/engine/core.py
 create mode 100644 v1/engine/core_client.py
 create mode 100644 v1/engine/detokenizer.py
 create mode 100644 v1/engine/exceptions.py
 create mode 100644 v1/engine/llm_engine.py
 create mode 100644 v1/engine/logprobs.py
 create mode 100644 v1/engine/output_processor.py
 create mode 100644 v1/engine/parallel_sampling.py
 create mode 100644 v1/engine/processor.py
 create mode 100644 v1/engine/utils.py
 create mode 100644 v1/executor/__init__.py
 create mode 100644 v1/executor/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/abstract.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/multiproc_executor.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/ray_distributed_executor.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/ray_executor.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/ray_utils.cpython-312.pyc
 create mode 100644 v1/executor/__pycache__/uniproc_executor.cpython-312.pyc
 create mode 100644 v1/executor/abstract.py
 create mode 100644 v1/executor/multiproc_executor.py
 create mode 100644 v1/executor/ray_distributed_executor.py
 create mode 100644 v1/executor/ray_executor.py
 create mode 100644 v1/executor/ray_utils.py
 create mode 100644 v1/executor/uniproc_executor.py
 create mode 100644 v1/kv_cache_interface.py
 create mode 100644 v1/kv_offload/__init__.py
 create mode 100644 v1/kv_offload/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/abstract.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/arc_manager.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/backend.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/cpu.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/factory.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/lru_manager.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/mediums.cpython-312.pyc
 create mode 100644 v1/kv_offload/__pycache__/spec.cpython-312.pyc
 create mode 100644 v1/kv_offload/abstract.py
 create mode 100644 v1/kv_offload/arc_manager.py
 create mode 100644 v1/kv_offload/backend.py
 create mode 100644 v1/kv_offload/backends/__init__.py
 create mode 100644 v1/kv_offload/backends/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/kv_offload/backends/__pycache__/cpu.cpython-312.pyc
 create mode 100644 v1/kv_offload/backends/cpu.py
 create mode 100644 v1/kv_offload/cpu.py
 create mode 100644 v1/kv_offload/factory.py
 create mode 100644 v1/kv_offload/lru_manager.py
 create mode 100644 v1/kv_offload/mediums.py
 create mode 100644 v1/kv_offload/spec.py
 create mode 100644 v1/kv_offload/worker/__init__.py
 create mode 100644 v1/kv_offload/worker/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/kv_offload/worker/__pycache__/cpu_gpu.cpython-312.pyc
 create mode 100644 v1/kv_offload/worker/__pycache__/worker.cpython-312.pyc
 create mode 100644 v1/kv_offload/worker/cpu_gpu.py
 create mode 100644 v1/kv_offload/worker/worker.py
 create mode 100644 v1/metrics/__init__.py
 create mode 100644 v1/metrics/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/metrics/__pycache__/loggers.cpython-312.pyc
 create mode 100644 v1/metrics/__pycache__/prometheus.cpython-312.pyc
 create mode 100644 v1/metrics/__pycache__/ray_wrappers.cpython-312.pyc
 create mode 100644 v1/metrics/__pycache__/reader.cpython-312.pyc
 create mode 100644 v1/metrics/__pycache__/stats.cpython-312.pyc
 create mode 100644 v1/metrics/loggers.py
 create mode 100644 v1/metrics/prometheus.py
 create mode 100644 v1/metrics/ray_wrappers.py
 create mode 100644 v1/metrics/reader.py
 create mode 100644 v1/metrics/stats.py
 create mode 100644 v1/outputs.py
 create mode 100644 v1/pool/__init__.py
 create mode 100644 v1/pool/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/pool/__pycache__/metadata.cpython-312.pyc
 create mode 100644 v1/pool/metadata.py
 create mode 100644 v1/request.py
 create mode 100644 v1/sample/__init__.py
 create mode 100644 v1/sample/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/sample/__pycache__/metadata.cpython-312.pyc
 create mode 100644 v1/sample/__pycache__/rejection_sampler.cpython-312.pyc
 create mode 100644 v1/sample/__pycache__/sampler.cpython-312.pyc
 create mode 100644 v1/sample/logits_processor/__init__.py
 create mode 100644 v1/sample/logits_processor/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/sample/logits_processor/__pycache__/builtin.cpython-312.pyc
 create mode 100644 v1/sample/logits_processor/__pycache__/interface.cpython-312.pyc
 create mode 100644 v1/sample/logits_processor/__pycache__/state.cpython-312.pyc
 create mode 100644 v1/sample/logits_processor/builtin.py
 create mode 100644 v1/sample/logits_processor/interface.py
 create mode 100644 v1/sample/logits_processor/state.py
 create mode 100644 v1/sample/metadata.py
 create mode 100644 v1/sample/ops/__init__.py
 create mode 100644 v1/sample/ops/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/sample/ops/__pycache__/bad_words.cpython-312.pyc
 create mode 100644 v1/sample/ops/__pycache__/logprobs.cpython-312.pyc
 create mode 100644 v1/sample/ops/__pycache__/penalties.cpython-312.pyc
 create mode 100644 v1/sample/ops/__pycache__/topk_topp_sampler.cpython-312.pyc
 create mode 100644 v1/sample/ops/bad_words.py
 create mode 100644 v1/sample/ops/logprobs.py
 create mode 100644 v1/sample/ops/penalties.py
 create mode 100644 v1/sample/ops/topk_topp_sampler.py
 create mode 100644 v1/sample/rejection_sampler.py
 create mode 100644 v1/sample/sampler.py
 create mode 100644 v1/sample/tpu/__init__.py
 create mode 100644 v1/sample/tpu/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/sample/tpu/__pycache__/metadata.cpython-312.pyc
 create mode 100644 v1/sample/tpu/__pycache__/sampler.cpython-312.pyc
 create mode 100644 v1/sample/tpu/metadata.py
 create mode 100644 v1/sample/tpu/sampler.py
 create mode 100644 v1/serial_utils.py
 create mode 100644 v1/spec_decode/__init__.py
 create mode 100644 v1/spec_decode/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/eagle.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/medusa.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/metadata.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/metrics.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/ngram_proposer.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/suffix_decoding.cpython-312.pyc
 create mode 100644 v1/spec_decode/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/spec_decode/eagle.py
 create mode 100644 v1/spec_decode/medusa.py
 create mode 100644 v1/spec_decode/metadata.py
 create mode 100644 v1/spec_decode/metrics.py
 create mode 100644 v1/spec_decode/ngram_proposer.py
 create mode 100644 v1/spec_decode/suffix_decoding.py
 create mode 100644 v1/spec_decode/utils.py
 create mode 100644 v1/structured_output/__init__.py
 create mode 100644 v1/structured_output/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/backend_guidance.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/backend_lm_format_enforcer.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/backend_outlines.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/backend_types.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/backend_xgrammar.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/request.cpython-312.pyc
 create mode 100644 v1/structured_output/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/structured_output/backend_guidance.py
 create mode 100644 v1/structured_output/backend_lm_format_enforcer.py
 create mode 100644 v1/structured_output/backend_outlines.py
 create mode 100644 v1/structured_output/backend_types.py
 create mode 100644 v1/structured_output/backend_xgrammar.py
 create mode 100644 v1/structured_output/request.py
 create mode 100644 v1/structured_output/utils.py
 create mode 100644 v1/utils.py
 create mode 100644 v1/worker/__init__.py
 create mode 100644 v1/worker/__pycache__/__init__.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/block_table.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/cpu_model_runner.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/cpu_worker.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/dp_utils.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/ec_connector_model_runner_mixin.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/gpu_input_batch.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/gpu_model_runner.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/gpu_ubatch_wrapper.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/gpu_worker.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/kv_connector_model_runner_mixin.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/lora_model_runner_mixin.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/tpu_input_batch.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/tpu_model_runner.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/tpu_worker.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/ubatch_utils.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/ubatching.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/utils.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/worker_base.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/xpu_model_runner.cpython-312.pyc
 create mode 100644 v1/worker/__pycache__/xpu_worker.cpython-312.pyc
 create mode 100644 v1/worker/block_table.py
 create mode 100644 v1/worker/cpu_model_runner.py
 create mode 100644 v1/worker/cpu_worker.py
 create mode 100644 v1/worker/dp_utils.py
 create mode 100644 v1/worker/ec_connector_model_runner_mixin.py
 create mode 100644 v1/worker/gpu_input_batch.py
 create mode 100644 v1/worker/gpu_model_runner.py
 create mode 100644 v1/worker/gpu_ubatch_wrapper.py
 create mode 100644 v1/worker/gpu_worker.py
 create mode 100644 v1/worker/kv_connector_model_runner_mixin.py
 create mode 100644 v1/worker/lora_model_runner_mixin.py
 create mode 100644 v1/worker/tpu_input_batch.py
 create mode 100644 v1/worker/tpu_model_runner.py
 create mode 100644 v1/worker/tpu_worker.py
 create mode 100644 v1/worker/ubatch_utils.py
 create mode 100644 v1/worker/ubatching.py
 create mode 100644 v1/worker/utils.py
 create mode 100644 v1/worker/worker_base.py
 create mode 100644 v1/worker/xpu_model_runner.py
 create mode 100644 v1/worker/xpu_worker.py
 create mode 100644 version.py
 create mode 100644 vllm_flash_attn/.gitkeep

diff --git a/__init__.py b/__init__.py
new file mode 100644
index 0000000..19b2cdc
--- /dev/null
+++ b/__init__.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""vLLM: a high-throughput and memory-efficient inference engine for LLMs"""
+
+# The version.py should be independent library, and we always import the
+# version library first.  Such assumption is critical for some customization.
+from .version import __version__, __version_tuple__  # isort:skip
+
+import typing
+
+# The environment variables override should be imported before any other
+# modules to ensure that the environment variables are set before any
+# other modules are imported.
+import vllm.env_override  # noqa: F401
+
+MODULE_ATTRS = {
+    "bc_linter_skip": "._bc_linter:bc_linter_skip",
+    "bc_linter_include": "._bc_linter:bc_linter_include",
+    "AsyncEngineArgs": ".engine.arg_utils:AsyncEngineArgs",
+    "EngineArgs": ".engine.arg_utils:EngineArgs",
+    "AsyncLLMEngine": ".engine.async_llm_engine:AsyncLLMEngine",
+    "LLMEngine": ".engine.llm_engine:LLMEngine",
+    "LLM": ".entrypoints.llm:LLM",
+    "initialize_ray_cluster": ".v1.executor.ray_utils:initialize_ray_cluster",
+    "PromptType": ".inputs:PromptType",
+    "TextPrompt": ".inputs:TextPrompt",
+    "TokensPrompt": ".inputs:TokensPrompt",
+    "ModelRegistry": ".model_executor.models:ModelRegistry",
+    "SamplingParams": ".sampling_params:SamplingParams",
+    "PoolingParams": ".pooling_params:PoolingParams",
+    "ClassificationOutput": ".outputs:ClassificationOutput",
+    "ClassificationRequestOutput": ".outputs:ClassificationRequestOutput",
+    "CompletionOutput": ".outputs:CompletionOutput",
+    "EmbeddingOutput": ".outputs:EmbeddingOutput",
+    "EmbeddingRequestOutput": ".outputs:EmbeddingRequestOutput",
+    "PoolingOutput": ".outputs:PoolingOutput",
+    "PoolingRequestOutput": ".outputs:PoolingRequestOutput",
+    "RequestOutput": ".outputs:RequestOutput",
+    "ScoringOutput": ".outputs:ScoringOutput",
+    "ScoringRequestOutput": ".outputs:ScoringRequestOutput",
+}
+
+if typing.TYPE_CHECKING:
+    from vllm.engine.arg_utils import AsyncEngineArgs, EngineArgs
+    from vllm.engine.async_llm_engine import AsyncLLMEngine
+    from vllm.engine.llm_engine import LLMEngine
+    from vllm.entrypoints.llm import LLM
+    from vllm.inputs import PromptType, TextPrompt, TokensPrompt
+    from vllm.model_executor.models import ModelRegistry
+    from vllm.outputs import (
+        ClassificationOutput,
+        ClassificationRequestOutput,
+        CompletionOutput,
+        EmbeddingOutput,
+        EmbeddingRequestOutput,
+        PoolingOutput,
+        PoolingRequestOutput,
+        RequestOutput,
+        ScoringOutput,
+        ScoringRequestOutput,
+    )
+    from vllm.pooling_params import PoolingParams
+    from vllm.sampling_params import SamplingParams
+    from vllm.v1.executor.ray_utils import initialize_ray_cluster
+
+    from ._bc_linter import bc_linter_include, bc_linter_skip
+else:
+
+    def __getattr__(name: str) -> typing.Any:
+        from importlib import import_module
+
+        if name in MODULE_ATTRS:
+            module_name, attr_name = MODULE_ATTRS[name].split(":")
+            module = import_module(module_name, __package__)
+            return getattr(module, attr_name)
+        else:
+            raise AttributeError(f"module {__package__} has no attribute {name}")
+
+
+__all__ = [
+    "__version__",
+    "bc_linter_skip",
+    "bc_linter_include",
+    "__version_tuple__",
+    "LLM",
+    "ModelRegistry",
+    "PromptType",
+    "TextPrompt",
+    "TokensPrompt",
+    "SamplingParams",
+    "RequestOutput",
+    "CompletionOutput",
+    "PoolingOutput",
+    "PoolingRequestOutput",
+    "EmbeddingOutput",
+    "EmbeddingRequestOutput",
+    "ClassificationOutput",
+    "ClassificationRequestOutput",
+    "ScoringOutput",
+    "ScoringRequestOutput",
+    "LLMEngine",
+    "EngineArgs",
+    "AsyncLLMEngine",
+    "AsyncEngineArgs",
+    "initialize_ray_cluster",
+    "PoolingParams",
+]
diff --git a/__pycache__/__init__.cpython-312.pyc b/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4ae34cc3151acb0b33ccb04faa6ac7f25a4f0110
GIT binary patch
literal 3434
zcmb7G%WoUU8J{J0Nr?|hr1%i^q$El<Ws~wlwQR~tqB=@z#Bvl{J!H{hL338r#`|Dr
zmx4*iKw9(=pvM-dfuw+2v}lX;kV6ms69V)?)rYu)2nmn^MQ+;&g@K;>%`6|HEFU@m
zfAhWOn{U4Pc0T?s8Vw;By7+S~Ka9}VjOmQQHgWtr0ij<ZjAVob?9&CqC;JS)>=zLB
zV^J4nk<XGG&=8hz;1>c8;sL-x90CmE2w)Ts0S@C4z!;7Lj^YGh5~l#ucnmOu#{nns
zB;XXD2AsiJz*#&8IFECH3wROm96pcpcnM#?7jXd>KMww0kb|oD{zxbI-b{W3(JkwP
zMo11BVL8mBzNANts2t_=WqrsPmWMfgMISL@a*Weg^|&!Aj~WR%VI<`wm#ye2BQ2*n
z{T+SG$jBLETpl+j<OyR^o;0T9DPvlmHfH1*BP(Z(S$Wo&ljpeoHGSU5$vIB1>I=rA
zyvXV6`Z?pgd>&{4-_Y~MlDuSGkS_?xjN_7e5wF3y<lcEY)UJqc{!EmMRfN}nE6B?Y
zG5=cgt^GT9wo2J@c2BGB6`Va{)vJ58x|1!NIBTeeMH&TlcUP-us_A4kb5|v*Sy8j9
zS=CH6yK9jwIIzEg8%KE`4J*pNN^H$C6@|unj8m`as-k?uV!2C)9#j-vGaZ#E_Cu}K
z94{(eNvTV59gX#P&8+BktTw04HgBux@P^$mE1NvP4N|q6vqdl3VwqHxx})iK>68f#
zoiLw#*}SKvLwqTm*^@QTb*<U1imn@qx0|;|*N_f&$!2$l6V_cV^#j>VfLn(&Y8Ir)
zE`nVNq%@_OnxmC<t*I)c+)yANHe|6`DDGb_s*lu4-LXiKX}n{eZB9em#4>8mPNSwa
z<3-Jc`?gCx84c~Ij~tKh>3cF7*|8p~rrowkbUd7t(&(0jRsEh?)oeINGgmYiuXKat
ztX=A}qC@w~Mhz;Xx?Lt^!*0$L?Y2OvaY?D)fJV11>xBJOvF7m|^FB3A+|tXotwA-H
z9VpRv>JFS7%E{t{T{=rmC;FxL)F0PX+i9=Oy<%;j6&<++>DJW~duDp;POHYcs!ij8
ziZNuPz1hsmn!bISsjfl$+%KK5Eq~RrSIO^JEYgdkm$0_HZ&^M_hfhULQ(ZxyY4`fP
zIBDXn@M!eZn!aFY;>;L)WB^_o!a7o3AgpD<6!xYFoBU)5CIT%C5!M4h9b;37B$z14
zAjKffV2nYA!8n5n29pe?0AT5;H^sdv$|fHP!bAc9R5Z(mN&`f7>cp(Dr?NAc+7G|u
zPXVB1vUZ6K;jti~1LTMuvwcKXdfWkGp}f!hpBmWzN!$AmeF#1FJ@)(1fpFk+ST^|h
z1mtWy79ExjJ`ThKe@A{FIV^lWu-IGo5j5%p^bz{C*xBKyLOyVpNMM;4XjC(57I75#
zs_VK+g;F!<k=bTEyH~cerj;!_4$&Ue9W@IjGUzSPwFhJtT+qnYJ8%Br&Ze@lvvco0
zm27wg9M(;0<;ufy6<P-kR#k_&fET#qXp<0&<Rvl<9y~W;Z&!sUe2|%YWWbZ#EZi&`
z|6N&jjM{Qds}&q*3#wCiRA0Su{o$&*3^6U&8qS_&F7Ly`yR0be8C8^Gt-&H{hoLB>
z0M0hyXTJyV0XiDE@Kt#Dmp2c?GhZxR{xo;Eu=@GJ`r*R*Un|cRzIzy%`|#~2nSUhb
zp052R{49C%!?(T|9e;A|>5XTjg;u2S&v^Ff>YvyCSZJ-@{w()dsx`a)EdFjQ^6oJ>
zNBMEW%7mAbS6Hkz2rFe?x2LL^uuAmGloxTYbbIC8tMhIp^Dl&dH2jnCz9Ci)UV&et
zK}Eq<g<VFw%X?9=SZKg$)ZmSvF_tvwUi*p#MnuCZ6`6?Sm{oM=z3olq*7rAWy?y)c
z_h_<h%>GRD+H>#YrIURIr&=tJlBQ0Yz((!<%MU{nZDn6C<$0rFuJXFysr=D#u7jd^
zxn=Qu(+D@PyvFhWzZrCtudnrWE1u<c#HacmztDD6XSRC6u8D?v|D#SkKYr-I)W2ai
zc*U|yEbF?W{0WgFyW5Lw<-kqv3we#a2`qa=>^h+97X;zo0VHe*F9wjX@->PchmeqQ
z#mtEBxtM6BuDE_6zY^1}%ym}+(hVRf)k>G#AY%rQ6l=vVxr2-eAt~8Pz3zq?6G75Q
zE4J)L88d{WP%Av^4l`y1NmH%qEjPxPICrq<jxr|EW|E9aA!)RgSaQ>h8ADQ{m0WW(
zj2Y+qthy77ndF)kcZxC7NSbI(uDLUe$s%d4HGkWkWy~Cs(yg(p?mT01Xza@K>DQkp
z3(qIl7;@s<%b@!p;$A~y=yQMi@BZ|c;>MA<b|hXp63>4rzHunNaU@=U;R{QF7pMdO
wfzYlTiC2%rjem*jEpgoq3`qBcC-W|1^V7vYEd6HbnA6{;Cc?g-1o^f64}U}bYybcN

literal 0
HcmV?d00001

diff --git a/__pycache__/_aiter_ops.cpython-312.pyc b/__pycache__/_aiter_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1418a0e1a573f5902bed232e0f7113902c37b8c2
GIT binary patch
literal 36892
zcmeHw33MD+c3o9(=)D_g>}vxgK>#E{f;&Nq6etoD7l0xOYJsHbX`mWllh|0@;3mL^
zW;hmLPfT#)F`+n#pvl+*E!p9mI2qZA&x~_?9Q!zNx&`{MRiSJ!mQSoWCvJ+;%-Bxi
z-1n=hySh;YQrmbrE`qP#e}8@NzyJPH|Ns7dkH^X38M6FLv@gbSe?kuRsZo#zKk#wf
z4Nl+$eu(R(w`qtUHuai#nP%=aGe66)wb#mM<{{f~L2m)WEkpKUN3Ubp+3SSc8gUJn
z1lv_huiL~$+;1vb^m>GXhzY)?0gGUVuUBwH%x7!WqGaEKGvY_MLVaI->VT;N2@Kc-
z7g8?zLQ-}k<$#0B{U@9jy!s^)d<JyC0o{OKp~xV7z<|zQDd0Gv7&0uu|I&y{C|faP
z`HH?3EBaQh=xf#Y9jF$nu3CGGb0z8E{!x~?twF9&V_8;1mL<z%`Sj<emo@seXsDO9
z2H|Bs>Q?j(uIO98qHhB<ebtH~9^PV%rMwzaF8xO-3tz01*Fef;f|15G8r1Gu1A3DI
zy&0Nf75D+S&;pxY{$tE<9rCMyrF%v&D%*O4G8@UnsCU=^+uw@+8^P<QNG0R9NN9t6
ztNs@A-;DgLsTB#&8cN`^aJnT@qv3Wda;yEZ<+csE)nzS&@SL#Spe}b9(03ZpcNx&z
zQNOzl{A6ppXGPz~R`lHqt=Xq&PO0!XxC{P+<*ozV)eAi2aUeSmRWXca_Zvv+2?P28
z1NuP&dZz(huEj&}?Nm#XePfKQJANMU3QvNc)&GF_IShW*fLp!V;lJ?O`K0o93rA31
z>aG61l=mpgyVh{lbWC5*gf6lU`hEj;p&NZ&)90M#airO7nC4UZWf4{`zrnmqKP_dR
z=@d?&BrSg@N^%k<StoeH>rLDtPB?Xy6MEh>$yTCwLuA9*7qb>a#nd@D&t2x5dp{s@
zcQY^9p9l{Ph5Lpg!2SK>q8J&8hsK7&@qtlsxY;CC2vIT89}kI<!DuWV5kvjsvH0k4
zXmm^}i^f9nQL+C_C~|&0JQNxgLnD!k5mB;<k@&bc(ywMsZ?p3MK?4x1I`CL+;D-50
zj^|9=1Sgo^<S7_tvD`R+ifguXi^R}PUUCdXM}$ypEYdGo!%-9grSe9H$415YP_(ag
zJRThqX|+Ri0K_Pj;9qUu7#|+nI2Ik-5D$xkk@$v7<2!ckJhvmV5m7ddU5=j_9ocwc
zXlQt2h$RVjVy$DBk#0;O42+JC2%;CMc_`TufGO@hOVd49@$55;uA2FtgsVAWX?_3?
zPO=P)kM#E|91tbT?|wL50mt!-?^&g$SU3gDa4P@P+yF1|SM6$jP4W{Y57QOlK%{?E
z3`63<_?d7#I65+PIT*PV=^u|rVjx9=RET(VbR-xZa0c<5JpRORu;Xyg!IQzUaR0gR
zU?dog1!Lo5B)f=!6oP{Tmv#lisKZz*i;`1kRurxd{~rhd-{c?0gIZ#-DsEBO;=~eG
z)8=8zB-WKs)22))yNR1IPjFFgg8w%Ev*7VE*KC$+9lBUBIufG7HCshWOe#Rlh@<_(
zlK1eb5aTJ-dHi(u0VzP$*s5x5td#<Z0YquGNETFnOtPK3NN+|I{qTuVijdEgNOda}
zTol7&V-fMns_1}H`xzOv?im{G4-dumwkm;09<f${A5C!|**SOh9oMR)Yt?PnnqO&s
z&%NcIuk`De-z}?}>q(TYpMN@8wm#uszvK&uSZhNiLYb+KMn{KYl9f`7HJezGL|V#<
zkz#x~D3_{ed11tA_*YWEwE$EACuj4$5_&l_+p}n`d|+}|iyxRdTUDB{bSdW!Om(xI
zCH|7+927^#$3n5_l}Nu<14$UvIv@NyfE#FwXYtN|1fB{w!C$eVg__Pap$r8_sMRU~
zzk>EGSZMul(ll(Ir24k7`nF7%&a$=0+!R%9pR__JtjLpUBJWYto-m)Kc9{3PWmPR6
zT8FLsgTKMUOvaUUheyW7<H6XO@K_``409Fiiv)$}g=j1aI~VM`9AuIRk|dhVlH<g9
zcqHC)c`PE?gg9O?$pe!SIujiW!LE(Op^YwvgqU};U9z&YMHh-B))QzTunItOK#@Xi
zm)bV(l$`yeBk}0q_~>{{G7pUHY_^HC_A1iyXMVI|*$g2viz{awgRn_Y@yI$6WKBTP
zQMo#it{gZ7lQ<-{AO>k?>=eKhmxhLVuI-rFF}rzY_gp0ub^iQ2uBL?LnMBJoi-4}C
zKelX7TDIS-YFenc)4V6yyl1iMv4o}kU02;a|AzZ@_rLPK-TA#EzkcMl>rldSh-p)f
z`jC-e>SKd}(-?L%cT_7WSKjjilyA~JX^CUWQhv_bRV@3SFi%(pO!~@$blusID)yH7
zO)3YTN$bPYhAJbZV7UV21dcKdnBpXF_UI|xLvyu3k!=GesH0UiV@xq_nj|aJ9Ozf%
zLbN~f0d)n<c3FRz>Z}1lva-%pvPOo-;+I7<F;1kalnMrhM#J$fo0|(X`a{tqzDwe}
zCF`XSv_P_rj>kiNu^5S!>C7W(%|Q5EMBITWyYN3Y4lu=iZ0D>sOD;Dl&dUd;I;PIw
zbr)VcI&*ZcaIRy{Hb3yj+1Jm$UHHB7UoXGy-amEluBYhQ^E1ycxjiY5ceZloOLO6*
zr*8g8(%qW2njKEqNni1`;hEu-&wuUG%%zV!1zy`!XWGxX3uharN!^%UbxNKyQ9+1|
zgkte9IyK33u?_z>ORo6n*tyWfNObT_T(UDqRESBg$R#wGcxX5rJ0}%}(f3^lQ~wtl
zj-Z1VB)8mZ6_-yKl~bV92P18g{bE}v2IC$9wpqo(8CqDO^=nNNnQ^A=13)y|?t$U+
z;zI~8n1{&t`IzzZOxQAp&JRQ9ohZn-3*q)nK=&q0r0dWf|3u-0eZn!}oN!IJ-&AtV
z4uxpg(~;qk>=iR2uukYyVi6%UJQ_i7$&6AbO2>R9A2TeinGoV3cr_P^J1GR!x!6u%
zH-S9_9wV@qz&-+x6X+nYpTH9Y4iLy>!BUi*S@BCwS?<i179p&njhdHi&MLL$EK@?+
zkR3(5WB9KavLDuR)=lqOn(r0XC4y~>g`202yjxf~w`Z}iY3c~ZWGQ<|%I;);ft1~!
zvI7>ezcS_oh5jB?dEK@&=e62oL#C}-s#aFD>w!FMtTT}rubsjewfm+?+=N(?leOK@
zQ1o2nrsp%uI7Y?ONKI|f26AIf`2?bf`2Rp2v3^vGHg?BVm2_3jbuGGD5|$QuK;YIi
zsTee<U)6h{YGd#->hS1j{EX5(K!K;0Vh*=$mrAMAi$_Lcm;%Uk&)SuK%jrSsv@J(z
zH8gBM3qq^#K>Nu;;+gcZR-<htwuypFEAhQ$(X^AS)g|3TyKskN!_+E5@pBj3U~egB
z@ic*_2|PpKSpv@yV2XbjShFSDh@|qo_7mzGXxkn_!s7E3)Sq9;)bGj-=@D{c&5Si9
zN=&58V>Cd`sdG5w=2D|=E?U;)7DIEstCRvI10#+Wv*ta^HcgAU=R#x1v=g)$f2yd8
z{wkX3&+SXqZA%r`r2;h{eG%<M>_WlBZh+-&;}eU`sBIVvi8YTeQ|?rZlLW|`OL9xV
z91}frOe&6#o<j$u^eigXGl-65WH5v-7DG$Pg;_GD$KfFwOVa>IeW>qcHiUX_jgsU0
zITRV=T-Dsasl>u;Ts!NL%Mu$Mh!2M^VQRpP`2f<w*pZ1S3|#CZ&`&@hK>o{yiaBy%
zZCy!KR+d4;`S%pB3INLD<*cjjSzscIXNMB2cfP&hcdI@&n^ZHYWf9?J7A-(-p!lp>
zZ*n)Sh9!(qe5TVnikwq6R!8R$`uFgkjbt!}McEv3RrxRhrqu}Q<NKoFnB*TBA6Dy%
zjfW*COHamKBN23qa$QL!nEhbV%M2M+<p4S?EM91bo-|KkwMWA)P3_rP?b)-nM*}@{
z<x1SVIt)<BkP#~b-c%s9D#<c8JLI|>0xpY;^}EC593e1DV2l6-k2wIC@Ce8PT&=YP
zI@!r}97DuKN?|Pk>bRJ*w%oJGCIFDNe|tIWB+*;ed|c>I>su=n#MP;9F$(fc`=fFa
zqZCyp9+3y83l|XY&+-2OwJhiYcu;h~9fLBkiln6%ZHY70NMjsKXl(*d6V^#Prl@AN
z=;UA(>d2{3dtQZFx}^f8$*^f9^(T5&`Vul}cFKatTCu#^yo5lkN+l=OG1O!!YK%&&
zN=B{UoW`roRIb=bMEMcLZ3AFJDXN{XNEWtC9eK~vz?w0vd|v%xH1rv&_~D%CRIxD|
ztZt`J`a*Q{;zb~G1Lx06j&m16ed7ZISV!bXCCB;E5RC9xT$DU8iJ@5J{1D9ZdH5il
z;^UN2X1@!84~1h`!^9Xrgs?Hmj!}R-&UXxr4o2gl{_t2oiCukYGRfLKwKq+>$Id2L
zZ6~S8*?bd-kb+sT2o_8WZE8Z<w_v9Ak~hgl;$cI4W-~C*#}FTD7fSxjcG%SEqU0SO
z3Wo%&^9hmAz(qj}BC@y<00Yb!!hae73tJ9(RD#gr*Flji7ow4i;u`XFi7!*YuMqeu
zfvW_*M&PFiyh31_Kqf(!MvVHJtRgCwrcP^VatkNx;w)m-q7q{VfWXL<bJpg27ATt|
zWiPzuo$=0!b8U0s`NB8KUN2iHdcA7VzCrecKeIg*G$tvmz&PXwB`(zhX{!eb8(APU
zyid%nZi`!qPo}KjKq1<RPsI>{PsI@N9TLA^GIe0Ox<4jaSij_!2MY3nQNLC{$WSp|
zgGJKn8dguBYc{P(dQ*vqDPVS8)IAs(9u9?fUfdaa;;7oK{4=D5)q#JCm-ur8zDeNc
z3EUtsM}Pt?UmVDpOJvh#i%GwL7>9{xTCqai`Y}kj@8;a)b3E#_Z@yt(SU9%m+Lf^E
zV$C;)Q7SxRlyq(7WyMJw8W=+5Kk}mEWI>$LVUON=5_QEiw9;#aZ<*94IBB1-W2&YI
zQlvTFO$%!=Z007CDP_wo=$==Uqr?wO{D{Oqr`ItXNRw&Mw~#|GNpm+4SZzP&a9%5z
zDVXJFoKqcW6IsVyyXTr~#x>h9dw$-1>%@1T{m!$u?Ryc(<(_&{7PZzMkxJ_6)Ur`0
zmdKQN5QXxE1^rraw%+@&+<lH2%Vu8OfOJ(A`$fWSx}ss)MgGeMp=-3(LoXBAhWrxZ
zo*~Ip0+9!!>+aF|<9yqE-$KK!W4B!$2}{Rv#y^RUSy$9C+e37WjJJWQ*XUTmM8PRe
z{1@Ot{FeZja_XrPlh<n$Xr93906LxL!)3>`Y5}q7(~_!H-p`^{l1*7-^Ir&y(eOxr
zBorBoMTbU5`ZG-s`H>DWefvHTO@C=-OTLPR!7KB;sbGTn+yQXBN58R7l7MNnoA;oP
zML)~>Q<Lm9NwyN-j%YTOS@fmlW}Vm*7IiV<luj(|Vy$Eshhrg{*nL3xu+CRqP<smm
z$t*;NnaPj}#0dKY0Ph+KdXvB}6JP=Tm+&z(Iv5?nS5X!&e+E>cZ5V2<a%1=oQhAvw
zv>yl>gN?J+Efv^b8Gm{Fs~2Yrzw%P5s`|AZukJ`-=#I7h!!w6x`x2Ec3!9Ubt&8rB
z)BL;c;@J~(wnT8#qPuOHr#08hGnW$;&5OR4guUgSD*(H4AyKz+(X}aI*(A3rZS@k)
zs+Wx9Cs_#7Oz_Qla*0ub7+uI?e|`3uKK~lRT_g6D^($L;{i<WpRhzKXvI3*7BC)7|
z&(8f8#8971?|Ky!jb`FoR6L`XdL6|CuWAWC9;_TPv+_4-gBDtpKHExTJhjJ0JHW>P
z_9-CSbC;r?Nx3!)G_(s{jAB(SEC}jq(|1u~xhpyjOkL~$w?xfq7X^~sD(kcy!Iu58
zCb7I{Uz?|6I(f?)_Zvv`n<R2tnt{f-IqQb^1Lb!DtCE3L^G_}YHcTDE68{}fP0~{{
z7hd!Pr#j!YRHp1+Hjtx51BRDlUEgY>RsEvbJqcG`!cr$Im$rroXUauOaF4EBD}O!D
z)*i`RqlOk)4RfWae*RUI@loW&RP#4c;$J2?tzmNd2qPhNX_Zv-+txe5P08S<Tjh(v
z_JpfFVQH7yN9fE$BPn_wY{lBs4K9Kafxz{eu<?XcH}C1CjW+H)BAmSipwl{G-qTBm
zD~j`oaQ3=DFV~@aK&NlYc~37LV+iIE;q0YtGplvzw8^?jhh73Y8IioFmkuXv$|J(r
zO9v0O>d>n|->E~diPT2wu;nd??RuuG7PXsE-@Wx3f3uE%gT~*Y<G)JdZ`JW%t?|d<
z7d2n?jqPjM@)hX#H){NGJVuSDzI)ed{2e;}O&Wivj(@YpABSYrbk%oni^d;ET~xaI
z?p>$x_vrYq*Z6yN{5NR)eLDWFk&URoaiLJhZ&PF=jvKU{6_(e#5HO$@8_-K4Tc9Od
z^?miJnN44%*|PO+TcJ!V=dH^JHq4c2Qs0i${U{AB0_Hu??{fWe3Ka(QN&|Y80lnIQ
z?q^4fYT!#tl6eoLs?V8MsJ&{<=+Q3Jvp!$^7tU8*q&>2m29MbC|4DfWYIxWa*_ho5
zEn~t39F5TBABR%(>8lOsYYga(2K2QCbh);gBD;lV{BOa&mvt+KT)(34h82BVSM)W~
zjA~({MyikLNcH09Ce=*_B{Y(1n?ZP4s+(8z-Lj&uf$b6Gl((Utwyzlf;q`4S?;RR>
z?}d#qlFCkl66`Xdw;RxRgBwF@E9_A$t6O+XWBc}z9tf8Nqcry#<YmN*Q4Q}yt9Ts$
zJ5a{`)GG-7fg<4vjf5VTHBz{2SeDO{=YdFvCf|daeD`Ntf^bFXG~oA;0sTn>`eE>R
z#K7+;<Z#TuPu9z>6@9x`^gSNgGEgi$rQz@i)(cGMbs=P#{pjC}`g)^&^@Kt0CqdWi
zsbr2$8N`x(joOe~=+W?T5N+tRK{`(x(4R4&KWjjL4t3Lu|IcG=>lI$mw3JTd{vsPE
z=t@%X3-yp^f$$}RltTveFB{OqD8<TSgFeJGmUutn%hDALa*%x^Xpu5D5ILk^M)grD
z3~K7*$-k$gi!&M?4m11rk`OhJ5!J%OZK_Q;t4Z?+H02!P4Y9aE9F!l{=+RM@<AgA3
zkmDG}%ey1HWovCX&a(;UH8~zbj@UK-&v_yCh^ZR&i)t@{9l2L+nQ>&-Wq<Re<fSd%
z*?s#WEq~|iy~i9~USpv3WTQ_HSo!0x?0-5UMhBwUKQHgh4AL=!STH;y1j84?Q5=kj
z4n^aagQEjM_QfqY9FC3zBO@1rY=IQpiCeLL?o~FVAMEbff9&9ao4jQ1ABx4O7|I$0
zef5ou&@l_)N=0t*TeDujLyHT3#KPABJLeDF@zp1N^$B~uypBNWsShnsvSpO*K#W+t
z#EWjWB&#f&s*&kU+t#k^3N}2t0CKrDiNA$ZBwy&*;qHSSCqoMF;(r8H%XuN#8;XuZ
z!eT}M!Q}$T4e_5z4pm4fM-K1!cFp(SY21};+?B8^ADnbWLd#f8BwAn4=uuS(qAA9j
zAc>GYdLNe5uvk(09RzANi@%GPd>p|AwrK11z{vQOWjq&Wd8RO^c&hhRhHPg8y+fQg
zAeRj1tCPOfi@wHpe1~tZ+kI!<q2#(li|Y<2?1#S)osbz->ee4R*>$S>_{lEA$}Iw;
z%Bp6jcI%h3nHMAlCLicjZ#z|Qd$O@TVOLhpv=#U{XnYQLo=|7k@q>n}Q5|Ntq^fOK
zrw*3|`Xj1C9rkt*dpnYiSh?S^Lgmq(z(>&D6&f~M|HOB@caV})6(TNAJ=t;c;DOM=
zXP-KFvgec`)2n5s*%oSSo5ZIJ5gVA~y>M9rwq<z@LkKHJdY^<Me@0H*m}y&^^sQa=
zHNWHQTIj#i+LdhWO4z$rkjtkxbUD@T4s{*tFcbit|Ds(EYJJx%XI0}(`}p+~c{|ng
z_GIJsgnj#ug`+1Q!qJ(PIm&wf1vnDlB`b&J>D*5B^KO6s&{Ky(9X&nWhLu6qWh@*D
z$K%+KsdSz?)+H~<$Hc;a{jso69qKuGxaW9x=ydnt&ckS5E3#7ycH&|*j=hWHBQ)p`
za#`E3T-R0z{@2u?bgWD#>0W2Du`^-s{9-DRcJacx{1#s5{yU%AxxdS}hoJ5s-CG~_
ztf*C})BWd$;Gt?NYqG7NVbCLY|DVB7Xj!WQYg<Ey4uZJ@&vkcn9eyHo;&exMPpIQm
z*Rmde4cMd|*#l!+Lu{XeaCsy=9PL+j!>g=sU0%fxkA<&{y5cxUHGMGIcral<_{G<B
zv8wAQkN0$(d@gjbYyZIm%jBTZad8w!Z!d=;!+q3+D9zVc$Mu4{z`1H)wTiHpINzIW
z+?%lP{V{TWx?5HN(url9mu6cxQvj9YHOs49Y1P_bI2^=@|4TJm-TlBaPiA+|uVS={
zFQyrfSw8j$*%7Re`GPGvvtO{)G3-cXoHom_NAFXk-WkmSoX(DW)L4Qk?p5(YE>6=F
z_QZ=+Oz+cUcE=G$+u5`%@lrJw(#m|A{8VXK<221<57Nqf&iqtq+2ZO4T5gaN3ckh1
zgG$oer%KNrZ&2e44#7ESimz7PpDI09yitv>q?h^Z`l-@$$6GS#c?S7-=40&y_m)@P
zE0$ApzIdw|1Jd54;-4yae|)nVA8BPi{C=vm3gcw=*@Lt)AB#U#T1D}8O<J@&pFNMB
zmJkTzU<6Kf6n9^-Zf@Ptx=E_k*a5bqn@u0tVX0;-PP>nV&|yRvLPx|U_wYD70~umR
z*d4S1f$i3i+(I-q7LMcAg>#Y1Qkf=M?U5j<SmTkIqT~eE9=yQZ_7r#&!vy*Oq*_gU
zof8Jxg9|xnYWJ#3+J%nXt;1|%GWJe=NZCCg@DYKJDPs!`XW|%+Ci~3BL8(rU8p`fj
zlmeOn>b5FLJ7(11gVWPohoQ{zr%r`V9z1mT6fR6a-$wQlXL85Kh9YcVj%4l$4@%{9
zrUYY}=p}S(F_?1f)E*Uuh$zyoA$I<n9j9f>1mX{f_9B5V6F5rX1c5;U=Lp0ITp%z>
zV2Z#jfo~A_1p?n9@Jj?12+$5O@z)5@&K;4qrC_t>|HUh3;U#lp2ky2AVFzF2O8&@e
zS%?yJLowP4G{yY@3s7|**|_3$3p;KHwtQsf3QK>k;Qi978`100JEc35r8^TP?dbx}
zQ}~gW^E9T)x85z^nX0L~TiJfMX2YGD_GC@_$1a=4`;nh{x7{t@#=Ljvdbi#!-^{$X
z>UvXbspj<EO8wY7@0RaL)vjMSo2c1!w{ovx64@~N>1?@Mz9UszKZlHVrAjKa<$p*4
zcik<2jFo?%Zsr^AmbWqQExO*j@0Ral-W|E#*i2QoYUX&l!;IQsLmj;hO*vcONNw55
zU@s8ua6#|d5xr%vvozqyd(>^|>TYUflNI)^Q4b)Qp<+0LfQvXp9@-=R2N3giSq0SQ
zi0yCc*0(DSn&wJ3u;_$&iBz%~>EX5uFXu0zy^Pm>V&*6A`1U1z`>+FY`qEr!qQ32c
z+2nVoIg`UFj|ej>dx%OclZoV6AfK;D)ZM4K0ugay4ENCx;0XL1<eRetl5G>cqBY)H
z_J4|aZa^G%#fX;YwxqA^R{gD~6OVN*`nnT#`F0Q8UB;P>|2ezz?W!og^tp>dKE<wX
zfix7z|3k(G8_6?8Ubd0kk?8}jl;`P8#^>uKwY9R;igGk%bJDl@R@<%c+eL4m{C@HG
zCl-A@340II6UoVX5BXLUYC7tZ8Fjw^%IB*y5R_FNTN#S!Z;-8lm~cv3KGKmdCh->$
zY1uk+MnIa5@&?I@hJMhnTv<Jq^gTwc>ilfOY~S4ayk^yzf82RD()dL82I!v&A3`#p
zyO8Nl1?_2Z&7BJJ5~*yxG>!E~#LZIx2B(YJRR_y7Ff+XRHc7P;(IM5~G7U_*D^hMR
z`zuSii&JjEnv@&6xT}~G6#Byz1!Ty)iXoE+T0K;-(*&L-@C*SmX6)qp-)WKlkV+W>
zFcRtW@Vio#*Qm8a+21yl>b9hBn?|aTBm`K({;E@M{P|Mu23gMeQVmnF`UvzB5CB^B
zPjZvj=dYS-`=`%y6MSaZveKbyRPryWcyu@_?+5`q^}S4P+A;n6B)2Vy32nq#BkwiG
zjDrs3-LbbO?X6I}x%G*rJ#P>H?(-j+(QVSQeD&N5314%<-YgF_s8x!?1ZYcQ_FS_5
zY1=PGP|J^68?@cOq9Tq1EI&)b&QUKLZ0O8t?vu!9P70Bg=7?-t(k`nS+N!K)P_I&^
zTlF|Ntv1$6i2HX^I)6>l`AL20yae(xP14Tf3NU!m7mKV(uxoiTfm17%mnrwJ5cn#A
z83I=ce2u_Q5qO2bG=ZN6&_A9_v!BniDe4^;qU-7e6OIx&ky+j&pGQ>3z&P-c?P1I~
z)N9T;)QjVFLBwaLcg24K481uGmNjkr|B&+<fi>j6>@4fU<)n9(m7V6jlK<r@cLH8R
zHA<Zd6umM>(KjXSo6!Hmh+gZS>7Ls>cYeNp{=^&4y#CC>$=9F9i6YsPnO&G#G=Z8_
zNlmJ>E?vSo+CJu7N>h;B>Sasph9w7%s>r8dB|A=W6D^iwZ!-ha|A|s*PVUezPtc`G
zbUh5t$WB<M@Cy@k=0-iQ!>$u6n6!`J^w?y<gk{nmcOVJ&=vCrGf!>h{^?th*{0ek0
z1vBFc8jGCUqyr_h;xH<YGu|e>0~#3lIn)6%cyZ*MKEtJRbg~zp5H8|Bwv`0bj|jt;
z=(~cvR%Bv_ROO?Y4yjf?2Tqd*c~!YJClRp{Lq(}{Ss<2_SViMVrjl)7fa#!o;TYco
zU92J6O#-D9u8crA0ZNm_mCTny=Ly6l{<5AXN;S$-_wvso;qj69mGybO{)(Y@kjkD%
zdDuZ@M+g6&eeaShkZ@JKTh_ABwpg}d=E><Nt_PNi0@F{ViYlj{cwfG>48s6+N-jKe
zY_9RO^{=j<KmY2+TdTg?@|~9NA4b>baZdC1?VO`@wtsH>{FVjxzxLkrzU}ya+im+n
z9G;uD%M%61*k~+DH;>@v#`EJ5@v>y51vpRtC@yq}j^I*({xcEDaV8SRx)AP#k(|mW
z4ICPjJoq{=5*dZ4;+Kaa{n{Be*%`3LJ@_`{s!@FW%nGa!O<nUIbx9v5n$3E1b-I=y
zdpRO&9*#*TPQOwU%X=nWP*gp-d%`A~1b&1UY?B_ub>&5bbHYvsGt~(&t|>J=LMYP&
zFBAx9CSNnjJIf}$6Q(>0-T9<zfAx6~IKfuQ{Vc~0g%)5q<-{FoUfiwb5$uBFEob(c
z76U$9swpw#A$uQ{35&X}%ykV-;^<gJu6f+^az+ScbR@L7pPllHj^Jj}{)qT15E$zZ
zuu}J{gl`0B?dim&Zlz)b*SCcR#K?K9D~h-?5?{T=xU4gj{y<cW#hYzX$+C7#*^BF-
zH<A?>;Y5ZcYyX+?k#llWrj7;oQ>~)rx|+Zm0*wUL5@;gOOn{}}q^oq;<wv-!5=t$Z
zq1ANpB~)EL#EL67A}Z=8<&I;E2<fwAlS4@s7Ql~;anv*Ck<Wbwloqc2*tcw4rW58k
zwSDRs(DsWt$0>fPr1nPWdT6nvaoU**1n&eIlYz$h^9y~6K;vSdZN@%ro<5brV&%E(
z=cZk$;<6iuuOFUvyj$IT{rtlDY4?)9<c9OQbFO_}T-def-!^Scc?++dnK?6iWq$Mg
z<wbAXv^iB+IvbliI@ddQG*PxTS=cmfOZkdsx6HZbD(74YoR0LZp0=cl8)gsR=)T@P
zfAEc?uOGc-x>Y!TJW;$AnNdfIE)tUv{1v6#ei|mNTAQk@V<Se~Wm8znO0j#<zcyO}
z<X%5xW=7|ODex@u&q}6ePT-nax!;uU58XgMw%8c9Cmxkd&z-<ER$_Q01_g|S`i3PN
z?j9Y84(gAiXoRb=G@5HpGItRw^XBZB23=M5!hl14^Z^13;Mui>aERRj$1cy3zi*5|
zq3Qb6&_(8@M$ujqhf}Wfy-mKPf;bZQl0NPu@Hl}E05p+jmubG5+Gi|)_ylF(5_eN(
zdk8#6;NgXmlnYxkUDi%WeOUhv6>n~!Wka)EZ(1jeZG|kL>(!W-p=<K5W`i!Q9RyNk
z^{K*=R8d(fP?7Q#rYhC|`KZK2O9txDD`&wkvyRo2Tj}}tjaai^YOyBuZ3Kqg*DRBJ
zR^HjKE^OJ!;QEowS``bl{E%{$!n|I(S6cMP2YO+@K~k%drB=i_j`R0?tL8gk5gHcy
z-ge*iWj0Ajc9>+0MK=pMx7b<`mG#0j)5Z2XT)}+~5@VMfXRfUN3Ll5B{Cw8cbj{_(
zI3i9r%UmfvL>Dx(Yl$=07ULe_<!b`>Q3UM3Iijj6yEj@rTkn%wAMGh+&F_l#OCAjr
z^ZZ{U$;rzEX(#8eoICZ7FNhtOiH7z?Kwt1K?rzO2y6;T-cD`Ny{dVo@^E`?p@#k{n
ziHWo<PcIPK&Pa<K0)GMfj+;&0&8}wC2OMPn0T(1zqK{(?@&Q-PaL&!)QgE!rQkW^U
z#;3q1!f@zU#1jf$q`{GwLT9fihr}Qr3i<&pzXPWv#N!(LBoU%08$9Rn61zaikz+;P
zhK`Fn!#hLq@e%CgMYpfrfKEHOwQ8IV`3A|h9LY~{Oa8*yw&@FL&RvP7>ZbPUR;Eff
zO&?H~DL#!NNH*C%O17c!Wz3m!?%l{JX#;|53^?xHz>vvIw_%_alj!ke4L0_pdt+yC
zrPfeHxkL9RFFwnJfm?IwM*UXO3nhs7Jo(`6^jKtQKzs%c7M787zv(d2GHaHb(|1V%
z#V8J}8OGS#?)hrw1{R*a?c18LZ<SY>ULdv$WVYF*7p(Xol7et#zaH!Xc!hh#l;!!S
zalLeQm&-Iajp3wVzG|P~4`lXutHU~yMEHkD(5VhdI>yj%V$*+aS+n=&V-%)doF5+z
zMliC^L}k_^D3_L<6Oe!FfL*{p-0IAPJBc0d=#U4IOOujKteM@?uT5cNEE6F*f~>;q
z00P?_7-R-ED62sbzs3+89g9bYF|!bY{iDOMVeGDBO_m+F<i0(V9`V|uNVPrqG~MSy
zx1VE_*B3!r13`A%bZZa0wKX`}cNX_5DnA0Cib>A9J=hT(3rATT6f!ax5g|F8lZXyn
z#{GMYC%LRN?TH2HE@C9kZd?~4Ipv{*>4yrGVg-e9y1`GW24Jnh1CfF7_)wgFr=Y2A
z`}$zp_GS%-C)w{xXqfB>_R#lvVn-1&vSu7<SYg-qiFEZ+&M6U^T9Ms*K*OPLnvTL$
zkfC}J7Hbk)5b@gt{EX=>PHj&=&)?vA?(2RFem~<^%olkW4$|Ci*@{>sQ|l)E)-p9E
z4}Kkc1|uWbOD*ob(w1jHa`iBl{n3F;l-tyfU>~_3{TcV8DK1fb;`hqlzHt3Z^PRW0
z-zjOwr}*D1`%Bh5zgk?zV>`!-C>v{_BCG?QU7!XphEyv18u{hm<8sk_c?DS3XXN>R
zk4i&ls{azrx)II#eP8iyD$-){iACRug#83-+7J;n-|n0EPDxgYfzEC`px^<@NH_Wa
z0be}neK$?w6(AyA2ZaG=cemmL7teZ0yiSu}w`32oEi<8z<P71KUtt{PEhM=^)a?z?
zW*WFGIJ6Rz0#6@1))m69VRVH~pE@WX){*zGR_gdDCtAe+gmOq#dI6MU5#oQL5M_EH
zu;*S(8v7pW5buz0tzO)xIu0pYiN!xMPU6W9@xPJp8oeYm`;iZJ_Z&XnE#9NBy4=be
zc*XZAKu|9++6Id~uWT!<NYx?L=>=1^LZ3YT)IpJ^YErXasLs=;P@KH;2;%LBrOLKk
z{%;E9>c{PlG5Jb&_Int(aSuPIA^tWz<?}hePuL$2c!$6r5=araOW=<Q{C5I>O5o23
z{5gTY0Fc~t@qDyjNgiWld4Wu_$!1crva9%6lM*p)Qm%WFFX(UE&Q|3_59pF*2)~vi
znPD&4z?XeEWH&~$?>6j%1SZ&VQKZFp`3^^WA4?p`G*HUBSTeYjI4*XQ`!IoH1bPTi
zFD(iLXcQy&q#nY)r-JXoGd7Qfo2wkQvfL@zkSy6S)txG>yi>X@S-NfNc&e=GPT7uR
z*^Y#zI8|JJr+8Dcc+*r@Do}POurV3fICYGLXit{mE}LR4dDYrGtGbe_x)PS4Hob<%
zI}L}D4fvgix>Qx&ovMAws(rZIKSlJXk_}Jg(U+|Ll(j5vGFcnuwtmRr^#DI!Qcj>S
zZGjVq;B19TkoNi26r?>jNV_)35q`dh!W`jq10CVDp?1%+ymse?*{uz-Q%+}RZjhbX
zAiTAkzlFT$tqnwOd`HU^ddFOx3baET2F`3ka6CN7Bb4|Mzrb=jlv5m&^^k^j-pXW%
zm$o=?W=qUlJNa7z@zt4=5V^IX_EB!Ubzg2m`*MQJ8wM#tm40aI<E^VQ@r%+Ha;Kj}
z-4~@zcB?bx@?YCCvnOo^zEo6pWBv8@X)AE#fmIXtb$7aeTz0N1n0656<ea|g@oN(^
z6LY6ud*N03kePI}eCUE7Wh1AGH5bCn*5iC81Lml2e53mH>a>|TIyz-!2_H?XXR1H6
z5>-irP~?SF+}xVx)avFpx?b<P@3C7?XHz7{l2U$@`83H6Kap{4<`@+kPP^(v$>DU;
z&tnYD49)c<z4d977&JFmR!yr{X_hqZz;^mrS$yQ1VF&>kM_z7Ci(C+=Ms&b4#Q?4;
z1-Y_?AeWOXshA5~Kb&@vE1NsHvYErB<W2N)5`&jpzbRGUkgBdp1=pmS)@T0iSJj{_
z;9}zXMA{5|3G4AB11oS%S;%GQuvYiN^%v3(ayhv`Ije9Nx!j81{DEXiQ`$o$FIQcc
z_7Udi$|}=^gcWg>wdnw1#Y*(~;$+d9bP174b4X=GD$gNR5UDbUM8!{6t8%Y_OJSYp
zdu7&JT2sv%Qk%BYUvWihdwXi#MhN4Ru?`UpT_4hCy}07Wp6h$&S7UioWnD{BWKb2P
z?-~om$;u6?Ftj8^D&8Vh7|?e7vd=<18QhXqgdxjcma!rX$oSzhFgdL)w9rZ%n1L@T
zxD_}mxo-7qL$3~{3&>^X%4?W1ILPJXN-Ig(T2R56mU}AU3nm@)A9_H~C|ZlGXhmGp
zy8DFzjZOhys;GUf`qk>R6*#g}L|H&CyHcBJ2f3VFRc+cun42ppPkRXSQW1QF`MKbl
zG^GtSa(X`u08_FjS_@USpQ~w1t!-Ie0+nG3X;br5N`O3-+>xh}JMvU=hw46h?oc)S
zwQWmP)!r{D)3kEnOK2}ple85$%7Au8rn7)tB!#qtFefK#PTEB-H&<Sj_7LV(=(3Xe
zh~(!=DsLRSer$egvUqK}kVr*bb^U95Ufr{>I$7144iKpr5kI7&D54_TW)hW?Yi^~F
zXfOr$T_x7SjHv}qEAM2zt-v)EMlL%QWcT&mXt#kiX$O&1OCUF8N{eX=vxFYFl$?p)
zN;#YAtqmzf7-ry0Fs$ei(pKQe%^SG(!psZl0&-=wkz5c?S=vRItR94Ux$^1{eZZ7l
zh=!pUW3Z|=wYrI{fA{O%shWBWao|YRHry|%)>IAfjL`#*5}+rmzFwU!AeWsK(Lq>V
z2S6k@?H_w-<|XtAzWTI>NM5e6cviUXO#8@%UDd2hncJFl*QE=IRK(E_&!Nu<kPDv|
zN@nBNU1=&3ETGbXl)<GiMD#txkGA{h%=TkWbo-hPgpC2zevJIUf#O7qhEv;zz^Uy-
z;MDda^6&!n#p1Dk#D)fX-)g0vS?TW0<XA$zFe-$%%uEze2!$C!kq0S($LgFvmFDnT
zkY6-bgG&hsEM1F$OM5%-Badwv^F{djwp*)i#cnm-Jf0@M%n$&0CZlaEpQZNwADWA;
zC$r^cj;0L@{kOI(oVn>sGhd{j3`<nwW~Fc}vHK=M<-t1}w?}9|KR{rR4ebH&V`7*l
z(|lMwOU{jAB}VuXehOm<Uy|7e>DF*xzlbThGFfr3UqqytuQ-Ajk~jAk66FgFN*R%U
zJQG_7*pGNJTt3A>8)3ys%956E#S#Lv_#ply(Y{K6Ruwd-9gdRk2?8$?_%eY(0_O-!
zQQ#P1?4ZL{a!xW20<#3ZLEvTbVBdj$ft=qW@Jj?12z-aYuMzkS0>4QB%Ye$1hfUUU
z=R%TwkGw9hSNs`-!ygy>5x%#l%{<RPuyK6hd)(?j;oN`9mA}WW`(y5O+Ggfk<}435
zyzUosMZv|w`YCVPR>%kDo=xM&3IYpF59pO{vhz>!sRH*a6E9<MLyjeX00UGYP*j_1
zdK;PGxf1G}60S8#YvY3g=2`0JD>CtbvuJo5#v;GX9L7~OwW;!oRCPTwJg`0VcfV>C
zZ_5}w;7hnU+&u&H3LHsd086d{a@kem;~<x6a?&nxxfQ>8OR{iv+CwB*zpAv4Fh3V4
zO&1bYL>*>;u;QE{YYCA`b4X=GD$gNR5UDbUM8(G#%jSCJg_mD=P(v=PQyDVr<JV=F
z1)gCRxQ1DBWtk;cmRWM;F-s(wS;Ayy36q&6ERR_t<uOa7JZ6cM$1IVu%#v#p*VvN6
zGy+3t{P{~#o42Rdu0vJduWHa#Ebt7kz%{&*D?893SC&_Dv2KLsL_*TnkoFLXoubH)
zd_=-1nvFr{dy=Ki=|Uo*FVT<!L@LJ6C|yEWDOc0*+Ob!UEo@CzZ%mgFsXRx6Du`4`
z8bo|(m?js#a~N_Bp*(U8E0Y8V2{Owyx$?LsQXbbt%Hx_yd0Z1o=9;iPu8EY#HIZbl
z3CpeO)h<-1+Oq*)QYW>*QK9m9JzYR9HV~rmoP%6WuBbHaBFxR%oDV#NRTuD%Ok%(@
zi2>InMy_mP<dPF3Oiqlj)!gc}_X|rj`UZRnBS4yvS%D)(Mb-u6V!!5y=_-b3a5-rP
z<|53E@k!c4n3sy|Bg~IsW17;2Xi@k8VUP1HLnl~Jhibqx83Na2NUm&#<dQQaOwN!n
zIYYwa3<;AnB&><6Xh^MUykA(V;SqR7YQT}DJPA)1kjqY7IS6wSS1!U}H%ikU!n|Y=
zeT2!`5hiCx82D52L*_Xws#Q*f%H~HdIX}YW{0NitBTUYZFg^AfsX5_qLtCn}B2`v-
zzoY_us(lmiC3O@G9QoQktk)_a7d97^uo1F@T=FQGu)G#TBn&^<!pmGd>0g!h5y`L2
z=;noFSxdT*NJS81IzU)4l1@`m&~Q-oWrQ7IO+TlsZpcV2EAUKNfosZ2u54M!C6|@3
zys{E0udGDMD=U%YvJxhjl`y%igf(&XYp|s8hUaz9eUF!K&y*7Ql2T$TaFkN*X32%G
zoN}k@AeWQFI?(!=^>f8ZXHD8gBsVptb=TLWDN&SE>HK`;TCdI1#d|V&0?*_LT$3lc
zvU!p#FHa(6^CVX`PjWSKSPmd2T@HSKc1%N#OqS%(<jI`bOqr8S)rc*Y402TX@-W|q
zOeRhZSHLq_0N3O|u51S6%BD}QZ1Uu)bn$H(QQ@Rz11$lj%|w4}KYK4(ootX{1ub1|
z=Ib&M2v;KzP7(0VL;#+47xBSN1mH`UN|Fh*0!OjcSrNI=l&jMY!mv!JHxP7@UyF_3
zok<XQCPCnu1j!{QNSINA<VUMsQ@$VCUbOQk`THDur5`Wkc;6i^nB;<g$ThHu#{UOs
Cw*ia*

literal 0
HcmV?d00001

diff --git a/__pycache__/_bc_linter.cpython-312.pyc b/__pycache__/_bc_linter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e7a911fa4af15fadbed1f7411659995ee37590b8
GIT binary patch
literal 1981
zcmbtUO>7%Q6rS;}*FX7nqKXm-+KQCapsX8Jw56&lN=jwPRir9`gD=*4ckFI6_AayQ
zP)9)uB8NyE;DA&kaWFTcUc$}C+_^Y8RePxrCoYv$s~1kZH+EvXP|=E!_RX7pZ@xG0
zy>I5XiHRhE!PRe_yDA}n;NoP&`$~7367rDP#HO57Xr5BkBRo=3@=8U`tCeUzN=bw;
z)m9#XFOIy%qPEI3JIb_@YHPddqn?4}V_=Ed@t>%jU~xOS6(a<^DAUUDl_GC~AM6<0
z)doB489OO=s7x8`0<ZDin8X`Iniz_dc%?{_Ly;0MjWh+3685y6Do66kdNMuxC+3r;
zVSL5p+$?gIRzl@wwI0US>mK{u6k*)mWP-b<9n$qsaf|muO|YOQs#d>9{fZExfYycj
zLz(MjpRVqM5Lka7J@vmXXM&2C@f>d{Fh!XKOAl&SKDxSbg=M%?%y{+So?Fdqa$d<4
zidKO;)qn}ZtA~@PtAfAbcw!3Bu;G3b#146UZlMbbG4?4Q&Gg->n1S`Gg@19J9CYM>
zVhk)|97PI5?~Gy+*BC$wT%APuG%KcId73qXVzLs{00qcJ1DJcmjtq2Yv9hav71<^`
zk?qJD*(Pfwt!{mn)M2c;ORlHe%yNYpxIzzHy<&<D-LF@QF84DfhcjO<f#s8xrCw2V
zzvg*@`M%>;jif~R%s0#Inp6?=<I$3x{<m34=d5g6^@8a+7YxHlU(-QKhmbxH2{`>}
zikJzeISXG`1MyHEeNZ{*?-}?#RJ$-*_)?hO*8J!JjO*OBOzz(>r1>obgd2n1o0{H>
z%gO>6{@Pb0XJiY-SwzPQLryRB23zdE2V#eGW@t3^L#jh?`l5?dM<Zv>exKX>u&rKb
zu7MbB9&D52WsH~r>u^@7K{`&=;x(Izd2l(0ZhaOmEcQZ3ToA8II>eKp=Z8SExzTg~
zf70Fg54!Zz8)1xBD{{yB7skl$zb0qI8<-y^((fqtcuW6BfnT7^Meq{%s>*_hIn<Cw
zqwF{>Vj4|-c1*q^J9_tCLg3qw9t)=|mvd$XaL;_hELsBj5^6!+bE;*5w_jlQ1>Oxw
zUI`H@ejsEk!&spJ?`omYduQ<dkSq@4*DJ1F<LrjOZeub0ryx2CrSy56(DP47`iP`|
zSI72NzPYnQfzFZSW3teoZ4l-$S?DUgKRwF_#xcn@tmdsB@3%?z;A-n`YvnN2x_xwM
z1q^-PY)2cX>DH}h1g3`4!RZ(OV10k9i)!Z`iMZHUZj;4k>X<C{_bv8f7|X{b*PLwz
zKhL#E?%>`bZTW{cTboChZ-b%lo9k#vh!H#^Ff}f9a5{LmrT+SU7uC)j8GpMyf3clh
J{yHW*`8TffrM3V7

literal 0
HcmV?d00001

diff --git a/__pycache__/_custom_ops.cpython-312.pyc b/__pycache__/_custom_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..043eeac2d3c95f13e10f359e230949c14c8b5d19
GIT binary patch
literal 148594
zcmeEv31Cy#m9`{HvTS)@*cY*5z;+A-j9C)16SlA?5GrIp8Ei|k{Uif+?bJ!r7AI{n
z-7wwaw4K%r>EO(C8fT`R&}pY3(@rB{QoFBdo3`on&#Y-7)7k#N|99?v@99Z?SH^@S
zGygvVUp>9MpL^~(=bn4+x!=pq&a~hYus>1%f1b8len~&H&kFV7#sdu&%Xy1rk*onr
z(0bS!v>mnu(+;Nv?T76_$6-g%dDv;Ccv~R-a60>T1v6@GR!cDRu$#rC1+s$KhqKwU
zJ&+U3J)Fy)9f7=H{^5KzcR{d_<tjQ{%-%Qy6M_>DPf}wi2d5mK!k*IuQ-jkEPgCDd
zKRn$(tznJU?D+TLnKp|*x8dIS8|~?m`e3#At+HKmJ!UyPE0mr=eaHyR4$e9}3uU|g
z=?(X3IpW_^mf(H1WUF&ZIgi;7&%e#QxyZZVHuL5o@4^gAk4*}XyM%myiBy0;>OrPd
z_?YAHqH&kOdtZcBEWXXW#mKwlHuFwE-qH+<_76~q2uqqM7{5t^_mc(hr})dHsesxv
zLHu;V`x(eL6Mr5-ysbUmVv%O~%ca?Z6mtac=c3ek_?wTv1^8QtKN^>XQVGWNE)6;i
zOT_S5Bq)8c;QbQ8`~UyoTqczQ&J~i)Kczv6Qw;4%wn=3nt5jZR6XNFoE3m&yfD;_I
z-@X}8k+R;Um{T+#7D>x6PRoR&Ai~_`g3@n?3Q#+8q`N`4mb3ZTDy<NdzEbeMQt*D2
z;C+?g{c6E`K32S)YXGmiSvyZkYX#}o3Etl$cz>_peKn}odi-s`-$wrmDcdiAfO-D$
zysfiO#^kIkkT#)zmG4mhHk-Fl+9G)W&ckDZv=#7JC2bS5NHjn06Qt*uv>oHQLy%%8
zjWe4OyD%fFZlmTj^O9+NrLk(>jh5YSo}aa<K-z;=t$qhvwO7y@4NiH|KD20!kb><O
z<Ub&Ie^8hH4x!w&Y$lwNM5R0+C?!?t5Bk&mC2TZkoU^3Ez_4}F5kW~03Em$Synm12
zy;t!5nBctzhdjv#INT%E2-4L8V<i0f@mGhx<AC1@LE3u3`&4tGL6C=FH%V$l+wPSD
zf;2(F`;g#$li)qol_@o&uIhKFt`^j_{vE1IMqL|7BF0+bv=Gx%VRRU9JEO^V@oy<2
zfG4MdqPe4T+wt+bIve9(IZ`WT(<bSppypG8_ooH#+knyS_<Jw@vdz;#cIf~FH#7LP
z3E?;17Im7}COw>@C0Ww@(EBZ{CGGEWOS;gKt<occUOXyz|9-*y#{};`Ab9^laM2Ip
z?@S746-eC}w{6gj5Vu|w$6M{G;ZxdE{9Ahbl8yh8k0R$R>4{5L{`<dpUqAeqUDNd(
z-XWyW9}&Ql!4Xu@C4Cey+d1yOo)whaBY1yK@cv`|eCgvD(@)^<lPSiwNct4oxoezb
zdtMvco;3MmY;=2Xdvxz?kJB4IAICxM2~aS9|4G4n5d|xfE*P-me%A9(YdzO=CEyP4
z6^{F71mneNxoEb3Hf1gmZhS6fuFt28eKKWiU&>e!PCf-Z{5W#ni4pn&Xx10;_a*%O
z0scfIHedSkV-9^j?_neM6>Y@sAonxx)z}=d-+)hhS?ez9trN-8A`U6ygd$$vCKwA5
zEVHCPG_-afYwabiwHo&GZ_I%X;T(8cfIVLY&H5w6nMp`|eq0vh<go)OW1j)`@pONj
zGTon~jQtw)LA(?ZlqN`jYQVVt3`$?upd^WA__L_htltEaK|x&Vc4SJ=8Aj^>Ysa5y
z?a-xIk=!8~Bhd&DbVYC#K{WMP|M{4ZE|9)qfb>Du!*6OmltfrB8aKQ27Y2A8Vx>K=
zmv%*f72?vqWhm_dlr|pO=`S_@Du0x<<J)>WMC0`xLHk6!;jaYgIZk~Sv1U~IVZr+s
z1n;j3-oGe#|JR`8-%CNwCrRHoK=r|KLiKMnsP<T8PHTUl!IiB9TBVoJF0=i+D6l&w
zXtM}b*O1<9MyH;&S<;XJrw_Byzpk}X*uIxjwEKsGc8f4KQyMnF_y}vk$UEGE9~oNk
z5Nm;=w?Nca(b)Z10Gn3??|&kAPdFfg<xd4L{+Zyt2=+zNtA?J_x@kOA<L4TF%Y4*+
zaoaHar2qy$1q@QbVZ8m#lU_6Q_dU|DP=2<5MV(#xTdYdF!u<^q6%<kFUkm#4zXb1J
z7rg&F^Y_qf{5{%xOepb)+Vv0S<w^f2c%LtL|4(>tMr%ZPmLvT$+UqmG`wjfAG5r1w
ze%Go}Lg%>q^;<zZZwTIt+J94!p3~4bX>ZOvMO~isFVL$<W6C+Ak-1Yn_?>zCq<<B>
z=RHf^Z&9BMq<=%7{f1HecZ_14;rD;w_i^E9j&s*c)g;=b|3s-LR1PYdng3hR-~S_c
zf2ZJodyveNeh*02t9=qtLjg7Du}T*6ULnRRjIjx01p8Dd%?^6`U4I##94vI2m%&#o
zbwx;*j(#<y?iW(sPW#8#mK@aLLR%W~onhW;#AKSs)Y%c|2G#|nJ39th=JlbrYzE&P
zBfRVK@Sg0ig80r8<`mFu<S7v5DKw9fMAEzf3X*`2q3$B{8W2+~jF}*endo1EoRh%0
zC*gZCU=qUjy9yK3KgGPgBB-RmrK#p6)fJ$YY3OZ}a9!VLo|EZhp_@hi=}hJ^U3b)F
zA$|tRZyui{h+H#uS&(Td@y4S|gCZS-xUJ@^!B3!XCac6-=+i8N)Yl?}9qFydhEXQ!
zn++Jr<A%{39Y!0GcNWT-J0^@o8spo81+{&i0Ty8)EW~4TD=;EFnhzL7-p2A5p!`;@
z{bT&)e{|qxnuO$inOoLlV+0q1U!F8T_+ja`wT39I1hdy{&A=p3#4j2no@_gX`Nz=X
zX8TY1%h^6O@z5pc*J-U^{QLiB{V^ayHlc08xq929E?g}U9V)~8Z71k6>jse=|KCC{
zjNX(3g6|!_4j4J_0vtM|E5L5E`72s`kwjX7oSoz5LQ8cnbhpZdmg!tbGzubaAZncx
zty^y3GY<>bfVWdJS){&CWJQ6RR|sLb(mclet-9W%zN|!zUHBHS97J^rBxRH(SUVx6
zl1XT{(^lfUtI*a*;?xbZO9(5R4KT+#jV4#2C0s)g86)LtXwgM5;3eGNYM<6^WZC<u
zN-4U8d#HlGAphD_ZI@^dV4Q6;FRw0*aTua)>(Ju&3vvEV@12w}+oKmSR#)-&BL2qQ
z*FYQZ0iHajbH7JK^C>lsq}D5;mV56MbXA=~9LCjv@dt!E6nqDTX)B~_7%#EpAfjP3
zm(~MD9~9Oh+8N*)Yq4D#VaNuQ{Gqp{<c%o#j3jE?JF{z1CXwd;XZRCAmvlp$(9-U4
zw^XDZyW@KWXyInG@Nu>S0euY90&T&YCp78`+WII`Z8fI{h}kBLxlb6gT^O@N7_-wn
zhR+$aW7in*yT^#XAG7$bG1BZABYy7~@%zl<(fa+sqZv$halkx{-p_+$#2-o(UpE(Z
zJpiimVIk!fNNLFTU<zD!A^tG%<|C>eR3v4IOFx3rZwlHjnqfp`9zt(EdV94>qCJvv
zYRb`y+i5+m(~hF`XN7!8AZ@T&`W`^LM-os9luWu~V3Z`-t3?WdRX$>liN*m|m?W)`
zRsK1A*YG;<B-ZlQ3d$1f72iVb5^Dcgik|z;YedN^Oz?!$0tk<@@Wh>k63VR?wxGd0
zhMjMjf}C`w;N#=P2kDMVTWCc<&`K`l-bsuCM?-x<7KT{ZgwaT4IXwgE=`_SAQnXV%
zD_YEZhO%Vy7&bCQXTqrSlZ?*1AHM`^1;n(nUYukhRylZcifQss<7|q6z99{4{n_3}
zJLtiu#y$RgTtry#c38Tmwsm?tEL{ayCyD9Ed(B4_&=%k~Vmg3*949;3s67m+;CA(k
zw14wHV9j~4{sJkwG+hNOsJ@#jWy4*X?RESc`5!Ul|FWv>cyugn2lBmN2ps{%Mjip&
zM6_76w}z4)Gp}6|VU9?La!ybVA2ZXvlyO_GL!XQmgLfe0Ga6We=MS*=blO8CpDaSE
z4;ges7u4}NqmR#iLHh-qU)5BIX1ZuE^M7XR*jDXJF;+N}quaHAS`x2c9v6(-B*A-u
z?+VoTgdoT5_?@7Wg0y>z(>8}c^WV1hA3^IsJO0+A-yapga{Qxm*1V+D<Hh)Q4_f~@
zq!Z93#C*)WY-zdq`_y#`HCKcSImr8QwCD5q{seZ1O!c6o&qMqt$B6%wd2S{h(c14k
z>Uk31y>Fo$(n4QAIeqy4w0V7q`HV1TtTuiYWk1CvxW|NgToFBnZwb`>IkJueWJw<U
zJS4R*@O3AC3HVmZ_6m3!@;oK%;};;G5N(($Oz}nY7?pEqG~!EW{TJVj)}wc0w~#RR
z575Fd;oBkT&$#Cc%KEYjJ%R%1KEDEt_=7uHhdv*02I=sZQSwFe){E;z%pVH#ToT4S
zZ5|_(OsMx?MH|1uaNwl4r77r=xSf9_Xw5Y9_o)3clc)w#$Wo*&c?LMq&szKeaf=c2
z$HIC9=Vp-SYix%9Db`^$yT6W_F5>%H)~-R|4QWS-LOlnl{UN@!ceG3SXLxrB-+w*^
z_4|gfUEgH&`~~YjZ^82@^J$cMg~fc!Jg3O>1oHhQ%lB<+xr*)IL5W}GC9-$a^1s5n
zKVp5e;n#QZ>oQM)ka|-_{DGyWzQ2I@0UnP$E46s-TeDt8imOQZ3{Q#hMWj&6Qu)na
zC%)0=&G(S+kCEg14B{*OW#;`h)buyV@h8af15rxEy@WJh!#C|(5HzUgF}(XzXt!JO
z%%OjcL2L+VwB5Y2I^u2DfeT;9H%3Cw{W5Yt%P{eSJO<(T$LNQw#$g(Db&N((*PvFH
zphwjDAEEx|^qL92LhjDWrqNT7=g;)9{xN?2Io^ub&p$zbCF=8Sc|#z`{S<Y4L)+EF
zZ!tCenR)w>N6aO~Eq|54_2<Gee<6(dCA2hr^l!uGk&2bH@ADeQ@tY}T=dXk<_*-F&
z;KT)L6P>x3E-dSH^B9rb3VDO%pTA?+V2WvV6A(`)HvWRV>f!kxkQV#3dM-}Y{t+pj
z$10fCR=4Q&044mBrsI&wV**(f{<F4%#`7EIeL>7`%wt4)I6m^o_uCYFh`7TI!#eTG
zxO;O`@69u6Z{9TY=3mU)j9Pyuj1ioCK%Q}GY>?yMm{#N8S@<6;{7>_Gb!dssA@F%L
zL!<n9deQj=mL4tm{TTJ78l4%S=oZ81d~2MeW0S1<=+v;$u}L<==!_fJ(4I6we{Kri
zbGZEzVoi4R0iRU;&p~~5L;wHMX4yj4XO71xbZUJ&{B87Y#kgUUuI1Mta`-zamHf8;
z72}0%l3@1|sWKSt_%>uHo0JLa_+5Ov{ofYt9HpM4;7R6G$c0j~Kx1AQvps?mkUvKN
zd7G4r`Cx+$K80F;2;%wZ&((Lr&IIy^O)5ZbFXB5D^aT1t<Px2O;Iq#rI>n&QUYqDF
z1CPJWQOiTS$am~t<9i}_h7IQ)%5c_zd-W1<F`><iXcr$G9VJg@<xlaK<9TWdIzI{V
zbPnNr<JU!@^`_W~x=r6>P7CyaXaicxBsjve>1faQ0U^^;##^gU2O@%>XdKAzCP_;k
zLAx}}ngKbo467*SEem}XNp?0!5GClXpghFPN>vks7V!Z(!SFX?8rNfO_-uS9MSDWN
z_!)-XDhG(4VR%GP^A+>=C~clFX1;lhlyCkX>r$Jvz(Cty8n+F{9c+z|0%xI>3jz7)
zZ9u+6<1exX`9&J1c{lsYAivlE`PjSJnv{@V0?1#(2$X^+58cKHl<6a|LB;*@w=e<%
zN`m%P2ymSE+foChuir)=mW}Ge@^`!su;12ql3qrii1V!cEOu+n`z?v-N2T9}ysNk#
z<~CR2HmT|{=iwjT1}s<Wu+(Pcnzsd(YXxxmocVh;Bi9*VJUm{=LYHsOMQ>NzVPn?D
zBN(fbBAFIE534KT{3XfwUdVPo5|5LaS3u;d)<<ax^3KAW_4+7fnfLP++5-Ds9fuVr
zPm`|f9o*?aZGyc5Xzy*(M!@RFW46mCZ4yAhCT(W=3Gt4SNJ1H7hbBe4Nz&bdcE5t}
zt)S6A!S^;{`$$V-a$*K~L>9C*p>Jo=eu+)mDX2v#m8RN(V$xR;T1XzGf2!*KP6HyM
zzF38Qv5NYF(s#p;u_<hre%S^;(y8LdtrrnlQHr#u(of7=hnDXF1t1F}o3z*O@R$3Y
zsyu9y_ObQJeij};`(bfHy<wF9W~%-$n9oIt2Z32XQ&;?l*oyxFjWQg574aX!--C}?
z5C5FanlmCgB|Lv3&@!{L8L2#n&}=17)4$NH%JsE!x2O%saYP8ihlDXlg)#3D#(0G>
z$JjXeSO{BJSXbDjTJ+<Wqx$jqf2V$sHW!{NY?6e&yoT>5@aG3!{7R*!HrU6S&Mu@o
zE{r)LjHwsKGzeoF&0`ql51`$D%i8)uwCK*ZHE3S1uKx&`$D<wMzBCE*Gz(({{ny*k
z0?!aMhB9FBYkx6Tvr%mg8~;B1zuIhbEdDujEpjHirzsQnD$S*Pl^(S8EdTK3Q<l?d
z4_Z!H7k(Iyg<q$9B~B%K|AY5$@^09=X~XtyyS6ClJL)5T*%we;yPG5RO(8tlchrX?
zihW~!ZA3|{4z=wnu`2HRP<_N3XgYq}FXLxkZL2K%LlJLtz!#}&l7o1cxv$n2@X7nz
zn*I2d<&{v1Twl`~@k{vatZfR_)gP}_T^h4akh|kF{N2bw@F84(b;eQ$hcA!0_E}17
zyAqO8wn9qkLhwoJc}ur-pXH);*F~gM>>*#!uh{BBVJgwn_3taoBf;kK=KAK+h)+K5
zkCdKnUAd~VaizaJP+wEt+!i^}6e>R%2n5T$wXNYuQ_$Pg94>2aQ(S8TzF>{yTh~5Q
z_8&(F{Ia*s*XS=>6KF#3!t3zB6HG!)VF!YL?Xp~0e*+H|IUhlZRi<`^slmtOB7{nI
zLQ(QWyraKx1_I>%aqf($Ylb`lzmS<?0Iux%U~|Chs{sgoGz?9x5yg61amxNks~oDO
zerg{(9vBqKg7my4qC>dBm`Y9EVePPJOv7qvv&eaf00`3n03|D2A87UZLXtPw8n|ea
zi8skp5OBD9Sa;+Z^p*k-{%#Z?=(4<GPan1y#q32rdwSDewohZdx#O*rr=v0@>$pGO
zN_i$;B{Xj~UdR;8r3ViM1lqT$G5M@95nt$p2Di~IVhy2SA^yS!fK86sC-=_k-S@J6
z7Hgy8@CBMr_!LK=K3E^AwIjLqapHju@^U=f${=^xI?^twB^U;pgD^jQs{VMOwaHhn
zwYtO}A8mOa>X7Fn2vY$beE7&y`(+9iQyf9H%kmnHyw;JvdHuyN+sj7-oMtU+{-b!n
zHFwqyYda>7WE%@xr8J&Svhy4~Y)2{dURwrfzdM254Kyi}J{?vqrPb150d;Zg`ZZ7T
z>OJbi8}}UViVZE>bmsMYe*HV^*5EH*`|>>{X^JD#B-fr$>@>oPqqeEJ%{yv<l?;Xi
zbv{g1nuGKg-i)BjGU9Td@pY&7Ec<NnlT$8C>8tL~ip^a<m^OIgYW{P9t9xSWcEu`p
z#pdoFntXq(@cx)<PgnJbJ^e%59@%!r_t=gRcTU%RqoL_W*$kS0i-%i>W<-Zf1EEvW
zM@oyR=wh)n(0C<%+EJ?p#SR!u8%8cODJgy;g+rq=G*a3KX(edC*@$JE<=0ZGBj(&C
z(~h!CsCQgVf3LhG{>yc5NxEE0Ny-o?_Mk6<aSOM|5yjSAucS3Mos!EbI+<c9E;f82
z|0#I|;^{AZ1i`4$`_jg*Y<p^3f9=;cKD*_aEf<4BbJtw4UfKHn)|c8|Y>Pg4IQo!x
zX!o($#$&O2kHzNth9=j<3TtAn+FKb?8W1+5C-HC|NZO#2alBAJiD=wF>61RGhZuvx
zrkw^_?OO%0ZP%||Pft56t^SXDKn@62fMRRF%b=>HhwG0Ao9d;}@XKWIYiX^oZIo9d
z7u^yWrg7@BylTK@JZ^nt>xU1VJ=%S=x1zW8!m6R{dDrdp<4CSJT3Y>bo08G!Z}Zmr
zYESqT_eo!%)vx}@3bh8kjVHY){5~nHIKtq_ekH30thvz}@zn(UVZ{~pw|E2oP*}<2
z@5A-&C?)7S?NwuxEFXk`dT%(;)Qk){D34X;l_HQ_l=Ma~FE{<9_7G|I%DzyeGKrNK
zZuZGxKSUwa?&WWkiN=_demUYL(MR$t6O0k;*~=O<-T0omgXYvr^`Ya)=x?qi2}1i6
z<AGrYO&L&r?Y+f}y*KDnSWjkYz)gqApAJk=;t(D74o8QxBfZ1bk<pRa;qJ)l$nMDL
z$nD7M$nPk)q_!i@KkR&lF+ObbZcqxEeaHQh*B6OE7=-lbJy}sw$T<mNfxMQ2brjq~
z!MzkzQ?Q<b4HRsoU=syIGUY84Y^7iu1*9L5w^Oi#f}IG$)GA_1NgvLm?x$oFP`TlK
z2)Zmc7g-#cL{mSs<B=W1_Bk>891!LaSN4c2f5cTd;woa#2=hi<1=^blBd%QSzh}fX
zbHp`c#5M2D1w{@g=ho@|)6L#+Yf#A~^nz?$9|<ezkUYJR)@q48Y9A67*%)@=;hi1B
zj>3+jj^aydYfMK{-i=n74CT_234AE`AYR@}0l`y#`$m>pnKY{EPd>N@sCo*T@E3jv
z0S5Oj^TEZ~VJH#a)+m=w)J8e2uDMc4tE*U{<TC1n8S29X$NX2a5k+II5{isqUC`$x
zDpE^wzxJU{vBB@a!#h3rm(-S+4!n}?m78jVn8&$E^SGqwc1QjJbaIS|{U9Ydj37*n
zGaGL<+DcJUqgZ3*_aM(xl$mP6@Gnt^f7o6evlkEB=f&*v*z8V?029q-dNByXn<d5C
z(7QC=P-~QzbXoQo8t`_E=Owi^^D%RJH+XBCTa|)fz~`0xwM~*AJdv@m5~qRmdeOQh
zf*YoSIlMW9CyXwG%9d-9?j`(%OAr9Yc{+?~jW=vx5VJ2J(e^;k)?R<#Lj#p>rr9*0
zIWZxcv0BY;mi=}0r)hrB&rJ1aAnaGN!>x73DD@{rW%A@+JijAAcW8VtCD1vA%n$mZ
zOdw_#A|ep+hXHU25R&~A)KNg9seFQhdIZS;mm4XDf}c?A0t5!=a_%%cW}iLc%IV4M
z-PvC?(0Qf70Nacfl47`c1KiY}^GM{VCwZhkB>7K6s>u!qeBl%N&nzfkBL34LR3r_l
z5)(apcP9MW1vQPYHS7!28W#YhonZv*jExY!Bh5@Ug=L*8v39xyDRfJ_&J00{G`)<>
z4x4E$@f2>7T}UQ^&I}6>Jfn4;SrKX}`<Tf>OwP%IbZwl_YI?ji_F8@WwEdF0Z0gLu
zrLr@}S-RSi&YW8+{q|a(drM`zZ?olj5kQ`Q8cddg4Ov=j{JSAH{;WOel4p`^dP&WX
zRf;N`*4d%^bL@iuQm8cv>t3g)i#El<Wq7CLKUrVvFL7c02PEg~7Y81i!g3o@%7ivd
z6T&C<3``Fuwd?aJVfvKh%K^#|q##5Ai63$^1uYcF6oe6A(cz2Kp5W6ggH|hisge;2
zwL`+klvJ|lQL9IBQ5w1FR9JEI)j@4jYbc`4$)>uxuphr_n*y!DkXMaUf3c|^CY9qT
z4$6h4PHGhee}}*DCcvr7@<x%RVCHcCoLK&xzUra;`Ca#o<V_#Wn;pxW-B&S`H?M2k
zsNaQih6@+Q3K#b04;3!%+A)$ht+ykVx47RI%PSw)5zD=|YwK$T6VER`w-_9?XIt;-
z{<h2SyZF8<ZNpm*#kL%}nPw|=c5T1uv=mJ~zxv#2#&#ifL(<M4$(eYzsk><;chYd~
z%vkQso7w3_&aNF`H+ovr0$C!H0*gci79@y><uQA?Cgelr$A7d3vf`u>7X$$Q24T+4
z$=MF)8`CUV6MM7z0s}ju?t7#5d%5gCK^sD%vB0&kIy!|q=EPst8Ye{_27?h((#hWf
zG0hZ^$~ZA~3sS^MW!9L)G@BNI24b4di0N1)i584G<0KjyF&&E}@v_HDsx@MoHwM9b
zD=p8zrLwcf2^X#91$T&;s!MpYh5jXC==gx3s;P*e%B^@+;*#HsFO_2YgUyjPQ;NAT
zHO2HYNr`A5v;k(c^Fvh08466OsQfTRypMt|3Lc^0Q3~Eq!DAGBfPxPqNUaTcf|5}%
z8{{v%ozuW6|3d@qt77(5Vj2iV$J7K$I6W7X&|^voGn$*i^`!d=D{0W%DH&XyMS^B_
zZBrP$5S)wY^3v<W-jKiPw7FnkiBZC83PZ#{X6h{?HjftAZG3a1m^SvnRIyBN^ZJ7|
zeu)%o5Y<17g1PeIBlPr93eHl{gCJQ{SMriekUx%O#|V!|gUsc2*RXwh%s#!hzQ1@N
zZQ#L?+2sQh-%PVQs#FaT%D_HoP$^D;gqJh+aDtRgOoA~6Qm>2$5Jb8!sgi4a$*2Nj
zIs*oiN}#7p?h>YZN}$M}KwIQbA_!9jnxMfKkCQ~D%DqV2NPwD$2LLM5;sBs%Vcu6i
zP>kJ=2S*mI9GrM%!N{U}-gMX;)m9F!oN!QvQWoo)T0*GWbY#~)v{}l)Q-z1|f#;H1
z&M4qaWWX`Om2@#!E}(jjFjT4v5e|@o(Iv^BMIzb@4$sB|KmkbvpqLr6&+N<Szk6WL
zKpWxAj4KRl?o;95s1MPS*?G!efBZy5N%uEnV;1nRqYUjs{DQ$_IUdG@2Uqr5gd2h`
zIf%JQ`}pcU;O9`P{CNtVM3A%(_!PaTpo@A&N*uNiNbA?0;$CN8dVk@|_EJ8kF4-Th
zms(*~kfS|$*)C_TDhVLB#X_)Ty;+ZkF?(ZCRo7N+X@(omES-){Cn>Y*Y~W=iWtFH?
zAYZRn?_|2n`u7E-ig!}}BK?#QD7ktTu8s(g9_zZ+Fe$zzOez(0@>h`c0|XJ;g~C`n
zEi-2i&sY|lv20+|;EF3NukMOIBn{2*$Lv$PHlNu&;?D26C+eOZwa->TrRqLf6qowc
zsH8Jg@V00Vjf#t71zu@Sjc;M1#P<NO>Jm;Ax7J5*OCxsK`Uy}MDfmMQE>Z9_1z)9r
zAxtvB<jWLA!4m`_4<6Ln@S)w0?1rAUXJYTdzODVo2Tos^L=<$pIv3Jf8c!;2eJO=*
z8-6qzf1FfYjP($`O~aH?TrFO82Duuwr!0+IdF!QctsBkIKG}F+DA<4pprH2tZP;hI
zq}CfJNQQkCRU6OotEG|6N)T=s)wtyWG)jJkf<LC<Pbl~r1%FDx*C}|G0-dYLgZLSy
z>NMJoZ@xVIGfGH7FAWIo+hIVaBrKHljS_5;@c&q~Vc!HH{$s5K6>HI(6SH*HpSlO)
zZkC%MI(mb?Fh)qlW%i>;_BZ<@OkD6b`(bPpsrQG?>Do`xBJuj@X?^`;whapV0#iGH
zxROfSo9;}D5UR3|nfiy+gY8JsktU^GBJ{wg(>_KXi)3%y2*nh(*J#(g!>;FaK!S0!
z7oZH--oOe$K8f-!T9q^)E!)~=I*k&ClF=FpW4pl*DGD|}&3<3RD43r*;g|i8X#O0z
z<!?~%O$z=3fs&!a6<fB@2}1T6CEIv>&CLN=GMEg8ml-_BFQBNe5n_<O1A2oj%e1?O
zr>=@kT{Y;7PF*!L_1@vBTVhkUjJPt+tT?;6dv#CC6YFlI*`_(8_DMHgmi!6l-RIoB
z+xr*CrrjM~x&7+Cp}aj^+g{5lJloja*gL<k;=-c7+Wu`%H4U^4<y3cV8L?-cISvK>
zBbym9G{=dD(3m?tHAnNrQIm0M3UFPtn~g#u!&GLbD4@1g^2y&r$G$`0p3A^}Gb>>p
zE{WNfkV@FydnCGOU0fe*4kQl;5=!GAO=vcB)LLTmokD_YLIY164LmyTcp^<6KAS!D
zp;B1+)%wdaGl_^)%g4i2?1_HyG*zDcC;VD^Yz2p#WKUC_Cw#)!?DrfY;tf@Gc!}pE
zHqC38cI;@GUW9>IRC%gBHBC(czc1ubi(%>&Uj$g}Id!7G_5>Q%hzbaU{XQ9u^F&ZJ
zFC$*2f#%$HnY@g6nQ<`1Nf+;UJjMV(z5fg2{V(CA!Jv{&F!`@BLP@AHMT{!)-yr!*
zgeA142x>je;+Qv*RnW7&Z)&t`J>f+rmn7URtv(oMa&4%K*)w=sYZBI7x;(uC1>S<h
zmG-oLbiUJRSf$xHk{LtLUY(}K-(ON65vwj%;&G(JCu2j>I!S4DHl(5DP}0Z1lCzSc
z@Dqx9jXtLvQmVQRWBLY?4wF6&g-I{)6ALR+MW;jB#8yLGIHCm?NtvME7p+V^^7`-b
z;k4YwmCK}NF3IG2luV{a@doM}{qo~@uQ-4a{s0VEXnwHtN_t(O$ro9+)S#92=t7s&
z1_RgnTA-Z_@(lF%vhl_0Em2IDe}K~EmndMOtwfbM+3<%)FW}@6N=U&k2&YKt0-VaT
z<P;8PPmg6!@AdbuzMj3ZYx67F1!s?R9~sHWIXks`>J!s@=RLXj!s5P~3+1tllKzUQ
zt8~EsY~Y!|_vgJ-`eG>*zB$gW&ENq>n~RE=y@E)XqvvGr$-YwquEB*!2&ID40t8-h
zW?j@ind5GH3m4ktA5rr<5MVc}IRNY9MlYEvL(LF5ahig*1cWA}V)7fUTE=1$a-L+B
zYyn#^t<!0>*tDUxX(+VM648;=3>9yAPs6a6p(!kYIB9(E0(QQ|zEdsO#bx73`*AQE
ziZq32=fWR48CD7p?%1)@dtl!t@BY2p_V3>1tv<9zSxU>+vLH5o177U*)wY6Vmj!%n
zfK8cN5C~>dsEo?y1<F4oVA8t8fM7X^bwjXMD1i=l`N#D06$*Yr0hKXoB_#inqA2(s
zVbK;mFf4Lq4X4k%mOk@Mn=K>rH!e%wyuL&Ibp!sP+%-|xnpfO;XIFKvI=iNO&9HlZ
z%sn3{;T&`fc3!QG?mIZ-J`}Yd;^^RPVf!{p=5e{H73MYoQo^w7bgU9J-vS+DD`5#z
z7-T_}N?|j}wo9??+NG@+(@(Y5FZWfffP}>+SR5>`p%TU2?1RBs9qh83WcgQkGfKX4
z5oC}1gF*T45$yt13s1)bR>|%hCM>n~9`8HZe{vu)c=&43kb76uzKe@JM#8CgjV7}Z
zqvdjglGu*Oq>tI|Cay3Y_0c2)5VQnv7_12OSrE@G$|e6AX&}1haD3gpcf(fi?)&$}
zu?}n4({*HNFTYMH)kSzBaOJ;46a%Vauc`NiN8y_?QMK4V-W+Mc3PXl~%R&7Ha^?`I
zx8kA8@~iaXS8|Kawsp4+=Xzqfp5feuvD}5w)1?nixH92t(be|o5${m$v8e0VYq<qy
z-`oA(-n;u2^sg9LF}VE7l&kxPa`#4EdpQzXec0La>dVRO8ZWC|MNRD|C$vgBVzIhB
zt+=5gzyuB8#DGu9rXMGldg-u)4+i};Fz_}4S0C)XXg$_FPT3vjvhj7xqt-EY9}ENs
zYC#>tah{@mE^9QQrN<L$ig?1U&CN}6#FNl6*gO~RYKm;b@dJMlMty#1lPm+z34dYe
zOhBg+F1qC3;EnuS3T{wvlY%!X_!kO(N5Q`$Fkw9ZL2(pJq~ThIhb{|9gsb?KoLSM?
zTZeMCMP1uo!Bkn>y|y>M_rCt@fzFZHCH<=h({7|$v(~<0u{zeWkzu8@XL~nPRq0Jj
z0IRMh`!s49n>?5qkH>-EVKt4{m!eE?Q8#i>o&GTwd7jo6l;8-M|A2*s$q@2sJY96~
zi9-SdU;2?q!G(+e#M5Z7D!CjhX?WP775Vo_H-|u6g$GdO36{KKLiCaBoU;eJ5B5|)
z@nCP}lergi`>jKh7Dclb4^%w6@|l%aDqg7kRwdYTUgjGXP;ZS8ll&2^RfQ~+Xt9tA
zkMZ24co-YHw3ya7Y+U!Dsp*(9mW^Wg1nh$X{*pAV(y)NBa8#nYu;}3G)+}RMISq-H
zQD2LY#&|4YVc+Kd4KLg8QhQN@y{U*#abX!k=EGqn<5ZK}2&3LwKfMIQBr9MiGmZ(W
z-y!w85%;^tKUmrG&eL!i$+Owcg_$vmnUt&(S4f;@ax%%D9j;4iJ2XwFiYqinx%#M(
z!A7NyOP8}LtJvzLiy4M#YbUrmD1Z!Pk<%$~QIJ6aPL%N@O0>*lAFembqDTr>5wusL
zN`_fk`EiE6IOc{iK*pIW2z#gdCl73WcKb8iL31ZW_Z)(bAj=7~QgueGr1pvW1Ws&n
z0=#u(dk=><n!rD1@a8f)CZ1hO75~OtlSzv8jf&b#9*~ES0gHPkGqFk7ju(70G{+n?
z%49wP6Z^oYVga&jCxFdGDFE0cbt?95?%N!lx_F@a*{#oPy;A+cmTzsjp1ULJ+QHDZ
zy(k$lG`SUPt>Ucl5_`m9s6bN<48IsM6YJs9l7n*~JIz>_mZ)eAuB2pO6Ar>lYXAy)
zBK$s_e#6oNifkp9e%CcGTMEUH)Qb7wM%wmfFI$?_LTROc#y1qODrc1OwuVB^1LWj<
z1SJI=cMItS<2yz4#1Occo+eN*k%CDSFr=PLPl-q^PoZ~HDVRpVbOh{FmWJo?Z%$|?
zBn)euyv{_%2MuGo=+?%xfW|aY^iGgyb>Nap9g=|QQII%O!mfvT3Y{%=rgx<Cb5xzK
zF{B4)hYLexHJcxJYm`@1T!^o_<0e^*iM>vVHBR<kdXCQ|os*Shq+W6;cG^5voGsAB
z;M>8z*tto4jQ9{0c@qK3C*1-JP%{nCX4DTQW`QMd;@OVwj^64g-gm}6l0WJEv~$yX
zeIK8B#yOHVp*R0r<{1acj3f(g?3>rScEI^;)-zdG4!&^oTSu?w?u)wi@oAZ*4Iv?e
z`9{`vP~|NQo@0yw0UH3|(U0U$+;1Tt+PXAzvWB-QhpmCwSkfnsTwpM>P&pPtq9Ih$
zZ~`J>q4XL`<BP~2;|T_DQ2${V>!8C9k6J0^uz`!usl}-6VH&c%$crJ%vrL+PzWrQ#
z->i>!p2<=NXC!+{?~eWjmzP{zGSG6Ve6TvUXl*oW-H2+2RygVWnsaMzrrYx}f9JBe
zbGql8@jWsBjSPE6J|Dgu8onUeBt-mP(9<*!NTR5W_0!%Pf69R%&ljCsQXn~>{pK__
zOZ!Q(f|6I`tv%rjg|H@91&bV<1z^e=^*8izCqP#N{sen4eYSrA9liyG$s7wEI^AQS
z6l|YvUr@c6AgD4P=}5*6ol%x#af-bJgDRI&P)0#H1$R+ULBUcAmQk=Afno)J3x!F+
zr_XUb@M)eKA2dG0tB~U(gf442x=gb`wB6jjxu@cZZD*__S-EGoc5m(3^ThTuR&8Qe
z_qOz|=%00Y;l+i6vz}k@+=A=5>!Ysq95afIm;sA*w$fj(IQg*-CEth-{G^8+6>A@Q
zX5#P;Jd7<48?=<hQq<Do`c@{7(3$X{KiCAD7QTeMn8qpUb);AF$-uk*cxzK@Sc|rE
z9=VzT%V56-Pf5z=2^u{0u5z$$K+-1(tXykxGY6cFn`riBeq-Kn)t*?@p6l`TaeE<w
z4SFb8xQ4x_misDcR^<eJZ8b3F(6HV}hIFi_J<D6bde@j(pV8rb#Ma>q<)&7RbY>c6
zhlvzO2I6dX7+b53NJpk|$tIKHyu^U~SUxaGsbU4w^0K8G_H5ZQnau!(_em(vCd5V>
zqe==^Ay6`i0x{ja>CUZElmux$W?PZ9pT=w(nhVM~Njw!sJPV_q<>$73W8U*+&y}6Y
zFq;}B*K;>UT^sqdm|`4XHYXTOgRoec;HBYhn*j1Ug3i4Npm8S!CG)SKQiZ7+JQ7>R
z!Ll8Bo+GeKWng(Nw@5`~=hythD|W_K?7W`4E9&CvxAwWlj`~CFa1HrGko`@v1nql$
zD6+gpvDUl`z21S27<)ZW>$Rwvy#KqA?VD!(w|=d7xMFLpV(ax>Qn#>yRtkNA03C3J
zy+kDxplsd9S7#;>N(T6*W?_LxZeY()*cA?{2GN;#f~|BI`e>zK!-4fXs`q(!diQVL
zyJ_Fn-8(ia&J#XbWGFeIWlI}TqYCK+(+r(jbYTo{fm)2k0daI>oE%VBTf~+3Y=J1R
z1b8(zw+GLBIkK0Y2oOw@Det4F{S+La;2;HuD4;nnV0DvWB{ga&_>ew`T;HJ~y^EnV
zEYyum&ulU$^EoB=`0-%Cu<yVrc+yM7dPvD+8w!loaSBDUdxFHP4^AB$oVe1`bXg92
zqdHq^#%C_aCNIxP=>lUleNmzApn>?3_yO(N5d!c-8kG5HP~(}?7A9J7nWEU6)NKxA
zA99Wmkmn!|+tJ{<vtA}YJY9Tw`o-ykEzh5R?)3HCtx?xjPAIt|gJ4Ss=b`8Y?qhLX
zsaPLS(s0frVaHyFoT@-Vjr?N@Ijfl}L$Xdr7J?}lq!~Lim;Mdtd{NztVoNo!GaaDv
z4^eX5_#3Ja2GJTFtV9Eo<OwK1M)#e=^Egufg5bFX#R8rrQm}<q^^;pJZ0W1Ma9@8~
zbm|f)Lf~5gijb|}0%6)2b?xMUWfDe0;l4_9V0NK=&<OKIQ~Z#c-5>`L+e-Ri$M-D&
zRrV8<<{$t>O~9r&nC+|p6*bg>7)8E^WLp0Hy<xuRSn><bJI^_LT0Wi;U$AcKTh_a#
zzvc3&i>F58WiIhG4!$Pnd@7YZm}o$^udYyF3#Vk_G&^}Npyvs+X5)qyUKq^5%@g!P
zeu=!HG<zErCyz4M&XHO5Ezsz(G!ZVGN5KRkdrpHyXNKbDdI<xHv(Ye0YFs|^(ikyf
zks&jzW&_noZvzwrDPRPIFkKE&(1gHD|B$aDJ_9ZvH5p0Yq*1#Y0Acc2LE-rc=O*-8
zKR)@4Q=`(G`wm>#)xRM+^{#I?p3i<R`>OAy6EB{)o_i?jQa3<3sSfgzK}`&#I{s2|
zVPvpB4x2{f4x&zBK6q<`;v8dAI6Ig-o(_kQecsw&u&Hq|-2irC8yv)Oh%;bQcNn$S
z)_^L#j`y8|`xFXD$Kp!^Hx9a`1oxoz`Sj<~uUcPnz3950yC>?}!zG{zWRC^TNCyaU
zZlT#%QxDsNwgiEX)_824x1WL4z|Jt<$saSaZLayhgf7rW)9R11Lz|(Ad`$X=moC^<
z@jX1O`kI$RG(L?Y3__yZPGF^A0)b{43Wu*Q<KFv<n0rNZ<xayEG+d}Kb%z(5B<fQQ
z9p-L=e-+dRT?d?|sI)>m$6&-ceIv65wY?qNA{|a`TQk0gGzwI6G*Gc)m8a^V*;awZ
zmhhl_!60^^CA5*R&`7+NJ1FR+;9&~hhhWqOwEPG~Q81ZcTEbvTcKrqqBg<p<<z($*
z?WyQF(dX(f9h?!j+EcPsM=%6tKsn)Ojl2aVC+LG|CCadEK4KVU#f#*RWNloCX61tK
zB}d^mj}6=Ivph<cu_jo`?XQqq7}uE&yDuUr>|-iyFuN!yEX{=ueY+D{Xr1G}CF2@b
ze78(9uECi$@*W5+)hV=-@2N6T5f(K#s2Su^O<c%fx~llTS+RyTDzac!5u&KOW(-Fj
zrQv@+1@ou|8m{=-o%vrdVG!~MDH#O|2x+KAOu3nreRf6nik>}>ukNjQa>a!eeS1E=
zI%=OEb;B!C*4dTaD|;%st9n|_pE`G{x8+=WS4&s*E19`x7k4l2Y3ZHSQ`fg`!1wHl
zXHHztyr*l!EB1`IlbiW5`~1Fee|3M$K<Sm~(fbcvw;zmqT1p^iG@uN@XjINy+N>~#
z+02|7%I`&s4fI4wO@S)qZlqs<vThKfz=4)Kk5Sds)yZcFIQhsis=m2N<6)$Dd=^0k
zA%7V8t5B=_I2A<3k=*o|W*4)8_IqpOf2P+?t~*O$l9`BL-S0zg%rARtdftjH=7cml
zE~6avgEV}uIUcFNKCY2Gsws49NK=N%#d>u{JIv-thn-^e8EvAi;xih1KPhT}s|Kf(
z#_GvKx@@ie@o%l2omRub&cvpYcBLT{*fIA_tSjTYM4cItLap?MBJC;ut<Pw3OO?@K
zf7%g0+SZYQneFtwfWgWnk>J=U<T&Obx0%dt1s1{{c80>EY9C;b%yO}u(6Hfzm1ixi
ziQ(R_EErt4kj;3n&$GzmD_P=Ef7ak<O-V^vq-mk9lq)&L%3(J69z!k<6h-Q9md)dn
z{qgqrCD_@J6*ENZ=C;ysq%GiQ<<!VcKB*SI0}-j3SZ@n?n7WCKur(tcosY39s35W@
z_0+*%fJ9c%8~y&~eSUwV=ioBWDZdB4N}E{mT7G!{@WVNX<eAMF;B1dxuSdq7M7Ydz
z$nW8am_>D}X7U`KQ}q#;W5fEot|<^`Iz?@wqT<Hkv+L_vJS#Rr7U4b*XfVvTp$*bZ
zx5G{FH{(}r#p}bK8h_-J-yiZ+5Ipq}tAz=YKiu2|8jfnz0#)O0?&DQ00evTPY+uCV
z#|Dqb&#?jUXbK(ION*R9e7q%|uw3h9#<)lD@~Ef0+{4Q>zKo#ZVGs1|IGxxUsXyrt
zw9RG(`cL}^={)ExDnH>nX@GzSJzncMa-?F3XX();3`2}1BW~f+C7$Iaddmnq@j0>#
zZ;u{juL0o@m3*qHHGo@lPB#;t`G6a7KpU!|npkCKMN+Bpf>j^BI01mtn?m^3kc9>n
zC~4@3isxnAq<@izdQ`Er@~CI+T91#v)hpy_YYb_ZR>o7S?^$YY?nEMoV%xuqt02<k
zvqZ%uykyK3Ds;xKH`80TW_y{UbnS#<jl}is+)T|5<z*$TubJwdG3}2~=8saq_%-nY
zUX8AG=bW2(0UH1oa0OBRC^92|0wt|W1O5FP(u0w&vt$*2*70P{g&df&_LqFE_1Vs6
zI%A7AM(rD;?u{ev+%s!>mp@r`q3Sbh`YSH4yts0p;$qdcsdo>~eSXn%i>_u|tJ)K_
z?}@tiz#KXw^K3dihFZHb;WyHiVfc}r-Ba}F!y}LxHgs=zViUHsgrWevvXZmKGkYL{
zuI$~?w|`*%mBQ%#558<a{HpF#R7v;2y2B?mC~0^|Fq_kP;tw!5Oq+s^CVx1Wg8Ln;
z%2oNZSRj9<k($bwQsrEB!`j}Qj}oudWl}S#Q|Gnm;I-*yX093!OVu`&*QSrfYmbvX
zMlv9%Z+6Ks#qtICwKa`p{Xb{@suLX7V#a4BlA6uRbr9tA(`wL%JTkk(nX;GW<uFBI
zTxKvV^v$?=iZW95Fogu*)U2x@0mR4CXjG*3-b^ZJm^d0VkPb9kSLVVpE+@d8Kf}yG
zzr*!W^8K6M-p`0n74|uNL615IsyyJj>?jfZ1*vC`hy*UdOK_#|2}XVEL$!fc$<GoZ
zBR|el9XRD{3*+dIT&kJ?@b~cwsyw?HdG$v$u1ATP7LC!_GSB_`Z?F+K{oy6B^~>ud
zP%%omOTI>rY(0}@Sji-jM$&RC_LKE+X!|&&A7hOJnHpV5MJ_){g!5ArFd;h2$ijql
zQ~oq%pddh$@@_nUQqHh|e5vc2UR(D)y}oPinSIq?+49tu{_3ah8z^{c_dv_Fxs_3S
zWz=0c;x4*VWVNWgXV3XV=MMGm>#gZ|C|X$7SMimVPp#~)c&aK^SO&jFAhphJ=NY-D
z;{3{UD|?roTRr5O2@>qiIkUQV&XXk<N<Oo=KmYQ?ixUU(FHX5OWm(j|Eb3nNnnr`Q
zHCnvf=!CL?dR4=exktP{TQIot%9gA9qI(Zsw;vjD7oJ&mwz9htjf|fSPgp<!obQVI
zX|~P?xeHvz=Z#t@zm&XylRrmDK*1S80uu#PRm@!#UA<?>y*Fy-*7gZ~C8j|Ay+Mnz
z^OlS|b}su8+C-mymN|yAKDbFCjc!k9vubxIu*IpiFA`T2Ow(Y&Ekc+9lPWzyPo7g9
zQLjGW#`8(bX!%Kk3I!h~sBi=LH*9u?c4C2y)P{2_W4V>lRlA3B?~l6f|JPUClYa}d
z+2Wt)7QF$V8O8t3HVz+MxY%+jV`bXctt-<K0H>>d$u2;oH8N0Q6Ygt>HPO2pVog?`
zhS*FFXk%DsKN(-UrdV}yDM7L_FX1M9im!2T&YHQkW^#yOU2JHB$(ppmjQ129Tgjhs
zUxJP*B@W+T0Z@#6Y`_tBEJ?yx6!<*cDYOS0escY3tcPSeRKXWW8@O4FmIMd+Wp+9%
ztS<KU6MLy^4KbG|Sa&qC0wpYxz-IVSS`zqc<JHv@7s1jna;k~FZVKU?hI%G9)D$YE
zeRyr*gT^5<nY>HBh_8&D)76WTXsLugAUkW42Q8sU{D88T^^&delDdE`DVVuw?N2-p
z?DH(-OX~fs=_STBiig$C99n2SLoaHu)X@4Sm3emJJ`T2s!iof|625?pFEFVW9<tLj
zoIxg8z0`Az*9*v0@&&pk$LmqdI;Ya>Umjdm7ZRk=On3y*s)5fjeiV8yyNtuol1M8S
zf=7%1fcU^P3>+Ls6TwmKVHwbW3;-@z2^~+2N6UTQP<!}TGEhCp$x$Po6-RoKhaS*7
z<~znk2?I2I><GlI6{=wl!)X$aR7_7q92J%K`k-ewfa4(fZf6t_(iI;`ZKz2Bpic!)
zov&WUCmcR9mQl)(25_L39MifDqY=zH9T^Bu)bVd+2oUdcsb>@E0rY-o3IT346K0Ye
z>k~G4sF>v@a9miAi*1*9j#1t)B(<Gr$|gKx`M&&^dZwEr;eLV;JN3?B&j$~)>e#~I
z5>F#37M7MATY{79@ZaD$7Cgpg=dnh7<2Qj<S4xC6+&9h_W4Ds4;_ykViz-ZRbcu=(
zuM@@R3vgXkj<q%kk8HtBw%3tL__(Hn$=a-ubx{*H)R50Z&FYX#qjCO-Q+nJQkmCzd
za%zbqmb5BY@{*gCaEHs6i9b^C3F43MM+UygW}@RKTFD^zOLq^?SrMDF0^6oJ&*gmI
z@ly7S+0h9HWA1}d`@yIiy6&vA_jKQL-90U8pB8mb!^(Qn<fy&KpjYqBk4`U*O)ibO
z%LZm$b87;faeJ&h<}M$w4!M^`?Mu00*;x~zQN>XU_%{I_B&d@0y{|Vo(=}fVvZa`D
zF)WXF+3YZ|HWS9pRMf^aChS{ZHaj1=3kynsIQgU6mZa!|x@dMbm<RwJj`(6zu(V}x
zU<&Hws_~oGo^W8nM37L`&a`+Yi{YeCg4#L0=rj=|%#_xqE&<|;PP=g*lBuR0zAZpk
z#x_ADXs3aR2DHrw#W0hZH3<PG9+7$+YOm#dmurSqHmefTeYglhrKJ^Ro((cono#R{
zxL}|P8ldh(COE}mB&GyxlM#{)2R2qCF>PaWrgDrlk(?RfHVY}Vkf&dwCR)3IHog}S
zbznVMDy*}{SZCuBPbfv5HOY0d^rAYKVI3^Dg6(VFLsgIvmR2q2;3E>v6uBzZ_Se?e
z)dRLV(Nud%wKh{huwn5o^)6pngBt6DYwyx~w;a7wDH1CSw`_%=U4~1qq=7nCQx;iR
za!f0j&HW`Fb?&1Y0hwFKvgy^`%@+8C5lO|H;sNmijb5Tb92iU3s4(XsqyeY37k%?n
z=nx<wauPO>w0EoqEQTJaAa$ohXO(JC@Y>jVhNE7UR%18B$NC65r}uS<w$-6M0H%g5
z5lsRxN<^G>L%syEYut>l8B;>Rp!$$|i4mN{wB|~WOjD%?V_9aJj!F9HB=t{IcJx#6
z7b!4P5Ra`JmM>9W3ciV%AO0yC3PuGp<*Wj7ZP06lf@5zC3XY0v?z#OFE>F8SZNPVN
z=HSv;$=WOV*Gkq$?dzlN^|z|#=<{7z+rRnpj*B}6^DpkcHg)wC`wN-h%Dh^C?Ot-2
z5Op7VH9=wQ$~l|Woz=6aJ2%y~@oUCy<C2)YggpE2>2da^_f70yFtD8a>2O)Ha@D)2
zl$-=>kcy<=OO<@?v<@qsU@Ko)C<Po3*%4yx9dqQyElI+PwNWWxdt7|?K(j0{(tM)u
z0JG&r9fG&VvV{0aN5&<!RwxUtz6z|Q+1$IIj)Oo<V^b;QhtKCQJd6^7LPy!$-f&<)
z%$xUlR1*`8j3rL;Fe?npL$+<FW+|<Ks!>umEO$0-Ql}Hicu7k`+VfIPy=YYcXE3E4
zgs82#86=^EO?{Lf_F$nH;k$rDPH+(;pZuk?iA1J;Dv(L_$$VIYU|?Si$5$IY_%^s(
z!g>?;3aC43EH9RA$LmA9FWS-~{*8-p7zI;D+T*K(;}%AaxHJnXmD?Y(B{Bm@JhS#R
z3W@mY6&sT^C=6_mTOq0y0eZAn6_lldXcMh)6FYxolV`D~;wTo7$?y5@TPgXLikm)R
z+biMs(kjo+)4NV@_b|gKY8BshWI$RVf{)fk?K=@en2s20dku|t?hKPUf$&ApJ*^z=
zn+QMO{01(?*IAshmZBUWgK;WWk^Whmt11@IIvi_rRxxl~J(C|FL~&DU{Fn{2nanmy
z!KA1;=!91NXi_lF`gsB32B`QZY`|zb0|mW$`zcmp$KjnR6!A3UFcZy5a8{TBd0=o@
zmM~FL)SozoSaqCzj&~x_fF@0*<XK=Woo*6H(JYk;@R_3GyNAt*(Gbz+MT+vwa`9QC
zS>_uSgt&$km#y+eAsKIC+kq%4STVExBwIWAX$rnd!5>j@nSucd*jb8a=;@CUgo!?D
zxUTuL{2Ikl@DId_*C7S0%&}ZGIwqjy9P?d?yS@1T$s?{Q%(-O-HURK^qu5RE3EZlC
z0`t|~vA2!?XqJt{d0I&@VbCX071W#W(bHrC_137qN{v+d6Y~4X#-j#o3CT!7s1Xq^
zMY7@&sf|usJa>Q>{o;ckQ%P+CH&PK#UC!JBN&WWuUEe<cmWXO%Cw29e5hNf<DUdsk
zUmCAYNmWN<yvGFN6L<&gPZ{dRvEB^VlMSHduM?tEFda+(a5+cxxe0h)8N=S0E3c=l
zuWVrPV9S+R(M`#YH<T>S1-KqjaZBOIQZj?VxYg=QWt6S&BfP<oUa<Sim-05luCj?*
z0)F(&_m!FNKcPwaSk|Oz24#p*Tts{6W2P8r$mMayknJYxHma~AO~WL#w+}NE*~dN7
zFwqJKt}U*(G^46weYG%BV&+L;mxL<@kg|-pXj;|sscRz0aw;$6MQ{emHUuE2XlO?)
zoC}%Y&|FKHP_N2vRUwoXg^6?ClQ<PrHf(S=M5nmnOORRABw5C?r4<oz#pxxYy#aSb
zb5O8bYk>665;hJZPzsHQMwmE(ov`eL4kjKKlK-6YQm~vbIe==gddjp+oj*Kfacs)s
z{_5D2vZ#IHE4U42`?>8S8Pj?L!!z!R&A4kIA5OKSuH_@SQ-^bB$8u+n<V+dP@x*dG
zIQ3ub?Al2#=b1e=zm<B}J}YLQ)wg88J$UrGefx-e61>!MeO|sQ_Qe~o<kK_1-;+ne
zl{7y9;|-cy$<(0fZ`XoEvuj|BkxooahLHbd79*p;r>;sMmg6QP;#8`j!PX_L?bxVb
zZff8g4bgPs=ycdaH;QPMbtEN0Z^cyL>Im??G<}PMiT<oGR!!Kj=)uej(tLS$mpq!R
zn?UgYA6Pt$W^>bwY!3c}PcuTHNp~)Gh{7P){RPeW=P9^CfiBpM_Gc#lB_*I>1CfW7
zj6B>dOJH=%V{RO@FiLX}=-`{2q`4dU86?VOXx_=m5xJKWT6q0}M+dfphDSL5P#;}B
z&3Omn`4zq_UVns{D0X-yx?vBf>xBzQeoPM68{#KbP<x`*sEH<BGt*f#yp1G6yS-Pt
zDUFc|@=U~LNHt``&~X^3req5`yAeu(BoOTfThkR1e0_y!3LE@V&4a1r*?nL?REyQ?
z&D9^OW+QpI{kH2Ml9x^IhVme_t{{m|g9sW0cs7)AnN)o;s0NtGkz&#BE3YZn(U<$J
zW|}M&p|#~MC}&DM;e>588OTXo+u=<7w`uy4Q*-&RDEKY~%vl#(>ahb>FVMTI6ud~m
zUsLcs1m<Vr<-ehL3hIa;Y~Tc8X#znYU$SgHhb!IqEpwm-pbvDjtM(ty1ve&V6LG)=
zZ|b%lyORW`V8ifG%C6lDCme4jFG*}3OK<Bujyv{)=J6yd<TE(r*?j+U&w9utjj95D
z3ppb4Y=QeJj60Nd+-?LY<IxElRQDQTW8x<^MEH7#WK%L&;=2Y+Uj=4aQy=1+QCt<N
zZX<<pnK9pFNmyv=`bo&Cny88`c`BL2RVv*hwaO%n?m9?q-$M?`aduGhY$myu5<#(Y
z$|p-2rv!d#&8=bu@r*uib42D=EH(U5CDy8bk~Fe9?J=JuTv{fXoeL8%cc*)GbbXZ1
zi>eu1!+c)E^&03M!M?I|)AF6mp!owZ=<EWkCz*tm$5H22shMee4GKh6%Q}_{h|@CD
z!c-~9MCGFjUn;VvR`(>QJ?g1ex0ldo(tH}^Jm7<AOLXWQ*|eDHTMaKvRjuzLwH!^}
zbe}tPB9IYCelAc*<bFW3N<T#^zeH4x%mZ{1&JPz9Xk?R}G-PTq`5MxmB??!?Dcp(#
z3b!QY#$^z=j>Smfau|gJoh!Iem`Q{!QzLBbhEX^h4ktM6Af*B$XAiwC<V?GlNqCaE
z!04Zp_El;dVPpAQG=}?b%p~Y#P%uP*BP9d_90QvCGDT4EEJ0}=BAG)8qo!|B%)JQL
zCr1VkUO9O6fgxrU!YDn<*FJ&yLoj%d=50uTk*@i8n865l%GlYhm=4L7a07x-TY{AI
zfu_SrX*<&JjdJ+q#7x717AJq86)`c;F#4K;*R|I@$j0|W$^QGI!SzYpNe47aA{a8q
z+De}4n>137qsMH^B3ZqpOiJ)}$>G9}*#8(1|29E<HyVJIdY)zC<le34LTB6~Q>RB=
zlT@DuBiV(~i3?)c3;HKSm#&YMtiRG2E7=px+B;G(ZMa}|tYG#?;q>9cxv|2z%tzlF
z7JCNwF`VGggFwPi^e`Uo^y2!GIt)St%_o17DzH@iR2`}%p(YhXsL3(&Cxn?4yi9PK
z!{CH_z>Jt#5_6aIFB+&Dth;hz$h|vi-_7xoa<w!6bEB$GfXisKOk-$i2U<EvpU6LE
z2f5*Yncb2N^mH(^WC(rxXekd<cYlNc4j>ugB?5;#b5{^Q%J1Vu=JzoHz#PebhSWbH
z;HgNKbH|a40H}S)aET$=a#Sm_l2%QT933{J(H6H&9z)~F^KeRFhoeqB5#VpvStsZY
z38L(S8%fY+`fRiut;CH|=>|QhaS6&3SsKjDp6JkZ(g%9b^vQTfH=nR?c14^<(aEp!
z8pM9M%8s*02A{9YQiB;1GIe5xP@SkaU~6;SAHRo!QDpd&7g8>!6_-${V)c(!6DSjm
zyo8jLe7?%R0(kzBFzHLk3UZZW0oh^nr>`PbFs}=0!2F)|-K%?H`!_XepBi;f)o(f}
z!qIx$xd2>;pBS8VF&LYRODoon<W3%DR|$;dOd8Ia5zCnY`o-=#$;728J*$71Jrig0
zpsd_>Zrk}C=XMMiEsGT`8_Al`)6%`OcX^-n!b%jld0;DiU>9eeah_>;JmZZtOOEFa
z7*`Z@aZg7HEJ$b5Oa6PK=km7!JvmxpeCea3<qD3L^3MS<xNQ*Xw10tk0}3*_{Y$(v
z!7p}2i%O{s==E!)wqY)ZKacv~9rRinD_W|d*NVOs{go*ZtAIg@2XykD(Y?p<aHp9o
z-IhcH!qrly#-VTt-jR*F!`c1Qm(-SN%-F#X{Kof=^Ncf`)|PTM4e#yv15c-McTvEk
zOUAFJ(9fw9Oru~rf>i#%<<}_{1rurb9|Qy;elAR4@(W|`g<K2CZkC654mAYsl*fgM
z*(0tjuA4aP?#5+`h~xhu&qIKp2-*I|yh4)U3pE)&k1sfwe?{(^xG>SzFn^iP)`99u
zmV2iq0-}9%<79r6ibDP|6BTaVYY}z?&CGxGi$&vG+Wc15QKLImb3&`1pF$V7r{pjn
z=yZ8CfxMK0H5B|E1%FS$KTuGHV6>l}f1)S~*3&S7L((u6Bn;ECn0pxq|JjUg=!~H}
zp2V)cCN1)fTo;XkOC5z;<KCifibiKE@9g|Bg(hy2jL)gKd71#CnHog3nW7$rCoXcU
zewa;dEXb@~rr;ofw3>r-N&-k{$K10S<`ZgjsOlOxOaOovNS>E$W}%XChL5`7A9{yi
zo4gnpg`xQxJfQ&M9-$dt%Ig7%q%F<g5`-vdAqdfKDv&NK0YbC@09EMO+`IY7Z5Osh
z7ZBMdOw;bfcsKVLIYy0gr<JRzDOBgq*e+(y6&Oa9Q=dhCjYl(7`6i{Opp#&v?(0lQ
zfYE}Odx3^Uz?V4U0DY47b!t(N{vn>m_}YFv+_`zFN!l8R8U-JCjpLS0i7trc`_MRp
z|0MZesOuDbg1XLK5-0d$E5l)w{*yy+%4T1|)`kBix~H4Di+l~syOKKkuhdZrdIcRN
z6P3aIAvfGzt>!BDENr2Xg#*qC1;Xulq@gjsNw7-M$9V}KXH>*LX1vUJf|KF*MH`ne
zt|Jeg875Dn4v;EG^D|hW8c6c?@Wtu>MxxJChscK!E*a9DNn3|<XGdN99`A&P5@BNq
zc@PhG4k2+@H?<WX5lYJchPKN8nba%(mZH8$-5?Pw$syp}n0s#Do__m~yELlZ;a<Q^
zg^X9tBy>`z*yMx@oka2cV>TL^Hx60zMn@n@`oNnA6qDiN``|MK+A)(9pTRw$pG(uq
zVqWb`QmI}^Y?3u(mF%5VmQf;7Yh`vxCNhj<r}eJ}=uYzdVUmj7J)hPI{~w)n49O@Z
zsO95^7I1HNI@#H{5dCtaU+EoolRlWN+avnA-RzK(A=W70t2NizaL$^bNM1)w%1&-U
zM7N7F^TGjbrd`S)9R^fJPD9NT)andhPiN}>KGG%kW0p=_f{67%nv|u(6W+bJI;u01
z#brv_dYpTVmSl9erEHUyOfob<eKfQr%h2X2qf<7JdxE4-!_1@?_=%N`1?v~9CO5!V
zEURJG=yZnKW{-~5cuHp$%EJXo*tE~_Ex-iIBz2;;UxxiBa#Y6myvVGDHq&S;OJ*l+
z;#*%@5{hGcS;j3oeal|kDdSspxURwI28&GUPhe{hzOAtJ%+D7eWAz^^^K5RCS;PEr
zr`G1FSONQ*xV;V?=A<*|ICi8N8>n~I!ijmCW{SfbMtg$%)DkNXyN5Wwh6|@?gPwjQ
z9BiV^MXk-612t+RZ<g0ck&dzAsQXk3ncA@f7HH6^`u27@f`=<oVW9!nZhn5Y{X`^!
z6L#h0Qd4cXEOfG7s`r&)zpR`N!j+SAm_WcED2<%J(K`v|w#=HnDO5fuQhVGVy6f)J
zV9-~}KwZlFQ(9BXt0-N58mEF;dlFB_Ghp&P#^iB@seQboe4JSUgbXZgLTBkxYpU8O
zCj*Sk)d@lvj(V~-WW%U7<~Gi&Gm8&y!>6GH+Yw#vsR1Y%GU&~urjmW_Njmn8En8Gi
z;t(4L^vLI7XR{gh8V(gFbs%x`kZd5(8SGRTMv(6qvtwcH^B8Q(U@sQ*knuARo4FKN
zx7Gt|D{A9$+;pi}%ed<trllm#*}hmqemEP@GO31=%<VwMig@<+QeF$YlOv&;x@OD-
zK)j|7-&$?l^(d)96SyQ*OLD`F83;(%46hY<lC16E8F)rK_hZ5DpF4>-<`ff0rioZ7
z);6PjB9p6%_Sp>oB=Y{t?}RQ}!weV0>+s+U)=0i}*ND**h3>NS?&-_FaG-C`g$Mg9
zV$+uNw_KaXuSI;l3-R(7z_+1PAr6MCTEnpLtPRQ^z)K|^2CM9@>K{@%YIXdaIQPj0
zLwmU2q?`^m%8CQ0#}lrz&P#5pe1Y<Oi7L(J_w4?j>dI`wh|69KXxQLab%S29M3uN;
z{(x&aTAP&&_C)@CHCLaZ_`8sj#c@|vijb=j!czUicWuCbaNi+<eu5R5r(n^B+uU$x
z?1ES>E(j`#+DoEXwc%)ZRd-cy{^R$MyS5n{u55bYzHi-kWzE%==(IgU_C06r8JRHk
ze8ahhzUq%Poy+fE+I8Ou_I`Fk{ky2o|CPq48V6=S)iji~qH7bCwYq!tBOAM_yIMx_
z3y~7nY(LcfP}k;H-C1YayVv#Zx#pe$r#R8sJFoiS9_ao(QP18X{C3Y!Gk^B(C)ZwB
z`}DlaWf#k$Q&z>?tJorPBy;7U<9YXU?t#uL)lt`GEH53-sCyNRVsi@VChy)^z=T;B
z4)#v%KlqKipI`kP?)l!*wfQ&j$zRd6^+$P=aOvuXp*&C5wvn9No~rJqt}XO(V&ANx
zyt!T5Ucm)htIw?-$tdXA)|Y<{x2MeM-;BFt7C*NbX9bI#T|1I4|7OOw^ZVxwOpD&L
z=em9GNa0Mr|M#T>!}BU*^D2i5SHS}l)bVSg?wL{hOuitn(?PcceK?6<Y52Plz+l}W
zL6ZcsaR{0beXG_?7!-+sOh|O%tUGR6#x^q0tPyiMoCDDeLJ-6-C`=JLKj$!rwCPeh
z5e2x6b4e~nDwyyE2Wo`J>|?g6L#kI07374_XX5xKq6>lzCL$xmB~_5dRY|GqQG3#n
zVJNXkYgzo;ycJKo^?KZf{3fDggNabrKuhPOPX{hGV@CW?JsR9WyBlbglk_pvNYps#
za|slHKAmnVlZj?oKHBDFtnRIgW=qKSiIt`DM>2=nMuMJdlVl<_sJ2n>itwP3%S1CE
z-W1iON;M-=WdvO$h+9%=R&~i1RyZ<Q2Y+{9!Aw$NId?Pfyaq=yoQU(R1}TY)s9YY=
zt4tvHqiR#dT7y*=%g9)^P?&&^)1`4~K(=CPwJ!~NaZG?H6zn$nQAv2wCAr!c^6adB
zz`K9<_D#F?dGFt}*SqNfg!>n^FDYT?kThKpZ6<+n;~afW*e{=ioD?r}t*3o;ndbm}
zKpot%W2e`&Krhw;-krPI=@5VrRYUS+!dDqH6nULUCFAP+uA<ZUS(3;2yX-_C7;l$f
z#am_e*tMAMrP0;)as~zQ-I_@TM$fS$%w-b;!_VU9Mu_2a193XmC+DLerP#EuN`?*_
zna%;~cM~+~XEPdQCK_lbPFO3#0!z|jYBB{sBaVLn1%l(xH{<vdhuza+?rDA2YwlSp
zcP$^t8osMKc2{+@d_9g<xi+c{cGk^2%k){p(>BDWZHU?@GcGqTRygmG9bMbbw7lvr
zicTsWu*W7Xzvf>4hQ;A<j%2PGaeJbfDA+oC#mI_#29DsV8vovKq-CtP-bh2DC=zE`
z@@T92RM*xK@Zn9dyxDy%xXiw5D{M<ROUI5<Perfw+={*>!?W*>&A$5^2cAFj+!63&
zwn6Q*6i;DiXk63#>@n9|sNi2g#>VbO{Rqv?3<o<ola+9j0rv;M&C8&L#aT(HW2fBA
zPIowA|5H4BxM+T?X#SU4hZj`E7E}!tt?t@Me0*&b{jz&FA7|%j_}&y9qrn1DnFJ$H
z(ywXv&(wL<^<u)!2fAMAFfdtcoxyY}nl=ezn*15--U5x~f<4>h84=niV;`m$GAWOH
zozrv`<UyVEM0KzV>u_|<iCbuxX<WdZEv8I6-QcXo5t`Crdn6sgfl(ZAm@)H?bVKj0
zUEl4nLowi1J7B8wL3`PGJBjW$GHpvl*I}6o2zFhwV>P5SVf+nd%$z`#^npl3)+TA1
zKmdITF1;nTo4O~G0G5VUnF%;=t^H<#2W!6um3Zs1GioAwXxPU6?uQHRL*LExq@S^9
zDIdKZIGgFM1nn$I_k9-=j4{F#!cFB{&^xJHyYTLg)g81mur#k_#i`R?(|s@tbmlA$
zsv6cHn4Lp2!;d{OlD>r8TAZp61n9(yRusjMVu`7L>O9Eo!L{b_lNjNCbC?o=oWSs$
zP_{_8`&SOuhro3Wsw#d;L|2!Q7kzjff^&PWmT1zP1gLaO^J>Fo4poHVX7y6jsSu7<
z_~Bt#^_NJZL4@^*wZ6t5^4Fn>b#hY>dJ;w#-@4MMl2t$g8v~ZXuYm?4uB*}yM8mi}
z0r-jey{$EdB5>Cbj`P*9D+fr=lvE^yDixG^A=D7c!>B)Vb*x9}2QJy=Vi-I&?D}~F
z_}TDr4@PzMvQbT`7eHmJDoYLi7_5jV;3u`FK^W3=h?q{5=Mb)fhSq_UM-ubrqKez3
z+tJySUJli)YNpKam%DVnZ5NRul^dIX32jJ(zp56~o%wOUNu-8qFVXNd1Z9|RW<fU=
zsE|{AUDSu5Y&wY?EP$*?+8-|XF|AMrPI~d1X_d5~?=;^<Bdw1?Cp1hy<I>=46+#AX
z&oGm8R+U^XR3>R@l4E3Y^{-6i^n&Yf4EeAL{W+@aUJ9m?ME4RsO`|6g1$o2C;s5AO
zXk36t<iJpxJO}w^K;#IYVB#Qi<CGuQ_e_CuXHog(#TOTMZF+5b>G1TGvFR&^rmyPS
z_M`MkujCg+i|6+{F1s(f2dXdT4CSvJEFNrmZc;RF{TatddUn^tujEfSKlR+y-UI!2
zUtV)@&0yR0{B7ONS93kl+=Wrsf#{+GLkM#hj^q}zJL=o6(ffsX^J;olSLcu1bJTOt
zeZ_q(PfhBt=*u4PKO1-^@cnr&mA+Vdz3726n_hvkX<PTUvpc$X3}>y5Wv!-b?H#?X
zeJ3CYX6L+71Uti?yU(n}>F1l-sz})9>~Fo?ak1k&cfYXqTWhZu?MW)8B9>J#Fn@5~
zmE!AJTW~sCFX4@J^$N!)Iw2kBLJ(fYbzFT%hg{2|xwBqzWs?C2`JfthEs437^dB5J
zFu3WuYyGPb5qUGXgqTUDO}J?gI>Q88XVO$KeGhG!iv>WEDLU!u8GI*y)N61Y9S)e^
zA`&LNKxJ-<ixA>J#6zlseayBRA+nA4y4bjgk)FD2Y;WR%LkIx6R!M6KDTB>4Oa?L0
zg)PU7jx>2?hpmf*MW;bvNZBK`R-0+9wlQioy6-2Vkn}MVdK>g@#du;(Q=^&*GV><Q
zun8g*GajrX7YymX$1yP(-P`N;$;^1zqh33#`l93B?&3JK5QNPaZVSRcr(9oKLR6jK
zE=*hxj!;-(#K5Y9Antz8p~`Bg@7cjLex#0bY_lC4wc;vuFN2>XQyD)N@^U@AV)+7a
z^?KS9QfuRMnRo^xIaN3=Td|^??HH)p*?YZ^3e&vt-kB5-j~t^EY6bJK3<*e;thk4x
zIJgp|fq2{bHO*DTGnm|^K{p}!6533`ZO%CVyBV^RKc1Z`R<jDKGUVMaw<4=L<dIf6
zWKac-<zjh>?#U^^5A)HZ9`5{%8bTjPW*nDrG>#nyOu!{g(8K0s9JVTh1vaWa2}g)K
z5`*2<UKvlO>w|6yz+*Yykm($RGDmN&w=v}94fX=m>ZRH2wkUW~QmAS7QZSd8;6b!c
zv2ItayOfMw-epT6BOebbxhf88S8XfV4FB|>1@W$E@63z=l?nO<)v8q-Z<bt&s*eyK
zrNh23j9y~N$UB?eo!#S$xhBz_Ho3-M`2{_DaVhGob5r_kq}SLR%UjU3?KNzpG@fgu
zEr#kdIlZTzeE7n{1BaeH`pi)<vWd>F-B5gRjYeO7-?qM-f!1d`p6R%H_e-l^Tz$Rh
z5R?#;r$_A*ew3aKqy1>^JZNq*GDos#D<mTmzma{$oF|W5I5Lu*)01&#S6|ieoaM1O
z%LnfpUb7>%W(R7Skr{=e!<C>7;rBXnBi;gLI0|!J94Cfaggg#F33Ia;uA|<7N#xYt
zozcZmgMinrWlS#NMsrfEGsboT4|mcm2s(=dThWfpOR6?NXee|)h6#?JnHAI?!e|;d
zc`pU4DEJlO(>{9IPXQ^*;#Zi5sdP4>c)&N*s7RTDj}ac+izHC5CEAHDj=2|ekTKh6
z?y~_f#REbB6gsB~HzsD0VPuwO2%Vu5^#m~iOq@gW2dHwaZJ`e16%uyjO#0xWahl=y
zK%}rfvIy|Rxt~@G)3XqpHCP=*bZa6rrV0BNFmZ!k0OfVqh^ZMYq)b>S1Q~tfg|~!4
zjk%laY`CowZTd+3a$d8IAH6VBy-xgw9tVU9^f@%w&`uR5dJ%Z&a76T<X7)k`NIDIW
zGSLb#NI4Q9g$*&z{(t^SRLyvSuA89MJlm01xg9Zha#n6sP*9ptTLrpt43`*!zBced
zc8?FMz+~HnZy+RBmTas+mB)FV%I0;Cg7iCX^`fu5S&P*sGQCH<1e!}&l7`@m9xima
z21J6}c<S~^`25t?*`*L)O8MH_ydd<=uzn}PUdp8GTW!R6WCh~y$5`KwkqM60?0B#A
z$(yj=7E2TAC5+7N9R>_y1=tta^=QU5N%kynK{W8}<`+V;G2weesysk8O|U642m}mY
zXoTb#(0|vzub`H(Js@_6-mOYj+#rQ5wn>D5!;DgV$z+o%f05`Xt)Z1kiECeKpSqdy
zI3=X@F<<7=+D2w;Z`zJgCMPYa;~8;AIKFEB6jfA?41DiI^$EuY5sq&d+I!KxQHLv(
ze3nM?#><sgqL|A>?`ahddcP1`6T{ilW7*St{ZHS0x$0uo_3Ra0n@7^KqUn=f&7IV{
zuWw`Tk!!gnDs!f76k^ULV9ps>G0w$4Mc={x0|QtwR$*1#)7o2$Rb|vQ3kh(_j+r3j
zoSoV|^@-`d^PXIMVR2v0h4NTNNq<GuRcc%tgPW68!f%|G$+OSdX|rNwY{AOGtnY7n
zY5R-YuP=B2HVyW4)kzq$Q@Czl$IKD>CP&?iqV`3cgA<?8KKjwTcjpAXe3(Y=7=q-(
z@hpOZAJSONLwhk6iARvhy1w6v<MAznvjz_gxv^Wdf%nkJ50Ra7)x&tW(=v*t>laBS
zO5yS2!GISQSvZ9q@#5Zludh<BqyADG+4Q3=2f2!nmx5QQyL0dg-Az1jL81n`2zk+9
z?U0*%ZvR*7Y;Hnl%{#h=I!eK7!j7urTG8JyIA_ScE^1%LJF4$!0XihFG09WH!<`;g
zvgjrAlMYwhk&WO)iJNyBTj1z!3yte&?-=qr>N5rZNPVv2gPV9#WKPUIN0YvBxCpZ2
z3>M<}5l-6WB)P+Q_x!n<gF&XlA@WJ;J`of`Ykas6&7vr9AS%3wcRum_nm*ts1|5U#
zSC>WaKRDzjSMYq?kyroFn6q);kB2)q?w8a$g!6c!KF;JPj@g4S#}g%1`622y<ySjg
zO`}agK6TjSa16VRCDV9j#M-JjB!3{{Q>@jBb-iNUpx8Eg6<fO(9!=@Jx27J;WF?3H
z2shP5nggxy-d2lCf&AcJ%+H{bPihNXz!a(X1>oTgH*LTXR5-{V!-^Z~b8k4%M6L>z
znY<5hTIgjv6Z&CANp%G`Bc6b4Oh?7TJHDYJ@_txr+@>U|#s-SaHSXL%(b6M%X$X5M
zlViA6OPj?UTa|(^EWL42*-1DLsr7}tb*Cg4jIO6~+d#oa3N}%&nSw18Y^7iu1@}?#
z0D2{Fr>7kh?4)291sf=0H$B}?!5#!DPvP#PR1_2ww%m{0Oy=NjKR>kNksZVKIWaq@
z4WI;keU31b{fGY?e%KbPcO3Qv*}xlwICTd9VUypSryst}A*b4G_kxXUEsc%#(HEZ7
zt2;YZ+G5CTVv)$9IA9mFv!W!8FWh%v9?AO&X4F2Nh8!dyQE)E-X%?dN<38N3W!Oyz
zHv202eE*lZHvx?5xYC8Y)!kCJx?8Q*z9F@Q07(de*vx91eaCEGViU_kEkGb7xRSug
zBEg9rOAawooCM)4h$QnYCX3~X-&nDe3C{oCvuEbbKivphJw49<m>IC0f8IaS0%z9u
z{`tSJ>fYP8TUX%xLndkCqf>XOTXm}H)TvXa&KWKpb2IFwU>#9sQy0!*!GmYQLi;x-
z5@3;iJCQ)t*m>gkZp6&#+yeJZLR%p!{V=Qe_o!KtU_k$e3c*@dJxLDIDnBFao`I_S
zhu4l&8Tg9%G;s|dK_io6iJ#f7J(Tu#?SA~P8cNCZB$K>{O@Jx30luH2bp?3%(6cnt
zH<+D0GSego)jMZtp()bNXH)5p&en|TVTmBtB4Ua09=>S^AuC$KrM1LP?I5UV3U0L-
zBB|&tBV)wUco!X0{NxPx7@LS-Gn<HG2tzo_0?X*xeY5+Ied36!<M!OJJ$Kw*7PglS
zS<#t;!)r$JM`vALa@7vA;tVxzNrE*#TS>6lyFGL@?U6YfeFG$lrqS}Rqw5GZTg6f=
zh_WQu_J5j$A@~#tQz8iSz6{f%IW#T_+e-!?99sXbeYPC2Zq3%NCD@VZi@6<>5N5Ch
z(<<GPdI>VWW2dHhjyik9Eo-$|B1NuL3y-(99udA@g__wo)u&27=OgSMg3TW$_Bboq
z05HipP!8#noQtv#kA9l;2nc$>*v{cp*KAe8TSki_GZ&A#BQux&3ei#3Bc(amq?WU?
z%E22un+{@XZ&y08^$S9o)8q+B6F~Vh8|Y@k{18f){L}ZjAR14mo$(;C=o%&aSVSIY
zFd+fFEU^zu8VX0cK_**CO*29&`+1vyCF`g|*)YIBw*=SN^<jH`#91PyKRFd*9xVP9
zP5flf%96Hwt?de;Fv=h^FvkRCd8H$oOH{Y!0HI;a0?*%YH6||~kzJu9>O&0Dqp-SZ
zXl`pnM3rFFDY9fU=qBkXBF{UDk=Y95?oO(c1t863?rlbEA)7*!G`UMcXT#Y*IY2VU
zd-p*mTL{>3l*G=i9OgBiUzox)wT<@)de~<7g9d1`lB71P3)}02u3QGMK!d@1$TZ<z
z0gE7rGR4A^Nan8!bq}W=5jIHf(R4&TtG7O|W=q5FO^>c?*p`smo{-woq#r*;NvKp7
zP4hz_cj6kF!n(uVsVh!`R&Bumqc%zt;`i^K%%+fRzo(X+ja!|vy?etRD21uXJ0d)h
zvRzNKHP$a~5dKQ#rY}{OLXX#Y96?FhPZ?29MAJLk+Sthr<POY_=_t53B*nvm%D*5b
zr%WpC6fu%B60@()i1T_SX`7{;O`g<E+Ssv<^2RX&y6ac|37L1WPU<YG{*jYu7oQ+_
ziT#FC3i?gJ;wc$-bB%n}J>&h1@`&d_XxV(}LgfanP$DOg@-mmr(m{>rVbb@4>{7Ue
zr2Oap)ij^RA#x;#P|pWwt19mSsI}V;&@DEOHkb>N3sKHHbtH|2Y64<>tg2H_u0HjM
zKF(Dhm=B~xL0B<FkCQql01~Cds2mmQ8w&SNE|Yw6%7q?@Q_QrmecE8_@Wx2#{E=<H
zvRNH#tdcRNb|B&de1T_@`>B-|u6m;Bq977?E6vba9|7~|ZjR>SxEkjks!vH9X^n@d
z3dl*M5eVAc|HsfLpww??$QdFOq%<x93Demzcc?+p1QB3m35v`)9ANduUI?r&j<h_9
z&3$p&Qk7jy?H?tPmj!k;o{+mf2o})Vet=<-S`hovK)97S@+qI5bZ1_*C=?5p+*r#3
z+x3uQvK-O_cKjr2yfKZ>ii(M&qjFWOe}Io0A5<&HT`Kux+$2(e$IwR-c1H}?VbTa%
z$$biyjmKX%>s8AFyC?5FX$_E^1N9`!0;>VFO|>d6^3lJs4piXyxD$Slg*K(SF0iWg
zMB_==xnl1|9I}?I)3DQHXq07vc`FgOp*c|12J=iR55#6yb#0)2Wk<__Bke6gQH}0Z
z<jyinwa-9w!||G5n=dPLglNi>J;sc&ba{#o_7E_zhB$wse1_O(3Am_KP6L~4KB#<-
z4-otb*~P<n65JNC36i+&0}0$#x&a+`7l+-&<8J9A46IhFE#VXlOcrxEkennRH_^NV
z`AW+36tcu56IZH1=z_vrbXRSnci<pz^U<avlu-MTxrtf)B_O|P0n4ai>d7*j>3gz!
za(Z%m@_O=n3VI5^r<PRHdl;QDiFq|QKCh}y`QjeoijwEp9L}P`o*|c*FlxvrMt3ht
zD#2j_AwqwiZ7QaWXNZXz_*r6KAo!%7<5+&O8S|f<t9zLt!329x2i`#MS)zJC()vez
z*bTW{pN-K`qz^ejT$DcKbd5LWWazVS9ajJ|r}izksF)@d#p={8Wfh-+l3aOo=Zp0R
zJn$slh`RSR98>L&phev$<G6?|Wytri0}>&PsaVB~AN7iGwc6uN)NE=$U32yXuG~=o
zaQ9@wMTQNg4|Xks_+MPrCCT_z7$2~Y<A<K~INO*9IIDA{=ID7gfLJ`mMFi1JzQ`L%
zJ!Hz37a~6ottq0zoFVolfDYEwto=pnN3kkZF!>9qQ_y*TBY50dyf_ET@{XB!Sum5#
z+_O*hJvF#~XzlRKP;vdJ|7ZC>&VR@M=LLUUaMiaf<lH5sknU-ETj}zw;R8(tq=EX=
zsUF0IJ5t@>;}u?lv&2E6e=p?=lE-G;%qWT8cY8#V0%onjYqCX(OnHj*`80rbS<iN%
zN(}9?ShaeFo9q7OzQ+e23VAAr*S)gk(w57Pw>@upu-Tj`<!dP<I>d=gNO;^oP?yi<
z5}w*9YFlB^jxQ(w%m%=n)DGN{(`2-`>}*gyL_G~_8sv^h`_Yc5U-kCT0K*4)`I1xl
z5=x?c86{Fy61$h+MJCr1+d!}pz+|fY8lNKAPbyO22NiSlrAJZNUNmm64cluGcUUkl
zEM+khN{$9wJKwMTS_~g^x~)K#ckIjt6;{xSWhlzRpSm<uW&?*hj?1@b{-pXh?8i>d
zLFF7OVN${KtRO)TD_DsvWCgKw5E@C_(1XL9B7xb%dn19m5!=XaYN(dU-r+jjd{Qh1
znxj4)l|;Wgl{IgCwWh^W)U*MjImDxQo4>>=#vA_YOzN#~LXvOt0fH}*B&zZqZ4Q!f
zkvX(xICsPqsh&Tw<#Ji1deO*dNRkcevdVt=ctcavei)lB=K8t2th0nCqbArG=)Jw+
zNNXchZQo)YE)X=JN#oTO2DX!RmS(vq-^S}NkpuzRD-1fz%3=HP!AM2jNJgY$7OP(^
zdqg_Bff$U?(g@z6rMyzm(|CwFy&+>ml*UJqxVs{qHjSEc4u!^fQFl}O(UYo{4;xb7
zA<e!^@OuD>8&WUxGQqHcD)C@_k{Qel+h-1SkF2;n?OoM7e$>T2!9ClK-vuqcsI|{f
zYtdy=lwrNnKrrV>Y47)Wm0*N*PSWPf8rOvFHN#6sj=XDMD|>+ru{fhPM36M!Z=5fi
z84`{BnN1Z^Z8Ev})Ulr_lqMY~8jr?Xj(Zo%_X#GoT-0rNRCxu@yvEwlm=oL%nj{SE
zg0Q_{Fnh3RXyv>1dRY%A+D*7kGFSiX#p`#syBd!XYdaK%sZQ^(ZSZ5($unqB69rKU
zDV^L;Yy_1{R1+zGK$;M|!Ae))DOqV%k#6X=$A`N{nnxdb*S=n5@C>RddM;#V25@TV
zq*4)MrmLZ&`B+0MoLDHIL5A3tKoZ6W3Szb3EBcSBMzLIDG4D39G>aYMd^maYU-b7<
zsPpKViF{I6&Nc*_h1IF79_EW5kxHWbyhiLl6R>JhM!28YAL5$Hd@;&L2`-bqQ^*KQ
z!}g^@F$pmN0s{U)?=4q7Sq2%wxELTE1?}$Il#wHbP1Df^l^UXHFQrahcTr=OiQ=Xv
zaQc!mP=12CzsI`s+&21_oG7@-hZ^@U7<3OkHc~Ts=vQ>*Bs*57q<wtxpWrD8>q=Si
z$AR4aPNRi`xXq+c2sJRA<|z$_rNL@^enq4oy6`Yet3PG)Q;<wHX8aj%5c~~kQzdDW
zkt93HQyH$_CH;Ft(-(|99w$-)^VCTa5+uR05r30^d-1JP@aBnq{N!6m??qoa<v2x0
zPIjZ`h4>*qupgBvBPs{D^eJb2^TTYJifvUVk1xV2gVnIp?}}fi-_TR(VCM2UYmciZ
zJ!lD9p2bN5O1@_hJQv#=w(U^|yy~?p)z+w2_(Y>R`AB=P84OPB;fs(5T*P2rX*rG)
zABl|+O^@rCl-Kx}wL$DOMm?gBtC26G))qv}6pRd(OUg5N(DV#Q)E94m@xJoMAno6=
z8ENx;+7c-)xp2?<doX33-rVnuOrQPoy%+Dr20r|ub@#(BN_KzG75DUzeR>EdU%grV
z%ii;r>ftq@j;}x8KHU9IJ`b$ABKgyYRt<c1xG0>zpw|<bivYowI(wb{g@apvzdYoh
zeZ^S|O-qLASIl}Wnx?78JdzEA3pX5wyk$r=CyXZ!V8KYTP>ZQfq8hq~Y4=eB$<P@q
za!LNdua~}0X4+L8J<k0parY#_6s@bdE%3o**YYzn13@q;^}f-oS3(FGC<Ec|%GTo+
zr)fRt;1csvgGYC~iuFu3x}m(90gC`!FS4BS8A@&3D^!caAP;7aOEfcyQ<<IFddaCb
zN&59<YPCF-*^_z5Xv(TSscm|k@?+45(jCfA$^^-vUC$@0$KR7BPX1;a%5Kz?sIT{A
zV^BKulIB29NgrdVHwIsd7<}JAypeRAQcdmRia4Dd{>FD-`ryLvee}w=Klst`2hW_n
z@%-22ZpBAGy!hb{&wcpPGdoW1X;+#Ke)xmF>u<h(<A>k+@P!faqQXuQwY9YEm;RbK
zPL#_4@Q)})a5pcA5p3Vz)!Hfsd}F7y`se75rovVl8sMmPPt>|T3Rf_#UCPh-QZ?>Y
z=PG}KFUVp4r^Nm{!Jh#{t=pp3jZy1brHYrtci!ZCZ}X;07fj${5i&}1TQF)n*3c4l
zFm*VZ+1QCA6Jmcr?!H8GlCL!EUob!FQU@L0^hs1~go!OQm;!J|r=g`I7vCirC;g<V
zCPQi7-*DtuBX;EZg7ViW;XjhAWTA>UZJ1~AWu86Ici`y_bgbB04$Hr@X?<z^*1mL{
zJ@jUreWdS^)9bIp*W#mnkHXL4s=?In<_>jzrv%68_y3o5Z*O~R+g0zb)9cA{>R))I
z*BZ$Qz{%kQU@}>ygU1Hu_NKv;(_q>acUi=f6HCSCkaw`xb`36?ss}fOGAnx>kcUgk
zFRVDfV%RqP;42SbdU&jO5d)-w<t;wHI8-rztQg_T3-ESe-gw!faM_}<vU@_X!N@5d
zTs5$HJf|w0Q#I@#%bAVO7S)XuhKrW<`j9J*JuDqqI@mB$el>exuM-(m&0`=T@#U=P
zA>Z^X&dS&VOGaJ{Q3JJ@Lf~udZJo_eb_!`T>ZN4{XNFd$aT6Xh+EjWbSib4U@ArW9
zor9;+PPC2unK7_n${p_8;!G-NH{cEfo_hN{_IrY9&)83;1)aBlF6g?${q#HBH<s1?
zYn9J~@;QUvJLI2nhx<OmH-DY)rw23feV4gXd@m+}Q|YJNr#z>;kZ?GuCH=$`8K-=w
zGQmzw{hgo6GFU)zZIbjOixg^OoI{K|kPP}Y_KV3X%TRZdDdYQD`ec>e>DRKyN!GYz
zwF~vg!DN-g$?A|kfoRXhPfMQ4?a2*hABN<J>8k|Omw4k;9$2|3<*EFhoL~+ao|-Pe
zB!Z17Ol*blN}h&k&Mx1<7L~WhrwP8NiiFSdyq=<-Lfmoa*Nc0Kv7v<=iY;gMFc_8M
z#*;2w!_<oBv}riICmYj7Zr2*{uj@bk*@s^lzR~-IUtavrTORuGCokUk!JwQi;GJix
z=_Edps8fiTLlTcL9$OZWQ_+o|4E^%Cvw_D}*TQ`<_&{52U}J4yt&F=$POGU`mIV@v
z5qOMJp^*1*5-z^j!0v6r`zmY4_rCf0Uq1IG{d<9$_y<2-8xX31m2l48bg)kNfL<_P
z6q`jb@~CBj>!Z(KAN}G7UwiJCU;WvQH~tffuD^~mXNK2gnZ%+R8`w9#dG3S3p&KL5
zd~|VGRF}L?7JrKOwOB(9@D>3Bwa&(6fsaN$k5Ars_VXWnb>xFD{ZKDq0^dYczj6A;
zcVE8o#@QRa=VU4W{wHV9kk{XM;lqnRyz#@AKKi2<Z#?&goT&KZ$k{2J8f+DFnHkX%
zKB?DWG6Cgcipy?l<8)>(1bJyM$nzAFL|TrVTON!nh_oqiOpB!Ik6Mj&+GB;Y5C=vB
zeXZec@((u26pO{rY;OX&+AxaDx9H+RsT0u|Ts^5+GeOCW)lPcQei(I8Y_Ljp;=Hsj
z_F*)p^tkB4MHkE5hy`G$J6-K*jPi6<i1ncK?q^ei2#(of<BCbFwVW7_h#<h)7ISR6
zyS@0T>&$%^ulQQEqpJkBuD|($91C(lULXAdI`)TeKC|V<>7NMyNZX~DhH~N+DKt?y
zQ+fza0>DWUJSutPZKHh1O1;MWYj|IHMwGp?f!@opqfeD@OHl2yBGYL4VQPxH5PPMW
z_DYAbR*_Cqm3P?QK5>cXSL9pKbU7s0mpf1~3kR3}lTy?)_><`9Xg&f>6xQc-K?bwU
z0}#i=QmuPAg)Dg?E^5VHi{JL;<!GypU*NM4#xgCX)x*oe(-w_d!_$_I9txLi4B@y%
zenn{dqEO|cQ2t`9*8GL%$_C1MQ?J9J!(#)F4HYBi;_-JL`SZvB`0=Z`dwbI(`31e6
zzbu^5yD5T0qxH|9ie%=-3M`pL$m-)<OIgKG&G6yTt>L<jW2KvVABgx$hsv+`rt_&x
z`BcnnDXJK%4j0z;ZidLT!Mf8L+SwS|)kxSB4DD|Z9cU-q*&behw0CoV&(PM9`@)s0
zL!LDePr={=VbAQot+7H&(aczh%u?uJlI7{^XpV#-MwNpYVzs#Q3095f>%u#!5a5S7
zVO^-(SYoPm#>EKJb)kOh0>jU0c31%J4%BJa%!?1aSEpiSrLq93DGuoqHtMeag7Cd$
z7_RAee8yu~mt|?W#Q$;)W}1f$K9E3Z{<OcRyq#Q8h@Y85${w#)KZryrrnwqQZ%Uz5
zJ%<biH54mLA6C8OHA%mq<NIm)(^${;xPtKQ4F-kKDB7B`#|0MT>MF&nQV5tz0#N=O
zbu}y%uiy=_hLiyaE+e^p($Y~0@ue_<I4%BjJQYoai5k?pQCBD2D|H-g?`V$N_91xO
zRX+AEfmlHLlRLa%XYBRSR4G;{<9s+mK<*m#2y=FIZ9zsRKSVxvtU>=6Qc#O)pAIU&
zV2+vEYEgSdxh5{F3q{>4Uk5v!&fYXcvbijT^MD~rvthy5J@59sZSotRB17XGDHvKo
zA&;f>d3sa(t^M^8f7ZEzfr8#ttj!9ho$DUxMi|bOp^BwHS$BEHn_EX$MrO@<?Lq0c
z##*q}+Ur5A*Svhe=lm}|KAu|>&aD}qKYVPYVk~!2Z#uXWKJe7QQ#_G1mR|+-m|s4g
zKRcW+PB4$<*Y|p^7Y8mZJ->8l@5qYr1)IVPHoa5+&d#v~4~!M>Fj-?>E3OzXt_>I0
z4(}YXjup=zFJ2KYUNO3JtoS}W9Vw~_%~=^PTG{K16xWOw*M*DgM(RVwb#lRq;#4o~
z^?Z5fpl7gn(9_=#cFwrwD-Jn}CI1sTg1=#F{|aEz7LQ<ke}LwJ0$ODvkh696bjlu=
z9eQ;2j4A`b18k3jBj}K>6hlJ&=_;R8Y;W6C<x~mI9;b-Gmj-8VBDRK_cE-JrBq+^<
zo3Ur%f-R^IJ|P3ZWT@KS#Toj8(PuyG|AH#P2^qTf#>f{w`om`-*Ck1)kjJn8^h+Q9
z^oJk)@Q<#KzVXp(7d|*Q^x>t~r9VXu)$P^xs0}M_Md)hmEuGCr#6U!x+C)Ms98%&O
zB~-0E55hyDLUzC&l1PhfBJC#hF(!wnquIuFz3R`hyZ#Qn-=GT6USap=V8*UQhQ*uN
z?-}z<>$P4lgf`?`1(=kJW)7VU7uAm!Ee;ng9xGbXyCvc)8a#5vHyh5X(SwRBhxUhy
zYH_)+0<lM?4bKc0%<J8R5wl{I^>Xf;D@Nz^uJ2zycruh-H9Y%LZ76&370*4fT+G>=
z=JR^Jva`jx9jK#vs7#mYu+%-m6+Crkod#7|5~~vm@PEV0)g_XViGBS)C9OptUd3z$
z>2L5_jNpF}*f77zW3BAwaULgC=2Cu>LiT^<{r^TlipgfB-dHwXnrysd(QJum98R{T
zKk*{9Y~F-RQT6@9%0J)>Vk22&cV>Sj3(PTVaK(c%RkC4kNxoKB;wXAQEB{>WKyAzh
zoU+*7fxR&Ya5Pk2VJwZ9(~_MRa}i6o<QBx-#5|UC-`SGBl3QM+Vk-iU5(YF}(YGRI
z1Abk_9l((hK2b7I5=&zWjIc1~B9?9`D2};_#WO=Hw%VHO$a_CC_nc?I6SD!QTd>xF
z)|dl0a`WfJ(ug_vzKdA8Rv0%@u{ukB!MOti2cCWay1?Vml9fm57QfPVsV!`ujZKGi
zDF1qNl_2tiM|7zaeCT}9(5FKM3tnp;UH7BbkxxfTE5E<)m2H={eQdL4EI+-TWiKAA
z|Jox^&*fDNEe+?*8PA&^&YM4$x3Je8al@Y(Vv0-sV0KRbrh(etG>n9@D)jx*d0?NB
zX)}lY=RZBXKU}hq5^+IUD6k;3a9yZieXkdOO0wtS<^EQY^YBxnt46zFNSvMCn>K;E
z)<itn{SOZw8GdYZ4lWm@V^&GGEL~^qO${LoAsm@G7scjU@=7P>Tbwz6<);^wy`zgS
zuN?F5>`jI5O*PbbH0AJdoMBPVz&m-~ojy^qJ=AbKL5!uA2OY+8>krWH?us4|naQ82
z9x+ijs6A>b9PdvLrb6Gv$a`kmER>qNbqJwiuI=J|7d2uK{ib@~O??^ihmtw@2a(Y{
z;vcq0PWiBQMhF)OcPi|$Yb#J}dg$|^nZr!sL&HvC^7~F*v*eG*#Ou*TPRy2PP=_q6
zd9%c9X(oQVbdfU~tLLnsYrpUS4-HyQ(8bvk+A!B)v~4#^1&tZZv6&aNWWJs}k*kS@
zEtrllGw~>Y`4DD5>9YmUh&iN|EN-rGs<5Z<kS?mnDGlv`T^HsHxpgB-WU|H6Qy6rA
zUym<nwVZhY>v=!sa&K1%6-y_R{BZd6hhICZ@67!2+t1v%_`Ms?K6~Q}&wem8dMBOQ
zoB%Xxk0G1|oK+G88;%`@Qf8k}Wz{bhUzh`3nt15&aXv+8{+K%O;u-Q$+U_Gqq2j6w
zK!W(-tGyq-_U#)#`KlBv=G1@C`?Y&lb|7E%Yud1dThP{a)wk&!d=iC#qT)vX02F_y
z*N1Pu2AviZR5#B4{zsqxDI}Cd_47^CQF8)S@{CDsfVw9s`qT#C%u}AAnWG*-i5FYY
z;rL`S#9uc&i^q(`M7Ab3YXjHc{Jr@o;*B@HilX0m<;PUSz52NuUq17}ndg9usw>=p
zGuSBlFqjpg<x+L5q7PAe6msYn&;_^z?~zV_85}9z$#hJ(5ynVJ{+)6dmZT<}B4|a<
zy2&}TWvOOcmA7Ave^2EJ3Gph7Cu7w@F@gg&bk$PgTPgpJZ>8L!URdD6H3PXnez1E;
zGy7J2BiZz>F5B~c>ese+dyX9p)*e0>oOAENV~3?Hw9EKFw+Bgi9S`7~<w;zOtJbhk
zZE3^7`Dh9>pj^XZLsC8L=QQmO`s-0Uwj|r8a6}LlLei1O4#X;K(6=tT=XD?mB;%Ao
zghIRldOI=dz_1OO^hSsh)mKqstQ0*Kf8L-ooEd=oZ%8oi0XGo10EhU~oBF;lNBH>O
zKD=&Z!I<x!UVFrsefC7(iLZ2V@i*q1-fQPGr}|C}?io_9`fBh5a&Zngzma>P_<ZqL
z=8RqkBe=BowGQ4pyl^CUEaRSDTO`AOc7Nag{)fKUHl9%y&L|sljAhKkbzfF*x{#s`
zI!m!I*#mPC4~}O^)geqqG(U89jwYcdh;Ka$Y6|V95T$?4w)sB@&ZFllbAeSCNy*yF
zw=)RDsLUjm4-mD1c}8tuo>4owV$@Df7PXU4DnfYnqg7>ti?7i}C2Bn`P4u`Mt^6gM
zJwt68O?XL{T2nSi)GKlAR+>y6j;hFU*$IkJS~ICxUQ^WvlRJP?iCX-a?ffK4hIX#=
zIkMH}jM;#5XBkoaVh-RCDRG9Qr>`fL#uTLIf|!d~TuenO7NADp;em&r-hO&bZ+34m
zl9P9C<G{wJx1C<wTiI`o_zTWW8<_U=X0f4Nc}?5Hj(EIhH}q{dy$+J4%T33+>Ce|c
z-`JniKfOPvcUfP?=~YsuWyC*PWiA*#KKkHQ?;5fF-M`?4M|-W;5Z@2G*Js=M+6H%y
zWt3qXyAa#mL#u{z&QI&jxRzHrYz^mC54VkWhU?aZbJs#0TL9bKaKZdu@3pM#{%zr`
zit()Ka8~tj`S9+M^0BOiy=jrDZu~_?Ma1KS_$vP8+;Ta5>Ag0L6<^lbgMA14I}mm-
zBY^(u%;-G^&+)!K-=J-{ve);nb8c*gC8HoV)3B@U!cbLO5OuRzbQp8P;D^x8chmk&
zW4qe<G=ptv)XQTOI1k={Gp?;2(Hwfb3N{~aX@WNkt*AI;FoUCk>%#<}A62|cV1u}=
zngObz;iZ$FarZr8_dTPo%Zta{n?v@^Vm$x0!^1ORadaLl%IRK4^2JWtk#^-|+-K5c
zB3NbpIpL{B(lx9;K^m)Hfg6agj>Y5BzNK3AcZc1(>C(-X!V_$|A*8$IXp^d|fX_;3
z5f3+T>jUO5K%+id%D|w$y{!#rSet{BlvMbn<<_GBce9sp+e_Q(HR~zjzzxF2Vc(@u
ziDu9v7<!JHhQZ!!Qlpk&4nZA2l0|YouM_x4uNpxw-S6SJyFBbJA9v3SyXV1Bw*ON@
z_M!G<x~1%Iq{8HAG+k*v(6Fy-|NdqrnjOa*I=UP7o$Q3gy-@?FTT%Wt3`^&szR`5}
z9fxD`U{_N!w%z8F4hskhK?7wWu|)vMmZbOa20;<&HAB)X*^+cd*gj)u-|+O|j*-ow
z`**)<-*cNmc6T|8Cj6OO)QXCy1zUt}{*qPH+UPoODQibi$=Y#lgP$+WVUV;=uL#>K
zhUUL(pDC+^NAw?NRJp!~S;bu&2AYo6r28wPIxcRw3txaD%&{nzn0J*GtPMdGYeSLV
z;I&NlZ2I&ZbI%Fc=g8`?3fj*O1TR}|-Q5;~c&~nC$|~Um?17dJy10?U3Cv#fPY&k<
zW`8ehNKnffN}F$;*~=R8`0q%?$YG<$Qu0gf#~SkgTYCWR9`Dln;goeOB(p!DG#)*u
zR<eQomu;ymLwSt7@_wWhf_bbZ&(=+9$K_%7^3l~}ZUj`mPqbt-4FNQR2&EZKQzL^W
z7;%#oiCW)%j;$?nZZiV&^!7CppaW-~L^H2qeOCh{o_Si!%LEHahJYXgBs0zTiX5Kw
z!i45NFnZ!$`vy4{p2CyA?fG4d)N+PE!x1?+ggA((?yyb}lZCM8m#qbFo-D1g@z=A~
z1WTuE{54_sn#*g)+?zu7O|tRRAv!e3EPp3z?rT2^Ym0cHP|pphlChqfSWkkLQ`S=q
z<(jd0EQqM>Xs2Rc!Mn?|w9$N<KAp8+X-;Zb)N*rDEw{3k1gls}(+Ory*gj{t>0SGL
zwJA@uE3I&JL$5dPV~UgykuV?5kD&M5Jtl^|LtSSvB_m6ax{fIr#6s5E#+q(t_3=NK
zh;mNa!OH~eNq}<Pn#9W}ZH?rNbYEUR=6)cgo?QGLY2|dZK(HAB3ENLjV$-`=HG<7k
zwyhM5-nFY|RNeCIQET(@=2jjLfkTpg`{y5QY~BAmCM$YT?c0fqyIJ);0LkLwL%cz-
zoiwQw&5iBPM4nw0wpR^jVc9!<<f+SB-?i@)J>R^=|AS{~R-6;H<fW6E{1H}<;1O2O
zbY>RLmQ%*u3qtk<vR=O<G8SqkxUwoIXfhTj-vk+pL4y^7y{zNyWUK>5XX$8a{r6iD
zj0N*a7KzD_#EmCd8B>vXPS`zX%sn?`pDP)#>f;)wgFIsz&7mRh!RE%GbcIQ*;qZSv
zGp@Eaa)6{$&jw@Vt|K@(VhHc09yOC?UKXg58{nKo;4n&94`Yjj*28j#L}bIP%qq7m
zunv5xRdvxNj@mXHqd~Gxh+~1da}CMEaSvAUXW+`qkVpti7LO<feGk25!Et9-E2RIp
zDRC9w#TE@T$(=Bu-h=0MYmaS%%)Azwirt^6b{%wm3=3xiNdmJ2^;44tY6M}9%F!*O
zh~<$Z2v-(7udbI8GapZ`DW4{wxlZED*TBmJL3X`axDQK^Qq@@zH~PojbzwK$QRaqV
zrSw>`nj!75di*(Ebh%*5k%r^Z{3!?~Eh=PH5tmHr_T{#86O^v{Pd}OR4P3&mPTFbg
zfF9Cs#}O^obvJfzVXLgOFf&_avmId5{S55%V86!>%jOj9PC6O$Knq<c&W~b88CJ#V
zj9^`DZ=^P2s_u^ML_>SRd!0NH&b`HWr{iuTM=MB&$T#fm{HbI`27FQ)p)hFffo7Qy
zl9w@?!=~9tTVY{7pHvnq^x|0yZ61n;{$@G=Z#!^J-_YvBoyv`B{TR^qc)X5N^b)ns
zpKMqezFmu`e+(xW*mp7@RF;N85dWwcu~QDVUpu>mPONUy$}rQa4@lN|=a$F!1okz<
zyC~vO9X;B5l0FjEH|qjxoA)<%wIZf*d!RlrH_&lR>8#SIXXp`4ja?m$t;-OgxxKZ{
z7}8keh^WN8jR?u=VLj~cc7WrF4kaTg#rYYwfRlQ|oqA@&aYIS8I*aYygbtq2tMxqf
zP9^q+7tEK9v0dy79*~3i+Rvcudk=UrQ_GDrG;GjeA4&8?9B&qf9iJfc;;{(H;u@LU
zN5Gj+2@-TLQz{SP;zDIOD7X2c=DhgFPPBA#*Gha%If#r-kUa*G4|atXTfhy|N+Jb?
z7t+qB4W*oS58J~9b9%k+=a-y2IdJk^&p^+3{?c$h92y`d0lXZ+pBuaxAQ}PO8UVuE
zTN$q0%5@i{hV41n7%GM_oX6Mi4!Mg%c4>bJYeHD+rXFi(gFqCuAHx`pX7ePESees*
zj>dWgTab<?yletIB$;dz3a$Tiu1ZdNcUNQJm3nNL9+$=~ak_)<+2~ey@@!Smaio6U
zJgCJx;e4q>%vizZCLU-{m%82-w%#Fv!vw7atC5v*gqU#dcR!PDNSZ~kRF3jFg72{D
z?!&W~*$Px4UxtvV4%@4RUn=;VK%1bI;8|J5D1@6Tc-qUA5g*w$s+;+!TX0R`$GhWq
zV!J`k{*{yINhXM8`eE#IVvkBlS$1VDX?BdH*$qKWQqPWSoOI+`nDT)_@JFN@&eoA`
zi6N#|gxxE+^YGYE)$q1tkswDJK0+vJ;*L9f;UO4ncR>UE4VvAF+HtJ8UcmXn=koEk
zwia{3zJ#)%<LY`+GxIVC3dRi$yun}GGc`=bZhK#N!!t1f!FwhqVsWPq=;#ctp!~o1
z8hU#diFlkq_!&I`EOCn`T4+WL>6Gpyo_>eKUy96xVXkx*81eegeyZ<N{l~tzcW|Mw
z65sjt6(LX6i2e2SSJN*qe0%v@%aa|{`GwC_)qinEL(|c&?p!v-q{~t7!4|l7Z_~o!
zq@1Xarkr4tw81qt4kvlx4;IIe5TfqHlEx)6$tdqg)h~`ZPt>ahhRzf7HLOv;)~H@f
za5#=?N_B57kUKZ*_tb`0d5ZF{NW<~=Q>1ba!6|}vP6zBG%4eATEWv4lrwKksum+z~
zK2Pi!0?{~AINpxtO(K+Rqc7mi_t-`>YC{`Uz!+fMR~Gh_4SC0Wbs=Y+T&KZN3MeK_
zFX33{NQ0PIgn|XG9nlU`-iGlD?KL~*CwNKYP{o%mx1IzLXO2{&AgTZ2y&dL5)<d^{
z;!a2W;9d}8!j7J<iq{Z(ZQJEZlrTPt^#zr~a^ilT7o3LP-%A3EAt1tskkrb1Y$3WL
znCvPjS~?{?B-x)w2LF>}Uw|)RD$cTCOl<1g)Zh5UtvJo^$&4pxw?Pk^s|Jq^E*>tt
z>cgRYRo8)c^`BZR%Pp!s&smx+k6MG4N5!GSXY7yKg0^QYkJ?XKs~yp-H9H<$yM6oC
z4ePdT+bFg%l<f)XAZ8^Rr%q%Q#QaAiborwVS%cmbBBgy=I<Ob=P_<3lB2i>~UYf{U
zvci(4xplumF&%X_h>%td4c*0)i&dxH{8y5S#+2~LGJRIB{R|G|W#dn(`12*{Y$%})
zEWfD3GeD*~)b{kkyS3IjB#Dy%wQ)|hw&vu^p}c@nB}<3!aEK!fU`xTaHW5mY4w6-+
zm~s{`7%7(403B&72v%fDFmcb~#yhi78qmw_<MNmOY2euzUF_`EzOCb)g<;Rakv*^P
zeRc1<p4Bm%#ZxK9IrLOi+iXWSLCdr?9%*i9h^9Bt5d(Avz&#Cgl+-HkC<Cm_R|sg)
zD{_#N?-^br_!qVu&v!m!xs_sb<lIV6(LB?O`_Y0X9Mr_74V-VI_GB$;#hdVw{?ohU
zf7Ish1Nd|_A8x7Day2#~=33X$qar9va&2E?Z3&#DJEe48?JiXhR8x+*>qDBuxtya4
z!aIl%W$KcYdk*?ILI!sHj|^eW4q%*9v>oeHDG(9(MAA>Y&ozEeN`sy!aQ*2{T?8;Y
zZfR!gZFa0u*pjOGBX>Q|9%vM#wCoa1EcvSN<0L|LC+d5YK@>}j3UJ_Wp)$(XwF?Ov
zo@i!rM^V0s2R)?t2E2y3%W3hIk7ZPx-ViA+zp(uL@~^L?-=+=EZ0bF6=H&Z0mC-WL
z!jl=}dCS9j%ONVm4GN^b{8T*i0PNE|*{8S5+0G*dqSg_0y5TdrWk~=G&DbtxLfir9
zV9azl@a>vXWcfBYshKus!1@DDcRD@e4Q#NdwHdrqV2CCEK5-k`@Fg>AeD<!a<Xqzi
zR-sd}m_^gp%!#mOLIm+@yE?&MK~5qNF;={y`Jd+nu}~IW;v|!C6`)IJ21*(_m~;k2
z#tDh^TkIX2<K%Q41ePd~DnopNpn!d&6%U|qr1RViYz#w%O9$)e(hFx7cMYyYa=7-D
zx=VH8!ljq}Z|A?2f7QDQes!c(id<cB>l>Y=-+In9;2NwLY`xHSzHKaX&T!|*-tk47
z!izRRSaqc0%w*h`jaQY5rR)=ROKbIp&XZXDdbOy>LVSv*Q65G3;sp7KjgJ~wZoL6u
z>}J~V7OoEXMAA>YFNS}rVfd&1CWb#P$hc(IVn+3(8rVSUufqnSWr@Q(E@^7>plJUz
z$s#VYiN8(o9fI!?#MuVNDA$4biP<QcKSkck%Xo1HdkNV+dP(Ld<{+!Xd8^qeyn{~-
zZyUWQwDu8GPGY_QWUwn^qnh!K9*bdw+ml)uNkiOvJH{gGob=PW0`8jd5~*`$EE#bw
z2}DT#L1TQIH}~s~-A;kaJ$)bb%t2e1<!}|qnYNj(%+w4KL`l!ulrNch*D>Qs=xF#-
zJOm?n3_KwAz+VP@Z|D-K8P~!|Tlo1g=U9fa<>|%Lk?*H!1~(XRHU%|ot2BH|o&EI3
zf%F)CLz%d1GqjsAQX;ilNxws8bfI*X^b>TU_jI+F2)b~&Lk^s#)RTj9g(C#>?aF+n
zk25_6fQ6@E$X9vcJD{Q=TDvfq*SWH?fG-Nh-OY!^!F(65Ed;=7>6^TIKS5H!c9(Pq
z0)>;Zh|ezuFj+Gds9awi`eFqoSfuj%7^aIjO#e4>$1t5LXuCYZ@S=Ap_vPY?#lyQU
zmW4Cto!%6I;JdkR^Pp>J(aXy(E+1Ad-WSSWFy>i!dfg|B^PX|m1v_s~AL6~w2|MQu
z?}zi;2QRO=>fC4^@qNfOTtE03V{rGY*^ivw`WFS|QwDZ-J-6xUO>({wZk891EE=tS
z$92`dYjTM9s9Qv?(6kdW(S0=P(XfWb;GqN`Y21|p4YlRAq0gf!l7D6riy40b^SA06
zQ&Uc1h}x;kgvL-QLdeccY<4(w&^SH0x|r#MD5AoFsC=K`2LxP<PYy@@3U3iS#_qBh
z&!D?xB`8bF!*=-F!*t%ie8@RmJ8B<o9lv*1_}*QUXK^QWq)PL#4&}4RDVp5@r#Ez1
zdIHBb+D}NUAzMpFW7H>u1?n2>CL=rL>IWsV+@dG~wht(OW^Dfx6JM}Go&4P3!)D(1
z)bHY`s9T$T%{N#lZv*2@%?PQ-swz}7OBX<^i3$0P)=zRD;#EHP2LwL?i26H{x0KDJ
z24aps+QmZ#j4BcjIUV1LR$fPThuL!L@h!Amk)^Qog6q8Ng6F(vykL2_08%^j+E8jE
z@B$G0gLXR~%_&sgP=Dv&%J&qehU~eqB8z8Q$X+4@dUM(834G)?(H@#KWNyzUI(?B&
ziAli?;MD(1r1Y1`DpwM_m*7PvN%Lf<{>qQp5CpxX9CeUFl95(GlBLYXS@KDNE8K?Y
znHh;)Tb@{JYCMWy+L|GNz7r3RnhlLzPbR29xr9IoEVn)b@SC8iIBbkQt_CS~N%2MV
zboxCXK8qhIu50x;$4%a_DOM@3`T|uq$W-s(8S;Eyoa%z}h>kDD!Trcm4uN&V-XP`0
zzTKO|enRk5fGNWt{)|r$yu_y3i9FC$fduv>V~n6z%K#(j*y!G}p95#Sk^W<0Mg!OW
zVk-_ib6BBxe^r*L`Q6TzK2{r!Jh^`%tlkhkva_wb45}NsO(kL`(Ftq912}%z(6K*i
z-v^jrBFB9M6xwp@G{89v4n~`rF<`lCdi))ZpsixLYc=C|vL(6b4I128nk|f5tS?x1
zTP|TyDb|x15Rx-pvPWHQ%_ka~j~wkhY1n>UPo1N~5QY0KlK<xfGw^PbHC?n&sAgdT
zI*BmKJ9y`3XtG;N@E+8)aM@MddyHz?kZ;T2stX&=Zx~vG_2gD0hs$4?b!pZ}`K6jG
zzAZml_p|Lk-X8XC2|2e&PGsD*(Ul1}-ToUGHQJ$klbHZIJ-sg|mr0Sg0g@;pZ}9G)
zu)EF@b%%YS79p-I>@FL3F9^FAjI0_tHd=Yvez|$fy)|UtDzzy2Dk<TxFrlAyPmh0`
z!Mg;#lOOus?SRUEA-(?V6hw<oOXx<))l&XXy!Rf+sr)fB;F2SuroX)|q5LTe^xvnb
zmb}5ce|4L_AkO|-N9#v}m)E{CW6ZrHWZxm{$ib@ph$AD*EiRA5X?NiV3Eq&P$?CCk
zO^PmS!yln&g-&_`4=P(RoQ<}VQD;+gODhbHjw@kg_qQyU+{MD7Qydsw*T1T7(;&{N
z#7z-$#4gy*u0}Y5?rz@p<jyWw8+Qkc-O=ocXxftp8=B`Ish7x-Bl8m0^?H4%h(mp#
z6roj>(1D5?T(ZY&pp22iR{;{$R$9N2`*dR6gCb(wpl~#a9>*IKsNyY7bznhGOJ@FH
zTF6%xa;hHVbCZg`YG22;#wWYWZ&N$@$gfu!<-N&eFO_|Ma@iaAb-+SP`AfX=FYNRY
zAd)#aM740RI~8__2ixIK4Y$zL@8eH24e!wwUss89d9TkxSMbPGdxqb`gZu@pR75E5
zPCP4rai?0JqvF-bhqWhkFM>fk0~#QYdyq$|ArGoVZu{ofEy2`p>iOVHrY>EO3u}|~
z6JIlySogvQ6^d?HXr{6kGp~sX0W+^nRW#qW)Ilc)9p_-f)_{rn!Mxl-*EdpLu%2S%
zL&||kKdnXXL^+n=PS2oS@Dzeu*gNSiL;QN|aPYz*h##C%#IHMoZvA>1+)<<pw`)!~
zgpp2_UALzxS5yXS<j5}=p*c0a@6r@8h+@D!OYt-0M6Q?g3+fJG5Qkh>@dS0RkLX7!
z!3@!(Yj2;^p^~Jmkvvp3`I=Cr*|1`?%X_=Qwt~L@-(M*IBwsL$qs*R^ucrk4#*tE;
zB{vJYr$5p7MBoU{83ztF9*3o2XMmfdov<o|Z7Gbz5#qN_N`Mith3+{pyz1mFnkee8
z?rX-S<1HO6jExRU$_4Xl0|(kW1Bw-0rF#~i!`64;iGAv)@H`@@Gk9?aHa!FKKzyC_
zQTZe)r#SGQ@@;%j%#+>683*`@IBR_(0FTwOa174ghEKuK4SeO+1-2n@W}t&Hq))bY
zDFJzc8WG+Dtu6bMM&%@*Z#g1&7B%xqm`pJ8wv03!pRei!dsO}}Ftu)kE)h;60+N3Q
zx=Y~<hg3sVW(npxD}eabvs6|(tJ<%;g^EPeA8KsvYF?)(2$=j7YbLaLNxL#m*7jZA
z<<uI@5GIdH8k#Zn?QiSi-hKz21;|i@o?Ts-Pmid13NeB#TKNkAZ20Jtw_x#N{=>2N
z_7fdZds90+5O~@ekW!6<nZi{q<v!X7W1b)%=!j|wz9nZ+Oeq$s`PHA)_Tw-;B0k57
zru^S1hZWqh;}6k%m^xD}PS<l?Pj`L(M1T3`dfv|{2o>HtmH|(b_eIj2&mDjIc<;W?
zclWP;`m=D5mR8LB#TyaPH1Ch|LOXW-Y0*2L(4GfFg%6EoJREX9%vYX#`pN$Kb4v!6
zsE-$}9?Mu0a;~|KJ*UHchv5dmml|=UpUv;f@6Yb9=q-sMynQNM2A?}VaC~szi`_#z
z2R=K&Ywy=Bc;)b=!<Wn7u6nELCa;{{fT=z!`&|A&{)>f!jTiQx-#@hL>xaVrDl9Z+
zUYa?Q^}U+WlyJ?m-pbQ!-_I@{Tst&<EPLkZtr9OE%dR}V6;UCEvcp-Gr?(LE!yU%y
zEo$L}{oD5)<5erdRVyy<eEX5N9)Ti^-~AXHTG?M&Bw{(VUUkoYKcgs?V)Z^|y=Alc
z5Iof8N{2@`Xwvepq!rLg<z(N<ao_Z?Z~C}zN!Yh!)DM?%C*DaL^TFlkj)=?Gzx0Z$
zB<aDWVc*ix^3k1_)85G+^X&{dcV5pZ7`$(I@o-IO;jU2O?y-zLA*VdyPB#gLmfe25
zyEr}oRZ}pn*|)=K9EG-pM;0W=*PJNO9W1w|lGR|q8}G0}R{Njq%Z$vNv^<LDn@T-x
z$CbZh$7hFAWi>1p6J@o86D_*PpM}ERX<JCl^eWFrHT0jp#x~swid#|zQ}mf$fA^5d
z_7LVaQYh&cwCOWFwVFvk!%WXQCH>-MP-ptvK4X~aRoxDx1A8zY=O)$QXwDJ$s0`;#
zsX>Q6)29l|b%!k*&h&a|&Ef!=QzIc>QT%<AZF94&a<lk9+N_LCE>&LR7LKa#IDt<n
zVlEowG^9^Rnlq&5dH+2E!PW%}7rb5P<H~pW;xs-Yxb)w$pBfpoh(9hm{dIQw8w4K^
zd`R#S!7m9oBus736=o^GLiYa;@hNDy5Pv4;cb5^;LlwBR&Ip%>tCnA0_4dZMHX0bA
zU;22FDi3k$&^l7jgYfTo#@r8v><>;}=5myR8ox;o4>+gB9XN41Vn?%rlNm<>8=-PQ
zXzgG?_^RfmjzCujg^9;_s|lw!K3#RNv-4=jvbl2`l_y({*R?AL=0Z%EJAYyQ{JMEd
zmMoYr-RL3UcUyC7M_pihduKC*BZy*<kUE+J>J7*|M_b!l#8sSHY3fosS|G6<Rbc6_
zbhb2iKqM1o+kLY2I2N(Zie5S#Go$>)SdH>PNw8fAP1tSeYJsSv7d{{@DFXDCBaeZ^
z3)7)zd(foPZ~_p(!MgT9$H^m*k(8FE+Q5l}Elmd@F~NbjsE;UJ=Rrtd`@7nj7#)hz
zn0SllQCJ1agjKrV@4$+c_rmcZ;&Q^*V7!#-36*6yLDzUB@Z_=pM6)i`qMg#1UYF(|
zUKLiz;=Ah8>ZN4?7}>S#KdHXj(iSj0DUSqc**5McDfMg{S#FWzWOa8IDZ@6GuFKgS
zE~Us_HQE&$^(o2($1cGJj$JMq#1@QH_en#xny|ZOxPBOCQ5T2oi$$LoZ*=F;2zc_h
z^aVUJ6N5nvh=oXC0dMWdy#r&md=CtZKP*qQGZ?~NTDh52_-Fy_29s+l=4a(&Jo+it
zh<k~rEq_&0f2K<{akh@Z6|Hm0$T0vpfQ`#?PK%<vOMu*IVwScEiRLiz4Inj~tzX3D
zGzR5V-o*G#-qMMB5+3<S6ynpY06DkZ+d&-L!mzz?uzG0s@NAsx-W=NT=)3mEq-w>d
zM{`xTh&?z-)7q{yHqhCWdDzw!zh)J=A2T@|t6I&xN!1hv_ge7Pe?onfe<m;s!zx0N
zlJtpEz28U@k)86tki`MgWxAw`4BcHCwwDf`94^E5x$T|DLXS3w4jc=0oO;*(8QH>W
zkHRa4h}2Ku>YZBH&{xUYlYTvVU!`>)L<1C#KXKO53TsWP*&ezkGC|zIS_Uc<oB3Hz
zQ(;VOt7s#HK0)C%l(`tKVL+bbpP?S6DjqFI1jNv-U(6Ic29e1`<k510br1wMamrK`
zWcEPI_ZA8jO*`D&d=v}!1EPeN8}4s;`rrQT-+svrXq=uBE7CHIj;IZDll1Z^EK(@q
zL>*17jYp0~9U_RRlEcnK>lH}vUf@v&robl~gtNwI+I~3<l)u1>$uhiCXj-vxuQ<@C
z+_&!d0v?0?u3XT-lV#!g!lC(JpEkUD)PB{s^68DI*Y(y%q|ETeBZJN1jOnmA_2$r_
z;$X#vs`FJt3x-w?&KdJoonDW%X1b^MKwrt})$hA9&KCC-f8{|DS0U@ghN0l_nlabB
zao2*dYr$*lUf=xc<}ufOr&mYZ-rnQA%dm$nhqH((E_ys-Q}EoJFpxp8aUPwcl?+2x
z0F{?B_y}W=%XGqlWONS6(72;~r|xcKXma=Ud#Vm{5?d>k;f75j)XQ=2Qc^)&C5^yI
z;38;1A(V7tVsCprllKFdg$XExYdrY&iHGMEC+%2y#fuz1!*+wd*8=XCC!&0d=<Fv)
zibg;6PI_q1-q7Q%CQ<CuR;ffwTdg8~?unvL!3ST16g(6zbfO*_X{x7$mP9j{681^*
z(2yE48-9n5Ha8i^0>>Bmz^$zSpOD}<r!CHF!<>U5WYi6BKMt;_V_DneK8mpcCpdqP
ztTCcEH$+QBLqI%1{G|q|jX%<k;7LM`tIkr^;uRSqU_G%665mG<KW%gvqey8bI6{!g
zyKTfI9kj?Jv}9HMyqQIiO~8_Lu=*P3j{jBdFsCS)l8@KVunm{vZM0#PXv4~|y;7V!
z#o<%@lO`Vp;s|PKgj?X)CC}*nOxRh96J`HU=v6nrn~;b8L&?SO7RzNg7GuS67~9Dd
zoKx|v>Nwff1g8_Ns8PZh622%}52eGqI6RZGeUG&LPd=1kKhfCI+3h!GRmV#|Vx_p0
z!$AyRwiwR{u%Ubv*(zTnI7d*74<w%{DC9MQSD6LZ$~Zw`w>ok}CgM)Qz6}KzQP}OG
zum&cNmQMc3u`Pl*;|u)JU|UI#yIIyIrrpw_f*yFCje=0^M?o}46WsiDBDRMDB`00$
zhyo#WNGg?}&@58(9(5eRP&%qi!#5H)yOc84j^K6Ht^x%B$A!`L15ZEDzkYDRVApW)
zUHgK+Nb|k#EB@kVLe6Q|oE|xS8}~6t6;bEKKt9><!ht0lhEjZWjWb{a=p-0HXW7ed
zASZ1!ImGD3lp>7KqPQcb5b=z7I(ahj$U~y?D4|k`>Ro2_<bjau?hLLW`*#ke4dsp4
zFBe@kY?Y^-XaI9-ZB^`~n-3Nk@Ub8wZa{Erf+u0s<$|PcG+Rh>s`Fsgt*9D!13u|8
zIQOY<9Oyh4P1o%&I}%P(>+)>`C4J5>w$xC`<lpVjNEz-LWoI=L!(DzY>9^l@94nB`
z7O_p1bdO2H+bCi3&v4h|%llLGye)?~@g@DV4z7OR)S$)i1+-)GPi&SHLp7u;sNzpR
z+KVT2%pen4&D2clre!tW*0-_rmo4!P%wP(?ty7Mh-bp_pfvUXkl(o%|9C>~{>4%7f
z#(eHfC0Ed4c*9|)!qVt!7FbNX_dLtPL6!6irgEr=$cmzd%H~c^YvR}I-;YQY&p7-1
zYb{zn8a<W8eSZ0F&?z=iYvKDu=7pFU@olF=rCM(BzhH&#L*?<bhUwo>*{6uUn8LG7
zP%z4`JkmK`d%AOmhQ*^^^!d3O)Hc`<0|RR;5xEv|ZBHS3ZI4&x(_uZ6fl_2J2zfWM
zK^)6WSk`(4El~dWohNPlugHQZ7Pl>PH%1G~+hlLDHKicN>%E9E!IE2UL-o`<)kfP)
zMNM|9>l#Mrjn@M4M|wOg^`TiBHR6A<meBfRV(mOnraUPkeSDHynZ@3S=Pc@s8gnsw
zX1A<!wX6GqbP6I+$_V@D4v|v%?K14rDUGU*N!&QOOpP5Ol}#rDvsVV5y#GX}<j>*}
zxea(6A5kt7WTT7hQP@us#0Rph1^E9~9l%$uTQJ9x#d0No3U&c~DM1T~#R2s->p3ez
zfj}NRY5jrig!NL2$Zor|9<fDJ>gI__DC#jX{tnK4fxu}gT)9>pXhwXyqsqPAWgYtt
z967Frv5Q9o&>w&=bIYw_y!=leS^nv?B~-HU$16q}2X_wD4j;QX_uXmrKVI?Aw^;no
zXXRSOR%>;Rv;h{2G9Ld`Xj~`H0Q?>?;e=l-!=7c58fX}iVjHp<o)vAdxrAiU-U^vP
zXsEHI!(4X-BvZbO$D_9HmZKuznDTSH2tifMxHC`$F(E25iOnLYBB&;)A(#yibzzSX
z;y7aHMG>JLY7UrfM{Q_f85urJ(kuwORk(lcM6u*#8clh!MX5&y<}&O3lB^yhEtOSx
z{J(Kd--NP*bg@bc9Ngd2cMoDBoEkXw-R76uF1Eea{Q8kskA(8phTUsJ_O&7R+K4;r
z?8?5C?>oI`y?tK($>__7Ic(EXCoDGl3Af?=n84DR-+g`eU3Hhhcsb-QxrY746HlM`
z%8YZf2WDSMn?{HFYx~yr=hNN(n5PWx@zXM%>v_7T{}{I6BECEkvtiX2KP%#khMWwy
z9?2>^H+Nv}P-Fkxv8<}Tv}@{9$FBGSA!i`u3!s4G?m*ZbxazJ5*(*Zs3dWDOU(rjE
zJ###}CY)U}mR&oZy&#;uU@UtP_7#y4!$0hVzkt&lxv`qrU;nvN-^d<gmjbw2xH00+
zAGG$}H@NSLJAi@=mJihQB4DZaE4d6aG1xei{c`Tb-0$R%`K!a8>fTlKp6^9wW!Qb}
z-}n5=_v`9kn=zX9qq@trp&bpO#`gE>j)pU9V84IQ;JTrEBH2aQL0uUsEE-%iG-EjJ
z;+#<7y#CdZqVl0x;i8)UHIba${$@Nm>-@H{oSI=}WX<dAUS0R24VQYtIV-N_)Wlqt
zxyP&snJT{OQ=@SWHVz!>-SB>C`FD}$cj`uJ-z&XuAe|pIe6ap}&V|zRrNh>-!kXky
zHomxaaM#fEmuFm@@ts-c_l}p$50}gzsUIs@6wX=nm9_Y4+5J`wM1ECDw#NN7U7Dv5
zIkjkJE@l{}=sSru$UXUI5PI$;R_QiL@jSF?Qx#53gT5p^V>MN7N&78|LR@$z{iYO!
zOhhpgQOHPXHRmKz=*~4W7pO!qNC+?vGXYMkx7j47-GgY9F2y?tKf3jh5Pni`Bm9W(
z2GexmN0!52OLoY_>PUz_oCcD9T3NISAEB(VUV;i!3P18IyW*l*r*2<#8{r2_v?Sq2
z<Z}n%hl0*+N=QLRmd+?9LEu@U3p{3GucS`uoob-f9|F(T1c65@d0gNrPa+|b*sI3W
z#$SRs_X%obwxEdTrq|aa#GLJ_nB(j|AcT`Ae{DI3!jaG&YQedr925|8j}&|0k5W7_
zrTBAKr5~jZ%_{XFbAcs@Im&!o(FB~1gGx)=VG{voHh6}zfVnIrxPnH2`O``Kk!t0*
z1S5nOU1U)f@o_4cmBqyFAwXY37MiT0EM-y;E%a;3D)M~fa%QoDKm-d~Nem)7j$IMl
zPw+|Q5=jDOE#7gV(jDF;xupNVxg!HduDGX%?9<@`B;xiYODmzgMPc`%kbP0ey@<Ds
z!bfuYHzaB#ND&cpQRCMTF4SP0kY{Z#J1#oDlQx!FHM|H%L4O0nMcurS1+Oo9b<vOR
zxzsxPV0g~z{#BZ^5&q4{79}v{k`mMTt>eY@;o^D(G%8*=(uIi0_;}-&&14I75B;ah
z7V~lGlWEN+$B9uD&H>GrfnW~^mPONgxRPye?>s1QC_9BL&x5~Fr_h;0yDqn4SST_d
zDQK6QW~E&es{W05V-0&b*G+V>k}>X9Z826{E_eqahjxYRyM#0q&D2~jKo#DG(8L`G
zHQXg!g$5PupEn4dSVz=nNQtMsSR?RsA|TXgP{p;kb#=(6#eEli!W@7z`ryfgLxnm~
ze*&gIm2rC91WLGX07;U6Fkf<<o)uTanwg2?gt^|FhfK6;J!x@wZl|2k{W#3@U)a9Y
zrYC2oE@H(ea7=nw;hu8Q44UM|MD617I|`RL2XAdlgO0)#wDHUa??dQ8T3|SQ+LO-f
zr#wMBLfgl4_h{cl?$Di_LMVF0dL|V+9U0xs!-r|yC-TUI?nGjKMAO71-;=Rltm~mA
z@Kek|c`AaAQ{FRJC5l`g>0$g+wN6I526c1%!=O0cJAxDQqNE~UkIeVXlgI})2Gyxu
zT-l46?#2(#+<12Q!yoirfAjV0Z@d5#mqQ581Y--e2Q<J|_$b^W$^Df8qCf_AoZLgt
z&w(31{MLsr$PkbpyzqNB&VJ{{+0P*+<n_@P0(+E}PS}|slBdl7`snG8o_kGBt?Uxg
z#*2kmzX#{{xs;CE=tk{0E)C0Bx=)qco}7v>3vEK5P&N~6A=pZ=jQ|1ye8_2;AdHjN
ze{sM9f#}j;af6QiWYi_q%|z1>)>&N3<N;{I2<eDAB@LQ`hz`--5luhP+P<%`wSl<X
z@L<%V4kJ0tZnr5kZ7Qk?C$<WO#tj_vWvC|>+yxfIa`Vp&`)3Xv!;<mz=7@LNxVJLw
ztrWYhPJal-s5muTgy_hdu@XP@>Y;b?t`_d-%eYopaiQdV$<Y3>!a2Pe*Ru--i{8tw
zL?Afdw7~;cd^2SvWUL!ky;L%=Dm43E7<c)9{8V`M76eevnlW@BoK=UXiz|jcg#h%3
zOMfl9px60+Hq3{s-^<3LHkvI$CTE{-=ueN7&KW)wE?wI1j+E67KN>Du((l0(HvisG
zW?(3Pc=}LDII|8Ha>|Bk$Fl1pWzz>X#_}yWvu~DIG7CZ_wV}E9jn7>hp1bz)&at^0
z#!5CsmTh`xR(RR2kf&tu;n2**p=lxl`2tJM40v+&KwY5vTUFZuR#^LBT&=c)Od)Vq
zQ#)*zu)8Vu1jrY?U2QG23qlA<zLBy0frhoaR;}ODuw&N)t9K{t80cKC1ReDgaJlp;
zMr7P~h#OCs@j*|I^NxHl{SJK46Su+;e9&pi2X&rw%E$-P4V>z$;7nfdL7|Zazj8t6
znaBsdFss%0AfhU(x?3M26K4oMm<c}UH}JtsL+;R}A~LdH@WG6pEWrmE0XbXnLBu>(
zY~XXbZQzKf=~pFHTb^Op#D@69Icl8bTyV8`Di3?eGKc)0T$FY#m;hoQ_vF$-q$i*8
zlocmpD1&$QWT_l*eK75mAG^=uy@Wf|rLu%yppI7MqG#YAMo>gNnW^S+PUWIb)$<eC
zm|$q@mDxbM<^o7QA$r^O(J#q3zuUpqZv6Dc#J;z3JuLB>Co@5%hq>+~V-qSz!2%1C
zS>UI6|8WAr2OEezK_EC{BQdhYD9%b_y9_(`4G2NdaI_WEeZ6G3s5Sy`5Ijim5W&L)
zj}UwcAev!ddSIE+^myf>Zo}Av1%YvtaWziS$LuG?Ap={4)m9KO_|(Zpvc-e=_(`(G
z&rQV^i)zM;=7x*rj#$Tv=7;S0W_&WI@Z6SxEko(A&3L`$)tbu>UCr6r=em|N?cCOZ
ztwVWZIaR$b1D|x~^gn#X4Gm-t7}wq6ljZY9io)e9`ZEwvKBpp5UOBM&TJg+K@%&Iu
zb7*1n7+~@INI7`uXlZE9hH&}D{>}J&+3ewEBcBP)UKcK1pTuKxN{6gpzIW)Ukw?R`
z?z_D8%FG?t7Oe^8R1Q5n+%&ZJO3r+|9;oc!7+JLOoucrfJqfqwk_9i+Sn%qxlGRi2
z-7Qu!-tATc=f%D;Ed`}HlcnT->>P{vTnE3rAGhT-swJwe*j5*=cwktt9Vkt@kqQ66
zN?_0W_3L5$Eq{1I?o->DMsVWo+t+VbdO7#owr}54ZEvxlNAQ+ad;r;SyeSWf@3i2|
zK0db|F7{ZM?dx%yi(;82zaf+28Ue=K<clIler|j9FQLvqc@##)3ilusd>RJn1e_rh
z?#nBbOvP$Dnl0VYx3$%2Mz)Qu(Ui8fXnH)YTt&g6ZrZQZA)NPtW<{Y6E}9{(z!J7o
zSTZYA-9<CSMJ_oS72#7&0aJtZOUsjds98bW4TOnoZfk1Rzlfll`o*YA`)-Fco5|5%
zq*a5A)*4ix=Evbr4sw_HUUS>=4&@p@<kg?2Wv#G`QReeT-lj*^Kd@`tx?K$q?q1ih
z=Yd^oHa0x4W4H4E@MeZQ<fTfB9SXI3QLm(pdK4_`-Xso!$<tY65{exJR=97eR1j1W
zh|Lzr;TB~c!D52t1P(lm=*2jgwS&nA0iq=jZQZ)9Vb=p|wl%EZv7}+!`faNkcC6a4
zu3^=lJ=>MX`CJphVFL2hsH3wBQmt}|7rsdFBEcZRHwZ2gyiD*4!5ai`6Z|Q`pAnoS
zh!Fe@!QT?Z2>zAeuUV%Di2WOZ4ZT?L07O%FpFFauty9V36$*UHEP~kt%LvvGY$U+=
zLmmX5B4{KyK)@w{q7a-Q=q7lY;0pwO1ZN1oLhus7Hwi8f{3im=&B|*8JTIoaN$_)m
zKO?w8@Gik$68wVTe-PXt_>kb208zWx?D{*VV+1z|J|_4Ff`20T-vs|mkdEH3<PuCL
zm_x9GH|`<!D6wV4RuJ4vK$oz}Dq_0{9wPV@!D9rUCfG+nUvo+uK^Fnf-YB0V=p}fA
zxtt|7K=3t!^90`{_%^}I1iw%43c()`j1v5W;AaGXOz_tP9=2>HK@~v_K|R4e1WO54
z5Zp^}Kfzi85r&W9=|uE45y4Ev`VzsdL<lGmBS{7wq9a2Q%Rsuur+QF1NkCuL%JT$g
z0HT?i!&c3St8mdOyoO32kuUR6`W6!&qlEJz=}bqsX%Q!6==ejr!Jyv;=>#E6jK}fC
zv37B~P@MRZXJ2SPFHFuAnr#akWno$>>=cEen=qA<7Es*X5qpY4fu~TvAr?Fer}wDu
zM04X|_@COZTKFWHh((<%q+8y5mCxaEw4|lui|Z|xn9XXn{-e`kU1uG)to<8{=YLqr
zLYA^$Sf>BNGW!>nSsz+zLYA6eSQh`nQt%5);4dxih(CYaUl;b*ozA$%XEVnwWnoL%
zRZIC_*)nN#Ru)UOIaXPJfdJR(R_nC>X1Y<0S%408z1(xLN1&tjTf7o;ev&6D1{Yme
zaef6~tQcPR%GOI;1v<Kic~s!Y<BI!m{Lwm3dkm=d7|_VH3LK%t-vvwL-!&WHe$hHF
zmTt59`WKyBF@T(b4y}86>qX=YbObr$Pt3z7W}K@XsFhDFdU?e~`S8eE^$9zkSVs{k
zW&t|%;LCe2?iJ`r@D{Jc>MS|Ak;)m7>6MX+%1Cw1%~{n}9PrFIThfQ4oxralCN!Kb
z#~i>RZD{e;nZjYtd~STkTuh}~vh!kYV%Q1v$GpTc5P@Bk&&L#8Qs$g(?Q4zsnaZ;G
zb7I-Vax7W7v0P$#>hnW6;j9_4d|oQB<QBvVi51cBDMP&%GgYFcrZH7&$?(U@hy^TV
z6|r(+6_(QS*mPo*mT7_53}Q1am9t{3Vyw!NntrRA7}#nO4d%=>&;a-~Eyg@>(7>N}
z&NJYNr7`8yis51kTi$*_EjLphjapu&GBj%Wn93xz{KT?It!!dB8ntqn%G0Qo&r|`a
zRY<Ie)G8)cl0dC#yi`hRl@SYQ1uJK&LQ73&s*=>2L2M?eHH%mksZ~v^hSZu(td`Uw
zG0;swt+~WDr&wz0BBd4MrT1OIKJtT?ADpP3Z6FtLom{{T<YFpLE~et-Vk%B9rsCvc
zN|KA1Bp0zbxtNNRi>U$&d?fE3*gLc~oLdzu<fS4~u$Wj0DL9Q-X#xeycqu>%mJ^H9
zj49Ae_P!ZR&9q>>fuT868P1*=o5f32mdxxJNdW?aShI=kwWb?L16&_Xz(E>yJfty&
zBg+1mix@_d95rsHJla!UrZSkfk64vu*6f?SMxT&ygdVd2zlJx-F&um%-cy-!szuhm
zq4r|+8!|Q68P1#@OZrfaC8yw~f01>SHG=Z?^!3DSOk9JDN)7`D6ZjSa?U0kEiDdj^
zA}M);Kt1gEUV(x;<i&gf%|y_EnD_=7IMv;|h@)sQS17pzTON6k4&FoVRbj{KTiN0r
z*nOj5`OAz2V?r+&6NZ9`WV~P^>9I_!xUlv7)|gi$Gb}}A{ASE2lCswcG>c`;7AX2%
zUMyFjc`UXl0eajWi(M$*>9M-3%XCTt*ZTx;6gS;R-aBXyyGmkdyae|+*)bQfbgc>9
zOnEFBSurm$*(r$SrJ>Hlj#oUFJTVLL(FcFF_s3xQ#3L0o!;4;7acM=k0&|VHvTmb9
zuGQ9yiOa#O*Vb%^2?V8?RTE3&HI!n}ve&o1x;5rflk2UUt+!+%Gaa~IB_{MbF~Le@
z$%!iLDvP1F<C?6MK;zXCNslGBNK9Gihj=i9)kKd6n#s=Z7idw6wN9J+fNFC$P_4#5
zBYDM~Q|lrDI!CwGA+Kf2Z#wMO>4VJ|TF<v~CY&yPn+h~iR(YZ4Jo+~-M;0#^f3MA&
zJL0(b*%;rtcHf#?{2TM6TenzwaE7y)jfrb&0t0UgE37gL)D_7%*AvNfZA4@2;jVFj
zBZ>NEv%WyJ`T{K~G%yn2*TBpi_=``0nWYiKbetP=5yJ<vVs2s{bf=h?ScdjdA5-zE
zn5itSUu83uLxSfL)28ECK2zx7>9-1rE%93Obgl#Z8n_4L00(duNJ<51OgSyZfeW?g
zYhx~^(wT*uSiosuT)_1#fE%)4DxL*XG7DmPnbvf@6u|W?fE%)4DxL*XG7Dn!EHkPj
zl~p&rnbx9+D(KjNUsGAC130omgQO7?0#ETkam>Y(){KLD!Wrc;H!o>TDK9Zs&^?ha
zgxoX2j+wW7yjPQ9eZ(43g$o-K`iGgomsN2hO(em)@?$Q6rd!gzF}Fa`#NL=!p#0Wz
zd!OEW%O{eRmO1k%c|Ks(WI*DQ1;CL9@XNVxm%LRX@zBG2#~*GAKinjfk(t#TI}cbR
z3zu@-a{xWS-nn$;O`F5I+X@fFLfj-iI^$=xKZX=aJhbD%@f~}^JHT{Aa{uA+{YrR0
z*33+bYz4AvJ->ZR<Q2<Gv##tHR&-=lE44BLg?xNr@A<uCQ!69O?i1f3ehu>tg1V7W
zt-LmWvHZJXi}(w|fl}aGD}j}iQ#!xJ)I^TO&bb9=7sUKheAPDNuN+zZ_l-HG$5K3w
zbiEG%zlIr}g0llSvMHD*K9|OnQ%kv+O4mBPn<<YauPEjvmSHKtL_#c+@|K@imdf65
zW+QdWW=X9S-;I@~SnK2KgZh!&*Gpa%?NT4fD`Y#=L*!x;)W<wtjGQzN?IdG1;QDk2
z9OXoBqA-BL$C0B77#MsUIjZoE0Vu?Z!kCv>hQ*s1^AW==oEh^ILlB?LST?a7txx45
zH4#W4V5qR}UE5qxFqB<8=9m*paXYqIbs93E6Ojp&P7|F)(y7TgE|H8+10o4QVOq>9
z&<yQ8pGanENxw*9At43wY>~{-NSw<gX<R1@Hc@0r%?@Q(k2z`}<rSBK+eZR3A|>TF
zXXF^m&4fCC4OWKTr7;Jupz!LnlqQl+^{Y~3a*1nk!A&GRs!TMrC!ALu^NMSlSUY47
z`zvEUaSc9Ia)qgDFzl;{`Ng#?wdo`$$rjggG&Y?pl6e+%jeLP(bs$MlD3TC$WwKZ#
zOSI%Pkt~JS6e|;Gz*0CZRxZ#AOHpZTx<D)0g#}F@=Sp$p<}BVJF=xk8h)&cBV$K?K
zRFS%StPy;YbAXKry-zX$%4w@ck&KTXkwiEPf6OgVNHkbD3N%CeFq(Xi_;9uSj%daH
zd&e9V965en>HvOCEdoZY-_X~X(poEq5$nfDP)9RHtY6HL6uE9<)cRRP!3+EoC8CDY
z#~hV-q^dSjH$O6`9x<CD^A-{>n|?Fj=U5Z(?@Zvc+RQJK_%3D(fr`!n!)LU7R%OgB
zu6gJb8V;d{I>QCCV_tC$Y(ub`p<p<_Cgu~@GA;Q<gKGy4#rz_frB15DIpLx?v21ZI
zCn2j`aSii#-k^P;CMF7s30!T=Lf&OfXT(y7PE?4h){HsOx~UFuX_fccm|$bN2i!3S
z6QpZ#EKQ(J@>T?=K{1Nw#9ZPUCMF@j-gGm`Z`8^xCm_sV^i_>Hs=-}A&KcD=vojp)
z;`C#}KtGXms<pzj$GhpE1ExKq9!;?Die!fNpid+rxfjsNToT(au4P#YO9q4I(_`YZ
zU~Fnhb9t8~t%;=&1(Rb*=Z-n%!AX<@Gp4500WPJ>n-*T@JN5FBiB$2<(lN&}Uf68a
zI5_dkGv2O!tCsITV#Yhm<s%c$WM+Cbfth9)I~NoB;*JSWN?j$UiKNC%rRoIa!XxqZ
zwMfPVYmtmAXGAhn<8PoA-p$fhMxYjwITk;3Gy=^d)5sTSyhky~x`EdcMUOJhw4uV9
zcWtx9L?JqW2Xfa<cba2Uy!Dy5hFRM|1eMbyACctRSm;$;A}MAv29nzo_CfLz*C^@A
zQOu;;oJ1$EphR=Z2`bgGJ^o21^o0r&_$(Ix=-fc#GP_6``}KCMro3b9*D3s-KL0VH
zXU~M1y+GsHi)1`|CMTD^a?F9T>Ty6^)WlRK^z4~H_NuH6Aq7dN)}Y{dNTyrLXTI#Y
z=!t>pA&JgVKsf~{R~$mI24MwBZ91aFf@FMp70LLpVUi`CDGN4Hn%v}9jZL1C?${MC
zJQI51nLy#S?ktk(@{o7ZSyH#SiU~rN)GLy4xj-Z{wJzXiQYE6eQ(}eeI=X;*SqQxg
zshEW<o9Z^KL4aRVr78z-l*j26GFBQ>aY>3PP4dUIg_K8|mc2}6s8qk@W2(es_36SI
zaQzd&@d>F!ils3X*Gw=KAG%Bl)fhTF8Vsqpn9o$H)#{g3^UIoHw!@{%*{rSqog7xy
zkMUbRBa)SO(>L2tAmDm|fTKX#<i%9Hi!!B+xtN<Nj|JVZwy$<DC!7u`jhCbtNerA`
zE<^lGVG}C=L96nnzX+>pO>hOSe;T;q(@e!b%~br;OvU>EQ<|J0^(8)D%1kI5zluJr
zmMEL4B~~t3I!K@0*2|qF5GFRK!<st^qT$bF5DkA~nKP|8zb#Y(7N8>zsVlg=?(MB_
zZ4E8n5uUg67H`C!u!6ideYFPK0@oLFzzr2-DqcaRL_{xYw%ts{8=I+&gxc^E2Kq9E
z{lU2lZsyjZFQfH@LISudcuzQh<J(enok(L!;|mimrZib-!p)Q>kW6@)g0Pw!^AXEL
zJirM*u`FWQ#1bTqk6D1&QBf9Oj$W1t8*sfWzzt<#O6n|#!Tq9p!cELW%u7t0)P;ET
zF|(bh^H>XIlT28E%7y30L}R4^d{zoB6E@)bXMr0&%akU9PPmu?35qA&#ISycN{v_s
z3*jTis(<VUHnHA16JL-*=7bISHK`AsZ~(^_q?9|6##EePFcoJQOvUG6rZQA6FyUiL
zW4;r9rn0m=vzf}#Qn^g!L5!csCkE+1_v1of6T7T43?&4vmk_w2giOUt$dp#X2{%(7
zZ5iohN-JT^$CM@~O!%47W`~cnnc87Zvp#H%sG4Cc(;v28!?X-W!FBn=<nmZoVkr*P
z33LMbL!kIL^i=}&s3Y}bFOx|N_Hf~xtF}6b5#j9FV-5(GUM$%)Q5E<#bpSYk<5TJ)
zD2*v?0WjfWO6sGDX=1}IFH)Q`u!`mN3Y&FDydok&g@`~FES`|a>UHwUH3TSu+T~*h
zZ%=p<=D~1b?N!?xQD!M$W8trt891eDp+={AKr8cvs%C(qSyeGe;pP@q3@jz;&gV<B
ztXVp>f$PKuuF{&ABsDQfX<~6gGgSj{S2BV@Lw<3jIDln!q+r_38MDwIHJ%S#<@x==
za9UB!feU(-V`)sGq(Xl&h@h@zF&8gsJu~KJ3R(fNHzLJcFE450%i!9uHxTpjQl=^|
z%JsXSm$DN0Xf`it<0+QQ6gH5soF-PlPFhH;h*&YP5@OScm0B`$Vr9gzRa6-J|6042
z=C+PAi`Mle2!Id>0t7)4Bt?QxiJ~YH;zOh*C6dN^*s&Z@nK*G}lUbxDRhfnDs+oyv
zrm~B7)DGIoJ8ETW6>4R<vPfn%gsGIV8~%j;2&9tAYR>7$y;qDqRjEvsN;szh-0s`A
zAK!Prufa*8DSFIxqUqE?Mf0xVI@>*`J4f~tm0Db;+lc?`b0>u&`UN)a{ZH@f0Qk7C
zqC>o*JK+8O^6@XB84N8*nnk^o5q|#o=ZIxh<|V_TEaMcTPe!pY4quQQi~5pZ)Oi*e
z$rnEdiH<poj$siM<zLr-^?tWVwvw8jZzGzwa1q`tTLwHjaWYg*JTzc5$__uBCc`s=
z3`t}jO;kaSMSg92+Gv&Mbe=_i`LMCF0*e?}F^*}GY~VGWq{O1K+p+9r23dsXGq8K>
z(|^`%9>r*5V|0hf)}RMR!xxx4FS|CRPK-4NVjz)O_I>B-42z%z+w0`W=Gh_G$xGO3
zqG8LODDD9=zk})wnO#hXyx;?^2h3Z7P<g<N;vV%?kwpVAY@0|D)T|D->{>ENwxra$
zS6Bh}Z&QQq!ctkMb+^6eLOg&6gJ0BM)cDr+DUb5W_^V*vtUNPEA*^&2MsW|o{h8k^
zK8I!t`0~o{w!hql9Te8NxXhW4vYsU`90SHxF2z+Y>1;#c$hFB4kbwB&%I6<EgI)`a
zbuk&qv(k4r#5?i}wWTK8h!h}uK?308>KK&}9Rj1fy}?4}MF7c=WmCDcI!DAM>>IA1
z=X>8hlbV`^w9kJt=i5`WC;3e^963+G$F|XCiI5NlsI@xU+<E-(I!)&HN29<=hDF)b
zL|x~I{03>)DP9_n`x{$R;CnaDAXwWjRZlVvbuAM7fn6g6eR2);+a1eFifI;Mt|2H)
z#DSW;SsU>>#NVt58{Hf~@e766Of+hN-RAG(L_XNe2+nIa=YvMQIUh7aaLEUa5PRbn
zpt+WHk%%&ic7Y-^&IO9F68a#Ko0t6TH9iC^EtQdzOkG`wx*s^%{W?TJG{=l7FKHIR
z3oL7X^IL9z|DRfOR}XVnTj5qW$B%ta1?rZHI>C_1Y3|Y}U08JBa>Ic)zx&0HU;Oy@
zjn<p*+LFXhehWTwkAlAEw=a^&XCdJOD?=_I>}3=tV_>|b7~0>X@MG*wuLn+C;(Bz2
z>(K?Sn_D&JL=K<U_}Pm1p#n!=2gcWZ)Sb-RI66a?^#V?gtdC926TxH3>jDvW$$~Bt
zS-GDmUWLe(GYnAq#*;+Vlc0V-s0@WnQ(&YT?_^mY!qkA?#A2)(6n>%&Q4|dI&SJM{
zXqAgwK-X-0KQN0LHd0s=Ti4rHuR(w9BrFOEu(L)ph`X$J+Qk_Y)`b^mM>yu}2;?~7
z&tUF;)ao4-XGbK9oE>3fnMSP_XGdVDJM$rtV<OImupYhH>ckln2{~7sRbl73ILm_B
zC~W;W`b?Z<F?)fjTKl(JGaKSejG6Py0NZc0rq{*U8i`AHjnVM~<jZaT`jJs{(1)8g
z&MkxoH`%M3)_G;mZsH-`hYoTQ1Zq2a$i#LjrjfhdUS8$Q*lus#_+tCTw!w)>vJDey
zWc&nLM=WyyN23H74+V}9#S17YNza$ed%glCg`O|nFCy>tYF-%w)oqPMG6)`vJ~0k(
zZ}9WlGqe9K>fWr{a$c|?EWdS(L5PU_7TUm>N@T1lB&rBfZMIOqeZYcH{1)nW=^w~E
z*y4ho?IIArB_jpQ!I3c?;Ptq_Bq3gLN!$C9CX44D8AiVez(|fPzATx&EYb8RE^A#D
z34q-eC?PN|&$vDjE?t%k5rmME<cRuGwF$`+ouwpRAVQG9q~J)AY{1`HiLC7IOa{pi
zIWpN%GDKGOlX#d6L9%RjlxVw-=6SUdIFd7f?L%cQ5Z38<JK<W*X4+N3?wnYc+1}U8
zb{3)Gwz&nee&5_8*?@l#C9*P>6&WOAKtqOzszk#?BS3nTsK%9TjA+~sm<cd>8(t~a
zacgWakc@TQbvwLLvyNNgRN$GKwcP1)@J>OQF3^Q{3OJn_9_bXP(JwGC5oVPD__#7G
zAzsZOlQdB;Y!t~5VSrU6M}$W<sq;jBa7%%Vws4o%#OAf0=y71z<JQOsQIP0%vQyp?
zi+tbf9NDREXOYhXv4O<`i%xk<EIQ>au_*SI$SQv486xxXM;Rs?aXXKUlKCt}86&d^
zibUu5R40k1u)s^52tPs8uV;v6>5a`1&C~N*AUaQUfoPHFBGD2pgiA!r^u{g|t<W1=
zC2G(cyF#?)N5ndq;3p-0c;fNT{t!%j_SW9*&+k6F`}N}XSBu-NYw!MH`hhW=ZPcK`
zkeIh|NseKjBD+vR5<C=dts3fA7@aXR4hkFUABp4*_0c|EFx1OGx@f460_&2YaRAs*
z%mxHv4D=5`4;vZ>fDMfUz=kpaEE5KvLkw9a4V=Q_D|G`g%xf}Z;4GGRnKN*n`3wsN
zo_7vm=K?8x2E=^`Wf{SiR%zuZT-9f4P&%warUPK7bXe;)L;*U^O|&$bk6`HxneR61
z=;v7E6GWRPPM&AcsnN`$et*#-nGcof5}9`^Wst1mA|f(GR`u)AFd6<_Z%vO9;Sg&{
z#)!s|G$0d1=Q!#niKh4r>O|ArVrGbDiROsri57^MM5!+jEi!y|k!Xn__e(^}9I=;)
zR(#K{g0W*8rXTgS5|##=mMsCWGkbIhoLCjed|I|-$b3KQ9GQ*!5P8)^7s!yIVgoBh
zGRWoGZi#5I54noITHvT!;6$}#akXS|wPY^X1Qb`x^0-<uTP@LepL$Cr>V3-xizMVb
zuhk3+H^C%OKrG|C@uqGlGIH#0hu{g`jl-UXLe8vqi-a<sRSRt^SJHY|h}1M-RB1Og
zffcck7^`G1LIuRscN3_D1+jpttOc<kwb00k<=sbIH(LEug1n~(>Uf~C`!Vy1kP;vv
zOHhxW6NdKk5*b42S2zaI{Ky^zXiZ$ERd?G3mucGFR)-J&k%k>Y*u8;TiTaNik$R-L
z(xh8yZ(gHfKvQnzILuJBTtQQJ)ceL1M916BjUNC()UfuM`83Gd7B2zt&I9|ly8!yN
z1{b%(;p67K9j0#VxMAvytu%*LJYLAGzd)26qP8=|4bh}`d}^F-uyW=tN0l=f+E;Fq
zp?&2x8QL+Ia19IV|4M|W8Q3Eu8C*YhhI%3+0_Ava*20lA8TNn?dP2N0MlXpVS7f{J
zfqDd4x()l>neEot`}p%uo_!*Ozn}T<#s7jR19<qOpLF>u0~esp+G-^LcE+`Yz^K+v
zTuGDpB~&tG@f;+J1z)nCDJ(vn!oxGswRJ!e-4jXT>W2Eu>x`lP`jRsganK>j8;ChJ
zq|L=K#l7ur-oZKd{!%A*M@98YKyr*95`;S@AxWZML#b9s#y|wh^Ih|G**T+-B>VIx
z=fQooZ{nTz)j^3<;6A3n8>;8vA@h2BUOw#dMf#!fwTt)-J!Y!6iggK4aBR0Iaath^
zH>VY1N%j(9rb~H{&+U=IA0L;1zzr`(HXd=_T8)%8B&apo4TM-b#^?r0?GPZ8vQl%q
z#?hT?zQHEXS;1|Ucu9Jdx~ZB0@9n1Ao8J5I*#hVIO?6;Cj0_8W;)Z%!XXy>KH?#l7
z{=?^)gT~9?#pdDit=9S5ywDA^6x^|m4irFTq}g~HJlTBwFPzCJSZ?g^9Mqq`|GdB%
zeMh+&eMbq-N8M9<#%)AG%k6{u!N*^G^5T=jtM^+Cqeb2`t+@6yWL^QQyT(?nHqBR7
zpWb58Y6q8jpqeG#$^*4mx332`UrxWc$HqTUhu?q1PhyF~x6kjcvh;kj!Lsw%6h<aG
z=shG4*p5fyfSuRuc#}8~cRVN~iVQ26!~u*#^VO*1zi&FevHMfj(Xiez>uIp+>$bnI
z<F6UmH2K*Le(d_e4nG2kMycgp3?;lsFZ6Q=dOU0)M!?52b^<>AHmd7bx?fZ5ocw77
z{IwMF$V$}?&Og<nxea`5lYs@Nt!fxje#s*9`2m8{RyDI;3Qk+qaBJgrX2=RoT-C6S
zJI@m*u4={>YBq2l1ShU)=t}5ytPyt5H#QAtuxk2;stRY`@A<&dG75|~S@lK`3ZOF&
zs~FKeK{$ZUymOxs2{6vQIqf9~0??ti?b6Wy>Cn3k8~T3%?dmHEWd8!%g$y95{RP-&
zZrOm^U(jnICvKUWW>335tIg}m70dtOuHnaFZx>rAW_e`Wb0=;MUwRcR8)N?BQMe>$
zdSR7%ryJNUcnB51`tqB+^<2{|!gxXuj>zZebaG%c%`RzPOe&}9doA84XZpiSZFsua
z<Rt)hKAnWXiQXiO9S5>_btUVgADJg&TCo&}`iY7}IGqwl#iYa{e>%$A&x0(gz(Z=5
z9^ZwURi2h17Qu~9d~ujX@TU_+qb$OKsfr#W8u#Yu1Q`1Ofk+^kJ=F(|SHTt2=kx>w
zxj&7l&w-;&1{i%{M>*sfuv5Y`i%eed*5fVg&|vHcoKOPtsUJ8F6*ioy4D_dwUM!QH
z6#vJwDOaDQu|Q=$%W#ouE!{b)-aRVaJ52R=dK3(wzSQLONtjWk$fXB9=4{3*8rM_p
zVn;7YHH#e!iJLGC{SHiNiF=iu12z=~)*-iHH+W%P48R>g4al^PYXClWYX^=@uoiRy
z&J{?S3=_SIFf|a=u>nE0b_uN<9cQ+733rVaAzQlyhvV-T*Si$gA&}(V&EYlD?tsxU
zKi$c^$!6tHG|>c<%`A6X4~x8q>q4|F@`{J;BeZ@XVHbeOxe+ziK3kLkug4GpL%gDL
zC_8B)jEVuBA&T`4GGlIUeY&OdWM`eBuaO2ch6?gULH5rWw~#SG=Fb==MK&*kM3BHn
z^bk=TNhG@pVJ=$yfFp;8f}KzC&`$F6HYDGRrz@E~ltGk``;bEt>1n{u@X#T%OyXHU
z=7k;Y@>8q>qkWEwJw@yCRB&q0<*8tGFY?=`Rs$B%@om<dA2#P7zbk_*srb!hh^z`T
zQih4(_?nbt870F{2^)XL2GYk^1Z^$bod7~UOf>7i&P{xkn`lk0y$aUNyl)(ZS2Xe=
z-}b@@bT<&!oq{aSw`ntZpUO}__i@CG@0zqPNQ~J1K{>(K>=ku6t#Ho3TjC^<O-zF8
zx@`%z7^vT+cytXkPOUREwu?y<87KapuD%Mk%sp)!g`5BH_k?_5bGNvs_mcPYUh<ya
zd;Ok3llKIgyeH7)J-w$our+Im*s#B`^;f}$xv?upA-XmQeIOTxAaLX|0<UiTX8SoT
z9hTpFmp%&qa&CBz4`tnaGm-V;FTe3B*ff`4I|}WGqS601Tz<n|{%q<2@_{-*9kz4y
z<PGt`3PUb$v^MXzF5@sP>9@q6`4-l^zZ$$NuYy(6;N_zbdEMzme*h<j?zw2X!rBkd
z;bFKf3<LKZo`n^*Ic`l4t(a@+a=-dP+;&4;%sVi|p0m=1d`rvuxs%zvT5rzqP@SXz
z_sg0u_9$1E@YE@tzsj0Y;ieT4V2X#E2Mrjxp^FPK2Vj#=6=_gFSW0koGT*B{@W(sp
zGJW7JaQaLiaA>-P5RMb5?+t<X1WM0d;64E&2x-D1U2{cjV7NGrbN*+1ags<}CBelZ
z^kY{AM2yv>cr$bZ8p}L}!Z0xB4h1p*-i5(g7P#$z{=87v)YYl>s)|(d(0ZKb7XUkP
zQm`LW>+z|4WN~PR%x^&4m#OzS=@)x5^&V?F@if%}s)gr|(^Nd~;8Y=;s9L~Uj0F^@
zsTL3($2o}lTxVtyJA?P|fuq$77>#jp%QP7hM=Q>M&DSNvB3KEDq8y9-7OeARUL@58
zG9M<=MKYhir%PmIuiOukRVerl5ml+x4-+9Hs)#@Q{nOp*r{9xNmf#HikW3IUA4(>P
zrcwhV&FSWcPZoH}sm`M5RIX&BcC9RajDbbSkji%Ffc|t3VSD7<;=e!kg({DBtX<{F
z#di`X7vD*oTzp5p41d@6Wgm|!Vkf}w6_^jVFReI$z&?&W<B#6rZQSGKEA30G?Z!rX
zVzNCu&tJMg(6V$xsk}{akrZ(oJ0A{zOF$ACXe4+DQ*)HTByDJ~SB^7=W>Yp?D>*~^
zXm8{VJPX@T3I_J$XBE0d1K&RL4K13OIw@_$4FZhX0~|F6IMEuixG`jLTgYrvh-^!U
z*brSL8bAoM%S!+F5#q*(WR#KM(#bEwCxykqAZY-6?7AfcM%7MCO_RkwDOuLPmm~9P
zeV5nM|EduF>I}Y_xHNEdY2d`A$^0tfY)ux$CKg#N>yr7C`%)nDF#su&`7Bx!H;@vG
zU=Iy<*&6*H3Jc8F12bO@%>1hGXZ>&ZdvSe3Jgf5^^*_Bg4tsClH)w$W@*#iY>dV!h
Wn>!<^-|md$Ztg4uzulQveEnb2Jb#t|

literal 0
HcmV?d00001

diff --git a/__pycache__/_ipex_ops.cpython-312.pyc b/__pycache__/_ipex_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..91bc25c8e21da3b7d974ad0f9568b49054186b6b
GIT binary patch
literal 18566
zcmdr!TW}lKb&K}`SiA^;@5k~@kQ6D&l5IU4Tec-jelV6TS+Xn#fv`&wBnUve04cIi
zBPZ^JjMGSLG9{I1DtabUlcP+md`0f0wbI8-W;)X$OnbQ5sxxZqPRBF-SWEUKlYX@4
z+}#D1BtSo!#4}kD7w5jtJ@?#m&pqedh5pIoaZ&Ijt*<3c?Wd^!z>NObG~nKk0a&0o
ziZdmtGx%*znkLL=%qD~_Ny~)wjMYS$Dc;Q6uA9_eXY5Y3hvN)wrk<cU+p833zi!rQ
zJ=3Okig$KULf07=Zy&4C#xi_yR^ByMYbek_9fyf}5hyz2ddc<eUF!FgX^OgFd6Akj
zMI0Ys>!FBAb|+GaY&4l38Q}%U`r|o4;8WRXCK<~Pr-g}`(6Nb3TFA1zAfyF$LLAx8
zc8YQ1xI4AXz5jM2BY5hJiKEV#c?)Oatz(3N#^w|-h_{!oDPKBlt^)+aR?hOO^}2@Y
zj05mn%eSvQE@vCIb9Mt3`g3D(7_c}$Hx}A}#kDQR%5oBT;xu4ze=ZCz0|w@E&%|xO
z;^8e$O8>|471zmAVg0-n%6%2e{k)e8@IJ1pLVd78c?kN2;Zt3q-ZtX^X|3V?TrFU)
zgHJuQZh%iCe460X3?DN{RS(zls;wxSfloPqw!*lr70TNxl>g!Iae!+#@UaS{vEwt&
zxwAt1E?BAV3UxhvkgTGYix{Lh1f%y>=+Rf9ydPx5T)u9Y=5`pchqu8#P#y!f?WiDy
zE^g2;LN$y~Nir&NX=jCzD{0zY725BvP`>?6yARfA4}A6l7w?D91F$X+!e<|R_5;R&
zjpqpFxC7AcAbcKz5AMV+?n?$9)B+Da>s&vp_IbF%T#b4IDXZchF;G@l(h=P77ffT>
zvxQT&UtNXSskMiI>yK)jujU>z?A`j({PdGx>o+&T9j<`?NQLqzDwH3sP_D}q%9Bd-
zF_5N8@~pOavH~u(c6%9qiih(7?G<gbr;Fo0vn|%4ZEL>_Se}KQaeTX0!yVjnh81Y!
zEzlaw*3A!REB<4+$GPX>!$1i$?BPySz+Z{GDo0LM=%v=aux;%rn3dWN_XxwCHq4+I
zcJGV8&$9AKczkBt+Ly}rBzl78&Kh=O3ykz~h1OrGP`*9(r~x}`+zZ@j#Zx6vVI-A5
zUoCPfwr#s}Am8zATYNtI+sko=wP~HUMG`Wd$nY1U>5M3wF35I)&*p?wT=Q{=*rAtX
zfzQ2PL$W~SsWD?MX#!itr29n|O%+<0^%k6E2E3$;W@v|aH$8b1XUUtdYc&_CtnQ^z
zWA;r=A)5#Pj5Ghps<%Ijm@OBrc}scRfLZg<E?V-|PizBt^44MV^Hjt(Bw)u6aPA)<
z6fw*8_-HOQF3J`zF%hxKRxvTd%MO7TM`IaYwq?^od{nlPMiH9;hA1UlQn?A)#L4Ch
zyWq21#L2Pv{ATZ9b|N#FNo00pW5NiZ-EkrJz`h5^AK(X*iF1RQ>Fj7aH8`0}P7Fr%
z6&uJ*%k@!hyl5<*O-#nJiF7KO<x^r>m}xIItlTIF1c)Lemnem%eE!SBbHi7Tzm}M_
zNQ~$5k+~yRcD;6NF)%kYYr=wKbH}d47k4ej));oybURSJ&@kVyczo&na_rr}&N=(6
zdG=As<GXxj?#!ZP@%WmjW!AhU?+aYnJv%w;xd+1nOVYXQP+VITETOFMArf~QfCVax
zW#kz%w$jV6^`>VGdA;e$gIwxsZ=$BD71I!|8L~*W09$3(a4rQbOs8T=nGqAoTr`&A
zq7%8~idjHSMHWy*3RqUC#)1||X2L}#8~b3@y+%kbQSZ~tWqOWYryB}%!#dqlpnH}B
z%a6TB?-bDa|NYNgXn<i?tOAlJG-1*ViOh`fr8x^M6m6Jn2NW14Yi!&ORYEH!U*LoU
zLIn#{7|E6cgwSj(HL5S?Onq_1w$ycRoQYA<p+FL$JORLOO(-c{DLzl>%i;(8vN@Gf
zSH+4nu9#HeLwZ!%lbwY2;h316soFRnEbD`Y_i$-J{CuIy7v?Uk``QY=wsl{3!PmWP
zTJ!a;(!J_({r)E@^Z;c7(kL2cM3Wh%_^Fw|#tA{uAa>Y+$rmVLku6)sMMyrMOT@>w
zZkSy_?o4pwR7lhNaN=ckLsx<B0#(}n9z8%NN{$@ac0R`o)3S4%pN__3@ljrOPsWlt
zUdu3Wq(sLjqoaI`6J?tik0p7TIhRbw$D`TUxg;;jOgx>+@)saV2nU1gQtQZR<(r6I
zh#G2TCI-h%A}S`+8R+N*yky8Imz{<)%`qNT@jE7UAe)H_vDCO+OR$QWm>}{HjRY#9
zYKdH9teND6Y*fq&367VmjTHor5~7-n<v1-MC&49BBhZo0#Dl;;{qX=mcI90Fz&LSp
zrg4xi(flO!^-nZJE(Y_#yp<Rup=|MJ87p_7lrcTVXq|}C_n5l`>rkG`o5qmNO^+UH
z%A3c0o2nq2x9FMyOps9Cmbd2}c{=aRyRK_vkVDKeBwJ%Surx48yFv?I_$n!O*)fsk
zawq}bXJaEgcPI;%0UmL3oe1nq@=+pMC_S-al?%loF_KH?MA<Q!;HRQ7F%njfz}<)*
z<yY8)$zDwE$K(M_9>ioHCg`#V2QWE^$wQcY36qC0c?6R~m^_NfW01&Blwwtcs}V%P
z61*7A@Io}39tXJ<!_W>*r7aIRjpeEgPO&tR=;W@MhT`_yT8Si!7a;-5r=RjSFIB(e
z>t3b1SAE@5sAl2l{L#hZ-+gM<DYf=4Ckw6nSLx>4`cYn6pljFZ?gHJtP9G}Jha|=)
zF@bfavA{I0G0hSaUT2yLOw;1{8q+H=H4@VX^%7G{{;DOW0f3Kd7^jQubJ@XP$V5dj
z4PCe&A(o%W0`tKjjDm3#M`J^OHVeG>GYNckzB=z90$=kx6?p5m0&goT@b;p>+w(Q5
zsOQ~zChsu{yl@y8Av^&|q*fKlXR+WoCeLB=JCji18ALw>iHK*=79rFMD#_yR?PPKH
zR}ifxi@U#IS#)O7Vgi)}I5u$P$WB!Qqi^Ghr$tcFDedHOB*bWnPhW@|wWAZJLNxNL
z0DwleeuBGb{~UsdV{Cd*%jV7KuA#2Ht~mgxBO~S^q8-5n+o&B?1FKd@gTpl)<tNVZ
z964mp#j<e7auJ7c5(ZHv>IH;OVR9Oi7a;*pFP)8o>nGx18<yX{8Rtx0Q4wvfnuX3H
zs!C8pRaB5&uj(jNbu1lUtLmP06cvu@JM1aYdqB5b$t}j0_AO7`Jaud2V~bf=BDO>-
zlgrBXDLyeWngyMb0goh|isNeN53UqhogV@KR&3GuE9Y8)!=%+;v>2Q)tB$PnUCuQh
zE4NA(aQe%fk;StR*6_N9-vno%W)(;50<nr+{6r=@9Ze?2d2kycWZ@z{HgSk$k1zq^
z2p67F^pb_AfI6_)aAyfoOumW<I&vZofa|61Ra)<7usijlKgZ^eKyr!t2)yIay0^LD
zZC=c+c{^t<w`tF1=bUq$ZY<D^>vV5{?p?m`hHZW4BZZxhtnGaC){$R4@h*Kr@>R`h
zYMusPJ;CK-$+(e+#Wgt#1O4_q3w1w~xH+wQ7{C+cr4Yx2gG8<w&WU(%a$HoOH({a9
zy%B6#WZ@?6Rc-BT&~#fX{}PaiZIA#*y_C~y<RFUojgvQz-WvYJ$b0k)>d|N;wysQz
z{CTimqvwmzxXj>TSu8i^#$`Ig3F!=+p0Y<w4`)eB)iR#pg|rqS5oIT+uy`ydg3s?&
zV_#9NxeT6HDk}S@5-Bb{MGR9gpNF$@z*r)Xt>#ltY|<6bW#UyZLH!8<K(<^SOw3PQ
z-eR;%?{18(2|vgOIP*AIE`mF&sW_-Fnu=iZ+FwykUms^3hw%hk-mgNcNo?50<;>SI
zSN-Kqa@fRWOxDsS-nO=^xm)auQMo{A?mASgw{2UinaHZ$koR6kg%1xN1ApK%FS-Z%
z-1EM?KOeZRNg_E2Z9}ppp2_`}$`tTUBgdXSe42gi*^?}n=0!G@&az@ILtYlyB+<kZ
zjW~&GA-khdaN|UbG)85bPjTW@B0DO(UO=z(FurAC2rKy~V*+m6qJu#+vusJEvXLso
z;W`dfsTN%lp$SZg2a!T3jY$TR^Oy*jh?wBA3OP(BF`2^T0wf|%9F_dWM-AM44eAU>
z@@5L(!2Z2(^ns4*r5OLZyP@E2Sa)|6+#O3N-*xv%zUHO&cYK|<tJ&4or`M{VS@l07
z1zT2w-K$JDq*AbbDfSNJ`X9PwdZ+);DsyNxc<46czkGD==sMF<U|QChodss6<PWd=
z*@B;4^S4R<;DUGFyXI#%l}i5F1!kW4uGauGN`CmOmHbTvsFVE7l0Woulh5P*sEzUj
ze#--u8B0PsTP1(X$DKisSJl-FgblLMiC88B-eugVU{F~RC3pz{unKKPx5cnEL1k@z
zKD9qy&fX|mh1WI3s#}CdU>L9nOEJ)+P#_$GL=F@q>Ja}W(T@l%5Cf3NXvzJ31-oo?
za7CQ7E^?}{eFI7iF~=>)aXab;VD(1Zzi9p${mp#^dLQ_kSHg?Vr2{t@g8}H#qBGIq
zWI6^1pBAH0vvH$tN0=-JZk10wlZ?g+w8!UD8+^qD0J9vz7uPkRz-1r-&kAc$vxQAC
zi<meXaedmA5MBi`g+GBr#M$a=qQ~yP31u^E$tqVbZAgq*4S12^eudpJm;sugo^pEB
zK)!J`9xl)itKL5t=ETznAHQB=>frC=fK#*0kI1I;vT0m4O+qX#r`aqb7&CUw_;9P?
zFA}el-3ALocAz~1Hihg2ONSV0VE7ntjLS~V(uro^4kM<kW{3nvW4R0Q8lYZ(LI99u
zf0mdcdHT}*pX33Q+kJ5S8$CV^JCquCyjJ=nlYTXKk<Pm>!DZdWnpAz(t&@~@>pli&
zF+}d%oE1%Vi09exdl-7<otJWX?<L2R_?o5G9SxpKRWNcH5#=1%lcQ&Vs*Cn4qjf23
zx&Vglj1JSbwdQSWY4AzC9QeVY^PG7*=gK=c7vyWS8P=#X<Q%1=I!`}OWs4@{7_Qo;
zXRLZt0c6X)N;-yDJ)0ibhMzE7;zxT_Pa2|*5OajE5wnG2H|PElqf-r6q@E$T6Sb*<
zVmrrACgS{x`Gfz3N4N?!2)O3Njv(&%%s!(Kv+-D}JIkKq*`aibXQxK_6ci<saE`E>
zkLLk`ZbY5dowtQQ0_X^8QFxSxBX+!qO^pkeA!{%SiZRHDS9K<B#F>O`g15B-dV0bF
zBybtXrv#L50nG$rt&}|`s)>d`yCxOYNW>dNh)d04zd204g~@A}l&lzHz<e9aP(Fn}
z#e^6--$95_eFdR;O#TcKxk|)%1jKQL=mejQaWM#3d>1R6=c6322IQUNC2+C`x-gU~
zW|9z26uyT&`~nYwd4qoW<Y1O?4LZ)W6jf#UY5Txj5_w`XDf=nLH+$fARn0=*eBWa1
z+Q`+B<>POjS~+#|_}i!7I{j|dk=e)YxT{y)%~DG@L`>fgR$uv}HL#h^zZ2|PWqMYF
zJrdiueCT!W4foAMKk=@%JiN*@YCX`*>QgAQ2h5?T?pfd)^LEPLwCd}S*w!~3uRE5_
zue)zp3+&!2p4&`lo#`wvosvJGTTxqqAhDvr$_eQJlz?d!mi*Nug>rT&Q1G{xzN<b$
z!$;|%LN&8bz8|bvcyRu~^<aA;*uEazT?p=84<0K7kAYQZ92sEUU{g&v7z9RWz`}67
zRNEr8?z+)hXx$^V?Y^<A(6(2qZGb<elL|d)x<>^=UWL-lEnyK?)T16(sv9ig>)*xW
zWgMb&Q+fmRT{AIGc48!)xU+GiV!>m991Q~iY_JHhbkkFM+e0&_W}bjI7T`u`vzW38
z)vHKMWRm;@+&%Cd3-6>C&)t4jb-Hnz<HjGrw<^?E*=1%bCZwPu3Lz{$5`t?hjLQ+q
zOS?&S7w-+=G$mJI<Prg{G-L-t5T6tN3do1O0=FEhav~8;sEAIgd-Dyb7nU(u!IpkQ
zSb?xmAiEW}r|ce$K?GDik%b>(37v_-Mcc^v7#z?OVEYOqiIj+(Em<5TNR2pEmuHq?
zkCksQjC-seP=hrxKskNtD+LmB@*@la;vNX8cDSo}RS0)~hPy&h_NaD-ZlW9477b(~
z0caX;kbrVVd6_tc8iLi2`;vucQT46mLMA7><LS(_b}<;S2sdFU;Vn%58WItQ2WF{u
z^WQ*bCR9{AhK^rHKD0nJ@PR4DkeUi~lf=N?3K(E@A3LmiSkxj4ad<^X%x(yT{*GrW
z{0zvG-QrX%Q=0AHLYeS3CR=Cwb0{{<*3j`ghE=CG%od`+_bq$gqwiN&J%C$*+?7RP
zqhlx=Vr3ZfissJAwO~4yF4Llk;V3tqicKWqvK@kC5I5cs#4mEksv3&a7?8L5F}iSI
zQk0PrFuRI!QqE-5&A5w>yjf_@79BV+K+59d$j?ahw|KyqvfvR4#-TlLyVPDXD#wb(
zUWsP7K&8gKrMwR19i_L&F4|J{dGjl1Vitc204Anw3?rtSp1i|gu9`?6qgiSd5Q{^f
z;nz(D>WZda2_?MqR+hRf`Yz-tX9gN5HyK*~e~d#L?&8uO2CvOT-hZQGFN2Nk(pA~<
zTnsLWXLy#}Ik4&rXKXgj9(ndb7T%lE^g4T9YscwLu#O1jfUAh?#3&pS`rB7{WPnkV
z7)fbo#kq8Llohk^W?P(K*5p=4P2PChU&M86n4M1N*o=^#gjWpM>?p4e*Uu)h>{KF|
zWML!d=#UURdXT7u+A%$m$QF?$vi&6tYHzSmIX=q^6A7eGqXi7r=>hgJ^@mr<>3;S!
zgw*ukUlp;XQ^{#Pz6Nttx8H_o46rAF-XbSrNiod=?(~$%rZeiRX+><>7H8ALghX`{
zYg`6y!XXP`>lD0c!N(@pab8IANfBDcG%lRuQ~a=Ds>4Ehg4J*umgbN!B9@qot4|hu
zKOuDU+5>M4>rG^#NG^6I>%O1;vNjcxNA?fHtBXJ{(v0hcBBbFVi@OyEC^Q2ah*<Ih
zdoG=WRYV;6s%mHxDV^6F5FtU>k0?y=HAH?x^%h;ap9RqpGkiQToZz{B<Q1WII3b8x
z7OV+)MFAqB8<5}_o7M*wG|MJ=ct;C*gQ%0!d0<1YN}75<duo&i1|iL`xJbQrkHNyM
zNe*9>*nkTu00tmi%LyErw_&-TBd`B%TJdZSjJKD_P20c;@@6UQ3VgR!%e|~h!v+b&
zK{Zvdg`SP;Q=0oG2QgwM{uuGhW+J+{8)DS3|6tQ<!)9V4Tw=knGXrFw>9ZZqY!oJa
z147$$3is*E10^Y_*lFXaYR8CIwx-a$`~m1^0hA-ym@t}VV_Lw7R4>~80;|!pBr}n1
zc>e@1caRv}eY*|!aJAa->YG(u6p@jA0O3b+jd?#J`8!Ph9+Q8-<R39X3S=j6LLGc-
z5K{J&y=TB_2!C&``W_k_82N%5>Bmi!KYV#+Zf5cLx4s5%z|4M48o2Mx@s;se+wIm}
z>#YY0tq0axADVUk(%pDFT)SG=yL|Y~r&gZ2X<8Xt3m>?7^46}mPOpZJ%pR89f!QzJ
z4%aWdH2>04csciGekFfv-@D;w=8oJ6cB}^bHJ|Q)=F|0qJsYZDI5>ZBY2Q1+{#B+Q
z+DN|8?8Q}jXtjB0jUJl4_)FpnI$aWT7`i!KtG>RE>=e9}?4EZo9$MnxNWPx@S?Ak3
z-rDi5|0s~W@y2#<f!=##_$Ghr<h%4!cYJWKj>sE{H3e}=G-yi62ao94h;?X4_&(+^
zi3Em@48cRf5c(GpWh_J-L-6wW5HyOk$#gUdMi&p)Ca!2yeK!kWCW`Bv)M^;@tOHMf
zG|j1|vt8YG@JcyuMFB&4<mF?b1EDTV`Y{>AWEUovAdziq9M}SffbeB3J%OdxbLn(a
zcp3A<n4oDVJD-5_K#0M%R-+!@z#5E^%GP88`eO`0rq2<CyY3f$iq&YK3uw0r{|w2B
z`fjFbyW6o86Et<ie+R?vRZ6l26tmM-ExG-d56&G_ECAnedS`Q&^K<#dlh@8(J-h0Q
z6r8<xZBTR1LfNZGd!?E{CflyX&TIWwK~4Z%-uvdkm4gJl`S@Kd(K-MGf`eT@SBKoS
z{M9@`d&Blq<|hmRZ-pw2(0AqJ!rA$=*s4#JHf-5fqy+;LDlL6i4lg`C|Fqij<Qr#S
zKU=Bg;G*psbCrxdxEy}7aitME4c_d)4ueJ1gDPs4s;!fHB2ssc)YT*H82GTe!{(Aa
zRhQ4somDIV-+}jkfx(ImVBAu5xTO>a=4h(AfspUSoQtZdSKJ6Ou;&#ILSCw-aUnUM
zRD788>$w2ts;F?S5=1CO)i)_&gsQa`OD77|5v2x;YN@(Lr4FHbs;Wk5K&TO+CWM-)
zs<6_65KFapDXj>#QEi<{J3<{)YlqT_P#4wHr{L5e-s1A!jR2%^0?VE@A(y*0vtmcL
zffWGX0maZb->BFC23CMB!WD5~js}WIofC5|RC>rXH|7|fX&%gZb*A|+2P~;q0ti(h
z(}D<vbT)-Cr?W(<!CWmetq!4jWLg74jT@NOghkEBv=)R|WK}CdZ3wj^)PYRvM5qgy
z){RgPGA)8oFEXtUp?+i<GC>(YrVRq5F%8R}BTO^9fk(kwA`}*Yi{b(>@W>k^g5<y)
z4UsOziI9t`ZCc3B1Aj2bP*v562O%#G;{!+=2FvQn2C&(Jpt}iAEeLn^;ucT{eDDzY
z23>Huajx;M4eGW200B<iKz7?HQxO4X?!bEW&-W`f%mAUVv~WkNI7k*(Q*jc|g(SHV
z)NqngKSBDC&0E9?@EvW}*Z>BMng}>BN9&AmV$MYY!*Fmn<`_Na!JNKh)E(f%B2`8Z
zszPZAA{2s7N*JMP;H6T7P%Tx{pwuB$Plalg280@^x+bLwp=Nmf=yG~4t+Zf{r5aeJ
z6`?k&u~lhDsDr9+Q92Ro!bx`nq|F)2{#adZk6}vyTwHE|Va~dCz+6c?U=Fl{stMef
zV^BUl2zim!K7{-T1rVyj;e!Ba!(&-9a@<e#^h@1+QcD~BeHacKXaTrL3%~|iFjt}l
zb0u0Zr_zED(t?|K$yx|>C_XGgqDn;pEUH3=2N4P(gjB#H0L3)`X%u7GfJ!ltThl1D
zcT0VPQvXf~Ccw5!ksScvX=nyA8(FEoL8_|O{(>Q?GxFiy6DE)?{h-6l9W7(S40K}x
z<Pda_EUh!wNwTUYCLn_n;~}6Is9ns$rt^`kp9+MP00FBs>0Erg;9->@DGO<8YU%Mp
zxJL<-GF=sE+L@HqQq}c~?ei}#g$m(LrH+)LqFxMvqHG}9Molc1ItsxqrHPa^Z_rsS
zq^u3vDeVO8MK#w)z&+YVTIAsOCwB>BG$xbkq#4-^FFw{T49pK86M@M)_eeW-No<Ey
zR}ULh3N=chIte%%2uoGL4<mK95UjPPf_#|MRjxX-FcwwA4ncEaIaH|Mq10eet=4CW
zE7bHVbyx&D4X3(aX~0}Bia{Sh8iiPPKT#D<5Y<raV)$C))y6`o3yl}o9pK#FYX`3$
zEL8U>V6&jmYD76OM<X^TKpHkIQ*9ZG?SbMEjWFB!2J<?jSP*{b(YMdO1)34yJ5JAC
z8+>d10RqtnZrQ1>UKB+5iwsCzy&rn^*qVx(3}9_15tb`9C_p)FSqfd<uQ)JAYbpyC
zy{c1jVv&n#?^fIhF`6!2%))htf~bMnE?*ft%?EXawhzq!5wn>XefkZX8(+j6P{a8G
z#&%^dDbXV%BJrApRWuecP$oCPOF?`x3cplQo#`mJ^HKQeBRZSft4HepWkX&vl1=a<
zOO8L68<8#WzuKsGcDE5(EhZQRlj(!1mHj2*eaM1iLy0dyqF78O(>)hu^86>&{;yQu
zzd1u!POmweFWD8V#kBKZtOLJtP1#LNcPUJNtvD$<2<De*r(|_~^XXTfUJZ0F2i^>?
lgx9Tu1?%AdAikZyAz}aTTO-tp?NG?_<Hkci%g=oX{vWPZiERJ?

literal 0
HcmV?d00001

diff --git a/__pycache__/beam_search.cpython-312.pyc b/__pycache__/beam_search.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..32416edf7246c10b9b03649b821b0684a10e3126
GIT binary patch
literal 3723
zcmaJ^O>7(25q|r_|6h@kWyyBDvQ=4(ZPJ!xTe1xYjvd%WY^AW>7A1mimb;G>qvbBM
zyNpeN0a!pqB&0udfx-;XgAN7az?T5cp~v2P5hEXnMS{90dhm^c+@|fNo!MPdl3Qc}
z&d!^k_h#qKeDCp3u~?YEqw=4WCxH7a4*E~TV|Km*<}p!-!l<Oe<QWEeR%I((o~!VA
zzT(UK92uwjD}j8#;dwP!3FSi!p`76dd!HJvMDh_BGc3756#ptw0#8|Yji=sH`KYH2
zf;RL&+L+@R23@4D%f~}R8CIe+L6c)JixQ(lN}MK@1iX`Us2Em;R(<(YUsmLm)GD7(
z*VCDi7r1JMu|tYvNwO-LW`?t4_kaBTx5R5V-@5kpt;HKQcU7y~!FQ@wS=S^Lj03mz
zQq|B4z(#KCcdy>1AJnL6!7z2Frds7Yx+1C9VZ!TW*^<5Qa$dYQ@bXDXo>54i{Q=}P
z&rzQGFn;P+*vt6lX@L4@u*jm+({QL!_<V?l6@De)So<8AKOdn{@C|qtF&ZCO1U*?|
zk1XWLlCVY`XBt?CJ<SkJDG_hos3%K9OmRBw#x(GVp|;Lv;&$pyDpl@L$&i=sVOlhq
zu6%t}Fg;!<>V{AN6Of=yHY~t%%Mz9;t(t;mNb<6v7X@pH3YNZ1HB*o@#Tlx4Nx-a2
zg|b?<>V2#J%<fG0(T_f~gkqVhicmHM-P<>3o(E-B6?9FlLkwV|s#FmkEK$u_pg$9M
zIZ;Uky=FlaXlqcbW@umyLyWCvQo~)*_PcS~K?o4zGZ*cssvDAMxMfj-)HshFk!uyv
zv$A;%(~cF(TG?CzTglWlJ7QXT)f*Tg@UoK?tSGU9B_(2!+UZI~gmq+Unz|t_Kah-)
znHjNzqNqs~DvEYkMDv=8d{h)as7b1)35cSi%OK{}vT4~|S+nefC`y{9TN0MHi8=+U
z)_{5-MjS~HNdjZ>6;)lbj3n}$X&J^4s!~YONc>2Kk@$doPIiEje_zO1m1?e9uAa6a
zRBD}mSi7(=zkGq_)N&zLty@dFmitguD><wS(W{GU-9Yeh2!>&{f&7eY^Sm$Ei<8(;
zE4_Yeiy!I6Q?0o+*ZxsE+DU(}6QA1Rr@ALjHgC61Zt$Jd<Q9LjJ9fDFc57sdKinNX
z)V#iSyv47-zQrHv3X{z{t=abQql;VoWOs5JtkNy>(OCO_XJ}%JpYC3`w8;;*mNt*h
zb`H#K@t3-1&u#Lf?cuh(G234H^tC6Gow4jQ{+uE7L*3Wy97yrmIR@l0`R;D7a~a-F
z?sm^RHLF^)R(_2Y4Rr`SR{Z~K9a+~bsSKThg^3&6Z;b+g(q4~27n-}xqEfA7E%iMd
zZ)h5*TuJTMy0hkkvSNANYKQurVlHL^#t3|zaRA9El7mPPG~E3=gxpai0+I<N$NL2H
zVxm88EC(AKCduK=;i*pI#54Yc>w(7mvg({xAl$hLWH+lJ0;d2VCj}hE<rR+l6vo9h
zkogf!cahZ96#a^C)t3*}nM`0Wa^2EQO9JFtv}4d|m8vDWJ?=I{3?u3zIq(E~1&ej(
zhd>?^i-DK(C~Sjia80&Ew6N8$2GZc3dKL{<VSdXs_}?+VWJ*kfh~8O9NQuB`;87<T
zZZX3dQJB@h<=sFqtr_0UGk&t|!>uyykPI=a)S^npXY(dii^hq86S~`e7dA}nQv_ha
z*%-tSfFny3R}SqKVm}$#zVb9UnOA`{$;%{(9qkccEZ!ZR>>fR_c{KNF>dX6onEw4w
zx<@kG0Z{aUBt5nrLXHcZ39s=#5BHK}?))16i@3AH8Fq0o6MD6boC+F;MO^$jjGTi>
zxcaLFHH9)Hr{HJa0J2J8-BV|}bMxDwgzx<G(L?QPkLo=i@I5~nJ+^VZb6~m`z#+sp
z+Opc$Hb&dGJENIS>h&l0JE^lT(a$YGXL`)NodN`}sQ{H9(gBc1scyRUA(j<8?lzQI
zrEpiU>bBoKIrh~H?koOw-UPC@UK*rd86WWtxD#L!8tn2ke4VesE9?q%7-*OV-{4jN
zmsg<b?m=y=*w-Xg#=zk80}$AQ5`rn~1{EHZp~<~o_d?5tom1|rB2}SMgd!BWD_OFv
zs(CS&D}hg~kcDE(E!9e;vQ{ceGR?smt(kC)SEym;3aVbn$#P*~ra)(A6<VB|J6D{M
ziVBq$=H%J4GxO(*^K*sy1zI>)$eD(`-@QaNYB(p)E8u_p_QLGE6W@#f!1Dqd2JTlJ
zd_u<O_CXdzMh?jtAa(#iNd)z)H9Z1Hj))2IP8QKgh;adY-hiJu0|W~BAW5WJQ=cq1
zZ*&8(wZczVTJL@pnCJ!*t+VUVwZQYpk&V$O+0Mj#C$g}~FF1uE584&xKtOOd6{Go>
ze9XXgnX!O(ABD9B)<u4etT9Da;Z~y`u?-fskYBW!hsIg3l?Uhn13XdF@N=;4H|+je
zd4Dh=Sa?r^yuTNjJn1^K&OY_zuo#0_f(dXFiDx?q7EmzAr-|PpG@C9k#Nn#pX3-Rv
zX?^9q3>OxQiu=W4v8Ks*jmTbBby-r)E7|=9_h3$Q0?0p`<m<#_HyZoZ&Gnlt>2c*z
zW#ip1uIzAZGTb9<DD31n!@AgZ1Uw+XL2Sk)oCgDZ?>!H>Ui<EV47{J-MK8q6e>F*u
z<$U31<EMHA-d~RV17C3ZM8`MzF=y??3{wJAczSPShV97U{{b}(Tp6x?^(wT4foXN_
zJI?jTj^Rxv+rJ7rkYx{fGDFIGcR~l$?1UqCE_lxU&bjfqpL`r=b#P}F2r&)rw&B;j
zf`NAMvU};fVj!wu5t*L>>2VCh{5?pRV}B;O4$1wEOngH!f8mnf@H2pfY~))u$(-*I
zAUhlkd(LpmQTUnZ9s%MhfcrKDcH3y&%aS9)b|}eQ>_(G#7wd7rKR<Y+=Yu!QoIcPC
iAQvPf<2|&4^!g(^5#*-)%=i~+oO}F_^d-KWoc|ZX8KP4F

literal 0
HcmV?d00001

diff --git a/__pycache__/collect_env.cpython-312.pyc b/__pycache__/collect_env.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e1d16b8766f987b5bdea24bf127c25724c9a2113
GIT binary patch
literal 30083
zcmb__3shW3n%=$renCTbLnEG-mv~5k&<hD!@*vO~kSrv7BumDK+n`3!Ft-~?w7NZb
z?2VflX9ero0quBWX2-k6nc0LnXL44Xb2gdT-6WGua!$7z2XxIQnq5t@drr<-EO|3y
zC!6H^>-Oz#pd~rpy%Kfn)~%{r^;gwj|Fil(WMx@6T*JC=d4FSs<NlH!)XR{FJpL=5
z<7PRL6Zv88qH^ai^6Xi2QN!-qi&}QqUDV;O8P<;&E*f|xukoS@Y1(1)h~=V%=gdl~
z^`ceOU9@R9k3lpHa-#8f_#bGLFJ8>O%891$^A{bsn{juFmN&VJF42lGPqZP-7qbw$
z#hqgIoBYKB(T=ArVh+MWF&ANx=s;L3IuVwLE`+6G9>Ov)AE6++5tfSu2rI-b2rI=x
zgjHe@!fLS?;a0H(VU1XduvRQXSSJby>&0?}+r$cl+r>(R4Pq6-Mzp0GZD|s>;%SFi
zgRohwMYvO}L%2(<N4Q(uHgrt|aO(bpMD*fb&t7qRFpJ|@tl?>Sm0V&YYHbml5bhIq
zAl&b16`QZsa-3uWZ1<}*^V|eK!B=vgEKjz_?#UU@RdJFYBc#7*yTHBur#HBp+6&wb
zzHZlFQ(L<0c-i9X8}W#N@v&hKp7K1t>t1QpH{$UHdaw6M-o7it9{;(cvbkr%AMlJE
z@m;Sgm9qk)QvcQ7>mJGP9relCUVpFXxiUW3du7}^EXsNP<6>WL|LDk=ci1B)vsnlG
z`;!k@{lk5}!L-MbzH6T3qh{1E+lIYYQu(vTCIVMSeaRg5#Pis2UtnNV8j*9+2=?8+
z>wVr~YPRfR&(gRr;2lZT?PRGVqvH6mr+0X?PxSf*<ves-^!D|Nk{7*7ekC`NJUBMq
zixQq;znq2QzEnG`W8Sf3b{jp6_4Qxt8}#_)?EX<7;E;TFUB%l?P;pY~#x~}Uct^)P
zzD?-`{eAsc(ca#^;o;H#J`4jY^bL3iWf!`C)90g)^`;<T>PN%9zJXEMCXM!wq#AmC
zcsTWx!=BjK^$ra84f<shbvQ6OHY%GiA!s7_4`pM*$l8%>!?HFw@-<oK>+c_y^&@?Q
zBYm>oH$E~pA?w+^kPQmdWW(rKK=OEG!`OuH`pB?s2uR)l=8MrkIzHkJT$Qaf6oJvv
z;cMQ2Yzs(zK0l2mrq$=UXow$O9q>pE%1|G|df}vMYK3lOVr)X%%A%t_-%SY%fs^X!
z*?@A_Jo}`2O4&xib_yCO*g-)vf_|X7<V6Tji@(P^fS6{vK=NIP`#~ZeNT4i^8|NgA
z$oqIv6XwlaK(E#^q@qzZ0rwCW(5a6@CN-A2KmBcp|DpB=iSl7hNHb(jl~iNuvcH7(
zg|%TFa@o{(se4!-u&YmM2~o$8hgQ^w4L(;OSA9R^P-CgPS|)4=X@~Ms>1r%wP~j9d
zhB(o{YR(NAhumt8)IC|3(U*f9TT*Y-SSm+I_l&QZLi&&~WO`aH1KJ+0k_!~7wF4bi
z@LZroea09i$5!2#Bu$9(>Ch7+H7{%yO`=(}gv{UNep@r3?blr3dblJawFaxtdIIB;
zPpFmHy`dj?V!PlEh@;~HcK1k9UE{f<bz0e=q_R6wWxfBZXBdm<hS#@ir>q_IjC}4;
z)=q<e#4FGO6dFb(YT;jh9f8aRo$aF|BYi$m@Qnt9fzffF*ecZ7WnExm%p+_40ZF#_
z$FGcGwR`-2S$~Gmh^#wv;>;1OHWVHAd4V@PvPEevHCDC_dIG&kL~0<+Lf8|jW0D68
zQ1XZ#A950+G>9Hn#vtKa-Z6B6-Exlt)pw5uj#7(`NYW_U;q`lc{y?9v-&1Fijr4J}
zTiQqc;K$H_z8k#&(b#xEHd34bqLKP#ExrZRp}f&js<D4W?8SHdM8ycn>+_bTz{pq=
zaBf4OPeN-OZjQI?-*>IW(}b;~Nx>RTgxi|>M~8<!{efN}vqs=4E%2@M5-Jn%=l|ab
zCb@^Mf;sm)UGMkAT(wgj3!cd%YnpuhzExZPvaL8~D_*fV-#z)>={u)?eDV)Y|LFA3
z_I#?<WLYBont>}5-W$0y^4-yxsVHKZKDLsTef!eXrHE$L>i*WDxtH!)t5zKDsrHAC
zf@McT%+U~cG)3B1a*LL8D`L47^Sk1?H4(##)e+6Fzh|vSh55y^muD`&(>rzaL0-}9
zrI}0byb?LOlAU+kH|3k_iD#Ebv@7=9>AiEi-rIj?|91~W?OUU!t-pF`Eq=sl(B_hw
z1>=vMOC@_|YVNlDr1=k9BgPfGWBPEkuwh|v;X<^aC2DWEXKGo~BlqWiTJy8*j`n))
zPwHzs^0a^I;t}>I7Y1Gvf@DaN@ain50dfoR>axFtH(`x}fJFXU3$QFdp$TE>)oFt#
z&W`(p#NZ3#m=c2mpx-;(H*!VnJ0M7&KG84GgjOb`UjXIdl{|tn0R-=WAoUAgzp$f`
zt%L3lxexW2Jjp7gF0@E`0Ra{e<`UoQC#=k7iS!~R=TK&Rp_jfzJE!ytk|*)!FK3aT
z=N8Q!i|1Coesc0~L>qZw#b}Pa@QoWQcIS#Ud-CLCWa9d%_v%GxnL#6nNJeM?8He>D
zZ3-HxZDlAOu8A5$nvhOKKR~mFNrInYD7n3;AI6N;s!#`Xbx()x_9RRLS3Saj7fTi?
zgPxnhNME4;D#6wp5Ii@%{(wIL-M^+C512|LVcYh5`atH%`ax-Qe5}qWy^MDZ+_Iik
z!=Nr*qSVU>h!{Y%ek0<EMXC(I7Igr|Ku36bSwnhRUTF|{Blz<lMli`ec_dbC*|$$j
zotXAu{@cnYkE|GNlVLVOIkyi?9hm;ww+=;hTclo8lX>EH<4wk)$}n+<k~9DcC9V|U
zMV|Hr2L4lLpE9}E&1wbu!(N|<z^+biKSSf5k+Hx;VgO{`0y13h9~<@tq>K2@#@U<%
zrm|iV(4>l`Ysmf%6=_27G+<&{-`+p9fBM|Fo}X)uSxch2lFg8#$;T%7&k%WwpXH|b
zNkaf}<@zR{+Bt`4L2S5&Xc}y|M9@viX|4&F)z?5K8c{o#dZ!I(Cm8|}b(!d%2tUA!
z`ZrCWM~EogaH$kT2dBo;mW-iWHn*Sd?r7^h^3@}<o{{LXZWv2I@}iz~lp#T27ycgm
z5d0?p7JrK4F^59j<!v1IO@4~cI8TyPqrV`KL>jEc{F|mJ&E{4~x+(rU{4CFNZ#U?;
z3C-_o!JuhnzH(h-s4CVNB71)`)f5nxVLrr9X|8jLN-U^^qe?#HyQK@r{UO$K;|@^l
z;Pj}kK98Sj6NE`+eVU&e^!PkC$D~8SCL#sa^DT|fF@nH<s4<x>75hEZ<IhL%tH0uY
zHOWP{b^r9Mch4<!EOz{`^QT|^>@iJ@H?nj2?m7(!6KvA~{|%!2wSB&c53vp7wR8i4
zY#Qqe1U!<@uQcr|O4Fp9co(exLXG-9vif%-_>47Wjnm~Be(tJ@bO1}-{`%C{=lo0d
z${%Xu)I<bJwcVfUIdj&1SJh{JYUZ2Gd-yt|oZoTeXxsVDbG^zeIn#FT+>x{0JrWVt
zvN6FP%UU#vZ6mU7Xw>UN-)O-y(AMb`L>Wc_iDnMNkn9t}tAe0_+_AY!(i_P8UHtj`
z5CE7fMtjugUUk+*OoaVTPMy5nJ=HyTV8Ix-?U+2WYAKv+UC=LFpZ|K?(lXh;Vzf-&
z!ZshVJh0knc|RryJaD;ZyJxzWTvd<tcto1b0MO_S%7RZvbjbx@jPI{!gxJERIfILK
z_3mI6n0cY0At3??n&`2%vA*s@p5b)dXt(fF{fREysmp010O>8f`=^wNxQ|J0)mk-w
zak1<t+v3*lsIL3(**-gyFQm25p(G?4%-Smb8a^!jBWglgJ9F94q)R8HDP;L)l&t^(
zYw3!~5p`8ZYo2?o)et~6e{X==`$+<l)?ka0KtO$3L(}CZ(znpQA5%k#q)UJ_+I;vY
zU2*H#sP61jV0sk=(#KpyouFW90VF#yyeV`>)E_p)<cvr$!fLs&W?gQLs7vLp(|3c9
z=##+q1l`v>Hv>Qn0U;y|N}e&H!7GqdAXo;P@#V(L3Oj^I`}vMG;pN)PfXDN7FV|fT
z=65hzjqsu(g=(cCeZEep(@ICs7d8v!Y#Pgi3<n$)-qEa-wO}Z~ERA>*crY<Tx1{A>
zF9?!mQ0y-L{9i!;z#5%zyf#;G&se^aT@%r++G|&A`E%N6$@7>GITp+Zv*l9*XWbIF
z6i&7)Gus*6dpd4C6V;u0$}miVIDGOj_*+wZuJrR1&;tgvid~uH45>X=`gc#yIYbQB
zhU@j;Py6QYrIpVhX&6e%8B&#~6GDolmBpsD@yht^lWAo#eUC85hATy<VZsthV;81t
zlE9XVMg5RdeUrL}_#s#7NsXzrLs;X}iw1-m(TK^Nf_SEOWsrP`NxC4UA-16hn{*&4
z|4^Y6)&`2yFAotO-f)SgWP5as3Db&Zs!dI0tQcfEki_UkZGsi!(&{YTP$3>eI?)Ij
zPI58VS-PcvjC5HG(IjKKWQcBkZQupEK|uudLhY?^oxG)c^jLehntIxIdRRO&agGGT
z(m|9CW(${U&!0ch(JC}<d;U^gP%AWa*5$CpDcjGTKHGl0x9!EY6P;~`JCDf5t9^bD
z0Fac>hm8p=EfF;<>j)pnHV8OVg3UZys-ow*x8KtXVaJ$93V0!MHIVqQFCcxJ%CQY6
zk%veh>DQ4eU11*pav|X~kihtrI+KDGbX1XSOmtP6ri_;HaW65BV45~?JARtOLgG?3
zbtXq4$tg)(rSIeYALGxzh9Dhf{JF`!YIA=3$ZXe4*ZiI(TivQH_jcD**Rri7W-E!>
z>V9D@e0Ti4;GN)d+1^;$-lejAt9IAz@Kku&F2w9Y)V_VyT|66{2`;-^V(yl^eB9kS
zty^^#&h4HrS#mb5lvcmzyW?9px7=_r)^IRhdT8d@gVOy73X7+WtImSi)|u92XG6@{
zupq{ryA}sy&Vy0gK@du-mI4K3<vM2zX9}am4e{K@$&>fNA-B(0-#Hb}t=-HeKeT4u
z-aEB-x_<7;d}Z9aHLBbC6cqPGsEcgh^>yS$j^r8k^!YuQO2Ugz-VqCER)E>`k%*jT
zjVkb#eivh~N`pb`KDjZrMcZGDTVIOmUV2J<zk`MGWRxrgQt0suvq4~Xl5EhIVWV`S
zK3QIq_Wev~)rt;pxPS}|qETJ&VXbJ&#72d*p%g==^Epxy3>8_4=7bR064n7NTEhxT
z(rrdYDFJj!SS;G8wBG_mmBkR12QeFqy_(i1-G;{FF(Yf4t$sCZ3YlI%lvYC~sASkU
zLP^vrl|7?0O`;7~sx%P0J&+WWtFQ{2A<xOQE##=}?%*z;1utj$65qC{bv(0lrhX?&
z`}wyIhs>G8>7isEFsbKsT*&O_(aYpk6*4DVU`-oqtD1@t##l@GkX5uP!V@tk6JsAr
zmI&L#+>Eo*rq&5Q#1TAxRuR7U3B<w+qXW2K!OHjf8vUaOAl|C+3s?Ij5wdh409m_m
z<Ej^uuTc`i_=PJT5=V~vJz}G@9|I~|dM@;wJJNOb^yzb-TiRPMz2x<Yqc{8z8G!oi
z1uu9!Xsu4ht7Vg-6@~C#f8(l0@&vcs3JXnVg^F9@OIN(U3L<5FzWPQHLPy$CgTk<1
zXd3rRO^l~*A{@np)oQEjgDu0NqS6x@##EYEeT!$wa~)y-ctB_nD})N6VW3$_WgE3b
ztfQQT7It^{cAhwVw(abNZYJ0WmY<PEuRtw2!8#8>F_|Fb;-etL2U{)J(z6xHnFtz*
z)D6-k)usbyepPy%p5LWs?JzV72CsjB_D>UJs>754J1IEgA(o*}6d^nul>#2IE=$>4
zt$wCH?v+MI1G1T+W>(6~z}8FjIHf|dis*)&R_2FgGkwk9i*Lx90iUdAkFr7X_{WC>
zei8zyTQR#U`?12wrK@YDKSIt2`15<f@j>X%=y>-%qp+G^Fgr9eH0zu3&0ktP7|(Bu
zSXW*7vnOXx68}7ZU@<H1IutQe+Oe5qvz;@Y^F<3ocWdIV!x8g}Ysa#yCFW|mYyQdp
zxT|Z*ylT$-R_WZnd*;eD3zye2Wq#o5ikN91JrU2{s_vl=jh4u+H*QWhe<M8SnETpq
zx#!O=H2=;^>FoaVaoe^CzhbpT4!(Q#y_fF1^xi9XURh{cDrsDG=FPUuv@AO-W6sL?
zwzzX^)V7uO@Eqqm`pFY3*}1p9Q{Fk<ua80%k!8RA($q`KStYTolDRAKta4IMWZiC=
zYPo%A>d;)pN7j-RTON@ih}%lmjGVpn6BB34Lxm4*j_LhzTM1+iXz!jkg3~X2<LfJS
z*YpchHzW3ytlZldrY=m6$FoW%kFHpomaThZ*1e0@<5q}d4=Fn<K%TsabS7f+@$X>_
zU~$5S)0D0%z7#bKWBfD?8-CH9K${}<!2*DxQm!w&JA=&sd+n}Z5JVG{$BFiWq))XW
z(_WN$hc=^z1W69Xt}X=eC^QOs>=JvhOBkL}X9lroYUc%>uM{nrn6*@%FvmmC*~0<X
zlf=i`9kir0lMGo(9{{e>0s`4~=IrTXXWP1tp6EQ%6U+hP1hN^F`bGp&3;KhO?iWvV
zoM;o;N2Re*sV_iABl_+ad%8|YBmfHPfG;aRhBL-}J^GP;pT0uaM>Z&$3WkNCjUf75
zB4LN@0O3wwgDjko1j8}bVb5S+{{*ZrfSXJ{&kZG}Bc>lV98d>&VS3={rDu{<C(s8&
z915dA+yYEzIR7FdliUMKJ~;WO<BO8A_b%SK$QEdK^tsdVk~2|LAz_xmnZeoNnc)>%
zX;j#~IC$3&F@f6>v3_dcfKRZ9XP=vSZr-|Z@vbxOJQy*p<P^+pgH|u1`?#b$(zR;O
zy?tZq#_iXpUYi^F$i96A3c`_@k@>E8{?2LbN=_crQ>~e~(uy^#S^MP4r_i&{roV$N
z%C72Xd&Jq(?IVIJHiPaW$%JheMzM!LiUYd5rn{-FrZH#-$GDDgcN{-)MlB2p&841g
zPY`D1Fw#BEMn(D=!0smaD?+!2(4sy`=!TrhD~Vk+3G4zpHEskrW&{!}n$uv5i5B4}
zbfAOvM2&!*rzya$kS35^qbe4VUe0WO0X%_k&?TJ&3k?apv>!P$tUXZMiJXe^2qpzw
zAxt)&nVYpQksBrn--V@INQ=-C(jm0|wxNeqCu(h}_txLm;SH@^TQ{Q&Ab+>^s_am2
zubi8DV76aK(t=kGnlX?<En;<l{eN-E{GiM?GO{9Q6>0~eFZ5sSYZZc~?E<ZzRzc?L
zAT`&KnqB%c0>yuzpp$~<DIn<tqYLWvsrRxqF`-DU50={-=tZ@%j;h?K@M1F~-Cjxh
z2vwHS%urV5f7R`JV027-?iq_#?1d|i%K5`FN6qA^Rb%e-ws-wY#>xfja_ym5?V-E=
zrP}rf*6itRP<lPcFJI2DiRITUXyf_Y7hZ_vH!bpunrQy6$gve?>9Vsb=B%3Ui972S
zDu`3=TeuQ+Hbb3|Up{?#ej6#$7q8w8+#UEyThw_pYC8(Wy}M$*e7<6O6g8yf>Wez}
zMQ!_5toc!0{!{kDAEIBhA7)Z3rQ!Q8x(}vtnO~xGl8ciJDQ>d|<~{1Fz}zx+2Md^7
zmZU)bR^e9ofI#SiVzNt-@i1z+jif!DCwk5WjW7}sdO*gRk+G}y_~|YPe~$RbUQd)w
z9bP|+L5D)LCR4hkNKvNDV(?SwyF&jsY)T|=5XOCE&z5GvCVh<JJ86y_Lj>5{TD@%D
z9<y#=HCb+3rYyI!r?R8&hJ}f^Y5!`Td-meY#o1S8UYS3&l(!>deyrD$P+zMzJlOk{
z)Wc?^N<+a&nXe*3#<L(e5(^zNIi%5*5TO^Q3&c}0SyJ9j+Sa{G6ApxUfLYfq>!Dg2
zzbPF+bwMYY@-YLUh6exD(HmqYRHsokPqJ)4{AJvv9t3_OJyfMrQa(i`r2m39tpp*^
z6MzuNxXGhw^l)zZe0{X>a6Gr2Y*TV0hgS2d=ZB&@kHzzjM~*(Q=1z8Ph6lld!Q<Z|
zLQ|Q^BY83o$p9CH#LFT%W=d+CD&gCep^Rd;rj*gENHwj@mJDSSi!>M^lTFv=GNK6t
z7M~Diz=n><Eg(;_r^6l6P^b+Ej7+Sl1b>c4jENuSm5de&e)q<Rw_m`cfPG9LG3oZM
zKHvC2Uq5WaJks`~eIwrCiS4vbya8AuA#posBr?((mCnI-YkLP1W}fKSo}feop?w^d
zSH3_ySjB5SV;+x)DsQGeb?$73HK?Zt^MAV<XW7o8Dl*I!nqF+{Jby&tJS)I~^#_K9
z1|O_H`mc(fu|_nv@d}JCnQ;}EKv~xf##q@dcs8Gav)NR7fx3T*f^!s*5P2h-W|K=b
zH<kVZIc8{bMG(Q{au&bd$&71yQY6%Uclmrx++9Cqi)bS4GfstNYPn~wz?(G<pLLdh
ztko7+)c2p7I7@zlsX~ru#nHI?nDTPkxnj?oJgyq<IP)VWU}KwW^7NXPbGboKS)G%o
zH>2L<e1%aU=4$|rRjy1%IvLGzl15M<DEKc?UZc)OGMV}k<&)+>D6jnz<x^-L1kuyW
zV=d^rC7Sw*u*A?mF$mcKn_jS2&|-o?ji0c`R`&f1l$mUD6uO$x_Y}NOQ{z=cNG@)9
zEA)D3*;pDgmd@Q+GS;lv^H<Hb+r?AG%Vr^F7Utbc=DJOZ1xx1o6}x+V&P3uvyW@6f
zDik#pZAMXge3hZ7XVbymLAU<~qnRL!kzg?1A4n)0gSsaRp_$qNOH3uUq`$%!e?%Q#
zr<6VUvtx1Vxv1{k<|Yy`%9;os>`Ttd^!+7mRFhgOd?9fSC9QDO6ljE?+!aa4O#2%y
z5XeddVJ1uGC)SbFDgpl|*<8ZHnTTW<!6kRTG$O;)o#HeZyC~~ky5bp;b%b(d;{Zf-
zAR>e1ki3oh8TxJS8zUAIaxs#|T^AD1;2EF9TQXA)g|SRnZ~Pctl}+>sCY-V+K0^<R
zDF@KBLWMYqbHO?wL1A*t{|3eX1&z6g2qwA1HCsPZKifFdIA6RFjyn#5JWViln5c87
z777<%y!&F@-Z6Qc^484M%x<6AK6h*3<Xv;zaTvL+MU4GvS#}+YxendE`Lm+9>-;~M
z^+EQq{|eMxijt+FFX-s-`1@hsOK@zx6nMsLr^2er?h|zQUs2E3+e%bLw;uQhYpnw&
z%tDhV(BD+wkZ5$!apvribLTGfcDHpMIaomruE=aQ;lQ2=Cy7KkCNq#8qtSo5xzV-J
zdQ#{=+rVR(EmX3SVZ0{z%#`X`B?HNbU*SFddc+h$#+t@?CY891r_(bowL0BMPTeZN
zH)>%a3R*m)3|$LChgZLvT1fb&k=5B7NOGtt7Y8DCUUx$ilw76&N#Y8TUMEA1X_EeA
z+rLabPxz`P^H)O}Y((Y+SIf&rqGrhYkp%eCLkj*ef?yWXPxlZ8AZ<0<wt~jQ6GTn_
zjWYf%1#DBI^~w;n!gtUlW|KlCfLKmeW)82wsA73+q<{>B2uA(VFOlQVXfpj9L?*dE
z*9i~pMc;aD^7sRzeY)kIv2gC{LhZfMovZeW`PR6-F=}e0H~YZ9t~x+<#~lr@*S0z$
z&#yS$EB4Z5dv(lSJwN#2jUP<J?favq{c1%I?WJ?UxV=82Td~@sz!1*jgfzJ0!<rw|
z#htsOw%w31<y4?nd&5(+J+K!n+sk71vUw9LYu_C;?M@I;n+YePhuIcYj|dU^A~(#1
zL11U%UDdhR!+oex#tr6S449vzbh_;o!=)QMyQKexOk|hrcOf##eXMgnusWBm#W8Df
z+*%sdm2PgH4mnx#L_|`}OL19hlOSep!BB&Cf~6^u1{*GPC@C6By;4i73sRws7>_{Y
z(dSwSQDnXWTrBG)n_;ixg=`{C4xvhEW6znCLw!rcyF{D+-%z&+#H`yX?hL|rvf<q~
zwQu_Pva34gs*byA;?~-zu68pp3@FclaTK-vy@}i}K?(#cXaT!2xhJLR!qW+GYW0RI
zqr^Iid8FEu8xu&3q`A)?V#<>mTbK<4mu)t}?I#ac{8RBIPX;=MO0F66^9DqT7cd;~
zt~4b4Cym{*=KPE2f|jv~>*Q3@KL9zIw9a6c=HM>;JwAjWX*rw+Y6={Gre%_{5K0*G
zx?#x6GizW?P(OZMI4HnjlM&Wn@yAgsGo4Lm@fCa75}3-2!)uQkw%K_1?`TdHqO@YM
zn}6sJ+ZH>f1G8VB`TG2gWp~pbwkh_o-zX~KkJee9Of&rgb-=d|E<)a$(og9@N8U!#
zEkq%1goh@zpckM~WbgbydQ-_iNNuHLMw@;~?Yf4t#1oj`3cenE>$TTkn--TytmjOV
zqQAfEgVyi0E`;Lw&rP1DtT$f2!Lp7n8Mm%x<xV%v?^?>LS!iB$=Etae@%%$^=b>L}
zx$N3lR?P!z&M)<d;{Lgx2*RJXIu5(Ff9%#D7L4nB2a-r`7`ficXagVNBisNy0^c-&
zMyCAi%A{%%H6&_Q2mtsH>fl4D57SnyQLzcOPHjjxK--%kcrl^aeiiObOt<}N!fBvU
zfCLS4*Bf4Fv-^hqqj2ni_YAYyZeR{qaCH&|AW<^KVm=7WIa5&mP#gObtz<XCd9*kl
zcLV&tshK6m?G!Rk_9#^(6P5(Gfzou*+!ncUNPI#XDK8~T&t%<490r`ibz!ZqIz^JG
z(2#Oc<V8wq!*g&VH~kKeGS<{`7n9}(-$+~PQ}9<*mvdMLg%{S|#w((SCxI271iDPd
z8ERWLqYLI$m_$(tCu?mOzJYItlfHoo(Yvh07#<Dk8(?w<HWE$v+}_ZjSgIWyfP-w%
z6EtIa!yp0r?K+*T8NV*s08o}!%0eu7xP5edSaJGG__7J=#890{YAIn<5>S)k+{}DS
zlG>WOr}#H?qfP7l8;Z!kAtgy;-V0o2?*%9m3zGf|B`J)x4j0n)!*JnN_N62?gsSC9
z&I^(sSrv&dF`w%^78EqsPV^Q!4eX+LT&Iv7IUJFn0liM8X7FDq!VFLMU)cT9zrXqu
zaq-;Ub3eZH@2`F)P2kgnbP1<Pp=3MOxhL%Z((NduuUDd0)n!4m#d5!-Vfx&UopEXj
zf{&VCdb=Z5((oCxH+*wTHUCeH)qI@|PWK}a;=<+NO5=FIJ1py12s;T9=Z$&#W$Ou+
z;RrcnN(@(9JU2bC93cri!??13O!E5Rc?~Zna*<cEk_cHb_xJ{4(CwI$UxIiC;AXXF
zQ7k#Rq}x=82?)a!dl^AWtvWfWaLTsyVF_;iVqh~6jDCpvel^LhX$<Cyk8R}-+`{Z@
zGp}K@in*H>^>O#!$nllps)ded@s3CrnJsJq?w>t0b7;P0;b?UCk*MS7RQqa{`|V4x
zwVd9zWGj^&t>lqex{`Aa9G){9CfixrkTBZI=7I~m;@M5)V(Gj+F*Wg+!>Fv32&C3s
zDrrFOEf%CDth|5qX$hB8^oZll6)VN%-|Sk`BKA3RX?UaZa6b3P`PRc#+CQ%35i-fD
z%<qCpjdyGpTjG$Lxm1S}IO&p!k>YMb111r#p>iM$u0@0u$lXTqDIw(j>Z?gf1fwBo
zT+{_2l_5V*06d7CpFs_ha4D&YnEqCmueW@<gG0wo-8r?u-|1fHzgOHmvvqNN^3;6@
zS{va~VkM(?Yf)5}5Tv1&<VEz2LRKR3<;co3DV3tE)OO46GZ)eoN1dIg+sPH@C=<Lx
z5>GpJN+kqeIdeaqH9?0Uq;nEQG`kX~C2Tw_L8=5;DhVtls0`#rj$_s`W0}pK$&Qxo
zyIT>@ISBI^t1GH=ZKkG^-Tsdox-Gr(bOPXMjD+-+XOzt#q*FI1$QqtXUuUA4nLiHz
zKo@aspmnvRW^yuZUDxT3^PNX}J5RTDoajELXgvN7Il(r62RCM;E#0BmZy}I%ULSlF
zH;s#7^PrTnK_R=`^~Y}{#!srnxYW|PkmeYivoZhOJ@2*NX<aVb87tbkRJ425l*P1n
z_9^?4Y0Ii&q&!<X1G9=fi&8wd6}l>WUL@;*J;TV+WMva}2$A#&D>X2ZhwPAOMX?Kv
zUvhg_(;)mz+6JVhC83{6Q^_H~RReD+MSa9TXkZ|e^BHy4cm+F`2lC6t#L*p0WiFf4
zWZ9TVC&x2IG0HROr_FSU<}eGI339Z-GRS>ws)iVRdJkd2WoKQ?S-0$Ljyap-_MK7F
z&Wr$}4l@9ea{VnG@y%fz^Am<Nc%1||F>zAe1z?hZOQot46edd|$I%%T-vq6f5_m;)
zpuKdUy)v+4690D5lrBX-!nC3QOr1WHcxnoCvr6X$@p;ieVVIlJWtK9lg9FN?>;JdT
zw+9jiQO0fsA?e9Yx*xu{bodFz5}u7?UfIys&(2?fSEJv5V^k9B%(9-LHR#yd+dE}r
z0?WxdT5+<W{rut1wjNoJr|xc9ce?9LudM4j)!8c>6x*qF<P_l`Mot|@B+VBTJA*<_
zWnwSY;Yj+47N~xrjMO5pW7vXvB;Z)$EpeoT2gmC0*D_FEWwefox1)n$GSF8iXeQFU
zOn8N6w|;nO{#+z5{k7Q}GdJFuSh5QrUQ)QsH;T*np#E0);H@wtP}7C<vL3q95x+uw
zQJ)pz9E~n^#Y$?VO#yx{wH0<<a3BLs1dkBnNoD@J^cBqHq@3<62{I(T_0kdKXr=c4
z2DKNeN_#F8iO%-P&NYoC&oJ5bX+8%$gZ*JSM~LMJ|2d~(N(Z*DdDWU7r;Z_5vbL_+
zAd#^x<y6P4)hq6@`I-+Jzt^~!yVw@5*c)^2z3Ym(4}wUs+HOBL_1s+6N7k)R$~AR-
zEsM*oT+3nl%gq}Qp&PbJzk)TFj>dq#D4ks?!7e)+2K-p+w3%sM%1-lN%7D_+wKZuu
z3B_-?hO###;89&)VO>h+lU7U4<`S8_vDE3BtWBR*N2Zo!s266ENuKZNrN!j2WK!YN
za}E*twc(mHikh2z*oZ$<*z6k-wQrIke{usEB3;OaYY05n#!Kz<5UrgJ7X(_EsdR;{
zkQ!KEN}qB9!69HQC25?4Q)@KneX0eSAeNygVWTgb^+k)m=<o+$vh=<MNcGRIOrpG@
za`kQM4lduQV&||eK&zHrsTms13RGuE%?{M4sVZE;_5k^Zu`8LD6WFGvrPY}mXi!td
zS}$Y<A?-V`@d)V<T14wmllnGw582Xsw<DFV#)b&xZn)G|h&IAXYCrLftiT>MtC|O?
z*&#hbd&qz=CjiN_a;4gh^xObxGT4<?(h)eIrmoBF3>?gu?g|hM#jbVv^Fl^^BR^z9
z=nk0?7KC_&TS6Lyg`q5jMS-@AWs3vtYI<7BN&-jJ)OBAf4Up*-yVj+b1x{p47Xqi$
z^t9T`16>(XD*~t0)OB@NhO*KAs*oLFbtnhn)=)0OngCg_uq##fuaj+6T{m+wl>QDc
z*9ref?C-?i<6#7J=tBp0Thp%@M6S!lScIAoPZpmbB22L2Oe{@gO<s^DCy|OG{F~9d
zU8<vlx}fNWFN{{yl1LCXbucsPhm5&j6V}{dMizZYm;Mt4*qJ!iIPA|jbBRtFfP_d3
zp(>s0hm(~2vaWX+2e{Dw2u?7elxD6Es*NR1iSzXZYt(Izyc1KKHl?o1c!f4Y8t6&x
zeoJfIeey^C#qzrYKjZ)9wK@Jh(;d^iYyNBT0$4@H3mO*v)4Hhp<o$}R(}B6RnH$lZ
z=7l2&K6|9)3QqA%Xz^?2X5DRfvrh3tv64k_Lf{}9x=x&?1FCpIB2*<2&?VYZf=)$M
z*Kh?Erw|*Ec%qJ(p-OhjL&#pDolDB4fGjH{QV&TqWD+5LiC`-gQb3qi;hM<-OCn^f
zuq#;<Bi2fyO;xf|fU#A`X=ddlmC>U>K{*8#6c7$$lBv2nc8U~Zv(s3kKcn}w{1^i-
z>)F|eDTYa!rC0ADkTt#SvJIxMqc>C*Xo%kZg5DWH%nbMSd)T=U($6UUBMLsI;J;9S
z{XgN8110E9KkUF{3*glY2c1E<?EEi!{ks$pU&Z`UnIAiIf?--prek8~Ft8&I*zp03
zIaZj8zo4>2AJsV&GcejPAlHY4fxN8}r*}#BC^cI-0Fn+#WH!AH=HrtT5V5ozmZnZN
z7;S7EqfTn)2?R3v3#rpm8L$ik!3=6>&ab~VP<hN5_aZ9op^5$95rE^*bxodJt=zSE
zGG6(7Oeaj9nlAfq#{AX%BE=*azCT-v-#!1{<vW*`OLoLccEq<dN3vH-g!l74DEwaG
za{0bk`M!90YrNzDS@;(T?;X5zaJi@<R@4wR6+FywzpH;Q>rU4E_)<>8kMsVZ<VPjT
z&4**nhoj9WADn$DYQukl!pgm|{ih!pG+8?#dV*hW?M&^mqXyQ?aYx;<qbcTSTGYiI
zdm`=kD|Rim-z|w(9E;k@?pN<!^xr)muRapBRjia%MQz2am9-xn{NBOk%H1*iw+RnU
zpNpE#MXU&>eF&m8`=ifwu5|ZAP556-VcE{;o>LDUd9&MQwk<oVV~*;1aiKl#*fDwP
zVP4IGC7!oyvil)Ci%!O!O_QCg&dRv68h3Yd+`S8;kyU%q+{w7TX7cz$tLqV0ZZq7^
zFJIH*{&RQrnjUv(j|&=>-MeD$T`M;CyUzED?i4L=X^L%W0yr1jVq548wF1kU5qUqg
zaa*=86*R16;o*~PuBc(nPO%)WtZ6NmGB~)>y^BLjC2ea?dUSCm2bPMTTg#(|e6FZw
zKDbo4bInbU1sudUmZj46wJr2m$hm75EKB*j){5}>NikQtbFGA8rCiC5wK9qcoUnJT
zoMIJRp0HL)u_`XVdaasbTe*U*Yc+^{TFb!~s(#5@vQ|fr^<4herM#N8ZS=66%d46{
zx#VhEYoN!*<X4;MaYyp8nI3m?6$h8f53TK@huvt=Qpv8hJ@l}bbCk{vE#=m&wczoS
zeO!LU+J1_)QtSZ5p5qGZ*A7zb5a%dddmgb*!Ra_kzg@c4#^Y&?D^DCq(&q$XwH$ov
zWl`5p4|CEJPGEz0RuPz1Jo$qC_ozQ?Io95;`hINAi#%zE!GtaCbmGdBvLo}l^J0;`
zi%v^P;F68CQ}*<8QNor^=-r=`TR`@7&3oALtj;ICmpJa=3&Bgxo3X`c0Fwu)7%yx&
z;TIS}6_`!?hW;Ttbf*f!W$ytFIvs@^S;^5=DWiT-p#Cw;n>h3!c_MGvLN@qMD@JG2
zZZ7r3z;lKj*ee`?+gRd2;b)agl*kAo>O{gYB=J6MN#s{ePS-;zm0x}Tg~ycvvq?C1
z=KL2LT8tGdk=*Rk8={QW`pqygTnVyf)3j8FEAc)xDd;P`>xHwVF{B|+4f1-)Di$Gn
zLAx>>kLi>}MJPM2IN=dc6Q|>(PB;!*y4hLCf^r1T#^$AptUn?rZ0R3|>}q3n6&6aT
zQU@o8Ekp-C2?W$IntPi-pwNp?D2GCs&rN3Q>8st{XWH6NrTo{_rqRc+o;IDH{DtQW
zDr*0NbLEz5A^+^kUsTRD@{?0L87p4z^99JeU4qAp$N#LgbSqsC6t>)A_5n%7P}maG
zSS)?#K@~l#q9l~AcXoDtq4mI!N}~12(rN^-PCtn{Y+=<tC3m{#S0eXeI%QlqN+(sf
zV(+@O(fLQ2^ylE@GCVps!Lq35Sw9=>tf6U0OL$Q|1^ro&x}{1)u@nH<<VBo~7JrYw
z3fl863&iRU7>w``t2;#v?i$erfe}m^#5{<@A$B1fCHVS2)t2s?7KnT(59-`_se+;@
zi)eTbFO_rm>0D9KG{}>nB5X`)IwBT`;mr`k8#bFcgiR?Cl5{X7j?ZMykxAIDGTZ*L
zkVz^D89TVkVDTWFf(us2Ol^DHOak>xV#G<kXhjcfl#9${rjln+u)gyfo^{BZMLb_x
z@3RtR>0S1QciHq#Eh9ne6w<0sqJ4<C$_*D<No?kZOZ}QE`k^`!HM1{D_C(F>Nz6&h
z$6A0|iErI-p_W{#B|r=-yM{7|H^qD}dhkBa1R3t`b>a&W2M{m(_$UGrUt|(dsKbL{
z0V@o#1i(ySdYymU4Dkk@s1a}56`coD6MV?ax@(>ZKRJAe{Q=pU;8N)a17t0|p{b5V
zq;O#*ktZg$*9Xrcf3O^q`9NTTxWSYJVqKPB5R*p2IdU4xpWQdJ?>ntHEE$@tT~jxs
z_DXn0ued8B?bF(C9>*aCu2MKW=Qtx4MNUrNR<9%kM5KHH2owVXTJ)I-Wken)y&D(|
zv<wD0$v2vD68aRtTLF35I|y}{tF5;C+)?Q=mOczWdvSvbMH=_uunL%Id89t1Y>?6<
zp>qXi;6DR8EX)5O=(M9hnV>Vb8`irkMP<|4>Gt0+t>n6<du9se&fm+eSSb>eM7W3p
zVwN<BrK1m$C$Kp~1~*TF7=&60<VH4L5Q^cTXeJb+g{=j|w1i+F>cYatA;>rac_@8U
z@QyAVcbuptDf-ev^ab-^FW$nuk;y?`r?{RpQ8zKU0)2zb57OgTjttEjA0vNZ5yA+}
zt)!MGG4qU=Y7i}n!J<raF7fhHf+vk3;F;qhCC}XMc#aU!-`}w(Ua<E^`UTybb1v}R
z!bN=~D_XEOVG=S|0=_qDsv#-YmKHXs-?8n{ty_T9X$H)CL<pF#=cEj(QbJ2nIbRXd
zM8#iQ`i%O_OaF{+8tE#aB)y7Yo#|wbx@5cqz3lMdU{$70Zp`%=^_El%=q<Ase_uP_
z@qP2c3%`>Mhv%rR6y1whm6enj9c0ES2>4@N89;<}r7^uLnZ`FYOVn|OrF94Tk}GO6
z>55YTNw}@!08p9<is!iwr_)%Vmn5JlGvi&vNFoYE0>{NPb+}wG(l>F1WKcM3wiiDb
zf`e@#5yK1#ZqEdxC*}S>1gmCzg?xu|qt=r5E9VD382;Yy;_mp?eesI@ciZk&99(f0
z%|1W#{QTayvp#BrKN@Tg82p$p5-n!Z$@PNCb+iG^l3n<Fyd6QBCKsZ}FwXQ1v7@G8
zP^q5no3&17s|X<z`dXZc<H3)w*hUl!uU^sHAIPA)Ey)Chq-C4~4e|?Ui=w%ORaCv<
zesjlyK4P0bkMr&40!yaKSaU~0d7JCv$)lU`Khn=pOp(bZ#jHX7%eTUpaazF3jQ+eV
zFrjK4AI#lk&j^cQ?FAg+r|BNWd-Ka^CN1B~cyQqhNeVb=+jIe+gB_f)x6e;qWe|t<
z9Vab)hZ<5x!5s>IivlJqrdgv1f=P`f+lXKz@nG-3NTANDobF3U_g$e?H$VY7_DDVo
zzJ@?{iW4|VkbJ_(h=l>%FWd3WbqQsZkRfL;&KjWu@FkkB5-lM=iJY-nCa#2n+L9U~
z={4kfNOLiW$gd{3#~Quf`8eBvAV;gOeQeR{U5_j}eg2w_bFs-7cUDbyeq!M2+V~Zd
zec4nVGnK<=t<Esn8O^PV>8g>v$Pm@Ju@AWG7kZ=H561Ej!jgJx9n9L;a3g!Y0S`6E
zR{6Ik&RnpXlc%V_YhpPyOF4D-ZQK4buPSn6rD9v8b1v_mtqhK~`PC1sj%90Y42}ra
z9V@$ABc0JLJ7TtGw8m9FUmSNfvX-UCt9CDT{-iXv`%Jv@g~`t8QV3)3SMOOIj<)y2
z_MVGZpQl!r$8>bCiODtHea~2Vzov1;Rxno@v(+xt{PV^S8}GW8_jktjcgE|x(DGUf
z=ISdkQx(LICRfx|b<bFRzitPLM7Pw%Z1oE#se8y2&8v=?wj!5Mvs~5`D}#`8x-h0I
z#?Lk^TT5f~AKrQhqPoV-YIq$+j#lsES_DwTV|bJ+rG!_>D-{LyaEhgchK;I3GU<&+
z8Ym7h3X!DFPH7SuTWDdD>I1@SYu>kq-|@w*)lpsb=7y0Dg*9vk!t{ova57BBC<nXL
zMy4Oal)}cyNgZVu>;{HX);lR?AZ5je9AC|pBNMxja{EB3=Tfz0%9~NwoWb${jvh%e
zITNw2INjlU+CY-%&ZN)Jcm!UO?veg7WmPal3Z@NL>W4AXRE8BqUq9ok8MOYOr;>*-
zf~Klc)Q165hOjI2teyyojA^$YrtAiE&uCG3TCqelMY-X3h0rVI8cN306xf7Sr{ZcX
zlsvOxs76go-BSnZ!0Ny_L@0d2g@dq?HV&dG!OA9=UdWg>{zP|exPE9>*)O>Ar2R`%
zzFNA2)$Pi!#Q;;|$4HXWOMxkpaJnp<vl<&4Wjz^O<5#|V`z8ERRqs_u*I-x891TIg
z^`TM0-0BMr)guknqELOjwYsadx+mCZsjsgWIy`g;1f;cn!U(J<Mf`e}0GC$iJYh;k
zG%XJ4!_#&lcnT*j1+IGi<Q;%LkiCPvZ(?*@f}D3yz|XePxu{-W|M0kodjKaKdVKUA
zej&pid;t3>Y@!5w76g-y66^A%d^C^Y6=kzz8cDWeeuG}Tfgoj<+;yV+M8|npq;;G)
z%T$w!R~uQBD5rD%6fxOIDnZdJDQ9(Qp^(I{h`~jdG`F&e2z3_A8jwauC<X#;WK1@J
zfE%Dk#k8vhHNncXhbpwGkO3tl!Q&Dzf+`guj`<}x_+fIV)SktFhGFStpU{r@2Q!?`
zs~hRVVFmA?YX^Y*{B4K;m+H(>OY@R$=W3P^&#IU_iiF74H@p6)fi^ulrFX97BU`0%
zUhk=yQ_=F~k8C?1;`rTLGq;xA%`tcLvioSveKcZ&Js7j?YKdDb-j_bO@x2=#y!O4<
z7KfK=+8-W#{$F4G!;3$&EgdA6?Y!*!2hT5_`?hA*IAff(&DiEHE$sd%XGiqldF-ND
z4p3cr*`MNPfVRx#y?^+FW8XWrT(vt^wR<UVPvmIg0K#QgRm@d2|6<&=J#u8VxN5n$
zAy(Y5Tznu_eBkbpc=6%o;#0BWQ!6=@_+UwPqzn6J?qPm8=XfmV_=>A=j<(8N2X;T_
ztNbTMZSJc)eLDwwxGcwX<-6_goxF4MKig{7%DCDNK5DH1vz@hzvQ!~37ku`}hDQ2H
zw)H2PnxjsgZ0f~tx_EuPy~-wcK$-%CB@#a<%J#2N>=y{=hp5=kF=52~5^Y41hk`5g
z&P>9*Ml3tOL>rGn#xa7<h3aH89j(Ir6y)qSoEPoAG9E}g8&CHr4h+PuNUu>qcC3nq
z{uO#0q~IC_Z&2_S1ydA!i-H*nzE8pLQt(F<{5l1hRPTR5FOE>~R}}mW1)osxn1WwY
zz|`*?wSc_a6dQp`iZN|G;d-W9SIB^q^f*CpiQrRKCQVg>DxF;os1m)a@D?v3CYzp9
zB>jh^?;;=mbN<&6!vBEhA7^uX&c|HV$DH|NF85>3^0yX_ul!5S@e6L-noiFbf2_-S
zkY6}?`V$M6<zCU*A8E?;hR6DfEX}0((Q)2hsEKm<k1DbYaCbeb*uw97v`^35ALW?%
z!bkafzVva9jW;|h<@wY6Ba;?U8_)M3YUE$wAGzFo&7<8s|5YSZ@XtRw$=gx3N{4Lt
zDG>LgT0LT@%JImj$>Cj(wp#e&M}<6p9{CM;<zN-Epct<YY5B58Ha%bWD96a>K6aHM
zcL%TG^B!3Y2plZPN5-8;dET&gR@0QD`{gS<r?<R*<c(u%ki_s=Yha}LtZ74x%b&D8
z;B0H0Jy-Y3(nOw5%Iv&t()Ot849_<`8qo0k)<>p7zILq@KbH{+-qUWmuQUDHQA~VY
z;jh-hTR5|8`oetnqA_aR2iFh2cqPB+8#rnPF~#-c_YCco+@Dlh+ncq2vV%wX{{X6_
Bc{Kn4

literal 0
HcmV?d00001

diff --git a/__pycache__/connections.cpython-312.pyc b/__pycache__/connections.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8ada7a81ac8b4fe4e62567f290ecae10fdf21410
GIT binary patch
literal 8813
zcmeHNYit|WmA-dge3N=mmMBpYsYfg(wq!f9Y&n%(%C?-Qw)(JRv})r4%^BHrDN>oC
z{Ls>X*LHUmG@FglBvKj|Rok?Ykt~p3g|Q1PO8+X*Kcej}wX-Q8pxDLsA7k!9S|eEO
zIWxnDC`NX>`LRECWS)EOJ@?+3d(QdJJ$J^xb-C;Wt~mFD*uQxR`2$vp7iThs3&6}1
ziAXd~rsxEnVkQ`hbtcYEaTA=*vvGb(m=JWHi(4ivAm`%N2`iL*+%{#Oa8SaKV?+{e
z63Ox*W6VC`WQgqi(7e@z>k1dL{t;^-MzfrVOi#xW=QQ_;nN;L#TsG?=s&QYBq|QTW
zol)Y`5k-~9q2dt5i?X7|k_l0anltK!!>kng;jVuTYmvzWmB<7m(Fs;!B=$CyIGK}p
zNtop3$Rw34H{BDw#LL13cjZI|Kgmeen;fi+mu(k7Yt<LXZ6J3@cG(HM19+F@l%3Gu
zEkilU_+ZE+C%Hi4k=&91e~je0&EW{C4xXf5u9JjW3n5a2Twfkzwl&J!q+Rmf6eb$X
zu}!yGee9FRS*2|-u2H{Z^KGVT6wC}y>7BGnEzqm!iM@Q#Ya8@x1r6e}m+#NRIt8f>
z<jq^i{UC4ILf#H?-xl%?khg-oQwo@C3Ce91Pthg&VLff2t#0Vq{!~4Cpl8P%xlAWI
zPm)lt=6><isjnYSCK7Tq1->=g{h}P7mX$y>9#PdmDj87agcQI|0Y!dwMpjd5|0!@s
zry|d&vKWoW<U~qAoN0n0r)HGIc$AtxgC%SJ3dezYo6eJzDJ0}ICQbf^C!~lEO42k<
zL=!vU9RzAPUcdBO5w+wBxkJZ8yvD0D@U)s$6k~~4N)(MJaf<4dMAUpZ%_T-Esv%b6
zR5?Cr^t1t(aHXQC;++D4YmfI0q^70^reo7PQxWByoZ5MLX5aAs@9mQZ;<2*>(^pdG
zlZk<g@%Yq0w4^q*fBK5zfeB`tH|n#$_+a%QRG$H|evN!$b-iZET3a4kTUY&kbKFC#
zZ*}jmUaq`wXpZ}xwY2~}NlB4dLABr`7ScfGK{Xh-s;|FvLVHPpWvS{*fufD;f>7kj
zWzhtn@KR&#JDenn3%Z0jr49;1iPoZLXqJ<*iXrL_RT@C7q6Y*Nj3Sx`R9R`3*^Vkr
zRmm}msLunrMphi2oWq}W_?I0$OGk1$M(*zz`6SSn3+&1Uc0CB}nLF~(*}m#&%y|M?
zPhi;^P?})e2JNBdZoscF2jr`S{^=TQ+ggJX{fPO{bo{5$;@`2CXoww0DA`iVjG7YV
z#6{35`iY@cOC**&pGr+@uERRWOw}s7Vk#6{hl;E8@Y&89nyu^*gnOvNK>i)QQP*yJ
z*3rJ~=v_LM+j;Q*&V!!>`*OjdY;fq;-iN_4)NhBb-(c1gT($=POGO{L9wuRiYAozh
z(Mq2~UF)8TkO#n<S|I@MqK2+AX{MH+O7tRC9A!;QC7oWUR|x0}Hcn1g3XfEs9s5e+
zVk90jBh<^^JboY$4s2`*Oo4U-=OY*8fEqn7PsxGpICgs=sTiEPy+6b%xFSt3dT933
zk@$>!R8f)&h|ral0Ltz9b}WgoWHVlv-rXSTH;trZ5huqEv%xAeZ0@oh=2QoOKul<A
zUx@zjl{x#Wqseskp1oPe-cK6*D|O#0uuP*nPZ*aw&l2a5?%$dqUrs3zb(5cCLQwDn
zfwYE7OgZ4bM}Ex2Xqx_lLg;75XYDVmva&OL4kGw0fARS769X97PXi;KKKjj*U-=rS
z+gN-bJ}BBaV6N9Ho|hvM<RhB{o+-d(spzZVVRimR{{8skndOebWzV6z0+40vA$=8N
zAr7>jQsl^#W=X}S<m60BbLlH9-a_+4;_>7qQIVyX0^5|T?0{*Nok;qT;H^p?h+Bje
ze!2(V21bvSB_D(a^D28IY&_%w_OH5%QSqvf<}One(!v<I%B6)1rC3@XkfsdIQX{rX
zOpK(t_vsrn&7|2h{}KJr9Isme)^9OYR<SNz(jAPl=psrh5RC<#E6)KJvXnitVn|69
znqch8Dr8t-F#R%OuoFXtBCFHMgeuRrRrzP7a1RVsUjcHB<Qs_1m9utct(}YPLu=1!
zeN(Q!H(THPpnm(Du+q|dzva25hB?=&r|EBJUz=TVdRDx_H;>GpxOF1y-Lr^frO~(I
zZCmj_mv@jl*xQ6Ud!7h3yY2x1u+K3ingmUG1Ac{H0VxIU|CKp!KxXk5F!wvmJo{HX
zPp<N5wq#x~(4S#m)-*2%#zhB&>m=DnULP>SJgjjyv>6LU+bXEwqIo;90k=BCyh4R}
zH)=*1gid<wt+Z-Gc>^ffwmSA~?(!l|H3>xD1oCxNMs9A)HSfqa?|9JMpR4bGT00v?
zw&_OZ(a5~bp0|*Ofyb%`Zgssk?4uvha5J~G3%EN>Ss^9-Vw6D?q45iE0Qr3UBA!6u
z*b}b3h)r%Q90Sg|3#NIDF$Rq?aEyb$;<1f_@w&-wNM9}i=D!Wu0)>S0GW%_E37&ae
z*$>0OqI;px>Xb+f^5Ds&BC4rKYDU#8kQSyOq~77H?TCigsG=hLD^O`e<D9*clGWLk
z8j#c_--RLS5g>p^fw&uTu8yp$1F*Kx{P6(n3GUASAdK6->T<6*T{&k**4gpU8CY%f
z&JW)jUUPtG4dsuJJXUQm(cAtP*ni-|oMnUNF=Xg)gC#!!ZX2~<4XQzM0}i1ZVD>cD
zsS#O=QMhym)_`rb)oy?lEANL^1PG47?-2Za@N=M5^?u+5@96XFBYaIeBXE@ipbaqe
zJ}8tIfM^`-Q<5?QY_$<RMuJr~Wp#R6B}e3`X&?st+@!T5=i8O_?JC=}b$5X<t!Ox}
zK_CI}ZZfg2^(Wij-S%F~{6R3Y*%8d_wXf^l*YkGb?OM;HY`r|yr`Y2&9sk!`!UyS(
zXgJ8dX9e!(G~6w`&jR;BPdLP895mc3WSlJW9w#(s+Gu#Ykns!1cT=Rj6s6mBJ|u)+
zuw({kc#ku)%Yytq3-o~#0mibDvta};!TfcoYz1=wxtU-B$k{ae1dy{|1jrA=GnpVa
zZJ&ay<PKL2>Vwcv#h`+SHnv$SdI9#{lpGZWn3JhPKp;7C)f-@5P?wG^yE-1a2Jg~p
z5D(oNTC))M-kfXjzH86`@LT=^?BDZYwhUm@X$ipp4VA6;%QREgYYANDo>&9EPoww$
zTkt&!DyW37G6oIGF(6e2bC<!Xo2|Vn3|EO^f`SCZfUdIy-H#jZo?G_qdf*$&HR8YJ
z#<AZ7H<+>ltQO)uMxoRF#<6wixDH_*ajG}38{@N$W1kf;P+V^gkI;8%IKchL3f#|V
zxJ&ps3*0Yz!hLMUPQyJy#=#=*c0zNem4=@YGHn9#T@+~#Md>p--zS6*STg-IyxW->
zupmEVfj+gd`4-&&3&rLZK2jahx7vsm)4I3|n*hC_CKI*HtK$)cHSvgo@53Z2ZtG8v
z#~<$BjL5)2_8<AM<^K^`BXQC<)J=#SN9%2kNZoLsk4O~%0B89s5`5+G$7?{~<cj-^
zW{;kqNqkRKW3#emQ{g3mI1Mk?m6ITgnu(+SY7OHi)(c*UqFeYoCY<HHh=<ccaTXX{
zyoxCcB%DmG(?t2T2JB}7%z<~Wy3$<nWyulpN+TgxEpYI}#I5Q|TZ;WCdA*4vHa(TC
zOlGT-+cdK|y?wpWNN=mtUhHcozU;Vi81Ahxm(GTGJ^3|Zmz<UpnlqM?712z6HU5$U
z^*h#z&GHnCHPU_5y@K1OMkh61w~va)JlsI>GB#0{l)RLPCnJ(L8H>xa{;H6?LHZ7i
zR%d}gc3fA=jz4!pt#6(0xYe=9J*@9ts$XgE_{o`f&n&(4Pwo5OJi6j-nm=~y*uv4b
z$3JCB$Nn{zG(4jNJ?|!UzGZ96nhjc(>w6z>Xnm}9!R_Db3XibA>I?7YGo28q+01S}
ze88qhS2i=kk3wW9dJFmxTKxw63U53)*{<-rr`W5%D8IxEt?H`jgC$?xL!K|5u6grx
zjehH>ngpsF{I(5}a~XbT;MY1-!-o^jYR^othF@;<?ox8E=P{VvBL)qBFUe{q{$)?s
zBh_hm#E?)<{grP)gYqRHMOVkTB1_5ywtojm4Igea5{C`GI@?v{$u;_XfYW^hq<A(j
z9uA(IVQlp6?w${Ze>$A&9?o_T-+lIB_t7;%>$?|vE8HAj$v`4vq##xhu4kbadcE<I
z2i@FAR3J$yVZgJw?KAaFc;M^Jhk49Y4nd{@+|TGJg-ivwUv`ZSuo<g=w2sg8aHG7C
z>7%2pJriP)-_eNehbVNsM|H|lXuro(XuoH%!Pt9s{HV`%ugQYE-+?{1)6r+Sdwmw<
z2ZY0n<=$R8y5D(k$b$R`K0qjd--Z&ADOnUXyC_a2rI|SLPEmYyCK5L#7EzRvQE2AQ
zCX;dfOODbE%TZd8;OjS~9Z3fgd|jil@XpeBImcn!bJ)gDLcB^T2yr7m;=xhl^#i<e
z2wO*y;F}laB_v-%@(m=I6lrV>KBb+(Y6Pn;^V?KZj>knYL>1Ttj87_G)<dL%yMa#J
zD7Xb7W&I}kXKv@}!1IrYz<-%8aqyZA%Ddcu>Sex;<AaMWx!~?>5Du46!IrKiORjGu
z+c$zOU3sU#yBDMIl8$%h>nMy~Y|IlZmpbmUcTe86W<%kE-T>~<(!LVtS=loL^pVHQ
z!|Ajx&qJBFlKQ5+4LLh$XkPH%^5-2`bCQ<M1$FW8!sTpp-_l^Vc_8n?c02$VaEAOK
z3HF*Zx*E(Gp@bRDd2Cp-Z=T12?U;=ha9sXbGPr;F8!ta%t$h1R<F>qB_Jo#>{PeiN
zzcj9wt2TFmhdy~f-Wb;5aPnRHI-sn$E7t5VdmiO*AG@dELe5V{!t@cSu65yX9*d=y
zKR$KmyE^;plc>|yycec^WV4y`LRm2{*6hUYDmakaR-Dam%;qo8<~L^Z{|U1Na7nH0
zk6a$!r!NUgJZQA!Ey$HkgEc2<YRO|yFoxY-@F2J2&!1ooC(z&U>OLBBYo2H_9yh)-
ztNoF)Q3EN6AI*YU8GK(gfZ&ABCs66vzqaUKW(@ctBsC{~d+j&>FNA`7sPZflM1!{N
zTs(O;5;s1=l)umFuUn00@nSdYmyAGgP<a)qcy88D<9U`+x@IMG@b{$U_ayiS;{F%n
h`ByTyCY)!e?^B}F(>!VId*BN#lWlp1rJO$R{{X&MWgY+k

literal 0
HcmV?d00001

diff --git a/__pycache__/env_override.cpython-312.pyc b/__pycache__/env_override.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8b185770a0411e3dac7f08bc2f58f73dcf5a9c57
GIT binary patch
literal 12979
zcmcgSTW}lKb-Tdgy?7Adn*_Cdh$JKtvP4QEC0Q?0Pg|m5N=_r!K|t=31dIp0yOd1M
zqNWpPM5<~<P2z}}q+@!Lj;OJds8e^U<R|X5lemu$tVtErMxIa;cc%HHOt+5GnWpFL
zVgV3@@^CV}qAu?9+;h)8_uTW?e|0+T1f&@C=aG+g5ya22q9;?fu=Wj-AZ`#W!IClJ
zg7!;ZAfaxE8REtZMiSeMF)D7lU?K?v!5KO8+b{>y1q(}YMAW0z3Uk)9AF5C6HLJZA
zj*NN>XKCeV`Np=8LvLfPuM-z&*2XzGR}C}{8(916)CD(N!8$k>OLMMaigmtjy5M0e
zSr_z_0nR4Yt>erOz<xY2Z`^mmr|zvRRvxdoP@$H+vC4SWg{pY<g=%%L)iAeegm}lN
z&(?o`cg&+Zb<Fd>Y&q_qqd8xwR&V9XxQbAnUYj5%$UxOEuzDsyDvn4ZB8Fngkr9rE
zsw*Od#3Vm78sc6a562X8hvGl`g>(JS^_~cwdH(dXp(BR}j`oFm&-Wb;^`1D|`;6jO
zJ5QeJJKqbXP;dX~vnQWD8aj94xub{s27ZC(Ig~wA6$NAuBm7_c9z_tB>B~-F5nzfK
z5hsTXBoQ}UaRR|eU=m}TN|A9>$`CiFjB!hfid$2_D9~q&+2ZyqG?Xc^QiTecSgn_|
z!<(k3op6Mv*Xfj5%x!;$j@Ikr^1soBd|59^rne1Rng87HJ}b)T^Yg#2?Jy9M`458;
zZOX&bOFGM>EQ#7DK;Nv7&HuigEv76I5pB)4>m~l%d1{p&!J3i6k}*f0E5B)6v|Wds
z|BY_Rm-Uilxk&O{X-LryeN_He-v>#Qp2Hvfz4y^t8j`l(-)kS_RSwRa(s3LiQ`Qk8
zWfQmS_=`LAQt37Iv(<n5h!_8oAX4_yqa{0@NXk*LV@JXHG)azVr@mhPSF&n5)7N+s
zY!oS153Peu=FYxKvPR(vC{BgD*Wr`I)uDAz3_28nygDY?O2Gl>zv1i)AkR|79|ob|
zM65bomV61gS1_C+zD!OK0m~U4MMA)&lpRfo96vBVIKqd=MxTu&IK^}Hm58{m#e15I
zC;5r9v2Y?0NsOqYeCyi=#IVRI_4>546XIwx@p*tb#__#LmK)&`w@HP3UNQ5WIL;^5
ziBc=z;)DNd{{{l~4TCO7QzWpOK_a6lW{VO_>RU@0f9nWJB7p7w4j9WM>aRK>nPx0e
za}ijm>PN|UNrtFxWB-gfs_G2ud!qFEI@Z1k8iMH7+u;&rpO0@6e`VCmz)Gi!a4MlI
z{84c-7T}b_qX?%PrS~qGqIgb4Nf!<Ud-{7|V#5FtpfpBPOrb;)Sj!v|M#E!Vz^>RL
zz;<FX850!KP;xvWD)xvFNeE&%F~lk5XJGVUp*N{Eh)2eUhdEv`BR3^j#ia78LM6g+
z4sz}lQK=X}xEp3zM>sKr!va>tsm=-|$HlR6QQ#|J6N(A@1jVUh6;knlb!fyjSECZZ
zzC0d^Vu<hp@+zaIsi|LeZx`cZ+s7hf9b%Y=wK`rI-_z6m(jIPmEHb!#OuYo#FUDf=
z?OftwD0z|N`3TDe$0igHVy5AuA}CCD#??y}8iQLF;<<5w3yp=vp;3+v?vEvh!ZG1M
zuy_(m6yaUSemO<_)LOmb@lKnTs~g{R-*hjKi`84Eoy%3sjaRR~I{)%wRbZO_X?f#x
z-vf8eT+6&6!|ainJxlKHWlzNo`Z_&N-m<)9xkbN4&;8lL`FFeS(u<u((>sr){m1Wl
zPCO{9o9mlz$~5hjoAxf1?JG6u`FH#7`WL&7r#nxi{U`5vPOWH==gz(P;>{Po8M^1`
zSalK=O{*@#Q!!1i0p7$fehn#5r+8ImEf|U<*zqAK2P3><%hmW67^-Y49y6o~mf$5#
z&hU6Ic?V{A8+j*YF36O+;+YpCya;MxWRhdGqoraIK~#)_$n#Y=4V6xX&H@HrV1X&e
z!n_y}BgsTah>Rq{AjW`qX#Egjh`^&7qL^YJMg_hZ;h?^z7{`)hiir;=MmWV7;}Qym
zhs@(s7jP+*z{Q52h`R>T2CHa%qPTG`is2Ak77;K2yaZ8Yo5EHyqQIUK8t1C?6Oa@d
z>uUL-Lp-WgO3f2FkAE8aQDGC7Kz2QzB7R0Sr>W*o4Q7-1zX;4+geka6IZYMsbiHf5
z-SgiB6hC1In{Rf<jXl@*WPEM1uPq%ox@0}JOgpa~pE;hP8JT7>^e&m+m8K6rEN>~%
zk)e;s^pQ2Ap~606TeT7ul{b!GKb|SyCYNtpEDuiGR?URXdCh*s{(!EW6>m&lpPX;H
z{%7g7o+WzkGVQr`YUb1|KXWESZ<6Uv8M;NLTNX~jirINH_G_*g*OIk*)$tkNd_eDd
zL=)9p7pu0VD?6t8m+Sm#s``P``}Ix@m#-cCcW3i7x$O2`o1B@PYn(|<Qx6;!vuwIP
zxa8QrT+h6D^5)6;<efpewP&$@?{uGv@XJ?DKX6vfQR#;5OU|d3>ADQvB*S0x?#1Tr
zdvs5>GkDLreHlsECev*T?o9hWxqaVa`_uR61FLSr)w1d#Of?y5lT2-zcW0PRndw|)
zb}do6A2?jouP!<^&F}cY(UPWGWJe3%h8*A)UW$x`hQ`^jDkO!W!WS3cK-JJ$fVcB9
zak>7o|8j%+MjO!BNum9VrVQA^VA@bu>f@#>ezlE?nZexAOdV6q8n>m)Bmr-_1<eR}
zOG;R=QM`RcsrY?KS!akSUY??)k4xEDvzW6QS&Nu6l!mG4`f2}k!!!XFu=RENN`tsb
z2O>7=B`K#{6to%i*G+$m`-oY?i?GU{f+m%+ryRJa90s&x2aRJZ^f)CtijtrxNzN$B
zw4xNn(<n+hOnrUO7&_o}rK5qOfl!rl3SY`48A}-_rIb*_^_p|YFhUF&UIZZlI6I@k
zjnJ<fu6igKlXB{~q}=LBx}#5R94)y^+4Yka0(7x!p6qH2tmZKgGYyg_+O-jezK%eb
z?gxyTRE#|ONQs_=S0Du*4ap3rOtQAutx{PZQA|Z`gx;F+s^{fb_wIeddF_5OesCt6
z;7q*Q>aagwc7LEPq<oT3vRx#2gX9Bz?G%wJhqkhktCZ{e0AmoaMmP~X6?o5baLfo#
z^5F&en&GMo;8h^Jg3*qG(Iyz}le`yktP{po=Eth%T@2X^#;b-YLau_*u9BEm<uT3C
z+77gKm7ui?TXQr4jX32~&phWd5={DzfI?-kZgmlscrv(;(lVoa<H=kkz!a-jDGn!-
zs!91kX6)NIPO?iC`i)N2!cHiuR;rMyrAo;m)x4dx4^nlKC5mrhQIhKNRDcsbSkw(w
z2`GXbsgFxpXAM{Vz$+Hk0srW)8u1(l;EYN2W?j-to?OZISxN!t<QsN;=8totz~uB5
zW;n?+TzF`dQ3XAdQ)#v_k;G7JoCUoCN}wS#sP+om7)`y=YvBZ|LcKJ~iK86Puv|EX
z%BhI+!intEOA&E2k|<sxsLs?3Pg0>-4wZQ>F%;p1fKjPBjt1yiUBw#EH7vz-dK~l|
z(7O6n&0VphZSZV(0ubZTxB_RNy`Kjaonr?$QLzq=538CIUk07)%uMjpX=djCLg5YS
z1_7oVl!{X+b5nvRF2^RML{5<th61yVEM-VW(Nri(Gn5X6fBLu0pUL~BTAyHa7CzJ2
zl?pL^g-jWED_k{`lzYAghza9_AwW&etH*&X(mToxy(BP^VMeDN6A_p^nS+dGfC&s9
zY(WPOOC&`m%LAOo8wgTJ7N0&Nj3&optU6u{zr-;Sm<Nj@uL%rrrN(H2#w7^j%&~I;
zv*JJ#4P3b)z)dlN0i@~Y_@pZ4n92r<H=bn?u$#g$&ET`}M{$S|r`dAN{1Is6d$9*S
z#HyjE0pa&RqX4fH0ZUIoQgvhgG&D>;jdqu2KISe=-Uircrmcs32?2|cfswXqC)~b_
zt3h@(WL!<Mt7*P_;oPEY=d^JJbhCZSzUq%aO&q#0dVTap@_KT9a>=n1?X~7N+i$kd
zpILHuF8doZ{w~?ymGO7W{_eZg?{zKuPozC3W^Ir?tlB&uS*&_0?Rjd&SGD3USM|Gf
zw*Va==tEn39<n#cX9yC48xrv%10t53G5pRq0&aoM%ikbxknjY;Q#?U@*LaD%O`f@J
z;7<X3{sd&Vjfx@olxhlTR7SQ1B5T%%Z9n*ixL3yb1C!mqC!KRM7XaWI>O;T$PnF7q
zVXOWAq4RgC>AnozEYr<dU71>7GjykX==|d~6b4^u4UqrewBh?<Vg4*;pMy*&qy;|!
zEuWnVG6Fq^*?Gv$@a>QX7{y&={PKrz2vUnbj9KnV@Y}GedOE7LIpbm^CImxCO}vH#
zxP5&%29;~gFfGF))32!dWbmjtD%2qOb`;}eWK6O095_A%j#bR#V=TG}-PyYy8k|t)
zD%4Bd1enqh^hFBX5K4Q+{u~!(KhJ}oNKou?4%{mt)kb%~WoAQ{v<?$i1jVdXHEY`*
zLwk5!2!pk48_K$n1f{Vgb4|ntlQHl!s6HWliWSp%0+tVKQdw28=Pta!AHZE7!c3(b
z5=te9V$Z#=g5n)d#EV=z;84oSFeH#-%Yjr}>+P<*GXdRFssll((EOzwyUtt055eLJ
z`HE7J1Ey_4r6>3VK<t6bOsk>v9OgMrBTpIl%lPoR(GWX>{ev`w7hmyemHf*NXW`Z6
zXvd}j<<al2xODnv*L4bo1XX-_>~bV3;5QVm0vcdn0-5`ybVzqoY%Y0#x}Km*VO|1w
z!wC4xaJBwtia-}d$IqzeW$O74sg4h+&XqFX)TxIx&GUzE9e?Y1re(j}vVXDVz+%n8
zG*!9mtIGHSvM;dc+dB2^D&;j*e8;y+z|TA7pW=^N{-m8~4Lq=VW@{I%_1_wue|528
z&!<L1t68=-PTOV=JTeo3&bR4l`sd~T>Aq#UTJuB9QyHd9X1X#=kIeKeGW+h)`&W%b
zMFV&x8auSs^xkI|nbT>jAG{t_&6&y$xw0cu*)3Og-`~=?NO#>1%(qOR%Q*duPX9tc
zrn|sNQe~fZJaQ4vDuB}v$oPY@KX|7uv!hqu(ffhFcg;kVc^~?F=g9kYfrZBJx881D
zs@t(@La)lPuN_<V_ddcAYeuuv1-?0V-6OZfSqF&O8Xi>=ja%2U;uKceYKKar9ngDZ
zC3fulTRLs6|Eab|-5)`H-+kMCkM7ns<{@f>cjyml_5%`r`@@?3vlMtmW+mC({IQ8}
zmMz!p2SjYOs|0kz>u77pSX*RkOM3I}CF>qoq$UV6tLzV}JMuGOhO=yT+ngwS(Xq2!
z-GMO50Y;S_=%7w%C^e-eT^me$gEAe=&Z&br4faRXCFd+q>8=xU`w0zEZ4qt4DqVo+
zo+WGdLuN~9D$yF`Y7LwFzQ*~MC0`qEpk}Uok#5N10c=H8Bkm2IK;>HdegDqcb9dOg
z;UA6sU?g*(Up~<P!S4PmeQEzrJeR6f0tNwx)c7;i2juDlcPHN8x>)`EwDV!Zu4TGr
znXUq+TL$oSE&Q!HEt}xX>Q=qrn9EpeWNS^jwqwZ}T=DPJ)Cd@wZrm-?yJ7VP`v=zA
z)m~)h)l)`-uDs698D?48QJ1Fb9)J9@fpG46{ILr-=JChvaB5htg4_<2eEe~_npeYa
z9)C;&k^-8|{}}Y0+GhW!&6`i{u>ZKid1|-$$311I_L+a;@jOGAf6`j^jLH1|rt)X(
z=J$L2&$!M1Ttz_+a#htCF{-a=^Y~cm2~9Jsue}RT`DOe-17q#E=zGpBh0%BTG$ZSV
z(p*wzh`?LG9c2YGn=Ivqf(U2M5hdC35&0-Mdx}#ORf(b$&AFfQ9lEx}zYp=foJ%U-
z58Aq&|Dj}$qC_l8IY)(~055w1UQE#hs79MMw&idrlN=D9GQnys8%JR<C_ze&6fHRl
z)+n`iba)q~Qt@Rl$6F=(j|Gcw`{Pg{8xJ*q2E4WuZ5pakRG*5H;FQdzTxnoGn!z#o
zls=rbN)&5A=NM~a4Z~*qU<cfA25`k#;Ut_XSHX_Sf-gE6MAYTgq`JEt;DRAbxzaYe
zWd@$W`%`L^7@(j<RFrf+6dd3xflrAf@*StnQzS8AF2u6by#l9X31^KCf!CnAJ_FRf
zMTkPR2&#Jn)SN@7v<zT9tl{mf#K~e-Rty8EU@1NOZ3viP%Fgr_&z$fD$|sLJrv}5B
zbNo0M#KX)bPB)WtiW38V7O;}Fs94shP9~sLwY|aZfw%HZz@U^J2@Bi+#tX+|9DfEi
zP46*?BC_k+z|+zi8pp8eU<_iM<ARusV-yV3Cq1~84SFe+V8-S`0yrl;%!MG3<&TFa
z20<B5judp~rYmIdoMMa%BU=1Rb;1-24j-Vb8eliTU{npF+eE;?e-+8q44Hrv7)G-X
zt%+oE3|E`nl6?+xYw0>)K0vCE?E&fwXz5N7%U0J$BN#=tY6KsGLV*zsQDM~x&K@3g
z=2AW?kTrL!baPkT0l1+&#rOq`{Btm0F$t(zZ?t_idv9y;w2j-!8M+5?U*HVQ8oFuk
z$sfFM=jd!##@8<U+7~J^zU@DF;jw_*`$}B{Iq3io2QxA@&Lqc#0I3pp($&XZj0|zT
z$*~D+o^(T)omJzS;TSe3W#fs#@X$-Z6obHc;Mo%<%k?HE+oaB{!_Vhbzg>sM9*o9N
z*m(>rDAmS9Ny+0Qqtp}`qCr9DR{m8SG=+mIiU+ASDE}G`_%dc+!3?=Xbp$CUb-dy_
z22Lo%`WcQ-a52RJJcIG}STf9Nb`J%-3zlU6Sbw%zapp##eWsYfmKlzWD0SK<;8O*3
zSQT6hoNpGv@I>o0cQXXVqQ{?A%hwoAOekjc#9=txAt1kE&(mCS6wq6-fKd|`MLytG
z*+bh{3U`Mj%hRQZ0E#67#vR^q1Kh}}g3SWHaCDkYu6PPNaFhHrKvl}|?&fb1*w6x)
z$>>b|(t0aQyMfgkD3Sdzf&Xim0y-2S{2DTFZ+!~376cX{Kx{ObKebXO^CJQ>2uMOC
zG%^#JI{v^?Hrw{CU2h(|c`#GgA=h<e>h{ZZ`<E<FFS{x-u149_m<Ail0NF}Y%dNJz
z+P)n~TQ_}TCOoxsP2b|)jNXi98am~M&LwvjsKTDMw5x6Y<ppmh&?5(W((QX?df!S}
z`>KVo)qtArY<b`=zxL|Ps~PuZ*}XaAJ}kQrKQfZeBjk#E(|2~=I{4PXOmmOi+>>cO
zFT<bv{6{|j+~9XM-`eulmQ2$gxoOXmuRBe5r+wXE9DV{Iz1R9@`nAw(h6WQXkfFOi
zpu3joof#UI-<zh7thjxvR?_7D`p_x?Kk3Guch1R;J!<7HyM}FGBR+kcl<T_RKLNqx
zkAN;M>FO;@maPxm-bL@pyXSuN!Vh17!lL_R+In)u;l9>0)01{EX^Mdy>-%Q*U48n#
zwSMl!JLUJRyJ1Zg%8kJFz}$2A$prv|?zF$-PTxIi57=FW{a?KK#U;x&wLf_0+&$}F
zwcj-@UYnSi0P|o$T(Wej-JN$^?pY5)_d|<+j(sz7GqPl9S9|up2MZsAo)w2@qma#M
z=>Gz2vOzy5vteV@&ms6B+F_8IBtr;is!4=!q?Vx7nk$o~K0{(DHut6LF7Rr?+iZX@
z0ZRm#^|x6f3O<@Pu<%dU89<jYG!r`@h;#{X`vO42mRF2lATE&s^W=M~@4WpvE`VPh
zN7N5V1ofrPi8Ka2su<+>Aj5oql*7PCb{qyu@JY`N+y*XjruY1jlV?<*!;u&V0UOO(
zKFBfX9Oc1j#xm_<k_lf-Mp%%+Vfa=G11=NHAVg3`<6#~g_z;|7#yCNUz>5yu8n|%*
zyjc*Z8G_HN;F1RlqA>W`v@NF{OnNoZ76g@mN7Vo%{jmV8R2B<lO-%BtTz><Og#Qc7
zZefP<fWLwndSMj*Z}iwGCRL0m_9T2Gs781M#g-!ryq&0j^6Cl*TtHO}#FHkIYC@VX
zF_fF2znc7aVcZKSlukeaWRjOKZA(*I!SnM`W6#vdC92^;Z~%X|uGrky>SyZHm0K2$
z-m~qzU(+<-g#ux*rgNIQ>iX13*gG?}ow9A`uLOvx5_hW)*BJky#&o#JGHKcw><K;v
z6f7_Gts}HM)raxf<Ry-W!vF=%5(2@G4-B0xz^9k|1dOz>+;Dh2Ci35aH3H-@P=!!!
zIuob|=`QfspsYCXE3zQSZTP&MM@lG_YK!KfRgWm7y_ER&E7p+ekPC$%MxxG9Ebs+d
zgij{&=cc%alJPNMw~#ohx>41yefSQT&tJd{&rmy3Bq_fYv+qH+@r_nvBmDQVuU2E1
ztmjzcl~6pXDy4T2!r$O13w%<g(xPm`w?|6ZhNI;#<HR=1HsfsTehuIO{zp)Sqb7tE
z$X1OcNv@d*(*ART{tu%0Lt@86TlwstEZQ2T%;5XjzH`cO+5Vb6?bsp{TftYhzF{S>
zWy*Bf{hB*NRLVr<64Cl`c{jOv^@QP+fvjI{+q%&A*5sNIE06k2XGyZ`&bd_rf8PU%
zj=yWe1`pZwsFk3+vu#Vp+7GEd;JTkthro|@l>8id-|C(-ELrQo$#Rr5PaVD7|5|^B
ts+FnQ4Amr4P3h)CGIbc-I>F;4ya`LxmgUxiQ>X7y&8sy8Ri{$m{{RFl%sv1B

literal 0
HcmV?d00001

diff --git a/__pycache__/envs.cpython-312.pyc b/__pycache__/envs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9515e07d12f9f6580bb4980d3ca1d27747a5fd39
GIT binary patch
literal 71705
zcmdqK3w%^pwLg9)Gf5^765emZkc5OlNJxP2eoT@f8Av7}GvP699f!;SLqkH(On4P4
z)@s343qPxXRteflxJ98_E!C>jXZ2onhKXi6)@#-J;Q9(st=6mlziXX6GbhPp61X(I
z|2rSpS!<uY_gQ=GwbxpE?S0Pq_fezLCHz`-k9dAirjdS0NaU9#fSaqQO43QGS#n7(
zO{-*A{%Y(R#*^$x{8ww&@?V`@$A6RU$@rVpnzB39o~ofb+E)GUG<(|abbI>l410z~
za;F_nk^kw^*)!dv+*z*VmAIixW6ySvc4-c#N)qx?C@)EJC-2IQkQMv;v;gg6xqd3w
z*W1Ur$D?K%W9jw@?$N+9MB5YHqoQqRio8jxyiuH&WuMHovKiCcr*Mm-Mfs^J`o?gc
zWS_?6$BGiuRV|L=ymb2vE-_w|$WfJ;z<GN6OuoxRQNo}qF-hdjQsqq+dAX{*DIzaV
zl{c00+}d5WF}_8hT^k}$?5}Iu(;5Y{7cf_+-(vk4(fWm4KZj|WX`jQGfib<ki2FKA
zU~?JE71%t+@)*<Ei@9DtW3%n^nTrLC71~Sq+8j}`l(8bl=Gqr9Hjgoly-dZCV$Pdy
zFLy75WRx%_*%xukrK0>|Rrv)Xufjb(Dm!H&Z;7g0xoByrN<J2Hp3c6EsaYgyEmxIT
z%y|{|72NA3jOpzw8Cy!&AY*rbY|J8%yTG;V=_E0FtND)0MSE+wy%mhDw6Ep9u41gh
zZscpL8CzqobZ5BMPNDl|xs0NA6_=<K<*OO164y+ORWoL?uS4y1qIM1C-4gY+QR-`$
zdb7AkE#G53V;k&droN7`di#3DEQ~eSH!#-7ScScg>uqGL$zIRbtc=<07RH(x+hlLx
z`)y`yi@lMtt&G|28@c3NjNNT-;%oOX_71z1F$ZHByG<nx?-Y5>syrv>>Ft}Cu5AL_
z%vg)SwlL-r*jC2ejA`t4aCbX#H!6oaM7g`T+)jbr&6tO=UG{sJ{(BkQV1EZ=t&C~x
z4);6Vqx!VCTU>Ff=x*aYy?q<E+b&A9s7mY+C0tzMK7qLzlLfY&F|WXOFy<53PR2SI
ztFU_*+bgc^Vr-wl?qzJhz*-qQAh6wx9VBdrWN(Y~4U&AnDACR(4hd`zV}}KHA7c+N
zR$-SJdzZkxj2#h}kFj?Ptb?%!1-6&5_b{fn?_=yCf$eAPy`tm+#@;8c9c1ibaqWJ_
zjtcA$W5)z`n6dW@>;c9e5!kyJdsJXY82f<0-p$wt8GFqBAZx$ljOp#~;cF)t`+xR_
zSVlf1u=g_dIAb5SzmKtxh<Xomy_1ZcvLEGZr^U5neC?x*ea!xTzV-xTAGbfkcmD)q
zI{TwMi_S2nv421%SDl<E*+0m&&ocIy{V~Qq$=GcBamGHyScUxr-}OnxboT$pEkDJW
zWd9JC{4`@(_Qx4J$C%#!VXoK3*m?U$Fw_1`=&`3oiIZI70%IEcDU~(&j3{xMOMI3w
z$^KDp|Dq`WF_q50B+5U*<)2}!!v1l_J}0nGF!p(Yonh=*#=c<h1a)5&)IBFkoaGXi
z8PnT8$=LG(`xIke64;ZBeVMTr>`$SsuZXt3%6VV2f0`-3!kA<~$JmREW!bwJ`#NKK
z`+08b8;pI^{%_3fZ!z|5`_o+VJB+<#zkvIESKQ}&ocHhc&v1$VU~IPivy6S8F}?jF
zxBLUferUhM*ZhnH?9VWEl`)O|b7(n8El0Itw`k+@+{TXt_AFyRW~|5l1=I=&dS2$d
z3i}tiM3^y+{W;Z${e<&gv0vsp|CBMk{dq3`p91?5V?Ptvml=DNF`fMd=FHE<wXg8C
zUkL20jQx@^js0sX>3>b+T~X!zO4NFhYyDbaUuWz$0{aGIzZKXw8M`L1Z!z{?0{b>&
zzhkVz{vF1C&zQ#klIpI1pgj2D-;Mg*-*bOgu^iB@e-y3#JJ<h{!2W}=UV(j|vFif+
z0b@59tFZr&v73y&Zuc{<{><24>;dNZ8=~G-F8No11sVGrV{h8Kx#Zs&)7XEcqW-@{
z-j7vz|KPj|dk?qqPl1IP`xj$+`^$tK$2v#U569{wS0hUOM3hQmTxWlU=*M*};}!Ow
zit9SYv+Vy#bmDq4;rN?k|Cu`je^V7{1f=JZdi$%QW}3i%F7R|wGsFH1aj#5~Gs^x;
z(Rvow(b-=UC9)Z>u>VT5F`99`{nr8?Bk<n{e5}BKEAVjwzb5eUj7#?a68D=R@ZSks
zS;y$?zZdtPB<lY`)SpZ^`a0zy$^J+Dor=GI!ry5T9s`~pnStANz-Bz8v-b`tA$)Q!
zk%JP~x!(BgN%%Vx_ze|q0Ddz~I-cYr{$n+TG`fBQoEP;NQg=uZczY6!3#~^{BHuk8
z>2x<;7b{8S`u23>&weP`{`!FSg@<*^?TdP<_6yMdpYK@vV*aYyFGTx);r@vgICF6h
zxb}uea@~U~MGr|I(zqOe<}&n7K=T-K0xD)`8=(0NwE!w%$OWjBp&ig7ue)}*G&>~M
z_D^b_)`GeCq1Bxzvw+Lw04if>I-qifk^wDbD8>B-N~Z!}#CRH@#SGCbsvrn|m*D?W
zf<bvE;ALEbMtnI#*??9sG#b!KhQ<I|#n6+0Rx|Y9fYvbd4?t@f^15$=0v~WA;~ju1
z85#?yilK3Usu?1QF)=g&&^m@D0;*wX5};awo+3&o12c2}6hP}4G634Z&@4c84CMl<
zXDAPlg`s>v4Ga|kYGkMw&_;&l0BT}r9v~}2MSyG!l>lmHs1(p9h8FNhEpQPxH$Nn)
zMyd=sTewU)psfTk^$UU7Ie!tLyBJyw=x&B+MDAf|DWG>SWaN7oU27l>Yx_t;CCWIs
zOckJaGE~E*Yg{JeI9;Y4Nh+Gm$lJ!H)&pu`s1A^eAqyZkLyds8Gqe%V4u-6Nb~4lq
z$U_kKXEU%}oWB*&y$sz2sFk7RfOa#q0#F-6)qvU=S_NniL#qMZ$B-M4%#a6=mmvHl
zIqDGbUcmdf#Jzy_Gt>&`07JV09b~8t(ESXx13E+yQ@jV*Va~q~&;ty~fZoLrwSI)5
zeSqH0(0)J<GIRjYdl)(h=plyg2lQTs4gq=}Lx%x9%+LdXjxzKvK*tz50_gn=y&KRY
z3_S?wQHI_F=mP{XwGRRNAm_gq&|?g}572Rj9tL!Rp`(EQA4A6geTbp=1A3gHM*w}8
zp+^CIgrN@rI?2$>EHf{=dLUt;J`xs2nNwWmCxA{f^dUeWW$1B0A7khvfSzFJgMdCx
z5L15~*e5vug!=~c!Aam}7(WfDlcA3SI?K=#fIi94Cjfnlp)-J<WT+F+Qw*I2^l64Z
z3FsU{p90jy&{KfUGxTXd|HjZcKu<H&1?U1pPXqc4K}0Fw&*J|@zA_ciC5A2ldWNCT
z0Qww5RPOT(T?F(jLze)3fuUyreUYKh0eX(1&jY&5(6fM^XXrWR`E#x>fahQA!}H51
z^Cd3xJfJT#^d&$qF!W_WUt#FCfWAr)bNY9{zQ+0209|3|ML;hy^mRaAXXqP%zQNG9
z0DY68?*RH1L*HYnzUO)gRDHJ(RbS;RUv<5Jvfp;S&_}OaLEd+`{(k^^i6H#_F8+T{
z!2b^TKe)vA0ezpL9{~CRLw-O%Waug&KSA85ZoX$XYu5m-T<vq$A0a2mwSEk!o1vcq
z`Vm9_3FyZR{R~hKL$3h}G4yLdFEjKTKw*Y{#drG^SzYA)q)+c(Mb0Z+>gRxdN)Z0i
zJ$}ZyzX0?qL%#&{bB6v4&@UMJJ)mC_#J&0hu-7>MkGSJsTz}kwNDT6R^+~jO;nymC
z{U_x9hD-JW`Yl7(0bOJ02B809=q8}wG4y9Zzh~$TK!0H9uYmr@(BA<4iJ`v(>SgGk
zfUYz2FF-d4!e652rho~5UBF3z|4gu$Gg{z(5!ZBp-w<#z;J*r3PkaTg$Nv=Z|8MG%
zL|z*HzbVR-m-u%9j{*GO0v-?e9|Fz<{7(UA0sfbOv*EW&0v-)mBj9m>lLR~guvWkm
z0qX=j32?H2Cj(9)_$iJ3ukOFWKPPWCUHF0Q?P7hB<Vs}^J;|kakAfeV<Vt%;=X?`?
ziH>ymgn!5140!GTjlYpHnaC$U2|FNMXB6;%9?;Agjj;4J^7AZ3ny|jg+1l#d*6J?O
zhDX`9Hkuq&wWg{KW=l<2Yiv6ZPObC!+_JMZEQK>S)z#HIY8$LJhq*DF##m!RlPx@!
z!KTJ4N2Sqfax@xkwd=y;II|geeM7aW&RW&bXySEm*q{{0Eh?MWtur+_HXEBPz#L|a
z&D6BXSQj3{B`j4{bq;F-w-?T?t9I0xE1Qf>TRG#JgsqWqj?z>^RlUPnXEHT9>P_|N
zK(l3o!)msh!ufoCQ<;P4XlydAGuPEQs!dg($YHeEOctBD!4jUtrPkFMt+kYEacnX*
zS?NN0T|<?z&e3GFYzU99YOXdqHkqyF$~qI;*krCUS;I5As>xDgwwN4dkZ+_G9X4~l
zsiE2CunMLb8_kXlrmf*zE?#Y_Y_4(CHPkpL--<qi2~8$zV}r$N3XirfbQr79xRt6n
z%+=xX$g!HLnoKs;g>W`<O_u7$2C&W1+*B8y%#Aa*(OR{+$y8-yUL73uKxs*fvt_5d
zbZ=|x?r=62tTJMx9Zd}lwu4!8y}fO_XNOW?v{InKvd&z?CElE{)92gcU0z!1^*Mds
z5^AQz=@Fc3wi;_p4y(;*vx?q`(YG{!@zHC7S=DB%kyyz5Hd{yl#K?$ouWoQy8f*?*
zld)=p$P%qIG&fb5uF;-Yc%q8L<|Y$y6Jt;l)}h4)A(0}_QD@p@suLtd^7xip-W=`T
z@1tHF@RoReuJ#UJzhYKflgU^wSR1KZr7(u%{5Ld@Bq@KbU<HZ@Mnr{KnF!Py^tstm
z#UiJW9~D7NoT?2N%<wes7D=m$Jyv6VW1Xo<+@i73QD@vrTr)P=%&OL^8k-#(HYvku
zZN%-uQxqm4zoEX-VXH-7s;!PnGj23JddbpU?`T*@@<)PL?LafO@c8KE`UajkXm5ky
z4c*6DQwQm6vVgB?`&*q3mM(F9OP$f7P(d6Lcj8RaEVxk>s4>^^Oz}vV$AZpv=yo-<
z1*xFu3@&0qOcq6Cq9u%A<0fUUabX^MXNRx7NGq?xfP{5zEiJ8Kt#{|{Z~-?#JZ&;=
zbtpH-jjD|`xRKF<J~&A6B`Vi|8Cqv-q{{W8Ly`72HyIln(Hw?_uPVBWx=SUjjrG-G
z-S&3*-l8PAng~nw?s4vG6OC+cXaW}<_04rQb7NCO74(;_wxK$l;`DmmKCh5|qt$A{
z)MB27XK-)SS&D*nRMnY`mTSp$4@DE0>uKt(Guf(YBMRwSPVDj~bG50V-(@<0AZi<%
ztIho`3w2u$-GbgV)j5oHbq$-Ny2g4<Pt_Hbs1&MeFjkXhS40mCYPQ&}Q3xke%DBa$
z+^DL~+~|OMHj&<T)K`X6+V{BITJ{RrP>7}Gz^=$-(UDRTqN>~vGt&aC*U)rLM>kOv
zdwo4D3xrw-WsSKqtZV6TIfa(68JlXLSrv``rmn2KWU0_D^+vPBp{RXf5cKsRczr`9
z^txqJRaIn42^wg?p;sajCP=Stz|;oO&1RS|5NI=Pv4snH6m2Hh(tfoZ7IRIlt!}Gh
zbFB%pOX21QvTepX^Cpu6)<u|`Y7?dx%yx3Mdt1kjaB7pg)$R1U!&v|}dwe^QZEoA%
z9v)p)Z`@!K1hAy1LYylbU~7ah@i5jkV4$dfiUp}NSv;c)!9>LvkaZVUO~`Jo%?6z!
z3|)*sVeuO4nxT)aqHJA5laVw`LminqMLEDgi2=fRK}4C+m;@vQeJ+T+CI{7+r7(_b
zL@yA}o2nhwT4N(@vfypsBAd;&S_}@iPF_Mo(^l1}8DVe4u!*s!QK{T&Q(T4GhK7jp
zTZd-hJD@xXqnHs&2cqQgy<iTZF%<_T-t~2L4UJZzG3jQuCbJD=Yuvn1I7ni0Va9;R
zxEnaw+*l2r2P>!86zc}enZ|M`9#X8~3CtQ{UaN(Aj@%+*bsM*mTO}HR#;IrdGm`6~
z_NIs;&V-ezfp#OeC_I&K(6<ttGK<L=8OeUvpv#3t>vy54-fC%Rsu#oD?_zzOagYnO
z#)$LShj7Qb#zhXJwcb%<f_heFOuse-cbnjZ#_z_u#-)|0JUd<&n=R&bW`zmDV^pkC
zzk9%bk?#j7g!knzZD}+$*&-fdzoLR1rdKi2(E=D$i)E|Q6=g*E66nKFRFgIp1I^iN
zokh0dJ8*VYv(?s6uO2%^5QQCuLmV|Z@H5fowSVC!#)^EHN+YZWtKz61ql|t;j>K$H
z=JK_dNZXFy=&-_FhWUmcYcpDG;n8rz`{Z16aluXfvc*gko-i~q>!52#sIWpfD26{x
zN*uGSO6?#h>IpIf^}vqhH3L<f&jYFQ=}EJZt7C1fGsBo-9xEEB2KKvl2dd!LyG9s4
zauhIp4q=~b8k?;Vk;IkCW=l1?2{($@0Lo+}_0<HAU#wS@#Zq;nvUpHdNCLxL22+Hd
zL>{kHVvZlNuG$D~OpGK)$rSO6vAi)_F;QvxrQ8&?MHVl_6t9wG0vA+HlvpOA-G+KH
zuee&>TwjmH1=&SwIK}IeJuN=?PF>&v{1s1YYgh+IrA^o{;s+{`6A1SfiyTwURxyw2
zjZIJiiWY&)nX4QSM<Js1TWDsIE>TK}Dq=l`0VU-TacmS0V2r_ESWH^Fu(&&FjExa{
zfQ$9C{*0O^)dkEx7%*}<HygKFg>k2QSCjGNsTSi;-+aYS=#%F#Ev;V=PL|!R&i$~l
zI`6%nJzz{nYpeVP;*n6ck)~-4Ti@I$ln=EO^JZ(B8k)&Nv^6wtP&tn(2cJf4U1M2A
zeD`0ux-`+nMd8#|rw{(pfuf{vx^Ji4-mzono(`Y<6{1z)Y`^;nCklap&dEaUsY;OG
z^BMw!!E1CDQiXq8FlFj7pu&#BS5sE>_0}2|5WA_V0ixTumE9w2Z9`qPFx!ergIi##
zqBR@lyBSW6o&ET5T5EfYvvp^?*Cz<Jn73g44=*+9rc>;}^Xi0Xmj;&LX)p;PjU7(k
zPPgok-L8%nx3|UVLlmPZC7j&m^z3zqb$j--?hj9Nx!rr*dmKAGJ9au^Obd?{`K|5y
z9D=PfYq)XSTb<sWp0@318TTm1|Gh$Yp=;&%AMs5+(vc)dEcZ$C*c!0Bv$9T63<KLN
zjI3b2t)Za~vfBi~X)@KAP$3dQfCpl!wnj802RYywS`ZhgGhG`^!>cIf`i<<oDYKqD
z7c0DIPccPFl&FJg3%G6*;h6sILu|B`+Ul^j7HdOg@wZ`<7+|b6F;&H&kV>LfEJkz(
z^B%?m>Qp7xmQ6J05qU7d#PG;k!#WGJSy6I0X<Z{N&}~aOt>AQ#9Hvg>#SHJpW-~7n
ztDE6zZES`iiHOLYK?+qtEjlXKl~sVx%0wEhB#i}|wJ3*PB@QV*1B;Wf5+N-N!p3HD
z&Lb|bBKb70q311@Xv9MCH7VcLWTWs{ld*>UCDJ)olW9Y=pt2+r_Lpo0+Z{(umGH0Y
z8X6jDN|J6b=WZ&Kg~t;ODv>CTPO*DgyS1{(3@1+vlIVeGKN3r_Dgh?ApOILAiqdHC
zLFiCr;7CtKgjlSIRcaw({Wta<7sZ9CHNvb?5KRf{R5c^eAjXvyV(b!WG{rVhx>N}0
zpoM5;g@i?Yq55_8MobtiaM?AT$1EGP1-=c2&ITH+LXyE>_-Q0#RL!~-{l>aLH~_Y0
z3z&|nM-i}f&|q+n6%nmzv^g3Oo3n0(DXxdWVdB<TQB0;1QO>X;c#%SI1?wB&&56R$
ze72@$jsRIjY?AA*x6-PvsR=%bu^C1b)20d{Xu}#sQLVzC;~=WyyC{nd@&*;-ZrNmm
zWK)o}|8<3I2nwQL7I;3?TM8LgLZmi0Fle<{GbxQURIaC(A$&)OF?do7QDF5i`abA&
zsDpZwN5Z08Xd{w;SY4Izpf!ClkCM1ni*+tph=%5xT5{}^l@%z%LdSvtt*{xQGzA)<
zPE3}nt%^fov23clHl9?65^<@nB%^~twANe2Ai@`bw`74{q!0*4U4?E_BCzm*$frS!
zN?BEk*#o~0V}!9FWkKUX!VoTD+WQx&YQVzNYyn|t-&zF*J5ZX2C8jZyICez7lzh%J
zTdL}sVcwVoB`C`hT*=PLD86A$l^|S%jz#da?;?YIG73}9<tlNnDHcd&kyEyL+MF`{
z1v#BGpuVGRkF(`ow@ZjZAOGHAH6rqW0Rkt5V}*%MOW+#FA)+Blr#3G&E`@8ROsLI^
zj7!5wST!mRI-#P4YjiALj2dSnCcxo#VaUu|`e+v=IH!2f<mM}Lfuj4$zzccCow06I
zZbn)4Xr>+uM#WLHHaC)M;4p7d78$~SW_{X#8Lfnf#ZAzISe{Z}S>>v-6_=5UnYJjS
z$U)hNp(YA=$*wF4ThQa^PY;Mr+T45+$w|pa@ofI>63+`naQf@g_@d}83TpNH?ZR28
z{=Xq=r1dY4yCg-P6me-I=l&yqtx}QB63*IEjc_S%8Pqn^o5Gq04yGu33g=<h+r8nG
z9d0<Fd*NEa^9t*BwR_sa>F)hlL%2G;Zuz`)lWzOwf>Ph^J*9g*d*=I`GOEnq-?3!b
z(tDS<OItnLO7|S_?QC!3O^8x7<}KNCAUqMJ94_~EXGg0~i8DLo_I96K1irn2CcR6L
z9Fbnh81>k)W6MJN$*<_sA4@%!`dH?%%*UHfZa%TOXF_3MLSdISIH9;}XHdW7X0kRj
zrB~7>r^tn9<p2MJlg)#p7%Lhbc_zAbFjeg7$Od3?0VUL3c@C2Bq&{5by&r|G<T3s;
z4qK-rWUD8rU)qnY;pDx})(&?#MRxl-<hB;H8~u^^^Aw<X^hxQEbVPGNH4zR;5plFi
z=QXrVsr9t^&THiPXv9km8I)d(+3h^A&F#S6)n2#kbD)sC5SNpw7}<s+QYba^$l*}-
zxK}c=j&?k<+^?IUj5#$D`BBWAsaXJEAT>U^#=jU{G5X{MXbSGLZd-eMtBmLNB)Ob!
zPd5-$j_pe&7p%bb3@S&_a5b6Pk86*cK9nBJnC90_OCX<3sHavQF)Dr3AO7u1i9oTx
zE)6ETP&AQVME+u`Yc28#6b@?^oY%>VL7>v5Sp?-$(oc>ixIA9kKE@dA-s7Raw9hCn
zN6|6(@1+5z$%$?~UU|}d!tBpkez__*er<5HF_=;5*HsSeqYia=JURiKgbKu?i_&h*
zVF`~e;wW!x(r)cxjRr@c4{2Pw2<>vFFRIug2cx~%Xm7(|fWt{BD@AfMrTrQ?Pb2yG
zaZB7n+LcLZ-`}q6zBpm7)I(9;xsvalBT3+x-Xaq_A*7RNTh!t4I<`4|EjuBNd!4e!
z+2*55$n~|$$aUY>;cRuZ%Z@hpKDT@@y}YDsLCJy=mwRtmQzkDZ7JI2VeRwYKvhHqo
zxmz9X{q7d*ZpkIB&I4}QThi|i@=DYTPvi<6K2NK+M7bHm@+xYSMntAz45vb~dgS)D
zuogN1F(0bSWx}H(YL;iNm&U+g5JH>{E$(o(Lj@}XEmx!31pN1IMzJH(pOcc3Q~sPH
zC9k=zmooD@S9WJC=w4>&Ue<VBE2U+=I%;%ps+2tTdX_XQKbSe&ub+KG(xjO+uViLD
zw*J`q$1KMz{%K{GRs}PSSFC}|+TP@deh%wFu%pen+Z|371cp;vcD8%4un%XoV9Ued
zb+>svKCJ9pNOmH>=)5jR&co8fnun7f){;EM45TZG4ij%rI;uUIbX0Rx+OETqjm*Qk
zLpm~h&QA0%9V{?Z$!^3~3{FF<bN4ov)8O0b^clb<j|<segW%|HcN^tm&@m$n&K*uq
zo7ZPRl%Rc|+hq_Wr*nfwd53p7L)3hvgUbyTbkoqj9XD{tZ8cg&aALWkS}~18O^4gy
z*=}fS_ZhHzXqeODY%^?g8!YW@?xJWtLB(=Iod>kxPTUIvMF87&7~1#vJnd~>L%VE1
zFoq9?D1B9wxYy8%TCukJ@P4^r^G-KKT_TJ@O9t=G_KsE;kwF6my2L;!Txep`pkhRw
z!rtv2Z7oEI0XwH^HaH^8^%`6VSTZ4U2?oj15*c**ONw9|{@+Z&r4Q@WYBHXWbxi*>
z%F*vInWCg)sa7ebM31FJuF9!N5-_Ex)TTL>a#(XL*;{f*isywz${kKRq^Xu3)3zk-
zkXn-N8H>AU4`~zCIFa<|c%5`ucUaq|J0wwk2xQVB-Cm76A*SS9nnTjZ;JF>sBh?<#
zAk}?5HA3ryxN61yH28m5yH6@gw!E2bhDL(O3Q;LMm{Q0LesfHTVG~~v!@t}R)|3<_
zv$|ldAJ#{tA)HLYEQixkp~G#G<#xF!jqP$c%h}>1-4>ae888Gb_hQJ{3s7>yqm)ch
zMy>_p<r+%XQDQ>krO~5FVK{=HV&}&?$X#LLG2dJc%$I}3G->u>pEGj9l9e1m^sX)$
zSemq-w-XKj6~<`v*pq1|(oW3@j?O!p9LgAdbX92F)T5TyQ>4Puu6^AFOHNOEV#?*s
zN3(vOJtH)A=9zh?=Y4Gc(G4#zuMJK&KVNbw<<zD#cb~rd<L|g!a<o1$-Tdm*nMXH-
zrq4ZE|7ym>Q@aBh^IjP{Jv4S!=j_f&T`67ryLR<Tnq|46+y(wwWtYbEYBggP-PCHw
zWx)p>mDQUrjh=8c^KUmMNi)`KykxRpOrB(1ts}Pw(-PxAY*84*tYW4$Q;$f)y%Rs7
zqeu5=iM$!5$m#PMQ1b6bq~3xF$rGN`cDl}{zaata<)lQ)%<=1HD3&;`23?No@inL~
zx@aL!rjI5~ifU4=^VcAPr|WHKQmzLd&j)=<N(vTew{yPNy~in&G$`Wi9cg__no#J^
z4w!(L;$?D4e*cfC+Gu}B<qot4!~?~8c)29&<38$`{47?-WKM^njx(M{Ir<58oNk3$
z-WBy~m1~r`G?9`}uo|IY^H5K7NRvpxdNq%ZPh0{jcs5jU5?V^~CLIF>F~xf<Epk^j
z2x$>T4}*{f)t*!>-O~UXbjS2C4Z2+!F?u6Vq{iXoLt0RtqB0FBhf)&N5T+sZa0*O=
zj_MyyJ(PSXb*~0}TIm}Vxq}Plg3Q9P3^EIcv`CZH#z7|?N{X5X&Ay1CNP(e9v4l0n
z@&*jS!Q?`Nr_CVO0ha5L6s4+60uC~@dVDy~1kYiQY@sp@lr&PoOvNN<_J&hf|9j<)
z$PR0P$W2trN{Nk<cqV}SahgH&i&=q51NFLtX5qmK(t89A+a7Rf4{q<hhFc{t3cV>(
z!Mt;KoxSVQxbE4DgJY@!vln-2E|2-zq~|AnWy<kcCksy$ez?d#d-2f}|Cp+uXHOW!
zl-x{_#!o$3_42q`p`2M~Jf}S$yZ3m;%d6{xhWh8*F0JdFcy9XH=}+ZcZaY3IV5omJ
zXV&qIkfG%Gs8_S6cFw<=UHZyILulgc&X&&RuGyFLT?b)NmKTHy7U9m9Ho~GzSPF|W
zX)G+tn6bU%aIfC!(&&jtNB!+asWi4)^S2w5rCAn@cMN*_*$GuCx)*h0k$yd6QdLF@
ztzL<H@+L535OecR;#EI$Ga)Y9<!vZRBOA3jb7v$^eA0Fy@9fq$B!In~ti~e2ugiT4
zZO*|@r<43B1_$OL;=AwL>1o+H91otW-?rT`@O`+Ai1REAg274Dz(p@nu95@WM`1?&
zS333GS79bev4#FI?Xjd|nq$(_!emF(%F}3%epV?GoY3NCJT67Lxbuw~h|RN!apoBs
zIJk($8^G{q8490_NCHi=?6LlFw(fCrx+Y&*a=GTpJA&hE!Eu{{*_-|P%`6EBN4rrW
zktA-X2K!0k_;{4bJ5cfwDh-ps&d+2`@)pgLRTs2pYu}Iv#w?;VMas<e>t+p%M36J4
z#s8b|qd5{0TRFyCNWekY97s|Hbk)8TnxP*>Fe34n!&s^Kq5<4kbjd2^Nj?e_^DkeL
z*BnNq!<F2cyc@9$j(jA=O7n6e@`9*HCH$2~$844>g%=B{AJ;~N!<F=4(tzvw*!4r2
z2k|JwVa)@YeXtMvwOgfqnxeFWzpuf{k`||X+GU?%yWGB8*`cE7x_YGsr%YJ}mkhGf
zvqjoy>)5>wYet$AZ7?@J_YPq2rg$%doAr2UvJ~?|*3eEX%zYlOJJPTduxbUlDY`CM
zZZP+2#c616G8Y@X9Xoco;k@0ulp2=zB9MUPq_?FVLBs<FkJsCQ#z}R^G!ZRIP)5Xf
z^c`|5{7$d?U`C9<!h=r~8k~FfxN*VYYp2yN->Sr5+X><k{!<pf2%%spd;k|WbfC{|
zh?oybK`}3snAQ87GW)%rw&jM%Ieb@pOY|5%LgjQWA2Ekg?oQhd3ZBzi*;}&Hx4ZS=
zltRPq4s@95;#E|H(M5X2q8lOKN_>wam}JAlndmBl@+I6|nT#b43W2KK?jjw+{22eR
z)-B883YT(uN#dDx9AzHG%QlLNQE|B)ZG0U6y&pj-EJnsk`f*R>o|$`kZXh)uLE6`p
z82<6QI`e`V1xKoTb(zT<HP9Nz7d>*oub=$aS28BtkkXO&Q+?6T$4ohu|Dl|tDWQxp
zkF9$DDqeHVIORIEsaHzMzXx+WY0N#En_3;#S$b*w<lZ#hsL8LVOW9LSt?2Z1Zub|P
z{8QEivua+l`t^-}@0~#HzR6+Zr_(E>FQyq+YrnSKxJ>)vvSffQAUXP@Ub0?T4`8V9
zf;!?F&x?(yZ6*48H(HeMLULXkbG8)EssOBG9i=Ra^(&QN)M{DAg>T^hO(mH8WbV15
zvqk>mwO0y)x#phShCpsZckaf4>Mh!hraRb;{TeS+luJtiG>iNW>JF(m`5sE{qb~IA
z2UE|<w{g*1fMQ3aC%2vRob~t@)V`D(EU51(um%dO!GdOl3=6YDsiWZV6lNvpPYD_s
z#;`~cMGRV#EV2W&&L^q3J{Y0jBSI-Yd_;O8=}g+`w9dI*uI|YT?>I&8#69G_iFoz{
z6)BZx%%{zrZI@i#(^m{6g-j;P>{S3@4pQY8&yvNH(>`(>wOWx@q-cD77irCYzle;x
zw0jYK_d+@NG9pE8gOX^}KVr==fXNowi6&XtFp8_en6S<#V+Tq(-J?30ubi#tGd1-5
zOi_wT304xf@1}%TGrR>dm>l>~%v*<>LSQS;tv|c|oaL;=ztH?rc`)Ddv*h%5H@|1I
z_!CMU-<ztP4fUm)z2<ejq|bb`G8Xq<8O&T2OkE8XHG9p#k&8~#2XL#mbL5mMy)D9J
z`2hNVUW5tRg7jnFV0`N#zRhF4T^M_D>iMY`bI#}Zms<VJn}bDL1~Be=s&=l}wnLrh
zFS?K3Uwg$o<X9B<_O`-E=_}@c8A-%o{rM>_-kgE5N2F(cujn%{wB}=G|HL&{#sxD?
zLH)YdwMk18Z8pDkJ@5>#2fv{aQLM+~z9*`lOgfi#Hm$4Zk~L^p7M#Akdr};QLercT
z%Ci7&M=Vv2a@>u|ArwO#H4{@RQH2xTu#4z=mCC?oC+$y$b+mC7(E`{Rl;qiz<WiDP
z32llGI{JUWMekCy11*qrF7<3`kD)wZD5w4Mv}0+Z%pBU{sySBkSlzL@?kNj`Q_3%`
z3udmsc6nO*>)Pa5aRlT41Z!zR$Pa=!=Y@Wa$5}eXF(_yM665R>@|k_7_w~#y3(PEw
za&|@^&XxwJlwGO_W-gC#))0rYQC&Jr7a=M>(0vdW(m9Gdlh7(-Z#wEAM6B|*?&-@0
z>h`Er?ymykS!L{8QhENxQ)m&PkBGYB)=>Br>;759X%gwM-sj%E2WR}<;dJ=tgt$EN
zpo4(N>Lu?qv;pyE$1<d!{>09noU%YpSukfIR9jvmKD$u!c9g?#y$zRE?8C#^B$pzb
zyw2H*Wza$N6h|1i*D>3~HhnNPK8kueTj^=}x#ee<pId!)bx1$s)V`bAr2LfMq-4C?
z{hl3gKX0UJ^W(Um(P)89=`$!$ez850;U3{q_r9;fq7ZL5se+DY@KUW`2M6ohSnAt!
z)P;%C(gaFBmi}1Qu`K_jWtSHP^=mPVWy&yy)A&g|I!8q2FZzqloJwTf=7{!lxF4f2
z63d*}7!B5iNz?_}M}XHo_RQ4NQ_tj_&gsgyWb2-?eBi`-3&^Dyi+ln!4?0(-5{cuP
z#3#p|n|gNYxty~({smQ6Y~8cgj|h#lDoIS^4A6K}p%F^;;OT>B9ytAgzhupo@!d1m
z4Ww~Igqp(AVQu;13i*SH*gKQhs|fLhmOetf<nn}|ehq}UG?6Z{;5Lxl=)8=tV`Jx|
z;;n)rI+j*4ia$J-SpI$z<s{ZRy!1%C(#@xi<f0y8qKcc~AG`E&VNhS$qpuC<YlHgr
zp^VAbwVJdkZ}o^or=&{FU@c7Z3@V0B)AiS(gU!#mBv^_U++Db|&+sg`l#g?l7@j$a
zhNo5;9;C`I-tfd561B2)B?)r?WBn;KqYOsENsD)@DSH)1qzmO2m!DsLarJqq{n?#f
zsQuy;M2Gbm(D=m}1Bc=*P%;v6JR!Xm#OI0V8|Y2Cn0`L}V%GVrkUqDw8VrUPOZ)wA
zwdU3gN#zQnQmDc{YvV=T`Hcf<j4tN3qhsnhs#?quxA_;(_lXyEPzy#xyd!@Vf6j;Y
zSVXYx)$g?9&<3fJ1ZNgnfM?`VmVMEaYzwh;%3K!IFUOb^CK{7FBJ?UBsDpaM#|S9`
zl30>zX^ike3F<)9;qjN(yfiMDSMT3wyP9VkI8q~G5J+&8UL-UK8)yV3a|fQtdt%#}
zU8i@QX*=E4b@%0k!JIYSQ`Zh8pM;24t(5@oj2nXo5{F=PJ?NA>X*>o@&JkfJX$$!S
zbpM3xY#??D`|9nZz?WWz0w?>rAdxKJIhIZulBHInRd|DyXV#xyf5vj!(zW{XqVDO5
zM%{J$qaIxfCOTT8UXGApvSXmQ1&<K_2Q!|{)E#B*@oesMbDx>}T*)&fA$@Vz4j7?@
zeb*if<E%a20<orWP-6XIC!&RpPdb-=HvL@I*(`sl@yeoZL+wCOe+y_N<&~JmyFlY0
zQ|~RHht|o7>A9Qec|5KvxD)h5g;cR`2BK%?kVL(M29o9+41s*^;Ms%c9yt3zNI%P;
zNA~NjciL3;YZehZO#9^|UVbVuFYmN{&AkQswh>zm%+?F?#e?S$UVPv@*jm)J5R-aA
z)U#ZW$g_ML)&Hkv3Og<cW0J3<{D$pVC%K}_gUGg?OD7y`?6>5hxp1cXeQm=Xx$VT6
zm8h;PfTF>Oxn0#kec25uDJ`2G=vsbk`D3e(tv*%Kl^@I~y`e?+s~K6Zrl#M>NX|{f
zwMsO7n_TNRgYv15>3igMyhwnKq$i%;t<*1}5&HxH?(Uw|G*BZ(jsIGOUWl^ti+R2A
zB1ZB2T4lZ$pgQ}r2&=@xLmbE+%<|kvB$Eq+x!-aj_hQlcBLAYgms)~zo4O0E18FAb
zi5;k70BTP?o>aw7Xo5a0E2&Q64NZEO#!HbFUfrafPxF`8b<e3ENQW*$$DQAUpF>m@
zBEi!!9AD$GX>tcncnlsVr68Y7k9{Q|_4b0!^N5_elq3u~?<LMrB!#{CWoMW9=U4ix
zH+APJN2^+JCHjjp@AfDvLPNs{gYPGb=p7X*imp_4=hX~kQFJEskAvU(OxTYn#o&fj
zgG8K?vf}(JWDnYkx_VHHr>%BG*dWgbbRKU|+uqvl^u>l6PZ~Nfkg8|+Vuuv&r#_W)
zpI*rxj|WV*p4jT2x%Bev;DoioY@=UqJgU87y_#CvtCi-=!y%M8S+Ayz>P^Pq1ifC1
z2Gw)v)_bkY|5CK0=-_8b5(k^}??xwXiaEa!7XQH61OBpgFKL5?b=`S!=2~=g$cDtH
zlXTJ!&4uXMws?ALxa;;vj7_yx*I5o4`0+M+lS>;ZVmt$f=hfR>-V)ipgHEp=2#+^L
zE><enOgLPI$0+o4PK{2uVwLX%U&84Qhi5k(Npd*k7bzpd;n?k_b7)?NBdojEeZV^?
z?~aoI&}=*+J+6Btb7E+8xqr3Izp5FY(x|N8WaS33a?h<eyW*nnyzl9~uczw9q$e17
zg`w(4(&DMnz1WeAZT-ZK3???|E)BWx5hh0dVnR^h63Vy?S0fuk9PNljKn4?>lhpYY
z+<A(N%~k?Xfz<NXQ>Ees(HMw-(xO1-;-J1liJ(ckVmgDBo`nMr#c`&=t!ksFQ=;^P
zW@BR2_;DgzC?X;4>tCwwE{t;~Dk|zb(Q4m^1qT_KnW~Y2EGfTuq8{ID^JpMixeyh3
z>h{^SVk4f=es@yeXej9^;+aYuCy+Y-b*)r5x34)57FeN=3WYu@yaNN#&sSPRU06j)
zLPPZwQLGp$9RHYdeu{sg#oxH8yC{yKdfSF$ab!5;?<UfuUDOw4^PeU}fpVTDkh%~P
zVm>AWp8@cXU2rK+nGN&t;sM?K=xmrDXAtzbGdoy=o5GmH4Oh-$v!AxHE2wiEA53_z
z<q|p<i4Rs^7<ZxR;@0z9{Y&a!@&@NygGILP{N{nGZ3M_)5*?d_<bO^@{-O)o3zZkm
z=gt0#4KG=P#T$cjn!5AixVIxfzHxZue~ri&r;0>)nNJn1zM>6gVwq%u!C4X~95(_z
zs2raBd@I(23)QM~QHw6M;Fv~GzXCm&uk=7Rp~*fjDji$kY4Ak=x3iX0?emcq>GvDT
z<i^`ih<CgQr}>FW{353=R8tLS5^8aUPr=AF1U-~Unfw6!^3tQ0@R!G)n{;+k&#Z-k
zSqp_031!ZVbKd3hQV2uj#7pkmBMxTj8OLlA&c`29_Y{G?U{i_1;!9qfhYIRfLL5rs
z^dM>j*5W?#z0Y{wW_)u?>Td(u32PS134P?B5Vc~PEvh>j{Y}lm;!WLi5}B$yMP@yb
znY3_0VmkkmCYiDaa)D2F;Lw?WY;l(>sHej@@iqkSI79KgBPcB!g3@1tQaMZ$V8AZO
z2<WUv&^Qd6_giA85K^_)t+))WyE3R>1)jz`WN^oMO4dKDS(<q8@nsiDY=B+h9UC5e
z+I-Y61EKMDYwkFqHXi))A*R#ogHUQy_DJJVdaKKVe%|ON8t`UH5_+TmqyZm`VhA{~
zHyYCCb#4Lk=EhM)|3i|t5H*{JBuNj85?QWPo->~{`%9{?Z12ubv@&0dR_}yvw4<G{
zW>I3X%OC<3-T0&zhbEStU*=y7AKn_AXX`GE;}rfMG3Lu?=pG~uMlOG1W1dAk62`pz
z+>*0Pdh!+r@)k#p`K)-xd_^#`CSuI<<H+9#=t&}Z7{+`8x+e$UE@fUdJR+yi7)(W3
zI8@_f(QP{5Ft<KfVCkOKFwhp=aRo{7l5q0E@+B2RX!EH=t}x}}qHD+bUHg>7Q}Gni
z2nYmi(+tCK8i;tsaK12J<=q*tEQC-8^|er`%ikW6b`4KjW}^oY)31JvW65Pa#<41>
zUp<ILjT(jj9na_NiuU#ZP0z!W3>METra_~iald^y@^<tqd-Rn7ePvKz-J@S0(60~b
z>-wBZ6z_WFub3!rZ>6skD6e{NL7UOv|1t($X9Z5l&<rXcgh7gn)uUe%(60&VjXnCB
zfF43_?#m$YPJ4Qjw89|zXoz?XYJ3je-hRwYbS9ka>e#*eKw@X7g1RG|9X8u^&T${)
zx;W0vyyJ@SUPweZwQK?Z5_=dch)}UZp~b^>>;$d7QWVUu>oz3vgUB20;|IaLQ-1N*
zi1Ci{48Cq`MME+@yq5SF)heQ09HXitH6GpGrj@Qb>d{9AP)iATv;i1K<XIzQdmb;Q
zQF@0oUVK{F1BiQSHu}z2W$S1+T9EDNT%Qy9cTsN#(;ijSQ40D}=y}2uO=s+<?Sa%n
z?0n6bg-G*^($~^59-De>>TydTEw3l7D3Dgvl^0Aa!EV@$(t(CIswRdx38E1fWgCFl
zmRS1DM6Zy34hDww1zkEwzX(G08IGv*uS2_iB#H)#fAJ(rEj>7lj8LU29)#FKJ8CLn
zeywuiG`hh&D4Q)rwqjYIgk2IL<#}CL<dt2r2J}nOgLr3j=vg76_2%!9sCy7!P$G2F
z{^=1GtwG+p6crpf`w(_oUD8xZPA7=An{Yk^eO7i}Ria7U?DvZsVT+cD7ub&XW~A7A
zFe3Cr8nD~D2Q3{;#!D7UOXc-|!<y2_6Mnp#pN=;s$UZN<K#pDp3ccjqhA*A~<7fZA
zf~>gvzs)ol_o2Zf(re=;oLqKdnSVw_aNH7q=8~gT{*1K{er)$jDQW50@ftnuu?LPl
zaB4?)c0t#|uKT*=^GhyyFPA;D_sY1>9Y#rdDJDwdtpsDopPY1J(#e@8W~w89m#TuZ
zmIlWx>&-x^ffME}5>e`%vI6)=qS^0^iRH6!_=H$0D(<oujswK9Jds(svlB}m9@RTk
zRL3UMip!Wx^x{!=Q{z3Wdnb6U?WYb99^Ok-^G*!MPZKhHH%O28rwC06hL=M~^h+;S
z!4Uz&6NaYlEW`H=kKyzhSveV2c%b}_z~W_pl*ojk>3u}x4@uewgeId_>3@fJe<0eS
zp`F(QB<pd!`(-#DuV2%nHwE-~I=!YxUmwud2lWkooYxlIDEf;sfvo+|rX=<VmHK&{
zgQ%;>dcuI*dx&b``jwwk&M{r73g*?mRCP5k&UziiZ`E(waR>dT`>9vtH_2}%(w0Z5
zSG1{2zETd}Z?fy`u0ZMn7=eO0@RbUd3SY@TeqJE0xF@YVkXC+aVK8k8oTY-L3B=NZ
zHg9D_;`xG+12?gU+73~#=%F_G6eag1>e{2|+D$rSta_TQuxk>$lOFw&fPM*L(U<SR
z`f<cNarhQGaRQx?GvlhMsPMlvtR}rOTvmUCq^KXO%P(Q!8C$ErG%BEv6M=n;JMk`b
zBCNCFbt}UVm?z>03|^~?C|8euRX~qW%bF|r8|N{xx40KaXej9W=)>s5**Kk;*R?6A
zU(};t9?)ZZd*u}jMVz(jTil6v-$EyziqnbGOB3Nx^ypUy^sDh?_!St3IOn9^;!Zqx
z3!V5kbV45Yc1+#(+ya#s-!>{AA}WWe%bx|6{T0ljOFIz!?9o>T^f-31?xpzw@wUbm
zG#vfC#RBnO+-SI+cs@=i7GBzn&D$P5{ABpcrk7>}^qWT9Aia+|F--mPRg#x6Z--Pr
zd<(4pI<Yzz6;!r=*=3mgsvf;Lpf?Bg8;0RkzBPvR=q+&jr8xaqb$Ktuy+>ac(ANd^
zmba}R$8Mn?KZq;(uu5;YgYf=a=)~1HotWQ+!KmobuMFsM3S;#ZD4{rOfe~0yK0+NC
z`t0P7(TAJ#I3Ttj@$Tab+b(*}d;Ciq@K|-Qq&YZuQ}^sRXNX3C{zr#Le+cx;hPOlg
zeBc%&B}`OKcsr<k^%khSM)KTGNv^!S9cHLUzagOC5Y*QXu3VylCmZglUg+J{TZN)A
zb5*nyj{^Lhdh^jli@clE2PFvIz0}-iR|C)cD%-ou5=Hyg_9q_=D!-w^=qgeXK>rXb
z;axEchB$2Y2AYpN;-cC>njOrq?KYSPTK*`T*P{JCY`#r8A4fZK0f}b9V}^f2^KxNa
z3BKbbeS}$u{kOy<{e5tfMnFG(koY#Ve*Fg#`JW`Q10r^JoNvcL(!r$pW%8F3%@7G5
zaOCtx<d~0tZ0V)(uv>`C#@k^X0d}4wb`E_uHx<Oo-ya!vo>s)Le2CL9*(!eW+n)Gr
zWBDb7Ea|EAc#-ZA;O9q&$Io#@yf}HJd(s+t&c$@a8!XxooIS)Q_FCNJPUxT~h|@_6
z%M;J{i7`gMV2$o8M78?rk<jWN2c>v8vt&WyIW|2;>V@Pesl{Dxgk2yL@eVtqh7ukw
z>BrRgyP&bqwX!Y#3Dg?KqprC`SpO%?D!U8g_^7u^P}F2A+uUb}po9T*e7Pn{OEiF9
z-JLfQR<Dz&V|A0z>J@^-$V=!VZ<{T-oEJ2#?w%g!4alizmCW!>u?GV^rTm6^PS!`Z
zfPcG4H}w0(z5q!(*YUmr8RwY}cuQwd8sEa{`+z+@)^)%ePQ~{cJ6iE!LcN1OS%?Qr
zJ5hSjz5Tf~R)r{mWkOz5pbIW&FJ_$2c(yh$XI0Of^?^A!d$j@b9q&z>cih^2lIUdv
zoNx$BK)JjmuH%9$|C1^AB&r`wD=S}u?_w?}DN8Ku3vjc@#2b5V%GoLYd8@BvbkC|A
z0l(lW;?&T>UQV3)+Q`_}PZLQWp?f79yrm#1;vK7A`rr=EwRIOH+C8X6`>;$%m0vt1
z8gGZG&#@TQ>t4>G8HI%`aVLoK!Hyd(r=d2W0#530ySVH8u8VEw+d}#|U3qxSxHS4Y
zmC{5n2Dv>WK>K5I7bOW5ubBq=wa7q+v-k@kRc8KRy>(#=>PLSlsZ5bO&Cn{Ekt~x#
zGqj!<N~#ZURE@qo%|CzDWp6O2>WcSjPNFTlO4PeeN$6+M=%`%c*Q(fvv7d-Ac4QcN
zfv6fLBe#IQn+8;XWaeI+dw%Z4lJj_bSAJ&;By(O=GUvsS%&7W)E0_150cm*Bzk)c(
z=gs(W|H?#@?H+U~vfiJ)q|bW4<dQC^Ukr0p5XUn_wYNsFKZ}NkJ0A2IV7Vr-ZQ6$R
zhH=VLlBdU>woa_~`o3=g?^(bn_ULiLi$pnyiM~#TxzFCiV5-hT+^;|td?jbVdlpK?
zX!yr12<XeAuUN>SS1e@ED;C}^F}p+^O&CRLqk;KY+=(3Z@!pA6)QcZHsY|{e|Kf&<
zl44)fig%tja=2ly`Xr{#5>CcTo%SCHk6Lfs;%KZh+HgX<-pZ~%rV76bBX%@1;d{en
z8m!r%4?dhPq|bi5oQ?&aa&&DAjw|aKw<IubNpRdUKR=Nd@0=!irtIA|0Z{im*6)}I
z#yc0OHm;FiS>&%Gf}can!w9PEMNc9R{O8A>>@vT!FgULvSlAf%D?%ec{^y5B{(d4~
z9F$c*yIFDx&u$_{NjfXu%UDOC2hR?#2Zu<ML=V)Dpp;(1BPjGj74+b35~1gZ*MrB=
z1Nl#JXZQ%P`AbA38|{S0{Z0{)Z`;FbUmhNjPsF78!XniJRq9s@zfD2K7lzk^PGa-s
zxMp|+WZ@6PBl4*jo1ay)nT`Z!8u3bYOu0pI9Gwy9LGSQ-Z~;9KO5+7}52~)92iSpM
zj~=XidwTH4;q~Ad)fnWfM1A??s$k|?oXkcK7RKp8)OlWu`^2}LaXkjSt1M1r2d>)J
z(N0*qxNL}s>2oC5YvT&`9Vh7<#KNIh^j{+(P@WxCKJdZO@<o>r8Kw7Xh>v^pSvrk?
z1b>r=A6g%OOEv!ERpU<wl{4{t9eti8-lGJl_CE<UeVeHJ79|On_1`7djzux7?xGLP
z-4BxDY2Q0O{@=lk!@9*4L+#pqpQscM4@X`ZL)%Yum@h`F{8cn}t5Ohu4#i$WhuH*!
zPrvxH>P1|UuONYA-8X2;ANn0M;L}T8%0WGRv?jJOvFwF~{xyxk6&r*4CUmS~B=o`$
zK}0yEtYYEPMMG?!z7ZRSXJY}~ip%;wS}a_`v7vQ!Mr*Cvvd+}xFxJ&InW~$sOpbNU
zR(zDuVXJL2S!)~Ws;!Rt%043&6|w#ygLuKXTVFXSD+Uj=+rgy!57W0^cX`{}!pV3?
zrpp_9N#>xVCM9FkD5i5ndcpOzUC-}|hP5lN;QXK&W41;avv59hp}xW7XliJ-nJqOA
ztGT`zYcXPg)z)ORnQFH7={vZq%=mWzxXtiWRQD%ZEh=2tO*)=drt%}?(hjy<Popm9
za+ja2d~W?S>z}hcV+rX?E+t`gzBuyscAVs29Or#+(cxUHbV*DlN%f`g_!Dq2BjzW1
zhYsM6BBF)GP|YrWHe`@_H3AkRK*SGiF~)-Uk=m~gf+W1%s3LJlePWEA7h)4X8Y`PO
z5^AcODAg_;%2Z5?k=jQ`B`fbZ5T2I&BN~byBk3~(M?eNbbmO6AU>?c9+qS%Td3Z#Y
z5s~qins<ES{{ke1wTqSxVWO7ChQH5Cqnedx)8oC0X#@uSm&4=dO5$e|spSFZenx=E
z*M>*rS|ajYWHAO13Ca}%wg<p4;?MuXr~D(qPgfFut_(|@Yt#jLb};gCbB;zQ3~;U^
zfmx1vN2FIX3Y5LKK*mz>sB==9Mf2LI?8ofK?Ec9M1EUu8j9MNTwLCZq&%gLb)x+wc
zz(7Wfz-axBx;nHTsiV;f#2u{>Ad()=9|n;dX$+Le;05&(sSFPZX5zd(`S{`mK}EWQ
zqqny@y*oW^+uic~mJU~2+rcra9G~pN2X7CKRb{nw_)r7q7X&cUD*so*<APJg1)XZ4
zNblFptWaK)^cEZf`ZZC<ZeYTNqMN82jk4GX;4diq=dQfGt=nK^=?_n4Z@00jp~_^n
zIxNO|lLH?mUuWLZhuKjN_x84`>DBIG9o;GMqSh0m6)*8tzO(Ss_U<`xHvdOp68vU(
z!+#$Utt<$?sg4t^e+hA-#-M&9CP9@Zj;A#OUHI+rx^Ng>c>Chxe;OW<?<OMSJ1rx?
z$?HTUuU`@d@!v~C#&`d2bq+=27FhM+eAf*kAmL0uMuMo!^w{iib<a^=C|#rtr?s@V
z`JA3Mw;Ueb((ZCQJZ(O=yhnB;4UgUD-sbSSopQ@g2eS5h-1~}><aK0$YLN6%2P44m
z*M}z*k5iu&3-p3o_pZGH-MbF&5y0e&_XNNQ^x)6K>%m83J$SZSWj$72ZV6`MJ!e(u
z!Q!_^d;Dd1J@|yG2kJ3cinEiMcv_cU0rED5dfymc4?c+=403LN1O(-;MC8z_<s1=7
zU$-0Rw%)30i3XdLfYO^pz~3lIs9!G7IFCayL_W)(TlUPdkbb_uv;m_VZ!7AKFC_nt
zJBM{;3(ALh59}o(Q^cIrF%No_AGF4cd5pjy|2MIBXt)21M7+>vYHd(`1=>IyxLx)3
zXoG(YuLoZyF{O{p4HVNmE)xGDkw_{ZBD8RYcq-oAGVaNyb6d}D^_NoEceXk17tlvQ
z8j{GY4n5_+IXEvzfJp7|i2SZfWL+u)MxSoV#52nEm~<kxKGIHvj(RZkr29UxIez#i
zs#z-`YPT8M@8`%R6Hy7z6bFc-<8ebQ+4!A2=i1J;`4`u}<m)bo^YP;m5QUWCF)~Pm
zD-Rew;d`<w;)T+l{~U8Le|`7N4Fk18l*PBVwoE0`hF%80Or&KqPw`I3t*5tkzUy*Q
z_ly+-=@|ib>WSu|r~gk#F7Jt}N(UzrO)J0HLA~Mb)I>H+6|W$Th@|C2;w^?>5MzbK
zg1OCjwDK|jB1|P-kCj=gY^|+OES8*sCP!KajG}G~tpjcluN&j?Ix3*sz>M3}0a1@D
z(e_^KO;=e_qWOht3HSNlpaGZ-(vC>reZP;r_hhaK;IKlbF{B%FU8@;2cA&h!4c(h?
z3*Gxi{O&2oCwnrN2k_CJ%$5JEx;Ob2x~GLx6le65*kMoR$^gFak-2&p-5Z&`=h4))
zY$Sa?2*-!^pQB5IZAR;<n~IiD3+enW9}dAPqu8Cfa-eWVUB>>$3U2E~1JPO7SJRCJ
z<zY>E;uk1qQV*2pQXZ{(Jn3ZmiS(0MC$juA>0Otjmv(0^8%TY0YK_d`jH3}?Q%GO4
z8+0s2#~+I&m&alv^<-8CGAp|?s}uBQ<n-Wp>Jb~tq4nT+>efI#sGL&n$y^b@=bSQE
z4Pz#aT=ynX_t-WK-My*tyGPQOxwI#9bpWB3%(a7e57m`DzO{-K!>yIyt@{aze=sFV
ze8Q*ta)@qa^~Lih?L?Y?DrxW0i@Gxx50tVyPUqC&(K#y~owSiPdP#R?qIX@6%-o(v
zy%>6K=Tk2R>e)q?wgoenDb7H5rn2?Z#}SKas*w}^>Ctf+TKEg8TLb5|vd`F)xhjB9
zVPvl9BmChB?zX)ixxH;SKF#ac>y$mtZS)MZuFbjI-GX~Ze^H6sgshX&A=Q(l_{Qxh
zU$pEYiS&PD_Zn}x*GAgF<3Pkg{(UUTg-<+xEa~IAh?RLzQ=~okrE~*+HEy5Rpd!o=
zCCt$3Jm_gXP?FB&EDbi(a)WU@BJ(Itlsiz%>u7Pd>~zm5GI-kdwzoLxlf#BN`*wO-
zb{c%LXU7h=>~<NPT+8d0_j+2~+?uD&<MTLMJqNi)QL(|<+Bygo`#iX`&28Wtxk|YD
zo8kd-!<%CbJDpxbTe|^YJeED%I(%*ecI+?0+Jv+4ons}-B+KoxyaJi{W;K1T(@PvQ
z$aC<AK5D$f?W5{=3jK??SVBX)2nFy|S(c>F?9R>)q~^bpo!@B-WX}y|7yI?aucS{t
zwdBdAoyGo=wO7Vp(fg;EgX!!2x<rqHZbOsm)7Np&Aw~!7X)(yoq}bE>)zUqqB<Zje
zJFOUdue(Ni6t4m~peagnl6)|mOgv6rW}T;PhoOCYd>)q=Y&$((1O9b*-P=1_4cpsg
z1HR&pKf9f6V#s8-69*i<7%G(X8Jv6DJua`ox6^HCb7PEs?FQLB-@Vt_+Tp|?#Fwb{
zHm1wH*DW6aRjsXkgsZAUmN7M24;14Dg}4hu>fZk1gIu-fDED=BM2PIbSFd-w4ehwY
zPPfw~dgg5Pwi|Z4ooz(0(>Dlp-kt3otu6y3ovDP(b?kAWGZ6u%z6v2GUPTFU3#qi=
z6lmJ^j<yzGdwZ)loXir-BE<rUPi$-Ho7pPa8#7=g$zO&9E++{rU<rJEvNUe`$<h<0
zPtFUDEjhB`jTCA0?4#OO^y7|K{YXFgx)$g_lND8-EBncu%1Om4rvERZNFuUlmE;AW
z78A;eKimoVTLkrWs>7)chs#6L=PMw-o`|1>rtz-BjO^~wvwKF*4UC=}99<mDnD5uk
zSEwZ>M1H8CI0EkkFhJdnh5AFY$}e8vfR5~_PFZVw6pG;AAc}8c)lPTIy#~*AgR?EJ
zDA4G-_wQ--w0Izm7;|5V{5jAde;x_Gj!x=D^@Q-VgpziVzkozNz9}9rb})T1eWZ3H
z@ns?C!ttQg3`MDgvd29xpFDWtpg((-Uq9;>v`RGGvK^c}DeaJ4nor`36o(|}h%wL+
znnN0&;DRK<XlNeIT#rX>BP0BvM#p6z)3hY*kXn-NK_Kd|MrBx(kD`kfP9!}#MkgIk
zI;_Ecw78G<P|~ibsfpf3I;5?Z9@B{yAp(bWF-;ZkiOfS$gM>Rw(SeS`(HxEBON+F;
zi$09k@8^RiRDOq|=jwM+IIZ6=(qotILUQEX{Vs5*|1VPRaPpyKD=5(rHJW`9NViWa
zN^!mjX0vYCY;3aNAog;@=AG^~QfCGy)Zjh?<~IqC)8$fBqL1{dN*8kFsD&-YC2xo9
zR+JKyDr=RN)()!eX=CNO-3fIfdkw7~FRpLr21xyG-|lXK<tClf(!P672P_!b-W{@Y
z&(0FVIw)}We&_Bzt?puj%Y(wCSz+5-JKSDw1GYdpXw&GZGj7Gv`bJ}u%}hti4Qz3D
zpkFd+@>p%veYgp}7YqV)>(I25CT6oh4u+zJxe=u!N<VhC!#^M^6}#uXZn@3f>NTK0
zFwy7(b#j}t<z9CitdF9xm3BzQLuGr~2IrsRJQP*P<rsbWqm(>B$$m;YDfuKNpQ2<1
zC10b2o@tR6P*O(8{gix;5`NzHS%RLY<V%$BQ;RPU#1Gc>62y;py-3h6DS3?&K417d
zf(}#i044NxaQO%&@22EIO5Q`sLzKLilJ`;aFeUuDQ+{3OBZTt%DnCHb&nS77lAlw;
zXIXf6hj&l@i}E;l&ijA=0D7>Zu@$yGV(rx88uL;ezIF#Zt(_#6<oA{AIZ%`qp4VjD
z>M(6-G&Py)O%|K6&S7b=nrx1$=4zv3li6yntTQ>PO`FU(%Qa|Wob+lMP<ZYjE!UbG
z2b5hfNLiz`%4Df_G}#8!m_JC3T4SZr5~IAnp}M&al$Q)r++u2O!Xp@}8&oymag^|!
zLCV`2o1>&up(obxV1zVSOvXmDV4cHisxwvD8kz<rq^Yv54;g~x>)>)^!=-b<k@LD+
zI%JOzqo#PrDenE4POjLKD&bTb-&W7Iuy(g=F+Xw?PI0%<v7B()PWOJ7XNTMCD@qB^
zQ0cRQ0wRA2wl171)K++`>^$ITYljh}<pLG=hP6n;db*p#>yy1?{;?3jPjSdI6+Po-
zd6R#H=C+XOq?vU@x{<SFc8Xs&>*gMfG<yC~E#CVudR+I!c~`UN;rkG2=^=dPTZ_Mb
z;HfBaJxf~JtO;f{2bS0_X<>Cct%2;KA7#(;FR>k|@n<#P(2bvp1}FB;m69_bw!GUC
zC|MgEXGGfReZ2Cd`GomY%ZDv+^8@3I-MY%xvL`-v|FQd@Sa@pR$5!@CD+x?12~JyZ
zWp;OVZBKSnAiF7;Z97u?YR0%D4S&0_M9SWz`P+>WX?&%|n*sXIjIS)xy{MmFS)wn}
z*l?Pu1O~-Y^e_1`dMW=0CHGP?3)%8Af*uAG&TeUMZH2mr?(>#7x3$Pxv=vVA9oPe}
zp5Ch<$>hz+#7UVv17-BG9S&z(Tf1Tzyl~IRpem1+9i<zPRh5Y><vk8$P~|L2$c)Nl
zBNg38CoJUglu*<}o=6Efcru-7kZA=f(-xaNjgsk<(5Ir5FGSJGU(TV#K*=mhaw*B9
zB%hK3O6E{fM9Dl#iYcM(H~9r>s+6FZ3TE|9u9Qs6G<h*46_hNYB%f+5BWO7#D=1k>
z$y!Q`lvGkuMaeo!YAG>OvVoF%N*X9>q@;-w8zr<Hm$y)2r{r!*DA*!9D0wF(PD-{>
z(n5)glAV-zDA`5Hy_B?4vYQeok=sU4J0*K4xsMW=5-%k_N;)XnOUXV;*k&Cd=pZHc
zQ*wxs+q5S~sqQgK;u)0>(uL!coS@`Glsrz!M<_W-$!SVHO34$He4LU`P;!QnPD;*F
z@<~cQMah$tJVnW;DLF^U)0AAG<TI3fmXeE<T%zO|O8VK}%ar##C10Y1)P(#3C10cD
zMM}O-$u}tZCMDmd<U5r7fRZ0l;-@4)Nsy9mN_r>>QSve+{S50bDDRh)yhh2dDET!d
zzoF!}lw6~PE$;6K`aLCopyZE~{E3oYO0H9KgAz9h!%c!-r{vF+{DqP?DETWTZ&LDi
zO8%P?vf%Q+D3PeHhLV`M=ko@<zt1+Gx2Acom-kXLsW5Lx^7bBYrO?)cJdTp_l<>yb
zM1nXp%o|A@XXPL!#{fBORzyXLDOpHK1trTVsitHzCEF<3K}kC$9HY^>JS{$DiA)P$
zUO@6{iS>T}b*6r$^4`GJau|ith~$-~OH!{^qtU#smo#I3B4zzV%J_+t_7f@nCsOuL
zrTm{sB>}1A7uwOG$y1Ni9nTBuriP{)j+l>nkK2wN4C)M_oU&6pdveMGIc33|g)juC
zv_aj%kYTo8H|f;)pl)`kxWuo+JF0@Zl2HB}ziz^D?<v~}RGkybEjZF}+<I!!342gi
z5SokCZEj~(P&YqRR^ivp>B<l4DnfHnd)g^$=c3anR1%sv>B#!yxWlAS;XJ=?@~ON|
z-RZeO-Mr8|)XwX)Qtg>}MCmEr30%kvl`it@@cqT0Zc!+&(61YRyyaB&iCsZmVgDBT
zQZujAubY0VrL+1p%9e(v%{a5<^pc)w^8?f7ceMwnttQHYy49iSIcI84*Yr#;2~02X
zm#zs;U(5Fh>ehzxmNV%=-SR%{C?i5`L0wrWCy&_SBPwUiWX=S2Gefz^oq7s<$P4A<
z3x?*0X3ippjtlB$g=V4!2FpVIsGMCycWe&oib69DqL3j}1lFLz&ivEsi9MwlrJ0@M
zyL4x#(Ma`UaM4^<;klvNVA+gQUSb#3Gj!&m9{9R2Gz%j<`4q-zwz_vSXPw!1df%Bt
zrw?^CT)rzf(=4bkhl((ehE9|(3C#w`jh2Kez$4l-1dr;ie%;)z8vi15pcsT&LkpKu
zMs-lPl)J!{=c}2vs*0K{>?#f9E)VLez{E3~Pj5bR_vyR4N-r-B&ZrhVtq#q_XwK?f
zL?f9Gx-qascYc8Y3)CR-G`ADCEe*{p7D835map01CzC%vWIziLLK5FRj1>emsLNLm
zTP`G?2Xjtn+RP)hM_Z0pAA>;6>?fqNxE(O3AXEUko^c8snHO5L%&(i*Wee(-g^FWR
zQ@@cUY==LmGBB~~iYqV?%-R?lKjlcxQ52n`?(1|24FsNqW)4IHqer4Ky9o0m|G4)=
z(J5D8Y%XQ>8{2%ABeYi3Upz`61hYFq-9j~WD)RHV!{FW=wOFWmx<IgZfx5u_a#9km
zpsrk<TL?O)oLbbWJ-v)*Q7IJ_I4{;9>4cn49r2D-&9qbK!ko|?j3NX+s4G_IstTxX
zuHv(*vGOH;T~XJfpl*p;V2g2Mp2-VB1(-EFXmg>|m}VME6{w;?#fu`)JF{~F(OU>2
zne^h&bm#&ewV8u}Dt4=s=8Rmb1{UUqmaXvXXe&jxB2)ktPCw-)_T@qHSwd$sy-*>i
ze5a=db#p_LrzpC8N+<_vgH^aem8l|LrKeOHCKoNUl+O;SMx$y2F=d~>a7|$5+MsTO
zx{sujXk_zGuOOYI>U|*wZe}MG-JJfir;^H<(2)~QVW9I^sZTvsO&TgTq`m1<+UVXi
zDS7ItCA~>WX*epQo1Su0(j||^rTLM`v_P$u=71y?lldVPSY1!Kll(<%1G9`lU45vm
zl4JqAtyF93VkiwZa-|{F6e)yMb6?8Y*f2P+ceIq2+nX&VPdQcCo0Ob3^SU;58fZ&R
z&c&tD#bmCuWUk6ko9|Q}QjK^4_><F#0&_wo=m(cA3oTnkim0%&I54&JQhs1+MNqd&
z-Hn*`#fmR2yEj=%p3^lcq%Xcs5A@xXl9ID=fwXaP7er`TXvG==TP{_fhq_u5ng^B5
z=CvfGn&B!1H5)Tv`YBYM3zI11Hz%|PD!Ae@#;IDZ!D!+@fp*$X9}Mai^dDxG+E?kq
z1>j3z7bfvywMCD0E3_0Gpx5A2zhe`=uYr7d(UQ-bsGV_L*7K98n~NhoUaodJR0=^Q
z&kNv5FbRu7r48IlP}jgyiN|AZXxVDNZo#E|atl;Kpqes$sp;>4lwiDBx0W;a%P&<E
z=LNgFG2SXe-i=8!eHNS$TQ`*Zlxaumk1y=jO=Cq4Z>JmjxdPS$+w$GIWiMCPk<P6N
z6t4~BV-;Q(n#qm@isio=YyaixnEX&Y-8#d|Gcbnm)Vg&!At7)?fS7jO<eDhH3xPuM
zbn9{<Lev~4cDJtZRiUH1VQF)q(x6tlbu&Y=pr)pr0<pOfg+v8}fOqQ(Zt8TJl$%*d
zu4idA6BXC*x&*MR>Qess^{*3nJyWX@-Wgq*-erTJ-bI(DU(eKNsx+s3uS@jzx;|Tz
za%%kR68`iSOVbTE)8=Y&LRnA<`1|Up(Z?4ZvtLgJ4BE5C9?v_r_0;6f+)h{5!n2;v
z`GF}50;3jOPo?X6X~LB2R2v#3CF|%m#l<|@7D%4)dIn{~L8tZ?Y4W&z{C#!Q7;5o)
zGT?;m({-hNf<*glqL1zlBu{@mgR=1~2eqHA$>sL(H`+engzeLHrG0`T^dE0IG3RJ&
zAbHyB8OXk#KUK3)qj=}9O9b~;Yj%xUl7yPcQ?5?k*qg>!mXti>hNPL9)tk-uL@7D@
z>ga{NlNig9lE+;gzoK_0W4TiDv>TFc#+u$d#urG*h8vPLcS3I&<13})k{eRef|TA>
zjMr+U<Vk_ab3%Hk^sBkGh(%3F=`|~4G~!~`)$A3$8x{O+DtrU9rS#sT<g_7YB623D
z^tLNGl}Sv`vfipBzCj)E(Z^@>)+;E^h$l}00n<`?txC?_$e9Wfr)TxvqvUKyP9e$^
zrS$ILoa=k2k*i~tU%yW&u^0H{t5eqZ?o;qXz$advw66ECg0Iy|$+OWyVM?!2%Vexa
z&OF>@eoF5KC1(?Ia!|&Q(z{v7*@m24l*!NNZBcUCkTVlyW}$mZ&VJ-fyE?tG_ke=0
z)d4@%&}-E3ZPo$BSS8I&>8(+6nvgT~>NH!gRl)I2;p8z_$FA+&s^E811JvL>3jR*u
z1!!STO0QGN*@+yC@Y-IFg0})M0-5u&dUq>1c)w@zq^px_Z|qZWyf9M`so)2JGkfk=
z@CSg4uD?sksfKxCDox2sKY)V@?VOC>8YRbqoXHsJsTsWuN{*d!u1;y{y-UGez-L^|
zvG%$Zd^_-&R}J;OI}{x64_Bo6UIlLhj(cwIZC7xF1PQO{^(y#&;7ny!?*S#JI)zKr
z_nK0e%DaKj2;|_E%!ZIY^G1>`E&XPy9=yLtxxNS2F`&Bqtls;SoI}XT`TvSKldYzb
zI1VQeAT7$l0RastAn36X6&zbnD`Ai+G6s+#DD$9Ent9S!=tr=3x@&jcyM6@1ipE_(
zK_%+GzgxdbSmk`*tyI;m`q#fIUK0*3^``d3;XF5A1*R#_*4c%*d{8lDBH}){iaM$b
zOux(|h8c^RDe){!zx&OccpbixsQdLWc<axagI{`CQv8bfhAuv3Y2RRaF^xerh@pY3
z>Rc0%8T3rz%ALbt&8OTi#edc8-)f{13Jj@0i~@Epa?ONH9CL+AY6w)BO$?(yWVXcb
zJ*EVq{6VIT)0#8wN;G{Kw`}@lVi*^V6Ece#lUkB_k0HloRZ_F7=Y$=hi0MCJZ*drA
z)T8EwI0m!ib3*iA<~7C*!W$X>h=Uhh-DXX^4!c%1WWxEroLjV8pKF@(HIx|F+lb5v
zhH=SeTt=-)&SEMsRU{XgIEE<6y29A$U7HxzQ^ahEcVXANJ(;$XtV!Nebknq-v~3Sy
zT$!j$45L++nvi)d6C~xlk!e1~v5<PM=bDyNww@l0%h0_tV;DCp<1+KdW<lm1#>U{X
zn1{_?3e6^kuF15qi%_E5v=`WR`rr^Pmp?H5G9z9I46`ySGkt7kWa1dtm$x$87{-&o
zVPSS;nmK8^?9!qQs|({sI3hE6TxLk-WyYjl$?$MIy$vkMtYX~!uF1T|xYj?&v=;hu
zYPs_|GH{{p6hoY36DR#LF-$tDWo9uhy5?l!n9xBP*-6azIK(UBb=ck0hD`XhFXwvV
z=SO^}^DtO&6s-G}7pNsRPb)sSdXrw<&NWe)c^SUgYZheQVTikSvn*as^O|@w&0FGK
zShJDZlL?>6^s4EMZMO|mv0r)Lw2OOSo4tC)FJU*MuVm&iHu@LDarh21e2?`ZvyE|?
zV@Ia-tX<*V=Gj@>Y8OnjwVQ~z2WAg@VtU1cusa3}$;8qnCd894>%YrPiDzMIWH%B2
z2D95l&5C#(=038o=9>+ffph6OO-0Xny-JQ@iVn_qm~qQy5q9^nB*Rl9WruvTBD0IJ
z>m=9g$+Q(^%Cr}0ZZUSB$v07%7{;xE37OerGba<r*i+tHF%PTKXNMJ;?c?|C$P9A!
z3nj`3uuJ?Rd3whyXJ<HXd$P!N7uicPJpD@Nr4^ZNjEmeInQ(E&H0e;;g}Kh0*XE`o
zG9#FJ%pJ0W%ru5`i1&vOW@O%B?3^r%pO$1+aAS$$0^{;sL}mcvdJ~lyJ2vAotC)+4
zQ0-x`{4iLN%F6Th`TR0+o34+PQb(ey;V@YJaqG+De@gf3JJ~Qv=%b~!*+~kJ6tYMP
zQ!?)`uJg;*B*PbcId>^@pCx<2dslJ*!<jMbMuCZ1W5zJ9o^hF3j9pH1;yCOQ(p#BL
zj9N-<$#h-J+|I|qA8VgyKE~-Sw-dQ&dppc^HzY4)rZH}FnUUeyWqP7lWVSKx=(!^k
z4rR8IrjV`qIfgVBV5{zy8Ns;o$f(S;%6QxPjLa&gJaOqJW6v?`Yp{>R#um1wtIcJZ
zMbuJeTj|1(KpIWNa&o{cad0_mqPji}KV)1V(Spn_#)a*kOfw&A+#R=+t5%FgB^8kw
zz))|$iHc(|3HXVZfD6xjEqwOFCg2HOUF0eW*h{xdGV2&Sznsow-ecS+j}J1fmon+`
znLc6lV6-$$ugu7?8I_sDxG0#CiDMdQ{VqvVW)tI<!j??<vQ2p%rs=Z1;||!B=#&}2
zxEPIElN`giSs#~~_RK-~fSD1`!yNuQQw!o%_}oF!BeN#ngxyNml4-5*<=m#P4Q!zm
zUQd$4nCe8$y?=w(K41GX{P*_$oen~lk5?~LV3q<lm(7Xea9JwLpL516%WPvxWcFlQ
zE4}lEEz@3Uo9V$69|azpe(@k&@?YSg85O^TD~<xqW=cE{m#T&(nN>_kW<zGzE5i@%
znh)Y|6(x=W4@^syZL<w7KMFLOPVsa2qOBp>Yt6ooCq_KXDfv|SY3kF}L`D66s6J8L
z@ZGm~+Mkt-RsH1e^#4Bf-RHgjC@J)peyj2O>yp8M=g)rkd9TTW1;3wv>G|RFUhV%V
F{U5_dP22zg

literal 0
HcmV?d00001

diff --git a/__pycache__/forward_context.cpython-312.pyc b/__pycache__/forward_context.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..30e6622fcb5c30f5394264dc3476088704ba87b0
GIT binary patch
literal 13763
zcmeHNYiu0Xb-uIj7r9GvMN)hYAELMtMOl_)Nwy@L67{kqO0{I!UL;<Pc81cD`=Dor
zl1MBQ+O=CbF&a7vY6U?N8AuViQV^y<8x<(h6!~MIMX_rt<z^xy4B`UGzqP3#K^vg`
z&Yhjz<(hH|v_Esny>ssS+;h)8_ndR@ztq+F7(&wV<;1slGWJVKSfQx|th(%sy~Cbo
zGLwZQi_+JY6jHXRO(58ww5J?V2ZtR=XUY|IaoCx3r#w+l${Y2jd{H0I6O#U@pZ60;
z)kW)go-0|O3PyveP&AZkh&J#%cd{|n6m8<LCmBv{h;HDpH`$zOiM9w#@u)8J<4d-t
zHbyrJ%*K=^rR|Pj;v8*P>L&JD6RCV<Hu*WmqMb^Y(k=V<qd;bosPrHeD5ZLNs*Y0Y
z_aXK18ue5IquP}I@~E4T>Xw6M$uTB}UT1QH;=2R-QHT!6jf#I_%uH3sa+5MBhn0S1
za3iwEUGj$49nr{V)^0|NmNl(>aw}SGQCv2Lu{UDuwmUX+lsl!tqFYO)?I`W|ROyf`
zNZS;|vu@13TkhmE2`fY6Hn|IZ4+F<8z}<kigZhFJoVZx(y6PhfvM}zHMa3)kC=GHi
zu<TQ|n!U>XN>JXU43ts>N{b1N*UOt<cSd(84tdbR03$_Sca(8|9Ay~uGe>o;8FdRr
z=5vv^K7#IM>7#H8$wRL@%j55y5hB}uP4gU!2!>x)#--_`E+^tTlJ)UST34>?DJd;o
zR#fD8Wl5LfNlDWpcBAh6OJ|S74j(^q_~ePPV}^YsJ!AOBq?96`pPou8RO9gTqa(*u
zY3j=9jI0>-XC+liCY9vjOnN+V+3;ORCQ~L%gD27nJ(kQ|Hiv49XELgsNK3jByCmuH
zD={gqW;87(PoZ+)`9qX<E}4ic8qy6Tx~`=4L?(S&(Ivvt2<oa7pETQQiCM*H0N&;R
ziS*@|o=7Q1<9J5BCaH2v(<N0m^V;}m)Pf^JbrT?idR0mq&6P5%CG``pViZ=|7;KgH
z#5+u3Q9))=8$^u|wJQ$ADcd*;+M_PTjg*5@UWlBiho_xp8jR+VT~(~&n{h|HMv%{Y
zRMFyUVoJ}bvw!as5qPdBm$OBnC&s5`=`vAYloQ$%(F>Cq7GF?A?Mh}kDT|YeG9~I)
z6fr%W5;Nnxr-ZJgG*QyT6xJgpB?+7Y-4mCRil}GADK#^tsL2^oO3UJOI`PW1f`mEp
zCDcG~Q<5wzGVhJkYb`Rvyuk2b%$S~;RMOf}qaGar<5Wym;>0PQE0PB4V*yLTj}zF5
zn5esY6wy0OFPCN6L`f*{dZkDfkngC@G2y#5OL(1Q5&P^(jt>#>IYpmV)1oA%GwE$5
zjKr&os)4OQ9?(-&!DOO2sS2^p8Bq^MBQ~`aqo^eEB6hWz;1(<6J;88jN^)Ey#Kr%7
zYP+7A+CG(-+6LyktmxaWPw&~ccXE%iJ(;+)eQHL(l1XpBiY>C;;<eI#9G;pn{J=3*
z!g02}hAD=t3LnE*nuutgJ@m0qcOek^%9%IM+&*$|^q)@u!|8{1TgX>rHm`3Lbsz<7
zhD+si;K)b(h9?$FV^hashA$RNW#s83!GT!pm1!wiDsjhRawd*!JGP1ujK!pMI-^Up
zAGKJFlf-ab%4Cw9FowruB7H{f!kF(dwHqI`lOj$ril{_8gy;?SvCZN16a%aw{HJFM
z?c)5{!swDiEZXeI^|0pl`Qta_B}ZG)X5$&I`cG^wr*GBHT=gFlWOh%T8m$$stH_gB
zd}`Wg))cUEI<CZ~N>VCDGC&p4EMCoB#DSa(qX6DvS(X)M0YNB3?Es9rbGEE)qRgEr
zEQPFar<BWUP%kyX63pk=d$zG(Q)MhjgQ`p^l5UEjq#|8a440lsCNv!^wgq+6t%wY-
zHdWeC8ubiz<RmqkWARLCY8rAB6)N*rA4jDp@zV|>nr9%Tw<p)PFYnoRZzS(IQ1Ett
z?6ftA^CwW!(6$`fnh$Nw4INqv9iBf?@Q0WE?RkIulD{+O=;RbO>QmD7ssRjd{K|BC
zGM139$E&v?&S8^)cLA*3#vo9M)N>BKOrETxOg5)1To$s<S%`u;mreqKhpf}8G0Hwa
zh%&cMqnKs3tRw5D4VkrN?bMPM${Hu@%DPG5(wFMUw#hb-M0l%Twp(RyZE>I+!oo53
z>;Fbj2}gApQN+QiXxNiV+Hk5;`m$o!AvhzR%DSk~L7BRXq8*3~H&%h4N4{hxE+tJ^
zNN64uV$FCk7p|wgaGa2e43S7Js@CuT8Xdt;%OJuI$0pgF+x&EH<b|csi}NQQ)Hf_d
zzMP&vw$d102;X$S-8KL0gSy6rJ%91?4dJ8K_M2n3Pb^CBow_&n{!97&7xF_dEVaIP
z!?&>G&ANhr!-DkYftw>(;X+5}jb|5L`O@j4m(_O^eJs$Nb8O&?9>=)l;4ML`P>k0c
zeTsd8rdJbi_z6V&N0wF}lpel1cCN*h4ow`9PQ@p?6pw6MzYp0hvvH5?sX9jeN<j9a
zg%3Z!;(=Zos4A^9OQEIJRpr*pZXC^37@)i!`eINHq8Io2V~;zaD?6g08GEF`@Qt1=
zD<-Y9P0W*TtqkHkGiLZJe4!b^vNVG5htg!8CL*X7FYgZ|Xn#?9^&TP!CEL91S@s$o
zfJoN{S(qFJ%UCr^JFdFcoINYdIcUG|edCzKp3;KP@*PAu-^4!2I=;#N%5Dj)*M!P$
zoN!h5Wx`pTwL|Bey2U3f>qLHOd^(KB_^vVpG2%2DNsC)6jBE3-;U*0yw4nGEY&+??
z`ZNZMxYR@Vn1mwfXt?F67_aK(CpQ=C&!9jfJgYaHBPC5Lv%$(*4O2#ps=k2;GBUtI
zgSp_&oM$KELa=K&xFa9ju{iQUaCgqLI~UwtXzW>T+?8+Kb;Df<cir$pc7_ITyYs=v
z7EgQ-Jit%dLU1$B$<^;zY*^g4xHT6zxN64{oC_X!=wkhm@9cYbUvArxrM{y%kN6<C
zG1vBZZr7=$;OU&_w0W3uf!{)mWXf2su0k*4^W?&2jmV{m_TjhsB}6BgP$PEN)1I;d
zE&m;2EQBnJmD$9L)Ovc=U)tUgV9<i;Ds^XszM7nC?7ICWc1`%M{hAQ5NuOW<pScF2
z2wQ;c4Y6c!kh)nqy12Fp&2$Pnp_+igsVTatYbxqCT3eBC8nl2yS?-UhqH*n0616EM
zo)}NWMNTkLo>rj@n+ZjxI%Efk%5^0^O=`=quiVS|D+x`+e_Da9p-Jit;RUsIT2(|v
zieC{&&x(V@tWbPS`z9iCl%VBM3!sqDwQ_gR8xxnwtdXHtt27qrmZm%q6KR^rq^3hL
zzn0Lih#4r<sx~AlSCzDQ?Fu4fl>6eXK%?oj4xJtNOs9E8DF0d}rEoMf@d`8sPROJ}
zqoRX^ijkla0Dq|RRdYQ`W&@qts8^=Nka$fIFR6+&DNdXAf)3>_Y2l0sa5C^YL;uT^
z(M!RWOu!U0yVS%%OjN@1W;9*A_z32`7#ZS=jTI3k@p1z5F86oQWOgVN7l$wntVu~D
zE^`dnLK82Nl094{MK98dk!6CD^OB;L`>W91G;C<KXbJQyz|!QC>d95nX`LZ}O(qS_
zgq@g>(TkRlO>@Z7+AAD2qF&aXEMr03zrOPMr1%1@IBeTAG2r>LoHC~~N5rHw1GeBx
ze&p=Xny#$PRQtsmPHT#I?yPu8(XS~cCs`d~{?gS<!Zg}yTh^vkMV?N}5-g$2l*aAJ
zw8HrcIAZqGWGDWwP_i~REse!>e9u-aDjNF{obsf29_>(ATGpy<RK<^#jaNI3HEH-I
zGS_Gl+`_Fe0`VB_hqV}$`Ow56k(QO~e0Xaj)Q>g0vJ|THF$Tq*R5w#g903GPvV$^6
zu&bviB8^ca@k@A`3SnJ|NL**sW?QQcsx>7lH9d~#SL}CC3iq;(12FrR1Ce|nQV8@G
z0)2(RhE=b#!*|1R-_u$Q*uDLQ#^&Y5-h5;42Z7#|?!FtNKM8dF?xxPazt`x{f30i8
zF1%a6hkefj;0N9jX8&hq2e`&OB8>S_^Jf75w?~bo15_U!|DVUqY_`mgl`|$qPAz^q
zKx*i88q~^-VeuR+U-E$Pk~K6gcX$b6ltgs~UnxCfvI{v{$~9=U$=Iq|ZChovH9A<W
z6|RSIP$jr#H&!k2+M;iu6}OMgH4d<j$IEM++d2Y$!dhL|A6#AXP`uVLA_(8A-_5@3
z0q}R;gZ3ZV0jzPrkUh$^%qIYl>ARkG`B|DL%vu4CMwK{TZAWCfLQL-Nf)Auhozbe4
zV>()9BUQBc?5f|Po<&6StPpHk4tD2*-MQe_oM$WIN{*-7RHn!X{uB@Md1g`asCkwR
ze$=Tl`>9<`s5blmkd`dl?%J*0z%5R$5p#<ZZce+LNI_DNR;zBO=oliy6`xLN(<yKn
z7a=sA^&B1GA2>SJ`UaZf(>11uHZ|K-Md)?PzlZ)cGCJqkiX~NUkK_Z}7Tx*4o<dz1
zZiD^}&|HhqW%n=lozC~2e*f}P-vzGBhQE@1Gn?z!b+6}saDUFTpD#hALG3|@YA;13
zJxUWh4>c>JssofmJYzV>>!EHUFaV#eo`|OuY&}`^QI(SvkpNQ3_o|+y=p02aQWT-6
z;%OpVfg21j0MLGp=nb~g)%UIBH<C+^Erl|KS!{~TpIitp#NXa{^L)OcXUQ?R;%q3|
zLe4RvuyJ$IPQXgIrRXF8_4@|DGxY9I(an<{=4<}MOCWiq8qH?Ke&z}nZT-&v!a$^G
zr|;-7^Lze<Pbf{5%^Jm10tfxh{>5{jFnmg7fQoH4r?}`?JokO?z0v$*&#W?}iy^1;
z!0nwyhR@>eAMF4B{)YsbbEj#?@hb;s30nO}0M-6#g?p>VZ6x~@muaedVXWiI!dA+K
z>03!rJ#L=6Wcz+<<3TI#-IkqEFAQ~Osno?w{S)LVtqIXO#gA6pC4*M=xLC1Td8ifg
zLb!gh^1M9H_d1I<&N$(#tcU(edVER98x83U_n{=<vouvEHHcn}IteOO46I{b71Uo%
zs5-ovF(rLDkyc=W!(uF#HkbYAF%^n7{QcwxRg4g~CgHNSeDOxzw3(&xYl$_Ylf(l3
zRxcuYlt`JN8a2T(u(j~B+>%;P<iZfQS@m8MX5cd%n-x!_O-;0ny;#B?`nRk+DZ*8K
z31b;eyxN+nX`hnKb+H&O0muc3JDS*R$67iMuPOaE^s3Q$SCYP4^1&_3!GrnW!TZ5y
zOar)n__n^h{n`BXXLG|RbAeOb`ppNQF@-@>jW94AbRlKfvGY}O>zVQ(N)Sl`RicP*
zXL2kUj<GXiNBG=SVsz7`EE7~u(PfHiWWnbtkD?#or+pdG8w~rnwd3aDTTM5Qzx{<J
z$EG4&$(~|83%B01=Q<zDwLX?_+Oar#FMKbaJA5H`@Irpy3;A6y=9^wza=Zv>u;gf2
z;ew;>rkro+U2;Uw<F+T4hYse44(1$fH%~7)4i>iW%sIjfncI$h^U#uG=SpPT{ON`L
zxBBx<151u=s}8&6z9#I9Pz+`fzpyG96*R$eAVq@n7`!#$F}++c?<U@<a7d*DM~rP&
zJXSKMtqYFQAeMDCJo{p4y{#N>4rg?zMf$LK7A|QR7GzvpL`E%&-1tI1H^6Fpeos&*
zfo9Em7)^A(*GyGSqvA4tS|6f$_L09m=igjpcBiXo6THVDUI8NOp@#)Ja*lS+OzRV<
z5j|8BNM_T*Ii@~`Y&AvETK+IP5?U=fG3lz5NJ_XBQ>V~k1wXA0(L8(LZ@;w*c;p<L
zO_3Wzw&ACn90()s#Jh+blWl1WnruoO8YlL)0x>gRPCCri_{oL!95(B@WZ=SKSv&mS
z&aCUMaHrHeE&5o*t-g$Y)r%AnhU?)2m4fqKBiS;TEqN<SbHIfOKYwfKf_`~#uarCI
z+jH$aHNu4K8idj%MI8PGTv606`ZOwjgkMRZJZxlvwnE#c<+i=~w!O=3XYy@l3N4!o
z&3%P%ccFWCVPgdF!=NYNDl(7L#TUQ`*7UkYGCR;aan$NwL?wd-kQwIS&64PLRxrI=
zSwUjt)1vQMPuA?$N6NdS?7t#ELIyX8DtrMN-vE!=V%%7;JWbe2+!D2#uD5k++*-W7
zwY#QpL2sHLW1O8K>aSuxMqo-+uG0FEmu-#R(P|C#sRfup!{6bjZAN6;8jykg^QQ_e
z0}x$w3pe;PPu)uU=Der%cQ^MV{=F7P-PgQr!ds3ewqS1)zUFALzk@G#${OLy1x7{3
zk5^w15bN_bc@3V++BLZ@sCbx@#hOeDbDpe64Ogy;*4qS@+>`9GFz3w*>s>`mkp5T`
za1}I)ZE-Hk=HUr_^-R_=KbUpDYP!wsrkSJDmgfQ6Y~7w^yKKMfxI<iq@HxonIUii>
zj#7I%l6aVCu%OC!{T{RS>w-qll$^L2BLRVcc{z2GYCKF3{cFPH9?Yc?^9W^KXde)m
z-eOhB+V8sV2xbb`YNW{VKzExEA?TZ~!YuJI=l3$5j5o86-)gxVer4<vyXgg{M=h2i
zgVpjZ2x@QEJ{ORkvYQ@9&EcU`wr)Z!byM}3tIyWI>b9|Ly|r?{wKPw*uIJgRHy6}<
zt&Xw*n#Kev2sI%a)X5*t16>8m9=a5?W&x~%IvE`0a-EJ-9ymYzFdLMbF0;8%Wvq#<
zR*lNn!U-3WkYRk?8|E7IZB~tJqctM<tPN`;ytP3mn~sMGy0)(gRi&g|)r6}4ymx&T
z<tKL6R729jY_3TMPnaRwB>Sy4b4}UMx^!z;5BqG>xZRqGz}~ustJ2WKKC9o#7uRe|
zuDe@rjRHD{)E1qLRURe|SWx9F2eY9{{Tadh>tj3MH@Jo!@DeyqU<<-qkC}H0kjsDM
zGdA}}KKnoM*)^Q(^jCFH6`K9)N1W~&ZXZAUXg9s{aVZVIJ8nNp&(uWAyu{Ux9ybr`
z;|gwY;HIa#iS&dL$0bB2mBJMSUd7?&3dcL$1K|RSEVyL((yIEnAI9!E8gUp+RcGvU
z+I*44??sI!?&^-E5_nF>%~kj+jgXlMvzMwOr{r<s2R0l}p_1Mbn}QMuJW`2YK_Xu^
zx9ZB%s3E-aYn*LtjcP?1P57+_5RuU<3nY}GX_FY_N;b8;UhM_+>`zLmOR{uucGEh>
z#PELZ9n}s3FspqI=N5lEG0$+By5n!dT;)5DXEXLmWyWwr<H1ddGCO*R9>9?=zDzeV
z<weqBaWlm!L8U{WIjsC4ERdX#()>-}U`mTbo)kA}k#02v%nb*BJs7}+>p0XYRELU3
zr>}YQe1srU3{0c+BtfLnsARjF<|wJP>I@>Ip6r5Qi>#XZMauMRGwJvhHIt?nNOYJR
zE@^5?Ny{o}2`bUlaPpUWDv5B@Tjs%oEVw6<^g4+9%?t-s!MhY-DC6lFZW|4k`M?rI
z>G4b?T&t^-N}$eCbcv!kMKU6zg|2wuDvZ^<s^nIKA;h?XsXj~fX$I<-sF6LLxn|T^
z$~UL9VY{T^${v*03>T3Yu1lIAHw9`U(=upUhYi$kqKTVU{w&zg)JjFxJ^Vq}$;E9y
z(sPfWg#GtZch`f?p5@NreCO~I40cZ&x5o?a#$|VJ-rc+G-ko>vz9)R(-dFIzU)ggj
zn%ndgy>1a<y%n0oT+?7KFo?L&)R}9F<N^`I4+fqo^bZ%rt;^z5dGV=2f27be@X+hr
zT%Qm0-5ALQ`|wC0j8;2yft`pSG>h+K-p&*PEz5z;`M~DeZGY3f_)6}{G59=Md^h~?
zD0sTQ-MQSeGvBlG1NY8*zTDoiLi^Sa+MmDs#rL<|-~N2g)A~{K5Kt_5nhKs~9(NTy
zt;ksodRkobXNuu|XY+%)O}8>Xse9sQfrj7OS^b_*U<UUUT6=Gt_>G6v?OkcxvfTDW
zzU_${Ckw&0TyWs0q4uxWJ)m2kzI<cfQsbr@hd&DR-r5I8?s8yPKCo*set-X1{)w^N
za~JZvFWe8jPzW~O-!PC54&09%{vdd`(7!ns>M4l53v~~A_AK`t$oCxh_nxQUKCy7<
zrt?8d+s)lyo4xfXU;W}rtN5U^_ggQ2<K??YzIO_bjW#R|J^iDd_dAa*cb>|3o?7Z0
zTR4gux1PAYW2tl7!qGywXE{8W4-ek%y&GTLbZ6q;KrS-!lklNp9qWBY0L2=*mP5Vy
zQ1826xTohrz4t?-KW!2pgxlUZ`S!`8L+Ct8Uf7KTzwx^^G#BkG+*52}p;4jO4wC#9
zZ<zMv>z??pKN4tt0{vbiOZc_J?o&?-Klb^LZ(u*(;5_cJ|G3RVaPQ~<3f}iPk2kvC
zucNH@H;isRwcq})`|T)*>{9=n_P#%!!Bg)ze*&tK_HOt}h9_RPawk2!tk!FCMN^@I
zL(1thQ*`){er~$@$SO3&o0khpC4E&h96aV8mEn>{h09kc^Gx+qM`oER>r^^@j27Pf
z>W<-S8Ff-ohjG;5p+{2Vg4$@WDJ?m2%^GB*86vMyKEH=A;c+<xvNkMTf?raK>)f+!
zdM>|84caf9I(0gB>ddj&p^@{4kDogcJrX-HcK*n77e-F;Q$!_;+Vo|TR5zUC$&93%
z=Lku7m3ufzIGSh1O9YWUV_qhbzHA;a<f1X%Xla7T9c3Oh<x_^s%UY+FXTSNH_n`V7
zT9EmteE}zS(JlxAd}u=8L)P~p+w>vp`8nH>XFGn$0{_8Uf6hkoY=jpb{E+SXg+274
z<Ipd>;e{8Myj}CImDY~s*1h@Gy?8^~dSE`d5ME*j3hf;^*08X9iFM#9VU9H}99d$W
zh5o_i{?UB@XpXhrM8@b(2X-v>FAeO;vF4lpCAR0GYop*>n0UzWDem<MU8PHzqMcy6
zFTr=k>AlhS>PxFmz{TdE&|Izrc%`Ge=)@P&U_)!sO%UE=H5I)C`IyVcoBAo$&usqR
z+CC=;c%wxz?pSR8qL~4*P$8i~xRi=GR&49`91ATB-@==(%}Z>!=yC}iH(y?5_!Juj
zVepo`%J6~EYVRm)iWG+SnI2$xehZOp9|s!*SD^_)3g4B6_M#Kt61D_+SYrow9~Zrp
z^s&w@ML$6S)-u4I#>F~H!X+ber|~LvSR7=wP|@ZW25+bD>G|QqxHS?632igC*g=qo
zFzW0nJhrPAsRj_BnPWu&M~i?GUL3@e;P8U{wy)^rNgrz$zcuuYq1)kn+qR;g=LHDa
bIu6#Cu?_Nc$U^rMJ`~67W1@94*WUgIiV+B$

literal 0
HcmV?d00001

diff --git a/__pycache__/logger.cpython-312.pyc b/__pycache__/logger.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..94c9a5fce5cae8349750307170c0f8cdbaac25a9
GIT binary patch
literal 9819
zcmcIJZEPDycC*|ixg;f$5=B{Gme!Uii~6AL#EBiB9ow-b+c{ZwZN*8L^U)M{DN*5v
zGP|-YMY=kH(JHtgCl>*vLw!A^y+aiES_nmfra*uAip#I|2WdGcVk6@m+~r69(UA`U
z(m#D~mP<;uoEAkgz|PFhym|ZP&71eN|5;h-Bv6vVPZK|CCFGCzVirfSv;Llika;4L
zFp)XglH|f1Yb{|5YxywGS|Kd3)*7}#%O`Cqd)Ut58X+mB9AQVw8FsRFYm!g7!Y<ag
zB`Z>u;Y!xGCxw(d>}Gv2=}CFRUe<Rct5VhB>Xa|+OVxyH*q9~hPt}HNIil2#hD?&n
zZFn1u?<v2Vy>K0jKV`m^+i*RM?<>EXy>J7JKWn~~+i;`O@V7*E{=yP&l3n5La)n%}
zY*(6O_f0;*!J9{}Q0kRN*?Uu9?-j$GTqRe_J~m$iJ^xK>xLI+?wTesLrnJa)ie0Xk
zEpbt9xGvl(ekv?&3DLL#V#k&cO&cI~Dn5C8JzxyC%FRlvT(7jn1-a$A5Dr+#Ng_+v
ziM&H`-QtaphTE0)(Sh<_%^r-NGyCNhM$ebu%$~gSCLivUJLOjRN|)RQ`>R*l;j007
z@3s)7%iJMH;H_Kfxy2c4!y&m#ZokfjcSE}i)^)&RnX(fCtAp3A;XRX<VE0r@e`a_%
zksg*}nRGlcJWiupB9oTl87f`r?>`gz60r>gIbA#zRY#&jNhN5}9Z5PKiA7^0if$i^
zQY{fp0)!1wDHM86IT6#2GlcLaj77B(96h6GBN=&ca!d*GI)5xZsoVP#nnI&VU5G_h
zZR$v%BdJ_blIdtl393?{BdW%<1na*R=!hqhN+KQ41l5B8mq;t=Oi;cAP$@-Kqr<Rb
z${k4c1Y{|2>R{l^!N3JwxROk!zG=lelr%OP8P^g?H8h}1^aF~%3{6EfpaCed#*$H0
z)$MXrQ{pL2w*eDia>`#^8M>fRC7L=FP0LAGAW#pmMt2xcfI_!2;&q$K;B@PW-WOgv
z*$0@#5o3)?eQe1X&5T8d;WJ<2VFj(avxG#YwFqLzZz>e1xdJtuh+ZcrRAhfdxtdTl
zII)NcVlz5ApHhc)Axei;-9{B{oTg)-aZ1GsJve=`j@Nk}q-C0nmL|)cX>ORCw){Q!
zk2cgo3GO|PBa`GKen5AsS~T`L+vArg;&7x^Ss5B1{)ngB;hi>P)dH1@(~=~8^VDuF
zHMV;!G1j92U5eIob$tJG2VUQ=>`o?zc8^VhJfwHy>FhT45E`4*t0H4Gk=7y%btIFH
zDYOI79YVZKP+cPh8?jbh>-+2exBBONS)p@IyCZZiaVtXSI?R*rZr5}tphF2pv7_zq
zV(yIYf*0LeBo(I(O1okB1%xY8>IF)F_|^~S_^c3|lkW(@#Wz-jAPoZ4cTcH(B1+RB
z99t0UD-v6TFzDS4RGivOuMg-Qcxzzp>8#MbP;*D<UfQuDbTfKEl<gq9F}QEKZ8(`3
zf}3kiW@6Z=vCNnfD=HtrNI=2}K|xsWhiV?gP3B&Qlcbfh1<V>raWf!VAcmZ&!Y&|;
zP=c`njAh2cU@T>rNn6l9)pkOOC1gdK7y+H4P)W;3AVJblR8?dN^cSOs?u8FiBm>T{
zCZR?Qk|Xg1Rka9>reCLM!eG(|lWZRw<_2N6ElhL3&C_UNXk1g|5U9IoGN~jZa2epv
zKZ9RDyB6f>)7UQ!Y?hSTh&qxPPs(^{BNGX2Bw|o_0M`5kJZcYA*T{W)#hiG@UUyGC
z^|_~Y#S_Sifjo@a@7TB96Hk8b*}39r%ZhFHT^>V#U{$G<91XnI^F$%wU=VaJz_9?1
z-vkFj5oD`km2HYmw#y=zNXK<s*#5*>C(MdZoOQvhV^R!O=&r~`xWoNSWkta^Ax^mb
z(m+O24zeD;4UQyKiD_5~I-}#NhKB~ybOp~*1EV0ZTLu~z)Lp2w?qx-a#<X!@`lJMg
zBsL<!flDc7N>oWsP$j0p6r4GZzjhfF30#1XLCxh$uU#skN~Gb?K%d};qgOHsnHjw#
z*eW!Dcq&qcNfRh18l?$EmDF+gU{o!kxD1*J4qv&dDQQ&85zq?}&|?`I8wnYfrKp!L
z8(W~LZG)U493=&5yh<=NP|^W-bp&{rjz*E1CtB$`O<Qgi`zkldX+;l%z=Z*QZJFj#
zU%y8{Q*%Mf)K5y}9#erMOpyX3HghJ#hA(wXAlI<XAys)}TuEyZT;`<8m{G!lj8(xT
z1J{|Mm7){|z#6BK^D-E-F}N8e@PVL(qFghz{gI#xs*;Qw#(`ZCW+8B=C>Dkyb(WR=
zRP6>~GKgfVY6KRj$iQplp__Qy7nQr7?tDe{npnTkw#aA2u0{E-*tJ=&es?^bE^UwT
z6h-xMmg4C5%26~glv%>f{Bx8n(3F28`%1&=2JSgGaj$NnW<kx0or{Ba#m?`Gdv9;%
zUeN?S&cNct_sT;wd0X+YVxwW4s@urMjWg35IJsF48y8M2wr0hiCE>2vW7tclE=D5g
z%|;@+GZIN<<Z<xeB6>w6@&>51;*32KkuxzE=E2TTyxY16>gxhpRQf!UdlW15D?TC&
zF}pSNAdX@cfk*u-sIHR-7MoQpRFgx!+*iEA+MV~+7FgS|%V_r;VC{WJ<+>H-3$>(=
zJIj4V?AES@3k7VJ>R9t}2WzqyUS7x1LXC+tRKyv|8#qIG17`?uJ_MX0gG3|@tm0<+
zV=!1MHs~=2K?WPWQQK)~vsuwl&RL0DF!D0pfEl9UYF5-LO*H$|rMb+$%-t&L%(uBR
zG_`3JCInz9ubkJ=pJ!#%Yxc@*8Pde6dN+K_vSGeRJ$%(?t}oBZ{BML?MTlp}45#@`
zm{IinA1Tw^C~o_aVsgQxWX2*xUO^@%UXEyu=90g(XlA!GueNCDu(KjtHB`u~l&#FD
zR2<sSnAqQj_+SR3ht>^~#jb2il)f?=czoWZ`~<lK9`X!7&2NdtZthGL(H&H|ck5)w
zG%wpx_r2RJz}IPohCVne)5L_wSY?v5lD)8I0$j&e!6tI#-Px=Bt7L);ItQj!E<#uv
zIevDa@AS!+&i6+8&z?Madf=p_T!|*f!KIVYJBUY<s$!T%23`azE{mKyHh4;!h^o?X
z;);?ENl%1Hq{foyMr{4fkaRAofX6B+X^iZi03|^vKAu(;?TMcWO+9-Yol7a5(ZCIk
z%IFJk2<k&p9~f&%&HyC{!Xn6nQb3)uj%)Fr1K<FQN;;O2!3~-UolXNMz&CmnNAFee
z?~y+k+;>aEfGD7bD2gYGgr~M|46`2#u&EmWgEhK<%jrp6g*h|5c5B|~bx&fdUU7ar
zjah+SN;6ciJ<;2D?4|xe^B{|7MDb$lHnvq&7eJGybzxM6KpFy;s0>38%geemp_*Qy
z?z{*RP{b;rLrRY$4j$rG-G<Vks1%*EprE^p%!wFT6J5aEgkBi~uQrn^4$^9XRX5w|
z#^T&KRU*i(2+d@)qQgjk4DfTf#sO;U8d>w#-)z09E_B@Z@rpliZQu*nj!)a4UvoDU
zEPUlDZk@M!oCRWaIRES>V)I)4?pgO2_Len|?`Lnm^XA>gr|)|9tyMSYy{Fc^9qU%!
z=PnSw()~~*?&`bMoy#wOT6y?(&03T6%NKwC;-dE9<Oh@g@a9U>)3ay3=860Hhc@DE
zSm^mp&0SAut-2}iJ-X(tnY*;&ZC&+t=e*rzj0KT2?3#7o_qVS4cjf%MmMWHqR{YPc
z`j6)PM}O~sVb*cqRr9mM?;Kv(w&L264V+kUoyhO#n>{@@e5azhU?;W5xd%=n)~<=w
zbI*S&?kw=|@^uRkk*z%Zjf&d(w?Ak*(a!&_-FjlTT^G=7Zi+N9@?nPLpP{qSkc^fL
z2}~4ASy_PcEt!{5JlRLeW@Yswz%^r;;WabP0@r)mQZ@n8JVdg^@0lq;P(7fmv`Q1P
zhL?bqGVBEi52k)Sh(S#>k(S2B=~xDILM9FY4Ma-u@ifFI5Z*u^G!uj!AUrS?#jDP8
zMCgt?nJ=wCm<stb86v4-<N{i1(g2=Nz_m|HL*Tg^2owp0PeL&)Vv<IRkxn#;mtzuu
zm2@dF2rhn5G!j#wCv*o~i+)A`WNgm#4xT!D;zDHbEb7MNr*tdi^-_?%0<{I{HA<0Z
z6i<@*E08-wmxX1Gbe9p!F*ixK6$87?*T$7dCra031XlhlJSwJEAsBEHw|}*=Iak@d
zpsiH4UF-W(%bwMiXLBvj{=VfvPHdcY&0Sm*J#)4N*RR6MwvTNqfg_)aM?uP@=RnFU
zyzjdfF0Q!RvO=5T{$ircELG59lJ)O!vXH}o6#W%4$I<R-%T~#=t>kUS3a}+PGZBL<
z*`9!-<k)P0wNG0|OLA8p2PrCtg~UMsBP!KL%8WQIzV+O+_<yF@0kB(9?0f=_ttfV-
zZL(#?A@eg%XkFzyfH@xXo`3^XQN9zSrQ1>7z$l);BgMRzqb2vM3?N%gj?7fTY1vpd
zY1eecXvxhg!%kPiuLt|I9cppf3bkX}hCd^wU2Md`Mx0Q)e&IH;awOgUE!Zj^!&dq2
z*dBA-O75Q4U{Z=fzNt|zJnq~y7|u;A(Mk?v8=*WpKks%-kfQ73hOivd?8zjR0I_Z)
z#&j+^RTFr%XLH^>6o^w4mMMpH92TJ7nG#T`=-k06n-r&+6m*?amC|{ZXEsIv1OS6>
zNSuS2lNH?+%RoL2(gdKdbuk_>a`w6%hS?A%l&Pj-;sw_XL3WwqKM-BS6g--Eolj>b
zbP>X$ID55DP*5zoV*oHR^H1@zLO7+-XiR}$5|Fz90z}Y^5&Y|*i_E}6mPoh8DUx9Y
z{g~Et9@5c3l1ZGcNSXt+ZIL+m8K6asMU_V1gm$sl;u5zpS6au#b&IB|D9Wgl%f*P<
zreK_6^<VI)Z!=2|8NRG{=N<db`@XvQLpKhs`nqzyu30f(RXg8&qj}bruc@E!ztO*1
z(~+y`n04em+g3e0bDo`x2kv^h?^je8gzb*1e0}pTn||Ij`(oZxpY;UtQs=6)Hz(~~
zl@8~m!*iAS=8o0oy}9PSbFTc3uGJk+<#s%^y5nGO$H5zJ$f)mVMUWPpY@KtjRr%*e
z7WunXZA;vmfBUMxJ?C#<^>^m{oh$zCRsS<N|1;TV`&ayD<}7(%-9q2r9Ld-C=TF`^
znQz>_&{iN^OH;lnu<(OLdFjAX=kl@T`0^|H25GT5EA3epmM<-zy}dWz*uK!SNDFqp
zzU$At)n8k16MyahillkrC)wuElDvF)dH3zAjYu9MlCS-wI`FWaRQTRMv{<)vV8yjB
zEA0Dv7mQ}B+Wz~YM7;H15sRbh^9pal3hg&)H=M<9tB%$8ddPotzCe0;{&$@synMo2
zdn@dph<5CI9KDVFCk-6bdL;@NN)MAViaCK&9uN8~hsVrDI~*`LBsj*(D2_f-%5f^h
zZKb)<jb^AgDqFyLDY_UOD1~cB%W>^!DUvOrAfv8w-|YQAR-oNx#Z-c33l7w`$IK-K
zt<{(~HYzg{4@7NzP>B8-nB~L^(`&>-c&RZn3$75{S~^+wh47-IK0-AE!I2Dq04|$1
zy_k4q`DXB$##JRgo@75XS(1^(MesjvSjE69M&Ylfq8iD|%bQO1GV{2=Eki|unhn#S
z03qSI7Z;SiX~Hs>%1BCQfMDjtf#Zc_A_mk_A?b7+a^q=;FB4jE9oseY#5N-cIoS+m
z(hV<;xrD~<!5thyH?4>Lk?WSCY4r4P1oG^_ALQI750aspNC4+XqE`?fJV;P6{FFn|
zSr~(VDMcg<6yrtk8Kdzy3;v9KPyG`M&IZpPJKh`VduibK;OVmixD_Li1x%+kNFl?Q
zAUmI-@}tM6TvcNDH$@tnl+LlAfFa}m09&IbGZPT3P8b<|<Q>BY=+$v>c-3Nz4phO}
z%3GZ5hJ%Iw0?EnHRP!L)DAVTb3=tVHfd%^kbs*?6{$PecN@*8Vx+S9;A*3Bn(=cEW
z<Hlo}Zc+uKq<~`!>|-W~sdUJDzk>)^iV&}<nci+N_)@e|rbo}r6~&0}Yk1TsRN&6m
z5~~aUzZEPNM<4f)7pyjLabXPpA!faMmV53BNAq@1*1qjeKL7mw8~f*v+&J>9r#{^O
z!Tt}Ad~oDn4y?2uTJas871sni{vmyT+s&rMndOm{sw1BYM~$?kg}DImSAQV5m-fMT
z={QywutGBEPqBIrD%}&y!0#>=fvBPAP|QeAGCQedGD(%9pJ=cEy}(jr95Nzf7BCx(
zv|>oDvPeL;K_BFkWdJBDDHa>(4wgYs(pMln$C{qOsR6`Wy(t~g-+QsQU-xYqJ9oaf
z@ANB=3|<&K-+SzgZjbbxJ%8rdAb1KVjtzp$vNw7T(X&(pB$)_BGeB8-_!NFp7=jHN
ze=;za`A8;{#&8T{c8U=R%M}<x#7sOMD?N=>5UX8K>Ea<H0sK7uJ9q_UN7OnHlLF6i
z+yfio+W$yApApw*#Qhm@d`6u2NZTJs$34<;j|A=!-#yaw2NKAUz!#+Me*N~<`hB_j
zeOXeQZ){m@JdkTVkR^3_fBmYzJLm7tlInbI!)k3PR~yO_-^M-|d$BQVYXl?R)D0CR
zfqBA-5XXC^YZcHqJbC}Y{I=G7?e+(Dp~_j{Z9ZGU%f`F&^(}e-u6%9qfy0VZ_9`2s
zn_)?P%YvBqH-Q^sF7n#IpnI$GQsBYf`UVS-S~x%~E|6@lYaw1B&@4U8n&qpkxqSi*
zGuO4wn@|O3vDdk95g|I4T3NF^!kXLr5Wcen-&un1S+pTU&l04xq4^k6+R)sV5x%Dc
z-vjU!zN~L|&b8;7Sg^S`?;>Qqp;^+_v3c0k&V}aM9};K^7dhf<UajuPRd?j8npUgY
zb5-s6nwHg??p#eb?AZ@HtXg-sajk^`&dCMlVg&-t!t3kUJdl9hcggn89W`^WtT>vl
h+170x+%pd@ay8sBZV6zq{rJM|eg77I$ofoj{s(BjXj=dP

literal 0
HcmV?d00001

diff --git a/__pycache__/logits_process.cpython-312.pyc b/__pycache__/logits_process.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..62c9293800f7261a7a8b42ee3ab1ad15cbf91d9c
GIT binary patch
literal 4754
zcmai1-A^3X6~FVz?Dv`vW5WW24TJ@=Yda2(2{;05Cr%Ac3U*s$ceLyburTayW@c?e
z2h~mUuvV#p+XrJ+m9ZKrYuReaOXL5cFS}kxY^JG%6!#%gAJ)ZEq`tK0-es0GCC**#
zz4x5C_uM=8{?6~5`J2b%L{L=rH!*e}Lf>G)E>+u|Ekq%72VFukk|`C<QxnuYJwa1g
zrd4L1onT3yQMm~YbgatHS4~t=NTC!#aU29Q3O8G8o84)r>Am$+G?}wA`_)#MS6Nwv
zx0rA#tm2lrepuRpWFB_q!7IpBN|h{t<igSvFFQVFC%iOz2g%Nlk?eX%m-ag0TVR6j
zZ?O=hEnzsKs*y=mv4k<@!;}(_DnZI}j4vdWK{Xc9M?rEA#uvsDb4on6sA!h&LSi~*
z=<jQZsG{o$&2mgeWa)ZBlXc5sl!x(}Vx+WqbbD2@HogM}{#$M24h*PE<>7X_M4RXg
zx|%|0iIFMj#i7TVtVYXpoRXO(&g4vH7TefWYzvE^U*b(_mfJM|M3a}<N1S~QOI2XE
z$7FSC`Gi>|^Z3+ETCO5zNu;@x2*J}~!^RFWs~&Fexk9%+$9^)`NoM`rq-Py_?4fLd
zLd!`OEnjDm;j+h>^drHxGfj=5pkp*hpBuL*(L(3owpc^CVOZ4>S(fyq5{*SviJZ8u
z;bZ>xzfj=5Jmm|KVzM6OEmn=`hQ+J8p~aFG50{*f6^l`oxWz}3NhK~@2S*b_5&0+h
z7I)omP|yT0uHl!_z^jlY*!C?y-bqqZreZf>Ly@Rr@g)hjiTR{q`AcnSn|M1qHYRSD
z|MZ28`D8d5OZFHMZCWvUZlq40dUNii5>{iA;pBoblZc0}sp@=KC8&eN2<$@11*-+d
zOZHZD>E!_lP1l-Xr8@ZQ51_h<Uht@+>ra<&j(k(wloqxG)EdgV178J>+#Xv$ls;Fe
zYh0bVm$;kAH-~d|;q<x9md=fqaIPi1emVR8rEE($-*OoyJQq-1yX6-PwQXx3<Z55b
z3_PyRb@xC1AlLnNzV_{}YwNQII`g%`M`P<vkG0&fp?uG9zIJ%i-?ZUx%lX@~?QeYP
z?|t3~%NHG}uK7g=@^q|^JarFcUBg*+cnda*qPVgPzunpTGj#4C1x-*gnxJW<fRos8
znP6oa2#Zm8_z@5j8lYtsXh4uT#Zl4%VK`^^+opF~pbzKlfgRcI0g(t`!Sns|WXBW>
z6a!=<yMThKi0lU0x8MkRw0f|#$o9nIQ`5Fh0;89h0mGLtg9x2F$fQgp*`tA(K`L{_
z0t!;#6(uM-Fz-l{KvdW}bVZ#adL7#nMXd=MOOT{kJZ4DJ;-T*adB`4f0%qtK<u_5G
zsVmJs6&eahj;7h)dbJj8%$JPl#<tU8ID=OaU}`w>L@S926A*c&e-W}X(JUx-mz&j~
zubj0#0EnP`vlKGQWHxJKp~8?!+Zb44z#8_iT?L5r9wyQXqG9bhGK~pKqn4}pdRn0?
z??<LF$<Cc2vwA8<RM=dE;{dW|Wd@@V6SB#<;369krd_yD4thex+%hdz=*m<`D3yK>
zeMA`^`_(F_ct`irj3tN3nEVa;1_{8XLvzFFc<uQ+ZQKQV|Bh_;7Qt?miPAXGF5hP%
zIKVjjVMU8i!(>R{p-mb{n}wjMb%6F;3|bAF4mz|$&{)0_6w9c!I3uA&XDlZ~)&y`^
zY)&Bn)-Z3u!&DL?vrifu8N6`e?AW+;;o>{z$1SfkdiK)zj|VT5<e*bKj2CLh6<*i!
zsb!QB=dj#1PZG>}wkaC|z_c-Ac`8Q7WXltY8Yze@+f43LZa}Cp6r1QRA*M_75hFUI
zW6axBUg2#~NGX2E+e%~J1Oqw;r*sn)oyhI~<n*o6SyyYp?cZ>VIk%YMvu^RJJN&Gn
zWuu`h*U**e%{LrR`!)mOMj-Sw5K3S8+E=~OpZAGtgHL?z1^<C(+w!Ncul+KA_~hf(
z+~K#L_};=#0xfIqe4uBY$_0+4M+$+?Om!}B1oyf#S2LrTi`hUwNX=cD)0vTMb6@)6
zvzq-YOZl4iM>QEK9~^j6Gmv!;WNQYV)dyCu=Igs3rPif<_-wBJZ2H}TyK!|S@9z4l
z^XLi-RR6@^wk~h<p3n83f6mYz?^AbIu?01Siyf%?z-rsQ(A`jOUuWj++`hgvzv-(>
zdkDjfzQl`V5($+^gxU*$GDVyW!*g#cDHFsGQ^^!%uy84)>_sJzS>apXRUR=9w^s(H
zE>qOr?gnHO21;NI%(A4IOqq;W;_5&~CWJQfRxDVlwny%?pmpy^cF$yqvmRp+L<w%R
z<a(6lyq1VYCM6y6R|pfFY(REv@v?F)7F9H0KNNIYoIVo)ZM_toQKEA@`HD1|NX2Dc
z>w;kxN8Hrnrqo2l(E30{+<M1lwH|DZEBPaKMGZq-I|`NMs`Np8vBY&qjM9Q2E(Tu_
zo=5~M)5gzWxc)1sz;6V!KXB*D?JH}Ca&_%#=ceG^5ZZD=+qyF=v^^ExdUmk+UgO=y
zf~P(`@@d^?jrSYZFMo0M^Q$iyy1|)dm%U)2srCQeDG%-hu5dip99nS|LdQ2kL%Gn<
z3VX+U+q?RUC;sl|Re)xKS@M!E;T9*07!g~4h3XEPMmV$I3%h^@pe+bo4D=vj!`Z$}
z%|ZOud6PA%xhv44mc5Wo?}hDh$boEHglzgX$fohplCl#R!6FV<bvs$ROq<jnkj$7g
z)UXcJ+#kz9=pzd7!;g}zda-GIMiJ*BV^&3iqm&xa7DNmtF{X=)$B&4UDMK`1&{RTI
z6W3$$X|a@*i`NxR5lN;#6;os}qKklmK5_AENE}qv(kL+|i`OD*O3_7qCXrHQaS{y2
z4P{!<Kov1!`qTp0>=TcQ{R5>rz~W-RXi=dcTf!br=t?oec^TU}t7!?%#vz8FwJ#Qj
zRbuiEvP-BG$X0P!*ab=KNsGr`0m;1`1z)oMYp5WB3N&YhgB4u;_dw^0P^f8Kjr^{E
z?aj<${_v?nZTm*;kzDPO%um0p?S0OnreKi)T)lvB;LG~NysH(M-PQheb)ZlkUUz29
zBBJ}dH@o|@T?5cP-L}~lTI<hzSah)aj&Cu1jkkz+j~9%%I|w*~ew+cuBlC(RSx!lU
zn@p*=@0O$wA<mVaXs2Pz#Cx?6?qSNY7`O(l4T~(U2nD##Vc#ED;`q~-FSS}PevExs
z!>9HDmAnFHpCtVy73KhPFdw6@_BXDc`~CdQi-o!aH%E&s%^h2lGbh%W2dC~Qwh)L#
zp@rMOd9Zcu@ZF{&2mK<C_U+&Bx90q<#VRZd$m#nea4WFoz|s)q<A$j<WuxO{uH$48
zVd?RiEz%Yb`8e<TVXX8%ZhL{7(*AH}4yWUb0&F3|#}aWp6q$@_*wM%vTRbo&Ku^Qa
zD7}6w{um1xS|qMdCA4{fsFX5dsvatT`D>W}$@yvT;@*3>!e7vk$4HTQJYfK&VJWx)
z20lp1S6b<meuPKjEPFd|?=M}|Y3&2h;Z#ch45}hSQPg)lqQY4e`UeVpgWUf_eQ-XU
zCoQkMek-<GcQ0@^ko9zAxWBj`xU-%UIrfbL?_FV6#%?=SPpmO_Ppv7RsrS{a@AdUd
zUtIb8O4c`+<A<Iz6dW5Mhw`r++(HaR7X_B8DS8i3XQ+a&W@Y%+LXjat`>|4IlXIlQ
WIj&)g!|LyP&r_85-w4;_Mg9ls*Hn=J

literal 0
HcmV?d00001

diff --git a/__pycache__/logprobs.cpython-312.pyc b/__pycache__/logprobs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..47f52e4a545bcb2c27542d9411f51730d40dc0ae
GIT binary patch
literal 9992
zcmcIKTWlLwc6Z3(o1!RD@8{@g(N^Txk!4GXAF}26B}-1^>>^4HF2xy1wE2){Mz$qL
zyK0)EHe%Egwy0?&Md%_$6gUg0j}Px(+U-Yx{%|a1$qZ7gf!zWP+7Ei=-8TJc&$+`H
zk}{pg0=)q5+`0GMbI(2ZyzUwPOIewdK#8#LhX135kYD4AUOc(Rb^}AmUBVNdiI7Qr
znj%cpG--;OC(TiIl4Y>Z9I-^Llh&wh(njCeh&}3<bkH^vaYkK}E`|tJ6FEhA%R7X(
zJ}_zcALN#qbPHvIM{rM@>Y-<{JO^t7Si8Uq<=Fecykm}6@Cp?|InONG2tf#ZPF8BY
z#=DPq2$j<&-uVtYSp{t$v|Z4y=G{W2;KMn58Q}5Y4Bi8+8rmusOhRoQH}4fZJV5ad
zo|*RWm4Kmcf${skLZZg}X4QU17R2CGM98(|xTuz&pO>*~Lby6F#6p7Kq&oPZ91KN*
zlB8Ou!$O4jGpap)O%NmTARj_xddY2<Y>z<CT_TW4h9{GzH{d8H&A=23Z+Znrc=M!H
zu<>Tx2=uYJKD*#B`YhPDVD?*8+h}}dPK-}2{^yz4bX?-5<02=`&&|a}IUJke#^;3C
z@EI-?kIn_<Fc8i~G<b;%#&}MSUlC%Q7>r$!`kYP<%CIbp;i-99kcQ|x_T{DwaTjNe
z`CNRO3(dwQm`;%xz=%wPycQ1yrzrBBz+BIf!~6Wk6kZ6$d4Ug5MB3b3SJ4t&IK~S%
z=q%NiqiIZKaY41L2#4RP+5>@DFe(HBsxuIX#`*aOw%vii)%jo~H)0C}_;?7qEz@vT
zvRWPp1Y@zd44jI`q(DG)1D92EI3|l_v?a;n$7CCt<bV42%F(&KbK$uc<e)es$S>TO
zKR9^k%0XdoBs{fuZb6=n$M#-}M523jhWE`ah^U^lLT!|GL-nWR32U|3vtHuy{mEFS
zwsB?TX2&XfYxgGGnBh8C&ab|ds9GD^VmrlJeR7ddQH_U@?MGCvi-pQWP^>;NJ%BMR
zAXpZ`hT0(5c{2*pGZ2mf2r7EdKsXB^s31NA;Q|PEZWU|ERmu<tZ`1W0sIixX^8j3V
z5u5|zc&FgidU+Rbn`U`8Xm15?(JA9`pOgZyHkFsVVakr8aRIDHRUv+g&B>QhYtq1b
z;90}F1RGeGa%k5Ibzn7Y(Bp+QE8bxZYgZ2=l|lo|CotkG9O0`3o6vwe1uWHorJir#
zYv9=k&sumk!LtsY&49N>@FL#;vL1R`7i|7U)%|KDD39jUHaGxQgz5nH>Z&QBh6Onh
zt&${zqR4SBIv<h4bD;5aVmKO>!`B2(UYG*~4okAG?I+MKhyoe{+W!_G4#{u9^j<Ev
z;H68woID$rIJ9ycD8PJ3o)-mJik}a`#8W3IF=+2*g&@yK;h9)?Ivfhd<j6uFH!N{s
znVSYuWg!OOIb{F}!B9o1qM^y6ID(M~Hy4+HRM0+Zo~U60SS0Tox5M>>`-DD<MOQZ<
z8;x5a%uBtRh2!P~v9PnqWJrE(`a~SIHWL*2h#*m}%3$-PoVDj7LTpB!&6&=*fW8(0
z$n$f(#<AphCvn%~^AVnl$07@OCL)-jkO1ctf(^>RAubq=&%*-_FFtiy2pQ)BY!iZ^
zS%V#1G(0ma<2*SS2IlbL>1ja}iZD=SX*2+GQ4WB)42J|M0NW1ee9cibC2;eScI?3r
zz({b$dD9M<W(0}u2Hi=1F&&F8K4aq-PlCNhmeHLd5};Jn&ef0!^fcipcqtIUsbJ{J
zbzraIlERU&yr7YN9XPGIE=tZ7VS&^AEH`}N3_T8%-d;|MqgaI~cY`6|qed+bzNIsN
zJSJSoNz)~|7x2sFyf7UEy$DRhthl(KmKCu|bqO(E=bP#<1W2{(Cq1TGD4$hNvGl0b
zIz%8I6AX5%RuLpajD>R15j8><s6mOzHVeIX$r8CtyNj#K2(hEcIFlBbW7XUF=YyP;
z*PjeoV#L2*VlF%KFnUY3TqESt9YX#HC|Ncwn*p!xPjo<dmZD|J@F}oLNoq>YGG9iY
zx}y}(OD^kiY5~l1FnJ3=a?K)4mCuep2UFFvka<kE*I3+P&9gA2uzmkCf|%2^I5<29
zks7b*VNT7#T3ru=wb3Pu#&)P;G2w=6n1(UGTWkW_RBMo;P|aYZ#8&LFgk>QriEtAj
zq6;eyD?9+P4J!<4#Ac}ctjbD4WLj*87uBxIJ)I=6(1%f=Scl+UP%ZijJyM^x?l25U
ze+ShHd2Dy5?G1{(A#HC{>}?-*B>9h`_oJKb{af|}U%0qT*HF6an9_CZmtDsdZ`-Op
zu`A=Py6ai<q`h5=w<|fj<=u-tWou<=Z>QqzO#bkr!2Q6M_W<@f*PLl@8%#{@`l$DQ
zuLhg;b|~JCw0F1S-MxM=z2}&+=h)}o;jDvnpJ1|1;wVeo>lAxk+TN<zTR$`>M?N}#
z|NJJm|8x6GG_ndA$_0Bs<)SM3&!AHOzbYyl%DKcWnU>5;>;vRD6i`hGR1@BoEz8zr
z+p_(8sHY__z~4hXtwpm+sA?&ZU$Pa=`mPFW&(FF&PgSghLYG?a4^**hPLyISx~_e*
zVo~Lb&x4y01#oDw8Dl=`Ah>fuj0$`>DCZp~Mo$pD1jPj{n83xx{0^$0RC7d(L^b6!
zFNWtd)#R{`DkRlKhuDK1RBKU<HLa!Nete~xOqCe*S3>c@b!eeFs=73d1ScoSi*+S*
zm5z+!?4LokLb5efKc1(uUk(gr+|{c$lGW>;-<wSbor-(^&C{zh2|0NwYb9kBcgAjw
zrQL0cyDizX<=&HVd+(gTbw2Ip6gQWw-E#Y}=j^SsX?L^YZcgx9?hfclyIU1^Yueqd
zxVw|fpSura%K&%Q^Br`x(4C^TP+jeZ2IwjSdgDWP267MDyR#HJuG`ftq2~9*$r})#
zejoFj4@dQgb<EGuGxnS50jhPncm*h|5fez%%1THwoSAlFR<P)>{tm;cbp`=YYJh5m
z{JQIK%H4*{Ja_9{s_uo)-F;8Yr2B|wzzR2u*eO$bp>dbU#uzZAka;kQMOVcM;%63L
zJSE5y7n_exfd_)n)QI{Z{Ey>h0RwVS0mDuCO`2Sz8v-Vv_)557ZgX(W2A32FELIhX
zVy<@@q2at>d%r2KT<uT$x)fj6W_fqY-c9$V+I0eoq9~Y=i=v=$mn@KvnK2QaG*Cko
zXg{<i+^f!HS0Dfvb@YiqOR-uMj9@S(p)Xh=nc)$Q0!E@s7c!1A7ex=37E$zy79T(?
z1&fOZpyT<AMiD%>=+I$pQ439X6zv&fGrI6U0qUYtWn_amJrgI+f19CPV(_jB5@CnO
zj-rj}xJJkwQ^*u1A=9OkIn^o=Coa)kpNwXS7QkG>8E8;2R>IsHV<loYZR`_9&l>*J
zbo&$w6fK)33gw%Tjc87%Ui=$atwg-6?UAQc)7ba9eBjN<sbyBi91Jbrgi+(x3~~!@
z{a}c|tuF$<)=ak@8pSaCxodr=*`>G-p+f_nW+|TQW2JbmkCoy%9s7iRkmDY38W}+g
zZ;>1I_7bC8koU-688?HsnUIO0Cv+X^XIp;jVjmb@5$<AAKFXz;j2TE*#0<;BVNx>!
zm)VcaJKUd$V*l0uLh)NQH;X>Bl=EDyIupAVjD*pAK^l?fLWVfMM|FlJxKhJ)JS2!H
zI`oD&BkaV69H*W;?~hdrB}zo&tU4}2a^<8bLXw!pJd59=nV~~C$b?l#Gz`fITpF6e
z8(Nd<eBN_^i<OuIRMK^@tY9i#)vLn$6I-sfrykPKnvm12`;^vw8(m84p@*I6p|i@+
z+0PCrL$7VszrI~&tMWW?lZFXqbvWxH71bDOC$2&S{o%n(6ZgUSd*|2Nl&0QHee(wm
z_ZpJJ_nI^9-RbrNO8bG0pwfQmsg3Qdd_vfYN{FNZ%@f3!CAKopQ^;G^B`ojHZ<Tdr
z>YCDZyOp}#>j#v&eH(2`UH{E9w6jO4>shZ>>h^A!l)9I0p83+(3UR~1m(v5Mm4VZr
zRX-XS-)y;{42*A7B(5e0-&;-%j4Le{GX00r{Ub{M$fs{S>OZ&HG^+HUTfdrkEm{BG
zrBweprD-(N(DFgwy}tGOjlopIVWhwLUUPC`qdryta;B!??&Y=1$@=xdRLy}*Ye%|u
zztXyYWANddsn%0ZD;&552W+8+_?l8J`~RW;q2=#i-gqI^bZoP7IOQJx`nNB@HoyLD
z6KQ>o`C4rnl~6-|KI}YM$^OFYK3Qx3#a{QxCT9puvR<%FO*Gz?3QaU`sL0!J;Tv1*
zI6-sGm^#YKK6utbANesO9tAXdM8Tr(QY|3GkmbWgjQ9au8{m14YcodPg((tRhZXXr
zr#4l0c++zvWzR(qhW~)^@4Shg+$MM-BIM&>_zEG$qeVLr!EKO_bDsHCqyyJ0@XUbW
zIpiB7e~!}%$Una6IgzrT(1M>oi2Uvx`Jn%TSa1xGZY(?oO1yY>C)HMM+K!-2>s;GG
z>#<GGaLPWc(P{)^0EC9M1Ag0!P@N;p4w;ehC};u0j^W0RqMKda)j{lA4K9ZPXmC9{
zOWsWXC3BZy$n9E)e@#C#UuXR0#VO-{a|XYA!55(7D34}67w`j@q$h`^f*hNX#s#4)
zPG08kLeyH1`C0KWP?nDwsoB%RwqY155)Sy11Ck*^%vN1^D1CbOU*H4`ul}9<_X>IH
zB$c(RSKseQ@adKpm6jJb8}|LOV*kzIOl3{FvR$ccPwv~S?Amm9LF8Qd($_S-@%G@$
zppzn=!<e5FQO3k_tk7MG6<8rRRTdMBnqxpuA!67{6DS1^2W>>&MTl@3MD>m4viAl2
zqIU(=fm@T~@d$i849!ArSHuGsF=`k0Vzmz|j1?%8#3R@`jnz4<&SQmQA&z5(;V%_2
zEmwnni8?0^8qzF?9e!=9u-KpU5Uy+E;#TVrd|&EMnAZk3*`Y6*+c)~Rnh&j<Tdi6R
zt<`U`hn_e|Q`<(>R^!0RnVa(JiCYVs?7$b$)w$JlaOLz(e)YhuE1T@WFIqY_Mz&f8
zS5DsSUp24tYfi=0xXBKFv8(st#jRb(SH@OH6263duR*Em++>euS%;-R)qC{QPNnx%
zFv6Dp&-%CVk*)Dr`XBphk)*5z+TbR9wX5@Md$KlsvlDOqouAzLNkUS}JF*V!a+3PC
zq%SGoZ&2!bvo7p%6Q^gp3|iZ}&6d4cr^&J_;oBzg00dS~h8;<sNU<Y8z$12K+pKjx
zwv=Vq!-+Ri?BVskN9^HT|KTiKZ#mAu3iJ0Hw+Xhl2N=uIZ7X9LVX!{VWUW?9ccLfN
zF`zUYd`jR&I|Ryq6si#XjDiP@zwIAE1s(!wt(3Z$iOzfw{~!k!V`j)Q26`nlJnv;N
zEeqE<)8fzx%wK>u)9()W{eXT3(JpiFaR@#E6_`Fu_y_e5Nua7KE5xozYUK|`N6!ad
z9UZ<H7#%-#;q~$36I8OO6vLel6BUJbz8ab|fkZe(Z+s{be+Y0NB5WsA5XQ81rP~fY
zYCCj$>GqEwPOY4N%)0+<{Ex?1N4D7djLWw&u31a~HVRsL%D*9K{2~0CAT!7r=36+U
zCHV8cxrj61lHY*k#UEfr&$(FlRGk4*Fbdz`@(g$rCVT=v32zd>fabPzbN{2}{@bs-
zdnCoa@~|B$x@Xm!`<j=Zn@<U~;j(V1R5#qy4Tw<TB?qk-<<kXFe8`Jfc;-qEOmh_^
z1B_68*^>7(ya`}Ui!fdHD$CZq6qdY5vD3_w@fVO~TR~2f$i`Jg$0k;T>>8IuSSD9!
z{?oQ(*7KhXSzrMY4e^d5qe-S^=Nz~^+3z^+uy>px3%#zwvCs^vec7?hE<2a(G8%1d
zu49Q^a(-eixKP%?^~|#D1W3nnL4I<9rPmi@<T~+N7Q4S&8c}>17W)d0fQTrtV}7UR
z_^1nf9lIy6!mrwzAW_@jg|B<CLiYJx;v}|92!Qw&45&^yK6fQRzf5Vq$H)|_7MjhM
zTmXiiIajo_Q(G=kXk@BD#sm0u!AMq#KZ1FG3qR@SP(h}!lGv+O#YeXKFKZhThkm+z
z)BV&=J#M0Ry+Uc&y;-qm<?NU4>O14N#uFD4r;?MK?iW{1{>E03s%-yobj!9cgGu;K
z#on2GbHo0y>(iFc?H3;FiFvrq930A2H79PYS8sTpLb9>)_hk^IKXF4#soKAKIx&-!
z*WbWvO#S=2GEE&2^k>?4!40KRzo7u+Q=IcVv&-T9`gbO1N~jqBIMjHY^Z4sU<hoiO
zibo>w$rV2~_XVdyn&V|*NW?^p>N5V;BS<1n*Fpd*-0dJ2OkJ|-z(08Op@Gz_0iKo0
zViuU*B*oWo8nq4=aKv+gT0=b;P(2gWIOy-xIErW>L>fe3=s@|u!>_CMSF}I091&*$
z1Vu}Ne{GShnPI>q5vJl-<fuZ9{)+VcD{1^UQU?yv<oYj@i|NV|sKB$CTv__sL~0uo
zFC}e>SCpEb6!C$(HMyRe78s^`^(gu?-@$FjkTTu5IoQlDLEzMqWK&&-9`-9;M-}dv
zQgLj>^SGj!b}HPUQZcyV$yzN;RnoIf;F0y3n8VnHN7mWOI5Rb!$sa2<2eM{(d0g(p
z*dl9zHc$X>5LRSu_+}^7&54O*|Gi12sweBfE+=t$vMy}7iLWMGhAj`VI-iz9i<-{=
E1H@41C;$Ke

literal 0
HcmV?d00001

diff --git a/__pycache__/outputs.cpython-312.pyc b/__pycache__/outputs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..738ff75060fcb51e846d83b7b3b52c76cb1c6bd8
GIT binary patch
literal 16434
zcmdrzYiwKBdFS%|6!oAb%A&+8QHn&1k}OMpDV7pHQzx?Q)^5A7?O2-kN}^1W%Dq%<
zG0NgL*^sO$DsMk5uMML7s*Mz=2NYO<4MTo(zX}Yzm0NNb$(o_ruws9h$VGwd$M${a
z+<W;DmAG9uY&*8Td(L;x`Of=$ox`7ay)FVFZTVKJZJdx_VnPo#Ewb}-j*#0#AOe>r
z%Uq1(Fm8glDQ2c|bK0_Ojag~jlC~||WA<f7%t6!Ev@_;}^0u^V*&TCJoIUMX_Qt$4
z?npN+`(nQ3=2$aLJJT)8t+7@bcct5w{V_j{yVLuY+hgrC?n!qn2Vwz^n26{VJKu)>
zVTkP)ttRpm5xlPuq3LZC!@kWvB-W+n`XIM?S8kBjY=OL1JulV`^xZ<682o|X!1d5_
z`=DIA=n#84f%@BK)<i6%wa@{%0lkLNK2K|QLf(EcB=R*id$pQfkQ>}pvyay7hP)oA
z*;i9Dtkn!bF2Ad0Kdspdd3{i`zozEEnl%#s6?Q$sslE%Vxy049cv*aIRm>zsKsl=7
zP9c#?B-065j+j*Q$;_H+e@e`VQYtwICGA(%R>UtQB#63GnN%*G&Mqv75)^H^BxRRZ
za<kcm6)AgFR+}y-mRHiEp2iBZ*)N>@0=6pWAlZ3gHJwXc$O?({rF0@GE@sn$D4j_q
zF|$c4cR|cS%Q9eEG|c5(A}1n{lWZ**)E0*9+=ujSB9a&<keKO<u$5zG(IQ#}(+S8C
zZ4film|e8sBthCj(+<I!x6`zZrkzIGj%mRfbBQ(s=g@F&pl!o?Mvha<@rYgn=b|{b
z*fehvJg-<{KEW;8Ant{DGb~P%+I$*jFD>R$+04b&+zKpFFAV9*qR3}ylE-D?v-5m5
zBl1b3tey)Q30`7zJL+=r5Kc-9@)V6>DwPq$8&f<Iq){Z5t58p6Xv&~~RWRhl8#z{M
z0XG3my`VRVS)&I1T=trniKhgam8MDl{25tq=QFA&SC?1QiCpS=5qA{sAV#Nx=K;@S
zM&fEJoyx84B5ZU8`>jn{Z67ttS{G~Sr9`8vx$H_!L)WvCAoGbFFD8<UHLa{<<rJ<M
zpJJ1#H^3((QC|&Fs7%s492t2rE{O>_n_&ZFasK+^8eITcJCuA%=2_|L`Z9E_rZysY
z8IDM1fzL`joAs0cq@cUW#HtL-g{xfIFg5+pWubC*CCbm?uF?ikDQonAp9kV{b{RG!
zP?KP2IDi^bsZ27xDquf=r({<%Ip7$Oz{byByv%x5nTT{&O29xUD`4}0yg{Eb*8S@V
znP&sY^7`(f^w`=mVyczyX4Qf#tvZceIH$H&wvN7~RENGms<&n-RCm?Ps-EiJsWwT>
ztxB1sCV7Ap5D-R$Aj8?|0dSkFlO_1p2Z5||m&rX2*rwD0nfEx=B8%yH87c9fOpN80
zSH@OSD<iptv>@h2Zmb?Xe(c&&aV(v>I<~TwTg+z0o=>Nj$Jlt~(UmpTq3?-&XFb0d
z)w2!(dASY1O;Yl;6@9&mulKIM;2SA8Ms@&AYKGzi1RcuXLIgxV*LX1B1vLP2G(n40
z^zdDiV1^uvp00eMjs<db<)V^7Ajb+hjw+NEg&Z5?P*tTi7jo>7<Eh1B3UVB8_%4%(
zb1vUeKP^Lae@y4?QOe7v^B#!kylOhXFUs%UC)0U%6xj_GWYhWPsCE#vqc@#ziqdnV
zr&TTzu}iJc6$$5E@*~)XpdA4&z7#;v4S+4b6oRPghy#fgDIRaIoO;$_taBZ}P4Yq0
zz?Sg+rMH&0zFH>SA%DpqxPAWC`Hg8v^>&szyWi}&(^CixK{C=;>U*r%cU<W^Ug(_y
z#N&ZdAo!;Dj(6iFNDX$Ex_gV=V@mf}A$SlF<6Wh$P_b)R=^8HVkKR35_S(E-WwXQS
zl6s--NDKBglUNqxan%)%FK30-G{!yg_;ag?w3cI!$AxSX(B@Por~2aYL?)93Q4K6o
zMl5hD)u(9_y2_zi=hN9lPI5ytRa1qcS;ECuEmyPIw8Ue&AHY3AdqgKtYC$XloM`z4
z0DnwAviPiyav$;dUVggd^1gh&<m=g#6<>JU5-tV0w=8!&+m`-PQ*bk<G*KkqfAhk|
z#HRn&6lU}f-F#-FZ9~4*xp_rt>D{&rl?I1z&Tb5ES(MiPZOd@k!dXW*`*#R@$~LFf
zwHba$;KTZby-C8K5%iO>GYhEQnn|O*4tfUFRs^$X2Q9$@S^{V%q7%}td5d6!w0q4S
zaj4!)FgL(wFH#*LpSe<z=+*kd3M-{c#m`h0ur6cEz*VJ05~coPN)W^h?0e7wWR3Y+
zu%NUb##O^pke^VV(nm-9X*}f(Gn`xVT)wSlAVWxZS_(sTV4ld(>W>cH3i<Y$TBG`r
zc?K%Tc>aI`w)AgZ`TnzSJ-hYH-RBCv@q%NVE|Y4dk}O%x&~Tw>xBm<xw@J?6`0L0N
zt4l&Y23-fg!AS=>lCv@_L3z-C>8*2(u-AqNS#s(%D_`A~cw6hmWg-P3H)2&?DLIva
zWdPM(b;jdVRfmy}LN1*u)tpGDBPI!DlQaoH#;)@`V>z~XTzn1~j=z5D5IcvZrvTg}
z@A*162e$m*?|G|d+jsC|Vrq8%=t{}k@||a2dv<f+%>#E1DBk{}C!%;F+n(Vav+0Pd
zOiUWPn2UI%0U#qihF}l@43ntVTvkdhs<ta)M$Sso0n8Xi(2u#c?A0YPnPVe4j_5H2
z$bZ;r2eXw(2u{MEjN1ZFy9G|Whq#-+6MZeZZE45Td1y0?r}I$RW`@&wu1w&wm3xRE
zMh=N2;m-)X7Tft3h*S<K8V^pQ{}Td&3I3VC2S-x0z=5;~CaU^_Q6bupV`*u-XxCy6
z$Z^mdCmdgw=n~zu2CL^5Jz6=BLCaf5s|lF_t>XiOg2kG}CNMjE^QNjcTSTAGDwyVb
zgtk}gv1Y+95Mdv*i8!0k4lJWZXcaBMPC6jox@L-Ws$R{eV(cSv4NgD<4w9%+A1f+a
zmg-`&vlkkg8=7th1_9$EtC<uidteagYWprr1B5M@kE}F{8;UJcu6NZyJs-n4P)<?l
z1nY535b2i(0VSqo5cP|oNW*{7Lu=Gktf!YvWx(7*jUU>tsHiL*H*^KoGp1oz*){dm
zkZ^7IUAtGI(x{_`uCMW8EUk4}*IZbSAys9~pqT?&KhtUX70~5brFsQj(>WOlmf&^U
z#4wb0t%$CIPVrw}6k*E2A_0MP9V~mp9BORXEHg8Iir4IY9^4PvWQv-b*HgJgN@rJd
z)p|PX>F;Po;N)pLD9+}Ck<)Pc9O;JEXY5C$hCw%~wB;MgX3}ew{Z-rEXYRAwu2jgd
zrW(OdZ$7iS98ZEhD+;V>%_s)+RaiE34xo}O^K|xCBym1<0}M(i4~jt5DY^E192A6%
zJTFS|m4uX7*66S}wHqaIIhzytXU4w7>qS}j=fG<e0JA@rLVYrkj;~bQK(gApo3!fE
zwg9jd)y5V|ZPs?ZaZpvChSAS~YS(r%RU%cpw%H_Po@!I=I;er#bY)%CmR(aOJpmM?
zCy|Wp+I6tvWTp%0HVVpJR0L49-LZfm2UD?03gsZl!V;<*bwS{&6p1EX{OhU)M^G7w
z8}-(~DvP7yLc=;(V)2R^;<>@eCXS>)A&DCb$vW6%aqw4ZHNXyw8+O<_*j{l%8CeH=
zD{fd~>kdfaNN8AhLP{SeS$9FoYvj2h)nuf+kU}eyhBXo~&E<!`z)XK8cc%FB3z;l+
z7f^K*yeA8*%VH)6duc$9G^;jPNpLc%9+=|{XuI(&=srwwKuth8h2S&-x*%sTb`}AT
z;2Z*6Yw0NjpF?mS!IJ<YKBgzt(Rox7#s-j{24XS}v+gJwh932n#`EnpLkE?W;nP_C
zRRA~1M?=KZ`ktq?=m{yFP^o$PZ{&B6{PhbD%_eVC*+#ksUbVdLE42sV<1X<BU$s1N
zbeD#n{OQoScTZtrpcER#Z?M$S17$p=01qFpo(c|OW@o7<ir+4%$tv|8!f#KhZ}L^k
z&m1A9CA%}QB5`(nRA*vgK@t~$DJPBn2R+7}h3TCrKy-%O;Fcg+A3*)BM?pFdwsO)G
zH*%m<14SEl5S$(spoFpCbsQmQ$OiYdD}=mg&Q<nyL$8E>qG$~;$iE8hy=ZySx^8Xc
zk61T1!lKeHbFcTVo1}kRx59W`m7eG^sM!FUhf@OMHO^?Ra%!wg#+lJ+5Rz-w<2nbB
z_vg^bKm+u-K^=XB>(=UX-l*gf8cB5l`u!<1f&ZA7(AcgE(ggIS0sf}xY4T03ao!%S
zH=v@Ah_;TNl)3;Tt?(lA5*nm+0ZLS6+Ps9OR9%1)#<(*+<fM)E**d)|;9$4Ce%ykF
zUW2{36sjW)$#rvO3{dyW7P7`gO!?>q5qy8Vyn2->S2@0hJ%Fnolr^fuf`fK0(#$y8
zlR%I%IMpeFP@-=6D)-Y7%!YGCBs`X?C7qIUstpdZm=Tyqiu$Gux0Gs2tgJv@#Kw5x
zMXY)WtNQ5iuQ-HNE~UCENg0nm<9CeBnG=GL*Dq=qa~}m1+SBrraDs0VU|>$~cf5b<
z-RvrMjwtZoG4gG1sc)p%_oUKCSyAYN(1Bv;(9c4LUcLBU?}59MKRj{oM6vhSE$;@m
zF;!~oF1Cf0w(!<V#laKG;EC<F6aUb`e-P+<)Atv?yH6B{pHSd`;E6YU?}Z|F4-^l~
zC<kVK?0XQp^xnkLcU;9|v&ymA?THJUPd^AAECu?Cfv6IQ76TJXVB-G8;^YNo^1_3_
zT&e3ov1{U|T@$77NHKgw2_GqhPZffv0G5J}6@z0+aI6?Sq6ClJf2nx%qH^@&gW#nP
zg2Tn&j1rtFn@MN*LEtb9ck(n>oVcV+T-tO!2plYpKUo}~RmNvGT|Wze_lOKnZCc*+
z-0^IE{*F)eca{f9-|_MR(z5Ti=a#3~99EjcTNi)cJo(WG;U_3lu5q=XT%*hvr}ux%
zeQWxCyKmtj8HW!>qy=#7f|{{pus|J8UA~}lEVWiJdJO7-`mu!Dzb-(I2XY#)7s&Cx
z(Fu;Irn!7)%>f*en4$s-=XBl~)eM2@PulcoML(R*w?ylVi0OP+J*v8Vt3gE9RHr|2
zMKvd#JpBncp>>05Iu99|-a4K4p?A7+finGxKg#b?PHE$NY1f)>%_G(6Jrxb<49s3b
zC5oy}RPU+tW@|3Fn)x$aa`%Cp{1X7^#U8wC`JwNguP}HFJkQ75OYQq_U%Pc}BMzwn
zzQp$z`NIl-xDYx5h@(BFp1xwwxY9FT=$-_`;i1w{v^aED89G}S1lJDt6c;Lm!o|>p
z5}GLV&>|hBj;`D5x7If@NV3-RU7Hsy1^HrdL<x=*x<;Y!SZ}F!pxAp<={;KDY4>WH
zdpA+;aC^^lWwTfJj9ce0MA{lTyqJ!98K*LW02Kn}vmV75Zg~lHM(XI6P(Y~`0WQEL
zWUSI0f@cx*BN#)_ivZ<|G@}F1dWbv$$Nv@bk!c?|!)D0LDXug;RvL(u4j+fvDtGo<
z50``F9QQO=nmqP#2$CQ8JIYo>+enLlL%8KC+cD)JU7=0+PGn0^_8%xa5#=KLhwk<(
zoug$pCOxFJz0m%c(lS`~V!Da6b(DP=YbLFHp>INInYb?~EmP$dM7ENSzO6G#`%t+J
zlYY_}+!XG(%KI?YPQrs*@>`L+g3@=W+<~Y735K@(cc%0{hfll%nWxI#nAt<Rd$-!Q
zl3Rg0b9b*O!SON<rQA>2+RFnNdyKf6b_Ovv%LT26H{q@WKJUP$fX};UcJNa^(ZpQ#
z@L}_bQ>mKb7vYtGT@dFJV3H;QWdvQ1+c^fPTIZl(0>_;h-w?pd0y}bJa0}W6o9LK#
z33hO_IR(cnB<5OkMqH}ybFDcdiFaV>Tqs2wy54lxy~c>pd4oQc&-T0VL*TB6Oz|gq
z&G(i9_kAukp91q9uXB+~9r21+K{J^7p&BnSP{Te}YRNEDa8IpKTY%epxC%#aT7^=*
zb<Pi=I`S1zY`#W2hbhC|KpzayJ74WR0;^r2wu{TL9s&Bd@>=L@l^?>pCEAbqbYcNt
zMx>H(T?H4{*Q*>@`hdZYs3|}Cr99)G)Yd!=YtQUT9%4y6!FoW8h6?GYAp#Z>TJU-v
zXofY`4O-`h1+<RVIo711*4AIsF9cX0YMZB=Ti53(k8jY&di9MmoP4*o<Tabruu}`r
z6B&6KsB+D^Evg%#x(QijaDLmfTW3L4oleJ(AX0PBLUbj$kr4<|8t-8&P^m7!6*OK>
zS5LWCLc5$c92}L3Kn*Xa^`l+M&@ZPAgQAiJb!=~VKu@sG<vrD^f%H`<Bz*<JA0qe~
zf-r!H9bP8Dizy}?_F9O>ms@)+1iLZ*N1!gJ0Nf-W`r0<md@En{^(nr-LQ{C_#C^+O
z`To*Z7&`?L?KG!LJmA`p9^55icZs};z}!ldofdDTY_=IUJMO&&-PfTzQbpQP8ApX!
zBl(rY!U%p0e==@QlwVGeU+o@ih>9opf_Q56m+ctSMN`>{DHq6zvKwO_5I{R#i0uUJ
zI!8yk_-6#O7TbwIq{6~0&%=;)>({Qpz|FwG>BZ~YTE&=CbOCF30~W4d4Xg)nUce!%
zZ(4IioT~3E@FD?U!Y~6U|Mv~}IzG1%^>UAVEo;=!ywe7O=i%BcD@B26rIL&2VNdWn
zU!|ApRd)m^XwC!EPK%iZ@T&_VT7KZsXYaqXOI{%b?l&19HfgWK=yeKX!(emj?W#>0
zXVg4IHI@mUQ=Ijkn*jEDBl9BH*x@5^*N(#Wa93QRf=TBM-{h)XJlvz*ox&CKuRzR_
zd=z^OK5u$EE-z+R(*l20g!vjDIa9SFY(gVecA;tkv9PSVzLZF>if1JWZY~#rmTJqv
z-MgH-XOfmM>8>JObLHxshpVOd)r2hOJL@*bsFAe;B;>~dfP&oKUu=&k?U7gAC3kz#
z-KDs@HlO>cn}4r0Sm=IcyLGnUnf(wRHM~#^jVqz??a;)wZ?fQ+WZKN$*YQyxU(0VB
z@mYPI^&4k+1qz!*LS9qPs8l!GFmXAR7xP{9gR9E?cN`u*jX-wQx-ofs=GM$Ma4SdO
zZux+_hVGm`h<v(Dt3MwI)-^p;)wJ=BU=_&KkAN91fx7C3+43JyMMj4cz9bmAD-=g(
zl+l^O$P@3tV}g?f$4T1zIq)J6Ao0f#3?cvrp~ebFFm?cd>cO`YsU(<ji&=r*V@nd^
z9iZiah{&xmBY}2v7;E(-s8joK=h5x=uMm;H2mtTEt-v;$NV9+A>}xM<TlRloZ7G|q
z*27yP9~1cOn2D{GBA}41schn`;myk*!wq>Dvlyam<E*DRe9D4fww184B>Wixmj%NP
zTN?e9t!NfFdbMn-VvW`{bHt*y8&g}OP^e9sLfeRSpa++3fFD5Qvo~zcf?dL}WcYqr
z8X*XIM<u1l^iAGa1psUV@ef$E*y_R$xVNng1&{qqbHFq967vy<l!uZmpROY=KQppV
zW9&Qv9>6_L!naH^vMly)gYJ|(-*_@BTm&zfWHjROm<^OV28taAm5zh&`NKv3h~gi)
zn<<W-QAW>f`_GoThl|}Ol<pI76Hx4#QF>-d`@+S2QDtBBq1)CBuQ?2vf6rFGz41L7
z72dR8^?Q_#5`h`IvxC0YS4auBB*^DN-;s|AeCeM22r+D{Ve!UWEe1LNtrFXR8ehAE
zWrV7~{`@-scYBC!`rgJU{K&E!&iGaRZnWwV^Y2Y^S4<$<LF0**l{QQz)c<PnETv(Y
z^P^QVl&=@hI1>Hwca4CSmZ7ecLGVokSp+Kps>LunK|PJux^jN@<N29}n$%Mb$7gRj
zd||tFuHc#b&==l%rr3W(=|8gFe{9=#yx=&_cJzKAQ#0kr(kNT|9p$i;0|L^^2<lvK
zs+$_dxQ#_Q&o>-nRf#Z;61}RrFrK<K^{tl*jvm_a#(jQtS=`&G`Jt-j4T1b84Ti!5
za(5#dhEyKJ{_9ft(EZ8c#A#*Xbm7pMcTX04=L(K<bR3T+l_ko`=*u$7jc;I|(7=^w
z@Aj0#bfY2gVP|UPu%~&$`r7007LCebn{^81FnlyQ3^A~snb-|6IUF+NFjzdC^(jpb
zKc&fGY^O1EWXtjha=5E@Mr(vI6*e`?{(n{iOE1DyfuMa2SMVePx=?!wTIr9Vhzu)O
zBW4FaWv(i`B8m&I%i04~vUaHGKcx5%-JdB=oL45!Z~LGAEo80q5_Y;y>7%1TFbr)<
zH?c%70z@_57wFP#BsBG3K~-KB8>TFMVa&{1@K@5;#g~)xS%zlFeq#@bD6>+JEDEu_
z$V^x{wVX;PB>XuK#nzaxaxwvV{PSpbX||`8miiQF_B}do(A3~t9~!;3(ML}WQA3Zc
z)HDoHL$j<gM4fs`Fk{_%yz<ql>)IxL>nxd|K)!!3NvDmP4ir3ihoG=(m*MfGm=~)A
z-Rp?Aq;lf&9+Ix(a`oa>w(UvWw&$QWh&UI~MO?9cTxlQQZl7pqbDrLAJyY<U`Op{K
z{7SKVMCl&c?jD0@!3D=bwh{N1b&Nqh$`f#ZO^1i*1Q?>?+tA^9smDY`drdV%M$F<c
z_t9aNT8y7f+;1uPCJGLAkvbP??8`DNwtCqxjGgF5P<K9YF(d>>vDFEPR30XKT3()|
za=>97M>zl=O%6b;?B}eL%;wUpccjwzNIx>G*C+D-JCFZ!ob{6k==}e7JibTUHZ_w}
zIVGRRh18jQxQe;=7X8DDfB5cPF?vdgp4#@G{;x83It&Dtpv@}gj;P3EsxO&Mr@_C6
zzo8jTTustP9TKuCDGES!qbn=PR6hwVQSeKxt$_QHT_PgilBN*d!q9R05ColjvV?}Q
z>c$_Ljj|_p5;8Q^t7Dk$fIf2i^BlEB%a9VIn)%LtqSH?C^s<@0<Q%1!Kr*}0WYqM>
z!}QWq-A5}tKR&A6X^*07L}quP)RQucZKA)3`AJZmNnb~RXM_4bm@Q4EJBmTJ2k2bZ
z9!}M90{R5MR+^FCgmN&)L=FNhn>mjAwS#cc_sP-sN$)R6=$FLvJ{kCD68;4__CATc
zPfol~hTbO=|K#*<{K2-f=cWzZ(I)qAOoJSl#{l3Uo7`oZyaGQ_ha4Z~0MK$E_M84C
zj&prPD2#!-#rx`&&FKf$$W7BjTQBF@Ji2x0&f^aWM9ZIJL^`-rT$v!$$YAv0q?2<M
zy2tOskG4+1?~R~%fHoO`8}KqgsFlX(!y{O_??~b3GfLlVb@6>1+=c?s3PbGSK`h%f
PcHgUX&HNfEQ>Ol(1`NT1

literal 0
HcmV?d00001

diff --git a/__pycache__/pooling_params.cpython-312.pyc b/__pycache__/pooling_params.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b2a547abdad285bbeff7662ce337cc826a62024
GIT binary patch
literal 8772
zcmbt4TWlLwb~EIV8u1}g6h*zMAw|lf^;Z0fY}rw)*p{6r-q_hR+y(^A8OgNx%FM`#
zxJ;r1UercXL`Dl(MrwrHZUF^eV7*^)|AO|XK!1jo4GpH=)@=e5=@-39`{AGVoI8An
zE&_C5-MROid(S=h&Uw@SWVc%=coNK~@qh49)VDY&KP{!s-X?TzQ9Q-d2`Wj4X&U>6
zgdu4R8<R|!Nt(hY0y8GeVKd;EL`#wlv&q(QD}kF5mZUXoC4F<kmb8cMq~DTgOFF_1
znlezQDW1JX@vVaS3Rh;J`sOXX<+s+mCLI!PUpIzq-{asbT4Q-Z$i&i_^^j3(olm9G
za#R+0%{ZT0*VxxHay*@iCYC}5&H7rJ7ZNAaspa^JW;>rwCj?O+g=o#SBFK?7Nr*&a
za{Ou(R{^yB4dLB2L6TozlQV1bxp;~PpcR+KQ!5vv(rT>ABSlp%j5Xke2~?Qosj%Tq
zxVW&9H-s6%B$y49&~n9DyG-x%#@{k`X}!N}=z$Jz$O1*7l{XzDqp(FVS77E6%qrL_
zu$B_cUISxGu(ldlYYFD4fmup0XU!hg60BWt3FbPEY$Z&G;I8a$C$P3~r(gq~9i<tb
znmwE)SeMW(^a#BTr))>8(0ApCeh0N}ctGd_nl3WK%Xa`jJ;=|pfp=eH?v|#82L&(R
zd5x-!Iev)uTw}t%R*DbscHp&3@blf|BptkA+06G`Glho;wjRUqy?_bueSAMZP}z;)
zy+AEkr2_j80%Vxyu2JEAz*i4Id;l5YgS;Q!p>;!OShJS|=6qC)CZ*_qf^^KEU*s}4
z6l6h^xaG9SWpt_Hk|?FpgvG+aGcU_x{L-2%NV8;&Fj-tn#X!a*88MyA$PqccDx{=Y
z4rEyt(+P>w;pKTC$rF{exc-75b8?y+pT-tMo|7*N`mXyVju)1rYYCX3Zvu-sDV`OY
zQdmU-tDt>cI+a)_WD-$H<`9l7aU%&~xt3I@DVe2o3V29!d|ZlNN<g==b#*!)PXa;U
z2G040z^}!0uB%`!z03*8O9Ib>W=eJEjW6q`<D|7rCN0WbGAfJfY3cH6loN%FC`dvI
zY)0KZrP5+Dnt+4Pa&KK0;DSWtumUA#t!~GqiG6^NhWCq)lwOvT(f4P|9qzq&BEek}
z;C^94{CfNtmq`dwxPJTu^_GW=rzBa3@>P0Ot2E11`~P36^}E&`HJZu5C#~6P8H5h+
z2=1YBN<1kFPYgc06km?Rxo}3^Z7hBNKk$IrG^_}kr@8EEmg<MpS}V7#wUn+=vs4+;
z+UmL1tZ-GCh#Xys#Cgpn3i6tm5_nxJ03>OQ42Jp?qTXGL!`H4s^+>DnOhkmM2B`sk
z5|-odM`F>~WkItE@5^E|vie?BT#+=Zex}GOxB$(pZxSn6Yhr#trzs=+?V&%tMXi9%
z|7-dJ6*4S^jG_x*Vh1)JXud+P#YjS8Swafjv)M^GnVHPQGvhLBCdlLOuN{8z$m(HX
zG7-NtnOT=Fr&E(x6N%(x$wowo>5wKe>snhhk<f?4l4SeqY|TVH_9fU(Vxiff{@rm*
zVUO)WpQ<~D835!Q9CX0x)4XBDz#CU+@>d-(e`SKxnU)&P7BXojq8A!l5{h-rB*oIA
zpjnAgi0IfheNdhw;%*`YAe4S3;t+H-=T%TazV>w9`qMSy7m&adG#gaWOmz+A&ncZ#
zYEMY%-miLwmCk)?|H$^J(sxK5oK(D1PpxLBrAV1uEn*NB)!hT$0l9~6=-i^@%D2u@
zcT0UZKb@U<g9x0&MM1T}5@H~Nwg}atj#;A9(Ns*B5RvYW4r_`fzz$|R>K089;1bN2
zY|v~_-#NOrm`^`c*a5<_W+UDr5+gy4h@Uow)XNVBOym^jf#+LPj=ECD)Vw#?9G#;g
z6-a8l`MeyxdKeh@@-Vv@oi7Z$AxA@Nykq*nC|CH%8Ot~J2`!gGI0|?vLt*dg+@_Ry
zW_1L1cEi4S#D-_1g*O2WrVL)kb6U%z>N{sB??~eedlggeHOz37;njCJwxFqXDr8>D
z4!)gU<6=>aI=S>!L3~e)%L0eGJ%LtdE^7rFEnnuyK%;${Ig?mhiKi}xSP|n8&GPeT
zVoi8O6w{)Jrh`}ru@6x_k)#0TAX0M4HF}_RMI;DUn;^O)z(jm`J<_NeAx88gdE8W-
zMDoU@v?Af9p%vE^&a5xay6c5dhrR(*rC&osl*{J){KXqDD%O6ryZ`#apD(KR_RrtG
z@%C2Wf!(XR4{Qg17y2r+?Y)<~&)<Lho2cSCbN%FFSO3<9znD~Pz8}og;PgHBj`z@Y
z<{{fxWGS8A7W=@;sg90a$9Tapt~d^=(+4-1ht3Jr<|<mKR{JhHTwsUuxrgilm9_1%
zfdU)I|LH?^hKzy*Hu#9$r)x7><nq%B9ij(UbUmOqXpj=RnG}Cu$QcNhx>8G_L}{bt
zEZD@d6nui3P?5XxW+>au*5cKFV9Xg8sCN!RkCDsy0+lo57@oRY(t-{8v-TPsRg3$W
z{%laj(~u_zxSE+j<!*`RGA)|=>@b7;plmff8w1Vx<PBFTk>!n`Qx$DZweU>s7*;mb
zAJFv@2Sh_mOV6Ar`do4i;z9_2Kx{(>aX)Y(jzV+sRH#L>XGkhmHey6V#{j9dfG><f
z01R<}-qH2KU6yg;_;E2f?~qBCZxn6uC^m!yy(-}uP{ef^7Z1QNyRTlrpQ~sIm@NGx
zG`h@pE7n1f#3$W>-R_w}_sn&>Y6TdFFh|Gd>o?XFM?hhZD8ol~pmhY)zQNtTsY2h>
zJ@?l=zwasZ9aY%wZ`*y>=N~&fn;+z(+wL95gyJ})I=jCEh`jZ)JhS5ng780ff~DVz
z{-$et;6A<Mn|<UwTC`Fwf3Xd8W!D-iSVM|+8Z^i0CL8z96&!O!T^>0no=hJiYV!nj
z#8+T_`Eg}>{t^2!Q4RfmP>RSU)p?AHrpypc(fvP2ZBt$0jl?6IT>)t(a_s}THq}^u
zDrc&f>l|~XB2%z`>B*U@mie<GkXJ?=tjaY?UNgJ@1qF8B0IfO4K-+SsrA*}$)b6sL
z)$&6(^7A}iiJnz_2<TY@m9muA>lye2c1i4lQ;8ThXv~F+ubh8ox`-O^%%NvVr6fe+
zo_T9Bz%h<b3lbz4awSW7X05@8%$ltv=@EH7BZ!y^Yi5Yjg%mHofIAYsnS)-)tgAv*
z3%Y7GrPhzQ;;BYQA)Wvd5{7|9X-Zmi9L8CHgVvN>O)c?HadAaq0@KRODaC(UVFy7`
zcCEpJHMs40V4YNbLyFD&&z)nN^y7}+tpoY?{K8I0sL*jxbr0{l#|!T9?dT)-RMA9v
z#-D<W`yYEa)zi1N@a5v|#jT_Hv~uW_a`1GKqR-F=o^*v2&;ISvqRG&Cc+bdmxr!9i
z?kXB#-Ci3|(07^J_HAF>>6lSEW>t6pcXj(tKXwE0yze(}ZNGDWekXYRk^96`D=hu7
zFTn_e_>zCoeM$3(g$5h?x6SP<#484{rLbCmU{(_!^6{^7^v9oo-r=Wcc%+`H4*)w&
zH?!`b5zL*M$O~p+2-)zUxBK{o<{ab<S84I3pR|)nuEa{!7z#D>PDQhy=PUV^Rqz<1
zwPqi-R*%;q(jpOE1Lrv8Tj7>Ff%_))v<;TrawT3wDm8mpU{w=}Ur=`{QQ{|b$O?5s
zaUaYhF6&~pg_ICEe>Ud-vBEyLtT4vKE=N-k^{tdrV<>f$%NcqK4}}083k;y*BGe=#
zsK7`QS*O3jWMr3WYZp}_W2A<VCS?jeQT=H<e2+4i^(|DnDf{Ua$cdpc1!+t)#Z5s9
zJA#)G!Up|z*7Ig+HI;rZRjFE`m!IWAt-2W^xh`hCnmsN>sux2nmDVl^;#Ek|_1q-|
zMKG<iIww*+mu8e?kwnD6fgd+7MXtOgp$b-<I>b{{HrQaEnuo}L15+gq4!%LDRtE`U
zyQd1)DTq2h|M13#iX*7{f}6}=wxLJ==*CBiWB+zenLMp_4efSKKj@l%+#67PefhCn
z|4Rk`ONwv4NEu$H&(rYg`56u7r_TfCr_)okK?b_(Ia2T(*)*yhp3M_#SKqCVZho{K
zD*zSmi0TdI6T8C;h2aGy_zIY^Q}p=b@u_<qcmHJjEKoaqplCD>9NaUS278N?sizkx
zdU|g~ZbtI&KIj|)K9t~@o!&*oy$Ghx6Dm5W?wMjIHFbstri&v~n+rp7rFXtypC>`J
zzu@o#N*&(6$vkonp@AHQP`qP689aE8|2qEr_`P2!1M@qsmlc~HD%9n~mDs@ce^|aI
z5ppRagp02{&9#q2$TUO~U>}>=M2MV+^%y#b_LcsOtwsspqm6a3h9_sZf*dzI)oc`E
z;}M883=nHnJU!Zs=5_(?EZS5OahU334afw=S=dK>8Jm;XEMW5rG~kUZ5v>?ND7tR(
zG&bnB%ZV9=tKuRy!~vs6KnF|`Gw~3NvcnDX{hUni?_sX=6*M5=KRqZ_2L=_kS8eay
zZ4W$b4_pU<aVqXW0b<z3&~#dL`gfh7f-|)3d*mF$s5JN#qEav9cd84b)-PLcw{HG2
zKdH>TtW2K-!Cs)Jo^%8i*KmFne02K@pd=k_pd|J-5J8()_pud!2&}imAMvp&bg&Bb
z+^>S)tBHKUmxBDInGBI{NHz1SfPp%~b0SSMV4CDmu%-ntO*|`LSirQw0U92_wBBil
z>XBusq1-b<$^=>4ShdnTm$gG|STWFZ*>+;=YksDh%eIYiH8s$=Z08vGkj64-3EWr$
zoy$7LxY|<ZoJNOA#R<J+Ns5<Px2y)XVlNK+vGGAuTeD*$P)^N=kx16lAg(3&LtOAV
zG>}p;w8O2syKgPtT--bgax&PX_6&UKz3o-HM_?H0ReQZ(PTrnWdiKL`)T?^^yWZ)7
zcUl>k0l*7=B)=Lh^o=ULV*nWUtN!6#|BD6xi;8a+07riW=vVu>-Tv`H|G3gOu^lb8
zv-att(bB90h+;*A@KxwMuXrX`gs+*fVcAM*C>cPKU|7nIovQiCr>3~fU5-i^2|%uV
zYH?}))yV5huf7f5Zvc1@(M)NUD*Q*cZ;wPWX-SU6Q*jwSL0{u1s6qZ4(2_8;A!cIN
zF<5X6J{&r*J9MHjbmD>I1UR5pi)x$QGs3&zI6;&Yq9HFbf>Ir#F*w5EQfR*h-yI!!
zB%)a&=-Ag1*tbO@@2*7?B}_{s!lz>(AgJCV=7E|qo|3f|tVCsmn8v&YdA{a|L`Xr6
z{ForY^h)_$V=h6qFS>DgCpPtBsWFK-1PsL7qDJasinTN%s~W?{W3u=<jxnev*D3xS
zdw9DV3%{E|W+kudW||n}3B+QZM#P^bN%26$Tu8)-gP3LUBKF?GhQlU^%@8(tNu<Hp
zSo#|5+pnmnmNpYx^iyZ)C0b#6w-)oU?PJ@Ae|PMwWA|qsjviNrj~Dt+d=n`2pW0zw
zgOZomzj1ccxXItN>@Yrcz_+n@UEbtx{1Qfh?dLX5U%$AyaN`#{%phn7%w;y^o7No$
z1%G2{b7AYi&2u}<Fw_YKhc?b_b^x{)v7?g;<ADOhh1;$9g+lkp4l@ZQb1ty4aD8-(
zDOmb<m?3pAKql=l0d;&@VFtG3JbxRuo>uoyY`nS|*p#+TZoYqWB7dOZ+PA|@sKG<K
z!TCaPe&d|d?%!eNpP1}L18thiGx-a@Zv7(#-8~~^ZX-b0&)oLZ&|<QbVAyjROkOw`
z-p^BGw`oLm4;IOL^6-6oVe%9iJZZJ>nE+WlL>)f*)Hq-|Nvr*V{5ysI7m8#=CLp+Y
z++%u)RtH9lM$$QP@|%-?x4uUP#VMR|@67#o3J1>ZQ8@VHai^)R7_gcwTSI#kyng64
zn)F`>$d|kb|Bb+&PJ(ikYOfOfG$o4B^++PVDui4bgY|zAowsI&JRL%QBImli5jlDX
zaaQ~_XQHNRFJh#kxoW@@8B!G^MPbcN5K=Um!CIG|!Am7`Kv3v7BoT#PGhcuo*+9;T
z_;CQKiloLK(^d1hm;?k!BqgC-7mYMc{})Tqz5hy$7O2s0skZ;1rvHHdX8u6=e=xsk
Yq%A6A{j;TymsFPr!ixWHK@g$*zrMX*)&Kwi

literal 0
HcmV?d00001

diff --git a/__pycache__/sampling_params.cpython-312.pyc b/__pycache__/sampling_params.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3ce8a64a99a9488a706efdc69810e576a33a7ebf
GIT binary patch
literal 25874
zcmchAdvIIlb>{_eLE=RMB*6FU@=fqfiF%WgC{eQYqHL446XbzFyq6MW5MVAqOGKfB
za-50ex;5D}HQ6L%X2!dv*WOy)$xf7iHu9#s@y>Q;0Z}PYRM{$%bawO44s5DhCo?;{
zzw_OD@e=5!?e1Pl2j~0F`QEQ{&iBxNE-SNe_yYXz`VYUvalask_L)><=emyL-sD8i
z!-+akAJBPp>{sv6<JS-{%<~>zM>IZQoG<Z|%$IsfncEmJ&6_=DhL;2^^Hz^_-sZ6}
zw?0tjDMOgjK>57gV`qM*fMdSGQ^9a^pmN^naWdQzaLreFsu*q!RL|FVYIK~QlPaXz
zcab;xJawYYQ!kcz8uZ*#oLK%UC)%abcMU4FQL;0C2mCAE)hoX5DnFd3Nu^eT>Xe$a
zP#JnN3+n>4N-EK)o)+d?4c{86Mk>2{T#YX0N30cV->ZAKMDg;pvJmwM(eSDKMwP#9
zN$+lq_DuWc7Xtp^WnsZ5`{t#HB!`8$kSs)`>k;9y6qICN#2*R{{)&Q4xpgVyoL>rv
zZheYB6<nN8m7WPk2m!@D>zlnIiQWY{v>?fmCGeOhg27P47m>u2VIsH$CbQ^^_+|sX
za2O7&Kj@Em1EI^8C7B{PAG++1grAW^vr;%5A}<?4&4gZ(g8nFDaXqsn`hpSv?1k{<
z@PagZ!G9f@|LDpuZvER&etGor@3{W-sh>w*JvOTpQh{nKayzwfzsX4)`WQ$3%VQAr
z9$qwfj7z-Rn6hbgF|&mHQ#<~Og8quIDR)WA<n;zoMP6^p;`Ppl#Ki#NHm~=~i@tzL
zDS7I-Q>P|Bn<{y3Vruf@g_KqK^-jb09c~9Palbh-6q#QbTJSFnM11mPDKc<<@xY;j
zFCCDE0{%-w3rmqJq2SQVfx!GwSZy3HYn<@l!jf!93=Gr*30DBT$|cLnmrpC8(s}co
zT&MBmRRa%S`gTUykkhK+c?>R(LE<H2w3Gu*P%07iV_*fPRN^y!2G!3bnI)bQ$xwKe
zV#(n)s(x0<mf<U5ex;r=$%Zscs;iv2%&N=IToyI7BPT|y>Q|BDXCprh*Gd}h@0Dr8
z&*RMDDJLGY!d05b<zi{s6}pH4?5PqfB-@-`tbCRCRI9iXc+HZ|?Ml^5N94uX$f7KX
z7Z)Q7i|DL0Y{FA1{%SZBOc`bAvUELFGJ7TDpOsRjmqDEO$tf#Qy`f82rP;{oltc7~
zeV5RC=6r#`CEx5zscOx~7hLjQyW)>X;RPQeXv+ADqMyd0FQ5%CzZ6bYW?9iiA{e~E
zRC!p<B3L87%NT^EqBQ4Q3`9~q4L5XSN>U1nsR|AAUh{>$zQssrRvRm*Fw_{w(Hysv
z26&T;WN0z&syfSokoiR2q7D?Tn`Qi|n=pzxQ{@meinbc$kkl}21<COSs#0wEzT_gx
z<q~byzM+d@MR{ow<E1u2!-jpL0eN(2uI%r(x$o+=kgw>_*nD*41z*6A=}HnJS9}p6
z9GaH|Hu;4GpDYRUixG_bz>*+cpA9UA{Vz*{Q!>RIeetuQMPb$#6hc9e7sC<|NqEU0
z6ot^7ptX+#m(quX*-#L^K7TMGTw07E=0L>15Rh0hG|Tystaw;(n^T7H;=J61MC4`y
zEd&GttpvINQWj);Q932dA(^Hu(LWpUdTG86OM$tRaW=FVjD)HE1VN@rBvt11E`-7n
zFPn_L(av4^_+TE}K7<VaF2FMPONaB3!}X?l)x6<~J35oVEvuG|j<}<XaO<jdV>IsQ
zCfv4a+n9_ydVp^`goH!b<l~Nh=4wwk+Bd;BlrAeRE8j7gD=fE+X%}a!SQ&Zk(8J2c
zv|d*+lpNao{*8BTY=+VXUB$5-gTYyz<_u-!X#;1gViRAgM3yi>gLz$<IwkAM{Xo8v
z*O_l|a}YURHHrF3PFs|<jxf!+4ZoST2<rD7i#ROI$cvKTpA*pfIjuRMv}SH&=Jb{+
zbb-N4OnI536?rfI?HmU9mhK#<Lk45q7b-dKhAunmZtG(@ZF&>AMedJuZ|Zd1>n@&K
z;{LVan(iIl)H^y%ITF^}i2RNrr5_xYsnGHeK$tK=SXP?cJVs0V^#%E8^w@6Ajna9u
z9W(3=QVGTap;=!bd~`4q!8wZD4e-f-=RR5H(wxO<`G_yAFJCb}HgILGmC3cvEt{}0
z`M}omkskiP-l5j`T5W^QUGnK&8O1Rm7w_nl643nfB_;o^VwsEf|6_{s6y=*n4Kn@M
z#5tThnVjz!Q3g027L>+pVcjaP#r_%HNghR#d6E5JYJPb?B9;#jI0TT_-trOnM4$V#
z>Ot#z!+9&mZ`1gnqm*(R-%O2PvP<K`|JO3DwQl3?4L=ULe2n7FY42`o@82SepWd5)
ziwIt%g!6laR-_#xupQ1!y~3>a3U{rHQOe0q0xkkHH)EEL$SIy?-jv<z^(itiR`0Oa
zo1M2)e83MrfkIJ=DgII@6p-7<-A<r`Kqmp3*Oj46buIT27$I<+z)1om+bV(|&FONZ
z1}Nt6Lx8Vy=@PD`eR=X$`wD-%cO{arG;Hy0$=b%{Q@8f6xNaZb;v17-IDKn!#d-V8
z8lSK=Zt?BO`sU@QZcVR@-u7(q&BSnS#kIz-B5?bornWfmS`jIp_MSLjzc#tW_au9V
z;(Y7I=oUYe>~zQZ>NUffxNh0v-O1L@<*AjEYaOd+xA@MVHwc@qJEtBr9A19<*6hmU
z?W<e-;UquxSIzC4r|udbG#`!gRV$G#{wO>@<{ifJbVs?-vLWtp_(=<8M$28-V-7z`
z!Kuu%_?P)KA!UcwN}BaGnOB?hJ%(G{b)ARDJg-l=o?7&ak~k^NhD7KTieUG|NTq3X
z=Q9A`(&dUo#RZ}WO%&`C_3s%p<xa;%GNRCJh)ll+DPCK7kQ06?x>_tNf<G*X(t<3_
zl0G#k%v^!TH9yv%OOhZ<^P!g^QTT(x%fo{sdj^LEC~+^33=R(t_X`jcXRip-%aTly
zghQCg!;wMZnSkVja6$sgE>i>I3r8fMI4F~*f%(`HhW7SS08s^?F`2IU<RI!QoZ<;f
zRZgn;LtlSUA*GDrMQBs3ySnvkB2SsUUZw$hy^0*7EJ}<e+E%RS`J#s(SqalZ{>d`;
z(Bycd>~>jNuP+;VT*8&LBx`E_&RSx&JTB)PRkyDt>>XS7uDGd-brH-v1;dp_5eYyn
zKeG~M8LwL>KSwFh^mCjoH}YAa3|uBc8Nes6a(~a8jNNGtK<R$Ol-K<z0{Z?Ty|dyu
z>C1~~5JjUn2QiT;pG=ly^$z8;Am1s=$>%RTe|}=-%nPSd#>rFXXC_jX(`Tk8&U-IT
zo&Rj%Z16mCArpw;pQ<!Is;FE(`^Z+dd<xjjvq~9=C$9|0;X&U{63bL}04Yi%Y0r`o
ziX2l6&78<XT{MckszNdakolT&d^Hu&ELk)a5Im(GD|0g?5N?ad#@tNhW9~BMX6hbu
zmos<S7%~TUxyR0OqN#GF9tWd4R66ge$jL)R#<x;(N-oJs$}CfVwY*nmII2K5GG$kz
zIaQj=Qw`fpiCCq&t39<jY1F8`<(@j0v)W9I^*LO18Q+E+-+I-z!PCf6Xw0~qn7b+C
zZf5T0Oe`&ukg5L`)z{@|Wn4mrt4(T`j8K|8u2QEh_{7%t+B5-pPM=rub|nU>>*`cN
zAUHieQWt8YgLu#$ZdU3}a<P<Vo(v)Nz1O9s<ms3ClzK)S-7F5?GawCSO4FmHjXpLc
z4QG7a8Q&3U4^p%g<hVCO-}^*6_GM_J2<wD$mtWfc41J&0M>6RSWN7<AQ+r5WT@4Zk
za(h6k$%GmrKk1;T7kLqe2+_j+lmp|{KQ7TFR*U7#)gaOzP>R=gCJaB<EE=@lBN{W9
zNwO#@ix_JvhEb+s7+)%ek)>i7Ln6iv%pU3}7K@G#*fI0QggB62Kcav#SK(hxCLS6Y
z7zb)PnGqnOe~akTBKon|f>;h^>ria}r}R>>L+TQHw0<MHwZ0<u=JpTP-fCaTj(f4M
zpj`b=_6u=X<mQfwBd;2@CEIgYJSOgWmG>OM?_T_l;dd0j<CvF@i~I88*q^Bb^x?S@
z@xZG_&r$K9bPVzGbG&#6;f_la;;?iAMySKD@|jdlN|W$a#|UUga%iU*tw=uv-&hXc
zX>mdvM+#3NCMRe|fj<q~=ZRFgX8Tmc9v|%CoaQAk>*MaGVGC1hFG9M2ln!A711S^;
zgs#DCA_<xaGcOW3G|z|^7o_0C8O7E-8-gKPA{!TrZsM6ULeG^*WFdTbXlNnei@+#7
zKM2Ee(B~fn?~oXp4G;Mi`~$KyC&^N9RvOAi5gwYAC5TCGMddyd6nv@yjpYv_$wEkm
zu|@LD3t`D8&tB1lB*;gwSPLo#B&thGf|5-oDz+-8bit`q=_Rb$-q2jC)QhyBp8Pj$
zhD$jhrG+U=UdnGEvXrWrlWCC;&Ms+QDtG!=s#2B~P;e@`Mod{F(mcc_ADJ3c#z<%Z
zW<L^V75t@?ao!JRvgyFI&WFK3hCi@H$XM?6i{aBLi~n*kBuic?6#f<2rBar8-*tr{
z3>*<K=5Wdc3p|YWm%=GKe&!dLNuGJkq%5MuxL|)zIm0jc7re|MMaD%+DV%CzmdddA
zk`%cnA?X5g1>%NHpRAUOQ9qoj_XlAx6D8=I$S_nOSf0F!@#I(k8=qU3(qEQR)zC(R
zB<oUG%9NU*Rblm#JuOwII%vDXdueeFUBMfWf|ny#5Q|+ke8SE;8wtrvDW{k8$ozUr
zRU!wfO;^nY>ftie1-zoF45Tcq7~V^MUpQ5PNJ7`J(ZMoAb)B*xdD-WMIX|2-U-F6G
zYatolE*Mx<JcqfCRU`TgsTnAoH0QtWWqT*`9yHS|X)D@CR!*jJ{6`E(ScMvH9*;F#
z)g()e3%}YtG0DBr{6@>H!OzX=zX0X&^XN4<ns2m3C>Hj`nzc1ILZ%1yiMmK>2G_@0
zG&_^_`%V4p-8^@rfnti)-xMNdjr*!a!?M4kA(FAqiu`-Vtl|@^zfmW0H|lfjv0Z*n
zEQxW;da*PJW$2qa(G=4GnqzwSS>UIK%NjGNE(2V)7!Ow&XgplyF{A1-!ex(@sIC&Y
z9I;ZsikJzoGG+#J#w>uYm=&-pW&^B_l>yeo$^mO*cEGxr1F$|;0oV|$1Z<2s0h?kj
zz~)#LU`wnTP>9t4w#I4!+hTQq?Xd>Hj#wjLXRPU)y5HALqb+pYtl>t>jpl2dyL*b%
z2z;MCt|9k+^NoTY_y1Jed$PypD|+&I<W45zj-rHoo-i+gFB13?flCB@1V~|!MFJ9m
zIRaEL`3eEj*5sQ6NcoVj5(p5OClDkMBCtT<%LHTsVFK3(Tqh7C@D&1IC9q6@Odf7i
z%81>P`Eber>v_t6Sq;E<T_yolzDVF10v_TOlp<wI^Ccp&g8Y9g!wpI@zaTWHV=9IH
z2eV690E238-t|W@f|ku;Ui5|*lzpLSqqbfvOZZ?O)qp7@{I>wG(4Nq7w(7XGHErQK
z2DjVyCffHtXy5nPXs9p$dHcTAb1SFTMq#?GaIKvBrsX>)H;iwGH}~He-ReHL)p#i3
zIFxMPmo{=`H6L*Zkv4I*hPbusq0RNih1(aPh*u0k5wB=ZHZ(#Jhh@H;Ya5B%nv>0K
zw=VwD-t;jiI4nu0Yvs^w-$v^vX#<=;cQvGq_=Sb4b6>n;Y<)U@;<-=KrQ~Jex(>uU
zkFL+gC!hZ$Z6+@p=V*)D-5(h^q5V-s`zL8T`8qhEFW$0e-Ei0XNxFi3D!KZWwWd{A
zlRim1;qj4+bJnJ-2&*QnhOk<$vN~NySUq74gf()Fz3C>xnz<Sw-9nha^_<Y9TM2FB
zYTMH7gmn<sNmv(Q-GudU)y-))VZB^af4YybexeQ#HpsP(riTa{=K7x2rAG+e!?g^j
z_YyYBbsSFbBWyoc*O5Lz*g;O%lRiY)VT$GmVPh0xoUo(hcMMpX6U>%h@3f#%!Zfk}
zQSZs7l05qrP4R3oX$GCP7-%pSe)4>AfB2FBQt-V5Ke;P+At}!HZBEn|j~5ifca7ST
z^a_@Ms~PK9HnDJ9@pxmLH@mPEEe|-*?UhgD5lfNH###M!Ju8Vhl3C7}`+N`+ckoPh
zIlG$KNYvtll4mR)Yc{Sd_O5CXgblDli{T#%tu4YRNyeUtFqK;P?5|kzQV-grR7Bf)
zGfOmh$uwQ?Et@VASEjtd{z#3+QanV2CS3MuIg%@jb6!R(W@82q*`y1;<x-YD8PnJY
zu0{>d{;FK%nh&^|H9Y$(mM&7MO-MD<KHwCx92%CxNg^@(z*(ez<YD-?X*}8Aa7VV~
zMDwdOii(7OaxYOdMN!wtVW!;>vO62EhG~MFj$$s-S0iX)<zqdxQ?ww?D$S32xVJjv
zvci?ysv{aD`<s{Eo~*xyUEQZ)*<a+WNQ-J?nB|;yqYA#8qme_J*VV%smi-lNkul9B
zmc3V=BQ|nZi^PYr(f&94SdVYeT*%*X4bT2AyWlTm-5Q3?RO+u8$`UqI-S(;9>`@gw
z?8k>mR}?NYof2oGuF&4TEI_041%yaQ2=)t?p)>}^e^Vy-u*<Io98c*6nbsDC5j~^M
z37ugQ?gBXCq{P%2)|AhA-xAIZkUbtJswCNutyTfH^AOHt1(hWI!8x+=N1%DZcTjjy
z60Z1O#$g2Cb+Z0P=tu$Os53k$FQR}mOn}Q<1!xXo+s)M2nayU5o7~N2Y&EO1rn=2s
zp=~p>eMTr(2B=vu=u<nUbm80s1<G#YP=Pp-cY2`6KJsfMp-?|&+sN_Zb05^*o%p`<
z&a*$L{-EyHVaoL@RW&+A<oqIB^4AH_EXu@HcdN_<J0`Ubkna}=kYI-mhYJ&*@y?vO
z@Jy-%iX2XxrApPU3;8y2WyDn|&0*T}@IiT(CyA7mU$e3*lVq1DW}6pg5C7bfqWYD2
zrzb8vbN<ZKQ{Ge0Oc%(+sTz$J{YVm*yqal5{vC>`WO0Gcn#fE*ERbGfl##Cy$ZU)X
z%FYB0=qDt<ysG{T)oUk~X-IzMoXzpZ*lS}+yYr3M?bw?5*4+BseS62lY5}J!YMPQw
zt#7@s{=(YR8yD_${Gk8O`tLN~{W4BkRGrY_s6|aBj#^YyLLzh3zB%>>W7rFP>*e*A
zSNK1)CF`2rYFuvwTJp$hyA|2Cw<PQ>53GG}yMJo!duXeCW9s%49pE^x!%-3C=*L4x
z9sWKh84;T`Li@(3B8z_ivs*34ZsE8<<0Gs6jYGE&t?6GohHc7Qldqpqed5-}WNrPe
z$=^Hku&ic{f6KgXetYkOvTn*o-Fn@cRps5bHYcpjkWQ0r9TZ~=g+F@xD1_f+Qwx};
z$YcEW_}XN`DkK}5;B^6B+t!wZwPj;8VeL+~vycKxjk-JZ+M%_X?WVE&O=AxSh7-f*
z?zw(a_wVbrhR<ycocqw17`RBu^gc4#woP>jQ{4ko1B<R9VQu)%{C#WRqdF?b*<>AZ
zPd|#w=GeCNBy2qh3K7^`wrvs;CSlvuoiKH8^4mQ}5<N#An8q?Wi&LHME^l}DZFe0`
zbRDL=v?trU=~rNZ-3hBZZXH2k2KQ_aOe6*-K6J$gF5H^@DN;6bwmobcC~vyR2#x;(
z0!8kYCnnP(0%3N`Qxg)xtvR*@UDk3?JiIpT<e$eX&WqDsB!1TA#80QYisTAHCjVW7
z7B>?zGlCCBkow*HUiP#N;wi%M50uWBSGpqMwH!QAx+1)4>1uOI2RlizT>Un&6|Wao
ze_c5#losbh{Xw`Yo;GSWM|_9fhP#@v{%AD|s}_ma5E^8oXrbS5Lr@1Hn0gocVBskm
zuCV1;{26gj3;kQfZ$tb=!WG63u8d%qja@8bdC%=><;6LR#Fr8H^5QG(xpu@?gtIU{
zu?&1g1kQ{KgB_fr^;=OqTw(m+%7~9S`K^3nq&bUo7RHx1qKd>^WJL8vXcLHiqAPDi
z6$!76sA2+X{<vT@S473g>6yiAt_meB60WeM;3}e;-0UgtUu5p8F3wpb9YL+0oFB2~
zi599wd__2m#8)ie$BKt8o=0}dHg_JWE6#_s>x;+Ba+NcWfU7O1cq)4HKyiPu@}&cq
zTd1y!gep=u4aGT&)J?}OxhUeFlZ#^1CtIiyxhTR}Bo}l7tl+!3AEAr*qqI;F!!(~1
zqbeggcU5UB&Y3@Y^2TvS1<htD(yQU`s_So9f0lbi7a>ucePT0HmWzaaQdth?&a^Ga
zUy)FSwUn2`K`qtn@2)w_D8-_{a#$qnlR1>FIcry|HVZMyqDXkT24yIsT!(XG$(*{_
zO+G;!quKIk80-0N(2A(Yk%Jo7)glTvGZy9Mpgmg-rUZ9PMO%Xz^%oi_Z0!B)h&mKl
z9A%H-qKv>a%xHZMUj)jn4=VGBq87_5$V60AiVLE{eF<4%E5cD2(eEQ7`3(Tl*XX;a
zA;+Wc!adhaLeQ5#H?XH)*z*N7q24DpV|V3c8y?X;PwvoWLgX0*a7ihoCeoFw@@p0Z
zoIo82N|$k^>Sal-93P4iZDKpTnK+T-9vs^nQ8Uam`RE|=yp-V?7JAgnA?|)MM&O1*
zUad!)^ZAw5%c<@rwuPLDk7_9=&1idevpB<3n1*89*qhx-&T!_{O0KB{Nsy@|I$9)9
z)+CY}BAbu#Xo(uyt?gK663nexs*VA*^F@c%-Q(Xr#Npx_&zYpMH7Oh&7e;bZ%hR05
z2+s^HV?Z*77RYY-hL(srUt$ke#Z;3^b-u|(FTaU+<Zl3Ib{8Yv+7O?#y$lxGUUG~S
zMNBWBkcj{?xoUc;JeN3dc2oMp!)wyp)7wrrT&n%0zEKw)%HKX$Y6bTMBDlVyTzJ7G
zLEQ{iEo$k!Dxm_hDrp0fsS+pwbXmuyU1>1q6<pcpQ!Py<?aaVGyU_oO3hm4kx_tjT
zXEsbL2Val9b4D#~nOzs{p!Dc24;>28N{J2tb6#YLE`MMPe=z!4#-+HF%R%hsPxcVW
zwJTB(hj-aNA5Kz`{ci@BNCt&zDU#zqPM&1GBNHISIT#(tGeRmBN7(-qmYkCi<LnTq
zyIJWZ%m_w3MW*F9#nVKsn8(;I?w5#ii2#|$vUaMJnXW#vt3%3x(>Wp++pWDu1ZEn0
zim;;ut^nY|MsP{l%Vp*_wt4$JQC}obXuev5XSCr{dh0vXN`JwV_3EL$Zmr|3uJx|B
z+aK7wa3Lt(a{SL-_r#yfeK7aq#(U-Qri)vZ&%|xdBw^Fpe|!JR#A}Bc*P*)|KkE8n
z*WKEC74fE%Ta}Y>+a&Rf-5!fu+aEfcU<V7V2i`mRz&Q*{Sh9Nm_ak>Fe{}wb=eG`=
ziSIufcb(fY=*jw}hxMz3bGVrC%y-}30`_?O$$OJOIsd`=dq?A~&uvvt#~suET>F~C
zwG!E`=}*-3Kd|q;V*o%wl9fm9PHvAqn;3gGe&o6Mb4X|g`JxL@dTg^&z9`f{qGsTM
zee{kKfQ1^nJF`7Lofw~vkIlqqo{u|T$O{GAleH~jZQGc=Z*@}u$7Ir3v+e9nID6xj
zeVZe6(`qp1rWF~&wyk8*T0@Xlmd3%muI)o-5{J&j51#$7HSRc{mxRN)GV`Wq)q`f+
z*sHZ2vh^d+4?TC!f2fN$o!zQD7q^{*jp~iVw-1xSk41YN=C%3{>hIY;oQON7vT<UA
z*-?+q(7WFI_Ur?D@59Q5WaaSpU3bJET>Z1FTO$+OBWDvMXJJGxk`?jItE*QZ*t<7Q
z0w9@qOR=m_2RU~87;J}|qwgPk=h)q6@An;L+$Zjh{^ZyP$KofZ<I^+orsuaRUx?dY
zQ2E!My>D%1c|V1o8Tud;KlMWVg%{(F&t!9trh+LkFY=imd4K4=-*+A%VI_6aX8Bv8
z^-#QNaC7d?%n!VO=8cb@y7w$K#nWVp)o#5pqa^H?acjq>>;0y8n(nsUcaNdgnm%ZX
zKl|MMiRV~e&~bir;fELQ9xH4c6IWKTZ4(kUA#PKy;dLY&9h>_5j$U>tk6asHzVGPy
zCH21(tYdU1oZa!to=qL)rmr9~+t#jxwJUDjlO&sFcf!`aIdb3De}~^5J_mE@hnMaT
zKZCfakTuDghV7a?iJCp}>b(@#zHD4{Aqx$>T|bbhA9yc<t{gXw#?hhem5Iu8cOu&d
z&fY&jo#ui494q0(y^ie@&nHeiAD?)lzO~-sUU$DegWeK1^~TX>tmTRF{hO2TpZQm3
zw#xTEu<l1hdGiA^_P*u)W3SRG6??P!Q>?+5K-Naz8e1Q`Z|&Zk-0mMs^p8EXHErA4
z6Snq`4f+8Kl6E%5o6c`lUWnT+q)Xuyw<`Aq^43KX6=)xOX9i%moq18m)a<(KQLazj
zQ_nGXVn2&l@22)=<@6EU3&FC4tE;&Fuk1-=j%%vIDM{`SHnMvvg%kK6gCW|r%LHDq
z&tb;u&+ct3bA?m%xeq7*%jy4g`on{{LyGQnRx^Wisv`Rm0bNU*^IuL?;s(AHpu>%s
zqjj@Xh1!QTL#a~I3sI%|o22t=)STa|xuI15SmrJ;HZyfssd)-MF~f0Pcf)Y=R#qE~
z86qZ)S(E5wL(FhR7qmpI8YPx#o*M?_ts-W)n%N51c(7fZNd@^Z$TPc?AhYS66EYJ&
z+m0<_(+u|`&0-;o+95T~5H?%dq+?&U4A?%!?tt<w;r2BBaT}uJ&$B%(x+{ybz_N0o
znIv`fV5aagT~)?|6LcW>i6)*(*>YRgZB;hP3^>Z0GT@qPRvyNMJ1K&D?*8zsPZs5G
zBO}T|vy6n|=GoOF`Cky}Ujn2`DQ*bQY-f>9S}BLBnv`ugFFQT;M3!*HRDF^`J!JK%
z+-20^?;tT{>kS)GZp{5O<8~x$9m<wZ+<oMMZ4BPEZe_*a{Nh&4Sll*t>#4Z)%rDyq
zHZOla{Gk2F%C%MhpF8ip_~XV~PbKZGar*$~po-cz?W^{<u;+ne?_b%g*_7RraP(|D
zh7yjUJEadC2QkUM`PD!8YSPv4=G5vG?Xm4owC{i5I`FV}aP!)`11pn1b#>!7S1kcY
zO}c`!oz*FW&a8>6@+=CH`KY1UTt!Dqcbluix+N&-=oT1!%2&MWPI6!PCZvBn#sTbg
zU>GQ}UepKi_{$AG#>e!<2A_6jA&RJP7%@PhK@@&5TsFYbQ#I!|N)Ycv%n;VSJ{l_#
zOUS~E9OafvjX*3Vn!-V*6@<8uV}#B;FOcK+De-8-hMDAauj3qJu{5t{riE-NVwse1
z$@}+t?)7i+yW|*0eoNml%^EJ#k>3{7NNKDTwTaU@H%u`T&IF;9FbCpTZLy6Rwx;M~
zrd7l1^+=@^$9&B<N^h8Q%4gO}fw(3ye)@Bc@9q+-Xr{J-iOv!;16qrx4T|l%rCRKG
zc0oHRYr0X2gR*5)ZvE+*luk%-r|AI$I^><I#PBaTWUgG7qvH<IrWxEhU@L?0GH$A0
zS`7GP=xM6XrI@N<3ZhpQ=yrl~QGwP!*4J^Ll4hyQlM8|`EZ_w9VIg{YP?*3?OU5Pm
zMQ!2=UkNP+=)4D6#+cHJ6*S@x&n+R&!@{sIHm-!hOhY&`g}F`2dDvHwVVp-GwQ(U;
zg1Z4&(Bwa0p1uWK91v5sjO_#AnJVYDDD&9+#Aeb?m!}+5De6gb<>inP#g)P@9iFEv
z3E4yRH1DOHTIlQoimL#ugrKJ?{6Wml{+v_pVcMjmnNs<b`LZf^2Fy$t(T-1<Co^0<
z)G<ZO5D*A(BH=5qeI;qDOm=kL;vbk=vE%<%`FF~1J-uV%I`_mK!e0r)>&`ouR!Wj}
zEgL<5GW5Nnt+u_1y1npd?^livfO6*)#D<R19Zug-i9jFOxH@;r)sd|2*{n#^_H9PC
zhn`LhJ^f*2V(9#b&nAX0Zq;6VSlbY9?BA*#z;TnA?R`^;eN!LGiG9y)jZAOVPCs(h
zZo38&u7PdWXu>rb-*@V#uG1eiAye2fuj@|tb3Ogr-N)~DAAf8#Hd%h&eLU`H|Lew~
z6;sk)v)1}rZ0-7{d%O2|qWAdymg66na%EMI8i(ivZB?@SIDXCbA8`oy*v8rHal5c(
zZQYo-Z|!7q?a&?b_VDS%@aYdL62oWXL+7CEo!9j}>Klvqjsrj1`KWVnyYon*^9at(
z-knIBd3qM3gcJlid<zk(>(@JFh(26`*86cu$7E0bp-`Fv*>t`EWVh)&YonscM0R9%
z?TQ`NoZjW=+RfZ>MRvTWxtw^5>>*Ec%Hg9@#cZ*T3@h&;kwl`L;i(~vwh0SO4XLuQ
z_LveGL!LM@lSjQs9g}Pt%Uu5Pjfc*bZD&`)*%h~SkqnE|DRHa7eESm4zPPRLp}k?-
z-j=Yp#Z7Hb9;TqxkX3d)kliX<E2fUgJ5Lm(^2s|a(bj_D_9V-TRHSmHNOtG8y*pv=
zj+=_8BLB!NzJe$Vvnc;Nct+a_@>FEH`5a}6L{kVzWWU(9_ay8+aZ}HeHAf;ftGT}f
zvRlpJ;)gCs8<*fI{IE*uX7%h^OfObOT~>?Ao^{KfW2UErG}%FR6qhhGDFoM0bhseX
z&tvtvp}V2auAIdVOvE76<1GM`oW5yg#X~r(cf9X&sQpPvg2geku%s+gI1`BFh0Kq%
zV4cr@Ax%)8lnM_jckpOp-h~4v1aY=dHPga?>60({ab-zHDiFxA1ikFXVME_My$*z}
z9g8~23-nwY9aD^u%@Qxh;NT(lF312$SsWCe#!V<#m-|V^S8SvUc&n(NWfn`0a_1`(
zTM!4|aOyFn-LGS}0s{dl03)dK>;ijyF7p6VSh+MOg)=csOE~eUUJJy<vMY<1*lj?1
zE^Pqm(F0q`+iCuA7^=n4-r<7>GJ&V?{80dpAK>^RKaUp^aIZd$Mo8(g-j!bQVd;*@
z@`vQZQ|VGB5p6-3+n~H$pbsphT-Zs#t96;e;r8ELSbc6qJ(WjML|p~_pQZdI>hTL8
zqsLdX9^aX;cS4%SWrnf}i1ZCD+x5fu>xXxYhRX7v*AK6ppsN_pl|A1qdHeF_r90gZ
zx?mrB%d~F#j^&;{;W&}3AO47V)1{ob>9GTGzH#IBjkTG0&)5U|c-%Dp>yND<vnv7L
z9h&Ik^9&C>vciT{3K_#YjJjfX%P!;a{wf{JS351jWWH~6s}R*0mEtP+7?o#KT7C*X
zMl~{OMq|#hFlq^-7FjD8wUkkdtQ3rDVpN**3O+_PGinjNm{Bc^TJ$^)%4=oRBByXz
zSR11jIjh2`WsC~pyzpbxaz>@qq2OawJEImoi-KG^7`4b*4i>h8QH6qN;bhcGMs3@L
z>SWZ8U8pWb?b?M}#i%{IP^%dg6LR6la#h2q{e?6&&$WzNWVfA#ty|3;VaB5>^;7b{
zK{U~d{6X0h9FIEtg~F}l@u;gGMu~zOyW`QSemt~Ncvp8kT8`;1d%k--YJ!_?>}If+
z7{>Nn$D^hFxN<Cs3Ie|IXa#&IfF^r~$D=k({@T^i@n{pK*In<-jz`Nt&Rq3n&WzrG
zs6fr`wT?%v{erd?Iv%a0vNOFP>sO83JbBM|JSxDS9wprEs_%HT4&^R-XP4C+^qhig
zwk&Vio3l7B?{?SXCB=|GsF)l-b+hW9deQL9=m*Lj!)t`a2rLsQux--gd1!6f>y6gr
z_ZmD$qY!8lGQ0w?jMrdl$_92gfOvUJntnI<KPmZM$=Y@1NOQU#fniCZV_Vpl5cb7e
z_NNWtgDw0(E5jbOc5b&GNVFb^3kTCiBJsLIZ3<SxwRdl~9ZIwvinkt4mlCl=ccekV
zOkAU|-O!h4=!@6)r_Dq(=?1D4%)(XI)9%a4`LvZN7F}zVg4wc^GNRas!m#oz#ZHuR
zU8^h2Fb7vv_vV?^Gb=~Z6-069T3iZNnWZ?1QmJccPBYAfcc-?SM-t5=@uofLDk8dc
zd+QXenyYVqt9iXSUfYwdAyT!@-K$`=T;I@k@0mpJnYjCGx{ipox^udE1+B+g`PR_-
zP`s`;-9WT@U0=O|HRh0-h}1|VhBfDqT8PxF>#I#OOyF>QyllN}<*Vsdq6oU~76ohL
z&}c1t6D@n=&7<jdBDU%FwJTT$*U_`xek9R;B;Gcb?j&M|ZhSz&de|C2lCY1&%lD++
zMC{S+?NYE_j!tS%B)TTzohQ<LMC{d_)U_#Se_o3Z5Vc=-q(05C!JJ|Y5owU?>wnBJ
zL!I_GnV#JzpHh@2#i3k;JyZCcP$}Mt49%ijXE%;d(~$T)0k)A#LlJNP2134w{3Y_e
zL|~SHNI)VmN8mDnD+DG9u>E0Xhb5_8ewsjlz&wE<fe--_iVE-ll2o8v8)ie5tbD1`
zdFAEb6n_CP9kN%A<QIsKZ8a|uMgomY(z&8Qu@O#-rgFF9EMZ?EaEicJ2`m%1N#GR%
zUjs<la0>(v4dYGZD<M%P3!VHr0Xi-w)5f*@#{~YA0Er;-2LwpWQIygj1524Oy<+P<
zvLycpB9LOl1Wb90Fp>h8s-s-y@Q{-L-2n+35Y^YYkIIck6E1F)+m|Pn!(Tg_)|VIs
zxEoq>US&(`4aPwxJmz>Nn_KB|Hff7*#jRW;<_lc1pcmB^@m!nc)7nArvl;Q08~Gds
zPkj>}c&ox&aOBYp4_6Hyh}*ZtS7V|w?x$y?@Lt^4=r)J3@sYDSL)05v!HwtS)EDNq
z_=Y4ujOz!A$IA4o`SuVlT3CcFzMDdiJnHVlb8wSu&eby;e8SbS#rIL7c8aEH`RoeM
za-lO0KWb`$)3740;uX1;B!4nlT|*vQd<{k9euUb{JR#RYRdim5IzrMHSEkoSSMhRP
z7ct@juZ42RqDJoeFd4`Bnl;xJ-;v}GBzp(dhwBED{3+yuUazZK39rqpM)9s4#jx*D
zcYmC3-ayv+ll*w{%msS&?##yQ=Gf+e_s8BDySwK>-_dy2(M031dmV|!(_1{<i8h|q
zA-b*u+np1M&WYu7@rt%BegZAl)g9-X*22hNvSVc9sXw{!y$ko+A9S3iTshaK*K4=<
z(+GJOPvKR^YlrT1Bx?6>Azl7pa_@oVi}5P==47I3cng{5_aOgNG!(gW#e>IHae>9r
zy~Phw#v2|{;qaW^+R4==5Nb5S(4(GyHB|e`XI9HMTnR@fN=Lb_MRlPP&)kZvoV>lX
zHi|nvtS0rwJ;>DP!8l*L*0C1ZIJv&GK7@?aQ$`*Qj8K^(8{+!!Z1E$Hj1`Y+>#(7n
zboVEF2a<h*$&POH&16+|vZg-S(30%#OZE*VyLyv-!^s9A*@`Cz8*sOXd_e8!Ne=Ew
z9zL49@NCk3c-ws{;XaidpGY1!lAJh2r2gTL#-Gy}ElF!Ry<(U)kmC_<uSZtv(?)V2
zuMNUR$9jLdlsU0n;(5aLv9y^vEnHLE#^gGdN9M$;*nk%Qe7cM|=^eS1$n99#&YV!N
zoaqXNR)UgtGStP{E9n8lbQN<}Gbi=y+adJq@{V*3^RLAUgGM!POeV0})iJ+%+@@MH
ztR7m6B%JN(2Ikj@o|kT7XfsyTbPGcTt_sz?dN$q4oNaKX+Zo!yIjiv`V{f{XIlC~3
z*COln>2Buip(xx8?d6)Wx-gW?mgxb84nlm`uqPUZ?~EoI4y1>e=P=jWyV<@O+r0LE
z?48(M`N7bMc<+gXaPpp*5YDDY7}FlEx;wp>p`%>W=p8Z9i0kXjy`QTeyu&BzM$-qF
z`yg_GE-kIqW2A3HHc#HE+B}=+K9F!7xZ9C%9Zer%Y=<c?hV?@m5lA!XBg}712|Bx0
ziyf?)gv*^~4W2&AS?WJNMl3r9uB0-pXXq9EMV)a<w{uDVMfQ8#pf|oq(?RdxN2PVf
zgP1Hf3>(uMruCy~Bi!g6P1HNiriqF%X(`_^6Slw8SiTucbNIQ(@6b<rO2?H{rS(Q*
z`&#T{4nLHz;(-K8%4wwaY@FOQeDCRxIiN&VJdp}vdZT+|X0u~6{Eqv3-a8SPZ9nGV
zr}7bIs=zedRd2McwLj+YqpT0KD$HOHq%1TK+k?7&8fGgPt-+a(mOlD+z6enGULQU3
zF6zfXVVHq1k@u8H^lG2-TziR!9(Om2rHp3sSeVPKa#|Uug<MNkw=Ly3fd`bP+51V#
zerU9heAFkE@}7Lck<7yXQXpla_m{la{9@z^6A4Z$o3@m7MY8Y#OO-3{`DjlgF?nFh
zZ7UFA<OdY$8w8l-k`*?ne&nAL_^$*a1PT`3hvY|qWcl!6AXs>999BDr^J^EA4AiL0
zMk6lmsVii%u?6ebDO!@$Rp9~Oue29M=5ALq^%oTT6hO+F`OgoeFq2YJyo8&+GEW>v
z;xNzQ&7%n3fekZBB2@xoHMWvu5`APQ4*eyuxfay_24OHaM%tN8S;-VO2z3reFl7t*
zI5nS~cbJ$wlWJuYm;r-fdR_}>Hoc1xe;|yb#(0o~{>ud>*`!>I53h-aaoH75KQShm
z&MPRb@GZiaIsOj`qeBJC3$#qudLGVH$uv{{n0Ujgx}XhGrZMHeR5&XC3jDBxa^ar<
z;9!tW_fZL_8~O!j{cFztGp^}xxaOa6oqxl%{(>w28Q1%_T>H<sp`USwf5z?mx!JYy
znJshka>*lyYq<=Eke1DlOAI>K%7MomelSS&*1y-E(CP4820;uwy)~_PoYez=tT*er
z;|+W8(66prr2>0gTcUHW@sBzDJg$7kq_ZUX+9YrN#?;NJWM%aubJ^cn$@lS`qf9rD
NNBEy+_^@8_e*oXVqksSa

literal 0
HcmV?d00001

diff --git a/__pycache__/scalar_type.cpython-312.pyc b/__pycache__/scalar_type.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c881d72c1f5b9817396a956b31ce6a8c72802be2
GIT binary patch
literal 14217
zcmcgzX>1%vcJ7{w&2z{Z-j|vpC2_<{Jakx=Dan#7$&sjwYuWTVqv3Ru9BB@^duWSe
zQf9nPmh=XY6d=$D-i=3z5mV6uD<eNviv(F28(<S;fy{^k$nAIm2Kl8w!N_#5$^J<4
zz3QHW!=bd^AKM_StE*nUs(SV6T~+fhrKLq29>3*#zNTJ|`w#j^Jys*L_9w{P;v`Pu
z{oIKD=0|vZoBXDLdBn_9nb~g%SVycp=i^3fChj;VSw7?>t8Bez*71xKm^j%i*?w4X
zkJn2WlmMv0dnUc)p8n!S1Xfpsy5dybNZ~Z^DtST>LoQw`lssXN*Y8nPd{~YJrvhH1
zF?$(ZaBH>ryv4~J4S2*P@gru*G-8p=Bi3n)%c>O&d4lKVNkyR%JfT)kC^zJ?X@c7w
z^aNzLTPt$A10iY3Px%tJ`|T-@->9(+of$f&2`7&oJLcZIdq8s>dwuw*`~2ad<Hy{m
z55Mj{eRAk7w+4jVZ}#?t1Cu?IzR9kzM;VvHU00{}zOe7gUb)Bb8||5#4o`%FJ@5Ga
zfgaWC@p}|^czROqo}5-}Xw8yRWK;)|54n}%lDVTR_VT$CD|Ph=OSMv-0vZN6Y-36&
zA_vzIq!<A7tnI@5G6eY+R&~TITV$(bI)Lgzj^)ip-iC5ZR=HKrOSX{$nd%CRI^i;n
zE9V(0k_EsBMw>#}GG>yBKD3M!ONDX?^2NxPB5#pPA_W|Wk`k1Ztt%--iCr$gyfp_o
zJ_!zO%09HD`NknTjZ%A7Y2`YM<-l0AuA~Ab)hMw6n*;e8Bkx4M*2q^PUuWd2kgqrL
z)yOv(`5NRKjeITgO~^L`XC3lejC?)vBJwoy2IO1htx}_G!A`MAO+*E$P~ygHQghb$
zTQ`B(k_FQS7!z<{Ee#A}R_(T|+7{U+39`VTilnVsP}>33%0||fRk~xk$+b-@y1=+{
z7)<He3Kl97@np(GuO}!f*hsP}2g9OAeAg$*qT&gT%VKCu9P@`fVP9}uoDBJ>Iw*;F
z%j2@b@DQu3ohT9~JxbW;odW-hzA!^NDvML9EQ#Sz7JhYVv}<%aEQ=%sMAn=kYF9%6
zIXpo<g(o~=G*Y}1-4X$a-YG@F*!<I?6p~dj7z&H()Z}DH3A?(*lVQ=PiXOijVtBls
zNzbUC4L#E<!%8E?<iZn}<EYO=qwbcw_p?@_cu7T%vgCfp<DZhnmqh*D!5}Yn>T{hy
zNBF~}#-{w@SV$2eP=aA!geJ+*x69q*-J%)>nLLUl9zQ#LP8=8oJ<tY&WY`!kP<9^%
zKRh9ezQCkk4q$$ub12Brf)1+4L}ZGPW1%TVd3}zm;_dNbxa$PY#N=crXoqEFgArBV
zc+eA`!n%s;L}<z{iCB;;@+9aL6xHdVm*HXrVH6+p`Q>g_rU~-Z$xskO(u4p_P*pve
zjqu5mW+B?WqB-4TzMwBG>jYEXp`d?S6M~+gn|MjHDKfeadQ;MzWPk<#X8f-WFhMrM
zU8d5UN8+#4Lu%Sl3#i;jGEuEs`zq8HAX17h3oIp2KIVR4O65P`B}@L^A{dWki9nUk
z@_-<Lo%4i+RKaDYa8qCU`${{;YMlXo9S7?t&$wAXRt97GUHeg+p4+ly{pje6jj$6f
z^Nb4AMCmuD=8OsR1@2kAH^I#4kwsmY53`mT(~OyDFr&97x)Iek4w@q<YCU6>czTm~
zy}-E&hMo)n`U$DTNcRy>kVHX7b_G0Fdjeo?4{bFmG(~cNb}17g3Q%wgt)}n)fYDW;
zR8v6}60N}PR>O+ht$?|7jjfbXj_3({!lKIlF|7pX-RbSXzS7&IG?jDH?$9dNeY*9b
zXih?quF(rsVmT7XqNr3LtJSzu64%WnE_%G`hQy6*&4}#oO<;}#fw~P_ZjM{AJFm|!
z%*ITQ>|0~u&t~t;J}^Dnu|LU~3X4|C4m=qC>9>FK?Z5lO_<>XLlGAHul*aA*lLA*)
zA07VWt=n%UYIiPr5;Z;ZB`d}D>n|<5^!?+@je8P}dma_<S!vj@*pg`Im_M~zTlakM
z2W>y?`bpO>_WtXEe?IVN|HTz&&8?Siz7*?w<lKhgl$NbH4n3^=dE*z2KWmO3IvX!P
zhvAf##ZhbH8rzMYk`AuEAsYT<_V(=J+lei^5_P@z&n0U2%$Kfg>5L1FtIazX-%2#^
zkH2&-(R?m0G+-_jO)*DI`YdoKkZ9>oln=yTI2Av8KJmi&g#AKXxWFv0bpnbw1gycW
z%^<nOfi<(m7s}{K36)tsOt9>^OrkC4k+SRa2o}jS!>26d)LSyw0Sg%2GV~i$i-iAk
z%)E73l<la13=S((-mqqy3Ql^wS2PQyE|VfsWs%NNZpHJiN}D~!QIOPz4$p8@r1{z0
zG>-Nv+zR5Ps=DQ>-b7XJQdR$a(U<lr;;ZQJr+Yqo@y?5j;rk;?t%sKEhaa{i>__9m
z(T!B4u`sH}k$E0fm2yx$O;<E9o)pzD(5mF6HWOvrH?1W>O}J@|bDk7#wE$`*TWOGr
zNsIqXBPQ0EAY&`_<PfSN&H1DelSDx>n3(i|*HYnAbCyHtMsuxDg%tte5mvQAfatoG
zNvOL#TV9n|(U1`WtuYCPh%<W`jlwGcRJ};BcE$GP;+8~l%j4o!?7L-WN5a{$<m`%<
zbgg0=4&EG$z5K|zeX;FF-FLemy!>eA;KPBR4}LND_{ar)YnJaaHsb|s#;WRQ<tI(I
zn-Z1Vu`8V&@sf^>tDW9Mehm1ztNkV@{EXFRE5fJN2Ws5J)bumd{;UZ~h9`9~YYwN^
zI^QZv+4Xr;J5-xFwJ%d|$*S+qXOCK`MtvStEZLaxLR?mmnbUJ{IVE8eY(h#&7DHl8
zTU~`ik-ZnQjb(V)Qvn&KF>KZKR=jSkdK8%%iL&I+rl`Ov*esmlqJ%cDvI|M1Wg~;9
zR4w>>&w$(D@dAb9hSE<72`yzOB^{J>QqqS6@=U}_vlE{a*QZou0ckt%u~q;*&LkP_
z^^A5jINuk{!}%BmVAa1xvVrr7)gL=s4W>S6Fm)@Kddv3tGpp70%hi2}>b|Awf%)Sr
z)lD&bqPl1P_?ON)rm8AGedn|H?!0$@;6csOj>AjNmml^foX6rN$5v|^Ze6>1?QzYH
z#ep9U-W_~!{!zz4qmzE4lY`Ji<(1d3EnItS-vXZ>O6=P0YxnuYmfl2NU%aM2Uf#c2
zQ@e2|(af3LJb|6`UDJ2Xh~)4enelI$H_e;jg_=GTW_c4gvxyNUrTLfV3@BR8oF@+y
z^_=ramed|d<I1PgtQ(;6$j>~u^6bC7J1A>L3npVf71MrNFn!EP!Vk>Z`zlN}9D5d6
zRAj*nd0iO!8S`<7r;dbz@5l;#O?Y7$K}!BATw<`3`0j+yJCSn1Cb6G%Zx$gR@=oEG
z!f6bo(S;^e^622Y`90I2sW7?Egqkn~0GjK6>CPxY9O>vtW62C;hbkf*6ma__kzC`D
zq<d#<H_$?QvsaVW%!&WC6G;BtM7#ny2>yWq4eHLC7A)bkH8aEAGx9U02yzSNl#%_B
zWx<Sg!10lJnsb?kbj8JMX3PTm%NCFWqq3qE(xyeEAUvT7lnr>)E1E4dHm1s9%?#&R
zC6R)m&dup|ZCOZh!z*@sq<1_)uN>KynP<08>OSBPAxfbRcCQEfGaylSBl+(+4x1Ib
z=Z)KCP(C#s^CwmuRo{0;U;DTrb~RDgbN`h@?f!&g|NN1as)nd9QMF^?6}G3I5C^hZ
zJP|3!gjs#2cX7-o`y~~t9)f#5E=H<|0mk67W5y{?*fZb~n5&>W4K;*_;*$#L1Lieo
zRu(bPD%}^396ojUynFbKv&SyDPaZ`y@vI^5lp_Rvn39)~sI+FHc<7K$A(KyvlxD^S
zs>~D6Um*D(%)X4Xm(QD5Djf5+|FT#M+n<(kg*7+Aw`On7#ypRO_FoFs8@}GV`Cjbs
zV_~~qH+^$Dw)L^FjeRZG^uWBoU-4MzPq$pI*_o)>xri3stM;m><D;3la528+g$LUo
z)W#3L7H_(^BwU=IS#4{7EHp+hB!re#yJNoS8KUbF2G5KDymKF@wQL49s)_Z&X>|mc
zJYpuryaaoJyUP!OzU0U0i}MoY*b0%am}NIH)f1`AB5~U2`fGx0MKZ^&>YkJCYb5NQ
zKUD7z{P@MsUtH=rn6Mv=3kNq&m!`oaHN{JxXY*__ZR}A<Cq9x9C#Rua)4nZ>Y3VU3
z=FyUrQCVD%dAAwK(C+bi5i4RLJAx#CRP-@H1a*&Ai0io0!Un#>evDb?<s5QpX6WEZ
zSr)nQ{WpMKBc=yO7Li_qGw{9lW0jxP-Kk61cgBUCzc=!DuKqsAL&9e>^1uLJM;_1B
z&k6c8B^1_Q=UkG&WlU0!%w~InvA`GU<vFP<5Ej3n1!oaBv7O?U;slFwP!ZNR?CKO%
z9C?t#aY+Zel*ZzbB<L+-25%^+`qVHE7^a!>Nd-SeaUvX^RQLDLX$A|thLrIhDdbgq
z5X(durDt3Y%8Dl}OFer1upCrFN_W~->7ED&{OKNDeEtncM&Y^*m~Q_7H7e<A@Kp)%
z)q4x?#fAEfWK8ch5x|>~5kbVgY(JSIZ8<db<g<mDnF~jY36Y#_z|7f5W7am<;KDt`
zP}V4Vla?MaK4EW(3oXC<_}h)~H|LI@Stb;JXB%HP(9ff9C1>1P5ylA>Mxc?Z^}{!c
z|B;$qpkxELep51U$sVT8n!!-8D<UhTRXwU6#^CesBmoUr;B1{$pDO$(3{a&3>eQWH
zn2sJ^xE2?hHjX;I#~J~?8FQ5Ag0??<#MoRpE)pGd7>5jypFtMvo(5ktg`Z1mHUR*s
z8zw-7zn}>i?2&T9<MxiYkjH&a)BWr-W)LPQ_T&qN<kOh?c2HhLBj`$!K>Fb%d8x`P
zl;oWf!ucDgM1^rQQ5%q?BaNRHd{%O&WLfM>;LqL{7y33XPkM4ewA^fYeuv3nuUzGo
zQl4T%0#N5X#)4-AV$RCv6$$z&)L6*x55233bWAMbm^dxrAW7fB`3Med)O4B4nnhVU
z^3^Gumt%@)bIP(zXU~!9oZV@ZF9C(xg(OSYep;|B?n;Qemc=~@{Mq+BvR`}<UOsp+
zaqwdN#fz}lHj>=}6ioB{C-w&;JMEL4C*?RP*RuncASkuYdF~nQ$^Mc|lx9Mq&$rkl
z^M)3A7A?CE7W66383aC4V^;goYo36MaWVr)h9T_^W-x_GuCV8Fo?~#@H4KN9MhqN0
z3qO*U$azvDQQ(vYd8uF>J)T2BHa4<XbDlKL2Aq=!8)!!EN6wQ&GmO?%=&8o8OS330
zKhRmIuFd^8P&F8Qf7$>T#{ucoXty^M=(+5<+7<Bk1pIDx44YweG9_}vrE&b}mpu}7
zFy>;Ouj-w^$tJAMjG=LfH9U~Eya(O#f%KUO3>kGWa3FQa!s4NWZ;tsr<LX<P?aRJ1
z7)7xQN5WltDLiF}Cpv-7-MVD_Y}m5Yc5J`VNI%fjPkzZx26@_pp_K6V$!f-KW__mG
zkw6q#Fik&{hOvcq!LIZ%Fzl@mktNffC}=2QrpDoZA`Fm+TsWA1bLuUCW>M_T(F3GX
z2eU{*<ME9d#=d?+o;uJ6DN;01MbgJ<X3(r`Ei{u`*7$(Nk7;~RA@51EOrb}OA9a;7
z>qj%=+<|#dS#H)_0L-|*S?Yw0Jmn%K#G<Lw2{R6avyUZ|EvSq*vLv5z2B)E1{dXjg
zdi7jMc{+f-T3+*|qw0oqD|j=w<k<Gq%vWq*byPpKnks6(wsFpCR0VDZmK<$Q3(OVU
z5O#A`KP|LWRDWHxuCmyQN;6kljx(jo+GS^J!rA)RxlNCcKXP`g)HlV<w_P`m7$;Sq
z9{=prol}pTyV4b_&g%JBR~yAohHei%ZtT3d`~LR7Kl0G>^Rh3>mJXarIL;slp?i^k
z`u<9FUG&IJ->0oOiSpg?{Z)6Ode;r}3SrnNsYyyRNezt#NzG12pCPMBCSZ@7h9bpT
zbcB&YwB4xDalVP8dAEC=k&-I>Uo=sjNJyhM!uy@MJ@fIkguN>+bZs0c4T=qvWa=$0
zj8uO<;B_Md*Sv;tBjT8%gp>^<!Evi!4q_ndm!Fm4P8z3D;C_z#vaDv_&iZD&H{_)r
zQxAm&*a%)m<`%^_S;PzK2%a=92bdI`1V9w?_YCnnYo0M*PPNW@!)l<ope6G15k-cF
zBYIMPR%(N)89!TWPYW*WU$1{kqT3bl!Mex?>(;Gt8vQW5i4%C=wP<FqU)47cix`cg
z)QJ3~PUtM?$sMt0tsxZ@5haKb=D4Re&hEI;a^sCy#m%>3M?Y`7+xFn_QrRHlK|=9$
z+efyQOdKXJk@UbshDhI-Jm$!b6nTQ;6ud~f3z8OLSrpP~@QOkvo)X$HS4Be6x~Y<=
zsi3L0<xJIjH+(1jpkk@)#ov0Gr+@+m4lWB`Ig0Mt1p~^drdPQSC{j+ba>UJlYpyUy
zq_nt9%|CO!Cyx$HL+eiZvy_l46SQG`Gt6iP^L!Gs$P%=97^al<>?W&}?8n+H&RJJe
zOLQf9tb5h9(Uy;9V!~qYUzWs$&bYnvmt_?<+M_38(jvI2I}e#P$HrSe-gI;hh{<we
z+wenVHYfdzB_ks8Mg7Rq$~}HfFBgtHX3R5|dqyO1);eR&XO&_jTiHgQOfN!u$=0dk
z=Pz6Onwh?SY4bnZhR9vM$Q!uhCF<r)YGp35hzmQjCzEM2vq`^x#axZNT@Aa;x_)I&
z1&I}xEtgBCP^!Bhj9-XWh`!^|gUdFZFCrBiSf!PCWCY;gk#eql1COlOYremCxuF9W
zJ|5XSlAO7)C~4wLcdnU{gB$x)AlYPaQM~8y!+lF-r}D8<nJy*R?O2>?tUJ9RmdcXm
zGkk_!-r*H{#+;^84V?6taMFWu)AK<V><mxN7MQ?16tS=GPK=bZ+k?R!VNt${Aeh<>
z)8sh7wW8PP&L2}%C}O+sD$2916|KNHiCL$zjIsfuU?*B2Kv7)xxMg>uc=wl%#_0Qt
z*W%rS@xh^Z)0rj5*?7s>FYT?dp@h9ZF7z|K=4w|8(N2NN;uLal=q3`vZcxh14zs&)
zW`a9T>}H^fJIt2RP{^-aU9`dqV~BdnZKuRdNjD`dY`Gsft#E8A=*8iNU)Ahh4-9h2
zJ*k8yaqczEG?XT!Kj~;zAsMQip@bQ7>@fFR^vO)RHz@ZeCCvUCqa3p~e3bJe(Tdr{
zMg7D|d7FwQN@zuucPV*~5<4a2eKG!2Dk(<^UCL5V!)N(p?y057DkN*cUf(&LG?|ev
zGV&JWOSsaC@0?n(^sW|_e&=M;WJOsS*RnlssfkuDS+*rjCY0btlek>lo~Uh~J25}L
zWN9}LHCu=IMdunv@8lugWIe{mzO}~DJ1G=cJEN^J>+Oy;4%wu`VXaGjBb#jJZ1!bq
zbHdu3G&NYAH;#P8;k9PwY+G1CazAG)!yd67;-mdvarCB2qbO;!T03rBi0;1m<{F1=
zvMl%8W^ITLtZ{fH%T3m;G34<|3P_?y)A{CT8|9m+yi?D2CI#NwPkFqkpV#^5Fm>`e
zpDf#It%+j7cqLEpytO;pN?_f|BHmg{6?lPuwu+?5Vs%Dw{{yc@^P+UOh-L53d_^TR
z5gh~z@Qr~5t1|}7c-=q3UJp)vMPCM1<dT&PYnj!#Qd6Ha(|fy1e;+)ezt6nJ-m8UG
zUs+Lav_&o{vbJXHK<vU-9A2#IDL7|9=QQFkFaFaHX)k)#{s9b^xmquqFVnWnc_dsv
zNgZ#GSOG(uFXveYQ?Lmh{Ei`wN7w{UHcTO4^28j_7hOItzML--V9^IQQi`@sIfKNf
zWWyB{%$c4MJNtQuS)z;O!loEW-Vk*8CK%09Q5s{#CNQ?FAB8wJnUzH<U}GSGmh+@c
z`H{*^+7=iTc~;x1P1}|{x8G{C&9~|WS=6lA1jYiRGez;*O<?%UWsH%!O<>GYX&O(x
zTrtuhJ4PC(O|CMnBunF|PlyACl%q(WkY*izLOPb+e`VI@D^CijifJB}o5QE8DMuga
za+!p<Mo!8A6XlwfZ1w?GvQPimr%QI?5q5J{(=F6}Zh0WkKNe)dUn^!d2+DQ``n0mt
z$G*U>vEY<e!oGX=xaEC;y+(8T+8yZK#qQx65Gd*o^x-xxgU44NIxxNl=&N^3E1>c9
zjrQr8{?P$FGcdYOE2OG@qrH9maBsor63U&fNA>Q>RZ1VybSODa8h!`~{eGwF`oV>R
z(cY-ERNRW6@|09xKeKQqdN>+hDruWL_T2i)=H<$5iOOv;&tk>m(fd1=`%WeLPAyfQ
zo;$tbXk2#eOgMHf_AYvs9J}WJ;FncfVtlMOCNG}5Z@E9dyyt9U&)KD_b8|y0&L;gj
z-{RrLx0jr~bEj4ab7!Km6R@VG%Ko|2(0(X$wk4cxv2%<3;=uiyA2)v9xa1t1JGDyf
z^VZ;=#ip%LXRo^+S_nlwF?eRJbH`W8YM=dGUVqDe(~ep6FO~0@I|&Tsjrj3XS;HS4
z*QGKM*j1#wPsHAdL@Q4JKulH@;$6)m<5yyeg&@dc(~V(fGO#6DZ%b&x0sS{$gUTlW
zCNohzha_p{d45gc_=<nyN`J+*{EDkut*MK1m0t^HzF}Van#1d<gEJN1XnV}p{MzKP
c@B>MXQYaErZITuI`ch#d-}n`Wgbn}y0rQDx&Hw-a

literal 0
HcmV?d00001

diff --git a/__pycache__/scripts.cpython-312.pyc b/__pycache__/scripts.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5b64dd55ace37b0e35b06f60d761500d86886e39
GIT binary patch
literal 611
zcmZ`$J&W5w5S`VREj#y7qzM;-AWc-*f?Qz-LI`OC;>zGgDAwXzXSEWm_1)<z2XdrH
zlg_^(_@|^yC+>=nDxJX&gjCs)Eq6Dd(af8DZ{D)s4-Pt@gIizNUjpz8n<mU%v3{<L
z1tgFV4k;NK1Z#tvsWq|)7(gv*FEtxu<Rs=N7?INQ?cWIaq_WbO3H|Rf!BoVv$%M)=
z&YHkY_^sdQv;fuMFl{{S5zsE0T?CZf43@isKncDPUQaJLPy5AKvRoB?H1N##Sm7l!
zmvkH}n)JOhPUC`llJ=M=RLr@DBrlWROvAMR6-t(Q#)K9bb5;xO)ijC5N#8dsXM3rt
zbs0;+#H4bO9pTz<utsbDP6L(ZLC*4?isgi=-qmdIV)$V|1J2$Dd8y7b5g;pQOy{M<
z>(}XlE{YSK=5T9uK8GK}l|kIsWMi7PvuT5Uc=J}`Q-*%4dUUV#tzcW9tGe}}t#4@|
z(vBh#r!<PBqg&}>LP^=Jr!UhinQ{6`9_bceyLhbA$|QvRX#*MF!PB4a!>{jtxKHNJ
Kx?_{$n*ATG$&}Lo

literal 0
HcmV?d00001

diff --git a/__pycache__/sequence.cpython-312.pyc b/__pycache__/sequence.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b3f4026b48fdf7ab66cb4c1297aaa38f34c582a3
GIT binary patch
literal 5252
zcmb6dTTC3+_0DTqc3IYd9~e`64EV9JS?mVeAz9PV*hwvHoW@S-teQ@SnTr`1W;b_c
zjd5{{RJSo|B!l_@tEqy28e35t=d0;g+rOs$=#r%}nntOss8aJ&txKgQ{b|pcnO#`C
zB<htod+xdC+<Wf1=QaEx7K;!Vrucp1R*aC3a8eplfUJBEkU650G|@SoH@PuB&2xwg
zrZ6U^#W5)@d2`VWr9)I?HLxa`HDlp)m?IWXrF2*irEB$?bcFIed4}lWYecVoi}z1>
zD>x_}4OSzt8hvQBZbD4dUD<t(zLKMsMrGB~Wy7&$MorbBx~!S1ZBsk>F>aUO+*)0A
zRF9b8-PrjTpFOEO^_7!P^`9De#ufUki2>kg=zrm<jAc>H$*{9IC!2Fz&iwelFtk7^
z??(tGD?bBdj!=^3z#RPZV1%?lMJnlh3RXN!@G)JyQUer8m)6Zg>*h5$*F`j3StcCN
zYSz$d16p_uEfUab*U+L!LsPl+&!MSo=L~h2q1kE<t`Xoem@1<gp54X`XINIjj2?3`
z5|Lr_IUqBbbEy5eH%FSvm~lxp6~`E(kIUzWsf?IBK1?myfmyJF&qwuSS#Zc;wxihE
zFx7J=)jxNGan+VR8M!R8elsUCO05ky@`XJf88^E~Ez0n+tJ|RJieV{m>D=1eti6bx
zrIsTb{_Q-*Rrw*qGHkfehB}n2;a|pQUKKB0jIEciIJ3-EGO~g0?!6P<t88F=owZ|-
z8rDTw%UHIdQwFgyIN`ledB0Uf#xgoJm7xq9SJ^|CsZhq_lmkvV3m&wp)rOj&R%<ja
z8FNr|wBhwi(92W<kNZrE_(}wv@=(sw93x{T!5fW@&4Egc8>R`TYi3TTa>Z2+%7bP`
z8||_uEKOE5ma#u)rwkjV%swb<*<9zvY)<wBy->iEWUFIY6U~nl|B7zi+R$<1kf<DG
z)q@Az&DA2r-Q-hO8QoZg*SfI^Cv@w}&+D1cZG8A`OSHA7PDI?WqF5@#gW^UM1*9NK
z0k2aaI#e@QsZkU?qXAhOGBc{<#uY`itc;`L1K5hfHbLHD4G0<$Gy%9nRsfR!bay#p
z*{-aS?Q~Rjkvg51bH{of8$Cw5Ok=PsJK+pxtgcI@Io4$d**%$^U|5<wuo)1048V8E
z12Hazi*2N-xgc&^-qKPKTb5gPEp*&GSP=IvZ{0Dk&zc3XZMms=zI!%R5O*!N?VUO^
zbHtzRU2fkuH868>{>1F*g1B#a-+{cibzWK!Z`KvW18b*C;sLg!bbduGfUNF~mHY5h
ztrpPGNWIUp77p>-VM@b6rKr^fuRerz5%YB|(KqQl){oDU)<qh~>5?uCh4j!hDIL*k
zKq`v64e?M|#dIA~^x6$}67>l1#PsMjlCIb50LJwg-2}4rKyT0`Dghn`ym3NEG`LNt
zEQhi&s$;b{Pc1vcY_*9a<mn8PRR}70RtgSJW!q6NQd_2%HJWw2e1ndDP#&kUMIi|}
z8At_Aj`{g?*wA%qd5HrAq0o2*ol!_x;B+=}55k_9fdR#|Y|+b(e~2ING8T9su$%_F
zQg18Bd5&sWAPxfl5h(KT_K?RODtaeXZP-5mE@o#utvyACA+SyAbsL#+OCG(Xz&U=`
zpk%zZAqeyu$2ZV`+f;?g4f*%ipb(b_HbFRFkpaw+Np6xTfcayRhZ)$~9~0ybH;~}j
zE|@YIKtgauo0>zb6dSj~oZAY&7}rpy97Va(TICg!rPVJ1uZ{6KMT(82dDnIEwYuf@
zqu0ehg=H@aTw#<>XhFLMeCV)&*8c!xjyPo<Cpo9gS8Cx{e3FcaC{{TpIgE*OmC~US
zPg(j&kjC@Yjp}=jMAxywwA5gpAUF6Mf+iS5<6i>4uY;yn`Ktn0S@3oF0smS|B${wl
zxXQm3-02*d0Ddl@juX}nTP8wo#IV8992I&|R{$^c9>JAt(*Q!PqIj(*=1aq&V|GGh
z9U#Z{0&uxem%C)6Mc}D|w~8tXWJctL=h{{MxylUvAZiZ*m?9rUx6Ej-Ke`m%wcNCA
zE;XB45Eh#{@^u{_#J0@~uRp&OYsZD&+1__I|GM>8t@nER7km1bdd@7h4J`JYd1v$8
zhP!<WhZoe_!mXiOJ^7w9@3##Un$G6y&K3ny-|^|6+XifWl;1XQ>N^~9C1?S2w8Dka
z=R6l~0|Z<coOT4T^<$FrT2tSEcR0^p31QVN><~y)IxrZ;{yd|U8NQ0*ScRs@a_jEv
z;*GlLx|wtDhqrq^td(69IM78sjgJBX8dueK1Uc4?k}I7H+#m?XgTMwi!WXvj9RE!j
zlCNy9_LiPcoJaO806^h*(~ZgL$$RnLi}BrsczZtF{;<|%JLA3;K}SZ)K?h60Sao3E
zWqDUHspaR2BfzspQx~c`tbyn4sHSbO_%#&53J+cvZ=C5yZ!5&*d?`yv8OXY<B2S3G
z?HT$*Kwc%Ua%<I|=BBGF9$d!eCXfU7ST{yWRd@}(^fc4l|0^+i3<49*a>`leI(Hqb
zDSs_o{rnT<oU&@<gfQ@Qg_B{>JPLm+-vaO>zMpWOtG(0>S%+KAnAM(cTBvphKSxdT
z8?Tje=8w5Kjw7!f6(M*1To~tk2M}BdzH_x<SAs4}HT?h-T|Rk;b%Khl2SEpbAT>=*
z`DLUwg&$Ctv#j?@XLa|WuP90~1#L9c&E9009SfPA1n|k<$tP1J-+1A@)Nj-u9+`V$
z_KA7tjmevnxBG5>`>yoM*gLUz)x|?k-fQZ6FZHQ+{C6Hd&Lt$aA9Xr_0IQxWLLstU
z0s0Q8gQ%*fw2cn)^2@%qAw@xTuC#2dY8u$>0RW$(CvTtMv#|Niows%_#ScN_xEzh&
zNKL2iMOzo6t%c~$g*|U}-s-&9*1g!)U1&S{e)K3Xf&VWxUie-2A5*_i6&f!T;urGa
z3!f3OZEzU;4+V;QwaoYvqVqo$&OtpNs9LG_2W`c1mrJlO!d7g3{6eK?G|M)w^!}=f
z7Y{N{L+5S%ZS#(K`y1~b&c~1E!^b`SeOGB>*mN^wWm^$!1K^6fp*bvpb4=xK$nOUk
zmT`ve&h{X91VI-9bbl`kvc~{(Lz%%5_+JbAGLlasXhGmL+SstLoh5*R_AdZn%P&F8
zUr*{AXWD0SbCa`^`NsCeSVuwZSl<4~?emM<4;RG4#R%y+{-7oz9lPHE1#$k!8>ySA
z{MLPo4f~4{P>Uh5v+M5W#V;HwB2zI;BK0e^h&7ASv)sJB@chkht`NkFb)3{TZx;#t
z+&=Pl>P~6}(SL?GsRP08Vn~u+<mR7VA^2OY=cL~G_J09SuYVQ1MIz>#EL#3A6tx*<
zLO0}0Wa0aeVOnGOPd49{N&NmvUOJo{_r5Qa75$_CCC75mbTVbkxNKOSx!vX$PM<!b
zoIl%tazHtCLg{<%xxN<_{8yK|#alTw@Iv2dSSWG$-&CHJD=qJaQ~q~fFT=RN8fL!)
zpeS%0_aH>L{eL67|3dbBMC$%3Z2C}q_I~q@ytw85j-7eZe80IRPqu)C`RKp-7Vcn?
b09X-VTJ)wVZz0L`76|}v;Q<erXRZGMoPikP

literal 0
HcmV?d00001

diff --git a/__pycache__/tasks.cpython-312.pyc b/__pycache__/tasks.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c7c55e7a35a5a9c0180cda6b221651a483f9ae3
GIT binary patch
literal 503
zcmX|-&r2IY6vt=wm!V<T4Qgxf>>-FQr4}nlA%_q}*@y`qatUkpnGTuV9cCxRy`^XW
z0P`nUJo{I8iFj$}6zHip#e?9<*+hMZ$9wNH-|yqijctEGDyVTzt}#OY^5!k{*W&S5
z6&EN(A*Lw8Z5(NB4I{vzR#v2~YX~&ZuarKIwxNhVCFYcv@5BNOI+&+3-CSl=%>TKh
zqRF`fB7g@}7J48$0q>=1sOne^1xQ=)AWplSFhP>IVo4LC69{FYOM^5er<pX<Zo)wp
zMbd}3Go#L|d4FRuI_QzuuN0&uGDhMa&yVDWO46y%mMQ;MkoKipulcp3YHP3IcUslv
zep40?lY}bK6x)Z5#=)Lne`R)az*xcsggO0<9`n1NKYJo#9wTgBsFOgfpAELQzxB7k
zqvXV6nfQ^!-cL#+PbgKo!7^FciIQ+Y;XD7R9P&R+cU8LAF~(08!mE?g^0>TtTlzY5
z{w}PH{JVv<F>)u)(jR00LD%NBVe!F2rSfRy&Rrea6Zg}|xh#&CzudZ;zihs!%w7Ni
C4v|p+

literal 0
HcmV?d00001

diff --git a/__pycache__/tracing.cpython-312.pyc b/__pycache__/tracing.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..647c3095c7f384676b6eec379708d1ee37465a54
GIT binary patch
literal 6078
zcma(#ZEPFIm9xtgMUkSYPfM~anUQ2EbYnV=9ovmR5?ZEhH4>$eRL)t{-LAPKdF|zr
zo?Y1zAs0%{huSy;F|N3ai=u$?qd;=G1AOhD{B(PN4!A#5<U@#sjdO81p#7&rX_NLx
z(f4M#l*HIc2H4rR@4b05^XAR_*#8cPg9Mr({iFWt4nqD9KfKmh1vdUF5b_S0AsW#H
zgUI+64IwYeqJXf^@Z}|0;;>{i<o&WA;0Db<C(4Z?p%M*z01~jtO<JQI)C4(1n>C>X
zGtjUWI0lp^l+<Lj<Rfx~O9~pT`8K(Y!y%(R-ywH!xY_8;cgbBG4jVi2-Ew!nNAAh@
z%Do)dV(iTK$$bDvV5S}#ofWm-8<PBtwiD*;gQth~xO30?wOv3N)cS7_c}N?eB5kJ4
zvtlo-$K?RtNR?O8b_4Hl9aqoRF|(2u1)e=3IYYE(ZV+wo0}*!(`yTnqxF~QB0rx2N
zYkRce8`1|ZE0LdF6ov@hHB8tmd`E)OFZY8U`!AuQ>RN47h|k&zv$oY{jc{B$;5ur!
z-5l2mxUL$mo8xu>uDgcod4t?uxkeUzZ;)$3Y~&9(Zz?7@jgxAzsGD;DhICW66{9dW
zM;Uwu*u1F}%p7$>HdAx7s4{BWPLO|CwrbPUPG7;MhN9<-1!gOhu>w;#`GT6ejKaqX
zrcD=Y00*bC$q6NSZh9)6O{SHp?8LN^O(({Z8D%;>m7N-!ngFhrEY8HHS>dX#@l~{+
zRPEfwOi?ufnWL6fU@@N)K*X!MsX2akgwtVB+nt*!#m(XUoLpT-7M23r1wlo1PPGdx
zo7<}Xs!@}TX28BfD3Jw?$l{_96Im0g>wTD5QA{;Y6~zfEO1_}Y8wfWm%9VN5a4GMT
z4V3zq1N-fKaeq-S?z2@kN9}zJ^M}88<nm#<-_S4YFD}{_3+Dc-hLPWoDuW}47Z>?F
zyc+=#8x7FiAeBHf>jsG9zwL@0P@F|kO$pm(`h|I$S}E3!Vs>E11@<7+=XEgz@Upl>
z#DCk_SQwa}EFLMG{2T(C;t~I?#kV|FJW?2T`w`d_k0{5_s6EfjuT0|u;s$cOLu}~X
zmLcy8cq7^r-BPyLHPz}g=CpYX>Qz-Y)C&e>gCOGoJXQd@W%4kzt1Ru}dUSeq)3Vuo
z9xe|YvS&1CD^6#@Hj1v*S_(C_VnH|UT-C|&RiOp&)jj|KR_oa)@f?NKZX=yHO|T^o
z{yF)D=(*{)1lx1|wQ<))8*Q4mCBfso?pqQsg*^P`+s4!4ZOP~HdT)W)ks7r&r$9hb
zn}^?gFA;Ctb!kb;keHY%Elm}vnWYBJQ=2VDbt`HX>}XB7@#u_+N{-rvD7q+JHS`jV
zs!_Z*l*OY-)0$^Ax?M^UT#!0PtthxH7zPf@FsK%fPBDE>H&r9b-PKFMSQ9@yC-}N*
z%+n<LFouW7Pz_ESTwKM1TcpqhbaIqA?W(4^DDX3`M`GwP7;3=@;sAGHu?9AT_+iAi
za9qtbIpOU>{q7J8&pV2Z;oYpdWS7SF0p>6~mI>W5`P@&M`yYe`9=7zXi()wXN%UxW
z_p$W`F??dfCq;tmL~06t9wa-4*ShvBr#|W2QyzI~t@G&eWJPNKSlY8H?RhYA<iq~8
zkuwjZvk#^2yDbl-(Z}JwkHaIY;gRy_D{JAz^65&bZF!Pga;|24Fn`T3{}n#AUZYD}
z%@=6cE+Kbav;7`I6TB#OU04z{;qtSfv_?&YOhn2zT!*a0>;t^C1@EuoBb%nDH7p4~
zCz}5kH3NN15WxtS$iFpuCI{vgNIB9RE9Mw36K;DeMj~{R$?Ex*!WV5D{5C7tg$whu
zrM?-kt|C8sEsD%hPRbRG=x8Z2iq@Jdn6vsEn4ks%1KvH31st(pIgQl3s<VRW_`ot4
zrf1HJ1+aGroUXmcJ<E!tH;8lTaa>~DH5rf0p8u9(asBmUF`UGF?7Ju;;BA0Qw9tKc
z2FFI>gLmHtz?y*$oLQvp?b5B%+dsbb;|Bw;+#gwsj4z+9G)C?m`lzw@PomfqT=$b;
z`yJ(@reXg1d4NQE%YBFLE!?|wKT__UUTb-+9C+<_p}v)K4?^*>6n8yi<3*}Ml()7S
z7A^;$jn|=jlE-7am&k%(fm!I}I@$Doo=1F=v2A*t3|S;B3Zg+9=(JfYbZ|%usBHUv
zfgOQw3oX5R1-q&w_fjix)|k;S%-v*U1!F}WHTFDc+*xVw{il6*(>EI*MxI-X#6ON4
zT8$jKcWo{5ayjtw<4DI>uMu7XzT49PY`sRO$lF3r)JaY}555;K#uB*-3%eaaXi30G
z_fzq9L;{ZMLI!$)L)WUi6Pz$luavXN#HnOD133)t%n>eHX!)LlsoP!kK-eq5asi&|
z?j8+2zZOcod;G3?FY#gbuO@CLZeF`{<yPs|<jV2YP@*g){`^rW!DHX8rUB`vfdMH8
zqifA`92;3cZDv+bIQTSCmNcK-ph>b{Ymgf?zZ`&~qDc!ty5A&+w4mIqh2*f-EVpQ3
zIij`5txyWIX{~a*)+Tpo?Q-X0N37Fn*`Di^2Ii=#sCs<ff+!Hr74k)c+IqoM?80Sg
zTBV)a=x`<SMR43Mt+z^J^vXQ7?08;X@JO9?B)d>liZx;00GsBEl&O$>&{9`zgjFn<
z7L7yNNR1Li7QQ}jh_01d>riG*uDc0yKCf7~BuL7w(yl7E0hzd&Ta4Q}<fXa^nJAs7
zrNJjr?Se9^GpoAKQhOZ_eSwyubvRF|mAgnW+hwKUr*QCXDYFH3O=a3QaM1;tgN*bW
zxQdL<>V{Do`q~*angfNFM!uFwH)ko7FFBfubup-n3G2kJ3p!`uOfsb;#+8{&;!IK*
zo0^=SNM^^UQc8B})nqE;?A%6&YGrad>(P3vv~=>dnPeubOeW5Gq|Q20c4}Igt_kx7
zWRsKA$#fz+lTJEawGo-=sZ=JZOirCjPB?8fv^&T6DW|m#m8!{gH<6l|R5G}v6ckv_
zt}6FLA`6H&l<fFqQW;MvK%YrEgHNJnr<Bv<Y1k0gfzw{clYAlRMC)*#)Xdn~<f)m7
zWZD^i3J2eoa(XKLcZu|=Z{SLvOODNCli$EKolc$}pO|olzIMh_$uUr<GxD`e<Ehih
zH0rG`>t`p?V6dBo$HKbd27$mga#|=$gOz8Fm!*LUq+n8irSH3Csi%tBb)YQuKJNKW
zS?a2E$I4P?6+Z-CGg^sFmZgzO@4m9MqcS>PmWCgH=e4r*EQozB4Pu|I@XyNLsj@U$
z**CK)?d2haFJoKOlwdhLjvNHwC)?uYO)?8f)s29SexJ8fwJKmsVkD-v2}EI7&}?Al
z@Xx}lL;#^n<UFLt7>sU-SINH!?+6099h4xX{=4s*z{4un8dT_F{CV~=40YovN{dF9
z-K4hZ7+h7zYS@WV48y4k*?Bd(R^w0nm{G{7hIJxdV|@!GSXjA!`Frx^GAXwlc=!B@
zaP!KYGq;!CJ^yD574Y{hZBVN_KGj@gC*YeM#X%T+e&o))<H^%84CHSjFFFN~{xH<C
z)^gyN=b>8*!2up{12+(B4R^#99tU7+;J$>|x&|3;H3SNvD=c}Ar)iGrSE&|Nqtyry
zy{6k2-I@k7O3X5%P_}an6pol^YPyAmkOrIdyZ>pNM)0;Kkn60~*#&g2RIE9@af-+M
zLs;NHz++*}vP?daf<H;UnJRar|3}L3y+XP$0Hjnb#$JH86M=l!pg9bnR$RT1W4KEv
zgugH1?n)S*fYZe>^R{kS@!5GZr*M#A{_h?M_q{*B&u6g1O3U#<ee6UOMKz)BQ~4b5
zQ>A}<mRwZ{L~=I)!|K%;-Ogiam*drR8_R9ws>*a!nC0f(-CyPADYjec4LpTf&Chv_
z=X7jma))Da%>O~SCE#;U;K8(>|8xQcy1BWx51xO9#`!NaUVS=ETq^!TbAk{~^D6vW
zTgdVMG>&wkP%zxY70W?4U&maOr);i|LThGt!u2*0IOhJbI>E4lM2obpK)>!21Oak(
zA^3<4{XZFcMD{*z8(3*Bx9(dG|E{U?&bhUwfo1>W&fYR<tL%-JN#EVf%E6z>Yb3rd
zMuqSr>BT>aVuSyWe$sIGk(BsfX?#^0=cx4n>Fo#Kw;mUS{<{Y^2)xz<twMWc_u#q@
z-!C2K@5c?Ho7$V_HyQx<*+^K}zaDK6I#&+Aci^7yy(6nb2k+UdLr2#MAn!N+*YIyz
zHV|BI6@-(*7Or)e;H2<j_x+Chx%)k<-}^q!cvAQx&?CGqd`hriKO_hTSI)dQcCX{T
zv#Y}|;*f(M4kP11SgsiSOcaEyu;BynQx1N)p7D`D$7iHN2yX;QL)YWMLo2b52M?_d
z9$FhbQkHgqAqfrPPYHBi_@4rS{D$!Q9uV;t3xC7?$KI2N$!`xQ#Ia+(|2!%{|2OH@
BKWP8}

literal 0
HcmV?d00001

diff --git a/__pycache__/version.cpython-312.pyc b/__pycache__/version.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..14e1b487a58339fd8cfd0159488f57c5526c033a
GIT binary patch
literal 221
zcmX@j%ge<81UW3-nPx!xF^B^Lj8MjB9w1{nLkdF_LkeRQV<nR&a}}F`o}r<hktXv?
zkfN8|Ac6@<_-QiT;*O6mOD!tS%+HIDza@y^l#~|aq{hduWcUoy^UGMjB)34nAhSTX
zB(W$xwM4g~)ZEe{+dNf2Co@UEpt2+*KTp3bCnr}QYMNd_<t+}I-29Z%oK(9akh?)H
dEEWI~AD9^#8E^23HE`b$k-NwsSi}Jo1OO0YIRgLy

literal 0
HcmV?d00001

diff --git a/_aiter_ops.py b/_aiter_ops.py
new file mode 100644
index 0000000..e53e4ae
--- /dev/null
+++ b/_aiter_ops.py
@@ -0,0 +1,983 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+from collections.abc import Callable
+
+import torch
+
+import vllm.envs as envs
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
+
+
+def is_aiter_found() -> bool:
+    from importlib.util import find_spec
+
+    return find_spec("aiter") is not None
+
+
+# `find_spec` is not torch.compile compatible.
+# In cases where aiter availability might have
+# been checked in forward passes that are torch compiled.
+# we keep this global outside to not cause torch compile breaks.
+IS_AITER_FOUND = is_aiter_found()
+
+
+def if_aiter_supported(func: Callable) -> Callable:
+    """Decorator that only executes the function if
+    ROCm AITER package is supported on gfx9 archs.
+    """
+
+    @functools.wraps(func)
+    def wrapper(*args, **kwargs):
+        # checks the platform, device arch and aiter library existence.
+
+        if current_platform.is_rocm() and IS_AITER_FOUND:
+            from vllm.platforms.rocm import on_gfx9
+
+            if on_gfx9():
+                return func(*args, **kwargs)
+
+        return None
+
+    return wrapper
+
+
+def _rocm_aiter_group_fp8_quant_impl(
+    x: torch.Tensor,
+    group_size: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert x.shape[-1] % group_size == 0, "Input shape must be divisible by group size"
+    from aiter import QuantType, dtypes, get_hip_quant
+
+    aiter_per1x128_quant = get_hip_quant(QuantType.per_1x128)
+    return aiter_per1x128_quant(x.contiguous(), quant_dtype=dtypes.fp8)
+
+
+def _rocm_aiter_group_fp8_quant_fake(
+    x: torch.Tensor,
+    group_size: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from aiter import dtypes
+
+    M, N = x.shape
+    x_fp8 = torch.empty((M, N), dtype=dtypes.fp8, device=x.device)
+    out_bs = torch.empty(
+        (
+            M,
+            (N + group_size - 1) // group_size,
+        ),
+        dtype=torch.float32,
+        device=x.device,
+    )
+    return x_fp8, out_bs
+
+
+def _rocm_aiter_fused_moe_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+    quant_method: int = 0,
+    doweight_stage1: bool = False,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+) -> torch.Tensor:
+    from aiter import ActivationType, QuantType
+    from aiter.fused_moe import fused_moe
+
+    activation = ActivationType(activation_method)
+    quant_type = QuantType(quant_method)
+
+    return fused_moe(
+        hidden_states,
+        w1,
+        w2,
+        topk_weight,
+        topk_ids,
+        expert_mask,
+        activation,
+        quant_type,
+        doweight_stage1,
+        w1_scale,
+        w2_scale,
+        a1_scale,
+        a2_scale,
+    )
+
+
+def _rocm_aiter_fused_moe_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+    quant_method: int = 0,
+    doweight_stage1: bool = False,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+def _rocm_aiter_asm_moe_tkw1_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: torch.Tensor | None = None,
+    fc2_scale: torch.Tensor | None = None,
+    fc1_smooth_scale: torch.Tensor | None = None,
+    fc2_smooth_scale: torch.Tensor | None = None,
+    a16: bool = False,
+    per_tensor_quant_scale: torch.Tensor | None = None,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+) -> torch.Tensor:
+    from aiter import ActivationType
+    from aiter.fused_moe_bf16_asm import asm_moe_tkw1
+
+    activation = ActivationType(activation_method)
+
+    return asm_moe_tkw1(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        fc1_scale=fc1_scale,
+        fc2_scale=fc2_scale,
+        fc1_smooth_scale=fc1_smooth_scale,
+        fc2_smooth_scale=fc2_smooth_scale,
+        a16=a16,
+        per_tensor_quant_scale=per_tensor_quant_scale,
+        expert_mask=expert_mask,
+        activation=activation,
+    )
+
+
+def _rocm_aiter_asm_moe_tkw1_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: torch.Tensor | None = None,
+    fc2_scale: torch.Tensor | None = None,
+    fc1_smooth_scale: torch.Tensor | None = None,
+    fc2_smooth_scale: torch.Tensor | None = None,
+    a16: bool = False,
+    per_tensor_quant_scale: torch.Tensor | None = None,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+def _rocm_aiter_topk_softmax_impl(
+    topk_weights: torch.Tensor,
+    topk_indices: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+    renormalize: bool,
+) -> None:
+    from aiter import topk_softmax
+
+    topk_softmax(
+        topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
+    )
+
+
+def _rocm_aiter_topk_softmax_fake(
+    topk_weights: torch.Tensor,
+    topk_indices: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+    renormalize: bool,
+) -> None:
+    pass
+
+
+def _rocm_aiter_biased_grouped_topk_impl(
+    gating_output: torch.Tensor,
+    correction_bias: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    from aiter import biased_grouped_topk
+
+    biased_grouped_topk(
+        gating_output,
+        correction_bias,
+        topk_weights,
+        topk_ids,
+        num_expert_group,
+        topk_group,
+        need_renorm,
+        routed_scaling_factor,
+    )
+
+
+def _rocm_aiter_biased_grouped_topk_fake(
+    gating_output: torch.Tensor,
+    correction_bias: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    pass
+
+
+def _rocm_aiter_grouped_topk_impl(
+    gating_output: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    is_softmax = scoring_func == "softmax"
+    from aiter import grouped_topk
+
+    grouped_topk(
+        gating_output,
+        topk_weights,
+        topk_ids,
+        num_expert_group,
+        topk_group,
+        need_renorm,
+        is_softmax,
+        routed_scaling_factor,
+    )
+
+
+def _rocm_aiter_grouped_topk_fake(
+    gating_output: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    pass
+
+
+def _rocm_aiter_mla_decode_fwd_impl(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
+    kv_indptr: torch.Tensor | None = None,
+    kv_indices: torch.Tensor | None = None,
+    kv_last_page_lens: torch.Tensor | None = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
+    from aiter.mla import mla_decode_fwd
+
+    mla_decode_fwd(
+        q,
+        kv_buffer.view(-1, 1, 1, q.shape[-1]),
+        o,
+        qo_indptr,
+        kv_indptr,
+        kv_indices,
+        kv_last_page_lens,
+        max_seqlen_qo,
+        sm_scale=sm_scale,
+        logit_cap=logit_cap,
+    )
+
+
+def _rocm_aiter_mla_decode_fwd_fake(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
+    kv_indptr: torch.Tensor | None = None,
+    kv_indices: torch.Tensor | None = None,
+    kv_last_page_lens: torch.Tensor | None = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
+    pass
+
+
+def _rocm_aiter_gemm_a8w8_impl(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    bias: torch.Tensor | None = None,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    from aiter import gemm_a8w8_CK
+
+    # gemm_a8w8_CK(a, b, scale_a, scale_b, bias) expects
+    # a to be [M, K]
+    # b to be [N, K]
+    # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
+    return gemm_a8w8_CK(A, B, As, Bs, bias, output_dtype)
+
+
+def _rocm_aiter_gemm_a8w8_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    bias: torch.Tensor | None = None,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    m = A.shape[0]
+    n = B.shape[0]
+    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
+    return Y
+
+
+def _rocm_aiter_gemm_a8w8_blockscale_impl(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    from aiter import gemm_a8w8_blockscale
+
+    return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
+
+
+def _rocm_aiter_gemm_a8w8_blockscale_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    m = A.shape[0]
+    n = B.shape[0]
+    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
+    return Y
+
+
+def _rocm_aiter_rms_norm_impl(
+    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    from aiter import rms_norm
+
+    if x.dim() > 2:
+        x_original_shape = x.shape
+        x = x.reshape(-1, x_original_shape[-1])
+        x = rms_norm(x, weight, variance_epsilon)
+        return x.reshape(x_original_shape)
+
+    return rms_norm(x, weight, variance_epsilon)
+
+
+def _rocm_aiter_rms_norm_fake(
+    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+def _rocm_aiter_rmsnorm2d_fwd_with_add_impl(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor,
+    variance_epsilon: float,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from aiter import rmsnorm2d_fwd_with_add
+
+    residual_out = torch.empty_like(residual)
+    output = torch.empty_like(x)
+    rmsnorm2d_fwd_with_add(
+        output,  # output
+        x,  # input
+        residual,  # residual input
+        residual_out,  # residual output
+        weight,
+        variance_epsilon,
+    )
+    return output, residual_out
+
+
+def _rocm_aiter_rmsnorm2d_fwd_with_add_fake(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor,
+    variance_epsilon: float,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    return torch.empty_like(x), torch.empty_like(residual)
+
+
+# Global flag to ensure ops are registered only once
+_OPS_REGISTERED = False
+
+
+class rocm_aiter_ops:
+    _AITER_ENABLED = envs.VLLM_ROCM_USE_AITER
+    _LINEAR_ENABLED = envs.VLLM_ROCM_USE_AITER_LINEAR
+    _RMSNORM_ENABLED = envs.VLLM_ROCM_USE_AITER_RMSNORM
+    _FMOE_ENABLED = envs.VLLM_ROCM_USE_AITER_MOE
+    _MLA_ENABLED = envs.VLLM_ROCM_USE_AITER_MLA
+    _PG_ATTN_ENABLED = envs.VLLM_ROCM_USE_AITER_PAGED_ATTN
+    _MHA_ENABLED = envs.VLLM_ROCM_USE_AITER_MHA
+    _TRITON_UNIFIED_ATTN_ENABLED = envs.VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION
+    _FP8BMM_ENABLED = envs.VLLM_ROCM_USE_AITER_FP8BMM
+    _FP4_GEMM_DYNAMIC_QUANT_ASM = envs.VLLM_ROCM_USE_AITER_FP4_ASM_GEMM
+    _TRITON_ROTARY_EMBED = envs.VLLM_ROCM_USE_AITER_TRITON_ROPE
+    _MOE_SHARED_EXPERTS_ENABLED = envs.VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS
+    _TRITON_UNQUANT_GEMM = envs.VLLM_ROCM_USE_AITER_TRITON_GEMM
+
+    @classmethod
+    @if_aiter_supported
+    def is_enabled(cls) -> bool:
+        """Verifies device specs and availability of aiter main env variable."""
+        return cls._AITER_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_linear_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._LINEAR_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_linear_fp8_enaled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls.is_linear_enabled() and current_platform.is_fp8_fnuz()
+
+    @classmethod
+    @if_aiter_supported
+    def is_rmsnorm_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._RMSNORM_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fused_moe_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._FMOE_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fusion_moe_shared_experts_enabled(cls) -> bool:
+        return cls.is_fused_moe_enabled() and cls._MOE_SHARED_EXPERTS_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_mla_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._MLA_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_mha_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._MHA_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_pa_attn_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._PG_ATTN_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_triton_unified_attn_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._TRITON_UNIFIED_ATTN_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fp8bmm_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._FP8BMM_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_asm_fp4_gemm_dynamic_quant_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._FP4_GEMM_DYNAMIC_QUANT_ASM
+
+    @classmethod
+    @if_aiter_supported
+    def is_triton_rotary_embed_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._TRITON_ROTARY_EMBED
+
+    @classmethod
+    @if_aiter_supported
+    def is_triton_gemm_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._TRITON_UNQUANT_GEMM
+
+    @staticmethod
+    @if_aiter_supported
+    def register_ops_once() -> None:
+        global _OPS_REGISTERED
+        if not _OPS_REGISTERED:
+            tags = (
+                tuple()
+                if is_torch_equal_or_newer("2.7.0")
+                else (torch.Tag.needs_fixed_stride_order,)
+            )
+
+            # register all the custom ops here
+            direct_register_custom_op(
+                op_name="rocm_aiter_group_fp8_quant",
+                op_func=_rocm_aiter_group_fp8_quant_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_group_fp8_quant_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_asm_moe_tkw1",
+                op_func=_rocm_aiter_asm_moe_tkw1_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_asm_moe_tkw1_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_fused_moe",
+                op_func=_rocm_aiter_fused_moe_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_fused_moe_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_topk_softmax",
+                op_func=_rocm_aiter_topk_softmax_impl,
+                mutates_args=["topk_weights", "topk_indices", "token_expert_indices"],
+                fake_impl=_rocm_aiter_topk_softmax_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_biased_grouped_topk",
+                op_func=_rocm_aiter_biased_grouped_topk_impl,
+                mutates_args=["topk_weights", "topk_ids"],
+                fake_impl=_rocm_aiter_biased_grouped_topk_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_grouped_topk",
+                op_func=_rocm_aiter_grouped_topk_impl,
+                mutates_args=["topk_weights", "topk_ids"],
+                fake_impl=_rocm_aiter_grouped_topk_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_mla_decode_fwd",
+                op_func=_rocm_aiter_mla_decode_fwd_impl,
+                mutates_args=["o"],
+                fake_impl=_rocm_aiter_mla_decode_fwd_fake,
+                tags=tags,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_gemm_a8w8",
+                op_func=_rocm_aiter_gemm_a8w8_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_gemm_a8w8_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_gemm_a8w8_blockscale",
+                op_func=_rocm_aiter_gemm_a8w8_blockscale_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_gemm_a8w8_blockscale_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_rms_norm",
+                op_func=_rocm_aiter_rms_norm_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_rms_norm_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_rmsnorm2d_fwd_with_add",
+                op_func=_rocm_aiter_rmsnorm2d_fwd_with_add_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_rmsnorm2d_fwd_with_add_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            _OPS_REGISTERED = True
+
+    @staticmethod
+    def rms_norm2d_with_add(
+        x: torch.Tensor,
+        residual: torch.Tensor,
+        weight: torch.Tensor,
+        variance_epsilon: float,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return torch.ops.vllm.rocm_aiter_rmsnorm2d_fwd_with_add(
+            x, residual, weight, variance_epsilon
+        )
+
+    @staticmethod
+    def rms_norm(
+        x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_rms_norm(x, weight, variance_epsilon)
+
+    @staticmethod
+    def gemm_a8w8(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        bias: torch.Tensor | None = None,
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_gemm_a8w8(A, B, As, Bs, bias, output_dtype)
+
+    @staticmethod
+    def gemm_a8w8_blockscale(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        block_size: list[int],
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_gemm_a8w8_blockscale(
+            A, B, As, Bs, output_dtype
+        )
+
+    @staticmethod
+    def fused_moe(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weight: torch.Tensor,
+        topk_ids: torch.Tensor,
+        expert_mask: torch.Tensor | None = None,
+        activation_method: int = 0,
+        quant_method: int = 0,
+        doweight_stage1: bool = False,
+        w1_scale: torch.Tensor | None = None,
+        w2_scale: torch.Tensor | None = None,
+        a1_scale: torch.Tensor | None = None,
+        a2_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_fused_moe(
+            hidden_states,
+            w1,
+            w2,
+            topk_weight,
+            topk_ids,
+            expert_mask,
+            activation_method,
+            quant_method,
+            doweight_stage1,
+            w1_scale,
+            w2_scale,
+            a1_scale,
+            a2_scale,
+        )
+
+    @staticmethod
+    def asm_moe_tkw1(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        fc1_scale: torch.Tensor | None = None,
+        fc2_scale: torch.Tensor | None = None,
+        fc1_smooth_scale: torch.Tensor | None = None,
+        fc2_smooth_scale: torch.Tensor | None = None,
+        a16: bool = False,
+        per_tensor_quant_scale: torch.Tensor | None = None,
+        expert_mask: torch.Tensor | None = None,
+        activation_method: int = 0,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_asm_moe_tkw1(
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            fc1_scale,
+            fc2_scale,
+            fc1_smooth_scale,
+            fc2_smooth_scale,
+            a16,
+            per_tensor_quant_scale,
+            expert_mask,
+            activation_method,
+        )
+
+    @staticmethod
+    def topk_softmax(
+        topk_weights: torch.Tensor,
+        topk_indices: torch.Tensor,
+        token_expert_indices: torch.Tensor,
+        gating_output: torch.Tensor,
+        renormalize: bool,
+    ) -> tuple[torch.Tensor, ...]:
+        torch.ops.vllm.rocm_aiter_topk_softmax(
+            topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
+        )
+        return topk_weights, topk_indices
+
+    @staticmethod
+    def biased_grouped_topk(
+        gating_output: torch.Tensor,
+        correction_bias: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        routed_scaling_factor: float = 1.0,
+    ) -> None:
+        torch.ops.vllm.rocm_aiter_biased_grouped_topk(
+            gating_output,
+            correction_bias,
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            need_renorm,
+            routed_scaling_factor,
+        )
+
+    @staticmethod
+    def grouped_topk(
+        gating_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+    ) -> None:
+        torch.ops.vllm.rocm_aiter_grouped_topk(
+            gating_output,
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            need_renorm,
+            scoring_func,
+            routed_scaling_factor,
+        )
+
+    @staticmethod
+    def mla_decode_fwd(
+        q: torch.Tensor,
+        kv_buffer: torch.Tensor,
+        o: torch.Tensor,
+        sm_scale: float,
+        qo_indptr: torch.Tensor,
+        max_seqlen_qo: int,
+        kv_indptr: torch.Tensor | None = None,
+        kv_indices: torch.Tensor | None = None,
+        kv_last_page_lens: torch.Tensor | None = None,
+        logit_cap: float = 0.0,
+    ):
+        torch.ops.vllm.rocm_aiter_mla_decode_fwd(
+            q,
+            kv_buffer.view(-1, 1, 1, q.shape[-1]),
+            o,
+            qo_indptr,
+            max_seqlen_qo,
+            kv_indptr,
+            kv_indices,
+            kv_last_page_lens,
+            sm_scale=sm_scale,
+            logit_cap=logit_cap,
+        )
+
+    @staticmethod
+    def triton_fp4_gemm_dynamic_qaunt(
+        x: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        out_dtype: torch.dtype | None = torch.bfloat16,
+        x_scales: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        from aiter.ops.triton.gemm_afp4wfp4 import gemm_afp4wfp4
+        from aiter.ops.triton.quant import dynamic_mxfp4_quant
+
+        if x_scales is None:
+            x_q, x_s = dynamic_mxfp4_quant(x)
+        else:
+            x_q = x
+            x_s = x_scales
+
+        y = torch.empty(
+            x_q.shape[0], weight.shape[0], device=x_q.device, dtype=out_dtype
+        )
+
+        gemm_afp4wfp4(x_q, weight, x_s, weight_scale.T, out_dtype, y)
+        return y
+
+    @staticmethod
+    def triton_rotary_embed(
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        cos_sin_cache: torch.Tensor,
+        head_size: int,
+        rotary_dim: int,
+        is_neox_style: bool,
+    ):
+        from aiter.ops.triton.rope import rope_cached_thd_positions_2c_fwd_inplace
+
+        num_tokens = positions.numel()
+        cos, sin = cos_sin_cache.chunk(2, dim=-1)
+        query_shape = query.shape
+        key_shape = key.shape
+        rotate_style = 0 if is_neox_style else 1
+
+        query = query.view(num_tokens, -1, head_size)
+        key = key.view(num_tokens, -1, head_size)
+        query_ = query[..., :rotary_dim]
+        key_ = key[..., :rotary_dim]
+        positions = positions.view(*query.shape[:1])
+        rope_cached_thd_positions_2c_fwd_inplace(
+            positions,
+            sin,
+            cos,
+            query_,
+            key_,
+            rotate_style,
+            reuse_freqs_front_part=True,
+            is_nope_first=False,
+        )
+        query = query.view(query_shape)
+        key = key.view(key_shape)
+
+    @staticmethod
+    def triton_fp8_bmm(
+        X: torch.Tensor,
+        WQ: torch.Tensor,
+        w_scale: torch.Tensor,
+        group_size: int = 128,
+        bias: torch.Tensor | None = None,
+        dtype: torch.dtype | None = torch.bfloat16,
+        splitK: int | None = None,
+        YQ: torch.Tensor | None = None,
+        transpose_bm: bool | None = False,
+        config: dict | None = None,
+    ) -> torch.Tensor:
+        # ruff: noqa: E501 # isort: skip
+        from aiter.ops.triton.batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant import (
+            batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant as aiter_triton_fp8_bmm,
+        )
+
+        return aiter_triton_fp8_bmm(
+            X,
+            WQ,
+            w_scale,
+            group_size=group_size,
+            bias=bias,
+            dtype=dtype,
+            splitK=splitK,
+            YQ=YQ,
+            transpose_bm=transpose_bm,
+            config=config,
+        )
+
+    @staticmethod
+    def triton_gemm_a8w8_blockscale(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        block_size: list[int],
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        from aiter.ops.triton.gemm_a8w8_blockscale import gemm_a8w8_blockscale
+
+        return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
+
+    @staticmethod
+    def group_fp8_quant(
+        input_2d: torch.Tensor,
+        group_size: int = 128,
+    ) -> tuple[torch.Tensor, ...]:
+        assert group_size == 128, "Group size must be 128"
+        return torch.ops.vllm.rocm_aiter_group_fp8_quant(input_2d, group_size)
+
+    @staticmethod
+    def is_triton_gemm_w8a8_tuned(n: int, k: int) -> bool:
+        return (n, k) in [
+            (1024, 8192),
+            (2112, 7168),
+            (3072, 1536),
+            (32768, 8192),
+            (4096, 7168),
+            (4608, 7168),
+            (512, 7168),
+            (7168, 2048),
+            (7168, 256),
+            (8192, 1024),
+            (8192, 32768),
+        ]
+
+    @staticmethod
+    def shuffle_weight(
+        self, tensor: torch.Tensor, layout: tuple[int, int] = (16, 16)
+    ) -> torch.Tensor:
+        from aiter.ops.shuffle import shuffle_weight
+
+        return shuffle_weight(tensor, layout=layout)
+
+    @staticmethod
+    def shuffle_weights(
+        *tensors: torch.Tensor, layout: tuple[int, int] = (16, 16)
+    ) -> tuple[torch.Tensor, ...]:
+        """
+        Applies shuffle_weight function from AITER to each
+        input tensor and returns them.
+
+        Rearranges (shuffles) the input tensor/s
+        into a specified block layout for optimized computation.
+
+        Args:
+            *tensors: Variable number of torch.Tensor objects.
+            layout: A pair of integers specifying the block sizes used to divide
+                the tensors during shuffling. Default is (16, 16).
+
+        Returns:
+        A Tuple of shuffled tensors.
+        """
+        from aiter.ops.shuffle import shuffle_weight
+
+        return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
+
+
+rocm_aiter_ops.register_ops_once()
diff --git a/_bc_linter.py b/_bc_linter.py
new file mode 100644
index 0000000..2929a8b
--- /dev/null
+++ b/_bc_linter.py
@@ -0,0 +1,54 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# vllm/_bc_linter.py
+from collections.abc import Callable
+from typing import Any, TypeVar, overload
+
+T = TypeVar("T")
+
+
+@overload
+def bc_linter_skip(obj: T) -> T: ...
+
+
+@overload
+def bc_linter_skip(*, reason: str | None = ...) -> Callable[[T], T]: ...
+
+
+def bc_linter_skip(obj: Any = None, *, reason: str | None = None):
+    """
+    No-op decorator to mark symbols/files for BC-linter suppression.
+
+    Usage:
+        @bc_linter_skip
+        def legacy_api(...): ...
+    """
+
+    def _wrap(x: T) -> T:
+        return x
+
+    return _wrap if obj is None else obj
+
+
+@overload
+def bc_linter_include(obj: T) -> T: ...
+
+
+@overload
+def bc_linter_include(*, reason: str | None = ...) -> Callable[[T], T]: ...
+
+
+def bc_linter_include(obj: Any = None, *, reason: str | None = None):
+    """
+    Usage:
+        @bc_linter_include
+        def public_api(...): ...
+    """
+
+    def _wrap(x: T) -> T:
+        return x
+
+    return _wrap if obj is None else obj
+
+
+__all__ = ["bc_linter_skip", "bc_linter_include"]
diff --git a/_custom_ops.py b/_custom_ops.py
new file mode 100644
index 0000000..54243aa
--- /dev/null
+++ b/_custom_ops.py
@@ -0,0 +1,3512 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING, Literal, Optional, List, Dict, Any
+
+import torch
+import torch.nn.functional as F
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.scalar_type import ScalarType
+
+import ixformer.inference.functions as ops
+from ixformer.distributed import _distributed as cdist
+import vllm.envs as envs
+from ixformer.core import config
+import math
+_USE_TORCH_OPS = config.IXFORMER_USE_TORCH_OPS
+
+current_platform.import_kernels()
+
+if TYPE_CHECKING:
+
+    def register_fake(fn):
+        return lambda name: fn
+else:
+    try:
+        from torch.library import register_fake
+    except ImportError:
+        from torch.library import impl_abstract as register_fake
+
+# activation ops
+def silu_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+    ops.silu_and_mul(x, out)
+
+
+def gelu_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+    ops.gelu_and_mul(x, out)
+
+
+def gelu_tanh_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+    ops.gelu_tanh_and_mul(x, out)
+    
+def swigluoai_and_mul(out: torch.Tensor, x: torch.Tensor, 
+                      alpha: float = 1.702, limit: float = 7.0) -> None:
+    ops.swigluoai_and_mul(x, out, alpha, limit)
+
+#https://github.com/huggingface/transformers/blob/main/src/transformers/activations.py
+def gelu_fast(out: torch.Tensor, x: torch.Tensor) -> None:
+    x = 0.5 * x * (1.0 + torch.tanh(x * 0.7978845608 * (1.0 + 0.044715 * x * x)))
+    out.copy_(x)
+    return out
+
+
+def gelu_new(out: torch.Tensor, x: torch.Tensor) -> None:
+    x = 0.5 * x * (1.0 + torch.tanh(math.sqrt(2.0 / math.pi) * (x + 0.044715 * torch.pow(x, 3.0))))
+    out.copy_(x)
+    return out
+
+
+def gelu_quick(out: torch.Tensor, x: torch.Tensor) -> None:
+    #inplace
+    out.copy_(x)
+    out.mul_(torch.sigmoid(x * 1.702))
+    return out
+
+
+# page attention ops
+def paged_attention_v1(
+    out: torch.Tensor,
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    num_kv_heads: int,
+    scale: float,
+    block_tables: torch.Tensor,
+    seq_lens: torch.Tensor,
+    block_size: int,
+    max_seq_len: int,
+    alibi_slopes: torch.Tensor | None,
+    kv_cache_dtype: str,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+    tp_rank: int = 0,
+    blocksparse_local_blocks: int = 0,
+    blocksparse_vert_stride: int = 0,
+    blocksparse_block_size: int = 64,
+    blocksparse_head_sliding_step: int = 0,
+) -> None:
+    torch.ops._C.paged_attention_v1(
+        out,
+        query,
+        key_cache,
+        value_cache,
+        num_kv_heads,
+        scale,
+        block_tables,
+        seq_lens,
+        block_size,
+        max_seq_len,
+        alibi_slopes,
+        kv_cache_dtype,
+        k_scale,
+        v_scale,
+        tp_rank,
+        blocksparse_local_blocks,
+        blocksparse_vert_stride,
+        blocksparse_block_size,
+        blocksparse_head_sliding_step,
+    )
+
+def paged_attention_v2(
+    out: torch.Tensor,
+    exp_sum: torch.Tensor,
+    max_logits: torch.Tensor,
+    tmp_out: torch.Tensor,
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    num_kv_heads: int,
+    scale: float,
+    block_tables: torch.Tensor,
+    seq_lens: torch.Tensor,
+    block_size: int,
+    max_seq_len: int,
+    alibi_slopes: torch.Tensor | None,
+    kv_cache_dtype: str,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+    tp_rank: int = 0,
+    blocksparse_local_blocks: int = 0,
+    blocksparse_vert_stride: int = 0,
+    blocksparse_block_size: int = 64,
+    blocksparse_head_sliding_step: int = 0,
+) -> None:
+    torch.ops._C.paged_attention_v2(
+        out,
+        exp_sum,
+        max_logits,
+        tmp_out,
+        query,
+        key_cache,
+        value_cache,
+        num_kv_heads,
+        scale,
+        block_tables,
+        seq_lens,
+        block_size,
+        max_seq_len,
+        alibi_slopes,
+        kv_cache_dtype,
+        k_scale,
+        v_scale,
+        tp_rank,
+        blocksparse_local_blocks,
+        blocksparse_vert_stride,
+        blocksparse_block_size,
+        blocksparse_head_sliding_step,
+    )
+
+
+def paged_attention_rocm(
+    out: torch.Tensor,
+    exp_sum: torch.Tensor,
+    max_logits: torch.Tensor,
+    tmp_out: torch.Tensor,
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    num_kv_heads: int,
+    scale: float,
+    block_tables: torch.Tensor,
+    seq_lens: torch.Tensor,
+    query_start_loc: torch.Tensor | None,
+    block_size: int,
+    max_seq_len: int,
+    alibi_slopes: torch.Tensor | None,
+    kv_cache_dtype: str,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+    fp8_out_scale: torch.Tensor | None = None,
+    mfma_type: str = "fp8" if envs.VLLM_ROCM_FP8_MFMA_PAGE_ATTN else "f16",
+) -> None:
+    torch.ops._rocm_C.paged_attention(
+        out,
+        exp_sum,
+        max_logits,
+        tmp_out,
+        query,
+        key_cache,
+        value_cache,
+        num_kv_heads,
+        scale,
+        block_tables,
+        seq_lens,
+        query_start_loc,
+        block_size,
+        max_seq_len,
+        alibi_slopes,
+        kv_cache_dtype,
+        k_scale,
+        v_scale,
+        fp8_out_scale,
+        mfma_type,
+    )
+
+
+def mla_decode_kvcache_cpu(
+    out: torch.Tensor,
+    query: torch.Tensor,
+    kv_cache: torch.Tensor,
+    scale: float,
+    block_tables: torch.Tensor,
+    seq_lens: torch.Tensor,
+) -> None:
+    torch.ops._C_cpu.mla_decode_kvcache(
+        out, query, kv_cache, scale, block_tables, seq_lens
+    )
+
+
+# merge attn states ops
+def merge_attn_states(
+    output: torch.Tensor,
+    prefix_output: torch.Tensor,
+    prefix_lse: torch.Tensor,
+    suffix_output: torch.Tensor,
+    suffix_lse: torch.Tensor,
+    output_lse: torch.Tensor | None = None,
+) -> None:
+    torch.ops._C.merge_attn_states(
+        output, output_lse, prefix_output, prefix_lse, suffix_output, suffix_lse
+    )
+
+
+def convert_vertical_slash_indexes(
+    q_seqlens: torch.Tensor,  # [BATCH, ]
+    kv_seqlens: torch.Tensor,  # [BATCH, ]
+    vertical_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_V]
+    slash_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_S]
+    context_size: int,
+    block_size_M: int,
+    block_size_N: int,
+    causal: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    batch_size = slash_indexes.size(0)
+    num_heads = slash_indexes.size(1)
+    nnz_slash = slash_indexes.size(2)
+    nnz_vertical = vertical_indexes.size(2)
+    num_rows = (context_size + block_size_M - 1) // block_size_M
+
+    block_count = torch.zeros(
+        batch_size, num_heads, num_rows, dtype=q_seqlens.dtype, device=q_seqlens.device
+    )
+    block_offset = torch.zeros(
+        batch_size,
+        num_heads,
+        num_rows,
+        nnz_slash,
+        dtype=q_seqlens.dtype,
+        device=q_seqlens.device,
+    )
+    column_count = torch.zeros(
+        batch_size, num_heads, num_rows, dtype=q_seqlens.dtype, device=q_seqlens.device
+    )
+    column_index = torch.zeros(
+        batch_size,
+        num_heads,
+        num_rows,
+        nnz_vertical,
+        dtype=q_seqlens.dtype,
+        device=q_seqlens.device,
+    )
+
+    torch.ops._C.convert_vertical_slash_indexes(
+        block_count,
+        block_offset,
+        column_count,
+        column_index,
+        q_seqlens,
+        kv_seqlens,
+        vertical_indexes,
+        slash_indexes,
+        context_size,
+        block_size_M,
+        block_size_N,
+        causal,
+    )
+    return block_count, block_offset, column_count, column_index
+
+
+def convert_vertical_slash_indexes_mergehead(
+    q_seqlens: torch.Tensor,  # [BATCH, ]
+    kv_seqlens: torch.Tensor,  # [BATCH, ]
+    vertical_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_V]
+    slash_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_S]
+    # [N_HEADS] : different head use different number of indices
+    vertical_indices_count: torch.Tensor,
+    slash_indices_count: torch.Tensor,
+    context_size: int,
+    block_size_M: int,
+    block_size_N: int,
+    causal: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    batch_size = slash_indexes.size(0)
+    num_heads = slash_indexes.size(1)
+    nnz_slash = slash_indexes.size(2)
+    nnz_vertical = vertical_indexes.size(2)
+    num_rows = (context_size + block_size_M - 1) // block_size_M
+
+    block_count = torch.empty(
+        batch_size, num_heads, num_rows, dtype=q_seqlens.dtype, device=q_seqlens.device
+    )
+    block_offset = torch.empty(
+        batch_size,
+        num_heads,
+        num_rows,
+        nnz_slash,
+        dtype=q_seqlens.dtype,
+        device=q_seqlens.device,
+    )
+    column_count = torch.empty(
+        batch_size, num_heads, num_rows, dtype=q_seqlens.dtype, device=q_seqlens.device
+    )
+    column_index = torch.empty(
+        batch_size,
+        num_heads,
+        num_rows,
+        nnz_vertical,
+        dtype=q_seqlens.dtype,
+        device=q_seqlens.device,
+    )
+
+    torch.ops._C.convert_vertical_slash_indexes_mergehead(
+        block_count,
+        block_offset,
+        column_count,
+        column_index,
+        q_seqlens,
+        kv_seqlens,
+        vertical_indexes,
+        slash_indexes,
+        vertical_indices_count,
+        slash_indices_count,
+        context_size,
+        block_size_M,
+        block_size_N,
+        causal,
+    )
+    return block_count, block_offset, column_count, column_index
+
+
+# pos encoding ops
+def rotary_embedding(
+    positions: torch.Tensor,
+    query: torch.Tensor,
+    key: torch.Tensor | None,
+    head_size: int,
+    cos_sin_cache: torch.Tensor,
+    is_neox: bool,
+) -> None:
+    ops.vllm_rotary_embedding(positions, query, key, head_size,
+                                  cos_sin_cache, is_neox)
+
+def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
+                             key: Optional[torch.Tensor], head_size: int,
+                             cos_sin_cache: torch.Tensor, is_neox: bool,
+                             rot_dim: int,
+                             cos_sin_cache_offsets: torch.Tensor) -> None:
+    ops.vllm_batched_rotary_embedding(positions, query, key, head_size,
+                                          cos_sin_cache, is_neox, rot_dim,
+                                          cos_sin_cache_offsets)
+def m_rotary_embedding(
+    positions: torch.Tensor,
+    query: torch.Tensor,
+    key: Optional[torch.Tensor],
+    head_size: int,
+    cos_sin_cache: torch.Tensor,
+    smrope_section: torch.Tensor,
+    is_neox: bool,
+) -> None:
+    ops.vllm_m_rotary_embedding(positions, query, key, head_size,
+                                  cos_sin_cache, smrope_section, is_neox)
+
+# layer norm ops
+def rms_norm(out: torch.Tensor, input: torch.Tensor, weight: torch.Tensor,
+             epsilon: float) -> None:
+    ops.rms_norm(input, weight, epsilon, out)
+
+
+def fused_add_rms_norm(input: torch.Tensor, residual: torch.Tensor,
+                       weight: torch.Tensor, epsilon: float,
+                       residual_alpha: Optional[float] = 1) -> None:
+    output, residual_output = ops.residual_rms_norm(input, weight, epsilon, residual_alpha, residual)
+    return output, residual_output
+
+def rms_norm_qk(
+    output_q: torch.Tensor,
+    output_k: torch.Tensor,
+    input_q: torch.Tensor,
+    input_k: torch.Tensor,
+    weight_q: torch.Tensor,
+    weight_k: torch.Tensor,
+    epsilon: float,
+) -> None:
+    ops.rms_norm_qk(
+        input_q, input_k, weight_q, weight_k, epsilon, output_q, output_k)
+
+
+def fused_qk_norm_rope(
+    qkv: torch.Tensor,
+    num_heads_q: int,
+    num_heads_k: int,
+    num_heads_v: int,
+    head_dim: int,
+    eps: float,
+    q_weight: torch.Tensor,
+    k_weight: torch.Tensor,
+    cos_sin_cache: torch.Tensor,
+    is_neox: bool,
+    position_ids: torch.Tensor,
+) -> None:
+    torch.ops._C.fused_qk_norm_rope(
+        qkv,
+        num_heads_q,
+        num_heads_k,
+        num_heads_v,
+        head_dim,
+        eps,
+        q_weight,
+        k_weight,
+        cos_sin_cache,
+        is_neox,
+        position_ids,
+    )
+
+
+def apply_repetition_penalties_torch(
+    logits: torch.Tensor,
+    prompt_mask: torch.Tensor,
+    output_mask: torch.Tensor,
+    repetition_penalties: torch.Tensor,
+) -> None:
+    repetition_penalties = repetition_penalties.unsqueeze(dim=1).repeat(
+        1, logits.size(1)
+    )
+    # If token appears in prompt or output, apply, otherwise use 1.0 for no-op.
+    penalties = torch.where(prompt_mask | output_mask, repetition_penalties, 1.0)
+    # If logits are positive, divide by penalty, otherwise multiply by penalty.
+    scaling = torch.where(logits > 0, 1.0 / penalties, penalties)
+    logits *= scaling
+
+
+def apply_repetition_penalties_cuda(
+    logits: torch.Tensor,
+    prompt_mask: torch.Tensor,
+    output_mask: torch.Tensor,
+    repetition_penalties: torch.Tensor,
+) -> None:
+    torch.ops._C.apply_repetition_penalties_(
+        logits, prompt_mask, output_mask, repetition_penalties
+    )
+
+
+def apply_repetition_penalties(
+    logits: torch.Tensor,
+    prompt_mask: torch.Tensor,
+    output_mask: torch.Tensor,
+    repetition_penalties: torch.Tensor,
+) -> None:
+    """Apply repetition penalties to logits in-place.
+
+    Args:
+        logits: The logits tensor of shape [num_seqs, vocab_size].
+        prompt_mask: A boolean tensor indicating which tokens appear in the prompt.
+        output_mask: A boolean tensor indicating which tokens appear in the output.
+        repetition_penalties: The repetition penalties of shape (num_seqs, ).
+    """
+    apply_repetition_penalties_torch(
+            logits, prompt_mask, output_mask, repetition_penalties
+        )
+
+# fused quant layer norm ops
+def rms_norm_dynamic_per_token_quant(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    epsilon: float,
+    quant_dtype: torch.dtype,
+    scale_ub: torch.Tensor | None = None,
+    residual: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    output = torch.empty_like(input, dtype=quant_dtype)
+    scales = torch.empty(
+        (input.numel() // input.shape[-1], 1), device=input.device, dtype=torch.float32
+    )
+
+    torch.ops._C.rms_norm_dynamic_per_token_quant(
+        output, input, weight, scales, epsilon, scale_ub, residual
+    )
+    return output, scales
+
+
+# quantization ops
+# awq
+def awq_dequantize(
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor,
+    split_k_iters: int,
+    thx: int,
+    thy: int,
+) -> torch.Tensor:
+    if envs.VLLM_USE_TRITON_AWQ:
+        from vllm.model_executor.layers.quantization.awq_triton import (
+            awq_dequantize_triton,
+        )
+
+        return awq_dequantize_triton(qweight, scales, zeros)
+    return torch.ops._C.awq_dequantize(qweight, scales, zeros, split_k_iters, thx, thy)
+
+
+def awq_gemm(input: torch.Tensor, qweight: torch.Tensor, scales: torch.Tensor, qzeros: torch.Tensor,
+             pack_factor, group_size: int = 128) -> torch.Tensor:
+    return ops.wui4a16(input, qweight, scales, qzeros, None, group_size, "NN")
+
+
+
+def custom_gptq_marlin_gemm(input: torch.Tensor, qweight: torch.Tensor, scales: torch.Tensor, qzeros: torch.Tensor,
+             pack_factor, group_size: int = 128, bias = None) -> torch.Tensor:
+    if _USE_TORCH_OPS:
+        return torch.ops.ixf_ops.wui4a16(input, qweight, scales, qzeros, bias, group_size, "NN")
+    else:
+        return ops.wui4a16(input, qweight, scales, qzeros, bias, group_size, "NN")
+
+
+# gptq
+def gptq_gemm(a: torch.Tensor, b_q_weight: torch.Tensor,
+              b_gptq_qzeros: torch.Tensor, b_gptq_scales: torch.Tensor,
+              b_g_idx: torch.Tensor, use_exllama: bool, use_v2_format: bool,
+              bit: int) -> torch.Tensor:
+    if use_v2_format:
+        raise NotImplementedError("gptq_gemm  not support use_v2_format")
+    return ops.gptq_gemm(a, b_q_weight, b_gptq_qzeros ,b_gptq_scales,
+                                  b_g_idx, use_exllama, bit)
+
+
+if hasattr(torch.ops._C, "gptq_gemm"):
+
+    @register_fake("_C::gptq_gemm")
+    def _gptq_gemm_fake(
+        a: torch.Tensor,
+        b_q_weight: torch.Tensor,
+        b_gptq_qzeros: torch.Tensor,
+        b_gptq_scales: torch.Tensor,
+        b_g_idx: torch.Tensor,
+        use_exllama: bool,
+        use_v2_format: bool,
+        bit: int,
+    ) -> torch.Tensor:
+        return torch.empty(
+            (a.size(0), b_q_weight.size(1)), dtype=a.dtype, device=a.device
+        )
+
+
+def gptq_shuffle(q_weight: torch.Tensor, q_perm: torch.Tensor,
+                 bit: int) -> None:
+    ops.vllm_gptq_shuffle(q_weight, q_perm, bit)
+
+
+# marlin_24
+def gptq_marlin_24_gemm(
+    a: torch.Tensor,
+    b_q_weight: torch.Tensor,
+    b_meta: torch.Tensor,
+    b_scales: torch.Tensor,
+    workspace: torch.Tensor,
+    b_q_type: ScalarType,
+    size_m: int,
+    size_n: int,
+    size_k: int,
+) -> torch.Tensor:
+    return torch.ops._C.gptq_marlin_24_gemm(
+        a, b_q_weight, b_meta, b_scales, workspace, b_q_type.id, size_m, size_n, size_k
+    )
+
+
+if hasattr(torch.ops._C, "gptq_marlin_24_gemm"):
+
+    @register_fake("_C::gptq_marlin_24_gemm")
+    def _gptq_marlin_24_gemm_fake(
+        a: torch.Tensor,
+        b_q_weight: torch.Tensor,
+        b_meta: torch.Tensor,
+        b_scales: torch.Tensor,
+        workspace: torch.Tensor,
+        b_q_type: ScalarType,
+        size_m: torch.SymInt,
+        size_n: torch.SymInt,
+        size_k: torch.SymInt,
+    ) -> torch.Tensor:
+        return torch.empty((size_m, size_n), device=a.device, dtype=a.dtype)
+
+    @register_fake("_C::gptq_marlin_gemm")
+    def _gptq_marlin_gemm_fake(
+        a: torch.Tensor,
+        c: torch.Tensor | None,
+        b_q_weight: torch.Tensor,
+        b_bias: torch.Tensor | None,
+        b_scales: torch.Tensor,
+        global_scale: torch.Tensor | None,
+        b_zeros: torch.Tensor | None,
+        g_idx: torch.Tensor | None,
+        perm: torch.Tensor | None,
+        workspace: torch.Tensor,
+        b_q_type_id: int,
+        size_m: torch.SymInt,
+        size_n: torch.SymInt,
+        size_k: torch.SymInt,
+        is_k_full: bool = True,
+        use_atomic_add: bool = False,
+        use_fp32_reduce: bool = False,
+        is_zp_float: bool = False,
+    ) -> torch.Tensor:
+        return torch.empty((size_m, size_n), device=a.device, dtype=a.dtype)
+
+    @register_fake("_C::awq_dequantize")
+    def _awq_dequantize_fake(
+        qweight: torch.Tensor,
+        scales: torch.Tensor,
+        zeros: torch.Tensor,
+        split_k_iters: torch.SymInt,
+        thx: int,
+        thy: int,
+    ) -> torch.Tensor:
+        in_c = qweight.size(0)
+        qout_c = qweight.size(1)
+        out_c = qout_c * 8
+        return torch.empty((in_c, out_c), dtype=scales.dtype, device=scales.device)
+
+    @register_fake("_C::awq_gemm")
+    def _awq_gemm_fake(
+        input: torch.Tensor,
+        qweight: torch.Tensor,
+        qzeros: torch.Tensor,
+        scales: torch.Tensor,
+        split_k_iters: torch.SymInt,
+    ) -> torch.Tensor:
+        num_in_feats = input.size(0)
+        return torch.empty(
+            (split_k_iters, num_in_feats, qweight.size(1) * 8),
+            dtype=input.dtype,
+            device=input.device,
+        ).sum(0)
+
+    @register_fake("_C::machete_mm")
+    def machete_mm_fake(
+        a: torch.Tensor,
+        # b_q Should be the tensor returned by machete_prepack_B
+        b_q: torch.Tensor,
+        b_type: ScalarType,
+        out_type: torch.dtype | None = None,
+        b_group_scales: torch.Tensor | None = None,
+        b_group_zeros: torch.Tensor | None = None,
+        b_group_size: int | None = None,
+        b_channel_scales: torch.Tensor | None = None,
+        a_token_scales: torch.Tensor | None = None,
+        schedule: str | None = None,
+    ) -> torch.Tensor:
+        m = a.size(0)
+        n = b_q.size(1)
+        return torch.empty((m, n), device=a.device, dtype=a.dtype)
+
+    @register_fake("_C::machete_prepack_B")
+    def machete_prepack_B_fake(
+        b_q_weight: torch.Tensor,
+        a_type: torch.dtype,
+        b_type: ScalarType,
+        group_scales_type: torch.dtype | None,
+    ) -> torch.Tensor:
+        return torch.empty_like(b_q_weight, memory_format=torch.contiguous_format)
+
+    @register_fake("_C::cutlass_w4a8_mm")
+    def cutlass_w4a8_mm_fake(
+        a: torch.Tensor,
+        # b_q Should be the tensor returned by cutlass_encode_and_reorder_int4b
+        b_q: torch.Tensor,
+        b_group_scales: torch.Tensor,
+        b_group_size: int,
+        b_channel_scales: torch.Tensor,
+        a_token_scales: torch.Tensor,
+        out_type: torch.dtype | None = None,
+        maybe_schedule: str | None = None,
+    ) -> torch.Tensor:
+        m = a.size(0)
+        n = b_q.size(1)
+        out_dtype = out_type if out_type is not None else torch.bfloat16
+        return torch.empty((m, n), device=a.device, dtype=out_dtype)
+
+    @register_fake("_C::cutlass_pack_scale_fp8")
+    def cutlass_pack_scale_fp8_fake(scales: torch.Tensor) -> torch.Tensor:
+        return torch.empty_like(scales, memory_format=torch.contiguous_format)
+
+    @register_fake("_C::cutlass_encode_and_reorder_int4b")
+    def cutlass_encode_and_reorder_int4b_fake(b: torch.Tensor) -> torch.Tensor:
+        return torch.empty_like(b, memory_format=torch.contiguous_format)
+
+
+if hasattr(torch.ops._C, "allspark_w8a16_gemm"):
+
+    @register_fake("_C::allspark_w8a16_gemm")
+    def _allspark_w8a16_gemm_fake(
+        a: torch.Tensor,
+        b_qweight: torch.Tensor,
+        b_scales: torch.Tensor,
+        b_qzeros: torch.Tensor | None,
+        n: torch.SymInt,
+        group_size: torch.SymInt,
+        sm_count: torch.SymInt,
+        sm_version: torch.SymInt,
+        CUBLAS_M_THRESHOLD: torch.SymInt,
+        has_zp: bool,
+        n32k16_reorder: bool,
+    ) -> torch.Tensor:
+        m = a.size(0)
+        return torch.empty((m, n), device=a.device, dtype=a.dtype)
+
+
+if hasattr(torch.ops._C, "ggml_dequantize"):
+
+    @register_fake("_C::ggml_dequantize")
+    def _ggml_dequantize_fake(
+        W: torch.Tensor,
+        quant_type: int,
+        m: torch.SymInt,
+        n: torch.SymInt,
+        dtype: torch.dtype | None = None,
+    ) -> torch.Tensor:
+        return torch.empty((m, n), dtype=torch.float16, device=W.device)
+
+    @register_fake("_C::ggml_mul_mat_vec_a8")
+    def _ggml_mul_mat_vec_a8_fake(
+        W: torch.Tensor,
+        X: torch.Tensor,
+        quant_type: int,
+        row: torch.SymInt,
+    ) -> torch.Tensor:
+        return torch.empty((X.shape[0], row), dtype=X.dtype, device=W.device)
+
+    @register_fake("_C::ggml_mul_mat_a8")
+    def _ggml_mul_mat_a8_fake(
+        W: torch.Tensor,
+        X: torch.Tensor,
+        quant_type: int,
+        row: torch.SymInt,
+    ) -> torch.Tensor:
+        batch = X.size(0)
+        return torch.empty((batch, row), dtype=X.dtype, device=W.device)
+
+    @register_fake("_C::ggml_moe_a8")
+    def _ggml_moe_a8_fake(
+        X: torch.Tensor,
+        W: torch.Tensor,
+        sorted_token_ids: torch.Tensor,
+        expert_ids: torch.Tensor,
+        num_tokens_post_padded: torch.Tensor,
+        quant_type: int,
+        row: torch.SymInt,
+        top_k: torch.SymInt,
+        tokens: torch.SymInt,
+    ) -> torch.Tensor:
+        tokens = X.size(0)
+        return torch.empty((tokens * top_k, row), dtype=torch.float16, device=W.device)
+
+
+if hasattr(torch.ops._C, "ggml_moe_a8_vec"):
+
+    @register_fake("_C::ggml_moe_a8_vec")
+    def _ggml_moe_a8_vec_fake(
+        X: torch.Tensor,
+        W: torch.Tensor,
+        topk_ids: torch.Tensor,
+        top_k: int,
+        quant_type: int,
+        row: torch.SymInt,
+        tokens: torch.SymInt,
+    ) -> torch.Tensor:
+        tokens = X.size(0)
+        return torch.empty((tokens * top_k, row), dtype=X.dtype, device=W.device)
+
+
+# cutlass
+def cutlass_scaled_mm_supports_fp4(cuda_device_capability: int) -> bool:
+    return torch.ops._C.cutlass_scaled_mm_supports_fp4(cuda_device_capability)
+
+def cutlass_blockwise_scaled_grouped_mm(
+    output: torch.Tensor,
+    a: torch.Tensor,
+    b: torch.Tensor,
+    scales_a: torch.Tensor,
+    scales_b: torch.Tensor,
+    problem_sizes: torch.Tensor,
+    expert_offsets: torch.Tensor,
+):
+    torch.ops._C.cutlass_blockwise_scaled_grouped_mm(
+        output, a, b, scales_a, scales_b, problem_sizes, expert_offsets
+    )
+
+
+def cutlass_scaled_fp4_mm(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    block_scale_a: torch.Tensor,
+    block_scale_b: torch.Tensor,
+    alpha: torch.Tensor,
+    out_dtype: torch.dtype,
+) -> torch.Tensor:
+    assert a.ndim == 2 and b.ndim == 2
+    m, n = a.shape[0], b.shape[0]
+    out = torch.empty((m, n), dtype=out_dtype, device=a.device)
+    torch.ops._C.cutlass_scaled_fp4_mm(out, a, b, block_scale_a, block_scale_b, alpha)
+    return out
+
+
+def cutlass_scaled_mm_supports_fp8(cuda_device_capability: int) -> bool:
+    return False
+
+
+def cutlass_scaled_mm_supports_block_fp8(cuda_device_capability: int) -> bool:
+    return False
+
+
+def cutlass_scaled_mm(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    out_dtype: torch.dtype,
+    bias: torch.Tensor | None = None,
+    format: str = "TN"
+) -> torch.Tensor:
+    """
+    `cutlass_scaled_mm` implements a fused version of
+        `output = torch.mm((scale_a * a), (scale_b * b)).to(out_dtype)`
+    where scale_a * a and scale_b * b are implemented using numpy-style
+    broadcasting.
+
+    In order to support blockwise scaling like found in DeepSeek V3 we also
+    support extended "group" broadcast rules. We extend the numpy-style
+    broadcasting rules with the following rule:
+        "if the extent of a dimension in the source shape is between 1 and
+        corresponding extent in the target shape we repeat each element along
+        that dimension  src_shape[dim] // target_shape[dim] times consecutively"
+    example if we have:
+          a = [[1, 2], and target_shape = (2, 4)
+               [3, 4]]
+    then we would expand a to:
+          a = [[1, 1, 2, 2],
+               [3, 3, 4, 4]]
+    currently we only support the case:
+        scale_a.shape * [1, 128] == a.shape
+        scale_b.shape * [128, 128] == b.shape
+    """
+    assert out_dtype is torch.bfloat16 or out_dtype is torch.float16
+    assert bias is None or bias.numel() == b.shape[1] and bias.dtype == out_dtype
+
+    
+    m = a.shape[0]
+    n = b.shape[1]
+    if format == "TN":
+        b = b.t()
+    out = torch.empty((m, n), dtype=out_dtype, device=a.device)
+    
+    ops.w8a8(a, b, scale_a, scale_b, bias, format=format, output=out, out_dtype=out_dtype)
+   
+    return out
+
+
+def cutlass_scaled_mm_azp(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    out_dtype: torch.dtype,
+    azp_adj: torch.Tensor,
+    azp: torch.Tensor | None = None,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    """
+    :param azp_adj: In the per-tensor case, this should include the azp.
+    Always per-channel.
+    :param azp: Only set in the per-token case. Per-token if set.
+    """
+    assert b.shape[0] % 16 == 0 and b.shape[1] % 16 == 0
+    assert out_dtype is torch.bfloat16 or out_dtype is torch.float16
+    assert bias is None or bias.numel() == b.shape[1] and bias.dtype == out_dtype
+
+    # Massage the input to be 2D
+    target_shape = (*a.shape[:-1], b.shape[1])
+    a = a.view(-1, a.shape[-1])
+    assert azp is None or azp.numel() == a.shape[0]
+
+    out = torch.empty((a.shape[0], b.shape[1]), dtype=out_dtype, device=a.device)
+    torch.ops._C.cutlass_scaled_mm_azp(out, a, b, scale_a, scale_b, azp_adj, azp, bias)
+    return out.view(*target_shape)
+
+def cutlass_sparse_scaled_mm_supported(cuda_device_capability: int) -> bool:
+    return torch.ops._C.cutlass_sparse_scaled_mm_supported(cuda_device_capability)
+
+
+def cutlass_group_gemm_supported(cuda_device_capability: int) -> bool:
+    try:
+        return torch.ops._C.cutlass_group_gemm_supported(cuda_device_capability)
+    except AttributeError:
+        # Return False on non-CUDA platforms where it is not available
+        return False
+
+
+def cutlass_sparse_compress(a: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Compresses a sparse matrix for use with Cutlass sparse operations.
+
+    This function takes a dense tensor and compresses it into two components:
+    non-zero elements and metadata. The compressed representation is compatible
+    with Cutlass sparse kernels.
+
+    Args:
+        a (torch.Tensor):
+            The input tensor to be compressed. Must have one of the following data types:
+            - `torch.int8`
+            - `torch.float8_e4m3fn`
+            - `torch.bfloat16`
+            - `torch.float16`
+
+    Returns:
+        tuple[torch.Tensor, torch.Tensor]:
+            A tuple containing:
+            - `a_nzs` (torch.Tensor): A tensor containing non-zero elements of `a`.
+            - `a_meta` (torch.Tensor): A tensor containing metadata for the sparse representation.
+
+    Raises:
+        ValueError: If the compression operation fails.
+
+    Notes:
+        - The `a_meta` tensor has a data type of `torch.uint8`.
+        - Each metadata element encodes the sparsity of 4 non-zero elements (i.e., `elemsPerMetaElem = 4`).
+        - The shape of `a_nzs` is `(m, k // 2)`, where `m` and `k` are the dimensions of the input tensor.
+        - The shape of `a_meta` is `(m, k // 2 // elemsPerMetaElem)`.
+    """
+    assert a.dtype in [torch.int8, torch.float8_e4m3fn, torch.bfloat16, torch.float16]
+    assert a.is_contiguous()
+
+    # a_meta.dtype: torch.uint8 so elemsPerMetaElem = 8b / 2b_per_nz = 4
+    elemsPerMetaElem = 4
+    assert a.shape[1] % (2 * elemsPerMetaElem) == 0
+
+    return torch.ops._C.cutlass_sparse_compress(a)
+
+
+def cutlass_scaled_sparse_mm(
+    a: torch.Tensor,
+    bt_nzs: torch.Tensor,
+    bt_meta: torch.Tensor,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    out_dtype: torch.dtype,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    """
+    Performs a scaled sparse matrix multiplication using Cutlass.
+
+    Steps:
+    1. Create a dense matrix `a` of shape (m, k) on the CUDA device:
+    `a = torch.randn((m, k), device='cuda')`.
+
+    2. Create a dense matrix `b` of shape (k, n) on the CUDA device:
+    `b = torch.randn((k, n), device='cuda')`.
+
+    3. Prune matrix `b` to 2:4 sparsity along the specified dimension:
+    `b = prune_to_2_4(b, dim=0)`.
+
+    4. Compress the transposed sparse matrix `b.t()`:
+    `bt_nzs, bt_meta = cutlass_sparse_compress(b.t())`.
+
+    5. Perform sparse matrix multiplication using the compressed matrix,
+    applying scaling factors for `a` and `b`, and the output data type:
+    `out = cutlass_scaled_sparse_mm(a, bt_nzs, bt_meta, scale_a, scale_b, out_dtype)`.
+
+    Returns:
+    - The result of the scaled sparse matrix multiplication.
+    """
+    assert bt_nzs.shape[0] % 16 == 0 and bt_nzs.shape[1] % 16 == 0
+    assert out_dtype is torch.bfloat16 or out_dtype is torch.float16
+    assert bias is None or bias.shape[0] == bt_nzs.shape[0] and bias.dtype == out_dtype
+
+    m = a.shape[0]
+    n = bt_nzs.shape[0]
+    out = torch.empty((m, n), dtype=out_dtype, device=a.device)
+
+    torch.ops._C.cutlass_scaled_sparse_mm(
+        out, a, bt_nzs, bt_meta, scale_a, scale_b, bias
+    )
+
+    return out
+
+
+def get_cutlass_moe_mm_data(
+    topk_ids: torch.Tensor,
+    expert_offsets: torch.Tensor,
+    problem_sizes1: torch.Tensor,
+    problem_sizes2: torch.Tensor,
+    input_permutation: torch.Tensor,
+    output_permutation: torch.Tensor,
+    num_experts: int,
+    n: int,
+    k: int,
+    blockscale_offsets: torch.Tensor | None = None,
+):
+    """
+    Prepare data necessary to perform CUTLASS grouped matrix multiplications
+    used in CUTLASS-based fused MoE.
+
+    The function takes in topk_ids (token-expert mapping) and uses it to
+    compute:
+    - expert_offsets: Indices that mark at which token index each expert begins
+                      its computation after the input is sorted with
+                      input_permutation. The number of tokens computed with
+                      expert E is expert_offsets[E + 1] - expert_offsets[E]
+    - problem_sizes1, problem_sizes2: MxNxK sizes of each expert's
+                                      multiplication in two grouped MMs used in
+                                      the fused MoE operation.
+    - input_permutation: Permutation that must be used to shuffle the input
+                         before executing the MMs.
+    - output_permutation: Permutation that must be used to shuffle the output
+                          after executing the MMs.
+    - blockscale_offsets: Optional argument passed for fp4 moe. Indices that
+                          mark at which block scale index each expert begins
+                          its computation. The number of block scale rows
+                          computed with expert E is blockscale_offsets[E + 1] -
+                          blockscale_offsets[E]
+    """
+    return torch.ops._C.get_cutlass_moe_mm_data(
+        topk_ids,
+        expert_offsets,
+        problem_sizes1,
+        problem_sizes2,
+        input_permutation,
+        output_permutation,
+        num_experts,
+        n,
+        k,
+        blockscale_offsets,
+    )
+
+
+def get_cutlass_moe_mm_problem_sizes(
+    topk_ids: torch.Tensor,
+    problem_sizes1: torch.Tensor,
+    problem_sizes2: torch.Tensor,
+    num_experts: int,
+    n: int,
+    k: int,
+    blockscale_offsets: torch.Tensor | None = None,
+):
+    """
+    Compute only the per-expert problem sizes needed by the two grouped matrix
+    multiplications used in CUTLASS-based fused MoE.
+
+    The function takes in topk_ids (token→expert mapping) and computes:
+    - problem_sizes1, problem_sizes2: M×N×K sizes of each expert's
+                                    multiplication for the two grouped MMs
+                                    used in the fused MoE operation.
+    """
+    return torch.ops._C.get_cutlass_moe_mm_problem_sizes(
+        topk_ids, problem_sizes1, problem_sizes2, num_experts, n, k, blockscale_offsets
+    )
+
+
+def shuffle_rows(input_tensor: torch.Tensor, dst2src_map: torch.Tensor):
+    """
+    Shuffle and expand the input tensor according to the dst2src_map and store the result in output_tensor.
+    This is used in MoE to permute the input tensor before performing grouped matrix multiplications.
+    """
+    num_tokens_permuted = dst2src_map.shape[0]
+    output_tensor = torch.empty(
+        (num_tokens_permuted, input_tensor.shape[1]),
+        device=input_tensor.device,
+        dtype=input_tensor.dtype,
+    )
+    torch.ops._moe_C.shuffle_rows(input_tensor, dst2src_map, output_tensor)
+    return output_tensor
+
+
+def get_cutlass_pplx_moe_mm_data(
+    expert_offsets: torch.Tensor,
+    problem_sizes1: torch.Tensor,
+    problem_sizes2: torch.Tensor,
+    expert_num_tokens: torch.Tensor,
+    num_local_experts: int,
+    padded_m: int,
+    n: int,
+    k: int,
+):
+    """
+    Prepare data necessary to perform CUTLASS grouped matrix multiplications
+    used in CUTLASS-based fused MoE.
+
+    The function takes in expert_num_tokens (token count per expert) and
+    non_zero_expert_idxs (consecutive indices of experts with non-zero token
+    counts) and uses them to compute:
+    - expert_offsets: Indices that mark at which token index each expert begins
+                      its computation.
+    - problem_sizes1, problem_sizes2: MxNxK sizes of each expert's
+                                      multiplication in two grouped MMs used in
+                                      the fused MoE operation.
+    """
+    return torch.ops._C.get_cutlass_pplx_moe_mm_data(
+        expert_offsets,
+        problem_sizes1,
+        problem_sizes2,
+        expert_num_tokens,
+        num_local_experts,
+        padded_m,
+        n,
+        k,
+    )
+
+
+def cutlass_moe_mm(
+    out_tensors: torch.Tensor,
+    a_tensors: torch.Tensor,
+    b_tensors: torch.Tensor,
+    a_scales: torch.Tensor,
+    b_scales: torch.Tensor,
+    expert_offsets: torch.Tensor,
+    problem_sizes: torch.Tensor,
+    a_strides: torch.Tensor,
+    b_strides: torch.Tensor,
+    c_strides: torch.Tensor,
+    per_act_token: bool,
+    per_out_ch: bool,
+):
+    """
+    A single grouped matrix multiplication used in CUTLASS-based fused MoE.
+    The function executes fp8-quantized OUT = AB matrix multiplication.
+
+    - expert_offsets: Indices that mark at which token index each expert begins
+                      its computation. The number of tokens computed with
+                      expert E is expert_offsets[E + 1] - expert_offsets[E]
+    - problem_sizes: MxNxK sizes of each expert's multiplication in two grouped
+                     MMs used in the fused MoE operation.
+    - a/b/c_strides: The data strides passed to grouped matrix multiplication.
+    """
+    return torch.ops._C.cutlass_moe_mm(
+        out_tensors,
+        a_tensors,
+        b_tensors,
+        a_scales,
+        b_scales,
+        expert_offsets,
+        problem_sizes,
+        a_strides,
+        b_strides,
+        c_strides,
+        per_act_token,
+        per_out_ch,
+    )
+
+
+def cutlass_fp4_moe_mm(
+    out_tensors: torch.Tensor,
+    a_tensors: torch.Tensor,
+    b_tensors: torch.Tensor,
+    a_scales: torch.Tensor,
+    b_scales: torch.Tensor,
+    alphas: torch.Tensor,
+    problem_sizes: torch.Tensor,
+    expert_offsets: torch.Tensor,
+    sf_offsets: torch.Tensor,
+):
+    """
+    An FP4 Blockscaled Group Gemm that takes in  a_tensors, b_tensors and runs
+    the gemms for each combination based on the specified problem sizes.
+
+    This is used as the MoE gemm during NVFP4 Quantized FusedMoE forward.
+    - a/b_tensors: the NVFP4 a_ptrs and b_ptrs tensors which are quantized
+                     input and expert weights.
+    - a_/b_scales: The blockscales in FP8-E4M3 precision
+    - expert_offsets/sf_offsets: Indices that mark at which token index
+                    each expert begins its computation. The number of tokens
+                    computed with expert E is expert_offsets[E + 1] -
+                    expert_offsets[E] And the sf_size per expert is
+                    sf_offset[E+1] - sf_offset[E]
+    - problem_sizes: MxNxK sizes of each expert's multiplication in two grouped
+                     MMs used in the fused MoE operation.
+    """
+    return torch.ops._C.cutlass_fp4_group_mm(
+        out_tensors,
+        a_tensors,
+        b_tensors,
+        a_scales,
+        b_scales,
+        alphas,
+        problem_sizes,
+        expert_offsets,
+        sf_offsets,
+    )
+
+# gptq_marlin
+def gptq_marlin_repack(
+    b_q_weight: torch.Tensor,
+    perm: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    num_bits: int,
+) -> torch.Tensor:
+    return torch.ops._C.gptq_marlin_repack(b_q_weight, perm, size_k, size_n, num_bits)
+
+
+if hasattr(torch.ops._C, "gptq_marlin_repack"):
+
+    @register_fake("_C::gptq_marlin_repack")
+    def _gptq_marlin_repack_fake(
+        b_q_weight: torch.Tensor,
+        perm: torch.Tensor,
+        size_k: torch.SymInt,
+        size_n: torch.SymInt,
+        num_bits: int,
+    ) -> torch.Tensor:
+        pack_factor = 32 // num_bits
+        marlin_tile_size = 16
+        return torch.empty(
+            (size_k // marlin_tile_size, size_n * marlin_tile_size // pack_factor),
+            dtype=b_q_weight.dtype,
+            device=b_q_weight.device,
+        )
+
+
+# awq_marlin
+def awq_marlin_repack(
+    b_q_weight: torch.Tensor, size_k: int, size_n: int, num_bits: int
+) -> torch.Tensor:
+    return torch.ops._C.awq_marlin_repack(b_q_weight, size_k, size_n, num_bits)
+
+
+if hasattr(torch.ops._C, "awq_marlin_repack"):
+
+    @register_fake("_C::awq_marlin_repack")
+    def _awq_marlin_repack_fake(
+        b_q_weight: torch.Tensor,
+        size_k: torch.SymInt,
+        size_n: torch.SymInt,
+        num_bits: int,
+    ) -> torch.Tensor:
+        pack_factor = 32 // num_bits
+        marlin_tile_size = 16
+        return torch.empty(
+            (size_k // marlin_tile_size, size_n * marlin_tile_size // pack_factor),
+            dtype=b_q_weight.dtype,
+            device=b_q_weight.device,
+        )
+
+
+def gptq_marlin_moe_repack(
+    b_q_weight: torch.Tensor,
+    perm: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    num_bits: int,
+) -> torch.Tensor:
+    num_experts = b_q_weight.shape[0]
+    assert size_k % 16 == 0
+    output = torch.empty(
+        (num_experts, size_k // 16, size_n * (num_bits // 2)),
+        device=b_q_weight.device,
+        dtype=b_q_weight.dtype,
+    )
+    for e in range(num_experts):
+        output[e] = torch.ops._C.gptq_marlin_repack(
+            b_q_weight[e], perm[e], size_k, size_n, num_bits
+        )
+    return output
+
+
+def awq_marlin_moe_repack(
+    b_q_weight: torch.Tensor,
+    perm: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    num_bits: int,
+) -> torch.Tensor:
+    num_experts = b_q_weight.shape[0]
+    assert size_k % 16 == 0
+    output = torch.empty(
+        (num_experts, size_k // 16, size_n * (num_bits // 2)),
+        device=b_q_weight.device,
+        dtype=b_q_weight.dtype,
+    )
+    for e in range(num_experts):
+        output[e] = torch.ops._C.awq_marlin_repack(
+            b_q_weight[e], size_k, size_n, num_bits
+        )
+    return output
+
+
+def gptq_marlin_gemm(
+    a: torch.Tensor,
+    c: torch.Tensor | None,
+    b_q_weight: torch.Tensor,
+    b_bias: torch.Tensor | None,
+    b_scales: torch.Tensor,
+    global_scale: torch.Tensor | None,
+    b_zeros: torch.Tensor | None,
+    g_idx: torch.Tensor | None,
+    perm: torch.Tensor | None,
+    workspace: torch.Tensor,
+    b_q_type: ScalarType,
+    size_m: int,
+    size_n: int,
+    size_k: int,
+    is_k_full: bool = True,
+    use_atomic_add: bool = False,
+    use_fp32_reduce: bool = False,
+    is_zp_float: bool = False,
+) -> torch.Tensor:
+    return torch.ops._C.gptq_marlin_gemm(
+        a,
+        c,
+        b_q_weight,
+        b_bias,
+        b_scales,
+        global_scale,
+        b_zeros,
+        g_idx,
+        perm,
+        workspace,
+        b_q_type.id,
+        size_m,
+        size_n,
+        size_k,
+        is_k_full,
+        use_atomic_add,
+        use_fp32_reduce,
+        is_zp_float,
+    )
+
+
+# machete
+def machete_supported_schedules(
+    a_type: torch.dtype,
+    b_type: ScalarType,
+    group_scales_type: torch.dtype | None,
+    group_zeros_type: torch.dtype | None = None,
+    channel_scales_type: torch.dtype | None = None,
+    token_scales_type: torch.dtype | None = None,
+    out_type: torch.dtype | None = None,
+) -> list[str]:
+    return torch.ops._C.machete_supported_schedules(
+        a_type,
+        b_type.id,
+        group_scales_type,
+        group_zeros_type,
+        channel_scales_type,
+        token_scales_type,
+        out_type,
+    )
+
+
+def machete_mm(
+    a: torch.Tensor,
+    # b_q Should be the tensor returned by machete_prepack_B
+    b_q: torch.Tensor,
+    b_type: ScalarType,
+    out_type: torch.dtype | None = None,
+    b_group_scales: torch.Tensor | None = None,
+    b_group_zeros: torch.Tensor | None = None,
+    b_group_size: int | None = None,
+    b_channel_scales: torch.Tensor | None = None,
+    a_token_scales: torch.Tensor | None = None,
+    schedule: str | None = None,
+) -> torch.Tensor:
+    return torch.ops._C.machete_mm(
+        a,
+        b_q,
+        b_type.id,
+        out_type,
+        b_group_scales,
+        b_group_zeros,
+        b_group_size,
+        b_channel_scales,
+        a_token_scales,
+        schedule,
+    )
+
+
+def machete_prepack_B(
+    b_q_weight: torch.Tensor,
+    a_type: torch.dtype,
+    b_type: ScalarType,
+    group_scales_type: torch.dtype | None,
+) -> torch.Tensor:
+    return torch.ops._C.machete_prepack_B(
+        b_q_weight, a_type, b_type.id, group_scales_type
+    )
+
+
+# CUTLASS W4A8
+def cutlass_w4a8_mm(
+    a: torch.Tensor,
+    # b_q Should be the tensor returned by cutlass_encode_and_reorder_int4b
+    b_q: torch.Tensor,
+    b_group_scales: torch.Tensor,
+    b_group_size: int,
+    b_channel_scales: torch.Tensor,
+    a_token_scales: torch.Tensor,
+    out_type: torch.dtype | None = None,
+    maybe_schedule: str | None = None,
+) -> torch.Tensor:
+    return torch.ops._C.cutlass_w4a8_mm(
+        a,
+        b_q,
+        b_group_scales,
+        b_group_size,
+        b_channel_scales,
+        a_token_scales,
+        out_type,
+        maybe_schedule,
+    )
+
+
+def cutlass_pack_scale_fp8(scales: torch.Tensor) -> torch.Tensor:
+    return torch.ops._C.cutlass_pack_scale_fp8(scales)
+
+
+def cutlass_encode_and_reorder_int4b(b: torch.Tensor) -> torch.Tensor:
+    return torch.ops._C.cutlass_encode_and_reorder_int4b(b)
+
+
+if hasattr(torch.ops._C, "permute_cols"):
+
+    @register_fake("_C::permute_cols")
+    def _permute_cols_fake(a: torch.Tensor, perm: torch.Tensor) -> torch.Tensor:
+        return torch.empty_like(a)
+
+
+def permute_cols(a: torch.Tensor, perm: torch.Tensor) -> torch.Tensor:
+    return torch.ops._C.permute_cols(a, perm)
+
+
+# fp4
+def scaled_fp4_quant(
+    input: torch.Tensor, input_global_scale: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Quantize input tensor to FP4 and return quantized tensor and scale.
+
+    This function quantizes the last dimension of the given tensor `input`. For
+    every 16 consecutive elements, a single dynamically computed scaling factor
+    is shared. This scaling factor is quantized using the `input_global_scale`
+    and is stored in a swizzled layout (see
+    https://docs.nvidia.com/cuda/parallel-thread-execution/#tcgen05-mma-scale-factor-b-layout-4x).
+
+    Args:
+        input: The input tensor to be quantized to FP4
+        input_global_scale: A scalar scaling factor for the entire tensor.
+
+    Returns:
+        tuple[torch.Tensor, torch.Tensor]: The output tensor in FP4 but every
+            two values are packed into a uint8 and float8_e4m3 scaling factors
+            in the sizzled layout.
+    """
+    assert not current_platform.is_rocm()
+    assert input.ndim >= 1, f"input.ndim needs to be >= 1, but got {input.ndim}."
+    other_dims = 1 if input.ndim == 1 else -1
+    input = input.reshape(other_dims, input.shape[-1])
+    m, n = input.shape
+    block_size = 16
+    device = input.device
+
+    assert n % block_size == 0, f"last dim has to be multiple of 16, but got {n}."
+    assert input.dtype in (torch.float16, torch.bfloat16), (
+        f"input.dtype needs to be fp16 or bf16 but got {input.dtype}."
+    )
+
+    # Two fp4 values will be packed into an uint8.
+    output = torch.empty((m, n // 2), device=device, dtype=torch.uint8)
+
+    # We use the rounded values to store the swizzled values. Due to the
+    # requirement of the Tensor Core, the minimum tile is 128x4 for the scales.
+    # So, we first pad the scales to multiples of 128 and 4. Then, the scales
+    # (in float8_e4m3fn) are packed into an int32 for every 4 values. More:
+    # https://docs.nvidia.com/cuda/parallel-thread-execution/#tcgen05-mma-scale-factor-b-layout-4x
+    round_up = lambda x, y: (x + y - 1) // y * y
+    rounded_m = round_up(m, 128)
+    scale_n = n // block_size
+    rounded_n = round_up(scale_n, 4)
+    output_scale = torch.empty(
+        (rounded_m, rounded_n // 4), device=device, dtype=torch.int32
+    )
+
+    torch.ops._C.scaled_fp4_quant(output, input, output_scale, input_global_scale)
+    output_scale = output_scale.view(torch.float8_e4m3fn)
+    return output, output_scale
+
+
+def scaled_fp4_experts_quant(
+    input_tensor: torch.Tensor,
+    input_global_scale: torch.Tensor,
+    expert_offsets: torch.Tensor,
+    blockscale_offsets: torch.Tensor,
+    topk: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Quantize input tensor to FP4 and return quantized tensor and scale, for
+    packed MoE Inputs.
+    Args:
+        input_tensor: The input tensor to be quantized to FP4
+        input_global_scale: A scalar scaling factor for the entire tensor.
+        expert_offsets: The expert offsets tensor
+        blockscale_offsets: The blockscale offsets tensor
+    Outputs:
+        output: The quantized tensor in FP4
+        output_scales: The blockscale tensor in FP8-E4M3
+    """
+    assert not current_platform.is_rocm()
+    assert input_tensor.ndim == 2, (
+        f"input.ndim needs to be == 2, but got {input_tensor.ndim}."
+    )
+
+    # Control the maximum number of tokens per expert supported by the
+    # NVFP4 MoE Expert Quantization. This is used to prevent the kernel
+    # from running out of memory. This value can also be increased to support
+    # larger models.
+    MAX_TOKENS_PER_EXPERT = envs.VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE
+    m_numtopk, k = input_tensor.shape
+
+    assert m_numtopk <= MAX_TOKENS_PER_EXPERT * topk, (
+        f"m_numtopk must be less than MAX_TOKENS_PER_EXPERT("
+        f"{MAX_TOKENS_PER_EXPERT})"
+        f" for cutlass_moe_fp4, observed m_numtopk = {m_numtopk}. Use"
+        f" VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE to set this value."
+    )
+    scales_k = k // 16
+    padded_k = (scales_k + (4 - 1)) // 4
+
+    # output is uint8 and packed fp4 values
+    output = torch.empty(
+        m_numtopk, k // 2, device=input_tensor.device, dtype=torch.uint8
+    )
+    output_scales = torch.empty(
+        MAX_TOKENS_PER_EXPERT * topk,
+        padded_k,
+        dtype=torch.int32,
+        device=input_tensor.device,
+    )
+    torch.ops._C.scaled_fp4_experts_quant(
+        output,
+        output_scales,
+        input_tensor,
+        input_global_scale,
+        expert_offsets,
+        blockscale_offsets,
+    )
+    output_scales = output_scales.view(torch.float8_e4m3fn)
+    return output, output_scales
+
+
+# fp8
+def scaled_fp8_quant(
+    input: torch.Tensor,
+    scale: torch.Tensor | None = None,
+    num_token_padding: int | None = None,
+    scale_ub: torch.Tensor | None = None,
+    use_per_token_if_dynamic: bool = False,
+    output: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Quantize input tensor to FP8 and return quantized tensor and scale.
+
+    This function supports both static and dynamic quantization: If you
+    provide the scale, it will use static scaling and if you omit it,
+    the scale will be determined dynamically. The function also allows
+    optional padding of the output tensors for downstream kernels that
+    will benefit from padding.
+
+    Args:
+        input: The input tensor to be quantized to FP8
+        scale: Optional scaling factor for the FP8 quantization
+        scale_ub: Optional upper bound for scaling factor in dynamic
+            per token case
+        num_token_padding: If specified, pad the first dimension
+            of the output to at least this value.
+        use_per_token_if_dynamic: Whether to do per_tensor or per_token
+            in the dynamic quantization case.
+
+    Returns:
+        tuple[torch.Tensor, torch.Tensor]: The output tensor in FP8 and
+            scaling factor.
+    """
+    # This code assumes batch_dim and num_tokens are flattened
+    assert input.ndim == 2
+    shape: tuple[int, int] | torch.Size = input.shape
+    # For ROCm on MI300, the output fp8 dtype is torch.float_e3m3fnuz
+    out_dtype: torch.dtype = current_platform.fp8_dtype()
+    if num_token_padding:
+        shape = (max(num_token_padding, input.shape[0]), shape[1])
+    if output is None:
+        output = torch.empty(shape, device=input.device, dtype=out_dtype)
+    else:
+        assert num_token_padding is None, "padding not supported if output passed in"
+        assert output.dtype == out_dtype
+
+    if scale is None:
+        if use_per_token_if_dynamic:
+            scale = torch.empty((shape[0], 1), device=input.device, dtype=torch.float32)
+            torch.ops._C.dynamic_per_token_scaled_fp8_quant(
+                output, input, scale, scale_ub
+            )
+        else:
+            scale = torch.empty((1, 1), device=input.device, dtype=torch.float32)
+            torch.ops._C.dynamic_scaled_fp8_quant(output, input, scale)
+    else:
+        assert scale.numel() == 1, f"{scale.shape}"
+        torch.ops._C.static_scaled_fp8_quant(output, input, scale)
+
+    return output, scale
+
+
+# gptq allspark
+def allspark_repack_weight(
+    qweight: torch.Tensor,
+    scale: torch.Tensor,
+    zero_point: torch.Tensor | None = None,
+    has_zp: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Rearrange qweight, scale, and zero_point(if asymmetric) to n32k16 format
+    for Ampere W8A16 Fused Gemm kernel
+
+    Args:
+        qweight: uint8 weight tensor, original k x n format.
+        scale: fp16/bf16 weight scale tensor, 1 x n format.
+        zero_point: fp16/bf16 weight zero_point tensor, 1 x n format.
+            Must be provided for asymmetric quantization.
+        has_zp: if use symmetric quantization, has_zp = False.
+            if use asymmetric quantization, has_zp = True.
+
+    Returns:
+        tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]] :
+            rearranged weight, scale, and optionally zero_point.
+    """
+    K = qweight.shape[0]
+    N = qweight.shape[1]
+    N_32align = (N + 32 - 1) // 32 * 32
+
+    qweight_reorder = torch.empty(
+        (N_32align, K), device=qweight.device, dtype=qweight.dtype
+    )
+    scale_reorder = torch.empty((1, N_32align), device=scale.device, dtype=scale.dtype)
+    zero_point_reorder = None
+    if has_zp:
+        assert zero_point is not None, (
+            "zero_point must be provided for asymmetric quantization."
+        )
+        zero_point_reorder = torch.empty(
+            (1, N_32align), device=zero_point.device, dtype=zero_point.dtype
+        )
+
+    torch.ops._C.rearrange_kn_weight_as_n32k16_order(
+        qweight,
+        scale,
+        zero_point,
+        has_zp,
+        qweight_reorder,
+        scale_reorder,
+        zero_point_reorder,
+        K,
+        N,
+        N_32align,
+    )
+
+    return qweight_reorder, scale_reorder, zero_point_reorder
+
+
+def allspark_w8a16_gemm(
+    a: torch.Tensor,
+    b_qweight: torch.Tensor,
+    b_scales: torch.Tensor,
+    b_qzeros: torch.Tensor | None,
+    n: int,
+    group_size: int,
+    sm_count: int,
+    sm_version: int,
+    CUBLAS_M_THRESHOLD: int,
+    has_zp: bool,
+    n32k16_reorder: bool,
+) -> torch.Tensor:
+    return torch.ops._C.allspark_w8a16_gemm(
+        a,
+        b_qweight,
+        b_scales,
+        b_qzeros,
+        n,
+        group_size,
+        sm_count,
+        sm_version,
+        CUBLAS_M_THRESHOLD,
+        has_zp,
+        n32k16_reorder,
+    )
+
+
+# int8
+def scaled_int8_quant(
+    input: torch.Tensor,
+    scale: torch.Tensor | None = None,
+    azp: torch.Tensor | None = None,
+    symmetric: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor | None]:
+    """
+    Quantize the input tensor to int8 and return the quantized tensor and scale, and maybe azp.
+
+    Args:
+        input: The input tensor to be quantized to int8.
+        scale: Optional scaling factor for the int8 quantization.
+            When not provided, we invoke dynamic-per-token quantization.
+        azp: Optional zero-point for the int8 quantization.
+            Must be provided for asymmetric quantization if `scale` is provided.
+        symmetric: Whether to use symmetric quantization (scale only, azp ignored).
+
+    Returns:
+      tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]] : Output int8 tensor, scales, and optionally azp.
+    """
+    output = torch.empty_like(input, dtype=torch.int8)
+    if scale is not None:
+        # static-per-tensor quantization.
+        assert symmetric == (azp is None), (
+            "azp must only be provided for asymmetric quantization."
+        )
+        ops.static_scaled_int8_quant(output, input, scale)
+        return output, scale, azp
+
+    # dynamic-per-token quantization.
+    input_scales = torch.empty(
+        (input.numel() // input.shape[-1], 1), device=input.device, dtype=torch.float32
+    )
+    input_azp = None if symmetric else torch.empty_like(input_scales, dtype=torch.int32)
+    ops.dynamic_scaled_int8_quant(output, input, input_scales)
+    return output, input_scales, input_azp
+
+
+# gguf
+def ggml_dequantize(
+    W: torch.Tensor, quant_type: int, m: int, n: int, dtype: torch.dtype | None
+) -> torch.Tensor:
+    return torch.ops._C.ggml_dequantize(W, quant_type, m, n, dtype)
+
+
+def ggml_mul_mat_vec_a8(
+    W: torch.Tensor,
+    X: torch.Tensor,
+    quant_type: int,
+    row: int,
+) -> torch.Tensor:
+    return torch.ops._C.ggml_mul_mat_vec_a8(W, X, quant_type, row)
+
+def ggml_mul_mat_a8(
+    W: torch.Tensor,
+    X: torch.Tensor,
+    quant_type: int,
+    row: int,
+) -> torch.Tensor:
+    return torch.ops._C.ggml_mul_mat_a8(W, X, quant_type, row)
+
+
+def ggml_moe_a8(
+    X: torch.Tensor,
+    W: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    quant_type: int,
+    row: int,
+    top_k: int,
+    tokens: int,
+) -> torch.Tensor:
+    return torch.ops._C.ggml_moe_a8(
+        X,
+        W,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        quant_type,
+        row,
+        top_k,
+        tokens,
+    )
+
+
+def ggml_moe_a8_vec(
+    X: torch.Tensor,
+    W: torch.Tensor,
+    topk_ids: torch.Tensor,
+    top_k: int,
+    quant_type: int,
+    row: torch.SymInt,
+    tokens: torch.SymInt,
+) -> torch.Tensor:
+    return torch.ops._C.ggml_moe_a8_vec(X, W, topk_ids, top_k, quant_type, row, tokens)
+
+
+def ggml_moe_get_block_size(quant_type: int) -> int:
+    return torch.ops._C.ggml_moe_get_block_size(quant_type)
+
+# mamba
+def selective_scan_fwd(
+    u: torch.Tensor,
+    delta: torch.Tensor,
+    A: torch.Tensor,
+    B: torch.Tensor,
+    C: torch.Tensor,
+    D_: torch.Tensor | None,
+    z_: torch.Tensor | None,
+    delta_bias_: torch.Tensor | None,
+    delta_softplus: bool,
+    query_start_loc: torch.Tensor | None,
+    cache_indices: torch.Tensor | None,
+    has_initial_state: torch.Tensor | None,
+    ssm_states: torch.Tensor,
+    pad_slot_id: int,
+    block_size: int = 1024,
+    block_idx_first_scheduled_token: torch.Tensor | None = None,
+    block_idx_last_scheduled_token: torch.Tensor | None = None,
+    initial_state_idx: torch.Tensor | None = None,
+):
+    torch.ops._C.selective_scan_fwd(
+        u,
+        delta,
+        A,
+        B,
+        C,
+        D_,
+        z_,
+        delta_bias_,
+        delta_softplus,
+        query_start_loc,
+        cache_indices,
+        has_initial_state,
+        ssm_states,
+        pad_slot_id,
+        block_size,
+        block_idx_first_scheduled_token,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
+    )
+
+
+# ROCm skinny gemms
+def LLMM1(a: torch.Tensor, b: torch.Tensor, rows_per_block: int) -> torch.Tensor:
+    return torch.ops._rocm_C.LLMM1(a, b, rows_per_block)
+
+
+def wvSplitK(
+    a: torch.Tensor, b: torch.Tensor, cu_count: int, bias: torch.Tensor = None
+) -> torch.Tensor:
+    return torch.ops._rocm_C.wvSplitK(a, b, bias, cu_count)
+
+
+def wvSplitKQ(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    cu_count: int,
+    bias: torch.Tensor = None,
+) -> torch.Tensor:
+    out = torch.empty((b.shape[0], a.shape[0]), dtype=out_dtype, device=b.device)
+    torch.ops._rocm_C.wvSplitKQ(a, b, bias, out, scale_a, scale_b, cu_count)
+    return out
+
+
+# moe
+def moe_sum(input: torch.Tensor, output: torch.Tensor):
+    torch.ops._moe_C.moe_sum(input, output)
+
+
+def moe_align_block_size(
+    topk_ids: torch.Tensor,
+    num_experts: int,
+    block_size: int,
+    sorted_token_ids: torch.Tensor,
+    experts_ids: torch.Tensor,
+    num_tokens_post_pad: torch.Tensor,
+) -> None:
+    ops.vllm_moe_align_block_size(topk_ids, num_experts, block_size,
+                                      sorted_token_ids, experts_ids,
+                                      num_tokens_post_pad)
+
+
+def batched_moe_align_block_size(
+    max_tokens_per_batch: int,
+    block_size: int,
+    expert_num_tokens: torch.Tensor,
+    sorted_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_pad: torch.Tensor,
+) -> None:
+    torch.ops._moe_C.batched_moe_align_block_size(
+        max_tokens_per_batch,
+        block_size,
+        expert_num_tokens,
+        sorted_ids,
+        expert_ids,
+        num_tokens_post_pad,
+    )
+
+
+def moe_lora_align_block_size(
+    topk_ids: torch.Tensor,
+    token_lora_mapping: torch.Tensor,
+    num_experts: int,
+    block_size: int,
+    max_loras: int,
+    max_num_tokens_padded: int,
+    max_num_m_blocks: int,
+    sorted_token_ids: torch.Tensor,
+    experts_ids: torch.Tensor,
+    num_tokens_post_pad: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    lora_ids: torch.Tensor,
+) -> None:
+    torch.ops._moe_C.moe_lora_align_block_size(
+        topk_ids,
+        token_lora_mapping,
+        num_experts,
+        block_size,
+        max_loras,
+        max_num_tokens_padded,
+        max_num_m_blocks,
+        sorted_token_ids,
+        experts_ids,
+        num_tokens_post_pad,
+        adapter_enabled,
+        lora_ids,
+    )
+
+
+def moe_wna16_gemm(
+    input: torch.Tensor,
+    output: torch.Tensor,
+    b_qweight: torch.Tensor,
+    b_scales: torch.Tensor,
+    b_qzeros: torch.Tensor | None,
+    topk_weights: torch.Tensor | None,
+    sorted_token_ids: torch.Tensor,
+    experts_ids: torch.Tensor,
+    num_tokens_post_pad: torch.Tensor,
+    top_k: int,
+    BLOCK_SIZE_M: int,
+    BLOCK_SIZE_N: int,
+    BLOCK_SIZE_K: int,
+    bit: int,
+) -> torch.Tensor:
+    if not current_platform.is_cuda():
+        raise NotImplementedError(
+            "The optimized moe_wna16_gemm kernel is only available on CUDA platforms"
+        )
+    torch.ops._moe_C.moe_wna16_gemm(
+        input,
+        output,
+        b_qweight,
+        b_scales,
+        b_qzeros,
+        topk_weights,
+        sorted_token_ids,
+        experts_ids,
+        num_tokens_post_pad,
+        top_k,
+        BLOCK_SIZE_M,
+        BLOCK_SIZE_N,
+        BLOCK_SIZE_K,
+        bit,
+    )
+
+
+def topk_softmax(
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+) -> None:
+    ops.vllm_moe_topk_softmax(topk_weights, topk_ids,
+                              token_expert_indices, gating_output)
+
+
+def grouped_topk(
+    scores: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    topk: int,
+    renormalize: bool,
+    routed_scaling_factor: float,
+    bias: torch.Tensor,
+    scoring_func: int = 0,
+):
+    """
+    Perform grouped top-k routing for mixture of experts.
+
+    Args:
+        scores: Raw inputs (logits if scoring_func=1, scores if scoring_func=0)
+        num_expert_group: Number of expert groups
+        topk_group: Number of groups to select
+        topk: Number of experts to select per token
+        renormalize: Whether to renormalize the output weights
+        routed_scaling_factor: Scaling factor for routing weights
+        bias: Bias tensor (e_score_correction_bias). Always fused in kernel.
+        scoring_func: 0=none (no activation), 1=sigmoid
+    """
+    if not current_platform.is_cuda():
+        raise NotImplementedError(
+            "The fused grouped_topk kernel is only available on CUDA platforms"
+        )
+    return torch.ops._moe_C.grouped_topk(
+        scores,
+        num_expert_group,
+        topk_group,
+        topk,
+        renormalize,
+        routed_scaling_factor,
+        bias,
+        scoring_func,
+    )
+
+
+def moe_wna16_marlin_gemm(
+    input: torch.Tensor,
+    output: torch.Tensor | None,
+    b_qweight: torch.Tensor,
+    b_bias: torch.Tensor | None,
+    b_scales: torch.Tensor,
+    global_scale: torch.Tensor | None,
+    b_qzeros: torch.Tensor | None,
+    g_idx: torch.Tensor | None,
+    perm: torch.Tensor | None,
+    workspace: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_past_padded: torch.Tensor,
+    topk_weights: torch.Tensor,
+    moe_block_size: int,
+    top_k: int,
+    mul_topk_weights: bool,
+    is_ep: bool,
+    b_q_type: ScalarType,
+    size_m: int,
+    size_n: int,
+    size_k: int,
+    is_k_full: bool,
+    use_atomic_add: bool,
+    use_fp32_reduce: bool,
+    is_zp_float: bool,
+) -> torch.Tensor:
+    return torch.ops._moe_C.moe_wna16_marlin_gemm(
+        input,
+        output,
+        b_qweight,
+        b_bias,
+        b_scales,
+        global_scale,
+        b_qzeros,
+        g_idx,
+        perm,
+        workspace,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_past_padded,
+        topk_weights,
+        moe_block_size,
+        top_k,
+        mul_topk_weights,
+        is_ep,
+        b_q_type.id,
+        size_m,
+        size_n,
+        size_k,
+        is_k_full,
+        use_atomic_add,
+        use_fp32_reduce,
+        is_zp_float,
+    )
+
+
+if hasattr(torch.ops, "_moe_C") and hasattr(torch.ops._moe_C, "marlin_gemm_moe"):
+
+    @register_fake("_moe_C::marlin_gemm_moe")
+    def marlin_gemm_moe_fake(
+        a: torch.Tensor,
+        b_q_weights: torch.Tensor,
+        sorted_ids: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        b_scales: torch.Tensor,
+        b_zero_points: torch.Tensor,
+        g_idx: torch.Tensor,
+        perm: torch.Tensor,
+        workspace: torch.Tensor,
+        b_q_type: ScalarType,
+        size_m: torch.SymInt,
+        size_n: torch.SymInt,
+        size_k: torch.SymInt,
+        is_k_full: bool,
+        num_experts: int,
+        topk: int,
+        moe_block_size: int,
+        replicate_input: bool,
+        apply_weights: bool,
+    ) -> torch.Tensor:
+        return torch.empty((size_m, topk, size_n), dtype=a.dtype, device=a.device)
+
+    @register_fake("_moe_C::moe_wna16_marlin_gemm")
+    def moe_wna16_marlin_gemm_fake(
+        input: torch.Tensor,
+        output: torch.Tensor | None,
+        b_qweight: torch.Tensor,
+        b_scales: torch.Tensor,
+        b_qzeros: torch.Tensor | None,
+        g_idx: torch.Tensor | None,
+        perm: torch.Tensor | None,
+        workspace: torch.Tensor,
+        sorted_token_ids: torch.Tensor,
+        expert_ids: torch.Tensor,
+        num_tokens_past_padded: torch.Tensor,
+        topk_weights: torch.Tensor,
+        moe_block_size: int,
+        top_k: int,
+        mul_topk_weights: bool,
+        is_ep: bool,
+        b_q_type: ScalarType,
+        size_m: int,
+        size_n: int,
+        size_k: int,
+        is_k_full: bool,
+        use_atomic_add: bool,
+        use_fp32_reduce: bool,
+        is_zp_float: bool,
+    ) -> torch.Tensor:
+        return torch.empty(
+            (size_m * top_k, size_n), dtype=input.dtype, device=input.device
+        )
+
+
+def reshape_and_cache(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    kv_cache_dtype: str,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+) -> None:
+    torch.ops._C_cache_ops.reshape_and_cache(
+        key,
+        value,
+        key_cache,
+        value_cache,
+        slot_mapping,
+        kv_cache_dtype,
+        k_scale,
+        v_scale,
+    )
+
+
+def reshape_and_cache_flash(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    kv_cache_dtype: str,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+) -> None:
+    ops.reshape_and_cache_flash(key, value, key_cache,
+                                value_cache, slot_mapping,
+                                kv_cache_dtype, 1.0, 1.0)
+
+
+def reshape_and_cache_flash_mix(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    key_scale: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    key_scale_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    kv_cache_dtype: str,
+):
+    ops.reshape_and_cache_flash_mix(key, value, key_scale,
+                                         key_cache, value_cache, key_scale_cache,
+                                         slot_mapping, kv_cache_dtype)
+
+
+def concat_and_cache_mla(
+    kv_c: torch.Tensor,
+    k_pe: torch.Tensor,
+    kv_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    kv_cache_dtype: str,
+    scale: torch.Tensor,
+) -> None:
+    ops.vllm_concat_and_cache_mla(kv_c, k_pe, kv_cache,
+                                  slot_mapping, kv_cache_dtype,
+                                  scale)
+
+
+
+def copy_blocks(
+    key_caches: list[torch.Tensor],
+    value_caches: list[torch.Tensor],
+    block_mapping: torch.Tensor,
+) -> None:
+    torch.ops._C_cache_ops.copy_blocks(key_caches, value_caches, block_mapping)
+
+
+def copy_blocks_mla(kv_caches: list[torch.Tensor], block_mapping: torch.Tensor) -> None:
+    torch.ops._C_cache_ops.copy_blocks_mla(kv_caches, block_mapping)
+
+
+def swap_blocks(
+    src: torch.Tensor, dst: torch.Tensor, block_mapping: torch.Tensor
+) -> None:
+    ops.vllm_swap_blocks(src, dst, block_mapping)
+
+
+def convert_fp8(
+    output: torch.Tensor, input: torch.Tensor, scale: float = 1.0, kv_dtype: str = "fp8"
+) -> None:
+    torch.ops._C_cache_ops.convert_fp8(output, input, scale, kv_dtype)
+
+
+def gather_and_maybe_dequant_cache(
+    src_cache: torch.Tensor,
+    dst: torch.Tensor,
+    block_table: torch.Tensor,
+    cu_seq_lens: torch.Tensor,
+    batch_size: int,
+    kv_cache_dtype: str,
+    scale: torch.Tensor,
+    seq_starts: torch.Tensor | None = None,
+) -> None:
+    torch.ops._C_cache_ops.gather_and_maybe_dequant_cache(
+        src_cache,
+        dst,
+        block_table,
+        cu_seq_lens,
+        batch_size,
+        kv_cache_dtype,
+        scale,
+        seq_starts,
+    )
+
+
+def cp_gather_cache(
+    src_cache: torch.Tensor,
+    dst: torch.Tensor,
+    block_table: torch.Tensor,
+    cu_seq_lens: torch.Tensor,
+    batch_size: int,
+    seq_starts: torch.Tensor | None = None,
+) -> None:
+    ops.vllm_cp_gather_cache(
+        src_cache, dst, block_table, cu_seq_lens, batch_size, seq_starts
+    )
+
+
+def indexer_k_quant_and_cache(
+    k: torch.Tensor,
+    kv_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    quant_block_size: int,
+    kv_cache_dtype: str,
+) -> None:
+    torch.ops._C_cache_ops.indexer_k_quant_and_cache(
+        k, kv_cache, slot_mapping, quant_block_size, kv_cache_dtype
+    )
+    
+def indexer_k_cache(k: torch.Tensor, kv_cache: torch.Tensor,slot_mapping: torch.Tensor)-> None:
+    num_tokens, head_dim = k.shape
+    _, block_size, cache_stride  = kv_cache.shape
+    assert head_dim == cache_stride
+    for i in range(num_tokens):
+        block_idx = torch.div(slot_mapping[i], block_size, rounding_mode="floor")
+        block_offset = slot_mapping[i] % block_size
+        kv_cache[block_idx, block_offset, :] = k[i]
+        
+def ref_mqa_logits(
+    q: torch.Tensor,           # [num_tokens, n_head, head_dim] - 可能已量化
+    k: torch.Tensor,           # [num_blocks, block_size, head_dim] 或展开形式 - 可能已量化  
+    weights: torch.Tensor,     # [num_tokens, n_head, 1] - 权重
+    cu_seqlen_ks: torch.Tensor, # 序列起始位置
+    cu_seqlen_ke: torch.Tensor, # 序列结束位置
+) -> torch.Tensor:
+    """
+    多查询注意力logits计算的PyTorch等价实现
+    """
+
+    M, H, D = q.shape
+    N = k.shape[0]
+    device = q.device
+    # 初始化输出logits [M, N]
+    logits = torch.full((M, N), -float('inf'), device=device, dtype=torch.float32)
+    for i in range(M):
+        seq_start = cu_seqlen_ks[i]
+        seq_end = cu_seqlen_ke[i]
+        
+        if seq_start >= seq_end:
+            continue
+        
+        #当前查询的Q [H, D]
+        q_i = q[i]  # [H, D]
+        
+        seq_k = k[seq_start:seq_end]  # [seq_len, head_dim]
+        
+        # 计算注意力分数 [H, seq_len]
+        attention_scores = torch.matmul(q_i, seq_k.T)  # BF16计算
+        attention_scores = F.relu(attention_scores)
+        
+        # 应用权重 [H, seq_len]
+        attention_scores_f32 = attention_scores.float()
+        weights_i = weights[i].unsqueeze(1)  # [H, 1]
+        weighted_scores = attention_scores_f32 * weights_i  # [H, seq_len]
+        
+        # 汇总所有头的logits [seq_len]
+        logits_i = torch.sum(weighted_scores, dim=0)  # [seq_len]
+        
+        # 将结果填充到输出logits的对应位置
+        logits[i, seq_start:seq_end] = logits_i
+    
+    return logits
+
+def ref_paged_mqa_logits(
+    q: torch.Tensor,
+    kv_cache: torch.Tensor,
+    weights: torch.Tensor,
+    context_lens: torch.Tensor,
+    block_tables: torch.Tensor,
+    max_model_len: int,
+    clean_logits: bool = True
+) -> torch.Tensor:
+    """使用分页KV缓存计算FP8多查询注意力logits的PyTorch实现
+
+    Args:
+        q: 查询张量 [B, next_n, H, D]
+        kv_cache: 分页KV缓存 [num_blocks, block_size, 1, D]
+        weights: 权重张量 [B * next_n, H], dtype=torch.float32
+        context_lens: 上下文长度 [B], dtype=int32
+        block_tables: 块映射表 [B, max_blocks], dtype=int32
+        schedule_metadata: 调度元数据
+        max_model_len: 最大序列长度，用于确定输出logits大小
+
+    Returns:
+        Logits张量 [B * next_n, max_model_len], dtype=torch.float32
+    """
+    def reassemble_k_from_paged_cache(
+        kv_cache: torch.Tensor,
+        block_table: torch.Tensor,
+        context_len: int,
+        head_dim: int,
+        block_size: int
+    ) -> torch.Tensor:
+        """从分页缓存中重组K值"""
+        num_blocks_needed = (context_len + block_size - 1) // block_size
+        valid_blocks = block_table[:num_blocks_needed]
+        device = kv_cache.device
+        # 初始化输出K序列 [context_len, head_dim]
+        k_sequence = torch.zeros(context_len, head_dim, device=device, dtype=kv_cache.dtype)
+        token_offset = 0
+        for block_idx in valid_blocks:
+            if block_idx < 0:
+                break
+            # 当前块中的token数量
+            tokens_in_block = min(block_size, context_len - token_offset)
+            if tokens_in_block <= 0:
+                break
+            # 从缓存块中提取K值
+            block_data = kv_cache[block_idx]  # [block_size, 1, D]
+            
+            # 提取K值
+            k_sequence[token_offset:token_offset + tokens_in_block] = block_data[:tokens_in_block, 0, :head_dim]  # [tokens_in_block, D]
+            token_offset += tokens_in_block
+        
+        return k_sequence
+    
+    def compute_mqa_logits(
+        q: torch.Tensor,           # [next_n, H, D]
+        k: torch.Tensor,           # [context_len, D]
+        weights: torch.Tensor,     # [next_n, H]
+        context_len: int,
+        max_model_len: int
+    ) -> torch.Tensor:
+        """计算多查询注意力logits"""
+        next_n, H, D = q.shape
+        device = q.device
+        
+        # 初始化批次logits [next_n, max_model_len]
+        batch_logits = torch.full((next_n, max_model_len), -float('inf'), 
+                                device=device, dtype=torch.float32)
+        
+        # 扩展K以匹配多头 [context_len, H, D]
+        k_expanded = k.unsqueeze(1).expand(-1, H, -1)  # [context_len, H, D]
+        
+        # 转置以便矩阵乘法
+        q_transposed = q.transpose(0, 1)  # [H, next_n, D]
+        k_transposed = k_expanded.transpose(0, 1)  # [H, context_len, D]
+        # 批量计算注意力分数 [H, next_n, context_len]
+        attention_scores = torch.bmm(q_transposed, k_transposed.transpose(1, 2))  # [H, next_n, context_len]
+        attention_scores = F.relu(attention_scores)
+        # 应用权重并汇总所有头 [next_n, context_len]
+        weights_expanded = weights.transpose(0, 1).unsqueeze(2)  # [H, next_n, 1]
+        weighted_scores = attention_scores * weights_expanded  # [H, next_n, context_len]
+        logits_per_token = weighted_scores.sum(dim=0)  # [next_n, context_len]
+        
+        # 填充到输出logits中
+        batch_logits[:, :context_len] = logits_per_token
+        
+        return batch_logits
+    def clean_logits_tensor(
+        logits: torch.Tensor,
+        context_lens: torch.Tensor,
+        next_n: int,
+        max_model_len: int
+    ) -> torch.Tensor:
+        """清理logits张量,将超出上下文长度的位置设为负无穷"""
+        B = len(context_lens)
+        
+        for batch_idx in range(B):
+            context_len = context_lens[batch_idx].item()
+            if context_len >= max_model_len:
+                continue
+                
+            # 当前批次在logits中的位置
+            batch_start = batch_idx * next_n
+            batch_end = (batch_idx + 1) * next_n
+            
+            # 将超出上下文长度的位置设为负无穷
+            logits[batch_start:batch_end, context_len:] = -float('inf')
+        
+        return logits
+    
+    B, next_n, H, D = q.shape
+    num_blocks, block_size, _, cache_stride = kv_cache.shape
+    device = q.device
+    
+    # 初始化输出logits [B * next_n, max_model_len]
+    logits = torch.full((B * next_n, max_model_len), -float('inf'), 
+                       device=device, dtype=torch.float32)
+    
+    # 处理每个批次
+    for batch_idx in range(B):
+        context_len = context_lens[batch_idx].item()
+        if context_len == 0:
+            continue
+            
+        # 当前批次的查询 [next_n, H, D]
+        batch_q = q[batch_idx]  # [next_n, H, D]
+        
+        # 当前批次的权重 [next_n, H]
+        batch_weights_start = batch_idx * next_n
+        batch_weights_end = (batch_idx + 1) * next_n
+        batch_weights = weights[batch_weights_start:batch_weights_end]  # [next_n, H]
+        
+        # 从分页缓存中重组K值
+        batch_k = reassemble_k_from_paged_cache(
+            kv_cache, block_tables[batch_idx], context_len, D, block_size
+        )  # [context_len, D]
+        # 计算多查询注意力logits
+        batch_logits = compute_mqa_logits(
+            batch_q, batch_k, batch_weights, context_len, max_model_len
+        )  # [next_n, max_model_len]
+        
+        # 填充到输出logits中
+        logits[batch_weights_start:batch_weights_end] = batch_logits
+    
+    if clean_logits:
+        # 清理logits：将超出上下文长度的位置设为负无穷
+        logits = clean_logits_tensor(logits, context_lens, next_n, max_model_len)
+    
+    return logits
+
+def sparse_prefill_fwd(
+    q: torch.Tensor,
+    kv: torch.Tensor,
+    indices: torch.Tensor,
+    sm_scale: float,
+    d_v: int = 512,
+):
+    """
+    稀疏注意力预填充内核的PyTorch实现
+
+    Args:
+    - q: [s_q, h_q, d_qk], bfloat16
+    - kv: [s_kv, h_kv, d_qk], bfloat16
+    - indices: [s_q, h_kv, topk], int32. 无效索引设为-1或>=s_kv
+    - sm_scale: float
+    - d_v: 值向量的维度，只能为512
+
+    Returns:
+    - (output, max_logits, lse)
+    - output: [s_q, h_q, d_v], bfloat16
+    - max_logits: [s_q, h_q], float
+    - lse: [s_q, h_q], float, 以2为底的对数求和指数
+    """
+    def ref_masked_attention(
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        sm_scale: float,
+    ) -> torch.Tensor:
+        query = query * sm_scale
+        dtype = query.dtype
+        device = query.device
+        attn = torch.einsum("qhd,khd->hqk", query, key)
+        attn = attn.to(torch.float)
+        attn = torch.softmax(attn, dim=-1)
+        value = value.to(torch.float)
+        out = torch.einsum("hqk,khd->qhd", attn, value)
+        out = out.to(device).to(dtype)
+        return out
+    s_q, h_q, d_qk = q.shape
+    s_kv, h_kv, _ = kv.shape
+    _, _, topk = indices.shape
+    
+    device = q.device
+    dtype = q.dtype
+    
+    # 分离K和V
+    k = kv  # [s_kv, h_kv, d_qk]
+    v = kv[:, :, :d_v]  # [s_kv, h_kv, d_v]
+    
+    # 初始化输出
+    output = torch.zeros(s_q, h_q, d_v, device=device, dtype=dtype)
+    # 处理每个查询位置
+    for i in range(s_q):
+        # 当前查询 [h_q, d_qk]
+        q_i = q[i].unsqueeze(0)  # [1, h_q, d_qk]
+        # 获取当前查询位置的稀疏索引 [topk]
+        sparse_indices = indices[i, 0]  # [topk]
+        # 过滤有效索引 (>=0 且 < s_kv)
+        valid_mask = (sparse_indices >= 0) & (sparse_indices < s_kv)
+        valid_indices = sparse_indices[valid_mask]
+        # 获取有效的K和V
+        valid_k = k[valid_indices].repeat(1, h_q, 1)  # [valid_len, h_q, d_qk]
+        valid_v = v[valid_indices].repeat(1, h_q, 1)  # [valid_len, h_q, d_v]
+        out = ref_masked_attention(
+            q_i,
+            valid_k,
+            valid_v,
+            sm_scale
+        )
+        out = out.view(h_q, d_v)
+        output[i].copy_(out, non_blocking=True)
+    return output
+
+def get_device_attribute(attribute: int, device: int) -> int:
+    return torch.ops._C_cuda_utils.get_device_attribute(attribute, device)
+
+
+def get_max_shared_memory_per_block_device_attribute(device: int) -> int:
+    # ruff: noqa: E501
+    return torch.ops._C_cuda_utils.get_max_shared_memory_per_block_device_attribute(
+        device
+    )
+
+
+# custom ar
+def init_custom_ar(
+    ipc_tensors: list[torch.Tensor],
+    rank_data: torch.Tensor,
+    rank: int,
+    fully_connected: bool,
+) -> int:
+    return torch.ops._C_custom_ar.init_custom_ar(
+        ipc_tensors, rank_data, rank, fully_connected
+    )
+
+
+def all_reduce(
+    fa: int,
+    inp: torch.Tensor,
+    out: torch.Tensor,
+    reg_buffer: int,
+    reg_buffer_sz_bytes: int,
+) -> None:
+    torch.ops._C_custom_ar.all_reduce(fa, inp, out, reg_buffer, reg_buffer_sz_bytes)
+
+
+def dispose(fa: int) -> None:
+    torch.ops._C_custom_ar.dispose(fa)
+
+
+def meta_size() -> int:
+    return torch.ops._C_custom_ar.meta_size()
+
+
+def register_buffer(fa: int, ipc_tensors: list[int]) -> None:
+    return torch.ops._C_custom_ar.register_buffer(fa, ipc_tensors)
+
+
+def get_graph_buffer_ipc_meta(fa: int) -> tuple[list[int], list[int]]:
+    return torch.ops._C_custom_ar.get_graph_buffer_ipc_meta(fa)
+
+
+def register_graph_buffers(
+    fa: int, handles: list[list[int]], offsets: list[list[int]]
+) -> None:
+    torch.ops._C_custom_ar.register_graph_buffers(fa, handles, offsets)
+
+def allocate_shared_buffer_and_handle(size: int) -> tuple[int, torch.Tensor]:
+    return torch.ops._C_custom_ar.allocate_shared_buffer_and_handle(size)
+
+
+def open_mem_handle(mem_handle: torch.Tensor):
+    return torch.ops._C_custom_ar.open_mem_handle(mem_handle)
+
+
+def free_shared_buffer(ptr: int) -> None:
+    torch.ops._C_custom_ar.free_shared_buffer(ptr)
+
+
+# quick all reduce
+def init_custom_qr(rank: int, world_size: int, qr_max_size: int | None = None) -> int:
+    return torch.ops._C_custom_ar.init_custom_qr(rank, world_size, qr_max_size)
+
+
+def qr_destroy(fa: int) -> None:
+    torch.ops._C_custom_ar.qr_destroy(fa)
+
+
+def qr_all_reduce(
+    fa: int,
+    inp: torch.Tensor,
+    out: torch.Tensor,
+    quant_level: int,
+    cast_bf2half: bool = False,
+) -> None:
+    torch.ops._C_custom_ar.qr_all_reduce(fa, inp, out, quant_level, cast_bf2half)
+
+
+def qr_get_handle(fa: int) -> torch.Tensor:
+    return torch.ops._C_custom_ar.qr_get_handle(fa)
+
+
+def qr_open_handles(fa: int, handles: list[torch.Tensor]) -> None:
+    return torch.ops._C_custom_ar.qr_open_handles(fa, handles)
+
+
+def qr_max_size() -> int:
+    return torch.ops._C_custom_ar.qr_max_size()
+
+
+def get_flash_mla_metadata(
+    cache_seqlens: torch.Tensor,
+    num_heads_per_head_k: int,
+    num_heads_k: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Arguments:
+        cache_seqlens: (batch_size), dtype torch.int32.
+        num_heads_per_head_k: Equals to seq_len_q * num_heads_q // num_heads_k.
+        num_heads_k: num_heads_k.
+
+    Return:
+        tile_scheduler_metadata: (num_sm_parts, TileSchedulerMetaDataSize), dtype torch.int32.
+        num_splits: (batch_size + 1), dtype torch.int32.
+    """
+    return torch.ops._C.get_flash_mla_metadata(
+        cache_seqlens, num_heads_per_head_k, num_heads_k
+    )
+
+def flash_mla_with_kvcache(
+    q: torch.Tensor,
+    k_cache: torch.Tensor,
+    block_table: torch.Tensor,
+    cache_seqlens: torch.Tensor,
+    head_dim_v: int,
+    tile_scheduler_metadata: torch.Tensor,
+    num_splits: torch.Tensor,
+    softmax_scale: float | None = None,
+    causal: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Arguments:
+        q: (batch_size, seq_len_q, num_heads_q, head_dim).
+        k_cache: (num_blocks, page_block_size, num_heads_k, head_dim).
+        block_table: (batch_size, max_num_blocks_per_seq), torch.int32.
+        cache_seqlens: (batch_size), torch.int32.
+        head_dim_v: Head_dim of v.
+        tile_scheduler_metadata: (num_sm_parts, TileSchedulerMetaDataSize), torch.int32, return by get_mla_metadata.
+        num_splits: (batch_size + 1), torch.int32, return by get_mla_metadata.
+        softmax_scale: float. The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim).
+        causal: bool. Whether to apply causal attention mask.
+
+    Return:
+        out: (batch_size, seq_len_q, num_heads_q, head_dim_v).
+        softmax_lse: (batch_size, num_heads_q, seq_len_q), torch.float32.
+    """
+    if softmax_scale is None:
+        softmax_scale = q.shape[-1] ** (-0.5)
+    out, softmax_lse = torch.ops._C.flash_mla_fwd_kvcache(
+        q,
+        k_cache,
+        None,
+        head_dim_v,
+        cache_seqlens,
+        block_table,
+        softmax_scale,
+        causal,
+        tile_scheduler_metadata,
+        num_splits,
+    )
+    return out, softmax_lse
+
+
+def sm100_cutlass_mla_decode(
+    out: torch.Tensor,
+    lse: torch.Tensor,
+    q_nope: torch.Tensor,
+    q_pe: torch.Tensor,
+    kv_c_and_k_pe_cache: torch.Tensor,
+    seq_lens: torch.Tensor,
+    page_table: torch.Tensor,
+    workspace: torch.Tensor,
+    scale: float,
+    num_kv_splits: int,
+) -> torch.Tensor:
+    torch.ops._C.sm100_cutlass_mla_decode(
+        out,
+        lse,
+        q_nope,
+        q_pe,
+        kv_c_and_k_pe_cache,
+        seq_lens,
+        page_table,
+        workspace,
+        scale,
+        num_kv_splits,
+    )
+    return out
+
+
+def sm100_cutlass_mla_get_workspace_size(
+    max_seq_len: int, num_batches: int, sm_count: int, num_kv_splits: int
+) -> int:
+    return torch.ops._C.sm100_cutlass_mla_get_workspace_size(
+        max_seq_len, num_batches, sm_count, num_kv_splits
+    )
+
+
+if hasattr(torch.ops._C, "weight_packed_linear"):
+
+    @register_fake("_C::weight_packed_linear")
+    def weight_packed_linear_fake(
+        mat1: torch.Tensor,
+        mat2: torch.Tensor,
+        bias: torch.Tensor | None,
+        is_vnni: bool,
+    ) -> torch.Tensor:
+        return torch.empty(
+            (mat1.size(0), mat2.size(0)), dtype=mat1.dtype, device=mat2.device
+        )
+
+
+if hasattr(torch.ops._C, "fused_experts_cpu"):
+
+    @register_fake("_C::fused_experts_cpu")
+    def fused_experts_cpu_fake(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        inplace: bool,
+        use_int8_w8a8: bool,
+        use_fp8_w8a16: bool,
+        w1_scale: torch.Tensor | None,
+        w2_scale: torch.Tensor | None,
+        block_size: list[int] | None,
+        a1_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        is_vnni: bool,
+    ) -> torch.Tensor:
+        return torch.empty_like(hidden_states)
+
+
+if hasattr(torch.ops._C, "int8_scaled_mm_with_quant"):
+
+    @register_fake("_C::int8_scaled_mm_with_quant")
+    def int8_scaled_mm_with_quant_fake(
+        mat1: torch.Tensor,
+        mat2: torch.Tensor,
+        scales2: torch.Tensor,
+        bias: torch.Tensor | None,
+        out_dtype: torch.dtype,
+        is_vnni: bool,
+    ) -> torch.Tensor:
+        M = mat1.size(0)
+        N = mat2.size(0)
+        return torch.empty((M, N), dtype=out_dtype)
+
+
+class CPUDNNLGEMMHandler:
+    def __init__(self) -> None:
+        self.handler: int | None = None
+        self.n = -1
+        self.k = -1
+
+    def __del__(self):
+        if self.handler is not None:
+            torch.ops._C.release_dnnl_matmul_handler(self.handler)
+
+
+_supports_onednn = bool(hasattr(torch.ops._C, "create_onednn_mm_handler"))
+
+
+def is_onednn_acl_supported():
+    return torch.ops._C.is_onednn_acl_supported()
+
+
+def create_onednn_mm(
+    weight: torch.Tensor,  # [K, N]
+    primitive_cache_size: int = 128,
+) -> CPUDNNLGEMMHandler:
+    handler = CPUDNNLGEMMHandler()
+    handler.k, handler.n = weight.size()
+    handler.handler = torch.ops._C.create_onednn_mm_handler(
+        weight, primitive_cache_size
+    )
+    return handler
+
+
+def onednn_mm(
+    dnnl_handler: CPUDNNLGEMMHandler,
+    x: torch.Tensor,
+    bias: torch.Tensor | None,
+) -> torch.Tensor:
+    output = torch.empty((*x.shape[0:-1], dnnl_handler.n), dtype=x.dtype)
+    torch.ops._C.onednn_mm(
+        output, x.reshape(-1, dnnl_handler.k), bias, dnnl_handler.handler
+    )
+
+    return output
+
+
+def create_onednn_scaled_mm(
+    weight: torch.Tensor,  # [K, N]
+    weight_scales: torch.Tensor,
+    output_type: torch.dtype,
+    dynamic_quant: bool,
+    use_azp: bool,
+    primitive_cache_size: int = 128,
+) -> CPUDNNLGEMMHandler:
+    handler = CPUDNNLGEMMHandler()
+    handler.k, handler.n = weight.size()
+    handler.handler = torch.ops._C.create_onednn_scaled_mm_handler(
+        weight, weight_scales, output_type, dynamic_quant, use_azp, primitive_cache_size
+    )
+    return handler
+
+
+def onednn_scaled_int8_quant(
+    input: torch.Tensor,
+    scale: torch.Tensor | None = None,
+    azp: torch.Tensor | None = None,
+    symmetric: bool = True,
+):
+    """
+    Quantize the input tensor to int8 and return the quantized tensor and scale, and maybe azp.
+
+    Args:
+        input: The input tensor to be quantized to int8.
+        scale: Optional scaling factor for the int8 quantization.
+            When not provided, we invoke dynamic-per-token quantization.
+        azp: Optional zero-point for the int8 quantization.
+            Must be provided for asymmetric quantization if `scale` is provided.
+        symmetric: Whether to use symmetric quantization (scale only, azp ignored).
+
+    Returns:
+      tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]] : Output int8 tensor, scales, and optionally azp.
+    """
+    output = torch.empty_like(input, dtype=torch.int8)
+    token_num = input.numel() // input.shape[-1]
+    input = input.view((token_num, input.shape[-1]))
+    if scale is not None:
+        # static-per-tensor quantization.
+        assert symmetric == (azp is None), (
+            "azp must only be provided for asymmetric quantization."
+        )
+        torch.ops._C.static_scaled_int8_quant(output, input, scale, azp)
+        return output, scale, azp
+
+    # dynamic-per-token quantization.
+    input_scales = torch.empty((token_num, 1), device=input.device, dtype=torch.float32)
+    input_azp = None if symmetric else torch.empty_like(input_scales, dtype=torch.int32)
+    torch.ops._C.dynamic_scaled_int8_quant(output, input, input_scales, input_azp)
+    return output, input_scales, input_azp
+
+
+def onednn_scaled_mm(
+    dnnl_handler: CPUDNNLGEMMHandler,
+    x: torch.Tensor,
+    output: torch.Tensor,
+    input_scale: torch.Tensor | None,
+    input_zp: torch.Tensor | None,
+    input_zp_adj: torch.Tensor | None,
+    bias: torch.Tensor | None,
+) -> torch.Tensor:
+    torch.ops._C.onednn_scaled_mm(
+        output, x, input_scale, input_zp, input_zp_adj, bias, dnnl_handler.handler
+    )
+
+    return output
+
+
+def cpu_attn_get_scheduler_metadata(
+    num_reqs: int,
+    num_heads: int,
+    num_kv_heads: int,
+    head_dim: int,
+    seq_lens: torch.Tensor,
+    dtype: torch.dtype,
+    query_start_loc: torch.Tensor,
+    causal: bool,
+    sliding_window_size: int,
+    isa: str,
+    enable_kv_split: bool,
+) -> torch.Tensor:
+    sheduler_metadata = torch.ops._C.get_scheduler_metadata(
+        num_reqs,
+        num_heads,
+        num_kv_heads,
+        head_dim,
+        seq_lens,
+        dtype,
+        query_start_loc,
+        causal,
+        sliding_window_size,
+        isa,
+        enable_kv_split,
+    )
+    return sheduler_metadata
+
+
+def cpu_attn_reshape_and_cache(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    isa: str,
+) -> None:
+    torch.ops._C.cpu_attn_reshape_and_cache(
+        key,
+        value,
+        key_cache,
+        value_cache,
+        slot_mapping,
+        isa,
+    )
+
+
+def cpu_attention_with_kv_cache(
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    output: torch.Tensor,
+    query_start_loc: torch.Tensor,
+    seq_lens: torch.Tensor,
+    scale: float,
+    causal: bool,
+    alibi_slopes: torch.Tensor | None,
+    sliding_window: tuple[int, int],
+    block_table: torch.Tensor,
+    softcap: float,
+    scheduler_metadata: torch.Tensor,
+    s_aux: torch.Tensor | None,
+) -> None:
+    torch.ops._C.cpu_attention_with_kv_cache(
+        query,
+        key_cache,
+        value_cache,
+        output,
+        query_start_loc,
+        seq_lens,
+        scale,
+        causal,
+        alibi_slopes,
+        sliding_window[0],
+        sliding_window[1],
+        block_table,
+        softcap,
+        scheduler_metadata,
+        s_aux,
+    )
+
+
+if hasattr(torch.ops._qutlass_C, "matmul_mxf4_bf16_tn"):
+
+    @register_fake("_qutlass_C::matmul_mxf4_bf16_tn")
+    def _fake_matmul_mxf4_bf16_tn(
+        a: torch.Tensor,
+        b: torch.Tensor,
+        a_sf: torch.Tensor,
+        b_sf: torch.Tensor,
+        alpha: torch.Tensor,
+    ):
+        return a.new_empty(*a.shape[:-1], b.shape[0], dtype=torch.bfloat16)
+
+
+def matmul_mxf4_bf16_tn(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    a_sf: torch.Tensor,
+    b_sf: torch.Tensor,
+    alpha: torch.Tensor,
+) -> torch.Tensor:
+    return torch.ops._qutlass_C.matmul_mxf4_bf16_tn(a, b, a_sf, b_sf, alpha)
+
+
+if hasattr(torch.ops._qutlass_C, "matmul_ada_mxf4_bf16_tn"):
+
+    @register_fake("_qutlass_C::matmul_ada_mxf4_bf16_tn")
+    def _fake_matmul_ada_mxf4_bf16_tn(
+        a: torch.Tensor,
+        b: torch.Tensor,
+        a_sf: torch.Tensor,
+        b_sf: torch.Tensor,
+        alpha: torch.Tensor,
+    ):
+        return a.new_empty(*a.shape[:-1], b.shape[0], dtype=torch.bfloat16)
+
+
+def matmul_ada_mxf4_bf16_tn(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    a_sf: torch.Tensor,
+    b_sf: torch.Tensor,
+    alpha: torch.Tensor,
+) -> torch.Tensor:
+    return torch.ops._qutlass_C.matmul_ada_mxf4_bf16_tn(a, b, a_sf, b_sf, alpha)
+
+
+def ceil_div(a, b):
+    return (a + b - 1) // b
+
+
+if hasattr(torch.ops._qutlass_C, "fusedQuantizeMxQuest"):
+
+    @register_fake("_qutlass_C::fusedQuantizeMxQuest")
+    def _fake_fused_quantize_mx_quest(
+        a: torch.Tensor, b: torch.Tensor, xh_e2m1: torch.Tensor, xh_e8m0: torch.Tensor
+    ):
+        return xh_e2m1, xh_e8m0
+
+
+if hasattr(torch.ops._qutlass_C, "fusedQuantizeMxAbsMax"):
+
+    @register_fake("_qutlass_C::fusedQuantizeMxAbsMax")
+    def _fake_fused_quantize_mx_absmax(
+        a: torch.Tensor, b: torch.Tensor, xh_e2m1: torch.Tensor, xh_e8m0: torch.Tensor
+    ):
+        return xh_e2m1, xh_e8m0
+
+
+def fusedQuantizeMx(
+    a: torch.Tensor, b: torch.Tensor, *, method: Literal["quest", "abs_max"] = "quest"
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if a.dim() == 0:
+        raise ValueError("`a` must have at least 1 dimension.")
+    if a.size(-1) % 32 != 0:
+        raise ValueError(f"last dim of `a` must be divisible by 32, got {a.size(-1)}.")
+    if b.device != a.device:
+        raise ValueError("`a` and `b` must be on the same device.")
+
+    xh_e2m1 = torch.empty(
+        *a.shape[:-1], a.size(-1) // 2, dtype=torch.uint8, device=a.device
+    )
+
+    rows, cols = a.numel() // a.size(-1), a.size(-1) // 32
+    n_row_blocks = ceil_div(rows, 128)
+    n_col_blocks = ceil_div(cols, 4)
+    padded_rows = n_row_blocks * 128
+    padded_cols = n_col_blocks * 4
+
+    xh_e8m0 = torch.empty(
+        padded_rows, padded_cols, dtype=torch.float8_e8m0fnu, device=a.device
+    )
+
+    if not hasattr(torch.ops, "_qutlass_C"):
+        raise RuntimeError(
+            "The `_qutlass_C` extension is not loaded. "
+            "Make sure your custom op library is imported before calling fusedQuantizeMx."
+        )
+
+    if method == "quest":
+        return torch.ops._qutlass_C.fusedQuantizeMxQuest(a, b, xh_e2m1, xh_e8m0)
+    elif method == "abs_max":
+        return torch.ops._qutlass_C.fusedQuantizeMxAbsMax(a, b, xh_e2m1, xh_e8m0)
+    else:
+        raise ValueError(f"invalid method {method!r}, must be 'quest' or 'abs_max'")
+
+
+if hasattr(torch.ops._qutlass_C, "fusedQuantizeNv"):
+
+    @register_fake("_qutlass_C::fusedQuantizeNv")
+    def _fake_fused_quantize_nv(
+        a: torch.Tensor,
+        b: torch.Tensor,
+        xh_e2m1: torch.Tensor,
+        xh_e4m3: torch.Tensor,
+        global_scale: torch.Tensor,
+    ):
+        return xh_e2m1, xh_e4m3
+
+
+def fusedQuantizeNv(
+    a: torch.Tensor, b: torch.Tensor, global_scale: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor]:
+    xh_e2m1 = torch.empty(
+        *a.shape[:-1], a.size(-1) // 2, dtype=torch.uint8, device=a.device
+    )
+
+    rows, cols = a.numel() // a.size(-1), a.size(-1) // 16
+    n_row_blocks = ceil_div(rows, 128)
+    n_col_blocks = ceil_div(cols, 4)
+    padded_rows = n_row_blocks * 128
+    padded_cols = n_col_blocks * 4
+    xh_e4m3 = torch.empty(
+        padded_rows, padded_cols, dtype=torch.float8_e4m3fn, device=a.device
+    )
+
+    return torch.ops._qutlass_C.fusedQuantizeNv(a, b, xh_e2m1, xh_e4m3, global_scale)
+
+
+def hadacore_transform(x: torch.Tensor, inplace: bool = True) -> torch.Tensor:
+    """
+    Perform Hadamard transforms using [Hadacore](https://arxiv.org/abs/2412.08832)
+    kernels. Note that these kernels exploit the recursive properties of
+    Sylvester Hadamards, and therefore do not require transform weight data
+
+    Note that sylvester hadamard transforms are also symmetric, which means that
+    this function is also applies the (transpose <=> inverse) transform.
+
+    :param x: value to be transformed inplace
+    :param inplace: modify value in place
+    :return: value after transformation
+    """
+    return torch.ops._C.hadacore_transform(x, inplace)
+
+
+if hasattr(torch.ops._C, "hadacore_transform"):
+
+    @register_fake("_C::hadacore_transform")
+    def _hadacore_transform_fake(x: torch.Tensor, inplace: bool) -> torch.Tensor:
+        return torch.empty_like(x) if not inplace else x
+# Add our new features here..
+def gather_cache(
+    src_cache: torch.Tensor,      # [NUM_BLOCKS, BLOCK_SIZE, ENTRIES...]
+    dst: torch.Tensor,            # [TOT_TOKENS, ENTRIES...]
+    block_table: torch.Tensor,    # [BATCH, BLOCK_INDICES]
+    cu_seq_lens: torch.Tensor,    # [BATCH+1]
+    batch_size: int,
+    seq_starts: torch.Tensor = None
+):
+    ops.vllm_gather_cache(src_cache, dst, block_table, cu_seq_lens, batch_size, seq_starts)
+            
+def gather_cache_int8(
+    src_cache: torch.Tensor,      # [NUM_BLOCKS, BLOCK_SIZE, ENTRIES...]
+    src_cache_scale: torch.Tensor,# [NUM_BLOCKS, BLOCK_SIZE, 2]
+    kv_lora_rank: int,
+    dst: torch.Tensor,            # [TOT_TOKENS, ENTRIES...]
+    block_table: torch.Tensor,    # [BATCH, BLOCK_INDICES]
+    cu_seq_lens: torch.Tensor,    # [BATCH+1]
+    batch_size: int,
+    seq_starts: torch.Tensor = None
+):
+    ops.vllm_gather_cache_int8(src_cache,src_cache_scale, kv_lora_rank, dst, block_table, cu_seq_lens, batch_size, seq_starts)
+    
+def quant_kv(kv):
+    amax_, _ = torch.max(torch.abs(kv), dim=-1, keepdim=True)
+    f_scale = amax_.float() / 127.0
+    scales = f_scale.view(kv.shape[:-1])
+
+    # 量化
+    kv = kv / f_scale
+    kv = torch.clamp(torch.round(kv), -127, 127).to(torch.int8)
+    return kv, scales
+
+    
+def concat_and_cache_mla_int8(
+    kv_c_int8: torch.Tensor,
+    kv_c_scale: torch.Tensor,
+    k_pe_int8: torch.Tensor,
+    k_pe_scale: torch.Tensor,
+    kv_cache: torch.Tensor,
+    kv_cache_scale: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    kv_cache_dtype: str,
+    scale: torch.Tensor,
+) -> None:
+    ops.vllm_concat_and_cache_mla_int8(kv_c_int8,kv_c_scale, k_pe_int8, k_pe_scale, kv_cache, kv_cache_scale,
+                                  slot_mapping, kv_cache_dtype,
+                                  scale)
+def invoke_fused_moe_kernel(
+    A: torch.Tensor, 
+    B: torch.Tensor, 
+    C: torch.Tensor,
+    A_scale: Optional[torch.Tensor],
+    B_scale: Optional[torch.Tensor],
+    topk_weights: torch.Tensor, 
+    topk_ids: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    mul_routed_weight: bool, 
+    top_k: int,
+    config: Dict[str, Any],
+    compute_type,
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    block_shape: Optional[List[int]] = None,
+    bias: Optional[torch.Tensor] = None,
+) -> None:
+    ops.vllm_invoke_fused_moe_kernel(
+        A,
+        B,
+        C,
+        topk_weights,
+        topk_ids,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        mul_routed_weight,
+        top_k,
+        config['BLOCK_SIZE_M'],
+        bias=bias
+    )
+
+
+# broadcast
+class Async_helper():
+    # For now, the comm and the other kernels are in the same stream, so we can remove the stream wait..
+    def wait(self,):
+        return True
+
+
+def broadcast(tensor, src=0, group=None, async_op=False):
+    cdist.broadcast(tensor,src,group,async_op=True)
+    if async_op:
+        return Async_helper()
+    else:
+        pass
+
+
+# w8a16
+def linear_w8a16(x: torch.Tensor, qweight: torch.Tensor, scales:torch.Tensor,
+                 group_size: int = -1, format: str = "TN")-> torch.Tensor:
+    return ops.w8a16(x, qweight, scales, format="TN", group_size=group_size)
+
+
+## lora sgmv / bgmv
+def sbgmv_expand(x: torch.Tensor,
+                w_t_all: torch.Tensor,
+                y: torch.Tensor,
+                b_seq_start_loc: torch.Tensor = None,
+                seq_len_tensor: torch.Tensor = None,
+                lora_indices_tensor: torch.Tensor = None,
+                batches: int = -1,
+                max_seq_length: int = -1,
+                token_nums: int = -1,
+                add_input=True,
+                ):
+    '''
+    x: inputs
+    w_t_all: lora weight
+    y: output
+
+    y += x@wt_t_all
+    '''
+    assert x.dtype in [torch.float16, torch.bfloat16, torch.float32]
+    assert w_t_all.dtype in [
+        torch.float16,
+        torch.bfloat16,
+    ]
+
+    assert x.is_contiguous()
+    # assert y.is_contiguous()
+    if x.dtype == torch.float:
+        x = x.to(w_t_all.dtype)
+
+    if w_t_all.ndim == 4:  # shape:(lora_num,1,size,rank)
+        assert w_t_all.size(1) == 1
+        w_t_all = w_t_all.squeeze(dim=1)
+    else:
+        assert w_t_all.ndim == 3  # shape:(lora_num,size,rank)
+    assert w_t_all.is_contiguous()
+
+    assert add_input == True
+
+    lora_indices = lora_indices_tensor.cpu().tolist()
+    lora_num = w_t_all.shape[0]
+
+    ## 单一lora model, 且所有request均使用lora
+    if lora_num == 1 and all(x == lora_indices[0] for x in lora_indices):
+        if lora_indices[0] != -1:
+            w_t = w_t_all[0]
+            y += torch.matmul(x, w_t.t())
+    ## 多个lora model
+    else:
+        ## prefill
+        if batches != -1:
+            for i, lora_id, start, seq_len in zip(range(batches), lora_indices, b_seq_start_loc, seq_len_tensor):
+                if lora_id != -1:
+                    xi = x[start: start+seq_len]
+                    w_t = w_t_all[lora_id]
+                    y[start:start+seq_len] += (xi @ w_t.t())
+        ## decode
+        else:
+            batches = x.shape[0]
+            for i, lora_id in zip(range(batches), lora_indices):
+                if lora_id != -1:
+                    xi = x[i].unsqueeze(0)
+                    w_t = w_t_all[lora_id]
+                    y[i] += (xi @ w_t.t()).squeeze(0)
+
+    return y
+
+
+def sbgmv_shrink(x: torch.Tensor,
+                w_t_all: torch.Tensor,
+                y: torch.Tensor,
+                b_seq_start_loc: torch.Tensor = None,
+                seq_len_tensor: torch.Tensor = None,
+                lora_indices_tensor: torch.Tensor = None,
+                batches: int = -1,
+                max_seq_length: int = -1,
+                token_nums: int = -1,
+                scale: float = 1.0,):
+    """
+    xx: inputs
+    w_t_all: lora weight
+    y: output
+    scale: float
+
+    y = x@w_t_all * scale
+    """
+    assert x.dtype == w_t_all.dtype
+    assert x.dtype in [torch.float16, torch.bfloat16]
+    assert x.is_contiguous()
+    assert y.is_contiguous()
+
+    if w_t_all.ndim == 4:  # shape:(lora_num,1,size,rank)
+        assert w_t_all.size(1) == 1
+        w_t_all = w_t_all.squeeze(dim=1)
+    else:
+        assert w_t_all.ndim == 3  # shape:(lora_num,size,rank)
+    assert w_t_all.is_contiguous()
+    
+    lora_num = w_t_all.shape[0]
+    lora_indices = lora_indices_tensor.cpu().tolist()
+
+    ## 单一lora model, 且所有request均使用lora
+    if lora_num == 1 and all(x == lora_indices[0] for x in lora_indices):
+        if lora_indices[0] != -1:
+            w_t = w_t_all[0]
+            y = torch.matmul(x, w_t.t()) * scale
+    ## 多个lora model
+    else:
+        ## prefill
+        if batches != -1:
+            for i, lora_id, start, seq_len in zip(range(batches), lora_indices, b_seq_start_loc, seq_len_tensor):
+                if lora_id != -1:
+                    xi = x[start: start+seq_len]
+                    w_t = w_t_all[lora_id]
+                    y[start:start+seq_len] = (xi @ w_t.t())* scale
+        ## decode
+        else:
+            batches = x.shape[0]
+            for i, lora_id in zip(range(batches), lora_indices):
+                if lora_id != -1:
+                    xi = x[i].unsqueeze(0)
+                    w_t = w_t_all[lora_id]
+                    y[i] = (xi @ w_t.t()).squeeze(0) * scale
+
+    return y
+
+def dynamic_scaled_quant_dynamic_int8(x, input_scales=None, int8_out=None, scales=None):
+    return ops.dynamic_scaled_quant_smoothquant(x, input_scales, int8_out, scales)
+
+
+def rejection_greedy_sample_torch(
+    output_token_ids: torch.Tensor,      # [batch_size, max_spec_len + 1]
+    cu_num_draft_tokens: torch.Tensor,   # [batch_size] (前缀和形式)
+    draft_token_ids: torch.Tensor,       # [num_tokens]
+    target_argmax: torch.Tensor,         # [num_tokens]
+    bonus_token_ids: torch.Tensor,       # [batch_size]
+    is_greedy: torch.Tensor = None,      # [batch_size] 或 None
+):
+    """
+    完全等价于 rejection_greedy_sample_kernel 的 PyTorch 实现
+    接口参数与 Triton 核完全一致
+    """
+    batch_size = output_token_ids.size(0)
+    device = output_token_ids.device
+
+    # 处理 is_greedy 为 None 的情况（保持与 Triton 核相同行为）
+    if is_greedy is None:
+        is_greedy_mask = torch.ones(batch_size, dtype=torch.bool, device=device)
+    else:
+        is_greedy_mask = is_greedy.to(device)
+
+    for req_idx in range(batch_size):
+        if not is_greedy_mask[req_idx]:
+            continue  # 非贪婪请求直接跳过
+
+        # 计算当前请求的token范围（前缀和转实际数量）
+        start_idx = 0 if req_idx == 0 else cu_num_draft_tokens[req_idx - 1]
+        end_idx = cu_num_draft_tokens[req_idx]
+        num_draft_tokens = end_idx - start_idx
+
+        rejected = False
+        for pos in range(num_draft_tokens):
+            if not rejected:
+                global_pos = start_idx + pos
+                draft_token = draft_token_ids[global_pos]
+                target_token = target_argmax[global_pos]
+
+                # 存储目标token（与Triton核完全一致的行为）
+                output_token_ids[req_idx, pos] = target_token
+
+                # 检查是否拒绝
+                if draft_token != target_token:
+                    rejected = True
+
+        # 全部接受时追加bonus token
+        if not rejected and num_draft_tokens < output_token_ids.size(1):
+            output_token_ids[req_idx, num_draft_tokens] = bonus_token_ids[req_idx]
+
+    return output_token_ids  # 原位修改
+
+def rejection_random_sample_torch(
+    output_token_ids: torch.Tensor,          # [batch_size, max_spec_len + 1]
+    cu_num_draft_tokens: torch.Tensor,       # [batch_size] (前缀和形式)
+    draft_token_ids: torch.Tensor,          # [num_tokens]
+    draft_probs: torch.Tensor | None,       # [num_tokens, vocab_size] 或 None
+    target_probs: torch.Tensor,             # [num_tokens, vocab_size]
+    bonus_token_ids: torch.Tensor,          # [batch_size]
+    recovered_token_ids: torch.Tensor,      # [num_tokens]
+    uniform_probs: torch.Tensor,            # [num_tokens] (0~1均匀分布)
+    is_greedy: torch.Tensor | None,         # [batch_size] 或 None
+    NO_DRAFT_PROBS: bool = False,           # 是否忽略draft_probs
+):
+    batch_size = output_token_ids.size(0)
+    max_spec_len_plus_1 = output_token_ids.size(1)
+    device = output_token_ids.device
+
+    # 处理 is_greedy 为 None 的情况
+    if is_greedy is None:
+        is_greedy = torch.zeros(batch_size, dtype=torch.bool, device=device)
+    else:
+        is_greedy = is_greedy.to(device)
+
+    for req_idx in range(batch_size):
+        if is_greedy[req_idx]:
+            continue  # 贪婪采样请求直接跳过
+
+        # 计算当前请求的token范围
+        start_idx = 0 if req_idx == 0 else cu_num_draft_tokens[req_idx - 1]
+        end_idx = cu_num_draft_tokens[req_idx]
+        num_draft_tokens = end_idx - start_idx
+
+        rejected = False
+        for pos in range(num_draft_tokens):
+            if not rejected:
+                global_pos = start_idx + pos
+                draft_token_id = draft_token_ids[global_pos]
+
+                # 获取draft概率 (处理NO_DRAFT_PROBS情况)
+                if NO_DRAFT_PROBS:
+                    draft_prob = 1.0
+                else:
+                    assert draft_probs is not None, "draft_probs不能为None当NO_DRAFT_PROBS=False"
+                    draft_prob = draft_probs[global_pos, draft_token_id]
+
+                # 获取target概率和均匀随机数
+                target_prob = target_probs[global_pos, draft_token_id]
+                uniform_prob = uniform_probs[global_pos]
+
+                # 拒绝采样逻辑
+                if draft_prob > 0 and (target_prob / draft_prob) >= uniform_prob:
+                    # 接受draft token
+                    output_token_ids[req_idx, pos] = draft_token_id
+                else:
+                    # 拒绝并使用恢复的token
+                    rejected = True
+                    output_token_ids[req_idx, pos] = recovered_token_ids[global_pos]
+
+        # 如果全部接受则追加bonus token
+        if not rejected and num_draft_tokens < max_spec_len_plus_1:
+            output_token_ids[req_idx, num_draft_tokens] = bonus_token_ids[req_idx]
+
+    return output_token_ids
+
+weak_ref_tensor = ops.weak_ref_tensor
diff --git a/_ipex_ops.py b/_ipex_ops.py
new file mode 100644
index 0000000..95c17cb
--- /dev/null
+++ b/_ipex_ops.py
@@ -0,0 +1,457 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+try:
+    import intel_extension_for_pytorch as ipex
+except ImportError as e:
+    logger.debug("Import error msg: %s", e.msg)
+
+
+class ipex_ops:
+    @staticmethod
+    def _reshape_activation_tensor(
+        x: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        num = x.size(0)
+        d = x.size(1) // 2
+        x = x.reshape(num, 2, d)
+        x1, x2 = torch.chunk(x, chunks=2, dim=1)
+        x1 = x1.reshape(num, d)
+        x2 = x2.reshape(num, d)
+        return x1, x2
+
+    @staticmethod
+    def silu_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+        ipex.llm.functional.silu_and_mul(x, out)
+
+    @staticmethod
+    def gelu_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+        ipex.llm.functional.gelu_and_mul(x, out)
+
+    @staticmethod
+    def gelu_tanh_and_mul(out: torch.Tensor, x: torch.Tensor) -> None:
+        ipex.llm.functional.gelu_and_mul(x, out)
+
+    @staticmethod
+    def gelu_fast(x: torch.Tensor) -> torch.Tensor:
+        return torch.nn.functional.gelu(x)
+
+    @staticmethod
+    def gelu_new(x: torch.Tensor) -> torch.Tensor:
+        return torch.nn.functional.gelu(x)
+
+    @staticmethod
+    def gelu_quick(out: torch.Tensor, x: torch.Tensor) -> None:
+        ipex.llm.functional.gelu_quick(x, out)
+
+    @staticmethod
+    def paged_attention_v1(
+        out: torch.Tensor,
+        query: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        num_kv_heads: int,
+        scale: float,
+        block_tables: torch.Tensor,
+        context_lens: torch.Tensor,
+        block_size: int,
+        max_context_len: int,
+        alibi_slopes: torch.Tensor | None,
+        kv_cache_dtype: str,
+        k_scale: float,
+        v_scale: float,
+        tp_rank: int = 0,
+        blocksparse_local_blocks: int = 0,
+        blocksparse_vert_stride: int = 0,
+        blocksparse_block_size: int = 64,
+        blocksparse_head_sliding_step: int = 0,
+    ) -> None:
+        assert kv_cache_dtype == "auto"
+        num_heads = out.size(1)
+        num_queries_per_tokens = num_heads // num_kv_heads
+        ipex.llm.modules.PagedAttention.single_query_kv_attention(
+            out,
+            query.contiguous(),
+            key_cache.view_as(value_cache),
+            value_cache,
+            num_queries_per_tokens,
+            scale,
+            block_tables,
+            context_lens,
+            block_size,
+            max_context_len,
+            alibi_slopes,
+        )
+
+    @staticmethod
+    def paged_attention_v2(
+        out: torch.Tensor,
+        exp_sum: torch.Tensor,
+        max_logits: torch.Tensor,
+        tmp_out: torch.Tensor,
+        query: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        num_kv_heads: int,
+        scale: float,
+        block_tables: torch.Tensor,
+        context_lens: torch.Tensor,
+        block_size: int,
+        max_context_len: int,
+        alibi_slopes: torch.Tensor | None,
+        kv_cache_dtype: str,
+        k_scale: float,
+        v_scale: float,
+        tp_rank: int = 0,
+        blocksparse_local_blocks: int = 0,
+        blocksparse_vert_stride: int = 0,
+        blocksparse_block_size: int = 64,
+        blocksparse_head_sliding_step: int = 0,
+    ) -> None:
+        assert kv_cache_dtype == "auto"
+        num_heads = out.size(1)
+        num_queries_per_tokens = num_heads // num_kv_heads
+        ipex.llm.modules.PagedAttention.single_query_kv_attention(
+            out,
+            query.contiguous(),
+            key_cache.view_as(value_cache),
+            value_cache,
+            num_queries_per_tokens,
+            scale,
+            block_tables,
+            context_lens,
+            block_size,
+            max_context_len,
+            alibi_slopes,
+        )
+
+    @staticmethod
+    def rotary_embedding(
+        positions: torch.Tensor,  # [batch_size, seq_len]
+        query: torch.Tensor,  # [batch_size, seq_len, num_heads*head_size]
+        key: torch.Tensor,  # [batch_size, seq_len, num_kv_heads*head_size]
+        head_size: int,
+        cos_sin_cache: torch.Tensor,  # [cos_sin_dim, rot_dim]
+        is_neox: bool,
+    ) -> None:
+        rot_dim = cos_sin_cache.size(1)
+        ipex.llm.functional.rotary_embedding_batched(
+            positions, query, key, head_size, cos_sin_cache, is_neox, rot_dim
+        )
+
+    @staticmethod
+    def rms_norm(
+        input: torch.Tensor, weight: torch.Tensor, epsilon: float
+    ) -> torch.Tensor:
+        out = torch.empty_like(input)
+        torch.ops.torch_ipex.rms_norm_vllm(out, input.contiguous(), weight, epsilon)
+        return out
+
+    @staticmethod
+    def fused_add_rms_norm(
+        input: torch.Tensor,
+        residual: torch.Tensor,
+        weight: torch.Tensor,
+        epsilon: float,
+    ) -> None:
+        torch.ops.torch_ipex.fused_add_rms_norm_vllm(input, residual, weight, epsilon)
+
+    @staticmethod
+    def varlen_attention(
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        out: torch.Tensor,
+        seqlen_q: torch.Tensor,
+        seqlen_k: torch.Tensor,
+        alibi_slopes: torch.Tensor | None,
+        max_seqlen_q: int,
+        max_seqlen_k: int,
+        pdropout: float,
+        softmax_scale: float,
+        zero_tensors: bool,
+        is_causal: bool,
+        return_softmax: bool,
+        gen_: torch.Generator,
+        window_size_left: float,
+        window_size_right: float,
+        logits_soft_cap: float,
+    ) -> None:
+        if ipex.__version__.endswith("cpu"):
+            if logits_soft_cap != 0.0:
+                raise ValueError("IPEX CPU does not support logits_soft_cap")
+            assert alibi_slopes is None
+            assert window_size_left < 0 and window_size_right < 0
+            ipex.llm.functional.varlen_attention(
+                query.contiguous(),
+                key.contiguous(),
+                value.contiguous(),
+                out,
+                seqlen_q.int(),
+                seqlen_k.int(),
+                max_seqlen_q,
+                max_seqlen_k,
+                pdropout,
+                softmax_scale,
+                zero_tensors,
+                is_causal,
+                return_softmax,
+                gen_,
+            )
+        else:  # XPU build
+            ipex.llm.functional.varlen_attention(
+                query.contiguous(),
+                key.contiguous(),
+                value.contiguous(),
+                out,
+                seqlen_q.int(),
+                seqlen_k.int(),
+                alibi_slopes,
+                max_seqlen_q,
+                max_seqlen_k,
+                pdropout,
+                softmax_scale,
+                zero_tensors,
+                is_causal,
+                return_softmax,
+                gen_,
+                window_size_left,
+                window_size_right,
+                logits_soft_cap,
+            )
+
+    @staticmethod
+    def reshape_and_cache(
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache_dtype: str,
+        k_scale: float,
+        v_scale: float,
+    ) -> None:
+        assert kv_cache_dtype == "auto"
+        ipex.llm.modules.PagedAttention.reshape_and_cache(
+            key, value, key_cache, value_cache, slot_mapping
+        )
+
+    @staticmethod
+    def reshape_and_cache_flash(
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache_dtype: str,
+        k_scale: torch.Tensor | None = None,
+        v_scale: torch.Tensor | None = None,
+        k_scale_float: float = 1.0,
+        v_scale_float: float = 1.0,
+    ) -> None:
+        ipex.llm.modules.PagedAttention.reshape_and_cache_flash(
+            key,
+            value,
+            key_cache,
+            value_cache,
+            slot_mapping,
+            kv_cache_dtype,
+            k_scale_float,
+            v_scale_float,
+        )
+
+    @staticmethod
+    def flash_attn_varlen_func(
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        cu_seqlens_q: torch.Tensor,
+        max_seqlen_q: int,
+        max_seqlen_k: int,
+        softmax_scale: float | None = None,
+        causal: bool = False,
+        out: torch.Tensor | None = None,
+        block_table: torch.Tensor | None = None,
+        alibi_slopes: torch.Tensor | None = None,
+        window_size: list[int] | None = None,
+        softcap: float | None = 0.0,
+        seqused_k: torch.Tensor | None = None,
+        cu_seqlens_k: torch.Tensor | None = None,
+        # passed in qwen vl
+        dropout_p: float = 0.0,
+        # The following parameters are not used in ipex kernel currently,
+        # we keep API compatible to CUDA's.
+        scheduler_metadata=None,
+        fa_version: int = 2,
+        q_descale=None,
+        k_descale=None,
+        v_descale=None,
+        num_splits=0,
+        s_aux: torch.Tensor | None = None,
+    ):
+        if out is None:
+            out = torch.empty(q.shape, dtype=q.dtype, device=q.device)
+        real_window_size: tuple[int, int]
+        if window_size is None:
+            real_window_size = (-1, -1)
+        else:
+            assert len(window_size) == 2
+            real_window_size = (window_size[0], window_size[1])
+
+        if block_table is None:
+            assert cu_seqlens_k is not None, (
+                "cu_seqlens_k can't be None when calling varlen_attention."
+            )
+            if softmax_scale is None:
+                softmax_scale = q.shape[-1] ** (-0.5)
+            ipex_ops.varlen_attention(
+                q.contiguous(),
+                k.contiguous(),
+                v.contiguous(),
+                out,
+                cu_seqlens_q,
+                cu_seqlens_k,
+                None,
+                max_seqlen_q,
+                max_seqlen_k,
+                0.0,
+                softmax_scale,
+                False,
+                causal,
+                False,
+                None,
+                real_window_size[0],
+                real_window_size[1],
+                -1,
+            )
+            return out
+        else:
+            return ipex.llm.modules.PagedAttention.flash_attn_varlen_func(
+                out,
+                q.contiguous(),
+                k,
+                v,
+                cu_seqlens_q,
+                seqused_k,
+                max_seqlen_q,
+                max_seqlen_k,
+                softmax_scale,
+                causal,
+                block_table,
+                alibi_slopes,
+                sink=s_aux,
+                softcap=softcap,
+                window_size_left=real_window_size[0],
+                window_size_right=real_window_size[1],
+                k_scale=1.0,
+                v_scale=1.0,
+            )
+
+    @staticmethod
+    def get_scheduler_metadata(
+        batch_size,
+        max_seqlen_q,
+        max_seqlen_k,
+        num_heads_q,
+        num_heads_kv,
+        headdim,
+        cache_seqlens: torch.Tensor,
+        qkv_dtype=torch.bfloat16,
+        headdim_v=None,
+        cu_seqlens_q: torch.Tensor | None = None,
+        cu_seqlens_k_new: torch.Tensor | None = None,
+        cache_leftpad: torch.Tensor | None = None,
+        page_size: int | None = None,
+        max_seqlen_k_new=0,
+        causal=False,
+        window_size=(-1, -1),  # -1 means infinite context window
+        has_softcap=False,
+        num_splits=0,  # Can be tuned for speed
+        pack_gqa=None,  # Can be tuned for speed
+        sm_margin=0,  # Can be tuned if some SMs are used for communication
+    ) -> None:
+        logger.warning_once(
+            "get_scheduler_metadata is not implemented for ipex_ops, returning None."
+        )
+        return None
+
+    @staticmethod
+    def copy_blocks(
+        key_caches: list[torch.Tensor],
+        value_caches: list[torch.Tensor],
+        block_mapping: torch.Tensor,
+    ) -> None:
+        torch.xpu.copy_blocks(  # type: ignore
+            key_caches,
+            value_caches,
+            block_mapping,
+        )
+
+    @staticmethod
+    def swap_blocks(
+        src: torch.Tensor, dst: torch.Tensor, block_mapping: torch.Tensor
+    ) -> None:
+        torch.xpu.swap_blocks(src, dst, block_mapping)  # type: ignore
+
+    @staticmethod
+    def scaled_fp8_quant(
+        input: torch.Tensor,
+        scale: torch.Tensor | None = None,
+        num_token_padding: int | None = None,
+        scale_ub: torch.Tensor | None = None,
+        use_per_token_if_dynamic: bool = False,
+        output: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Quantize input tensor to FP8 and return quantized tensor and scale.
+
+        This function is designed for both static and dynamic quantization:
+        If you provide the scale, it will use static scaling and if you omit
+        it, the scale will be determined dynamically. Currently, XPU platform
+        only supports dynamic quantization. The function also allows optional
+        padding of the output tensors for downstream kernels that will benefit
+        from padding.
+
+        Args:
+            input: The input tensor to be quantized to FP8
+            scale: Optional scaling factor for the FP8 quantization
+            scale_ub: Optional upper bound for scaling factor in dynamic
+                per token case
+            num_token_padding: If specified, pad the first dimension
+                of the output to at least this value.
+            use_per_token_if_dynamic: Whether to do per_tensor or per_token
+                in the dynamic quantization case.
+
+        Returns:
+            tuple[torch.Tensor, torch.Tensor]: The output tensor in FP8 and
+                scaling factor.
+        """
+        # This code assumes batch_dim and num_tokens are flattened
+        assert input.ndim == 2
+        shape: tuple[int, int] | torch.Size = input.shape
+        out_dtype: torch.dtype = current_platform.fp8_dtype()
+        if num_token_padding:
+            shape = (max(num_token_padding, input.shape[0]), shape[1])
+        if output is None:
+            output = torch.empty(shape, device=input.device, dtype=out_dtype)
+        else:
+            assert num_token_padding is None, (
+                "padding not supported if output passed in"
+            )
+            assert output.dtype == out_dtype
+        assert scale is None, "only dynamic fp8 quantization supported on XPU"
+        assert not use_per_token_if_dynamic, (
+            "per token dynamic fp8 quantization not supported on XPU"
+        )
+        scale = torch.zeros(1, device=input.device, dtype=torch.float32)
+        torch.ops.torch_ipex.dynamic_scaled_fp8_quant(output, input, scale)
+
+        return output, scale
diff --git a/assets/__init__.py b/assets/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/assets/__pycache__/__init__.cpython-312.pyc b/assets/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5570056bb103f22c88983aace9884fc66ec3976b
GIT binary patch
literal 156
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVS?ibN7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mx9D7pImK>&M4u=4F<|$LkeT-r}&y
d%}*)KNwq6t1)9YO#Kj=SM`lJw#v*1Q3jjE|B?kZi

literal 0
HcmV?d00001

diff --git a/assets/__pycache__/audio.cpython-312.pyc b/assets/__pycache__/audio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c93871dc52fbd1e0e969214349c685edbf8e73a8
GIT binary patch
literal 2208
zcmbVNU1$_n6ux(Uc4z<dV}8_@tQsrRkgUZPBS_n{5iyBDvRdkh43o@kGU=V4-kDW5
zL<l8?mKJKCA{4>CB^b1QYWmdr(wF+MVqQ8`2((gsTMebfr=B~ro2)-iy)fsVd+s^+
zo}cgB`8AVCA{a#Y!u(c1=nuAN46)8^{sPPr(vgk{vao_N<2k}vyuyb(PXtR;#E=(A
z%!(`VkQa$$2}&a5V<c&%loarBT_R~KqhzeClEo;&P7_H^$>~X@)e!a6PPk8L<B);%
z^lIh?j{M-zainJ#k)FH3MUorQgp~G*xDOdEy@<m3V3*Pp4J##g7Jb=&5nbZXqKjB=
zdBkjF93*tj*QSW(d9V;pY5ok%@iEgks74rDrexMJ?Q!5+PZ4d(m~n`1(36f{CdMP?
zlgtHeAB>HiREvky_s+aOdhE1%W@0SpoHl&*0wI>_mM4ihrNSMC?*(yUPEyCyf)=Yx
zeA9AtjYNBJQ2L^2+onCOPHBV$8B3!Tbw<-wqFIxt!G&0fI&+3SRgXBFw(7G8%OzwW
z1?x!R&LD#~1RWm*DP)r~VkJ)J7lo~C#Y3rNBxZLs9~bdPs>HGUgN@K+lZJCLAQKk_
zCA)QMtVttRiOW)u94hOkGsGee1Y5I=AVv+pOzo+96~kLt{do8`^FWr+Jer01`SA_l
z?HX5vG><<O2At_>8PhgUT7i0b1}S;$#Qf92f^WG6*L3@RjY8`CFO?4;8T{z5QGk3G
z+=@Tr*acROLR5!>#ylKwD}hupiNSoFYv1;Ipdow}PWRe@ETE0H&L#P4`O5CA!`0lL
zs<dYl#ORrbpm(B(O28~3e=Ayut&Ub^(-=O}563EQp!qWP;|=Mo)Zn(~d8qCx*U*N%
z@Z&2SWwi<t-XYbcM#;PcP~ki(i<Gr>eRHT-1ZWPQn4l@9ED%T2WsY{SMKa8W>H_{f
z=4U=nyP3Qrl54iEdYa`DL#3K;%;lRB^-_&JVC?M!vVi{V==<*U59hx>f5%+!`0%sj
z{aoi)^PkUO9a(;JJ$JAw9i+QJ@8ww>gq{DF#Sky_6|k52?Ih415YSE_5o)3!v#e8z
z11%ROU~XqqbkA<R#w;T++|TV__HSKYxqK(Fo|~vj6EB9r${50X1eoS9{4FSK1AxIC
zKoSGh=LYO>*Mw&Z9^eA)05w^l%z!2s31efO@j`$+JYsX%rl?>ogQCaE1Qp74u6N0+
z=JL5Uyw>}Z{G+_K`{&_m--&y<k*YKj1~x9Y1d^(<Hc{0esjBd9!2<|<T2((TYoxx@
zbjvtv`<$w3w(a<uZ#uRI>XJ(x*PwnS;60y4&=mbLKr7&F*AL?3!$Xv6l|U>3Kz+KG
z1;pBf_A+t+$O;Nw3X4ZunUoRM0p0~5pQ4Rq_dTI|L(J4TEbhI!?+JowlSi>^D5%9k
zjuYRwUS2NVI=6CeZGW}@ox2C#eS$z(R|KvmVX=s>3!7kH#C0<)j^ZmtcH}4yRUgA8
zqd0PjIU?@}Qd@r&!=nrWL7cS~d-+)?LCmkX@XAy6bO&ju2J8&D8ug5@o<Z6!TW)2b
zu62-Ub+NZ=pzNE(8!#=`p}ra}C_`BwOln{o!XWJUu)|X)LcL>@Iy6E@ALvFIJH$BF
zcu@;TN27YaP1)~)y;>dxQsXhke@h7OeSo?jpj{78{vq1+5WV#mI$9HW-1ocCR+CVs
zXCblC+Fji_c(?V)LiTYCaj7f4>$vM5t`(2s8e$Z3#dSXp1^?FCk<<<;#C^YId#)$$
eWncf~IJ>LwsmC&SQy6MNw_7qpdH!|}2Kpa#UInuN

literal 0
HcmV?d00001

diff --git a/assets/__pycache__/base.cpython-312.pyc b/assets/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..39e3a8e93b5e2dabab3d743b4436f4ca100d4581
GIT binary patch
literal 1612
zcmZuxO=ufO6rTN&w9?A4?AWqhg4vWbsYoQ@Dy^Mh3a+EZaqOf-at}Imv(~OG$@?Q_
zN3ktrqClX9UQ$}fp%ip%a1P0>w_XdqNYr4lIAHp7=*_L0OHX|>k`m+e!Mu4h`^}qq
z?|pB79vBEA5L5iJ^rMK-Z*<WYsb?IO!FY^xq;n>+xE#k(n>Tq&$O+6AOwsb?e9RV2
zzZJ*@!1m=N-ERm5UJpDJb3udCWnD5tdJu+C3n0Y4`t{I5-%jtUoV+E(!hh0LjPrsf
zuBv%0Uo>DLexi}$Eij^Mrn9P<YLSqNns;p5$di&|*WRZa?$u=So@rX~N_EvN<>Q*`
z8pKVwsYKO{Zx}9#zn9P~t>)O;hMUMcmgmO?sbV|ddjXpu6G(t@^ckqfh;VEd6yf_;
znPN`JP7k+@>ZlCyofMtZxu^V2&j$yn42lW0nd=5oNYPL#5TQaGX0x!Bf`b*8IJji5
zDY~;^n~tU%y3&g(`-Jxb6%89UaXrb{EV)E=)?*^3Z}UXMzUO*FpDryet8<x5I-61F
z=jIpEp3hp>OPHpVUg*+CEB{U>iB(BfN|iX#@R~v5o7L$nGwahv(k!heD_f-K*etWj
z?&Zl<%{3C0EpGt8-6E;r6-U6^01Wp6s0R979{fh!i=1yq&i^7`Xk6=v(&vj079WwO
z-dNlfFCNH)jhjaRMV?eBnTD-dh8J{GY6TmG(q{fuz5(Hb!K(5r7{{y9XOGU+WQ4Z)
zI$x%^6Qc7v|5P}ZeZGzuUZ@LY>idNBy}DQG+ykl3>0%8Ka0c`?BCqOO?)S;D^MrL3
z-S`&iVjc8%a0?0dA>~tj>-GH9x6^wyFhc-l_-jr`0lC&IyrS9N$}2QeN&!2Ta@S4$
zFXQjBlbWq7U3$O4uVZYY-VzM&4b$FHyS<}!3!TL@K95TRVFILN8BUeNBvxlk3+?$C
z@mx$(=neG!s?@7D%-EMnsUNM(-%MxKl{-rqN`$;|_Tk3z-1W5jaXLG{pk{9@r*E%h
zfxW{3z^5r{kUfF&3VPhZTVANU!FWqaPSb-2DKtuH_~z^JBzzo&;ob+;K>vi%*txHr
z*1NOq=xpP5M?AeJPPD~|=DBAhEpcL3{NP|nY0k8VE;bfB^5~v?rY)b@l_xv$NJ~~a
zV@fmi)&1|s+hbE-EbL2@d(x%0bZLL^Z0pq9&9lvg=G9g>(FsTQN5=O?rrIM@F9TvQ
zbQnhAXiFT$L-2+ecPke5f`zILAvvatY0+sLlOl9lw{?RwkOb}DZnh$9{rX?mO*VcD
zPO?IHf=e(9^$B8^baNujT8>^djSulVfTVry-T`$ea2)qiLY(pfjsJnhU!c^%=u!&}
uANqY<<PkYSFdaq^FaO04bJ1qz5W(~;^TXxmIcENJ`ER;&B=jNd&i?>Dm6a#}

literal 0
HcmV?d00001

diff --git a/assets/__pycache__/image.cpython-312.pyc b/assets/__pycache__/image.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c4948bb29ac608a3fd0437967fe48ed6cb6a741b
GIT binary patch
literal 2443
zcmai0&2JM&6rcTa)*Hu3Ac2q)YG|Ms;UrE72@*o$ql%)22qh^8OLVpNj_pnMt23Jq
zyP=AzR01ItI3);Gq^AmnLl6A}dgl@;9MB4+NT>&H4xy^lQ{U{`j#H`XNS=A`&6|(+
zd%t<>mn|&{f@X>jjF%EZ@0e0+pa*U5dl=S`j&#mM7MI~TCi5n52^k@f1yi)7j1<VC
z8OcOoUNW03IU|EDqBogQOUWo8%b8{@>Ct1bV<yHU%<0OD=1nd<h(}{ckF6rTWs?sr
zo8f>mEhRA-f6ufe=SOwT({iRpDJbGC%`3v#G+}s{Xyzoy(zvA+@O!o`Xh#azQx{Cr
zQr-EiY2;K`h&}2bUNETP*sA5|*i;R+geF`3DD@myrAEQ_<GCUxq@-p|hf>G##iHgp
z<@Dh2#Q}FIHI{c%iw4a(HZ|;&rRfHB?37o;DO>aA2~K4ljp&P-Ip_C|5v@dXnu*oX
ztl?4B1<~`cN;S&`V{mx+XnJszZG0QswyGOifoPUW3RyooHFoW)nsY3-+&nlmlDaT3
zurxF<z?5`qu&OA7BdKAK;a67DBdPT8z|uvKJBpeO0n)6gd0xsTc)`GnW!cqSOj7Ce
z3?LNA6Q_*rTovtL5Ua}Gk07iej53^#GW=Hv3s}^-%V5=c$fbZIc~KWv#Y_{H^(g4k
z*+bQ}4MU#SrB$h(PX&Ah+&tUW;8GRAGqNhyJzJ`$#Nm`CIHk2DCly}_GJKUK(id&b
z!oGl)JU>D(AaCcY^a*xkG#22ucMZBV<W<Rr&@!5B^b4F3dI~gO=ANRT1g{1GdcoHS
zIgOG+IjtnBZ7Mh}L5C79urQH#NTOgYU^@{cw6E^xbA3tPm-B{+gUd$gkP4Z|8%s%n
z$Z#@Ykooc36F1fIn^(uam{xC$Pr(wAVlz(;!z5*QO(gyv?e{FV-!<Hnrx9RwYH5Dt
z(&*d>?l+BWzgzN(j@{4L-XGGuKfH=t@@4i8*geaK_tERC8GG3or=eRxA7#{b=5^Qc
zXVE9oN8fIo+_=6myw#cf?dy*M-=<U$A653i5gmY;K^(w53Bno!w+=M(4cjtTd+T?3
zk9h}ewhna70?FZPp3~?#HwiEuhe;BF&KDgQ+hFNt7KV+l1VIMDQMN6lhkU{&qOMVW
z+U1UhpzGH2;6y)#ZUyah9$UNf_|C@AcIW5!lsBy%56kz<>*uyxPjAVmNe}qs8Y8OH
zY6fQhD_(s+UhaS5<#b*bUWl7jRDftwd8$sJ;O+@*WwEXsc7dKxIJQ|z%u}oftn)DS
zz@BjDiR(~I6N?7$(KNLMEs^dUZeSwsdcKfz=VyRjF-vn*)5&Qb)ImSCh>b!KiWA$q
z3b-$M4#^dL(R4ID$%l}iWT1s~3{j4S@CVnU<)aNiH%_G4vXEgF1s&-Q(7v$UdA0%V
zUx$D9UbRka$rB;sjSsYr`0W7k0}r{*C77zVeXiA*beCV|XW1_QYPDK3jR>Oxgw6;V
z5YAT!)^s&n0)P)Nj&lzXjW8mWI~yY3Uv~+nD8p<8y@|Cw>R9V}+_O%%+dtcm_1@!N
zx3)c8zQ6q7yDhmVh?#xBgju(cZ1ZJRW#vLueMM!Tsd@NRsD4aUznRy}>P&q9%t=-U
zTUAxFZO038O2J*A9%%?jb_qNm;+2B8L{70t&qC)%X0S~iLe4Qo3L*}odX9o?1(_!8
z%$;=!_)!PCAJC4{wJmm4#E7J<U#}n-Hg4>(q0)vT@m-#m&TQac=6;_0fI!?6z*u3%
ziX2Fibdy`h&&((02gKy60~0H8UOKU!gNh@a*uWpz5Z;B|AQ|_Y>wg3=C5!@o6RU4f
z2!nwAh*xsqRS=f*Fi7Fn_(ZjcWHpMz+ROfpkU`c3;f*qhz4wsZ^5qcuE945;SP7tC
zLRS$uj{8$a+^M&y>n-YjhhlG0=O5_oPWzda_)dFQg^x*XyF&aBzY^a)h4|)2y|1{V
UfAQVii3)-a;^ez_nHn7S4{caTYybcN

literal 0
HcmV?d00001

diff --git a/assets/__pycache__/video.cpython-312.pyc b/assets/__pycache__/video.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c6271a763db3e1392b73fa7bf919ce28bf9e3134
GIT binary patch
literal 6565
zcmdT|Yit|WmA>=fYxoi+>S<Y|ETu6cOG@O2oK$gFmh9MxExESiCalxhF=r%E8a{Go
zXj}4VOJq~5y)|GN{b73BBJ^SbD@cAQ*ahk=3dAi6^hf`QmRl=R2Q|?4NB+@K7P}1!
zwCCR8kd*3X|15T~7npm`oO|y3-0z%of8qBF2$ITwH~9}CgnmnY?BuBs8)*ii8%Rbn
zqoNcOXBa}WDx2cs9HlvxPdVa_lr!#3x#BL$<5hRu19H47r1-d(@*Ju!<&XO*?NkG)
zU_3}^m)ejD#X~^5WslmJYKk{8$U{cq)o?tlaI#lvk$p<b6fgVV=HIJKEZ!=&$pNSd
zDs52fogK2LUMr`Za>Lt>c*iEmZAx&qt0rSp?LdHh2;@6A$!}L$6vq@>sc(e(F2yA`
zk^gvvMG7N_-*0{oc8Mewy@ceJw~^fX9&2%`^Nr5)JxFQpMHu!2+J$7nZWRx|j;`h|
zpo`q==mHaK|CBV1F{VeBbSa@qnnr$9oD&mLVn&H^CO4X%H{D~T>WqX<*RiCoU`d?-
zx!}x{IFmak%9#skH6zKuavV)b(+Uuw6RMO@W-_X*;NuxNrz)S4i9?NlTG6fEML7u_
zs>yRWqe-TFDyb@IDW#ZBtmrwMPE=M(SLcMBgKy(sAiII|YMs4mnOX26w8$9DERoxi
zWL9S1=j@$gkii&;%Cow|7ByIVmlipLopss#T4|4^1$A3%L3a!!I}GN1=X<;*39Y$P
zDCS!DmJo$BUfG?fl$N8Jtda&Ink3s4ox+(^bS5`FolH+p!FEx3tYkAUM6s09W~6k#
zu4p>c_RmZWo=?h3Mxz`mxX?&B{mMltl~t8~a)hU2tm(>1SV`-e=~gZ#HC@ciEp&Z(
zcczQ9)f7F(n=UfGn3Qn<R%3eTpFW>eOb^uva%M3H_K`|QYL1*Br|H;q(y=t`hKd+(
zH4f7Gkrqlq&)|7euoziMpD_b9T7(WXvUy~?zSuvgr?P|DWVT<IFz8DE#oX}o`{#z0
zLC}=J?7TjcNe`Y^)zl!Uq@ruqz6@mN&9JSAqSZI8$K(dK!ly})<<aLp)Y|*K%<9gO
zQp-qwa-DB_z_*w9_G0f!c$IIz&+mH_iWc{mLVfv{A2zoYI=(07C)T~q54@cvZ|8k)
z*TeRm>)}1?&D+;oBI_+reeQ8|2$ut8AM$lT`wbWbnLJ&hkj|yVDGVyDB`SB6)FOg~
zRG0r2xPW+!j8wG9g3diba}89dmE3GqTWL=;t7>IHuj;JK8tD7zhgFS!i>Ya>!Og-=
z*_vQ<a;RI9J+@sg^3!M$v|VQA#u37-!K4|3Uu5*4-Eg+SrfQ`OGBURS>oypjXb4U3
z^VJ*U)SGOs!P{evqc_gNjdsC&o9)_KX|H<GZMZd-LFprg%W$4Y8gsQ1T96aplI#{|
zVb>Qui-O?+*&)L*O8|CDg5B7*g$2Kc0Q}Cs<lDGn&zwP5zr~}vJ$Zr^FdVk@qC@Yt
z`>b&dW)9|wyXwx=LC#cm8VuyFC$#~-`-d*O-?tdU0XXEDz(o1J=ori7R5_Z?=oSjm
zI}#<J8^uH)2ztxprZ4o@B(WmNQ6-(pP0s*Y5lyy0tFG~aH@Z`~n1w5@$k7FVMQm4e
z8U`|%SS)06iSt9I?+k&jF)0hsu9)tmHVIIu$fj^cQgg~7j5B~F$+T{AaOchN*ysuI
z#L3AM;^C8{#}A2Pldn#kHraI6bgRj<mIbgh9au_FD<(gUrE{hmYz9s$=fQeNS?F0d
z-HG%1SVo0z{bQ5ICQph7UphH-@}+~OLjzMcXL4X|VqP4DrDL-H_$!dXT&1k((=)oH
zR<5q;v=(mqX(=Ytax$T4Fj@Jc$!4G<7}|7LLS!Qeid7QcPWlX4aHMC%v@BsP&1?8;
zz~2R*)&+(vkABSu9tr*jLPtsHDC}7iqWQ6PZ{XU<m659l9tPT0x9we#SI(@qkE{h=
zTy?+ryQY>U?Z$=c7Yf>g$Z#n#yw<vZt?Bvvv2}kifA~=(wmkYze|NoOWdtBB+;ZcU
z>#r1<;>b#Osb}{}{Ab$z@GJS_4};;Qv%d=NxXi8l8?L=}<+bm|FS8#9Lm&G>F!WOY
zJ#S>az4M*Uo1Ne9y7Kbnv884+*jRR=Q0oo<b$=o8j(SsF-n-KCU}&r~G`7|?{>z3#
z<tEh7^LYyj&<>ZT*8JP^hab9x%lrQR(o+1MD*|g-4}A5`_?><0f%d{Ph0fv||F(PO
z{J(y6rT@;GWsdP5WHvZ1D3lTB5z21lYs??V5!k0q_*wM@W}&9u7cc-{?7K+tbR1pd
z66`dzegp7ek<+XAI!nyWmSk}D&AHBAZRerYBG~Z+U<;uxpm&*x7)MVI6YFn!i20`H
z2?j3;97~O!C)5GRswU0Sg0`v_WRt2$9RN*K!9e3N5I#m43__Mi5B*&Qy%=BfKbt@N
z@w5BZyu%+ji@B?Zu1#K<EFAi!Z^w$W<Q-n+hyQTTJ4^?;-uW!QX@|)CsD(KT>h=H4
z!u(bHL_Cr$$v!c#Nsfw5au~efAiiB1tkfc)rOeIkgv|x3W$+cN1r`hbppM8HPMOys
zDzQ?XC1UK}?UMEYeaVg=IKeKt09~CHy5b&a{pp_|nNH&4CC<m3W`hMIH7~&Arn2Cc
z$vG_P$xPbxTPkr5;D{hrz`~F!!ZgSkQKP<H1&U$<1u6VA42EGI2**hF49WUPMj*xX
z)v)u#DU+uvMl>ttuG3Nic6gX%`$=|$WJe)0-6=(vs5|I}-_1Z~Ih-PK;B6^<0;IkU
zpY~(O{s)mv@LzlS%F|0d4;pur8h5M-JphSM?OcBDpTBY0C?xI$yH~pNM;^ICODFHS
zS_>~M`|fQ6r>y(302sCX>Gfc1;h9pfcRk#>-roJNqw5DbxKWX3*E*h~^~<|To%<e#
zJPpqLk#ZRM!ud&xGp6sHbZ%ZGW)HmX(_j+;{WA-2ps>1XvYoJv4tl*56bBbB&c2Ei
zPT^%{1O#O^?ogcY$I(Atb|jg&OK~e6kP)mPkN6!R;Up4@S9TG;?5+zuA=s>NJ#}0^
z<p#baxMXFaPQHQ4hh}@L^RE&xp0`f2iAs7DK?zsFP*(QU)i=uxG!XVLfTIaBdvc$=
z9E8xdb>0uAU!YchlsM`pPl7vq2nM%+l4#9BsG{JqlFEqB4WzPrOuslmO#bOf@$k`O
zhcNLhH-&=4o1x&g2Z$TUK*S7eO~55`TN2svQwWbj5o7TgDDbP0y~~)qrl?aI94CrW
zxTX=zLQ`$}19o_N5o9#tUgpuGVAF$OcPZFi?7bbk6)OdIt-5zv_KNgmCo)+&VRAh;
z+p8x{(ng!wM2Y)ICxl-Es(zNlNnL2Jo27*)B>XUlD1o&+`dzT6IDY&1t>bIKp;h<L
zU(S#RF*?J;K>YVJgv})_wxp`%1#GqF&Qarr$u#Mqzsus+3H>5u8abe-wcVyrGm4wm
zQ)A~z6Vef^C-9Y`e*4?EzI})PDEMJ;EpP<9m|){&;eT~y#D}Y`44)<Qt6!2govk{2
z3oUhLRLB2L{h}g8{&w(Ia3%bs$On<N!07+Qq6nOS$)fNi)Ni^Lwjub(`jteB;oFg0
zk(J&b4Sq1V7C2bHk_ppK?>ykE2zF4}<hWE7@nz_)UJ;*kQJ$=Z@Dx*Z0%iJ`24<RD
zxFy)O>?Db4q@0}0M2VfV0vdfriPF0hrLP9NqB#x1nPfWp^$SXRXkc&uWGbDER-Rh4
z0ioL4DMg7&ss>LscI9AZY6^lB1?>2g0xvNMW$;bXiMUtHKqrHlv^p>9Gs*Ovg5lYs
z+7lQXR>L${13%Lb8vw=|p4I4a09?_FBav;c*D?>W#&k6c;W{0wa<7pF1VHH1M?>p1
z<BCxje`oUM<cj}(@W7onOTp1q_b9zN7BIG%Zc!vyEsCZfiYfYf2eeNV-^@vBr6y1t
zYyxD>peRad2rj8-qlu!0@zgb;I7^&%lZVhr$8CgkXE8WRSf96mjUvPZR8Zd<zd=N}
zbXGTA6XT;KX2K$=B$k)zAOu{nH#$~;@h-AvPl7Fc+RidSXpbTL4tgZCt?_N^Ep7Ri
zmpGun1@N@4w)K@c_62AD_|pEuc(H4xX|;P#sdI0sY2OB79Zm>8oPjdSIQk1cpCKqV
zIGX|Ot*YIHF;ca=TD7}U#X6dx&*t0PZfz@d_J0QbHC1GQs`N}`PQCNZo8SEF)x8C+
zI99lLb6|_eW4F_BkSXSt^;<?65&Dky(WMVBeNJg>H^@fB7;0~0-KLkQI(^_(G)$l#
z!k1hcp5-#ChRLlnoe=xOowT-?oE9dpNu~qb*X%s*C$x{!0~Ns(VFl}+FUeyteE>AM
z6Gx9(K~gJusT;`YNmUz2rm`8Vi}VKzq&0sIULEOUqNVTNqf~^x22eGjuXmP%n}!Bf
z^hMQVjQq}#j6znDQ1tAxgd#Dc6?VBtECoJ*F9DC3W$llUL9od%|KUc=j!#hJHz-y@
zvEQP`Pf*7vsP7Zh{Cl+b_b5{4Ii~N|d}CQathdaDn2zG^GJ;}x_h+PlBdzcs@7&Hb
z7RJg5ise(ZxYP4d--mr0g!A}s7?#;j+Cs4cQc&Ct-&KA-_mjEO=t)pFX8&WMjR_Z^
zDHO{ITHM)lm%DrFuKU9S8-!clhZ@@pU8T^@eBiMYMqcW@&$Rw0`xJAKDI=1T`LsQz
xjQ=WMVv)NEw3F%kI1nj%)&kGG^%7Zi-xt&?_;>zbFZyY(|KJ|(r@I-*{|qq~+N%Hn

literal 0
HcmV?d00001

diff --git a/assets/audio.py b/assets/audio.py
new file mode 100644
index 0000000..b527ffc
--- /dev/null
+++ b/assets/audio.py
@@ -0,0 +1,43 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Literal
+from urllib.parse import urljoin
+
+import numpy.typing as npt
+
+from vllm.utils.import_utils import PlaceholderModule
+
+from .base import VLLM_S3_BUCKET_URL, get_vllm_public_assets
+
+try:
+    import librosa
+except ImportError:
+    librosa = PlaceholderModule("librosa")  # type: ignore[assignment]
+
+ASSET_DIR = "multimodal_asset"
+
+AudioAssetName = Literal["winning_call", "mary_had_lamb"]
+
+
+@dataclass(frozen=True)
+class AudioAsset:
+    name: AudioAssetName
+
+    @property
+    def filename(self) -> str:
+        return f"{self.name}.ogg"
+
+    @property
+    def audio_and_sample_rate(self) -> tuple[npt.NDArray, float]:
+        audio_path = get_vllm_public_assets(filename=self.filename, s3_prefix=ASSET_DIR)
+        return librosa.load(audio_path, sr=None)
+
+    def get_local_path(self) -> Path:
+        return get_vllm_public_assets(filename=self.filename, s3_prefix=ASSET_DIR)
+
+    @property
+    def url(self) -> str:
+        return urljoin(VLLM_S3_BUCKET_URL, f"{ASSET_DIR}/{self.name}.ogg")
diff --git a/assets/base.py b/assets/base.py
new file mode 100644
index 0000000..5ca9de4
--- /dev/null
+++ b/assets/base.py
@@ -0,0 +1,40 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from functools import lru_cache
+from pathlib import Path
+
+import vllm.envs as envs
+from vllm.connections import global_http_connection
+
+VLLM_S3_BUCKET_URL = "https://vllm-public-assets.s3.us-west-2.amazonaws.com"
+
+
+def get_cache_dir() -> Path:
+    """Get the path to the cache for storing downloaded assets."""
+    path = Path(envs.VLLM_ASSETS_CACHE)
+    path.mkdir(parents=True, exist_ok=True)
+
+    return path
+
+
+@lru_cache
+def get_vllm_public_assets(filename: str, s3_prefix: str | None = None) -> Path:
+    """
+    Download an asset file from `s3://vllm-public-assets`
+    and return the path to the downloaded file.
+    """
+    asset_directory = get_cache_dir() / "vllm_public_assets"
+    asset_directory.mkdir(parents=True, exist_ok=True)
+
+    asset_path = asset_directory / filename
+    if not asset_path.exists():
+        if s3_prefix is not None:
+            filename = s3_prefix + "/" + filename
+        global_http_connection.download_file(
+            f"{VLLM_S3_BUCKET_URL}/{filename}",
+            asset_path,
+            timeout=envs.VLLM_IMAGE_FETCH_TIMEOUT,
+        )
+
+    return asset_path
diff --git a/assets/image.py b/assets/image.py
new file mode 100644
index 0000000..c1a0f2b
--- /dev/null
+++ b/assets/image.py
@@ -0,0 +1,59 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Literal
+
+import torch
+from PIL import Image
+
+from .base import get_vllm_public_assets
+
+VLM_IMAGES_DIR = "vision_model_images"
+
+ImageAssetName = Literal[
+    "stop_sign",
+    "cherry_blossom",
+    "hato",
+    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk",
+    "Grayscale_8bits_palette_sample_image",
+    "1280px-Venn_diagram_rgb",
+    "RGBA_comp",
+    "237-400x300",
+    "231-200x300",
+    "27-500x500",
+    "17-150x600",
+    "handelsblatt-preview",
+    "paper-11",
+]
+
+
+@dataclass(frozen=True)
+class ImageAsset:
+    name: ImageAssetName
+
+    def get_path(self, ext: str) -> Path:
+        """
+        Return s3 path for given image.
+        """
+        return get_vllm_public_assets(
+            filename=f"{self.name}.{ext}", s3_prefix=VLM_IMAGES_DIR
+        )
+
+    @property
+    def pil_image(self, ext="jpg") -> Image.Image:
+        image_path = self.get_path(ext)
+        return Image.open(image_path)
+
+    @property
+    def image_embeds(self) -> torch.Tensor:
+        """
+        Image embeddings, only used for testing purposes with llava 1.5.
+        """
+        image_path = self.get_path("pt")
+        return torch.load(image_path, map_location="cpu", weights_only=True)
+
+    def read_bytes(self, ext: str) -> bytes:
+        p = Path(self.get_path(ext))
+        return p.read_bytes()
diff --git a/assets/video.py b/assets/video.py
new file mode 100644
index 0000000..d025368
--- /dev/null
+++ b/assets/video.py
@@ -0,0 +1,149 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from functools import lru_cache
+from typing import Any, ClassVar, Literal
+
+import numpy as np
+import numpy.typing as npt
+from huggingface_hub import hf_hub_download
+from PIL import Image
+
+from vllm.utils.import_utils import PlaceholderModule
+
+from .base import get_cache_dir
+
+try:
+    import librosa
+except ImportError:
+    librosa = PlaceholderModule("librosa")  # type: ignore[assignment]
+
+
+@lru_cache
+def download_video_asset(filename: str) -> str:
+    """
+    Download and open an image from huggingface
+    repo: raushan-testing-hf/videos-test
+    """
+    video_directory = get_cache_dir() / "video-example-data"
+    video_directory.mkdir(parents=True, exist_ok=True)
+
+    video_path = video_directory / filename
+    video_path_str = str(video_path)
+    if not video_path.exists():
+        video_path_str = hf_hub_download(
+            repo_id="raushan-testing-hf/videos-test",
+            filename=filename,
+            repo_type="dataset",
+            cache_dir=video_directory,
+        )
+    return video_path_str
+
+
+def video_to_ndarrays(path: str, num_frames: int = -1) -> npt.NDArray:
+    import cv2
+
+    cap = cv2.VideoCapture(path)
+    if not cap.isOpened():
+        raise ValueError(f"Could not open video file {path}")
+
+    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    frames = []
+
+    num_frames = num_frames if num_frames > 0 else total_frames
+    frame_indices = np.linspace(0, total_frames - 1, num_frames, dtype=int)
+    for idx in range(total_frames):
+        ok = cap.grab()  # next img
+        if not ok:
+            break
+        if idx in frame_indices:  # only decompress needed
+            ret, frame = cap.retrieve()
+            if ret:
+                # OpenCV uses BGR format, we need to convert it to RGB
+                # for PIL and transformers compatibility
+                frames.append(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
+
+    frames = np.stack(frames)
+    if len(frames) < num_frames:
+        raise ValueError(
+            f"Could not read enough frames from video file {path}"
+            f" (expected {num_frames} frames, got {len(frames)})"
+        )
+    return frames
+
+
+def video_to_pil_images_list(path: str, num_frames: int = -1) -> list[Image.Image]:
+    frames = video_to_ndarrays(path, num_frames)
+    return [Image.fromarray(frame) for frame in frames]
+
+
+def video_get_metadata(path: str, num_frames: int = -1) -> dict[str, Any]:
+    import cv2
+
+    cap = cv2.VideoCapture(path)
+    if not cap.isOpened():
+        raise ValueError(f"Could not open video file {path}")
+
+    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    fps = cap.get(cv2.CAP_PROP_FPS)
+    duration = total_frames / fps if fps > 0 else 0
+
+    if num_frames == -1 or num_frames > total_frames:
+        num_frames = total_frames
+
+    metadata = {
+        "total_num_frames": num_frames,
+        "fps": duration / num_frames,
+        "duration": duration,
+        "video_backend": "opencv",
+        "frames_indices": list(range(num_frames)),
+        # extra field used to control hf processor's video
+        # sampling behavior
+        "do_sample_frames": num_frames == total_frames,
+    }
+    return metadata
+
+
+VideoAssetName = Literal["baby_reading"]
+
+
+@dataclass(frozen=True)
+class VideoAsset:
+    name: VideoAssetName
+    num_frames: int = -1
+
+    _NAME_TO_FILE: ClassVar[dict[VideoAssetName, str]] = {
+        "baby_reading": "sample_demo_1.mp4",
+    }
+
+    @property
+    def filename(self) -> str:
+        return self._NAME_TO_FILE[self.name]
+
+    @property
+    def video_path(self) -> str:
+        return download_video_asset(self.filename)
+
+    @property
+    def pil_images(self) -> list[Image.Image]:
+        ret = video_to_pil_images_list(self.video_path, self.num_frames)
+        return ret
+
+    @property
+    def np_ndarrays(self) -> npt.NDArray:
+        ret = video_to_ndarrays(self.video_path, self.num_frames)
+        return ret
+
+    @property
+    def metadata(self) -> dict[str, Any]:
+        ret = video_get_metadata(self.video_path, self.num_frames)
+        return ret
+
+    def get_audio(self, sampling_rate: float | None = None) -> npt.NDArray:
+        """
+        Read audio data from the video asset, used in Qwen2.5-Omni examples.
+
+        See also: examples/offline_inference/qwen2_5_omni/only_thinker.py
+        """
+        return librosa.load(self.video_path, sr=sampling_rate)[0]
diff --git a/attention/__init__.py b/attention/__init__.py
new file mode 100644
index 0000000..dd35165
--- /dev/null
+++ b/attention/__init__.py
@@ -0,0 +1,18 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    AttentionType,
+)
+from vllm.attention.layer import Attention
+from vllm.attention.selector import get_attn_backend
+
+__all__ = [
+    "Attention",
+    "AttentionBackend",
+    "AttentionMetadata",
+    "AttentionType",
+    "get_attn_backend",
+]
diff --git a/attention/__pycache__/__init__.cpython-312.pyc b/attention/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9a3e51323d7e8a00f81c5bc5dd63bf1aa994e739
GIT binary patch
literal 467
zcmZ8eJxc>Y5Z%4cByt!*uoK%ua@z=rAcFQ<SzWVia!Wk2dw1+j#4D}+0rqzO27iM8
zV8P1DP7NYhxtqi*GR0%&?Y{R0<|T@H$dvHz^Jk3En;rhkSvQN3X&z99GAxk9DV9#^
zNH=w{<s9KjKlPWrD*_p&Ax2Y_d5<{lG=3bsTbtO`{WAbwKwcK-Y%=3TrgvKAf&<GK
zFdenjRa5a8>uyV!p+Dt789+hDD~s4yfpJ%^1<!(SAvACqclE)I5Hc}>Rc^9Y)d?Hd
zpx6X9gnD;FAXvlIGD7cdJk?zA36yFXrb9}Z5R^Wlg~>+0rvzk0s=OKiQ)cVI?R<DV
znhiM-`IuA<T$cs0j-=g=P?{GxP?}VY?wrUnn+txbwvC;+4664He7G3npN@x}Ph{Y`
Thw$MmI{Na0E$1#&k@@lm@2!G=

literal 0
HcmV?d00001

diff --git a/attention/__pycache__/layer.cpython-312.pyc b/attention/__pycache__/layer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b99e0f3a6362fb238c02dd562ac1e0c1df35f59e
GIT binary patch
literal 40423
zcmdVD33y!Bl^*zN-xn-}tqMQ^#8y}e;Jz;)35t|RkP<0Mf+dxTr~(PFu;^8RBH@BW
zdGtj<+Z~a%I|SqQ2<rA1Q5Msp5>G7mbhqVnPb?=r<9Y-%Rb3%tI?YbnUncpAA~jy7
z=bQP@eOm#1pq5rA-9_TQbJusbckVgoo_p@UbGhssehK4Oha11iaeql3`By3dcVjk=
zyTrw~0WPMC=@Yt9{eWIaupwa>H4YdVY)qI2Ob9b3%%he8ixg%ZwG1NdsBOS5g*Zl?
z15O5;60TAAfSbYQglE({;2kX)C}Dm}qI9%upp3!RMER(1z{g-)qGGgippwD%MAc~Z
zKsAFMiJDRWfPXYF5MX|1qIR@yppL<=MEz)RAjn{MqG7agpmB87z$)hVB$`H>2bvk|
zO|*=*4zx13B+)h+8VHTH541CXX`*AabD)#KWr?oQ@IaWs<%#amo`D_)`x2{1*9@#-
za7AM6=(>S*46aP9AKfspfx%UYjiZ|eHjQo`*v$OZi7lgB2eyuG8`w6wePH|Oj)5I4
zye6@8bl1Qx9T(p<@)dbN)aSr%Js00F@{iOI8G2g+cnikDpV&LvH_)f!#tgB*E8IXI
z%k?!mt@@O64LpPt&GG$j>%_Q$12JRt;aDy5KElTK;OHSXp8W%dQO~-#X=Gk4MTUm-
zvHDkx1CQFc*x^_(UKVSJKNf4m(>P_}xY(-r(Rf*0FZzb`)yOtvjWxYu8aNhfj$1~)
zE0?1_V=eJcDR*o9c&rV7A(Xi)W*l<H+VQR@^xQ*Stm73f)~Q`Wy!CCPSl+;sENvIk
zhPBhaZIDtv#Zq=7Wsi2sqEZK9tI-?(O0BaD#n!A4zIKK1b!Z*6%pO~hmOcG<Q0@kl
z`wT{UQ*2}W>62V+)9>lx&s^Os_Yg*w)dA!5Y&^oojE!9U$@l>IwCg=&U?XXaZ9(bJ
z#jC&Adav+Kdu;0~MrHO!|2w^N8(MgR_22e*G=Adh4td7ld#$!{nD<A%u$t`DZaEvF
zT`R<i-&yYiV`+wYW4m85DZMxN531&SfG=Wf4EDwcV>@HLC-w1I@f^ks>|3D+_N@^9
z&<f$=*P!`z<15`?Gy~)Ro!)r>GjNEt{^5B1Bo`mTYVd!^7)O0xedKME=qs9;UsSLB
z-OkK|MKkl1G&BEU)cg=;<}e$Z{`e_rW)6Sy_?$C_9-Z>`rc&{-)bRLNFcCc$=fl6C
z;S1^V);-ZgB6=bb2W%XSCR6<YTuSO==O*GIeO}GJJ34qeJ{HS+4;}1PQXLqbNFZCe
z5+J4O8=D+Oxc6i{6^W)&W04bLZiLmGi6(|)(NsKg`b;EwD#{O!os6WSJdz@|ax{AG
zL_Ct>qhraTI8SL<wNVwvp6KAI_@42xq2ZJHN-BA9lIPL3$eBc9G&0B{=%t4y6RF`t
z<FRN$OpGx5aU_v^`n-GJIR8SFk0BrxKby*zQDH-37?neT$mAFv8%{+M<0ntXd3Z~e
zMjoV&+#O9)2bJ#`PfU)E9f|Vj&UoVB@K`*`=PMr{dww#CZl8+B#Gpg*)T!|p74xVV
z5v4IvDrjY)`;KfviV`aNk>jknN;dmL{P^U=(Nj?j3p$)?d<L~!*12A}OC}Q06k0Tj
z8dk@K`S@Te!pBbzCsXLt!O3K5d^9pXk@ur}2dP&hu@uHTl1%ZD)VSyg8S^FkCKCyz
z)ki1dgL#KkFXmY?6<A2gQH(7H^oilI*!T++gvy%Hr5H0nmhrL3$)U5G2UUb3LLNNs
z5;=8=JEwa~-@orI4mCGoRwVQ0(-^Ch$)q09!QgMUcBe)sx+jJwy2MG-b#`*&=1r$J
z#=8^4C%Pxjp_|9LX-0ITZ^W73EzbOjb9w8wM0E5-EV_elM`>&Em!!9z=jP*g@#L0N
zjADpzyZb9Rm$(#M@%OS>g^zM6iMZpq5z4XbCohJ4RZ%+gvPAI4bTWy|8)Et>H&%j0
z-vH*vIBJ^abex_`b1{>g1_YHkT2!N?FXfiY94V0@^%=9MIg9JQic2}=R81UjLb-VN
zQ{30WFK}lKPjN5kLe~CY#E@hkPyPRvE^iyc*hZ2V+9~H*nqqN286KZV9-C@=Qt}3e
zlfkj^R4{rbI?PZ^XK)B#2j)eP@IW|Z%X=R`+823p-{Hp&^*wepa`?zm-jCw*mf<9(
zXDpicor)$SvG|$c!8m5<MD)aPVmNg!?;akV80S+M>F{J~IKg*QCI_$(0{eJ=oX?xZ
z?=^41q#45-`7n|siTeohAxiDXbRRq&k*gk&D#^;{HzLJW%8-O}p1W<S%ve_4@YH9l
z^?<XMdcjh^XlYn%*^q5HD6|~>;OJt@qqqD)!CF-?nr+QDojpHy`YwzuI-7I#t1`~O
z$9B#cxM6j_=ALzDDti~LyKg)E8KeJK_dJ}}{}HFNAz{;XXP{sJ_?sk+-5+{;JGdWp
zIC?i5ezZvkH*aE}=b*$xA&EFK+2s5icrIabsKYu!Bem>T6ss{whxBJSenSeBxcD2f
z%8>e0CURp@I>zg(X$UHs$gY?k96h-AX&sxuI=KvdH0ry&OY@UYPRDyuf-zwmwNHcR
z$0wjyKY<uGsXNM@Glwkwzc_+CY<>dARAUMaC8EhwB5qtG4{!o&ACl$mYUI9<BX3HL
z^Mj}ImZ8LWG_`s|-g-iU*o5R)Q^{*6U#YkzNfVxCUy`S(!saYLJ~+w~I$<+1WZ*Xu
zOwlYLNh1{uN;9xdoPm=QK)3PeXk;iV*HN5=yOH=9{*n<m=eb)}*EgFlbzSWGj_=L7
zH|jDaJ%Y98hBJ_LHVMwAMQ00x*9guv*VZgLH~f`#*Uvp|3!e6jwf#oXoV{u7{JE!U
zF0kNfxf08G)?}<}at<%wfp_Gc#mh+EGntG>ifWhl6-P(L&%}9tI2O;F`FLuQ9~)Hg
zABv*M#inHoT;NP)%4$tYWteAE%A_38z>R!IQM|^~<oziJ-phVUnI$S_8&PnhoQmV7
zxv{@aDVQ=<CdZ7F%aHn%%am~_U$5~#Us`{@tmvH;YJM4-#>X+O8@pPRs!EPipD}Jo
zj}Jucxf(T2hU6OYd+^~a7<@$Iou`4)_~hqq>G21bF12V+QEdZq9o45&+uBd8Z5yV&
z<zcKsa-Oe1D2P5QEvm<gefCME7nPwgBTf+#T)U(UjZ~*mL*5=U#!Mt&oHpoydea6P
zv9wMKFIgJS(v~g@<E9OAzL2^9*wpSPk31ffiMHVQSmInTIXOYgS~9rrVDHiWk=|p+
z`h(GA@XT<Mh<Sy$VM{6q^RT!=0|Qp57%p-q$|vGuk)g@4!BClq(t0s4d1HL+Ofp|~
z{NTYuk;e}2ITWGwxc9)ZzQ^*F8iA2R`+NCS$jH;@mv^x&EO}&KFHZ=I-%b%FM3=_m
zLs5|6A{m*ttJTljj~#w&&;H2Ky+?W(X3d*{tj|tN=1tLIP^SETDrg%OR7(_GSZO3%
z?UP|(N``ntMt%<^-Ahg%Ih2!;a=@|@nhlDqgiI+Hb&AA{@JEp;Mj1!(v7P7c**R;K
zvc}(Vc(RUF*Bz^_8nbPCuea^}^U6Q3zTxlA`nL=I?Xw5(nK@U-)%Dqq-9pFig^s<8
z&b}Mo%5U0o-sX(A>oz6aBKWt=9L&`<&K|y9)|xF_Bb2SVwl`C@DdXI9+g6>mH3+tb
zMcb-d&Z@;gPd2bs2yDIX+<L<szB-xh-Y0bLTj<`u=smE!up5*&DA<CFw#J;tzgWLE
zTfal7-*MfuqrmBH_MG#`T?3vO_|2R@IP1CXS(WvK1yA^zG2>a6v97yiDZ60}WUZ}&
zwUq(wg0;P1GE|xGa0aWnVC7IJxv|$B+iyD86-p77sqW4=x--V^JD^|cZ+f>EoW-FZ
z+qjZPbu71%vS8vGTQb(VTaHR4Ok8$Mj4sbR8LK2QaC!3tA0HY%n|CkeP4Z=f(Zt{+
z*cy>>gfE^Plw=VY!=k0<AA$Y>MT8HG7Etk*Ho~W%)RdA>Yq^Q(9=zOK)xRxKSSV8|
z=?g4VSpvVnG8KC33oMgx0sF;t=n3rU6!{d&ki|KaI2sjY!2-%GOY266^k4P^a@1cn
z%Kbb>i-0L@dii*&R!*2UrRro@PM7Rk5+A%TUjH!n6<yj8Gch#oND)e7znEEG+!1d=
z9p$|$p!bm`IhFbxX;onvN^^1<I_{i-{)H^je~hVe0CI$3NIj<F$>1Z$gN)-2CNYDF
zBN~bhf&@(lqhqn4Br{;5f#4{U7=-P1LTSfNfu}kZPfW!5AR%)m&`HLzI!sOkQ>Wr;
zxl76b0_BHKOs4SS)Tt;qGCt0VBe_dF7CaG8y%3L&1$$*qnbo3Lz#|HclHuTiRFK3W
zax<v*Vo~6+lT?53eyD$(Ki3&N9ft!k&t$xl6*$3<pO82>F+dauO!BN+VlhjqEjB$k
zJQR#hOeBT}NlYbmL@z`ETUZ;YTNnb_g5HT2Er=`-wN0j?V}tQvYP_iCVI^xZ(%BL`
zJV8AgO)MP(xt?r5)T|<g+7diSa-iT?bTl3mgQQMif}i3+3?|0MPft#$B`n2lVgr<!
z0pVCQNb;B<7z9iaHJb(s+!B1^6ebGlfp#kKG#%IwC4;eZs35v9kvJz7^q<A~TG;uP
zj<G3_`|-ySmbVT~Y>LF!kFJ^8BtyZ|XS&4cDzWquQG&Vi!f@(T5b1)9o0%9N9!n*|
zp>qBS6vaPD4x<Rn;{1>pthH<M*2w7ys~R8(0BIfpdR~GY5t=NL$1Mkgp#yi8cgtB7
zzf^$Y9~W~<ekOht$61_Fc{_+FX<qO?sw2^okPgyZ73BxgVkD(^4}wF(it|Ez_~fZn
zGGyk7G2<U6hx)9jwIlE*33JoDlxdLi2$LZy!_6wgCy?qAC9hy~M`0ZoXg}Y#XspTw
z*V420hOg$*(-)tfUv>5Icb<9cnML2$^L?-Mf2Po?+Si?zo%2V(XZpVDUDsmO4l3AJ
zuycWW@m2o1B~Pr`fglUHW9D}04(eu{S!=UkZJv)`+n2F6FIu-|9(}xE;7lc;DXirg
zOZ`=Q&RV`$(RI(D51By@d28l67uz;3dbVV&TQZ(4Naw7X8@TRhy-^y-)IPCL`eerW
zB&tx?K4V(6*5s_NthGk4)?}?A!5X^K{Gqj{;73^~n-K_u=p*GPBmTSd=(JbSe{pU=
z2NeQ+Og8|DS<yd3+&H2vKT3Y^6fr$ESB!CU%!EI4+!C|ksb|}f*0?opq3uS=Z;RU`
z$R4*#kOMiy)J`RzEAEK7@#n#x80U>U<F2BTO7Pae3^$~UmA>K{a6_tBA1jM{MuKY1
zWGGg?Lbz{*@Ct-C%DL62RFe|zT<C*JY$%k*s;~)P7AuK6u)SW5?Vs{k4RW-r<;W1?
z{fMtXTB&Ua2_U30RvWKEX!VdWRtJC040l#H;6KWRf_a;=s6<I{rTC<6h@xd}5Yif~
zPtns@4vJS0S`pbQ5|q~%us_3N6O*Yh!}tu8;}~8ajE)84z)Qe}K;5b6@E8#D_~=9m
z$Pt?t$spFKlku@QFCu3#P{fL~goqW1jf=|?ka;38{sIv27O}Fc!@;9is<EOVt@v`R
zbZmuNT1~u`lE?^Me8HM<@JO5|32Crxly)e(PQ|0KZV_b7?mkH({&=j5`9kW7CKj+Z
z9DIxkTv*}blPPqB)Os;Nf1b<Ru<;V1f|Ge0Jt9d^9eI<8W}OrXTqMRjL4TYWjwBP~
z6Y*r;DeeP^D;`5|c@IRX!>ME>IX;BFmgq#j3e<<V9fMp<&L2VdK+rF)A2v`MV-Z@o
z@&UYM>E4c%j}}XjciV^AHCW7G6IDob;@xY&qQ9dn7P!w=rMce*r7a5uz;xSQHl%IS
zp0Sd&`DItytR;F!ERe&rN0l|o`KP_e)r?#U1uIW=2!>Fi7W$YjMYuw_7Nsv60}`1o
z0fkx`GftPKXfK2P(j{r{h?aCy<sKB8Ic+?zPwS?QX<gblh4zaSYSIl+h&iqM78kRm
zjc~2sR(99FqD#>VCccSFTheyCuT0&YMM+$Q`cq7yUqW{iH{?>{Jn%_%;<&VXL`Jo8
z0z6~3w<Yc=rkkXal~$%2<YZc?Na^wNwCj9hs##8()~Cx+U-TI0YlV)NV^IsoRr}i#
z&w{rp;<+(P+EwgF?iMwd42_Vaf7wr|i4SsQA9_a*4$%l&--CKs(~h)r$UcnLe@FL^
zseMY{raI+<R(KcfK`i^p@1kV@WhnwHw3&-gAp51($q;X)euyZ1(3mCWDE6=L=1p>b
z^@&`{=wbGeEM?hmx&kw$Vr0j%V0a<^a;JLb@R&1g{}%Ucy*%#Vi#Y9kX*<0JrE(Ev
zE}%cTh_W=LoiA6W9+FE&N~d;7s@4lqa1n*?N<E_F^^P2rVf8uEufj4U*LyGbTIHbr
zBsZvkrV?LwWzl@4ZG&aMlL`-aQUA4SBXUhwq9)3GdT{O(QHSg|Le$~1Un(dEj1Yai
z?03~AbFp||mmK-2-}khfLw$aR_bGGuQ@`&y^*u858Qw?RD(uIk1GK-wewgP&GORvF
zhE-UGVs3eS`EAIhL9~pVmeZ<F`McyBQloNc%#j+C;gJa$QlD2nMdPB>^qh|Vk>(=J
zkQca+cj}~Fr2L6lR~LWU3&nOjaogZLux*0X8$lweK@<)=(ZRuZGKmythNDU$&n4rD
zp|H$3JSQ&k^oD-yi%+J;e?cpYDD(Y|Ls|8MZNF&>$@{OdVG<UDcMhI77c5@;gKc?T
z2vouF*y&`*khjo=&uAi=x6-aFh4N=n__5zq?44xncPcJYZH(9566C*x*t`MEA2#XD
zV6#)h&<tSI3$6OlP}q#ZLCWyp>_iSIl6Nm78EE;*JBqXq^7a#naqP?z#Ue70gvs*G
z(eYS3Axj6#<qm<K0`~1h88c(3cp5wYd2*7J&j7(M{}u9XC+843wA?c4Bkv@!FgBA>
za3YyE5+sVYtrS62O5P%ii3!bu_aq6qD8I&bwYW(pX;u((oiC?RoJd7P!Yp!PatQh>
zc{_Ej7?dv^1SyIQagsF1?WquZZ@KmfPg6c`XOaw78#W+3aW(uoiZVe#=43qYnUM5O
zl=7e$5r<qU9#LXge?CK*ta9h^2gvJvG;(xL@4>#vp2Ph|kM;H+<DaEq%kvSjaPK3_
z;`5f%a@6trqRvQB4o1C3L{6840eL&xh<ywa802f@T@5h-Tu6*CML^5)K+hact7G1N
zr0=oFvA+JJhaU@7=Z*9w6b&y=>1d4k6giXRJWkFTa$X>Z@#Zv#S#OC$?txYh9~B3k
z6iWD6#OEDF%0nVI|5eIH2%1Sp@>Y44@RumPE|RxJFloTDL?TJ5t^Cz5f1YRh2K)??
zOsTp<Vflmjj|flhF>u_ku=CK)+1#@hXb})w>{ta6`>opbv;8?&b;i|vt2UIa-6Yg*
zn(e<;+c49AyP|8MqI<@XgFxM}Do3&Fh1&Hq{kiJqY;})N-81uWt}&c#+%4e0v;J1?
zDvI+{Xluq<f1_z<4vhID*}ys>uns!~&Gs4NqP2ne^{R}cKId=3t_Ajrw+WusE32=2
zI>lWDclBIo&Yx-8|3TmbcjovLVCJQ5hE8mq*lKf5?}g5J^A&ey(<6`x*zAxg)U28@
ze$Ab$Ze))@8@;GHSJz2Tf3B)ETh$>{bzFI9p=#ZGdoxwLkj!<@%9T`Py{&?`b-^2&
zF|l^m-w5{Pywy3cFXyexd24c2wYlor*K04==4w{m^H>|)GkZUD))vaShOQZG#?;;_
ztIU=)31v;$veiP_>V>kkGuFQ-59FLa_P-?OtYZIb&=)zUp9Qwv@i~3=LIvlkyHg1W
zwXxl+;i@{X?9Fy=7dp3RJNF5l`xZL)3zY{D>CE|R@UVZ3O^}-0sy3=Z@YbqUszC5o
zO<lI8L#XM<*6b2$sAZm9ZCkc>t5CZ&L&IE>@wH}sI|Tf9?6?6DN&Wh3L)V_n)b3a)
z-I;Oj%x&9+bXn_a!Mgfdi(uWHs|m7F#NNE+Xw5j*-f*_$ycIcbXU^N0^==lto9|hS
zE;pnsT?cg3%b|O2uEIaJHS6CX_%~$zhXntjMPL72lcC!Fb6@`j-8}>6Dt+zX?7_Lx
z51oOWum283;YF@{POhr<Qu<>0JA1QDn}w#$f9Csf?T=~~D-R>qd80D$x#BR*0%*sg
zwd$7Bn|0P>hGw1Zg0ua~`bFpJoVWav?V>H~T_<?gEqXWHu5Z1P`m>sB?{T5`_+tGN
z)Wrd8DV1!5EXuX!*B|*&StfV;pe=By%$PSZl#(}qHP4$EU!HeLIGL?YOZJS2!@wuV
z-TeUE<*VGQx>xnD8ZL3O+z0}f|DYkGa7kMHrq*842rW6wezUq+{j34+AauU$_qI_C
z&~dXmO>WbKe8pU|l>g-e2q%hQ*)OI$!zJ0S2jZ1I4K>k-PlaVjp_1y6N8$72SPnHq
zc!lbhA(>8k8ol&ex@j{~RmpMc^Ma0lBW-+HpEiy;&_)gAhG}Dws$4+LDMQ4yA*Tk{
zh@CkaP5h?8FUQ#VfoUt!Dtw6;OKyxtpi%Y95JDBcLk@%FK`QsRbZN^MSK72?R{wJA
ztbWB3HF(=ks2^q)N;G_dB~m}NsXZY>{IfA*N};=BrlM~{;h5#LIFDnT(a-2+xETXP
zh2~eB)3#JtjveWdA@#`z^jvDK>`yDw2h>I5t4Ukrxp$Pb#B86Os;IWo7bm}qo|<3s
z`r;HKEPlypi}w49WHDdBoS7o|mxO<g5{A+mlY_-$GNdo+bIYgbbN^@Q^S5<kA3UhX
z)ij@@zc;Sb-z)UCG>#BHTcfnqZ<h(OzZ-T;DPEOqW78<gHt*V=W1>*m{~Y7Uuv;6P
z1aoyV7-iCFkfTsh8H+-@9IT;I97&ED%M;`$#~`Y1O$MKfpN$V<6F0)bpObfn*`DlD
z?vXYiNwZxkjl|&eBKBe>^f{(oBc&zQfzpJD^H~<w79t&-v53+Vl?~lNbCG`qj<j*O
zZglNidXZ)}i<-N?`2X<ZFH;h;xC9SM6POJxEsZ4DyZhI0e#cm>EhsNR)B3btOLK7A
zpsF#X4Jimr#h?6v@Se0`)}kfeC5nBT;<V6+UTeu^IgH4mvFvK;TF+W$&9kOiE0!rk
zT6a|^i!rBlX(+6Q^t9jlebnMD8&CR&dDoI2=1)<WF*ZDyVm-%yoBZxG!+dHonux^5
zPJ+4PFHoRG8my2_Oi6|2J<CRr|3eCO5er44f5va~?;wo-19GmAa}7?CMuUAZ=kXI&
zr47(Dn5t9ecUUSqybXMMG?Cm9M*O$&r6q|Y0~>Q=!-0hjk6bvMYg(Ia>J^%LFC4m2
z*)ZSrz4FD%4Y{`U*J9rve|KDH+c)RRHMPBY=#4|yy0dGJ2>9Rh=!HYM+J@Jky8KkO
zHZ0VJb5()4`25i;&DUz*cV&)04Qj8h`!1)itGKX_D9FYOhr~TX2@RnJ9B0KJn^Cs_
ztT3Z63Ys%YUo@linlnm2tGQvo<_E=T%_vPGPMU+}Pd%e(K4Au8KIz|<=K4|S;`j4E
zKs!TLarplPFdJ?DhXiSjG4&6Pu`<N``w01@A^w*%#3YxaA#T~c(6aUO53#@g_05+z
zXZ@XmzjMhDgOdzYfY0<*uwe}aigXAJI9`x963)t(i%NZ%euM1%5UCF&#rBh!hW`#Z
zPmn{O2>;K>iIVeA;6Nxv(y6>DjxE7+{Qp8h#xuk57m9=nOs?=viZMX@B5yv%)LTS>
ziH~VU9)0}Ck;9K2iyV0JXy0SU`yS&Rl)83uY<Orm9wV)D@ze?S#!{zb*-y!R(ILC|
z@v+a44HkWd{JT_`%&;)EfBq_kvya<xYB&~yIwuq9ypP}{&AI3BqfwQV4){Mt*i^}V
zpDiglCiepY|3BxsLJJ4pi>Wu>aF)DwVD`Xk{j>d9XSd+&zGk|Xe6R2QbwA$uqn(S+
zqdBm7U%vR|8E1|ZBK-o6FF0DE^;ce%Eo%|VS~Bh1g|h7#=k`q5c6^xL^4HGIp38dH
z3ZAu#p7l9@eb(P0_&cujU0e74?eA`1@b_M{UNBvF{+7e@+Rm@;%yn$cbnLmj?E~LW
z{Xg-~93&-&FJ1i7eBj#CA2k28^Cz8)z9(k(<!V~yd7-9#<`KvgkmBKs56|)Q>)zb)
z#tsy_<J}z#<-2G4ay~!HTRMO2&1c_u_S&)UKl|>p3%<R`?<t*mDOXW_>D0wjlrg(%
zov>;h@X^@2V+$317YsR1dBzijP~mm^W&8Y^`Bb)blhC^9y`~?Ae-K`%I&i_1^OR*h
ztFC)i74)`}#_#MYaCm&r_x-@TfnO5H{P!wYzjR$M>&p2zF8bG8Tf5-j_@42Ho*#HV
zs95kH$&?@Yxxa2M_4-SfU%F;ST&8^EZLg15-b?O_?yPs4;N6xhubx{wZ<;@ICH2lr
zZ@mOrN=YfYwyKT>f-3jsi*LM$Lft=b3$6PWDj&*tAG)Ph&stLPojt$g@F<XTuYBb?
zE%^6m%J(ZZTJU#g%DZo4#Lrzkcj?88FJ>z@3Y8n>`lQ}`>5Z50p;ndRLoF#4@ozEt
z3=&mjr@w+}Mu$>H5U~6=BC%4%;VSOcBE8ef*(fb`TBa57HVq6sg|G8%X^kLVZLJml
zbJR%L7W;%6Y0wP!)yP}i6C(UMYGjaG`3W`B5CYs+qx&nwJxEZ14J*Qd?6*P>KS0cY
z+|HuhTD|e$+_aOxerz*I>G5+MPutBQ4_g58ror)va}iM~%@942%o|3dXZhEWf+sa$
z{ta@TBj@+wU`rqsALR$hA0sDD4oQWfd(McarFeUp?zwyE0yR~oV&kPT|AvtAPf_f7
zE@ySV=9+~{lwYv=f4A@T1D6lX#}@*f*+7pF=vfG?0X}>B-KT{Bog&jpJov5tY#=NI
z!V7^OV8w0kZW97K7p=Rr(ym-^UE}Mcmq)X8Jwjd2LfslsQ2VI^Z$SuZ{LmV_pEjef
zp8oE_<_T~Ejg=;LDCQ85oPM+oP1JJ?N(`ELigA#bh2@#T%wYMTbgY?A;Txn((z}#=
z*p%1IM|9M(AJtLG2L)oyeD-CT;MKxM#btqGF!xW{6<wa~Q_fDdm&cTNwoiFPA4q#C
zz}hKler}(#cgkl&wudYtJ;b)hCh%Hu|Agpv{-494eLC9oibO(sHofyY`M|Bn3fRTX
z6Fxq{PpPN9!)j=TCi2%&6ehB}YOehC>dV#H>Q14$GgH--afWAfIje0ZJ-3(UbvDo~
z1iCZ+o{Wox+hW{HSQXD*K9{XuFVwHk)NRPPHVW2_V%*s|<LkD|w%0wEJ(<e3jEnRI
z#h9tNrq@H4L)n@xp{6Tavq7lYkg497acvT;n~=ieow2gHn72XCTHG#N!h|Z*atrGI
zS(YqyQG&KN$Ny_&N8eqb&a8#f8SUuGYNL_p5S_b*4lA9F29wMXNFGV0L(Sq&(G3Jl
zwW^rnfu-cAzsr$BL>#tRTh`hwSi7&;KD2JR|La3)@#`ab>q^Z$DmDXp!F!Mj52|O;
z*;%%KI#r|AkR%4tqT~Jl9<RAe2pE+jdL$@#f*A=J@ZUxFlCD>T?=#4TI_WgO84Y{@
zsetBLYn5x$;`~pyQGc@o0GgD-%a5Z5%1VUFN<S?wji)ne%5hexVi70Leo!mY6tp9h
zMr+v*p&Ej8glb?42)Bv8!VjkdiG^gpFXDYy4f3`Fu#K^Qss$$iWE}!k;Tzn4P};*6
zwf;gT{;Q~ih)Nh{VJsMJt74JVhzhyH%~}?9ma<ZV@|L}Qdk*gfBSks+uaWaIISu46
zevB3V+vFvoKaSV34~Qldd(G10wd@R<Eb0&ss{5Bt*(H(x0h2FDtRPO>`hr<sm*DHl
z`Zfu^O*3{7)vvuc`{H+Mvke=Bh7H#}8#2}n8P5jB3e^dYx{RYeSJ{}Y>=r7!K`URc
z+z86p<<5CGflPL}Gi4j07hT?*^EX4dAqh5W>Ru0D4(BRrvK8GzMK{igXY1Dp^=s}q
z%;oL^XLh;oc|Re~J)4P=np|%7rHjZXz-Q5lygfo<!pQ`1dEObJZT5tS+4Gi2BsM-6
ziLhSh|B@0LptYYjiQ4tX1k6M5^a1cRC;6XH0wbw&^0ZE}jcieu;@`5Eqok)nye9u4
zIe$S8n*fBzL{$q9LG|R^hLd+m8|Q=ZL?RLaexap@;g?+^1{|ZL<our$@m-9}uU_Hq
z=xruzA;>kg<vP0Q{~E}WI&<A?a}`y&>XvMESf~!?)^5yg*m9@#fZp_^?p9ev!NeeN
zP34sZiwIjeudiSeVLMk@Gq?BRNWmfcom{1VZvDm6^LvGgwt`CxbaR!BVt_{s@N$)*
zE9)?5g%UBKl&h(qFTWfpl!^XwZdJ<_;~VV-pXjgPO3DkBB3wmPsTScHuC@Kj-Zw@H
ze$gMm>oee!D>|>Fgo?EVu^ni%-TiTcm}JPvb#&h;c|vC@z2zx?Ej^nqn8<@By31aB
zdiLppg?Xu!EY`-nsB+-a$i<O)RJ*mnvg071-Sb*tHgLC$l6=JLt)@_++-xeD+jE!0
zqu|w<wqBe3{+HkV@?8#K!K^bi%r|9PHwulLC<Lkk6(;wUfdYredyo8*9^y=-!5hS%
z@}nt0zq@|~XSv!wS>b^~ye9^geJJMRP;J}<#eAcrz)tG<P|KHmP{<#0Gevqk6zQ!o
zN8F}`Qe(~)!d)wbL)Bla99WQZL#5rpRN9?DjNW`Hvn;b8YSjupncB$0m@YRIxUd*X
z#&$^f1DQ9p!_SEazB(a;M+(BC$A^!F`-@~wj0|Il?l?LrU&3_4@exDbE9qnJL-?Si
z4hxXu=!+!M<!+DhK4odBUM^FXCWTgI9i<f`LV4Mb9g{>El8>n&k3k6;X{6N#s-1Ko
zPN9{tIw|Spe5B^8wPrC@W*u938|hTHc3vnp6NRp^<{`#dtn#d#Upwy<T8w%ty{4|w
zS{vbSOHG-!#JFiI)We-n_tsdkr>&_<xz*@NOWJzXBySE++hXQvd)k(&l2d4HZx_V|
z<aFw@C{|;GyC^oO=8>VI*hV=_eV#Hw!B?NQjd_aF5jnW*hdxte1gTaz5`Ekx!|D^N
zyw<B0x&5^9Uz{7T(u3Ohi)y0L7c_5RYoSAapFBpecJsg<URnpOdKcx_=&7REp!{z2
zNp=G828C`*b<1&D8`*N5`T9@n0gall9?-|E)ArOF<t^)FNPWg^+NI<Bu`@MpqbwaF
zW+mk4XVy~qX_UafNX|=eKv$_$Tpt4VVW*0o$EF(Y$9#nA6uVwqf>UJ-!4=yL*%A!-
z`B$m*8FCog$zGu1yUU2kmy&8KY3&ThlMy;%a{7#_vk8k}quBKtgc2yfgxBC{>N1^8
z{xFqdm8}Wo%}06<!ejz}kP`Hhvxl6cl&TU(0~OmaMaB`B<)6H7sqGk90hILe`Cf9U
z>+`nZv7zzEIL?-aoFXNv)igro{2g)_QAGX7f1RAY<S@#IXe}nU7oB2-LI3?7u4oSa
zhA37uzO`RLbFiXVb5K&VlOCdOS}wFc6WV_H!28=slv6F~kV%y7yfGVGE#SXr^|ePq
z-WE6m%m+ZxuZd{XOm(Qh>Dt?K?cr?uR-t`sCbaFnURWw}?YwJ1LQujG$FFLAGyF#Q
z+TQHCJ^}w5`{+IO%a!;*rZhBXthG5uAmeDuHLcG!9TJ)jWt<H+N?URj^|{i@T;oRQ
zu9ewmETB;Q!5I$<_g3EaHf6otg17qy0bPQ(ivb;iw}Sy|1n(LKP@00n>~-HUSjgdA
z<@ZXt(v~a?=9Kgle4NdN_TLL|t}ZB<WxWl8w;|`P&$Vo28gs~C+r+wPZr!4PBdXvk
z$vSHVXYFFc`fS4vp<%~$=Z+iY-HYX`ZwJ?9gFA)bPEpgaIh1YQAT)2d;S6S-9fGri
z0b#)zhDC*~c64eB)39s=VehI{?Di<NSZv;$ZQd(1@4fEbd#kQ-=J0K+J8P|iI%v+_
zea)Ed=@oi<Gu^u}7<+WVT(CP+-$SFY=3^QKk?{HhnpN+Ra}Ca5@e1ug0HYONgv<DB
zOrYgI8Bf6|ufB#OOg?SIk$e4!M%tJnYo5m8BrRDrsc4bH3b0afO{AA1RG}u+ddRB?
zBzF20$}~%5TGd=K^a*9+u+JA>ra`p=q$M|q8Bgkp4udHe7za{d!kQgOLEk`8&4i;S
zW_HxXGKJ=#N4;{Z)MrYej<l#3l?Kt0(?cof!MV+{-UO%{nl0@2w`!C5?@^m<D#fOy
zkSHAmv!-pJbIq7X8Z=SNa@G1aX-MD)3eUd6Tr%O99DQl{9fhom9S*U)Py~hSQ|SYw
z>>gx0(W)VXwiD45jx*54Zt!d{8Gk+kvps-{Hhe=ky{c&Ntdw3o2!g!w`OlD&t^XJJ
zu(@B*H!a#r)3aT0wnX79haomR%HVzQxaiy`_DH0|_~yarWHOrI{}u9v+)&CV_WuJa
zNL~FH53`-Zo+0O-l0%}Eya{p!oc%WsPL3ugNBKXci2dXcDG+jqtLRb`mN%S8PC=WO
zIs!HzVFxrm#<s#?t#mT-Joa-YK`7)6V6u`lXNwk6QJ6rYiK!ZmbyQMgc??~V{B3jv
zw!_PzB7JG#;=nhao^PCAo$)o#+Gh+ikLOCtFI8Qvnrrxmf5v<Z+qCwJcI?dhE^obJ
ze8>HkTik<P@IC}3b$7{Yr)E!GNX{L<n4Ui-E(lV*`=J>F6xXHP6_>YNDbI$s2%#<S
z?fqf@5Be9pkIa~Eh&=t=qjP(|xBk7d?`>IFwd36_SE9eycWsNXYKIWm@&4qG(?3ct
ze(AaFmxhEd4J~?3W<6tqXDpLU-J^Yu-TGhBW4|6m2R$;LvAZ1SJ)oa4-oVS97oBs_
zxntjZ{Jpi`8(3)C_3pqm-R~X0HXt<Z5^8s0`#tcJz~VC}vd^3no;kJX9nN|u1n)#<
z@(c=pNw=2@e@XW+6;6+gcLIf%JfcU<-6dIfo8WHCIiXbVVXl|C@RsHv?rOi>o-3=m
zS7!I1R|{2~x9qjEvuEcFbC1vOUhuSLtgXNPsFrKm`Rjbst|Spfe`>VtTW|lfux;NK
zd&tnwk0Y!f(nAt(@qb0me<J5Ulk?Z){DK@3Sn+OhX2@alkVI9Ykm|n@^xxnV3!DlR
zNX{=Y50Y;IfWYZ5jJ*Xn#7!VsDywtrH{U5ct~1%0P>BEplT3+$qDYB>szix-y(IZ5
zVPGj2=)4jW{A&uVAWSw$b$l#pLSJWUQ^YxdQMfG4A)hMDA)j56+x*f2pSbK(-3Rff
z{A4!j?(d>S+VU1AbE%bNE+)uapplC|3;wK%?8OGi4*5&5(F3a_iGd^qMi1<&(Ssoz
z{2$WAypYQ{A<wCUNdVV~Toa{g(77&MA-rsb@N$G}u)$J2eA>BS;GhBq4!p5S#5Web
zUIJmfpbC<m(l4x*K1iml%!EQ&%oi_@`$#&Ex76S*6)}Ij5}{SldnS_!)l8mL19?(?
z-dSvECyIL>IEJmdNWui;G9*eWGR?ydgB6<t(y*IA2MXzw87%9NunA`%x|f<JP%J30
zC4n?!|DhW_5SJfXNAlk1Pe;aJ&46u%MzEH#5PnIBUEC;Tu?{RQ<2VwA<8G((PFi9V
zpAEhfWQ%5`=zJNI&ao4HNt~`r;)o!uA3!&kUt-6=imK3pboVxh++}tQD*iU2IS3s<
zQj5Q3A~}#Ps-O!(DK0{_U_bbbjI1oO(8W$?D<mOoDKw{TS{qT*9)v5R7P&+$FJ6Re
zkV(@eu!R7N3$Taag*}9lB5Pc9KHNcP?d44@9hah=0rndSN<h)$Z3&((RjqV^I4dnm
zB7x~rl<UO_dMC(WiLpQrC@EDTR;o?Tt)5(<Zx!V>$ua74q)UZmNUoJaFqh%HL0QZ{
zOm-SHnVoOwV7o!H-iWaxMuQbXj4ft|>xgl1oy>*ZgORXY5A}(7H;ebAdgRcNH8P|=
zk<QD~m7pA2C71mWUy2y-vS4@-Q-&C2MyV+f1B(V)f?LG+wDV}Erx}Vo_&&7Q4#ZTZ
zt#GT-u5aiR8x6_~TxvZbwOOvAJX#}L<Ph~aU5@!!u4N&C*+JMTr;Jsn9i)&U3(%My
z1kHSD$2MeAEhuQzW4BzY`W)G-!ZIYk3#_8A$aaCR=!@AWr&XUCwhJ%@MOG9ZmeXq4
zP~Z>!y{ow*d`>;E=4hkxT{F88A-SCo?ysU!kI6aIr)phL%a+5{8W{uN?VWP2PyN0D
zIfwfE4DVC0z^8uSv+8?f=rg=e!7JxvR@SF5wSYo_e*ViSmQTakcMMuEFOv`VZWZ%}
zv_gx!`F}%Dikw+;o*?H8IcLc^M-J}r;&=}^4svk47fxzpb!RLsF{v&J_L5Ud&i_Q2
z$SMKf0w=V3x!9S#Tq#P-t-gZ^r7u(N-y-L$<UC1Ef*i(293sd@&K`0gxZ(K!LXL%;
z*T`Y*paq(3t&93r-z2Y#oJ-`)kuyxrKPBf|<oqr<j9vaVK?mUEOPHcL85}s!e{53(
zWMYvyRMD1`1EOj$)tks}gV@#oGi9fN7L^+333`K^-y`Su;e;xS#MKY(64teol<{$L
zm@u0SDC_RGD2%mN?W;``MhI7I>Q#dNIh<rAoFeAD2rL$O`-*8{Mb!Nw@#x15qNux3
zL)0zFxPv_;xvkB~&zdH7P}<)@!Bsi=+<A3#rfri@4KXjyq>G2C$tvyVIYbY=4viD<
z%cb5o0-ZP&PrCJtA;v-Tid=bBuCn2t%Tmi^!quegQT4mV#o8{R3g&r5VQ;plU+C#y
z=sB`b_9#2H{t@T%*`YIXY3%D`1q0w)5^Mqtrm?K@Qv2823l{k9;MBdpU?a%R)zlRn
z1UYf$y5OR;Za`Uo__{w_@KB7Gt8FNh0D`c*vMF29alN9WP)0H3Tzk0SqdZkyb#1n)
z?Rr&Pp_=?PC^uW(e!aTA;3t28t82{GuDM>jrcg`%I@MoK{vgYb26j;c`-Gmp>s5V)
z28wFrssfi@`ua<SRq)+u;wpoMW`bHcUm)kMy%T~5!(}UkxgZ90(Hgj2yKbR&L$>yS
zP<!C>oukJnRrqf(>jL7D`K<Sd;5`C8`wI76ld0N%#|UWo$@qdEfp;hx^`W!zbb_Mc
zx})KCd-r0`L(q#@UHY@qhKt?V#!b+ZxM$FHY{53kD)${dp!r9?X<{;%$3FB1A;|C8
za);t*1A+ERXiQcM{?%;0-V&!Trq~yL{QkF{zy7EhP5AXkZoHidTRvzE9BMQEWM|+|
zmocw<KJOs)DDY9Z*&~)Wo~9kScj;p$iet&)c_Ik$X>xZPfetTm!yNVtH1%G;sDty8
zq*jyQe49`*ek<wt<Jh@dmBtgEq967z%vvPxv_-uUAZ<yNi>cKExHw-(M7_d7$?+UV
z>;z=`+IoFvEoO@4AVxqTXVud90Kx;RUxrZYDj8OvR8ksOW^SXWrdhR-pqg5S_!IJR
zeC#}Eh)b3n$8VBzsZZ?n=(LQmAygsD)YL^s^lf0Bv`sfD1eKZ(#>YgHZPv79$P9fE
z+b|3@ld-mGTiOQe``RUGuyDmC$?PJ_uOVpC?5}u{c>;wLE2`<|?vKxLNP4yUUKx`5
zi8KN<=BLVjQ?GrFH?Ec6qdq^)cgZwM`3fS|zK5LbJX@$nB(oTW^`{j2XXN~E<S=rK
zkxwP${X=q2k@LTj!$_q+A_zCPLSK=bJ>>lza{djRyb0SA<4JMzo%SF^g6xk8`Z2{f
z$S3kZK&^0S&!?G0KDbv!FU4iC9A85Y;mEveT(Tn_VHSq|gx<!g{zHPk4~L!DQ)!^0
zt%~v`6p*w@ahnLBe~0q1N#W*T!^g#RPw8HQ`w#Bvu5Eqa_<roi<3Ac-bRNe6yR4&r
z!BKxB+`ACoGjli>=*R{(3xUluhi-VP=en+zFM7hcVAqw{JL7MS3&9;1T)9B-^+T5r
zUFpuY?-%etaA4*T)8wwd?x~03Wp+)Uu%_?*@$9~sfd6aa7hIXTFgD)V@iS8Q&U)5g
z$FaYjZJD0^Z#X}Q{`BNePF`@{sIGh6f7w6(bgrfK&697O%(b??dG?L7_e}bl)fdd5
zUurt!BLnS1bvw~W<-S~bJp&qY<qdaSwwh9+T^b7>f}qyebf*Lma+l*|+y&RIN<W=i
z%T~4tm2Jp3*D&{`D^1s2?@g;G)<~XSE~=%A^;GKhUdazDe^B{B$xo|(Qngt9*ab6f
znJ9<yb_w2HMHQ++@s|!?JPeIp9L#gG*DpCVw^gXzT9lq8zH2klxjB<`ZjR4mGAvPt
zrv;2Hr!>ur55wa_#w=L=gZjA?$`%QY6eEhXP|dsa)B;q2^!@w|M3WUb7=MFK4=;Ww
z6v*F%bN>;A_9YYbfu|Je(V!%)0ysJBD7~=m(&mesGj-b+9Xp6D#<A0^bFJW9d+or7
z&K(5<=iJG5HI`^E5QD|K<pVTvX}92_28v-nEj<I=B7-l7e)6s?)-oxCR>+v)Gv_xg
z$zN=!hK6t1PviY0Bs4Ee2Cvqcy`s8l;Bj>zM~J^%_LJ!wh<+W#=N~_zOr^gbR3@Wt
zGz5rRZ2*;IT3Q3NUqi&WLSFNIdA0hkY+2*sRoc%*l)l58wQBv~+~_^=w?e%ioZBhq
zj*$kfGEQ`9+0=RE$^pjEE4KUTavxF>#zzLTAW#)ZN_#%EXdD`*OYV~Du26XCal&x0
zpYGjDBv^Jye=Qm0<Ihjx5=drx(k?GPqL^R+RTRYpzYl0%KeqNQIM%}u0b7@!p#)KK
z1ahvEvp`OSoae|{BxjJE7&&orNPYs#1Xl=Nwo<-MVQ-K_ugu%QZ{R#;1gZu}D*}}I
zg(%5~aHjlAFwW8@uL254{=Y~CWjHTaRx{T$Z@aqwoo#Pzd(W`Yv2CGr`;6sADKy$X
zb?_~XgP7589n1zgg+S**AbhP-2y9xkZoZ9!=ucgIYVOMmzK*P~Tkv%+_*T!rD1Om7
z&bf!LAa&28b@fWYpZaJe?h(>BnYrS5OTu&L8t!floKHCM#s3Ux_*-!9JMC4wr0bU-
z_}Yv&@IR-_9pro$&XP4vLEc1?Ek)j1YZ_Pv4KymRbJKd&k~dP)Tv_(hB6!(BQ{_Wc
zGeCJ;y9^B^QGE1@^b!6B#b}>?%6p0|n$mr$_y%f`T9lT3ji4YoljMAroaf2;EjUY#
zHIZ;_$+0GOf@Z4jzR@6No!#I{H*#*HZ-KI6xvgG@B~~=AH}B6jY!(_egAl5*&$uC1
z@CJ*HEo~7hx8$m8m~`plSgtgf3$%*1A+v#9LSPrj950j@&628N$kZ=tWbEq~4<7kH
zK`(>2=ljkTofscaz$(y*5nN5XTwmk=q6~jb4ihReQiSk;C~>7FK<juB|6eKMzriWi
z@UY`M;K?C6CiyA=cBIIPBSmdoXAd1F!Z9L$FxSw0r#7ZD9T86tF$i=iP7GN@*vk3q
z3N{h86YLOSC+DjwxI`G17OUshT^uNQL_et1nnH;PmvZH8g)$K?R}L2W#DEIrU{R$Q
zP(|t^)goNO`Kk+k5e{&rRdY=jYd;q2T7Ya6r-B@taVW^)eQn$9wt@*TDh_=n+#pi0
zkk86NxhOH4DA>pcMU|oxL6jBNJfs6bF7lnx=}kN3<39ik)^bxQS5k2)a1qy(65P4^
zor7;36yaTcKX(4e$>3Wy*Ig6h3!V3$7qXk|bY2J#IxmEWh%wmk`~eM|qPxmiza=Cf
z(XkAb(JnzT7Lk{E*v&U;;u8ZCuHfb<ExeM{orAb!gmBcdpC}@biAME&uTiwvR5CV>
zgE?f&H!falkQDh?nxnWPMx!}A;{<6jTz*B2$n6r#dw@RPZ2+*4Il0y?u(NaiaL!Sa
zb#w}j&MO0gW7GM)7)#l3OU~-PWwd6Em4dNy&NP>t@B7f$en0(;0>#cF%!=!k#WTKa
zpX4p0R$Z5wGN{(FxPv=OPvbsSd`$yXYwAKUs7}u05Qml81AMl$Cvc;*Wqd+1t_*<g
zv4VN$Ne~-Q{3nJPmkXm@W}<h=Ww%syHUa(xYlBLID-+=JT6Kbkb6S+yt*{(Ou?FZ5
zE0iQEA^os~Xe=#k(iu@QE*KaxK=PrBeizuMkL(W*f;>|WiOJU4h~A3^PY$1f&gXq<
zKFe?YVrT9Laq|~hic`yyO|;>LEv0-`79;rNTaU#1x8$2ir0YW%y%`PC3IZEOgG;K=
zd;fh~Yy`zStLS8DH;kI&rgIoS;)CNu%W75J8u9j$qT9QAgDKb-hYFH-R|~soMW+6`
z#PcO`tG1{lFPXm+&FoRPF>C5eYu-uMy!4Nc;gXgih1#WZ$HvvX%H7mT3h9lk#-DJd
zSX-~s#UiDy_*GTgF5I0ZF3roX_kvm%E=*&6F5T7+yYI}pTTry_Cf+tf6$UXM-?FqL
z=vGVI+s4`l`wn!%kj~+-TC=NY<hRmYZ{P%8h@ML-O_Zh%9Ye&mIBcjSIg@OWP_*v{
za}gz&;mf6N9kiByn<D-Q4hSG7q*H`kdAnK_mMlq#o7xd%Vy?VTA|ECDSkmn0*Q40e
zghrl4a%K!$Mt<e1vgNCV^3~@L-LRBg==x6iqNOEQ)jU5URIP?2tYb^I<Dk%S@Ph%N
z<H_?6=RDO}Pov;zoZp#U)hpn?XZQL2IY-r8`~0blBb+gY??;bBMKaV915muSq?JPs
zPa~cVLtwMOq_xUu%2~khF|nvQZIp$~V4N+oi3I~|wJMVYnYa{LihavuhqP>n-OdDv
zRAbhua=-HbJ0&1zmU@wBCiJ44Yu@r+`$AKnU~D*l=)$_Ws+_CjwWnsE%DU<V7fevi
zKYnG;HQ#&I_q!HcN6zoN<tRBXnbae6EB~l(SpVz?P~1OSJ)z!!sMRMjvR3<GJIc)4
znKiaZV)%4CZ>Kpid~$MpGRb#gS}a?ODrA8yCYm&f*g~`oN&gA8y$%Jk<<nUr+A5pt
zTW~aH9bJN>Yk}QcDy~n|Sy-RCX+rmqL&}$;jWyZ!nz+qgDw&R!t|kEM8DDY^*MWjq
z_ly82?j8&~iliT#K9*@K_9?7dou<`QxR6GiJ~l{D40J95b|h_Lc|?x91uK#UR$qQQ
z)qDpz8{t4Wy=)%QoDnCJnsVv1(iBPmIb|c~pHaU)1OWY7e*c^@T3<cz@`0?;Cm4NT
zadD?x&gx*UH)r+bJieT-A?NQZlyRntk3sjD#ZPcK(Z%|Z=G{^X1&HXAo5RQt>5C8%
zP2>IZq{tYbNWAPuZ~X~gdsiY}N)_UTHGQefVhK6=KL%xp!)skGOkpT^>3E9!4ELjn
zI+`TpT&E%Z)M(<-D~@Z&-rMy4GYhVx{{zqjznP}BQLEj{utSYJ>PvTY7>3w~LViZg
zz8^#ME;#D4j*#F8EjT(d#tsofP(NXXQ!&J91TZv_cgBXH|4YYppkMv>0UPkUsBY5d
zzjWe?ID$=*&-D4%Qi<f?SmbB={B1dF8N&l#(C7cj&AI>cZ_%Cz_o0A?(LNiH4!?(5
z+d&wQwfkQK!p2B{XoMXxflLQC0YXjz(QGmtJu%3mPhip*rcpq$in?HIC9|?SX~JV;
zc|HEhWFMKyWtpRiyuAq4?aSMkA!fRZT~z#XGrzLBiS}`VO9R8QSQk}+fC(IhXrG1f
zSboK{eEcMtcR45Ca#OjiNSFsk`^I@DSIIXoi)DAN(^W(`v_==wikGmn+i3DFE2Txv
z#*(-KM@mc!rFhv&7;F5{@JUf3<f7mTR)!cH9;LexnehvDmM8BmjwG1(P@ZxYEK#qr
z32UCV7DOJM-Rly@4TdnU&6iS+ZkB_Y(2j@(wa57|qnk0P3O&IBA}6BBI8U<ue8U5B
z(LFm+o@eqcA0=*mKw@?w&hQkw{f8OY$#49Wsl#j=K)NsomoBl3a`HW&Hn+?Wh<Dv?
z{<PV|L1(p=hOm0Y{$QP&4AX5><74b#J}g#asKOJt?FeHun&kbISsZAwWbytc2J-<#
zGBIhshGjdmTDka&lpJwwW^^#lY(I(Cgo2d5fl71@pQZ94ix|WmTYMvhRUD8^0W7_;
ziT?)W>ZKHAODh+KxwcV$6~)--=3{1dH*ec_WK(4Cv8RsoiSo_$l$}&zMOy*EqBoDx
zE!$x#w8*?b-a^DIBJ!SPG5nuWDNMGxo1iwJpS+3j!lIP|^C4!zNj%Y(pd@4D6v$x`
zvwuqv30as7M%0N25fUR_O5_KKCT0X2Pm~T@_jy_c`G?41c#iNN69kF4kM>*g)@>L}
zSdZGl^N7WNXe>bDisR-w9c~8JRsI#%bd#(6OU`+d^Zksg&v5mB#Z}$p+J43zzRC68
z<ksEf4&LM*{u#IJCb#w`*ZMPV?@eyiO|Ji!dV@~?v6a(3q+?0?Z*oU&a=UMG9W3UT
zR+CPDmxF`bbaV~5lFDpJSSSgfci%GjGlsIP!7mv6i-y|&VC?w0yW{*r5OTV3olzj`
zY!RF-3(mIlw!g5IUwCrCR(IZ<E33?K-jB>aUEr5tPS>5`!UdyCS8}EKosPFU?s5QO
z19{7iJC+_@Pp-73V8HVh<g6w<Q8FxOHsQLQ0!2gSW_I9Sr1>hCY^u*VdIZzzyEcj#
z(rweN&N*DKZJym+FaW+)+BBaMN;?WBc&LKjf`uR$Ev_oq2ohB?3375~`&}2HdoSvq
zHR{|K^rUc*@ps+h$a`<M?VL{6HdjiP6z_2a-#cqKYS7s)tP!`-d+u@MEhNltT}Mt5
z{~7?_vbo8;Q^5onm4Ja~5)50&hpUy!3pRr6^m+$Djb<J0k`krI2Ea;oz(v`~CuS!|
z%ns;IDW`*8Yh%tC%$Kz1+^rwmFop%MU)P=UmK6+m-ZI%|)?H|s-9EQYKsQ!jc^aD$
z@2&sgwjXTEI35yA`|p~Ns<4gISHrlnu2iWEV5KsEiz-7tu`&dqGLBcDe);K-9Pr&W
z$mJBO%otp?Wj#t^2rnv(d~(Zrl)~;h5H7W@KIg2>xtl(=7|}F0mG9<4UAgd@JDzf#
zS$PFu<rRR7UO_&qbk9=3Mm{@@go7X_S5|eY^J3?Gxlr0%a8VFced^f#-6`CTRiJl3
z<Hc<Ms05JIJ__3+SHe~_f`FAu04}No`P52~Ppkw%%PK)Z%PK)ZREfJKfbLYWQSZn(
zL%GtLOrR%IvO4GPk;YygfSkqoYWn4L!GK}8C2b&>Xu!-IMx}GMvtS|Lry9skr7*Lu
zQz;B^QDNkh2eNa?Kz2$4xhm%bYAMU%v~o#<h+sa(IO}2VWBH)Ubw@`lucJ;^>rOtk
tKgsun52{=Vbh%Oq8VI!#<Wnm_zQ66DcITX3MT5Fd>8byldWx+T|37w=WuX87

literal 0
HcmV?d00001

diff --git a/attention/__pycache__/selector.cpython-312.pyc b/attention/__pycache__/selector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..312fb0b6cbbd2e01537c41b416675cebb9b4b60f
GIT binary patch
literal 6689
zcmbt2OKcp;b=C9j>FN1!hQp6Iq?(c_a%gf$nOteZl@wD;Nm*$_tyfyXnM2ym=_1)w
zPd8oNLy5$2!CmaZivafO5^Z1`)***Alw5N1CBXV%!$2-GpbQS$5^Tp#klbdM46tx=
z$gAq^8Isb%i=@b@e)W6x-m6#dQ~#1k2ndQE`Wx+W9--gUhF@|Xu>U!S&?EE?QjyB(
zsN{aR5(n*o9;gIML5}tX^-v{T3NtvQM=H@$l)+)0uf$5Rick_*o73Z^IKw4Y5~T#|
zi|ENps+3}IR8LpBN?i=*^-LvO$}%{ncUN+y9D@bDr_x*MWpG^YtMr%pITS!Rhfh2K
zYH2AAs3PuCxveNd%K<g<L8z2hIc3oA!$WHFBFs}$evc}u+;T`w!_1RM)^<UU6hrQx
zI;3Xsu$sm3wFS1(kxK2xr`<i(9L!?7t3CLP+6%uv`1QBPMLdF2{jhpDqn`L6Tsn)R
zUwM!0|6z}T55iA8T1%ri%=i{@P|Y(MLh9fLq4xOLCRaH5pLF(OfpcQlv4M$Vn*<uk
zvT4}(fn8AyWd+loa9Js@;zGa)l@-f&_!Vr+3R$sWC_Qi6*swLzxT2KrVMB$!?&Ez|
zjcNt@h1V&Xg*%(;7+P`7&}>;ZSKK|ax9_|yUzvaX=GDao`Rd|b`R@GNFsqkf%hWfp
zY%Z<IOPlg{s)}wX73@R^wyVS_dknKr5Ni6{UxMlpvRNms)&gy?4XlORU>mR_KIkji
zHmaeWfXdxQHt&zs5EbZcR0wQ2f&}F{wk3NNOG~Z@By$53qN!N2)^S-|*03rqZL%2~
zZ@&4LlH!YuE%p~-V?!gRQ2}X68w$~sB^^&l+OlLCSkkNxuA;!!z0LTy=G@k}^fI9X
zBE1T$mnFsMP<0p?Lp3ff(oIa@f!x<D%sLkfVJBc(PShjJ3Bs`x5jZC?sNifwk93(H
zh(&Lu^vBCnc4d8PU0a{DK|`=T`Jj5?&tAQE0Z-}L($xB<y=od$8@gVZYD;0t!a6R4
z?iJTJok6Nwu%qmYK!$mS?CnIT$?AijH3`)YI_O5-J&)!d&ON&P@bc4Buk2>e@4VT}
zo~&m_zdKtG-FiAX|LH_y@)m&mumCyPWs{V#dIYH>9^RttSr<ATQJ5(dJ^M$X3JQXI
z6WIE9CZTH-m!#-==R_rQo!%q34wht_Qq_X-&dK=-;+^1Iie+iWiu7$N{clS^8q*Pw
zTa{@6!IRjaYG6r9)ix`Dx6C&7RmK$@Y*w6bwP4;`+R=)`tj+oROYMcy7(00&m0(a>
zP-BzrRd7|{CmiVo&I=r2LT5)zx}nGEU(wAaMVFa8kBE~D!1y%$Eb4i7P^%9Oj5b2O
zqz9U1__a%0x=H9dd|lycaa$H6!M|GNDj{$)^vy~41f}w-se$xOP;LJ@`Rq-wl^{*V
z8&!Ug-eiYo(Em0%$(68LWNXL?pyVfrk?Qg}MD_77uSa!<48ejwho8snfq=x5_0SN*
z;KWw3qRN)Gg`Kc!gV}SE_cml^Ol7w%Ea_(Xo;xK9+9FqU#o<>K3%ZPZjzGJtb%j{i
ziLs-kSjufn1RGN!GZp<F0HC6Q_awWm!gky4J@NXs`C6dHZy+mi1Dty;@B?t`HU0<a
zM{U>eK4-TrV-3|f8{Df~I@nz2R0}-u@YjO1P%T`G)S~|odg4(BhZx?vber96OS-?R
zl~-Rps`e!@R7qF1G<{RjD(fb(ElIPBi(7qf7+}IQRXQrSIcclADBWcv%*4SBA$U$I
z@Z==WN+enh)9MthPSffPtwv~d7OFysP`(HipVQ}_i7L~>K73;c^#_I6S4HY%7_o;>
z*s`dxq)vhrSE<r3>@yCNuEWpTfQsE2zNa1?el|Gr_iMX@=j!~4W@@lLJkv<cv`{c6
zG?Ql^zgs_hzJ<68!_DEDx-{Dga*6Z%K^Uy3W~d&XX=VnR$?UV<fgj%Zq`Q%y{N&x;
z-pkGGU^Cs@?CPgLX5gSJCPrE)7LK_0^RQ}BThCN$7V1Y30dDgh)$${W?N}}LUa%J1
z=8bQ46l5&~Ymb#}p(ea{ttPCs6{<5q<$MJtU+Xy9wRmTS52*p0(#49eejEa<DZjV#
z?O@#&V#rSWBQ=3K@NHfVt1K?v7CB^7bzx<V>ddiH6W6Hz94kJ}+X*#VORQ17I#xCi
znLfl%;n*-VRo=$}T!?E_L64OhPp=_d+n^fruh|o-w@|i|M*p8$)m}q2k*%pEtv=h2
z{*fvG2C9I^3K)fePa7Bo>Ty}ACH>y*R4uhO<@a~KZQV%M((lcHlvxD74H16;)w*hF
ze?3UOt#50ubk_TjD%R4l!v(+H`T9FNq5260WS6>)P9r<xwh=mm$i?mWAufY80gPS9
zrVfpjjy|kW?{=)LQ8#w1w0HH4DKncMT#LUSfEyBjH-4YHj~)d73f<=liA9H(??TKc
z-#xeWPj?_hw5rR?+5>6S?;VvigL(azg@4irm_bW2Oi4El2$LlPm$79jWK&Ws>F%`e
z@GNOn*?{m9V?$E$I>BYd#%fV|OUDXCAOu$+B86RO;OFkYOw5Y3X;umNzZb(!h!1QV
zB9r1)-nYLmIN3RAbgOsNH^N>-;+bJW-2w!NY0u5d>$+lt->x_j>d-dMZT;B&O5oZc
zcC>*t8vPtMi*i|K0_gArajYuc*C6Ct^7&G!1UIIO=Vpr25+K<)SDY?RPq-e31~n{r
zHX+2a?BgQQY^fuOb-lU*sLG~_i+8q$zLaxDDsYztDamcWq$?m!du!|+7Sh4N-MlL?
zPY-^Lj<8kG?MbRw$g|kN3BdtaP7hO(`8#*6F5Y?L)}o&XIXq-k)_u)hbs}!2<V5c)
z#DKG5k+>teXX~CSi_0DUCf>YCh)Em)9Ap){a7fo6bBoJz1y`0Zv1Hi^-NT!flcd3T
z(LW%I&};5QHG`%uwiC0o6+?kU3p?E}I~_-8pP=Q49%-^^l(7?6@diX_EIA+viZxF$
z5d590Mj!+~COJo9guv;wRjuf2Rk3Pox<#m^aYCB0Y`Q5ZO*;yiuk4)DZUhKhdw89G
z51@&q7vp)F?_>@QdFhD5VOKgq5Q>v%lS#GIiTXHGZ3f+QXH;9%EO{Zop%04&$QX>V
zY8e3QU%{S003e~hd_C0t2mb6XKh_GO@K7s)_~CkVqB$_z;QJ0DXuP;rSZEX$XmAi8
ztj7z@)bL(vypbCJWbSF|{Ihh=qvXS6D-g`h9`GnPb`XzrWm-ve_SL<Sg~rIjr={JI
zx9aIrtw1Ev|LpXI`l~k@r*GEN(to8<c=``Q*PbxY5C-b`iM{-MBR{_@T-kZO8BKjO
zL$j?0L??W5j~{681Fb+HF?A3O#e|lC`U`t~ml}PSnqs~w=9*$xQ#{cWdzxapDQ25u
zH-mHgxp=?uVWM^7%jX}OoE7?o?<PL$L1O>2WM4BmQJ=iDH~B_m@{Rh$jk<VqKNv^}
zEfk0eAeYqH$CcgW?9O$NSntqY&s?KtZnx*+&aGw?VyaWm`M>xbKk)Ibr~Cvk@csCQ
z@uqmbDGmU2dt$yJ=6A)RgDB-iL}GSl@r#2hhr08hqYy}`M{4$by*_ib{`G4RdR^y6
zo{bcqj$hszztI@Ku{VCJF@9@z{F}QYZ`aS<hJY;h4hIogZw4so>u*JaUH$*v3Id)#
zTGZqGY&do`gMOZgUF!}0eBi>hOz;<(Fu;Z2;^N|wJd_6HG>F~*1ynb|+d;PE`5lCO
zue8nCo;O60sdjv93|{sAHt>i8Z`&Df$6L_bj@4cknfcf`$b7-S{=YEze(@iJ;2Q(V
z8DK%6*Wo(LB_Z}_xt*j)N1sW2o7s86pcWBKwZc|=&sCE5UNzyRvNW@%k23DXelhi6
zYuhh1koRhkbgUB%T!>|Z|CFlhrXk@68uf$>leZCD=xyd@@_#DtZrh4BE3hA9_T_Im
z?dLeQ*CHe<G|yz2HM0~>+)X0O;NVFiz_N2EX%Y<_7$oIxN<^KoB)J(!;cyCjB*l?E
zu4IoR@=aLwOZZv0p!yH=1-!D1p`O{@+$%eaaJ#}oAL~y;Uu#9e;i+Hq3FwKPdR%<U
zpL@njd;CO$pZFDD{Nf<^vhM$}Xx#mN&-^g=ccDw@M-l-4JUl-X{Mk?tz(VNSwQGxo
z0->+AghuO5s%+}?afm*s6qThiq59_t9?kHiM5yvQvE`}(FGwah33^qW2&Bo>N7D3-
z<#|pR-j~X&PK-Gj>T(HvqVSwf`*=DYM_ICLqLghy1Jo~{M(_&wRkG>2-Y$k6h+EcH
zitL2k{4&n^T?bC$6rsR+T(?Hk8K<|?QFJq4*&St`lb4wrm1Qymli4d6dzf)jvaA?}
z3HnMU1miSnbpwl_X4otdc7i~m6IufCI3fCeKxnY<x*dAhWRO<$b;i{d{$j;ct2(|+
zROq8-#%e$f=8WUOk#MPBqu6sa!u|(-gNA>P#D7D5&(WplX#P1GdyY;&N8``YYrl(i
zfAp>0*w9X-6^V0iarM#HeyTP`uk0h*YK^1WSL-NS&lNsdXym4M(S=q-<VNcg-}rR4
zF>$?xpz+Ivefnt)g}IaUv5P;o8)L8UBWQr%$en1ye{a5-mp<#tbCG5$(+a}(xAFA%
zU;FU2Rv2KgyScuP&pf=*iqaO3y1GA79}2A)Z3!ruX~iidqExn(pimNZ<yt8UrBOQj
z(VY*sS`>FHgCas*IME0X>}P5FG73at*%2E4n&YyJ2nw{RpbbjK$;aJ|?vYlMwL65c
zrb`I}T~Zk6(!#(FF|664=JPD=*bh>20&MIG!0A?Ch?{C=&bET^{cSi|Pn~RprO(6A
NqI1)q(Q$U<{|k5s#Uua#

literal 0
HcmV?d00001

diff --git a/attention/backends/__init__.py b/attention/backends/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/attention/backends/__pycache__/__init__.cpython-312.pyc b/attention/backends/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cb6e80d57e369df6fe696ae2569c09b3b28ac386
GIT binary patch
literal 168
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx$BqY7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxAul%(dBWCFQKiOJcic`3#E@$s2?
onI-Y@dIgoYIBatBQ%ZAE?TT1|<}w0tF^KVznURsPh#ANN0B(ROzyJUM

literal 0
HcmV?d00001

diff --git a/attention/backends/__pycache__/abstract.cpython-312.pyc b/attention/backends/__pycache__/abstract.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c4818c3fb0d4a21eba4503e36f27f530fa691277
GIT binary patch
literal 16616
zcmch8dvIIlb?3dn1@V5603YBJA}NZnC{j`+$C7Q?5-Hh<Bucgw$3~q+K-^0aBp&p=
zpk&h2Ms1yjnk2Q<HWl4$HcWPBDvz^WW%_cbvpY%K-DbBtyMV<E;k)Bmb(_vk|LH)Y
zI?nX3{hjYVZ~+mrvzgf|@!aom?)lF5Jdf|-Z~T4_hbJq1J@du=9QSvWF&?L$*#11v
zaW^@U6ZtHc;}d+&may@Zw`J`)AtB@(2}iCa(UNl}oH<v*m2)TDtlpmWBs{<qvfi98
z;bUcvtUnh>1b9vo<Tli`WP`a-BE;&P+16ZJqK&0p*>EnBi13_^dyW&`Z*ijMJ)6c+
zqMem_QRXwtI#`(>WdVtQ&#q&3veF<*LndaIjgwqrtJL*_HnS|s@WQ~0NKW(XZdTfk
z(hiB2TBK+cWZx5X+C8kc6SZAZk5=~(POli1`owOje^wBC-Vzc6%l3HhKM;YqO|>6C
zF{uVpGfGiTrHeVKI9CwkEvo;*tLIN9C!aq#dHQqH&#A7-Y)VmHPRXkCIVms6nY8LU
zFBgi1bRnxcFDx%gROh-V6_Y9XqB0%l)yQNayOhhHPsyolR?42q<fW91a@Pw>seJLY
zw2ZW8GL@c_rs#X*LQ~SEOj?>uEv9BN*-VizT2H^saL%Nb3rj^pOlv*YAQlCCwny-~
z$w^#-7rBH@<P&z$mJr;WXiqo*g+vRWBjH?bi91#Q@nTWR7c+%C5nMUviQzHJVnq~=
zv$8KJQVau=$zO~W3$Ym~mM-KLQ^m|oR*GHD6z5`JE*9kU+&C3yveK8euT-Zfr3<2j
z!IJV?!lx&ag?x5d4H`KeZ#wQ$UCCrVm6MW5)ssx-3gS|h(!ON!^`%r+uW=@mVj+!U
z=hVr`b5kc@RGlZMwS-SkB+pHsc~uP>IUVm^ZkvYbpP!p3<`yRwGmHC*m?o*X?~SF;
z9(iKnv(iL1Gc&QcjLFYWT*_v16DebaCT3FU1t~8o6UG`DUtE@3L5+bnB$PP7TiiXH
z-QlWwxM0`S=PJUHN}!Y8XDi`dSI<zsW6#xd6=6yqFutvuNqw_$+ry}?&Eyw2$u0>Z
z{}f6^Ub4^HL>rc{14~#?J!hA)#mr(>Iyb8dGbu$%>zfnE9QG{75!G$t@g}#*uX0JG
zv}c)nm&YoVhmgfC5ELmp%Q6am7K_O-yl7G~`AjjHTnX2j8aE1e14VHIT;(c}t~KGC
zZq~Qyc#GVDQn`~r7l3Nd<cn%BnM~#Lg(B8ZA+IEp@*b-1C%}dzMyWvqP(ld<e3h$s
z{J;LWs=zy<>n}av@Y3)JqizVPQF^vl(QWGx8rwl~NG+nBhEj6QhZt@hKq-w?!*kJ=
z@JL?ChuZFjDrD(2qCZd;h%(N#farKn-<TKqM38+Ok^(C@%PrU~Y)YNLXeA8MWvO#B
z9^0g_=#e6ra_?Khd!S8^@lLc$T78G;qc4Hw-vO(WVFlhYzcat@q8c0u`^BIX5<~cF
z#a|o#!cqk7Mv+3>jJ8i~f6HNfX}lBNQd<L_P3)-gkm!+mS$%~1p!3*isqbU;J}IQv
zby@2AQAfOZBnM9IsHJ8AHQhVUg^rCg-sCX`>|U`?uj#kc>_QFodVuCdua8;k2T@P0
z+r(X#(jl{S&{8^VmJV4;ccXNejV1MAx20wTH6!94z12}m%^uWHznk@t`cmUME;+=<
z@V6I#V~k!z>(6YPxX(g$^p~Ql^}#1a*gQqVaSP=*C?60fEG3UE55y0uAyb^3(9X}5
zk>k3IjipJJ#%2q0%sgdd#wj~~N{yt_X=$;TguGi^Dkf)^W@jNvLdw$OVnHrSVp1dl
zrThbJF}1f=ydcSWDVv<h7SanzC9@(as*qZOfbtV!)Pi^^nI^fb6H;4bskkKP>&_A)
zj#Gr&4glQbih$blYrIV7-n+aSo-PzWm&56sgDjQAld@cp8;&zgBOvLu5^WriaZ(nj
z>JZ3nlLmN|d(grK2TQJ9?0~a~X=>&dVoxTbjm-F{#SBO#(^+MuZ%2lV>Lc|1X9>{R
z{L8l;q_$_4GFhkvtofS0p)U|N9u|yabsVUk{8CPvTSfKM=2-Pn`NE~-oRkt3)lDxp
z`D)NI$4MwL<7o#d8qX)qFB`zPLw*_`$c&X|DD^CX;{XZ~BehAFlx@^Mu%R`o%%z}L
z4edC>^+=OMOP~BU%jEy^BOa~i2wI#dB?~gff90`HV9bI$P5ik4u5v#M>@t>SnugDK
zNMW$!Z~Gts^bBs^sIk0JN_Y*=tnDR^ZKt@crY&G=*|9(sYC|7g|Ljthty;EWR{9^}
zzpnm8e5jD}ah1Cp3f~Oe2yEE5V*AUn{iWc6lIwuBq^(_`H0weO5;wVvoX(cEgPtRL
z7H+y|WNXKXx#X0U_(O~}Lw%WOLhule!PYfRbJ|&bqpi$_)ygr-=rQEn72B%K$GyQT
z0#Ayb?UK<0sCcJ=7q`pL<Hgpm8rg|=h5BDx&N_<1_7&SuJ1pmikrE)H(D{gN4GeA#
zJXs!i^3K51C0B1HGFl3aeh{3#^=j$pbZOso$u+GVa}IW%@7#CN4mH(vr$uG$<vw6y
z6|r8PBQ9vU8M`xJa?09T8F*-(>Jdm!X38hcPGsG_)iqY`8Y>0IO0F@D>43S7HHxjw
zN@JE>Y&AAr$T!i&Pk=IY=qkSqeSD`*v1x>9PWt*z_0;KiZPOPpvj;%T=rddN);@Qd
zU20%;w0Y<2G3g9aCIB!B-e}3Ys}k<4L^`)32g;EHrO<)<oGs+3_`28ATm4U#`=2cN
zo~+t!ZVwxw>ADG}(~@nl2S~t;!NY9<H^vpXFxXhwi{|0HYBQAQD|U>5{Sq(p%L2xN
z_GZJQ@XPj{Yo@p_O>*27p-A=#dsc;_$4DD4hc|c`jt;aU%=?VG+Is~piu}ST=s4==
zkWRoJ3mu0>hhev@Iu!eAi^6|nlIND~0=F#09n&(+4orIY3DQtrf`W446b#>1vNvHt
z=Vvn)$C>z$zX(K`n3ZYtRZm9A<dtG7pO!THXo#x778iGF3!Vum`bza)N@X*e1XNUG
z*+XX{eMk*tlw?jf8Iy%s)rUMRv!p~eHam@Q0MMgZe_?Y4)#UBUaP!qu!&(3<%5{LN
z+~2z<?t0rx-aagzpLO)FFW>2iuX!up_Vr&Wdq*qbuDijut>DB5!3iMT?ccT4e{8e=
z*xK~ZLfz}fesJ_o=<)j;-+HtX>EGzz+I6Um|B*xQ^X15qs)O_QJn(R>JwW`-ozTPw
zq4T#t|D*Bpq4QNc=a1fN;X?i2@BOf|ryAx4o~cH-Q2WD2KbX{3rhvpvZkfm4I<@n;
z-$KKeO|5i3Gz413S3zN$)-gLZK1EaVmw~)<TYhuwG4~5QNW8lGYeZ*;0MphQ1qIuA
zM*kkss2lxI7E`h!t#t3yN3HIgb&aX+RI!*(l1g5;<7u(8cE^xt-0`cnd19yGp}q4G
zMAgdslXFsfA(ojn%z~KF+gK`gF>^`ETPz37TgBW}v~*7_$3$s1g;hQlBWF|XQ{CBA
z`&9E*v5#~gPfVFBEM>)5;gTeiz7#9YWfXFK>Fvh~#W~4pwlGViMn~V`%rg|Xs{yvP
zF+Q5JP4gO&55W+}7m;SA&7`k6wvUp&CejU%Q^?_RmHVdv=RR;Z*tLFktM@<||7)6$
z>Ped(MwyPXx_Lvsem}?;P{J0eA!^v}wu+h_V|tS02wW;kP=gI0=E~S{qyL7Y{|M}V
zg|^Hs6lSYgbuK9q?K{;qm%{qQc2GT3q^(A^Rb*aMOOt8y%%{%av95nj-_-i!t|>(_
z=?pRnQBB(~P->CD>jY!~=IWx=!XE92G*l^tdOnlMGvC(A?nidnK-(ainhIF$;zAK^
z@0v0SwUlPOj{uTddc^~2*SNcZw8|SYQ)ylG%+ogwk7!~*PI2?5w5_4l<Ze?MretO`
zi1mhN)&7Zmm>7&k<4l3xs_=<4ObpO)pf}zIHjsT!FIs>NEAL))$Zbu=#dOv2T)x@Z
zwHO?sy%u>FS|pc3!(+7Abo87SDo)S{HV{D8prLc^Y|6E(Myn~;?ivnSYkj!2Rg+3n
zo;`Im$Q|48teUMT?M+75yXyWnE{VQVKlAMkgpeh}W!1haU`|_Bo#4);;au^qdVjUa
z+^l*n9C{!<{L?F)rbQNmyV*FqC2=LpboGY9-g>3Cp|-20)HKwzo;`ECp{PAy$nSf&
zxSP(bm?9O6bdgfeQbaq&8cMr}(2h0i1_mc=taidSd>e!~(Buuf$ce24>Jj2znT&e1
zCAGMSdky&oWaKXp_!k6H1VjR}1abuC2^0b1zF+9Xlu5p+!AxFLN@Xdf!1J%RS<cF&
zUP$V<ezIDQ*ADh!iUbPNkC$ZafZg-Z0lPEeAAqXzt2i*Pa@B6Gr*AD-A#HPaIk<Zx
zvl-l9@%3!^2Ft#|($G_zzNcB`u5xhK#_rAFsHO6WP2Uk#`B*vl*sWum!K0SS<D0${
zta79r9NAde3?8&pKE3HXR`Ir7Pv4xsG5_1y54?jP20JRDfvwO;IW$t*bM&X7C-2s>
z$2LRHeCQ3YPj2<@EBEf(?47XCdS=u2EGf?6@AkdZ_w9iXyrUlmqZV3E|1@;WLhJZu
zNaJg~92_rAJi8e@ZXtGZ(|4-LU~D9Bzk2)h`~R{uG`;CNSLusw^&Kwv9j^G=E526P
zdlg?t#TTylA}rCj-Rkc5lw93Vuzmd{Z`{(z;Z5J;m0*9#)&I$gsYNi$&(XY*oYO6l
zUUH+zFjF!zY#DRIX4$3a%D#tI!=upuH^|C)0;DU$ir!Bzn|u(jm9B@bTXkzbzPI5{
zOD1QyOv){;-U@}R9H*p%-G{2q*=!+IJn*>cn$c4-`6pyDVO1fUfjg4v8-r9hL4d3|
zX3wiWSbD`wTDyssNljMmz?UDVlt2one3X#siU{p3!2vB#Qo%_o@G|GR{_*Fi_%s39
z@t?5M*(PV(op!psOyErd<bz>j#Z(@7FJ%c(hn1f~*Z3;;p|BqppM!f!Lf8869bu$$
z_~@U0>4#tX(aFD_{_%9_&`TvDa(!;SxN-9LPk--pd0>CJ<G>x^r4LV?FTL>MU*>+4
zED5oV(OZXZ+i%a8_di?Sd%Qe&;*M~k^32Ki=So7~`Wv@|Td$QzkCHb@ICa<2T5*J{
zHr_FKJq_#7F}Q8#S|SA6=$de_+JcmUvOc{2m2&sQqwww#sb(~MTx{f?*XbC9>!WJN
z`!3!NywOT$chyNL7l$%8r951BUzM<{KF$+dQ?5_0y>V^ez8@vl1_+^z*rk>?mTtXt
zd+63H-}{Qmq*g)wXeE?`>(a*Lt?<V4?-U5-Ad%84Oq8};kz46^qg35yR=4TZHpe;s
z)@Q05y>B0a-v)0TiIU)7Be!qk@b5qQy(g<6vXAiaGHLD8X*nF8(&6W;9Ns^<aGzc}
z3R2YoBh=|=M~@D@o2YU~zCU%JUOE<1)q{F-?bnOchEau-*`4-vv3b?-&Q&hQLFy!4
z#5-PklStug(s~#v9e$3w7x@Xe!prPlL~q*bh};c#R2_JuB-H-)o7di~Iw|MkqGMGz
zr950a*7=RkSG|<;acvz{Kcxa(xU(9hRETSjR$D36#`TU@!<33}9{*bLTKD~S<n(r_
zyqmFhz%jtu#oN*@<+OGwRcn`WTDz3e+NG4%E~T_~DHWl`*-ohr&J$QmUyI)FL{8^`
z%4d17a3AYTV~e(fW{t3Yp2j{mAH(?ACV^eMV_)VGM9^xU!)K*pN=y|~(=c@FLjf93
zldpk{OyK|Ek6o&~#Z?5CcHU6A%EQyCI%Wz>d9jWYVt}6QQSembgaRh!b;VIb&>(I|
zSrA3jS{u7_Z}zPgHP8Yo?3N!fMh?-zzMvGl%Wq2ANqC}b=X%lIq}<b_+}ora@d=`T
z=ek*+7(md7YdIJXsR47A5L1MURaf%$q>@f$C8Tg~s;4gLsen<NWP(f$7&vBL$JF!Q
z<f2@d(LZ*)z9h-Zs(nFPRvpmLme7VFyj6dS{6>&eY^BH~e$$OEUI-U%n?xWSa~Ayo
z0VX3Tlz*GR?-2MFf!`%?6F?z4nl`DK=}ufWUrx#5N=JR?$My1$=_4lq^uz$y)x(zG
zbllyzc&`9OZMh)j6<qad0-p^FTfy=>sBK)|U#Btx|A;^3Z2-ix1j27;uVwED-8-ft
z(K|x4Vuh_8H+ygN-Vyq$g45B18;Q49udR{{>cLR~Vy|6$jpR@djtU%DR0mnqgX1FH
zb#v^-7|Ej^92Z^jD&$ZPdguwh-FvO~K@d4@rxAyByNkR?^laPU==oaR{-S6aNx-US
zI|jKHmeY2K)7&AHVmoAwo8`rpw-A#kxkV@Y=MtTgXP!=mhDUVHI<X_1h>UQG6ct0O
z+Q}j`{E}Z{kuG{ZVAcc?aT5ZrhS!Q*8~(Ih7!*6iNG*B=@i=ZbNB_iOu^o{X9a8K3
za0462ik(f$yPA|oo0NAWil?VZoyKGDBWwE}SsUKDb~YmRTl$Qs5UCxJEQoJObRfP*
z(4txro#G(ACk43SK|LZ_645o>DJHsMR_~Ud0Lm#fnoi}RiBr5pG7BdhHc(P?tg3x^
z3Cek~(4;ybrWcc!3vyP!jBrt2PURQsE|Y1qlVfDtgH!!myfyOT8eBc!gyU+JGfe&~
zcFZDOCE0TJE4cZzk@HCJ$xbq0)t)pRUv;>KEYZKE7jWr7V9%<3-s+aqOGW#_6o>JV
z5mO6{Hoe&L0uA%KRr^ca5LXNt)x&W7BF5Hk<w?YKSFP1oxo<punR~<jDtDQW3+DBa
zpNtzCyNhyRX;B^r!MIm-z^O_Bmx!X2E+ay6fVrMUvNSR?@E3^V@awZcRK!BSpq9Un
z?^I81KIHFGfuAM>cS1Vx4Jr#9R}@L6pgk?b<vS>p|1|)P;pYiKppaL!WdSGbMMXQA
z8FhCOksb*3NhWIt@>R`<__z3OrQJM?DZT|^g^YDSCSLh9)c+hI2f@g-%h$fLuG|R@
ztqE0|%iaHx@8sVOPW+pRt-+_tgHNqZZTbd2?2Ui>+*a?Aa_^C~sc)RcN#}3f@(q-I
z0~@=_zM&6%r)~*bqo>NFr*JRi_HVi#BMmFE=KcADAg+k+b9Q(C-N7M7tJ2%IHuall
zt4@^tvqDa@-#U1Fl>6~$=LwtrFL)ksnpuphn*vW*)QS8o&@cleI^}05?ZYM9OeU#h
z3kX!gH5{(w;QC2k&g8|yW%)%y31$lyGe!8b3$sP?U2DD)az-I|gd%Q}T8L^AMlM2T
zC{Rd~kzRalJfw{=85uyrx>xilB`u1@tIf#|fWugo{~e`>QTY!D{Cfh#lzf}OMFKwr
zP^c+Qj54TA-5wNL<fuM%T9{}*%^fXygfjJ7qFGc2>qS$6t+r^vUaC(I`qI>pHX{T~
z3+bZqO`97Et$e!fd$jKVAwFozfc!^P`^N<S1c3FS)^n}nB;Fg>tgb(dgA*f!tJ~Ud
zH*QvO!3qWF(U&Z7TWSV0JVu*S1qt^~bom4=N%!VaXcmh#V?Hp$tr?reT?lThSg>4-
zHJ4do7`1Du3q%P28RpC~2ul=xl|QwlU{{}~Xgu6;vD-4Dwi7XvvqB!I^{f!5Dbvpy
z%M`~wCi+o2c5)hDGz>>$FX-X#vBJ!}lrC!DijtDXLB%>P)%7A)SgaA#1kX|G3m66O
z#wcI}FcsQ}k&7f&n60B?lF+Vp;qGAy<e$-8L&4#UEAL)5nnviMHhKDW75vAwxGA>k
zABFog?F3z;Z2NQ<&sYP~;KgLsyafGJ>p+Pu%F;f4{xKX(^^RroxQ??-#~0^tcX~ly
zlE&B~s4XtGKM~WP%^KrI(|{j3U`l2rjI9(~#5!TW1elX@CX-kUj6FSmb1ViKQ@}Y#
zKNzt5GJw_>TUxaAtc#TWjKHLZE?mkKmK037q`7*P@tCoCF|QdM0ktb#^zt(G2P*;X
zojU(S?DWg<izBkrB*=cGK$nu(5%i;lT8Fi0Q6)Aijb9uei(Po}!oD+S&c-d9=G@e|
zSV|O)B}QGy(Kr~Psz=RM=8DBd<><r&4)nRD8TvH@`w_uDm_oF~wO<ru6lF<LCJr7x
z{KTQ!{&<n8Qc8^$odD!dJj$kt?!alt>NgxZi5qYhCA-6{W6Em1(APW9*1OfE+HKy#
zYO9>B7f61rmz7$C5L@TXF`u`r@?K+=BO)LT4TZMhBM&{RL8tG>|Jb-6`!IxQ2`a>8
zDRXfS;xaW0-6aX{Dhbq;y*S0R(~&XyNaR<DS5p7*YXz5&nLY2?r>CdmJ&jf#Q*c&+
z$xJ+^>S+F1(ps2Dwsw;*f1Ap#5+I#LCh5rRJ(+Ap`S%E{5n#q4>6!AM6Zj7V&Jp+#
zfa=#(rL=@N$0VH6q{g!8dR7xYq<u3LoTqO5Il#}q%0Z3UGe-W=;vHcxjK976OTw;=
zLwAG;_$coPos~fAub+J&1mR>Fgo6}{(eP+x??h#HywX2h86B%cN4BEl<>+|jGoQWJ
z>4$5RJYRT&FnmT%N|8xfbyLa%cjx-ljrppVaz3uJXZ`Svg^j6l$7t10MFB3_yDq-t
zsRk(*Lay3MsWz^AU?cKQZ#7Ig%^gLl4sOq5x2C=~U!|sT1?~ylk0M2msYumEW&M<D
z<M!;WjP0)+eEeR!4?G6@st&wKhtrH*C*@p*A?&7{$EfpC&Sx0He#*hXk5+?}3URQk
zeK&mT#d2t<+Db)jTxaji?2YWkg>px{8m6KM*EjgxGw+<ab*S7sQ6(10k;W|O`<=+?
z{8D+Z+tGe|Zkxla+7W;kbZVQ!s~Y1S{@Y7``sNSc{1{G0zh-mOl-AkYbO%7s_BSxS
zHIJ4=R!&T`;b%bfQy{Xu9eB5p4=M_Dk!SX?6J=V;1<TkCEG?&5(oQ|+GqL<g1@ITd
zUkHD#_-n&&^1`svwJ#$gKRaUm<p+KT174WzybE@-7dEnQr{Bcjw|G03N1K#)H!1Id
z9pBrePUErfk+uDgtc~nk3)^|XVmk-n+Z<FwxYn&ZY^LR3Sf5tCujAyBQ_SjBeNgpl
zxzOti$vmW<7H=zNaw?U`btPVuu&ZsV_GlsRNlLpxYK9zd^QsdjhV%xamzX~-%+`|z
zu%<qRtq}fyv=!w41oHBKCh*q;enQ~C5csbI{)WJR17K0LB;y($?UZA-MYM6K%^#e7
ziOxRVycoBr+43KPvKpSth@zC&>{|t)?#cA)s+atY7+E<diK?)WgkE8~2^*CDU(&Sr
z@6^TrL7+sSSu4#=i>`<Ity>qD&~5pBB1$)w@@@h@28f3mC6_=|bc{5LC9>pTWHF8V
z6J%7wb>CkRH3F~E;C~+g4tm_aJ;n`=+>3YUG6Qd2W>89#8I&TKQT0-)L0(W%O<qt=
zlNXe#$qUM9@`6$|c|o~ut|PjB=tiR2L%CjRsE<<pTu*;>fKo9^?V{8maH~U<8phR4
zbvLC(xX5UA52Z%AHoDH~t5SE+G0364Na^P~mF<7D9O@tX?rZPB1xq5p#dY-DeC@_-
zRb39jSqoop_5YU~x@Q9u+B#t~$IN<m7GUPghfE&kHz0+Cep`SrX9P;Y&u7!T8(MrE
zFVp8%t+5>uqNa^uUc}3rK>H0^AATgDUwNbJFPFVTC1HrM5|63&)J$5YCbb*w7E<Q(
z7iH4N*sZuswvy~3;3h!3oT*UiF6PO?FM{#gE}U#>`bF0`Ggp-HEc;Ql%vSf2N8nj4
zj`5{pCaa8VS}#k>Of7qbS|t9}E=FlFn<`=h=9F=SNK5i;3enf(W>I6T`qF`M)0h}H
zOahIzOb$#<MI5BmUIJeuutwnP1eiX@W{9bcOxvVUY`8yAT~BGhg+3<#Pt?*JD&(%I
z+IgP;*v0X~|BE}n#hw2<&iD7+iI2GHzqN-x62?9fj(jAX__)Q-pXBdx1V4@meDod%
z@F4J}jgMSc9&q&jc-6u4?t2^o7w7P;O_n-GH--3B{y|HK@45cU0}ihTBd_qh|N7*5
z=SJ&0-48g*J-B4s!w+7+vhhN>bI+~L+pX`S0wvW8U~Tx;P!%+XZx7=KyZkU)1^*Y|
C0A$ku

literal 0
HcmV?d00001

diff --git a/attention/backends/__pycache__/registry.cpython-312.pyc b/attention/backends/__pycache__/registry.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a9af6f17dc425e40d74dec0324609a065db6d594
GIT binary patch
literal 9083
zcmb_iZ)_V!cAq7e6iJDqME$k=Co9X5O<SfMpHnBc<3!dUTmD1266M-Fq|AyllxQ!x
z%<fXMSUIOl4OB+2i0^QBb`S(-qgU9jTOdI{^jZ|?mwxLP32Jf5!a;q#7U+GGPr5eE
zr@lA4OHvXe9}ZoBv$Her&7U`K-uulP{&O%GAn+*SpJwKE67oy@a2~&%S&IsU+#}<J
zk_4dwbtytZfVW$5W!(w4fMud0W<3c{)|>G1Z;w)w^(A~f?^XQSKq4Rz=Fz-BTcgxw
z>k@SWaS`TY!KctVK8bo4IZLSTHlcndT;F4rR;Ewg)>oo|QwD&t7AW^t(pY)c@K<$D
zMVmUDA&Dl|%)+cC?b-o_td#~&!P`%0E3Ic?8e%QfRjeU|HZV79n-o}^MVa=}#@n7m
zJMS+H{WY<+(kOQD(q<@aVLPBdXLKF2u1H(4qt7r{&d8`aX+lojU^yyjY%-%8+U&1z
zV6li``ub%>ktY-uahbvRwabIa{&R!<7lvbJO)(|w29VTdav3A3sFRaSgU>dN>8di#
zlIq0u<iu?9{erCI<Sc`#hEj)Tto~Bijq})pBWnks<WFEZ8G%J42^SR-Zt7xU+O<H^
zu&B4|5}pNeQ%HEnNJKPuBsVuZm@8y2F+(m6V46~7U6<0TCRL-83{}c&>U4%OX@Y@3
zG>K^%5NDaL%acrxnj#KA<#NUeZ&(L{!(B5W`H^rB*2#dJ_1qEX$e(!#nG+nn86#c9
zu-BT9eMB1(h=FbJhYEA#y3hG4zn|JYUau{eIk~5H=9Y`Pt_Pjc@*9Li=3E2Bp>sxZ
z%WZ@lDk{zipAhPqbALiU6&(ud{m?Z-Zo03L86i?rJaU#9CGD7)l~5GYOvad!rkIjX
z7nIG?D!xK9DdXFqL_JmI{ch3KBc<#O#fO5^{1*JyjzMyP2(a>V<lP2BZV7Y3bxyJ|
z`LS?M5Xkq!BAF$B?Vb^y2%xDNN(q$I6+L1KSsfddq_5BR8rghrK9fIe$l4?`4&N*s
zfAftS$62qEndr^W8dGYncUn=hy|S|xdhNZS_d1&)nx8fOrzTmB-OOvJi*J0RzD1Ks
z=p$pWY%&==rKl-c(N9N9oM63(-U7*gk+0^-V)xsh&wSST;QdF_e=+^}%>U}BARo52
z3&maIxf?lkCMT7~<gCC6X@9YGe^k06D;X-OdEC3YBx~%16pQ#wk6y?#&8)2$hUvS&
zW(QHBHBd={by=33V49vxn%-$yDKOm>udA7y8Gu#`jMGLuraPtRT&8A?&0y98d4?t(
z`I!D>lJBi#QpdI>c;>Z6$Z5@x6kq+V<b?9jKY#>8vMT!g?a!LpzkhtGsr!Mk+|;vJ
z*Ynl0P}{GG7b;pi7I&WdS?V9vzf+f6V?S>lUuqp+ZvBIWvn#the{${PYfC86<?gqa
zcfY+5dlufc5{^DL9;a7{@Ot-3_p!xSUte_#jmOvA?xy-xFKKRHt#Jn-fwsTa(aHRA
zeVF{9uf6Y}J5po%l1Wr{5K{nTrqY6f`MPAuputy7GD+1GWZa<deAZ^r7D|dKN-_z0
zxf>^l`u>h38|+BKB#aepkbHHUd?ChG#ek>%zWzT1UN10NgDQ)1gPBB8<Foc-NH!bE
zgh<^94;2$$>Pgg4Z^B1w5`OAS1gJkzO9P2ITAK*cx<ow<CPK76(Lh6qM%s`F)5b&-
z4JVpuQ=)}7Ct7JsqK&pD+JScm-9y`02W@9N(<0pg-ewnlg?8K)6T6|TBkiI)A-{)8
zbT_<TncWrXG@Gm0S{XbqLF3FcnY$e|ErENHKyCA?W-z){<Mn7DfQl8LViE&RiL0!X
z(Io>)C`-!)#gHr$pO=lP9%-UrKphaIWbkWDQm4V5XDDSk-jHlaS^=CMn6ZMM$xYfW
zk7<rxABZ?zsuJvG-jAFzz>7J%(C+R4IJ!Jb8Q6&33DYAz&@4N_yTWnXn<WY@S)1iR
zgx3{MqSc8`zZNZR@~E@1qG|A0Q%R`EMTaoES(e4OwqZ83jG^W%?l{kHVL!DE`%Q3^
zus(Y9>X4P$!u{qp+?txoT3wGqZVT&n<IXB_)M5t%swMHW4|A6;_MNfNLb3m)J#*Hy
z%~@4;CMh1@rWr2!OfJndOZ3B-b^1TE4I_@X%*=<+`{xZ*%;CgK+OU@oo3mE0f_J-h
zLxxnrK&-<%@3-<5+}lmNG<wYNaaS-7yky9H+Q699^RlM168{+gbcFZLZ_|nlI$xF@
z=ufU<9B*vXLLOnN9=*(8TlDVOHk_F}yBQsZWDD1JOO;bm%`NmCjj3CBPjAy>T46UU
zxQF0#3;%YT%+MHf_BUf&SjV>Mx?+PBa+!37(Td%Qn`hiA-O}iG%9F|$tXBFjk8fr)
z8#B3-QlQMTe&|t6uf~jmmaC4a|A~9GGMc{b91GCr+0PsR#OozI?UWMYAm&@HIhWr3
za)b@&*Hs;RLyh}W&r=(weh5HRZ<%vdL*i7V9;aXG#j_js4hNH(;=iA@-ACCy@nZ=0
zPPVa^9513*_z>Fxq5l}=qSDI_1q;y`0`yj9B|Kd5Wvp<45?~SVNtWN_ZO9p&ZEB*7
z^-f5`Y02KC(f;wV_{b%6ui(Wf2l^`b(+O7TDH$!fx1!JHl!|Xj*@BLwC65XXOfYaK
z=xJG08rREJC1>k&T<qwP_Rp#XEowon=rzdqqcz(fF@@-_a3wSZ^${=Nv5_l-qoczE
zgJY%}9INT!pg=?6TaeYO>3Jn%MBJvRGbOFziP97iALyt~AQX<pOdq;sEH3WethfkM
zxYx$&OTeUOAekrYVbaj?(Fb=vxKAGpJUajI{Bo#wLHr`r!~ti={bN6Q^W!(~9|F+X
zePrdxvA^|y?tlD8izng;J+BBB_9X6L{R<yy=v--PyLa;YC-3VI`j!FlzQ5EISr}Le
zH7(R?`=GZC$0XEue&)nu(mi6>x(Vk@Qf-fHKKX%03bFu9j#4@bXesCKs)id{*<R&_
zvk3C|`GV^l0=NzAh}d!}SD_52txz=7<Nqg}jkq*Cduw>+d?IMC!HeT_TPOUe6I>|8
zJ>RGly#77p#PbViMKfvG|G;>3>*1|G|ITvg_@eLl))hqc<tvED9}l@@D>qGWeTv`d
zpJJ&SQYLL7SVuZjvJN|m<s1_MSoWnRLMt$<owAUz8M$(II;gd@o#D807{;c(4oRg<
zf*Czo#?i&SRpqjQM!^;^)BvZtI?~Ym!{TD7bJ5qyr4p;I*hhdI6dO|OsixL*5Xy7R
ztw3glh^u(IUtzK)$+=laK42XofKzE^dtlmd4&YcF0zMUIhiDA+0Vi#`^J;#}%<EIw
zxHEZH?5aBTjYK#D9pV=-_y6#PKdQe|f7iGl|5x8$KKY0chaMwPU2HXG^X%K3TYT59
zjzuI5LyX!hm`Ip(LShDnF7}O`OZLU%F|#&4IvgK~Ss%WuLnEV?21mzC|L92nC9AOB
z$_~c|N0Wf1%wWa$P@frykBs)8OO6d(hCFY0I5spmYSx$YoGoB?giX};kH=vMW4yx0
z39&fj<dS2T`$oqG?Kb!@IH~t?-$mdv#o^0?SIxTE2v!Zo;=>~`q#e9k@$HX~4h~u~
zXsa0Ucx-rRcyPd~@B!Yia$d`Cnc{@1D%xHY74B~B_b_<_lar7<A$$R>V|X`~VuIBA
z-$Qbnyl~Zce5+v+9uelxuY`Yp{=!P=()_uVh70q<D=qQ)*mK{dRX6d3A$kyQ29n0}
z^XH%YE@D{|mc=;VW#l_If9|<2hBeJl(|T2ykF5mH&JV5B_RSBhG>yz(Txl7HGHiQQ
z6#R#fbk{0)g<%0$gQ5AM7h<EQ`SHG00<WKSt>J5}JK%X^wcYF4d*4_i@LF$hdAh7=
z;bb7l>d!hcPfM+9Y%5|0xY6S7j;r4W{8jQU=b#k~zEYvQ5vi-3Pm4|v7I2R6-MTr!
zK)c4DI|O6aRJ;w=jAI~=yc-POC=V(_U==o{V{*U{Io1tqy~45prFl%iHf(*`WCdce
zNl$R(vw6Rur-o=P2DLDlYenstRx)bkX`hfrc*qQn^1M(&-yTK$gKo!;0z(i20^uC~
z$a<*}^gooPR0v$C5ZRo`K-dDHj$AO*!x$Naa)3K&P0e!S!kf3JvIW8oIPCz4%R&4A
z;_qPb%fm$Y6;pGpM^eF1X)}P{KwLTXu$s3#?BGoqWmX}eE@{LHa{y&dVmBd(kBH5d
zTWJ>WIKnC6uWG`K@{P=QmKChP$y)-uG}{j#PtEcpBJk!m0@G-;!Y_3Jc*WZUSQc4I
zaW=Hc8a)i>LSy!K9h|k*ziD7+tWd$W!y3qF5Vo-u#fn6gB(z09r5Y4MRcToR>e)cJ
zH#_S9Sx02{$o7`#tSM+6uw|_MSVDAA0^5c(!Efy%BzVIBC=YU*A2_Gr?Llb=mg^y=
z?=Igt+!1hR&LPTh#k50^kGL!R3i?0rI(#VOkhj9;RxsD}m-N2awOKsnD0hkI6XZwt
z1_9lb&V7&eJlwM=9r;Z7tn24T&nz81v-n#7;+}!;1@0bS^6gv+g%<+cd~JXPC<#7$
zFJy4;V??WmtTqM-*f`;4B|7n)QsnFel}{J<e)ISonupMWj@E9TeB8);hD!qx9WghT
zAQlvWb_J7bNQ*1+o^xPm*xZ5khfqC-bjKipDX*S(d76G`tP*(rRQwITz^MDei#5Af
z_8hRM{Y9u_(bw_3ws}!(wq_5^rN>!Kei61g!i(2naJwTyl$T$LfwhHb@2m&TMRiGA
z$N1gXneyFN#T6H2c~E{U`Z^<PIj|DCG&2R*Qck7d#tW^6(@c~frmDM%IE)q+1}<5r
z1+As*9;#tB>UwIcHe7o-;cH^x+VTf3%IqnFdb(q<1Q;{N;Cfb5lSvMOzW&r1l~h8*
z8pCh`MWbJJV@j6+yMgU2<SAHZ2~U?&N`-qqU;z7Gl}XCvz+%ZXT9QJ^)@v*a-irbS
z*t2v2LKt|S<y}PK8q#asfSNV7Sj`$ZNXQ1<3!r0uV(%`zrLr%ltRrXxzpO#J3`DNs
zilMmMnJF%yb){5M{g>DP?pN4dwV}nflS{QHpVfswirtB=x?GL#2<vV!Sic@14Q>C@
zcIa_@IdpW<chpicN3npL8yHmWwbPKi40QwMF0UYN9{$V;c;dE9N(yqYa1>q|!vrU-
zO+r#RTkB$|ed`1v^aOWie}m)_B=h8%uO5LjOeuH@X5<gxjP^YkSPDfJeGxvLSfr*J
zKDOZB6tu#7<0gaCTe$B%tia?E{B%?_ynVU2D%N<u^`L)^z-u+^^&GsfuLHh1XmKJv
z&am{@(jaRH^EYl$xLS9^<&nJ=i$5K(cO0W9cnGALs+P3Q^6zneeSyIbgaRd8f`^(3
z@Nb}C6s|YaEWnq{L<RyKv(}YtUMWn1{&Ek4AjUx{+i5N*jzz?(qC|6BA-fy+iOD~}
zPp^XnF|!DmxsG`J79poWTOHYH9aluWwlPB~RZ;M=1THM2@<d8Q-7~#lcfsOls8aU*
zBoAI%TS-F;VYcy-f{{`5s1+7S@(+H9Hzi&R`@;^!qI}?w4A=*R!QkFT!<%($a;Ti9
z58)#2EPe-Piuh?MD?bE^czexN$P6WuJRZS~C0v(k?_x`6@45bPL2S}4(|5`WU!B&b
zfey7q{~Qts{s_Xay+r8zC8_<A?E5#;{hy@kOLFoT?uIYLzF+v8?_OQ@@0s_mdxJvz
z1MyMtVQ`&5c3p}KLYEa(T0AoR8-ky!ITz`DZ9cFtu-N$O1AVda;8NY8WpV`k%v*iJ
z3-^AZWhL0T%HO?5KZ`#p^89m8aKTte-=z!6l4s|d2gug12w~yi-DB$nUh4;I1pobA
L|4rb<*Yf`W-?`X+

literal 0
HcmV?d00001

diff --git a/attention/backends/__pycache__/utils.cpython-312.pyc b/attention/backends/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9bf8e4b5b49f0b2c91ec52b536876fc0f1260204
GIT binary patch
literal 1266
zcmZuw&2JM&6o0e3UVp3;0=8-0NGNFzl_kI&kVqv|5j6r)5mO0}U@xPMXOe8ZAI|JJ
zB@m<>(o-*R3dbHn<`3xq&{O0?tW_&fwH&w^840PE_RV^2NW>i8`@Q$(&CGl6H@{C!
z6#$oK{Ng^)0sdCTcx6&B3=kXu0~;7&nn!%i)`-Hor~8I&B-rpWzG<5TG~g!BcF8E)
z&asT0=b8pLfSLQivR!Qy>88iq1(xFm%k#pT!3z6^ZS7dK;-fE?q~w8g!(eXJX|{O4
z<~q{#qPHroM&dkkq|@}AC_=+p2^sgk4}&##U72p+O6rB{>s-A34_7n2D^XZyvWC}D
z9RLTLU~Sqx;5s9ZvH<uR?JCB&j!2&%V}ddhWGb{nYS}oua%*YX^`k~?ZQ<3zp~4AT
zaj~`ii8Zs;qCwc^bb~vLGS`olM;!AMwkOeACeBeBI6kK|E>P-+tm7$Mq;#v}cxgm;
z0~w#9)Cq!6I;v$6r7vNqs{D7kF8y}B?Y1vSN33&s;bG^>w~MVSyzaTH_4bb32!r~z
z=lOMK-0*tZ@Ti`2{9=1Y<nX9OoI(&Sp!gYHpDsU@&%Wvzv;8xbo>A$at@ey+DrZXj
zw?%oJ6&La8+@sB8La`~h?1-S5as+n)VBbMaX80?L1K5R4)F;;yBFEDMIp!zq667Lu
z)5tE_G*9LM?%7l|oLJ~h_<!7u-r{kOvR-N3^u{|-(;Fg>zFH<xLLDM3B~+rAQlV@-
zy|G3me<;(klm5k7oB?)Pd^SfDXH|X`MWnvT+?=SOii?;;ea}&piNq|rzEoR&K(Pn?
z%KTB~(qZM&UgIC@%pc|1=ZzODzg_N?uk|Ynqe#E{%~5snu)6pWl;)30=MPKg-&<zU
z9DtcIlW{d_#W+hT3!6wYYx2i<BvgB2OEKl*XpF-6=o$Srp&BHnmD?P7V(Z7HWqRk<
z?Ys2m@`y$1^`fLiLXV`r+|?1azY||$K+z&<pcv?ckas4Kb8le&4J`Z#3xDOyPw)5g
r=l0Ck(=&V4zy!_upk+vT04Rn!nuElg$rJPW;{l+0@zZ;ylKcJ#TvshJ

literal 0
HcmV?d00001

diff --git a/attention/backends/abstract.py b/attention/backends/abstract.py
new file mode 100644
index 0000000..9275d70
--- /dev/null
+++ b/attention/backends/abstract.py
@@ -0,0 +1,391 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, ClassVar, Generic, Protocol, TypeVar, get_args
+
+import torch
+
+from vllm.model_executor.layers.linear import ColumnParallelLinear
+from vllm.model_executor.layers.quantization.utils.quant_utils import QuantKey
+
+if TYPE_CHECKING:
+    from vllm.config.cache import CacheDType
+    from vllm.platforms.interface import DeviceCapability
+    from vllm.v1.attention.backends.utils import KVCacheLayoutType
+
+
+class AttentionType:
+    """
+    Attention type.
+    Use string to be compatible with `torch.compile`.
+    """
+
+    DECODER = "decoder"
+    """Decoder attention between previous layer Q/K/V."""
+    ENCODER = "encoder"
+    """Encoder attention between previous layer Q/K/V for encoder-decoder."""
+    ENCODER_ONLY = "encoder_only"
+    """Encoder attention between previous layer Q/K/V."""
+    ENCODER_DECODER = "encoder_decoder"
+    """Attention between dec. Q and enc. K/V for encoder-decoder."""
+
+
+class MultipleOf:
+    base: int
+
+    def __init__(self, base: int):
+        self.base = base
+
+
+class AttentionBackend(ABC):
+    """Abstract class for attention backends."""
+
+    # For some attention backends, we allocate an output tensor before
+    # calling the custom op. When piecewise cudagraph is enabled, this
+    # makes sure the output tensor is allocated inside the cudagraph.
+    accept_output_buffer: bool = False
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(1)]
+    supported_kv_cache_dtypes: ClassVar[list["CacheDType"]] = ["auto"]
+
+    @staticmethod
+    @abstractmethod
+    def get_name() -> str:
+        raise NotImplementedError
+
+    @staticmethod
+    @abstractmethod
+    def get_impl_cls() -> type["AttentionImpl"]:
+        raise NotImplementedError
+
+    @staticmethod
+    @abstractmethod
+    def get_builder_cls():  # -> Type["AttentionMetadataBuilder"]:
+        raise NotImplementedError
+
+    @staticmethod
+    @abstractmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        raise NotImplementedError
+
+    @staticmethod
+    def get_kv_cache_stride_order() -> tuple[int, ...]:
+        raise NotImplementedError
+
+    @classmethod
+    def full_cls_name(cls) -> tuple[str, str]:
+        return (cls.__module__, cls.__qualname__)
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return []
+
+    @classmethod
+    def supports_head_size(cls, head_size: int) -> bool:
+        supported_head_sizes = cls.get_supported_head_sizes()
+        return (not supported_head_sizes) or head_size in supported_head_sizes
+
+    @classmethod
+    def supports_dtype(cls, dtype: torch.dtype) -> bool:
+        return dtype in cls.supported_dtypes
+
+    @classmethod
+    def supports_kv_cache_dtype(cls, kv_cache_dtype: "CacheDType | None") -> bool:
+        if kv_cache_dtype is None:
+            return True
+        return (not cls.supported_kv_cache_dtypes) or (
+            kv_cache_dtype in cls.supported_kv_cache_dtypes
+        )
+
+    @classmethod
+    def supports_block_size(cls, block_size: int | None) -> bool:
+        from vllm.config.cache import BlockSize
+
+        if block_size is None:
+            return True
+
+        valid_sizes = get_args(BlockSize)
+        if block_size not in valid_sizes:
+            return False
+
+        if not cls.supported_kernel_block_sizes:
+            return True
+
+        for supported_size in cls.supported_kernel_block_sizes:
+            is_multiple_of = (
+                isinstance(supported_size, MultipleOf)
+                and block_size % supported_size.base == 0
+            )
+            is_int_equal = (
+                isinstance(supported_size, int) and block_size == supported_size
+            )
+            if is_multiple_of or is_int_equal:
+                return True
+        return False
+
+    @classmethod
+    def is_mla(cls) -> bool:
+        return False
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        return False
+
+    @classmethod
+    def is_sparse(cls) -> bool:
+        return False
+
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """Check if backend supports a given attention type.
+
+        By default, only supports decoder attention.
+        Backends should override this to support other attention types.
+        """
+        from vllm.attention import AttentionType
+
+        return attn_type == AttentionType.DECODER
+
+    @classmethod
+    def supports_compute_capability(cls, capability: "DeviceCapability") -> bool:
+        return True
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: "DeviceCapability",
+    ) -> str | None:
+        return None
+
+    @classmethod
+    def validate_configuration(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: "DeviceCapability",
+        attn_type: str,
+    ) -> list[str]:
+        invalid_reasons = []
+        if not cls.supports_head_size(head_size):
+            invalid_reasons.append("head_size not supported")
+        if not cls.supports_dtype(dtype):
+            invalid_reasons.append("dtype not supported")
+        if not cls.supports_kv_cache_dtype(kv_cache_dtype):
+            invalid_reasons.append("kv_cache_dtype not supported")
+        if not cls.supports_block_size(block_size):
+            invalid_reasons.append("block_size not supported")
+        if use_mla != cls.is_mla():
+            if use_mla:
+                invalid_reasons.append("MLA not supported")
+            else:
+                invalid_reasons.append("non-MLA not supported")
+        if has_sink and not cls.supports_sink():
+            invalid_reasons.append("sink setting not supported")
+        if use_sparse != cls.is_sparse():
+            if use_sparse:
+                invalid_reasons.append("sparse not supported")
+            else:
+                invalid_reasons.append("non-sparse not supported")
+        if not cls.supports_compute_capability(device_capability):
+            invalid_reasons.append("compute capability not supported")
+        if not cls.supports_attn_type(attn_type):
+            invalid_reasons.append(f"attention type {attn_type} not supported")
+        combination_reason = cls.supports_combination(
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            use_mla,
+            has_sink,
+            use_sparse,
+            device_capability,
+        )
+        if combination_reason is not None:
+            invalid_reasons.append(combination_reason)
+        return invalid_reasons
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> "KVCacheLayoutType | None":
+        return None
+
+
+class AttentionMetadata:
+    pass
+
+
+T = TypeVar("T", bound=AttentionMetadata)
+
+
+class AttentionLayer(Protocol):
+    _q_scale: torch.Tensor
+    _k_scale: torch.Tensor
+    _v_scale: torch.Tensor
+    _q_scale_float: float
+    _k_scale_float: float
+    _v_scale_float: float
+    _prob_scale: torch.Tensor
+
+    def forward(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: AttentionMetadata,
+    ) -> torch.Tensor: ...
+
+
+class AttentionImpl(ABC, Generic[T]):
+    # Whether the attention impl can return the softmax lse for decode.
+    # Some features like decode context parallelism require the softmax lse.
+    can_return_lse_for_decode: bool = False
+
+    # some attention backends might not always want to return lse
+    # even if they can return lse (for efficiency reasons)
+    need_to_return_lse_for_decode: bool = False
+
+    dcp_world_size: int
+    dcp_rank: int
+
+    def __new__(cls, *args, **kwargs):
+        # use __new__ so that all subclasses will call this
+        self = super().__new__(cls)
+        try:
+            from vllm.distributed.parallel_state import get_dcp_group
+
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+        self.need_to_return_lse_for_decode = (
+            self.dcp_world_size > 1 and self.can_return_lse_for_decode
+        )
+        return self
+
+    @abstractmethod
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int | None = None,
+        alibi_slopes: list[float] | None = None,
+        sliding_window: int | None = None,
+        kv_cache_dtype: str = "auto",
+        logits_soft_cap: float | None = None,
+        attn_type: str = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def forward(
+        self,
+        layer: AttentionLayer,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: T,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def fused_output_quant_supported(self, quant_key: QuantKey):
+        """
+        Does this attention implementation support fused output quantization.
+        This is used by the AttnFusionPass to only fuse output quantization
+        onto implementations that support it.
+
+        :param quant_key: QuantKey object that describes the quantization op
+        :return: is fusion supported for this type of quantization
+        """
+        return False
+
+    def supports_quant_query_input(self) -> bool:
+        """
+        Check if this attention implementation supports pre-quantized query input.
+
+        When True, the attention layer will quantize queries before passing them
+        to this backend, allowing torch.compile to fuse the quantization with
+        previous operations. This is typically supported when using FP8 KV cache
+        with compatible attention kernels (e.g., TRT-LLM).
+        TODO add support to more backends:
+        https://github.com/vllm-project/vllm/issues/25584
+
+        Returns:
+            bool: True if the implementation can accept pre-quantized queries.
+        """
+        return False
+
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        pass
+
+
+class MLAAttentionImpl(AttentionImpl[T], Generic[T]):
+    @abstractmethod
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        qk_head_dim: int,
+        v_head_dim: int,
+        kv_b_proj: ColumnParallelLinear,
+        indexer: object | None = None,
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def forward(
+        self,
+        layer: AttentionLayer,
+        hidden_states_or_cq: torch.Tensor,
+        kv_c_normed: torch.Tensor,
+        k_pe: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: T,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+
+def is_quantized_kv_cache(kv_cache_dtype: str) -> bool:
+    return kv_cache_dtype != "auto"
diff --git a/attention/backends/registry.py b/attention/backends/registry.py
new file mode 100644
index 0000000..f07a605
--- /dev/null
+++ b/attention/backends/registry.py
@@ -0,0 +1,195 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention backend registry"""
+
+import enum
+from collections.abc import Callable
+from typing import TYPE_CHECKING, cast
+
+from vllm.logger import init_logger
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+logger = init_logger(__name__)
+
+
+class _AttentionBackendEnumMeta(enum.EnumMeta):
+    """Metaclass for AttentionBackendEnum to provide better error messages."""
+
+    def __getitem__(cls, name: str):
+        """Get backend by name with helpful error messages."""
+        try:
+            return super().__getitem__(name)
+        except KeyError:
+            members = cast("dict[str, AttentionBackendEnum]", cls.__members__).values()
+            valid_backends = ", ".join(m.name for m in members)
+            raise ValueError(
+                f"Unknown attention backend: '{name}'. "
+                f"Valid options are: {valid_backends}"
+            ) from None
+
+
+class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
+    """Enumeration of all supported attention backends.
+
+    The enum value is the default class path, but this can be overridden
+    at runtime using register_backend().
+
+    To get the actual backend class (respecting overrides), use:
+        backend.get_class()
+    """
+
+    FLASH_ATTN = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"
+    TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"
+    XFORMERS = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"
+    ROCM_ATTN = "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
+    ROCM_AITER_MLA = "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"
+    ROCM_AITER_FA = (
+        "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
+    )
+    TORCH_SDPA = ""  # this tag is only used for ViT
+    FLASHINFER = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"
+    FLASHINFER_MLA = (
+        "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend"
+    )
+    TRITON_MLA = "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
+    CUTLASS_MLA = "vllm.v1.attention.backends.mla.cutlass_mla.CutlassMLABackend"
+    FLASHMLA = "vllm.v1.attention.backends.mla.flashmla.FlashMLABackend"
+    FLASHMLA_SPARSE = (
+        "vllm.v1.attention.backends.mla.flashmla_sparse.FlashMLASparseBackend"
+    )
+    FLASH_ATTN_MLA = "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend"
+    PALLAS = "vllm.v1.attention.backends.pallas.PallasAttentionBackend"
+    IPEX = "vllm.v1.attention.backends.ipex.IpexAttentionBackend"
+    NO_ATTENTION = "vllm.v1.attention.backends.no_attention.NoAttentionBackend"
+    FLEX_ATTENTION = "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
+    TREE_ATTN = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"
+    ROCM_AITER_UNIFIED_ATTN = (
+        "vllm.v1.attention.backends.rocm_aiter_unified_attn."
+        "RocmAiterUnifiedAttentionBackend"
+    )
+    CPU_ATTN = "vllm.v1.attention.backends.cpu_attn.CPUAttentionBackend"
+    # Placeholder for third-party/custom backends - must be registered before use
+    CUSTOM = ""
+
+    def get_path(self, include_classname: bool = True) -> str:
+        """Get the class path for this backend (respects overrides).
+
+        Returns:
+            The fully qualified class path string
+
+        Raises:
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        path = _OVERRIDES.get(self, self.value)
+        if not path:
+            raise ValueError(
+                f"Backend {self.name} must be registered before use. "
+                f"Use register_backend(Backend.{self.name}, 'your.module.YourClass')"
+            )
+        if not include_classname:
+            path = path.rsplit(".", 1)[0]
+        return path
+
+    def get_class(self) -> "type[AttentionBackend]":
+        """Get the backend class (respects overrides).
+
+        Returns:
+            The backend class
+
+        Raises:
+            ImportError: If the backend class cannot be imported
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        return resolve_obj_by_qualname(self.get_path())
+
+    def is_overridden(self) -> bool:
+        """Check if this backend has been overridden.
+
+        Returns:
+            True if the backend has a registered override
+        """
+        return self in _OVERRIDES
+
+    def clear_override(self) -> None:
+        """Clear any override for this backend, reverting to the default."""
+        _OVERRIDES.pop(self, None)
+
+
+_OVERRIDES: dict[AttentionBackendEnum, str] = {}
+
+
+def register_backend(
+    backend: AttentionBackendEnum, class_path: str | None = None
+) -> Callable[[type], type]:
+    """Register or override a backend implementation.
+
+    Args:
+        backend: The AttentionBackendEnum member to register
+        class_path: Optional class path. If not provided and used as
+            decorator, will be auto-generated from the class.
+
+    Returns:
+        Decorator function if class_path is None, otherwise a no-op
+
+    Examples:
+        # Override an existing backend
+        @register_backend(AttentionBackendEnum.FLASH_ATTN)
+        class MyCustomFlashAttn:
+            ...
+
+        # Register a custom third-party backend
+        @register_backend(AttentionBackendEnum.CUSTOM)
+        class MyCustomBackend:
+            ...
+
+        # Direct registration
+        register_backend(
+            AttentionBackendEnum.CUSTOM,
+            "my.module.MyCustomBackend"
+        )
+    """
+
+    def decorator(cls: type) -> type:
+        _OVERRIDES[backend] = f"{cls.__module__}.{cls.__qualname__}"
+        return cls
+
+    if class_path is not None:
+        _OVERRIDES[backend] = class_path
+        return lambda x: x
+
+    return decorator
+
+
+# Backwards compatibility alias for plugins
+class _BackendMeta(type):
+    """Metaclass to provide deprecation warnings when accessing _Backend."""
+
+    def __getattribute__(cls, name: str):
+        if name not in ("__class__", "__mro__", "__name__"):
+            logger.warning(
+                "_Backend has been renamed to AttentionBackendEnum. "
+                "Please update your code to use AttentionBackendEnum instead. "
+                "_Backend will be removed in a future release."
+            )
+        return getattr(AttentionBackendEnum, name)
+
+    def __getitem__(cls, name: str):
+        logger.warning(
+            "_Backend has been renamed to AttentionBackendEnum. "
+            "Please update your code to use AttentionBackendEnum instead. "
+            "_Backend will be removed in a future release."
+        )
+        return AttentionBackendEnum[name]
+
+
+class _Backend(metaclass=_BackendMeta):
+    """Deprecated: Use AttentionBackendEnum instead.
+
+    This class is provided for backwards compatibility with plugins
+    and will be removed in a future release.
+    """
+
+    pass
diff --git a/attention/backends/utils.py b/attention/backends/utils.py
new file mode 100644
index 0000000..4c7fa47
--- /dev/null
+++ b/attention/backends/utils.py
@@ -0,0 +1,33 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention backend utils"""
+
+from dataclasses import dataclass
+
+from vllm.config import ModelConfig
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+PAD_SLOT_ID = -1
+
+
+@dataclass
+class MLADims:
+    q_lora_rank: int | None
+    kv_lora_rank: int
+    qk_nope_head_dim: int
+    qk_rope_head_dim: int
+    v_head_dim: int
+
+
+def get_mla_dims(model_config: ModelConfig) -> MLADims:
+    hf_text_config = model_config.hf_text_config
+
+    return MLADims(
+        q_lora_rank=getattr(hf_text_config, "q_lora_rank", None),
+        kv_lora_rank=hf_text_config.kv_lora_rank,
+        qk_nope_head_dim=hf_text_config.qk_nope_head_dim,
+        qk_rope_head_dim=hf_text_config.qk_rope_head_dim,
+        v_head_dim=hf_text_config.v_head_dim,
+    )
diff --git a/attention/layer.py b/attention/layer.py
new file mode 100644
index 0000000..85224c0
--- /dev/null
+++ b/attention/layer.py
@@ -0,0 +1,1051 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer."""
+
+from collections.abc import Callable
+from typing import cast
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+import vllm.envs as envs
+from vllm.attention import AttentionType
+from vllm.attention.backends.abstract import AttentionBackend, MLAAttentionImpl
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.selector import get_attn_backend
+from vllm.attention.utils.kv_sharing_utils import validate_kv_sharing_target
+from vllm.attention.utils.kv_transfer_utils import maybe_transfer_kv_layer
+from vllm.config import CacheConfig, get_current_vllm_config
+from vllm.config.multimodal import MultiModalConfig
+from vllm.config.vllm import VllmConfig
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.models.vision import get_vit_attn_backend
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import (
+    direct_register_custom_op,
+    kv_cache_dtype_str_to_dtype,
+)
+from vllm.v1.kv_cache_interface import (
+    FullAttentionSpec,
+    KVCacheSpec,
+    MLAAttentionSpec,
+    SlidingWindowSpec,
+)
+from ixformer.core import config
+_USE_TORCH_OPS = config.IXFORMER_USE_TORCH_OPS
+
+if current_platform.is_rocm():
+    from vllm.platforms.rocm import on_gfx9
+else:
+    on_gfx9 = lambda *args, **kwargs: False
+
+
+FP8_DTYPE = current_platform.fp8_dtype()
+logger = init_logger(__name__)
+USE_XFORMERS_OPS = None
+
+
+def check_xformers_availability():
+    global USE_XFORMERS_OPS
+    if USE_XFORMERS_OPS is not None:
+        return USE_XFORMERS_OPS
+
+    if current_platform.is_cuda() and current_platform.has_device_capability(100):
+        # Xformers FA is not compatible with B200
+        USE_XFORMERS_OPS = False
+    else:
+        try:
+            from importlib.util import find_spec
+
+            find_spec("xformers.ops")
+            USE_XFORMERS_OPS = True
+        except ImportError:
+            USE_XFORMERS_OPS = False
+
+    # the warning only needs to be shown once
+    if not USE_XFORMERS_OPS:
+        logger.warning("Xformers is not available, falling back.")
+
+    return USE_XFORMERS_OPS
+
+import ixformer.contrib.vllm_flash_attn as ops
+
+def check_upstream_fa_availability(dtype: torch.dtype):
+    if (
+        dtype in (torch.float16, torch.bfloat16)
+        and current_platform.is_cuda()
+        and current_platform.has_device_capability(80)
+    ):
+        from transformers.utils import is_flash_attn_2_available
+
+        return is_flash_attn_2_available()
+    if current_platform.is_rocm():
+        from importlib.util import find_spec
+
+        return find_spec("flash_attn") is not None
+    return False
+
+
+def maybe_get_vit_flash_attn_backend(
+    attn_backend: AttentionBackendEnum,
+    use_upstream_fa: bool,
+    attn_backend_override: AttentionBackendEnum | None = None,
+) -> tuple[AttentionBackendEnum, Callable | None]:
+    if current_platform.is_rocm():
+        if envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9():
+            attn_backend = AttentionBackendEnum.ROCM_AITER_FA
+
+        elif (
+            check_upstream_fa_availability(torch.get_default_dtype())
+            and on_gfx9()
+            and attn_backend_override is None
+        ):
+            attn_backend = AttentionBackendEnum.FLASH_ATTN
+            use_upstream_fa = True
+        else:
+            return AttentionBackendEnum.TORCH_SDPA, None
+
+    elif current_platform.is_cuda():
+        if (
+            attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            attn_backend = AttentionBackendEnum.FLASH_ATTN
+            use_upstream_fa = True
+    elif current_platform.is_xpu():
+        assert attn_backend == AttentionBackendEnum.FLASH_ATTN, (
+            "XPU platform only supports FLASH_ATTN as vision attention backend."
+        )
+        use_upstream_fa = False
+    else:
+        return AttentionBackendEnum.TORCH_SDPA, None
+
+    if attn_backend in {
+        AttentionBackendEnum.FLASH_ATTN,
+        AttentionBackendEnum.ROCM_AITER_FA,
+    }:
+        if attn_backend == AttentionBackendEnum.ROCM_AITER_FA:
+            from aiter import flash_attn_varlen_func
+        else:
+            if use_upstream_fa:
+                from flash_attn import flash_attn_varlen_func
+            else:
+                from vllm.attention.utils.fa_utils import flash_attn_varlen_func
+    else:
+        flash_attn_varlen_func = None
+
+    return attn_backend, flash_attn_varlen_func
+
+
+def _init_kv_cache_quant(
+    layer: nn.Module,
+    quant_config: QuantizationConfig | None,
+    prefix: str,
+    kv_cache_dtype: str,
+    calculate_kv_scales: bool,
+) -> None:
+    """Initializes KV cache scaling factors and quantization method.
+
+    This helper function sets up the KV cache quantization attributes that are
+    shared between Attention and MLAAttention layers. It initializes scale
+    tensors for query, key, value, and probability, and configures the
+    quantization method if applicable.
+
+    Args:
+        layer: The attention layer instance to initialize.
+        quant_config: Optional quantization configuration.
+        prefix: Layer name prefix for quantization method lookup.
+        kv_cache_dtype: The KV cache data type string.
+        calculate_kv_scales: Whether to calculate KV scales dynamically.
+    """
+    # The default k/v_scale is set to 1.0. This is ignored
+    # when kv-cache is not fp8, and should be used with
+    # kv-cache in fp8_e5m2. For kv-cache in fp8_e4m3, we
+    # expect the pre-quantized k/v_scale to be loaded along
+    # with the model weights.
+    layer.kv_cache_dtype = kv_cache_dtype
+    layer.calculate_kv_scales = calculate_kv_scales
+    layer._k_scale = torch.tensor(1.0, dtype=torch.float32)
+    layer._v_scale = torch.tensor(1.0, dtype=torch.float32)
+    layer._q_scale = torch.tensor(1.0, dtype=torch.float32)
+    layer._prob_scale = torch.tensor(1.0, dtype=torch.float32)
+
+    # We also keep q/k/v_scale on host (cpu) memory for attention
+    # backends that require the scales to be on host instead of on device.
+    # e.g. Flashinfer
+    layer._q_scale_float = 1.0
+    layer._k_scale_float = 1.0
+    layer._v_scale_float = 1.0
+
+    # The output scale on host memory. This should be the input scale of
+    # the quant op after this attention layer.
+    layer._o_scale_float = None
+
+    quant_method = (
+        quant_config.get_quant_method(layer, prefix=prefix) if quant_config else None
+    )
+    if quant_method is not None and not isinstance(
+        quant_method, UnquantizedLinearMethod
+    ):
+        assert isinstance(quant_method, BaseKVCacheMethod)
+        # TODO (mgoin): kv cache dtype should be specified in the FP8
+        # checkpoint config and become the "auto" behavior
+        if kv_cache_dtype == "fp8_e5m2":
+            raise ValueError("fp8_e5m2 kv-cache is not supported with fp8 checkpoints.")
+        # If quantization is enabled, we make "k_scale" and "v_scale"
+        # parameters so that it can be loaded from the model checkpoint.
+        # The k/v_scale will then be converted back to native float32
+        # values after weight loading.
+        layer.quant_method = quant_method
+        layer.quant_method.create_weights(layer)
+
+
+class Attention(nn.Module, AttentionLayerBase):
+    """Attention layer.
+
+    This class takes query, key, and value tensors as input. The input tensors
+    can either contain prompt tokens or generation tokens.
+    The class does the following:
+
+    1. Store the input key and value tensors in the KV cache.
+    2. Perform (multi-head/multi-query/grouped-query) attention.
+    3. Return the output tensor.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int | None = None,
+        alibi_slopes: list[float] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        logits_soft_cap: float | None = None,
+        per_layer_sliding_window: int | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+        attn_backend: type[AttentionBackend] | None = None,
+        **extra_impl_args,
+    ) -> None:
+        """
+        The KV cache is stored inside this class and is accessed via
+        `self.kv_cache`.
+        """
+        super().__init__()
+        if per_layer_sliding_window is not None:
+            # per-layer sliding window
+            sliding_window = per_layer_sliding_window
+        elif cache_config is not None:
+            # model-level sliding window
+            sliding_window = cache_config.sliding_window
+        else:
+            sliding_window = None
+
+        vllm_config = get_current_vllm_config()
+        if cache_config is not None:
+            kv_cache_dtype = cache_config.cache_dtype
+            block_size = cache_config.block_size
+            calculate_kv_scales = cache_config.calculate_kv_scales
+        else:
+            kv_cache_dtype = "auto"
+            block_size = 16
+            calculate_kv_scales = False
+        self.kv_cache_torch_dtype = kv_cache_dtype_str_to_dtype(
+            kv_cache_dtype, vllm_config.model_config
+        )
+        if num_kv_heads is None:
+            num_kv_heads = num_heads
+        assert num_heads % num_kv_heads == 0, (
+            f"num_heads ({num_heads}) is not divisible by num_kv_heads ({num_kv_heads})"
+        )
+
+        # Initialize KV cache quantization attributes
+        _init_kv_cache_quant(
+            self, quant_config, prefix, kv_cache_dtype, calculate_kv_scales
+        )
+
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.num_kv_heads = num_kv_heads
+        self.sliding_window = sliding_window
+        self.has_sink = extra_impl_args.get("sinks") is not None
+
+        # During model initialization, the default dtype is set as the model
+        # weight and activation dtype.
+        dtype = torch.get_default_dtype()
+        if attn_backend is None:
+            self.attn_backend = get_attn_backend(
+                head_size,
+                dtype,
+                kv_cache_dtype,
+                block_size,
+                use_mla=False,
+                has_sink=self.has_sink,
+                attn_type=attn_type,
+            )
+        else:
+            self.attn_backend = attn_backend
+
+        impl_cls = self.attn_backend.get_impl_cls()
+        self.impl = impl_cls(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **extra_impl_args,
+        )
+        self.backend = AttentionBackendEnum[self.attn_backend.get_name()]
+        self.dtype = dtype
+
+        # For cuda-alike (CUDA and ROCM) and cpu platforms, we control how
+        # torch.compile works by registering the attention as one giant
+        # opaque custom op. For other platforms, we directly call them
+        # and let torch.compile handle them.
+        if _USE_TORCH_OPS:
+            self.use_direct_call = False
+        else:
+            self.use_direct_call = True
+        
+        self.use_output = self.attn_backend.accept_output_buffer
+        compilation_config = vllm_config.compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+        self.layer_name = prefix
+        self.attn_type = attn_type
+
+        if kv_sharing_target_layer_name is not None:
+            validate_kv_sharing_target(
+                prefix,
+                kv_sharing_target_layer_name,
+                compilation_config.static_forward_context,
+            )
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        # use a placeholder kv cache tensor during init, which will be replaced
+        # by bind_kv_cache
+        # this variable will not be accessed if use_direct_call is True
+        self.kv_cache = [
+            torch.tensor([])
+            for _ in range(vllm_config.parallel_config.pipeline_parallel_size)
+        ]
+
+        # Initialize q/k/v range constants.
+        self.q_range = torch.tensor(envs.Q_SCALE_CONSTANT, dtype=torch.float32)
+        self.k_range = torch.tensor(envs.K_SCALE_CONSTANT, dtype=torch.float32)
+        self.v_range = torch.tensor(envs.V_SCALE_CONSTANT, dtype=torch.float32)
+
+        # for attn backends supporting query quantization
+        self.query_quant = None
+        if (
+            self.kv_cache_dtype.startswith("fp8")
+            and self.impl.supports_quant_query_input()
+        ):
+            self.query_quant = QuantFP8(static=True, group_shape=GroupShape.PER_TENSOR)
+
+    def forward(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        # For some alternate attention backends like MLA the attention output
+        # shape does not match the query shape, so we optionally let the model
+        # definition specify the output tensor shape.
+        output_shape: torch.Size | None = None,
+    ) -> torch.Tensor:
+        """
+        The KV cache is stored inside this class and is accessed via
+        `self.kv_cache`.
+
+        Attention metadata (`attn_metadata`) is set using a context manager in
+        the model runner's `execute_model` method. It is accessed via forward
+        context using
+        `vllm.forward_context.get_forward_context().attn_metadata`.
+        """
+        if self.calculate_kv_scales:
+            torch.ops.vllm.maybe_calc_kv_scales(query, key, value, self.layer_name)
+        output_dtype = query.dtype
+        if self.query_quant is not None:
+            # quantizing with a simple torch operation enables
+            # torch.compile to fuse this into previous ops
+            # which reduces overheads during decoding.
+            # Otherwise queries are quantized using custom ops
+            # which causes decoding overheads
+            assert self.kv_cache_dtype in {"fp8", "fp8_e4m3"}
+
+            # check if query quantization is supported
+            if self.impl.supports_quant_query_input():
+                query, _ = self.query_quant(query, self._q_scale)
+
+        if self.use_output:
+            output_shape = output_shape if output_shape is not None else query.shape
+            output = torch.empty(output_shape, dtype=output_dtype, device=query.device)
+            hidden_size = output_shape[-1]
+            # Reshape the query, key, and value tensors.
+            # NOTE(woosuk): We do this outside the custom op to minimize the
+            # CPU overheads from the non-CUDA-graph regions.
+            query = query.view(-1, self.num_heads, self.head_size)
+            output = output.view(-1, self.num_heads, self.head_size)
+            if key is not None:
+                key = key.view(-1, self.num_kv_heads, self.head_size)
+            if value is not None:
+                value = value.view(-1, self.num_kv_heads, self.head_size)
+            if self.use_direct_call:
+                def fun(layer_name: str, output: torch.Tensor):
+                    forward_context: ForwardContext = get_forward_context()
+                    attn_metadata = forward_context.attn_metadata
+                    if isinstance(attn_metadata, dict):
+                        attn_metadata = attn_metadata[self.layer_name]
+                    self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+                    output = self.impl.forward(
+                        self, query, key, value, self_kv_cache, attn_metadata, output=output
+                    )
+                    return output
+                
+                if envs.VLLM_SUPPORT_IXSERVER:
+                    return maybe_transfer_kv_layer(fun)(self.layer_name, output)
+                else:
+                    return fun(self.layer_name, output)
+            else:
+                torch.ops.vllm.unified_attention_with_output(
+                    query, key, value, output, self.layer_name
+                )
+                return output.view(-1, self.num_heads * self.head_size)
+        else:
+            if self.use_direct_call:
+                def fun(layer_name: str):
+                    forward_context = get_forward_context()
+                    attn_metadata = forward_context.attn_metadata
+                    if isinstance(attn_metadata, dict):
+                        attn_metadata = attn_metadata[self.layer_name]
+                    self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+                    return self.impl.forward(
+                        self, query, key, value, self_kv_cache, attn_metadata
+                    )
+                    
+                if envs.VLLM_SUPPORT_IXSERVER:
+                    return maybe_transfer_kv_layer(fun)(self.layer_name)
+                else:
+                    return fun(self.layer_name)
+            else:
+                return torch.ops.vllm.unified_attention(
+                    query, key, value, self.layer_name
+                )
+
+    def calc_kv_scales(self, query, key, value):
+        self._q_scale.copy_(torch.abs(query).max() / self.q_range)
+        self._k_scale.copy_(torch.abs(key).max() / self.k_range)
+        self._v_scale.copy_(torch.abs(value).max() / self.v_range)
+        self._q_scale_float = self._q_scale.item()
+        self._k_scale_float = self._k_scale.item()
+        self._v_scale_float = self._v_scale.item()
+        # We only calculate the scales once
+        self.calculate_kv_scales = False
+
+    def extra_repr(self) -> str:
+        s = f"head_size={self.impl.head_size}"  # type: ignore
+        s += f", num_heads={self.impl.num_heads}"  # type: ignore
+        s += f", num_kv_heads={self.impl.num_kv_heads}"  # type: ignore
+        s += f", scale={self.impl.scale}"  # type: ignore
+        s += f", backend={self.impl.__class__.__name__}"
+        return s
+
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        self.impl.process_weights_after_loading(act_dtype)
+
+    def get_attn_backend(self) -> type[AttentionBackend]:
+        return self.attn_backend
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        # Block size may get updated after model loading, refresh it
+        block_size = vllm_config.cache_config.block_size
+        # Should not be called for enc-dec or encoder-only attention.
+        assert self.attn_type == AttentionType.DECODER
+        if self.sliding_window is not None:
+            assert not vllm_config.model_config.use_mla, (
+                "MLA is not supported for slidingwindow"
+            )
+            return SlidingWindowSpec(
+                block_size=block_size,
+                num_kv_heads=self.num_kv_heads,
+                head_size=self.head_size,
+                dtype=self.kv_cache_torch_dtype,
+                sliding_window=self.sliding_window,
+            )
+        else:
+            return FullAttentionSpec(
+                block_size=block_size,
+                num_kv_heads=self.num_kv_heads,
+                head_size=self.head_size,
+                dtype=self.kv_cache_torch_dtype,
+            )
+
+
+class MultiHeadAttention(nn.Module):
+    """Multi-headed attention without any cache, used for ViT."""
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int | None = None,
+        # This has no effect, it is only here to make it easier to swap
+        # between Attention and MultiHeadAttention
+        prefix: str = "",
+        multimodal_config: MultiModalConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = scale
+        self.num_kv_heads = num_heads if num_kv_heads is None else num_kv_heads
+        self.layer_name = prefix
+
+        assert self.num_heads % self.num_kv_heads == 0, (
+            f"num_heads ({self.num_heads}) is not "
+            f"divisible by num_kv_heads ({self.num_kv_heads})"
+        )
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        # During model initialization, the default dtype is set as the model
+        # weight and activation dtype.
+        dtype = torch.get_default_dtype()
+
+        # Determine the attention backend
+        attn_backend_override = None
+        if multimodal_config is not None:
+            attn_backend_override = multimodal_config.mm_encoder_attn_backend
+        backend = get_vit_attn_backend(
+            head_size=head_size,
+            dtype=dtype,
+            attn_backend_override=attn_backend_override,
+        )
+
+        # Some auto-selected backends can be upgraded
+        # to upstream flash attention if available.
+        # If vllm native fa is selected, we use it directly.
+        use_upstream_fa = False
+
+        self.attn_backend = (
+            backend
+            if backend
+            in {
+                AttentionBackendEnum.TORCH_SDPA,
+                AttentionBackendEnum.XFORMERS,
+                AttentionBackendEnum.PALLAS,
+                AttentionBackendEnum.ROCM_AITER_FA,
+                AttentionBackendEnum.FLASH_ATTN,
+            }
+            else AttentionBackendEnum.TORCH_SDPA
+        )
+
+        self.attn_backend, self._flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if (
+            self.attn_backend == AttentionBackendEnum.XFORMERS
+            and not check_xformers_availability()
+        ):
+            self.attn_backend = AttentionBackendEnum.TORCH_SDPA
+
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+        # this condition is just to make sure that the
+        # use_upstream_fa in the log is correct
+        if (
+            current_platform.is_rocm()
+            and self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+        ):
+            use_upstream_fa = True
+
+        logger.info_once(
+            f"MultiHeadAttention attn_backend: {self.attn_backend}, "
+            f"use_upstream_fa: {use_upstream_fa}"
+        )
+
+    def forward(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+    ) -> torch.Tensor:
+        """Input shape:
+        (batch_size x seq_len x hidden_size) or
+        (batch_size x seq_len x num_heads x head_size)
+        """
+        bsz, q_len = query.size()[:2]
+        kv_len = key.size(1)
+
+        query = query.view(bsz * q_len, self.num_heads, self.head_size)
+        key = key.view(bsz * kv_len, self.num_kv_heads, self.head_size)
+        value = value.view(bsz * kv_len, self.num_kv_heads, self.head_size)
+        cu_q = torch.tensor([0,] + [q_len for _ in range(bsz)], device=query.device, dtype=torch.int32).cumsum(dim=0, dtype=torch.int32)
+        cu_kv = torch.tensor([0,] + [kv_len for _ in range(bsz)], device=query.device, dtype=torch.int32).cumsum(dim=0, dtype=torch.int32)
+        out = ops.flash_attn_varlen_func(
+            query,
+            key,
+            value,
+            cu_q,
+            cu_kv,
+            q_len,
+            kv_len,
+            softmax_scale=self.scale,
+            causal=False,
+        )
+        
+        return out.view(bsz, q_len, -1)
+
+
+class MLAAttention(nn.Module, AttentionLayerBase):
+    """Multi-Head Latent Attention layer.
+
+    This class takes query, and compressed key/value tensors as input.
+    The class does the following:
+
+    1. Store the input key and value tensors in the KV cache.
+    2. Perform (multi-head/multi-query/grouped-query) attention.
+    3. Return the output tensor.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        scale: float,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        kv_b_proj: ColumnParallelLinear,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_sparse: bool = False,
+        indexer: object | None = None,
+        **extra_impl_args,
+    ):
+        super().__init__()
+        self.num_heads = num_heads
+        self.scale = scale
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.head_size = kv_lora_rank + qk_rope_head_dim
+        self.layer_name = prefix
+
+        if cache_config is not None:
+            kv_cache_dtype = cache_config.cache_dtype
+            block_size = cache_config.block_size
+            calculate_kv_scales = cache_config.calculate_kv_scales
+        else:
+            kv_cache_dtype = "auto"
+            block_size = 16
+            calculate_kv_scales = False
+
+        # Initialize KV cache quantization attributes
+        _init_kv_cache_quant(
+            self, quant_config, prefix, kv_cache_dtype, calculate_kv_scales
+        )
+
+        dtype = torch.get_default_dtype()
+        self.attn_backend = get_attn_backend(
+            self.head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            use_mla=True,
+            use_sparse=use_sparse,
+        )
+        impl_cls = cast(type[MLAAttentionImpl], self.attn_backend.get_impl_cls())
+        self.impl = impl_cls(
+            num_heads=self.num_heads,
+            head_size=self.head_size,
+            scale=self.scale,
+            num_kv_heads=1,
+            alibi_slopes=None,
+            sliding_window=None,
+            kv_cache_dtype=self.kv_cache_dtype,
+            logits_soft_cap=None,
+            attn_type=AttentionType.DECODER,
+            kv_sharing_target_layer_name=None,
+            # MLA Args
+            q_lora_rank=self.q_lora_rank,
+            kv_lora_rank=self.kv_lora_rank,
+            qk_nope_head_dim=self.qk_nope_head_dim,
+            qk_rope_head_dim=self.qk_rope_head_dim,
+            qk_head_dim=self.qk_nope_head_dim + self.qk_rope_head_dim,
+            v_head_dim=self.v_head_dim,
+            kv_b_proj=kv_b_proj,
+            indexer=indexer,
+            **extra_impl_args,
+        )
+
+        self.use_direct_call = True
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+        self.kv_cache = [
+            torch.tensor([])
+            for _ in range(
+                get_current_vllm_config().parallel_config.pipeline_parallel_size
+            )
+        ]
+        if envs.VLLM_USE_INT8_MLA:
+            self.kv_cache_scale = [
+                torch.tensor([]) for _ in range(get_current_vllm_config(
+                ).parallel_config.pipeline_parallel_size)
+            ]
+        self.is_int8_mla = envs.VLLM_USE_INT8_MLA
+
+        self.use_sparse = use_sparse
+
+        # Initialize q/k/v range constants.
+        self.q_range = torch.tensor(envs.Q_SCALE_CONSTANT, dtype=torch.float32)
+        self.k_range = torch.tensor(envs.K_SCALE_CONSTANT, dtype=torch.float32)
+        self.v_range = torch.tensor(envs.V_SCALE_CONSTANT, dtype=torch.float32)
+
+    def forward(
+        self,
+        q: torch.Tensor,
+        kv_c_normed: torch.Tensor,
+        k_pe: torch.Tensor,
+        output_shape: torch.Size | None = None,
+    ) -> torch.Tensor:
+        optional_args = {}
+        if self.calculate_kv_scales:
+            torch.ops.vllm.maybe_calc_kv_scales(q, kv_c_normed, k_pe, self.layer_name)
+
+        if self.use_direct_call:
+            forward_context: ForwardContext = get_forward_context()
+            attn_metadata = forward_context.attn_metadata
+            if isinstance(attn_metadata, dict):
+                attn_metadata = attn_metadata[self.layer_name]
+            self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+            if self.is_int8_mla:
+                optional_args["kv_cache_scale"] = self.kv_cache_scale[forward_context.virtual_engine]
+
+            if self.attn_backend.accept_output_buffer:
+                output_shape = (output_shape if output_shape is not None else q.shape)
+                output = torch.zeros(output_shape,
+                                dtype=q.dtype,
+                                device=q.device)
+                output = self.impl.forward(
+                    self,
+                    q,
+                    kv_c_normed,
+                    k_pe,
+                    self_kv_cache,
+                    attn_metadata,
+                    output=output,
+                    **optional_args
+                )
+                return output
+            else:
+                return self.impl.forward(
+                    self, q, kv_c_normed, k_pe, self_kv_cache, attn_metadata
+                )
+        else:
+            if self.attn_backend.accept_output_buffer:
+                output = torch.empty(output_shape, dtype=q.dtype, device=q.device)
+                torch.ops.vllm.unified_mla_attention_with_output(
+                    q,
+                    kv_c_normed,
+                    k_pe,
+                    output,
+                    self.layer_name,
+                )
+                return output
+            else:
+                return torch.ops.vllm.unified_mla_attention(
+                    q,
+                    kv_c_normed,
+                    k_pe,
+                    self.layer_name,
+                )
+
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        if hasattr(self.impl, "process_weights_after_loading"):
+            self.impl.process_weights_after_loading(act_dtype)
+
+    def calc_kv_scales(
+        self, q: torch.Tensor, kv_c_normed: torch.Tensor, k_pe: torch.Tensor
+    ) -> None:
+        """Optional scale calculation for MLA inputs.
+
+        Mirrors Attention.calc_kv_scales. Not all MLA backends require this
+        """
+        # Use safe defaults if ranges are not present
+        q_range = getattr(self, "q_range", torch.tensor(1.0))
+        k_range = getattr(self, "k_range", torch.tensor(1.0))
+        v_range = getattr(self, "v_range", torch.tensor(1.0))
+
+        self._q_scale.copy_(torch.abs(q).max() / q_range)
+        # kv_c_normed is the compressed KV representation; use it for k/v
+        kv_abs_max = torch.abs(kv_c_normed).max()
+        self._k_scale.copy_(kv_abs_max / k_range)
+        self._v_scale.copy_(kv_abs_max / v_range)
+        self._q_scale_float = self._q_scale.item()
+        self._k_scale_float = self._k_scale.item()
+        self._v_scale_float = self._v_scale.item()
+        self.calculate_kv_scales = False
+
+    def get_attn_backend(self) -> type[AttentionBackend]:
+        return self.attn_backend
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        kv_cache_dtype = kv_cache_dtype_str_to_dtype(
+            self.kv_cache_dtype, vllm_config.model_config
+        )
+        return MLAAttentionSpec(
+            block_size=vllm_config.cache_config.block_size,
+            num_kv_heads=1,
+            head_size=self.head_size,
+            dtype=kv_cache_dtype,
+            cache_dtype_str=vllm_config.cache_config.cache_dtype,
+        )
+
+
+def maybe_calc_kv_scales(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+
+    # Only calculate if the layer's calculate_kv_scales flag is True
+    # This flag gets set to False after the first forward pass
+    if not self.calculate_kv_scales:
+        return
+
+    self.calc_kv_scales(query, key, value)
+
+
+def maybe_calc_kv_scales_fake(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="maybe_calc_kv_scales",
+    op_func=maybe_calc_kv_scales,
+    mutates_args=["query", "key", "value"],
+    fake_impl=maybe_calc_kv_scales_fake,
+)
+
+
+def get_attention_context(
+    layer_name: str,
+) -> tuple[dict | object | None, Attention | MLAAttention, torch.Tensor]:
+    """Extract attention context for a given layer.
+
+    This helper function extracts the attention metadata, attention layer
+    instance, and KV cache tensor for a specific layer.
+
+    Args:
+        layer_name: The name/identifier of the attention layer.
+
+    Returns:
+        A tuple containing:
+        - attn_metadata: Attention metadata for this specific layer, or None if
+            no metadata available
+        - attn_layer: The attention layer instance (Attention or MLAAttention)
+        - kv_cache: The KV cache tensor for current virtual engine
+
+        Note: attn_metadata may be None, but attn_layer and kv_cache are always
+        extracted from the forward context.
+    """
+    forward_context: ForwardContext = get_forward_context()
+    attn_metadata = forward_context.attn_metadata
+    if isinstance(attn_metadata, dict):
+        attn_metadata = attn_metadata[layer_name]
+    attn_layer: Attention | MLAAttention = forward_context.no_compile_layers[layer_name]
+    kv_cache = attn_layer.kv_cache[forward_context.virtual_engine]
+    return attn_metadata, attn_layer, kv_cache
+
+
+@maybe_transfer_kv_layer
+def unified_attention(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
+    output = self.impl.forward(self, query, key, value, kv_cache, attn_metadata)
+
+    return output
+
+
+def unified_attention_fake(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    return torch.empty_like(query).contiguous()
+
+
+direct_register_custom_op(
+    op_name="unified_attention",
+    op_func=unified_attention,
+    fake_impl=unified_attention_fake,
+)
+
+
+@maybe_transfer_kv_layer
+def unified_attention_with_output(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    output_scale: torch.Tensor | None = None,
+    output_block_scale: torch.Tensor | None = None,
+) -> None:
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
+    self.impl.forward(
+        self,
+        query,
+        key,
+        value,
+        kv_cache,
+        attn_metadata,
+        output=output,
+        output_scale=output_scale,
+        output_block_scale=output_block_scale,
+    )
+
+
+def unified_attention_with_output_fake(
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    output_scale: torch.Tensor | None = None,
+    output_block_scale: torch.Tensor | None = None,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="unified_attention_with_output",
+    op_func=unified_attention_with_output,
+    mutates_args=["output", "output_block_scale"],
+    fake_impl=unified_attention_with_output_fake,
+)
+
+
+@maybe_transfer_kv_layer
+def unified_mla_attention(
+    q: torch.Tensor,
+    kv_c_normed: torch.Tensor,
+    k_pe: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
+    output = self.impl.forward(self, q, kv_c_normed, k_pe, kv_cache, attn_metadata)
+
+    return output
+
+
+def unified_mla_attention_fake(
+    q: torch.Tensor,
+    kv_c_normed: torch.Tensor,
+    k_pe: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    return torch.empty_like(q).contiguous()
+
+
+direct_register_custom_op(
+    op_name="unified_mla_attention",
+    op_func=unified_mla_attention,
+    mutates_args=[],
+    fake_impl=unified_mla_attention_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+@maybe_transfer_kv_layer
+def unified_mla_attention_with_output(
+    q: torch.Tensor,
+    kv_c_normed: torch.Tensor,
+    k_pe: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    output_scale: torch.Tensor | None = None,
+    output_block_scale: torch.Tensor | None = None,
+) -> None:
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
+    self.impl.forward(
+        self,
+        q,
+        kv_c_normed,
+        k_pe,
+        kv_cache,
+        attn_metadata,
+        output=output,
+        output_scale=output_scale,
+        output_block_scale=output_block_scale,
+    )
+
+
+def unified_mla_attention_with_output_fake(
+    q: torch.Tensor,
+    kv_c_normed: torch.Tensor,
+    k_pe: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    output_scale: torch.Tensor | None = None,
+    output_block_scale: torch.Tensor | None = None,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="unified_mla_attention_with_output",
+    op_func=unified_mla_attention_with_output,
+    mutates_args=["output", "output_block_scale"],
+    fake_impl=unified_mla_attention_with_output_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
diff --git a/attention/layers/__init__.py b/attention/layers/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/attention/layers/__pycache__/__init__.cpython-312.pyc b/attention/layers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ed7d72c36c5c7d2904a175a0df40211536543562
GIT binary patch
literal 166
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx$2kX7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxAul%(dBWCFQ4iIu5E#rpB_nR%Hd
m@$q^EmA5!-a`RJ4b5iY!Sb?T80&y{j@sXL4k+Fyw$N~Tn@+lJl

literal 0
HcmV?d00001

diff --git a/attention/layers/__pycache__/chunked_local_attention.cpython-312.pyc b/attention/layers/__pycache__/chunked_local_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6ab08f3175c4ff27c1273e4fd3eeafe4192dfa18
GIT binary patch
literal 4831
zcmb_g&2JmW6`v({N$zs_CGkU)EnBuMOSEFrcI>)V62q}<Cv{vkjT0Yu*{rxri}I3G
zW|xK~P=Hbxjntw*eK2ewDA3*<IK3AB69V)?HUUHoV!&t$6uE688BTKQd$S}ZJ8IEG
zM&z6KW@cyJzWKcm>hF<=LZDgV?<*h13Hb_zUgI+$Z2l9-Jz@|;ut?GCg`xnm&+=9M
zMSoQ+iUN-NEvXtP1~@NT!D^@&;=E+ZRi&tKK468bYEk8U(27)}#b`BFj8)^scr{T>
zR0oO!d@f`SR+GhKHC0Si)5SE5$%bNOszb#gftY0BL{H7_-Uyq1Lp6tu2z;aF9@C$N
z$#Teu-4-8qmlgN=$Q#6n-zG-F9D3;YhKnOhLT=z|6lQZi7JuDw%$ifF*Usyu8)nU5
ziT=nhO-DC$N6!f?e%*95-EnH#oVN_d!ZUhl-khn|%9ZOND%UKl+Ls1?-Oyp%WgWNf
zj!JBxzxT`=R~w6qb?UI8{#ft4^NosSn3QE^>eXt!_M>@rsH)#EHLG6IEmX?WU%OeM
zP6I~fbO-dZ*|6Q1D_Od2?^x5*-p?ZaZLcnxC6=9;Z`5v>#ueQ3`Kj<**Z7;_y03j;
zH+WgOzl3EPHBi=Cs?@GOXCao{R;`4aYj$PXWXc@q-Q@$+bQ-i)>Rt`MAPFeSoA-fy
zBz)upI11~+#{j`~AJRWbEB+=~5culnNbllTM5n)FQ*^}MqKBwFG~0KX{6;`<tO;wr
zvd{3}4jE!o>_KEja)RDULYi<^Q~Ffu&jp%+t0WhgW$9flrZGV)^&ZAv?h2c8z})qH
z1ny-Lbg7~bAS{@o;X~*eep50;Ghj$&5MUhG0ppNNjIa?jWg}!NhHQpmjam+^dD{C8
z<#wbPStGZEViYt}f4EYjrtX*;H@a#32q#?(<X`0gvd`vseUTmr{Uyt$7#~>pCIDP3
zalEt0jhk8t@vqqc3z~)n&s`&4&mep^4+6PI9H3rX=w3ok#{Me#L;z=`Xe%boUc7ek
zot&TU1&NLz*$2eND;*sj{o&n$Q(Y`9Ru+#sIt8~pdaH5z%+GI}HVal|uCTb|%-3rL
zRJG8@U%}FsOllYYi$(H_ODu&BUTPTnb*eAUYqsZ{%X2@aE%UpcF^Mk+0hz3ltvE>@
z-WZ%}4^FkzsZAIoEK%Y?KwG3{xpGUh%o<B}hv5BcTD2Rbm{QhlN1MagQR+h;c0h;X
zH*pS_yMDNfzU!<@P2YN;4{e{*zngWjN&W!W(G;4#roXr1DxssW3EYhe9h1OH5T+!4
zW-iD?+qBAb9H!`DBonwu)-*2&X*7w0DIhkw7u@CO>gp;*fY2jAmf!hFjm@>f)L|b3
z@*P-LC5PS=I`KoT!_$v0Z~A?QqAhiFD?pOjJE!lw);e&ab@I*6j(k4&UQ2zC9)gE*
z!lhh{g*2_ES4~Z0il$ZTM#Dm0)wB;F+IDBc{2k#g=IaI%oh7gfz9WqyL0Ho<Ak1H>
zIW&x%I9IP*6z_?@JBxJ9R5C3~)4;+n;ncRp5dG)6)?$1Am&ejQuoO*iF9Z4hHtEPo
z*B6vu>LgOF^s#p0xa$Y$Np{SYpmzggZ_W)O7b4NoZ)M;%{X|LeXWU^jI{u9;%h!Y_
z`wzMjGVsLMv>W7Xh-61xKJ6+by8l@iM>h#lZb5nqbjbNxnA^$2FiZ6vvzJW)A~p;2
z8#5^iIg!QCTXqaFrDFFo8V^V`f_n!kf_vLiEYLk=U`Jl+Zo{=<D)*ai6!f6@{`-hV
z4n=nO|3e`?3&&!Jvgd((ze-${#18|sTH~)gI{v8m=*nk8D{^`D(v$45jqJI0_T1;$
z^DQy`Wf*Q@@{1$qzX;E?#F<uj=9!q3t_iJ)Gg}0it(QnL-$@R4_MPe^k8K6TWMK6Q
zY_1Nq#0)p;bNL1R3ESrHfb7gJGNhi~pAk1O+xX!tLdKDx4`B9L29QE#kxY^2AWsfK
z7V<dR40bui40XA%87e2&NLesc$U8C=U<wpq;j)OOS5f78C<1vX!BV@Tbe74rMpc_P
zb;D*dc3xc|*-&_x{2rN#D<Hvmi&Px~dquOY`XW>{s+V=TX-EYhtU=)RlG0vy#-7(H
zmLgtq(0JtM{!3p01C`MEdJTgZ`W3Hw?+W)w6QZ8hn<d*t#KO*a+MVwg8{uZ~!)!CS
z5a>VHXI4}g5B0@9vl6L^hOnX<zLkj6*9anQxT!WH54)$WL>)vpZ_Oy^7U{*|m6(Hp
zg}3!MMCt>*NZpj0fo8B7YAQ{+8T-`#uv^&+WQpX&StjZYr~Wl&o18*lhmM{{GK1s-
zl8Z<#A$bD{+Kj%5<TW5U*}EUfsngOtOQ44uW?64o&|}bJVefXhz(YO7^uv9H=77Us
zTB%hW2yqEIg;Osm!6V*ons6mh9VU54Mf(-Vj?;K7KvjACv=hLgXYXv?jPom)THd!S
zMDslz(FFF#Kp=ZSBpg4pCVmk*@MS!;5ua$sCq9qo)}&52(+ZDuMsgb?r`jW@)@D1|
z@r~@UcJ|o%<tHO!DDPRj{I7#2I%?{Vjr+9+3y^unlvZdzWS*h39d)cVe&*3M3=S!4
z>Q;!z(e+?EG}KA&$In0p_S^mpW;?lyAi60cXP=U=taxFTmr1+`>!)x~8@$^C_}_p5
zc#{R_Uu<4AybboIup8WWgE#EA3%Fsl3%Z>r!6>@h3vG9eJ{2A!YM?<J@y+HW4@n#q
z9IkJ}6h|UNe-4-!4sg_BIP{Q=D_OD+5)N4prBG>d=%LYUv{x_mb3pf>z`}NUVt0ff
z@}FDy0q%vES|y#>;6`lnAF;_+XtEWX{4zG#$sF9s6xx}>MrOL5neJpqHnK<B*(06w
z@V(ldT4x}=F)-C0nCcuD-#9ScJ}|u%4#X9g1iIG?KR2*3l8e%#a0bmIDImcDhe>6t
zt~*S$Dz-y04pF=p<_C$QPF^j7UQgdeauP^R@LU9o!E;^_b`Ix|pe60U0{QMXaiiqW
zWM`^?pA$dpynMQo9{MITDJf3|)2;+Plmp3(8$>Qd;we`~P9ab&gppH8X88VvI}2_E
zr6|elxqs@;jXz&#rzhPQ4#i34peH6!93Yw8gOlxa!5u^~NhXdwxbT++H-%D~B$7|@
zaQ9syBq<MyE`jdRThFlbJOTC3?PGGeQ7bu6W7+fyjIdGsMUd|o9{FDS&+BtwCB5WO
z%mln3W0@D$LRo9VUX;f&?`Kfn%Q)QFEY8<^BYEVxz1ajGhJw+wH1n2Og2+qr-Y=0n
zPg~vp4tSU4DR}evZaOxc3cLp|Bhj^Z1<6ZrUIMXUeh@s`M<kS)CN1kF(<?x^d*Jmm
ziJwmgke4mm@P5N_6w%|jHC8no1D_Djo(FMh=vA-oJxdJ`5i<5~fw+D_5H<ruNPI=q
zf0MT#lar6h*kdyBm|S}13kbfa1jw_fDEPi1K%S~Z*avv=g*Sv`TY$3kurSmaIqLeM
xe=<DcO3=f6BIyQ^3z2}*Qij{oo^NH4p)B=5Sqj|NJHpF?a{m`k33Ob~{{ZJ@;gSFV

literal 0
HcmV?d00001

diff --git a/attention/layers/__pycache__/cross_attention.cpython-312.pyc b/attention/layers/__pycache__/cross_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9d0223fd7b749d63d7ff4f8c9fb84c9af41ddf1d
GIT binary patch
literal 6697
zcmcIpU2GdycD_T-ki$Qbk|<G>C5x8iAIfXV@$bfw6URSEYs=a;*``|}-NA@6v?&dL
za%bpR@(55CMkAv?8v!lk0tM;?0&D^Ys0%F6edt3U`cR-R<SGT(TN`zeJapgaN`V*q
z)N}4|C`!u)1&UsXch0@{+~0HVch0%`=SU<-AQ|Ex=cNQ8Utz&byafu|R3K!NXhahX
zlEJUX5DG#@5S%(s#>?Bpj0j(^Ar*WXU%{X87vzl0c|;>n2xfwumW)s#oC$N<XG97;
znVv#46Xj*U5i9g&dO0l{eTDu^Kc@pmyfBa%C=6x>c{yk#3PYKpLNb#Sh==IC`tV~|
zBc{v&Eu@9Dh(3}NwVwN8W>kyn-o;s`wKLaZy14jyXN^N^z50;W2W^+Sv_-o2$py83
znCp;E7O!^c71w>Rq6yuXghp7`z<u#?i!C$hA#W3H@IKKJdhoH=sm>f;7Scn%#KL@9
zU}CmZUQT;i>`lwki&nl=ysT!I^rFUk+ch_JOVw0MWs!E(_m|5$^bWKupb)#ITZ(E~
zMP<PmBJE+JD{A((ex+2*<!`azdxlYPXkZWJi+M{iO1Ez5lrKcf-+>;9E2ToARBR92
zo_yG>EMyJUG;t1RsT~vbU7;n@Z1;M%tY=y1#(R8vr*H=*SF(I16!nk!sBTqgG20R^
zKOPZsJgDuvkZls1Eb{8T*{Wa*bl7SgC?U46i2e2@%jZ@+_BfR3zYdD-iswf#O1FOR
zlC)=K_HErVQ`T)gRZ#Dyij~5GPE(~^N-t(h8j$&7xniZP5=hES<!GtEd7a%&ue=7G
z6zHV1*cHyMwAc$3(@HJqFou=Nl_-vRLesOU0*q{!X_3WDkeOC7blN&E7R;OZqG_qc
ztj<QhZE)s=QPUpU3p-{WGi&13Q>kCi%~*x<OgUdZVW|}K<iy>|`B%TYbY7n^@(VNN
zW$SjSID-<JX$yD8P?vRT&SX)ryE30HFSEFUs)p-uH)!ZZIt){dz|Xu0*&2Bsh}Q#$
zYk|XSm;W^s`SYoV@6<<UYooJ&pZ&7$a+7!@UqimO?S*eObh+sx;huVEsur56ic{M#
z0AVqAa8v(4feB33w_udAONyl~7`g&FXqG68EZtGEsN{-?I_J~$JNc}h?NkU<1g=#7
z$kERBbX6+x7Fm^cm8zR+*u=#mO~CuU>a%@U$saBQ<+q9L$GSy7Wc!k<a;vfxaGPw|
z7G1?$4cLOydo^eWHIE$_CaWPU<nk_tU26Ah%a)7cWU*(r-lc5s7hV^0R>OAK7FR$Q
zRwJB(6It!CLw1DkB5FsWRf3DuvjW{$W45%23bZfTF?aU@`ICDhu_ZdtvBtiA>`=5N
zx5vArgERh{oSN{z-wj+)ab+AXXo{=miMGb3OrvDMg)Nu!#areyMctqO+`}Zz0=T4O
zP)vtd&`}~YzoIiwvCRC%QgKD6B_`%Ay+HA(nPin{_BQjWR4v}pnFN>W+!-jA%ZSY0
ztZFeyFO;q2bT37fr=yr1#0+Pl6Oge8E(dOjvmDl=X07}k9k4(H1vOcKf?7jCzssWg
zG@bP#c<^<aN>SG}U1Jescb1;lOcryhJ8I;-az`~PFmj~D)|#kQEah@0fSTLtV4BIo
zdsc~JPwh_>wS*=3rFYPvvk!e0S`Wj|d;!@SX~sz3SiLu0>rJm+Z^Q@JZteuh;Lv7f
zBU4SC+!}c0$)Vc7nYH<^1}4@6jp3=!UabwEtq)(Q4PV$Ao?Vab_{iv?M`KT>wni>i
z<s=|O@;LAeon4OrJ(8}bU#m{NRy{CVm4|>gp4^<>n0*xeS>^BU{q4PfI`?J&JL_^|
zDD~)iZD@Kug4BiD&<UiDeKuMfIuBH0^3h5y@ye5%wZxn2;pg%|T^^~)BM;yI7kR3A
zlnhS3m?HAP(`fw1%MX?xj&4PdR^_8#L-F2&dk<gv^x98v{N%>ZeP2f3sLF591N?9*
zAV_K~gW~Nm!F!Aw+%N}+-UkA_E&&V~S?n}_P>-pN7as0Gc))}3+Mf1p_U@t-;0A%4
zF1Fi5TZH=|&9mrUgREqop`F}Cq3ttJ{utJxlZ>E|j3+=epC;&D&7+H&SC=$V_vPeu
zk`pxPek9{xCwGO63^VwDeKAXQ)zX!H_QCZDre^`GRl|IJdhbFmSMmlN73<A%KSL=~
zJ(s_W_|D?3D!9-^rQkX}!JKMZ$^v$yh%vtb?fp=>{hx4*e<5rVt9_hsU@dx8)C5~p
z+AS6ef+slswwK`6!STEOBwK=hZBx<#Vch^(>;}U*!InCpEw($0OTiktK<5{p$E|r`
z1#O`J|5<_N-7{O;>{xj3d9uYtwC?*7)FSxpORygV!hNaxE<5(vJ{fD=?fSrHlRy1!
z^zUrZZW}X%|M|D*A>aZeE?3h16pcIcWz~wQ8r%(W{GSkdC@trK9z`B8S1}AGBf0{d
znjF|qpW>L!<hGj;b}0ph=kT^4<iCr9NoEDC3X`~Mru|Gbbt6aLfF^ngvp10`T+~0@
z)#d0upNRz&#qp^X6a5AUdDl4L(mAMDx$=LyWz&3ZKY)SEUqJS&HL?>XBdKcY%+`Uk
z>vN6qqw8~DhR2>BJoV&E{q&XE=_^|YudaWuar7M4Pkud_{^|9fTyOM_)_afCdXH3N
z#~QJ*r-KJJmo}Cfi36MWHty{Nq{BVPeF%n5PybEu^Wgu)KLWgI&U+YnFA0s<NIiC<
z7CXU-nObb75sTMj<F(j05SyWm&~|5!cyi<X#>MKPQ%~mpVQQ=YW;J}1qi<SxD;;36
zq7>DFt|%<1DBw$j{|t0kQ9h`shSNeJ4kk1L850*uC4(Xm@N;I7mLRgaVJOPy0{tCm
zG7$(aIp%MmD~wT$GJhXgk@(ep(hQQ+;TM6?z`XE$Y`iHU0cLCBLetMlnIuP>ycsxq
z#$JZ7_65P5?}g%E5D$j<iXCud18o<_MOV-olZCi+F-m~2!Na2Hly_87^a|4wy#OEP
zYYo-cVW?WXd`cGPsN0GhO*|N`jLzl{e!CV@1=#t4T>}DK02#Kn_EsZ#vYxzDOJ3Sa
zUapFRJK{lUUZ|!{?GPk(E(s()-G~o24xVkq(>s1K?pvE{hDms+Dkk`0?6Fxc<ZfqR
zj!v7U2^nvIfaMB<#S+0{iJAnK%LkFUX9aGR=GXlWl?!r9CW9rDwSXSbf_e~Q_7KGP
zA#T~i04@>MvsctBb`Xz(S9Um?t<Vj_K@8t`Sm=as)13de)S_nSW~wbai21A!b-kE!
zxj(4rG>;rbtsPh{>C5Jf<HtF}%(DQ()oon`uP=Zfg}bhj3D#9-VJG%+B2O0JLPT#j
z+iBO(ejuuE9|VQoYb6)aN#2**?uXwNKS~11w=Li<<0^zN-E8M-pa|A>Rn|PKfsSCu
zWBVcC3AlK_8r-#HcCc-4L$>tMFxX31)LjFcrDJg0Fp~GW>->>mwZoMMVXzsKAan_=
zhR61T<p_QIc$)ZE5XOBf{Fxw-Ws>&IGf}NrrC*{!TDh=S6;h?5v77?jFPA9154`C<
zgy3_`^tJgb-@AJ49p&mZ{!RPn0t`V>iK&K}j@b_}%R%-zNe3OP)QcBa({pOYfG<jq
zg&eUufy)GTkuk%2Mp3dXx^Fgm18V^T`KykSj?kOP+ie9nIrA-j2oC`!MPti)+A(y;
zga{kXYWdAZ)WmDxrk0T^LiI{w?<q~YtN0^mG=Bye8lFDVJ6Mk$t;LRR#nS82^H8E1
znrMus>!W9Dqi5IW8_C1<<jGp{<b&(aM<=j+VEy{n<EI+ofln$Ai=QpRTfs!IDvyEF
zKXk5o?&elv9-Q}3yc$Y1`bR#E)KeF0sf)kpzX*>Dk)B3u4mw17s{I#tWD@9k;IGL;
zO(F+^jlnVe>r23l@b`3ZqCR-KHhB6)1R9$?Bs#Di1<HYAR4m8s?7S!_0(3gI??bl7
z=@hzMsBRaiyXy(HDCm6&YTGX0ZqpZndz}EaJo9PM2|L3G7a&lM7>@R#kU<@z@Ntxo
zYZS#IYA1`g<<H|@M+e~*iK`HvK<gRFF$P>++dc5rWyJx<_H~#>h2F#Q1rBl^vNiHF
zdZ>{YuP0_|iJ5xhLM?HjksPfjr)tTm#^CT~aiiGi8?5&ouk{@Ve<2oZ5~(E&*yKDY
z_V2<l^c~FJg^c+XMJr_$g&TJ!<&2VQQ4DaH*R&`_1?BIJ6fZQjF#A2s-h-^ez*7|~
zF<Zk1yf|RaUwFKd+>Dd&oNS~fUqmLQ;Pd{$rUYLw>hVO=kCaSe1I++ZL6R7MbhS2k
ztQo>$7+4<0H!ggG9h-B4PYQmPX%hJS{KiZCI68)trjM{du2Rfe;Fg$<Lo0zG%gb~U
zS{<B7;RD@t+n!9j#(G*^fStng0u_;$J2f06;`=)A7d?uOCQIyV0^e1K$tlMf7UHdr
zQQ>Flyx2O`&XX}kgTe+lW5voF=5#@|ZY!L09#Nd--g%|liXAq@6z-+4VLlG<wzUSH
zTy&aKv$~_UTzDvX=4;K*eL0Lu-~~rhDOH!5@B92s(0PNwX9*TCXvKLRWFmhA;t0w`
zy@-=z@a|}}JnQ(3uhWmAPJo~J46>$I5QJ?X5qh7Ifv-s4zmf1uQ4~Bc2xQ*`iE#WG
zIrHyi<{6oIMvlDncm>Z(nFwzS{}G6P@`J6w!8Kpg=M#=UGC=Oa@h9dsewuy91aN=h
zRb+8vvFXLa^P$nd4*zAiDPaMX>qyhjNts0YemwVJt{LFPAn}Dhe*dHQw?n-69{iUi
zR2SkkA>Q<SM;L01o@jdE`&<fCgTpoHz<)_l+V&F90B_&<p>RqFe)0$35cu%z|2Js<
BY6buR

literal 0
HcmV?d00001

diff --git a/attention/layers/__pycache__/encoder_only_attention.cpython-312.pyc b/attention/layers/__pycache__/encoder_only_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1106eb8fa0fb5c853c0f724b5f29adbfc978f74
GIT binary patch
literal 3740
zcmb_e&2JmW6`x)1lDo?#MOhRj%2m9vY|BJ!O0nbGQDVd21?*HVYS%y)1s1E_p-pSK
zRA-ltB~XA;7^sY*1$-!+Lk~UV(7^cva_qUiP;~(jix?1)UUH*K84hyld$S}hyMoa}
z7v!6nH#2YEypP|Tzh^QUfzOkER~2+ZzQsZROZGb5zd`2-afvH<#KczggqmOqLd+9Q
z5qJqNQIkxmCYy3CX(suc<fUqgsqnt+sWr{ict7c-Yr3iPe#*<#vSya|6>q4PGjp|J
zbC{1+Z(nW191#d5_m1|}deyobmE1HPrBV@?70J~fN>6*!W<exBA#Ua&akEr;nuyuv
z*s@R>`VI&4B_WcW`qFYK5#=s~A@##*-M?r%i_~|c;Q{BTG_+kiw4=;`b!&Nv!ftiI
zfI;pK4J|tieQO~W0lf4j+qp|G)%{BK4h*&1o>%LQ#AxhNy;iIH0~v#JCW6L-<Jm!g
z;$p3K%e;P@OTD>7ooKA#yOep$RsYUwXGcj!!v^ymp=S+jWcZ^Qy1xPf?i5yqCb_qJ
z1@Q6fn{ZX+CKSPhiKf^$;c6o68IzDENN6U$k_K~9Q@Tk?@_aOU#dqqU+YR4a9$e9K
z;sau;_6FS#pz~YMh!Rt9i7BeYO}YY2xFWbWL1kB>$%?X0DuOFN%$TWl@<1>ZI4AYP
zHHT3<q!x`&v+8i%f19oRu~&C&FF04;ORI~Gst1}z!wz?dwZv$p`oQw2ALV;2?$=sB
z5VVRNgw_IXV?&_3BlT{A4O)2w{@rUp{wO>l;lRRR!(M+?a)qX34Q9fDghz6d{651i
zD>V~+yTV<?`Ku*~q2;5bV>bfZi{zlO1bWL{lTtF00_s&*9+t3CBn4bN?$b}LJ+Gl!
zRvczlfSGRKxAw!$nXtArvs7I=9@-3I`uKy!=?~8=o~AQibzx>{IlNo<XYNBF&kUk-
z#<Q0x3ug9qLV0PKO@REBpZ))QRpwVVKx%Lj$oFexM<+**wT_*CHhrO`A8MCR0{y4{
z-ZvxTk54~7+s?h)n)>K#vzrj}*$xpi*)D7&CE;pGjTFoB?HaYLNVBY3-EDZ-*DdSU
z4cqI@B&vSM(y%3x7V346p_losqD;?<4)r|C`chz%FcqL@&$D-M!~VC#9K%RCfE&&L
z`Tim4Xv8?Yt!ip^>%hT|3~eV#rsg^+>?x!;*}*wjl|Aq>4ZUpwgrNjB4FsSp%{7i=
zI2s-JsE;7v@*qlc^HGL_k{AskbnRj>C<KtiEDKGP?1|d93u=06`H_*%lcNWE0UCx!
zQhfQt|C7(z4D1?*e{d1V8iAW;53gNq7iTw%=QoPypA|2*q{5Drmb0xRXLbm*I};>d
zZs#Z3@0@DqXLeFjKDqWuM<@DtOB&+_c@1muM)-A2AiJ@~70iT60C99c8VQg_a%DiA
zBu%>FN{SFSMN@IFqHzRL0D%-&r79F34N6Y>p=72xBI%H&nJB-PyH~DjXq4WRG4P5}
z4Gh}|0LrVjXE=61jqt7=8g88i{&Z;gl)A9s`fY<_ewj;|k5s==v+h#c4I&jAE2yqe
zfCIod8tD!e9Y}esI+4n~6GFjq`sEz$fJGm}xqA*G^>viGC*p$Fzd=PvHKosrP3hhM
zuU@TNRe-<yjNa6$>I2%XDz3PyhJDN@O|hA3Dor)y&ktOBukWK*BFR^Yrx;N1t!g1c
zE&rO@07uhJ`Ll_p{B|je@N@`L*N8iK9Q;NIhx^hV>43P0z|%>nW@0nZl$z<c%X8&F
zC7a1Fgg*!ZS%xY!A4zs2tbdmSktKos7@C!{dxe34<;eilUaGS&FfR1VJH98%SLQF>
zxP0a3){Xg3epyPg6Ci~lxG^k`>=cqR5)}U>DQS@$)|qoR8piB(X~k}M(4wcKbQ}Wl
zKwE&~x5z_;DJTGa6zRK<<N3$%4TWG>^{b&}l`?EUuHH)zR3S<(ehLL5h~)T~?BacE
z*RkvzZbk%&wdSY@b&X&i^uIL@66`#%S0?u|Sh=sw94ra`3Iw5k9~mxe=B77t)6a6H
zb$Kg2)=E#cCrg`?r#2=}t<SfMhc}C}8^zg2*S037aJ+y0+P@B-XzQbGeYmYpwDrO_
zg{jTL>_%aBC!L(qTFQZ)92q~`I(zHc*e}-gt#rPXHrgXU`XaMw%xxHR{}`F$Wuu+D
z0W~C(ZH>(BC`8RZN^L0P9ipgOyKn%1`^MmO_zmQ5XJE3EB}1d#A?R^viqcp>dnp<}
zA>K?nEc9K>vL_f~!aPF@l*HI4m!Tiv4#S9HmdC)r0f;9nNA|QQ#>#8!D2l=yTO(UT
zBV0RpYRrT84Pdf&ksJgPr7X*>JC?<!a3oi}x*al1=O__`jQfybE;Dp8yNcv6k|RKN
zl|%MEGLc|J2Ma);>}`vptaSE~W3z4J&~~OIYg;3Qjtni7zx-Gyg*}DjMms9@G%|MZ
z&zCm}M>}a8>agVV{NuS7xUq9v5as+|OmLT+|N8n%Y~limhnB`8wbJmN5Q=!fUsLQO
zU`GZzq&&doa=)CF?FG1<?Su?{5tn_QKlwK{@Fx(1f<dCOH>TiKM&UrlvoCgiIY#H$
zemTBA=9IC|?buW4{`-4r)d;JgJ_0ze)zJhO0c!`oh4%_&72BcQACc;@Mx36Jgb)#D
zJog0#R%{^tTv0xbpFro>EttS}OyC3QBm_a|CW$cooQ!@;^p}z(h}#6n3ylcxJtrSL
zCsWVK^h+@TEQJUs!E<7IQ^;=!`Hol=#@my}I|*pFWVNMDY{>inEyJjrAmS*W-#K$a
N$bbIf3jz(-=RfW_&}skx

literal 0
HcmV?d00001

diff --git a/attention/layers/chunked_local_attention.py b/attention/layers/chunked_local_attention.py
new file mode 100644
index 0000000..48fcc6f
--- /dev/null
+++ b/attention/layers/chunked_local_attention.py
@@ -0,0 +1,121 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend, AttentionMetadata
+from vllm.attention.selector import get_attn_backend
+from vllm.config import CacheConfig
+from vllm.config.vllm import VllmConfig
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    make_local_attention_virtual_batches,
+    subclass_attention_backend,
+)
+from vllm.v1.kv_cache_interface import (
+    AttentionSpec,
+    ChunkedLocalAttentionSpec,
+    KVCacheSpec,
+)
+
+from ..layer import Attention
+
+
+@functools.lru_cache
+def create_chunked_local_attention_backend(
+    underlying_attn_backend: AttentionBackend,
+    attention_chunk_size: int,
+    block_size: int,
+) -> type[AttentionBackend]:
+    prefix = f"ChunkedLocalAttention_{attention_chunk_size}_{block_size}_"
+
+    underlying_builder = underlying_attn_backend.get_builder_cls()
+    assert issubclass(underlying_builder, AttentionMetadataBuilder)
+
+    class ChunkedLocalAttentionBuilder(underlying_builder):  # type: ignore
+        @classmethod
+        def get_cudagraph_support(
+            cls: type["AttentionMetadataBuilder"],
+            vllm_config: VllmConfig,
+            kv_cache_spec: AttentionSpec,
+        ) -> AttentionCGSupport:
+            # Explicit override in case the underlying builder specialized this getter.
+            # @override omitted only because of mypy limitation due to type variable.
+            return AttentionCGSupport.NEVER
+
+        def build(
+            self,
+            common_prefix_len: int,
+            common_attn_metadata: CommonAttentionMetadata,
+            fast_build: bool = False,
+        ) -> AttentionMetadata:
+            common_attn_metadata = make_local_attention_virtual_batches(
+                attention_chunk_size, common_attn_metadata, block_size
+            )
+            return super().build(common_prefix_len, common_attn_metadata, fast_build)
+
+    attn_backend = subclass_attention_backend(
+        name_prefix=prefix,
+        attention_backend_cls=underlying_attn_backend,
+        builder_cls=ChunkedLocalAttentionBuilder,
+    )
+
+    return attn_backend
+
+
+class ChunkedLocalAttention(Attention):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        attention_chunk_size: int,
+        num_kv_heads: int | None = None,
+        alibi_slopes: list[float] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        kv_sharing_target_layer_name: str | None = None,
+        prefix: str = "",
+    ):
+        self.attention_chunk_size = attention_chunk_size
+        dtype = torch.get_default_dtype()
+        if cache_config is not None:
+            kv_cache_dtype = cache_config.cache_dtype
+            block_size = cache_config.block_size
+        else:
+            kv_cache_dtype = "auto"
+            block_size = 16
+
+        underlying_attn_backend = get_attn_backend(
+            head_size, dtype, kv_cache_dtype, block_size
+        )
+        attn_backend = create_chunked_local_attention_backend(
+            underlying_attn_backend, attention_chunk_size, block_size
+        )
+
+        super().__init__(
+            num_heads=num_heads,
+            head_size=head_size,
+            scale=scale,
+            num_kv_heads=num_kv_heads,
+            alibi_slopes=alibi_slopes,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            kv_sharing_target_layer_name=kv_sharing_target_layer_name,
+            attn_backend=attn_backend,
+        )
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        assert self.attention_chunk_size
+        return ChunkedLocalAttentionSpec(
+            block_size=vllm_config.cache_config.block_size,
+            num_kv_heads=self.num_kv_heads,
+            head_size=self.head_size,
+            dtype=self.kv_cache_torch_dtype,
+            attention_chunk_size=self.attention_chunk_size,
+        )
diff --git a/attention/layers/cross_attention.py b/attention/layers/cross_attention.py
new file mode 100644
index 0000000..5b44c7e
--- /dev/null
+++ b/attention/layers/cross_attention.py
@@ -0,0 +1,178 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+from copy import copy
+
+import numpy as np
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    AttentionType,
+)
+from vllm.attention.layer import Attention
+from vllm.attention.selector import get_attn_backend
+from vllm.config import CacheConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.utils import (
+    CommonAttentionMetadata,
+    subclass_attention_backend,
+)
+from vllm.v1.kv_cache_interface import CrossAttentionSpec, KVCacheSpec
+
+logger = init_logger(__name__)
+
+
+def _get_max_encoder_len(vllm_config: "VllmConfig") -> int:
+    """Gets the max number of encoder input tokens from the config."""
+    sc = vllm_config.scheduler_config
+    assert sc and isinstance(sc.max_num_encoder_input_tokens, int), (
+        "max_num_encoder_input_tokens must be int for enc-dec models"
+    )
+    return sc.max_num_encoder_input_tokens
+
+
+def _get_cross_slot_mapping(
+    encoder_seq_lens: np.ndarray,
+    block_table_tensor: torch.Tensor,
+    kv_cache_spec: CrossAttentionSpec,
+    device: torch.device,
+) -> torch.Tensor:
+    """Get cross-attention slot mappings."""
+
+    block_size = kv_cache_spec.block_size
+    slot_mappings = []
+
+    # Find indices with non-zero encoder sequence lengths
+    # The majority of parallel requests will be running the
+    # decoder, so this list should be relatively small.
+    active_indices = np.nonzero(encoder_seq_lens)[0]
+
+    for req_index in active_indices:
+        encoder_seq_len = encoder_seq_lens[req_index].item()
+
+        # Calculate the number of blocks needed for this request
+        num_blocks_needed = cdiv(encoder_seq_len, block_size)
+
+        # Get the block IDs for this request from the tensor
+        req_block_ids = block_table_tensor[req_index]
+
+        # Get only the blocks we need (first num_blocks_needed blocks)
+        needed_block_ids = req_block_ids[:num_blocks_needed]
+
+        # All needed blocks are allocated
+        i_values = torch.arange(encoder_seq_len, dtype=torch.int64, device=device)
+        block_indices = i_values // block_size
+        block_offsets = i_values % block_size
+        block_numbers = needed_block_ids[block_indices]
+        slot_mapping = block_numbers * block_size + block_offsets
+
+        slot_mappings.append(slot_mapping)
+
+    if slot_mappings:
+        return torch.cat(slot_mappings)
+    else:
+        return torch.empty(0, dtype=torch.int64, device=device)
+
+
+@functools.lru_cache
+def create_cross_attention_backend(
+    underlying_attn_backend: AttentionBackend,
+) -> type[AttentionBackend]:
+    prefix = "CrossAttention_"
+    underlying_builder = underlying_attn_backend.get_builder_cls()
+
+    class CrossAttentionBuilder(underlying_builder):  # type: ignore
+        def build(
+            self,
+            common_prefix_len: int,
+            common_attn_metadata: CommonAttentionMetadata,
+            fast_build: bool = False,
+        ) -> AttentionMetadata:
+            new_metadata = copy(common_attn_metadata)
+            new_metadata.causal = False
+            max_encoder_len = _get_max_encoder_len(self.vllm_config)
+            new_metadata.max_seq_len = max_encoder_len
+
+            new_metadata.seq_lens = torch.full(
+                (new_metadata.num_reqs,),
+                max_encoder_len,
+                dtype=torch.int32,
+                device=self.device,
+            )
+            new_metadata.seq_lens_cpu = torch.full(
+                (new_metadata.num_reqs,),
+                max_encoder_len,
+                dtype=torch.int32,
+                device="cpu",
+            )
+            new_metadata.slot_mapping = _get_cross_slot_mapping(
+                new_metadata.encoder_seq_lens,
+                new_metadata.block_table_tensor,
+                self.kv_cache_spec,
+                self.device,
+            )
+            return super().build(common_prefix_len, new_metadata, fast_build)
+
+    attn_backend = subclass_attention_backend(
+        name_prefix=prefix,
+        attention_backend_cls=underlying_attn_backend,
+        builder_cls=CrossAttentionBuilder,
+    )
+
+    return attn_backend
+
+
+class CrossAttention(Attention):
+    """
+    Cross-attention for encoder-decoder models.
+    Handles attention between decoder queries and encoder keys/values.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        cache_config: CacheConfig | None = None,
+        attn_type: str | None = None,
+        **kwargs,
+    ):
+        dtype = torch.get_default_dtype()
+
+        if cache_config is not None:
+            kv_cache_dtype = cache_config.cache_dtype
+            block_size = cache_config.block_size
+        else:
+            kv_cache_dtype = "auto"
+            block_size = 16
+
+        underlying_attn_backend = get_attn_backend(
+            head_size, dtype, kv_cache_dtype, block_size
+        )
+        attn_backend = create_cross_attention_backend(underlying_attn_backend)
+
+        if attn_type is not None:
+            assert attn_type == AttentionType.ENCODER_DECODER, (
+                "CrossAttention only supports AttentionType.ENCODER_DECODER"
+            )
+
+        super().__init__(
+            num_heads=num_heads,
+            head_size=head_size,
+            scale=scale,
+            cache_config=cache_config,
+            attn_backend=attn_backend,
+            attn_type=AttentionType.ENCODER_DECODER,
+            **kwargs,
+        )
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        return CrossAttentionSpec(
+            block_size=vllm_config.cache_config.block_size,
+            num_kv_heads=self.num_kv_heads,
+            head_size=self.head_size,
+            dtype=self.kv_cache_torch_dtype,
+        )
diff --git a/attention/layers/encoder_only_attention.py b/attention/layers/encoder_only_attention.py
new file mode 100644
index 0000000..5e99c99
--- /dev/null
+++ b/attention/layers/encoder_only_attention.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+from copy import copy
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    AttentionType,
+)
+from vllm.attention.layer import Attention
+from vllm.attention.selector import get_attn_backend
+from vllm.config import CacheConfig
+from vllm.config.vllm import VllmConfig
+from vllm.v1.attention.backends.utils import (
+    CommonAttentionMetadata,
+    subclass_attention_backend,
+)
+from vllm.v1.kv_cache_interface import KVCacheSpec
+
+
+@functools.lru_cache
+def create_encoder_only_attention_backend(
+    underlying_attn_backend: AttentionBackend,
+) -> type[AttentionBackend]:
+    prefix = "EncoderOnlyAttention_"
+    underlying_builder = underlying_attn_backend.get_builder_cls()
+
+    class EncoderOnlyAttentionBuilder(underlying_builder):  # type: ignore
+        def build(
+            self,
+            common_prefix_len: int,
+            common_attn_metadata: CommonAttentionMetadata,
+            fast_build: bool = False,
+        ) -> AttentionMetadata:
+            new_common_attn_metadata = copy(common_attn_metadata)
+            new_common_attn_metadata.causal = False
+            return super().build(
+                common_prefix_len, new_common_attn_metadata, fast_build
+            )
+
+    attn_backend = subclass_attention_backend(
+        name_prefix=prefix,
+        attention_backend_cls=underlying_attn_backend,
+        builder_cls=EncoderOnlyAttentionBuilder,
+    )
+
+    return attn_backend
+
+
+class EncoderOnlyAttention(Attention):
+    """
+    Encoder attention is a special case that doesn't need a KV Cache.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        cache_config: CacheConfig | None = None,
+        attn_type: str | None = None,
+        **kwargs,
+    ):
+        dtype = torch.get_default_dtype()
+
+        if cache_config is not None:
+            kv_cache_dtype = cache_config.cache_dtype
+            block_size = cache_config.block_size
+        else:
+            kv_cache_dtype = "auto"
+            block_size = 16
+
+        underlying_attn_backend = get_attn_backend(
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            attn_type=AttentionType.ENCODER_ONLY,
+        )
+
+        attn_backend = create_encoder_only_attention_backend(underlying_attn_backend)
+
+        if attn_type is not None:
+            assert attn_type == AttentionType.ENCODER_ONLY, (
+                "EncoderOnlyAttention only supports AttentionType.ENCODER_ONLY"
+            )
+
+        super().__init__(
+            num_heads=num_heads,
+            head_size=head_size,
+            scale=scale,
+            cache_config=cache_config,
+            attn_backend=attn_backend,
+            attn_type=AttentionType.ENCODER_ONLY,
+            **kwargs,
+        )
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        # Does not need KV cache
+        return None
diff --git a/attention/ops/__init__.py b/attention/ops/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/attention/ops/__pycache__/__init__.cpython-312.pyc b/attention/ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7783abe34b3d2a006162bb7adff0d5546f62168d
GIT binary patch
literal 163
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIq8?=7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxAul%(dBWCFSQ1;zUD@tJv<CGqik
j1(mlrY;yBcN^?@}idcb0G6Hcii1Cq`k&&^88OQ<vee5UF

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/chunked_prefill_paged_decode.cpython-312.pyc b/attention/ops/__pycache__/chunked_prefill_paged_decode.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74a829823cab3c36088fc92d23379756c1c22b23
GIT binary patch
literal 13417
zcmcIqdu$uWncw9@T)rRTLnK9sdYgJbEn9v{mMlxw!;1V!owNk4rDRH!s4OY@fnlxO
zwHK-Foy8_N(Lr!lir}JL3{=3~9|^9wx`zXrv<1pF4TxRnPz9IbkpI?=(L3Bfy>FIW
ziIT}EJ@nS{?Du{1%{Sl7d^0=q<NQ*qRT1z6W#12I+6dx5Fe5%)8RE-FQi50`Xo4n#
z#C80Z1j$*+bt#EyX;3yRzb+SOS+HPMaa}P>U8jJT(*;50tm?XoBqW5Nn6`?B_ue3v
zPZ#a+BK2X0_>fE!*R_6Xx>(HJd((>V5TfpNeQq7UcG|sHLZm=iF4BANNeNB)71Nb_
z5|N^ndE}}*ay7`S#nO9kT9Zev%_G<4k?Zrw4It0uzcG*8lt*5eM{dp|x8#vqL7uB0
zY<c8GdF1vyaz`GyGmpGDkKC0<UXn*%3i4e2?9L-E%Ofw(Bd^FUpFBoaen-9=^JXO>
z{-dkus_&53Eq6#y%@;V}Mm!{^_D(E>BcWMuXg&<AVPb({{BsfSe9#w}3^B7F2`7mJ
zxq=82h=k_8z|#%XEEA!*i2ruP>x)D{I}n=lPTry?Bzs{DGnyb^Ss=c|vv-X^1S0PO
zMU!`7K>-@_#|e*Qgi(O>1E4taHb>qG<8p5I|6FZ~%+5E>2j&|hK4!`vX}G=6dHmQ+
zr@tu}xY0C!Cvr11*R&W6&Nl73&;(6rnz*?zH{++h^NfEo5Da?feN({E{)rInZ=Aow
zDJJN^qIYtR(Lp^H_#ei}60xJvu97Q#tKBOD@iJEJOvs#HLI%O<=N4wYuPykQJKmdq
zA06gQq9EW8d*}U(cV>~ZzbJ#6Y1&V7rW?V~#EduMyAkwz!_bYipVOu7r8#f&0ltOP
zhZZ993z3XEC>#*9aH^i6(Q_BQ;{(_GIOT=D?%p(M*d@J}x_f*3dO5?D@jh?&&_K_C
zcYJ8{Qr|eI8y_0z9T@5NUK<$c9lge=aVrfOUuL`$zKNTDsPdqs<poLW3zD`MB<;JB
z#TP7#l0D0!WY4lFY2ylEI3v*8H|}IcBj}&wl(=={10xs5IRz%qUpmGqAn^_ljAV%J
zmnS@UATtjIZy_vyp}}Dp$$UQuVmdo`Gs-k6eqW-VLo_A3nzg8cIh~~~6RX~Pqe|q#
zlVP_^-PhBnCHqR%qk2?_r&F{6HPDioUV>nxcL?N()}dOYy(=fO+gGqxzev#}(tVg|
zH?|yYM0Lo3%b`a2aueT`(8Q#~4mrq(rGicqYDBeZPttYFfQ4u?Y6iIm(|4gyqs>_@
z!hL?=$;!>`msRu&S+Gr70%L*44W4Nnu?L>WE<X+9dhprp=a#H`bBzm$ns6Jlv<~qO
z_Y&@>bT8qusAazlHSh09+&i@NkxXn&v=w=f9`|mv4ONA+J;Y1Yfd}cP$cRxC(sHq7
zS?xE8xqI(N1-rGi&-G-rE>|DOP@~X}=3Mpc`F+SJ<n|&n+oJ7RKICa7t@zq)>d3NY
z-fOi;Asw<#Ne;D^nFrCMS=Ms(Pr-q?+lg$9^N=zMu}}An{IQ5_*T+s|79&1-Jc6g3
z@W2c`F3Nj}Rp~cF5GP%S)Fwx5!U%TZRE&`5iL6q&qk7MSlZWc=&d=y6bOMzMYep?{
zi>m}Wbzl~h?dF`^KOa!Jm=iq>mK+&NPEne+l(iDs@zwzq@8%2k_U0gR?dAwR>?;ZF
zMkQi?^h{PObB(kFo!Ohwdv^AX;aPNc+L0Notk<+Fi^-7Uo{Sm2clJ-8J>obX;<HlJ
z!>!C!3u?{fuUIPDJtw($HrjniEmCxPuV?o9eqYb@pq^Yc9nv#BxqSZWxhwj9h|elf
z@Bi2{=b&eLqUTT-GGhx_wH-2>a8E^hv-ESVc;+b*b!N4*<i+^OTE+WN?}7Q%hrg21
z^I5gz`05_~7NPU$uTid*Ui@PG-^U}`kNOdn<&pcvHlfyg-QxNt%u6k_q91j_{sQl7
zE}$Zs6!tZ)EIT<`cJIQyUg2O-g!|!MKTV1LgEbpty4Qd2*#33rUhlmNxWrzqSv8dB
z@HG3IRrz8*)G2wS6x$-cqXSu1t6wYyJv6Z2FYJ>TsnNl#(noTX9?Y&YdNE5oS6%IB
zV4w9NbQBF8s2%S^j-n1Ug!=_u6k@jn4Mf{f_IJ^p%a>e{a_?NOH9%}1Iw$tiT|Dkb
zSEWB-WCVECalk9s@qt&>Ow&Fua;@2F(Khyf-?zLrhtEe*4LY(LDMw-VYZBVshzf<c
zfFjZ1tX{3pVS_-!2fPKPtTMS*hu!ZdF1xpa3ajeTud|1Iq!Rrmi93WxJ;FfX6T)eF
zO7s#A)v{S%c!raQA~*faU0Fk5ZW4~~ayoKn-v6IzHU3P1PyO+aAeQ-V2LJ?Ma4S7F
z20D=7RP#(|it){Q12iWKhI}+v;A4DqQ+`f<3rzX}9SCu<z+9w-lT9uJgPeR4v?82B
zc(t{1^1FT}6c&!#oLnf$G-AUAfv|US{un2RvY;lVLr`cIJeXaW<)lDxQvdCFP8tSQ
zJ`wcI&U11ADj2_Kgi~eC$MX?}Q>M?-nAFbr?_^GynAI=(f(!mE0Tm9+&3JK^A?r{M
zhj@@^!v5F1aHLFg1|Ogd0dF`Mn#YHH$d`vFd_g~_nDJ(a#SEbZU(%#EFt^AUpluA^
zpfh*}%oO4T?@1X9GcXw8Wbmes!Kes>w|R^MCr+GT{8BiMGkEvF;7<TkiW4_Z%5Z`g
zCZ+->cnM;vaDt~gS13XXJ|=?Oft_Y*a5i2y7<>d~@C@J-xS;|1Hm9Ch6c7!8DF)of
zd&3u*xCyQB`T#fy1MU(5hW6j)oH=qs^O?-Tz09-^_+XwvI51)&*w>`9LX(qWe}q#C
zav?G)Ixy=MC~|B+R+7;rhdFYHllmqm(yn9c>a5}6R2X{^#xu;3)0}Dk=ACc=1}iNS
zYA?XHymMUoO>@+uH)EZe5vhWUULm~6i(J9g40)AP;ocH;Z-f@+XdiQjqp&pX^f;#$
zu`ukJbk;k~k(W4W5Z-cMaQ>!`!x4hfoV1zn2#kXJ&-yU1coLj_#?Q?8MZ{|t74x>z
z%q_^rVHO^Q#b}9m{xV7EjrV6)X5-ySUCC1aw#mHK5NlW`lcw^ei=QbR+clo|Z@qgf
z(bV(!8rw9KtQk&FmD|-v-k*ARD$&^exSwsj_=%5g98FeVN>CN4lH-Y!FS8{tCn#r1
zU9xU`qApKqOglA=P;AHIPE>TTmX4oDeyaRfnWB^lb>){*$?<|`gv45~G{UP0W!3t(
zS*jzYDtg-(?~U77RoVIot7?5FC6#Twl#m-i$ymBxw@JR+l<4SZ%lcVE|I$FpV2^)m
zBgDE+v4+!21D`{yZm-;aNAghlK)GI)sOm@-9sS787WF*te*9WeKd_}AV)aA6dg<5K
zKE0OIUs<~Fyns-u?<-amDayDy#8U3}THinZ?(vPWMDy8XMfc;%UyzS$*or}x8cb;|
ztMuF5t5dADWZnJ`EgSSkCtKFWYTHse<8y^fS+La2YY0afZmqo|A+vs_Hg9Wm_xo4+
z6PCt=x#^!Qn~VSG`nMZDpZ?kOQ_a{4`FT1wr7^F5o7GgMjE-%SEne_u1DMmQ{)-~i
z+LiLRTGzT_UCZT3RS6GJuIjla<8s1Sn=sUEj6=VwK2|-Y&MkFst2FnItQ<+08xl=t
z5`|}fCHb}LQ`J+|_|iFODfG_N%G7Fb{TgenPwE<$`kxgLRMEDzXl*JsmC_W)!Hb5?
zfyd*|r4pNJS^b<MO!l~Ky*6oVSQ-Qiy290#)#)v5*)qB9Dt&nE!8PdP#IZrPYVeaW
zwrV8l8ck4+&y9s^_Lx215}!^QJ<A2#BA+N}Od6Y(3-|&;Tbd|qVKpr&ojp-p&+6)7
zsI?6{I`it~w_8@Pt%MTpW>(kyOfJ#3fV$rD!?Cz5ORkWDTuLa7ydj@0DC3KpSEp9)
zt(UR-ibPE(tLwxDj|m13R3sRr2!nOEkdf7wC#sLKx}(pOGHs_&+jA2EbHx_3#a$ak
zti9zU>R*kIdmr1_V*`n?%TJA0mJ4>&#``B%PHw47Sar!$wL4|B;of+s^<me8uB5U0
zk?F^_4{V#Zq~|zmJicXs&^`5$@268APbCfKSGso$*5z*K>P$7I8^>6C+eb$pxBtTU
zxRdR=m>9qM)OhXBQ_YUW8h6CL_1=y51Mdbl$<3~0^=Z~}dRetyXj$uwb;bwdCpT;m
zU)0Cc)57j$Dplx;(?9BtPqBs7(Eh@fWeQx?>hE7zxv=_;w_jVYjNf7{H5*4*OY7#j
zpIAOx{AX8E)4!z|WHp1oYW;QBr(H?S)nyVEf#oZ2y|i{Ub~WA|f9=gzS#23hK~(Kn
zUF&3QW?8+Xw#U1ls9oCz(;5|{;&mG;*3r5-$J%=z`#!NI4VRX?KT|tX0NXp?9$S~i
zud&9e4aepT>*;2VJ*=h&dXd5*KfN*?H@?&J@ce`G>n$5CPm3Fpy2fQ`+VAr#=OLoQ
zZ@0whcxMc;g%wFn<uVDGP;zo*a&;^|_Ec9Ys6!MN#0pkli?_vYy{TW8<0vw%_Pt#e
zzZ|cLjj+1%Whstq-KrdZM3AnGLOV73WfEjc%@3ISiz|z(zBM{V$6FqDKInXNc6}_V
zuVJa0?@9S95<*wbUzZSS-75LRvenD0H8B;dax9(ujY0?O%UeBb{jvV|aME1M>S~vz
z+d9Mjn=3b0!}0$0YcQ3Cnqd{a$5KaO6^)-^Rke8Wtiy|^>A8xKE8e*9`h^r_TK(pa
zTGr|HPS#S#Qgx4R{5bGI;3G0|;$pIK=#$G&#xH+zjcvTbQdd%xI{%XQ2Zc;t!06$d
zGJ&@^;)6Fi0=j;l5`OeCELi}-BBsUstT!#-%Cz(@Xx_#9djrzZ!~z*DMEcj|NKeaV
z;FHBjXjxQ`)ERWUFOtE40YkkQfM1Xi@g_+ZAQDmql0Zr!DWpmygH(m&kg8Duq#C4v
zREsD`bw~-R9;qNTAT^{$q=D3gw2&4e9i(QYhtz@$kXmUQq(#UGsU4Z#B>#pa2~?1?
zRSvwTi<%>N^DI1Q7m<ltzN#mpRz&8sDD+d*_ElxSsw76sqD6U1I|Xm;bTN`G63ow#
zd^*QzB?2Rqex_9-wfBzT&4=(z=fE{Y%xhAzNQ5PW#9xrmZ~y;w$Y>X|$MW@ji#q1Y
zk&G^xIRf!!%xW#(%O7|^R}<Ndc)AqH#1kyEOg@d{|G<MB;)ygWhqiyUM!_B;yoUkj
zIzgi%(JJj0J%~DK8C@3C&FZ7Y_(laPhEdPa*T{~{s0gW$9?1Y3H+`r~yBu{P7xQzv
zJX!*ICHN$oMqz-)F;t350QmxYFf*a2GNY-;8M87WuH2D~Wk4d`2f77V<VIFhitLlJ
zJbp^2@p0$C^Qb~R_eRUUj{Qk#)`;f7ZO~!0lxNjaeZU!DQMou0(Td3KFOAc+IW(oH
z995t)_$eGB0ojlNDUcFTFd8Zt2N}{JEiyi;{4f(=_*@@p5bYofvZa4z5>~z{VV$cM
z*1sBIojW3|a~`}t(Y3;AS0}7<^}>4AAgpBB>s%u;zAlH=*@#!)Ig-X}XcMwR+Kh@I
zZ9z^*TajYAN%UdwP0PeqgH9Wa-(foKd31JvHw8N#Fcyc|Ihsc&+YbDe0@jWpJEU2^
zrR1DP_N;bvp+YEeLRk4v!ff7a?k+{2!jTPHry>6^U(e*x$@cYZ9vx?vU)_0hc2^eg
zrzeljsVqC^VEsAF=iWRz**^E>(aHAtd>)-_pZkUH>ILDOJb+C2>klm%M8-6Qzp{XA
z4UI6^>1<?c=ZpY$apY?pIm3~Q92w$t0B5A{E(qWjMrs6>Q)J|v{01EBCph(u47Pz8
zB`|5=hf@RQw99BQ6PUxtb~x5E_{`3XLc(dXpocK03kL&qU~bBL3xJZ)EdT~)Gq8|4
zJQJAD+&j6<X#wf-?gB*sCIJu?{sQl1zJR5b;G~f6kuZOaX$tH5+h^M{RL5-VUF(&(
z@WT9jh>7@VH{5S<3vKNB0)L?ZxGP-<`@KwPVphD&lfLz`ivfH=zz?q;DJKgD0F6t-
zZ?u0gFyZ&8nPFV1CL0h-;~UWKFsI)KD?x{;(u#tizl4&^cX1NM$!;exE12!W$$6ag
z<KzNP25>TnlZ!YR!U?XQxrCEH3wHJeMuq=$0F4>L#r6O*6|kNn7^#~+xZ{I&K!E8$
zBnX`+2OM(ZCMRD2?D7~O){v>hqn3_5wE%s>7{bVLs;d};>|>Y^!^su{{#(phP-pOG
z8Lk%LD^&BLTX3x<H0f>S3h{-eM)B%ZxDgL26T_-<|LlC^4)Yc+dmIZ?g1{RL%=kGe
zTzulp2gY282Lbuv3euN*Je8bW7*0+KKq)5|;8DQD1awLmLQc7hpmORg^c3dI-X$hx
z4Lk9-IKctH2~%Yk`OAs|Au|37>%D>XG#MC7z)zX)VUYpHZT5s>;#f>!L=UEAScnKt
zgV_vN85XeB41kD(kkh2^ho$>I4Y~?Froy(<ciT8K+=hDT^1$VR(GlUEl=r34bHkho
z&v9&f9+1uezQh*hw2@E*pu>y<oC+?X;du+|07n5F?FBSC%&Bm}U}!2335W5H;_HBU
zX^gJ;tFEUp{{pst3;)Bvgww+k!PgU%A)&CP3a#;~hjkC?)_o5eH_ow+CbqD7ncA^c
zY_unAO$nKKM`1}QT<ay9El<kYQ+CI)ZbxBWeeH>&Xq$5Vp0FrYztI))Qh0x+GxBnH
z1Ms6a^9oGCA=$z!F{L7kYk4)MG=!yu*J4UXSlqlGQwE~2gg0W!MA(n;g_trEwo=}L
zDJx;G<ZYNLBAiEfJEk0jrI>eOsu)u)OqCFhYQ7XxZd_X#rpgIx315M!O2Y2qt1wkf
zIBWPCOdTN#i=KIa;u{H*Ys*;98q3#P;IzLqxDDs;W8aT1T}WA-YcsK#^|IL9(kS%T
z+VR-&_*m@Z(oo7?^3eIfxjy!wWTWlJ$3Hl}IrhOx*4_#5T*_csQ^(Zt?wD?AfTsvb
zyQ*UqB`JN;{d+6--s^b(#JeY+HlN*U9%P#blg&ek@?lmFK<IEnKb+D#w)AdR?|$#f
z`>(wF%G1`Kt=1v7btu_7lBgVI^#Fs7CiJ6#VkBJ6th#yIS-0ivV4WRFXXnaLO6!c@
zeWLYjJKbB(de&LLGW5BrIN|Ep{C3iGKA}0kV|J~L#75RnCe6*u%9OQi%UaD^tJhJ|
z+P<v*++FeB`K`(>wz4a6VmMhjlDPCz(mkG#xqc@*_nEOdMQQJ=SJVJ$!g)VMIZ{+%
zin0oSX2|=pP-QAu8iXN(+|u#{RlK9IB^-^crg78AYFbm;GC;{nAj1LBg`skNn$<UN
zc0bW~B&d#rz9Ussu~p<@i#!`;Y*GEPcH81udnNWt%2c{unrQ8P97q^1rA)T9x>#MR
z(7tvmb_(E3t7=&VFofB@b|Q8{R81KB0Pw`n^PZwv1(=eGusXLaRjj3I{bthAw5<A^
zQg2aiz-Iwg2Dmh(u?m02l*W?M*ixFJl*y5@SEekkRB>I(Rt7$%>{ThJCuMfxKS%W+
zYRrJ0))UI|9YaydP|VAvTHQ0LT&em!(EwqlA&Ma6F{LAH#k?L<2Etj%8!=@fToCe@
zGJ|Wp1yfd{#KYS#RYW+-c{`>YL`g00#8fd+=;U3PD#5{DiYYgy%7Eg_iI!7|<_qzP
zb<Gn;{U;Ou%~xQBO2SpoS7EA}aJTX`m^wn#oF#b=E>%mo>$XZ;*wU8GvZtl(d>t0n
z6UAi@Pd+%gLB4Z_Z@`kqY)KQAG!w3hhr<tsH_DzC*Yhn{)Vfd92BK%}L{T~4fvKZ}
z&CPcL_52u7Qn}@7V_j{V15aJ2`QtddizsR2PhjdKp2Vks;!hJWZ$c}fxbKP1&7Z-d
zvm{Ycv*l`FT@4$)r><tco5bRtgW_|7xc8vAPY|C!DDD@;7Y>RC1o0q<JzK6O*44C0
zK6SP77X|UqLGiF49yur;6~vbgipQ|{*-Io*R>hAC^ktx%`746@RT2Vby`8nz@Ye(Z
z{Jdf*+mNy5`rm&83k00ZBOk$!$I85ezi~4Bsb}yGkokMe>-K;8)0+yTAWUDq_AW#M
z!Lab7Y<l;g6RtSl7H>MI_bBp7_=Pvb{2ewa?nAJIlTHUB=^tUGvw=Bb6T&Ism#Z*b
z<DQ3~H(@7pv|ZRP2%jMa?|%fp(;qJC<ZOsu2>MSmpF#${#ux5`ohvUTN%BiGL27?T
zRQx+p_gmt~?}(NioqgGVe`aMS;b>1dYPTHitfM{YIGWUTE~#Njkx*|qUUxi`kYw?f
zQbMBPF$D{7TFyg1yN)~@eK49TuEDQo<7Bs#EZ`jk{7~^~>{Z?=u*HPk`B3vf!@C5w
zgm9NXL=O;ODzI*xOFf|YGJ!28EVi`^u?u{Kz*dTEmB3bG%P+@X=4%A@h{$>bww3_o
zR}<6lbpl&Y7)<xk3gR0Cwvn*e*MhMi-z2cjBHJRct+=A0*bv_)u<Zn;dIP<V_zr=E
zX=Y!$8N11M3hXhFJua|aB6~t$Pm1g*fjup<X9O1JTE<p)y0>7KWd!Ha0+?SJL0?(`
zGb<zLPYYm9If@?^KPcu0(gK(^nYIq61u$U%cz$)|Rem%rfT@xZjHLxIcxl1!)1#Id
eV8O>p_*KK2Dzv4v#+1>rqtZS1FcLC7J^mMEilbBj

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/common.cpython-312.pyc b/attention/ops/__pycache__/common.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f626ecdc8d3f61a650a53eb8a45cc365d353f9af
GIT binary patch
literal 15147
zcmdT~Yj7Lab>77ri#NcB_>i;|C6TZw%GASpMlnT7q9mL0gOX!Cf`PaI2@(XT1t^K~
zqJ><i0-`hoo1}#DsNp1SsY;0%H<L1HXX4KEhtmEiSCC6|M>AEY?hpT?Ep<B6KkYep
zcL9)EhE68aneLDm_ujqt+<VWxd(L;xx&P>JFcdsd!>!2q=PBynv7kN<CG&*WQ`8K_
zQ5+qm&f%{vN{{Kz>1fRBqxvz!Im4LooROwN#u2;Pz4FT$LWU7%rL5*Sqjr7Rz?t4L
z+*O*Lv*@Vf6lZ>i;w*P{a^*QIXAMy!H7cdbFUPD>ZwuKtd&tT;LU!#I+O=U_0}u~0
zobw&SIfs?9QruR~rQMcuuTt*`>2U0@h4a2+Jm*}6OFnIGa5byc*RE1uw@Q8eD)sBM
z>%(@gp=uXgIx6Jm8t>9FuWc09#5INWT=ObxUcXBH2B5ML_JW0fhjtqnxdr&-S%puV
zwCBsM#*fwb_nY#A;aaQs;U#CGjoYlf25z<WueElD+X8F%P164MPmtC9ep+%L=i?LO
zJ@GitMPk8ZocHS_T{0?}l6)i?k4cukqusrM-V-lN*8ae2r_c2F9_<}eKVKwbhJW~o
zsV6@+;HR8aHj$!6ln)9UsSiir)2Z7$VpMA@zsYiT#8l3fGiuM2V~tVtzmrj%RijwS
zlPG66TCk}?BjsANt-ajVEw}~qby&UN5G?q69cT(p!K&s{o+@fYh?WN>89^s_uuqvE
z-m3N*LQ?Pw-qF1<hBxU_DRBn1_h>uJ0CrL9oelcj#odJ`RXvJZuB%Q3FWFsX*HgYV
z=H$~J4`&0M^_55U!R&q4>sO5LtsYs<!%UU4m#V26TSJfwHOppNTh+QwgKlk^F7OfN
z0;fOaRrhYyeOsqNNiXjk%v9kLjc33>&Vo}gs{1dv1e2Oi)d|cRr=`AX{@SOde%WbR
zC#(~^*P&&qp{l3WxoHp@$hm3I+N(9rO+$GHt4Gn=w}vu*8>{A{wGv9GTegxWp-E^&
zPNkZvdTMc=mU{|K70yo@{ifg%*a(J&r+a)nI>{!7Lu@b_-98kA93SG?Xd;wglW}%1
z&hw$cBpV724ztntU@*$^!Psb9f(<5<p;$5!j}bEQiRAc1vXi|UViU<oG|I+8KxI6{
zhvWPh8)OIhcp|YKyRtxjVh}qb{rIJ1Fao*Z5Frx=Ssbm9W)-rGJXL-uae(A-;_|CR
zU_8mQ?XuABd?g-<B}4qc<ao$mX^E|sH#lS@1~X-0@`*Ul#=~r4I5-|+&$CB5*uD<7
zm%UgX0-5l;qu<{_hNz++3tbJ!%lOSlk^6nFWn6)E{Ei1u7Qy4^49e6HycS7(f>KD*
zM`GcAzk>&*NJ-2%A0Og_V}S?<$~7(-VS8TKEt!IF5QajMAsP>IlJP1YImsA?Qc}{7
z1+Pi^(6w<%pO_ev^wIc`WK4j54*8oUTh*pZ&gJZrEb4Yi7InpvTkVj56T*c8N1mza
zd#0vWau7;Nm;U9&Bg>0@k{P)h;jZzhxOqeclJ!zBIXH}!l4Up)<VeoS1>)gwB9u%>
zj@ZOlAXYBgkb?S74+WVfGJ+6CW{^y9a8Pn82S#nrR65Izl4Ii%p-8@^=%i!{2M2+F
zl1br3GfWXbiPfI}esKrT*fAa%-<}NeL!spMYZH6-?;G74+7XRh+A%(v9FE6!T!}`<
zc9dnnj`(<D$6$PHEFS9|pOl&cirff5i&$WA9FKWmG{nb3QGOSUZ-xKFPB=Yj>gi$1
z<C}3zI|^M7-CGvj?V`K=p7;HAch(i%JJTl~xja*;Y^u=m(6xEd)h4>y?&;pQ+_4m0
zUFp6@ZtskB+L~|4f2ru+3XN;(W=>3>$Oj7z#hPvDmzOM*wJz@vEn7;AFE=JKt)J>?
z>*mLdH+NBFHhpT;SzDL%l+pdvN!c7zZP~V5d;YxWZ7(wZbk8HkKGmLW&-LVYO`k06
zy0>M{c(+4reL?i?{o5@c8vmwae*JxYk$DMPI^9#@Y&iFN{_;a-OZqsLhqJ@Et3TW`
zTl<4Uh3#VfjyccV@uKrk`gqA;&g{L>U)Af@sN4lfya8-*Zh<lkzBRiwSAT0qx~JUb
zv9~EdCVIEc4$rR_JCBLpW9d_m45piXH~KPP%G*RoYvJ{W20yObyHK-Pv}`Uh-i6vN
zBC`cozV$KVTd3PAGFx%!ZMbyblAE%+bK6DB#)5x#Ox$!(v>cotzQ0~Pd{(ra#U`$&
zCJJ_8C_9uJE;NdD+ltN(ScbPD-!r`(#`o6Dv`@E}tTiwJYwN7-rxWvM{z?$rdqhj`
zBdaqrajQAwC|P_@%m$w+ed;Mg0ejA7&*n}Q9c=p8BZq71jqDq_^M%7=ZCBB;GkvV&
z@a4kUK>FCn%G$o1kBN?s+3-h(Jx}21P=lDLkBYpX;K`n$Lex2$qt59#`kbEAy+fTd
zaC%6MlLo(0a`n72KmdME95ltX<n^Nip!!x+vXKNkkpTS#+9G%*9^pV|!Qmc{M1w?c
zfzm*QDHCE(o*3vHROf(mLZL`3162BG<O@^)>&Y`o-J$#M(2_k8i-maQn?Mno2t~sQ
zB*XGMA(bqFKqMAP1_IaDt(ab?`sT~fE`fL<O_iG2jNv0o1HT)Jg9>tmEJdNUf#~<i
zB}isqE+g=}@=1Gilt2r_Fc<U@N-+G8{yM#U-q1p`uiESD6irQ1{63(~?}x;1<PXA+
zWRkyo$uI;WShDk>p^0da4}fS%NX%e7mPnF(0w+pjlDvK!V2!B4pX*I4Sy1&d2>lW`
z5^%xhTC_Ebw&n%f<`UacFcp&T*=M5*?1}jikv);={m8!lvAs3ZyJ%l8+Slhf(cW6P
z@W8&4u&v*3LaxVxW1&DmVgiA&I5!c+ygd-OJQ0j4Z_I%J7at4+_(L!#e*}^{6d^z+
z&cA@Qn4E|I1hW1e>R$|}KQqwAmM12IahKc{TS$74i=YMpXGms{l8BEa{b2H%Wa2}~
z2|hN6YE*q}kRj*lHArD6^=YPp{#4gaN)Nk)Cve5X(TH35R(M-YQ)$JKo#%9<jR)GG
z9$WEnWeYZiCqZirJ@!wmKS^<hB#L<QXpeYT`C`69eNU&({cT#HHR-Bzr#0tpM0Zko
z?zHCIjp}%*-)@ZM{Lvnx!k^W~sPM;B#UIU8sq<aIAI;sn0OuiPNEuTm;Gfp+nvp{(
zGwcMOp%stHeL}^OvZffIvQ|4=$`0O$vOh%26)6}5V^}BH1qY<`h?eC{k7(FM_bhjn
zHKd$KgVTleDVG3e4kVOQun1PL3~fkP(1mR&w_p;?ob|i96v{BYmIE_cwr&O2kWO%a
zpZ<{vWSj?O99W{@g9z(hr~FJX1c$Omv3O9zm+_5aZGcvY#D=u3rOs81lmqO*=QK66
zT0UzuC}QFO+cN>CSu9EHF)(V#tU#QiR@*)f2s;`LMcE<ra+M7lkSs6=(SKmsk*2HY
zIC(Lz5g}A%bPY_5M?+{dwS(a5Kr7MDUX3J&RXY)MW`$?L7{|&69f0`lfabRYlI<ju
z`2=^EN7eNSO0?^3@CM9G=niz*^G7=RI(jd%V4p#@ixfK8p?H%0<bU9~-d%2ul9N5(
z-vJ#i!korYJ;TB$<w*tEuI-7)b)X77;e#v}8S~3@h~aWaCz-g=mB=6%A6yb`MqLHO
z`|U)AONJQq0t*C<M9G}EJP`_AhxSQigk+L!1SrP&!C}b}8XHee2INYPe+}38Iwq(i
z2=4WJ`992_z~m$*ry!B&BNE*w(Y+GgFB#&2#1WGAk+c`|Lm&b5kU~AAeLP56ivJ=e
zFJjUSNdmtlqCS@;vMzNmgX6$rJ_N0YvD?q!$fv2LX3AnqzxBwuzUbVT(Jz^xc=Otg
zYq_qsQ+eOJ4YwN#UALQOJr5e5D>*$=quJ4X%dJ>OU$Qx;_GS0wE`Rk43x=}`%{_mA
z^nU9<`G4gv_6{ucoLOi*TQr=_eBrU#c60K^WUl+|-^*`)_qp586<)jDIoti9aeK+-
zn-a1@{z%caF=Hq_)9%&V+h@BTG<K-%x^MkHG_$#;_GkC!>8~DMqVz`7l8&~y9=U3A
z12gBQ&lO$lg0p1_;BM;^J-p2vUScShcPf&N+&G@@PG8Qnlq~isCd=fyvW|2&yj|Bc
zbA9^yHw4j8lkUxI&KXMeO*3yzzx9n&x#p>bvbh(T^&+#rWMwkl8B?w%m(1A<1AlS;
zz4P;iUot;up6YcrQ@RHTI-Hryxt7fSbT6>dYA;!AFr=D7ruxsdRBx{_rC(ZVq&Bj%
zLDBPk`s8DSFWqzV^o`RGYj(`lEEry&w?8nvexHE^Sf0~o_N7k~7$Mm}9uOl7kwm!w
z--Tp>H{|mlL}aBtXr&SmVFv{cAVQ}F2NkfO6R6i^n1MaWqbiG(K3S%!<+9eM8%D)w
zQE63vi6fXEL3yy^f%X~>x_kPvlg$V%%Ff+N=kh!O)Q)&6^=eL_Im11p>J%ICsr8j#
zp#m9<$y&7@l!Xx}mKBOx4^C#is<tiwXHzCnx4IG3yDJ{S1WwrU$e^+f{ELEFiz^(B
z-L*M+9mlX}&m?69g{b3nU(unmBu-ZN<!IzGmcF8sBXBT7P@Smy1QVz~)Ad6{Hdh^}
z1JAg{)R%C;)R(F+2zRd^L@1GXME1cP(L1C^x$BUat8qTc1yCT%82L?jEg6Z-<j+99
z(v#Q)$;i+|d;)9)v;$<vq-4Gl0iRhgLFAX@K)eiAl6=f1C-E$X0*OJ?LA;;g!$@@q
z6O?tbtYu_m9e@?cVz>`qwL>D=VRh)5L7z>6h-YG5RRpRkO~<i!AUH(a8hnDs@XbB=
zPk3Z$T1Q#ji{?hr+?WqOFmEim8W${$kIhU)!hURXPaVu2ELlB^)@IS#ykOZ-Xj*L9
zDZ-y+XUW;H=-enevFD<zMRc`1H5=?EkS2D@w_(xSjxGxCbLmqhn{Uy!L9}hizcoiM
z*ftbxI~Q#SMB9P+-9_7r>E1`KjRo86z}&vYT_?m{C+_bmx=!EdOZQ}a;1^hAT12L$
z&^p_-z_b*Z?dhI>GkZ$)jWd(elLgPTP`I|(c0h!``U4qz$=fK8n=yk1_~Vw`g~D;M
zcH3-pe&{~^^HH($<U;Mq1@B4Gc?#5m%bV-TT+6sXSfx+O_6{1W{6%E5;U#o!Szm$p
z+S%@x&K#A@M_xMJb1E>PW_kz9#sjoRQ-nyY7a?6c(53?Cl(k|UX&Mz3xL##OX|~jt
zY1-7FL=|l<z)cHgRkq+)m$Cz3B_Xdh`<3JIq@RPMQ_f`B7!$1OOnRw{>w&IISR+^m
zAu|_JQu~o0j`M394b=fl4T%i>tkwMhX4?hhC`ug<fN(pRofqodSO?)9IQS_aNJlT+
zUjPZiQL>DYgFM(;aNrw!C%+*SY5>w(<p7XO^Ec{UyOO40ATzA1;<A=bF$)$j158yx
zR}CFg)-cs!CXE{xLak6Qcvj524*7A<pwgh%;&zSTTZID3P<T@7s@9}Ei*>8gP_#F?
zXYLsL3HFt-w<4eoW5L9z-$H!$JhFmEjVc+5m!3z%O)`WhqEX3AeDu3^@(`A!{0)-v
z8pahQGhh#ru|-3%q2w?Ln(*Zho}WOHS1`GX$u&qM<9LJ%T#|p1@(+Xpz^fgA68><K
z1tfa{T+m60jsWxyT@C<w2+#*`x{?Xr^6{&Z^-3@bq)7G}{>U@IDX9e$CwH-ogD)PM
zCnVD~@|!>fTM_Roa*DJMj0Xot130|m!2SkwT7dt=4~evYx{d-5=F8ca^DRYtbNc8b
zyK~i2$?nM=&z}D7rFSE@BeV4E-r|N`qJ3BT=&COOKe|2O>2`Q?d%k`lLzgV>ZyuRB
zK7BlYYPRL}>0(WXXz9pWz)$OJ{22VI=%pPk92M*QMdx$r<Ivsd%MD~Nq>o{?E^iba
z>%qb5sms?-Z!8=W-Or^@fV&vVrf**^Y|dZ3?V4>7*KHHs+h#*^y}xLgJANl7x(`7s
z6Xk2npD7I7zA$@KT;KIU*Bm#uS8P5w9~7IvD0;v6;g<V`e+b?;|6Ql(eI<QL9(wn;
zJ-NNvFXw}zV<Y%_!H;}3do^z^)GyTgXZQc~(qE7KWTfcoh7~HV-t+nP*}4ztx!rT-
zI~(U;5dGaB8IFJl8rFth;x`L#{^jMl&9hg<Eqmv;id$ZM=;#Kz<<46RlOK5IdgtoJ
zw*B+R#I_^<Z0L~{5V|xzc@Ywc#=wevQYEW$CMLkTy95EwQ8<4}hFb=l(bqxL(A)6U
ztma2e8I#J#1_G}PAOTMI!ntolUk08y0DY9!Ef9c)dR1)zI5TTPa|5AZiJ_McXsvt{
z@M#gy-=pcLDnn!IG9MJOXT_to94Y&GDh<?ks$xkol~}o^uLr$0mN0rJHGDo$t8rfe
zV6wu^lufWEQRt9oL@UzG0038n<r*z5f<bKwo+W#-Nu?{;k+*^wlr=q44MCI!>Y4#I
zTLdNv3Rr%GGL#VX0$j8MfN#F5@DoJ;>L;QJeOcfgGjayb(n#*Zq#S}x^K3ZEoVE!z
zfa})aw?O<bD6?Jx0mXuVnh3=P!5;$d87>kILr@jGL&`Y^2N4D{SQ44U$OiFAY5J_d
zMFbudwzISIBD;Ngw46k0*?x?VB;!el)B{?+6e3adWPB7zlIh@-lwpC?5u~C{POWF*
zT7Z0~fJ~^|t^6?_U_nk#gwQ($kr>h(-oaI^p>kX0Ydye{42yOJX_t(Qh0xUl(@}3H
z;Ed$v+%wI?p&)qLt9y_Uo^gGl76?Ii@JO);V9OkmUnm?UefhWGT*zwn70e+9;a|n1
z9}<X*tk8v4G&-&Z`Ef9IFbhg=D3s{;yNFo?F>p|OW<DhQpp4KW6va4ul1H;uGDMQ0
zG5$>?AH}5Nc0vnXG7NH&D?I8f9zQ(4lm8ax{{)j6O!AoAh6G~Ed}Ii3U<AleM1xBV
zC{=lAj=*;w!y2+mCzcbsp(Hz~Tewvr_e&r?L6%n@S(UoVniQh(aLJDUb7)AxDNb|}
zO}f-U)z#0uG5tom|B;!=94><W^y&lihLXK8-v#j+(0;XbGjC46nZI1vRIJ^SVM_M8
zMSHVoZ_d9e+BatD$1XSOm#iT}XS$$qhIwppO*yiTTds8XBbzgGb?U9`TeniOQB`!c
z7Hyl;y~MXOwJp0XcR9bgK<A>fUGML^vv0oZmwSJ{_aW1h?s;r?eC-N$&F?PM7hV2)
zFT8*7&cV6M^KHd#M;2^7U}+h^{UjP1OBOHj^SGvLS=%iLds@k#{gJmmZ!LN^mE86C
z=k=9*HUC*}H=3Sq0AE|xTGut?cjqPxhv!=6HZ8R75$pGW@um3OI*QJ=jQ(-OsKUJ%
ztcLGpW9i34OI3kJMK&VG)rX_+0^jjTS=MM-mT+sDRTX220qI8Wb5+sSHkM4PJSIlL
zZ*63OvE-;SmMrS(6l2LLRNtSh=9<g|aJ2|doPpYp7)y@NWh_~$`+-?zQ%n&z<Xoe`
zd%;aiBo9O_Y-E*QFqS|Q5%&zKSz!QFZpGR0%?iWG2Zqy1Q|s6Fs1a7sQOvpOTYy?T
z@jYYQ)GEe}a-vdenOikN-KsPc-AE$G$QHk8g%!f5pqAJmve8iwmx_oaMwrjvz?W}h
zQjtpNW2hJ!{2yTP9ZbH0$sb~J6O#-kSxml)$t_I&2ol+xL3_ffjHK8R{1i6HVH2D3
z291dX;*yG}Tb7gMUPE9awnFr&wgh^OzJL-iN+jUZy8j=x#0vWX?uXRpYenY<FgPq!
z9b4ElyZgOEb6dpLy}$6x_s-Xgo4P;j7B?LgYmeSH-sc_+oVh>rE2mg{Hr+3q7018d
zT}XmQskvkJve^8*=zV@}&wR}<F3;Eh<gn=NUd5V#n<s74ZTZgGNoANF-5(wkcbt6a
zJyp3Eb3VUq_QVIl`I@;QvE%TEbz;Zye>U{V-gAetk1`w@td>q_2jl5{G63g%RlIMg
zLU-kx#R}fv23SzX=^H76$uT;sjrxs%`^&C^RdK&w!TlgNG;u%76(hjl6b9s9B?W&i
zlKpjYUR4T$#4qE2%{Z?Wa6N<yG*Q1M+ONX(j8NrV*L16!09`ARrs9UzY-y=j0D$Xl
zNn{v#1RG`n*JEV6>`YT$!cQ63!%l!q)(LvR@Or@T2;AUVhT&K4a-(2{um;>Q;&cjv
zw+oCWg147B$_NY~cuNo+2n-60GekbHK~_GGEC=_ExDX47o`=i1a{TxbqI|%^7?@Up
z8Uo(2U{VgM9u0>hgAoM%N{BZy20==|!AWv$NfYcZJO68eTQ<zc$H)|kJ46O?Wd68@
z-xBiwAH#TA5{I~e%+)GeM>TG~z(T0HU0IEvERR18r=VYk^#svZz`UVK)qDq9@!y36
z?!S_N#`mz|PcbQAQj5uZn7oOJ23qI8k1tRu0Er)Ap5XK{MCX5ib!A;A5kw7(S&q<&
z=dBN0k{I!yK`w!xFz!<MkyVrD8O_AcLCaxON!y4@T6&JEYhA2u7i-&B!g4QL@D^GY
zyqmLTz}ve^jctpKJH*BvbKt$1_ZAxuK>)zsv}kV;?JWgJHUmJf-6Ye>GT0^Ofle8`
zU}&{xj!&J+p1Sq&qJ4vC-%zx(MN3P%`(wtXAoG@7xNvcC%YJdo{twqLb`OZ%0}q)q
zpAVbkRWCzp$x{CeHit;8br~kFwE-r_aQHGzo=fIqv#-v+wy@!OvHtnh5xHO2e+*(^
z-$dqP;;$ilEp5d6vYlK6?*?3&fQt^D>J<&N_8?k?sz&mVR`Pchn1Flq2^kF$Lry;u
zNlI37VGiy;@Z>&$d`H1FKqQ2G$lk!ALztj{yJGkeV~ZRuvcvpwe7hTyosdYDL-K96
z!~D;n2s=+Dz64?y!ss;p#6;1K|DX>2E7cC#T4%Z0c%yMi*H6<gEUm+vq0ww~seu$5
zDYqBn`JXjm@rj<&+2w}+bxFt2yFR5LS!(R2>6((&In|tPUec4o`c3a%xP3t>?B1(n
z4!<mC9vhj=o~c9GL;2cwn{UJAzAd70>k}jPTzW-EHM1pG&8M~&+6Ay=rg<8OLjJLm
zH$om}?b^6x#+-#>8lG4&*GHF^(n0sq@W#U26mAGhR#IftqKy>octN-$+p**zMW?dR
zB^N2W(LH$~dtu2#ie9DonGcH!8!-DRM^g<O@}ck8bE%TA7XCi99e{b8?PO#<<R3e{
zgpv{RFmHG5k{NRr%IR6MVh*m)dX}&k1OrXBn-^|ec;dhkpmKF<+UOJ2>mfx(U4V@g
z?dtLzr07%^;37qJJ)e27s4RfIIY(19bvSS93ovirx|u`MhnDn^FV7qDFmITn8FTWy
PF~=ygeQJXeIeGsJ0D>V*

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/flashmla.cpython-312.pyc b/attention/ops/__pycache__/flashmla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ff990d84d1fbf0854ccefcc1da13d04b91f28bcd
GIT binary patch
literal 8343
zcmcIpOKclSdamZHDY7Z*{h~CkvE&DBJ#3H1wzM8+{E}zZGfHOc>}Ivjwp;9`MX~u%
zcayRNI?)CT#Ks1&=Vbe22M7>5zIcEf<`5vrC40z)94{cIcLs0}<ltL7ngGG%ko<pj
zHy<+TwFgK^EY|a{zyA6kUlso)5(yDVs_)mSUsFQ<9V>3y<rKF6&P&K$A`_WY$s&Gx
zR4(IL^l(`As@{xm(Z|X@)t?D0@*MFH#iInDa5ja-4ygN9`dq^G?<Y=C3wGG_!;5~|
zzbIrqa$r$-<5`_-R+P<(%DmF0bSphFx4{#V^bErqNsk=-m2a`PO<xD}^|k2>L0^9d
z!9RJo99GE6WSxJvBn!%*9Dz?KeAv2jROyzxYBl7k<;>Qt4%eM>_pkhmL-y(p594xA
z>p607oA$mo?d|r`4_ptlnKRg?eMlL0_B{;y9%(bmmQ3umy(qWQ*N*sMvK*DiK$atL
ziW6-m_)eR3+wrptc1=NAZ^=>XRgzw&se=42@EKd@#)%S{AX)${3vA(M<PP^&x7NsY
z@6X6ub6=G8mE6Ago)@T=3vtd2r?M$SRCCv^DH>F}5(Q0DvWA#fB_o;BGB`v`6m%n(
z5p#L{^1K<)6r-SJ6Ru+8H(D`x0J2RXyGsnn?WA+-oZ)GxdDgvg-$L9ozwtLkRn1I`
zNmbI9GpZz>r74|ea|V@)Qc9JURArK?skEZ5(>2NNN#rv5l&Z*7E-2K<(NtD1B$KH`
z3OJ_OVj@9{il(P>S(?+RMD;>GpVJH&FKLP88kJO*8p{gM)(x6VQbW?NDX=OGQFNs0
ztU_V?)5z%J4n~#hhLXiqehAAFT`HthPzg-~@{c{2K^A6zgA~NmKRNyJC#TPRa^Bok
zZ*Ew#KHxFgM#+AEX2!_mXY#51l)aa!>xJX9C(_5288x*ulV3NMbJ-c(#EfJB>jtns
z17|toiher3ZVreky}n%S2((UEU^jep)VxjdZJ1gfe^=<g1R@-?Jie}w1*HK^fZisJ
zz%yqWaTN-n5ssfH#P#P_V8jh_gDVl;Cvzn(>A6G<oWatH&n?xz-I+4;*RnT#oDhv$
z_pSTmf$z_TD5TGsYR-WsiM7MWU0s``1<(~o9Yjr$bWoE0xjf23QsdKX_PmB%zvzGr
z&;7l5RLxI6IZe;Oc`K-%xh!a7jSf`lN4b1n(WtBxQwc?%)`Bqkv6qQW!#$Y&pj@Ke
zEhePAw3Jd)#`<FqSe`C2IfJH~LPlC&QXIx~WP?&Ig7agI=OQB`^{r`xFybhD^dCXC
zNxln`caJ}#Cn~<N&5L(N|1~^NjrQG9%hBEC;O=ku!7YBO!cRTpXP$Bu{>W45YyNmO
zda)Yrf6e**0x19goL`Z1PfzQDMQrKEJz6(ZULfYcLpW1AgiCoz`#q;1Wo3Fsl@jSS
zMOB;6MC$>98sdv4>5eu^S7$3Uh<5~re~4550J66g?^pXO{AtVM1rrInCSpbs61W*r
zS5{RxN^>w<$cU?=kxN5O1Vs{;6-gG;W*9rLtT$Iy%}(Sve?m+b87b3e<nrl602p)=
zsvtAHe}KYWQu1k2CI9BZx>H_3{o0XQ8Qcnhqn)WlN?ghF#4%Jb+1h}XRFRh*X(ha)
z0jf6DlDFh5`JXs@xkTce6oG}9ZJySy6*Azv^f^|YqD_LFqx+X6Be5*%sSPDQNo8X_
zj}ZcV`gAI5ym!Pl@G06x-ZoM6Aehdt79^F0f>(yG;?dCqjE;Rgt8`|jp_*=7$vMC|
zdKuyk&{_gd0TCxnS;wm*SDX20p0(OI%Vv}UVem>2z?f{9hjLsRU0YVN)YfQPbNg<H
zRk9dgWk;0F8Z}3Mx~xEe)L4{EgVO?yrD$43x2%CP%u>)ojFB11aCd^LI7dHDvM|1o
z%R&Tyg@d&enC6l~9Tp}T5AJqw73O1Yi@;SdR9{VHWpuAsVXK<7-ZUjI={iJsh}&0L
zJQER1tfh=)*Fr=+GkfSNb=PIGklBps5Tj%VjhbQ^fG|WI_AD1vFvyHzNU~%|%}28z
zHAByc;4ut+l3s>6m)t3z!i;k;<I)@GqMnCnpf{;6JxC9?SK)ZT^fSFSy%541kwXJS
zFvl_Ipde%=k&{!|Yqf1a3x*IlJHT~JU<`Yi!)<5816mABR2#)?46}DI!>gZ0A=A-b
z?E|zUR+mf46`i&pM*JZTU4m?rygWvN1NSEGO@0&YyS;vEeJeU$iB4}tKd(eTuL{Fe
zVZ15~Zu1B(h_55`U5E(Xw`Xt7ZiQ(jOt->wmGE3O*k29qss?-6|3Eb;Y)5z@U=iLQ
zVA0IvR!!c~UNgL;<`QYqK&>}JXnmrb%7{gCu+3?kA$Gv*bj*mJOBxyJI%tIi^8*Q~
zpi8RRAuFswT&)+=ChzEK0;9K^u*_Vt1~>>@GQZhVA}elh!?%lVHo$S-;7h_UJ4!)~
z|1pt$F8cWkuGArO1yTxOo(9qC*za%X7dAfy>W+(UAYQ{>ascOPa|R+5mR1@Ah}#A{
z>`ZN)w-21Rr^J_nC4VVU>L`VtIBuTdyvU8tQl!+$Fy8CeL?F2%tweV;K$QiI<~745
zq1~EsUW&j5nYF(XNLHJy4?LE#Dnf7;S0@|XI#gV(alqmfb(9OHqpmOw16Pojt|@kf
z1*1kH=@vv96mth3sBm?{3>*M!;2Bzkwbus27USK$h{ZYj5m*BSYXHB%Zca&Btoifb
z=L+A#4K{F5_xbi!5}fhUI^F3tTqf#<Sa-n<(cW>FjpXT@kZrQ*Ihs^+ZX82jhM|`k
zH^%GFF8<;&ge-`45C`*lbsZckb>`b#;*@hrQYxqhMxw)XhU%-DvEP+*O=oP^F-Mnj
zId!@oXmd7Q05#}Y8sc?E(rbvK=5Cr4C0>`NEd#a_Ks>+@?f`jBN(t!GF<R5l;3|Xx
z6U!LE0qekxa6`hIkSlU`B?#sXl78EjF22D^JD~@YOD(?tKp=vrF%R2A=m6UUfP$wu
z|3@e2#h=)?5zJJDJD>uZl0=}Bqo1EYeeToq)0rA3vJpp<0GfOQVx3mTh>QO~1oUR;
zr!|tnWifr6Ey9`0fSed&qWW^K0M88oxO8~rfQ?Qa#>WvbDgdK8J@o;!8Ip>ymU+Fj
zWBf=9WheufNdXv^mU0DyF6Y*e29he|>#*!K;%tqvfL43SqQRr#=;(r73lfVp8*(jI
z)s-DYnr6B?s=G|rGMIiXy!c;8*X+>p{2w=tIkuO9w=NXd)g;^jl&dtAd=<k2=62xg
z^u|foSXLQEc5CSd$uH%MWr}bZCC@7O%!Lgv@L41tH2wOrl!sRUMOE;U!y<>a8~U_y
z%qAc+dy{K$Gqi7g4BLVAYJ0IKx}zr^)#5nq0A>d<V*m~xrL`%{rZJnr>=0&$F*|}8
z19k5~3D9N1FvAU^)-ejBRx~6V?+vuZ-P#8*VFNxoyiWq^v#xR^*k9&Ht3$&N`1|}r
z&;9TtUu9_OW~9n@midvFLDDx;4qht9E<Fogy17vm`tS9Xg|UaTPkrU_qhE*Lw}{6d
zs0Qb^z3^RzdXNO8n}2@q@PkwLPd$qre6;#??9ewc`e63{>{e{95}VtKEmUF)RUuLp
zdaJ?!Lzjar?_n?#TKeICdr%k+Rf0n|y*Gbu9V0^YPPiP7m3^`AVr2APo7|yF?9f*1
z!%FPK*OD87m72(nG?25AsV7}DgK&AU;iOj<iwQr-$xV3cW?=CI6dIpiTHUbgH|Hk~
zjT`=wpWU6$!Zn|%y7O{UzXj&O?cp^nt!P<AwQoUyi)vROfJ8sHtq)C57FW}MI!Tw9
z`5ZpRNCNr+=m3M#MX*tpw;tyBp*lgFfW8wbHr&insovgo;qneUt~i}Y?zDnv?aOyF
zzL8XTKQ1aPC{EL}61*4V!yZ`u`-hLTycF&SbI2ErNs6cpUd!Rq2Cvh)5@!n`_otbI
z#E>I{aN$wi0aMPz+PFFa<}ZN8YrLnk4Vy+?hU`#^ubxSr_8hIBAdF*2=MZCVvv$00
z=OjHcwFD7Srm(vyy^xtwuIJedc#%UVWcE1EV~+BO;B??>$Q;cn=-1F~X!ua3eF&M!
zYl;qVNPp#eI8=8R%@nnBFz>hU(cgs(p4*O+XwO#XM5S}$;b)ILk1jm@=&QuD&NG`A
zs^Ol^1!hZe@51~-JOCMfb1C>)k;F%t>omjc-QNCbLqmfyJ6VhS(}r$8(E6}ZL*udc
z85G5=lu<;{4A^twN~gn5AhKk3vH1<xW)0tp&G5$={GH)EKIxkyJH|9z%Qbw|gzI|&
zz=!EWsAGC{L$e=?@hMls2S+n-8K5{&@`8P^tF!56=f@l>6Ox8^E4F{z0|!rLa`;+t
zO1lgl7*q7W2SHd~j^nmNgp2$K8UL0X{FaRWTSwoWKY7;i&Sv1bH&*ucZh2!BZ|t|;
zF?iMY@BLkH*K;~i366nd9ot>@4YwF{=y$>R^8?eB;650%Z?fzgw*paa;GzGa{OIh{
ziN`-K?>$zb$F~VIS`!`6^T&^lKJ9&Kd^u7+_@m06liLIutswz=lt<^Dj(_F*@<4g=
zWM%IM+XNb|y=2#THAbt0v6qqkT%g)Jbob;JCoM0OpN~<?58qaR^z>UimV!{aV|+1U
zbzm(-`iHGBmIM;+yyLrdz(N{UCkcdazJL4Vt&{iqAB^4~Er<71{Cl^f*q7wU_&!*r
zx+jkRu=4o6m$9F6+-Q{-{<8GTlI6w9^GMI_E4Qv#eykt^gLg;27`1p-g~&C`xa?rn
z5b5r-!mKEecg7!Fxqroquxcmi9=I!fAy`pX?Sgstj>7J`S+$2mx~*PT>?2+Mw@bH5
z_vA`+x7E+u2AbLiS=$iqc$gJONM|pyc<)>#LM^rfYqa&o$Jm5F^N_CIm*E)KTiYp=
zp9dqig<FE<hcfKbrfKn53zBG`)q$lD2}LZN34(4G?Zd*~mj1d_4!>9NAN?)@BmUbu
zA0Wcue-h5Ww@UXs1MTuc@qes7r}a?vz|1pHCulwNy^g--%fS3B`6nT8fhYew%U|$$
Sf8*sa=lKgg-rsa{kpCa;@2IK(

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/merge_attn_states.cpython-312.pyc b/attention/ops/__pycache__/merge_attn_states.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4d229add0d9d05c359a47943fa764f8538fd78da
GIT binary patch
literal 1952
zcmb7EO>7%Q6rNe{uGh}`FAfn2l(?jAa6)4NqTwg$EnEnZAcaFz$#OhvVt3cOnjNP}
zaHJl3AVMNoLb4-8N{>W|gpiQn#2JZ8f+FGW350scZIR1`1LDnkow!LY;7R-Deeb>b
z``+96DG~`I5MBJNxF#d?I|m(!`9|vpFzSdPf_1dWM?uGiuqa>@LZpubG*p7Q=Y@zp
z{8A6U+`}L2;a7V2@p=#;5+b+|CE@$hqPT|B>IpyId>T9Pe1%f2%(9lAV+E5Mj%-$#
zRbfuVqFSN2n)PAWhq|pf5xY|84*8IW!tL}dw`Hoa3N7cm*-&8L0DP^#K>>@H!Pu6P
z(6P=&A~3Oo3L**I7dPbpIY)#!K?WSOrNmEgPWF9FM+H=st7sp$9rQWC!7iL65|MSu
zkT(>JAf{AN6<397pek0SegB>d$jb`;TUI(a?_iVij?4QSdfV~~C*f<Yf~un`DtYcF
z6+0!XbV|@!Mpv|(d_SQp`V=w>ffclX_V9dKawNjmEX|RaN%PB2u%Mec_S&nCxSZ1q
zj<V$8S8k*+RbgqHUn2F_yBTI!8LMbrXF2+@#;&hcrrvzx&XktXi%S`6jV+ty%!;lX
znH*!#c}0MxWoHZxva{eTXKj{anmuW)IdQvUStex~$$Cez*C#IKP3vYpr`tCt&nI&h
z?JJ<}p=K<;b$9db&g;7~+cO7OzaHNk|5p31{7w0Ac=j+hd#KE|An(aSaEiS`tb@_3
z5CjiFbOS?~PD=s~U(UMsX>Y=vmk^>#6%%0{%0vPjFF;2Tu^XqQ`4hhM2`@DDEMB&>
z=t%Z*&eAA<nP{A=1osPGHJsqGmLsHS*nCDRMF(JT5@!_o;q{mQ6QO?gFf3xvfC5JQ
zll8IMSmSbS{L^5wPu-f@ocdC$8#UwSzR_lKxbc4N?FW~SlB0*}Xfrn0NNj%6$Q{K-
z4wVr)2rGCuffp!oVgIz^-Nun`X=U4_j<{r+I_0m16D-=<e1+tkIPaiIux(}<S?C}7
z0*_C4?$gGaguo=DMP`<>7q<yfk5P#qhW{p%KN6I4OG8{e!__6O_}Vu2r8?r#>G?gy
zWA^8u?jd&oOYh*F+1<JAITvyJ;8x2U-KZ#~c0Sy_y?xt7U>=YbA09_hXy_Lub)=+@
zl@}kX&o@3gR<Ar%FEt9s>eWZejo)IarrQ6-dk^0FYUBITkK?U?5D&XZ2!;PtQ0N2P
zJKiQb3g=2oZBC;eL7m6m_E@DOkl<Zo54C4_y`oGTCaLJ!O?nOD{O7h;K)C^oaZ5os
z@(4}1{b+3BkH|F~ZmNl`xy?B@0QRrRXY13oX;%W<l~H1_uGUmH$dQ5uhP+saqi`qI
Z$C2uz20Mz6x_nVLisbO)7+Bu9{sE~jsB{1T

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/paged_attn.cpython-312.pyc b/attention/ops/__pycache__/paged_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3dd2df4670fe3c8cad6a215c01aa7b2bef19f463
GIT binary patch
literal 8261
zcmb_BOK=-ka&Isgd<TC5Aov9(@dJHGd!@v(Ey+?=URzo%WqoXCS+XZEW+;IK2xw*~
zk=$XGvgNI!Dyc}UJ&>xc#7s_dX{(~WDLL&S2c>cWL~U_0C8xOA<e=N=v$f@1Hr;P#
zK#&Gj@m7XJPj|n5J+Hgp>(_7Q-$J1Pfve>HtK$9vLVkmUb8$BE;xQmAL?j|pB4uWR
zVGwtfToW$1vn96do^Vs1yTp|}6CQ@Rh~%CMJBqgM_iR-5LQk&bEBhw`44Fw&`P7!2
zgEizmAnz&h<q*nC9vNwGDO`?BMBvH3iKxW5$a_Tee@?`}J(tzr={*snZ9!<`owkYi
zyek)aih?=D@QZmhUnu1jWgMtzVOEx<8C9s3^6F$oE(0&{{)r31#q*~wo<)hEP?%NJ
zN?E8>6(D`Zsx)Wg$wFmDmF83-ud1M<SeX$fuZvH?C8Xe(g?H8_UWkCK5Q$7MBAIY~
z2wt9G!Fx0=wv2rfT?<|U){E>B;7DG;+!Xu6(j3ZwwH_n&LH@ENo^S^C14+%J;R`(u
zmIZ6G+l5BQjff&$6-v^KB7j9oMK<E){G1?4g^DN%cALR}R;m=H1vUR!Nm6n?!zTzc
z`LZMkMnDkC6>+wNI4=lSXY(by#VZJ6r2uSBt;mHdhUcQCKOzYEnVE{3NB1ev&K76X
zFUbq^!~dKdQ_Iz{YO#7i&C8c1^}yWh8*d(-enT276+auR&Z}1{Gh^3ErSe!K0%H)S
zu`1e*QJER7&dWhiML`-6<p6-6kYBrpOdm;guUuNbw05$d99egdY<709ySvRWNp!C4
zU*5mgQI8Kkb`Q#(PXBE|9Re<1FaFNm98`%F8Obei8EBexiLTGxjj8F8SU(X*MONZO
zkPtcedEn=jywJx7m~YZW`|&Wjxkf)f=nP1KsTPZ-p#%H3lxWShpW_pQP2=O?Iecq*
zG1P`1Zo`kX;YZu>W8i~$o3=z7J|lKa#>Hfl1tIjX^CympsWv^o?Wogj^mMl2XCRhn
z5k|O63X9!s<T`MXe`~vYKx;4j`ry|OzbyQi)=!w+BMvmpqzFW~olm}P<k7zWFF)>T
zJ$i9>8~z@!_z(MZ5G4LM@3!+~pE%Ss)1u(X;WnciX~WO8;p05^iF=#0$3Xi&$RaIQ
zG-e2Kf9p08b$P@CO}gUq9l6(x@b*k^cw|YPm1nkPG~7yYt9pU^(F(Z?+tWWV7f8-E
zp7TG=0`KW@1Ro&y3j|dJa|muA_$30uK(fU|YXO=&al}R^<ZnTltyU|t3d#A3loti1
zxF9JD!`sI;+D>pUs8M_XZjk?s9Ip8e)68rHW@gI*-H{X{VC_t(*Wi&qeT_azG5n1O
z8j(W2a77YCb-oIFnktVLobm^B6UgS47jWoM3Naed7|pc+G8&6;lBGU*iteID<~Vr-
z@f-piq`VKoegFz;&f+CgC&bY<7?U*u<x0LPEey0Uf4j&iYU&1XgP2hgi{E~0b>Z%r
zdjH`EZ`S)y)*|oLeD7Mm@Hrg|PR#+m2qYQHq<;p)GHD9JwDWQ{oCUCKk=4i)TDap9
z=?1mv)}R_hixxSJn`(BSEw8!JY2Yx>A-Xm8o-G6NP*2jH9?jFfr|7<ifq-k#qj8#N
z(gjZE#-B!k^AyJ}<KUkD9<Cf~@KQ-CV--gO&r!b`?rTNqdd@4qhSH6&7|a}vmf@e4
z=B+pw!E5=_tYi@iI*UfkiCI{wmWo?ZTj<>pukFo;p}V30fLQS)6uCXJ5g)F{hu7n|
zI-gr&^knbKr^}zNov0^=mI9j{J*(%IzrW<yJ9<~fm&e!Mx~o0-;lqJ{`t;%X+PU-V
z9T%V})wg<ed3q_Rrv^4sL-o|q+QR)Kzsx-Rv-Q+j;6^%E_theUHJ??f7%UiOaMUFE
zO|<<j00ys=DymS<SF6RD%SPClC)O%3ywieG$d@F;d(A?|3%JmnD*y=141W&D3Q-%A
zr_~g(){Dk!?pEP-CK(1*^WL+c!jO6LB{L48WTAdDVzNYI2&JKD$H+Sg1v=EEIiHL*
zu6z_h!#w#IlJ6imj^G3Unkwu_+RLxwx?EHxL9GZ?S|QS9xUhRiKwAmDhYAk@xItc~
zh@ao^_11m8Iv>&bn9e74KCSbe8+^9TXV>{%I^U)93HbkQ%<m6aOOv}gE6MXRo|Fuq
zQ)L@LEU%rqnzLfS=b^eS3J|cWq!?bcD#-bnX`|E1an-!6NCFh#`I3|M(#<W`BpKF$
zDi=k`NHsS!rN-W7zLgkDMG+<jbd;)v7>v=mFbmSqKY<0eLbUK-zOIEuX8I&}dB5gr
zl}AL^J$r&I#<YmYQdyrC(P9f8$Oh~*WJ@J{8uLQrXD*S`VgNmV+bDQ{%&3j*HDzZ3
zXE=D*NJD=dMgTf@UZR&~m>A@+7Oj^+`(k3TV=<|5YGax&fD(~efT`ZZ1Dh998WiT!
zU4+arGMqrQ6j%=y%rS}&sD##mn}X;^D;LvRTF$9KXFOB9gKgclxV=EUnhzI=7K5eW
zhs6-kf*P-dv@m!odM{!1fG5N+G>vGR4_&9pHea<kh2!|Nl$M-yYw;;eo;xn!#&@uQ
z{CVJ>9f8HprdYJqKgp_?j_Ebk;b2?$S3V`v^psW+&om<5)#Tk42O{upM(ff#|4%-)
z`&&NF1;=Gv;PN2^XwJg6b+xs8jxG#lXCz5fvT7y!nUu|E%d;i5SS?A}%4D-xDm$x4
zVzxMwwYb)SdGsmzwn(z@7(ZZ;^xW3IMJp1+BTCnb1u4hN7ok<giC_eza#fudO2uhO
z{!?T`gbz-fzj*56sk7t4g;Nvn$}szg5x3G><1j2-d)?q@SNTKK^$`j|CavVvgWqW(
z{heI5{5}e9C02~Nd<wy71T@9c&Gh?7o<VRN0cKqJ2MERyoJH^ff^!J4G%`GuS+zQ=
z8a^z{Am>3*h8X4_g_ca#%Le2@l2eQHjey|+AEF%rcoiTx8l<@@)RJW=_%MH#Dwm6@
zLMtRE-?zA16<8QvdtA@UqWw<e8@u`T=1*YU%GZ$1U^gEj{O($Cw07|H!*h=gj&El6
zY-DovOz!Tk^~`~#)0@$uyRk>ny|uA-9|r1U=W8E*{AlcBljTBT(?dG;)e^Z{e4j~}
z{r!5P_x6EW|DTvF6MN%@7bNuP$1iyjPjAEq>al^f!S&e4l1EQwH<Ck8C#+qqCv!^y
zJvaJ~-CuUseM3vW+qu;r>V3JNpRM=3{UBfOd*@%y)_X71d|gl=#(US?_1K>0#1#+d
zeBatYo!|Y4Ke0A<KUW`q`$3^Te8OajKl02+`1pVEkqv%V9rmnfN{=S>Xhx5A>(L&H
z1MJkJT@I&DkEWgf5j{GrM~C$2ftSM_VB$4~L{m$lm!}xgv3qTzo*29T`lH058h@yk
zIP@gb_eJ-eZm49|{Iz{YAI#U1r}R|MN@=;Ir+Zfxmlt1p-Cg0O(=P+0vv=i3%Rh2N
zYsq6z;4Mvgxx6LV8D4rH1iSie|BtL^4lbR3vds`{*f8=x%Ax~lu;?{vkhOV7=;jT(
zBg{+Odu2@QMhGXL)dH`~jId&FqSuQvV&!_FIbC9s#by8E3V>HvP>pmK7Rh2nZ4}sc
zS_{*SgH}+mi9}%gz>Nbokb8EDhm;n+K;-Yj!*VQ5A@aw7%edR+qShMUDx>J4-m&B-
zQ5>z5FC(A}9mn3Z+HrBvtf1gicdob{%dIL)lf}8V%gt*3SJ0zijR{rOu5T=dRM%4Q
z2^L*Yaana&oEBPk^|i@&>-Z0qSjMWppd<r<m%HQsfH~9@O<s`;jZ>Jxi^^7YZv?On
z3PfOTJ40azXaJW0fjS6k1zKaU8e?PbSCqxL*Snm36$0d(gE-J&pNL+e0R!Ho0ZL|e
zobFU~<I1_LO(3XT&sXiz5RO07FkZQYpbWqWQQI3wpAa>^K}N8(=`>_Su)T@#jpLDA
z1+5ERJ4)!LAv}Y2<$VD3K$IC=J9j6t6w*8QSjZD!@K)qzWHq$5cz^1#@5E*oq`Ny~
zOA*~c9Er%?{s()1<(zc=&Iv|=qm3Q1qM|B=Mj--^Yy|CZfWV-gB)41z*JV<0eFEpa
zMVIEXg17AYYrh)~y})TDL&IasxEEco2onaH*$VVLJdJ_hqU(ASCRbocjgS>8)p;jm
zoIDFn@-+mn0WboMlPcKS9E%-q7vwpR{zfR8RR12@6<o<T$g==Bcw{|!<QKWME4Qz#
zUj6Cxeb`}Y$s_-M=;(U-*e_1q^{x8WVm}MsKefcy(#M=21lG>n-~TJ$J6}KNNb2a<
zM*5h7HOx==qwW>{gv$+INZk2ZwF2)%Fc3|k-yw4eIf6JQ4H=Ib5I}tWUnooPK3_E4
zC5WSpwV6DOtt?RR)nFFtD|rmLSP{usWy)_Oz@wSL(V|9{kTHb-rzLgBj`vV9zDJ<|
zYZ9dnYx;Adb1~D!aBr@OcMtx3@i_tX1xq|}%7on;FrH+Go&~+!_ZYn+ZL)}L0>U8z
z66r3}OHm&IuAic?MfIAr3-k^|mXzDyU7EYu|2%}PwtgxYr;p;fAw8bPFApXQ_+~0&
za&X7uA#HjQ^P!g6TiQ)+^}{bN-MLhY<m&#t&;8J5t3#<Csx83<^icfPrJI*b7VynT
z2lg{Lz)@pn<;e08(~Fez8N~D>6(DK4FPlN6c#`QcLx_bT9k28(_m~l+pvbVO7*cT(
z2tQ8%W{(1SdvO#!q%)(B<n-YYeP~2KF#2qFk>OIhJr)*;P59V?L*bBsky)Q)OfMyU
z&S3nM4A@_0%pfIs0xk+sG>qenP&A6Mh*307qDeDB(GFYF+QoV*XC^5x<rtBsWT!)B
zDA`5gNwb@xJ!JQg*-OzrvTM-nr)ZW8>@f!@x{HkLGpTLn9*EJco|`?-2eHL=2o?Is
zno)yI4gh@94iX1Am>*5jFnN*kp;3Os0#3k!NP*q-yOkM2D(v_uf>adBqAz;x^q4WE
z;trKSs)KZPn@Pk{+q{uRRwq1cRlE~0Gf08)R(!jW>T#%Er1~5S`+>3zME*EKCteVj
z2n-NvJCj9X(<V41z{F(N%9-Uerk9d1rNhtth}xPcw~K1>aK{-vkzVD#;P3GD#GuI{
zr=boBPzU|Jh|>PgT!_+|&06CLBiQ)fD=9MW;MR#MjGqlhov*%%?1mO2Mw#&LM1@be
zvud%V$hd_Vp`rp`fyKN4Z)T<?c(Vw7Wqh+>?YJIjo~zCpmQKO>LM+1;LyQ5cvvDLF
zh4)*dR<$G0Td72=G8xMr>r*AoQ1lggC-Sh&FnmX>@2bb-n?U006$LkTI6*MXZ+(Q>
z^&7(fH`(_U8QEk9YHVVI9jLPdkJ;V-;U3nxo*I|j;Ckv@&ttCdEBENH+0a++_rQ6H
k)Qt$-T*2SD!px9K0DvD|K@-W}?fQgejx)~*y-}zBFTIRmI{*Lx

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/pallas_kv_cache_update.cpython-312.pyc b/attention/ops/__pycache__/pallas_kv_cache_update.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..36e1005c76ab97910274f8ee32a00afe60d50f53
GIT binary patch
literal 4764
zcmc&%O>7&-6`m!R<dR(eQ>3gPijreTln_a2BFR6o4aIgHE4JW3X^X0@i8Xg6F0~{#
zyDQr=Rt8%HsDuQSg&t%92BZ`L;=m5-qk3xYz3f^}Nh}l~h0%j<bmUXfL*Fd9lC01I
ziYCnfJ2UUin>TOXyqWjy-+Vp~f+CO~@mGTgJ;j7o{PoWEzoD~?Si}+nny9tJ1Oc>7
zu;uL&B!PK$!I5`PxXeB&P<i)+8~Tn9(S*l_IFyT7YIj?X$Tja$R*!YEt|{9?>Vd7s
zVco2U_1?3wG|0DDQoAkddkNqF5`N$%d?)8;U7UZCW`iF(AJi9^2+R_x&=#h~QiS0Y
z89`uV=-Cx<1{yNM^4Bx2U2_n2s2#rTc@n#A3eC9`!Wz%jH)YYdWr+v%@i|I$<Y3nR
z!V-soHRo1#)=}NooO9?m|9~-%>QO1xeanH+EiCI*C`(JuJYtKgwK?C5G^SLqO4L@G
z1}jxKUe!Bk!z+V@ct=p?=<h+Vy@6hz5~!_!P!0lde^G6@@O~abd;A*x?x;$uzMUW<
zYdZn|HqfJb4%WmHFKDu3pQz3qpZHaOF8<y1tq>xR>dN6M`-<wf&X7PKKP5p5&JwJf
z!}?nH2?M#S@8c+z&b1#T^M8&NqQRL4exz9W{?6FmC|VAV6*cfeteE%b$Bva*lyZzo
z`03fgFU=P2^`!!aO%x1|C>5t9CZFb6!y#uGkuw|;Q<&lmdyctj*afJZGAD2u#c+rM
zyn03;&rEY^MxHHX(wU+-YuFgYu(2}CR~Sh#oQx=P1=b*MFg#4k2pl7&f`&&H_zWkf
zC2rF27iRM57ijKAdir`gdo6E{2ce%~GFfhiL!=FtoRJtMlQrxzmpAAg19(n0+}DI+
zW*Rne(}?cTEpk%Y95D#qpo)`|GN+_@gD%vTtJ^DZg()R#cy=_-8vY#vOc@!!Ny&ZX
zUsw8-yx1@D;%l()DNcFq=FIT%W7ET2zrbJX7iX1hvCw~A5c2(uqHqO;2eK&2{k0^5
z_gmZJjL0$y*9V@A?`Ni`IjO)2QVQ0`Z?-%DhgU+?B#OpLmo|gpW#5wTF0&C#mM&IW
zyH-!FoVp*<TYELK`MDGMBU<Fuzx%r9iAp4TXI48rtjCA-$nZS18E;v>v2<hk_R{SN
z9ldjVjnU)XI^BK0=h1uX)T3YNJtJSfzHPTPd**3S6mD9MFU6M=ONj%e!=8C3NXJ^s
zO+9*3PlawN)9pIle(%~Ux5BMmdUSLnaeVy^Epb|>&s6Bh;^@NYoe%DHtsYr9vPP^8
zZM5{<KdZ(2b$Xye2ew^g%roz)dXPI(rkZuC`3cohp`vA~Ri|3-j($bGT5U)E)OHfZ
z56^olRCqD45crBZRJ8-6N+Cz6OvZFF_JnNS^o3vQibHLy@s;>$V&&k?wRq<J|AQ+I
z-fUZ$?$GIuPi>z$K5?uS9!+i}Pp!*Z@@<_y``@@CvCkFHuq(D9aFF2^nJF$U^S3yu
z6KDW00f=pd&!i!E3rwDqx01l$!oVSAlX{^s1r2BIw!kxBUSNZ=0=IV6fT{&>{X%Cf
z1cRR$8a@*ZjX}K(s3Hf9{pHs%Hs_pk0sgTy8n2-e)ivD>7r-`(en-4SuJ+ned*mqA
ze#;36hTP>Tbu0r&!?JXbK?+FMN^S>1Ssa+r082e|Sb6-1(>!GZ^!J0=Jw?oUlpREv
zvw;8Zwozk$1GfQId+4-K7w82{soKGMdKZs0%BiYDB~_P7O_C5H4Rl%>=X|Pf&j~d^
zeT{xJV154{?=|@8P<DPS_So6B#{u=O(qZvb+B$XB4fqk?D6^<`mNfC9!?JmjQ2h^G
z4*;3tqIw(YU<r)cS&}E<$EO~Za{(Jt15-$)|3s*031WVU_`>-Ikiz=MQOZ3g;U5AC
z$LUrH_wbE_drjxLd{LTB%OaEEfOfFTtjMJtM#M~w8Af2Fv<P{a!`YPL3n0m5Ac+=d
zlzNw(k^m6+>lrs~0s}c^H{6(S%G9Mz#1Q2RB20zpxM2jIkvTaPlDya`H&llEZJeLS
zVHpV@ui=0H%FiyFR*qvM4g1L0FC`p;MsOUfJclhFSEQMYA`M|S`SZ)?FB`sbF3*VB
zqQt!q<A(j*<q^YMPp7c0TAnmwSL%BkH@A8LOvWn%nBfW%K8I9L>W4-ez}4%x`U$Rf
zo;(R3z0ridl_}=0@db`G(Fw-@%AvB*q**>M9mA83<LVTa56LfjmXjq6(WR4k&{<35
z4S|FN?;0`!*0WlFPNmDh9feQ+BcL|O`CX`I;LmNJx9Q~3(un42yPK_eBa5dOPT%d+
zy=_`@@UeGLBL_9_;9mY3_1N33k=>fN8`yU;ApYKCZ$cvznm6$ra;tZdUZ6icQtlek
zyN1eLC-klpPpFfdl&2xT>aYi$rFURrIJ(@n)b?<&+<QjvJyY&ItM{IL5;~^^&zCN4
zhN9)r5j}KdE&EyFlfwEte;xbF*ptw^TJTco;x~snw9Y}Tc}OFhHvN&s+(NG6ZofOL
z^_=;#S))cPlpim>?XU-&r3+OWxr3XOua@=8REJJ=fDtigX$*|;2N$m{T-~HPHpB69
zxK9uFZ6*(EuMBP^hbm3&l^F12TD<rEh#v3L2F`7S&ugIzmDbdAuQTGQ`cb59GtsGa
zy|Iya^U()-;@Enp*8bM>Ca>RF`suS4M29u+uoig*>a|Iz?q?r+ht~<+dqN{mNIh^k
z0BqfpGlh&&EDCZxf&n=9aW?^b@_9ggj3D8cyLJ!a`^Wlf(JSFgU%MJj7%}$ED7+x|
z<ryWLHoIornlR9CiGZ?sMgWA4@%4x#F|&r9FDPcje2z@JYB5E<l`pb00(V;a1?Yz`
zLh>q9RXaft+Y}-~Pm$+ql=>PC{1YAh)_H<xsoo-xEmAsECc-)qu8^+ZU-<2XN>ftn
zI;KUBKX=$|wrU%SHCK|I-^Sl0PJTlN7B4PbtU90%kjob|DL1BQ6bLW!3w+gwsUT`i
gtfp2{)exqlC>W_W;a&{*rlxH-=zc~4&)mR&0D{Z$mjD0&

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/prefix_prefill.cpython-312.pyc b/attention/ops/__pycache__/prefix_prefill.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a2ece7e27f09b3f7ddfaf5e0a82f15b87c591188
GIT binary patch
literal 25870
zcmeHvX>1#3mSFJ`?^B|v(>g5cvJOj@EuWHgTeoG&lH(-9rbJ4nZWn3E_7q1-PtS%-
zddF0@2d0Anrn3PeCmFPZ3AWvhUbJUtegxZ#1<N$n+=7ACV$)az*dI*WjUM#==zXt>
zMV6?N<#wlg=SPa*tFPYozWcrRef7Qf)i3pW4FT7@{9X5zNrL!a_`qM4iNLcaIYHba
zoP<*{Ph7&gbY8L`y(E=jST-+PkYAE7C@v`^gp_beXLWoAsk>ADsf2qXrB217#F=qP
z$<mrqG<@jOL;xt2K&iT<W+}7y_|%=JbgJi|u9vhxN6hA=;`tDpK97G&-TCx<-7Xni
zirIascs>NJBwU8sV*WXG2W)BTi4RT7of?;Xwv2yH-JRN9@VZ^_`d#pbUGT<T@TOhx
z=3VfXUGSN^;InqYTX(@{?}E4Og3s9npSue_Zx?+2F8Bg*{B*gq@COQ>PcCKd!XG+U
zmh(?NQoD`FE<HJIaPIqoJXv!qD;qT_PUJ&8g_=nHoco<cE}OF$r0Eb(m%2Mk#PQP^
z&Qd{N<zAOmm3@uLhN>itY3eFTx)#0m<#~s9dWl@9k}^{7Jd@!i-QK0eug?M9*Xsz*
zAOM9!e60ddCH-27VFdt2a*Z*2Ac50mpR-RnrY^helk<#a@#=#8%2gNXc6sc}F48`?
z!svR3?B~vRb@Yz*4i7QP_JQG!e)}M!;{u(7!<}6NOs4S3ey**vv#XQQaLCc#OI>`r
zA;vH|(A(KN)MKCM9qJsOU`$x#)kSh?ex9obSBV6MbU|%AUPe3G-+Rv9+0_B1G3pDW
zUG~x5q5e@uiNWr3#~Afs+eQ0`eV}WI(PFS;>>~T1gh=~fFI1cjv|XHPhUW7ZDr_12
zpZy;Ts%39Nu@c0rlqX5uof2NT`I`5jlqM;U?LjF^QXZ#{QRO$FT;B;n8XUc}i_%fe
zHvpGRd2$bWZ5sWlm!o$|x0Q05I!&Fr0X^nxp-xgQY^aqwL}pMePAN_rq~tn5RZ_=q
z0E79?2+GJvYXCetCDg%B6MgJ!+mp5?N!z|BZFQ2igE~%CVr}+JQ^}{n7W+D>Q&cBT
zRDUCN64TOLz#*P8V_q;y7QC~V4x~alj*80UV|-nLGEw-_E<vn#?<8A6Rn0*^Ii<jT
z$f<D6YPq`*dXo=gONJz;bPLKA<1B*eV%yc7)~>YPpjxm_H$YmP^3N1}y?i}XgQr1I
zf+1O{WPqxik$BDgqcelAnV|k4iRss8%48X57iR?}h_yi>h~K3K)G<MMB8#C^dDt6k
zom_jx>YZx+9-|`Os)WAro!z_6PL-g};<+XG!`CawEjzt0frBfl>KW;tx$)B3C&*1?
zK?suEN*$!?K2v|17>!OMD0}ngAV>XzlzAfc=ojb!A+6Y`W>C$Pk(VwCQlh4$Ogx6?
zqdi7JWUTp=z5!|=jq3|Bcj^SSk1u77mG_iZp!94liuib{f30nM9;`GSya6&!6(^~7
z=7RAhe7tXvtBIhTQjCL|?B{8ybj?$ijA3gaNPB>f@eQ&41_MF0&UF%mM?qCl)pIZ(
zl7|H&CD!}0wLw-ASiO+SdriE(t)kjtcroYYN=c5$@Y?Wf!A`!JE!v6WmtG{Md9i*J
zksZFoJ?f|8>99w|N?Gd>t1q9*cWzO-HtahmC`DX45B>qtIU>ldcxS(?^{kzvMyQI<
zG`w{BgegR3rWcJVH6o@1le&2XN>bi{{`HMewN4507%7|&L`tJt*V5(|md`}_3RfId
zE%Mgdh*O&?RnP;aB0V6~tz{zdBTngOx=$0@j=%fP3vw;rnF?BZo}2lTD+H)ra->HE
zsbOW5eo>>sGJRtLYO%7;Qs=Sl$=olj^-&knN(YYg^{t^^gu?z{`IfH@rQ|!cp5b{R
zCGm;ep|^I-{^NVfccPSJJI2?>#pGoV`5qUOycf@Ae2Id77SnQSp6(UpdjjNp+&8f{
zDptd_39+{FCHjOMQ=HB(FruT>1dO^+j{DYn*Dhd9*T!&Ee7$SueP@HRAO1p4thH~S
zg{Ul~gZaaXcXp)H=b&sp24){Nb!yBhTOxH1PqSn8$>n2Uj*(F8T;aP&Nhy}Ae6I=m
zT|@`0o#ED3!Zoh%k|2%vs^b!MoO?rIYsaqhsT!(&+d4$@=D)nuIwbXevBx@O?IOGz
z^s`dH_9@$!X|p1%0@C`Qr59f_?>!sTe4DcYwPQ9&>1;udi;Ys6o`$uANGs>w06yDm
zmf+`xx<9N$&_*I9em5&{+QPT%tRU!R5v{lO8g*)o<7igSQyiU|2Y8N7>4X<>^aLfU
z|END&|4}>iAI0iFDxv=<)PIs6{$J34pc~WXM_3d3`k<w0T+Fs3kJTW@sC-_FaqE0R
z`wRFO-|LitdL2{w-k=)E`ZeL(kx1`S8eYR=4n84uwTPDQqmEEVlPen`wa9kk+8fZ$
zv^Vwi_NCs`KhyL1N{H)3m0^g)CC}IR2KqII{x@Hpds0Te;PA{biY4!57x_DRt$T6$
zo`g|2z1Npr39@)AY(!e-mzI|Ky}N10ly`}Q#4^X!6k~KRE?<QmO42pu_PCc8-SOD(
ze-BCIj%#kuJqdXLN~^Mw*kg=lnOvG79Se51labFaIh;&}gLEv;xERGMRKNwBn@fz`
zz36RV<kMH@=NZK`P<a_8dpq37C?M`=6Qj7{B9}ajf=jDixH|83FVDN|OVeZ(mXqQ3
z*r%6|F*4^8Bwm1;EL>e+WDsCvu4~JT%ma^#sd>l3GNbT7V_a2lGLjKS($7f78D)QB
zdr~=`2&g>n#X0-3mt+*}_JO4-M&((sd!`)oE=D=W2UZdR{StHs8)<hht}xnm`>5AJ
zdbxD);JPyJS|s&YPucKQFJnk-&Q99rm!|BKY0n-;lZd}E>0#7-_;M=fOj67VDCSZW
zb18}y0mVv+VkJefB%oMIQ7k!kZX$aaQ`)}r<sBF&i5oLJ(5Wry6@E)Pl^c&r<;G)D
zmEbXx^P~|9AkiX5;%*a(FMVVt0^9;1tqAbti?kuY1qO-Rd}JPid<6L7NfshND;A0G
zoQxWF-tChP@6=^Rg~7`%U{<Av9moYni>SF34r@-5+C8o-b{JfyAcb--+8wap&82iN
zI$hV8e34j?E-o@N6^Xm^*V+68MNE0Gu_)sta0~DrTO$ZE>ZR#vkA2c(Ut}`aAb$rT
zW1oTJ;cmaesGRNvJ1h5+D<BkhHzS+3yUAK?ccO`ljC695qetxk$yS(*Ibcxe1<4#E
zy)p-y!|tACB+DSk7*IIomoGb*jFkitOAiv`K@@w}a5YXS9LREsQK6_{q~}d2y!cOf
z{qAhNcVW4H*}Yr~T{h$L)?T~XeEis4v#WmIJz2ke-Ftayv3_NKexcss^@7a>R9XGf
zvZo#t+qC-{>bGh4{CwT=bw+ESUUk~%T;!r_o(w|8%i!;MswRka;yFyg=FD6A4SmQF
zH5IS-J~f(e`U1YtNYq%ge)g%sbaNrF5NeAW_O179S@I(L4$+oF>-}Hl<lRx;R)$rZ
z$LZpxXwH#{-1>C?fsdQ-HgBGMkV_wIkM8e?$cvwrmVI1tw_@|)12tXU_OOkv?uwRn
zN90AZyd#lgV|3nFL~e`aR7Gl9>6})`<bNtH5nJ`9<B_dCrZU7;gl%6~NoQBA4?kC7
zP1PIfP)X=g)Kt0N`<32!^R>Wh!7HJPsJ?W)JNX>RtBvaG*1Na#S;19WzwaZ<$GLZN
zHybu*q9sRZ{n7RAcm|;<-^}>r%Kfs<)q6%--TdGLt?G(tEWy`k&AxAB5_Qp*#uUtY
z?@G`Xs1Nnhngib`r0Vjxj8JHv>j;zO=C#1J52Sb0x7Fd2$bn<goZ}A$=$x}(mV60)
zH~hqSo;IF;s?yw429(caQd7qIS!jV;i_bBY+TRsW$Mn{q^ZmBq3{){({)u_BbJKRW
zKGM`fm-f*5voVADxl*pqSa18rK<KPE7BhjF;A+tQku|*X?+d?}{K@R+vyTmJ0ohkv
zTuhhsBl6bj#%fp@y1rTY^U_~b{<QM3t%KHe#4I_H{5slF_tatwW&FEZ$l0j*t%}g<
z1EoJ|ymeyZgugVZ*%t@<pbna+)!(cLR0NxYRiV+(q(9c&(>&H3UhjCS(cP>JR0ew@
zg@+=U4L`U1BJZbpk2Rg^9nUj}tn6FIHjY8tBHDt`Y~=LdZ)MV~j5q<nuY~wa>#e$t
zy0C4tI%+xMSK??*1SVoSbIf21)zOAZ=yiS7mN7e2O&iNL4Yc7Xbh*CynM`irtNO$9
zH!lV*zFUL!)W!{j-stzfH{xFn^hfdz(z=5&LvEy?hBnk-UbS0B>wAt+R&XY;7A~QU
z`y&<2w4oU@Jq8S5&Iwh8J3lE2_t1GYw5jI4hBlsvv<%aR;ct{O{W%G6pD8<;ftfaz
zM#_(3t<-XTGcbbM5YK`dymKX3wrdRxS;4XQ8-f#orAYB1+HeR9Z-By$IqyqCO(7+1
zD30uJq76-0<Pk1Y69IfXOY1P^k*+Cb%#Rc`J~B3bWwqU!*qDf!Y@q`i#+bG6eMdMe
zG(%g<V_Eqj_on<4$EK173C%hbY3iagyPy-Ydn8-gxzE*#Y(t>?xq-;e!7M@(;j6dp
zQERQgdrND+c`9(~iFO~Y-S=2q95dT)<!<DD(0J#>?GsUR`Dd0N+wR%!+oDy+Y4h<X
zrqi_P^aIB)W_~&oHFXEtwoKXnHXKSAmf&hw6UjdKMdMFSe177wzQr$n3K8Rh@n9Rs
z=;ZyH$NE+d2gEUG<MnXXhgZTj+EzvDt0J{6w65i$^q;%FEdQrL5E+BUFNK~`YyFo4
z2ER0>%?-6Z(iT3?AuL(9ayD{e=F;%^CvBVF&7Qk<+T8TO_VD<ZV~<A1zMP;tF3`s>
z(5CU2r5HNFT(V`d#7x=G)C!Bi-~QZ$;(H@-Beeem^3KZbmGI=|mB&R5QDdWD{#0kU
z*&XN(HiqQykA&r+iQ9TQ^FUNr?w6o$TnVfM9U;eKV=<7LEVnW?GJ>Aa*v5^hsno9k
zkqvgeUlJM%Rcs8=hEl%_c<3buGvxfREj5^*NH&}P{|shKr@z@5=nR@~**0wN4*Dgi
zT&4rl!I6+8<hefp3db+o!iEOsLY=_Bep$?5c}EuSWyO66<boGUBS^BUET*xB)U>7q
z20~p5O7%T+uv0{-#&wV|Axq*3chSai4Ph__t%29pyJLC-7XWp`F-fQ%r<T0dhvtWE
zQFHftpHNZ7RF>dOSh6ukt4hNYw5leiGRE?2f2&rY-U0x6OPA7H6;Vqg=q+H7o<L7b
zXNhDt-k+eePd(Jo);?O-7c=K_V^5n)QAo=<_P$+Dn}EB|(8e>+1(tTnmc<GJsn_@=
zAdt|xoaiVc*_B^Nf1>$Z^H_gUTy$b84JQk{z)f>3y0NrbaliXP(|<BQX#RYduI`|-
zJ0DK|mjjV=<G+NN@M21Mp28H0q62#EN~kQjx?v1AZ;s#Z{8`EUo_ltB|0$5}hX&d-
z6ypR&DQ5-7@aGd47#~m?yLND>>_bVYg74rD&Ed|l?FAhSOr<xx8aux!K`!{7gwPs-
zviI78-eAv$j@A^ccYsX)5sL?4S5s#2Lf|jg&;EC%0W`*s+Hdu2^n?bZS=F?m+AqV2
z{&L_lsFj}ZMAT3V7<tCqXWu#-Q<;MMLubQdpELls7S!I){+Z-K(*xz_MUjqix?!9y
znD~uMs>lGPsn9-yMIJGQi)8+Sje5?dL<+APe}GF#tzer5-^bG~XUe5SxNRmznQ|$q
zr|J?eC5HsLi*8d;wYaIlZ&vt(W*aejbsBx+9{DHe(_BgpQ-`TW){&%%YM`3f&=INz
zTuPd@xs=qin<qyFWq`pn{o3YIB6QFZr%gIo_>NKaujD3joN9zE=-u2z>I7~g$I`ar
zQ*I(cS09m0*F9UDY{j?gCbE}95ttI#jkA+!?Mmwn7}Fy-rlRIxp%c<BZW;ok4!+5!
zU7uy}#yT&)*t3^Y$#XEvOQ!|>_eYlDYuPKWG^dIe*4Wo7$W2VXv{c<TdEDEbD(S*R
z9c9Pn2tr?*Q{rp);&umnfs7mhr;CK62<xcvOQ7ly)JDuC-63$)5Ymd(TtU?e95p&P
z*E34D-Ccv?@kfw1oRXJzqY*I$@gojyTkPhpVB3~+;5d|W;GkGZOl@QDaNvM?ZRcsW
zFLh}S96NIX9V2ky=t_4Vqc{hSLjnhmbe)iL;7HUVRZBq~QqCNExpK)8u3W5)rt-p`
z7il3o4m(V`Jyg$Z9?v_e`z&sYrCkCCj2<!b=Zj^TA435jit$!Tx?wY2tQ6{$Sbh22
zeP_Wy+q1W`6}8;~<HeFJbhZ-lcL$ThS*jNdx2mKAhA@SQ&R=`M2vNNPU6(Xh^YZNL
zg_1H@2Ml2u;`3k9{c<}uthFPzac)d0u0d_Oc4mhOL!|apA2@yh&rs=ZNDcffK=r+_
z4Smptz8kO+4y|bicLodzoj!}x7!Mw)URWI^RzlmH&PqjSPgDI#+5rJqmhGgSt=Nf!
z+Ock8+xsTTVS@q=t`tc<D5&YsE0lhk8o;qgmN!fdgDWmbL&DU4jv5B%n^tNBM^#Wq
zG(PP$=g8N(Sxu8ZtBdO+agA}FIxi-HduWXFVzMmg9T5rSdqB|NVj5#lm#sZC#wciv
z^S;rwL9rTwqlbug<ZI>=@`9LV7zC$|R;Naw8CuuQ`C8Tne5b*U<G;#@bWNRb<2aOZ
z<Jd8urQA5WxYQ{gNVstvqEc=g>2pxZjiVdfI9OL;-x#=YuzcaWAn0o`$v-Mw?`?DD
z7#E}z8>Me;wL=|ATkVWf^*fwIgzF#an|<Hz`e$tn-U>QcIZ8T+P%k$Jzi72AbYc@-
z$$q<Y76o(GHqI2ES;V*?{T)DbHe=mH_L$2AJoDWQCYVa#7{+%q7%?lNN7gPRWiRQ<
z!pWZCoj`mxdy(voQli=)++4n8?N5RBr%?M#e>e!*zZDMFY@fx^iKTUyT?fvIr7q>f
z!p#kWmZzLpCcueh0(F${qCm>31x%I*QWv2X>Fa@X2~X?0&yudWtfPsJb2K4KAWIS#
zWaNGXxZEOfg~Z6fy@W*f77~|R;OOCUxyVBhtjcEnL&ye<YeaAuK@)-_2#z8+iQqVb
zV+c+mIE~;00(AT!TM)D&XhU!Y0J^w%FO%)~+<~AAK-FtxH->u<oJG)!0A>h+96&IL
zU<ko5f)NDg0Wi8YFc-V+p82I^7x-o*tnhAdNP*=mL5?CALvR7XID!cT7ZJRM;1Yt@
z5r79BL89fG{0jtj1m8p8Kro453V{;=&IP0k!8C#y1eX!G5$x&&!TLY24iB?PH-}&z
z!2*Is1WO2(5nMq)BJd!%ieLr7DuQbWt|LH(BL5Nrg`gGyqjjV@hS4V;Snq@@+aKph
zA13-M1ZxP^5xj-q`w0FT0J;-EH<LfWuo65C?2E2d@^3Ku-ynFK#e?Gk;u$sgA#olz
zq#t7g2;M>PE`lE-__qlD7Jvr_;ZNpiK;DGh8MDAc0Ng*YC3gUSUIN8eYgj*l$yf6e
zc&;IG^Zy*40$bUIyq`b@+Ej#o0ceF}pLxFkv^|RZ1#GDg{A=<Gh-uC5l?2Cv6@k`B
zVO^x5oi1#rwe4U=GIUD71_x#&^bY`oCK&8l!+h}gN9`Z?-R*m<ssG}@1I0ho(3%#3
z-Chta!0xc-e+9;~ij9g;&1Mdr*8pa(_5P<|-tXP$4LQQLXjawcFr9T0ZRJ_R>w~c@
z>-yl+%$$%pQc%0O`Xsa2uY3wQaMu2W)eOc!%-WA;GTKxezC;`A@3+u~HZ+j8OTdJY
znHTD&EnsqQrp?VUOXhQJ2DkyBYeJwj=?0)jHvq7g^A^Wfa{~|>>NcS!&5@G>v|#{E
z@`Eqq1%MTJB`*MIefEcva8p=$yNEVcZuWt9LF72VJ}kRm!ukV%2@*OJjIl9YX3!NF
z7MdButM{`X$baTQBM@D2CenF<F26vV!R~DZ4-bpRp8*yyo#k7!@V|ta66Gyn;a}mb
z+8b-MzC2QWlGdGkaQ>gI4_E%FaHoME++!eNZ=e?p?6#<`BwY51BwRu3syE-HbtfLY
z`JWrUbbi@PpB|-kqcNQg7{#39SAe|`Y?`VKRZMRQIs%tMgP)Xaj%`-Z1&xs--E=`W
ztpi)F`KitvEPr?KnNn`n_!VG-1GfTKKns>pl{I9eRmFZi<OFU3XyBg=mAvZ%`#yAg
z^+t7QG+Y+7Q~*zNmfxHGf&P#*H1XlcrX1{Wg|&1}ZB$n$^bat<OZnwo&6FF;TiOk6
zs3Tl)doXIM1}6dVz}dfXFf6AnWqu_X6RmlEH5$}=6aE}o<+P#PFZ&AGwQbaswoe>&
z-t@Q2sB6BBQQyNAp!>1mB)S4v(F4E=9sn~^BI{UuUiz=W0|0vuEZu1TKOH$ULf4GY
zc_We0vB>yD)O?Zk0|1AlKSaqLSRaJxEGsu;4)uY(z3tvXy5Q&o8(nbbVa1coJ`tVw
zik<>3k+$=6E&7k4zrfh5_zRRj)*naSPWTHXBr^EY{sQ00Vwx<zXeg6%$vS;(^GVo!
zDEIVC*dbjD5+Vzxgylb_M?%WeAg0m^{S#lf68Vi%0bU0>@H!wja6M@NUt{je9js@5
z>cwO#3!?c8ZKE>yKWo$x#M|1pi{382MNkB;`_nJ4l*fp@U0)@9S>EJM3@N9w;HyFs
z_^J@$vpS`ee1#zYky7lDuZk}rb@#$sEq952x*!oZEnOiz(mvw*5-Q`*P=?$ogZ5Zo
zu5P~U#ZpS{l(QefFbjGS-_Fu5pw$Tu(JCl8Z;gPKDQ0oB(k?1HxudLrw!fGn<5flg
z>+LChm40PgY=X9DupzCWWl38dw2PP(a%7@?P8Gg@Qj!<MNq3L)<@$1bHp)ijuq7*~
z94eP>2g@T~bn9m?v2R#WImsT)qfF~6r<$@kH8+4aZ{QA#iBgM}t7Ype-WDCkO-bJ=
zdZ&1o*0L14w3dxS3%M^pP~_C%i?kOHA+Q&fv|*&$M;YHzP)4T~Eo~r$TAz_J1f_4;
zsLZ#NeS}m0X(BE3y@kaX1eh#R?Zwj#?Bz6Kxr>Sv##az13KR=^P{ei-&{73F-%iVX
zh29cAKdKOWVg@wKhJ=#9UkZN({4?OMgue;?I{541uY$iC{s#DGi1xV&bAwogXskIA
zD+3DU?0&uusXH7Khqr6IcBRk>D2P4t5U1EX52K(I$)2T%QwU2Drx2DR-Ln*N3SlYY
z6v9$udzK<jAuL6lLRgAo&r-xGgr$g6>|KgUFmmE~m<1FWd)8E(LReFA3SmvfDFikB
z`wS|dvQh=074ra^y|~@VUQV6U@`3tqCAc?BY1Tn^EJ`SiPva(h`vkLHIZvOu^BROy
zKpsYC<_A*WK7WzF*sq<IIkSGC0xf{Mt?czeEs%+_2!Ej_u)L)JEo?#k3o8oL3A}Fj
zPVxz-kUPGUd}5nc7nez4kBL(V<w=}EAWty=h|MnlIwk)FGbyVTP$w8EGi7lSS0zrX
zGuvqfiH1Lw$zp6D7^!_9NjM!*l`};C2xOX(!O__&DfuCWRS>qjnidWxLPr)FZ)9Is
z^juwDULw6NXEA(hub6!)IRPhruX>km3~YZ_IbDI+isGw+H1H)u;RZZr(LY|?fuANU
zPMotV=8o5W{d>5`YN!d?JK)-CWe+p6Hl`Z~M&Velrx=d&6}vsfi%Z_(RJ~T+-pj@8
z*87e9SOA<fgk#FP60!EGukr1PR0F6|zl24FQR4><R~_Us7=kbehcRbd9{5J1Vs6<n
zHOJ^y9V>~iE4r>uC6*`H3PK5gT;4xJBi7%^ZV>@VKq@fMC11}VI&lSL6u3{~GAOki
z8-*`D4zb5xVZ6Zc2aH`)PWMWcoRJT9jkPff?gXoxJ-w=j<Iix&6c1~|8C8!Q$cxw4
z*Ex%Y>J%J?o^(1|Zd6PyEqYzoy!PZVNHk{Doq{u_j(JZD1USOqKpj1}bp4lgB4iEA
zKbrn{?(W?E+J{*W-Tzn=EgzwC&a-c?BsP}B*TE_ycP2MwtV$i$%|;?@9d{<zj3L%`
zl{&V&iMV?RU@c5kS-G>`3OK$!b(ysbGV0z@``Cr^@Xbj^aTSh=A0u%@88tF7%cP8!
zJxLBM4UEia#vSulU0o!(L^ARfH&~Jsp34sS7$)15#zpLf<)u~lIOfu{y%A2y!qHw$
zdmDU*lKtEz`S(~CH0&@L+(BqYJ#=BvKGAmm9DJ`5&Y+V^Qw!_~(W(;8X7+tdf#xYj
zvP6dQ4(G?&H+x2zc*Tc7!-L?Ac2an_7akI4i?uk6i3jp?%x?(6FlMGpnB6$zq`@=q
zcDfg5?5l9JcxjcjX);>RoO{{sbWJTeU5p+(CV5;PT95L?7_M-gWye$Wha1_m)r^ii
zHJj*0>A)36IsgZO2UZyM033~XIGrvhD>HCJ9={vP$Y<b_ql^~%kaXDRKt?^}kFlcn
z0eJ8wLZAY^CkXSwGiNx?w2Ja0`QIQ1{B)=1?|{92w@$?Ch-~&W-$#m%^>_6VYwh~b
zZ*;`IihC^^M<00C2Vh@Vr4Jft<-V9P8;|6EWc@h*ZvNxCmM3**>AJJgy1qzpKW*%f
zsQM$u{+A-!(&mDxht?i?nt$*~{t-I=NHo7WFc8z{hi*L5S3S)yev)59=hp-VzOocV
z3Xk0XtEi<rqU+wW<ld^;s0mR~OO0O{+x7&O8nx-BKA``=dME#O{v$Z=rM28V9XS0#
z*PZ^`{g1R2F<oA0`jM{eD??6P3MV|D$z(=NoRFzCuw`Un_qaorjr@?~&dlwZ@Z{~e
z&4wR0-)p|#c<-dY-7j5lk7@Nm%R9$l&wcWJ6&xy#Xp6rxWj`^2;ix=J!k+qi@0QXS
zQQBge*`d<V)a{CmR=+A{$-h;<Q4a?{EoEWH$1`_lHXV0o*ZbGI{7tdkygRnrwy^nj
zUiiw#t9Ms7uiU*s=Qc#-*;`suupw~#16im)np62mTN#m8MzodCOjUM7Ss31Tzu{2{
zX5cq$DKlwhQOua-_eE4)k$qiJRhQovGZsXQWjHG3{ZSm7vTsyGS>um1A;){hFK+l1
zTPADJ`@#5~*KfbRS@=K^Eo_MxTfy3($_<s#s-ie?NUedL_qYu1TX0vv9g5c*;z|tR
zfx@^NLmCWeF$AZaEO9-C;7F`BZp09tB8{6dWWi7-hTynrPTY#2Y(k$Mw_zxU(C5Z;
zF_Z^%HwOcQp%PkG5YI<c!8TMOqV{1;iZE0RrQRF}41~<@4#!InQ!2#lM@$)>zd9Q@
z8ytDJKYjo)<w8saVk(80D#TO^F$WP-BgE7qrcQ{dN6aB1rU5aHLd;>rGzl?B5OY+B
zX-3R3A?7$@P6#n45pxPVW+*TeYKZCz<EIhTvJKUWs56pnxHbtQ+qWY-SY+pRWEYF<
z-j3{Hk!QCfds$@Pc4R+`9N32ZW{^b=Nr>XcSnh#XR&FdeKUQ3Yft>wMvx{Q3oM(2H
z28{h`<Cd)yPU3Hr+}E!6$1GW30an_cD2ssOA1g~@#U=L}=<FkY?XR@w*E^rejX^mr
zx5kNPMFyMzkIUe`1$PD9QA23rN({jPcvD=BAuzz1;#v&Bu}?!>k0Aqwj2JQzYIEF-
zAq&!FVkiqkRt#km#kG;5V}6-`;gKr;!BpIa*c?Kg70<;`9-+3x^D$HaX;3!>9kePZ
zUWllDSeYUW6+>}1bpai)rZHZEm{K8TKVr&&`lc$N3Yy>5#t$H-T!^VaOr;Q0g_vp~
z<{)BfgqT{y)Cn>5h&d$0G$5u?h&hayCL!hsVvY(i&4@WB#2iP=2_fbrVoqVl7y^di
zm8dE=ei~6N+fc2D0`?V>wMh^O>?=feut;EEA+n1_0{aS)JuDK~SBUIok-)w}WIu}p
z_7xz3eX(?4->m#wr#DWA&2;8|IIJ79mc*>KSiymq4S2dJW-1JiMNCyOQzjl^&CQGD
z7l89XEHewuuHJ}c|2K1NM)P1s$^P{M8wQg~!gNuUF*G#PJv3C6NB#rM*o*<cuu;c<
z&fLST&&({6`=+`5s@Fa5;oQO4WtjD{!vpJ;759`2R!Yl`N%y?ld!77`kQ@0B!7ngh
zD}2#Igz5{7Q%r;3*%J95FwC$25W~o3-Cp<rihGgu7K3lTEG>Fq>AOs_Yc_OO^K#2O
z1CYb#i58&>3%G8Q!E%qu7=u;x63MPa?h)Klm-YTpodTk(^R5>1S5PD_`#n)usl;Ux
ziR77qkm!F!9Q+>y&VbgFk*u;OStsbM6Av06XSD=IAGWV+V&<xdx#WqtiZ)k0HXjVM
z-8ZkRal$$r(G@(=HPX7qsIKWj2Au9+SHlMy{H~jGfw@RtQzWnYNnR73*A&e=8Z|Vp
zYeC$ks<-pr%8SoRh@xUpGO>b+JHxk!6Sr@cB(rjf7Q|Ymd7FBRiWjnvz>zt5x2O#&
z-oeEKlYrNe?zS#I%puN6@Dw*JVd5hk0$iKGN$8Eh8}U&NF_xsbz#+yZL|(z2g4+f0
z2@Y|Q^?=fC=;E(&h)c;lUgr>RNC@~s!@$Ns{7nw=7ZSpjdux7UK5pj_-%D1^!687?
zf|EhPMnQavLpUYqgg^zTxQjzfCrg>(5SNn_ZVmx`mB?d`LjY?h8n?h97J0<4xek0L
zBc!^xl<mArYQE2<W7xOYcLmUI?1Ql1ScI_OScI_OScI_OSOoN2qBgH_nL@vD_5Jnh
zEFw`GmUvM`NVC_iPb5}aVvR~{prkF?u}oV`Z;qL)F$il6-&A$TprRVWniJQu!92o{
a$qr^d`&f{8{B<EdV)i-TNHNGV{r>~z#~*h9

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/rocm_aiter_paged_attn.cpython-312.pyc b/attention/ops/__pycache__/rocm_aiter_paged_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..87dc2b82bbc26531627ecc58ff3215b5efd891d1
GIT binary patch
literal 4201
zcmcInO>7&-6`m!z{9TgEUy&3gQ~#o5lXl(IPNO<@W7&;UsBYrcs9<2R=B_MC%OCG9
z<w#fqY2ky60(FcW)SxKhOMwKs^w@JxDO#YU6@c4q0;p(u@TFK=&ZU?3y&);efz%*C
zI~L!3@6GJYn>TO18UHaD^b;tG>*r;jC*<#_^a|SrdvyR?L?RNSkVS^pjztI54#in<
zExH(Nb1H1bz38UcrFbgdMK41fM0T%4djt0C?JivOJIG}svG<7NmR;M<j(IV#&g4B$
zP+7<`R_LmDOO`I^x?I)EwJKQnQbSci6Y7enFV)lv*jy#4yjJRtORLGQviDC0{g<il
ziw@Z-F|uoguKQqj0_!=#?mWWoI>OE#VRy@J$#X=T_XxXB@-IcDz&+P~%sjHwM|%IH
zw8S0p<=6E(c*HoNBkW<>3%ll)c&H<?Pl_JV&%fb;*nZu0$6(Yr{1Wg>!fyb6zQbo&
z8kbV{*!}qU*Zuj76}#~IwfQ$+OdZR)Dz97Yny55n%LiB}iKS)P3Q$W|;WVYD3l*_m
zFIR6_q1CmHU6Azkx@>t?1+6410M@#|t;%{stuB<j2eJvX3$uAIN^{R(C1#CLhjh?7
zWyR4${n{V~V>k?_;WAjmZFsi3BQj(ia?@bfi0al|z5dm(?(X50gL8L{cfE#VCD7~9
zuMO{Z*NeL_*H`p#>cQTZE1@3h*ZUrWw}xva(r@XZ-mXZ_gR9BA7Cv%Xu5wjBYdM$d
zXDu%XLH=gtv>JymujPFzM$d}hQOmk4=ry5^9MIh%-=(W(g^SmIa&_Kf^_p5*R%6)N
zwN{qzSbnuust6){rdkuKtSyUmSrDt;Z-qN$eOai>s$N@_tHSMuSk*1h63_^+3(Sgf
zRDCFL2UQH8%Avq8s2Bk?48n@<rv-JOlN=g;nCq2){h+8<>cx7wenJ=3Te5!Q?Z%mx
z&#s=4i%R)svA(V^*Q&)eMX40&?8t4!T3svl7tmcbG*=7tbu|gYZ%iMO*M-BvgnnvU
zAl@N%l5m;k$XqKh_bHcYbHx@{H2IjxCrmzV@`EOyHThwaAAr9vBEDb<J~;KQ-wn4;
zUjEI?fBMm%7yq!><Z@<e<b%-rq2|;pJE^(N*UijCJ2TVD%rs|T-N~HaeB*O2+2-b2
z+}w*p<Df7>n;&oS<2(GM$;as&d*B+e*xL<RUAMTKO0Bdi=;BR9)-10k-xd_Ps#$@G
z__om1EUwz92oU&XS(G%3?VLkSglLupIJ9;6(xcY}RjjUBDLSB57gbFbU~EwlIu>i-
zV9Oe0f}rVYS(2^f!3K&2t-K*yLkI0RH%wNRfE?gMxn4S$^q4R7*cae<ZxO>ykNu_p
ze(a^eG9GX89wRvo2BgbyfMg9PNVnkv=`mQ4Uc(L2XLvyR4KK)m;RDGTevm;U05W87
zAj3uwByWU3MvO4XsKLL-{DOIlNHN0=L~_YsR(cmaZbY}}K-Hac7^U<M^FDz9UHuP6
zaTuYWo-#sGeDxxnuj7Z)mXz3^6;>oAX<x4qHX<89gP>1Cx`(b1X}}2o$|0qU2*~uW
z_pgPYF<(Vx`{PH!19%L5xk#BbnC?b&WE)z5rX$;3BEK8c6FvJ1p42aueX4XBF~e^J
zjOaGf1r&xD(YHuGyP)DrNzI|?v(E^sqbSBuP#zjbG=T!&IDJ}Dr%;7J5H*it2E{B2
zWYs4~`%nH2MMa-CUN{K-eE-hIM6N2!l9tnJxtnrM%vBnSUal*0uC{crTQb+sWGPp!
z<~r8S;VnGD1Mm^aa~%o~!Taovs7it)muix%VhmNh#4I0je&<$o;XzYVX!XmLy1p(b
z<y9GuII_2jd8%e;V_g)M?nr{DRr2xwOQbA+e~Fg6*3jz>-AW=0A^FfY4et*mB@Lt6
zqx*xkI*cBl0<kfA7+t>@l9!;L_IubIAnNHpQO8Ewv6HRX$!8=Q5B()MXgi_)TV~8=
zp?>NnL({egk(Uh5*giylk{PuFh&XHwA_|dQ!44zhv0nsHlni9;7@|1Z5{Qx{owElJ
zr4XeNWe^P_%95GyGWHO{VUj=3*vAm&$n-gT1kordexI?&0NNx9*9R;k^6o+_FxtH{
zKAAexp1RPQy0A0#+D_`?fy?8Q*;m@L^R3zWo!QGfneT1Bu^Sj|1`5s7S3dsX<I@Yf
z>G5_t-%95{9NkHu*u1jKPktDA%+EB7^B?<L#W$NjzW%s)-FC7tshh-So3VT|I%^Z=
z_%Sm!^zMn~v6pNo6FIZzfgUD*{W(XX1MSF2D>CwEVka`a={6I&c4D%Xn0$1*mB?@U
zKOLEPwEEj`?~I&ldWS#vM%&(@mUqbHA|{tGxdD?)nOxlDMolh8|Dw-hexDyMOg_08
zRFA=4=2?2a`r^rXuu?T2u)Km$6)UnJSbjmM)TD-jm=o|VqI6q0O&9fYsUpJ@LFya}
z_cgc<YpUgh%Zfe(EGN94EOtq$i8@U+^(4-M4s_BFnOsGIuNLin$gg|EWFxj?j18H=
z=z|;gZ`e-2yW#i)<Gx|DfH8*Yt+|JDwg)vYNe*t^czDD1q2`CQ*-{=Vb^tYwq_cJq
zQ3yi1m3^4C!>I8+ErME<_(RWPfcBik9i?;IR~Up@l1iJ?d2?#ooSZgK6rPUFGi=iA
zI^#rTH<qHlu&97*U1vO0_4d5+QPoeN^YMqr?EqCdl1$q{3Pb2<m_nWmWb6oqQNkze
z7=`ifNRO_yl6gBpZOPs$2B@0qscEWaNHk#&QkW%UllBmW!(?>AK1N}VjEvhO6poVV
zS(~oS9w+|rgY5n6vk7dW5qauB*x5DQt2}41^zBOduCw(+_(m-3zYz=YMl5um!}u`l
zvMlY>`|q&UA=m^pHuSQh6)GaUdnxSD={GPt22jvEc`<h^?_4J{&#9N83*H+VvJ@O8
yhS~EHX7I0s`v*Du8JYczOzv`%O)lH!CR^O(4mbUd@436eFv(vQz93lB#r+2`L&T8)

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/triton_decode_attention.cpython-312.pyc b/attention/ops/__pycache__/triton_decode_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ef3ae8e830383ad49203749c60b42d1da84dcf1b
GIT binary patch
literal 18817
zcmdUXX>c1?npoq$LE;8)@Fpbj6eWtXWQ!E3!#ZqPvSn-SML;%4@dVj`C`)-*W2R<n
zz_Duu?oJ}e<0?a5ZwVTEGu)m1q2!n1{881WQfy-qqq?*SE74R+e^T^VPNlYzO}_5|
z-DqN(qCMGUlPB@(cYg1^@4bHSyBdFOvzZwP^V;`kUO3Az{|OUfs3}Fh(Q6szHp4Pk
z7*@rq=T%o!@YKw!7c^HiD$LW)YZr7^bTqD;*Dn~Z7#56Ij4DRWM0B%G5n=iHSt)wO
z3^i1<-g1c;i&#HX72{WIP)9RcFP4;_5#wxQIVHx#c009V^<s@VHN$X@h;6o6Y+HV^
z2C<fkfqq)bC1Q*<{)mz0;oPB)DPoxI5L=X=ta*og%MSV09rA5E<lA@1ui7EMdWU?6
za{iQ)b^b^z&ECzre#Bhyd`}v<m2vM#8_y2)zc0<aJK*_;qNShp$!O_i{Xk3K4z%29
zj62a_r}fjbHL^baY%TOzV`A7ww(du&E44IM53xEE1Mw!d0pj&H)WN{b6XtV~g(!EU
zJ2EvjGdUAkj0eK;I6P*ei-D;q7hofkQFdl=y2pGv9*A9AT8eV<SYRnU9SOu{Zbkwx
z9u4&On4jXya6YIK3@Z^X25li)J$a4e08?mbJ{$*B3qiG@j?WAFI5!iIF5cAb?-}Un
zyZQR1s}bmFem;5~x(P%$4tiaP#A4V*XLKpTh3Q~olUF0`wfP7en1}$jNMHuWL5mmJ
zSZ81|ya)w>ndwC+V|yk`#|?c+bpSQ+_sxp{;OJAurP5hAG%5qDBFs%_BOVzTXVo|1
zXuZe;HRqpVlc$IwsOAv0V2I63FGOcpn6&EM7?uS7_CjxbVX1d%W~n<K=B6X@?su;Z
z4Ii2tiuBIUO!O|@h+mB^_O8s&FZ4?E?u{<RdW*yfQL;xuQd!T^4M7_ZFJ9$rfPN7E
zV$A@O%$A<9+CJcJ-CVtyY0iZ2wCAe=yd{wB=Phj;+O}_?5+hjWRzlNU^x9Hr@!Eo5
z9X<QX@iU>ZbFYkzpB0Ry)Ek1K7&|Z6&cA*xbmooF#aGXszI0JAy*hGoJaqB&m2tr|
zADy0whbF^Ig8J+n{H;vZVh^QYf+r>PJ_8bZH!_O^PSoyFQ!Ul3+oh&Ps##C!h~p-#
zRiZ)G2JXJf0L$(Cth5ahjl0%$Np+h@Bk|*{lL(L|QbS|SviADQo*0JcNbOC?mPXk^
zY7?!bmKbr9!H7-x#2Ta#VWMppd<<!$wF9j7bKPf1du-J%Yh^6v$suVW9%&XGq=VFB
zuZd1sE6PX6+rWrANeAt#MQYm>$K6On`5v|~i6E;@?2%!!i?zy6;+j^)rQ~e26qO>M
z8>D{rk}lFYH^wk&HJlwTu?mc+i@3#Ek1=W0JO2^pv5)MN^{u?(ZV@-7a<{C$(yD2R
zfwW31(@ng%uP80LN!J|2S(S|XJ){R};Cf<Bz(@P&CA}<gU4N)%nJG0gW5i7BG!Tn~
zxe;q%onj5zu5XvIsYqXOBo)}{xJaM^BOFfKc1phtyIZ7d`AOQhw<rBLR#q)iFEKy{
zh~_5ngb?$wDqJJZL40wahy%)fH!bBIkL?o!vR?gS&GHlIRvi6+Y=0TWcSc-q=&_Qb
z))GZ+5=EP~kDpR>zpQtq)mD@J&!K2@1;$E>4$83CmggkKWTgr`Fd1M~B5g@fj3o}p
zS}E|zBuEb6^(0a#ad4OV0~Pg$$X;@guHs&@SJqZ(M-1WoWxIHg?g(krH{nD`>?L~u
zAFTAQxXSH-K#4u%Kq8n{eei27181V0u4Wynl2)^xR7>$Dx|WAzJp@D=m!CvW4$-xQ
z5#cT*&7YgZ{iE8wj~d#?@UDFf(>{W-dM)KKh%vH9Tpz40uC0o>0sn&L^Bf!_42L%;
zhe!5*hCdqas|D>sI5sEfqVcN{PSDIOPTf}tIyQb|De|}4Zkpukpl;AvWJk<PTy&ZX
zFN9`TK_BMAi_;N7J0A_Rf_9RfSrH5iGmA3|zzFE3AU7`PZbrChOfb;Y{sBQ(Y@&%>
zTcF&Apt}woN1$E!UD{3q5kV7qcS+F2;=pbR8ej{8hXvII!FVP#dTnY7#%X**ip3T}
zvB~g!M6kUUSq{ac@P96{7z5TLbTP6#A6XO(Bk_3Xm1}Xq8v_Q2jf6OP#n6OcF6A#z
z!~~NVzbe>E(TQtQp*bkB$<y15S1O8Eu1d8RX4p`4VtcZpG{#i{g*m*YI0ph0gE_p3
zIDAPs4+0c?IXw9U6Y##FiEw=Ks$j(E)d*1E5?h)F<_UN)SQratLzI^2qf=9{5Gxpp
z&lN$BD~=h(=ZfHv5Qbtv8l;&l3#m23z6)DqYAUoWsFsClKn;~bz&?j)w?Hbf_ZV=b
zaltC3Ba5t{i-d4d;Q^~IXu^||z|~^C(4tTr-J)OzoXGei6FC7Ztj9j0lY*I!nl6E$
z0;X_zPL{PIs9?t}hKl%&9CSdpf@-N$i4tG1QXDiM>W>`;8U}vnz*%t#oS~`fY-ldR
zEk@=;FqP>@KQ{>lh&%S*fm2E{&ki#V*KOOHEfdaH2a=~BS2=DaRuh>E`KqSmsmD(D
z?e4YitSawpNuJqs)@J5;=bq%5C$_3vZ>_$SUe4^x+d7jc9^0#L&8*I3RGCA0dt35k
z!RAU&to~l|M8WRKs8{EcCm;K3KQ`PkWR1CDJ}{W~AK1`(3jSt*n^sT8%v)QsZ?2p8
z_F>*S{NMy{9ZiluHkxl4Rt;%YdVI~4)#oOEWgJM3Jn_}szP@&Sqp5GbJMTNTp>-EL
z?KunY*`GZB*yXu>c<pdzaijMozVW4vk=OFBi^;Q3Y|iw7_uo#POO6+;Re;!Rz16ka
zl|Gd|{ON1=uH3!yD|27+_@=>?Ud$WX9{cJuzn^>i!O&N}<EfJcPyI*S$2acW$T@N+
z^G$=iXE1f*aYNI`m+xFIR5uiyT^oCk@XjM&YgCS-n@)e`H1BNxTBmk&fK=kG2YPw-
z6uiD?7JZ{Vb$-jvc-yiwyr*})<H0aLFvfevQYSX6y??x%X-i*UtIGE9)qMqLL)OMS
zyAfv(;&gwwobj#oBHETM4P)~?Gvlfm)(nMef95b>-Cpq4e|RCQ&0JoK=B&JT@PYTC
z_KWaC!#{80J*Nxanr8;B!=4&}cCez}H7~4G+b60_=N)tQ!X0}~m3Qn(jTWr-bl2+n
z)aYiFKhyt{M8VVesXIH78@{`kZ$7|#4y4sjpj-c%Khu#t!q@h$JOAqS2M2%oPTp}m
zH45`}_?|b9nqrr{vjr#8`W+|Yd+7dR`Js;=KFxbxmd(V<z($x|oBh;z&wJOKQ|Cth
zv|(MB_a020d<-QkYb%*ZcKS{<@9RmOdR*<itzXlpxy;EmlCN${jlf1oA6k7SbsQo;
z9k_jP?O>+)!;wrpbMnrf?DCzSTyx&FkGJki9p7}<WKQw!wokcxD|c6N;dRHK65hQ(
zHC}Mn{bYRW9TnprQ*BMC7@Id^<E`xlyEoIo+dE+OY@M6-n#?)g9)ua&_5g*dyk8qM
zHZRQG<a%ajOqN^5Rb#>GO3(7v0FJ4B^-RH8^Q}Q^GQ(#1PADCS(t#*F+fdHKOI5Hs
zemZ*l#M+6>fj>FNTbsYtX#nvVHDhe&P$HR>3psdzQ_*z;?qLvJAz2JDHLF?#MQOrJ
z^a%@5DQXNf$j~ROME#sn8(|bnwNw~TF4IxGRS7$>lPY4F(j=;Pz(Q;8FgiVAp`x&Z
zH6)zG!RqFQ;Hom0XUVBq9n8|0aK?dcD~4Gm=2%kXCS1GJw2ACa!W~Dph6YkyoGnoi
zH3(H&5QsHII}5B?Wni^pdzkU>Qm&KQs}$Rtb}5$>%do0S{g>M-mzUdX6x)~Qr(9kh
zzjC=G5KTFVgSd#Bn2CiLiHSH_Be4=2YyQacM=E46gO>A8j{$+7B4_#Ze?lm8n@|4^
zl21`erhMnq{{hLM<vXxDf(iJ5(Dg946cfxCrI&21%moGYf?*~Wx;nEI0!Hy_7<duf
zQ9{*X<XzATMy~^J5}gVS&}&)H7g@KUhdYmzjB_F2C@3SjBE}4$4hu!E#kqqxTG+vi
zV8f1q524IVj5~mNCd#Csc9ODXf{yC7ip*M>MbnkoGi1Q1T1-0)oM&;~bBJH!^<sE7
zC~_l3PQxM7)`b?3?ck8Z{}=EVn*#AL$$aZ)e2uH4+5Y7Crn@<Lu3&Q9YFus1sCiRe
za&&uY)9brEy*8Z*ugzwg?{(ho%r)QLlR5+~t&a4e%sU&Fy~(kH%YA!jZ79>fb~x+5
z*Lb&aUClS|=Uw}gXE&=I$<qb6&zHY6`2VIRur`tnr%X>=HD9@cyepV%$-BCfXCGI2
zzN%{HtJ<>@`Kn;@)Dx{Y9p|<61*558tQP-!Xr!uO^n7Kk=Z*Ei85x_P3Le~P$NQFT
z(dt`Ot5q3w-dG2%zC*m~mVMQpUd|h93P$DlR%?S!ztzTgTMC}$f}^HT?J0O$3(mUI
zf0w&pvBCdm!%&YN>4JHga@2G|O(o6dtK*_-^VDPmEQ%N;ZRLybdVddXrCgtgLR&=u
z?FcM7hD0OTMV|;Su1}N%=>gp&lOdIGm-U+gY)kbm8sbYdFRF<n(F_{N<_fu6;SdLn
zXSr7#XA5Wq8$rbl@nZWq=o|Est&s1;_)VBmqE$9FWvpf0=q`Fo7(rPB*-qL>9qqA$
zw3B)olj|atG?+TlfTNWt-9;J_LDEptqqbD&D9T#ZwhHYH&R(vmRO*WX-2qajwE}BL
z1+Gd>&|cy$X~d?8YggKB*GPg6vqY2b?=Y)<6(hk}^~icuo>h<Hthy_3RnDqch8J&*
ziU1l}|7WG0o9H8bB!K%dA=fj?*{)J+(qGbIc1dmJIzklaDgyCs(;q8nm_OHxxZ)_W
z(@?epqrNO5*987=_K}e5{S<K#&$PPCaLqn<#EAo-H|?hyZw>dVOyk`T`Cd_j1sZSl
zJ9l9o2Z>zcr~GbuMQY%xCx&FJsI)s!;~kWAZ9}9+(s&P%fjL;;Z5r=G<Pg+=btYI7
z`lo#ili}@qsig64l4-o@`&iZ{(sqY;8Jmh6raPBvBFozH;<yNXD`glf_wNfb?5Mh_
z2%rglVOG*!mkY_>Sp`kCc>ajAO&pQl`NZzCe~-Smvav#UiKDXdDXol(9Nl^L@6oqc
zhOu(?FOnlN{0j4bua~^2IRD=7GJmT5JwlF@Yyw9}tz;9ZjiZi|1}LxnEt`ORTuPep
z%F|bI_3@s98J6F7iAfgU8CW5@E6X$@MXNy*DO(LHtR8e%z9gfY(z>Y0OXYQuVW)2k
z>D>M%;5fJ0VUEeLD`@y-rGXL=We;+sY>^@RrM);JYt<sFUW$_aWMrGwV04%IN5}}y
zqCB^4t&fufWVE6j?Lr5L+<Kv~<H&Kv{dVkm`;8nEXGwS50WwHNEBKx^g&7|&(}}L>
zAQ?&QPpd!p6zmNRC3{09?@+cr1Z36+r5!RRqhE(Y?|L#ucL<EOf=<AH{uXzkuw%B_
zE~N3w>?86K*3%h|?>eS&Iwtu|*rhP`LGh%cwOi#QQMO-jDCcvv2yj1h$ar%B1kC_I
z%0o2+hue~CN6?A@*Nj8baX1Dph@ca}9sq)djmE))B+4~m7FwRUeF(Y{^dRU(uopoe
zf_?zO6WjpC_ahiYfHGoPg5(Ziau~s31TP>sg5W3u^cdk@LU0Vh2!c@r)Ew}SF-GM?
zg0Zq;Ac4u9tOML}C@mTQsPG9==LxJoj@h<1M$Vod3l&9|Q`{Kl6|DhRxszDy6oS(T
zUPf>R!C3$$HT`l)d@foNmLh_&XhMJ(S{Fjg5YYhOUcrX1BDjFyH3SzCTte_Vf;SLc
zM(`$rw-8)G@OuDCDtoH-N1Stj^KC4A2f^<n2qE}K2*L;^0K{;nin8?g&MXSwwN%Yd
zom(Q6>i+kkum6Ufw(6<6|Cp*m-@i@651MDtr~2;ta`o%i^UW{u&X<yBDvSUiR!@Iv
zXee}aui7>{22!>{Rc+=SzG~0sul?e!`){o;Kj_SNkMdQc$x{WJCsPO7)TZ1y-apLS
zhQS~JmVtM(dwAbI-qxKw@%L&-0Bvb4Z)?q7{rU2GTkbmFG4vqFcO2(!#~)5Ty7cA6
zOOG!9%P4Pq9qbj7Y2n10Iot7bM{X?VyW6`y_2AMM{SPkxMU-zo@d)e<uO&w|4b|!X
zA0`T}rcYb$1@8uPBe@&-mSNsCoH7<%b(x8^qbXzAhVk?8x;r<`w;y~^!?%xu9pmAf
zkJv9Sz5ZyLAAf_lzJY4m>Sv$`cHEj?oi12yX~XK7%*rR>oEx;&@2wwtF!n|BgOmLJ
zF}`v9(Zy#Pb(J}#d1hq%wcp$9VYS~nwR$Q&oqp@niF>nmXMbhw|Euu_?Y}(BTaSSi
zM4`BB8#$SIbHml~`NS_~@6Z0qJp2!A9!bYPys)Er<U>bhY<KfW=F%tqGV{n6s)vKm
zHIMXvJa}g?tGZ{nYxvpGydwzak)l;((_Nbx{KSzNT6-nC$h!v%-sbE%-rEoQe$T+B
zxADW}Y+L3!@9hMgzo!e<+tC1K7cfbHMyuei&w%k@Z=p7jb$_y)_1)>so#kr}J$Unr
z@FVxbY5wSWzUGxeZ3EbAe9p9H3++5Vowz-<HkG-UZN1lVw<G8JMa})1e9Qj4caX0h
zOsl`U)ute`Gabye{iQ0`dH1FDxB1o)zIycG=)cxIn)++oHyX9m4%Qs#`TqlJ&L<<;
zc=jY;zYh+Se06upu2VGR@UAxA+P2NY^Ksjqw#@R!*Y8~aS$EEnckSh^dv~?)+$dUj
z{y=WwDcZSsdsDWXxA&r{r|-8-J!$sCk@PfgZ$tx46TbO7*nB=zWd<{bwH~wqIsM{(
z&Q9mpzZ`+Xq~jp(82UeE5-K=+|CO4XrgyOly#}@+^c)2%kZKmLl*+(TmoBgmsh?A7
zjjP3WoPk(a%^X~qV0qC3R!jlY!|7OE!p7<o_Qht%GnDd-kf(w?-!3*6i^!%yeN)1|
zOYO2PrwVK=;?QJI)>O3CD3+PAEa9LQDOnpa%F^;3sAa*nRN?7_*}K59<|fs$(Hcc8
z<tK5(flV$3uy#l;o1!2<++ZE^%rFTrYfboMls2+vR?Avh+eaEGGeeo=v`9R~`Bhk>
zkhiM{Y}wkw%>FLrW^rYJB1-M;yOc{S3p?!j?Ul>R?KO(+%kxt%FOOfjT-r-ujRFfJ
zu~CbqncAhmCdF0}A6TcXZ1qQW;{8-rvP(J6KMeq-xoH41$KdUFirn-Jd}+dP5sU>u
zP=3k)C>yM}tJnf}$bF4qy&hhP#HgD~<eK1K2!s33yP=syFeZf-ql<Iw47fSXErloN
zINZeC41l2hci`UVu=P9w$%GU%a*LR;fB-m5hKnLVaYoR9j}?dfC$|J3=%-vcw~QGa
zf*1nHjK#$<Nd=Q@81o=lK_GQjDP~;9(svQyZs5uS#|=md7O=2!;m{nop2z5@V}8iq
ziN!8*(lw$POJt_e+Ez4Y{ZnZCGgyS!zXbq3=YGZpt|Z&-R@+nG>KS8IdLZNa<KaTJ
zGo{-!m{J#ic%$H}O<4<W@2aU_vZP`^sVQeX@ilzq>*jskxrw~5A8UD1rb;u_j>fU)
z8N}?>;FN=Aw@st%vC)3ZvT8}6`e-uSnLCniJd`&MgMDkuptb6gV_R0n<w>3?IGo9s
z|Hfbkr-iQI!<I+Oy!S%NQt)_F<|o?53>eDV{vR`xHH(HaR~_2Qz(iIwmsR^@7Bg4D
z)ljsUef<(P0C~vb{boc3@uEY7bTGnt<A$aV5&wl=eKI|QbcsQYQUI@2*cliSwq0tL
ztz&jsO>MEY9D-wj4Ydst<|<iz99=~Ko03Jm4B%3#Ce}F^X~My3z^MUkeKeHa3cycY
zZj~{MHOfz7*=A!<(CUNNcZnKsf!T<b>cH(pCuz>BaRv#GVwshedE?S?4l^)|_{Nxb
z3eeIgn=>Ab6#<+=q!tN3@q@3m4qDa7T7eF(GLRbL$G%CG*ju6&{B3K{-VjrLAlE=E
ztqVguw6%}urFjCC!QO)V1wumpm4-3~ZzTq4mFs0=SJD>Nld_djZi&T{vLe9c)38lP
z*$7S&jnvQCE$c<8Wqn1<CTQ72>gasoErHc`0w$m}Df%Hh!T#v_K+wuPp7F@72*7CA
zh(V&7y=bqbw4gf$dT~-eWe0ryP@*RIDa-e1Z3Rk50y9*4`w&wiAe)=g7}PL^vPINR
zdk=^^fx3$r<=)81A{EtlRFQ}M7j<}cnGUZFb6XKmeO(vEsQPXX#_&ok>h-!Y){CGI
zK|g?Cv!FW%9=NXvswj98$0F3TgFA-hBM3$TNDjbJnFDaN?4%3LLKCr~%FTg|(1b%3
zZB&I;RFhHt8C9K8MHf|hp|-1}I$J4uq~bSDlT;g5p(F$4Be>?qi{+@{5=_x~w&c)i
z0)J?5hlQqs0Y|eEo~NH^?R4o%`8&C*4sd@4U3?8I8~Zx|;I0~|P+x6xSAC-3WLnlR
zb>(fXMFkXfP2Hrfpk>$49lSz8sno#RI&%K?b9``ww~ahJ!P{O2JPy=)Irik<d|>0d
z$9c#2BQ@`MIr;Jv@E^U9wf#HrJG4BmYxsER&d^5d;QB(oZfwKoFVqBcXZV_-lpVbk
zZ?4_U_H67w&bJ)j7=I)0yPUFaT6~$Fyrt_gcv||_eBkeq(XZLFb-4uJe1xw)^6=os
zg-f6oLLnXWNM8T#%WIc2uV=6D4ZZ7oAKLhVb9}?OyyrZ)sX`%mNM^k`Pu|;`I*H`b
z-_d8TWv}0PFYoV7okovC@VKo{9Y_CMEL+JL_@>^xzpqr7;nrRRzrmuAe42N+=S;l2
zpE^ITj&HRy{@!O@jLz`mQ$IKb>_F-?b>-!ak~gmry?KqJ1*0VuS+#)n59C<5cFjzc
zyQJ56{ZAHndn<SdYxPAemefoJr0P!I*qQ6%jRW8s18$4r{cL~@AqKP`;|cLi7B<Ii
zW(Pq_MFpJaiLAy1xZx=Zctxj1Q@nHzG0d#eSuP0<MF&X`z^rlUcINaTdg)j_YXITP
z3N~fqlo~h$={6>|k^rWL+g`VWqo2fE>`*Ro6g!lc9r2VM^~(5_%ggwc9r2|0Q|N$a
z24P1FGd6ytBUVY!G09I<ly;~j!u=7(P?X`)0D`*815A=Sg8HJYQ5G|()PW~NQNpkb
zdOUpMv7)4L2Maz#fZ~Q=nh-x5D2f_o>4Bb;^u(m*ihqJlZUBhk{*ulp8Yv!Bb)uLM
zi%!Min*sP#gS|ExS)qP!_n}cAa73|x4-pU)oQ%(}?9H}aT=*?MpR(&tck;|{apBYr
zZo^Wa9D6MJtl23y4(@1<0`T{?Ra-iohvR0)xUvJA<(7HXobG?$w&iiaYwBfuZOBD~
zi<uKRXZP1lm>WQrxfx<bj#<tVVw}E_=OH5ZCnNB7Qg>G!e2;_<ny^nkEAg8uru=@v
z`@x_)EYyX1pOxNrypiv#&cnyXcvEvo;``Q0c~V+$!7BfBhRZ>1!2*)pBE6endnkyS
zF&w#ktxGFi`4KWTwZQk)3*mY07trJiuJmz;z}-~O=)5wS$W<`9>2efZ2w`0u&pZ~L
z{+XZA1qw!2`T}_2?}slUg6r>mt5N@7CMWk93>pZEaxEn&_c_FNAVa+(8A?Jj_ZQIc
z#&$Y1{{7NHI_UombOi^!kr)(@YkJh9zA&bKnfW1n!>(AX`01&#mXaR$R4Zo%O^urB
z9(}UyS=`3BL2)C)VP4wGrI!FVYFUR@+Vsz@9n_vLo_=^CP`yr2Q#|Kzdr{g3Z98st
z?$5Cj?r`p(AyC-aR5=m@hJD-i4ixvdTWMjrUqa;!E-0R!aD>$})|$+juj;$``tDqq
zukZWP(zl`Q+pzRKPv=nbzkOnC1v6K{>Zbo8QdO|}3sz6T>MK}lXePux-`3bnW?=73
z?ccdJJ$`~JYG#L>ObLj0X|O>sghFg|G86(nG&(&EKdOKp(UWswjB<ED33mM9fgbU9
z8DbpX>w<%3mVSTWT6|_cR^;#T%At<jTy%1QD!T*|{Gh>Ez>S~zg+hzrg$VS9_Ydai
zmcm>tB3MG9(r-cFNWe{e5l5n#orxDeDl|<-K}!crGe`Zui-#N4n9;YA-fVc*(UXR5
z1-dl%89MXg3L1|rMDaHvUgZ82)C4|=iJ{_mOQTY$zCNf?X}>Wus;XZz4Zmjg{s*RO
z)7-LQuKmi~!kb(2=C-6^(^Q-CePycUO||gxmZ>eN-!d{<M{?-LM}KfM?fuHp$~#)~
znzn2rd;MPGZesm%zVqmpnxh4+`N!vfaDGdzGSxoQ0DA^{Ben6zwLhr+TCG;Kf1_d4
z)-8+yuUE|9QWKTR48F|pmDawseOv7`*&!x7X|f9~qw}ltTS1!K!@!qiZ?C?+wU;LM
zF>deeBWp*tx@oe9sdnBXt7NN}Ci}!>KTQtc=QY+<>(+jn94sY&a{!a2@nQ5gf1r6m
zrQag(<34o!Tk4Q{+c;^m0|gK3nsuv_CcDI82WfJT*!5nT+$YYWn<jh2S@hCmpP1~Y
z$pLXv`)P7eM0J2B4~oelnmi;<YM3Sui<5c*lch;v^fzO=iz=Aayjq$SPSPv(<-?R;
w9A*usYDHXikSd{q*l&oc6A`JHD(5#f^$>ld9K8h5>Vn<ztfo(8rn~Zg0ZA}R4gdfE

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/triton_merge_attn_states.cpython-312.pyc b/attention/ops/__pycache__/triton_merge_attn_states.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5107d0fab3134a02101c9999d6e3c6acae6e2cc0
GIT binary patch
literal 3363
zcmbUjO>EoN`BD54Nr@6EJCf|gaocQ8wboIWVotYZE7DqZoMuUX(rxt)glf{UWa?)m
zwb{lKpaKOtp#?0V2WdA0+rdM2=&^?l=yAX<<~(2m;X{W77;=;AY#4g#_bAF{Yq@Fn
z0KWJAf8TrW<M+M4N|K0R7|eTxT?wIo5o9>xK5+O9g-{1+NTUq2MAnc&l|oCQ61_xI
zNI+U#qjgl|hl<Cm#+*WDPoZ<C(8H(D`BUiBW*8w&(5RJ|CceWiu{vFh9>+C=w1^%m
z#)jDOszpzsOQY#4oECeBx#t^L;y0*_{D5G$G9fo)8!l&?1-nvqxk}Bh)@)a*n)*s%
zUG-7XM-5ANC9Ad)Wceszi34$!z?`YuHM6|T9Y>AG4r%xf{{&M9VN?t-hoDAH09fZv
z;f6eJ_!KVfae13~@kWsuLdPrS??J|pQ5S5uhrz%c4zGCDF~TgSa0t_w!8{f)tDzco
zPZ-EiXai-KTV@E*2gJ?;0%aJNwN~?0-6Rg(cv)Y!)oSI}x~W!H)XQ$Vq?>njHE-Kx
z)w1)pZmDa!S=Nn=XtJPTl5;XiFeb@UlQ=U;?z>{SR#NTCnqIcREWp34>E?#Is^>M!
z709Amg-zX+t9eb+HILy@ETaC{(fI7OtX-;RtA*;UorhTL+4b6$??1P8Mb8?Ax3bj@
zd$m%|{>m^)S%^|E+XX-?RVzD44fVtZE>$;N<pkACf!7FpRu!fO>dPpR?wo6%>*m|j
zjT^n>xsK5`w!ho1G;a6gWGC8=c3*AB8;kp?sehzqoz(13VK4REE;Ig+L+n(yxRc$T
z`hmmzu*b)Ge4@vn3Cv25PXpTh)-HekKVu@x9fD8f3fFVj=GE61mvXNB%C-6V+`M{B
z5pTb7=ao0^s5f8FE&EqWln}WEFFF4Qa|hXeiXc=Z_xq)xQGpaXmK>360ZH)@HbX}?
zBLT@#HjgEv0m<O6=En;u9Kqry>}?Y$SRnI}7wHkY>{sZ<uw);do<<LCu00898wqfj
zA*W1XsV?DIfcN#ZV)a-cPOlw&@iH)2z31OiJq}oW6QqbQ9}4P^D6&`@##omFo<>Q=
zjwBT<V}+b%J%M@iN<eQ!xyFg19z;ZR#sc#47k5K2C_X1{4UY}?NCk5<aZ+2OaCj(N
zAIIaETZ7Z7p9%OJl_?=8bWxHim^;dsNB|!9GU&`7*(2M@M_6ROvBeaeYGM<rM?H-d
zADX~Poc7{M;fY~n^~r$mQ6~tw{xx<piOGKaX5kffZcx}wcx)h-E|ga`nOT@Kl*^Rz
z)*4i6BJDy$tlTy8CAFZrQBstB+;SPClGj{z1s2;4m-6d{Qmy3D`g+x+jmll<5_ZLe
z_Lw*G<-2<3?4bISv>w?4NIx?t$#j<Z6}(0OUe`@>^Dghze?VP<L@{UzY}M<)tmQ2v
z1`lAWD)eQ>A~WgpWDS#*wCjjxXb_a&Rmgr_umvIzwYP-9#B$yMJ+R^dG;l2v+EJf5
z37AO|zcQR=0I=eak`44Qjg+yD)RwyWJ^3-{0f0@nr?-_o<wE1eeq7nAH|yP3_u|uy
z>-%z|6K}`2sXh6L#^U{GY-^#p(7Lgm-nrpCKIe?jeKg^Wzpxj5v60*VDrP^1&R_Vw
zzLWc%@wchV@8?=G@Bic@wvp>iJu!lMKPGP#o5k*#ZFVm<(^%+5mDWP@Hi!>_`w?kt
zt~uBG_Ip2S%<l)0o}{$qo4;th^v|%epBV4Vv}d}>4=!zAaT4G8O?aOdxA-RCn(VIb
zOgiVEb(Cj6EI7*ZAE*A#FWv|7Ogq!PwmY5OOFYwfxhJ3P799B^oY7!&q!Ef^t%4&?
zZ)Y6wsRNo4p8iBkwBB^Y^9O85nC^2Zk~|30LbA`JSn6Sflek9iVGK!ea&-T%fqoLj
z$67yamf$dA2_F#St&7cUH@Cg;+uIOK<Hdc3d-wX=*P&^*Cc1Ar%FND$qg;0Q%OC#y
zW5M~}qQfu#<z<KeS&xtOq~w3Y49l5mNQ?}1D<ilp{3FY&u0mcTm;Cof%`O<0_xBB+
zSlk_W5mij@z2VZug6#^+m9k~SpJsZ=_6Ouy^s>+8ua+uW&Cq{rJ`Y|<$F}|qQ=g_N
z>X1j2^l$Ve?Cj!G2U42i;BvQaHgEQ6fIk^acdoXt_E~`8NEPqN(hn1iN8=M7Pav2$
z<V6S;^|7w)$QSy=C?p;y9>xhYheG_jlW$M<LoZMsLr!erCho^QR7R-@@<{3{9-1Kk
U2t1QM9V6%=jY81_PtV)l=MS3KQ~&?~

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/triton_reshape_and_cache_flash.cpython-312.pyc b/attention/ops/__pycache__/triton_reshape_and_cache_flash.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8beae35532ec226f1739bdbfa778f96716631ef7
GIT binary patch
literal 6317
zcmb7IYit}>6~432*`0kqz3a6-etU^)r*$4~utG~(5<4Mk)ux32S~i}sv-Z9;Gmc|(
zUACxFydaTS6|yU+x=2U_6^Z@~5)ws1q7r{RwWVD~kuU;&<lnRj67Y+2W_Rt4W5?x6
zd*(amo_p?@yXT&J?)=&9b`oe=%a1azL<#vjGR+ojfQK4G$T|^-z+}l)e44UM&UDqp
zAU0>sIm=Z`&U)3#5Yam4Y7XCf3Kr2a=h@?%NU$Cvw;dw4A0lT#?rU1zdkT(2<jzCn
z+#zz;!Sb1a;C{#QVPnFp4#6XmxzOJHO(b{^k^2sj`wx)^4v_~%P6!>+7d}`%;}at9
zSgyL3m}K+;I(j+DXujzMNfPr)s+dhHGX*J^G-)O!tJxGOqZIO*b6#9Z$-oGr=DLy2
zE{MC_wQON}zR7XL^z3ezBfpSKT^G}WtU2(Jk~7Pq=4=c=?E2a(<Ee{pq|Uu~?!wEO
z<Mqi)FQ;Ccy!!HV>wjtoAI<Q4cp2zAQ6MJkZO+t0dryJ+wduo##)_{+*RrS6MASlk
z%fK}C=WwQdP1)t=*j=~_nj=^I)Gsje;E%*C9p$09#lt|0hsJ)~HEjTaq23Q0Z@Chr
z0qR}05<-LM^-75Pse2iESHcFe0g6x`wWH2T6cB5mHX5c5V_bwf@o9{Xwak3b+7KE=
zJsPT0%25}N#drL*W!I-T^++da{Gh!*=Y9NLkZbN3$wcG%D2*TCgSEN7%N)E>dmcuu
zv>!2sp>1El?*#aLiYESVzs)qU(vfeci6gwQJ?41_cn;%Q#<a$FW0|Ol##%gYr=fjo
zj(Y$a(;8m~*)cz6r{i!tOC)K%EMa&-2C$@WX5<IBbCAiU<@uyT!obj+MX4|=rE{r_
zpjonov;di*pjk6{<<tqymX^}_Sy8hJ%2H9(Y#BK<QykZ<vQm)5WT$4w#8Ffv%~8)9
z2;C@~PETJKjUI2kXHVdhvjruUOBaio{H&p3hXga7&Wf7-Mjc2H>_o!-D&e-297u2j
zNf0SS!lOuXBf-N*b0~#*F%SOV)L6qdBAb%Qim42A;<GR_BWtVyiv`G6^(2LQt~x{o
zQPDVAnognr*yTp1?me=0Wmc(Af(ph;v53&B=B(=((gsGk+zAfyPi_DG#;B4jjutb;
zXOy%wD=N?2TsZyw`21;cG@H3LT3k}D7xJSwvf12dT2Ua0XMimf<<WZXPD!GCJzW%2
z>AcWb^_gs1zCKc1(mJ2)n-`_Lm`xcf(zD<kuB!Z72#gYWG)(-#b@!UP^6a*+zchK@
z>%YBNUfhfh-c72}u`Tb3s`s?&J^ee=@7dq7TizE-7ixCzo$epd9oF*?xA*pU%HOFl
z+wPvy*Y5iQ>y9<YM)$@yw|s-8$(lF3;ZVKZl}Xk6OzFaouWe&W^$kEruzh1r4Gxtq
z?F0}7hDsM}p^l164GovRzT=5*46B}jyNP?8nmng^&XvwTvJqbZ{i?CvJI7SEqr$4}
z(A}H&p8t4B{qig7=&O&+CZDZz;WHayL%NOdLm#~L-dokK6KdCq?XFX6<M%H7QTo&3
z9~M7Z+&cfJI`L+i-3hj@vS2t6T92+pYpnmy*HyN=azSN>KN`Qc^vUz;S6)}gu7Kfy
ztu$pAu5sZi*RFEyRjx<ndbYW~TCBG`rL!d7_ls-4oc;Oi-Px^yQ)=u~d1@!zwd(wb
z#dhn$+ZSqVc*Cx;U6mn~{Zftf)!gBYSmm2)Y(#aB{>yH$+8#NH)m~SPZVWd4sIh@3
zRdrD19>PCJG&6*vW;LQvb6{8+8&2a|cAw^I-Fcd4{zfBUjLj|aU`FZ&GTnL<;!ZS<
z=YK=CxMjH&StpdtfpC8lm>7sw*h6|vMz4dKo-)=++4@oT!w6VuB*fNvng@(vHmq@!
z`2t!lnDb~`?jyA7Z|6BetNxZ=>ZOkPA=p^<DI)9^l0RUmRj?ZJ1hvk=al5|>y9bNR
z!ALu`{*(yp`{w3*qlKrBlS0aFnR8%C)0i^P!JFXT-`7@r2g|8%{xpQg*pc)1z<5l}
z`x^B%kIWSlH6Nj2rdDP5T5-??0DUpm*73zx28%f9JoU9$4(xLh*p}V{3jUVf1CHjF
z-pG@dXDm1BK0Eh(Rxpf>CU8o76VD}@Xzy8$G}mvpI19A=(|FA6Yt32Y)`;NuDFNHm
zldOVkB`CO8Liw)<9zfoeP|F+jJUMc%|4A9_+kq#gP2cPLR`6k&DY;tS-cJL2@3k6P
zwal1=z&q?pSV=am(J(HS(4Qefkdk*9Aw(IVVQK;zp=O}bvIS@xwE>M$JJ2}gfVNW?
z&;)e@?Vui@os<RIMIAtS>IB+N{XlzY0BA1_0qvu~cbOkE41q#w;Iib0*&kpvWt3FQ
zJ%xOBiJvaOd7LjS$h>h8;?t7I%L~O~K~h90r_u{hN|~WzS{_))@5=ed6E8mmH?QO{
zKU+|EjTu>fQ@mNsW~MU=4+Ht>w5;%Ow(~~G#VZAV0ZOxRJ|pva7_evb+7e%{2>2&Y
zedD-auC)4K<b1v`!(V&@=73_2huT6eNOeEHx9cJldehfahW5$`|623i;2j#nj4t^M
zIxC*Yjm_kT4R|v5+;H91VgA|-)J4j(r=aICFa|2S!xolDG6YVZ2UwLpz$54Z=BEd^
z(H>v{m?5zG(~Zj?@Py#mgdZ~=z7FIkrgc(&%ITu)o&j?>!@gE#D183F2y4dSjOjI!
zG}jAgqs~m4q3*>}OTx^pS*C@|4Uk!KqLS8_yaYLk$T$gKDoMvtg`LQzbJv9Q+2!L$
z6l)W3%T8zIvm?zB@1rq{{ePE8jSW@VxXQ*io`rJfKI^&7mAN}F-cdF#s?nh>Hu;&=
z9J5K!fwqK6M8f<bbs)jKAax<(k>Kh6f7aG`$zM!MMOkwqloj{_ApeRa!_rG&OtUq<
z8aSatQsl*qa$UkT&>Zl`*26|>L*8;DBQ9!IBb+p=5yP6>2#4`hJ#I9v$wKUC-X>$j
z)WWi6&SmoTmG|bwoA4>4uqaAU*r%S;>~JlS3e!2`esZ(80RPQ`kk-ObOs53#MrK-s
zLZ_I%mdR$6CCyeB8P#txDvjZqoIr9C$tfiGS4!hZcqGQMVKBB_KMuH|Xk7g>Nc}rX
z=%6jMcWaTR(B32v%`yugUZnE?<tPxmEqoWrW9@}{NOe9vkfanC_y$_SRP~<{(c6eW
zR4>KXTu^TNf-Q_czTUOgRq?C--qI9Sy^|1Mr5AT#M0_p&Zek<7)&(8Gw)Kg%iFeOd
zy47G`=~6A2s0Mr0VDDD2zmhg;_gbL68t732JzIgk%ByN%uyhg1`Te3A7uiUD%Jptq
zCO7*hw}5iJJ6vqz4Ukpdst&%O4!-blczf`?PE1x?&3XKz&duX5e9UaJUwvo>$tHIm
z3SL*d%Jr#SU**a+ckGdwIAT?{M`e4q*}ffj<aVl@((S|=(_Mu1-}?UB-`|Xnd}<&0
z=xlZDk~((jlPlX}ufe4t+_`>v?eb>t>8;TCs-qU^u0{sb$iU{{m$xDlt6YtX{p`vI
z-+J#`pK?PwF<WiAiE*4`9-0Aeg2+iiJ=Nf_8XUfRWh*#Vy7U)cVzc|?eb!xN+f}yR
z05O$~0l?jA@Ex$ay2E<L_8GDE*mU9mvn~^wbt5EJm+cY$U3Xsk*+4aZT#X<9$iEdI
z+wz@&yO=#%wRfrZu5EkwcK^w0|Ag8<vE6^R7LKesYoT!2u@jCWimW>BbH3YW%4e$F
zF_k-Z_uOx$el@kloxaDY+?ji?e#)J_-`2iyt`gg7JGMIch&8)xrI+x|(OWs8T82I+
z5v%PlzMyV~=idTR-3m{*@kDvuj)*0(KHY)HN#X-KhsZ_zZMqwg2ay+1fP^~rAfgb7
z^ypzk5kyf$Z6wU=F+_0^Oz7>15{Nnwb>i4AL_Ij77tsLr4k8*tltlC;(EI!tAS3rB
z-O?)%`I-ms$|KD$opL=L`3+%X^DMyCTsFRb)Dwz%E~7|TvS|)D&}9V<V97`in(cMt
zP}Izj=8U~1T?Dmys%@nBTtQgKif5%6=)l8C9s;VH8HRbt62|>ca_p~U2qMnJ-ip5+
z*G*Fl!|4IMX|rpr9yHhx35M5))`s-3!A6>F)L`52UfQ<SrpF96j`v?$rh2=<CYo%A
z!FHl$*P2W3GT0t8HM};g_ZsX#L;3STWFMM|$<^@as_DB7W2-qlw-e=rZboJY;%K5g
zp<9uGi>)tgOzSXM7YRhy6Ke_GZLl5!Spw(r8my0m+jPGH1H==&{q6F%^`OCq8tkJm
Ivc^jO4<rk2;Q#;t

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/triton_unified_attention.cpython-312.pyc b/attention/ops/__pycache__/triton_unified_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4706a6b74a323041965b3fd93aea4b471d5e53f6
GIT binary patch
literal 30039
zcmeHwZEzb&cGwI7;+r5qkOT>Se}9vrD3R3n@>8NjQKBe`l2%$QMSv8)sR8tPjRVg)
z$K>5r1m0dEXuXNB=ZlxOtBQG7mpVD+N@SOl+mu}ujG$QXlv37JHs#zuXjida{*%1d
zg8>H6P}JV7KgzjL>EZR8p4UC^b-(U;ue<ptSy=`Ku6gyhXa4io8RmatLb~3HBVT-1
z$1ryp7vo~*nG5)vG0!e!T*zP%SIw&y)ECqgSI=iIXf9|Lv=_82lfk$%+`3O#k;?@=
zq?y@ViFxuD=<3=0WLm;Li6aRPCbxFhA>B>>x-!4XNO>=qx5%TB<;mV6kJhc3El={5
zFqcl5KBac)zo|}?Y*ps!HqBN`oRYsltxcvRY%0TLP%g`5+=6ZbdcE{~^4FEM1>L*_
zJ$nnfWed7>3wjRF%aiqxFqdr$dhQnVye;VYThQ%W&<nPp7j8j!Y(Xyqx{{oWx1g77
zK`-5cf7urK%eSCcY(cNwg8x=+y9)9*N?J<(x~jL}Q?muVb_;r)GJWcxtNxpriN2Gs
z+;{%Ldc&_<H*E^8|KD17!xpWz)72=m^mgUe`W0FFFKdan8Uem4i@TNO*g{sWugXFc
zxSC`ZqCn4x|6DDu=5MkW3U9Fut-rulI?})j#+k(#uXBEBdfLrF(lU9C<J^m0=kol7
zcWQ}SXvh#Uyz_#_%guO~7AG^3h7M*a45NboUlahi%MgaJw*hmpw_#!gINTp&8Zt(H
zf%BLj0w%CG1@@K)pDQo_+f!}ch2^&8ndKJm1UK#Ww%okdwWoWo%iT6VbGdE#miNli
zV%zok`GvL#uNSH`1IeXjPn%d1=e5O|sTsG+nYh`yd`r+yx@N9Brxv*^C<7-<o;(06
z%yUy#fL$91^sEg9D|lm3SY7l5++b4P2j7Lh56tGI_c1bzFT)$3h%wBp{QZ#uTqHx9
zX8Bax<uo#hylTP{6;Y$CZf61)#DUvwC=sN_jx=O&KxPD$`{r^(rofJIINcP~WAKJT
z#&SFS-|4{|<#=%>yqPtzygYx)=~<fcPEIUy`0j=9-*XTE2*GGty}Gu0rT>}Ucqe}?
zKcN10@k+0h$PHwEyJV#|YBU8h0;krsYX^e8p`3e%d1G~0UCo)1zqWVyMBg#zs9?F~
zaXYU%FV8Pc&N&yBT<%G%iFBy}p@RGX5Sab4zD$zg(~wM}nF9fGhY+JpB?B9YPrHrS
z7^2183DN0@n$r;-QQ_0#y+xMje0riM?3@Ei&=9Rlh0pjh7c+=fRyO+`C>`#BFhR`f
z5e_x_3j`cY)uEA!QdiF}O}H8ig6--xHwO}hCJMd8z35!_a)Lo@u+ACRO+mMKZNcer
zU-fV}59jOv1ogao$}41YGt*bRf@)#LC8(}X%nMq;oPc;xkyL9Gh^jM9%`Cc*5pw0K
zAV&rK_jmxTFfj|0Z(r$;nsQeLq6Tvy?_15$Y+Jy+MnWuau2@w)Gh6OVuT6*Z8#em*
z{I-aB$Exbj8}|mPg7)>+P{-q(+DEEY?Q>&JVD_=GJZj4iTGzYQ`k&|8R|jHN#+V(*
z`*w3ImoZra6>HrqCq#8;<GYChxZ<90d4wE^Fyr<(m))Fm?z)g8HUjU&<#{*AiJNh`
z1+yeIOgVR?rQ3z<rEA{hYu<Qv$dE>87c5tyb<Iq8l35I5+Z!9YFd*np4-F4EMfAu(
zPrry-5~%ZJPk;YFzhF5tHsI_T9_k%(jt!qUIWQ&|kuo~!>>cWfC&o?;p6=^8Dd_Re
z*wDzaF~K}GJk&ola@aXOG}3=!T(F3*<(zX)PE20G7fPo<h12rve1+1Hpj>~2k3>oG
zktj(%5~YJHfkq+q#p8k&D?WI#ThIb<9v>QsBR%IPTOp%#=>egg@~<q|DPP~^Tx_DV
zwQiF$Y5m%~2_r!2NGoX|^)A&Xahh+3jE_dDRPq;|*dg!aq@H$eO7pb?w|4BZzMWr=
zi?8F&^1CwRW&3uKU8IASx0~#Qn!r1d-E$YAf3vsbl0%D;cDY#6_z9X5xO|<m(v|ZT
zCh~S|o7bMm+nuOYC&@-RQB${vbdWt1+e_Mjj<v@7AZ<$BNA`l#f%(l07c-TC;{vhL
zJp0n9IY`APNEhD0C&c`e%YIos(U7HGq>B`wk#}W48^ZPm*DQ|4X_q&Vp2eXh?Mk%1
z1KX6g2lVpQm3DBO()JPaS6JF1S!qf=f+hQ@77nCpfgDWL*KL@ckVCK1T<Qmzk_LQl
zksZW>diC{?5>LCVWUvP57ipYky*7#J(n#8n=}f^H^+1~_t#`3kR)W&IsmVV2Zikf0
zN!ELtmZMyY_-xH5ufrB^>C(ONJN3!lNWtYs8cE@F#<tuf%g`_5rX(Ltsx|ZtkO8ur
zTBJeZ;EJ|+S}RF6r41Y=MO-#aoA#u(6_O|Qci$2Jpk!I7b{fGhLLX1s7|~AphGgaA
z<Uj2qL;it;ts3$cNw>)mN!qZZFfBYrj{1g4sf(TK2irO?mF+ve4gcfhm70;=VqFvE
zj=;Mdr*Bb;?+~x~2{K4Vkm@@rE2CJdVe%L3_z7Z1+nV5bO!kD*Tb~s3izWGwCY~Gi
zmPvg5$Na+*y`KrFFTqgm8zrOgBwFikTC-E+lz(UrO7@M(N>pkknf@O7hNnorGzv(4
zb(@}3F4ZXcD?RBuO-`q^kSbccHc}(Cl=P8-)F$p=U7)UM9IB=JzB3~C<fuZ*;@m5w
zJR*15I8~XrBjYaPP%ho~o!v%a8RRUL7`3Ug62`E;Nsee!Q~J(08K138%1Xj!Ya}fB
zE4k*ldH-8q`Wcmf+;?tq)IYwB{uC^qq`z$>V36{m%#=z|uC??O)Gh<-xJ@Z4|Cywm
zlXCS_IVa`*ik#1r^IuwKznq-U`!0Z-&nrpb^;TSx#5NKzO8I_CIbQ%dLmmC6Qd=fi
zwKV&Uau#h4wHa^A>ZLqR*{8M}r}Upl<J3iRk?3U{Ym@C<!u)Uf&q?`dKZMzy?;<JY
zOx}h>o{J<)%Hz8z<EJ!(Oq<In&3F87W6SYhRGK{`W+4|7Ba8goL!m@vnfg!Bv9A=R
zx@}1gF2{e-e>m0Z`A_)=k%vqwMcg5Y>bpcP!N><+6*pNflV$vuNFJ8udq*Z81*`8r
z;=h#ICTLH4CzY0By`27w#Ce<QMaElU)bq>dOpTKElE40ou8ao;Nt4pA?_C*J1^JS9
zmGp#TK6%%rPUuU{r8!xqgh5MuH&wnUTd9}%CS-MxfA_{8Clm6T`!36JE0xtt-c8{?
z>F+0#X{F<Ay5HYNCQ-lSGHSusN8a`I68Y>-p~sL3C9C7VFsm@aNbg53NYbWy><_5F
zQ?6$GP<~pi&|}$8nz%N<ycP=Wh?peaSbv{9_YO(s$zRe>nn_DSSN*SiOWLRu(!V8h
zY1;=j=`#i@EtgCSJCkKe7<iOjm=9$COMU}AFiJIMnOjVQNp$y7Pv7akl#2ObhM-=U
z@XQIBOWrGP?r+sCGmBF{WQ9zZ_tvsIo-K9=vSoU%On}?#2s{b*)e|>oJU?VPXva*0
zL-ZROmbs;AZejtvc+`o<IpC(CncyZCr`<y44dCwvhx(GBo>}y^3+kzB^YcRH6nGoG
zf|mYt>=ZI@ySXI~`U@9l7OpK&XEvmuI7oqCQRD>-I(N~!2$~s>b85L;P`Q@8)awgg
z$BCO9e)I?`4?Z(FKe4b3_4h7u?gqDDh&$lWo2eI_b%<uoxo^dNQ<%&KXXQ1wjG*((
zEY49Es72=W16LqqHlgnlJfvdEG67Ef8K-A{X&GIGaNj6-^e~a>nVgt+3)(qn9JwAx
z^iVO0Cb_Yz;WfA#1lX6jIt29yaCqU+N^wmHupe_R2(bTiZ3wU>bL|MQeQ_NKb|Kh}
zpc6qCf^GzR5bQ;;55ax}`0*mTcG2s`9YBEYbnXy>w*Uw^k|TV2e(CbWJar2j=dL@^
zXG#;=xLa4SN;yS;GWw4bBygq2pDl(MjPvq@ck+sJX3;q@KMzh&bU%ZG*nLwdQn<Uc
z9KUHx-W0V83K29*Q&S%2Lj2bi|Meym4^1uZu*HmSZ_;5KPqzyuk(-znbgr2NC+#tD
zI^yt@Jk>6+qp7~(_`~dRfgKi96O)qyl?&F;IJvawb>E~OcEKoXI!Qk;w{!!W5%{2?
zWm7--GUuL}xrt3q(4$}4J2UV0fNvgtM1cu9in|wGg7)h2k_Vz(apcO3V4a%bJYJOU
z(hZ0rLBkg;^Al+lc2+Q;?&4L~Q-1WtbC$2%^30&d#Ew8i0oSFBx;Y8c9D`CPTmpMc
z(438<X9XQHMLwJr8;}vZ9p|2RLL~(g^kq@nSSM|~*FcAM&I;^FK{XG*nG^HNS0;q4
zcrO;K=WzqCWLV+v5ECO7MRRU$5i0#kAkMkd#r-bS1^ble|AOChg?V|IWgNx#OYW6~
zu0{$Q!s`5IIk|UR)>}esB&Txa*k@)(R96%(Y1=G#*!8IY3spw8X65ip9aC6zUwcm*
zF7Mc!=F1O63JyN1;|qp9J<J!3h1Ge_3mU^M2l;}7fPYq1^HJA_UE!vKkL-NYkx120
zSY7_CvihUC59`8>2Oeqp#>1ah@QueJmBV3m*>lJ4aQA86aXPHFKi3unyLfG7xOUHD
z?VhO4{8?7^o%3tw16PA}k*vy<!DmuB>}ZT+HOUCUhDcWR%3#z|5jxCUnl`4w-ADP>
zqrBzl%Fy$?_RS$a@4(7PG_O2dwVTh|{ZJF`8RNUh_`I=|k>|Sn?_Ld72X64XvQR6p
z+YvPsyl)Nm2kpF}A~eDqcD_)t`i|!YOCa~VR|EF7wilThdPhvfWLjUE7)#Ebn`<|N
znouEM(74gFaW#_N{xo|RpS|lRr+zyAqwz@gft4fAY<YLP*Smv5;re}i@xF(nkJyN<
z_o;1ww+;O9<)2Oe;dI0{vN9}X8`*I3#rq#lJhDb?eNSzJylwE0xu4zm!y6IXiIw4(
z8U`YV+BI!dXAKPVy7FjNUcmK!PhgtQDh(BXJh7R(G0j(W@>!h^i~nfi)7(eX{GJg$
zYb0v6zSOGqnw6fIiE&h*EDCo+Blx*7_nFCj=kVI$z<6NjgKMF)zwP@;?@y2Z=;#yE
zp*8k1@g9V|0$=A%HBoEHvmAR+^Ii)u%QF16jxlDfReo>h-M#C3S1Tii(ip_K4Imk@
zk^y@_AME(S<&S1RoPDBeU+H;fFx{zNs}CFwm$Za!tv|W^)7c-*J~8yH^udc|TQPtZ
zm=BHf`OOh?%gW)HhOs%q#cg~}+sd&Q8b(*}EWhCH^!jwvR2+o*v}_K4s(Pu)up3s5
zFAR*%_S|F-HhjM)<b|f-Xb!g>;vI*0(;?88zA$EH^tn+(QE-|!)Sy~xF&H<xwl7@N
z!W&vpv8_;`(ey&A(wk7l_Ln)>WgPb$;p)zZ+DPGBAh4GP###^tbq_@>ohw5z9g|~Q
zIU3C_SUD2a<^|cu+QR2KRiSA<r)5=(U954vF>0~}ZiKAsUklgm;q&+Krae(pS*U_H
zReh1EvKdyju^gtPexr^rZr>c?i+dl9^2LK;U17AScEipW?Fj1%KFhP;y|8{E#D=SO
zJ=F76J(0ZLRRcB}5Pi6;ZF3J_w*L{!m-al`6R{m%)qz0Gw!q%t&8J!Qt86qcKUlba
zDRh?4Yg#o#b4$Y&9ei%bs{XT*visxr#zCOrvUc9ozIpUfBfo2yHw}XYC^h`0!L(NS
zol|$tt(}ADWG168iW!)!viGlss)ILp6LjmnylHRLTo^8H=FQC@)~uH2=G?&P_uB*G
zYfIts9lUu5h&HPoL~C&bkMh~IAF~^~Hnczwcl7b*J`i_SKZ`1|LXb79Ea?6I=<9fY
zcQmNplJ|!C;|XQnFD(ox!@h2hnhJwQcvE%MTKIlN@N}?_w^oMEZ+L$^x^aWA>Ef+j
z(VRSJ-Z_R<4fGXL&Yk^h`=1(1d1L7l2;62{?%Y_rap&u6Uw@Ka7R`06v(NL2?w(&i
z{{eUZ_PyJYyv7HoesBDT<D27=mIGjVp62%Oxjm06epdH~b&=eoklm8M+5_5=YEu-v
z!kcQLHo@xev+>$|e08(>@3A(|Z6!h1_j{mc*lIV5HgElr^-({V@U9`gVd&EyzTr3@
zZ&6@`kE|UD9uA!k7q$I_`|0f;-F{-~U1gu^^s8sSck1rh^|QgA;MMmo@>vzUu40w_
zxiSBlr6f2JvPUcpt37B=fI-wGSy@v>X!yt0&Hhb0Uyc3ZA!w%m(ZrwTeR};*N}vU1
z8CF^7VkSqh=drQmnI-40Ze16(76)&AY~ARG&H;_q3XPVx9(>fwTTVtT)@PQyz|?zL
zUue}<^J>ov&|q;C)}9o-KN?a8$9ZebhGTP%Z|LEzy*$*t2denoQ62gk@7TF|>^bzf
z3cjf6anZ=8F??`@-!ZZ}EEye3d1zm}om6%4mab@CMX35?HdM#wHAeFbq0QLMtB0|J
zm|>_G1}*E*sLig;2CX0T-XFX-7;4{We^T5MF}JR&#G6;vt^_<EoC$UQ_9folxY4(1
zi<o!AO$`IG9$Xs?v<E!zw+CIpu64rOsv@T9RaUf>Q)^R!(ctJ4a~aKUwcXXMYhb+W
zSikXJ_G%{dx9pt2fY`*>M|gAPstRaOwM<xnqgp!wM!}Q~(uEPl^d0Wb^|kAPiMy_K
zSFrtl*S)Uy7DA(u>^fdo_bpXyQpK1XVpmj*(HvmETM;-Ns9QJi2FFU@pKHx9vV5=i
z?&0;r!J$ZQEpM(B*Fw-2gO)N5mYkNXw<m|%HeT1BGSr^n4IOBccPS0EIWVAPYJcm<
zH;zPgIe|;Ot}?1KzUjdCS6X$ZMqEshJ96f@b8O)7@qv-kW6qNUrywypi61V~m59(k
zgIVF1h|o95zM|uPJBcO!x{?w4=52DSB#(fvMHb7iB~7HB)Pbi4`~-OU<ZA+yJPWm?
z6~EghZln&Q6C%ym2He`vx8jp~<=%jcPad^=O@7fADwXZq2~j0+?LY^_K<lWNqC+8;
zuf$Q8`W~<@pwYM6i+Z9LtP<D_(GHM`<eTwzk`~fQ%b;|!OQ9qM4;e(88WKF@D*=@A
z79{d^%QUK-H$RbgPvZT%AQlW7K^^(_l6JC}V*9|uLu14c!?z?>4eTfBJ{`I~fb388
zI}z&tK|Z7#?<9Txl(#&NZxW>^hoqa>=b%O@s|K>=IYeCMnMdbF+Lh3`JdUqa+FsJ}
z6_zHC<13Z6pJac9rM)H7xKf){kpol<bd^9-3rZ^l$Xls8q|unn2O7y|25SXc#Wf<}
z(=6t0krwb*gXe{l$HJBBpb=Lt_}`NGeYKKylKf|1uVIB4*Mr2S7+>F_+~cbh>1aq<
z#gHgp)`pZzh_70K666-@@1z8oF1O(C(!X(i<sMw6_;dp)*mi}2E@3SO5^JCaN#V9D
z4)l`7UGnyG7}hFe6T>UM;)GY2t~iKWW!h>Rz<PrnOWG&Vny0KdaHMs6NW#j3U5T0x
z$t?5`N!q`oUUcEnOS00*$UL-dx&|z6y%W)UiEAQSe~cUxZGL>M)i4>3N9*OQ7L<C0
z*56CtaTr!y#I3K?C${Mc<?(9EexxUTBV;7C7ZVyS2V0(qxu;uXSsWkh0(DK}K;!*b
zSKkSdyUdQ1($TG%Bx3F&_hd|$B;)up?lKNE-cPy9*I+0~OifNwiKVT0BFC}5Nsh1B
zEm%=8TPYJ(9Ni{b-}9xPQTa!Gryz<vx{dx6?2M#8nFUaiKuU~8sT99rttIYIy9})3
zHl<|xPbB4>l&hc0IjPxK<UB^kzO>Bdm23Q3-KhLyzSAJ*F(nDS-abl_*hT_bQa)_m
zN~I{*T6zj<mw|Qk52v<Fh%BeAxkNdOmSzrYfbWc~UdlE*f7@t%A|C5IOU@FbjAQMq
zeZb%2KlKTej2FHujV7Ljm0|K|{aIp`@}#V&QJCHM)8-IL^9)!Eg3<c3O0$8)T;nV$
ziLV2bkGe`FD$3M9OvjB9l<Kx66+*QB>?_gw;k0P|Ss1+z`Qua{tN==h){m21s=;km
z!a%fsJhe^Go^~#kmNIId_n#%_MZL&$*(mBv4*l|ZShM_&i2Kh%%-bkwQu_5>ka1Oz
zFS($kCmOB4;7YD2m2**wx1S{!L>n!wHcpAB%U7vjj4tgWZ_8_*vSLK3tUhufh5IG{
z0IaQ`BSfNfXzRWKh$LU4<JU#h0>sHLK*WAPCJ%)kL*7=j2d8HhMi|K+kkgX1sU8Q!
zXnp#ZloDT=H7idO3M3Q!vq>X;j{@3<;oV;O9&03td$h&1#M8h<_P)yBjEV2d)K*Gm
zCSRSR9J7B1^MMB5;0q+(dZ3+nV3KSC%aDD)x{Rot_KWfoB|+cADU*WId$6!#2H&HP
z93pR}*K3<+Gvd$oD?JPA5VB<J5I9_kf12wB$n_x@L~t0v5Q3u!h7pVah_5r?P9UKQ
zfdc_9u;)%97)5Xj!5D%w2+krnjbI$XIRqB~;NGM~?rlusk_HZzA~D=01h{jIJCEQU
z1o*AZIT1_%Xn0r1_PD1PoU%m(5d8-NhGsFmFW!cYYq0hJ3EU(;>q6j0Foj?m!4(8E
z2xbw?A(%(7fM5y1mf`=u-=P0TSeIo4R{>xM7hV|mYH>*OAi%!MT|;mk!3_kz1wb%~
zo5ZFUU>l=Hu+m61-9Lp)fX3a#thW$go8!KQfFST8!2O7vAHfQOZy@*$1pf@dHxc|M
zf`5)+6~P*UZz1?Lg6|-B55e~k{7VG?3c+0jK?L^@ypQ0w5qyB)Un9T>HTQ22+(!^X
z@F9ZlBlsNzKL8-)$eTnwU~Uv?bX9@pUC8x!7?h^0w~I`7xVRrfH73E#c-{d&9z>?!
zd3|L18TinBYrY`(qsvx~{3DA~i@x|*<CeMg5YjCu3u!lsAzatc6DjD$Xt_2!oKwYX
zt3orpwr#WPv3BpTW8Hs$v2Lv;YP1Eee(L}RlC<mEsHGrykhe5IAm>?rQE>3R1&HBT
z%@Eekwys_N9(VWl`t8-r5p(4WJp@i53IRbDcr0iS>VL3%BmZ{}{6WTlGW@>biKTCi
zhPITW=&S5!Is?Y+zeG43qB8&3Bj3>S&9<n{61G+Iy6R^-<LbE}yLK^L(#o4!H}w(S
z-oMUNnKd+imv8@d^jV7c{yO@c77PECqtDS_N1y*GN1vxvU`Ar|us|dkL4K;MgfQ?A
zc7D|TVRuB=95p(^CGEViJ-n-*H}+#Bd60cBTgw%$*%RJB%-0O_hU2)>X9VNkMq4<q
z1{VXtf}dIl#~ZWmG^{lQdcyX)h@pNX_v5Ruz`)S{La)~E6xRcp6LDyJ*wM^G!EYXj
z{y!Lqh6N>h`%_&ZuPgkZ@_zlj`iQP7<PYyT&et91bt4cHhlLfqp$*?)$8$pt*42h(
zTVUOh7z1Cu7(B*j)ooZeiyxWz_Tm4oKK@Lt!RYv^Gx#+=3l^en4nNw@?>g~k>XS6^
zJ(&v=F6q(%qJsZl^lQFUh&xyI!IdE~Oa972+<CIVwVC9?NfX(!P3ZYDK2U@7i>Sf1
z4@BuR+h->hUx6%~U?&B{h#!>F=e@5m<!)ixU5BhZ<xg#k#7UM@$th!*W{CqoFvLq~
z)AWPHR*E^0k*`R`5kKJ4F4<k>nk6>u5EJrC3C-Hlm_brjH@U{+850sMCb_e(e>(qF
z-qO=VBL=AHCw*QV$FgBQFJ80C?~;%*YS&jH%dgZ5GDr#LBSl{PHm4UjzT#yh!<W8N
z86Ss~Gx<wOrDuF)vYbjKs-zNKS{eUxQZ9S0ILTSUNGWWdgg2JTLAm(k&y-3zlfR@~
z%I&N8Ds(}zuvAGS$rMUZR{L%AlIpCBb9oaEiB_uMs;ZQguOxLALS;|}DM~B7IE@!*
zK1DB8q)Nv54fK-A|8@>&NzOq@OI0owg57aj=c|^Lr_h&4g-eTpd6$+{L-@@IEds49
zT)rA&<zVBk?0F?gB!c6#1<7-lQ#L7p)Q}uvla-K5baDObX<LBYvhtKQpU@j>z*j5F
zUzt)EO~6K=TB@lUQv5(Kl}xwv7-X)rLD6kC2+xSFv|hxLzOx*<M`vr_*=fiwWWv6h
zj-Ba#H0mUy&a`)sC+a|Sh`o#01b~J*?lR&ZBlrZt0|eB;g>h%<$D&L2#r-X?W8=DP
z2TLtxN!z?qgfujV9Cbb&L@c@OBwO4i;9Z)7V~KG8L3|U3wCzN6OrigY`*#R_4}f5q
znDjbRyit1UqoJD-sEg@Gm`(I<fjdtyE?swXxCezMXkO8;Czz!>Vw&5;2jd<edc2RI
zg-sq#Z~=;rsecRiJ#_%y&<P~^a<VzM>)Isj=ny?+9_|rv_)X{+9vw7s@ZaoU?1gt1
z))zuOk^I_~6VG6&@+DYn+#boRSs4-iH9_abm516#dD6B5gYs%`Wv>Z*X%>_PZ-ndj
zJRIWd2O{>tusRn%;q~kKU<FM4B9@)vg8QhxB&;iiRmbpQuKRr*EDi6}ykIh{nw247
zA}-heAmhINo<39&uGt+a=zIuE_j@1pJc6bBLr=4Z`Rw68J@wzl|0^urKeKWKR-Wn$
zp6VRD&hf#{``!0os#(2}9o{>_*N^bJ6RESc&tPqPeEQfFF*M`Mtwox-LCLUaI6y*k
zyuJOQUR>V#Bzqio2f$}x?RssnfNsKoO2Ufny7jtX+r}~8(e-fVQ_qu}v6W-doRS}8
ze5CnM6S}$C#Md2&lpo}C4z3(SS>vMHW0Ac2l@X=-ZZ$Oy7t{6E#eKY?AL}}R%Sw|o
zV0?v-M>o|Q<Gca3X&m7VM{t@v#J=G?S$vJCPMRlYNgFM)%0l%UyMAol=;A9o_^b|b
zV}ebyats#EW?En`LFamBus-xQ@7NKswg0$c^YmsNZ`;eO_rmMKAzQfa_3hBrC+3Eg
z!zgpyPjE0a#@p&Qsy1#sEalq{M+`?+`hG57ntD8v+sK<66_=)>l7p}!wE^@QJj5Fs
zaq`_HQzw26pokh!ojJ*g_=R8#PQ-1S-G8Ru|C*V02<$H$&ZqZikHSf8XqfQ&4VGkm
z11T9YitQV<#5OBtNP#XDPJ{@fcu$S@aP*-iBu*xU5-cv}8tcm?IrKM=WNiJsFW(y<
zv7ns9fip1weodLa0>UbC)L@N#g)mny#Dz9K#}-_~d_}|oqo)HbWQI$-n4A25m{l4n
z9f{dfF)1bv%D-d_{-V@MFb^E?fpsc%>3n678(h!nm!t=mhAtV!y0DPD98RlKWAN3Z
zhuK~sj;}5~rUNV&@ERp9cuzc}$#rmsaT$o}J=SF;3_ufM0cMd5fM#L?m`#iTEkpy*
zN-O|#NDe?7(E-dQW`KDl8(==Megn#fMSxHe)W;6A0%8IP(go-s4uD0(sI;LOzPsXc
zX2??vZ;er^v@0bK%26qgTE?f8s1)<a%PQL<kDO0A$>Xdf=k>hcjZuyjBp+ZUDFawV
ziU3w`(@KhDHLfAK@I)=i16W5)E){AI@OomyegRkmNZ26uF>ED3X@r)oBnkOjHf@nd
z{+7*K<Vo}}D63_QJgu^KXoJ4HU43?Jkw;#i_AT<r>$7u<Jo5T<5H-|%7byX_n_#Q#
zB*g%`h*gy7zhH58=+gQsyop7ovr02(W&0xb+yYYZrh4|8rG`BVv-|W5+O@(r@q_M9
z;ugkN`774)mn$7?3109m@~g?{S1Y~RYZvPQRuZfjshFbDr*>=)sRXU=B~<|Tk!pay
zx=s6swO_xC-6@Cn{<Yna8VUTSj2izK?9P5t@g9pdC+RVQJ};}WgvMu51+R?NueNk?
zd={;nINBai7>&QG@$gN?@JjN_wM4nKrjkmx(+!74ZdaaIoWE5*IdRQ1F<+iI)VX}d
zQ|`I8yu8GD-LBjDqviCx2v7Oqk~c}GXZX@XJ#JTy!3h<f@`Y<2Z~0|+xpZFbEqWLO
zu$qCRHE?$L3mgl6QI22*fcWV?iI@w48^IKUX$15me#=!Vi<o5y!RyznG+>rS1WgE<
z5wsv^MbL&|2ZDA4I}vms*o9y>f=&co2)Y6M0w>I0>dXo_-1rDQBWPUi>ob$?bXNs+
zGW>gFiqq4EEbbU)R>1)a9F9{$_97n9ungxVaB#eVbEjZ(&%1H?ij#`<cQKD9egbeN
z95ga{MaXn7EPHQ>3y}T`+^4HA=qG$bjlf<N*g1i{E~sE3kzks<hQ~TUX>k65V2Ype
z07*!JkK!tvI1R@%q}-Sjvha)$nw6d>q7j>qV7vimWx#<ESTDgSJF0|g2oAn*y4>Qy
zBl@`{dOd-fWJgfIi45^|PV@=700z!4!Dc2NgPoGsNDsz_V?N;QV!<GmOr?`_0nx=k
z@#8@}^js4`PklBt-vN{o`h0{O?~)hJm!M5pJY@ow4kZpgcAh*nFgP?kELf7H{(-&|
z{R4tYzSEHVkI3*pAov3So*Dpe<bV;~FV<I1ci{dvaQF*!!2C>$4wx6MuuD0t?h4zw
zBI>Ty&ZsdrY%C6|JHw@&5rD?x=UP)(TM*68z4NuTuLaxJz8<oEWdG2<Vg1nYIJ+sV
z8x6ONMgV3vJ-1hF><Zi4z{3*FDGcR?b81$OJ-6oI&S^NY+Ocx<8Eh-v^X;$0cK3Wc
z?!^yItk15Th}v@RcCB{>+t>H53`Yy=H-`DbZrCml8*=HA33lB8o8@6oYDK8`vAK3F
z<H6w5=3c(JH{5q7(tH-btW9`3KU~<vo10+oe?H?Vx^KT{4_WUyLO1xr*3AOGa1XEq
zKS3cJAD<U3DZT&By>}udEt}TIB|F!-hZ#_7V4}+nOgz@wVPF5Ii7(p!&=V=@eWt5=
zZmEn~ies6oEb|Lhrrz*5vr}(?{lNuAu`I;QjJ+V1jhKZgDvntZgMIm>F&kpJOny-;
z53zivv>|3ktblP;#R?H~Fr|&LBE*WB!tz)NVx^3&JXVHSIg?i!t3a$0u`0k~)l5@Y
zxUn}d5o~^(U;C-*Z(=o=p_a)jj@2Pn&y+OB8W3w_%6G<^@S$d=yy+=yc`j?;tawtk
zE7pR<R;IWFol~Kn5B9~{kg`KgX-CRVrlkD-(R)WjS3fu&>p;pbIb}CcUUV`Y2ZQ4%
z(v6-cC9RLz|0dRj^lql0GPVb?y^Os+whyuWjJ-T|0I-(_nbPW~B^`W8$L7$Jl7q2B
zc>67uDQ%7Qu!#4vOks7b5Aj$(tn{h~wZC5!8=&bymMJI+_4B~?FeMyeLEs_dM$d=l
z$HlF&Axb<7+{*5syLT=$@xj}%W0W?WLOV`rBPp~Kly)+OHcDxyQfOn8b~=T2hSJWa
z(8ek4Tng<x(q3F(nTnR!+Z4aZq5>~b9M-kvm&TkFf0xoH5Rbu0EO`|hYCgC5^GQmW
z2QfHSO`qi#-JM&XgWc-%JdU2Vqft{4?3I6J%6V$4<V}^KJrPq29KeCcwqS>YV?|zO
zY4P+6INcz(@b13#eXl;8n%$_$HNfEz(AJBU%Sz84=dP~~*K|EBeni66r+M9(&zWYu
z;m?cfVk-Fkd0|B?6MkQ4;1r9P7BL<6B|TyW>`O+(OxTyQ5Hn+6%0|qBeaVU#9JNsu
zvmus?eJKyIeC$hh#0s!46(Z)q9#n)_F=8c%m7>hc5G%({Q-N3|cA6@{pr@sFni?e5
z%DYG%QtIWD24vCrYKLe-dNX#27Q|W^dtIyzG4O$x$JzmVxihUpbl~k>*dKNy)``8L
z3$R$X)ED+(YHy+^?8D^#lzwmkNzl`hz2Fd1u$v`GJuK3oyUA#Mlm^{SMjN0s=z22R
zVM>GEC!-BfT6*WhGSWLA&|X02gHCV)pLqeD4iqv<ap-K&3C1W6oebz_C=Q*gvh~F{
z;xC~CfeY4}u=dVy!ERpH`8i{QMrMcOcHsBt(AYBJ7aEzPGNwgLhs{lom;oD)5it{%
zmW7xZn?g2VaH>e#zHsYcup&7B*wOfD-`~WnNCw-Uw23yP<jN^|NXbuYJ9Z#KV+5@i
zBIZD?7XkLNI8Ey%c)JuuQid3e0L8Hi#46#nV^x4byOgXz4J4`m82%atT(H9YPhf->
zjQFQlTE#yM!{Jm@FjI>3hhaRN8i`g)l>R0QtZep(K{h&L)H$7t6ANyqQ_zTv;HWz|
zTW?9w!)bL+dc2-sq^I6>LpTiRs@WN@xR^Z;nd{+PFb^CIw#<oZ-G2x~aYZ_f$NdD8
zIPFYME9vZn&R^*(iIW)Je)tn5*XG>^xi26y`XoI8@O{KoEX#h8%dlDhi>dk_Ow(U5
z^*`6=2F^wFr7IdZRc6(FXKrmS?AQgTK0S5p;vKspj?Rd=YsCn|e1`6~9N%!f$Y9yx
zFH}s1DTWw?KqR`Ft%=hCgVTRRdMv}n=0YxrBwSp(2+apl1`J@$ug`yOgjD<)q&G{?
zfK@N4zklN1iD+>h{=B%vPODi>tdxQCh%T;QjFr)3IUbf}x@U@2&}1bhb@z0!Dw+g+
z+wUG(KN72<Nf_zHWF1Y`Bdc@k=VA>s*(fEOXtEh=cxC-ctc509aV4s0-4tu1$sHKl
zB5NepPLn&OWCu;|ioacKH%)d*$u64g#)D{z*NbC&XmYQV+((o9B~}M$@*viEczrl_
zh$g}Q#H-aK$^(o~oX{r{!1BZi10n&;4iG@rFyK=jU~}R*hC~7woH*f_NC0aSCma_E
zU~1w#PKX4sF>!T{i3Bh-uxK2PAOT}TO95*W&oM3%U>uJV&Wi-FL2<&{A^~(R5<VA|
z9d8$u-D$nlGBVy#v!iURQfdfQV!B#t2{mH6R%!}$V!B>ZeuJ29l+sONI;n3lom9A(
zPHJ3CCsi({lR6jENu`VFq}IiBQte_osdq7*RJ@p$YhI+tRWDNHx)&*O<%<-#_C<<Z
z{USxKe~}_@03t=+0z`_u35XPV8xSeb2#QMXH{Wai{5(r3aUF|ydlO1-OzZtkXIb_D
z3@h=@Z>352KoC1{9!=&;NjpszNDZKnCLL10Dx%3^DOp03rBeGYqsdCCWmeH-b-dEC
w8k($??$*&{y_9UA$wsLW(>llBkKQ@0Vsi4M*1V|6^4ws4*)*bJ#X;!*0Vddhr2qf`

literal 0
HcmV?d00001

diff --git a/attention/ops/__pycache__/vit_attn_wrappers.cpython-312.pyc b/attention/ops/__pycache__/vit_attn_wrappers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b0a7488726d64ad5fe808276b027d1b6430b5ca4
GIT binary patch
literal 8158
zcmd5=U2GKB6~43oKjZb!u8r*&82%D(0&AQ=D1nfW5WrBJB4`>R&@kQ^+hgy}tnbVk
z8_hN*KZ;Q!0c}+~>O*-1K@~s3Q{bsceX&JaZ>BU&RYhr}J{Xy(P1J{;b7yCFjctOI
zA3EB-bI;v#&pG$pbI*6~{;{SeLg2~xexZJzAmkrNxKBf=GcWrInIJMbMr2O*WVmA-
zdwY&~*xQ@+r9B+U`i})T<nU&K+0d~N^nHqFz?I@kg}3ZqW<0RWcyO8V(9+|*5jp&}
z?^xs!>W_f_sD~&aIjTgI=vDrT*Kxoj^-2v`#eZjBi7oAYxptZHI;BRgS7LGle3#p~
z200Ek*8ZQ{m;f8=*zPtewMyOhvb*1pcbmZS`tRMl%k6GNUIF?W9-;nb&>v?z*P=8i
z@gH>OmiJ04Sd|#{Bp;LRa)d;V_N#`_t7a4-t!t*FYKEZaU___FYwA%!GEGG@Rb3NI
zUFbokY)&%O9^gNvn*A_J)BPzN1rZU+5X^psDuM)GJ*QA$)j=W~({xiX^0}N&O+^-Z
zMi<T%+EFE_Hzh5tY>b>VbuptF=1CY6M&P%sLJc%W+b96z$&_j;+4dy+xi=#j{S{M_
zk;qRCRqI1r473C0X|iyNO1T^k532?)s3)VR2MuQ#psi{hCxx`62}Vu<JM+1S*-!O+
zUw<xdqAjJ_SzT5#1}@|0TQ>+)$-q*FL767(@7%n3Bh#p6b5w^xQy)~c2yiG`T2-7$
z+cpU8hN1{VrxfjJajQ6-VLn$zq-+kHn>VCB1r~Bthb~BPSF%wU)$>9&Z<s>A1fnHS
zorWC}hQU3!D!o_u$>>pBjpNKr1{Tr2>v`en)RxrdWaJBkhVCS1x5z3?HASlQftwX7
zra`El74@9W4cXkF%?;Z@LmA2_nqdd1V&<uq_Bp`9+7Pq|H1q$01|S>Znq;|xuLR7V
ztheCjh~*y$GyVmQ<sFDF7+}Pe(vVCnGQcnX{i@G}wnD)24b(2?u!zN39xDLWkgNVH
z0f(ayH0xd7rHTYAC<m^19FBoTm$UMA?J5MV;1QAxc2i^qCwd{c;8p(;#?l^D>eDqT
zb4W4<lU_SCBs%W1!-K<aHy|s+YFdGx!x+nAk1829m$UswTFNM2Cwc@pErKj;+6A2+
zp&k0kWYiA1CxBuJWk2SUDbSzl&Gt*FvNVc*wfSBOds*H-Q^&JJWBAkBtdiB~sHpVz
zst}HvDV7hp2<PmSL}fdms2Yg2!&H$dm9##^j$nRJ`|^6;NQNi|0)<kIP;@a3qF~<$
zOkwIN?u=c7Gn5fi%t)gUoft1d>G}F#hndZF<kZ|IQ=)x}xoIT7ZTpV~w<#SNwWlLD
zYWC||$8aW-?I;`90n$5$Rc5XxveOJwQ@K%lrRxq{iRP}_WudD;aT9!vQE0}<mjUA6
z@K@jSpVqCJtxL_+rHb{<6RR$)x?R8K($Q;cK5W0<KIbL%9rMIf9~kSJ3y{W^*~E^S
z#ExPpJl;7jO>V!$O(lS*aVPLJ2F4EE1D?lb6YFOZ>o1;|-g4k};^1uJwVA|gw-c|A
z9V$kfr+v-ypqwl?K<GJkfX1OSfgz79_dUnK(*<9_UkE@Dm+Cq~2C5HYX@=#ud{)2;
zo`!Ad^@6lg@K+0jQQU_6o~xXDtd5Y&p6;Z__RHodq;HIu%YF#XekrHeewHL{zmm<F
zqjW9&#u%1~2Cm2EAhi2!PF}F}bR|r**FJE|#9nDop-%zh<M1_}gJz7tMl{4HR$N$d
z=D^tQv7zxb<A?7=>(1>syJM1@?3|P?u6bWMU%0gUgMF9xUEBTP{_FccioP=Kdxfrs
z=`0A~)CKjNs7YCcb$at!+76>G5mI$#>CHI?vnPlNt@8|&@`Ov{d#UXhz%y~*Q_4=>
zE2ZrNcXQoIAKd_a&dK&+%sa;VmO5kx&cs9HxUmJ#!$Mb<4hDT17`MRJSO?7*fe_{E
z&uu@u{oJmzyJn-?W}@4!ao0MpNjFy9j&@D^x|o~bl;_>^V@I;mh?}<}J(8L37Y+5a
zV%MmKNcD79lmLUNT?+su=5vr<6e$Zkm#&U5Ohzom{|g<6@c<2$fdX!ATCEi<jd%b$
za0FAgC*yS}+50w}3ry*~-aW)k!^c5lffTrc$3v`;>r~4Nkgx>QxU(MotL&5gR|8i{
z^9x}UEoaYCKxBpGpyj_Ba?j0DP~_?@M63vaMz{<bO{`vVa@DXz0boUp#59y+<p)#i
zGw_|?56wZsvHWnN71qs}Wxl0C(E{Leq3k!@1jmv0+I(b``@Q!Rm-L)w0Fz3k5MbH?
zY?1;H-IqPI8T8N=XfAtfPinKxjTji{ZlHyC_9>b&lB2s$cT|}V5#nHsn`~1%0STpy
zu`5-ca1g{8cn1GT{xe3VW8F8qt_{66JX^bZrgrs3ZhGDJ+1lrBc6~LEq5Y<?mirvu
z?Ae<P*nA}*#i0e%pv_kT6o0Ft2JNs+^_-qJ#he{TOHfW_PB%FVUIeckeFD@aL$;p<
zG~EuA9jUC+UWtbi5!NY%Q+ZR(0PIR4>)1XlMJo=ZuuCKvz5n#$Zc;pubSpN`VzUh!
zrY-=cLV-!!V8p=CgCp)f&QWix7$h!oJ3RzbFijeWC1d1nf`l4B32pv+wDl8y`)B-*
zKaO?ZIDCt{)p@h)cC7o%J|}~IT(b@^t@LSJU1XmL@q&1}@o^yBUPEKCHgPW=i3P^?
z-fJpDT`?4!u4}(^;GP#i@bf_3nSr-5bAIA)fK1J|0OYZhvLGEiJmiH6;X<Sk{RYSj
z!|{(;(QgNNbPf27Vwz0y54~#`GPE6=BsNb%V_?PVZW_Lwja&1ejdPIhRhW1JCEykU
z(j~qP(qSkpa5|QZEC=^M=eve7s5$&tbzCWB{Ud~K1~t{7Mmu4EMd;#EVYySWM9I*E
zSXbps7w8V7bod&m7l1CY0O+2bi9TDZ+s?O69=p^!b>haW^Ii`hm?Iv4zzI>zJnn<A
z&Ac@Qd3J*ILG@M1xH4A>NXvVrl!@JZyN8?@gADBlB=XDLY4AHHRJf`D&3Zu#{@Ikt
zJ8(g<g70{GJ!~|DIeXD)*zznf8j(GKh#@O%MHV3<J2ECB2YZ&R|JY2~3m2)<n&F6*
zF>?ST<-W&?%6@l!g(zTX&3z0&T2a>%fHrUXh*`dv4b&~c?UOk`+EN)+;J-mXF9%)T
zf%sx+Wt8PD9#A&a{RM8y4}zr)RhP9MxV0IA+)a0YcDfUqYWSotz`*GZtbP^^IVU{;
zF3;oKwa_rQgdlB+eEdT9wKebUo#oqR__oQz)54Zne(Uu&zM?Mz8{G{}lB0X!bvj<M
z1L57Z4zH=Qnx**Xcrs%9o$H(z$_|^`YqznBr!2}kKqb}XJp3h4M!E{9*#Y?TMA2kc
zs@mSPWI8ZcvsA)_;+mlul>e$7hJSRZDXQ{_9RvZa;~f%J+dGKOFf<{DT~r<T!w9QR
zqoq9Bu-JW62G+OWYy2A;NSr*WtsmQWr>5b2=daU~PyR~(bIs%9Trsg~a_C~``}vu~
zhVgK*0epC2(|E8LtNkT+e*5IlrsM0U>(<Z2HjH~8cI>VP_NDmZ%QuePT6g^o$R{n4
zvo+)1@gwKgL8YB&oQ-$R#5<?fO&Ql-zV*yU@mI$~cj7Ix@pUutbr<(fr(V7t-!mR6
zhHB5n&c@D<{3#^Ntst={?lqIf)`_kQU6Xy6IzLKm8as3+(fSP+%f%_|;ZgPnyjWJD
z?4rL97z!+fs0b=<C^%@kVsR8W7}^W0zr|1}VJQD?FcjnJQCtU?!A>*>5Y-2-sy|)O
zYxms;8AdMl5bX!ntH_R34qzm|03$cfL^obKJjG3QP7U0S?w<DTW-*m)w1XlfhO{U;
zi2$#ucASY%X<7;|E%^Vgl(9XU1{HIermrJs6DymYV%f2Y^(msO9XJaAE9#V8b=ggy
zU07|es+qR0N7pl~V4zqTQHJp71B#o>7IT>}6P=g{?Sy}0^BH9q#X11<ztIm$=DZxo
z-3>%I-+VLSVt*n0-^l7|vidW!b1qQBwG@N=yVe<N&Wru#mA~WP=be5s^+DU^HmCpM
zD}Uf`I^&=EBkvwRb9~+p{Bwej+sl<DFv1nV2v-IpTp>u5r66%PM!41@|5TAr7Gs;g
z4Ei|FT+GWIs7PjnE140lWJb7>ktj<>VvZN8RtWu1ORM!m9}4tP4O@E<sSv4en&2<+
zb77<+E)_+JC-sTB8tlbLqIs?sdv&C#b*>(J4I~g{K8Yi>my1?A1&Oj&B&yUhvZ9xf
z6~&BnG_$UwnspuBtXolz<lQ#r$|s9_dok8gawX3N%6kO;vNh1JG6t!NEl5>NLCUcN
zdyXO4bL_xg#SEm@HdeVE`el{SuTqIrMI}-Z*OgJEHV3Oci9}ft5>=8ISrNs^iYz4I
pGKfJY6!}%f*oKm40^CcLAVZ=oABigYjI79Kq$~ek6iIdx{|Ed_wLAa-

literal 0
HcmV?d00001

diff --git a/attention/ops/chunked_prefill_paged_decode.py b/attention/ops/chunked_prefill_paged_decode.py
new file mode 100644
index 0000000..aa791fe
--- /dev/null
+++ b/attention/ops/chunked_prefill_paged_decode.py
@@ -0,0 +1,401 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Authors:
+#  - Burkhard Ringlein <ngl@zurich.ibm.com>
+#  - Jan van Lunteren <jvl@zurich.ibm.com>
+#  - Chih-Chieh Yang <chih.chieh.yang@ibm.com>
+#  - Thomas Parnell <tpa@zurich.ibm.com>
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+from .prefix_prefill import context_attention_fwd
+
+float8_info = torch.finfo(current_platform.fp8_dtype())
+
+
+@triton.jit
+def cdiv_fn(x, y):
+    return (x + y - 1) // y
+
+
+@triton.jit
+def kernel_paged_attention_2d(
+    output_ptr,  # [num_tokens, num_query_heads, head_size]
+    query_ptr,  # [num_tokens, num_query_heads, head_size]
+    key_cache_ptr,  # [num_blks, num_kv_heads, head_size // x, blk_size, x]
+    value_cache_ptr,  # [num_blks, num_kv_heads, head_size, blk_size]
+    sink_ptr,  # [num_query_heads]
+    block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
+    seq_lens_ptr,  # [num_seqs]
+    alibi_slopes_ptr,  # [num_query_heads]
+    scale,  # float32
+    k_scale,  # float32
+    v_scale,  # float32
+    out_scale_inv,
+    num_query_heads: tl.constexpr,  # int
+    num_queries_per_kv: tl.constexpr,  # int
+    num_queries_per_kv_padded: tl.constexpr,  # int
+    block_table_stride: tl.int64,  # int
+    query_stride_0: tl.int64,  # int
+    query_stride_1: tl.int64,  # int, should be equal to head_size
+    output_stride_0: tl.int64,  # int
+    output_stride_1: tl.int64,  # int, should be equal to head_size
+    BLOCK_SIZE: tl.constexpr,  # int
+    HEAD_SIZE: tl.constexpr,  # int
+    HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
+    USE_ALIBI_SLOPES: tl.constexpr,  # bool
+    SLIDING_WINDOW: tl.constexpr,  # int
+    x: tl.constexpr,  # int
+    stride_k_cache_0: tl.int64,  # int
+    stride_k_cache_1: tl.int64,  # int
+    stride_k_cache_2: tl.int64,  # int
+    stride_k_cache_3: tl.int64,  # int
+    stride_k_cache_4: tl.int64,  # int
+    stride_v_cache_0: tl.int64,  # int
+    stride_v_cache_1: tl.int64,  # int
+    stride_v_cache_2: tl.int64,  # int
+    stride_v_cache_3: tl.int64,  # int
+    filter_by_query_len: tl.constexpr,  # bool
+    query_start_len_ptr,  # [num_seqs+1]
+    USE_SINKS: tl.constexpr,  # bool
+    USE_FP8: tl.constexpr,
+    FP8_MIN: tl.constexpr = float8_info.min,
+    FP8_MAX: tl.constexpr = float8_info.max,
+):
+    seq_idx = tl.program_id(0)
+    kv_head_idx = tl.program_id(1)
+
+    if filter_by_query_len:
+        cur_batch_in_all_start_index = tl.load(query_start_len_ptr + seq_idx)
+        cur_batch_in_all_stop_index = tl.load(query_start_len_ptr + seq_idx + 1)
+        cur_batch_query_len = cur_batch_in_all_stop_index - cur_batch_in_all_start_index
+        if cur_batch_query_len > 1:
+            return
+    else:
+        cur_batch_in_all_start_index = seq_idx
+
+    query_head_idx = kv_head_idx * num_queries_per_kv + tl.arange(
+        0, num_queries_per_kv_padded
+    )
+
+    query_offset = (
+        cur_batch_in_all_start_index * query_stride_0
+        + query_head_idx[:, None] * query_stride_1
+    )
+
+    head_mask = query_head_idx < (kv_head_idx + 1) * num_queries_per_kv
+    head_mask = head_mask & (query_head_idx < num_query_heads)
+
+    dim_mask = tl.where(tl.arange(0, HEAD_SIZE_PADDED) < HEAD_SIZE, 1, 0).to(tl.int1)
+
+    # Q : (num_queries_per_kv, HEAD_SIZE,)
+    Q = tl.load(
+        query_ptr + query_offset + tl.arange(0, HEAD_SIZE_PADDED)[None, :],
+        mask=dim_mask[None, :] & head_mask[:, None],
+        other=0.0,
+    )
+
+    block_table_offset = seq_idx * block_table_stride
+
+    if not USE_SINKS:
+        M = tl.full([num_queries_per_kv_padded], float("-inf"), dtype=tl.float32)
+    else:
+        M = tl.load(
+            sink_ptr + query_head_idx,
+            mask=head_mask,
+            other=float("-inf"),
+        ).to(dtype=tl.float32)
+
+    L = tl.full([num_queries_per_kv_padded], 1.0, dtype=tl.float32)
+    acc = tl.zeros([num_queries_per_kv_padded, HEAD_SIZE_PADDED], dtype=tl.float32)
+
+    # sequence len for this particular sequence
+    seq_len = tl.load(seq_lens_ptr + seq_idx)
+
+    # alibi slope for this head
+    if USE_ALIBI_SLOPES:
+        alibi_slope = tl.load(
+            alibi_slopes_ptr + query_head_idx, mask=head_mask, other=0.0
+        )
+
+    num_blocks = cdiv_fn(seq_len, BLOCK_SIZE)
+
+    # iterate through tiles
+    for j in range(0, num_blocks):
+        physical_block_idx = tl.load(block_tables_ptr + block_table_offset + j)
+
+        offs_n = tl.arange(0, BLOCK_SIZE)
+        offs_d = tl.arange(0, HEAD_SIZE_PADDED)
+
+        v_offset = (
+            physical_block_idx * stride_v_cache_0
+            + kv_head_idx * stride_v_cache_1
+            + offs_d[None, :] * stride_v_cache_2
+            + offs_n[:, None] * stride_v_cache_3
+        )
+
+        k_offset = (
+            physical_block_idx * stride_k_cache_0
+            + kv_head_idx * stride_k_cache_1
+            + (offs_d[:, None] // x) * stride_k_cache_2
+            + offs_n[None, :] * stride_k_cache_3
+            + (offs_d[:, None] % x) * stride_k_cache_4
+        )
+
+        # K : (HEAD_SIZE, BLOCK_SIZE)
+        K_load = tl.load(key_cache_ptr + k_offset, mask=dim_mask[:, None], other=0.0)
+
+        if K_load.dtype.is_fp8():
+            K = (K_load.to(tl.float32) * tl.load(k_scale)).to(Q.dtype)
+        else:
+            K = K_load
+
+        # V : (BLOCK_SIZE, HEAD_SIZE)
+        V_load = tl.load(value_cache_ptr + v_offset, mask=dim_mask[None, :], other=0.0)
+
+        if V_load.dtype.is_fp8():
+            V = (V_load.to(tl.float32) * tl.load(v_scale)).to(Q.dtype)
+        else:
+            V = V_load
+
+        seq_offset = j * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+        boundary = tl.full([BLOCK_SIZE], seq_len, dtype=tl.int32)
+        seq_mask = seq_offset[None, :] < boundary
+
+        # S : (num_queries_per_kv, BLOCK_SIZE,)
+        S = tl.where(head_mask[:, None] & seq_mask, 0.0, float("-inf")).to(tl.float32)
+        S += scale * tl.dot(Q, K)
+
+        context_len = seq_len - 1
+
+        if SLIDING_WINDOW > 0:
+            S = tl.where((context_len - seq_offset) < SLIDING_WINDOW, S, -10000)
+
+        if USE_ALIBI_SLOPES:
+            S += alibi_slope[:, None] * (seq_offset - context_len)
+
+        # compute running maximum
+        # m_j : (num_queries_per_kv,)
+        m_j = tl.maximum(M, tl.max(S, axis=1))
+
+        # P : (num_queries_per_kv, BLOCK_SIZE,)
+        P = tl.exp(S - m_j[:, None])
+
+        # l_j : (num_queries_per_kv,)
+        l_j = tl.sum(P, axis=1)
+
+        # alpha : (num_queries_per_kv, )
+        alpha = tl.exp(M - m_j)
+
+        # acc : (num_queries_per_kv, BLOCK_SIZE,)
+        acc = acc * alpha[:, None]
+
+        # update constants
+        L = L * alpha + l_j
+        M = m_j
+
+        # acc : (num_queries_per_kv, BLOCK_SIZE,)
+        acc += tl.dot(P.to(V.dtype), V)
+
+    # epilogue
+    acc = acc / L[:, None]
+    if USE_FP8:
+        acc = acc * tl.load(out_scale_inv)
+        acc = tl.clamp(acc, FP8_MIN, FP8_MAX)
+
+    output_offset = (
+        cur_batch_in_all_start_index * output_stride_0
+        + query_head_idx * output_stride_1
+    )
+
+    tl.store(
+        output_ptr + output_offset[:, None] + tl.arange(0, HEAD_SIZE_PADDED)[None, :],
+        acc,
+        mask=dim_mask[None, :] & head_mask[:, None],
+    )
+
+
+def chunked_prefill_paged_decode(
+    query,
+    key,
+    value,
+    output,
+    kv_cache_dtype,
+    key_cache,
+    value_cache,
+    block_table,
+    query_start_loc,
+    seq_lens,
+    max_seq_len,
+    max_query_len,
+    k_scale,
+    v_scale,
+    alibi_slopes=None,
+    sliding_window=None,
+    sm_scale=None,
+    output_scale=None,
+    # Optional tensor for sinks
+    sinks=None,
+):
+    if sm_scale is None:
+        sm_scale = 1.0 / (query.shape[1] ** 0.5)
+
+    use_alibi_slopes = alibi_slopes is not None
+
+    if sliding_window is None or sliding_window <= 0:
+        sliding_window = 0
+
+    if max_query_len > 1:
+        context_attention_fwd(
+            q=query,
+            k=key,
+            v=value,
+            o=output,
+            kv_cache_dtype=kv_cache_dtype,
+            k_cache=key_cache,
+            v_cache=value_cache,
+            b_loc=block_table,
+            b_start_loc=query_start_loc,
+            b_seq_len=seq_lens,
+            max_seq_len=max_seq_len,
+            max_input_len=max_query_len,
+            k_scale=k_scale,
+            v_scale=v_scale,
+            alibi_slopes=alibi_slopes,
+            sliding_window=sliding_window,
+            sm_scale=sm_scale,
+            skip_decode=True,
+            fp8_out_scale=output_scale,
+            sinks=sinks,
+        )
+
+    block_size = value_cache.shape[3]
+    num_seqs = len(seq_lens)
+    num_query_heads = query.shape[1]
+    num_kv_heads = key.shape[1]
+    num_queries_per_kv = query.shape[1] // key.shape[1]
+    head_size = query.shape[2]
+
+    # Conversion of FP8 Tensor from uint8 storage to
+    # appropriate torch.dtype for interpretation by Triton
+    if "fp8" in kv_cache_dtype:
+        assert key_cache.dtype in [torch.uint8, current_platform.fp8_dtype()]
+        assert value_cache.dtype in [torch.uint8, current_platform.fp8_dtype()]
+
+        if kv_cache_dtype in ("fp8", "fp8_e4m3"):
+            target_dtype = current_platform.fp8_dtype()
+        elif kv_cache_dtype == "fp8_e5m2":
+            target_dtype = torch.float8_e5m2
+        else:
+            raise ValueError("Unsupported FP8 dtype:", kv_cache_dtype)
+
+        key_cache = key_cache.view(target_dtype)
+        value_cache = value_cache.view(target_dtype)
+
+    num_queries_per_kv_padded = max(triton.next_power_of_2(num_queries_per_kv), 16)
+
+    from vllm.platforms.rocm import use_rocm_custom_paged_attention
+
+    use_custom = use_rocm_custom_paged_attention(
+        query.dtype,
+        head_size,
+        block_size,
+        num_queries_per_kv,
+        max_seq_len,
+        sliding_window,
+        kv_cache_dtype,
+        alibi_slopes,
+        sinks,
+    )
+    if use_custom:
+        _PARTITION_SIZE_ROCM = 256
+        max_num_partitions = (
+            max_seq_len + _PARTITION_SIZE_ROCM - 1
+        ) // _PARTITION_SIZE_ROCM
+        assert _PARTITION_SIZE_ROCM % block_size == 0
+        total_num_seq = block_table.shape[0]
+        tmp_output = torch.empty(
+            size=(total_num_seq, num_query_heads, max_num_partitions, head_size),
+            dtype=query.dtype,
+            device=output.device,
+        )
+        exp_sums = torch.empty(
+            size=(total_num_seq, num_query_heads, max_num_partitions),
+            dtype=torch.float32,
+            device=output.device,
+        )
+        max_logits = torch.empty_like(exp_sums)
+
+        ops.paged_attention_rocm(
+            output,
+            exp_sums,
+            max_logits,
+            tmp_output,
+            query,
+            key_cache,
+            value_cache,
+            num_kv_heads,
+            scale=sm_scale,
+            block_tables=block_table,
+            seq_lens=seq_lens,
+            query_start_loc=query_start_loc,
+            block_size=block_size,
+            max_seq_len=max_seq_len,
+            alibi_slopes=alibi_slopes,
+            kv_cache_dtype=kv_cache_dtype,
+            k_scale=k_scale,
+            v_scale=v_scale,
+            fp8_out_scale=output_scale,
+        )
+    else:
+        kernel_paged_attention_2d[
+            (
+                num_seqs,
+                num_kv_heads,
+            )
+        ](
+            output_ptr=output,
+            query_ptr=query,
+            key_cache_ptr=key_cache,
+            value_cache_ptr=value_cache,
+            sink_ptr=sinks,
+            block_tables_ptr=block_table,
+            seq_lens_ptr=seq_lens,
+            alibi_slopes_ptr=alibi_slopes,
+            scale=sm_scale,
+            k_scale=k_scale,
+            v_scale=v_scale,
+            out_scale_inv=1.0 / output_scale if output_scale is not None else 1.0,
+            num_query_heads=num_query_heads,
+            num_queries_per_kv=num_queries_per_kv,
+            num_queries_per_kv_padded=num_queries_per_kv_padded,
+            block_table_stride=block_table.stride(0),
+            query_stride_0=query.stride(0),
+            query_stride_1=query.stride(1),
+            output_stride_0=output.stride(0),
+            output_stride_1=output.stride(1),
+            BLOCK_SIZE=block_size,
+            HEAD_SIZE=head_size,
+            HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
+            USE_ALIBI_SLOPES=use_alibi_slopes,
+            SLIDING_WINDOW=sliding_window,
+            x=key_cache.shape[4],
+            stride_k_cache_0=key_cache.stride(0),
+            stride_k_cache_1=key_cache.stride(1),
+            stride_k_cache_2=key_cache.stride(2),
+            stride_k_cache_3=key_cache.stride(3),
+            stride_k_cache_4=key_cache.stride(4),
+            stride_v_cache_0=value_cache.stride(0),
+            stride_v_cache_1=value_cache.stride(1),
+            stride_v_cache_2=value_cache.stride(2),
+            stride_v_cache_3=value_cache.stride(3),
+            filter_by_query_len=True,
+            query_start_len_ptr=query_start_loc,
+            USE_SINKS=sinks is not None,
+            USE_FP8=output_scale is not None,
+        )
diff --git a/attention/ops/common.py b/attention/ops/common.py
new file mode 100644
index 0000000..2cbb5c9
--- /dev/null
+++ b/attention/ops/common.py
@@ -0,0 +1,414 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch
+
+from vllm.distributed.parallel_state import GroupCoordinator
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def _correct_attn_cp_out_kernel(
+    outputs_ptr,
+    new_output_ptr,
+    lses_ptr,
+    vlse_ptr,
+    outputs_stride_B,
+    outputs_stride_H,
+    outputs_stride_D,
+    lses_stride_N,
+    lses_stride_B,
+    lses_stride_H,
+    lse_idx,
+    HEAD_DIM: tl.constexpr,
+    N_ROUNDED: tl.constexpr,
+):
+    """
+    Apply the all-gathered lses to correct each local rank's attention
+    output. we still need perform a cross-rank reduction to obtain the
+    final attention output.
+
+    Args:
+        outputs_ptr (triton.PointerType):
+            Pointer to input tensor of shape [ B, H, D ]
+        lses_ptr (triton.PointerType):
+            Pointer to input tensor of shape [ N, B, H ]
+        new_output_ptr (triton.PointerType):
+            Pointer to output tensor of shape [ B, H, D ]
+        vlse_ptr (triton.PointerType):
+            Pointer to output tensor of shape [ B, H ]
+    """
+    batch_idx = tl.program_id(axis=0).to(tl.int64)
+    head_idx = tl.program_id(axis=1).to(tl.int64)
+    d_offsets = tl.arange(0, HEAD_DIM)
+    num_n_offsets = tl.arange(0, N_ROUNDED)
+
+    # shape = [N]
+    lse_offsets = (
+        num_n_offsets * lses_stride_N
+        + batch_idx * lses_stride_B
+        + head_idx * lses_stride_H
+    )
+
+    # calc final lse
+    lse = tl.load(lses_ptr + lse_offsets)
+    lse = tl.where((lse != lse) | (lse == float("inf")), -float("inf"), lse)
+    lse_max = tl.max(lse, axis=0)
+    lse_max = tl.where(lse_max == -float("inf"), 0, lse_max)
+    lse -= lse_max
+    lse_exp = tl.exp(lse)
+    lse_acc = tl.sum(lse_exp, axis=0)
+    lse = tl.log(lse_acc)
+    lse += lse_max
+
+    lse_offsets = batch_idx * lses_stride_B + head_idx * lses_stride_H
+    tl.store(vlse_ptr + lse_offsets, lse)
+
+    # shape = [D]
+    output_offsets = (
+        batch_idx * outputs_stride_B
+        + head_idx * outputs_stride_H
+        + d_offsets * outputs_stride_D
+    )
+
+    # correct output
+    lse_offset = (
+        lse_idx * lses_stride_N + batch_idx * lses_stride_B + head_idx * lses_stride_H
+    )
+    lse_tmp = tl.load(lses_ptr + lse_offset)
+    lse_finally = lse_tmp - lse
+    lse_finally = tl.where(
+        (lse_finally != lse_finally) | (lse_finally == float("inf")),
+        -float("inf"),
+        lse_finally,
+    )
+    factor = tl.exp(lse_finally)
+    output = tl.load(outputs_ptr + output_offsets)
+    output = output * factor
+
+    tl.store(new_output_ptr + output_offsets, output)
+
+
+class CPTritonContext:
+    """The CPTritonContext is used to avoid recompilation of the Triton JIT."""
+
+    def __init__(self):
+        self.inner_kernel = None
+
+    def call_kernel(self, kernel, grid, *regular_args, **const_args):
+        if self.inner_kernel is None:
+            self.inner_kernel = kernel[grid](*regular_args, **const_args)
+        else:
+            self.inner_kernel[grid](*regular_args)
+
+
+def correct_attn_out(
+    out: torch.Tensor, lses: torch.Tensor, cp_rank: int, ctx: CPTritonContext
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Correct the attention output using the all-gathered lses.
+
+    Args:
+        out: Tensor of shape [ B, H, D ]
+        lses: Tensor of shape [ N, B, H ]
+        cp_rank: Current rank in the context-parallel group
+        ctx: Triton context to avoid recompilation
+
+    Returns:
+        Tuple of (out, lse) with corrected attention and final log-sum-exp.
+    """
+    if ctx is None:
+        ctx = CPTritonContext()
+
+    # --- Normalize to 3D views ---
+    if out.ndim == 4 and out.shape[1] == 1:
+        out = out.squeeze(1)
+    assert out.ndim == 3, f"expected out [B,H,D] or [B,1,H,D], got {tuple(out.shape)}"
+
+    if lses.ndim == 4 and lses.shape[-1] == 1:
+        lses = lses.squeeze(-1)
+    if lses.ndim == 4 and lses.shape[1] == 1:
+        lses = lses.squeeze(1)
+    assert lses.ndim == 3, (
+        f"expected lses [N,B,H] (optionally with a 1-sized extra dim), "
+        f"got {tuple(lses.shape)}"
+    )
+
+    B, H, D = out.shape
+    N = lses.shape[0]
+
+    # Strides after we normalized shapes to 3-D views.  The kernel computes
+    # offsets for `vlse_ptr` using lses_stride_B/H, so the output buffer must
+    # have the same B/H stride layout as a slice of `lses`.
+    o_sB, o_sH, o_sD = out.stride()
+    l_sN, l_sB, l_sH = lses.stride()
+
+    # Allocate LSE with the same B/H strides as `lses` so writes land correctly
+    # even when `lses` is a non-contiguous view (e.g., 4-D to 3-D squeeze).
+    lse = torch.empty_strided(
+        (B, H), (l_sB, l_sH), device=lses.device, dtype=lses.dtype
+    )
+
+    # Kernel launch config
+    grid = (B, H, 1)
+
+    regular_args = (
+        out,
+        out,
+        lses,
+        lse,
+        o_sB,
+        o_sH,
+        o_sD,
+        l_sN,
+        l_sB,
+        l_sH,
+        cp_rank,
+    )
+    const_args = {"HEAD_DIM": D, "N_ROUNDED": N}
+
+    ctx.call_kernel(_correct_attn_cp_out_kernel, grid, *regular_args, **const_args)
+    return out, lse
+
+
+def cp_lse_ag_out_rs(
+    cp_attn_out: torch.Tensor,
+    cp_attn_lse: torch.Tensor,
+    cp_group: GroupCoordinator,
+    ctx: CPTritonContext = None,
+    return_lse=False,
+):
+    """
+    cp_attn_out: [ B, H, D ]
+    cp_attn_lse: [ B, H ]
+    """
+    if cp_group.world_size == 1:
+        return cp_attn_out
+
+    if ctx is None:
+        ctx = CPTritonContext()
+
+    lses = torch.empty(
+        (cp_group.world_size,) + cp_attn_lse.shape,
+        dtype=cp_attn_lse.dtype,
+        device=cp_attn_lse.device,
+    )
+
+    cp_attn_lse = cp_attn_lse.contiguous()
+    lses = cp_group.all_gather(cp_attn_lse, dim=0).view_as(lses)
+    out, lse = correct_attn_out(cp_attn_out, lses, cp_group.rank_in_group, ctx)
+    out = cp_group.reduce_scatter(out, dim=1)
+
+    if return_lse:
+        cp_num_heads = lse.shape[1] // cp_group.world_size
+        cp_rank = cp_group.rank_in_group
+        lse = lse[:, cp_num_heads * cp_rank : cp_num_heads * (cp_rank + 1)]
+        return out, lse
+    return out
+
+
+@triton.jit
+def _pack_seq_kernel(
+    x_ptr,  # [N, D]
+    out_ptr,  # [B, Lmax, D]
+    lengths_ptr,  # *i32, [B]
+    N: tl.constexpr,
+    D: tl.constexpr,
+    Lmax: tl.constexpr,
+    PAD_VALUE: tl.constexpr,
+    BLOCK_T: tl.constexpr,  # timesteps per program
+    BLOCK_D: tl.constexpr,  # features per program
+):
+    pid_b = tl.program_id(0)  # batch id
+    pid_t = tl.program_id(1)  # block over time dimension
+    pid_d = tl.program_id(2)  # block over feature dimension
+    off_t = pid_t * BLOCK_T + tl.arange(0, BLOCK_T)  # [BLOCK_T]
+    off_d = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)  # [BLOCK_D]
+
+    # Compute start index and sequence length from cumulative lengths
+    in_start = 0
+    for i in range(pid_b):
+        in_start += tl.load(lengths_ptr + i)
+    seq_len = tl.load(lengths_ptr + pid_b)
+
+    # valid time positions for this block
+    t_mask = off_t < Lmax
+
+    # compute input row indices for valid (b, t)
+    in_row = in_start + off_t
+    valid_row = (off_t < seq_len) & t_mask
+
+    # Pointers
+    # x_ptr: row-major [N, D]
+    x_row_ptr = x_ptr + in_row[:, None] * D + off_d[None, :]
+
+    # out_ptr: row-major [B, Lmax, D]
+    out_row_ptr = out_ptr + (pid_b * Lmax + off_t)[:, None] * D + off_d[None, :]
+
+    # Initialize with PAD (cast will occur as needed based on out_ptr dtype)
+    d_mask = off_d[None, :] < D
+    pad_vals = tl.full([BLOCK_T, BLOCK_D], PAD_VALUE, tl.float32)
+    tl.store(out_row_ptr, pad_vals, mask=t_mask[:, None] & d_mask)
+
+    # Load & write only where within seq_len
+    x_vals = tl.load(x_row_ptr, mask=valid_row[:, None] & d_mask)
+    tl.store(out_row_ptr, x_vals, mask=valid_row[:, None] & d_mask)
+
+
+def pack_seq_triton(
+    x: torch.Tensor,
+    lengths: torch.Tensor,
+    pad_value: float = -float("inf"),
+    block_t: int = 64,
+    block_d: int = 64,
+) -> torch.Tensor:
+    """
+    Pack sequences of different lengths into a batched tensor.
+
+    Args:
+        x: [N, ...] - input tensor where N is total number of tokens
+        lengths: [B] - sequence lengths for each batch
+        pad_value: value to use for padding
+        block_t: block size for time dimension
+        block_d: block size for feature dimension
+
+    Returns:
+        packed: [B, Lmax, ...] - packed tensor
+    """
+
+    # Handle multi-dimensional input by reshaping to (N, -1)
+    original_shape = x.shape
+    if len(original_shape) > 2:
+        N = original_shape[0]
+        x_reshaped = x.reshape(N, -1)
+        D = x_reshaped.shape[1]
+    else:
+        N, D = x.shape
+        x_reshaped = x
+
+    B = lengths.numel()
+    Lmax = int(lengths.max().item())
+
+    # Starts are computed inside the kernel from lengths
+
+    out = torch.empty((B, Lmax, D), device=x.device, dtype=x.dtype)
+
+    grid = (B, triton.cdiv(Lmax, block_t), triton.cdiv(D, block_d))
+    _pack_seq_kernel[grid](
+        x_reshaped,
+        out,
+        lengths.int(),
+        N,
+        D,
+        Lmax,
+        PAD_VALUE=float(pad_value),
+        BLOCK_T=block_t,
+        BLOCK_D=block_d,
+        num_warps=4,
+        num_stages=2,
+    )
+
+    # Reshape output back to original dimensions (except first dimension)
+    if len(original_shape) > 2:
+        output_shape = (B, Lmax) + original_shape[1:]
+        out = out.reshape(output_shape)
+
+    return out
+
+
+@triton.jit
+def _unpack_seq_triton_kernel(
+    packed_ptr,  # [B, Lmax, D]
+    out_ptr,  # [N, D]
+    lengths_ptr,  # *i32, [B]
+    B: tl.constexpr,
+    Lmax: tl.constexpr,
+    D: tl.constexpr,
+    BLOCK_T: tl.constexpr,  # timesteps per program
+    BLOCK_D: tl.constexpr,  # features per program
+):
+    pid_b = tl.program_id(0)  # batch id
+    pid_t = tl.program_id(1)  # block over time dimension
+    pid_d = tl.program_id(2)  # block over feature dimension
+    off_t = pid_t * BLOCK_T + tl.arange(0, BLOCK_T)  # [BLOCK_T]
+    off_d = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)  # [BLOCK_D]
+
+    # bounds: compute start from cumulative lengths
+    in_start = 0
+    for i in range(pid_b):
+        in_start += tl.load(lengths_ptr + i)
+    seq_len = tl.load(lengths_ptr + pid_b)
+
+    # valid time positions for this block
+    t_mask = off_t < Lmax
+    valid_row = (off_t < seq_len) & t_mask
+
+    # compute output row indices for valid (b, t)
+    out_row = in_start + off_t
+
+    # Pointers
+    # packed_ptr: row-major [B, Lmax, D]
+    packed_row_ptr = packed_ptr + (pid_b * Lmax + off_t)[:, None] * D + off_d[None, :]
+
+    # out_ptr: row-major [N, D]
+    out_row_ptr = out_ptr + out_row[:, None] * D + off_d[None, :]
+
+    # Load from packed tensor and store to output
+    d_mask = off_d[None, :] < D
+    packed_vals = tl.load(packed_row_ptr, mask=valid_row[:, None] & d_mask)
+    tl.store(out_row_ptr, packed_vals, mask=valid_row[:, None] & d_mask)
+
+
+def unpack_seq_triton(
+    packed_tensor: torch.Tensor,
+    lengths: torch.Tensor,
+    block_t: int = 64,
+    block_d: int = 64,
+) -> torch.Tensor:
+    """
+    Unpack a packed decode query tensor back to the original format.
+    Efficient Triton implementation.
+
+    Args:
+        packed_tensor: [B, Lmax, ...] - packed tensor from pack_seq_triton
+        lengths: [B] - sequence lengths for each batch
+        block_t: block size for time dimension
+        block_d: block size for feature dimension
+
+    Returns:
+        unpacked_tensor: [N, ...] where N = sum(lengths)
+    """
+
+    # Handle multi-dimensional input by reshaping to (B, Lmax, -1)
+    original_shape = packed_tensor.shape
+    if len(original_shape) > 3:
+        B, Lmax = original_shape[:2]
+        packed_reshaped = packed_tensor.reshape(B, Lmax, -1)
+        D = packed_reshaped.shape[2]
+    else:
+        B, Lmax, D = packed_tensor.shape
+        packed_reshaped = packed_tensor
+
+    # Calculate total number of elements
+    N = int(lengths.sum().item())
+
+    out = torch.empty((N, D), device=packed_tensor.device, dtype=packed_tensor.dtype)
+
+    grid = (B, triton.cdiv(Lmax, block_t), triton.cdiv(D, block_d))
+    _unpack_seq_triton_kernel[grid](
+        packed_reshaped,
+        out,
+        lengths.int(),
+        B,
+        Lmax,
+        D,
+        BLOCK_T=block_t,
+        BLOCK_D=block_d,
+        num_warps=4,
+        num_stages=2,
+    )
+
+    # Reshape output back to original dimensions (except first dimension)
+    if len(original_shape) > 3:
+        output_shape = (N,) + original_shape[2:]
+        out = out.reshape(output_shape)
+
+    return out
diff --git a/attention/ops/flashmla.py b/attention/ops/flashmla.py
new file mode 100644
index 0000000..9cd0916
--- /dev/null
+++ b/attention/ops/flashmla.py
@@ -0,0 +1,252 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# adapted from: https://github.com/deepseek-ai/FlashMLA/blob/main/flash_mla/flash_mla_interface.py
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm import _custom_ops as ops
+
+logger = init_logger(__name__)
+
+if current_platform.is_cuda():
+    try:
+        import vllm._flashmla_C  # noqa: F401
+
+        _flashmla_C_AVAILABLE = True
+    except ImportError:
+        _flashmla_C_AVAILABLE = False
+else:
+    _flashmla_C_AVAILABLE = False
+
+if current_platform.is_cuda():
+    try:
+        import vllm._flashmla_extension_C  # noqa: F401
+
+        _flashmla_extension_C_AVAILABLE = True
+    except ImportError:
+        _flashmla_extension_C_AVAILABLE = False
+else:
+    _flashmla_extension_C_AVAILABLE = False
+
+
+def _is_flashmla_available() -> tuple[bool, str | None]:
+    if not _flashmla_C_AVAILABLE:
+        return (
+            False,
+            "vllm._flashmla_C is not available, likely was not "
+            "compiled due to insufficient nvcc version or a supported arch "
+            "was not in the list of target arches to compile for.",
+        )
+    if not _flashmla_extension_C_AVAILABLE:
+        return (
+            False,
+            "vllm._flashmla_extension_C is not available, likely "
+            "was not compiled due to a build error.",
+        )
+
+    return True, None
+
+
+def is_flashmla_dense_supported() -> tuple[bool, str | None]:
+    """
+    Return: is_supported_flag, unsupported_reason (optional).
+    """
+    is_availble, maybe_reason = _is_flashmla_available()
+    if not is_availble:
+        return False, maybe_reason
+    if current_platform.get_device_capability()[0] != 9:
+        return False, "FlashMLA Dense is only supported on Hopper devices."
+    return True, None
+
+
+def is_flashmla_sparse_supported() -> tuple[bool, str | None]:
+    """
+    Return: is_supported_flag, unsupported_reason (optional).
+    """
+    is_availble, maybe_reason = _is_flashmla_available()
+    if not is_availble:
+        return False, maybe_reason
+    if current_platform.get_device_capability()[0] not in (9, 10):
+        return (
+            False,
+            "FlashMLA Sparse is only supported on Hopper and Blackwell devices.",
+        )
+    return True, None
+
+
+def get_mla_metadata(
+    cache_seqlens: torch.Tensor,
+    num_q_tokens_per_head_k: int,
+    num_heads_k: int,
+    num_heads_q: int | None = None,
+    is_fp8_kvcache: bool = False,
+    topk: int | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Arguments:
+    - cache_seqlens: (batch_size), dtype torch.int32.
+    - num_q_tokens_per_head_k:
+            Equals to num_q_tokens_per_q_seq * num_heads_q // num_heads_k.
+    - num_heads_k: The number of k heads.
+    - num_heads_q:
+            The number of q heads.
+            This argument is optional when sparse attention is not enabled
+    - is_fp8_kvcache: Whether the k_cache and v_cache are in fp8 format.
+    - topk: If not None, sparse attention will be enabled,
+            and only tokens in the `indices` array
+            passed to `flash_mla_with_kvcache_sm90` will be attended to.
+
+    Returns:
+    - tile_scheduler_metadata:
+            (num_sm_parts, TileSchedulerMetaDataSize), dtype torch.int32.
+    - num_splits: (batch_size + 1), dtype torch.int32.
+    """
+    if is_fp8_kvcache and topk is None:
+        return torch.ops._flashmla_extension_C.get_mla_decoding_metadata_dense_fp8(
+            cache_seqlens,
+            num_q_tokens_per_head_k,
+            num_heads_k,
+        )
+    return torch.ops._flashmla_C.get_mla_decoding_metadata(
+        cache_seqlens,
+        num_q_tokens_per_head_k,
+        num_heads_k,
+        num_heads_q,
+        is_fp8_kvcache,
+        topk,
+    )
+
+
+def flash_mla_with_kvcache(
+    q: torch.Tensor,
+    k_cache: torch.Tensor,
+    block_table: torch.Tensor,
+    cache_seqlens: torch.Tensor,
+    head_dim_v: int,
+    tile_scheduler_metadata: torch.Tensor,
+    num_splits: torch.Tensor,
+    softmax_scale: float | None = None,
+    causal: bool = False,
+    descale_q: torch.Tensor | None = None,
+    descale_k: torch.Tensor | None = None,
+    is_fp8_kvcache: bool = False,
+    indices: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Arguments:
+    - q: (batch_size, seq_len_q, num_heads_q, head_dim).
+    - k_cache: (num_blocks, page_block_size, num_heads_k, head_dim).
+    - block_table: (batch_size, max_num_blocks_per_seq), torch.int32.
+    - cache_seqlens: (batch_size), torch.int32.
+    - head_dim_v: Head dimension of v.
+    - tile_scheduler_metadata:
+        (num_sm_parts, TileSchedulerMetaDataSize), torch.int32,
+        returned by get_mla_metadata.
+    - num_splits:
+        (batch_size + 1), torch.int32, returned by get_mla_metadata.
+    - softmax_scale: float.
+        The scale of QK^T before applying softmax.
+        Default to 1 / sqrt(head_dim).
+    - causal: bool. Whether to apply causal attention mask.
+    - descale_q: (batch_size),
+        torch.float32. Descaling factors for Q, used for fp8 quantization.
+    - descale_k: (batch_size),
+        torch.float32. Descaling factors for K, used for fp8 quantization.
+    - is_fp8_kvcache: bool.
+        Whether the k_cache and v_cache are in fp8 format.
+        For the format of FP8 KV cache, please refer to README.md
+    - indices: (batch_size, seq_len_q, topk), torch.int32.
+        If not None, sparse attention will be enabled,
+        and only tokens in the `indices` array will be attended to.
+        Invalid indices should be set to -1 or numbers >= total_seq_len_kv.
+        For details about how to set up `indices`, please refer to README.md.
+
+    Returns:
+    - out: (batch_size, seq_len_q, num_heads_q, head_dim_v).
+    - softmax_lse: (batch_size, num_heads_q, seq_len_q), torch.float32.
+    """
+    if softmax_scale is None:
+        softmax_scale = q.shape[-1] ** (-0.5)
+    if indices is not None:
+        # NOTE (zyongye): sparse attention is also causal
+        # since it only attend to the tokens before
+        # but here `causal` should not be specified
+        assert not causal, "causal must be `false` if sparse attention is enabled."
+    assert (descale_q is None) == (descale_k is None), (
+        "descale_q and descale_k should be both None or both not None"
+    )
+
+    if indices is None and q.element_size() == 1:
+        out, softmax_lse = torch.ops._flashmla_extension_C.fwd_kvcache_mla_fp8(
+            q,
+            k_cache,
+            head_dim_v,
+            cache_seqlens,
+            block_table,
+            softmax_scale,
+            causal,
+            tile_scheduler_metadata,
+            num_splits,
+            descale_q,
+            descale_k,
+        )
+    else:
+        out, softmax_lse = torch.ops._flashmla_C.fwd_kvcache_mla(
+            q,
+            k_cache,
+            head_dim_v,
+            cache_seqlens,
+            block_table,
+            softmax_scale,
+            causal,
+            tile_scheduler_metadata,
+            num_splits,
+            is_fp8_kvcache,
+            indices,
+        )
+    return out, softmax_lse
+
+
+def flash_mla_sparse_prefill(
+    q: torch.Tensor,
+    kv: torch.Tensor,
+    indices: torch.Tensor,
+    sm_scale: float,
+    d_v: int = 512,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Sparse attention prefill kernel
+
+    Args:
+    - q: [s_q, h_q, d_qk], bfloat16
+    - kv: [s_kv, h_kv, d_qk], bfloat16
+    - indices: [s_q, h_kv, topk], int32.
+        Invalid indices should be set to -1 or numbers >= s_kv
+    - sm_scale: float
+    - d_v: The dimension of value vectors. Can only be 512
+
+    Returns:
+    - (output, max_logits, lse)
+        About the definition of output,
+        max_logits and lse, please refer to README.md
+    - output: [s_q, h_q, d_v], bfloat16
+    - max_logits:  [s_q, h_q], float
+    - lse: [s_q, h_q], float, 2-based log-sum-exp
+    """
+    results = ops.sparse_prefill_fwd(q, kv, indices,sm_scale, d_v)
+    return results
+
+
+#
+# TODO: Add fake functions
+#
+# @register_fake("_flashmla_C::get_mla_metadata")
+# def _get_mla_metadata_fake(....) -> Tuple[torch.Tensor, torch.Tensor]:
+#     return ....
+#
+# @register_fake("_flashmla_C::fwd_kvcache_mla")
+# def _fwd_kvcache_mla_fake(....) -> Tuple[torch.Tensor, torch.Tensor]:
+#     return ....
+#
diff --git a/attention/ops/merge_attn_states.py b/attention/ops/merge_attn_states.py
new file mode 100644
index 0000000..16106f3
--- /dev/null
+++ b/attention/ops/merge_attn_states.py
@@ -0,0 +1,47 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.platforms import current_platform
+
+
+def merge_attn_states(
+    output: torch.Tensor,
+    prefix_output: torch.Tensor,
+    prefix_lse: torch.Tensor,
+    suffix_output: torch.Tensor,
+    suffix_lse: torch.Tensor,
+    output_lse: torch.Tensor | None = None,
+) -> None:
+    # NOTE(DefTruth): Currently, custom merge_attn_states CUDA kernel
+    # is not support for FP8 dtype, fallback to use Triton kernel.
+    def supported_dtypes(o: torch.Tensor) -> bool:
+        return o.dtype in [torch.float32, torch.half, torch.bfloat16]
+
+    # NOTE(DefTruth): Currently, custom merge_attn_states CUDA
+    # kernel load/store 128b(16 bytes) per memory issue within
+    # thread. Namely, the headsize(headdim) must be multiple of
+    # pack_size (float32 -> 4, half/bfloat16 -> 8).
+    def supported_headdim(o: torch.Tensor) -> bool:
+        headdim = o.shape[2]  # [NUM_TOKENS, NUM_HEADS, HEAD_SIZE]
+        if o.dtype == torch.float32:
+            return headdim % 4 == 0
+        return headdim % 8 == 0
+
+    if (
+        current_platform.is_cuda()
+        and supported_dtypes(output)
+        and supported_headdim(output)
+    ):
+        from vllm._custom_ops import merge_attn_states
+
+        return merge_attn_states(
+            output, prefix_output, prefix_lse, suffix_output, suffix_lse, output_lse
+        )
+    else:
+        from vllm.attention.ops.triton_merge_attn_states import merge_attn_states
+
+        return merge_attn_states(
+            output, prefix_output, prefix_lse, suffix_output, suffix_lse, output_lse
+        )
diff --git a/attention/ops/paged_attn.py b/attention/ops/paged_attn.py
new file mode 100644
index 0000000..8e010ff
--- /dev/null
+++ b/attention/ops/paged_attn.py
@@ -0,0 +1,262 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import HAS_TRITON
+
+if current_platform.is_cuda_alike():
+    from vllm import _custom_ops as ops
+elif current_platform.is_xpu():
+    from vllm._ipex_ops import ipex_ops as ops
+
+if HAS_TRITON:
+    from vllm.attention.ops.prefix_prefill import context_attention_fwd
+
+# Should be the same as PARTITION_SIZE in `paged_attention_v2_launcher`.
+_PARTITION_SIZE = 512
+
+
+@dataclass
+class PagedAttentionMetadata:
+    """Metadata for PagedAttention."""
+
+    # (batch_size,). The length of sequences (entire tokens seen so far) per
+    # sequence.
+    seq_lens_tensor: torch.Tensor | None
+    # Maximum sequence length in the batch. 0 if it is prefill-only batch.
+    max_decode_seq_len: int
+    # (batch_size, max_blocks_per_seq).
+    # Block addresses per sequence. (Seq id -> list of physical block)
+    # E.g., [0, 1, 2] means tokens are stored in 0th, 1st, and 2nd blocks
+    # in the kv cache. Each block can contain up to block_size tokens.
+    # 2nd dimensions are padded up to max_blocks_per_seq if it is cuda-graph
+    # captured.
+    block_tables: torch.Tensor | None
+
+
+class PagedAttention:
+    @staticmethod
+    def get_supported_head_sizes() -> list[int]:
+        return [32, 64, 80, 96, 112, 120, 128, 192, 256]
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        return (2, num_blocks, block_size * num_kv_heads * head_size)
+
+    @staticmethod
+    def split_kv_cache(
+        kv_cache: torch.Tensor,
+        num_kv_heads: int,
+        head_size: int,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        x = 16 // kv_cache.element_size()
+        num_blocks = kv_cache.shape[1]
+
+        key_cache = kv_cache[0]
+        key_cache = key_cache.view(num_blocks, num_kv_heads, head_size // x, -1, x)
+        value_cache = kv_cache[1]
+        value_cache = value_cache.view(num_blocks, num_kv_heads, head_size, -1)
+        return key_cache, value_cache
+
+    @staticmethod
+    def write_to_paged_cache(
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache_dtype: str,
+        k_scale: torch.Tensor,
+        v_scale: torch.Tensor,
+    ) -> None:
+        ops.reshape_and_cache(
+            key,
+            value,
+            key_cache,
+            value_cache,
+            slot_mapping.flatten(),
+            kv_cache_dtype,
+            k_scale,
+            v_scale,
+        )
+
+    @staticmethod
+    def forward_decode(
+        query: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        block_tables: torch.Tensor,
+        seq_lens: torch.Tensor,
+        max_seq_len: int,
+        kv_cache_dtype: str,
+        num_kv_heads: int,
+        scale: float,
+        alibi_slopes: torch.Tensor | None,
+        k_scale: torch.Tensor,
+        v_scale: torch.Tensor,
+        tp_rank: int = 0,
+        blocksparse_local_blocks: int = 0,
+        blocksparse_vert_stride: int = 0,
+        blocksparse_block_size: int = 64,
+        blocksparse_head_sliding_step: int = 0,
+    ) -> torch.Tensor:
+        if blocksparse_vert_stride is not None and blocksparse_vert_stride > 1:
+            # use blocksparse paged attention
+            block_size = value_cache.size(-1)
+            assert (
+                blocksparse_block_size > 0 and blocksparse_block_size % block_size == 0
+            ), (
+                f"{blocksparse_block_size=} needs to be a multiple of"
+                f"{block_size=} used in block_tables."
+            )
+
+        output = torch.empty_like(query)
+        block_size = value_cache.shape[3]
+        num_seqs, num_heads, head_size = query.shape
+        max_num_partitions = (max_seq_len + _PARTITION_SIZE - 1) // _PARTITION_SIZE
+        # NOTE(woosuk): We use a simple heuristic to decide whether to use
+        # PagedAttention V1 or V2. If the number of partitions is 1, we use
+        # V1 to avoid the overhead of reduction. Also, if the number of
+        # sequences or heads is large, we use V1 since there is enough work
+        # to parallelize.
+        # TODO(woosuk): Tune this heuristic.
+        # For context len > 8192, use V2 kernel to avoid shared memory shortage.
+        use_v1 = max_seq_len <= 8192 and (
+            max_num_partitions == 1 or num_seqs * num_heads > 512
+        )
+
+        if use_v1:
+            # Run PagedAttention V1.
+            ops.paged_attention_v1(
+                output,
+                query,
+                key_cache,
+                value_cache,
+                num_kv_heads,
+                scale,
+                block_tables,
+                seq_lens,
+                block_size,
+                max_seq_len,
+                alibi_slopes,
+                kv_cache_dtype,
+                k_scale,
+                v_scale,
+                tp_rank,
+                blocksparse_local_blocks,
+                blocksparse_vert_stride,
+                blocksparse_block_size,
+                blocksparse_head_sliding_step,
+            )
+        else:
+            # Run PagedAttention V2.
+            assert _PARTITION_SIZE % block_size == 0
+            tmp_output = torch.empty(
+                size=(num_seqs, num_heads, max_num_partitions, head_size),
+                dtype=output.dtype,
+                device=output.device,
+            )
+            exp_sums = torch.empty(
+                size=(num_seqs, num_heads, max_num_partitions),
+                dtype=torch.float32,
+                device=output.device,
+            )
+            max_logits = torch.empty_like(exp_sums)
+            ops.paged_attention_v2(
+                output,
+                exp_sums,
+                max_logits,
+                tmp_output,
+                query,
+                key_cache,
+                value_cache,
+                num_kv_heads,
+                scale,
+                block_tables,
+                seq_lens,
+                block_size,
+                max_seq_len,
+                alibi_slopes,
+                kv_cache_dtype,
+                k_scale,
+                v_scale,
+                tp_rank,
+                blocksparse_local_blocks,
+                blocksparse_vert_stride,
+                blocksparse_block_size,
+                blocksparse_head_sliding_step,
+            )
+        return output
+
+    @staticmethod
+    def forward_prefix(
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache_dtype: str,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        block_tables: torch.Tensor,
+        query_start_loc: torch.Tensor,
+        seq_lens_tensor: torch.Tensor,
+        max_query_len: int,
+        alibi_slopes: torch.Tensor | None,
+        sliding_window: int | None,
+        k_scale: torch.Tensor,
+        v_scale: torch.Tensor,
+    ) -> torch.Tensor:
+        output = torch.empty_like(query)
+        max_seq_len = None
+        context_attention_fwd(
+            query,
+            key,
+            value,
+            output,
+            kv_cache_dtype,
+            key_cache,
+            value_cache,
+            block_tables,
+            # query_start_loc is (batch_size + 1,)
+            query_start_loc,
+            seq_lens_tensor,
+            max_seq_len,
+            max_query_len,
+            k_scale,
+            v_scale,
+            alibi_slopes,
+            sliding_window,
+        )
+        return output
+
+    @staticmethod
+    def swap_blocks(
+        src_kv_cache: torch.Tensor,
+        dst_kv_cache: torch.Tensor,
+        src_to_dst: torch.Tensor,
+    ) -> None:
+        src_key_cache = src_kv_cache[0]
+        dst_key_cache = dst_kv_cache[0]
+        ops.swap_blocks(src_key_cache, dst_key_cache, src_to_dst)
+
+        src_value_cache = src_kv_cache[1]
+        dst_value_cache = dst_kv_cache[1]
+        ops.swap_blocks(src_value_cache, dst_value_cache, src_to_dst)
+
+    @staticmethod
+    def copy_blocks(
+        kv_caches: list[torch.Tensor],
+        src_to_dists: torch.Tensor,
+    ) -> None:
+        key_caches = [kv_cache[0] for kv_cache in kv_caches]
+        value_caches = [kv_cache[1] for kv_cache in kv_caches]
+        ops.copy_blocks(key_caches, value_caches, src_to_dists)
diff --git a/attention/ops/pallas_kv_cache_update.py b/attention/ops/pallas_kv_cache_update.py
new file mode 100644
index 0000000..51214b0
--- /dev/null
+++ b/attention/ops/pallas_kv_cache_update.py
@@ -0,0 +1,130 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+
+import jax
+from jax.experimental import pallas as pl
+from jax.experimental.pallas import tpu as pltpu
+
+from vllm.utils.math_utils import cdiv
+
+
+def _kv_cache_update_kernel(
+    # Prefetch
+    slices_ref,  # [3, padded_num_slices], list of (kv_cache_start,
+    # new_kv_start, slice_len)
+    num_slices_ref,  # [1]
+    # Input
+    new_kv_hbm_ref,  # [num_tokens, num_combined_kv_heads, head_dim]
+    kv_cache_hbm_ref,  # [total_num_pages * page_size, num_combined_kv_heads,
+    # head_dim]
+    # Output
+    _,  # [total_num_pages * page_size, num_combined_kv_heads, head_dim]
+    # Scratch
+    scratch,  # [num_slices_per_block, page_size, num_combined_kv_heads,
+    # head_dim]
+    sem,
+):
+    async_copies = []
+    block_idx = pl.program_id(0)
+    num_slices_per_block = scratch.shape[0]
+
+    # Copy from new_kv_hbm_ref to scratch
+    for i in range(num_slices_per_block):
+        offset_i = i + block_idx * num_slices_per_block
+        new_kv_start = jax.lax.select(
+            offset_i < num_slices_ref[0], slices_ref[1, offset_i], 0
+        )
+        length = jax.lax.select(
+            offset_i < num_slices_ref[0], slices_ref[2, offset_i], 0
+        )
+        async_copy = pltpu.make_async_copy(
+            new_kv_hbm_ref.at[pl.ds(new_kv_start, length), ...],
+            scratch.at[i, pl.ds(0, length), ...],
+            sem,
+        )
+        async_copy.start()
+        async_copies.append(async_copy)
+
+    for async_copy in async_copies:
+        async_copy.wait()
+
+    # Copy from scratch to kv_cache_hbm_ref
+    async_copies.clear()
+    for i in range(num_slices_per_block):
+        offset_i = i + block_idx * num_slices_per_block
+        kv_cache_start = jax.lax.select(
+            offset_i < num_slices_ref[0], slices_ref[0, offset_i], 0
+        )
+        length = jax.lax.select(
+            offset_i < num_slices_ref[0], slices_ref[2, offset_i], 0
+        )
+        async_copy = pltpu.make_async_copy(
+            scratch.at[i, pl.ds(0, length), ...],
+            kv_cache_hbm_ref.at[pl.ds(kv_cache_start, length), ...],
+            sem,
+        )
+        async_copy.start()
+        async_copies.append(async_copy)
+    for async_copy in async_copies:
+        async_copy.wait()
+
+
+@functools.partial(
+    jax.jit,
+    static_argnames=["page_size", "num_slices_per_block"],
+)
+def kv_cache_update(
+    # [total_num_token, num_combined_kv_heads, head_dim]
+    new_kv: jax.Array,
+    # [3, slices], list of (kv_cache_start, new_kv_start, slice_len)
+    slices: jax.Array,
+    # [total_num_pages * page_size, num_combined_kv_heads, head_dim]
+    kv_cache: jax.Array,
+    # [1]
+    num_kv_update_slices: jax.Array,
+    *,
+    page_size: int = 32,
+    num_slices_per_block: int = 8,
+):
+    _, num_combined_kv_heads, head_dim = new_kv.shape
+    assert kv_cache.shape[1] == num_combined_kv_heads
+    assert kv_cache.shape[2] == head_dim
+    assert head_dim % 128 == 0
+    # TODO: Add dynamic check to make sure that the all the slice lengths are
+    # smaller or equal to page_size
+
+    in_specs = [
+        pl.BlockSpec(memory_space=pltpu.TPUMemorySpace.ANY),
+        pl.BlockSpec(memory_space=pltpu.TPUMemorySpace.ANY),
+    ]
+
+    out_specs = [pl.BlockSpec(memory_space=pltpu.TPUMemorySpace.ANY)]
+    out_shape = [jax.ShapeDtypeStruct(kv_cache.shape, dtype=kv_cache.dtype)]
+
+    scalar_prefetches = [slices, num_kv_update_slices]
+    scratch = pltpu.VMEM(
+        (num_slices_per_block, page_size, num_combined_kv_heads, head_dim),
+        new_kv.dtype,
+    )
+
+    scratch_shapes = [
+        scratch,
+        pltpu.SemaphoreType.DMA,
+    ]
+
+    kernel = pl.pallas_call(
+        _kv_cache_update_kernel,
+        grid_spec=pltpu.PrefetchScalarGridSpec(
+            num_scalar_prefetch=len(scalar_prefetches),
+            in_specs=in_specs,
+            out_specs=out_specs,
+            grid=(cdiv(num_kv_update_slices[0], num_slices_per_block),),
+            scratch_shapes=scratch_shapes,
+        ),
+        out_shape=out_shape,
+        input_output_aliases={len(scalar_prefetches) + 1: 0},
+    )
+
+    return kernel(*scalar_prefetches, new_kv, kv_cache)[0]
diff --git a/attention/ops/prefix_prefill.py b/attention/ops/prefix_prefill.py
new file mode 100644
index 0000000..f101d5c
--- /dev/null
+++ b/attention/ops/prefix_prefill.py
@@ -0,0 +1,814 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# The kernels in this file are adapted from LightLLM's context_attention_fwd:
+# https://github.com/ModelTC/lightllm/blob/main/lightllm/models/llama/triton_kernel/context_flashattention_nopad.py
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+# Static kernels parameters
+BASE_BLOCK = 128 if current_platform.has_device_capability(80) else 64
+NUM_WARPS = 4 if current_platform.is_rocm() else 8
+
+# To check compatibility
+IS_TURING = current_platform.get_device_capability() == (7, 5)
+float8_info = torch.finfo(current_platform.fp8_dtype())
+
+
+# Here's an example autotuner config for this kernel. This config does provide
+# a performance improvement, but dramatically increases first call latency in
+# triton 3.2. Because of this tradeoff, it's currently commented out.
+# @triton.autotune(
+#     configs=[
+#         triton.Config({'BLOCK_M': 128, 'BLOCK_N': 64, \
+#                         "num_unroll_cache": 4, \
+#                         "num_unroll_request": 1 } | \
+#                         ({"kpack": 2, "waves_per_eu": 2} \
+#                             if current_platform.is_rocm() else {}), \
+#                         num_warps=4, \
+#                         num_stages=1)
+#     ],
+#     key=["BLOCK_SIZE", "MAX_Q_LEN", "MAX_CTX_LEN"]
+# )
+@triton.jit
+def _fwd_kernel(
+    Q,
+    K,
+    V,
+    K_cache,
+    V_cache,
+    sink_ptr,
+    B_Loc,
+    sm_scale,
+    k_scale,
+    v_scale,
+    out_scale_inv,
+    B_Start_Loc,
+    B_Seqlen,
+    x: tl.constexpr,
+    Out,
+    stride_b_loc_b,
+    stride_b_loc_s,
+    stride_qbs,
+    stride_qh,
+    stride_qd,
+    stride_kbs,
+    stride_kh,
+    stride_kd,
+    stride_vbs,
+    stride_vh,
+    stride_vd,
+    stride_obs,
+    stride_oh,
+    stride_od,
+    stride_k_cache_bs,
+    stride_k_cache_h,
+    stride_k_cache_d,
+    stride_k_cache_bl: tl.constexpr,
+    stride_k_cache_x,
+    stride_v_cache_bs,
+    stride_v_cache_h,
+    stride_v_cache_d,
+    stride_v_cache_bl,
+    num_queries_per_kv: tl.constexpr,
+    IN_PRECISION: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+    BLOCK_DMODEL_PADDED: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    SLIDING_WINDOW: tl.constexpr,
+    num_unroll_cache: tl.constexpr,
+    num_unroll_request: tl.constexpr,
+    SKIP_DECODE: tl.constexpr,
+    USE_SINKS: tl.constexpr,
+    USE_FP8: tl.constexpr,
+    MAX_Q_LEN: tl.constexpr = 0,
+    MAX_CTX_LEN: tl.constexpr = 0,
+    FP8_MIN: tl.constexpr = float8_info.min,
+    FP8_MAX: tl.constexpr = float8_info.max,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    start_m = tl.program_id(2)
+
+    cur_kv_head = cur_head // num_queries_per_kv
+
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
+    cur_batch_in_all_start_index = tl.load(B_Start_Loc + cur_batch)
+    cur_batch_in_all_stop_index = tl.load(B_Start_Loc + cur_batch + 1)
+    cur_batch_query_len = cur_batch_in_all_stop_index - cur_batch_in_all_start_index
+    cur_batch_ctx_len = cur_batch_seq_len - cur_batch_query_len
+
+    if SKIP_DECODE and cur_batch_query_len == 1:
+        return
+
+    # start position inside of the query
+    # generally, N goes over kv, while M goes over query_len
+    block_start_loc = BLOCK_M * start_m
+
+    # initialize offsets
+    # [BLOCK_SIZE]; starts at 0
+    offs_bs_n = tl.arange(0, BLOCK_SIZE)
+    # [N]; starts at 0
+    offs_n = tl.arange(0, BLOCK_N)
+    # [D]; starts at 0
+    offs_d = tl.arange(0, BLOCK_DMODEL_PADDED)
+    # [M]; starts at current position in query
+    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    # [M,D]
+    off_q = (
+        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_qbs
+        + cur_head * stride_qh
+        + offs_d[None, :] * stride_qd
+    )
+
+    dim_mask = tl.where(tl.arange(0, BLOCK_DMODEL_PADDED) < BLOCK_DMODEL, 1, 0).to(
+        tl.int1
+    )  # [D]
+
+    q = tl.load(
+        Q + off_q,
+        mask=dim_mask[None, :] & (offs_m[:, None] < cur_batch_query_len),
+        other=0.0,
+    )  # [M,D]
+
+    # initialize pointer to m and l
+    if not USE_SINKS:
+        m_i = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+    else:
+        m_i = tl.load(
+            sink_ptr + tl.full([BLOCK_M], cur_head, dtype=tl.int64),
+            mask=(offs_m < cur_batch_query_len),
+            other=float("-inf"),
+        ).to(dtype=tl.float32)
+
+    l_i = tl.full([BLOCK_M], 1.0, dtype=tl.float32)
+    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL_PADDED], dtype=tl.float32)  # [M,D]
+
+    # compute query against context (no causal mask here)
+    for start_n in tl.range(
+        0, cur_batch_ctx_len, BLOCK_SIZE, loop_unroll_factor=num_unroll_cache
+    ):
+        start_n = tl.multiple_of(start_n, BLOCK_SIZE)
+        # -- compute qk ----
+        bn = tl.load(
+            B_Loc
+            + cur_batch * stride_b_loc_b
+            + (start_n // BLOCK_SIZE) * stride_b_loc_s
+        ).to(tl.int64)
+        # [D,BLOCK_SIZE]
+        off_k = (
+            bn[None, :] * stride_k_cache_bs
+            + cur_kv_head * stride_k_cache_h
+            + (offs_d[:, None] // x) * stride_k_cache_d
+            + ((start_n + offs_bs_n[None, :]) % BLOCK_SIZE) * stride_k_cache_bl
+            + (offs_d[:, None] % x) * stride_k_cache_x
+        )
+
+        # [BLOCK_SIZE,D]
+        off_v = (
+            bn[:, None] * stride_v_cache_bs
+            + cur_kv_head * stride_v_cache_h
+            + offs_d[None, :] * stride_v_cache_d
+            + offs_bs_n[:, None] * stride_v_cache_bl
+        )
+
+        if (
+            start_n + BLOCK_SIZE > cur_batch_ctx_len
+            or BLOCK_DMODEL != BLOCK_DMODEL_PADDED
+        ):
+            k_load = tl.load(
+                K_cache + off_k,
+                mask=dim_mask[:, None]
+                & ((start_n + offs_bs_n[None, :]) < cur_batch_ctx_len),
+                other=0.0,
+            )  # [D,N]
+        else:
+            k_load = tl.load(K_cache + off_k)
+
+        if k_load.dtype.is_fp8():
+            k = (k_load.to(tl.float32) * tl.load(k_scale)).to(q.dtype)
+        else:
+            k = k_load
+
+        qk = tl.zeros([BLOCK_M, BLOCK_SIZE], dtype=tl.float32)  # [M,N]
+        qk = tl.dot(q, k, acc=qk, input_precision=IN_PRECISION)
+        qk = tl.where(
+            (start_n + offs_bs_n[None, :]) < cur_batch_ctx_len, qk, float("-inf")
+        )
+        qk *= sm_scale
+        if SLIDING_WINDOW > 0:
+            # (cur_batch_ctx_len + offs_m[:, None]) are the positions of
+            # Q entries in sequence
+            # (start_n + offs_bs_n[None, :]) are the positions of
+            # KV entries in sequence
+            # So the condition makes sure each entry in Q only attends
+            # to KV entries not more than SLIDING_WINDOW away.
+            #
+            # We can't use -inf here, because the
+            # sliding window may lead to the entire row being masked.
+            # This then makes m_ij contain -inf, which causes NaNs in
+            # exp().
+            qk = tl.where(
+                (cur_batch_ctx_len + offs_m[:, None]) - (start_n + offs_bs_n[None, :])
+                < SLIDING_WINDOW,
+                qk,
+                -10000,
+            )
+
+        # compute running maximum
+        m_ij = tl.maximum(m_i, tl.max(qk, axis=1))
+        p = tl.exp(qk - m_ij[:, None])
+        l_ij = tl.sum(p, axis=1)
+        alpha = tl.exp(m_i - m_ij)
+        acc = acc * alpha[:, None]
+
+        # update acc
+        if (
+            start_n + BLOCK_SIZE > cur_batch_ctx_len
+            or BLOCK_DMODEL != BLOCK_DMODEL_PADDED
+        ):
+            v_load = tl.load(
+                V_cache + off_v,
+                mask=dim_mask[None, :]
+                & ((start_n + offs_bs_n[:, None]) < cur_batch_ctx_len),
+                other=0.0,
+            )  # [N,D]
+        else:
+            v_load = tl.load(V_cache + off_v)
+
+        if v_load.dtype.is_fp8():
+            v = (v_load.to(tl.float32) * tl.load(v_scale)).to(q.dtype)
+        else:
+            v = v_load
+        p = p.to(v.dtype)
+
+        acc = tl.dot(p, v, acc=acc, input_precision=IN_PRECISION)
+        # # update m_i and l_i
+        l_i = l_i * alpha + l_ij
+        m_i = m_ij
+
+    off_k = (
+        offs_n[None, :] * stride_kbs
+        + cur_kv_head * stride_kh
+        + offs_d[:, None] * stride_kd
+    )
+    off_v = (
+        offs_n[:, None] * stride_vbs
+        + cur_kv_head * stride_vh
+        + offs_d[None, :] * stride_vd
+    )
+    k_ptrs = K + off_k
+    v_ptrs = V + off_v
+
+    # block_mask is 0 when we're already past the current query length
+    block_mask = tl.where(block_start_loc < cur_batch_query_len, 1, 0)
+
+    # compute query against itself (with causal mask)
+    for start_n in tl.range(
+        0,
+        block_mask * (start_m + 1) * BLOCK_M,
+        BLOCK_N,
+        loop_unroll_factor=num_unroll_request,
+    ):
+        start_n = tl.multiple_of(start_n, BLOCK_N)
+        # -- compute qk ----
+        k = tl.load(
+            k_ptrs + (cur_batch_in_all_start_index + start_n) * stride_kbs,
+            mask=dim_mask[:, None]
+            & ((start_n + offs_n[None, :]) < cur_batch_query_len),
+            other=0.0,
+        )
+
+        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
+        qk = tl.dot(q, k, acc=qk, input_precision=IN_PRECISION)
+        qk *= sm_scale
+        # apply causal mask
+        qk = tl.where(offs_m[:, None] >= (start_n + offs_n[None, :]), qk, float("-inf"))
+        if SLIDING_WINDOW > 0:
+            qk = tl.where(
+                offs_m[:, None] - (start_n + offs_n[None, :]) < SLIDING_WINDOW,
+                qk,
+                -10000,
+            )
+
+        # compute running maximum
+        m_ij = tl.maximum(m_i, tl.max(qk, axis=1))
+        p = tl.exp(qk - m_ij[:, None])
+        l_ij = tl.sum(p, axis=1)
+        alpha = tl.exp(m_i - m_ij)
+        acc = acc * alpha[:, None]
+
+        # update acc
+        v = tl.load(
+            v_ptrs + (cur_batch_in_all_start_index + start_n) * stride_vbs,
+            mask=dim_mask[None, :]
+            & ((start_n + offs_n[:, None]) < cur_batch_query_len),
+            other=0.0,
+        )
+        p = p.to(v.dtype)
+
+        acc = tl.dot(p, v, acc=acc, input_precision=IN_PRECISION)
+        # update m_i and l_i
+        l_i = l_i * alpha + l_ij
+        m_i = m_ij
+
+    acc = acc / l_i[:, None]
+
+    # initialize pointers to output
+    off_o = (
+        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_obs
+        + cur_head * stride_oh
+        + offs_d[None, :] * stride_od
+    )
+    out_ptrs = Out + off_o
+    if USE_FP8:
+        acc = acc * tl.load(out_scale_inv)
+        acc = tl.clamp(acc, FP8_MIN, FP8_MAX)
+    tl.store(
+        out_ptrs, acc, mask=dim_mask[None, :] & (offs_m[:, None] < cur_batch_query_len)
+    )
+    return
+
+
+@triton.jit
+def _fwd_kernel_alibi(
+    Q,
+    K,
+    V,
+    K_cache,
+    V_cache,
+    B_Loc,
+    sm_scale,
+    k_scale,
+    v_scale,
+    B_Start_Loc,
+    B_Seqlen,
+    Alibi_slopes,
+    block_size,
+    x,
+    Out,
+    stride_b_loc_b,
+    stride_b_loc_s,
+    stride_qbs,
+    stride_qh,
+    stride_qd,
+    stride_kbs,
+    stride_kh,
+    stride_kd,
+    stride_vbs,
+    stride_vh,
+    stride_vd,
+    stride_obs,
+    stride_oh,
+    stride_od,
+    stride_k_cache_bs,
+    stride_k_cache_h,
+    stride_k_cache_d,
+    stride_k_cache_bl,
+    stride_k_cache_x,
+    stride_v_cache_bs,
+    stride_v_cache_h,
+    stride_v_cache_d,
+    stride_v_cache_bl,
+    num_queries_per_kv: int,
+    IN_PRECISION: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,  # head size
+    BLOCK_DMODEL_PADDED: tl.constexpr,  # head size padded to a power of 2
+    BLOCK_N: tl.constexpr,
+    SKIP_DECODE: tl.constexpr,
+):
+    # attn_bias[]
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    start_m = tl.program_id(2)
+
+    cur_kv_head = cur_head // num_queries_per_kv
+
+    # cur_batch_seq_len: the length of prompts
+    # cur_batch_ctx_len: the length of prefix
+    # cur_batch_in_all_start_index: the start id of the dim=0
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
+    cur_batch_in_all_start_index = tl.load(B_Start_Loc + cur_batch)
+    cur_batch_in_all_stop_index = tl.load(B_Start_Loc + cur_batch + 1)
+    cur_batch_query_len = cur_batch_in_all_stop_index - cur_batch_in_all_start_index
+    cur_batch_ctx_len = cur_batch_seq_len - cur_batch_query_len
+
+    if SKIP_DECODE and cur_batch_query_len == 1:
+        return
+
+    block_start_loc = BLOCK_M * start_m
+
+    # initialize offsets
+    offs_n = tl.arange(0, BLOCK_N)
+    offs_d = tl.arange(0, BLOCK_DMODEL_PADDED)
+    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    off_q = (
+        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_qbs
+        + cur_head * stride_qh
+        + offs_d[None, :] * stride_qd
+    )
+
+    dim_mask = tl.where(tl.arange(0, BLOCK_DMODEL_PADDED) < BLOCK_DMODEL, 1, 0).to(
+        tl.int1
+    )
+
+    q = tl.load(
+        Q + off_q,
+        mask=dim_mask[None, :]
+        & (offs_m[:, None] < cur_batch_seq_len - cur_batch_ctx_len),
+        other=0.0,
+    )
+
+    # # initialize pointer to m and l
+    m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
+    l_i = tl.zeros([BLOCK_M], dtype=tl.float32)
+    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL_PADDED], dtype=tl.float32)
+
+    alibi_slope = tl.load(Alibi_slopes + cur_head)
+    alibi_start_q = tl.arange(0, BLOCK_M) + block_start_loc + cur_batch_ctx_len
+    alibi_start_k = 0
+    for start_n in range(0, cur_batch_ctx_len, BLOCK_N):
+        start_n = tl.multiple_of(start_n, BLOCK_N)
+        # -- compute qk ----
+        bn = tl.load(
+            B_Loc
+            + cur_batch * stride_b_loc_b
+            + ((start_n + offs_n) // block_size) * stride_b_loc_s,
+            mask=(start_n + offs_n) < cur_batch_ctx_len,
+            other=0,
+        ).to(tl.int64)
+        off_k = (
+            bn[None, :] * stride_k_cache_bs
+            + cur_kv_head * stride_k_cache_h
+            + (offs_d[:, None] // x) * stride_k_cache_d
+            + ((start_n + offs_n[None, :]) % block_size) * stride_k_cache_bl
+            + (offs_d[:, None] % x) * stride_k_cache_x
+        )
+        off_v = (
+            bn[:, None] * stride_v_cache_bs
+            + cur_kv_head * stride_v_cache_h
+            + offs_d[None, :] * stride_v_cache_d
+            + (start_n + offs_n[:, None]) % block_size * stride_v_cache_bl
+        )
+        k_load = tl.load(
+            K_cache + off_k,
+            mask=dim_mask[:, None] & ((start_n + offs_n[None, :]) < cur_batch_ctx_len),
+            other=0.0,
+        )  # [D,N]
+
+        if k_load.dtype.is_fp8():
+            k = (k_load.to(tl.float32) * tl.load(k_scale)).to(q.dtype)
+        else:
+            k = k_load
+
+        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
+        qk = tl.dot(q, k, acc=qk, input_precision=IN_PRECISION)
+        qk = tl.where(
+            (start_n + offs_n[None, :]) < cur_batch_ctx_len, qk, float("-inf")
+        )
+        qk *= sm_scale
+
+        # load alibi
+        alibi = (
+            tl.arange(0, BLOCK_N)[None, :] + alibi_start_k - alibi_start_q[:, None]
+        ) * alibi_slope
+        alibi = tl.where(
+            (alibi <= 0) & (alibi_start_q[:, None] < cur_batch_seq_len),
+            alibi,
+            float("-inf"),
+        )
+        qk += alibi
+        alibi_start_k += BLOCK_N
+
+        # -- compute m_ij, p, l_ij
+        m_ij = tl.max(qk, 1)
+        m_i_new = tl.maximum(m_i, m_ij)
+        p = tl.math.exp(qk - m_i_new[:, None])
+        l_ij = tl.sum(p, 1)
+        # -- update m_i and l_i
+
+        alpha = tl.math.exp(m_i - m_i_new)
+        l_i_new = alpha * l_i + l_ij
+        # -- update output accumulator --
+        # scale p
+        # scale acc
+        acc_scale = alpha
+        # acc_scale = l_i / l_i_new * alpha
+        acc = acc * acc_scale[:, None]
+        # update acc
+        v_load = tl.load(
+            V_cache + off_v,
+            mask=dim_mask[None, :] & ((start_n + offs_n[:, None]) < cur_batch_ctx_len),
+            other=0.0,
+        )
+        if v_load.dtype.is_fp8():
+            v = (v_load.to(tl.float32) * tl.load(v_scale)).to(q.dtype)
+        else:
+            v = v_load
+        p = p.to(v.dtype)
+
+        acc = tl.dot(p, v, acc=acc, input_precision="ieee")
+        # update m_i and l_i
+        l_i = l_i_new
+        m_i = m_i_new
+
+    off_k = (
+        offs_n[None, :] * stride_kbs
+        + cur_kv_head * stride_kh
+        + offs_d[:, None] * stride_kd
+    )
+    off_v = (
+        offs_n[:, None] * stride_vbs
+        + cur_kv_head * stride_vh
+        + offs_d[None, :] * stride_vd
+    )
+    k_ptrs = K + off_k
+    v_ptrs = V + off_v
+
+    block_mask = tl.where(block_start_loc < cur_batch_seq_len - cur_batch_ctx_len, 1, 0)
+
+    # init alibi
+    alibi_slope = tl.load(Alibi_slopes + cur_head)
+    alibi_start_q = tl.arange(0, BLOCK_M) + block_start_loc + cur_batch_ctx_len
+    alibi_start_k = cur_batch_ctx_len
+    # # init debugger
+    # offset_db_q = tl.arange(0, BLOCK_M) + block_start_loc
+    # offset_db_k = tl.arange(0, BLOCK_N)
+    # calc q[BLOCK_M, BLOCK_MODEL] mul k[prefix_len: , BLOCK_DMODEL]
+    for start_n in range(0, block_mask * (start_m + 1) * BLOCK_M, BLOCK_N):
+        start_n = tl.multiple_of(start_n, BLOCK_N)
+        # -- compute qk ----
+        k = tl.load(
+            k_ptrs + (cur_batch_in_all_start_index + start_n) * stride_kbs,
+            mask=dim_mask[:, None]
+            & ((start_n + offs_n[None, :]) < cur_batch_seq_len - cur_batch_ctx_len),
+            other=0.0,
+        )
+
+        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
+        qk = tl.dot(q, k, acc=qk, input_precision="ieee")
+        qk *= sm_scale
+        qk = tl.where(offs_m[:, None] >= (start_n + offs_n[None, :]), qk, float("-inf"))
+
+        # load alibi
+        alibi = (
+            tl.arange(0, BLOCK_N)[None, :] + alibi_start_k - alibi_start_q[:, None]
+        ) * alibi_slope
+        alibi = tl.where(
+            (alibi <= 0) & (alibi_start_q[:, None] < cur_batch_seq_len),
+            alibi,
+            float("-inf"),
+        )
+        qk += alibi
+        alibi_start_k += BLOCK_N
+
+        # -- compute m_ij, p, l_ij
+        m_ij = tl.max(qk, 1)
+        m_i_new = tl.maximum(m_i, m_ij)
+        p = tl.math.exp(qk - m_i_new[:, None])
+        l_ij = tl.sum(p, 1)
+        # -- update m_i and l_i
+
+        alpha = tl.math.exp(m_i - m_i_new)
+        l_i_new = alpha * l_i + l_ij
+        # -- update output accumulator --
+        # scale p
+        # scale acc
+        acc_scale = alpha
+        # acc_scale = l_i / l_i_new * alpha
+        acc = acc * acc_scale[:, None]
+        # update acc
+        v = tl.load(
+            v_ptrs + (cur_batch_in_all_start_index + start_n) * stride_vbs,
+            mask=dim_mask[None, :]
+            & ((start_n + offs_n[:, None]) < cur_batch_seq_len - cur_batch_ctx_len),
+            other=0.0,
+        )
+        p = p.to(v.dtype)
+
+        acc = tl.dot(p, v, acc=acc, input_precision="ieee")
+        # update m_i and l_i
+        l_i = l_i_new
+        m_i = m_i_new
+
+    acc = acc / l_i[:, None]
+
+    # initialize pointers to output
+    off_o = (
+        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_obs
+        + cur_head * stride_oh
+        + offs_d[None, :] * stride_od
+    )
+    out_ptrs = Out + off_o
+    tl.store(
+        out_ptrs,
+        acc,
+        mask=dim_mask[None, :]
+        & (offs_m[:, None] < cur_batch_seq_len - cur_batch_ctx_len),
+    )
+    return
+
+
+@torch.inference_mode()
+def context_attention_fwd(
+    q,
+    k,
+    v,
+    o,
+    kv_cache_dtype: str,
+    k_cache,
+    v_cache,
+    b_loc,
+    b_start_loc,
+    b_seq_len,
+    max_seq_len,
+    max_input_len,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+    alibi_slopes=None,
+    sliding_window=None,
+    sm_scale=None,
+    skip_decode=False,
+    fp8_out_scale=None,
+    sinks=None,
+):
+    q_dtype_is_f32 = q.dtype is torch.float32
+
+    # Turing does have tensor core for float32 multiplication
+    # use ieee as fallback for triton kernels work. There is also
+    # warning on vllm/config.py to inform users this fallback
+    # implementation
+    IN_PRECISION = "ieee" if IS_TURING and q_dtype_is_f32 else None
+
+    # Conversion of FP8 Tensor from uint8 storage to
+    # appropriate torch.dtype for interpretation by Triton
+    if "fp8" in kv_cache_dtype:
+        assert k_cache.dtype in [torch.uint8, current_platform.fp8_dtype()]
+        assert v_cache.dtype in [torch.uint8, current_platform.fp8_dtype()]
+
+        if kv_cache_dtype in ("fp8", "fp8_e4m3"):
+            target_dtype = current_platform.fp8_dtype()
+        elif kv_cache_dtype == "fp8_e5m2":
+            target_dtype = torch.float8_e5m2
+        else:
+            raise ValueError("Unsupported FP8 dtype:", kv_cache_dtype)
+
+        k_cache = k_cache.view(target_dtype)
+        v_cache = v_cache.view(target_dtype)
+
+    if (
+        k_cache.dtype == torch.uint8
+        or v_cache.dtype == torch.uint8
+        and kv_cache_dtype == "auto"
+    ):
+        raise ValueError(
+            "kv_cache_dtype='auto' unsupported for\
+            FP8 KV Cache prefill kernel"
+        )
+
+    # shape constraints
+    Lq, Lk, Lv = q.shape[-1], k.shape[-1], v.shape[-1]
+    assert Lq == Lk and Lk == Lv
+    # round up Lk to a power of 2 - this is required for Triton block size
+    Lk_padded = triton.next_power_of_2(Lk)
+
+    if sm_scale is None:
+        sm_scale = 1.0 / (Lq**0.5)
+    batch, head = b_seq_len.shape[0], q.shape[1]
+    num_queries_per_kv = q.shape[1] // k.shape[1]
+
+    assert batch + 1 == len(b_start_loc)
+
+    # 0 means "disable"
+    if sliding_window is None or sliding_window <= 0:
+        sliding_window = 0
+
+    if alibi_slopes is not None:
+        assert sinks is None, "Sinks arg is not supported with alibi"
+        assert fp8_out_scale is None, "FP8 output not supported with alibi"
+        # need to reduce num. blocks when using fp32
+        # due to increased use of GPU shared memory
+        # if q.dtype is torch.float32:
+        BLOCK = BASE_BLOCK // 2 if q_dtype_is_f32 else BASE_BLOCK
+        # batch, head,
+        grid = (batch, head, triton.cdiv(max_input_len, BLOCK))
+        _fwd_kernel_alibi[grid](
+            q,
+            k,
+            v,
+            k_cache,
+            v_cache,
+            b_loc,
+            sm_scale,
+            k_scale,
+            v_scale,
+            b_start_loc,
+            b_seq_len,
+            alibi_slopes,
+            v_cache.shape[3],
+            k_cache.shape[4],
+            o,
+            b_loc.stride(0),
+            b_loc.stride(1),
+            q.stride(0),
+            q.stride(1),
+            q.stride(2),
+            k.stride(0),
+            k.stride(1),
+            k.stride(2),
+            v.stride(0),
+            v.stride(1),
+            v.stride(2),
+            o.stride(0),
+            o.stride(1),
+            o.stride(2),
+            k_cache.stride(0),
+            k_cache.stride(1),
+            k_cache.stride(2),
+            k_cache.stride(3),
+            k_cache.stride(4),  # [num_blocks, num_kv_heads, head_size/x, block_size, x]
+            v_cache.stride(0),
+            v_cache.stride(1),
+            v_cache.stride(2),
+            v_cache.stride(3),  # [num_blocks, num_kv_heads, head_size, block_size]
+            num_queries_per_kv=num_queries_per_kv,
+            IN_PRECISION=IN_PRECISION,
+            BLOCK_M=BLOCK,
+            BLOCK_DMODEL=Lk,
+            BLOCK_DMODEL_PADDED=Lk_padded,
+            BLOCK_N=BLOCK,
+            SKIP_DECODE=skip_decode,
+            num_warps=NUM_WARPS,
+            num_stages=1,
+        )
+        return
+
+    max_seq_len = 0 if max_seq_len is None else max_seq_len
+    extra_kargs = {}
+    if current_platform.is_rocm():
+        extra_kargs = {"kpack": 1, "waves_per_eu": 2}
+
+    grid = lambda META: (batch, head, triton.cdiv(max_input_len, META["BLOCK_M"]))
+    _fwd_kernel[grid](
+        q,
+        k,
+        v,
+        k_cache,
+        v_cache,
+        sinks,
+        b_loc,
+        sm_scale,
+        k_scale,
+        v_scale,
+        1.0 / fp8_out_scale if fp8_out_scale is not None else 1.0,
+        b_start_loc,
+        b_seq_len,
+        k_cache.shape[4],
+        o,
+        b_loc.stride(0),
+        b_loc.stride(1),
+        q.stride(0),
+        q.stride(1),
+        q.stride(2),
+        k.stride(0),
+        k.stride(1),
+        k.stride(2),
+        v.stride(0),
+        v.stride(1),
+        v.stride(2),
+        o.stride(0),
+        o.stride(1),
+        o.stride(2),
+        k_cache.stride(0),
+        k_cache.stride(1),
+        k_cache.stride(2),
+        k_cache.stride(3),
+        k_cache.stride(4),  # [num_blocks, num_kv_heads, head_size/x, block_size, x]
+        v_cache.stride(0),
+        v_cache.stride(1),
+        v_cache.stride(2),
+        v_cache.stride(3),  # [num_blocks, num_kv_heads, head_size, block_size]
+        BLOCK_SIZE=v_cache.shape[3],
+        num_queries_per_kv=num_queries_per_kv,
+        IN_PRECISION=IN_PRECISION,
+        BLOCK_DMODEL=Lk,
+        BLOCK_DMODEL_PADDED=Lk_padded,
+        SLIDING_WINDOW=sliding_window,
+        SKIP_DECODE=skip_decode,
+        USE_FP8=fp8_out_scale is not None,
+        BLOCK_M=128,
+        BLOCK_N=64,
+        num_unroll_cache=4,
+        num_unroll_request=1,
+        num_warps=4,
+        num_stages=1,
+        USE_SINKS=sinks is not None,
+        **extra_kargs,
+    )
+    return
diff --git a/attention/ops/rocm_aiter_paged_attn.py b/attention/ops/rocm_aiter_paged_attn.py
new file mode 100644
index 0000000..bcd1e2c
--- /dev/null
+++ b/attention/ops/rocm_aiter_paged_attn.py
@@ -0,0 +1,123 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import aiter as rocm_aiter
+import torch
+
+from vllm.attention.ops.paged_attn import PagedAttention
+from vllm.platforms import current_platform
+from vllm.utils.math_utils import cdiv
+
+FP8_DTYPE = current_platform.fp8_dtype()
+
+
+class AITERPagedAttention(PagedAttention):
+    @staticmethod
+    def write_to_paged_cache(
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache_dtype: str,
+        k_scale: torch.Tensor,
+        v_scale: torch.Tensor,
+    ) -> None:
+        if kv_cache_dtype not in ["int8", "fp8", "fp8_e4m3"]:
+            PagedAttention.write_to_paged_cache(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                slot_mapping,
+                kv_cache_dtype,
+                k_scale,
+                v_scale,
+            )
+        else:
+            kv_cache_torch_dtype = FP8_DTYPE if "fp8" in kv_cache_dtype else torch.int8
+            key_cache = key_cache.view(kv_cache_torch_dtype)
+            value_cache = value_cache.view(kv_cache_torch_dtype)
+
+            rocm_aiter.reshape_and_cache_with_pertoken_quant(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                k_scale,
+                v_scale,
+                slot_mapping.flatten(),
+                True,
+            )
+
+    @staticmethod
+    def forward_decode(
+        query: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        block_tables: torch.Tensor,
+        seq_lens: torch.Tensor,
+        max_seq_len: int,
+        kv_cache_dtype: str,
+        num_kv_heads: int,
+        scale: float,
+        alibi_slopes: torch.Tensor | None,
+        k_scale: torch.Tensor,
+        v_scale: torch.Tensor,
+        tp_rank: int = 0,
+        blocksparse_local_blocks: int = 0,
+        blocksparse_vert_stride: int = 0,
+        blocksparse_block_size: int = 64,
+        blocksparse_head_sliding_step: int = 0,
+    ) -> torch.Tensor:
+        if kv_cache_dtype not in ["int8", "fp8", "fp8_e4m3"]:
+            return PagedAttention.forward_decode(
+                query=query,
+                key_cache=key_cache,
+                value_cache=value_cache,
+                block_tables=block_tables,
+                seq_lens=seq_lens,
+                max_seq_len=max_seq_len,
+                kv_cache_dtype=kv_cache_dtype,
+                num_kv_heads=num_kv_heads,
+                scale=scale,
+                alibi_slopes=alibi_slopes,
+                k_scale=k_scale,
+                v_scale=v_scale,
+                tp_rank=tp_rank,
+                blocksparse_local_blocks=blocksparse_local_blocks,
+                blocksparse_vert_stride=blocksparse_vert_stride,
+                blocksparse_block_size=blocksparse_block_size,
+                blocksparse_head_sliding_step=blocksparse_head_sliding_step,
+            )
+
+        if "fp8" in kv_cache_dtype:
+            key_cache = key_cache.view(current_platform.fp8_dtype())
+            value_cache = value_cache.view(current_platform.fp8_dtype())
+
+        if blocksparse_vert_stride is not None and blocksparse_vert_stride > 1:
+            # use blocksparse paged attention
+            block_size = value_cache.size(-1)
+            assert (
+                blocksparse_block_size > 0 and blocksparse_block_size % block_size == 0
+            ), (
+                f"{blocksparse_block_size=} needs to be a multiple of"
+                f"{block_size=} used in block_tables."
+            )
+
+        output = torch.empty_like(query)
+        block_size = value_cache.shape[3]
+        max_num_blocks_per_seq = cdiv(max_seq_len, block_size)
+
+        rocm_aiter.pa_fwd_asm(
+            query,
+            key_cache,
+            value_cache,
+            block_tables,
+            seq_lens,
+            max_num_blocks_per_seq,
+            k_scale,
+            v_scale,
+            output,
+        )
+        return output
diff --git a/attention/ops/triton_decode_attention.py b/attention/ops/triton_decode_attention.py
new file mode 100644
index 0000000..aebc2e6
--- /dev/null
+++ b/attention/ops/triton_decode_attention.py
@@ -0,0 +1,712 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/sgl-project/sglang/blob/9f635ea50de920aa507f486daafba26a5b837574/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
+# which was originally adapted from
+# https://github.com/ModelTC/lightllm/blob/96353e868a840db4d103138caf15ed9dbea8c186/lightllm/models/deepseek2/triton_kernel/gqa_flash_decoding_stage1.py
+# https://github.com/ModelTC/lightllm/blob/96353e868a840db4d103138caf15ed9dbea8c186/lightllm/models/deepseek2/triton_kernel/gqa_flash_decoding_stage2.py
+
+# Changes:
+# - Add support for page size >= 1.
+
+# Copyright 2025 vLLM Team
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""
+Memory-efficient attention for decoding.
+It supports page size >= 1.
+"""
+
+import logging
+
+from packaging import version
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+is_hip_ = current_platform.is_rocm()
+
+logger = logging.getLogger(__name__)
+
+# Only print the following warnings when triton version < 3.2.0.
+# The issue won't affect performance or accuracy.
+if version.parse(triton.__version__) < version.parse("3.2.0"):
+    logger.warning(
+        "The following error message 'operation scheduled before its operands' "
+        "can be ignored."
+    )
+
+
+@triton.jit
+def tanh(x):
+    # Tanh is just a scaled sigmoid
+    return 2 * tl.sigmoid(2 * x) - 1
+
+
+@triton.jit
+def _fwd_kernel_stage1(
+    Q,
+    K_Buffer,
+    V_Buffer,
+    sm_scale,
+    Req_to_tokens,
+    B_Seqlen,
+    Att_Out,
+    stride_req_to_tokens_b,
+    stride_qbs,
+    stride_qh,
+    stride_buf_kbs,
+    stride_buf_kh,
+    stride_buf_vbs,
+    stride_buf_vh,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    kv_group_num: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+    BLOCK_DV: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    NUM_KV_SPLITS: tl.constexpr,
+    PAGE_SIZE: tl.constexpr,
+    logit_cap: tl.constexpr,
+    Lk: tl.constexpr,
+    Lv: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    split_kv_id = tl.program_id(2)
+
+    cur_kv_head = cur_head // kv_group_num
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    offs_dv = tl.arange(0, BLOCK_DV)
+    mask_d = offs_d < Lk
+    mask_dv = offs_dv < Lv
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
+    cur_batch_req_idx = cur_batch
+
+    off_q = cur_batch * stride_qbs + cur_head * stride_qh + offs_d
+    q = tl.load(Q + off_q, mask=mask_d, other=0.0)
+
+    kv_len_per_split = tl.cdiv(cur_batch_seq_len, NUM_KV_SPLITS)
+    split_kv_start = kv_len_per_split * split_kv_id
+    split_kv_end = tl.minimum(split_kv_start + kv_len_per_split, cur_batch_seq_len)
+
+    e_max = -float("inf")
+    e_sum = 0.0
+    acc = tl.zeros([BLOCK_DV], dtype=tl.float32)
+
+    if split_kv_end > split_kv_start:
+        for start_n in range(split_kv_start, split_kv_end, BLOCK_N):
+            offs_n = start_n + tl.arange(0, BLOCK_N)
+            kv_page_number = tl.load(
+                Req_to_tokens
+                + stride_req_to_tokens_b * cur_batch_req_idx
+                + offs_n // PAGE_SIZE,
+                mask=offs_n < split_kv_end,
+                other=0,
+            )
+            kv_loc = kv_page_number * PAGE_SIZE + offs_n % PAGE_SIZE
+            offs_buf_k = (
+                kv_loc[:, None] * stride_buf_kbs
+                + cur_kv_head * stride_buf_kh
+                + offs_d[None, :]
+            )
+            k = tl.load(
+                K_Buffer + offs_buf_k,
+                mask=(offs_n[:, None] < split_kv_end) & (mask_d[None, :]),
+                other=0.0,
+            )
+            qk = tl.sum(q[None, :] * k, 1)
+            qk *= sm_scale
+
+            if logit_cap > 0:
+                qk = logit_cap * tanh(qk / logit_cap)
+
+            qk = tl.where(offs_n < split_kv_end, qk, float("-inf"))
+
+            offs_buf_v = (
+                kv_loc[:, None] * stride_buf_vbs
+                + cur_kv_head * stride_buf_vh
+                + offs_dv[None, :]
+            )
+            v = tl.load(
+                V_Buffer + offs_buf_v,
+                mask=(offs_n[:, None] < split_kv_end) & (mask_dv[None, :]),
+                other=0.0,
+            )
+
+            n_e_max = tl.maximum(tl.max(qk, 0), e_max)
+            re_scale = tl.exp(e_max - n_e_max)
+            p = tl.exp(qk - n_e_max)
+            acc *= re_scale
+            acc += tl.sum(p[:, None] * v, 0)
+
+            e_sum = e_sum * re_scale + tl.sum(p, 0)
+            e_max = n_e_max
+
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + split_kv_id * stride_mid_os
+            + offs_dv
+        )
+
+        tl.store(
+            Att_Out + offs_mid_o,
+            acc / e_sum,
+            mask=(mask_dv),
+        )
+
+        offs_mid_o_1 = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + split_kv_id * stride_mid_os
+            + Lv
+        )
+
+        tl.store(
+            Att_Out + offs_mid_o_1,
+            e_max + tl.log(e_sum),
+        )
+
+
+def _decode_att_m_fwd(
+    q,
+    k_buffer,
+    v_buffer,
+    att_out,
+    Req_to_tokens,
+    B_Seqlen,
+    num_kv_splits,
+    sm_scale,
+    page_size,
+    logit_cap,
+):
+    BLOCK = 64 if not is_hip_ else 8
+
+    NUM_KV_SPLITS = num_kv_splits
+    Lk = k_buffer.shape[-1]
+    Lv = v_buffer.shape[-1]
+
+    batch, head_num = q.shape[0], q.shape[1]
+
+    grid = (batch, head_num, NUM_KV_SPLITS)
+    kv_group_num = q.shape[1] // k_buffer.shape[-2]
+
+    num_warps = 4
+    if kv_group_num != 1:
+        num_warps = 1 if is_hip_ else 2
+
+    BLOCK_DMODEL = triton.next_power_of_2(Lk)
+    BLOCK_DV = triton.next_power_of_2(Lv)
+
+    _fwd_kernel_stage1[grid](
+        q,
+        k_buffer,
+        v_buffer,
+        sm_scale,
+        Req_to_tokens,
+        B_Seqlen,
+        att_out,
+        Req_to_tokens.stride(0),
+        q.stride(0),
+        q.stride(1),
+        k_buffer.stride(-3),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        k_buffer.stride(-2),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        v_buffer.stride(-3),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        v_buffer.stride(-2),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        att_out.stride(0),
+        att_out.stride(1),
+        att_out.stride(2),
+        kv_group_num=kv_group_num,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        BLOCK_DV=BLOCK_DV,
+        BLOCK_N=BLOCK,
+        NUM_KV_SPLITS=NUM_KV_SPLITS,
+        PAGE_SIZE=page_size,
+        logit_cap=logit_cap,
+        num_warps=num_warps,
+        num_stages=2,
+        Lk=Lk,
+        Lv=Lv,
+    )
+
+
+@triton.jit
+def _fwd_grouped_kernel_stage1(
+    Q,
+    K_Buffer,
+    V_Buffer,
+    sm_scale,
+    Req_to_tokens,
+    B_Seqlen,
+    Att_Out,
+    stride_req_to_tokens_b,
+    stride_qbs,
+    stride_qh,
+    stride_buf_kbs,
+    stride_buf_kh,
+    stride_buf_vbs,
+    stride_buf_vh,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    kv_group_num: tl.constexpr,
+    q_head_num: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+    BLOCK_DPE: tl.constexpr,
+    BLOCK_DV: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_H: tl.constexpr,
+    NUM_KV_SPLITS: tl.constexpr,
+    PAGE_SIZE: tl.constexpr,
+    logit_cap: tl.constexpr,
+    Lk: tl.constexpr,
+    Lv: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head_id = tl.program_id(1)
+    cur_kv_head = cur_head_id // tl.cdiv(kv_group_num, BLOCK_H)
+    split_kv_id = tl.program_id(2)
+
+    if kv_group_num > BLOCK_H:
+        VALID_BLOCK_H: tl.constexpr = BLOCK_H
+    else:
+        VALID_BLOCK_H: tl.constexpr = kv_group_num
+    cur_head = cur_head_id * VALID_BLOCK_H + tl.arange(0, BLOCK_H)
+    mask_h = cur_head < (cur_head_id + 1) * VALID_BLOCK_H
+    mask_h = mask_h & (cur_head < q_head_num)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    offs_dv = tl.arange(0, BLOCK_DV)
+    mask_d = offs_d < Lk
+    mask_dv = offs_dv < Lv
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
+    cur_batch_req_idx = cur_batch
+
+    offs_q = cur_batch * stride_qbs + cur_head[:, None] * stride_qh + offs_d[None, :]
+    q = tl.load(Q + offs_q, mask=(mask_h[:, None]) & (mask_d[None, :]), other=0.0)
+
+    if BLOCK_DPE > 0:
+        offs_dpe = BLOCK_DMODEL + tl.arange(0, BLOCK_DPE)
+        mask_dpe = offs_dpe < Lk
+        off_qpe = (
+            cur_batch * stride_qbs + cur_head[:, None] * stride_qh + offs_dpe[None, :]
+        )
+        qpe = tl.load(
+            Q + off_qpe, mask=(mask_h[:, None]) & (mask_dpe[None, :]), other=0.0
+        )
+
+    kv_len_per_split = tl.cdiv(cur_batch_seq_len, NUM_KV_SPLITS)
+    split_kv_start = kv_len_per_split * split_kv_id
+    split_kv_end = tl.minimum(split_kv_start + kv_len_per_split, cur_batch_seq_len)
+
+    e_max = tl.zeros([BLOCK_H], dtype=tl.float32) - float("inf")
+    e_sum = tl.zeros([BLOCK_H], dtype=tl.float32)
+    acc = tl.zeros([BLOCK_H, BLOCK_DV], dtype=tl.float32)
+
+    if split_kv_end > split_kv_start:
+        for start_n in range(split_kv_start, split_kv_end, BLOCK_N):
+            offs_n = start_n + tl.arange(0, BLOCK_N)
+            kv_page_number = tl.load(
+                Req_to_tokens
+                + stride_req_to_tokens_b * cur_batch_req_idx
+                + offs_n // PAGE_SIZE,
+                mask=offs_n < split_kv_end,
+                other=0,
+            )
+            kv_loc = kv_page_number * PAGE_SIZE + offs_n % PAGE_SIZE
+            offs_buf_k = (
+                kv_loc[None, :] * stride_buf_kbs
+                + cur_kv_head * stride_buf_kh
+                + offs_d[:, None]
+            )
+            k = tl.load(
+                K_Buffer + offs_buf_k,
+                mask=(offs_n[None, :] < split_kv_end) & (mask_d[:, None]),
+                other=0.0,
+            )
+            qk = tl.dot(q, k.to(q.dtype))
+            if BLOCK_DPE > 0:
+                offs_buf_kpe = (
+                    kv_loc[None, :] * stride_buf_kbs
+                    + cur_kv_head * stride_buf_kh
+                    + offs_dpe[:, None]
+                )
+                kpe = tl.load(
+                    K_Buffer + offs_buf_kpe,
+                    mask=(offs_n[None, :] < split_kv_end) & (mask_dpe[:, None]),
+                    other=0.0,
+                )
+                qk += tl.dot(qpe, kpe.to(qpe.dtype))
+            qk *= sm_scale
+
+            if logit_cap > 0:
+                qk = logit_cap * tanh(qk / logit_cap)
+
+            qk = tl.where(
+                mask_h[:, None] & (offs_n[None, :] < split_kv_end), qk, float("-inf")
+            )
+
+            offs_buf_v = (
+                kv_loc[:, None] * stride_buf_vbs
+                + cur_kv_head * stride_buf_vh
+                + offs_dv[None, :]
+            )
+            v = tl.load(
+                V_Buffer + offs_buf_v,
+                mask=(offs_n[:, None] < split_kv_end) & (mask_dv[None, :]),
+                other=0.0,
+            )
+
+            n_e_max = tl.maximum(tl.max(qk, 1), e_max)
+            re_scale = tl.exp(e_max - n_e_max)
+            p = tl.exp(qk - n_e_max[:, None])
+            acc *= re_scale[:, None]
+            acc += tl.dot(p.to(v.dtype), v)
+
+            e_sum = e_sum * re_scale + tl.sum(p, 1)
+            e_max = n_e_max
+
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head[:, None] * stride_mid_oh
+            + split_kv_id * stride_mid_os
+            + offs_dv[None, :]
+        )
+
+        tl.store(
+            Att_Out + offs_mid_o,
+            acc / e_sum[:, None],
+            mask=(mask_h[:, None]) & (mask_dv[None, :]),
+        )
+
+        offs_mid_o_1 = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + split_kv_id * stride_mid_os
+            + Lv
+        )
+
+        tl.store(
+            Att_Out + offs_mid_o_1,
+            e_max + tl.log(e_sum),
+            mask=mask_h,
+        )
+
+
+def _decode_grouped_att_m_fwd(
+    q,
+    k_buffer,
+    v_buffer,
+    att_out,
+    Req_to_tokens,
+    B_Seqlen,
+    num_kv_splits,
+    sm_scale,
+    page_size,
+    logit_cap,
+):
+    BLOCK = 32
+    Lk = k_buffer.shape[-1]
+    Lv = v_buffer.shape[-1]
+
+    # [TODO] work around shmem limit on MI3xx
+    if is_hip_ and Lk >= 576:
+        BLOCK = 16
+
+    if Lk == 576:
+        BLOCK_DMODEL = 512
+        BLOCK_DPE = 64
+    elif Lk == 288:
+        BLOCK_DMODEL = 256
+        BLOCK_DPE = 32
+    else:
+        BLOCK_DMODEL = triton.next_power_of_2(Lk)
+        BLOCK_DPE = 0
+    BLOCK_DV = triton.next_power_of_2(Lv)
+
+    batch, head_num = q.shape[0], q.shape[1]
+    kv_group_num = q.shape[1] // k_buffer.shape[-2]
+
+    BLOCK_H = 16
+    NUM_KV_SPLITS = num_kv_splits
+    grid = (
+        batch,
+        triton.cdiv(head_num, min(BLOCK_H, kv_group_num)),
+        NUM_KV_SPLITS,
+    )
+
+    extra_kargs = {}
+    num_stages = 2
+    if is_hip_:
+        # https://rocm.docs.amd.com/en/latest/how-to/rocm-for-ai/inference-optimization/workload.html#mi300x-triton-kernel-performance-optimization
+        # https://github.com/triton-lang/triton/blob/main/third_party/amd/backend/compiler.py
+        extra_kargs = {"waves_per_eu": 1, "matrix_instr_nonkdim": 16, "kpack": 2}
+        num_stages = 1
+
+    _fwd_grouped_kernel_stage1[grid](
+        q,
+        k_buffer,
+        v_buffer,
+        sm_scale,
+        Req_to_tokens,
+        B_Seqlen,
+        att_out,
+        Req_to_tokens.stride(0),
+        q.stride(0),
+        q.stride(1),
+        k_buffer.stride(-3),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        k_buffer.stride(-2),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        v_buffer.stride(-3),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        v_buffer.stride(-2),  # Assume (..., PAGE_SIZE, NUM_HEADS, HEAD_DIM)
+        att_out.stride(0),
+        att_out.stride(1),
+        att_out.stride(2),
+        kv_group_num=kv_group_num,
+        q_head_num=head_num,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        BLOCK_DPE=BLOCK_DPE,
+        BLOCK_DV=BLOCK_DV,
+        BLOCK_N=BLOCK,
+        BLOCK_H=BLOCK_H,
+        NUM_KV_SPLITS=NUM_KV_SPLITS,
+        PAGE_SIZE=page_size,
+        logit_cap=logit_cap,
+        num_warps=4,
+        num_stages=num_stages,
+        Lk=Lk,
+        Lv=Lv,
+        **extra_kargs,
+    )
+
+
+@triton.jit
+def _fwd_kernel_stage2(
+    Mid_O,
+    o,
+    lse,
+    B_Seqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_obs,
+    stride_oh,
+    stride_lse_bs,
+    NUM_KV_SPLITS: tl.constexpr,
+    BLOCK_DV: tl.constexpr,
+    Lv: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
+
+    offs_d = tl.arange(0, BLOCK_DV)
+    mask_d = offs_d < Lv
+
+    e_sum = 0.0
+    e_max = -float("inf")
+    acc = tl.zeros([BLOCK_DV], dtype=tl.float32)
+
+    offs_v = cur_batch * stride_mid_ob + cur_head * stride_mid_oh + offs_d
+    offs_logic = cur_batch * stride_mid_ob + cur_head * stride_mid_oh + Lv
+
+    for split_kv_id in range(0, NUM_KV_SPLITS):
+        kv_len_per_split = tl.cdiv(cur_batch_seq_len, NUM_KV_SPLITS)
+        split_kv_start = kv_len_per_split * split_kv_id
+        split_kv_end = tl.minimum(split_kv_start + kv_len_per_split, cur_batch_seq_len)
+
+        if split_kv_end > split_kv_start:
+            tv = tl.load(
+                Mid_O + offs_v + split_kv_id * stride_mid_os, mask=mask_d, other=0.0
+            )
+            tlogic = tl.load(Mid_O + offs_logic + split_kv_id * stride_mid_os)
+            n_e_max = tl.maximum(tlogic, e_max)
+
+            old_scale = tl.exp(e_max - n_e_max)
+            acc *= old_scale
+            exp_logic = tl.exp(tlogic - n_e_max)
+            acc += exp_logic * tv
+
+            e_sum = e_sum * old_scale + exp_logic
+            e_max = n_e_max
+
+    tl.store(
+        o + cur_batch * stride_obs + cur_head * stride_oh + offs_d,
+        acc / e_sum,
+        mask=mask_d,
+    )
+    lse_val = e_max + tl.log(e_sum)
+    tl.store(
+        lse + cur_batch * stride_lse_bs + cur_head,
+        lse_val,
+    )
+
+
+def _decode_softmax_reducev_fwd(
+    logits,
+    q,
+    o,
+    lse,
+    v_buffer,
+    b_seq_len,
+    num_kv_splits,
+):
+    batch, head_num = q.shape[0], q.shape[1]
+    Lv = v_buffer.shape[-1]
+    BLOCK_DV = triton.next_power_of_2(Lv)
+
+    NUM_KV_SPLITS = num_kv_splits
+
+    extra_kargs = {}
+    if is_hip_:
+        # https://rocm.docs.amd.com/en/docs-6.2.0/how-to/llm-fine-tuning-optimization/optimizing-triton-kernel.html
+        # https://github.com/triton-lang/triton/blob/main/third_party/amd/backend/compiler.py
+        extra_kargs = {"waves_per_eu": 4, "matrix_instr_nonkdim": 16, "kpack": 2}
+
+    grid = (batch, head_num)
+    _fwd_kernel_stage2[grid](
+        logits,
+        o,
+        lse,
+        b_seq_len,
+        logits.stride(0),
+        logits.stride(1),
+        logits.stride(2),
+        o.stride(0),
+        o.stride(1),
+        lse.stride(0),
+        NUM_KV_SPLITS=NUM_KV_SPLITS,
+        BLOCK_DV=BLOCK_DV,
+        Lv=Lv,
+        num_warps=4,
+        num_stages=2,
+        **extra_kargs,
+    )
+
+
+def decode_attention_fwd_normal(
+    q,
+    k_buffer,
+    v_buffer,
+    o,
+    lse,
+    req_to_token,
+    b_seq_len,
+    attn_logits,
+    num_kv_splits,
+    sm_scale,
+    page_size,
+    logit_cap=0.0,
+):
+    _decode_att_m_fwd(
+        q,
+        k_buffer,
+        v_buffer,
+        attn_logits,
+        req_to_token,
+        b_seq_len,
+        num_kv_splits,
+        sm_scale,
+        page_size,
+        logit_cap,
+    )
+    _decode_softmax_reducev_fwd(
+        attn_logits, q, o, lse, v_buffer, b_seq_len, num_kv_splits
+    )
+
+
+def decode_attention_fwd_grouped(
+    q,
+    k_buffer,
+    v_buffer,
+    o,
+    lse,
+    req_to_token,
+    b_seq_len,
+    attn_logits,
+    num_kv_splits,
+    sm_scale,
+    page_size,
+    logit_cap=0.0,
+):
+    _decode_grouped_att_m_fwd(
+        q,
+        k_buffer,
+        v_buffer,
+        attn_logits,
+        req_to_token,
+        b_seq_len,
+        num_kv_splits,
+        sm_scale,
+        page_size,
+        logit_cap,
+    )
+    _decode_softmax_reducev_fwd(
+        attn_logits, q, o, lse, v_buffer, b_seq_len, num_kv_splits
+    )
+
+
+def decode_attention_fwd(
+    q,
+    k_buffer,
+    v_buffer,
+    o,
+    lse,
+    req_to_token,
+    b_seq_len,
+    attn_logits,
+    num_kv_splits,
+    sm_scale,
+    page_size=1,
+    logit_cap=0.0,
+):
+    assert num_kv_splits == attn_logits.shape[2]
+    kv_group_num = q.shape[1] // v_buffer.shape[-2]
+
+    if kv_group_num == 1:
+        # MHA
+        decode_attention_fwd_normal(
+            q,
+            k_buffer,
+            v_buffer,
+            o,
+            lse,
+            req_to_token,
+            b_seq_len,
+            attn_logits,
+            num_kv_splits,
+            sm_scale,
+            page_size,
+            logit_cap,
+        )
+    else:
+        # GQA/MQA/MLA
+        decode_attention_fwd_grouped(
+            q,
+            k_buffer,
+            v_buffer,
+            o,
+            lse,
+            req_to_token,
+            b_seq_len,
+            attn_logits,
+            num_kv_splits,
+            sm_scale,
+            page_size,
+            logit_cap,
+        )
diff --git a/attention/ops/triton_merge_attn_states.py b/attention/ops/triton_merge_attn_states.py
new file mode 100644
index 0000000..3c87a24
--- /dev/null
+++ b/attention/ops/triton_merge_attn_states.py
@@ -0,0 +1,105 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+
+# Implements section 2.2 of https://www.arxiv.org/pdf/2501.01005
+# can be used to combine partial attention results (in the split-KV case)
+def merge_attn_states(
+    output: torch.Tensor,
+    prefix_output: torch.Tensor,
+    prefix_lse: torch.Tensor,
+    suffix_output: torch.Tensor,
+    suffix_lse: torch.Tensor,
+    output_lse: torch.Tensor | None = None,
+) -> None:
+    num_tokens = output.shape[0]
+    num_query_heads = output.shape[1]
+    head_size = output.shape[2]
+    padded_head_size = triton.next_power_of_2(head_size)
+
+    # TODO(woosuk): Use CUDA kernel instead of Triton to minimize CPU overhead.
+    merge_attn_states_kernel[(num_tokens, num_query_heads)](
+        output,
+        output_lse,
+        prefix_output,
+        prefix_lse,
+        suffix_output,
+        suffix_lse,
+        head_size,
+        padded_head_size,
+        output_lse is not None,
+    )
+
+
+@triton.jit
+def merge_attn_states_kernel(
+    output,  # [NUM_TOKENS, NUM_HEADS, HEAD_SIZE]
+    output_lse,  # [NUM_HEADS, NUM_TOKENS]
+    prefix_output,  # [NUM_TOKENS, NUM_HEADS, HEAD_SIZE]
+    prefix_lse,  # [NUM_HEADS, NUM_TOKENS]
+    suffix_output,  # [NUM_TOKENS, NUM_HEADS, HEAD_SIZE]
+    suffix_lse,  # [NUM_HEADS, NUM_TOKENS]
+    HEAD_SIZE: tl.constexpr,
+    PADDED_HEAD_SIZE: tl.constexpr,
+    OUTPUT_LSE: tl.constexpr,
+):
+    token_idx = tl.program_id(0)
+    num_tokens = tl.num_programs(0)
+    head_idx = tl.program_id(1)
+    num_heads = tl.num_programs(1)
+
+    p_lse = tl.load(prefix_lse + head_idx * num_tokens + token_idx)
+    s_lse = tl.load(suffix_lse + head_idx * num_tokens + token_idx)
+
+    # FA2 and FA3 have different behavior for when the sum-exp is 0, this namely
+    # arises with 0 len seqlens. FA3 returns -inf here while FA2 returns inf.
+    # If we see an inf assume FA2 and convert inf to -inf for consistency
+    # and correctness. Inf generally doesn't make sense in this context outside
+    # of undefined-behavior/FA2-case, so I think this a safe assumption.
+    p_lse = float("-inf") if p_lse == float("inf") else p_lse
+    s_lse = float("-inf") if s_lse == float("inf") else s_lse
+
+    max_lse = tl.maximum(p_lse, s_lse)
+    p_lse = p_lse - max_lse
+    s_lse = s_lse - max_lse
+    # Will reuse precomputed Exp values for scale factor computation.
+    p_se = tl.exp(p_lse)
+    s_se = tl.exp(s_lse)
+    out_se = p_se + s_se
+
+    if OUTPUT_LSE:
+        out_lse = tl.log(out_se) + max_lse
+        tl.store(output_lse + head_idx * num_tokens + token_idx, out_lse)
+
+    head_arange = tl.arange(0, PADDED_HEAD_SIZE)
+    head_mask = head_arange < HEAD_SIZE
+    p_out = tl.load(
+        prefix_output
+        + token_idx * num_heads * HEAD_SIZE
+        + head_idx * HEAD_SIZE
+        + head_arange,
+        mask=head_mask,
+    )
+    s_out = tl.load(
+        suffix_output
+        + token_idx * num_heads * HEAD_SIZE
+        + head_idx * HEAD_SIZE
+        + head_arange,
+        mask=head_mask,
+    )
+
+    # NOTE(woosuk): Be careful with the numerical stability.
+    # We should compute the scale first, and then multiply it with the output.
+    # Do not multiply the output with tl.exp(p_lse) or tl.exp(s_lse) directly.
+    p_scale = p_se / out_se
+    s_scale = s_se / out_se
+    out = p_out * p_scale + s_out * s_scale
+    tl.store(
+        output + token_idx * num_heads * HEAD_SIZE + head_idx * HEAD_SIZE + head_arange,
+        out,
+        mask=head_mask,
+    )
diff --git a/attention/ops/triton_reshape_and_cache_flash.py b/attention/ops/triton_reshape_and_cache_flash.py
new file mode 100644
index 0000000..5d2ba15
--- /dev/null
+++ b/attention/ops/triton_reshape_and_cache_flash.py
@@ -0,0 +1,184 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def reshape_and_cache_kernel_flash(
+    key_ptr,  # [num_tokens, num_heads, head_size]
+    value_ptr,  # [num_tokens, num_heads, head_size]
+    key_cache_ptr,  # [num_blocks, block_size, num_heads, head_size]
+    value_cache_ptr,  # [num_blocks, block_size, num_heads, head_size]
+    slot_mapping_ptr,  # [num_tokens]
+    k_scale,  # float32
+    v_scale,  # float32
+    # strides
+    key_stride: tl.int64,
+    value_stride: tl.int64,
+    block_stride: tl.int64,
+    page_stride: tl.int64,
+    num_heads: tl.constexpr,
+    head_size: tl.constexpr,
+    block_size: tl.constexpr,
+    # FP8 flags
+    FP8_KV_CACHE: tl.constexpr,
+    # tune parameters
+    TILE_SIZE: tl.constexpr,
+):
+    token_idx = tl.program_id(axis=0)
+    slot_idx = tl.load(slot_mapping_ptr + token_idx).to(tl.int64)
+    if slot_idx < 0:
+        # Padding token that should be ignored.
+        return
+
+    tile_i = tl.program_id(axis=1)
+    tile_offs = tl.arange(0, TILE_SIZE)
+    tile_pos = tile_i * TILE_SIZE + tile_offs
+
+    block_idx = slot_idx // block_size
+    block_offset = slot_idx % block_size
+
+    src_key_idx = token_idx * key_stride
+    src_value_idx = token_idx * value_stride
+
+    tgt_idx = block_idx * block_stride + block_offset * page_stride
+
+    # [TILE_SIZE]
+    key_load = tl.load(
+        key_ptr + src_key_idx + tile_pos, mask=tile_pos < (num_heads * head_size)
+    )
+    if FP8_KV_CACHE:
+        # tl.store will do the correct implicit cast to fp8,
+        # based on the key_cache_ptr.dtype.element_ty
+        key_tile = key_load if key_load.dtype.is_fp8() else key_load / tl.load(k_scale)
+    else:
+        key_tile = key_load
+
+    # [TILE_SIZE]
+    value_load = tl.load(
+        value_ptr + src_value_idx + tile_pos, mask=tile_pos < (num_heads * head_size)
+    )
+    if FP8_KV_CACHE:
+        if value_load.dtype.is_fp8():
+            value_tile = value_load
+        else:
+            # tl.store will do the correct implicit cast to fp8,
+            #  based on the value_cache_ptr.dtype.element_ty
+            value_tile = value_load / tl.load(v_scale)
+    else:
+        value_tile = value_load
+
+    tl.store(
+        key_cache_ptr + tgt_idx + tile_pos,
+        key_tile,
+        mask=tile_pos < (num_heads * head_size),
+    )
+    tl.store(
+        value_cache_ptr + tgt_idx + tile_pos,
+        value_tile,
+        mask=tile_pos < (num_heads * head_size),
+    )
+    return
+
+
+def triton_reshape_and_cache_flash(
+    key: torch.Tensor,  # [num_tokens, num_heads, head_size]
+    value: torch.Tensor,  # [num_tokens, num_heads, head_size]
+    # [num_blocks, block_size, num_heads, head_size]
+    key_cache: torch.Tensor,
+    # [num_blocks, block_size, num_heads, head_size]
+    value_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,  # [num_tokens]
+    kv_cache_dtype: str,  # "auto", "fp8"
+    k_scale: torch.Tensor,  # float32
+    v_scale: torch.Tensor,  # float32
+):
+    num_heads = key.shape[1]
+    head_size = key.shape[2]
+    block_size = key_cache.shape[1]
+    n = num_heads * head_size
+
+    key_stride = key.stride()[0]
+    value_stride = value.stride()[0]
+    block_stride = key_cache.stride()[0]
+    page_stride = key_cache.stride()[1]
+
+    head_stride = key_cache.stride()[2]
+    assert head_stride == head_size, "only continous heads are supported"
+
+    assert kv_cache_dtype == "auto" or kv_cache_dtype.startswith("fp8"), (
+        f"unsupported kv_cache_dtype (str), got {kv_cache_dtype}."
+    )
+    kv_cache_torch_dtype = (
+        current_platform.fp8_dtype()
+        if kv_cache_dtype.startswith("fp8")
+        else key_cache.dtype
+    )
+
+    if key_cache.dtype != kv_cache_torch_dtype and kv_cache_dtype.startswith("fp8"):
+        # to avoid erounous implicit cast in triton kernel (tl.store to uint8)
+        # (e.g. explicit cast to fp8e4m3fnuz is not supported in triton 3.4)
+        key_cache = key_cache.view(kv_cache_torch_dtype)
+        value_cache = value_cache.view(kv_cache_torch_dtype)
+    assert kv_cache_dtype != torch.uint8, (
+        "explicit fp8 cast and store to "
+        "uint8 is not supported by triton reshape_and_cache_flash"
+    )
+
+    FP8_KV_CACHE = kv_cache_dtype.startswith("fp8")
+    assert (not FP8_KV_CACHE) or kv_cache_torch_dtype in [
+        torch.float8_e4m3fn,
+        torch.float8_e5m2,
+        torch.uint8,
+        torch.float8_e4m3fnuz,
+    ], (
+        "unsupported dtype of KV cache tensor, got "
+        "{kv_cache_torch_dtype}. Supported kv cache dtypes: fp8e4m3fn, "
+        "fp8e5m2, uint8, bfloat16, float16, float32, fp8e4m3fnuz."
+    )
+
+    # heuristics instead of autotuning
+    TILE_SIZE = min(2048, triton.next_power_of_2(n))
+    if current_platform.is_rocm() or current_platform.is_xpu():
+        num_stages = 4
+        num_warps = 8
+    else:  # cuda
+        num_stages = 10
+        num_warps = 16
+        if torch.cuda.get_device_capability(key.device)[0] < 9:
+            TILE_SIZE = min(512, TILE_SIZE)
+
+    # TODO(ngl): maybe replace with static launch grid to avoid overhead if
+    #   using cudagraphs
+    grid = lambda meta: (
+        slot_mapping.shape[0],
+        triton.cdiv(n, meta["TILE_SIZE"]),
+    )
+
+    reshape_and_cache_kernel_flash[grid](
+        key_ptr=key,
+        value_ptr=value,
+        key_cache_ptr=key_cache,
+        value_cache_ptr=value_cache,
+        slot_mapping_ptr=slot_mapping,
+        k_scale=k_scale,
+        v_scale=v_scale,
+        # strides
+        key_stride=key_stride,
+        value_stride=value_stride,
+        block_stride=block_stride,
+        page_stride=page_stride,
+        num_heads=num_heads,
+        head_size=head_size,
+        block_size=block_size,
+        # FP8 flags
+        FP8_KV_CACHE=FP8_KV_CACHE,
+        # autotune parameters
+        TILE_SIZE=TILE_SIZE,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
diff --git a/attention/ops/triton_unified_attention.py b/attention/ops/triton_unified_attention.py
new file mode 100644
index 0000000..565be1c
--- /dev/null
+++ b/attention/ops/triton_unified_attention.py
@@ -0,0 +1,941 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Authors:
+#  - Burkhard Ringlein <ngl@zurich.ibm.com>
+#  - Jan van Lunteren <jvl@zurich.ibm.com>
+#  - Chih-Chieh Yang <chih.chieh.yang@ibm.com>
+#  - Thomas Parnell <tpa@zurich.ibm.com>
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+logger = init_logger(__name__)
+float8_info = torch.finfo(current_platform.fp8_dtype())
+
+
+@triton.jit
+def cdiv_fn(x, y):
+    return (x + y - 1) // y
+
+
+@triton.jit
+def apply_softcap(S, x):
+    Sdiv = S / x
+    p1 = tl.exp(Sdiv)
+    p2 = tl.exp(-Sdiv)
+    return x * (p1 - p2) / (p1 + p2)
+
+
+@triton.jit
+def find_seq_idx(
+    query_start_len_ptr,
+    target_idx,
+    num_seqs,
+    BLOCK_Q: tl.constexpr,
+    use_q_block_mode: tl.constexpr,
+):
+    left: tl.int32 = 0
+    right = num_seqs
+    while left < right:
+        mid = (left + right) // 2
+        val = tl.load(query_start_len_ptr + mid)
+        mid_val = val // BLOCK_Q + mid if use_q_block_mode else val
+
+        if mid_val <= target_idx:
+            left = mid + 1
+        else:
+            right = mid
+
+    return left - 1
+
+
+@triton.jit
+def kernel_unified_attention_2d(
+    output_ptr,  # [num_tokens, num_query_heads, head_size]
+    query_ptr,  # [num_tokens, num_query_heads, head_size]
+    key_cache_ptr,  # [num_blks, blk_size, num_kv_heads, head_size]
+    value_cache_ptr,  # [num_blks, blk_size, num_kv_heads, head_size]
+    sink_ptr,  # [num_query_heads]
+    block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
+    seq_lens_ptr,  # [num_seqs]
+    alibi_slopes_ptr,  # [num_query_heads]
+    qq_bias_ptr,  # [num_query_tokens, num_query_tokens]
+    scale,  # float32
+    k_scale,  # float32
+    v_scale,  # float32
+    out_scale,  # float32
+    softcap,  # float32
+    num_query_heads: tl.constexpr,  # int
+    num_queries_per_kv: tl.constexpr,  # int
+    block_table_stride: tl.int64,  # int
+    query_stride_0: tl.int64,  # int
+    query_stride_1: tl.int64,  # int, should be equal to head_size
+    output_stride_0: tl.int64,  # int
+    output_stride_1: tl.int64,  # int, should be equal to head_size
+    qq_bias_stride_0: tl.int64,  # int
+    BLOCK_SIZE: tl.constexpr,  # int
+    TILE_SIZE: tl.constexpr,  # int must be power of 2
+    HEAD_SIZE: tl.constexpr,  # int
+    HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
+    USE_ALIBI_SLOPES: tl.constexpr,  # bool
+    USE_QQ_BIAS: tl.constexpr,  # bool
+    USE_SOFTCAP: tl.constexpr,  # bool
+    USE_SINKS: tl.constexpr,  # bool
+    SLIDING_WINDOW: tl.constexpr,  # int
+    stride_k_cache_0: tl.int64,  # int
+    stride_k_cache_1: tl.int64,  # int
+    stride_k_cache_2: tl.int64,  # int
+    stride_k_cache_3: tl.constexpr,  # int
+    stride_v_cache_0: tl.int64,  # int
+    stride_v_cache_1: tl.int64,  # int
+    stride_v_cache_2: tl.int64,  # int
+    stride_v_cache_3: tl.constexpr,  # int
+    query_start_len_ptr,  # [num_seqs+1]
+    BLOCK_Q: tl.constexpr,  # int
+    num_seqs: tl.int32,
+    BLOCK_M: tl.constexpr,  # int
+    USE_FP8: tl.constexpr,  # bool
+    FP8_MIN: tl.constexpr = float8_info.min,
+    FP8_MAX: tl.constexpr = float8_info.max,
+):
+    q_block_global_idx = tl.program_id(0)
+    kv_head_idx = tl.program_id(1)
+
+    seq_idx = find_seq_idx(
+        query_start_len_ptr, q_block_global_idx, num_seqs, BLOCK_Q, True
+    )
+
+    q_block_start_idx = tl.load(query_start_len_ptr + seq_idx) // BLOCK_Q + seq_idx
+
+    q_block_local_idx = q_block_global_idx - q_block_start_idx
+
+    cur_batch_in_all_start_index = tl.load(query_start_len_ptr + seq_idx)
+    cur_batch_in_all_stop_index = tl.load(query_start_len_ptr + seq_idx + 1)
+
+    cur_batch_query_len = cur_batch_in_all_stop_index - cur_batch_in_all_start_index
+
+    if q_block_local_idx * BLOCK_Q >= cur_batch_query_len:
+        return
+
+    offs_m = tl.arange(0, BLOCK_M)
+    offs_d = tl.arange(0, HEAD_SIZE_PADDED)
+    offs_t = tl.arange(0, TILE_SIZE)
+    query_pos = q_block_local_idx * BLOCK_Q + offs_m // num_queries_per_kv
+
+    query_offset_0 = cur_batch_in_all_start_index + query_pos
+    query_offset_1 = kv_head_idx * num_queries_per_kv + offs_m % num_queries_per_kv
+    query_offset = (
+        query_offset_0[:, None] * query_stride_0
+        + query_offset_1[:, None] * query_stride_1
+        + offs_d[None, :]
+    )
+
+    dim_mask = tl.where(offs_d < HEAD_SIZE, 1, 0).to(tl.int1)
+    query_mask_0 = tl.where(query_pos < cur_batch_query_len, 1, 0).to(tl.int1)
+    query_mask_1 = tl.where(query_offset_1 < num_query_heads, 1, 0).to(tl.int1)
+
+    # Q : (BLOCK_M, HEAD_SIZE_PADDED)
+    Q = tl.load(
+        query_ptr + query_offset,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+        other=0.0,
+    )
+
+    block_table_offset = seq_idx * block_table_stride
+
+    if not USE_SINKS:
+        M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+    else:
+        M = tl.load(
+            sink_ptr + query_offset_1,
+            mask=query_mask_1,
+            other=float("-inf"),
+        ).to(dtype=tl.float32)
+
+    L = tl.full([BLOCK_M], 1.0, dtype=tl.float32)
+    acc = tl.zeros([BLOCK_M, HEAD_SIZE_PADDED], dtype=tl.float32)
+
+    # sequence len for this particular sequence
+    seq_len = tl.load(seq_lens_ptr + seq_idx)
+
+    # context length for this particular sequences
+    context_len = seq_len - cur_batch_query_len
+
+    # alibi slope for this head
+    if USE_ALIBI_SLOPES:
+        alibi_slope = tl.load(
+            alibi_slopes_ptr + query_offset_1, mask=query_mask_1, other=0.0
+        )
+
+    # query-query attention bias
+    if USE_QQ_BIAS:
+        qq_bias_row_ptrs = (
+            qq_bias_ptr + query_pos[:, None] * qq_bias_stride_0
+        )  # shape: [BLOCK_M]
+
+    # compute the length of the longest sequence prefix spanned by any
+    # query token in the current q_block (q_block_local_idx)
+    max_seq_prefix_len = (
+        context_len
+        + q_block_local_idx * BLOCK_Q
+        + (BLOCK_M - 1) // num_queries_per_kv
+        + 1
+    )
+
+    # adjust for potential padding in the last q_block by considering the
+    # actual sequence length
+    max_seq_prefix_len = tl.minimum(max_seq_prefix_len, seq_len)
+
+    # calculate the number of tiles that need to be processed to
+    # cover the longest sequence prefix (due to causal masking, tiles beyond
+    # this prefix can be skipped)
+    num_tiles = cdiv_fn(max_seq_prefix_len, TILE_SIZE)
+
+    # ---- Sliding-window tile pruning --------------------
+    # Default: keep previous global behavior
+    tile_start = 0
+    tile_end = num_tiles
+    if SLIDING_WINDOW > 0:
+        # Query rows covered by this Q-block
+        qpos_lo = q_block_local_idx * BLOCK_Q
+        qpos_hi = tl.minimum(
+            qpos_lo + (BLOCK_M - 1) // num_queries_per_kv,
+            cur_batch_query_len - 1,
+        )
+        # For sliding window, each query position q can only attend to
+        # keys in the range [q_abs - SLIDING_WINDOW + 1, q_abs]
+        # where q_abs = context_len + q
+        # The union of allowed key positions for this Q-block is:
+        # [context_len + qpos_lo - SLIDING_WINDOW + 1, context_len + qpos_hi]
+        first_allowed_key = context_len + qpos_lo - SLIDING_WINDOW + 1
+        last_allowed_key = context_len + qpos_hi
+        # Convert to tile indices and clamp
+        tile_start = tl.maximum(0, first_allowed_key // TILE_SIZE)
+        tile_end = tl.minimum((last_allowed_key // TILE_SIZE) + 1, num_tiles)
+
+    # iterate through tiles (now limited to the sliding window range)
+    for j in range(tile_start, tile_end):
+        seq_offset = j * TILE_SIZE + offs_t
+        tile_mask = seq_offset < max_seq_prefix_len
+
+        physical_block_idx = tl.load(
+            block_tables_ptr + block_table_offset + seq_offset // BLOCK_SIZE
+        ).to(tl.int64)
+
+        v_offset = (
+            physical_block_idx[:, None] * stride_v_cache_0
+            + kv_head_idx * stride_v_cache_2
+            + offs_d[None, :] * stride_v_cache_3
+            + (seq_offset % BLOCK_SIZE)[:, None] * stride_v_cache_1
+        )
+
+        k_offset = (
+            physical_block_idx[None, :] * stride_k_cache_0
+            + kv_head_idx * stride_k_cache_2
+            + offs_d[:, None] * stride_k_cache_3
+            + (seq_offset % BLOCK_SIZE)[None, :] * stride_k_cache_1
+        )
+
+        # K : (HEAD_SIZE, TILE_SIZE)
+        K_load = tl.load(
+            key_cache_ptr + k_offset,
+            mask=dim_mask[:, None] & tile_mask[None, :],
+            other=0.0,
+        )
+
+        if K_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                K = K_load
+            else:
+                K = (K_load.to(tl.float32) * tl.load(k_scale)).to(Q.dtype)
+        else:
+            K = K_load
+
+        # V : (TILE_SIZE, HEAD_SIZE)
+        V_load = tl.load(
+            value_cache_ptr + v_offset,
+            mask=dim_mask[None, :] & tile_mask[:, None],
+            other=0.0,
+        )
+
+        if V_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                V = V_load
+            else:
+                V = (V_load.to(tl.float32) * tl.load(v_scale)).to(Q.dtype)
+        else:
+            V = V_load
+
+        seq_mask = seq_offset[None, :] < context_len + query_pos[:, None] + 1
+
+        # S : (BLOCK_M, TILE_SIZE)
+        S = tl.zeros(shape=(BLOCK_M, TILE_SIZE), dtype=tl.float32)
+
+        S += scale * tl.dot(Q, K)
+
+        if USE_SOFTCAP:
+            S = apply_softcap(S, softcap)
+
+        S = tl.where(
+            query_mask_1[:, None] & query_mask_0[:, None] & seq_mask, S, float("-inf")
+        )
+
+        if SLIDING_WINDOW > 0:
+            S = tl.where(
+                (context_len + query_pos[:, None] - seq_offset) < SLIDING_WINDOW,
+                S,
+                float("-inf"),
+            )
+
+        if USE_ALIBI_SLOPES:
+            S += alibi_slope[:, None] * (seq_offset - context_len)
+
+        if USE_QQ_BIAS:
+            # compute key positions relative to query section
+            key_rel_pos = seq_offset - context_len  # shape: [BLOCK_SIZE]
+            # load bias only for keys that correspond to queries
+            is_query_key = key_rel_pos >= 0 and key_rel_pos < qq_bias_stride_0
+            qq_bias = tl.load(
+                qq_bias_row_ptrs + key_rel_pos[None, :],
+                mask=is_query_key[None, :],  # avoid OOB for context keys
+                other=0.0,
+            )
+            S += qq_bias
+
+        # compute running maximum
+        # m_j : (BLOCK_M,)
+        m_j = tl.maximum(M, tl.max(S, axis=1))
+
+        # For sliding window there's a chance the max is -inf due to masking of
+        # the entire row. In this case we need to set m_j 0 to avoid NaN
+        m_j = tl.where(m_j > float("-inf"), m_j, 0.0)
+
+        # P : (BLOCK_M, TILE_SIZE)
+        P = tl.exp(S - m_j[:, None])
+
+        # l_j : (BLOCK_M,)
+        l_j = tl.sum(P, axis=1)
+
+        # alpha : (BLOCK_M, )
+        alpha = tl.exp(M - m_j)
+
+        # acc : (BLOCK_M, HEAD_SIZE_PADDED)
+        acc = acc * alpha[:, None]
+
+        # update constants
+        L = L * alpha + l_j
+        M = m_j
+
+        # acc : (BLOCK_M, HEAD_SIZE_PADDED)
+        acc += tl.dot(P.to(V.dtype), V)
+
+    # epilogue
+    acc = acc / L[:, None]
+    if USE_FP8:
+        acc = acc * tl.load(out_scale)
+        acc = tl.clamp(acc, FP8_MIN, FP8_MAX)
+
+    output_offset = (
+        query_offset_0[:, None] * output_stride_0
+        + query_offset_1[:, None] * output_stride_1
+        + offs_d[None, :]
+    )
+
+    tl.store(
+        output_ptr + output_offset,
+        acc,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+    )
+
+
+@triton.jit
+def kernel_unified_attention_3d(
+    segm_output_ptr,
+    # [num_tokens, num_query_heads, num_segments, head_size]
+    segm_max_ptr,  # [num_tokens, num_query_heads, num_segments]
+    segm_expsum_ptr,  # [num_tokens, num_query_heads, num_segments]
+    query_ptr,  # [num_tokens, num_query_heads, head_size]
+    key_cache_ptr,  # [num_blks, num_kv_heads, head_size // x, blk_size, x]
+    value_cache_ptr,  # [num_blks, num_kv_heads, head_size, blk_size]
+    sink_ptr,  # [num_query_heads]
+    block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
+    seq_lens_ptr,  # [num_seqs]
+    alibi_slopes_ptr,  # [num_query_heads]
+    qq_bias_ptr,  # [num_query_tokens, num_query_tokens]
+    scale,  # float32
+    k_scale,  # float32
+    v_scale,  # float32
+    softcap,  # float32
+    num_query_heads: tl.constexpr,  # int
+    num_queries_per_kv: tl.constexpr,  # int
+    block_table_stride: tl.int64,  # int
+    query_stride_0: tl.int64,  # int
+    query_stride_1: tl.int64,  # int, should be equal to head_size
+    qq_bias_stride_0: tl.int64,  # int
+    BLOCK_SIZE: tl.constexpr,  # int
+    TILE_SIZE: tl.constexpr,  # int, must be power of 2
+    HEAD_SIZE: tl.constexpr,  # int
+    HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
+    USE_ALIBI_SLOPES: tl.constexpr,  # bool
+    USE_QQ_BIAS: tl.constexpr,  # bool
+    USE_SOFTCAP: tl.constexpr,  # bool
+    USE_SINKS: tl.constexpr,  # bool
+    SLIDING_WINDOW: tl.constexpr,  # int
+    stride_k_cache_0: tl.int64,  # int
+    stride_k_cache_1: tl.int64,  # int
+    stride_k_cache_2: tl.int64,  # int
+    stride_k_cache_3: tl.constexpr,  # int
+    stride_v_cache_0: tl.int64,  # int
+    stride_v_cache_1: tl.int64,  # int
+    stride_v_cache_2: tl.int64,  # int
+    stride_v_cache_3: tl.constexpr,  # int
+    query_start_len_ptr,  # [num_seqs+1]
+    BLOCK_Q: tl.constexpr,  # int
+    num_seqs: tl.int32,
+    BLOCK_M: tl.constexpr,  # int
+    NUM_SEGMENTS_PER_SEQ: tl.constexpr,  # int
+):
+    q_block_global_idx = tl.program_id(0)
+    kv_head_idx = tl.program_id(1)
+    segm_idx = tl.program_id(2)
+
+    seq_idx = find_seq_idx(
+        query_start_len_ptr, q_block_global_idx, num_seqs, BLOCK_Q, True
+    )
+
+    q_block_start_idx = tl.load(query_start_len_ptr + seq_idx) // BLOCK_Q + seq_idx
+
+    q_block_local_idx = q_block_global_idx - q_block_start_idx
+
+    cur_batch_in_all_start_index = tl.load(query_start_len_ptr + seq_idx)
+    cur_batch_in_all_stop_index = tl.load(query_start_len_ptr + seq_idx + 1)
+
+    cur_batch_query_len = cur_batch_in_all_stop_index - cur_batch_in_all_start_index
+
+    if q_block_local_idx * BLOCK_Q >= cur_batch_query_len:
+        return
+
+    # sequence len for this particular sequence
+    seq_len = tl.load(seq_lens_ptr + seq_idx)
+
+    # number of segments for this particular sequence
+    num_segments = NUM_SEGMENTS_PER_SEQ
+    tiles_per_segment = cdiv_fn(seq_len, num_segments * TILE_SIZE)
+
+    if segm_idx * tiles_per_segment * TILE_SIZE >= seq_len:
+        return
+
+    offs_m = tl.arange(0, BLOCK_M)
+    offs_d = tl.arange(0, HEAD_SIZE_PADDED)
+    offs_t = tl.arange(0, TILE_SIZE)
+    query_pos = q_block_local_idx * BLOCK_Q + offs_m // num_queries_per_kv
+
+    query_offset_0 = cur_batch_in_all_start_index + query_pos
+    query_offset_1 = kv_head_idx * num_queries_per_kv + offs_m % num_queries_per_kv
+    query_offset = (
+        query_offset_0[:, None] * query_stride_0
+        + query_offset_1[:, None] * query_stride_1
+        + offs_d[None, :]
+    )
+
+    dim_mask = tl.where(offs_d < HEAD_SIZE, 1, 0).to(tl.int1)
+    query_mask_0 = tl.where(query_pos < cur_batch_query_len, 1, 0).to(tl.int1)
+    query_mask_1 = tl.where(query_offset_1 < num_query_heads, 1, 0).to(tl.int1)
+
+    # Q : (BLOCK_M, HEAD_SIZE_PADDED)
+    Q = tl.load(
+        query_ptr + query_offset,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+        other=0.0,
+    )
+
+    block_table_offset = seq_idx * block_table_stride
+
+    if USE_SINKS:
+        if segm_idx == 0:
+            M = tl.load(
+                sink_ptr + query_offset_1,
+                mask=query_mask_1,
+                other=float("-inf"),
+            ).to(dtype=tl.float32)
+        else:
+            M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+    else:
+        M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+
+    L = tl.full([BLOCK_M], 1.0, dtype=tl.float32)
+    acc = tl.zeros([BLOCK_M, HEAD_SIZE_PADDED], dtype=tl.float32)
+
+    # context length for this particular sequences
+    context_len = seq_len - cur_batch_query_len
+
+    # alibi slope for this head
+    if USE_ALIBI_SLOPES:
+        alibi_slope = tl.load(
+            alibi_slopes_ptr + query_offset_1, mask=query_mask_1, other=0.0
+        )
+
+    # query-query attention bias
+    if USE_QQ_BIAS:
+        qq_bias_row_ptrs = (
+            qq_bias_ptr + query_pos[:, None] * qq_bias_stride_0
+        )  # shape: [BLOCK_M]
+
+    # compute the length of the longest sequence prefix spanned by any
+    # query token in the current q_block (q_block_local_idx)
+    max_seq_prefix_len = (
+        context_len
+        + q_block_local_idx * BLOCK_Q
+        + (BLOCK_M - 1) // num_queries_per_kv
+        + 1
+    )
+
+    # adjust for potential padding in the last q_block by considering the
+    # actual sequence length
+    max_seq_prefix_len = tl.minimum(max_seq_prefix_len, seq_len)
+
+    # calculate the number of tiles that need to be processed to
+    # cover the longest sequence prefix (due to causal masking, tiles beyond
+    # this prefix can be skipped)
+    num_tiles = cdiv_fn(max_seq_prefix_len, TILE_SIZE)
+
+    # iterate through tiles within current segment
+    for j in range(
+        segm_idx * tiles_per_segment,
+        min((segm_idx + 1) * tiles_per_segment, num_tiles),
+    ):
+        seq_offset = j * TILE_SIZE + offs_t
+        tile_mask = seq_offset < max_seq_prefix_len
+
+        physical_block_idx = tl.load(
+            block_tables_ptr + block_table_offset + seq_offset // BLOCK_SIZE
+        ).to(tl.int64)
+
+        v_offset = (
+            physical_block_idx[:, None] * stride_v_cache_0
+            + kv_head_idx * stride_v_cache_2
+            + offs_d[None, :] * stride_v_cache_3
+            + (seq_offset % BLOCK_SIZE)[:, None] * stride_v_cache_1
+        )
+
+        k_offset = (
+            physical_block_idx[None, :] * stride_k_cache_0
+            + kv_head_idx * stride_k_cache_2
+            + offs_d[:, None] * stride_k_cache_3
+            + (seq_offset % BLOCK_SIZE)[None, :] * stride_k_cache_1
+        )
+
+        # K : (HEAD_SIZE, TILE_SIZE)
+        K_load = tl.load(
+            key_cache_ptr + k_offset,
+            mask=dim_mask[:, None] & tile_mask[None, :],
+            other=0.0,
+        )
+
+        if K_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                K = K_load
+            else:
+                K = (K_load.to(tl.float32) * tl.load(k_scale)).to(Q.dtype)
+        else:
+            K = K_load
+
+        # V : (TILE_SIZE, HEAD_SIZE)
+        V_load = tl.load(
+            value_cache_ptr + v_offset,
+            mask=dim_mask[None, :] & tile_mask[:, None],
+            other=0.0,
+        )
+
+        if V_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                V = V_load
+            else:
+                V = (V_load.to(tl.float32) * tl.load(v_scale)).to(Q.dtype)
+        else:
+            V = V_load
+
+        seq_mask = seq_offset[None, :] < context_len + query_pos[:, None] + 1
+
+        # S : (BLOCK_M, TILE_SIZE)
+        S = tl.zeros(shape=(BLOCK_M, TILE_SIZE), dtype=tl.float32)
+        S += scale * tl.dot(Q, K)
+
+        if USE_SOFTCAP:
+            S = apply_softcap(S, softcap)
+
+        S = tl.where(
+            query_mask_1[:, None] & query_mask_0[:, None] & seq_mask, S, float("-inf")
+        )
+
+        if SLIDING_WINDOW > 0:
+            S = tl.where(
+                (context_len + query_pos[:, None] - seq_offset) < SLIDING_WINDOW,
+                S,
+                float("-inf"),
+            )
+
+        if USE_ALIBI_SLOPES:
+            S += alibi_slope[:, None] * (seq_offset - context_len)
+
+        if USE_QQ_BIAS:
+            # compute key positions relative to query section
+            key_rel_pos = seq_offset - context_len  # shape: [BLOCK_SIZE]
+            # load bias only for keys that correspond to queries
+            is_query_key = key_rel_pos >= 0 and key_rel_pos < qq_bias_stride_0
+            qq_bias = tl.load(
+                qq_bias_row_ptrs + key_rel_pos[None, :],
+                mask=is_query_key[None, :],  # avoid OOB for context keys
+                other=0.0,
+            )
+            S += qq_bias
+
+        # compute running maximum
+        # m_j : (BLOCK_M,)
+        m_j = tl.maximum(M, tl.max(S, axis=1))
+
+        # For sliding window there's a chance the max is -inf due to masking of
+        # the entire row. In this case we need to set m_j 0 to avoid NaN
+        m_j = tl.where(m_j > float("-inf"), m_j, 0.0)
+
+        # P : (BLOCK_M, TILE_SIZE,)
+        P = tl.exp(S - m_j[:, None])
+
+        # l_j : (BLOCK_M,)
+        l_j = tl.sum(P, axis=1)
+
+        # alpha : (BLOCK_M, )
+        alpha = tl.exp(M - m_j)
+
+        # acc : (BLOCK_M, HEAD_SIZE_PADDED)
+        acc = acc * alpha[:, None]
+
+        # update constants
+        L = L * alpha + l_j
+        M = m_j
+
+        # acc : (BLOCK_M, HEAD_SIZE_PADDED)
+        acc += tl.dot(P.to(V.dtype), V)
+
+    segm_output_offset = (
+        query_offset_0[:, None].to(tl.int64)
+        * (num_query_heads * NUM_SEGMENTS_PER_SEQ * HEAD_SIZE_PADDED)
+        + query_offset_1[:, None] * (NUM_SEGMENTS_PER_SEQ * HEAD_SIZE_PADDED)
+        + segm_idx * HEAD_SIZE_PADDED
+        + tl.arange(0, HEAD_SIZE_PADDED)[None, :]
+    )
+    tl.store(
+        segm_output_ptr + segm_output_offset,
+        acc,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+    )
+    segm_offset = (
+        query_offset_0.to(tl.int64) * (num_query_heads * NUM_SEGMENTS_PER_SEQ)
+        + query_offset_1 * NUM_SEGMENTS_PER_SEQ
+        + segm_idx
+    )
+    tl.store(segm_max_ptr + segm_offset, M, mask=query_mask_0 & query_mask_1)
+    tl.store(segm_expsum_ptr + segm_offset, L, mask=query_mask_0 & query_mask_1)
+
+
+@triton.jit
+def reduce_segments(
+    output_ptr,  # [num_tokens, num_query_heads, head_size]
+    segm_output_ptr,
+    # [num_tokens, num_query_heads, max_num_segments, head_size]
+    segm_max_ptr,  # [num_tokens, num_query_heads, max_num_segments]
+    segm_expsum_ptr,  # [num_tokens, num_query_heads, max_num_segments]
+    seq_lens_ptr,  # [num_seqs]
+    num_seqs,  # int
+    num_query_heads: tl.constexpr,  # int
+    out_scale_inv,  # float32
+    output_stride_0: tl.int64,  # int
+    output_stride_1: tl.int64,  # int, should be equal to head_size
+    block_table_stride: tl.int64,  # int
+    TILE_SIZE: tl.constexpr,  # int
+    HEAD_SIZE: tl.constexpr,  # int, must be power of 2
+    HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
+    query_start_len_ptr,  # [num_seqs+1]
+    BLOCK_Q: tl.constexpr,  # int
+    NUM_SEGMENTS_PER_SEQ: tl.constexpr,  # int
+    USE_FP8: tl.constexpr,  # bool
+    FP8_MIN: tl.constexpr = float8_info.min,
+    FP8_MAX: tl.constexpr = float8_info.max,
+):
+    query_token_idx = tl.program_id(0)
+    query_head_idx = tl.program_id(1)
+
+    seq_idx = find_seq_idx(
+        query_start_len_ptr, query_token_idx, num_seqs, BLOCK_Q, False
+    )
+
+    # sequence len for this particular sequence
+    seq_len = tl.load(seq_lens_ptr + seq_idx)
+
+    # number of segments for this particular sequence
+    num_segments = NUM_SEGMENTS_PER_SEQ
+    tiles_per_segment = cdiv_fn(seq_len, num_segments * TILE_SIZE)
+
+    # create masks for subsequent loads
+    act_num_segments = cdiv_fn(seq_len, tiles_per_segment * TILE_SIZE)
+    segm_mask = tl.arange(0, NUM_SEGMENTS_PER_SEQ) < tl.full(
+        [NUM_SEGMENTS_PER_SEQ], act_num_segments, dtype=tl.int32
+    )
+    dim_mask = tl.where(tl.arange(0, HEAD_SIZE_PADDED) < HEAD_SIZE, 1, 0).to(tl.int1)
+
+    # load segment maxima
+    segm_offset = (
+        query_token_idx.to(tl.int64) * (num_query_heads * NUM_SEGMENTS_PER_SEQ)
+        + query_head_idx * NUM_SEGMENTS_PER_SEQ
+        + tl.arange(0, NUM_SEGMENTS_PER_SEQ)
+    )
+    segm_max = tl.load(segm_max_ptr + segm_offset, mask=segm_mask, other=float("-inf"))
+    overall_max = tl.max(segm_max)
+
+    # load and rescale segment exp sums
+    segm_expsum = tl.load(segm_expsum_ptr + segm_offset, mask=segm_mask, other=0.0)
+    segm_expsum = segm_expsum * tl.exp(segm_max - overall_max)
+    overall_expsum = tl.sum(segm_expsum)
+
+    # load, rescale, and add segment attention outputs
+    segm_output_offset = (
+        query_token_idx.to(tl.int64)
+        * (num_query_heads * NUM_SEGMENTS_PER_SEQ * HEAD_SIZE_PADDED)
+        + query_head_idx * (NUM_SEGMENTS_PER_SEQ * HEAD_SIZE_PADDED)
+        + tl.arange(0, NUM_SEGMENTS_PER_SEQ)[:, None] * HEAD_SIZE_PADDED
+        + tl.arange(0, HEAD_SIZE_PADDED)[None, :]
+    )
+    segm_output = tl.load(
+        segm_output_ptr + segm_output_offset,
+        mask=segm_mask[:, None] & dim_mask[None, :],
+        other=0.0,
+    )
+    segm_output *= tl.exp(segm_max - overall_max)[:, None]
+    acc_sum = tl.sum(segm_output, axis=0)
+    # safely divide by overall_expsum, returning 0.0 if overall_expsum is 0
+    acc = tl.where(overall_expsum == 0.0, 0.0, acc_sum / overall_expsum)
+
+    if USE_FP8:
+        acc = acc * tl.load(out_scale_inv)
+        acc = tl.clamp(acc, FP8_MIN, FP8_MAX)
+
+    # write result
+    output_offset = (
+        query_token_idx * output_stride_0
+        + query_head_idx * output_stride_1
+        + tl.arange(0, HEAD_SIZE_PADDED)
+    )
+    tl.store(output_ptr + output_offset, acc, mask=dim_mask)
+
+
+def unified_attention(
+    q,
+    k,
+    v,
+    out,
+    cu_seqlens_q,
+    max_seqlen_q,
+    seqused_k,
+    max_seqlen_k,
+    softmax_scale,
+    causal,
+    window_size,
+    block_table,
+    softcap,
+    q_descale,
+    k_descale,
+    v_descale,
+    alibi_slopes=None,
+    output_scale=None,
+    qq_bias=None,
+    # Optional tensor for sinks
+    sinks=None,
+):
+    assert causal, "Only causal attention is supported"
+    assert q_descale is None, "Q scales not supported"
+
+    if sinks is not None:
+        assert sinks.shape[0] == q.shape[1], "Sinks must be num_query_heads size"
+
+    use_alibi_slopes = alibi_slopes is not None
+    use_qq_bias = qq_bias is not None
+
+    block_size = v.shape[1]
+    num_seqs = len(seqused_k)
+    num_query_heads = q.shape[1]
+    num_kv_heads = k.shape[2]
+    num_queries_per_kv = num_query_heads // num_kv_heads
+    head_size = q.shape[2]
+
+    BLOCK_M = (
+        16 if num_queries_per_kv <= 16 else triton.next_power_of_2(num_queries_per_kv)
+    )
+    BLOCK_Q = BLOCK_M // num_queries_per_kv
+
+    # Ideally we would launch with kernel with:
+    # \sum_i[ceil(query_len[i] / BLOCK_Q)] blocks.
+    # However, it is slow to realize the query_lens on cpu.
+    # Instead we use upper-bound:
+    # \sum_i[ceil(query_len[i] / BLOCK_Q)]
+    #   <= \sum_i[floor(query_len[i] / BLOCK_Q) + 1]
+    #    = \sum_i[floor(query_len[i] / BLOCK_Q)] + num_seqs
+    #   <= floor(\sum_i(query_len[i]) / BLOCK_Q) + num_seqs
+    #    = floor(q.shape[0] / BLOCK_Q) + num_seqs
+    total_num_q_blocks = q.shape[0] // BLOCK_Q + num_seqs
+
+    # Assigning default tile sizes for prefill and decode.
+    # Note: each tile size must be at least 32 for "fp8" (q.element_size() == 1)
+    # and at least 16 for all other data types.
+    TILE_SIZE_PREFILL = 32
+    TILE_SIZE_DECODE = 16 if q.element_size() >= 2 else 32
+
+    # if batch contains a prefill
+    if max_seqlen_q > 1 or total_num_q_blocks * num_kv_heads > 128:
+        kernel_unified_attention_2d[
+            (
+                total_num_q_blocks,
+                num_kv_heads,
+            )
+        ](
+            output_ptr=out,
+            query_ptr=q,
+            key_cache_ptr=k,
+            value_cache_ptr=v,
+            sink_ptr=sinks,
+            block_tables_ptr=block_table,
+            seq_lens_ptr=seqused_k,
+            alibi_slopes_ptr=alibi_slopes,
+            qq_bias_ptr=qq_bias,
+            scale=softmax_scale,
+            k_scale=k_descale,
+            v_scale=v_descale,
+            out_scale=1 / output_scale if output_scale is not None else 1.0,
+            softcap=softcap,
+            num_query_heads=num_query_heads,
+            num_queries_per_kv=num_queries_per_kv,
+            block_table_stride=block_table.stride(0),
+            query_stride_0=q.stride(0),
+            query_stride_1=q.stride(1),
+            output_stride_0=out.stride(0),
+            output_stride_1=out.stride(1),
+            qq_bias_stride_0=qq_bias.stride(0) if use_qq_bias else 0,
+            BLOCK_SIZE=block_size,
+            TILE_SIZE=TILE_SIZE_PREFILL,
+            HEAD_SIZE=head_size,
+            HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
+            USE_ALIBI_SLOPES=use_alibi_slopes,
+            USE_QQ_BIAS=use_qq_bias,
+            USE_SOFTCAP=(softcap > 0),
+            USE_SINKS=(sinks is not None),
+            SLIDING_WINDOW=(1 + window_size[0]),
+            stride_k_cache_0=k.stride(0),
+            stride_k_cache_1=k.stride(1),
+            stride_k_cache_2=k.stride(2),
+            stride_k_cache_3=k.stride(3),
+            stride_v_cache_0=v.stride(0),
+            stride_v_cache_1=v.stride(1),
+            stride_v_cache_2=v.stride(2),
+            stride_v_cache_3=v.stride(3),
+            query_start_len_ptr=cu_seqlens_q,
+            BLOCK_Q=BLOCK_Q,
+            num_seqs=num_seqs,
+            BLOCK_M=BLOCK_M,
+            USE_FP8=output_scale is not None,
+        )
+    else:
+        # for initial version, NUM_SEGMENTS = 16 is chosen as a default
+        # value that showed good performance in tests
+        NUM_SEGMENTS = 16
+
+        segm_output = torch.empty(
+            q.shape[0],
+            num_query_heads,
+            NUM_SEGMENTS,
+            triton.next_power_of_2(head_size),
+            dtype=torch.float32,
+            device=q.device,
+        )
+        segm_max = torch.empty(
+            q.shape[0],
+            num_query_heads,
+            NUM_SEGMENTS,
+            dtype=torch.float32,
+            device=q.device,
+        )
+        segm_expsum = torch.empty(
+            q.shape[0],
+            num_query_heads,
+            NUM_SEGMENTS,
+            dtype=torch.float32,
+            device=q.device,
+        )
+
+        kernel_unified_attention_3d[(total_num_q_blocks, num_kv_heads, NUM_SEGMENTS)](
+            segm_output_ptr=segm_output,
+            segm_max_ptr=segm_max,
+            segm_expsum_ptr=segm_expsum,
+            query_ptr=q,
+            key_cache_ptr=k,
+            value_cache_ptr=v,
+            sink_ptr=sinks,
+            block_tables_ptr=block_table,
+            seq_lens_ptr=seqused_k,
+            alibi_slopes_ptr=alibi_slopes,
+            qq_bias_ptr=qq_bias,
+            scale=softmax_scale,
+            k_scale=k_descale,
+            v_scale=v_descale,
+            softcap=softcap,
+            num_query_heads=num_query_heads,
+            num_queries_per_kv=num_queries_per_kv,
+            block_table_stride=block_table.stride(0),
+            query_stride_0=q.stride(0),
+            query_stride_1=q.stride(1),
+            qq_bias_stride_0=qq_bias.stride(0) if use_qq_bias else 0,
+            BLOCK_SIZE=block_size,
+            TILE_SIZE=TILE_SIZE_DECODE,
+            HEAD_SIZE=head_size,
+            HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
+            USE_ALIBI_SLOPES=use_alibi_slopes,
+            USE_QQ_BIAS=use_qq_bias,
+            USE_SOFTCAP=(softcap > 0),
+            USE_SINKS=(sinks is not None),
+            SLIDING_WINDOW=(1 + window_size[0]),
+            stride_k_cache_0=k.stride(0),
+            stride_k_cache_1=k.stride(1),
+            stride_k_cache_2=k.stride(2),
+            stride_k_cache_3=k.stride(3),
+            stride_v_cache_0=v.stride(0),
+            stride_v_cache_1=v.stride(1),
+            stride_v_cache_2=v.stride(2),
+            stride_v_cache_3=v.stride(3),
+            query_start_len_ptr=cu_seqlens_q,
+            BLOCK_Q=BLOCK_Q,
+            num_seqs=num_seqs,
+            BLOCK_M=BLOCK_M,
+            NUM_SEGMENTS_PER_SEQ=NUM_SEGMENTS,
+        )
+        reduce_segments[(q.shape[0], num_query_heads)](
+            output_ptr=out,
+            segm_output_ptr=segm_output,
+            segm_max_ptr=segm_max,
+            segm_expsum_ptr=segm_expsum,
+            seq_lens_ptr=seqused_k,
+            num_seqs=num_seqs,
+            num_query_heads=num_query_heads,
+            out_scale_inv=1 / output_scale if output_scale is not None else 1.0,
+            output_stride_0=out.stride(0),
+            output_stride_1=out.stride(1),
+            block_table_stride=block_table.stride(0),
+            TILE_SIZE=TILE_SIZE_DECODE,
+            HEAD_SIZE=head_size,
+            HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
+            query_start_len_ptr=cu_seqlens_q,
+            BLOCK_Q=BLOCK_Q,
+            NUM_SEGMENTS_PER_SEQ=NUM_SEGMENTS,
+            USE_FP8=output_scale is not None,
+        )
diff --git a/attention/ops/vit_attn_wrappers.py b/attention/ops/vit_attn_wrappers.py
new file mode 100644
index 0000000..06a9f7c
--- /dev/null
+++ b/attention/ops/vit_attn_wrappers.py
@@ -0,0 +1,178 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file contains ops for ViT attention to be compatible with torch.compile
+as there are operations here not supported by torch.compile (for instance,
+`to_list` in xformers attn, or `.item()` in flash attention)
+
+Using these ops and wrapping vision blocks with `torch.compile` can speed up
+throughput in vision models by ~5% relative on H100, and improve token
+latencies by ~7% (see qwen2_5_vl for example usage)
+
+To use these ops, you must have a recent version of PyTorch installed (>= 2.4.0)
+"""
+
+import einops
+import torch
+import torch.nn.functional as F
+
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+def xformers_attn_seqlens_wrapper(
+    q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, seqlens: torch.Tensor
+) -> torch.Tensor:
+    from xformers import ops as xops
+    from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+    attn_bias = BlockDiagonalMask.from_seqlens(
+        q_seqlen=seqlens.tolist(), kv_seqlen=None, device=q.device
+    )
+    context_layer = xops.memory_efficient_attention_forward(
+        q, k, v, attn_bias=attn_bias, p=0, scale=None
+    )
+    context_layer = einops.rearrange(context_layer, "b s h d -> s b (h d)").contiguous()
+    return context_layer
+
+
+def xformers_attn_seqlens_wrapper_fake(
+    q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, seqlens: torch.Tensor
+) -> torch.Tensor:
+    b, s, h, d = q.shape
+    return torch.empty((s, b, h * d), dtype=q.dtype, device=q.device)
+
+
+direct_register_custom_op(
+    op_name="xformers_attn_seqlens_wrapper",
+    op_func=xformers_attn_seqlens_wrapper,
+    fake_impl=xformers_attn_seqlens_wrapper_fake,
+)
+
+
+def vit_xformers_attn_wrapper(
+    q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, seqlens: torch.Tensor
+) -> torch.Tensor:
+    return torch.ops.vllm.xformers_attn_seqlens_wrapper(q, k, v, seqlens)
+
+
+def flash_attn_maxseqlen_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+    max_seqlen: torch.Tensor,
+    batch_size: int,
+    is_rocm_aiter: bool,
+    use_upstream_fa: bool,
+) -> torch.Tensor:
+    if is_rocm_aiter:
+        from aiter import flash_attn_varlen_func
+    else:
+        if use_upstream_fa:
+            from flash_attn import flash_attn_varlen_func
+        else:
+            from vllm.attention.utils.fa_utils import flash_attn_varlen_func
+    q, k, v = (einops.rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
+    output = flash_attn_varlen_func(
+        q,
+        k,
+        v,
+        cu_seqlens_q=cu_seqlens,
+        cu_seqlens_k=cu_seqlens,
+        max_seqlen_q=max_seqlen.item(),
+        max_seqlen_k=max_seqlen.item(),
+        dropout_p=0.0,
+        causal=False,
+    )
+    context_layer = einops.rearrange(
+        output, "(b s) h d -> s b (h d)", b=batch_size
+    ).contiguous()
+    return context_layer
+
+
+def flash_attn_maxseqlen_wrapper_fake(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+    max_seqlen: torch.Tensor,
+    batch_size: int,
+    is_rocm_aiter: bool,
+    use_upstream_fa: bool,
+) -> torch.Tensor:
+    b, s, h, d = q.shape
+    return torch.empty((s, b, h * d), dtype=q.dtype, device=q.device)
+
+
+direct_register_custom_op(
+    op_name="flash_attn_maxseqlen_wrapper",
+    op_func=flash_attn_maxseqlen_wrapper,
+    fake_impl=flash_attn_maxseqlen_wrapper_fake,
+)
+
+
+def vit_flash_attn_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+    max_seqlen: torch.Tensor,
+    batch_size: int,
+    is_rocm_aiter: bool,
+    use_upstream_fa: bool,
+) -> torch.Tensor:
+    return torch.ops.vllm.flash_attn_maxseqlen_wrapper(
+        q, k, v, cu_seqlens, max_seqlen, batch_size, is_rocm_aiter, use_upstream_fa
+    )
+
+
+# TODO: Once we have a torch 2.10, we can use tensor slices
+# so we won't need to wrap this in custom ops
+def torch_sdpa_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    outputs = []
+    for i in range(1, len(cu_seqlens)):
+        start_idx = cu_seqlens[i - 1]
+        end_idx = cu_seqlens[i]
+        q_i = q[:, start_idx:end_idx]
+        k_i = k[:, start_idx:end_idx]
+        v_i = v[:, start_idx:end_idx]
+        q_i, k_i, v_i = (
+            einops.rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
+        )
+        output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+        output_i = einops.rearrange(output_i, "b h s d -> b s h d ")
+        outputs.append(output_i)
+    context_layer = torch.cat(outputs, dim=1)
+    context_layer = einops.rearrange(context_layer, "b s h d -> s b (h d)").contiguous()
+    return context_layer
+
+
+def torch_sdpa_wrapper_fake(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    b, s, h, d = q.shape
+    return torch.empty((s, b, h * d), dtype=q.dtype, device=q.device)
+
+
+direct_register_custom_op(
+    op_name="torch_sdpa_wrapper",
+    op_func=torch_sdpa_wrapper,
+    fake_impl=torch_sdpa_wrapper_fake,
+)
+
+
+def vit_torch_sdpa_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    return torch.ops.vllm.torch_sdpa_wrapper(q, k, v, cu_seqlens)
diff --git a/attention/selector.py b/attention/selector.py
new file mode 100644
index 0000000..1a092db
--- /dev/null
+++ b/attention/selector.py
@@ -0,0 +1,231 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import inspect
+import os
+from collections.abc import Generator
+from contextlib import contextmanager
+from functools import cache
+from typing import cast, get_args
+
+import torch
+
+import vllm.envs as envs
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.utils import STR_BACKEND_ENV_VAR
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+logger = init_logger(__name__)
+
+
+def get_env_variable_attn_backend() -> AttentionBackendEnum | None:
+    """
+    Get the backend override specified by the vLLM attention
+    backend environment variable, if one is specified.
+
+    Returns:
+
+    * AttentionBackendEnum value if an override is specified
+    * None otherwise
+    """
+    backend_name = os.environ.get(STR_BACKEND_ENV_VAR)
+    return None if backend_name is None else AttentionBackendEnum[backend_name]
+
+
+# Global state allows a particular choice of backend
+# to be forced, overriding the logic which auto-selects
+# a backend based on system & workload configuration
+# (default behavior if this variable is None)
+#
+# THIS SELECTION TAKES PRECEDENCE OVER THE
+# VLLM_ATTENTION_BACKEND ENVIRONMENT VARIABLE
+forced_attn_backend: AttentionBackendEnum | None = None
+
+
+def global_force_attn_backend(attn_backend: AttentionBackendEnum | None) -> None:
+    """
+    Force all attention operations to use a specified backend.
+
+    Passing `None` for the argument re-enables automatic
+    backend selection.,
+
+    Arguments:
+
+    * attn_backend: backend selection (None to revert to auto)
+    """
+    global forced_attn_backend
+    forced_attn_backend = attn_backend
+
+
+def get_global_forced_attn_backend() -> AttentionBackendEnum | None:
+    """
+    Get the currently-forced choice of attention backend,
+    or None if auto-selection is currently enabled.
+    """
+    return forced_attn_backend
+
+
+def get_attn_backend(
+    head_size: int,
+    dtype: torch.dtype,
+    kv_cache_dtype: str | None,
+    block_size: int | None,
+    use_mla: bool = False,
+    has_sink: bool = False,
+    use_sparse: bool = False,
+    attn_type: str | None = None,
+) -> type[AttentionBackend]:
+    """Selects which attention backend to use and lazily imports it."""
+
+    if kv_cache_dtype is not None:
+        valid_cache_dtypes = get_args(CacheDType)
+        assert kv_cache_dtype in valid_cache_dtypes, (
+            f"Invalid kv_cache_dtype: {kv_cache_dtype}. "
+            f"Valid values are: {valid_cache_dtypes}"
+        )
+
+    return _cached_get_attn_backend(
+        head_size=head_size,
+        dtype=dtype,
+        kv_cache_dtype=cast(CacheDType | None, kv_cache_dtype),
+        block_size=block_size,
+        use_mla=use_mla,
+        has_sink=has_sink,
+        use_sparse=use_sparse,
+        attn_type=attn_type,
+    )
+
+
+@cache
+def _cached_get_attn_backend(
+    head_size: int,
+    dtype: torch.dtype,
+    kv_cache_dtype: CacheDType | None,
+    block_size: int | None,
+    use_mla: bool = False,
+    has_sink: bool = False,
+    use_sparse: bool = False,
+    attn_type: str | None = None,
+) -> type[AttentionBackend]:
+    # Check whether a particular choice of backend was
+    # previously forced.
+    #
+    # THIS SELECTION OVERRIDES THE VLLM_ATTENTION_BACKEND
+    # ENVIRONMENT VARIABLE.
+    selected_backend = None
+    backend_by_global_setting: AttentionBackendEnum | None = (
+        get_global_forced_attn_backend()
+    )
+    if backend_by_global_setting is not None:
+        selected_backend = backend_by_global_setting
+    else:
+        # Check the environment variable and override if specified
+        backend_by_env_var: str | None = envs.VLLM_ATTENTION_BACKEND
+        if backend_by_env_var is not None:
+            if backend_by_env_var.endswith("_VLLM_V1"):
+                logger.warning(
+                    "The suffix '_VLLM_V1' in the environment variable "
+                    "%s is no longer necessary as V0 backends have been "
+                    "deprecated. Please remove this suffix from your "
+                    "environment variable setting.",
+                    STR_BACKEND_ENV_VAR,
+                )
+                backend_by_env_var = backend_by_env_var.removesuffix("_VLLM_V1")
+            try:
+                selected_backend = AttentionBackendEnum[backend_by_env_var]
+            except KeyError as e:
+                raise ValueError(
+                    f"Invalid attention backend: '{backend_by_env_var}'. Valid "
+                    f"backends are: {list(AttentionBackendEnum.__members__.keys())}"
+                ) from e
+
+    # get device-specific attn_backend
+    from vllm.platforms import current_platform
+
+    sig = inspect.signature(current_platform.get_attn_backend_cls)
+    if "use_v1" in sig.parameters:
+        logger.warning_once(
+            "use_v1 parameter for get_attn_backend_cls is deprecated and will "
+            "be removed in v0.13.0 or v1.0.0, whichever is soonest. Please "
+            "remove it from your plugin code."
+        )
+        attention_cls = current_platform.get_attn_backend_cls(
+            selected_backend,
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            True,  # use_v1
+            use_mla,
+            has_sink,
+            use_sparse,
+            attn_type,
+        )
+    else:
+        attention_cls = current_platform.get_attn_backend_cls(
+            selected_backend,
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            use_mla,
+            has_sink,
+            use_sparse,
+            attn_type,
+        )
+    if not attention_cls:
+        raise ValueError(
+            f"Invalid attention backend for {current_platform.device_name}"
+        )
+    backend = resolve_obj_by_qualname(attention_cls)
+
+    # Adjust kv cache layout if the selected backend requires a specific one
+    required_layout = backend.get_required_kv_cache_layout()
+    if required_layout is not None:
+        from vllm.v1.attention.backends.utils import set_kv_cache_layout
+
+        set_kv_cache_layout(required_layout)
+        logger.info(
+            "Using %s KV cache layout for %s backend.",
+            required_layout,
+            backend.get_name(),
+        )
+
+    return backend
+
+
+@contextmanager
+def global_force_attn_backend_context_manager(
+    attn_backend: AttentionBackendEnum,
+) -> Generator[None, None, None]:
+    """
+    Globally force a vLLM attention backend override within a
+    context manager, reverting the global attention backend
+    override to its prior state upon exiting the context
+    manager.
+
+    Arguments:
+
+    * attn_backend: attention backend to force
+
+    Returns:
+
+    * Generator
+    """
+
+    # Save the current state of the global backend override (if any)
+    original_value = get_global_forced_attn_backend()
+
+    # Globally force the new backend override
+    global_force_attn_backend(attn_backend)
+
+    # Yield control back to the enclosed code block
+    try:
+        yield
+    finally:
+        # Revert the original global backend override, if any
+        global_force_attn_backend(original_value)
+        _cached_get_attn_backend.cache_clear()
diff --git a/attention/utils/__init__.py b/attention/utils/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/attention/utils/__pycache__/__init__.cpython-312.pyc b/attention/utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..90b39e11d733f78a2e2d15511a080ec02402d04e
GIT binary patch
literal 165
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx#*YV7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxAul%(dBWCFRRC7C(J`tk9Zd6^~g
l@p=W7w>WHa^HWN5QtgUZfrc^yaWRPTk(rT^v4|PS0s!J;D6;?n

literal 0
HcmV?d00001

diff --git a/attention/utils/__pycache__/fa_utils.cpython-312.pyc b/attention/utils/__pycache__/fa_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d899ddf1aa9af4bb83f3bc79bbd11abc92fec97d
GIT binary patch
literal 3702
zcma(TOKcm*b%wjk->&!(X*04YYHdljH<3kHc4Es2YD==+*iclsc8r>bE>_%?z0`8a
z&MsxikN~ytAwduA&25l_j!N7^kM1o&awyOX*AhTxA)^l39(<!C1r2=ao25ummLqh4
zee-7Ky*F>)cmC1U6-F=&_V@bjE`<I?7p>vnLAF$k&?BTG6&t9Ca~M<HXZVUtj`48D
zV2fOi!^np;M)N-gdOC6eSaXF~bJYnS?<`0kNMb>1C>O>^3l|P|QZ?}$4>X)16uWX=
z#YiqvjOL;knLqbri~H%@vfl$fzY#BXA0!*@JhER#t_$|lZ`hB({_!{LC)B7K(2{CU
zJEVpl1Q42K)$l_ucNlh(vp$u7$mUWzxB&QDYS%-Q>)F|fz|N7ykQ94CMN8OaHFMsA
znb%F-mW|TgyBhf%yRm$Q5Y4pZvZ2_sB~qj$a=v2OrJ`IaTN2|Qo;4Kfo~+omDbFj!
z&`f!@V&>gc$NqiYz9-Mk=au|D&F$?t*kRC3`@F{m;)8lwTcEPt2+@91(TQfsilNWw
zuAgXjg_zU%9dCP9fj>tKd|Pk(yqLidClE8s5HmisgbS=kwFk8Qg%_C+#2CZ_Q)HKY
zMQ$0Q%i|LEFnEg=*D|}ruK2E_-{B>;5ZO<sa&spUB4LojsO`ukKGknxm09NOc61iH
z_jCVt@ZfVbFpn(n_Jiq`xu4K3=xLW;;#9wfrR-!&i$bb}?apebm0OT^p#2ge|37bd
zFE6#o64%<Z`Z{jz*}buasr(WL9KKzS$JEa-JRfyRYI=jai3X6}&Mmv0O|!m1M8LCm
z&?35z7MMHeK9+=O0s(^v2jB(8B%j+itH|>jvGkHDS4^u?E|-X{sWQ<Nt7N(<-I6;f
z+UGAqR0dT}@{uS^BtbW5oqKR?QZdbvEmkZ|ygDxKNEgqDB~zR*l>FR%%`n7Pc8RJs
zt5ghIH}8sesgq%J<iW+C5=FC19G}uB^x*>qoO!c=Ayw2Zkt*5#BT=nrRDmH&in@_`
z!zhllRI~`K(ykwDu~4qKl6Odfyqne|yQmDQt&v$JuMryeBu<$R-PLSa)#mlQCg+v1
zGNT*1z36g9rBEV-8q!VOo|^hlzB)C2^8<PO)~#vz_LX1Wy!MM}*Wav7u5e!=CfG?X
znR(6SG(t+m<*yZ~%dU8f$hc)`#0F=2YspV&R(tAq=n~(rM|juC7X4Y#8?P>B?P57w
z*2|}Cg}@)2TBw{GJ3n_$%R+U^mKW`NB{NGck%d|aH4`q*R&3p{vLMexM#_usVfybK
z_SuODG5{CREU->Pbz4FIVYANznQ9<a3uK%?W+Nchqp^l>m`ncG$ArR-FzTDc)%0*J
zJ>jG$*3*}(!Jg+)u^Jt&28RJQf+#Uq>z15uY3;_-?h)tA^}nCqIP>8r<JDUqH5e31
zY=@B$tMMls{zR2OvzbWM5?Lpa{p)*9Vyr5RRTE>IJ$<#Fcb%ShKfd1ZBcZRxA9MI)
zt20melWVyrr@xRlh3=Zr?+E=3AC8Y~GfY<m?mg1`@%8Wco<9}V#y>5!N$Rm1+l&tg
z{7r)B@zn<#(NQ@6!_+5J_1Kkq?8vvVQ)`9w*w}V}?TWk<Q0#<9Qw@$*qoeg`5B%eg
zn?mZdOqD<RJ;Ge_+i0S}!2HUhrS#Luq00z;gQAzanQ!74U><hcgC;qRt*sdVkC5H&
zBCX1<Vp<UwFgc2mO)0%`PzNcrUMwwQm{lK@auZ3+v{wfRRZU_&2RDQ7E!ZH`*Po*;
zfQTFeu%}<{BqEfX@_BLsPN(6svH(`lzk`|eptw5j1c$%|p-XsENY{i>M;Kif&entr
zj&R|L;s_TT9K-nueLC#10<4=>U;%lA7O~`;zD0&$(FByCsZdWxl(rSJbaT!k5)gd^
zpGB+Z3aazb{TEUBp1J=52t4Lmjk#IA(LrV<C%v}Jcx@RsTe8Zw8V5Ki<?W$@_ml+j
z9b?y-)WXeXd=oADp*6Idy4`Nu9j(FNZViEs)*xZ8WbJzLsuU!LKytGT2A~Y)E2=_h
z>ugeb-p$ZuKLF?mG)BB5i$<U*9^mexp^#x9x&xn81h9gh(L&Jg6@q>z(7zEl+VF)#
z@gIDUOE1GHesT@3$KHlWh+o0=<b`T-u$H{wBrmKd-+yw$NnZT&w3ECHu>hGTAR+$a
zHizQr&wdRhf<{lgF2w45tib{L%A&>j&&S6x`U*$K6U<lL7~r1hY3I;wAnnYd0zG+c
zv|O=(tt4brJKqj+J>(6ZmYAl|-T{GxKG0te%>mkp-}vm5m3c)slo>-KBfvNZpCtlV
zL7RMUjURCMfpvc9DL=6xjn$+}j&x~Vny9i9Ui?b<s?_VUw1zjk5bt%jX2&5kpgUY2
zlx0&XYO+jv>4B#!eT=#ceY>XM*?LbYYqDah(Bt6U+f>*U^#%Hl2KDkK(<b`N$ZO4$
z1gSXsq#!iBz5n0o!E)<qOn7>c*Geo9tybW7<)UUQs$wfHJ5wqdE(4vnS#)Rt@lw`{
zEzd5m8#MTSu|%c(jEn&>^_2BB04S~){}4p@@G~^<488MRDEY@<t%ouz{^v|@l}Xf?
zUWe)3VEUf1C!S}H)-q#GW~|Eg{*zsP$}T_W(pBzIjY~URdV|Y6V@En^>V0CZ@0`<j
zuF4*%ckp)Zzx0pd<l5N=g6YZRmxF)1zD3bS0khb@n%qJ#H6j?tR?luBn7$82alA2z
Q@g!cmwGBIy*mLav07Y>_V*mgE

literal 0
HcmV?d00001

diff --git a/attention/utils/__pycache__/kv_sharing_utils.cpython-312.pyc b/attention/utils/__pycache__/kv_sharing_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..17cf51f600c046a6fe437a53f4d80c29aa1fd921
GIT binary patch
literal 1285
zcmZ`(-;2{o9G~gWw7YI^D@wPvG9bHb4oxbEUC%@G_ErRCTU=1jmyk`y-PklKlj&Yt
zQV_W}{{RIMd_C?TxJTdbWwL#+1_eQ1e5>@$CnrfOoAYiSruqK*{FqMi&#_~9z?YeN
zVl*-Ud<cU1g0qKd(DD@M;16&g^r4v0lJge+%cnpPPb<8icR?3C2YSMVd{4ee50fr%
zVQU=#vP9>Iz)k9@0U!EnmU#?a=q3&zsq1MyW5RY~n1Uby+?4yRXP6FSIG-72+_al%
zmA^yI#*t&JLcHd3ohw|&!@$MA)-cPf;D4)vn{|a&owFBX3^`Ze&hsylai%^H7q$m$
zI~}YU4-BlMn|F}2uM)%BLsTVum?Bf{V}c&o1Pv<4aFAtFbfB7s{!_fehiI^_sa8<m
z#fa`><fv_oR407ax`beB1}A+AT#3*>j(e1-8dX9T#jteT8=Pr(9f~xY5AR}59D&6F
z24`nd)JP1vMk$9kY-=XiutM6ltz%OfoDCt5%A)<we``bQgM=uFDL;QlHM@9=5S#eu
zz%<)Z2&Uj3*1FUtQRqlrYM2g5b3=YkrPNXaXffv(XNqUuEPfdNa&)LiQzsp&QbSX?
z(ce{~E1GRleky(r2h2*_*^983<8X%F^M8n;1(}nv%r`Z@fP4HerdW4!Tql~ZFSlgc
z?#LaZb1oV@*X!0VZM5oGHjQ1m)2I8kB?sPRjuoA+9Qu`82g>ZCC}BeC^!;*pFI0+^
zBh?6)6ghA3LOLJ$_6SS_uyCH8-(<C4Cjf52weeb=t#14cCrOyQJV}D|(j*UrGOJ35
zS?TRk>DdZfZFnn<(NdEM&G*?7Ll?d5#dpGu&v{U-vDz=A$|e(5-kg${e06l{8WT$6
zg$hHp!-d-0V&&OyOx*UW+oNKGEjB(ziMw9)?x=W=E#8}C!08L@!j@OP{<_-qs!f(E
zj|;18ZNn>EdR^G`3Y(8^jI-63rNgYq<%}0ku=4d+y;l!e^ENB(c#AvJWTKFtfJ83O
y<qJPfxlgby!qEAjfE?!`S>~HB{LC*>*Th%I2_6RD8YlRcapw?DGpAub?EMN4LvZQ<

literal 0
HcmV?d00001

diff --git a/attention/utils/__pycache__/kv_transfer_utils.cpython-312.pyc b/attention/utils/__pycache__/kv_transfer_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..18a07133e448664ba28ff2c466544d4f306fc552
GIT binary patch
literal 2274
zcmZ`4O>Y}TboSG0CytXiiAw@xQPb3J5}QhuTH2~AZGg~<^iWiZP|0lUak9>O*P0zC
zaby?sA=N1oDhJe72oWR>LA~%3C|54F5-IJfl`6r7n@dtr6(R9v<F(roM%tM-@4b27
z@9nR_U;x1~#4q%FK7@W_7jKD8V0#LH8z_y^oPlQ8$s1gbpW!(M3x<#rXG9kk4Jjwj
z$T{DPFQ?2XfRiwvmNB0Z)4tEe8Gn(BDSt4r(=pCb&T59C%^DbBX^CigJ0>{&bC@O<
z7L$}{rk%kgIY+EQ-szv$>^;yC-A*nZ-h&`!3TDcY38n>Nrnsgj?2zFT;M*Pt>{WDC
zx+;Tj9QcHC+%<_qRAOvwWf|`aYZcvYN-J~J?-5H}){Ucg-#xRz=kM%xyNPN^;r*z@
zXG8zxObZ^*HJL^{dRu=LRi&z&5g@XPC$%h=#EWP@qTL?<2qME}frh<%T3kihKJV5(
zzkytR+tOGPK83uMg)71mw}h6356}{1ZsngzoU({UEuzwSjjHpSnKrPkp1-6TS`h=b
znKd;}bYKFqs%0n;@G?#nsBW36l?kY@G*i_m#iomMACIegM#Uy8h;&@NK<6=8(rr8r
zs<6t+BM)+PTh&z4ny~WmfGg*M32!JV9#@w%o!V-~wGFpT$`C8(ibz?eiBn*Ey!CKd
zr^i)WTLc%FlC~SxUM~m_;euLqOSENt668|6Or3!1MbgxAc*XxVl%MO`%6>Ihuvw@U
zF_?a^&2&)BYXq1fJkzOmA`oKrHw@o4G#L6?xPfS^e!V=C0A)4oE)QobJX%#sNJk~^
z2kuMmA}XQPz)QeW=7Hib@m@V$hPP#*ES9Bqt$R|+a!L54yCi2}8oanXo;@_l*;X&K
zU$r%I=y}`9KG4w7=JcQvUy@3~?WS)WD)}x##HV92VXa7*O@xKV8DR6EmC+<bQA=x7
zbHc0&l28Q6-9Q_bmUe<H#cW8pxLAiHYGlrK<b@@6l1?Tt2njXYasuwv<#!Z#nbK18
z*zvbCve9A}3`!Jc67$6AZl^Y>n`yjkGc>Dpwknm%)AtfImrvyN`~(HXm`*Ggj=phh
z;V4cR`fMU!r1O@USTu}WqE%f9Xd1&#JUb9wOgvw7e9fj<iRQH8EN+iX&(rux!%As}
zeJbAM907yu?_qmVLBEGaHbbME@wYbP@7xPVZuZr}(Y1kkI9ltBJ{)|tHk_yrzFrMH
zl2Kxk`}y2P{6bwBs|K&HtR1`G7u)C?tNQPD?5lOC>;A3iR6RPi89n!+oQ912y<5tG
zx^iGGyQv%oVZ8&_X{~4U=3>2Pv?@0lhU?1kT3~(Zr`)D8`7qR94Q_*xDAwupv2es&
z;fT92-i^0UH|;z$wBxt+Ia7l{j~&s_ZRo^SW7&?lfQz;xxe0Lsmo%e*-y*~!j{p5)
zz6mNxw`-G0!hU%%pPN)i0I^PoE6OF?4u{DgFu3Z;K7edikRP%1o<2=jr#X@TNd<`k
zwTnHu1>4gKdfbhq6FV~M=-mno)dNE}CpQAGRnFdr_}DkDe060ja;P3Tv=JHK=$)vX
zZ^)9=b9ZQTYiPVaG`@a$W9WEI*|*b)<c{i*&pv$2_e%rY0+M?g3~IztXSg!`Wak9x
z9QYFnQqTRa$lb2UP4T<nt>E>KYoqVhI?rtjd?@fR)ZLJHf6w0y0ob0}%&R*>&zocD
z&Y1s9Sh#a!@JyHROP2(2EI?iXvJ*;Kh5><xX>P~0*%V>z>iF3oms*x#yHRvrb~BfT
zd=P!MKw+joQ^al)Khx7JIzJ*Z1jlY1m6JIuT`=$|5(gZcfA$1y4T0mhZ5eT)2WaF0
d8v08VIsOrXt<e?d!fVk6f@6JohaIlCe*x{PS_J?A

literal 0
HcmV?d00001

diff --git a/attention/utils/fa_utils.py b/attention/utils/fa_utils.py
new file mode 100644
index 0000000..cd73947
--- /dev/null
+++ b/attention/utils/fa_utils.py
@@ -0,0 +1,108 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+if current_platform.is_cuda():
+    from vllm import _custom_ops as ops
+
+    reshape_and_cache_flash = ops.reshape_and_cache_flash
+    from ixformer.contrib.vllm_flash_attn import flash_attn_varlen_func, flash_attn_with_kvcache, flash_attn_varlen_int8_func
+    
+elif current_platform.is_xpu():
+    from vllm._ipex_ops import ipex_ops as ops
+
+    reshape_and_cache_flash = ops.reshape_and_cache_flash
+    flash_attn_varlen_func = ops.flash_attn_varlen_func
+    flash_attn_with_kvcache = ops.flash_attn_with_kvcache
+    get_scheduler_metadata = ops.get_scheduler_metadata
+
+
+def get_flash_attn_version(requires_alibi: bool = False) -> int | None:
+    # import here to avoid circular dependencies
+    from vllm.platforms import current_platform
+
+    if current_platform.is_xpu():
+        return 2
+    try:
+        from vllm.vllm_flash_attn.flash_attn_interface import (
+            fa_version_unsupported_reason,
+            is_fa_version_supported,
+        )
+
+        device_capability = current_platform.get_device_capability()
+
+        assert device_capability is not None
+
+        # 1. default version depending on platform
+        fa_version = (
+            3 if (device_capability.major == 9 and is_fa_version_supported(3)) else 2
+        )
+
+        # 2. override if passed by environment
+        if envs.VLLM_FLASH_ATTN_VERSION is not None:
+            assert envs.VLLM_FLASH_ATTN_VERSION in [2, 3]
+            fa_version = envs.VLLM_FLASH_ATTN_VERSION
+
+        # 3. fallback for unsupported combinations
+        if device_capability.major == 10 and fa_version == 3:
+            logger.warning_once(
+                "Cannot use FA version 3 on Blackwell platform "
+                "defaulting to FA version 2."
+            )
+            fa_version = 2
+
+        if requires_alibi and fa_version == 3:
+            logger.warning_once(
+                "Cannot use FA version 3 with ALiBi, defaulting to FA version 2."
+            )
+            fa_version = 2
+
+        if not is_fa_version_supported(fa_version):
+            logger.error(
+                "Cannot use FA version %d is not supported due to %s",
+                fa_version,
+                fa_version_unsupported_reason(fa_version),
+            )
+
+        assert is_fa_version_supported(fa_version)
+        return fa_version
+    except (ImportError, AssertionError):
+        return None
+
+
+def flash_attn_supports_fp8() -> bool:
+    return (
+        get_flash_attn_version() == 3
+        and current_platform.get_device_capability().major == 9
+    )
+
+
+def flash_attn_supports_sinks() -> bool:
+    return True
+
+
+def flash_attn_supports_mla():
+    from vllm.platforms import current_platform
+
+    if current_platform.is_cuda():
+        try:
+            from vllm.vllm_flash_attn.flash_attn_interface import (
+                is_fa_version_supported,
+            )
+
+            return (
+                is_fa_version_supported(3)
+                and current_platform.get_device_capability()[0] == 9
+            )
+        except (ImportError, AssertionError):
+            pass
+    return False
+
+
+def is_flash_attn_varlen_func_available() -> bool:
+    return current_platform.is_cuda() or current_platform.is_xpu()
diff --git a/attention/utils/kv_sharing_utils.py b/attention/utils/kv_sharing_utils.py
new file mode 100644
index 0000000..93af5bf
--- /dev/null
+++ b/attention/utils/kv_sharing_utils.py
@@ -0,0 +1,33 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+def validate_kv_sharing_target(
+    current_layer_name, target_layer_name, static_forward_context
+):
+    error_msg = (
+        f"Specified KV sharing target layer for {current_layer_name} "
+        f"is not valid: target layer {target_layer_name} "
+    )
+
+    if current_layer_name == target_layer_name:
+        raise ValueError(error_msg + "cannot be the same as the current layer.")
+
+    if target_layer_name not in static_forward_context:
+        from vllm.model_executor.models.utils import extract_layer_index
+
+        # If target layer name is not in the static fwd context, it means either
+        # a) the target layer does not come BEFORE the current layer, or
+        # b) the target layer is not an Attention layer that exists in the model
+        current_layer_idx = extract_layer_index(current_layer_name)
+        target_layer_idx = extract_layer_index(target_layer_name)
+        if current_layer_idx <= target_layer_idx:
+            raise ValueError(error_msg + "must come before the current layer.")
+        else:
+            raise ValueError(error_msg + "is not a valid Attention layer in the model.")
+
+    # Currently KV sharing is only supported between layers of the same type
+    target_layer_attn_type = static_forward_context[target_layer_name].attn_type
+    expected = static_forward_context[current_layer_name].attn_type
+    if target_layer_attn_type != expected:
+        raise ValueError(
+            error_msg + f"must be the same type as the current layer ({expected})."
+        )
diff --git a/attention/utils/kv_transfer_utils.py b/attention/utils/kv_transfer_utils.py
new file mode 100644
index 0000000..210be55
--- /dev/null
+++ b/attention/utils/kv_transfer_utils.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import inspect
+from collections.abc import Callable
+from functools import wraps
+
+from vllm.distributed.kv_transfer import (
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+    is_v1_kv_transfer_group,
+)
+
+
+def maybe_transfer_kv_layer(func: Callable) -> Callable:
+    """Decorator that handles KV layer transfer prior and after execution of
+    an attention layer, if enabled. Otherwise, the wrapper is a no-op.
+
+    On entry: waits for the KV layer from the connector.
+    On exit: saves the KV layer to the connector.
+    """
+    # Import at runtime to avoid circular dependency
+    from vllm.attention.layer import get_attention_context
+
+    # Inspect the signature ONCE when the decorator is applied.
+    sig = inspect.signature(func)
+    param_names = list(sig.parameters.keys())
+
+    # Find the index of 'layer_name' parameter.
+    try:
+        layer_name_index = param_names.index("layer_name")
+    except ValueError as e:
+        raise TypeError(
+            f"Function {func.__name__} must have a 'layer_name' parameter"
+        ) from e
+
+    @wraps(func)
+    def wrapper(*args, **kwargs):
+        if not has_kv_transfer_group() or not is_v1_kv_transfer_group():
+            return func(*args, **kwargs)
+
+        layer_name: str = args[layer_name_index]
+
+        # Extract attention context (layer-specific metadata, layer, and kv_cache)
+        attn_metadata, attn_layer, kv_cache = get_attention_context(layer_name)
+        connector = get_kv_transfer_group()
+        if attn_metadata is None or not connector.has_connector_metadata():
+            return func(*args, **kwargs)
+
+        # Wait for KV layer on entry
+        connector.wait_for_layer_load(layer_name)
+
+        # Execute the function
+        result = func(*args, **kwargs)
+
+        # Save KV cache layer on exit
+        connector.save_kv_layer(layer_name, kv_cache, attn_metadata)
+
+        return result
+
+    return wrapper
diff --git a/beam_search.py b/beam_search.py
new file mode 100644
index 0000000..fcd2d1f
--- /dev/null
+++ b/beam_search.py
@@ -0,0 +1,88 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Optional
+
+from vllm.logprobs import Logprob
+from vllm.lora.request import LoRARequest
+
+if TYPE_CHECKING:
+    from vllm.multimodal import MultiModalDataDict
+
+
+@dataclass
+class BeamSearchSequence:
+    """A sequence for beam search.
+    It keeps track of the tokens and the log probability of the sequence.
+    The text field is optional and will only be filled when the sequence is
+    about to be returned to the user.
+    """
+
+    # The tokens include the prompt.
+    tokens: list[int]
+    logprobs: list[dict[int, Logprob]]
+    lora_request: LoRARequest | None = None
+    cum_logprob: float = 0.0
+    text: str | None = None
+    finish_reason: str | None = None
+    stop_reason: int | str | None = None
+    multi_modal_data: Optional["MultiModalDataDict"] = None
+    mm_processor_kwargs: dict[str, Any] | None = None
+
+
+@dataclass
+class BeamSearchOutput:
+    """The output of beam search.
+    It contains the list of the best beam search sequences.
+    The length of the list is equal to the beam width.
+    """
+
+    sequences: list[BeamSearchSequence]
+
+
+class BeamSearchInstance:
+    def __init__(
+        self,
+        prompt_tokens: list[int],
+        lora_request: LoRARequest | None = None,
+        logprobs: list[dict[int, Logprob]] | None = None,
+        **kwargs,
+    ):
+        self.beams: list[BeamSearchSequence] = [
+            BeamSearchSequence(
+                tokens=prompt_tokens,
+                logprobs=[] if logprobs is None else list(logprobs),
+                lora_request=lora_request,
+                **kwargs,
+            )
+        ]
+        self.completed: list[BeamSearchSequence] = []
+
+
+def get_beam_search_score(
+    tokens: list[int],
+    cumulative_logprob: float,
+    eos_token_id: int,
+    length_penalty: float = 1.0,
+) -> float:
+    """Calculate the beam search score with length penalty.
+
+    Adapted from
+
+    https://github.com/huggingface/transformers/blob/ccb92be23def445f2afdea94c31286f84b89eb5b/src/transformers/generation/beam_search.py#L938
+    """
+    seq_len = len(tokens)
+    if tokens[-1] == eos_token_id:
+        seq_len -= 1
+
+    return cumulative_logprob / (seq_len**length_penalty)
+
+
+def create_sort_beams_key_function(eos_token_id: int, length_penalty: float):
+    def sort_beams_key(x: BeamSearchSequence) -> float:
+        return get_beam_search_score(
+            x.tokens, x.cum_logprob, eos_token_id, length_penalty
+        )
+
+    return sort_beams_key
diff --git a/benchmarks/__init__.py b/benchmarks/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/benchmarks/__pycache__/__init__.cpython-312.pyc b/benchmarks/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9cd436f11175b344b6993b68d18b57534792db18
GIT binary patch
literal 160
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3T0&7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxA-<|Sw3CKhEE>&M4u=4F<|$LkeT
h-r}&y%}*)KNwq6t1)9eQ#Kj=SM`lJw#v*1Q3jpn!CYAsI

literal 0
HcmV?d00001

diff --git a/benchmarks/__pycache__/datasets.cpython-312.pyc b/benchmarks/__pycache__/datasets.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..96dd6dbc12818a8ee57be68a8598596d3553c704
GIT binary patch
literal 110697
zcmeFad3;>QeJA+(0{ZR-&^Q`r<08-?4uS_rf|o!7q(G72ElZGTsEK|60Rm|1b%P|}
zZdp;h8PHZDFis+Ht*qd+lRzWQg#N^tK_<x#WqT%?%x7o1*_6@g<?PZP?Pj#u-4AFe
ztH_hx+3&CFU1&BXdH0k5_K~QrSFf&Duj*I7yZ)`qWfyQwnZG&V`M@CjN4in2VmY$$
zGm9X+AzTo`!mtoFgpE^%VFUX$4jb98Y1qVm&BJE)YZ<n%--6)+_FFhy$bPNER{WZ#
zY}58(`?O=&VW9fVQ_gAEuxr{q?4I@vdsv!f$~#>&T*Tr9Q^nII!zC<UIOUrz9WG^Y
z>r~lv`EWUl+osIZ6~h%QZlCf`R}NRQxMQknx_Y>Jx@NeB-5aNBhwIR$b1E=hKU~k!
zTvH9xjl+#B?w)FzZXRxCanID2>6YOZ7WYoIP6vmBEM7F#HobLtD~lITwNG~pcd&TL
zROfWpa2JdFrnXIY4|f{`8@*xa)b{Be!#m_V<5bV^ZkBGG+B3X|#VV)vPWKM?8U&*t
z7EInyK7sZt9(c#V?}iVGrAFbH5U&2Z5UzR0$Wz~uvko6(&ua0kPPD&clFK}0Lr>^m
zcq$wa`@;43YrtP4{+jUDEFKPT5f6{K!!2L83?C88!>wXJQu@ct;o#TJYV89P!thb?
znAj(FjT!x@Tzop*wjaOYtztFud&GXRnm<9w_OF|V2g4nCo^;~Lak)p+;V!W;yiI&Y
z?4ugP-RRGD{Ov%Wc8YbAUj7dHaB@k1$Kzq+d?8A25l^BIa$Ryy+~Hk#t06WrJs6qY
z;#2C#oMNeakh)hqrKX-{sl7<ur%OG<QuibEfUbtKEcGB#4~d4!-+#PkYOUwPPl>%_
z#&93r{sMaXjChFN7%7L5@+_<82<qwA)&3=xI)K!p;+NE#p2Iw84j)tI1k3X@@(gMv
z)o=DZdwLvCpV6KU53|%0NIj`beSxJ8A@!8_g4)`bS?Xz|p3$XVWT|J7dQO-66_$D)
zsTXvqBP{h<q<%@4`XWnx4yn)UQbR0t7^yGlQZKR8FC+D$E_F2gmEkaE^-Op~JQjYD
z&DmpP1>q3Bx5!FdLWxmbi7}QMMyjYw9cQUyNFCRuUS_G6kvgFpqY0KeiPS5)ypwar
zMnT-!BuIcX_&VL;GUe+GZx^>uUU__8gv-?&JDwL7jjwsH3pY&93)c;DO-{L{3N_zu
zmapy!`TT0WJuF{mPCh$>O;uBd>3sxiSf0H~o?s*dcqrJ<U!I5trX%6mDKQWh$0laP
zXdo0AlS0$t^@wyOFcy&l(a`kOsfn5Kz$I~J^zw8F$&&cetQd_&kux$KxE7KoBC}C@
zI1~#-#aOg6Fc2EO9FT7V(b-F*Q=w=y5E%;`R;uXdc>~k4(O6&t4T#g?OpLcB+Q-Ei
zQ3}N-A~T(VbF){kMx>Y+Rx6CnT}3x1W=5xG!(y*J5a<Y;yBw0lW2euvo3o*rFuK(m
zotueW7Go2mL7pcvGb6@W^zf_{jValmo*f^@>m3b^itORD6HzqWCy6s5`$zO4hl0ke
zsqgTStUGim8k0h!v1u`OIT8+<veqM^sj1MVDKTpuj8T^(Qnv79=;~Ee7&K(9QFLAs
zqfv@u4qhFNT%AMQMq|SU1vi#ajFyN<;o-TM7#%!?Xz>ufK=`~kjaLszb4MqpMAnI!
zxvY6K6pc}_!RgRA6)Qh2iRYydzFqiy<cc^mF)vDo@geZY9v0F3Xb7W+JI9I0*}k*<
z)4grT`p3oCNGKe-ijI%q%_38?F>&N-D0Ufni%-r@#U@Th!l5bpRQ(g9)MoK$WagSE
z#YQHm?Ga2IYQ@<%GpDwU`=ZlR7|Y9%sjw)a2FxwWG!+SjN8~wy!I0;QREYu37F@+A
z3q`YqQxlh@NHm1}Wk;vP8xt7WK52ZG=Emue6cr^rac@o;)vq;q3luiKfz&qyQ2_EH
z3>$&Y7=}%vS+s~|0>ZR;hy`IIZDwL2VkR|aW*eMk*ecpYJIiMg?Mj)jMJ`z&=W>Wn
zHLXxibBSg(%}Qx=mY^-`I!DV$l!t%54^u4=I7^==ikG8R7sZ^xGMtzh6EXKjMP-$-
zMX0VlWa?yPF=$wPS7TW_{~ehUXR;;YjjQ4)KKDpuHg<J3Mu|gN?=*c(`dpzY_6g`~
zNTCsV8E5TsWMm>7bZ4z2BQuzNBO_V+2$jM2L)<ws^3rT*N`6u}G7^rABH4rmku^_E
zL}OXc$Vg~rCK6-oHcHPXW@1t^20$u9kTr)fiKH!bUqV3(g13bYgu*Wlb;YKyc3qvg
z+7Sy$n3o+lW_R!1b7i;Kg&EOxbq>pIrt8|&)O43R5YaAW4s~9glj^BP3I_2P{R)Er
zN_b>8TCD3<!R1|ST8!Qb-aM5yS7p2<zj`X;uTGn*Ge?gn&Awz=>&nhlS=XJWJF)M#
zrONiN#!_WR(&potmaVUxSlqg7P8Bz$&08}y^{*UXG%bd2+3%a{rR_?Co93SjsdR1p
z-w3q%N3$<%1j1|*@jGS;V<v`8427{^_7#YQ;li+K%o?_0E3;yYD-YX{!>-Ojhi(q?
za)qLth7HhxQqFKi*a^hK#SlM#*hRCNwcu9UDiqy34P`ti;}N|qcV*Zs7KMvYq8NEg
zs5hv+n4v57u<z>@6}>2t^Oq{mH<!XY*u!P0**9kjR%N}p;9epG_UKU7DStW!ZL$uD
z0ql{eD2B71@I;gV>PYnR?ARCpYk?%jW~G@?GmWc!Q8f<yZ9IqI4Iyrb3nTI)L5LfF
z#TYlvIO4*jj4!K?5J65gHEzP40x|$1aHqC1X9yZY3$#blLZxePW+FBbngVzYU|V^7
zE4w}syBrA31R_^y;|fiw`xSvyJO~H)d#V-E`*zyZTY$AF?Pl7gAEiL+DY@Pku;eZV
zdjqGb+E|2jM$Xw87#s@>MP|hIzy$4do3Du(tU&AqQ4|Tq0CBM6hX5G@*yMTF)Gkj?
zj9-pn!w<|xsgL@4bRR3wiWQEYoWqL%3z(V}8LW~3)c`g|33><kX9UzjE1T+}Iu+ES
zGtkewg04jZ{R2n)E}S?&a&BOtUu%0PXpwsG0kcm1b7?n{q&<{wra=f=vgW8bHO8{)
z9u{1=4!{zPg1Qyh+eka83}D>^KI_QHygzrYb}ElvM8+sB_g94V2B9XnV7_nluNMeg
zdy;K^xA)zRtsQ$Vb?iAxuE^AN(r<OfSFvFJbsL8g4b+l-dU^!AXAHo8RGo5oV8tKZ
zZ-9nnQyC<r@lE5nAz{KqemRCze#MP3b>b?7ptLh?nxt3CxnkJg_@$MJQA_NKF*X22
zV@{qzWC^Wy`imQt+TW4eHV8AloBE;Fq~w%}(GQPOm-dUgv^pwcMaq+~DMniWyR<yt
z7Uq$nlz0`)g19Mcp|Ln81PkU@)#(FlXC?~NbQ*J*Z+>ifsSA&7cWk!{$U}}@6%#8I
z7^R6%B||Z7W^p8#p>zSD!!+gDJZ70ujW{K*7{0lpnkY8eiLr@Msvh`Ilx=xx_j2pc
znq%UPSkNdP#_Qn*=<9svk;p8lb8MIN2BSa`feK@j-rQ?o%#^z~kTs)M(%Z(YS&9HA
z7Rs*`v}f(WR%fEI5D*5bgX%9pTjESuqR%01qoADvH+u%m6wk7@^Qd(|k|L6H1nEJu
zbb#{EM3tVR;244^!9rRqe5o{{?9|+d*2@tZpAq20{9CXwnBVo-GWsILhzAn=M+mUQ
zd_qm*%F$HGj%4x9g~E)ZH0h{+;PEfDeJ_09vo+%_f5Uyt{buZY{qOqT9sR+MmCJ9}
zrkeJwwx#O^KJXrWP*k;a{9W_?q7FId()<VBwhzndGQR!?{+gx9v_F`vXnSNbl(uh}
zOy$Mvf~lw&NJ3>`<ygwQGwIotwC-Z-c2r$@=$J|V+o(X~4MAHDVS_edv15SmqwN?c
zfbues%IPH9HDo{?V0!|almx9hDOtA_=w~FOkN}Azm}t^OI4sTtF3qV#6@WRuKafSL
zoRcL4LJ8Sc=Oa}fxIQs8MU>hcpgzq329am<n}@tE*iwo{W~EV4*Q2wciKv*fJq<--
zg9_y)hS_xLr40z{Lm~OX5p<9yxklo}7|F?2o3;e!+g0*_lZ1F-wFs8u#Ee>}80~!9
zkS)p6_}d0HjidD4<VkB&tDUcWY-Xy@UPpl_ah_fgJ}whH4atVnY4@3=^$eQ_S=)5z
z#t0$I(Jbl%-b^2F6A&kGOEY96j)3qH!a!az%o((Kk`EUN8{-BAgeFWe6_9J-J8n{D
zSKJh{p>lR<AoE?5!naA7<7R+Kb7%*43H8$}IKvcXj5r0#03S!*>WLUsNDSSF)=xbJ
z7+$}ONyqYE4H0Vq1S1F*NhHv9Z6XW|0oYMYu6SxrZJjqsv<)kK2}Ef)5Sa<6<Ed-+
zaqLIUr9*wNVhHs)Pm?`#V`6%CIxsUkeMyvvxj>Dev1_3TMv`l@i*5J_FgIT$?C8aI
z-XXjn&CSPg9Q7;fn$ClD<qip64cP0IU$S9!xXv;}H)oOc1!lzSffrt+wq)Y*#fvWx
zDbz{5?378jPTlj1YK`>bt-$X1TL&h_*!vPh1|kUTEU0yL=p$M-U}^9vPIO+@!Nvh&
z4#H46M~^K)#~HGoEu>#O;<OxXG1($@*hV5VBQz2~+1SQ%7LQp4pzvt{p*o@ibFr~<
z;z;oN*?Ln5)cMxO*6tH>zDcz{jQ|@-o8ZLWQN3(S2D&pP<sTOaCH^-$Z*?vgEf1!P
zI~NKcls7ym^Dni0YbsMw_n@q0#g;DH{&AtX!oJ{Kw+r6tq_s+h05OHJl67LfDgBCO
zi!{o41f=}f#Eq<LCNe^>n&GzMsJf`pDFP7;OnlBJ64o!_KAGpFgYGhW49GR(DJZL0
zX2<Ea8QuCiCxc|bW45En+X-zP!~*2l4|Wa}>MC1Rhl=b>MaCya)wxBiL4{8T>^>AA
zCIBtNO^l8}<kBR-PE^;E$5*;Kx`Eaw@v``u*D|7~GIgSMNLl67F&U?#O-?r)Ex_Y|
z9ch!Eis-+mLeLO=(cnt%D5GuV3v90HvB>})WK5Fb6`vk7Kw384sN`MzG^8(V8qbTp
zfj)Jlb33N=3g|2GW%1^l21mv{v_8)V<r)+mL;d)VZMo7A=B~1wFCs1xk3}M?TY3>e
z?ouw`HP4qnwsQG{Kc_PCmb;B@xhK=^p`>+)FF30_M$t{{N8M&2cc5+7ECphyhhLMl
zvU0AlLEBWZ)yfE+vgI0tIb*)(apM)#Fa1E<h9^~uM{5A=1(lA{Qk6Cgpri8DJ&!U8
z%easzh$*}xA#PDh^$QnI<9T6BrKNOzpwY^?bnhg;Tfz!NL8Yzo^&noTr?My>w~nZ9
z5-*r6&uN6^P<m((UOQ_Bf-^~^V$KyW&~kmwcL8myeTBH8UwGX*Y8)3vjTb?u;2o@!
zzMRT&dkaDnvyiYQth)EIDQ#+Lu_~o(Tz#tKx&nTI<cQTMIl^Y;$*YDr<EYVqJ|wKy
zG1Wt_Vo2=@P&uVSbfN`CbqOl-l=jvMuyLcr9s)p}B8m=d78%19qZ5*-VdNaP=vM#Z
zFj1|z^~B>qKn5wJvl2MPF|{*%X=%+UomcA8R{m!JKF)#F!N2^)<y7qD^3InB*fC54
zutWzj!3E<I2z6+cUILMviGixd)~Oqr`QW)L6HK1MC?NKV!~+kU2d8;T-T|Y%f#z`M
z(0rHnnbdah86s$tBvQ@P6J4p!`B48X!-Zlhw;k^TLTDD;I?x>SrR70Yx((^p=_wJI
zY(Sie&H@K!yfjw5HX@9TFf#!mS!d9bEx^V(E`m)C)_x>w0!v<c4)c!~RbrU&sInGd
zJ;*{Bezsura%2M3JR{p%kRlzYfEe3gw~Ju-KTE7OMsEe}9Kjl;9Gf9>wqOR;gQIE>
zg~Q-n5=$~`n8=#YO|a&}(I_o?W$+a$-#;CiyCmum7!}u<Z+i@sKQZqbYL5Orf>(q`
zTLh>7fwTDaXKp@|tT^)HbMIID=;D3nxs0>;Lx+3e#y1Zv?Z4+}k#j7W*D6|56|MK3
z!AxoW_l~Sszk4!O+P!cz<F8sc{-CsSspoetE*c(`)xLS{t;Frb%5&+uo^;vnMN_7J
z`w!0jS;^{ie_Hc?QEKn;^sZ-8_0KGte#@QlR<3#LQ{MXJ#t*z()(eHQMiL5?zJBWF
zsiouhol4uuioy5y-*-Ou(_nYnz5VTq<;I2R>o0%v<&}yBQ_{Wt0eTz#=APe*zPV#5
z`t3d6O5AfaJt(eTHyVp-HcaLc_qt$qxz|mCv-#7Xn*`5}XaNS`N5PW*HuKwtp|_3F
zUfe^LID~jsI2tUKT9F_HDQKf$AA+oF@Z88ra6bo6p6c&A!6!i%JuqL2M5d%el##?K
zoV7z7AL#@IXDA@RFMXK;GX=zN<C2j}6q6|Erho}Ac2I1W5>Tn=mjUv=E@Vo4ubjyE
z{I8tEI5o9qs#-FE=0~<Ni~k|e<^Eff>lVbp0WI^d7g7w|liGE9zU~z4?hO~kdV~SP
zpy5$rsio(kw`ARdUz8|qS@ETO9e2!k&VS#Y^7XEsPx<=RDHAHOyBESYD>rPo+vs#y
z&KlNhh5F`9py^Rzou&F=N!gO`R`0q6an$51XLt03ik2?MQnsoM8{Hl@2n9YM@C{9w
z+QvtYa?2^h!;-dj3q??}ymGyeMXf@0-MWoM?LtNMI?KskVPQIDtNyu*9&MPYG9$~?
zt5n%)aX&0BTTG;io7XM4k!z(GuasiEPKwc}eC$Gu4?G+5MvQmXu1V>#h0_x=Oorzs
z!k4o(*}aSI8QfyG{wUz#2xZm^gB2%^USSh#lxCfB0gd4V2f-U4Oh8HqwMi7jEl%Nv
zL9zf%G016!cxt-R&$eHrGQ_~l?rrgc8-^(K3F3wLEx@l8zt}3{Hm3ldgCXQswn{*z
z380xG$bl$<dE!i|WIul=&Z=e7N$ip{<FU&MxR+%BK;CC(2y-8mCctT!2r*UzB<B;@
zNfg8u(u4^}?Xd&A$N}`o<uMghy~y?!lDH@jqof}&eihWEthw-FU~G0~l%OJM5@@Oo
z5JE}UXn(mn*B%H(1J^~c%|cODA!}QyQLAWE@z`Z4GCO`5qF2<w_gl8)0I2DUOLG*^
z*h*ieAWlI7LDnmO@mM4R(H9gRvR?W7YAGIFo~g*pc(!OXGJS~z|Ck>UkjyjVd4YP-
zM05n=8SK=`N0ELNZ5HCIMQPoGSPlpk4a>(;<y#>U%~bD7R_wZ0erEOf`{k+qrzxo{
zuzWC8*8K`Zr;W>#DgU-RCsP%DNpmSCyv={ldOlg*j_{6$qDRiJn~ctab-`#U;8UKM
z2Vabz8dn7X=L9K=ViIA3K?7qS=vaHwFg>H7fnI}<=~sjg9Zk#6ryX5Ma~G#0e2m?o
zl8qxw)go(Q>I<9tL#xJwzl|oW4?TZ3E@&bY1!a|*Nmh6buvJ4kC-v(N715>R*g?8T
z81p;mD_zQOLdQu)O9ZvqHL1pw6qKRWj7z!^BiSdr;zC$Oq*0ejQsg686d~>|A%Wgc
zsw9R|7YG69Yrbn%+A#>4z-F>o%caCX1e7Xq?N@0<dBc3<L|7$w62>sZ-{AtSO$frR
zVcXY?-xhw?IAI9e-!z`vJVwMjVV6=ys>9o;D8KR)+JO$G50Wu1%$UQ@xIncgOw>l)
zq}Hwx11`!DcK@!*b$!*)D0B-^!*xKr=LG})y>^CcZ3R7{0!$b?AyB7f2@ZfBKnLk?
zka`T@3cvsZcU*)W2+1-YF$|!lNTx_Df{-%_;DXgAD?D*JV=OW?6}e8(kk`g^pL%)5
zZir3Q!eH=294v*d%Z*<mU7}v7Mh!5H5MshoOFUaB(88X#1g?lGyOufxEh1`5tA+_C
zNW<y`BnrGstR%t4P~i07iOxZKS2^VU+71+X^8?;_>dg_ZK*Vd}!vysF?6JdOAw!KT
zbd5=;l@XKyFNQc2IDUHI7=h|(aXNyrqU-}Rqma(=y4YhT>0mvhO{ZsP0PGh6=9F1x
zu&^O!6>0;|2ZfM*-XnbttjY^#Pskr<2Ncp+o!Tp%2XO()kI@SJ5i5@}Bv_w{jAD}-
zg8~<m`A}DsE`ZlXl9*_qfgbmEbu|zbsjG*iCo?V3iUUa|f4PRsvDj6XRTHPH#r5wg
ze{Vjsa$it;pIo_)Mp`gY4jU6Tjb&arrnst)M{|*HaajwS6j>8KWY$cd0(x2nTn_pR
z%WQ0{W6x05#s+s}R+`G15X_g;(Dt&#uF0$7_&)y4+94=Cf>kX2I)b;M!Xm%%yp<wR
zy!$T-<?)ghk!9XDIKwu#O{;GHXlLLg=@x=Z_}Dz9?}C{@Ke>}YoB8aGK)y-DPUhG)
zabU9M2tJzRq(tJBWQ`LMP;!{K*#iCoS=*(aoxprBHM3UmsnNMvJPeDJ!Vvnboqf?L
zEm>&_l|TUdYgCt=4-pMa*2&|%PBs`h0$CTZ0TLW@WjyKIs9-B?g~bRU$Z8d=#f!~v
z`tBFjF7I9uQ;j<wcuU`~-?G2CdwJJN`F9SctG1`TI~FVt3X71h^sTDfRrd><A9x$^
zxH;|Jh9@r1>%%vPU;FaXaK>5m`th5`7w1>DEP!U}eo$4vR<$)%wRPqATKl0?`=NAu
zU%Kk>TGe2xYViG*bk*5~6Q5WFcO~$H(m<xNF4@?-x_`AZSwEQcAAe*qdF_zA+Uy_O
zc{fY$7uEoa_Li=B>QbJ%WZ>|9&yhza!BzaQq;hH3QcJR^0i>I)7-+S>>CUdzU~+qZ
z$}^C(4t!|$W$d*}vrFUaf?-P!0$UG6yAI$VCQHF5_2|UHmw&-9g!i`f74#RFeq3Pb
z_Y`I=B)f`iLIa3fZ^GXOv~fQl4cINC0Xwh_v+X^h<2U9*2sD1(q$<oqYx0GyTt*MD
zEkZ{uY>6w|V8LVCAQA8E+O!R-2!Qew+hCzmtGo?b)ol=Mux*gnt|A0s8`}o$`fV`i
z2pNEXFwphbcE`q1-k_MC6BA@%-En1sf7tDgH_le;|CjBKS3@gLhV<CQ{(nd>YhG)R
zURuD+l3qiQwXq>1crN`0?&r%GJZFhr(^q%qg7g1|3cgOkW~j{vo?|!jFYBQ;-@Hj;
z!Z%S8yLU<0{y|@&)pmm49IMgqas<J7og7gC%0RmqZAMhpi(i#dpI*XpM)*6hoQW4Z
zgH|21|1Ik4Z&UCF1??0pQ6NL?HxbV|bQNTs@(sg1BzoZ|fozsh`VMkDk0l@d6GQ;A
z1CN31Oj*^^v0F0>jtAv6YvnDe@|G1xx_swa`My;7zSU#t^8N+qLth<(uX|V9S8J2?
zPbd9@|6uS{*fM5Z7X;h5al>RJ2&+<f7il!yjM7r6%&eF5l0lt9FP(8OY{bj}IxNj)
zi@}#1VZuddC9@n+FehimH*qjX@WKFc52MTCrUb0a5`{MKGA3nUi5%*s0ayqTgnS~Q
zxHWEmSEHE>anyIE5?{4Oqvf<(z#Acffjj>*Cd?_E`OExIuYkQL8D{?U2~Y7p(zoK4
zU)dYCOp;(L=c2789~Jjxu@WdZ8Yx_pDt*ZBDOBjPgl*=iruH{UYGFCoB(V*1u79}R
zfQlrpWzMAuZlHWv@`MrW#|T=8W{n#wiKZ=p+C5ORM8TrrH7~xiAznCUBGtiJSX=R}
zYk>3YIW89N0AQHu;HX-dWX4dZmw8f9FNuMv#?g9NBEsgV{9N87n6`|<NrGk-r$-?5
zA+1s<3q#(3nXmD}K<khMS|$qRron;Y%DSYr%j{mRiBQ-Hg(rc)5;;cjE2kpPIU~^q
z>nPwL?<B{^S+@vd7YRWmrLRk{0)d`OAR3vL>moCeXdoP6Dk0;uQ0#$nDk00=z1^sk
ziCoxre@Tp87x5CH52NDfY;5A1TmvXTu-K?`dB;=XHK`*;r1DX~Z1DzDTWDuWmaxLv
zeqPb8;OfsW^z7NQtv!IS`(mKuVBm$8A1{N5nu@lx2U;$}IHHA;S>Imh?%9Q`dw1+@
z5A592vne~}j$Wpa72&k0Oa;<-LGlBwI!<uG@(CYHo&oZ{qr4pd4or%r|CTay4>L=E
z;@R)vX9#*}W)c8O7jOrTAMG2^$7G~{G)^~GXv~NZ^hC4vYak3SjZpS%K`g>7D2y{#
znPf<M9(kF-2bB<DmHt}_zDvRPD4^D)-$#&jV?PAZK0;ay1XN`RJUtO*^Ma{#W}TRF
z(7It$D8JaJ4ypqR&zXNr<Q|csHwmo%2#vi=Th&nnOu444?v<fTX&C~$J5yA-R#cxV
zs$cF*7j-WbWc&?l{$R=<T-lNw_)^jzO#7c(aAzF;r8D;&wGTYSiwDzCv)j^h&(rgu
zzG?X@>H3|?-N#b(#}?h7G)OS?a@tXwY}kI!u^kByV8T(Gb_J4+JMOu5WIV+SU(3`r
zycNG4&-h9+zM3^(Ys%M}@dw{Ma>tzpJ>owEVj<AJA(#WjpID*zb8E}DS|8bjqMDDL
zLZIQTx!ZGVb=y*P+di{=_vZ5JR37w)t7^?zpK{hOw}0U5%IR9o)@1vEWXFMI&B2AC
zht{&C`joY5!To5r;P9;X3QoNF^1-B|J8AA_9LiCQt9p@KhpvrF803Eh`a`i_((FfI
zY;A_2wFO4jH4DO+Azb)%Ck(B@GGo?FWJzKlD-1hCTi7YuVFls{yJ4f`LEJ04V69<?
zjfWjJ9(GurxJ3^!CC7YZ<1y?Fmx@J`O{@o-0#=%GGdn2Qj+DX9q=eP4uanv=5PkXU
z_+?VZOsrSVa5>s3W$#j<w9fkCNAKxPD)Co^zbEyZdIKvN(Jt3m3^Qu;aM=PxAH(I?
z7;3YwvsmSk>3*R7kgSHflzrlyVmipcbw^|d@R-nBWMWWDmJ)Pn?0!vzpolX-JwOsN
zKF5I?F}FxrmXk?coVPDSby*A&xC%W+S+2kZ9Wu1&fINiZuS`nJg%MzhLDB&D3$Q#k
zF%C&|7_2eqVh37@kq0&LDWpJCn3aK69hi)=x?cwvmW=ZRC<u);WJ4aZnAB91<n4tg
z5aPz6T}R*;x6CB5H;K#%_OKm_AUO5|VhV0H|B$6XieXD@WNeHEaVy3lEZ)E`Z9L;5
zEJ<W@wO}yN9MFKH(r`c9TdCO@v>@-CT``D?$fSifLRlU!1984zj$(+wn`5w0sp$d~
znMu0=@)_9xW&~I#_GprpD{NF64`z_WKKJHVqVGstMYaPmlcv8`*2_nNSr9&Y1-D!n
zr$<qVw?K&520i|5gI>sR6AbEKN6D~Z0!;Yt8Gge6<~#2Bm5-B<kADD!QRNCKWi?R)
zjGI&u#hmcAafr*Mzy<+F531!%viyfA$CVQty0PIp3T7Inw@qB(;2<()Z6hPhh;?Kn
zYQlXW@Cq{(U{%eRoz*Wb)tctt(I!Gd=)ZeKcwlwiEKFG|Qr3p0o_p4YkHIS{e`E00
z;F>R(@&#9#*4lbgZM|vVKFyfs8j2oe8!X=$bCe!n3`ts;jMgB#GFYjysSoa>GQpS(
z4oo^i@M!xT)ejmmP}oPJ;n#m6;HmVEIhTS}zaxL>ghRtsp?s!({<zA7i93jDP?$Ce
zr%u6(Xq}uZ?hG4s(jHa8it3ohgi_me>Dp4ID{&V|8WZj~%>J$bv`M9!gb1u32V@<V
zcmcwKxEo>N@2b6g^+^&UW4s_<NVxSoG@WsM8KaW$B)o|tj1VzMbFM@&((_1<5+yNJ
zdNiqQe7dsnV)fm8x}2)?N6V_IdueK2ai3CJmsX;ru`eKh8zn7Kise(M)vCnerBKf!
zBo9}j42pZ@pg${O^*n`{OUX4sc@G*E2|wy-RGw<Tphn8#mUyx5J9*-M+US%X=$;g9
zeiHY`OW(D=BhL>u;+2W2M0LC(UOkT)o2ZDFPd009DX|!753ws=8L!gS@6D;-6eBGZ
zo>TQJKy&9^+dDECQhEsq7?wudh8fk585PBd)M%ptI?)K)O<pM&5h#daM9T37{<w{5
z1f^CRulbzb)<Pk$PNxu97q6Ra<NeczTp<t&dv&o6B|U8ax)4YC+?9!*ZF)=e247Wq
zt0%r|2=7{xD34cwOF*1}AdAtP8^ewn_?AfoVx3CclLXgtuCOb%LrIFOz8&HLWsIOj
z0aQd*JcO@@pnFKarK}%fux|cPM+e`eI~W}6z?Mu(W)S-afay<7^~xe1g_7bXY6<}w
z4a`?EVoj}ufkspbtROJ|R6E<wp;N*vDy~MNQD(czmE|~VjuQ`oRvAaws_4Z9sT=eE
z9G0guqY#9F#8lhRdWxN(3xuEggjYf@!I*fUIC6^WyB8%BSD5W-kR4dV*i<AUwSt+{
z3i6MS3@kZi6avydqK9PO5)g{EKx;P=S*<cE6gYSw(B1jAmF*&=eZjU3_Lfiqj7oR$
z(WHMu!4DB+3pm~a)d50V;0c1nvP|!S5TCcr+;)!Ez0^bjt-MW=1p*;75jJ)rcm{%G
zQpdRnfC<KhVG?P%*Y6nK02c6Cv00cC{)y?jfhj{k4}#i&0-3RMn{*Y?C{?Uz@7eZ~
z3iyqy(!u$bvzxYGt|ZgBpK(&72Rqe_H7Fk?Nc^8@M^0`z_Fm~~<8t&5UjDt8-z)u;
z@h@L3s{mmOsjHZ^jEUDp=@;+xjlxX>kUc2JXiDcC^NO;`1jR^X6iMZ>nWia251Br!
z;-MfA8UwR~vknM_M0Zuhj<72j`Cw+@zgi#+`(k3C0P}>Rx+sm2J=07G*5N80&t8*i
zLtjS4FrIV<E2S>HUe>Rh5;7@FG%lEsSrg_FUJ&eMydX_1_7jRRPH(n^Y)zDkVfzIO
zs3@BmSr6V{nPqI!5c-rY;23Sz5|X6Q95c$4uFwOxHHpc(veE=4z}|)VIT3k(RKBTn
z98bC89^*PUP-atfc3KiCRtQsO!n(62c<l(*bA*hs2{t1`d=9@yb^VZnISPJ60mI%L
zx&a|R0=Tg13d$Cdf*GGQVV<1zP!iWeWBDMhR2Ez`>(G?Z;KqY57I~D4@GUM+Tmoy0
z)Rbr<KqVCe$K%ppQiuM6f>8unA76qB1A{jxMd&#j29K@>gyl)!r&4Z)&8ga5kVg}C
z#}){&WX5Nrv|$H6@8am|C1joV<y$}SnkGc!M#ikKh9cooaINw{s`5a(@=&_$DRAli
z)k|l-XIdWouKP|^DzHE8Kd|6_P#t*d`0eA%FRzyT+3ejH(udBZ_MS<#oK07sOIrO8
zDq)oR?JjT)P|t!V<EZ3364ER+6jf#_o0n>mTb{aGb=L*S=8)kGbQv3x#f=bdHnp!8
z78JpZ)k?~zRw$qPg!XM~TaTo+9?3W>mbNa>-Dz8$0H?m)p0c(s*cYE!E{8m}tZuC|
zm?{k}*fZ75Yt_3_(Dy<|fO<cF>-nYmbZOgy{ei#gt%}<f-)s6_bfx#ZU;DF?<bk2|
z-czZTQ)w7S`p+zo&Ldvz(CtGj2UmO3RY#N7iiaho3)W0sAZe|BP*k=U|4C8PLSLq*
zcdh4as^@H`vN2QNovCWZfA-cZMYpHZmF*8Oj=Pt;Z})!dYnih0OkKx%k+A!mVMDO(
zcBh;>7LG2STK)=N%~iiVlyYuQIs+M}kCb;Gcxy6M^)R`A(7JWynN`EvL+RFinYwL1
z*m38jKk7-<?fuwhDJuS3Qz1siFF;k3EW#FF`o@7wP2IxKhfpT&UYc4N{7Grgq9Ice
zfL+*`75{fGCM$L<S~A|+HE(mu+x);+|5rWx(sld4FRnzFO@CnjuKkXfs@wmdaZ8GT
zWqQl8bmOs1dq<{m=MSQ*-FIz&axlI7c&hO@S}!d_>o7022xYtR1{GTto_^@4TkeMH
zaHgjFPT#$nUAKBxcQ5pl`t#7up>?AP94f0&<V*Tm)81gl>-*S6-7glr6$_qEf8HVl
z4lupqzYt2E-sNVCC%+}?E11OCV&Jon;c0uwM@GJFCLdLk-)tssgxti0YH<<Xnonw>
zU|r{gancMm&3D_CHFpeDKY?x;fdD^)-O5}QPE1o?hW$uyqXB3|{5gK4cPSXB;Ga^e
zOo1}EaTf_P?a3{Er3Xlvuh_hJHMrZ2wHqBo7O*fY1aIY1-#1<cr_cqrFupfzw`^<P
zh7=Say1zHN(wW|}_pUwZZAg2cd1NxW+<)!%-5mSoWvn@y9bCX--?{@a&c#zHYgAo`
zKN_Zu3WRTvTM^im+%PgBlPAm+aHHiKG9K0`n}O<=i3#umbm=j9*g<Ys^7(sEhFw8t
zVO>PMU{~0zE3MWUFW5we7HX=B`FIHNLefQejOeuLN;#GGv|qUt5;l>lHeD&ZmRpI%
zncl-=ZP|6D^0mcF<+kO}#vyKp+95taT?xA`-Jwf&fV8!-1yiK^5(RN9k;icx)CYC;
zLUDWC@mOAK+|KfXxYp;5se-n=;x!w!OZ6#aHOK;CG7s6DPvw%zhAl+G#0~GNZXgp-
zcl^RNpyfO@Kppan)&O>bB`+DT?~yz1jJx7)CX{o`a|sSDc?C2mNES5ZR5SA@!-;=}
z7nc4Ng85n<Vz0Rmm<hZ9+Mqkw$sr2KWagVyT`@vkI1NMSA~9MeC~EaW)!_Ppd28Tc
z;4)m`9GKst6p$IVY8P`#95^R)1v!70FcZ$geW4i$adY${!*4YtY4bx4?wkzYWZ0^d
zrkA@<!3Pxl1OYt1i4#){1(e1pQ3H-dr$AHf0Hrb<FbC-)<S<*T!}k>A>u2;pVU0zu
zD<~bkyJnn#bOpVm2h#sc&HOJE{56882LXLW-No^!3?9taKMsnOF_dxXK7z^r7;ull
z<RahVSMPgUm(Shvw!*w7S#uy=d@$)e2*aA9pg!S2O<>u-R^Okh?@!ksP1hVtS}S$<
zSF-y^DsUw2?_Y3#=&N|+_^snhFW)J;^TPM*QgwZ4-{A$@gHk_3cy!67hk^MZdHB}w
zvVA3VXY1RMRN!E`^bnHED&Ls6HK9)~JG9_{RXJ>8DwofsOIs+DA6VB*>9XL0<DtX1
zIDZemONy&A#k*H+cfNYJ_5I%W+mqfe0V5-f4SNcZC}-J{<DR3DnGzX_$}{Eli&M+3
zEBjVD)=h?@z0hQ%ye5|$s&Y2Z>yDd_jPsd{vozx@WB<!Prfq25E1-kG-_}Z7Qn0eI
z-RZq+`2NB7oypRcbm;}4dc6N@WvwYVJgdC(!rkugkG#Jh-p|ry&n-AI#bs{<Zw1$i
zo8avXc#v(ab$_aL|K0sbI6o^s4M!|+!Lo0qFzM+^TDfvPN7@;Q{60;Fe}h0Jd5Kr0
zZiFA>2Dpfoc!vb0G|-yQD~4tc%ko-KfL(E`vc1h?yZt;2Bw-^?6xEQhZ}Od?a!1)S
zhmN~yAOOrX9rA22z<uPNF#ek};Y#SWLR?DU5)J@4hYaLQvkpvd6$Mg+&tRgEssRXP
zvPRUXF34xpyhEqX55U%YGmXsgC#I%wT?|}?(kT(dT)@l#442(PjUW&jhiFE_suW^6
z4EGnRG5}Pgm_7hJN<t(ult;p^c4wTV{vlbPn$z=Oos*FyI#7QAg#le;KOCH})7sX_
z{GTN9C)n{zi2YgiUqbY+fTr{C0d*|`3r|RmG$Gk2%yglyFRKFZZzC%$w5tO^L$7Fx
zsG1GnPAC#6$l65gRW!J?q3{n8&ixEWVM0&9SSQf`J-YpU1i?ay_y<y!f^iB6-R0W>
ziQgH#SD-wr<S!`oE(I#1N>Z01qYVhQgT+9c1>WS}Q0@i<*>Xj%f$s$x^MMHJCj<5W
zfT#1#xj;QX8-oD*Zy`Sb`%a;>G2<#(6mNdz%}Z}h+@655joR%g*Y+Qbu6Cw-22;*K
zAlaq%zqWgCZuw>_C?=@-76_GXD}yQjE=FxuHG>x2``wpQmAe)^A3C=ZJz3Y0so$1q
zY=yryk{baOy4=tjw(VIcNP1gVYCkR(s%n$9yV8|CpshWni(gxDCp|q$YY(?eilKMG
zid;j?tw_xlD{kgapB*?l_}s{efuU@Pl6JOl=-9x>*}n6Gr?N##;^5Hf3+Gurwd|=2
z=jAjmUn@e*{EN0z>;?sE6m(EfPr)S$7$d0=K2aG9iD;Uvg(<8^w5dw;5wb2>`Zfv^
zwUH6%p!`duG7G7v`2PFHl$C;ifz37gHiEzVy70*8fK$wBp|UDzF3VKbB+ccSifR~g
z!6znC{?=@<>|ZbAhK`xa_Ds#TjK7T{{>n$C!v+h8e3(*F1fPdYDOr?TJ+de_dt_0k
zP+GC>Vo|qHR<-V7Q7>#a*Na%Rm@<^GsE<-v10c*`2}%~28-DiahS6=YKdh*H%YNIw
zZb2L^qg)}ynAPa$P5*|C?gCwwZLm>Yx8N6<&}1RStW>v+Vs<L%pqNweZC!U!%q`eG
z3)1WJH|LkOztwxYcUk&_`R~jpJ>4nW_6-l^xMbLB*^T;8qL5-%p{i~vdONsoqdQ(F
z#rXSD%uOwNDCPw*zg|Q!(C{VeB^2`s;I7cil+s-pwI5wPvQ)B=NZD#WDMuooo%HQS
z@uyx2L9p>_NP0{`#KROqOi&0hlY`O8Ji8cDRYF9q6;i-(!I%Y3KcPqhB@Q^gh3ip=
ztVCji5(%V`qDyqso;&6ZyUBGZQ=;&K#`k9Zo1g)p{aGln&0GN(oS$XzlRsA#C}h4o
z+dmZao@~{bhv?`iEIVh$6{U&8vKk(MGvhXL<%bSP8-Tw@v17qQGV>}m2BKj?;*UQ=
z_D;<C&zHT=3DUnnM%ZlsDSr6U{qGRVBj#>+;>)Wd?{@(QH%d@ESLB_xHt-KkLTx7J
zIiD-kevh8~kb)l}$U0!jDY4NNrBPWPh;%`4;m?7;jo$>TV3XWhmFWT_DwM2ooYp{+
zFW^QXzGn<^3-F`7nzHatW(Lu0%8~Ut62N^l3=S9*Q`dP1;Ds(on+v0U@STi|G=_Yc
z$D+pL0;I}FXF8gYBg-+^A}2gE=vUlLJ>vaJc=GoNIGs7}d8|)f^oiupX5I&V2>Ekf
zPF3764i-ziIPTWHi)-_{Fl$J{VsSC7uO#71ltSWJrZFQlUu=+ep27Q<e|CGi*1Yj@
zT2ac#>7EpAeiARoSRp4geD%GlNca<#kWW`K8E|R5ET7&lWW@e4)vyEtrE_NR<`Pxf
z8<74iT(@A}(1o|ariiyFgVeShY$BvVW?PN9Qxx}cj9Swoh*vAUCl(K8lP^&dugcdC
z&81DeWZV$1hJ?3Pmhj@8AQP_TV-K0G%}h>MYN_RTjb?)ywm`Cra=FYd%7=H*xxHci
z#vE7sh8*t}<dI}wgLJnPl5CRfw#0nM#;&|JtA#Q8SnP_IDmAmx{U~h=TOkcrCEsA*
zRH;(kT1a*6Lm#0-e33JL1hBo&$Kh0RikhVl#3YDY5K$$FHVhslh+#$$$udI+WQGQk
z8N!tA0y1+|AL+kGR4*=+{yh@rcRU$@F+yF;BQ*R3@1heLZhz*z3#+4dz;^%Rp7$<%
zx<SkERZo#Y`nQNk_b5nGkU|i2ar}qjF$`@bWQNJZxY%o)ZtE%dA1PpXl1Q=tiGqg+
zf^~UCUYkLsMAq$G(B*_AOS~$xJhC3RC6MNbLBshES-YAL%^F6sE`BSEu(CGwY1Tz9
z&$V(^`4+-2ifxj4Ie95gODIjM;xg%frB@lHAVNU{1%E>U;oj2!M#2A%K<NvkRp1$)
z$$LphMWJV&@T(JJ1wQZV{vmxzoWdb6-<K6tOZ(F0Eep<{9(a0b?~38}!IdxHtK9qk
z#DeEx%ht7)L#dWS8K-OEt4pU=&fKwqk<kj#QWHc=eTxZF->O)$LzLr6`?f6De(I^r
zl+-QP-z#YZKcep+yOPdb$&y_pn(9kAYZgv`i?LL6b7)}@a;TdpA67T7*izNqcTS|L
zpISKiu(4&WabK!&9~WgM?u1tTXs-$F1s1G}^@}eMhNp_MaN{akbGD|OtxV9=n5n8J
zSyN>r$(IhS6v0+8UEU4})4E4+1vf}uMwG(-1?OTU*|HB<r>|_m`XsrPTph`+E-$}y
z`%1d9jq2Tp_`!5}8>(HZza^q-Cb_ceC0E6dORkolT^>nR@A|;mvtCYusY;=;8hk3q
z%wAe*U$On9XglO)KFAUwlY0I;HA!FB!oVZopLO7Z71uBCPZf1R$Tj;%z4yEa9+ozd
z1fvposG^umg0bq>rGtMmn{FTYli5|%%DFp5?>xIYn`$3ORSjh7+TV?)Xwjy(Ka=iy
zCRO)LrZp%F&Q=G%|8jcA(Nx`0o%GBj6z^CM2+jZ#T|G%yRoQu`=w9XaTLr6ys?@4B
zX|4J6=Z!+gQFso)%>7rT&SPe;#OSV~d~_E_wg~f;{xb!CPeBm{T@)~Iz$hk0J9SVR
z0~VJkCeWHUAkdRRCQ78>_h_nr6Zse!WVTrU)@iUb0#}Eln3}e=nuDpDgBkypHUFNJ
ze-G%LOm*N<(Q^h%EhBj-f=Nas4~ue=heho~X*gIEWJUS9i$ysNz@o&QTW3`P_m_#A
zPfF<#$N#8z1P;`zR*r4_2KxLMqR&neAp6iajj}#?0rbJ?UqRUVrV0AswqaX1$jAW)
z$N@WawH-_s+%7sNE7Vrh2z0vL(2RDe`8>#P7u`6Kz>9Pbw5`3+q{ct4NsVVkIP$3&
z&x)Z-?%w=VEaBe7sfPSdP}YaCK4@;|)(c&3u}nQwiZsp3!{z8rg;)~yqrM{af%z)`
z%yxOLy4+9h2_tHtOOBQ*piS-wSL5%=@3grOcG1824dmKtP+MiV7Nk_w<Q{dH)d*61
z)f+W})cxv>8bRto^+t{0BopZRiy+s=960<dfP=mqIOwYg2YuD!pf3jw`YOReUk)5R
z<;WQ~Wi+4sjxDIeE;fjb>}{&UtswZC7{S*Jg0C%G&Nr2ln~sQqR`+ZTkU%?aN}B$>
z<}X~O|5}*|6g0reb3`=AwY#|2^62LMO6G^2!<izpvR_<~eymup&Jn@2iBLd2?1!95
zu%<WzvLo;;S$Ti)?0vK031lb7z;h5;tL_ezz9@1Ya-e!`LcGo?)$U+mNM(RR)nz)m
zNt+*xLXJ!k>yhd5!=OO*WhATlbNw_nei*_RxQg4%5C3^<_s<r7Qwj##10(=yWhq;6
zf3ZCP&&*&sa#cVuD9Kp>XkzHRb9E}HPbt;CNYWpiLBRS(PIeW|=odj)b4l67&VY1a
z8(e~jSIH!e+Xn1IS~n?rMXpB!+f=6Rd9((tDW)%omm8avz#x?ZPzQ%*7IXMV3{$8q
z5nC0yS{=->{X}dI&I+gDD3MpRJ;;xWqE7wnmD^C%rz2`87iojRY137xdTB$)9WY&*
z9lZiYDsJ}xSI*o7Sb0y`axKt$S)?;8FhmpK*yVPn5XjE8!i4+Tul*(|h+PU@nxMuy
z1789k9STs~3J+t?28-u@k=`D|!92Q9uk_C#CS*^UIj=f412Dgs07IR5WPvqUMBf;5
zW<^HK*Dy>}AB__Z0m2u<mxMb<I-GzG8ByIhg27JXh@WoW#ExL#w0=b4+X`kNA$&Bd
zLWGk+_-@C699R`EveBmRj&C3vc)h50^h;z+0V{oF&@lwe=8+s(qCN~Q^!teOf_pyd
zauYY$(OYW&m9f|CLA24OfyjL`c_|HWJ3zT=)sTf9B*0hIS6jF5>S+(Kpc_svw{`An
z547&yPIBGtWFyEEcjhGau&mt)xnCWD^Vi9-F`$k58m;=zcmS)HJ_X4}*r$}U$>nqM
z_Q+;5rw*U%><yeE(;!~ABG+V7R`rrX9Ilzjbw23lKl(2K;fyE)ZAM%?=}ihqmQ92Y
zu7`($rl9E~hRReC>OvG85|Y3KJ`w<6<pimk9^(8t;Uj2~!X{!b!c7Dt@^YR~6Cz)j
z=|xWA1nCLfE*U&O2KiN9*Ip9}!$q9H5Sy%pt-fplUyS)Rm0m;dNEvn#zqwa_?Iduf
z;5i?M4VlPFgJ1cKWWX<xpToO82xU2^U5RPGnxB1aaF*EvcmdVYN!wZA)kyx-va=;-
zHAVXk^YNk>e$fWV#di}BHC=^;mF%aK1VdQr*fs%BW&${2FB<D0;Tz*)(m8Q(WS}gj
zK<juU!Ve;WK`K2%>A|j3*aj{^bpgB29QKl_i7Ny($awW~Bo>k3D)j&`4LbqO7y+P+
zVhbc+2|s(~O~CPvF&LTs?3Lf8g)atL#m@0gz{dy<cnDmYnw99ZJbnS>h}gf$z6vMj
zu>%3ADcF{x`_Y()(=7lUunmx05Is}@i>$;&)Au7x2pGs_En#vZ5iHPYEifU6Wfr^N
z9*L%K)<yuHi9D1ONdh#J>JemJ*s{nbiw$QqO5c?_$w=L7g{nxaek|@4XMWogP?gRn
zmDrE|Mh8$kgjQa`U-Opjwr#DVEmhG5x;NwWkPz#_QeV<p`=HqOM(eFsScUqxZU`2?
zeZd9eQg7+&U%UCWr9|4(k+gR3RbZ#Rmv1MVj<F&JE)CB{8`d^yis86j0S7tcJ-8~L
z-WN)M@x>N{dCVLm0*hVw90$B>Q5S>72;bTH^t{3azX9|4a3MTUyOg@fwiH@L=pkKj
z9!K7p^9T{ZUN+~`ZGv7CnGAvTJ7#>>q4vQZx92nbSD1TIhi3E>cD{odKo=Ou7BDEm
zONW@<o{voj4JtV=Se>O{@7eQts#aP7o6efgb)5EGXFdc$h;9^|ac4erA*E!(6$YzY
zbIxagTe+{fCJdu2RiA!Nc+ACInQ}1bX4i9bM#c5q{JVLe6W_V?km)g~bcB!`+K}aK
zPM?{>DPE*q7IiZ;5K!Rc>769Ghlac+5T^|jjy!NQ8+VdGOe%6l4P=SC&Qie$<97~8
zY%^=51>Hmo+6*5t*FGXbci!BI_|c#-TM)&WZ#YB2gEN<K$_O1JF**hL4vwXOH!&PZ
zGnzGxUBxjhY%!e!mNZ{;6vusVjFXH=0IKA1V9rCcM(GlBSpzYZY4qCm9Oxr$p`H{!
zOBBMFSb-7Vj6~BvYv!k5=pMs>KY9xOzu;Ecc@}8)#5DKAjE#<p<5UcE8~`1MdQ!io
zTdW%N3kNH5rlkteq&6CgofNcEu#Ey7A`LJIZ20O3`8boK<oHH$F2mX(0|nBM%NoYA
zF8034*<w*znFJWM>&YOJmHeeZBr9=(KqQXh28i773bvAm71fVJ$?~PL<<b>H(%F^=
zP6DzPw=R~f6}6;_T2{)EMcd#r!0lZyedwxNzP391fotG>f2N}TE%$Br!XUUV)pew4
zp7HvZx2%k=ig%w~9RVw>8gSQG?Or%R65haCNo%U4^?pg)gR+KX<KcAKk)-#?fAnu5
zW$tQOv3J)8-XIEAwh+6}zvc|2oPqn!1~4K?q5QtH2KroZ>^rgSyI-_rr9Km=|AT_>
z6nxjZ==ublH!4+Hy>u~Ivh|a#g8Qf;<r?^;3F*nAEx-7rnNpIjfnP+M@eSVd9X9pb
zOg}0wIBqgDsS4_NvOY(F*@BK~8WrN6ikzP_3D_NWY9QBDwOYh$~@VMKr!;rMl;
z!y!g%#SAgbK_I85^s^MRCOU$iu7R9fDp2rM15Qrcf)i;Ooxxk1WoBP+i^Oed6!gFI
zqyK`7VV4?a`imAt0a8cE6S<ayt_NV5G=*LQt37}pX#mqhFKft_fiRP4HgMwkS)`!7
z<~yIXLFdnZgXUg0T6jfx=qOrjxY@f@^o>KAl1kc_58oVKs{h7UaQ7iJ2kVaBy>|C<
zvgQ=@*OJcDd@FWsq8>MmJBilVxRV!by$CgIfZ*vf&3_*kO5uzFLciIi`E|qoW%w+$
zc?iXfubW0q6Y@z2IE!0Iz+oxQ!DHr@QNwFa?DnQ_@skh??3n?3rPh{CKUqV0KfCwJ
zTmk0s#e3&~NL1+^dK5R$BL)3(L3n3Mm=bW?%8VLW{Q9PN&@w-!ZVqP|DI9o=OvYA1
zM6{ZZwi}f;W|NtJNqHX9WZq0A69C*q4$-&$4Efm=yiKnB>}{jGchQW)&A-D>)^JTf
zvAGcK@RMe-+U1c=6EBZU?Iz9aax}mV@!Y#owL6!J7G7HH{`FZzKb0JqmT<z)xF5<}
z^X*#Id7g>Pbj*n3prEgbT<v+j?--rFCVR--G-RED&#jBTN+%9|GKFyPbOCRS8^u`&
z21J>NPB|6kIQo}0T#-)EuZ5{L=AH^u{)FL}@A@Uj?^kHBet^M()XFP3Jt_CDrRg;&
zl+|v(U%NBy-gV!xizy4^q^ILa=kbSayVu$dq}mSLZ##6qVldTq=sQiz^~-1OcHe#J
zN4u7amilh{l5K|;T&aq|pL(iEXV-g9Q`2Q8Ig2N`o0+t)E$!X9V95k~)`I&}!TtAx
z2k(0hrGf{)<Ac1WZ_%*Wy*PVo?=5FCc<`R*P||wn(~Tm*f86jXwoC6*hA4?M{-x`1
zL&1A43&J0|y@y*1vTm6>Cqv0iut}v9eu1KlSjHgdUYgr782!**QLnT75c1Iv*hv^K
zorr1LV-);Wfe7b5*Uehk%vx&J*;5F4eN*JLgcdEVMOu~Aviv@9_6#_}FSsSh-OCE+
zKTsh8M`m@5U&e(2atlbo@DvtRv$Jz3i4&*!Ozl$cSau@K>F{i<ohjLMJHZg{;)}Uq
z=7=uge|>|2zSD#JI8o9;0=5d$U4vGNtJ-mRc%8k}i7Z{@Ha0XN|8(#pt<}!)4VO4Q
z+*pAzg=`oT>1hO@ng=OPE?#j0I)d*|te;}~P4`(O=wVaVt5Ui0+?sEF(n8D4`8%}2
zs6o)dWrEYY=Gc;QY*~g|rk>T7dyc*bB>~t>t$90A-j0=-)ibHiLw9SFr_ZGN&ZgPY
z@u?c_?&399Ys%HS0vAquR*&6t9nlxg_+W39@-;8Nd?%D@*|XY-<2!nv!P+Y-#<3by
z3y#$QVO>%~JNnDXqt7O5zLYM0F6n%ZZ|P;k^_KbC#O0Jd=wvIN#PQCS<l%~LI%rB=
zZp019W5QKQpjwA?sb*EL8lGgr1>#tq>KIe?QpiORwP4?|4b_6v8S*byRdYR22!h&l
z%>Z<uTGtD6ybz{G797P(s7%hKw6xhQ2?TQf<*K3)33E*4mrbfn0j+W@Qk}>6xS1d2
zbeRwsBGbtWql%npr8Hgs-!u}LPKP?7-=8@`uUlR(kWnM_Lmewi+;$D}-q#$^AS(a@
z;z4bu1dXBzh!Iu<zrv~>+^dGqc_Z{h0fhLP9;F6N6A3-VyX9WW2rHmWV_@VrjDnk8
zrq!i4j#Ju&ff_+ac7^S_nlSTnFMv|2312C1O%7Ni*dH@fLn`KqlZ@3inW=sDw{}ro
zil!KtC%7ZjZ_KRfI^pOn8SN`bSjd~j{4o{CeGxOS94bT4Qq=6dwmxZPtB8;$(weuO
zRKy$e0piTF(`aY77;3X%q&F~MJ*0|XHj5>2z*Ka8&rpOoy<qBcAr`Y{kjW>KbHKDU
zN-Pkxz8Tw_ue)#+hOS^!Oiy>PvK=H7!}bF+5UQF}UBEzv`L2^Fju%8$at8@PB04?J
zSQ}(93*VB&a8(|n&n8Hr=DW`+a!C}G?J#o3a<k1D7!tI1NM~smq3tDW#$f>H3EhkI
zWDEg(BTUS2O{_EY-~)Q_h=ThRkX>5P$w@x)WGf9*@B#&d4oc@JU<jdAAv3{;85@W5
zSJ{DvHhftxUW_?1RK%1>kzE@qDN!dHq+MCLICG<lEPNI8NfE=y=4Fb4+sRyMHCVt;
zEc8!l_xnH5dA9q(9J{>hzPIPjj(gr7hE^U=7eAA9K0`)nyEi3(LC~<~Yf1T9e&P$>
z>|f|xc<Etz)mr)XRQdKh-RbgO3r}Y}<;lA3_dMGllm#+nb<5VJd06(hwLdIxTPyEM
zm3O7fyOU+x*Dc1<o!9~Ch-x!z$ZbMt8<dp%HER_+Qx!Y!TufISS#UkDy17Xh*wg-x
zE%2!R$Syo%c+QZndG6nI+}*JhUaQ@ks@=QV_(AQ#_ra2`Ox8U2ux8s@O;4((=YGwe
zk4?rp`(M@UxpjW=%#vZXFWGnQ-u`pc@0<O}nmu?!TlFIWd7yvfB`Y;`_x(_5x+CMP
zV@-eT2BYSI)06Zzu6f&1Uf{{?X=ld+r}y>2n}f-+_B)2;&J(F^CsJi6)6Ss{i>cZU
zw*fG0tF8lg{k0e=;U_D%-RVp2Ii1>hI#qcl?KulnfMo-d$61}M?Y!scB>cR%FH_P8
z>$K$~$<{r|mc3*xw{Ih#wH!3os_`EuyTVS+Ex2mfJzDgy+braV-eR+V`txH3q4s&8
z=tjJ2loaiMSXptj#QdW|=h2FSANec@C88%Ka?ZF3TcF*x5q}$<m^EB6Q`>jGI5VGE
z<j~DVManLq>?8>bw6-<&j|qEh!Kjfj381se@P#}(zIGgA*ob|x4Etgs?TY!(b7k+s
z(TWaqfL-yzeEYqUQ|VjWas^;((IAnYH36`kYf{}mwFkPL)cS>XQX-hx1$KQN93;0-
z+8H(wO61r6Ru6`R_IqKRIkqHiciMF6eegC&y#cd*O2Jn_tD~k-BkAYFZJbRoGmqYs
zvTkh(l->ZRgRUmSQwkui$lnjuqZ{^UkZizXsvzBjr6jfVTD@6_5letwO#k^a-#-r<
zsywEud*u^!0DDtKJ2(#2gkIJt?P<Rnw)X#aen>|6WG<RB&0!4L5t{|qnNy=+Vd!NH
zw~8VRGXKYrn3Hx5<MKSdiQ%dKxJ9+>^~>P6;{+al0H@-$IClqO<YDecqqDm_5s6&Y
zTHnMlVMVzbPe3`_fN%@8O>44GRs+cf;Qbl89iOou^SWR}2`5J{%`#_Q>f6Xv%%=U2
zohL);GfeDC`x)CkWi$a81(CPFDAY<w_keUbv`v=U0xkhHkFf5ghu~75Yh2L23VjK3
zy`;Le2IUHlG4LClZysXGJc^T2Xz0*34sO)dIrK?w7aBC15TF+Wt;~9@;~<opLa`t@
zcY?vCa)cW@nCNOKN`^eKh`ts+LQqlSc-!<WG{NY&`9X5qOv6Uggxhbz%pOjip-7`E
zj~x0VjfpdGeFEb#2APre!8GJ+2*=hKuKrS7LoC`{uAy|2wh3YxN<)b0DRRy&JoIED
zT*F9!`(e~0QXW=er<v$a)X!OkWk*sihnMT2JKXo%*ASIig&hMoF2m<HVV!Ia<jxlo
z-7BbZa}<W9Ou_cgsoU>Tz;QzQv^xB6lAd%>aFJe;kVkL_r)0MTOhum%NChWUH%yKW
z5@MM3<(t|JQv|*zcL+Q%tRS43TD)l<AsM|PHitAq0b!O;KnZ<%>`ocW`SxFC<UhrB
z9(@B%uwnkVQwTI>I4ZN|tW7y<lXYFm?!LQysqTTa^C-}i0I(T4jnc{Wq;bUQPmi5X
zS6z57akqY{f313Vs(SaTAzj_O+Lx+6a5n+mCs}pjA?Y4>rE0p;HQm6^K6Do)iyPL8
zgQ?<Rx_E2a-Ja|^l6D_?SX2Mj^S7U0tLaG9bUg6-VA#J_+MX(HPnUM4y<I=pncQ=H
zZO@t1o-^q^=h8cH1fNjb3Hey9dtnH2tBPtF35B});f1FkdVqMQJi%o9p}W>p``|s#
zV8$C*u1I^^RzfLn7k)G4I0a}6UZ<vOt$Jswdgo87dv5hZ(f_5)CX9BqB3<5>+18z`
zXj|#NSJ466-J0EC*!ap*5W%(VU2AzN)$-K+7Lv%_FFEqSSNX=!t)WcCvG*&0e3q7x
zP_6P|b8xM>FV)<aJbXUgd;xBEKHedCiXR_|pSX{F`g5C5{jA~BC<%{W-Ep+k@W=k6
zUh{kIBgKgSxV~>Ie*U$)5TV2@>n_rK{R#ym6ud~mT?*c#;D;2<A;^}2Lw9LP9MSe1
z9IOcgM7_2H5g>#jZIH3q6FIS;<t8<+u^qV{fTn~~(U15tYEKj=O28O#LMns1+$-VJ
zc&@U9ir7{;S3XlL4M9<2?_iSCmC!ke&8Op`xmAS;oQjC$bNj0GO*@S|UZ%98OH)m$
zh=HLzSAG-apJS9|)Yv5Pa-|e{iIqzi^P*G5<N6Q=Vwx|Y3Yf$B!=^-~PS-<~pY{W_
zy@;MAs(=~+oy)y|v{!)f<kMWB#y#;WLK>Cc=$;g9eiE;WmjhLmzZx?ztWMOx6s|H}
z%S`$z(Pm?Ai$Fk&<0Wu1p}J;;`_pD6m!<<0+oGmnkK$LXO^I<Gdg^Dq4&+2YHpL^B
zT>z~TgwMI)vQ(ZWFwq0c4kmg5g-}V<$6eBacy*!yWoaA9x#HFFdNprDjJ8I0#T#JY
zSFhfAH;+#k2h!>s(^e_%6Nv<ECYi06Xq;)))mZ&mHOA||SdDT2BuNT$u6U!;0|RCS
zNjl?|vhiS$#rgqAaG)g&0SgmNx|zExry|^jt+CxoYP?dZH{PV1xqg+Y762p7Hk2PN
zIfz<RV?a<NjNX7?IBuk^I`@(w;+4^rau^Bf9gAiQ6@RHFF6YFl6j$KYl0<prw2_t+
zkV9@;_U~~s-~FV`lw)mq5SJGL$D%Z&*^UanM!o%~^~Y|x77Lav8ISMv#5WQjTLf3h
zU)3LzU5{4P80K5fDZDMF0NxC(LnuH3eL<|1d5ULPe~^n#{xzz9+afjKN1~>rCJJbQ
zFsH1VB_cCS3|4cG3SrD`?nQ&9e%1%KpsKsd5$?=G;;gbiq?)o6{0|gdp@7(B&~Owl
z&5m==9S<mVf`b1*0mH1OsR<9=Zlj=`0@_)m=jg!+iqTTwR*(#ndWhR#b6#V|7b)jm
z3f`kY-NQKVO=HC|F5C<?Kocd$b(6-=;IIClD9c9_{3Qi{fgtMuTTMpTqTFsVLeJRn
z{td;xPr1Ab^G(6DIFj}hJtMg$ZKJaKdDhLRhf=Hbe;^Z6nIYQab1y#sE}_hP?Pt%w
z9-3^wW@J3P)-T`~6LxwqAZ$-L+cTsQ)C8^;SVS8(i_8AV0TvPGBJosmx1^dL0@taj
ze?*h{VSU?L{h?I-p|$#fRQ<sH`ePdwB;y#78lZ-LFuKYrekmuL#NKn>bY`5p;9HXX
zO1^&_I1|`dus+LmzFAfQH%^-K&9#3Z=bI1f8rSOfr0VtnUu6GlGTugvQox-AkIjvv
z;DMa}*7-LZ-;6G`-ug<)+XT+x)_q|16&3%qt#`={#I)2ed-(7Cz_&Nk){FDXAnmgh
zRJs?AKZ1;W3vj}g4x9y3-@I0TJXL=@<Evac4h*}Yc+m|Nt%j~l6$}<PJN|4|Oc=TE
zPe(yR@hvyB11R%jUP7C@HaQBV%!_Vf4pwm7e(B|(I6K!x16gNYHmDf=FYC0k3JCqD
zKR;){>v8kPEfr61b8_>?EqTo!uhWvLQe4WM7(6+6e&poIk<$ZbM^2wTb@KH2Y_0O}
zaNoIsk-_r=C(p6RX9vz)7&v!68&IAPT{uZac@DkDni?gC{B-2-g(J@loF6%IYUt?T
zF|C1tp}xZ>21ZU^IB|aP<f;C?6C+2S?mN#dG#N-Et!*xlW+06Tr2h-0G2q5z)@yW2
zB%wqsN*%ys5SKKTB?cJ(m}0-6;6GFF_Z0kJ6ckbLg^fMwBzlPg5B94lozTpTJ*(jJ
zrWe!hm6MtFuGRWf!~UeX?qTzmq`4u}(v~zgJuI)xR8+wS&Z9zeb3xKv4|CcrI1Ihv
zZ_Q*QTHv;Hu8gh=_*vb-e(vu2i+%6y+n|*7K%1pK1IIEZ`fX_DzdL%^??anw!-Dkn
z=M06GGlrE5cXq6rR?pozkm~4L7bxlO=mz^;FD|h>WysXjFE_7{#ctz@E7j1mYDqR6
zfMM#oiJqdi1(96EER8OnOt~AD2a@h!%GS1Fp{MI@WtQg+4=ZYxMwfT2n3kqf747R5
zO2c}x7cG`7jxJWDY?T{@EN$DM0e*D?jq4VQAWLKGdLfHih1!N?cmZE-z5SJS8%rX$
zK1&0XxN>B<BUQcaPID3jZTX&c2Yc>Ryx91t@ukbRYgc?L;+-R_CGZSzGSzwb?m)70
zFcmzW^c+vwp4o7*QqLOqS)MgKtgKnLPy~Ibs$DN+QR@>Mw6W)QeIFex34Oqkw@ap_
zbIXlOu2k`sl&xjM#U33tDlUy$)+&2bmA!c^ek+wnor9Sz{h7Ao=#Hx`(=za={)WL)
z#jJoSf@HD+W>Ibh%%a@!5sPw1KrG4~AF(KRe8i&M@ezyq^zTv1lFEeoruA|bt)P$M
zXVFRw2+qP<Y+Q^k9a-#v=IU~D(%AyHSrzv6DwZW6)HkoQ&aOA9cE-*0h^b1jg)xft
zq+W^`dxI9(V|K>ep^%w56!L)mY#z4Q1npngi}RjfEr2tptZ*HKqnd%&+Hl8Xb~VON
zqq4#R*#<{K_OW8-Ldd}^N}VvcDav}z!H7-7S#a`6O!L2HCrn_FG;5|IQstUAN+!jU
z6z5&@W68;hFqdxPobYp}hWL5g#O_nnTDWQs$2`CQg?ol58MQ%kgv`E3oerGDC^J37
z$#BqV=j=gdRJ9rNCbGkUzYSpfU%;vg1d&XrAiH`ggg1EZva2DJ&ehNv<a?3@R)sPM
z@<^$cSAPa{XQKus|L*aFbuw1x>+YNG53Chz9&Dl{2rL6k3LEbOYCg#h>lKHlN)|RK
z<O(z?)OW*sqLSPzY<ySMrGV*(L1PO{=3!Q73T!y6NUb?6&_9KIWF);kw;l3Z^E%ut
zkAp0|2&xtbD4XNPYl2jwu_+*3GwTWSu;t2^G0vcrK+sk(f)>XxY3*v7ANd#@cwfaE
zm##C)$UtvIl?>r<Xe<(iu)|Cy8h~AS^+G=L5GR^1bB`O0e1jW?$g&k9$VKbWFS=+|
zz$zPZ@YrQlGXfF<(stv9WnjjK$*hcWcCu4_VX0+hZVr*0b?KKyRI<_DO4jU0!QSn`
zFIOPAg;>@+8I8<j%~YYZpB{}<@Eiq~DIj7uTL_+PC>E1IYF>t+#}w>3IB|0rHD@iP
z@;kSg&ZLzv@6Vm`)XE6;`7WXO?;+1CLdM})b5y4s)k#MalTr_*i%%t;r#^HQEjFzc
zH>QdkSH?eZ^{m!E;N}X;_1|_b^uIO;#eO$AajUF-%l}{dfv=a^f9h|5(SWCRxjE%&
z!I6TNJCW43qv`fz?|0v8Kk;)=sKq$p@DXKQFu!I4TF)J`F7~hano_=|`_|?Mp0dSQ
zvZnKn<vxx$<lfzvcD}Xu_TCSiKoA7)?oUe4Zqn8B_dhQ{JxnL`537!pnBEK29;q|`
zsKj!lT6Ph{IG5*W6wgvHM*$=0RBq;|YTSrtL{l;Vbpy1|8|3WC9yTxmBp&2mjK2jG
z3kOjV5MUQXg7_YE;rLrxA|~Q@%m{QC6)hmy`oKhSHH|GTu0@(~C&+WOx`3%BenG@)
z0_O((qATHn9hxDox=zh!!kO^0JZ_~&dGi$M`tDV7!ts|y54Pe($`j`FtVE|BPy94X
zSeP}yNt8Sa5XAmEEWBtOb1qGh?1mxXlbkvLqaHeyD4nT)LTS~BElQW6v<eI~?kGwd
z!{Ein3z$$HUnlp17wuAY6kYi(>2v_d#W;o@xC$%O#L1ea9OI|i-XUBZmoiGE-W4`8
zKBNQOE+11Bq)(o6fpcwyu-vL}u2Ig8J>AZaF_LbwrOi~wnVbz;^lTQ>e1^?P0zaCy
z2^3u$D4~&pCJKm&sWEThJW2yDn3<~YYC5s!SLxma5X1Fkze6P%SLHax>M3AkiG*0N
zJeRBTnd^)Dkt*cq15T;NAwbe^;Kf*Pvvy4bnDsY{L+D5hOGm<F-P%KTL=3%J);%L$
zAJLqF!|gU1r!zn;Jw+MpOe2{kFhSoF*djV+NLenB<eg0tgp8xBP-KGgP!$|GyFCl0
z4EetP?dKN;=q%RV-;6KC?|HUny`>MmrHhf2cgyliDQ|G4CFR|oc`OC;ozl96qX3!J
zfwijLsjA&@va~V>pjN#{w#Nd+U)i|allHf*`FE!LI~R`sRn3;=`E<?pwVM5@n*9qy
z<f(i3+jR@aGdm9^cOHH7+;Z*xnr-hN$CHw#jJFc!Z)DnbuJ$L}p8DHD(gL;%MgB}p
z1Bt+vucvFe;D~wwPCC0D)U>VirfYg`*)w%bbgt`4dAhDUS=7B)i9mY_@!6vNuRP5e
zC{Xzir~HTS_PpPl_CLE=ka3pK*&E7fBEd{+Po};jqi_hKe*|X7J~%WgD*o7HgUfE5
zMB-iSzWMYwj;ureSXQ@w+923mYt}6(>lW0t_~m5d&O6hbO#_{&@&z|XzGF1+3WkP;
zjxwp#(YIZB832cnO`?4-*Xxl+17D)25N<r~>*!Y~k%E6l-~DyuW8|+1zK-lhi+{uF
zwrp8%1(lEqG=aI2X=%^YH)d)ZAC>I2lrsVczcPJ8G4h<c<h#|oZlgQ9a_68sB660R
zZXI8D(Vd$}4-dt>(B@h%qF6B~mUXI`e4M&JDMySC1@&+gol`G)N5GjGNXj|))*Lo{
z-7svPGr|zXH}Wj$UqT6>pCdPY(s*?KDTFvO0NNiRsP6-vhcOV-(?mXnR=`0~IQg1L
z0)`IJssy$#I{+Elq|ZegmkECx%d9gxT`u5<`E;D1FHHGy0q;|{J<{fa>6iQ@VcGP=
z1dLXB0uPw7c2`Bb;8#lX8({&T#Yv5tVIRi?=iseiDC;C#h%h~RM~-w6dN%*NM?y2C
z?n(!Lw@7&R$aIT39?bT)qeCv*L8H<cIL)kA`QdS6b4-5)b`w(Msx(1ksby!Q`Twx@
zF5qol_nja>03_Z3N$>$a!G}arB0y2p+mbAb67?`iDWYu0iX9pvK#39`$^~gj2<WJZ
zlTfJ>OKn<HW2dGY&xEesR%y~kZu2!tpWfYW2Uk=A7?G#S#+^=QXJ%<jSvTJ8xBL5_
zb6)^2Day{InQwYO^5EQi&+DG&|NWOt2f)iVkhc?OCdk+JAS4b@4f)<4hw15wrWPh8
zdmh@mO4X#=x-HOR1{^2>gysnFG2vNE3xI)wFfPD6;tqU5CZCO~kg-vPu`}Vps6cY4
z8Q1t38tDP#0;DR;;u!-;V}#BG_{C*ItuT`e0fm8qc(vZ-0sh2adoXaZA>=0X$#coZ
zp|#neo7NyGj^(v8=jTG#n&->9rk%ISYS>-leA$E3PAnH#wA%t3{&UV`^Dc1xpX<5U
zvyhipc#sGhzQCo>LV>BU{--7jb`O)GrPG*nH1LHGLw(SnA_kq%Lctme)>7~d`lNP>
zt*4-ag5RQN6ga7|gatigc*}h7uGwvoHW`-U6{N_*@d(#qGx~23TZ(B7uRroKgt95{
zHf2s@)}zGS3yx*f^spfOdVvN6(9dC2?R7+KDytHfSna=Uj5uC*%0LLi^7QI-Mcfh3
z>)v~|tx!{wL9HoL^m?((I9#$0AL=MsK^>(?SGIz5<w)nxNv8$arH+j#Y(VA`Q19z2
zH9cMxsm|$fy)tWLaE@^V^~$WxDl?E(W}fc2*J=AUQlFJWSDPfFFiuI8RkzGWO)FMK
zR%ex|pQA~WqdC&Df*fl!Io3v6vvTOSJE-)Y8TvbVy%*AyX^6C~pv-kjnULz$Ewg<>
zp>IUiM>?{~)X%X&lVf9KQ&tZBFWaoNB0rI@+lnokFWVZ~mQ|*Hjt4Y3wnuiXAjeKk
zyVpk^TtSXqnmY0#oh!((Ta%+JvS$T3_F}zuuVB6IQ~D74Sh{_<U#)w>Des?pf;Eu?
zS?$s<?V#FQn$m~|lXFELT0v<&6Gd{iQ;;Ihy)-qH=Dq_7pjTT%q)(MHjvSh(kke08
zDKX`w(DaD%j2o3yzfLj#c=#DJ^uqLe<6{Y{rj0dnP3mvth_;P5!}RvYeq{`837hU1
z9?jbA9?mLLKgT0kIUZd>j*n;Mcx(kZj;Z|!>gXr3a_E2Q<I0zk=^eej><LYoRgq6-
zm8qX&AS=g{E65Sn<TxG~TtSYACdc+jRGS0P?@(VnKNyU`djOOEfcc3o%z#XR<h?%b
z3I-v7EooZChW`^_ns{}eq9Vl+b<kv)jXu&04uK{~MF_8=i!$bu(UCK8cQ)M1AnX=<
z#wx?T8SC*$nDPPy3=1|4>SakjuyL3>I6C@)WWFlMjrV8rP7cBL2LqKe@Q=!T4-3&V
z&>|+NHe)AIoPpyY#GZ^d_7UO&X%`YEm!NfOFMA7XS*O9jfR4VV(fJ$;$`lNq93RFv
z3BQ9+i965}<3Tdi6&^(ekSvDVSz$67U$bYNDa8?0HLDWnq4DHIB8FrxeCg&1-$q%y
zKuxa@@(_RYFwvROGHR&YHEp~<<c5a=hqze($;lHZQ0x!@dih=8z@EVH5RetBZhyD@
zI0Rc@%7AF9_pt9FJpoSXi0_fULw!WWX?yJ?Y!fjD#*#5k;wnL(PBTG5aUW*W>ESa$
zl2{3nAs#Y+7VqlEvj9^er`FL+$eQz)(&PcbhhaL>5V5iq^Pv#Y55)^HjfP_+VH%X^
z-|=00_yhD85yYu%jI=z;61|BR3wuZclo^I&6T^cLorgg;qz=VP`7BcMaJ(oMFAfIz
zn;@q%k+W@Pf+@aRo&Nk4K7hGrCIteCHP%WvBXP#aOevHIvMUM2D`<l9DY&TSGV~zc
z2H6DF)E@6b#q@bAu61!Gp?FDF>4O-Y6XU}9_>L|q#+s{>kyHlyVBnE`854+?@<MSF
zy_h{s19C4Gp*FUlgUon4b>cs+#<>;mR6CKqSwSCWR}rESlFC*`=pTO*ThE6Yp`}ab
z+Y4*@n>nRRzF6-){<)=>%j<j5=+pQ}<N)p1KXPbtf;=vw15aR=pgE;g;=#Uvg)D$E
zMe7FJU3O}aQ`zHwiAyZk8j6=69|^-&DpX?RMI#R#rlI^Uh;>6tZz4Pf`oSMjCv5JO
zoZZWhS(D@pa$%tWlELg~YoIrLZX4{cu8U_C8$PEN`<J{}$tLdo7F)`X3b|tK1e6XD
zWdaJ{$r;6!PC%&&wyUtc12a%6T%Cc!H7cE!s-#6M4aL3Z$fDx0l}g3q=R_1YINaiY
zb%c3aV>f)U%F><eJKC~_K6f9=ts~HjGZgy}sa(^%VHHV!KWSeE7%&W@u3=aS865>@
z09&X0`8@3>qzSnu(A*BiCzc=9k<n1t+0?#UoAvGqwtRVO09?@dO$#jk4{E>R5q8k*
z6(+felUfRL90?vUYuIRiSl)cOb`&$9gYVL;8mKc-R>`XJlZ&c<lF>I&4kPs`WlNvI
zPZKbHX*GR<70ld}>VA68>t(*4d0G#W+8yKX#JiZwCa#A^%Uo)V-0fKDbf~c7h3x{E
zXAxpTLmGqN9fD{=3~U>hfTgGqKMYI7_;N`j5ReEAs&WInq|JsJ$k`MqyprvfoGN68
zN!ki_O3hMLJ#v>`fLkOdPC0d$lwR6p;`PehhDJY$kpv<6IvQhY{n8m4e_=PCFQ@;f
zIdIuZ;B^383<Wv|CrBX>DbNc{S_Q*NcD*qN<bezectRi>o>3Dd&`H~}F~GiPAa5Ir
zmsepZ-nf!v;c-BFM>OkIpoPZV>OPUPcA2FD%?B}~+PtNDCeN99MCLv+dV;_XR)=iz
zd`)wEP-E{Lx6ItRuC;UaY1B{Z>baK@bFMGRR~a-xWgF%zwq4FAgtq^<Ne6T^jTgr$
zFoa_PM#^R?mtk1f#piN(l$Z~b%o+rGGkR{2`97nSjn;(Xwf87F9KxU+);9o7D~k6B
z<Sdw$r?zWg))TgV15KZ<XZ*(cZGn!~Ks{qMBED{_iT8;-zvyG+$w!5%Gf=;)@CBHJ
z+%yJ;|6az$m$fR6PL#~E>lzThPutr}QE;(=Y$A&n<NwYk^eCD6Ar>9KB6(_DML<<F
zT`wk)F(f`ZT;(xo3HZ7&fsA3)$Qu~cvSlv5U}bU+3irL=kd<B`2rB8fsB#B-1f_&h
z(o~+NB+XaJCBaCJB4H3w%>I1V$l9amL7_crDvL}?AnTHS8DnH|*AlITb?r6QwZr73
zN|z@fOTs~09*_sqULk{rd9XWVk_RJUR=Znnwh&Zh$tGwZ*(En@BXQys;SD`ch_G6O
zmeDn31_dQc!Yr$1Mfp#uIiPlhT8d<Htw>dEi{w26Gs}y0@?#!VG=qGvy#TqiuW2ku
zX+$)XrwOA*(G8AYNDf18f7YA)CEpZi-wc^Zj^f!rhERu5#{luKNQQ>3eL@3zDT|jx
z{7qs;-Juc`%_C3{F~y}Gg;<b=mn8R_q;~{66k5HbJYhe|VHz@^F8nRx8RNMakp{DL
zjUIzS4iov}0&U>+Y80c%(hE$0LC+*hTUb><Qp^sjkG7L!=(#h(P7~H^jM&axnYwcO
z8>Xx6FCLuz)awnYs?ZxINfD`{$`~(}ZJ|nL0bnmD5U&gc_MQX2OZz!fat}1`Zw)-!
z8aS%;JkNyZAilz^?XWLqvM4lhGq$}r0vJ0Js?@QGj1x{N0Mv{OM8U)sm^?j`rW;20
za*;bGR8JE4p!@s@o@Pvdnz;(K33)OmvgAVp#TcQS4{B37A>RG->CB%I6Y{T73#9Kh
zZl3N+S5&^#bfxLHS}y0q24V+%VqG%bDuyunD;+nBn{N5*UTOJ(zx7s4U8*J|)`aF_
z^EDkaCdl7a5Qnt{E>&OId(*e(7MzfEy<nZ~{5LK{MH-O#%I!DHx4%=-n63!Uh36hl
zuJ28j_dy?|vJ`IAOG=S_mvOK0djFrqFPXmD5ApbqT`B$bPrTAFJ2+SO^3d1Uz8)j*
zbl=?c+NYDg2X1(`FH{;T8{q}lS2lg{{W3Hl>2LiYMjOT-mv(tAf9|z(`EBur-C4#q
zM+w*9at1&x!T~Z{5Q?vRcuesTLsAEmQ3e@l4{<(Sg53IUsKv$=z}UdjAaW1D>ZG_%
z<NSSjutAR`HFx1JX`DGbJd!0OnJHUh{>M8$#5liCgZf1_s0(JVt?WhLf&o9TG`=$V
zdjGc@z8#x;LTq~AyALOuc8m30cj(>SMmVv*6n@cn(^2zQF}#-j`u3!=_Lidr&x&t4
zs^2LoPnE0^OIFQ>=S!NWyJ=1gy%M=uycQOal6BqlrTdcJeU$T&`QpZ;v+<U@Jn4UE
z-rbY5_Au^u+`nXZhM&V;aTKtVv?h5c6U@a22;|f-JSE6(VHVl#kns}2mWGB;Xlx_H
z)P(|soDX$P3UJOc0n~+=yZ|8)pw@cXf&ze)ZQM14*8U`e0X2ICYZTujKn7dJLk)co
zpGwF=fT5-(L_t#;4f-W$jM#mKhk)7=kVd-^A=D7CShCLoAI-1Ix~V`nT<roEL4C?+
zb6fJ!*!ajK(Xh#B%Q^f9&W6r}$Z<=56g><Oc)2|A>~fAAyU3X~1Yn6okTWqrRdTBX
zOKWmPN+uHSY2O6soJ2+BBHB5q2<l&UKN46O;e>D5Zg49l!T7?7j<Q!qLdYLDJ{-Fr
zS1<9RlPVEcrbmJPesU-nn>>ya3?j|!S0?N4SE=1`J5P58hd{i%pMLaG*;pzPiis!m
z7z7xA{hY+!O(b?%QfCC{HH;htVTkmRVe&T8$!@zajhbMUrJv0tlKa8D1G1u(+F=qx
zd|i!<Lu7`@QHA0l!{f75`ceF`L)o;u`=Rt<Rmr42841yLO`SwdQ8^{KNPD~{D3fE<
zMDi0N(DbSVnrzaH27}BcIxSgiNWVJn#DLL*5^8n)=?dt?OIH^-IzB<>hH_{^JOiWU
ztOZ?!JSfmjD2^R~zXKX4^Ohub7*VXEv414I0ux9f_VMIIgdJB@XI9=Ffx{TRGtjG{
z&Xhg_6A45JS=l!hXlrBlaz#sYp=Lg5MvOoGNL>g&5KcN3!@`M4QY_MVl_b$A*d^4w
z95?|A%Nc$=GsQv@q!p$p_!1?y5X&qke466<<Ht_{2-F<yPvdcmLm*+SjFU4^c!3!&
z?bw{XCp~d;0=snQmMQ4+y-b&uQ*%O*bmx)o0RHm!{x#KTJvk)3FXMfUA&}<)f5E^V
z1|af)gNdvIBq|q&D+J+(C@?^9!DkQv*fZNx<}%S-He-Dy23vjRvYX~j%EPp^?3T+5
z+rVj8D~uLe%I_L1mV8KyS{yuA+FH&Ml;83+yqD)Fv@et!+#41eSkfXSU9Cx4lJ-=l
zU0dPdlnOHAtzGk$7vw`h3wcKOjs*uxRe)4pO)5VtqkoAqYS`N&OT4XQZx3nS!mVdT
zs<>4wZcPUF&KGxI=t-NsDRZ@Gu1;I4*_RckT_2-Qui>BWHk8+-%GQZx>yqug^JRTW
zvoCG-rOb7rxh`$3ld~M5EcHrnmB<Nd<?ig!Bv`f;RdSJsHLbt^6fWD$dnSM?V^yjo
zB$kAdZ3pH{4qoU>n~PHBTG3pawo0v}aacvQ2JRa2**Gkd2cKS)_M*4Cr5w^kDV7V>
zO|XJb$K2BnfbN&E?v_SKo1lg_Y9Y_$-eZ*d&x$W8TGW4q3ucQeM3WB1IFY1cagwyV
ze~B?D!^~PR8(r<vdz!UALs@mIv`s8+OI!B?y(!DTa0nu#7EG3aXbz;Utr*!`-lmkd
zTl97>nDbm4sQS9Q1{=$*CJf;#Si=3HcmIO9z}0P(Qo50{MpI<VEmz@l$1WaYsk=mP
z7k$-EDKULjRh6aJ_{ydQ1O2`p`S!-|7Jql}FFLMOiyiy^rX<<XCx#B)VJ{c9Yszg%
zyBb-UdqwZw1+&w&TW&!y3SDFHmZm(-qNh38vSZ$}^TPhL*_kr?MYBI`EqSqP&X?S9
zXu)K#RNOV>Aw4?5CBOE)*fD2LcJwasx|pvQ>YYwjC5n)`M=8QDrNL}%qW(t`K3i*7
zrD`^dHJj7cwdns^Xo8cvucazwZWhhWX=^iIS~SgTC}RuH=+;lt%O;Rcnl-GLA}VIz
zQfU@d^;2pi!-ukb1JD^xq_R8D!Xncb4PP{BeV1GWRZ}Lw#0nyL7Y$@Mjb9fHdUmB?
z(WV&(+=xnELpq{U<Xm{FP$kt@8q=F(f=00srKUhWg`}o=YQ%FLQ8qkP#MCsYb;a<J
z7G$X03;JdfMV5q5`wd71-H6;PlFz>SpH<=;(tW6}Mn0k@<y?^hR{o>+)hC8iiYT30
z9LiV3>aw2dh`?PmMyyD$2-;<(*Xt{rY>i6lE90qvnn#YsiZ2>Z)ysG4Z>-=T1i58`
zE_~hG&-nj5zSZ%OzEyu-IBDE2nT2OS!ZxFPojEblDEGms)pAVzg>m{S<U=XB*S+!y
zrD}>POT>k>t0)ymFpmcm!OTmhvG5XY3(2+KXWQ<P4{cLYpl$AD+g7|p+sJ4LyY91X
z_sA!BCX^Jp{dOsD>~EH64XIgtnAY4QA6lcN&}q%*muSs~580Y~<P)qDN{T59dSmYr
z^>6x+_1_~O>Q_>*`YlV;zvV;Le~)|^4JE~*(J+qv=@PBk_90tyk9=s2l0v67XP0OV
zabDPUpX=rx`Oq3Ag-&bMEzue>EVfK*gr*54MQ*7mahH@?^Mj|mHMdeU;&~BF!Lk3k
zL@V~lIqtJh?vYP$PbevJTR--VCEC*cA=`3~d_u{Dk^*h<F1_cD9h*2Hw_)O-96Qx3
z$JAf>v?i1C&lL=sm;nu(GB6aMuh)}c)0*)X3J;e}&*qyA&%%r#{Jp`jyv&Y-iSR>m
z`H@2X9)jzUqJ$M;@z*rGWT?X&mUF7VLKDi+gQ$EsS^bd`{kM4M(6mFbJW70RaJHA&
zbx;<u<#H}OU6b<&w|II)_vumHr#k09O3;I#%U&ZLMqGMq>&PnPS_*!Cgy++SNWEg{
z4{3|Ed3iii{vurbykh){k;8=3hH2waUc~>5Rf<(8u}URYrNpY0Sd9{^ea0FIyjU=0
zvn>UU*D+|>j~3~TeEm~K_*YbCnWA3Cq!w(*g*lpgG4{9gkbjBfs0MTQEKI6Qd|b}a
zXb@`PfJZIAQNKj3I&Q-LS+dz+f7*W5c-A1X&sX<xgTqguWZ|2@yTIY5(~lWZfvtm2
zQv3-D&LhYak>EKul?WyY6Fk=#EdE{O|G>e$h%xE(?iMRA;m_m}gzFTe0yAaYHLqlI
z5ngS{c`sPhYJu?wj*{3n$?dg~a6hcX6Myq$_^D`)d^>Tvas+^n3Rlq_m<AQX!%$ZM
zuZoni!B2n_Unit(2W0tI+`*}fd?)-leME(pV=9pv88-pWZ1#s_zD1U5024%4ME+Fr
zB#9Ce#{h!e#3dPGZrUIVh>`{rZD#PDxC3-VAOZ^S=_D=4*&A@ePCn9^8+BspMk2Cg
zA!G32o@r!&>Ml2wcO~>h@`ShWHF2jjB;m;jq+1<PMV>Jj?`J+|g3PEnm&W7*eA=&p
z)Bt!jO`36SVp5#)6IN^!<ogCOSP@iPz@|{fEq4OvC}mvAJ+X|qy&bUpNkN(vJ_<k%
zCT@}b)Kh1Lkj6I+Vg@M}ZAMIz=O!Y*k(W(eSYmV0S$<eT`AV5e<aML0$*ZTGg*-YN
z<V7MCDB5&NQM8rlZH&5Ph1c_BEnt``G4+ARPU|vbmGudDH(7F4sM<{}wv3IKWxGja
zmFF$i5cRW)5sp*Q4&s7<jZ6HIOo=8fXKE0`MlJr;yo?zfiWpnVOc>_E1xcHI`$%~7
zcqF_tUQGt>IhQP^5o?iN7h>3ARPjGuFuc+Nqk^gGkXRjJ)-T#ce>?0yqyihnzy^55
zX>h-9HF!!c4zXlpULFQL(v`KT%8g>>#&rGaRQ(pQeoMNhK2@_$tXT)zpr_=HA>ZR(
zu-O~9;`uMll%dI?H)(#}Q|46@TVtC2+`_kVwyD#8t_~+8K7Iwuid(``4gfYUg#UyW
znPP?Eqc<Cb|BN)+Ss?ruJh;aMsG<q*q%;9MX;_OraOHqH4>ZGHrwl(vohAyK0W|y_
zVr9oYhQCf{_-UQ99pg_C`33J7KZoJR-XQH?Y;O?$8#)_0XzZM3gR7X`YO!WKyGip;
zHC(vl7^}14Lk(vW4d<gDemEB|VjEk;7FxtMy-_4#C^m|%`2PR#MiJY97hjNb;i(RY
zi>JPvgt*1iQr)LIASvdIq+P6;Gd9hfxsH+q6;S&=-LiS~=M;Mq0fYmY4cwFTKyQ;M
zl=!?7I~NB=#w$Hiv^6qvB6T0h6iJEj0~=FJw}n-$q-7c$15AU18uFp$XFJW$XOJ7`
z&5NVUZ8x<`Za3{>WqZ1!CRNcUR={R6HX!x{R;H>t#462BL}}KE73<U!shCY>J56SH
zt<IK2fB~D#WH;|$Co_73U6|rJlNnDxBHsbaK?2Y;%fXqu9M~dI*TiEO8g9OxIgva_
zx9V2wWyWil-d^uea`M<H+@;{B2r`n=4igN9evFQf;A&}YKz4%ZEo3_c&D5)}34B8;
z5?_m95h+Uvm=@EvS|oj}w*5mbs9m(6W-&@wP&ezgEVrWSmtRrJ`dPfRn%1V8dc>xl
zbYpX>v0H5HPPYV8Er-RH!)$476Kl5Vod15d*j%*O3hQ+in<D!US8xAQE;gqD3jpIs
zmu3NI&3UqE|9!mIoB{>tE(i>n@U!$hXS18lbGA0#M`GX><B;ybJUk7BqYnct9-+zh
z6k0=*ZPm`@CfjP=$)-##WwI#%hq74{$hl4otV>p{Tkx<cWTh$OT&**O2!dz(bt%5@
zU-xVD2D>n=tURWfR@R(-6~-MD8NiH_qn%vbkDHEF_f%)5`Y_X7J)($)9buc<9&S%=
z$yu1GS}aqh0ZVk=YMNBDIIp&mdS$E7%tzc+2WX-v(1kS7Te_E<=xcN*Izc7dp_9PC
z6BZ$iX_r{NOMRkDeFb4IWYgV7)7`a(Pj}F9zC{b2$mYW96cGJU_&tjKJ_Ub30o}q%
zDkC)Q*P|viGflo&3kl}li>xHkkYI@7;jz<W<7dZYn%1@eGc?x{1equdBj^(X@8((5
zo^f?CGbQqr(1lDT=|;^k5gCbrwHa4GGoT>l&lE_lfDj~mKA?eJr6+1JnL_E2W^%d6
z_{M-tAkCCWmR_>yrkNs*c(Yt}S^vX_4<9;mbnl*lJ)K88`{D88aOcte{lZV^J4s+N
zMzphxjbcnbJLBl>edJ*|zwf{psA-df6I~#e3i4BT?@>ktlJBe8F!hon!!C_gdHHp*
z-a|(x`Pbl!F5~Zm=J8(89S;jIY`_d!%CGF5{YT`uXSZbeKz>l7NQq_<U^S05l-P``
zw+A|;Lvm(UZ*TuZSpF#H)hJV>ksz1Txd*6gp#KSHow0!du8wq;W-h~9{tq@|(0`gS
zv_2F)zn9r`bO`?^O$$b#E{I5<>*f<cQZ$XR-ambos9!2glhp^u;Uh6-=@FE2uKf)c
zO;Rzjj7N$MNU9zg6AnWr<ND;2ij*rSqB%6AGa-}*b5<Z(#F`NN48|WFMVB@}9q6Vb
z2-~RB=9|`<+XaqPLAh8^KC}Nu0j!JHGBVm4(ZA-}p49fk;`YO^_F8P8E`X?5Mcqp^
zS87;-7SZ1V2j9$FVo)p#rpa^8Cb4!C1FklRH5(YV(<)Z9F1QR8&2R%!VV`y{JPr?%
z6-l#y;UO!`rlxEaaM>|)@`i2oay285_qpvCx6kaj;b=}*H@@`AE1y)UIm-F0U{y*4
zM4#rM4wP4DsA;`purc?MPZvln8ZI#Ss#C>lZWOPX8%~9KZ-jcGfaP+hy}b~ZbGehn
zz379QRrggpe5NcSF=}f+F4x{$p!P>(-d2yQO3J2fx1HXUvs!dk->mCM)jcHQ&-qZ=
zQ~X@wV&Z0Pd#d(;h(FJPcdA0uz3Hk3SbgtB*G%vEN}rPTmC97z9ua@eJyOmWKb@-G
zE#l9!`<<#L%Gj)z@n+q|R9&x#KWDE}XGf~`ArXI`hu*1LC)N3tUbV8CRNX!if6je!
zWlyJS_lo%Q?0u(d&Egz4>vpE<9ue{9d_<{bd#d)Rh(FKKcdE92NiF_n-G)?MkBC2K
zkCJ$Os`j9WKhME;s@gP(SMuTLF-_}l)@@7G9TD;8Jfal8B~^P^#GmKzJ5?JOxBr!j
zR9%;dKWCTx#qm^ar-(mK=Q~xal^kjK;BwW7u9{ccQuPN!{J9R?s#+_(f428FL6O_U
zz&1v}rU-mT`P~-}KrWozchNL>r8-sDE#lAFEmt;`s@)^v&$H*9suroRFRMMak{p;X
z(zN+<-#c}UP&o{sPj`v6yKdI*zH2eVyH)M(8B@A>ZK}EJW^>n!6OIB(>TWl8k-=;@
zpxXT&CAwqEuZO3s8hFYou1*)V&K*q!cZ$KCaKwt0w9B~m_SzlEH9HZ15F)$C(QQPQ
zV)ud}AJ${N2B$yeSbf6*OVeI5Gn=e>Ky*Hk_EgQ9zu|n@DSBG(T2U|rOA8^uYNC85
z<g;2U3a?Zv+ZJGzmv&y+iS6g5;FVySJ48sARy;p;c`WTKf4=8(4?v?-)jIh3x$Ci3
z*x&aW9EBHGFBEz!?2v@UcH-CWZY^S2%i>K<+3()1rff9^Px-sGh+&IMnD~Zrx8G#1
zbl)wt`w`d>_}pdgyETOs?z@f78u#4_SH1h)fxIV-mG)`R!qa&++acp^PjSi<5Iup}
zhi-V<uI~9x&o_JC^oScCg*G9+yCjJ3E-S)!7Z$;Ob<Hm0%z)g<V)cXb)t&H%EA6m9
zyEAIWnEcb-A+y0-{+_{z;>meL?YgVJRQqnReRpzQSF(D~e9_)FJCe@6|7XEONj_kn
zXKw~7j+NTqD&Kyr%8;qDeZpkQtnwe*Y0B)hAfCk#k;V4zJdKlbk((Xwv|-2?;cj-k
zi{0$l43Wb7a<pTEqaAC+EjioqMLf?~j;YReipbP}A-o1Bv7OGv93MLz+LIx}&{7_D
zdVU@*b^?20j-r*d;>jnUWWS%T=R7jlqo{wBlp6uplH%TA_{=crK7q-5U@S5mez1OO
z#p!_<-$(MUlfz?5@p7|%VSa#w&k=+~j1x)6m-GFY&$W1I7AUTG{`oSH8sQnrM}mff
zh$t8Ib+~MJ6~_F2o%@_Hz#R_q@eAe~<f!KNltkvxJc9A)*Q7QG3Dx$59#>Ak%!o-N
zMQ)5(U=Ur0-OFS^Ome*uMg9nK$Hr40`MLV5N;*9O$yLSBgs!Z}DaF=>njeOXi6W76
z$)(C)Y&1N(&TJTSXiPj5$nW4TsZ7qUM|VYU=+Ir|+%RZSE$4<yA#21Yv(B+X)N*U&
zH0m$P)nUl1<&sMw^4IYNj9NTDM4o&`j)Dd4AhV7G;{vQI3_;fohO}bL;YEB6`Ph<n
z046j-f)x-134{YpeEBv(++k#L6gr6QhsfNMlz~a1(2`c*cP3?#J*^q<y}QNBnII$h
z4(9ZO{1QcCq-C7RI}^#+Al48WU|xp`cwMoK71UWE8fRm|LFCF5OpHVF1Uh*n$-~iW
zhNNt!Te3ATd>H{)dpjt#oqadMCj<|kXG~NQbsX)I3~^v?8RBKx%~hNcT_)PXJ4nB@
zGa`6N0Kf{DL4aHVv@(B1DaR_&v1<0@O-I`;f8|S6SE{Zyrq*|f>$~3EaMOQyn!M0?
z%Vz*CwTt-kv@@mo-ucqLq_+=hb(O196+y8g_``}e$?k&J_q^@0E#(b}@aSIrjmnoR
zzh3<VZ`->jL*+VvEyb(T-Y!7v1RDTk2fXkhyccn!^n}TA8Hs+1kvyEnJrSb;DAcAw
zqUp&Ot!H8|-XYaOtw;&xs<PwAi4BUWldSy+?iEgBy$IxUT4#R4?u{aFq9<Gufqsgt
z8Dk_bNe<Ou%<`>(3?%sbYzJ{pxim&k9P*ly{3e0^JvNkZ$zG8X1+jAMO*%R;aPHua
zSYFIKVI)^!uUqAnJ>^zQ&+&t#BkCg8KIKU`^mZ`SG)=+{FXa{(P?iA`_;HeR$I<Pt
zE560$r`Xp%%{%}pJB>Oz@LZplu&VyZ$#W3sladFZ_<o}9$>=>>{81QB9S^L771O|2
z^aQio)(QzT$$lB^D+Iz%g@;GTQmSmJbsL;Lv&~1?gNlW{2#$7Rk18R3UCGHG#Lr|O
z!&YXlkYwBbH>8BSvJ;eRJAzCJHAg95mY`uSoP{AuV2dIJsOb~YOfj?gnoU{~evNhx
z+F){h3VB!JQz&~;aK}PkN!eZLC1IQzVkTx2|L6wX$B3Uzdy)3y`_gf|iTkqmC0^#Y
zXj3ww#TN{Bs|>4K=6t{Jf7So>PZC|DKJ6%*X}{s9Vx&uw^_lJ=S7i@fe2DOejkmp3
zkPZU&;51a#B%!ri7MS&Y!~e4Xhh=Lo?wjtMo`CnDWO2j1r*Y1C!?WQnZwdSgk<;Jl
zZg>Flt%j4dlz)@x2f?H9YN=SVB}v|XLvZ5*ecFo6aEn|~bSeL?(@;?juRc%BSBFy7
zTg2)u^Zu=H4CJgzIU7W0gT^t>`YfltHcMgAPfZ1AV6_2`PFpozc&cVblC3+gP07xZ
zy@8~)mhV{;=&P0ja>FC};SpY>0W~6s;oq=}cPRnM3{w6q_2Ad=f_c)h!jq1VdD02M
zlTME@%au+;v*b;uWW6Q8yy@T<+c$X&rI_kXhwfBwI&`Oc)1f==O^0G$_?BKMq*xL8
z)hVW!kNoOT9nhSHUmZVU{M)F}S%`-WA2DN1ix7`|hIp8mf6sg%Am(FmL=(*)%45$h
zcwWGKbXu{R3xxlO-ihC~)9lN^85Bu48Ex1WI5{zKCbq4u?F7#2$>SkdylXod1zqyQ
z>2qzAJjiIKtgt<xL@%;EJxNxex3TwUL9J8D6T)Xhyi8b-6bSBs68}=gw}H74L%mSa
zZyN=C!aO3jsj_!%%&;Q14G#0L+7_EKBN&>URRSWv0qsic;WSZlE;##9oK)hRQc|dH
ze=fp((3f%YMe>GG21!&i7bKG4h_*Nxsw5{r5Kk2T9;I;-y(MEh18+R+!Ji-tcgFlN
ziY<XO6e**lAPjeDO1B{oxFG5BnwRWX?6ceECg#gG05);mvbru7h}Lq^T0gVt26l;M
zoQEp-g&8yNqv02-zNwy$9ZqCz2T5_Qd(kPN&=?sllp&?c!4$L_2fC-R-1|7^p+%v=
z6m-s9p%^XGd7dyum?<`rV}~!nRk-IK5}6scDYHJzqIYUXtO@h5;&K(|@Iz*UdXno2
zE}`tw#hvw<G$VmWkSIL6fJfM%u_^5mz#|k4M-LOxZ?jr1!y_CVk2or<$Bcl0IQi0z
zw=9D&uoMcuz-KnHa^HFqF5u3=1%ypVA#A2#3k6##U~7V%%Z!tz2kKk+3H<;iCm3JY
zPO*B_mSZiAL;A()(ovxNpV8X6g&a#m`L}(g1mgqLE-iol@yn0TMN**$#n6M-CvKMX
zOp~K+XYtIMR0R?KMMo?1R=R(_=s?nW;C5*sRoWt!w*0Vk?Zs{!v9a4A$MybN@9e}k
zre2<c=kSAXc;=h-!BP3lqgSeC!&hqIz%C2mZ=UN;)^+^Ay8-IyWvw_|KP+^=h>*ZG
zLFz2p1XaM4ZEFC)BSv{!>*qd=AtBGUsN*!6i+3k_9QUeS%mEg!75z(KDfXs!Jid!(
zFFp+?th4zDlGY~85pL7<n)M*n#kRvB#aPt_8tL5golY}$r2SVKP=c@6`EJJf?li$u
zp1lO;dnnJ+Jlps_ED$umO98K*9fW)OwQNlSYa>x`DM|7>!UXuw4g-#bWojWh3XcS2
z>NWr$)svX+u<Zq>1$68TqFUvWX%2VjoLO{M=N*F`QJl}_WBKHPJ5t2X=zKb(BSnz{
zoZZ%_IckAFZcqjy)}j1}9Rxt`d7B7=HV_2u5l_?+@#5DKbq;wWg&+*N*a`2(312MO
z^DrVe*)iBZ3<VSz6{CieH8HZ4!xTJZV^sX}<pW=#6P_7|omfUH;EEYxRvI&LO<vzv
z&nP~*CE#AR+#5qFd!j?($&m?e{VW!M&1ca5#?MeYNYR6p_M~DcdH^uMQveh~XU;##
zC<#O=<Sb*QWh{&E1`YRjD7Z$!R&=rc{3i6`Uh|tB+jR8hT=K!8c=cYMnwK?$l*751
z7C<dZ#sVPR+`Zz%n9yC?%I|y|!BU4Y)Z!=&yFQ91ZydE)IJuYH0|0=qBk(KNy6R&8
z)#qh}DRW=EMrPv@@oACQYVM?3_#(y-rZ1T+0wWMzMpc|7#K~0KagXhX2s;8fmyTg(
z8?vc5*}bpq?`_omyOA3EJ7YB5@C4Wny<@&;XVSS7)>3l(NvF&GFFCF_UT}dy#Jx$U
zT$@DKCT>si_e(q7rtiBgon-|a-{AC;>(sJ8qkyRjWN1>Vq!KMiNV_iEd3R#mmKs&4
zZ`vjA=a6Kc!a{~)WyOuN9!Uj0&tZvm$^k_;WhO_AuvqI@Y_V1a%`{Gf(WWUlgq{L<
z10)VJ5ih3Pm=)T#qv>=JafA5>lxE(PM=g=H)bkp?pDw+Y%I~JUa3AeuBp;7TssVW9
zg(9gf%Yv>#Vxb&yfP@KW9PL#~DpcJrt7eoFCcU%(k7(}Tf<tM2Ak>g3sxV9ygM{RZ
z*r!U=Z%Zf+p+OKrDZ(|?a`34lUaB_KFF#S3D57t8-J!IkG~vQGJ5MR(8?_X;vMwbO
zj{L2pq&QWEF)EYBh)7U+V^p3qMt=1>*ckcc5|<sLibO@i%*LoA;X9>6EYbj<`9fa8
z4`<wE$YX(P>Pq=5;M`i84~!V)lJzm<r`Uf>B5vlIdb!><K6@?U>o+hp&%7!7SwoAb
zFKg4MEvf_mch)0NOc{fBkZsCXu2wQ&T$p9R_*EmLEn&0yTNIMX=YBG>_M3l?7xAX-
z{e}ZO8oe#q9C4Qn|8R4}CA+@qnH~D-;LPghPk+-R*&;3}GsZU_9v(a$fJ39v@Ys3j
z#Kj#fHiB0+rr1%0L3Z^>-e%WQ&xD<rlJPA~iU3xVvfZ8>KEb^$pd>m{nRfwB*_WMS
zG{^HK`^Jz@>!<CD<VP8~jroCSadTJQj9T^|=+y}dx@Z~DmYuOM?*+n5dddLyKSUuJ
z^QrOSu^j4JOJy!$?K)-pGYWKePfk-a(?O8&$aKI6<h#MY$P|R1IzhU283%onLM~)C
zqp=h4<VBB%Mkk~M<3mHR*O~DU(NO9rR*sh*$Wm$SiBo$ge3g3SH|UETkmeG?yn2Re
zWK2|%mv^T|Gq(ZX6QeZ{So+eE`}8K%Mw&eYpTgaDg<-d`+xXZ1Kl9I5JoJ74HQ$x3
zvqxWeFjcu>zH-BL|FkDr@zAZJ5|O6Ze95l)qFsN{as4y%U5|=Ik1|oFvO~scN4mP<
zszdZ`PZsZ(wx)}#QpM}U;&o}KZ*I@Ejj+JwYlqKopMBa2bf>K1O3Up2`HEnwVzXGW
zdA@WD@;iJp4*15!8499eu`lhby|iOC4~+D}MpZxoXi8;Z)<5?Nv2M$?ePW<%zGBa`
z=T>FSi<7gbu09~H-g&)ATy<c+_TZbH^Ob!dMnbCU`SX|0C+pTH>(?jCI;Nesi+qxI
z^IPu1OHIEzGV}NicgwAcz)PVkAqhvC8A!H02q^&21uNat4*?bPH(r{WJ@So5Uw(A%
z@oNu>!F}_q_9q(;BufrXLp-#8?kTZ&Q?iJxTh}(HYPXBE+hMV8Zo{=z`1ZgKe0u=W
z998&uqG2YRHqTdYNmcI_t9Q@)yFkSB_-7uw;Q_~`?0NTP_bp%DTOAO?X-gh{B;629
zw{A)|Z1{HUTF1A}i470lwOL@w+5|`Ap!ya1E`92<^^)mslL0Q;+1JdwTNav`L-C)z
z_o&fO*<)l_>vR6@3bVk-njT%8=mT0P|1SmqOo56b5eY~*M?otE_rRC{R2UeFP(hRI
z3UUy}WCg|q;$=m3(p;J@uS}XtfSV!?D{>Y;`q%FMX#rw)+-BfYK0{?N?O&6wXeF7m
zI_`OV3;cs~8Y#uB@G8DwqZrXg7aSBL+USCdVs1nI>IDzQxR-H?aWCT(<6g!Q<9Hf1
zco5B0E?FV$4jn6tFf6x548!t_0k~E^u&KOg0X#S`{EF}{hI@G;R^U_g)`ovm9Dp#e
zExQzRAm#*~g`82RA2kiRBd#n=%PYK#B^v*sofdiyEmhVhRPYx)35>4(NA6qxB6fZZ
zTRAz8lQwddYa;pNA%16onQ?~nYIKCPt{$q5!435cZ#y#{gEBnK1Hkz58R*nUWlOAN
zF_|3tgjkke4q1tExg+;*Ia39{N?`UbAuU1RDgEF19Ry2(+86GLK<O#E>w|VOWI+y}
z6L1z!vxVE=qZqkth7);CH?*AIV=yRBHRu&6#QB`&ma(vLi(A;3#XU!|hlxAL)M8CU
zMax(jBYiOT6g#h>2~S8<CNDCSDS$)E4Fi#(ENk<eGUm_iT?K!-K$`<$GB|-$CU?>S
zvDvC*b>Do^p``QBJ1)<2pSbvm8DGjzQnd4~wbOanzAqh_DY*QJ*?nTkTCu2gy5M$^
zf2Ju}-yv3PxcVuvVvAU`6%T!t)8;SR_!9plD#|j3s1T&{vBEHfTAvilViyc%ZN@O6
zPjatQ3WlV<!GJAg(LgF;DsSxPP@dKkJM-a<{>{Bk5q_9+y(Zm*uw(9nRSx4=#wls4
z!4KX<^e9G};Upt82?}5wcm#&RVU&b{X@oy>;u#Z`_!v4<_&q$6rU%DiDN)wk$P`QL
z)B&0fl5jS8QOHt}4(TNN3eB1^lt)z6vKKpMCSE#!<@^gfZ#Y`g#bwWLy}UJ5+#nV=
z%#K|5r8++*c7BZbj>ShV?zydfoi3_TWuCz!gS2uZxQssc^d1}{Uf*+{zWC{sr%v?L
z&3hV>)&@R_o}iCCLIIOvP|<KLfrC&=>gGFNVG|3;o)r@S@!Tts2cs6!^C_E3Y=N|a
z^b~xBuVHm-5buO7VP|Wf?ErE*NF*o|Pf1~-bV>>*+MsQv)EJ<$W{nJ$3n-t?w1IR1
z?RM-^5qpplJQ67ZNGD_o><JH@mkD<q1SXIToFE%`@!Y64?Gj$4ZG{P|o~(n4dIPa_
zB%BFX!lI(ZD$#<WeiqqGhg>T7A1^@;0USvQt@8k_%kKjYLR$gzvcg=}2$#{>AQ9Em
z(*_C}DOgQG69SlI7{kODhUo!=gC3{Y?^5tQ1qUgpqkv$emZDq~L}$J*#DhcrZ2gQ=
z?mwg8Jc5jMWE^+^1R+>08RMypjbSGP!>}Pv?TisgU@`2kf%!{wml8)K{|&94pCB{#
zT%V!11Yj_cu9`qIzxsI6(=_kdJ#D^KSb8b(!@|btPI9oaXSVRlzS+(z2Vd|^AGif>
z!qM5fE04~8?8>nhY5}&ERi?^1#Ig<;0+~AxNVj|gAl-8J^nUE=6%8qWQ1l0<4+84l
zvg6ugH#hH_FW)b2-gmWbrfw#DW!3Dqd4DjudEfMbWcmJdNsZ+FV|cz~9e`?Q@pF9_
z`(&<ubGmtbx~?UQvG2$y#=aGd{W3$*Dh1{(Gx!e}V?^cre!HhDFQ3D_=Dt3LdUm(y
zL%%uTE(3De&=b9#1HKFdW@CMvp6T)n2x4Pk+az`NMWj>t1&{}L&+4>PEmYYpjaN+z
z2K-zz-=Uv{fGi=vfL%|(QpN-W@GAkm6jKEQ=uQ<3pgRa()GoLv20P+a3seF?Ub}mG
zRJ2vSUyNJ6i%|my(JbYn9gD6z(+ITC?!#c!95dw^qGtJ!IA#IwfblB<v*t&w+;bVh
zwIoDLlUag%oe`u1_aGn8uRVga63lB=Vz!8B$jKmS`!lX%j)*Jb0B-_M&KZxna2UCT
zdaS#6Xg4`5WO_Y}a4)Oz1Wt~}h=Y>tzak_QAyXeG`2Ltif)tH}+Z6nSf~{!cAk7T<
zqK%Vn*Iz;;hn`;mHoTeG@DTuA!^T9u#EJ)dUL)=b7VUt#J(`>(42xX+N?6VrV-W8m
zC}2R{qz!r-p4`bYGoMkd+ffc=DpVFe`zrdNjDx{a+-?*9x{py}E8l@wZoMwpiA2Kp
z5X5M!5AaJXJzTk1ol60V|B@y(ZF&C$rbCg+bl5RFlC<u)I&{Oj<978L5*n&V*R;}a
zCGg>y9TWp9UUQ=?G>ga2I+qg`pz)y|z4PA?XgP@bP#2ym{f!LLg{RtaR-e*W=Uh05
zr4qEGq@noI955;D?^cwJBQN*T6DCGV8JW~1$B~Nxq)S`hdCPfAOMbkuhy1J4Jm<tY
z&1lHD9&<jwiROSs(nM7JuS<+@BU7{M!|7FlTKIZktANdjNh}ghbyK8Uxsjs7NX&$r
zv~sLfnij}Nk^;v6kS0VF*}#SM1)yxgRcq3PC8@$jv9K{+RGKPk6pI?6HIgb_Etak(
z>V=*0y#Z;JU7AQ%hpt*~dNxVgC8_cjvAkt&A_e+O+k?sSmih8s(|f*r0EdfrGuy#h
zOx@VZ86Cr|OUF1(pG+G8-?i7#Ev-EvL;>5x)y>{O+kz2+R;Y`%9=88nr_Y;0wtxD(
z;Vtu)AMfn^lPFBR&-Bk0U-|f)d9MFzGyGgNKOj~=FmLX{9$XnnuObzfcU>Nf|8}W=
z!Gd4x;N_JI1r);$4zdNs>;{~skt_BE2i-XhMJ1OeE>|p2J`gQH4k<+J{d$|F)5te&
zYE;(7?LoWfy3>c?c|+8245CHHuv;B7Me<G>IU`shM!2NyxB%O6LB!065mxAb*syim
z@e6VU2oO%v0Xc8R_UlJ=@n&hjInxvr${<r7hCCIqra7aRrYd~MbVkD?;WpXx_P`^<
zgOg+7fk`;a8iBNRG}7It(LX0ZM<5$3Dl?1k%~~K;0i_S3DNCW*r<A>yx`JQCpORPD
zlocR24yP$QL~9I_;AADN0IdHWAgfagHp}TXBDp_EI3<x>7dTfO>1Iea?wDsqj&e_V
zrrbF~w>mq|lsAWirI)5q(;^i>F48<Ll-oH~oN$0IQVhO`Y09LkPb5qe%HAaNfdmV_
zJ&y<jvAlx@C_Xp@mu7b>N)*c}A%gUkNPfcklmP~9<@p7!7#C8K>mI{AoAM>h0&%(s
zJj%HsHtds21h3Dgrx2kLDRw7{fQa}2-Ya~d9PqwiF?gSVa027(*q{9eCU8vnPR<2n
zC=VQ?e0g`rIcx)HVO`AKA$g`djR>-jn~0H0l|LI@2;jfp@G2zjF4Ek!QE&v46U?1I
zmA4RS>-;ackGFPd7K*%gE@J6OruaU<UUP>Ua>4LzI3c`ND{ek8-*NEG@Qsc`d<Q^H
z243?es`+8M{Q?CfWb>+v%Pr^g1;_Do##Px*Nf_?(If}hNK@SCVkgK?hAmH}Zl3WBv
zZ>bUtk#Wf@o9jaCLF+gt!yP#f6OzM&l5)4O7jH6V+A}zs^_$fA=P8(>pn(c=ldt0u
zkR2hLO(qU^;UN?6kpPtJ9}TKgv2+*zU(}%=M-@PKN)7(%muy#Tsq$tKe=UdR%MVYx
z(v{W3B5-@AO=*9_>_pPPcG~?DU)}Vc#S+WKWiuYJ7`nabIyfkNxooaXtZToz;hOQA
zo3CvaJGw4`5%6Pw{p_ZB|C*G4gXrHdeekX7)wA*W>h-DW?PB%z={`cB7~*uRIxt%^
zU%hU+@2$04uhd+NPah<2ho@d|xLF*!y6w904<JL(nJn&n%Ts-G_2z5#>wPy@_ouz(
z>8-o2?|Gy4#p>CKxqUBB-SlsKGlF_Nt8lWAw&iZozx(>8H-T6^0)a1G(dboe9Epm3
zYl~R>z+FP3?lL5*$l&r`YQMPuV%Ne0hLU=CX|cId*43gFN~GC>($F+f1f^d!_elcM
zuR3*)V|Egs#dr#|Rq%<Z$4nqlm(O$JwX*Yv1^+;2Fdg^L;0Ruiv(&bBL3O!OQgNXd
zr)T}@bW^LuDe$yQQq}mCkSB@}$6%)M^1%fg-PwU}EjTE~5hsdq#ED{rINdEqj5mnR
z!e8LgTaN1DE!v}3<9=S}?5!Rdg-dzpLA3Ssgdgb)9vX{svlc-r<LJL0yg<KH(UE^W
zc(In~!ZH0n*1;<z=!~HQSC~Se#Z=gFyJ=aIDxswg-c1m55uT<}*P~YiM3z2fh0jpB
zU!mGbs3!YZlI}F8Q{zfnw3h1sf>Qq%DK<?(&W=dif<Qq7GAKJ@2knT>+8xpV3)m5<
z8TvcoF?35VGD4`xGX`jm7)X1KIHp`Wm2pYE;F1;q4Y4vbq<|qNTpraf$)h@en2>V1
z^L#-|p-_mb<F$6`Y`)6{m~+yA3}3M~!ZkD_ONa-#I8~vBH4q~047iivdWoe*;2z_I
zz!ReebmMbkA71h?(Vcyji%khZZiic8K20N5j{Fx4R|~K1gu#I8?PB}h>tV5d|C|0B
z?fq=(eT4Q3gd=_AW{yxZOIb6o8Lu_HVZYw~h6|0{LXF(Q8`+W<uUy7GY`k9c@+sy!
zHpqR+GHKl4Q|m(QAK^p-7DcF_=~wa+rZET54>UISnu2!<c$YBA&ymV3$JJjMss}Ro
z*OK;z4ZIcw0Zmxt6dIK9+b9d*NbaS};n1}tEtd&2)N!F)MX^9))J?DT9l*R6I8@XK
z2&{s90UgpzVWk$A`aKN&RJ1qs#0r&MZV9#16B`5{MnUbI;M^!Eo7yKD(LE>57>IoW
zwNr)mY;rw}b7NkN+CBTfFodpJEm4j^do&lJBb_r#pYV48^E3I}$QfS-gcE_(|If%P
z?54%Rcr7RBwuo+jop29E6eck<jukO<X-U+`vr^PZV7L%t>oDBM#+<<m14CmR0op|s
z6510Z6k9qq<R8uH;n&$w_#t+N7HTm^ZG48tP_kj`<zv?-QV%{NKKRJAo#Qnt(ZejS
zN|kRA%QvLTw}|CiuKB)K^+wfvdH3{zw5L1?iDo!nZ`g4y^1YEaMy`D_S=TdP+MD$D
zzEx5)Gx6&KaMA8x4Mb%B%THeoi%nb~6FAOdCCv|opnU3EFoLy}At;>7!_+rJE5b?y
zIz?eBxtY4Ug@QE{tfhcW2{s4rA1k55hn+wX8iCKCILJ2T<w3Ry_!r4G{kW<Btx!LV
z4RN24Kst1e<JA&^f?o+ip_q!G&>crmD8>;Kig5&mVjMw1jKeI{EdAq{_>X$WF&)Ok
z#$y(RKImqGN<<r^<JiKEVSXr+dWaRGN<<$d0VN0M)E=P(RmKn4Y1)$UyX@mvR_i>;
zeT$Qi4k%wTy-J8l#@fz@N20;8kuz<Sm6gE`?6@oIMb>#pU^{K;cZS#(spmIsBau8k
z7CQkQNXKY)dUQgW<FZ(ioyuezOU5eeerAk;toG26LWt@eqAx2#!EWg&F+v8z2-#~x
zA`e@*NfHV6LL}JuyQZ^760`{QaaBzdlL+Rrv4^mvWAv5iRlX7Yd)&mEH0A{rm_kP=
z`0F$&>yU#B1sCrU*FO02hS~Pn@TE^(8k{MdX`gBM>Onk|1cZI1MuEg>A(i|vP3$9x
z>x0%ly%xMo)ony|7YwN5*vmW8cGtTmW25`F!~NWri(ACvU32YokG;A*wRVTNcE`=N
z56&0wns@Aa&yv@;n^UzvJZ@@7gMaRjz+bEw68PpXJ0u{Vvamd%z%;+4Fn~!12KcM{
zgaOPP1`uAvbY%3<`#Aewraa4@{lc$dw%y~jF48U$eoX&6S|DyLDkgC8FMUjdUO4aH
z2ukBG&k4N*$xuC^?~7zeM-n@iu28>!8ly^wvk8Z@ogdD(t!2>9tbm7UlbN5-zHG`N
z4pb&~K}Rf?HKy1{IGCwPSqHNWvEMn0=II^GVB9H(GW0j062+t_7PIXLUsjK1uXHq<
zG4D%JX}Ap2j-9Mo)@bkVn1;Kn@bEbpM93<`u2U@ZT1f#U!i8v|;~E=2F-FRmu-(E1
zh)1BG8Hom9s+QbpL51_c1o^s(4aX*8tU#D-Yj5Asy1rv8bYQswU2p?}Oq(Le?ZgJ)
zmW#Lqu~sH%JP3tZ0h%pP1f|CTavwH4HaNkG)7BP<4MxYp!tl5xc}!ZK@lyS-(?5}N
z%&~06;0<aKK_?zK@PFqED0)T5l2+vJUI^-ErDMqsQ9orfhanx*MVAIa9ZxtoT?4R3
z9^y<45OMR@%u~*Ug&7vY;>f*VJPkZPW>^UDAI$m?41x<Nrcz(d;h}IDc}fc9_Ds3J
z^OMDj)Yk?T-DTo@rbNCLft7PJw9qc|?Bu5q=zE483B)1Gxfq`>KT#m(k@$R$zKn&<
zo_L<!o^fa<ReV$6AUUy<XBB2HO_$a{WIQl74r792gCmoetfVp(JqL-`F~;f+EmDhO
zdQ7j{b+JsQ!o*G$JwBUzX=E~It}%g~Y>ZMBSBwGRBw$f<X%NWDtaU3B$oSdx6WSx+
zM{dR)`|xKI1ZyFUz2j2btZz0lw?kaLHMwfrg2DK}b_9jnA-CZwe%JYnwDQwHR({s6
z2u*y|qMG-4fliMck}K_`Y&*S4y@h4SPLu+iC@^kH=-zE>Kq0+)rL#ma?^D<!9Vhse
zjuVQh#|hnWJda{dGU4N*n44tzJQVYiEFYBvflaWaN)Y21AGPckez26G(r}Y}u=F0~
z)_LylOgVFMcqBG>a&$P-HaZbxL_vO_Jc>mK9fJuhy8v1B!G=yYKa?|tjuN>_zK<V0
ziDL(UvEflz0Takr7@3K{>4Vjb5@1#VZudsR!s!68&dD=mTj8mmo?bhx78ym=SRQ(6
zWMni5t(Q~L!HG7yX*)hLe!OjKWb2mj@r}{Jw&=Mqaj9c%Q1>G}L8$r-LAGUVFxnOk
zqrtE*(9qMqA=uNth1DTc(m_+K^T{9al!^cMIAszmK4pgGQ-%{AmpxfbI9Zt1caGlh
zztqWMl}`!H$@27lo-DRL4ZVF2b_L1M98;C$x~;RcbG(dT`5n3>+be*?qiVq68vF4*
z_U3n1W@fGF@)NV|V#%ssGFxj}5dz`2sk8L<U)pd43VhTfpVixctC!h-o2300zta9o
zF?Ii?JHG!?jPJh`<NGhg`2I^VzW*Y|_g`vM*8VHQC3herqzl+b%qPM6lId*{>x+~F
zm!-LZ1!jjy7ROML!~(N`1y+s9<5$=gBYSty--I=r+i)xzoE)AU#GV$86BN#O-HoTo
zi?1M?n%Ne3DiVeT<u*z&u<<n6G!$4x?dz6HiMMLf;aSkN<Hb59#eLd`a;8O_VGacJ
zHg-GVKTyEnZY}((z}@6$ctvox{XQ5&&r3U^LkkD13>XdE{S0<F#!m$73u_m|M}*{?
zEI;Uh8O?&z7_^uLG3#k;8G`ZIbudIm_8BY*H^Tg{S;%t5k`Q`90*q1yp+jC1HXdXM
z-J1iUD{_N+GRpFvH&vLh-vdJTLhZ(srE;T~EoBh8Q)eH&vgAH$U&OevgTCtOBe}3h
z6yjeexvR7&Be!N;V=w`%xPy)l?}Iui*+pVV9T^B}4d5Im)c|IBlbil#MJPssvP=lE
z1Y^;&OdB?2w;vLQPr!Wl2)o~AfAYyE&zzq)IX-5Om(q>h-j!9@HhX-J-F}$YD4Qix
z%2XOf@C9MP^?g!J^?*B=V-`RnBjab6z#jxUD;8@GoyQzvZk9DNvg%6E!wSBEa)dbw
zUZtR(3TQwOTY<t*wv!m?9E#Ge8^X#0j!?c7n`tHI5O9S2%iAG4S6v4+e6hM?x(|*6
zW^2W&_G$72;;o)Z-0-ZOo4S^`(e@DJ+!n0n3L|#vy!;FK3kGumi+hs>FKiJPb{Q86
z?WNsD9BCCF6|uOjD<fCCjzlmy|4B6;y3a_M#UsWgQ46a^E)Lpevf<D_qJj8J1ovb}
z>5;oql$)s|9j90hhC)XHI}eV~Sp6DO5X~ze7)m(=0vU!<own92$PB3>LQ-T5C0$d8
zzjupwO6MegrE`*E>N!bwcEU~^6yy9TigA7v#k__x;3*U<q8OFP)a>t;A;wQkYH8Mq
zDN_jUbfeYTq_C5qUVI%A?EJKhIG|2skqBY3DiJ?5nf&^YGhzo{%6{Gi3%(VoCVq$=
zSrWplQ6B<uKNyV>c7e@=oGB^T1=D8-`Vku+qqj2GC&n=ivZ-YFz}I;o*n6n0ZxRMd
z!@aOO6>JY})Op%9e)NM1o;Ex@Iv!Nr-Uo3XU3A<H(6~NH0XyHc0&0p3{9m#24T22?
z5hGMeO-z>E1||fu<z5hJ_(PmO+LKN(F0VPW{;e!DfL}%@nsQD#7?nra>GcFBrd&Cc
zAaid0boOaZS(kF^cr;Jl%2RK`21$0WB+0JOn;^-qP}pRV118CCr1MjfWVZ?438K5P
z3umi0Vvbl|S0uh6&;Er(!97ko2lAmm6J`xHN)i5GXPut>xiw;C^5@oPzq912SAbK`
zoUq6zCFoKGIQ4)%V2(nW8nY3mt4A}|7>wYP=<`1s@WsQ1DaMf_`n3R@jI%Siu^hWb
zih+@q_S5?|3O+}{K?>?9Xr(|v0B~^!#h;+ylN7LnMV)i%NkVpLgwN52LShR`3Tq3W
z$J-cfRT`=jk7{U7MH*ja(sA-fv_*OOaRMvFWGgyH_L{6%9{B13J^AapRkOn{*IsSB
z8W-2^{_iPlo%UAD^j+KV=HyRJc};HYhlTzn1gRx$)a3-J+YKc(E2Tw2t>7tiYBzj)
zHq$t@P_TvqCbqyN7SscR4KS0VUh-_9t&r`9uTjU-1dxOk-m_}iAKbnQ5uO<D1HaNC
zKr!_YpgTJerW_P=5@CuFt4LYtE|IACHcyo@uQ3e`4e-ID5c0R#AA`*)G65oiajL{W
z%u^8?AUrm~fHv5s0xc&TJ5975&~!k39XTIorb7hAKZvnpfV9Q{?VS~1{u~cLs2z+7
zXJ9g(+`$kSMwXugSYuBOgB=0G@sLG`5`*9bdker(fQ95?A~+GU!%dn<5S&z2E1Ged
zG7OJVI|c{GC(%YKdl0q?K#v+3hape0&}p~R=RQm|?xn)E+3la6(mv#k(>#`~Zr~BK
zppYpUmw?g%bcHYh|8xTUv}ReYpq-XZqB~ze0BlE+VT7y!&P#@Km=NQ8xtT=f`K2fO
zfSt)C@2XRlgjwHqg|bKIV;{?pm|?%JAW?wx2TlP<loPvIes}{$yqml1pstBWC&JY2
zqZkXK+0ip{RmeIfpgJoIH23X2+#(;q=t0^-7)ftv5=<QQDrFxHV`OByn_{jkfUI&(
zmX8e(uawUYknI6_lZNo*#F@zn*bHU-rpb{AU~!gZXi`AaFr&`FHaM(M&{UKBjRZ!=
zF;6vh01RMxI^k}RTN|gwazgqxG+O0+@n^)@B2OnYccMUDz_DWaDHmOgEg^BS<OV7U
zbmsxDh0h6Ohrbd`JU*3`j8rn4JF@Xrn%B%bf)G7Hvs5;lO3NxMSN-;coEDY`C@r6a
ziJkS*mmdKE6(*Y1kM9J#jg3-RIM1yC(LnPNqkdm@Fj(c8eBL#}Z(#yu@_9eN1_?WO
zG9GyZB{iZJQ^rA4OR~i#{3_;l#yo_sfR^iV+z8)7F~T2GKm`haL_s~JD&j>;>k2ud
z=djw?yntP`K{81seYNl%WQq}if%=kN>_~&f68>ca+9rG#iQlKKHG&L4kyabrzDxT>
zSM>#0FDSaS`Qo7qd(*CB>Cr7$dCFBQx@u?h=PdKC(1mVnuCO{*d8HB@lX?FG0M=ni
zEZMLz*{~^DwHclr)1_-K9J*avb+uM>bSBN6Y=<30Wy&SfLYU$HY#3V70nLkAAm_!6
z0Ym8?vR!6Kb6LPThHCzhHB!JNx~wgBp%R}H?`A`D56D?}IZM1>4lu`yL1O~%HUc)A
zFbs-0^_vC;QNWKu(#(}F1=@XwLA(0Ut?q8NEC+QeKame%TLrRY!nU-R=3LprwghWy
z^eT0AzF$K-=>o+4S&3F;ow5Nw&R4m!Q?`3TpwLgH-CKn}8H6o8mFqY~SbWYUzgv_u
z%lyl7IRRxWV!o=#GlP1~uStC**8-F91b?s#+*aw^IYt3U`?GLkV`Q*!nVd@fO%N;$
zb2D<85-co<?s8a@79XRYw>UGt-p<2^5A^LDIDF(#@8P2Z-4FM5_2&xh?xqaeQHcid
zJwdk&HdaAkdoBp9Oh0Y}vQ*l(u%SxZ%K)80+(yed6?hy$3`^Z0?F#tOz`E>wqjO(9
z-LjdjjlfZ2?;$&O31Snb>b8mG9&@KyxAWS>_Y!X;=IeTr)|#}VF6n3?6IiuduQh(J
z^^MkRHOXqp=zE$B7v6%3;f8N)eR=B-{lSX|VEO&2w@TK|b<dY{<d{sEZ5Aun-m0yC
zdF$LGSNDs-9rF!4Qw{sYhW+!k2W~a5eXG1~c6G94n^^zAeEIfNdAC^J4R22^r2zf{
z?JD`h1v`UxO*S}y@)^9vmp1=uVkR-~SqmpF3zde7&_b1l8d7}e@npk>tE1eV3dlNT
z)7*=7pD>A!2X?+BU`u<c@I4CjKwRqnT*?P+S8UHJr_Oy8DP&PxJKWJKTmhKIu1VIe
z$9+|P(p*m6-<Ymxc-K)anOMQE1n*MJN)WD%Vs=2dcPSNzYpJ@dtydvmP~+6Cms?Gd
z2^g|1_J{@c*U9#}4dncMnz9mUgKPvkp#1_82L5I37Z=2B$r`&GqzyMVXb&`Byh0V4
z5dIoAOgqiOd+gD00WCvF91Me1uh<~uXE?k{B^(7fOb`;MS`LkmfJR9$1(>CPN-4$K
zV9vGZLC$;ScA13Byh8T1tm1_7dDIMCcrZ@BS@_*DVS;$T9BS{MI1eVWdL;rUhl1Q=
zxB5_tCH|$q7!JpSJqI4{m0FYt-~kYjk<&4yjk=LU;1Ik}jROo@bR~cwF{*WYs~lUe
z#5(vFCvtNwdXSqyzF#JxQgKHxM#B*mg5gN`jN}_YuK1DhbBD*zOpXlm5)*;FlfcQM
zK;{mIg^}Sfc@vN;)BY~|#nCay@qj@vJkbh#p*0W)g&=LlFS+8L;p4(E=1Fw$B)v!k
zIwvE;<HyIxPfH1x_(=r%!UDPciY!Wy2-MTywc*{!@Z@NHb^^KLeZwchYQ5Tu!O<9x
z42EN9H4x>alW+;4xzvh*$ik>5kmcz3B%2tCz&XNhTLYu5fsxk0Is8YWPXTqs>c*!@
z%c=kHz5`hmcY}sGHaH9($Y>OL_hTpYXPMH~i|R$=`&$FOt%07b3gt%26?gU?kRQ=+
zBG9{Bb!t*t$64R0eKmX%9~+B|s?XFIuXxcWv*>}cRpmsMNw~}_wsWz*-bwV^51iV`
z@IfK4tFhyg!ikfEfQQ>)9pQt*)6ucm$#J-uIx&nTf|>Y15$Q?LBy4+X{2bgjVPSkw
z%HP3tCDgl5VD?C9%dk$yVk1J^2u)@Fa3CBLm>$K^_}1+Sh6#=j!Kk#f?<aNw%NwIm
zes(-ccaV4kRT{}h&%_ctGv3(g;WMzz2v{ggt0MNH=+)$6?B4v?38dneE~U9Zh1nTI
ztiYUlN_ekH@Tg?*#W-aLrJPg*32e)`0Iz>OTe?w&*EJOKNrjh77GM}mO+E}5r3F@B
zR2wR~uASgK@pX$rWAUOT-kfIOR&ao3oqu`{V)>A&DPS~Z$Fqkay@~uodBaBVYVT!1
zr2vX?Ch%*`OIlE|E*7x|)t}d9fA))j+8sja1Zk+U>y)CdCqIFXjSa>hrSUR?_H?RR
zeJ975BxW|nn=GzKE*>)$Hlc(cA$i8dC?y1O(|$?{G3PURn7=^`BR6eA8hr7ART0^@
zBgyv;h6N(kkdGGyx`|AZg<+yI4TB;V9XkPsAjhKw$edvEWJH3(k#d&kf{#LE><oxL
z5}^l{v?LWlf~_*8M~`&&^>-aPaQNtfLw!I!_ICE}?%AucrNWR6`tXbs?&by}lW07s
zCBmD?u0cW=>JddU;qNG5bofQ4A@%6+^_0AU0@a>M0WHWg(Fmu?|F2Zj-%#+sBgok0
zCJe;5(G<cG)y+_jX^@pdK!(}a$p`_^?dWY_Cq;|dytfJ~Q-$lr!u8Ynw@S*d_%$X@
z=1Vrp+J>BxUsMdEl1mfuedRM{mwTu8rhTy3d%16R?_8VMxNTa1u}Ob`n~S_^yn6g5
zId)|J+Z%7dX=KIK<G)i2)95qpmz|diz#YC_Q8(K;E6i>tgDp#VfLw{0leM7EzuO8o
zTjb6X#wHi?@(R}w#lIX@%9umTl~_O#{s033@O(+!=AUUi&r<NWG;VCJFv>kMNS1@|
zEJ@9$8Ol(A12kMuqqxt5)9bZZ-)k)3$_$cBD*7K50P+nrj~SEZ3SzmNeU~Eh<~k7V
z!TgoT{cRGtAHNd%Lot=yPj{T$PccsJrx+*qBgWApYE>3mL;}fl-RVJ~qD9;)S;Pbx
zD4DD41Qm)KPbUMBvPCl46aWw<+Gl|PIT(e?4CZ+Nm4(+MU<Yk)&*7**e%>V+Oc`a6
zD3&sQL?$A;Io(p0`CLjZar6YdO0<oRV22n2@k%N;I07yH@cLi`$_=dIk5WuWsGS$Y
zO4=I+019tl<3dCx87m~#V4yyB9taxwk04??T;22gfG|E11r1nXt#FcCAb=b)-x`S-
z`$N9hB;kZlB!JgTF1!lvN$hM?kot|}aK}fFL%fxd?xi{<f_```qVUEgt_aDGO$2iZ
zzwGmxnR`xFjO<`TXo|5608b%GOFKVf<^bhn$z-ChESfKE=MuS^D9my}5qYbJ-UvNM
z1BuZS(fKUe1mpGh9^822a%tp|yB~1Ki5ZO5YPj>a*j))6Vr=^YvQGfuWNG&O8#(NI
zg&nN{PF|JS_W*Jf20mgOJb{TifD=&Zh!g;bA=QpN=5|R-ZbifBg4-pCQM|7BcZAy|
z6MthcFtBS`+c~e{%jlZ&=HzmrOa)-jGsdapEKC$Y0HBZw02FCRuHHnE3~+$F_^Yrs
zKz*5WsX!R9|6$R_tWh&jRAiPCSxbP*!ay$Dvwy-!mkNPXt%g}0$OdZ2>VR8f<GZp}
zsqmY$O%v}Slh0o;*<hwQa<rQZ2+yHxE+zahVqjk|sDcqLRi%;7QKEws)KQ=kGmCSH
znR;*p<KinI1cw}MQp>1$8LzVR2l&#@Sb+e<!r+ez$0-#-AQ=Zz5%Yx^WNXBe7|FQG
z5QXMf16=s{rko95{4pI^+c<pTGgLH6hSt*S*2@wAOY{A2D`H|WHa&AtENhzHpRR3~
z-GAk2_){ScO8wlZ=-r<7*Us%1y&ECu#OzO74S^Qf4@>z~^R>wp`C);j>dKn8y#8dx
znro9cy?ayML!$Q($fD#02EMA-?=rr;_WH4;vlc0Rt7eZS+xOfo-b)}!mK@pIbZtwz
z`GG7$Ya~YouPp#8ysDwK14a@M=vi8%EK5$B0UFB?QFA~ERXTu8q2n}<+9_C10V%Ju
z6O{#Dr!hK(M?^&RKzyvxU<;<Lp=`l133k{l!4CM9U<Zn+umjz3*nwgkcAyx+4$L0)
z-9p^*X3&|Q1wi=F2)gbN16ym4nt>2x)|4y=nIx80q3VM=YLYx#LZljgEmh;D`u;7=
zQD@Y}K#Zb@7a#`wy1@3d2P?Zs$fHF-${WI)6kJ0~xNH{gl#8}fwz+>BksRC6<ignu
zoJsL@3f_sb_3CYgz^ANA$x1}tB9U9cV)Za(UE}`uDDk}HeKlWWUHapwnVAme_JDt%
zZvPa4WRu_mpEM8RNqjYU9Ye$CjzrIZdPF$T5x@rHqw>lhfNl&V$Onu#0%JRn;h*%}
zRNk_>pL1MvT-uZJHHyB*o7PpgtoG+@7j4hEFS;*Hq{^DG;D2D19I7(u7!4EgI*Ju=
zL_wIEg6w^8P-cxH5s2;5P!aI>MdKICo;O@H(rnMYzEnnn%5kKE!B`LwP6MbHiqw-0
zXgLfzz)hZoDOFnJ0s5>lVwu2z^DB}+p$PG*PuW~EPaCJphHxrB17SPB0T3I9hQ88P
z2#ZNm3?zy(Xa$*;bwE@@diprE%mYDj7n~4+1Cf<iapZ`+hn2jFv1yjK5bg<Ga1_Y$
z;>0YZlX0pTy`giq!Z55<@03q-&Z<vK63$bQ_0PRDY(ih6B$5BRRTfv5%Y!=S5wqc0
z0cWlYy}TK{+`?je5X+0$U}DxjRXRb)EW7kv7)Bf#a)%;hm?)L&!lI!rXBWg`oDrA&
zCRU=_BRW+jr%`_sik&17I-KfRA9s^GH@Ie)1i360XpXnHD8BHrXblj1K_bvrL6=ZH
zz(tWIV{FN|zzQeo0S9guZ!9!-=%~H(YY2WL4>oC)rk%q0=U#fEI}zi>{Dk54Jo$_D
zHi*}xg5bqanSU28WU4-5f{AizHa`wna4K)g1YhJ}-wu(;k0pL+Uvw-=bQ=zilkzu+
zD@^Z>WU&Yc4?-=D6u!{|5Z@V`7&&j(fDGVkXu2RI&}Rv+BIs^0^A-Nv^yKRl{96QY
z(ZMz&wn05cPk)bsZ_%p);ca9W`YG^WzGgh($SKGjK&pcw3o+rFl=cY<eiuQE1OZrE
zF7OR4Q#~LH^$)PNN+Tm>k3Y2hR>wttRC6rL7FJFBVLuwc_d|I8e(dsNsgl)V$?Dlp
z&8@k%BU!R~zT`lv<gi$Bc)sMwboV>$hv8l$UArn>7lPzAC==`5qB8{6?`LM+I9z=V
zvwg|p^-1S?cA&!bPCb1ofpFZJNs?kB1ve<zf`FW0P**S)i(Gy*NVmfjJWm0GMpf`L
zO3xTA>o&!nMK^PAj9*5qr92lTy-tai+L<}ey+{%e8UV5_c}Ns)(-0CcApB<v*kHQO
zuyaNli;PFQ9UYEAG;HuB=!la;IER$?(yj8|BO$ZOWKetOzfmP@MwBBKcv3q*mG~|V
zblbR+iD07<ejMHMGp03BTAM0q5ldP?C#!Cmdt9vEnuK!%NA+ys4M#mV{pq5>Y!wF5
zU~FqlH?EuAd9{$79&S*b9xm9OwvO)>FBtIi7rwt3{J#JHrYJb?a3F6@*TNKUmFl(S
zt>8hJ{|!DOI@e71&ODfQ24)Y5&W@xr@J>lZvNHI?lF%jNTkU;mUk%{e^+lpLbjdaI
z8KQcvn)8U>%}H-#y1wmdP^^FOk|*u2Px)I!f6H9kynoxJd@@{IJ73*?$qtzJdCz4J
zTouyPWKIh27MM#)e`<n3;dcuSrEPF5&%Cmr1?@K+jp^$4tDQHhH(uU!Z8HRXWr~}r
zuo~{G3w=pn^SrkO{ul4M03+Y^W;q9tQqOF;>1<4U%BDRWcBFlAG2!h4Jk1pC+1uUu
zaL>_!{)fA}4}5%}XK!D|CqL_ZxR;2#c)quv>+Tasqbqs9mPH-CJx+mvCcY6t4F3jc
zZZK$(f}ar({W@O2=L<TNJ3C}<4#^^$xm<R6m~UypYjSx=v2yZu2v>(y>nN1G9qut&
z%9%JWMI<1bMG4AYu(7C}q7D{y!l~whi$&e^)Wf3O`5}vP?}sc(?hm<Fm@>NOT}jQS
zm8V=@DRzgp+*~>y8T2GWB@k&~l4VSrkt~RjnG#6GlZ2UML5#c$*d+(^j%-JV%#K(c
zDvp1Noee$1W5F&+^};GxKhB43ijMYD^tzl3tPqCU;?z-dYm^{kCq@(n?|uk~c8}u}
zY6GKfq^*73CZ7KqzBlg4Df%Orth|eva&Jx;k%Uw*6WD+POe!Oy*w+Af_l6{Gc5joF
z{|=gd%JHt26@eQ;nYcp6DD}X<h$&*0({PUmdYTjp7~#|qULfQ`u-9v}N^mV>gi4-g
zJRu8}Tx5u{1bsokP|igbMC7(jdEk%0J7!Ke;cm<Y;Ml4ME^2^94>L>Yg?6I~AZC+_
zbTmFB0+9}9YzecJ);>-QBD5uLJ;VfWV%s=x3zJ@ByC3d07>{5#9&3m}zmDD$&f*#T
zypZLa6&R^pLfa$9)kcoW2QyNcKZI2<@TrVTCK(S*kVoQO)KCUX)FYO0kB*WgtO5fQ
z#X&hL<%s6Qgxxq=$}(2SL8SpYA^rF`9FV1p`AwWI^iH;*Th}GuBAfi!7AtFCYQEAu
zyKPRGuUOAK@xIh^r3W0NkIh$YzGf7wwxz0eiB-Git9DQKf@V|E#0}>&Ls&R>$Q$qM
z)O_{ER5khgo%ipWKKNr;(??3lnts|>H@gidWku1Yd_1mSec4S^rzV)!uUmV`olW<_
zSqQq%`t+)fEYgqasB9~V%&nB%!)#dU`?z7#rHG~r<15iHa4_y1#ab!IIl0>DnM(Mf
zZC9Y+VH%7nyd=Vp##R<SAX(E6XE&Uklw)Ea<QsN65mkp9%A!~<1&B=S({rvdNHMN4
zNHN7X+1+B?@|ID1TFn1QTc7Y93ciU4-GFF`3eyemeR2Pig6b`&nVL+-3dDljTfI)p
z=c`l<;ZeeuaGNO@89xEd-xI<Q=n)-l8B_T9pkSg~sy738ab$#R?Z!g%ipVwsp=1K#
z4H-L$_G4v`+yzl=gp*Va?XVdKafq0&GSE?pUX!sgRfh5Lk(fZ}wSc~cgFj+@kP@@t
zqTBq5^Jl0<#5fZOna)^%GM+il5T1<b@PQtI_Q;HrNo^3H1xBwJtdc3@S%I`bg&_tS
zOiU=Eq=jU>Bt(7$LlUwo&=#8UsL!EqhDMdBPgNHKLMc5hVQJN;A!b}xD5H0E?47nf
z1FXD|%$yN~a!Oam((zZrqi4pU)xztgZC9Y3l=-L1IN;nEFZT+<xB!pm<YDyW_(%kZ
zL3m<95C}sTHqnHwrc(WyQsu#x%B`W4wUo#P1iJ@g9ThlVmLV{8^m-!&Z4|Jz@;QpJ
z1#^sIpQm6Q1tAJvpx|W+XgOtU65cy52>%~FB>YqOLkdhZ3usRheg#1$zmw@k2){*7
zen>%x+D}q3!hfV&GGEF31TsHU+}i~+@LotSm?gVXijkcOrr*mHxrA$U`&|l{_$zT=
zISrS=plnfRFZ7Ic`{;ONawNJ_uwjy;YC~)jCOU8oqw&3byU~27++g(n$YB4G!Sy49
z?MDX3j|^@Wy8h14@OOsIqG9vfhT69c{<jTvZyPG#Hk7_?X!<)t)lUpXZyQS9HmrNw
z(ERs?mbVQX-!_EaHf(s?unqAAv)Q=gZS$%HyUDofM`j4tnv83IWG<rL-Nv`gyRcc<
zE2qm+whGZ!F|%df)(A~+w;|8*exBV}zhFRc$AsGjy1m;7H=gcGvAg8X)4lMx#o#MR
zSJb5a)#=r1-*uH6^WklM!Gz!2__g2{yOO(bp@3o>Vx|~*Ok8kK%xMTTE>J#HnQy=2
zq1YxvUIBd18`sSO*TT<S@q6?`t>Dj*zr7=A05g52W7e6hY!yp`^9HyiS!>LnK_2|f
zmdzE<4bGK|b?fiY{leqMdj1kWSub(FaKvaREl<}rrdO|d*R|pQFY0`LlL(?XK5usU
zv0Z+oZ2bY0AF-eyv@w9CCTfLfL{^E~hJy!<?agRnv@sldXu_qQq&Gatv4020a)EFt
zob*qahG$~z#rIr{m-&9)yxn;-lbPAWX7Zpg30_qiDg6%VT1StRi+Fy#GST&NOBqa*
zJS?V6CZAaFeF=XKpBl@Q=drstGFB8f#p5y$iyghQbz~gg9l0X2AXQ@vb~Pvumr^v9
z1laWK0K|KK6s)+dy>dge`wj&wHvC%vmxh$JO)%hFxd?&o#<$I{n<xlXrs4wkFmZDx
z7*uVcsY9f9|2Q^Em1lwt-1qJRB%O!^*woUH=}<tDvlk$wZ=%=f11lxEpK>(L#mg}B
zP@Vc)hwtTse;r}Krc6KuhT$v<25i7BiV?}9Af-XFm0EYKsw|Kd&Y>X1H&7%iMB^vL
zPq0B&bQJ|D-jnNOUATsV6!+m7cl=@o1p|JNrTLqrss;X_eqgFA;)V@pTAWrjrN2`S
zWb+REa2YcfyRZsb8d|b|f)sb)IXAtyf`S3}WP|M`nr8-@=WT$?!&C_c1GZ$v@&6PI
zztof0AiT6bCES??lfB3|m_MjZtmvtgA6fb1mt*U8`>}G7`<#{tKM9bY&No`S%DX>(
zPRq#g<fef{&lm@;w;!@6_uo^6?>gT+;_52={#c{)qaSnEL!zJ3>t)f;>b5ERYi>Is
lPD1f|NjoV5mu0{0)dn8m()8QQ+8_#CCQN%x8>|AAe*o(4;LHF3

literal 0
HcmV?d00001

diff --git a/benchmarks/__pycache__/latency.cpython-312.pyc b/benchmarks/__pycache__/latency.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6b0f2003955f3927a73a14aab5efc8ac09f52f8
GIT binary patch
literal 7622
zcma($TW}Lsmbayr)Oxfm$q!k6fC4eLFp@FLYZ3xs%*)^yFEEqDo0O(ex9v81<#r2W
zt+eAwr3yRC4p1{wnA%L?Y^7>Fg+KV@XRG#O{$@X<7)GLFYNsmM4?eca#NN%$)PC$a
zEwv>aljX|3&vVaxoO92s|G@JO0x8b^z5JgognW$+BU!7JH4{U~9U_uZA~K>W&Wtj8
zX&N=@rFqn>m+UC3mzGfrl;*fKVH>qEl{ws~9s1a~BjFfzRQsF>*QiUcTjG4eJ?c(0
zj5g?PYuuCYj(YXFE$&M+jyCFbF5Z-A9&LuYU1BEp7#ppXqC@gat&(lb6o5|ADVoNt
zqU#fOG$8UYV}A|OsEwIKH;lKx3?qy;z<9^BDdfo>`>~XaO(X<*C8$nF!MLD8dpejJ
z3#Mr*CMk-X91jXXEaFn|vY^H$aF9wLWh6yaBF}Ku;Si&lk0+<0VAYSrM98G=jHQxS
zC8|c%R5U%Urf6&;df8YiI+mgdLDl#vDytHLOe(1)%yyhij>}2uI2~88H9}K~w0dbe
zEkVokV@XI{lmx&uB2XcrXsiHmnvF_ICax-)l}c)cCSxY!BA`T8FvI`aBgpO$706ym
zIUr&VNRO8)18Gl?o2HmaCNa~893gpA&Xi+v`slArHykYV=S@rOeZ&PRZ_b(N5p`pw
zNw(5opHJHATa|i_Oak`J>3(%rq6K&Jk3_Wo)|6*ervaB^bLRWiwHPuDzZmc@?r4gH
zY{QzZN;S=1smPK76mSYx$D_uGGcD1WlvL$7jF~B3i)KqmDwSi3=8&$bREWw+APX*&
z<s(&+MRdAYsRiLpDY){qpiXF<l8yu6uBn<cl~L0fRi_`t*A=qp$SH1KW3Fh9v>K&S
zEJa126x7FX2Z%0+=`Tn7)I_>3EvLgO5K~ga*D{BGbok04sV^>H?t@)Sq>_DC<MBk_
z2J<L=)kDE1wV)zg)fwnzJVrZUEf51l`CG_l$hwvI4wQLs+1oaMdf{BLV{gIJ|D<<t
zx$$hVcW^<tb^O-U{71L5x8EuB4i+2FuG?6jb>{4I2jP4x&Hg*@-hQ{#+*NGuS`bUS
z4i<METy8$}kSR95QD}Pe;adgY;H+(hYrZu;pMA{jUbVoiKYwc>P3IW>(6{;HT`tX<
z7N`RB*kDH38Qz`Fs6n8>9RiF}KMI4GM5e}aqG`!&up{#_c(xAS@(S?QI(XYFz;ku*
zcG0oqykC6?FWr$#<d@tvW`4;z8|v_SMDHu$_0`R26q{aQMzhF^Eld9Y_YPatjmIq#
zG4KkQ+W>QWJ!W-76m0eUbHoq;d8FgUv#-!xr+ddzrvZZkAhc~b>kNnGBs{%vTuMF*
z0u(%XRs~V1*+gkf0Ew7&g~OHSsl&_w40h=<JgmrB=^4tRtT`M`K0{{9hK4hV%MwNT
zJ}xCC3c5fHDk$lbpb3H?LQpAyM2>(63BnBe8e|$fA;r^KZ#bM$r0``B(qToH(waj7
zxeu?CW>9`xg_tU*l35?Dmq~;{eo!SmCD24B{S4(%w!5}G4hjgZ1l3fKW|Bb=O~DFq
z1dqOf;n_Bv+VKNZBUyVm4EsjOligdb=*q5oNLa>Dc6js`m0ie0yYZx5xD3B>p(q!#
zdq+SR;s#L&y`Vm;Dk&%@gJ&<EAI9B-zKdj=!eLQXgv)U$EJ|wXij)L0WPf%d6-=ho
zV66-EtCEJ(!>#wo5h)TBD-d!r7SD)M4N||PpeiRMT&rG#CnQ11P$>aIKXeMNzgbG+
zy3sV1#^h_!m=K!)ogT7kE<qHdAbc|js+ncX6qQos*~(xnE+c@VxfDr_R=EolH0=Zs
z1z9IZ+aaeBBio4shhb!flvziK^%q(HJij#X&{tsnkJux%PWRHqhdcGoqc3*8wh6M#
z@hiNi?D3ZQ!>e{;X<a84i*?mSEY1r4LTm4XA$`*E4NPUOL!aa;^9Q$_ROXsL8(8!e
z_KmEXb(|)^Y2CnC<{HZl?PdPhs!bndVboDK>esP1A;4B!Ds$Ul`YOxtN2}vDi*?;c
z+^r@4^&<cJ!cUj^Ju|237F?9z1drMMYjA<&1qES;j*5Z+RdJnM_gwd0_g!ziL*~dN
z0&hyRy(SR1vQ89dO(=<sAzVIYR9r_-llUk%rMa4@0^6x#5a&$^E^lUtiR4UTr%cpF
zW71@kQLB}?jkUgDe#w05o%2qjcHWdGTQ_w;bF%IGeQ<Wv@0$|zqEy(Fve3Tr0q~{m
zED_oJ)zOa`*tZ#G1UG?0Q?$U(x-~ZF-SPbyF0y31Uv)A*ZB$=3ASQPiwOTnDs@08}
z$N}EnMypmr?-u7AGcDN-RhnmW>}0q$!>AeO1pC$!GmWEt3;WAkL`TjdGq+7QINi3j
zeCnAcvz}S+Y~vU!IzQn)^@-a=mx?c1Pa?^JKo~Otgby4D{u4fLRr@za-3A9SMExtH
zS3O|VVE+e=daX3(hz&~~;~Xc*hoAuSHlT`CBuicch9Nh2_GP>t`e9zrb9FoQ<v6gg
z8-HuAVaBy`T>V<pWSr#fFFDEK+6j!BfeQ?e`jY_1=50Cq<eLUut=xP*0|T71gC#1e
z8$C@PF>19kXE&hp_HiOM{}YpU)Xg|rgEVS6d(L6paNb#W8!dJ7-Zr3XWo;$6Gk^V^
zsRIU7&XIE(xPf}`nm+&&Ht)*wwRLhXnBSV?bu6s0dpK*WPSX<xu3AZNyz0*2et&@P
z)zb#f7kB(abBxm%`xFD8ne%RS(7*)Tyv2^iHe=oal5bGY8PJnMMy*!n+_?rY5j$$e
zCzzJ-Gcdp_I&VPFkzAd@T<85+rpQjx4+?k+yutSg1HT&`*UayeDJHaiIICO&e_l#n
zm1!!8sy%pBpfZ{O!S0_94ZRb+bpFD?ndr!c^QQ)fPF{$f7`)IOloj0&0W}{9j>N%&
zkih;^gR+WNjsO_qvKT}c5ZhqxK>_YKT2E+Q(TMIof+1>#1vK|XApw43a=hZMXMa+~
zC?(M_0b@l_g9+hUG?5aecofW7Tz;HNV0Ka*t=Kb4CV^I&ZtLnmLQ)J?y-t`D8L!;a
z>aj~;%P>jJsY(g3R0RkHNSZ}WrK4%hA&)1~5|zM%b>Nb^=>_$g#U*>X!GwnR1scYh
zr()+;;G(jq#0+X+iDok@xwR$8e#5>@1uM;Srb$%Uo6;OJ2hpV^Q;qo31R&8V-jwE;
znvw>l+ah!Ty<4bh(Oe5v)L07q2Fvg%piYBQB}^0?Q4FMTK*}fvZZ3t)ngdPv=#(s~
z6BI=qJp>utZ36=7V^#B>Gn@p?S=UX`fS?$b(i}B1h1g2WffqB0#55S8=td}-89aOX
z7QiYjWHXR-LsD}=f7C#qZA%DpGIAuIiV1P$Xrz8DgLCnT{|{K24UMISonJQWEV~+R
z4$TeCcRp+=TzGeO=&|d)KS9^|x$|XD=ZYs--oEqR)w@@*`1#$RLjg{{*Y{r*8}Fuj
z0hi{iGIUgwU-Z&3I-*nl_fYwb3H@~1GskY_s~d_J4Wl_rtp(6q@I-BVny4F`Fj+Mv
zV6ly4K<2@4smJ?@v-H4L7I+3jSQp9fnBfqs@d`v=RHO<%V=(jeXH#vl=v`<ocvEB1
zSSpi**BP=>ymNH$aGnmpNl8(!Q8x_HlbD@?Ou;i?tjD0O7u-1v`Ne<*;*#zXZhw)$
z-vjs<@mz!qsQkp)0`x7pI*YE(N3QKpT&*{T^^T6BtK+e2+c$yEQeby6uzNYMXZEZ<
zyy9;!`Fo1~o@M{;*)!#qZ3}J1mfqRZ<;J$zVV&Yx{#|fHG1Qq!M<S7|7n_+h2tLCP
zMbRKiN({UnJbJckM86)K(qnjgQ*t~WybK}}+(8i~WOvrm9YTCfHRw8&R@wuoo?+1M
z**?t9VK#~x%9|{I{OY(7k$oeW<v<ogR8>^6EnVo0SL1m#2=K~1FpoB1=7mgSrk>%$
zLhoBnil793M<}YXP!9y-4ElnOP&EHbbb@9(fAJ)xsj5H7kHO20Za9Q2hUO^loubvJ
zIYmJgVsSwM&lMbgMU-Qz=D-Il>49C%RT1`Zj4^p!<6jW}ntema(*Z=O3lU${VFtg`
zaF{hyG7ZsQPz0$2gnyw#r`4ecHln)xwyLSP3{ET>2AU;JVVvScXcmAT2l)>1gQy;X
zh*p9Mnth`O_MJ`xGiw%sQehe*m>XBEvEWrFHFH)@Q$M0(^#iggfY(@z2|!OKk=BEb
zp{9z+b5@S7d(d@P)lx4BYl=p*=*OTVh@Oe+%%&3*gi>W6!nmYVsB7#DdZ+^M)u8Jb
zJ%Npl7g!On=!^Xf-(g*P8&XB!viJh&F97DR;a~X|5On_w64mCsp8GiW*@;re;V(N5
zueh66O$<N4teMRXj#Xl|JJvbU*je)JF8X#a?qBxpojLa%c+a8d9C5mfj=jHjmOML(
zo*fHsE_?c*Ju^^tx^EtxJ6dw?Dmr(SocoK;{bkN|(>>>&Z@Rbr?)D<r^R3zBvaagh
zy_K==U9+K|PoVF)oA|rR4)@JnbGyn-{<7O!ZuG<7onyC;mGO;7ivCEUF|y9v{MMQC
z>mIT#c<=qY@0U6w#m)!>5N=(%6TKZ>5dS&(d9u)S09^iUeQU(D&01jFRynfo3{&bK
zF7^*U>K|D%o4Tz}`bQQm1$+DaPrl@K7Wzk?W9Q5}-*HZh`+1wg(*A|Ac<J-(e-o&#
zw-SqEw(k+!w!(XV-8IjaTEoTG@UkybIB=%K56&`AxWIz=N3Iu^b)RLx>E~Q{yDKei
zrIvlgmVL9%6^<`>4m`N>;KP6ID!9));s$ZfmB-w^GUtW~-o}~1D)xKsyY6LQcOi13
z#GjmH%AB{vwHDzou=|1fC~)L4_ZF^miuuOlyTje)<^#)~oil@)Z}-f(6<^bx@a^z|
zeeum@-yvwT_Sttn+i|b^ZudfHxouA&5MF$*;5hh*J+!i;YvIa+H~+ZfSdrT{>$r6m
zws@=UmaEXQ@4*`n_B@;@xKBUk&cIST-)7(nIakT%|I+6FroHptp}U6`eze>kE(dm$
z0-<6cv>fPNY2W^ZdEwlH_EP^qv43E>|KxJ;)N=dj=Qg&{F>70Q5V!Bv>m}cgqHo8-
zz$3nA@%W0%b8~QR5JKu7EqWijdcT8Xg}&i>7Mm8Q9&?9Qy@YH1^S9#+kmftez*vFr
z`HSKMHvWBw^V~7^51zmfYyLOZGQ`_LotiBg6;rWjRO29|RSCok086i7hL41zy{=gy
zlnTO~qOR5~ARN-ubOJ|pF=9u#7eT>EKR|$h-mZP3h``s2NCv*PDEg-p{mY2fT%Ckp
zxFWE4v;ts51WtWSmwyUHJ5OuUdp22Wx^bo1hlK>h2ZfkKui}<a%IP9Ub04q9@xbJU
zFASA{9KLFbT18iNmG{ma0YRLJOGoKHzyJj5i1G<!t7e8_o?8iXiusx}d_{a;5$9LL
z4*65k@-^{2CC&dqTK}EA_mu2;N_IRY{i{|7(_41<N{)`Aqhr;Kt?u5%fd`F?XFmTs
xz5OSPea!;>t8Kl^f%(=_U~e(7ca1<}^#kT_80PTowNk@t#fI0`3AXfI{vVVo2rU2r

literal 0
HcmV?d00001

diff --git a/benchmarks/__pycache__/serve.cpython-312.pyc b/benchmarks/__pycache__/serve.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a6b45a11fef3d2df3bbc9556fd8e273c8d7806e3
GIT binary patch
literal 55361
zcmc${33OXmnjZK-00amEAV_duANLg?sf`k~*c3&r6eUZtUB$9ZLwq0wiklxmE$~B?
zTvbU?E_a!3J1x3g6|*~)G<~e3RY}i8HPh#``%L=8otZfS1lokroQbOAobEbv&K%lu
zr^=m7GT(pSN)ohK)!j2s;=_G+`S14Md;k02|Nrm*>T)?aJd>91htesI`;YXYK6@3%
zqqi&^cZU<WVNNg!S(Bz=6Z_2?&SJmjVKe)+3|rZ6_HZ`)wGG?YuYK6geshL%*so*Q
z!G3dxbJ?$R*oj~Bq-)AO?4HUS&NERymPyZ4{%}5XTPF*q3Wf`qJA2YQRXAM8+_uT0
zsp8?{sgmIm_MJ6ZI$X+NmJOHV*FIS>RXJSA!g407rmBalncFd0GsO?{Q?<jjQ+302
z%rAGceyU-(VXASsajI#!X{vd+nfW^>Tc%ovTbbK6**4Wa+&<MY+`+!xlfEhcu%Ef}
zCOfCPhP#;CGub`0Yj_vj`NO+|)`=@>lj^?{S9Q1Q5(?fo$!;NQ&UC{hqLx`)FlS;?
zjiLVvUSr(ho-FPJClr2{6N-X`@0;a#!~28z%)c1^CGTg+zV9nQh7TyAr3fwC651=2
z2TO#CGQ<|LqBguMg9jB?mFB93s|J63@Q_d&JT&GO>b`3kKAgkJ|AbRQeeg(-XHY0k
z1O9dbw>IbwJ`qHUu`Ia+@-N^we%Ctuq|gMY%`BuD5L@tdh<()td&lfTE6UJk$a!Pz
zwqUg(MSJjQuwTok7P%e(w1Wgq%d-RUj%jr|E%<`_1%I$#=)_+a{<`tE3x5PzukUWH
zmDHN=2@VK*;kysNJ;<e>m02(Se)w-J&jAfaZ!k}ZFZag5;8CSF4r#8PwCv&F!LdEU
z5wzlQ;fe2Z!zY9%@jfZ^1x*vbt)PbCM>xvbr&#HSe$=v7$U++*Lz|oy29WA^4AB+m
zSe9@c;e*>ktu;a&vj`^;`|OTmpG54Tn^~=A0*yfGqrvIXD^mgSDnBzl8JZ6A;h=ae
zG(FBou81>p<5y<qB7TSC+%&%Bu%O6?Lqf2F7w4vtCdki>v9Ph3$;p}PlyY=tYAP@-
zgdLF?eljoz_$<P;!NIfqx!K@!-zmQD{3(`EQ0#T^c&<%OPRSnpp_?;v;>gsD5S%>1
z9|}&7Q=tOl_}o-*Iubsjm1T4?1P{F|20)joP71i^7<|gZ=eryjy&9Yr_(Q5=M&$85
zI}-w+$j#ZHpFb8H3(QSM_~scDG!SY&!W#ih1}+CDkz8vtF&L)U%wJDD7p7)VGT8`$
z)oWuNjTs1mNFW@H_@)C>LH>~PH9}uH^kxx_J2SPZXkzfCxnMZr69W;XRK7;&OHUb^
z9@|)&>A5N2tT;0@8wvA=@G+u%=t;V}y1I@yenFTy)S8uc_l0jxkDdrl2LX9TOxsUI
z;JQ2+Y&E5GsJNq(fp8cfc6<aQp(zTm3;;9|oBO73rfq{EN-|0Qk(Y!i{Fa;-gO|hr
z`dPR%gANKsgW^#%L#sLMx)_+6oeW-(E0-<^2*QZkDzgC*xSGx#4@O49ELynLlJ@pp
z{Q6M;$c2HYo*uY(Y2^6RL;V-i<>$^14E3EF=|6Y&eBY&0M+XN+j`sDR85lZtG3`-+
z9|xkIng+V3^9?@d<|6PyA@i>XLXnZN8F56#7}ThKbY}WmP>hU3W=3XjqCrNljA+O~
zk*5NYwClQvDpQn+@XRzoxv0buwWjcJkBPxxG&nLoI&vi#m?fVH;N-}anQ&xec1Dc+
z;;*nMrE}46XpNc3Wax6*Ha<N^?os3Xp)7#hqeA%J;es594UPy65E)s+mYZfYko{61
zeDxBLJ?$8m`!O^#owm)+%wYJB54Bp;_7R40BO__Y2o1!!$spX$k&&0?0+WP`6mnu<
zXy5|c^4w6`cK+PC!Bayg-s2uoVgBY&XJl%&b2c>Vi(uRWn{UkZ9N2%gC)kOCccPuH
z%uILEi0{<eD%?raPS8JlQ>+3A_Bsql*ooJ7xm14Dt<x!Y$tx$sCN+3N#X)1S=g|c;
zfnM>axu7{{5ln{=$Xr>P%dEL9%w<J9tLDnqTsF;R*IYT8%b~e)nJYVJ3tEF#dA_Ih
z2~eF{9GB*DYp%R)(|NQw`I@Uhb9uK-SE$7)(p<%wt7O}BrCOXa=AxD>C)dr2*2=W!
zs5<GL4MxP!XgHmNc^+dk5){(eV}Z~lesd!;k-+3ghz%pB{4v8uP`W^!lJs>You~SZ
z&&&vH<jIjo3~`EOC~UYG{hd?6!1PEYG8P$`3a8yuK_O)L&J9NdEzmm~6i2aEpon43
zQ%OHNvoXE$EvHvLHl|l&u>3=jNy^@(WUqWWD0jtOV9Z?clk*Pl3bMp%+0}2BxB9Um
zZ`HG8DsW>&Z7P~a!XwCKB%Eden3G25L=hDpQQ9{=)M^)b^rTozuR6TaW~_PXypfT>
z^fdY`f;k|JVQn3ooWYc3nGA&^X=?;COi*m3G;G*4ldDyI9fc$OF<$?Gdze@7ouQO7
z?>lEw`GrYKVXB}gX(>vTRwXS}siN|vr94$qnY2`<Dr=LL+EhVF(o&KtEK6F-Qu)P6
zOL3~KYB9Jpu)KF^Fj3u|DBG2^?Al>0IlZ?uX(>&4<XkHkpI+L#+_-coQPq_w?M_;{
z*X<m|cx;{ztLl=Lx>OavV&UZ~Q*AfQG?<9l^N6-3zs5{M^UH5I)7*5l=BA4VrY;9T
zPb$=!G6=;sltOH$R|mcP^y;S95qdpIuP5l$hu2VR_9iS4k5SkFy^hmsQ&*oRKY9uH
z3-7}#Ls!e4Z0uOMOXTh?t6s5G%S}mu(jE~j^~l`pNH{{Y$@opIqS-`u2C$L`Z_I+A
z#6S&9rt|fP0W7fMY#7spk`^m4^Khy2M`&6I-blOUsX|5iv{MbHoYL81Ffu1jk7lD7
z>SKk2I`q*G@w&rFoOn_)y>eX2dgYj8j;O0CCt(SRI?xOzb)y%}<+xb3gw5U67POH|
z%92<NDLV?7F`HzPY*E0x2$+J|5Qoy)5o$+FJI7J%i(EuSDo(IS+&kQlv()YBw@s4u
zBG+mi`UMq69HiG-yrSh#PhXv$xjxNPoA~Btd9^)zd7`v1L8Kke1SaQ#1EM%1w&sXu
zDCrQr&e7{Uy`G}i1-#OB5PstzX2WTFXnIr(g8E8Z(QKiaa1O$Wd}fbGQ$V_GgeaIz
zlMJIZ#cv?|CH#eN<8_PstbofYOF66J&eoK(BJON{=;eR1d+D3^O^N0M_q&tzhZEkz
z^Y&D3#o~<zxy`B4=6Kt|MCrl%HxeZ$=1-=)4NEr?-p;tQGv%sUs(Rq^rwZ%iO+AUi
zp7{ZUE?bvxyqA~o?vFe7e_Bu(uQ?F!Jsm%ACSEm|EI1o?o=xSJ#4RNZ0n=`_E@_iu
z+HrYK3`c-_;qV5mpc<R8HG1?Z`sEB~BFq2{brpjpoO>F5E@i!gUj4E8eMF?^+a?39
za1kVx9~E1~iVfkG&EetP2w@_7Bu?%77#9KKV2f|I1O^c+iw$M5=w%oO-r>(4q4Kjw
zhjom5{-+%G97-0;i8&&`LM4V-vPf1bN6MB=?<*rCmMi57R;{+#Qtsy3O124?3PJys
za@CTXI4L)hr-leN)t`-n0?D2!HO7`Q-b~zU&q`U_rZ3tiy<N(sQE7k@72qdj(HLXn
z)tNbE#G{sUqCj=&zY|5eTXkWyJMZSGy=%zvUs<?Fi5g3A82Zny#!^$EM*unI!c5@0
zk#&PHYRD}(Xr>|3F^V=GHIFiq^|cZUCz)?GOLoD@*dC^<Js7(+)NibAZpp2NvF|*|
zevEtFGnzHdjb=R$Jc@ZFkCaDk@kZ8bITqka%o8C{?3pN4UHY$zS+V?WFzRbMMxo?6
zO1Usf#J(LuE|Buolr&pP1yuK#SMtgjE>=Y<)bdPJsxJLk(%5+4;e_0mF<O5o>yG&!
zTCEtfl0&k|Wg5%+=a%0w-7x{LhArI9+|eu(+9c+=&h>Dw75{VdbyKS=@FNUL2TgHo
zgA3Nj^vqm%@+Plrk%D1fT~_!&gb(oH+2CksEEE(l0Y`!?<@HeH3V-fAZHf8@d3|o-
zv0c~wH_z8#uCQ#y@o+D5(bvX_O7~|mc_Pk;>%wAb<?7&r0dPIU;4J2GETSk{AdHf3
z*g^ZXER1X8#tbfj(L<G@ieA4GVlWwR0no&t)*=GmqBcoqxK#&isCdiFED@I2>~GD%
z5N#|limkKCM^b>Q`5?Uxo9cgV8r>2JTt$}z$Hs!ARLCIKL77FsRv|tV=0Vk>fyOqb
zRk=IYXl0~W-5p95W$qQV*ZG-H82fY{E8-|thK&HufeR*H4~4=0B7T@!R?yPez6K`4
zybK3m#sgr2@dCO^3|*e1X4nX+j|aC5yfi~Q$fauO;tv^p5Aoft$cXq%VXgP5Awtvq
z)C@X=LAa@wCCq9xiQeO{gvL=?BP^D~1|Thl{ErxNBIp4b{@iqkI2q`CF$4hAPin{O
zRZ>Yal?>s(s_(aq0lq&l&0h}kbuuMb#{(Ve4Afwqo)Ojj)EGYmLa~FN3j+(V-w8(o
z;NYpf!H~B_AEB4E#$niDz*W7}3XS=d#YQe7$c6EZ8KG@dB1|u(3Rt03zY;9sJRYb>
zL`8H@A3r-24n;!Olx}Cl3$F|y;4|6`BO)ktpw}b(IO0w7X_G%%G&G}@I!u^-4IEs-
z|Cj1i8m&KfIl>rl7&p^CEsqT?N?XP;CCT~|pfauDD*>>Ptl`lBwuw&z*w8QjJD%3O
zv?Bx-DD}!{P$Y6kJb_o*JQ<u$=LEqGB=%vD5sT^Uz${p;0^5M3v!-W3s5Aa%+RBCy
zk)hM$K`;x!OibGX#D5IUAk)cUaJIEje2$<K4J$rRuQT-0$y}mv)7mzHG6jVT&T`=9
zNF>aN;IvJtWV$dDL5ofBm0%>0HigoKGB*pHJK}N3K*DLyG;#SR!LuBZyCH35L1{Zf
z7i5!msDR=2uyTV#B2O42;V`l42&p$eGO5kDn@S1A7^1$4zwlmQ!(VZ~y2Y&@HF3`3
zMboQC*10TecFJ+&e)Rt2hqZD0;3G3U=8t?~=j;Uw{-3n0*xLW_^!;!CZ;_Qfm)5Y~
zo=%qe=G~tbl`d8%i&}0CrE<#_`yS+0#Vz~dHT#ly=T@y}b44Y$&ZhG6Z=GDLYhNDv
zxb9%WUOn$xxV~1iKjo|hX%D(S<phmio^qBxa@lxC++Mlv;XDmXqYv_0QLG$C%H18`
zbv)jE;)9ps&QmB@jw6nsY%ZsG)n1vfSH`QlSM0k|xivr8yIk~74n4^2OgRf*KX?1w
zV&6y3>XfVGM|+ow-Z}KZ)r>^0A{NpguiKZX-1m{Q=V4(<yrT17TcYAnqVVwi0CxLw
zoF5&1_te{`-aYsBxqEFN3@n~YR-XRId1k$vt3UL`KF;l3=zeQ-vE|LFk6jJ(rj*^Y
zkpKPMg&RwzrM};_zVWSuz3H{wbu;H~d}u3)+iI3hE?@ZF!FzoV8uqRibG-kaGf{I0
zl}#b<mixPY+L5R@61SIr(t9-N?f+TJy`qJIcx6Yju;YHqyglyi|1{70`pw%nzyI=<
zwoK)E7tSVf>z1B+klTd5dAIECvUe)xPp4{{ms{=~PPFwUYWhAnov0a#qsjAXmTDj5
z)vpy--I;o0D&DXsS-f}Evp4S9n{pQ|#Fm~<l<bbXcdyuYf966>zx>?B6&^F8OY-;q
zO}GZ=^X-A^6J4f1<((&5Eq~h4*N%^WTVgul&;GZiC2*&0GHWReOvXt}I9(VHPO@2r
zxJ)V|ZPW}%>O*uheLp$|#Kd8@DTYJs7<SDuD|RH=`tC>H>FRrv_Z7My6fyR<*gJEQ
zjcCaUZJ(rOgQ2}o%ANo<yZO=5U{AgIQQ?CowBXPWRCUZEnY9$4I5$5mj`_8dl2wUs
zeQgNzH|oQ7FeMRf_cP(%oEBUHvtYSvRq1>a7s*%Su)P-TxERfjGO*u>R}G(_xnR>H
zW#2G`L9y!lBZ2W445^AYCBf$oQe~j{w@W2uVJ~4<_7b&dKf7c%<X`?(`Ac@SCFF9C
zWnuqOZy^fYe%JQCvR94eNI4hb$0&3Ab*|MOa04y+1Cyh3lSGRWwKXL(o<U=Y>^n#t
zG2_|^VvP|ueH(~r1)F>MOMsz#Y$7%dR31ZlIWC-xF{(z^PAl|vKGVpM6B~vKk8@Bt
zqEfyKj1y&`_o-x9MCG~)poG*jS*6NyhKvSa>+Iiry>D_-U(jXlyB`$<34s5Tp{qd<
z$pUCxWDPPd6b6wr78=(oBp>JM`Do{>{$CKG@t!FS9yU%(Cxh35lOl~qu#npDvr}GU
zt6Q9+=;L^$ZQ;35qNT+U`=Sn=9=(}%$fu1XL>1Vt2gGTRLE*H8T#V}|PEd3UG1}8+
zu+-DpGMgO<wRx!3A%2tc`4+uy(TnjxwW6l2#550!*ASF8&8BTii-u{~>r1Y@*y?>S
zqC}Gq{8T&(i@%Lj|2O`^5KrN-{FZax!dqujp8Q*<QZDzc<EgTWTLWvZg12@rTz~V>
z$1Wc0N^ZeI_wC-*+$t=tDQEucgSQ74OP2EAE?+HcPn5N<I6G3#qQ(5%L-VIn&XUER
zrS7+TS1Y;_`0wnxedeLFU?Fh(%<bdrF3w$xY22Q_(D&_cuGu}WyKcMIvrMkGhb5(d
zZL{P!zHo4P4XJ{PR9;c4uqIW}ur!yb=t$MHEkB*8*|k<wa_8AMo?U$Uhr>$&EcwfO
z5=EVBg~fM{zj1tV?+<&I`jUlB%Y}(T-&#r8ottmmTq^p#^5xoONyl;oOUloWT)@g*
z<@n^th5PyQPra3O$MuG5G5EuYrI!%NLy<hYA2|2Kk6ieS;(g(D=4IbHfhKZ#Zw-C<
zc@F%-#A5nid`-uyO4B*o3254@od1l-SUMtvMk5<Iax~wv_2r*ozP-cInu4_j0#Y#u
zN5yjR?Z96y{+#%8;m@6M&Cz&F>Y8wjTQEJ}j2SHtJlVYMR-FZth`Cw`H}a2BEP9By
z5^mGiwk+^!wD=iTBq8grS)COp2oX0uYUuzsI}@)=@~APerqOySmpsE-#8xtDr+mpH
zScs=5?$=7D@xAoywXh7FFvgoHkO~MAxuf8=0d8)_66PC9=zMGphn8=K6_C}zA-OU_
zQF|prc?~6Se`VSX?O;f2M{S8_urHWiE6Lm+`r2#)KE2ikTEQx=01LhND-^7f^%~|S
z$(ykhE<;|08Dm%lD`93tTj#0e^;AOkSHgGdF{SO`XMZJp+gHMO?*Kld=e8@q&MTC>
zKj4mW&qH)FR-|+O4B>@RkveWbkrcmPGHPc0O<*JAZ5PK%q++S$DmI0nGMu0?%(0SK
zv0B1dsZ<&^z1A(|D1DmqS`YdPbBIFMk?a9`CaP7J{wvspoVyM+e^6w(u`-OTa><0U
zR4CLDXuVj4RFR2xMa~|n0_F08`&x-uJ4`1U(^Vl|<wBO&8vz|AKZ5hSoK$&?Q~9-8
zZL1^oS{&ClacUxsYMcn>LHU`$nbzh<s*$Q`)T_|dU$i8m#&|>Ow#{ilkMe5#SnZBu
z)<t|OB&kwO5Bx|gy`9He+ONjZf6@LK<^w9{xG7dI)e9!V_gDksWteY}18Cz|qtqZZ
zvXS2))n^=+4QiRdSuO`2)gvXSk64r5rc%?!R*N+YCaHN8{Qj$;n#F91zY2N_m{Bzi
z+V?eHs+F46(*PMqwG#k8&K9)3Ldi4LdqWS!S{@s}Vj{!bNA0w!)UEnzDz!+ha-XXs
z0ky_iPpnO<liIc^d%lHxZ4Kq8HJm+Ct=e`9r~go-TMaYdN1f`Y|LQ4K2(dD~o{vde
zr>0SVW95-uDs1r|K<L>$SsrVb+9z<jviVWRSFA(om^iRG6!Wt_etI*6W~jSb3aM7e
zyX#Q}kFloz?ci^zrBo;6Z-P(4Rhu5QekN`@H$p-K?9s)lv6Jo7eElI#@JjYKO+ule
zSF6+-!M{kd;awc*SJOz@hR_n6`()8NhB&1-e^lLNnc{1q<&rH^IKx;KLWQ9pK<{jR
zaN4$cKV3<uVkk$IA?5MS=`bd?Pg!k9dGgmvStD7ndiV@`YoFvZKs)_a&?KKa1_f3J
z!`|A5`WWZrOf8YSZA%#E=u9oKeabpR*)z4o_9^RsgO<>sJ*FiZ45iA{5{_+KqS25t
zQ%h{0vdNG#Q%h{0viUb?2@Tp~TB5~Js!T26-nJ!L4Jk9V#P%uM3@J0U#P%uMe}k6L
zpgpD~I;1j;5ua54rs)T!m|yZs*<)D>4~kKZ*HwO0MFy8o^V`PN+8Ma_SPquPfXT?X
z+H?xc_*Waxe04_D-zSqx+o;Q&E$x$-OE`hk3-N1n!&C-LhW)>sml8l{d^-DTJ1$xu
z&jc2?u<JC&AsxgMBN6A#kYrYPfjrnx<B=;03y|^Hjza>QiJG%BL>%_8Du)^C4F^$>
zImH`tplJ&+m&9*ljuyW|ukX_9MZ8AQ_1Z%mwcYr8v<ELmo``!Mlvm6onI^Pox<ipx
zD1fvANAd~pnTAjz;>eMxInKe}%SvbYyVBW8uTus*FY~Z+4w1;hjal(Xv_WGjs_ZQP
zp~)F|hL8BQSl>oT!$c0V^Q3s?`NZLK_x3G5vs&f<sLGFzFT)mue!IBTw4qW&&ag@i
z!J$<O8>sCng{o3HH$Aj;E7h%0t1G?(&(<vQNB9xHN3S2_6*kmTT!P2W>h~S0Ujw4c
z=Ve@0h2s;d;r#JcXH~*kwUqt)?%#EP<TO;ZzR@%kEj`ENmVx6WU(18z2p%rbP(V*u
zBM{^bMyvZZNn4#4t4ECPkA!A>agdIF1Gm;7yw4;;6#0D`L?p*=<Zy51w9+<67VYdL
zR~NmATo#FTW!zbjP)nr#5V3p4F$ul)(~AgMk*HOXh*I$oy$;fgD8NioqT*2sAgYat
zgSIy5j9l>_!Z+=bu}&EjX}2mO1A*({jYv92p0+}Q%<dKE2@>nYJCxdtrc2kIJvBIZ
z>f%8EIcQ*vTsk+RI^prmz=eyXRbY;WX47W0oOqicyvh<!g{H-4=#$nig+DwR3{9r3
z&>5Kti&w~-;SDWO>EcTR7tW5HA3S$y@YK<fzGwPQ4fa9#LoBDjY&N6dWSN>D$I!|-
zbNI^4^|W<X#1So%bq4EsZc6+<0e+2MzeTSf;MLkGA3p2+=Qk<n7QNoW3sVT2XH-dT
z%rjw~JB@aO&^tJustmma4TB>$npYrOk9v>DPAknfVexeWdyT+4l=cTaagpVtFw{rT
zI&-pwd)fs_jgX*@d(0h^Gb2p;1IN)gPF4carf}K>!P`)Hgp~#%hVFlt0atkUV{?;A
zMIdc2A2{gW$QS~>>g<$ul6*ReKCm-;k9v+WA`hT&I$s`Cvd}skROxCAE%lgOIqp`3
z+U0O)7GNAQfZ?=LjmhBWkW@XZTN)Z?YOJ(N&TZuK9F)Ey=|TmnQcgKg*Giz$Dt_6@
zuQ@V1nKlDS#06^mH}DG6_){0H9sbJGa{iXNSWE&|70pinyN#VCv~i8iamd0Kc-0ey
zqGBA&mzLi;#*P(IRW&$epaX`DrwpqbPZ^RpWhmq2^96{~ch8^xxwq;ICs$qjNnus0
zv}Vclwqv!l8-np41ivt66&3$wam^c{M>b1!!GdGm!MSQyos9`+<I=>6vzrbijx5*W
z6k)ZZCxQRYp7}E=Z{hs0R35|yUj1gOv19qE-yL3U>`65C+;9G%_GfK>-1)Q4MB}Nr
zr!G~}x;%Wp_PrMpC5IL)5YNBke8ahTX~k3b&{?$VtV}p7@#U;bIXw#}7W>{feP`&6
zp@g#z(2eIL@7BCsvqA#IUvYNw>Zym$YNg<TkDV>+2XR>P*%8iOfd-s+rHV@C9S?K!
z<3%lr+!n|ytUCFGlV2)YaW<!%#qv^+^3*RKPk7o_{O1#%^Jp8F8{!7eg3XD_R-Em>
zcB04S1UZe0>cv>H+&6!Et-R_F>+el`(6+Mc>`L`eV%ORC8kTF9pIUrrsqdX@@m*&h
zR1YP~&&{7n=ar{C)l0PrPyHM2bsJaVM+a_yKD6%UYU<*aid1zC-k)W2T|LRNQ}110
zdggx9AN&7j{|}p%uLA?)Wv4!A-<2#n^<K|Xu^jT-W6M3ahT=u1(zdd-vdRP_6OxtZ
zlV#`U-D@S~pDF7qPKYWTkGQN-$Gj7#QI$1665qZ4_Vp#{-gKh*Sh8jyS#kWs{6xiR
z2uiF~R=<1l?UV7wy~)abaeLWXYx^IRzE>LGbu`)9AGbGsT2>dY-}`adzT2nf`{u8q
zD=O<&D<Eajv3%_hUViW8L`84B{2<V=qG{=+w~x#ZrmE`S9sbeqLQcw4xs;Rev@SSP
zo{CjZUBXkhbm${b*SeLfZh7S3YT6bYYkd9E>3h|Qh9{EzlM623^rCA8a^x-hKlbiV
z6*ewSB@6dJOug{HO5q+fZA}}-P($<5wbkbRiRS(Hk0hE;CF@Veo%~vDLn^;yHNP&A
zU$^wk@4xW7FC_AJ-}`35Gl15pbH|<4)VF+`-xJ?=^26@LzQK>n&n{%AJpSctNzcCf
z=)Hq0o_(L0xr!mvdOKI%^Ti&{nHSIFlex7^5Xos=YihrH^bd}|cRarPSh8av*>pVa
ztY2$ty<7JOP46|uyU!)t&L^9mg6DtAt^IRn<HLfYJ8f^Yz1cC}52c*fPu@Pc<|(+7
z^G42(>f_a&$?~qGr#t1TO%->cVy>buI14ZxBj2+r>Y-%$;iTsXN}4L(mm%tJo&MCB
zA1@eOai0CuUHv)NkeB^QLB+Zmzn|t6EF4+Mt6R6?1DICCuiM~4OB9#Iap+mpv7Uo(
z<XYLdH20vQV?CEXom^S-a?yiQ|GJA}yD=u>)m_Q*?t23d$`7pPQ5+9f+i`a^zUx@h
zKak)DJ}i1rGqj#h(F?fZ(hWzPDTn)Wv#B_5-Alp65N6tR*!iH)w_ZYFrCe$GrZdk6
zCA-(l5cXLm_ryihPR~9+r?b!X3WCXRF3$3v2SuIhwG>vDxh(Y*){wa@jZ~JFU%xEP
z1ha$kJMqSe#bZA_r5yB9-F+11=WqzT?~Q$n4L@vMs!c-YBJ#l7zTQb;T^!DWLvMtZ
zEWektY)TflEnj+2+`ZmSW!b|Wxj^kw35xou`zGy7SomRRDX^TM^t3Mv3D2$v&fW3D
zPoZ5Z9qYRZ=Kjp>a)82mGq=k@3Okg!T@F)Oo;3aX4f6ygJZ9o*_pc9_$bFo-Pmmi2
z*MktP^TrFC;<-(6OVgK+#?4&KIn$S)^IZ99)0gR@Q(u05Aq$=T<>yZ2U8%U4s?>+J
zyyrTdf9A}8Zm;Ffsx9<x$$zfb@@KskygzDhdhQALYFE?q7WXH6o1V{c|9NlI^KLhe
z#i5=%LdxiA7l;z3n=XIa0<)o!IdL*=zYO&p*~Qe!M?yl{A-hOBH*KGs8HZ@aWe`e`
zKPK($5z@3y=aPmuq${T8piE^$j4^0LrYkb++I6}yG!FU3;7D)=>Q_Y7X=EDYH=L6*
zVn9(4h7Kf%e|$oLSqO@tGUd<9Gs4Yu2^5Nin<JxFf}^M!_OGB|iP{<^I$V8lhQQG#
z`cXB`WWMMA-jm<!``*#-^?&c!_XfUq{Cg+lEoKfEQR8zGJH>gmPuH@Tuxo*uLn=@>
zT3Nb_B(wx8{;~y|ly!}}Ykyx!iSqyuWAc;fWL_#4EQT0PHLm{4&Ipy=|J_`br~m3P
zgFcJ#MAjxS&5umyFp?UU;VerFLtAZrw6NmMAu!5ec@DezSOv}>t76qs^(zMqr>oTw
ztv^)0a=3Lvc%=$a4HpX{BvHs7fzBAKx1K|WNl(eGo-ROFs#Z<G<l!oyO;agV;XI%k
z8Y(#9y_@$w&IRasbwDbEh8^~L;tBmM^LF3uf!oKVGMs3jF7!bAgEMM>#A>9Pi3T~$
z_zsuqdR9U{;xrjUW%owyJ43H&=4IIV2w^LGbW<`ow{a?^{kMj6g_0BcQ$^4gQ?LT@
za>XoxPFY%2D9|TzsNt_3mkPw9NV^&~K@v@y9!V?Bv^PSV6820GXJFH#w)?9mAdA3*
zkUBO$Fn@gh#F$km{;nOTvBWfBkEG!xPV~TXh}9X&ut$xh|3b>8R)wyX9jB{&rn57t
zUX6iM&Q6>J>a`;-#imE%f3USr>uw)^#dG`k1Til*J!&a%LZ$ahiJqguw^a9)yyB4v
zaY5Llw}XE6C25*#YAT%7)G22*C9H+|)bta?Hre#(`bjwTFJm%~+SwemoLu5rL&?h2
zJWz|xBg8C}M*(}gaT06D;%@gz4Y!Zotx!kimNC&NHD($UqES;%J7ousI)o}F6_F)W
zPn(3ASd&!zN}Zv+yi^Rlt~KJdA+$~^L1?{Hig&}0t$N+2-G*3=QjT%FZRo!y$$_-Z
zQWM@SMhJ%Vty00p^vcL8)JImP-qgohtoiR{to37@^}~!$8%9`5WI#oWi45l^D(=Qw
zF+SVy*Dkc<gt_>Y{Zh#*`=k=MGoD6E9g$NS+zh9LD%^>)YApR%4HG(kl%@Af<eVCV
zH0Pi{2T2;KRMiUI1#Yi0%bH~!J0@}C!^uhUD<hGow6uN|Vysi@lsee#eeQ2x)>xN5
zLZuGD$Hqga{Hx+T<}IvwvF>eJtXt~ZSmW19A+^zo7WQRae|?#xNDw#En(Ld$u-YQ-
z1+`uD-!bcRIB$;aitUc=iS3Q;qg61rKh}f!C@=D~8c&})Vh1GrqZo#Hp-0*;?ZV2r
zTiSz_bFaK|O8f5m-&bgoSg+KUX(l$zyqV|p7O5AjYxCVsm3C44Q~hN!Znk=Zo^t~y
zdN6iTEBS$pi^(`H1@7Bf*SQ<!uXEQ;J=}u%wFh`-z4m`8^4@i%iHYxvc$;4H?R(tn
z(59>oSp8*v&mPXo#STi%uXv>9$E*)K8jDgZlXW~Kagk@#I!$~{b?Lusek_W7L-oP9
zIVc^1PHvu*f455=IW$gQeKK}<+7o$Ri%IeF?sltf{OXfJR_w50X4^F}qQ=#Kh26p)
zVej32YAU@)3@Ljurrdw~$%z+rNUBR6Ill&^1Auf{O|SoMg(MZcQt{Yw^@5T?`_QA8
zLCT2)Wj|<B98~?8#<LOPp^P;>EM?HlHk2cCsw2{&t>rMJ%G|0?pe@GKlIp)1AkhgM
zdu~4&p+gGxsPV+c$L91Ta>{U2s6tTNXu}Gcxu$)9G^v(A|J@2n%HL3~%+QVk+O!Tu
zb!~;F?;|p{z>J{<GUwEfoMu({`frAubQ&--q+@_2>JU`dZvbfkkRob&{r5M3bR3Yb
z=@3*`21s9tNsv_E1Iert(jmw;oCM4lRY>|TLQWwh!x%=$X@q3JXoQ?WNCpf<$RI*8
zU=%{m0*9Ok&43}GDM{vP2%#Bz6(Q#klA%Qqa$Y(JI{b)2hr6+s9+8e@TB|{Ido0|v
zRas|_kjzHx2p~Kq9me}YMmRV0mQr2Y!nv3c0+A-0o^2sq$_PQ)lpLSiLU=kOgbX{|
zZ6Q2^md-F9&_d55Bm;iGX?peO^t5ycp)YPNDSR_v5PUP>2z)d2amE^D;DThXQO49e
zZV%yWKeD}gRB9KkQv2<r!q@4*To{hfAuoG`Zy4Oq>F%-Y`6uU(&b!CV!t>vC#-7*_
z?NE(9^b^7huxa?Bx~7xSTKENo%fjd;KLI-1W1IZOg)2fx_cP3*6Z)Efo#rV+$W=YW
zKv7zx3dt-?>if*QQz`|s?f!Bj1-6qN=Cq#o?PFg>tFis-2KXlK_R)(>9;S6>D4MSt
zKvK+X_VP@0Cj{HV+@)VouN{xtuS6oV;oi>9R(sky8JY@3(r)&{PM*oSV%inK;jsYQ
zXQMEl0hTM|nGB!#SD|E%gY;|Qpvr8^bP>#g5=V7(5^8C%V>LQC6DG@dP)ZynUwlDg
zAUqj*@e)J?NLGZ@#bL@4=JKYep+*a<nK==04wfB*)7R2A1#YzMqH0|rGz|rRh$oQ|
zQP^>imE<5k5{89?xoN-Ozd;U%h;CxxJfbRVayW&U6pcoSOk0f-DN;AZo271O?4~WG
zf&~$rf6P8$zH(}-_)VoQy|z`Xh)m0dOOaX@EApQB>9>|6Z=GI@{N&PVVcSo?rAQT(
zSDK=}DVVkh5g(b<>S05apF-=9IS8_!0s9_M_au`i-=L4@VG7O4c-`VBRJLrndBl(L
zA&Z*)PvlBdnAZpxtq-lki1;5U_%G=7AMrv5<rx^#5bp^`M@}gnpf)+|E0A?V-p8Lu
zr-z}43hN_$c#dpuXquXu1|>6+GCBhTe4`O4VQOY5{5&(o)yqdKwq&45f%v1<7q5n9
zXUQOh%Ke9I5xD0(<DUDYo@c?pr(oFpVisqjPEGiTa08Xn9%5y`iN8lnc>N=*j2*Wv
zd${jl@ij6`Y0|mP-Ojpgx^2E|Ql}G*g`{lwN5QnDe=1S(9ei(ua*<5xwBWA<e>wGB
zH^<`8FlI1lqZT$@hpNNZITQZfR5pc7$SrH=J+m&5F$Qz2iXllGtbBxFKn0RImtlmY
z5tV_JQq8&>#T5S=JR$ypL82tel@B^bC`sC*e1wBjf!QlK&<NA8xkZmGo>8GhV6#II
z*5wpyG6Xy7*Lqo(pZkjV7YOx_0{*WU?*E69<_9IspH#J`n!E4!d{_awg6e`_;)uN9
zmu9ZCWt9d0YCQ`czk;=a(w1Mr3;z=(&Hwe$34r;It<P<G)wDbN`(`+PkaxiRW7FR3
ze{4Qr{#_?L{<*0q`(I?k@jsXjnE$m2j-O@s<=Xz()R*P_6V3+bpV$aOwCGuO^uz2n
zZ$LP8;+cX45CcZblTEZxo0yanBN1p8b$810K8hcvivI^iW!(_<oR^Q5ATdXvgMxS&
zVbQ!zmUW^9C$`wgiI&3<@Yq;rR5ht$uxlsMjyPKKYzV@1s*yVW!ugB*7%Uj`Q42}Z
zMO&E942<$JfjU+6Xp2m!KU%EiB=<G5d4$pFJ*ruSQw*!XGmCFYn_8n)X9G7vQ*%@5
zh$FdFSr%#ZW-q_NB*MnAm-U#jN9G7jQr7=pV^91q)Oqs2(mPW8@8pYN%B6EQjvR<S
zsUxQ_<B)02Fk~`Ce2c~ktz61j@mBu!fltaBQ}uiAU;pqDhDx~`L#5D-p;B0N=fH0t
zpn+28rh!se^{YDv?i_gIz<(93D54ky6f%8CmLhX#P6zT$%`%zYR;T!%sVcN$h`*#)
zhUG&16$NZu9+<2gnbpP-tN33L4hx#kQMB!3{#wn3pj(LfH@Po|dtV-nz3}pMEEX;2
zFDlm6k7^6Y1=)o7FLohz+I09mv-ro%HJvt%MqMxW9@^6t<MGqo6~kDR73m?2r=noE
zH|jYquTQGnTyM1UtMF6|P`Nxt$o^epv1s)L!$8m^uCea5V34);MoaWEYs0D~i~#Q?
zB5^P#VZv9Dmql#ZQxgu=0xHyObR)mak{FDL^+rq8KvnRYY>crG-YAcYv8@`X=UX82
z$6_>|4+dbx-XOM{F<KdmrVU)pY!n)@MlSOu5+cl$7N&y~3kte~Zn}UGc=D>F%EWqQ
zKSfZJ2_=Rz3Gl*B5;YoGKnSOEmFP@P^k?WJ@qZ*l$kUpT$=8O{*+DYt8P)|gTWxgL
z1t*uOh+KY3%_M|zwFf7b;{}7Nv!HUXkTInZSapCc{dAFR<zOTbk&ToEnceSnuHwyv
z31Hfo%sngT`WvRWT;$@#-=k@a;(uf&`>D6>*G!`6Ca3EQ3Z@A&;%s_gPcus}-?gZu
zhQ2E>q_k#A32kTamId37%{ssNb~Y?M!fvXNgVQLKg&yq}b*BfMF~x=bTxQ77LeBs>
zcL$J(nqW_+lH9iGrK72CL%Fv=M{Lb+OKj)nvLLqRw<We~b8MWCyr}5Tnqvkz21z@c
zmSkJCg}TK@UD`p9rS{geLyxD2#;lKRX}4rWOT*>@Yj3M$+1gu@1$FbVc=<{_n0fZs
zF4KmkwO~ke5o(i_n6$}9=MS9d#Vcw(i;Wo{&E{LCFr#3zKz72@W|--Y+Rid7;XGLZ
zVdlcq7P8cxcIx&-!Xs(Z`Lu~=GQVllNUK%+m*_JHi_6CRZLoYx!-WZ;lT{M3t&2Ny
zV6vWGxFLs=lUiko<m}mz>ocOjq=(4_F`4lb|4%?P*wxjj&;n3XWG7_=#_bdloM>Z)
zm2_*gBN$`hcaiz8V3eegbJoUN`V+a3{wr9syXL1>-E|3f-O}^-F5mBuyX%tfCs*u!
z2uZ0jvoN;3m<!uc$K#&%HBZT+ZE0`3^+>$siTmMrZGX~p?2*;%a(`jA!pMk|%W)eL
zmMyj~RxORiJw7>MPrUufcw65G-gxam(sO)6!hMHRPVd58ylPjxa`(O6@uD7xkL`2J
zXD<}ROFH7kzU7PYyzYd3*B9B`{wFBz^?1#mc=g_U7vn_-5O+VtEs2-;<E5R;;dtKe
zgnbX<?ma|tBk{`ac*U-J_3@&8h`X2K7RHO)<3%0I{qel6guNSaAscO5J`~@7Hr_Mz
z;b^?|!pEf-Z=b}0?c7>J^Rnrm9A6In-kG;9{>Z!d)H}s*ed7-=-p~J6&&(fRBT2`G
z)q?g!LHlyxUiR{hdoSIuxbOPlnRv(Ghrwh41eu>s9qFGxzVOt-wS_B-fjGYxhSctj
z#=X4{oCiO%ab=fGvL$S$2w}N&>G&nAouE{Ray=e`En=Q6J+f54<<j|cm!i!qoRmtG
z^-o@$T7ox5C;faklCagKRs3g!rRGzY2BY3nWL(b2{P{uI){gi#1zQGo4GcyL2Brms
z`mn!LgQL3+|Jo023})n=s<H`S8v_?M1~apCkqAkbfnH*i*LFnLhP?uy1%=ipMdIJ5
z?Pr2F*@jtsmOgEP&<t^N(#}i$=leBIimRX90&`K>AS$2KW>`$w$d&26d4l0pts@#V
zGSVI+lYqDnA~8V3FX%<PFY!Hk<<pDSI#~tA%9dc!K^`-BrE@N-J4;ymBTmB&c1Z^$
z?j|RdZ>C0*&L!j8bQ=hy{A6=T+2aA|q={*(%sYY_2!M|h<f{ZZd-Tdo2v!t{h0Z3b
zG05P}Q4fpR<Yk5xaOm8GXXFWr*$9-iW1N@{(iZ4~MdUj*>Ir6&UcXH*T*{@84DIxJ
zoL(I)fL@UQ*`jiEl>GYX#YhXnVup6&Psr5{c&#VJ6>@(>FGgdpk}E|oMtl=DLZ+aJ
zLu0Vp_~-PwMz8;aUNl3Bx9G(P^0&zKkX}Eh*I&@<Kho<Ay@u#T!VBW3^jgP@?n<G%
zQ`p@$VDac5%-WRfq0?JRjHxM-ZzML6l3tFHb}GAl>a?(Ep@wV0OJ_k)K-#6?yuyHR
ztDh<mqb*o@Yn4Ml3bhH|s6u0v^QvIk;7%Q4YcMPLVwma}p*rTNYA|Y0F2%MHorlFo
zM|_c3VvrEkY9}((AO?zj&k_lcy7ezc_tD)PBL)Fad0R;Po^*j;VvQdDLn_s~^y)+*
z*mB2qjw0@N<3u~X{u_mw$OZlnCz|mJpM>8=J(?Fce(vDwN##-WAGN}X&mo8ZM7ey7
zf%@O&9p?Iev-PBDt)y-FaH8Y@Q&Pw;UG+31JPj##)dMV&`Kgko2PN&x5RWfQ6_=;V
zD^t~VxU2$JC>ML;uDUPsbMmuqoq{xZUh%5CKH;t>i(3W7Sp8N#jR{ZV@|hLS{x576
z5+cT8X?4UM`&KMH5ADSZFD2|{t9CwN=Tq8OL&DymfB6!2pZ?XBu(z$}SdW{s6PBa5
z&Med{b>4dd0`NJdaeK{LZqdTbPa-S19iKXj7ru4Zvf{)N>`f4_HR(OE;yJONYqR!1
z>BHXhD34rOw0yg{g1VHuIOVNMk@iSQ%3DYO^UG3|?c`ZpkM|cP&VuY)r`Ibvd(Be*
z16$o%r4RN!q4k1=HdVR%iyUi}<CmPZ#4(=>p?zps<kdaMt6M9m#Qr?L{9$?HYI%F2
zyggplv2M-E_dhaQyzX_<GeC>D3gQKwA33`|wY%bO|BAiyp{-!ysc(M^1WDY(FI6nL
zmY<8edsplSKdEkeL-<3>{evrAC+2gZM&POW!pyk}WqqB+nH8u1)BK9n{N_Y{b27gb
zDhfGeP$_`MkMoxnOHKiD%qc*Q1tkkFf1F=G-?vr)6%u~}|2t17I|q{$XQ4LYEM0Zh
zB%C!%&X1fv=!g_FfK2d~-|@fUU+O?nSDl^nriZ!3@my#smB@LoIBTf5?#2};s#tR3
zj<yv``_FCOPfIG+cJ=&``TkIH|CyCtgGuMv#IC{Rr(S#J_2+Ltzj){)S4(`?V8VG8
z1PUq1d<OHZc??p+ioJ2Iv?W!5yHaXX-s)5#t~2ON6m|k1>3>mGiif*4Ro;v@I;hMs
z@A|Bq<6+>f<K8%UB|Lg0tK2cqw3f<Ob88>u*2-kd3UoqRcHJ9&&~hN*ZHPZ{@zx--
zX<E;kye-~-Fy40PeqY>uWX1jj{8H{lT(S^v+<)Ja%BzmMYvMI0*3Bl@Dbrt@&CJeR
zjyvvYT9THg<L<pH_I=a@Xh6rJw7hG1a`}b(-Eqg^70Zz|@^4-4jJNj29S2t|hkov@
zxxMEnm;TUvZz$Q-ztVW@)-g1J6I@X)$FpiL!vI<AT(P%(>MB`v)hAr_NmnDf)$0Ch
zr^QOhQ_0IZK*<V!99O>Zb+-l{mX^nH+l;s9)?kV(wbsX54#ZmqQY9_(&XhXf9+uRv
zRW-i*+}qE+^TKM?-bB^jWL3{+I#uiDx(;ICrR;?%dqK)xii9b9$rmnLSN1QtPOBr~
zZl52Im$YN_IV<D2&1==QFhHBE?wLP_CR(a|kmp;gY<PF@?ZJ13Rx9@;D)&IEX(4B=
zreW#1dwq$<z4yKa#iyRrAJ?2&I05~l)xwTMVaL5^KRl4|J^fMPGvH|PgQkZy{srel
zr}y=t+qh51yXve?!2T^cniHg{21i4}*`Nij=Vl)@ITH3GAaxy!r<Wb~PGh{cblodo
zn4Wijl3TJ?4b`V)br(w6-h2PtqJMty(<)!8pgL93nDUmT3M&Yu@So7DO+zojurgOQ
zZ26XB4#;u8?!4_>qugnne1f^M`M?J~@u!{!*5wyqaJ$_9*_@r@_|+HBLt(D)bIwGQ
zth+Q0U9IPr&&A6QCEbTV*b}!C79r?w)~}c_cYL{i(!{yC{>$gZoC~T?4M5&6*IzWD
zwZB~F(C}ZpXyW{P|KNr9Ubz2s+}FR_+#hf5zjflFEjMl}N!gvRJ8nB(bADP@wOZDe
zC~HfWb;LXS6J`C-VS8xvymfN5usKoK{J_?{*3^@#Xr;;)G^C1aQnh<i{BHDZGn%e`
z-j>L(hwhMfw-TXtFJ^DAW8Q|T1e$X8a$xtoZ`Dzqa8$=@4}VbbK{)QHPCCx4SO$UM
z^PQ^>KH=cwwLSMsRu7y`95|gJZ1=rq|Md$$eIe;MwqhAb*^1+sQ?WIhS#>ug+zs)@
z{trfy?x$Dm&!lYLx8@d~ep7m2W5d(UuezHP?&f&Q$qze{?q^r*U!zgws9bf_Cmi+h
zhQskEo=Q3{tXM8?D9pb5w$=S-68q029fK>Dvun2eh31ut_7z*lhJ25FU|W6iQsT)=
za_#_;vX`&gYZLa`6h>~(YWqN<oiy1n?9CQy_GeHqte`1E+d6vMmQSp9^d~y{5sNm7
zvL#Abo!0X+#NKu9#Oj{2i9Iv}>amSmN)KztuO$wAZTl$g%g?U*1`|FqbFD+MIt+#P
zEni>lJe%mGjFiG-{!ohbk*#ArtDwMv6)j%cwr+;=A#`0!WK3GO;+vV8UKqbK{l@gV
zjlN-4x^}5~wQg^sZtr>y`9No`ZmDOrz9&)Nvz|*nSlw8hLy5XW>n`$fbFS({@7cxc
zt2O%`)a;92e0DvL{5_nDUn*Ix?M>A7uIH0a0q1I58eeTXmS{S*?j@f>&Q<oao@9Cd
z&wB0^FYd$4m#pacS<ja%<^AhL6afRLJYE4EHu@;V%J@@TvS|NLZA)VdV|T8;dG)8Z
zFIS58ua{A9Ip^}eH=Zoq_ulx@@r7sZ48J-2-uRa*h5ObkD7X^k{F4*On!!IgaldIP
zdzIgt<oEu`i7!`b2G^@7LN!zcf7+ZZ?)_==a`wWtJJOrdPn*A7Dehgbp<teKH7#9V
zZ9bl8KE7T{K6OT)didPVUT@>d+M%8-H*>14Rc=k@pe9Q-`Q-Y4a`0%zYJalpK!y^0
zmS-=(ZvV4F4zqSs&wO?~uMQ)7-O^}1X8N=ST8QLe%7^PY%<1GxD}L!B=lYNdDzk>k
z;uCxM;=ZMQU}JzuqJ3Oiu|G{8dzTu)8No97iKTeq+Tyi%Gc9X0L$rMN+|O-p42`(k
zu$HrheDPa}Lcg|-W8z_Jw`c3x4Rh(+F5r&**L}Br-|t+tlqGO+T5kTWvtNek;O6_L
zD=yP-<y_3?e&?7K&VN&3y6Cg~o67!He0*p%UF@=anBA9yk3Y++ytv!`XYIXk|GP%h
z#r>9l*L17_AOGHAxp*Y&-@8p04`%=SJTtiq`kz2RGQaF%n>pELA$J#Ll-!+7?}H{p
zN**bOd!^8Hsl>8Ubmj;?9(uhmHrpRI<&(R|8_2c)+~J1%=cV32hyCa6%zeOn*=7F=
zC%ONk+<Vz?{|jFqLHg9}6-wNn7CXsZ=N0yOKHYni$H!k5nZ`>ke_7lK_g`5}SL~L*
z%C^D1K@@`c(cpt|kBH@PhYLXjVjOm}f6o-llDG__Yn(V{uw9lhhRW$=Moly>FTg9$
z`^qmkt4DOsDy+X|fe&7-^G<PRlo`BE*#5@bV&Ix;^7rt!{#esD!M$J5PP+<THf#g>
z4RCA*ICfnt;@c)jvYT*ISk4fRpxDlQ5k+HcACfn~elR2`c5ryw-@%CX+%&F<h-Tq*
zbB~|d7GgL5js{^62S%UynadN9V4#~OSbUhpn42Wi)asqT(Ja3#auY35;WL(}2KnGu
zLzN@zVCmwC=^&UP$kLDVeVcLwgncz#^vVoW&>fLhCXK?lLNd?6nzlgrA}rh7$bF`7
z@YJ!9p}w;N7jXpxtX{C)tWB|h!Os2Jo>JZ|7RWk@N>(EbP7qthSAa+1yJ*2%+{5xp
z+#r@NXoFP-TkiLyZ%b>{?aRmhVDP=cWc7hK3=Gunk!SIbYY)Mo%>2oP@l;;P;>(G=
zwzXnDRos2A<zD&yUH8ZDe|?=ZoiLp;eOgk!craPg94~HJ&cgnvr~@Qa3GG($3$Uhu
z|C;~(ms#5O<&(?3_b%MG-MfjYq0iKScTs~Oc0N~km`p4~p<ljcZ^MXy;DtOQ{skQJ
zh{(Yy4Y0KV0z$aQYyx%N{OHzfnT7|Q6ws(*4><Ko3LICnD^y==vT%S2+=E5{<;Naq
z1XSQ0fDXaglSwmE&~RU}ejB1BG3z(2*G;OPK&yEuZR(AFpyHOy-jb1vS%BXLTf=_-
zBD<RjqBnHbx)q=4k{*#)4;XPrQr($>ulE9Po*t;<X9M8F(iJ*ENcWJfsH?%7WKtbM
zN$ebq4TcV8z=uL*Bxd1IuDuL4E#1lk2?bmc1Xhv|CQP=5XD34unZw4InRehAL+W&X
zpK`G^UC7JWovqn8YzNx1g2*_{(3rkO>ReI4D{Th<k6F`}86*sw#Ssdo*BwG%605z%
zfqwz?UC(k@y?<U>i!1f`mfwfLqvddt->qQlT1WT2=J#>8M9q@@fwT29D_2%WhX{mI
zzxpB%7mR$)Wm~;#Zty!=67H7uEVHZWk=dF@1dzwOo@>qV{+D$#qWlfJ&E&hSUEIB#
zzC!cQiu>}+f0Ac~Qw&h4an}mF$0(gc%waY(H=HOELzQst5gq4{oo_aK!^W?Wg<0I9
zpDRIJ!VDQ;NcM&x)BC&|*bFPnlIa@Fmv(YV%x3bq=}jgB47p$U8B%zZ6lToR4#c<M
z7j~4@bVvp3Ta*fxx)toleUI7VE?tl=la1eucT;G1E?CM?IX2U0#cYOEzy{lxnCs~w
zp{Se4ncak7)vV0H)tWs7L5AIkBinu216MkC_P_!4PFvaPQx8ShuZPL^)yg)XdMS*~
z31LDX>Bw*n4#_N{cG@hK5em_HF_sbPGWp<2QRc?|KQm0qGU~!j&Fs2sKfBY~Di#vZ
zENF>aX2H(J%u6Uwtmh&G;PzPtYnlMgXi)QH<#OFhk?AVRMYq;Md`=)0bzHa&JPDI>
zHm^MLyv>ILB$K)Qt=po6Y<{1H0dXd8ai3?qh#&Vk&y@_AZk=1p-;;9Xf6~^S^c;P!
zdFiQpPu*|+m(MNaFFd>W)EmPKgKyL<Hzzzt!Eq|CdStZ}I(}YMxnN4=c@}L6+`rPd
zJd$WQ1XhvDJ%4@SrQ6ZlXH!L$pHajwY<A+D;o?hs!Kbpt{netzL{Z~XC|T5XFF#SV
zJ6^cw-r0D;(RtgNy=Y;4G5Qg>d^W`Y^7A|{zaJ(BvH&Pd#~^R!^c`{hm|k~_j+&hi
zcVw5IZ<yqB5RVNSH(YlN$K3iAD^Ta;G9IRz^eG#XePotinZmbCVKJmIOz=7~XHuJ2
z$s~305VCRgheA$mo0Hv;6OQ(GP&S7lMebdvI&inm!4+|$?bsu@cMw0%0N(?Xx{q(I
z0>LX33PpE|AKR`ahO%%%=?-9*8A?+wRNSq6Y#vpH6xDZY9@{>=P<yvdpP076q52Ia
zZ`eV}8zY#o<;NhF-lSni^A2FN=rDv<p=}2#+J#!7<F4<qwe}-k=MLg^8S33F?Ak#I
zb_4RB9YEfTc>8t`uLtq=?;zd*#OvKbyn_r|5A6V34;wIv6OQbl?oVt;@#GFt^r6&8
zcTnp74UmuR0P=t##c|=p4pN*HP6?-lGj|6cJI2l$V4oI-^vj<zDJZG)VkVVh%*W@-
ziC8%QW3%wo-3uG$%Mx|`=)b~6b^Nf+szS8r;ShVeWEeA?@brdyXB5*Co-yD!Cp^1@
z6kpqr$Jcj|Vt7M}Z|oq&a~o1Tzk?JnY)CP(gA^}rND<hOBJ)~$+0gT&AX$aqGYP>R
ztaD?Abeu50gPg7a8#y6#cjB?wcy$BpNnvU{OPJn4nPxWh`|J+N^wNeD;to=T4JjhR
z+zwJ)6Rt-}Rg9h}S6%wAz}>x}w+Y0=ZVp9lKHp^Ea&R&#Ub+I_208f_+>tvLy3x8t
zEF4m`Y=h#bJ4WdWSxtRIzVKDv@8Jg2W}i<{JZgp-1|-tK7=i8(yK|Q|hAbaH)P5|?
zl#@*ejs+n4m9|_7PR>SiwA8TSi`y>)q38iB9mS<GDWFO7MbiS2jV-giD`lV^bNfNR
ze~W19TX>~yvbacCd<9=o2jvqE`d~FG+C!qp*q{Pt-}zI>0*Wl~=R<Nu=Sba%ClMQ-
z6r<P<cXmdM_@miAANfRcx_9;XyYR0Y(*9bG6io3#Pu9p8ss)bbbzbZ4R1^)My%CPO
zC|@<$AGHH6GZq!i!3O*=+kmG{ZP70w`Qwutnr(vlmY{#UgI8noH+%uy`X*m2?4vEo
z;V%Df|L#`SG>Z8tlBhzD%m%{LCrnR9xgD9^WXw2IsJ|MU^aVs*iOS6Us*R8RJ4DDK
zC(GJ`6(|gzLWI8-3ZNR-LbxP)3bG<#0*E2f36t3ZDmJJvp;B>^pFx+2&<q;K)u#lp
z1y)tB(EZGivLN|#9_Dge30>%ZvH$?4t<#Jd#kw)y=Y#Dn9}1)@8w4!aE~-M_3g-cM
zqs7prnyISbPmIbJ>@pNZ+YlB)!3?rbbh#eFjP;S3AKLxFGCPnu5@Ly{E}#WzBREP3
z1HOo&67iT)JbMK@ImS`(`IJig*hRf+qfp@^;tcLkCiIqrGG0I}>&LN6ZX;AR4FGF-
z1qzV(I*K-Zlc{6LhIpZk1+%)ibs1K`XK+<+aCD9;PuF>qzJStFBri&3V7FgG4xBX^
zxH@Qn%b{s@A)q`LC|1PP9%Ln+3fv^TldpCLjA?xWk+E=N<vVEfQFVz`Ma(1l-fBn=
zkr*houL2!BE64z$-Dl>;uTbepF%c?YewyBxI^3mb!4UCvfdvGR`2nHWKuy~TOh|+#
z4#THhpDZ1SOKZjGQ8}52!GinCmE=r#kb+qWX(E*82Li23WwPKQ#qq22fr_kXGT-H3
zV9FN`2E@@TWVxJ-$U*Bd2!*?BG#uswnw(Tabpevx9g-PnD1qwjgWRJc$A~Hu22zJL
zp;01pBJQV#S#IbTsbyB0icQ^f(;FvlAUJMkM+>*$GHtXul@5(grK3hy%;bR|K0Tx5
zt|;=cOa<f`P&G1zxv8m}YBWkNmj`G?j72uju=YDhb8XA6Oc}~bqypcqfgur3S!5Fc
zm8uF+_eOkSsvFUt=`E$92PKzTj;#J{U;q%NM~19uEHXh(152K8XxI?iVLSuT3H|vl
zKX16+{5o6DHs6L$HQIW!IUywOWd`^#@WGf3a*;0$ryRoms1pm4re4L=!UA*X`YkF~
zoBGsv8N7Z0{EqH_=O2IP`zF1#4b5O^GBhTnF0l@L^)2uGZ*;Re;~Qg;Y`)Fi4{+Pu
z<Ievr?{1HJF%6I+GUnr{nMe@pix7;~T_P`_33&k#u_!YAx+`<z<Cu_e$8`|H{WdyH
zo=bqC%INWtk;!PI%6$h;C;>bLkRJ0msH-q2578fW`FvO~e6nC=SY|4g>v%2uYsl&+
zib;{Dj9z{kEB7U=KUetkilQM~&oMj7<}x+?;mH8hH?OD!z%zq`XJKppLjTE;^B2w?
zKQ%aTVdU7U3xvG#aHJv<zfmq8aTw7uL=Hx~43#2(o%%u%8No<U0z5H8c>)p5^Z6J6
z0n0hQh3NFNSFo7Ck7jilt5`yI)_`vs{Xl}z$vK4#Q3fgvVWxV3DHA%!D%B9iVjKp=
z0lH-dlQe9^<J5u~jE7%j)K3MFFIHFUu&<BZv(EC?h)1RPlsA<rcmsOYR6wmFewwC<
zCLz)2=nu9d&D0n?Rxwi5l}R!b=rHD6niaJOY=NOUa}Fw2j7Xz)5(xkGR^d-yJU7G|
zk|mZI!fef>!p+W!xS?K|PUQ9n4vNufwU_Y06zy+P4x9Rm)lBI$|5hSj?M^m38Vjb#
z+5)E)*#0QUG9`EFayn;>{=QlSs*CFTo0meRCAB7cne8iLzL$wO^eZSbLZnCRrP;9W
zWo8+ct^JVcMKo1HSct?Jr=FT~DgdG$6S2&F_rbJlbnYU^THVwuKQ<W{r!z2M90rw&
zu|}+s$>?Y0OM7w2g=QvJrD4Kzv$QRcdsYCo5}pl0v3e>Lk`K?uL;h$X2DNsRFJT!J
z&BB2~%q{&hQ&Rzu4_Mz(H-YK@)0&{#s#Q+oK&Q<Bg()K<-Q~N<aRSIlUX3n9&ZD8R
zP*A2Um25Jl1WNIJ3WX>~W5<2+T3JW;Fw}MMbu`N87pEumLs!7mW!f()bP_8gOWZ*z
zJ17~$YDKS)PS{zG$@>f$9*ZzLGc!qTFNd<`l1pW1wQxG?z=7x=ZP#8}qoDFM3^%tQ
zno4WHU3-0zD;@maF7`ur<@At`-mpPTF(B>ux?Oua_I7pj>_xS=tgdwj4%GQ+hOW!h
zxpizTu<PX2E@X4Nde(1hKOT4w{jUzA|1XblH=o?{XUQ(bEOsqh4v5w56c&tY*fxT0
z)KL|?z3?nnNdqpaQ@Om8dOT(+D0Q6XO`-{CPlK~GNM5ix5{Sk2K={OvP@1j-<6ul)
zMUG(-XPbSH$3TEywyP&IC;{<C=$d~<9PgYJ#yWTH>FV}(9oW~?C67qVSeHS0>(Q?S
zW_*DVaZmi?pq}S0`$IFG6eZk=l|91tEZAZEL!t$~rx668DwO*ALIM_TVzflF+1%m#
z1)b!HJmN-c)h?!)QjSHnQJX3xXnYL@nwT3h!Ql-<t(%PtnjFxWSaE0<1g#_AZ1m(M
z`oW~XIS#10X>0(mVABvB8^iKItts<fK=@2y^Ao}rUgf-iR8>G;l|f$pI|2#Q9aPG*
z^z(NC5_A-dv!Is)*b)V!Z(Y(q{tm!r;DRZ$8jWL+b3qs;5pZ0~)`*snADd`HaSnqF
z=xX&7p*hAn7Pr1*?wSrvMs7wg9ap_D!!WPEg91kjh)xV*)fx?IIbA%j`21aFgtZF`
zPY^djf!xuudisLq_jj3@$FN~%+kJ>U%|&Lw`TH%53uv)|;Q-bV2BjF7gvuBw_?fBb
zuP$L|X*+qgjNt0DHolJ1*2!#3n$H=nLhJ=SF1E<vLWMB&Cvm?Ul28sxlECEkz|AmQ
z2`D9n=qdd?#a2p^Il+rcDBXQDH8cI<#>91U;SI$z)E!ZkC5#msJuL>uQEU7VPX}uI
zj2}S=$7Ux%=8gCmZ8k;C!PZh)q77Bo$WCx3GcDm%KSK(Y9AnicW(y`0a=)nXU|z&_
zSLX2fdD^;@`V^I54l)eUTYVtkFBAU|)7;?9g+79e5QW50Se00W7~LgrT~x}8RYvsl
zv?3V!m~3y)heyTGYy<{^W{4`rHpB=WyL()0CCp3_Gl)&q`c#U+f*EwyH#h4e%!vfY
zZ;FF7LzB(m=$}%1DdCzK7KOIDt_lOPMkFE(aL6PPHHSKf6GVCQD6{M)d9v1m$XLE$
zFM>W;lopjhgLvUh@OkwzfxF{_IvZP`bbpYf<m(6fo|tBorK*QUZA;%8smdmwEdZmV
zR5xawhMIU|fziflt(oNuKR<+dj*)R-?dfG@{iK&lZ9yV{sa53tfzrH6k)r|1S0SnY
zo^mZik;q__kBK(=i17jqM2v^gUwjQr<LH|z+n6zZ&>PnSp$H=mso_vIcI5<h(`8KT
zKyumq6cAGpY2#azHK3Q@*VU!@cJkd_5Ph2liw>-8S~&>U0j5jFQiByM?ZhNZwyvnD
zupJ>`p@5I>i-_LtlQ)29Qn`ENDV^<1Su~!a5%W)3|0x@F?~H;PhlqdR2GIh+UcUL|
zI+(w}1&UZACxMzHSHWc%57+g+Tqp1UN5D0kzKR^{ddI-!3C3d07&FAw)Q>w_-J%PF
zBkjZ)1c{3>em;{!m9>SL?y?0!gJJO)jU-a5O<U&XpkZmH_nx%*O7Mn!yQG?YWE{p!
zX44khn!--qOaNyASz?T4cDG8%$Z?ED*yJLNPKIQu)prp6-<cur<bhi7EpCmZ(^o9j
zDT`y(Qj)MhT_%6c<w<!8*RxFSBkMVwwe$-}^<_gp!J4Z^@v<nTYo5ZDqL$SnU!usD
zEb2^px>Bx_>$w?|6v|LjuHy<!>js#M_Me3Boq+`6isebIEX?y5^E{w=Li37&s!h2n
z4WOVvsTHpP*Eyx!`H(+!A2%s+?8vUb5T`<|rOkatjpIa|N<$ph68S|bSM4?#6%i2E
zQ>1u?R)W?G1Rd34#7o=n4YIQLZ7F-<y2au;ptMvjl9g)7pi;KxDp>OrEd<|mQVn)*
zQ-NYcOF^nKE8BfQiLx0IG&d_!uI`M*Bh@tur8}#(79J{XtbOuRuGVep?nQFK5xVe+
z08oD#JE4Sue_|W(WlHKk(>BQ|LdrF;P4YsuhqK(xO8IQa-(zS-w2z9$C)Ez#jK>-h
znBCs(npr96sqG3{t>$BKt4)=Iq7)j6qD3*g_ivMp7x<dWFQ(ocP)oa|J1M7pT>Mx1
zqr!K~-!6Zra<!~AQP#R#x7-~s^TkX3%YitJ!7jrX^l-(Mt401qkw4yfELk*wn*uEb
ztCpICrG^c4;80=8^(+;O*E-Q_h(L|_l@Y!g0`Q0;K;74ktGrkyN>6E-RH;!+?j|LQ
z(otHJ%Ew1RBg+|WgknUAa@JMFY0uvEEQ|Y`Nogj>rU8iZ$e5GmZdbaCifo)cN~yc#
zTJ72<3X05{F28K?aNN^ML;0wh<7NcWax}RyATrOn8m@jtoO+fg=7jA_4iw9BpEf~r
z*<JAZ@a<u$g$o1tuQ}9_nH||6G)lskSS`3mP+Qp`G@9v>Ufp7mE>fxr8(rk&>w3+y
zAq+G4x-c~WOM)W-90`rKnwaQs7^@Sf+)!+xQ1M;(6rdF0VuWD5$}M>P;O&ENMVA_&
z7?I3viCbE>mYT!{zk|O=dmz6po76MPgsWwOttYA*dooFBLy%Dsb5&!}uOT&A)?iPj
z)|kkk2lP0I2q)IZrstJEf<MW;Z+ap`Vz5Wo#bDO&jd!(ZQsvMU;xgS|@d_+MO=Pf|
ze9H($v;4Fj6v4u@kn%Fal0!G#A*0>(vK_?Ckk~yT#*$^L{lVa5Xg$Hk?q4X+TzizP
z1@xB@qJ0BIl33sLKyZ%BbdLwqAJYVn^h7b3ZOkNw#9BUsc+xa1du4=gfq$hAS9L*W
zft#pSzx3Z%S~B~;Lt@^%9#3`AT^!I}$O!8lE@qqFr{AuHSPg1A{TIGX`j_fbMT28@
zAxE-*MegQUwj2ZHutC!&2k_84n;-ET(AnE23_44vp|jx-9FpT2F0+;#6YZPRL&VV`
z<Z7kLm2!n#(zuu)Yc`u6RrC@!-Q>!88DABPbS7TwGYBhdcV&_0oqhusyU~oxbPv~E
zmnwK1qj5>r9ydK3#-)1$u4afW<e?SH0BO%AF!+q@Q~eN!tf+A#8g@kvs$tNfacXVl
z(r?1j=lGaAGyGT{Zcju0VT({ezoI8X%LscWo>Ux$pXoe9_)$ZE;*5DDBZLew*jWC@
zD9y30so_hztW6JmPj2$UCwzfLn;-ZR+hfxM-=R%j_=NBIt-gZyN4ANJTm4lmgXU5G
z>jk4`rmch-pJ~?R#|m&qido8+3ZQS~v~V$RjQqS}6>|CNel=~F*$Q=R5sD-)beV9w
zo8%RW2ycawSmCq<Bg-q4#tH%X($;dycO)WCQHYbg|I{QE{Zmt{2yvg;F0ND<D~^0!
z4OQ!jmG>K}pKt~@QIts@+#^sf<>6f+W#e5b+3>ECvhc2!%y`#GPP}=^g?BCTd`^X+
z|01LgAsN<6gw!MC1wF3nLP!HbUR1yJUxYLw<g)Igx)9QY5JCOce-Y9w6=$4tTGZA@
zoK~bB(^ILguTBT-C{b>+z{(#h(bs=TyTuN79po{Mv=ZdfhFnO+Ytw^}cFB!*2g0vx
z3dAQud<dDy7~+?55Z);j;oXH;_KdN*5dzw4^Mf?I5R!q~K*(-{Om0p=rTKwLGclee
z-zgR=1rC-)$fg>5GTjZL;@SjR!rJr*d(^&&l}qKgJ#sIN0OX%xG$FM7D?|6OP!r<y
zFjp2_Rm^39Yrm2<vZ)A^Uzu<~3B9&8RQx*1lfnP*ZG|iQjaIl`wI!KudB(A)<Eep8
z1&>jr6)wYA#howInsrLsWEisutye-b;4eZul+X;=`3m8727jdLQc`8WT!eNjp&76j
zp}Qy)vtk)$#Zt_QwC3K}+N<GW0k_gT4?}^m3f!bohE>rll}QzcIee8ez0^FZl)hi{
zLRX)gh-QERi>(vVR)5^;^ADh_-M%$MIHdNHaF{5aSS282Xt`JNgd>?lh&DvOJQ1ss
zOjreA84mF>j21>4XJ}pAQAk!?pG2w*p$O?iNQQPt$Wer3Xmf=0OI0joC3~0SeeB2X
zSoL%T%Zngpz^-l5IdIP{H}TD_ZO5?m|84F1g4#&Z`wU1(APN0J0!c_hfFzIs0p^d*
z+FlzQY-0?&Ykb+*Ia~Gtw+3V540zYZ%N5?bIzw(#2H&PEs&Z$MO9Gd=<k(6c{J6=>
zIS*GgBaw_&wzH(pRe2p7@42=r5BYsP8iY5_rBW4&>i)j&)=bZIPfz!Jzy5u1NN45e
z-cY`On%17|Z~TXvl#g+ixxA)HBeq}mYO^f79Y4|1$A6?r`FMOGFKg19kNR;yJLYU)
z`p4U4=}O<wf8cHQDBAeg$njtHX|vD{4qkHKTsj2LxPPi0GaqZ?E>>39V=R#W+`IW)
zO&U3&^+;Upl9oDtPm}U7o{lQ*DtP8tBJWxPzx^|<B<86eTyJhgkN)WyQujv}&N^o8
z+dHHym>0pqPix8T#7-v@pGH*AgXCl)dU8<3&?XohPX#sStUZmvk;xr<KA0s+1<Nv^
zI$6HHW!uv1fjP`M`3QjlOEVtj%@Z-raR{L*0rw$83t4Fxi0X9|d~7DZqh|lzy3`2M
z2QWE1Gk&j;Y#R%?ZMRafma$W+WlA-IF#{V+Kg=eld0*K{$T8FKdU>+lY2{$tBr_=6
zM8J-qnh)EUvGRtxX@LCMY~N<Od}e!Nr^C(!!k5Fe)&kH4Z9oB1MX=)YknkOJftfaq
z0YcrZL6#~)uxYoH4A|S-N3=}%0Vv%z2Q!Y#tert!vA3LXtuQ?U>N=Ej=c3-4o3y8g
zP>wKLF@tg4HY|pDb0NefgE{OdMv(bB!jn^5626|G@RzC9#j4S@>B^PUaD@(L2y9uo
z`T@w>VY0q>^>Wlej)6dvt45czdRWe&fwpuT%#pQkgC^jwh#@4hHVxdco#M!&5VW+J
z-XSu1k?Abo2N~Xbk{~d7WFBoyVY`psh=38+s0}XA)xb;A_ouhvYm8Oq|B>i5%Qp&h
zIL-f^>vhHwJ`=tY9%%|64-bTg;I;^My{sX(g9o-W+U=D!=eq*TaNy*<k|Tzln(5Fw
z7jQ%j;;Qwa-`~B81jeiHrW^DI?u0Dg%-m7HtcjsP+q08Juh_P2s~{*Hfi|;+2xs&v
zlLDVLG7xTj^72f<#fB{Z(Tx83^!J<gqD$)tih%s9D&8i`m#8i~`c<N1>UV&Gz*a5L
z3}5J{;1mV4JXQ&FXhEw|<^GE5{yV5yy9$-aQNa>aLih<4TcHv%mB1-gtFS;H!LWx7
z+rdEe0Muo+NPQ}WODGJY6Bul-3FY+bzn}zj?s;NNAHv_!0ck3rHZ*<A6^Lv{r6;DZ
zPC_jOe?@73O~EP!tQ!(2Q1}}P==CC8py0PCoOR?OjycNoDS>v!GWJ*I2TCBXtHSF9
z!&!%l!XrmuDr$6eY6rpaGx|jl1-&>C*es?&6$L}O@Htbp&XTndFgLDYyt5{zs+i!c
zMTK8u#37t_)~d#g(1PwUxfY>}H~_^0?SaS|$*mN$Dd9s>b>ov`aCt-zC^iv}PE2I=
z9|=SbonX1xgmR6MTtqRjB1K>gnxQ&>Nx?d$u_pXiQdv6|Q^UnsyBTs@--NG`n>Akk
zP_?zIE&pBm#b*?-CfgwCCY_c4Fl*hmNVBnJD(lUm0e0NV?S`Nh68?#5vIr?_+lFOm
zcg2*u3C#3el1D3N^}y>+jASjZ0h-~_>*5WfXx1JnFeU^4PBk+C<3M=psUS`i{9pc5
zww#|)y(lOrGsLekdu9Hbh(s~;!~Q3_k~{sk`xkZhi<gQwblxYrqC0)J`|b?h9$aiE
zw=)|$zf!~*&9cEK8GNFlK4Y@VCZA;T{iQxR`g3#2)R?2gJ&<R=g&o;!12d~+suoSr
zwbOD_x75@vHubThydAvtg+!DKvVG7EYDJUXDN}gODMt@T(F0%bsc1Kfi~fPM1Ef8J
z?7VcuWRD!$D~0x^OnX`WiL|3%H21UopkxXr2U4ci^%1%Aq||v*eD}Rn=X<Q&skCEA
zG!Jc>ZFf&BoS5s)Sj+CtEX>Ru&)8imx9;4DOgOrFe&xIvK8UM-``+7Moc{IMe>@Aq
zRhLJ0)l07Wxk1o!-kH5UD;k1Gynk-#+~PaQp4EYsf#gBa(Kc@YnezQBOIH@-3&v;8
znq>QG*Gkvg$gjqJF_w1joi7IYW}+{#FFCzByE2=c6dj%TiOZKbljs-A>gSEP+19eT
zW5mIA>yuj<hZEUO_x=9Q`saHxR>$JV!mUhY)q}T|-%1XzwWceZ7LA$aJrDU`+>)CQ
zNzI4S&4(8a31iZ}Y?9qk$sJ9*8&bB$XXPO7{DXA)`=afA*bQC5m!+INKs2x*Nc9F}
zZ;Rw@0Us!FKEn=9?d_HfZd@h!O<^aufV-;@Oh_Dfabc$}wx}ewqQ4!k2{O2)Cl^j`
z_&OzX=cYF>ulv*r3tf42(wV%OcD2q8KJhlLolbjq15mID!`;Nf#N07lso9;_BbjQF
zm)7f~NEeag+GV3VWpqEYxMWLEvINP1UP|1~JE;rNXS@M2A!j`Pol#Y-3@YKOX0)Ol
z-Y13kWkU6Gs7nfUWg@%e$N?#G02GRz(pNUl>RcH8@dt|C=qZ1xH&>QC*Fjp+E%J-4
zu$0>D^RtSJXm9>_p+_k|7D#Z4-Os_`Tk<@BFfsk$<K>Sx+6JVm0d%g6?R~IsQjZ2p
zC-rDg(khvnGfg0*O$<opU7KOtry6jq&090!1`(p&b-!w<DrJu(52M@JcQ3vp+IJ^s
z5X_y}4AjVh4k^%)3Ji%|L*RME-PD(D=$y~|kr!NLpy*3SrBaCa-^=}q9x)hv>~6(C
zl96+Gm12@gNHURR=9~e=LQ*ML=2NUB**JGZu|vZ3I?C_+@A;K7(wtnmS9V2Gu886y
zy_`e$J9zJ)QbC$KpX(vr%i+mzhEmRuQc1dx!-bjenH4{20WQ2p4($ht(8HmPP`6S=
zi9xQlLvA@HwH%XM2BemON5dN}r_%l*spZsK>z|J%yMKB~Y&n(k4=L4Dyhb~JEwtw$
z&flVhDLul05ZB$9ayKe<q}S(b7NwHAxQc+%KvE-JeG`?5q2I`!SjrPqnn`crDyz`-
zQ{EP(mGs^DW44jr&Q*uy;Qmx_ztREy6<6sl5_L{xKUW)`>qnzFy!U-ezMlkSd%a|@
zU#m*nyU?265J=3yWnPh~ty|r{vLBjN(gidAY9eNaRxIhfnaUs}g9LWxKm<~Wq^r!-
z#2}RtxB(}wZk4KAp<5(f01u1Nd}sEPSsDxmJ{$O-2ZOeK54%6#C%5%TZ9VC>ql>1*
z@#K5U{j#q~@-?M>%_&<827`>VA3c`H_`qyT140cN8r{wxll-xNaIIhedtb_bU|xsE
zJZ1EJ(E;9Oy^YljHK`7-T34*7nOV~L*~8W)g}dhZMO(F`tHA)7e_8B`$-53pyAIBq
zL}x@Y)@2%+<%Vvlp_>xwBx8Lh+N2Knln|DT5gfm)bMcQvM~4_{M>yBNNpBo~%H-eD
z8OlrMdoljlTnUq8t<5;Al6o9CV|9w|`joXk;|wLgBRLzC3Y0`=q;aewWvEEB%au(S
zEHm!lgVN>F<P=85wZoFTdESEa*_^Vq7Kan9&A3i$C6#WLDw{=&issf$dl^QdVjo^=
z_VSc1oNzwyE&Jy6+b<l^)QHAR)FnM@?Q+8*Np%ck|Ds(!az;9GMm&60JbPY@56kf>
zDLy5hpBAS-QaJ7=f3g744Ss;4fr3Gb-YNJlMS}(BC^}bgo}zfc7)9p`#wi*vn54*a
ztze;VlbzR|Y?o`>rP_9}rUNcyx=zCF%cJ)m%|4nG&*8*l;`woLd{T5@o9|<lu1cAz
zGHxH99?9Lv((WGolY>vprFZ)m`V+bb)@AE@=wHlxp18da49kWG=4Es8^lE%1zCM<A
zADZubVzFn;E_x4lrb3;|Jr9pOs{6XIptNMu;@q^B$=2$WwL1C1>cq;#&#yk@Q;{wZ
z@ZYyASrQ`~w%R9nTl6jTEnZIU*)TV}vfy`k85Kv@oNKop_H7uC5(mAm{F|*&9fsR)
zUSQ50IL%`)a2I{^>I9tzowl^(Kc@yT2l`~deZkHD#%qngUG$sik%LgAddCG_sq|KN
zBb0Q6zfi18*Y&nS`O?#CK=g0HZo>t0;a7FFP&Uo_3ogT^oiYG4Cu7Or;9yjTKv=@8
zDf&*<5RZ>c4#(rd7)_<<qrGqdQnqvqTmb@kK#5(S9-DxB5>025S2o?vc{iE5L?xJa
z6X7#D3Vi~DXN$>+31T0`Cdb&t?+pv|@kh{6mWh@W!|;d!sIx#w4Al*aZWPNpf%qn~
zMPSju+E<{@kpd{uIH7|orAL8lH`&q%D?;o@jWK}A*d%k~f+VcVr|9DX_LB%EI*|Lr
ziHR$D=buxt+-hb@Alfj70~KfylZ}46AYHk(X2MjLedmcYKc$2ZRo6iHQp^eT`7>Mn
zrk^voEc~^N4qwI|&oV0Kc~d#MeN&8nk5TRA4z}}R;;cw)dlAgmXW24#Fg5FgVYLif
zIOQ%|&AB={4fj=-bJ?`|6IQ7zI?5&%$Ezc8`h0@5$)&O3OTyn$2|oo<3QkbaLjhZY
zl4(#lM!|6kW+|W#gQ~Zk25SB^)U57%*!iX|;Mn?*C@r(agIG1OomFhvlP&Gep>N-1
zlz0LGU>T~2&FR_7SoOA4M~5`-SJC!w3%^4-{Bu(`(Vsv^&-2fVN_pK@kmGHSxzfj+
z{W0fy%$Xi@#g91)`-hBw>sMU+Q?B|c=YPt%zT&EWONAXwZTSywNaBWG73lebEe^rg
zW{y9^f5rXbQ*Pf=F7}jb+YCoV4ilZ)2eIXt?A<MScds8vd%GVwMeo21&^{Mrbhf#p
zcTV0ux#&sjDwFM^t`37PU-7b}fOpSNzvK{Ms4XzPDhTk^3Ws2;5URq|!|>sYoMOI8
z;Sl6<NOhO<?o7EKUbLk0&WBE^{D4x3q)m{}o?e<!^pG*smwOWJOJ@}WX-3Xjp%jx;
z!nxdvi6k>u=2k2um2yR<Eh|ZTIgc-Ms0WkDOikpu<s#3w<1L)<gLGdhByH1Cq3B7#
z2>^mLFwuzl$Ii+Wvs8HPsATmqG1aV9h#i&A>0InhG_AQrZwx*$)}5lWL(+F{Sy}1h
zg^hd}2pvTSTt<WxrZw$W;}e6AuK#lblQ;F=Ej>yq=lR}3zAj%^(l)n$t|t{WHro{g
z6OEh=XjCSaU}BWGzTBXgm}<tnDKVVvNQ?uosaRMV-5=3}i%HflpAk(FNnf{RWjQ}6
z;=1`>UcFzL+Q{>cGex`uWWh=y37ch@O_P9g1LbUBqLH&Ylwu~9kZ59}nX?1l$HY>q
zoRx_-%sJJ&Z)ds#KUnNp7+1=e>ZB%gF|nMQqk@TUuB<}wFwx67TuLPqeSi@vekKOE
znn-eZ#iLX)HK^TzYNpm;UaQnHG4$Ha2(z?^){b>dt>?-r6KzXP$&loTC{dQS3-j1S
zXlb9)z|=+@aB+Icq%<)#_O0I1%u-vl-qOm{-P&2&nA*+-s<+s^eR0EF##g;)wBR`i
z2Kk0ei9;^&NhLm|khHpnwIl0gYsXi9pz4QvS-hz)-qIsqIm-9y`J#kd_OwWzmMxAn
z<=qmVkIvt~%UrVJF@%yFS!-J_T-&>Hb&FKRI9kY8B=%xvC4rltBW*pjKK1a(`i;+H
KFPYAUrvC!U@fa=u

literal 0
HcmV?d00001

diff --git a/benchmarks/__pycache__/throughput.cpython-312.pyc b/benchmarks/__pycache__/throughput.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..930214f644e4f95d23c6f43ad450a09126c37ee5
GIT binary patch
literal 30000
zcmdUY32+?Od1m+AN6&%5eGnKN1TZ8pBzOS4Ns!<vULvW(kY(%;JtP6n0rd<>aXipc
zwrd3{EE8O5O=vAgkmHKMl~R(El%u4wwRS48ojBQ@2B6Gn1h44|YZGtPR)HdISx#zq
zzyEdj9N<8rU8$|wCh_|9JO1~-|6Tw8zyH1YvBP2G@PrJ%GxF6jj{67t(4I2YbAL?7
zakn^;8{|Y@)P?v#p1pO0I`-BN>e<^cXkc&Sppm^zgC_Pi51R4Thb&?1pp{o(*amGZ
z&OT_z+Yl1M!l1z7j3GzZIp_?#23=wIpqqu6LS<pkpeI~DSRSqztO!>QR)(tvtHRZT
z)!~}KnsDu4ZMbf*E?hrYA8r_IV0p};RpG|L#&FYM6Z^J=yy51-=5Whk3;VW)TElIF
zZQ<2}tJ$|L)E@2_>|lO-s59&v^fA8>S`%J7xR&`Hp{{WEU^mZMIk8=I2K~X>S`bNe
z1=or0V2fB5TrYa?S03yMZa}P$#p)7fjytC#|2aXd_=<6G<8P8bm$MQ%H(9Cdj)%%_
zW@T69%HMF#DOMx>=4B<-1bfBWpqpV_2dwK0a=66?<meMu1^H3*h2@Xf7~C4{4O$g^
z#Bx!0&LlQ{#W1){^nQgK+%7i5-66KX-6^&LMshg>qJr3l9J^O41M#a7zvqh1*O}<p
z8;lHJ2nVE#-srh=p^-??I}$k;ln@&9#xF?G@$(nP#^e5<Q#r?dd{*Bdxq_D={+t;0
z>9ZC6<MHURs2B_#h)Vkc<FP>K=&`JWLeE4m1|uVhpp>mXDFx3+0RR_sfqMh7pwFJQ
z_a8oXVjvL5S3K+5J1)iI2Tz{S0?PMABbS0wED#@wMzp|+!;x5A8Xu1DL$Q(;y6V_?
zC_VyA0-;iwRsn@`BhQ}-js@c*1npEHB1XenZpX6E(}D0<D0nLP+;}hsyiQ*TNWlWU
z9H*m^NHDJD_B=Tf1IT_*Eue<^blKKnhJ1V|9vvFH5|2v57lzJi)E+t)mBN8|)^S-H
zi3cgkXe=5*E?0l-N@RF{<UFX=FP)ENZFxVUZD)ed$4^Sp@K`)6Fk;4(FSLpMX!KOS
ziZebPs`tcr94&|d_ugP2d^#8aA}0e<ARI$jWjH9E4-N&W&>>(V1%PNQYmt<y$Fh7R
zYY#GPh5`&75w($`=SD)otVbM)1<r<oLt-$lHg?t|1>@sVWY}2HG41f{@pu1g29A5F
z4AUG<aa@?6Foty#CZ5xANu%f<;o=y?$}?)weED}$_ZF{weT)Ap|8iNJ;Ie13>>MV)
zuUL}Y0QZ&}rlpOUk8q+v3;hy*o|`b^kEMO~9gdr@ipHdMR8X@Oye@H4ZQP{=lujcW
zY07!qq?Hz_jB8UmS31YrW-aZ64JkYt{QO&58?V&9N~efdY4LAi*`Oz;JHma5FP%DR
z6D>QCCTSieWS2cjn}!e1B`u{=pmj`1UbNyLVO+Ni06vojfqUEjmPv`p!@K?+1D3Q2
zdr~*r@Nh1vmfGuvby#<v8`eGRq_zP3#)nhh)LnNQ00(U)ObCGJND8sD@n$XMXp82{
zzqJ;ha3=MV`&!xP>U^B$)6(!9;ybj^{5xq*T9S6r_O|0K^jvySvI5Pgd>6WTXpe}Q
zEAmH4`-{{+omyVBVJVuF=$$G}%%B;@6E$q9mYHx9yl2Z*+LmfN_r*?*llbf9)PoG%
zBjWz3R9#z0A;q6G$Gf%AB%gGHzOJ`ue!!#kXY|E?MLH*4NoN8~SkiG$cN%?-$KQnY
za)HlRc3h&NbX%9zAH@phWGlc(<h(Ld4yzLn!;!keM*Q9X_i+9L{}{)Eb4zm1?gEkd
zYr0XEsMr}*hiPHxsM@6p!;<`{I*68qmY5C`NOJM>9QQT;7SD6n_ZYY<+#l#K^SAlq
zw~bj_C=?!2Chn{drUiNk>(RN9^I1nY@cfVx5(-ALHq7Q&O@_!{9(;Z*I2;d(Ls7P9
zP~dHSR_9-zHLEK^Ru8~2YAvt#>aY9P#lvIk#zw}v<5(Sn@$Tox`?hYm*cV(E8acZT
ztKNlZWZfm?SeIM*V(SXnim@wM>yGom2+EaqCF-T|$PlIW?+8VQ1EJV1e=d>{d;rD%
z>Yun@UFDWIgUfW!#MO8w4=x!wt8l}4&6&2e%9hr&rAM~(WQ6jx&?pOyGu7$l9Wwq4
zJAR?(t-F3!-So+QBJ!8}4gF^R*JCF`L2w`5U?es!5ziBddy6RK9f^6*OThpZM~aQW
z33_AWVK7YIJng*TC%h%d=fy(r4TM5oZAJBG-D)njW)6*rvD>_~1qj{dvnC}f>kbn)
zL#-4D4T)fn{t@wbmUf@HZIWn)%-Z9@@EEPvz&dM;N5_W7vbK@)k*E|L3P!;<P$gIq
z@aGrk17ISAP*e&GX$@)_kAVRJJC|t7GYH=PlZU-xG#K+nqH)xAY%D6py~JRE>9d^$
zBQbP&L_|yO1ujxQoZFnQI%}ZTlW3-u+8L6B`*0`_iv?p@Qy?ae49By2kVD!|X==!+
zCWqE1pdT9nZx;aXnKiJaroh-(Fd|BRiUuFTxDCQyqOJfgbR-<i3LwKd^zQKpnkef4
z04bj1Q7qKEKqVxLF(RqFi=EXW#<(G=9>9DaX%$|KxKb1OyyVatQ&1tZ(m=7SD@H6L
zCWxUi#!E>(l#ptbbrg~pDT%%XrDe^^;EH994Arb2HO$)bBTm`?C^2FTyvv_G5{(0}
zXX-$azJO0!iedrGFc=pfJ2|88XEujyTmPy(?QW6XEi>Ea-Rtmub>E`hc|SL9?wc`!
z9&iT1w8WW>rX?G1-NWCvla~d0xb+*Z9?W$4ub%j@ynfQWWa0qpsc(Pb%`eEVjSuvk
zqjt9A9sg~AYU^Y2nxpRv$L^NZ&-8tJ*PFW*$~G*SIjd{Q#$goNTj%Vpi{-1P&!-!E
z<;LDWH!PIzObI(v<vTOJ^=V(f?CYOAkSbp-3+)+;iw5%4r3Fjl9ZPlE(kNRRKM?9N
zp7KmXQ>LmmQ{R-SZ%Nnp%JsdOrk+%N&jW|q;rxZ(YPBs@a}^CsYq)hAuO7>oJ!x~}
zoVoFXo%`o&4*coU?{-XAr)#_CYrEfjdeV`qIdG?{{_2T4PS4eYAK2>_-4$tfv+Qo3
zcehR&Kd@J31Xo&EB@3$-gr<zA@>bW)F3c!XL+|eV(WWImSKf4=)0NvM&6t9ODweoG
z78(|W#zm(m?QD{rP4mv?Yx+B`hLo!<WjUH^KROTB)%HQp)_Kpi@6^nkpX$4{>y=&a
z)=ZjHo^5w3S4{_QK9jE8Bv)>lw0&6JG<h&nUY9QS%jN!e*UXpiNC`Vq<vUPzjrZ=S
zVr#MAa9wi&+eM)vQ;+|vL9_>EgTwj2Xtvt!xjzNtNqxrdoT|LGecGI|H>C_spL}$f
z=V}k~pM2E9m2Zy`AM%&B^25C02NmUqO@`8J{{O^k`I2J=HsAUiviXhzHsA4EvibWN
z`(qw;0R3eT7)~&r%bz?83zoP<E|n!Vibl}{2=3+iRhHOXf+ao(7OPxKKU$&r@^6h5
zgm^$KkYki4$Yqa~28^qt6w6MGt7v-LqOnzA!4+6E(=B`QupSXFAt@wnjGeL*JLR(_
z?$~IeIyD~gUIO#v9i}xjx8VD|XD(m~JvSa1Cc&GQQz<wc4Tmx91x4?P<3~To7Rg)&
zOsWhXTLak==w<9m%o~V#N8+^TV#W_$@nSI+Ls+5;5{^V5>mnf*W5R;LQAF)H!1}$=
zQeZ`kbQfe%V0U>jO?$O@wbKVRNGu)<h<*lw@rF_xDEI#pCn$lj=OkJlq;+sKu8plB
z(k6r?aupsTYL#HSu2bgC<n)r$N6t<-XC!dDoR60<v^eP?`JK`s^5+(R=`ejBA?Go2
zj+4WdeOk?>ljJ;3&M7!q10f)tffs;2dm)ydq?}KY!xr9W$Tvt1IATs&L1|nUEuiY^
z>Cjr4Ra!cWWJ&zRcuZTggw}k@5_<PDmeAcrE2yiia0S&Cx68L)xcS0@1&iHpy1*H+
zz&)tp9A(PdG%qw=-T#5PEMu{!Ew!?xcEM7gahBb<aP7j><r&v|ZIc(~ox8EXsYz;N
zOU;6%ZqepU+v;Uo{k(0})qTq*{QIB;m-T9zopVwYTvbFIVgm*vZ#WnOlXiZ%P)wm!
z;mi2D-vyE8rD{bW%ISEZ-+^Br(uMUCW~S>gCv{1~+XhY6+r)jD7r8G&rudrfmj2%v
zjijBil+pmbTwSmjRAVtPeu~b=q)lv0=VOJ=$A&*UlZXEX3xXh;lfonDeM+Vg%}noO
zc?*4po+7<Z$sBK6wX~$Y_)NV|$rLN<eM+WIIz-zJ;Fh$NS|ZdX%r4qROz5R_2T3Ee
zI*x~zFf4eb^hge^evsYmB~u8cv_Sb>*Z<bQp@p1r;=b84>Qy}jFRfK4Tv*a-&`(+m
zB2}-J=F8ANv3{jj`W4T`X?kK$Jg4tTT9dY<U0W(Oe4sS}AO3l;)f4W|qi;?)Cdwu}
zD6fR(C+SF*B|V}u>Ha$R4IQ)@7zgxBlqa1fDN(MK0>OO~7=pD*dbE}EtK39IvSI@?
z3@Yvh1$PCLiOTDaK5mM?{z@NreFT4wUec7*0<WA-MS}%xit1%_08U?Hbm-%ZP+2@8
zm8+6fNf#~l!#WWdi8&3;m+}2Yg2~3L0`oN2%Jp!$m|STw{xWnfpF^oUloZeFKgV6>
zNmb!<D_R$<BP1?DAHC-6_((`p_0g){c{nr@jKqg96=@m`riw-;5t&La$fSfRP|d7C
zTdbg(fyxDKy!=6^+J=QO%Tz9y?i7^^TWEcHsSAlEY6m8;B49oF*#bo^Tw(!k&aFjE
z1z%zX{x6h~md%{vqud6mqoHle48@0|HZ8Q1;N-4WrM;)ptM|zG@7@D-hhs1Qv-;Lg
zVpNweuiwZk3pgnoq^;y^BZuaQf<+xtH8wqbIz_~`scHh~DSXw+3eP0_7N(~`yGU2Y
zq9c)b%nzn45*YCZ#zux>K?&P7(m4W56;~Jlw)Pi`{L)d1Jw^^=4;W`KK%dLl18Xoc
zj;#uk<MoM=G3hj=X&{HO3^gTL2I?M)08c0@=#Xq(z&t!npLx;UrfLhY2O<$mk>y9S
zy4YA&7m~8pTwK-y4aN{YV_Cfvj43P!YhbEf5zCSPP?-;Baf3^7<oE;p#nzGl&vaYA
zaC64CU+8p3(>)94-j=bHXMBf0HtOA`UvO|Bh}#^Q>bi7whg{t;DJ;4?km}V=0ja*+
z2C3d{gH#WZ*v2~sNUDdI1y*pIdMC}9^&2K#nGKsJ9Zb*!#ESOW>USD%H_GLG5beuW
z&7OZJayydRc|!J|eBb@}-O8q!%in(C%@-Cbdm-98%9jKVJ<ioJ=jvFjZl38#w``MJ
zw*C3QLUn)2-Jh!N&vb7}ckh?G_fMHp)jrw1=8jOG7FuMX<pXzPrm8yQZOzoJ$~3iR
zn%dJ%+vKKgnbyszrp*xN%RCSCR)=$`f^$^dIDYN;bnk-Dk`d6;y|UmXecooddGq^1
z?@~8};idIlRn4UBVF}(-nfA2Gp4NHK>a?&rC9Ga-?OGIEQ|9TW+3tB^%P;l1Hk&Lo
zP4>&KrYY03Zh9{WQQPo_@R~65<m{>U&i*K#I`c&8^pigtoEGM5o}N6M5vml<YkK5;
zp>xR!01s?jg>QCEs(kaL<%5Q{k2&62cC&q|dFpgVa4%it(O{n}4f33${Z~s)#Qkde
z(9fV=AmmzPPs_ZgEiJUkLR+EU08+TiGxfx^FMb@O{2x=R=bZ=i`7g0abeb>MAFAMg
zmp{;BdP5K2HwQWo?$-a6jX$u-^jG%&T73MV&2V6g;Rl`kfnLiGe0uVC87aJnM}{A4
z;>q93Q}~uD_<!i+50;sJ=vqboE&*wNxP?Es-Soq)Ci3q#9V#>b$jBeE2tP8J$?q^D
zJZoe^RMx6(14>yZsUOb<;@I?zVG}r8hArDz97@M<6#JdSP)HA(Q3LJ40;6mZE?}v>
z#l=;&3Y!`wC+B!>axSSaH@?kl%lU*E+g>HK=c82OvPaaht&lQoR}o9Q>`Cf|au@?<
z*|KPSYRm0}IWI{UY~^v<qW`vD^G#UdIq80sCXZ!L4kBY;MZ<(0e?q)oOI8ZH273T(
z!n0sjz;0sWgKZGegt_d&_Lvq+YUO1Qm@F;UyDSQy*j%!eV!x734TnO8D``)<G?stD
zo@d0MO>pPJg@PL8HYSsXi|7T?sidPIHb+g-NbJc)h^A6MVT*6z#_C(DMrF&=l&Y7f
z06TlKOvA1qR7iTXP%2F{U93a-{PjNrTdl)}t68*w;YVMlXOxzoWe-?Gb4gaR{L^}t
zXi4ft8~$060ybRL{s@NA6e~xsr8Q{TldJ$Hf`%*G;w`}_7SJ_E^?VzW=%n>Mu%2Lh
z9<kR}CM%OxY8_~a9LKTqU=-t5pu2e<NM?<pP#_!t&xg&6cp$`7EI+4lKf+<WW_4rn
zGsxjo><NY-gvQ7+!8{faMF^mbVey%>R;KZxU6ia9rU^_dAIw&OTfkgHmIz=*V8wwg
zg_yJ(z@<G@wv}}9!-3%oL1m(f1TU+5CBUaVc5!5ED2AP|5$wJwTPWatjFi#ExX>|x
zR_s{_dDv5A&F4bVK)k0nYf^XFY-~mxqUvU?*pE@*WUWA7^%{o9#ehT;8TQnIkvzwf
zHA;cV`JkdJ$#Ij6LCWeetx7K<595Hcf-=KmGR1_NHI0v9za{9aQn;aUN_L4H8VAy4
za)|N@OGJ!N)-ZN9ASs-Vk%3akp=@%nEkQPq7wk<$2ms^c7-r8B6c_gI*p7>~kEjF`
z<RXl-cI*wQ8;c6h6eBZ+Jcm^1Q}#Jb#4KGnCw(31eu=->e@Fkg%02LK_NKJWFWdYX
zi{sTNZasVR*;Mbr2YQ{|bafvVaf|(>#EXfvxj{BJ%$VoQ9d{Z#(v3ZGW6z|ObR;&%
zjm~SGzq97*zPonUtHaZsuY?!uZC3{t1$TjFB~x8{b$_O^>gsXkEIK@|Zk&4lm7Qrv
z^CX`stDSDXS)VRzmCITuO&LvpzgDhXJ88>(D(d_@7RL?YnlSa`f~8@xwqg1UvxD=s
zTPB@Fe!FvW{CBoZJLl}}vps*TfA`QIIljls>-*={_TOo2pLuS!=gslgqUpvha^sfC
z6Pd!Gez~!K^2A+t`PA{56Z7s(i=N7<$V_zJ(|b?Pm-XE#tNh5UcUNIQrmPmSLuKQ1
z@ZEv$wJlT}OjkTES3Evx#n#HL(9KY$s_9nbW@NsqJyTVeX>Q5X)Pq$af4y(X#Z|Z7
z=PcE>N&7tyHiPa6l?q2Uv;BJmDWPRSIGnKvH|*E!ukM>RzH(&2(uB4sE1xuGYU?JQ
za9(yU9pgD?%Y)-QXLmiUgi0Bzq+#kR24-u7J?9wqL1V*(JOHiRG_T&j1E-Kvz`PEd
zNt*Z1^YAfS!1GW%y{;1tFf-8&>qa2NK8v|!LWen;PqGxR=&sugWDcNv+o;Xg6MBf$
zJL0)gONoM`IbHw-s!x(D#c62ssAwYGzRro}Z|Eirc|}&zkkser=PM8?RRaaxWzJ_g
zo-NmQj)yRFVm8ABBZ8eGgR59U5Cpb20AHGcgFRXy7z&KVu#>NBkt*{cGiQrs-E6`g
zqA+!K(@U=-Th<)Lyf!k74Py*wY!Sm0Fv{lTgu}0zu=$ytnn|K9jI0j(%!aW*{6f|e
z!)9n4xw3Y3*i$;Gf{-yX;L<lJ2Y(R;2gC*rM<q<zX86gJEJl+n8~@6{_r?O3m{r_L
zhI10hOnsOQVmINzlwjgKn=_8GJ8f%IUHx*~-c;+pOp7nIW~bb;E7iRFo>5<ByJzFt
zp62iCbrrS`TA!K@O!iM+o_g+D;@YuP>r?kA_<_UfF<m`!uY$99?p9Xcdg|s=>B`k|
z<?0zR-QFv=_s&=Ly~oRy+fo(V-`kn;9G)~US}Lc`Pbc2Dtbt%;@qF@;6>wO6ZaMnb
z3PpXF`V8y44JPWl=r0IZ{vb5h^YU>b|2q08dM#I~HzE`emp=$C!TBPT#?Z0{p(S`;
zQTMtDqoE|8FM>BLwRa}!85iA-Sog9*@Cp9KKne%MdP>F`DK<_WhdmR9DP5#tg_2CH
zq*Zyf=!5|&OYqU6nNm*i(#MR0vQimSd}L__xHblNJCs1+>Xtv?wD?krOlD|k*Eses
z@$nq@$*}sA+A^F36{p`{0VfB;$rAT!_<%Be<i-lAooan65wB$^c*k3`kI^>Gmw&_X
zu{xh(!XSdD6<vg%=!UP1`G^zM=y-I6QgVFn3Z*#WxfCcR2OITjT>&CmQF&H?xF()U
z!Kl7QOP_yhbwLTFuUqy!T))UqR=|anRqR<2mt2Z}HC%43fD0)aKMj{J#&ao3w`T;V
z<RwS5hxNOCapD)*!|Jk0`^vx3AK2IhoZft>=0j{b^&7-)(Zcd?#8#-W+w!5B53!XL
z8>xxY-XnX&s?zw90$y8jVN9tXC8mGbqm5B;1;!huVLjsu?5eWgIAKbfuJYHdNn_Fk
z?!W=VQ~d-&bud%@w+69#1fzirkVp3{1B*`<tEX7#0QPC|*p25#2ehyJTU+%>N1>V}
z>L*MSMy&faBrOSKJq5#fm>6M+wL>a^$vQZIpy)F(#y)FhrbaB<N(vYHj7i@_5t?8`
zk_BVZO-gnK1{U8?rH(|&_>auu8K-ZFk(K-TvG}j8q}%PL4cRl<D%I#JzhTaHO|vE}
z?=XQ+Y(Jx!`LAOV4>sdtaqP@r3Mys*WTh5@P{OwOl{{XxTK;UcDx#_KhPqK76tkAI
zbP@o#WOWzLWt|!wV&iA&oPd!DUs*>kn0SwDnOYYqXXBr>#m3KR)f0%_QIbFuB$6bm
zo`_tGL@!4)guIbJIJnKLY-hJhFb)SNO5~Ql1F!Ul^lewbkjZ3B`XdTv)Xg;&fyjE)
zreboOLTc%|l-5ZOt%_Om*}yP3I5F!WIzzlw$ds)VgXaQZdKr~-!4hekBr7?zj%2G(
zKXLNpiBo6x4-5_TpXoon|IE<I{xgS8OX$U%L<@P=dg0uVN-qm}iAEAF{E~$n2c>Cv
zh-4~-ScfPPTR_johw~OvxD@QXK$x{X83>IB_e)Y#${N8qhG8D4%I;NQ2w}*l*(b*6
zsKk&shSLTZ4b0ju6oNG?X%&4Ig|)mym2r?wNi;Ha@iG%0911w?)2?-v;ZRKaPn4d&
z#KhznkwX(b74B1jC2OvD=|jXHAx_f_)(w`Y&=Idn*ZAZbU#7bL)|H!Az*|<Dt{#JQ
zRn?TKtiAPxn_tjgH4W*SPPwL2`>v|H6}=g~=P<Jj9?l}9%{8*QCS~@{45ZsO%Wa$A
ztC?%-&vdL!ckGfoc1=2_!m_0;)4t~0(Kn;`3c<p4v8wfDd&cTWTkB+N-Sp_3wR5p*
z^`t#xciq@=ZO8QXd3$@NciZH#RNaPoVPih!g*j_`##NJcwa>ZQXMO24hv(KDUgC6C
zTShnxzSwF@xekMsu5JUcq9QXJ`(QO!wQk<BJ`YYUxDXd{-r52*()I?~-mu`^koF#t
z@!x)Av94?Kv5bEMA+<&p)?$BP^4Rn`Sy)quDJ&Ztjk2S0p`|z7a$LrL$MMBFKXNL`
z=aD?0W_P;fDH;DAPc7E<G3c~ukuRa=oo8=9yR4Ks&?66FbGqf2jQ@^fi*?<<1%z*{
zO}Ffq@!zq3v2Jy#3eEvzt))_pJ#*Hc#j1^ry6N_Va{EEGNkQ%6@6N7t=VNl`V~CH)
zmeob^bC%Y-&KlT0zT1}GuutBwFV!=Us@*^DJdm;+xYNEd-M&?B-@4GgeWBu*+`j!a
zaXK(l_TF=UIx+S5G=K9<s(t&_V{*l@jBCTSFUqd9)6c?5yEe%5f8V?K+IRKPqHFcc
zg?A0<^#|qk2j^Xft{%$R%dejJ<i44!JkB#iz#kiJM=howyNz&*#2gYun3(fV@IcIg
zSk9OTT@s4GylVf`1#Crt*Ou}L-6QAIlbD^$r-!JoPx1+fRP+bIJ14j&bEz~&fSp6Z
zi66GtPK<yNIZ+!ZpgS>V>XIg$x+sIXfGyL@mTbduX#yo@4X65#KbEyUb>h^~fuYlf
z2lx97Sv_`0rQfGmb1-sg1V%N|MSS_pil*-GDaL+26g>-tBNhz^$(N%N_QBcK$+C%$
z;-v`X;H4N<MxDGAv#$3MAdxdgQ`SrHV9K&^mb&T3VGWycRZqI^dMaN%du#OO=uDMd
z)j99+U43k^tm4&Ew+3$x&Iod4_k5ZE>XA%s+iYE`@38DUEY}`^W(M;D6h{{pDmoq*
zVKw}-ijHdokf5K-*oBm<S++N)R`<=>`#yp-zAaPH@ew7$rlZmH3AQH%Q;d4W_p2)U
z{idQVdy@QFXZc;!WhI&T#m+dTVNWUfSJa96yg?DP+$E)+BsY|U5~szKJvcstv$UG-
zCx-oj((>^TRe(Jgpzr@Zeu89iTF{q0N&XTq)#Q(X!OW;+x@DYdNsMFrkT+LuzMxni
z!b?b$q6KC9^4fecXLJN3EF0=yQ0vjEJUq>J)n0(NT^mGnD5+#=0^4=jP(({do|ab~
zMKR8N%!@Uj(Vnj2_Kf_G6)~WJnJ!JGcuo^gN{%00rPVtB)+B?x>|QD-oi)zO;VY$p
z6irfWi5?=dBUiEH5$dNUS{FLPGDtBhT8#Q7QspJ|QW(T@a($^-s==q=$7H@(*QelD
zUWi}5&#YLViXy43bZ@e;-b6HO&$o!?d$Ia6dQ4?;j{%fY<D&}WgGxZJS^j)x3Dw0V
z6!q;Iu~wTwq&mPa)#@Hrzrqn#mmgs(LaPR}5?YL+ky@XJvqISdTfhib37tm~tcFK`
zMSHC)z<RN;eyctcRwH_0O;O#O3TBBySl-Ws)y(Qh)b}rMTS(?D4^hAMH-MPap5!5m
zZ4W_Q{fH3TfMW@5D?&*?TlPFuN_$Z$8<r)<CoqGyLFxd!5_%f3gCNEP#P&X%S1P1=
zXTGE>{1x8kORTXGw*ld81o9L_e284oN_4Y}10Z(6MvF|rSfb;J#F-00Z%22xDtdKz
zwG`gVBRCOvHs}?DkRpcxN%W2=2kU4n5$6NgnLNK&J)1|S`FS|qBx3^@Z2SuXNeR*c
zD2mno&%x`FJ)sRptcEX!f|r6JrZL%NK)Cdu;b1FuWJED&dk>$9$|rCDkR5XaGOBRC
z&ASU+6eoS366}8JLNKo?pyKE#13MlUjCaw&1Xe3me)q<sUPTL_X&0nFCMfHa{c5OX
z6io?;0PV-65jqM1LDw5to{Mmm{+67-qx_%m?!IuYTM_IT36yV=?sHUCP63K4UzmTv
zaC<oD&9w)kqgIEG3+Fog5~D<iHv*kUjA}rH&nbiG_ywJPREgtf#7ne1oO*e}gjXx2
zfWkPwaZV$RKQY+dtx$_z=Yw#eo_eT4N(J&2QhX~^NP*Yk-$gv%aYlXV&xnK<y1NzK
zMK`sA))h6Pl_b*gBGrcPP|N7@b||W?jxH}dV1gr)!MI;Kf#MD%Hqo)k{COA{FAzDR
z5u9Mj(}UWc9iCCCo7l*5v2MmxYK0x;GWEoQ(~t!3j5HohbR9ZChgZ==Fud}T^gvOx
zfjA<m9SkY7B77xNGsFm;d`kZ=8cuB3NF>u`h3Cctk@!f0UCfbaf4tx;SGVOg@+(;l
z0o)CeXk~^VxgkJdtot83d{{%z&%~)jLw=z2Jd`A{C8vJO!D7dAF+*s*P*F<~Hif{m
zWteD!QUn55D1f6$7lKmas{_z5dFebSX_#^q$v4vF5e#}QpI6JrPA8!sA&#!mz@;gX
z=y(k6Lw9)4yr$i(k~`tl<;CqHbm*AIS1uHNM!Lj$hcb!z8nR|}>dac8)QTVu`>o_t
zbdzT2sRHr1B#l$+kP=M#5jk_@`~XhYI3|(g$@G-O4oN?zP{YOGl^D|!Dhfe6#aPJs
zAvxbAhcuqqGAIs<?f9ewMKXJmzo!%pI4FWG<Fn&*Xgv6Qa2O3K!R}AdZ3@c0A_^t2
zLH#;qabBX;LrW8jQP=W%70sK2#bG^Q7T(e?5%ng?v2SAxLyi@oFncNaVlriJTC})t
zIIcOCbiCsbf2X?U7iI&QyK<|V-#Gf((MiLCrS`7fGqq{Denwodug%o1dZX^Ox=F)z
z=SL>4Y71;S%yt4by-POx7D=13{@sc{Y4}dVyUtYY?s?~)lw}X(W=GkLqc0!LumhKK
z?q=9@Dh48{)!SrY+g*zz<vg)qIhko_V?~k%Zr8P4DSPvxry;fK_`K&tN;m<uG)3R^
zz?|8;XmL#$rY_EGnzwYOESnY?o^>;4=Iv`z_TIbsnr%eIeyLUrhjtWopEy^bVp|j%
z(?YK-^rnUFvao$#*tzIjn|AJ#o%>+=0o&iZ&gQgptL)r*&!}^3yQen@M5T(FTRU#<
znAtv8?uYu%;mnj*r_0;q^0t&`b!zp|l=~R8fevR1(IyTjTA5OAQShdPEwZp>(OH{z
z_Q=j2Dq_Puz20d9sZ^M~bLGAgFb}5Ohg6up2Nte;)r=wS?UB7bsiqC74X0A8PS1PJ
zq=YjlFGs6GbLO_$inMQ!?Aw#_9W7|`o?MH2IB3_{;ipvdcG<EWEp+3=HBh~yfR0<W
z<PV&j#Wfk9dUj_2f_cqs{GH_O<a?Lq*6pVrP<vwDc`{`=xoCD4CVAoZ3n?|h@p<Qo
zl;s4&kvh**e9l}?73r0|y(#Z52Ib(q^H9oiNbO(ClI&$k2IignQ<nXJV`YXx(+;Tk
z7ID6KVA?<1HZQD83EN4-SKB}D+?%rOy`%Kisqs13GgW-M?#;T{OLNVe8LVA6;+3-O
z){0Y;RJ~a>+w;wOmZERoxg}-UvMfd8n~m>o`jc(n**4dVK7+DO&pXegEN4&_PEO0_
z#+kA?a|;Z5(iWd=@uj-=%vtt)Zy-JJ#N5CW4+PFtyQI@OHs048Tx460!RO%i^H1_P
zp=@bYtawbAN-?Juse2%JD(ar^f)iuv9^$Z;JtCji4W8#j-8W&z1N9E^Zg`k_r&KOu
zQ7#j5DQ1|YV*0dvwtPOEaIwQ&^0P{E6y<O}LJn8nWEo|+A0bCsQ4Y@|<R~x5Q6W}7
zLXN6}9MxjYBjl(p$iazqkC3Cjh*k}ckYknDC^m`Sx0^q+9a>n*)<;O$hLo${Zr6nL
z75h*}5w@L=fUU29B5TC8kC3A)o>S+D-J<^ya;z)DYW*YR=qbvv;Sq9dWVGD0jFvft
zp)!WZ6*p^QAylCJXsMCdTR;;|>?<n0bdD`WIkrARj%`Ibwm(9S9Yr~I7UsyC<CPZ7
zb2Wx}o^RLjgtfa{WpaE5MTlf_8ZpOAh+<(d!!s}gVDs>W=m;#3!OtnXy9sBp(1QK^
zKcTE7A~GRG`g8IznBRvl(RQ3TTHH88+^xzKl7N<H9-|RIg8_U#p}fC_lQmojhQ_3S
zCJ4Y-&6oJQlO((%Hv!Y`w$q??<s_nF;k-ZuqHM)-`k4Z(AaH2+;3ybErX^!Q;)KD4
zvwL$w;2NKy8(yCA`~6)|Bjm67i*55Riv>?Oj&1oJs+9ovOW1{uMI*7`u4nP!m>sJy
z)l&Kws%imoNq$O{7uHuJg1x(&iQ*&#CfW|uy#XYNV_)Bkkn<oAi3~y5h%@;KN8%Df
zcek>I&GH;O!R|;}DYf5wg3iD}uvesJC1)-*N-Atie?s5g9Z@76-|_MASzI=R)>e<4
zL3GPmv3p?!sv_!7IFM;P3~`q5j*a{i*yO~je0DXQngL!qy6sPtGlc=TdURk2iQOb5
zCR&aKo*xP0PNM?Bk*Z%H0#aFO?Wr{r8#SVmsV1vR{$3|gj2Z4ylOH*K;y7z}+%G^a
z!$g8^MI<2g4Bc0Rvq8ZFiLNI|+dvmcur!(g1yulqGn9a<m)PwRbe)hNW6Km^7fP`1
ztu%ZK`nYl>VYha0UAgH&tvv*&MCX8#0=g$$83Z{@EG|yV=ucGSq2=#SN<1?VWlEoX
z5Uae_CB2;^{-7UMC$U6OxP-<<(sMCGTUB88l1(nrh6Yj?f*`JNBE^{xBGUiP^<s2T
zGUw@LT{x~$o3c=_Hy{SaAi!#B8ugZqVGs$L0=R**v1kZl8RXgcg)WRiDAgdYqpg$x
zv~IwAX#6~c)brj00VswPK^YwulKr`npya0xpVyQqhQO!ty$hB#AfA!{U5xCJQ8v1b
z(j64t2#syB3#RH44$K7E+o{fj+q~<2jL=HrLgmkS5Q064zdA)KA?U?OB}BbayLt&Q
zF>2QpjVyMLhp1>*C@u2l@A>q5kCAl}2&57p#RBp(>$|)?J{l!Ji)8iy1bN&~LblNP
z!ql|t<gmuu+2iddWu0bB<?GT0H;Y?a6!)w@f%eR4?h>`9nJJStqhp+@^O8Sd%WL!!
zHK&<kPo4J*Q(-zsrzYF!#OG<;oS|bV-jhm@M7@EoG`r-z6p%*f)-3On7&}8}PMq3z
zXz1jr69*0--G6Fm;P9!O+5`$KqJW}RqUnNQqYpHz4V*Wt(opqA$LK<rSfVl4P4bBf
zI!@wPzRwi*7MjY`F0s7bRxH(Dx;Vu$iA~JOd~r&s);WKx;y_uPPExv>*1%Ze6#U3e
z%DWb7Jk89^pMZW<iR&&PMubh$WNH_TB?|CUQql?$&CT_XP6=vmn)lTufxwf}3WepY
zm%QuNv2U%Q6{x39?6edXG?qHB)S>-bQ4c4y1RU5Rbq?Db$m*dkl75PToi(x}Q&~@8
z^w4?SI6Nj*QasCtv;WFrf1UI(1y-wc&(l`PQm93e^k7Mu(*WI4Y@METM;U`HZK#$F
z)i_SQ=x}G<8!|W$W95uB4>%+4JQFyhT}x2I5<Hc0Y|Oapmh3Ez32AV*S}qL%fm&!u
zr+02u!B~*QQ;?+Q_1Nq{s_!TyVk!maxgqf9Ayg_5P|6BuRB1)<&NXV1<ybgg-8WN~
z@|{_si0apeXE&vKpI9M!m4-pj3K&#t3HGj#peEz0&$ufyj_oTX=+YAOt&jjFDfLSR
z-qEYZ)BSUWL{zB+J)d*8nq)Z<6grhrlJ0^eI7OdptwtQ)%DBs^wFY=K4K-I)L7K|f
z_sv$MHl0|3SQW2toHe929$O*0T&XA_u~#dB5cP0PtJ95ra${e{vK9)kCR55#PyL`F
zZRnH@of%7KzL^^dHQxhHtzoGo#~APuY1ZVy99$_)>7pLEIp?ah!zVj@v+eVao)-@=
z^-Yo5hV~^fj=1~(5el4@taPrD?F^}Nmp!mM$%VvKWeiz@YeE$h#&aTZE-7~vciNY>
z*(qf;fwD`$$d~b1BHn1e;G7RIOYG#ot;<<%^M$q#Nj?{@%bx(p#niAEfB0hR2|X?{
zrt>Nlx#DsjQ876CL&R3)0&^a4LS*B{o>JBw@l{$ZjNiCY7b<`HCBONWLGCsUR{o99
z_WYOTLujYw&%bf1PHh#fB_@nG-_ccY<;_Ys(g9QUjJ9aL{JRLpN5{tWmfHVR6F)=b
zAAxtN7GNiaq!40DSrb^u)<C^<yJWqwkKUtUo43Nksi2KoC~KQiqlK)ka%YFM)a>NM
zru>)YL)sEO6rm+(k~=SMj8MHw)ml0Ev_B3D0p(e-2mQZkotpSo4HFSpca_3<nH`-$
zIxq4Q_*D#?s=&F=XP<`ArzO5!gOaqw=_m<%w9y*luj2$gu29;g#pK^oWxQYeDxE^>
z*AbYxCSX<%v(bXHAEJQKZz*;9<KY>B<u+d*G|+|XX4+|+utt3Ob0nf;g_*=!kjA+}
z8Z)lBGSgXn;HQ^5OVd(RY_MwM2emqjbjq(pPl1h^`y07?EO5_5K1W#r#d2qHlEwtK
z8AZ?64PrSk$$wSgbWHxM@*BD9@rz(qB~69xTohNGG#AGK<3k$$`L`q{jU_R&mJDS$
z<uI*z-8f;3Kc+z|T>@;t)bYF-7tO_wX{kq#Yrg!Ot{j8<ygsjx#<oDg^;)Rm<63H*
zY_@5T=>n}Q?3%5@OSP_7E0=2d8gdtEJ&)W)OE@jxH2K`$0w;HAId+Aa78ha5ACVj9
z)yu^zif_8&*_~0)R*+c~yFRIi|E6gwQ60t)ew4V+>MuZ|SOZe9yN*&dPyY4O-(z?4
z_Q<t8?^P_+?)>Ygl?$uBR8z;RdQ^7PmvV1`7g<qqGhPz;6(#8ee2I06_)7{6GRqmE
z-|!&43bYhgAl;HWKvmlAEHHN|(@p`YaofB_WTUMhMz*8y<j95!5ZN$unDU0{P==S7
z&$anMC1qnVDRt5fz*TR~p=&Hus%H7<qto=Ci)q^a`1kAH>;IeQz7?D8d1w3W?dgub
z@7I084!V5F+{V9L*TxrBG1oJwpXRCvCSs+YQM#fuVX2jDT3$(7E!d@Kx7AK_7Xgo6
z!T(Ja^dgJWX&TXKe#B2d_eS!y<ZK}A-zWR`z2CGi*Kt}`7gvy4g|#8|%v=R=4r`?f
zs@3omSA%CYkn9jIA074oL#S8hP;Wl+{hIgsXPVP3eebvQeZNNS>Qyy-Vr~61TYJJ!
z^`AO^`1ry4XV!<eL0yGw;Jcxig9bv=oiRg`#8<VhOu9vOXTPHJITsCuqL*n1sAu_M
zbO&uchC^U@cpRJ~8JrB`hkBp`3kRV5Ql)z>m2!=`==Yuus-|C11&yKr<r@EySPVaj
zvu<l&-xfBWP<UV@1hukoCii1O+q?<Af5W+iLqj>XF4pBul%Xinq$mZlAh)+j#jq}x
zs8h5pP+^b?ij?t6@@-ykVO&u*#Nm#CH$h@{@=^Ld^5yPA$nuwePGcCxfTj`LI816*
z#a4z{&5((S^q1uPF*(GmN-vQ^^Cvs|h5PCwR}{mV2MEJ0E0;pi=oqek8;`K-+Z1yc
zrn7Lc>tQsdMSj-8MF*-v?F$5!c=~LGa-~i2iMDL{@o4;Te&S*$<k<Zu(npl@EID)J
z&~zl#kwf#jGK=W(vjoa5xJwjv8&1|h_wr>8q_fAR`s3j-c6EYJ$e)~JXHc@vk(hGH
ztMaP@S(n=1ayPaRfwSex)e%bDsJBOGfl8xjfjS)RV=eIw%EzB$M}`VEkyMKx11%F$
zGltZ6X`sA<xd_S{*gL%N;tMJBssg*6MMK$C+X56gh`jRRm6W+AQ&9<n9_ymP_R?c7
zJ~m~zWxZ)#Fx1_3uS&bSWp_8-MuOYqXWP<i_Q-4Y;C`4g(^Wd(=5ClCnDNcKx^T{^
zvPPygXujsj`N}6@7PO)F>IuzM;?f*2V5iyU><x?c&2MabZQCNQud8Utz}n@&%>#=S
zt?7y$xdJD#<}3O#o42Mn56YVdbI12^za7m{>{7e?dTWF8<)aU(xbDpvcMX(Bw@f!p
zi|)F#yHj>|&Q{F3{h8K|bn7;`bsMg1e`CjMJ093g-A-BXO&)!19n?=Y=Z%JI4bv5K
z)>Ro-dD_(}yE<q4=Um+>OLxlE&CdV5ykikIJnc`-d!9}SPcK%l$_N!?6m#U-k&J+Q
z?cFyHTsy$*nCLRTVo$3qwBC1FYHZg8C@$2}>gTL&i=CTQFvz?}x8Tv8b+A~%>9(fU
zbW^X~)Jvx!lQ)w<*=K_}%cO8K3eAG6HdWs>d*+?b-~RmU@l@^hdFPIlWyjCVRnUPn
zc~iKIr?Cm{ho0uiz4RjiXTR0GP`;k%gNygO{OPXUb6vY%)lcnBS9Hh~9SiQx?>&yI
zI$)b5(Csn~@3%I}?T>%Y^TWEosGDzpe7^N@S-}4$SfiA;fMgBpa5zq`AHdbeck3Hv
zS~=z$pPa9MGG(b*Y;2ZkKAvwrGT(TF;o_&%jRWxi%v?F$_D0uhU9)TF>NYQ092sFZ
zh<+n^Ejby1fzv8zS@e3xLH>c>Xtm)=BBL#1t9msyz2%jOnWS93@!fr?sx9w1GWPoE
zkZfNwyD?>3ms+<cV{e?n;mGdU;gk)QPkWb)I_m&{;Gh)l5;WRULVK!X8_wvZY&#YV
zI~NVsWg)0FSx8mSnXB(KbS^eD%~-yEEaP3j*xEkx{O|32cZb}%JJa0r?oqjU&po?|
zex(3rPfpKNn{wsg%)SK&dJXP6x^ej0VccEv+-%wV!rG7ZoYQyLf_^xA`F%^@QYB}p
z`52lZU&_(>Yc_cQtEct^um5kn@r2Fn<MBfx2M+l9v*w{8F*-angiA4{^NPXGVVZnu
zF{Ig%H)UcyNn!tsrUDbT#IZg}#C1rM<djiTnxnG<PIgCPVAOEeXN=vrrOe1sI&s+=
zcI9Yp$2;a%w@hM+?IKw!6xcJ8eLXwntQ@+=sXpc8wQ`giY%iCsT@DaGTH_y&V?ATn
z+pybfvXv~6vR~;(6^E1rG~FxnxSb_nTTwCP$4qJnco_?(tvbItlS-tt$qFo7nJZ&#
z0?$^kAZ=HREePQl`%#i?6^mj;`W0hJrFdeXvj*BISCr|7v(ab>2jgi&Q{su9Y@uPx
zMVwHD)fC6pk*t+W31VZ|@l!5d{R4`oL(c5jAhWs5I{Q_9{YhrQrD)V?l4fV)nR-w$
z*tF~bb21(Z?vgel7XP_eALj8TJ<s#FX^Qv%1LyjX^L)tJKjf?*at`Kk{e-Lf2Ts7}
zPq@mTa!<(I6CWD{UiUGlIro^aj^jVa|CHPLQ*QlFINwjW_MdP)KjF44xjFCZd-jt&
z@6DiF@06X*OM3dcW40|B$%7%{X;?BduZ1hCT(UB+4JWskSU#xxP4>ynQ*BcdvS;<I
zLH2Z|>|L_4`@Vyv#IJEu5&psw@WBeeTZK<P1w8o_=;SK`p0cl&jqUdx6cOS%|He#H
z+dantp2t<~8uIkTV3UV{H!qo)SAovFHm+mslAU=4ss{ss3C?7{?_#0<hT-hm#aHJ6
z<KvFqxn#r}VBH-{X7b@UsC~&wJ{wnAvt%cqz|}M?ImqWE=mZ9I2JkZS?bW&YwHccy
zZEKKi4NH3Z>R3Cw@7?m*LvOyozV8^V_l*eusC^&LSA29-=j2TvwLH)Bwxvt@r*!;=
k>6&!ydbxJ}eU84C;)W5P-!l1p8fQmc%?~*GVjb)M0?KI{tpET3

literal 0
HcmV?d00001

diff --git a/benchmarks/datasets.py b/benchmarks/datasets.py
new file mode 100644
index 0000000..5411ecb
--- /dev/null
+++ b/benchmarks/datasets.py
@@ -0,0 +1,3222 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This module defines a framework for sampling benchmark requests from various
+datasets. Each dataset subclass of BenchmarkDataset must implement sample
+generation. Supported dataset types include:
+  - ShareGPT
+  - Random (synthetic)
+  - Sonnet
+  - BurstGPT
+  - HuggingFace
+  - VisionArena
+"""
+
+import argparse
+import ast
+import base64
+import io
+import json
+import logging
+import math
+import random
+from abc import ABC, abstractmethod
+from collections.abc import Callable, Iterator, Mapping
+from contextlib import suppress
+from copy import deepcopy
+from dataclasses import dataclass
+from functools import cache
+from io import BytesIO
+from tempfile import NamedTemporaryFile
+from typing import Any, cast
+
+import numpy as np
+from PIL import Image
+from transformers import PreTrainedTokenizerBase
+from typing_extensions import deprecated
+
+from vllm.lora.request import LoRARequest
+from vllm.lora.utils import get_adapter_absolute_path
+from vllm.multimodal import MultiModalDataDict
+from vllm.multimodal.image import convert_image_mode
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.import_utils import PlaceholderModule
+
+try:
+    from datasets import load_dataset
+except ImportError:
+    datasets = PlaceholderModule("datasets")
+    load_dataset = datasets.placeholder_attr("load_dataset")
+
+try:
+    import pandas as pd
+except ImportError:
+    pd = PlaceholderModule("pandas")
+
+try:
+    import librosa
+except ImportError:
+    librosa = PlaceholderModule("librosa")
+
+try:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+except ImportError:
+    from argparse import ArgumentParser as FlexibleArgumentParser
+
+logger = logging.getLogger(__name__)
+
+# -----------------------------------------------------------------------------
+# Data Classes
+# -----------------------------------------------------------------------------
+
+
+@dataclass
+class SampleRequest:
+    """
+    Represents a single inference request for benchmarking.
+    """
+
+    prompt: str | list[str]
+    prompt_len: int
+    expected_output_len: int
+    multi_modal_data: MultiModalDataDict | dict | list[dict] | None = None
+    lora_request: LoRARequest | None = None
+    request_id: str | None = None
+
+
+# -----------------------------------------------------------------------------
+# Benchmark Dataset Base Class
+# -----------------------------------------------------------------------------
+
+
+class BenchmarkDataset(ABC):
+    DEFAULT_SEED = 0
+    IS_MULTIMODAL = False
+
+    def __init__(
+        self,
+        dataset_path: str | None = None,
+        random_seed: int = DEFAULT_SEED,
+        disable_shuffle: bool = False,
+        **kwargs,
+    ) -> None:
+        """
+        Initialize the BenchmarkDataset with an optional dataset path and random
+        seed.
+
+        Args:
+            dataset_path (Optional[str]): Path to the dataset. If None, it
+                indicates that a default or random dataset might be used.
+            random_seed (int): Seed value for reproducible shuffling or
+                sampling. Defaults to DEFAULT_SEED.
+        """
+        self.dataset_path = dataset_path
+        # Set the random seed, ensuring that a None value is replaced with the
+        # default seed.
+        self.random_seed = random_seed if random_seed is not None else self.DEFAULT_SEED
+        self.disable_shuffle = disable_shuffle
+        self.data = None
+
+    def apply_multimodal_chat_transformation(
+        self,
+        prompt: str,
+        mm_content: MultiModalDataDict | dict | list[dict] | None = None,
+    ) -> list[dict]:
+        """
+        Transform a prompt and optional multimodal content into a chat format.
+        This method is used for chat models that expect a specific conversation
+        format.
+        """
+        content = [{"text": prompt, "type": "text"}]
+        if mm_content is not None:
+            if isinstance(mm_content, list):
+                content.extend(cast(list[dict[str, Any]], mm_content))
+            elif isinstance(mm_content, dict):
+                content.append(mm_content)
+            else:
+                raise TypeError(
+                    "Could not process multimodal content of type: "
+                    + f"{type(mm_content)}"
+                )
+        return [{"role": "user", "content": content}]
+
+    def load_data(self) -> None:
+        """
+        Load data from the dataset path into self.data.
+
+        This method must be overridden by subclasses since the method to load
+        data will vary depending on the dataset format and source.
+
+        Raises:
+            NotImplementedError: If a subclass does not implement this method.
+        """
+        # TODO (jenniferzhao): add support for downloading data
+        raise NotImplementedError("load_data must be implemented in subclasses.")
+
+    def get_random_lora_request(
+        self,
+        max_loras: int | None = None,
+        lora_path: str | None = None,
+    ) -> LoRARequest | None:
+        """
+        Optionally select a random LoRA request.
+
+        This method is used when LoRA parameters are provided.  It randomly
+        selects a LoRA based on max_loras.
+
+        Args:
+            max_loras (Optional[int]): The maximum number of LoRAs available.
+                If `None`, LoRA is not used.
+            lora_path (Optional[str]): Path to the LoRA parameters on disk.
+                If `None`, LoRA is not used.
+
+        Returns:
+            A new [`LoRARequest`][vllm.lora.request.LoRARequest]
+            (or `None` if not applicable).
+        """
+        if max_loras is None or lora_path is None:
+            return None
+
+        # Generate a random LoRA ID in the range [1, max_loras].
+        lora_id = random.randint(1, max_loras)
+        lora_request = LoRARequest(
+            lora_name=str(lora_id),
+            lora_int_id=lora_id,
+            lora_path=lora_path_on_disk(lora_path),
+        )
+        return lora_request
+
+    @abstractmethod
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+    ) -> list[SampleRequest]:
+        """
+        Abstract method to generate sample requests from the dataset.
+
+        Subclasses must override this method to implement dataset-specific logic
+        for generating a list of SampleRequest objects.
+
+        Args:
+            tokenizer (PreTrainedTokenizerBase): The tokenizer to be used
+                for processing the dataset's text.
+            num_requests (int): The number of sample requests to generate.
+            request_id_prefix (str): The prefix of request_id.
+
+        Returns:
+            list[SampleRequest]: A list of sample requests generated from the
+            dataset.
+        """
+        raise NotImplementedError("sample must be implemented in subclasses.")
+
+    def maybe_oversample_requests(
+        self,
+        requests: list[SampleRequest],
+        num_requests: int,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+    ) -> None:
+        """
+        Oversamples the list of requests if its size is less than the desired
+        number.
+
+        Args:
+            requests (List[SampleRequest]): The current list of sampled
+                requests.
+            num_requests (int): The target number of requests.
+            request_id_prefix (str): The prefix applied to generated request
+                identifiers.
+
+        """
+        if no_oversample:
+            logger.info("Skipping oversampling. Total samples: %d.", len(requests))
+            return
+
+        if len(requests) < num_requests:
+            random.seed(self.random_seed)
+            needed = num_requests - len(requests)
+            additional = []
+            for i in range(needed):
+                req = deepcopy(random.choice(requests))
+                req.request_id = request_id_prefix + str(len(requests) + i)
+                additional.append(req)
+            requests.extend(additional)
+            logger.info("Oversampled requests to reach %d total samples.", num_requests)
+
+        ids = [req.request_id for req in requests]
+        if len(ids) != len(set(ids)):
+            raise ValueError(
+                "Duplicate request_id found in the sampled "
+                "requests. Please ensure that each request_id "
+                "is unique."
+            )
+
+
+# -----------------------------------------------------------------------------
+# Utility Functions and Global Caches
+# -----------------------------------------------------------------------------
+
+
+def is_valid_sequence(
+    prompt_len: int,
+    output_len: int,
+    min_len: int = 4,
+    max_prompt_len: int = 1024,
+    max_total_len: int = 2048,
+    skip_min_output_len_check: bool = False,
+) -> bool:
+    """
+    Validate a sequence based on prompt and output lengths.
+
+    Default pruning criteria are copied from the original `sample_hf_requests`
+    and `sample_sharegpt_requests` functions in benchmark_serving.py, as well as
+    from `sample_requests` in benchmark_throughput.py.
+    """
+    # Check for invalid conditions
+    prompt_too_short = prompt_len < min_len
+    output_too_short = (not skip_min_output_len_check) and (output_len < min_len)
+    prompt_too_long = prompt_len > max_prompt_len
+    combined_too_long = (prompt_len + output_len) > max_total_len
+
+    # Return True if none of the invalid conditions are met
+    return not (
+        prompt_too_short or output_too_short or prompt_too_long or combined_too_long
+    )
+
+
+@cache
+def lora_path_on_disk(lora_path: str) -> str:
+    return get_adapter_absolute_path(lora_path)
+
+
+# Global cache for LoRA tokenizers.
+lora_tokenizer_cache: dict[int, AnyTokenizer] = {}
+
+
+def process_image(image: Any) -> Mapping[str, Any]:
+    """
+    Process a single image input and return a multimedia content dictionary.
+
+    Supports the following input types:
+
+    1. Dictionary with raw image bytes: - Expects a dict with a 'bytes' key
+       containing raw image data.  - Loads the bytes as a PIL.Image.Image.
+
+    2. PIL.Image.Image input: - Converts the image to RGB.  - Saves the image as
+       a JPEG in memory.  - Encodes the JPEG data as a base64 string.  - Returns
+       a dictionary with the image as a base64 data URL.
+
+    3. String input: - Treats the string as a URL or local file path.  -
+       Prepends "file://" if the string doesn't start with "http://" or
+       "file://".  - Returns a dictionary with the image URL.
+
+    Raises:
+        ValueError: If the input is not a supported type.
+    """
+    if isinstance(image, dict) and "bytes" in image:
+        image = Image.open(BytesIO(image["bytes"]))
+    if isinstance(image, Image.Image):
+        image = convert_image_mode(image, "RGB")
+        with io.BytesIO() as image_data:
+            image.save(image_data, format="JPEG")
+            image_base64 = base64.b64encode(image_data.getvalue()).decode("utf-8")
+        return {
+            "type": "image_url",
+            "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"},
+        }
+
+    if isinstance(image, str):
+        image_url = (
+            image
+            if image.startswith(("http://", "https://", "file://"))
+            else f"file://{image}"
+        )
+        return {"type": "image_url", "image_url": {"url": image_url}}
+
+    raise ValueError(
+        f"Invalid image input {image}. Must be a PIL.Image.Image"
+        " or str or dictionary with raw image bytes."
+    )
+
+
+def process_video(video: Any) -> Mapping[str, Any]:
+    """
+    Process a single video input and return a multimedia content dictionary.
+
+    Supports the following input types:
+
+    1. Dictionary with raw video bytes: - Expects a dict with a 'bytes' key
+       containing raw video data.
+
+    2. String input: - Treats the string as a URL or local file path.  -
+       Prepends "file://" if the string doesn't start with "http://" or
+       "file://".  - Returns a dictionary with the image URL.
+
+    Raises:
+        ValueError: If the input is not a supported type.
+    """
+    if isinstance(video, dict) and "bytes" in video:
+        video_bytes = video["bytes"]
+        video_base64 = base64.b64encode(video_bytes).decode("utf-8")
+        return {
+            "type": "video_url",
+            "video_url": {"url": f"data:video/mp4;base64,{video_base64}"},
+        }
+
+    if isinstance(video, str):
+        video_url = (
+            video
+            if video.startswith(("http://", "https://", "file://"))
+            else f"file://{video}"
+        )
+        return {"type": "video_url", "video_url": {"url": video_url}}
+
+    raise ValueError(
+        f"Invalid video input {video}. Must be a string of local path/remote url, or a dictionary with raw video bytes in the form of `{{'bytes': raw_video_bytes}}`."  # noqa: E501
+    )
+
+
+def gen_prompt_decode_to_target_len(
+    tokenizer: PreTrainedTokenizerBase,
+    token_sequence: list[int],
+    target_token_len: int,
+    max_retry: int = 10,
+    add_special_tokens: bool = False,
+    rng: np.random.Generator | None = None,
+) -> tuple[str, list[int]]:
+    """
+    Ensure decoded-then-encoded prompt length matches the target token length.
+
+    This function decodes an initial token sequence to text and re-encodes it
+    , iteratively adjusting the token sequence length to match a target.
+    This is necessary because some tokenizers do not guarantee a 1:1 mapping
+    between consecutive tokens and the decoded-then-encoded sequence length.
+    For example, for GPT2Tokenizer:
+    [6880, 6881] -> ['Ġcalls', 'here'] ->
+    [1650, 939, 486] -> ['Ġcall', 'sh', 'ere']
+
+    Returns a tuple of the final prompt string and the adjusted token sequence.
+    """
+    remain_num_try = max_retry
+    token_mismatch = 0
+    while True:
+        prompt = tokenizer.decode(token_sequence)
+        token_sequence = tokenizer.encode(prompt, add_special_tokens=add_special_tokens)
+        if remain_num_try <= 0:
+            if len(token_sequence) != target_token_len:
+                token_mismatch = len(token_sequence) - target_token_len
+            break
+
+        if len(token_sequence) == target_token_len:
+            break
+        elif len(token_sequence) < target_token_len:
+            if rng is not None:
+                extra_tokens = rng.integers(
+                    0,
+                    tokenizer.vocab_size,
+                    size=target_token_len - len(token_sequence),
+                ).tolist()
+            else:
+                extra_tokens = np.random.randint(
+                    0,
+                    tokenizer.vocab_size,
+                    size=target_token_len - len(token_sequence),
+                ).tolist()
+            token_sequence.extend(extra_tokens)
+        elif len(token_sequence) > target_token_len:
+            token_sequence = token_sequence[:target_token_len]
+
+        remain_num_try -= 1
+
+    return prompt, token_sequence, token_mismatch
+
+
+# -----------------------------------------------------------------------------
+# Random Dataset Implementation (Synthetic Data)
+# -----------------------------------------------------------------------------
+
+
+class RandomDataset(BenchmarkDataset):
+    """
+    Synthetic text-only dataset for serving/throughput benchmarks.
+
+    Strategy:
+    - Sample input/output token lengths per request from integer-uniform ranges
+      around configured means (controlled by range_ratio).
+    - Prepend a fixed random prefix of length prefix_len.
+    - Generate the remaining tokens as a reproducible sequence:
+      (offset + index + arange(input_len)) % vocab_size.
+    - Decode then re-encode/truncate to ensure prompt token counts match.
+    - Uses numpy.default_rng seeded with random_seed for reproducible sampling.
+    """
+
+    # Default values copied from benchmark_serving.py for the random dataset.
+    DEFAULT_PREFIX_LEN = 0
+    DEFAULT_RANGE_RATIO = 0.0
+    DEFAULT_INPUT_LEN = 1024
+    DEFAULT_OUTPUT_LEN = 128
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+        # Use numpy's default_rng for deterministic sampling
+        # Do not use random.seed() or np.random.seed() elsewhere in this class.
+        # This ensures that the RNG is isolated from global RNG state.
+        self._rng = np.random.default_rng(self.random_seed)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        prefix_len: int = DEFAULT_PREFIX_LEN,
+        range_ratio: float = DEFAULT_RANGE_RATIO,
+        input_len: int = DEFAULT_INPUT_LEN,
+        output_len: int = DEFAULT_OUTPUT_LEN,
+        batchsize: int = 1,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        # validate total input tokens (prefix + sampled) is at least 1.
+        num_special = int(tokenizer.num_special_tokens_to_add())
+        real_input_len = max(0, int(input_len) - num_special)
+        min_sampled_input = math.floor(real_input_len * (1.0 - float(range_ratio)))
+        min_total_input = int(prefix_len) + min_sampled_input
+        if min_total_input < 1:
+            raise ValueError(
+                "--random-input-len is too small: with tokenizer special "
+                f"tokens {num_special} and --random-range-ratio {range_ratio}, "
+                "the minimum possible total input tokens (prefix + sampled) is "
+                f"{min_total_input}. Increase --random-input-len and/or "
+                "--random-prefix-len, or decrease --random-range-ratio so that "
+                "prefix_len + floor(max(0, random_input_len - num_special)) "
+                "* (1 - range_ratio) >= 1."
+            )
+
+        input_lens, output_lens, offsets = self.get_sampling_params(
+            num_requests, range_ratio, input_len, output_len, tokenizer
+        )
+
+        vocab_size = tokenizer.vocab_size
+        prohibited_tokens = tokenizer.all_special_ids
+        all_tokens = np.arange(vocab_size)
+        allowed_tokens = np.array(list(set(all_tokens) - set(prohibited_tokens)))
+
+        # Generate prefix once
+        prefix_token_ids = self.get_prefix(allowed_tokens, prefix_len)
+
+        requests = []
+        token_mismatch_total = 0
+        for i in range(num_requests):
+            prompt, total_input_len, token_mismatch = self.generate_token_sequence(  # noqa: E501
+                tokenizer=tokenizer,
+                prefix_token_ids=prefix_token_ids,
+                prefix_len=prefix_len,
+                vocab_size=vocab_size,
+                input_len=int(input_lens[i]),
+                offset=int(offsets[i]),
+                index=i,
+                allowed_tokens=allowed_tokens,
+            )
+            token_mismatch_total += token_mismatch
+            requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=total_input_len,
+                    expected_output_len=int(output_lens[i]),
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        # only used for embeddings benchmark.
+        if batchsize > 1:
+            batch_requests = []
+            # Create batched requests
+            for i in range(0, num_requests, batchsize):
+                batch = requests[i : i + batchsize]
+                batch_requests.append(
+                    SampleRequest(
+                        prompt=[req.prompt for req in batch],
+                        prompt_len=sum(req.prompt_len for req in batch),
+                        expected_output_len=0,
+                        request_id=request_id_prefix + str(i // batchsize),
+                    )
+                )
+            requests = batch_requests
+
+        if token_mismatch_total != 0:
+            sign = "more" if token_mismatch_total > 0 else "fewer"
+            logger.warning(
+                "Across all generated prompts, there were %d %s tokens "
+                "than expected after decoding and re-encoding. This is "
+                "expected due to the imperfect nature of the sampling "
+                "procedure.",
+                abs(token_mismatch_total),
+                sign,
+            )
+
+        return requests
+
+    def get_prefix(
+        self,
+        allowed_tokens: np.ndarray,
+        prefix_len: int,
+    ) -> list[int]:
+        """
+        Get the prefix for the dataset.
+        """
+        return (
+            allowed_tokens[
+                self._rng.integers(0, len(allowed_tokens), size=prefix_len)
+            ].tolist()
+            if prefix_len > 0
+            else []
+        )
+
+    def get_sampling_params(
+        self,
+        num_requests: int,
+        range_ratio: float,
+        input_len: int,
+        output_len: int,
+        tokenizer: PreTrainedTokenizerBase,
+    ) -> tuple[np.ndarray, np.ndarray, np.ndarray]:
+        """
+        Get the sampling parameters for the dataset.
+        """
+        # Enforce range_ratio < 1
+        if not (0.0 <= range_ratio < 1.0):
+            raise ValueError("range_ratio must be in [0, 1).")
+        num_special_tokens = int(tokenizer.num_special_tokens_to_add())
+        real_input_len = max(0, int(input_len) - num_special_tokens)
+        # Bounds use floor for low and ceil for high
+        input_low = math.floor(real_input_len * (1 - range_ratio))
+        input_high = math.ceil(real_input_len * (1 + range_ratio))
+        output_low = math.floor(output_len * (1 - range_ratio))
+        output_high = math.ceil(output_len * (1 + range_ratio))
+        # Ensure the lower bound for output length is at least 1 to
+        # prevent sampling 0 tokens.
+        output_low = max(output_low, 1)
+        output_high = max(output_high, 1)
+
+        if input_low > input_high:
+            raise ValueError(
+                f"Invalid input sampling interval: low={input_low} > high={input_high}"
+            )
+        if output_low > output_high:
+            raise ValueError(
+                "Invalid output sampling interval: "
+                f"low={output_low} > high={output_high}"
+            )
+
+        logger.info(
+            "Sampling input_len from [%s, %s] and output_len from [%s, %s]",
+            input_low,
+            input_high,
+            output_low,
+            output_high,
+        )
+
+        input_lens = self._rng.integers(input_low, input_high + 1, size=num_requests)
+        output_lens = self._rng.integers(output_low, output_high + 1, size=num_requests)
+        offsets = self._rng.integers(0, tokenizer.vocab_size, size=num_requests)
+        return input_lens, output_lens, offsets
+
+    def generate_token_sequence(
+        self,
+        *,
+        tokenizer: PreTrainedTokenizerBase,
+        prefix_token_ids: list[int],
+        prefix_len: int,
+        vocab_size: int,
+        input_len: int,
+        offset: int,
+        index: int,
+        allowed_tokens: np.ndarray,
+    ) -> tuple[str, int, int]:
+        """
+        Returns (prompt, total_input_len).
+
+        NOTE: After decoding the prompt we have to encode and decode it again.
+        This is done because in some cases N consecutive tokens
+        give a string tokenized into != N number of tokens.
+        For example for GPT2Tokenizer:
+        [6880, 6881] -> ['Ġcalls', 'here'] ->
+        [1650, 939, 486] -> ['Ġcall', 'sh', 'ere']
+        To avoid uncontrolled change of the prompt length,
+        the encoded sequence is truncated before being decoded again.
+        """
+        # Build the inner sequence by sampling
+        # sequentially from the allowed tokens
+        inner_seq = allowed_tokens[
+            (offset + index + np.arange(input_len)) % len(allowed_tokens)
+        ].tolist()
+        token_sequence = prefix_token_ids + inner_seq
+
+        # Decode, then re-encode and truncate to preserve token count invariants
+        total_input_len = prefix_len + int(input_len)
+        prompt, adjusted_token_sequence, token_mismatch = (
+            gen_prompt_decode_to_target_len(
+                tokenizer=tokenizer,
+                token_sequence=token_sequence,
+                target_token_len=total_input_len,
+                add_special_tokens=False,
+                rng=self._rng,
+            )
+        )
+        total_input_len = len(adjusted_token_sequence)
+        return prompt, total_input_len, token_mismatch
+
+
+# -----------------------------------------------------------------------------
+# Random Dataset Implementation (Synthetic Data)
+# -----------------------------------------------------------------------------
+
+
+class RandomDatasetForReranking(RandomDataset):
+    """
+    Random dataset specialized for the needs of scoring:
+    - Batches of inputs
+    - Inputs composed of pairs
+    """
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        request_id_prefix: str = "",
+        range_ratio: float = RandomDataset.DEFAULT_RANGE_RATIO,
+        input_len: int = RandomDataset.DEFAULT_INPUT_LEN,
+        batchsize: int = 1,
+        is_reranker: bool = True,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        n_sep_tokens = int(is_reranker)
+
+        query_len_param = (input_len // 2) - n_sep_tokens if is_reranker else input_len
+
+        query_lens, _, query_offsets = self.get_sampling_params(
+            1, range_ratio, query_len_param, 0, tokenizer
+        )
+
+        query_len = int(query_lens[0])
+
+        if not is_reranker:
+            assert num_requests > 1 and batchsize > 1
+            num_requests -= 1
+            batchsize -= 1
+            doc_len_param = input_len
+        else:
+            doc_len_param = input_len - query_len - n_sep_tokens
+
+        doc_lens, _, doc_offsets = self.get_sampling_params(
+            num_requests, range_ratio, doc_len_param, 0, tokenizer
+        )
+        vocab_size = tokenizer.vocab_size
+
+        query_prompt, query_input_len, token_mismatch_total = (
+            self.generate_token_sequence(
+                tokenizer=tokenizer,
+                prefix_token_ids=[],
+                prefix_len=0,
+                vocab_size=vocab_size,
+                input_len=query_len,
+                offset=int(query_offsets[0]),
+                index=0,
+            )
+        )
+
+        requests = []
+        for i in range(num_requests):
+            prompt, total_input_len, token_mismatch = self.generate_token_sequence(  # noqa: E501
+                tokenizer=tokenizer,
+                prefix_token_ids=[],
+                prefix_len=0,
+                vocab_size=vocab_size,
+                input_len=int(doc_lens[i]),
+                offset=int(doc_offsets[i]),
+                index=i + 1,
+            )
+            token_mismatch_total += token_mismatch
+            requests.append((prompt, total_input_len))
+
+        batch_requests = []
+        # Create batched requests
+        for i in range(0, num_requests, batchsize):
+            batch = requests[i : i + batchsize]
+            query_contrib = (
+                (query_input_len + n_sep_tokens) * len(batch)
+                if is_reranker
+                else query_input_len
+            )
+            batch_requests.append(
+                SampleRequest(
+                    prompt=[query_prompt] + [req[0] for req in batch],
+                    prompt_len=query_contrib + sum(req[1] for req in batch),
+                    expected_output_len=0,
+                    request_id=request_id_prefix + str(i // batchsize),
+                )
+            )
+
+        if token_mismatch_total != 0:
+            logger.warning(
+                "Across all generated prompts, there were %d %s tokens "
+                "than expected after decoding and re-encoding. This is "
+                "expected due to the imperfect nature of the sampling "
+                "procedure.",
+                abs(token_mismatch_total),
+                "more" if token_mismatch_total > 0 else "fewer",
+            )
+
+        return batch_requests
+
+
+# -----------------------------------------------------------------------------
+# MultiModalDataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class RandomMultiModalDataset(RandomDataset):
+    """
+    Synthetic multimodal dataset (text + images) that extends RandomDataset.
+
+    Status:
+    - Images: supported via synthetic RGB data.
+    - Video: supported via synthetic RGB data.
+    - Audio: not yet supported.
+
+    Sampling overview:
+    1) Number of items per request is sampled uniformly from the integer range
+       [floor(n·(1−r)), ceil(n·(1+r))], where n is the base count and r is
+       `num_mm_items_range_ratio` in [0, 1]. r=0 keeps it fixed; r=1 allows 0.
+       The maximum is further clamped to the sum of per-modality limits.
+    2) Each item’s modality and shape is sampled from `bucket_config`, a dict
+       mapping (height, width, num_frames) → probability. We treat
+       `num_frames`=1 as image and `num_frames` > 1 as video.
+       Entries with zero probability are removed and the rest are renormalized
+       to sum to 1.
+    3) Per-modality hard caps are enforced via `limit_mm_per_prompt`.
+       When a modality reaches its cap, all of its buckets are excluded and the
+       remaining probabilities are renormalized.
+
+    Example bucket configuration:
+    {(256, 256, 1): 0.5, (720, 1280, 1): 0.4, (720, 1280, 16): 0.1}
+      - Two image buckets (`num_frames`=1) and one video bucket
+      (`num_frames`=16).
+    OBS.: Only image sampling is supported for now.
+    """
+
+    IS_MULTIMODAL = True
+    DEFAULT_LIMIT_MM_PER_PROMPT = {"image": 255, "video": 1}
+
+    DEFAULT_BASE_ITEMS_PER_REQUEST = 1
+    DEFAULT_NUM_MM_ITEMS_RANGE_RATIO = 0.0
+    DEFAULT_MM_ITEM_BUCKET_CONFIG = {
+        (256, 256, 1): 0.5,
+        (720, 1280, 1): 0.5,
+        (720, 1280, 16): 0.0,
+    }
+    DEFAULT_ENABLE_MULTIMODAL_CHAT = False
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+
+    def generate_synthetic_image(self, width: int, height: int) -> Image.Image:
+        """Generate synthetic PIL image with random RGB values.
+
+        NOTE: iid pixel sampling results in worst-case compression
+        (good for stressing I/O), but very unlike real photos.
+        We could consider a “low-freq” mode (e.g., noise blur)
+        to emulate network realism instead of max stress.
+        """
+        random_pixels = self._rng.integers(
+            0,
+            256,
+            (height, width, 3),
+            dtype=np.uint8,
+        )
+        return Image.fromarray(random_pixels)
+
+    def generate_synthetic_video(
+        self, width: int, height: int, num_frames: int
+    ) -> dict:
+        """Generate synthetic video with random values.
+
+        Creates a video with random pixel values, encodes it to MP4 format,
+        and returns the content as bytes.
+        """
+        import cv2
+
+        random_pixels = self._rng.integers(
+            0,
+            256,
+            (num_frames, height, width, 3),
+            dtype=np.uint8,
+        )
+
+        # Create a temporary video file in memory
+        fourcc = cv2.VideoWriter_fourcc(*"mp4v")
+        fps = 30  # frames per second
+
+        with NamedTemporaryFile(suffix=".mp4", delete_on_close=False) as temp_file:
+            temp_path = temp_file.name
+
+            # Create video writer
+            video_writer = cv2.VideoWriter(
+                temp_path, fourcc=fourcc, fps=fps, frameSize=(width, height)
+            )
+
+            if not video_writer.isOpened():
+                raise RuntimeError("Failed to create video writer")
+
+            for frame in random_pixels:
+                video_writer.write(frame)
+
+            video_writer.release()
+            temp_file.close()
+
+            # Read the video file content
+            with open(temp_path, "rb") as f:
+                video_content = f.read()
+
+            return {"bytes": video_content}
+
+    def map_config_to_modality(self, config: tuple[int, int, int]) -> str:
+        """Map the configuration to the modality."""
+        if config[-1] == 1:
+            return "image"
+        elif config[-1] > 1:
+            return "video"
+        else:
+            raise ValueError(f"Invalid multimodal item configuration: {config}")
+
+    def normalize_bucket_config(
+        self, bucket_config: dict[tuple[int, int, int], float]
+    ) -> dict[tuple[int, int, int], float]:
+        """
+        Remove zero probability entries
+        and normalize the bucket config to sum to 1.
+        """
+        # Raise error if value is negative
+        if any(v < 0 for v in bucket_config.values()):
+            raise ValueError("Bucket config values must be non-negative.")
+        # Remove zero probability entries
+        bucket_config = {k: v for k, v in bucket_config.items() if v > 0}
+        # if bucket config is empty, raise error
+        if not bucket_config:
+            raise ValueError(
+                "Got invalid bucket config. Bucket config values must be non-zero."
+            )
+        # Normalize the remaining bucket config to sum to 1
+        total = sum(bucket_config.values())
+        return {k: v / total for k, v in bucket_config.items()}
+
+    def generate_mm_item(
+        self,
+        mm_item_config: tuple[int, int, int],
+    ) -> Mapping[str, Any]:
+        """
+        Create synthetic images and videos and
+        apply process_image/process_video respectively.
+        This follows the OpenAI API chat completions
+        https://github.com/openai/openai-python
+        """
+
+        if self.map_config_to_modality(mm_item_config) == "image":
+            return process_image(
+                self.generate_synthetic_image(mm_item_config[1], mm_item_config[0])
+            )
+        elif self.map_config_to_modality(mm_item_config) == "video":
+            return process_video(
+                self.generate_synthetic_video(
+                    mm_item_config[1], mm_item_config[0], mm_item_config[2]
+                )
+            )
+        else:
+            raise ValueError(f"Invalid multimodal item configuration: {mm_item_config}")
+
+    def get_mm_item_sampling_params(
+        self,
+        base_items_per_request: int,
+        num_mm_items_range_ratio: float,
+        limit_mm_per_prompt: dict[str, int],
+        bucket_config: dict[tuple[int, int, int], float],
+    ) -> tuple[int, int, dict[str, int], dict[tuple[int, int, int], float]]:
+        """
+        Get the sampling parameters for the multimodal items.
+        """
+        # Enforce num_mm_items_range_ratio <= 1
+        if not (0.0 <= num_mm_items_range_ratio <= 1.0):
+            raise ValueError("num_mm_items_range_ratio must be in [0, 1].")
+
+        # Ensure modalities to sample are in limit_mm_per_prompt
+        for k, v in bucket_config.items():
+            # get modality from bucket config
+            modality = self.map_config_to_modality(k)
+            if modality not in limit_mm_per_prompt:
+                raise ValueError(
+                    f"Modality {modality} is not in "
+                    f"limit_mm_per_prompt: "
+                    f"{limit_mm_per_prompt.keys()}"
+                )
+
+        # Remove zero probability entries
+        # and normalize bucket config to sum to 1
+        bucket_config = self.normalize_bucket_config(bucket_config)
+        logger.info(
+            "Normalized bucket config: %s",
+            bucket_config,
+        )
+        # Only consider limit per prompt for modalities in bucket config
+        allowed_modalities = {self.map_config_to_modality(cfg) for cfg in bucket_config}
+        limit_mm_per_prompt = {
+            k: v for k, v in limit_mm_per_prompt.items() if k in allowed_modalities
+        }
+        if not limit_mm_per_prompt:
+            raise ValueError("No valid limits for modalities present in bucket_config.")
+
+        logger.info(
+            "Updated mm-limit-per-prompt: %s",
+            limit_mm_per_prompt,
+        )
+
+        # Get max and min num mm items and ensure
+        # it is at most the sum of limit_mm_per_prompt for all modalities
+        max_num_mm_items = min(
+            sum(limit_mm_per_prompt.values()),
+            math.ceil(base_items_per_request * (1 + num_mm_items_range_ratio)),
+        )
+        # Ensure min num mm items is at least 0
+        min_num_mm_items = max(
+            0, math.floor(base_items_per_request * (1 - num_mm_items_range_ratio))
+        )
+        # Raise error if min num mm items is greater than max num mm items
+        if min_num_mm_items > max_num_mm_items:
+            raise ValueError(
+                f"Min num mm items is greater than max mm items: "
+                f"{min_num_mm_items} > {max_num_mm_items}"
+            )
+
+        logger.info(
+            "Sampling number of multimodal items from [%s, %s]",
+            min_num_mm_items,
+            max_num_mm_items,
+        )
+
+        return (
+            min_num_mm_items,
+            max_num_mm_items,
+            limit_mm_per_prompt,
+            bucket_config,
+        )
+
+    def get_mm_item_iterator(
+        self,
+        min_num_mm_items: int,
+        max_num_mm_items: int,
+        bucket_config: dict[tuple[int, int, int], float],
+        limit_mm_per_prompt: dict[str, int],
+    ) -> Iterator[tuple[int, int, int]]:
+        """
+        Iterator over the multimodal items for each request
+        whose size is between min_num_mm_items and max_num_mm_items.
+
+        Loop over the bucket config and sample a multimodal item.
+        Loop until the number of multimodal items sampled is equal to
+        request_num_mm_items or limit of multimodal items per prompt
+        for all modalities is reached.
+
+        Note:
+        - This function operates on a per-request shallow copy of
+          `bucket_config` (tuple->float). The original dict passed to
+          `sample` is not mutated. If this ever changes, a test
+          is implemented and will fail.
+        """
+        # Get the number of multimodal items to sample
+        request_num_mm_items = int(
+            self._rng.integers(min_num_mm_items, max_num_mm_items + 1)
+        )
+        # If request_num_mm_items is 0, yield an empty iterator
+        if request_num_mm_items == 0:
+            return
+        # Initialize modality counters
+        modality_counter = {self.map_config_to_modality(k): 0 for k in bucket_config}
+        # Copy the bucket config to avoid modifying the original
+        bucket_config_copy = bucket_config.copy()
+        # Loop over the number of multimodal items to sample
+        while sum(modality_counter.values()) < request_num_mm_items:
+            # Sample a multimodal item config
+            mm_item_config = self._rng.choice(
+                list(bucket_config_copy.keys()), p=list(bucket_config_copy.values())
+            )
+            modality = self.map_config_to_modality(mm_item_config)
+            # Check that modality count is less than limit per prompt
+            if modality_counter[modality] < limit_mm_per_prompt[modality]:
+                modality_counter[modality] += 1
+                yield (mm_item_config)
+            else:
+                # If the counter is greater than the limit per prompt
+                # set all multimodal items of this modality to 0
+                for k, v in bucket_config_copy.items():
+                    if self.map_config_to_modality(k) == modality:
+                        bucket_config_copy[k] = 0
+                # If all configs are 0, break the loop
+                # This should not happen as request_num_mm_items is at most
+                # the sum of limit_mm_per_prompt for all modalities
+                if all(v == 0 for v in bucket_config_copy.values()):
+                    logger.warning(
+                        "Exhausted all multimodal items of modality %s", modality
+                    )
+                    break
+                # Renormalize the bucket config
+                bucket_config_copy = self.normalize_bucket_config(bucket_config_copy)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        prefix_len: int = RandomDataset.DEFAULT_PREFIX_LEN,
+        range_ratio: float = RandomDataset.DEFAULT_RANGE_RATIO,
+        input_len: int = RandomDataset.DEFAULT_INPUT_LEN,
+        output_len: int = RandomDataset.DEFAULT_OUTPUT_LEN,
+        limit_mm_per_prompt: dict[str, int] = DEFAULT_LIMIT_MM_PER_PROMPT,
+        base_items_per_request: int = DEFAULT_BASE_ITEMS_PER_REQUEST,
+        num_mm_items_range_ratio: float = DEFAULT_NUM_MM_ITEMS_RANGE_RATIO,
+        bucket_config: dict[
+            tuple[int, int, int], float
+        ] = DEFAULT_MM_ITEM_BUCKET_CONFIG,
+        enable_multimodal_chat: bool = DEFAULT_ENABLE_MULTIMODAL_CHAT,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        # Get the sampling parameters for the dataset
+        input_lens, output_lens, offsets = self.get_sampling_params(
+            num_requests, range_ratio, input_len, output_len, tokenizer
+        )
+
+        (
+            min_num_mm_items,
+            max_num_mm_items,
+            limit_mm_per_prompt,
+            bucket_config,
+        ) = self.get_mm_item_sampling_params(
+            base_items_per_request,
+            num_mm_items_range_ratio,
+            limit_mm_per_prompt,
+            bucket_config,
+        )
+
+        vocab_size = tokenizer.vocab_size
+        # Can't use tokenizer.all_special_ids since
+        # it returns ONLY ids from special_tokens_map.json
+        # We want to exclude placeholder tokens and all
+        # tokens that indicate start/end of image as it
+        # may break prompt replacement logic.
+        prohibited_tokens = list(
+            tok_id
+            for tok_id, token in tokenizer.added_tokens_decoder.items()
+            if token.special
+        )
+        all_tokens = np.arange(vocab_size)
+        allowed_tokens = np.array(list(set(all_tokens) - set(prohibited_tokens)))
+        logger.debug(
+            "Sampling from %d out of %d (vocab size)", len(allowed_tokens), vocab_size
+        )
+        # Generate prefix once
+        prefix_token_ids = self.get_prefix(allowed_tokens, prefix_len)
+        # Add synthetic multimodal items to each request
+        mm_requests = []
+        token_mismatch_total = 0
+        for i in range(num_requests):
+            prompt, total_input_len, token_mismatch = self.generate_token_sequence(  # noqa: E501
+                tokenizer=tokenizer,
+                prefix_token_ids=prefix_token_ids,
+                prefix_len=prefix_len,
+                vocab_size=vocab_size,
+                input_len=int(input_lens[i]),
+                offset=int(offsets[i]),
+                index=i,
+                allowed_tokens=allowed_tokens,
+            )
+            token_mismatch_total += token_mismatch
+            # Get multimodal item iterator for a given request
+            mm_item_iterator = self.get_mm_item_iterator(
+                min_num_mm_items,
+                max_num_mm_items,
+                bucket_config,
+                limit_mm_per_prompt,
+            )
+
+            mm_content = cast(
+                list[dict[str, Any]],
+                [
+                    self.generate_mm_item(mm_item_config)
+                    for mm_item_config in mm_item_iterator
+                ],
+            )
+
+            if enable_multimodal_chat:
+                # NOTE: For now this option is only provided for completeness
+                # given that the serve.py benchmark currently does not use it.
+                mm_chat_prompt: Any = prompt
+                mm_chat_prompt = self.apply_multimodal_chat_transformation(
+                    prompt, mm_content
+                )
+                sample_request = SampleRequest(
+                    prompt=mm_chat_prompt,
+                    prompt_len=total_input_len,
+                    expected_output_len=int(output_lens[i]),
+                    multi_modal_data=None,
+                    request_id=request_id_prefix + str(i),
+                )
+            else:
+                sample_request = SampleRequest(
+                    prompt=prompt,
+                    prompt_len=total_input_len,
+                    expected_output_len=int(output_lens[i]),
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(i),
+                )
+            mm_requests.append(sample_request)
+
+        if token_mismatch_total != 0:
+            sign = "more" if token_mismatch_total > 0 else "fewer"
+            logger.warning(
+                "Across all generated prompts, there were %d %s tokens "
+                "than expected after decoding and re-encoding. This is "
+                "expected due to the imperfect nature of the sampling "
+                "procedure.",
+                abs(token_mismatch_total),
+                sign,
+            )
+
+        return mm_requests
+
+
+# -----------------------------------------------------------------------------
+# ShareGPT Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class ShareGPTDataset(BenchmarkDataset):
+    """
+    Implements the ShareGPT dataset.  Loads data from a JSON file and generates
+    sample requests based on conversation turns.
+    """
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+        self.load_data()
+
+    def load_data(self) -> None:
+        if self.dataset_path is None:
+            raise ValueError("dataset_path must be provided for loading data.")
+
+        with open(self.dataset_path, encoding="utf-8") as f:
+            self.data = json.load(f)
+        # Filter entries with at least two conversation turns.
+        self.data = [
+            entry
+            for entry in self.data
+            if "conversations" in entry and len(entry["conversations"]) >= 2
+        ]
+        random.seed(self.random_seed)
+        if not getattr(self, "disable_shuffle", False):
+            random.shuffle(self.data)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        lora_path: str | None = None,
+        max_loras: int | None = None,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        samples: list = []
+        ind = 0
+        for entry in self.data:
+            if len(samples) >= num_requests:
+                break
+            prompt, completion = (
+                entry["conversations"][0]["value"],
+                entry["conversations"][1]["value"],
+            )
+
+            lora_request = self.get_random_lora_request(
+                max_loras=max_loras, lora_path=lora_path
+            )
+            prompt_ids = tokenizer(prompt).input_ids
+            completion_ids = tokenizer(completion).input_ids
+            prompt_len = len(prompt_ids)
+            new_output_len = len(completion_ids) if output_len is None else output_len
+            if not is_valid_sequence(
+                prompt_len,
+                new_output_len,
+                skip_min_output_len_check=output_len is not None,
+            ):
+                continue
+            if image_path := entry.get("image"):
+                mm_content = process_image(image_path)
+            elif video_path := entry.get("video"):
+                mm_content = process_video(video_path)
+            else:
+                mm_content = None
+            if enable_multimodal_chat:
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            samples.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=new_output_len,
+                    lora_request=lora_request,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        self.maybe_oversample_requests(
+            samples, num_requests, request_id_prefix, no_oversample
+        )
+        return samples
+
+
+class _ValidateDatasetArgs(argparse.Action):
+    """Argparse action to validate dataset name and path compatibility."""
+
+    def __call__(self, parser, namespace, values, option_string=None):
+        setattr(namespace, self.dest, values)
+
+        # Get current values of both dataset_name and dataset_path
+        dataset_name = getattr(namespace, "dataset_name", "random")
+        dataset_path = getattr(namespace, "dataset_path", None)
+
+        # Validate the combination
+        if dataset_name == "random" and dataset_path is not None:
+            parser.error(
+                "Cannot use 'random' dataset with --dataset-path. "
+                "Please specify the appropriate --dataset-name (e.g., "
+                "'sharegpt', 'custom', 'sonnet') for your dataset file: "
+                f"{dataset_path}"
+            )
+
+
+def add_dataset_parser(parser: FlexibleArgumentParser):
+    parser.add_argument("--seed", type=int, default=0)
+    parser.add_argument(
+        "--num-prompts",
+        type=int,
+        default=1000,
+        help="Number of prompts to process.",
+    )
+    parser.add_argument(
+        "--dataset-name",
+        type=str,
+        default="random",
+        action=_ValidateDatasetArgs,
+        choices=[
+            "sharegpt",
+            "burstgpt",
+            "sonnet",
+            "random",
+            "random-mm",
+            "random-rerank",
+            "hf",
+            "custom",
+            "prefix_repetition",
+            "spec_bench",
+        ],
+        help="Name of the dataset to benchmark on.",
+    )
+    parser.add_argument(
+        "--no-stream",
+        action="store_true",
+        help="Do not load the dataset in streaming mode.",
+    )
+    parser.add_argument(
+        "--dataset-path",
+        type=str,
+        default=None,
+        action=_ValidateDatasetArgs,
+        help="Path to the sharegpt/sonnet dataset. "
+        "Or the huggingface dataset ID if using HF dataset.",
+    )
+    parser.add_argument(
+        "--no-oversample",
+        action="store_true",
+        help="Do not oversample if the dataset has fewer samples than num-prompts.",
+    )
+    parser.add_argument(
+        "--skip-chat-template",
+        action="store_true",
+        help="Skip applying chat template to prompt for datasets that support it.",
+    )
+    parser.add_argument(
+        "--disable-shuffle",
+        action="store_true",
+        help="Disable shuffling of dataset samples for deterministic ordering.",
+    )
+
+    # group for dataset specific arguments
+    custom_group = parser.add_argument_group("custom dataset options")
+    custom_group.add_argument(
+        "--custom-output-len",
+        type=int,
+        default=256,
+        help="Number of output tokens per request, used only for custom dataset.",
+    )
+
+    spec_bench_group = parser.add_argument_group("spec bench dataset options")
+    spec_bench_group.add_argument(
+        "--spec-bench-output-len",
+        type=int,
+        default=256,
+        help="Num of output tokens per request, used only for spec bench dataset.",
+    )
+    spec_bench_group.add_argument(
+        "--spec-bench-category",
+        type=str,
+        default=None,
+        help="Category for spec bench dataset. If None, use all categories.",
+    )
+
+    sonnet_group = parser.add_argument_group("sonnet dataset options")
+    sonnet_group.add_argument(
+        "--sonnet-input-len",
+        type=int,
+        default=550,
+        help="Number of input tokens per request, used only for sonnet dataset.",
+    )
+    sonnet_group.add_argument(
+        "--sonnet-output-len",
+        type=int,
+        default=150,
+        help="Number of output tokens per request, used only for sonnet dataset.",
+    )
+    sonnet_group.add_argument(
+        "--sonnet-prefix-len",
+        type=int,
+        default=200,
+        help="Number of prefix tokens per request, used only for sonnet dataset.",
+    )
+
+    sharegpt_group = parser.add_argument_group("sharegpt dataset options")
+    sharegpt_group.add_argument(
+        "--sharegpt-output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the output length "
+        "from the ShareGPT dataset.",
+    )
+
+    blazedit_group = parser.add_argument_group("blazedit dataset options")
+    blazedit_group.add_argument(
+        "--blazedit-min-distance",
+        type=float,
+        default=0.0,
+        help="Minimum distance for blazedit dataset. Min: 0, Max: 1.0",
+    )
+    blazedit_group.add_argument(
+        "--blazedit-max-distance",
+        type=float,
+        default=1.0,
+        help="Maximum distance for blazedit dataset. Min: 0, Max: 1.0",
+    )
+
+    random_group = parser.add_argument_group("random dataset options")
+    random_group.add_argument(
+        "--random-input-len",
+        type=int,
+        default=1024,
+        help="Number of input tokens per request, used only for random sampling.",
+    )
+    random_group.add_argument(
+        "--random-output-len",
+        type=int,
+        default=128,
+        help="Number of output tokens per request, used only for random sampling.",
+    )
+    random_group.add_argument(
+        "--random-range-ratio",
+        type=float,
+        default=0.0,
+        help="Range ratio for sampling input/output length, "
+        "used only for random sampling. Must be in the range [0, 1) to define "
+        "a symmetric sampling range"
+        "[length * (1 - range_ratio), length * (1 + range_ratio)].",
+    )
+    random_group.add_argument(
+        "--random-prefix-len",
+        type=int,
+        default=0,
+        help=(
+            "Number of fixed prefix tokens before the random context "
+            "in a request. "
+            "The total input length is the sum of `random-prefix-len` and "
+            "a random "
+            "context length sampled from [input_len * (1 - range_ratio), "
+            "input_len * (1 + range_ratio)]."
+        ),
+    )
+    random_group.add_argument(
+        "--random-batch-size",
+        type=int,
+        default=1,
+        help=("Batch size for random sampling. Only used for embeddings benchmark."),
+    )
+    random_group.add_argument(
+        "--no-reranker",
+        action="store_true",
+        help=(
+            "Whether the model supports reranking natively."
+            " Only used for reranker benchmark."
+        ),
+    )
+
+    # random multimodal dataset options
+    random_mm_group = parser.add_argument_group(
+        "random multimodal dataset options extended from random dataset"
+    )
+    random_mm_group.add_argument(
+        "--random-mm-base-items-per-request",
+        type=int,
+        default=RandomMultiModalDataset.DEFAULT_BASE_ITEMS_PER_REQUEST,
+        help=(
+            "Base number of multimodal items per request for random-mm. "
+            "Actual per-request count is sampled around this base using "
+            "--random-mm-num-mm-items-range-ratio."
+        ),
+    )
+    random_mm_group.add_argument(
+        "--random-mm-num-mm-items-range-ratio",
+        type=float,
+        default=RandomMultiModalDataset.DEFAULT_NUM_MM_ITEMS_RANGE_RATIO,
+        help=(
+            "Range ratio r in [0, 1] for sampling items per request. "
+            "We sample uniformly from the closed integer range "
+            "[floor(n*(1-r)), ceil(n*(1+r))] "
+            "where n is the base items per request. "
+            "r=0 keeps it fixed; r=1 allows 0 items. The maximum is clamped "
+            "to the sum of per-modality limits from "
+            "--random-mm-limit-mm-per-prompt. "
+            "An error is raised if the computed min exceeds the max."
+        ),
+    )
+    random_mm_group.add_argument(
+        "--random-mm-limit-mm-per-prompt",
+        type=json.loads,
+        default=RandomMultiModalDataset.DEFAULT_LIMIT_MM_PER_PROMPT,
+        help=(
+            "Per-modality hard caps for items attached per request, e.g. "
+            '\'{"image": 3, "video": 0}\'. The sampled per-request item '
+            "count is clamped to the sum of these limits. When a modality "
+            "reaches its cap, its buckets are excluded and probabilities are "
+            "renormalized."
+            "OBS.: Only image sampling is supported for now."
+        ),
+    )
+
+    def _parse_mm_bucket_config(v: object) -> dict[tuple[int, int, int], float]:
+        # If already a dict (e.g., programmatic call), normalize keys
+        def normalize(d: dict) -> dict[tuple[int, int, int], float]:
+            out: dict[tuple[int, int, int], float] = {}
+            for k, val in d.items():
+                key = k
+                if isinstance(key, str):
+                    with suppress(Exception):
+                        key = ast.literal_eval(key)
+                if not (
+                    isinstance(key, tuple)
+                    and len(key) == 3
+                    and all(isinstance(x, int) for x in key)
+                ):
+                    raise ValueError(
+                        f"Invalid bucket key {k!r}. Expected tuple (H, W, T)."
+                    )
+                out[(int(key[0]), int(key[1]), int(key[2]))] = float(val)
+            return out
+
+        if isinstance(v, dict):
+            return normalize(v)
+        if isinstance(v, str):
+            # Python literal (supports tuple keys)
+            parsed = ast.literal_eval(v)
+            if not isinstance(parsed, dict):
+                raise ValueError("Bucket config must parse to a dict.")
+            return normalize(parsed)
+        raise ValueError("Unsupported value for --random-mm-bucket-config.")
+
+    random_mm_group.add_argument(
+        "--random-mm-bucket-config",
+        type=_parse_mm_bucket_config,
+        default=RandomMultiModalDataset.DEFAULT_MM_ITEM_BUCKET_CONFIG,
+        help=(
+            "The bucket config is a dictionary mapping a multimodal item"
+            "sampling configuration to a probability."
+            "Currently allows for 2 modalities: images and videos. "
+            "An bucket key is a tuple of (height, width, num_frames)"
+            "The value is the probability of sampling that specific item. "
+            "Example: "
+            "--random-mm-bucket-config "
+            "{(256, 256, 1): 0.5, (720, 1280, 1): 0.4, (720, 1280, 16): 0.10} "
+            "First item: images with resolution 256x256 w.p. 0.5"
+            "Second item: images with resolution 720x1280 w.p. 0.4 "
+            "Third item: videos with resolution 720x1280 and 16 frames w.p. 0.1"
+            "OBS.: If the probabilities do not sum to 1, they are normalized."
+            "OBS bis.: Only image sampling is supported for now."
+        ),
+    )
+
+    hf_group = parser.add_argument_group("hf dataset options")
+    hf_group.add_argument(
+        "--hf-subset", type=str, default=None, help="Subset of the HF dataset."
+    )
+    hf_group.add_argument(
+        "--hf-split", type=str, default=None, help="Split of the HF dataset."
+    )
+    hf_group.add_argument(
+        "--hf-name",
+        type=str,
+        default=None,
+        help=(
+            "Name of the dataset on HuggingFace "
+            "(e.g., 'lmarena-ai/VisionArena-Chat'). "
+            "Specify this if your dataset-path is a local path."
+        ),
+    )
+    hf_group.add_argument(
+        "--hf-output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the output lengths "
+        "from the sampled HF dataset.",
+    )
+
+    prefix_repetition_group = parser.add_argument_group(
+        "prefix repetition dataset options"
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-prefix-len",
+        type=int,
+        default=256,
+        help="Number of prefix tokens per request, used only for prefix "
+        "repetition dataset.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-suffix-len",
+        type=int,
+        default=256,
+        help="Number of suffix tokens per request, used only for prefix "
+        "repetition dataset. Total input length is prefix_len + suffix_len.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-num-prefixes",
+        type=int,
+        default=10,
+        help="Number of prefixes to generate, used only for prefix repetition "
+        "dataset. Prompts per prefix is num_requests // num_prefixes.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-output-len",
+        type=int,
+        default=128,
+        help="Number of output tokens per request, used only for prefix "
+        "repetition dataset.",
+    )
+
+
+def get_samples(args, tokenizer) -> list[SampleRequest]:
+    if not hasattr(args, "request_id_prefix"):
+        args.request_id_prefix = ""
+
+    if args.dataset_name == "custom":
+        dataset = CustomDataset(
+            dataset_path=args.dataset_path, disable_shuffle=args.disable_shuffle
+        )
+        input_requests = dataset.sample(
+            num_requests=args.num_prompts,
+            tokenizer=tokenizer,
+            output_len=args.custom_output_len,
+            skip_chat_template=args.skip_chat_template,
+            request_id_prefix=args.request_id_prefix,
+            no_oversample=args.no_oversample,
+        )
+
+    elif args.dataset_name == "sonnet":
+        dataset = SonnetDataset(
+            dataset_path=args.dataset_path, disable_shuffle=args.disable_shuffle
+        )
+        # For the "sonnet" dataset, formatting depends on the backend.
+        if args.backend == "openai-chat":
+            input_requests = dataset.sample(
+                num_requests=args.num_prompts,
+                input_len=args.sonnet_input_len,
+                output_len=args.sonnet_output_len,
+                prefix_len=args.sonnet_prefix_len,
+                tokenizer=tokenizer,
+                return_prompt_formatted=False,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            )
+        else:
+            assert tokenizer.chat_template or tokenizer.default_chat_template, (
+                "Tokenizer/model must have chat template for sonnet dataset."
+            )
+            input_requests = dataset.sample(
+                num_requests=args.num_prompts,
+                input_len=args.sonnet_input_len,
+                output_len=args.sonnet_output_len,
+                prefix_len=args.sonnet_prefix_len,
+                tokenizer=tokenizer,
+                return_prompt_formatted=True,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            )
+
+    elif args.dataset_name == "hf":
+        # all following datasets are implemented from the
+        # HuggingFaceDataset base class
+        hf_kwargs = {}
+        if (
+            args.dataset_path in VisionArenaDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in VisionArenaDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = VisionArenaDataset
+            args.hf_split = "train"
+            args.hf_subset = None
+        elif (
+            args.dataset_path in MMVUDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MMVUDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MMVUDataset
+            args.hf_split = "validation"
+            args.hf_subset = None
+        elif (
+            args.dataset_path in InstructCoderDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in InstructCoderDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = InstructCoderDataset
+            args.hf_split = "train"
+        elif (
+            args.dataset_path in MTBenchDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MTBenchDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MTBenchDataset
+            args.hf_split = "train"
+        elif (
+            args.dataset_path in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MultiModalConversationDataset
+        elif (
+            args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in ConversationDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = ConversationDataset
+        elif (
+            args.dataset_path in AIMODataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in AIMODataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = AIMODataset
+            args.hf_split = "train"
+        elif (
+            args.dataset_path in NextEditPredictionDataset.SUPPORTED_DATASET_PATHS  # noqa: E501
+            or args.hf_name in NextEditPredictionDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = NextEditPredictionDataset
+            args.hf_split = "train"
+        elif (
+            args.dataset_path in ASRDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in ASRDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = ASRDataset
+            args.hf_split = "train"
+        elif args.dataset_path in BlazeditDataset.SUPPORTED_DATASET_PATHS:
+            dataset_class = BlazeditDataset
+            args.hf_split = "train"
+            hf_kwargs = {
+                "min_distance": args.blazedit_min_distance,
+                "max_distance": args.blazedit_max_distance,
+            }
+        elif (
+            args.dataset_path in MLPerfDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MLPerfDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MLPerfDataset
+            args.hf_split = "train"
+        elif (
+            args.dataset_path in MMStarDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MMStarDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MMStarDataset
+            args.hf_split = "val"
+            args.hf_subset = None
+        else:
+            supported_datasets = set(
+                [
+                    dataset_name
+                    for cls in HuggingFaceDataset.__subclasses__()
+                    for dataset_name in cls.SUPPORTED_DATASET_PATHS
+                ]
+            )
+            raise ValueError(
+                f"Unsupported dataset path: {args.dataset_path}. "
+                "Huggingface dataset only supports dataset_path"
+                f" from one of following: {supported_datasets}. "
+                "Please consider contributing if you would "
+                "like to add support for additional dataset formats."
+            )
+
+        if dataset_class.IS_MULTIMODAL and not (
+            args.backend in ("openai-chat", "openai-audio")
+            or "embeddings-" in args.backend
+        ):
+            # multi-modal benchmark is only available on OpenAI Chat
+            # endpoint-type.
+            raise ValueError(
+                "Multi-modal content is only supported on 'openai-chat' and "
+                "'openai-audio' backends."
+            )
+        input_requests = dataset_class(
+            dataset_path=args.dataset_path,
+            dataset_subset=args.hf_subset,
+            dataset_split=args.hf_split,
+            random_seed=args.seed,
+            no_stream=args.no_stream,
+            hf_name=args.hf_name,
+            disable_shuffle=args.disable_shuffle,
+        ).sample(
+            num_requests=args.num_prompts,
+            tokenizer=tokenizer,
+            output_len=args.hf_output_len,
+            request_id_prefix=args.request_id_prefix,
+            no_oversample=args.no_oversample,
+            skip_chat_template=args.skip_chat_template,
+            **hf_kwargs,
+        )
+
+    else:
+        # For datasets that follow a similar structure, use a mapping.
+        dataset_mapping = {
+            "spec_bench": lambda: SpecBench(
+                dataset_path=args.dataset_path,
+                category=args.spec_bench_category,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                num_requests=args.num_prompts,
+                tokenizer=tokenizer,
+                output_len=args.spec_bench_output_len,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            ),
+            "sharegpt": lambda: ShareGPTDataset(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                output_len=args.sharegpt_output_len,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            ),
+            "burstgpt": lambda: BurstGPTDataset(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            ),
+            "random": lambda: RandomDataset(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                prefix_len=args.random_prefix_len,
+                input_len=args.random_input_len,
+                output_len=args.random_output_len,
+                range_ratio=args.random_range_ratio,
+                request_id_prefix=args.request_id_prefix,
+                batchsize=args.random_batch_size,
+                no_oversample=args.no_oversample,
+            ),
+            "random-mm": lambda: RandomMultiModalDataset(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                prefix_len=args.random_prefix_len,
+                range_ratio=args.random_range_ratio,
+                input_len=args.random_input_len,
+                output_len=args.random_output_len,
+                base_items_per_request=args.random_mm_base_items_per_request,
+                limit_mm_per_prompt=args.random_mm_limit_mm_per_prompt,
+                num_mm_items_range_ratio=args.random_mm_num_mm_items_range_ratio,
+                bucket_config=args.random_mm_bucket_config,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            ),
+            "random-rerank": lambda: RandomDatasetForReranking(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                input_len=args.random_input_len,
+                range_ratio=args.random_range_ratio,
+                request_id_prefix=args.request_id_prefix,
+                batchsize=args.random_batch_size,
+                is_reranker=not args.no_reranker,
+            ),
+            "prefix_repetition": lambda: PrefixRepetitionRandomDataset(
+                random_seed=args.seed,
+                dataset_path=args.dataset_path,
+                disable_shuffle=args.disable_shuffle,
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                prefix_len=args.prefix_repetition_prefix_len,
+                suffix_len=args.prefix_repetition_suffix_len,
+                num_prefixes=args.prefix_repetition_num_prefixes,
+                output_len=args.prefix_repetition_output_len,
+                request_id_prefix=args.request_id_prefix,
+                no_oversample=args.no_oversample,
+            ),
+        }
+
+        try:
+            # Enforce endpoint compatibility for multimodal datasets.
+            if args.dataset_name == "random-mm" and args.backend not in ["openai-chat"]:
+                raise ValueError(
+                    "Multi-modal content (images) is only supported on "
+                    "'openai-chat' backend."
+                )
+            input_requests = dataset_mapping[args.dataset_name]()
+        except KeyError as err:
+            raise ValueError(f"Unknown dataset: {args.dataset_name}") from err
+
+    return input_requests
+
+
+# -----------------------------------------------------------------------------
+# Custom Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class CustomDataset(BenchmarkDataset):
+    """
+    Implements the Custom dataset.  Loads data from a JSONL file and generates
+    sample requests based on conversation turns. E.g.,
+    ```
+    {"prompt": "What is the capital of India?"}
+    {"prompt": "What is the capital of Iran?"}
+    {"prompt": "What is the capital of China?"}
+    ```
+    """
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+        self.load_data()
+
+    def load_data(self) -> None:
+        if self.dataset_path is None:
+            raise ValueError("dataset_path must be provided for loading data.")
+
+        # self.data will be a list of dictionaries
+        # e.g., [{"prompt": "What is the capital of India?"}, ...]
+        # This will be the standardized format which load_data()
+        # has to convert into depending on the filetype of dataset_path.
+        # sample() will assume this standardized format of self.data
+        self.data = []
+
+        # Load the JSONL file
+        if self.dataset_path.endswith(".jsonl"):
+            jsonl_data = pd.read_json(path_or_buf=self.dataset_path, lines=True)
+
+            # check if the JSONL file has a 'prompt' column
+            if "prompt" not in jsonl_data.columns:
+                raise ValueError("JSONL file must contain a 'prompt' column.")
+
+            # Convert each row to a dictionary and append to self.data
+            # This will convert the DataFrame to a list of dictionaries
+            # where each dictionary corresponds to a row in the DataFrame.
+            # This is the standardized format we want for self.data
+            for _, row in jsonl_data.iterrows():
+                self.data.append(row.to_dict())
+        else:
+            raise NotImplementedError(
+                "Only JSONL format is supported for CustomDataset."
+            )
+
+        random.seed(self.random_seed)
+        if not getattr(self, "disable_shuffle", False):
+            random.shuffle(self.data)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        lora_path: str | None = None,
+        max_loras: int | None = None,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        skip_chat_template: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        # load all data if needed
+        self.num_available_samples = len(self.data)
+        if num_requests <= 0:
+            num_requests = self.num_available_samples
+            logger.info(
+                "num_requests is set to 0 or negative, "
+                "so using all available samples: %d",
+                num_requests,
+            )
+
+        sampled_requests = []
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            prompt = item["prompt"]
+
+            # apply template
+            if not skip_chat_template:
+                prompt = tokenizer.apply_chat_template(
+                    [{"role": "user", "content": prompt}],
+                    add_generation_prompt=True,
+                    tokenize=False,
+                )
+
+            prompt_len = len(tokenizer(prompt).input_ids)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Spec Bench Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class SpecBench(CustomDataset):
+    """
+    Implements the SpecBench dataset: https://github.com/hemingkx/Spec-Bench
+    Download the dataset using:
+    wget https://raw.githubusercontent.com/hemingkx/Spec-Bench/refs/heads/main/data/spec_bench/question.jsonl
+    """  # noqa: E501
+
+    def __init__(self, **kwargs) -> None:
+        self.category = kwargs.pop("category", None)
+        super().__init__(**kwargs)
+        self.load_data()
+
+    def load_data(self) -> None:
+        if self.dataset_path is None:
+            raise ValueError("dataset_path must be provided for loading data.")
+
+        self.data = []
+
+        # Load the JSONL file
+        jsonl_data = pd.read_json(path_or_buf=self.dataset_path, lines=True)
+
+        # check if the JSONL file has a 'turns' column
+        if "turns" not in jsonl_data.columns:
+            raise ValueError("JSONL file must contain a 'turns' column.")
+
+        for _, row in jsonl_data.iterrows():
+            # sample only from a specific category if specified
+            if (not self.category) or (self.category == row["category"]):
+                prompt = row["turns"][0]
+                self.data.append({"prompt": prompt})
+
+        random.seed(self.random_seed)
+        if not getattr(self, "disable_shuffle", False):
+            random.shuffle(self.data)
+
+    def sample(self, **kwargs) -> list:
+        # leverage CustomDataset sample
+        return super().sample(**kwargs)
+
+
+# -----------------------------------------------------------------------------
+# Sonnet Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+@deprecated(
+    "SonnetDataset is deprecated and will be removed in a future version.",
+)
+class SonnetDataset(BenchmarkDataset):
+    """
+    Simplified implementation of the Sonnet dataset.  Loads poem lines from a
+    text file and generates sample requests.  Default values here copied from
+    `benchmark_serving.py` for the sonnet dataset.
+    """
+
+    DEFAULT_PREFIX_LEN = 200
+    DEFAULT_INPUT_LEN = 550
+    DEFAULT_OUTPUT_LEN = 150
+
+    def __init__(
+        self,
+        **kwargs,
+    ) -> None:
+        super().__init__(**kwargs)
+        self.load_data()
+
+    def load_data(self) -> None:
+        if not self.dataset_path:
+            raise ValueError("dataset_path must be provided.")
+        with open(self.dataset_path, encoding="utf-8") as f:
+            self.data = f.readlines()
+
+    def sample(
+        self,
+        tokenizer,
+        num_requests: int,
+        prefix_len: int = DEFAULT_PREFIX_LEN,
+        input_len: int = DEFAULT_INPUT_LEN,
+        output_len: int = DEFAULT_OUTPUT_LEN,
+        return_prompt_formatted: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        # Calculate average token length for a poem line.
+        tokenized_lines = [tokenizer(line).input_ids for line in self.data]
+        avg_len = sum(len(tokens) for tokens in tokenized_lines) / len(tokenized_lines)
+
+        # Build the base prompt.
+        base_prompt = "Pick as many lines as you can from these poem lines:\n"
+        base_msg = [{"role": "user", "content": base_prompt}]
+        base_fmt = tokenizer.apply_chat_template(
+            base_msg, add_generation_prompt=True, tokenize=False
+        )
+        base_offset = len(tokenizer(base_fmt).input_ids)
+        if input_len <= base_offset:
+            raise ValueError(
+                f"'input_len' must be higher than the base prompt length "
+                f"({base_offset})."
+            )
+
+        # Determine how many poem lines to use.
+        num_input_lines = round((input_len - base_offset) / avg_len)
+        num_prefix_lines = max(round((prefix_len - base_offset) / avg_len), 0)
+        prefix_lines = self.data[:num_prefix_lines]
+
+        samples = []
+        ind = 0
+        while len(samples) < num_requests:
+            extra_lines = random.choices(
+                self.data, k=num_input_lines - num_prefix_lines
+            )
+            prompt = f"{base_prompt}{''.join(prefix_lines + extra_lines)}"
+            msg = [{"role": "user", "content": prompt}]
+            prompt_formatted = tokenizer.apply_chat_template(
+                msg, add_generation_prompt=True, tokenize=False
+            )
+            prompt_len = len(tokenizer(prompt_formatted).input_ids)
+            if prompt_len <= input_len:
+                samples.append(
+                    SampleRequest(
+                        prompt=prompt_formatted if return_prompt_formatted else prompt,
+                        prompt_len=prompt_len,
+                        expected_output_len=output_len,
+                        request_id=request_id_prefix + str(ind),
+                    )
+                )
+                ind += 1
+        return samples
+
+
+# -----------------------------------------------------------------------------
+# BurstGPT Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class BurstGPTDataset(BenchmarkDataset):
+    """
+    Implements the BurstGPT dataset.  Loads data from a CSV file and generates
+    sample requests based on synthetic prompt generation. Only rows with Model
+    "GPT-4" and positive response tokens are used.
+    """
+
+    def __init__(self, **kwargs) -> None:
+        super().__init__(**kwargs)
+        self.load_data()
+
+    def load_data(
+        self,
+    ):
+        if self.dataset_path is None:
+            raise ValueError("dataset_path must be provided for loading data.")
+
+        df = pd.read_csv(self.dataset_path)
+        # Filter to keep only GPT-4 rows.
+        gpt4_df = df[df["Model"] == "GPT-4"]
+        # Remove failed requests (where Response tokens is 0 or less).
+        gpt4_df = gpt4_df[gpt4_df["Response tokens"] > 0]
+        # Sample the desired number of rows.
+        self.data = gpt4_df
+
+    def _sample_loaded_data(self, num_requests: int) -> list:
+        if num_requests <= len(self.data):
+            data = self.data.sample(n=num_requests, random_state=self.random_seed)
+        else:
+            data = self.data.sample(
+                n=num_requests,
+                random_state=self.random_seed,
+                replace=True,
+            )
+        # Convert the dataframe to a list of lists.
+        return data.values.tolist()
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        max_loras: int | None = None,
+        lora_path: str | None = None,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        samples = []
+        data = self._sample_loaded_data(num_requests=num_requests)
+        for i in range(num_requests):
+            input_len = int(data[i][2])
+            output_len = int(data[i][3])
+            lora_req = self.get_random_lora_request(
+                max_loras=max_loras, lora_path=lora_path
+            )
+            vocab_size = tokenizer.vocab_size
+            # Generate a synthetic prompt: a list of token IDs computed as (i +
+            # j) modulo vocab_size.
+            token_ids = [(i + j) % vocab_size for j in range(input_len)]
+            prompt = tokenizer.decode(token_ids)
+            samples.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=input_len,
+                    expected_output_len=output_len,
+                    lora_request=lora_req,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        return samples
+
+
+# -----------------------------------------------------------------------------
+# HuggingFace Dataset Base Implementation
+# -----------------------------------------------------------------------------
+class HuggingFaceDataset(BenchmarkDataset):
+    """Base class for datasets hosted on HuggingFace."""
+
+    SUPPORTED_DATASET_PATHS: set[str] | dict[str, Callable] = set()
+
+    def __init__(
+        self,
+        dataset_path: str,
+        dataset_split: str,
+        no_stream: bool = False,
+        dataset_subset: str | None = None,
+        hf_name: str | None = None,
+        **kwargs,
+    ) -> None:
+        super().__init__(dataset_path=dataset_path, **kwargs)
+
+        self.dataset_split = dataset_split
+        self.dataset_subset = dataset_subset
+        self.load_stream = not no_stream
+        self.hf_name = hf_name or dataset_path
+        self.load_data()
+
+    def load_data(self) -> None:
+        """Load data from HuggingFace datasets."""
+        self.data = load_dataset(
+            self.dataset_path,
+            name=self.dataset_subset,
+            split=self.dataset_split,
+            streaming=self.load_stream,
+        )
+        if not getattr(self, "disable_shuffle", False):
+            self.data = self.data.shuffle(seed=self.random_seed)
+
+
+# -----------------------------------------------------------------------------
+# Conversation Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class ConversationDataset(HuggingFaceDataset):
+    """Dataset for text-only conversation data."""
+
+    SUPPORTED_DATASET_PATHS = {
+        "Aeala/ShareGPT_Vicuna_unfiltered",
+    }
+    IS_MULTIMODAL = False
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        # Filter examples with at least 2 conversations
+        filtered_data = self.data.filter(lambda x: len(x["conversations"]) >= 2)
+        sampled_requests = []
+        ind = 0
+        dynamic_output = output_len is None
+
+        for item in filtered_data:
+            if len(sampled_requests) >= num_requests:
+                break
+            conv = item["conversations"]
+            prompt, completion = conv[0]["value"], conv[1]["value"]
+
+            prompt_ids = tokenizer(prompt).input_ids
+            completion_ids = tokenizer(completion).input_ids
+            prompt_len = len(prompt_ids)
+            completion_len = len(completion_ids)
+            output_len = completion_len if dynamic_output else output_len
+            assert isinstance(output_len, int) and output_len > 0
+            if dynamic_output and not is_valid_sequence(prompt_len, completion_len):
+                continue
+            mm_content = process_image(item["image"]) if "image" in item else None
+            if enable_multimodal_chat:
+                # Note: when chat is enabled the request prompt_len is no longer
+                # accurate and we will be using request output to count the
+                # actual prompt len and output len
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+class MultiModalConversationDataset(HuggingFaceDataset):
+    """Dataset for multimodal conversation data."""
+
+    SUPPORTED_DATASET_PATHS = {
+        "lmms-lab/LLaVA-OneVision-Data",
+    }
+    IS_MULTIMODAL = True
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        # Filter examples with at least 2 conversations
+        filtered_data = self.data.filter(lambda x: len(x["conversations"]) >= 2)
+        sampled_requests = []
+        ind = 0
+        dynamic_output = output_len is None
+
+        for item in filtered_data:
+            if len(sampled_requests) >= num_requests:
+                break
+            conv = item["conversations"]
+            prompt, completion = conv[0]["value"], conv[1]["value"]
+
+            prompt_ids = tokenizer(prompt).input_ids
+            completion_ids = tokenizer(completion).input_ids
+            prompt_len = len(prompt_ids)
+            completion_len = len(completion_ids)
+            output_len = completion_len if dynamic_output else output_len
+            assert isinstance(output_len, int) and output_len > 0
+            if dynamic_output and not is_valid_sequence(prompt_len, completion_len):
+                continue
+            mm_content = process_image(item["image"]) if "image" in item else None
+            if enable_multimodal_chat:
+                # Note: when chat is enabled the request prompt_len is no longer
+                # accurate and we will be using request output to count the
+                # actual prompt len and output len
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Vision Arena Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class VisionArenaDataset(HuggingFaceDataset):
+    """
+    Vision Arena Dataset.
+    """
+
+    DEFAULT_OUTPUT_LEN = 128
+    SUPPORTED_DATASET_PATHS = {
+        "lmarena-ai/VisionArena-Chat": lambda x: x["conversation"][0][0]["content"],
+        "lmarena-ai/vision-arena-bench-v0.1": lambda x: x["turns"][0][0]["content"],
+    }
+    IS_MULTIMODAL = True
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests = []
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            parser_fn = self.SUPPORTED_DATASET_PATHS.get(self.hf_name)
+            if parser_fn is None:
+                raise ValueError(f"Unsupported dataset path: {self.hf_name}")
+            prompt = parser_fn(item)
+            mm_content = process_image(item["images"][0])
+            prompt_len = len(tokenizer(prompt).input_ids)
+            if enable_multimodal_chat:
+                # Note: when chat is enabled the request prompt_len is no longer
+                # accurate and we will be using request output to count the
+                # actual prompt len
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+class MMVUDataset(HuggingFaceDataset):
+    """
+    MMVU Dataset.
+    https://huggingface.co/datasets/yale-nlp/MMVU
+    """
+
+    DEFAULT_OUTPUT_LEN = 128
+    SUPPORTED_DATASET_PATHS = {
+        "yale-nlp/MMVU": lambda x: x["question"]
+        + " "
+        + (" ".join(f"{k}.{v}" for k, v in x["choices"].items())),
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests = []
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            parser_fn = self.SUPPORTED_DATASET_PATHS.get(self.hf_name)
+            if parser_fn is None:
+                raise ValueError(f"Unsupported dataset path: {self.hf_name}")
+            prompt = parser_fn(item)
+            mm_content = process_video(item["video"])
+            prompt_len = len(tokenizer(prompt).input_ids)
+            if enable_multimodal_chat:
+                # Note: when chat is enabled the request prompt_len is no longer
+                # accurate and we will be using request output to count the
+                # actual prompt len
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Instruct Coder Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class InstructCoderDataset(HuggingFaceDataset):
+    """
+    InstructCoder Dataset.
+    https://huggingface.co/datasets/likaixin/InstructCoder
+
+    InstructCoder is the dataset designed for general code editing.  It consists
+    of 114,239 instruction-input-output triplets, and covers multiple distinct
+    code editing scenario.
+    """
+
+    DEFAULT_OUTPUT_LEN = 200  # this is the average default output length
+    SUPPORTED_DATASET_PATHS = {
+        "likaixin/InstructCoder",
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        skip_chat_template: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests = []
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            prompt = (
+                f"{item['input']}\n\n{item['instruction']} Just output "
+                "the code, do not include any explanation."
+            )
+
+            # apply template
+            if not skip_chat_template:
+                prompt = tokenizer.apply_chat_template(
+                    [{"role": "user", "content": prompt}],
+                    add_generation_prompt=True,
+                    tokenize=False,
+                )
+
+            prompt_len = len(tokenizer(prompt).input_ids)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# MT-Bench Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class MTBenchDataset(HuggingFaceDataset):
+    """
+    MT-Bench Dataset.
+    https://huggingface.co/datasets/philschmid/mt-bench
+
+    We create a single turn dataset for MT-Bench.
+    This is similar to Spec decoding benchmark setup in vLLM
+    https://github.com/vllm-project/vllm/blob/9d98ab5ec/examples/offline_inference/eagle.py#L14-L18
+    """  # noqa: E501
+
+    DEFAULT_OUTPUT_LEN = 256  # avg len used in SD bench in vLLM
+    SUPPORTED_DATASET_PATHS = {
+        "philschmid/mt-bench",
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        skip_chat_template: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests = []
+
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            prompt = item["turns"][0]
+
+            # apply template
+            if not skip_chat_template:
+                prompt = tokenizer.apply_chat_template(
+                    [{"role": "user", "content": prompt}],
+                    add_generation_prompt=True,
+                    tokenize=False,
+                )
+
+            prompt_len = len(tokenizer(prompt).input_ids)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Blazedit Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class BlazeditDataset(HuggingFaceDataset):
+    """
+    Blazedit Dataset.
+    https://github.com/ise-uiuc/blazedit
+
+    5k char version: vdaita/edit_5k_char
+    10k char version: vdaita/edit_10k_char
+    """  # noqa: E501
+
+    # 5k char version will have output as ~5k chars
+    # 10k char version will have output as ~10k chars
+    # Assuming 3 char per token, 10k chars will be 3333 tokens
+    # We set default to 4000 to be safe
+    DEFAULT_OUTPUT_LEN = 4000
+    SUPPORTED_DATASET_PATHS = {
+        "vdaita/edit_5k_char",
+        "vdaita/edit_10k_char",
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        skip_chat_template: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        min_distance: float = 0.0,
+        max_distance: float = 1.0,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests = []
+
+        for i, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            code = item["code"]
+            change_request = item["change_request"]
+            norm_distance = item["norm_distance"]
+
+            # compare the levenshtein distance normalized by code length
+            if norm_distance < min_distance or norm_distance > max_distance:
+                continue
+
+            # template copied from
+            # https://github.com/ise-uiuc/blazedit/blob/7765137e656fd62de877422d2e4cf8de51228054/dataset/create_refined_dataset.py#L94-L105 # noqa: E501
+            prompt = f"""Given a code file, please apply the change requests and generate the new file.
+
+Original file:
+```python
+{code}
+```
+
+Change request:
+{change_request}
+
+Please generate the new code file in the "New file" section below."""  # noqa: E501
+
+            # apply template
+            if not skip_chat_template:
+                prompt = tokenizer.apply_chat_template(
+                    [{"role": "user", "content": prompt}],
+                    add_generation_prompt=True,
+                    tokenize=False,
+                )
+
+            prompt_len = len(tokenizer(prompt).input_ids)
+
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# AIMO Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class AIMODataset(HuggingFaceDataset):
+    """
+    Dataset class for processing a AIMO dataset with reasoning questions.
+    """
+
+    SUPPORTED_DATASET_PATHS = {
+        "AI-MO/aimo-validation-aime",
+        "AI-MO/NuminaMath-1.5",
+        "AI-MO/NuminaMath-CoT",
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        sampled_requests = []
+        ind = 0
+        dynamic_output = output_len is None
+
+        for item in self.data:
+            if len(sampled_requests) >= num_requests:
+                break
+            prompt, completion = item["problem"], item["solution"]
+
+            prompt_ids = tokenizer(prompt).input_ids
+            completion_ids = tokenizer(completion).input_ids
+            prompt_len = len(prompt_ids)
+            completion_len = len(completion_ids)
+            output_len = completion_len if dynamic_output else output_len
+            assert isinstance(output_len, int) and output_len > 0
+            if dynamic_output and not is_valid_sequence(
+                prompt_len, completion_len, max_prompt_len=2048, max_total_len=32000
+            ):
+                continue
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=None,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Next Edit Prediction Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+zeta_prompt = """### Instruction:
+You are a code completion assistant and your task is to analyze user edits and then rewrite an excerpt that the user provides, suggesting the appropriate edits within the excerpt, taking into account the cursor location.
+
+### User Edits:
+
+{}
+
+### User Excerpt:
+
+{}
+
+### Response:
+
+"""  # noqa: E501
+
+
+def _format_zeta_prompt(
+    sample: dict, original_start_marker: str = "<|editable_region_start|>"
+) -> dict:
+    """Format the zeta prompt for the Next Edit Prediction (NEP) dataset.
+
+    This function formats examples from the NEP dataset
+    into prompts and expected outputs. It could be
+    further extended to support more NEP datasets.
+
+    Args:
+        sample: The dataset sample containing events,
+            inputs, and outputs.
+        original_start_marker: The marker indicating the
+            start of the editable region. Defaults to
+            "<|editable_region_start|>".
+
+    Returns:
+        A dictionary with the formatted prompts and expected outputs.
+    """
+    events = sample["events"]
+    input = sample["input"]
+    output = sample["output"]
+    prompt = zeta_prompt.format(events, input)
+
+    # following the original implementation, extract the focused region
+    # from the raw output
+    output_start_index = output.find(original_start_marker)
+    output_focused_region = output[output_start_index:]
+    expected_output = output_focused_region
+
+    return {"prompt": prompt, "expected_output": expected_output}
+
+
+class NextEditPredictionDataset(HuggingFaceDataset):
+    """
+    Dataset class for processing a Next Edit Prediction dataset.
+    """
+
+    SUPPORTED_DATASET_PATHS = {
+        "zed-industries/zeta",
+    }
+    MAPPING_PROMPT_FUNCS = {
+        "zed-industries/zeta": _format_zeta_prompt,
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ):
+        formatting_prompt_func = self.MAPPING_PROMPT_FUNCS.get(self.hf_name)
+        if formatting_prompt_func is None:
+            raise ValueError(f"Unsupported dataset path: {self.hf_name}")
+        samples = []
+        for i, sample in enumerate(self.data):
+            sample = formatting_prompt_func(sample)
+            samples.append(
+                SampleRequest(
+                    prompt=sample["prompt"],
+                    prompt_len=len(tokenizer(sample["prompt"]).input_ids),
+                    expected_output_len=len(
+                        tokenizer(sample["expected_output"]).input_ids
+                    ),
+                    request_id=request_id_prefix + str(i),
+                )
+            )
+            if len(samples) >= num_requests:
+                break
+        self.maybe_oversample_requests(
+            samples, num_requests, request_id_prefix, no_oversample
+        )
+        return samples
+
+
+# -----------------------------------------------------------------------------
+# ASR Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class ASRDataset(HuggingFaceDataset):
+    """
+    Dataset class for processing a ASR dataset for transcription.
+    Tested on the following set:
+
+    +----------------+----------------------------------------+--------------------------+-----------------------------+
+    | Dataset        | Domain                                 | Speaking Style           | hf-subset                   |
+    +----------------+----------------------------------------+--------------------------+-----------------------------+
+    | TED-LIUM       | TED talks                              | Oratory                  | release1, release2, release3|
+    |                |                                        |                          | release3-speaker-adaptation |
+    | VoxPopuli      | European Parliament                    | Oratory                  | en, de, it, fr,  ...        |
+    | LibriSpeech    | Audiobook                              | Narrated                 | "LIUM/tedlium"              |
+    | GigaSpeech     | Audiobook, podcast, YouTube            | Narrated, spontaneous    | xs, s, m, l, xl, dev, test  |
+    | SPGISpeech     | Financial meetings                     | Oratory, spontaneous     | S, M, L, dev, test          |
+    | AMI            | Meetings                               | Spontaneous              | ihm, sdm                    |
+    +----------------+----------------------------------------+--------------------------+-----------------------------+
+
+    """  # noqa: E501
+
+    SUPPORTED_DATASET_PATHS = {
+        "openslr/librispeech_asr",
+        "facebook/voxpopuli",
+        "LIUM/tedlium",
+        "edinburghcstr/ami",
+        "speechcolab/gigaspeech",
+        "kensho/spgispeech",
+    }
+
+    DEFAULT_OUTPUT_LEN = 128
+    IS_MULTIMODAL = True
+
+    # TODO Whisper-specific. Abstract interface when more models are supported.
+    TRANSCRIPTION_PREAMBLE = "<|startoftranscript|><|en|><|transcribe|><|notimestamps|>"
+    skip_long_audios: bool = True
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        prompt = ASRDataset.TRANSCRIPTION_PREAMBLE
+        prompt_len = len(tokenizer(prompt).input_ids)
+        sampled_requests = []
+        ind = 0
+        skipped = 0
+        for item in self.data:
+            if len(sampled_requests) >= num_requests:
+                break
+            audio = item["audio"]
+            y, sr = audio["array"], audio["sampling_rate"]
+            duration_s = librosa.get_duration(y=y, sr=sr)
+            # Whisper max supported duration
+            if self.skip_long_audios and duration_s > 30:
+                skipped += 1
+                continue
+
+            mm_content = {"audio": (y, sr)}
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        if skipped:
+            logger.warning(
+                "%d samples discarded from dataset due to"
+                " their length being greater than"
+                " what Whisper supports.",
+                skipped,
+            )
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# MLPerf Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class MLPerfDataset(HuggingFaceDataset):
+    """
+    MLPerf Inference Dataset.
+
+    Dataset on HF:
+    https://huggingface.co/datasets/mgoin/mlperf-inference-llama2-data
+    https://huggingface.co/datasets/mgoin/mlperf-inference-llama3.1-data
+
+    Each record contains:
+      - "system_prompt": system role instruction.
+      - "question": user question.
+      - "output": reference answer.
+
+    We combine the system prompt and question into a chat-formatted prompt
+    (using the tokenizer's chat template) and set the expected output length to
+    the tokenized length of the provided reference answer.
+    """
+
+    SUPPORTED_DATASET_PATHS = {
+        "mgoin/mlperf-inference-llama2-data",
+        "mgoin/mlperf-inference-llama3.1-data",
+    }
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        # Force dynamic output length based on reference completion.
+        dynamic_output = output_len is None
+        sampled_requests: list[SampleRequest] = []
+        ind = 0
+
+        for item in self.data:
+            if len(sampled_requests) >= num_requests:
+                break
+
+            system_prompt = item["system_prompt"]
+            question = item["question"]
+            reference_answer = item["output"]
+
+            # Build chat-style prompt using tokenizer template, if available.
+            messages = [
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": question},
+            ]
+            prompt_formatted = tokenizer.apply_chat_template(
+                messages, add_generation_prompt=True, tokenize=False
+            )
+            prompt_len = len(tokenizer(prompt_formatted).input_ids)
+
+            # Determine output length from reference answer tokens.
+            ref_out_len = len(
+                tokenizer(reference_answer, add_special_tokens=False).input_ids
+            )
+            expected_output_len = ref_out_len if dynamic_output else output_len
+
+            # Validate sequence lengths.
+            if not is_valid_sequence(prompt_len, expected_output_len):
+                continue
+
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt_formatted,
+                    prompt_len=prompt_len,
+                    expected_output_len=expected_output_len,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Prefix Repetition Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class PrefixRepetitionRandomDataset(BenchmarkDataset):
+    # Default values copied from benchmark_serving.py for the repeated prefix
+    # dataset.
+    DEFAULT_PREFIX_LEN = 256
+    DEFAULT_SUFFIX_LEN = 256
+    DEFAULT_NUM_PREFIXES = 10
+    DEFAULT_OUTPUT_LEN = 128
+
+    def __init__(
+        self,
+        **kwargs,
+    ) -> None:
+        super().__init__(**kwargs)
+        random.seed(self.random_seed)
+        np.random.seed(self.random_seed)
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        prefix_len: int = DEFAULT_PREFIX_LEN,
+        suffix_len: int = DEFAULT_SUFFIX_LEN,
+        num_prefixes: int = DEFAULT_NUM_PREFIXES,
+        output_len: int = DEFAULT_OUTPUT_LEN,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        vocab_size = tokenizer.vocab_size
+        prompts_per_prefix = num_requests // num_prefixes
+        if prompts_per_prefix == 0:
+            raise ValueError(
+                f"num_requests ({num_requests}) must be greater than or equal "
+                f"to num_prefixes ({num_prefixes})"
+            )
+
+        def _generate_exact_length_tokens(target_length: int) -> list[int]:
+            """Generate tokens that decode and re-encode to exactly
+            target_length."""
+            # Generate random tokens
+            tokens = np.random.randint(0, vocab_size, size=target_length).tolist()
+
+            _, adjusted_tokens, token_mismatch = gen_prompt_decode_to_target_len(  # noqa: E501
+                tokenizer=tokenizer,
+                token_sequence=tokens,
+                target_token_len=target_length,
+                add_special_tokens=False,
+            )
+            return adjusted_tokens, token_mismatch
+
+        requests = []
+        token_mismatch_total = 0
+        for _ in range(num_prefixes):
+            prefix_tokens, prefix_mismatch = _generate_exact_length_tokens(prefix_len)
+            token_mismatch_total += prefix_mismatch
+
+            for _ in range(prompts_per_prefix):
+                suffix_tokens, suffix_mismatch = _generate_exact_length_tokens(
+                    suffix_len
+                )
+                token_mismatch_total += suffix_mismatch
+                combined_tokens = prefix_tokens + suffix_tokens
+                prompt = tokenizer.decode(combined_tokens)
+                prompt_len = len(combined_tokens)
+                requests.append(
+                    SampleRequest(
+                        prompt=prompt,
+                        prompt_len=prompt_len,
+                        expected_output_len=output_len,
+                    )
+                )
+
+        if token_mismatch_total != 0:
+            sign = "more" if token_mismatch_total > 0 else "fewer"
+            logger.warning(
+                "Across all generated prompts, there were %d %s tokens "
+                "than expected after decoding and re-encoding. This is "
+                "expected due to the imperfect nature of the sampling "
+                "procedure.",
+                abs(token_mismatch_total),
+                sign,
+            )
+        if not getattr(self, "disable_shuffle", False):
+            random.shuffle(requests)
+        return requests
+
+
+# -----------------------------------------------------------------------------
+# MMStar Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class MMStarDataset(HuggingFaceDataset):
+    """
+    Lin-Chen/MMStar: https://huggingface.co/datasets/Lin-Chen/MMStar
+    refer to: https://github.com/sgl-project/SpecForge/pull/106
+    """
+
+    DEFAULT_OUTPUT_LEN = 128
+    SUPPORTED_DATASET_PATHS = {"Lin-Chen/MMStar"}
+    IS_MULTIMODAL = True
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list[SampleRequest]:
+        # If --hf-output-len is not set, use the default output length.
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
+        sampled_requests: list[SampleRequest] = []
+
+        for ind, item in enumerate(self.data):
+            if len(sampled_requests) >= num_requests:
+                break
+            # Split the question text from options
+            # (keep only the part before "Options:").
+            full_q: str = item.get("question", "")
+            question_text = full_q.split("Options:", 1)[0].strip()
+
+            # Multimodal image content.
+            mm_content = process_image(item["image"])
+
+            # Compute prompt token length (note: this is plain text length
+            # if enable_multimodal_chat is False).
+            prompt_len = len(tokenizer(question_text).input_ids)
+
+            if enable_multimodal_chat:
+                # If multimodal content should be embedded in the chat message,
+                # convert to [{"role":"user","content":[...]}]
+                prompt = self.apply_multimodal_chat_transformation(
+                    question_text, mm_content
+                )
+                mm_for_request = None  # Already embedded in chat content.
+            else:
+                # Default: prompt is plain text,
+                # image is in mm_content for the bench to assemble.
+                prompt = question_text
+                mm_for_request = mm_content
+
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_for_request,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
diff --git a/benchmarks/latency.py b/benchmarks/latency.py
new file mode 100644
index 0000000..b4f1751
--- /dev/null
+++ b/benchmarks/latency.py
@@ -0,0 +1,172 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Benchmark the latency of processing a single batch of requests."""
+
+import argparse
+import dataclasses
+import json
+import os
+import time
+from typing import Any
+
+import numpy as np
+from tqdm import tqdm
+
+import vllm.envs as envs
+from vllm.benchmarks.lib.utils import convert_to_pytorch_benchmark_format, write_to_json
+from vllm.engine.arg_utils import EngineArgs
+from vllm.inputs import PromptType
+from vllm.sampling_params import BeamSearchParams
+
+
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any]
+) -> None:
+    pt_records = convert_to_pytorch_benchmark_format(
+        args=args,
+        metrics={"latency": results["latencies"]},
+        extra_info={k: results[k] for k in ["avg_latency", "percentiles"]},
+    )
+    if pt_records:
+        pt_file = f"{os.path.splitext(args.output_json)[0]}.pytorch.json"
+        write_to_json(pt_file, pt_records)
+
+
+def add_cli_args(parser: argparse.ArgumentParser):
+    parser.add_argument("--input-len", type=int, default=32)
+    parser.add_argument("--output-len", type=int, default=128)
+    parser.add_argument("--batch-size", type=int, default=8)
+    parser.add_argument(
+        "--n",
+        type=int,
+        default=1,
+        help="Number of generated sequences per prompt.",
+    )
+    parser.add_argument("--use-beam-search", action="store_true")
+    parser.add_argument(
+        "--num-iters-warmup",
+        type=int,
+        default=10,
+        help="Number of iterations to run for warmup.",
+    )
+    parser.add_argument(
+        "--num-iters", type=int, default=30, help="Number of iterations to run."
+    )
+    parser.add_argument(
+        "--profile",
+        action="store_true",
+        help="profile the generation process of a single batch",
+    )
+    parser.add_argument(
+        "--output-json",
+        type=str,
+        default=None,
+        help="Path to save the latency results in JSON format.",
+    )
+    parser.add_argument(
+        "--disable-detokenize",
+        action="store_true",
+        help=(
+            "Do not detokenize responses (i.e. do not include "
+            "detokenization time in the latency measurement)"
+        ),
+    )
+
+    parser = EngineArgs.add_cli_args(parser)
+    # V1 enables prefix caching by default which skews the latency
+    # numbers. We need to disable prefix caching by default.
+    parser.set_defaults(enable_prefix_caching=False)
+
+
+def main(args: argparse.Namespace):
+    if args.profile and not envs.VLLM_TORCH_PROFILER_DIR:
+        raise OSError(
+            "The environment variable 'VLLM_TORCH_PROFILER_DIR' is not set. "
+            "Please set it to a valid path to use torch profiler."
+        )
+    engine_args = EngineArgs.from_cli_args(args)
+
+    # Lazy import to avoid importing LLM when the bench command is not selected.
+    from vllm import LLM, SamplingParams
+
+    # NOTE(woosuk): If the request cannot be processed in a single batch,
+    # the engine will automatically process the request in multiple batches.
+    llm = LLM(**dataclasses.asdict(engine_args))
+    assert llm.llm_engine.model_config.max_model_len >= (
+        args.input_len + args.output_len
+    ), (
+        "Please ensure that max_model_len is greater than"
+        " the sum of input_len and output_len."
+    )
+
+    sampling_params = SamplingParams(
+        n=args.n,
+        temperature=1.0,
+        top_p=1.0,
+        ignore_eos=True,
+        max_tokens=args.output_len,
+        detokenize=not args.disable_detokenize,
+    )
+    dummy_prompt_token_ids = np.random.randint(
+        10000, size=(args.batch_size, args.input_len)
+    )
+    dummy_prompts: list[PromptType] = [
+        {"prompt_token_ids": batch} for batch in dummy_prompt_token_ids.tolist()
+    ]
+
+    def llm_generate():
+        if not args.use_beam_search:
+            llm.generate(dummy_prompts, sampling_params=sampling_params, use_tqdm=False)
+        else:
+            llm.beam_search(
+                dummy_prompts,
+                BeamSearchParams(
+                    beam_width=args.n,
+                    max_tokens=args.output_len,
+                    ignore_eos=True,
+                ),
+            )
+
+    def run_to_completion(profile_dir: str | None = None):
+        if profile_dir:
+            llm.start_profile()
+            llm_generate()
+            llm.stop_profile()
+        else:
+            start_time = time.perf_counter()
+            llm_generate()
+            end_time = time.perf_counter()
+            latency = end_time - start_time
+            return latency
+
+    print("Warming up...")
+    for _ in tqdm(range(args.num_iters_warmup), desc="Warmup iterations"):
+        run_to_completion(profile_dir=None)
+
+    if args.profile:
+        profile_dir = envs.VLLM_TORCH_PROFILER_DIR
+        print(f"Profiling (results will be saved to '{profile_dir}')...")
+        run_to_completion(profile_dir=profile_dir)
+        return
+
+    # Benchmark.
+    latencies = []
+    for _ in tqdm(range(args.num_iters), desc="Profiling iterations"):
+        latencies.append(run_to_completion(profile_dir=None))
+    latencies = np.array(latencies)
+    percentages = [10, 25, 50, 75, 90, 99]
+    percentiles = np.percentile(latencies, percentages)
+    print(f"Avg latency: {np.mean(latencies)} seconds")
+    for percentage, percentile in zip(percentages, percentiles):
+        print(f"{percentage}% percentile latency: {percentile} seconds")
+
+    # Output JSON results if specified
+    if args.output_json:
+        results = {
+            "avg_latency": np.mean(latencies),
+            "latencies": latencies.tolist(),
+            "percentiles": dict(zip(percentages, percentiles.tolist())),
+        }
+        with open(args.output_json, "w") as f:
+            json.dump(results, f, indent=4)
+        save_to_pytorch_benchmark_format(args, results)
diff --git a/benchmarks/lib/__init__.py b/benchmarks/lib/__init__.py
new file mode 100644
index 0000000..005e87a
--- /dev/null
+++ b/benchmarks/lib/__init__.py
@@ -0,0 +1,3 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Benchmark library utilities."""
diff --git a/benchmarks/lib/__pycache__/__init__.cpython-312.pyc b/benchmarks/lib/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd12a57fe8748463553940bae714052d4e6dfba2
GIT binary patch
literal 209
zcmX@j%ge<81UW3-nSDU|F^B^Lj8MjB4j^MXLkdF_LnWgoQ<aQUYF=_iZemfkLQZB<
zQDRZ0LTO26PG(7FYO$W5CgUyk`1q9k<oNiN44*+p{BqVW$t}<?$Slw;Ni0fFEzzwg
zHMg|LHc!<D>enx*EXl~v(=W@($<<GSnOqE(ijU9C%PfhH*DI*J#bJ}1pHiBWYFESt
ZG!x{uVvy56Ff%eTeqv)_R4!rxasd)GIUWE2

literal 0
HcmV?d00001

diff --git a/benchmarks/lib/__pycache__/endpoint_request_func.cpython-312.pyc b/benchmarks/lib/__pycache__/endpoint_request_func.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd795542c573e41d1803ea31861d9f84035a359b
GIT binary patch
literal 27725
zcmd6QdvqJudFKo;c)v-I1PMOCH^HYQlA<K)MN*{Rlq^wl%sfyEGn7D)1U&#Hkp^wX
zc3Ub{W2$i@x^ZeMacZh|8#ZUpuDa*+tP?+yI8F~B&<l8?o-&QM-R#*vAWK_2YW8%$
z?+#}0FlbBZrn^_fo$o&9&V7Er@4NTvCnl4g0yED1f$#n(Mg0ODk})NTyK#o1u2H8b
zmKvs5npKR`!!&s+h85(g99EJiGt7{uYFI^{>R~lJmE)QT?XZ@{w9L3}LO-mZFbo@r
zTQzQ+Fb$g~%){mh%dmy`DaNhCR+8Q}oCi<!c>aWa*iKUlinES2O2tb(S<P$OS835b
zT&SS-Q>^Y;iq*fWNct6Vdg5yUU!&yvYBGaiM>5m|q2^D77L$|~2(xmQSCz>eOIRD{
zWb@#c&pEkL&RGlrvl@zG?W|%{%N9J#441KmTsefAMim&!7I6*|s%9M!TEP}?5LyDE
zE*-^gA}O5k&ArK@rajnF4&Efbkt>EbmOZN)u7XsXNvd+r%vO-M+PUiV_n_aXnsq_!
z8XX1kw>;om(sL{x)w7k5L+wMCvI<hwkyIOf7uIWLy=B%@=64&}YRIwvq03PNsTv+S
zRV}1)|C?&94svM38Xr}#_0Y~uNxA{(<|OR~y5*tE)(APbK6I)kNY(bxshT0xriV_|
z0;x80Rq(HttK%BDMy{1><2G@dIXBz-qG5Oo>8B;)XyMw~ww=&dxh-S9v~HgyrLnt@
zdX9RI_A1X(Ud0z-zWM@;_&I8h4$=6QQN;y{SA?jmiYpd|@+#-(Icm6bM&VV^N!LZn
z-9B4CbdGcJ+~d<+Am|#Mp7aKN{z=!UpLg{fKj`8n*(twoG8kz6CBA&nO$)l7izB|^
z$eD4@tq^qVNN~hEJ`xBBs!<;|&bpO?vS)He&>ZmvIeuhZ&>rXgLBH2O4oR8d<Lrd*
zcZMhm9IBu{I5O@{|2$RFakm+WYZOPpOiSS`3p1?ZSqkP?C8uH;PR(h^NM=|S^cL-m
z+N}|aP6l~yWP)Q)aDgfRWPm#`GRcl}{OlQ#2)F_yf^YJy>%h>^arkC2Uchx`#x>&g
zPESmaj|4H;dv1F2e84q58T5_2y#9%)aW2T|U0^1-Kw#u77jTX6oNMI5h;JP0q1Bt5
zeo66h+Qo_TZXWpvmJU%K5`fkWbwe>I;ODE)OplIoJl0Bp8y^i|7Owlp+kz8QZBxFf
zmf#3~mJ7CAn(o@Z?R*#4HtsvqHZ>DG=bvo5Fg`xfc7~huo|_oq&j(15)KH#eQ+lu|
zTc>6Ot;ge=^aVYhS=R<N)GEa&fg%KSV9itULdOF0hlac0pacV{5YL&JAQuqSJQtki
zC%wtl1tU<fLW-Y!8+@-(A$lymLP!)?0cdHJnuA_>i5^SOAsHv6n1z1qRe0p|XQ?@8
z`w*2YHuUe)xkJXJo|McNAFP5^O6waLDGW4>{GJdq2J2V0kw)4a6JmH<NI8bJlVw7T
z^j)xiZ(LIP%0^{1WMv3WR?d_E^9{aG;!n~Nr&4|Dx2QrYR&~CCqWCQvd{NHY{<J*P
zYCxS)tICs9NW~w}Q9+AT&@rn-rJf;GDu;iUGC{ejsi0XZ!5EI!EK@`A3{5>og&^)l
z>XPy?>LTsd%pU1sS=Wd-N4Wf>FnPeJa0UIYAk3rUn0CR;1Jer*6Ch_Yr;zk%r1idP
zIyl<0ZC0Vz{}Q|6eKpRfJ6!kGpWk<Eu>XrZ)|y){s9DbIXE`3LPEZA=#(hC}1bN?-
zpdOi;g26B712AI*0~dY4bAplQCj1w;DV`hkT@skFfPYd@jr&K~fM7Xv^4Q=$l3PE|
z`+2vTw?U?S0p_d|2RdXdXr-x6&?G6rk|aD{|74JZH9-w&@N--)9_vrgjj*hTWHDR0
z(Oe@(DT5S&9q`ffR6<P^xMKFYh`nz4V$|NYpo?pb&l$dASe%JyU4Lj;&o5ZeLL^JU
z67!Pb1w+JK9j~r`rTcn!thyso-LZQ5<|EPSJrSd8VgKUL^Pi6wmR*~;I`K9C!v6Oy
zg>kFnn&qlxS+izsNa*BDZkekSR?297uKRL#%upFIR4zBH8JgndRWF@?;e4!oYovVZ
z>ZNG;-dOoSq<kP+eqiBP+)}>WaLdvtWy!o^xNeBKHb-2WqptQfYe&4?wa7egNZ2W>
zW5IGKpUSIDDAcy%+jhsbLst(iJ+)?Ui`z@D9lLsLdEYCCuOE)pbVh1AqcvS?_HFU1
zn#Fz3A5Q2=;)P2KmXGi0C`W0ms3}s^^dY6N6|dVJ>z1MgOF{>Z`+<C@!#52*s(w55
zmOa0}N%>YI4fdd0htvKftcD(sp!awt{Ot5N(ngQx@#&HAWQfM&Vf|i@hsS&bl{mjM
z<Gw&pP(mNz-QazL;_dJt4a^&nLaPvdfoiaxrS2$bRmF#DT2-7-SEwAzrxFxAR)VX2
zH)if3DW=C%8EZW*k!bGzGgzs$9&i?{_8h~hI0n~v<ncK*t03GEto*E!P#T~ZnNrE2
zYNS}ru$E(3O){-E>8Il~vY#&Lr{@f^pFZhlO!G4&{Y;zzN@S2qB&RWwaMQ4vvp|W=
z$=KGkw_B2awlqI0`pszEHo<yA<h%x8wLUmGH65I-Mt;nPBw@mER>|hhS_SnK4{S+L
z(2Pv^Jk$KRpcg$n<J_d6_fH2QIiXe1^xXKMpeIk#B?Rrb|13m56A(<?r651zImeB_
z+!7G<qVtTOoe}bZ8w&cc=ZuU?1Aaiz`_4}KdCtT61CY(g<k@N9h6KIDbNE<y9*+=}
zZ$b;XIKBm~O=z`&C0IP3k;zHm{E*EIK$lbkcgb(Z@EvG%V<d+4d4oJw62A+r-Nf^Z
z-#^apLHAy?Hlvm5o9*aC3u6TS6s+H+e$KS48!d}9i-D`|%g3UOGj6gzb0luff99BI
z8O+ZdikDT+A6ir{vRCy{rZVoVm_M-KUEFthEXq{GD{JSEE_N){T<wlBwJ<k8OlC27
z)evQ>;vL(<Owp2knOPpXu8$Nqt_($rH%FOm@uE_U7G+AaGE2Q^jj0rijs?y=EWQUJ
z*~5ZW4CBB^4g!`L)^J*Ik?zl`hjpADTpH5hw8I9@2rjXstA|Y_jC64jBtUn4%^)qg
z!vO6$J$7w~FLr44u#LnwCG*N7d5PUyF`Q4zAa-o^u${ydyR^-nC)m=u^fA&CXFIV^
zi@g$;%v^mMy1aLMnnm_|f`f(48)zkqpI|=AO#+Yza;zr^{c}Lj1g5=S;KTn33QUZk
z0lpo$;Taw|O2L%u{z3nFZZZIvBRCoaF5AL#qa)C#J)<Mupr4<Cju#w<&?$eA--_u}
z9Il7Sb<`8|O>l$mf}Fj1KSUS1bPrMo(AtOAA+P`k!AcwC52HsfT1U`AhLnr|eh{f+
zXyI%5<7hpCR#t}|KtHrjz%TGPSlFTWte2F|4=(m$@3I%q?_U^-GR5%%2T-S?j3ZuL
z0v)zJ%9O<O3g-7M)JB<t_lrtbhSrL<%=azW7r4vLD6=IM7%wcs-XCR(;<o(x{)KiJ
z8V)CTsn!^$*hjGp8GV!p&A{_6etD{o0wmV33Qh?ijTw{TKn%$saARpAv{7-;bFs&P
z=td2|ST{qvwSpn7=L`yY(yW3=1~3dvY0&o2@Gx-*%+#3?p2ua#i{K;O;KFhjJ+C3!
zq6bO6x`BNMFa8u-r_p*8tN=z!@h`AudPl~`0V>(kN&@gm^u;;|AV>g?MNc&}iM8_>
zc)0c1{RGD~%+5alxnOWgF!hc5fMGf*7M@2C!DBH=^YX(;Wi>uPWQs@Y4EzGvjh@Aq
zmQ~)-sZ>qtrOgQyJb@?5D~{RfBDT7O2Hjf9lD{}~`FsLnL419FIKL*MtG#Ccw^&}1
zb0=gdXmRmCRzR?Em!>!`4zU1$Qr{&mAXY7wQ8LKvk*d7{#5F3ILQaYxjyqx`e8nq6
zigWaw;v5xHd>f>te*`q(m>j4qh!sjqNFhx~(lcNS%6Kb8e*@8#0&L|sWpwm3Jwv&f
zK|urS*{E-vn{~QQojBr}m<Cw}FvTw9hF$(in0!WexCFY@t%4;i;F|<qdD6>~F)U~y
zqR2L@g3|!?1^wxf@o7%vj+H!C75_!Fz64ePt3YOWZJrAw<33>7IZtvS=0_p?JVwOW
z^VB^(rOgZHRlj_4P2-N2wT4UE!rJ0>M_0I{DeUN4c?_&DQ?PExiy52|gY(7ya8-M>
zv}4WCdE4w*I<T}OT)Q{ib0WO=WccJzxcF4md^)T>olsK7t)xBS(?@2IwI^LW1C?V@
zNsE022!hJtnQeFrp!IA|aEE{o!^s~)<<?C_<4be5X71Qhd(to<p}iD?WI=Z;$%8EO
zf_i!itI@6C&%#^Cw*>IL60|7vh!H%=uLYK5V!}VkW6@{e7eE#P#-*0hmc%qQw=^|z
z*Or)TSH!hzL9=L#Xv^Z7;$(o<@|^jyIb7t96?H_4I^NTELUn3ulhv7IhH}>=4{!OD
zn#9_I7};hPxRkk#YSNm!&ZPQJ*4V7^QcH3^YymDyLHH!X2LX-!?Nh2O`9)HdO+f5t
z;1|H=m8-1&mZm<gwS@C)WBKh7_|vv8Xi{}n)e)=O6RFw*m1(}Etw>c^YBKd=Uy}@u
zTYSmgb1-ilrf94+Dp%diDT8vl5YeMZS_T?ZFj9u8CvVK{KWPAeoTai1_-eDfz{x6E
zkpJXbrob1$N|s?&EHGL=n$^6honuncj1c4^&3YjJ(XzUrRZ5ymsxXE?JIjEsCOMma
zgZiezN6)E(MN*WIDn0)ou9?KVntaZIyk!gpcUdN+_Q(<<)-b0DBHkuutX!f}PdPVj
zNDC?DF9>PpbUN(0)v34=6;i^tt6noo?bSg&L$jtQpf$g)yr%p;m5Q3vhxB7LQvB4D
zHKX)tk>-!EmN`SPUJ8**VT5!LBioEMW&2Q+lx7RnP9@*2O1|9`GL0en$TCujIS3EX
zS4u<1F+?U=CS;P@WX>Ei@1wr>A&g;5$TEftb(UeRQe2+CQUGyq_0KY_O^P#T4O!W|
z^Ib3k=_}1aTwjP8Lv}FBgyfv(Y$03DzLPKIdx@UQ<EKM;tQ|W^&bS3q+`0S*><{*k
zAyCPxpp_n||Ae%&dZ?#@PyzI!Qt4wR%R}lhM0Z(c48dKN3E4wB%tI<E%mVf~T}Ttk
zzeEQ>bHN%=LOiFr^5YHaqfkl-^-%~l{CA<koOMwo#e<SoNQJm^kAZ%9r4ITZ^0rw<
zDgmUZl!90bxLmT!#KJ#mK6plvIUe9!6d*-bj3MutW!Pe=JP=ELlIp^8e2dtlTd9zN
z*RrbgH%*$e-t0&(71Wp7QzgA3q!Zf({N!<b<#ZQy<xn-XnIffxdG_lJj+-t@1^x0O
z)bwL8Ytz(~VNvo4($Ygxejpj$2Q88D<-wy;=okW=EF+J(BGxeWNLC;?gC`}wG2~CP
zOsMFqa(_tw%EzcHHzdjIUnoI3TQd7=M4BUknMv;_q$aXB<rv6Idk(t#M8yt@AyC!T
zs@EeD=;6->b`T0(pM)SgT=<61kk82J5v7PJfI&SA8YfUTjqoTfW_=*V9ho6mSPDxP
z;RKN!r<LNf(Q_+#<7{E>PXh%`>Rb7PP`k)vfl2Hc5=<iS<~-A=*>Y?7Z4khBfF&4$
z+{6@O?`fVxI5x!veJHl^Kn0GB2WLR4G;+x!;%p+l5!4_y1SOnc7M~vf6cO_Xrk-ig
zT=BkHBKEnj>E%Fy#=8XbvE%)NJqJBd|DMDBj}gRw12l*r(&DlE64qw$mp=k>K%jT<
zxX|%VEStuA&hG;;fQb1S6b%R}@(F@1^|i^u&7L0QF2MVE&dd2Oa45egjC)dw56uAx
z&x`6m&NVbNFw{D9&KH2#qJj`m#Q3=D4Cg{^8zv68MnUt(v6Vc|wC-jRBOvE53bN!H
z<YAIe%C(U95fmUc({Pg)d^|u{C8+oK35+m+7S8@4jsUTPV1!B^1$GS-kRX%5;R1Nq
z4^mmEUTBN}5y3(Yh+=p_i<(xDs?G4YvJ<H-??MVEDX|)H*o$%qB7MO5P83k!EGLQ}
z_9KNu95s9+s4>v>U-ELK0YMx*0|Gzp65{YtKWG#{CoJedcIf5KjCjurR?rtuj08Op
zLrlT@ASbtjaHT00QLHG!;h!gO5=AvUzFSbh2Nq1gXMzgT3uu{$VBmu%rUb3j6oP%!
z$3qNJPa!p@pgAY%dWjZ;uY=t9ddyNq;(<63lq&ojdOwNYI;>@qvsfojVaOkX6>xxs
z<35)WbsXa4B5PUwI23%yTBDK}=Mw%;AP<sREwDoWo%$G9>{7~788bIT%nkGVZ!-mp
zXTud;H_O(T{eV}D<uOCUEkgsa)Oj^ATk9=b>$<5TW~z;tYUALO*A&TXiWil{%PZrB
z4Y9)ZNMU>2UKg{sML?I3SGaC;E)6A=3a9=~fyttt-+!-^QaP8p!Zlmhm@beI=p0L3
zFK>Be$Mqer?7qG`yrnl<-50Lf7cTCHR3w2qEx`w-@~Fu*KM;2`#vGjyN9X*&8sO7{
zqWQtwI#Wzn648}Jb*1yYaYqRWikFs$nc{?Ew`zcn=a*dDd3ERV{?+=|yB2rG@(-`&
zAO6v$xTWa1r!GIWTphL4#_OBI)|%TTo1-P|i<))!=9qhX#JxS{?v1#6*WCL)qUvp@
z>7}N4RZFa@Jpy33s&n!1`_8(!!?j*f7pvG5so1pYj8^PgJn*yXrX>wjVQF>D*%EQK
zta#U)TjHfP>#q8kt0Us-Sp8howR=gm?sP35h&r2ZgVG49VTFrUcP#A#@kmqKcN=ar
ztZt7s?h04zTDk}pR9HjX%H!8(UwQKSldGfA`d!P+?dDCf=3SBIUD4(}%etS}cgMT;
zglo3lZfc7)?Tj?-j5h6lJulMKx4bXDW$W_5cMe0DYMWj;bp4R1-dXj9dmoK#eRQqn
zbL-oB!miG^t97;JdyO}%BCeg+&GE)oQjD%>V|Tc+d$}M|*&XlN`JZO~Y9`z>6zw{-
ztbWhc@nIiL)ifuDY0A~`(o-)yb*rLdwQ5oQyfI!`2M_Z{u!F#UgoZl5^CV4ajYNfZ
z*|6Ai#T+--=8q=&6d3-igdQvSS7G<QJI5hKL%i0#IPk}V>$Q!G1J4g87`nKZhQ3(f
zeEtZ0hP!J~y=JYAS8lzT2gO=c|FJnSL0<GRyb1my`G^1I9teYs1s_sM>;lE*3+gN8
z+xdmq6TY^4K^reBzIO5I#TRE{726{f+iz|QSL}-x^)INuYD{P_$*%+7fg$sBU)hl@
z^cyb6;VSBlZS<iM^&8ujNbl@AY*N12&Kz<vZ+6j#%Cv88QzG5nlLrBBn|n9G<41e8
zg8k!81EhF|q7NIGcW4G_RRQGsP6>^484c;)aWz5ApBT{RCnojb3e8XQ>BEJ_pV&1>
zJ2mKE)uTVsrhK<q0g2yjrIBt^0xcLOCOj||lVuRLzrdasn2rPnHoyckBnF6EVfa&b
zQNwu+WGR5sz?p4W#fyrwAREJ74iF=kq{W}xA26saO$#wW8TU%OCrD^=?^ek9mRFPb
zlcpxSGV;|+CC<p#B>ASExl5UruOWq*VIM~FeNV$)C6*z35mbOD6|;~b>=;mllp^I;
z4U#GQh60wx8CVu^{+`{NLpLSL{9utD0oKYJbiw{5RAhc09bY7@pEy;wc+Y`w{zb?J
zSRLeYL=Dp!q=<q_4V(l>1o=Mn!G%)L4Z)j5aiB_E(7u7*CgeF_<`;G0q-V$uJ#-Vv
zfz3qL6LA5td0^d#1q@cpWDNe#AjZGKFYpprL?TmB8*bejYuz7#zk&l{`@#96>v{J1
z!$cs{a!b<^FQ|_dbVmxh7xcFc1&d=Z*Q^=p<Hn+xu{>fd4_9oCRrE(H`rk7S+%^?0
z>0jQrW^(5Y{vgj8x1PAGROFizl)_|&F|W;EJbO!17PpiveKBHb3~L+L4UVPmh@mdb
z)DbCJhRj_9g?<KpcU{m4KULJjq=|aSR#{1OKvQX*4mMo8CU4Z41Mx>Lp$-uO$(<hF
zo-{-Vq?KH$CkT6B(+dtZ76m49w@!<p0pX1X1U$MI)pP2g+{Hr>U+Vk-di1OzZQF<}
zC`sirmY<>}3bx%QJ3I<_SksFN5Xi`aAOLG=Z%B!LWYDCA5+i4lWkOnyEU045b2?T%
zrw<}?Ow5=Jza^iPuw>2<GC*pJ6cRGb8Ht#uQu0YXLCB*HX<m~z{}M3|l_BOqL5mDF
zQz=<%Qq0pGtd)G_Z!$xgI>|Tn9CN2=iIUO~5s&z0NyLK!nI<V->M5l_fejJym~#n&
zLKdl2P$UB)o?n1q0mUpi#6c<X4H5C!a*BcS<oxnL43jU5cpj`x@`JM2XbdN&EE7uQ
zZV%aW_A<Nleh_^W@Q;KF*a8G7Y#|W{<?5HR5Cq1Vo>h~H*c8eS8HgAM#COn3<kEu}
zM>~etCd-U<XL*1V@-SwJadaV7Qh;J6A{^bMdxP(Aq<u#rUkC!6TxFL9CQwEMKE#Cb
z=ZshW8xi6ZK@Zy}`KO*z86Z`)<ja<T%O$&Dt3NA`NDz-?^mbW@b4rSzda_Qb<Pb}n
z6yjVZLYzlIhy!Anl&Fc-q`xy{6zd%P<S}@qA4D|UlOh`GiH$`x2W1hBEVN3BXfnPl
zcvvdw7^<YRj67zFSo7GitUz!EWwFf|Dx|YahKMGuW<f-=lp&%i9h`MaQVLiDv!yVz
zR$Lj|((u#`n*Rp8Okk!19FKee?}uHz3*bd08AJROkg$u5fNq>o_{TAN0g5J4*+^1~
zAV!!5>%JBC&5irKL?F?IJLLF_7<LJ)8;V(DpSZ5K;M&h$z!01*`5CmHKr4inERPV;
zCGu~A3O3vT+$1F=$Z{Th2SiapQ<|vY&oG1SXpy25Q33LZ{Fl*s8ZBH_vqS{^v*`D`
zXkml!zlYZEqlIgM_}0rv;gEPZSpcGN9(xcG1Mpu#>Nr||fYueX5ZCfwMe8}V7SYO$
z^s&vvk0ljx7M<tOx{4Ng6?Q`YkI?!WTF;~Pb+mA0Ord!G8aiJ<YY8oa<4MI5l<fdN
z!d~UDM2@SL$OAtC*+mX4h1*vlqas+Q16rko+l`;Z?K{J}kFPP0d|<8!ySBV;STi4)
z|11>0Uf^8OM2wpNZWrhQUpk!e%Jx|0?nveC2f^>fO>t*cZUBErr6d4e`(OY*ZZOa9
z`*ak)`N2@Ugx}*i@OzbQ_iqWlH#El@wnrMaM;p4A4rYS+^(2N)hw|~p&8w9+8do2U
zH13Ku_Cy+cUUx?uk1T7}tLs<VzttUY>R9D(?0yi`4tTx(do4FlL|l7v;B^4)S$KWT
z)v?~OD^j}o!|e##L0Y~6Xn#xw?QBla?jzy9N~ob$5wj-_&?!t_i?}}nnxFgxGzWRX
zzX_TnBzd~edBjY=QSLajn|fm_eMqBzqf3eOj?P1F<(qBHArtdvJAFv6eX~P}bXQLv
z1iY>9bHL-rRR)Or;}-f*J@eyM2I(yYkl#BR8t8ZQG^BXPR01*IsV6>e^`UOfJ8kr#
zEyi~?X^`&HV9ebB$_>hQwF*f5uAWBPpaeQY@vMdN;<R~}*HF~&mx*`;j?q!$)K|)K
zgH%vKr=T<(HbB+zIYkPafZ`=524U3%yrUW!-<o9zLdoGz5K2z`0r}t@o@G#_3_mTa
ze^CR9VO)iX$y5xp2G;l+D4t~{XHxO3PN9!X+_O+NO0(u?wR3<~a$%7<Z3=mWv_Tnr
zNXUt2KwYH0K=X!Rh4cj}wdvEef&vtzWi805ewFH^=5#@s56XotWNrmj%rd%=at5B)
z7SgeKujQv&F{B!+PlZdAln-$KuH*qKz(Tq63>ktlItj^$PWnPnl~plRuqiudP%~3w
z&602G88UeaB^PU-GqajGOR!Dy8QUaLsi#y{L@SUQtBRPAb<Rf6Tc_lcdV)|zA5y<o
zAk{+}dL!ySP|^cd$)$Q`3zO(=TM(HPV&oF!Lz*3uZ|a##p(~|HLvQM&f*x_qo>Xdy
zl2Xh;I6-guV?9z>>KT&J4yv1>{ni1!Ay(*1#gQmh#yMmCl3(h{%6Mb0C{)B2Cvltm
z0b9cnL~e$dTuS4R{O-BpP;pLGbcuu-0JoI@ZYyDFY+RNctIe6BR7wE{lPs(ziQ60@
zE5U7mdZB;FqXKZ7DHq3|i^~r=Lbfd2W)3k)%w#9H%?!9L_ji;@rGoEp0&a8WEPJ^W
z3(DA#tT-y<n6q8^2ZGz|(6>G(`KO*z86Z`Q<jYoot5J64#%;-d4zin!a2dxT|C(i3
zmsCcYddif<abG7m?hAn9Kz8AgX98B6UWSlOYy<FXk}|z=6mVQm296{0i%+Q9ACYm~
z7o@aF9GCH(L5~zV_B#@lddj1xl(mm}Q~nYa<RofrRH9PPP-&W~J*}nz$1O`Z4!<O0
zi@<lpauXGN<si|>&RUZouLt&Y`%%9xm_c1Q8SuiHB~d4AByK!%iCQxh?DEKLh^S6b
zaFcG0h>Q@=@vosp&>PMef<38V&QM+pWl3KYtokOW{nG(atL;I(X+VT=GRn)4*Q+5@
z6f)dJSog<t`u^5jQhB+O6_=H{cC~^88+J{x^lOS&0k)&T?w0EWT}l>?F;0@*tjb4w
zPU8ttQK?Gm)6ED9pI^}Q;%T#k#{|_y9<;uAbd);}Ve|~BPkHfpm@WW{V-|PAO52;~
zMI59J`o%Mxv&}gX(FitG>&|gMD8mE0Tcy}bh>5nqCwx3l-L~alE4f<owbBK3Tx)yI
za@n$^UZ$6~tZ)mKHEl;+Yktm<)HzuS7EI!nN)^d?w(|j`_SkSEa9kBm0o0RJ^#Vio
z_3DVL?c&G<s2C$gBN}1^=g1MkUQ$#Thyd|CQUs$THq6H8-$lO#w4Oq19;_rd@8n-c
zA6!MrHeOLZfQ#RQAavZz#1l0FE<pUZ(E2=Bf_4CO<NH7ZEuN1fr=$fHwBAHOJVY>n
zQMaP?@Yuc-lOd<{8G3#KxDQ~wLufq|wlB}A#V1vG7BeID{e7U|(BOoJG?YM(Lc_s#
z3(E7{jG%(u7Sr7SZRk&$D}Zv29MC`IwO8!@B^&p7{-=<~CG6(NCVfnF_IHhxs$kvh
z%2L~J4tMN(eKOpBYK=L)?kEp8?1(k=MBvZT8#ecWC_w$`3VqPyr(yp%9OrY@#N91-
z3Je6uJJNvsL#yuZsToya!bn-GVwTQ`rE~rOs)o+J%&Zw|SBh?GBksMo%|&6yv8efY
zSbO|^oo#X3(*6iJAh2S)Z7GadDk7GOsHJj&LG3YYl3u*9^!UmX3+6R#cf6$XrIr_3
z{<Q7#p@qK1f;gO<9K1ZZ)c&$^x&Pbx_l!-TG<G)LgA)nWQCkhn52dZK((RGb?F;HP
z*zsQMTrkHic?-;KlPzW{kC1H!3kujhK*Hm$s<5^!q1dcDM8}KDuZ6CL;&$h9&8h~n
zb<})BDIDf|Xsz3d<N3~Od#>(T_D1vFx63=D<z0*W*IPPcExRHuyJ9T^k(PnAmIEJA
z6$QQY()oDZ=2%@<q^>Jkw|&X*enlg05U6fUo*eyrw7O?W`?LDCrTy`mrdI~953Y7a
zYr11K2O>2Ge&mSOoLK6QSJbR%qZOMnw*lO)Z+d0+`s`|Lw0_$%v);PpyXS74Tb+rv
z_Jpf@mb<`;w|1_M+!(uA6lv{=wf09^`(O7(TaPdAU$1Xk34H5`c-yv{TW&nL!o;`k
zSW*9l0oCno-__sHi&Bnwb7y$l(Ma>rdrF175dv%5SI>TL0(KhI^j#l}Ctr9m+PWuP
zyJz_nSn=+?|7H7MZ;v;0gFbI(-SWU%%{EB4y_b%-IzMcu8a5?%gE-=qJ=gc#s@}GG
z1{D5B;-cRFqsM5dTvE*+RZ#l6JH3irdkB0O>sJXQR_(9CEe8_4G}Y3*IIw1SlYIow
z55{YEfS9Cq5AG>QoW$rKi@9Rs-9hVL?tx6gS`6C-u&v9g76z^i-YzP^CjZ)#3kTxP
zvX{DE=z4j3ta?|Zde_ZM;cD2sad2Vat4CnF03^Bp(F_eG4C`ut9rzv$+-Leq2D|7t
z%6c7xZ~%6z<ET^dwwXRsqkY?=L^`kYs9N<y4RfSX{X+wNq+b6+qY`OLj|BpLRMF>v
z$4|Np5cgdLeUwqZt7MSYltH%d*3d}T(~#ob#uAA6QwDv0s#YI$=zeOXk6O$>HEEEx
zYtY}>qaSQg{cWuR3iG%1G|~-9q?=TO9h$%0q=8JmDk!#OG(bE9zq>nO?h(Zmsk1dQ
zpP@>rPIK*vm*c4cwyQjllV|`IQaSG|pi$fY8l3|cN_)38Ax%y-se*uwzj?6ogwzNo
zF40gX<gkbV8oybj6=ODuPCZcoBf;wAO$D7nSp_s^PsNldD60&nB|iXAYJ^b|D?bN&
z+jG86<CB#=bGpe!$V+}#Dle&qp8*g-l%EoOMgc^wZ^+0MK!PewSqrML)b9L{E@ygB
zG)r{=vCUFRCQDgkdR|akTmiF85-j0+tWr=W{K=u#!W%A_TtX7q(F}_t8sJe?NjQ`T
zpk^L^<r%;x_a5R_8Q4^b`A`%9o60#5TBUzWN=+P+52vPo!DCSObA~4kS5Ax1i?jqu
z2=p)yN^BtENbpsJ4HPVJIMk0vOFc=B`UD2Gf`!){1V_mBK;#C8#3QFB*pLgSt0kS0
z0z#53qMawq+J<}@QE3nk3x{+XPew{a_%FhV5pFMw2}6mGs7x`6J0=Mun&Pk?#c-lM
z`6HyBM=OjL;bT!XBG6m_C5S2BM>;-b_wduOZ5IwuV=W|iHS<x3`%lRBd<iVV_1rU4
z<_fa^FSnW?p|GpUQ@i{g&AH3(mZkP~TYIc+Z=`K+w5|8`6Op$4Ve5VnRvVT^Uz}Wr
zO@iH5yTh=JuRfZ;<L230`Te&ms$ZIYVRoe<*0>|mxZ@^R1JR28iw9t_e(A^yM^=hf
ztD>cySNqp1-LI5gFZ*^y%(-cCU%b@y(t#HaEI+z(CR)0A5kf_gctfMOYpurp%E9Xg
zSNu00kJj`os^7C#u8W)H;uZB7d+0u@l=jXw=34gJ#GP|is&w<m2^%`ncfVB;3A+L+
zCb{>msAOsL*DfrmpEF)I{!2myA-@h_V?SLtP)gr$^tVypr|JHD_4gG@q*cAv{u1RI
z1$2L*`i;UK2RPnrH9*Ll+v$D>^X3i)>D>j8_^o^z=(h@Ki1U_%&?V~rX3bkJy1&}^
zR;32%1`Wn((+w0W-`Z9*U{}6vQ9;_b?JDqjyI2WyhR9rAfd-))eCh_C|A%L_UR1)4
zHv?26F<Gas;A~b9J3cXE@?0tTz-gGAGqg0Tkxe;T*p#D6tumS7^|Z}8xN^c~B3M0j
zuO`=Vc}-A=f=!$uuP|gz(huG*NJ>KbC(dvz&O+q40bI5qyMOtwU|{ar1_cIWNKQHz
z24Td4cAE2KPDXzLaZ;LU{x89KLn$7bBy$YT5^h5ph)v<w4oo_R)|b(G8Z9zSO(2Dn
z!3}jzs3*@spSba*A}6RyeHninay7yP8u)7<#Ldw9PbyWn-ZZW;{lKbz>SkzLb<EZn
zu{8oPs;<3b(GtXzmx-7jR#|GRg+q_{XDz}%lkJ{Cou~eYQXAC?O07c6sJ<V_gVI0U
zTiRPo|Dc@it!92up#nPhD0=<hFpAO?Q8`skK`j)77>PIF9ciN?XBw%Ov&!@Ppdl28
zDA;wGQ`JONR`NKK-b7JEWtC%8K`t^^mx|4jds{XLQ?gVEg=Z;WWai+87FPQkD6MqT
z7m;zRC*!tAdVkiqMFx<VP-@&79$?%W2WQO}jvP7a3V7kZ6C%HaV-X<0JWn=q5Sbhw
zgPh@F0dd&E1$uC)gbps$nV!JQk@)u^l+Q6-c>$A|(uU|6j7df(>VE_!T;h_pF=V5`
z%Kr=^e_})yXO2j`Dh}3rQt*F(_^mh=KLldKvDmiiSYvhoj@QB60dN?&Ig;P}8oQ=#
zziqUHL9}3XN38Csv2o>*TgKLeN(o~`LF?K;?(jf^cV%<LChlHsjTE%5Jifw*3$}<O
z+NQ%1op4aU%|YB(&{s~sQAGEZGH*CkKzow{TBs9>l9$3SeAXcT|70&K97k5dZq?Mn
zn7LaOk0Z+i`hge5jN{0xf$Ub5AyL+DRotsX3=A-`Qxq0P;{yyZ(;)vIq~rf9S}SPX
zK<m%ZBI8P24#jOipFWh*SGzyM^xM(GQTges9c%zUg^^C9h3h8SXqIc!QUIr2iK`aH
zi8YzyOx#@VNv(Wjhd2KLq&tN}?j0b+A(vxMk+}T*=39#NxE|)~$$D7$@3<aT_cqf%
zsHJ-wnIF`tfX=uE6L}+)L)`rjU~P2zpWpTAa)gb}O-QRB-gU}5;dVhBxWvF&b)7_~
zp6n;?7C8ymM!=a?y%Y!Vs1nb-&QKDjbSnpE)eT=@o7^?x<~=pP7h($vI1H%{zyU_@
zIdZ>`pgPO@r{S(W2!zWRuuBOlI1J}K7l4+BZX<RWhbPF-zyUctG>1pr$c3vOAA5=a
z9}p{qo#Zhf;Ob53qKezrylc9vx+QnGwkuZK8>#J$TKg7M?;ETMh0;_2GP9-5m%3l*
zUVi)=yQ4*oVJiv=jn<FvX()U7hZJoph+FOJ21`N%<oy7$z^lbQ2I~6;T~Cqn`-L>v
z8BK=8B~8{0#D-0##YRb8oQW4y@W>p%w-X%*E@W<+)B_wzf(j77-wKQ@+(_uhtD8LD
zao-gGKOt}dzq=TS<aguQhV`1du(sqqZDm45X<Nku2bhs$u!y9XSAf{CnA=i43%1uM
z(_?>OscDc%1>i<*)X>cW2g4GX7Ti#yfK%3R4#$HPLCg%?#0i{C`Vx^0LEa-XCfsbI
z8vG?D6*ZtGC-4Hs0Pq6jkndSIcsl9wO~4`B*4eHN!^A6Vf^f!o)IUD%zlf?Z(p5l9
zy2Aw^fz&Z}8NxAu2kCHzv<@W{z*bogd6UOKIX;s_5Sdrk<fk{sh4G0k7dS6}2eSPt
zw#Wz&X)SWQur=J)6D{mrFu+n>*}M`AyV`HL4zE7(`Xhh!)Q>77U57z>|8s+Dy<uP2
zSpJ@|7J6bnNOvU$BAnNfP|~(G5aydIFt|u=S!_wk;GFRc{O%qHD_a(tYDG9MBBw$<
zYq}(JV=M+2??Si4c^-Ny_B}E?19-|@1Tw4Xv!{9N$^Q#-TgH0Z41_31(S!OZTu{Hp
zG<;y|jB85}V*t9)Fo-S~L>COA3!v_UstM3VSsncnUBfJ^>N0T!a@eF!P-yiqb&{@q
z-ndp^mJ?4yDN;)y)DQLqQa}7Xpfc;E{<D@osXKiPN&gb71*ZhLS{z|V;~LYHUM-;N
zxu;WM&8V<uR9G`W-6ztlr_1Z<WxAHRuBy+h8JStT52O1xm0RF=&o#aY7RoX12^PwM
zdf?WUjWz;W;SDlwgPKU15F_4TIXM8~@;W4i!e%B_+94!W>d=w2_9c-V9Bab)6Yhb5
z`yr4LrQTBRaPtOE{8<K(my{2y!&DHTTn?Bf0fFz4;^4g-u))wSWs^(VK8D$3nUv(1
zU^O#gC7n{FELO5i_7}052FA7J0a!`v;B3*s$x*!Jdd8J0Wf9p+!V1PAcYYZy+$kW?
zo)nM+DKK7h3CTCcYnC*;wjFaJnPSIIJ3!cnPW+6AWjs4E4H2_^2Pn95cfv!CJEBM@
z2lH8(IRfEKKKb}G_LKkLkn(SE?3KXa*bwY(yV;DV&;jgO<A$=0527bD48dkba=n)8
zmc|u#w#1wr5oZV72&K8Db*!fyNVF6$HNMQQS(?Jyrm&@HJ+E}>bR@3^?vrxXE}xA!
zTUVwd&Q44i(K_PgwJ%M)FtO6NYKxY)ulB&TyAYy}Xq_K0C27alf2*KyOJ6trMhD%u
zoq3~E1$2gF=eN2l@pqx2qy-5ZEysjg_nFNtGF1Nx$^UWVWoXN%FGKu4V@V7GgE9j_
zEh3s(gZL!JW@n8_hq$4~mUN{+&url*yu^gL{9)moE&gQu<l-@#FZJq{wEP`8JX?^N
zoHbyn;fgerbO`x9Cm$Q^^PK2^<W&F3A<w|6!M>CHWB7SA|4n?r6?EjeRlJ_|KZBpB
ztobrh$XAMcah?N8u)u#_Fb>xv;y$(3kuzR$b)#TFtr7X358x6KTqwvDpMo03E%0nS
zE)lo|o#Juo7k2`wc<wBBiT_9N5RCX=A+(Z)_4&z-kkT!YLvT3-+>0StdJZ1L|ERz-
zbns~Zu~S3h0iSlvZ2+wyv`}dTw{yTvBBSUe6VMn^M5g-%r2Ygg6fBW*#{4Q$KSc{A
zzC=LF{{vDVphXx<!W<C}02vz|mvJ(m@Yun4xEhG!dyx7eSVBqi3YWfPN00Xm9qc{Q
z@9FL7JKR6G?<5?Mr_T%Y1%iV%Z4z;Sb|*}>a2xe*-V7PR9~JnIP<_B2()5RFif;V{
zrTZCW_!-)ILRkNfs{MPa;qNJTgmV9aGXIRq`#Y*^J+FSTK9*M>$*W&Ezm~US-tv*U
zj&|Ikz)GBe|1QVyk-|b(B`C1&D#4i`&KeS6q)QVNSjhmO?v<<Qrp1PP6g(1n2KrGN
z?g~yQkytm|5-KEMo^&{uPA=!a@VTo`CN#uLOR4pDb%ZR{&|87WTdZCTEH+&JQbGyt
zbw@)&1y4u{@ia);HS}J{JR{y-IvH^<zC?@(WC>MVc1Po<>AX1PqeNoeWRIDuBBrW@
z3Y`$!U|F<ZZc317z;>&P?&?U$IVIK7en(Y6*OSEXT(>!vDk3&_0zJul7HSp(i+u~1
zF1JQh#dkI6y%pXWZ{Bi8_a*7INTj_MooTNnPA%L+DrQZR!POd23<C)|pd=qLF6D+q
zT5jk}%Z)h2k02y`1XO{c3Ti<9a3#3bp>b63grw#?xyCi<qfPhGp^sjwBg_W`l~6Vl
zQgHtT)^7!^CN%`lw1R;vtz765i-pu7F=0(IAw1I(f-5Z{y2OM?4Pio3yWk=(h399a
zm1`C=5Gxj`L0U&!!<&2VQt(VTlyrUAz5Ol)&xFxJo5RgJ??Tr%CmP8&8j`PrXWHw)
zl~z=AiA6=Kilj3p)4?+>9k|lcp-W7MR1Ha2mrMuGv~=J~ONTBo9a5hY>l9v1>II%@
z39&$_o{p|mL0y!oC2nqw=WmPKTjRys;^n>gS9xIFxijt>SkG_1<21J^!W7($yHvgO
zM7X3eQqXjlGSdnutgS|rXs=nD?x~n^#m}uxmzf26VRKxg4VzlRZ9`$>sfgy(hbl^?
bj$4~P#7GgU<X3koAc*+=$CkW<b?W~EkC9Qp

literal 0
HcmV?d00001

diff --git a/benchmarks/lib/__pycache__/ready_checker.cpython-312.pyc b/benchmarks/lib/__pycache__/ready_checker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b4dddc593126d84b9f843d0cbecb980ea7957b8a
GIT binary patch
literal 2862
zcma)8U2Gf25#HnR?#LsLq$EmJB-1`iiDNpk7)5fFDy>^LmKs~Ki$?tmUx*WLWu1IK
z%-)`5Nyoxyio!_^v@U`wKv6&seMn#z^<$rkq_)wAzL=E(u~!!e-~z4R=vsx-pbwoT
zc_NdhX!me8v%531Gqd~6-tQGfM$pXY4~-*ngzmFW*pxQ&XdReMq@yCzIXz->MXpIB
z#YmI#MII<`MlGQza7d5pf+<>3QL<vim=!O^ITVLSS9B3ex`bnT4D&15aG4I(<2a$q
z@FsA4DXAyFFBFq&k$h_X$Tz8B8q~n9y5tbGyo}4|4f~vmZN1_cHdP7Mbi>B3JNAH?
zJDcZ%D1BYG9&pgh^FiWO{JMu-I_ufxAk)=3Wmh~J^mL7U&7*86Nm?4EC8i=%P%arw
zVabJc495=A)UdGQ(UObHj;*^vieO6CK#XE?K{Epp`W~^%LMKEd0{;fQkA4$DXby3Z
zSjwDiwiOurbi39b@OickRe|nV)4A)BYi-@CNTpCy=Y9TXunj-w!&wed*xXk0d0o)O
z>(Vv8)jx)+QXKih|L4Uz9G7a$=lxidi_^rO-MBBUB*R{ZGC7d{uXEShF;``fNq6)@
z&X+q;fJ9F?-l1WJION08IzNOE=>f^Ujzq|HB<+<riXb2PoFBO!4}Ew8>GB5T<)_h2
z{s)49s-iD`)<Gr1|I5BFmLs~%p3pXj761fY`HK3naITv06X5wt@H|I{LvL61g<OaF
zi7*>`zVa<!IdtVdfb3Ii`r-nbLRXeX5giDvtPF-+hdzl2&!N}Qm9MX&i~MV7l>@D3
zM$tHOxzz}p;oxD`TC>08SGjybi@@f|DztBF25n+fvpcAyj=BiYu&}CK&<s;sG%*YS
zg0bpSjZg;RMQoRsEsdOa$K<A^6Xcvb-Q<|vZWK<d-&h7y?wVZ=$5n<-3Sd-Wt+HmC
zdx{;vw$!>1-o!jpU^42eL6<vPpG5SudPciwSe~Uas56yS7N=pWZOE&Kb-bi`CY@Ht
zpHnTv_P}O-&)g^L0XV{}EMmHfu?-<m!YbNlT00i5kZ)z>)n+B>N=#Qgt%}tO)Ah<_
zC{IhC3HIHJW4pL*Kr^6jbrSn6&GhgLAr6^VPc5kwGP_qzbqBll)AT<#kL3#7Wy0;+
z*9>(Q%B|F1dHpGN6xhzPO1)>Ya}>M^i+DX22Dm=8p<}mPRsD@cjZ}Sg1DjgK#d=k3
zGta6U1Y4S6gVid8)n)_Eg~~2aheD~9LAL}eS{e<ao^4RV%1S;G^md=1Rs|>Q$~&7+
z!xaJh5hN>^ES1WR$I3QgRWuMP1d2Fe6*AyqR|C!tM6aT26bBN)OOV>-Kq#AziwP@P
zfutGEGNqLu`?6_Zo4)MWHZD_#G&2m-?9ducAh;&Rm3)%KK#Q=N+;oPpDoR-K3}QN5
zWhUHZfe2R%yNRL|h%JbB;+EQZ36z#gCCy^a2dSp<lI{_WLBeJB7>2_3@hb&tRSFfO
zaum>a4%4F-y{XT?czy~OOk=T7S)<F2UASPHR-uE+<`lbL*GkQ67n8BdTF}FA!17%R
zcbMd1wG_PWB3wy-Lmyp2yU(Ibb|<aY(&~14WUEw5PhNWEp0a<-yQ>_%G<z=^zmpul
zQMfbymG=+dk>~D4=l>E{>Zx44Z@#W%{vkzWu@OUZs-Eioa8Uil<j&}1ZFF*b^o82s
z3ztvT2cCL2UK<#{{MCE=4s1#9KKZLd?;WbC&)q1zfAV*;AI#RCKfS$g?(&&>GV`Ok
zH|O3_?j{d0e*Vq*D`)HJ!FNu)_1$_VyD49l-%i#u{S7gu^#Ad|Gxev(e?7I!N7UZO
zC^FRhW3eHk?9k@%pB%4e2RBb&J^l84efZ$x0(kcjF&B@Z?8t5k?LWA+|Hc#BxtA`3
z_1qTshxEaF1G!D>s<m}?dthQGGjS&~(U?H#zD6(V8F-vyx?ko{viH)NMh;f`=WY^Z
zhj;o4wZ6jN5eLp>vJD>S$BiWFnf&PS7rQk6<(`9FfA0i0ljA<%PrNjf;eY!j<>ax*
z%_MhnLcFOQWc-*6(>Gr{0<*V9xS5oAYgAx-o{is{;6UcqvA&sva61-(@!K-T_(YWP
z8DVBfy4@cG$$Z544#4RF`}4>vfmAB#PPtSf2cS>-*(V2|Aj$r?#@a`{1)l!!c$B(f
zNSGnQ{)Ad^Q(B-|X#ZF7414T2y@wvb7m>s831VNc9NjbVaq>KL*>6uX1&|?*dnh7q
z{60$k2_@kBXO#OZTBxCgMhfjaP#+q8n3(2z>%F-K5A?%~+7N)kwx;@bl#!Y;(vVm`
ch6bK!#2F`}{=o**fy9fS+f{%g<FMer0R(RBd;kCd

literal 0
HcmV?d00001

diff --git a/benchmarks/lib/__pycache__/utils.cpython-312.pyc b/benchmarks/lib/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6a7d7e6474efe82a77885f9e505c90d36beeadfe
GIT binary patch
literal 3618
zcmai0T})iZ6`r|2`@aio7K{nt1v_>&$wC3!Nr{C*0UJB^IyI=0QKPHNy|ZxP?hkV>
zV9=tX%2Gj13RYX$R;YqoR1=X_Jfu~mR#n?4OMU2WO=NQ8O0N3Uw<S>J=c#Az{(vo{
z&aTeP+&OdR%$#$+bN=S{dk{2T__21|jnKc@q|{u+!R~Kia0jVK#X1@)^mqu{b8d*U
zdwz(Ap3{YdI3!}E@&t|fN`m%#RUl5{BJMbM3_hx&Jrj#F2Yh#_&RfEeheH>U>biwg
zH^E~y`}<3y4ZbiM@~Ix;QoY2jI#e8Ys6N>3pTQCTe;7k7f-Sx~Ib#Vj9Wg9tf|yiO
z49i1qnpBpwWISa#C^08#QYlKb<vM|~`R--RZa#wMc+*~BWQ;2h%Y!koJS-1Xta2Mg
zUW3c<11N*XnB?c$MsePY-Wf;e`><n9m=jfA6-=;5p=HnpXu_I?RdIz=9T_xcTdwf6
zL^YfdGGc~Poh!WRTH)s$8Heh&-`ZnSfzd;?^_EVUb7q`Iwd&1qQ-}sZmY3~0OpfY3
z&sO*`f9d@FKI16K!|2_F09*qo;+y@uCk$;so+4p$l!S*#QW;IibUaLnF{ztISWDUq
z@f1zSW_Z#dYIt}i{PxUXiYlYwYXbuZ_DpN$s4Xv*3>QorP7?~EloVC%g;CQ?8=bAK
zBfvR1+@host?3z)i7NNg+PK!*pPG)Esi>AT$q1EA5@n*J#Z#kjYP76rRFzG6ST=}#
zfE6C-{$8Incujiy#^AN<J^j*m`eHr(SG%vjC0)37{c88%h1tN=l`B{G)usZxQiQXF
zq?{ns0TaqB8R6~Dsw|%*P09KsF>ICyZ@J40mY7JXM7JD;OH&qTHkTDLNzzDBDJ@f3
z*NH9}+AN7UEiMJ#Pm)s_O(iXUgqW77nIvIY!jw!6%Is%3<aC-O)riYhkTQ=h2z3@7
z)UfrVUYob@$>QL78B8#vvi8lJt!5(Kn%2@$6GD!d(VLU6ef#zC*GQ|b4YM~NO(k2W
zbUo2pzKvloO`4i+w4`UO6G|#MMW`v6DXC~Hsmv=C{DRiOnM@Jmb0G65Ux_M$^B13Z
z{Y#yTol9MdUD>+xpO7tY?{-DaLf~n0<U#a)^w+I9SL1?^4K(H*=vd@wsBWcqHT3@F
zJkK3JvLlLhfqVc3kKPqN@Z9sj$C^Oig^o3BpFFeO_|lG3I2zcgt~laZaO9g&Ahi5e
z&L3W_&-q){r*i&tkNurFe`ofM?>_QhU*P^#5zN-Sy6MT)bUv-D%f8T-t8CBn$X~Vm
zM$UJ9)tB={*W)?g+3dM1Ip0+{#$CA-SPU#red=n=cc2sP`E$ruH6PoB>mh}aQe)1;
z+U^-3KLT(fh(R&HFeZGQQ#k-YfsFxz`M9uv;#d`K`G&*=bQ2FbAP7avb150`ODf<)
z)WRv{Af5$4s*QZVw~@~*q7FnkHp_e^RHLJSXon!*KB6sgOT5BsNa5bOQp7e6uykK4
zXR-jWn_0>?$Sfn9S<WG5MTt)>V_{q@X<~TIGO}j4jiUS{&TxQ}!P3tCKEs!Ie#*TY
z6Oh8s@pIe&I-nUgkCgaJr_kdW+>78w+z7i-6(BYL|K#81-mM1taO>x!m+x4XUSn35
zPCP8<WpGJnif3>J4}er$)O@-yhEt{iT4ELtsV(BOJer{;4O31k#1d3ZF)8SbEZ#6F
zV*wP1>nYi^gyB?5w*+%0O)R&f6PdEyXbHMzz#;(gDBuN%ibn)XFo+(fjZ6+6xA2s~
zJd(veWod%G1Y|a}?_e!uapz#g_!E$M^u$}eEU$#Nyp4GeYH0l6;=PM2m-gIZD6r!~
z4X1ARE_W|a?1`whd9`Ux`KaS#@niFkgMU8xhoS6?{aZ&b?eQoWTJHXt<7ssbglphl
zV0GeAZDdE}f-ggCH=O!{$;u<qAK3GuK<!<;a%RgP{;c&|kE+@}oLFyK?!6Pc9b0Yt
zH1y*7M6RkW>uY=BKMHJTxBN|O>VvWSW1GRX#CBEfc17ia>+9WWkoWZ$0TgOCm`kp8
z2YV_VfA!b))CiP$-ZMeOLV~&LZa<Kp<2wi3YEj6b_u$3AZ4L>XeG`v>>;4k|#-Tyt
zT*E&BV@Gfdl7MJTLW%>!nuJ2`WFgF6JR;Ipp|j0m!?)!apSEirw<IaLY#5ScumhQ)
z<_nf;gXwJb0ZZ-6?1d%c6p*jLRu!Se>0CwA>d6N!_gglDkD5EO6@8oPKPvh@iRUW%
zvaUY*0<c1saY+)(X_91lBneW~q|U}ZNt&3H^}-5e;9{#x+4+{gsGdS}U6LZ0cEDGI
z#qXO1EgKj=BWKydD?q-wh4P$F4BqY7MbPEzv3LRB?a3q7Zw`EE_d7PV6|;9+uDGTX
zJL9r)@)>iLtGyq>%0XjgpyDk>=UFtznM`@RjWMTxu4TYv`)CG0j6UKwihNKJ+rN@D
zjAqaY)CM=5h8VtqF#KlFP5uU&#t|WA;c2Cek#G!?!XnoOeW=9o0h}tM;bC>@`%shr
zf>mBT$UHw=7uJk$GG&G@4_u3d4MH_p*JkBmopePwdKylkEUkbUSbW=ND1^1;I<L!#
zVO8#$Jw8prQCM~!Gg8Tx^Lk2=b)yRg1%?>g$)I2!t>U$ls}sLE{kXY3*W8|M>d1Cn
z%{9gf?!sBTqC-`plDG_&A48TD)E}0>!~$APCepU$pe}kHq)}!z3&#y+18`#7J1qY*
z%Ftd|V=-s60|D1{`xi#<@>}luRs6)|TXHYDw|!OHKL3--y3azf|GGuD=Sv=W8Xmjr
zbME?Y>{8~v<7fHbiCxY}z;ZzZK_vz6)D80J%ZyY4u^fPuT5`m8X3HG|pEuI7LTEGN
zIKfDS5mu#GUiQ|-Y-?Z0*78GC@J;qm@VJFw>7tim$_#JJ1IhCk<6RfRm7gQ8{dfNp
z)#M$gan-ix$YW1^&QqV~+3fTy>ph#H^-K4EP?-1jKdgGFJgogo%$`3L-Mb?2?G55e
kd;u?q9tWFp!KOXLX8BW2>|x;p-TFzp+dQ+!X10d^1AG5Fy8r+H

literal 0
HcmV?d00001

diff --git a/benchmarks/lib/endpoint_request_func.py b/benchmarks/lib/endpoint_request_func.py
new file mode 100644
index 0000000..ed0fdec
--- /dev/null
+++ b/benchmarks/lib/endpoint_request_func.py
@@ -0,0 +1,777 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""The request function for API endpoints."""
+
+import io
+import json
+import os
+import sys
+import time
+import traceback
+from collections.abc import Awaitable
+from dataclasses import dataclass, field
+from typing import Any, Literal, Protocol
+
+import aiohttp
+import regex as re
+from tqdm.asyncio import tqdm
+
+AIOHTTP_TIMEOUT = aiohttp.ClientTimeout(total=6 * 60 * 60)
+
+
+class StreamedResponseHandler:
+    """Handles streaming HTTP responses by accumulating chunks until complete
+    messages are available."""
+
+    def __init__(self):
+        self.buffer = ""
+
+    def add_chunk(self, chunk_bytes: bytes) -> list[str]:
+        """Add a chunk of bytes to the buffer and return any complete
+        messages."""
+        chunk_str = chunk_bytes.decode("utf-8")
+        self.buffer += chunk_str
+
+        messages = []
+
+        # Split by double newlines (SSE message separator)
+        while "\n\n" in self.buffer:
+            message, self.buffer = self.buffer.split("\n\n", 1)
+            message = message.strip()
+            if message:
+                messages.append(message)
+
+        # if self.buffer is not empty, check if it is a complete message
+        # by removing data: prefix and check if it is a valid JSON
+        if self.buffer.startswith("data: "):
+            message_content = self.buffer.removeprefix("data: ").strip()
+            if message_content == "[DONE]":
+                messages.append(self.buffer.strip())
+                self.buffer = ""
+            elif message_content:
+                try:
+                    json.loads(message_content)
+                    messages.append(self.buffer.strip())
+                    self.buffer = ""
+                except json.JSONDecodeError:
+                    # Incomplete JSON, wait for more chunks.
+                    pass
+
+        return messages
+
+
+@dataclass
+class RequestFuncInput:
+    """The input for the request function."""
+
+    prompt: str | list[str]
+    api_url: str
+    prompt_len: int
+    output_len: int
+    model: str
+    model_name: str | None = None
+    logprobs: int | None = None
+    extra_headers: dict | None = None
+    extra_body: dict | None = None
+    multi_modal_content: dict | list[dict] | None = None
+    ignore_eos: bool = False
+    language: str | None = None
+    request_id: str | None = None
+
+
+@dataclass
+class RequestFuncOutput:
+    """The output of the request function including metrics."""
+
+    generated_text: str = ""
+    success: bool = False
+    latency: float = 0.0
+    output_tokens: int = 0
+    ttft: float = 0.0  # Time to first token
+    itl: list[float] = field(default_factory=list)  # list of inter-token latencies
+    tpot: float = 0.0  # avg next-token latencies
+    prompt_len: int = 0
+    error: str = ""
+    start_time: float = 0.0
+
+
+class RequestFunc(Protocol):
+    def __call__(
+        self,
+        request_func_input: RequestFuncInput,
+        session: aiohttp.ClientSession,
+        pbar: tqdm | None = None,
+    ) -> Awaitable[RequestFuncOutput]: ...
+
+
+def _validate_api_url(
+    api_url: str,
+    api_name: str,
+    expected_suffixes: str | set[str],
+) -> None:
+    if isinstance(expected_suffixes, str):
+        expected_suffixes = {expected_suffixes}
+
+    expected_suffixes = {*expected_suffixes, "profile"}
+
+    if not api_url.endswith(tuple(expected_suffixes)):
+        raise ValueError(f"{api_name} URL must end with one of: {expected_suffixes}.")
+
+
+def _update_payload_common(
+    payload: dict[str, Any],
+    request_func_input: RequestFuncInput,
+) -> None:
+    if request_func_input.ignore_eos:
+        payload["ignore_eos"] = request_func_input.ignore_eos
+    if request_func_input.extra_body:
+        payload.update(request_func_input.extra_body)
+
+
+def _update_headers_common(
+    headers: dict[str, Any],
+    request_func_input: RequestFuncInput,
+) -> None:
+    if request_func_input.extra_headers:
+        headers |= request_func_input.extra_headers
+    if request_func_input.request_id:
+        headers["x-request-id"] = request_func_input.request_id
+
+
+async def async_request_openai_completions(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    """The async request function for the OpenAI Completions API.
+
+    Args:
+        request_func_input: The input for the request function.
+        pbar: The progress bar to display the progress.
+
+    Returns:
+        The output of the request function.
+    """
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "OpenAI Completions API", "completions")
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "prompt": request_func_input.prompt,
+        "temperature": 0.0,
+        "repetition_penalty": 1.0,
+        "max_tokens": request_func_input.output_len,
+        "logprobs": request_func_input.logprobs,
+        "stream": True,
+        "stream_options": {
+            "include_usage": True,
+        },
+    }
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    output = RequestFuncOutput()
+    output.prompt_len = request_func_input.prompt_len
+
+    generated_text = ""
+    st = time.perf_counter()
+    output.start_time = st
+    most_recent_timestamp = st
+    try:
+        async with session.post(url=api_url, json=payload, headers=headers) as response:
+            if response.status == 200:
+                first_chunk_received = False
+                handler = StreamedResponseHandler()
+
+                async for chunk_bytes in response.content.iter_any():
+                    chunk_bytes = chunk_bytes.strip()
+                    if not chunk_bytes:
+                        continue
+
+                    messages = handler.add_chunk(chunk_bytes)
+                    for message in messages:
+                        # NOTE: SSE comments (often used as pings) start with
+                        # a colon. These are not JSON data payload and should
+                        # be skipped.
+                        if message.startswith(":"):
+                            continue
+
+                        chunk = message.removeprefix("data: ")
+
+                        if chunk != "[DONE]":
+                            data = json.loads(chunk)
+
+                            # NOTE: Some completion API might have a last
+                            # usage summary response without a token so we
+                            # want to check a token was generated
+                            if choices := data.get("choices"):
+                                # Note that text could be empty here
+                                # e.g. for special tokens
+                                text = choices[0].get("text")
+                                timestamp = time.perf_counter()
+                                # First token
+                                if not first_chunk_received:
+                                    first_chunk_received = True
+                                    ttft = time.perf_counter() - st
+                                    output.ttft = ttft
+
+                                # Decoding phase
+                                else:
+                                    output.itl.append(timestamp - most_recent_timestamp)
+
+                                most_recent_timestamp = timestamp
+                                generated_text += text or ""
+                            elif usage := data.get("usage"):
+                                output.output_tokens = usage.get("completion_tokens")
+                if first_chunk_received:
+                    output.success = True
+                else:
+                    output.success = False
+                    output.error = (
+                        "Never received a valid chunk to calculate TTFT."
+                        "This response will be marked as failed!"
+                    )
+                output.generated_text = generated_text
+                output.latency = most_recent_timestamp - st
+            else:
+                output.error = response.reason or ""
+                output.success = False
+    except Exception:
+        output.success = False
+        exc_info = sys.exc_info()
+        output.error = "".join(traceback.format_exception(*exc_info))
+
+    if pbar:
+        pbar.update(1)
+    return output
+
+
+def _get_chat_content(
+    request_func_input: RequestFuncInput,
+    mm_position: Literal["first", "last"] = "last",
+) -> list[dict[str, Any]]:
+    text_contents = [{"type": "text", "text": request_func_input.prompt}]
+
+    mm_contents = []
+    if request_func_input.multi_modal_content:
+        mm_content = request_func_input.multi_modal_content
+        if isinstance(mm_content, list):
+            mm_contents.extend(request_func_input.multi_modal_content)
+        elif isinstance(mm_content, dict):
+            mm_contents.append(request_func_input.multi_modal_content)
+        else:
+            raise TypeError(
+                "multi_modal_content must be a dict or list[dict] for openai-chat"
+            )
+
+    if mm_position == "first":
+        return mm_contents + text_contents
+
+    return text_contents + mm_contents
+
+
+async def async_request_openai_chat_completions(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+    mm_position: Literal["first", "last"] = "last",
+) -> RequestFuncOutput:
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "OpenAI Chat Completions API", "chat/completions")
+
+    content = _get_chat_content(request_func_input, mm_position=mm_position)
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "messages": [
+            {"role": "user", "content": content},
+        ],
+        "temperature": 0.0,
+        "max_completion_tokens": request_func_input.output_len,
+        "stream": True,
+        "stream_options": {
+            "include_usage": True,
+        },
+    }
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    output = RequestFuncOutput()
+    output.prompt_len = request_func_input.prompt_len
+
+    generated_text = ""
+    ttft = 0.0
+    st = time.perf_counter()
+    output.start_time = st
+    most_recent_timestamp = st
+    try:
+        async with session.post(url=api_url, json=payload, headers=headers) as response:
+            if response.status == 200:
+                handler = StreamedResponseHandler()
+                async for chunk_bytes in response.content.iter_any():
+                    chunk_bytes = chunk_bytes.strip()
+                    if not chunk_bytes:
+                        continue
+
+                    messages = handler.add_chunk(chunk_bytes)
+                    for message in messages:
+                        # NOTE: SSE comments (often used as pings) start with
+                        # a colon. These are not JSON data payload and should
+                        # be skipped.
+                        if message.startswith(":"):
+                            continue
+
+                        chunk = message.removeprefix("data: ")
+
+                        if chunk != "[DONE]":
+                            timestamp = time.perf_counter()
+                            data = json.loads(chunk)
+
+                            if choices := data.get("choices"):
+                                content = choices[0]["delta"].get("content")
+                                # First token
+                                if ttft == 0.0:
+                                    ttft = timestamp - st
+                                    output.ttft = ttft
+
+                                # Decoding phase
+                                else:
+                                    output.itl.append(timestamp - most_recent_timestamp)
+
+                                generated_text += content or ""
+                            elif usage := data.get("usage"):
+                                output.output_tokens = usage.get("completion_tokens")
+
+                            most_recent_timestamp = timestamp
+
+                output.generated_text = generated_text
+                output.success = True
+                output.latency = most_recent_timestamp - st
+            else:
+                output.error = response.reason or ""
+                output.success = False
+    except Exception:
+        output.success = False
+        exc_info = sys.exc_info()
+        output.error = "".join(traceback.format_exception(*exc_info))
+
+    if pbar:
+        pbar.update(1)
+    return output
+
+
+async def async_request_openai_audio(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    # Lazy import without PlaceholderModule to avoid vllm dep.
+    import soundfile
+
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "OpenAI Audio API", {"transcriptions", "translations"})
+
+    content = [{"type": "text", "text": request_func_input.prompt}]
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "temperature": 0.0,
+        "max_completion_tokens": request_func_input.output_len,
+        "stream": True,
+        "language": "en",
+        # Flattened due to multipart/form-data
+        "stream_include_usage": True,
+        "stream_continuous_usage_stats": True,
+    }
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    # Send audio file
+    def to_bytes(y, sr):
+        buffer = io.BytesIO()
+        soundfile.write(buffer, y, sr, format="WAV")
+        buffer.seek(0)
+        return buffer
+
+    mm_audio = request_func_input.multi_modal_content
+    if not isinstance(mm_audio, dict) or "audio" not in mm_audio:
+        raise TypeError("multi_modal_content must be a dict containing 'audio'")
+    with to_bytes(*mm_audio["audio"]) as f:
+        form = aiohttp.FormData()
+        form.add_field("file", f, content_type="audio/wav")
+        for key, value in payload.items():
+            form.add_field(key, str(value))
+
+        output = RequestFuncOutput()
+        output.prompt_len = request_func_input.prompt_len
+
+        generated_text = ""
+        ttft = 0.0
+        st = time.perf_counter()
+        output.start_time = st
+        most_recent_timestamp = st
+        try:
+            async with session.post(
+                url=api_url, data=form, headers=headers
+            ) as response:
+                if response.status == 200:
+                    handler = StreamedResponseHandler()
+
+                    async for chunk_bytes in response.content.iter_any():
+                        chunk_bytes = chunk_bytes.strip()
+                        if not chunk_bytes:
+                            continue
+
+                        messages = handler.add_chunk(chunk_bytes)
+                        for message in messages:
+                            chunk = message.decode("utf-8").removeprefix("data: ")
+                            if chunk != "[DONE]":
+                                timestamp = time.perf_counter()
+                                data = json.loads(chunk)
+
+                                if choices := data.get("choices"):
+                                    content = choices[0]["delta"].get("content")
+                                    # First token
+                                    if ttft == 0.0:
+                                        ttft = timestamp - st
+                                        output.ttft = ttft
+
+                                    # Decoding phase
+                                    else:
+                                        output.itl.append(
+                                            timestamp - most_recent_timestamp
+                                        )
+
+                                    generated_text += content or ""
+                                elif usage := data.get("usage"):
+                                    output.output_tokens = usage.get(
+                                        "completion_tokens"
+                                    )
+
+                                most_recent_timestamp = timestamp
+
+                    output.generated_text = generated_text
+                    output.success = True
+                    output.latency = most_recent_timestamp - st
+                else:
+                    output.error = response.reason or ""
+                    output.success = False
+        except Exception:
+            output.success = False
+            exc_info = sys.exc_info()
+            output.error = "".join(traceback.format_exception(*exc_info))
+
+    if pbar:
+        pbar.update(1)
+    return output
+
+
+async def _run_pooling_request(
+    session: aiohttp.ClientSession,
+    api_url: str,
+    payload: dict[str, Any],
+    headers: dict[str, Any],
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    output = RequestFuncOutput()
+    st = time.perf_counter()
+    output.start_time = st
+    try:
+        async with session.post(url=api_url, headers=headers, json=payload) as response:
+            if response.status == 200:
+                output.ttft = output.latency = time.perf_counter() - st
+
+                if payload.get("encoding_format", "float") == "bytes":
+                    metadata = json.loads(response.headers["metadata"])
+                    usage = metadata.get("usage", {})
+                else:
+                    data = await response.json()
+                    usage = data.get("usage", {})
+
+                output.success = True
+                output.generated_text = ""
+                output.prompt_len = usage.get("prompt_tokens", 0)
+            else:
+                output.success = False
+                output.error = response.reason or ""
+    except Exception as e:
+        output.success = False
+        output.error = str(e)
+
+    if pbar:
+        pbar.update(1)
+    return output
+
+
+async def async_request_openai_embeddings(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "OpenAI Embeddings API", "embeddings")
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "input": request_func_input.prompt,
+        # Many embedding models have short context length,
+        # this is to avoid dropping some of the requests.
+        "truncate_prompt_tokens": -1,
+    }
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    return await _run_pooling_request(
+        session,
+        api_url,
+        payload=payload,
+        headers=headers,
+        pbar=pbar,
+    )
+
+
+async def async_request_vllm_rerank(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "vLLM score API", "rerank")
+
+    assert (
+        isinstance(request_func_input.prompt, list)
+        and len(request_func_input.prompt) > 1
+    )
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "query": request_func_input.prompt[0],
+        "documents": request_func_input.prompt[1:],
+        # Many reranker models have short context length,
+        # this is to avoid dropping some of the requests.
+        "truncate_prompt_tokens": -1,
+    }
+
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    return await _run_pooling_request(
+        session,
+        api_url,
+        payload=payload,
+        headers=headers,
+        pbar=pbar,
+    )
+
+
+async def async_request_openai_embeddings_chat(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+    mm_position: Literal["first", "last"] = "last",
+) -> RequestFuncOutput:
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "OpenAI Embeddings API", "embeddings")
+
+    content = _get_chat_content(request_func_input, mm_position=mm_position)
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+        "messages": [
+            {"role": "user", "content": content},
+        ],
+        # Many embedding models have short context length,
+        # this is to avoid dropping some of the requests.
+        "truncate_prompt_tokens": -1,
+    }
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    return await _run_pooling_request(
+        session,
+        api_url,
+        payload=payload,
+        headers=headers,
+        pbar=pbar,
+    )
+
+
+def _try_extract_request_idx(request_func_input: RequestFuncInput):
+    if request_func_input.request_id:
+        match = re.search(r"(\d+)$", request_func_input.request_id)
+        if match:
+            try:
+                return int(match.group(1))
+            except ValueError:
+                pass
+
+    return None
+
+
+def _preprocess_clip(request_func_input: RequestFuncInput):
+    if request_func_input.multi_modal_content:
+        # Image input
+        request_func_input.prompt = ""
+
+
+def _preprocess_vlm2vec(request_func_input: RequestFuncInput):
+    if request_func_input.multi_modal_content:
+        request_idx = _try_extract_request_idx(request_func_input)
+
+        # Adjust the ratio manually if needed.
+        use_image_only_prompt = request_idx is None or request_idx % 2 == 0
+
+        if use_image_only_prompt:
+            # Image input
+            request_func_input.prompt = "Represent the given image."
+        else:
+            # Text+Image input
+            request_func_input.prompt = (
+                f"Represent the given image with the following question: "
+                f"{request_func_input.prompt}"
+            )
+
+
+async def async_request_openai_embeddings_clip(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    _preprocess_clip(request_func_input)
+
+    return await async_request_openai_embeddings_chat(
+        request_func_input,
+        session,
+        pbar=pbar,
+    )
+
+
+async def async_request_openai_embeddings_vlm2vec(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    _preprocess_vlm2vec(request_func_input)
+
+    return await async_request_openai_embeddings_chat(
+        request_func_input,
+        session,
+        pbar=pbar,
+        mm_position="first",
+    )
+
+
+async def async_request_infinity_embeddings(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    api_url = request_func_input.api_url
+    _validate_api_url(api_url, "Infinity Embeddings API", "embeddings")
+
+    payload = {
+        "model": request_func_input.model_name
+        if request_func_input.model_name
+        else request_func_input.model,
+    }
+
+    if request_func_input.prompt:
+        payload["input"] = request_func_input.prompt
+    else:
+        mm_content = request_func_input.multi_modal_content
+        assert isinstance(mm_content, dict)
+
+        mm_type = mm_content["type"]
+        payload["input"] = mm_content[mm_type]["url"]
+        payload["modality"] = mm_type.split("_", 1)[0]
+
+    _update_payload_common(payload, request_func_input)
+
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+    }
+    _update_headers_common(headers, request_func_input)
+
+    return await _run_pooling_request(
+        session,
+        api_url,
+        payload=payload,
+        headers=headers,
+        pbar=pbar,
+    )
+
+
+async def async_request_infinity_embeddings_clip(
+    request_func_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    pbar: tqdm | None = None,
+) -> RequestFuncOutput:
+    _preprocess_clip(request_func_input)
+
+    return await async_request_infinity_embeddings(
+        request_func_input,
+        session,
+        pbar=pbar,
+    )
+
+
+# TODO: Add more request functions for different API protocols.
+ASYNC_REQUEST_FUNCS: dict[str, RequestFunc] = {
+    "vllm": async_request_openai_completions,
+    "openai": async_request_openai_completions,
+    "openai-chat": async_request_openai_chat_completions,
+    "openai-audio": async_request_openai_audio,
+    "openai-embeddings": async_request_openai_embeddings,
+    "openai-embeddings-chat": async_request_openai_embeddings_chat,
+    "openai-embeddings-clip": async_request_openai_embeddings_clip,
+    "openai-embeddings-vlm2vec": async_request_openai_embeddings_vlm2vec,
+    # Infinity embedding server: https://github.com/michaelfeil/infinity
+    "infinity-embeddings": async_request_infinity_embeddings,
+    "infinity-embeddings-clip": async_request_infinity_embeddings_clip,
+    # (Infinity embedding server does not support vlm2vec)
+    "vllm-rerank": async_request_vllm_rerank,
+}
+
+OPENAI_COMPATIBLE_BACKENDS = [
+    k
+    for k, v in ASYNC_REQUEST_FUNCS.items()
+    if v in (async_request_openai_completions, async_request_openai_chat_completions)
+]
diff --git a/benchmarks/lib/ready_checker.py b/benchmarks/lib/ready_checker.py
new file mode 100644
index 0000000..5649faf
--- /dev/null
+++ b/benchmarks/lib/ready_checker.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utilities for checking endpoint readiness."""
+
+import asyncio
+import time
+
+import aiohttp
+from tqdm.asyncio import tqdm
+
+from .endpoint_request_func import RequestFunc, RequestFuncInput, RequestFuncOutput
+
+
+async def wait_for_endpoint(
+    request_func: RequestFunc,
+    test_input: RequestFuncInput,
+    session: aiohttp.ClientSession,
+    timeout_seconds: int = 600,
+    retry_interval: int = 5,
+) -> RequestFuncOutput:
+    """
+    Wait for an endpoint to become available before starting benchmarks.
+
+    Args:
+        request_func: The async request function to call
+        test_input: The RequestFuncInput to test with
+        timeout_seconds: Maximum time to wait in seconds (default: 10 minutes)
+        retry_interval: Time between retries in seconds (default: 5 seconds)
+
+    Returns:
+        RequestFuncOutput: The successful response
+
+    Raises:
+        ValueError: If the endpoint doesn't become available within the timeout
+    """
+    deadline = time.perf_counter() + timeout_seconds
+    output = RequestFuncOutput(success=False)
+    print(f"Waiting for endpoint to become up in {timeout_seconds} seconds")
+
+    with tqdm(
+        total=timeout_seconds,
+        bar_format="{desc} |{bar}| {elapsed} elapsed, {remaining} remaining",
+        unit="s",
+    ) as pbar:
+        while True:
+            # update progress bar
+            remaining = deadline - time.perf_counter()
+            elapsed = timeout_seconds - remaining
+            update_amount = min(elapsed - pbar.n, timeout_seconds - pbar.n)
+            pbar.update(update_amount)
+            pbar.refresh()
+            if remaining <= 0:
+                pbar.close()
+                break
+
+            # ping the endpoint using request_func
+            try:
+                output = await request_func(
+                    request_func_input=test_input, session=session
+                )
+                if output.success:
+                    pbar.close()
+                    return output
+            except aiohttp.ClientConnectorError:
+                pass
+
+            # retry after a delay
+            sleep_duration = min(retry_interval, remaining)
+            if sleep_duration > 0:
+                await asyncio.sleep(sleep_duration)
+
+    return output
diff --git a/benchmarks/lib/utils.py b/benchmarks/lib/utils.py
new file mode 100644
index 0000000..32e9db4
--- /dev/null
+++ b/benchmarks/lib/utils.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import json
+import math
+import os
+from typing import Any
+
+
+def convert_to_pytorch_benchmark_format(
+    args: argparse.Namespace, metrics: dict[str, list], extra_info: dict[str, Any]
+) -> list:
+    """
+    Save the benchmark results in the format used by PyTorch OSS benchmark with
+    on metric per record
+    https://github.com/pytorch/pytorch/wiki/How-to-integrate-with-PyTorch-OSS-benchmark-database
+    """
+    records = []
+    if not os.environ.get("SAVE_TO_PYTORCH_BENCHMARK_FORMAT", False):
+        return records
+
+    for name, benchmark_values in metrics.items():
+        record = {
+            "benchmark": {
+                "name": "vLLM benchmark",
+                "extra_info": {
+                    "args": vars(args),
+                },
+            },
+            "model": {
+                "name": args.model,
+            },
+            "metric": {
+                "name": name,
+                "benchmark_values": benchmark_values,
+                "extra_info": extra_info,
+            },
+        }
+
+        tp = record["benchmark"]["extra_info"]["args"].get("tensor_parallel_size")
+        # Save tensor_parallel_size parameter if it's part of the metadata
+        if not tp and "tensor_parallel_size" in extra_info:
+            record["benchmark"]["extra_info"]["args"]["tensor_parallel_size"] = (
+                extra_info["tensor_parallel_size"]
+            )
+
+        records.append(record)
+
+    return records
+
+
+class InfEncoder(json.JSONEncoder):
+    def clear_inf(self, o: Any):
+        if isinstance(o, dict):
+            return {
+                str(k)
+                if not isinstance(k, (str, int, float, bool, type(None)))
+                else k: self.clear_inf(v)
+                for k, v in o.items()
+            }
+        elif isinstance(o, list):
+            return [self.clear_inf(v) for v in o]
+        elif isinstance(o, float) and math.isinf(o):
+            return "inf"
+        return o
+
+    def iterencode(self, o: Any, *args, **kwargs) -> Any:
+        return super().iterencode(self.clear_inf(o), *args, **kwargs)
+
+
+def write_to_json(filename: str, records: list) -> None:
+    with open(filename, "w") as f:
+        json.dump(
+            records,
+            f,
+            cls=InfEncoder,
+            default=lambda o: f"<{type(o).__name__} is not JSON serializable>",
+        )
diff --git a/benchmarks/serve.py b/benchmarks/serve.py
new file mode 100644
index 0000000..dddb050
--- /dev/null
+++ b/benchmarks/serve.py
@@ -0,0 +1,1531 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+r"""Benchmark online serving throughput.
+
+On the server side, run one of the following commands
+to launch the vLLM OpenAI API server:
+    vllm serve <your_model> <engine arguments>
+
+On the client side, run:
+    vllm bench serve \
+        --backend <backend or endpoint type. Default 'openai'> \
+        --label <benchmark result label. Default using backend> \
+        --model <your_model> \
+        --dataset-name <dataset_name. Default 'random'> \
+        --request-rate <request_rate. Default inf> \
+        --num-prompts <num_prompts. Default 1000>
+"""
+
+import argparse
+import asyncio
+import contextlib
+import importlib.util
+import json
+import os
+import random
+import shutil
+import time
+import uuid
+import warnings
+from collections.abc import AsyncGenerator, Iterable
+from dataclasses import dataclass
+from datetime import datetime
+from enum import Enum
+from typing import Any, Literal
+
+import aiohttp
+import numpy as np
+from tqdm.asyncio import tqdm
+from transformers import PreTrainedTokenizerBase
+
+from vllm.benchmarks.datasets import SampleRequest, add_dataset_parser, get_samples
+from vllm.benchmarks.lib.endpoint_request_func import (
+    ASYNC_REQUEST_FUNCS,
+    OPENAI_COMPATIBLE_BACKENDS,
+    RequestFuncInput,
+    RequestFuncOutput,
+)
+from vllm.benchmarks.lib.ready_checker import wait_for_endpoint
+from vllm.benchmarks.lib.utils import convert_to_pytorch_benchmark_format, write_to_json
+from vllm.transformers_utils.tokenizer import get_tokenizer
+from vllm.utils.gc_utils import freeze_gc_heap
+from vllm.utils.network_utils import join_host_port
+
+MILLISECONDS_TO_SECONDS_CONVERSION = 1000
+
+TERM_PLOTLIB_AVAILABLE = (importlib.util.find_spec("termplotlib") is not None) and (
+    shutil.which("gnuplot") is not None
+)
+
+
+class TaskType(Enum):
+    GENERATION = "generation"
+    POOLING = "pooling"
+
+
+@dataclass
+class BenchmarkMetrics:
+    completed: int
+    failed: int
+    total_input: int
+    total_output: int
+    request_throughput: float
+    request_goodput: float
+    output_throughput: float
+    total_token_throughput: float
+    mean_ttft_ms: float
+    median_ttft_ms: float
+    std_ttft_ms: float
+    percentiles_ttft_ms: list[tuple[float, float]]
+    mean_tpot_ms: float
+    median_tpot_ms: float
+    std_tpot_ms: float
+    percentiles_tpot_ms: list[tuple[float, float]]
+    mean_itl_ms: float
+    median_itl_ms: float
+    std_itl_ms: float
+    percentiles_itl_ms: list[tuple[float, float]]
+    # E2EL stands for end-to-end latency per request.
+    # It is the time taken on the client side from sending
+    # a request to receiving a complete response.
+    mean_e2el_ms: float
+    median_e2el_ms: float
+    std_e2el_ms: float
+    percentiles_e2el_ms: list[tuple[float, float]]
+    # Max output tokens per second and concurrent requests at that peak
+    max_output_tokens_per_s: float
+    max_concurrent_requests: int
+
+
+@dataclass
+class EmbedBenchmarkMetrics:
+    completed: int
+    failed: int
+    total_input: int
+    request_throughput: float
+    total_token_throughput: float
+    mean_e2el_ms: float
+    std_e2el_ms: float
+    median_e2el_ms: float
+    percentiles_e2el_ms: float
+
+
+def _get_current_request_rate(
+    ramp_up_strategy: Literal["linear", "exponential"] | None,
+    ramp_up_start_rps: int | None,
+    ramp_up_end_rps: int | None,
+    request_index: int,
+    total_requests: int,
+    request_rate: float,
+) -> float:
+    if (
+        ramp_up_strategy
+        and ramp_up_start_rps is not None
+        and ramp_up_end_rps is not None
+    ):
+        progress = request_index / max(total_requests - 1, 1)
+        if ramp_up_strategy == "linear":
+            increase = (ramp_up_end_rps - ramp_up_start_rps) * progress
+            return ramp_up_start_rps + increase
+        elif ramp_up_strategy == "exponential":
+            ratio = ramp_up_end_rps / ramp_up_start_rps
+            return ramp_up_start_rps * (ratio**progress)
+        else:
+            raise ValueError(f"Unknown ramp-up strategy: {ramp_up_strategy}")
+    return request_rate
+
+
+async def get_request(
+    input_requests: list[SampleRequest],
+    request_rate: float,
+    burstiness: float = 1.0,
+    ramp_up_strategy: Literal["linear", "exponential"] | None = None,
+    ramp_up_start_rps: int | None = None,
+    ramp_up_end_rps: int | None = None,
+) -> AsyncGenerator[tuple[SampleRequest, float], None]:
+    """
+    Asynchronously generates requests at a specified rate
+    with OPTIONAL burstiness and OPTIONAL ramp-up strategy.
+
+    Args:
+        input_requests:
+            A list of input requests, each represented as a SampleRequest.
+        request_rate:
+            The rate at which requests are generated (requests/s).
+        burstiness (optional):
+            The burstiness factor of the request generation.
+            Only takes effect when request_rate is not inf.
+            Default value is 1, which follows a Poisson process.
+            Otherwise, the request intervals follow a gamma distribution.
+            A lower burstiness value (0 < burstiness < 1) results
+            in more bursty requests, while a higher burstiness value
+            (burstiness > 1) results in a more uniform arrival of requests.
+        ramp_up_strategy (optional):
+            The ramp-up strategy. Can be "linear" or "exponential".
+            If None, uses constant request rate (specified by request_rate).
+        ramp_up_start_rps (optional):
+            The starting request rate for ramp-up.
+        ramp_up_end_rps (optional):
+            The ending request rate for ramp-up.
+    """
+    assert burstiness > 0, (
+        f"A positive burstiness factor is expected, but given {burstiness}."
+    )
+    # Convert to list to get length for ramp-up calculations
+    if isinstance(input_requests, Iterable) and not isinstance(input_requests, list):
+        input_requests = list(input_requests)
+
+    total_requests = len(input_requests)
+    assert total_requests > 0, "No requests provided."
+
+    # Precompute delays among requests to minimize request send laggings
+    request_rates = []
+    delay_ts = []
+    for request_index, request in enumerate(input_requests):
+        current_request_rate = _get_current_request_rate(
+            ramp_up_strategy,
+            ramp_up_start_rps,
+            ramp_up_end_rps,
+            request_index,
+            total_requests,
+            request_rate,
+        )
+        assert current_request_rate > 0.0, (
+            f"Obtained non-positive request rate {current_request_rate}."
+        )
+        request_rates.append(current_request_rate)
+        if current_request_rate == float("inf"):
+            delay_ts.append(0)
+        elif burstiness == float("inf"):
+            # when burstiness tends to infinity, the delay time becomes constant
+            # and tends to the inverse of the request rate
+            delay_ts.append(1.0 / current_request_rate)
+        else:
+            theta = 1.0 / (current_request_rate * burstiness)
+
+            # Sample the request interval from the gamma distribution.
+            # If burstiness is 1, it follows exponential distribution.
+            delay_ts.append(np.random.gamma(shape=burstiness, scale=theta))
+
+    # Calculate the cumulative delay time from the first sent out requests.
+    for i in range(1, len(delay_ts)):
+        delay_ts[i] += delay_ts[i - 1]
+    if ramp_up_strategy is None and delay_ts[-1] != 0:
+        # When ramp_up_strategy is not set, we assume the request rate is fixed
+        # and all requests should be sent in target_total_delay_s, the following
+        # logic would re-scale delay time to ensure the final delay_ts
+        # align with target_total_delay_s.
+        #
+        # NOTE: If we simply accumulate the random delta values
+        # from the gamma distribution, their sum would have 1-2% gap
+        # from target_total_delay_s. The purpose of the following logic is to
+        # close the gap for stabilizing the throughput data
+        # from different random seeds.
+        target_total_delay_s = total_requests / request_rate
+        normalize_factor = target_total_delay_s / delay_ts[-1]
+        delay_ts = [delay * normalize_factor for delay in delay_ts]
+
+    start_ts = time.time()
+    for request_index, request in enumerate(input_requests):
+        if delay_ts[request_index] > 0:
+            current_ts = time.time()
+            sleep_interval_s = start_ts + delay_ts[request_index] - current_ts
+            if sleep_interval_s > 0:
+                await asyncio.sleep(sleep_interval_s)
+        yield request, request_rates[request_index]
+
+
+def calculate_metrics_for_embeddings(
+    outputs: list[RequestFuncOutput], dur_s: float, selected_percentiles: list[float]
+) -> EmbedBenchmarkMetrics:
+    """Calculate the metrics for the embedding requests.
+
+    Args:
+        outputs: The outputs of the requests.
+        dur_s: The duration of the benchmark.
+        selected_percentiles: The percentiles to select.
+
+    Returns:
+        The calculated benchmark metrics.
+    """
+    total_input = 0
+    completed = 0
+    failed = 0
+    e2els: list[float] = []
+    for i in range(len(outputs)):
+        if outputs[i].success:
+            e2els.append(outputs[i].latency)
+            completed += 1
+            total_input += outputs[i].prompt_len
+        else:
+            failed += 1
+
+    if completed == 0:
+        warnings.warn(
+            "All requests failed. This is likely due to a misconfiguration "
+            "on the benchmark arguments.",
+            stacklevel=2,
+        )
+    metrics = EmbedBenchmarkMetrics(
+        completed=completed,
+        failed=failed,
+        total_input=total_input,
+        request_throughput=completed / dur_s,
+        total_token_throughput=total_input / dur_s,
+        mean_e2el_ms=np.mean(e2els or 0) * 1000,
+        std_e2el_ms=np.std(e2els or 0) * 1000,
+        median_e2el_ms=np.median(e2els or 0) * 1000,
+        percentiles_e2el_ms=[
+            (p, np.percentile(e2els or 0, p) * 1000) for p in selected_percentiles
+        ],
+    )
+    return metrics
+
+
+def calculate_metrics(
+    input_requests: list[SampleRequest],
+    outputs: list[RequestFuncOutput],
+    dur_s: float,
+    tokenizer: PreTrainedTokenizerBase,
+    selected_percentiles: list[float],
+    goodput_config_dict: dict[str, float],
+) -> tuple[BenchmarkMetrics, list[int]]:
+    """Calculate the metrics for the benchmark.
+
+    Args:
+        input_requests: The input requests.
+        outputs: The outputs of the requests.
+        dur_s: The duration of the benchmark.
+        tokenizer: The tokenizer to use.
+        selected_percentiles: The percentiles to select.
+        goodput_config_dict: The goodput configuration.
+
+    Returns:
+        A tuple of the benchmark metrics and the actual output lengths.
+    """
+    actual_output_lens: list[int] = []
+    total_input = 0
+    completed = 0
+    good_completed = 0
+    itls: list[float] = []
+    tpots: list[float] = []
+    all_tpots: list[float] = []
+    ttfts: list[float] = []
+    e2els: list[float] = []
+    for i in range(len(outputs)):
+        if outputs[i].success:
+            output_len = outputs[i].output_tokens
+
+            if not output_len:
+                # We use the tokenizer to count the number of output tokens
+                # for some serving backends instead of looking at
+                # len(outputs[i].itl) since multiple output tokens may be
+                # bundled together
+                # Note : this may inflate the output token count slightly
+                output_len = len(
+                    tokenizer(
+                        outputs[i].generated_text, add_special_tokens=False
+                    ).input_ids
+                )
+            actual_output_lens.append(output_len)
+            total_input += input_requests[i].prompt_len
+            tpot = 0
+            if output_len > 1:
+                latency_minus_ttft = outputs[i].latency - outputs[i].ttft
+                tpot = latency_minus_ttft / (output_len - 1)
+                tpots.append(tpot)
+            # Note: if output_len <= 1, we regard tpot as 0 for goodput
+            all_tpots.append(tpot)
+            itls += outputs[i].itl
+            ttfts.append(outputs[i].ttft)
+            e2els.append(outputs[i].latency)
+            completed += 1
+        else:
+            actual_output_lens.append(0)
+
+    if goodput_config_dict:
+        valid_metrics = []
+        slo_values = []
+
+        if "ttft" in goodput_config_dict:
+            valid_metrics.append(ttfts)
+            slo_values.append(
+                goodput_config_dict["ttft"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
+        if "tpot" in goodput_config_dict:
+            valid_metrics.append(all_tpots)
+            slo_values.append(
+                goodput_config_dict["tpot"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
+        if "e2el" in goodput_config_dict:
+            valid_metrics.append(e2els)
+            slo_values.append(
+                goodput_config_dict["e2el"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
+
+        for req_metric in zip(*valid_metrics):
+            is_good_req = all([s >= r for s, r in zip(slo_values, req_metric)])
+            if is_good_req:
+                good_completed += 1
+
+    if completed == 0:
+        warnings.warn(
+            "All requests failed. This is likely due to a misconfiguration "
+            "on the benchmark arguments.",
+            stacklevel=2,
+        )
+
+    # Calculate max output tokens per second metric
+    max_output_tokens_per_s = 0.0
+    max_concurrent_requests = 0
+
+    # Find the time range across all successful requests
+    successful_outputs = [output for output in outputs if output.success]
+    failed_outputs = [output for output in outputs if not output.success]
+    if successful_outputs:
+        min_start_time = min(output.start_time for output in successful_outputs)
+        max_end_time = max(
+            output.start_time + output.latency for output in successful_outputs
+        )
+
+        # Create second buckets (ceiling to ensure we capture all time)
+        duration_seconds = int(np.ceil(max_end_time - min_start_time)) + 1
+        tokens_per_second = np.zeros(duration_seconds)
+        concurrent_requests_per_second = np.zeros(duration_seconds)
+
+        for i, output in enumerate(successful_outputs):
+            # Calculate token generation timestamp using
+            # start_time, ttft, and itl
+            token_times = [output.start_time + output.ttft]
+            current_time = token_times[0]
+            for itl_value in output.itl:
+                current_time += itl_value
+                token_times.append(current_time)
+
+            # Add tokens to second buckets
+            for token_time in token_times:
+                second_bucket = int(token_time - min_start_time)
+                if 0 <= second_bucket < duration_seconds:
+                    tokens_per_second[second_bucket] += 1
+
+            # Track concurrent requests for each second this request was active
+            request_start_second = int(output.start_time - min_start_time)
+            request_end_second = int(
+                (output.start_time + output.latency) - min_start_time
+            )
+
+            for second in range(request_start_second, request_end_second + 1):
+                concurrent_requests_per_second[second] += 1
+
+        # Find the maximum tokens per second and corresponding
+        # concurrent requests
+        if len(tokens_per_second) > 0:
+            max_output_tokens_per_s = float(np.max(tokens_per_second))
+            max_concurrent_requests = int(np.max(concurrent_requests_per_second))
+
+        if TERM_PLOTLIB_AVAILABLE:
+            import termplotlib as tpl
+
+            fig = tpl.figure()
+            fig.plot(
+                np.arange(len(tokens_per_second)),
+                tokens_per_second,
+                title="Output tokens per second",
+            )
+            fig.plot(
+                np.arange(len(concurrent_requests_per_second)),
+                concurrent_requests_per_second,
+                title="Concurrent requests per second",
+            )
+            fig.show()
+        else:
+            print("tip: install termplotlib and gnuplot to plot the metrics")
+
+    metrics = BenchmarkMetrics(
+        completed=completed,
+        failed=len(failed_outputs),
+        total_input=total_input,
+        total_output=sum(actual_output_lens),
+        request_throughput=completed / dur_s,
+        request_goodput=good_completed / dur_s,
+        output_throughput=sum(actual_output_lens) / dur_s,
+        total_token_throughput=(total_input + sum(actual_output_lens)) / dur_s,
+        mean_ttft_ms=np.mean(ttfts or 0)
+        * 1000,  # ttfts is empty if streaming is not supported by the endpoint
+        std_ttft_ms=np.std(ttfts or 0) * 1000,
+        median_ttft_ms=np.median(ttfts or 0) * 1000,
+        percentiles_ttft_ms=[
+            (p, np.percentile(ttfts or 0, p) * 1000) for p in selected_percentiles
+        ],
+        mean_tpot_ms=np.mean(tpots or 0) * 1000,
+        std_tpot_ms=np.std(tpots or 0) * 1000,
+        median_tpot_ms=np.median(tpots or 0) * 1000,
+        percentiles_tpot_ms=[
+            (p, np.percentile(tpots or 0, p) * 1000) for p in selected_percentiles
+        ],
+        mean_itl_ms=np.mean(itls or 0) * 1000,
+        std_itl_ms=np.std(itls or 0) * 1000,
+        median_itl_ms=np.median(itls or 0) * 1000,
+        percentiles_itl_ms=[
+            (p, np.percentile(itls or 0, p) * 1000) for p in selected_percentiles
+        ],
+        mean_e2el_ms=np.mean(e2els or 0) * 1000,
+        std_e2el_ms=np.std(e2els or 0) * 1000,
+        median_e2el_ms=np.median(e2els or 0) * 1000,
+        percentiles_e2el_ms=[
+            (p, np.percentile(e2els or 0, p) * 1000) for p in selected_percentiles
+        ],
+        max_output_tokens_per_s=max_output_tokens_per_s,
+        max_concurrent_requests=max_concurrent_requests,
+    )
+
+    return metrics, actual_output_lens
+
+
+async def benchmark(
+    task_type: TaskType,
+    endpoint_type: str,
+    api_url: str,
+    base_url: str,
+    model_id: str,
+    model_name: str,
+    tokenizer: PreTrainedTokenizerBase,
+    input_requests: list[SampleRequest],
+    logprobs: int | None,
+    request_rate: float,
+    burstiness: float,
+    disable_tqdm: bool,
+    num_warmups: int,
+    profile: bool,
+    selected_percentile_metrics: list[str],
+    selected_percentiles: list[float],
+    ignore_eos: bool,
+    goodput_config_dict: dict[str, float],
+    max_concurrency: int | None,
+    lora_modules: Iterable[str] | None,
+    extra_headers: dict | None,
+    extra_body: dict | None,
+    ramp_up_strategy: Literal["linear", "exponential"] | None = None,
+    ramp_up_start_rps: int | None = None,
+    ramp_up_end_rps: int | None = None,
+    ready_check_timeout_sec: int = 600,
+):
+    try:
+        request_func = ASYNC_REQUEST_FUNCS[endpoint_type]
+    except KeyError:
+        raise ValueError(f"Unknown backend: {endpoint_type}") from None
+
+    # Reuses connections across requests to reduce TLS handshake overhead.
+    connector = aiohttp.TCPConnector(
+        limit=max_concurrency or 0,
+        limit_per_host=max_concurrency or 0,
+        ttl_dns_cache=300,
+        use_dns_cache=True,
+        keepalive_timeout=60,
+        enable_cleanup_closed=True,
+        force_close=False,
+        ssl=("https://" in api_url),
+    )
+
+    session = aiohttp.ClientSession(
+        connector=connector,
+        trust_env=True,
+        timeout=aiohttp.ClientTimeout(total=6 * 60 * 60),
+    )
+
+    print("Starting initial single prompt test run...")
+    test_prompt, test_prompt_len, test_output_len, test_mm_content = (
+        input_requests[0].prompt,
+        input_requests[0].prompt_len,
+        input_requests[0].expected_output_len,
+        input_requests[0].multi_modal_data,
+    )
+
+    assert (
+        test_mm_content is None
+        or isinstance(test_mm_content, dict)
+        or (
+            isinstance(test_mm_content, list)
+            and all(isinstance(item, dict) for item in test_mm_content)
+        )
+    ), "multi_modal_data must be a dict or list[dict]"
+    test_input = RequestFuncInput(
+        model=model_id,
+        model_name=model_name,
+        prompt=test_prompt,
+        api_url=api_url,
+        prompt_len=test_prompt_len,
+        output_len=test_output_len,
+        logprobs=logprobs,
+        multi_modal_content=test_mm_content,
+        ignore_eos=ignore_eos,
+        extra_headers=extra_headers,
+        extra_body=extra_body,
+    )
+
+    if ready_check_timeout_sec > 0:
+        test_output = await wait_for_endpoint(
+            request_func,
+            test_input,
+            session,
+            timeout_seconds=ready_check_timeout_sec,
+        )
+        if not test_output.success:
+            raise ValueError(
+                "Initial test run failed - Please make sure benchmark "
+                "arguments are correctly specified. "
+                f"Error: {test_output.error}"
+            )
+        else:
+            print("Initial test run completed.")
+    else:
+        print("Skipping endpoint ready check.")
+
+    if num_warmups > 0:
+        print(f"Warming up with {num_warmups} requests...")
+        warmup_pbar = None if disable_tqdm else tqdm(total=num_warmups)
+        warmup_semaphore = (
+            asyncio.Semaphore(max_concurrency)
+            if max_concurrency
+            else contextlib.nullcontext()
+        )
+        warmup_tasks = []
+
+        async def warmup_limited_request_func():
+            async with warmup_semaphore:
+                return await request_func(
+                    request_func_input=test_input, session=session, pbar=warmup_pbar
+                )
+
+        for _ in range(num_warmups):
+            request_task = asyncio.create_task(warmup_limited_request_func())
+            warmup_tasks.append(request_task)
+        _ = await asyncio.gather(*warmup_tasks)
+
+        if warmup_pbar is not None:
+            warmup_pbar.close()
+        print("Warmup run completed.")
+
+    print("Starting main benchmark run...")
+
+    if lora_modules:
+        # For each input request, choose a LoRA module at random.
+        lora_modules = iter(
+            [random.choice(lora_modules) for _ in range(len(input_requests))]
+        )
+
+    if profile:
+        print("Starting profiler...")
+        profile_input = RequestFuncInput(
+            model=model_id,
+            model_name=model_name,
+            prompt=test_prompt,
+            api_url=base_url + "/start_profile",
+            prompt_len=test_prompt_len,
+            output_len=test_output_len,
+            logprobs=logprobs,
+            multi_modal_content=test_mm_content,
+            ignore_eos=ignore_eos,
+            extra_headers=extra_headers,
+            extra_body=extra_body,
+        )
+        profile_output = await request_func(
+            request_func_input=profile_input, session=session
+        )
+        if profile_output.success:
+            print("Profiler started")
+
+    distribution = "Poisson process" if burstiness == 1.0 else "Gamma distribution"
+
+    if ramp_up_strategy is not None:
+        print(f"Traffic ramp-up strategy: {ramp_up_strategy}.")
+        print(
+            f"Will increase RPS from {ramp_up_start_rps} to "
+            f"{ramp_up_end_rps} RPS over the duration of the benchmark."
+        )
+    else:
+        print(f"Traffic request rate: {request_rate}")
+
+    print(f"Burstiness factor: {burstiness} ({distribution})")
+    print(f"Maximum request concurrency: {max_concurrency}")
+
+    pbar = None if disable_tqdm else tqdm(total=len(input_requests))
+
+    semaphore = (
+        asyncio.Semaphore(max_concurrency)
+        if max_concurrency
+        else contextlib.nullcontext()
+    )
+
+    async def limited_request_func(request_func_input, session, pbar):
+        async with semaphore:
+            return await request_func(
+                request_func_input=request_func_input, session=session, pbar=pbar
+            )
+
+    benchmark_start_time = time.perf_counter()
+    tasks: list[asyncio.Task] = []
+
+    rps_change_events = []
+    last_int_rps = -1
+    if ramp_up_strategy is not None and ramp_up_start_rps is not None:
+        last_int_rps = ramp_up_start_rps
+        rps_change_events.append(
+            {
+                "rps": last_int_rps,
+                "timestamp": datetime.now().isoformat(),
+            }
+        )
+
+    async for request, current_request_rate in get_request(
+        input_requests,
+        request_rate,
+        burstiness,
+        ramp_up_strategy,
+        ramp_up_start_rps,
+        ramp_up_end_rps,
+    ):
+        if ramp_up_strategy is not None:
+            current_int_rps = int(current_request_rate)
+            if current_int_rps > last_int_rps:
+                timestamp = datetime.now().isoformat()
+                for rps_val in range(last_int_rps + 1, current_int_rps + 1):
+                    rps_change_events.append({"rps": rps_val, "timestamp": timestamp})
+                last_int_rps = current_int_rps
+        prompt, prompt_len, output_len, mm_content, request_id = (
+            request.prompt,
+            request.prompt_len,
+            request.expected_output_len,
+            request.multi_modal_data,
+            request.request_id,
+        )
+        req_model_id, req_model_name = model_id, model_name
+        if lora_modules:
+            req_lora_module = next(lora_modules)
+            req_model_id, req_model_name = req_lora_module, req_lora_module
+
+        request_func_input = RequestFuncInput(
+            model=req_model_id,
+            model_name=req_model_name,
+            prompt=prompt,
+            api_url=api_url,
+            prompt_len=prompt_len,
+            output_len=output_len,
+            logprobs=logprobs,
+            multi_modal_content=mm_content,
+            ignore_eos=ignore_eos,
+            extra_headers=extra_headers,
+            extra_body=extra_body,
+            request_id=request_id,
+        )
+        tasks.append(
+            asyncio.create_task(
+                limited_request_func(
+                    request_func_input=request_func_input, session=session, pbar=pbar
+                )
+            )
+        )
+    outputs: list[RequestFuncOutput] = await asyncio.gather(*tasks)
+
+    if pbar is not None:
+        pbar.close()
+
+    benchmark_duration = time.perf_counter() - benchmark_start_time
+
+    if task_type == TaskType.GENERATION:
+        metrics, actual_output_lens = calculate_metrics(
+            input_requests=input_requests,
+            outputs=outputs,
+            dur_s=benchmark_duration,
+            tokenizer=tokenizer,
+            selected_percentiles=selected_percentiles,
+            goodput_config_dict=goodput_config_dict,
+        )
+    else:
+        metrics = calculate_metrics_for_embeddings(
+            outputs=outputs,
+            dur_s=benchmark_duration,
+            selected_percentiles=selected_percentiles,
+        )
+        actual_output_lens = 0
+
+    print("{s:{c}^{n}}".format(s=" Serving Benchmark Result ", n=50, c="="))
+    print("{:<40} {:<10}".format("Successful requests:", metrics.completed))
+    print("{:<40} {:<10}".format("Failed requests:", metrics.failed))
+    if max_concurrency is not None:
+        print("{:<40} {:<10}".format("Maximum request concurrency:", max_concurrency))
+    if request_rate != float("inf"):
+        print("{:<40} {:<10.2f}".format("Request rate configured (RPS):", request_rate))
+    print("{:<40} {:<10.2f}".format("Benchmark duration (s):", benchmark_duration))
+    print("{:<40} {:<10}".format("Total input tokens:", metrics.total_input))
+    if isinstance(metrics, BenchmarkMetrics):
+        print("{:<40} {:<10}".format("Total generated tokens:", metrics.total_output))
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Request throughput (req/s):", metrics.request_throughput
+        )
+    )
+    if goodput_config_dict:
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Request goodput (req/s):", metrics.request_goodput
+            )
+        )
+    if isinstance(metrics, BenchmarkMetrics):
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Output token throughput (tok/s):", metrics.output_throughput
+            )
+        )
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Peak output token throughput (tok/s):", metrics.max_output_tokens_per_s
+            )
+        )
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Peak concurrent requests:", metrics.max_concurrent_requests
+            )
+        )
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Total Token throughput (tok/s):", metrics.total_token_throughput
+        )
+    )
+
+    if isinstance(metrics, BenchmarkMetrics):
+        result = {
+            "duration": benchmark_duration,
+            "completed": metrics.completed,
+            "failed": metrics.failed,
+            "total_input_tokens": metrics.total_input,
+            "total_output_tokens": metrics.total_output,
+            "request_throughput": metrics.request_throughput,
+            "request_goodput": metrics.request_goodput if goodput_config_dict else None,
+            "output_throughput": metrics.output_throughput,
+            "total_token_throughput": metrics.total_token_throughput,
+            "input_lens": [output.prompt_len for output in outputs],
+            "output_lens": actual_output_lens,
+            "ttfts": [output.ttft for output in outputs],
+            "itls": [output.itl for output in outputs],
+            "generated_texts": [output.generated_text for output in outputs],
+            "errors": [output.error for output in outputs],
+            "max_output_tokens_per_s": metrics.max_output_tokens_per_s,
+            "max_concurrent_requests": metrics.max_concurrent_requests,
+        }
+    else:
+        result = {
+            "duration": benchmark_duration,
+            "completed": metrics.completed,
+            "total_input_tokens": metrics.total_input,
+            "request_throughput": metrics.request_throughput,
+            "total_token_throughput": metrics.total_token_throughput,
+            "input_lens": [output.prompt_len for output in outputs],
+            "errors": [output.error for output in outputs],
+        }
+
+    if rps_change_events:
+        result["rps_change_events"] = rps_change_events
+
+    def process_one_metric(
+        # E.g., "ttft"
+        metric_attribute_name: str,
+        # E.g., "TTFT"
+        metric_name: str,
+        # E.g., "Time to First Token"
+        metric_header: str,
+    ):
+        # This function prints and adds statistics of the specified
+        # metric.
+        if metric_attribute_name not in selected_percentile_metrics:
+            return
+        print("{s:{c}^{n}}".format(s=metric_header, n=50, c="-"))
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Mean {metric_name} (ms):",
+                getattr(metrics, f"mean_{metric_attribute_name}_ms"),
+            )
+        )
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Median {metric_name} (ms):",
+                getattr(metrics, f"median_{metric_attribute_name}_ms"),
+            )
+        )
+        result[f"mean_{metric_attribute_name}_ms"] = getattr(
+            metrics, f"mean_{metric_attribute_name}_ms"
+        )
+        result[f"median_{metric_attribute_name}_ms"] = getattr(
+            metrics, f"median_{metric_attribute_name}_ms"
+        )
+        result[f"std_{metric_attribute_name}_ms"] = getattr(
+            metrics, f"std_{metric_attribute_name}_ms"
+        )
+        for p, value in getattr(metrics, f"percentiles_{metric_attribute_name}_ms"):
+            p_word = str(int(p)) if int(p) == p else str(p)
+            print("{:<40} {:<10.2f}".format(f"P{p_word} {metric_name} (ms):", value))
+            result[f"p{p_word}_{metric_attribute_name}_ms"] = value
+
+    if task_type == TaskType.GENERATION:
+        process_one_metric("ttft", "TTFT", "Time to First Token")
+        process_one_metric("tpot", "TPOT", "Time per Output Token (excl. 1st token)")
+        process_one_metric("itl", "ITL", "Inter-token Latency")
+    process_one_metric("e2el", "E2EL", "End-to-end Latency")
+
+    print("=" * 50)
+
+    if profile:
+        print("Stopping profiler...")
+        profile_input = RequestFuncInput(
+            model=model_id,
+            prompt=test_prompt,
+            api_url=base_url + "/stop_profile",
+            prompt_len=test_prompt_len,
+            output_len=test_output_len,
+            logprobs=logprobs,
+        )
+        profile_output = await request_func(
+            request_func_input=profile_input, session=session
+        )
+        if profile_output.success:
+            print("Profiler stopped")
+
+    await session.close()
+    return result
+
+
+def check_goodput_args(args):
+    # Check and parse goodput arguments
+    goodput_config_dict = {}
+    VALID_NAMES = ["ttft", "tpot", "e2el"]
+    if args.goodput:
+        goodput_config_dict = parse_goodput(args.goodput)
+        for slo_name, slo_val in goodput_config_dict.items():
+            if slo_name not in VALID_NAMES:
+                raise ValueError(
+                    f"Invalid metric name found, {slo_name}: {slo_val}. "
+                    "The service level objective name should be one of "
+                    f"{str(VALID_NAMES)}. "
+                )
+            if slo_val < 0:
+                raise ValueError(
+                    f"Invalid value found, {slo_name}: {slo_val}. "
+                    "The service level objective value should be "
+                    "non-negative."
+                )
+    return goodput_config_dict
+
+
+def parse_goodput(slo_pairs):
+    goodput_config_dict = {}
+    try:
+        for slo_pair in slo_pairs:
+            slo_name, slo_val = slo_pair.split(":")
+            goodput_config_dict[slo_name] = float(slo_val)
+    except ValueError as err:
+        raise argparse.ArgumentTypeError(
+            "Invalid format found for service level objectives. "
+            'Specify service level objectives for goodput as "KEY:VALUE" '
+            "pairs, where the key is a metric name, and the value is a "
+            "number in milliseconds."
+        ) from err
+    return goodput_config_dict
+
+
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any], file_name: str
+) -> None:
+    metrics = [
+        "median_ttft_ms",
+        "mean_ttft_ms",
+        "std_ttft_ms",
+        "p99_ttft_ms",
+        "mean_tpot_ms",
+        "median_tpot_ms",
+        "std_tpot_ms",
+        "p99_tpot_ms",
+        "median_itl_ms",
+        "mean_itl_ms",
+        "std_itl_ms",
+        "p99_itl_ms",
+    ]
+    # These raw data might be useful, but they are rather big. They can be added
+    # later if needed
+    ignored_metrics = ["ttfts", "itls", "generated_texts", "errors"]
+    pt_records = convert_to_pytorch_benchmark_format(
+        args=args,
+        metrics={k: [results[k]] for k in metrics if k in results},
+        extra_info={
+            k: results[k]
+            for k in results
+            if k not in metrics and k not in ignored_metrics
+        },
+    )
+    if pt_records:
+        # Don't use json suffix here as we don't want CI to pick it up
+        pt_file = f"{os.path.splitext(file_name)[0]}.pytorch.json"
+        write_to_json(pt_file, pt_records)
+
+
+def add_cli_args(parser: argparse.ArgumentParser):
+    add_dataset_parser(parser)
+    parser.add_argument(
+        "--label",
+        type=str,
+        default=None,
+        help="The label (prefix) of the benchmark results. If not specified, "
+        "the value of '--backend' will be used as the label.",
+    )
+    parser.add_argument(
+        "--backend",
+        type=str,
+        default="openai",
+        choices=list(ASYNC_REQUEST_FUNCS.keys()),
+        help="The type of backend or endpoint to use for the benchmark.",
+    )
+    parser.add_argument(
+        "--base-url",
+        type=str,
+        default=None,
+        help="Server or API base url if not using http host and port.",
+    )
+    # Use 127.0.0.1 here instead of localhost to force the use of ipv4
+    parser.add_argument("--host", type=str, default="127.0.0.1")
+    parser.add_argument("--port", type=int, default=8000)
+    parser.add_argument(
+        "--endpoint",
+        type=str,
+        default="/v1/completions",
+        help="API endpoint.",
+    )
+    parser.add_argument(
+        "--header",
+        metavar="KEY=VALUE",
+        nargs="*",
+        help="Key-value pairs (e.g, --header x-additional-info=0.3.3) "
+        "for headers to be passed with each request. These headers override "
+        "per backend constants and values set via environment variable, and "
+        "will be overriden by other arguments (such as request ids).",
+    )
+    parser.add_argument(
+        "--max-concurrency",
+        type=int,
+        default=None,
+        help="Maximum number of concurrent requests. This can be used "
+        "to help simulate an environment where a higher level component "
+        "is enforcing a maximum number of concurrent requests. While the "
+        "--request-rate argument controls the rate at which requests are "
+        "initiated, this argument will control how many are actually allowed "
+        "to execute at a time. This means that when used in combination, the "
+        "actual request rate may be lower than specified with --request-rate, "
+        "if the server is not processing requests fast enough to keep up.",
+    )
+
+    parser.add_argument(
+        "--model",
+        type=str,
+        required=True,
+        help="Name of the model.",
+    )
+    parser.add_argument(
+        "--tokenizer",
+        type=str,
+        help="Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
+    )
+    parser.add_argument("--use-beam-search", action="store_true")
+    parser.add_argument(
+        "--logprobs",
+        type=int,
+        default=None,
+        help=(
+            "Number of logprobs-per-token to compute & return as part of "
+            "the request. If unspecified, then either (1) if beam search "
+            "is disabled, no logprobs are computed & a single dummy "
+            "logprob is returned for each token; or (2) if beam search "
+            "is enabled 1 logprob per token is computed"
+        ),
+    )
+    parser.add_argument(
+        "--request-rate",
+        type=float,
+        default=float("inf"),
+        help="Number of requests per second. If this is inf, "
+        "then all the requests are sent at time 0. "
+        "Otherwise, we use Poisson process or gamma distribution "
+        "to synthesize the request arrival times.",
+    )
+    parser.add_argument(
+        "--burstiness",
+        type=float,
+        default=1.0,
+        help="Burstiness factor of the request generation. "
+        "Only take effect when request_rate is not inf. "
+        "Default value is 1, which follows Poisson process. "
+        "Otherwise, the request intervals follow a gamma distribution. "
+        "A lower burstiness value (0 < burstiness < 1) results in more "
+        "bursty requests. A higher burstiness value (burstiness > 1) "
+        "results in a more uniform arrival of requests.",
+    )
+    parser.add_argument(
+        "--trust-remote-code",
+        action="store_true",
+        help="Trust remote code from huggingface",
+    )
+    parser.add_argument(
+        "--disable-tqdm",
+        action="store_true",
+        help="Specify to disable tqdm progress bar.",
+    )
+    parser.add_argument(
+        "--num-warmups",
+        type=int,
+        default=0,
+        help="Number of warmup requests.",
+    )
+    parser.add_argument(
+        "--profile",
+        action="store_true",
+        help="Use Torch Profiler. The endpoint must be launched with "
+        "VLLM_TORCH_PROFILER_DIR to enable profiler.",
+    )
+    parser.add_argument(
+        "--save-result",
+        action="store_true",
+        help="Specify to save benchmark results to a json file",
+    )
+    parser.add_argument(
+        "--save-detailed",
+        action="store_true",
+        help="When saving the results, whether to include per request "
+        "information such as response, error, ttfs, tpots, etc.",
+    )
+    parser.add_argument(
+        "--append-result",
+        action="store_true",
+        help="Append the benchmark result to the existing json file.",
+    )
+    parser.add_argument(
+        "--metadata",
+        metavar="KEY=VALUE",
+        nargs="*",
+        help="Key-value pairs (e.g, --metadata version=0.3.3 tp=1) "
+        "for metadata of this run to be saved in the result JSON file "
+        "for record keeping purposes.",
+    )
+    parser.add_argument(
+        "--result-dir",
+        type=str,
+        default=None,
+        help="Specify directory to save benchmark json results."
+        "If not specified, results are saved in the current directory.",
+    )
+    parser.add_argument(
+        "--result-filename",
+        type=str,
+        default=None,
+        help="Specify the filename to save benchmark json results."
+        "If not specified, results will be saved in "
+        "{label}-{args.request_rate}qps-{base_model_id}-{current_dt}.json"  # noqa
+        " format.",
+    )
+    parser.add_argument(
+        "--ignore-eos",
+        action="store_true",
+        help="Set ignore_eos flag when sending the benchmark request."
+        "Warning: ignore_eos is not supported in deepspeed_mii and tgi.",
+    )
+    parser.add_argument(
+        "--percentile-metrics",
+        type=str,
+        default=None,
+        help="Comma-separated list of selected metrics to report percentils. "
+        "This argument specifies the metrics to report percentiles. "
+        'Allowed metric names are "ttft", "tpot", "itl", "e2el". '
+        'If not specified, defaults to "ttft,tpot,itl" for generative models '
+        'and "e2el" for pooling models.',
+    )
+    parser.add_argument(
+        "--metric-percentiles",
+        type=str,
+        default="99",
+        help="Comma-separated list of percentiles for selected metrics. "
+        'To report 25-th, 50-th, and 75-th percentiles, use "25,50,75". '
+        'Default value is "99".'
+        'Use "--percentile-metrics" to select metrics.',
+    )
+    parser.add_argument(
+        "--goodput",
+        nargs="+",
+        required=False,
+        help='Specify service level objectives for goodput as "KEY:VALUE" '
+        "pairs, where the key is a metric name, and the value is in "
+        'milliseconds. Multiple "KEY:VALUE" pairs can be provided, '
+        "separated by spaces. Allowed request level metric names are "
+        '"ttft", "tpot", "e2el". For more context on the definition of '
+        "goodput, refer to DistServe paper: https://arxiv.org/pdf/2401.09670 "
+        "and the blog: https://hao-ai-lab.github.io/blogs/distserve",
+    )
+    parser.add_argument(
+        "--request-id-prefix",
+        type=str,
+        required=False,
+        default=f"bench-{uuid.uuid4().hex[:8]}-",
+        help="Specify the prefix of request id.",
+    )
+
+    sampling_group = parser.add_argument_group("sampling parameters")
+    sampling_group.add_argument(
+        "--top-p",
+        type=float,
+        default=None,
+        help="Top-p sampling parameter. Only has effect on openai-compatible backends.",
+    )
+    sampling_group.add_argument(
+        "--top-k",
+        type=int,
+        default=None,
+        help="Top-k sampling parameter. Only has effect on openai-compatible backends.",
+    )
+    sampling_group.add_argument(
+        "--min-p",
+        type=float,
+        default=None,
+        help="Min-p sampling parameter. Only has effect on openai-compatible backends.",
+    )
+    sampling_group.add_argument(
+        "--temperature",
+        type=float,
+        default=None,
+        help="Temperature sampling parameter. Only has effect on "
+        "openai-compatible backends. If not specified, default to greedy "
+        "decoding (i.e. temperature==0.0).",
+    )
+    sampling_group.add_argument(
+        "--frequency-penalty",
+        type=float,
+        default=None,
+        help="Frequency penalty sampling parameter. Only has effect on "
+        "openai-compatible backends.",
+    )
+    sampling_group.add_argument(
+        "--presence-penalty",
+        type=float,
+        default=None,
+        help="Presence penalty sampling parameter. Only has effect on "
+        "openai-compatible backends.",
+    )
+    sampling_group.add_argument(
+        "--repetition-penalty",
+        type=float,
+        default=None,
+        help="Repetition penalty sampling parameter. Only has effect on "
+        "openai-compatible backends.",
+    )
+
+    parser.add_argument(
+        "--tokenizer-mode",
+        type=str,
+        default="auto",
+        choices=["auto", "slow", "mistral", "custom"],
+        help='The tokenizer mode.\n\n* "auto" will use the '
+        'fast tokenizer if available.\n* "slow" will '
+        "always use the slow tokenizer. \n* "
+        '"mistral" will always use the `mistral_common` tokenizer. \n*'
+        '"custom" will use --tokenizer to select the preregistered tokenizer.',
+    )
+
+    parser.add_argument(
+        "--served-model-name",
+        type=str,
+        default=None,
+        help="The model name used in the API. "
+        "If not specified, the model name will be the "
+        "same as the `--model` argument. ",
+    )
+
+    parser.add_argument(
+        "--lora-modules",
+        nargs="+",
+        default=None,
+        help="A subset of LoRA module names passed in when "
+        "launching the server. For each request, the "
+        "script chooses a LoRA module at random.",
+    )
+
+    parser.add_argument(
+        "--ramp-up-strategy",
+        type=str,
+        default=None,
+        choices=["linear", "exponential"],
+        help="The ramp-up strategy. This would be used to "
+        "ramp up the request rate from initial RPS to final "
+        "RPS rate (specified by --ramp-up-start-rps and "
+        "--ramp-up-end-rps.) over the duration of the benchmark.",
+    )
+    parser.add_argument(
+        "--ramp-up-start-rps",
+        type=int,
+        default=None,
+        help="The starting request rate for ramp-up (RPS). "
+        "Needs to be specified when --ramp-up-strategy is used.",
+    )
+    parser.add_argument(
+        "--ramp-up-end-rps",
+        type=int,
+        default=None,
+        help="The ending request rate for ramp-up (RPS). "
+        "Needs to be specified when --ramp-up-strategy is used.",
+    )
+    parser.add_argument(
+        "--ready-check-timeout-sec",
+        type=int,
+        default=600,
+        help="Maximum time to wait for the endpoint to become ready "
+        "in seconds (default: 600 seconds / 10 minutes). If set to 0, "
+        "the ready check will be skipped.",
+    )
+
+    parser.add_argument(
+        "--extra-body",
+        help="A JSON string representing extra body parameters to include "
+        "in each request."
+        'Example: \'{"chat_template_kwargs":{"enable_thinking":false}}\'',
+        type=json.loads,
+        default=None,
+    )
+
+
+def main(args: argparse.Namespace) -> dict[str, Any]:
+    return asyncio.run(main_async(args))
+
+
+async def main_async(args: argparse.Namespace) -> dict[str, Any]:
+    print(args)
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+
+    # Validate ramp-up arguments
+    if args.ramp_up_strategy is not None:
+        if args.request_rate != float("inf"):
+            raise ValueError(
+                "When using ramp-up, do not specify --request-rate. "
+                "The request rate will be controlled by ramp-up parameters. "
+                "Please remove the --request-rate argument."
+            )
+        if args.ramp_up_start_rps is None or args.ramp_up_end_rps is None:
+            raise ValueError(
+                "When using --ramp-up-strategy, both --ramp-up-start-rps and "
+                "--ramp-up-end-rps must be specified"
+            )
+        if args.ramp_up_start_rps < 0 or args.ramp_up_end_rps < 0:
+            raise ValueError("Ramp-up start and end RPS must be non-negative")
+        if args.ramp_up_start_rps > args.ramp_up_end_rps:
+            raise ValueError("Ramp-up start RPS must be less than end RPS")
+        if args.ramp_up_strategy == "exponential" and args.ramp_up_start_rps == 0:
+            raise ValueError("For exponential ramp-up, the start RPS cannot be 0.")
+
+    label = args.label
+    model_id = args.model
+    model_name = args.served_model_name
+    tokenizer_id = args.tokenizer if args.tokenizer is not None else args.model
+    tokenizer_mode = args.tokenizer_mode
+
+    if args.base_url is not None:
+        api_url = f"{args.base_url}{args.endpoint}"
+        base_url = f"{args.base_url}"
+    else:
+        host_port = join_host_port(args.host, args.port)
+        api_url = f"http://{host_port}{args.endpoint}"
+        base_url = f"http://{host_port}"
+
+    # Headers
+    headers = None
+    if args.header:
+        headers = {}
+        for item in args.header:
+            if "=" in item:
+                kvstring = item.split("=", 1)
+                headers[kvstring[0].strip()] = kvstring[1].strip()
+            else:
+                raise ValueError("Invalid header format. Please use KEY=VALUE format.")
+
+    tokenizer = get_tokenizer(
+        tokenizer_id,
+        tokenizer_mode=tokenizer_mode,
+        trust_remote_code=args.trust_remote_code,
+    )
+
+    if args.dataset_name is None:
+        raise ValueError(
+            "Please specify '--dataset-name' and the corresponding "
+            "'--dataset-path' if required."
+        )
+
+    # when using random datasets, default to ignoring EOS
+    # so generation runs to the requested length
+    if (
+        args.dataset_name in ("random", "random-mm")
+        and args.backend in OPENAI_COMPATIBLE_BACKENDS
+    ):
+        args.ignore_eos = True
+
+    # Load the dataset.
+    input_requests = get_samples(args, tokenizer)
+    goodput_config_dict = check_goodput_args(args)
+
+    backend = args.backend
+    task_type = (
+        TaskType.POOLING
+        if "embeddings" in backend or "rerank" in backend
+        else TaskType.GENERATION
+    )
+
+    # Collect the sampling parameters.
+    if task_type == TaskType.GENERATION:
+        sampling_params = {
+            k: v
+            for k, v in {
+                "top_p": args.top_p,
+                "top_k": args.top_k,
+                "min_p": args.min_p,
+                "temperature": args.temperature,
+                "frequency_penalty": args.frequency_penalty,
+                "presence_penalty": args.presence_penalty,
+                "repetition_penalty": args.repetition_penalty,
+            }.items()
+            if v is not None
+        }
+
+        # Sampling parameters are only supported by openai-compatible backend.
+        if sampling_params and args.backend not in OPENAI_COMPATIBLE_BACKENDS:
+            raise ValueError(
+                "Sampling parameters are only supported by openai-compatible backends."
+            )
+
+        if "temperature" not in sampling_params:
+            sampling_params["temperature"] = 0.0  # Default to greedy decoding.
+
+        default_percentile_metrics = "ttft,tpot,itl"
+    else:
+        sampling_params = {}
+        default_percentile_metrics = "e2el"
+
+    extra_body = args.extra_body or {}
+    extra_body = {**sampling_params, **extra_body}
+
+    percentile_metrics: str = args.percentile_metrics or default_percentile_metrics
+
+    # Avoid GC processing "static" data - reduce pause times.
+    freeze_gc_heap()
+
+    benchmark_result = await benchmark(
+        task_type=task_type,
+        endpoint_type=backend,
+        api_url=api_url,
+        base_url=base_url,
+        model_id=model_id,
+        model_name=model_name,
+        tokenizer=tokenizer,
+        input_requests=input_requests,
+        logprobs=args.logprobs,
+        request_rate=args.request_rate,
+        burstiness=args.burstiness,
+        disable_tqdm=args.disable_tqdm,
+        num_warmups=args.num_warmups,
+        profile=args.profile,
+        selected_percentile_metrics=percentile_metrics.split(","),
+        selected_percentiles=[float(p) for p in args.metric_percentiles.split(",")],
+        ignore_eos=args.ignore_eos,
+        goodput_config_dict=goodput_config_dict,
+        max_concurrency=args.max_concurrency,
+        lora_modules=args.lora_modules,
+        extra_headers=headers,
+        extra_body=extra_body,
+        ramp_up_strategy=args.ramp_up_strategy,
+        ramp_up_start_rps=args.ramp_up_start_rps,
+        ramp_up_end_rps=args.ramp_up_end_rps,
+        ready_check_timeout_sec=args.ready_check_timeout_sec,
+    )
+
+    # Save config and results to json
+    result_json: dict[str, Any] = {}
+
+    # Setup
+    current_dt = datetime.now().strftime("%Y%m%d-%H%M%S")
+    result_json["date"] = current_dt
+    result_json["endpoint_type"] = args.backend  # for backward compatibility
+    result_json["backend"] = args.backend
+    result_json["label"] = label
+    result_json["model_id"] = model_id
+    result_json["tokenizer_id"] = tokenizer_id
+    result_json["num_prompts"] = args.num_prompts
+
+    # Metadata
+    if args.metadata:
+        for item in args.metadata:
+            if "=" in item:
+                kvstring = item.split("=", 1)
+                result_json[kvstring[0].strip()] = kvstring[1].strip()
+            else:
+                raise ValueError(
+                    "Invalid metadata format. Please use KEY=VALUE format."
+                )
+
+    # Traffic
+    result_json["request_rate"] = (
+        args.request_rate if args.request_rate < float("inf") else "inf"
+    )
+    result_json["burstiness"] = args.burstiness
+    result_json["max_concurrency"] = args.max_concurrency
+
+    if args.ramp_up_strategy is not None:
+        result_json["ramp_up_strategy"] = args.ramp_up_strategy
+        result_json["ramp_up_start_rps"] = args.ramp_up_start_rps
+        result_json["ramp_up_end_rps"] = args.ramp_up_end_rps
+
+    # Merge with benchmark result
+    result_json = {**result_json, **benchmark_result}
+
+    if not args.save_detailed:
+        # Remove fields with too many data points
+        for field in [
+            "input_lens",
+            "output_lens",
+            "ttfts",
+            "itls",
+            "generated_texts",
+            "errors",
+        ]:
+            if field in result_json:
+                del result_json[field]
+            if field in benchmark_result:
+                del benchmark_result[field]
+
+        # Save to file
+    if args.save_result or args.append_result:
+        base_model_id = model_id.split("/")[-1]
+        max_concurrency_str = (
+            f"-concurrency{args.max_concurrency}"
+            if args.max_concurrency is not None
+            else ""
+        )
+        label = label or args.backend
+        if args.ramp_up_strategy is not None:
+            file_name = f"{label}-ramp-up-{args.ramp_up_strategy}-{args.ramp_up_start_rps}qps-{args.ramp_up_end_rps}qps{max_concurrency_str}-{base_model_id}-{current_dt}.json"  # noqa
+        else:
+            file_name = f"{label}-{args.request_rate}qps{max_concurrency_str}-{base_model_id}-{current_dt}.json"  # noqa
+        if args.result_filename:
+            file_name = args.result_filename
+        if args.result_dir:
+            os.makedirs(args.result_dir, exist_ok=True)
+            file_name = os.path.join(args.result_dir, file_name)
+        with open(
+            file_name, mode="a+" if args.append_result else "w", encoding="utf-8"
+        ) as outfile:
+            # Append a newline.
+            if args.append_result and outfile.tell() != 0:
+                outfile.write("\n")
+            json.dump(result_json, outfile)
+        save_to_pytorch_benchmark_format(args, result_json, file_name)
+
+    return result_json
diff --git a/benchmarks/sweep/__init__.py b/benchmarks/sweep/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/benchmarks/sweep/__pycache__/__init__.cpython-312.pyc b/benchmarks/sweep/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..588992f20e7b6cbb83b5bd9348d96458922f8d5f
GIT binary patch
literal 166
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx$2kX7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxA-<|Sw3CKhEE>lc@&rWWYO$7kkc
nmc+;F6;$5hu*uC&Da}c>D`Ewj$_T{8AjU^#Mn=XWW*`dy3H&JU

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/cli.cpython-312.pyc b/benchmarks/sweep/__pycache__/cli.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ebabb0f8928a350679637b86ac58574e0c5563d1
GIT binary patch
literal 1681
zcmZ`(L2nyH6rSB3uh(lku1gy1CXh`~5-j1k2Ske$(VC{Bt&%uufP<m39Pc<;ch_EK
z*P)IaDF=j7fkbaj1y$jMsst$~#DCyoi&nNq<b*2Jn~{6s#GAF<7(_?f_rCYN_h#SB
zyqRCaVHLqJ@mI!A7@<G7F&JQbqx&<cdq_vRV4^J7qA6HnRuqsf>DZJkoW&mY0rq8O
z56h<CQnE^)_X8jBu-{azU^dw2Rp3JcA_@r<MG_<-keJ9tu_$H3x<XKCqF=?3DvEmG
z3!IJUD)_Y_M<0Se2!3BpNQ9noZY3eG_{U32%el3W-oL!Om|IQXSi5o~cV+e3Qs#qa
z0)#+Bc<pmS>{YYkrs;+Q1h(=<8T5$fSR-_c^gYoNW^F0WNhaHQ>JVDslMRLfK!UG(
z71(>Ij!MJcev~fg;-PdP_RJl@?IVO1(akRr`V{OPaYw2PC0{>fNY%xXJY@DEu>9Zu
z89M&|=x>qkdmtUk2fS7oJGhQZ!5$u#b?MN5&|iUoV6O16w}<QaB*Kjh{H0R^bfR_T
zWz{?o4+Dc)>Npn|<b1t{Q4J;3l@FQf@UzOfHJc<vrcm-()u2RYSSOCV9o;fbOIs)9
z!lvd0YTK&zNyT=JO4+#y2|)-eP{Sjbuj=GC$RmM8b;GgqZecT5td<Krcw6qJLlekO
zb-iHe36+iHbv*}G@4y`v<V}@XUQVwpt}&H6dma|->0CK)kr&1$F>Mxdh?~<%F<&)Z
zhlO}f!8CGtXe7!Hfyu=Rwel{LiEWsbjf9W#U4Uhu{8oZ$m`chnt=Sc$?6NQrLv`_H
z(fIiLQp&aLlx^5a7ydxp<n8MDcQ4#JPg16_p0aE1W~H3sTbA;+%*xYSPRd(&3aXm7
zYcvjXdEyKJ=Q|L)s2zQ^6`gHHXOHkN3ytXPZ_%r}*Z&-!y%X7!_Ok8RbSsu@#**z&
z<eSW$OglFIFmgZA9-aBV@MGnNN@M1oqf+B^y5mRj`7Xk7buZjeQDCg4OgEM3qijQ&
zeym(-E5Vi$Ybvq**B&c#zfWFhO<rtHUTmKk-@p7Yb3fA<f2;9I^0_2xkpD!P_$!Jg
z=DJWHVwmsdzpf+SS?@Z|0(jYVtfN8e3B1{a70P=zA<$`14)1=AY9J}UcAl64;P4>W
z6RfoG*(N@_|MnBC(J3GkQKmp8UMsLMzRU9`XXeaTUBm33Ikw^Hq5RmqX<2~VIsOJQ
zAG|DEg!;h;J-~5~5A?8O<|)7LY~+RQ`RS-frs+o2f}gH>FO+wVEU*Gi3Ef^GkC0cV
zw<xA8SQWi$lJ{r|Qu%5f9YjYG1feS<;nY*K@DxoRqc@Jx)G?YlMsFUYWJgBw=-q4s
zYi-}y{zwDQwSA}WUTfgjJANDycY~dgu%Pb8TJdwu__;0uqoWDJ)ZXn@WU3jNdXB*G
Gs`v+zNtVt4

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/param_sweep.cpython-312.pyc b/benchmarks/sweep/__pycache__/param_sweep.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..45ca2604ce44477601a8e02c97ab126f63850ce9
GIT binary patch
literal 5865
zcmcIoZERE589wKJ_#+>75{HB&P&*9?F@=N>3Wb_NMxf)PSwc{!rmbA#dqbQ!wmJ6(
z63@|4hqN$SE!Eay)=o7l(u~-&?AKbYKdAa+ttL(JOq=YMNlfdH^`B{|N~`_Y``+v8
z*kFqGV<*ac&&PYd-jC<Jum4hAT|uCPg$tq2Dhc@)Hq2tpS5{tt%0(g(iH6CD@ueda
z+FY2M<VSc)IPx@+_;W-OWI+;}fd3kA%pMW-F$;`|vPHJawo$HR+&)9S)-RBGz)Lm0
zFESG}W*XFzZ{!al6Wn-&lX;2C!nl6;Vs=7CIf*+bT+4TkSb&qqZDqS$VQh`t1D8<5
zRXHPiEt+F6zyg!9Dzo7;vK-TFqoJ@I3#em3u4oTD5ngU(9>_(aQgbXpC3-E-`8b*7
z)Vv4?85c~R)o+5kmY+GxgDBz8oJ&c9jGMw=oj`ufn=^(<8|fhmJ;PD*9HH>{O7k@T
z963Y1+<?Zh6J9|RqA@w53FAr>XgC^>w5m}So%Ay~7-f<I9DFdWFuaXMM>T7{U%{h#
zpnUuNZgn!&9Sg;_r~!6TR<}$~?cDXm#7?<896He*n^DK2k?zys@MQN1IT9S346q5M
zTS38f$54)bz1|g@(d<kPNPav?d~K<Sy9y(A*jDiYIZHmTuAT2p_TQ*(O%2^_XucSF
zEtI0a2+uwJHBTIm<}9Sfwd8bXobHr0>+D>#b$)Gy{>AFnZxvkS)dnB`zSt*PnG;&&
zRTqJgQq`#i6`N{M8dVY4^deEUppXPL)$k_ybwP<QQx4PyrbiOApP1%nat;$OKM+57
zd`$M}vOyd3=<@L>W6`Ow<T)XG0-kV4Q9aR7j}!{3p=cz)Lb9^ib7D&Mj7Fy-l1H71
z$-6zlg2lnvP+h(7zj6@B5wL`daEuqh#Am4rJw_QXSfbfO;F#v&-k=vLSWt^VX2|dO
zGxRDQ@N!yRsiqF8@}yQ-WI@2fb#2uwdAmXJc|5EJKAPQkQjW;eG4@ovt8|sFq6L&L
zUpN{Jgq5ed3jAwfy0RX~zscRRWU+4WW9z%4H(c#YuAYpmXQ5-swd-T+H@c0!>~5uC
z#1$bW6j9VbBq)QKgZwo6agfph#-dCUP+(q;Rl|z9H7G^LWL3}`Z~2Y`;$@V*K)@!Q
zP05W{w%>4e-mGiMan#jzvu$JA`p%wIcaEpEy(>KLa^whK?YLb5_L;$xXX^&D&cQ|7
z;0i1O=vJlK{Qd|4jNh+S`2CYnX)28MD!>2KR3MxmsSJh#iUKG!7L_zEs%W-BK%k?c
z37OTxGOPuNCZL6AyrMGA5<M|42UYzxR|$IrdGO#2jaMf&s3=E(oFmI(O^y>pZ>sJ$
zEtgxqBv4)9iKSNW%vI?%t2jhc+tWgNc%dWxe5P|(rfv6^1bcPX+Z<Mnee^BXz{)}R
zFBH>jRu-V^r(lq!pe@5YU;yzwP;CXE7GO00LX2{AWRwC-SB===?GS<6a!wej$k(k<
zuguqNP_M$eWS6T)1*rns4yjUh%KBRbz4;o9Rl!(|<dmv)ZV`GM=fsiPIWkR0>cCHH
z7+#2>C6>pImtf@ofgP(338&x&;)f0df@7W#_?;&d@u&}hjsj%N+z%LDfi>fu+L5e7
zf-YwIh3<33e$fDf@kdJi0^PsZd2tox2_S}RbX?hR!@058H7xJ=QeEg8+wO6V`5hO2
zv}kMA4M-ECa4%LOXS5!KtCf8~UZ)o!wkUdHi3wV(czvErkXHftSLJ8&3=>uli+Fkc
zzM7~^#bj_8zdy?SelM>HiX0wgj{%Ej_xp9f^ZOOt+~YZGI8hfg;!R~_VJy-C!#Z98
zS}i-9UQy@!FT~$!zqIjES9(phxjXCJx@g;K+|?e_U&RS|rsTc|;BD}~vJAukaET`9
zX~K3S=y);I!#Ea+N}Tydy#RWf<z{&Z81UHll+_TUpS%cYH!CCriN=8|!6VHBzXO3k
zL5&vdY5H%`Y7#FA=APflCrErLpYf!4#Q}|WeSx>p=oXEl^hG5W4yjtRA55J23&QaS
z0}&}C1yotVpd=O!1ZA(tx?w8o!TFXLlSf0-n!sd0`x>KFGz*XK!D46-jWoWcoCY7b
z?<Sa{%mC3}p<9)Xd2gn&Ww~X;+j}qVP4_O)Y|FOuN9PXC_b+egT-vZdvtj@BgP(3V
zvRLC;Zs<t6G7X#4YNnw#Thp84N&8U>F-x`UmZR}!&SgjAlEa;GxKn&;IP38K&E~zg
zD{J$9qhMI}a$jfPCR$=F7=-A?G7c5PSXP~5HQoesD5J#t9mI4LFb{B`Sq==3D>95q
zGa^7Z;<ju7rP-K#T4stYX`(t63(E|}3l6rb9y*ctpnNc}*3fToQu2f87wIYf*aMYv
zKQnHl;3m3CZq_!v)t(ZTJbN>qz1Qto&*5zIkxy%n&h;(VH6&|a>%1^<n<sV8(0r)S
z(_1RW0><os6-%(ZydM=pB~xG~vT&LJfsV@hV4bVnsuYUj46V)|iL%K+I24!t`J2Vt
z%iaAxHXq)4Es(S1rqeawzf|9osqb0vX6t=f=blB|9s^k*22-b4q{LFtfDjT^4g<kQ
zc-2nyXO*6_oqxz>%Z9PsKuP$CTj=2@BH`<_5P(9=F$*Ymo;z)#OoeGoIwrGD;0L>D
zgb&+?1eIHgy_l!PyUPe_ET9;8Q6_@KwRDl)&4-XfnU29!?R-yC_~kCB8W!;rM=hjE
z8Xt(v=oZZSaT-2?FXheFUf3kQ?z@hF;i2LN0x!T#XI-{#C?zd*9LRJWxE{LEF$nFf
zb7;{vWN3;9{g<c-9a>k@e*hbcm9*-tAjh(bGII=Y-oFx3^b(YF{X(7s+{f@Gumj?k
zOEMFJY2&k^is_VI61-YSwM~3y>)>1%S>IC<JmV5v1YQ~gOw9EXG$EovM`~54IVDj@
zX>nB2!3TLD9hnfwL-y~48@SAsR=@w-sm#;Cj#pqkjQ#E@4_L1t(Q>yrSr~<N7X^?t
zrtB)l<$Bpb82oDT9C_u>XGlJAhy0L_M7OZ*z~HSk!h8{<KSf6uO$<dOd0G$TG~q-v
z8fFK8lcC>f70(93Q~8|75{N<KFKHIQCHQ(R1}b6vuREGXPivJEt2nHQ6aJ7it-m<>
zvzd2*Dp)5x<5#1IS#ft6A1G${9xShX0R+6jQ8(XvAvDL|s$YBY@N0+PIC{Q+u5a$t
zvb$}`?aR1*?+$(H-aB8J<0@*`FRydIedyAm)I@gOw)q2}H@2o)uN=S8xM{iFyVUN>
zwEI42eQ)TaHH$;XK5ojk4=4HLfnQa8?%kXoy4HY=RNtjTmmL4BZ_2rdXCJ-OOzIy=
z2CmfKaCI!#H{$k5b;-RW<KFRJ-ycq0fBd7K4|ZkU&wNrpaLX9RS7c|#v-4e=_3VCs
z|8@GOgNyF{pVar~+Q^#LTn8j`a}{^*)RMK2eo1KU`oGt&!>D%sw@Mw{_K$sz{oTTc
z-S+)YT0h)PfkILy$4Xqh@YoE%1jx=G5Y)jB2M=*`)8S2%)zgF$G{#s`N8_zfDPXZ9
zj}CN}OVBsrho%Gvzg+P7=&uHFnPS=xcu4mQ+z-sduvW>F&U9cd7g7N(t6+9zVEK7m
z1Yy!Z<woDt#AP*gD&3mwNwy`2lBbfvw<@kC^6zzh1D-}0kA@=b8JGmAiXLG65LYQm
zRWxgU$9Qu&`!r57f|D@e!4SRf=hNq>GmXBq`uq6R_-_;0MtDhmi#DH*&t4kmHha7-
zh9_knB&|puMbeH0-HmNTf>{zn=w_HB7_SJ10ft-t0BiX4>W<8w#o7x%wCa4K5tPGW
zNJ1z>RVe`eWS<eQ>e(j}O!Sq@K<?)AcB|Nus!s*eJ5m#w)@_)Qx2zb+JJfP@RP0Ii
zr(CIEYVD<guLv}Awn}l+!u}NkpWHf5Y*}bqA@IrBsQ6SG`r(taQ1KW|_2!^)jHb6^
z=P?La8$?%1NDW`M=Ll5O(n9am&<a*>Z>8d%q|U!5-S#!G8&Qb2g5eXv+JI;l_~9iK
zIcdlTFJk-}agPY~t70Ia3tzv!X7d@pi#)~rFo1GVo&*9uN9l@%(5laf{U4;^j-`eU
m(fQ+x&0U!_-FFDK?sV*<bWgHA8BFa+PGp)keMPWCU;Mx4p&QHq

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/plot.cpython-312.pyc b/benchmarks/sweep/__pycache__/plot.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..66cbfd9975cfd99bddcab09204ec56973107c3c1
GIT binary patch
literal 23877
zcmdsfd2}4dd1v=b&wT+igBu_Q7YUFANJ`*+h~Rw*I!Ilx6>x}d5&#D?Q1^fWMgs?y
z<Os02AsE{sWIHSPNCZYqOzq2VsQ315lxtUco6W;`s9@Bl-coOs*!gcHaMzOZcHjQK
z>gl;Kv?y80^GgF$U0vr_RbSP2Rn>oYx$GRCknoM6$M$mE|Dq55sm*wnZwVZCg?o$>
zIgt->ecGGv<MC|>8AgnK#u1@U;3?b~GL4w~%*-!@EF;!FEAyK|wh?=uo%zin$B47f
z$^4d(YsB5>W`1kPGg8)9#{9NW`G~jAJL2o}v2T0GKT^?G!TgR;<w#Xu75q-o6{;So
z>8s&6n+8?wNL^n&OT~v8`c^TB8~Xy1)xaI*MDL57=#z}E8MT(ZmT6#LOD5ir_zJ0I
zMSN=}z7p|OCF0vM@zsd0DG|Rq6JLw?x)SkgGV%3@ZzvJpF11RlrFN-JS|hIdo~f@x
zS}U!S)=MolXu(+nxl*UtxC?LA&H&13lDf2by)}IsGPN`#w&gX0*7$56Y!q9ijYE9j
zrcBuz3(9WGmc1Ie*Pv_`pDp`7v0ZYC9SA4L?$=;qB?#i$7lpoVab13lxL#U!RuDT8
zv$-gy3uUa!<lKPxE#gL$yh+-MzjesPS}WeCy-~*fNVAQ#x*L#f*4x#$o#orY@|DP0
z0#dEyt$O|9wybY^*0)1iC+@^=m$X6LE!`*XfuE0AI8J;Z>)R{sI9o0D0Ir?lKEO`!
z@6VR-#gtzw9zglKG9!8rEkC5UJUgPh#lzC>vj*`9QtpAD8~%zm=J_t-k0O4r)FU1{
z-_CLJK?8@BFXpGw{L=2>-&z@Z?f7fF7TR|JDZa5Xg>*nq!2>&`z0!f<f44G~4s|Z=
z1V6#Ia8gq%C$D2Ut3<aRJA80u38F`j?W;#URbpB8dlmaG&we*P#myQnI-cdmjZbmU
z@*OAsiHhs(FsR0!efw2+@Qf0bg9FhKDLNPtJ9yRiupAkX6y@PaBy@0G8W@X4WCYv9
zU^F-o3MvXdETcg=Ius1SD?A*G4&v=Pg;Jz5!GZIqCPpO$Soc%n$AdDe5>85?v#K?6
zL6YSmkz$=^$3mh0b8=*C^vndl%O4IQ`(Pv_O7epdaV#YL6ZJL4D8cYhbSNhEpB)NG
z;oyj*+DC%X(NH8B8aktzM<>XOcQ7ml71g3h!7~v#JdodOnMIIWK8DaM7<5|D`wWk9
zl2H;wo+do=8JN!`8YLr;MR-xrhpNvkSwxFy$_uehm^-Yh`(admXebnw<b6R!QjHga
zvTBY7<#SS0<&}ZV(!+qU!X-$SIW+AG7iEFu9N?aQlH(=~aYLNHz$yGiYn&g}Va}%F
zxVS+d)-R*nN#mpt%^)Pj(Lxe8#)V;1UY3kEmva~sxcCuyz1)(q*;@5!H(=nolbpas
zZF)(fG0uON6NRWl56QJoFZ;XP?+Lp9dA`HctMY49zB$%>G<+c#8WIDMQArL0+X83t
zqd^T|#L=;VHJ?<k=?XkvkVpvxWobvC!>l?VKJn10{zFGkoI3dEN!6r`hK8c5Q<g@6
zZlkhvc4!=dQF&-owWEkJ>7Xn}Fh)v5j!NQHlWH6YDKd4QYL1NdpO+?7BRM7jH6|(4
znE`q}>Ddq+8Qm~CG}@^RZ|C^f*6rKQZ<RIx4>ycXVE%+RTnL3mHk^^d1A`+$`Mk10
zc~+8;361F*oltF<H;U8`Xkyich|`sgX+ed`G@L2!XO+#<hf<!3x$>_+mugt`$`da?
zG5`2?`!CyPjkAy4s%n`(l&D&l@>iw&HB0{03IFQ(3rT<1lD|9Q@4kLA>EFKOe<0z1
z;7w!Fe_+{UtoDA$8OyzC3s=>0r;PJ8q`ckNAGy9i&GFmXZ?$(_iznN6Ew0&}HuB{U
zEE|nJcbYT0+{=K4D?nsII)=z@c=8b$!^+26dPXq>k`jmx4k`K&Mk9e>-~g78Lo#M?
z7v{CEHxfNMG8&Rbq%a18jmlLl6$&jC2Jx&yQzsCRJMdCXL6kWW^A~j*3%w5s6k_eB
zxI1Rf)4XVHlGow0_o^Uo#QPKHsMwXQS~bg3bW9G*_amyqrds>^X-(<xSMB}%BW&e?
z-`U^)%vdm#i7{fpR8N0@FdU9VgVCW#SV0;GTMe~!Q(lYGWblrhya~=#tmEV-*yT#y
zSp|=>9nROd+cxJ5M^aAD3&(Gp%F+g>$vxNdA&1wpku#UGfOI`)_J3$Fn3^ff{{i{5
zQmMcJ{IU;?1wG4DLvDGKjG|HG^Oh`O!q6e84(h~%)Vx!Xf?*}_*|7dLE5^p<tuEYf
z{z`^;di2?hm5aw8H*D6z^If(o8Hn7H?<Cj4MX4V4fZTa_4*5!yJ!yD~ySQE_TUYsB
zKyEr4iUgx_H8RW1<W#}wFv=UqPeaY36lwz|tk(N995GOrY?Hef((FL6aum)Kmllk+
zrdt)YbKS4(e0gWGV$JlSw3RFK&Nk1Uy7J`ZCoiv`U!Cx_Cp;aC){c+vSh%v<4>{h}
zl&Yw?@}<jP`uZWv7hBUOiU*}VU$LIMR?#CE|J=yK?Ue~RubSk|c*$GH*-DO+9D+>V
zNlp$|cGD+0+wfETa9-qYn_M3n%%-)32JR2Yr)8jIzXBRKsZUOT(4QI%h70h3mOO?B
zkHT|>%Zx4j#Se{Wlv1(><Cq;;JuHVK=P||_2FMQ}_NtK$p1c=+Z9u!=%b)YCe`4Nz
zD7B$GgoMj2aHhE1p7Pu%{itF-`s#Dve=gZ{f5Llz!qdHI?Pfitje^`mRTcI3ehMS!
z0DjAP{mq*;XZjmHt-mSR0DjrWnDO1)w5!N($wP9f3HUG5@sMrvI$k~qsO8d~T~`uB
zt=At!wvxTxwjli2an+G*?oN2S6Q0eBR;|B&Nw3qqlgT+wg%<SsmTa$Y(R!Vd{R+MA
zp(Y)cr6Bl-e<ef*D&1p$GnB{!PV4DY)H{UapN71>l!hFdr}AMv2MhWYx{Prqc~Jdp
z;_8?0x$jmL4Qv)ltrNdQy+P>pX`T28r6K1j@|@6fu%Hf8%&>cR%&-f;J-bzYm&)&v
ziN==hUE%=>s4p)G5F-qE6xbv}xPT05o)EyfGD@ro4;lwrunZG1r6p$hVODOOS1bk)
z%h&Kl&q+v_acHSt!~#8>6$7+5a>Xp$ejuAiC)g)JHG2p0GttUT9MLi%-f;*hSogW7
zfya}46d~GEQYOjD4!_G^;d$<2oxn|Se`I`?XX|{2LF0d@Z@}Fdx;Co3l)ucYwq56>
zurxj@?}@e3m}dGT#}Iez3PlEjA!ScjHsvTvQ|jUTocm~sTl5}$!+CwvxArXg)+K!F
z7J8O^U2ix)UZyrZ-`K>f{Q9fB+{hr1+wfxCem)S4eT%W_xT5;=$e>WJDegT_**m_<
zZ*HDG@t((<@E*Lu|C!|t%bUjk>`ZzOCOroitp^#p6$~Rm!G@8@KlLi4J)b7+l^V8q
zwm&ENixmO}_avuLOkQIx^Vl6#7>Y_GcjI^TmN0%tM&-)^I8)qD{ngV4Qsos_YA@H$
z?fd4cnSE&^S5cETgXfvH<;|C?mSVnzxF(rc6OG?3#lbvIvE&Tnr?kL%kxLPeE0_-P
z#N^VO7I|>F<h|n*OkP$g%T;=2?L{%UnN=XRn;^g&nAmPEA+~3P_C8Hmw-bKt8w!V^
zh9K5awVoLY_bbpXFpMY|HXGvEu>C!&J2we1eEYvBVLeI|pFI%UO9<vUv0b0JzeEHF
z3l0(7@EJsKWA85$zR@@6sK6Sz0T5>8?0rXjdm(4D>7;RQ0Yq!;IE}X43MVHuYfL!J
zeoc7OdOtV0Nlm9b1Lq#4-G%*sQgMB3Y3tF%)}wE&PHuf9x#`hl)ybcfoz%oy`#p=b
zD`zSVHyiTbfrt3sQu9+^ekV1Fr-bA}#J@Bz97F26!~hYP1XZFuLT*|GR*2S_0V)=)
zjjAvZ8J*Dh>mg*m3%6I6n++Px{5sMy`4o(`%X8_8nJ2#S)U+X0RWsN6O8d+0m*e2C
zC%-?LsOr8R{nN?U;W;pEnC`x`ZD!kyGvz5SSUfsx#ft}9H?|Wzd&yyI2_Z&FL1>U7
z$eF-Tp=7$y?DoCz5EGhhn$V0_W;ucHPGxpAq0B1ZCe!*ofM52ZA*N@UO3ke*ke2U>
zUTYZqZ<t=Qu4e=D6gsGYOnw;w8kNrULT)0Lpwi!??DcRmRJ!N&6ARCLYsZprO~SWk
zfnV~ief`A8^3zBl{{}hz<eY|6P$xm6k>(Y3UZJ!lNpsKjo<BYO`r#Y<|Kvo{+mrP4
zELwY3PWUg1G|OiIh)hU!H(IQN&S>$!r_>TT>)>SMq_gy0B%KnQBa`#H_!ZL9eHmK1
zFGoxF<<nBir3$0a&CA{J7Vvsm#xjN&;z&xZb2**xX5s<$NmEkB&+#k+29b=DoKB`l
zPu#+7f=>Hc=!~BNU&&)eXG{@>UezF<>A-pg&2Ly0hLs3hsCYzhjYM!&zEBHT)=x?L
zDMkO8iKwK=&mq<C<EIeSnc`A5*QJ`7n%VA)jdMM>Jibd4GZS;=--!Rh$k}TyHGaME
z6UB;zzf-Zv__}F_MYYOf;eIk~z@#8SMLa<2-vTy(h%&W(`4pThFulgH7SjsPG+B6S
z4>Va-lZIR`iA0RS`p3EN8gg3ixZ!#9&!piihG%(Qvjs*x=G)ISi_n#Z#efD#Am$1T
zg#$W#yJ1AJ9+xJVmXr}&sJ-H-Tb_iY8l~}p0@PC-{V+iEYh}q_MVddvPazcu6kZ0S
z=?OmNshYDVJS~gXmXB^Zd{Aj2@RqxJv94<&wh+G2`)2i<j>Vc2N%w<`Cm&z5KK{?p
zb0NtmN*PLdUa)X4+140mz0JlSnAR9oJG13b{}mcNvU6-ba=nBu%qbP8xwAav7Z^KA
zN+^ax355oZNhl<veVfn9D0L*G#Q9vYxlx#bUQ)+Ioq;-Q$jB)T#c~RxPt;ZD+CIEg
z{ygjAOvg@XtPEQM8(8nM7MED}{sS_z+4_;T@Rc2TqwfYk+w`rI->aK{a^aa|&8B3<
zeK*VRf1~eXh5F}(rdBA<Ra0~f>Tuvb8`$Tm6k-QXXLR89T&40$2!EXt_~Cps#ocn0
zC8-)XNym{z;Rst=RLj|+bN%9wteP}f3s5_|4Ez<!$RC$zmI)z5&oVsdOt~R$C}my}
z`ExwvTuhDJNdAETBeUM=JQprU&JrB1Xw0RF=NpuSVFxNNdUE`*XrjeS&l^KpFi7U!
znB~yX!;d|Bu(M#nqdsP+vk{&w;<!1EnbCMsUxRao2@NJHV+K9SfF3-Fv6y-M?q0Su
zXAndF8j4Z*3k5SyW{44BV?@19OK%C>xPhz+iJ}^6H1B<*?e*5{P1hfp56+)l;1`+}
zd_UUpMw^Bg&-*KR)r``{WJ%>aV?x(x_#8NKAv6Sw1mUY{md2w}SX9lREO^T_H?fjN
zhQa`L8Xxiug_y`-s}umNx(Z;Gzm0VN5kG}iI$)Hu>|4H>qu)3_b?_aFGi7yMa?Uts
zhZZY(5(IRzd2gbk=WXl0+nJarZ(3K~c6e`Ate#h19smCLb<+=j^G0Q2%>&7by$Q$O
zMPaW-e^Ge$p(#zzGEM1xPOLAF7waQ)EX=Qji=x2xADCc_)qG~jn(^_XaMmhXpj)v)
zw_;UY2gXK5CUgV#N+L+g54Nz=G$10F5wo>{=9x`Fp+uS4XY21LJC)quAFC=Tx+@#;
z7f7uTj)M?+eA5nX4qCA`_eWt9?^SK&WoAXy#X@zH`2b;P{=*=nz$+k^O#Ij25;R-K
zcMv0gmz?jxVQUBs9vMhs(UQi8q5!mV1)wbauPKiPXWGe?`5BxY_9A{=HI4*FWtxQY
z%WzbI+Mv3~%6)KrKpG`8m`qZ#%=noi)`eIznVdhvPk9s$)BtwZ)c&-<oBVU#uz{QW
zX|vhnzwND@olJP4MoxIwr%ecfCc@t|-wh@)ZJ|#qSKT%rg{d=bqfa|$ci(Zq$KYm_
zsBW5a8U<qH+$=|)1&g4X2O=SQTL;GE3ljNY)|LBV5vCUmvS*ovnI$~~T>uhT6eyb{
zB*}OXBFYo}pu__vG=m=MyR3e|3*SqImy9GZvh~C{>B<qKxNF*=QMqddofJ*Fb0jLB
z-RCjs$!P<ojmTpJWpwA(Q+=(QEQ@B>Q7|LUY^mjW=J>3kozGuWO*!2F@)2_5!J3!V
z6c(g5$30jTE%7qA*55Pf=?l`>;^l?;;||%G2ZueEYl4e9wHl!t!rEK>43`&&K<stt
z`6s<`Q`|f3U76+rFLy*M^l;G;H-YhTmQFiNTA!jvr*DPZ6XNF5B^1@>ikrWP+GY&U
zDs2ZN<BR+5Rxh@Nc=Ounj{Cldngwpg_?heWd{K4Bh0k1f*%wx~Wtd1x(G&OPVVw2T
zQp_0SFGpQ^5yQ2*FZZUAz2qA(oWl-^rvusui{-?-#JzDJ0WeJJwW24wN)OPXp&XYD
z7n=o?GwBn(*L?cCA8yjq=H8-zxH<Qw`|@*zd9fny6)Sfka>n?ntpJYv8n>c~S`ls2
z+c~^i_vPNyR<Y_@wZ4mU(vPw8qvhVXf4C!;PWOp5de4J*-Hx<(OIMqhuI-nUSC^Nr
z{4RCY=hDP&tj2XZJh^w=cC8^Vo&B!q?AKQ1(&bT{ENu`Q&jVxSBj>od@B?1tE@yv#
zWd04~WW{9VWYuIfVC~G+uKS{`x^K8k_vPMLtIhF>cxAjw3|wn^Ekm!c)x$r$DVIw3
z#Vf8g=O7JVi3^{GkF;+58slRN;p6A+H?akM*7{n8*SK4s=~RowlWbG;#Irj<L9c1|
z344aO=)T+=aFQfZ^yJ3lZq%GM0n%FZEZmj8j<!PSop@PTy}0FiIN#>;#mzW3la<nQ
zwyu|u4x+G#m;6IGnodv?!d2_8P;lgo7~B)9>mP+p2U|nW<q2Dv$oG(KnRt$mrnv9b
z&L3D<eY0j0V;W%&T!ZieAu+38Amde@ej$((6LV}`-gGiBW{rE%dM(=uz4J1nBo^%n
z0}~~U1vP%QK9PS6xbz<R5&Zc*B40;9tgTdM=+;&AkJe}ZKzTFW@+Ze`MBjY;X7>q=
zmnO{x+Zv3GwldMR4k4oo>4&ZiEHyFLGOL_`hsdD~h$j5j|FY`er&>vut0_gWv(RUL
zudZ$8_;k<o_#Go>b6z|#SDjpQ;->S#C2Q|Hbr~7>h1IZoxWBaT;Nhda0Zq7nI%YXc
z8;5rUV&=oxPmH%U0O*v!cpzp9faO<Wu7}2=qho9bDRzm*oL@TFdmx+Lo3C$U^1$xc
zeWY%Kl#IQAwB?lT+YHE(G8T#|U4fnp!J$y_Oh^hK`4D*&l)9pviQR>|JWUEI3e-fB
z-LZ;%D0KN`w|o(OB-36pXoQ5|_>iLV_L!-?Clu;XZB!r=b5t7@!@N*X7!i(rtdUTx
z;yFq}`xYnd&ruTQjoEX-@MptSs>D3bBp&iXcL&+$pGf*V1w8{luJYIoJ2)oM4%&&3
zgx#4imZ}!o+bYSl6WkOXiXz;h!LPw1$Rr8Ne@V_?k@Mf+bTlx8l1artqUAVKI6yHW
z4~3(uAPx;gRl}&L+HyNJooD69NWUx%L}U>gy8-psNLXRoPi(P{FeM0)6O!`613~No
z4+2VTB4(NqWANNL`J1dZC9J5nL)c%Aoj^mPYFD5dWpFF15q{MLNtdDaSsH%T8X5{q
zw5+K1peXi-BupU@;$ZLsHWQyyjiaHcY8nVd6iNPVYFUk@X!!yBY^h=sME-sH`~z}c
zC1-)0tK^U-R;Kk^z6OUx(2VG+TFI-aqq768sMhcpdI9LI`OppUQA(!WCzV!4A$3mc
z?Z2jw|4Pn(f};?R83>#{jmf(5VLDCKmYulrKO*(tQMRvPf`1HM@hYyaBOz2x9i1M3
zzq}!3E&Hi+(;bu1Yo0oG2fHMFvpc@=n^Q+_dA!S+8I6s`J~KYb%u`41*txQXxhLj_
zlAeuIN8T4~i}u=^LftLFHhuV82j*(N`Ou=Tb<y5-Q&>%5hi13UuAMtF|K$9!1!>XV
zeN)&>!4J;0&($v4TW<<&?^)cptgh+sO)Efgzi)F~s-LM}vNb1c&GXxmw)Io{Zd;tQ
z`>q_jd@NyE1#Nc9-88p(Zf%<5+gektt6x3#{bNh5n-i^@ldW49Ted-^?b?B@&K^4!
zB%2+o2CM7yXJ58*ZvQl&a%4dGiDT6*Z+*(!2Ibyk0AXEws(tN`?N{wf?b{RW+mr1(
z7uW2f-PU_@yRFkElmV*s#T8Up0wS2-=Ene0=RHDHnRat_-=)Tx#yM}&RzI~bW%E$i
z&z?!zYNqym;O3m(J2npEVVkkNbKkb4bNlP77ao~@WY#zH#H>8mbb0Jb{Brz9`;%4e
zNmu*z)d}bJRJj+3WV8Rm%sJdMEz{zqp_!q%;B?DPd*HUqpLTI3%hYpUedvSwf5F1<
zctLqCxn^9mXXef?Ja^N&bE@Y(i|g|0l+{KW&&7()x2;|8*gTo<*)P9sZ7%w}ttFj(
z^rp2M2udkUGp5-mrcFT8cZvhvx7eq*y)Ze)|HM+0YTPwnz1X;Gp&QP1KRMAv<E}+(
z{j_oVvDpK2o2YEhjOUiqbLqs)iIm$%|7E_Ew+cIWQvT|+hqG1R;jF-2KWDQO$aD8k
zJKwf8Vob`aF($C&ADub+&XzsNvIkxtyk0(AK6~<V)!cn^!Iw9`vg_qt*Nn-!^~v(}
z*9Q}252Pw8F(xiI#>C^D8JKOo(s8+CzG-^krn~iac{Rqw=9u1{u-2r}Z}t+9H4sb=
z29p^um1SVM=)NtOUOM{Kqtk;og{oVEh53V*250CS3&V8R+d|F9A09Vwt{oqL=w<H1
zJXgM#S4ijcR(abaJFI`x-S)@>*1y};_NZW0?GZ-dnR$bB<j~y>n30qo3x33HGBxTS
zL(%n;;nVG$5Gh=j+yh1?s>7}VH6G<>Pfig9g#}i|Nq5|R*?7?`a2G2DZqhU9LWoCk
z=Tvyi_Lrwxdmc8b(gqOGcumlS`F!PC+{09dCUBN!Js!$GM;4~+p)b+G1UY+76`_j<
zVOx|~3HIn=u;-RXv&y!3`7rfV(UVg&MJx3v>`%ezA|~2d;?}q=ZjU?S&TH1!h?m3@
zFVmsa`CoQ86^0c(oNT{LSTIhyCtc6p-7;+Jjd|9t-Jn2)ACxD$$m$#0Z~#YyaQ;HG
zk_N*QcjMLqV__U33!DO9MCa6?wFkX~MqG*ZN6vpy4EWE{;FSz`C2<Wa1(8W$p!_;=
z<hX2&!?S;Oexbvun&fk#$Qfq))|esF$axs~a{Lw3iOVEGs>Wa_B)>vc)0|-By~8X2
zjQrE&P&+<55X?Hy%#^AX6=ZmpEF;7ETRS<(W-r)}BGyCWI|S-3c^M#_Mh_|f8y<*i
z=~k|yamnAB@V73uZMo^+ddDP`ncwqooj!1@x_!a__tjm~M?N%hw({H6T_BgX@|1ro
z-X_-v91?!u<eYwH$3FJfj<?n?);y7PKe=dq^0wf3>A|l)IM=%1pL+17(6xe_v2zW9
zdHZ)CT6pFs^&2lXTx`6#<!Ext@kQJ5x5nSMI#NzQEy1_Ss&4tQ%GIUnn&`iwEmhk{
z|Et!}XMKzIf2YQUlUDUydEIhjnah30=mnuOarP5D%KLb^34s10koo*Xq1pJmHTzBG
zzp!lH?=b$Q!?fRT89-q6p~0kQ`3QO{XDTb$3Q1=f4WxRIOp=+{K71RCzJ;Q1Q_;7X
zeVdWflJ!}c&w?-;^I74uYq6q(408B(7Ja+ew+%6F@`;{4yX441RmQ@~`<!`UUY5g!
zL+kG0tojpKGY>XW`|~zZmq{)hUw03eQgc?84#xrNs=N}s6ON8*)pe2%=sgTP?2*qY
zpM7HV7P0dTn^gxp%_lSAE4G<R4?rxzvBnV`wUGi$Si;dbh&Ojz#JaL&3`(I<2!epF
zz<N*1IwNm?YaoQksU|>X5K{c;OEMiYEoH&ii33O&Efnm*CKj@YXRSkwgjx02+*^Tm
zJ6wx;OT?A3;^%gzPvY3<aE5&3%A=JvQ(}p@PbpDAi6yK{*%C{{eM*TYlt^avq9<Eo
ziMUTG(M&t{ao8984oX?HXg34&r$lP0e`t$G(Sy(|S<Xd8t9Ab{HpLV_$Wvb&mfJy*
zvpC!(Z{Y5EQF4iCh|t!Rc@VmKW#~2IYZ)sFc5w*3v8LY0-6lqcy0aaFS6!cd!WPZf
z4!=xTtJ)uW?9{`Lo$5bu^ikSV0cJr{G-zTxZP>`8l8k6hQ`jGn^C~%ylSBF~P0}AF
zUkP!)!=jx)_=w^e8D@HdAJXTK$f2^CaXv#aHA?AXs*r)uP(LjMvATj)tE(XL4~dlG
zmJx1>d%uFV?rwN_L$YG+v_0jiS@HxDp1@5{GsM!x#=URWzUf?ScrfYhU3B)|ZfJVt
z>F+#!`M&GIpSoUmEp6PN*tq}A{mG3-rmd;E##eTJXXj<_!hs(jzj}OW{qDs2-8Tl3
z>-SBYKW`k4P^7AwQvOx*{#Wb2U!U-IrhGM-{|X#UuDr7L^4iSnR%O#t<+?=WI@I5L
zwKrM0^OkSblCM4C13&QNx~p|b-)0CNS590$QTV!3=PrY2@3z?)>qWN&-~hI)Z3oF;
zCP{K&%js{i<rHX&9xQ%DKDRYWG%&s$vH(3$!<Wus%FAIEE#UM&Er+!rhwUD6*b8zv
z?jeV>AcyN7a=7zyfSTV!j<UQQ<uE;dddq!zIs9V9J>;m&%VCCj@6+q3F33@H4>@Y{
za^Omvd&p5=kfY%qa;y>?nW2m@FoR842%CH5f5w+;$*7@Y;ZuWB0Gz%wfLjtKpy&=q
zgG1q=@Hrf{mvm)y0OtXSuU;P*!u>MqS=8yyPEA_wMDEkLIpN$Gow}!_l(SgvtqkC{
zglHFbkj=CDMd@r1dT>=BUL<Dg>;$JzCCUE<(J`?QDwIi@QdTh1Ve6W*9<YUQZk|FT
zfz!FA_H<WZ-$Wo&yauWQ4QyT;af85^B8gowt5)loiCDA;Er(#(sYnDk?hXi$DmV~1
zn^VrO4=7^;gMc9z4Fm&vLWqt8PXL7uup^-&yJ|uTA}NZ*1|W90pGrcvD0#|$RzGyG
zov8nr&tE@E_`H=v?Ms#a3XRwF=bx*7duJ!(SqTE=^EaQB@wou7bauk<(mAerW$78*
z$^rfTAWT5#24Ulg)e{2hb{RIJgw*4mWIXALWwK6yq29i|U%F2U^^bspmdrE3^28j3
zYjpDn+8b;HA-H>!72F5GZm>{bKY|eh2!!dVT^&Nmu9XuwGtm_|Mb}|y_>9YMC{nwl
zB!H=j`!ZyhnGTKz=|+qlfzvRM^pjO%OojquU}D#%jT<+vr$90WoC!t;1|_jS8aXe8
zm0i2LH*Vi@8XL!hVMV()B@zxzXfqodL8D6G*+B_tUtH*Ef(Di>x~U@=4p0>VT%x0;
zTUifF9*zXgX{V{ROjI?S9GE<W9Y6p4U4;_v(oew)5$JwsQDeP3sx?ZR+-O%c5(zMK
z41C!2j<)9a<Vu8TYulvv7S<N54^%T5wrJvS$|BI|l{rsm(X5M>L1r!M9FP4mArt$c
zQKd5J2Ae!24D4s)7{#ctp$QJq21+G>UA%ed!j`O{5?B+8oLj?2VvX{Q9L3c)CnbOx
zQX)G7gVE@yvSY)B%q>T_REF$DT@m@*1~T-r<uDr=IWr7Wp>&Y|+Qs1O8jOyFa-dKA
z6414|(DmyFI(B1rVmBttc%Xt(e^efmVtq%?VwDHYW9CFcXsq&KCUDa})c~%9f-#sa
z^cfm}fzqfXl7<7cVHVS52zU4(ohS#N%}~{mE~pXBxF3slyJDXMEbyw6tb#fXWyVIB
z<=a3C<^Kmq(+Xzx;<BV!w!OBHZKq=NxW7ix$|4+`y|cQPtaS-%UCLQ~tK6URH>3@`
z_aQzF`%3*Cj@0UI&gRk6RIxOblxE9al2qoB?7LerUsM_m<Z1%vu60!~c-m9t8!`Z!
z&?aYIo3sQ?sq(J7B&g9_BzX7gEwX7gkZi|fTV(Ve)zgrj1eS|z8m;pHt-<@Wp2mVS
zuv>h#G$~&rHF*P0q0%5xgJ6HDoOUs}qr+FUxta-`@^-?RS#ro?t%;B%II6-KT)rm%
z9}2XS^9yozP>dCL$7C4Q)(cKa8HH6_{=XFC?#Xa<4{IV0E~8v=po}!EGC5ZW-4gKN
zRArezDfm;a@)sUVIm=+LJDL<KO8VU1+52aPl0sF=;eO$m=6Gt8LT$=fMWL>;+3uOX
zA|Hyq-Lz)v_-yrD%jJfouqM^?WbW%pc9OH&WS_5I!nG|;_kYOYV_7>M4qv*P9TX4p
zrpo#DrRMF4=Iv>YzHSUI?RhM*=dlmj7t8R0fg&^&J8LM(*aiCjtj=r;nqQzZD|rP`
z>7%*`)y+&OUw;rvdW50}p)`I)4?;`mwGdiDH-*p=`Xz*x*a?l$Qo16pl&%PAv)ZB@
zcnHOgz~ToRn{wJ2L$CY^5_Gtkrt??UzhEa84O9L}3w9`P1cD7+4#lm7Jgy8Q2_16s
zq<mFZ9=QBKs?2}Ic^PMpeV3k_d9LV%n++N+H>BL&OT#n6`U~oWuFG9|%1rix7gPmK
zGgJj8Gee;Q#3AiF(+=!~Cm(Tgl3ppLDlY3l3+U0`WC7Fe#W1qgvB}8huS_bN{B96f
z7nCD(7j;1eN<kM0&Wlekx!MyhC_a)d7)>{5iVYn4p!EIy*puTBB~5|@&FVNT+fjr(
zj_fc7of(j+9qgtu)thB7qg`jma48xNR8mV(0C);^yBR_V*|A9l#~;9F;if!N50han
zI*4oUH07CzcHJoKFbFp0OpJndvUN)>*FJC_1&5RrfTL&!N(lYcI=U;bYb-hxQo10U
zgutpGML!E*wk)+OFU8QvC@$>F#L`4jO<GEt9%^~+Mo6$kMA&7TAo9E9kbP7BALP*V
zkl%)*I&k$I%46p#)w0pt<&*uvXjInjEZI$|_mgv!oL+JsA&1Np^52rPjhuOMa%(x$
z1P)Tzd2-l-Zq`^a&1Uyi3Vw;4-y-MR<Xj=gMkDo)<RhDyh8r{oWCuBf3K|)~eZm=<
zKn#aWE4^xGRDr1ni;fXvx1@Hj-5$9WDe=!KIQ+<A;|b5>#yr04r<~(|axL$2_r1$C
zy~{Pc%T>S2HNMN${ft}x4_x=V+~$AaTGN7sU-z!i@>8Mer$P;go569%P{}vXo?Pbe
z!U}9~q$wbMAB(c`YiGNbIlMAa@TDtRl#$;&y9Yajc)DVXa={1kPX!wJEpxpTMfX5y
zQCqT6n`gs!&-In!TxFc2GG%W}*_%_gij=MT1BZE&Vahoz&fY&K%>729di|nreZt+j
z%$a$^9j}x3&bH2eCE;Cthl3yco(zs(82s>Ya5B))=SI$CovuwA4V}5t`V!Uci%>_p
zJC->EO0#RF#S-4;Olbzbey%%>$a?HU^)C!u-?DH%(Xk`Zx|4F$r|km&1V7h0r_3Lk
zdoEGCF3nNE4c{_*r`<e%l%Mm@4a{$uJD;eb{Y(hBA>26mh7Cul;7?mEd=F1`(0jqO
zAYI>o!*~72)yNHHv1?zVeg86x`Gw!f`#(Sv{pnQ?8TeWd{<M)ixBWG9ZS$u2frb0$
z2fy#R?pq9WCu%oekKQ=&rti(OZ`LJtJ($?qyI9+s@IRC`Q5GE3a+MRukhZW-tNv+Y
zpLWjUBaR{MV4v6{<Vky&w~V~y%<JXK>e4>u^>eQ3bOrNPa_(|sCel^xvs(YGVV|{}
z+q+!HyrR&}+d&S}M!avMEhfD4;G(Y_SoCGrfppN9Q-{$-Um9HG^AdzU^7#qC3i4GF
zd{yMj!9!mFM+3HwzUm3M2J(e*l`n7za8{-{ax+-O0z|>Xn`d_~b9kj&d4A*c_>!k7
z;c24b+z6Nj=XC5R#+sC?b^6IAS8Kx6dc9$3)3L;+V>eyLrw*lr@+DzaLRd9-0lVkk
z6RgvfOSamCtrpv}-WD3bHw(2Nr5`EhtT@_j<k!7pubVrOw0A7ocO>jPZfr~14@~WU
x$5uOsZF8+t``&Rk&fAjiwJ#h_Tafw_X1D+Ia`%y)+*>=>A6;kso3%XL{||^*gy#SN

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/serve.cpython-312.pyc b/benchmarks/sweep/__pycache__/serve.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..de7d85aa8dbadddd1586d8d4aa0f04cd37ce280c
GIT binary patch
literal 13925
zcmc&bX>1$UnKR^&oZ)@xrlgT2*`h5`zH&IR6JPRe*@^A6QJT^;XJk?4m6?%kF;uF$
z=~iijt%L@(ilkfZ{#gg{?z+GN>)izwNrScv6a~mi2APQhD5w|P{9__7+|BL+`+aXX
zBt^?@f-SJm;+yZidGDKdefRUP91bf5Db9Q^c0EK<zr}){yk%f@*+5a(DS;B`I5na@
z=@FWg4I>8fG>#bIX^1lk(};=2HpaL)VIDCPn2B2w><CL>Q=Cg!N2~-k$88Dwh#g>y
zz{VX3=ZG`m8gY>_7k4K-BOU@<<KBdC#79${_I3YAgGi6Vc<Ym37n{YF7N`~+704;J
z3NFzlxW(2{tKfN+d8gcMq)qUO0kK7FA2pCZ*vbb#zt}O#3JtF^Bb`E{=n?3Q1u!;M
zFxIpannjjib_y-fo)=o7+y*!TqHEMFv_oB&&;fOTQ^PaL2%S*7fwba9C-#7rT~OD(
z?$^rL2$l_i1?S-ux}kkf&3vn)TRZa}_(HGt6+!Rq6*fZeUeRQr4pYLWS1F<I9oS<`
zm9^O@1jUV`24OR_+ypQ+ep+i$o5TAp@IEMR7WyysQIs@fprGY*wQV$5+&KQ#2WxK*
zyhCfXBLmRl#Rpr6l@>GwxP#)rc=*9q`lxkmG&M<2(%qEU*h5KhzM!XFu<36{8lI<S
z>DM=0p{^RAr>@Y!&?ks;I7q9U5K$u0ctn<=z(PS(VhIso=5$0E!@2|b^0|lvu;+9<
z5*5c%aY2+$ri6*O_zBJ?Xi%M}BT^(GDx!4eiYTU4@7nTFMNB|{#~D$&EJ~-PR8%A%
z^vIE9Oo?U0@MtV9CIN$LPDheLL{>Q&+lHeFL3Kq&0de?(n2e5*3Y$EZx)PQZAvK|>
zF0Ek-5KA#ZlvRr$O@^h3WVF1)lo7^ghF>@QRv8%aaf$}|&Kk$ddja*8l%@1ln=&cb
zlO%!GYiX*c){r&6N&VQc?mJ`FwDw(=k=z3HL;5<s1_x8^JxM7h{fk*smd+Y(n%*go
z;Sp-eoHhT@fW3j+z(4&2KO9>(wT+VLD+Zc+9%f8auQzD>|2IZB1Lon3^M(CGhmQ{P
zXNI1AZs^$;GhS_f_{v&7!Drm%x@anqfSrLF`wK(E2lYNdT5`jXgGSXJNvGqJVI@Vj
z$ds01Nky{ZJB#FmhvdQx8%rL{klU(OvUw8eV%A_8SP#W(>GS=AN+La&j->~bh;&g@
z2Chy#w(IdrkBNiv*oDFLq%xLD4qlGO6NBV*BqGu!c~Hh9I7qOC(vzwc&O%tjEg{!y
zhM#;5vfoj^pQcJ)%G*`&4CFlnH)4yP$ET0oWw@NRb%|+P2Eg7i|BYP7V9vUAiP=Uf
z0`nvDCvw){60`YZi?itTe%HFpI%bkfY<rP)-sKu+GYe0@YrDgp$en(!==6Wre&0x0
zPty0yl*u|1y2G^Gw_rKPo%nCL1BP*JU(0@qey`26Z>RA+-jDE3)4n~H_jXwTR#_ZA
zQmN|FD4?=C+RTy@i3_3>WdM_&@W|kA^(<s~(6b=Qb_1NH);;nyhx;KdYL0l8Is+6x
zECm1`(6o6Xja(zhNUczzZEYJu_+G|Q;Z{nx=&C!cHAd<rQ<6HNdOJ4U0vT+Eo$BbD
zJ~H#QJkwfa?B6-{%~P|dmYAMec*W+MKD7$XDX9rEm8;<kzz@<BN;nOyt3v%qQFx@t
zg8VJy*QtvSqy5T4{1q+GbF^T9pAmk{99^aQtZBS<u>mzEor<BgX^w_A$Z_h@96e=G
zIK5IZ>wSQNtF@K~cuMshn`PGWl$w5A*7DGI)(3czX&gzjF6mN5I$DFbB1LElX62~s
z0!6{D&jWZAt00+^G>)`hm$Izhc8XJc`pYbr1x}h}-YKtZ6m_gM9PSJp-RVHqEIXA3
zy_euvJF9DS&8VIFcR(`YxYyaSaXdbCNpK0So9-%S1#&=^QJ1ooDt2gr$GtA;EBU8h
zv-)+ZuHiT8)^Lh@$ZmP`vDfVu(raCUePIRfO`k4<){#8bvsts^S?&x7+dA3vu_k*S
zsK4-#`cPR{@egPG0|RMbabi*dEnxuE3@H|sGhRg*Rr-~5O6iX&@qTf;7|%Ec2IR<P
zaX=E~iMW!n50s$+Atq%!m6EP)WISaFxPNH)z>$;to<06zreQzo87N8C$U*zF6G?uU
z@LG_8zG|bYV04@!?1x9}(5CB9Y9cA{;?<a}#F7_zZA@~AKXWOTPD4#dHAojSO$Q>$
zWJ-Zv(74=&k0^Y`MdWOCWM@IovZNytEQ74F1Z_BVNu{rRf`|KUV8ws|UItx~A1YL%
ztVpO%VF#5#<w`=@QO%^QtTL&zm{gf@IR$w<6%hzGR;|xP;uGSKB&8(Pl(+;7r#guQ
zow!h*s%ooI$W%s{NTh>S!i=RZ_&}WukTzf)k@gP4s&Q$Fz^6xv%#hI{Lm{ChO;kAW
zla=PuE@<*J{N#I}vVolNa}DMq*IeLw^IY#jY?0eqGD6h~+fg#Xvt*{Y_L2o5mg1UA
z970x#Ybx0Qx@V_2`^@ozy(4e$SY$g(4t(vTxIoE;kelNC1-3cQHkUk5o<4c65kz;+
z+P=he5EY<nVKCRVJ!jpq#O#EMnG^G^^Y)yzcZu0Z-ghoIKx?oLE-_p2^~w1y^X)n7
zrX{8ihQs;_mX^GwWy#V8dPB~+ZHe8!;%F{7+VhU~d11-Xz3|d<Q`_~)xyc3353(~y
zmVMntcXQF*N&Z?_Ig{Uc-$Xfk@{VrMURdY!D<8NTm%V{p=cBh?zLm(eA6)bf<?KUu
z5q;+p%NJd~6~<Ly8uLtJfeGZ9z{1&E2XjndiP^QnSPM)`o@tpMfbkWvgw2+i<`q~4
zt|ia4%=avDoeSHReNESQ&Fz|h<_EiHSk!5FP-)zJk#!f@Ci3TnvANCDM_?_j4duSw
zOI*i7*D`DWKKB|o+c&>&A##W9!|t6#Bg$FZmY4t$>i3V*Fsq!S`}6yo0eg<?{QSNj
z+U2;8&*dK2{hx)p5A87ioNYYxwDA|FmcusVFLsy??Y8{lY13iW@=KfPu-~Fu%Sr$q
zTur?U!@0enTFGf5a1?a`J)xW?y1{1vT&I+ZO`z!Z1BD_$=jc<$EG>0|?NHIwbwnTu
z=`1~tx<*|R3^$EB*Bz}@r3??n#AFR$3RA5HVOUSLXDcJnN0I>z08}~CaK=mwfB}^r
z0ENydi|LG+u$_UR88`#5FKG+R2pNYWCI!_Jk;4kWk{xTA@l-4c>faMkke<X0HBHq7
zj7O2{6hL1Xba=7_;R_L2B#N3e1kL{pesUbLY3iPpa(LeGy>|3_$ESxruy~5B<NNm4
z?6YGF)&jph&u_ma=lJc5{FAwc-AnAAKi*=+*09tZywUx4eQ)>OdgPtK#pWmSwkLAT
z6A}*}1pQGTNkwIZY6^KOITpyiK!>KMO{hg{iw2M(OTP(DpC22`%g798?D7QINYZ2o
zS!#v>4z?#_B89g>W0np9B26pCgQe@l-s+Md%R|*wItuUKfS<exvT3Sl@#HKmMOX9u
zQ+Zb~#|Bqy{(1lW`25#yG~}8F^R~epGpJ3*Rz2kM`loypP~vnBQZM#X)ReJ$-a!Wg
zy;zs^Q%sG<%Lvp>TGxu!JNY_wNc8Ldpm7-(YSI{FhTo>igwGxd8p$@3nMvr!3YxUD
zatvVY=-{a#Ya}CO5m}&#0<U&plA<Wcx*c~Cn!E`=`7y|*sZ}f0v|+}&?B8_5dh6J`
z)<ysE8E)CtwGh0`EV=d+TnF>6gLhnqKJYb_EYK8Wf!(967z_3j+9Psh_wn<1vdQj$
z4cNi@OhLgDLXv_kge1+awuW8QDEwKIPI|ETVD*5q3?!%}Sb8w`K?!D+ii(|OKwT~~
zp{yA;pv+o8wd1D2os+eUSCnlX57>B|{uMCzcQRDgEYaXtsKE-GY0&YGqb**SgbJ$w
z713H%F~?D@s7qN()+#VnH^qZ0V%GAYGKh6$_0BvDM}as5Dpq4vV~|e3=Om;837l<|
z6of2jllH;`^p03mXH2OJ<6=}%O;RLzQ6$O&IccgHd=kL1q(SVw6|+Yn0}QD8YsyN6
zV`=m`j4z0?!lBgAtW;EuHS_jyfMnb>az3?8JEg=-$1c)2czpxg-GU7GnV<4Bym9ue
z?zb+_Z^<`o%)2)&x`We4?>4s0ANgSlPOXnG+Py`4Lou)s|C+j%n>XLsb!&XFd0)}r
zcF)E7tut)NPucx>TPL(D*aLZcVE(Ij>>EohRMW;!0~G558Gn~+n?HIBg!N+uZg-yB
zef!K3x9{C&blDr6e`evOJ8TeT?|vFoBzr@S@uM@MTKZhZlmFgRE&IESKkG8>-(pei
z#B~CU2^@T~YS$QyR;q9qB!CLZ{LBB9WVkE?1abuk#9FoJvS7nz%{q6I+-pb&3CEgc
zfketuIq9n&_;K_;)g_%@!2!2rP4Klx;A?iJLJV0m;Ir#rn{rf%AZr6cg?Cv89DNoD
zNheBY)(J$}o8`tU7HajQ*&6HU^~V^^ufN8^eSH#0l_jLwsP`L3uSs26&)Te#{FE!}
z8gH-b0>!LZAcCsO8nUhj$@2AoE)yj)3=A91_o}N-XV?`sEmcS*W77p+RK5(>$6oAs
z8nZ2!J%brCY~p=Wt<h8xwFhwEskY=qJYFtq0s@Ig+6S3xNDC@=5d2<;(6g-CN2L@n
zYB8FU1X(qsn-M<d)?ABS*sJPaM0dRO70ifIQW>bqM&faeqzTy*E>N8iddpNB(r_#(
z3SnVX#wDnsbOLJR&Y`fzrm_@)M!$le{GX5ky*E>C{~HJ2^1U@W-<J3H=3N^XUEtLE
zun{EGJul_nu(0_?{PwXW*Wr6E%F$GGx1eGl*i_^<7n?i(!)A6k@3|>&py1h*_iS49
z1WO*)u^BXdr~ku_&9m0!z~C+G?PLFHT@0L=<?aT0ivHH3zrENQ#J`SB#rED}pc~jm
zyLXlYw&8Ej`}&Ih!1YserxuRh@rOQbr#iRXZ$P9JW+tks`_sqEJjCn2-apr0@NUU_
zx7;|g=zV1Rcu}_<z_WQW-?VLs*}h_H%rTAk_t83%&t+tq?=@^X;4{6q#|QcQKGT5!
z7lqnNDibHQ+Cf-^NMTTI#Bh!hjUt0mQ#5IQ%9^qP_ot?8BxN(SWC&yd$W(#M1Y)7i
zLLd$xmO$8pBM>84F}ww38<qw8h*h*zzV9G)&JlY}os0ByKp@IFjvm{(1VN$NAe&os
zK$y)rj*4Slf?(Ua^$;TS*M#Z3lh$B^>Lj6*GZ+ThCtZ}k)JY#!&FD%1x-k*<t=fQN
z0~AI#KxX^1;LEst;>1awyp;Hgq0NKGLX`LfI8S2fxCrkR^j*lI3W6~)o>m!f##a?4
zoMeUj{{<*4wF=XCS%Ilt39ynX%2Tyo=S@?Fs!sZl-W7#wo!(%djkDEy9hx>=q>>$f
z6!SVgE8}7SGl?GSIJKw5|6y6Pey<8vQ?jw9KXRP96r(Oy{L)hp6&goMt4m*C4D0l&
zjKTb+#$bjqtfLA}S+W*^z6AR%*%V~0BncIJ_Zn>gFRte41q|!RHk9xRs(~ayn}7~i
zpZb_V`qJwWBh>QM);a|CcX{W);$?;<+~y2_Uf2E4^AJ&-hzmdn=z5Eb5n184g}|$Y
zx`U=D{&Ddl3D7v`0g@Ywi&x>1j>nXG3`91e*Hq;sF(QP~R+KOftO+b4tF~hiPlALT
zQxjsiecA_D)fkP-(im3M4X-Nr5RZ(r)WuiXtwyA1G#(2h1!n?lSxjinTL&;{*$vq=
zb=Ti={rKGR1?I1vf9YKG4}x*^K+TG`vEbd9_ioI2L$B@s`=Nh0{?p^{GKIZo^Lx)O
z?mSmAq9cx_?Cyds@EcoTxh+^|+mUbEaqD1V=TLs<&|=%6*G_;-D6qNE_GrHC(c6Yw
z%3|B@nG-8E*O%@BuBttAduG_8%{LqQ?rwCBwLiV+-J7%T{n+I#Hg@7)U`w$%P-yPU
zH}@4=df^Y;Zu19!a_UE?7MuEu4edpL^Ys&RCyIdV$+;)*HQ3zN5@qA8n&F6^RbZdU
zXq5@68f}I(ug05xM+6<5NqE*Lfv$R(1cP9_S&4r@)L{J{rZqjxU!aGjrUxakH#t4V
z^3ZQs1)E^M>CkoGhqiOB!R-11nB8l7c)manui&fc;};sBPg#k0=(rlIhPlurG=G7w
zw7`s8zrc*!YQ{ndfwh={ue1+mY!H7yfjt2C7S3jNo*ff;P!ch4&QHjqz$+;p6h~fx
zdQJ2`!Jo(QwN~Ooq0o5<r8CN8T7<x__|im75(Sk(p^LbQoJQQ4J%0#wMV#x{Nkz>!
zFcd<3_%#^g`|y?pAE{9WaHugEX8^i@BKGsK<mJ>Q5r(hTl6l3FvI2~ZPmPjk3F2r3
zv<LqD8FJU-D-xREQYZ>M6~g?H=$P0SJRbt{LIQe#yBb<^Nr4iH-oVX{f%44`tE{9X
zF|0@vV&>~dM^PE+=i{l1vbKH-UKEkw!&=k@zAslo6cA-OCyS#Kaeg!<@q&0^;^IY&
z!CaV7_-G`Fd>+<Tfn7*P5{bzWgjURvs1gHSOh)3=_fa!+Grz>!Ft~fi&YT)10UlVD
zq!NiG5o?4;Cn>G~X^z)maM8ewh#*Rt3<CGOX0Old2P4G8)Gnj|{dsaE%9i$d9uLiV
zvUAlcN#rlaE{n;2Z4czA6iX}ol~_E^!)zo7#FL;EE>KM34}c3+lw&a8v;^06qDm+O
z6Vnb+d1Al*Q%<brnEgLZ&oGd}pr3XmFzBaR$|1GP7Ni)c0Y_0vn#8@lG8T)DRYPvD
zwpXN>0xs@Q#yT(ny1@Vtfcy#i0W(1@^oM(ll{}p3^*1||;RXia1`_to9MVrMxecS8
z+cH0Z0^tR?lVTF1go+Fs2^U)6h>BOm=mZHG!plS`!)lRBP~CrhMpU%Dhwku_M};0o
z6{(q<ro^AG213sBecEJ!ZX-P2@RF4XMD55Jh@Ak{X-T{sOHIi7*HcN2rlF5^&Vc?y
zVyK@_CF7HXjs1bsu6+&$2&)PaNFG9<a7L3Uomw$QDgzsUYeRy7$_Usha9;==2C5Nm
z4uQWs0kD*UOhywz_m`9Q6$PfPPJuyW`pfO8zr0BFmlf7oVB7L+ThZRK?C}>HT8f^-
zB@QBf_b3x*g=;6A>wyNRAJU)`G5DKH2HLx;+{6qxAbwcE(N^?z;``m;ZC>vi0Ud?W
zJ4Bapuz<r`gX4>|aTo2a1XX*{^Hj-3zEwY#X40Uc=-K^{`81UWyX_%^ZPW*A@SfHO
zYaxSmH_kYSG8FWwY?#=V;jn5AhZE#-Ai(x;_@#+R91m$YEbYY|C0pzYhe_01<B!mg
zxsXc5CDe;Go%dygFjgU<ttVZC3|upK6%oS!V<`b#InqTqf3m1@!+;(5cvO^<*vz@F
ze40)Z1x?B#f+Lvmn4#SvMfL1|0FeI)vTsu>F5m2d*CrR4X7HuzP(#an_uTV~Oh?hv
zu*ftNz5F7>mvgs&k?|Luo^PEjIxw@lW_w;cw#YQDboEUipKXSo?TZjo?K)R2om(-v
zONI?5>q2v(Ye&9o$7d82R*jU|L#j(hXaXLgO^pkEg$=v%8+Mf_EZrU}JasPr)Va?{
ziS+o?fG@OZkr|;)5Uo`;ZBSu^-|Ahcg|H7b4u$%3m6p3}FA=V5oR>ST8<eb?r!;&4
zt&X~sC2_MU2r#YpeW??IojB6E^iH`fyQ&5<#N7;9+)XzGuhAS;y>tX$SjU8h+I7rd
zs9nd5h1!Y(wmKlFUC&^p#_`r$UBW=xdZsJXuH!udB_5AGBy`9sJOLqti@XgGp6k}j
z0+{|VbMucY(V49A8eEi`GQI-WIV)FtEyEc{@AJKhULo9jr1xa+naq~*1ryC7#G{P|
zj5s+!u7Lp4tq~l3Djf`R^;RXZM60IdTAylW@GL5`Wkn<cVoj71sQ7@k3o2iHl4xT5
zd0m3>neFFM?4bG-OHQCNS?NxOhH?<-9Q3p?F?uNt!DS^B^h#)3OXxLHjmgv%m4%@6
zC<-#oIu7AmVm3z*sxyo0CV;ka`9jKmi2V*-jf!d1(^S0UgE-0M7YJ!1IjLMlT#`?z
zM)7L2F04&rKM7C<r9X!ruK=mZzXbpyw{HJ++nnt;?!#|g{Ymym**9M)bUvDgYZ~8J
z>^wYu6nM(@&biKoU3pLc^syC-?K>}DdwKqeLR){nt$(R4wCrrowH<ml^KLx%?3rB4
z*+u8M9DA<BxJ|xgS97tk^?GtHsXqdIA+R+c*ji)LwijA9=UX-xTXdkQ3q;@b7w29q
zo3{6SR<voYob~r`$Hm_A8N~o<XKT^9=XUJ&3nhv^N<R&`V=ujGG`g%1G;;e&79;2T
zuaXg(elDZe_Pv39-3L6>`yTGVpz-}y_kqpE_cxmWUc-veZX>K{F95Y3!m3rZUSzp?
zA6qAQywMk=F+zc>t+DbXKyVcqH%vzUSH5t{kWHC|ih0}=49rYZ%Z&Z?uNNG_yd!v{
zXVEcuhuNxG^dQ2peK-uaAZ&1xoSbPm7s0L4x1gu=JZ4)lLoNnQ^sDotEaA+w;|W)^
zlracy5IF{cib=fcMWmS8gr;5y6uY<_iY3x1NePpJgfS%IVT~lh<o2>A3DISxg({Id
zswS;5x>_X+=SnYNt?ekmq+Qr@mV+r^nMEKHD(%H)TQK`3X1H5gWQGJ~h>*oAxLU|`
z2%)2xk!TGG#YC_e#f&WWs|ewGN>iA98#9#6L{B4<R<#nTO#DlAQdebnYl^{B(p%66
z_euUo(Ctb_nx<FH6z%?y@_b0yKBVj)QC%NV?H^IiA5m@pMm_TH)RUy9r^FcP-Vd23
z2;dv+1-dm)x0VczbZc2+my7_fXfnHG0vH@l-o_G#kd<oeE7=gTQ%>(^4uC+28rn$z
z(snBiqTD;XW8OUbWZv0XGD5{l!={o6o^b4;uLU8N^7vOdgjx^M(8b;|e=u+7OGYe}
zHHeZ43(yogaRk)9O+Y&!C^-n|#Id;u=!PM!dI&gdu+dKf<0u*7x#HeXGQkr@;OSnq
zAQWKetqVOR3Ldu(-0u15u~h_1PAlyxLTebeXT{Tr<Mv>$hE*81r_{>R4b{Oyp)yv0
zaaP?W4k0T-HiYaD#ws}wa#AjD$%T+MOoR^6gLG46)d8;H0~pt<74@c)1xr?(rwt)H
z<?AXr5ON~qLdXqcEO`*};&*%q`EfZK5E9`3ve@n$rf9mcL}8A5W-DnGdzmKMH~Z8o
z1&`8Bn%*{ZwczT?ySi2>D8Q^3`%LCH#+IU^XXdK~2V9uzxz$nFc09lB_>$wq^r0f-
zEij#VrgOo(#BBPQVP_f(Tx*_dUE~6Hn0C;YnbzNzp0UH7z0Uw+?+0A#{NsyU&$ssD
Zk?k$VyclMvmHK(BV`z)<=bLHB{}<@MDkcB`

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/serve_sla.cpython-312.pyc b/benchmarks/sweep/__pycache__/serve_sla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b42164cc379271f75e1369ac2591616f6007d86
GIT binary patch
literal 16061
zcmeHuYj7Obm0tHu&-?wr00V$P4@i(05-+~QH%*D8#D@gQBBeDU(ZeCSK@2z#xMv^|
zqk)XIl^C!Y3yi%cyq2>_?WPtgY0Gpfm10#YDLuR!SLM%)02Rh9I;InDt^Fr85}1;#
zRHgEr+tV{c2(sf!_E*v*Zl8Pm-h1xzeCM2d=Rdhzb`DQc_)g-_AK|$FN)i1DRf)A9
z7&-11Cvg&=<c763Kg_eZVc5Xl#$hAghNO@(4VzNtVKYzpj7dw%GHhYAkhG?3!!|~n
zlJ=Bi*pYG$J5#P<7fUlI-6_wohtZa#H{~1lfwoGvq(2oH4y1y^K^C_sn^K|SP^x*j
zIn^@U!qObcaH@5<mC?>*TdIAyJ+*0g6N|f&9jVUYPM))AEf<F)l1H{lUO6cF<lv}T
z^1mt!Z<Yc`3(A|MCV7h#lDj27Z{fI6tJI9ITcs9!4cAfysTHZ)SRHM0Kx&uUSvk}@
zYL_<QTaVNsw`z4ropMy(62@TaJXvibYKzF*N8M5v^6!wH(q_st+$(L7`{XTh|EPhL
zX_9+K1*sc(27Ygy)OPAawO+KRSK105+vM)ikko_ngMW1SXs!Hql;0`ska}O||6nb|
zxep~9S~D7y`d>8<?~(>;V^JTK!CKl*dAqa=<GCAud)S!vvboa7DkSYiJ9f)v1NQ_c
zJ@P6i?UO@qVs+B<ruO27_elHYJ);Kc0P^ky&5b9kpBi5Heh}aH$@`^4S9>^4IceaK
zQ)$RjCFMQixzDG*b@)wQOC3Ih98;gqAs^Cn@Eq#iCm$Mr`SZE-R@d`R@l*U}PVU;m
zDNa_>C%N^n!;uTzJbxp8jk|8Vz+K~`M}A9H4n+;BIi8ggBRSP3#dGnIWIUUV@~RaP
zIhRPupoM4Rxv{8GwH~LB&&L(j@?;_>EAgaiy&~sgapejXapI$_<YH<0C0Rk-_e?TA
zB9CQ~lB_(HktUP!Z>i(p=zb=y#8Wb=ICo8!CshB#@zXgu1$J)s@tmx@BtHrcs!N$n
z$1cn1k+D=<xvJVJ3Wgdp7t5zSqhv;8biklm&pr95R=ZQDSiNXhHl9x85_vf`nn=oN
zG(<H|#M4qdtJ*V@xrxbKOiC!Koz)#1$)ql;cE*;`Bh^L2Cd7=8;%grxxW(nF6U%Wq
z1N)AEwxT{&)5Zd?Y%UnbP5RgRTjC4+I0VP~M>4!+)F*M&pi?|oFnnQ6Lc#Dy)x_m&
zI#<as?$GJ_yHIO^&OeV_=eVe8C~rP@^4aH4_Njc|8@y`F$`g6>V<(4>pX!U6RUw(k
z=8%|ERI_|NC#NOV63@nRpp_<6uL|RtL^>)c&4?&16wq*~rir+c%Vq`8BA(A4AIPO9
z1||{{eL1W(IoEf6a^HddSNF*S$;9P>iK*OJCOz;{GMO5vEsyL#mX_9lHi_9}ynkX!
z^~Y$rA`-hC&&sh0ENi73Oxp36rL8{0J+N~w-}eJ^r@wP{=HxFdzOvQznsd%MKelLJ
z6?c`yUAMDEao4hVsMvIP#d_oq=eXx+T4{+cZT?Bm8$Gx8zB#bma<Jq$SQHMffgh*Z
zYAsQ%)G)T(oJ748R}%5dNm;dNvE-yYLL;I-M6<Q`42WA?!8p@~6;xY+dNzOu|5k0?
zObZ2oYeD!CCka0`YO`3tT0-1ZF#d?s)1u}fr43amG&Fe=c2Hm6XQuw~Y$mPpN20tE
zL3-4rY@<97f}9eiU^@bACPf}iT+h-Xr|A=wEtFgze3Bj7;1A#fmB~JVV1}zWIjgT|
zX({`{tG-Cd7g-!B`XbA|?X%{xr)A-}#YYx<mb!~=gC);k(K>j~5nSk9=ve&PQh3Qx
zY~E9H>?sO+l&!?gR%4<Giu7davaF2Mwk7h^2Cxee3?M&a!r<`wph$)Sk6|&^hC~?3
zJF}B12%jl75P1O-=!nvb(r-YjDT5%Cod~kTMenw+w&qA)u_d<$pZ8Hd8oe2=Y(byH
z)WM@APqb)_Qon)=;|nh?H5Ho&N{)e|Frf9yQI|tmZC%iM$&NJ26DulZ>mm<=x^;rP
z2nB80RF_T#tb&3`hrela!GJs%g=tH!Cfy3=f~8=TxVQK>X`t|IB(-$Ortmi+JjZiW
z27$Y=U*M*UQDNu}o-K&;k4KGcn<+HiBncoDvQewH;rAj<LHnvJh)Dtx0`;Ypr5<4!
zu}51=KDLR|vMgn*5TG1Hrla`FK8s+6TXS>GU9<MP!L5t=+XwIDmxE_!Z6CHoW>4J>
zbeFy1vbUw|Z7;WWJg}L9?oaHTr)h5VJ7XU?Ou^=lom@-%M;<QRRWYHKN{Dm%wDC7<
zc!OO_Fccd}NvahqD~74fsuoF^BC58?XjYu~W3%xhcIL(ik*kg`P=oM<J(>#l5O!GV
zQW|qt-RGFMU6?m(t|qlHvwXo&Fcz#imtGs@+xlj8=@-nH(JIbN+X}WB{zg~9GVamy
z*53u2&V}c0>=C$vS>dO+##*sD40^rezIsWWl4`iImz%cd0($y*P^ao|tTwwOyj5G3
zP{G+hy?!8`<s7$}+sS45YX+XXfYqj@RTUcZP}HP)G<lzaQlKOxIjefKnW`nQ4XQe-
zIM22ttr|!)+PNx!?YA@=fHHF;Ey?Lz)S-0H2Z2;1rISc==JL1<eaWQ6(^q80i!_C{
zG!&_c3BoubgBP%kgry)&rY2CyA<A`_f*Q<e0^<m!Q4^{ni<B^}Emjg36jk}rEX{9q
z3(!m31{TTzbWpyGujlZWy^R1M7UX<Q-#`EQ=GR|Z*imZQTJmmN_C{w;-w(Adocciq
z+ae&Ao&K`3socJm{x?VN0;8h0hnHK9m4j^$Jl3Fn)>;X2&S1&WiF~Wh_L8%G;VU0F
zw^qVj^VW~rIjg7a3Ea1}E*!WWT(Lc}YCBZ29lCRT#dhrNNAFslui55o^U;MbFMjO<
zYxEN%XMdEhm^o)tQ3!rwX^efAr9JY_(ePst<GT^lV>>L+-kgg3wMjXfiz!e;RZl8@
z9mtp-nN$>PyeZ{rl&Ebp&>T%#gV1Xbb&%+68&x;VG^Dy@V0ycuU^s`(A{kjM^iUb$
zp)y9=P<d=;$)uq}gP7#&n`DXuY^r{}=};~*lUK%|Pbwsn6q+E_nUdq_n7m6)#!}hD
zZ_sA+)-;;T#B&N6)KG?~a~hmJM<qP0L=xkGo}*ArEz;INAckQ|r0|)^#FygG6O;=m
zIEB9~EsPoNZn$INda>tlsq@Hk_-IiGl`Vn!SKhaDmpzf9HG){Nx#xXL&)wF}Me9;W
zN!-8OdSDjw8(Dn1<k@{&DtQhTtq1Q5-ud<qgbqy>+7r;Cp{0PIYNH8aWNlVRrK}0R
zgAhL7^8O!*KZnFmJMrf#*rweDx5QsPf&LlJaNpo<4=Jz(E1`D5%~YJ4pyauYL}bC8
zVAgtrP&1LREVy;hBN&8G(gmic;F)1O3yuv%rl-Cd3c?BQHSf2)BZdUl>c!0*_igW-
zH&+vrv))l&GQVmqcuv#|1if@!R2FJA(#rdu;YPQ>P5Y+31!0^t=yi_{$He(H|A_Gl
zaR#Kmi1DBHPWub~aRS(NPr+C4>SFe$;YJu70+c&Pn}9uqfZj4CP=_JOqNhR-yQiI)
z6>HuPPVTh3Ay)&8AeSp`DYy&vt1n`a^J)IZe=ax*&Vp;yFpAwc0>M6FnD$=NDC4xB
z=%{^2A@uspdY;yL`il6O;h^}LS;S5o$i89vLXkRB-Sn&vgvPt^w?>-6pYdmb9?*`s
zi_~DgVe|8I%zdJF?FalV9{3l8PQ(3;@f!aIPkPOtppG|;s-b_7ZC91QnkDfgiZj}-
zv>m=8r{(Jt%F+C`hd1cu%w$^1_8(4WM&ilr(f(RSn!7d9xj+34_vs8*^dI|aVyWl*
zdly<3BR_0g4RrrB@w+vWbKh)f<3DSHN-mBlq~#{!VqB3$*wg*LWy2Ky+_!Wl$G*Se
zVrZt2y3N2$IRy&#mXb*47>Y0*O%W;82xV6_!a`O}V3W$KewHl;Q<?U9f;<GOF`i6D
zgB!vdGYd$?RcaWgiM3%$dx2OmlZQc^gCxiVJP4Rx)saf1W25mzk|IX%QiiC=C>3!t
z#h%K<NHD6l>L37X9b_mea&|Ha<B?Ph0Odo^CB(G(32rng%F8J8D*mzx77pg%K|ALS
ze*eVlf!9YD+DgIhl4t9(r)TEWz2=sgvt<hIdBQWt%MSOv@7w!khGzHOv%BwFUGvt3
z_67Ii<)y%qY3cc*d(Vn>@BLs~6>^&+z}v+aZ|^Q{*;i`bcQ@3t6uy1xPV(o+mqX8#
zn>J|x++?4%0f4>XqGwCdx&>j`>V3^K=UK3=Si3&5a-og~CS$Ap*G-$|`HGQqxo>2b
zY0V&5_8j}!?zgAjgFW%(lJm=`6N;>@xxyiT#mz;cf9?L4?iFzm6*Sv_Ee_sv&hzsJ
zsFKjCv!~?jS?ajs`@ngqEDln^;71(t!7_GwW?x=$wB2?3ivH+|b9=dU)9l%@(=)$w
z?$q4z`;^?b;_R;``|e>}qVGG<Z(rp!&pAAmCwXWT^H&#PJr5L_UGuw-`_QQ0t=Yjr
zQv{CmobU_p9&A6+YzD4iA^aX(>HoigE5H+H!9MM>aU_SxXo3w$^0HBe8U8=2aNIv4
zsx*%EI#fx!8nDEwi)Ds5u7a!J%tLLGY*$+$AWWD;pa~(#jeq!JEV+s~RxVQTRSIGh
zTte`V0T;?;s(pk43Bf}sp<F>qz6)+hNYt8>X9H;X4HX}wAVI-61xX4>!BSEP{#X%Q
zpn@cVl^g;%>f})}XcAY(a>_MIt_fV_Iz>sDRA_Jf0lDf~*BRwcQRY1=7yAPu)f=8U
zQTDaYoP-F4VKFby6&CrDJ2Gqhe@UPQLUSkTax~aHd-9&cJHKb{@WRgb9qkaL_Z)%w
z^Rv+5!<DlnQh)bx*E;!mxaWjZc=tg237;9Og@<XYx@d7F(xaLvRlb4wsOjleM95J<
z>dV>+$x~CKo-Q@mH+3ZmzA<5(O00Wy{S%JFn#&QIcg;PeJ16E$1#?yNu4>jC%=>~s
z={3#UTCl<OUHv|7FWBMWv}qcDLra9ZL}*BD(EH)CAX|hz<78s3d+NIXtf{Jz+c(h2
zYYvivUFS#|xlT_z8n|2LOt3zz1qVXgj~m)j*Z%d9fVE+Py<tPo9dOOq-$b4CFpb^G
zLKl#zrpQVTRyU9eb-S3A<Nk4j#B8t}bVpE~1M<J+d5D7tmV_NL6dVg43a5Pyyu6GT
ztb@<>W8JL55#-nBZ6muxs@V^41o?9{8)TfEA?qGkBYr9PR+H|Y{JbNmp@j`&Tkw6}
zJ#-^fbq<Aw@{SisEk1Yt(Pz(J%)1*^<bxs;|M}q4sYH(17xXnN$CZ(>{=AKqJ2`aX
z;>P$uzRL!40`8#o=7errRZR)MZb~q0fai&<b+|}nyi|cyZKft~02Q0GHW5~AfD#>8
zBw4_qZa_HBzGJ^5tT;Otg~jBmbN4&;-({Ko5DN2o>uEXzizmgrQ_N+mojoY#Et*l)
zAGI}DRexBM&)c3QXPB5774xpf3SY<@dd0l;;vZFQ4W07Vr{dQWsmYX>w~M10Ma0Bl
zw)Ufw%5e%#P;e4K)TN|}j!-~e56#&uz%eqW3L|nNsbna1f&$X>88RtniF%TPrw~K~
zUu?)kDHBOf%`sgwX>d*m;mYihLDj7Z+L~Xa{%xmfp>NP<t3>>IL&;stQO>Yfc?LYP
z0R+r+A(N&4XvPapCTVFh&);{E@qbc@_p12X%9-r5eJeuCUBNaxw6K4*ZAYnX$8uX=
zv9-TwA6O9v@B3QHR(ILzD+e~=|6=>nbWuD~3LLrX-?Dh&w)IZ$&t1#@=Wz&A_BO*6
z=r_-tsrWgoAEy+*@PuaFv)2I0Mfa8!Yd475t1H%4as@VpZ(X=~;jY!OOe+t;vi0m;
zyK8p*I|CmXd0Xq6(HJt%3_Y+?3s23zI6t)5yYx!2|LC17Mf>9`!V~wq4>UH68sKl!
zno(|wlmn5nzw<$}bE~-|bj_S8dAsJD7q&fM9X>suod4?Lk=xC;ZFl^4p15=1?Ndej
zQ!B#I{q`NduTDQ$gi+@v)ES;RGjFTF<ZE3x150nI6|S$DQ#6cPW4A9|SUP+ATG9Tc
z72()@TN{m_)myd(%l;5f5$tB1B3K-MD$VZxW}@OS*}WAz7i`j9p*;(aF2+Bw_I%>P
zmj_-NgB>eE2zWm8^e0V}8%bWx8Tzxq@W~G2-*%WzZnNN+ht9a!S%W7&N=Ik)!v{xp
zEORZE%}MZQt4=K=&Q9Yn)}30eYK$#JjjkPF6Y>+PG30M2<hL{;|EvXQ$iqKn`aBvc
zp1KEAGR#?k4>%{&vG5yw9r5c&8ad*}o?H!uH#p{Skl*YgHrlkaj?A#kpc%{oDc`K>
z5{frhM`Rpe;=lt|+*^YFJsqfH?KoUK>mOZH0Uo)ihZo_3hhNbQY9A<1uI60>I>WQ2
zqtUdtj$W`nc=}fGpk>~I4g5`SR&|YOU%`i?m2L17*1Tx-HWYmNSi!Y)07quW1nrg)
zjy!a<z?WBX=wfGwE+p33Gv2OK_4ha(ORRee4xIz@`jJ>%_Y|y>xlx0GMdjZBLI19b
zpq8PB;E#ZWdDD)8Xn;Qq+ce!|fHYeF%+*xFDiAiW147j{hT8#bl~&=9T?hCgG;FJ$
zer)7S`zrWnH=zYpXPW(~cbvDk&mLTLbmBl`(YfmAd&gOY!?q4SAHI;86tS5mlaffz
zGX1<ryp(_Ll9)(~mm0SdOCcR0m67CL5k9LCSxn@_L{`jBPE2I7vP2koSr#R_<N~3O
zg!p7G12js&?U$VDM+a}BdCD;g==djUSr51jakkO-8rb9=`T_Jv_NAx~-naCWYJZ-5
z@Fx`|qip2eV<)4E5A~>aoT1R=3*4Ge9qGwrvKrS;X9-F)&!1sJQf(*TVtbsf>8Q?8
zC4)0gc_gDqS=F4&#E5%9d5sDjreK}|)}Mb))b}X(J_W1~r0&)Gpjt5i3^270AEK|c
zN3?qc)L}UFaICGJeL0Av0gOqbbyyU|OLbJN`t;a&89+9x{3YsmhE~Ai2tH+gJfIS-
z0R$_Sr|!C2%I<AT&c#<M9RJ919--?v4}9|2;Ulw=t7}8Q--jU_DL?RY-bmToO2@}~
z_`qTIx*vErS2H_W?ku-&D~sF9EuH_}VRpIUM)bF@`nHvP+m?ON$|kpKd!>VO2S4oC
zK5zd}+&+KmF7B1!koxBbm&NDjPv57a9p#otd2=8Ak3`GeJIh@=h!D3u2-qW``O}pa
zt|d}x?k%^7f8qI|XUX<K%dU?iTx7>bMy_+mClO-8QGg@t%^#iNtLJt8;H}=9y{rBm
zCI614Q_KFnaAXReRUuRoLi72>r%KH`SA<>n93h+%eR7W1YxyioGW4B8{U;2jcegho
z{F%XY!eJXhYVFa@ytQ|c^euSTWsWX;4jZ21WTPxdJgpVk1j;~^WE?ij7THR3k2Ha$
znTBl*X=YZ!E?H#9My3L;;#pr6bWuL+lI@ZWIona;x<|5aoIWbda)3F<tIk?2o>}fX
zKkUWrCa3DFUqQomr(0<CWvv4<R-Ed9&;t6#=rUP;@A=8JEXGCs0uPCTlq}~+dCiLO
z{>zG(f{!{ek(8l$Gm9hJU#nwGPEM!--KneD=+qgqxENCZHxP|DJr3kv{}gIgJDqoq
zldxX*C}OT=!;ROFxt?j`QZ-C5rkfhd*YLbv{z~04HX3luBH<LQ0nckt@K-#Ln;&=A
zOX`%wzi#*|{<}OT!iZ~%^?_FicW`}#@LzQ?*))<&uv>^)rT~4gDRNwj(HXq*FA!H~
z?3g%;3aW7=nN{9kx!Cn98f;dS*+(Q;n4+!Fn#gy4ZVmK5#PdfaXvif8Ib-IUHm?Q;
zOToe0!R6p1v$lH<&ud@$_LuI4Bdg&ZrSOiW6F+(Sji;Bxhv&}Rr?mc3xPM7m4)2;h
z^J|a)BTn$z@4AEY7na?f6(b_|a99xDv>M)C3U6PtAfdtuHhc9lini!fvm)mvmHM?4
zG^M^;evZhW@mMdE%APr6f%|9Jsts#|09)U@dN#c4z8|cjFSt@z*XkrAyS`CfYtSY(
zE@7^hsGrE@$dSn&eT7LD$@-Q}*XB?gtphu(cx*Q@Gm%SV(%HPTuMg2aO|Ly4|F@V4
zx~fVW?##KTheW#HDH6uTaaN6E!?;Kn63Iv<@Wuz+OvI;LmRYR8=IrQHzj!h}GS={s
zP@PWlaIF+5PO8AmU5C$}yl}MZpxAZz>1U1}e*V!XpF4T9Yx)wIsDSuhQSQIee~>ax
z95|pK_Ot9q_6`nGMmo9z*RgmGfh?ZfbyBRJ@atL#l!qi(Ql7MkQmL$X;6QgbHJ(b)
z)!csZoF+Yxf<|hiB0?*oQlyLEXlw#nNt$(6(^amGCD1#~fRwY$rl#s}`o_%cOBhdh
z3ALMtmxy^z%(8(=AUEY~95u4YWo@(wqmeI@rUqVWv_vlTu2Y_RMVufa4>)NvcL~~%
zD&(dnWYtQSClZQ`OEe@0^KNa1^%k*<6!~+1GA5%b5MdcHN3ynh<3gm%A|l$P_Xcg%
zuZ%RzFzd#;1<;Rs7ylXyP_>MVWfHhTjN4rDXdF^n`8P<8T2vD>J6XXcXGx0b;zspT
z4ANsVg{wlbE4c45q2<uiv_n?12~-DIK3^SKaQhpiDL<hP?0%<K))qtEI0TKwbV;P0
zCo6Z5G2iidNz~XH+B(^nknz(Q?!GT{v$^E!UL0Na_05{^1zT5xeWhUEQffJPc-98f
zb=BHYvUZf6t#^IFa#OfsF#FH*6&q*ke84$ucBmINzn-TZdF}?=Uw>ga7%d08DhA%a
zx#D11EyxOmC^YM0LJ2ylHO62t7E|r97#1DweS>z!Vqcq#CkY^9F@;HJPYg%NP`25!
zL6?<(M?>=06c99NL$?G<b+AFf0ryx27w#~&O!BF=A=H+gz$J4gsa5x*)tPvPp)ngY
z)m0tR5gA%%4BobXj~cTWD(;vj<o^}%qTqWpestRL=|AD_d0Uo+ma>1-vaso1q<7}*
ze9OY-n~3$6BVVb<zH-mxtr%d@FSe{kc9$Z%KjsiwGje7hONN?9RM-?+>{;zPQ0h8R
z;SjkqwtDor($VK0P=w`vKzY~*vZgR_ddS|Yx#+!sd%Cwkh_n8=&Sy8n-A+))o{fNC
z*K;<!AzoJ-cyQQIEg+K-aIhhNr4vFQ-`77n&#b4e0^kUNZXG}5Ho!$50(JI)gIA~P
zZ=`Nu%p)~e&!baF4e50Kjns{t&fIv-#C|C62D&6_=&0w>DYziGaZ!)e-$?DM$8-vg
zit0F#$(`Gxr{kv^P1DBQHa(78*>nlnTz9S%jNiZyr>2ds;4Vt-#~hZSysP^{cdA>8
zb)V{fs{34i$8ol|AR1vY$|7kjFl^I(?D8#ym584>;1Xj-nG$<cK8hQPuYu<uZ_VWg
z&I1&xNOLU?j9~UI1TlV36jxyBiqB<b@ls!3wI%sofRzkG<wSZCKvpl#8kqnZLj>l;
zkuiDX>I8ltkn4{INy(v(D5R#S#&qTy?vCV?QG!A3*8>Nr`9GxKFDdxn?M=<JR$Y(b
zHvuQFkH}29P@T_Crm1#jS3_QF>LR6NbMe#!W2zeE>m$0PZnQ#E&?=N7+VOLeDQh5b
z&D$Hi<+$m1-}}Vt*Z-pM!@`eVS?zqJ)cMHmuP=8#F>|`?Yr55Wvvcu4$=5q`=AOmz
zt(U*?^1{K@w%$@(?@C)gY}R7i<8SBRP8Od%R}7zDc0X6NK35U^rodfKb2-#{D}6Jq
zzuLvs_Q6v7V7aAzwWX)j(o<6+>qK+gt*_twdP6({7`S!u=EZWb<<^ropM+PG)J><&
z{waK{&hW>a09NkSvir!L#GMylGoR+aM3(chs^x6vyn%|vXbb!gsII2KXIV1r-syYv
z!0~O|d)sU$Ovd*Hy(c*1&o~q4hol?LDoL%iV+b0JoBHo)Hd0UvH6ue;8*u}j(~eb)
zZ2UE8O7aJipQeyW{_0fWZ~)WvK2q<~G?B2tT}i>Y;_6s+^_E<{OXrteyFL(hYx*{T
zjS3Kms1DpMX4(}rp6F5KJrq^`oC0>1@J~S@3mhm6xa6#6eUNIbEno{>JcbuWp$p&e
zs7y^jJ=IW;gs#FA2A`H3W51lqlETYwh^o!>OPBu1Tq2q6PoyR?_{kNEC?rvs85vK-
z*sos{LJfs%E2uB*mr^8NwHwRi5YkRNNT6y;h*pTeSs{6<nzVY!6{^taD6dnh<1}Nc
zIh?vFnO%!E(iO4+iteG{AO$2RRpD|blhn>+7{Wh6UrteQfr9#B%y%iub}zxPHh(`O
zil#{U4;1_@1*8)&)k#BmJJSX<`)@aW+DgF|1giD0rhpt({tKc6`q|%NomGrH&###|
z-uofv`;c?s|F5{{FS$*><XV2k^_RH*zvs69J-7ECxI@3<4wtyYzvLpn;`)BcZK()G
zzWYO=xng(lhp?k7M!fHN@k0T;alhHOdCfvpyPe;QGm(lB?|bgniV1Ig4umQeqO8~|
z^XKRCYc`6t3jE+=5SAT3czgGq;7{?>AdnTepZAqfwGr=ozRrpXZ`9#!saS}zQf)S(
z?6~c{<{)aj$TyXp;e`_=r&uu}at}8tj?Yb1OrTN1x4B{?3MHVx5#@xZtKuTc&3XJ4
z4^dvu?O*c|1^<~RR1EDax%baFDrPI+xwvI9yY%?t%cZW}6%O&Y53SLw5<1Ke);S|m
z;|#jWnJA4jQBKa&R&f#KrZ#wp@=_aoMETK%N`R;!7wD)o5f$Qm!AdhxEf~MGFj24Y
z`}x*7V?=6<L01_Qr7<Q-V@#CBm?(`gQ5s{SG{!`QNU}8(r7<SzaRb-d`LXY5o)6a9
zQ>@0HBGm>kQfmPtwI(pqP2KY_(#r*#E38IRse_dOOAXSPG%+$n6VuE{$#9J4o9Utq
zO|Ow6HO3UdLJ74(WxY_bu&AB$hbj(6I=Mik0;!EmU>>P>80qDF;fjxueri&Hk@Q1?
zN)sbP)Q)CGwop65jKnY)91jdT`Ot!Ujl&D-tie&CgvuBn<^#pRmNgFV%6^{TGkbm2
z6DfHjYaAjN8^Jl7f8Q7`ySB`JW!1H%<l0i)`Pk~tq0-Kw71z@<kC%m}RiO*VeT$E*
z2-|-xSZ714w$_rZb=iiC=$l}!2(6!1;%?3w_!w1o{{lZp*uQMs^3BI+i+5MOmR-W*
S`?$Z`=X%0w{ErqM;r{~Lyo~t(

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/server.cpython-312.pyc b/benchmarks/sweep/__pycache__/server.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..71502809dc509f35323c1ad927705a5f38c7f878
GIT binary patch
literal 5061
zcmb7IO>7&-6`tkplFL6)q-6ceTI+{4<5G+qH&&E1b!;h#6GaIkH)vEOD~h|aD3M%x
zb}35)6&QtqN~i<dhr$Zdpz6(mb1;gcNPq$jdhJDwWRP7ufB_pQaw8%a33BRtyGx3a
z?WP?<^Ydor?acf6-W&bH@AnWWDekvPu7QyIIH(rR?(F;$I@gIzWF|$Xtd^N#%&}w2
zVYciP3#}u?rTHnIvDP@JoIqn!uCy>EFvLM#Au@M~$ox%*#d*rT%tV~u;9w%c82+;~
zo=|4uiG{PvSp^8(q>`FVSZl3Xum?MTg3fQ?Pzu3=z#$lgRk(Jb%8pu(Rd|_``B`C=
z%rdg`k`E5VDXv+E?7GBF39_KL6_2@x&%0nJjAX0lQM`7~+%J1!y-)UCB2#|Z4|Rjw
zQ2h#U3&3nZZju|JZG<myKnp@Y2(%Eip;fZPOf^lCNVDOeROq5Y-=b<l(KN%OnL{a&
zmW@DsR#&Jrqhu0uCc&%CsTU+om(`qZIH{uNXl5e8+A?6E#XkP+j6?N1<~q@#waOY-
zARqFC+_c9GDKG^h*`g<;;DAw;7b&nXsw$i;lTVq62ygIOE~`*OkfdZLsY?<CDG`cF
zpl+yO1*d_E_K^*@BqdUDO_L-I4nRaG7k@Y%)6>~lHkpm;ae7YCqf5CH&kZk}P-3a%
zOf0*s&#9T%Vk(u6nF2`1>4Fy1E+|SiX31zUyG+4ENxo%|2nVZ&!#V9RRNr4D4;zTP
zVa-((+O~y`dma6&+~q*IXK<C<7P`uv;Z^Ro(6$3hNdl!<EhrmPnqlZ%Cj~NJKWne5
zlP8%Z)CXiRRbGQz>7Oz*0Amfei8Kf`%0kJYTBUsJ{&U+Cow%hDs*9v7_^x=?JePgt
zK+~$1hLD4xEF~lzJi>5eZ!w<ADTd!9R{bSW(;RH5-J%}`KYokl+8sDeSF;h$yaH{7
z&9n_GbPx?cfO@np1qPukp+P*V3ya=^d;CycBo!ZV`>(jy+#g!^*&}f@B~#+)&tSbZ
zdC%AE6ejEf`l!FBO_jl_=bhCxyDbG^$^>@(VZMqTyGw{}f*%s*QIGqI?2y?cgUIk1
zchmkdcnSJ|S(d>8Ce9ko?~ISXAx)0G{m$6i(&*Sb(i?A%jv35Qgf)VuRY(~HycoPa
zsb&nP?ar){S&Rta|GAm0jRpK$YF5cu&V=q|xPaTlFUH3WhpHJa*pQ^aAppD(LL_@1
zJpgO#OpZ3gIN!9_*vx~Vb7-SbT_g{BBBh>Ku_spcHC}mh?alJR-g0M8sq^Spoky=7
z|8qxa=yY-D^n=FGb<Z`==E38)5}Vy4#m13`UZ?0m_vtc?bB{7n38pf;K#iv10bzex
zVG7KA4R&^Ct8R5s))6zz@;J5XH8tL}jpe6=A-cD==P`<`n?;b=SKvJ8eEUk3yN*6+
zmU)!xzEX{3X2gT2w>w@25bYyFpqL8|hP(@BWPq~7zDq7J7HD|s5#VNUSv8e1JP8$0
zVo3)qGz381EXC*$vctr<sxIWRW0b0tA~qS$g=8v~J!iN8NVDgXvcYDda%#zQnRv=@
zO`dt>^)ut+5r^r^M#El%(a^VSSEdL)`Oto2QL{rp*QTKYP-^ckwMUEX(ba}~-u9CB
zV9|SU%PVerk30x=mV*7oVE^{OiQB<pG#B?Z_wRfE@YF|7ZM<I^I8hupvDGpB*YMv4
zzZl$ZJo6n-LeFgmhbuhsMgA2WhVBm<D(o*WIZip)zdQI-UYEf_Fih0@KN^H-Sc}m4
zQItSDu)P(Q*9sLN8DTzi+_a5vvMyFW&d~O*jj$7EL7azxoxvyOl*9r6Wgm`Mn#-8c
zkPg7m7CAi*{dzeY4X{iCXHTf<bUY*HyY`BF@9YTf#_A%u8)(1s!P*C9U!dlnSC5xN
zEe~B>qo+bRx97po^Om>np+4%KcyCjRh>1^fPb~=2vn2$}YNhI)XvDCh=AyL)NZlRO
zdQ~^VeU{m?X8vIKz`zw<O2k2!8XblW`*F<h*5yO__Pz3|n|cZMYJ*ULr3RWxfxfQ-
zeSm5uUw6^hz3uBM`$G2wUrFdJ3Z3htrLL!oT~FT@h8`6V0=p@oZRk8nKr4*QjFR^t
zz^ynSg<=-L!!HYvT0Iuk3XZA(WJeyjVk})@8IoZ+$c$H5nFC$`11nsCtMb~#zbA6#
z9_3o4tU&f{a_3ig*;!yeCbFx*e@s5%ApH~|&CWZc(K%Jqzd`sk+$l8?PvJP?$UCB0
zoXx6KPo9Ju=3R5To*jwB3}z(4nt{pSlNniAGT3BBk2tMV0p(^0$U|CCmJJSjhJakG
zG4?bJ4wyhxQ;0SRpi9DhuNuzcvW%dY5AW6Vlh(Zo47Dpzf!YtWUze^)tDgI9eXFmQ
z1Fh>LUj+urt%o+AD)k;K_8z-6yw&@{=jV&PCyT8wUFH7Sc%b4U?fn%GY3^Aaz2A0Z
zch}w4j`fj^`BM1VV))rxOIzWSUk(++qs7j#t=5-oTO+u&ZFTfsux-70-MJp$;MNy6
z1K~{}{HR^k;OjDo{K<Az0Lw!Ac%1vmH9Ml}<K3_7peqi&mY~RN!2z1D?S(jrd4*Z#
zYpG9_f=>dl7H)U_3R__3F^k(*s^9vb`0@V_KLD5iCIx5J%4s85HTWL&>X>kwMHZ^F
zzh;(69o=2!3Agin!tSn$cqb^v8G}PR%s0P{kfbLw=R^yZ#JDczn_?DHK}4QSE?Iz;
z57@+X+9DXfWM&rMNXwFvp2;^wql-#HS7}sEY70@5TYmhEy+qW^{7uY3PH27!zc`cA
zMOg(xM%6`SDXVIV7#GtDJd0#eS4Hy>qCTfsXUj(>R56*(rj#_iBH}uvmZCZ<PFrWS
zjz2BVs#KiLpPIJ6I4HiAQsTf^%PNWF>@s{Hk%Oc^E!t5@TujEr>1fnM*Qogpi$XA-
z9*hW<_X|o!)-ELVIr=injn7iR0Yjk5`JAHZ8YVN~`;9c7)D#K64v*Kkp3{t`2~|H+
zJ*^^}nN0PiVZui>MX^BuqAEZEM)4YAP>hH9j=kVef8AffymkkwIzXs6iLd2qeC=l?
z@1dgi&_;OM8!2}mDnTyWJ+jsP!s^6bUvRVe$c=-WM}{{;&u#lg9)vosN3TUUUfk?G
zws~x9Q+#<V^vddK2*4$uSoDe8zTWyJw_=;(sjblIx)ry5y=8yvI<xj($=_G>_iapU
z`=2QX`fqrOfn#@DA{7U7AhN@<t)U8GgP{sb8lQRSBTeCQ==slI`||u3Z+!mq3SnM{
zA2h+&8CcuY0BijXCb&S3fzCSt|4o30SSFrUB+2kdQd*UBDeU_s>3lApvS+wd5_H09
zIyJZ%RZW?XXo|9>El?Sp`L^_*0>c<vN+?;hC5my7c438CubCxULHc<dqVi3B7=HVy
zpHNaMNs2HOQ)%-ta?*S%QpA0;LLAZXnfLuAQgL|s!}pro)|;-KsqoMTJ#`#hPkhu~
zapA~AS~@CT?D>eN;opAjbvXFu_2WAPnu_4$o9~5MuC5eA12?#0=qD8(D8Quo(8lp%
z)8UE>hXQFE*wBluM=Nd|dVtlA7kb||3cTmrW*7e&Qwj0BXQO{Z`(tE>KzFBs=Z{qy
zg8bndeLDo2@4~ITC3W)>5f43z7YbvADYBIV@+d;h652RWjUW)ftKpTbD;a$EX_mlI
z8lMtVi}p+U1xsr$()VEsL$Zdif(pwp%#M>Vp*zHVhxqT1;Mb(*J_&qHdcSij4Abx}
I!P?~XA8^rZl>h($

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/sla_sweep.cpython-312.pyc b/benchmarks/sweep/__pycache__/sla_sweep.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2f6050f530a44ec0500b6c54786007b1dfc3baf3
GIT binary patch
literal 7045
zcmcH;ZERE5_1^d4kJz!3IA4$gFAX7a0!~|K=|`ZD039DqTSBWfqjDX;o5sN(>3uIi
zJfoqONtxDZsWy#NT~$||v_xndl`4%%`?3DsA6w}JdSfcmHfj53FjH54?VS7k94B~c
zrM6efx!3pHkMqvgJ?G@ljg1WiT2lFOVj@7u-|>gj+?7Fjgc5R@yhwDS(<GU&dpbek
zx0IAp@`RjHCKQVEa#BsXCR}2yB;6^`gohI5lE^beS1%FW#pElpeeRXY@e|$(-VJyU
z^WKMVsNlVTZ>WR!Rq#H*`|IHS6?`M$19k9?%*Ps81M};_Un&y;7GzDVnRzz>eNz%b
z)}l8JLodFf8BS?oAw7f`ht`Q!fola^NbL98JFED%c^Yo}H|!u|VabvYj*MD?*rZ|d
zSlmo8b2_7kspZvUW-OkJ83z3DWX>|q6FQ6IE~mLFgYpavE)zyj3KP<cgvm_NDN@N)
zU1G8>GuM=&E0>fipWT2_nFlZ)z_@BKUfm7f?_sh{HAn$hxu#sY_mVQ<n{NpFtfui3
z2S<6rWIT~ckHidSxy%@UjhU7UzF{twv|OB-b37fF9Acpd%^@i7GAI|&YXY>}8#GL_
zPo5Mzv{z5@IrgfSn9|JYgrUWqYc%))+<8jNnA41(OBhUh^++sfuva51)C!Gd%%iE<
zBulZh$@IgVXZVU_DF#bUaa3yqDbcihM~2MQ?9gmtc9%`@uJdzypLqPtUN)3WOb*S?
z1N+lMXOqd)&?HO8r&BS0#uzfrF*ZA7Bx6xAip<Vip0lxJ0%XLpn>I2d;-G?fFJ69;
z+;x%Qg9T4_8GaE<PEH$Nl{G7Lj5orj6^S=N$6EnZK882rVZNyhPsPk=Jd@V558Ovg
z4OVRRz@CfbAAxS5hKKL~H?Wl_;)dm`45DY)e7s_ruz(QMG$FaSU~rk_XinI|1vy7%
zP^ueRPQFr^y`aE~+LJ0PbJDxuKXS4zy{o*pwpuk+=O|sysjvpHIfYBQnx?ud3rOc=
zN^;6L3A@L#vbImVCr2Kc$~L`Z%OsJ0O#?nWsR1shS+3^~j*lNcWVwzUJbL2rp|H$b
z;2_=!z*1*<B5j6UHgD04`DUDV*{nc4Hs+G1r66|=<bx)f&H5IxI~q&tQAg(4p8F(l
z|02BFcp1P&QfeSAo0htY&Akh*8_jK(x4gY&>FjFrjs@4PVCZ^qTQRsT|5Se0vT^mX
zYdu$Y7PO~Vg9jFro1Vr(la_DIyYlfuVBilsR;K?nT?{<;spt7y!M24)A=$C8-||GG
z=~#+IqgF#Sn#$;NNgVs5(bvIDD;RYunTeTJFbZFi&X_S1tlEf1xq_TfCNr6&;Fu+Y
zkFwdO=!v+=djP*e#8rYH9Cb?o9}Elwzz@kSfAgEq-cmy)Nm3tNnky0LmRs*&SC)yZ
zRm_(>VnktuQ6kXgjXT&?R=}v_@~Q2&n%frROOGzj6q~zCDom7Iq<vG#jUx|f2;B9;
z$fgHLiNjyDIhs{I08?w;61*b?Zz(Yq{GeRp2jO+n73Kzv8!&1O#xw5<yDcBc`2;hJ
zQ`51u@Gu-ddYx6H%MoUyi7UZu2)gQx?F_6NC%hfzS19*F$A#yxJ(kT`)Yxom&6QOr
z(+`+3I)aM?B)_D*?|a8r4E7W}JvJlI=+{w&QWaF~fB_n_FvYr*+2#pmCXZQkm_Gm;
z_(KRf0Mt4mp%vMVTKa1I&Q4feMzaDETiO=e7GpM<`O!j0e<2tyc*3^6u6X%&JiZqJ
zlE=~Fcpri=0%5oVI6@QRcyNvSMervA+*&>a;1ao|HkKr+Zb!|74mA%t)T@A)2Mw}E
z1GeT3*qS#WR@{c21NH@Y?6;~<wZeUlA4c;$mHC>A1w5}PmMymWYPF?CY}K2q`n4N*
zxu##O?{~e^RSa$~c(#9|`gKnl-uI;nhF;yVxiv~_G;J>uTdQf4OM>A1c%d^~2o4lH
zwm8T5qp)(L{ydIz2p+~`*6B~Ltv|iC{`6M$r?;v<gSP$*+WIqC)t^C|O?d3Lsy_kX
z%`==qM8dxTmjoaG6*LD8zUI!V&g@4<A``z+6|w04FV&FE8z`#LjS-}0k3&>_4LE>k
z1Q<N?#}HtMB&NPq>22U-Rk^>W133Ma#E529BgX3GRe2so9z0p)#y9k&+>`cyxyfTV
zRhPCJ$v%se?Q_VhFWJM0M(_*{gn|mm;#64SLf+p&6#6?p3c&Ki)zQ(DM^7C-dGz2q
z>Eo+}tqlCVFP50Wh<`(yl60vig2329W^Tx`ysVNPV(1C0YIC%Pc{S{^JV3=b<{y@4
zDv@NfF>`v|bB?sg@K;_009jQv9?wyoUcndw+N0!xWa28(W)x?%*5@QAvc4een7tEc
zFGSj8#>xNJHjp1w<MwgV11{5`=OjvAhBS|ow>F=bUnb{hSQ@h=J{eXlB{R#?mNH{x
z07AH_TmC7YNkut}XSi;_3OSxM_zAecqEnW;GH)QM7;)PHw-+3o9>qhlEe>BI)j5=g
zfs%y$rm=akf9cStjotYdZnkf}oOnBtr$0+BJoC9s0uW4+CMURduLk=Ip8n6>Fkfiw
zzGq+n_LKHu`H$*B)y-doU-kK&2F!YXn-y+DmQooR9W@yZHLG0AQHR^_lJ}~de}hWE
zYtR%3$_^1HS9ey5Ff4oE)HFkT)kG$$8Pl1$q^?aeEv6+ChN)$yG>pw5f{*b8Gj?i|
zbEY<xnM>=MIX}yu)Z$eI0s4`<;(<Q`gX17LhzH3lpo<r%2{U%9o4{2+;1~2V1%Y=d
zWS;y+K1W3y3v~^&9-+5KO_qWrbxqiSlp+sdY9&OEtg6a)_%)Vh=V$r;Y`?QVQnS^F
z3@0;j$olt3sw>aHe&YcE|04grND3{-KIyyW`uXtn&|on%xP0V#X!j?5UkE*VV_P=`
zMQcbHiL_zH(s2f=2u!oQr+_u0W?(7ErLe@u;Xon$bz$yFn9a7;r3@W}@iYKXzTl>%
zzF+P6G}wQ$r3<3WP|wYtzGe4^`|?92nKth(%W^1CB64Hkb^|D45lLQcIkp-+R`47X
z56)QFw;>X?e4-cxX(`l)EGc7Hp69_8oJgEu{3WC{ieM0dh>wxdjq%NKoI~(E_%n_H
zxI}KKO(jWD!}*q9cYV-xhrkd+mu4|p@{5sMJx=p`mX+o4t3Au#T?rI>_TC{lDOTQ=
zaA?1i;s#7?ksH;fRz_uXyBkw4rb6l^$_X2tr0xbMsX`KlshN67op3|q<>7cdM^j&C
zmOhw32Ul(d{k}{R;P7&^UUA|IEW&n(ypkm3G-%%i`GT@$x-bu9UQlz&j6=7*LBO2q
zn4>}8YFl%uITamvje#pO=tnlRwcXAsPM?!<GI}nsq!S7;@oPlGA_?SYQceLVn^*`E
zZH->%1aKrSXZ!|Lpg@@;Yfc@UhccG!J(?DE3JshwkC_<`o`DN*0_6=XKte4<>$B*-
zY-e9Y6V;UJQbUVza37HQs!;e#861NGs{!nYo5s0>IW5vO%g<Q~s+F^xO(o7-4RFR>
z#j;#RhC^u%YAwRHP=b~pYigAeU(9N-i!NAxviy}X&^rg^#mp?uZY;p?2{<I%>DVKB
znp$s>0j%*M0LVM{JhtG!)gSqtf5rdXK+(T_;n<S@v&}meT{lA8u7?JSp@HSc{t|lR
z=Fn5ujueMRZ+323N?zZ(x43ohHP`Car&l`<lx69m_QezV&BfN8w_T)dbIC`#`tAlu
zM>p7bN8gRUhx5s+-B(Xs-4Che2;F&e=OZ5vukJih7(7@~rM6Kp7p0@6M3m;1QZotf
zz5M_f|Kjj!P%C&eVLwn|0nVZD*XcIuq0sFy7+}U;Pp@?f&qm#1+nUBZBS%j_E2Odd
z55gh1s`?;6vMmgSf>BBJE?;}kD$l{@_0Itn`8rhI(DPXIj785H_(jgc&R>Ba*}ipx
zj2Tgroj2=v{7bOd*b2b*_#Go3onAS${K8ebMBi_Gr!gP9-r4`r>59+aszDS2fk!5h
z=F_kTe0vjg{B=B}_U&<3E)->!>dO_W%)W`sw*a_EZUkF?dj3b}iyb3ZPyK%4qlu4C
zuXc>A21g2>k&5%CS!t&Ru4+48)QbQs5_}TDAOhi{QF-|}1RLrY!owlJ5W{!^K*dit
ztKCrYi!blaPk*rW4uPK)Uk#(%JE%HJmv&>BW0WrU+!ehbDBRAU$7|vMEIBqA=g51z
zyyvU_pMe=170qgf7Z56_QQ$pG8(0dot1wtm6V(-wB8!wr1k}P2)O=P9*I`x4ev*#k
zNPN-yue3bFb~$oC|2{0isKodJ0KAZtLb;s!|4O`{k)FSi?thXU5V1+VyHW>jUo^@D
zI{0wOSHg+X9)WVxfkMlJWdeN#2cuGJ1vgme8bloC<+u+<Rop<Kt@r=$+Zx%puao$;
z-Dv2(;cdO)?YQk#cS{%j3;N>jC8e-sSFtlv2t|s4p)ygabhoLA9;XZD;uw_V?h^cQ
acSk!NrHgx(WLRD3+*J%k{zGs|i0XgyEyYa$

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/__pycache__/utils.cpython-312.pyc b/benchmarks/sweep/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..22651d268276e52c0aad5194071992c034579a98
GIT binary patch
literal 535
zcmZutJx>Bb5Z%2yKH`cA!H&k57(;PvVF4sY5~ZR56FVDnu!|hr9hbdBg;*G4=MTV=
z5<}xpur#spLV?-V#*zdpD|Zo$F}!5w&CJWZ%<M}nwgv<&?aurV{4R?nv_&%86iFWt
zKmmai)HR~qYNxQPrZgU{n-+BpoANNDeup_VxEvQO9aQmVHzM@G6=?odMNfi2qKuTE
ze5I}u?N^s>|3E^cg==$_8eXa=AQdTbh&inElysUal?sQu9B!u+9%0nAj2h)3&u6Ba
zf=n*tN#CunL+slwc1>6J4R%I-{j!tEWm_4FEwhT<uHR@o_}sE=T%}H}VH>RFVef)c
z7k7Nq^3raX$34R_eX~a^%MW8QVJ;W;vLalAH<Xy5WPp<QM}x!|?M#p!Abm(43uBa<
zpnQPxPwE&ICa4&o;`81Zm0z{;Ow59kxIh()&n+JS+YmjrE&`A4+ilXZ=mCq1Ql8@_
YMVP7(!f6=7V>nQ!K=M%iob!D68^7Ol2><{9

literal 0
HcmV?d00001

diff --git a/benchmarks/sweep/cli.py b/benchmarks/sweep/cli.py
new file mode 100644
index 0000000..108cd75
--- /dev/null
+++ b/benchmarks/sweep/cli.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+
+from .plot import SweepPlotArgs
+from .plot import main as plot_main
+from .serve import SweepServeArgs
+from .serve import main as serve_main
+from .serve_sla import SweepServeSLAArgs
+from .serve_sla import main as serve_sla_main
+
+SUBCOMMANDS = (
+    (SweepServeArgs, serve_main),
+    (SweepServeSLAArgs, serve_sla_main),
+    (SweepPlotArgs, plot_main),
+)
+
+
+def add_cli_args(parser: argparse.ArgumentParser):
+    subparsers = parser.add_subparsers(required=True, dest="sweep_type")
+
+    for cmd, entrypoint in SUBCOMMANDS:
+        cmd_subparser = subparsers.add_parser(
+            cmd.parser_name,
+            description=cmd.parser_help,
+            usage=f"vllm bench sweep {cmd.parser_name} [options]",
+        )
+        cmd_subparser.set_defaults(dispatch_function=entrypoint)
+        cmd.add_cli_args(cmd_subparser)
+        cmd_subparser.epilog = VLLM_SUBCMD_PARSER_EPILOG.format(
+            subcmd=f"sweep {cmd.parser_name}"
+        )
+
+
+def main(args: argparse.Namespace):
+    args.dispatch_function(args)
diff --git a/benchmarks/sweep/param_sweep.py b/benchmarks/sweep/param_sweep.py
new file mode 100644
index 0000000..986561e
--- /dev/null
+++ b/benchmarks/sweep/param_sweep.py
@@ -0,0 +1,91 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+import os
+from typing import Any
+
+
+class ParameterSweep(list["ParameterSweepItem"]):
+    @classmethod
+    def read_json(cls, filepath: os.PathLike):
+        with open(filepath, "rb") as f:
+            records = json.load(f)
+
+        return cls.from_records(records)
+
+    @classmethod
+    def from_records(cls, records: list[dict[str, object]]):
+        if not isinstance(records, list):
+            raise TypeError(
+                f"The parameter sweep should be a list of dictionaries, "
+                f"but found type: {type(records)}"
+            )
+
+        return cls(ParameterSweepItem.from_record(record) for record in records)
+
+
+class ParameterSweepItem(dict[str, object]):
+    @classmethod
+    def from_record(cls, record: dict[str, object]):
+        if not isinstance(record, dict):
+            raise TypeError(
+                f"Each item in the parameter sweep should be a dictionary, "
+                f"but found type: {type(record)}"
+            )
+
+        return cls(record)
+
+    def __or__(self, other: dict[str, Any]):
+        return type(self)(super().__or__(other))
+
+    # In JSON, we prefer "_"
+    def _iter_param_key_candidates(self, param_key: str):
+        # Inner config arguments are not converted by the CLI
+        if "." in param_key:
+            prefix, rest = param_key.split(".", 1)
+            for prefix_candidate in self._iter_param_key_candidates(prefix):
+                yield prefix_candidate + "." + rest
+
+            return
+
+        yield param_key
+        yield param_key.replace("-", "_")
+        yield param_key.replace("_", "-")
+
+    # In CLI, we prefer "-"
+    def _iter_cmd_key_candidates(self, param_key: str):
+        for k in reversed(tuple(self._iter_param_key_candidates(param_key))):
+            yield "--" + k
+
+    def _normalize_cmd_key(self, param_key: str):
+        return next(self._iter_cmd_key_candidates(param_key))
+
+    def has_param(self, param_key: str) -> bool:
+        return any(k in self for k in self._iter_param_key_candidates(param_key))
+
+    def apply_to_cmd(self, cmd: list[str]) -> list[str]:
+        cmd = list(cmd)
+
+        for k, v in self.items():
+            for k_candidate in self._iter_cmd_key_candidates(k):
+                try:
+                    k_idx = cmd.index(k_candidate)
+
+                    if isinstance(v, bool):
+                        cmd[k_idx] = self._normalize_cmd_key(k if v else "no-" + k)
+                    else:
+                        cmd[k_idx + 1] = str(v)
+
+                    break
+                except ValueError:
+                    continue
+            else:
+                if isinstance(v, bool):
+                    cmd.append(self._normalize_cmd_key(k if v else "no-" + k))
+                else:
+                    cmd.extend([self._normalize_cmd_key(k), str(v)])
+
+        return cmd
+
+    def as_text(self, sep: str = ", ") -> str:
+        return sep.join(f"{k}={v}" for k, v in self.items())
diff --git a/benchmarks/sweep/plot.py b/benchmarks/sweep/plot.py
new file mode 100644
index 0000000..9947d61
--- /dev/null
+++ b/benchmarks/sweep/plot.py
@@ -0,0 +1,580 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+import json
+from abc import ABC, abstractmethod
+from concurrent.futures import ProcessPoolExecutor
+from dataclasses import dataclass
+from functools import partial
+from pathlib import Path
+from types import TracebackType
+from typing import ClassVar
+
+from typing_extensions import Self, override
+
+from vllm.utils.collection_utils import full_groupby
+from vllm.utils.import_utils import PlaceholderModule
+
+from .utils import sanitize_filename
+
+try:
+    import matplotlib.pyplot as plt
+    import pandas as pd
+    import seaborn as sns
+except ImportError:
+    plt = PlaceholderModule("matplotlib").placeholder_attr("pyplot")
+    pd = PlaceholderModule("pandas")
+    seaborn = PlaceholderModule("seaborn")
+
+
+@dataclass
+class PlotFilterBase(ABC):
+    var: str
+    target: str
+
+    @classmethod
+    def parse_str(cls, s: str):
+        for op_key in PLOT_FILTERS:
+            if op_key in s:
+                key, value = s.split(op_key)
+                return PLOT_FILTERS[op_key](
+                    key,
+                    value.removeprefix(op_key).strip("'").strip('"'),
+                )
+        else:
+            raise ValueError(
+                f"Invalid operator for plot filter '{s}'. "
+                f"Valid operators are: {sorted(PLOT_FILTERS)}",
+            )
+
+    @abstractmethod
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        """Applies this filter to a DataFrame."""
+        raise NotImplementedError
+
+
+@dataclass
+class PlotEqualTo(PlotFilterBase):
+    @override
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        try:
+            target = float(self.target)
+        except ValueError:
+            target = self.target
+
+        return df[df[self.var] == target]
+
+
+@dataclass
+class PlotLessThan(PlotFilterBase):
+    @override
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        return df[df[self.var] < float(self.target)]
+
+
+@dataclass
+class PlotLessThanOrEqualTo(PlotFilterBase):
+    @override
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        return df[df[self.var] <= float(self.target)]
+
+
+@dataclass
+class PlotGreaterThan(PlotFilterBase):
+    @override
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        return df[df[self.var] > float(self.target)]
+
+
+@dataclass
+class PlotGreaterThanOrEqualTo(PlotFilterBase):
+    @override
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        return df[df[self.var] >= float(self.target)]
+
+
+# NOTE: The ordering is important! Match longer op_keys first
+PLOT_FILTERS: dict[str, type[PlotFilterBase]] = {
+    "==": PlotEqualTo,
+    "<=": PlotLessThanOrEqualTo,
+    ">=": PlotGreaterThanOrEqualTo,
+    "<": PlotLessThan,
+    ">": PlotGreaterThan,
+}
+
+
+class PlotFilters(list[PlotFilterBase]):
+    @classmethod
+    def parse_str(cls, s: str):
+        if not s:
+            return cls()
+
+        return cls(PlotFilterBase.parse_str(e) for e in s.split(","))
+
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        for item in self:
+            df = item.apply(df)
+
+        return df
+
+
+@dataclass
+class PlotBinner:
+    var: str
+    bin_size: float
+
+    @classmethod
+    def parse_str(cls, s: str):
+        for op_key in PLOT_BINNERS:
+            if op_key in s:
+                key, value = s.split(op_key)
+                return PLOT_BINNERS[op_key](key, float(value.removeprefix(op_key)))
+        else:
+            raise ValueError(
+                f"Invalid operator for plot binner '{s}'. "
+                f"Valid operators are: {sorted(PLOT_BINNERS)}",
+            )
+
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        """Applies this binner to a DataFrame."""
+        df = df.copy()
+        df[self.var] = df[self.var] // self.bin_size * self.bin_size
+        return df
+
+
+PLOT_BINNERS: dict[str, type[PlotBinner]] = {
+    "%": PlotBinner,
+}
+
+
+class PlotBinners(list[PlotBinner]):
+    @classmethod
+    def parse_str(cls, s: str):
+        if not s:
+            return cls()
+
+        return cls(PlotBinner.parse_str(e) for e in s.split(","))
+
+    def apply(self, df: "pd.DataFrame") -> "pd.DataFrame":
+        for item in self:
+            df = item.apply(df)
+
+        return df
+
+
+def _json_load_bytes(path: Path) -> list[dict[str, object]]:
+    with path.open("rb") as f:
+        return json.load(f)
+
+
+def _get_metric(run_data: dict[str, object], metric_key: str):
+    try:
+        return run_data[metric_key]
+    except KeyError as exc:
+        raise ValueError(f"Cannot find metric {metric_key!r} in {run_data=}") from exc
+
+
+def _get_group(run_data: dict[str, object], group_keys: list[str]):
+    return tuple((k, str(_get_metric(run_data, k))) for k in group_keys)
+
+
+def _get_fig_path(fig_dir: Path, group: tuple[tuple[str, str], ...]):
+    parts = list[str]()
+    if group:
+        parts.extend(("FIGURE-", *(f"{k}={v}" for k, v in group)))
+    else:
+        parts.append("figure")
+
+    return fig_dir / sanitize_filename("-".join(parts) + ".png")
+
+
+class DummyExecutor:
+    map = map
+
+    def __enter__(self) -> Self:
+        return self
+
+    def __exit__(
+        self,
+        exc_type: type[BaseException] | None,
+        exc_value: BaseException | None,
+        exc_traceback: TracebackType | None,
+    ) -> None:
+        return None
+
+
+def _plot_fig(
+    fig_dir: Path,
+    fig_group_data: tuple[tuple[tuple[str, str], ...], list[dict[str, object]]],
+    row_by: list[str],
+    col_by: list[str],
+    curve_by: list[str],
+    *,
+    var_x: str,
+    var_y: str,
+    filter_by: PlotFilters,
+    bin_by: PlotBinners,
+    scale_x: str | None,
+    scale_y: str | None,
+    dry_run: bool,
+):
+    fig_group, fig_data = fig_group_data
+
+    row_groups = full_groupby(
+        fig_data,
+        key=lambda item: _get_group(item, row_by),
+    )
+    num_rows = len(row_groups)
+    num_cols = max(
+        len(full_groupby(row_data, key=lambda item: _get_group(item, col_by)))
+        for _, row_data in row_groups
+    )
+
+    fig_path = _get_fig_path(fig_dir, fig_group)
+
+    print("[BEGIN FIGURE]")
+    print(f"Group: {dict(fig_group)}")
+    print(f"Grid: {num_rows} rows x {num_cols} cols")
+    print(f"Output file: {fig_path}")
+
+    if dry_run:
+        print("[END FIGURE]")
+        return
+
+    df = pd.DataFrame.from_records(fig_data)
+
+    if var_x not in df.columns:
+        raise ValueError(
+            f"Cannot find {var_x=!r} in parameter sweep results. "
+            f"Available variables: {df.columns.tolist()}"
+        )
+    if var_y not in df.columns:
+        raise ValueError(
+            f"Cannot find {var_y=!r} in parameter sweep results. "
+            f"Available variables: {df.columns.tolist()}"
+        )
+    for k in row_by:
+        if k not in df.columns:
+            raise ValueError(
+                f"Cannot find row_by={k!r} in parameter sweep results. "
+                f"Available variables: {df.columns.tolist()}"
+            )
+    for k in col_by:
+        if k not in df.columns:
+            raise ValueError(
+                f"Cannot find col_by={k!r} in parameter sweep results. "
+                f"Available variables: {df.columns.tolist()}"
+            )
+    for k in curve_by:
+        if k not in df.columns:
+            raise ValueError(
+                f"Cannot find curve_by={k!r} in parameter sweep results. "
+                f"Available variables: {df.columns.tolist()}"
+            )
+
+    df = filter_by.apply(df)
+    df = bin_by.apply(df)
+
+    df["row_group"] = (
+        pd.concat(
+            [k + "=" + df[k].astype(str) for k in row_by],
+            axis=1,
+        ).agg("\n".join, axis=1)
+        if row_by
+        else "(All)"
+    )
+
+    df["col_group"] = (
+        pd.concat(
+            [k + "=" + df[k].astype(str) for k in col_by],
+            axis=1,
+        ).agg("\n".join, axis=1)
+        if col_by
+        else "(All)"
+    )
+
+    g = sns.FacetGrid(df, row="row_group", col="col_group")
+
+    if row_by and col_by:
+        g.set_titles("{row_name}\n{col_name}")
+    elif row_by:
+        g.set_titles("{row_name}")
+    elif col_by:
+        g.set_titles("{col_name}")
+    else:
+        g.set_titles("")
+
+    if scale_x:
+        g.set(xscale=scale_x)
+    if scale_y:
+        g.set(yscale=scale_y)
+
+    if len(curve_by) <= 3:
+        hue, style, size, *_ = (*curve_by, None, None, None)
+
+        g.map_dataframe(
+            sns.lineplot,
+            x=var_x,
+            y=var_y,
+            hue=hue,
+            style=style,
+            size=size,
+            markers=True,
+        )
+
+        g.add_legend(title=hue)
+    else:
+        df["curve_group"] = (
+            pd.concat(
+                [k + "=" + df[k].astype(str) for k in curve_by],
+                axis=1,
+            ).agg("\n".join, axis=1)
+            if curve_by
+            else "(All)"
+        )
+
+        g.map_dataframe(
+            sns.lineplot,
+            x=var_x,
+            y=var_y,
+            hue="curve_group",
+            markers=True,
+        )
+
+        g.add_legend()
+
+    g.savefig(fig_path)
+    plt.close(g.figure)
+
+    print("[END FIGURE]")
+
+
+def plot(
+    output_dir: Path,
+    fig_dir: Path,
+    fig_by: list[str],
+    row_by: list[str],
+    col_by: list[str],
+    curve_by: list[str],
+    *,
+    var_x: str,
+    var_y: str,
+    filter_by: PlotFilters,
+    bin_by: PlotBinners,
+    scale_x: str | None,
+    scale_y: str | None,
+    dry_run: bool,
+):
+    all_data = [
+        run_data
+        for path in output_dir.rglob("**/summary.json")
+        for run_data in _json_load_bytes(path)
+    ]
+
+    if not all_data:
+        raise ValueError(f"Did not find any parameter sweep results under {output_dir}")
+
+    fig_dir.mkdir(parents=True, exist_ok=True)
+
+    fig_groups = full_groupby(
+        all_data,
+        key=lambda item: _get_group(item, fig_by),
+    )
+
+    with DummyExecutor() if len(fig_groups) <= 1 else ProcessPoolExecutor() as executor:
+        # Resolve the iterable to ensure that the workers are run
+        all(
+            executor.map(
+                partial(
+                    _plot_fig,
+                    fig_dir,
+                    row_by=row_by,
+                    col_by=col_by,
+                    curve_by=curve_by,
+                    var_x=var_x,
+                    var_y=var_y,
+                    filter_by=filter_by,
+                    bin_by=bin_by,
+                    scale_x=scale_x,
+                    scale_y=scale_y,
+                    dry_run=dry_run,
+                ),
+                fig_groups,
+            )
+        )
+
+
+@dataclass
+class SweepPlotArgs:
+    output_dir: Path
+    fig_dir: Path
+    fig_by: list[str]
+    row_by: list[str]
+    col_by: list[str]
+    curve_by: list[str]
+    var_x: str
+    var_y: str
+    filter_by: PlotFilters
+    bin_by: PlotBinners
+    scale_x: str | None
+    scale_y: str | None
+    dry_run: bool
+
+    parser_name: ClassVar[str] = "plot"
+    parser_help: ClassVar[str] = "Plot performance curves from parameter sweep results."
+
+    @classmethod
+    def from_cli_args(cls, args: argparse.Namespace):
+        output_dir = Path(args.OUTPUT_DIR)
+        if not output_dir.exists():
+            raise ValueError(f"No parameter sweep results under {output_dir}")
+
+        curve_by = [] if not args.curve_by else args.curve_by.split(",")
+        row_by = [] if not args.row_by else args.row_by.split(",")
+        col_by = [] if not args.col_by else args.col_by.split(",")
+        fig_by = [] if not args.fig_by else args.fig_by.split(",")
+
+        return cls(
+            output_dir=output_dir,
+            fig_dir=output_dir / args.fig_dir,
+            fig_by=fig_by,
+            row_by=row_by,
+            col_by=col_by,
+            curve_by=curve_by,
+            var_x=args.var_x,
+            var_y=args.var_y,
+            filter_by=PlotFilters.parse_str(args.filter_by),
+            bin_by=PlotBinners.parse_str(args.bin_by),
+            scale_x=args.scale_x,
+            scale_y=args.scale_y,
+            dry_run=args.dry_run,
+        )
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> argparse.ArgumentParser:
+        parser.add_argument(
+            "OUTPUT_DIR",
+            type=str,
+            default="results",
+            help="The directory containing the results to plot, "
+            "i.e., the `--output-dir` argument to the parameter sweep script.",
+        )
+        parser.add_argument(
+            "--fig-dir",
+            type=str,
+            default="",
+            help="The directory to save the figures, relative to `OUTPUT_DIR`. "
+            "By default, the same directory is used.",
+        )
+        parser.add_argument(
+            "--fig-by",
+            type=str,
+            default="",
+            help="A comma-separated list of variables, such that a separate figure "
+            "is created for each combination of these variables.",
+        )
+        parser.add_argument(
+            "--row-by",
+            type=str,
+            default="",
+            help="A comma-separated list of variables, such that a separate row "
+            "is created for each combination of these variables.",
+        )
+        parser.add_argument(
+            "--col-by",
+            type=str,
+            default="",
+            help="A comma-separated list of variables, such that a separate column "
+            "is created for each combination of these variables.",
+        )
+        parser.add_argument(
+            "--curve-by",
+            type=str,
+            default=None,
+            help="A comma-separated list of variables, such that a separate curve "
+            "is created for each combination of these variables.",
+        )
+        parser.add_argument(
+            "--var-x",
+            type=str,
+            default="request_throughput",
+            help="The variable for the x-axis.",
+        )
+        parser.add_argument(
+            "--var-y",
+            type=str,
+            default="p99_e2el_ms",
+            help="The variable for the y-axis",
+        )
+        parser.add_argument(
+            "--filter-by",
+            type=str,
+            default="",
+            help="A comma-separated list of statements indicating values to filter by. "
+            "This is useful to remove outliers. "
+            "Example: `max_concurrency<1000,max_num_batched_tokens<=4096` means "
+            "plot only the points where `max_concurrency` is less than 1000 and "
+            "`max_num_batched_tokens` is no greater than 4096.",
+        )
+        parser.add_argument(
+            "--bin-by",
+            type=str,
+            default="",
+            help="A comma-separated list of statements indicating values to bin by. "
+            "This is useful to avoid plotting points that are too close together. "
+            "Example: `request_throughput%%1` means "
+            "use a bin size of 1 for the `request_throughput` variable.",
+        )
+        parser.add_argument(
+            "--scale-x",
+            type=str,
+            default=None,
+            help="The scale to use for the x-axis. "
+            "Currently only accepts string values such as 'log' and 'sqrt'. "
+            "See also: https://seaborn.pydata.org/generated/seaborn.objects.Plot.scale.html",
+        )
+        parser.add_argument(
+            "--scale-y",
+            type=str,
+            default=None,
+            help="The scale to use for the y-axis. "
+            "Currently only accepts string values such as 'log' and 'sqrt'. "
+            "See also: https://seaborn.pydata.org/generated/seaborn.objects.Plot.scale.html",
+        )
+        parser.add_argument(
+            "--dry-run",
+            action="store_true",
+            help="If set, prints the information about each figure to plot, "
+            "then exits without drawing them.",
+        )
+
+        return parser
+
+
+def run_main(args: SweepPlotArgs):
+    return plot(
+        output_dir=args.output_dir,
+        fig_dir=args.fig_dir,
+        fig_by=args.fig_by,
+        row_by=args.row_by,
+        col_by=args.col_by,
+        curve_by=args.curve_by,
+        var_x=args.var_x,
+        var_y=args.var_y,
+        filter_by=args.filter_by,
+        bin_by=args.bin_by,
+        scale_x=args.scale_x,
+        scale_y=args.scale_y,
+        dry_run=args.dry_run,
+    )
+
+
+def main(args: argparse.Namespace):
+    run_main(SweepPlotArgs.from_cli_args(args))
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description=SweepPlotArgs.parser_help)
+    SweepPlotArgs.add_cli_args(parser)
+
+    main(parser.parse_args())
diff --git a/benchmarks/sweep/serve.py b/benchmarks/sweep/serve.py
new file mode 100644
index 0000000..45ac446
--- /dev/null
+++ b/benchmarks/sweep/serve.py
@@ -0,0 +1,416 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+import contextlib
+import json
+import shlex
+from dataclasses import dataclass
+from datetime import datetime
+from pathlib import Path
+from typing import ClassVar
+
+from vllm.utils.import_utils import PlaceholderModule
+
+from .param_sweep import ParameterSweep, ParameterSweepItem
+from .server import ServerProcess
+from .utils import sanitize_filename
+
+try:
+    import pandas as pd
+except ImportError:
+    pd = PlaceholderModule("pandas")
+
+
+@contextlib.contextmanager
+def run_server(
+    serve_cmd: list[str],
+    after_bench_cmd: list[str],
+    *,
+    show_stdout: bool,
+    serve_overrides: ParameterSweepItem,
+    dry_run: bool,
+):
+    server_cmd = serve_overrides.apply_to_cmd(serve_cmd)
+
+    print("[BEGIN SERVER]")
+    print(f"Server overrides: {serve_overrides}")
+    print(f"Server command: {server_cmd}")
+
+    if dry_run:
+        yield None
+        print("[END SERVER]")
+        return
+
+    with ServerProcess(server_cmd, after_bench_cmd, show_stdout=show_stdout) as server:
+        yield server
+
+    print("[END SERVER]")
+
+
+def _update_run_data(
+    run_data: dict[str, object],
+    serve_overrides: ParameterSweepItem,
+    bench_overrides: ParameterSweepItem,
+    run_number: int,
+):
+    run_data["run_number"] = run_number
+    run_data.update(serve_overrides)
+    run_data.update(bench_overrides)
+
+    return run_data
+
+
+def run_benchmark(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_overrides: ParameterSweepItem,
+    bench_overrides: ParameterSweepItem,
+    run_number: int,
+    output_path: Path,
+    dry_run: bool,
+):
+    benchmark_cmd = [
+        *bench_overrides.apply_to_cmd(bench_cmd),
+        "--percentile-metrics",
+        "ttft,tpot,itl,e2el",
+        "--save-result",
+        "--result-dir",
+        str(output_path.parent),
+        "--result-filename",
+        output_path.name,
+    ]
+
+    print("[BEGIN BENCHMARK]")
+    print(f"Benchmark overrides: {bench_overrides}")
+    print(f"Run Number: {run_number}")
+    print(f"Benchmark command: {benchmark_cmd}")
+    print(f"Output file: {output_path}")
+
+    run_data: dict[str, object]
+
+    if output_path.exists():
+        print("Found existing results. Skipping.")
+
+        with output_path.open("rb") as f:
+            run_data = json.load(f)
+            return _update_run_data(
+                run_data,
+                serve_overrides,
+                bench_overrides,
+                run_number,
+            )
+
+    if server is None:
+        if not dry_run:
+            raise ValueError(f"Cannot find results at {output_path}")
+
+        print("[END BENCHMARK]")
+        return None
+
+    output_path.parent.mkdir(parents=True, exist_ok=True)
+
+    server.run_subcommand(benchmark_cmd)
+    server.after_bench()
+
+    with output_path.open("rb") as f:
+        run_data = json.load(f)
+
+    run_data = _update_run_data(
+        run_data,
+        serve_overrides,
+        bench_overrides,
+        run_number,
+    )
+
+    with output_path.open("w") as f:
+        json.dump(run_data, f, indent=4)
+
+    print("[END BENCHMARK]")
+
+    return run_data
+
+
+def _get_comb_base_path(
+    output_dir: Path,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+):
+    parts = list[str]()
+    if serve_comb:
+        parts.extend(("SERVE-", serve_comb.as_text(sep="-")))
+    if bench_comb:
+        parts.extend(("BENCH-", bench_comb.as_text(sep="-")))
+
+    return output_dir / sanitize_filename("-".join(parts))
+
+
+def _get_comb_run_path(base_path: Path, run_number: int | None):
+    if run_number is None:
+        return base_path / "summary.json"
+
+    return base_path / f"run={run_number}.json"
+
+
+def _comb_needs_server(
+    serve_comb: ParameterSweepItem,
+    bench_combs: ParameterSweep,
+    output_dir: Path,
+):
+    for bench_comb in bench_combs:
+        base_path = _get_comb_base_path(output_dir, serve_comb, bench_comb)
+        if not _get_comb_run_path(base_path, run_number=None).exists():
+            return True
+
+    return False
+
+
+def run_comb(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+    base_path: Path,
+    num_runs: int,
+    dry_run: bool,
+):
+    comb_data = list[dict[str, object]]()
+
+    for run_number in range(num_runs):
+        run_data = run_benchmark(
+            server,
+            bench_cmd,
+            serve_overrides=serve_comb,
+            bench_overrides=bench_comb,
+            run_number=run_number,
+            output_path=_get_comb_run_path(base_path, run_number),
+            dry_run=dry_run,
+        )
+
+        if run_data is not None:
+            comb_data.append(run_data)
+
+    if dry_run:
+        return None
+
+    with _get_comb_run_path(base_path, run_number=None).open("w") as f:
+        json.dump(comb_data, f, indent=4)
+
+    return comb_data
+
+
+def run_combs(
+    serve_cmd: list[str],
+    bench_cmd: list[str],
+    after_bench_cmd: list[str],
+    *,
+    show_stdout: bool,
+    serve_params: ParameterSweep,
+    bench_params: ParameterSweep,
+    output_dir: Path,
+    num_runs: int,
+    dry_run: bool,
+):
+    all_data = list[dict[str, object]]()
+    for serve_comb in serve_params:
+        with (
+            run_server(
+                serve_cmd,
+                after_bench_cmd,
+                show_stdout=show_stdout,
+                serve_overrides=serve_comb,
+                dry_run=dry_run,
+            )
+            if _comb_needs_server(serve_comb, bench_params, output_dir)
+            else contextlib.nullcontext()
+        ) as server:
+            for bench_comb in bench_params:
+                base_path = _get_comb_base_path(output_dir, serve_comb, bench_comb)
+
+                comb_data = run_comb(
+                    server,
+                    bench_cmd,
+                    serve_comb=serve_comb,
+                    bench_comb=bench_comb,
+                    base_path=base_path,
+                    num_runs=num_runs,
+                    dry_run=dry_run,
+                )
+
+                if comb_data is not None:
+                    all_data.extend(comb_data)
+
+    if dry_run:
+        return None
+
+    combined_df = pd.DataFrame.from_records(all_data)
+    combined_df.to_csv(output_dir / "summary.csv")
+
+    return combined_df
+
+
+@dataclass
+class SweepServeArgs:
+    serve_cmd: list[str]
+    bench_cmd: list[str]
+    after_bench_cmd: list[str]
+    show_stdout: bool
+    serve_params: ParameterSweep
+    bench_params: ParameterSweep
+    output_dir: Path
+    num_runs: int
+    dry_run: bool
+    resume: str | None
+
+    parser_name: ClassVar[str] = "serve"
+    parser_help: ClassVar[str] = "Run vLLM server benchmark under multiple settings."
+
+    @classmethod
+    def from_cli_args(cls, args: argparse.Namespace):
+        serve_cmd = shlex.split(args.serve_cmd)
+        bench_cmd = shlex.split(args.bench_cmd)
+        after_bench_cmd = (
+            [] if args.after_bench_cmd is None else shlex.split(args.after_bench_cmd)
+        )
+
+        if args.serve_params:
+            serve_params = ParameterSweep.read_json(args.serve_params)
+        else:
+            # i.e.: run serve_cmd without any modification
+            serve_params = ParameterSweep.from_records([{}])
+
+        if args.bench_params:
+            bench_params = ParameterSweep.read_json(args.bench_params)
+        else:
+            # i.e.: run bench_cmd without any modification
+            bench_params = ParameterSweep.from_records([{}])
+
+        num_runs = args.num_runs
+        if num_runs < 1:
+            raise ValueError("`num_runs` should be at least 1.")
+
+        return cls(
+            serve_cmd=serve_cmd,
+            bench_cmd=bench_cmd,
+            after_bench_cmd=after_bench_cmd,
+            show_stdout=args.show_stdout,
+            serve_params=serve_params,
+            bench_params=bench_params,
+            output_dir=Path(args.output_dir),
+            num_runs=num_runs,
+            dry_run=args.dry_run,
+            resume=args.resume,
+        )
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> argparse.ArgumentParser:
+        parser.add_argument(
+            "--serve-cmd",
+            type=str,
+            required=True,
+            help="The command used to run the server: `vllm serve ...`",
+        )
+        parser.add_argument(
+            "--bench-cmd",
+            type=str,
+            required=True,
+            help="The command used to run the benchmark: `vllm bench serve ...`",
+        )
+        parser.add_argument(
+            "--after-bench-cmd",
+            type=str,
+            default=None,
+            help="After a benchmark run is complete, invoke this command instead of "
+            "the default `ServerWrapper.clear_cache()`.",
+        )
+        parser.add_argument(
+            "--show-stdout",
+            action="store_true",
+            help="If set, logs the standard output of subcommands. "
+            "Useful for debugging but can be quite spammy.",
+        )
+        parser.add_argument(
+            "--serve-params",
+            type=str,
+            default=None,
+            help="Path to JSON file containing a list of parameter combinations "
+            "for the `vllm serve` command. "
+            "If both `serve_params` and `bench_params` are given, "
+            "this script will iterate over their Cartesian product.",
+        )
+        parser.add_argument(
+            "--bench-params",
+            type=str,
+            default=None,
+            help="Path to JSON file containing a list of parameter combinations "
+            "for the `vllm bench serve` command. "
+            "If both `serve_params` and `bench_params` are given, "
+            "this script will iterate over their Cartesian product.",
+        )
+        parser.add_argument(
+            "-o",
+            "--output-dir",
+            type=str,
+            default="results",
+            help="The directory to which results are written.",
+        )
+        parser.add_argument(
+            "--num-runs",
+            type=int,
+            default=3,
+            help="Number of runs per parameter combination.",
+        )
+        parser.add_argument(
+            "--dry-run",
+            action="store_true",
+            help="If set, prints the commands to run, "
+            "then exits without executing them.",
+        )
+        parser.add_argument(
+            "--resume",
+            type=str,
+            default=None,
+            help="Set this to the name of a directory under `output_dir` (which is a "
+            "timestamp) to resume a previous execution of this script, i.e., only run "
+            "parameter combinations for which there are still no output files.",
+        )
+
+        return parser
+
+
+def run_main(args: SweepServeArgs):
+    timestamp = args.resume or datetime.now().strftime("%Y%m%d_%H%M%S")
+    output_dir = args.output_dir / timestamp
+
+    if args.resume and not output_dir.exists():
+        raise ValueError(f"Cannot resume from non-existent directory ({output_dir})")
+
+    try:
+        return run_combs(
+            serve_cmd=args.serve_cmd,
+            bench_cmd=args.bench_cmd,
+            after_bench_cmd=args.after_bench_cmd,
+            show_stdout=args.show_stdout,
+            serve_params=args.serve_params,
+            bench_params=args.bench_params,
+            output_dir=output_dir,
+            num_runs=args.num_runs,
+            dry_run=args.dry_run,
+        )
+    except BaseException as exc:
+        raise RuntimeError(
+            f"The script was terminated early. Use `--resume {timestamp}` "
+            f"to continue the script from its last checkpoint."
+        ) from exc
+
+
+def main(args: argparse.Namespace):
+    run_main(SweepServeArgs.from_cli_args(args))
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description=SweepServeArgs.parser_help)
+    SweepServeArgs.add_cli_args(parser)
+
+    main(parser.parse_args())
diff --git a/benchmarks/sweep/serve_sla.py b/benchmarks/sweep/serve_sla.py
new file mode 100644
index 0000000..0403d1d
--- /dev/null
+++ b/benchmarks/sweep/serve_sla.py
@@ -0,0 +1,492 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+import contextlib
+import json
+import math
+from dataclasses import asdict, dataclass
+from datetime import datetime
+from pathlib import Path
+from typing import ClassVar, Literal, get_args
+
+from typing_extensions import assert_never
+
+from vllm.utils.import_utils import PlaceholderModule
+
+from .param_sweep import ParameterSweep, ParameterSweepItem
+from .serve import SweepServeArgs, run_benchmark, run_server
+from .server import ServerProcess
+from .sla_sweep import SLASweep, SLASweepItem
+from .utils import sanitize_filename
+
+try:
+    import pandas as pd
+except ImportError:
+    pd = PlaceholderModule("pandas")
+
+
+def _get_sla_base_path(
+    output_dir: Path,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+):
+    parts = list[str]()
+    if serve_comb:
+        parts.extend(("SERVE-", serve_comb.as_text(sep="-")))
+    if bench_comb:
+        parts.extend(("BENCH-", bench_comb.as_text(sep="-")))
+
+    return output_dir / sanitize_filename("-".join(parts))
+
+
+def _get_sla_iter_path(
+    base_path: Path,
+    sla_comb: SLASweepItem,
+    sla_variable: str,
+    sla_value: int | None,
+):
+    if sla_value is None:
+        prefix = sla_comb.as_text(sep="-")
+        return base_path / f"SLA--{prefix}.json"
+
+    return base_path / f"{sla_variable}={sla_value}"
+
+
+def _get_sla_run_path(iter_path: Path, run_number: int | None):
+    if run_number is None:
+        return iter_path / "summary.json"
+
+    return iter_path / f"run={run_number}.json"
+
+
+def _sla_needs_server(
+    serve_comb: ParameterSweepItem,
+    bench_combs: ParameterSweep,
+    sla_combs: SLASweep,
+    sla_variable: str,
+    output_dir: Path,
+):
+    for bench_comb in bench_combs:
+        base_path = _get_sla_base_path(output_dir, serve_comb, bench_comb)
+        for sla_comb in sla_combs:
+            if not _get_sla_iter_path(
+                base_path,
+                sla_comb,
+                sla_variable,
+                sla_value=None,
+            ).exists():
+                return True
+
+    return False
+
+
+def run_sla(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+    iter_path: Path,
+    num_runs: int,
+    dry_run: bool,
+):
+    iter_data = list[dict[str, object]]()
+
+    for run_number in range(num_runs):
+        run_data = run_benchmark(
+            server,
+            bench_cmd,
+            serve_overrides=serve_comb,
+            bench_overrides=bench_comb,
+            run_number=run_number,
+            output_path=_get_sla_run_path(iter_path, run_number),
+            dry_run=dry_run,
+        )
+
+        if run_data is not None:
+            iter_data.append(run_data)
+
+    if dry_run:
+        return None
+
+    with _get_sla_run_path(iter_path, run_number=None).open("w") as f:
+        json.dump(iter_data, f, indent=4)
+
+    return iter_data
+
+
+SLAVariable = Literal["request_rate", "max_concurrency"]
+
+
+def _estimate_sla_value(run_data: dict[str, object], sla_variable: SLAVariable):
+    request_throughput = float(run_data["request_throughput"])  # type: ignore
+    if sla_variable == "request_rate":
+        return request_throughput
+    if sla_variable == "max_concurrency":
+        mean_latency_ms = float(run_data["mean_e2el_ms"])  # type: ignore
+        return request_throughput * mean_latency_ms / 1000
+
+    assert_never(sla_variable)
+
+
+def _estimate_sla_bounds(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+    sla_comb: SLASweepItem,
+    base_path: Path,
+    num_runs: int,
+    dry_run: bool,
+    sla_variable: SLAVariable,
+    init_value: int,
+    max_value: int,
+):
+    sla_data = list[dict[str, object]]()
+
+    max_passing: int = 0
+    min_failing: int = 0
+
+    val: int = init_value
+    assert val > 0
+
+    while True:
+        print(f"Testing {sla_variable}: {val} req/s")
+
+        iter_data = run_sla(
+            server,
+            bench_cmd,
+            serve_comb=serve_comb,
+            bench_comb=bench_comb | {sla_variable: val},
+            iter_path=_get_sla_iter_path(base_path, sla_comb, sla_variable, val),
+            num_runs=num_runs,
+            dry_run=dry_run,
+        )
+
+        assert iter_data is not None
+        sla_data.extend(iter_data)
+
+        iter_data_mean = {
+            k: sum(float(run_data[k]) for run_data in iter_data) / len(iter_data)  # type: ignore
+            for k in sla_comb
+        }
+
+        sla_results = [
+            criterion.print_and_validate(iter_data_mean, k)
+            for k, criterion in sla_comb.items()
+        ]
+
+        if all(sla_results):
+            print("SLA criteria are met.")
+            max_passing = val
+            val *= 2
+        else:
+            print("SLA criteria are not met.")
+            min_failing = val
+            break
+
+        if val >= max_value:
+            break
+
+    return sla_data, (max_passing, min_failing)
+
+
+def _find_sla_value(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+    sla_comb: SLASweepItem,
+    base_path: Path,
+    num_runs: int,
+    dry_run: bool,
+    sla_variable: SLAVariable,
+    min_value: int,
+    max_value: int,
+):
+    sla_data = list[dict[str, object]]()
+
+    left: int = min_value
+    right: int = max_value
+
+    while True:
+        val = (left + right) // 2
+        print(f"Testing {sla_variable}: {val} req/s")
+
+        iter_data = run_sla(
+            server,
+            bench_cmd,
+            serve_comb=serve_comb,
+            bench_comb=bench_comb | {sla_variable: val},
+            iter_path=_get_sla_iter_path(base_path, sla_comb, sla_variable, val),
+            num_runs=num_runs,
+            dry_run=dry_run,
+        )
+
+        assert iter_data is not None
+        sla_data.extend(iter_data)
+
+        iter_data_mean = {
+            k: sum(float(run_data[k]) for run_data in iter_data) / len(iter_data)  # type: ignore
+            for k in sla_comb
+        }
+
+        sla_results = [
+            criterion.print_and_validate(iter_data_mean, k)
+            for k, criterion in sla_comb.items()
+        ]
+
+        if all(sla_results):
+            print("SLA criteria are met.")
+            left = val
+        else:
+            print("SLA criteria are not met.")
+            right = val
+
+        if right - left <= 1:
+            break
+
+    return sla_data, left
+
+
+def search_sla(
+    server: ServerProcess | None,
+    bench_cmd: list[str],
+    *,
+    serve_comb: ParameterSweepItem,
+    bench_comb: ParameterSweepItem,
+    sla_comb: SLASweepItem,
+    sla_variable: SLAVariable,
+    sla_inf_value: int = 65536,  # The value that represents infinite QPS
+    base_path: Path,
+    num_runs: int,
+    dry_run: bool,
+):
+    print("[SLA START]")
+    print(f"SLA criteria: {sla_comb.as_text()}")
+
+    sla_data_0 = run_sla(
+        server,
+        bench_cmd,
+        serve_comb=serve_comb,
+        bench_comb=bench_comb | {sla_variable: sla_inf_value},
+        iter_path=_get_sla_iter_path(base_path, sla_comb, sla_variable, sla_inf_value),
+        num_runs=num_runs,
+        dry_run=dry_run,
+    )
+    if sla_data_0 is None:
+        assert dry_run
+        print("Omitting SLA search.")
+        print("[SLA END]")
+        return None
+
+    sla_init_value = math.ceil(
+        sum(_estimate_sla_value(item, sla_variable) for item in sla_data_0)
+        / len(sla_data_0)
+    )
+    print(f"Initial {sla_variable} to search: {sla_init_value} req/s.")
+
+    sla_data_1, (sla_min, sla_max) = _estimate_sla_bounds(
+        server,
+        bench_cmd,
+        serve_comb=serve_comb,
+        bench_comb=bench_comb,
+        sla_comb=sla_comb,
+        base_path=base_path,
+        num_runs=num_runs,
+        dry_run=dry_run,
+        sla_variable=sla_variable,
+        init_value=sla_init_value,
+        max_value=sla_inf_value,
+    )
+    print(f"Range of {sla_variable} to search: [{sla_min}, {sla_max}] req/s.")
+
+    sla_data_2, sla_value = _find_sla_value(
+        server,
+        bench_cmd,
+        serve_comb=serve_comb,
+        bench_comb=bench_comb,
+        sla_comb=sla_comb,
+        base_path=base_path,
+        num_runs=num_runs,
+        dry_run=dry_run,
+        sla_variable=sla_variable,
+        min_value=sla_min,
+        max_value=sla_max,
+    )
+
+    sla_data = sla_data_0 + sla_data_1 + sla_data_2
+    print(f"Maximum {sla_variable} for SLA: {sla_value} req/s.")
+
+    with _get_sla_iter_path(
+        base_path,
+        sla_comb,
+        sla_variable,
+        sla_value=None,
+    ).open("w") as f:
+        json.dump(sla_data, f, indent=4)
+
+    print("[SLA END]")
+
+    return sla_data
+
+
+def run_slas(
+    serve_cmd: list[str],
+    bench_cmd: list[str],
+    after_bench_cmd: list[str],
+    *,
+    show_stdout: bool,
+    serve_params: ParameterSweep,
+    bench_params: ParameterSweep,
+    sla_params: SLASweep,
+    sla_variable: SLAVariable,
+    output_dir: Path,
+    num_runs: int,
+    dry_run: bool,
+):
+    if any(bench_comb.has_param(sla_variable) for bench_comb in bench_params):
+        raise ValueError(
+            f"You should not override `{sla_variable}` in `bench_params` in SLA mode, "
+            "since it is supposed to be determined automatically."
+        )
+
+    all_data = list[dict[str, object]]()
+    for serve_comb in serve_params:
+        with (
+            run_server(
+                serve_cmd,
+                after_bench_cmd,
+                show_stdout=show_stdout,
+                serve_overrides=serve_comb,
+                dry_run=dry_run,
+            )
+            if _sla_needs_server(
+                serve_comb,
+                bench_params,
+                sla_params,
+                sla_variable,
+                output_dir,
+            )
+            else contextlib.nullcontext()
+        ) as server:
+            for bench_comb in bench_params:
+                for sla_comb in sla_params:
+                    base_path = _get_sla_base_path(output_dir, serve_comb, bench_comb)
+
+                    comb_data = search_sla(
+                        server,
+                        bench_cmd,
+                        serve_comb=serve_comb,
+                        bench_comb=bench_comb,
+                        sla_comb=sla_comb,
+                        sla_variable=sla_variable,
+                        base_path=base_path,
+                        num_runs=num_runs,
+                        dry_run=dry_run,
+                    )
+
+                    if comb_data is not None:
+                        all_data.extend(comb_data)
+
+    if dry_run:
+        return None
+
+    combined_df = pd.DataFrame.from_records(all_data)
+    combined_df.to_csv(output_dir / "summary.csv")
+
+    return combined_df
+
+
+@dataclass
+class SweepServeSLAArgs(SweepServeArgs):
+    sla_params: SLASweep
+    sla_variable: SLAVariable
+
+    parser_name: ClassVar[str] = "serve_sla"
+    parser_help: ClassVar[str] = "Tune a variable to meet SLAs under multiple settings."
+
+    @classmethod
+    def from_cli_args(cls, args: argparse.Namespace):
+        # NOTE: Don't use super() as `from_cli_args` calls `cls()`
+        base_args = SweepServeArgs.from_cli_args(args)
+
+        if args.sla_params:
+            sla_params = SLASweep.read_json(args.sla_params)
+        else:
+            sla_params = SLASweep.from_records([])
+
+        return cls(
+            **asdict(base_args),
+            sla_params=sla_params,
+            sla_variable=args.sla_variable,
+        )
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> argparse.ArgumentParser:
+        parser = super().add_cli_args(parser)
+
+        sla_group = parser.add_argument_group("sla options")
+        sla_group.add_argument(
+            "--sla-params",
+            type=str,
+            required=True,
+            help="Path to JSON file containing a list of SLA constraints to satisfy. "
+            'Each constraint is expressed in `{"<KEY>": "<OP><VALUE>"}` format, '
+            'e.g.: `{"p99_e2el_ms": "<=500"}` means that '
+            "the E2E latency should be less than 500ms 99%% of the time. "
+            "Setting this option runs this script in SLA mode, which searches for "
+            "the maximum `sla_variable` that satisfies the constraints for "
+            "each combination of `serve_params`, `bench_params`, and `sla_params`.",
+        )
+        sla_group.add_argument(
+            "--sla-variable",
+            type=str,
+            choices=get_args(SLAVariable),
+            default="request_rate",
+            help="Whether to tune request rate or maximum concurrency to satisfy "
+            "the SLA constraints.",
+        )
+
+        return parser
+
+
+def run_main(args: SweepServeSLAArgs):
+    timestamp = args.resume or datetime.now().strftime("%Y%m%d_%H%M%S")
+    output_dir = args.output_dir / timestamp
+
+    if args.resume and not output_dir.exists():
+        raise ValueError(f"Cannot resume from non-existent directory ({output_dir})")
+
+    try:
+        return run_slas(
+            serve_cmd=args.serve_cmd,
+            bench_cmd=args.bench_cmd,
+            after_bench_cmd=args.after_bench_cmd,
+            show_stdout=args.show_stdout,
+            serve_params=args.serve_params,
+            bench_params=args.bench_params,
+            sla_params=args.sla_params,
+            sla_variable=args.sla_variable,
+            output_dir=output_dir,
+            num_runs=args.num_runs,
+            dry_run=args.dry_run,
+        )
+    except BaseException as exc:
+        raise RuntimeError(
+            f"The script was terminated early. Use `--resume {timestamp}` "
+            f"to continue the script from its last checkpoint."
+        ) from exc
+
+
+def main(args: argparse.Namespace):
+    run_main(SweepServeSLAArgs.from_cli_args(args))
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description=SweepServeSLAArgs.parser_help)
+    SweepServeSLAArgs.add_cli_args(parser)
+
+    main(parser.parse_args())
diff --git a/benchmarks/sweep/server.py b/benchmarks/sweep/server.py
new file mode 100644
index 0000000..f175787
--- /dev/null
+++ b/benchmarks/sweep/server.py
@@ -0,0 +1,114 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import os
+import signal
+import subprocess
+from types import TracebackType
+
+import requests
+from typing_extensions import Self
+
+
+class ServerProcess:
+    def __init__(
+        self,
+        server_cmd: list[str],
+        after_bench_cmd: list[str],
+        *,
+        show_stdout: bool,
+    ) -> None:
+        super().__init__()
+
+        self.server_cmd = server_cmd
+        self.after_bench_cmd = after_bench_cmd
+        self.show_stdout = show_stdout
+
+    def __enter__(self) -> Self:
+        self.start()
+        return self
+
+    def __exit__(
+        self,
+        exc_type: type[BaseException] | None,
+        exc_value: BaseException | None,
+        exc_traceback: TracebackType | None,
+    ) -> None:
+        self.stop()
+
+    def start(self):
+        # Create new process for clean termination
+        self._server_process = subprocess.Popen(
+            self.server_cmd,
+            start_new_session=True,
+            stdout=None if self.show_stdout else subprocess.DEVNULL,
+            # Need `VLLM_SERVER_DEV_MODE=1` for `_reset_caches`
+            env=os.environ | {"VLLM_SERVER_DEV_MODE": "1"},
+        )
+
+    def stop(self):
+        server_process = self._server_process
+
+        if server_process.poll() is None:
+            # In case only some processes have been terminated
+            with contextlib.suppress(ProcessLookupError):
+                # We need to kill both API Server and Engine processes
+                os.killpg(os.getpgid(server_process.pid), signal.SIGKILL)
+
+    def run_subcommand(self, cmd: list[str]):
+        return subprocess.run(
+            cmd,
+            stdout=None if self.show_stdout else subprocess.DEVNULL,
+            check=True,
+        )
+
+    def after_bench(self) -> None:
+        if not self.after_bench_cmd:
+            self.reset_caches()
+            return
+
+        self.run_subcommand(self.after_bench_cmd)
+
+    def _get_vllm_server_address(self) -> str:
+        server_cmd = self.server_cmd
+
+        for host_key in ("--host",):
+            if host_key in server_cmd:
+                host = server_cmd[server_cmd.index(host_key) + 1]
+                break
+        else:
+            host = "localhost"
+
+        for port_key in ("-p", "--port"):
+            if port_key in server_cmd:
+                port = int(server_cmd[server_cmd.index(port_key) + 1])
+                break
+        else:
+            port = 8000  # The default value in vllm serve
+
+        return f"http://{host}:{port}"
+
+    def reset_caches(self) -> None:
+        server_cmd = self.server_cmd
+
+        # Use `.endswith()` to match `/bin/...`
+        if server_cmd[0].endswith("vllm"):
+            server_address = self._get_vllm_server_address()
+            print(f"Resetting caches at {server_address}")
+
+            res = requests.post(f"{server_address}/reset_prefix_cache")
+            res.raise_for_status()
+
+            res = requests.post(f"{server_address}/reset_mm_cache")
+            res.raise_for_status()
+        elif server_cmd[0].endswith("infinity_emb"):
+            if "--vector-disk-cache" in server_cmd:
+                raise NotImplementedError(
+                    "Infinity server uses caching but does not expose a method "
+                    "to reset the cache"
+                )
+        else:
+            raise NotImplementedError(
+                f"No implementation of `reset_caches` for `{server_cmd[0]}` server. "
+                "Please specify a custom command via `--after-bench-cmd`."
+            )
diff --git a/benchmarks/sweep/sla_sweep.py b/benchmarks/sweep/sla_sweep.py
new file mode 100644
index 0000000..327e3c7
--- /dev/null
+++ b/benchmarks/sweep/sla_sweep.py
@@ -0,0 +1,132 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+import os
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+
+from typing_extensions import override
+
+
+@dataclass
+class SLACriterionBase(ABC):
+    target: float
+
+    @abstractmethod
+    def validate(self, actual: float) -> bool:
+        """Return `True` if this criterion is met; otherwise `False`."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def format_cond(self, lhs: str) -> str:
+        raise NotImplementedError
+
+    def print_and_validate(
+        self,
+        metrics: dict[str, float],
+        metrics_key: str,
+    ) -> bool:
+        metric = metrics[metrics_key]
+        result = self.validate(metric)
+
+        cond = self.format_cond(f"{metrics_key} = {metric:.2f}")
+        print(f"Validating SLA: {cond} | " + ("PASSED" if result else "FAILED"))
+
+        return result
+
+
+@dataclass
+class SLALessThan(SLACriterionBase):
+    @override
+    def validate(self, actual: float) -> bool:
+        return actual < self.target
+
+    @override
+    def format_cond(self, lhs: str) -> str:
+        return f"{lhs}<{self.target:.2f}"
+
+
+@dataclass
+class SLALessThanOrEqualTo(SLACriterionBase):
+    @override
+    def validate(self, actual: float) -> bool:
+        return actual <= self.target
+
+    @override
+    def format_cond(self, lhs: str) -> str:
+        return f"{lhs}<={self.target:.2f}"
+
+
+@dataclass
+class SLAGreaterThan(SLACriterionBase):
+    @override
+    def validate(self, actual: float) -> bool:
+        return actual > self.target
+
+    @override
+    def format_cond(self, lhs: str) -> str:
+        return f"{lhs}>{self.target:.2f}"
+
+
+@dataclass
+class SLAGreaterThanOrEqualTo(SLACriterionBase):
+    @override
+    def validate(self, actual: float) -> bool:
+        return actual >= self.target
+
+    @override
+    def format_cond(self, lhs: str) -> str:
+        return f"{lhs}>={self.target:.2f}"
+
+
+# NOTE: The ordering is important! Match longer op_keys first
+SLA_CRITERIA: dict[str, type[SLACriterionBase]] = {
+    "<=": SLALessThanOrEqualTo,
+    ">=": SLAGreaterThanOrEqualTo,
+    "<": SLALessThan,
+    ">": SLAGreaterThan,
+}
+
+
+class SLASweep(list["SLASweepItem"]):
+    @classmethod
+    def read_json(cls, filepath: os.PathLike):
+        with open(filepath, "rb") as f:
+            records = json.load(f)
+
+        return cls.from_records(records)
+
+    @classmethod
+    def from_records(cls, records: list[dict[str, str]]):
+        if not isinstance(records, list):
+            raise TypeError(
+                f"The SLA sweep should be a list of dictionaries, "
+                f"but found type: {type(records)}"
+            )
+
+        return cls(SLASweepItem.from_record(record) for record in records)
+
+
+class SLASweepItem(dict[str, SLACriterionBase]):
+    @classmethod
+    def from_record(cls, record: dict[str, str]):
+        sla_criteria: dict[str, SLACriterionBase] = {}
+
+        for metric_key, metric_value in record.items():
+            for op_key in SLA_CRITERIA:
+                if metric_value.startswith(op_key):
+                    sla_criteria[metric_key] = SLA_CRITERIA[op_key](
+                        float(metric_value.removeprefix(op_key))
+                    )
+                    break
+            else:
+                raise ValueError(
+                    f"Invalid operator for "
+                    f"SLA constraint '{metric_key}={metric_value}'. "
+                    f"Valid operators are: {sorted(SLA_CRITERIA)}",
+                )
+
+        return cls(sla_criteria)
+
+    def as_text(self, sep: str = ", ") -> str:
+        return sep.join(v.format_cond(k) for k, v in self.items())
diff --git a/benchmarks/sweep/utils.py b/benchmarks/sweep/utils.py
new file mode 100644
index 0000000..49d7867
--- /dev/null
+++ b/benchmarks/sweep/utils.py
@@ -0,0 +1,4 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+def sanitize_filename(filename: str) -> str:
+    return filename.replace("/", "_").replace("..", "__").strip("'").strip('"')
diff --git a/benchmarks/throughput.py b/benchmarks/throughput.py
new file mode 100644
index 0000000..23b5faa
--- /dev/null
+++ b/benchmarks/throughput.py
@@ -0,0 +1,799 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Benchmark offline inference throughput."""
+
+import argparse
+import dataclasses
+import json
+import os
+import random
+import time
+import warnings
+from typing import Any
+
+import torch
+import uvloop
+from tqdm import tqdm
+from transformers import AutoModelForCausalLM, AutoTokenizer, PreTrainedTokenizerBase
+
+from vllm.benchmarks.datasets import (
+    AIMODataset,
+    BurstGPTDataset,
+    ConversationDataset,
+    InstructCoderDataset,
+    MultiModalConversationDataset,
+    PrefixRepetitionRandomDataset,
+    RandomDataset,
+    SampleRequest,
+    ShareGPTDataset,
+    SonnetDataset,
+    VisionArenaDataset,
+)
+from vllm.benchmarks.lib.utils import convert_to_pytorch_benchmark_format, write_to_json
+from vllm.engine.arg_utils import AsyncEngineArgs, EngineArgs
+from vllm.inputs import TextPrompt, TokensPrompt
+from vllm.lora.request import LoRARequest
+from vllm.outputs import RequestOutput
+from vllm.sampling_params import BeamSearchParams
+from vllm.utils.async_utils import merge_async_iterators
+
+
+def run_vllm(
+    requests: list[SampleRequest],
+    n: int,
+    engine_args: EngineArgs,
+    do_profile: bool,
+    disable_detokenize: bool = False,
+) -> tuple[float, list[RequestOutput] | None]:
+    from vllm import LLM, SamplingParams
+
+    llm = LLM(**dataclasses.asdict(engine_args))
+    assert all(
+        llm.llm_engine.model_config.max_model_len
+        >= (request.prompt_len + request.expected_output_len)
+        for request in requests
+    ), (
+        "Please ensure that max_model_len is greater than the sum of"
+        " prompt_len and expected_output_len for all requests."
+    )
+    # Add the requests to the engine.
+    prompts: list[TextPrompt | TokensPrompt] = []
+    sampling_params: list[SamplingParams] = []
+    for request in requests:
+        prompt = (
+            TokensPrompt(prompt_token_ids=request.prompt["prompt_token_ids"])
+            if "prompt_token_ids" in request.prompt
+            else TextPrompt(prompt=request.prompt)
+        )
+        if request.multi_modal_data:
+            assert isinstance(request.multi_modal_data, dict)
+            prompt["multi_modal_data"] = request.multi_modal_data
+        prompts.append(prompt)
+
+        sampling_params.append(
+            SamplingParams(
+                n=n,
+                temperature=1.0,
+                top_p=1.0,
+                ignore_eos=True,
+                max_tokens=request.expected_output_len,
+                detokenize=not disable_detokenize,
+            )
+        )
+    lora_requests: list[LoRARequest] | None = None
+    if engine_args.enable_lora:
+        lora_requests = [request.lora_request for request in requests]
+
+    use_beam_search = False
+
+    outputs = None
+    if not use_beam_search:
+        start = time.perf_counter()
+        if do_profile:
+            llm.start_profile()
+        outputs = llm.generate(
+            prompts, sampling_params, lora_request=lora_requests, use_tqdm=True
+        )
+        if do_profile:
+            llm.stop_profile()
+        end = time.perf_counter()
+    else:
+        assert lora_requests is None, "BeamSearch API does not support LoRA"
+        prompts = [request.prompt for request in requests]
+        # output_len should be the same for all requests.
+        output_len = requests[0].expected_output_len
+        for request in requests:
+            assert request.expected_output_len == output_len
+        start = time.perf_counter()
+        if do_profile:
+            llm.start_profile()
+        llm.beam_search(
+            prompts,
+            BeamSearchParams(
+                beam_width=n,
+                max_tokens=output_len,
+                ignore_eos=True,
+            ),
+        )
+        if do_profile:
+            llm.stop_profile()
+        end = time.perf_counter()
+    return end - start, outputs
+
+
+def run_vllm_chat(
+    requests: list[SampleRequest],
+    n: int,
+    engine_args: EngineArgs,
+    do_profile: bool,
+    disable_detokenize: bool = False,
+) -> tuple[float, list[RequestOutput]]:
+    """
+    Run vLLM chat benchmark. This function is recommended ONLY for benchmarking
+    multimodal models as it properly handles multimodal inputs and chat
+    formatting. For non-multimodal models, use run_vllm() instead.
+    """
+    from vllm import LLM, SamplingParams
+
+    llm = LLM(**dataclasses.asdict(engine_args))
+
+    assert all(
+        llm.llm_engine.model_config.max_model_len
+        >= (request.prompt_len + request.expected_output_len)
+        for request in requests
+    ), (
+        "Please ensure that max_model_len is greater than the sum of "
+        "prompt_len and expected_output_len for all requests."
+    )
+
+    prompts = []
+    sampling_params: list[SamplingParams] = []
+    for request in requests:
+        prompts.append(request.prompt)
+        sampling_params.append(
+            SamplingParams(
+                n=n,
+                temperature=1.0,
+                top_p=1.0,
+                ignore_eos=True,
+                max_tokens=request.expected_output_len,
+                detokenize=not disable_detokenize,
+            )
+        )
+    start = time.perf_counter()
+    if do_profile:
+        llm.start_profile()
+    outputs = llm.chat(prompts, sampling_params, use_tqdm=True)
+    if do_profile:
+        llm.stop_profile()
+    end = time.perf_counter()
+    return end - start, outputs
+
+
+async def run_vllm_async(
+    requests: list[SampleRequest],
+    n: int,
+    engine_args: AsyncEngineArgs,
+    do_profile: bool,
+    disable_frontend_multiprocessing: bool = False,
+    disable_detokenize: bool = False,
+) -> float:
+    from vllm import SamplingParams
+    from vllm.entrypoints.openai.api_server import (
+        build_async_engine_client_from_engine_args,
+    )
+
+    async with build_async_engine_client_from_engine_args(
+        engine_args,
+        disable_frontend_multiprocessing=disable_frontend_multiprocessing,
+    ) as llm:
+        model_config = llm.model_config
+        assert all(
+            model_config.max_model_len
+            >= (request.prompt_len + request.expected_output_len)
+            for request in requests
+        ), (
+            "Please ensure that max_model_len is greater than the sum of"
+            " prompt_len and expected_output_len for all requests."
+        )
+
+        # Add the requests to the engine.
+        prompts: list[TextPrompt | TokensPrompt] = []
+        sampling_params: list[SamplingParams] = []
+        lora_requests: list[LoRARequest | None] = []
+        for request in requests:
+            prompt = (
+                TokensPrompt(prompt_token_ids=request.prompt["prompt_token_ids"])
+                if "prompt_token_ids" in request.prompt
+                else TextPrompt(prompt=request.prompt)
+            )
+
+            if request.multi_modal_data:
+                assert isinstance(request.multi_modal_data, dict)
+                prompt["multi_modal_data"] = request.multi_modal_data
+
+            sampling_params.append(
+                SamplingParams(
+                    n=n,
+                    temperature=1.0,
+                    top_p=1.0,
+                    ignore_eos=True,
+                    max_tokens=request.expected_output_len,
+                    detokenize=not disable_detokenize,
+                )
+            )
+            prompts.append(prompt)
+            lora_requests.append(request.lora_request)
+
+        generators = []
+        start = time.perf_counter()
+        if do_profile:
+            await llm.start_profile()
+        for i, (prompt, sp, lr) in enumerate(
+            zip(prompts, sampling_params, lora_requests)
+        ):
+            generator = llm.generate(prompt, sp, lora_request=lr, request_id=f"test{i}")
+            generators.append(generator)
+        all_gens = merge_async_iterators(*generators)
+        async for i, res in all_gens:
+            pass
+        if do_profile:
+            await llm.stop_profile()
+        end = time.perf_counter()
+        return end - start
+
+
+def run_hf(
+    requests: list[SampleRequest],
+    model: str,
+    tokenizer: PreTrainedTokenizerBase,
+    n: int,
+    max_batch_size: int,
+    trust_remote_code: bool,
+    disable_detokenize: bool = False,
+) -> float:
+    llm = AutoModelForCausalLM.from_pretrained(
+        model, dtype=torch.float16, trust_remote_code=trust_remote_code
+    )
+    if llm.config.model_type == "llama":
+        # To enable padding in the HF backend.
+        tokenizer.pad_token = tokenizer.eos_token
+    llm = llm.cuda()
+
+    pbar = tqdm(total=len(requests))
+    start = time.perf_counter()
+    batch: list[str] = []
+    max_prompt_len = 0
+    max_output_len = 0
+    for i in range(len(requests)):
+        prompt = requests[i].prompt
+        prompt_len = requests[i].prompt_len
+        output_len = requests[i].expected_output_len
+        # Add the prompt to the batch.
+        batch.append(prompt)
+        max_prompt_len = max(max_prompt_len, prompt_len)
+        max_output_len = max(max_output_len, output_len)
+        if len(batch) < max_batch_size and i != len(requests) - 1:
+            # Check if we can add more requests to the batch.
+            next_prompt_len = requests[i + 1].prompt_len
+            next_output_len = requests[i + 1].expected_output_len
+            if (
+                max(max_prompt_len, next_prompt_len)
+                + max(max_output_len, next_output_len)
+            ) <= 2048:
+                # We can add more requests to the batch.
+                continue
+
+        # Generate the sequences.
+        input_ids = tokenizer(batch, return_tensors="pt", padding=True).input_ids
+        llm_outputs = llm.generate(
+            input_ids=input_ids.cuda(),
+            do_sample=True,
+            num_return_sequences=n,
+            temperature=1.0,
+            top_p=1.0,
+            use_cache=True,
+            max_new_tokens=max_output_len,
+        )
+        if not disable_detokenize:
+            # Include the decoding time.
+            tokenizer.batch_decode(llm_outputs, skip_special_tokens=True)
+        pbar.update(len(batch))
+
+        # Clear the batch.
+        batch = []
+        max_prompt_len = 0
+        max_output_len = 0
+    end = time.perf_counter()
+    return end - start
+
+
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any]
+) -> None:
+    pt_records = convert_to_pytorch_benchmark_format(
+        args=args,
+        metrics={
+            "requests_per_second": [results["requests_per_second"]],
+            "tokens_per_second": [results["tokens_per_second"]],
+        },
+        extra_info={
+            k: results[k] for k in ["elapsed_time", "num_requests", "total_num_tokens"]
+        },
+    )
+    if pt_records:
+        # Don't use json suffix here as we don't want CI to pick it up
+        pt_file = f"{os.path.splitext(args.output_json)[0]}.pytorch.json"
+        write_to_json(pt_file, pt_records)
+
+
+def get_requests(args, tokenizer):
+    # Common parameters for all dataset types.
+    common_kwargs = {
+        "dataset_path": args.dataset_path,
+        "random_seed": args.seed,
+    }
+    sample_kwargs = {
+        "tokenizer": tokenizer,
+        "lora_path": args.lora_path,
+        "max_loras": args.max_loras,
+        "num_requests": args.num_prompts,
+        "input_len": args.input_len,
+        "output_len": args.output_len,
+    }
+
+    if args.dataset_path is None or args.dataset_name == "random":
+        sample_kwargs["range_ratio"] = args.random_range_ratio
+        sample_kwargs["prefix_len"] = args.prefix_len
+        dataset_cls = RandomDataset
+    elif args.dataset_name == "sharegpt":
+        dataset_cls = ShareGPTDataset
+        if args.backend == "vllm-chat":
+            sample_kwargs["enable_multimodal_chat"] = True
+    elif args.dataset_name == "sonnet":
+        assert tokenizer.chat_template or tokenizer.default_chat_template, (
+            "Tokenizer/model must have chat template for sonnet dataset."
+        )
+        dataset_cls = SonnetDataset
+        sample_kwargs["prefix_len"] = args.prefix_len
+        sample_kwargs["return_prompt_formatted"] = True
+    elif args.dataset_name == "burstgpt":
+        dataset_cls = BurstGPTDataset
+    elif args.dataset_name == "hf":
+        if args.dataset_path in VisionArenaDataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = VisionArenaDataset
+            common_kwargs["dataset_subset"] = None
+            common_kwargs["dataset_split"] = "train"
+            sample_kwargs["enable_multimodal_chat"] = True
+        elif args.dataset_path in InstructCoderDataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = InstructCoderDataset
+            common_kwargs["dataset_split"] = "train"
+        elif args.dataset_path in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = MultiModalConversationDataset
+            common_kwargs["dataset_subset"] = args.hf_subset
+            common_kwargs["dataset_split"] = args.hf_split
+            sample_kwargs["enable_multimodal_chat"] = True
+        elif args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = ConversationDataset
+            common_kwargs["dataset_subset"] = args.hf_subset
+            common_kwargs["dataset_split"] = args.hf_split
+            sample_kwargs["enable_multimodal_chat"] = True
+        elif args.dataset_path in AIMODataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = AIMODataset
+            common_kwargs["dataset_subset"] = None
+            common_kwargs["dataset_split"] = "train"
+    elif args.dataset_name == "prefix_repetition":
+        dataset_cls = PrefixRepetitionRandomDataset
+        sample_kwargs["prefix_len"] = args.prefix_repetition_prefix_len
+        sample_kwargs["suffix_len"] = args.prefix_repetition_suffix_len
+        sample_kwargs["num_prefixes"] = args.prefix_repetition_num_prefixes
+        sample_kwargs["output_len"] = args.prefix_repetition_output_len
+    else:
+        raise ValueError(f"Unknown dataset name: {args.dataset_name}")
+    # Remove None values
+    sample_kwargs = {k: v for k, v in sample_kwargs.items() if v is not None}
+    requests = dataset_cls(**common_kwargs).sample(**sample_kwargs)
+    requests = filter_requests_for_dp(requests, args.data_parallel_size)
+    return requests
+
+
+def filter_requests_for_dp(requests, data_parallel_size):
+    # Note(zhuohan): The way we get data_parallel_rank is hacky and only
+    # works for external launcher mode. Should be cleaned up and deprecated
+    # in the future with a better vLLM distributed process design.
+    if data_parallel_size == 1:
+        return requests
+
+    global_rank = int(os.environ["RANK"])
+    world_size = int(os.environ["WORLD_SIZE"])
+    data_parallel_rank = global_rank // (world_size // data_parallel_size)
+    return [
+        r
+        for i, r in enumerate(requests)
+        if i % data_parallel_size == data_parallel_rank
+    ]
+
+
+def validate_args(args):
+    """
+    Validate command-line arguments.
+    """
+
+    # === Deprecation and Defaulting ===
+    if args.dataset is not None:
+        warnings.warn(
+            "The '--dataset' argument will be deprecated in the next release. "
+            "Please use '--dataset-name' and '--dataset-path' instead.",
+            stacklevel=2,
+        )
+        args.dataset_path = args.dataset
+
+    if not getattr(args, "tokenizer", None):
+        args.tokenizer = args.model
+
+    # === Backend Validation ===
+    valid_backends = {"vllm", "hf", "mii", "vllm-chat"}
+    if args.backend not in valid_backends:
+        raise ValueError(f"Unsupported backend: {args.backend}")
+
+    # === Dataset Configuration ===
+    if (
+        not args.dataset
+        and not args.dataset_path
+        and args.dataset_name not in {"prefix_repetition"}
+    ):
+        print("When dataset path is not set, it will default to random dataset")
+        args.dataset_name = "random"
+        if args.input_len is None:
+            raise ValueError("input_len must be provided for a random dataset")
+
+    # === Dataset Name Specific Checks ===
+    # --hf-subset and --hf-split: only used
+    # when dataset_name is 'hf'
+    if args.dataset_name != "hf" and (
+        getattr(args, "hf_subset", None) is not None
+        or getattr(args, "hf_split", None) is not None
+    ):
+        warnings.warn(
+            "--hf-subset and --hf-split will be ignored \
+                since --dataset-name is not 'hf'.",
+            stacklevel=2,
+        )
+    elif args.dataset_name == "hf":
+        if args.dataset_path in (
+            VisionArenaDataset.SUPPORTED_DATASET_PATHS.keys()
+            | MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
+            | ConversationDataset.SUPPORTED_DATASET_PATHS
+        ):
+            assert args.backend == "vllm-chat", (
+                f"{args.dataset_path} needs to use vllm-chat as the backend."
+            )
+        elif args.dataset_path in (
+            InstructCoderDataset.SUPPORTED_DATASET_PATHS
+            | AIMODataset.SUPPORTED_DATASET_PATHS
+        ):
+            assert args.backend == "vllm", (
+                f"{args.dataset_path} needs to use vllm as the backend."
+            )
+        else:
+            raise ValueError(f"{args.dataset_path} is not supported by hf dataset.")
+
+    # --random-range-ratio: only used when dataset_name is 'random'
+    if args.dataset_name != "random" and args.random_range_ratio is not None:
+        warnings.warn(
+            "--random-range-ratio will be ignored since \
+                --dataset-name is not 'random'.",
+            stacklevel=2,
+        )
+
+    # --prefix-len: only used when dataset_name is 'random', 'sonnet', or not
+    # set.
+    if (
+        args.dataset_name not in {"random", "sonnet", None}
+        and args.prefix_len is not None
+    ):
+        warnings.warn(
+            "--prefix-len will be ignored since --dataset-name\
+                 is not 'random', 'sonnet', or not set.",
+            stacklevel=2,
+        )
+
+    # === LoRA Settings ===
+    if getattr(args, "enable_lora", False) and args.backend != "vllm":
+        raise ValueError("LoRA benchmarking is only supported for vLLM backend")
+    if getattr(args, "enable_lora", False) and args.lora_path is None:
+        raise ValueError("LoRA path must be provided when enable_lora is True")
+
+    # === Backend-specific Validations ===
+    if args.backend == "hf" and args.hf_max_batch_size is None:
+        raise ValueError("HF max batch size is required for HF backend")
+    if args.backend != "hf" and args.hf_max_batch_size is not None:
+        raise ValueError("HF max batch size is only for HF backend.")
+
+    if (
+        args.backend in {"hf", "mii"}
+        and getattr(args, "quantization", None) is not None
+    ):
+        raise ValueError("Quantization is only for vLLM backend.")
+
+    if args.backend == "mii" and args.dtype != "auto":
+        raise ValueError("dtype must be auto for MII backend.")
+    if args.backend == "mii" and args.n != 1:
+        raise ValueError("n must be 1 for MII backend.")
+    if args.backend == "mii" and args.tokenizer != args.model:
+        raise ValueError("Tokenizer must be the same as the model for MII backend.")
+
+    if args.data_parallel_size > 1 and (
+        args.distributed_executor_backend != "external_launcher" or args.async_engine
+    ):
+        # --data-parallel is not supported fully.
+        # Old issue: https://github.com/vllm-project/vllm/issues/16222
+        # Currently we only support data parallel with external launcher
+        # mode (i.e., launch with toruchrun).
+        raise ValueError(
+            "Data parallel is only supported with external launcher mode "
+            "with synchronous engine in offline benchmark, "
+            "please use benchmark serving instead"
+        )
+
+
+def add_cli_args(parser: argparse.ArgumentParser):
+    parser.add_argument(
+        "--backend",
+        type=str,
+        choices=["vllm", "hf", "mii", "vllm-chat"],
+        default="vllm",
+    )
+    parser.add_argument(
+        "--dataset-name",
+        type=str,
+        choices=["sharegpt", "random", "sonnet", "burstgpt", "hf", "prefix_repetition"],
+        help="Name of the dataset to benchmark on.",
+        default="sharegpt",
+    )
+    parser.add_argument(
+        "--dataset",
+        type=str,
+        default=None,
+        help="Path to the ShareGPT dataset, will be deprecated in\
+            the next release. The dataset is expected to "
+        "be a json in form of list[dict[..., conversations: "
+        "list[dict[..., value: <prompt_or_response>]]]]",
+    )
+    parser.add_argument(
+        "--dataset-path", type=str, default=None, help="Path to the dataset"
+    )
+    parser.add_argument(
+        "--input-len",
+        type=int,
+        default=None,
+        help="Input prompt length for each request",
+    )
+    parser.add_argument(
+        "--output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the "
+        "output length from the dataset.",
+    )
+    parser.add_argument(
+        "--n", type=int, default=1, help="Number of generated sequences per prompt."
+    )
+    parser.add_argument(
+        "--num-prompts", type=int, default=1000, help="Number of prompts to process."
+    )
+    parser.add_argument(
+        "--hf-max-batch-size",
+        type=int,
+        default=None,
+        help="Maximum batch size for HF backend.",
+    )
+    parser.add_argument(
+        "--output-json",
+        type=str,
+        default=None,
+        help="Path to save the throughput results in JSON format.",
+    )
+    parser.add_argument(
+        "--async-engine",
+        action="store_true",
+        default=False,
+        help="Use vLLM async engine rather than LLM class.",
+    )
+    parser.add_argument(
+        "--disable-frontend-multiprocessing",
+        action="store_true",
+        default=False,
+        help="Disable decoupled async engine frontend.",
+    )
+    parser.add_argument(
+        "--disable-detokenize",
+        action="store_true",
+        help=(
+            "Do not detokenize the response (i.e. do not include "
+            "detokenization time in the measurement)"
+        ),
+    )
+    # LoRA
+    parser.add_argument(
+        "--lora-path",
+        type=str,
+        default=None,
+        help="Path to the lora adapters to use. This can be an absolute path, "
+        "a relative path, or a Hugging Face model identifier.",
+    )
+    parser.add_argument(
+        "--prefix-len",
+        type=int,
+        default=0,
+        help="Number of fixed prefix tokens before the random "
+        "context in a request (default: 0).",
+    )
+    # random dataset
+    parser.add_argument(
+        "--random-range-ratio",
+        type=float,
+        default=0.0,
+        help="Range ratio for sampling input/output length, "
+        "used only for RandomDataset. Must be in the range [0, 1) to define "
+        "a symmetric sampling range "
+        "[length * (1 - range_ratio), length * (1 + range_ratio)].",
+    )
+
+    # hf dtaset
+    parser.add_argument(
+        "--hf-subset", type=str, default=None, help="Subset of the HF dataset."
+    )
+    parser.add_argument(
+        "--hf-split", type=str, default=None, help="Split of the HF dataset."
+    )
+    parser.add_argument(
+        "--profile",
+        action="store_true",
+        default=False,
+        help="Use Torch Profiler. The env variable "
+        "VLLM_TORCH_PROFILER_DIR must be set to enable profiler.",
+    )
+
+    # prefix repetition dataset
+    prefix_repetition_group = parser.add_argument_group(
+        "prefix repetition dataset options"
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-prefix-len",
+        type=int,
+        default=None,
+        help="Number of prefix tokens per request, used only for prefix "
+        "repetition dataset.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-suffix-len",
+        type=int,
+        default=None,
+        help="Number of suffix tokens per request, used only for prefix "
+        "repetition dataset. Total input length is prefix_len + suffix_len.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-num-prefixes",
+        type=int,
+        default=None,
+        help="Number of prefixes to generate, used only for prefix repetition "
+        "dataset. Prompts per prefix is num_requests // num_prefixes.",
+    )
+    prefix_repetition_group.add_argument(
+        "--prefix-repetition-output-len",
+        type=int,
+        default=None,
+        help="Number of output tokens per request, used only for prefix "
+        "repetition dataset.",
+    )
+
+    parser = AsyncEngineArgs.add_cli_args(parser)
+
+
+def main(args: argparse.Namespace):
+    if args.tokenizer is None:
+        args.tokenizer = args.model
+    validate_args(args)
+    if args.seed is None:
+        args.seed = 0
+    random.seed(args.seed)
+    # Sample the requests.
+    tokenizer = AutoTokenizer.from_pretrained(
+        args.tokenizer, trust_remote_code=args.trust_remote_code
+    )
+    requests = get_requests(args, tokenizer)
+    is_multi_modal = any(request.multi_modal_data is not None for request in requests)
+    request_outputs: list[RequestOutput] | None = None
+    if args.backend == "vllm":
+        if args.async_engine:
+            elapsed_time = uvloop.run(
+                run_vllm_async(
+                    requests,
+                    args.n,
+                    AsyncEngineArgs.from_cli_args(args),
+                    disable_frontend_multiprocessing=args.disable_frontend_multiprocessing,
+                    disable_detokenize=args.disable_detokenize,
+                    do_profile=args.profile,
+                )
+            )
+        else:
+            elapsed_time, request_outputs = run_vllm(
+                requests,
+                args.n,
+                EngineArgs.from_cli_args(args),
+                disable_detokenize=args.disable_detokenize,
+                do_profile=args.profile,
+            )
+    elif args.backend == "hf":
+        assert args.tensor_parallel_size == 1
+        if args.profile:
+            raise NotImplementedError("Profiling not implemented yet for backend='hf'.")
+        elapsed_time = run_hf(
+            requests,
+            args.model,
+            tokenizer,
+            args.n,
+            args.hf_max_batch_size,
+            args.trust_remote_code,
+            args.disable_detokenize,
+        )
+    elif args.backend == "vllm-chat":
+        elapsed_time, request_outputs = run_vllm_chat(
+            requests,
+            args.n,
+            EngineArgs.from_cli_args(args),
+            disable_detokenize=args.disable_detokenize,
+            do_profile=args.profile,
+        )
+    else:
+        raise ValueError(f"Unknown backend: {args.backend}")
+
+    if request_outputs:
+        # Note: with the vllm and vllm-chat backends,
+        # we have request_outputs, which we use to count tokens.
+        total_prompt_tokens = 0
+        total_output_tokens = 0
+        for ro in request_outputs:
+            if not isinstance(ro, RequestOutput):
+                continue
+            total_prompt_tokens += (
+                len(ro.prompt_token_ids) if ro.prompt_token_ids else 0
+            )
+            total_output_tokens += sum(len(o.token_ids) for o in ro.outputs if o)
+        total_num_tokens = total_prompt_tokens + total_output_tokens
+    else:
+        total_num_tokens = sum(r.prompt_len + r.expected_output_len for r in requests)
+        total_output_tokens = sum(r.expected_output_len for r in requests)
+        total_prompt_tokens = total_num_tokens - total_output_tokens
+
+    if is_multi_modal and args.backend != "vllm-chat":
+        print(
+            "\033[91mWARNING\033[0m: Multi-modal request with "
+            f"{args.backend} backend detected. The "
+            "following metrics are not accurate because image tokens are not"
+            " counted. See vllm-project/vllm/issues/9778 for details."
+        )
+        # TODO(vllm-project/vllm/issues/9778): Count multi-modal token length.
+        # vllm-chat backend counts the image tokens now
+
+    print(
+        f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
+        f"{total_num_tokens / elapsed_time:.2f} total tokens/s, "
+        f"{total_output_tokens / elapsed_time:.2f} output tokens/s"
+    )
+    print(f"Total num prompt tokens:  {total_prompt_tokens}")
+    print(f"Total num output tokens:  {total_output_tokens}")
+
+    # Output JSON results if specified
+    if args.output_json:
+        results = {
+            "elapsed_time": elapsed_time,
+            "num_requests": len(requests),
+            "total_num_tokens": total_num_tokens,
+            "requests_per_second": len(requests) / elapsed_time,
+            "tokens_per_second": total_num_tokens / elapsed_time,
+        }
+        with open(args.output_json, "w") as f:
+            json.dump(results, f, indent=4)
+        save_to_pytorch_benchmark_format(args, results)
diff --git a/collect_env.py b/collect_env.py
new file mode 100644
index 0000000..4ca0852
--- /dev/null
+++ b/collect_env.py
@@ -0,0 +1,857 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# ruff: noqa
+# code borrowed from https://github.com/pytorch/pytorch/blob/main/torch/utils/collect_env.py
+
+import datetime
+import locale
+import os
+import subprocess
+import sys
+
+# Unlike the rest of the PyTorch this file must be python2 compliant.
+# This script outputs relevant system environment info
+# Run it with `python collect_env.py` or `python -m torch.utils.collect_env`
+from collections import namedtuple
+
+import regex as re
+
+from vllm.envs import environment_variables
+
+try:
+    import torch
+
+    TORCH_AVAILABLE = True
+except (ImportError, NameError, AttributeError, OSError):
+    TORCH_AVAILABLE = False
+
+# System Environment Information
+SystemEnv = namedtuple(
+    "SystemEnv",
+    [
+        "torch_version",
+        "is_debug_build",
+        "cuda_compiled_version",
+        "gcc_version",
+        "clang_version",
+        "cmake_version",
+        "os",
+        "libc_version",
+        "python_version",
+        "python_platform",
+        "is_cuda_available",
+        "cuda_runtime_version",
+        "cuda_module_loading",
+        "nvidia_driver_version",
+        "nvidia_gpu_models",
+        "cudnn_version",
+        "pip_version",  # 'pip' or 'pip3'
+        "pip_packages",
+        "conda_packages",
+        "hip_compiled_version",
+        "hip_runtime_version",
+        "miopen_runtime_version",
+        "caching_allocator_config",
+        "is_xnnpack_available",
+        "cpu_info",
+        "rocm_version",  # vllm specific field
+        "vllm_version",  # vllm specific field
+        "vllm_build_flags",  # vllm specific field
+        "gpu_topo",  # vllm specific field
+        "env_vars",
+    ],
+)
+
+DEFAULT_CONDA_PATTERNS = {
+    "torch",
+    "numpy",
+    "cudatoolkit",
+    "soumith",
+    "mkl",
+    "magma",
+    "triton",
+    "optree",
+    "nccl",
+    "transformers",
+    "zmq",
+    "nvidia",
+    "pynvml",
+    "flashinfer-python",
+}
+
+DEFAULT_PIP_PATTERNS = {
+    "torch",
+    "numpy",
+    "mypy",
+    "flake8",
+    "triton",
+    "optree",
+    "onnx",
+    "nccl",
+    "transformers",
+    "zmq",
+    "nvidia",
+    "pynvml",
+    "flashinfer-python",
+}
+
+
+def run(command):
+    """Return (return-code, stdout, stderr)."""
+    shell = True if type(command) is str else False
+    try:
+        p = subprocess.Popen(
+            command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=shell
+        )
+        raw_output, raw_err = p.communicate()
+        rc = p.returncode
+        if get_platform() == "win32":
+            enc = "oem"
+        else:
+            enc = locale.getpreferredencoding()
+        output = raw_output.decode(enc)
+        if command == "nvidia-smi topo -m":
+            # don't remove the leading whitespace of `nvidia-smi topo -m`
+            #   because they are meaningful
+            output = output.rstrip()
+        else:
+            output = output.strip()
+        err = raw_err.decode(enc)
+        return rc, output, err.strip()
+
+    except FileNotFoundError:
+        cmd_str = command if isinstance(command, str) else command[0]
+        return 127, "", f"Command not found: {cmd_str}"
+
+
+def run_and_read_all(run_lambda, command):
+    """Run command using run_lambda; reads and returns entire output if rc is 0."""
+    rc, out, _ = run_lambda(command)
+    if rc != 0:
+        return None
+    return out
+
+
+def run_and_parse_first_match(run_lambda, command, regex):
+    """Run command using run_lambda, returns the first regex match if it exists."""
+    rc, out, _ = run_lambda(command)
+    if rc != 0:
+        return None
+    match = re.search(regex, out)
+    if match is None:
+        return None
+    return match.group(1)
+
+
+def run_and_return_first_line(run_lambda, command):
+    """Run command using run_lambda and returns first line if output is not empty."""
+    rc, out, _ = run_lambda(command)
+    if rc != 0:
+        return None
+    return out.split("\n")[0]
+
+
+def get_conda_packages(run_lambda, patterns=None):
+    if patterns is None:
+        patterns = DEFAULT_CONDA_PATTERNS
+    conda = os.environ.get("CONDA_EXE", "conda")
+    out = run_and_read_all(run_lambda, [conda, "list"])
+    if out is None:
+        return out
+
+    return "\n".join(
+        line
+        for line in out.splitlines()
+        if not line.startswith("#") and any(name in line for name in patterns)
+    )
+
+
+def get_gcc_version(run_lambda):
+    return run_and_parse_first_match(run_lambda, "gcc --version", r"gcc (.*)")
+
+
+def get_clang_version(run_lambda):
+    return run_and_parse_first_match(
+        run_lambda, "clang --version", r"clang version (.*)"
+    )
+
+
+def get_cmake_version(run_lambda):
+    return run_and_parse_first_match(run_lambda, "cmake --version", r"cmake (.*)")
+
+
+def get_nvidia_driver_version(run_lambda):
+    if get_platform() == "darwin":
+        cmd = "kextstat | grep -i cuda"
+        return run_and_parse_first_match(
+            run_lambda, cmd, r"com[.]nvidia[.]CUDA [(](.*?)[)]"
+        )
+    smi = get_nvidia_smi()
+    return run_and_parse_first_match(run_lambda, smi, r"Driver Version: (.*?) ")
+
+
+def get_gpu_info(run_lambda):
+    if get_platform() == "darwin" or (
+        TORCH_AVAILABLE
+        and hasattr(torch.version, "hip")
+        and torch.version.hip is not None
+    ):
+        if TORCH_AVAILABLE and torch.cuda.is_available():
+            if torch.version.hip is not None:
+                prop = torch.cuda.get_device_properties(0)
+                if hasattr(prop, "gcnArchName"):
+                    gcnArch = " ({})".format(prop.gcnArchName)
+                else:
+                    gcnArch = "NoGCNArchNameOnOldPyTorch"
+            else:
+                gcnArch = ""
+            return torch.cuda.get_device_name(None) + gcnArch
+        return None
+    smi = get_nvidia_smi()
+    uuid_regex = re.compile(r" \(UUID: .+?\)")
+    rc, out, _ = run_lambda(smi + " -L")
+    if rc != 0:
+        return None
+    # Anonymize GPUs by removing their UUID
+    return re.sub(uuid_regex, "", out)
+
+
+def get_running_cuda_version(run_lambda):
+    return run_and_parse_first_match(run_lambda, "nvcc --version", r"release .+ V(.*)")
+
+
+def get_cudnn_version(run_lambda):
+    """Return a list of libcudnn.so; it's hard to tell which one is being used."""
+    if get_platform() == "win32":
+        system_root = os.environ.get("SYSTEMROOT", "C:\\Windows")
+        cuda_path = os.environ.get("CUDA_PATH", "%CUDA_PATH%")
+        where_cmd = os.path.join(system_root, "System32", "where")
+        cudnn_cmd = '{} /R "{}\\bin" cudnn*.dll'.format(where_cmd, cuda_path)
+    elif get_platform() == "darwin":
+        # CUDA libraries and drivers can be found in /usr/local/cuda/. See
+        # https://docs.nvidia.com/cuda/cuda-installation-guide-mac-os-x/index.html#install
+        # https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#installmac
+        # Use CUDNN_LIBRARY when cudnn library is installed elsewhere.
+        cudnn_cmd = "ls /usr/local/cuda/lib/libcudnn*"
+    else:
+        cudnn_cmd = 'ldconfig -p | grep libcudnn | rev | cut -d" " -f1 | rev'
+    rc, out, _ = run_lambda(cudnn_cmd)
+    # find will return 1 if there are permission errors or if not found
+    if len(out) == 0 or (rc != 1 and rc != 0):
+        l = os.environ.get("CUDNN_LIBRARY")
+        if l is not None and os.path.isfile(l):
+            return os.path.realpath(l)
+        return None
+    files_set = set()
+    for fn in out.split("\n"):
+        fn = os.path.realpath(fn)  # eliminate symbolic links
+        if os.path.isfile(fn):
+            files_set.add(fn)
+    if not files_set:
+        return None
+    # Alphabetize the result because the order is non-deterministic otherwise
+    files = sorted(files_set)
+    if len(files) == 1:
+        return files[0]
+    result = "\n".join(files)
+    return "Probably one of the following:\n{}".format(result)
+
+
+def get_nvidia_smi():
+    # Note: nvidia-smi is currently available only on Windows and Linux
+    smi = "nvidia-smi"
+    if get_platform() == "win32":
+        system_root = os.environ.get("SYSTEMROOT", "C:\\Windows")
+        program_files_root = os.environ.get("PROGRAMFILES", "C:\\Program Files")
+        legacy_path = os.path.join(
+            program_files_root, "NVIDIA Corporation", "NVSMI", smi
+        )
+        new_path = os.path.join(system_root, "System32", smi)
+        smis = [new_path, legacy_path]
+        for candidate_smi in smis:
+            if os.path.exists(candidate_smi):
+                smi = '"{}"'.format(candidate_smi)
+                break
+    return smi
+
+
+def get_rocm_version(run_lambda):
+    """Returns the ROCm version if available, otherwise 'N/A'."""
+    return run_and_parse_first_match(
+        run_lambda, "hipcc --version", r"HIP version: (\S+)"
+    )
+
+
+def get_vllm_version():
+    from vllm import __version__, __version_tuple__
+
+    if __version__ == "dev":
+        return "N/A (dev)"
+    version_str = __version_tuple__[-1]
+    if isinstance(version_str, str) and version_str.startswith("g"):
+        # it's a dev build
+        if "." in version_str:
+            # it's a dev build containing local changes
+            git_sha = version_str.split(".")[0][1:]
+            date = version_str.split(".")[-1][1:]
+            return f"{__version__} (git sha: {git_sha}, date: {date})"
+        else:
+            # it's a dev build without local changes
+            git_sha = version_str[1:]  # type: ignore
+            return f"{__version__} (git sha: {git_sha})"
+    return __version__
+
+
+def summarize_vllm_build_flags():
+    # This could be a static method if the flags are constant, or dynamic if you need to check environment variables, etc.
+    return "CUDA Archs: {}; ROCm: {}".format(
+        os.environ.get("TORCH_CUDA_ARCH_LIST", "Not Set"),
+        "Enabled" if os.environ.get("ROCM_HOME") else "Disabled",
+    )
+
+
+def get_gpu_topo(run_lambda):
+    output = None
+
+    if get_platform() == "linux":
+        output = run_and_read_all(run_lambda, "nvidia-smi topo -m")
+        if output is None:
+            output = run_and_read_all(run_lambda, "rocm-smi --showtopo")
+
+    return output
+
+
+# example outputs of CPU infos
+#  * linux
+#    Architecture:            x86_64
+#      CPU op-mode(s):        32-bit, 64-bit
+#      Address sizes:         46 bits physical, 48 bits virtual
+#      Byte Order:            Little Endian
+#    CPU(s):                  128
+#      On-line CPU(s) list:   0-127
+#    Vendor ID:               GenuineIntel
+#      Model name:            Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz
+#        CPU family:          6
+#        Model:               106
+#        Thread(s) per core:  2
+#        Core(s) per socket:  32
+#        Socket(s):           2
+#        Stepping:            6
+#        BogoMIPS:            5799.78
+#        Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr
+#                             sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon rep_good nopl
+#                             xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq monitor ssse3 fma cx16
+#                             pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand
+#                             hypervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced
+#                             fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap
+#                             avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1
+#                             xsaves wbnoinvd ida arat avx512vbmi pku ospke avx512_vbmi2 gfni vaes vpclmulqdq
+#                             avx512_vnni avx512_bitalg tme avx512_vpopcntdq rdpid md_clear flush_l1d arch_capabilities
+#    Virtualization features:
+#      Hypervisor vendor:     KVM
+#      Virtualization type:   full
+#    Caches (sum of all):
+#      L1d:                   3 MiB (64 instances)
+#      L1i:                   2 MiB (64 instances)
+#      L2:                    80 MiB (64 instances)
+#      L3:                    108 MiB (2 instances)
+#    NUMA:
+#      NUMA node(s):          2
+#      NUMA node0 CPU(s):     0-31,64-95
+#      NUMA node1 CPU(s):     32-63,96-127
+#    Vulnerabilities:
+#      Itlb multihit:         Not affected
+#      L1tf:                  Not affected
+#      Mds:                   Not affected
+#      Meltdown:              Not affected
+#      Mmio stale data:       Vulnerable: Clear CPU buffers attempted, no microcode; SMT Host state unknown
+#      Retbleed:              Not affected
+#      Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl and seccomp
+#      Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
+#      Spectre v2:            Mitigation; Enhanced IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
+#      Srbds:                 Not affected
+#      Tsx async abort:       Not affected
+#  * win32
+#    Architecture=9
+#    CurrentClockSpeed=2900
+#    DeviceID=CPU0
+#    Family=179
+#    L2CacheSize=40960
+#    L2CacheSpeed=
+#    Manufacturer=GenuineIntel
+#    MaxClockSpeed=2900
+#    Name=Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz
+#    ProcessorType=3
+#    Revision=27142
+#
+#    Architecture=9
+#    CurrentClockSpeed=2900
+#    DeviceID=CPU1
+#    Family=179
+#    L2CacheSize=40960
+#    L2CacheSpeed=
+#    Manufacturer=GenuineIntel
+#    MaxClockSpeed=2900
+#    Name=Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz
+#    ProcessorType=3
+#    Revision=27142
+
+
+def get_cpu_info(run_lambda):
+    rc, out, err = 0, "", ""
+    if get_platform() == "linux":
+        rc, out, err = run_lambda("lscpu")
+    elif get_platform() == "win32":
+        rc, out, err = run_lambda(
+            "wmic cpu get Name,Manufacturer,Family,Architecture,ProcessorType,DeviceID, \
+        CurrentClockSpeed,MaxClockSpeed,L2CacheSize,L2CacheSpeed,Revision /VALUE"
+        )
+    elif get_platform() == "darwin":
+        rc, out, err = run_lambda("sysctl -n machdep.cpu.brand_string")
+    cpu_info = "None"
+    if rc == 0:
+        cpu_info = out
+    else:
+        cpu_info = err
+    return cpu_info
+
+
+def get_platform():
+    if sys.platform.startswith("linux"):
+        return "linux"
+    elif sys.platform.startswith("win32"):
+        return "win32"
+    elif sys.platform.startswith("cygwin"):
+        return "cygwin"
+    elif sys.platform.startswith("darwin"):
+        return "darwin"
+    else:
+        return sys.platform
+
+
+def get_mac_version(run_lambda):
+    return run_and_parse_first_match(run_lambda, "sw_vers -productVersion", r"(.*)")
+
+
+def get_windows_version(run_lambda):
+    system_root = os.environ.get("SYSTEMROOT", "C:\\Windows")
+    wmic_cmd = os.path.join(system_root, "System32", "Wbem", "wmic")
+    findstr_cmd = os.path.join(system_root, "System32", "findstr")
+    return run_and_read_all(
+        run_lambda, "{} os get Caption | {} /v Caption".format(wmic_cmd, findstr_cmd)
+    )
+
+
+def get_lsb_version(run_lambda):
+    return run_and_parse_first_match(
+        run_lambda, "lsb_release -a", r"Description:\t(.*)"
+    )
+
+
+def check_release_file(run_lambda):
+    return run_and_parse_first_match(
+        run_lambda, "cat /etc/*-release", r'PRETTY_NAME="(.*)"'
+    )
+
+
+def get_os(run_lambda):
+    from platform import machine
+
+    platform = get_platform()
+
+    if platform == "win32" or platform == "cygwin":
+        return get_windows_version(run_lambda)
+
+    if platform == "darwin":
+        version = get_mac_version(run_lambda)
+        if version is None:
+            return None
+        return "macOS {} ({})".format(version, machine())
+
+    if platform == "linux":
+        # Ubuntu/Debian based
+        desc = get_lsb_version(run_lambda)
+        if desc is not None:
+            return "{} ({})".format(desc, machine())
+
+        # Try reading /etc/*-release
+        desc = check_release_file(run_lambda)
+        if desc is not None:
+            return "{} ({})".format(desc, machine())
+
+        return "{} ({})".format(platform, machine())
+
+    # Unknown platform
+    return platform
+
+
+def get_python_platform():
+    import platform
+
+    return platform.platform()
+
+
+def get_libc_version():
+    import platform
+
+    if get_platform() != "linux":
+        return "N/A"
+    return "-".join(platform.libc_ver())
+
+
+def is_uv_venv():
+    if os.environ.get("UV"):
+        return True
+    pyvenv_cfg_path = os.path.join(sys.prefix, "pyvenv.cfg")
+    if os.path.exists(pyvenv_cfg_path):
+        with open(pyvenv_cfg_path, "r") as f:
+            return any(line.startswith("uv = ") for line in f)
+    return False
+
+
+def get_pip_packages(run_lambda, patterns=None):
+    """Return `pip list` output. Note: will also find conda-installed pytorch and numpy packages."""
+    if patterns is None:
+        patterns = DEFAULT_PIP_PATTERNS
+
+    def run_with_pip():
+        try:
+            import importlib.util
+
+            pip_spec = importlib.util.find_spec("pip")
+            pip_available = pip_spec is not None
+        except ImportError:
+            pip_available = False
+
+        if pip_available:
+            cmd = [sys.executable, "-mpip", "list", "--format=freeze"]
+        elif is_uv_venv():
+            print("uv is set")
+            cmd = ["uv", "pip", "list", "--format=freeze"]
+        else:
+            raise RuntimeError(
+                "Could not collect pip list output (pip or uv module not available)"
+            )
+
+        out = run_and_read_all(run_lambda, cmd)
+        return "\n".join(
+            line for line in out.splitlines() if any(name in line for name in patterns)
+        )
+
+    pip_version = "pip3" if sys.version[0] == "3" else "pip"
+    out = run_with_pip()
+    return pip_version, out
+
+
+def get_cachingallocator_config():
+    ca_config = os.environ.get("PYTORCH_CUDA_ALLOC_CONF", "")
+    return ca_config
+
+
+def get_cuda_module_loading_config():
+    if TORCH_AVAILABLE and torch.cuda.is_available():
+        torch.cuda.init()
+        config = os.environ.get("CUDA_MODULE_LOADING", "")
+        return config
+    else:
+        return "N/A"
+
+
+def is_xnnpack_available():
+    if TORCH_AVAILABLE:
+        import torch.backends.xnnpack
+
+        return str(torch.backends.xnnpack.enabled)  # type: ignore[attr-defined]
+    else:
+        return "N/A"
+
+
+def get_env_vars():
+    env_vars = ""
+    secret_terms = ("secret", "token", "api", "access", "password")
+    report_prefix = (
+        "TORCH",
+        "NCCL",
+        "PYTORCH",
+        "CUDA",
+        "CUBLAS",
+        "CUDNN",
+        "OMP_",
+        "MKL_",
+        "NVIDIA",
+    )
+    for k, v in os.environ.items():
+        if any(term in k.lower() for term in secret_terms):
+            continue
+        if k in environment_variables:
+            env_vars = env_vars + "{}={}".format(k, v) + "\n"
+        if k.startswith(report_prefix):
+            env_vars = env_vars + "{}={}".format(k, v) + "\n"
+
+    return env_vars
+
+
+def get_env_info():
+    run_lambda = run
+    pip_version, pip_list_output = get_pip_packages(run_lambda)
+
+    if TORCH_AVAILABLE:
+        version_str = torch.__version__
+        debug_mode_str = str(torch.version.debug)
+        cuda_available_str = str(torch.cuda.is_available())
+        cuda_version_str = torch.version.cuda
+        if (
+            not hasattr(torch.version, "hip") or torch.version.hip is None
+        ):  # cuda version
+            hip_compiled_version = hip_runtime_version = miopen_runtime_version = "N/A"
+        else:  # HIP version
+
+            def get_version_or_na(cfg, prefix):
+                _lst = [s.rsplit(None, 1)[-1] for s in cfg if prefix in s]
+                return _lst[0] if _lst else "N/A"
+
+            cfg = torch._C._show_config().split("\n")
+            hip_runtime_version = get_version_or_na(cfg, "HIP Runtime")
+            miopen_runtime_version = get_version_or_na(cfg, "MIOpen")
+            cuda_version_str = "N/A"
+            hip_compiled_version = torch.version.hip
+    else:
+        version_str = debug_mode_str = cuda_available_str = cuda_version_str = "N/A"
+        hip_compiled_version = hip_runtime_version = miopen_runtime_version = "N/A"
+
+    sys_version = sys.version.replace("\n", " ")
+
+    conda_packages = get_conda_packages(run_lambda)
+
+    rocm_version = get_rocm_version(run_lambda)
+    vllm_version = get_vllm_version()
+    vllm_build_flags = summarize_vllm_build_flags()
+    gpu_topo = get_gpu_topo(run_lambda)
+
+    return SystemEnv(
+        torch_version=version_str,
+        is_debug_build=debug_mode_str,
+        python_version="{} ({}-bit runtime)".format(
+            sys_version, sys.maxsize.bit_length() + 1
+        ),
+        python_platform=get_python_platform(),
+        is_cuda_available=cuda_available_str,
+        cuda_compiled_version=cuda_version_str,
+        cuda_runtime_version=get_running_cuda_version(run_lambda),
+        cuda_module_loading=get_cuda_module_loading_config(),
+        nvidia_gpu_models=get_gpu_info(run_lambda),
+        nvidia_driver_version=get_nvidia_driver_version(run_lambda),
+        cudnn_version=get_cudnn_version(run_lambda),
+        hip_compiled_version=hip_compiled_version,
+        hip_runtime_version=hip_runtime_version,
+        miopen_runtime_version=miopen_runtime_version,
+        pip_version=pip_version,
+        pip_packages=pip_list_output,
+        conda_packages=conda_packages,
+        os=get_os(run_lambda),
+        libc_version=get_libc_version(),
+        gcc_version=get_gcc_version(run_lambda),
+        clang_version=get_clang_version(run_lambda),
+        cmake_version=get_cmake_version(run_lambda),
+        caching_allocator_config=get_cachingallocator_config(),
+        is_xnnpack_available=is_xnnpack_available(),
+        cpu_info=get_cpu_info(run_lambda),
+        rocm_version=rocm_version,
+        vllm_version=vllm_version,
+        vllm_build_flags=vllm_build_flags,
+        gpu_topo=gpu_topo,
+        env_vars=get_env_vars(),
+    )
+
+
+env_info_fmt = """
+==============================
+        System Info
+==============================
+OS                           : {os}
+GCC version                  : {gcc_version}
+Clang version                : {clang_version}
+CMake version                : {cmake_version}
+Libc version                 : {libc_version}
+
+==============================
+       PyTorch Info
+==============================
+PyTorch version              : {torch_version}
+Is debug build               : {is_debug_build}
+CUDA used to build PyTorch   : {cuda_compiled_version}
+ROCM used to build PyTorch   : {hip_compiled_version}
+
+==============================
+      Python Environment
+==============================
+Python version               : {python_version}
+Python platform              : {python_platform}
+
+==============================
+       CUDA / GPU Info
+==============================
+Is CUDA available            : {is_cuda_available}
+CUDA runtime version         : {cuda_runtime_version}
+CUDA_MODULE_LOADING set to   : {cuda_module_loading}
+GPU models and configuration : {nvidia_gpu_models}
+Nvidia driver version        : {nvidia_driver_version}
+cuDNN version                : {cudnn_version}
+HIP runtime version          : {hip_runtime_version}
+MIOpen runtime version       : {miopen_runtime_version}
+Is XNNPACK available         : {is_xnnpack_available}
+
+==============================
+          CPU Info
+==============================
+{cpu_info}
+
+==============================
+Versions of relevant libraries
+==============================
+{pip_packages}
+{conda_packages}
+""".strip()
+
+# both the above code and the following code use `strip()` to
+# remove leading/trailing whitespaces, so we need to add a newline
+# in between to separate the two sections
+env_info_fmt += "\n\n"
+
+env_info_fmt += """
+==============================
+         vLLM Info
+==============================
+ROCM Version                 : {rocm_version}
+vLLM Version                 : {vllm_version}
+vLLM Build Flags:
+  {vllm_build_flags}
+GPU Topology:
+  {gpu_topo}
+
+==============================
+     Environment Variables
+==============================
+{env_vars}
+""".strip()
+
+
+def pretty_str(envinfo):
+    def replace_nones(dct, replacement="Could not collect"):
+        for key in dct.keys():
+            if dct[key] is not None:
+                continue
+            dct[key] = replacement
+        return dct
+
+    def replace_bools(dct, true="Yes", false="No"):
+        for key in dct.keys():
+            if dct[key] is True:
+                dct[key] = true
+            elif dct[key] is False:
+                dct[key] = false
+        return dct
+
+    def prepend(text, tag="[prepend]"):
+        lines = text.split("\n")
+        updated_lines = [tag + line for line in lines]
+        return "\n".join(updated_lines)
+
+    def replace_if_empty(text, replacement="No relevant packages"):
+        if text is not None and len(text) == 0:
+            return replacement
+        return text
+
+    def maybe_start_on_next_line(string):
+        # If `string` is multiline, prepend a \n to it.
+        if string is not None and len(string.split("\n")) > 1:
+            return "\n{}\n".format(string)
+        return string
+
+    mutable_dict = envinfo._asdict()
+
+    # If nvidia_gpu_models is multiline, start on the next line
+    mutable_dict["nvidia_gpu_models"] = maybe_start_on_next_line(
+        envinfo.nvidia_gpu_models
+    )
+
+    # If the machine doesn't have CUDA, report some fields as 'No CUDA'
+    dynamic_cuda_fields = [
+        "cuda_runtime_version",
+        "nvidia_gpu_models",
+        "nvidia_driver_version",
+    ]
+    all_cuda_fields = dynamic_cuda_fields + ["cudnn_version"]
+    all_dynamic_cuda_fields_missing = all(
+        mutable_dict[field] is None for field in dynamic_cuda_fields
+    )
+    if (
+        TORCH_AVAILABLE
+        and not torch.cuda.is_available()
+        and all_dynamic_cuda_fields_missing
+    ):
+        for field in all_cuda_fields:
+            mutable_dict[field] = "No CUDA"
+        if envinfo.cuda_compiled_version is None:
+            mutable_dict["cuda_compiled_version"] = "None"
+
+    # Replace True with Yes, False with No
+    mutable_dict = replace_bools(mutable_dict)
+
+    # Replace all None objects with 'Could not collect'
+    mutable_dict = replace_nones(mutable_dict)
+
+    # If either of these are '', replace with 'No relevant packages'
+    mutable_dict["pip_packages"] = replace_if_empty(mutable_dict["pip_packages"])
+    mutable_dict["conda_packages"] = replace_if_empty(mutable_dict["conda_packages"])
+
+    # Tag conda and pip packages with a prefix
+    # If they were previously None, they'll show up as ie '[conda] Could not collect'
+    if mutable_dict["pip_packages"]:
+        mutable_dict["pip_packages"] = prepend(
+            mutable_dict["pip_packages"], "[{}] ".format(envinfo.pip_version)
+        )
+    if mutable_dict["conda_packages"]:
+        mutable_dict["conda_packages"] = prepend(
+            mutable_dict["conda_packages"], "[conda] "
+        )
+    mutable_dict["cpu_info"] = envinfo.cpu_info
+    return env_info_fmt.format(**mutable_dict)
+
+
+def get_pretty_env_info():
+    return pretty_str(get_env_info())
+
+
+def main():
+    print("Collecting environment information...")
+    output = get_pretty_env_info()
+    print(output)
+
+    if (
+        TORCH_AVAILABLE
+        and hasattr(torch, "utils")
+        and hasattr(torch.utils, "_crash_handler")
+    ):
+        minidump_dir = torch.utils._crash_handler.DEFAULT_MINIDUMP_DIR
+        if sys.platform == "linux" and os.path.exists(minidump_dir):
+            dumps = [
+                os.path.join(minidump_dir, dump) for dump in os.listdir(minidump_dir)
+            ]
+            latest = max(dumps, key=os.path.getctime)
+            ctime = os.path.getctime(latest)
+            creation_time = datetime.datetime.fromtimestamp(ctime).strftime(
+                "%Y-%m-%d %H:%M:%S"
+            )
+            msg = (
+                "\n*** Detected a minidump at {} created on {}, ".format(
+                    latest, creation_time
+                )
+                + "if this is related to your bug please include it when you file a report ***"
+            )
+            print(msg, file=sys.stderr)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/compilation/__init__.py b/compilation/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/compilation/__pycache__/__init__.cpython-312.pyc b/compilation/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..253844c9606a69d4d20b412905a407ab48b626dd
GIT binary patch
literal 161
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIp~+<7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mxBq=N4q<B$i|X1>)l~^D;}~<Mj$E
hZ*kb<=BJeAq}mm+0u5vY;$jfvBQql-V-Yiu1pp#bCl~+#

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/activation_quant_fusion.cpython-312.pyc b/compilation/__pycache__/activation_quant_fusion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e88b99405766fcc02d5bbea84538c67314d3c1e6
GIT binary patch
literal 9973
zcmb_CTWlLwb~8f`H57+>OVL}Sr>)46Vq3Oluivqq*s&ESvXc$hiz&q!N|a|vW@hL_
zS~*Yx1Cjbz+XY%n?G{#wEn>p~lAi+kD2nu_Kl?*M4oD0XtlRar@E;Q?&7wc;Id>kU
zWXj1dasi&XbM85J?&I8Z&OL{}2?on4D2n$lVpp0d>Ua3!6xOb+{})41cc{yhL`k$l
zsdR`|nGi$cJEM3)9(Z~bugZp4g7YdqwJcPoav@Ijhx`P`D&=Y*6d-k<!mGhhkkreR
z3bis+N$Q+ZrB;Wk)tXR^S{te*IKNV-)`#k$UM>Zc2KBknb82I#QEdt}sm-Bgg6EYM
zwKddA>OrMVZ4b4p9ia~LUZDtTXQ)%{3U$#GL&=qL_XFCRSEvWx>!;5-(=9w7*ws*<
z?3o@b;GJ4%C*WUq-U`p@ONF{qn|{No6`s>SE!3S_Xi%>CBYM5!@D-k=dX3ScVfh8Q
zS`I`R*j`HBEma<dCz-ia;B{)w%-^N8HnLuOfB2ZBss|t^SVAN6h&K4cIj5&BzG7Hv
zHuA7sYmNRTN~*p=Ni{P4z+-WR_A?Y<YXMs)?{~2W2(})u4Mo^df_)CKjdGVudvJ#7
zZ+e2=^)sgD#K{-UitvPPXyJ&V%EnYe8tbRc+HlH9h|yF$V#E^huo9b<rGAfDb1`ff
zvKGG(HX>89b}_8$CKr825)*M{#;nui$(Ro9q9!Mma70$+xB;D&znXmYnye{_u!L`K
zD2n=GA|8!R!doB~j~Swpn4FX~_yG4>DjYXnk!Q@>t7np<<3`wsMJ~y4J)w=ysAk~m
z*tKYKgb)F9RV1Zp@C^~ZW<(R3`UHi(-)s6`yL@8olKASyakE@jlg5lV5#7DtsYjE0
z_n3YQAKSYJJCft!2}Ks8;j6N!CL|e_rqZ4y`Pi9@qh_^@7>_Bb6LIN6N&%`WoXy#|
zl!_P$YdsneQ(~R`XD*MQK1IgVs6!WGI4+55N)h8YCGl;Xc*NRe3))*wt&hU{9ZIG`
zv_yp%i3U}~$lfR;d2V<^tmM5xg?w_E#L67td^fy~c!&HmW&NDlZ~`{*8Z2ZYPUd2d
zZT8J_0m`K*S(pgxvJg>VHw9Qlp+G-C7=&m_2WEYUFpN(nQi>$R6NWG$3n^We1SzJ;
z5kr}=2uweji+EL@iP%SlObF+Lzx8vlOLwR_dX5rF1A;kvx|r6+1BHv7qe`3~%J4Z|
zT%+{5bD+9Q)BQd54~(-eAJ7G^($uI#;M-oO@6uETF)B!7f14>yx8>U|S7~bd+wQ!K
zN@o<#_+ez6gPWoHJ!7*%Dz2xJ$%JOWZjjZF&5{ilbU3G~EX+0+Q&{`ywDtS7cIeJz
zC1WNjn*nS0$ct8u4V-hDv}W?^2(tDZzSeCLX4TRRa5B8QtVBuAI_{w${O_y7hMF8s
z#*%|ZSeulM!FN*!4vt<uAP+0CiQ(i7D4+Q7H8?%Pk%XFz!I=iB8wR~(ORsfCKr5j%
z4kc$yP85my5NA6IGD}3(mhmBnU<5{>|1E%dD$h~P-3#8otjM+W+&#8@Y{C1GYkX8$
zd-J`;_kP`!seC?9G5+#g#n3(D)A#PbmmWHr=8vs=0GF<Oe#1vKb*=P#JoM2}rg1m)
z5-h>F^IqMj?f2W$J4e&}!R<L8_v~BkIk4dUlIvWDkx>!bVq={`uLL)K9St)amXg9R
z(Gv43W{&wM`Z{Ac>Vlef#THoYGDpX#Ip){&FX?d<7}Fa`N#TA*6QJGnN%FN=MDF)!
zo%qUvCW}m&EK!hv>_wy(c1$;YSKq;>j^6^^q4i-?z|y2dY-YQ**@z;Vmw-th05DJG
zS~{{V1DTeA&#q;vU;d&YUH$TcZ>_TK<}Vh1v2-e3Ik0jjQ#p|42DF{{rLv?dCP7PW
zQY*M>M6Fan<ql;4w8{tceVW*^v4n9}O)A73$<k>}OK324oR+p5fGwWZWH`r$Z7Wg^
z!7Ip$=Ww2ST+x~4I>{Kv`pZ!)<6%`6MYCK)Ymx%XBAUF2@~hY_Wuho0BBH4AIE)<#
zUO<3*r{USx_5rw0kxt3bv^K;d7=oXU%{Qp884t_l%d6SZN3|{MEIhyIW7u6F<G#8)
zL$h6JVb3=dJl8#d`5G}+kJwKHer|E}>^k=T;TC(dKt(~+Zg3&5<dIphGG4Gez6I)C
zI#dP%#hR^X6u~08HoN!~&h90K;|w{s#KPFr1DnYO`_vNZO{W3(m+UdRo_|9Z@A4uj
z{J(<JVz^TOz&=MbWt2J7d%Cq)z0XkEUZ8||u%Jd|&DxJ3ptJ@6W{}9XXzRB7mh6~*
zQ6x4~6fFswx3&rQa<=zb>)~pp%Rs7k0Qkc^wZ;V(%Q9T!!=_yixxuxzT@MG3ueO~)
z_0Vi>8OrJ=$;a7|RXGkb#x0ZRg7lX%rxNq*_NbR^wC4tY9o&p()BeD|ywI0tl3FaO
zm8RYOftlFFF>?P%1CMLwoK}i@7LUZD@w`o6_cEaE=Dfe8Kn4O1FJL@#UIPytDRcA#
z)Ur@$3e2c)%w%KnWXb>`h=dh+(^8{w)xvMx5x_<7v@K@Xfm7xvNBFKYK!KaHrNAI)
z=K^uvGv|?L95S3CW=z8)2#To(9@;Uiv)YSTKLx<7)MP!S7$UK@;5M4PjUci~w3&|6
z0ktexk_hV3^44efKT{eVg*J3pNx;PQqeC`d2)ffz>Oed}qjYp<+Ye;g4}8w9wjW)1
zmFVulOv~WC#OJBimeUL8bG02S^zCD5-qJCf77$e$S-}5<3ZCHYEE+C{#LU84T;Il>
zl0eRzVSl6aEYM!}e2?Yxz?WQS3K;CN=qn{%pLm>m(sge^a)8#A8iyYoMDHB9t)F-w
z*qY}$JI7iQ2;1o!d-8u!p4fYe=8hO!xa0V&jVtV}Rt2s7WgvG`VbDIikaiFO;p)U1
z?yS}gpueoZXVQ|%CsGE;tZ1>G2MUu38<sfW=|XXE1tL&%FPlB|M+!v|?*w$LzYV|=
zjOvCvf!l$llea5Zc4w-37Ea_^gu6dk{>h4dk4d)-+<W_;lxf+saDJ`6`OeR7|14M4
zx^nsBD<56?ye@n2Z06wE4G+^$v2X@_tD4?iRo$K7?chrEv(sPHLqko)!pXdks%y9v
zzP)eZyrl`P^&$&p`mEa_IW?w_9AKTC9u1X;hHG%2Ef{<4WyHRQU>pEBGJl3kWGQd7
zs^6o$o#XNrvfl=Pi@^B&-D|atcMjh^ocBQeu~q+;g?he<_cytXP<I=lo^SQkl;?ug
z*<fEL*q03sW`cvO!Qs3I(2w}4EZ?5t+p~OchVNbFcif{h{PTGh+7^6YbCkd8Rs)!f
z$6V{un=4m8+y5`4U%dGxcY!R@eNNjCgVPQmz#F7?5Wx-vu76<$Z5tMm6-5;9)7lAW
z*HN<_w-)3u(j&Nt4d^xe0lf}}<u*8mJxS-eHg=2#FXKB3E7txXeFT1P!Bc?cPjfCB
zZAmTM{cT5Kc6d9-qColsoC-W}KisKsoCS||6!@$KMb}e14&Z4|pmV#yyI#P1$cG{g
zg5-DsziRoC>)poeqg<n9S^os~>BlhplIMF&z4zJeQI5C`?2q9#{77T*q1yotgl*tq
zwcH|=Nt|PW3l5^>m&#qN-ysItfQxk<35l0@2RrEnLxG+mDYlD&;$XdRb}@ou8qv_M
z(ndd{pwA<=At9`&xQM}wLj|Q1j1Zp7EoF{zJq~Zd5CUy+Up5bzD=$P{JfFCuA|{K3
zOu=+{(DX(bFkap<h@tr`%VG`h3N&G?j+h!UY7|)Q6##HU?7=!QQC)~ABeT?yr!YC~
z48EckDQ%pHVxHZz?P+n;?o(dM2hgRCox}0T^IN@?wdx+*q~xA!%Qf`o+WK>?of`ok
zF)S6fVOi>0dTqJ)*5NeYK@MH%oxr^#dcxg@MYfcijcx%-LeV;V=e&}&&Txa;w9b}9
z)Y#741h`;VMdE*wr88@+HJ?-x6Jf<}C@eiw<QVu$u6kj?QR$<hv%N!N16|Lspf7FJ
zI`s5<7dZfbjcbnP1=f6nFPLpy<L=>HLrboE=l8Ag6BL*y0)lx2D6mhC1F+m7&hmpW
z|6tvW>#$aX0FOn%x@+i?m$c*Ct6pbv?<4EK0zlbeD*VD)UDKWOx6kK2P=DOqad+49
zt~?8M@J*lvt$P{1arWD{et63Z!6HVeyNpmTV#K!sBfRAW3JgErn&DfQURz;S`R+Bo
z{#ImZ_bT7E#y8x0d#TH<b*}QQc|VJWf1`r(w>@p}HM~t~Z{mzlK5hGrUW$fb1{+!d
z6zn(6_T_y$9P^D8%i<vUCiCs+lJ!4_maVY?86+EH0?yU(0nlK<nDjJ?>XssTW&bp8
z=9V&zSM4nYA`NU&Je!B;HWdnzxI+c#sWP)^OSs93F<@RIJO!&j+=EL~F<rp05yr7)
zT?h+FO&*lwXe<uVQe8HLL{x~RbR(e(iKH&X;zojyO89EUw9gtC>DC1UqU9t!1|5=2
zh+qc=04qR;5}~l$;8TFGj}11cL*-;dC*?>Ox^w!_g-AFqU<w5z>W*x}*b?!Gyvyzp
zh7Z#S3wkU*smKNdKns(5C#ERK8kQu`BN&m7#ep=MGE$l>K<WhprZ~%sGnX*7cZje~
z8Aeh+G(0>RGp14#LlASt7%a9Io+(8c-o5wW-aWg!W4fM_fe4d2gL_8y?b*9;<lyKF
zq$|@GAqkyLS3Z;)5B%2KVJEiuS6(Y<19xGRRVZ*#cWt#qf8ts-2-9F6q!_MUc4Q2$
zh|F}rX)ioWU-^o@#XGcG@6+*hyqEtey~0<koqh{X%yX2wfI1!o2|hqbwso68H;H&c
zj>?ZBOahA#urIitsMbx+kvQV2lhC2rrEimD65Uh*Q4D5KN~uZs3Xx|Wf)2gVrH08C
zv(Co4Q3o-a95oxB!jcr0b$7sBEV43q-*_r0TsWn!6a3FWr=zO_n)tCD3R`M;$O(^k
z9nCe2z)f(l9K-FPL50Js9Y@k!YmRHpa=jU@cSZVG{YZVtjr=|^xYm1QwHHGWIle2)
z4`ld(d#66VaR0(X{?H?i&vMNfu6b$y%E-q@K05Lxx0@(DlbzJU$*I!9djrO_U9_TP
zfX5YS5MAfqQ<SEfc7+%^whKvGIZD<+!gG^|Fk`cIuUmOlN$5q5=583So5_ZgNl3y5
zErleBkwhwPm_94D3dtRLA~orRy>(#N9QKBLU>L7}&)zGG=HHQf2*5n`sIBwv&zFCm
zZF?cp_QGfNt8I|ac*r%caTPcDMLu0WaPLxf@K|Q>*q7XK%d@i2J8)AJ$}Z6m=b!>X
zUAL{YS5*k&8puhCfwv)2oG{F|6U@~b0dEGT!uph`CsJBOwnFHK0Zk;opSE04{H%5V
zH@&G;Oqy-q)~XC)`)`0=?*st%waSic<pAU;a(vYq-?hf?T;qGz{cKfvo?`vwWXk=O
zC2!*OI1J1MT31LiSl)<1-T)KBux(a+gNeRtvM-^0YG}f>IRtMY*lOxyh(v(eQAe+c
znEEnE5Y$k<2Jmm#JxjA26g)5+U?IQ<@ik=Gt_<6ihg<y#dP%-JwLEn<z8wFC!gnO?
zwwnHj^Rd>H$Y=TwnV#@OM8h4l@)mfJHlHUZWJsKfO~PLU#Dpdx1Vj4tUkZr#YIfKR
zU_D6|-3dQB@pda*f%hTe^qJ*0J@l#JVKM`lGX(pEe<>g<YGW+X*U&zg2MG<P_7zcn
zSB}8n8?+%MJOj3Ih(u8Bgy~Sqh$%KoBy}r8Ly`d%*i!}R$@#~Du3?tW^nq&uHkRZ|
zi=0$+bIhPKF`~&e+;``cYW644^|7+4HP}03HLazvI8ZdSCIskmYwrLs{h)|ND`D%0
zKPQN%F1>Z}w8^Hxc^NeUGh$;ruu3K)zG(8r=D;ii_a_YDWHT^+_WWh>!sYYu#{{#c
zn8wPsS}9+z6pI*Ur3j)4d4H0Z)gh%-7SlycB${P#$Uq%IW(^0}f`DYJ+@nSWMmvNJ
zI}!8&FuB84a_p$~ckqg*P(KMU@1be>JC34z(p2~FDE=$z+;@zZX1=BXd|OV@UB9Qg
zzM{G}BX|8bb$pdN{uMRwTk6Pfsh9u5Uw7-LtN!+R-y^;+&9`Rxz6{^D%I}=_=lJTI
zuPnYY?|)QLdo#8eyQwTH*@_*RiXGXC;Y`Kwd;lVjY~xb>-KOQHyRFNu*{0D<(`dHo
zc&6!i-ox}W^ZtdATinv~>8hSgpm&{OXa-pNj;4F}WqXfghz)|{)5rYVOF6Iq!?W+7
z{qX$z=hHR2ARBy|X3|vG*FMVImuu^~`_}SXcdsm8$+n%$w4Kbhoy)YHn?Jj7HREmG
x@O98#OXC|9JT^|zeKf?`x({wpSlM`;9>({MeH#>3HY8{-PYe6Mg=XuF{y&rjt$zRj

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/backends.cpython-312.pyc b/compilation/__pycache__/backends.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6b720670fd43e25b99546ffa4d3ba14baa1c8812
GIT binary patch
literal 28531
zcmch=d30OXnJ4(LZw~}Wg5XYqs|c=Is9lyti`q9kk~el@7~%sZQUF0efRf07jw<D<
zkQG-%R?;OZNspPHnqzA0uBf`x-AZ-(lw7^Jd#1bbNUDK)q0cC%RHv$@Pj}O%d=zJD
z=FIQAZvjX{b~1m=lX%~KcVEBztr!2B+wJ7=M9tqGel*H)e@P$O<4`^8f|28HaW8TL
zCm5pKfbupB7}&RQz{uXF0TX+h2h8kk8L+Uob-;?ZF=~t12kbG&fWtufO;KmeHQ-`?
zbCi#{2i(kWh!zbLv3#DGcfiZSEYadv$v}x3UmEib_?X`sEsOaF{LF8Qmd7dvDq@ub
zmF(Ldt%_9-RL5!tYGSnmwJgjLt&7zU)HA;`8i+LvG%&v_+8ApZXkvao+8k>cXo24?
z6h&KOTL!i;zbD!j3l0Qh?E~$xj)9I?=RjwyYoLq8d86I2o`D|bFOF`FZ5!BT;EY_P
zKC=BigEEE#JA{%*wNM%f4w(htTjqgYBX^7w%HHAx|9co+dIokz3?os+pYO7i<w#kf
zrF>6~9@s5ZM!X|q`KcAZP!-u5*;k1V)VaTK8l>1wDTa*9wF=c}*8!m>{0ytH7B$vI
zibeuTiTUnGD*sFIzh_e31J4Te;X{#qkv<`C06`I#&=A=-WE2|TGVASrj@8hF8k)5}
z4IG{@1Y7==3OO4z%J#$IXf%8=8j<biBX5jHMh7E7gIqKiA5BKCCu8B!@TG`|5L4gi
z1YQ-9QA!*dn@C=ckA{Td#8@~vc$p>P$HIw3NX?0&>xV~$@xf$V42^}w<ZyBr8N_j9
zR+Gql;&OaEDufba(cxs!Bo`l!$Hs=EVM=*8J~}jfNp>H8vA^$_7#_QPCN4x|=S$IO
zOo>8cT*ITo$xt+YNok^Ya9k84qsh=1iWrKEF(fG$BZ+wQY9tiDI1;)z5qe`h932hE
zsE_5ti4Yn$csYcAhod31b2M@-BK|EcCF&~Gbv_~vhoi%j)aj$+ql476phatGL_C3E
z5{JTr5t%<iBh@E_$55#3IidDl3#ilr&L_j8LO2>9#l$ITE6|WZ)^iL^7=sy723bHO
zN|gvUBuF$))ghSIN_!qdE|+Xf#0JhPMv~*==%BhUXu3Hw{%G~A|1LsraVc(uLN`5v
z;Yu6FiEk#=-NJDrlyB1`o=e)aAi=2ZKCwTk!7?t%;2otI;kA^xw_wuNqu8D-(!xiI
zHDB&6n6=UkT(VRPN85dxKlj#Bp69-#OpBHhWtMCCwOw=mX(MB$kxAH2a)M1u`%S}_
z)MU@AiMBs`wA|;ppyRA;*Y?SzV|(|W?ycQI<f>ef(ASB!I40{~Obm}+3TSixxs^0o
zwlRUWz$_73nv>5S9#16WvB1Uf;FZXzkO+*%lYzwe*jQXlMufn%;pF8&-VUS<*ZtDz
z(`Q15&z*Vx#OWiGB}(!63q9zTZEAV4IWl@RAy>03FP=XVI)9<>Y=7VBb7zleC5SY?
zvh8v>5l$vW*}}G;><DQCAX}BqEL()g#qmobO^sZ+ac?BT*v+)N!%5MPc(Dvl&>&Xh
zm7vug_|>7FWNfTwY<R3I85S=^l3mxwckkVEWp|_}I()H50bM;;vAcWnHcpQ=EZt)h
zvO5;OLU4+}QA89wP;57q{}18Z;Ig*LjIBYkH7pD)*?Jz^Id^e}?_A<LSG`*nT`S(+
zRd4wZE$?`4d(y#YR=fuv@g+A;&zw$I?pxvaua<UZy^R^~0m*w{-DLC?t#L+o5fxIZ
zB-*;dZ(A*GTrO=+^UV)E4H-{R@&p%OUh?!Jsl%D&&mf<}nfCM|m&0?DpW)MG!4-S^
zs;BzfZ>H_F>u4o6NRIZnRnPhwJh!+AM>qxW2?KBmW5kS8!-O-*BA6pq!4k3I?6l(B
z9&rd|f<59CY?IjSNac9TqOIKlmjh?2;EdP=SA-XM<gyCxw=4rV&)?z(iV#~Scp{#W
zfYylITkuATBPHzAEJo>i4XC?Rt;;Etpe&z*qklsAQ%geY1uCO-Q#mC=JkEd1K-q*X
zSRs3qbsZ7UC<j{j$5<)O0G_^pdd3Bkan&10UXBFvRz_e<j1NW<iO#_A=wNhQz#e2-
z30Bj7%q7Pzx<qGHXCN96Q@TQNEHBOgwF)g2%h>H?u@|TTbP@!H6M=9*7#>WbZDV6v
z&9AqKI0=Shkx=4tcr4PX)JoeZa=laA-ywF+z0L|m-(C-oPK1PTGW>c#IU3N|Arasp
zulb@{|I3#nqk)8a^l1%b4eAVBiv(y328NR~V&TB^3=;?pVWY6Bur*OZSO{Mn#;HEh
z9e6ns5aOd-l7aC=BruYQj|PA)L;@EhgJC^Hh({7g!U|9!5(YaN2qywpA`{&#obB*I
z{ZztgqO*+t)?b5ji%aTfowi0(Tu2WS4EWM>r|66FvL|<Hr3~+>IS_Br;wQME@$Au{
zRW{R9$QCvfvX{<nc3zK<VPGQyYas&`vR#86z=O<*NOVYnPgH*(AhzQr+e4Tz;4h)c
zicPDtTZ?%K=@K||0CQHK>H8NiO`G3#W&<tL<`sKwwy~Gq^{W*v>DE2V6?>=6zwZ`1
zsbm+yHb5^z1jHJI6dtubh<O?oFrtqQ5~)vaY|e9c3_u>m9f*;6>gsqh5&~GijKE$5
zio4(>@_H-oMZjdu=8ooP{VHW4hz|hkDZM#0Go?blj%ClTw0#%r+gaJYVd-z^8DS(%
z_*?%3&MD5YVNK*(zY{UQAM~|=#OhNJ)9K1#I#0=E*YfAy+A5;D1j8SiZW-uJ|1`YE
zz>S&_V=NRiVQAvE;WWEuG;pt?1OxYW$#v7K+_lezPZ*T&e`LC52pT8<?ek*%>aeg8
ze5vSmfOaNrc41s(_+%hHv;oXvJ0~K_9wf*Jc!3=b{5Wta8owBh5*Qqd0FjR*2nbvY
zV}DYXL4+!xfUuKjM8{9quBDP_mQ}Pq&=%>w)E&?Xf&dW&fUHD1ARQw*g576>7Lf*(
zZ5p`-U_wU`LJUskC<>7fPT9>!h$QL{#m5rbBHV|l{6#2xl$Pie$Ygz?1qnz-n}_J1
z5S0*t^EcctZ*Y&DTv640*8_JO7HG!PDtTHnp2JI?!>eVzSzkrQ*CF{jGQPc%Z||oj
zqrYU`%9T|;vB8If8=p?D*#E@C6$R7owkKvS_*YLXO3>dWXzP5F@7rzo&aS==(+6ft
zU%ll6hnxI<2ZBGSxAe6+K4`X4NQb4b*Y?3y8^UFW0*8cQQFenSV<egaq^x6NWN7&M
zU_K6SMKug=E&$d60vG}75TrZ|GU`w>splJ^T$`Q|9ox@Er1I8yJ`7D66Y(!8O~X=h
zh0#9M>4;pgw!6fmNsku##VL1kQ|6>jU5u1yxpME6d4w>@O^<exXf>ioE-i^*q<^{n
zj22XAak=*hA*P!ijIl9gdf%kc@&<0g__-b5rtIvXIs6MuhrXFk;LKnoDK?#sCSc+t
zL}^dxn_OM#+KEovkg$rlcqu#za+c^=+W&=$Ae<wCf}+v*wZuNXVtt7{(*v6Sa!)ee
zLl8fdNQymTc=SqWI5g6uthOFK)9`45fg^TIqLrOgBToNo!_g>EfL!Ta0rk*gD7SL1
z0u$E@>S9o2JgHE^3bM2zI*B$Uh%Sf-*u5ZK5Ub}V&=(tzCWprWpOiKd)InP&fM@~N
zxg18LXfP6B4(Qn~hJmuMegg*+X}rFm>w!)^AAv>821<*^7%YxqwDX}L@k78hNG252
zhGu87tl$8g4VuJfv3$fs<n+M_7AbxTm5uR)Y^Ldu%_H&QQ9w90(u9oxMk3f6xjvjo
zA`zhUsB8)+k}?mxEFyyA5xE+U%4R~=#BEeMJI=j?lqd^KnFYXNcBF4?g=`o~5Pn2W
zR}dQUG(IO)3R1_kyEhjXL#o6N;N0NWnz_0TLSm}2m5sn{idO3z-nn-B+B>P+sl^lN
z-Dj8U&rx*EFFZAWRPt{5kILVz`%&Fpb7pJ5w6%Yw;mD)nvRNVHZ<qY-E5#j)Z-5@E
zYsl1gNwr;z;U5p(8G7&Xa_#O}^Y@%j99&7~8qYc0H{CPtjJ;K|w`TqIi&OVsS~GEu
zEuRu)^~8-t>Ee!GC5U73L2vM|+4Qf>mcwq_1~!TgKEXA8Dgu?@3nL2&!vvSq5z9hA
zRWQ7-GgPJwDMLXZ`-Na}%9zwaDO#bkSI{Z-$+2Gm7)>ctA;wEeZv{{n_AdwOCV*#c
zL{KI;4P2f5TRJnqq_Pq{GMbbP*MbgZ$!<r4Y#kdDf!oXO=Rt=gC!VK|h$!2}X!C-o
zXG`%oQi?|@x#gOO<r*}zMTk^tax;-K;u)k!P<8q$1XGb11j%@a_Q2;c&ivS$lsgOu
z7^lmVan&xlY8NhKTJ|lq?91{ct0fhgl2)mtbuqkBvUS>)_4sdoW9A$4$#*7iPcD1f
zr_HPG;@M_3jcLW*dDoET-8YZT9GmTb`^*y)SJahpcS`O~bwM?h^c^sLaKQ4M#U@)A
z2$PE<*TXRYCEz!}p%b!8L2no(H>fWYG?8#yc4jXsi_V-fVQLY$`6-0g4pCYfrcKXP
zgNWr=I4<=Y)<D$!l;tUH(s_ls2Ba*?DVQ?9r}lHonlj($PU_h7h<?)Ma)FBb4f>t3
zyr=dW7{3)<!7nZwXL8=g(fN)~=~Dsv0rjbUQR)kt&Q2cbXJ>PCg7E~{8Pk&J0;`S9
zG&`?_36Sc;gLDc3m1abFOCoS}I2^bPJ^@awmc-<tFE2*Pj+_Nc2-+0*ZYH(>+hnqt
zxD?_RjIP)QM>gRoM=}QOU!~9ia{eAUgi6a+r8y)WV5hX8Ama&|UD|+n7-=gKJwEB%
zj9XJ}w-A%~5DuV!5$CR&-@j=7vHOlY)3#4)+n09jzu)`s_I<EVa-GSRmS>C0ZdJ`y
z&3|q2)IHyy)&8_Lv-gy=_f)#(v{Za%+M2DbeW&(zZKkqAs_ejiojo#taB=@VH@IU}
z&gr5xE5}!+U4d1F`<C^-ob^^`y}n!SId{g}D0v&RUjJi<#a*;k!+Gn#H+$?+nQ&R}
zSCDqqTRMAYnUZbF<FX=8k&;KDxSgZpF?BEo^)-fGlArC`=ddn-X<Jn8x-ZA8D71$)
ztTSxLVa(SJ1rH13BtZS3F~`dgxG6hUY(dN%Sf?dr)Aj_?*?;RQLac&u5?D6l`$vDh
zmQ6WQj+}&ma!)x^X0#E$%}>gywo!*?Dcg;Tq%IX0(Q)`(PQjFN=8l_`9eekS)8}FL
z=pkSvJt%`l9}o5;mGLF=gCsGO*`w7hnlPTOQM-U~`vE6dQ<fia|G+%u!Uz+<+w|mW
zR(TA*O$qS%bb26VOSv@o@l`;VDf<+^`QT02Z)}!7)M|C4Oj^Ii|Mm_3xBhF2P>?z;
zHupw71g8tNEs#s4`G!mf;N7qe8@0IH8!JdzhdPZVU=@aRI!j;q`!~%!L7z>J;1Hbe
zyR;bqpQIsg?hB>obCg|f23Q%n*|**3$}1(fsY-kb?%!loQoOc{(7s(?QgTtsQmBQ$
z{v4pT+_|!Gzh3(PX}?zG^|8<#cv8+yBffFZ7RuwrN>p;?PHE)Yj9Shb-cG5=W${^&
zj$M(~)#MAGKN7WrNjY5G62YgPuR7feA}}7m5@_k(F%(Elp8j=<+<4X&E=~4mWS+vN
z56R9@V*H|l;Z0T_4Ff?Hh;yd4n&Ad4_QGV(VaEQaf}e^ffTo3@J0cQeUA9EygW>2M
zgKS|8xyj(>0zkax8l9hY@|p9DR;9ZBzhEYNo}N8dAqg5jhtq6TFa#1XgrC~YBqVVO
z%+Ge3pN_&g^m_6W2g_tL$w*|sGQJAu0Af`!8KQ8J0JvO1C$}p4Qw4r3VS*tsvNu03
z%S8)WHV==2S|O&H>>LK$lZ3T{5r$wXLdk;^Wm7UoL}Cjmbj{Z&yprlv2zAg$A{eS6
zO@hEEBnOoqic^V%mj&IMP%^nHEC@`W0z|wfJJtC8#BNe>wu|H=#7!g`M>dVdugSJZ
zG(47w2(lv<p12qZLAoNoj@Sedj0}U*90ik$BY3i08TA}ZulDPoQpTTRLjsxeaeVoF
z!;-7|v6X9WfA`fNz4|}@y)@tW$X=bX_b%Cc?-?Zf-Us&Hhn2MqHLI$7r}B2?!p_C+
zdmZ<umMdSJF3P%quC-)6Rr4c@+is68c{)*6dG)Q~x#90#nKfmrYF7fgq^e!BHYPyb
zvE<!x_nPEA_`tg(TN+50wypZAZk?JtwPrL_?s`~J|JY_O^RHEKzQ#1)@Yv0jRqL^j
zDyrwtELXH=k;-8~Dqc-x=Xn3Da4R+!`=ii`Yv;p?nwb+1tAdMNi}m-M_xIoLN>@BT
zec~YmzU~Ie-LL>=@YZZg@ZGQd=xd-GCD4uDvaGi*>ut|^YqQ?Ub(giZNa7o(&(0qu
zf^gef3E_>NVA_5>-En*wt|y3Y^3CbygDb9Q?;lO~zmz@o!gT-5lQSph-3wp8+yBqc
z{K=V2?@_7uXuABE#2;Vf>ofe`C4TR{7bO1R1AcF|xox_Cg>Rst3om)<A8MnK@ij}n
z=4{1@^b4<m%~93@Hb<EsT#~YCE$Z;9HWYO&Yc?c#%+aVhId5&+)4b~S-{R-^tnYl*
zR}U8Vtuu3HGQL*H*P8WJed@3jmpm@wip!NWXOU*rS3d7vrs$1nAG@r@CFnaAN&CVZ
zx4V~IZL1~zTfw>DcRQvJXZ@8cHQOcs_UU6;zAnS}Eb%>ecT4=f2YgS~Q=>E_;|)mO
zK-PCO>#NRIHK4J@4QMQit<ur=;&LrjU)I;4CUmfbXsd>^Klz3MGa<RRDs=h3+TC>0
zXZjC5%gH*MNJ6oo@u<v!@1`F$XM=tc*Ae9uA}Ah;#RXDi3dwv(S1H1mEff;sgQ1W}
zl&iRt9NJe5P%sIYNXNKr0>?vS5W;*h9*;7{nfMCD7>BOQu4AgY6KVj72JW3m94C=*
z83vR@+LU)VMtLZ^lynnBa*p9I;RE*j7Wc7{x7gQe%$9xWjsxo)-fO(UvU}0F#^H50
zu}&}0NLJs+Mwi9Ec>Zqhoq<m{c-Kt`T%$k`MkfuY4Ii5V7H77yW{thOwkhw!N7w25
zlYWEMQiVBa34ZLVvD7{E6yJPv=FK$={3yP%cK-Zr$C{14?3}-H%|SjVhgElBZgP!s
zVDmXkX8ULA*WL7W+`!e;W~-{Psy{9k4S6Nf2eQ_7ueq3)r}Es)Tf~)Bta+H%tCh_%
zW6e3;k4q^=888~ALHy~DiX(FCClQp>jd+oZn4nu=AnZ3{fzQZ%R`?i39I=gf^)hr1
zV$GCp!UAcr<2)(0ok&JvvI_@477bfMvRy#|h6T9<BIKOtiUo^Ad7lNx>>A$Ub#f-i
zVTX+;6bg?*ZAUqxu+Y9vQ7Lk!$a#~T8{~A7(@xGeHK!fxB0<!`?{E)`eamKFwy5~G
z&txlVmd!O;m;2_ynS(3lN+l=DL@g1YfwMu%N|Ysy*?Jw^Z}GPv*PJpAbHB%5B39zB
z&6DcqzV<`VIA+LQRO}CB>W^T&%87=zOP&&IVzlZ>#1@cB<#BlmP@^no7jo+Kq+Tg{
zLO21qSeAlqGGEz^0r8|PGyGKu7Ef~DG|ccR3+2I^&HLL|@+4Ab$eam=;1L^AM!`Zf
z(v&e})KY&r<29G-?fG23xBn+Im(*#if|Q(2$tv}eTTnVhjo<X7!0esohYZjGvJ1BN
z?HZ*sWyK8JQr1Egtj4kE=Wg0>ItERbux7qy<2aR$b)@Wb#<v}2a0x)wI#N!|{#S^?
z6%d25w505Ulg*6bZFiE^D0@=YlwBLaDMzwi54VprX#U(=a0xokK%;~~soM%Mx06j;
zzLY)X!avhhF6GdAs^x~<{eqc82`yUc+*{z^;@)@XQlhQ4A>(=U+rSN)rW{lDYY^2a
z^a_+ftnu+AIJ~k8%Bh2q%kiiHp0^t)do(np>XnK!D4mfu8^jH?f{1UiPJH~oZ@9(H
zKzD_v?L5a$E4JTB&194`WJ}2<_P0)H3=4`3{00LDvi(3b9J?rl4^GxH$fK~Wx(_h=
zA#o5MCHf_T7IcpN@&=b~+<8}6YTVCY!v#`Hy%LFxL1T9K((ou#ou%Fwy2YzVFWXdD
zx1kp(P3c7yJWta)QF{b!zPFGH^%$-zDt!th`wjxXq}7+H)x>qX!Og$%&gAzeS(8zc
z37BrMlmS=SLSvMG>}*W7DjI^aom3mbpo3%^6b2!1h{<N?4kko`AhH#@SJ0RgX&Ep;
z3n2y+7ElJSjG=-L$Zo<A1Qk0-u%bxOkwIzMCPvuYGk^@GAZT3zvwxL}BpAz%2>oF2
zDCNe-RIZ}<HYIT~DM5%$v|XLOm~2y)Rzmz5rLn4Qu~1tQY#_zoN5tna{6ormaOJH6
z@eUGhry;xp2NRDYyVQ5%RJMC-+FYJ(Xu5F@`0Xv%oGasPSn)PYn;|#3xqD`J+TSC&
zda}F^XF2bsklFZ>t7WnI#~pV%epZp$dqUcKVyXQEuz!a3Z@XPHeKPB*BrTr>_mZb8
zTi%dv*&~(jNqhIC%lBkEpS|ytI!~p&O$+^!H<<NSJaU!Ko9AOIuFfow$ZZl|Gkq%C
zwj<5gFPJ61CCgW5_(ovb3;S1qG^$BvPCZnUEb%RCU0iYF<2{_W?B?~E>m<s_cse9c
zN5->9^6bgl-P6hCvi<27UIeP_-Mh{iz1ADYF#?|A8^<2DZOybDl-driv>jUE`=qu*
zbEC7#`Imn0Lb~nHjUy7@_m|!>8jhmb=9&HT%?pj+Z-2=99u-&2S1j}{7q?AYAC>xN
zlebcHsf81Z;&S=+<<cF~_N?7=vuLL1dlL)3h3j|Q?#0vF&!nG!X}SF62liLiilH#F
z=I1Q@w@&}oX{juD<MfKT{h_OL_T{vzCT*_yY`vayKW9kLA^5L({-^^GT73pJ54|;(
z^g5x2-^xRBGzHK?Y}<kdq$y&H*a`SRRn#F^1nZD}n!{0Hdy5}%GN1h|`+!SuM9c-t
zBuaSGGeQty(*w2AqTir|0!&W9rI=elG1VKfM~c-iH+)Kqi_qedY3{mVpcHD@9=ZDY
z;mBa*+HfMGQoAQeED2o!l9fvsx5EG$0q8Z3k+L)svAhm=F?hLq=z6yT4Z0a0B1C#p
z-RDV`18uCa*A)@}i6m5=MiUB;XZR}gE7@LGw62H1<AA;+NdP;cccrO@D*6LXqR17H
zO1e^k#8_l-cxV`nxHu7bT_wc{+-vw{;&r7|#yp~`SP4o(hB$)ZM5=*MK439t&s{jO
zk2NeV0*<30Pb(JUS&RnSs48!=>`(+%wK<3p#TZ%w4O(n?R8gr=O4XE2RMAmjOdD=i
z2pfz<H`7rW8Ws~teR!ZJqDsL?HypeoWrV16QD`$L=~x-iMo|<l*a$&kZE#!&E2FGH
zNTnbYp(>QVi&ZE43XLGsUzB;Kk)f%#yIz7;<#USe{07l1A;a{y{tw~M0iDEKd1kCB
z?)O3S<&+PZ8lW+1jG3k^WV{5Cp_&%#avc$7Dp^D;vIl5l0b~{Fb>x?Xq9LGLYI-xi
zv^@_KFnkfx&K{_;niZr3yh1Nc)L=41>yJ*Y$kCt^48(Dqg^YTY-O36NT^bLILPGo#
z6d^nG)Z+X2R+L_Mk?$W-v<GT)VmO4q!3YhVCQzioRx;>m)$&52LCj<#6v`7MD#!|J
z#ANdq>`Yx%Hbtk_8PtJO3p@!&(Tq*9SIqlY?17K$+ka6RT&{$w$=gNQ<~^iR(vWTJ
z$}}F58V@lg+H7?zy(_XcZS<~uSl>KteqgU**uw@qh6b7b*85Q*O?JuvoYy#LWEk&W
z!tZk&`IIpyBP&EvXt=Fd4Z2C6Oq8xZ1*LepTE-}}$bePv2UcwYRZ*}6l0zj4i(`+r
z)L1BJ5#^b|a{2ulEK<{VfW2;(IDI}u#c_>O#%rJB)sLDKPW|Rmo~|&Wa9r%-C>p~M
zEZKS?G79WS{0Ty27eU%kQVF4f7ymH@n*dBT#iZ|3fFY?aOop}nGX&}CN$OhqQ-n>{
zf6-b(nctyh^i8D1GWyuc`K#6~rZVR*$|`3Kk4;?no_mI$?fkO?KRvM0bsQ|ZvomKi
ze5=H_F1)eA2R{r;{JCsd<(h?aK;sknfIJkH+<fiZudUSXd{Dc4wX|Yx_uT#kN4m5f
z%)q)m>Dt{lUz>UDvrimI`~=EN6!NQ^uTkKy5<xWMcMtX*Fn>_udd_e9pq78mVEG{E
zfd9`8mgk&~KeyV*@3%ZxZxczfF49nR%hoH`*eGC5xj`MK;DeA^2B~N<GDwB)Do@Ig
zTdLZ!R7l*M=x@e@g@R?HC~jz?Rgmx?NJeycqm{^USGie(_*vn&LdqRED9IE_^aYwL
zF)xKRkI>e)1h%5>rd=gJ8&&etHf7J-lJ=y|wkf0rs`uUSc0<aB?bVF!<(NVl=tm)u
zsXx~`%~wz~Y$cdp2-g{*Y1;G@P6;t$jsz|^;_s>RDRA!_-lN@uXUYjRRa4X(E1q((
z6UPNol^bbRV)NZ!zx)(P_`>6%*Gj_Y0+`)MYkrN2e}q>0rbh!+;=4~Nhj?3?p2Qq_
zYL5D2<x?<nPLd)Sdy=Hs$exj2&6j&?HEClvRfJQy2y6~Ir#3x>$1O=rWA=>f(|ox%
zN^__9kpsC9%~v>-=MYZZ;Z4u`7H!A9Z`BwTXwRWd$?!Sy+~>nmjFCB7$&><qqddue
ztu&~29M$}}w=Vi`(!x?^oeg52vVjd^BP~{@M|2Ts6qyvUuRxc3b%3m*RurZi{hk{m
zMdbu+gMq5RB9M%IRqI&Ud1;XBkD2YV=UOCuB?L|Pkb>z2&9WWPoY^X?xEwy2#T21A
za<PsY!d^hBqFFhCh|Q`TF)qfOQK)H#xX2c!mM1%hA~1OlF%w2d1hPEh97NQ!>-<Cv
zgoA<#slvmE7*cJ_80TIwYADZ>+o>wgip8@j3O(Io9Xr-!lj5II!)QrD{Yt}Y8O|nG
z0PzjwGU%}hk=C5-qyUADAl|1!2>ywrb0gP)*8%-)5Cwxug3vX{9)SG;BLn*aB2FA6
zf=I}x?0Ejfk;6w`K5_ntTm-H)L(-K@vK!xoi>sBqOUWTFAzLZ1sEJyXn@QxE*G5oL
zutFhAas~4bB_fg0pjQ!e>PMOQFOgTACg(#c#i~#_vSC>KE`1j#CSs~=9m6>cBRyFY
zrmMPXWGNa__3M<B%0T{SD)T;-QT3Gm10xj~8bQOQ2}RYnic$PK#7u6{7x3rl#_qf&
z^oN95d<y56Ku~$kTQ%SMM@=i9*0jAf?P*;t_Rp0|#mx&ZEnc|0Yq@yewDqB@c=kf3
ztXnFBw5*%imvl+Ku8ePo<lAxg=(2DB^bueiw?cEFg_oAgI;W35s@t+?{$c#F$=Fcz
z7j<28!fbfH_$O8O`hGV4XQ`j29&9`P2Zs4LxEt=ek2$0Pv!=KVoE*v9knwJpyxTM0
zeUf({M0==>Rj3%W9F}~C^-tKJt=2a#^k$k4NKFTp>z~Oswyt@&;{EHK9U?Xq-t}n(
z=RWX@z*gwjL3d7-$a%|1pRPaSqfRV)yR+VgtQScTPYqc2*c*z{d@a}=)TS+xcT2{*
zOY-i@c+W}Rb1U8#AgIVx^hgywnTpd(6{kP7bH#fh%IrR3SoJk$e0`FyZ`pSk%75J@
zX>a?-UT*72L$<c*o!4%^mJKv#0$ZiP*42jYOv4_jVb5Q*?#c%DWr8Q9;EC*(J((@X
zq%FtNO~<lrdoyjvq_$%a9&dqmpkr&vtXW}rHA`Mh&yu$jP2AdN*cdE%J0Fo)wttE5
z|Ii@uCm!(q4?Shm?$6ez3>fMJ?V%648;|!`|Gd}?H|X0e;F&~<9EVX6<$Qy}7)T;y
zNRcT1Df!-p14NmbH^Yv494f@Jy-&OZU<By1m68xWA<`0+-71AO7y-9A1nw$Z*Mur4
zJV23-K<13mBK=?S^-B^UIv_ywdo3*w!Sl1v*)v`mf;9_5AlR#KTG(-Wc+Ey%5bOok
z9OQFy<;|bE;CtL`wREg`PZ}(KHM^pBsT4uMD8u8MJ#y>#+;K&$+%Ear7Z0a>JyOxu
zH5*HUIWC($Ki@R_%3RT!g9SMu&wJt`@5c~MTKtSeV~v;XL~mZi%?i+N0F;l0lHp6T
z3C;!zj>d(Ks&%3`6f4109?4EJo<s?3{DIU$<Ik8xD&@hK=^yCiIxPRS2o7rcT$t>X
z&5Au=$`Ixz%uPU)!`wAhF`ilISteT!E0$&XX2-C)W9%2!=m6T=J?T6{9Uy;TGC)?q
z#P1;66f(^rzk1gNOCippC1)|OkMM@^+h5@Yt}t%aK>iH|aBft^4h=Ro;@=?Q-_Vqw
zB@aO+OeOF6UJ!a5Fj=!$vrgaa`Pn1s%Dq1e-mAXfm$pObi|{nl^YB#MIF|L6-Z-&l
zG+AnXZg)TQRnItnIeToz@plOyiu`8tPQ$zAZtgwPPQxFYx10Vk-h&9&AC1Maj>~28
z*pj#b2bSp(bHt)cT`h{#RWJ{L0f}%6oox|EA(R}k)-Q~;u~=BG)6s;~cJ}Rt&%t~}
z5w{xSR8xA?Z<qS*9RYE%`BBsGEKLbYbCVCN!bdjtLQ$j?cJ&^zY8Sk)kS`Ogh1(B%
zc0W><zyiN~qBK}0{xOOP-@*u8poz~jrlj=_xdc;kQ<;$}H%ny!Ud8ndI{y)?h%xAJ
zByK2$mL1tPy{;T!j73PxZ^PveuPfF~*A(k5T7R%`iVaVyR%p3K<(aU@!Xv2aT3o!M
zn3|yhT8n8#!$^wc<7_!AY&z&g#2G73#}pLyp2`(vMxt2!uvw3@T)AXwxq9V!RfVGo
z*r^M+?}GNt^YKLTm>3qG$N8>a20*2qP_Jvjzz}Ox>+CSBUls17l6wrfyU<pF8LUQB
z^DTy!F|_U|R6yv=hb{Q4m^AT!fg^kMW~#`JT&!8(v&0O8^-|FkFTie#iIz$TxltG&
zq~yi08@D0=x;Q>G1U{_zzf&E3a0ZF0*B<iIALB=odFORV2tW^M@i6$vnZ;kCFQXR4
zzVxz)uFvC17FO=gGn3CVp7=uhB$TSsrcjhngqT4)1755%;(teT#Q#AK;kychv73C<
zUr-XgdKC3NLG1-%rpO3M>1NWG$EwvigeB-D19X6Ley+TB$shb92UvnG99m7xroKK~
zTTkr2s)rgoa08R@(Y8Zb-kaf@B)$nyaJ!ROgteb%5rVg(jQ{r-Py>yIfXxpb8HG%B
zMl_I^mjNm1(AxB9^eR-_4TZQbQ@GxPY`apVN^v#E1SHc_0#!MMUXAA=Zq?!nspM;P
z@>AMP1jVLD%Rz$u#7<I|D9{Q*ui2xuLg6|+r50U*U&{q<l-i%X@hCX5l#T#0yUanZ
z%I!A=l!aIT?Y*E=A<_J~BowR>aWJ-KFk)PcDC_e-qEJRW%B9bL9=gcp@$q3nBvuH_
zF9kufWV0%z$euhxkloy5f4=Yh`Ov8&uWmAI!&Oiek7{#GovhDa=>-z>(4zl0s2e73
zz^jYfBoakt?R>`GB-xuX_AbfZwJ2n|4@%t!SM1N?{I71vRPB+f_Dp-Sr9F^PLfrTb
z$<?~*shsawY?G>Xtn56#;yD5It*m+BIHO3mOTO*PzTRwkb*6l~RK7h^zFR8ay<EQc
z6O*BA-<rt;!oUb04CpHw7kcitNsaq|_SKd0lWFhCboog}1awH=j*PcQ^7h>I+_y_x
zPpo)PLIo_-{H)ac?6hazzGQDuaJ?FIX9K_^;f4!;>$If5#eFM4I!U+*kBb?m%rPSg
zT4oAvp(!iE?Z~<5DI~g_H6+X=u1Q(7g*IiwxA`e0pe36hJ)iy8&+|na5gWgtZVPl~
z0C?zO{nqt_lrVA&S-R)-%kh+Q9l3IIw`LX6DoT<PGJA6N7$dq?j~2&q8h{W?@0+#l
zKT@BI*L-?9POwygp_vS5F@^B3LfSgXRy_xR(dGwsJ-Ve3G=^M-=O=d`OyT%Kt7giT
zY|v^ODZsK!xtNBPdH`cazqD>JCOfqfbMFy4A2&Ty{8Q2rdARABa{uOIincpaJg6dP
z%1u^L7?tgtip8hKw45sXl94FdG!jLHM>#~0ls!pMYRXeM<%rIf)zYCg>dxS~DNo8H
zRwVanaU-OJv+03G84n#VeRf8_EPYX`h~-dGsHg6~XE#-ZPq3UlUp#_9;SOo}z>0lN
z^XJ}zLAAot*Bs!Whi=`R@*?*ME#=5@&6j&?do1N;)_lcZGBVy&@#lJ40Ft7eCv$aZ
zzErW=&K4~MJwL7ab8nGs-HNrAeG|s;GhAqk7XOr4e_o5vy+!CFPL+&SJtfCiaw#<*
zP-f`yQLf~RS{Tsb5^XJzUL)Glp~b<k?@FOWD2;Z-x~EE+xTRF^q29Av%G_HkOHEaV
zR4?UXHD4~(hS`5ji_g82Va<<{UeWxyx3>1xvG37h3a5rB&8JGWvE!zEDc{INEl2K+
zYYu!PLhf7hL2y<B!CBdq&&VY&X`zLCn4+E+KyYWc_Xw57GjdsZ=esH6cSyD!(85L<
zHDB&s=p?`n)o+5G@_$MGE4i{XU&^nIV<Ik;7w*wWOiP`6<BY4&a!w+6sytOb63@kJ
zKA}>m(&l`sJo$zep7IOTS~xCks7O_eB(%8PJ5{dL@%c*|@^<uiE{En5YET0~I~{fj
zHmqv>+(b_c?C+7QTK?QSd0q35P)9dCj2Q4grL@$h#Q01!CW#Bm9_&CPauzsc3eSVK
ze$I2)leN)9vA!wXS`4hMQiCZ|RVgD@dbPUJu_vaglfR?aSDpM_%|9}&`EqY<KE&cw
z)yTJV;hHa1t<45>HL9^EwqZ}yOjV;bb<v}-W4{-`3ZBzb*J!EHqS~8vsu=raRg7Ib
zRhQSYy1bVCfmTB9J@UPrU-OOpq2|lI^&T`QZ)>5`0Vwp<zhzI=jr>3h%e}Rc>({Y2
zt<|D2Rf|5pY6f;bRX0_O)uTf_%+C*VWoSP1vrZlPGK_p3NVGa4O-J6*QsmxRy{Mra
zH5jMrP`(c9nd)KSE&Ejcud`ZG^|_V7^tFvszR&Bj!0z<>iZ+Xyruv$u-HqO<ezXGu
z&W5v0ZyQ?JCCrGBuEV2Ch}fNYa(y1pPBqhG5zxD$OPdl$A@lSQYYv>bL<F2&+?)8f
zPIO%^W%^gFNOmh38HJMmwVmDS6N+DvE$r$g*$|rCLd?D`#8)GwM3oPiyGBwKl?vVB
z5K0yaCQoixE_7w4h;+k|a);DDveYCdVW9$1dBw&?<t!>ETl?uIi#QY$p;ks*MQDL3
zmof!N_KJcPGtQ<ws+HZp6d%R?7#G1+WW2KgGkwGfO9EnlG(0(>Uihl;&)CRL@)sj$
zBbegEL!5MlhaiGgKbT72=BuJ6w=$j05Y+7<dW7v(U^qrM-$LI~H>h!{L9ByLRL-;O
zW>lf_q^>%z2xnfPA*>~)salt+vq)FWFg3`Qgm_o!gp2HaCSn)k(c!@j!U#IxNIPMj
z@b|xO(8Lj61NjKK5jSJZX}tWQfvyUCyT}X<1_=}Ll>be#v3sj*5JWrBTa_QC$S7sU
zflHCm$n`Pt;N+IPQ3qFy$tFX2ivL=|Rg8SXkM{hMi3HN6JMSD{cw_F=g5lQLJI6m`
zY>D44Dci`&r;e0UNB&RNk^I{@Q##f?Wk~AG#Ti>cjW`uQhkZz&3ipg)V&T>of(y)A
zr~sy*+3ldr0%uf;-McP;b_eZf1x@5aQJWszLZj9U8q7-d5v%C!!)BZoC>7JO`AHeR
z0}Bk?3(Cv{q2)-Yl=vUW`R{O`MoAjLjE#v4L*ru;A;t{`qx1U|?I6Rx5L46oIpz6~
z0*f>y1y$c|9|gKq0ks-N%ui<Fut63LQxd8Iy2ET<Cp*4)t~Vt9YnpF5^L~kIMk{LO
zFZ{qcePXqyWkJZaJ|ne0^IvKX&e>-Tvpcg5?Tb65hHbM&*+6$D&?^Oc@4g@fcF($*
zfOWeR*nW4L6xexp^zKwTaAejE9#L^!#@i%8jsNV5cL%<kx6L}{Tb8_mwNkG3S(pv`
z8fJTMJu~;rLNHz0ndUngk0<y7jHdzYpsOqX-)Ncm|B$nb9AYi78_{H*>6i-aqNfDL
zI2s9yBAr+YUwkio?5^p{xb;~!#e|)T4V@Kt+ygerj?0nj!tkXC>?;pbrhamckVBZH
z>|ys<AMQJR{7C34=gwV_?Q|zJfMi1U;QC4eR8bX};|?|4e<zpFl~i;yr4mPBjGrxg
zm~9Ov2GAQ?5u#!b&e(=T%!q{JDMp~Q$Yl@dN-%*4fCkheWE-xJ8wN}g!N}soVM-k(
zhqjs`XQ0K(tVoyz2U}?3e?^#jfOIP=5b^Hu<Zv`0LKvVLp>LK<u=>RRM5WP!5PzE-
zI(fxECFd9%xk!PD${oMB9eaUdj+65uMLQKm9R|YF6iRzXHlM{c;BuL+n}U(Ua#d8`
zMPllT|Ad@BA!n4F7IN;9^HVr-i*l+#)gG`67Za11I~?uSV5*|pkznwT?LpZ^8u3i8
z7)l{7rn0PTAlZ2o^LT+Nl!75UIssE0h_Td7J4hGvvrQXp*kpCDD5Gp#jnI)%j&NcM
zYsWpdBGc#*mDAtOZb>9Vd!qWqIvRYNFcxC#0|=mcwI9u`>|&}aadtm}%nw~xj6>;8
zQ)SZ3%rdDwU)i5*z0?Y!5=ExN%Ef=CggD6VM^gs%Csg;pAm?Y~FqrdQ@_|U@lyjp2
zpRcP><!LWPVSu!Il;dNws6`3wCx|j&;keIka8In9;|0S*e^ticD*0QdU3qt>Ze8|l
z{g~&<cip|R?0;_h7&LAxI~IF09nVP}&t*E!Ngd~w$=+TUyJYyS62CRW?~?dkEBu};
zUrIW-^Ltld-DBly8!|Q9q?&D+nuAi!!Fyj{t~oV*MoaSyG<0ETUr~SS>vLZxRg`1j
z<rUDh>}|O_4yBojqQ5RGpBeu4mHDRm?Q0feMg8<~D40}Mzhk>?dxyWxuadF~DKKQc
zEwD&hx0x%8rcXe8v~AyXzake};kzE@Zi3w@`F2h_R_)H4t{K<tiABhZy0V=+r_C9A
zy=1Rnu?JzYpYgOyp7xBVNAmQ*f~cf6Q_>}sbY)5oNhOD-ZL3u^?`*lf<(<ykoeL9p
zkKAj%=fC&H{qp;c^!Ae<_W$Qo|Nhi+)hp8;t&($#!UOw`?DoD~B|VR7dh<qbzr^o{
z_^K9$;KoYlwEJU-{3~%uR)(*EQB}J3=!cime9Z&?C0tvtgk`<`S#N#TUkjUicP(u0
zas3rtrI@kTO7_}}y<4((!~P2QboKxE)SXipN{90?64Yeu9ZPoH%P85mKCpLuWZ(J7
zU!`2<kZwL8`43FHR_#R@dj&N0vwZK}D<76af5=h!m@Z?)d{PZGP8s{wCHvO9rzHEc
z5A0hZqQK<>2masylo8SmN0;H^%7d~hi1H{CBy_Gu$<>%~J-g(3_F-$=%;|^K^_lAJ
zQuX#s^&zSH&{Fl$`_E0Ee$=z?-p>1-%RT2LdnYoxXOk=CoquINhyiib&%e2t{PE<S
z$rby)zp&TMPb~^Rj@^l^*blH9Ep{&1cmAyO-i6FFUy+{q%JSaxlKuPx`%Y9}S(~Zo
zTB_(;x0supzo_V%HRB?)OlkX4X*=}7>4ySpmid}&MHjvtfi(`P*1SeX(TcqZb9D2}
z%$aoc_PhO=-hQdK|Gt2Uayb9m>7Hqte)D6C(NT{D>94r;^4!a}zB>2Sg`V_|6U${M
zr=6>?y1zDajV$lyM^-#REXv{|hAggF=$gY)>Xu5n?;S~(bT5}Y_p!-PeAqyWT3!rg
zssC2TTnBF4=vpq>Gktg!`ZgmAO)JH%i%`!hzGa)U&6~c*LtDLM3wDpYG{e_QJZ`q=
zxm$IAHx*Kc*}{6Ta}_lhL>@yxog^7)hTksn+kX<v>^d&(I=;joS4KiAZO@b*S}HyC
zsI&vtgtKohB;Wn|kJNiE&|mcz5k7Ttjvc@7HRCdgX$Js<zgbnqZ(^$W!5w$E{Uq|w
zqkj@zX*)c9BEvUGe8WP+3g7%;vBaOumNn4;D{A<kdO62Y18wETh2Tm>=VOb7=B9Jb
z46J4w3AP%3_+qBETdM8O)b5jN_ho92NVP{+JVya1mP>ao_Wk(iouls`hj+!h^Al`>
zqHIOyCsYcv9wCLW-b~NYr5@6bsdN5C&(XyO-1q?_#ad-39`G&co}(XABoi<{cJhv{
z$GCQ`Ez1|r9$e^scmI#}-=&-DytFMH&d)xH7_l^-bYk44;?}?Wq#YIlpRM~)<!7Jx
zP)vdj$p5sZ{*?-|w4>yeTGL8R?<?)*2d#ZIuk=_ml~u3oG-qoquWW(tt%2F)1}h3`
zoH4~R;&LdLRxq3*MW0jTyh#qjY`;l9!rnzf^_7bUa)&gLFN&htPV)U<<gjCXKOHYO
z=(CfYc5?n$bDkhFLFmQrXxe66NzJmkI$IH3HV3o5${WX~FD#oYA1b#Kkgv#lb982u
zZY=Ou&F`IyFPmGk<@L+v`iK6y`RkIuZQ0xgO+mVJV%gk)6*q4o&@Gj=P)a|!*c;`Q
zAKNM{&WC07YZkn*Xp4R86!OWwQp+L3T6@BX8!yVrZ@o76+M0<z9y%HxTgapIgSrsx
z7m1^eLmPOXifV}E)ZcmPAVVsNwahR!x_cZbBl`iNM0fb&U~Vj-p{wYG0Z&yf2(cz7
z=(ipe6+Rkd*{<O~iuti$`P6@Z36~wy?=gusO6#}^L$z-DF%|`rtz+K`j=+?Aa3`<+
z!%Wa}C6Y;I*DtGF10|7uM?3q`rUbiaT``Adzb}BaB#u^A4dHm~suSh62fCG?aS@BC
z<RVtR_M1!zMf13v1u}HBTOqnb3U2D9EdIP$)>AdIn5yy72-Diqe)kCK%1|6qeuhc(
zQ4%ndIOQHDB1sv#O_wpTUr$o>k)cSFKLk~j>>4=?A@3j`Eos@I&n+|C&f5<mO7oDM
zJLHVOkzIK<qYB#mh~n7p`Wy1Gm4AbL`fh+hJ`}KE*?CYrho0d-mpA}-&15hT%rdxs
z&XxR}EBZO-`8ntKIp_X4=lVam?vJ>Zk2wEda{NbJ*+<;|zv3!B;&wkVnhZwR5gCpc
zB(DD>uIVGL1Cbwb`~HgSdSbL1jGuDk6mf>&N8A=bRcG1kE6a|$8`d?e-%yus-Mz-q
z`@orXdOz9zy2$`tVRF}w+5qS?2ESzRKQWpORXDp0Rk$n0SiZ(Si}o05)oVo7OyqCx
zUQFBxGXF!1b9y^nFf!k};JE#4+SM*uI@T>nwRY9ORn?|B|6}Wz!QfwLdAIFHZJEYh
zQsb`29EGgmrzlElZaAiQEOXV^s75cYrZLpaCU94cp@!;L0-n?yG8>$qaOASl{eJ->
C*Gvfj

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/base_static_graph.cpython-312.pyc b/compilation/__pycache__/base_static_graph.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b3b1329cf89f7441b56f2c93a3c1aba2eb6640c
GIT binary patch
literal 2518
zcmai0&u<(x6!z@zY?20A2&Dqa4Mk+DW*5YvB_O0Iq*WkIDneUnFB9+Bo3%2(@OYYR
zPYCtKAJ86qq~gMrzkv&!kmdps2gGer+6yP%vu7qrQ`C|6jqS0YzxVlj&-?T2Y@5L2
z*S?d#H3|6>JH=Da8;94S@sM!B9iIeF-*K>A@hd^KUkz&gn(0^ldeG=Mf@Z(zkP5j$
zc<lk<by54FYW?(E<3^|XH+DKs)>>u0&j!BeRI=(yIL=zPRHP#>@?l_h_4a2gHx!FU
zHzO{x_8s33R-<qzcRlONS_2)Lho6IaNCfFSob)T)=~sD0)Oc0Yhm|+s8?T85Kxy)Z
zsPiUo4cmO`L9O57ZRndZnAzadFg7)Ab!M^)D}zKU=IL$CwDb&=yMQMa>VDd$@SOfY
zWvGQ3GEY!FVwysH(SAZ>pXp(wf`sab?t>4?sF%lXJi+ilz)-AHB{*dXOi0YObQdY;
znps&(rD2GKb+hSvz=!J@Lb4ec*D?@pfK)a1_L<sEvW61iF5L8LmMUW%u+#86JOkz-
z(Pj|Mw@$}lKUD}ZTVZ(Xq12N3^1cAvBk`heJ)b2B-Isb~apob&aF?=>m!8Cd@KP<K
za7hWE0wT1)Qw7XMVbX1vQ&#}_a@j)|Ma*=ul*=;x3h)#RBB{V0@){#~A-K<(w7j7g
ze2!5@7mxJRS*ADqXu$lFs3@Emy|=M(^Q4pGR0E{rA_Yf?E74<L&}e8#v!{3>AcSI0
z6+^>g>(Xr@=m}RKBm=i+iR#AVlPJ)~W~6hOMWH{oyQPCfXez=qpgWsen`=8)=+3S6
zwbiw|>)UHPhMS%1w>LI+P9b7S&@{2)gH1gUk0=0A)Rp1GOF6UHxlCfFy%C)C5wtJF
zct28{o<2pZ$z{62IjAZMf$hC~GKe(|M5q(9Ly;>>Nh~}$l-?<%&ua&{z~_mRodZtR
zgV-17Pw+LRBGsv9wM6(sg{4BF_SFoUSuhFKH?#QP^_~vmUM%A!4S<ARI!Ld6bZzgd
z==pNci^qBtg*{Xd97zyMkTFEj8?Z#U_KaPdsWFr>*Oibvu6zHT|F0q4V$v&!1F?NW
zo?any3%|539zu^~HNcU0n6Slz?K$|pIC(!lp1f-&<?_reQlrS2WBImjW$L9$0c9r-
z95je|e?3xAQ21&Dlpbgr;Hl@1a{-q}WOQPbFB6b35EFXh3YFkkz`>4fAt{wkA;a=i
zh3Ojf2Wl#v;ob#eDu*~>#FFqm4cRWjVj-tvp}TYoW~+Uf*xhiM*{gIGDY+|Ab)`ox
zmGHC=iB(QIE!)d@2FvsgQxfYg^+mV~#ZHEC3e~+7uB|{Z6hlZLxC0_2u5@bz2Bz5h
zC|~f)<;z8G6xs6<zsLNPTYPCs{d1KQuGD3^m1@MAmm^z=u>j}S&k+`dLhMx4S$L^=
zG$upv<_47N9K2E4xbUUQwv!fNNulfot8Dc;jCI=RC}eP9xmnxATPyXkJ>$Axr_9g4
zG+mcRp6e=vpzsn?@b`qM2AbE<oCouS7@r28n!-^um`{ld<^lPqQmwZp?fLq`A7?K-
z`tWh}(Y0UCUYgWlVA3G-bkf9Di@b4ZGKH-+IX6F<#?}mJpE;bx*88v47an;N0<Z74
z&FjbQr`WT5<Bpr1sca7Zy7(X}bEmO^XOL$NJ&r-wHUca-_VVu9I%dN$ff@8~!-S)V
tveqY-oln(8_<#i<c?-;>>Nw7`7IEJFozTC?2TvP4XW{YrX9Qkm^?&{J#bW>f

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/caching.cpython-312.pyc b/compilation/__pycache__/caching.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..00522eb0b9c93c089571344655e6b5631e59ff7a
GIT binary patch
literal 9492
zcmbtaeQXp*mam@fnd$lRjK?;{7))au@L(7Ru=$P?2p>rRhr}kASR`}9bdRUU^R?AI
z7+Ygxc99sf?Ap<77U!hXv8UCY5uBF&=fvKv?#P}_7wP_)!Hzt1K%3KMmA(H=jE>z%
zC*6D9(_>={ySgiDs=K~kRlR!k-tWEke|S7j0x7|LUp};kkl$dzOxE(t!YYQ4YeXa>
zlOX-Zlj&#lvZddmKiPg3o|XicwDwyWqmQlM26b%0p5*%-<vM55)$h{Zxr96E>Gve7
z`m6M^HQ`PA`h5&>;AmT-I_dBCGsHrqI>|4sx@j?1qgdV~-({fIC)MACbz$mXZ6U{q
zXum{6Uh>~$%e4)nL-L4DX^qs_098>=bY0^5*NSdwozy5bMlDzi?TyglftDt*N?LF9
zE!TRXRv2blh*Z-`DC|qB?f1V=t{xvE=h^qk5EJnI7f#j_U^HtctVUw+Vh?48RVqmV
zi{^Yckx0IlPDSMbt$sjKLy;_{Qc4Y-gZfZJZ-5alIVG#1M0#LAqEM{um8cv}$Rpvi
z3F)<PB7x5c&SR#^$^1FgTq6>}(}0s;;1n#ENIxgCkXt32$N?{{k{xzvyTsirkMHN9
z#V*-JtB73Tm$Wz}r|7suDm`7p&VWl>jr&--s-xLdM3vL2umH#66d)ZGhG;mGk*E-+
z>1;|A!a^jS%*Y8z6r$zc!r5T~cODepP=z5mkr1M3Iuxd&pvELYl~PKY>cr$!CaWrf
zn${bhr4t7FR8q4vrFWo`l1->VeJD^4CzP}xCo>5t3A|QdC5p*VT(cmjREb8z5tuS9
zDA`OVO;zF4a9^56Vw)8qL#6VJI>8}XjR}#gqNbC=*>Ge~N{L$qm_Ut%VH1)N38w@l
zd`=Q@QHgZe*vzwQPN#HoqO1%Cg}#_XC73If7E%&$2o{3uGkJ&Xc$R`3#rec^YBNk6
zPN_OQ+(LPGu%DQegzX8LFjeJ9HW8+<JVjCr*1RJR#8jAas4^m~^8*gS;PX?P6l4YG
zl7w?|Sf9z9Motar-473^!pXD{JueKv(qlp<kyQlgd>9!Ii@*~!=8c%*isHw?4=?C~
zTURP-`3e(~W7P5$CnS!&mZi9DSp^iIRth;LM?#g6ISZ63Gv`<+RVd^*DA`SVB7qWb
zmed;aO=K=XOI%lwW}WdoT)7}(Weua&ob}?`oHbtibYCpReb3e{opYEBlYpfsQeg&k
z$EELt-@?0)9VZOj^BnnL10kc#pU$)jgP5yLIp)XAHHINqTR52R@7W>d2GbK@HK(k|
zDMbyZB9dlR@e*jZ-r?jMDHSxBCHRuY$O@i}Abk5uhnmcEWaP{?HB3RDZ9AXcy?4*x
zZmA<7pX~s(7fYu)@P>C7(yPl?M<g7HfzSjq!<ys3fRvKXXK43G=ks(*Fci}DVJLVY
zk&eJ+?haN)b-+3l0kYqb-;a@k`*?A6`{edpBX>6Z^7Ox)`Nf&fJKntdHq`w=!Snp?
z`T+Ac_5c%b(JClXFJzh}dR}uKLy0|^7PARSbL-+8N*blAvIN5#P=YlZsDr3{UaLxH
zR5>Y+NMZ=ql+YYXES!--QtF(>!H!hO)1nlxX`CV@qO>08Ta6hS849MAz>wi&nJh{o
zC{0Kd#ZBYQJ&$boqiop>1C$ZS#>fM2!_?MW)}Qe=__?+N#kK>p-j@sf%LVVtrL}E&
zZkBH-HEqRbV`<geJa^SqDK@NwV%3A%)%V@Ur?|P*?e|u<&$y3&*0;b~>YRDUyp6c)
z3NE3vZqr|X_{oQJ>$-~Ty7GsA&@;~x_l5<SojfD0$lirbkX-|-4HpMHElW8@COOMb
znIAH}gnFPc!05aQu(SzE8V6zpJRbz3FrX-?Czi4Z86OJ0kVQt9P8g^l&&No~+niVD
zyv;>#^Yz08@6PF?Meoi6zmvjEBAUz8vY}{7vl%8OQc*+D1C@lXu6_x%m+hDN%ML(7
zU~LoRiUXdO1e3H}u>*o(0O_zvZq$;rj<O7>v$z|^E=zIb(XwRP+EFgY#jBS!LQ&*y
zmh}QqUAc#KX%EqcA{X~ROKBz5beMdw4|EDBulTAJMy#|R`=Zi=75(Ys_@(2n9^gO{
z;&?@tr7L{ip6Bz9C<{o0AGN8CW{3D%^KJ2|qTJ{yE|g!EJVYm`aKL@Y5fc|;`2dvF
z7PDi#)qGog<}9K+XEVoif&PWn;?-N0fSS&4ka$)kw>;)an3@;cakl4<Hr7@?VRLPO
z+ThQm!4NfIP8-Jywk+i;64Far$abPILl%a-4{HW(-&97bRXr31`v#*`9SsjkeLC6#
z6^J<1t?R>6a%3<eQO*7qsJe7Y(QhV2?(6DI^D5~qjYx1+LSQZ;gPJ#$DyvPS;;Ea1
zh8T6*!tWsan7u|8tyX;L4TDxpImYB1-LEd1ZDyQ%k>RHsRfjPiDTs{8G1>t4Zw14>
z@~w<AQA;mTD|a);j9V&{JZj|*z=@R4NwnYy3mFGk0V^->r<VlS9?cihjc6#F$`}m2
zK>`lV4mLI;MO1iEB8jk~pxsrnXN`B>1k{>67FNQlO6g0mFRi9bD+b^ajwS?%OVVwb
z#;L;@DPT3!CYwGRr(1BqD#MsjNz6u|fBKw6sVstF2iubwR*<oRFg7-3n4S92%H2m!
zKi3MGC{P0TMThqx#F~Jn0qs@n^>fI+4znu*kb&*~%2$8Q`;qrLJL_wGP}?-6TtD)6
zJwNH0t=;*cwsGpU!iJr*wVhwqubHcFFV?qDN9KY@ioqj=ZO01r#|pk<X!%;EF3fs^
z59%AI4*$i-^&OKJ3cii^YXZ})x7nGR&VsvB*YQu8DVW<3N|erP0E2WRM7Ki;94{uM
z;Q5+1`9LC^JS&E~M~?pgxM9*c4YU=Uc#K>>tglT+2%2yCX~9yQ>5LMJ$_emP0(Eph
z4AQD~u?mJvp^+5h$m@;z==oro?Pal}?J$aN#i0N%L^+~{LK+uI0}Nv`>5OL8&t9`4
zZc#KYDFLQ?6?@wZ|5fv#7aK~3Gof@UF>IhGo1r%-+C<F;VuvDa6|>0<LM2_^15S;N
zBovB@YRMX`pfg}M>#!CTqP}<vwuk83Q}DKevB&i4tFIdJ+4ur!djWua!KmFZi_!t7
z{OuT7;EAK|A>a9H{@|Cs#yMYW(bqcX3lx2U8DD$eTH-wuj&Vo9-#p8=lnayXvwTyj
zwqYt*tPRZ7b`)zn=4!iUYXKUS+`fr7#^0DYIexORrhU3^*1cnS)#vUV^Hx%~Yn~^~
z!MP3H#SPsBzUjX?hokH9YSI#zYu;6C-u1v;J#k|E#3#Y&jfIz9Ep9mokgUa-w-&0J
ziv0S=Hd0kHac2C?)Yd}VzQTdt&pmym)|cj5cNJTAm3(!RsiJS=PloQa&Tf7M25zj%
zADIjm-5UVVZQePzX-{#}o;!7gSKcb_JvFoG?fengUeVq1#6hY~Gmo9bw`w9co|`%{
z<83bR%}-odUGVgMt00*9*Y4d%{OrH^tw$Q|8YhOq2rSj)2x@h#bOQKmV5Q5>%dX3A
z9WhxFB*|Q{16pz|MN9fSm#`*nh?)RJSutKT%IWX6gd^!3g}94~cv?>@A%;cUam5LC
z*aE*wtmBs5)Y(_~92-X<uq=%`MINiic~g&Ljc&7_*Wd9>e+Tx5d990R#l&?$&8g#$
zGOw<<4SbV#=3RMr)CN&0Kshj$h#r}YJAcX`@{k!s$yY!C!K##PH(2VbJ{pdIGX+5<
z6}=9-YLqDg1OU@`=Rtk&z381BNu7gt7izCVM&tr|RP6bpdlG>`m4v5=++MK3DSm8Q
zYPZL2D_L%nzlX^LGhvCa10-Vk0Q{{pu-{Q;)RMEDXB0R?w3Nt)k1SVx92sS?4J;@R
zKW@B&U`=X>xS+)`ZWr}YIo3R#m4XA~wopY9MGO9!y>%+KmB!@A4@obql_3#!)H2Ep
zJs&%<;SYfsPD48x`CCTlDJoM%6=*gkq@#LNq~az*<Ry{ViV+(sVf&JpjuGTCsg;9D
z!ca_(!~`Xl&L%Lrg&{4B<v<(_{AWps$!btI7zGuolPZsTYE3v}IWDH?GshvK13?_1
z0fC%t;J@NxG6@KMVPx!?B|l3{4}L9K`C=?@F$M<qNRhsiMS{2hh__J*=6i}5k~sKQ
z-(pY;f~7GdI%Kjz$Cwz8a7d{vpd2(7x&w`VT)=6(qf?`?;F@byCj2n`bc)7Rb3_5z
zA|#c-%}>#{p^jqsM01~mI}j@KtYT^a2boYv$GRgu&o%U5BF!k<i-1q%^z|S?5~fx@
zh79n|V?Wt*kh$xhJNQoV;5)OsdmpowrmFk9dvClu{q}8klD+3^o4jy6T&!;^`q~P+
zd%@B6G(IBG>5+~28$M~8cFZ*F_`G`O{nnRE3pCx0D&GIKU-&2pmZiF8*0<paOZ=T+
zVQM!{?wG4-E!MPNPZesq3hu5yEO>$16QI^vsNVUlf<dXjtU0*d_Rnh%?q)yTZ9PQn
z2IklCP!#|Gj0OR$$U=-((OImslOBSRhW&mG-%#mj8!Ipb;yb`Al(29j2)OfXIw40w
zdb~uTe};V<@Hm1?VnjjnXy|)L@Gb0Q#bByJQ6B|7^c2?jVum=^z!gZ#7=SWjtnUMS
z`w+9r>C+Gt6^u5NWexBJBm-isd*R8B?E1e+1TH}NE6Dz5jC{@S1(5NO-}8_^^jm)K
zSH4x(+#k88`euC1dF%b!<{R(b?4PaOlXsMat#iVTqOjw3*PW)~&euN+%m{sXYd%%v
z*OdS;G<O!8J8z#Z>_1-YI`Nr2)BK(Z3hvi8&$jHFX*qC5y8HSs(lhlvdG`~}>)7>(
zVAf2ks*9dIlU<NaH{J8>$y-X^>bzrRe9XeK7s~jU30OwjD>wPHg28-<7K>75I12gM
z?7#p<_9{InqPQ}g)?JgOfZ85O>kiC_@LZ;rdt5~JVd!Oy%mXIbqA#>3;6@;eE)W1&
zXUKFtLz+7j`c5{SD7V-F?4~235EXDO8zF-*4|-gHaARpvvz{GR0Xx5gts=Ja8JY%(
zRflO5>rnU&bdK(;u_N3T8crnz*(LJG;;{1Hta4d*eY1wKb^^AtRnJ>mtu3WBo%1X_
zzjRc6V}<7eYqrb-D8f#H)qlHgp1`B9|MWNbEcb!8`NPns>XC)BZox|9%~%R9Ky%@>
zDStMi7>jtyx50DM&+f<Ya*Yf;6)0ZOa6>;#V4|6L#pO2YFwa?Tg4M%>#ygI*mn9S8
zjIz(6z%HRs3Hh-a2Vql1bE5*ts!|ACUWhs4*Q1me;3)D~v!hFyri#WxU!w;E>+nmO
zUeNt0yw1igUcW?_lo_OV3zezRb3k((e#&9UASzhp8#@M2+E+X06^dQ~;O^M#CC+uZ
z=VH&~o>^`!DA1awIscZTf6I)2>)3I#ZT~E{zU1<c_2|c<dB8<OPZ+=$d}(^>I4Wp(
z4=`~lic%|#1g5UQc9W_2`QcUt$C!*9W#C}pz#wk7t&Fi)h#XqtcwLqyz)Xt=$cpS>
z8^|+rb=`A%SE5J|HR|BVVq|5dNQ%hCQKK$Piz4%)NT+DMWi#>FN)b<!1Au((Pk$6a
zkf#Tg&>g`KA_h2wjus=lRdMCdE4Xz-Jm@R%I<g(k$&j}Q00cuk5Z{=`w-~-K9rh_0
zrhiBnBX{1u^PPX}(+?dWH9IH`kMIW+m4f!`))?nesPtw*J%V;rB>2iJtHTiV;S#c<
zYBu<+sY;-DWK~Kklmb;f%oBr;CK{U*yEHDImLdKurEq1MBPN{}<pD`iA-*#Nz3CVZ
zapN^H7pw6od5EGkP^*Uc8Nr>!JMl;MOYuHjgP(E*GWeL__Wfwpln1^Azz39>)!TmF
zJzITf#{JsZky1_F*oiOJH5d7YJU_X)#MjR8jYYn3>h)QEW64!BIdad14yLDWvFX_7
zeCxc2G_^dgBJP@r{p0&fyc_-L$*nW|`Z<16k>51Kx82zYILK}L+UC6|e{XQ!YO(r_
zn`OoQJ$<84!gU4LYTPI&8fhifgt7URZda}n!!sq2Au_1S9Dy6vgUV3Fo2#cdeneW9
z;;v;CP+XLH#U_F(%vsPIyxOK#ZpdPfF7SN753R%+7pa+2Z;oFc1HO6+?qs#uf6?b%
zA?7QUW4>I^$X;|9(QG3-g*NzHd=|egrxb_^LflC==S!5Q;cNu<IX5aa2Xko{yR;eq
zngDSgwD|OUSZ_%~%t)6%o2(#ljRPZ^(l{!GMP0N&lcQi65_}oQFwtdd+yAVHQpC%D
z3qNHPGLTBndHKY}6D9ueUGd-LPvyd?(=$ik1);IpK;r7^$4-7x3sU)&w|Zh|d}!jr
z_=Tz1tao#1Q(OMzRNFmw%U9KPld&H)UEf~X(*CneH#XgDoAgY@ioVSVl!eKrc^9c$
zgF@Oq{ql@!Z-LwU#Hu$KF^^Bz)gH20e`T{C@;U+==tWo*-GSKzW;#&yWZ~a808*&I
zWI8gahsKOxnahC0SyhH`7>E7egiLej=od{O&0twK>wt#QxKX^sI_51`8?2`&`&vU8
zkBj=3_h2{;|4?ECVJS+g=6WNE|I2WM(ln(fkr24ygzmv?0J9%phERfDfJ|dSf$5eJ
zf;kW#)K3j6B~?F!Wk5*d4;Y_FyXkcpjM`QCC&=bmhG8I-#(2LVRbLRt7sT_Btp5#h
zKO}+QlGVQ^`yY~)d5&e8A9CG~c*6S&{!P=|tbJR7Y%AEe{imaL^1T^H)0pkCZIEHM
z6xQ#2Oz>s?4C`WQZm*dq@VLv}?fulTfUomw-HiWs=N<M=?;ZZ<-SY&BcOwh<m~V13
z`=%n-TRw?l^}cB!1&`m)4{(I9`Gzn|bE$E|J#IBFy7^lLZ__{64tA4IyX}W~_E&ZW
G^8W<@DDo`;

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/collective_fusion.cpython-312.pyc b/compilation/__pycache__/collective_fusion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..275006958efaa9d7df945cfa3137b0c2bd1ec438
GIT binary patch
literal 54484
zcmeIb33Oc7c_#R318PH|02KDEu##8^?)$#);3~<2=#)WJ0R&iB^r|3{P{B?6sJj6#
zEux({1Ut$Qa*`G}Qn#o?Iie?-HkCNBmC-q_C(vEx*YH?5R!&EmGd(2}Y`b$#pUn5)
zw^s3C;UdY&<dL{_?|tvxcbEVE_h0V)|Nk>5$I0OeTff=s`wtxV3rZ+gjU2hRDU0K-
zaZhnUE@%pK{iY6+iQ?w4xx>tUE&bLmvx)1sb!5qRvit2Fb{4mU9sSM@CyQIdmVQ@<
zi^XkWcYjVt4vS}nJ^i^Ixh$R?_V(v><n`xw<g>IrT+r|9@bwpV6tc7<T-0COQOx4b
za7lk@M=6WD!e#yC9px<U4p;P7c2pvs6ZC|u`l~ytSv)uF@2}~o>96gm?XT;oV|m_i
zeSbqoLw{pOqlq(fq4K_Vr319zH{@u?ay(%Q=DlH(GWbG=)Dunp%^fZ5{nk)RF#ip+
zeBT^u888LS9W4W93h{Pvs7-mhV<pn9A#>kX<l=Qdedl!vIT|cb%WYozTYbR?OX}->
zFt1~snLEe@eJ^vtLghOh>sekA@`^+2->^t;b!=d{CCDw+<!)rTWymep<!)lR709jB
z<!)xVRmiQ@<!)iQe&p8Za<{VFTIAM+8r3>%3)Tl4f{nptuUZgWj*+HV)2rr=?V%l^
zo$PN{x49Hmmcr2PVDmPl@T~IQ@?eYZy*=~3*Glh&TCSSDwkBxq+#6icvCqLt|AJ?N
zZ5WGhNIjzugDdCBUo}tu>d>y>n$XVRTKugG9SE++-v<0`M0ykcHqY~(c_bUH+Opu?
ztqb1Ww&30EL36i1xZ`D8$HD*KwR$I7eF(F(GPo;ru!jro{;nx>=*>NESf!CRap<|P
z=to_O_x)Rgyx%s+Gn$7-7`*QVyzf)z;Zc^iA9)9KGvgS`J&4>xy4>R|_b_sg=yKax
z?os3()8(FExyO;)uFE~ia!(-lq%QXq%RPnM)4F+h`m(u>3$3W<c*6a_anEvB&EFb+
zk-KDhmV43EboLW!c9ThTboUMf1CgOnS36P#ox{<=K=<%KSG0F<pflV%5(*+a|72%0
z8sZ0zcSgG|g!q%4kqB~2Lj#@X!=XUra({oIKhz)S9^?Z({NV5qZaSY1hx_*q4s`eS
zG?_(rPbeCQ4oP=Ke>5}@!L$8?!B99b)X8^-!-yaZ@S)&vR|s!Zu{R8#<2wf~iuLo~
ze{qlxqe-Yc>f!1g=#2)#gFQVV9?61>2ZlDCiFQVNyUw!0&s^?Dwzq4T=R*V0z)-j|
zie^w=X|R_MbwyF7p56#rALts6L<jo=gF~OtIzw;C9njr*F~l0vWD$$xJ~}WQ2?cit
zgQt(5X-9ctuAF~rxN{(S;N&LJBWK7Dpvhk9vcm)DfaoCWW3h;G9_)M3*&XhTT<9I>
z4)J1fl#k*m>OHCRFnkdVp6HEqb%sO1K=;tP!1MIgE<L2nQ-!;?3c1&~5Z7S}av&T`
zAxocK|DY5PnnSj3YtZttwIl1YwaF&B_H;%<a@9mzFnW0?BxVIeFZ6bWy5t3ky-7<h
zrSF|XaE*(ZVqAdTpde;ON?x=%E^1S5C<{C8s%1qT26xprE^{|c?M+#H1s>unDWFD(
z=I9XbqDVG?k3ob*v_?YVZtcMceZlYd|NY^W(f*;8L%l;QqMbaTYsIDEjhi=J+!$IJ
z?mfS9=yLSJ;K0fk(A6uu2K$G40VwEY!~wgQEiZ)Res3GPEZPGB26llFpRSwQl-zar
zVx$hi6)ss=HfH^nGg(xDAJ=St)pyzu$(}9VI#axT%=&HjJv_#>H)T_q1D*Y$KtOZ`
z2-t=(^8%tfKw}%0@7Mr1T^Cr}L`x*f^YwW7CdW76ho=wn<w~#?kq9lrFLNog)wW|Y
zbmQXnizyD#TWja&M|z81=)#|R$utyquL@auz<HVLumDV~-DU<RHU=go2lpR8ewt0{
zGhGac$S~8T4m*mWVWeTW_h+oksCutY`5N+-D+tQ12Y}P3fUt4{zsLnuoO!)zQRtIV
z(;{Vq9(?4o%>Zt^eTHkYwtwP9B|f1V-ZV?_NRWBc$~WOhw1xVIqL;P&CJSFn`Ii3S
zu;>6beKFMAb0MmLCL21@Nf@tpU}!iR8L6AETidjUh&qZKMsS6j^%T5vas1-sn#t!U
zmrd8d)pE1t_Sx@ue6QoK=g^pC)>nG%=)}>fys6z&S<}(CUb^|xo%$a(zt?=%cYMr|
z^cGxwHlAA@w^uWW5VME+fwLo#F8$bm){#aK>;?C)0T)426j{<`IEv<l?{{0rxNZ|5
z$vq0BwD7aRrIlqxSr!e+7(ogUl4YFhQ&El50*+HqQdEVyKE|VIPf#podP7D@ChjuV
zWNYVXuJh{=q;(eoX#xK3m7%--7t=Lv;RYIkx>5CwDjuUs$wM`|NJkkpsn3miW?Y8f
z!7z<m`#c$sB8gm@4H;Koentk8Z<-YnZqyR9oZ)U-+Igz_O^av=_V$ZTZE44JAWDPb
z#3rXStt^8>5z*QS>OwU4_lw!VP<Q8WI4W8RYl|LvdBn0v#0+19f_Xmz(KS5K`}}Z7
zD$Aw~8NZtz*+&6Q&j<}IRto<WX+mZXNmS9unt5lVLOZl=3lCy7j_hcY-`PXu^&<E+
zW@lc}wbF^wYgH3fiM(1NuQrj_EaWv$uf64%$=fovXSTBT#<SO-z42Sue=AYBMX218
zsN5q|?n!#{lfJ@adG(EL*SFEn#_Jms<!wTFTgt&z?KR!wY*n7I_LQ6R)yCa5Z1Sc7
zA<bC^gj0w-A`ns;85aQ@;plNgLSm^P2AnO=q)~HB!l|OA^MxJ;4<MFY@-PMf7yJ%X
zp(&dI0lyP*(XP;>VmYWG5JCN&QQ%gYybLHH;HPKZ64fHnrczN>4F<&Qo)8c+ACW+S
zX1@jjE<OZ;u`ARM(s5+NLqLJ<y<;emp=pAIqVj9K6TOL|<wDW&MA1H>XdlpT(p#GJ
z7A7ky)j?h<l&?&bZxPD3q+DF_ehhV1v1jaH%FFr6$J*IQ-^`NcM3zM6isqqy(WihT
z`a!KXzkxcz-u+@QFgOstj3tU-o!>~o0SZX)5}|f~1r3)V->wuiQnP5IX%0n*<U{*X
zX1k;I)xsMU*DF#SqVF`k+xm9veTt@h4oCT`Pu)0o{alJe^qtVV;kU#0DLPlgIa~>Q
zwP3GKx(lv8H&y@o%GXxT)UJK!^t;c!{oI{p_bq0JleM}X&2GfE_+=C<r+}Kr6DaXd
zQP4s`0|ks8T0t=iw&E}1L+~>9OS8r1PdQ6$&bWWg9EV@&1$yi;NFm?uaQI+n6#NtQ
z*^?lHOb<z_n3qfjVFEvL*%}!H>`mMSznX$I2oyTUbV<xIAaU4OjZ_=;la8+WG75?u
zLV)?=&U@wP_|eI{$=#D#Q_<I7dhMm#_1|y)Uh`e|{xK8b)$)n*$<C>~$)~6Hy>;~F
z(c97Qk9=?BZr+ixtdG2TS2v8k6t|a2qe}pvh8~H5U_|NfV~u_iBu&tw5f2Nm_Y2>Z
z#b;TJKq8{%u?eKlq-HioZmA1|5mzabTg0JdTq?PxlJiD%NCvr;)y{XI9R4{3Viq5Y
z4)X(PL#mQpMHtdYT=CQjX*D(^hd=>i1vH=$k!wU!84yl7a%eHaZHWYyVNEe%6$0@L
z$8SNqWP*yVrTkv%O(zLwdKmWNiFVPbCw@OAcTqs7zR9YM0Z(Y(VBKWv%1E2xJXcnh
z2Pmc>%8G;#U>%vWb7j>xO0SpRsJdR2C|x6zu1S<`5lXity?OJ~L}gn+5|w$zj?8&D
zusoY5HecH@u_IAXFBH@#3R;DN*6EJhMKcAv;_h7xCm6%dzegP&5q8wcfFk6JsHGmD
zTM)^Fa563<_%VVW4N}gTId0S}k<U#s`3!Q&DUF>WwZtF6SH)t9P}0U(rkNOt%oCL&
z(MC3Hd__lRPhfC33YJuKf=H60GNnXIE(ivhSY}kj$eJY%xsE(}9>qjXBA{W<;u@M?
zKm6L^MEwS#enX<ZU8rxTA<rwmYEPC|7|}-#uHgic!VMn5T{Cw0>Il)pRdIJE8)1cL
zqz{O;=<rZD#GgW(KTQE69nMhfEP`|zh*1+Gl?yhAh=s`SB4DJC%dy)uo9lZeHXch^
zDDg3X@Yuw$l#LQ-o2THn*I(N<vF-N@U$1zrB3`gU$Z5NuO*d0z4o8*xF2&Ig=UzLP
zvLOC(PQJl=Hr#m_!ij&H+L=KeeTniYIEO!#I<nfzQ|@w^I>N8Ce$r!)K^;{<JOpXw
z!w8H15J()HGeYSy6f-P9$wXCDj_E@yJ+4IsL=Rb>5yDm0wmyS(FK7u`6=V!<eX+J#
z=cCee6okQIqie5ak#AV%rv#V$4J!%8VwRY-#|oYvLXnl|X^AQXw&HkNyp)-^mNH0y
zD>@)059~Yp?8*J2vuki5+S@ZcI2;ijQON%zLxYi!nB5&7?2N8m(_~|djA&!hF(z#h
zv%%v*LfWZB&PNo4B=Im3t+{L=sMFD$Uq^)^lL$a_dJC_)CR~%Jr}8HcO`m=1xtq`Z
zz;V}mWX$%lOpWGGo}RQ%``#+QS^lSo@465CJg0cP<D2Jxo>Mgb?A7NdYrYvsWpj@F
zIVV?8a;;^eWs;v-J=rrIeCy)Pi$5s*VdZ<3ck@q-WzXgpv%Akv)f(IdM|kz})UxS~
z@!Yj>`&wxZK0w0~`9Y9<??-^7Cq%=dIO#H+Z&n>t(BNiVLEFOjyPb@x&3Zyqt@`!P
zu&&vkyI9fQ&JUnvq7_n&HT)o={164i8Fdk-u3RL?WD=e&82(43SyUvc6v`ROM~RN1
zNgl+`i}5TYy5&vN8#4Vfx(JXMQ8-3|MI+=IvqJKeWh8J!u7Sw0&!@FZi9z-x_u{B6
zW@GYv$Q5|p);e3Xp6~69h;9kZ@Sz9^8Xcg30!$ai#8f;96`EX{T#Da?4CrszOAt!+
zOSE(amAsdNeH7GC;HQ8{Yam7%?99(Qv@+OBwRk2%{Yx~LN_8DT#>j>Rk=(ol_rIYM
z#}N?a<>pGOZaA(xZg{SH5+$pJlGTZl%|gj$5=<4ACQGX6KO&Vi$+D^&&DWb#xm@X%
zdz`)0Gj@0`pR1}f7GajoPp;1=!qfwJE~>`>99nJ$;60=QLT2U#ur!r%-!;WdhIiS9
zlnK))G@PThsEW59SMJUxgf#{r8qYSG5=#Yi05wgkY$LD^+TO^KT05E*%fkAa)&9vp
z;9{$)1coFmIdIb<+9DS^hoA;WQpeggLnIBYJ`}}FQmVk!yaH2=7hsCUCc7bgx+P{H
zAbs*MeeyU33{HvDVPL8PYCCd9wmc-D>ez%o!26MZg@8zH4_C2c@~IooU4L%6V7fM5
zxguV^9eS;in<KYtZjK@`b}U&|K6X?Vw_Y2V7)TVI5Q<I^G<$tXZ!!Cicscv;yOuqX
zo$%HR-ui@hrQlte^j5Iv@Tl*abHa)D?v;C(2-dHOVEGfM&%CTd!;%{NZEDxMa=Xlh
zj@nt!4B!z`7Q{aWh0r?DnzA7d{sF?{a}(!M*_5&?DF>yT;4NM`H-7HE3#n9FsiRyi
z2643*#C63`N-Ks^S}~N`uym=cA#>3~y+gs*sEve%N%ZQltxFZHmzfLvN`wtP_881X
ziOQxaoxY&>_3wa8mcUrdt0~qo7EeU;Y*e1n+P5HMVFjX)5gRlrCL`1nw9<wEAW#o}
zGOiJj&(NNtXQa!Bpu*~JTLMEu<bKAb)6iQN{zlL?zlL5%S}yzz8>3Z#m>EL?gh>d=
zkSlRW*iz+6cv?RAixh+@_$mc86!as&1{A_?Itht6vRb1VB1B6`cu&$kkbq&NZa(1D
z@gIMQ2P6LxfnMglXEJ-*`j+da>rXc`dH2KdAGr{OcyeEPX8f6}r^Y)b>u<DPZxwPH
z$IOHd9+fL$LiNdwQwQU@t#NznKXWA*vWyF|b~VRn5(O6_j+e+meIZ<lDt*^regURr
z1CYsQ&6Gf}YBQp|kZT|pF+zNrXmwGx#Q^CTvK+*gWn3{?M#AVk+dNDOk@vV5L!vPl
zJi${Mm%&&GCVSt5TN(TW<3adKbc6T~pe&<N(<JvQ&XRULNV0oPkejifw#~~<{AYYD
zas`3JPRuL6zxw>tS(0tu4t~Gqdp(IAr-U7+QWlPc_hu%%x2Fm3No=1eSSJ*$OM1(a
zh2_Sqh;Kbu5uXQ2=Nu11N@;8|K?36<;)pyVM9O1>0@O<q?Gq0`0{$R}5Px7p4FvtT
zXJ+?EVv}(#8B#58$Zs<xfK_5%Z(5~2GzT!!ohVt%BE~fo5pyJ_RboaXqEqEvBccbK
zK%l!b5)E{Abq!1VD{k6#jKdKssOkZYK}6bdDs8rqwpjY{q{cCTnKgnoBJKDf1&lqQ
zzLb_p8Ri&wuwmYH@<Eu>aRz^f!XiTmB)CggAUq}1Kcy-VK=$XATy>Blp`_yK3(4xb
z$?jx@|HhH)M<%x={SA{Z8YvhGxrV2qU~p*)h7z5EVPPJiX3-}7glezS|M?D&ss%t?
zRUja)Bit#a5$=@I2zR7X%ky>01jKd4RHYSDl~znuS}|2~%O8{e|2mq+Q}7qmMuq;*
zv8_l|waD~8ekBru9(xS>zi#hv6g#FP3bI=IhE%V4Nvy!UyCrm_`#<X#Fo?z!&y&zG
zEW$P{ptmt*cyu}viCuvH0t^GhfqX9-0<i~^qs+@05I>--u(cE)pn!IQYQ&M4*Chca
zM1hL-R9$cNdWyCs0I-f-u!6FR{O|bGZ;ZO)<BFOaN3S29&YwO#ZNKgNe);#xf3)w%
zN8Uejx8j+&o%XlM+KhGk<GBao_5<^<4zyHT@ORISiTRH~p%KhlnB4DnGld6{>x*yW
zu`gWKXU$qHu`Q0zT_NI>6e4Wnk2bsb-=@jNlp+vbs25S+jM^J|bpFGD+FN*NjA%Y1
zzQl;u1Kv@UD>^00BAPTKUdBj%+?S*Fj2ekS$U>r^pan8#1EmRaed@z%q_0Sgs*yLX
zsw#y^r?DmeW|n9Httpy1MbmlF-l-6v_VaR#AI9rC@io(;xHalibYH;f2pq^7<b&A9
zP5J=Q9N4QNQ-utb)hmo0+DB#9P~fLvKLSN^P20sXq2>nVv3Ce}M;;VdA3*lV_NAcZ
z2dPte4>(RzbCFk34pF8auBP#I$7_y+e}mxPknkT7{6|RD?3i#|b5FPv-ZsJ8mhf&6
zyc?3fhGc$mGQT8Q>ZkvOrBJri90d_-ukm1K%bagsbxX}u4TRVat#e_@r!M^@deVv)
z8x${DPh9Z=kQ=uzb($GX7)%6Gyx5H<j!yBC9m@t;@DjnyD1s)3kxE2DM_1^f!xS8+
zfI$~wB#GZi*N5zWH1N_fKREoZsYSg17}O%I57Xv6YTgWb4>KrbF4k#B5Lek6#C2>9
zr8Mq{Qclj_a3gj-mU2-FQc+1)l7m!gO_@$tg1D+HL0nfTrL;mRr4>pktx!sBdQ8sg
z-xB0dV4?OGB0`!Im+c@nifxivC;Unz6g~GCtdq7IJ7ZuL)Sz^OI{Rl03VL35{S(um
zn2ku4ppD1|U~&MabQv*x*b0_4pPmTJm;u3|(+_1Ux|>)wW5!;_ca;6g^D<-UY8pjv
zO~_X#kNQ`XRCm*e=Exc`OVVQN*MB`*)~w2Jj3<YVB|A=2^}pZ?zv&vB9ESZSYsLd(
zX5|FMd2B)ZlC(kXj_-$M@0H!nJ0_o?AZ5?=)A8JOar?S|=Gid58P{TGQ-4EvHv8w!
zvpIB!HMCjB{{i~%v*FoDu##~ZDbZteaKmu74sst}XS5iXW~4JB?lj|Cgu7fKH)h0z
zl2l9Cx(75XbGEdXNZJknZ4-9vVm;^Bb~gSR#i-UzI+je@y*97P>38WJD+T{61;ku|
z`7+W3u;FLrFb<57$MY~>n-@dA^D<svAzVzmc_qf{aa2(c!L*en^DE|O+EV$PuVLzx
zP_QiSUd9k<8o%}Vs;IJ!07X_&8BUEQPmFXGl}*~R#(#sL;*~|9f{0k1lITIGU|OQ>
z4-XYOe(42*3`JSw$vAED1uKh|FSTW4QAOj5e2(R+&IoapD?(hyz)(tKU?}C}3d`8>
z6c?p51_r5AYk^LKgt%HL;<`d9r4>pktx!s7g;J{dF}b4e5`0i_jM`5ak+>qSZGEb~
zO=gPlE72(QSQ=AA$ce6dUq?W4WyK&)$O4l%uxY}iwC0!H${wo@NGw7?k<7}MEtC!8
zI9V``V-GouL}S71kgKnReIYG?trYvqR<+EWG47J7!vmD-5M8??mj}Aeo+M*SVipcS
zz>-qhfi$YJ1%LPc5MjF3dK~6az725=4)&oh=rZZ7>qJ%QrSf5;>24%8(Uqo34TC0V
zO60G=UXNOKG*9|6+fZge(u2@9ShbWbYJJ7Z+uE<Oo<{jLT1dPHyNsELC;vs`??lU#
zdh}H&G41!_a)9Z_(P|~fxQr)X*J#b>{>8e_{fiBs_ZKlv%am_wzo4fKH&H6k&5XlX
z+Qpnsn&V^`jSTACgf%w$mF$rCuw8o?yS14OC!UB`X3|RAOTmm9h;~_+9AQ=rM3-b!
zO*(^6NiRJ`!Ivl?eWhqW&kjwk-oUorGW|OfB{9q?<^+fPsWQykTSPvt&l8#u9f3d>
z>Cgj#2w@#nQdy70h);*CR5Mo-goh6z0Gai%J!d>yu$N30-L?C%L^x`HzxDUp61Cff
z+U<$jLqhGLyY|DgtvixM4RaRr3MY(U<<Mg_Q@%vaYN2NJt#$8ieS7PSeP_acNU$IJ
zk?+Tq?^oWnKl8D@V)AUFa)nU2LNZ-6W8a#v?-T6%?wtMMm*4yHUHh4olXH6$u5!Uu
z{_60JuU`M^hprW~?&Z_IMAK%WY4h!M-{1PZtuyX}3HM3CeUi3x=S<|F7CE%3BBx>M
zY@%Vk(6Ihi^xc=<erd+NH{m`exR0ehXXkQO-LfWD?Gje)g6*W1_gZG$?FsiYg8P}Y
z=TKhj^u9#vHlcMJHaK1U-o+XBk%aq<;69^&E@kH&ISG52U@x28FtzUW?XPYBiG8)S
zbde~dUE+|;h$<Jw*=q1DL||vl@DzlRForLh=UHV*RK9>;-gMdY;Oar!iG$p*>5_?u
z^(W#bMgXosGhsR`WtR4{jD2XbiupRrX#r_T6LTU%;ofMpcK}C;VZNt=wjRMGAv1yp
zn=G9}7sx_jw3n={F<Wj5RH`x^86G9UjF{6K33Lvj%q}ucI8v&I%(Po{d^B<Zt%B^>
z$>kL$yvqddvV?d2hu-zc+=4`IqmbK}$ld#4?%t0Iif8jT%;awx%TDI{Cilg2{U7FT
zo_cEfnb!ihO+v%wxP3Dl9nr>WY`jjtywJ$d*kxSW>Wy_(9qXvd#~N|3LBc!+BbSDG
z%<X^gJ1tp&3Hlo%es#Xv__t99(MJ7uS<JycE_N`aYjAiVDrQMW6k+Tybbh!8X3c8x
zEdM76B2+omHVp7YCyWKa_MN`#mE8YCz21iBuW%n#*4+5=^)DwXR|%D?ZWYc{ZXC1T
zwU^D>J+HXO-SNVf>9dIyJB1ZHe`1%;<2U7I8h0TYgC~-MVM)=_i+Wnm4-STT+Wo+j
zXk2thdto-O6IL$K0MXoiNwgg#u;Txm?&ip7tt&)zzG>qB7`YKtlG`Qi(f;2M<teyI
zH9v>QuV3bpw!)OT%C=^5WRAnnJqwpr#4=L5OitUDskPI-*S4fML~qsKqn}g>o=Dhg
z1zT;(Y_{z-O`gAT;rfMNaulc6>*iRtG{@<4pX{Q5dbS6DxIWqm$o~Kl$*9V|MC=nk
zf+q7P#7Tb=L?BilI2_o0?AYo3`<~jnKXBlwGlx&K2afOlQsB(tj{Sk-d)T{TT_EkT
z6Ycv0XAYe>t3G%JPkzF2UUVLYQns7bJ0QaDPoy^pdxN5b?~lM9M1MaH*itlvsViIO
zBJ-U5cB)KnxD%E{F9crfjbai9!(wTa?<GT=nEU-WYEM%-&>0Pc27)j^G_-aNZ8s#a
zyA+5HUJMNc28R1Zw+x+lCm0g#12CpZTV+HCvuP<snZlPv<@0#mon%8(!jhz_R4!r~
z8I~Nv9GMSGvfY!pqh8D;gITH2%%gd++?bby`msDF+RsPYaS^m1|34NsGN+VaG=G(Q
zqXki?QfWgCeL*j$%xS~>P+ThaM}09L@H1G8h#UAhKjw>il(MPjROivcs49uNl6?d+
zFr_A6H^p36Y%y-s6*G+%4S=&4EsClVDkB;`SlSEhALG6Q^L@r^izHdXeMp`VX2psS
zX2)Cz?J+Y#N6doI8M7jE#cT-O^OTfBL_h9(wE82J8_PoIjTIuyi)ACskJ%9x#GDAx
z8wd+yZiGd#9E8PDl|wPw#bCs`;jNOG=R2l<V<KuUTCVhHj8iz0(c+lrYn`#2D*^Q2
z%Bac<^i?U(YQKGcEw04+>XexF8*|5snY7Lmv%Dd%1SW3aPadIkl~&Fu-5jH`0T*<k
z>~B9}?TzSSsqX6WT0mp*sB5705o%AwY{nIHp>MF;TG?@e(mh{mi{*UnQOa-0C>%-j
zy(^Xz^Q4t;j=8>;57=B`@O-fX2?QZ92U*rWvg&|px!2zhd&2(nA-`lrIOu=zLTJDb
z+r0xle$BowPwH(LJy7r=Bc((bo|6zUNF~v&CV&_DpW%7_Clt_*dp<z{!^X}Fy}=-m
zDjCd+Ay@Rkn&QRC5bW0lhN3WVm!wP=(O-iDp~!{7DF0J>S)^c=?&WBU0e$KJq8mS_
z8?JEYW#ljv&3{DM)O}6G?0A&u4uzS8JZ6BGC)6Vrl9^K3?p{~tQ0Mtx(14f4EEu20
z63z?sj0Mk#mgBv9L?10z&zv}Y^vucKSk=z%Z$ES5w3w@P60IlwJjqu?-zhS6+&jXo
z^PV|yj8#nZoO$MON5`@K`vR-iY`V0LryUpCh9V}F7VG5g?7?7wRy4NIM3|*$m{8s%
znNSu>=f9Qz;QLrG<&t<pQ=+YFaOiTNse}zGf0rs@Fj8zFbbU`+LpA`?*s9&mdRla1
zk(8Fpi0G1sm@FOhe@9;|Pz+nkCb#L1nD=1M`)JX{u;aY$V3ZA1p#MDoU+K#qQ}DM4
zBGkeDc`imQiGD`<$rh>A;{h@OK|RX<Pn7YuL`i)B(gu`wEmyZPQM*pSe|z<q^Xk!L
zab2Q#l~BBDrg+VmJ6W}SdaF>i;dX^kwLfkz|HxH1S^1%>an`>o;Xfew56t)vCHyA@
z|A`s@Dcbv##nm4)CF+g{bw`rknkkTG=6cV6_2i9rU2UEW&UorlHZG@z2>ym?YuwxV
zOU{(H-;^w9j5qK2L4nY`Pbk<&kCZ@G>02HzSexR&2qwLIP*9GC(pj9h1om)~<;!4n
zsCwCi8-@8>ueym@tVp=m3huSP<cf1VKdo#^S@8Q&S!1HCRVZtnKJ{VQ%9IURpJs8D
z4XJF3*}1Cbl!IbUuB;YYP!Mx-<@Ko?ig~zFe=3(^*u2x2%A;65#R?Eh`M8SZiSiXf
z`HJcDAC|996(aL~5$9i*Dy9cZxSCa|Qi_#vmCIA*6szD`_L)+Z6s@A~Ra4AQb*Q0O
zEmvKas-svv)uDl6jTBpk7$mfnt%-_VLdC8`#fc9qPNZ7sek<Po<qEpLhO69u``k>$
zk+I{+-12ztvgyO|*6kk^l*bF|$jI>FiNhpOPWbi-zJ1A(nq)~svc%6K^*Fb4KPS7e
z2(|(scUGU=BKWr8fvN4cnr@%_(MDK$EGz<d?1Oov^di>^zO^WC>e8*!+XunC<FPEx
zzhdGL$)?rfngn0d^zvKB?`-~2&t2cs$%5*5LCY;ieAWK6`mGjxtLdwork}m-Rtoc0
z#B=MWF2$E^MFsLI6W&_ETRXM=C*IYtx4L{Aqujgn#3mqJA~r#5g4n#w@g($<P-E^B
zL;(@{XvVaZrenim(-DV!E{6Dj!272$9hv<IHYXi95<A<d!?6p@Y8c?5WlF+mYynb{
z6uAEELCH)ni;!;t(cM1`#2Nyl&iBBg53`@&3yz=*g{T+dXu9sLL!b%dgQgA(IlKru
z$k;f9@YbL;WDD9Lq_;x^4`(;QY?va?zHD!DidAg6Jxqr350G^Os8FP{A1C2-pg%IQ
zp8bYk4mje6*?+(GxSwG!zq;c22O*1Ni%O(Tv}!z#mmQTN-X+}GKQzckc|zA|x;x_G
z7}L?s8bZRs0AkVwf<<QnA3I}otUfXGngM*4B2Z!%OUXnUNE0ibR0RVdHO%d2an>pu
zh?Xt>B$(l(C52XbX-%h!%BGVtpQKw6DxHB91182{k1W%A$f!eA+23UXr_Cq;;N;;7
zOCis5B+KgYlbiIfB0j$|*|dUw8*$Exe(BH^N&S+Q&12S|$W}Siti%(a&-!s85f?}?
z>hFvTxoXd8w~(v$Sz0c!i5VB3RT(nvR?ze+Om3jJakx&Uw2ano+}8$!4S_~mQD;N&
zP>UZXc#s8IHAExLGwCkANHb?-*CL~_XbEF9Oxy5bNMm5PrRjPTnQvKneI*7ZQN32E
zUW-vmG#wP04q|w2<Xp$_)Fdib3Y9BA&B^vUQ(U%UdAG@YpqE1@L$Tk80yPV~Vs;=9
z9PA1N_#aUIUr<m_0hrMTEY6V~7jjv`y+Ac1y7gu5r`DY~t6sYdpZ?U9V{7@ylb5pL
z7YM$vB$Z7uJ6B$va!}04m6YG3r|wnR6>T4tmxfxD@x4ca6TP;Nkc*5~3=aqc)no(J
z*t_kDnW_#4LpRQ#J>-Hm&jB4EPIN$vmjk$Pip46%k^Ov}lx>Fpz)4f<?1f%c{N|VS
z&=Egu1nUq_iyuU!pNJ>_a+0Kg(8i+@`QOA!p<EeXb!+SeAyh_pGpyCdp4?4>(Gb2c
znE3%#{`nA)Aif=q4)}WqSUtLXd2lIb$>tjQMG5i#^Dt$8Q7TT%hTNw&48bfhx02a5
zuZl8BZVM!vh6@28(i}dINQTl9LI$R^Bo+>%PZtv>>o6k2bA$ufrMU!26P2o1QC@Lx
zX7RW1yaaS!0x;S)%#-#}%thZaN?($7@_4qEo@I}zjgnsYW8Bb8I9$<TMgKgbtfIqz
zhxXiCh4+8Ww)#6fk}{-lD(kL&S+ckah|jIy#o6i=(>*iQ8wd+lNK^%?t6tQ4h6P_h
zWIhqrLV_zM-ZC*8AZkykrO)F*Lt$hk{}zmnfuV38>Lq4LE-Bz@Wl-8zDfzOHcECS}
zf+JL0z`E358;}^Oov*(LVM*ovd-Pa@R(|+MDXB=5v<fAyiITNK$=aEc_2W5Xwy_s5
z|6$?TK4G8q-6*?WHsh_I>W=5Gh}&1NUSlTA(<Jfg0z#|dlQ=x~PsK^a0Q#97o=WR3
znyVz}yLSKqo2x1u>V#ZoSguuPBp#G6&^4-6VX{UWGk2SDMuI3{s16waP2dCiL;bj@
zLmfbJWL4IJ=_xIY3Na#2JF3#i>iNKE-ko3nfuM>+HJFF9)jRLlW~vXw-Po2@l*n%s
z@*CsJHo^jM{;n~oe2U^F;QyA#-OHs(h*#CijTq}1I>VFRHOAzJGJ(=;dQt~xT)K|6
zXqvXDvS7g_3eJMbX7*z9*tUpL?bu~>q{Z+ki|JK6EMllKQ00A`*DciIN=%Uq|2|}&
zqgFDwN5T#KTIiRC84hr6+UI2nbTW@wyzmJ@kF=vuGL<JfA-x!k1j4-+L!y(p%3*P7
z2O-u389k@)o>-*90O(QZ6Xf+(%)hw%^l5pOl$Tx!ixbrWYD|SX#<Yk|64YQ-Wmfz;
z6`h9!dPE}vf2kVpcBDtvtKUsu*bNL|==PWW5y9U#@jk&{aYdqdnNYlJ+BQ?%Hg;&X
z6sD}3gwm$zhMCe;V@GC7T4uc)U@ExO^HF7Ova}{yS_kTk{Rh)ral?JxJqw1sa<5Ri
zH&OYtQ2F$y1$Y=@fr8>h{xTtdSt9?ikbih4|LCWMxG{D(RmS-$Cr?dmn<|}N%}fl(
z-7>N~flAG5t8Cu&O_^wKQoD$$LA&5i%F*=ddh$vFcT$d~cM9LFc)Q|0MN@9CqYXNE
zI&8xs`p#4Do_qV;eTvT2FM0ddO-}}e$-`eMgllYLgCy0fpw=`~zzE8EiqXoWa|H1|
zCI1S6UfBm{ryNhgcc?*!aTm(IPvIZSo^m^F8$Ze`O4;y>mB(B7%1h%frLrjnaey!7
zpqP^@-+bSN*e^@0wl>8|@~=46N-~w*g<{o9nc1H`DM}}KB<5G*+*IFm3Q78>j6{4C
zlJrT?ql1AVez4Eas9i>kc6Ng;muOKaZ~gt@A>B<Kr7Dr4Mikp`D&<LdmJv@poafF%
zQqpeEg+@yyEd@a8(n-tpw?JC%n1{5a^@x!1y%7YDL|WqQQIM8c@X5s7!;_bm9(a9{
z#AGGt8aNZErM_awnu*I9K}q!_e5|7==_JmA-K9~MKclHFi6)Y@jfvU~LhS}=BhpOm
zP7*@f#x6~g^f0e<vf;+^>&vkLXUl6_X3E-bWyNzh#_byyBQN8q`ja3p7dso${bXH$
zpjV~Kh=h^9B{}s_2i8!20`lZZ`A~yEkAvB*1;1w|>6f|%m8C2Sx%H&#0f}06yCmLJ
z35PD4D#}GQWCS4*2k8W%#+!~>KxFCPlHVrk7=)jEM>gKXWO^#i%)@Oqku7Wzs8!&r
zkjul1wtSE{lTu++GM$rHaB3)v_yaCCKBk$n8kHn!MMo`H_!AYYgo;)1)w}O(_|c}B
zinHU#$M#+=Nfs1M+OKYpyZsWytZ%AHG5@CrI!HVA4eA#3EgiWIg31MBVL&14_CG0W
zr`(P7GmntYj<Qs$SbMxLQ(TW*Y1Azk7n!=Xq*1qg4fVMfkFy;)ka<x}`E=TpZ=i=7
zDPRHzMtRyYhj6(%dIUp+)?^lkAZdh-Gd$$r>BvpmJ{0LkIT%2wr%GEh3ChaPjG#=D
z+@c!N?C>B$n2|}(OfTD+?9_N7RpC*ZNM>#vLUG#jpiGdUiTDims&p=iDVweQb>#B@
z4uNRu!alEoh`dfn{VCeFK|+5%*tuim*u!_K@~$>VlpGVFJVN`>(8q7{w`*>nx?}pI
zm+q|o!>>xq1go5h--uyml;&5YRcjN{BU>K5BJ8s?-|^YI%l1p(A|hUq=x;=vCj`J;
zuZVd}kOvlroFXw#ZxMpGuMogVHF^rkkwwW41zG%pK<kh23cjB*TO2j7hHiwfhf^G)
z@2r1!+uI=i5&fX>#})5`_(wG51es4Jm%|g`l!f9gtKQmn6Q+zQzWcxrE8eTPPw_=r
z0chkLPH0Ih513#(=wrK6at`-XcjaWyjJuJ3v9Go{>Gr;IV*JF6yK>g;AwOa89(UiB
zB@3+K4H|uu$pExcCIx>*?aO2UcFGLE&NK#Kr^*2AR2hJs!~kqcxf|KZlV5T8m4=AQ
z?n1Yzmx9FZokiB;%c4V0=}bw7i%Fr~m?jP}gF2EqR>=)E+b;oE8wwZji$~@H9u!Qs
z_@xaLer%xdv;BJhCnl?Ikqgvu0<7jsky|gFS$GG7!j^M&yv841Osx#D;p(JU+(p&(
zNFy3>UwuDHBnG>pJ|(7*I(W{d<jI0>oX|89d^h1SF^6%>n*yPA{cF1iM3=OiQaU$4
zWlQ`CeUGQ3K4OmafGj3ofN@!yj?)%`HI;|)5e_|u&(J#M;T9H;m-{6zr=&D2(S+sD
zAVL~)cg3!m%H5g*aRDLlF3d#zS_J!Bi+EXEj2>Uibg!O<{+zx=j#L(*pFw?EK{cBd
z!bfvbXml(LfGJbs><~+Kdm1vsI7$n>GH*b4AuIDTB7&9AGx8T)q%rlk=$piQa(yJ}
z&$v*YI*+tl>g+MWN~^+q-n2>3UrLL?P726Pv!vb7%d1TRoYBD+i;yHI%%I<xrsLp4
z%m!s?)o2WjX|1CfLd!d52yBu{^mn3SqfoJNreZV5@BLRdB#X-v#Z5wSle&Lu{Lt9$
zv0*G$*iv(7;?U&T8y(j>W_-)18*eql3pT~wo1{faV<`5ap=tCO(NK)B8A2q3vC($A
zlASOb`-}^qr6~cdct!>t{bP)IBLWc@8+$qwY>Qb`*5{^0Qx~w&0JWW7VaYoo&%Det
zZb-B-Y{l=TVXH;KdIKIZdChpEeUCLfLy|7HnZ{-hzCzdwySTR8h5&ch*b!B$Fg0=u
zhex)I?Nvu;x^8-Srg%NZXaCjJ$%2x}=6FGU++ELxBdz}l`Lh0h8f{7Me<L<MO@Dwl
zq|1np(mkm+xo^O6#mMsrk(wD7Y|+W%2A?So<!02W#F(yvS<M7DM>Z7<I52G|x{+SO
zNFxygnts)R($p1D`5w4GgHxjlUSZk_vTDGz6pD2NrmcWYIuo1SHyuk=TClyB(m@R3
z0u@^bbp&wr6zrg2KBiDCdr&(866_RhUDff5nQ+cnN2n^8nu0c|vaP>RSxB2xd5x7M
zOh=SGE*abzH+kr>z+J~!t|O42#zz41i|R3G!EO=CTc-El_9ZqS7B(NgTYhBhn4;gv
zP1A2Qrs+4pv=-JUe6$NN;d@H(Jq1n3r{#DfRbimysKgB@IqK(AasaOr?Zcm>;1mU?
zDL8`ww+K&2Zm*f9KxLf_`J{)TaumE?OPxldRl*Zyn`3jzV|O&Do>&l9&(R}}reo(K
zT)o`SMk?hi(ljTCN}7`thv)|lKW=>=PP7r7Ta~Uvd9C^PTHi6h>w4RD`x(ti_RSn4
z{R!Vp5X<_ff_kEv0!@2Dm|Hqa`aZ=n`KGP(G6imG<Y7F*6el()PCRbg9us4nD5B$>
zSW?oRu&AUwVbO|KnQy|cv_w(aT_{$)l*RnB<eOHc&zIe*%H&D2P8kZ6C&f1{q*GD&
zC+Jof-;}OjQSR!vtB2LIC?sH19kPEKtP{VTV4dN2O_8HAN)o*|zg~x|*c%G;3_(ie
zke;P!^++7j$JL6?XQ><#%`AM5yLSZ*{d_s3;3DRdw0(D@5X@?jWkd=+F1NPCx{&4O
z&yvHkr*l{;J$@S_MD!q33hD&YB1Y7>LJ6J2;Epmq9o{vd_ZEB?6yK-?yFMVNH{`Nx
z3vyXz$p@^Y;oAf7Qg&k8Mb#zq&5ULzHbf%aiSE?XF^sD^@^F(#S%8fgt6rK|XYmm%
z%E`v&MB^5raZ93cx6rtIrg5*}t^<X>Y4T~6ayQ_uDknp9mUk-p`p9b|GgWJD9k{(e
zUa%+b-XkqttZnHWOP9XeX=!C7{v|}xNqkKVG-@4p7!3@uPZ_!+Fi?2bh}8mHrI755
z)yf{V$FgHtDyzjGpdoQ)swmiKsH!Gx$_hpJLo`Afe?>$;8zu_$999McyvP!2uzN;k
zvW94!j!5GK!$JOCraQ{!En<6HgyNPsY$|l$xiC|F0({lps|D(qrEyyyf!nIPx<&B-
zo;DIHvt>r>(nrDw!+@#DGMYd-#>hI)CN8GtBDaoEa~XO|efUjWq^bgAWbEa1v29#%
zQ7JP<HtBG#%oy=UXq=ByunL_oX}e^Pri=4A{4sh_Q+{O|LRLFHr135!yOBUi&$=9a
z+$pc)USb4G-%w$xqGqZ53DjjzfIq37k3Zp0P*0phV90YkB<Y}Fy$jUZSLN1%?bvHd
zd7QA{rD$Rh|5$b^X+xY?F3Ip$Hl>)iCE`LHNTo_jbSfOg)fW-hy+|qTMM|w(3S+{b
zqW1q4s;b|Ub%ru2I7JOfXDxCR)`B8B)`BG^)`CSP)`CT=R>`adekJ@&Wq0AD>h*cB
z7Om;<{Ggb;{pkZI*C|SwzhNZ$qioGuKq)iuLif<Rf1GNW^B60JpVcvY1m41-ysWLV
zP@<^orgC1dfZ%U_f?nGQ%C^-lJdi3q|9gOCzKBY0KrJ5BQqX#eN4R@;@XT)(4Zf%s
z5Xpr*b3ph-)96dAD_Ot&ENOU0It{N9d?^g>;$%h-tZ{so_Im4yMj3XIYb2Rf_ezX%
z3!CDGhY!PYb*z<w4dpM=kIpxeX_4}AI<v>T=r;)5GcMgX%!_=(2G4nhtyr{o7IA1B
z#97iM)ZRd@t*gD2?OvfRURE+#-ehlw9Ul@JOAcpOQj9iP;aCKV|4YhH?|*WIl0<vm
z%$B5cYbm3W0+Q2-wqaOI*u>n=iZ(>ou90~v(JiTL<z4Oh>|9NtCp>t*Gc0*pVGNh3
zdg|6RS%ys4;fGnV3<!BmnRSa6^4C#$@LY86`sl>b@49a7d-v$uNAE;`IP%`eUEk@k
z{j=r%8(Xh$oqAC+yaq96%lj>N%b$ki7*==7Un@`M<zL->HES|@<E85_z0>gSinmu_
zXGkqvpvXo@pPP7Ys&>kkX1KiY*w_KN<Y~+Fsi{l1t>1Tj&-KCjA8&ns>)rBa#*TgD
zE1ldnT@+uv_s+R^!RfgBw1lG>2NxuiO`A~p5XHI?r0p^$;+64oF+|d*woc(<gGUj<
z?im-<US@?qgAILkC5oz39Bg+MI6ezF4EgRTe2>Um)NF`JM=+qsgxg2#p8W%SK~k1c
zO+}Xk1Cq{?f!GIl04KR<DU@`cgk!{lGiP_7J-jyn3M6pqsom{o11C-@PE8DYfF~n=
zlHx5_f;mtff#@*KA4*I-6)%zW>CEAQ#{?;vH~bTVr!)8l;0fCY7Er*=R;`}(*1^O?
zvZyp!*_5nkn{#DVd&W+X`Q^H))j~l7lyy7rtQOXSh2I}{OB<`whFE11E70onAvR<Z
zH7%)4hsO+Xxeh?G=3yH-fJhdA08GEJW1B}}8%<yv?MAw`MNj`|z$b$qK#(~R?*<5x
z-EfU_ByjtLfL3u;tLe(9FO2q18mr0HWva<!Z#zbS$wV*YdO^ou8UQ0xj%5gy79r#m
z?n;v>=@`r(6F^R?09jJGq=P;WD8j&NDhGXtxyn$4t$avD*!1Pwc{gM6f~|4)Rtcjm
z%x*p$VXO4VThw&g<4beV>~NehrHb+$2TZD(ixMBh<T~7qr)-qa@r^8LCr?=J*W4)w
zOM-Rt)5G^&luRuzcWhJ3LR>8haa~E2(h8!KRt}}MJUT!69Dx%Bze7#kM@^+OLQK_#
zlRry8Ba|xHDYK&Zl}3b$?Lvv_r4V1ArIu@DIu<q*(LEt<bUr=TW3!@PsHW@l<VM>F
z`sU|GH$CK7stoD>05J0_sqh8>--8S((YSbogBR|9Yz%2ITgT0y_L-OLf|I#G`Auh7
zm)I6^!TDJ-w9a&fmgrMP^`1ocE>04`89E#$8_Uj-t5Un#K<U`2#TeShDSI(y_HoKy
zjES`v_lFL2m9;?Y7Cj@r7%M9=;)ePP-8U9y#Pu7+3?@?07KC4~Mcc73y9^x_DHn+s
z0>ez!b#U@ZWs-SvZXt2UU!fQ=#(XDYuy({4G)D0;2942!DwifPA`j>mm^yLZ^B_8%
zynX>(kh#qQH5(yYKpJy9l|OZQ%6`lDZu#5gclQ18$a_cb`c91P|G2o~+Dj8JP3@UB
zPi;zLe~VA!I5?#65(9gFs^nJvyDe|Gz@mA_dmVQRPpT~JqcX?v#thba9tIe4^t{TX
zw**d^lirG?w<zhYP32_!Jh1kY<B`?}*14>&S+5g!sj<af`WdWp#4n>y(s6@!YL96w
zX?e-G7`JOu4*tkGOOqjI%t4cBiP?0Vu{~y&Ib#!IDrd}Jpvv|U%sBZ4+o3yN7p8Y=
zQM(Au5QUdb({yIYM;0Zc44_EnXUhnL&fz;mLwnP7oyykV%%gWpVQeqms=kvatlk?h
z*c*56W#gDOQYvHnBYZl2q|%P)F>~*jq1f7qZJ4NQ=B3Fij5Y%p9npjKk(f}!EuxDa
z(xXkCk_n2;&7BW0p(O6$2WaRQII%ZKW34GI?TY}3rnw{pErW($b$R?@X)=YEGUP2+
z5^&H?0SP$dGkrSVQBqPqF7KGGq<mQ3@uA63rO7sGohY}?obT|YmKQkonPz2%(L#xj
zWzD6H65#oyZIY>MmV_lR#xABDEU9-mgooWSZ+Sn5?xvbc!AvSeBd(T=xUOJIY2{K%
zE0$7Psg&CA=&a@Q1bGyE3S7v16X;pXhd6zfDmiG9c}t2&IGYOYLf5L7f^hE<IHeyw
z3t|7g;_|42>?>McR!_!uWQDSgc5A~pnxXR}97wb2oE*96P`A!VTDDlApCHVJOC-Xa
zj-;6*qS-|?zDEaC7<y70GM@dQzawTKQ6*9|d782d3aUO8bzv`)0dWNn7G)R@6Rdl?
zlurdM@Mw;Hqzfge3mvQ-c%)o?cm?ko-|3?hqZya3W~yp3s&3p+?i$%AM@>|sO0z_+
zya7{RoRKG@C>^n7SD#;w=zcCPr=4C=TJzX-r6^jj#EpF3z#X>SFLW>nt;YMAS6_2x
z4)*M?cred+Je2au=FpXzMQW2ZPZ=^qusT|Jb1-`VHs?oekf<6uo{ibaLjDNeLLaNA
z3!<d2VHe(NQ{vh$TE9k1DY3qFN=*Az#QkZdYyC`zcrz~8#<vEYRHNVFU>o1?`@h5e
zt~Ka>Ge;>MzOm|*V)`~IG3}SOkQvPY<I<5!8(%Xn<d$S)AqiE5N3l~+<Qv*asw;Mp
z^S{oj=uRa)Z!PFVmq9PTnX6c0N2z|b6s~Wt64!o}xd4NLT;F~zUx~5(jOrXxa$yZX
z2QN)tc(Nfewpi2&XCcygqd+$^JH;G0@&6GwN6s>%oV{do*56Bp8>6tLh;y*va46`9
zjajl)?uVPE;c$rE?1p!hV5>iJv3F>QY`^0{sc16k2yEylpHL$^bfrG<g!~!!iy{lO
z_zc;yg?0CE&`$=x;p0Wyy){y(D+yM=*%Mp*{D)NcJ^tf+T90>L>h13g`(ar8JlZhW
z4Rew3#u0&SdK7*BvScM!YT$0Qve^BA%5L$CS(1ve$wY_aU^TZXOU#CcD`qmc1|MMt
za{0fZeuTH2!QmlhoEFL|%|NOhn1nsnRHvO_745;^2>J90GB-dxD+`m8lbqJLCC^u~
zSD{?eHtMaR)Aw`^w7yDTAX1+HLkgNG=%*k>!5su*Hf*d8U_khHDdl3Gx#ZFdG&7q4
zGMvurt^XH#%+e2o{N4z;&B6GRqZ9JmCl=9DWT^eT>{3VSQPIhK>EJkiS4dnf+j{Nd
zL$Hk;=pE_`Xa@Q*paBefI?zF%hleg;2Y(nlGXGzEUplZsw5yn>kW{KWFa8}o0m8SI
z9;68&^*D95Xjhx@ceo*XwJ%GC<0ZE^v`D5CxP+=kDgXuQo_2ZtRt1YEvC2klm`0#i
zXZ2pdV8V>-{mvF|ohjbV3}Cu)U)eUkZF2R8u8O2PpLqjogGN{K1_rLwou6=339hQR
zs}c9197&X|5Xx30%C-w-+h@vlqLAF#!kX{=R-$l~PzWo--*V38u9(SPIc80kS4*4x
z-W+~w^ya8gzAcW!!>+Qpt9I6%|4RFKd&+FeTRms7z^*#Hc@-oJN)rXGLP2YyV3Sa=
zDN%4tC^$wI1&)m$gDH5QbIeXP^2J@{A4>%!z07x*d%`_uQ%d=1MeD@#w`yR=zOrGu
z{;icaSKdA*G#?Tw57X)8GSHY+H7GRUt`gi;Q&|cBM!~-^;cplG?f6I)+@MKMIdT*B
zQo&xD^wdoqx>YXJZ;#jQfMxoftsk|nO0@0}T6e@-cBX9RoZYkyuAm$y$sJ{LoXz0`
z14(A-j|=YO=yBO@T(YV*QMF2_T7`bOvGe-QWKr3*zKOnM&FZ-v@c1A<9WCs9b-b(@
zu8aJu;y7LH-;vBK#HQM7v58o+as>`*Np|h$9JU%((@L0nCckA>g1riE-ja5=u@AE@
zK%9D!e1MU4{|(_aY<1ZOPfK6^TQVf2sY@ApmQk_#CL%!Q0I$poxhi3%-BT6|Bey$v
zgOEYSr4SrgK8ZJG*B4%sT%{(4B)Dn^iT{RXEZ_^Tvr5E%;Wbf7xG%gWWW$DCUwBQx
z<VcqhlkhmsiZr6@s_9$*x0NGzPyv;6giS5%Q8D*?df^vifBfr@cl3Pw|M}yoU;X8+
z9sG|`odZn;>^z~gKC|skw5&--5Z}fFY)i20P3A&p<UwyTOh?POX=c%pS#@CxJzQBT
z4hF?sS>%RgoP6E!q9+gu!AXvs9f8Z1aHx~#{{_C?B)h!xA|4@Rq*%`RCNf4Ej26KM
z*5Kc!)$k=e50{w5bz=u--5ZkLV)%Ycc>RLcPfj3R6E2o+5WEfd9JU<Kubf<N@%V+S
z(QBg<qjx<Gv+m6g|4wdoB6q!zyZ%<!-P|p+-fc-=dD2&s@YM^xdPHas7E6<d416^&
zA73pfpIAP*?#A}(+wbN#&3bn}{5$Tthp(x-<)Pn!bS5XCZ2ctMErPox;oc&+w<O%V
z1oy80?B0{Y2Je#k6b{gr!qE1&CD#_rabcQ#fff?B5d8>|`K%xEMVcto=!gycreSdD
zVjQO7LS(oAsqbNm5K+snMZQH`o6)i*FO<wcho#++JoBrx^#6e`VaFf=IHP;{_mIIz
zYM!=n@ZYE4&k&@6{GTJkuwc-A%;`wr&k54^<1x4v0AaWN8{3J{0`(Lx-FVl%2?X3j
z`+rQM8>o}maD5$-YdWnU49J;+>IPUQzL7hG<G$7srFYo1bjktUOq6fNrDqL+%Pj4z
z56?E)#B4AhFb%;oW<qR{>H1(O66FUkFG$$)-=JY&%!v!J2>v)fGtb4mD1^wZX1Nif
zfr|yY`2lshWZQDqm49{JWZBf&yDnJ5%4f80<E*<p;XWw152_evs{Zxn*P3xS9CWXR
zb1!3}!lnl->=KnG8PF%e6;BwCdDrCsl9E59fTj)esmV{$-S;W^R|r@mc1bqIF3}wd
zPEbY9;w}W7Df1o^xzfDP(QoRI8Ll!vHMiQT?n!Pn5lfvj>HKGA>HKF>oSv&onJN0;
zy;(L{MMa;%3WKZZjOc+k1hB^8-t%q4(cUmmP#`S^)v#ONb)ijN6529W1pX@3d4hsd
zcuBNN&v##9trnZ**Dv(;VEG6P@<9rRB5j?+aAro{Zph1JXP7*4q0N#7VzEwo3zHBY
zG0zW!Wp4{aF8B9`kn9Tdhx!Nk%gpDq=z1X>?r)RWNapEO^s*e?s}fsFB15q{^B!8m
zgKq?EKmq}Kx`Zwm`z#kM`E=z;@*!?!FH3B6=u)T)4dC10*$vKd+Ss;E*{d4sK{+cx
zy%~{AM0wczL*dRSd5VZgYjY9HWKXrRM$2yy84F*%ilblRu6Y72#p^6DKS$&OPkRd_
ze+~ImoH|yL)P<-^zKGs+kfS!qhE*S>buQx2h5h}al|pG+W`k&;Nh-PyGtk)2^Y9qj
zNM+rjfW%VFF&uN<#_yrzMS_BIijmNg{}Kf~6c7&5+-Ng*v3wkPqBYpt6_p&HkbMO)
zHvmtx5D7`1gy0iJpf?%o{@*Bel7hdW;D1u^4;1XB0PBg&-RDw_%*aXf5f(RTJDNo5
zuo>1uZ!}O)hX9rjC2`XZ{w+L=|6Js0z+%c`GMWB+7H4Ys1?T=b*Ba+qf5sL5j63o(
zZpY8K!+*oo{+v7dE3?I9zHjGD_4mzY#PB$t+V(eG%g?#f0(bi7+@X)$jj*Aga5oC>
z#u@kWD~`XmxW~@jwUnjI4qNrl?5pAA%v*f*U&NR1zMH!Tyk$<sM|p*xW^;~`l$R?m
zzjETQ9lonynsHQJ$@*)Hb8P)9o5wekBp_bea@W$Dgn|Z+X=o2%qHLp3wlPt*Qz+XR
zw-)~@%Vyf~DTiRrTV--iz658yCg<E9Q!Nr(=Q#Y#9Wm`TnVeHd(eK<L^H%9W{LIBn
z2aq@2GRM*H+-Wm=^rHIcYP=iIUp~iCBsFB>+@7S%opgCV&9*wS;FE^ZImklVne}Oo
zYnRC!=c=cCQ(e>RZdq<Ub;~KVY>hW=6>7HK<6I^)Op_QDfg;r+_E8aaQ)h8zHF|6B
z?ZR6}gq1tv%{zsLT~ZMhoV7r(RDp4iTT7D8!Yg}W3#DlV{PfWO)>WTYUjP<ODyRD>
z@lk&9wblu2x1<Eb1B$|oCGA{(amvA>&}x;WTrBFQXby{FLv>Xumqoo?{qj^Ei{``r
zN~(ZGeQ>#xDrC_juDC2!%%UY64i)07Q$8WTAyvxqV1AyNG?}Uw3K~=8EUzLhuaf0e
zao8FGGm%qgg`%buYf#G1IX(Ak*zK?-y}^059JRfOtIb7R*IG(Rjis2>R*FeYrI^%G
zib)NnnAA>+NzJ5~)JlqFG?KD1+DKU$O{A=h7E+efK*T<6<ZM+*@1~@8)i2FiMNZVK
zVAK6Vmn{p0J3OyA#vQMC#ytu9cEP?qVc##<_had{wfxFiW^#VYA(-2;4p0t2#?Rb<
zX(uKC68M?hhqcz^yj4DjwHC=E=7W?xI>*uP+*$J(N@B9m?_AjY93}B8{m#YAd(9?K
zylmBdjv~KKov7j5#lPfCwra?NzL^VrVypi92x06$%PBbK;Xd$WA1k$dP+~&({{f)6
B$1DH<

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/compiler_interface.cpython-312.pyc b/compilation/__pycache__/compiler_interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8d7ca086a6db62ebcf7f5799b4de9d9a04770f80
GIT binary patch
literal 24254
zcmdUXd2k%pnP1O+V+NSP4FZFMAch11-V{#}1P_rSL9Gb+fREu2-5>^>1KTqo3G6_k
zys`z*vPH(bA+)KK>8#?Ak+Q37Qi+nPRFv#`vz5&zGa^(oYE!jztz0fw<qt@pBCm7)
zzW2I&4h$sPyGd1=#G5|e``-E8-+O=V@i+xsG4r>h-wF%DU(thhS=5`=69z%JEr^0>
zhzVo-*Dz*a&&Dw$`!$W3@N0~j<CZatf%2GQLfkrLW%uToEp8vP#~ou1_H2nc<E}9m
zyEnw#V{Qh+qyE;!y<=YWn=f8FR?F_KvAVc_%+Ky^u|T|jte)N5V-4}fu||Vn6iy1F
z<0V0KzG37oA8TUoTzKc!-!+RKsYS9kBg=$Qta-^i)+&0XHfe)opD@x}d~csHi#~km
zVC8F3zD{a-!=yqDvbTP`4V1j?6zg9S#=67?q}?n>BXTsA<mj0-gqnX&Kt@6a#XcN~
z#UdAD67C(xuSL`6(~<GZA){g%O3W&@GtsmpM`HMBnU18#CvoE+PsXRCu}C_aOoYdi
zGYRCtYv&hYvG{N@F%i9lr^aY1oKDK)lVRyMXCkq1QVu7itCBp<8_!dp`mp*4H@5{z
zpxGQVK8G0|Gf8I2A{r0kivv9r@hqApt7wtT6IRjsl4Z;$+9bPZ$FmvZZ60$tC}+Ls
zlAKcwD&&$M(Ji?pk2<n7fbLPpxkmDe&N&-K+>1K+on7)twftW4@L!&L!i^cRjMbs0
z2C)|3KEJj)z%SNemudmS4;cPgXQ)xB9cH5`$){)>CnDq0+!1FG*XX1ajB4+K6G=H3
z3G$Jb<Y0O-k`9hX62Xg7a3&>*!HcuOD`(D}9biQjb0QL#6vudEd{PRFQCabb(G*Q`
zn7vZ0)3P)Xy*6$x86Uc(rL{^gZwpu?#>iK(f*C|=(A7yPfr=$oQE*yLj!UT&)t(Ao
z&}+I7jHFm5_9lqBrE#o-*?t`iLD2h=noQ2bMD#P7jz(h9IdnOll429VtI_o2XTy;O
zE)7t(Woav~C7QTIrGv?<2@DN-UaUQsPGa;@GZ)pYXwZODZxJ7ivf+#ZL^6IcnqaG(
zw?^+HLBlGak)>dACe2!TF_MyWcomiR2U%0mZ&})eGVz&MIyxPbg3}S1nmZAUCq*fS
zsiYpLLn9Uk>>}#8Dh01b5~wQ~Oie}rghnxiNnX=awoqa*0*gHHl5SEf%G*dwBX}s-
zH3-z6984z%@jQ4D=zlSpkh=OY$Fxc)hyL<007#KbSZI?{L@WbQ@>&Nna!<HtR?IZx
zat)T9?4^XrLW)))t-4>H9!$rl2dAUcThkHwl9b+hZD#MjCob=m24m5SgVVF=$z)>i
z3TV$DA38Q;>b)d~brc$yo>hFsg~l;qu4}jw{RS%YbWn3Z9)#<{N>FfkR&gsRE~*mb
zkLaCZm8JBIoETRLK4oB6B|d!<98B;0Nentr8RVDErYyyzD>TQ^1m-Z#7v6-NjI*zV
z+*lh_TXAJzHBg^t(h^qpWF$2iOeK*Uqyg)Nr~_Y#v{tlb#n)QNsyHu6!LM8>((VBj
zVwm7v_}W*fn|MbR53G~xYkHTcL6g$>WzY&VqNF2wj%W%Uma#TwsW+*p2&7=tOOz%e
zK#T#<J>;2~NsJSJ!D?p&BAJNI>M*o|Y+y<%;ax}R)U-4norsPTx|DQYE-rsXkn1o*
zA)_3?kKBYLMUxi{%JukB+@+&1*FL;vk(7SlPNmfa5)gcKawA@hD3(idWO`Dmk*-DJ
zKzFP}%v4J8QqgD(OOubP;*r5Zqj4z=%$}AM(`9LP+zJS#SLH&w4D`^)Lv0=FDyy?d
zJugMCfM}~Nz=Ti>f{}!%tp}NAp=?bt!W#*yZ6azjEe!-uF=`ULP}bB7L5%eXNJT&B
zZZIxI5-Gh+H0&43dwu~+^a`z1aTe?ev!lX3M`&<0ngSTy=@2UGQYRJMhG4U@Dv?wB
zH4uC@dTBBpOeC+;`Y&5DshR2Nq@2b}u&;<5C0?k)&<G|UoPI3b==db{jH<avGEWM8
zNpDtPVkUkOXiM}pd09%NLP2pxX1pgcfyJB{mrAhf7<Dy?`2do~BbQMpag7UXmijiA
zk57n==M}I)u>`^>T2YA&oZ4U{)un{#RE0P_Yd`Vfs}ib>6eop<L_$Q**N6{56wX9r
zv%y$0BC^iw(6#z2nxz6$Q52F$Bsd+5fOS5@h;lG_aSF_zvk?f97XdpGOr_aikvOA|
z=>*UL+z=d}CWEL$<YF`yO_wrhbp>k36BLtDDzPbz0p&AGqz<#dmZI7sb(m;{GQg#)
zi?>~0*gDvWNHm72=Y*A-MXP{K*ILMW`%7ym&WSc^+Dw#;-UZ+|n{64=F+?PhwGWba
zLX5=F+*1j0hQy{JF)|IQkXOx#8rDAqF_Hk1di^QFD{81dV~{MOkR=&8t@1huJ_<64
zVwmY7oC~^$Ge`|AlFNI>kr75P?^!v)+yLSvw^KsgQ4Uhli6ljYi`ceCNNsA9=9-7A
z(ohWXAu4A_0{(i$AoyAs{Zy=ciWC<ceNazPx>iOPO(;Ttt3<tT3u*9Heu;)R)cbEh
zh@Jaa`Z%3gcV!24MyoCiz09)_P$r_8K}nXeI-{Hts%sx)BATd%vc>N-FDVIRR>aCC
zDFFm1HUs*kl2mnoF6gLR9QL^;byX8NN+k8gE{UXujU>~jh_S>aXbIwRYF$X3o?Z-u
zT%4m#^cY04W_rwo>~jrk=Z4-x5f@S<j9nKVwF%y?Y}dj2HHWhHLu`WX8BfTq_$YTH
zxn~#&1r&QYOo~T1tT@AA2(>fddSS&K4wDL~ezAqaVsad>O`rsdHyn;6&@(3Or0~{!
zF`10Xq`t`xO4^Vp#))f+>m+g0vka(Wjzv+L3<HW;jE<)j6U02llAghE$h0Qpjg)Mr
zg!nvbFyrj9n;t2lI#M<)ly3?j8I2bEid%5i{Pw98t8m(I#_*BJXYmx8+g8}`*6sXv
z_{1tbuk<)Ab$6XB0)E~~t<uj*m#{HZXleh*6STBE^wz%m{NnQ~7Tg0~^M<AKuQ^t1
z^kf%W+Ly-f>|C0Bt$oEoZ=6C?>(c10xfK^ZxrLhAo4XdrRtU~Yjo|byTwCf{eBqAi
zj`#y-*1I|9*s|)SZ_gM|<42wv%i)JU|B3~_sLEHzDz?#+U8~qZPfnqsdBsI{ZmmKp
zOI6f8^5Tw<5sl0^{`5-|X;*15i#j@K=%P(DLGOlM4qJmov>+wTTo|*>8bfxab|`i=
zGMjn|CIu2Ajss5~VQv^^eQ|OY6r9*}LLwSOGT(SCl1lC8YS{^3T7snDSnvWfBQUWP
z#Nq-J&d4Q*3epuxCK*yUMQ|odA_l90h`!2wFV3ccf1*YQxnxa35arQGZ7C>@fulg&
zYG1)br>DXAgEJsWq>2+@px`x#7YwIa{hv`ccrz;JJXkG=?lU!BCB~uzsvnP{c?7*o
zUMiKUF$(E%m95Z-C1+#;18IPSDOCm{QSLKGA_<X&>lD;1%3ZbBy4p&zDwq%{=wft&
z$vmJ;G{s!fn2ybWUV_CW$a17fc{G}(vqhX<m(zJ^ZD9HQK~jZwppnV)5&o?H3<QTr
zCy%5V7-}pV3NcC20+T?w>?kF!MCD|Hs3-Az*fXwBeYn-S&*q6ifq2VAIFb(7lxSJd
zC0bX^+7L@7FV9S?({XfGg-DViMBbTrd{z}W%PJ;4DZ=n1I0@qgYbrE1Rx1-2X#uQX
zTS-~Is<`6EimQx;wU_ZwCS+7j8A&IEgOVn6(nL)pW3l8_YC3OtT!NM@Vpbt{Brm2T
zSeZ;|gDe+`ZN;+L%9taomXw(oDFj!O^5qmqrIB%+IfIH2NdX}cR*5v<7A^@HfmjW{
zW(Bz)cVKYVOEVE!Ooa?g<VX<&RXYQpAtgN=o@-e{V+OQui^!iM9&%kMbapS8zvE&Q
zuB;{aDv-&c#O5_J$^{)0t5q?>=8#gXm#@-qidwCUHZ4%sV>6Mo6y^;LOV?m9Nu{8+
z&h@Wt*ZR3%0n`*RGqlv}U)xIRIcp^eS2SMd`51B5b_6fW8&(VHE<6oHmPEB_bKPs(
zvnJE41c<A#1#j(wV{Jo_Va;%H8Gtd_BLtvqh?;>_kYuZk(3Z6=S~v6GA;8)I)v|U$
zb0<^oNXRa4#jiX-$si@$C^<~YFeS$+IY~){AaH=*Q8JCc6iG5KK@e!L*jKk1EIl7v
z4VC~Ub*q%HI$3U3?KpDl7xkF_R(}TxP0u{+*YH6Ial^d9AY=?v)bxt$4fT26m=UIE
z&?~Nt@eLJa;9W2<FNS&EMBasrNiS<&r>wbHHiN|yGLOiFbHFLbFp;XG;1Be`4fGK8
zLl&i(vssd}nd$+CD@u&8$)`|OangE8&8E^)T(L3+D9Wb^s70}nrje9WJYx;d6xLo+
zCdI?6Qs1$;1RiNhLV#dv73&3m0|oys{!&9ofEvxM*H8Y`yz^mwd%ixDs}J3;-*SDV
zV0OJc^5V$N!^`HbPppDv*G~c)zW4O?v)cPZ%jV94tM2*;n?a?6S?waC2zzrf0l$P^
zD;NyyAZ66SjC$F`-oednP^l?(O7N&(G}W3@XWo$3#3f;hN>^NN;hI6-Y!K4Ad1s3B
zo{DSAS@8moQzVyFTnrkPM8@EzNj8lr0Weh{TbZptbs}U_Oc-Fr491gETD|~FV))pp
z^Fv3^91jnlJNwKj`W+g6>No^w^4KU2eN+@H9~OBObpz#|#gEd(#;{`GDk`O6&}O#@
zt{{~caieQkN|60Ul)s8xKg3^(z(f193Y$+E@}V=i(3yh0{f=eTWZZ1cntLDl1W#?=
zy(Q<~lC^L7STH(vKJeAw_TKX5eZ4tfZ{Bwx=R1&fANbgWPY-=NvhE!#HnYXbNf?0Z
z7pXIJt^O}072>QBqO1u{C$s95vp~3oKr1mv6P!$T?qm`hMF$*DPRR-9j~&h^H=H>x
z=6q^`qsKkf!fGf>;97zUh&i8pa4p#-uj+iNg`3I4oKJOt$?t4Zo#f~Da2>ICy7P$~
zM*%pWn&I>#x6<d;RuA~aI&6|3&Zh>zsGs$OT9oEfDz+C*56t9{l;?iNm^ldpu*OVd
zVQ40lQfY)6GC7ZbmYXtCu>OqFG79b(cw&ntNt2$;Ran?`;j~e$y}?-t_94~50oxJ$
zOR(6Ijtu#sJSUbmYf%YwRn&S85-(fS&z(OWK0i7%a%||#xe<MBGmyzk@JT=tLL&f{
zMCFMI-ZsUrujG_&e^Fdy8wsOM*x}&|wUQ@Do>lBKiD|e;B(coWUm?$A3{~YB`2tpi
zW^ktaQiC&NSaV(LPKPel{4o_I0s(^9+Ph$W&)&p&6B$7`Z_-H+-Vo<uBy0&cr8W|s
zhZxiJon6&PR$AvxMUFH@QdPyJ!4nN{>f~_BRgnpgdOmpOTZDO2#&jMoppg?`M_$r^
zFyt_nz@VC*{W*0L1}EYJijCY6aQG;uxVT#;i@Rcltra{<aZF0r#ONg{mA+>#n)Brm
z%44TuVb}_Ee-gI>kXd1_cm3fedIh%%bAtRS@~(0o^q{WyeqG;!?Sa4L_JLam9=N?X
zZQnkVcX#C69rxXxZ|#0$G6tMKbNUxU-`;X_{HDBOF$P)}?4+4DEqM7%l{>o1e6WwX
zk{AR(npM#&GHJ|hUcXnBo~^$i5Hv}Q_O_6aT*KNpQer$RH}I8N;Am~I)%8bUj96WG
z<kvOBROu>I--?Dg53CEuu+B!K!n`$Oda*WRttKNu(ou7QWfs?=HDlHoF5c^FF=I~a
zj8pqAn?&QhEnyT*^ES~eT4L6?ZQjnLC_B*9n6Zi0j5TU_)AokSuIC*Y%XQ;v;Twju
z#wvs<k{m0pDRL84To4dw1}d(MMQhExGff<TUB$l1doqqG5<e@hj1%x^omO0L+BJCS
zz5Wd&PUhH(OCNDkAJ~;a|1!=A<Af0+gJb09G{B0Vte;R{%KTIT_A)I;#-Rt2uZk=j
znjBeIq?H<PS8BMd5N2^AQVL|VMzvgU&sIvYC8tU3O5HOmW-|9HR+Yl~WRioFdiYj!
z*+YX1?Q3RQgqo%JQ>9`euT61AQ_%#qW?Yh=ARt~Q#0=<g<QaNvOs3>Hx-m~BqY3V8
zCh-H#XHa@Zo0T@IUX@hDux3I}g_)f^<oayOH@ZI~!~K({p@JkSUj=ktHwK0=N@!zb
z!({DXXvaigo^Z0X5oP8&*GFI#(7VW%${~Sa)+adH^7ifT+PA;;8#())_w3stC@<6$
zTrF8wZ^7M?cX#I8op%P8-8&xGTbD-eo?W)@e`FQh4L9SjpI>%`3LADTjy&A3b7ADC
z_B}so-coSaqFA9dRH)y0=lN`4&m)JW#ko+k;uC!Sg%`5+_JtQ7z`%KR@#?FY#mv&N
z?~lATa(DQ?ciV#bLs$2mbIYz>tX?9DcShgp$?rIt+i^7O?pSsYKX7;C-3Q-wAAHA<
za}T}eK3MQ>fN67d>9=6o%-T0|3fW6Tw+TrZwIK{;)TSMa_GQP*&QgAsDG|Lj{77*;
z)~QX#AQ}h((<-im8>v*PN=_DowO&p@V&CVjzlJCe8d!N{tiW}m>J`_UCar}x98fgO
zF~qLT!)6UF&{pKfH=GNO1>iI+u=aU-#tzK3a*a=x0Z^Vrat{sz?nvQI2t;R*v3$I=
zLK<9hU9Sd_{I2mfs#%13`dwk(uxOHv8N+$#8hi-Bw2f*NL>xnAc?ds>n^%FT7;sO-
zfT_}D5vkaBc)Xb-L~Vo0#I9fGuJ?v=Yzbcl&P+@4+~M`nf}9lt2V+TiK~smJxRzp@
zR^EkWkm^Dse{o%Szjeo3$Fi;a7S4QR7knEEjon#a_ru2SJ43f#$ohKOA`Cg@7m!=t
zM+wOr@|P(2G7`l%tX46ky4kp=;R1bYsUSaEbHWqX<V9rA=m=ZmRa`WTI<TBF8D!+|
zQ1V?Q<rL${5l%5S<I7z8XAjLUs5AllYep}8Ela(xZ(R2FW$k@gZ{GuN^HT4f+Sfv$
z2HsHC9?E({)!r4n^*1AnvkT@2U7P;V;134#T}N|WNAq1Lb6qD3we?G4zI`CqKCogE
zx}P$v3dU|{*4_b?+%atUNz<0Q$L}}oSnzyewmUYhAV{J&Yv0I`eG3}Kd`R5x*HG1-
zLpUQ_DPfi!V)}eih(XFbDIwM?@1kTkC3`3#@mJnU39$w~m$b^)cMpA?zEbip@t11G
zq9Lo04ep^j!QFZN*oxU;*>vY*w*N@3XJ}Qx!-~~nX(DG3e#jYwACOA!Lo!*qnGcD6
z$%jP0<U_(Q20?Wg^;ov(4kO${R@59u^i=LJqBli{5j_<hM)b6v!-&3pi93uoSbCYm
z2)`u`BYG-2jOd9wjOecDFrp{!Fv1<5J{qesDx!%^t8NV5dK$K5g+5LCwT*>rS`paE
zgE_6xrybBwc`#?gV}w_Fpjlh126I}~U{3R61amh2TEU#=VlXFyQv*|kjTINjasd5o
zK(J?%;?)pU)3Q%KzLwn|gq%XgWhmCW`;qLSWUs2l+BI6sVwwIwRRm=TgC|c?5=T;@
z-4LqJwN;EDBd?mK)`1l#C#g8Gv5JVoGDS<*i+{)#X}QXtF+qXHdwyk1vKMSmNK+Yh
z6=ipq&>|!ZtTd4o{?#ZOW`(qF*sE&Jt0n^oQ$*k@F43S#0Q2Ueu2W4`$e2ZAQC@&q
z&|K064Jk{Yi{^uPD#@d3PsL1AkKfLsmSg#xb|R{~teuvUHdJe;mD)Kgglr>9jke0U
zA#oH|1G{t$u>j%ZWu<ZS+_S?^of<jz+%WFANfU<7XB9WxRB4J;C)>B;8-4cF=(&;N
z_mG3H6slV>#iWE%L*cxttrB5T@{9Pw`SLd?kDVNIcn^g}_2p@C7v-wGe4EPs9+Jwq
z3&yPGbW55_4c0`S_F@sH{sGGC`uQt0g@(2T^DD0R4-73u@7BDz^X`>54&3d}weNig
zta;hq`o62F;I4b*6k6K8-}qYN_uF1;yCdd%_vL!`We+@kzxm8U%>%phRo9~H=E&XA
z_v||g+YY~CeAT(=%=-It_N@;Zn{Qveb@g`UR_4yJe9zuo&)&D&?>9cR;MR(rxx4E<
z`?f-8w^nT9yLQeDepR!<HK5eX!pn6p`(F;cT>tAB5Jaf<F=N~`j}0C$CfJxU!B)*c
zRYY1iRLoHPEwrql{=>S<5J5LqL9{M4Fz6^y73uU)qj`g9r*Qcjfg66b%E3f+d)#@W
z4r;n?7MN;6r4?5-<sX|zR01UL&)BP(0d8QU!@Og`zfiv*OqgJUw!^$otf#%A5<FHT
zFH^y_`Q}}Twh~BHS}b}le-$g+AquPo0oH;Vw7|7cw-5lw^WvU1N(l2Fu{KRoH@onq
z?j`elO?spD<_+~`w=nO0!SP~i#ydrNU&WOUX)iL47xZm4+6aNveNHLSpV2qo{0gN4
znHr7w7E57n>tprthIt?6bx?1YPi)Zg%AeZ{v9TKD&+SE1#-r6yY)|!4i^3G?EEShF
z+Qrgo5}ny4dbGFl8`WW!tchx?i$w2=Yf7KD;s??CX0uk4_Pg#37S}V0^A*?B<JZ`t
z)ujFYU$3!Mt4aH1O1qVejxV?}wl~{!gJZ2o+thSZ1XdNPoa`#nEV*GZaNU(AcQw1j
z4I12U7#984ZKnmXU7Ou+7+$Dd3@rM&k*{0WE~E@sjRxV%f&u?t*>=tJW#OtJ)G@-X
z1E5*t8Fs2_GxXF^rDoz9w^eZ_ctWYyU&vBC3Bx$|40lsmqvAes?Ic;Ym~&YvD)4$C
zvcmt;1i5u?%UbnVbu$l?0vRBczD%tk>5EL!t8alY{;r7`Ctx*+!X)v!;kyR-(T!91
zTzQd)p_(nany=%AWzka27r$t$=BCvqAoVJ0s3JSP_}kUr9}~Wo76eFhI%CP0tFaax
zzTuVT>Ny^_U%y7546mI3o7H&(yDu}aF`HS+ReQVQ(`}?`ygG%9k`o7!pRVy_m;%8m
zPE>KiqKnN@6l5m<eaxxiLcUm%qUVv-u7$fRo^gb@lf^X+%WDe3AVbJ3AEo3wte9>L
znn);S%B(o35;9UxDxRbqy#&u*EKJLdhZ&LF&P=k`HG`CEGCBpPAIme>Urql2z@qu7
zBsVD$sUHF0FJN=py!Y)ucJov3G~_lvmGy0U*uFd8ej?X?;-;(6wkhAXE!Va!-*zz9
zcJQX-VN++msXy1$e|I#$^+;~(k>#eLLQ{9XX)xC`m~A=$O}(=}AKbef+`D9c(6Q;R
zIp4QG*SCMU<3ORUr_kDwZ{3<}-I{ORlWX0RZ#|l8J(_Pln`=E=Xba}s26JtLpO}no
z6pR|$%1h?^hI4(x`Mz_xzH>{b3T>T*#(}JFV8t(VJ^{-IYV{2;rHZh4Pj$rnuPR~|
z1F;`_fmTs`%2Aup_{ARqp>(whqpDu>W-Qez2v{v<;)V^#?A1yZe-|B7Ra6fh1v99D
z?3@+Xi__KL1H~giaZ6fv5@jsaTthm1Lh-6Os`U#lGi$ZJ{Tlr;yz*RiST|r~P8fi^
zrfL%F4LhMWM`};eE-L>3;{zP$#!)a5_+StND&NIx`5q<zm=fYs45{Te>F%FU@&`y1
zKNaB?WX4{?6q)2KqO@Y=hGlLO{X;7E7L_v-1(E+LJtrs$AYndo)xV-+ax=$GgvC|1
zac=)(;&rvMgyjnA1eQN&ZvTGAYaRLKow??n`Q~G}=40=O+2-f|Y$DhE+)eAl&D((b
z1^?!(f6v3Nefh4_xvtYUpDqNq<b%6%!Cm>_kzDY|%~KECHgbyaRv^FqSZ@2V<+kID
zO6<(F?aa143C!KNE#Grsx#z&ru?O8-?jFncAI|k3UhaOf5bP^-Z_0P?&UNq3cOTAm
zA6`0E=;+RO4CXop^Bwzh9sA$jl|L|&J23KI$2nL4w{Fk(AI$Y1yyJL3xN)Uc*mw{K
zAKaVoIGyV_ee<b8<A$3ahWgd9o`ieVR{*m~DLdw#f*WSGR=!OW!(0WHk_k0oLgjx*
zpJ?K=urQ7AZcs^Sk%nu_gXD>#LqJoX)qHD6arN@QL(>*SwM3lj`tJ5*>-N3Xo2%Qm
zF#NEwWoi4ZD+^B*{0$4I*LEI-xGX}BBy5!~3CFx=EOxInz(etc+0IA^PO2edZu{ph
zxymBHM@=S2IP3v6f`^BSt_?^eiH@QJR!Mv=b&_ckqKdos3_PNdriEL~h+Zi*VHWB~
z0o{nyx-vKT`Ryz#@cYzC7a##0{5|*my;(Om56o>_U-+v&N59;?eu*-1vAoG}cKL?R
zjSkJElOQJ|6HDbkMvH!VR)xp*W>J*VKsb_2ha+mv0qus%w*!?x2FmN1+xxi9tC)Ml
zH2*%D1F^fF$HM6?;1%OToBBbOx62y_ncKr?t47G=D*!k5-`Or<3Q}kLy3}}kzKMYC
zF{j<N*npl)rGv5PWeFSdu-PsJlQR79JUR*iQfy-aw(`l+m1q*7{CsNE{m2Y<e=vqU
zdK4axaIFY3$np&KscE}P)eRQ<7PK!)s0L6FYL9IX@~m2rdWL;#&kqhTYR~s@vjNq5
z#Rr4$mcV9@$Rz}xQ<W*~S*EynG#-)WsniU1sLpLK_8ZHQeJ}1SR5x2`tBmjH3$?Sb
z1381SlW$S-14`y8c^(Nd7Hk@~i;^@=ck<Kp<#kFJ&H57MfnciI<-=jl+BQ=L@)OGc
zf)di%WFi!bhc;@lZNDs(f)H8R`YSC+`A?|~#X?2Ww0jD1`Eqoe!Yg@n21!Bk80B$>
z^(D^2EEV^&e3vobC)V)U!3=yLzDdxiyGmV|pv*RT$^VSL{%cD94JGeTLO7;aAiIxW
zW=)m9MQ_<)71{G2;a!SI(*>137k`f6Dv5+>T!-@PBMS2eAanntY5>Fs_I(f6i-7>c
z>)*CelWp9Tv-cHt?4{d*oPF@aVr+y{sI9;4x#d}s?)!QcETFU<p`0C2TsK31X@B-Z
zmoM*X%emU}u1z`Drn{D9*Fd4IFW<H`*S2-xY@u@`>u&#V=74ALQNIux_(ShKZ@%wn
zuJ35R?|csb-5Vcx>hhlUoTvTH#&<oN9(HbI1)4nVpX@R_8b5a19R8I$gJaWja624~
zj!g*GsA+uVD@(^8dONe;tp#6w-q)S;b-#W*yZPYTm+$wSUiLkWegP~CL_=t7A#kD)
z*uH8p)z&>SSv(ZGQTFxeLZGYo^%L-tFB(vduMy*t4eeX@?$>L15NIwmT`Dy7B7c1Y
zpw-q@LOWXs^c10$e7$4lV$J>Fo@Mu5gsS*9-I-Y~=>mY?K6mR}KCn3#*qje+%LTT*
zGm{N$yB|1<NIKM1Bh)tV-Xd#0(31=F<O5rBfi3yK_FQ25pINej?e_yCJhSz4G6OO)
zKgTk|@!#HuP8NLah4#ILj;)AtX|Gur`E<xA)HFYO#wfUZcqogvG3)Jk(9pGFwA2r*
znrw}AD}s#;LSRGI-?t(dJv9a2Fk+QGHS~;OY`<f_8_IU<%6fNY?Ylm`OduD&^2-!y
z{C{FTe(3Zz(|_D%Ila#&_Y!`riF6?)$ArJt|AaOEviD_QDHH#H9_hkjX6CJI7lJ8n
zruY*Ui(-jeDV8p+t5ceI0b{NMF>STzLB*9Ov4mZsMZ`|QwdTwcl?jG<?YrFex$x|C
z=8~3QQ><WvsM-!h+mMH_;?mk*ES=Vk-_?S;r#4goz+;Kwegh2mWU;Ea5bI+ST{sDf
zcml2)-bL^AQ!wCpwE7Wy_?h*JHO%}zh*|K)a5B}rlNlGC#fYGJ*Jsu(WL$4pc<sz(
z;hlG*4P-<tX+x!161Dm0?5lYXtIboa?S^l`yWoRyzZPcynoP}kVU5wTLp3_qmBuCg
z2u*+_#2D(I;C`GpiKisQGJD_W2(j|NM@ISIA}JHM?FVC#_(d^txESTDsR`xLLR!9B
zRH*JkU+zD&-2Wt(h>4@g{{hM0V&mij;5}};noHWXZD@JhFmKln0b=yT+*yr7mhC|d
za#3g?_zdJUM8|VUizFr{X_cId#5SU8qSb)>&jA&(XZx@k-=xXdh}lGhWjggm*yB#d
z<%P=eAYw%bwR#W<X@f-@P)5+uY2JW%GE=7LF*7cj5mg3DLdK{?mC4@*0IZ2U^uskp
z#X+0B5srB&CDTs1l87i;!w?=+eUS+pYYlYe)2&H>+|KYM4K6t;paXu`)V4JG_nZr-
zC^~H4{nkSZXMW;ss~#H`sEiH!FVrv+&PrrN!f*LMQ$muSoTVg3$(Jbk3rYy%6%Q<n
zv~!d<NolRrDY(%CG9HW^WM<%^>LTt!wOov2T!e@bKazp?i5#SanL}8!2+0&DeC620
z#l$m$gcHKFnN<v79(49CDo3_c9&|=TyeOZsJ559*Id?9gEx=Oj`ky49y@2Ge|3(34
z{^q65Tl*I5Kea#mfqnmno(2d(rwi_eyt^mo?qOoi)9(kKEQ%hFYRW~Jmb|Yo=j-Dl
z%==Bl<swWYhjV8%zj0q~<G%YF4=lS6e&`M4y}_I}nD=hUc@eg@?A=k=yeGf;SZ?#N
zLZEFaaaVlnIGFvGI#_bR>|q*h+`l3~(poVZ>h~eGtF{hr9@&Mu#(Zs8uD0ur^lt5z
z4}4$vN!$Lnci(Rty6Grv-Iw2bGPm`l2JqP1A%GmH%lS3~>fPG);eLAD0Ab>jF+)XM
zomGviYtPy@d^$^cG=byawG4M1Z!!I-#d5scR<^&5u$KN-Zz3thSp=P6^5~NLn1>x3
z8L^F#7Iei`)u-&J$b?6YwVfBzF70bI8)h+I$Q=0;*y+?3A3GL`??VPXqdh|WgdTOD
zy{ZX87iF4Iun*^SU=I-s4oMYH%u0d?va^PQkzis5r{k#kLpTWr2Ue-O@aZr;91>Ji
ze)-mQ92Wo@$OEpZS<hg%FWz8BK9o|}5)L0?L0QrCCKV0>(`ie&Mn%~!@n}Nt5-W6w
z3I+RU4-}p75t)FB$XgR<rx_unHL0KShnlp8v7VHJ(n3wqAOL||LqAdkjn=as#jZ{|
zBmkp>{^ImJbU_AjXIsxBd@DKv?df|T4q3oftcf5~TuE)e5{;;P?{#?mECU)LKJr(w
zp<FxSi<QG^B?Cd&0C<12W9-PfkfJuwJn6uSX9-agXm5PU83Sa(pz{DY4QEz{l76uT
zf*z@cjR>}t;XFV(jA)c5XMb>d=3*>59vph+6pp^($BNO2<J`4bYzotx5RW8qS_$5v
z1!?N@%ye-;)lQ}cf=BtOd~AAD5SYNkR$hw^jn&4Fl;ZuTD)qAlCb58mw0j)mFG(d!
zi*aJM*<vJQlS!>t{3>5ydn%FxGuUO10HiQ~R4n}2PnNg}s{pxn+0@YXDHpAJZPBZz
zpAkPQ6`mNEn(L^f>=j_2Cf>OhMM2|(g1h_9Zfqv_vAg%7zv=d&TZi)g-kiTT@86&E
z@4xRqm<4I|Z^-*YIe+NBe@oWAh08Hp0H7rLw{iXGU!p31OEJGc11P0o=py!oVdwHN
zADy$21P&IFIg2hgiOS!jx+!TQ&en&7qJrtr7&|snP*m{xF~GH!JuC*8eklf+ekleR
zzbo6c7~rEO%Wgdgm>$3Zv?yTqSRMw<UKQhj*<&#fm_4o+3Cuo@TG`n#XAG8h77I)_
zq`0c5$FRp@G%$PQ;lS*+7!S-IDIj>&%Wl7Fthe;vX~}mU&2=7qB;bM1G7VkXmPukI
zjP=O4DP=v?v|D*oaUVuChLeFlN`hxet}1Rq<YK4E&QdHPHcPwXk!#HCn#Ms1O7nO!
zDZ`{m$2o{nY8;dcJ0udoe~6(k0632z{{rrmPPW_h_z2rUt;ZXl9r{vu=(*8zqtA^T
zR|cwP89sOJ*<+_hhDMKvj~zche0*dyjNGS2PGVaqS?!q6R)&dWhGe!#8a)-;9@uJc
zZhhUqY}*KvO;>Ne^JK2`<brkK`JBD|L$@#Qelq8N5@GlbFZR^DYu~cs5Y+g*aX`~A
z0OV6}6gN0l*?_17^?F>tZJ4HzT^Ld$HgTG{Z2K<WaWiDYMI4d?YjlNuyW%VcB|tm7
zbb}?CGie9aM*tJ2ev=A_{jR(BzjQor4&=;%yty@JZhg<ZgDtPJZfS1ZRkG@qho7@8
z+D<x2xSCs)P8XJJ%_xO4hV7C=vZ-6Nt=Q;oWLvatl0&_-OD@UH@3B3cebu*UQ~0_E
zCm^{L_i>^qs${HKa003%uOB1H9XVDsK)Yyo>5r*Zz!L2}juEIfMfz?(Rd^F<yADp5
z#(p4d)*(#8IwQ<b>S(7MYYxVm?UqT&J@~LDPIV(*&IL-lp$Qpu(m|>dpLG-Lz`OQ=
zw>oq7o$uKPh?vyh6c>IgYv;$gF&ZDLsU+`Y5nF%L#&-Jp1SJ#_RdTRb1$kbjuax{I
zHR>8}UJ~fghhwlGs+%lamR6m<;=Y8u(o;Egr8h<5N>4@FN>9~E>mx6|adJmZ32l^#
z&B%XFNtBWok<jU%F>JeH+aL!b7sq+0h#V@`^z1a~4d1jv%Rupf0HxE|*gOzV!lKU9
zNTxjAqOW!?5MW=?E_!sZlUnJF2boc+CiYw^E2(F7^CiH}uf=3COe5Z^G_V3pju>E|
z!|a|(AN<%f=E@+|obAcx8*A7c?WA{KrR3|Be2)@Fx(J2Y%v55${UARd?y&s7k%bm)
zihTJiCWFDSY84E1KNeg+7HWPhI6e@1J`jR`DRg`wbo`az{;|;cfl&Wbq3HwRi4TOX
z4}|@nTEA#89R5h4^wYGl+fetBfMn&2!DH|*iFbCs7F`u^yArH1SPL6Ncf0SV?)LrQ
z>nkQaKeRYjE%<%Z^>u@xHyhmkNT8cXM@>&z4E@=LO^*b+`S=S?o5A^Uz+gD=$X;V;
O&H8&j5%A0A`~LvqrPJ;J

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/counter.cpython-312.pyc b/compilation/__pycache__/counter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3fe05201e0b915177b24346260e0be185639ddd6
GIT binary patch
literal 2076
zcmZuyO=ufO6rR}~{rE?cE%_%--Fj`=sns}fous5qLrX|XpbhRJEd|lCUGI+UwO6~!
z>?(<k4JM?JkV4W+EC>NZb8rZSLVL)uJr|0C4mFz;1ihp;86Em_>YLH7tk4YXoB7^*
z^XAQaZ{GfrNOU6@7P(~>q6q!LK{z78qWL8(wvd4gY@vK>#(4}_vZSJ%mocJvIUa7?
zpCxo28S-^xkVjIB`zR3RBNC#KHj1v|T;xwKo6liCsXMkuuX;tz))pz#gFRxB1JL{x
z7F&oS?nhqw6nx9el+cJFodyY@s6cXnVgiu>#RZB4s7s(|fVu^W1*k`$cz}8Z>IzUo
zpzZ)A1?mY<N}%2V^$C;^sNYClC;5JwHd5D7I|7;2zFgW*pLL2Q)6zWCvCleXhyr6g
za(>D#7uBL;P|H<aO6?Y7k!hu+fHA@~N+#9m71O0^r)cs;k*<}zGSe2U7qt#>tp!bA
zp|+vw`+m6o7?&)T$|@_{Hf3td098F^E<%1>e~2sSWkVCEhH}Fn<b2aM%DU&kHer*x
zewwo>PwhTWxUXya5>=@UhN-KTONQoA!ygsaTbm74W1d;ibPukrT?Xlh>pA+03J2&*
zp*ff#b~+Afg-^V0_}82PvW2|1Y&ob*V7JFQdKAbnq8y&jNj}k?(yAXfC@t|76e)43
zRdBhQ^6&ezUa>S=GD}B1jV)5|$kp=6civt(NoOr{VYamDEjjk=Wy>ngcElCdBEd(&
za74Epo30)BfBKIK$v7P2_5;~O&r+G&8#gy9pVU$l)%Zk{JN?2<`FlPLU-LPTj}V62
zuA}AleSsN_u=X}21Kq`27^8K(9KNqm3Fc7m9QxusLZ3stHslTBh1~(Hugl^4?%+!M
z+%@oNovchF#PHYI4?+JPywI2Hf<)?&bl3)oyiV?+`?1iYYnY%_^qqVK=g9opm|{Dg
zqPYsaTB15s&Wy4^3l5`-=_#hGtR-g@tpHCd#F?44s$!Uh0$0k(Y#8qBM@)|vT|Wld
z)I5*nB5aVeqbpY+!>%tomf_<SA76HP927p-kkDwIzBclbT((4$pyqA@d5-?xMD=9)
z_VUf;Th<NvX*{tzaB%CwHy7^C-#mBY%#BOWG6yRsw)<<D?1RM}{rkCZohO;M9s@qr
zKqQge%?#YhRtHb~_}Sx&KaKyOR!@Aen^qnS?+ol*s*TT8m17Nrk5BGSPHi7=M5O-d
zrVP8PnNxc*8qEIV_JR}F&cx0f!#{UV1Lc(-WfZ!D&G@x)1AbgpZLLUE)$dk$11dw;
zQ2kz2y;Rn$mW0871NpLPdwxn)H5;-Z8kno9ECwRR{|u~)6JDFFhZBA@OK_6pB*jS|
zC%no<3K%a%rT}?}*a5!g@fCgv!VS9jfqaGPuZ(VfeCJ|~jPABq^{GQu@@mDckwf)2
z=c;6SCtD+P5Q-`pt>`r}RX;paCE0D*HB+C+R>{H2*&4~#$0w>}q;kAQChD(^Rmo6A
zu92}$W7D}RQMSQYu7leoIFfBdQFLHWibs-7Ib5|o7r~6N40!AJKv&arOLJXlh26og
z4*G<+uiw>{ic9*Lj*ii4Yw$~Wod=>F5<h;rm6-P!Z*KghyYB*N$Qa{h9O2%lDE&K{
n0{5iEZ+Pel9{Nkl;$#B>0Z*mj28VkWFdEL)hTeFBGQ#+OYQr9S

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/cuda_graph.cpython-312.pyc b/compilation/__pycache__/cuda_graph.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b160874388c72b7e8d026c1e97b99faede5f73e3
GIT binary patch
literal 9053
zcmcgSZEPDycC-8zNr{q3Nwz+$rDRE_B~h_rEB=ga*|IH{k%P0GG(^)iwY!p*UVhx}
z(y{~!RRdok<BVEHd$5B;5g!oXd`JqU=#M5qfd*&`T<!vtw3L!v*gd!B{<wciWWcyX
zfAqas?oyJKOZ%q-arVu}do%Oq&3kX&=$Ey%UIIyW{7?$@5b|p*n8{fIHew7R_lQ6Q
zMkaCm+GHkWi`y84?Xo@Ph&w3kkew-4+(luh>`r;&9ttyZO}vKUdsDu+kJh<lf2uZK
zOJTQMmkPuK6!ysVsfKt%sxjV3%QbQ^6^e%_?3J5R&GF_`OT2}aee$l<?)YvB`{mYD
zTfB|JwQ_r^Bi=#bI(bj3Gv3J%8xePl>_@N`O!2Ttl4lKgb8aK&i4eF+g!+$cM*T;X
z=6Lt-!Ds-C#+NYmQffhH3z=>4o_QwH^c$o(5n*)CnS?ASreqP|nz0*_c3DgC*PviO
zot}q}Gn>%(Spb53CY6=sgeGOu9G}UhHBo`;z1I`6BqTJE<8wk{MoDC6IX;oqa*C9m
z;lwnO79uvi_RN*Dr_W>a8yP{=y>H2K>P#j*EzJOt236EJ12>z=$ee^2fl(a!tf=ye
zl+`kd9-M(*(-~zhp$ISon7|DUkbP2G(l|LYGeaj-&*v0HOlw>g<_f)2(4~G(OkCp>
zahlV_w3<;=s0)tc3R0pV!Q>~6YQDm0`mt9E8}9*dkBB7B2qbR1LPWdh5SZgoE7;;r
z(Uq*L^xX7G)^93QK*6@)CIoQp72F!pYt=a_bw1HA*6s!jtHp^e^R|dfud{eKme!Pc
zy?zQg#0eIQCiEI>7j#!9r)6`R9+1-T;Sz$Nh^i{8kviSOap^=#<T%~SajA@ulM(iF
z-1l<{*=SMxFsdHlxI{Xg(de$L9H%s4trK>GpVb{WmR@5`N@<2h1rM##g54alq-wfd
zN^3tO8&E-hH#(%HvO`%ZJE$cT*v-Kkxz~;yzV@0pBui66*?Da?lODPbk}<SN*oJTz
zLpq|_c_oPSF>8gNiU;Ti<Y{xys-veocwlLKId^B_)<P-JT?}+T5Q>5QtBwQZ-5pEk
zmd~v0y>)Tb(Xs9!k-?=)E0g!T@4oXORBY;5a||e5CfS{3;4n0AmH~l@gA|BP!AAGZ
z9(U1_v5QRHO-shkxgu`8-eS_FEFK_rQm+@psoV_8ZRM1l)4el1CrBzD89iW$tg(#~
z5s$J9=ZLbQ;M$d5$aKdP92lhy%YB&b!z_#$T~RkepjV9y0Tmm8WgX#yBeWu{I>P0a
z_N9v}j#Wo{xt&GEtT|W%8~bnJ2i4V3x$zccRem5hYKTxL;K@L)z^M>iqT7(+X^-H(
z>5O{>k61Hp6KZZc;$FckIso<o>=XPqN!%~gLS74U9@xaKw?ScKMI~_rqzYk`O|VKX
zO|=TEWmphu7Fo+u<-uBthfSmfRuMr3%!3+Y6H}5bY4cI`bXxGTkg`hVx+I8fLems!
zDyIR&^Kd$lrZy|GxwIfEGR3`Wj(3&4E+yEj90!7ncpP^%>ZQ~s0b?$sT$`3Nb8KcB
zC`c+hXH1=y(v+fgE?L-Ns#9@d&@Z8~(-|2s)uWWy0hpx*Sdu1zW?i5sZ@^f#CZ$9c
zj;m<ksnSeZ6wE1`<Lx_lB^F~d3MKaD_}H1Tx5qD!MWVDkOo_vakkkO3n2D!|yeM54
zD;&ml)C|BF;ADa#Z`U^au8H#zc3R1#D4~jGW-FSRB2LLtT9D^iP06Vm_DWGo(3Rbh
zA;v6Ujk4p@xX;yD0HY=@O^m_1w$=+7m@z0QHifE?&V$aH?t(}Mt1NJUP2wDQFn6?@
zxvj7tuyjqHH^x2~WiP=zl{rZT21!vdYOra`Z0KMxFpA2i;mkcBpyOhr$=o>!Mg>7e
zd$eighP;aVq-hp-$y$pMZ-C|;V0lFZ+eC>a*t9suf>~4MDP#Er59B2+LODVOoi)i&
zY}FDx><QaX$xLK4@hCkp)D*v6kx^@46*Rku6IEdXFd93Ro1TUej>2cMIQBdxRAC1U
z0=5Omq6a5YMZhgK4q%jh8>C28b0EA@Dl3aAAdJFqi34n|kV%UyXgU>7rLlP?^P=qJ
zED(lHQzD<pslZhc`d4=S8cL`!CprdIuWZIRbizCsGl^%_*+f=k_fY|6RcS#4w&5`q
zO<}661I`)9zp;BtLJ$Wt)6;M|6;{;@MUqj#M9pN<36P--aK!S6SkU7VA7v-R>mu|K
zWl$y+F;Egb)j@EMU?=!%m8Ba)q6Ra}G7_8;@${Iy7pM<a;UcV`&TA%@P!iy|z`>uJ
z71QinvDh12?9%!3;}hq(*w|ZRG4{j>w(IQJ=#}$bhDcB79#hzLA6i#*p1|?a{hNha
zZ?H}zmobbK4_ens=#1Low=qne@jR0!oYk1OL8;={5|Xz=3H#HOw<TRBT>U~1q(+l~
zv>awhGmQ*Mq7Sky3ASrs;-EjcQbx*?q=jqN5u#ZRShBHNYeLsv14C%LNZw;K^k`^G
zqWiKfnXWgCXU!$=Sn_IUaA`7oEIRTI=w-Qr63#JT_L?UV`@}ijNw+0ZuM9wgGKg6e
zGQDw=B$=DjI4vov#=#bG(_jtMSy9j(V*0wOH@>{*dV{2b9|#V`42Tz1+)52ncA(Z&
za2|RSy3aFmW-1|X^0mR~03|TXq2Fyd3Paer6+{Ho&la~HwT}e;qf>XNqCCBA5enj|
zC^2YYS*07vfTKyhb8ca`<pEWcPSk7~L%bhBwnWzJ$nNm6<92Pit#{e6=Gj$l--qAb
z<*va}*QsLHDJ*q9?dqf7$Kjq*_;4|N_|x;n@ENSy1I}H2s1#s}0rtZ;N_$6&dq*Ax
zMhc#hLSW>%hqU#VT2B>QPp!6&!Z3lSzV?D|?_>6rRd%@G?<j|d4I(b`J!X<wc6{aO
zqmGbn2ldQb5)E@jiKeGv1%P`*tI9q}Zte%InDUHy{Zg7W>r{c{{@%WqiDpSToDt^7
za4Fas=f~u)93NHY@E!xQw%|Q&xi$;KR99{_3#LXuMQ9y-Q{^6IBM#j?n^4iuq5G`6
zD_)OYXAvG#l#CLwDaT-e$_dC+T#dQ)zD<tOLi-N8Z@E!CqF#V(i9GW)t{l8~;_itD
z-D|$y$HCV72R}IR{)va(tHEf&AAMZcUas49KX~7{PMAGi<*weJ4*q2DLFc-isU6<1
z+XLQpVz2QUd*%Z1%_(W#+8P)EVY+STK;MHSnuPE6bea5&fvYiHH+*n;Dk4^7+LcSA
zSzl;*X-!6hjQvqtERm;y;GM-=iv>?RozfNwLM=z9@(TdAND!l0QejEW84df=lxKF*
zcS%c9%zlKJy6G&rW4mML?GoW_?=}$fM?inkwrJ1WG*l8a<?W{Y{Dtjy&_Q_nqJ7c!
zF=N)Eegk=|_P1It168Kde~v_K7*%ka_iU%`l~gGW_A||k3XDw@+-cn@X<|xMP)SFe
zh6K^uBZ`skgqT83)PvwvST}SINN8YGw<(w|>zY&<k(-mWSx`Dv%!OB9+NkeF%ECO<
ztB@^`$G)bO>9suv)_lW{yAG9O-}{$|FD6Q{tHs#Wwb;~JJ70`VeU|)`|NPMX%WGZ3
zpB!54I#TR7Qix4GYUiKZnQoCO_&c8ldkg;F$AQiVuGK(a!PEEK4JYXk7`mXpZ9d)U
z-6E*Co2a!n{tPtDX6Z2Z6n4+PllFjpvhO4xi_W}Lv+Quv1GKj#w5w_$?}S5PS>S3H
zw3tex4Uddv39GGn2JD^fL*~z!%LMJ<P9c%&jIvup37{$OsLIyP{qyuP{cUY{4PJER
zT{~I#6=vxL;DstfZTjqF<CQ}iUaV<KT6W#6!9Wbq+JPg<_G%v!g85iy*Q|qcSUI~4
z(K^jqa~~P74RAi)yln<gC-?-5ZY^x~%Dc5L6He|mq3YMv4=QtePu`vEtG1YsInG_%
z?I8zQ^enpbp1g~*c(aNAeiNtqO`?yoEtwP-Ycw?ZG?{gW$fEaKIRA>-xB68M=e@~S
zt7Q|?4w;Z(7aTW<xk^(P0nfe*&ndWe#3RWOlXms{r_I_Cvjnr>p+|M(bVs$XhNgk0
zBu0U@C6gyr-0$G^$!!Fnn6KG+J|DYHo*V+3_T8s)(f2L8a_Z$Vl?Ld0=H>dl&s@o(
zPr$&twJ$Wxy`{V}g+H+<fCO4{4Qq69mR-@#nIqp|l4vTnCBd^$3qdIxXPt(;4|EPm
zUfk9Zipn4Vzn(2WoGm|S0MMh`6V<IP7l{CC-KiZsJ8#}ky|@bMd(6(dE&0ZF+EqIb
z=fbtqlS0Kp+ZNq(q?;T7Z)OfG_B$Xs47vU9H|+0_Ip(GM|1|2UZKs$KA38;-I2PD5
zW`v(jZ1NuA*1fMs9q3Ub3lPeT@(|X7$O^xG!Wg{Wa6opC%o7FOe<NUtT95ikmAk`n
zIgy$Y60a}xzhuBUcw>-dj*A|bGXSZt17LLi7>KAye2IL1mQq`2rs3)+dbv?CmDT0}
z8E@jyX-oRw%}aR`kp53o`fEU-W`2nj-khX!0vE}FH?H5HU%4<gj!~3Np@1#%F^EV&
zOh%9}5Q8C^En$HuJ9Z-rOonj4f@^@Cfk;@SPk|Fc=uYX)mT!+YNh_X4FNX@4bmIbQ
zT;+~p5t%@v{PaF&#F$;i<BIO2H%#4uF9ZsD5Xv}aXa{wd@r0s#;4LV@W#QU@ZvaXM
zW_vKhJ)t3Ly%ts>D&`B0f=-Eo`d9H`hF*`}P`#9Lvk-xVfVh)Z8S!mA1IB9u`bm0o
zItMY0ZO>1lpr9hx;TnKp;7Bd?GIa+$JgB<s8ayJwHvpX8{G3FYrc5H96R*4TI&;HV
zi1F|NPAGqkj;seEAP0WtmZudJ8IQMLD_PfILtb~h1{+OtfU5p0cn{!lwhpeg4lM`D
zZTm}Y$BJ#o3UCt+zfuarHTQf0F1apJ+x=mx)O)ztd-#$6a5>QPFjR^hEk=$$3LIUp
zC!uiV7PYq!Jn*o$7(7t$A9(6(dvLJSJz9i6-{`Yb6Xo!M=XTp^rf&Ic$=_e}_ZJ3^
z7yT#T3f<6Dsvj!W4;5ZHRjfa~?0o90zjN}|$)c~T90-;IJ;gvzDS#L2=U&p#a?gL)
zUk;6wL%T|$o?@t{6xv@5?JtLR8^Ck7qoMJ+pVS^$^ACURB7OZEc3WrNzxD2a(C~5c
z(}uqv`-j+Pv9F@zE6hFbUGI<l4}^6)scl~;&<mE@b8vZV%^!ZetK$Rj``*&7f#R-#
z)m_o$@n;RKf7$lHSq`?8f{|h{QVJe?6g&tqgr?R~sIM66``GzV{w%h-Z+tCukxs{`
zEJV+J;a}Z%Wi9m9(_qWJlXp)Rg3-sJo(IBDGe60E6&iUK>RIa@DfM0`_Fh=+y|@<o
zgJ(^x_u_ZsrKTQuE_xt+BK%$EZ!(3Zp0AqDJ?+?kfAWKO-+%Yv*+R#$PtFxPj;)+4
zx3ra728%6&rIr(qT28>6x_V3D3&rq-pEs|D-@Na7(L|chGcUrVv19!>X=h7qqs6w-
z&qr3<E-sJVj+OWH!ROL5e`m=*^2k5(X}IV=_LYBR-Ah8P%WpjO1xmi~BVX8LXZLrq
zlLdBmBRfNV4|_`cPZsx|d=xynP8_v$>oz9XU+#aU)PJhjf2y$mG+eGnnU-?P{z7yA
zy3^J$xM7EG1?cW4HFb9aw*n>4o}y>Znuje1LU;1F@&!-ZZ@<YguwgF-aAAd}bHAgD
zTWS06ZzdTSS;d>(Kfc--3p@TP*a-PQH;*2P4cmVnI2!A9eo^BA_!r^M*z1m8GL4Xb
z+3SoA)qL6ShWamuov~wXYAGUh+g`zRH^&JX9-b!cFo1%7x}n^95JI<1x2vFyMzM&#
zg+i6bG(uYqj?#~Hm<_;B6(GAwzP2?xJ?lrw$kDHT?aoQ&X=CfU69M34GrR7lpog^V
zU9X{_m$VN&6pC%b8?^iSaktZZU)><^S#PvCJMMcn2z<WrIGy`8>Jp68hz!tSBfYv0
zwI?q_BwGaKR576VUKmYG@pOf{xAMLMFQ!zd>Mm_Q3qe2n@T%A5;Nb}F$yzj(0Zm19
zE7i|682F81{7^XvE7Nz;@}{^Wm}~l`uTYixa&syJlrsv|`$iZUFffd4up1e#k5HoU
zz*Tuw6QY86UE<+?12U-;%#2R}1r=U#(>yP8V8Ow7BTZENdWa%#SIBtTr1q>breTT{
zjI-)>6vKSyR}ItAOe=GmB&$(s_&EyGP=j7e8&&c9Injzo&{x$fNUz4?zF`Kb2vMon
zDk-|>IK2A6qxtK~Jm8@XSAPf@grOK_!$X+h6SDUSVV{uZC#3V&#Q$Gp*AsI12^s$t
zIq-x`{)&t}A>B_%{}b}+6EgT8HKCP1T&>x&<N~3x)s~p%BGdfB=4J-h31k~~VryBa
d#n7f^I}?Ur7Za{D1N6c#+nDxm2<Ftw_#dk^fhYg~

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/decorators.cpython-312.pyc b/compilation/__pycache__/decorators.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3dbe72cb31f001b977dd7970016bebddcd2fb031
GIT binary patch
literal 24185
zcmc(HdvFwYerNYQdo&}B(2U*^8uS1pB=L|yfO$(`Fd%GR_9}6PVY-Dz%tPBf;-QSz
zWXpAye6F*o$_8<9&XDuP@_Ca`x%@%Zy|~?6)~UNorjhW>_R1Bu;;l-m?hhGoNW7`5
z`+R@hJu`?g*ty(YgMR&+-}~|XeShC)|F_c85)Mz)_Rk}`PjTE|(GT+}Ga?WF+RAa)
zIFS?iC^w|P`5~VDwhUR=+d5=rZ`+U!Z%fo3a|}6nDr=28W5SRSa}BxJZ(Fn^<{omh
zI3M*4d04&DSlLh+OS4D4vGSpE7I#Ef#43g=jIzF%f5^|`&S+(<YN(3Eg=lrGW~he6
zUD4WD-B4YueyBdyFw_uh9BO3gCDE0!rlBSlcSi%URYR*-+!Jk%wG6eecxkjX);83J
zc$w&pu8yr4TElY|PHK|Ye$4ADG1M-W4|O0-5LZa+q_WZ1%%#e|YZ3in#m5$-MwjT5
zx<tR!HEa_r-?R;NBffsvB32>3L2`+_Sp6O^)<_Pi{v1y^RA1yLoCy6$?Lumoo{AP~
z-*kLzbTzaQwd<r!QjgRtZI*he9@TnI3-xc>o@k-rTer}-tcB-|;oJ7$5LYhiA-{r6
zg*h%xT#NOie}VU`Y@PLW`#&AgH`)!Ui>-Evxav*k&_?W44|cT~yShbe7hCY|b8#49
z2OHPdkLY=;^L1nC8ZHrA-?R^HmAFya0EvQ^*e2CuJgW=VYx~!fT=OQEgNPR{^X=>Y
zhT0iy=QW`}6pe<?Mx}O(<~(_MOgbHsH6d|9lB0=`hywPpP%=D%h!bf_BoRln@lZS(
ziAUn+4#kzEJRVLW`J^0*E74FgA)|mVoQRD@@CzBiaAG{3lqk9BWI_&)^s_wa)ktz=
zF!ADeNEVe><<Qs|ir6%-p37<;O^A|KaylA~^(W%Pk#k!0IVl+okIS+YPX;d_9c}9w
zO7RTz>Bc~l!D!;#IW`2}AsS0e5+k9cbW(~d30Xm@YFSbe(F;;AadtF#_HyvM<DqCg
z6qAtURmR805^_=rikFd;_!~kLNMETWLvk`0OQ8LPjKv7z6&}HmXzG&Y4@S<#6S8C`
zumNk9;7QcApT(Mpnl&6%G>0rD$K`m~z&~t*?FfO7xrb{JT;r0tycCx-unu96kEskE
zo=b5jxOPh@h|H1zp1lE43MXXRjzBUI&_@z5X7c1f^Cel$L_CljkpkgpNKv{2Cr2Vm
z0RP7oX?Q#uxHuxk1EIiJh;~3P6Br38tYYYS&36XQjwb^brGS`-uR$b)CXxwO*I2WB
z&w(>onltzvN(LhF5lN0D6_#7rbvLWahM0&)FB`K|0(xuM5msY3AzuWH1royr&0~tJ
za(<OCNx)z<B8eDOcL~cqq*pQe#6*oQmMtJni>=v6Br4|Cqv&FH78JY~iADoTlESlC
za2;&KC%b0bKurb`aVdb!i~*vs&}U-_aXc#NE6-MGBy@o?7^p5AUw)Ft3_H!<0yG9T
z)p#OFqtF3G3}DeP(u7jjm$BT0C~(|D$)v1R9C~r^*zx_r{$od9K6GS%@bLcce8kH&
z07->FHt^NH^~u=S`mxAZ7Y++fZ`Y;qzHM92_etxck+bW^E~Ah5dOFGL_4%`Nzdko$
zrF-nM<~PpK6UR$#Li_F1Q5AwK+@k<z_e}LKtZ2D$a>3S-b(dXv=^=8s;^(RrInO^=
zbfzZuvi0d7k;3N#kwO?!MiS%L@8zpTNTA!;O?}A@(2`;Dv}AGvdX^gz=qn_zL{w`C
z>W!Hw<H@PEpvX?D;YWa}3Y^C`)3Z?1F}Hu-y(w+mBnOc35wE$VIHB@jWLR!PN*I6a
zG0_L1i-$G@*SO0lKll+R(?S%Eq_QXo$+Xe~R2$R>hOi`Xb&af7t(;-SNH~c74T_PN
z^6XyaHE2L4wARkc>+mY*ob|$j!&In)f&c=oA{LU*2gl=QL*et1_-%XXLK8)MIZhqq
zddZF3M6ge+R>8O}Y}_(ymdXYKY!maN{|<F%EL4fPP*1=i3h4OV+>Ctl%V8tmY>1kr
zo8bzV?dW1F({9a=Mc?wmt)|A=B%+AC#lK~F%L)pgPvV#Uh?abO*fzyaS*I++R?+&V
zXVRA9exoi)wb_GvhgxHgN%tz2m$>iq7A}Rd9~=Fiz%QH{Td3Jp{3Z&CqKTy#k|~a>
zV-gSpL)jtYCejh|DJ67H3T)g?_fbHM$Wk~7ybtUc%HLwZX{Zd841gSu;hs{q>y^)(
zIin*ScA)nZ1$36BBi*ByiT;SLjmNtY0kUo1&T{E`6{TSsJ>4s76)8I08Mw3^*9M(@
zou=pvT;3iyHb(SMDEcdfIj^^G4|I3yhyf!ioYy9OUPY$!kDANc<tKCJuQy+6-X7S{
z8EC#t@5%Q6Pt!fKd}L>c#=ss%7%3T&FXQsT%^wSmA=%i*0MTP00ut;BHCkX30M-E^
zho#0XsUv8!4iPW_6r$TAVKkpB7Y@Y<aZ3OdNk-2KsD-Fb5=1~Cf>xx<HWY|Plq5B3
zBr3-3jC-K?9L@~lo<7qVh=6PXwGbbcK&;|Al@l>G>?A1cKq!vemfdu0_{Nye7yxx9
zphG{%rI3QU20=EQh(;3^iKqeag~p@FfJ_8{0oz^X)nv|`EvViP+5kwMDFnhZm|YH-
z&lHDK%z}uT;fRbS$SobC7_fA?+Ju_*9*kwyLHipFs0bxq*k`VXeBW3pa4Y&k>ZCiC
znEj;vF{%1MQqRjZzz8kuc9Eg7G6Um8zGFS(NkB-aPUV754TY0n1At(tVtxs9DAW7s
z)H}g;i_(}B7l}?|1G*53j)P#sfR|w*wlF$)m|$l@S75CHmT~DEz~h3{Zjg%!0Fg45
zh>L9dO(@RI&j28^Cv%I6&6ki@!3c8T$~YC!p3C!#@6k8dgxuha&3OKx5_A+VMiguS
zmWS<`9Kuf=mjF&tLN?Cc;IWhYw-dM{JvU_>w%lBj0fRCNMK6XfD|F7sz|0uOfF00)
z$hMpfl7KuK8J1}8P5c4sT8efCo*WW3$DoqKp)s&*dV}UBvbN|p8`qC^;2e0`5o63}
za)g<I>4wMS4AlWvfaj8-^T2GOz?nR+ixYZw6xSOa-AEjbV!9&hLuVJM_}N4vDq$6L
zSc?EW!T=jUGT1bR*MKVxLX^QIn-$?TOhe!5W$Yam^>Sj|<jjiIB{qvOfniBbh9Yre
z*65n9IzrYsW)fOw8E2lR+r9;+r+XZ;T!!iC0>F+MECTj`6??L$Gu?sZoGYe=6Md0U
z?9s@13C*w}N^zjwFn-cLu&xr|Pq7=c)ykL@j)bC-2>?bsuwng1eW__j*n)<Epb2Ee
z@mLJ(Cv6jJR2dIr<O(BjE=1^N0^bIRGFCK?`WdSvlUVNw@=!p64}TB$fxi3!h_*rj
z0N8$mLRH*(0!_4hY>;5z=aWPvvS-v`#`5nJH%jd<d(7IC{Iq@2lCoU+%?O7#KgvYM
zPZl06eeyT`GQ~>+-0LrL+^=GUlU5Lswoy~STu>!hZvGgpFk|`mvvWlz08J7n#GZUi
z&l$E|0I~m0zi3TaQq~<P^Ufg~mn0^UJ)^YP%N`K~Y_i@=Oj$;WJzMse^E1~eFM3H5
zC(52wZVyE3d9XOLH@V8p6YVMPw>i=AJ65xW@AD}ORtqI2tto5qmA=4ZE)@l>I8#=%
zB2ZhuW6QUM8Mc@`rMQ%3+Bxm`*dW+Jj=Kgmr$JpzbmdQuPUjlPlF1K3CRJ<DAl)*7
z+QimFCLvRVltRPHYSEEsQ?}!8V)G!5)6?YFFp0m+Q)G<H=#nZ=bae+_25Q6U8j}+j
zB4Un)%W;_j=@NuB;Rxve?g`gklSZ6qWe4{;?YCEGPRLZ42*X7}&;4}2XwFESPJB{x
zDG)h?2*t}in7>v62@r@+kQj<)k0hm-qLt){IL*#TE6t&k{xU(g=FlaMnq8F6j-S(P
zL`Z73^U`HSvqq&j#F|7P=>1j&i}E7v0z(g)6{FE=O<GcyLKg7b8h>8nFX((Aas4`D
zN=KY7^T3rWS9BSJ9}=}-PO=glk)n{ePV^M*x_d`75e`L_UEReh{T|v@b^zV{9fT1M
zuDp6inLV`NUA<UQpKdrjUvVVuIkH$*nJH^h%bIRjKXl)8&zE&hS+lLZX<=2?-I{iH
zX4iJ4J#E>V`uEGOmt|@?)tb&vYr3!6X84(nS)c#fj;lKs{k7MQTs>mEZuF}DHH+;3
zT&wEuUUJ!6D;{umf5noA>)o98cg=<F`Zp|jx!U!QD!5YLyGN#vWLF%{mirdV{prf?
zOl6N+*)w0cdA@whBd4vj?2(7_c+=js^X~S!SMIvI7b_aF<u7J^RWohr>VYLIzv2M@
z&}#LSEpgV;vWF#H#k#4zS#SBQmBxG*^Q{VGtD0``vr4-8z#Zj|l=dHaXth*VEOC|<
z6-#zhcvQlbug;>I6&>l$U3Xl_E-yj0tHk8r2{UOWxFjG-55>chW+NV<-L78^Bq3oN
z%D8*^Agw%M_W)SO<zfekGWQ_(3IdvamNt9I2hB?yUO%jOOs}Ouo)g?x-uT>GJKOSJ
za>3i07FyHZ)}MM?ZuHN4*QSNF_uWltTN4}F6BiP7X~o~eICh<62qG8dCi(pJGn$hQ
zpp@~LD3h*}Q4)tNdw}waTtuVpWySE*Y{^7;karhvksI|qUHku}#iZA457%by+A`BP
zuGj@;j`AD#TbXaqjF~eg3FII{!tHL&MuJj?xkey8)f~!5Xw&8`nqz!Sgfc^O2ZM%+
zCK%KlQalWjL-Pc4x(uXRp{~({AXE~fgr8;MM3C`!(B??-gytHNE{TzIl9Ft<YL?-+
zd<5gs+<HGjV9XJPpa57!M=4%tKS0*7oFH(UOp>pA_*1@z;0pIMoA>jI+H2icyXPyK
zuN=<Wyct`SYO9(_W~$ey)oU`<-D-9BeD#I}+s1sReC>^^Z)B>w)atJJ>h%k@4Y{n}
zRAx85|HAbbGWDC)`pxszTQb!<)#{z|)w>sLd$R7Tj60yZ1M}|Yw5?eOVuMn`XgH2&
zAqK=mO)((0M7bD0X^B}Ttvm;M2XsI&iV3&$2ySV6G6$~3sG^j;81NCfG3m&IQ86G&
zIZTk5bmCAHp@~Lw^bSo#e@3g#SpJ=Inl0go*hfhazwCjq&dI1EoLGqNtf?FoF)84;
zrGO5yeIq&uYe~<fD<z~{=lg)J+<A&fETDESLo7Hb`%o6*@Cv3C8&8sU44_D$r8PaB
z79`>x$>8qe$%&UvB*uwWrz%V*5*`V~&w&L1@?<1D7`YIH6*|wusO;{*ap=KFAxC@>
zv3d+*yW7h(XE+odL8|;K7?S*}2sCem^qP<`E36}2)e7!wC#sOBMRVv8c?*>#f&MV*
z`6>#!qoI<b(vy@!VYEX9&<cc}=uV#n+LV&=9%{mKT$ea7Dxkdt2aR<b#8scr+y(m0
zf+3btlje$GNO~1HMD5wwcvgTi0uh7W!=$rN#$%dSmt^D;6e8+zij7A<%r%5PBEy%B
z$wS<3EU!F<(tn9R<pTs)xWBX=x$m#Kax`1fn5pPmsOXw<EUxfhtG`-5d;0y?ufMLY
zScepE)w^#@zcG7Z-n)9rmKA&%VYMo(&ImoK(327RRH5&-Z9&+XUD^76{Ca$<bVj@@
z)GxU>U-uU!T<zA|rSmlh(zeQ<R;~S^Z|?O>*KW0I_k7ph`SyMDRsC0vWt}y%$L>1U
zEtb_~J+I+f_3GE^l9dxW^|N1iCFL%#62Pl23V+M-mJ^&6rldbO`-RxTNWH+x7E-Pj
z&&}5!<|j}i#RZM?K=ERi;@i$-?kWV=k;5p3%3RSRT1DG?7SW!}abKc^nTt4*xeE>g
zd+U@F1^~`C%ZSrL-?{Naly5<f@TTy#W6Ckii>^0?NqY)BNU)%HTrMROuapoJEYlbN
zqowrJ)`39{M_eAodT5R@SsIR9Vn1XBDLJx&#!9<FeAmMU{Q80A8kgd)l;n9`^Ada>
zp)sAqdXqMh2hUlA>%~6WQ+&!Q@`U|F%QH%WZxk(5%EC=MQ`|5g0iOJT{}()PDvuS+
z!PT@w<i@#6ydsbh(X=DQo7fj?U7T~y?H-ypo@9<gE_OE*<QBOXhAkJUe;6?(b3}x>
zY97j|Lr(6V07MqK5zH~8G;YC^-9u2E<M2_Z&Kzm}E%TSTWP|zp5<f~>%w>;goj@yL
zOE5=55uY8*5m9-Lb+mO^Rs77Wlz8YW+wFsS5Mp=8fp(uvgJj59#<j!ATPYx@lfwu!
z8)16c&7y<H2KQ^e6DN=L9}b>8cD(<fsj-%6QRNmY<N{elMh`?6iHRWOKkPmNx|N~J
z!sQSjkLmP|5>zCxaDpLQ6J<K3L{>3VlVH1`*+?mrAF<{*4^`1QMINAnWri@&sLm*R
znA}7~R$n2MK*xw!H(jxqLdwM2;!I+mQ!~4VMINVk5&Rw400-x(PP<nw)@_`x>zO(X
zcEnp{@MXe$Svz<#cg<}7`-9g9Rd+|Wb^X+VnVqT!JeqGtx%R!Q-&5Uf*`_w6ZdE-E
zKNZSn{HhR`t-31&?$-maF9<c++U6T#y0+tP?Z8Ko+wS@9fvGa6hf8ZRo(|R1k@2io
zJ?j_Cn=<9CYI*AiiOlLl>gq#j?@M5?N)Pi7I9qA+=f387AF(12?D$12W#`<$9}a#r
zIPZPo0a&$WH0W<mdsi*FIalcd?ujzaQ=W0Jyz5?>^;CQ=)MtcscZGFx-&KVT_k?xX
zn#L*HJEe=lnvAdkNw@s>gf04|kVDT{Q-Tc=-aPyON1D)29`zKv3W_82V#vlkQj=C9
zv5IjyDefGf;(wR_eFu<>g^&vqmeGioJ?3%dx#^N;3*Kh<*Vh=LH~XZcxae(k#j@t{
zGiA?>*O_u&;ooUX5|zfDlp`--GsTXwHRU+R$N7{4gl)d0vp~pJ49ysqlRS`e3~=uX
zVaqunhu2YZQb-9Re;)a=H{~pbZc+kWuIN#?YI&#527-E0DCjMRh>StwHJTI3<<nA5
z5ZcBlc<!CqC&nHy%b6u)5o2jKQ}gf9wtU=-nR^6AVLu~<pEX0*|HT=)o|xf_Hg1N0
z$CCt9=nt+v2gHZglpUchNk$#)$+HbexBpJ=I{iLx<EGv6A5XiV4SBEM_$Pt8)`A`R
zCx<%-QcwOrfxHf5Q43z9T?Idk=rU;hT^p{s%Qz7{{w9TsMPuy_T^2CWbSiGh?ZEvM
zk*`jaG2KH>JvQOi)g(;)tnuCL)dlzFC5%XybK1^AiKLa0mDpv73YnT&k+&gVbD3>{
zodM?~AEHDn)UNUiRDB2iv_TC7`GjF7sd<?8#~7V16?GcgK+VB)R*JljD!)XPOLC$~
zMJs(mZ`AJ5thmcH8@obDvY_9iCCrGDB*Kb(fc1~=iQAITX;vDEL+>qbBBK!b#jaKs
z<RqiP!ja+@h8{<m=zZ>mTclP8UB2Z&GPryTMWCfOOEZDZYGCtx*%n;7m5nneuDy2k
zwb^jGvggLY-O8T10}xJ5m1KpAjIc@-RxJoESrU+t6eLr<e)`3!y;I3-MMI`ywOX+{
zQ_-PTbj)p>2lLgR^;S&3vAAm8+`u2VEUelxYrA^k_P~s7(bqT|{$TTmJ8te+@NM|{
zOM~<E$NsGKPS0HU*4}@64wwGH>j!Tr|8nqlkJ_;7lh&Dmbp0`swI02CG~@4vgmq52
zHE_?rZLtzE+=aHS3zgfl&21m9ySXmY+^aVCe%icc*75UKPR%!+R$n>wNz1Jhw>SRL
zt2Z1Z?wt$Y4Q#yAq6YS-UpX~vOE;ZftZ96|^m=KgW|La8>DHFpz4vPNJaBR?eIQBd
z+m<YRZ9}#pFuUc(%3C}-UiTlwJ3aqCa{E_4;Xx<V9wtF-eH8?;l~qfPT+N0rS~<_k
zY<*XzzDKR^`LurXRVO6Jz1gZjrm91&>c~`et5w}|-<_}8IAeuK_v-G&w)MAce;i(D
z+deyReaju&%)nyxsv9jIjDMKAnYvfq`}4u$^GzrIOuVDqYPrq-(Hh9Dg`2`$&+nGq
zR@A`0Pehu=iQF_cs5KihHM`WBUAL7x1NUkUec|OAwt)Neto-{2wOqr?{NFz);R3JX
z)xZT#@(K}}KibxK$m;l$j>bcR@RKc#he{neb_lr~K_{a}UIQKQ1O6@Ut%_^hG)E-u
z@<&;jw*xN5W)_pTnzxi(0cNGB5->%q4x>g+a7m0of2Ntd*Hn1@Mir}Fgprwkil#XM
z-;hZw{%i$oOpXCC+vm6$i!8v79&B&a6)Tyv6FZf%V~jbqUA}CNR&k^p#gut@0ao!j
zn)S^$7^IxKuNWJXSH9)Nbfd&DEPKq=HQRj_oiOQ4t~RTWt~F!%_vpHO+>8~hV5gau
ze}lDhnmaUUExvN2-TCrnY;=Pe%fBauZ&80!zMdJIbbb5Tf#tTR1W+H2l#8i04LWVo
z`j2YMX;N{MHW!!NY>uq>yv!Zj%mEgNlVnfICJJUNo4Lu7Bwd5-d3Gyk!x%fL(445i
ztcx_dFPA;35_1fbZjt<{IJ0Nwwe-aABv}Hp=MDGhZZn>Ln{fCwqcp|_M&CWUH($$)
znYAf@nhWLxDPM~XI+JwuvS;+D8Oy)L5(t=ceSRCvf$<OK+c9JEx`K011e3_jCN=qr
zS$_1m8Oy(m;VF#F_jEe;@*D3u#(OH?hZ!^1bF#ExonAF_^Ka3eD$TD`@x3eNi8eZv
zZ^Mj@zHY|y?^NmNujPN4F%#-A&ogG)=vgzCf4^NZRWSvxGtmPvVi^=AUYx2tl#BV2
zW^8oWjOE{>Bl)-)n=BVgQ(m!*=*MKtOdXAzvHUwfLa{tmX5u<_W=W~Tp3!eQlBiiD
z{}%nY`@F=7vo^nL<`mxxbLCiBl54WZ+-;WnOtGFEVP_#PKQ^0yh|#=*3(wy-KRJ^t
zQnoAX6r`;B8+(=G07oz6I?6?WdspPW86jsVu0_3^tB{N2l}9`mul=^CZgR!*aNTqB
zS742Db9-aO39g0P2=kwd;G(_*Y|ewSc<1IN>vy<|e36{rGjo#r%qg`(6Ex|0&Yc4u
zfBBPN3HZ(AF(PqE%O25{vK7!29utyGh{jpWLk@99%O0pBJm2TPLzI>0dmha1&-K_v
z{vwx~PmW~7d}`5ReniD^kJlUntr{c-|Fxi{!j<X3%H&%rHaFk%=4Oujo&WXpsF&>=
z|BhhJ=c%01ug$6W+MH@Vr@e9z`mnrk7fQOgu9bv;;?t@;UAH|91sWU$wH3_LCs<Hj
zv%~N4d{E<qnw<pBQOzQso#^S;ZAHn4GJw*BDoNcK9A1?pFp%ohO<S3*RL6kn(7>wg
zJ$CYIt4-9OAm>9PpH!PUgVHwT37&#*BgyC<{woAb#Zr`?fZ3n5n9Q>%1>;x-lK465
zdOEGR3M3C}z-dsenZHkP%m=33p*e;jc!%hofS8H$WkTz+gg|pMiv<`^k#D9=vy+@X
zsM)AId3uueHVDI|s62_%3XxwqF}mhso~+P|7L=RV|6DGgwHFNL1?@$e`2%A6i7*4(
zpY_#{_0rTp79wg-1LWqq3_Ro6p?Y>?JbP5no;&``-dEJUuPk_u|J1i~c6{E~25Tre
zfEEsD0aHIPHWpMa$Id2T=LY|<(3liF$Gl}HHb1Wf0E6_<%oZ+mAp}ocxP@t+f{8OX
zR6)7~v$SC1{KQ5BU={KrTn@0XxP2O2bsw&sGF=Ny29(o>$mmEhbSI==@1YXS6wD&f
zY*PG!qWMoBIdU|3>csva;5?^|A<9L*P62Jc<{+=&xX8>(WTGx*A_?Ua6cC9gpGKfr
z5{hP{0cy6<L?o_xS=0S{`w#999zS;Mq~;~_y=WAMDu#OAMrT&5fYnSWn9HLynNY80
zOQ2VoOfIx4I*P_zNS|+*Z8Md)9HA0EF`_W1JGM8vid}Q<zZ903_YVwlXpI$_phI&)
z4Mcv^nvad~08~->0vtKEcR;g|;$QxC6wGOq2$rFc^25RSTm-H}>|~IWGBo`1E-D$O
zAa_9IoAi@ZNb-jiOe4@7`n2WWqaS5^;e{B1%c^dCDAQrq9D0jdTP$?>tQ3TI72K@F
z5Hn$?6-qMm?%+k;O<N1-4yK#>kO$}Rpe|>_Njl3kXfSzj7otcZ2K#n+Ybjb4!PnEv
z+3siORi2?ClYmcik#U9uPd{1n=bK_C9n|Lt0}>du8hBYC0}^I|^zW#)QydGjE#`+c
z7wsTzU0mZO`9Dz)|Axv`GQniR0115}k|MuHc@DUbK?W#)K&5{R0rR{(lb0MCu|0-@
z?mwc)H&M{(yZI6!i+SLtub3mHsmS`E?ZfVy-I?Z{YV*#8=G|Fe(@ZZRk{kZCZ^K-b
z>f4a^Y=CYIzMs9&x6KXAyEmrYJF~tuGrbw#8r8RE&X)G=noHjG?YebA_3cV~cHQ^a
zOu4d6Eoq@)(e2H+Tj$-aOO}$-@-M5n(!Ko8SLHC#{Ho(qFW&d~-W{ACd~f$$?;q~?
zXvcj0)&<YD#p;!$3H%^Dx8`3*Gpo0$tGCUseqp|PN2dCKT76)?`ry>T&ui-5cV2hC
z@44=Qv8Ar+%a*rf%WEDwZM9`nhhU@WugUmYR9{QR*Q5G+GQO><Z!3^wRb8fPwOX}0
zQ?*5{+LEa{q*fi8dT}w|;EnIxYP)T_b>a3aw=dp~q&FO#uQ@bzXtAa3!@iq+B;CB_
zy4^S5(x3JOmMj&e4WIiV3C(owP&;?r^Y2{r*Q9H^=8_Bk-rM}={!O=fGd=xkPyd2{
zU@_44VcE^HOkh9cly^e&frB%L9y__p&5x~I<u1r2SG3R7X4-eD?YrjN_uOgC>^rXR
zJHAkUB3oXYDeqFtyB5mVXV+|)u`QIhKJt?tY%<;0eaklQ-JJIBT`aG<=DzCA`uC*w
zoql8`i%<tw(@C~(>(pwDF<rgyR`1>FeYdx$)%()r`|i8F@9uni=VEnzrh3EOYT9n>
z{GxAD#`l8id*Sv#+IRd;?_J;VPqwJO<7v<FFG@I9<Lt?_Kq6!TB4h*r5Z9U;$;_HQ
zbxq%buoau1Y1*nbZJlr0PEa6}z3Z9wq$@Y2dk-!MhnA|KP|XN6s!#(Jsw%9@2wPQQ
zYev|i3Oll%K*rOldO9(BSIMJtuDUl<wMVVmGv)r$W_7Jzs^C@uv>KNz4%cyhvAptH
z>D5ww^E2i9)$;u?mpyni?OBy>9#B2|AC+;X6=apWSl%`Fz4Y$mUs^4&!gWyU(dnZZ
zPe7#(SF7}YcN(ki*}dr5c&jzDX`i}j-#t(NqNnqor~7lSFXLT%*Sj{mrq7(|ZGU>r
z!8=vznuBaNvb9~a{!DF`imiuodf?VcsHbnAR%-`l9NFr1>FU08c^|@Tbs$~cnJ(`{
zxMUGlR4w|et{uL5_=by#zO#T?|60|*Hsjx|`gf=IoV@2hg>|UgmZ{yV*6zL2ny!8A
z6aU@X*V3=Ns@A?X<9OV{m97W;ln(F|?%^LhF~_A1TrJZ`XT6nErH@|(d~H_!y<agv
zQ~f)Ci8lR>4>+N;VbNE4t?z2zwOv<trJJ`b`1%(8b=L;34rXhPW@|bZYwBnB{<Z_=
z%av6CP&!iU?)uhc>*{A-{L;$#JAb+4MI*m_G{JM_D<5!H><cY0GlovrzMS#AvgD-1
zUq0&KYF5E~nx<@Ya5&$=W9r}w4#6*%tSIx<<4Vj+^>ovaF*nuI&tiKJ+x-=r;};wz
z`jzrCpu#_Gt31A$`_t{E$Jbha;@o_^-u{yv0^*<8_F9qgKg!!rHgbRN?>OCL{qtQ_
zrz`A#;dh_5JO83-ujABKS9<lPQx-w3sY6`dBp^fGE}+m|i+~Du>+Q$eTz3Q1-rcqK
z<C~m!y96|PceCqco%Qany(>;uS{Ewq__5Hq^5kyo!Y&@+J&WtqX7@dJ;M4~9y>)gp
zeQ$%EQZ`#DzSVx(QhIMEb@r*<e%kB)w1m3+w8DP6!S!i1b^K|Q{dBt%Hu)u(AsLI1
zcP5NQ<P?6(^%OKvK!S0dLZMs1u;I_EpmaNKR)_N0?IK@6Ot<?Wv+ls2J-XdTKNX;0
ziSp?x{|6Y{S8&3bxt2fd`lw5F_TBeZOqDE^aFsQrw^?W#NVgtP{Rgh}zj+i{@1~|x
zR}Ow|bL$^QIJIC~2OQMXcjxQ_Yrx*OxN_}Wuex&m68o{I|8MENG{AHI1~hQwOWR8O
zOZ=lf{L2=5)skp4lG&#f7^%vLv?sU?JI2_8zlZ-5cO3K=b~3U%3_d(>Zu>T*`;agY
zX};{4ghfO#Yl>pLg(+!~&ll%1<REO+tx-qJISE++;<hNhPW3i@t%?`z^mQsS`AycE
zLx7bAZQ-)V?8W3!-gZJh4a2%A`;=qK35l3Zbds-p-V~~s24OU?tXcdlra{Qd5HL#N
zxA<#38JvCV73uq$73uh=86~9R*jsvFm?hA^-?v`m+g+hQL2?NZM*U>ydWpQZ<M7sJ
z-=BfW>-zCH!a#UjNhV_Os1p%2C`@n{289_gC`{AO`Ve{Tt$|PBI5}ts4#h=$Y$zdj
z>7LPyJk3`|3Ha{9JXrrg5Ihx`PZNxO*|08-z*{nKX82O~i{zPk23~}qwxwL70k~Jg
z02bZA(~_AAk42=gL>{TEz5;)vBy+C>D+UGu&W^+I2x1<|=1AaWieywD#(?1u*&R42
z$>dQCrb^V^H}OFOwgiEZMB+Tt(wnm)&qkVmKmzTXpO&t<hh;Fn6$1h|%m$-(Xsnj;
zAs$qZ!6lR2GWE~Ifb37oiD-bn=44dXy;4~dh7&6rt}Km3Lzi`*P~F>r*Gl_O4eVu0
zbrjq+K3Y_hOL$f11CHX8Cd5M_uRNEhJCoBlmCDU8HKFY!mO7>h@S$Qg!a3nF;D|7$
z4}TBeM(_h0S%DJwxBOw=h=uix0%T+b+e_GLPTPv173A7e78n>o(Z=3=^d=k637~RH
z{h`$qzWvZv;57%EL+VZ!4q5S`6Y}JuFG&S;_FF4C7Y2vIxIfK%Q3{<8!q_#a^9~SB
z2yiH8-(%64S&!jg&TI&^6*=e+CK#irz~zD%RfE-nA%=8GD<hl3T%w}6UOu$HfB&n8
zPVC3U^51E283dXqS0oq_<@=OAPr*IPtkc0J$Uw$q;dE0+Hn5z*;T1f(DR@Kvlos%T
z2DD8a{zgn<US9I7#{PkLA<|*|9Rw%!ExI~?>PWV+Ez{VmHug>p{?yl%t*y&8tjRWZ
z=xIM~-jr?Ic<U9lZA-R^Z2p=yWLr1f8ocw0+Iv84Jpk&crQ(sx<%i>ztF(+=RfBN(
zV;1%JG7m{c^z|X$8BQ=J9@2NF2E1f2cl7h~SF{G=i?J~b2N~;`TY0UL$p*V~1-i%a
zX(vTqpg!u!nBVv)knWd2o$5{KyHv(Xm?uS%KSec}jP<kznA-%uW)Brz^5V*Ms@Yku
z+A82$4Bf=Fc^EPQKmh>JDbwW#G)TS6&ncDz9{I2ElK}|G5+Y0t%H&5>ih}#Je?LLw
zmw!!L_+<@e@3>#vnyKwmYx~l+s{2A+Mrc=s_KdJk74|I%kczF$cwV^cdEpnrzF!D?
zJ`;LAZv&?RA=x(7vu)n<0&MwLm!t*Qe0p4E=`DkgIlPxBc+|kT%HH)(dox0#Dl}$<
z-KwxV>sia#lZOHa7dLP}umvsN;pal>^2&E?_k{g$)GOTq%MI6l{_hnMhy1ht?*3k$
zfFt)f5o3f6N&227XeK%M5AiW8{D^EsRN(VDWboiN>lX705_4WR&n{P>3MiuN{1{`Q
zCv3T7IS(ssx#roei8({h^FVB}5C>@#w~G#))VS;@=#8vZmObCp2T6p@JXzYOEa!5n
zU#1YNHXDTh@)J22ft83I(Lw+6YS87sFFTeiao+hFasOq9F6=i*6Au=O-FbVLeSJtL
zD|GP{eO1j6Uj^1iKq>44fqwx~%9l;&UwoYeVz+ko0R+~ZQJuc~6WG+<*S*2`V4i+I
z&{y+_oVX}O&W+F~2qA}(gBLdC=nMLYQDT_2^mJ$V`knb9BakuF4(@k$PwTEuF`X`u
zrE}xa5QwaTZ=M*0%^4jb8D{2Zy66KJg;%^yTk+HsH9uYU(O21!a}(Ffk0&lZu@v~a
zVSgez9*aMb`oxi;-DcKIMC#*%V>~<=56HM~$vGq^=~L*6HT?-a`nN5D!*D&8Cbm3J
z%9y`m3hS*#i_AwBH;UKKu>XV=yF<a&L9L#-W-*EFQ)0`BZ3Yh4WrN)pLUM#kD&59X
zhT?SL8$wUo_MAi*Mv9FLg)=2kP`V_A$5E*p_k->^E`NcE$`2@bNWmit2(8c;Hf2T9
z?I>TSRO0mH|4ad4Be((=tNORd(p`ZGGwTfFkEsp?)wBkGgb2gRkIU_L$3qUmgEHP;
z34ws%eQWYJCTC8~JL})O`2OVe$seA|bnQ~RcFi~KUT~iNlQlo-`Y&DSmru>_JAKc2
z`e#CERv<wQuy5%!#6=CN(2x<DRiQcSX}@2-DqG&l{s-WcU0U{~U4XQx0;RK_7e8r$
zl*d&9?CdIg>_Y6Z54lSmg2xs3$$X)|$|wGVvIWEb{=S<2O8!T6rTs4JkJi}t?X>@>
zQ=oXSi_&-6`yH+yTbxMwvCH0H;rwx#6Y07F$-=&;F$icIY~P`k5D^S+1P-&h27#KF
z|A2xZ0?ix7ca?Ce8MPid8<wq<>VTmvj+{)OD-%<zm5$>xpGkPecE=Lo^K4@bt%nX8
z@wjHepKA=Cs0%?<e@@@ql}`dxPMw2MfhbQhNxkM`fJ15#nK(|Z=4om{|AeaUi1Ku{
zL76epg!~H{Gu=MAD58{NOs%2QKl*nGWOB;UN?AvW^xbiI3ro6*ZZ%6|R77_qMjt*6
z>Vym<Myd*O+0=|ox-ZC4l6?zRSDnBghO~5$kdW#_7mmC{#T-B}@TZikD48&XW}`3J
zFfSbTwL8s59|F^bC~r}r-4uL>f-wsE5s>dP+gO9kWYh?QeTHJ#vDb-NVF!*R`r9Rw
zQw&|1%CBLQVOGlX0875&XIvTk@A?^6@)_6qmt5;-T+?51p3k_-&$!0VxP!moYChw(
ze#Q+vw%B<K4iazq(!=p6*7X_p!e`v3UvND?cll>tn|H0e;<#VAF3nZ^9ABe6IqRQ2
z`+nql<a*PBz5R-1$+3d>&YoT3@VasQA-$H?+W4M1|3eNhIJH=ag4weDf!)eC-uG6|
z*3Ek0TvOAbde_Z~s&~^8WuS<oY)YOIXZB5vsP^gyP9#3GQe_Ked(7DVs=C>p8`c}*
zT+hwOO>eq>y;`;5R<Bys_buD0X_!56qh-!Ecj6=0&GqTVjby`nQmxtcE!weRM$Z@z
zvN5mP#;@zhNd<&u6L%rem^fwA`enJUSvk#h-8g%f>tcCGLB*=NC2Nf51L)+1-Ps*`
zvYWR(a8p9o<(?9!Yje5P^<TGUPF7!d#vom+1U~st^YqTK&agL6Y~5_LYHxU0%Br2Q
zI{B8_o`)P>5B+6)$<kVG=UyHI{lXQq@?H!SgG8k0GA`LE>)A`lN(e<q$9jMq(IGr^
xvtnnQoW+yj>r}pO$<o6g;BQSl;OI?jTCXQ9MPaCG6#Bx_!k4i;7Gvk{e*@R&@D>07

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/fix_functionalization.cpython-312.pyc b/compilation/__pycache__/fix_functionalization.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..10cada3f40f2152dd3b37d8f3646b402eba2d322
GIT binary patch
literal 12149
zcmcgSYitwgcHekBj_ufqlQ_YF;7p#7CC^O=feY*c2`mt@4<47By>xIq<79$g%#0z4
zoGsmp)MSf9QuQ{8N<|{A1PFRJTU}|{s?x4*|J<sol!0XJJ7p`jSGVf^^EPa|_x|en
zW;`Az#JsB3keTm!zVn^$ob#Q>{FBpZNAL@p|BP>IK<Kx)qW`FLVf8~O%pexAL=g4k
zw<$=3O#LQ8Ya{zfXd{E>5Y<nqZRVgQl-Hl9mZ_jMWb3y<*}~=p?V<ese6?&1IzrBV
zCxJ|e%i{{}654A0g(h?av9_y-wR6t9WV+QgN;Kquiz|H%gkn7^ae{9k$U(Wp7n34P
zAQtvZd?f4(@?#te&G~$omzZE=aF7$A>hi|~feTAaH0YB85h3&~UJp9*cu}2<$D9cU
zLr24G%r8ZRcYLDg*A~~F`RU4PBj7ZHIMh$DsNcjA{Um1|R;idh908R$%W%QkHe4Ha
zJ>3>CvE)_r-E>F4jWy?(>wbDJm;d5p%VGLh9zw7lb=BPOup!p<GI+9iFTNIQ<(yo>
zi;w3DHOw%Mtc`QM>`c}kFsXAbDjX}Df0gPl`v1Z>U}haa(c+g{&-ro`()I@{6~Ia*
z|EFj7zo);2Ed=_zM=cFSisvvtayUyueOOeng!!sL4DB@hP7U!Q9fc;E<<<zZNc%ZK
z^6_Ch9AP<;mLjz8QiNw|fn#G~))$s&i3^Jnf%ZqDJSR4*;0^>pL(q~Aw2|&U)I)D)
zIUn2P2QV}j<U@Q|#iM~1ha#~cONY5jFlT_Hg;=;zh2q25G_64ghN)<Te51548s&Tf
zt&Z}sus+K*+qK;Qk}QUJ*}!_;z8cjLup4QJqxnD+U=*PJLwKX`pJDvIV31+7-6+(c
z;EN9VO<B?pQjD;6Tx|x;G=rqH{sjG!Jt{px*DOMrWY%E}V+iYhEO9pthd`rf5XBLb
z8PA%=O>tr)P1lX4%;%B_jgyj72N)-%jPARe#z-WtmBz`9^xwD{+KctM#+y|odYp<=
zQbzL)ml^$fY1pHejQ8+nqpX*PEA*1_zOWskDMI*%xS1uf{usAF$*h+0;%K<i7^#=y
zq)w%AYu1h}60MIIuGUM&Tc-l7C1%aad*NAU<Cfesis$9-OYg8NYt?5!dJd&)jUDNw
z;d;Gfyf>n>P61(60$W4-!99fH*5Ms`-FWLf+l};+PIckovnY|94&%1xt#s~>;r#7!
z`*5RyhhFMN=gvWIeijw;Ux8N5Iy~e3ELwrg?2YFSw;7}LQrxD~g8(@lZr9t5cRb%1
zaSa4H$0&Q&s6SCh?KEKMr8ogxpO)jC>t*DEKvSmhKe8liW-T{N;|^GPmk!BzW0-M=
zZsVzQK6xcc?=oQOrHyEc<v`fX=CRh7#EN|-toG=*81H9bWqWC?%3leqy#_XVDJNE2
zSQ~2xyz+05FMNhX_@7@1ul+hU#(N{Yo+EJ^-2-nL5cSeVkOQVmNGN9=tc@pLVz*~r
zX}1S;OpNzNIH?@F<wbB}o%agvrtfNyBqD5oCA_)~eDqRIyf(iOUWM6sg};!F=x|^D
zBw3fPfrQ>y+TC0F+QvKQ?lA8cJzr0-#cTHW_AB9a%)m!4<;1H3s9u6Oly#3gpQTsh
z&U>W>M}$pN=4;Dw6YCfQ8*Lod{zcXGC-fDKcbs6$bV?IQdRy;-)vS8ic<Z;vc)`Z~
zaBr5tiX_;M?;5l8l3_~`=vt{6J;y%X6gR~Sj2mO)6^Bpi(2cilLtwkM!P7T(@a#LM
zX+0P~vk~wt!V!rUW6@|tkmvwELTB6ks;8j3C+R>!aI{&#*P%jPjB&!KLSEoT{TUk^
zIxO&q@8s2Az~eX~z($Xwb3pBJ0w@7(>wiEe(9Po}DIN1bC~nH428Orpx6x^AWS<W^
z)=h+}e!hQ6%n(5N{bqFSZ8Om3Z^+BU9ip!xPoZKWCx`+*afO12h<`{SBT-Q?`@r8)
zoMMpobByTsN#JQIdEnjnVnL~aR7}mSier$Ic!>)!*jZA{DkQuuaP<CgqD2ZtTcUil
zN%9FWu4yE;Yj@X$U0h3$A83h=N<)!w%OwcKwD=>TC=c-(a28wOK-L6#)Yj(csAAhY
z$c4F)sIY&mBbS@moN=f21|#5DiTj%~vvvboB34TOfquAxQpj9U_D$o#+1_MrYofMu
zxwdn*`w4~0>3Q?V+%0~AzZG5xC+ZK%^#>F6$K?8B3D5DzwVf##(o6iN@!;=8d{7@A
zC^=9{G?)bJV|}af2_KHeB*iLlBG1NrLB#?kpqN4d4Iz?6s$+$%cmgJsS_KF+E_>l|
zhXB$GgCdN~v<X$vp?E|-7-M{4mI=jzO!!hD+QD3mfoH4~YilqAu<Z-@uwWsxHXYmS
zDqN*l#f%vYMh1LAZID7<yl|-@UjTy%Df!`8h#3OcS!6C|S1x2%E-6+#gkkxRLUO<+
z){D$#jvpL?Enm<}PJcvXL_Q48t$&D9V{c(DGNL%55s}Bo%<!z(U{V~Rm;_wLGI+lN
z_BfP+0S>};9ODmizHlr$*4X`&V_t_v7(xV%5E=+YE^#caw=}#a;8Rg75bPU?#uSSd
z7gQ*g8;A`mh3Yg0!id^Lg;E<-))(-ds#q>u&Y&WcK#PFgQN_d@Qd~j=_;{4zLIWJj
z^5H>Y6Yg^A5}@+FVvR&0VhK{D<fS`=QasEhMuQNiyv$2OK$tO3R7mjq70V@GFvf`j
zc8LY-?<%DN2igiG4u=H*rl`(Q@^q9p@nH~GiCGtAV3opkElP0!rUPkNmJvcCNT?7}
zYMyRmL^uN8&jg}fX=bAJ;S4((_JyDi_5@VBz=hKztojJ0TrWKh#*xjfN^y2A4JL2M
zCxTiLggU(QG`<%vsHidmP*Sn8u~3vzgCYtU1a)Kw>WZAEZYaznLPMcq7P(+Rz{*dd
z{E-;QgBc&JfDLoS=93sr0SP!zAr#`q%&DmipyY)#4JP1Ff>MZ&l8FQu{RG?bJe50v
zu>pMgELai40#%p&6SiOwR$UQ|RXtZ%;ZTM65wPDC^u&rB6^Z<6Ilp>2zxI)%_<HYT
zZ_;(@32AZ`q%6o;^0=dO!n|y)NV<w9sHD4m=J?N#Pjo*j**x2^T-C8$vNP%OJT5Jt
zd4Kx-iNi@x#ZB9sZN6&GF>&;9q31@=&7*TiZ}!ghCMtHz6}uA^2jq$a4+{?@J>J>N
zbA?k>vaDkE^mJ&7OwzRp`gNIpeX-*q-8JQWVnL-9vppYoC2HE`n)VfU$0JYWJo)k2
zMBPrgZs&@pGwIoS(>`aPZ<}-8F8RcB$Fo><XUjv6I*z(!U$Eb9TX5cseKLAy^pg+n
ze2{4AlUw={EobDGGs~VIKk{t(4y)wHjk^<#Z_15tE;k-rrJ&&nGMAU7%1~wP&EdJ>
z+eLGsgtt}pwk{UQ-u9^@NxCUPcgS?dS9IsBIoZ<w$=JQI*|#56)+gzfUzUDW{%QGV
z-cP-Wwi9yOiA39Jx$X4#q>1(dF{@e=bdOB;d^xyG_rZQ|ITjqZnH73pDj&7(NjXsY
z)|-ww$NZ@k&ughdRJAKrj7rNB?pE2|x>$POyzJhWbbDrcr+eq!U%Bg3F0{R6ai?6f
zd#V@O6YlM@d;9IuMe}0tEB7H-uXxK1?j}FS-we(L6W)EYcVEKWBYS%u6!j!)Ub{Ue
zSMHf|Bwg-=t5$Z^&Y!;Bz1aAb>y2d5=InWWvbQhcJtKS1JSaMotl6<>mn(nt0`rc`
z-s1`HN!feyLD5M(FYo>_x$;PknU7qhGq!2ljAPo7aMj7Kx`eAqb~UYO?v!1f3D<tv
zwLe9Xl?C4+vbZ2+MOD@FU9;mG!G+GXG}tA3cO|@U$lf;|6upt8tJX~f_MYvSuUP6h
zk|I%2-G3odQSo!=m>b4BDva+j43M%S&kYKT20q}W`Zt$d2a@isAD7-LUnsv-u~3ny
zIxJTmPE_^DRecZKeUEE)EVXval|5Oz0_5P7lWsa?qBfVMY=GeR$PNg4)@^d_K?8z2
zXUC=-DU-ufJY`O8Mn$E@f!~iWy?18GRlDN)@i!pHj-sh|Cy#y9lNuyZDV-W7k<EF%
zaI$cgTB>YWwzh&$mRHPnCn{Ryiq?mowh5=kc+2kX6WvKiQNmFnJ1S;RtvIS-_oWRm
z-d1?sG3iJ;_T2CJav!J_n;j@>b0(}6vb7>%t(L9TE7saoP)VR9v2tW0f~sxBH9={7
zS*k(lzk@<{P&!UX>EICrsPU+Ezu^tcTirwzDsq_l`Rjl{HJ%;7CUVTn1gVYrYv(nX
z#!lFE?R`@64RW+kwJqrFkY`Zuh6WnU5zWx>1!*57As~#;g;_chP>a}C(1Q0E4z{Q5
zJXk((sfHn+flUa-6c|y=efUDc@hioG(+Oc#v2Y_`V6$NQoq}fJkKiF<+R?OnhX~zJ
z9;0(#ADRtw2T#K>747yYn+kn=`qtTnv$xJIoLkOsPdZ!)2Q543gkziR*mm2w;^=(5
zL7M;}Pt+%zfv1qU?wb92Y8aXkE~{rQKmj{B!`W^S9sxga+t!8;@r-pp2nU+t=6l2%
z_bz*-^!T_*cR9hCGc}N7|DHLk^+ut7Yy+ckRM>t3`;6u#8rxgY2lj9fCzSBnMFf5j
zGD1P)(2hzpxC)W<Oq_axVd=Y{R?RvM4sK2xtTb4Ou@K~$v(Ek`2N|Wb@utqwti5a#
zmj>G%vOXIca0Wg?4G^FYJgmy+fD?LPpvor=l*UBZ23mKBBBm_n%`{sbhU(b%oNTqu
ziu_v`E#fdSxJ({ZQ8dcd#@nYB_byxCOj;cYYprb6E-PutTDxrB3yoOCOr2V>ZdSR<
zpUnapCi*vknUje!!VN0#sh{rQgC7lE_D?}%#!1L40pqE;97@Wt62xdS>L#OP3c)Mi
zAi5E!@a!-VryvVu9^OdhPzE~!^KYbF%*F`S%LdQTw+o~s!?*8g`~mzHT*qN)b%H-~
z*eDU1;lK>2XK>=4s88^PRQ<IF60V@sazM=hOV7yWRc+=|t26@tvfKzbT_9_^kf==t
z10U5?qw3pWJ?RT$d7*g`L{XFkkj+N=Jl3wwn!EKr^qxD9`?1GjzyWP4?1NKLC>&!D
zh4Z*f0tD5v7Y;#H<9>_A{Tc10kUTr08S^Ce=P(zjB9NAW0My62a>~GS#O_xxTlB*N
zWWtR$dlTh5<nkT2yC0UfCCYcn<-5Kr-#vMB;?R^kS?rw^<>H!&LyziP7fXKWU#{OX
zRXej|ddIB)L2>n$<isIWLD$QU`gw8Lu>)$@<ezn~IK1E4(B?g=1mO^Z6cfU0uHcL$
zeFT`yARZ!0Ipa-`Rf3#tMwTFFYlcbc?^zcz<fOciuiZdeSVEOG$mU{Ij#CZS+9Aql
zI*H&)y_#XG_f)hsg{nKo%{tR)n)Nw+ujS|Q*=4aER>W!*YidZ(3#z)7fUgYR(ZVW}
z=2_z%2>6l|-oTGqc<35a<r&re#=f6`19s~*CT790`kdU7-Vb)x1@Qr%-whAo4Ld3-
z!A_cI=Gb2x11GJpY)ZOuHnFuy-rBTM*qkieJi|}(^Tc!z{H?83Q`D6I&+Vx^R9Xp^
zva58$p{dWzQ2|uU$oLpnJ3y=asVUp?nlu@fm#*x@{A2Jj*QDvM;3K8KCUwR6Ar4Gt
zlq5h)|0Xl{?M_6XNz+EGkxre%!C&zL6q`QRc*o5!({9xD(mhJYia_CQMsjt+6d+j3
zRcoAlIsvQ(lQ&!=PTtEi;6eHk{u%XAa}8=kB5@f$UHb{_1?&g&2>BCqnP{;3_QQ>l
z;n1V%WlV$B2cK}PyZf|HK!DTImV+9GfbT|dd`eZW2DgF6i-f_p&=jAh)v!L>7KusQ
z8tJGIxx~ZQC|DQKEH7|=DL87dHhfr;r47Ma3F8p;0JlyZVgqAHlA_|CmX<*<Y+?h=
z5IMz>R2;O;ydefS(Bf-t4fp~b9j#qmU4g*BuGc#Td~8Qsd!YUG-M)_9-0K6K?Ok2m
zt`==B1LCB94%ZTlT;{NbhLCGbZ~M+R?K>ANfayCzrNSQi2>wt7+f<r4quNZl>6fAR
z3tvqb^g4L!fnaLxp@H<5Ih|%8gS1BdMp}$=em;QJLl)839NDYhOJjBTxWE<^)l=Hw
zc7<C~q{pn7I1)rl)eHiB(5T*9YqAGe46(hvdLAA>Co=hiI-EZ+zV*p=t8_LO3PI4a
zl><P)zqqQK!IB};G5>9Pyk97SZU`%%hnK+P2ab?I1J0%j7w`kCLlJ8jn!cjBAvioW
zb||Oz%Vo_z9f1D>2HgaYAJP$c)7IkOynFiBHTUd`?SD@$Z{IuBJ#&2e_&oW*UHfIt
zLwAq-?&;r)c!xjR(M+gTF&G4@F2{|EOIsV5mC=M!RqTorTl<+Df))g%q*xR};!j!0
zwHS_7PXMJA|9Rb1?t$L1)|cJ-zrrl>20VTMm#iAOHcd&(TU(b4+foSJ?PNjwV)tU_
zeb18P;41dNm!QLr3Q7{r8rfMh-@W2&NN(CPGdevwUo;(`cq>_0G7(R@AWBdpyK3g&
zT0HgH`=7qQ<f>V59RP>kvvn0|gal|?i=m>%6)dQzEHk46MlZX%{<{Pfyq0h_$j*j8
zh}cv3#eq!+3&>v;PzN{VX}nR2BbN~K<rqe>GfXJL#)7!)U~tGbnC{7A7&hW(7y+wh
z#Ub%99%m&W+O7r7eYl-cRfO<UC<_Dlf!Rv6*Az3$`z0{a!e9*IM(j}vhw%ejW~$An
z`ZjlvdIf5Xh)r?<Kd@6RUV#hnD*Dc3p{x*jvy>&MYMH7|nU0yLx>@e#(A?0?@Lc#m
z5w5S2$Wo(qrOul3s9p0J7kTmQeeR2)&xgJUeIAl`_R4j=s|W_9Dp1$n@A3<%EsqP`
z*GDEtu75E3L5hMpgiD}hXmaR!Xfl+_!!1^{Y0GT;Jax;uV7=vBa4wQE-M+M?T`ucL
z+3)~6OquGLd29NunG@3|<`2p4ZMRF7+>LTU)1p}}=vc)IrRV~x5=V5?!%`%!x9wc?
z-{1K~*XLbd?E8G*uiNDx^(}Sw$!%}1;_eh}r%LDRZf#%KeyeGrDTScA*nPjm*wfPP
z<8lY=2|7|V-jl78+P!8^P+zwv++uwW%1<yH?QrmsG!&`kl~U-B1cPw9L5fFg_6_*8
zGgqS^uc<dpGcyFaA{<^9ARfX%p0WAq@4B^IOg_#HHftFi0qaSnKyA^JxuTZqu?9w%
zn8XLu8O&llCUc!JI6R}WsUQIap%Xt;MvCJS4tl7}rC9fByuM%f8MFa!ArS{_QY1kT
zt5!s~zDBjbMUJo0vEQMZuhEX*p{-w|)^BX?sk0Al-Yb?TmSK|E4Pm+O5iY2Z{|CV9
BgERmD

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/fusion.cpython-312.pyc b/compilation/__pycache__/fusion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..54d943eb371491799c29780cd056bab91c4aa3a8
GIT binary patch
literal 17363
zcmd5@Yiu0Xb-p`0v(H(+-w$a?ilkN|DaoQOTB0OV59&dQk}b-uHgeXhomq0pePw3X
zHrZ7mCu&T#aV(`xMK%sZ2WdmrMlBak;{pLH14W&n0m2O>EIW`B6;V+bNPx9T!9md<
zJ?GBM?vh-}lI%DhkmugL@5edke)r6o|8O{L1fC%Kmw|V;67n1Tp+7VSek}f$BjgG>
zO#~tsf+S>c8$yhmG2m||XmlHC$c8u{q=igwGtDsujUkKMLgQ@E8nU@<G|mOtklk&k
zaZ`{FIou8!HwOzsh3>*ok-LcgwgihqCGHX$w+2f?W$v<2xw|}6;jRc(x+_Cf?y69=
zyE;_kt_jt;YiT)Kur5^Zu7|i?;DhTz>)q>V+!1t!8r%(`Mt5VV$=yWL3W6I#&F<z<
zi@U`@7$TO4t*;x@sk=AA@A~1V^o7WVuWM2FCeb+jbT(a&x!Z)oi^Sb76anoJih*ts
zN`P*K^5^tY*>G6M#`V~+Uyo(O;h}6?kGUUxfHs4At!$XL%^hO(1GE~=wx-AOwJKIV
zK%0`@QZ~%nX4M0<8Oye%$MUrqFuHe%-D0`u@H5p=P~0t)c0)+HA)(jIhB`M$N1?>t
z`yY=`_Bx}sBDLRtt>FvVp7mJ1S%|yD8g<l%h){l!2o)mpx>2p+?tzi^h}A-+K7t46
z|DxV&Hq6(*)<e}p^ze;r%X)0h9;zN{4&!>e+3+4cJj@*KvxfldJ_x+llf!G(nO&=a
zU8~jC&)v%q*vUFbs~3ASJ9&tvu7lL|IjM(fsuNNha#D}b)J8~c%1H&Tg?2YUYO~mq
zX}52bakYGa%j04cV^4TgvGsdHqA(DT2E~4tL1Fwa04?>#V-b%(9`?lok+3%y7!w6Z
zE;;Fq#Y8E5+#B-^iPA~0EJLd8MD)aSq7;mH1!&avbTAm&9|`*dgG%L~81wkzk|c&>
zp64Ll<D(f+$sPy?VxC}Ra8Q(77R7c*io~O*hP+Wxu{;^~hGTu=sA4_k^9IEOqU=-3
zMtY-N2S&r*P{21JhUJKKYBZ#j=B7qQ#Be6@RLmR8EomR=f6gE6q)jU&Bg?X}6BtsF
zKGJB=8}mn`&<A*8V1^j>o(qZ|zjs9Rgd&3IGAb3?8uZ3xQRoqbr;eZMhbl^;mQFkB
zJ=vucXbD;YSfL_Zp(9}-?u$j}8Y&f-vU+WOSvDrb3_l9te-RI^D<r0!W`qoD+9tPf
zf&@sy@B>3uH4d}6`D$D+2+XU@4-DTjoFcQveueeL1uqPc6Jn#V4<<o;F5tt-axhTe
zkiv<fXlzumob$t8$F@B-%P6c@8k7~&$nzM=I1;DxfA?&Og`!)cfoOXSlEqm23-KL~
zca7{2w*&*{wnRr`Ly_<nWQQ%jNGKYB)dnWp;*ZM^bVPwAX+NHG{%wy*8==W2_?H`i
zTp+jXMX&6d*fq({*^f<|fV?5T8J-Pae|p}2Y>qv)2!+V!xolEBbm%flI6A2jh+?LT
zv;7fi1N_ofL~6wxZCd^)WVS&9Ca#`VA5N<erWKkEUGJT@_sy|=k_(Fdai_%v!m)gl
zvZ{L(fV?d*$j$J-xN578;GB-YoJM9xuD8tFkIb=0z94gYtaJ57>2rd-?Jyslmjv*c
z&><_<Cr|hE4|q<TJf#%Ls5%4>C>GCGP-!jOBO_G7XAw913K5ChAP_eLNZa5ximb>9
z44w(131UW!2`peq^C;&sDMeJTfX>i$;n??WPI#!YcE(U!J3&P`0|KblfPXX)9(2Zr
zL?;TaGvaq@+QzxrNyp{Xgp0O8Q+8&G(w~7bDugs2%EFwyg0RymL`0dk8;Lr-K{?`#
ziV|u@nkI>IK!|&TPAEz%DjaP~v1VHEWwaDb5AGQR*JSZ1kSnkX2{H_^mCtwK-T^sz
zw3-C#1i9SzxKprJddy|&A1k2C^`v%gY#cMSIiC;2h7_V0Bk|an&8d&o<zl2R=uvtc
z$gDwOWijZNag<I~NX;IP9Fshru`1eR&JJ{FIY*$djMXoY+XZ!#16SQs?#W{_riJqA
zD_{Qhm&c{Kf-N&+X`{ihD{VAdZMR(=D^e&Q^~0%W@p#}s6FnZq=D~v{4u_0K;XTMq
zK`jRcBt(23kK}+Zl|qll8xBYCaEpXxD9oOVM1s;@$eUI9lTJh00SS~~j$8%g&&h`j
z%URMq;mf{$Vxh3~>n9djmb1~p(4xHqinaIjse=cQx0i9Ues(O@K|@(i77U_MU_{o>
z3dW19n;T_aoKmW>9^DM>OjFEaR1O3qVZ}Hij{0=LfW|08P^O5&CR~9-D?vP%PM-vm
zj}7u2Wl$^AYRszF*CG6QW5PJBUwHLQ2&Ibr>G^sHgYZHxCcS!si52Ma=ZI`OiVV$s
zmwb=Wd;OXrTOvWP98lk)*MYf}=<#eQ+hgVWuY}=sO?<+(Smo+eXpPrXW3_rL|C;G7
zL7mK~M*#!&kG00bay%N1NHI}BH33u#$zc%k%~YD5Ao{3jT!j+Kttvh1A*R@AzK4PZ
z30GI)5gY|Ikf+$yUuym#%(v+5Ma56TTbP6sQwp^%Js}lYO31N_L+wCIbFtDMtUyQ6
zhxsNIP0Glgs2o)Z2BD(Z(lb_<hZRAJ)m$%Bl3xXKfh<(68)v`CFVwEP`uNo2SNBfs
z9cOP?s%{l;oG;!qZd&Ntlj`dGWmn(iW2xGXWNk;Pw)2;@opVo~rp0a-mi%=fS-5`A
za&oTe=ufx*w0W-K<UIT+Tz{*oVY+Fm02+6sEu^gS%I<IPUNRC#?c|OdeAAuc)*17B
z@z%7NSRFSkbxSs~u6^dzn`dUv%-8Q2XKz|+G)-ZWo`8W$JxKNeQ8)@RR4E_8)LtZr
z5>)X=9VH=o7XIZ5AQwrRDd4)Mxio=buC03sL$wMP^ud4TK~0Sh)zmNLO1w#z`F!H!
zXUB=(0J^~8HVLd~_A>$pdciVIUNE?=r-;j}RBKzJ;_qA?q3-K(=+&pI8yo`43)K(L
zLgYJ!T;MAhVi}nSY0T707~jZTiQh2l7p?PbEF-%UT!Oq@Oi<gfdcJ{-l3BLDch)FT
z?&j#(u2|*KP)LkP0pBd6axESovz)s2sFS5qAPNUUBuWx)hRc-0s5l|%ESAttMNoi>
z)#LF6;qnA03XTbR*LgwRIc#98am`iAu&)f|<ZVEH51_bg!$L*vt&*CBiiR7mUDrpK
zj7(|4633O>#;r>{u@+32la{K<%4ye4OB>yD#T*TJqA&zs?m3Hh47%7epm=cKVTmD0
zee$Vdf%$}d<Gu6!Cdx7FMgBbVIrYUsU&cW)LGmg2VO)U~kFL(YZ-6=(^_?wruR4MW
zb=+mcd6ppwCc%D-7)Z>n*B#ENZ#@NAl1Ug7Y%FtF4QJGKP8q}NnuH?Ly3G9wpz~-v
zrkI`=1A{{`=}S;{*(r;%fow`Ik0?bG?67vWWSfP~K_YZ{IB$e98TrbVg5fcG8Nq<l
z1HoqcCFCOzktZRL@QUi<Bmv_h5*(0X0}vJu#yp_wses5hi7e{_ORCm|vF&TKza$O@
zWH3Q=bO$4Vz2!X}TBWZ-TXH)PkcWlp`c!p$vbudny!P~bb@%wuh0@AYX>+o)d3yL-
z^L%O7JH^S;U32^{Dhtb23OAUp)c-*QR|=qLo|T&5@`=M6nG^dwiRns|3}^HXG^st%
zY93aC)Xc`~B?*DP@-RwP$DKFE&@ezBC|jh*vmxvm>N*B;^I#6pk=h8)vk6vUwLRtf
zXAM*p0%UeVTWXwBOzJkS*j-h9BX)7w6b9@CC$LHbl13n)AJMj>HbiwIb}5}if(JV2
z%;nr71+f<6jj61%LQN`mNdzm6PYl8JXKcrV@Jmj`uR#}b1PJg<+C<80t{lF6c)Byy
zv_09h{nFw2vd-~?cOdmkm%p@7RDQ*N**<;nhsRz!_70osI-Kk}3~IKbV7zz9L`s?$
zips7yE;|+~>p>N3w5skZKgBOO%q0cm`_g5ktm2aQ@}uL&)KeGNYSu!RNHM7<Eh;^V
zi3+n!rAT3-A*D>`dQZ;a6^s9Q!4nAwN8vD{z~~$_C<Ty2k;p)(h&_ukrePz!rF$JQ
zdYJ?^@Foyk9+t6ozxwFa?y2rHf#}=iKdyVLjz<4Yd@uNJ@GhpNEhX0KSL0U`Q;9Tz
z=-a1%eD<xgH2U-AU$p(K?JlOKH?k$R+m7Otqao>NNI5np9UJEzo6;O4!!|$$zb?tI
zOYzM~zImQ+oiQZ&O=&aaj+;KT5o^(<3OLQ~SZpcF`lMz3w0WlXn*S%~{&nPEMt-{E
zrsWh}-dV%ItZfBsl1}5gP@cpio*vc`YJBMhAc{jfm3?9`=<xvadm)wH4WCfY=0Cxr
zlwgJn$nP)0t;)=`Bdmhp+QA?9z14RYqv?_cZon|-eB@(-5p~P4t`Gh*kFFy=d!W@o
zudi9d<QEfgx!C>z$qmaPJ%i-SK=Pv}2?4*lAuCh?-Nms@pE%tNa(WF~${?qLbqf_W
zd5}|~ZQQsFIW^t1w5XeiVzvx5WgzOW44)5b64*~bRe-nwha=MYgQKeZ9E<65MO|hc
zb$#Yo%hI1crxc5BRZ;<0<^lo?f`Uz91ab=nT;_Z*LOquCw=-uMLe8`2nF(`V;Ke2~
zml;};J8w#G3C7QW_1@4g4MI;YOLlnDi;zG^CJkYX9;gP7dY&TB;;{gacJaW2V{F$a
zi;;dhtU_RjljXfY@VMZ~hK;GF9m%F0?{M!tcm0L=rjtqDIev7~vQSl*s@jyS+BCEC
zT7150_r#I$-b+2VORFcl=1QC9_$Df4%kF?yXp}DIuOM;{OlJDDm~6t750wF`gN?xl
z?vNSq4rTM8vIGlT$^h0fLVh0T4yaALVw~p^V9rEFg^*${+(;MKFO5JNXhGaBbvNlo
ziue<8bQWoSfWv|<4`FHsZ|UzDf`JiH$_KT~d3l6(hhRu$5F90C51l^{Q;h9>82-os
zE&mLS$YCJJBSmW>u2gw*vb=d(yw;i8zCXEr|Bdnk<Gr_vH!KHP)eXyWR-uLBtO^Zh
zO*T$GIn{irdyZePDsBW^(pQi?kHbI_eHN#v9_|PM?&lcM`TrlVjT=C4DvZ^-;Z|wY
zmF~;kX(Pn%lvQ6jcKKMEgE+v$%DOAT%fYl6e}NsS8q3|a!mo5ih1Hp<2=Posi04$q
zU)hTAE4}sMF%+I_b`?7<@TCiU<pN)Fi!XSkZ=w%=-?f{pno)QZW+#myN#JDRbR!xP
z!rPXFWE%eERv;P@YE_X?YZeK$rc1VRHVT9wRCfYvF2g~ZOprxC<m4Khz=0vpJxMTt
zX^FwtCSqPG1LKoXGc9mnjIszO(F!%pV2rX+W0V~v&7#z3_Xh2?a;`OMAZw0N?1T7j
z+CwieKI9tx$sGLOf)vzC*_X00O=H08+1z76s|l83qptMNb1{APXl_AWM<384T!PKs
z@^UO$rmT5j!VH!yP$HmlOuCjrqkwb<8ksdqsDf0)yBT9UkT{TdkPHBUE65&<<1I{8
z7k`1Vvq-4A>BE>8h`jpHzy`*e)?UU8==v4b?*RhRvQ$8dYhG=>+CJ4jQ+~}pU(`L$
z-9jLSCame&YX`5NxlwXri8E3VX2~&M-2;T-8dB3$9kA(VVY<o~Gd}|mrL~1-F5@TI
z1;G5XhM6gI^1w{B=XEX2+CKB1Nz2VeaKdD++RJb(GAcc0krgOrF|LJKbXEhbV$6$G
z82yFADI$Fxnp4pUo9$V}B*=NX`92qibl!udbOpQ$fcy>{YXJg0w%P=AJ8J@(FWolB
zZ&PtbMoyug4gTo@Q~(d%1800{+Yi`b@@TajoPm}a9L<Vn7)5u*lOXz1--jItUaV4V
zlGhF-fXgT78*OCN7Np`6%_fwKPe8R~@yT*%qFAWq+!H^iB2aqlegj4g_wf(}S)?Mp
zgg=iXL5rbc3!#Gztu5g#Zw>Ph?U<^jEL_3jc$P0iD_sx7ML96#BWO*=!2u`T!!VQ=
zrYw|IrOH~8Wi6?)ZOO82U~Vky8b7!Syr^~})j|Z!3V%z*R*GM$*1#{Y<PEqe5|S8_
zI1*}bl`-}lkXh{|**Q!=NKb7+RK%Wz)yaW6_tM(Bi2W8CkVk;vIxt4-Bf13$qN)Yx
zE`ey;R%&(XW*>;EW}mwRqDz}rVU3~`?}WQRif>Kwt@FGqAM}{zSDJ2k7=>azdGIOE
zz=^(t{r5KINPmViPvGc5l6BBBfr&`o$Bg|z0JNlSq^UjC_*k;>v4xU~5A8hHdb_wH
z%|Qq|Ur~$3zqA>DSxANRt`%c-4H}?<Pz5yD>K6deG_HW>_Xai+9`t`;K*Ov8G#TLY
zM&{Mq`TGDga53u5H5Gjm#xA`KWGz&(`IFZogHDQpOFj{upqc1Xqm#4H(`SKBgfHle
zwLdz#G3B5edj2eXyMySRp75w2Da0|Y1##dl7vf2HsIkQeP{))P>KOI&S2N!LYDetu
zH!g!dt1jI`(6V}l(xZ$bAq26YrQyj1L*4hm$-2f~1&W-=+Pk4$1Vv4)YuIG!oT<8w
zWL?M1*nHj2iQ{0AIY=!s)2HW3H_h>zRIH?}2Q-$0mDWKA_rOYjc$*AbS{@uLu{rO|
zO!s(a#zO0P-kE_f5R-$IR@rjEro*9a2e|+o)Tm8Ix(o>t!l4gvB_+f}(q92_tzwRR
z5N8#0P>akH55*igSO>n3Au?WI@r<`Um`Ubgu}(vNtTSCQ-Sb-cTxrW3ui4tagG=-`
zK=L7&`_b^aT)>w?M82ral3}fzbtD5({aqGBe_sBJx}VkEB@j*X<<{1WX$Ir2jyLOO
z>(WMy_w>G3_io)?j4yRO6vUCP;M`VXl)uG9B=DKkr^6^4G>ihFiczrDWf%qTd-yEk
zAaac^s(&gPSp1CU(ZlOkO}9xj=Mxt&xmbtGXnV_u>I0OiZ3j~fubE;T)D%-dO)(W3
zRHrr=U}^Af#IFm+zG_2lI4~5Do#?GX9n@rWQ1hUNnzKc7Z}r9HSR@3lYO)jjlp{`W
z){~7ERK0T{zk{}SB&K?^YL0Jev()7kofBvcwV-qgCbR64j3)?6@8S(j?;#Rbp9y%&
z{xale{r14w1IyD#Fo3>*I{1JW9=1Ur!FYf?^Y>s|UIvx279Rboo&WBa&$mGD1$r;k
zdjbEbjE?+NEf#;~E#i4hpU-NH-<)C5YXcSSiU;n#dA%|86`}4lY`;>iyCbR&h<?hC
z)Lja`2C*U|QomgnGx*`qZ^nQ0`#XCEU;f>Xra%7oYkOSwtZ9wDTUIQZhl)%Mrr=_G
zvdeQ|;LOQ`^sTe{KADO=ULq8S5D!J6EBc*{touA78>$vMFT_?@OsElVeSQJTK-^=f
zPu_ycpyuyb9I8WD#SM$|PTQV^if!P^&~8IN#YLV}Z5Tgvhi{)5e0y}B?@94Tll)Q5
z@(#ru1xq&KXqg^-19Bfv@%xhezU!Uu?S6On4gN_mSv$7OJpU8xJijl+_a*thl@(j3
zpMM*2cc%FLNq+zJ1MeMw_xMfzsq}j2Hr)u0kSR+|(o!?|*mUO)cfYp#rbV^WDBPgr
zjSejnMbuwZ6j85JM;!=PK6xQq#!UwVF=GIVp$&mP!&W_(4XL-ft}(O8WEty#J8juh
zs$+`aY(|x(Z6hcB9n?`cZ!{VlRUE2Es{oF&@i2I8sb4|CXE)-x_#k-OP<!kQR9N=;
z2>7*v#}jxajIF)bYJmXmbqCZ35B2(ntIte5ld9jEtlxUAocfjCu+-eL6uiPu@N?yx
zX9iO3dz0;ZZ(5$9#{|0f#NtwTndd&5gy>2?4Ux56q7o!)^v)V2v#T1@3`>OMs3L96
zHK+_9KG=u6@{mW4#3i3dJy=x%LD``4Lk~v@0WH1Ss}>D~jmHDRSnV1zfSF-jlUAq(
zFu1TZRk$8Jb{F`fTm1T4eDf{7<rd$5i|<%;n2T)S%Avgh0iWk5u;U&i`;hEMQh@|{
zMD-x4ftbR_0^rE+4GZ{9n}k|l;SM3oO8<xjarLBsLXy`s@fzkJ>BV89n+ScMVg!GE
z8!=U+nHuhq$+0B@!J<)5NOwUj#Wg0m#x%olJ%-71SBIvCJ|Y;$Vohpt+G62smwX=+
z2vjJ5J-Lo4Ciq$eJ{(a8hrCS<Ov-xtwO0rDNvofz=`MD<b2hlI>RC#m#^QROYM7$a
z-=sA&1TKl9<cUZE(x}|A`rAU)+J^vFv1zrSpo9#g*zrTL4%O3JU35Iiv}9FsBs-=&
zP7A6&=i&>Z558cOI)dI&QIb2T9@oBc>4?VyK`qHc;}RN|)Yl^PeF>hLQV|k7?IeW%
zs*`U4?Lz-NP?iwyC=Puw=m9~QLzi$#Yrhg(K$mvv@~)I%GnqA1t05CfwMd>o@&*v_
z7>;&n?)3l=fT7|5Zo2RU>C{e;jaaq~$rdErv6K;(PGLOz!9794GKyIc{a$drR7@Zt
z@O6h$0!NzqjZX&fC^pRNIe=e(D3vn(d{VW=;`dEmDuPm~1oacl)j5rN4tV)_V)!lQ
zsxne1j*k@rzL<0Xqvn7NpN9%w#SBspx>AxJ#cAMMDtZR1*i9Qtb`VXgM-LzE;P;+6
zBh7$B&+36uc90HXUq_Ijz^U4W>KS?(Q<3b&3>Okq9g3w}{YYnzbQ6Aps1n%^=LdZ2
zV=#PdB8H|p()b&~|C+STk+%0q+56<^`()4iq~U+auJ=jP$Bfm$d`y5WBDq^e3~m2S
zHvgJDl_XF7njHQwYuTkgowu&LU|Qhe4pf)oTatXsJiqaRb%8I&_p=wQADIk><A#qc
z2E#E*k7^XmleWTFswb*nshg-vS=S}4>r&R1q_qVabCkStX5!2%XD8049BoNQTguUy
zbaY-oXFINHvixfGRQ1)msk&74?qv1uRQ17R^}z+UYO?vNYsz)CZK^F*vo~3@H&t^e
zS#xNCt<0@)I9Yu-Reds9eG(k>T+9XQc;_X{<fgfz4M}_RB4G^-C@{8e&RCi<)+UX$
zH;nbKwazrZ>6&%D**4oY*LCzpW8Xr3<JB`$XRe-|I-9EBnXKQLs^6Ea-*@52_(+ni
zSuzzEY?na!LGa-Q!j&&rY9~)G8X3-X+swZ-`r_zIi5C+ob9>U<o-#k0G(Y;EY#Ejr
zSY2jE(!3*O-kUV<)ym{)r!#5pOqsir=I*uI$(Bi1JGRkj&lNeRVcu;?d;21Bz&<+*
z4P74+AWIuI8_*SS`x3#((pke!gKci(t|bED(wJc@{A%c2A`mY54cp<D3%<^Pa4AUh
M>bKv;Jj#dv4*_$_#sB~S

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/fusion_attn.cpython-312.pyc b/compilation/__pycache__/fusion_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..253df49fff27e1cd339033e3f670cff92a39112d
GIT binary patch
literal 17705
zcmd^nYit}>mR?oApJek*krG)H^>B++%hp>OSr3c0W!dIPBhBo%F;=_PRV170m#eBJ
zk)|B2p~Pg?6G_;e6}2x>8wZkL2bO^ZmXXI8NPYxJ0<a?~&8?*~UaS`z|D#Pgvzq`(
zzH@I^b(1RD@?a3mAQ#~6`#kq`&bjBDI+y=391aKw8Q1Tn|J^1*_-o3T!Cgr#9&!l6
z6+sqcF(YKfxR`as9U|o&8E4iNcd@iH<Bq#g=FE7q-W2MyzPO*&xH9f+ARb_8cP5w(
z#X~IZLCbJF%+lUWUA8`6&(gk3B-;>g$Tr3sS>B&%$~MQFSvrtu$+pH@vu*LVY<s+&
zl?5{^vK{dbmJVe)vn%5(kq*msnN``YcvrSN-kp`=Qnn}F!^-P3tFyiFUY3qz)@0Yl
z*Rpg&W?goDd_7AyW}e7K<I(Jf_y$pM2uick_nyf2Bi@gE$7tN#rt0r|m1I1oxJOS^
z%gt2$NtB;7bJgEbxtcapqeEt@`a3#OO`ECswnxCsm@TTmqq%C@OxeQR=@6b5<faRP
z+^mT2IeFXoE>_xt(pF`cRl1v%wxP7Wru2KPbOlN~lnqwfJ!8&j=NAMn>M)!Ko;hgL
zB~NO)noQ|gMIXt_QPJ=nOlC64lNn_Y8OP9B#7)Vfo=*%Fb16NY&m}YIafMno9!cuD
zqUK&s>ZuV$J(AQkl==^#Fh>nBM&L)8O!i<tH<TVWI)@cKkx7mzs+Jg1^V!5{)Fo1^
z68(bdTpIQH;bBFMIt|~^Vlt<{sEirGQ-i063R_v;XgqaHPwMH^aV4ka)nln-MnT_5
zs;H_MG*QST^`X3)MVU{{7jtr=SonhQCh9W$M}K%=@Oa|;M~)c*C0o$P5+{eA+HR(Y
z3R^ZCeqNs5vKaupY0MLACiqH@b|f*BJf$SEd6~wnuPmF*>$xL4vDyf&_Jy2WOzC;H
z9Y!maJiJXQexf|~R5FX8CXl%z#6?+%J7h8LlpTsob}DY!rFcf`YCG}tkVkf3aK(MH
z=YkOT%U;9*B`EupkP;qU`EdJTQT7ixR-j_YAqOtFEP|;=uOP<gc({)p9P|#=^p1Sz
z-r<_w4RW2*2#EDqNt4oC$wg{fw2b+q4MvNFSZvEHyE=X}AR!zdQKXYeO_5R=prHgD
zkkCBW$C^q*MGg3<#aPp0Bl%)RmU4MrI;luSO_3!zttu%!GsYVjZic0X|8+va#3|sQ
zTh_-4O3GEUJw%oCx44-d+k`kFB&_NQaTGjzc|eN_4-*8msD)N(iWXKsv@lVl1`t|Q
z_yJ%zkh7pnI7ZoBQqveow6LH|IFU1N71WISmbRswZlT#}L2EvYJIB7=9}9o#Fwy5N
zvD(YNHK82Fw#FL+0~#EciaD)VDCAWgXTUZ)Jr3f|=OhgbC96nLzuJYKMt~hiBA3i6
zhCf%#CPtK`tQmg#NoZh4YB!px615HTQ)36FHc^SsBz!Odm!@Qf7|?1Ljkb`G=zkvE
zq-P783hBZ|J*k3SZ9H4tv1{k49m=Lm`sAj<7+7R(6S1vLseHDO2D8CrH*xGrfEngu
zg)zgINHA8G81J&h*qB+r5yNV4Av!NCgoM`4N!L4pxsL8~$A(hJ24w2zR&-tKzS@ms
z-IC;LR?@lV+P<s%CSCV@?Q<<1)cLderi*V*z4`8nQvHSn!Ql_g)x~b=AG~?%&Dq%A
z+0ed4C(35)H$3nND^|~}xe>b_E44p0>H2AS5wj3d7IGp(Xi|^A#X&?@2wCvEJjkN#
z_!Gy3<DZG=9J+;;wumjJfv)e0|3o|{+;R>Yu2fM@-g59G^T^8SbV`XjdDac?nHn+N
zj2Yi@s_QYV;lhDvhUe57`qgMG9GLn9e$}TCjd$AbHG{Dq4YVkt^TJ$b_qE+uci(O;
zH9T`?`)tEAlb-qd=8JDky)iv7Ti-YHT&ccq*4L+QK<ock`=Rz@Ff4v8e$*!^q7|u|
z5iMD$5#-ksL-6sQZ&+}GH5niPeTdky%bk6t&c55HOAUuUX`O92^bHF)>I!N;rD(YS
z&L)O(+TfC%AO_{d-(oAGw}rRGE5f8WNjHjk!FLYWaEypMg-R<BG7*I?Zb$Sp#}!C)
zQ|<`?C?OI`oO4XM2836^z0Nru0=SgJl=Vd6osbKN1EdiLZwXP4x&;u_t%wZAaMlP^
zC#vqCLLUh;xTtd)aXp}jbpAZU62p5&O%@7@JigU_<ET1e_Kxkz<RM#Vdt;SehXG9^
zr1-n@!e2D3nBF?uuwiC<sbRz9Gk@9De<|=6k&fxjKdW1C3f&tQJVJBp<O>Xk)bF7W
z&UP<;*bLQu1c~tXwbwZQ8sQ~FkM};t{0<QiBG11+FMREC`&$?4gh<<D9UpTKDwZ4>
z4M%^A5+Z04AY0NT&WR*j)6G@gZ*XSkph{;<GS2C=awY-UPgS&$WI=(9)60l61{TM~
zoET7~fGbzgVuie>Cx+FetUg2C9V*R(r8R<AAy=ajJ(j^8f5Lvv54Su9Kw22ldEsw-
z&;OOLZQ60)*ZDBH5`wZ7>-=`MWnXr8H1O~m@KDsN_oS#>H>ll>X?N?6hA{rJU?;%6
zM;n8niSO*eeIMbu+E^Cp?gV>nGD~I01wn5yb5&Xy5X}47JWW-6XBbf1%(m6vM~vm9
zvCQ7$BbfduHCh%X#A>g1uDb+ak!w(GM5~AJkO+8@INpnb$S#&wu~$FAKAZy|fJ7sn
z0wMpQcm=rmP8~t|=gu>tx*HuTv}8D9Pa0y{aLVcIQvT@QGpyv4vjuhU_|x_Xr7GF{
zX(f@%=L?B~qGpRa@YbSrtNUvhO`~Q0ccS;%#@)9zUH8n0Gg~fgneO@7&Rd)Qp2-Yv
zH8zW!RKkWEh+n{^m4kMmskG&cl^f1{LBr(*mB{c`Ml`&#GL$T4bjHjKXEHYi%>!bM
zqN1JAqAE~hz{H@3B_N(^i8E<^1bT`J`4&@$_TgltWw<C~xM&}iZbY-)I>$FW{+_%-
z8}Pe`&I_M4w_Z7P`OuZYKNy@Gm~ZNs-uiCKjTP5d+~~UARqokQ>e*55*;ne>cdu#x
zT%`T8rnW1)F7KK?dU+38*Eg0LcfTLKJ@EdfyN$c=)$c|NaK~^%Ikc`6S~sKL7`r}p
zyW#r8z0lUVP~F8tQ-{i-?oz0G#&tim_RAKbrI(R5wl2%KOsYaJm>H*UM&thonMa8z
zb~HX}(Kds_A_zDZl~+qmtX3OQ@2{4dsam`r1FkYWjk>wi>Plw|8Dk~HLq$&Hi+Z7`
z^NTrQNxe)6HT>YO!)Xn=G$bODcGMpuTEaAe6ud<uJyh*J-uI{@wP`#|Fk^@y4g~8j
z?w;Cxao^Owa&Si}xZ{rN=XD>~-3vZH7m8dQoEn_oaX-|H%Pe$A<h-?Z-$_hl`%bFD
z6+uVL!&{tAad9*a=Jgk_dI<432=~vbYF<@eMXTCHsXsx%c(?r$tSvc3y-0C5FMM9t
zGwbVN6N<KyoJ|TrB4Gp)q?8w-peKw_g7!F5sqrQfaz2$vsC0HJ-5XrMk|;$IAs4ks
zEHOeFvn+5!h)O7;5=I!o=ZUgkW&^1Esd#{*-=T=+rIMvdbx}kMVqA*NkxQqmsEi^y
zSnWQd3&NKUr`xv>XmD@-tiFB0jbD-(RxWrc<r5+;B#<upk^5?$!`=Ut4-v{ejSCK+
zyX|)Soy|Yr`|;k{-G~3f!0hfLrKgU5C7^uKX|`BsW+|t8<#h4d*{f&E-CIiCTfP!d
zP-%qJLVz_2y4TIL+-SevUhdge>e=>{fPzXRq!v0H?lrR;_bm$er71KoI7IjA*&aZ{
zFEwobl1liBX`LzjS%L0h3X8`Py$x)sHE;L@*=L$K>~2h$J-kC6h?XME9APqZC@^2Z
z%;Aa$CWW(NJP1+KZ&cN+=L$QydFUu<?iC9`avu;j07+1Kj+p^W;{Z2O^)2la3$T{o
z&t=9WT}_iQN|VlvC^<=og&}F0wj?5LhTL3VRTaIc<}~TJT2!QTj=^~Cn+X4j=xZ_Q
zg&_vDKw#CJlqS0cY*zhL$|t;JJyO0Pok?dhWVYZ8UY5v^#(=Qvr(a6uWGSs{P@rKM
zV=&AfOh`jzPS2BRgs+}JCN&1&wF-w~JztZcX5m80>D(m3HD(ECX!y0UENDbcr<RyQ
zh+eqBg~ZRG6OiD=gKjYoov4I`3FrHkVe_1;DqxXX@Y4n|k4(5A+7LtpQP6`tg&Nm;
z709)w4Q5cly(poX;bv=4(@00XjOq<PEOd#1<F6cfRwc0+O^UdUISZhR-Uu_5DUs#2
zOeh+R50mwQ!DPTpZk=F8rbNQhF(j^IFmU7Rt=(OUS`~D()c<k7)*$PUi18pKw5*zM
z?7Y{z?UNM`oQ{^jq#s(kzi!G~^0iO5%=m9^yXSjqepUa?SMILbG3mPR>);eeH^q`$
z5n2>Kh#zC~h~i|i%AxIUL)q~y_0DgpcYRB}`<v^BK+B+T&xO!AsF2^>_BUj%Ud+`w
zCD_RkvJd4pk_1ZWvRD>O1pog5R+WThzw9?PpJ6x1pDtz=>~tjP1kMSUZs|s&mL_EO
zg4NQ}w?><*rDm$8FWD@Xg__#-WmU+UCj?2aA~lMn-2?^=@pVHyWr(MZV1;vnjptMn
zS5md|CD9|zc+o)gD8@KJ3=iv^^4b~CWPIxbyR6{PIk#@!s=|a@X6Af*tE=oJ)&`g~
zhh+h!)}B?X#xe6@hj}*VJZMGia#@)0fC*QaIv)e~uxs#^*KogHRMauU$!zAQlbNDo
zc=+z9s{zCa)m}12V<mSI#+FkF&a_Eq<T{m4rDYo41ILdK;;Rh@5ct8f#||Ah@+=C#
z!^tM0_EL{E6y*>_ed_C!Rw>dbB96k21)7%rlo6(5B5|A<AsCxy;w1?P2&T2Daw(7R
z`ZjKE3g%TcveNZ!jH}V$#NX?Lrgig?wz<}}x#kv%+g6h)5(eD4RXuaP>mM}uo9ZSH
zK4=zJt)GiDT{>{tGu?2l?P}Xh!_|(N<2O!RKXF_BDEDEmw02;&{aILYSJh3v41uh<
zz1+06)U<Xcd;5oXo4$AFK&c6)-o5N{u*XBXm>C{oYCPE83U+vC$JcDNBEb&hxFuuC
zV~2MrC1qk+7{&)M)L4{Xtp>gmqAUyVJKw7a80VZ-3yE&gyhUZ6Q5#C1aDmEPHB{DV
zf(MnkiIQZ`cbWZCS^|Z5xn1pVO|U8{W9n&&Xfa>>AB1QfS5RK2(m_OqYp9sXs7EOO
z4=Adl`&!CwqKF7ZJx38ynffLo2tJRZ1NA&LT8~JhjtuQhybo544<!247*QS}$vlkv
zHQoP=2KaMCg#QttQ@R$t8od^~8Y_2fEOl%wcWf(lY@2InywY~LZMxxd$Mo@QC$65j
zdHjPDw@%DP_J9iJT06?E>q@Qb=Gxk?oV|Q@!7p@fUliP(b(1ebVtO=1tzJS=&0W)}
znVzddGwRK)AMCxg_s+o22R|Mx^&OsF_u}2Amu5pRF>3jOxHdb9Xqek>Jp3y&*Ac7x
zPPRA0QOFuFvsCo#nq@OxkLihqZ|DpZf2a~wjq#S73zj6dsc%vAHbL{GbFdC*8cpFf
zIuNcql0I2u8~v73ATx;eeNZ<xe8JJ;-$!3ICZ;A9oJfCONxPATWC<0MYP^*52_4<n
zR$g7X;HO+bXkKw;&*eQ|2a#KdwfkQdEjX0108yp}63bRWv1}C<Wf!)?@^kU<)Zt67
zPp=_FxVh$o*sa*z&@Qq%{5s0#L#=?_b2qedA?RrgOnQKK{$SbHUGjC$g_`C<ZF8Z<
z`A|<ew5b%@G#_ca61*IokE|_6c9tSLSz>o7vU}0%3fDnB4mW?@6z~Tac0|SF(U6+N
z7ON*IN>L<J#7qlMQc6N(xK8Ht8Ln6`>j0gh5l(QOA*H~km$)UWd6a6T$L!}PJ%Xf4
zQGqHBAo@Ep6L?`J=ny))zw`&(JDIHjzpxc>3&Dbya&!lLP4x@y1EM<s)%=$NCAfY-
zFlnw<FjcU{mr%4^BmX9Ce8|P*bk~JY+$*~kA2e|fG;u%E!~?|Nj1KFvth#Je)Sl!H
ztd=Xac3OC~{cn~AUY*x(g!Y|sTIa|=(NcbqkZ<XYK7}v+KLs<H5NlNK8g<&VR65lx
z`f_Zg3pncH?5V2vGDIbu0aL2ga;smds#~;N!!4tmM)Eiq(!4KR(PiHa-u&Tx-xiLZ
z52>#-3%01AV9?(N^;PzejK_nWASHXhxqhgQk(KYaLH+$Tt<_KJbM*t89QajK=HK@I
zShHo*GVuo@=6Bi)5;5iAxC3e`{wP#cX*r}@s@r$jUj{QwFy%TEs`;zKGRK2lFV~x;
z!(OQHmQrq~fLBy_OAxpFgs58ry`2|YRfxCqN2{qN&b2H&LWPeE+DXWkipuPP>KlMX
zu8H*RhAF5i5}D0l>GmVI+`d(}58CNe%XE8hjc)IK4Bb9xr)f<E?R2cA`p7w7)j*5(
z#CDej7+`%9?g<ZcA`(jx&iQL>CDw8AI*RR%e$+bjns%g2EejKVu4Czz3!;f$=K`qX
zR*t|BIhS|_t4b3$6}VI~rW$T`PVCIoD=7GahyofF9oaJVXt^%6j+!tbu151BF9jyl
zsTl$kvcnhk52+`i2^*5@R=<lZSsOMR4YdZ38jAzjUT~wDp>ngnh0^hDj~1e0)>pBI
ztPOvOuG(!xxN9FYeuHlGt6Li&>^H5Oi!@&eUk=Z;_0F~S&aH~htz7>g=wY^tI-zIX
z4gYojjk@b~Wob)E+ESKwm84yFdhaAZUia^#cO~drtLB;@qhH=W+u1+c)IS^QXL5i&
zRsC<1s<12`>@HY4s`|B9Dgt&?G!?L;71==y6ZQ%x>LccCtG|!1SGa2I6;|WNUL#3X
z%Yv=1hg-L-9TrV_b<4V;uQY*J_L0D-4I72k&-=dHvXA)m9;+X|%rX0j7pu3iD%$TE
zyJ+~nRV|MG3I7DX2@*6$>ppHXQU3@9>II5o6rHAsIFR}e5k(u8k*-Rr@VD4Z{+OCb
z6cKUT@rY>faR~lTsrR2yL_CO_Rp??jN!t>eNztz{C)$Y3ra7TX+%<NE|Ap=vQ8^KK
z^LI0++<CpUasO=Oz_-~{9!bId|H*$>`T?kSzH#lN%$QHi^=_@2F<Ye>=gfiYo|}!_
zqH{<7dG6y}Y2!<?M~;>@9-V#S2X|YJO+Gi*v|@V8^y^o*UxL+=f7(|ku}F5{Uz|tk
z3nHg4NCV-vnFv4YDJmces4<9br)(=lB&Vokr&0egMZZT8eVbPIQ}hl+0~E23_&-I;
z*7CCEaX7I-z5fk370zYB(dFN0Sxb<%j3r3d*h(l@HI+~<KnL1?wSOT<xsaI)Q?9OJ
zpZU5TxrP1WD*tM045Y0wkggena@8>?R~>_L)iEen9fNZFMIqewkd=m8SC(3C9=8k@
zo^ohqDYSC>=!}alh}+E{b$!@XlJ<S_R7o1R8+vv=)B^PUgC9@J*K${L+-<qk_4Fr=
zrLKdY9KGA}JZ#?KIxLXQjM;da0?fwK{%f=G1Ruk|v&^)kULriYOh^D6FwHr?PlXiy
zXR08UWtnptMfcX}^a8vmw%&Gs6#OvwH6<53KQe7Ml;FxS0a#+YsmNi%;-8~tx$Oo|
zMI4HI$idV}=Y`OFXhR|HQM`6{61*$?k1erTHwcGGvFw&TLoV{huto~YK0HBzLJQxF
zdPr)1qYfmL<9-+PJ}4Q%HOZ_%$4B7qKt2idI72}a&Z8TXmR|yszRlMFdGcAP)}@Ce
z%Ymw5EqXzxhaB9Iq4N1fs(i|4E)hJfNlG#`BC*E=sLsJpC^H713AjtZpCLD_v6-ck
zxysuRxK7Baq$(?N3=d2&Uw8!PrHlgqilQdri9+g>ITHzw7OFGkubddPVgWUrvBSHM
z-ZrFj@bpT`QhrF1i!>~@fjfY(S)!n_sDu1b6HSqf$e1Jmq@<z3PX1Ve97e2-=$B3w
zbrTXM$KJRoNiB_zC%Gp`QpQS{_e&lQCTax;e`<lX!E=N?n$T#mcum8cU!;+uDrXed
z>r7f!RJN$fsBjXg^@%wJCl)26^}}B#jcv{;7!3z!HpV&AV!1%f2d})h@$g4rOWYU;
z)tMcLyhoN9x4fot>pdbl1o(%Tqycw__bvBvc!&@T7Id=HvH+u)^+D7Uh~RoU8a7*0
ze@)beTkyZExT!j!?OK{Olq6fX-BBC$$QsK%;U1;SX<2}fXyZ6gv&J^FgWcyVbEa@5
z{*j$<XD8B)N+!hWuk1AE2}p0~y=Kj?v{KK6=T}+jJ0H0OeXTXJb)K^8)DvK=Ejp=d
zER06YRP|SOSN9Bi+E=YHQ{?h)yVt-q3hWcVXV8d%FmreWNUz73|0!G>{lv8RQ=|y9
z2*?S%PUMcAOdB2lqXQNj>#GnM2SEhOUlPK{i^w%s%hov4kj^L|D&_|UP9YtvzBA&_
zC}W%pB=EuwPhn(wKdCEcbqS0K&?@6p7z#Ys2$(5Wf{jI6YYe_Vtkm$CZPg&M>|+M>
zXkE!_>~n+>qUVm8$}>$aFQ1@>B$crzlJt<r@Qx%k?3G%T!wpB`AiDt#X9m8{9{#Ws
zuP~Bo4s5^(%f&2wusP?`@YQ}jL4B8?2HCFj?cg6YNgFYOmB!faokrNq<mhcE|C~bW
zsYu<mmg+VfN6i&v`CmcE5wu10f#CMJX`ODp=aW8f-!QxF`Frh$@TMyKdFxZR*Zu40
z-PVE0;9O6Cxo2~!XY+sU*;)#%nmj!1p6}Q>7iqb4y4<#*)V87A_GGE;NeC+Rg_0bd
z+smPirO?Kk@(0;l*?XZqpVxPn>(`g+*Wa&?zCZjgl#kLMra#Jjn3)~;(f!!(%uBoH
znpaG3FL%aDow0J~)>7wI0PAVI6b7({u5x5cDYE7Ez(+5C`11Y8GYc)k>TM6&g;4$E
z8+U`9)35)Rpfn$9B>&w7hofQF11EjP3JLyj+1F9>bxd!c*?QyY>rdbJJ;mjV7in8P
z+;?$s3HK#&n{nR@NIcTD+TyKfR0&mwXz<<&HNh%r@ijYl0rtd@MqCz5KE$XI&jov*
zBTwoIMKPIREv_w#)|lr#e6Mc-jN!&xpUjvM<`+MaNinCZw^@~}oGcFGc?!cg+5?Ry
zYCcbaTQPhm@s)1;VZ`ATKOw{+nGVkJt9q`zdiB-vswYdUp1j?{T=VYvI_7<K7eiB_
z*_PdR2FiN|OM3?I`@YW&9hDmky#;}Gh3)cTBx*e-?Mwg@LiJNlbw71NdKOGm!ZFJU
zy#wV&5R^HR(DFq!rEnE!1jURpqaxQ<X-X3N3~9KE#k4%$w2We?FiDH<K}&qfAtdg@
zLpccb_?S8$+Atqlx9E3A0t<rM{9GEb6{SgxRO#~NQZ$=kNKeCy8{!8&{^ksXHb!OG
z>1NK?>c66be@l_AxcyJ5hN3Mr%acejaXWyor|p8Lb-}U1y?J{4fq)<KSmp)z9PMc>
zyH}Uot3fXABjU7jZRF|*X&>dT&84o*ctVNN+xl1Rmpb<HhX2FoF-3G5H2O4beJ4{Y
z9VPPvH|kUQOa?ECacyWZsv_xxEzRg&{(j12WEF80j{(f5RYv`?I<Cyp<`^3)U`Eoz
z5akki2&sq*8112_`rNd^n0+0+U5!~J!?}Hs6><@bpAFpv1~2ApTP358v5Ph2_knU&
zNns>4#@TeNR$h-4^>jw#MG2PXp7&&9=H9n_9_C|xjbA1$3_S0P%^0b4B~{+=@QaPT
z=jB>IQ|?LEhnL0KN>h@LjIg<V?7~(F<4iW7R@#wu$!MhEti9%q2_Mx?ijovDcHzf$
zli;t3$xvjti*TXdNe;zZD-OjkQ?ZM{8LNu9^iUelJ*+)uk9R7sKe$DT`RNQ&A8+MZ
z9dp=OMw|?tm%Sx0e0%sihrQ|?`UBSm?Y|*faEhY%OP?UF`BYf**FxwQLjSDL|EbXY
zsc`sHVej7vYknc@`&8)trNbpUz7!CB9S}q`*zmW){=35dPlZ*V3Vq1_LOAqS{^m<R
zzU%Kg@A)jWZZ@=%ztp)Kdg8o)F4S=G#i<w1`#%fRUyM#gFUF=~<-qn*V0$^Rw-nfW
z-a8j=y!gu0D;G~pohXNUOX1#fxUUrMJ0E!9c}^5pPak|B(C>pEIO3uhm|eU30sh&6
f7<e%5NKw9L`vbfeL;fY_R%BcHz83Jy_~!owq8_zc

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/fx_utils.cpython-312.pyc b/compilation/__pycache__/fx_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3bc82c147fb47437b208a55f850994e9cd96f8d0
GIT binary patch
literal 4507
zcmcgvUrbxq89(Rx8XI4XjrpI1#35nSB!M(Z1Ef`HfryoCbPB1md73=qdjXT{KRfr*
z0CQJVO%pVcLZqq?wOyRO1e8r7FRS;oq<d(qJ<N{Nf$lQ3(l%**^F$x2KJEL?wax!*
zinJZ+p7R~w@B7{Jo$s&z=yW;=3{|`m{z(}jf5S~-*z&~MuLMHoiA-dw5<jkjN+W__
zh*<m<ihGMHMy!4-r$x0SV)NTLZB^}&Qh#a0;dj8kM6r(56u{S4*`|~Yi?aRaqTjhI
zPpMMM`ATF5@RiGwBJ7M-55Tg?z4O=T6zDZvB9{S<>*;X-!3hZNr$>+rCn*P<il@hc
zlehrEv+Lctl}fm~C*MW|AXGgK0({*AvekI!iUaRfu7qzLUAJ$6f-_ilJ_XtgaH;^O
zcGolPq5*hLHOSRXQeVxN_^AP(VAx;L6&4&)l{}@#n2#F5@C3}2!Erqn7#@#?^l&U1
zRKrt>3?hzK<FCH1Ff|sG4fi_zy<q5)q8nl~CM!k>Q}l5b4M8{*2htXJ*1BPuCkZlE
ze6>!<^wKkgOi<>c$gxpA&y?UCgTyBc7|u{oRf{KF5)2_0H%jy%8&Pzhz)C@cxnR-|
z$Lsy(r8YehZ;OZH$4s7M6XWfj9hcgbHZ?rd7N68dW6`$PRW;HUibdjKHHeD04NnBd
z^{}e7#wQJ1SmWPg6@Un7fM^F`nkK7~>stG4`&=v|H9eHN77yP&vUDU>lWFNni(PBL
zLRdLWn=V9zANYmz12Io@3JV_zq8Amvlc(THJp4*fYRix*`bFVlmV^O@LQ58YNLB*0
zA;O(#g)706<gbLe@ogDsRWvrMg`e<etr4ba@>ufBoqAM%G%Fo@DD^HM{?K>NmwNf$
z(ff^=6TNA%mw6DvigwpF>4&;;{W^d^gZGjjRTJ`tkPvn<y?K6(Uad?BA%T)XB9cks
zqXRzh20#FP>R{pb$W5yuxYz47b*LQ<N9BMPS3=?8up$SBqk%|pa!6r&feSucQ0Fi1
z>KPHu_5AGf3yoQ6-)d#;+vjptQc;sDA!Tl^&L%yqAk6i60f^0ZO3;FRP^)QYKV<#{
zeGl?}g1kpQ5buBlj<;w+7z7Olrd&O-aaHz4W4ad)?45FW!%^76<#|C-JS^J-(`Mx=
zwkgN<15*PsJ_{3CsWJK7BIt8$x)-!dOMAgI3vVv6MR~a;^;)Vg-O!sAd*OF@JALj6
zTK*XD^49X9wKn*ru-z}gUR7Yv|KOFt)x6QFtO`ED&?-A9>*30p{#Y=g7g!I&qaBB7
zns6f)9P=~j*ha6+p6LDmnUtXkz;0exc2K2kqbdyJ3DbSiWDN^S@_bf$=D#<YVF}9<
zJA3C0An%q|A@WXgTcRKHkr4Ev&BicAY#9Z=2FvXS``Wj>hV90z16<E;v@hhKFEO3@
ztcG=5Q<%n6kztR;q1r%=F>H{b!@3e-*yi{wW~x2}v>|f-O`&Z%L|!5v)klE$6g*ld
zOpt%wRr8K_95W(!iudbQ>V27d-)B<GqJDRBX);x@lt^jWw(g>5?EPN{yAOiBc1y75
zRq#%g7J?pQ9#z?N1s15Do8#Z~qr#oFf&k{Cd@wwA>|3~yJehSgPxq`!<ug!n`qTTL
zTMjM1mh#>2y?;8ruRkmH&ve1d>Hd7W9$~@w=r%_}3#?rQ%bg>1ORC!*`s_4RXiSb<
zMj`2e(}BlB0x7h|Py!M{!Li=3=vbfmNLbbr=~-x#e+uS*SC|)mVYR|Jt{%ohuptc*
zowwpBT0ql;eoV4t3~Tb1F^2VS%h2{F=or@UEd$aw`E~J(+t0F_l#WG^k9BF#AL{ZO
zVnQ6lbhl;57GAUo_B#+hH3{)uI!{5{y{K(Fx%xAB&iux5nfk;5hH5b<PFUJ~lHmwz
z;i#quqalT1a2lntd{d_J;0o$GGn_pA#Nq*7Ul`iKum!Zxs1gYxLLf4(^XAXN8BH!s
z24+}V&05=rV)g>OAr+_qG+Q*Pp$9+}&evgvLCL3HAhh4Y^iT5jH2JE8*gbQNk7~a4
z$kx1Cx94Wrjj~^s&wTswo`cE8<Y;zJ+swJgwTF{GTyDzNcC3_jWXd|ADAzYboR+%&
zE>+JBz2EXkYD$YuX{l*da$Y+#duB!QK9szxm31qXhccCil5eJ1y7ExAvU|neowj#>
z;q<IH8#2y@<bg+>-$^?g{_Onj3|*DVuAQDeJ$G=nb3wS$wd$$7()TYbDIcIY7jbre
zopX@V9{P>e0!M$Vt4E{{DD5F74}_Pku=&VFdj#<#`*EZ@?J)mApfHDu-5ZD%I|c@u
z%^kx|E$yAWtl9jUuB;aWYh(C4NxFbCNLUkm)+ZVkRf)1@prI>QCZIQmj0^3(**xJl
z^R1H;5=$T!RVM?Ods!E}`2jo{)++2Q%4hUzQ?pZ7x)y>Dr2}d4Kw3KRSaQ81&Rv-I
zU-xI--mG*mEgs~l#aGY3qlw`P#Z*<{e;u^e;82KRN@rMe3@cQC&?rL<jTTO~21dgp
zqY4Yen2d8AM7I6;FgsaCUI2KwLz~_&4&dJoaVQp3&8`=lShJhLM#-$tSbw2_Ms=QY
z8KzOg+J}kI^jcJWiEu5<p3?q8Bqoom%8Tq3c!f8ny$y5DLMdId6YBn)wElxs{gw28
zPEO`ZD1C{}HO@C*Z_W{<lkys0b9PG4(m6JN`TAvibCxFi&2{+{a-5|(he+MYj>Yb~
zeM^0rL#J{C_Nf-WeB$|2?WeWr!Hb{nU&EhsZVPoUd_OsKd*s$grlB=QV80B2u-rfK
zar=YzH6(N8z`HP-WVbKhx}4eH#<7<De7WEKao>Z!Pvi#!8xZYD&+Xb<wV65}hgzKC
zOKRx%BflFl5#5M*{^rFS7dgt}NfYzLhwb;;Qy1>NSOjwwbhS`dau9J`i|6lNT)K!j
zuAJLNt5)rvbahk4-juW8uJ!oc(WOyNe_?gb3|$+U9m!a0)~xU{*CNoy1>vUchAl^c
QOm^SyyVds<lH6AR2Av+5?EnA(

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/inductor_pass.cpython-312.pyc b/compilation/__pycache__/inductor_pass.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..af9d30df2ef47d54cbb5129f8fb1a1dde830860a
GIT binary patch
literal 6564
zcmahtTWlNGm3M~2hbU6igL=`CJ+k75WSdImI8GEdyRw}GNozN4<d1SUos4HL#gT_Y
z=FZTv2su>?1C@5uwF7Kx83+&s$cGJg(R}P;^H~G^SYUr7$cC~Lr`@7mVEe~}DpDBT
zMbEi2LyEG}UWs?^J@?$ldERsGe<qW00>za6(YT%><hR%fO2lu}Cj~-o5}oLRNpjv-
z$O*hJ=0yGt<wE=`<s|ruX1Ey1MFhkRnbBe_7vpWoY%9idao!fp_FOxRht2k4BA4K>
zh?y*Q<T{F}T#EOjW@oW0*Ch~<&@Mf87tVo&MPXi>*<I|(^$5g@=yAQ>Oc#5xrweMI
zNM0s-;u_JDcSUbTu3zt<{drMOU6XPHG^TgbL0zau2?1EwHR-O0MsgWGw;Sg6(4M;?
zfA$^@O#`%-?rA`u(EDga@2By+I0%Ta!?s>t(g$F#p?P6+@b|dP`BA}*ol#9wy=YQs
zcW5Qcp;w%uYN<1n0VFhK&BI5`Ul|qMj+fL+bedXriJdFy)a|QSHg%LdKoy4;%O$2V
z!$kak!&aOU(+UcGtD>4pi76JHqpTX5$UXz(sWTPZDHUI4YPs;5YTLg@E&{x78YfMh
z*fFf(VT0l`fYkQ_<R+m6#SS7DXh;`*_Jx2<X<i(a+;&|4j7OH6WEIOXid3-+YMGwb
zd`a+?v5iaDyZN#U!U9qF09NzljsVPJppFC>A=%W-^Nx+vWcksH<4&<WUN*|d9F@&b
z=h&6X$>*NEbdrvn#>MgSyi+Jy<CjgdIIfk7Wy4e*0|17lS2W<0Qielj%kyqbQ4Gs)
z6s4NpcJ6Ed-3Oc5XdH{=lcBLC=|L=0haMRX<4j8h$`m)QD8-UqF|nOc6y(1@5;81@
zr2+pAVZHESJy>-F74p+Y>aUTSD1?u!YPZjRFuO&d>7gU08)4L`Fsnr*C_T<QPb3a>
zy|O62N`5Fb`>%tLt3xkSM|KKS)+&rq%aM_K*;l<RXhD+mL-8Rj18X(U>vjTrTM=;A
z5%}3i+amd0`@mZJlWWqGP(OsWG~mrf;c33PLX!{)emJlGDpcPf0%%k7s8<CCN#bRJ
z1ZJ+1HZbR(iZ=y;EC?!@7e@GZj$8?Sm&^(O5}Ff6#cFXXphxy?2?$ml8I+z;`zwh*
z8keC|Y!I0_FB^_**s>~{hV96uylfj)oLiFZGSv*#gl?8kI6o?~Avh=(CA5)HH&JHv
za==4hO}W5f1o$0{uwg(Rg`bVp|B^p0lC1<u4=;Z6VS3+cawDBxJXaG#;RBz>lK(yM
z<Z|+lD~aXgpE#?3*gYcrM0$eU3XKTwNpffvz8b93C}F=<pM}PDQw7f~QVIMV8fqAP
zltiOc@{KpV&G*G%EJE9;gxKiOU`}+~cwCRscD>D?8Hd#p^KGN;ZsHZ+w9t&IKjv%#
znQ*To&!F4!w2n)qVgp}QxuDtw<g?+}vR$e$jmoMgs|y!iIqR`{x&R`9f1TzHi|UA=
zqNp!Z%b*s{uyoljlq#k!&z0CE*|6kd3FN1#u!*+@+XHm8C}Icz_^Tg<YP%B7B6LS-
zDkHb1|Kqfw-n_<2mkk|`AXhBotqPT)1MV(wP$uU~jB6c={wQb|934&;FbODtd77#f
ze2v28IH^7<IxSNmtYkG7k&R;6q(#_(yRxIeF;B&{f@;lpdI~n)I2^Ze(EW-DT5ZXU
zZu5g4TX4_Q^T=5hkdE@5N*8CT24>?)1Ne?IqIz=zX!{88$8E;}#lyQJF!W+Jn!4<%
zyi}<edbKN{7nLH5psynyx<b(U4$}F=X6n#->d<XzBXw*oc8t3XaP~~IHNa^U3_{?V
zCiMbr0pe=-l-cbUijN*#<5%HAIZNL72STojPGA^hL3DzUh6I5D3oVFOL)L{BtXQ!7
zEc*W)#YqH!yx3T!&p|)H%WP-RYJL~QyZ*UhuYG?FcNRIiqcrC)2(!q<9c3Xj+rI+@
zU0n#~1z&-@^Ns{wbQbM<M+vwGsxDR^#8F4ETyPB2aOUMAg^N{3pU90DFBMM*Y&7J2
z#nSMeg$|QFRq{;`*O)A;OfAYN-AQoF%&=y*BjTc}&ez6eas8&+eT(ZQ*ghCVbC-g8
znWEYntf8?M`f6vp#!h<o=VXJHN8yT-Klbcs(v9LK5HGk9h)*U?Jmba<+pug$1;^rs
z;D~P6nJ-h@O}yk&HVs`@LZBN3Ox(+DgZt5Ag4?Djnu*R{aU+$ot~%6>fS1D9t*t<>
z=mr?7Gb*vez;!o*yHf@mG0lxarNE9h-jT>HFIG4Jz3M=V8R0D7@LqyZ8x$O^sgraM
z-rW1{-i@x|rO2l}{Yz&arUq9=-m~wgMn1_5y&HYlwP)qbhX*$IKfS*H>3`MNhM&LR
zb?RYecr$ZkJ#*ytnT^a-??$&GWY7Kp^7C_d&TV8SZ$v*ybYDNWd~W5?``KIB+x;7v
zuRTai)VfG|pw>+~`!-Yi)>Hd7Qp0PpVb6rax}iBri_1m2(7D$C8LGc#!waCbKWkXl
zY{PnCs$cX_pv@3Bpl{%1wqdmagn*t0n6vFoXwcfG?^5->hK_uNzN<141{$ui`J>>!
zEm<`k$}DinmnlRL7pdp!(fgyjYbtP{h4K{KR;X)@+Ygm})&@_{Xc>(N`^{aND@;S6
z)&`k?qg<l%HX8#9MkB6-Q{Av$DVA;a48YhCtnglAClN(t&%?)!dTOY*1SV}<mvFOc
z-{U%l@EpvwaUC9|^z`2xdv|Q*!fpM2_wmi{$@T8Zk56uNpIM4NO!ZxVd-?5^nT^!J
z&D2xtsi!tl6Kk;vUmbP{|6xr}A5bxFLR>d0o}cESCmb1_A3F_I%W;#C<f!GcX=s=}
zRWmI|ZW+Vd!$z%vxINXw4>6i#eYh%mNHzeK8&wp&q$vtRM0N;439x;~&^#~4vIs{D
zbS2~ko5DW&Om-Hl)-ai0i@ZX1*%Yd4<Z}q*VzqcQoV}sd34Fj_BHcByE4+W@_-fCs
z=e{7&tcL<%?I3SO!pB$AE86PumBOvPUl8c}DA1~P3gPtX@!RPSCNWb;bK>~Ek6oE?
z1X5puYDXj(*FzBBg=ZU=7$SOQM$kn+lZ6P;Pwyl>d@Y=dVO+S|Ww_fqUeuVwXfX=y
zHi#43Aw6t&(?RyTU3k?JH#{ByasTPX;d2l+mi<@?f<8ZO_M#rO0_iNuibw8cFA~H1
zfv?mWD+N~7j4IE&v0ynacnv*MP_T`^`gfqZ3I1byV!9wM_AiiK!^DQ40sKZ>G7k|)
zYoB$&vZEpPDttWc3M=R<0L0av!%-V;JVfIrz*MU`v>W#t*=i9dp}vCF56DZ>JIPOu
zpZw_5jp@za1M9s9Rtp=w<4e+y<G+~3+BZ!eo3|w94f+qlQb0eMZNysu@JrLH3XrUO
zGzpxhz<kdEW{dek#*9pdT>GoY@P^;QiJ1BV8L`Cm<Z|)`eGq%XQ}o9|c|04J7MdeJ
zEqr&D*BdANCJZqoY+JO-RiHY!D{oOUn4{WgEZm!1uP#^DVuRjsxGWPpJPUgfH^D<O
zj5Xabe|GWQ42lt=3Vd~8-$D$O^iEgu3c|3OfuH?tsC-xQd0Y&?Dy$CNp7{B*cb>gH
z_L06eHn~3he2pOd7svl2eQ&bP+qIYw9$KOA7j6~aw{BT=a1}$fh!D=)(9msUyyN2@
z@YZBycfYD%gW(?mQ~z?nz1&FFb-|Hf3NLwaiR8hXTuTI3ECl2Ngq5M{Rc@nG=*f8=
z*!s#9B=T7=A%YwPvZs8-l;;Z6lIKemSua_K9C=QKmkh`A92%n#Yhlz04^H49cxX9i
zI0d*=Ra18O6Ix3)7#tJ77&PEZPyPR)`ianz4>k-LhWxT?IMU$333%3M1|$LP9NHGF
zupKIr<<J5#z|DLp{F87MUsB;ONGkXX=wIxAUwj?jRK5oKJSPg|yRbWi_j|m@k;mZs
zc8B8{-iT+&VTP^`F36dR%5>X}I!x7orwlp8qENv@p9Jr2wi~%L=Y73Ylf4duK@7X-
z<${sCg^!U{nOb;nd(W5fVn(y4%o3Qq{X*8mcpK-w2^GAF{4Uvj{f*@}Hk13;llxbn
zevmwTf9!7`jGg}F`3GmG|EsruCB4>rc(rf6_wdq7Uxvtw!UbV-?DS^xa4iB6=~D8`
zD2J_`oqh!HwXxHWnq!ab=U|f$+NUN$KWm>l82<ORsZ8`9i9z#TEC$efnefy|`@MZp
zgd7Y{jkn!95=Hn#c<NMiG~~AN9Hdk-Z8wa!l+BGBJRg$J{thbc`QG%i;m)0uv+n`Q
z6-2`r!+QdXq<*CQK)LaqjqpHCl)`-<9^WGH!JB`O18ND9=w3X>Eq8P;`+Jz_1$z_N
zdI76(sN9rRGEGQKFcHhD7d7sQ+_?X`2k8z&BXuK?#h^^XI1%OTIjbS=o3e^sxyY|#
zctr8voADW%3!kfj+lQ~K*$O0vc9zdkc$=Y?yTkq}hW{#*^<IJ$e%tWJL>5Q9L5??Z
zLV0`~9d7fLjqSxQ559)6HG&noFV4yx4%CgE@?K<LV0l2nE5iOasA?fW5b7}^bbU%X
z_<#GSB=H$}@-uSaGt&24Y^Q%sUi%+1`I}H?<;4Ba@UNt)KSacEq!uGxy^F~&BcgER
za{^T@9ufvuj?@W!Kr&)yO^gc%Rzs`$2k|cmG(m7aa4U06NZ<IIEdrmdH-!!%vvO*S
pz^Ar9DRi$4td6YOtB2PIkJJeCKZ<?a^Rf2v!1`0Cx3JIU{bvbx`&j@0

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/matcher_utils.cpython-312.pyc b/compilation/__pycache__/matcher_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..985ea9bb84183c0965b2ea0e548084a5333f50c5
GIT binary patch
literal 17044
zcmdU0Yj7Lab>0QAc)v)303V_V(&7UYC0Y_C(Y7R8GWDP(L+_+U)F2RdDS^a;UI4Pm
zKr)-rOu#md$fPNuB(3NsGZshgSni+5)6UpQI}>#})4`f*f$YdLnu+tn|KLy_W%{Q*
z=k5a_xRm8g+O&6O@1Fa<d+$BxeD~bD|LSm9DR42vUqrvtLs7rRfZ~iYu`*|%s0HdQ
z#ZoLCqvCXkj_X1?8pFDnKBR}YK4yqBA%?^mV#c^BWFj;ZGsi6<3!#lMYupyH5!w{9
z#~mRDq0KR8+!b;W+7ffe>q2$$`cQqmA=D7}ggo)aP-EO1@{)9G%olG8H4)ktYmT>s
zT4;*XkMB}CU3rfWRcM78e^#L?@9{kqTA@PiU!u+zlv0(qW}O{hqR!z;T?(aH=Tqy{
zc|<8yd5^zTp%qHA&Tg)8om#a<G^o^7d27|mHGGLWPgLqsD9t)OU!u-aN==owR-I9O
zsE^ys)p4dVT{C3m`dK?J5FN#}jE5>^73!8u@Gn7*txw(`)^STG73H@)d8zTQEA3X^
zT3^BSabE28m#Fz0l^PXFtLD%)9d(#uomVN=#nHF)Qr^&Z66=Q8I&QlfyMx5mLu^A;
z>>!EtKx|`G>`oHvg;-xz>@E`91hLIkvAd^qftF9P>3~ku??3RO=!~3CrTNHcI?kmp
zCfQ(s78@d&bTT}aNsOkW$wVX;o#t4GwjQ56eu?8_$q0sg7r1nIG{f^;A|1XIi^apE
z$;4Rn0%klNjb-*H*q1Xg2$@d3d^(uq<3O5EW+I97p%X&^qf8&=ro;{51SFGY!mnb6
z@C81ZnGB~cMkYDYGjV8gXm~0SiAP7zaEVlsKRp!}8>(ZI6I?=#Je`iDt8>~Wf|tf7
z2T9A&1=p!$I>JvKjGyONHk!chx|Oe(j78F8&=t{g^6dWLneg!wr$u*aG!o<3FjOIR
zZd93Le9Mzatz3e@0>x1wnx#TImge+hI#zep5HfHKtG`Mqi#=q7u%Rk!VwtN{$jlnS
zx3DJgt*jY*8*Ab0oMU`Lb#oGp%muYup?24lEnpX2FGtd&7digLOe&p>AD<LWTq1HF
zdOa#L3Mq#)_IJfYV_(zYOHS$AWnES`UR^>?=e^qT<DlGXT>`#8ONEtjp`fI>HV;LS
z8a3j_iAr6aU#^i+VzV^VuP9h5OY`+vYTT)$R^E`yqJ*ZPPvdSSRC%w?vqT32R^9~3
zqCK8uxtP47MTSjJ!Ai7Aky60Ha+ji`oRY;T1$iHqcETchEyA<F9ylSDZ~~U*B~CQS
z=>ffHNO7?-sgzOTpA?Rr-|zp=g9GXK<iKQfatkb2V74u<XLdg`G_ji-h(*s2Oilr}
zCI*o421b+d$tbK{VAg@Sv=qXbbTpRQIyohp!{KNmnhuAjn`)NHRwbnmT1;I8Z-%;G
z*SlQTmot`z_7#VYel&D6zpL1~RcPH>Y#sclb+B;qY|e1c+*I26Tyf{fM>|L6#){rP
z!P{5#Zu`i)?QS|}_>S#?ZzH_yzuLNUE?xBX3BJCZ;Z6IU!Qyj4;kh8vE6^4-sxCkb
zfpfvLf@^Alnxc4I<xA9(p6>)gG{6v~ME%5TDP?^4O%TtwgEzgg_QO_>|8~f;g6n67
zdSJHm-9SA-+k7wN;{)KWZqW}h>$fP)Fk&jcAH6k=VL!-+V#)$2M_8Fa)w(Pl1>X57
z{ayOBG!y}v?|@8eJA@MqA}Xdm!BPrhw^S2&GgQgdnoD2H&Svvx3a-H7X~7jJm;-D3
zi5y1yiJH4wT4+fK<Vh`Q0I^t4jbrH_gQStZZAlkg(($d3gWm{Vz#uZ|BtLplWVrZb
zdWuK!M^e^)I6nw!(~Y%rPs;6uq*NDpu%ca_Yu}vxW`6jlq1Zbl^bURK`DN?RTLssd
z!U_2LGX?XR$9(;HsN;*jJ`K4f_xp_kzYR(U4Ezpwk<SvDXd=C9aGfs~ZR8_?uOZKL
ztL6wui7!BfDP*9kad?M$*S2K4GyK8P_m2v$<9By}S1=#{KR5`cF~Az>9oyF%28%Qd
zV>`A_H){_9B)zCT1db)g9rlBX_a_9`$-A%)P8Q53$q<M}o=a!=#3~ViqKfEFR5Y+2
zz?a;&=m0(4aTbJaG(F`9x#N!}CNt@jKb`caFLM6LNIK2&2|yVQ!DM<QJ{jZU0GK%T
zAkQaxU}~J46jtvi0!=hZ<)^*1A0)*e!tAIyXQ)q{9R+g->2omPMlk>wi3^8CYd8#=
zDicH69!As>lT!@mlgSv5e8C&gL+Q!;(HlSy8H(SH9tsT65Q_pb#5E}zCFI5L!$cw&
zQG7`v*ozc;L{_puT&2o7BXgWyG^|kgF1snC=QAD6I9BvPm60kN*T((UNHcxtou$z~
zLHtv6*{EYW^M?G{8|SW{6Po%SQV=HJO`08r7FCBL3*E{uU`)RaQ>8#M3uOU>&FVNk
ztLF@?0Uib(BZN)x(9@vzSu;zIIdjw)&04NHLJVu>jGRdeI8;F}3v1KP!`j!0cdQdH
z^})GLs+qHDr)bAYUnK3s#;mLhz@qK{MNi$(Q+tkjoenupQ-OL>VT2mo9u!T{R5-yU
zUl%PGxd<Ch!7fF#Br@?Z22-LP$%#vH$eBrT;jvgGbupS4<9LF&_~&4uj3VAs9I`lJ
z^A}+C{D5Advc?%t1t@E&J{3G0)5uc9&6={*n+^&}-$Kp?M*~m=u&L(A>L7$rfViw4
zLaL(78X%<h3RI|F$ya$ptOit`h8m$PiU;B#mnJZNOj#8&lOC#VWEtL`Mjn^z4Xb^c
zqS7te@dUvIoO~T5O9+=qWhP<liTpW?u}9DwLGLB-MB}T{ESg~2$aGqHvRMnW(YWY2
zbZr0WBO}2>2Tz4h9Y3@G)GM$*6D@L%<fLd(V*_R)R(Xv!_@mewLFpF2O|T$R;V==X
z0J+i4NJ0(!INdJG;F_hU;^t$JDRmXR-_20vddl9Ad;Y$+tLWV#c(*Kj2Xco$F*{~W
zg1IU0yJzkwNwB!o+zIH|sk}DyBA{+Ad0Q3|^NGdu+gIMYB6xQqjxPCHi@sjL*L!pD
z-F-{@1m80Vt4l3U!OQh4Tl4+4ZMoq$gP*i@<7=({#??kva|sAo%hb5M8X>4UmR8p2
zWdw1Uzs9lafIGzs1KY;+%c-lnQmI-FR=s9>Sf9FvHOd))mvq20h6@Ie5c=S!$VgEN
z_ICkBQeQ-op?QrzjvgAtmKbRxVVO*(qPSB^iOj1Rj-P@}1=t`QqsbJkxdcFI*h#0b
zMzS2F)qrYmx^11+ASq@JvZVeLJb>7qrlMz);Mufza@o_9vy|MP1?#*uzb((+n7BT%
z?C#4kC1?G$@!9cwU4Hn+vFpc{oq?Rb)U@G-^}2O&@TTY8_NDgare|`FlDj#-bMdLg
z%LUiYf_bN;_5K8!;a@=y!8!jm@J6x6ibEzQ6aP0rRHIiISe=ro@|K5F8^MDx(!%iX
z(6?j}b(zUBEHU_9Hl{1$gHe_htDhK#PGT-Ss!iO_Up8fpSuhjA^cjKyBVY4DL@eM}
z5f1(oSM8_RZ<t>EOdbuAlI%bZ7xghNp|E^SO;`y6x>P2X7A<7H!^uoqG{KxBQO)@h
z0F!o<UF*#C>WyU#YER)5%uo-VRDD;;?!FeB4VJv^rFvh<-5@h{sig;&#KN)pV-H>C
zdTY)IvZApyzioabXSv_rxwz{`-@JM9hi}Yv=j*-~xILURm0V5vo`Oq-ciNMSAhddN
zzx32<PAqC4P41JYTiK2>M6Op%8!2LTlV%0^O%lFe#SyAuCO^bYf6)L-`{)@gJ_H^a
zV0U}bwMB4kDcKuK_PUbYrHnTW`|;W1C3`bQ9GgA1;xfCfWy)-^5`GEj4h2CEJrDKp
zFQB&{y#wHhde}lq`shWBBl|B{trP*euocY!Uaz2J(IKmhQ4aUpOEiB5@)Gp^f+Q#q
zp7ZFTnn?}7%KaUHVJGG9Dz!iLnajuYJg93dGw=rd>+zLMNSTqcAZ4X|EoB>0cB;9p
z>_7?@mN##hZ!KeKK+;y{=XFSJXP8}8pm>FXaM@YUbUtWkTG%tcr_2Bit+*R;w_i44
z$V@pKuAQ4bmmd}!{;~z5tW;CmLUuk|wqeLlSzWmdF%J;5eREi7d%ECyTCi+eabSjC
z7h_c$0J^FH4AnG%QI!TT^q2-7IUs{1;BW*-;ZdEUMppg<qN-s%Yf~XTfzM+G0^bb;
zzN2N;2oPTr!UOErjyG$^j~QW8U;rEKAFe*M;93dPwSgqGi%v!ANCtC&xZGqa8cQY!
zU>U8}%}C?3@^$bCQq?^%Qq@%<RnWl%sp=GQU5iu|OB}<aY?pBJ%Sd&hHv!&~K|)(d
zOX-9w3=pirQ@+*Tr{bvZL)MjE@Bl}ZZ1squ+7^=Y$z^Yk7KVCL!-j{gk@5Hr5CrSM
zyVem?arG$58CaUtDX1h-2lB64nQG)&7b&Tu2$%>k$^}qxOZp)H6{zD=fG23pMCd7P
zv~iEEm^Z=P16Bjk_!<|za525w;7GuSV&;<1QnpH<<A+d1Y7clYZe4-5&;9MWIfD!}
z&fjx)+)n@O%6nHnjNGkX-hB)(M_uDW%X~}z!1p(Tf!EzQcPaNq!MssoxeWH}5_)7;
zR6R;4`N`OR4~Q?;ILb=8tk2R~BY6vIL3i1ZmURk6rB%F#xDNLoT6+`#9rDba12}M*
zffn?@IJzL1&b|RP@|BOk#R$NH7%!}nnJ5;W;6y7J+0)SrnPetKu!LxY5rvHeS;<hK
zb9FUXtLP?!jh247q)3NTD3J(4tcDFLM3fkK>uR`g1B#@Mf(P2nO4a*{bsa)o$70uV
zU2o3#pw(Y&-7K_jUT)n|FgM-z^xU`Cml~Q&^_}R;_`zmuw9Z;`bZ!@D0=GBkAd|OB
zGN`jP4K01~Y{5t)@6<S$IdyI-NtL~VHb%(ml=*>muM2+qU*G_D6T!hkHDr+C$OCrj
zl3^Di%<9GNhnNb|t{FxN6ugIp2Eil4==K#|U4jd+SKZto>b=Frw_Dz7xq09x8*h7x
z+x83F_J6o*MXy6ZppyZCv@^BWAOevg=0*YxB<Y5nSA_{G*0Kwja1r}~*i_d2XvXK!
zLpDiGfd{((GabXUFEVA&&h57ix6|+0K1cGmPCe6Jwz?Vb129jcerA9MWm@N5u+Q7e
zCJdQD8DHBlyJ5wGp-m>xyh>)Et1@Fq$^6IyA&I52FQf3N&MH$Y2cX-lw5a`mON+v(
zrbS!7YRAe3EHgRnwEm%V@9*6U8=BFG#<qjtaj3?rLttKF_p_`lo`Yni|M9gpABP#|
z6X2zg$!pZHV&16fysDP}5ep~L>jrO?JsfKzD&g;e_&=d;wM_|CiXGJvnhh?1%HUtc
zuS$WZfEQJBh-TO=Mp>|#D?=s=c%p_C0be_0k~;n;s4#^Vhu=dTH~1EwoqskTS*%}f
z*pxF9^_+jb;OZ@ydnI;OyU6FT_e4$OJSa{T{Al>77W`@4I}-;ZpeM?;x}2O=rCecV
zFB^z@WwLOOK~b@!1Eg(&6Nrk{OIp;5T6F*L@cNpRl*>X}L{q0U)u*y4tR3CeYV=>A
zlGIM{K>pjQ_U-rWUfgaswyn~W?N-6uii&b>h^Wdr7|Zs8xm{Yz)!%Q1s>oW#-c^s=
zIveUgsKU(ZZ^?TbSd~|x1N;nn-v+N{{rMqE-8Qc`LXw936_(xw9vPu0(vWwDG<Bq-
zMo04Bf?C(tkYkwo1#0pt=0Wct;7Oq}f1H{$FoCk&$@o>x2XvL@!;qPR4R8N^f7yZ|
zYt0T84!H$O--->>{N^eZ3UpOP7^+l+A?=DD*&t2gNBo9ScvPntzgEV+gnETjDLb4*
z8MQ3+pzgHerIR8P2j^2-<+NjERceImMNG)@M`+gq?ONCSR{27c4YuWW?f#?j5OSdk
zb`TZpBq~_B{G?nh3!<G5FOh+XZ><J4KqV5h!yNrj?whl8T7g^CB`Rfo32p#q=^s&l
ztyA_t->S-yrSa=lodVHXGn=kcR@->JLRH>M%@e)ASte+)sx3hDo=Q%I`ZL{26!Zg8
zEOC&_tI(DAcvFQ|sC9C-DCw2Ava^P-Q%|F&&~88N&m`bPXfnyedAOfUT6CJ+V)CcJ
z2p{MC(=Epnu_?bYwf;)(^HTvAj{_`is4EtU?_yj7cyPf`zQiY8FTwE=En|~IVd(;w
zkzDNCE;8gT8YKg!Xsf<^D6b?a1UpQ!H6+!OJ^Xq`4&|1W(rFb={RTRa`aAG`r&>8S
z7QNkqw|m*!TWjZ#4~bk&KOTY2O~HJ&5E!`|xZ7IjIlBx2SJ(Zfj>Uk`)DLGtjt8!$
zYj4cHaj$cGv2%~mxo5d^-$$-}WWQ6g_kv)zSPKvaTVQk1)h>V@boCU>U}5gL-wd_9
zJ@D2*v2#f19J&+uVBr0M;<IOkXU{G-e+8~;IjgV-nrR+m9e5p9(HE=Fb#|Mw5`-31
zr@hBq$1Z?84Gut_ruACu3{{K2_)S^ejKmWvr$LPxyaqrD;N&~HTPRV$5sQQYEfQHB
zLZ+-v;w>oMDCMa3vz1dfU4^F~*Ah#;qgQs<=iqArpy|QNB)0~~C~%ExBQ!x4dq7W6
zmShjXX<KC=!3fbzmVG#LK46o!xVWPRX23hQQblB`w_=rK;{OsUG{5k3n9~}MOmJaR
z2^`B*%qAr7H!vH*sao4VVgvQ^oXR1q@!dl#cLzM#OtR2A-wM0?Ye#2~E;4W1-?HBx
z{#o$7U~%w>FnHvlUPn$;%oLdZ_s#Ar+S&zMd(qbYk*&Mb&{SyHRIqOX|9;bEJce`3
zI~K=oAN;Tp$~8M@M{@gfmw+!kE%}{udkc0yn6}A#ZZBF~j?W)oJh<%X%N@MmzI|13
zxCaR}_??1%16DDYsjftVnDUB*@1Q7E>vTh4y^~m6Pl~KmPFZOFub>1>=js90u$d@#
zAlD441PN`xoGDz0a8hlh+@5P!X0PPA#k0$<%?0yjsmD4<Rvb<=(UaC1u7+M}9wKV-
zwbsF*@`Y$2)jDTlB~1uds8J(ML!Z{kM~)n`aLHQ9H>SI+Pur9a(BgRHSuL)wXlkvy
zKEQYKTms%O1bG}L9#4AtJa_>Mk9Q$>!YyR+{{Vw%nXT}Z#8A&*c3F>PfEK;#y?1ui
zm3N!On}io@b^$+va?>rc9bKL43NO~<Jf|TOT=?tQD;dT1&F?EV^au?-#fBY1!w%2~
zomQ~>0^W7hBUk0=*<fMg;O&#b#@&K_x6Erbv1LZ@v*v7IxP${GyifVu&CI*mrR+cN
z{N>)C@4Z*KKex(Gpe`en9_uaqYV$iWtyeEZD2MJzmly9L3siyPQeon=aPdo7d}x@@
z(ih-vEl%iHAf4yY!&wDsHi&d(Lb31UMjVLPPNZ@2QrJm<wQWGTsHDz{WE5z_894x%
zLF=m*0nRVGJHQ}sbFGnCp62}EjeXbm-R!t|a=CS&(C~D@{`3QPWA3$_tc!8I1NeC!
zURB4LxbUksW;-xAj9$&23>OgpB6`HSscFf46O+;V1fJBtfk(Dz4(6-$VsDwk_w6%x
zhTr?z=Y%eAqPqJ&Gc__D>Mjjvgd61OG0zIF&N3zwBW3mRqP#h?VA>$5gkk#CN`S7d
z1f$T>sZ|N4IW5d7TGA3L6w+lc!}zL>Ngsjr)hA&Z{J>FoRA-Q>m0tj{$~<Zz=27W@
zQAZ9K^>Dz5w+PqSx#1kaUWI|Z3jErky`O>7n!C3#1N;Ue9W-jDKc<`+%2f^&tzw-l
zC@TNs1f?wzE?&i<aKmTi1bAdiL_hISB3*Tq2!}T0C{cwrv~rCfgdQ4MYM{EJ)hcKj
zd$IZkmLlmYAE3hNZse<{phN{u`-|RQ!P~p+?aLj$uU@_Sclna61YMz&>Ttrzm-hql
zgwjcp8p@#_)&Q4yiNJUZ=(SQo*$z~Ffg~3;WB+lTRLh0PvfB@Gp^Du_`t?<R@u(8@
zBdO0cTKQ|8q&!(2s!yV5YcoKYg$-#7z|=7s4~jr_;z$suC2NW5)B@?6O1z>n;gC;N
z$!S!S#K93C{f<FVtK<d|gF^xG*cjyB0E+)QdfUMZ=&G<R5zwYu?Mgr@0lzppqV4p^
zv9sZq&mIG7q;jP9HYU)lXopKbaMCLOTc(E)sXc|C2Ig^a{3al!TR{Fb>{D~1hZj6j
z*i%4NpiQ0E4$mH*I{+GW8v;YR<ZD`ZZT_`<YEd_rU3_(s#b06U_u&r4#Oy@A|7PUf
z3riR7L_WCq{>6LF!#Vx^x=la*+MR|E_us2K1Shnv#<|Gs6dVSwg=aWdRV%l$f!DTK
zDo3&ktkg;T=!aThcst?6;{dH%y_h)tm=Tb0<uf<}60Uq`rra$>SFhmey;)a<E45GC
zs&v(h*nUM}5xw*UM#P_B5%jvSeN=HoL+P2$MZ;qHEjVNYvTW6@lKm@iZ`@Zlo0;YZ
zHutqXvv5TQXizcoF`EfP9s_6~B^hWn`H=}ilIFmM14E)da(<N8V^2^FkS`E@<nNWO
z;frvN&+*|T&!RsmA2wU%RE)qCC))7;t*z3JU(%mvT_i^O(~Nta8-+hH`K__Y6vwBw
z!cUsfOT<7z=1<)8n7pJ2;!AS;D(-$v)>qM7CR<*liv{v;m|*uHHWu-jCoL`gbw(<b
z{y^giE+GinfrI2k4=?HScppOC{FsX6o4uU!r>1=2jFeFR)J*ZXH5c_TprS7PA{^et
z;ZivM!f9f;u?XDy<59Ya^<#KI7ml!OSjoZvIVQN*v~n7w4cLm<TDdSDUX$-6=JQEb
zBWWLuKZy=WLnk(|(jTj9Q#zFt*k^~+`0MJLJd*v&z(z;YqAMJZBoc59n%r51KRWQ*
z`)G!Zh^C8?6#QMn^B(Mp9WDxGAS)Y=XJY&kM3J8(_(MpcjvzL7g6at4)cnOEn)gWm
zjO^p@LT2D9Ds>b5vYw{tM@EX?RG^;vHD&*p+Wj%r@f&L3V`|UG)X>M&u}3-+t$Rd)
z_qm&*kI)}en;%%5*P3UW@$9;2*(g{x7A@U^rF+I$f(^$jv#;P4w4$S5aP$`)gMwpl
z#)^B6k=YTvyjQdb1bd)p2NAk$#!~WaSeTlhTDUTQrRdu)`1TilBZ6<FKzV>MnWlW>
zjppmkH#S_~P;A~SH191o9~7DomJCh#t{Z{tfgAnT`-?5l3oXwVTMi2?hf4-ub%`TF
z^O0in38DE!*<=XlW-PhEIdi_R;NB$Ix>hIyt%Lh&h7ARMLs8!<=v(jU+urKA+4XK<
zDe!LpQh#CSrF)%6OKqJuUb+4X{+m*4dsb+Bw%B$+Xge@7lA90=Ee}B0M`xqgVzaTL
zvqy0D6rBTtb702y(AZ9Q&W%2#;Pr5r9;Rt)KKziv_rsvBo3_qD2wo3Q(coi}6xc`m
X=8_L7cs)FzYohz}uFolW5yAA|6J-SS

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/monitor.cpython-312.pyc b/compilation/__pycache__/monitor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5dafcdf1fe0f42e58689d248259aac49bba43a54
GIT binary patch
literal 2468
zcmaJ@&2Jk;6rWwM?X|s*)ATEGLbA<A+l3}>tB4j<r9x>dsM-{vv_h89YU7<a>+F|i
z$5mWXDWD!&fmCiS;s6H@se(lR1<qVzQe<lhQV>Xpn?=Hf6K{6CPMVfZ<e9hcW8Tbr
zzxO6TX0vGo!xTO<CPjpPXCKjswTbQfKs-V>k&blEL`AmpCTH<Q-ij4tmQWNp#*3M8
zD^W~vh(|bqlWSaPUlestOX-4^#u+T>@e9D#6Iht%_2fOFm~GP{&|P{;%i(U&N(Wk*
zd#HFomvA@eW<lOl<CLzy*tRoD%s(*gSgv7e)Nt%+$DTLJer^xzx}#%1eakehP^fTz
z#;^^lnohZlNjW?nLVhoGNNGVW1-oI@qZ*+qH7x9BZi6)l*xse~bpkU1W)`09dEh=m
zv?HrTyY5-n+O)<kqYAU!H|{ciavu{uBfGo&GFO4*>>o5p9phG{{W63WPa;J0Wu9m{
zrz10YH@3`I4!o$R^E&@sY>f{k9HKpuPUUb!?XJ48%<t+h$0|p6Wf28_`XYLFjcyac
zLd(*8B(1y_QM+rT&!JlIr^IInJLIgw`$<<L*ruK@;w8hQs<U_}f2j&!u*<TJ-P*kD
zRH<8~GIiuJPs#ZLODAD5_ItuS2dHVM);}8MUdMCQvZ}*Ys;kijU$6i~gyqbaZe6=}
zU7fyh{r&f@UH0RF8$WI>>IU%>A*2`=?ES1uFgu|deu|o>x{hZo`8j|R#Y<GRG+P4<
z`YBa~dtjofia=P3NtXE%m~+CC<uTtfjDIf{sO1)1!yN~FmN6Y)s-Ao6{Ng!WFpar_
zTcZn(U0`@E?73jUascrTnQ&|VU<m9s2STMjhkMcwo^s6P=P<3HKZZuWu6<ei>f?1`
zVC&Sm#;L3IQ&-o8BhAc_MrNX(nb^pjUb)mv_BE1&_2l5Ug~sqyeR%4p<kSz7zlevn
zMCoDrLHhCJ>gfISGqJEKc0H6HNb85sJe_<dp5Mw3HS**2{P?Q=z4gReb2jo*_j8-#
z(S~@eE*|??9BJjyCGK5rJvp@v=RwbvUmO@g`E3I62toNUm3;%simS9?y;np#C0I%9
z<%e`oHq*3IZk5c7Iy&3=B_$UWQoCzHA$3KTpX7JxmzE&wo@lLOsUt1f2E8zIXCz3|
zL>r<q)fTZQk4>DNmp$3A0pe6M{kZ9rG!t4}+$%XQR#E|w2+L;xU((H}gE09i!=86k
z$1Y*Ndk<8Cjz?HI`y!xn2^yuU@VlV&SSV$gu%h(`u&t~Ai=+`y8G@f@!L)*!d(ra}
zyZ|&BVsBmSZAxdF(qKa>)TKhRr>~VnslFW~q|!SQlKR&($2X<^hBR82M!%U|oqT%e
zne=9JaQMNERvbwu059T2G5{WD{r*x_*UCh5p{r{ytrCWIY-@8S)=Qw#87$=Nw|yKY
z=;IxMm!XUw44sR5)~8$zDg4ZxkEU;4dPfc%$Q=jJc_=PXtjijeH5+oHxh`>BVrUf0
ztN~5PvkQhNLw-omeq{J4RS9clW=+-&FF4=?M12$-`_czho0(lE#34^maJMl0qqjBF
z&|zEk6&EG&0HD+G^9EsBLI0#7N}FBz7SCnh-j2m`=@yEm(ybV<gT4J^6r#>^28N6d
zLc~gf)tUzFSm9<AE;uDD3J5%=)&|Frhv_R1_6F#(_uXS#uAr@9r7jEwM^FwDR#)M}
z3y^0IFJaz85VN{(%fgOJSOqh@+M0z`H2`>k;jq`o=S@eWeoj?2+lD$}|0#H&##$X2
zVN(!jVa{>PAY6nUjhtW;LsA%R@dCU8RTEE<v%q5)^-3_cVjRcqh=`N^L|5wQ%CBhT
zx7498KHNwRt|Yd4j;!RG!(;2H_wm>U8fzu8-00KvHiD%kXSk8o$~J<fHGsyHb=3cO
Yb_1RKJCWkjtzMpceRXyR!4e$eKUEGu-v9sr

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/noop_elimination.cpython-312.pyc b/compilation/__pycache__/noop_elimination.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e021d6c7a90f8f96fd4dee07ea06f3ea97d394fb
GIT binary patch
literal 6746
zcmcgxU2GKB6~427Ua!~KX4l40j0b~*m)PrHh+`9qYlnoO0EtQ3IFQMB=dO2_*_qAE
zEMRMmkcwK;Aa!Yy+E$Tlq)2f^TM?;J9Vx2v(1%EUVS}5sMns}YqBd`CO{BC>J@?Mc
z?%H0HI+3zM<2!fGJ@-4`xj*L|{#se-L-3PaZ;1a0BJ>$~v43u>u_8lb3JFMHB$QxA
z7>2YRl4HaPf1Q#u;Tmz#K9}T9ct$+Xb_*V<Ea4sT(sr3tp74$M800|MgDY+^rsfg9
z13iTV?-eAJW8W>O)mu642>HGwFCoV89@DYPk4pFiym*Gk6USs7S{0%!>YSvEjbZgm
zq7M4XM2(B4<OnpYUz8+}6jBjgQBU!j7BO|3PmlGo@&{;4A&f>C0gX5WX2gkIaY{(B
zI09p_C%$EMA9;&cukVXG1m_jkE$hQbx!}S+Trp7wTHN`T2m7NQq3nulq*CzWEq4EQ
z7zI?Uem7-(AX_zF5%L>>6UxctlaiPaWnLE*nV83Opx?*B?{rMmSop`wtZ3QKCP9ML
zW4z9)IH8=!8vGSfvcSuvM~m@E+^$Jt1hYyK$R<j)Fx7TUC%RPpT1tc=Y*bO%=bs%u
zp{R+r*HUD7G^K$wt1IjUMLowRRiZ%}H%Fg_DfemYD30(c4YPbQDUEZ{WG^R)GUip5
z7X$!mLuh3$#KcI<oX~<tL5QF~hS{#6wg|7`FgqX!BEiT@(s(OOt&%}9EEDKqWu;9?
zvbaExX}zFejVhBBosIFbAYnFwRh<Xrrs?N-RRoK`a4I(lQ)!l@&_}yiwi702BQY{a
ziQ2d+-Grg@yo7-g;DW%FcrDK^8v(4qA7LtnEoGxH1FK_M15#T=IhoRlQZh6us)ey3
zlS`KEB9mM00x|F=unj95V3I-9jkX3;9d%tXlPud!l$Zu@UIhjI<V8M_1op;MJ{e;>
zO==P;iR<iRo1&cuU)DNW*`AKa51wsepJ2mb6aIM-Usxs4+11<1c6U)B>cX&PS_{?H
z%D&vz*~;2dAv!fx(p74j)f!AWO9h2eG`_oNyse%fEuo@&9SRC#5cbw623I5{J_267
zAnLKr(6A8#!c_^1yG-3<SQmAiSViJD)0~%BZC+m4dXivWJ;CxRU7=^GxzEH2EVO7k
zoD308gSCtWx{c`(&<cBxtlcMA)5opE=O*7uN+)FZ;+{lzR9?L>c>U$hv-Vcoh|fIC
zBA?|gvX|Dk2b@>GdCaSKLAU85ULETIq*@1APv%wCqIH;DShOV)4>N^s%+ek<{YM2_
z^151CvPodSk(teTHe>@%YH%AIxtyBNI2n%cg6FJx*VC|eI~SoK3qglNw-^m|Dg~6s
z^bI@aJ5%=U>^0YL0w`F!Sl3!?u2XWe8g6>zMI1$UK8Ykq*s^jIf+Yx%m`O*Pi5Cgj
z%^{R=oE=AK(y3cv4nk?C?y|qf?U=;wfWL8X(TmkA6`jQW>*a1)DAl*p&Qg(!z>rvD
z(p7}U^*x|@7SPnJM=LOC*TyJqTNtDV?6DvZ;p*DoEi14Tm~$-%sdeCsZEIzKcb6^4
zptM79OjH6Bjv^+$2ft{&-*LYB^>)Q~tnahAQ!hPy9RQy@*N+yQWR=8st^YFV27Q|w
z;Yp+T?)93|?zG27sW~#twYNd@o)U7!UMuZaXDPpe#y@{YuJ^7-^RPWft@wHazLDVC
zfzH5bF<Cb0oh+a9O;)7KHp!$v?cL;v$_=>prz?xNcU&9ZfO~Hdvzy`GaV_ma`Xe@f
z@sQmr{1x13hmC<j<0#}gp_0Q(B`2ccgrNFMl88?1eV*nn0^6)vLB16*l3YhHV_Gd#
zYq(`az?usA5Hj5KzA~IjQZrmU#M(xgHOMFvaFkC;I`pe!n&C?&1rXri#c)CxZ@A&Q
zRG}a8Aq~TIDPY4*uSvsmn#SygD}i+$I!XFu1R%iY1QBl5LMC9;S|K7wK7u}tBcY;E
zX<oP1{b_j2EY@%fcr-N@+G4mgEJf7{YCuFu$$-(Ep9Wea^@VtgGw1a~j8%AZk(|PC
zkwDBS2Q(a{fcPR{)Ol4moLCkN9}%$z`)I^Q6=@{9CAVDR_ur@6^+d8gDJI)sIK)bA
z7gLWt-h1vb+%Acu?a6UHrpWE*A<=G+D2b#f(ZsP`R+J=Hlz)Yj<A#^xNCw1l6FW;J
zuVMS^j{t+V0%!PTbicahs{4L$`_%Ebk6#_SS5=qMZ@e)3(#%V<ugtuXYv|54bmtoS
zvkm==Rfq1^@0=~4DWBUt<IlK15A2ve@J{o)p_`$1!#BgZrrvB*Z?5S`w&}=XU|`vU
zYPV0Fynb?SU@rCU#LbD@yKhb|1`piZ2BT*CXZr7M+c)3&@wV2b`i5M6OSZmczIL&`
z9p2_@W_;7`2Od<t?IBS9Qnpkbd<##B*TpIMx}2-qpRL=UtLx0xbv|%92AC}XV0%LW
z?b5D2v+<eud~J4Ddv4c(?5+cuilxRqv*R=4(AU_WYdnx`Jdp7(1-9h^k7fgp&L3ac
z`AOjDQm{T33}=Jk`4pgE3U1E@_hy58=T0vM_ru%tbJw5w)sy#X>ZgM@QbgJ8rI|~)
z#{O($f39&b+c@}1&CpU$@1KsncWhyF;kDb(W~)0hu8c5!Y%Vn)S!&o#n4U{z8`?~&
zGrm%N_w%5hS@3-l7%YI&7lS<;fLb14P%Zmlh(YC5zx2QEzf;@4@WS7`gDc>B*zT}s
z4Yx>klHpOYo>JvVK3)O=5--tsYZ@9;NVo2LxYHeaJ}$FQ6ScPJJ5%DjJI$mWBvKe&
zttlUsZJ=rW_aaT>Ovu5L<I-nuC0ddpg(;FuLHPhj&OyxpQvC}G3x>jJLJBSr!(+B^
zc-UD#%l0LCl}`}KKB(^C!VnVmlWK!?q?sk0{H)e6%B49lqNpI6RAfPv$BNWg^%XOX
zGYb+0Ev6It*a1LC$_zz-3t)d}CUV4JKnRk=7GfSL*nq9FRoYpjV70|&4n=f8nPrus
zd2XP-(=w{)X1NC{f0~)|kTFmlSu=(T7HqcbG8&)2R&tiN@@U9u_(V;V;h>Zw*l<EQ
zNhMwmIaLyhsNLkz0}qX?KA2AJfWJl+uu**CPwXjmysZ&BN7M|!<1%_skNkBRd}DaA
zV)r}o+krnu79Z(b3e-(EUq5um-}re&Eqr`&v10G<cHAEPpl&gAr0{X6DyVi55H6zM
z@K8r<t9A>y1L<zL0ga!p-Y?88YwtitQnZWmy~UY9KCUW?qw>+%xyOJSW}MOOaxuD!
zqKx3U;?>Fg^hfrYy_bfNT^qIM8U~tA9F62rz!0K~aK7?1Jl<xGBL>i?(OC#b&%i#P
zggonYXS{d>$dO<1OuuHP7zSPYfeWIF-#afbAqHy5>f<04av6?rhrwvzX-=aq)`+{o
zv6oHHmLD3!GQOBp4^Q-!@@a|dK72@0;Fi-4hx22920FE7czpd&^z~(QXX~l#;gjzj
zy*+SS%k<;|`?7(3^UQpAF3=AB|Dh0m+StSZJeMSDx=NB4!wGX4&IvIYa+`~>4|>&p
z^2tq?78JhC&_g4%y$VK{%TpzB`^3Kg6aFO-*2oPEK;fFJsm+{z(|6T<Z);uV{F|*;
z%kEWdxte;T??zzy$G_S6aYgg}K>fX{t#`Mc`XKV*-j6(shfhNLZq=zf-cxj4o(NTw
zdtZj_#&L#^;}TG;lt|mpaZovutS@C8Cnyn)Q%SaK_;olCISA-TZC@qjb;A*b2<9nL
zZB#qqUF{_g;w{59swfh5s7jVOwfDD(&Q86kl2Sf>kepNd1w5{xe>uW#@A9h*^3>(r
zO<8x-vZL8O#7yJa*i39zo{|5J$oq;DdG?r}mQOJ??%KKT`MR5jmJu`;oD0$S{j~W}
zaE0_NKjL*i$1DYRP7lu=oH>&X?q7D&o}NPs!yg`e|4g>$8MEhpdF2B)`DDT*2qEOF
ziYQPZrWb@3=0_vc9>Z&vTcQ^!5vI)*B;X30A)`wCZFr*>xs)zSR?NGV2#~;!{@({j
zYX6j4^(hcmcasOD<s@m51H@eL-b1E;4y!LfAK6(NIq#O848wfoMNIQ&sOnQx{{`Cf
k1#0*db^N_NnEA=w@?Dob4?HP`d5*cWWB*r(wy4(s0m3bGq5uE@

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/partition_rules.cpython-312.pyc b/compilation/__pycache__/partition_rules.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c295a30341f5cc88cd3c5a48292dff720c014720
GIT binary patch
literal 2943
zcmcguUu+ab7@yhQyKb+&9!35hq%1a&UMW2uO0lQZmPQBx+KMDfiMecV=dRoC?XI(X
z{g-P}3<(lVD4JLe8jXnwhM2&UJQDEDmn+n?S$U`d6MZ{89*8l<Z+36*TEq|@bdufu
zX6BpU_h;t&&HfM$hY&PPcwhZmMCd;2_$^o#N?(C6j})X}4Gno;JcOaoX<U{c;xXb7
z;fZh+dn<+l3QzE8y$@9Vjy6<fUs41jlG?4%RRScG4l2QO!cZMSqg#B9>bI(!=9HRq
z!qxKBP<RT*#NSx2KZcz;Rafn#W@IviI)ZK}#0gubrrNfuXOf0#IYCP79Mw}?6&nd4
z^YE0qA&z;JN29AIeNn+<2N0roii7#ptIG;AoE`9W^PKJH5RF21pKPOU?$?f9Eo0J#
zJomH==J7as13ib0r)0chV-MJ9Tx*~8{H)IKdHym|c+gt^Pp!-7bACq13(TWQYzY|U
zdC$8kE+$Oh2}#iUMo4N*Qqz(wv2Bp75hJH5(lAJDKcuulC1pyNvxbzRvN<A|GPPA(
zHS~6O{ZU&oOhRRwSdyWyQEihfL$XJR3*2tYG(&7DCF=}a)~D<d*lQ2uP0%4kk!(Xs
zx&FwyQnqjC+7tsGFbBp7)eKpIwaTjQpqv^bwuj?{Q?jNd(>XoGJUr~+_E^Z_4ATjE
z=ADpgsk&v$dWtv!+n}itM{v*Ex~c&W(OI8-CnsxaS|ti-Bq0UF301Y=*s_su(kT1I
zy0HLdhm^7tM(g0^)S0e--tu*T<Ey(P7E@%~ApLP9ZfDK7shWE|SNBfl4s^XVc7Vh+
zbvSN9x(q!&u4&nL%E+3kCbJ0RmEB0voJOp6bIPgrwlL}LAKeTF!thuh!fO^48<1Fk
ze&X!JT>MVW&gIC4m2l(5GZ)Ux9)3{MIJf(=U0<|*+PW0ozYyKOSkt)@*|-#GS%|b;
zIZ=po6~wMJO7Vqge6eQV%BJn}W0%H0%Dz`u45A&apS*o#=as`tZ9NNZJ%v5Jg>8ol
z;+EyejxP@uBKz({2Cp5vd9ctiSP%zS>eiLOE0ikJ5|a@t$Yyv-f5GT6gxx~7qBfgz
z+bE-eCz^tNYQsQ!ALDt9(bTF!fBrImT50<>W^f)oKVq^%HP48Jw<CUddF0#lDFLHe
z79qzX%;W#ii^^reGTHpU*_uF;{Ao0SzvU-zEFfp#5cC<kO(tzAE9)}c7mOurk~Iw~
zQx(X8l8kEEFn&~5aw(|kDn&_NQG{HkI$74Uq*TtbjqH<ZF4b8kNx3CoW;KIaZEPY1
zT*bJ|MXDIGfUOj$JJ+X5DY~5Jk)>?2jzy|y?b0b=MAt7DOQt}EIdBK+nUNQZ2fU*m
z8^U50;-O?*HFA~&#AO4PE|EzUD9;7xr5P*XN{mL<T%rl-IAlgL(iQU(BPokzu<EVP
z<kOw~Ylck=3>)LBLX?*!YfLpwmILN_Ipsk5>>B8w?(kC!POJa232t_GDHTtw>6Vjz
zpq2QlPPqy4;%$$KPO$u|5Kzc)F5?Iq#6=mcIkidOq7zIRdRomm+r0fvmU*xO>he6V
z5k1Da1ns<F$>TuoYjS3>>s^xQCI-I4$4*v3m}g0_#Ev9=5wu$1vA%=XujuhCdbkPI
zZ@nirT&%xPU)XqJQSARo3@?ifk3_V)^`02M7`YHx5}OvprX?}4ASOyYw>wx6HUo7g
zj^J~zogX+mup~qmgy^Es`9KJrKYsT3ve^ASfAhrMo|BJwE)Xn=fj}<?SXk5jI{qL~
z#at8<72B`=DE2%q^3PKF(`o|W-#sMu9mKclggyb?itGpZw$Ry^;BO~*kYf!_s2nm}
zMqc9U*j?1_?F(g;?1)MCPD>_fly$lEq$BjhKLy>+x;*TdBMcjc=H5w8Lm9AK)ov=k
zL6rSdddU}G$r`M<x@jAXu`9wFfme~o7?(tZ*WX9=zo6!yYd6fjb+@)@HdqX9!Hsjd
z`N>O@^D~!biU_*bPTgp}e%cjpc9hsiu@iCiOE|iKqeX59?#0(SZt&N;en(6$@rc{@
J&>eO?`5RDg&c6Tv

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/pass_manager.cpython-312.pyc b/compilation/__pycache__/pass_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..65a13f83eeea3573ac191d37bd8ae853f67e4295
GIT binary patch
literal 6980
zcmbt3TWlNGm3R2kNF+tdk}b)y&C$y-ZHe+ze#Wu<tY5Ng%R$N@J3HnKrIBYy=FZTT
zv<l!Z4Ae%`uD7UREwDgcG-w;RAO0$We&ugJ_J?E1r8<ZZr*%I1v4A$pB8z<OId^7A
zNv4D#dj;OPk8{sG_uli?e@3GX1d0~;srtueLjHywuLRx3(mNa>kBLlVP9tgj`ZP}W
zrF|T>{hD77qywxS(1Lm>9n$O4b*vxMc)dPd&)OlaK@X?HtX-!?^k_N?ZC<X|8ueH@
z#@Y>9TyIJ@al}WI@OY0$NcH>FZPIP9GORW0E$J4vGNNtNH>EeRc2sNC+tO{U-Ke$e
zo70<FJEnE$Thd!x>_@6ty;cP~57^_{Ha(F}=t5dxtDCe=y(`_t+8eZPy(itH_ojRG
z?dk1otXX?Q-;v(Iu-7Zer*LOj(mUmrdnCQfN6ry><2@p8QhJ{H-MPL=F4_8b><lM4
z+n1eyI-ulk8%dwt@V2Jur}DY1I%>BXiYaD_lqxw>yba@GhD`u?Sk0-XsO3jT6$;(B
z2UXA{Gn=P6g5YYvD&Cgp-;pdBi(Snd<|$2)a>c?`$uMv!Zg@T?7c*v_x?}A_8B@J2
znQA`w!=jWk&lU}6x|5r(UA{gHTf9EgIAof+6|gNoyojLJ@>kES7;n9<ykAsu8Re=(
zB~4Q_)zBGwpWQs9Y1b4WN2#u`!$ZboE;Dk~C86!CI&rp`10wS|NmHj7rEJb`$4(Uu
zGq0bcQeg~-?8x%N+3``hl>&_8U7E^-30KfOoWD{yqp7-@t6<8w56PYk9}a&@C!zWY
z2!&ah9rrPa71aacvB7<k<z((2@3Ghi+%$KcBz;rAZ4jV%XAop1lcy3qfMAYEreGFn
z&JglBL3Q6nC`hKM(43%4W@Ze)Zx%-x26$^&q6l&kmcwlb`7G;a;8s%%;)bEff|(bj
z+j&(MkYm)`sBp8WYNnbKyt`Ss0YEs5Gt18vf=&W{OCLh@h=W_G%+|Vv3GM^mkGGkg
zIsr8@?R)Cp)&YV7^T0n%R5Hzd#QmJh_&}+^p9jH_>#HEHlWwwy7~CCDKtF=@9Qm+m
z!v7<3hfDf~?aq-a*G~Q5{P5`;r=TTX9U2)qb8T3>JT!9Z2jb~7CvTif`e^_Nw%gvm
zbm?*}09p^z$$%Y@=%`_bZrx$udUn|$L>fqH&Oj9Ka(BNyJz(mEfr47-HvvvD`zMMA
z4<EX9P#MtFn*)VOb1a`5K%pJT<n@9IatY5fz&KBrauUdGsxWES-2px=D0C`$M>WTQ
zG1)VV?3qQjbLyCuhu1WYr(Dn-K!I@us{g%9UbSy6w+~wFgQdve{qv>psaH)~N?T8S
zntai8=`XGAGy6-eJD&_%tvkQ*lMR<StLf4gv8IRnOR=t*K`Yi(;=8^H;zX(G(zga4
z{|SG@|EJ)PzYbJUeHKM5pVtgKh<k&2q5{CsE~pHA$$u1RCw%O-wTP#^FpVI_8&Cnk
zUpJCa>?h)n#fR5sgKbN`V6c11PeSdB*jj8Pk><O@O8`n%a30DYmZg7y>M>DBnv+S|
zCv$1P>;p9$P=c~w35_>0s1;S#CkO5YJo!uWa!{#<vCzFhx<Rf}!qDcS9g*t+Pjs>&
z8Md2INrL{6QGHx?-b(6$^D=oF0cpcm1W{zKD4+-yU`78ZEMZfM;YiPUQy7zSvZfe<
zqqtom?Gq$fMk&lNRpqXM(VQ&MVlIbMxWzI&MzK)HQ_~QNMUY}o>MPQl$;*n6kuqaS
zN*F;6qUJJMQHG5{r)0*C?M)3b;$1WX=yTjd&D_$ku>&+g%F{JWJEm4?(PXNja{4@#
z73wLPWhciwaL5)^;|K%alX4Ft?0_3EOv<bbj8REfK%pfW)ZP?mw5(Lr%nI~yKEGNc
z_kp^sm?5@qU&_7Lce{`b5g!2TC8~ds4InjL@4@l1f@%uNgld?Ev*rGjkX0u{#^KA2
zh<ixY5bj8m@FJS#k(381l}rV-vLq~D2kI3zE{wSvvtk*54N*prcb7Im^_Yy3X(B?)
zDU;-54()%)xie@53`NTth(K`UiWfy@=f$ZlS6}DJls9`4Rxs(kOXhd>-4FaMOt-_3
z9b|N6kP5G$4rdhIgKfaM<ElDbtWaLn*`C~t<GNMl1K%_m=T{9v_cVF$5+NV>r~TvM
z*Jr^7xcks9ADQ+~b6%fYW=|%#S{6n2O+`U7_^OnCIA}(^J;q~RtNN9J3fR%rA7C+t
z1MmjpO;rf5_5Y&-aDp4Xx-7>jFFRe8{z<Sm!xSHgqC-B_e*KnOD4<C80tbRc5R5UY
zpg=F#K=Gt@ST5=Xu|O4IU)qWzQBWDCsw*M`rMuXeYKUN0G&LjL)D%19IEr?VSrj|M
zgd^j)f%e9lf{+Z*KEOm%h%U%b+d<@1(KCTn9z|zET$4wg*)xF0n1SjpdHKeUIlgU<
z?|Bs$X5(Gu_--q{`+jhKWBcQGfBEkHGxM>Qa;yu?(~|>pvE*Ok8y_majC>Xs%JIJE
z@xEuA72oscc;Bn|rpJ+gjg+<?`lR>MjW6Qo7Q<vy=i&xZA1(9k7T-S8JI4#3@oi<k
z=Q-c=d(PsMFZiCt5CiD4ctp=9=ik@`#K43jG9gD%*Or;T0v|mFe`OqwvAWdaSCIA^
zGBphz;U89bLcl%CWz<DoOXg@|nt*K7kUFy>YgMir<y?6|r-hX@cB;sb2L}&7vgS?|
zIr|<v#j87bt#!^+k*V*oQ;Ubc`dw!ylq6QZ$4+hD+Ul1cU-R}lJgD_|TH}?sez(;%
z`DvTCw)$P?MmjyH_35m+Q<t~4`dw!y^buKEZzmHS$W>4vUzJxjQSZGzzsVb29bHVm
z7EMeNH=6Jdp9Nza1!pRA3!+4H-j!sly<wRj?*`&_m}x{uXHc|}c38=w$`y0qz%X4*
zkv;4Vci3>_UU0H1fiFdKWXD_x2_s$6EKp>Ad$T*5RYg#;l*Ps1wV)qF(W$Vb9)L53
z9xw$XN$d?CK8VS^6)3qCl<(gHBB?G?@N7H)6i<qpgdV^OZ<h{21)e{%2ADlzp1<H~
z|9a1{Ri?Jqa#1SNX<RuD>JWUCj?Qw&eyd}Dx#NV@apHae6!6y}(%Adt?N1K;IXW~S
zYc9tURxDAD?Rp;DH6L$z9R5XkPT2SC?5uFKlsIO^k39;%tU?`q9y?lrI`~OwR(PwF
zIAO(4JPOY@x0ai`t>*4>^S<ZJ`{rBP9$);$#g8sN3(fW%EOj5US`IzBxD3^i=dmLd
zRBLY7|2)=Tff{^vdsaAJO1x#o-+~Q2Y7c+1eO4GMB~DuLlPjp*`#iSSh5D%R_po-b
zlsIU`53T@OLC5}QZ_f(HN{KhE_?wTya8;eVfqvoO{nK-it)C@_KHWZ>Jdd62-|Qic
zC%JNT$cheqYoJ>H`0T!Oz5f5`4W3KY(L*q>!nC1bVD6w3SXI*+)0|l`NnS{9_%4ut
z=D>th%n7V^%XppFs(!2D%#le#cft%r*9|Jf9)>AF@`s{yIu1(+qu`wE@fi}jg3tUA
zF-^7B;xL$)K<FN*?vl@9VD~@TG8apg_*5yDn&%_`5`GXa^P4Sx^UQ%4d?&N>E3!M7
zp<tKL1MCU*oz%4Nt`7;YmGabWje;Nj?>@-w)Vvz-hk-WmmO0ti4l8P2m2Z3<{8bP6
z!|mX|u7{_lNB-S#S3QXF8va1_F(H5DpZYHrC_y3w!c9e}@h%Vo3Xp&lBtwvv$GH%h
zvIJEnbcLX|f=kL~l?(*A%QP*EYQZ5+3Fp1&S5}Z!SbhvsUpH=?KMkEM25S{e4h-Z?
zz3>fVYlKFH?M96$;ku$!GGJG60t0J3PZgjtn|A^_JR`8>ad<gLpQE8k*0BLQfZ@0^
zd>#Q%S2C`)>&GNxOqA7(33(^fo!~^95I-^*H1M$jFN^Z%CFo4G)wshHVxNXtqX^Yq
zvKS$qy=7syCG0K>2Q1+L=zvf6TJf{Xo##l?!yON<lp|eM1U%f|9r^W<-yC}p*}doo
z@AxGjy+8IKR_3=^{I(ghoH%SH4wn<ht;F%!#ECh6=vAzv9P71Wy-$?cSYL_nW70C5
zY_uU1%|XmAigtr2>Up^cHcqr7qWFGM(%hLkQIzu;QKbDqE=&DTJg6N!hw(8zjH4)Q
z^ek3P_%C1!FW_UswsLL+Q(P3Qeeg37<{tTPUnIzXwS^1zg9{(pw&>ds?3=mytFeC@
z`-(slvq;Y1;*KrB3*3{2C4%3@W4>V5%$6krpCvvV?02?7<jH>84IewmawHC^0nFGr
zdBQL@Q?6}iWIG0)4Lbo9MXhHyvJo%yZcy~j?N&BeG*!(=8Iy*o=pyT|B%@<p(azc%
z5DubzC;!fJFHWErg%B=NlqInH>Mg}?l`1KDymI)5fa?V?V;^!mX#VZ6(-9$;n4`?(
zH?L*u?UuD2k~)_FyD5{06g_TV@e|PXU=E7I@#rVm(UphTh#>5ZS(F+_he(7(zn5fZ
zei6NbQ25FYyRe5J!R~gf&<C~oV-C9=r&;KNiYCTCLAB`TIBqFKxTY`3<}b;{&&kmR
z(!D@-Es%jPNpgYge(CQl`J2oBPRrjp=kHz!oLmT`76Q8#0*4m@Z@%<*u-OjF-!bRk
x`g!2gm*nW@<bp*mERa24)VDl*XSROZ-OyK|7}xxD&j`o$&kXzz!7n53{{XA1UD5ym

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/piecewise_backend.cpython-312.pyc b/compilation/__pycache__/piecewise_backend.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..620ba290a3238023d88741df0c104c67b81be9cb
GIT binary patch
literal 4737
zcmahNOKcm*b(UOG{H#RE`dG3=nUXEZlp`vRokX@1%Rfai;3#gbBrVZkO>sxk(#xef
zyK+o}F?>i1wKbab<n-pFTj$VQbMCblt*v5-MGUBDa>$L10tD!(@6CQF*=#csXWpCl
zX6DVz`_2Bnvok@UXyWhGrEWt0g@|7w9<cj203Hy9D1t@`*oHKr5-NlQgu`06A{Imr
z3tFTSEkr%IqY^8`I4o-MN}`b9a70U1q=LlZsMcBODs*wULrYcCg|t9Igr;ftW5Hd$
zaDbBXgfCL74Uq++#6BTP{Bg+bee4kny_}W+TGFQ#`f5T>`W87BbAl7QRMfQMvPJ<8
zU(jpNB;VJx%Ee;oCe;-{hoO-xRb4f!Ox0IqXi95xsajcA`KSc4U#jXW>M9Oafl=0~
ztE-fiJTZ6^_K@9E06ZX+6a<A7Lhlh8rlKOe0liA75TQ}P!W<I|9W(}51hJZ!i#pw~
zOo>sGURUqXdEI0+r;}~yrdpx0u~uBCZ#gkfFlEt+0ZHdui#st{){DR;I|&&!qikph
zOS1gSjiTmJ!m4gMDOoP+detnNYE?I6nMts?BQ95~8tVj*;XeLEcA+N!xiVu`)@Rn$
z^=Y%nR;f9Cd*k)fvo~L-Gn%?QvtBdTs`|_=IG!0-Dn2Rj(-QqiHK@Go9&&!Y#!&Zo
z)dPSr4Arm5PEY?+vA@xG=-%6#%2V-BV=x2I+P0WseLnlXGwy<3EW5ves&&SSK*Qx2
zr|heg5RE8d8dXI2MQ8_&4gy_?(wNdg<11aDRAM2a#6Ka0q>`Z0N=QjUPiIZabvo&5
z{x&>SaU!d%xW48jal@b=s1VM<)@HqnkyTxxx19kK&RCOQARA7%QLDJOiL7dg8cx=~
zRGBX!uT+`5N_EO$27d33#259>v$S`wXu5c3yHPNX2c$04i5#3lJp`C%UWC*`WicQH
z0C0F_1sq|(d`%{G5wKuHy#p}cQ2?hR+&l&&h#d8&g3+Q9x&v43Q91$&^m~1Q>?Udg
zFLlyRu5zzWZ?(RwfK|COLyCejCw-oJ6fo3jUg{CRP_20}QSEpskN8llRYXt1wBM)V
z?!Z;L1*B{vQF+{_w_4vl!RWnvY%}^Y`4Al5$1yYKkFLjHodF+fwO>Sh2M6@AR=*F`
zW9UWh9}`I}n(HWDg-cIly|T1Mv!3c?LAA1hQhIvF%{CvfUoo?lqN;1P>{?M*G-_l`
zm|%~EXR9k&13gG7%eB+U0$(s(QH}MYSy}^M3ac7a$yW8O=fzz9d?H}}fM!2ZHO)7G
z><xozD|v1OH(*?ea)EJu&mP<vUJ53Fl~FuBm;pDas4FX!QQh?AGuCNIT~R?6RS$;V
z*s~?ip7XvD8{mMA8?7^8Xd>UDCB5ZDF3(?lZy^_AsC3+EF6R0ex)yc_D(Aq9^RgkN
zqWZDJ$kL@6@`}m~(=~Xf6L77#4_(>NG>;lKsOfa>6U{l`4u^AviFDOiqY6W%W*MAc
zr1~wxIq?3~tMABH-(6U^vbZ2$oqvD+s?!ZCDRg;bbroYBL<;KkfiL4xN5);taBNHk
zrzDoD>oup>tjf#O4~Gh8F}Neo#T^lEtF`kzyF@8mdH8-KuAao9*H_9c>qki;aPf#L
z-x++~;pTl39-a|~!@ozG6QqA=Q@o#O3{7l`+p&Sh*t9)%-WofP*x|<HIc$$Mj&Xdv
zF?<a1!JUy;zwEX~&LA?>$eh}my|#6I$(miVGE3NZXeWaV8P0I%>&dA{r|jbwt>YK%
z<JYX?*Pc%P#N`^B#P;yc%h#}--Wh!b+mWwF$L-NsYjpO@1#9#Y?`lTLW#KIW;jw0n
z%$&6I=dJvCJ3nvb=bz>mkT42N{fF$n$?d+$&H1lhzR(ys0x{4YJZBA_`#usr(Y1Nm
zmL@D|;^D><Y5Lz`(tnIc#!}$Y;bhQV^8oN?03ZO6GPKVZwgCNsn{QE#GteKn_*Q>8
zaO!*d@cN!BzN-_6*>b_895~<>`(saLfz<e4PFT!!F!Y{m1}m;7X-~<STq){BNU<Er
zDBhxwlYy3Nl%Z7I$Z`UE8DIk^^)zX?v_?xedF+IY4z+ua9p0IKLA(AR`%iK1%TV1T
zjbzGBW}YN74;6c2?#aX)Tv}(hEoCezV@r8U%G=UeOFFwPz4?`N>`||sJ8k7o|3f;{
zjFZXp!dB8vW}GPGbsJ3IcXfE67$bLo4OjEOuFjZH_Q!Nm4k9#+^-Aj^LZ||5uCy-v
zo?PeoLA%RULg>Ko_i+fbhH?<6{S^qgC9u?w%-(ifozMMoxE?MCQM)y(@mJVicu!{0
zR(;B;)(9V}hgwPn5(jbHrxQ{>(1LxajJf4=1xBMcdahtD)h-s7(ak?s+H*p0kaM&K
zKyRD;qaOMq{MgHw;5>re0C$^s&xWDDjhPu~=>IYO2$!=hX?)1lkDR!;#DiTf>?GZ6
z)J<p;`bNc#M+OgkxdRN77WNueLF8f6h@xEFs!{7J)mxNXH^Y~a)8U&q512==>maPK
zQG$1uA7;F0yeFRUrwKZXoX8E|5#d4N3gSdCV$}>(c?>Q=Tq(iJPi`MqT++{BgfY(J
zN+Z={rzW1HCK?k{o0qqxBMm8SOVgG#y)Df&dS*X6W%tZlJ+ogP-Rha!lIC^>hCg4j
zGbgRg$-i8%GOt+!uWxqlBnKXfcJ_<~|H(5uZAPVg?evtDo_h4Al|H>0*-7<&diS??
z8=29~`TL7}$#F{>x22aX>7_>>ZcAr(GNX1TZ)Ng!X3omY*_j0^v(QNQK1lo_0S)}y
z=}9X+X{YC`^jv^8hO_qYtTjB_7&>eZ&00gVjgjNc6d8G2*d?)%E?lnJPhfOv^hs*;
z(NTNq(vzu6eEbP3ePTO(awnD9-1zkFZ|;6>Zl#WH#g6jGvzY5*_zGiajtq6w39a0A
zk_-4WdWXL|8R{^@wAm3g)iC*slHtRFy@C~27`!ZY9xKd>-RB-!Aj8y`S7>7fh3XU1
z480oZ+DUbzG|dRW7&o)c4uoQ4Y`hsqC_#=)G?NHPWH|dU{KwPHPQ<#%@srIILTPev
zY_}Vr?{py&Ios^YM#dlZd{3ZpCBVgV{Z3LTn#B_2V+N!_sZv$bXo)|U^Tp*7-;NVC
zYwHkV81BP~@lOW%mD}tBqH%ny<uL<eQ-}|8d`~dSd&#)LPsJH{f$n{c;Ni}FZ$e^<
z?@fNTUXS|?f}x-0SK>t79w#1%@4mYEk?uccC-#Q>k>DJA7sg{0H9ml<85RU#H%5e>
zXXNNJ(*F(V`-TiWBPX7b3(v^dGjimg@!rpV_B1|nFAA3s>a>M^OX&Y06c$FB1ghOI
V2_0-A`hz43!uWUa{1n{N{V&S=F3$h}

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/post_cleanup.cpython-312.pyc b/compilation/__pycache__/post_cleanup.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b2d89f7fc646b7c0fbe175af29a58d023cb34bb
GIT binary patch
literal 1210
zcmZuw&1)1f6i?>MvADG&){l#6E5d^Af(lg-DJT>XiimjFOUO>LyHjT-W0EOdso<eE
z{{Z!*N2Py?7X?L`n}`Q*t7|=Y@?~bXR537bUh=+vdGD7ujm8Xum3U9$Uk*ZF>}I<B
zi88(b%2UJ<#|cVt2V<){iIch=7b6F)BJOS@?g@9ttz$ag&~FCc?52rJr?&}m?p~6l
zH#1&DMylIP>!|jv<zBHnuz!jK>R^sK4#yo=c<U9&{q6_=h+uv8?=!pOF86vK_qV;B
ziLnz7y=G7zzAd%6o(Pr|xh>C*V1#A}th<9)lN^pnE>usdRFkOoBdlkHB2l4@Oe+_m
zTUE?WLyXL2BKvW~l4MA<R7Mjs5TvhIJ|HaPM2S>x2u+Ht(1Mdp@@aTg5~^lGaIkbm
z#K5Hr&zXUm8A+Lm22h+!$dE}x`UO)gGeVGDNoZr7^(!dsKS&^F1>;<W15hae35QVV
zFEAt#Jwuq1MaJuUm3|dh21=MhWor?zVsF{$+Hbr90vLgT1;B_$j%C4?vxRq{rFLPo
zh1aJet&b`>9SKH5)O6RBO%BvJt_|xZg6``mwf$_m<!K;GG-%OyLY&s5J#^9@WvNjf
z6-k`N88d=%!8nbe(-7=wk@VC7@TlCh#SZiSeWPvCyq(ASdBap+nDd*(@|DZ?mqj~?
zyX|~v1~O}J0A1UWO!GKlCWeC?_(LbeXywB)q|}a{(uXJhp;l{ZnS+A*B#6i8Yk2E(
zc>1OPK0Ny=Y<vtC-h~Sv!lf}7QS+cpma$Y&TFy|K!g!$_v^+%VgMuX!%K=Kcj3`we
z#FU3j4E{hf3M5qaYNfwwsizKu{u(J;T-g_*f~g2W(HB8%qwkLIhoe~(%zyM3-}#Fp
z$MerT>%JH~AB+&FuP*(tzp;ygrSH~O=d-ESntth5bE(TN*;cjowW?(g_C`kS)2cAn
vK#p59d*I6OYJJ^n>J%6(fwWadF2;B_K={~KwDL1(;4^RM&+a1lSFwKpQ6WM^

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/qk_norm_rope_fusion.cpython-312.pyc b/compilation/__pycache__/qk_norm_rope_fusion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..854206ff7a4ccc33ac05187929923df22229b5e2
GIT binary patch
literal 10897
zcmc&aTWlLwc6az3l0%9T^?sOR%T`1^W5<aTznX_1v7IPR;v@@Zoe9kuN|gB0%+R*9
z6yOg7q0nq%p&Lj73dk;s+J>`83N&rfk7oPR2I!BtN<e0!AXy}fHXjQxk<)DZ)1GsO
zGo)lX-agP?NSF8CbI-ZY^Stv<Uay-#O4$B5er!7-Utz^a_DW&nG(*TD5sAnoNRkON
z43;ekOV~nxtw~$d!jPmr?4S^9!jg1`owRIAut`_gMa%YtHR%q!Y1xtRB)Kq0%g%&1
z=?nXk4dDh_XA}NpW4Mu)U5Tb-ARK_QTl6HFlP%$vWNWxJ*%of2ZCs)~*%9ubWpAQ0
z*%j_ec89xZ-IwS|ZVPWq2E##yScudp@wZ?ln8Mp7%j6NgT$@iGtF7tf$tUZyoxHOx
z+-D)jiP&(Ni2hp^9Ui`qwlzXqlN7vVt+e*fSVDnsuo7Z4_K8R$5jmHT#-L(}U4%Rk
z$*O4~mQ6*~csdnH#AhWDnww5XR8^8wPe;_~ge0GiC<?T?9)rddb_`iG_lt={@`-dR
z79ZET#wArqL}nye5n^&WDVztG5T!uC^TbnefTzdDB^jy>&!yFfJaaU8P7=j<YWy4A
zs*qK4OUaBnBb<xve#j`tG7s$0TzY%_p}m0Ymr}R_Ar_gEgk)NjU@E@KG@pC=`LVQ|
z)LM=D=5e5>A18exC1#^)nyyM~#g;o)8`bwu&l@V0jlYA!B9Ta#5eZyLCTw-Vc8eCt
zCR*X&2LE=+E;=NK=!Ab(bj5t4`?5Xk6g`(on3Y^2C%GlhWP2@ny*$o9Z%YSMViwVR
z*><baCF}((pX8fty%VP%9l&m=!EO-!k{{X{FWbV6Gp<lTYkYPJcj>uwMyjkkasaN2
zn}<X<j#nonKAVbV6-ne3X*w&Vq7olZ@pvcb@$=^r>FAWgM^Yj$OPNFj;1}ZR1jW?x
z(wPxACHX>yP(NIUsFYE&a0h2X`zeg)r-%5dA^tpnh*vU+xY|EGb$*C{d0Lr;_VY%5
zc8DL|9WpQ`ptCF~6OoM659lus?;he)*`zQbMMPzY#~(qAC(jxPQ?&>%n29iT{;oLF
zDI6rJ2r1a9{^^M!ep<L7#m6VqAzsQTCh1Mxrl8wYy>8R7+9{`Mra<S+57e1-Ey`3a
ziZSbYSkp0>0mY;@UyuwI>(8W>I5IA5klv}fQA2z*tq4jyB}5~@>_dDUmMx_(8jF-A
zH7ln~wDbD09;3ITa`;KO7RHIv;}@o<=++4`+%o-8YmNwu#xnG?tJaL;8>$>P-pVZr
z4xsits#{)v9X~?J+?A2@ap^)oT(T{T{=+V%#u~HMT;?)0u6CK46=tnDD_g5I;Jyg4
zL`0d0r(%+<IrLo~i#lt#9Lp%kHzuiC%vo|oFu^%1)GA7bkQ@WGiYkB_nKb)V3(#t-
z){N3DC||&>C=7~g(lPqb*1O}Hkem%D8OoffUIRa8yH%Mfz|9rr>`-IPJ`Sk4jGEeF
zl(1L5dEa%7^=IE?(5wEw&D^TY6-M?L?K31~84KCvE@;qP^k5axiZY698O5{agR5V2
zb|J0`liRR^V;b0LR??hsttoCN;x;0v0fY+56d|c=RyvH_jc}Zy#?gyW0fwBKO_35Y
zO0{MXN)G2o5f$9f3XA;vsZlkV8O_8q!=Pe8D-U1H?tA3nseRIDB7SZ(GowzVQ=_Pz
zN2BRvCZ33(P#CS{Rxkz>XdB7QXsjSm%`MD!-k~!_4A^cMU0H<e5-B&4&fdK3bziBw
zKX3b(?I^YLQ1zBtI~P+6sjKSsxodNU*1gc?DYbPK+xiP_{Wtc$bLi%wLfga8%9R4G
z@WZYLhi^pJf_soicd2a~1qDZFb-jB}sksYDCKr+w%B7B;V#h$CW1!R(EOw0+x<+q%
z96j#5?Gv_R1ExlzCZj;b0soY(9;Iw0GINY-!jX|C>s%obn6KV7ME02lf`%P7XHlyc
zoH4HboV7ZF2#h;vUVA{TB$I;ezt9(%gWA;w75!Ikt1_PmO!=eZIZ~}PBi^$&h#@O5
zx;^I@w?9up_OWk}i@w1<lR3!Z#1H12Q%3HWw_~;gGc=;~i%f63530~<7yM|<8O;ic
zUvruASYr)+tFeZB*SwqLd+oKC`;d$qt<ZQXlU0@3?mI7R6?zJKD_0=9M84#_d1l?$
zzSOvMWaZTIsT<pGi0>qBCJF=l3*GzId<XK@_2!<X$e%owcdZAYaJBh*&$XVlz-XS`
zS}%DTik{%FJ;C+vzN_kuGw+<ed3LS)!2Hu+Z>r~?{*r4baV;gTnf`T@Jr2LSOdKw^
z+>h(<W#n{JQoxkHD8y3Arn`%~jQ48;t-;sGYs@0aGkG)_nak{)C1-&Xv5Z9lXeK<J
zApCDU1le1bMQ~8&;o8JOXZ$(y1~X@ww;ds8;S$YREd-9%Vq98=yw2GOlDx@`-6SE0
zW&@d`XpX51^w%<;)ZEp%$`1g2ja6l^265iVW+;{}UDA)oc|ne3GLkrZ|D9)pAi=;K
zISAHeB%vH0sbIVcl#~I;et(I4+SswQceQcg>O+Obf&Am2Z5z7c{?y;OwC62f*-C=L
zWd~_)&7Yt<DenWEkX1eiKXi8TA*6)7|LUu}J}d90p=X2lnA<Bz0I%}DT_WGx?5@_b
zkNDg2K7G9X0N8X~I208%JQTpOWx$yQ$99fEHxWfmb+1A1SjS{MUv!bs9udGZs~EcA
zy7Yp_5}g=<3$A-FBXB!1;Fn3t2(XPRjLQ*GeiYFyGR}jR6{N>kmf8duTj<X2ymP&G
z_KE`$1=;x$`7L|=H*DLI<rB6`zpTzol1?LvBN+)L5?wY2t*_CAs|M^Y()Av2>pkGM
zd%*2K4v)EkhZxaunVSPn`tiP^<sR_=o4Gn+u2vP9o2E%*w=D@J^*ot0jjAfxa4uC-
zcTAebTD6yI8g`Q?uD7HbToCwMlcCLWrjf-ExZ>=XJPcjs5zIz0yB{+&BBJJ6pn|Ij
z!2d=LZqQpG<v@p-IvUz5Y2IH?S3|2gbE79A^;^fSBJ;MznC(yD*3Q}I9CJ=!PkX&R
z9mn=M+8g3iOegs><}OeMEk~Gvx!=`!&B6*7nEJ2<=9i8)$Q%pMI_HyPL0DJ#ZqAi+
zO`4WRm3sa87-DD64eNB=Wu1;6U1xph|7@L}yR6fbvzqJVa$MbY)}4>JPA^b4!Z_8<
zK@sfEdBHuY+?SuiZqE7U8gjl|L(Unqf;P2|ee)lXZZet`q6#5avs0(AYT0Nu6spjS
z5eePG>4hQWosfkZ?|R)eW?EyWGzQF`Y2n-q4Mk}FY3ephqS*qz1h|Q+=9)5_{JL*l
z+i6Pg1f9`;01Zulsdc5G-vMfPQ!-R?Mi2AN4&JE-WNAFEKn$>|jVqlqKu<XY%m~`J
z>?duVi}8gxm_=RJx^&y={UaYf^}$oC{E3g`EAh3~=jM;+AInc)*$%3?Be=w@IF=n{
zV(IXe8k-i|7TT5qOFOP~m#x?m<X0{%U$`nS{|rbaZzc=D13KW)V;`RV;OuwUDSrY8
z@jHvb2MWOl-aYaD#kJs*t6X=fWmmCfpwKdKWA{7zZth!ac_4r6|7FB&JBmFcg`SZc
zGw=8Ps_&!WwVt2MkL8bDIaUgEEIo8}_iAA0Dz}qr&rKo^g(wwykHg-g$g3LVYK6(s
z51)6|6>iRYObmVNs0C=PBfy}wj&RbAeSo25za{0EdMqWHP7jFH3f7!GXBVv~0_Pkc
zZtzBKNiaek4;@;Yw{(PR{Z=Z-ZHAbjj){B>dWSre1vQTunGvRID^s<V^E&@h2Ya)2
z(&GV~;h_j|QK8<Bd|V#`m6zr}_QLZ=j|k765}teJ^ikoN(=|>zMh0X`n0oFfv3deC
z(?trgcNZ2AA5yXjRdegV5MMj5b2px3g|#b8?WqaM&5r&dj9r89I*?P|gbbMbwx6_y
z*8O~`xvkXAuZ%5^!B4S!xX?XZEp+s(^ep$3n%ftjTzIn7u^s=m4VK!wSGZ-a)YG@}
z%JM5W9$)Jjz1`t$^#MzElTQ9Bv)qwC3EbJdtr+Mn1bVNYx&HFCm*3s_H$#6p^efvx
za(~aQ?tFUn`4?6Ly=#FNSGgA{yM$btom#<~<BXJ2(z0gBB(-KkQh~8dL(v$Gl=tA)
zqLU;ahD>8)7epbQO3cWQLp5Zhn<qbk@Ru-q6*2{tz^kyCx@W)|bn8Vw3|JcRG{{gG
zS~^|3)*D+FyB9#5LHX;p?#0|fu55?$Z3lr`Vj)p>VvRLwF08pp_x6>8%Ll*rK&||6
zhwCNAq=OZc5LRj^(Q1_xtyXE#>VD$#6xm>b4VJh-iEAry{x_eQe`byAS?79+++cwl
zT=zFEdKNtE{_REo-hzMchTZD*m099#{=U&waY{qXu}~8Rgi?{DBnX;Yz{i&?Jj4hZ
zCkWFJ)vrLDf*_`&&}@yTRLvesq(OVx&ZW}{`99budN3NNs1SLICMAeRi88thGH$-+
zIS!8C#M6{AJvcdnFg!CEC7B$<4Ba~2;p)Q@J!Q<0v6R1s>@xY*60o!7hspN7ZyVa}
z?k}5K%69n0E7w+bVhOgbv+Tl>oA?4{50*I6)LQmp$wxZ3l@Sv(oZGk22&M1#HbS+J
zIGV~9*53AR`}=!7Jp94o)%_<wI<mU|bYb_i-w|lvuo^we&9r2-cQ0jEE-qixHP&|o
z8Y-QjRCYhX*xjrAp4$Wq`m%5_QTR8LVH$7DLK8YvwQo@H>SU4ZF$;BJtd}{%xDPud
z=VTqz9Nwv1_2jAuFIO>}=&X4?@`x<FTXA`EkqLW2rn<D|XHV&`N2ia%695DX@ojMS
zBt8f5&yJqrD{pZ8ApczY^ig;<Qq%mMPXhdf2`NQii=tUYO(*$uhL<jay`hX~4*lJ5
zlS7HoS-d41`yr>g(cGGOHb;IA`vZ;!=uJ!vsk%kfxUaNBlox5x1iGt^4y>mEF{q-N
z+OMu7RE5^r?U>~}1K~JRyG@#rZDTHkKuFLu<k3x1QCZNGV^s64(9mt*_Tf#};Z|eS
zqHU@lnc*HI*^T~moF0RYiV-53a@I-INL!L|rwnZ4cg`j{AbRvy=r)N?DE$(3yxMD^
zPofpPB^k8j(;^EPpb6)kD#`|$a<)lW$JPX`16$kR%x#lHby^`bnRCAFx`h%0(j;o~
zEeYJo3bYnrtO_DuPua-p<Nw>UdfRQhIQ+Nf^bXAFuOT8wCedHsl4#(%-kK`5BXz$$
zV_JKiU_XuEK-kHJ0VOKpXCHj_6pxHPNZD9_6W~*6mDk_j#r^O?tYkBpw5-A_v8c{u
zBz~7d<5#ms>)}@LhWK+?6$tU>w*<WY;Q)U@k|kb@E7A0MD2XE>%lNkwU*+HX{nv-b
zfBw7ouKw^3?;Z|W&KwI_j-3fPe*8@Y-fyVAWj@+eEw4}qxN2GO)O2-(JEpM}*GADe
z{G=dJ`E)_E({)iDq_O9yDuZtmoJPT+f6}0F5D!hkhYVm~L?s!+Ei!uInl&M%G+Ro#
z2nsL`u9W6DA4y~-MMiO^IV(G&>o4TL8f!6zJ-lKznSryRpJFH>mu|Gk*mDNq9)P4O
z-(6^Sx{W|Jqr?+wI&S(ReIU|Yf)ItLMnw=5oLt3R<aK+IZo_O(J+W@S@w^XM%2^Pj
zVC8(xdgq-5wtcDfW0qeZI$UbK|F+dK4390ZdqJr-wiW%o1%GeRA1e4md3(v@|I?P0
zZOhx<Zh5EYX3uK-zJh1pI@eU>f(0&E@*n@G1<=9Xa1d_*Oq<~+nG)CZixV4^rUzQM
zhWyXgJY7rEzxMDoh%Z&q*8R=DII}cZ>>Mg|4y|>LthJ1;`R~u$ziR8vAOEa<*A?4(
zU`H`9PzVfs92oj+@ZqI~_4ZI{*T8k*no#N+yq><6E`>&lp#z1`ff9dTX=i_F=)i5S
zv!n9|AL;5{?!UVC`k`xwKIz>3Z6g_a<aRS@=__sTyB@q2EbX}O`slS$AXeP9udr)h
zsk^tt?}X>4mewCQ(iU8pSW;K!mghcc9sYI~>F9$Xb^Ffp0C9PXY-fS(1dmXs&F-eU
zU$a9XH!~rlWFFh31JOXDI`A?SXg~~px28!`!&M<w%?KLM^dwbNR@4g+iueqMBW_8C
z4x-Y;GB&#n6~D-DV)%3lBmocK8%PT9;RT?e*&*_un9;oY!=?!Ql?59;M?s==E;|lE
z>s?Tj=ONn^v<8zC-U1SWaMvrUgZ~8)F{%h}Iz8K0&Mu!V_S|3Sx&PgkwVr)>ct`A9
zXMJyS^W197gYT-veJ2Y0PJF_iq<g+8WN&WsLqM$739lDv%#mu0)YzKmiHxZ5?ttFB
z=9z#;enClRWsnVM*o7F~b3?17;%eBk*|<2{QI`i1^gHOPAnqly-ViJ{3>F#&Zyfn}
z&l776M^@P*bP*w+JPtkN3C!Y{O=5-?iOga~t#3LdPK|>R4<GN~H(9#jZKsB}{04Sh
zfK2mNWJXlN&4)SXp;f^-KT6#rc^bQ7_8tOWgzWd1$)~n6U)o#BmSOvzrP<pAe$diw
zr48j*7$_F)I|}w4WsAjridj0hGO;`Xu^=el*!vy*#s0lI_+MGZew5KIVjL(G(i)=a
zL_(t9swpFpb5Y%OhyYLvZharA$W7y=9i*V~bfPtEfyq&zpl`%Lh0Fwe>?6rSS{5<S
zz-V`TC?}&;PTdmChfnGwD5&Z8QM&l|&_>;w)sFzBuckNaszY{T%OLHjYaZ#M6orxG
z5nU^e$XmYT(RGJISIGJsE5_#O^Qz`GR!9{(J$r-aWFf1@6AJwbLI2dC2}d>eM90AE
zA!Eozze|)st+0B{B0Qlr-D$^bPEm?QATS}HMI^kU`o-AnqG{|wSRHtahvmP3E_jO+
zlnZ4m!!X~ogxU2K;l3b4t7PbN()>9&`8hfKTe9;D@<*SO-p|SLe<lwW$b+Ag!7s>T
zUyvt%<7&S0lQq}2OO7uC?Te2rJhFIj;b1Yarx4gv4D2ri_OBBE4~~~CjQd-H`EAwq
R2y>KK?b`i4!2-Qf{|QJIfDr%y

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/sequence_parallelism.cpython-312.pyc b/compilation/__pycache__/sequence_parallelism.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..05430f16ad6d872b8cf7063fbb3b10d26697fb3d
GIT binary patch
literal 19511
zcmd^HYiu0Xb)J0>mrE|iHz`pX$)u!}NJ`Yhk|<lUE!&c1i&iArPS$bPtDPaa)V@5k
zE15LuD5;u|NE}OO0?`dp(?QUXbpXpjgUD?FyMNjgP0^((m+VxA6+}UsK7fr$Awhrj
zJNM4a?ovxpmK`T(2H3lI?%d}&=brQ3GxyFvR#bQeTruZYqd&b{5PnWK=H)UX^Ji^>
za8Zy2*%lLm{NEO|v3q;m5wY8ZxHIUo@h9%MC+J~ud(0jegCdJNVr6k}(97b^Sb5wR
z^u;TJ73|&>tBm`DeinDfs^TkxD_GnUtB%(MYgk;2)yC_Bb%>YA-dKISA=tp;<*~+i
zQ?M!C9BhuS46bBpzSydGOR$B-D`KnTYl3UyQc$u9c0pO8tbHA$p)0sft~@6M@3IRA
z1=)X2kgHy|8&6tU+6tsqE3L0PjMO%kT7%Tug4Fe>wQit?=P3+dH*SI(S-Cott1l=Q
zV5tpAZ7fLL#8R7(+N?-c%bN#nftA0c`g#I3z4~Z4omSMuk#IWFuc$}Enub*Gld)L*
zKr+!A?F-m-U!Rf=rBk6kHJM52Qd&u9Ni`Ht%1SJh3ajB*3=xDORgp6h1?5{=iIVxw
zB-NN4(xO9@uRNNFrbDr0U!S7lw&v8ssolrZ;dC@|f)zeK7)NqdB%`WIA{|P_!s*_m
z8vi9xogOHO@X44G>J6V#SbqWzz1|qf!x>GH@0aCcM~?TPi0(JiKa&Y3(hncqtydZe
zMh0rWC;52lp;$B?O`r?O1S5uBuOebRlEBc?Nk$;Oo>FcmT*MFt#w%hp{pKG)@D+%B
z+Il)*hz84N1Y?3JN~1!rO}3pAO_q<?hHb}%fW0SDn4hX{z;C`5!8dIeA&+CWVd3kT
zS4~J^1ypKh3Pp8iSnbnvdv8LcB<bw`KDH$tPi;v>QypnMQqmpIXLjw`eQKAoB^Euo
zB{i7tPbRjU#wfQ$lJQg&bO$}QXv%XLB@t09u1B?aXKGOQoKeH6l%fu;C%*SaRV^J#
zX3`-ex$~Y_G7^qy`#Oz;7IZ>ef#5f1g`fFXoZm4zIKE<RI4iE4M<R8&tT&SYxsx$X
zcTpiNU{`6lDh-Ye;#o;;L|m^c*`!KMtfIVa2++(`SLIhiUksf;HsflXx7%E+<{g5&
zDMzuKTkzGK?NOVNvxvrSB+xZ~4Z%f05lBx3?XoTCknM_7b||g^A7v=MWT)ckb<3`E
z&Y&o}k*B)&Io-*g(&@cUSwuPS9h56Wx$-+G=S4Z+V0pl&uMQnI7<|;2)rO28Qewp2
z0RNXT1tn7yBvS!E6cA^+MC;T&N=l2yk_p`<rw3Dt?v|C)(TEap7LbBOk<E|+L@o-$
z5Z{pXc-W3RYsL&aaA(b$w8zY5&JjGdYEGAzcxtjz7!;;#Jpqp@A(Oh6f^`&-dD2Bw
z$EnnS?!hh7Q%>EfDY4!~Wi)D0!o}rK427673k_|!H5oh2j2lp1Ye#Ta$oYiEHKWe2
z`R3}H@#meZUxmN&tBtMSszjvXYQx@{hI>byFZr01>bB=~x2mKwY9eA$1r-rB8AWMk
z6l$Ddo2gxn3u-GK25c&kWXi5mFVp}6t{RNdlo#mpp-syTD6jjsQ$-aBFys7NF4<=M
z+p^*|KD7#aN{zFgejgF^6d}J#>Ba$~^rCCP;%NTCKv_O+#)hFwhlK$KOw2U?kJJ*A
zcc8L37u|i|{<_hF<HD4qhpAOq8iyQ>>)yOQ)4j|<h7#ep5)gG4tVN_>cO+Aq?j%*J
zS91Fp(jsi0=pI?=4QFC$bv+tUNm1$LnM4#imerw>Y!q?DZ&+BfhM~^oI8)prK$)QJ
zM?l=EeR*(f@Z}fBUYzx}Py5?v{X3@pJLY^9=es6qzqjhORhL`e?s%(Xw)^;W_wk%V
zsM<L%*sHub!CvP5f5cC93&;@=RT5lv2L(G3=w1@(zHl0lNZm!L7K_x~bbAwP_=Mpl
zZg0Zyyn9hwDVA)U_HUf^Z=LpUy#-6U7O|u!P@zK)kpPB5x;I3aC<A;H(tV-ObD40=
zc;X3#<YWZNuHINOoaTckWvDx}w5o2Tn42RowS$Jchk|=3sH1=^CDVH98j4ZSil6oZ
zf^)*ZI=APXUe~^BE9!GD{KLLh)xG?}*b6xi-HF1A+W9hyHQHR;$Derh^RIk9Cm=eh
zyb+s<%~LezcDTF~btHy40ntlsKWcxoeV(E@F9Nd^qP)}sJ>vbM-bC=TE>ly?A43u$
zvAiKym?1Bv9bnwuy>5oZoacN&56rp1%z0U_UG|WP9u=Oq1<L`nM19r61bOa{#f~um
zY#>U*crG#<MJABU4pW1N5Fr$oSA=8EVc{h_hgq}_J52O$6Vg<MU3sMr^GCI?YtT^e
zPTi$tV6_=HRX?8Tel@NofQ3VG4)&*9T>DFSn74&`Stt~VVI2?(Y19^(xU-zwBp5?&
zw;HTv+#WzyjYNvDmsm08nHC$z8z$N&>#vAgudeBs?3-D0_o(wdaTQl4mZ?V(iz@Hn
zrqGO)G7fz}yx$=eU&2Tr)nq<uGB2oegIXiDTZ3}h(RZgc+lg;|c8G_wXUd@xCi$gE
z0d*5*m!S@ZKWMc#<z#bEcPa5ydNBVm;9wlmUC~4;lh)n9>f1wI8g(CB;lRU70GK`3
zhBn-iH~EYYqXLas1m;xLT`a#){%4O&%5R*SI`vNN-#7nl^OdT{MqO7|)L&eAVdZ#u
z{P<+;8!M+)UViZH!*3nFvf|*V`&w1q`O~9c$cn2O`*cq#jzxi{6~PfgQB1nAY-bZs
zw&mr!6fb4_t)KTg*@SeQ^Nj$7-#YJY)`iJE;>gdbQu0FcZ%il!E=>5Dwq&oAD#1K8
z=By3yGvMk`NfD{X5fqV&DyhMb=_yhMW6puXX@N&{4O=V45j%2N6Q4h2IUszd`(eZZ
z>}>CaATrzs$zuwg^i9B(?+7<|94+V`Lr*Z-TciWPX%6y-?!Kk0sY+i|gJU7T_A|;I
zLCe}U1W*jH1<k8xn*!5KfyuU+rmdrg=jxkh>o-l;Z<_4Bbb6+K-{`?>HO=FPvo-6p
zzV%#F6v9Z0WF!lWWUggN=31U)W3B;9%c5fAf)+N|G2$F{77!J)lo?1ODzlOScb>8;
zfi5*j0oi&^Q_@P9z@}o=%T)!wjffJ5mt&~=BNDct?31XM&1+8F)$3+kx~5yYF15|H
z>>lm8W)XMa<-2F<9~eD2*VJN=f5S}EHjuxjW&Fi#O-I((!H7NO=Gfo>>ecP3xL#}W
z6-d<Tv3i0Yi@j&$P%;r4gfe4`iYJh&K25<h2-tGzSq#}&E}0cAV^7R%k5Ls71T-?c
zr)<O3n#POwT(~FaK>T`b)5XUwJa)r{c&=J3>$DysZaqYNp;jm>pB2|ki)-e5HRqq6
zX#L)n*S5^8+x}O_e)RO4PrtL_hQoxnQ$F=x>ia$l2s5kqQ^0WIT8feS<i?eTuhKkJ
zse^ijVLu}ZFl1=TrXEJBMxt{cH=_?xRtl&_jcWYOISk6~+BM+<zIN>brhzJE(Ra4r
zpp*|qr)y2lSMTy>rER|!@Xz?eYN1B0%d~gDJ+RYqBr3}><@XHjs0Tp;&JJ3Bs%$Pk
zg4iPc#j*^ozvUP#5YtQLiP@z=%+5;yG5eMSF%mex9Eg#zO6`Nk<F^80K2F{CWdPF0
zsT+0)Aj#3^07$~BnsAW%I0Z)$1h^8>o$+|6OBYo|i^^EQ=vA;yAqHa4DAB(Dv{vkf
zVXA0o<E`17$3f(I(o_U|L5wxZ`2FM0jo&@l`o`v|&6iKS9egWz#eZnjc^%qj?}fb+
zwu!Fs(?v+B=CM)n>PqR=y|3(@v`uzRoW3Og=+v91ep36-&HvDRW#x&i*oXyCMctgQ
zYR<PR=W)^++G(tzRnn0~Ab=bdq)O(=%Rq~jkBf6;$1*s{nMW_T&Ux#ny>@cV_KFOl
zxjqSm_B-jho8du1uIw5h%)aO{@Sx>p%s;m9ps9sRx|j;_VBVEks--k7+t@X1H?c=S
znuSMzPCt>}0G)bz)EHV+Pf-x3U=xA}iKKZEG-5dQSwwCDx-6gLhy#GCum+<hLZ(2o
z#uEZn{N)AyxiHc4$?&(a6_ol}lmxh1)Wgpql_M;|9oiyr#URMgu3M`F6K325SI<z5
z1Oy0oc=K?zb*5=c5nRpgI{1^unfhY@RY0s=7rMvKOg#6>P_`zJ^#wR`EhK?O#2=t;
zMnrc><XS+)Vd#QkM=3(eR<1v>%K-Z{6GwzGcWD$`OmyV3q#ebK%VdQqbtA4}7t$PT
zjuTs)+zr~v_yT3U2L<6K$7?-qdhfwK-0X`uRSFAJ>wty03@-zr#i6|)m0tyT^eigS
z5(tQARf2_rTW4B!jrPnntbrQunQh%Q-MZ_tZKkz5D|KH!kd^jNH{3URD8B;Pm)-m5
zPd+<S|6~zPzO;5~(@fLO(ZkT{wX1Jp@|599Jb>om0?wpjiW)*(eU<`-6vGs2q2MHf
zVqDA+<Z|%D6xP#J{J#*;IDv^bU9DevF?JzFn0V9m>V}K$7us{c#G4k}!kX4sW3R+=
z9=a2S%9?NNB=r1U=3)cjpRVY<QHE!^>dJy@5Vxv9yr3GoTdEp*CM|=r7YJvgJ`;^!
z^{t)QFyq@q|C?ugov@ZKKR)*OjIZUYukz(b#~uY-zftZs&8AG$W9SUv%7oSZlt_Vs
zUm>jC&tdicJgnZ&VfFqGMK3&xjdvNa8vh(tQ!NqvtjkpBzdcx8+O5W4hU0bhM{y>m
z&}~vFd4qkY&cw9!MkP(agk7defYZ^W3fvmZyMPIQ5P9-0N3IL#m5NF==@oE7<2}CN
ze^i&m=ba^&z>A4t;q(dAt#u*5L|E_%WtB_08?T6~uC}ya>9}vE<$l8L&0H~)5SbS#
zW>VDi>uv+Le`3zZ5-{WAI3Ej8yTvzifOz@rEWOgm%S)*@V+C$g2X{&{<PLWht<5=d
zCk)@m8_Mm6G|<{scflqkwY*bP{S2kL`8E>W!(Ksb-(~=Q<~Y&a9Nfc&jeP@3DTu%I
z_9P?^_5Tu$YNUzp)a6NzQr`ui=?wkxLvJ5>>&TU=!=tV_a)yp)vi`QL*v1veO}L({
z922WU5UWoE*XLhee0*Q&a!A~0i%|ck>q~VTzSLn*R~<o61XL~WAU$Rn%Tp3#<sGVy
zF;6Lc1)!RDs5+5{l*FQoJc6dv_48P}jkreKz)X(3>(!BWy{ZH&@z#+!g00T01Y~sw
zR=B#0DN5ZI;{HNX4-6t%Ac_2HL;G)U5}0`5CUE;ED$x!hfZi+ww}vmax_-8L{dD#E
ziJ?n(&s2Ah9++!bIolAJZU{`?HJO=d*g1A+^r7=zb2W|Qo3b^nSzqhTIM?FApQ9PZ
z194d%h_}H5@pgGICYHpvF4K&Sc!oU%Tr!|6H(bOe?$9k;%qoUtzevx&M8O|ZkoWJB
zu`~EpglZ4mDZ>iT?cbnojTS<jX%@QWKHfQtX)nToUcGNgrdgg}&g^T8JiqE6(TJ7;
zsJCgKO~JcFUH*d6WxH6`R^Xp)GyJnT7t(<U;mQRtz2U)KuGU-N%0=ADig-a*x@)wc
z<Z_N(wIq1V&~PbumHJ9fU*?k)T@TpUdu)mnyvSy^^d|d88AU&=b-LE)d`$+9#6LF!
zRN<$LBbRV(F2+u(gs$aZ`j&nx{rdqV^Zr~5NHYDoG<@7rdhxiJ1{Qw&C(uHpjUbp(
zC0<sWe%_CQ9>07W=<yHJ>sx?LVI~(}vIDqx2~T(dJ}rTl3-BpSF?p7UoqbO3svum-
z5i0q~@ZytzDZ`-!u=EA~XahZB?l0!NU_LN{7S@Xd{sxPCn!9dO((*X;U8?G<2$pj>
zla9P&m$UI!fBZ8Ow(*B2cf7H8YVVJgx8rZc*_-`qRgL4VS!wH~wyb}5R@}V=X7!<$
z472_KjQTV%tL!XbaVg<&eWJc<Y~jIHYx4Mh?A-**A>`l5$UJ}GzHIR(UpCES?$9P&
zYF?Hv_8d|eMlCCeQ7td)h;yv0Bt|90V>z_VRRHpqS}$O2P_$m~jEF#@Zfm`uo<(m0
z-o-9dHUwHIsDwUspZR8tHry9rQPN@>t^G|HYT{6~aJcU_)s_k1Zdy6~8&yw>TmqrK
zo8013>#Ve6TG}yJ)tp_`KG{F-u&=G0_O*;2I8WQ{8&@r{jA$?1=uwhI|AICdi@eLR
zh`Gy4?vGi*UG6Q(rqV3+mR?lc%+fJ$sf|O!9&7ngHeAM;ZocX0gn1%wy80Xiv^wKx
z=N`lY<t4=-zZfCIQXmC;>6VEC**!}XOj&pai9-+Gu`CoUO8x^iX<tS_@=*IxUG8~t
zSxr`H<86t{q6G|h#}8*~HfMdCxj~~ByGt%%ZWkk(Q$VK?;w%~)p}ia%P)uh#;+B^j
z@d7V7-HFDECRavx-qNo3ay-j5*Oawel_G9cig-b#beFG`?v|>Qo^4uYUBn&nqLu5D
zaKw`ws1*E^Xhz$o*;>khg%Ww<>ECq4Q=EM9^#7sP?b?&8>M#~j_~&e-nu-=trec_<
zC&e3jgASa_u`8}#ySY>Fb>yKd=%#ZyvTF#QIGmCZangpi@s=sxfqI^!FqB2bH$dB*
z7hTx=i*q(sot118upc1Pt2Zn@JcAQ4bb>70j268#_fGUjHHmgfO8nfKR{9hT9j{@B
z>$FZ*?2)t-m9a4_+8b4<JU?S2ox$F8MG7Y*YbTDB#C~6PQcFTZy~$WCc}9_?lY^`p
z<TN%WOB>OG84o993ESKg5<3_d9b)AJ`KovyPV_69l5abVmW|mjOJ}0#ekm;Rz0b$_
z*@k@i_M1B*vEyK754IFG+>QYm{ox}!$oAmptLyX{q*SCnC4u3_q_i4NXml*l9C|k=
z8*Q1DI`$RN2RG)h5q&(9Mh=$uq=I8^idI~%ctFKvL35*L`HEQSr~0EY1q3xY9Zl2G
zAxTbxb%|tJlB22;Nyi4I!Kf0GB`}Qj9Ea+pXgsARPqRIMT05&OnwDbWL5=t$(b<xO
zjMFBk`1z~MNqz(?E%jzJ9L{5crD*MvmWhBJd@KhaI&wtXyofbK;e7u$ODq$wMC*i*
z5~qz@DH2Ywo@mj&1mq95)OWs5R07T7IIjYZQ~T(;+OLFV#zA8&EHNC5ad~Dn6^t0X
zWJ&pXp`~IVn3PGeA)C;~IB_b4BY2OXNhgj<;P@$xH3Z28>E!5XOc70@!t@TB3+)3+
zB#cv_tS)2PNXDxtNyE8EWDcj<Qw1bR_8N2!r~2EC_N^_Bte=r&A{~w<P)gEbIL(Gk
zR33Y_lWJIvf-uNI?BpC{d$K_*zH>=RCt0PDB+jx%(goeTzZd&tC8ClwxBJ7V73rjc
zS;_k=w@YUfiN+F^N*q$9x+5_KGbWQ_Jv~DmW0fS5XHXGIH^i?anc_W%W?}hyl4)ZU
zD4UGQ=m)sS#K|BBQ&)0SX2P3LpiY=<hl$q4tV9}Z`$WL0l+n`3xMc3rVqAhaDRRh6
z3Wa4^itubW9R*Dmg~*zXpsyf%G$Dmg0@AW7<4~pS$bu|s{oxcCEoandqR-Spv~9Li
zI!*+}yu(pcH5o>Y{pcl49S!GUFe9`KHrJD+65DuJIWH0lqzVPuDB@_ExQtOndl^^E
zZs(N{+JFLN!fFa7lSqTA2lCZ+oQY}*NfW9s>>7^QM41{msgOFSE+xPx2#+Fl7!j@m
z_}qs~N@s}Z2}^#II3^<|Uks$DDa|Ou+B2y`MTviWHataYx|l%7peh@Tfon#E`8F6`
z3`!T*^+1wTzCmZO1453|ZX}&%_xf;Xw;vS6EGd#~BAmfX-YwltlP20%v<uD+v+KZb
z{yMw>1o!iPfiWBfeF^I+ypaJIqigvyF?iis!eR6++D}vRgh=V!-$u)&&Ign_dMew$
zZ|%-1d{Hht9~7SXPrMzn7wqFAcUKi3OJRuA>cV>-H@8a-)ZP3HCCF#9=qjL7gZYTo
zsh?7tO}~RSSAP0!e(k@VIGQogVz!+Bhbyu)UkneIaVkW&b?Qy#vFgGT_UvE{K2K0a
zbD16P3)uU9)&KL+AO7b0zP^|K=Z6!&{<};20{()%7bH!(FOf{9aFh#nA(K-76iIB8
zx-Ob#hQ065%lU^K*g0+P4UJG%!q#kiIondBSIE$w=m`g(=F9q*DU(FOVFc!TdSf5g
zMkEbMOQ2%Q_r3+QSZm_zs_W)KF&q+;u*hlIddWSrYS*aqir6$4=y+rG)avZU-Ir~b
zTW7l;o$h{gw)=_c?kBQ)p3JU)YScL^Hcg97SH!!nx9^*)@50Ka!%K&!=S88hb@bqM
zU)Nk!!+5Q6;DPx>vCyoj{P)WGvHtVviz63Cu2i;N^=-SIY*>(01a2qeb>H&Y-m7fO
ztwkqutwLGFtk^s)Hjm#uvEzI9zIN|>Vi#KlVJie#z8>zqD)fy~oaxH1A%bJ{!T|mk
zU!_i4sr5_bHP=@Km8iBsTYj&qx&9e}n_U(%w&!gsj(E|gkRfPp*?tPFXInQ<@UzlR
zy_&4L@fnE_SNM7bGoWeM@erMnUImPRb8P%G8~D};><7()bd+p1JCSdkhEvDUF?Jxg
z_#j+GR13i-0h!T9L5A9vlDwj9M@jr1MuqTOtQJ<(%~oxguG%nLwe#Joopb)0S^xTJ
z|N2?~fp`4}uGKVLt;UP+-J_m4f9?2#S-<qIf6v4dlTW=Cx@?<n+mjXd7`$S=FS2Mv
zQ^uvgKx9cSQI17d-p;{}SbR@|&ipFnUSf8w1Q$(zBY0JE$8f$arjzVFL$$~FF&|lK
z%P&2#1NWO~Tz3(*2lWcWo`bKM1P&?k&$-~s56a0*pZX2t#K$|x38m5=0FB0AodUv9
z8Nh>3=vI1y=jbIykq_*waIIzStIxdh%xufnX=sQ#+SLgS(R@{`eAzeV%hqk4JTcp`
zf4XD;74g1nqL1r^@wWFwiLob8wfJPueW+F?%c&C4*!DHu0T`$|PvR3K>bEIz1p?id
zj^b!F&=!5O2H#V8UUwZNK~=v?SriI-5fmQw`8p+1;H3eC5rH%0SN3%-F^8={?)sd4
zwQJk>(1L(J`X&ia$lYhFb#+f{pR9eYJ0~D|sdb+Ia_z`5>smMMT9>msU2DfrzS{pv
z|AzviRQRq1O5|=6YBSKTk}2f-u-32-5_DQ~tkclu=5{<B{57Ya?qBqb?P0|SGU$^A
zoxRVilT<57t6ol@Ht6J2nvqYhVkt6?|EbZFnY1FauWPXHP3UVDKSL*s4+vpJ1|$q$
ziCHI?BbAVwzK50LmP&bEiDb}|POOcwSm|V2WemqfXC@tu8A%})=Nk_zS$V80*!P1p
zl|18mg*jYiVVMA!!mJvF*}LaTWacNRtC&eu@}CG&nWe3!+AZSo+DKkh!f#yIzC$qr
z2mHwVLlo;rfG^#oc8B;!Qp&K;GxXqz&mDb;S!Qm6nfwse<6Lc|GU7e_VE;b#uW<{x
z5;WS%lXKW?Hds5`ik}O<4}|ut(Eh$q_r9?27s9#^gh$^Oj=nG4b;EAA*>AW7Tl+7B
z%^wKIriEkg3tb-whkjO8d;YUCWvkD+KXkinHNUQEwt0UgAXw;LYx8FBx_?2y|H2{L
z4&1dqupr<+m#_&H8?wGtv%dAyzV$P{jc3ai+?$Z0{qTZ-|AnA!FYY=XT@diUFl-Ck
PY-_Wtcia#t!iMyJ3!g%n

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/torch25_custom_graph_pass.cpython-312.pyc b/compilation/__pycache__/torch25_custom_graph_pass.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..94adc400bcae33ed7d4fe58be1e3e155873cc9d7
GIT binary patch
literal 2170
zcma)7&2QX96d!+WHrq{Fl~5Im!YDy%S88{qh_)cLksw7?I7EdM4tp`Pp4qGud+d(w
zPzMeL1tC-kiZ~=a^<3q`|G@=LNEV!W;<h9pBu>0H-j5_rCFbxve)Hyi{O0#&ewv!9
z5g38}(ErLI<Qe`92mI@Cun3<W!U;D55*lqIG~1?u|7Ku?cH7o-D{$J5Np2HvZxika
zW6vtLw=22TsQiIH4YRP`d3ULpW}PHe%u7R&_9EUeKrQnXuiQ||QS@)&e}@RtHaKaU
z+-O_E=B9Ag>xa$D`TFz;x--w~xW(<R&7Ey~Z?M>&1h1B;aeHfmkgmxqht^K<iEYxZ
z^D4-x+-^)3=k7+z>n&Ve%91n+Zz~q}?yw|b%LXAe3gd3iPpB7wjw%rc%o7PcW=y*(
z3TcXtZr)sIUZbD(grr&G%e7K_1C&keZ8@c0B)gFc6Ih~YPf*<8%T%Z?_@<pKr7TDy
znq+YtsWhRn?`;I&>M~`pr^nKZ2?SuN_J<C9$uke4gJ&+N$2`zw38V=DxB$nYFNF?O
zu5E~%b_C?0W0!ed@}*9MNlsZO+7y>*mihcrgF^M-j5ixK9dI@4XfVLN$0S_`*yvoW
zAdKX5Iz7E{v`ud+oHYctsDNFj<cen=J4s~Nfem7Z<VM5XdQ)#h_?N>t5TTGMOZ`aF
zs9P4IPm9KIDrNp?y7ClxX(uA+sw((OFbbvre$Yz8xE1^Hm6WM9kzTo<U4Q$njq9Qn
z_?=dq19N3-GYG<#7lpAO=twPnoC{Z7Pls}K0j>@h=S9_ZJr)G6yY>3X{AmsiUc$;S
zkuS&rNa6vnj*R1_KN^+(p$3Zr%FDO#EHmlf%S4b<p93C#H>Y`&!Ksh2p#BlG#?TC0
ztwcx!;MRs8pFkVrD|%KCWW0Apoq~j)8VcJq!Stz`0$JF|kgW?Z000+X0W)<P1-9;y
z(h(9}`W#Gl$meAJI540e_Vg-g7+XJ#fVng1h#|?Klq405BRhtyl~5=2qwYNVKC-mr
z-oRkw3*iuwbpin$H=;HuBMC_N*ro<-gsa{@#-?E?JYaPe#9?Uat_ws<fV2WQGXDaI
z4jWPQfG9m6{Tewl^IiT;{_wM(tFM;OAzZ_OuxaSd!(@k~BjC8PH<*73O|-K0^%9dZ
zN`W}~4iV4YTOHvsXztM!GXfMYhrvaHmjz<lq#uEy#&of~<NUNoCG-j)ga*S4i|V~&
zPKu-n&qD2E7G&Z*r6ScZHIoWQ!!u~ol2HI#@_%3(8(jnlk{J*W$Zyl<`=&W{?ZC26
z*ZRbstZC>P)7Y(&g>Vu@&2__wX93P3*u9JegOv%_<&o#Q3U8sp(S;Uf_rAVK3P(Q-
z3Lhnf?^${3FXK#e96Llu({(6#c!(C0FiAcEu}%IoC!A{kEUC=&P0Ok8iYL9ty(jXq
z{B?HWm)V6r0p*YBK7J0Yp%qX8?QN(2$lJa3{rWzE>0lXV`*p{;a4_vSWvM!3W1_HF
z$5Y6VvY1Mm$I#kk;<KpM`5n!<sNN`%Syc02f;>uI1JSn(!}zB{j5mHK=bn-JUzK^I
Mw!8W_fsd~EKViEy-~a#s

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/vllm_inductor_pass.cpython-312.pyc b/compilation/__pycache__/vllm_inductor_pass.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97e5b9d55f5611eac854c4d8ccd11c951294f185
GIT binary patch
literal 9703
zcmb6<X>1(Vd2g=0cX^ZIA#y}Y5tk;HrcR1FB3hJXU6gDqPQut4FL#FIQhRx3D2m%9
z%pY=1CQd~a2t*+jM8O3_!v;#B1!SOq)B-^Z6exB@Im?V?R6*<?{<kva+R3ke-<zG~
zwMx<_?VESM_kHiXAOFkibrDDr{ukkaT0;JS6)Oq(!pbu!+#oWMnFtv$zsvwb>+Apv
zUpB%;`2n86J}x3eZ38x1W+L_h2OZ}eaKe|5xT5X>H|-N5o~U=g8}$wNXx$bmiIxtO
z(y~2L7A+qrhq6O<Mk=C}1C<P6iBhgqeax7r8mLxymYg86>nf4mAG2ob$N3`<)X+W;
z^m&!akGcGuEwt4KttHBqLTfE;Err&yHLZ0MjKBPAoY?PY45u8_gP}-J)1cxwhJ`nR
zDwL}u!Q_NA6j!4`T^d${i4iFjmlZ#2l%Egkx}wI;2KCU0qMnB-MrFS3ysGH>#CbIw
zgAuTb>y1bxdMq9r3J*ig9gc-{DH0zZR@AQ%UTE{2jLBmmJx<pNnedo-9yqeH59&9F
zLhxz^*dM`l4R8vt2ym}ZPTC1kY%+TYYutccaX^j78UQL7wbuH_;?YDn64b--n0cUn
z!>c7CVO<Z$hNXByd)a6h(-bM3KTjU$L{QbkILYrc9Fi0ZMiogiT#^)x%VQBNdnD<d
zv0%jPQGKwn!AHWHZg85e8YPkxjK$(Q-B^<(wS*2BjK?D%krgPDKb`8-qlwN$IMJa8
z)nP^NxH7i?K=-BnN@pZI*qNBnN8+*0%Yewv&?*eHVfC;HxP?GsLiNIeG^>V!CPMZe
zdGdp{sk5_t=D6zz=JZTO%M#zV><^@Qaen(FKA>)~rmVw053QJ1{tmK@*q7M>z&~Og
zv5)tl*kulJ?gVB~97C)uT;&Ixic7X#B?aPj%XY;xS_i{6q|t^A4N#RGO34r}J7Jwt
zWQKt<*$sL51nc)0rASxS%_0RRRhI~<Hzr#5Cn8G3@vuH3216kQ%6eS9eCEtq5yzV(
z5TKJz>S98TUk=L(j0s199NI-BQd$VcWKkXi(uoa=V|p0qC9G)Xyne%tJyJqdhQe12
zTZqzmD9^GKBE%xn@yaxi`wgP!nVgUmGrD#h9Zblmh4p+LKhGIyTQekI{DiT@MT$s&
zX(z|#`7o=nKkP~c==xD=b@BF5&-!s#ivhR7ia;M`f|;dOdG$+IEYdz&zB<M#<yUlC
z^%NPcw92dBQKbA03C>YC;RNxs{eG4*DrH8$mokh|zJ|L%)}hQ=9b~wXobt_v2bf=p
zST#Y`ClZR`HXF@~S5_{ELy9%TW>yWSBvD}tasYugoOD$b9UxeFO^FPtTcKS;+7Lw*
zISZu@m77wsb|cjXtgan6>F*(%BF}83<<N4Sn62BLsoR~c>&?{lF8e#P{+BZTm$H5-
z<CmTZT#IX(f8=P&IY>iuwti2heowakXr}%swr*MOK9cP|{jmG=+`epmAX6WJ5fAJ4
zq+k7!*}eB*cJIlDdr!^|WvkmV)ot18u7}lK|EW*&AGnumx882N*_f?;F;n~EH2+H<
zl`o+JIl>uH|5B#73WfLAu|+Yam?4&Klo`E1pfal$SYWgWF&87>A%2<+F*0}6V~M0m
zCdIr?{CvOK3TH6{s^~Uxa0T?O%tQ7o<_6I8=vrW)6_d3fgZ-A~GP`J=V&npMqRO9P
zQ^464zy6t7?7A_Q>9S_!)t!N|xqibosDRd13?Vp#I+!zrK?Ova;i9sN0%*9Em<(!3
zMqTXZDD3JBu%=-T1tSq@D5fC@qBvzzpnV+le?pOyflUMm@=~!@3LJ{WVZL@GkRQJr
z7SWDC_Wcxj;wim$YUb1jXO^LGZsy$F@%ipYp7!5)DrWoUc0BTktL^(Ad0v28*3*#j
zG<@c1q!i@08P1`x7+4DNh-L`5gQnKwnFTN&LL&w{bj1)(prHcHy$d>2x;=8z+j&m%
ztUYaV>z@Ut3+8F4(ctV~I?Jy$%{0x`EIGI3Si#x!sIDzX;QKFo?|0wpzJKK2k!M(4
z;fSl54#@dPY0b1r`zB@uO%Dz$p|zxeR7?3_8VaBsAU9JnE|}y}+!QM_F<xd<+^@+k
zc9Pc%<REh?{?}ly0`V2N!di_G+QY&e8wlYdys}DSKtg=KK@27UqA9LX%TM+T6wxXw
zX%)9rcS2@(<Kr<jolHXr1|bVkVAUS%XTpXMmcRzma1JQvyg*Z5gle*W6ZTi>^Dqq1
zPC_<C9(x+Hp4N<~b(&eOu9*#AXXoEpC|ls>e>^Qbb~G;gYUYI5@wwnUf7f@%mu~7@
zcxSO{(Vq5nf4U>vb2ig+_FIm1x;6_Tqzj6C)4E*M%*Bvz@fhflg4UiOA2I#FUOW<&
zQIb&9A&~ZCX!uGo&2R(cU^+_J>t`r#G?W`ADXN`NOjd8g0cF)b=+jW<0QmJy+4{~*
zedkhr*EIi`W6Neh5V;hPe}}?a6XUN1L|;|W#SIWrjAoKx9<0jcq??dQMlYBQqiBb2
zNR&F!Jl>E%4Cc9lAykA7<AABFf!<`z4oyU@98q*d2Fp&|5$GBcqnh8LB9heOkbzD`
zX-02B7>dM$y81FU+e|;h5M*U=Y?zWP2nM84G}}~ak4sT)t*TX#>5~ncZe@+MJOLv#
z+!pSpc5Ak_BU9V4RND!f&-b{xey;C!|IPk|3)zmt8Tj9Dc&YlxgQ`sR%hT@14&OD;
zj3-?cSmf{f?)e_LKXaThC0hlx1=KQFRYkMMuuGC04}pz9IgZCB4m>Kg3P&LSs(x(q
z0EOw{P*ed2K~@i7I})?HAG2=E&^)5-M(K@$r`BK_wfWJyFgY9LDDI^xkiAEqvYg<^
zxro1G>h$cExt4kUW?QCg#}ePZ%pc70E}?5KxkBKR+d^#RPg$o>1ESAXp2JeES`b|G
z!d=H52eKr{Nx`+Kt>EVyA0zBqv2ns##ykP;8-iaUA*`5Ieh%4ly^g%60gki1m`y43
z7Ga_X0%M9;gw$uT$-*JnN46;*^i06paDcbrm7R)Dc2V!cjo!zE$L}>LuWt5ygW%*7
z>P7U58|g;WM}oQtJ|(ynBZ_FbE8v(=|5*gj8XaiM3DKYdNF2tCVJ+{Gpx1$OO+Uk&
zr{(>S33Gkyq8rdtJZ}?gQw_KX{GgyX6pkqE;`m57G$IbGN>GnXh{3R|iIiQ?_X)V@
ziWkoHookJZT?+ceX#BDQnX0UMLg-ZKBY0jgk4;Ea6p@D4gibbPV)Dg9=Mv{GD=P4(
z{AO!Bad>Cz&o1tKtIfZ&U4&I>`)b>p{v$@Ebnd)#?v3NGojKRrC!O!TaN+oCVBLT|
zfwLJl2sDhTu}!8Lm4tYy)KG)(##GEWlbNe)j4`kW+2p?0ltd&LQp7dqZVdzi?IL9U
zBc@*&0}EdjF-9_G1{Sn+b}njSYC85q0pd(dann&|Epi1t%{^yKfuuo;^Ke3;Kk1@&
zPXHnp0Tl(WifZ#~L_UO7z><xRC7{4W*Qg!CaVQdu4$8qJ$s<Uuo9Q_qsV3kM5s|Em
z(N--xYyR7?jkXQ4DKh7p@4CDH&i;k24}0d@7lMn-efvH8r_4XQ7E+n&L#B*l)z@J#
zgha*$^HNy7fJ@+UEk~!S=-$cp|IbO^!bQz<Jt?Wkmb7L{TC*kXnG&!x4=sDjR|Kxq
zl_Ol<B%t1wVNXOQq~CSc8EP;}O^cAfPu?#9iemnp>HqVRnG%heU}j2+(ikhVpKz;|
zmdwjSgpG2O9J&K3Zn^|~6BfcH4vQKl`4m4|aCYG|`6Sz|5qrs`po8W$lkAuw#T;><
zD(5XOC4Ayq-95#Q7SY6`sDd^m%k=3Zv&>tdS>A*jo3u^ZQ#RR+LR2p}>cyP#OQ3Jn
z3fZHh)}aaJ@i@<d0Z!+=#Z5Y5?zLmA-bsWBhi^!!RV+EyV8EAhpk=%sRvonrO{oIr
z`p8@VorlFa>C(~XrpbbK(w%aTHd?K#-%%v34M{Fp>)OG*mJI`-nsSY9-`rY&(j%9S
zqD{Ra$z>@g;HUf+H_X7gXuE7kedL-q#14}X`xfjv=`B7g<wX?2N)^!GwqXgVTK%`U
z>+A<Rcvx-Hn}l|`GUY*h4l`J@PCMGMc?G#tuCl0W()XM@^I0oQ`d05O<%4sTZoIP(
z(mc@H2R%Fn6v1^~i{S|-#4_}Z<D`Xj5sev#`cDZ1|0b9#+)v3k<F5|>tEHIH@i;kT
z>a{{B4>Xn%3l2sUxt+EZ)zBSz4P8*4E?f%}Riaceqj4!&>Uji|K|}_f5L2$`rfM{G
zH(0MjS3u8#cM4jvu*?P2oTmLI%5kt0!n!67DjJ=ez$m(?#j)SC1HhVy#N(GVF%rI{
zi05fw80=$NDJ%%ONK}Ga7>-cT<06JI6LDRM>0$8hC&XCra(I~9zX3!{Fg777sv1`{
z5xxAN3eXi6L>S{^dSXm(7r_h<f^ia*<$~5X&%PF-g0;{?Eg8$!i4Tq{AqrMB7=vgz
z90Ovm5cyXu<eJziY}|hVB4T!kzQeIK!=YS(h`JQNM2!njYb9f`@H=CQgk}uvF;ZOd
zqNn*Q_6C^&0-9k*H`A@@8e`7g63~gE!Js6B<*11UniZ95l7rAXIC03L5H2|iAESig
zclG8?4-XZFIAw-S)Sp2mx$imJ%OV+kNhzXVufSXl1<?0XWH!FwU+lZzf3H8i``Cl7
z2d_Rj_CQOwo_<(;nkrX=8BZQ>5h*btKE&}LwI30?vN$+F4bvj3e%%q!j1hyiz%&6@
ziwGg{BJ^n9*X3X&EO(gH*Mani#EDcW4vs-2eI1dk-y%GOYzF2d-0B*#1M(SC<53_g
zh~osLk?=4KlHw{b628j>f@6AIqOl)%hJnqKU?4{maa9*L_sAl^UZi>54%QPvAb-u0
z#pn5D+gz8yI1&%%PlRW{1|T~g@k^~OgK14xfb9x?e-I8HfOng)u0;LGDi`1{k8O=&
zHJ<1Zjfx_NG8k9VBP&A|3rI<>)!&okVCSUWG;qbFKv}|HW7L@OX+_#Vd4>?ZB!^X_
z2G1D4HwrDFO=xf!iB{A>AR~i^lg12z3KcVc<FJSv!Za`#n9Ksku;-yMc(4Xl6^$yx
zsl>*j2&|&oX&s~1S^{ij!yQ5gLZOdih6kQQ;0+L7ML>KZ2UAWm_|Z57AuFOvG!7Ri
zOCS(5Izcl^*Ec2-1^`d3Z-1#7R6_l%Uc`*T;>243i%lOfm?49Y0qv=A^Gr}gD^jIQ
zsv;K|EG*~%87AR4gS(_mz!}X`nL}k5rIkYVHkIv#?5G+2^sXb~<o3UYq3M$U3(WM#
zDUz!u_1m&_-I==XrMjN!lHZjyf+70EQImCS%{aEs%ZnG%j;)UzJzqHv{=Ty1vFG#(
z$5y$foe-S&)m*zcb8+t2Bd<8$``A;KW0{H_%RBscFW$MB-o7VCY<pXCoW0DSD<#!6
z-&VN1KJdv~+Oo~NGR?cP&E1*i?rd|<b>A#MJMyHWW{$bO{~t!Oje$&K;9*5zxw+*Z
z`xYt}f*;j<cy|7W>0QUu;>*`hekpFBzwn`J_T-ZWG25^&)39%GVyU5b*7;>=ReDS3
zqI2PI($xnaZ2PRV?{V`B3$OgPdGGa8v%Rz9U(#U6>`Tj))i=&uKa;I&&s4UjJ6?Lw
z_o(t@&PK%M+wb0dcVYaW-u>v^rKTUwzOvl1^X`E=2bSx1E->@jLQA?f02=_{t!>$z
zhac`dykh6;>z>+3>yddbC%^*ProEY_y^EntQ%}0_;HSHno3>?}c4eA&E$+@V?N2v$
zf5S0bd!Fn({FKh*gxb2Chcxb(|H=HRbbV*K?!~8GTW!}0=h$BTT`8$)ygoc9&%d%%
z-H|IJRoilvWP5A2<#49u@TZZbmeaFm9#_`Ry*byv(44O8SnU06<-Turkd}Q<t4Pbi
z@9K$fTiPrB@tdOz9P_(g#;pHI6M>rk&C|!7@NmB=X+2>t{muSf8&v+oE@18vPE^_Z
z{bd^hKk8YSroM(5x{Ng5W3Uj*x93@(I#DVQeTMzKNy27~2RYP?458DhzK7X{K+mh#
zh8b?6A%S9`#|D9(Qc_nB55&8d__}3&?~|^Bi{<z0?$s?j4gw+WvZeVgbFK5c?)Kd2
z$<zf_2rJlf4v6L~95Z7($7pOP=R3*>`{z&P2!7KCPCugsGtPtChTvC72m+>+HzC6(
zAnSEsW)x0l6@K-pW<Y=!Wm{2q1$lNuvR<C2$rWb61=`$ZROJ60!3vF>2Tu=#21qaJ
z{jGEQP=DiZWfx@l+Oryzp8?nWmjW2e1$P}@ZNQ~p8xdBI!8Ckw(Z)b8&?uey3vA*|
zIfiArsrmybX@~`oHhFUaV|vMkB8M%!@-5&byjCy@9y`1<_Kai8T=gS|xLmmfp4yxy
zvR{A!e<3acf@xzyP>M#3(L;xXu~`#5){H1pxXgem4f?Nh<>Aeez9dP{1IX<C1QymX
zNI6B89iD68K+g$t`t6CE6Q4Q!X5hfRkw<7uvk(N`81cLYiy7YhD{DxB$1Dj9H;Qcp
z+7#(3Mi*&z7YZ7BMBiT}IhGY_=U&eNf!8jyeT$!*gAv;1l-naWM{dV%#=av^HIa-f
z`0Ld@xX?S8^+5)KW$UkL6ir1sGHmcP4EB-9vx2G&D_7LN#qk)aH7fEZk30e77&mn{
zePJ=0@;%QpRaDC7R1v$W-p@Z+BVr7*#f*Qe7(p<+);cuKp}O$|$UW*Q%rMkp27;-O
zpx9Y2Js@yoKJy$=Z^B?irG`FXj$;^R#YUL2&q>MW#Qg=?_64c`11bNUc)lR}{)b%n
ziZp*gTD~GXfA6fE{mGKEamogYfOUVzvP>u7n(2hlG3y58Go8;|0p=_-n|em@`)rW;
bF~jUnZ|!(Su<%T0ZA@Fb4z32i^cwyT93Kmq

literal 0
HcmV?d00001

diff --git a/compilation/__pycache__/wrapper.cpython-312.pyc b/compilation/__pycache__/wrapper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c1cdb1bf25a33fec679ddce1c1d06a7798d53f96
GIT binary patch
literal 12449
zcmeHNYiu0Xb)MOseQ}rE2Pu*w^%zPP$rZV~dQhZ9%T)L>ZHXckiIx(!$z-@Q<nC%8
z^vo<NGRs0R9DqXI%0`1qZW7o50z`pZz$pSmKl&q195`tI?1(gWJ&{`mae=14Xi<Pu
zH$Z#Not@bgwU!ja>8}pCckbM|bME_`?|k?EOKoip1y_>!%Xs?%iux@+7#CBDZ2bfx
zHz<J;=p;3*-|1-@o-IjB$~tYOG0mD}QnqOui8D!i$}#OAaXRUoc9L&hrF%`vJ?$p%
zY)Mb5cDgoIH(i(VPJ2n3J?TsNr~Nc#p+vtJc#GC+F<mb>UZ$oS1Sf<$M4RAxnR=^K
z!RbZ|HAV?FFH?g1ElVkX(-Ix@{0<)`g0xo0&&Z0zN0pSQ#4-Y=L^EkcyrQJ|G(RUw
zkm4N92;$Vzyco1<-r-DYKAz;2cqV-olC|357e)rhBz`_d9-HPwg^Ok-NlYu;LNb}+
zK-_G64#c?Q>A1orGjkv{TB?1iq7>zY*cNu|4GQXKSq@EPLYaA1$*}U}INW0*J2pN!
zG&s&(m>QfKW#_WIB(P9OToRK@6F;JUWYrj1OwMWyFU`rC{qiE-Wh;neS@zRY5hXPr
znUBwh6i649(3Nc8iQ||1#7Hte6PaIv#-}4#-$=CFz{n!BYhIMX^Gn(;E}hBDbG#sM
zbIHsMpX6kPS456fMDjy14cG)51XrmI#<>L%>aor2f4G@bljnz@<DPwCVtDHL$qDZ4
z<j5$tdHBrsHcM_OLGnOgv{LfHgBC2;RLMxu7&n_uM{&Hk6bu+vJ9@cP?H!PRCrSxm
zP!B;Ae&&Vau^)b0SD;yEC>jPwF<&N16Ut10NWxee6^RLZ#X~8Ya8^kp3+}=6l|N;9
z*mK*i6}qB*)!I_G?E`pBV5e`pRxF=G4vxXLYsKmU<?_eN;>`XPK1WSBmr)I+!HgLZ
z>WdzC4wnqMltwdVM85da%-JYd|JHJYrm5VYaE_JRma81aFL>o}W}9-KXSB_^lCyq}
znP$$FCF}nG@5?W!FBhpR)~`~F^gmb^=^(@Jg$XmPTV=Lnmf6{i#8#LpRu&Z{o}QCg
zJ}t2Gyb_Ixa=4}jY#%!ni_6A${UqgZn7tq>G8>D}#YBk}mePDG!$x`dh)u>*ad@>&
zewgi?5Jf>0@CA{9l3!dD(?_^tVCbQIkyS)l;mT>8xFDOxhfl_prC`|nbWBW(5}!;i
zu{<k@l`V<#X*Py-H_a}_AlCxaa8YElvItqz;-V>H1`L@9t&OL_rlq4IL;x^=#S81=
zM7^{lVfLKfA8aP8u+=TNi8LNY88RvG=)+PTV_glAW_=%H*<rY_PkX}bdFaQCB+4wd
z9iRz}E9r^{1{~X%6rsz>S8)oaUYueP)p;}<shVcthBXJLkFI7XNJZ8>V+ftj>gY~u
ztlk~keoTK%12wyj?KB^mIh-6{7CAC~v|W5OnoVT^CyD~M{VhRD5@L@aqqSzF_*^^<
zc<NzTrFEJwA6J!nGiSLpt;I}ys5&xQckFH*Gc^EAHE}IMRz$!O0Do!^{Ny~q)&HP=
zf0eq=Qm(q|&TGzsvsraE7o2-l=iY*|TXl99oWrVfc+*PR*!#{$<T|H1&tb06eLL04
zz7cvoRA>pSE#X4TDYfNPo@u(<*8aoY-``zmJEpcBE3}<g+s@~iJ)2CU?Gn9lsOJ^i
z_1bH-1?Mi+xoh1SDxUn(gDEGV^xEKk>t|MB-8qa|dLNnP+?E{#Y(l=yN9G&GEXN+1
z<=m#7Iy^!@SWBq)#mbcTohN?3S^Ixj+8^XL7}=MGPMq$ie|~c4&~tw3m)%1L;OSTX
zq4v{#)_?A^!ox#&7(Sx5z7D|+N~F-)o3;q_v{kTx`^5-W2yFrbp<Q$cwhC9wDcD8V
ztOcAkX1YdjiY~zg&kQ(c%(Pqd2=0o!wM(90t+saxb=fePm*S<k5}U}7r7K_3y%PQ`
z%u2HO2icON!bX$4tm|&FU<^gr&BhgQmgFod6(z=l7EC5}e*z4KB(j2(0fj3NX{dBr
zy;#%DW5I%?Gs^bl@P(<#;WM1B*oG(1o_l_LRM%pcP>8N^Dhuc)p4@C)k`-2or$m+m
z?T}1z92O8yFJvx@LN};+8B|_UB-N={n3zccbpZ~fD1_M&-E7IROg1TiWk5qQ16By!
zS+G<591r$@pH(0gn@og(T(A>hO|ZcgouF6x0e8&-V{FC2?u8J%d^$&Q@Tgx3z9E<4
zYp>8b%wa;i9Q~w@&x$2yx$0KXn<JNCc?$*>ua`h(RVlUl`^qp!8(*zh<J1bHphrzE
zfOV#eVz2;GYtAZIFL#31*Z3J_RC7ld0GOsrkTBu8Q4&R6?gNQ-TmU&nu$_b#O0)4c
z(PG5PcS%%s8&3+VT5=`WQl#RR*jMpTiVAkKJ*?pP<G<(3Hm2JI=ZY-{?8!3pEs53W
zF{RxoHxV>q<$KO%^g2x`dyVwOK_gba=cq(?`N@b04wzTg9P{_?w@Pjh%%LXZZAIT5
zGSbR-Y4V9i<LSrr%aO7~BbGR3#L9Q5e{cE8h?QF}0Ql#28R<(D{slb~&n^cmR0)d=
z1mMgx>JnJ06O){-H3pIE(46tKkd30|DlGsa4lOlO6I<ASH=vji>N*{@%u!Lx*Wld>
zEzqx7Ua>Rqyh2}qkS4K3DrlK_mXIVti$-73Ximn}X_$QH$t0he5%_`S{>LcVFvk(<
ziVL4iW<XuZ0}#=_je|fL*TGflox^KKN8dSooBzkrpB=t)bo9UAM^MJMTz*FL5?#p6
z#*?6rxY@K85YzljQsnpy@MXG=pIVOSTDt_<Kzk!~7JfLVp^lfs`~nYb90&@tgOgJw
zfCxxfW`($n>7WSFAxMfm;OFJ8?EIX>!x)@fB8_H2XUaegAy!3zT_Gb3;LJ6fO(x-k
z`IzP)Fftz193|MTIWqIeD#^j!nzPgbK|%*eb5{_5TA)IKm&ibk!Fiy0&S!zYONpbB
zl#w(K>0?89O&nCU4(l~5FqB%8F*l6fD#?=2`PJ&H7$S`k(+jfJaB+P6Ece2NQ4Shc
znr@?-BgV_TqDT@hHi>XxsD7jfO0(-ErRD$*F%6bTbClYrIl%jYL_rG})j)WgBqN|T
znk5Z=b!v1NiM!_}C(mfLFpkjA3O6h9DN$>b#JRYP(_m&v0nZ0GxmYH1S*v~Uv7!Xy
zMbIvx=9h4JN}y>e2^X()6avkflILXX3k0?195-g}a_5uI@vndg`2wuJt5mUh_bT&B
z?MIEFwZ_P*yV%;k%B(w^i{6%kH>7$)1@95ndt{X<y1lC>?*{hd_nux0oXLC6Yy@@}
z0*BPVp+evpHSo;s%WHwttBzuzVb$@Gd&jGD-<8+h`)@hk?!VLdOtG=8(Ac9k_7ob&
z)yDDFu?@HP+ouZky=r~$9e3|<f}^Wr`Gy0kr~M<hx8Q#2j{B**-o|fdZ>+qwQfTT@
zo4WF$!FBIYv47y(wi~st)fRkDslKP)_w{Wwj=gFv`s(vdW2(=Hj;OwoSFLw_jW_CE
ztGg+$`}Tjduj7ZI?}v&W-}Uip<Hg37V#Cg2Lo58>ciZ>ZV3YUW_fZ~S!QFnx-F~a*
zC#MQWFRDi`-s!q{*W<r__S)Hkr$hC06g&f}XW+I{IQ3=q)R)&i=ZozJS4ZCW?BBFe
z-IwURyIp5kD|H(V7@@vzK?K-U^Bt&L6H36V(k0M_!2=*<@@9fXuqr5tT-CVM?@$8s
zJ?k>OHxxENi>f6gOc+uU2R8sVmRS>&T%dxs3C&%hx0bUN4~A-zv-9&A3EV$+W{H5l
z(xw2YC{$`$iC{}`s&&nj;xCIV;?oB`c$B8AKY?8Y2uviQR|)uWIcO-a%&e);I*nqo
z2qAT0{j5d@VeNbg+9Hi&a2x|%`I?*KN>VsZn!x0T2z8RY-1WExRM7`lL5}?A5L~5T
zuD+@in!;*R`0d(t?*J^5O$+Uxq&FI#`6sb3FsTkq=ASv2KlkN);QYrni~j<>Wo7E?
zHYujIZnK8+H59z<s<&NVYj2O-Zhw1V%{!EL4n1NrwZqhT991v93ljj$=k}{A-bAgw
z?NUs-K2e28C&)5j0b`x0LYe32IF+;ffc|SR*O0?Rr{yB#=M@v1B}~LweqRlHCQyrS
zyFhyDwj_8oFuSoBa8K=tYHDKDvP?tPG1wj<QcM(E&Qor0)FR-XAZ09Lnz}$KZAQ+A
zWIeL)s>#|<9j0V@5g^c4p*}QVFr7&Jtn?qz6G6W;02Pp)#ei5A#Cf`TL8T%+g8^AK
zr!i(4Osz&-0NO@3YJN#fWfnwu%D|Q%5{X)a$-WR9mzhb3QAKOv0GJSd66mE0BMN3v
z8bSF7FnDMYYEHvbd=gWp`;^x}lKh_#z%oSJf$Dn$7L<=weQd#ZRP`M#_>QZ-<9F-#
z=?3SXmG<`mUC|sd7cG--I(6HwHl51*PHogT73vS(sXqwRjlWShHl3=kv*7Djef_t4
z3Qtd|Pfx8qeR17)sn`^*E@Q{e!j2wwN6-5^dW)?cH+$YV`TEIQ4f)pNZ#Sx~$3L-B
zjeY8lUML~Z{=UDXsu;)==v4h3pEw|Men;=8pFr-;yuag98NIEap9l;;ZT-dGz=*^8
zi>GZPjN@I0ZN%qz098Z22R2<P={%%-#-1V>ndOehslXCA`W^_9(K-Qy=<FhTO0$Ef
zmzB~FQ~`}0@vw&=g1|lj_w83TGgwV;fmx!Ld(V?nh?OvA9~d0KyZY>7!BXH>a;c)M
zzUdu?eQg&^FXT?Z3g9dx(+!as7o-X1lCiQnStz{#(dC}Ub%s$s%yE#Tm;WYwNrniv
zh`sgK|Ki$T6ubvi?}36hta`(FXISqnXC?`-5<b(Mz;}~a)Fd201TIU`asLV-bR61p
z6FI=U(q*WVEG^MXbeXcK)_q3a6>H8at>&!N%z%`uo{ryCLmdgzL>M&!Z;knkyj6@y
z!lW?D-<PS3glQnkZ>yOKL&*ykv=89g14~EDlO5cBhQ#Q!7g}9gy>$}(3bwln*&*17
z#LsAbjz-zC<uuYb)xWpn_c=-*pPU68XtNh!M61vxiANZq6?@Ju&E@QZW7!SubmSZf
zlaMI)kTK5kdDvNY!od~aiZka->@VjqVmTA>t+*6a%H+y91eamFj!`Q$xtc_W@veN&
zxr|<iqbuN_mvJl5B+x7RmFO~J<-1Uma~Se*Z?<YLgv<GjSfUC+qM&y~u0)R!E8huK
z)g!obmTJVt0vMtv?;pXFbA5;Uo@K?YoG?nrxs5(}30B_{z1;-A@-4$OE8WI7Pf?N;
zP4_D+#tvYxcKP^o;2olaF7pcjk3oGI-ZnsM-GL;#bpjlPi2}`gMT}<AF%M7t?tkC{
zRaVNs?0diw#ZxUdV!ermTdoJ<G%bT_OyQmlXdlQRp%bFfi_7~<WNSqpU9n=N1gzZw
zICPVp7XX{{L!gWXWjQ{F&NCZ9)+au@gz=f|>?|-2sE5<(@Y#%zO#&C2mGGURl;@Gc
z2HcMv5xCZwMUYQ8X&ur>vjR^j3EcOKgKDqn5#)cPJQ5kecQ3|)<JO<#coL2Zu_6);
zvgvbRJ`vA2>9iDVsLsZ(l*B>nVc!%j1=awoN6ZLxpaQhA3`BbtsC0e?cN7<6@o22n
zG_3fHi1|sQ<52g`68R#FJn;EssIbae8HzRyQt5~e`whJdzY*-O3GODA2I!9^8SE1r
zTGFAGeU?L(M1woA5kO9GuzxFRZioQE1pX2{*yMTGan&ptSz`ch#XyWWuQ_Mo02WeM
z62Wo^_q3+c^xy<>COgLo+0;BozOai|fTxf(n;_0F&1x>8v`s5&Oa^vmHQS;T2O47#
zg+LzoSaXeDiHd|4k`P70VKQU1$l)UiNp+2xn4B0z&WKc7Cf-=kqf;ASgACHwF_^)u
zE^MLRIu|yLM5PqI@|x8VNUJ3YQ?0TT)#zF23_QrFO$i%P3dmlc^gN_4haP9Xjip7n
znIE9E_h43o-FDaC>?ySNsI5I~t-Y$dx9ACc<f}(8_&45F+Xr>^H*Ift{>}p|!j19Q
z##cvyMR~*Xx~I_Gtu}YBK5srAQkxGIntRpe-k(T6UHtLlPrv!&Z>}{D|7=KY9)oP&
z=9{PQc-wEC$R9s_r|Wdlx8q|s<!wOW-|=jE5Pu?rv8ehwR&7OZ!}Z*?+|4U@yd8OG
zN8a19;r3l0xHfRJU3ItJYEa$4Zv-~>9VBc9K#ziVuj<`f@b;<RzBTWORptY?x436t
z{y@LFr+;;_h=4e#)(6+?yEZL#{+(Mj)Q+}|mc4I8UXR@BTx&V{>hMQ9ci+t1lGk@0
zefz~?^UgOMuRGqfe%Axow512o>yB1ze!lJ5UwPLXz5<?Xt-s*erFwQ1JQ39s(aDl`
zLxrI!b!h62XR7FHzWH2XS4f3_U+A}<=8ZtpjmT?}H#^q?U8}>J4C5cCVYBfpeUARs
zu}v4_KTpFpYOU{n9aX>gro0x|p9iXCC*==g@(c7QeyB)(=h6R$&Ccewdlc>8`9VYT
zCLsKspUMYeK;PZnHpWu#4g|&;tiSZ_f%tn3wz1ug_jWok&br3Bt?zZw5I%rf8Tb^<
z<yHXZgMKLP(eMj)hN@C6S9NGm^&NbH<!rmEfilj_heyRqN1CuiGrcV2(chzqB2e;=
z{?ag3<hY83?*gMyW30R3ZRb|NQWy>(T8%jDv`eu259dHkt41^}SOa(u3iITV@Ns>6
z4n<yyEwMs|>|%nZUCc<APq9NKonJCh$h7ky*4XN-un+nMC(1FFH=Hy9hUp3%fQ1@h
zP8pOZ>{!laQ(!UVZZ;}{6<Oe=IFjk`jBNU>B<g#UD9L=sf+Un+0DodJh!v4UXbstR
z#Ir5BordCMV6>t!v#0cWmVFgG&4L!lFb!BTI<{cjN(Xze_zQ6ECZ;I!a(^TuhzlX;
z+-O#o!FH403umOch!R<Z4bV_r4uQZB9GE5Cn;e7Fu#)&<7H|VLHUwvY(sLoB`XQr>
zLKQZ@oCvikKj_Y#h$$iDvgJ@b9U>bBnaJVZ6GtO`#O$T87X%S3XtH$J1zRu?v=Kw6
zo1{O3=}KHM2??~Ig_s4+Y1FE63rD&LIi6tm#+Yvp5e|3ZdpQXKIoq+>Of@tY>buqY
z?zQ^xs<Vh{61lg$_ekD(1j6FMaN*#fdT?-+xn6gzuHf9GI`^zQJ2ov=SKqHa{*7?&
z>d5tpYZC>}KGn1DeNWf#Z^gEy{6R*7=%qns$U(p3U<Ny=cig)$-m!a#vHqN~LVO}v
zhYl#(agNh!IJBJrlpyZmxEHg0vh>EmaY7~vF6%gm)Y;2R7(?Gs??d#$_0C1BC*jH_
zy{7y5xT~hyM8xnC29xlU(FngxeQdGYocDa~wyt~UXoqc>z847CzC>?!Quc-qn651=
z+>1=tCS$Qh-i&QgaNBhD+Maqdwn@S5cIOt}Hs@)`_p!xq>my%~7;$q+dBJ802S5@b
z(5(DSlvG};L7)XkaNuw@sWhBug7fFHMA}1$+a`T_bHia{w@g26pt*4K3HHnuWWsCd
zn^C2$G_qMlKuE<#RaoEckz81hmoPv?Q$D1mGg737z_HSgN$aPEoG0~x8Ib-8UVu5E
zWIQ4OHio9RoD^O2YpUi$YR`w%fe)#c-%_4mQ+xiMYW_EBQl%z8r1t;D)$r<9)?9n8
r+V9ydwCi3C1YjsFzK<;-`V#QK5ZxrvPrgBO7P{{qoG+mJNay`8=+qE2

literal 0
HcmV?d00001

diff --git a/compilation/activation_quant_fusion.py b/compilation/activation_quant_fusion.py
new file mode 100644
index 0000000..b5fd67c
--- /dev/null
+++ b/compilation/activation_quant_fusion.py
@@ -0,0 +1,209 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+
+import torch
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import (
+    PatternMatcherPass,
+    fwd_only,
+    register_replacement,
+)
+from torch._ops import OpOverload
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kFp8StaticTensorSym,
+    kNvfp4Quant,
+)
+from vllm.platforms import current_platform
+
+from .fusion import QUANT_OPS, empty_bf16, empty_fp32, empty_i32
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherQuantFP8, MatcherSiluAndMul
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+
+FP8_DTYPE = current_platform.fp8_dtype()
+FP4_DTYPE = torch.uint8
+
+SILU_MUL_OP = torch.ops._C.silu_and_mul.default
+
+FUSED_OPS: dict[QuantKey, OpOverload] = {
+    kFp8StaticTensorSym: torch.ops._C.silu_and_mul_quant.default,  # noqa: E501
+}
+silu_and_mul_nvfp4_quant_supported = current_platform.is_cuda() and hasattr(
+    torch.ops._C, "silu_and_mul_nvfp4_quant"
+)
+if silu_and_mul_nvfp4_quant_supported:
+    FUSED_OPS[kNvfp4Quant] = torch.ops._C.silu_and_mul_nvfp4_quant.default  # noqa: E501
+
+
+class ActivationQuantPattern(ABC):
+    """
+    The base class for Activation+Quant fusions.
+    Should not be used directly.
+    """
+
+    def __init__(
+        self,
+        quant_key: QuantKey,
+    ):
+        self.quant_key = quant_key
+        self.quant_dtype = quant_key.dtype
+
+        assert self.quant_key in QUANT_OPS, (
+            f"unsupported quantization scheme {self.quant_key}"
+        )
+        self.QUANT_OP = QUANT_OPS[self.quant_key]
+
+        assert self.quant_key in FUSED_OPS, (
+            f"unsupported fusion scheme {self.quant_key}"
+        )
+        self.FUSED_OP = FUSED_OPS[self.quant_key]
+
+        self.silu_and_mul_matcher = MatcherSiluAndMul()
+
+    def empty_quant(self, *args, **kwargs):
+        kwargs = {"dtype": self.quant_dtype, "device": "cuda", **kwargs}
+        return torch.empty(*args, **kwargs)
+
+    @abstractmethod
+    def register(self, pm_pass: PatternMatcherPass):
+        raise NotImplementedError
+
+
+class SiluMulFp8StaticQuantPattern(ActivationQuantPattern):
+    """
+    Fusion for SiluMul+Fp8StaticQuant Pattern
+    """
+
+    def __init__(self):
+        super().__init__(kFp8StaticTensorSym)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            result_silu_mul = self.silu_and_mul_matcher(input)
+            result_quant = self.quant_matcher(result_silu_mul, scale)
+            return result_quant[0]
+
+        def replacement(
+            input: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            d = input.shape[-1] // 2
+            output_shape = input.shape[:-1] + (d,)
+            result = torch.empty(
+                output_shape, device=input.device, dtype=self.quant_dtype
+            )
+            at = auto_functionalized(
+                self.FUSED_OP, result=result, input=input, scale=scale
+            )
+            return at[1]
+
+        inputs = [
+            *self.silu_and_mul_matcher.inputs(),  # input
+            self.quant_matcher.inputs()[1],  # scale
+        ]
+        pattern(*inputs)
+
+        register_replacement(pattern, replacement, inputs, fwd_only, pm_pass)
+
+
+class SiluMulNvfp4QuantPattern(ActivationQuantPattern):
+    """
+    Fusion for SiluMul+Nvfp4Quant Pattern
+    """
+
+    def __init__(self):
+        super().__init__(kNvfp4Quant)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            result: torch.Tensor,
+            output_scale: torch.Tensor,
+            input: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            result_silu_mul = self.silu_and_mul_matcher(input)
+            at = auto_functionalized(
+                self.QUANT_OP,
+                output=result,
+                input=result_silu_mul,
+                output_scale=output_scale,
+                input_scale=scale,
+            )
+            return at[1], at[2]
+
+        def replacement(
+            result: torch.Tensor,
+            output_scale: torch.Tensor,
+            input: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            at = auto_functionalized(
+                self.FUSED_OP,
+                result=result,
+                result_block_scale=output_scale,
+                input=input,
+                input_global_scale=scale,
+            )
+            return at[1], at[2]
+
+        inputs = [
+            self.empty_quant(5, 32),  # result
+            empty_i32(128, 4),  # output_scale
+            empty_bf16(5, 64),  # input
+            empty_fp32(1, 1),  # scale
+        ]
+
+        register_replacement(pattern, replacement, inputs, fwd_only, pm_pass)
+
+
+class ActivationQuantFusionPass(VllmPatternMatcherPass):
+    """
+    This pass fuses a pre-defined set of custom ops into fused ops.
+    It uses the torch pattern matcher to find the patterns and replace them.
+
+    Because patterns can only be registered once, the pass is a singleton.
+    This will be addressed in a future version of PyTorch:
+    https://github.com/pytorch/pytorch/pull/139321#issuecomment-2452354980
+    """
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="activation_quant_fusion_pass"
+        )
+
+        pattern_silu_mul_fp8 = SiluMulFp8StaticQuantPattern()
+        pattern_silu_mul_fp8.register(self.patterns)
+
+        if silu_and_mul_nvfp4_quant_supported:
+            pattern_silu_mul_nvfp4 = SiluMulNvfp4QuantPattern()
+            pattern_silu_mul_nvfp4.register(self.patterns)
+
+        self.dump_patterns(config, self.patterns)
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: torch.fx.Graph):
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns", self.matched_count)
+
+    def uuid(self):
+        return VllmInductorPass.hash_source(
+            self,
+            ActivationQuantPattern,
+            SiluMulFp8StaticQuantPattern,
+            SiluMulNvfp4QuantPattern,
+        )
diff --git a/compilation/backends.py b/compilation/backends.py
new file mode 100644
index 0000000..f408ffc
--- /dev/null
+++ b/compilation/backends.py
@@ -0,0 +1,759 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ast
+import dataclasses
+import hashlib
+import operator
+import os
+import pprint
+import time
+from collections.abc import Callable, Sequence
+from contextlib import contextmanager
+from typing import Any
+
+import torch
+import torch.fx as fx
+from torch._dispatch.python import enable_python_dispatcher
+
+import vllm.envs as envs
+from vllm.compilation.inductor_pass import pass_context
+from vllm.compilation.partition_rules import (
+    inductor_partition_rule_context,
+    should_split,
+)
+from vllm.config import CompilationConfig, CUDAGraphMode, VllmConfig
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+from .caching import VllmSerializableFunction
+from .compiler_interface import (
+    CompilerInterface,
+    EagerAdaptor,
+    InductorAdaptor,
+    InductorStandaloneAdaptor,
+    is_compile_cache_enabled,
+)
+from .counter import compilation_counter
+from .inductor_pass import InductorPass
+# from .pass_manager import PostGradPassManager
+
+logger = init_logger(__name__)
+
+
+def make_compiler(compilation_config: CompilationConfig) -> CompilerInterface:
+    if compilation_config.backend == "inductor":
+        # Use standalone compile only if requested, version is new enough,
+        # and the symbol actually exists in this PyTorch build.
+        if (
+            envs.VLLM_USE_STANDALONE_COMPILE
+            and is_torch_equal_or_newer("2.8.0.dev")
+            and hasattr(torch._inductor, "standalone_compile")
+        ):
+            logger.debug("Using InductorStandaloneAdaptor")
+            return InductorStandaloneAdaptor(
+                compilation_config.compile_cache_save_format
+            )
+        else:
+            logger.debug("Using InductorAdaptor")
+            return InductorAdaptor()
+    else:
+        assert compilation_config.backend == "eager", (
+            "Custom backends not supported with CompilationMode.VLLM_COMPILE"
+        )
+
+        logger.debug("Using EagerAdaptor")
+        return EagerAdaptor()
+
+
+class CompilerManager:
+    """
+    A manager to manage the compilation process, including
+    caching the compiled graph, loading the compiled graph,
+    and compiling the graph.
+
+    The cache is a dict mapping
+    `(runtime_shape, graph_index, backend_name)`
+    to `any_data` returned from the compiler.
+
+    When serializing the cache, we save it to a Python file
+    for readability. We don't use json here because json doesn't
+    support int as key.
+    """
+
+    def __init__(self, compilation_config: CompilationConfig):
+        self.cache: dict[tuple[int | None, int, str], Any] = dict()
+        self.is_cache_updated = False
+        self.compilation_config = compilation_config
+        self.compiler = make_compiler(compilation_config)
+
+    def compute_hash(self, vllm_config: VllmConfig) -> str:
+        return self.compiler.compute_hash(vllm_config)
+
+    @contextmanager
+    def compile_context(self, runtime_shape: int | None = None):
+        """Provide compilation context for the duration of compilation to set
+        any torch global properties we want to scope to a single Inductor
+        compilation (e.g. partition rules, pass context)."""
+        with pass_context(runtime_shape):
+            if self.compilation_config.use_inductor_graph_partition:
+                with inductor_partition_rule_context(
+                    self.compilation_config.splitting_ops
+                ):
+                    yield
+            else:
+                yield
+
+    def initialize_cache(
+        self, cache_dir: str, disable_cache: bool = False, prefix: str = ""
+    ):
+        """
+        Initialize the cache directory for the compiler.
+
+        The organization of the cache directory is as follows:
+        cache_dir=/path/to/hash_str/rank_i_j/prefix/
+        inside cache_dir, there will be:
+        - vllm_compile_cache.py
+        - computation_graph.py
+        - transformed_code.py
+
+        for multiple prefixes, they can share the same
+        base cache dir of /path/to/hash_str/rank_i_j/ ,
+        to store some common compilation artifacts.
+        """
+
+        self.disable_cache = disable_cache
+        self.cache_dir = cache_dir
+        self.cache_file_path = os.path.join(cache_dir, "vllm_compile_cache.py")
+
+        if not disable_cache and os.path.exists(self.cache_file_path):
+            # load the cache from the file
+            with open(self.cache_file_path) as f:
+                # we use ast.literal_eval to parse the data
+                # because it is a safe way to parse Python literals.
+                # do not use eval(), it is unsafe.
+                self.cache = ast.literal_eval(f.read())
+
+        self.compiler.initialize_cache(
+            cache_dir=cache_dir, disable_cache=disable_cache, prefix=prefix
+        )
+
+    def save_to_file(self):
+        if self.disable_cache or not self.is_cache_updated:
+            return
+        printer = pprint.PrettyPrinter(indent=4)
+        data = printer.pformat(self.cache)
+        with open(self.cache_file_path, "w") as f:
+            f.write(data)
+
+    def load(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        graph_index: int,
+        runtime_shape: int | None = None,
+    ) -> Callable | None:
+        if (runtime_shape, graph_index, self.compiler.name) not in self.cache:
+            return None
+        handle = self.cache[(runtime_shape, graph_index, self.compiler.name)]
+        compiled_graph = self.compiler.load(
+            handle, graph, example_inputs, graph_index, runtime_shape
+        )
+        if runtime_shape is None:
+            logger.debug(
+                "Directly load the %s-th graph for dynamic shape from %s via handle %s",
+                graph_index,
+                self.compiler.name,
+                handle,
+            )
+        else:
+            logger.debug(
+                "Directly load the %s-th graph for shape %s from %s via handle %s",
+                graph_index,
+                str(runtime_shape),
+                self.compiler.name,
+                handle,
+            )
+        return compiled_graph
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs,
+        additional_inductor_config,
+        compilation_config: CompilationConfig,
+        graph_index: int = 0,
+        num_graphs: int = 1,
+        runtime_shape: int | None = None,
+    ) -> Any:
+        if graph_index == 0:
+            # before compiling the first graph, record the start time
+            global compilation_start_time
+            compilation_start_time = time.time()
+
+        compilation_counter.num_backend_compilations += 1
+
+        compiled_graph = None
+
+        # try to load from the cache
+        compiled_graph = self.load(graph, example_inputs, graph_index, runtime_shape)
+        if compiled_graph is not None:
+            if graph_index == num_graphs - 1:
+                # after loading the last graph for this shape, record the time.
+                # there can be multiple graphs due to piecewise compilation.
+                now = time.time()
+                elapsed = now - compilation_start_time
+                compilation_config.compilation_time += elapsed
+                if runtime_shape is None:
+                    logger.info(
+                        "Directly load the compiled graph(s) for dynamic shape "
+                        "from the cache, took %.3f s",
+                        elapsed,
+                    )
+                else:
+                    logger.info(
+                        "Directly load the compiled graph(s) for shape %s "
+                        "from the cache, took %.3f s",
+                        str(runtime_shape),
+                        elapsed,
+                    )
+            return compiled_graph
+
+        # no compiler cached the graph, or the cache is disabled,
+        # we need to compile it
+        if isinstance(self.compiler, InductorAdaptor):
+            # Let compile_fx generate a key for us
+            maybe_key = None
+        else:
+            maybe_key = f"artifact_shape_{runtime_shape}_subgraph_{graph_index}"
+
+        with self.compile_context(runtime_shape):
+            compiled_graph, handle = self.compiler.compile(
+                graph,
+                example_inputs,
+                additional_inductor_config,
+                runtime_shape,
+                maybe_key,
+            )
+
+        assert compiled_graph is not None, "Failed to compile the graph"
+
+        # store the artifact in the cache
+        if is_compile_cache_enabled(additional_inductor_config) and handle is not None:
+            self.cache[(runtime_shape, graph_index, self.compiler.name)] = handle
+            compilation_counter.num_cache_entries_updated += 1
+            self.is_cache_updated = True
+            if graph_index == 0:
+                # adds some info logging for the first graph
+                if runtime_shape is None:
+                    logger.info_once(
+                        "Cache the graph for dynamic shape for later use", scope="local"
+                    )
+                else:
+                    logger.info_once(
+                        "Cache the graph of shape %s for later use",
+                        str(runtime_shape),
+                        scope="local",
+                    )
+            if runtime_shape is None:
+                logger.debug(
+                    "Store the %s-th graph for dynamic shape from %s via handle %s",
+                    graph_index,
+                    self.compiler.name,
+                    handle,
+                )
+            else:
+                logger.debug(
+                    "Store the %s-th graph for shape %s from %s via handle %s",
+                    graph_index,
+                    str(runtime_shape),
+                    self.compiler.name,
+                    handle,
+                )
+
+        # after compiling the last graph, record the end time
+        if graph_index == num_graphs - 1:
+            now = time.time()
+            elapsed = now - compilation_start_time
+            compilation_config.compilation_time += elapsed
+            if runtime_shape is None:
+                logger.info_once(
+                    "Compiling a graph for dynamic shape takes %.2f s",
+                    elapsed,
+                    scope="local",
+                )
+            else:
+                logger.info_once(
+                    "Compiling a graph for shape %s takes %.2f s",
+                    runtime_shape,
+                    elapsed,
+                    scope="local",
+                )
+
+        return compiled_graph
+
+
+@dataclasses.dataclass
+class SplitItem:
+    submod_name: str
+    graph_id: int
+    is_splitting_graph: bool
+    graph: fx.GraphModule
+
+
+def split_graph(
+    graph: fx.GraphModule, splitting_ops: list[str]
+) -> tuple[fx.GraphModule, list[SplitItem]]:
+    # split graph by ops
+    subgraph_id = 0
+    node_to_subgraph_id: dict[fx.Node, int] = {}
+    split_op_graphs: list[int] = []
+    for node in graph.graph.nodes:
+        if node.op in ("output", "placeholder"):
+            continue
+
+        # Check if this is a getitem operation on a node from an earlier subgraph.
+        # If so, assign it to the same subgraph as its input to avoid passing entire
+        # tuple as input to submodules, which is against standalone_compile and
+        # AoTAutograd input requirement.
+        if node.op == "call_function" and node.target == operator.getitem:
+            # Assign this getitem to the same subgraph as its input
+            input_node = node.args[0]
+            if input_node.op != "placeholder":
+                assert input_node in node_to_subgraph_id
+                node_to_subgraph_id[node] = node_to_subgraph_id[input_node]
+                continue
+
+        if should_split(node, splitting_ops):
+            subgraph_id += 1
+            node_to_subgraph_id[node] = subgraph_id
+            split_op_graphs.append(subgraph_id)
+            subgraph_id += 1
+        else:
+            node_to_subgraph_id[node] = subgraph_id
+
+    # `keep_original_order` is important!
+    # otherwise pytorch might reorder the nodes and
+    # the semantics of the graph will change when we
+    # have mutations in the graph
+    split_gm = torch.fx.passes.split_module.split_module(
+        graph, None, lambda node: node_to_subgraph_id[node], keep_original_order=True
+    )
+
+    outputs = []
+
+    names = [name for (name, module) in split_gm.named_modules()]
+
+    for name in names:
+        if "." in name or name == "":
+            # recursive child module or the root module
+            continue
+
+        module = getattr(split_gm, name)
+
+        graph_id = int(name.replace("submod_", ""))
+        outputs.append(SplitItem(name, graph_id, (graph_id in split_op_graphs), module))
+
+    # sort by integer graph_id, rather than string name
+    outputs.sort(key=lambda x: x.graph_id)
+
+    return split_gm, outputs
+
+
+compilation_start_time = 0.0
+
+
+class PiecewiseCompileInterpreter(torch.fx.Interpreter):
+    """Code adapted from `torch.fx.passes.shape_prop.ShapeProp`.
+    It runs the given graph with fake inputs, and compile some
+    submodules specified by `compile_submod_names` with the given
+    compilation configs.
+
+    NOTE: the order in `compile_submod_names` matters, because
+    it will be used to determine the order of the compiled piecewise
+    graphs. The first graph will handle logging, and the last graph
+    has some special cudagraph output handling.
+    """
+
+    def __init__(
+        self,
+        module: torch.fx.GraphModule,
+        compile_submod_names: list[str],
+        vllm_config: VllmConfig,
+        vllm_backend: "VllmBackend",
+    ):
+        super().__init__(module)
+        from torch._guards import detect_fake_mode
+
+        self.fake_mode = detect_fake_mode()
+        self.compile_submod_names = compile_submod_names
+        self.compilation_config = vllm_config.compilation_config
+        self.vllm_config = vllm_config
+        self.vllm_backend = vllm_backend
+        # When True, it annoyingly dumps the torch.fx.Graph on errors.
+        self.extra_traceback = False
+
+    def run(self, *args):
+        fake_args = [
+            self.fake_mode.from_tensor(t) if isinstance(t, torch.Tensor) else t
+            for t in args
+        ]
+        with self.fake_mode, enable_python_dispatcher():
+            return super().run(*fake_args)
+
+    def call_module(
+        self,
+        target: torch.fx.node.Target,
+        args: tuple[torch.fx.node.Argument, ...],
+        kwargs: dict[str, Any],
+    ) -> Any:
+        assert isinstance(target, str)
+        output = super().call_module(target, args, kwargs)
+
+        if target in self.compile_submod_names:
+            index = self.compile_submod_names.index(target)
+            submod = self.fetch_attr(target)
+            sym_shape_indices = [
+                i for i, x in enumerate(args) if isinstance(x, torch.SymInt)
+            ]
+            global compilation_start_time
+
+            compiled_graph_for_dynamic_shape = (
+                self.vllm_backend.compiler_manager.compile(
+                    submod,
+                    args,
+                    self.compilation_config.inductor_compile_config,
+                    self.compilation_config,
+                    graph_index=index,
+                    num_graphs=len(self.compile_submod_names),
+                    runtime_shape=None,
+                )
+            )
+            # Lazy import here to avoid circular import
+            from .piecewise_backend import PiecewiseBackend
+
+            piecewise_backend = PiecewiseBackend(
+                submod,
+                self.vllm_config,
+                index,
+                len(self.compile_submod_names),
+                sym_shape_indices,
+                compiled_graph_for_dynamic_shape,
+                self.vllm_backend,
+            )
+
+            if (
+                self.compilation_config.cudagraph_mode.has_piecewise_cudagraphs()
+                and not self.compilation_config.use_inductor_graph_partition
+            ):
+                # We're using Dynamo-based piecewise splitting, so we wrap
+                # the whole subgraph with a static graph wrapper.
+                from .cuda_graph import CUDAGraphOptions
+
+                # resolve the static graph wrapper class (e.g. CUDAGraphWrapper
+                # class) as platform dependent.
+                static_graph_wrapper_class = resolve_obj_by_qualname(
+                    current_platform.get_static_graph_wrapper_cls()
+                )
+
+                # Always assign PIECEWISE runtime mode to the
+                # CUDAGraphWrapper for piecewise_backend, to distinguish
+                # it from the FULL cudagraph runtime mode, no matter it
+                # is wrapped on a full or piecewise fx graph.
+                self.module.__dict__[target] = static_graph_wrapper_class(
+                    runnable=submod.forward,
+                    vllm_config=self.vllm_config,
+                    runtime_mode=CUDAGraphMode.PIECEWISE,
+                    cudagraph_options=CUDAGraphOptions(
+                        debug_log_enable=piecewise_backend.is_first_graph,
+                        gc_disable=not piecewise_backend.is_first_graph,
+                        weak_ref_output=piecewise_backend.is_last_graph,
+                    ),
+                )
+            else:
+                self.module.__dict__[target] = piecewise_backend
+
+            compilation_counter.num_piecewise_capturable_graphs_seen += 1
+
+        return output
+
+
+# the tag for the part of model being compiled,
+# e.g. backbone/eagle_head
+model_tag: str = "backbone"
+
+
+@contextmanager
+def set_model_tag(tag: str):
+    """Context manager to set the model tag."""
+    global model_tag
+    assert tag != model_tag, (
+        f"Model tag {tag} is the same as the current tag {model_tag}."
+    )
+    old_tag = model_tag
+    model_tag = tag
+    try:
+        yield
+    finally:
+        model_tag = old_tag
+
+
+class VllmBackend:
+    """The compilation backend for `torch.compile` with vLLM.
+    It is used for compilation mode of `CompilationMode.VLLM_COMPILE`,
+    where we customize the compilation.
+
+    The major work of this backend is to split the graph into
+    piecewise graphs, and pass them to the piecewise backend.
+
+    This backend also adds the PostGradPassManager to Inductor config,
+    which handles the post-grad passes.
+    """
+
+    vllm_config: VllmConfig
+    compilation_config: CompilationConfig
+    _called: bool = False
+    # the graph we compiled
+    graph: fx.GraphModule
+    # the stiching graph module for all the piecewise graphs
+    split_gm: fx.GraphModule
+    piecewise_graphs: list[SplitItem]
+    returned_callable: Callable
+    # Inductor passes to run on the graph pre-defunctionalization
+    post_grad_passes: Sequence[Callable]
+    sym_tensor_indices: list[int]
+    input_buffers: list[torch.Tensor]
+    compiler_manager: CompilerManager
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        # if the model is initialized with a non-empty prefix,
+        # then usually it's enough to use that prefix,
+        # e.g. language_model, vision_model, etc.
+        # when multiple parts are initialized as independent
+        # models, we need to use the model_tag to distinguish
+        # them, e.g. backbone (default), eagle_head, etc.
+        self.prefix = prefix or model_tag
+
+        # Passes to run on the graph post-grad.
+        # self.post_grad_pass_manager = PostGradPassManager()
+
+        self.sym_tensor_indices = []
+        self.input_buffers = []
+
+        self.vllm_config = vllm_config
+        self.compilation_config = vllm_config.compilation_config
+
+        self.compiler_manager: CompilerManager = CompilerManager(
+            self.compilation_config
+        )
+
+        # `torch.compile` is JIT compiled, so we don't need to
+        # do anything here
+
+    def configure_post_pass(self):
+        config = self.compilation_config
+        self.post_grad_pass_manager.configure(self.vllm_config)
+
+        # Post-grad custom passes are run using the post_grad_custom_post_pass
+        # hook. If a pass for that hook exists, add it to the pass manager.
+        inductor_config = config.inductor_compile_config
+        PASS_KEY = "post_grad_custom_post_pass"
+        if PASS_KEY in inductor_config:
+            if isinstance(inductor_config[PASS_KEY], PostGradPassManager):
+                # PassManager already added to config, make sure it's correct
+                assert (
+                    inductor_config[PASS_KEY].uuid()
+                    == self.post_grad_pass_manager.uuid()
+                )
+            else:
+                # Config should automatically wrap all inductor passes
+                assert isinstance(inductor_config[PASS_KEY], InductorPass)
+                self.post_grad_pass_manager.add(inductor_config[PASS_KEY])
+        inductor_config[PASS_KEY] = self.post_grad_pass_manager
+
+    def __call__(
+        self, graph: fx.GraphModule, example_inputs,**kwargs
+    ) -> VllmSerializableFunction:
+        from .caching import _compute_code_hash, compilation_config_hash_factors
+
+        vllm_config = self.vllm_config
+        if not self.compilation_config.cache_dir:
+            # no provided cache dir, generate one based on the known factors
+            # that affects the compilation. if none of the factors change,
+            # the cache dir will be the same so that we can reuse the compiled
+            # graph.
+
+            factors = compilation_config_hash_factors(vllm_config)
+            # 2. factors come from the code files that are traced by Dynamo (
+            #    it mainly summarizes how the model is used in forward pass)
+            code_hash = _compute_code_hash(self.compilation_config.traced_files)
+            self.compilation_config.traced_files.clear()
+            factors.append(code_hash)
+
+            # 3. compiler hash
+            compiler_hash = self.compiler_manager.compute_hash(vllm_config)
+            factors.append(compiler_hash)
+
+            # combine all factors to generate the cache dir
+            hash_key = hashlib.md5(
+                str(factors).encode(), usedforsecurity=False
+            ).hexdigest()[:10]
+
+            cache_dir = os.path.join(
+                envs.VLLM_CACHE_ROOT,
+                "torch_compile_cache",
+                hash_key,
+            )
+            self.compilation_config.cache_dir = cache_dir
+
+        cache_dir = self.compilation_config.cache_dir
+        os.makedirs(cache_dir, exist_ok=True)
+        self.compilation_config.cache_dir = cache_dir
+        rank = vllm_config.parallel_config.rank
+        dp_rank = vllm_config.parallel_config.data_parallel_rank
+        local_cache_dir = os.path.join(cache_dir, f"rank_{rank}_{dp_rank}", self.prefix)
+        os.makedirs(local_cache_dir, exist_ok=True)
+        self.compilation_config.local_cache_dir = local_cache_dir
+
+        disable_cache = not is_compile_cache_enabled(
+            self.compilation_config.inductor_compile_config
+        )
+
+        if disable_cache:
+            logger.info_once("vLLM's torch.compile cache is disabled.", scope="local")
+        else:
+            logger.info_once(
+                "Using cache directory: %s for vLLM's torch.compile",
+                local_cache_dir,
+                scope="local",
+            )
+
+        self.compiler_manager.initialize_cache(
+            local_cache_dir, disable_cache, self.prefix
+        )
+
+        # when dynamo calls the backend, it means the bytecode
+        # transform and analysis are done
+        compilation_counter.num_graphs_seen += 1
+        from .monitor import torch_compile_start_time
+
+        dynamo_time = time.time() - torch_compile_start_time
+        logger.info_once(
+            "Dynamo bytecode transform time: %.2f s", dynamo_time, scope="local"
+        )
+        self.compilation_config.compilation_time += dynamo_time
+
+        # we control the compilation process, each instance can only be
+        # called once
+        assert not self._called, "VllmBackend can only be called once"
+
+        self.graph = graph
+        # self.configure_post_pass()
+
+        if self.compilation_config.use_inductor_graph_partition:
+            # Let Inductor decide partitioning; avoid FX-level pre-splitting.
+            fx_split_ops: list[str] = []
+        else:
+            fx_split_ops = self.compilation_config.splitting_ops or []
+
+        self.split_gm, self.piecewise_graphs = split_graph(graph, fx_split_ops)
+
+        from torch._dynamo.utils import lazy_format_graph_code
+
+        # depyf will hook lazy_format_graph_code and dump the graph
+        # for debugging, no need to print the graph here
+        lazy_format_graph_code("before split", self.graph)
+        lazy_format_graph_code("after split", self.split_gm)
+
+        compilation_counter.num_piecewise_graphs_seen += len(self.piecewise_graphs)
+        submod_names_to_compile = [
+            item.submod_name
+            for item in self.piecewise_graphs
+            if not item.is_splitting_graph
+        ]
+
+        # propagate the split graph to the piecewise backend,
+        # compile submodules with symbolic shapes
+        PiecewiseCompileInterpreter(
+            self.split_gm, submod_names_to_compile, self.vllm_config, self
+        ).run(*example_inputs)
+
+        graph_path = os.path.join(local_cache_dir, "computation_graph.py")
+        if not os.path.exists(graph_path):
+            # code adapted from
+            # https://github.com/thuml/depyf/blob/dab831108a752d1facc00acdd6d4243891845c37/depyf/explain/patched_lazy_format_graph_code.py#L30
+            # use `print_readable` because it can include submodules
+            src = (
+                "from __future__ import annotations\nimport torch\n"
+                + self.split_gm.print_readable(print_output=False)
+            )
+            src = src.replace("<lambda>", "GraphModule")
+            with open(graph_path, "w") as f:
+                f.write(src)
+
+            logger.debug_once(
+                "Computation graph saved to %s", graph_path, scope="local"
+            )
+
+        self._called = True
+
+        if (
+            self.compilation_config.cudagraph_mode == CUDAGraphMode.NONE
+            or not self.compilation_config.cudagraph_copy_inputs
+        ):
+            return VllmSerializableFunction(
+                graph, example_inputs, self.prefix, self.split_gm
+            )
+
+        # if we need to copy input buffers for cudagraph
+        from torch._guards import detect_fake_mode
+
+        fake_mode = detect_fake_mode()
+        fake_args = [
+            fake_mode.from_tensor(t) if isinstance(t, torch.Tensor) else t
+            for t in example_inputs
+        ]
+
+        # index of tensors that have symbolic shapes (batch size)
+        # for weights and static buffers, they will have concrete shapes.
+        # symbolic shape only happens for input tensors.
+        from torch.fx.experimental.symbolic_shapes import is_symbolic
+
+        self.sym_tensor_indices = [
+            i
+            for i, x in enumerate(fake_args)
+            if isinstance(x, torch._subclasses.fake_tensor.FakeTensor)
+            and any(is_symbolic(d) for d in x.size())
+        ]
+
+        # compiler managed cudagraph input buffers
+        # we assume the first run with symbolic shapes
+        # has the maximum size among all the tensors
+        self.input_buffers = [
+            example_inputs[x].clone() for x in self.sym_tensor_indices
+        ]
+
+        # this is the callable we return to Dynamo to run
+        def copy_and_call(*args):
+            list_args = list(args)
+            for i, index in enumerate(self.sym_tensor_indices):
+                runtime_tensor = list_args[index]
+                runtime_shape = runtime_tensor.shape[0]
+                static_tensor = self.input_buffers[i][:runtime_shape]
+
+                # copy the tensor to the static buffer
+                static_tensor.copy_(runtime_tensor)
+
+                # replace the tensor in the list_args to the static buffer
+                list_args[index] = static_tensor
+            return self.split_gm(*list_args)
+
+        return VllmSerializableFunction(
+            graph, example_inputs, self.prefix, copy_and_call
+        )
diff --git a/compilation/base_static_graph.py b/compilation/base_static_graph.py
new file mode 100644
index 0000000..12f1ff5
--- /dev/null
+++ b/compilation/base_static_graph.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Protocol
+
+from vllm.config import CUDAGraphMode, VllmConfig
+
+
+class AbstractStaticGraphWrapper(Protocol):
+    """
+    StaticGraphWrapper interface that allows platforms to wrap a callable
+    to be captured as a static graph.
+    """
+
+    def __init__(
+        self,
+        runnable: Callable[..., Any],
+        vllm_config: VllmConfig,
+        runtime_mode: CUDAGraphMode,
+        **kwargs: Any,
+    ) -> None:
+        """
+        Initializes the StaticGraphWrapper class with graph capturing and
+        execution-related configurations.
+
+        Args:
+            runnable (Callable): The callable to be wrapped and captured.
+            vllm_config (VllmConfig): Global configuration for vLLM.
+            runtime_mode (CUDAGraphMode): The style of the static
+                graph runtime. See CUDAGraphMode in vllm/config.py.
+                Note that only the subset enum `NONE`, `PIECEWISE` and `FULL`
+                are used as concrete runtime mode for cudagraph dispatching.
+        Keyword Args:
+            kwargs: Additional keyword arguments for platform-specific
+                configurations.
+        """
+        raise NotImplementedError
+
+    def __call__(self, *args: Any, **kwargs: Any) -> Any:
+        """
+        Executes the wrapped callable.
+
+        If the current runtime mode in the ForwardContext matches the runtime
+        mode of this instance, it replays the CUDAGraph or captures it using
+        the callable if it hasn't been captured yet. Otherwise, it calls the
+        original callable directly.
+
+        Args:
+            *args: Variable length input arguments to be passed into the
+                callable.
+            **kwargs: Keyword arguments to be passed into the callable.
+
+        Returns:
+            Any: Output of the executed callable.
+        """
+        raise NotImplementedError
diff --git a/compilation/caching.py b/compilation/caching.py
new file mode 100644
index 0000000..16e34c2
--- /dev/null
+++ b/compilation/caching.py
@@ -0,0 +1,178 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+import inspect
+import os
+import pickle
+from unittest.mock import patch
+
+import torch
+from torch.utils import _pytree as pytree
+
+import vllm.envs as envs
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.logger import init_logger
+
+try:
+    from torch._dynamo.aot_compile import SerializableCallable
+except ImportError:
+    SerializableCallable = object
+
+assert isinstance(SerializableCallable, type)
+
+logger = init_logger(__name__)
+
+
+class VllmSerializableFunction(SerializableCallable):
+    """
+    A wrapper around a compiled function by vllm. It will forward the tensor
+    inputs to the compiled function and return the result.
+    It also implements a serialization interface to support PyTorch's precompile
+    with custom backend, so that we can save and load the compiled function on
+    disk. There's no need to wrap around the compiled function if we don't want
+    to serialize them in particular cases.
+    Right now serialization for the custom backend is done via
+    serializing the Dynamo fx graph plus example inputs.
+    """
+
+    def __init__(self, graph_module, example_inputs, prefix, optimized_call):
+        assert isinstance(graph_module, torch.fx.GraphModule)
+        self.graph_module = graph_module
+        self.example_inputs = example_inputs
+        self.prefix = prefix
+        self.optimized_call = optimized_call
+        self.shape_env = None
+        sym_input = next(
+            (i for i in self.example_inputs if isinstance(i, torch.SymInt)), None
+        )
+        if sym_input is not None:
+            self.shape_env = sym_input.node.shape_env
+
+    def __call__(self, *args, **kwargs):
+        return self.optimized_call(*args, **kwargs)
+
+    @classmethod
+    def serialize_compile_artifacts(
+        cls, compiled_fn: "VllmSerializableFunction"
+    ) -> bytes:
+        import sympy
+        from torch._subclasses import FakeTensorMode
+        from torch.fx._graph_pickler import GraphPickler, Options
+
+        state = compiled_fn.__dict__.copy()
+        state.pop("optimized_call")
+        state.pop("shape_env")
+        for node in state["graph_module"].graph.nodes:
+            node.meta.pop("source_fn_stack", None)
+            node.meta.pop("nn_module_stack", None)
+
+        graph_reducer_override = GraphPickler.reducer_override
+
+        def _graph_reducer_override(self, obj):
+            if (
+                inspect.isclass(obj)
+                and issubclass(obj, sympy.Function)
+                and hasattr(obj, "_torch_unpickler")
+            ):
+                return obj._torch_unpickler, (obj._torch_handler_name,)
+            if isinstance(obj, FakeTensorMode):
+                return type(None), ()
+            return graph_reducer_override(self, obj)
+
+        # Mask off tensor inputs since they are large and not needed.
+        state["example_inputs"] = pytree.tree_map_only(
+            torch.Tensor, lambda _: None, state["example_inputs"]
+        )
+        with patch.object(GraphPickler, "reducer_override", _graph_reducer_override):
+            state["graph_module"] = GraphPickler.dumps(
+                state["graph_module"], Options(ops_filter=None)
+            )
+            state["example_inputs"] = GraphPickler.dumps(state["example_inputs"])
+        return pickle.dumps(state)
+
+    @classmethod
+    def deserialize_compile_artifacts(cls, data: bytes) -> "VllmSerializableFunction":
+        from torch._guards import TracingContext, tracing
+        from torch._subclasses import FakeTensorMode
+        from torch.fx._graph_pickler import GraphPickler
+        from torch.fx.experimental.symbolic_shapes import ShapeEnv
+
+        from vllm.compilation.backends import VllmBackend
+
+        state = pickle.loads(data)
+        fake_mode = FakeTensorMode(shape_env=ShapeEnv())
+        state["graph_module"] = GraphPickler.loads(state["graph_module"], fake_mode)
+        state["example_inputs"] = GraphPickler.loads(state["example_inputs"], fake_mode)
+        vllm_backend = VllmBackend(get_current_vllm_config(), state["prefix"])
+
+        def optimized_call(*example_inputs):
+            """
+            On the first run of the optimized call, we rerun the compiler
+            backend which should result in a cache hit. After the backend
+            call returns, we just do a one-time replacement of the optimized
+            call with the compiled function, so that subsequent calls are on
+            the AOT compiled path.
+            """
+            compile_inputs = [
+                inp or example_inputs[i] for i, inp in enumerate(fn.example_inputs)
+            ]
+            with tracing(TracingContext(fake_mode)):
+                fn.optimized_call = vllm_backend(
+                    state["graph_module"], compile_inputs
+                ).optimized_call
+            return fn.optimized_call(*example_inputs)
+
+        fn = cls(**state, optimized_call=optimized_call)
+        return fn
+
+    @property
+    def co_name(self):
+        """
+        Used for depyf debugging.
+        """
+        return "VllmSerializableFunction"
+
+
+def compilation_config_hash_factors(vllm_config: VllmConfig) -> list[str]:
+    factors = []
+    # 0. factors come from the env, for example, The values of
+    # VLLM_PP_LAYER_PARTITION will affect the computation graph.
+    env_hash = envs.compute_hash()
+    factors.append(env_hash)
+
+    # 1. factors come from the vllm_config (it mainly summarizes how the
+    #    model is created)
+    config_hash = vllm_config.compute_hash()
+    factors.append(config_hash)
+    return factors
+
+
+def _compute_code_hash_with_content(file_contents: dict[str, str]) -> str:
+    items = list(sorted(file_contents.items(), key=lambda x: x[0]))
+    hash_content = []
+    for filepath, content in items:
+        hash_content.append(filepath)
+        if filepath == "<string>":
+            # This means the function was dynamically generated, with
+            # e.g. exec(). We can't actually check these.
+            continue
+        hash_content.append(content)
+    return hashlib.md5(
+        "\n".join(hash_content).encode(), usedforsecurity=False
+    ).hexdigest()
+
+
+def _compute_code_hash(files: set[str]) -> str:
+    logger.debug(
+        "Traced files (to be considered for compilation cache):\n%s", "\n".join(files)
+    )
+    file_contents = {}
+    for filepath in files:
+        # Skip files that don't exist (e.g., <string>, <frozen modules>, etc.)
+        if not os.path.isfile(filepath):
+            file_contents[filepath] = ""
+        else:
+            with open(filepath) as f:
+                file_contents[filepath] = f.read()
+    return _compute_code_hash_with_content(file_contents)
diff --git a/compilation/collective_fusion.py b/compilation/collective_fusion.py
new file mode 100644
index 0000000..69d4606
--- /dev/null
+++ b/compilation/collective_fusion.py
@@ -0,0 +1,1234 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from importlib.util import find_spec
+
+import torch
+import torch._inductor.pattern_matcher as pm
+import torch.fx as fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import PatternMatcherPass
+from torch.distributed._symmetric_memory import enable_symm_mem_for_group
+
+from vllm.config import VllmConfig
+from vllm.distributed import get_tp_group, tensor_model_parallel_all_reduce
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    kFp8StaticTensorSym,
+)
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op
+
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherFusedAddRMSNorm, MatcherQuantFP8, MatcherRMSNorm
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+FP8_DTYPE = current_platform.fp8_dtype()
+
+if find_spec("flashinfer"):
+    try:
+        import flashinfer.comm as flashinfer_comm
+
+        flashinfer_comm = (
+            flashinfer_comm
+            if hasattr(flashinfer_comm, "trtllm_allreduce_fusion")
+            else None
+        )
+    except ImportError:
+        flashinfer_comm = None
+else:
+    flashinfer_comm = None
+
+logger = init_logger(__name__)
+
+if hasattr(torch.ops._C, "scaled_fp4_quant"):
+    STATIC_FP4_QUANT_OP = torch.ops._C.scaled_fp4_quant.default
+
+
+class BasePattern:
+    def __init__(self, dtype: torch.dtype, device: str):
+        self.dtype = dtype
+        self.device = device
+        self.tp = get_tp_group()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+
+class GEMMReduceScatterPattern(BasePattern):
+    def get_inputs(self):
+        mul = torch.empty([16, 4], device=self.device, dtype=self.dtype)
+        mm_weight = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        return [mul, mm_weight]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(mul: torch.Tensor, mm_weight: torch.Tensor):
+            mm = torch.ops.aten.mm.default(mul, mm_weight)
+            reduce_scatter = torch.ops.vllm.reduce_scatter.default(
+                mm,
+                dim=0,
+                world_size=self.tp_size,
+                group_name=self.tp.unique_name,
+            )
+            return reduce_scatter
+
+        def replacement(mul: torch.Tensor, mm_weight: torch.Tensor):
+            gemm_rs = torch.ops.symm_mem.fused_matmul_reduce_scatter(
+                mul,
+                mm_weight,
+                "avg",
+                scatter_dim=0,
+                group_name=self.tp.device_group.group_name,
+            )
+
+            return gemm_rs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllGatherGEMMPattern(BasePattern):
+    def get_inputs(self):
+        x = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        weight = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+
+        return [x, weight]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            x: torch.Tensor,
+            weight: torch.Tensor,
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            all_gather = torch.ops.vllm.all_gather.default(
+                x,
+                dim=0,
+                world_size=self.tp_size,
+                group_name=self.tp.unique_name,
+            )
+
+            return torch.ops.aten.mm.default(all_gather, weight)
+
+        def replacement(
+            x: torch.Tensor, weight: torch.Tensor
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            ag_output, mm_outputs = torch.ops.symm_mem.fused_all_gather_matmul(
+                x,
+                [weight],
+                gather_dim=0,
+                group_name=self.tp.device_group.group_name,
+            )
+            return mm_outputs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class ScaledMMReduceScatterPattern(BasePattern):
+    def get_inputs(self):
+        input = torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+        mm_weight = (
+            torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+            .contiguous()
+            .transpose(0, 1)
+        )
+        scale_a = torch.empty([16, 1], device=self.device, dtype=torch.float32)
+        scale_b = torch.empty([1, 16], device=self.device, dtype=torch.float32)
+        return [input, mm_weight, scale_a, scale_b]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            mat2: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+        ) -> torch.Tensor:
+            scaled_mm = torch.ops.aten._scaled_mm.default(
+                input,
+                mat2=mat2,
+                scale_a=scale_a,
+                scale_b=scale_b,
+                bias=None,
+                scale_result=None,
+                out_dtype=self.dtype,
+            )
+            reduce_scatter = torch.ops.vllm.reduce_scatter.default(
+                scaled_mm,
+                dim=0,
+                world_size=self.tp_size,
+                group_name=self.tp.unique_name,
+            )
+            return reduce_scatter
+
+        def replacement(
+            input: torch.Tensor,
+            mat2: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+        ) -> torch.Tensor:
+            # Calculate output shape: input @ mat2 with scatter_dim reduced
+            output_shape = [*input.shape[:-1], mat2.shape[1]]
+            scatter_dim = 0
+            gemm_rs = torch.ops.vllm.patched_fused_scaled_matmul_reduce_scatter(
+                input,
+                mat2,
+                scale_a,
+                scale_b,
+                "avg",
+                scatter_dim,  # orig_scatter_dim
+                scatter_dim,  # scatter_dim_after_maybe_reshape
+                self.tp.device_group.group_name,
+                output_shape,
+                None,  # bias
+                None,  # result_scale
+                self.dtype,  # out_dtype
+                False,  # use_fast_accum
+            )
+
+            return gemm_rs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllGatherScaledMMPattern(BasePattern):
+    def get_inputs(self):
+        x = torch.empty([8, 16], device=self.device, dtype=FP8_DTYPE)
+        weight = (
+            torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+            .contiguous()
+            .transpose(0, 1)
+        )
+
+        s1 = x.shape[0] * self.tp_size
+
+        scale_a = torch.empty([s1, 1], device=self.device, dtype=torch.float32)
+        scale_b = torch.empty([1, 16], device=self.device, dtype=torch.float32)
+
+        return [x, weight, scale_a, scale_b]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            x: torch.Tensor,
+            weight: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+        ) -> torch.Tensor:
+            all_gather = torch.ops.vllm.all_gather.default(
+                x, dim=0, world_size=self.tp_size, group_name=self.tp.unique_name
+            )
+
+            return torch.ops.aten._scaled_mm.default(
+                all_gather,
+                mat2=weight,
+                scale_a=scale_a,
+                scale_b=scale_b,
+                bias=None,
+                scale_result=None,
+                out_dtype=self.dtype,
+            )
+
+        def replacement(
+            x: torch.Tensor,
+            weight: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+        ) -> torch.Tensor:
+            ag_output, mm_outputs = torch.ops.symm_mem.fused_all_gather_scaled_matmul(  # noqa
+                x,
+                [weight],
+                scale_a,
+                [scale_b],
+                gather_dim=0,
+                biases=[None],
+                result_scales=[None],
+                out_dtypes=[self.dtype],
+                use_fast_accum=[False],
+                group_name=self.tp.device_group.group_name,
+            )
+            return mm_outputs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class CutlassScaledMMReduceScatterPattern(BasePattern):
+    def get_inputs(self):
+        input = torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+        mm_weight = (
+            torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+            .contiguous()
+            .transpose(0, 1)
+        )
+        scale_a = torch.empty([16, 1], device=self.device, dtype=torch.float32)
+        scale_b = torch.empty([1, 16], device=self.device, dtype=torch.float32)
+
+        cutlass_mm_output = torch.empty([16, 16], device=self.device, dtype=self.dtype)
+        return [input, mm_weight, scale_a, scale_b, cutlass_mm_output]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+            cutlass_mm_output: torch.Tensor,
+        ) -> torch.Tensor:
+            cutlass_scaled_mm = torch.ops.higher_order.auto_functionalized(
+                torch.ops._C.cutlass_scaled_mm.default,
+                out=cutlass_mm_output,
+                a=input,
+                b=weight,
+                a_scales=scale_a,
+                b_scales=scale_b,
+                bias=None,
+            )
+
+            reduce_scatter = torch.ops.vllm.reduce_scatter.default(
+                cutlass_scaled_mm[1],
+                dim=0,
+                world_size=self.tp_size,
+                group_name=self.tp.unique_name,
+            )
+            return reduce_scatter
+
+        def replacement(
+            input: torch.Tensor,
+            mat2: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+            cutlass_mm_output: torch.Tensor,
+        ) -> torch.Tensor:
+            # Calculate output shape: input @ mat2 with scatter_dim reduced
+            output_shape = [*input.shape[:-1], mat2.shape[1]]
+            scatter_dim = 0
+            gemm_rs = torch.ops.vllm.patched_fused_scaled_matmul_reduce_scatter(
+                input,
+                mat2,
+                scale_a,
+                scale_b,
+                "avg",
+                scatter_dim,  # orig_scatter_dim
+                scatter_dim,  # scatter_dim_after_maybe_reshape
+                self.tp.device_group.group_name,
+                output_shape,
+                None,  # bias
+                None,  # result_scale
+                self.dtype,  # out_dtype
+                False,  # use_fast_accum
+            )
+
+            return gemm_rs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllGatherCutlassScaledMMPattern(BasePattern):
+    def get_inputs(self):
+        x = torch.empty([8, 16], device=self.device, dtype=FP8_DTYPE)
+        weight = (
+            torch.empty([16, 16], device=self.device, dtype=FP8_DTYPE)
+            .contiguous()
+            .transpose(0, 1)
+        )
+
+        s1 = x.shape[0] * self.tp_size
+
+        scale_a = torch.empty([s1, 1], device=self.device, dtype=torch.float32)
+        scale_b = torch.empty([1, 16], device=self.device, dtype=torch.float32)
+
+        s2 = weight.shape[1]
+        output = torch.empty([s1, s2], device=self.device, dtype=self.dtype)
+
+        return [x, weight, scale_a, scale_b, output]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            x: torch.Tensor,
+            weight: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+            output: torch.Tensor,
+        ) -> torch.Tensor:
+            all_gather = torch.ops.vllm.all_gather.default(
+                x, dim=0, world_size=self.tp_size, group_name=self.tp.unique_name
+            )
+
+            cutlass_scaled_mm = torch.ops.higher_order.auto_functionalized(
+                torch.ops._C.cutlass_scaled_mm.default,
+                out=output,
+                a=all_gather,
+                b=weight,
+                a_scales=scale_a,
+                b_scales=scale_b,
+                bias=None,
+            )
+            return cutlass_scaled_mm[1]
+
+        def replacement(
+            x: torch.Tensor,
+            weight: torch.Tensor,
+            scale_a: torch.Tensor,
+            scale_b: torch.Tensor,
+            output: torch.Tensor,
+        ) -> torch.Tensor:
+            ag_output, mm_outputs = torch.ops.symm_mem.fused_all_gather_scaled_matmul(  # noqa
+                x,
+                [weight],
+                scale_a,
+                [scale_b],
+                gather_dim=0,
+                biases=[None],
+                result_scales=[None],
+                out_dtypes=[self.dtype],
+                use_fast_accum=[False],
+                group_name=self.tp.device_group.group_name,
+            )
+            return mm_outputs
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AsyncTPPass(VllmPatternMatcherPass):
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        # Enable symmetric memory for the TP process group
+        enable_symm_mem_for_group(get_tp_group().device_group.group_name)
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="async_tp_pass"
+        )
+        GEMMReduceScatterPattern(self.model_dtype, self.device).register(self.patterns)
+
+        AllGatherGEMMPattern(self.model_dtype, self.device).register(self.patterns)
+
+        # These fusions are enabled only for bfloat16 models because
+        # `scaled_mm` or `cutlass_scaled_mm` with per-token (row-wise) scaling
+        # only supports bfloat16 as the output dtype.
+        if self.model_dtype == torch.bfloat16:
+            ScaledMMReduceScatterPattern(self.model_dtype, self.device).register(
+                self.patterns
+            )
+            AllGatherScaledMMPattern(self.model_dtype, self.device).register(
+                self.patterns
+            )
+
+            CutlassScaledMMReduceScatterPattern(self.model_dtype, self.device).register(
+                self.patterns
+            )
+            AllGatherCutlassScaledMMPattern(self.model_dtype, self.device).register(
+                self.patterns
+            )
+
+        self.dump_patterns(config, self.patterns)
+
+    def is_applicable(self, shape: int | None) -> bool:
+        # This pass is applied on top of the sequence parallelism pass.
+        # It inherits the same applicability condition as `SequenceParallelismPass`.
+        # See `SequenceParallelismPass.is_applicable` for more details.
+        if (
+            not self.compilation_config.splitting_ops
+            or self.compilation_config.use_inductor_graph_partition
+        ):
+            return True
+        tp_size = get_tensor_model_parallel_world_size()
+        return shape is not None and shape % tp_size == 0
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph):
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns", self.matched_count)
+
+
+# Max size of the input tensor per world size per device capability
+# to use flashinfer fused allreduce
+FI_ALLREDUCE_FUSION_MAX_SIZE_MB: dict[int, dict[int, float]] = {
+    90: {
+        2: 64,  # 64MB
+        4: 2,  # 2MB
+        8: 0.5,  # 0.5MB
+    },
+    100: {
+        2: 64,  # 64MB
+        4: 32,  # 32MB
+        8: 1,  # 1MB
+    },
+}
+
+# Max size of the input tensor per world size per device capability
+# to use flashinfer one shot fused allreduce
+# OneShot max size is at most 64MB / world size (FlashInfer restriction)
+_FI_ALLREDUCE_ONE_SHOT_MAX_SIZES_MB: dict[int, dict[int, float]] = {
+    90: {
+        2: 32,  # 32MB
+        4: 2,  # 2MB
+        8: 0.5,  # 0.5MB
+    },
+    100: {
+        2: 32,  # 32MB
+        4: 4,  # 4MB
+        8: 1,  # 1MB
+    },
+}
+
+
+if flashinfer_comm is not None:
+    _FI_WORKSPACE_TENSOR = None
+    MiB = 1024 * 1024
+
+    def call_trtllm_fused_allreduce_norm(
+        allreduce_in: torch.Tensor,
+        residual: torch.Tensor,
+        rms_gamma: torch.Tensor,
+        rms_eps: float,
+        world_rank: int,
+        world_size: int,
+        launch_with_pdl: bool,
+        trigger_completion_at_end: bool,
+        fp32_acc: bool,
+        max_token_num: int,
+        pattern_code: int,
+        norm_out: torch.Tensor | None = None,
+        quant_out: torch.Tensor | None = None,
+        scale_out: torch.Tensor | None = None,
+        scale_factor: torch.Tensor | None = None,
+    ) -> None:
+        num_tokens, hidden_size = allreduce_in.shape
+        element_size = allreduce_in.element_size()
+        current_tensor_size = num_tokens * hidden_size * element_size
+
+        if num_tokens <= max_token_num:
+            device_capability = current_platform.get_device_capability().to_int()
+            # Get one shot input size limit for the current world size
+            # for the current device capability
+            max_one_shot_size_mb = _FI_ALLREDUCE_ONE_SHOT_MAX_SIZES_MB.get(
+                device_capability, {}
+            ).get(world_size, None)
+            # Use one shot if no max size for one shot is specified
+            use_oneshot = (
+                max_one_shot_size_mb is None
+                or current_tensor_size <= max_one_shot_size_mb * MiB
+            )
+
+            assert _FI_WORKSPACE_TENSOR is not None, (
+                "Flashinfer must be enabled when using flashinfer"
+            )
+            if norm_out is None:
+                norm_out = allreduce_in
+                residual_out = residual
+            else:
+                # return residual_out as allreduce_out with zeroed residual_in
+                # as flashinfer does not support rms_norm
+                # and allreduce_out together
+                residual_out = allreduce_in
+            # For the sizes that are smaller than the max size,
+            # we only use flashinfer one shot allreduce
+            flashinfer_comm.trtllm_allreduce_fusion(
+                allreduce_in=allreduce_in,
+                token_num=allreduce_in.shape[0],
+                residual_in=residual,
+                residual_out=residual_out,
+                norm_out=norm_out,
+                rms_gamma=rms_gamma,
+                rms_eps=rms_eps,
+                world_rank=world_rank,
+                world_size=world_size,
+                hidden_dim=allreduce_in.shape[-1],
+                workspace_ptrs=_FI_WORKSPACE_TENSOR,
+                launch_with_pdl=launch_with_pdl,
+                use_oneshot=use_oneshot,
+                trigger_completion_at_end=trigger_completion_at_end,
+                fp32_acc=fp32_acc,
+                pattern_code=pattern_code,
+                allreduce_out=None,
+                quant_out=quant_out,
+                scale_out=scale_out,
+                # in vllm we only support swizzled layout
+                layout_code=flashinfer_comm.QuantizationSFLayout.SWIZZLED_128x4,
+                scale_factor=scale_factor,
+            )
+        else:
+            allreduce_out = tensor_model_parallel_all_reduce(allreduce_in)
+            if scale_factor is not None and scale_out is None:
+                # Do fused rms norm static fp8 quant fused op
+                if norm_out is None:
+                    torch.ops._C.fused_add_rms_norm_static_fp8_quant(
+                        quant_out,
+                        allreduce_out,
+                        residual,
+                        rms_gamma,
+                        scale_factor,
+                        rms_eps,
+                    )
+                else:
+                    torch.ops._C.rms_norm_static_fp8_quant(
+                        quant_out, allreduce_out, rms_gamma, scale_factor, rms_eps
+                    )
+            else:
+                if norm_out is None:
+                    torch.ops._C.fused_add_rms_norm(
+                        allreduce_out, residual, rms_gamma, rms_eps
+                    )
+                    norm_out = allreduce_out
+                else:
+                    torch.ops._C.rms_norm(norm_out, allreduce_out, rms_gamma, rms_eps)
+                if scale_factor is not None and scale_out is not None:
+                    torch.ops._C.scaled_fp4_quant(
+                        quant_out, norm_out, scale_out, scale_factor
+                    )
+            if scale_factor is None or norm_out is not None:
+                # we need to return allreduce output
+                # in cases of non quant fused AR + RMS norm
+                # and fused AR + RMS norm + quant without fused add
+                allreduce_in.copy_(allreduce_out)
+
+    def call_trtllm_fused_allreduce_norm_fake(
+        allreduce_in: torch.Tensor,
+        residual: torch.Tensor,
+        rms_gamma: torch.Tensor,
+        rms_eps: float,
+        world_rank: int,
+        world_size: int,
+        launch_with_pdl: bool,
+        trigger_completion_at_end: bool,
+        fp32_acc: bool,
+        max_token_num: int,
+        pattern_code: int,
+        norm_out: torch.Tensor | None = None,
+        quant_out: torch.Tensor | None = None,
+        scale_out: torch.Tensor | None = None,
+        scale_factor: torch.Tensor | None = None,
+    ) -> None:
+        pass
+
+    direct_register_custom_op(
+        op_name="flashinfer_trtllm_fused_allreduce_norm",
+        op_func=call_trtllm_fused_allreduce_norm,
+        mutates_args=[
+            "allreduce_in",
+            "residual",
+            "norm_out",
+            "quant_out",
+            "scale_out",
+        ],
+        fake_impl=call_trtllm_fused_allreduce_norm_fake,
+    )
+    flashinfer_trtllm_fused_allreduce_norm = (
+        torch.ops.vllm.flashinfer_trtllm_fused_allreduce_norm.default
+    )
+
+
+class FlashInferFusedAllReduceParams:
+    """Parameters for FlashInfer fused allreduce operations."""
+
+    def __init__(
+        self,
+        rank: int,
+        world_size: int,
+        use_fp32_lamport: bool = False,
+        max_token_num: int = 1024,
+    ):
+        self.rank = rank
+        self.world_size = world_size
+        self.use_fp32_lamport = use_fp32_lamport
+        self.trigger_completion_at_end = True
+        self.launch_with_pdl = True
+        self.fp32_acc = True
+        self.max_token_num = max_token_num
+
+    def get_trtllm_fused_allreduce_kwargs(self):
+        return {
+            "world_rank": self.rank,
+            "world_size": self.world_size,
+            "launch_with_pdl": self.launch_with_pdl,
+            "trigger_completion_at_end": self.trigger_completion_at_end,
+            "fp32_acc": self.fp32_acc,
+            "max_token_num": self.max_token_num,
+        }
+
+
+class AllReduceRMSNormPattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (without residual)
+    with fused flashinfer implementation.
+    Applies to allreduce + rmsnorm before attn in the first Transformer block.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+
+    def get_inputs(self):
+        input, weight = self.rmsnorm_matcher.inputs()
+
+        # input goes through allreduce first, always 16-bit
+        return [input.to(self.dtype), weight]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(input: torch.Tensor, weight: torch.Tensor):
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms = self.rmsnorm_matcher(allreduce_output, weight)
+
+            return rms, allreduce_output
+
+        def replacement(input: torch.Tensor, weight: torch.Tensor):
+            residual = torch.zeros_like(input)
+            rms_result = torch.empty_like(input)
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=rms_result,
+                quant_out=None,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNorm,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            # rms_result, allreduce_in
+            return allreduce[3], allreduce[1]
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllReduceFusedAddRMSNormPattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (with residual)
+    with fused flashinfer implementation.
+    Applies to o_proj + rmsnorm after attn and mlp + rmsnorm before attn.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+
+    def get_inputs(self):
+        input, residual, weight = self.rmsnorm_matcher.inputs()
+
+        # input goes through allreduce first, always 16-bit
+        return [residual, input.to(self.dtype), weight]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(residual: torch.Tensor, input: torch.Tensor, weight: torch.Tensor):
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms, residual = self.rmsnorm_matcher(allreduce_output, weight, residual)
+            return rms, residual
+
+        def replacement(
+            residual: torch.Tensor, input: torch.Tensor, weight: torch.Tensor
+        ):
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=None,
+                quant_out=None,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNorm,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            # allreduce_in, residual
+            return allreduce[1], allreduce[2]
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+        # Same pattern, but only return the output and not residual
+        # (helpful for end of graph where residual is not used again)
+        first_return_only = lambda fn: lambda a, b, c: fn(a, b, c)[0]
+
+        pm.register_replacement(
+            first_return_only(pattern),
+            first_return_only(replacement),
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class AllReduceFusedRMSNormStaticQuantFP8Pattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (without residual)
+    + static fp8 quant with fused flashinfer implementation.
+    Applies to allreduce + rmsnorm + quant before attn
+    in the first Transformer block.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.quant_dtype = torch.float8_e4m3fn
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def get_inputs():
+            input, weight = self.rmsnorm_matcher.inputs()
+            _, scale = self.quant_matcher.inputs()
+
+            # input goes through allreduce first, always 16-bit
+            return [input.to(self.dtype), weight, scale]
+
+        def pattern(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            all_reduce = tensor_model_parallel_all_reduce(input)
+            rms = self.rmsnorm_matcher(all_reduce, weight)
+            quant, _ = self.quant_matcher(rms, scale)
+            return quant, all_reduce
+
+        def replacement(input: torch.Tensor, weight: torch.Tensor, scale: torch.Tensor):
+            residual = torch.zeros_like(input)
+            result_rms = torch.empty_like(input)
+            result_quant = torch.empty_like(input, dtype=self.quant_dtype)
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=result_rms,
+                quant_out=result_quant,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                # We don't use norm_out afterwards
+                pattern_code=(
+                    flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP8Quant
+                ),
+                scale_factor=scale,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+
+            # quant_out, allreduce_output
+            return allreduce[4], allreduce[1]
+
+        pm.register_replacement(
+            pattern, replacement, get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllReduceFusedAddRMSNormStaticQuantFP8Pattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (with residual)
+    + static fp8 quant with fused flashinfer implementation.
+    Applies to o_proj + rmsnorm after attn + quant and
+    mlp + rmsnorm + quant before attn.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.quant_dtype = torch.float8_e4m3fn
+
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def get_inputs():
+            input, residual, weight = self.rmsnorm_matcher.inputs()
+            _, scale = self.quant_matcher.inputs()
+
+            # input goes through allreduce first, always 16-bit
+            return [residual, input.to(self.dtype), weight, scale]
+
+        def pattern(
+            residual: torch.Tensor,
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms, res = self.rmsnorm_matcher(allreduce_output, weight, residual)
+            quant, _ = self.quant_matcher(rms, scale)
+
+            return quant, res
+
+        def replacement(
+            residual: torch.Tensor,
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            result_quant = torch.empty_like(input, dtype=self.quant_dtype)
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=None,
+                quant_out=result_quant,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                # We don't use norm_out afterwards
+                pattern_code=(
+                    flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP8Quant
+                ),
+                scale_factor=scale,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            # quant_out, rms_norm_residual
+            return allreduce[4], allreduce[2]
+
+        pm.register_replacement(
+            pattern, replacement, get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllReduceFusedRMSNormStaticQuantNVFP4Pattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (without residual)
+    + static nvfp4 quant with fused flashinfer implementation.
+    Applies to allreduce + rmsnorm + quant before attn
+    in the first Transformer block.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def get_inputs():
+            input = torch.empty([1, 16, 16], device=self.device, dtype=self.dtype)
+            quant_result = torch.empty((16, 8), device=self.device, dtype=torch.uint8)
+            input_global_scale = torch.empty(
+                [1, 1], device=self.device, dtype=torch.float32
+            )
+            weight = torch.empty([16], device=self.device, dtype=self.dtype)
+            output_scale = torch.empty([128, 4], device=self.device, dtype=torch.int32)
+
+            return [input, quant_result, weight, input_global_scale, output_scale]
+
+        def pattern(
+            input: torch.Tensor,
+            quant_result: torch.Tensor,
+            weight: torch.Tensor,
+            input_global_scale: torch.Tensor,
+            output_scale: torch.Tensor,
+        ):
+            all_reduce = tensor_model_parallel_all_reduce(input)
+            rms = self.rmsnorm_matcher(all_reduce, weight)
+            quant_out_tuple = auto_functionalized(
+                STATIC_FP4_QUANT_OP,
+                output=quant_result,
+                input=rms,
+                output_scale=output_scale,
+                input_scale=input_global_scale,
+            )
+
+            # quant_out, allreduce_output, output_scale
+            return quant_out_tuple[1], all_reduce, quant_out_tuple[2]
+
+        def replacement(
+            input: torch.Tensor,
+            quant_result: torch.Tensor,
+            weight: torch.Tensor,
+            input_global_scale: torch.Tensor,
+            output_scale: torch.Tensor,
+        ):
+            residual = torch.zeros_like(input)
+            result_rms = torch.empty_like(input)
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=result_rms,
+                quant_out=quant_result,
+                scale_out=output_scale,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                # We don't use norm_out afterwards
+                pattern_code=(
+                    flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP4Quant
+                ),
+                scale_factor=input_global_scale,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+
+            # quant_out, allreduce_output, output_scale
+            return allreduce[4], allreduce[1], allreduce[5]
+
+        pm.register_replacement(
+            pattern, replacement, get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllReduceFusedAddRMSNormStaticQuantNVFP4Pattern(BasePattern):
+    """
+    This pattern replaces the allreduce + rms norm (with residual)
+    + static nvfp4 quant with fused flashinfer implementation.
+    Applies to o_proj + rmsnorm after attn + quant and
+    mlp + rmsnorm + quant before attn.
+    """
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ):
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def get_inputs():
+            input = torch.empty([16, 16], device=self.device, dtype=self.dtype)
+
+            residual = torch.empty([16, 16], device=self.device, dtype=self.dtype)
+            weight = torch.empty([16, 16], device=self.device, dtype=self.dtype)
+            quant_result = torch.empty((16, 8), device=self.device, dtype=torch.uint8)
+            input_global_scale = torch.empty(
+                [1, 1], device=self.device, dtype=torch.float32
+            )
+            output_scale = torch.empty([128, 4], device=self.device, dtype=torch.int32)
+
+            return [
+                quant_result,
+                residual,
+                input,
+                output_scale,
+                weight,
+                input_global_scale,
+            ]
+
+        def pattern(
+            quant_result: torch.Tensor,
+            residual: torch.Tensor,
+            input: torch.Tensor,
+            output_scale: torch.Tensor,
+            weight: torch.Tensor,
+            input_global_scale: torch.Tensor,
+        ):
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms, residual = self.rmsnorm_matcher(allreduce_output, weight, residual)
+            quant_out_tuple = auto_functionalized(
+                STATIC_FP4_QUANT_OP,
+                output=quant_result,
+                input=rms,
+                output_scale=output_scale,
+                input_scale=input_global_scale,
+            )
+
+            # quant_out, allreduce_output, output_scale
+            return quant_out_tuple[1], residual, quant_out_tuple[2]
+
+        def replacement(
+            quant_result: torch.Tensor,
+            residual: torch.Tensor,
+            input: torch.Tensor,
+            output_scale: torch.Tensor,
+            weight: torch.Tensor,
+            input_global_scale: torch.Tensor,
+        ):
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=None,
+                quant_out=quant_result,
+                scale_out=output_scale,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                # We don't use norm_out afterwards
+                pattern_code=(
+                    flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP4Quant
+                ),
+                scale_factor=input_global_scale,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            # quant_out, rms_norm_residual, output_scale
+            return allreduce[4], allreduce[2], allreduce[5]
+
+        pm.register_replacement(
+            pattern, replacement, get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class AllReduceFusionPass(VllmPatternMatcherPass):
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+        self.disabled = True
+        self.tp_size = get_tensor_model_parallel_world_size()
+        if self.tp_size <= 1:
+            return
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="all_reduce_fusion_pass"
+        )
+        if config.model_config is None:
+            return
+        self.hidden_dim = config.model_config.get_hidden_size()
+        self.group = get_tp_group().device_group
+        rank = get_tensor_model_parallel_rank()
+        use_fp32_lamport = self.model_dtype == torch.float32
+        if flashinfer_comm is None:
+            logger.warning(
+                "Flashinfer is not installed or comm module not found, "
+                "skipping allreduce fusion pass"
+            )
+            return
+        max_size = config.compilation_config.pass_config.flashinfer_max_size(
+            self.tp_size
+        )
+        if max_size is None:
+            # Flashinfer doesn't support current world size
+            logger.warning(
+                "Flashinfer allreduce fusion is not supported for world size %s",
+                self.tp_size,
+            )
+            return
+        element_size = 4 if use_fp32_lamport else 2
+        self.max_token_num = max_size // (self.hidden_dim * element_size)
+        # take the min to save workspace size and we'll never use more
+        # than max_num_batched_tokens anyways
+        self.max_token_num = min(
+            self.max_token_num, config.scheduler_config.max_num_batched_tokens
+        )
+        logger.debug_once(
+            f"Flashinfer max size: {max_size // (1024 * 1024)} MB,"
+            "Maximal number of tokens used by "
+            f"Flashinfer Allreduce Fusion: {self.max_token_num}",
+            scope="global",
+        )
+
+        self.ipc_handles, workspace_tensor = (
+            flashinfer_comm.trtllm_create_ipc_workspace_for_all_reduce_fusion(
+                tp_rank=rank,
+                tp_size=self.tp_size,
+                max_token_num=self.max_token_num,
+                hidden_dim=self.hidden_dim,
+                group=self.group,
+                use_fp32_lamport=use_fp32_lamport,
+            )
+        )
+
+        global _FI_WORKSPACE_TENSOR
+        _FI_WORKSPACE_TENSOR = workspace_tensor
+        self.allreduce_params = FlashInferFusedAllReduceParams(
+            rank=rank,
+            world_size=self.tp_size,
+            use_fp32_lamport=use_fp32_lamport,
+            max_token_num=self.max_token_num,
+        )
+
+        self.register_patterns()
+        self.dump_patterns(config, self.patterns)
+
+    @enable_fake_mode
+    def register_patterns(self):
+        for epsilon in [1e-5, 1e-6]:
+            AllReduceFusedRMSNormStaticQuantFP8Pattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
+            AllReduceFusedAddRMSNormStaticQuantFP8Pattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
+            if current_platform.has_device_capability(100):
+                AllReduceFusedRMSNormStaticQuantNVFP4Pattern(
+                    epsilon,
+                    self.model_dtype,
+                    self.device,
+                    self.allreduce_params,
+                ).register(self.patterns)
+                AllReduceFusedAddRMSNormStaticQuantNVFP4Pattern(
+                    epsilon,
+                    self.model_dtype,
+                    self.device,
+                    self.allreduce_params,
+                ).register(self.patterns)
+            AllReduceRMSNormPattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
+            AllReduceFusedAddRMSNormPattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
+
+            # WARNING: This is a hack to clear the pattern matcher cache
+            # and allow multiple values of epsilon.
+            torch._inductor.pattern_matcher._seen_patterns.clear()
+
+        self.disabled = False
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph):
+        if self.disabled:
+            logger.debug("AllReduceFusionPass disabled")
+            return
+
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns", self.matched_count)
+
+    def __del__(self):
+        if getattr(self, "disabled", True):
+            return
+        if flashinfer_comm is not None:
+            flashinfer_comm.trtllm_destroy_ipc_workspace_for_all_reduce(
+                self.ipc_handles, self.group
+            )
diff --git a/compilation/compiler_interface.py b/compilation/compiler_interface.py
new file mode 100644
index 0000000..aee5790
--- /dev/null
+++ b/compilation/compiler_interface.py
@@ -0,0 +1,639 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import copy
+import hashlib
+import os
+from collections.abc import Callable
+from contextlib import ExitStack
+from typing import Any, Literal
+from unittest.mock import patch
+
+import torch
+import torch._inductor.compile_fx
+import torch.fx as fx
+
+import vllm.envs as envs
+from vllm.compilation.counter import compilation_counter
+from vllm.config import VllmConfig
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+
+class CompilerInterface:
+    """
+    The interface for a compiler that can be used by vLLM.
+    """
+
+    # The name of the compiler, e.g. inductor.
+    # This is a class-level attribute.
+    name: str
+
+    def initialize_cache(
+        self, cache_dir: str, disable_cache: bool = False, prefix: str = ""
+    ):
+        """
+        when the vLLM process uses `cache_dir` as the cache directory,
+        the compiler should initialize itself with the cache directory,
+        e.g. by re-directing its own cache directory to a sub-directory.
+
+        prefix can be used in combination with cache_dir to figure out the base
+        cache directory, e.g. there're multiple parts of model being compiled,
+        but we want to share the same cache directory for all of them.
+
+        e.g.
+        cache_dir = "/path/to/dir/backbone", prefix = "backbone"
+        cache_dir = "/path/to/dir/eagle_head", prefix = "eagle_head"
+        """
+        pass
+
+    def compute_hash(self, vllm_config: VllmConfig) -> str:
+        """
+        Gather all the relevant information from the vLLM config,
+        to compute a hash so that we can cache the compiled model.
+
+        See [`VllmConfig.compute_hash`][vllm.config.VllmConfig.compute_hash]
+        to check what information
+        is already considered by default. This function should only
+        consider the information that is specific to the compiler.
+        """
+        return ""
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
+        runtime_shape: int | None = None,
+        key: str | None = None,
+    ) -> tuple[Callable | None, Any | None]:
+        """
+        Compile the graph with the given example inputs and compiler config,
+        with a runtime shape. If the `runtime_shape` is None, it means
+        the `example_inputs` have a dynamic shape. Otherwise, the
+        `runtime_shape` specifies the shape of the inputs. Right now we only
+        support one variable shape for all inputs, which is the batchsize
+        (number of tokens) during inference.
+
+        Dynamo will make sure `graph(*example_inputs)` is valid.
+
+        The function should return a compiled callable function, as well as
+        a handle that can be used to directly load the compiled function.
+
+        The handle should be a plain Python object, preferably a string or a
+        file path for readability.
+
+        If the compiler doesn't support caching, it should return None for the
+        handle. If the compiler fails to compile the graph, it should return
+        None for the compiled function as well.
+
+        `key` is required for StandaloneInductorAdapter, it specifies where to
+        save the compiled artifact. The compiled artifact gets saved to
+        `cache_dir/key`.
+        """
+        return None, None
+
+    def load(
+        self,
+        handle: Any,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        graph_index: int,
+        runtime_shape: int | None = None,
+    ) -> Callable:
+        """
+        Load the compiled function from the handle.
+        Raises an error if the handle is invalid.
+
+        The handle is the second return value of the `compile` function.
+        """
+        raise NotImplementedError("caching is not supported")
+
+
+class AlwaysHitShapeEnv:
+    """
+    Why do we need this class:
+
+    For normal `torch.compile` usage, every compilation will have
+    one Dynamo bytecode compilation and one Inductor compilation.
+    The Inductor compilation happens under the context of the
+    Dynamo bytecode compilation, and that context is used to
+    determine the dynamic shape information, etc.
+
+    For our use case, we only run Dynamo bytecode compilation once,
+    and run Inductor compilation multiple times with different shapes
+    plus a general shape. The compilation for specific shapes happens
+    outside of the context of the Dynamo bytecode compilation. At that
+    time, we don't have shape environment to provide to Inductor, and
+    it will fail the Inductor code cache lookup.
+
+    By providing a dummy shape environment that always hits, we can
+    make the Inductor code cache lookup always hit, and we can
+    compile the graph for different shapes as needed.
+
+    The following dummy methods are obtained by trial-and-error
+    until it works.
+    """
+
+    def __init__(self) -> None:
+        self.guards: list[Any] = []
+
+    def evaluate_guards_expression(self, *args, **kwargs):
+        return True
+
+    def get_pruned_guards(self, *args, **kwargs):
+        return []
+
+    def produce_guards_expression(self, *args, **kwargs):
+        return ""
+
+
+def get_inductor_factors() -> list[Any]:
+    factors: list[Any] = []
+    # summarize system state
+    from torch._inductor.codecache import CacheBase
+
+    system_factors = CacheBase.get_system()
+    factors.append(system_factors)
+
+    # summarize pytorch state
+    from torch._inductor.codecache import torch_key
+
+    torch_factors = torch_key()
+    factors.append(torch_factors)
+    return factors
+
+
+def is_compile_cache_enabled(
+    vllm_additional_inductor_config: dict[str, Any],
+) -> bool:
+    vllm_inductor_config_disable_cache = vllm_additional_inductor_config.get(
+        "force_disable_caches", False
+    )
+
+    # TODO(gmagogsfm): Replace torch._inductor.config.force_disable_caches
+    # with torch.compiler.config.force_disable_caches when minimum PyTorch
+    # version reaches 2.10
+    return (
+        not envs.VLLM_DISABLE_COMPILE_CACHE
+        and not torch._inductor.config.force_disable_caches
+        and not vllm_inductor_config_disable_cache
+    )
+
+
+class InductorStandaloneAdaptor(CompilerInterface):
+    """
+    The adaptor for the Inductor compiler.
+    Requires PyTorch 2.8+.
+    This is not on by default yet, but we plan to turn it on by default for
+    PyTorch 2.8.
+
+    Use VLLM_USE_STANDALONE_COMPILE to toggle this on or off.
+    """
+
+    name = "inductor_standalone"
+
+    def __init__(self, save_format: Literal["binary", "unpacked"]):
+        self.save_format = save_format
+
+    def compute_hash(self, vllm_config: VllmConfig) -> str:
+        factors = get_inductor_factors()
+        hash_str = hashlib.md5(
+            str(factors).encode(), usedforsecurity=False
+        ).hexdigest()[:10]
+        return hash_str
+
+    def initialize_cache(
+        self, cache_dir: str, disable_cache: bool = False, prefix: str = ""
+    ):
+        self.cache_dir = cache_dir
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
+        runtime_shape: int | None = None,
+        key: str | None = None,
+    ) -> tuple[Callable | None, Any | None]:
+        compilation_counter.num_inductor_compiles += 1
+        current_config = {}
+        if compiler_config is not None:
+            current_config.update(compiler_config)
+        set_inductor_config(current_config, runtime_shape)
+        # set_functorch_config()
+
+        if isinstance(runtime_shape, int):
+            dynamic_shapes = "from_example_inputs"
+        else:
+            dynamic_shapes = "from_tracing_context"
+
+        from torch._inductor import standalone_compile
+
+        compiled_graph = standalone_compile(
+            graph,
+            example_inputs,
+            dynamic_shapes=dynamic_shapes,
+            options={"config_patches": current_config},
+        )
+
+        # Save the compiled artifact to disk in the specified path
+        assert key is not None
+        path = os.path.join(self.cache_dir, key)
+
+        if is_compile_cache_enabled(compiler_config):
+            compiled_graph.save(path=path, format=self.save_format)
+            compilation_counter.num_compiled_artifacts_saved += 1
+        return compiled_graph, (key, path)
+
+    def load(
+        self,
+        handle: Any,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        graph_index: int,
+        runtime_shape: int | None = None,
+    ) -> Callable:
+        assert isinstance(handle, tuple)
+        assert isinstance(handle[0], str)
+        assert isinstance(handle[1], str)
+        path = handle[1]
+        inductor_compiled_graph = torch._inductor.CompiledArtifact.load(
+            path=path, format=self.save_format
+        )
+        from torch._inductor.compile_fx import graph_returns_tuple
+
+        returns_tuple = graph_returns_tuple(graph)
+
+        def compiled_graph_wrapper(*args):
+            graph_output = inductor_compiled_graph(*args)
+            # unpack the tuple if needed
+            # TODO(rzou): the implication is that we're not
+            # reading the python bytecode correctly in vLLM?
+            if returns_tuple:
+                return graph_output
+            else:
+                return graph_output[0]
+
+        return compiled_graph_wrapper
+
+
+class InductorAdaptor(CompilerInterface):
+    """
+    The adaptor for the Inductor compiler, version 2.5, 2.6, 2.7.
+    """
+
+    name = "inductor"
+
+    def compute_hash(self, vllm_config: VllmConfig) -> str:
+        factors = get_inductor_factors()
+        hash_str = hashlib.md5(
+            str(factors).encode(), usedforsecurity=False
+        ).hexdigest()[:10]
+        return hash_str
+
+    def initialize_cache(
+        self, cache_dir: str, disable_cache: bool = False, prefix: str = ""
+    ):
+        self.cache_dir = cache_dir
+        self.prefix = prefix
+        self.base_cache_dir = cache_dir[: -len(prefix)] if prefix else cache_dir
+        if disable_cache:
+            return
+        # redirect the cache directory to a subdirectory
+        # set flags so that Inductor and Triton store their cache
+        # in the cache_dir, then users only need to copy the cache_dir
+        # to another machine to reuse the cache.
+        inductor_cache = os.path.join(self.base_cache_dir, "inductor_cache")
+        os.makedirs(inductor_cache, exist_ok=True)
+        os.environ["TORCHINDUCTOR_CACHE_DIR"] = inductor_cache
+        triton_cache = os.path.join(self.base_cache_dir, "triton_cache")
+        os.makedirs(triton_cache, exist_ok=True)
+        os.environ["TRITON_CACHE_DIR"] = triton_cache
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
+        runtime_shape: int | None = None,
+        key: str | None = None,
+    ) -> tuple[Callable | None, Any | None]:
+        compilation_counter.num_inductor_compiles += 1
+        from torch._inductor.compile_fx import compile_fx
+
+        current_config = {}
+        if compiler_config is not None:
+            current_config.update(compiler_config)
+
+        # disable remote cache
+        current_config["fx_graph_cache"] = True
+        current_config["fx_graph_remote_cache"] = False
+
+        set_inductor_config(current_config, runtime_shape)
+        # set_functorch_config()
+
+        # inductor can inplace modify the graph, so we need to copy it
+        # see https://github.com/pytorch/pytorch/issues/138980
+        graph = copy.deepcopy(graph)
+
+        # it's the first time we compile this graph
+        # the assumption is that we don't have nested Inductor compilation.
+        # compiled_fx_graph_hash will only be called once, and we can hook
+        # it to get the hash of the compiled graph directly.
+
+        hash_str, file_path = None, None
+        from torch._inductor.codecache import FxGraphCache, compiled_fx_graph_hash
+
+        if torch.__version__.startswith("2.5"):
+            original_load = FxGraphCache.load
+            original_load_name = "torch._inductor.codecache.FxGraphCache.load"
+
+            def hijack_load(*args, **kwargs):
+                inductor_compiled_graph = original_load(*args, **kwargs)
+                nonlocal file_path
+                compiled_fn = inductor_compiled_graph.current_callable
+                file_path = compiled_fn.__code__.co_filename  # noqa
+                if (
+                    not file_path.startswith(self.base_cache_dir)
+                    and compiled_fn.__closure__ is not None
+                ):
+                    # hooked in the align_inputs_from_check_idxs function
+                    # in torch/_inductor/utils.py
+                    for cell in compiled_fn.__closure__:
+                        if not callable(cell.cell_contents):
+                            continue
+                        if cell.cell_contents.__code__.co_filename.startswith(
+                            self.base_cache_dir
+                        ):
+                            # this is the real file path compiled from Inductor
+                            file_path = cell.cell_contents.__code__.co_filename
+                            break
+                return inductor_compiled_graph
+
+            hijacked_compile_fx_inner = torch._inductor.compile_fx.compile_fx_inner  # noqa
+        elif torch.__version__ >= "2.6":
+            # function renamed in 2.6
+            original_load_name = None
+
+            def hijacked_compile_fx_inner(*args, **kwargs):
+                output = torch._inductor.compile_fx.compile_fx_inner(*args, **kwargs)
+                nonlocal hash_str
+                inductor_compiled_graph = output
+                if inductor_compiled_graph is not None:
+                    nonlocal file_path
+                    compiled_fn = inductor_compiled_graph.current_callable
+                    file_path = compiled_fn.__code__.co_filename  # noqa
+                    if (
+                        not file_path.startswith(self.base_cache_dir)
+                        and compiled_fn.__closure__ is not None
+                    ):
+                        # hooked in the align_inputs_from_check_idxs function
+                        # in torch/_inductor/utils.py
+                        for cell in compiled_fn.__closure__:
+                            if not callable(cell.cell_contents):
+                                continue
+                            code = cell.cell_contents.__code__
+                            if code.co_filename.startswith(self.base_cache_dir):
+                                # this is the real file path
+                                # compiled from Inductor
+                                file_path = code.co_filename
+                                break
+                    hash_str = inductor_compiled_graph._fx_graph_cache_key
+                return output
+
+        def hijack_compiled_fx_graph_hash(*args, **kwargs):
+            out = compiled_fx_graph_hash(*args, **kwargs)
+            nonlocal hash_str
+            hash_str = out[0]
+            return out
+
+        def _check_can_cache(*args, **kwargs):
+            # no error means it can be cached.
+            # Inductor refuses to cache the graph outside of Dynamo
+            # tracing context, and also disables caching for graphs
+            # with high-order ops.
+            # For vLLM, in either case, we want to cache the graph.
+            # see https://github.com/pytorch/pytorch/blob/9f5ebf3fc609105a74eab4ccc24932d6353ff566/torch/_inductor/codecache.py#L1221 # noqa
+            return
+
+        def _get_shape_env() -> AlwaysHitShapeEnv:
+            return AlwaysHitShapeEnv()
+
+        with ExitStack() as stack:
+            # hijack to get the compiled graph itself
+            if original_load_name is not None:
+                stack.enter_context(patch(original_load_name, hijack_load))
+
+            # for hijacking the hash of the compiled graph
+            stack.enter_context(
+                patch(
+                    "torch._inductor.codecache.compiled_fx_graph_hash",
+                    hijack_compiled_fx_graph_hash,
+                )
+            )
+
+            # for providing a dummy shape environment
+            stack.enter_context(
+                patch(
+                    "torch._inductor.codecache.FxGraphCache._get_shape_env",
+                    _get_shape_env,
+                )
+            )
+
+            from torch._functorch._aot_autograd.autograd_cache import AOTAutogradCache
+
+            # torch 2.8+ on main uses _get_shape_env in AOTAutogradCache
+            if hasattr(AOTAutogradCache, "_get_shape_env"):
+                stack.enter_context(
+                    patch(
+                        "torch._functorch._aot_autograd.autograd_cache.AOTAutogradCache._get_shape_env",
+                        _get_shape_env,
+                    )
+                )
+
+            # for forcing the graph to be cached
+            stack.enter_context(
+                patch(
+                    "torch._inductor.codecache.FxGraphCache._check_can_cache",
+                    _check_can_cache,
+                )
+            )
+
+            # Dynamo metrics context, see method for more details.
+            stack.enter_context(self.metrics_context())
+
+            # Disable remote caching. When these are on, on remote cache-hit,
+            # the monkey-patched functions never actually get called.
+            # vLLM today assumes and requires the monkey-patched functions to
+            # get hit.
+            # TODO(zou3519): we're going to replace this all with
+            # standalone_compile sometime.
+            if is_torch_equal_or_newer("2.6"):
+                stack.enter_context(
+                    torch._inductor.config.patch(fx_graph_remote_cache=False)
+                )
+                # InductorAdaptor (unfortunately) requires AOTAutogradCache
+                # to be turned off to run. It will fail to acquire the hash_str
+                # and error if not.
+                # StandaloneInductorAdaptor (PyTorch 2.8+) fixes this problem.
+                stack.enter_context(
+                    torch._functorch.config.patch(enable_autograd_cache=False)
+                )
+                stack.enter_context(
+                    torch._functorch.config.patch(enable_remote_autograd_cache=False)
+                )
+
+            compiled_graph = compile_fx(
+                graph,
+                example_inputs,
+                inner_compile=hijacked_compile_fx_inner,
+                config_patches=current_config,
+            )
+
+        # Turn off the checks if we disable the compilation cache.
+        if is_compile_cache_enabled(compiler_config):
+            if hash_str is None:
+                raise RuntimeError(
+                    "vLLM failed to compile the model. The most "
+                    "likely reason for this is that a previous compilation "
+                    "failed, leading to a corrupted compilation artifact. "
+                    "We recommend trying to "
+                    "remove ~/.cache/vllm/torch_compile_cache and try again "
+                    "to see the real issue. "
+                )
+            assert file_path is not None, (
+                "failed to get the file path of the compiled graph"
+            )
+        return compiled_graph, (hash_str, file_path)
+
+    def load(
+        self,
+        handle: Any,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        graph_index: int,
+        runtime_shape: int | None = None,
+    ) -> Callable:
+        assert isinstance(handle, tuple)
+        assert isinstance(handle[0], str)
+        assert isinstance(handle[1], str)
+        hash_str = handle[0]
+
+        from torch._functorch._aot_autograd.autograd_cache import AOTAutogradCache
+        from torch._inductor.codecache import FxGraphCache
+
+        with ExitStack() as exit_stack:
+            exit_stack.enter_context(
+                patch(
+                    "torch._inductor.codecache.FxGraphCache._get_shape_env",
+                    lambda *args, **kwargs: AlwaysHitShapeEnv(),
+                )
+            )
+            # torch 2.8+ on main uses _get_shape_env in AOTAutogradCache
+            if hasattr(AOTAutogradCache, "_get_shape_env"):
+                exit_stack.enter_context(
+                    patch(
+                        "torch._functorch._aot_autograd.autograd_cache.AOTAutogradCache._get_shape_env",
+                        lambda *args, **kwargs: AlwaysHitShapeEnv(),
+                    )
+                )
+
+            # Dynamo metrics context, see method for more details.
+            exit_stack.enter_context(self.metrics_context())
+
+            if torch.__version__.startswith("2.5"):
+                inductor_compiled_graph = FxGraphCache._lookup_graph(
+                    hash_str, example_inputs, True, False
+                )
+                assert inductor_compiled_graph is not None, (
+                    "Inductor cache lookup failed. Please remove"
+                    f"the cache directory and try again."  # noqa
+                )
+            elif torch.__version__ >= "2.6":
+                from torch._inductor.output_code import CompiledFxGraphConstantsWithGm
+
+                constants = CompiledFxGraphConstantsWithGm(graph)
+                inductor_compiled_graph, _ = FxGraphCache._lookup_graph(
+                    hash_str, example_inputs, True, None, constants
+                )
+                assert inductor_compiled_graph is not None, (
+                    "Inductor cache lookup failed. Please remove"
+                    f"the cache directory and try again."  # noqa
+                )
+
+        # Inductor calling convention (function signature):
+        # f(list) -> tuple
+        # Dynamo calling convention (function signature):
+        # f(*args) -> Any
+
+        # need to know if the graph returns a tuple
+        from torch._inductor.compile_fx import graph_returns_tuple
+
+        returns_tuple = graph_returns_tuple(graph)
+
+        # this is the callable we return to Dynamo to run
+        def compiled_graph(*args):
+            # convert args to list
+            list_args = list(args)
+            graph_output = inductor_compiled_graph(list_args)
+            # unpack the tuple if needed
+            if returns_tuple:
+                return graph_output
+            else:
+                return graph_output[0]
+
+        return compiled_graph
+
+    def metrics_context(self) -> contextlib.AbstractContextManager:
+        """
+        This method returns the Dynamo metrics context (if it exists,
+        otherwise a null context). It is used by various compile components.
+        Present in torch>=2.6, it's used inside FxGraphCache in
+        torch==2.6 (but not after). It might also be used in various other
+        torch.compile internal functions.
+
+        Because it is re-entrant, we always set it (even if entering via Dynamo
+        and the context was already entered). We might want to revisit if it
+        should be set at a different mode of compilation.
+
+        This is likely a bug in PyTorch: public APIs should not rely on
+        manually setting up internal contexts. But we also rely on non-public
+        APIs which might not provide these guarantees.
+        """
+        if is_torch_equal_or_newer("2.6"):
+            import torch._dynamo.utils
+
+            return torch._dynamo.utils.get_metrics_context()
+        else:
+            return contextlib.nullcontext()
+
+
+def set_inductor_config(config, runtime_shape):
+    if isinstance(runtime_shape, int):
+        # for a specific batchsize, tuning triton kernel parameters
+        # can be beneficial
+        config["max_autotune"] = envs.VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE
+        config["coordinate_descent_tuning"] = (
+            envs.VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING
+        )
+
+
+def set_functorch_config():
+    torch._functorch.config.bundled_autograd_cache = False
+
+
+class EagerAdaptor(CompilerInterface):
+    name = "eager"
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
+        runtime_shape: int | None = None,
+        key: str | None = None,
+    ) -> tuple[Callable | None, Any | None]:
+        compilation_counter.num_eager_compiles += 1
+        # we don't need to compile the graph, just return the graph itself.
+        # It does not support caching, return None for the handle.
+        return graph, None
diff --git a/compilation/counter.py b/compilation/counter.py
new file mode 100644
index 0000000..2091809
--- /dev/null
+++ b/compilation/counter.py
@@ -0,0 +1,48 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import copy
+import dataclasses
+from contextlib import contextmanager
+
+
+@dataclasses.dataclass
+class CompilationCounter:
+    num_models_seen: int = 0
+    num_graphs_seen: int = 0
+    # including the splitting ops
+    num_piecewise_graphs_seen: int = 0
+    # not including the splitting ops
+    num_piecewise_capturable_graphs_seen: int = 0
+    num_backend_compilations: int = 0
+    # Number of gpu_model_runner attempts to trigger CUDAGraphs capture
+    num_gpu_runner_capture_triggers: int = 0
+    # Number of CUDAGraphs captured
+    num_cudagraph_captured: int = 0
+    # InductorAdapter.compile calls
+    num_inductor_compiles: int = 0
+    # EagerAdapter.compile calls
+    num_eager_compiles: int = 0
+    # The number of time vLLM's compiler cache entry was updated
+    num_cache_entries_updated: int = 0
+    # The number of standalone_compile compiled artifacts saved
+    num_compiled_artifacts_saved: int = 0
+    # Number of times a model was loaded with CompilationMode.STOCK_TORCH_COMPILE
+    stock_torch_compile_count: int = 0
+
+    def clone(self) -> "CompilationCounter":
+        return copy.deepcopy(self)
+
+    @contextmanager
+    def expect(self, **kwargs):
+        old = self.clone()
+        yield
+        for k, v in kwargs.items():
+            assert getattr(self, k) - getattr(old, k) == v, (
+                f"{k} not as expected, before it is {getattr(old, k)}"
+                f", after it is {getattr(self, k)}, "
+                f"expected diff is {v}"
+            )
+
+
+compilation_counter = CompilationCounter()
diff --git a/compilation/cuda_graph.py b/compilation/cuda_graph.py
new file mode 100644
index 0000000..19309a7
--- /dev/null
+++ b/compilation/cuda_graph.py
@@ -0,0 +1,216 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import dataclasses
+from collections.abc import Callable
+from contextlib import ExitStack
+from typing import Any
+from unittest.mock import patch
+
+import torch
+
+import vllm.envs as envs
+from vllm.compilation.counter import compilation_counter
+from vllm.compilation.monitor import validate_cudagraph_capturing_enabled
+from vllm.config import CUDAGraphMode, VllmConfig
+from vllm.distributed.device_communicators.pynccl_allocator import set_graph_pool_id
+from vllm.forward_context import BatchDescriptor, get_forward_context
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import weak_ref_tensors
+from vllm.sequence import IntermediateTensors
+
+logger = init_logger(__name__)
+
+
+@dataclasses.dataclass
+class CUDAGraphEntry:
+    batch_descriptor: BatchDescriptor
+    cudagraph: torch.cuda.CUDAGraph | None = None
+    output: Any | None = None
+
+    # for cudagraph debugging, track the input addresses
+    # during capture, and check if they are the same during replay
+    input_addresses: list[int] | None = None
+
+
+@dataclasses.dataclass
+class CUDAGraphOptions:
+    debug_log_enable: bool = True
+    gc_disable: bool = False
+    weak_ref_output: bool = True
+
+
+class CUDAGraphWrapper:
+    """Wraps a runnable to add CUDA graph capturing and replaying ability. And
+    provide attribute access to the underlying `runnable` via `__getattr__`.
+
+    The workflow of this wrapper in the cudagraph dispatching is as follows:
+    1. At initialization, a runtime mode is assigned to the wrapper (FULL or
+    PIECEWISE).
+    2. At runtime, the wrapper receives a runtime_mode and a
+    batch_descriptor(key) from the forward context and blindly trust them
+    for cudagraph dispatching.
+    3. If runtime_mode is NONE or runtime_mode does not match the mode of the
+    wrapper, just call the runnable directly.
+    4. Otherwise, i.e., the runtime_mode matches the mode of the wrapper,
+    the wrapper will perform cudagraph capture(if key does not exist, create
+    a new entry and cache it) or replay (if key exists in the cache).
+
+    Note: CUDAGraphWrapper does not store persistent buffers or copy any
+    runtime inputs into that buffers for replay. We assume implementing them
+    is done outside of the wrapper. That is because we do not make any
+    assumption on the dynamic shape (batch size) of the runtime inputs, as a
+    trade-off for staying orthogonal to compilation logic. Nevertheless,
+    tracing and checking the input addresses to be consistent during replay is
+    guaranteed when VLLM_LOGGING_LEVEL == "DEBUG".
+    """
+
+    def __init__(
+        self,
+        runnable: Callable,
+        vllm_config: VllmConfig,
+        runtime_mode: CUDAGraphMode,
+        cudagraph_options: CUDAGraphOptions | None = None,
+    ):
+        self.runnable = runnable
+        self.vllm_config = vllm_config
+        self.runtime_mode = runtime_mode
+        self.compilation_config = vllm_config.compilation_config
+
+        self.first_run_finished = False
+        self.is_debugging_mode = envs.VLLM_LOGGING_LEVEL == "DEBUG"
+
+        # assert runtime_mode is not NONE(no cudagraph), otherwise, we don't
+        # need to initialize a CUDAGraphWrapper.
+        assert self.runtime_mode != CUDAGraphMode.NONE
+        # TODO: in the future, if we want to use multiple
+        # streams, it might not be safe to share a global pool.
+        # only investigate this when we use multiple streams
+        self.graph_pool = current_platform.get_global_graph_pool()
+
+        if cudagraph_options is None:
+            cudagraph_options = CUDAGraphOptions()
+        self.cudagraph_options = cudagraph_options
+        # the entries for different batch descriptors that we need to capture
+        # cudagraphs for.
+        self.concrete_cudagraph_entries: dict[BatchDescriptor, CUDAGraphEntry] = {}
+
+    def __getattr__(self, key: str):
+        # allow accessing the attributes of the runnable.
+        if hasattr(self.runnable, key):
+            return getattr(self.runnable, key)
+        raise AttributeError(
+            f"Attribute {key} not exists in the runnable of "
+            f"cudagraph wrapper: {self.runnable}"
+        )
+
+    def unwrap(self) -> Callable:
+        # in case we need to access the original runnable.
+        return self.runnable
+    
+    def weak_ref_tensors_with_intermediate(self, output):
+        if isinstance(output, IntermediateTensors):
+            intermediate_states = IntermediateTensors(
+                    tensors={key: weak_ref_tensors(value) for key, value in output.tensors.items()})
+            return intermediate_states
+        return weak_ref_tensors(output)
+
+    def __call__(self, *args, **kwargs):
+        forward_context = get_forward_context()
+        batch_descriptor = forward_context.batch_descriptor
+        cudagraph_runtime_mode = forward_context.cudagraph_runtime_mode
+
+        if (
+            cudagraph_runtime_mode == CUDAGraphMode.NONE
+            or cudagraph_runtime_mode != self.runtime_mode
+        ):
+            # CUDAGraphMode.NONE could mean the profile run, a warmup run, or
+            # running without cudagraphs.
+            # We do not trigger capture/replay if the runtime mode is not
+            # matches. This enables properly dispatching to the correct
+            # CUDAGraphWrapper when nesting multiple instances with different
+            # runtime modes.
+            return self.runnable(*args, **kwargs)
+
+        if batch_descriptor not in self.concrete_cudagraph_entries:
+            # create a new entry for this batch descriptor
+            self.concrete_cudagraph_entries[batch_descriptor] = CUDAGraphEntry(
+                batch_descriptor=batch_descriptor
+            )
+
+        entry = self.concrete_cudagraph_entries[batch_descriptor]
+
+        if entry.cudagraph is None:
+            if self.cudagraph_options.debug_log_enable:
+                # Since we capture cudagraph for many different shapes and
+                # capturing is fast, we don't need to log it for every
+                # shape. E.g. we only log it for the first subgraph in
+                # piecewise mode.
+                logger.debug(
+                    "Capturing a cudagraph on (%s,%s)",
+                    self.runtime_mode.name,
+                    entry.batch_descriptor,
+                )
+            # validate that cudagraph capturing is legal at this point.
+            validate_cudagraph_capturing_enabled()
+
+            input_addresses = [
+                x.data_ptr() for x in args if isinstance(x, torch.Tensor)
+            ]
+            entry.input_addresses = input_addresses
+            cudagraph = torch.cuda.CUDAGraph()
+
+            with ExitStack() as stack:
+                if self.cudagraph_options.gc_disable:
+                    # during every model forward for piecewise cudagraph
+                    # mode, we will capture many pieces of cudagraphs
+                    # (roughly one per layer). running gc again and again
+                    # across layers will make the cudagraph capture very slow.
+                    # therefore, we only run gc for the first graph,
+                    # and disable gc for the rest of the graphs.
+                    stack.enter_context(patch("gc.collect", lambda: None))
+                    stack.enter_context(patch("torch.cuda.empty_cache", lambda: None))
+
+                if self.graph_pool is not None:
+                    set_graph_pool_id(self.graph_pool)
+                else:
+                    set_graph_pool_id(current_platform.graph_pool_handle())
+                # mind-exploding: carefully manage the reference and memory.
+                with torch.cuda.graph(cudagraph, pool=self.graph_pool):
+                    # `output` is managed by pytorch's cudagraph pool
+                    output = self.runnable(*args, **kwargs)
+                    if self.cudagraph_options.weak_ref_output:
+                        # by converting it to weak ref,
+                        # the original `output` will immediately be released
+                        # to save memory. It is only safe to do this for
+                        # the last graph in piecewise cuadgraph mode, because
+                        # the output of the last graph will not be used by
+                        # any other cuda graph.
+                        output = self.weak_ref_tensors_with_intermediate(output)
+
+            # here we always use weak ref for the output
+            # to save memory
+            entry.output = self.weak_ref_tensors_with_intermediate(output)
+            entry.cudagraph = cudagraph
+
+            compilation_counter.num_cudagraph_captured += 1
+
+            # important: we need to return the output, rather than
+            # the weak ref of the output, so that pytorch can correctly
+            # manage the memory during cuda graph capture
+            return output
+
+        if self.is_debugging_mode:
+            # check if the input addresses are the same
+            new_input_addresses = [
+                x.data_ptr() for x in args if isinstance(x, torch.Tensor)
+            ]
+            assert new_input_addresses == entry.input_addresses, (
+                f"Input addresses for cudagraphs are different "
+                f"during replay. Expected {entry.input_addresses}, "
+                f"got {new_input_addresses}"
+            )
+
+        entry.cudagraph.replay()
+        return entry.output
diff --git a/compilation/decorators.py b/compilation/decorators.py
new file mode 100644
index 0000000..11a18c0
--- /dev/null
+++ b/compilation/decorators.py
@@ -0,0 +1,571 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import hashlib
+import inspect
+import os
+import sys
+from collections.abc import Callable
+from typing import TypeVar, overload
+from unittest.mock import patch
+
+import torch
+import torch.nn as nn
+from packaging import version
+from torch._dynamo.symbolic_convert import InliningInstructionTranslator
+
+import vllm.envs as envs
+from vllm.compilation.counter import compilation_counter
+from vllm.compilation.wrapper import TorchCompileWithNoGuardsWrapper
+from vllm.config import (
+    CompilationMode,
+    VllmConfig,
+    get_current_vllm_config,
+    set_current_vllm_config,
+)
+from vllm.logger import init_logger
+from vllm.sequence import IntermediateTensors
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.torch_utils import supports_dynamo
+
+from .monitor import start_monitoring_torch_compile
+
+logger = init_logger(__name__)
+
+IGNORE_COMPILE_KEY = "_ignore_compile_vllm"
+
+_T = TypeVar("_T", bound=type[nn.Module])
+
+
+def ignore_torch_compile(cls: _T) -> _T:
+    """
+    A decorator to ignore support_torch_compile decorator
+    on the class. This is useful when a parent class has
+    a support_torch_compile decorator, but we don't want to
+    compile the class `cls` that inherits the parent class.
+    This only ignores compiling the forward of the class the
+    decorator is applied to.
+
+    If the parent has ignore_torch_compile but the child has
+    support_torch_compile, the child will still be compiled.
+
+    If the class has one or more submodules
+    that have support_torch_compile decorator applied, compile will
+    not be ignored for those submodules.
+    """
+    setattr(cls, IGNORE_COMPILE_KEY, True)
+    return cls
+
+
+def _should_ignore_torch_compile(cls) -> bool:
+    """
+    Check if the class should be ignored for torch.compile.
+    """
+    return getattr(cls, IGNORE_COMPILE_KEY, False)
+
+
+@overload
+def support_torch_compile(
+    *,
+    enable_if: Callable[[VllmConfig], bool] | None = None,
+) -> Callable[[_T], _T]: ...
+
+
+@overload
+def support_torch_compile(
+    *,
+    dynamic_arg_dims: dict[str, int | list[int]] | None,
+) -> Callable[[_T], _T]: ...
+
+
+@overload
+def support_torch_compile(
+    *,
+    mark_unbacked_dims: dict[str, int | list[int]] | None,
+) -> Callable[[_T], _T]: ...
+
+
+@overload
+def support_torch_compile(
+    *,
+    dynamic_arg_dims: dict[str, int | list[int]] | None,
+    mark_unbacked_dims: dict[str, int | list[int]] | None,
+) -> Callable[[_T], _T]: ...
+
+
+@overload
+def support_torch_compile(cls: _T) -> _T: ...
+
+
+def support_torch_compile(
+    cls: _T | None = None,
+    *,
+    dynamic_arg_dims: dict[str, int | list[int]] | None = None,
+    mark_unbacked_dims: dict[str, int | list[int]] | None = None,
+    enable_if: Callable[[VllmConfig], bool] | None = None,
+) -> Callable[[_T], _T] | _T:
+    """
+    A decorator to add support for compiling the forward method of a class.
+
+    Usage 1: use directly as a decorator without arguments:
+
+    ```python
+    @support_torch_compile
+    class MyModel(nn.Module):
+        def forward(self, x: torch.Tensor, y: Optional[torch.Tensor]): ...
+    ```
+
+    Usage 2: use as a decorator with arguments:
+
+    ```python
+    @support_torch_compile(dynamic_arg_dims={"x": 0, "y": 0})
+    class MyModel(nn.Module):
+        def forward(self, x: torch.Tensor, y: Optional[torch.Tensor]): ...
+    ```
+
+    `dynamic_arg_dims` is a dictionary that maps argument names to the dynamic
+    dimensions of the argument. The dynamic dimensions can be either a single
+    integer or a list of integers.
+
+    if `dynamic_arg_dims` is `None`, it is inferred from the type annotation
+    of the `forward` method, based on the following default rules:
+
+    - if the argument is annotated as `torch.Tensor` or
+        `Optional[torch.Tensor]`, the first dimension will be
+        marked as dynamic.
+    - if the argument is annotated as `IntermediateTensors`, the first
+        dimension of all the tensors in the intermediate tensors
+        will be marked as dynamic.
+
+    During runtime, when we actually mark dimensions of tensors,
+     it depends on the value of arguments:
+
+    - if it is a single integer (can be negative), the corresponding dimension
+        of the argument will be marked as dynamic.
+    - if it is `None`, ignored.
+    - if it is `IntermediateTensors`, all the tensors in the intermediate
+        tensors will be marked as dynamic.
+    - otherwise, it will raise an error.
+
+    NOTE: if an argument is `None`, it should always be passed as `None` during
+    the lifetime of the model, otherwise, it cannot be captured as a single
+    computation graph.
+
+    `enable_if` is a function that takes a `VllmConfig` object as input and
+    returns a boolean value indicating whether to compile the model or not.
+    This is useful if you want to compile the model only when certain
+    conditions are met.
+
+    `mark_unbacked_dims` is a dictionary that maps argument names with a dynamic
+    dim to be decorated with `mark_unbacked`.  This is useful if we would like to
+    enforce that dynamo does not specialize on 0/1 values in the case of dummy input
+    such as for vision model compilation
+    """
+
+    def cls_decorator_helper(cls: _T) -> _T:
+        # helper to pass `dynamic_arg_dims` to `_support_torch_compile`
+        # to avoid too much indentation for `_support_torch_compile`
+        if not hasattr(cls, "forward"):
+            raise TypeError("decorated class should have a forward method.")
+        sig = inspect.signature(cls.forward)
+        inferred_dynamic_arg_dims = dynamic_arg_dims
+        if inferred_dynamic_arg_dims is None:
+            inferred_dynamic_arg_dims = {}
+            for k, v in sig.parameters.items():
+                if v.annotation in [
+                    torch.Tensor,
+                    torch.Tensor | None,
+                    IntermediateTensors,
+                    IntermediateTensors | None,
+                ]:
+                    inferred_dynamic_arg_dims[k] = 0
+
+            logger.debug(
+                ("Inferred dynamic dimensions for forward method of %s: %s"),
+                cls,
+                list(inferred_dynamic_arg_dims.keys()),
+            )
+
+        if len(inferred_dynamic_arg_dims) == 0:
+            raise ValueError(
+                "No dynamic dimensions found in the forward method of "
+                f"{cls}. Please provide dynamic_arg_dims explicitly."
+            )
+
+        for k in inferred_dynamic_arg_dims:
+            if k not in sig.parameters:
+                raise ValueError(
+                    f"Argument {k} not found in the forward method of {cls}"
+                )
+        return _support_torch_compile(
+            cls, inferred_dynamic_arg_dims, mark_unbacked_dims, enable_if
+        )
+
+    if cls is not None:
+        # use `support_torch_compile` as a decorator without arguments
+        assert isinstance(cls, type)
+        return cls_decorator_helper(cls)
+
+    return cls_decorator_helper
+
+
+def _model_hash_key(fn) -> str:
+    import vllm
+
+    sha256_hash = hashlib.sha256()
+    sha256_hash.update(vllm.__version__.encode())
+    sha256_hash.update(fn.__qualname__.encode())
+    sha256_hash.update(str(fn.__code__.co_firstlineno).encode())
+    return sha256_hash.hexdigest()
+
+
+def _verify_source_unchanged(source_info, vllm_config) -> None:
+    from .caching import _compute_code_hash, _compute_code_hash_with_content
+
+    file_contents = {}
+    for source in source_info.inlined_sources:
+        module = sys.modules[source.module]
+        file = inspect.getfile(module)
+        vllm_config.compilation_config.traced_files.add(file)
+        file_contents[file] = source.content
+    expected_checksum = _compute_code_hash_with_content(file_contents)
+    actual_checksum = _compute_code_hash(set(file_contents.keys()))
+    if expected_checksum != actual_checksum:
+        raise RuntimeError(
+            "Source code has changed since the last compilation. Recompiling the model."
+        )
+
+
+def _support_torch_compile(
+    cls: _T,
+    dynamic_arg_dims: dict[str, int | list[int]],
+    mark_unbacked_dims: dict[str, int | list[int]] | None = None,
+    enable_if: Callable[[VllmConfig], bool] | None = None,
+) -> _T:
+    """
+    A decorator to add support for compiling the forward method of a class.
+    """
+    if TorchCompileWithNoGuardsWrapper in cls.__bases__:
+        # support decorating multiple times
+        return cls
+
+    # take care of method resolution order
+    # make sure super().__init__ is called on the base class
+    #  other than TorchCompileWithNoGuardsWrapper
+    cls.__bases__ = cls.__bases__ + (TorchCompileWithNoGuardsWrapper,)
+
+    old_init = cls.__init__
+
+    setattr(cls, IGNORE_COMPILE_KEY, False)
+
+    def __init__(
+        self, *, vllm_config: VllmConfig | None = None, prefix: str = "", **kwargs
+    ):
+        if vllm_config is None:
+            vllm_config = get_current_vllm_config()
+
+        # NOTE: to support multimodal models (such as encoder),
+        # we may not have vllm_config so we may need to patch
+        # it
+        sig = inspect.signature(old_init)
+        if "vllm_config" in sig.parameters:
+            kwargs["vllm_config"] = vllm_config
+        if "prefix" in sig.parameters:
+            kwargs["prefix"] = prefix
+        old_init(self, **kwargs)
+
+        self.vllm_config = vllm_config
+        enable_compile = enable_if is None or enable_if(vllm_config)
+        # for CompilationMode.STOCK_TORCH_COMPILE , the upper level model runner
+        # will handle the compilation, so we don't need to do anything here.
+        self.do_not_compile = (
+            vllm_config.compilation_config.mode
+            in [CompilationMode.NONE, CompilationMode.STOCK_TORCH_COMPILE]
+            or not supports_dynamo()
+            or _should_ignore_torch_compile(self.__class__)
+            or not enable_compile
+        )
+        if self.do_not_compile:
+            return
+
+        compilation_counter.num_models_seen += 1
+        self.compiled = False
+        TorchCompileWithNoGuardsWrapper.__init__(self)
+
+    cls.__init__ = __init__
+
+    def _mark_dynamic_inputs(mod, *args, **kwargs):
+        sig = inspect.signature(mod.__class__.forward)
+        bound_args = sig.bind(mod, *args, **kwargs)
+        bound_args.apply_defaults()
+        for k, dims in dynamic_arg_dims.items():
+            arg = bound_args.arguments.get(k)
+            if arg is not None:
+                dims = [dims] if isinstance(dims, int) else dims
+                if isinstance(arg, torch.Tensor):
+                    # In case dims is specified with negative indexing
+                    dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
+                    torch._dynamo.mark_dynamic(arg, dims)
+                elif isinstance(arg, IntermediateTensors):
+                    for tensor in arg.tensors.values():
+                        # In case dims is specified with negative indexing
+                        dims = [tensor.ndim + dim if dim < 0 else dim for dim in dims]
+                        torch._dynamo.mark_dynamic(tensor, dims)
+                else:
+                    raise ValueError(
+                        "Unsupported dynamic dimensions"
+                        f" {dims} for argument {k} with type {type(arg)}."
+                    )
+        if mark_unbacked_dims:
+            for k, dims in mark_unbacked_dims.items():
+                arg = bound_args.arguments.get(k)
+                if arg is not None:
+                    dims = [dims] if isinstance(dims, int) else dims
+                    if isinstance(arg, torch.Tensor):
+                        # In case dims is specified with negative indexing
+                        dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
+                        torch._dynamo.decorators.mark_unbacked(arg, dims)
+
+    def __call__(self, *args, **kwargs):
+        # torch.compiler.is_compiling() means we are inside the compilation
+        # e.g. TPU has the compilation logic in model runner, so we don't
+        # need to compile the model inside.
+        if self.do_not_compile or torch.compiler.is_compiling():
+            return self.forward(*args, **kwargs)
+
+        # if aot_compiled_fn is set, just call it.
+        if getattr(self, "aot_compiled_fn", None) is not None:
+            return self.aot_compiled_fn(self, *args, **kwargs)
+
+        cache_dir = None
+        aot_compilation_path = None
+        if envs.VLLM_USE_AOT_COMPILE:
+            """
+            When using torch.compile in AOT mode, we store the cache artifacts
+            under VLLM_CACHE_ROOT/torch_aot_compile/{hash}/rank_i_j. The {hash}
+            contains all of the factors except for the source files being
+            traced through, because we don't actually know which source files
+            to check at this point (before dynamo runs).
+            On loading we will actually look at the source files being traced
+            through. If any source file have changed (compared with the
+            serialized backend artifacts), then we need to generate a new AOT
+            compile artifact from scratch.
+            """
+            from .caching import compilation_config_hash_factors
+
+            factors: list[str] = compilation_config_hash_factors(self.vllm_config)
+
+            factors.append(_model_hash_key(self.forward))
+            hash_key = hashlib.sha256(str(factors).encode()).hexdigest()
+
+            cache_dir = os.path.join(
+                envs.VLLM_CACHE_ROOT,
+                "torch_aot_compile",
+                hash_key,
+            )
+
+            rank = self.vllm_config.parallel_config.rank
+            dp_rank = self.vllm_config.parallel_config.data_parallel_rank
+            cache_dir = os.path.join(cache_dir, f"rank_{rank}_{dp_rank}")
+            aot_compilation_path = os.path.join(cache_dir, "model")
+            try:
+                with (
+                    set_current_vllm_config(self.vllm_config),
+                    open(aot_compilation_path, "rb") as f,
+                ):
+                    start_monitoring_torch_compile(self.vllm_config)
+                    loaded_fn = torch.compiler.load_compiled_function(f)
+                _verify_source_unchanged(loaded_fn.source_info(), self.vllm_config)
+                loaded_fn.disable_guard_check()
+                self.aot_compiled_fn = loaded_fn
+            except Exception as e:
+                if os.path.exists(aot_compilation_path):
+                    logger.warning(
+                        "Cannot load aot compilation from path %s, error: %s",
+                        aot_compilation_path,
+                        str(e),
+                    )
+                if envs.VLLM_FORCE_AOT_LOAD:
+                    raise e
+            if getattr(self, "aot_compiled_fn", None) is not None:
+                logger.info(
+                    "Directly load AOT compilation from path %s", aot_compilation_path
+                )
+                return self.aot_compiled_fn(self, *args, **kwargs)
+
+        if self.compiled:
+            assert not envs.VLLM_USE_AOT_COMPILE
+            return TorchCompileWithNoGuardsWrapper.__call__(self, *args, **kwargs)
+
+        # This is the path for the first compilation.
+
+        # the first compilation needs to have dynamic shapes marked
+        _mark_dynamic_inputs(self, *args, **kwargs)
+
+        # here, it is the starting point of the `torch.compile` process
+        start_monitoring_torch_compile(self.vllm_config)
+        original_code_object = self.original_code_object()
+        logger.debug("Start compiling function %s", original_code_object)
+
+        # we do not want tp delete the original code object entries since
+        # we depend on them now to look up cached compiled functions.
+        # torch._dynamo.eval_frame.remove_from_cache(original_code_object)
+
+        # collect all relevant files traced by Dynamo,
+        # so that the compilation cache can trigger re-compilation
+        # properly when any of these files change.
+
+        # 1. the file containing the top-level forward function
+        self.vllm_config.compilation_config.traced_files.add(
+            original_code_object.co_filename
+        )
+
+        # 2. every time Dynamo sees a function call, it will inline
+        # the function by calling InliningInstructionTranslator.inline_call_
+        # we hijack this function to know all the functions called
+        # during Dynamo tracing, and their corresponding files
+        inline_call = InliningInstructionTranslator.inline_call_
+
+        def patched_inline_call(self_):
+            code = self_.f_code
+            self.vllm_config.compilation_config.traced_files.add(code.co_filename)
+            return inline_call(self_)
+
+        # Disable the C++ compilation of symbolic shape guards. C++-fication
+        # of symbolic shape guards can improve guard overhead. But, since
+        # vllm skip guards anyways, setting this flag to False can improve
+        # compile time.
+        dynamo_config_patches = {}
+        try:
+            _ = torch._dynamo.config.enable_cpp_symbolic_shape_guards
+            dynamo_config_patches["enable_cpp_symbolic_shape_guards"] = False
+        except AttributeError:
+            # Note: this config is not available in torch 2.6, we can skip
+            # if the config doesn't exist
+            logger.debug("enable_cpp_symbolic_shape_guards config not available")
+
+        with (
+            patch.object(
+                InliningInstructionTranslator, "inline_call_", patched_inline_call
+            ),
+            torch._dynamo.config.patch(**dynamo_config_patches),
+            maybe_use_cudagraph_partition_wrapper(self.vllm_config),
+            _torch27_patch_tensor_subclasses(),
+        ):
+            if envs.VLLM_USE_AOT_COMPILE:
+                self.aot_compiled_fn = self.aot_compile(*args, **kwargs)
+                output = self.aot_compiled_fn(self, *args, **kwargs)
+                assert aot_compilation_path is not None
+                assert cache_dir is not None
+                try:
+                    os.makedirs(cache_dir, exist_ok=True)
+                    self.aot_compiled_fn.save_compiled_function(aot_compilation_path)
+                except Exception as e:
+                    logger.warning(
+                        "Cannot save aot compilation to path %s, error: %s",
+                        aot_compilation_path,
+                        str(e),
+                    )
+            else:
+                output = TorchCompileWithNoGuardsWrapper.__call__(self, *args, **kwargs)
+
+        self.compiled = True
+        return output
+
+    cls.__call__ = __call__
+    return cls
+
+
+@contextlib.contextmanager
+def maybe_use_cudagraph_partition_wrapper(vllm_config: VllmConfig):
+    """
+    Context manager to set/unset customized cudagraph partition wrappers.
+
+    If we're using Inductor-based graph partitioning, we currently have the
+    whole `fx.Graph` before Inductor lowering and the piecewise
+    splitting happens after all graph passes and fusions. Here, we add
+    a custom hook for Inductor to wrap each partition with our static
+    graph wrapper class to maintain more control over static graph
+    capture and replay.
+    """
+    from vllm.config import CUDAGraphMode
+
+    compilation_config = vllm_config.compilation_config
+    if (
+        compilation_config.cudagraph_mode.has_piecewise_cudagraphs()
+        and compilation_config.use_inductor_graph_partition
+    ):
+        from torch._inductor.utils import CUDAGraphWrapperMetadata
+
+        from vllm.compilation.cuda_graph import CUDAGraphOptions
+        from vllm.platforms import current_platform
+
+        static_graph_wrapper_class = resolve_obj_by_qualname(
+            current_platform.get_static_graph_wrapper_cls()
+        )
+
+        def customized_cudagraph_wrapper(f, metadata: CUDAGraphWrapperMetadata):
+            partition_id = metadata.partition_index
+            num_partitions = metadata.num_partitions
+            return static_graph_wrapper_class(
+                runnable=f,
+                vllm_config=vllm_config,
+                runtime_mode=CUDAGraphMode.PIECEWISE,
+                cudagraph_options=CUDAGraphOptions(
+                    debug_log_enable=partition_id == 0,
+                    gc_disable=partition_id != 0,
+                    weak_ref_output=partition_id == num_partitions - 1,
+                ),
+            )
+
+        torch._inductor.utils.set_customized_partition_wrappers(
+            customized_cudagraph_wrapper
+        )
+
+    yield
+
+    if (
+        compilation_config.cudagraph_mode.has_piecewise_cudagraphs()
+        and compilation_config.use_inductor_graph_partition
+    ):
+        torch._inductor.utils.set_customized_partition_wrappers(None)
+
+
+@contextlib.contextmanager
+def _torch27_patch_tensor_subclasses():
+    """
+    Add support for using tensor subclasses (ie `BasevLLMParameter`, ect) when
+    using torch 2.7.0. This enables using weight_loader_v2 and the use of
+    `BasevLLMParameters` without having to replace them with regular tensors
+    before `torch.compile`-time.
+    """
+    from vllm.model_executor.parameter import (
+        BasevLLMParameter,
+        ModelWeightParameter,
+        RowvLLMParameter,
+        _ColumnvLLMParameter,
+    )
+
+    def return_false(*args, **kwargs):
+        return False
+
+    if version.parse("2.7") <= version.parse(torch.__version__) < version.parse("2.8"):
+        yield
+        return
+
+    with (
+        torch._dynamo.config.patch(
+            "traceable_tensor_subclasses",
+            [
+                BasevLLMParameter,
+                ModelWeightParameter,
+                _ColumnvLLMParameter,
+                RowvLLMParameter,
+            ],
+        ),
+        patch(
+            "torch._dynamo.variables.torch.can_dispatch_torch_function", return_false
+        ),
+    ):
+        yield
diff --git a/compilation/fix_functionalization.py b/compilation/fix_functionalization.py
new file mode 100644
index 0000000..126ad35
--- /dev/null
+++ b/compilation/fix_functionalization.py
@@ -0,0 +1,253 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import operator
+from collections.abc import Iterable
+
+import torch
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+from .fx_utils import is_func
+from .vllm_inductor_pass import VllmInductorPass
+
+logger = init_logger(__name__)
+
+
+class FixFunctionalizationPass(VllmInductorPass):
+    """
+    This pass defunctionalizes certain nodes to avoid redundant tensor copies.
+    After this pass, DCE (dead-code elimination) should never be run,
+    as de-functionalized nodes may appear as dead code.
+
+    To add new nodes to defunctionalize, add to the if-elif chain in __call__.
+    """
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: torch.fx.Graph):
+        # XPU does not support auto-functionalization yet.
+        # Will enable this when switch to vllm-xpu-kernels.
+        if current_platform.is_xpu():
+            logger.debug(
+                "XPU platform does not support fix functionalizationpass currently."
+            )
+            return
+
+        self.nodes_to_remove: list[torch.fx.Node] = []
+        count = 0
+        for node in graph.nodes:
+            if not is_func(node, auto_functionalized):
+                continue  # Avoid deep if-elif nesting
+
+            kwargs = node.kwargs
+            at_target = node.args[0]
+
+            if at_target == torch.ops._C.rotary_embedding.default:
+                query = kwargs["query"]
+                key = kwargs["key"]
+                getitem_nodes = self.getitem_users(node)
+
+                if (
+                    is_func(query, operator.getitem)
+                    and is_func(key, operator.getitem)
+                    and query.args[0] == key.args[0]
+                    and is_func(query.args[0], torch.ops.aten.split_with_sizes.default)
+                    and all(
+                        is_func(user, torch.ops.aten.slice_scatter.default)
+                        for getitem_node in getitem_nodes.values()
+                        for user in getitem_node.users
+                    )
+                ):
+                    # Pattern where query and key are slices of an mm_node.
+                    # While functionalized, results at [1] and [2] are scattered
+                    # back into mm_node. So after de-functionalization, we can
+                    # just use mm_node directly.
+
+                    mm_node = query.args[0].args[0]
+                    for user in getitem_nodes.values():
+                        for user_of_getitem in user.users:
+                            if is_func(
+                                user_of_getitem, torch.ops.aten.slice_scatter.default
+                            ):
+                                user_of_getitem.replace_all_uses_with(mm_node)
+                                self._remove(user_of_getitem)
+                        self._remove(user)
+
+                    self.insert_defunctionalized(graph, node)
+                    self._remove(node)
+
+                else:
+                    # Directly replace the auto_functionalize(rotary_embedding)
+                    # with the inplace rotary_embedding. In theory, we shouldn't
+                    # do this blindly, but in practice in vLLM it's ok. The best
+                    # solution is to use auto_functionalization_v2 and then use
+                    # inductor's builtin defunctionalization (reinplacing) pass.
+                    mutated_args = {1: "query", 2: "key"}
+                    self.defunctionalize(graph, node, mutated_args)
+
+            # rms_norm replacements avoid the most copies for LLaMa.
+            elif at_target == torch.ops._C.fused_add_rms_norm.default:
+                mutated_args = {1: "input", 2: "residual"}
+                self.defunctionalize(graph, node, mutated_args)
+            elif at_target == torch.ops._C.fused_add_rms_norm_static_fp8_quant.default:  # noqa: E501
+                mutated_args = {1: "result", 2: "residual"}
+                self.defunctionalize(graph, node, mutated_args)
+            elif at_target == torch.ops._C.rms_norm_dynamic_per_token_quant.default:  # noqa: E501
+                mutated_args = {1: "result", 2: "scale", 3: "residual"}
+                self.defunctionalize(graph, node, mutated_args)
+            elif at_target in [
+                torch.ops._C.rms_norm.default,
+                torch.ops._C.rms_norm_static_fp8_quant.default,
+            ]:
+                mutated_args = {1: "result"}
+                self.defunctionalize(graph, node, mutated_args)
+            # For some reason we need to specify the args for both
+            # silu_and_mul and silu_and_mul_quant. The kwargs
+            # pathway gets the wrong answer.
+            elif at_target == torch.ops._C.silu_and_mul.default:
+                mutated_args = {1: "result"}
+                self.defunctionalize(
+                    graph, node, mutated_args, args=("result", "input")
+                )
+            elif at_target == torch.ops._C.silu_and_mul_quant.default:
+                mutated_args = {1: "result"}
+                self.defunctionalize(
+                    graph, node, mutated_args, args=("result", "input", "scale")
+                )
+            elif (
+                hasattr(torch.ops._C, "silu_and_mul_nvfp4_quant")
+                and at_target == torch.ops._C.silu_and_mul_nvfp4_quant.default
+            ):
+                mutated_args = {1: "result", 2: "result_block_scale"}
+                self.defunctionalize(
+                    graph,
+                    node,
+                    mutated_args,
+                    args=(
+                        "result",
+                        "result_block_scale",
+                        "input",
+                        "input_global_scale",
+                    ),
+                )
+            # Defunctionalize fused_qk_norm_rope to remove higher-order wrapper.
+            elif at_target == torch.ops._C.fused_qk_norm_rope.default:
+                mutated_args = {1: "qkv"}
+                args = (
+                    "qkv",
+                    "num_heads_q",
+                    "num_heads_k",
+                    "num_heads_v",
+                    "head_dim",
+                    "eps",
+                    "q_weight",
+                    "k_weight",
+                    "cos_sin_cache",
+                    "is_neox",
+                    "position_ids",
+                )
+                self.defunctionalize(graph, node, mutated_args=mutated_args, args=args)
+            else:
+                continue  # skip the count
+
+            count += 1
+
+        self.dump_graph(graph, "before_cleanup")
+
+        # Remove the nodes all at once
+        count_removed = len(self.nodes_to_remove)
+        for node in self.nodes_to_remove:
+            graph.erase_node(node)
+
+        logger.debug(
+            "De-functionalized %s nodes, removed %s nodes", count, count_removed
+        )
+        self.nodes_to_remove.clear()
+
+    def _remove(self, node_or_nodes: torch.fx.Node | Iterable[torch.fx.Node]):
+        """
+        Stage a node (or nodes) for removal at the end of the pass.
+        """
+        if isinstance(node_or_nodes, torch.fx.Node):
+            self.nodes_to_remove.append(node_or_nodes)
+        else:
+            self.nodes_to_remove.extend(node_or_nodes)
+
+    def defunctionalize(
+        self,
+        graph: torch.fx.Graph,
+        node: torch.fx.Node,
+        mutated_args: dict[int, torch.fx.Node | str],
+        args: tuple[torch.fx.Node | str, ...] | None = None,
+    ):
+        """
+        De-functionalize a node by replacing it with a call to the original.
+        It also replaces the getitem users with the mutated arguments.
+        See replace_users_with_mutated_args and insert_defunctionalized.
+        """
+        self.replace_users_with_mutated_args(node, mutated_args)
+        self.insert_defunctionalized(graph, node, args=args)
+        self._remove(node)
+
+    def replace_users_with_mutated_args(
+        self, node: torch.fx.Node, mutated_args: dict[int, torch.fx.Node | str]
+    ):
+        """
+        Replace all getitem users of the auto-functionalized node with the
+        mutated arguments.
+        :param node: The auto-functionalized node
+        :param mutated_args: The mutated arguments, indexed by getitem index.
+        If the value of an arg is a string, `node.kwargs[arg]` is used.
+        """
+        for idx, user in self.getitem_users(node).items():
+            arg = mutated_args[idx]
+            arg = node.kwargs[arg] if isinstance(arg, str) else arg
+            user.replace_all_uses_with(arg)
+            self._remove(user)
+
+    def getitem_users(self, node: torch.fx.Node) -> dict[int, torch.fx.Node]:
+        """
+        Returns the operator.getitem users of the auto-functionalized node,
+        indexed by the index they are getting.
+        """
+        users = {}
+        for user in node.users:
+            if is_func(user, operator.getitem):
+                idx = user.args[1]
+                users[idx] = user
+        return users
+
+    def insert_defunctionalized(
+        self,
+        graph: torch.fx.Graph,
+        node: torch.fx.Node,
+        args: tuple[torch.fx.Node | str, ...] | None = None,
+    ):
+        """
+        Insert a new defunctionalized node into the graph before node.
+        If one of the kwargs is 'out', provide args directly,
+        as node.kwargs cannot be used.
+        See https://github.com/pytorch/pytorch/blob/a00faf440888ffb724bad413f329a49e2b6388e7/torch/_inductor/lowering.py#L351
+
+        :param graph: Graph to insert the defunctionalized node into
+        :param node: The auto-functionalized node to defunctionalize
+        :param args: If we cannot use kwargs, specify args directly.
+        If an arg is a string, `node.kwargs[arg]` is used.
+        """  # noqa: E501
+        assert is_func(node, auto_functionalized), (
+            f"node must be auto-functionalized, is {node} instead"
+        )
+
+        # Create a new call to the original function
+        with graph.inserting_before(node):
+            function = node.args[0]
+            if args is None:
+                graph.call_function(function, kwargs=node.kwargs)
+            else:
+                # Args passed as strings refer to items in node.kwargs
+                args = tuple(
+                    node.kwargs[arg] if isinstance(arg, str) else arg for arg in args
+                )
+                graph.call_function(function, args=args)
diff --git a/compilation/fusion.py b/compilation/fusion.py
new file mode 100644
index 0000000..1d6e297
--- /dev/null
+++ b/compilation/fusion.py
@@ -0,0 +1,374 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any, NamedTuple
+
+import torch
+import torch._inductor.pattern_matcher as pm
+from torch import fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import PatternMatcherPass
+from torch._ops import OpOverload
+
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    QuantKey,
+    ScaleDesc,
+    kFp8DynamicTensorSym,
+    kFp8DynamicTokenSym,
+    kFp8StaticTensorSym,
+    kNvfp4Quant,
+    kStaticTensorScale,
+)
+from vllm.platforms import current_platform
+
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherFusedAddRMSNorm, MatcherQuantFP8, MatcherRMSNorm
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+FP8_DTYPE = current_platform.fp8_dtype()
+FP4_DTYPE = torch.uint8
+
+
+def empty_bf16(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.bfloat16, device="cuda")
+
+
+def empty_fp32(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.float32, device="cuda")
+
+
+def empty_i32(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.int32, device="cuda")
+
+
+def empty_i64(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.int64, device="cuda")
+
+
+RMS_OP = torch.ops._C.rms_norm.default
+RMS_ADD_OP = torch.ops._C.fused_add_rms_norm.default
+
+QUANT_OPS: dict[QuantKey, OpOverload] = {
+    kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa: E501
+    kFp8DynamicTensorSym: torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa: E501
+    kFp8DynamicTokenSym: torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa: E501
+}
+if current_platform.is_cuda() and hasattr(torch.ops._C, "scaled_fp4_quant"):
+    QUANT_OPS[kNvfp4Quant] = torch.ops._C.scaled_fp4_quant.default
+
+
+class FusedRMSQuantKey(NamedTuple):
+    """
+    Named tuple for identifying the type of RMSNorm + quant fusion.
+    quant: type of quantization
+    fused_add: does the op also perform the residual add
+    """
+
+    quant: QuantKey
+    fused_add: bool
+
+    def __str__(self):
+        return (
+            f"FusedQuantKey({self.quant}, with"
+            f"{'' if self.fused_add else 'out'} residual)"
+        )
+
+
+FUSED_OPS: dict[FusedRMSQuantKey, OpOverload] = {
+    FusedRMSQuantKey(
+        kFp8StaticTensorSym, False
+    ): torch.ops._C.rms_norm_static_fp8_quant.default,  # noqa: E501
+    FusedRMSQuantKey(
+        kFp8StaticTensorSym, True
+    ): torch.ops._C.fused_add_rms_norm_static_fp8_quant.default,  # noqa: E501
+    FusedRMSQuantKey(
+        kFp8DynamicTokenSym, False
+    ): torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa: E501
+    FusedRMSQuantKey(
+        kFp8DynamicTokenSym, True
+    ): torch.ops._C.rms_norm_dynamic_per_token_quant.default,  # noqa: E501
+}
+
+
+class RMSNormQuantPattern:
+    def __init__(self, epsilon: float, key: FusedRMSQuantKey):
+        self.epsilon = epsilon
+        self.quant_dtype = key.quant.dtype
+        config = get_current_vllm_config()
+        self.model_dtype = config.model_config.dtype if config.model_config else None
+
+        assert key in FUSED_OPS, f"unsupported fused rmsnorm+quant op for {key}"
+        self.FUSED_OP = FUSED_OPS[key]
+
+        self.rmsnorm_matcher = (
+            MatcherRMSNorm(epsilon)
+            if not key.fused_add
+            else MatcherFusedAddRMSNorm(epsilon)
+        )
+        self.quant_matcher = MatcherQuantFP8(key.quant)
+
+
+class RMSNormStaticQuantPattern(RMSNormQuantPattern):
+    def __init__(self, epsilon: float, quant_dtype: torch.dtype, symmetric=True):
+        fused_key = FusedRMSQuantKey(
+            fused_add=False,
+            quant=QuantKey(
+                dtype=quant_dtype, scale=kStaticTensorScale, symmetric=symmetric
+            ),
+        )
+        super().__init__(epsilon, fused_key)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        # Cannot use methods, as the self argument affects tracing
+        def pattern(input: torch.Tensor, weight: torch.Tensor, scale: torch.Tensor):
+            result_rms = self.rmsnorm_matcher(input, weight)
+            return self.quant_matcher(result_rms, scale)[0]
+
+        def replacement(input: torch.Tensor, weight: torch.Tensor, scale: torch.Tensor):
+            # In case we're matching native rms-norm, conversions might be
+            # optimized out. We convert here just to be safe.
+            input = input.to(dtype=self.model_dtype)
+
+            result = torch.empty(
+                input.shape, device=input.device, dtype=self.quant_dtype
+            )
+            at = auto_functionalized(
+                self.FUSED_OP,
+                result=result,
+                input=input,
+                weight=weight,
+                scale=scale,
+                epsilon=self.epsilon,
+            )
+
+            # result
+            return at[1]
+
+        inputs = [
+            # input, weight
+            *self.rmsnorm_matcher.inputs(),
+            self.quant_matcher.inputs()[1],  # scale
+        ]
+        pattern(*inputs)
+
+        pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)
+
+
+class FusedAddRMSNormStaticQuantPattern(RMSNormQuantPattern):
+    def __init__(self, epsilon: float, quant_dtype: torch.dtype, symmetric=True):
+        key = FusedRMSQuantKey(
+            fused_add=True,
+            quant=QuantKey(
+                dtype=quant_dtype, scale=kStaticTensorScale, symmetric=symmetric
+            ),
+        )
+        super().__init__(epsilon, key)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            residual: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            result_rms, residual = self.rmsnorm_matcher(input, weight, residual)
+            result, _ = self.quant_matcher(result_rms, scale)
+
+            return result, residual
+
+        def replacement(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            residual: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            # In case we're matching native rms-norm, conversions might be
+            # optimized out. We convert here just to be safe.
+            input = input.to(dtype=self.model_dtype)
+
+            result = torch.empty_like(input, dtype=self.quant_dtype)
+            at = auto_functionalized(
+                self.FUSED_OP,
+                result=result,
+                input=input,
+                residual=residual,
+                weight=weight,
+                scale=scale,
+                epsilon=self.epsilon,
+            )
+
+            # result, residual
+            return at[1], at[2]
+
+        inputs = [
+            # input, weight, residual
+            *self.rmsnorm_matcher.inputs(),
+            self.quant_matcher.inputs()[1],  # scale
+        ]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            inputs,
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class RMSNormDynamicQuantPattern(RMSNormQuantPattern):
+    def __init__(
+        self,
+        epsilon: float,
+        quant_dtype: torch.dtype,
+        group_shape: GroupShape = GroupShape.PER_TOKEN,
+        symmetric=True,
+    ):
+        scale = ScaleDesc(torch.float32, False, group_shape)
+        key = FusedRMSQuantKey(
+            fused_add=False,
+            quant=QuantKey(dtype=quant_dtype, scale=scale, symmetric=symmetric),
+        )
+        super().__init__(epsilon, key)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(input: torch.Tensor, weight: torch.Tensor):
+            result_rms = self.rmsnorm_matcher(input, weight)
+            # result, scale
+            return self.quant_matcher(result_rms)
+
+        def replacement(input: torch.Tensor, weight: torch.Tensor):
+            # In case we're matching native rms-norm, conversions might be
+            # optimized out. We convert here just to be safe.
+            input = input.to(dtype=self.model_dtype)
+
+            result = torch.empty_like(input, dtype=self.quant_dtype)
+            scale = self.quant_matcher.make_scale(input)
+            at = auto_functionalized(
+                self.FUSED_OP,
+                result=result,
+                input=input,
+                weight=weight,
+                scale=scale,
+                epsilon=self.epsilon,
+                scale_ub=None,
+                residual=None,
+            )
+
+            # result, scale
+            return at[1], at[2]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            self.rmsnorm_matcher.inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class FusedAddRMSNormDynamicQuantPattern(RMSNormQuantPattern):
+    def __init__(
+        self,
+        epsilon: float,
+        quant_dtype: torch.dtype,
+        group_shape: GroupShape = GroupShape.PER_TOKEN,
+        symmetric=True,
+    ):
+        scale = ScaleDesc(torch.float32, False, group_shape)
+        key = FusedRMSQuantKey(
+            fused_add=True,
+            quant=QuantKey(dtype=quant_dtype, scale=scale, symmetric=symmetric),
+        )
+        super().__init__(epsilon, key)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(input: torch.Tensor, weight: torch.Tensor, residual: torch.Tensor):
+            result_rms, residual = self.rmsnorm_matcher(input, weight, residual)
+            result, scale = self.quant_matcher(result_rms)
+
+            return result, residual, scale
+
+        def replacement(
+            input: torch.Tensor, weight: torch.Tensor, residual: torch.Tensor
+        ):
+            # In case we're matching native rms-norm, conversions might be
+            # optimized out. We convert here just to be safe.
+            input = input.to(dtype=self.model_dtype)
+
+            result = torch.empty_like(input, dtype=self.quant_dtype)
+            scale = self.quant_matcher.make_scale(input)
+            at = auto_functionalized(
+                self.FUSED_OP,
+                result=result,
+                input=input,
+                weight=weight,
+                scale=scale,
+                epsilon=self.epsilon,
+                scale_ub=None,
+                residual=residual,
+            )
+
+            # result, residual, scale
+            return at[1], at[3], at[2]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            self.rmsnorm_matcher.inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class RMSNormQuantFusionPass(VllmPatternMatcherPass):
+    """
+    This pass fuses rms_norm & quant custom ops into a fused rms_norm_quant op.
+    It also supports fused_add_rms_norm.
+    """
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="rmsnorm_quant_fusion_pass"
+        )
+
+        # Make sure fused add patterns are before simple rms norm,
+        # as the latter is a subset of the former in torch ops
+        for epsilon in [1e-5, 1e-6]:
+            # Fuse fused_add_rms_norm + static fp8 quant
+            FusedAddRMSNormStaticQuantPattern(epsilon, FP8_DTYPE).register(
+                self.patterns
+            )
+
+            # Fuse rms_norm + static fp8 quant
+            RMSNormStaticQuantPattern(epsilon, FP8_DTYPE).register(self.patterns)
+
+            # Fuse fused_add_rms_norm + dynamic per-token fp8 quant
+            FusedAddRMSNormDynamicQuantPattern(epsilon, FP8_DTYPE).register(
+                self.patterns
+            )
+
+            # Fuse rms_norm + dynamic per-token fp8 quant
+            RMSNormDynamicQuantPattern(epsilon, FP8_DTYPE).register(self.patterns)
+
+        self.dump_patterns(config, self.patterns)
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph):
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns", self.matched_count)
+
+    def uuid(self) -> Any:
+        return self.hash_source(
+            self,
+            RMSNormQuantPattern,
+            RMSNormStaticQuantPattern,
+            RMSNormDynamicQuantPattern,
+            FusedAddRMSNormStaticQuantPattern,
+            FusedAddRMSNormDynamicQuantPattern,
+        )
diff --git a/compilation/fusion_attn.py b/compilation/fusion_attn.py
new file mode 100644
index 0000000..4f44fae
--- /dev/null
+++ b/compilation/fusion_attn.py
@@ -0,0 +1,359 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+
+import torch
+import torch._inductor.pattern_matcher as pm
+from torch import fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import PatternMatcherPass
+
+from vllm.attention import Attention
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kNvfp4Quant,
+    kStaticTensorScale,
+)
+from vllm.platforms import current_platform
+from vllm.utils.math_utils import round_up
+
+from .fusion import QUANT_OPS, empty_bf16, empty_fp32, empty_i32
+from .fx_utils import is_func
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherQuantFP8
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+
+FP8_DTYPE = current_platform.fp8_dtype()
+FP4_DTYPE = torch.uint8
+
+ATTN_OP = torch.ops.vllm.unified_attention_with_output.default
+RESHAPE_OP = torch.ops.aten.reshape.default
+
+
+class AttentionQuantPattern(ABC):
+    """
+    The base class for Attn+Quant fusions.
+    Should not be used directly.
+    """
+
+    def __init__(
+        self,
+        layer: Attention,
+        quant_key: QuantKey,
+        dtype: torch.dtype,
+    ):
+        self.layer = layer
+        self.layer_name = layer.layer_name
+        self.num_heads = layer.num_heads
+        self.head_size = layer.head_size
+        self.quant_key = quant_key
+        self.quant_dtype = quant_key.dtype
+        self.dtype = dtype
+
+        assert self.quant_key in QUANT_OPS, (
+            f"unsupported quantization scheme {self.quant_key}"
+        )
+        self.QUANT_OP = QUANT_OPS[self.quant_key]
+
+    def empty(self, *args, **kwargs):
+        kwargs = {"dtype": self.dtype, "device": "cuda", **kwargs}
+        return torch.empty(*args, **kwargs)
+
+    def empty_quant(self, *args, **kwargs):
+        kwargs = {"dtype": self.quant_dtype, "device": "cuda", **kwargs}
+        return torch.empty(*args, **kwargs)
+
+    @staticmethod
+    def wrap_trace_fn(trace_fn, *process_fx_fns: Callable[[fx.GraphModule], None]):
+        def wrapped(*args, **kwargs):
+            gm = trace_fn(*args, **kwargs)
+            for process_fx in process_fx_fns:
+                process_fx(gm)
+
+            return gm
+
+        return wrapped
+
+    @staticmethod
+    def fx_view_to_reshape(gm: torch.fx.GraphModule):
+        from torch._inductor.fx_passes.post_grad import view_to_reshape
+
+        view_to_reshape(gm)
+
+    @staticmethod
+    def remove_noop_permutes(gm: torch.fx.GraphModule):
+        for node in gm.graph.nodes:
+            if not is_func(node, torch.ops.aten.permute.default):
+                continue
+
+            dims = node.args[1]
+            if any(dim != i for i, dim in enumerate(dims)):
+                continue
+
+            # this is now an identity op, remove
+            node.replace_all_uses_with(node.args[0])
+            gm.graph.erase_node(node)
+
+    def register_if_supported(self, pm_pass: PatternMatcherPass):
+        if self.layer.impl.fused_output_quant_supported(self.quant_key):
+            self._register(pm_pass)
+
+    @abstractmethod
+    def _register(self, pm_pass: PatternMatcherPass):
+        raise NotImplementedError
+
+
+class AttentionFp8StaticQuantPattern(AttentionQuantPattern):
+    """
+    Fusion for Attention+Fp8StaticQuant.
+
+    Only triggers when the attention implementation returns True in
+    `fused_output_quant_supported()`. If the pattern is found, the
+    Fp8StaticQuant op will be removed from the graph, and its scale
+    will be passed into Attention op as the `output_scale` argument.
+    """
+
+    def __init__(
+        self,
+        layer: Attention,
+        dtype: torch.dtype,
+        symmetric: bool = True,
+    ):
+        quant_key = QuantKey(
+            dtype=FP8_DTYPE, scale=kStaticTensorScale, symmetric=symmetric
+        )
+        super().__init__(layer, quant_key, dtype)
+        self.quant_matcher = MatcherQuantFP8(quant_key)
+
+    def _register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            q: torch.Tensor,
+            k: torch.Tensor,
+            v: torch.Tensor,
+            output_attn: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            at1 = auto_functionalized(
+                ATTN_OP,
+                query=q,
+                key=k,
+                value=v,
+                output=output_attn,
+                layer_name=self.layer_name,
+                output_scale=None,
+                output_block_scale=None,
+            )
+            attn_out_view = RESHAPE_OP(
+                at1[1], [q.shape[0], self.num_heads * self.head_size]
+            )
+
+            return self.quant_matcher(attn_out_view, scale)[0]
+
+        def replacement(
+            q: torch.Tensor,
+            k: torch.Tensor,
+            v: torch.Tensor,
+            output_attn: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            # attn output in quant_dtype
+            output_attn = torch.ops.aten.full.default(
+                [q.shape[0], self.num_heads, self.head_size],
+                0.0,
+                dtype=self.quant_dtype,
+                device=q.device,
+            )
+            at1 = auto_functionalized(
+                ATTN_OP,
+                query=q,
+                key=k,
+                value=v,
+                output=output_attn,
+                layer_name=self.layer_name,
+                output_scale=scale,
+                output_block_scale=None,
+            )
+            return RESHAPE_OP(at1[1], [-1, self.num_heads * self.head_size])
+
+        inputs = [
+            self.empty(5, self.num_heads, self.head_size),  # q
+            self.empty(5, self.num_heads, self.head_size),  # k
+            self.empty(5, self.num_heads, self.head_size),  # v
+            self.empty(5, self.num_heads, self.head_size),  # attn_output
+            empty_fp32(1, 1),  # scale
+        ]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            inputs,
+            AttentionQuantPattern.wrap_trace_fn(
+                pm.fwd_only,
+                AttentionQuantPattern.fx_view_to_reshape,
+                AttentionQuantPattern.remove_noop_permutes,
+            ),
+            pm_pass,
+        )
+
+
+class AttentionNvfp4QuantPattern(AttentionQuantPattern):
+    """
+    Fusion for Attention+Nvfp4Quant.
+
+    Only triggers when the attention implementation returns True in
+    `fused_output_quant_supported()`. If the pattern is found, the
+    Nvfp4Quant op will be removed from the graph, and its scale
+    will be passed into Attention op as the `output_scale` argument.
+    """
+
+    def __init__(self, layer: Attention, dtype: torch.dtype):
+        super().__init__(layer, kNvfp4Quant, dtype)
+
+    def _register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            q: torch.Tensor,
+            k: torch.Tensor,
+            v: torch.Tensor,
+            output_attn: torch.Tensor,
+            output_quant: torch.Tensor,
+            output_scale: torch.Tensor,
+            input_scale: torch.Tensor,
+        ):
+            at1 = auto_functionalized(
+                ATTN_OP,
+                query=q,
+                key=k,
+                value=v,
+                output=output_attn,
+                layer_name=self.layer_name,
+                output_scale=None,
+                output_block_scale=None,
+            )
+            attn_out_view = RESHAPE_OP(
+                at1[1], [q.shape[0], self.num_heads * self.head_size]
+            )
+            at2 = auto_functionalized(
+                self.QUANT_OP,
+                output=output_quant,
+                input=attn_out_view,
+                output_scale=output_scale,
+                input_scale=input_scale,
+            )
+            output_scale_view = torch.ops.aten.view.dtype(at2[2], FP8_DTYPE)
+            return at2[1], output_scale_view
+
+        def replacement(
+            q: torch.Tensor,
+            k: torch.Tensor,
+            v: torch.Tensor,
+            output_attn: torch.Tensor,
+            output_quant: torch.Tensor,
+            output_scale: torch.Tensor,
+            input_scale: torch.Tensor,
+        ):
+            # attention output in quant_dtype
+            output_attn = torch.ops.aten.full.default(
+                [q.shape[0], self.num_heads, self.head_size // 2],
+                0.0,
+                dtype=self.quant_dtype,
+                device=q.device,
+            )
+            # attention output block scale
+            output_scale_view = torch.ops.aten.view.dtype(output_scale, FP8_DTYPE)
+            at2 = auto_functionalized(
+                ATTN_OP,
+                query=q,
+                key=k,
+                value=v,
+                output=output_attn,
+                layer_name=self.layer_name,
+                output_scale=input_scale,
+                output_block_scale=output_scale_view,
+            )
+            output = RESHAPE_OP(at2[1], [-1, self.num_heads * self.head_size // 2])
+            return output, at2[2]
+
+        inputs = [
+            empty_bf16(5, self.num_heads, self.head_size),  # q
+            empty_bf16(5, self.num_heads, self.head_size),  # k
+            empty_bf16(5, self.num_heads, self.head_size),  # v
+            empty_bf16(5, self.num_heads, self.head_size),  # output_attn
+            self.empty_quant(5, self.num_heads * self.head_size // 2),  # output_quant
+            empty_i32(
+                128, round_up(self.num_heads * self.head_size // 16, 4)
+            ),  # output_scale
+            empty_fp32(1, 1),  # input_scale
+        ]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            inputs,
+            AttentionQuantPattern.wrap_trace_fn(
+                pm.fwd_only,
+                AttentionQuantPattern.fx_view_to_reshape,
+                AttentionQuantPattern.remove_noop_permutes,
+            ),
+            pm_pass,
+        )
+
+
+class AttnFusionPass(VllmPatternMatcherPass):
+    """
+    This pass fuses post-attention quantization onto attention if supported.
+
+    It uses the pattern matcher and matches each layer manually, as strings
+    cannot be wildcarded. This also lets us check support on attention layers
+    upon registration instead of during pattern matching.
+
+    Currently, only static fp8 quant is supported, but patterns could easily be
+    added for other quant schemes and dtypes. The bigger hurdle for wider
+    support are attention kernels, which need to support fusing output quant.
+    """
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        self.patterns = PatternMatcherPass(pass_name="attn_fusion_pass")
+
+        attn_layers = get_layers_from_vllm_config(config, Attention)
+        for layer_name, layer in attn_layers.items():
+            pattern_fp8 = AttentionFp8StaticQuantPattern(
+                layer, config.model_config.dtype
+            )
+            pattern_fp8.register_if_supported(self.patterns)
+
+            if current_platform.is_cuda() and hasattr(torch.ops._C, "scaled_fp4_quant"):
+                pattern_nvfp4 = AttentionNvfp4QuantPattern(
+                    layer, config.model_config.dtype
+                )
+                pattern_nvfp4.register_if_supported(self.patterns)
+
+        if len(attn_layers) == 0:
+            logger.warning(
+                "Attention + quant fusion is enabled, but no attention layers "
+                "were found in CompilationConfig.static_forward_context "
+                "so no fusion patterns were registered."
+            )
+
+        self.dump_patterns(config, self.patterns)
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: torch.fx.graph.Graph) -> None:
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Fused quant onto %s attention nodes", self.matched_count)
+
+    def uuid(self):
+        return VllmInductorPass.hash_source(
+            self,
+            AttentionQuantPattern,
+            AttentionFp8StaticQuantPattern,
+            AttentionNvfp4QuantPattern,
+        )
diff --git a/compilation/fx_utils.py b/compilation/fx_utils.py
new file mode 100644
index 0000000..f249795
--- /dev/null
+++ b/compilation/fx_utils.py
@@ -0,0 +1,91 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import operator
+from collections.abc import Iterable, Iterator
+
+from torch import fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._ops import OpOverload, OpOverloadPacket
+
+
+def is_func(node: fx.Node, target) -> bool:
+    return node.op == "call_function" and node.target == target
+
+
+def is_auto_func(node: fx.Node, op: OpOverload) -> bool:
+    return is_func(node, auto_functionalized) and node.args[0] == op
+
+
+# Returns the first specified node with the given op (if it exists)
+def find_specified_fn_maybe(nodes: Iterable[fx.Node], op: OpOverload) -> fx.Node | None:
+    for node in nodes:
+        if node.target == op:
+            return node
+    return None
+
+
+# Returns the first specified node with the given op
+def find_specified_fn(nodes: Iterable[fx.Node], op: OpOverload) -> fx.Node:
+    node = find_specified_fn_maybe(nodes, op)
+    assert node is not None, f"Could not find {op} in nodes {nodes}"
+    return node
+
+
+# Returns the first auto_functionalized node with the given op (if it exists)
+def find_auto_fn_maybe(nodes: Iterable[fx.Node], op: OpOverload) -> fx.Node | None:
+    for node in nodes:
+        if is_func(node, auto_functionalized) and node.args[0] == op:  # noqa
+            return node
+    return None
+
+
+# Returns the first auto_functionalized node with the given op
+def find_auto_fn(nodes: Iterable[fx.Node], op: OpOverload) -> fx.Node:
+    node = find_auto_fn_maybe(nodes, op)
+    assert node is not None, f"Could not find {op} in nodes {nodes}"
+    return node
+
+
+# Returns the getitem node that extracts the idx-th element from node
+# (if it exists)
+def find_getitem_maybe(node: fx.Node, idx: int) -> fx.Node | None:
+    for user in node.users:
+        if is_func(user, operator.getitem) and user.args[1] == idx:
+            return user
+    return None
+
+
+# Returns the getitem node that extracts the idx-th element from node
+def find_getitem(node: fx.Node, idx: int) -> fx.Node:
+    ret = find_getitem_maybe(node, idx)
+    assert ret is not None, f"Could not find getitem {idx} in node {node}"
+    return ret
+
+
+# An auto-functionalization-aware utility for finding nodes with a specific op
+# Also handles op overload packets and finds all overloads
+def find_op_nodes(
+    op: OpOverload | OpOverloadPacket, graph: fx.Graph
+) -> Iterator[fx.Node]:
+    if isinstance(op, OpOverloadPacket):
+        for overload in op.overloads():
+            overload_op = getattr(op, overload)
+            yield from find_op_nodes(overload_op, graph)
+        return
+
+    assert isinstance(op, OpOverload)
+    if not op._schema.is_mutable:
+        yield from graph.find_nodes(op="call_function", target=op)
+
+    for n in graph.find_nodes(op="call_function", target=auto_functionalized):
+        if n.args[0] == op:
+            yield n
+
+
+# Asserts that the node only has one user and returns it
+# Even if a node has only 1 user, it might share storage with another node,
+# which might need to be taken into account.
+def get_only_user(node: fx.Node) -> fx.Node:
+    assert len(node.users) == 1
+    return next(iter(node.users))
diff --git a/compilation/inductor_pass.py b/compilation/inductor_pass.py
new file mode 100644
index 0000000..9af635a
--- /dev/null
+++ b/compilation/inductor_pass.py
@@ -0,0 +1,133 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+import hashlib
+import inspect
+import json
+import types
+from collections.abc import Callable
+from contextlib import contextmanager
+from typing import Any
+
+import torch
+from torch import fx
+from torch._subclasses.fake_tensor import FakeTensorMode, unset_fake_temporarily
+
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+if is_torch_equal_or_newer("2.6"):
+    from torch._inductor.custom_graph_pass import CustomGraphPass
+else:
+    # CustomGraphPass is not present in 2.5 or lower, import our version
+    from .torch25_custom_graph_pass import (
+        Torch25CustomGraphPass as CustomGraphPass,
+    )
+
+_pass_context = None
+
+
+class PassContext:
+    def __init__(self, runtime_shape: int | None):
+        self.runtime_shape = runtime_shape
+
+
+def get_pass_context() -> PassContext:
+    """Get the current pass context."""
+    assert _pass_context is not None
+    return _pass_context
+
+
+@contextmanager
+def pass_context(runtime_shape: int | None):
+    """A context manager that stores the current pass context,
+    usually it is a list of sizes to specialize.
+    """
+    global _pass_context
+    prev_context = _pass_context
+    _pass_context = PassContext(runtime_shape)
+    try:
+        yield
+    finally:
+        _pass_context = prev_context
+
+
+class InductorPass(CustomGraphPass):
+    """
+    A custom graph pass that uses a hash of its source as the UUID.
+    This is defined as a convenience and should work in most cases.
+    """
+
+    def uuid(self) -> Any:
+        """
+        Provide a unique identifier for the pass, used in Inductor code cache.
+        This should depend on the pass implementation, so that changes to the
+        pass result in recompilation.
+        By default, the object source is hashed.
+        """
+        return InductorPass.hash_source(self)
+
+    @staticmethod
+    def hash_source(*srcs: str | Any):
+        """
+        Utility method to hash the sources of functions or objects.
+        :param srcs: strings or objects to add to the hash.
+        Objects and functions have their source inspected.
+        :return:
+        """
+        hasher = hashlib.sha256()
+        for src in srcs:
+            if isinstance(src, str):
+                src_str = src
+            elif isinstance(src, (types.FunctionType, type)):
+                src_str = inspect.getsource(src)
+            else:
+                # object instance
+                src_str = inspect.getsource(src.__class__)
+            hasher.update(src_str.encode("utf-8"))
+        return hasher.hexdigest()
+
+    @staticmethod
+    def hash_dict(dict_: dict[Any, Any]):
+        """
+        Utility method to hash a dictionary, can alternatively be used for uuid.
+        :return: A sha256 hash of the json rep of the dictionary.
+        """
+        encoded = json.dumps(dict_, sort_keys=True).encode("utf-8")
+        return hashlib.sha256(encoded).hexdigest()
+
+    def is_applicable(self, shape: int | None):
+        return True
+
+
+class CallableInductorPass(InductorPass):
+    """
+    This class is a wrapper for a callable that automatically provides an
+    implementation of the UUID.
+    """
+
+    def __init__(self, callable: Callable[[fx.Graph], None], uuid: Any | None = None):
+        self.callable = callable
+        self._uuid = self.hash_source(callable) if uuid is None else uuid
+
+    def __call__(self, graph: torch.fx.Graph):
+        self.callable(graph)
+
+    def uuid(self) -> Any:
+        return self._uuid
+
+
+def enable_fake_mode(fn: Callable[..., Any]) -> Callable[..., Any]:
+    """
+    Applies a FakeTensorMode context. This is useful when you don't want to
+    create or run things with real tensors.
+    """
+
+    @functools.wraps(fn)
+    def fn_new(*args, **kwargs) -> Any:
+        with torch._guards.tracing(None), unset_fake_temporarily(), FakeTensorMode():
+            result = fn(*args, **kwargs)
+
+        return result
+
+    return fn_new
diff --git a/compilation/matcher_utils.py b/compilation/matcher_utils.py
new file mode 100644
index 0000000..38eb4e5
--- /dev/null
+++ b/compilation/matcher_utils.py
@@ -0,0 +1,317 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+
+import torch
+from torch._higher_order_ops import auto_functionalized
+from torch._ops import OpOverload
+
+from vllm.config import get_current_vllm_config
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    _normalize_quant_group_shape,
+    kFp8DynamicTensorSym,
+    kFp8DynamicTokenSym,
+    kFp8StaticTensorSym,
+    kNvfp4Quant,
+)
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+from vllm.platforms import current_platform
+
+RMS_OP = torch.ops._C.rms_norm.default
+RMS_ADD_OP = torch.ops._C.fused_add_rms_norm.default
+ROTARY_OP = torch.ops._C.rotary_embedding.default
+FLASHINFER_ROTARY_OP = torch.ops.vllm.flashinfer_rotary_embedding.default
+
+QUANT_OPS: dict[QuantKey, OpOverload] = {
+    kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa: E501
+    kFp8DynamicTensorSym: torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa: E501
+    kFp8DynamicTokenSym: torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa: E501
+}
+
+if current_platform.is_cuda() and hasattr(torch.ops._C, "scaled_fp4_quant"):
+    QUANT_OPS[kNvfp4Quant] = torch.ops._C.scaled_fp4_quant.default  # noqa: E501
+
+SILU_MUL_OP = torch.ops._C.silu_and_mul.default
+
+
+class MatcherCustomOp(ABC):
+    def __init__(self, enabled: bool):
+        config = get_current_vllm_config()
+        self.model_dtype = config.model_config.dtype if config.model_config else None
+        self.device = config.device_config.device if config.device_config else None
+
+        self.enabled = enabled
+        self.forward = self.forward_custom if enabled else self.forward_native
+
+    @abstractmethod
+    def forward_custom(self, *args, **kws):
+        pass
+
+    @abstractmethod
+    def forward_native(self, *args, **kws):
+        pass
+
+    def __call__(self, *args, **kws):
+        return self.forward(*args, **kws)
+
+    def empty(self, *args, **kws):
+        return torch.empty(*args, dtype=self.model_dtype, device=self.device, **kws)
+
+    def empty_int64(self, *args, **kws):
+        return torch.empty(*args, dtype=torch.int64, device=self.device, **kws)
+
+    def empty_f32(self, *args, **kws):
+        return torch.empty(*args, dtype=torch.float32, device=self.device, **kws)
+
+    def inputs(self) -> list[torch.Tensor]:
+        """Utility for inputs to the pattern"""
+        raise NotImplementedError
+
+
+class MatcherRotaryEmbedding(MatcherCustomOp):
+    def __init__(
+        self,
+        is_neox: bool,
+        head_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        use_flashinfer: bool = False,
+        enabled: bool | None = None,
+    ) -> None:
+        if enabled is None:
+            enabled = RotaryEmbedding.enabled()
+
+        super().__init__(enabled)
+        self.is_neox = is_neox
+        self.head_size = head_size
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.q_size = self.num_heads * self.head_size
+        self.kv_size = self.num_kv_heads * self.head_size
+        self.rotary_dim = head_size
+        if use_flashinfer:
+            self.rotary_op = FLASHINFER_ROTARY_OP
+        else:
+            self.rotary_op = ROTARY_OP
+
+    def inputs(self) -> list[torch.Tensor]:
+        positions = self.empty_int64(5)
+        query = self.empty(5, self.q_size)
+        key = self.empty(5, self.kv_size)
+        cos_sin_cache = self.empty(4096, self.rotary_dim)
+        return [positions, query, key, cos_sin_cache]
+
+    def forward_custom(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        cos_sin_cache: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        result = auto_functionalized(
+            self.rotary_op,
+            positions=positions,
+            query=query,
+            key=key,
+            head_size=self.head_size,
+            cos_sin_cache=cos_sin_cache,
+            is_neox=self.is_neox,
+        )
+        query_out = result[1]
+        key_out = result[2] if len(result) > 2 else None
+        return query_out, key_out
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        cos_sin_cache: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return RotaryEmbedding.forward_static(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.rotary_dim,
+            cos_sin_cache,
+            self.is_neox,
+        )
+
+
+class MatcherRMSNorm(MatcherCustomOp):
+    def __init__(self, epsilon: float, enabled: bool | None = None):
+        if enabled is None:
+            enabled = RMSNorm.enabled()
+
+        super().__init__(enabled)
+        self.epsilon = epsilon
+
+    def inputs(self):
+        input = self.empty(5, 16) if self.enabled else self.empty_f32(5, 16)
+        weight = self.empty(16)
+        return [input, weight]
+
+    def forward_custom(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+    ) -> torch.Tensor:
+        result = torch.empty_like(input)
+        # TODO: support non-contiguous input for RMSNorm and remove this
+        input_contiguous = input.contiguous()
+        _, result = auto_functionalized(
+            RMS_OP,
+            result=result,
+            input=input_contiguous,
+            weight=weight,
+            epsilon=self.epsilon,
+        )
+
+        return result
+
+    def forward_native(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+    ) -> torch.Tensor:
+        return RMSNorm.forward_static(
+            input, self.epsilon, input.size(-1), self.model_dtype, weight
+        )
+
+
+class MatcherFusedAddRMSNorm(MatcherCustomOp):
+    def __init__(self, epsilon: float, enabled: bool | None = None):
+        if enabled is None:
+            enabled = RMSNorm.enabled()
+
+        super().__init__(enabled)
+        self.epsilon = epsilon
+
+    def inputs(self):
+        input = self.empty(5, 16) if self.enabled else self.empty_f32(5, 16)
+        weight = self.empty(16)
+        residual = self.empty(5, 16)
+        return [input, weight, residual]
+
+    def forward_custom(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        residual: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        _, result, residual = auto_functionalized(
+            RMS_ADD_OP,
+            input=input,
+            residual=residual,
+            weight=weight,
+            epsilon=self.epsilon,
+        )
+
+        return result, residual
+
+    def forward_native(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        residual: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return RMSNorm.forward_static(
+            input, self.epsilon, input.size(-1), self.model_dtype, weight, residual
+        )
+
+
+class MatcherQuantFP8(MatcherCustomOp):
+    def __init__(self, quant_key: QuantKey, enabled: bool | None = None):
+        if enabled is None:
+            enabled = QuantFP8.enabled()
+
+        super().__init__(enabled)
+        self.quant_key = quant_key
+        assert quant_key in QUANT_OPS, f"unsupported quantization scheme {quant_key}"
+        self.QUANT_OP = QUANT_OPS[quant_key]
+
+        assert quant_key.dtype == current_platform.fp8_dtype(), (
+            "Only QuantFP8 supported by"
+        )
+        assert quant_key.scale2 is None
+        self.quant_fp8 = QuantFP8(quant_key.scale.static, quant_key.scale.group_shape)
+
+    def forward_custom(
+        self,
+        input: torch.Tensor,
+        scale: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        result = torch.empty(
+            input.shape, device=input.device, dtype=self.quant_key.dtype
+        )
+
+        if self.quant_key.scale.static:
+            assert scale is not None
+            _, result = auto_functionalized(
+                self.QUANT_OP, result=result, input=input, scale=scale
+            )
+            return result, scale
+        else:
+            assert scale is None
+            scale = self.make_scale(input)
+            _, result, scale = auto_functionalized(
+                self.QUANT_OP, result=result, input=input, scale=scale, scale_ub=None
+            )
+            return result, scale
+
+    def forward_native(
+        self,
+        input: torch.Tensor,
+        scale: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return self.quant_fp8(input, scale)
+
+    def make_scale(self, input: torch.Tensor):
+        normalized_group_shape = _normalize_quant_group_shape(
+            input, self.quant_key.scale.group_shape
+        )
+        scale_shape = (
+            input.shape[0] // normalized_group_shape[0],
+            input.shape[1] // normalized_group_shape[1],
+        )
+
+        return torch.empty(scale_shape, device=input.device, dtype=torch.float32)
+
+    def inputs(self) -> list[torch.Tensor]:
+        input = self.empty(5, 16)
+        if self.quant_key.scale.static:
+            return [input, self.empty_f32(1, 1)]
+
+        return [input]
+
+
+class MatcherSiluAndMul(MatcherCustomOp):
+    def __init__(self, enabled: bool | None = None):
+        if enabled is None:
+            enabled = SiluAndMul.enabled()
+        super().__init__(enabled)
+
+    def inputs(self) -> list[torch.Tensor]:
+        input = self.empty(5, 4)
+        return [input]
+
+    def forward_custom(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        result = auto_functionalized(SILU_MUL_OP, result=out, input=x)
+        return result[1]
+
+    def forward_native(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        return SiluAndMul.forward_native(x)
diff --git a/compilation/monitor.py b/compilation/monitor.py
new file mode 100644
index 0000000..660fb98
--- /dev/null
+++ b/compilation/monitor.py
@@ -0,0 +1,62 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+
+from vllm.config import CompilationConfig, CompilationMode, VllmConfig
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+context_manager = None
+torch_compile_start_time: float = 0.0
+
+
+def start_monitoring_torch_compile(vllm_config: VllmConfig):
+    global torch_compile_start_time
+    torch_compile_start_time = time.time()
+
+    compilation_config: CompilationConfig = vllm_config.compilation_config
+    path = vllm_config.compile_debug_dump_path()
+    if compilation_config.mode == CompilationMode.VLLM_COMPILE and path:
+        import depyf
+
+        path.mkdir(parents=True, exist_ok=True)
+        logger.debug("Dumping depyf output to %s", path)
+        global context_manager
+        context_manager = depyf.prepare_debug(path.as_posix())
+        context_manager.__enter__()
+
+
+def end_monitoring_torch_compile(vllm_config: VllmConfig):
+    compilation_config: CompilationConfig = vllm_config.compilation_config
+    if compilation_config.mode == CompilationMode.VLLM_COMPILE:
+        logger.info_once(
+            "torch.compile takes %.2f s in total",
+            compilation_config.compilation_time,
+            scope="local",
+        )
+        global context_manager
+        if context_manager is not None:
+            context_manager.__exit__(None, None, None)
+            context_manager = None
+
+
+cudagraph_capturing_enabled: bool = True
+
+
+def validate_cudagraph_capturing_enabled():
+    # used to monitor whether a cudagraph capturing is legal at runtime.
+    # should be called before any cudagraph capturing.
+    # if an illegal cudagraph capturing happens, raise an error.
+    global cudagraph_capturing_enabled
+    if not cudagraph_capturing_enabled:
+        raise RuntimeError(
+            "CUDA graph capturing detected at an inappropriate "
+            "time. This operation is currently disabled."
+        )
+
+
+def set_cudagraph_capturing_enabled(enabled: bool):
+    global cudagraph_capturing_enabled
+    cudagraph_capturing_enabled = enabled
diff --git a/compilation/noop_elimination.py b/compilation/noop_elimination.py
new file mode 100644
index 0000000..42b8d3d
--- /dev/null
+++ b/compilation/noop_elimination.py
@@ -0,0 +1,134 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch.fx
+from torch import SymInt
+
+from vllm.logger import init_logger
+
+from .fx_utils import is_func
+from .vllm_inductor_pass import VllmInductorPass
+
+logger = init_logger(__name__)
+
+
+class NoOpEliminationPass(VllmInductorPass):
+    """
+    This is an inductor pass that removes redundant reshape/slice operations.
+    It is required for RMSNorm-quant fusion to work properly.
+    That's because apply_fp8_linear adds a reshape, which is redundant
+    in the 2D-case. Additionally, torch internal no-op elimination pass does
+    not handle certain slice variants.
+
+    Cases handled:
+      1. A chain of reshapes is equivalent to the last reshape called on the
+      base tensor (input of the first reshape).
+      2. A reshape that produces the shape of the input is redundant
+      3. A slice that produces the shape of the input is redundant
+
+    Example graph 1:
+    mul_1: "f16[s0, 4096]" = ...
+    view_1: "f16[s0, 128, 32]" = torch.reshape(mul_1, [-1, 128, 32])
+    view_2: "f16[s0, 4096]" = torch.reshape(view_2, [-1, 4096])
+    view_3: "f16[s0, 128, 32]" = torch.reshape(view_3, [-1, 128, 32])
+
+    Can be replaced with:
+    mul_1: "f16[s0, 4096]" = ...
+    view_3: "f16[s0, 128, 32]" = ...
+
+    Example graph 2:
+    getitem_1: "f16[s0, 4096]" = ...
+    view_1: "f16[s0, 4096]" = torch.reshape(getitem_1, [-1, 4096])
+    at = auto_functionalized(static_scaled_fp8_quant, input = view_1, ...)
+    out: "f8e4m3fn[s0, 4096]" = at[1]
+
+    Can be replaced with:
+    getitem_1: "f16[s0, 4096]" = ...
+    at = auto_functionalized(static_scaled_fp8_quant, input = getitem_1, ...)
+    out: "f8e4m3fn[s0, 4096]" = at[1]
+
+    Example graph 3:
+    arg0: "s0" = SymInt(s0)
+    scaled_mm: "f16[s0, 4096]" = ...
+    slice_1: "f16[s0, 4096]" = torch.slice(scaled_mm, -1, 0, arg0)
+    at = auto_functionalized(fused_add_rms_norm, input = slice_1, ...)
+    out: "f16[s0, 4096]" = torch.slice_scatter(scaled_mm, at[1], 0, 0, arg0)
+
+    Can be replaced with:
+    arg0: "s0" = SymInt(s0)
+    scaled_mm: "f16[s0, 4096]" = ...
+    at = auto_functionalized(fused_add_rms_norm, input = scaled_mm, ...)
+    out: "f16[s0, 4096]" = at[1]
+    """
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: torch.fx.Graph):
+        count = 0
+        # Remove no-op reshapes/views:
+        for node in graph.nodes:
+            if is_func(node, torch.ops.aten.reshape.default):
+                # Case 1: rewrite reshape chains to reshapes on the base tensor
+                input = node.args[0]
+                # If the input is a reshape, rebind to that node
+                if is_func(input, torch.ops.aten.reshape.default):
+                    # The new input is guaranteed not to be a reshape,
+                    # because we process nodes in order
+                    node.update_arg(0, input.args[0])
+                    if len(input.users) == 0:
+                        graph.erase_node(input)
+                        count += 1
+
+            # remove reshape/slice if it produces the original shape
+            if is_func(node, torch.ops.aten.reshape.default) or is_func(
+                node, torch.ops.aten.slice.Tensor
+            ):
+                input = node.args[0]
+                input_shape = input.meta["val"].shape
+                output_shape = node.meta["val"].shape
+                if self.all_dims_equivalent(input_shape, output_shape):
+                    node.replace_all_uses_with(input)
+                    graph.erase_node(node)
+                    count += 1
+            elif is_func(node, torch.ops.aten.slice_scatter.default):
+                base, view, dim_index, start, end = node.args[:5]
+                base_shape = base.meta["val"].shape
+                view_shape = view.meta["val"].shape
+
+                if self.all_dims_equivalent(base_shape, view_shape):
+                    node.replace_all_uses_with(view)
+                    graph.erase_node(node)
+                    count += 1
+
+        logger.debug("Removed %s no-op reshapes and slices", count)
+
+    # ---------------------- Shape comparison helpers ----------------------
+    def dims_equivalent(self, dim: int | SymInt, i_dim: int | SymInt) -> bool:
+        """
+        This function checks if two dimensions are equivalent.
+        :param dim: The dimension arg to reshape/slice
+        :param i_dim: The corresponding dimension in the input tensor
+        :return: Are the dimensions equivalent?
+
+        There are two cases in which the dimensions are equivalent:
+        1. The dimensions are equal (both integers)
+        2. The dimensions both correspond to the same SymInt
+        """
+        # Case 1
+        if isinstance(i_dim, int) and isinstance(dim, int):
+            return dim == i_dim
+        # Case 2
+        if isinstance(i_dim, SymInt) and isinstance(dim, SymInt):
+            return dim == i_dim
+        return False
+
+    def all_dims_equivalent(
+        self, dims: Iterable[int | SymInt], i_dims: Iterable[int | SymInt]
+    ) -> bool:
+        dims_ = list(dims)
+        i_dims_ = list(i_dims)
+        if len(dims_) != len(i_dims_):
+            # Different ranks can't be equivalent
+            return False
+        return all(self.dims_equivalent(s, i_s) for s, i_s in zip(dims, i_dims))
diff --git a/compilation/partition_rules.py b/compilation/partition_rules.py
new file mode 100644
index 0000000..08bd27e
--- /dev/null
+++ b/compilation/partition_rules.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def should_split(node: torch.fx.Node, splitting_ops: list[str]) -> bool:
+    """
+    Check if a node should be split for dynamo graph partition.
+    It operates on dynamo graph, so the node.target can be anything.
+    We need to check and split only on OpOverload and OpOverloadPacket.
+    """
+
+    if node.op != "call_function":
+        return False
+
+    target = node.target
+
+    if isinstance(target, torch._ops.OpOverloadPacket):
+        # Example: "aten::add"
+        return target._qualified_op_name in splitting_ops
+
+    if isinstance(target, torch._ops.OpOverload):
+        # Example: "aten::add"
+        packet_name = target.name()
+
+        # Example: "aten::add.default"
+        op_overload_name = f"{packet_name}.{target._overloadname}"
+        return op_overload_name in splitting_ops or packet_name in splitting_ops
+
+    return False
+
+
+@contextlib.contextmanager
+def inductor_partition_rule_context(splitting_ops: list[str]):
+    """Context manager to temporarily register Inductor partition rules.
+
+    Registers custom partition rules for specified operators, forcing the
+    Inductor scheduler to partition the graph at these operators. The rules
+    are automatically restored to their previous state on exit.
+
+    Args:
+        splitting_ops: List of operator names to partition on.
+    """
+    if not splitting_ops:
+        logger.debug("No partition ops provided; skipping rule registration.")
+        yield
+        return
+
+    # Save current state before registering
+
+    saved_splitting_ops: list[str] = list(
+        torch._inductor.config.custom_should_partition_ops
+    )
+    torch._inductor.config.custom_should_partition_ops = splitting_ops
+
+    logger.debug(
+        "Registered inductor partition rules for %d operators", len(splitting_ops)
+    )
+
+    try:
+        yield
+    finally:
+        # Clear and restore previous state
+        torch._inductor.config.custom_should_partition_ops = saved_splitting_ops
+        logger.debug("Restored previous partition rules state.")
diff --git a/compilation/pass_manager.py b/compilation/pass_manager.py
new file mode 100644
index 0000000..0e8bb2f
--- /dev/null
+++ b/compilation/pass_manager.py
@@ -0,0 +1,135 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+
+from torch import fx as fx
+
+from vllm import envs
+from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.system_utils import set_env_var
+
+from .post_cleanup import PostCleanupPass
+from .vllm_inductor_pass import VllmInductorPass
+
+if current_platform.is_cuda_alike():
+    from .activation_quant_fusion import ActivationQuantFusionPass
+    from .fusion import RMSNormQuantFusionPass
+    from .fusion_attn import AttnFusionPass
+    from .qk_norm_rope_fusion import QKNormRoPEFusionPass
+    from .sequence_parallelism import SequenceParallelismPass
+
+if current_platform.is_cuda():
+    from .collective_fusion import AllReduceFusionPass, AsyncTPPass
+
+from .fix_functionalization import FixFunctionalizationPass
+from .inductor_pass import CustomGraphPass, InductorPass, get_pass_context
+from .noop_elimination import NoOpEliminationPass
+
+logger = init_logger(__name__)
+
+
+def with_pattern_match_debug(fn):
+    """
+    Function decorator that turns on inductor pattern match debug
+    for the duration of the call.
+    Used to avoid logging builtin Inductor pattern matching.
+    """
+
+    @functools.wraps(fn)
+    def wrapper(*args, **kwargs):
+        if (debug_val := envs.VLLM_PATTERN_MATCH_DEBUG) is not None:
+            # optionally check rank here
+            with set_env_var("TORCHINDUCTOR_PATTERN_MATCH_DEBUG", debug_val):
+                return fn(*args, **kwargs)
+        return fn(*args, **kwargs)
+
+    return wrapper
+
+
+class PostGradPassManager(CustomGraphPass):
+    """
+    The pass manager for post-grad passes.
+    It handles configuration, adding custom passes, and running passes.
+    It supports uuid for the Inductor code cache. That includes torch<2.6
+    support using pickling (in .inductor_pass.CustomGraphPass).
+
+    The order of the post-grad post-passes is:
+    1. passes (constructor parameter)
+    2. default passes (NoopEliminationPass, FusionPass)
+    3. config["post_grad_custom_post_pass"] (if it exists)
+    4. fix_functionalization
+    This way, all passes operate on a functionalized graph.
+    """
+
+    def __init__(self):
+        self.passes: list[InductorPass] = []
+
+    @with_pattern_match_debug
+    def __call__(self, graph: fx.Graph):
+        VllmInductorPass.dump_prefix = 0  # reset dump index
+
+        shape = get_pass_context().runtime_shape
+        for pass_ in self.passes:
+            if pass_.is_applicable(shape):
+                pass_(graph)
+                VllmInductorPass.dump_prefix += 1
+            else:
+                logger.debug("Skipping %s with shape %s", pass_, shape)
+
+        # post-cleanup goes before fix_functionalization
+        # because it requires a functional graph
+        self.post_cleanup(graph)
+        VllmInductorPass.dump_prefix += 1
+
+        # always run fix_functionalization last
+        self.fix_functionalization(graph)
+        VllmInductorPass.dump_prefix = None  # Cleanup index
+
+    def configure(self, config: VllmConfig):
+        self.pass_config = config.compilation_config.pass_config
+
+        # Set the current vllm config to allow tracing CustomOp instances
+        with set_current_vllm_config(config, check_compile=False):
+            if self.pass_config.enable_noop:
+                self.passes += [NoOpEliminationPass(config)]
+
+            if self.pass_config.enable_sequence_parallelism:
+                self.passes += [SequenceParallelismPass(config)]
+                if self.pass_config.enable_async_tp:
+                    self.passes += [AsyncTPPass(config)]
+
+            if self.pass_config.enable_fi_allreduce_fusion:
+                self.passes += [AllReduceFusionPass(config)]
+
+            if self.pass_config.enable_fusion:
+                self.passes += [RMSNormQuantFusionPass(config)]
+                self.passes += [ActivationQuantFusionPass(config)]
+
+            if self.pass_config.enable_attn_fusion:
+                self.passes += [AttnFusionPass(config)]
+
+            if self.pass_config.enable_qk_norm_rope_fusion:
+                self.passes += [QKNormRoPEFusionPass(config)]
+
+            # needs a functional graph
+            self.post_cleanup = PostCleanupPass(config)
+            self.fix_functionalization = FixFunctionalizationPass(config)
+
+    def add(self, pass_: InductorPass):
+        assert isinstance(pass_, InductorPass)
+        self.passes.append(pass_)
+
+    def uuid(self):
+        """
+        The PostGradPassManager is set as a custom pass in the Inductor and
+        affects compilation caching. Its uuid depends on the UUIDs of all
+        dependent passes and the pass config. See InductorPass for more info.
+        """
+        state = {"pass_config": self.pass_config.uuid(), "passes": []}
+        for pass_ in self.passes:
+            state["passes"].append(pass_.uuid())
+        state["passes"].append(self.fix_functionalization.uuid())
+
+        return InductorPass.hash_dict(state)
diff --git a/compilation/piecewise_backend.py b/compilation/piecewise_backend.py
new file mode 100644
index 0000000..2931580
--- /dev/null
+++ b/compilation/piecewise_backend.py
@@ -0,0 +1,121 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import dataclasses
+from collections.abc import Callable
+from typing import Any
+
+import torch.fx as fx
+
+import vllm.envs as envs
+from vllm.compilation.backends import VllmBackend
+from vllm.compilation.monitor import end_monitoring_torch_compile
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@dataclasses.dataclass
+class ConcreteSizeEntry:
+    runtime_shape: int
+    compiled: bool = False
+    runnable: Callable = None  # type: ignore
+
+
+class PiecewiseBackend:
+    def __init__(
+        self,
+        graph: fx.GraphModule,
+        vllm_config: VllmConfig,
+        piecewise_compile_index: int,
+        total_piecewise_compiles: int,
+        sym_shape_indices: list[int],
+        compiled_graph_for_general_shape: Callable,
+        vllm_backend: VllmBackend,
+    ):
+        """
+        The backend for piecewise compilation.
+        It mainly handles the compilation of static shapes and
+        dispatching based on runtime shape.
+
+        We will compile `self.graph` once for the general shape,
+        and then compile for different shapes specified in
+        `compilation_config.compile_sizes`.
+        """
+        self.graph = graph
+        self.vllm_config = vllm_config
+        self.compilation_config = vllm_config.compilation_config
+        self.piecewise_compile_index = piecewise_compile_index
+        self.total_piecewise_compiles = total_piecewise_compiles
+        self.vllm_backend = vllm_backend
+
+        self.is_first_graph = piecewise_compile_index == 0
+        self.is_last_graph = piecewise_compile_index == total_piecewise_compiles - 1
+
+        self.is_full_graph = total_piecewise_compiles == 1
+
+        self.compile_sizes: set[int] = set(self.compilation_config.compile_sizes)
+
+        self.first_run_finished = False
+
+        self.compiled_graph_for_general_shape = compiled_graph_for_general_shape  # noqa
+
+        self.sym_shape_indices = sym_shape_indices
+
+        self.is_debugging_mode = envs.VLLM_LOGGING_LEVEL == "DEBUG"
+
+        # the entries for different shapes that we need to compile
+        self.concrete_size_entries: dict[int, ConcreteSizeEntry] = {}
+
+        # to_be_compiled_sizes tracks the remaining sizes to compile,
+        # and updates during the compilation process, so we need to copy it
+        self.to_be_compiled_sizes: set[int] = self.compile_sizes.copy()
+
+        # We only keep compilation management inside this class directly.
+        for shape in self.compile_sizes:
+            self.concrete_size_entries[shape] = ConcreteSizeEntry(
+                runtime_shape=shape,
+                runnable=self.compiled_graph_for_general_shape,
+            )
+
+    def check_for_ending_compilation(self):
+        if self.is_last_graph and not self.to_be_compiled_sizes:
+            # no specific sizes to compile
+            # save the hash of the inductor graph for the next run
+            self.vllm_backend.compiler_manager.save_to_file()
+            end_monitoring_torch_compile(self.vllm_config)
+
+    def __call__(self, *args) -> Any:
+        if not self.first_run_finished:
+            self.first_run_finished = True
+            self.check_for_ending_compilation()
+            return self.compiled_graph_for_general_shape(*args)
+
+        runtime_shape = args[self.sym_shape_indices[0]]
+
+        if runtime_shape not in self.concrete_size_entries:
+            # we don't need to do anything for this shape
+            return self.compiled_graph_for_general_shape(*args)
+
+        entry = self.concrete_size_entries[runtime_shape]
+
+        if not entry.compiled:
+            entry.compiled = True
+            self.to_be_compiled_sizes.remove(runtime_shape)
+            # args are real arguments
+            entry.runnable = self.vllm_backend.compiler_manager.compile(
+                self.graph,
+                args,
+                self.compilation_config.inductor_compile_config,
+                self.compilation_config,
+                graph_index=self.piecewise_compile_index,
+                num_graphs=self.total_piecewise_compiles,
+                runtime_shape=runtime_shape,
+            )
+
+            # finished compilations for all required shapes
+            if self.is_last_graph and not self.to_be_compiled_sizes:
+                self.check_for_ending_compilation()
+
+        return entry.runnable(*args)
diff --git a/compilation/post_cleanup.py b/compilation/post_cleanup.py
new file mode 100644
index 0000000..5511751
--- /dev/null
+++ b/compilation/post_cleanup.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from torch import fx
+
+from vllm.compilation.vllm_inductor_pass import VllmInductorPass
+
+
+class PostCleanupPass(VllmInductorPass):
+    """
+    This pass performs cleanup after custom passes.
+    It topologically sorts the graph and removes unused nodes.
+    This is needed because the pattern matcher does not guarantee producing
+    a topologically sorted graph, and there may be unused nodes left around.
+    """
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph) -> None:
+        from torch._inductor.pattern_matcher import stable_topological_sort
+
+        stable_topological_sort(graph)
+        graph.eliminate_dead_code()
diff --git a/compilation/qk_norm_rope_fusion.py b/compilation/qk_norm_rope_fusion.py
new file mode 100644
index 0000000..e3c399e
--- /dev/null
+++ b/compilation/qk_norm_rope_fusion.py
@@ -0,0 +1,238 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+import torch._inductor.pattern_matcher as pm
+from torch import fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import PatternMatcherPass
+
+from vllm.attention import Attention
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+
+from .fusion import empty_bf16, empty_fp32, empty_i64
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherRMSNorm, MatcherRotaryEmbedding
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+
+FUSED_QK_ROPE_OP = torch.ops._C.fused_qk_norm_rope.default
+
+
+class QkNormRopePattern:
+    """
+    Match the unfused sequence in attention blocks and replace with the fused op.
+
+    Unfused (conceptually):
+      q, k, v = split(qkv, [qsz, kvsz, kvsz], -1)
+      qh = reshape(q, [-1, num_heads, head_dim])
+      kh = reshape(k, [-1, num_kv_heads, head_dim])
+      qn = rms_norm(qh, q_weight, eps)
+      kn = rms_norm(kh, k_weight, eps)
+      qf = reshape(qn, [-1, num_heads * head_dim])
+      kf = reshape(kn, [-1, num_kv_heads * head_dim])
+      qf, kf = rotary_embedding(positions, qf, kf, head_dim, cos_sin_cache, is_neox)
+      return qf, kf, v
+
+    Fused replacement:
+      fused_qk_norm_rope(qkv, num_heads, num_kv_heads, num_kv_heads, head_dim,
+                         eps, q_weight, k_weight, cos_sin_cache, is_neox,
+                         positions.view(-1))
+      return split(qkv, [qsz, kvsz, kvsz], -1)
+    """
+
+    def __init__(
+        self,
+        head_dim: int,
+        num_heads: int,
+        num_kv_heads: int,
+        eps: float,
+        is_neox: bool,
+        rope_flashinfer: bool = False,
+    ) -> None:
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.eps = eps
+        self.rmsnorm_matcher = MatcherRMSNorm(eps)
+        self.is_neox = is_neox
+        self.rope_flashinfer = rope_flashinfer
+        self.rope_matcher = MatcherRotaryEmbedding(
+            is_neox=is_neox,
+            head_size=self.head_dim,
+            num_heads=self.num_heads,
+            num_kv_heads=self.num_kv_heads,
+            use_flashinfer=self.rope_flashinfer,
+        )
+
+    def get_inputs(self):
+        # Sample inputs to help pattern tracing
+        T = 5
+        qkv = empty_bf16(T, self.q_size + 2 * self.kv_size)
+        positions = empty_i64(T)
+        q_weight = empty_bf16(1, self.head_dim)
+        k_weight = empty_bf16(1, self.head_dim)
+        if self.rope_flashinfer:
+            cos_sin_cache = empty_fp32(4096, self.head_dim)
+        else:
+            cos_sin_cache = empty_bf16(4096, self.head_dim)
+        return [
+            qkv,
+            positions,
+            q_weight,
+            k_weight,
+            cos_sin_cache,
+        ]
+
+    @staticmethod
+    def wrap_trace_fn(trace_fn, *process_fx_fns: Callable[[fx.GraphModule], None]):
+        def wrapped(*args, **kwargs):
+            gm = trace_fn(*args, **kwargs)
+            for process_fx in process_fx_fns:
+                process_fx(gm)
+
+            return gm
+
+        return wrapped
+
+    @staticmethod
+    def fx_view_to_reshape(gm: torch.fx.GraphModule):
+        from torch._inductor.fx_passes.post_grad import view_to_reshape
+
+        view_to_reshape(gm)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            qkv: torch.Tensor,
+            positions: torch.Tensor,
+            q_weight: torch.Tensor,
+            k_weight: torch.Tensor,
+            cos_sin_cache: torch.Tensor,
+        ):
+            # split qkv -> q,k,v
+            q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+            # Q path: view -> RMS -> view back to q.shape
+            q_by_head = q.view(
+                *q.shape[:-1], q.shape[-1] // self.head_dim, self.head_dim
+            )
+            q_normed_by_head = self.rmsnorm_matcher(q_by_head, q_weight)
+            q_flat = q_normed_by_head.view(q.shape)
+
+            # K path: view -> RMS -> view back to k.shape
+            k_by_head = k.view(
+                *k.shape[:-1], k.shape[-1] // self.head_dim, self.head_dim
+            )
+            k_normed_by_head = self.rmsnorm_matcher(k_by_head, k_weight)
+            k_flat = k_normed_by_head.view(k.shape)
+
+            # RoPE: apply to flattened q/k
+            q_rope, k_rope = self.rope_matcher(positions, q_flat, k_flat, cos_sin_cache)
+            return q_rope, k_rope, v
+
+        def replacement(
+            qkv: torch.Tensor,
+            positions: torch.Tensor,
+            q_weight: torch.Tensor,
+            k_weight: torch.Tensor,
+            cos_sin_cache: torch.Tensor,
+        ):
+            # Run fused qk_norm_rope op
+            result = auto_functionalized(
+                FUSED_QK_ROPE_OP,
+                qkv=qkv,
+                num_heads_q=self.num_heads,
+                num_heads_k=self.num_kv_heads,
+                num_heads_v=self.num_kv_heads,
+                head_dim=self.head_dim,
+                eps=self.eps,
+                q_weight=q_weight,
+                k_weight=k_weight,
+                cos_sin_cache=cos_sin_cache,
+                is_neox=self.is_neox,
+                position_ids=positions.view(-1),
+            )
+            result_qkv = result[1]
+
+            # Split back to q,k,v and return
+            return result_qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        # NOTE: use fx_view_to_reshape to unify view/reshape to simplify
+        # pattern and increase matching opportunities
+        pm.register_replacement(
+            pattern,
+            replacement,
+            self.get_inputs(),
+            QkNormRopePattern.wrap_trace_fn(
+                pm.fwd_only,
+                QkNormRopePattern.fx_view_to_reshape,
+            ),
+            pm_pass,
+        )
+
+
+class QKNormRoPEFusionPass(VllmPatternMatcherPass):
+    """Fuse Q/K RMSNorm + RoPE into fused_qk_norm_rope when the custom op exists."""
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="qk_norm_rope_fusion_pass"
+        )
+
+        dtype = config.model_config.dtype
+        if dtype not in (torch.bfloat16, torch.float16):
+            logger.warning_once(
+                "QK Norm+RoPE fusion not enabled: unsupported dtype %s", dtype
+            )
+            return
+
+        # use one attn layer to get meta (such as head_dim) for QkNormRopePattern
+        attn_layers: dict[str, Attention] = get_layers_from_vllm_config(
+            config, Attention
+        )
+        if len(attn_layers) == 0:
+            logger.warning_once(
+                "QK Norm+RoPE fusion enabled, but no Attention layers were discovered."
+            )
+            return
+        layer = next(iter(attn_layers.values()))
+
+        for epsilon in [1e-5, 1e-6]:
+            for neox in [True, False]:
+                if RotaryEmbedding.enabled():
+                    for rope_flashinfer in [False, True]:
+                        QkNormRopePattern(
+                            head_dim=layer.head_size,
+                            num_heads=layer.num_heads,
+                            num_kv_heads=layer.num_kv_heads,
+                            eps=epsilon,
+                            is_neox=neox,
+                            rope_flashinfer=rope_flashinfer,
+                        ).register(self.patterns)
+                else:
+                    QkNormRopePattern(
+                        head_dim=layer.head_size,
+                        num_heads=layer.num_heads,
+                        num_kv_heads=layer.num_kv_heads,
+                        eps=epsilon,
+                        is_neox=neox,
+                    ).register(self.patterns)
+
+        self.dump_patterns(config, self.patterns)
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph) -> None:
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Fused QK Norm+RoPE on %s sites", self.matched_count)
+
+    def uuid(self):
+        return VllmInductorPass.hash_source(self, QkNormRopePattern)
diff --git a/compilation/sequence_parallelism.py b/compilation/sequence_parallelism.py
new file mode 100644
index 0000000..bb4dcf1
--- /dev/null
+++ b/compilation/sequence_parallelism.py
@@ -0,0 +1,363 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+
+import torch
+import torch._inductor.pattern_matcher as pm
+import torch.fx as fx
+from torch._inductor.pattern_matcher import PatternMatcherPass
+
+from vllm.config import VllmConfig
+from vllm.distributed import get_tp_group, tensor_model_parallel_all_reduce
+from vllm.distributed.parallel_state import get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    kFp8StaticTensorSym,
+)
+from vllm.platforms import current_platform
+
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherFusedAddRMSNorm, MatcherQuantFP8, MatcherRMSNorm
+from .noop_elimination import NoOpEliminationPass
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+
+
+def get_first_out_wrapper(fn):
+    @functools.wraps(fn)
+    def wrapper(*args):
+        return fn(*args)[0]
+
+    return wrapper
+
+
+class _SequenceParallelPatternHelper:
+    """Helper for sequence parallelism patterns."""
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+    ):
+        self.epsilon = epsilon
+        self.dtype = dtype
+        self.device = device
+        self.tp_group = get_tp_group()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+    def _all_reduce(self, x: torch.Tensor) -> torch.Tensor:
+        return tensor_model_parallel_all_reduce(x)
+
+    def _reduce_scatter(self, x: torch.Tensor) -> torch.Tensor:
+        return torch.ops.vllm.reduce_scatter.default(
+            x, dim=0, world_size=self.tp_size, group_name=self.tp_group.unique_name
+        )
+
+    def _all_gather(self, x: torch.Tensor) -> torch.Tensor:
+        return torch.ops.vllm.all_gather.default(
+            x, dim=0, world_size=self.tp_size, group_name=self.tp_group.unique_name
+        )
+
+
+class FirstAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+
+    def get_inputs(self):
+        input = torch.empty([1, 8, 4], device=self.device, dtype=self.dtype)
+        arg3_1 = torch.empty([4], device=self.device, dtype=self.dtype)
+
+        return [input, arg3_1]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            arg3_1: torch.Tensor,
+        ):
+            all_reduce = self._all_reduce(input)
+            rmsnorm = self.rmsnorm_matcher(all_reduce, arg3_1)
+
+            return rmsnorm, all_reduce
+
+        def replacement(
+            input: torch.Tensor,
+            arg3_1: torch.Tensor,
+        ):
+            reduce_scatter = self._reduce_scatter(input)
+
+            rmsnorm = self.rmsnorm_matcher(reduce_scatter, arg3_1)
+            all_gather = self._all_gather(rmsnorm)
+            return all_gather, reduce_scatter
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class MiddleAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+
+    def get_inputs(self):
+        mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+
+        residual = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        rms_norm_weights = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+
+        return [
+            residual,
+            mm_1,
+            rms_norm_weights,
+        ]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            residual: torch.Tensor,
+            mm_1: torch.Tensor,
+            rms_norm_weights: torch.Tensor,
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            all_reduce = self._all_reduce(mm_1)
+            rmsnorm = self.rmsnorm_matcher(all_reduce, rms_norm_weights, residual)
+            return rmsnorm[0], rmsnorm[1]
+
+        def replacement(
+            residual: torch.Tensor,
+            mm_1: torch.Tensor,
+            rms_norm_weights: torch.Tensor,
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            # pattern matcher replaces from top-to-bottom,
+            # so residual is still the full size here.
+            # once the seqpar pattern with the previous rmsnorm is replaced
+            reduce_scatter = self._reduce_scatter(mm_1)
+            residual = residual[0 : reduce_scatter.size(0), ...]
+            rmsnorm = self.rmsnorm_matcher(reduce_scatter, rms_norm_weights, residual)
+            all_gather = self._all_gather(rmsnorm[0])
+            # shape of residual changes but that's fine,
+            # next node is already slicing it, now becomes a noop
+            return all_gather, rmsnorm[1]
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+        pm.register_replacement(
+            get_first_out_wrapper(pattern),
+            get_first_out_wrapper(replacement),
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+FP8_DTYPE = current_platform.fp8_dtype()
+
+
+class FirstAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
+    ):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
+
+    def get_inputs(self):
+        input = torch.zeros([1, 8, 4], device=self.device, dtype=self.dtype)
+        weight = torch.empty([4], device=self.device, dtype=self.dtype)
+        scale = torch.tensor(1.0, device=self.device, dtype=torch.float32)
+        return [input, weight, scale]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            all_reduce = self._all_reduce(input)
+            rms = self.rmsnorm_matcher(all_reduce, weight)
+            quant, _ = self.quant_matcher(rms, scale)
+            return quant, all_reduce
+
+        def replacement(
+            input: torch.Tensor,
+            weight: torch.Tensor,
+            scale: torch.Tensor,
+        ):
+            reduce_scatter = self._reduce_scatter(input)
+            rms = self.rmsnorm_matcher(reduce_scatter, weight)
+            quant, _ = self.quant_matcher(rms, scale)
+            all_gather = self._all_gather(quant)
+
+            return all_gather, reduce_scatter
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+
+class MiddleAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
+
+    def get_inputs(self):
+        mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        residual = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        rms_norm_weights = torch.empty([4, 4], device=self.device, dtype=self.dtype)
+        scale = torch.empty([1, 1], device=self.device, dtype=torch.float32)
+
+        return [residual, mm_1, rms_norm_weights, scale]
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            residual: torch.Tensor,
+            mm_1: torch.Tensor,
+            rms_norm_weights: torch.Tensor,
+            scale: torch.Tensor,
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            all_reduce = self._all_reduce(mm_1)
+            rms, residual_out = self.rmsnorm_matcher(
+                all_reduce, rms_norm_weights, residual
+            )
+            quant, _ = self.quant_matcher(rms, scale)
+            return quant, residual_out
+
+        def replacement(
+            residual: torch.Tensor,
+            mm_1: torch.Tensor,
+            rms_norm_weights: torch.Tensor,
+            scale: torch.Tensor,
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            # pattern matcher replaces from top-to-bottom,
+            # so residual is still the full size here.
+            # add a temporary slice which will become a noop
+            # once the seqpar pattern with the previous rmsnorm is replaced
+            reduce_scatter = self._reduce_scatter(mm_1)
+            residual = residual[0 : reduce_scatter.size(0), ...]
+            rms, residual_out = self.rmsnorm_matcher(
+                reduce_scatter, rms_norm_weights, residual
+            )
+            quant, _ = self.quant_matcher(rms, scale)
+            all_gather = self._all_gather(quant)
+            # shape of residual changes but that's fine,
+            # next node is already slicing it, now becomes a noop
+            return all_gather, residual_out
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+        pm.register_replacement(
+            get_first_out_wrapper(pattern),
+            get_first_out_wrapper(replacement),
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class SequenceParallelismPass(VllmPatternMatcherPass):
+    """
+    This pass enables sequence parallelism for models.
+    It identifies patterns where an AllReduce operation is followed by
+    an RMSNorm (or RMSNorm and then Quantization) operation.
+    These patterns are replaced with a ReduceScatter operation, followed by
+    a local RMSNorm/Quantization, and then an AllGather operation.
+
+    The general transformation is:
+    Input -> AllReduce -> RMSNorm -> Output
+    becomes
+    Input -> ReduceScatter -> RMSNorm -> AllGather -> Output
+
+    While this pass itself does not directly yield performance improvements,
+    it lays the groundwork for subsequent fusion passes, such as
+    GEMM + ReduceScatter and AllGather + GEMM fusions. These fusions can
+    significantly reduce communication overhead and improve overall model
+    performance.
+
+
+    This pass splits up the residual tensor across TP ranks and hence divides its size.
+    Because the pattern matcher starts at the end of the graph, the replacement
+    contains a slice that temporarily conforms the input residual to the correct size.
+    After all patterns have been matched, we use a NoOpEliminationPass to clean up
+    what have now become no-op slices.
+
+    Note that an older version of the pass did not need this as it operated only on
+    custom rms_norm and fused_rms_norm_add custom ops which did not complain about
+    mismatched shapes during replacement. So this approach has the same assumption that
+    correctness is only maintained if all rms_norm operations are split across ranks.
+
+    Correctness-wise, this is approach strictly better than before - before,
+    the graph was incorrect semantically and shape-wise during the pass.
+    With this approach there's only semantic incorrectness during the pass.
+    Both approaches restore a correct graph once all patterns are matched.
+    """
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        # Used to cleanup redundant views created temporarily
+        # to circumvent residual shape change issues
+        self.noop_cleanup = NoOpEliminationPass(config)
+        self.noop_cleanup.pass_name = f"{self.pass_name}.{self.noop_cleanup.pass_name}"
+
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="sequence_parallelism_pass"
+        )
+
+        for epsilon in [1e-5, 1e-6]:
+            # RMSNorm + Static FP8 quantization patterns
+            FirstAllReduceRMSNormStaticFP8Pattern(
+                epsilon, self.model_dtype, self.device
+            ).register(self.patterns)
+            MiddleAllReduceRMSNormStaticFP8Pattern(
+                epsilon, self.model_dtype, self.device
+            ).register(self.patterns)
+
+            # Normal RMSNorm patterns
+            FirstAllReduceRMSNormPattern(
+                epsilon, self.model_dtype, self.device
+            ).register(self.patterns)
+
+            MiddleAllReduceRMSNormPattern(
+                epsilon, self.model_dtype, self.device
+            ).register(self.patterns)
+
+        self.dump_patterns(config, self.patterns)
+
+    def is_applicable(self, shape: int | None) -> bool:
+        # When sequence parallelism is enabled, the residual tensor from RMSNorm
+        # needs to be split along the sequence dimension. However, this dimension
+        # is symbolic during piecewise compilation, and splitting symbolic shapes
+        # is not supported.
+        #
+        # This pass is therefore only applied when the sequence dimension is
+        # concrete:
+        # 1. In full-graph compilation mode (no Dynamo splitting ops are used).
+        #   For this case we always pad num_tokens to be a multiple of
+        #   tensor_parallel_size, so there's no need to check shape % tp_size == 0.
+        # 2. For specific shape provided during compilation (e.g., from
+        #    `compile_sizes`), which must be divisible by the tensor-parallel
+        #    size.
+        if (
+            not self.compilation_config.splitting_ops
+            or self.compilation_config.use_inductor_graph_partition
+        ):
+            return True
+        tp_size = get_tensor_model_parallel_world_size()
+        return shape is not None and shape % tp_size == 0
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph):
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns", self.matched_count)
+        # Clean up reshape nodes
+        self.noop_cleanup(graph)
diff --git a/compilation/torch25_custom_graph_pass.py b/compilation/torch25_custom_graph_pass.py
new file mode 100644
index 0000000..1031856
--- /dev/null
+++ b/compilation/torch25_custom_graph_pass.py
@@ -0,0 +1,44 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from typing import Any
+
+import torch
+
+
+class Torch25CustomGraphPass(ABC):  # noqa (redefinition)
+    """
+    This class replaces CustomGraphPass from torch==2.6 when using torch<2.6.
+    It conforms to the 2.6 interface but also supports pickling, as that's what
+    the inductor code cache uses to determine the cache key before 2.6.
+    (in 2.6 and above, uuid() is used.)
+
+    Subclasses can just "pretend" that uuid is used.
+    """
+
+    @abstractmethod
+    def __call__(self, graph: torch.fx.graph.Graph) -> None:
+        """
+        Implementation of the custom pass.
+        """
+
+    @abstractmethod
+    def uuid(self) -> Any | None:
+        """
+        Return an ID to uniquely identify your custom pass implementation.
+        Return None to skip inductor code caching entirely.
+        """
+
+    def __getstate__(self):
+        """
+        Pickling is used instead of uuid() in torch<2.6. Just return uuid()
+         to enable subclasses to only have to implement uuid.
+        """
+        return self.uuid()
+
+    def __setstate__(self, state):
+        raise ValueError(
+            "Cannot unpickle CustomGraphPass because pickling"
+            " is used for cache key uuid. Use torch>=2.6 with"
+            " native uuid support for custom passes."
+        )
diff --git a/compilation/vllm_inductor_pass.py b/compilation/vllm_inductor_pass.py
new file mode 100644
index 0000000..08721e3
--- /dev/null
+++ b/compilation/vllm_inductor_pass.py
@@ -0,0 +1,173 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+import operator
+import time
+from dataclasses import dataclass
+from typing import ClassVar
+
+import regex as re
+import torch
+from torch._dynamo.utils import lazy_format_graph_code
+from torch._inductor.pattern_matcher import PatternMatcherPass, PatternPrettyPrinter
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+
+from .inductor_pass import InductorPass
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class InductorCompilationConfig:
+    splitting_ops: list[str] | None = None
+    use_inductor_graph_partition: bool = False
+
+
+class VllmInductorPass(InductorPass):
+    """
+    An inductor pass with access to vLLM PassConfig.
+    It provides timing, logging, and dumping utilities.
+    """
+
+    dump_prefix: ClassVar[int | None] = None
+    """Keep track of pass index for debug dump ordering."""
+
+    def __init__(self, config: VllmConfig):
+        # Get only the necessary CompilationConfig for the inductor pass, since
+        # full `CompilationConfig` contains pointer to model which is unsafe.
+        self.compilation_config = InductorCompilationConfig(
+            splitting_ops=config.compilation_config.splitting_ops,
+            use_inductor_graph_partition=config.compilation_config.use_inductor_graph_partition,
+        )
+        self.pass_config = config.compilation_config.pass_config
+        self.model_dtype = config.model_config.dtype if config.model_config else None
+        self.device = config.device_config.device if config.device_config else None
+        self.pass_name = self.__class__.__name__
+
+    @staticmethod
+    def time_and_log(call_fn):
+        @functools.wraps(call_fn)
+        def wrapped(self: VllmInductorPass, graph: torch.fx.Graph):
+            self.begin()
+            self.dump_graph(graph, "before")
+            call_fn(self, graph)
+            self.dump_graph(graph, "after")
+            self.end_and_log()
+
+        return wrapped
+
+    def dump_graph(self, graph: torch.fx.Graph, stage: str):
+        i = VllmInductorPass.dump_prefix
+        i_str = "" if i is None else f".{i}"
+        lazy_format_graph_code(
+            f"post_grad{i_str}.{self.pass_name}.{stage}", graph.owning_module
+        )
+
+    def begin(self):
+        self._start_time = time.perf_counter_ns()
+
+    def end_and_log(self):
+        self._end_time = time.perf_counter_ns()
+        duration_ms = float(self._end_time - self._start_time) / 1.0e6
+        logger.debug("%s completed in %.1f ms", self.pass_name, duration_ms)
+
+
+class VllmPatternMatcherPass(VllmInductorPass):
+    """
+    A VllmInductorPass that uses the Inductor pattern matcher.
+    Its main use is providing the dump_patterns utility that dumps the
+    Inductor pattern matcher patterns into a file, which greatly aids debugging.
+
+    TODO(luka) move more utilities to this pass.
+    """
+
+    matched_count: int = 0
+    """The number of matched patterns in the pass."""
+
+    _OP_OVERLOAD_PATTERN: ClassVar[re.Pattern] = re.compile(
+        r"<OpOverload\(op='([^']*)', overload='([^']*)'\)>"
+    )
+
+    def _replace_op_overloads(self, string: str) -> str:
+        """Replace <OpOverload(..., ...)> with nicer formulations"""
+        return self._OP_OVERLOAD_PATTERN.sub(
+            lambda m: f"torch.ops.{m.group(1)}.{m.group(2)}",
+            string,
+        )
+
+    def dump_patterns(self, config: VllmConfig, pm_pass: PatternMatcherPass):
+        """
+        If debug dumping is enabled, dump the Inductor pattern-matcher patterns
+        into the debug_dump_path folder next to the dumped fx graphs.
+
+        This method does its best to print something that looks like Python code
+        for easier debugging and potentially navigation. If any errors appear in
+        the output, please add to this method.
+
+        TODO(luka): use pattern object to manually produce pattern graph
+        """
+        debug_dump_path = config.compile_debug_dump_path()
+        if not debug_dump_path:
+            return
+
+        debug_dump_path.mkdir(parents=True, exist_ok=True)
+
+        from vllm.utils.system_utils import unique_filepath
+
+        file_path = unique_filepath(
+            lambda i: debug_dump_path / f"patterns.{self.pass_name}.{i}.py"
+        )
+
+        with file_path.open("w") as f:
+            print(
+                f"# This file was produced by VllmPatternMatcherPass."
+                f"dump_patterns for {self.pass_name}.\n"
+                f"# It does its best to produce valid-Python-looking code but"
+                f" please add to dump_patterns if there are any errors.\n\n"
+                f"from torch._higher_order_ops.auto_functionalize import "
+                f"auto_functionalized as auto_functionalized\n"
+                f"from torch._inductor.pattern_matcher import *\n"
+                f"vllm = torch.ops.vllm",
+                file=f,
+            )
+
+            for node, patterns in pm_pass.patterns.items():
+                # fix the operator.getitem repr
+                if node[1] == operator.getitem:
+                    node_repr = f"({repr(node[0])}, operator.getitem)"
+                else:
+                    node_repr = repr(node)
+
+                node_repr = self._replace_op_overloads(node_repr)
+
+                print(f"\n\n# Patterns for op: {node_repr}", file=f)
+                for i, pattern in enumerate(patterns):
+                    # reserve auto_functionalized ahead of time
+                    pp = PatternPrettyPrinter()
+                    pp.namespace.create_name("auto_functionalized", None)
+
+                    # Assemble pattern
+                    out_node = pp.pretty_print(pattern.pattern)
+                    pattern_repr = "\n".join(
+                        [f"def pattern_{i}():"]
+                        + [
+                            f"{pp.memoized_objs_names[key]} = "
+                            f"{pp.memoized_objs_pp[key]}"
+                            for key in pp.memoized_objs_names
+                        ]
+                        + [f"return {out_node}"]
+                    ).replace("\n", "\n    ")
+
+                    pattern_repr = self._replace_op_overloads(pattern_repr)
+                    print(f"{pattern_repr}\n", file=f)
+
+
+class PrinterInductorPass(VllmInductorPass):
+    def __init__(self, name: str, config: VllmConfig):
+        super().__init__(config)
+        self.name = name
+
+    def __call__(self, graph: torch.fx.Graph):
+        self.dump_graph(graph, self.name)
diff --git a/compilation/wrapper.py b/compilation/wrapper.py
new file mode 100644
index 0000000..493e57f
--- /dev/null
+++ b/compilation/wrapper.py
@@ -0,0 +1,238 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+import sys
+from abc import abstractmethod
+from contextlib import contextmanager
+from types import CodeType
+
+import torch
+import torch._C._dynamo.guards
+
+import vllm.envs as envs
+from vllm.config import CompilationMode, CUDAGraphMode, get_current_vllm_config
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def _noop_add_global_state_guard(self, *args, **kwargs):
+    """No-op to skip the GLOBAL_STATE guard entirely"""
+    pass
+
+
+def _noop_add_torch_function_mode_stack_guard(self, *args, **kwargs):
+    """No-op to skip the TORCH_FUNCTION_MODE_STACK guard entirely"""
+    pass
+
+
+@contextmanager
+def _compilation_context():
+    """Context manager for compilation settings and patches.
+
+    This manager:
+    1. Sets higher dynamo cache limits for compilation. (Needed for
+        qwen2_5_vl see test_qwen2_5_vl_evs_functionality).
+        Generally a recompilation can happen whenever we use a new
+        backend instance in torch.compile.
+    2. Patches out add_global_state_guard to skip GLOBAL_STATE guards
+    3. Patches out add_torch_function_mode_stack_guard to skip
+        TORCH_FUNCTION_MODE_STACK guards.
+    4. Restores everything when compilation completes
+    """
+    # Save original values
+    original_global_state_guard = (
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard
+    )
+    original_torch_function_mode_stack_guard = (
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard
+    )
+    original_cache_size = torch._dynamo.config.cache_size_limit
+    original_accumulated_cache = torch._dynamo.config.accumulated_cache_size_limit
+
+    try:
+        # Set higher cache limits for compilation
+        torch._dynamo.config.cache_size_limit = 2048
+        torch._dynamo.config.accumulated_cache_size_limit = 8192
+
+        # Patch guard manager
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard = (
+            _noop_add_global_state_guard
+        )
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard = (
+            _noop_add_torch_function_mode_stack_guard
+        )
+        yield
+    finally:
+        # Restore original values
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard = (
+            original_global_state_guard
+        )
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard = (
+            original_torch_function_mode_stack_guard
+        )
+        torch._dynamo.config.cache_size_limit = original_cache_size
+        torch._dynamo.config.accumulated_cache_size_limit = original_accumulated_cache
+
+
+class TorchCompileWithNoGuardsWrapper:
+    """
+    A wrapper class for torch.compile, it ensures that all guards are dropped
+    when CompilationMode is not CompilationMode.STOCK_TORCH_COMPILE.
+    When guards are dropped, the first time __call__ is invoked, a single
+    compilation is triggered. Dynamo should never be traced again after that
+    since we drop all guards.
+    """
+
+    def __init__(self):
+        self.compiled = False
+
+        vllm_config = get_current_vllm_config()
+        self.vllm_config = vllm_config
+        mode = vllm_config.compilation_config.mode
+        if mode is None:
+            raise RuntimeError("Compilation mode cannot be NO_COMPILATION")
+
+        backend = vllm_config.compilation_config.init_backend(vllm_config)
+        options = {}
+
+        if isinstance(backend, str) and backend == "inductor":
+            options = vllm_config.compilation_config.inductor_compile_config
+
+        if mode != CompilationMode.STOCK_TORCH_COMPILE:
+            # Drop all the guards.
+            options["guard_filter_fn"] = lambda x: [False for _ in x]
+
+        if envs.VLLM_USE_AOT_COMPILE:
+            if hasattr(torch._dynamo.config, "enable_aot_compile"):
+                torch._dynamo.config.enable_aot_compile = True
+            else:
+                msg = "torch._dynamo.config.enable_aot_compile is not "
+                msg += "available. AOT compile is disabled and please "
+                msg += "upgrade PyTorch version to use AOT compile."
+                logger.warning(msg)
+
+        self._compiled_callable = torch.compile(
+            self.forward,
+            fullgraph=True,
+            dynamic=False,
+            backend=backend,
+            options=options,
+        )
+
+        if envs.VLLM_USE_BYTECODE_HOOK and mode != CompilationMode.STOCK_TORCH_COMPILE:
+            torch._dynamo.convert_frame.register_bytecode_hook(self.bytecode_hook)
+            self._compiled_bytecode = None
+
+    def aot_compile(self, *args, **kwargs):
+        if not hasattr(self._compiled_callable, "aot_compile"):
+            raise RuntimeError(
+                "aot_compile is not supported by the current configuration. "
+                + "Please make sure torch.compile is enabled with the latest "
+                + f"version of PyTorch (current using torch: {torch.__version__})"
+            )
+        return self._compiled_callable.aot_compile((args, kwargs))
+
+    def __call__(self, *args, **kwargs):
+        if envs.VLLM_USE_BYTECODE_HOOK:
+            if (
+                self.vllm_config.compilation_config.mode
+                == CompilationMode.STOCK_TORCH_COMPILE
+            ):
+                return self._compiled_callable(*args, **kwargs)
+
+            if not self._compiled_bytecode:
+                # Make sure a compilation is triggered by clearing dynamo
+                # cache.
+                torch._dynamo.eval_frame.remove_from_cache(self.original_code_object())
+                return self._compiled_callable(*args, **kwargs)
+            else:
+                with self._dispatch_to_compiled_code():
+                    return self.forward(*args, **kwargs)
+        else:
+            with _compilation_context():
+                return self._compiled_callable(*args, **kwargs)
+
+    @abstractmethod
+    def forward(self, *args, **kwargs): ...
+
+    def original_code_object(self) -> CodeType:
+        """Return the original code object of the forward method."""
+        return self.__class__.forward.__code__
+
+    def bytecode_hook(self, old_code: CodeType, new_code: CodeType):
+        """Hook to save the compiled bytecode for direct execution."""
+        if old_code is not self.original_code_object():
+            return
+        # code borrowed from https://github.com/thuml/depyf/blob/f4ad79fadee27ea113b4c75202db1eb1a11c0dbc/depyf/explain/enable_debugging.py#L25
+        frame = sys._getframe()
+        while frame and frame.f_back:
+            frame = frame.f_back
+            code_name = frame.f_code.co_name
+            file_name = frame.f_code.co_filename.split(os.path.sep)[-1]
+            if code_name == "_compile" and file_name == "convert_frame.py":
+                break
+        frame = frame.f_locals["frame"]
+        assert frame.f_code == old_code
+
+        if frame.f_locals["self"] is not self:
+            return
+
+        self._compiled_bytecode = new_code
+
+        path = self.vllm_config.compile_debug_dump_path()
+        if path:
+            decompiled_file = path / "transformed_code.py"
+            if not decompiled_file.exists():
+                try:
+                    # usually the decompilation will succeed for most models,
+                    # as we guarantee a full-graph compilation in Dynamo.
+                    # but there's no 100% guarantee, since decompliation is
+                    # not a reversible process.
+                    import depyf
+
+                    src = depyf.decompile(new_code)
+
+                    with open(decompiled_file, "w") as f:
+                        f.write(src)
+
+                    logger.debug("Dynamo transformed code saved to %s", decompiled_file)
+                except Exception:
+                    pass
+
+        if (
+            self.vllm_config.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+            and "update" in new_code.co_names
+        ):
+            import depyf
+
+            src = depyf.decompile(new_code)
+            msg = (
+                "Assigning / modifying buffers of nn.Module during forward pass is not "
+                "allowed when using cudagraph inside the compiler because it will "
+                "cause silent errors. Please use eager mode or fix the code. The "
+                "following code contains clues about which buffer is being modified "
+                f"(please search for the usage of the function `update`):\n{src}"
+            )
+            raise RuntimeError(msg)
+
+    @contextmanager
+    def _dispatch_to_compiled_code(self):
+        # noqa: E501
+        """
+        Context manager to dispatch to internally compiled code for torch<2.8.
+        Why does this work? Because Dynamo guarantees that the compiled
+        bytecode has exactly the same arguments, cell variables, and free
+        variables as the original code. Therefore we can directly switch
+        the code object in the function and call it.
+
+        See https://dev-discuss.pytorch.org/t/what-is-the-relationship-requirement-among-original-bytecode-transformed-bytecode-and-bytecode-returned-by-hooks-in-dynamo/1693/7 for more details.
+        """  # noqa: E501 line too long
+        original = self.original_code_object()
+        assert self._compiled_bytecode is not None
+        self.__class__.forward.__code__ = self._compiled_bytecode
+        try:
+            yield
+        finally:
+            self.__class__.forward.__code__ = original
diff --git a/config/__init__.py b/config/__init__.py
new file mode 100644
index 0000000..dd76a72
--- /dev/null
+++ b/config/__init__.py
@@ -0,0 +1,102 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.config.cache import CacheConfig
+from vllm.config.compilation import (
+    CompilationConfig,
+    CompilationMode,
+    CUDAGraphMode,
+    PassConfig,
+)
+from vllm.config.device import DeviceConfig
+from vllm.config.ec_transfer import ECTransferConfig
+from vllm.config.kv_events import KVEventsConfig
+from vllm.config.kv_transfer import KVTransferConfig
+from vllm.config.load import LoadConfig
+from vllm.config.lora import LoRAConfig
+from vllm.config.model import (
+    ModelConfig,
+    iter_architecture_defaults,
+    try_match_architecture_defaults,
+)
+from vllm.config.multimodal import MultiModalConfig
+from vllm.config.observability import ObservabilityConfig
+from vllm.config.parallel import EPLBConfig, ParallelConfig
+from vllm.config.pooler import PoolerConfig
+from vllm.config.scheduler import SchedulerConfig
+from vllm.config.speculative import SpeculativeConfig
+from vllm.config.speech_to_text import SpeechToTextConfig
+from vllm.config.structured_outputs import StructuredOutputsConfig
+from vllm.config.utils import (
+    ConfigType,
+    SupportsMetricsInfo,
+    config,
+    get_attr_docs,
+    is_init_field,
+    update_config,
+)
+from vllm.config.vllm import (
+    VllmConfig,
+    get_cached_compilation_config,
+    get_current_vllm_config,
+    get_layers_from_vllm_config,
+    set_current_vllm_config,
+)
+
+# __all__ should only contain classes and functions.
+# Types and globals should be imported from their respective modules.
+__all__ = [
+    # From vllm.config.cache
+    "CacheConfig",
+    # From vllm.config.compilation
+    "CompilationConfig",
+    "CompilationMode",
+    "CUDAGraphMode",
+    "PassConfig",
+    # From vllm.config.device
+    "DeviceConfig",
+    # From vllm.config.ec_transfer
+    "ECTransferConfig",
+    # From vllm.config.kv_events
+    "KVEventsConfig",
+    # From vllm.config.kv_transfer
+    "KVTransferConfig",
+    # From vllm.config.load
+    "LoadConfig",
+    # From vllm.config.lora
+    "LoRAConfig",
+    # From vllm.config.model
+    "ModelConfig",
+    "iter_architecture_defaults",
+    "try_match_architecture_defaults",
+    # From vllm.config.multimodal
+    "MultiModalConfig",
+    # From vllm.config.observability
+    "ObservabilityConfig",
+    # From vllm.config.parallel
+    "EPLBConfig",
+    "ParallelConfig",
+    # From vllm.config.pooler
+    "PoolerConfig",
+    # From vllm.config.scheduler
+    "SchedulerConfig",
+    # From vllm.config.speculative
+    "SpeculativeConfig",
+    # From vllm.config.speech_to_text
+    "SpeechToTextConfig",
+    # From vllm.config.structured_outputs
+    "StructuredOutputsConfig",
+    # From vllm.config.utils
+    "ConfigType",
+    "SupportsMetricsInfo",
+    "config",
+    "get_attr_docs",
+    "is_init_field",
+    "update_config",
+    # From vllm.config.vllm
+    "VllmConfig",
+    "get_cached_compilation_config",
+    "get_current_vllm_config",
+    "set_current_vllm_config",
+    "get_layers_from_vllm_config",
+]
diff --git a/config/__pycache__/__init__.cpython-312.pyc b/config/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8c1df33346b835cade0a6a72c78ee96b48858fa
GIT binary patch
literal 1981
zcmaKtOK;mo5P+A|(|TEwWy^2Jc2ZY<$xfW4X@UZYViZN<#;9E%_CnAkWf9pGiRDs=
zjy?AW^xj+lLjOYl!2&`LJ@wYsFbwq6os}$;PEZ{_%+71MvoovTip3m~Ka%{>{WXu!
zAF#Oj=_BECTSMq4WFuQ6h-z5VK-P&)6F5PWI7w4DMbkK~^a+xoS)5gJl1$JX&M7%X
z^0a^pN=}m^E#Z=qGh~vMaaqY(QlV8`Rq_OxqBUHj(|DTB;2EXMkvg5lvr5jBIXaK$
zm0TbTbP+GoCA_58MY2p+@QRX4<Q`qct4f|EYjhp2E4fVW(+Bv0k}Kphx`8*8TqU2=
z25!(zyh*q47Tw0%bO-OyUA(L8Q>01v@E+aA`}84xNFU)x^Z*}d=mOcbpEdlrKi!!5
z6H3?6M80KO9jE1W+wMgpDJm_G`YtiK>ve}pF&R-EdA1{pt?ysI{F<45M=f*5W)O@L
zXrl1i>ABWTLQRwpTc^zI25pCpeM)c64tq|Q-$s?+oPFe#d+V9@I7Y6%dpTMqL>_h~
z!=;#axx);TSsf`@JY<exJ8d&0JP<3K^$lurtMh3GS%LDA^mJuHbCgi(rrw<g4(plc
zE^&E(w5=|3hsSSUjdm>^o6IES<||}S;n?#?<d~Buva)s<RaH)W#|ojmz1tF1rP8rF
zr{1aafsgjmME!)bP@Tqp7ji!wS1T=YL#NZe?}(|B(DyyYgCmDC*9yMrwmp%y)P0KL
zg~JV#b7t6{6^No67;e|)M%#6WEsCLUo7^#m&W)7Foe@HZxy2HMTF@J|bQt%<$XV2t
zIb=*;qtTOLH--f;5VP;Fz-Tj%#*Fm<l71Z3SYrv<jw}gC0n&gBAPblPz&pU?6M$F&
zPz00!lYlay0;mF}05!lgU<ObJ%mU^B^MD1wB47!y3|Il&1FQnp0QUjw65lqShzgu|
zcUZSwRV4NOq8`)VR_#*<6V<4*t)@mDHlD??3_hA4RRu8}4SU}+95qR*IPpkn8%ILb
zL^&Es<Z!7v-c>VGRW^P`3gdRC*kUG{kHQd1H<PGK5OYzZ7o8?`KcW`3`=e31y|s9C
zd^K3=CgbN1ZYE4!aQyti?Wn1n7xU3ArB%+H!99b^sZ(7cmSYa%@iV;P{Hd;q*CpgG
z3I4y4;`N0c?zR?mmFh2%F%0>n7{)K?QtHsZ&zqe3P2cr*xXI*T?R*HIKKtVRQ>RJX
z^QPbD9k1Jjl+9r;HjUwY8@qmAWM9bZkgv~I?1juF{~%FtA@Ns2)3mEB(l)R4l%`)I
ziK_zAwg>27fc6wO25942Pip$#Na8AoG--PFJ9<7qTLZK|K#%2efL>ke8BM=NfO1+o
RB8h)$PxAT?8TO^z>puwQPXGV_

literal 0
HcmV?d00001

diff --git a/config/__pycache__/cache.cpython-312.pyc b/config/__pycache__/cache.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9fde9a49e0ac988e8f86c1e553ac03c8e89c38f7
GIT binary patch
literal 6069
zcma(#TWl2Bl~vVM-R*Y2{I>C{3^u00Zi4~C3<MYq0|OZcg&C5Rc2X)=-ENm%)!n&O
zjmMTPc~`U2jCQ5*D3LIE?0U5;EfGW_U*Tgv=5wWFrS563a7shMXkQvBA5Dl9ZL}YI
z&aLitgP7G8_}qKXJ@?#m&pof(zl_Bq9DJ7eSLSyQa@@b+p#BAGo#+1pojaVt8N9_Q
z*a{YJ3yQ#FKVSuHQ4wuPk?f!nWH`|Z*<mGYw<s-kM2Rq*WVPB+CCd6iD`v-)IO~V3
zgq>89tRJ@8>~^J{^;@hCyHn}pIU>>!>=UuN>~5u-=W+s(lx~3|Nz!wl_hnRiNziER
zgMrcqy(sJLgI<jF`k@zRy#eSYSZ|QTNmSsja7OY2&S<+Y_?+(h4OefKp%p&W{v~4P
zQoJW+Okx?SfERn`J2x(?vsW+AUVm%uiWhhzx8jAqZn}hO7EDWTBApk%xnve@X_jed
zu9?qy3AS9l?PKy3IJUr)rdyihz#ypSa~U%Wy;d`4x~i4WW(lLZVqR3|S6qTr@hovw
zy--wbV&~}!Vs2=#uSKj`e|_jnRLqxQ1W5!kf(r;X5O6S^3VEVdbn{+#K4axI_t=aV
z$P`X{VE`&QVIQycPTJF62ytdk_afLa9M!h8lt6oc7tG=6<I^d@3pxwh^vM~o)o)dO
z9*zj;9Gw0(@j{lZYx)AwVOisASQ&*IxWf@n;SEj^-UVw@0*0W7L?S`FF%mKYXQ6H3
z;O@hQXh=rzLFj(K=cKfd2vCHZC|V5ZL8N}KN-LXh_2&(+L=pq~SZxf}ND?qk)W(96
zByEPU8e;n<8`$<HY+D1{K@ttx_8PWB=_FmivC|(jnWYyb>Shvk)#&3&50jv~!L_$(
zubu|BuL;}R#9IK~eT~!ZYogj$TN_pS$pA>y-xv?F@j!#ikRcfH2ZIeR!%bX<zLH9A
zq8hI8jw>VVG;(b$DEphJMjF@yB+}5_{swlGj5V+aYS>Y7Fe4aaABf7haqt69IRqL_
z88Ku0!J)dm<ggJVF=Ld(GNO_CK&<<4y;Y7FhslI7Y6viY1UOBu2&oCLbry}%_ng&X
zzb#VcuyQ6(Wp{zd*Kf(pbklQQWZuf_OR8h8lI*|y3cuf-N89BndK&nC$RHW5Xt|z{
zg+GgU-Pwk(szukd%vHwxOA+Y>3UQYMTH-~VWv!q(1x+WuYqhdHRl{8=kT<<H(@{0o
zB{>WwYK9Wx_2i1Sirkq@j+(zsC^Ze@#T|$_W-hBPn>i!D>~)cxHg6HNKuN}YUq!w!
zONVjm-WQSTg61r!nw8CaaSSr~3_7@>X6L;QU9<F}rMX01x~)1eB97OCL`%1QQJL_5
zpz^wH&7RlPf|eyrThKEMV$@Dd$8qnZPqU{|ug%9ao!sm4QI2CX!HKVsy5>ZTlwSNr
zP55J!%-4+9g90yT6m^o(9M{)`WqDmN;cw<g)0*(@fUcb!m*8zP(k9%zrZ174;RPvi
zi!`U#auFPh<0SaQ$n<;^uy?pDx6ZHei_H{B1>YLCSj#;A*oXDJ#&ch}3XSKb@Bgu?
z9&MXe?yYiL>gYvQ71T$5>&EKiHNL)PF;U0uwRLYZ_y<DWGZ)+T=IgyW-MX+Q+yuYT
z{u$I0k!#<#-uUJmB-YpEZ!M4<0kf7hIY*XdmOy3Gk(n*YZXVndMt<I$Xe=i=r$`CR
zX|8O-e@BMwWfj5vpu;>mqv>v*I<jRtFrR6x1ZpjlA-d}@GCgk>imo3FvQ#T9q$3T|
z8#I3#oDC#Hm+?0%=FIOEiM1lb1UM>)3!++9jTa_&r?H+%=WoX59hVk$FeM`AGcRx6
zSj2>oGc<3*NkBB%$eAMcJTcJUL1@$n0X^k3OI|R+<8rbC2Ov(9cHT!_0J*H?RzQEy
znI{nH$g5duIRkV8rA<SKuh=2oAb1msl0?xV25@zVUZkeGl4|jSTA=_gLnpxq=xGG6
z0q{boKg*o=0=99|3xFQHAj#=@2xKh_<bA`;632zeDmui<K*8Z(ofl@23aA})H87k%
zot|>-!c@U5Ou8C{Drxfl;;Gk8FP$P&z<sI!XU*rPZd;Z;<r~Zt^ZayS#f$nEO<43>
z?Va6A3F+pUJFt<n2w;P&_Hsk=hoRkY;^X*7@lE$}&v?0Kd?$RU2{T#lncNAdn=r@9
zJ;!#!)BoPF@6MS|&ivTfKJ}xu$HUX*;pxioiBHK+$JZZs+$wk6s&st&!|-mR=flKv
z*o}K3xL{ewg3B6o?qCQ(l9#?kq<HD8yWA!2WBy}7515=Tya%rNXApwcd2mGD#lXeB
zHQ|0OTzy~o>kg6A1M9*%e-l>lwf-`f;^*L2!m4VRx~r<51of}&&?~?o6`<Fk@d8U^
z#gm}mEt2{z(YJ9TY7>{5x&vipCjX+sn`cmD=M(@?c#u1O>KBtgpL{%hxjcP&XZp%c
z;%a&N%HLhvp1s$#8Ti4?t*-AYpCn4tS3XNzErqZCcO`Mv!8rLh-KT?|#7r3MQnbOa
z^ya9Gs$vTLCUiiduZ+}2BkIvEx3PM$p)gol`;3O_Fn(ifo1<94uKw&@2Yn4{Xc?=1
z8S^?itOJpV$V<0tHHQ3_D^p?=b%-74X;*H%EBna_>XE!#fFuS%3Y>C2pLc3;sz4~X
znyuw@l9t~lT5fs4w8#VoKU-S?#^8*yrh_MH`igAOd_i6|!5tugXmSCD5MeQ)Gx?Z*
zrQvEL5ILypAf*@dA0r;*+e{v+`hadZ%#j^bhAjKn+Esttkmg*yI@0V=uOxX0Oq?SC
z*hNQs9=DE^TSvCXc3Ka89&P{l`bXERLZEH`9|BS=UX60e{!(}!{RYr`i9+r1qxw$$
z!qwvSv#b3RbiT@0_O5dku5(@3^Mbm^tOvj-UXeW4#Wi6~WUHh#sfkZ32M?GZiH5Ki
zcm+1_6LCGbCK=*d0M{;Ef=C$OOTUJ+7F-2+>mK+QJkSQ4XnWj7f?jN-Wmr)AjL=%J
zo_cw11^%VNbE|>$bY?Xv!%I@eYp>;))ft9y^Dg9z**#0c6l+1H3z@@cl)+e_%B;pq
zXEW^k&-1I@@8t8ch4EHynwPUbyo=wj&##W$$UBZX4@uE|CFPit3egFWo#I(&9Dvse
zb*_`AP&4`uTfYK}z+1XVE>oJPR6(-PvPN@Yv%mnu4gD@6lY4b^t(r@+<2AjRy|!At
z=%`@%Y7SFP63fL}5m<DfYK3&<WF2?{Vs63DH}QU`M$F6#l-BOTo_xOTt&TSv`u{=r
zPr%jrM*v{%VQxVF+w*tNKlo0$f2I`f{k%U_=|2J;h<Jk&j|VQ42QHMteY=25pD*{H
z_h*vwKcvcuBll)Y@uQ`q7j_fFd*dp{ADgNMgcty>C0dPe(Sa?!G<u>ubmFtt6Q8#a
zlm<^e3X})WRNBv$qGxwwgWG}9!I`o=^I2>L{cY}}xl;eRPXqrNy#y@cr<kjy(irS>
znoS_sM^qI8X%QY3suxw&?-ezxHWPw`kk?g}j=}jTW-G7dB0idKVilcGRV|kTbHith
z15~JBnnEgx{gmLF0+t9~glY5AI}j&n8WAFdJc~|YHvmzP9)%t~hF}_TT{qbK23LVm
zT!pIQ4S2`U<4AA<!AS%&2r#Fx62yzVjqenH6D&t4#tV7|0lq!y*ASdTa2~-00A9!S
zTi@{CMX=9B{~^Hg9-Tv)cM)JU?X|L>b|9lI<PG{BqOoMA3jlt~F{Lu2qN9jKfUiO4
zB!twz<emjN>G0EuqZ`*Y<6A4`WU3+_tqPLV_AJVc9e#M=(a5L#&gjLGxNqxnMZ8!Q
zg3<;4S)A(|+Scy9vD2G|g;GUK?}{_KL!%qlH}_S<QKSl2<J|CQN$lEmE8>Bwz)M&8
zr-#!ev4894_KCX+tU=^8{^`ir#@y!Y*61hKD&km;Ff~~c`?gMOkKR2~5hr)WH+N^w
zmBfM4(D90R4uZ7wHvcTl4eq};@{r#dm<9$Q-E>t5!M;gu<X}nc+3IBM1nD{tHhyHP
zdFNg6)GltZZ)+B|fPE)%-;4Yg2M#^#d^ECi;A~0k+|;)&eX>{)&sGINdJCD19l`Ug
zR>Z@IN&qGWZ2PueXNM7h!LtarfBc^NXl!TX!rrMa?251ddgS0M@lQunDA_v|G3ATj
z&iRKwzTJ5j7*C)wXW&qWCQ4%Wmb5M2jaI}XsDo=fINfVs0|`p~>4%-={*yIfQ`K<0
z)VrlW=b-uhp#Vq^f(5%a-@DhdBOTk7l2sur^*@YMIcOfO{vMm>0WR2vV7e;8u-e%n
zUFM(mjaMb?z*!^lKZLOBTNK(+YM5Sz#%pc-zDOKq*<KLJ4zOA(!Zd~K!%<9ZUbwJg
zXz*mweTPK1^-Z|5K9O!_g$c-O!&({&WPI18@uv-kLgIr>8Qw1#XcRHM48us$5Mwb_
zLv4|B9TxMw&X=ZrUVbKM-lLuld@nLlM$7}$Mo>WDB5)8C5iq}6#vaxRegF@j^#j*A
z`saYdD%bgY0M!7`^UuQ^pLoIz{+3IZx%7W=XUg1}C*0xx;6|Tt2cB^0C*0H*f#h$*
z<4?PKH|D-*>D>HwrDbR%_%zy4>P(lTQyVS2u}-v$_Gf``T-b<I+qrmGsq0`lHog(r
z?Hw-3r^>yjOI+7(_h4!0Sh;(;#C5<G3gKNo@<$;n@NlCXYv9I(Rs`W^B15o4{4eRv
BU6B9)

literal 0
HcmV?d00001

diff --git a/config/__pycache__/compilation.cpython-312.pyc b/config/__pycache__/compilation.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8adddc3a21d776402e8a3730f81058bc74bbed7
GIT binary patch
literal 33761
zcmc(|3ve4}o*&o%8YBpS1WADJ7bsFB!3QW&ltfVvn<6D!wnWJmE!&*&KoGkrfd)WM
z1C&e*wc$)AHPo!LrZ&4PI^)f7vaUqlac-2{UX^w)ce_b#5+}K;0|?Fn(~%QRWhR%s
ztGc31CA&MhyWH>p^$P$&Ni$Wcw5ShXfA8o2{eAtf%ggN?o-qIGA>m_=`}g#sJteAV
z=l4w<caIY|!4&4Em0#1e3Ge2xIbxZ%m?+E=<|Ec=EA#W=l1S-vX~Z^dWAD~*S;RhV
zXa16~BjTKPM#`tlBNfvX5!bYfg_njaBURH?k?QGc_HGNiBc5pw^P9pok=p56<}VA^
zMe3*PBMs9H?A;!2j5JL*F~1|+9BG+uVSZ=0HPSZS#{A`BZ=`*?o%t)m`yw6F9n9|v
zcSiP4?>BLxQz}ItD#Klo?&)q57d4AL)7@rHY!Q7wMDOXD?lp5SaYEI%IiXtQ=B_BA
zx$X}w%G-25OX)^R4^mF&rcwNQO2617dRXcjq^|v;S&dh-{80U!9@Nv-Azl5R=?*NJ
zd<}n2xh8!kxpaJfF&Y;ocx~gsa5#7^Ec(oHNiZgaX5zASHYA1xMDmw{@f$u~E}we)
z(wV^c%V)-4JvaH1Y#EC#A!9fgi(Lsya_RXH$_j>2f@5lFK^zl;3kZ;1teC*fU^pZM
z<MUKo89c!m%80}st?F}8VQ~ftE+JfY=Ds0I$;^CoHgp|6M<^PK2g38$uZz+rCb@EE
zQIf=HJg^WB#%JfH2$IxEVr)KqQw+>sn+sf93VeMr7>))bBBE>(`YZ$%7bsaM7C?P7
zHv%H12+T`?sCbKwhy6-892sX-&ZvXTe$>h4cDnF-j}tjs=+kDwG;I;g(|j2g`m_};
zKV1UXI$gR{;wzP1<MWY)5ZV`-k6xG;#Kh&P8=`l{2=oRQ7Nq&$%nk2iOccE6hL<(W
zucQ$Nt_3MPH^=;}H-1C3d+|h2WY{m!;`noF;GZ)et+q*@O|}IB)b~I@wg&=8x)>(E
zGoX(O-bw=jVSWZ4e)8hv8QFb#>f-pTfvJnHkG~ukzj)!&x$|e_s)@HJ$1Yq9Ouarf
zekO2na{P?!ymJ2h1uelR+zx8wesO9r9$6S%2rUf6gVJ>|KJeb+(PJa;9u)_}p=*N+
zOYs}?(ZQP--a%zb@uLrpe_=^#L?O)a!V?>W^KI@6v&mYqUBWrbS0=XMZ+YC<l;rEO
z{E2LRLz1t_@-JuIo|W?ycR=daO30f!9-;K?+=sJ!>S*F<+Qbr(pEXaH;@65_o8T5o
zzRgdU;kOjOcEKiKVnxR+FO=ck$^2%)4u3h)IPhDchB@JPss3{KD^-65{8g&o1%I{b
zuY}(Xzh~AAIKofYELHnFa{2fh6Jsw)!G#-a>HI6K%2+%YjmMN_LJMh82wtZIY$bR@
zQSZ1hq{<@pvxRa&3`TF=2!+LdT07p@;<cC<_lnWQi1#W@{MCN%)l28jjGuY)+~qS@
zy}_v9y?XYI^XK7}L~k%0n`gzuB{3Msaty|>BBL{s7#F<~AW0}9DlMS(YcxuW5<;<s
zV0`9AD0*FK4qLHO6Q)CIh9j4tq(vz@qir&TaWreRl6MH8-s6_Jx!hQU(WAjZsXk6=
z*@KkYjB7#o6-*6qHJE)F<z41{=1JC)Pb_j}Ok4;`=v)9`A|8s0QZJIrRsgR>5x|Cz
ziQ(B8wZJR&P>e$mXR!NdUx|r^yqWUnM4dp|o&9iDxa{De%-}?7aAIrl?EAOZr@lY^
z;q-mehwr3aeM#G;&nDoo1^nM*6xdV@pqbJEIJy0_M?&w3g3`_U{B9aCFHp`y<j@Y3
zc^Z@%6=flS<H*k@a|Iqurs=7ZX?}(Kmg!j&jxus<K)LiFSCP=0nCxZL`YxvKGWUsT
z(r1?ZNG%bNf&U=+kHCphX0JNMwj05i((&5-j%(qkDaT1Tm|S;V#@&;0_iVX)leXTZ
zt2gU#WgOm=!@K3!huC|gcSkoof4}hujY)T3(%F}Fx!2-%mXo%o-IGou#YXEzc=lTQ
zalN0#mb<agr4bb3vq;DAqb%w&eW&l5?N$j0F$5$USO|$T;;m3j4CFxRM1TH3JU#Wx
zs4-Rt2gBoXe{lQG?T_Bcv<#<OhSRRYN!#Jw9k(Je>-aTz_UgF4=Ua_EAE%t`!2;0e
zQ!NO;+Hh#U%Kle|hF6vX+wYc0@IAIDc8yFmVgfp7Q<jA{e>8TdcokL0)ZKsZaOU9I
z)WNe`2VZ{w_D7eMweY<_+BJ~0z5ba1XZLu}6tnS|fah7`@$?0uEPZV;uno(4%oCX3
z)mt|$@!7?2*ywUB(VpMkB1tBxzXZ|QjAvY3DOXq8)${3vO#i7A{#>V$wo^~(=Dz3X
z=4DRlgh?XUx~t{&)U2Gvt6|7kqHA~ai=}&w`cP%`VJPJqO1p-Ww&C3k=aG!f55bOm
zTwKRc#lcXV(z8dS)3wf6WP2zUV(5KFWD8KX#updDVqyQ-T1~X(ccl<_O`(pM8_o*%
z$knjk`TgDxdp{P_uKuL0e|IPTn=P^-w17bzX^eb@n59xhlOTKpjEE`hR$=^`)UBM=
z)s}L#rCseGzmwU2G=)Fc(WLF@?*8eMBp^R+qBwq)rx>otiPfh|OV8!zEdpj{Ere+_
zutNJwq9rXIC#UEjxEXg8P$?w_R(5T)B1wpKj1ecoHrhw!nfl&TeJ|~^@l^l#pT3hh
z^JePIo5{MjlCHOswzqZ<3awPOa*60>kOjYmkJc5CKg3Avnn5rRvA7fnBx>^4qZ<4U
z%8NPSDDZ#j&Qj7=&zeH`w+|6)b@*zfR`R!z<0Yq^ocw{4D+x{oCeDmsoFE?L{M&Lh
z3mKc72pIT`ExE(UF7wys=feupV{n2&ywg<h1UU@*pCcc^XxV~(NCdqk8dTOsM&>EY
zmnM>}USc4KC$U&<+jhp2WGkyy&Sf3Wm5FS9^SZFMoa8;(#@3CpWJ7O~uifEI*4Ios
zCFE|G@Yd$_z&3}U2c8}J*>;+&M;`Dy9DXR#Wh63LU)Y$UkQc~*_<kq(50igjgZT%@
zKce_Y$p5xU$?!JI-LUR{f*cJ>C#dN&_^&@2qTG3eAcGlt0|c_d$%<C7M6l49fsZA2
zh~9bq-NxRn`g<9BFVWxa?7dWfcd&Px`d&8e6w8IOL@CFiRJ)$4f~9h(?@rMrl;b~3
z2X>3trb@92Vb!8bET1(KDGyc&ER;qJfPJd`HaG1Ns#ON6%;%QvBv4S;pv3>H{4RpV
z2QSVzsF}rBd_LmU<PF{hq!wd-yPa6;sT-k~7k?UT_0CF2dtC%)5Da^-?&7nqdSmn8
zt%7lIVTv?EEsvEZ%tyQ9;G@Fc8^N1ksAguwSPY!LmvAicQjl<HO&d^(xi!BS2IJ2-
zE^p8~vosS%#uzJ(c(|+7xeLK)5YmvVN=s2g3`rqSSP-T7k{6N!rD*?Ixm=8rlm|#X
zhW^Xd>T56_k7{8KH7q(mzaTfMFEJ2=Vsu6f5PK93i{Vf#BD=KQv8CutAif|sssXd1
z01`<eMnJ1-Qf?~}8X#gR7D|ADx~Av;`n!QB<Tzl#7PQ>5{noq`7FbdSGV<680?-VK
zeVZ+2!F1aU%nN_vbKA0PS!qKYr7n21B{ZjPjhy&plSVO83E!-UW8o^#vSrzvKn^Yb
zGByi1N=xG3vl*f#^g3f|G0m7QbeDuUk;Q0eMp=Q>dE(fwEyYEJqo0Lb3_S9zDCtG$
zgNcPg^QLqD*F!hOsF#h6mrC;MwN1`PQSNL`oL(B1b96oq?tfunULrpJ+LF3Juxzl}
z<K0CP7_Cxxcj{S)<0>Iy;-#-(FywAQoDD99<AG<*vjsvS*%FGzk(04pgdt?hh0tl)
zk+U9RG_6#P!fCsW7U-)c(Q0gMf06jVi4tNL;H+@l6`ZSa)sn4k%+!viYDZTcSx0Ts
z(F!P?X*`>1JezKOIn#JP)p-81>2%{;tFJ!x4JUmsz8_mVzTr-}JJYWHN!u%b0s{RN
z1&yLq{m~cT-$4*W;U<W_xrpgD2Qjh<qHl=7Z<|bDf5ENV^jx|}TY52bh;gWM4n0cu
zu)Kst3mz@+oU0%LuUcG)GYCx|uLwIJ{%kvYE--ff{Oe~X-he>w>>HQQU7QSD7<(&l
z`P}rGz=hKi(T)%x?jvEHDv4x^7Jh($nK%}o3N)lyB$X>zLQM`ElROky3Lz^oOwv_)
ztHIm{1o37FfMF)M5WE%&hvG|eNqjy)3&P9_Vi|LJa4CSiiJ_dye$KV_J>-iKeqZ5!
zZoBfi?a*Uachc3CadoF$-CHhS)?KrDF6;7VTtwezokK}ybH+K8at@`P!x`uCl=FDn
zdGevOV=-6Sw>fi}U738Mo3w}E1%p1P;K`-_i;|T(bXnG6h5<W#ro_L|x9KGbvRWVr
zfO0T1kPJsdfWd?<2$B$%%EuVSzJy%f3qiJ*3Em0t038KqXE9?0d^AC{H+F;JmTSN#
zf&eg}mQ0o9mo>Wxv7DG!oQlbwR;c*iOn4FH8f8KJP>C^;%czO~=@=v$j$H&Lzql9@
z60V%-rhvbPq%lJIE8G(&SJ|9#?N7P(e>{7C>i5EF*P*2C(C)dRd0}(&HO$yv^lfaW
zIG-lf7@XRi4)IZ<`UpB!Fp<Ei$i{wV31)5XSqXNnWaIalC0O!GC;}j)p|}nj=4ki}
z9t}vuTAtBc-l$2iE^~nrt)L~2{`pEK6T(>qJt<@W5X)lR3n|i#;DYD{$q)%e6{H7A
zFi{}_(A9;@lfd<ZmqX#j3yWcIpBI{#Xx!T~yD;L@uw5i{{YISOEMU5K6JPtKYZ;5j
zp&=r~`8?%^e);k>Vh80*5yGBQ<hiQ4@!G3i>OT^{K7Z+q*5Taoqs^|WxV#!@B|48#
zIPqIv$l71OI3DqXR>dAwCg4^G^dvU6KG0`<WfC#Y(i?E(5=DC^J8uQ0D8%srNbyC9
zB<vEgl+stpVbHr=h2Eg&LhtTo{mKJ@h51+<up275K%zcp%jU)W4=6D9dvH{VP}`=f
z4Z^^Tt9{ee{;0AxQ`wQK?11*B<`vTui>0c1+s0LTAUWD}b>&4*<VE{8UH-i2i+Z%P
zGUMpobo6c=8qXYhEp_O%twWa|Ijb|ywv@9C6;+)?J>?asXK;9R;>XUuZ3j0zWlB1F
z85H?M;Y=s@;7Vx}B@z+Iu0S9d#ayt39Sa1MQDj5?7A1O{95$$oNV3j`=Yw%&fP)kz
zP$5nzbmF0zhzQ-7AoC0|63UaJ<iyD7B8SB43PU<YK60p#*guE!H@GjrSsvSVa!uZq
z3v0t^zAekYnr-U@|GCbm`OYjqo~>_Ld3DW`=3BD-scg?cl5g9<+d!5-m~C!fxwtl!
z=G(LU{%m)Dl5gEWuKp}Pk{upN@*Nv*+@JcvSJV8+wz<-JaC;v|*|jvMwrx)9tET%i
z+Z_Eqn0Ywy59fB6f4iA0sopl*to8>}4?7+%KI}~$KJz7q_Z^EC^QEW6I{c)v)~X2C
zSjT42C;ic2&CVLX7rQE$RdzC$X|?I02J2cT+VxP4fi0PKh)%GgD#HrRez{=#Huq_n
z2J@yXz=+xj`yiFZpq79grCd&hVWnJRRZgC2u}XBRdCGMr*R6%>t*B7rT+<%02IW=i
zX=}wAJyn$+T89#>qLcbdrRyoGl@zQU^*QZm5bIH@dym*g#5zT%!cHTdN3W+zY}U)J
zQA2B|TNsmGr>APA*5tLLUX622x3T^-sPB!_UiRLk$G5ZhX62o=dtXkwJH&lxPm2*N
zm_KdRXQWfK>aA<bO(VEI^=bs~^nNx&?R&;|X{|?1`;1g#H%jTyOX(52^_lG4GnFqV
z)&87Ry?JHziM@JRT}CQ_YBbv2FAktZJx07(pI3^X&Dx+oYd$6Abx!F0yQb*_;z4bd
zsq3$g;)Q;iXJG(>lp)pchyRdxXnGi<e^}s!!A}opy%vuM2gO088-(y>$Plt<6vOmU
zmZxUVJco+p8DV)^_RKR}B+oIH$Dz$UYnPL?pBD}nNk1x_5ssi=$AzQ92&EHG&|X0=
zjv@3UVn^|NN;nQt(F?)}xGxGP;f^6~4aVmbVo$677vLWkUPSDKFoqR(8dd?kFpkhO
z!URIkE}4C2<*HqRpx`CYgGGc*2L0{#o{JM@5BgjZiJ+I_u~9|pG~k_@Ul<6BH^p$S
zDxc{6xHKOgwG&%R&w%$US4qoy^_{P%Od5%h{JUD?r$q1MWfR0}i`N6fVq^g_o%oGs
zmQavBzpxpYu85%MrDqnSr_3+lT5#rFF)BPWyP7UPvm(I@%rC^Ancqm7UqoyHd?*zD
zAcdZzl)TjW1t|;`<XMpb<YgH3=NJ;UCUUbVMGkn!!8bF@4=;FS;=%G~K3@;{9DP^K
zM3{b|pxK&&jJR^DiHX`Up8A@3#sV|il2?F{pDooq<!Nrh=dUPVy_#D_eqBa`VBQj#
zpACT4jV#jS{_<VQFTp5)`ef8IGrzC|N_b&0{wr0IlU=D{z>rDju<iLvfV5_sr1_Z(
zAUAPAC)6cKGQ{WDM7gQ+3)0%6nhTKG070bZAM`y6*rOJbf;>lq^+J{OxrM3He=UV3
zt!HcG%^OSJTcRSX7ebJAkewluvnrBWed?K|lvac?K?8;X)TkG7du@MdJ6SRE3wmP<
z;!J2ZG{cHTWYjw!4KESzMwWp3Qe_r_;O}Bkz^RhnH$@0}6tRuE3z%ks_(e92)bv}#
zOGB=MvJ^4QfUcLIRw+hfD#&7TV678O!i)r}qC;WfsddE~Rxma|Y?|(aa*)}WDt7{Z
z3T`#8%dvjFkGF1MfFXWnqrem-k$DP;B2z>W9H1-n3$QaIp*eL_>A<Z}{02DRaCk{C
zOJS%W;)3WQ=J&ole+$S|>ZdW8MIV*S`JFQ`GuUgRpv76tPKYL++8zP7i}sO%h|sqp
znZTG_Ls^s#N+GmS9Z|}m7X$`79)zGj79su5H8O-_(}XrD{no||y#4k0d05xQwZ7^G
zbCa@_5e3XhNp=;WWEqk*9lhqUPb99i;QtP3Qz4>+t31U-l$yHNEc0UYW=w9)HS!FM
zkHP*oaCz(sB*qtCzc4mcz?sUn6X9Uwnh-pdXdE|&RH20YT3iKM6eDrh3imOe@s4kL
z#~E`AsWf_}su6-@47~IS43e)wa3sOjcrm&_bb=r^s3Qz)MTAET+O&YOO5{?NM3C(U
zu9wU6F!ouwTFY;sY1x?z9_4Z^1)C(83aiso0N7-g9-+V%xkBIS49zmjLb=`u%*Q2i
zoe`6Z%VKg(PK1G2rqFc_lmysDf?x*fv+%qWl$&#Vpcqq-zAhdj(U<I?2CDEF<6Nqa
zv)s5hMuj~79wtfVNxmby!t*n*lGc})Tz8G^r%?rokJb8UxRC9yBb)Rg<yBRT0+axx
zXC?Ydc58B}+(2hs3eKRMS=gt>t|KdZVBc-5q5zqg%C*YorU?g5N5P<q#rNVqXQGaX
z;L%Y?$|3p|0?=wIV!uSk9uWZo9RZkn0%<3j@)JeE!JHDhpAwl@O0|+Of=v(%kZq(i
zl&IPjmZ(&MAcL3U)PtLeS|ub5tJ9#AQ**r%4%uI1eh8{Bz1)Nvb6toU$x)UhCfrJ%
zcZJ+8G^kZ#Nq}l#Dqk#K5iOJ}atgo%DJoWi8rq{PIsTEEAjoy@wyC)FW^qya57n|D
z<}PaUiChru6h6<9OA`#`WPOfYMMU+_k*kP!{yB0L5y?MCu8N!vsov+vRZP79?2)hD
zUDsUA?l6t*e~xz47Rjx*BTf<t_RNvhQNa^$(E<#m`yAN>6+DHlnQJddfLARI6!NCv
zXJ~+3;hMePH^*L|#1WQJ@0&M(xIr0!7}7OnBwf$Zh~Z5kVhu_~jK)YIrr3GF)B{TM
zsG{s5RX!0WvkZB~ys(o%{H$Ivs2fESr`Q7!Y+F=h#|kZ@nw?NPq5r!X5}=$@)PJlp
zMF$A_5D`#l0Lr1MASb9wrI7~ZlB@P(L}6UQ@fvEka&&}IDQe|<`xJtT8M!b{1{K8y
z#mF^L5I}{X(TesFG!!VE8zBIGP&DX(m_x@Yia#U=S&Y*j<hdpSSQ9CS-WC=~rwoF#
zI4Ptzf(_vA8gdkgRXC)yumFJpqlBbYOty4~obQtJJ~_Wl&To+O0Xe@z4il$;2R^x!
zRFF82BA0+f96EeNdYwW`6qX$dO7T4*bX|;*Mw(0%<WhA)bG6d4Q<*+7K!w3<(Lhw=
zjO$@K^F<scp!oj}>o4|mlm%Oadal*GTAH=FKB%};u@=9#ba!dX)^5Bn-(B9absFz~
z?e1UOvUTh4nL1yp&bMXj%?asA)%9%Id^sT_sk)IZ+p(OGL#et$TejhxkiJx1-<GXE
zC!{-7*PW^BPu2CO>-<}`!JMeWsk*~kwj+;RwIBT2onQNCW~2Li;Y{nnRO`WX>mk_2
zW?W?2n|8gJw7s}n6-zLe(V#f92Mhwc2;(2lPlaG7@lok*Q;555HVkMD({61q{}8$9
zDQ2dlrJ3N~>EyVt0#n_#+~#wPb&4u!mo1vWbD1ae=$Pq!uV7j>FEd5L`&~S@Y?iEe
zH!1dSafi|ZSb^%WU2m1HYSq%vSp?)XeQMPX_1(6{tF+i<tCkZms$_CXZe;2->_VMh
zVgW?D`AVe?<dZ%k=Xc5ZJ~?FKAd%gPve;>z<4|3xs(pvSm!gIbEJktG$5$rvH-Y|{
zhDEmGz+NOKm%=6k)PSVy5$cnafP=FwOgP96Y_a{}D^cuqKBZW94mlanYU8OKIuxUj
z@Gx1GsIM_X(+ccWjCpV-O%fN#X0!;CpvBc;0%M;b=L+|@t2eu^E8EeX^>${v`?Ag6
z$Cdr}g>8$ur{W8j-EChj-EQRC+HsEJQTzUn=U@@gekjv^EY*JO&)Q+d(Xu+R)`x|=
z7SGht3cv43yZjIO(yo)){sYO%j*W@UO5e7X+jrs%95QRm?jKowY3)MFx$kFH&08)0
zbk$&{>UgT^c-C3D-u=L{ZQ-g<>~Q94`)bJ(Xe!-nM}GYqNn0aZ^<Y;RwDXx1;53LH
z<e96LA%N|KC-CGNj4YcB<9%&SO4mU#=|&^Spg!7KhpC%6u2Vt9j1X?ZMBZ4lSlOoU
zL1iRZ=E}9QjNhl1^fVhIZ5@A)`(52o;9Dl6yk%ysi31lVtaLu{nO#{9Uhf%ZkVxWh
zSiWCpm`o9AEA}Re!6oc+DUzhvUa~=kd8U?s3`Ud-I1G1f9zp=v5Q#8^jCp$w3>@+?
zv5cCP<?07MepmF;QMZ0?ku#14hTnD8vEQ4^1{>8U8qY<UWwy%nD{=~I=%_d0_Is~@
zKNDEPfvF+D^(M^yUY|`mi$PbAjum!zqQp)-$_|{+By1}|lPuejcTqeeN%NA-&&`LT
zGXJi)6!TeR%S<??91kd?n%Mcy7%eFbin75xtW9)~jU`Z4B+fqULQ%!iK^MfuZlX9?
z+EjAR+BNZ`%Uh22$Mr4WcYNshUis>|$FBO1T^aB36#iVtAJuxZwFe&5JSg4fOd~zn
zp8g+|eNy%ZgPEZVsi6y*q1RJGucwEm(mih^yRU3pOf_$rb}W{<>TM31{wH?M)3I?Z
z<sL{n2eK~Ds#C!oXoLRn@Ub038t-TBn7TNnXAkxc6hDQJws(jSRac}bak5|`szg$b
ze3wS@s&ZN~j`PjAE7K2CMtw#VYw?FD999JX3x3#C<xvi;`mh_^eC|XYc*;Z-&2f&V
ztP^!%%527zJ#u?DYW{xH51M|jCFLGWItTX{V4b}qE#Wf<*kPQr0^-J&{@C;z*w$=o
zn-eGY7|0xaaW!{u2VtcGTf%t~@%WiE33g&^FyEuGqbZmE37otEY|;lXr`UkH%m<z_
zdb^XqMnl(*3XGwf!ePBfZVXx1h80fI*|o>G(L!SjvlkxNmjTfO+*TL_i~zC$AW^sT
z!huEtfR;(=+sKi4VTNr;vV|;=V|gPGmyoozTM>SBlbuhuCIIX1hm0^j>IIJZBb2jy
zeD>+%vu6#7;inAKp1Izp(V|ljAY*|ltCIEpl*9k1x*0Y#?s^!Qtlh#6ukvDpyDPB4
znTbthjkc>*>J9lhj<6ORyvJC6dl~0_bI8Dn#qeN(5gwIU@T^opx=;{CuP|Yw+Syaw
ze6N@tuAomPBp^lU$)dS*Gd<vI(3V7B3H-a@e`BSu;5fMkk$^FEtSpphI8|yBO3CmX
z^%ao|V8OWrTk$xBhDBTv$-o?$_ZB=_J3vAIQ<Z||L9go4fMsi3=j}BLB{pVo^aec}
zbD&>k%RFce`|nz`a?!usve19!(aMs{%hsqpM+TtN$9wdTnf1K?=CZYzj6l#$25!S>
zXO8xG!LwX~!~D)h-4yqBDMFaZ&TU(~Lrc6|s?Ee)rxs@XF53u?+%C)MSy{YT&&u+8
zrkfT$wP$|{?t`1_GHTO&bKq18AE^mxiO(u{=K2Z(@G6vReKK)5Ypy~Il|}_u@s?q|
z^$V4I#<dEx--@hL!Np8a_KIajPsrK7yRA}fu@=T0aU!kRBUEecW+%pri~&|OBulsL
z%XYy{^Cft0n!xEf@Lt1wl{ux=F59tg>#%NBc=at4n};IMB~GxAJ#%#Gtl%MjQtCpl
zh6^I_D%4{n>vL*tD4wnWeQ<L}c9-?d-W(`-Y<IlSsP%*y8W$-+G7C*nlh6#PsIT4P
z?Gaj7uWI9?T0L_#u?0_VIm|q`bu#gf&NGV^h|2^pe<Du6&?OQO|7hl_k{Fr4i7-`&
z7KKzF_QPQj`nG-%l6uJL4)_la`412>gzun#2->p{P$!A-P;P7<$6jJ_{~Iy&CJH)C
zD+UGsxmkrlP;6?bP9nG1wHE9QO+VARvM{YNP^Jie9C<{EvV~6IG@*+L@3^L-Rn(YE
z-fl{vpl77&PFRNgN8}d8gf|dego0#tF{%(aq^c1DH;2w9tVD-+6WuvR_|UDe8+fR1
zK{A65Gc5+=cVv_Q&;Ki)L{*;zTT^K%pv&YEWkddB{sXve;wDpCU7HWUP&X=uV{$FD
zk~23VLFrv+1tNOHRATXIiXs|EHX6nOA*Ntu7t)+Msn_QBUdH7iPb=x<S?GRA>Zi;B
zQ-%GnpdUEd)F+z;PLWsom*jj#LtCkFQaDZ)$3dy?#5>(g>8k4J=NI}7s)&ZVUmbh=
z_RTLSQ!qfD9z~_vO@8!-<cX4a9imt$m<4E6*_ir3X5Oa8SVcNKC)+el-Y@#JhN!AU
z)(HKOcrK#{cJ7-~D7`y(7|`f&@H$oe%P(_p&rM~8`~2QZY~j-gvmSJ-twBGb0*5WT
zKCWpR!cB6hKfX5U8{}VrBbTZc-ij!KM5MBHhHib5>L`sNAN>)%o+XD#LT%b=WG6Nx
z5^Kp;rbLzgXY%7Jp-_a5kAY8xFo!63h;4p{@_&__-y?^KVE>4G1X85^<gAkOJ~>|}
z#{&lnJ(Pt*i5k(VcGTxkWUqGCV4MlWMl4hOn0?vu>Y2A?)4Q_irfg;0y<CF*i`$Ll
zGTLyADVBNi%4X=a9H>c?8E9-WGp$av?WTkCjMqtc6MGB?#_JB(2cvgJla6-Sl7BFH
zXL8%jSM@%zlz_~wfW`U;bh_E)g?#G!uYCB*8vk2mk82w41?~niHNB~t-up+=HAAcR
ztf&6o#k&_X9$(7iyT3o}Ij~xm#R>g$IL~swYSV?QLnf2`lWDlF-X|W;*|BkW%i+sb
zA6y;Jx~kVZGmS@5_;Ve}4j)_NGnM@*NW(6tDi1#P)Mq?BDNj$v<4<|~f95%GXJU11
z_3L0})`K6rx7_<5)wOMye(M{_$}1b<{jvLplKwZ6ombM8SJuAqvxbh1v5%Lx8iwzV
zZH-QT_Vx7WYmjtR)u<J`mZ}^C&0p03r>6GaOLt#dAOBnDSI=Z?>hHaE_pNntV|?TF
z^|^G7Z}lt~f%R)2maU$nnrGAQ{Ta7E<@VoSO1Y1%PW-HX-^TE#&0F<H?($nFE+t=k
zBYgsb0j|6%<LpT}doTzv$Zz6m$j+QB`I}OXri|mrrsD|eF0cCF;+=~b=RU~ik{w63
zoJXG^uyf<pE$4x3W!pwP(><QTU*&kVvgZMxIdDFOzsmEl^*=dgTAfhqz(Igx*)!*~
z_oQzu<vjhEu50Pvbo6f>KA&~gJ+YXN*ipK>W!r47I<;friK*c++fELbxeWf+;OgnD
zt7@(N&f@wjIID1f=s{q!Z-NO#x;CT@0cXbgPQs}<iM%B7;BmIW%DMM#*P>$|9J_Pu
zBUh$=I8{Hq=@@?K`Qzq4Y(|<%ll=>hAGJd^;%>=SpL{6%arh6z55JbIJdcxT)C4o*
zt7vGNQ;z1OqbKKVgSqPX6AQJ`&h`2;zR^wJ=!c_!Qo1_v{&{rogA;d7tPgEES{^m^
zWtvW>noh4y{LS+id}pg7zI2e97<-ZIwxoLOnmpkpj{stucI?;?dogV*4nuHnFldZ4
zL)OB_5Z4sDvxN~Gx#j5$*teiE5O}&*@V1#9t~48DqQ-DQ?5>h<V4#Y!fjPAoAzE`{
zi?C3$=9>`ipxo-hK7qZ&B@mLcc-&<!hgm3^TWdAlP*aR~&1sj;kQr^DF^g%}ClzU%
zP{K%0nn(5srN!HsPkLgsZDHKZc$;UV%^M0@NHoe4e`(ji>p579z!FL`(#pl6go+g~
zuLw$&Wu}PIf?isAh-Nm-dTC?Q^~DIZoiL8pDxlw-RXWO!KILR4H6@v>6l(;|?;Fxv
z^=x*2$%N3K-DabZ#D|lb$(JGhWz?t`r&C!V1eB9K8nLHY_~mwo{DgBspWF=Pjf83+
zMkA+CuPBeMZNuSiLWxvS;e(_9q&gP-iKeGCjnQMU1S%&bbwKTL3;|9}XA}=!#|@1N
zX~Bq$Ei4x#a9qJeomNb?eH99AVc_|FNF=u@_ZJ3)CE(_HzgD_mp~Ivl=|3Ws^b$E8
z<Pc-65C<e6V6=kF3|8_E9&5!&|0fdptcp77KTrlLPOe~;>Rn-}VkFyS1EfgCo$Rcd
zT2L{iZEpN$g!=z46aZ-#B;gETCmqd9+-0t6%E1S?2Sf+w{i%9FAxM>M8BJFoPdbnP
z+&1>phOR$2^FO|{)o^09g6Igq{zuNHjB_yM9Aut>lyhL)YH0xMw>a(W1l$M9cb3<G
zE#(@>)-~OORv4<PNABMH!#_Il$%(XkB<UP^j4QQ3bbNF%(>#)D9@%t_ByA%}*9g@B
zNS|yQPC16rlD)9Vf3k69qhCOW)wF&*jl<El?%k?eT{`>=z*5!trzlkV=5HEs-;fa(
zhhQ3n(|*A)Vw{zycn+}eSHZ%Ya}>JfxJ}EWi;()3&4QUhKs!WGxSxSRF*O;<UyBLo
zP$MZm3m&a)Chq-Hd9~`8LaSAUwx&5<wQCf$tYa*ca}9z72oCf5TBPQu3FjCKUnGyz
zTD%tmPXZ6b5wTtH<Y5Y82?`z!kD55#9BWPd>68NL!gS>$K_nf@Dv*!aapV{~gLx+=
zUkBU@Y-gG<f?+CjRE=kH06du~>)=~s3z#LQUeo|CI1vXZ4i*-yEfJW6Fk_SAR*8Df
zN$EGy%f!VuqL4w%Uyl+~u9#mlwGM<2c{TQX#rI&O9rtz{nwLCNO+^^*mHs!B>T^nT
z>4eM^OvQadVmybbDuFzMY*wgxDM${nNw`!Je3Z0K-Zr&AfxRp%EecCitEMC4M>^22
z9@mgf@8zoj8;sMrM&sEyCi=#A=>qpmyiH*6FVH}CkH)^vq^*_RYuJ)<v?LwApF!n5
zbH6jwdm`0)BHeW|-F|9yV$0c@t!c>AbZ^ykubB)6B-_-S^d8%6ItJxHO)azr4P&P4
z*y%s9KyA=)h7^M}wMoR<xSGC<=U~cn@Ihy0Xfic4`D4$;pEd2@2!86`Y8ps-29iw!
zSx>K;rv1mB;cYip+q3QAT8CHpEn6d4g|hODtutlo%-DP>8!Tq}ShKq~9o_7v#z82>
z9+*?^Ll5GaqgPT#uWY)nB%N21?kj5E{*<l%$2R|NkVvEx{onchr;x!pGC3lf3m&%h
zNcwNmHW?$3i^v!yl9`g#K*6Ks!{(&zZ7+z%YcZh4N+X88;3+7r2)Vn`6xVeI#leXN
zFah9nz`Vr8b-;pLMatE3DPUXrG)`Oxd*(>yR`3YARF(n4=7MOv##^<pIj`n3erepL
zzGu{-+b}>nZj?rpO~Hen>c}Aa68iV__7Is<@UZsuKBGN48<W?bu7aZQn%kc1^p-OZ
z$|VhN0Vu(AJm<U{SyBgX9xNnJRdN)vw5TF21*Mq-G%i4Z>d!TbVDw~S_zh;qQB+(8
zK`)Fn#K;0}rOInT&;!cil6Kc<9*3}37OyZ*cOU?x(6Ne`H>X0)K%Pk`=}@16k(fCI
zu?J)Wf^#7-7#a0KIJ`8!$b`YTJ^{&f!*PudAQ>XgW2h2Qqqu(JR$?HvaWW(rg~%4B
znHb(Z>ZF_MNV;2ihaI&?kr%U5EJpD$e<JoPjS4mER~i;-n&0P9NP0tRN0L0*Uwq+c
zV$;F{2Z}WC3gv7so|BoND>qgshMU_+Ed79TSi)kINiY>L;TlEsl5?CK+K195a>mFx
z04Mjd;`-v%-8`7+%~`+W3ZJ=GS{J~3tQE_WDY_NWUJjKF>{Vt5_9{OFj8$d_#Z6ZM
zLLNhuKg`53&KFY77q*;ZS!Xp9Dk&l?|E9zLm}2RUp)KdI7OP;={ZFd7eO((urt4U$
z>sY#dly0VIeN<k#=E+obq^dg7<(>CUo8>-T+LQEN*>b+guF}|-a_###lIc2`>N>gU
zI+=4XhP9^qiKP^#HkDlWaHeY{)itul|G2Uv3(;OxXR506)ACHu%c-81H>+OG$!4x;
zgB*!j=os0ykgdIgwQIYZt59ys$h)grM~zWT%U%*9T{;2uS@;0W5XZqD0MsG~Q9~F2
zZ<rwEAtjS`<t7t6e;47BzM={jiS$>9PQ3WM>tU}&{sOI%!zfC<*yO;b>p;?WAn7`g
zLm=&kO=97slEAI&DRf08I=0u~6+5-14`>leW93zb3G|^ZKB!NlFr?nNPF)nU8#IJ`
zz)w0pEQaebWwb!pgLdfjgcfF4?Mp-(nKi29TP9#H%Vh91jEkmQGcGM8Aqcn#P_*Df
zaI=ttXo{c&5~f6-s<fh_=4WT=5F>y-Ug)%6e?Gd>6_x-V40tn)MkIef(`OpAcAiF2
zP0e7errlAG68wtzhp-8iT2P^i--vMu<4|Ip4h+l!#W3ZG$V@3=nol=GVyq&-GUpA9
z2UUqi2+$Qnus{Msl!vU9F)Tg_Q_`a7vm2maf$I!>Phg63KstlwV+fPm@=7PkGodcy
zMAELU`wQes9D3fZn}cO0Xt#b7xwUJEaCI=Qe%o{nC2d1VTmVPXe-#unC`U{TT~kD`
zHRB>%$E`fbT2k}E6N?QXvN{K{0z^Khd*F|z+()<E#OElO!mnbAV@db1-8-N5E$xh*
zt8l)9y?>{uh(+KQP4Af`ASOf9vdYcE@a)?*<S4THC-ieL8rX!m);zfjW*?%;N8$Xo
z=~d3efX_RS9n(RtJLWlr7d|(+-!a`YL8js10ek;}<(5gilAAy;%v8<(1JcjoWjw3O
zn64;NxUv&;wD`RR=~QB($VBE*r@Iyej*-$y#MmjnUdlAhY&+`u%m2vzB``Jzz0FSs
zPv5UzJ-ybMsqRcwcWya5Q-i1fid`%D*Xx^1Q2$ap6$SJU$fwg0S6L&a|BArG!C$(0
zZ&O<cC!it9C08j|`+ZN+HSi^eYXtwG1D4}Q?Cd)br#A;rL!)!Vj-W$(T`)*+o2`sZ
zco<GF!Bg;Pa583EBD*vl)*H!UEeJ2NJ`5Y}Ih|K9auIjJln{0!O!F!H8df7dsr1aU
ziwLaVJxXN*s-Klex{L!3G~$Zdm`qd()yDfMOrIpx(zy*cl<Ck*6Nd=K-S5RF@EKXY
zMiV%N%GCKglyV)~avjdP>mhB;xCqB%gWo%L_ZS&LpGe`)eIn^R0igltL=xF1QZC=7
z>*9UkN1;zb|M-Q>@rx<^`7b7I7kBS`8g(|m9?V*v@omw0)ON99WLkXewR8y-FR*W3
zz>Z2Mrix*E!?qC;1<Nzi^2Jw~CJ+UDdU{>BLa^9sH1ZcOzj!XX-iO&^7Fneb8-JC=
z#t;jaKqY5--v%H142)2EQ?b9aX}bp!7_(3&SQ>G12=<mR=2cDu33mEq87aOH$`_++
zpinal4p>k*Z{w_xT7Eg>?ae|3!d<sZaz>;G-2<CC%d&O31ma?q`~_(J8bGVXR~58i
z%iA?IPp(P{H~A?BE($&t2DPKrpb6N$)`ZW=-U&uhGw-T=EF`yjVPuE|`KNI@TeZz*
zN-CX=BrB|&beRN-Gc;eg0f7-nOl<}Jm?XjwaMA%oVym<-bLFV&j1v}$sF-r(G?d-?
za7_e>M#e3uFGS*Fqe4Z*&_YTrqj$6PMK7XKh}a7IClj^mSmY!c_3n=)>WYjFMHCn!
zN&h=`OkzYc0@7>ps&+{|#>J^@P%(PKA|t9uXzgQmVo;LV##s|DE+htoc`-&ee~a&d
zMD+H6XuB0;0g4TcC=43rNxp=K=q?DiV|3|+)-5TCM#(nTGl(eg2{m?yCcKHRiwoZF
z{jqNJq#yqk+Lr~;?NU+57T7hdAj|#>%E&oCwm?N%*)0<6^rYNEGsW(T3gbwZI0NG~
z$*=Su=k}#iEJE2azkst_WK0Dm9@+2!Y#*e8Dk1%#)BU)QhDlk%4EM{WNKfWDYVJrV
zMj{saVt{N{X-N2EbWB5C-wK7`*6XEjy#?4vC-(0~#zm5a2!4}9NjbmbT8*pUAaQhm
z+HqgV_|K;NXVbker5rDPc5u^io@{x}-#MRb7}<hJh_m`<wu%p&cbv(Zf&1~y;MvsR
z*)7{kkF-EPnUuVoI`HzA?cC$0woKDds%hxKROax76#kkn;Ohq2>RQ7#B#?4-W-IF-
zyKB~hcMq?>f&&H2ej{7?3Q&J}MH26JuC8IdYQ1`GcJ-yKt2Wt6H(P#Qc^YOW^=%tB
zGF_u7{MC(qVc}{fOphA|w@bMyd^dpW_umhGa`?gc@1OW^`r%jB>^l3N^_<9hnzEj@
ztfw{Wsr^rmlB()224Hx?@Q++icO>9i72L(lzF&o#g<(_(p^NN+iUJA=x;TQ=(P4HG
z)C}P#?V+h+`09@^#NXk*!-FO<eU~Sw_wEE1*hF#4wHQqz`Eyu(z+Mgdf0w@l^MV90
z2xtsY2{9Yq&BnV_ZK&g*;-eF7h=*(aU0qW8Efd;NgrbqGcX+fE!Yv6rCDIhZ87s_q
z!Z0T>uFzfOL2Uz*FlxI<>AR_I4G-V8<edA|W!S3ByDkn=TX~9|y%$RF@Y>igX+KOc
zNU3*+3mBpj3*L144*k-l?pnzPZ%t+R$|jX>uMw@7I0?H}Kqvu<Jqh>p5>(bcDyLkc
zqewvMJ8<lzT@a?2;dlsUdj#zhquw66*o16i7oqZ_o5ADrxX~?!n{5yJV13EHC&jK9
zqBH}_vSWxTaogKdY|RzqQa?aI2L;)>#0Lm)A1;{&<FNi59hTXn0f4qD+y_!pzG9GD
zNFE<VgUR@y8}R(LS?7a%L|)_&T;Pbb>9}Jlwy@dq$~gx_Jd~D0<(m5PxhAtjhCECS
zh{I$sXd=ZRRFk+9Uma*%Vy19XG|67?io!}sL>eSs-3=I(QDJwlvs3-bjc!cVPg9`o
z{35*6j|hA+{zc`b_{xf(Hjk`LJaRX!Pi*w1-F{NZy_On!ZPWeQ6DuqN*FEds$W-?I
zq<KW;uLg%qiHAVb>=;t+T0)ONkI->{FZ&WFiQ6Hr(E3P=X|IXIO7iyX7ktN`d*1iH
z*@huueTnB^dgs$LxxYgb@)kL#$oV63nC_P8YD-9MD+<yV6wELy;Zy0y<UE0+nWx};
zwVdRp`7CEWh6Om&z)E!pW7a8Gf%sljuwK{m&01pQSDo*BG`ZB8zhZLjx<UF7Lfc0B
zrlaFNpXnJ%^^9bCrZ#(~9yPWkTaP41&ZiqM;A;q#O?XRH9(mZlS$RC`ZcVlyPPq?1
ztlD&s{;bvuL3mw9w&Qqm-wEKhlTDAC29u2k;5~T3v|VbgnS@@ql*}I?h2E}aS3CD@
zy87;a<6&@f@C6cr6JzC1x%^4jXwo(c_fdW8Bd6;LhsF1}*$eBI&E}CEE8g(Qobrkt
zOG$%$wVaNpx>j$e9W5JGn>e$l8ReR*Ch-*<pvWg>R%WbO?ta{R^r1P`dz@6m-PvxY
zBJO;anwQ`KLv=4>#GcKX2_|B;G=M+BePEg~Ux)qVJJ_+e@llAo=J!i@yc4Su&{=c?
zm4Ue_f>MezLP}lNS&f4E`W}bTSbNl(zzB`1hq}x_M(C09fbGy>6Vh~{t^6{-Y+=j`
zF(pMAwPoe#RXr|7cv^f9&%J+wAl(c=8uk1ZJN-y{UB&*)DqE#s6bAUTsn~4>vLz8(
zU>i-{Lb53&TfkSq0v%@`;<EW#tiY;^ZMb5b{)}QDvX?!@Kcn674^c5F#S#uS%Tt+_
z6RDOH55Jyjd2y?53<O$_{U>!}Ywh11OV*8jL9eucI+41mm8p4{z4An+|J79gtDgl^
z{TGvcmr~A4+473jaS}cGQ}}cG|FhN7WWVzY!fJ3px2}2p%*LTVtL<Jh;}aC?HNSa0
zd-TNGM8<O<<vH-6debxf_~>Zf`xj+gUC$R~DCDocEJZ8W0DQ0PbQ>?l(SF}cMZcc)
z4I0xRIg8{NLX~BDB|=X6HF91jhxm2rJLEXXStVzi96C0j$jW}5e6Nx7J~?FSBE3h>
zZ;<l=Icwzfl5>|F1~2~>`F@L>-zJAdD~gDi&H3M^*YA--TP=q_VUYFjP}uj$xk=6j
zIb;jL^n?=8Zqg^@{7>Xel0zpbWe5Abv|@KD{V@gqQ*!>4oPSPEj2yzG(*I4)Uy$?v
zkVA?g=@;ZMX%s$L&Pi3|G?GJ*z2M3_c3TE>{skgqRuoE?vG2#%!7iD&hL)8xtB2M+
zcSh4Z4$1Neb#k3OD-)}O>k}!vH_dl%o1ND4CR|{FVBEpJK5_Re2&GHeYwA|ct;W)P
z9n8<IjkufQMbjD6PwK~Em;R!uB+0j|-%55LPqooy6xNdM5-Tg+Q@irg>g6<Fvu&=j
z+P>)ITJ}BY+-g3$f)fdAm+zLP`J>xryY&?ljL^IL=(6~A%iUw^@sztG&G*v%?tt3+
zIPZS#>UgUCRTH?B_Wdj8*E-idcl&UmJSDUt-M~Smi1nEd%kJW<Whu8W%^#pV2higE
zy$?ILI$ucgP3yQ_{smwPYu``1`W{Yfb&av!cC5$Nd+vTM&5zOOpqdJ<|G>)R+J%h?
z9ArrIgWKkPsOPMS+uxPso7ZR3{QhmT#d-)PLI)4CayL3YeEYs9)iRLghpFCC!1a!v
zB;T+;%!aoF`76*>8n8I)B860Py@N^KyV05E{mMvnac!LsUfF7W0k`BgqOn<i?56`m
z4~Mq~UZlJ3EgQlQ>}meRZF2>NwUujzRQJJ|t)@}*1H(O<<-334^JgnP+4AZqR!c7?
z2%V<J?Qj-MkIiB|Yx=^8oAV#O`Pt#E?$>C1OE)YZI@A1XxOV?1h`9dQnXR7J@onq%
zx()Y-&1wGiEZ_ALOyHr1Z)~-UWB5DPX6|BG#<Tq3Pg*<fk3SH%T2J76b8BK6pTp)m
z(c(WD{!H8&m`d`Epx4|RGaL0EPNw-O8k&<|I?MY?FuX4-ElYX2cerviuC>lOW?G-w
z;plgJsKMH_4nZ}3wvTYGx|NrHYW1vL+34A__GPV=G+Z_J-P;^~9=N}xpB>!hUqw#;
zHjmdYy10^>WX=BjFK<~7vm88<9-`0Q)jT}(CH?3*j%@RI#lV!*ti5x;e#<(fXRs(4
zEcqD@85xo_2h!GqEPV+oh;4KDc^LbWe)I~4wt0H3oH1F)P1~<nx~x6-o!cCK9=adC
z_lK=J<lVVsYOxM}dCG6?{PL>FVm<z)-EFmR_gbuW`c5Byw(VusOD1}u-!E(Xt<~FK
zHT7Euvps#=7Wy4OyF<S_Up19mk26l2!3Ezzx=V90B7F=10nns=J_)8H4CKkKoDhHT
z+6;qBxJD-!4>B+&#*`1`5QLUX>AG%QUB$pRzMQl~MvoHF4GLUjAdw)rY+G0oNQO2e
zk?>uCiyke^pIbVqY~?a0{h>QQr4@Q_W$%PR)lb*^buBmv4cVbE<%2%#enS{)GsAs+
zHygK;R8a}+D2ZSB*oZ_7u0(v5a_EcQ)#zu5{pwLNC1(xgtYLL4vAFy7MnH+Hr8ss`
zqMB1N_*No`-&Lzrn!--6$R+dF=3u_5;72C%Dm@pCpP}h!q#Qi+GK|F#Qv!hn5FVGB
zDo4vsNk@PL@W;jeF&vmInoK)3&gA?zT*c>H+vi;8zvK3Q&ei`rZY0f({2$!G&$-^8
z)9VF9ea>}!&h>rH9Y^5j+~`j&mH(FSdR$ev^2$%kJZo>I%UV}To|KfE4y+0H!gs?@
zIC!6U{icSsiF@bno_oT<yL}C3FKk(p{V&WxlWBOHBNyx3>>$Us&9l&#$<Gp<bDEBC
PbL1L{zToMdt<L`+FQlzU

literal 0
HcmV?d00001

diff --git a/config/__pycache__/device.cpython-312.pyc b/config/__pycache__/device.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..714c377dc81c3b4103ebc15b2782d173c81db59d
GIT binary patch
literal 2978
zcmai0-EZ606~Ck?>eH4#+S#>}__ofHC`qNQNvovFR;06IY|-2;ZQX${EX{jm(cy=B
zNh+4%07lUP9)_XmlO1e8QebG&CBXU*4A^6VzD%_TyF`ixDEhEB1u8ILPdk^CR3-2*
zLOS>3eBR$Z=a8Qd4W$u0ru2K`Z!r6YFM5yMope5e$u=U02qseaD4K#LDx$#WF*9aK
zie$x=c(@i!S&?C1G80x(Nm?l-74FB)w3SgZ;aoPe){rtJAQ~r$XTZ8LOov27Gw@H6
z<o(n=A@Y4+?#)EBfJpj1L^Aiph<7g<P;XRnO(CEC7vEjX3qibUP?O}vAa>bq28oK{
zQKp%&PXElYtH#Qlp?ksb>(`C?l4cr2^9;uZwG_-W-PBwc7P20S=Hr2+`JNL<x=*wq
zrq}%-=5exC_ul}y35_iq9@AJ;^_q3+s+ws!Hz?7&A%;V&yXdUJWE)YW2m~qOn*gg4
zBcdYFIF)H)H94ph&DRqMfaa8g1rSM>U`!!^D@EepgQTQs2DpicOOiBG6-nwnNy&2P
zl%ZxUp9!*av|;EpLSelWjXnzjz*UD~uSPKmWw7U9-=*Phqf+@LrfXF9IZ_42^JX!S
zBf%>Gf@Ii+7i6N15Qji!)bp9GcW*O1OdKeOqVq10ZM1@J3SOVT+P&LQvP(R!5k4D2
zFB?_?iYK359uVQa*vpaC)RR)EpD#DX4e@o9k7=KQ`!w!8Z(Y8&`18eum+@OQYSRW~
zSi?5Gfx~RVhKn^qDB-|(HCROna<;EdZP#ZMc$$X|__^4yb<^i6h8-eX)pXBcE;bDp
z_|?89NNd$9)jc;9(;chsd(ow=Fs)uIr2C@3Vot*#6e6o>ZY^@=+r~RSHJcb1wr4=N
z5UOc*ZSjP6`}$#Yk+YERdd%11q9}H%Pde`_g+bsdb1XOsga(e>BDIz&A%?vIL32bP
zRSa7*am@gfZ0y1Ts5^kp8pi^}v1T^`KbS02NI81ANzEpJ3Dj*ri2vcC&==r|n1hrh
zVAX|OWro*;@=b7{Ok+8SS>(ka1_usgYU>W6L8?aAh_OOlFCPmemzvce(Y>P}$<<Vl
zc6r7^hWzJZ(X;Bsx>0}L)7T32o?r7z7cX2d(IQwc*5Oc&U2K@9Rg5yD7?nez-VCzQ
zl~R=(U4Le7pb86vEDWyP^FTIH`xrWgw-OJ=r?$%<l>g-3E&Xw0f98eO%nQ3S=l@Rk
z#w+{dORe#x-SOXSB@c2FTe%MCp~vb?f{n1=c$#mc4YbNdo_L6G{S-p1Kt$;0(A#ec
z0@@H(dvAaN=?$cEYvBX74v}yhUcc&ybgx_6?+RXKK(99)7`<$7(W_oIc6hXdG1#yC
zU%SISyN8{;?`!&SU#lZM?eE7y|A%8h;tj--1khIdYE9(jdW*v%IowhYzsD`*<;Ac8
zGu|&D<wqdX8PvU6H#HAZ-&%kFie{KmqcZF&w6Q1=F@Hau#dVWv(AQn+g+)v4hQS=$
z0t>jIF+*E6DSmqiI=)(YZD9fWp<0<=ny>t1ZvNFb7v2tQ9r`+UYz!T8*#T3gv$DeL
z8QMUNnssou?86E=g5kP8E#w6@#A8jdF&KhjUL%EGv@Saio9rph$zJoJe_3>%F^2_d
z!!>MZBeqW26lcewdFr)5;^)YV>?qgc$}UF&V}@Y}hE%ogxSq=2NUFL%^;oSv#yiJV
z{{mza9b|Ivmw#8@Iq^jXf152moGI?llv^|9t+~DIk%RGx{qfl^#%CY=;JLOaKK%=!
z6O$&!+DIB5`)(MGOzj-MbLRG$Kf8OmGY7LLKQ4b*z9s#01V0#^-kG~|_4d{KPyhAE
zCr9>1U+QxAXV0}}&)t&tMsQn3*^&LsbSpExbEB0xaWHjkYwizMzmw54zH|2W*}LBU
z$x`cNX?N-Z-)GN3xcT8Asj9YSQB@7ns%kmJH~BoPs_*!k+2tful{mVphM+V4(hTGX
z3<mX%f}E;qw(Ugk85iVuZHM;|qRpP=%hNzUL803aUN*{iIpKfz*Fb)Y9?2;Fs_?LU
zdGpHF;?7HV=RdA|SZPiF=+pD9=~63uVOP4`7Nt0Tltz<B@BVOa;?(BVTjRUZskSJ@
zC)@I9d~!$cAQ(C)CgT?)Z`^)<giXQ#9~Qk2GwOz61~TLTq#WZNj`5F#=uF9alW34a
zI^)eLI`mV$y~3as{-qU+hM5?3>jHe+m@eb(ixoNH0k9u)!a<LcD|smb`=_h~d%V55
z*MPKRf*^E~NXUJKj(&}1zCqcqQSmEu`df7TVQS<bqvu<x7dK_NY%%$zkpAHGr*G_y
cy}T!s|1Dk+F18VnP7H~cI7vQ|U>W-SFQUNQ)Bpeg

literal 0
HcmV?d00001

diff --git a/config/__pycache__/ec_transfer.cpython-312.pyc b/config/__pycache__/ec_transfer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..51dcc55798e53304725c477bfe232fe1ba260d41
GIT binary patch
literal 4526
zcmd59T}&Lud3JB_AMSv|2J^cPk>OnX&bW4PY|A#m#Ib@<Yz&FEiMGq`94y}3yUgxk
z--$$*$d#~KsraQPaw}1_Qn4H<u2iWndB{T^Dz%Z0UL>Qft5Q{Y$lIk<s??``v%9yP
zF(i-ez|GJ1H{X1JGyBKp<_LnOaX(f&;t2hNF6u4dPPTsrllw?P3Zo&x85x0rHLI~%
zpWtIC%%^c#zu?aXgg`bZ1Z^0ng|cBGY|s5#BpVf?48j2=a0ny{O)v}Evt}H?O}IJ3
z+N&6j;xLP@ASHAMDd9(~qsJpxo%$%mi%c@|HHA(l8Oxthv8E(_mTy!qTEPj`#6;4p
z&>S{JiOd;55>_Nrk~PVoi-4TdGwPfb#j=<uIi(<DVlM!06tbAe?tb>*a~In`WT-7L
zqURUbX|RdlQ&@q+euXUs5j~ynJP?P$Izq4k%DGU#5Nd!1Txd`T;|TDEJl-g7@+5{m
zXfuv^(1;6-3UM3*-X?e5EVN)htYhvvF0|VC7H7>O+=de$w?2ZC&?dCw1kfLFtPgx`
zE*~o#Y|u2}Lff%F!zu^va6*UDtsI206CYCAaTh>4?r@%Wx;<!T1GLA39%_L00zd4p
zbb++KBAe{7TE@q25J@*On2gzeDxGk~0+CELr}LQ{;T6>|i8@;_vBHm!@v<b(W8QSx
zQj=B_xE8#rW7*6RD~$CyRmY;LSe#r?B&!9`vxN+7Au4!LmGK-k2ma!VQ7g8CGSm{b
zg0Lnz&7Da4&9ABPYzcV@!c4=ONC`{f;gch&6Yw`|`GH5xtJ`OQkn-nq#DutuD>x$+
zG*iq-RIQ?Q2ymX3BEAg=plceNozI}M5TqIw^O8Al1qe0^M3-G3QpJ%Uel$+EKZNc+
znnUj~riWi}vj|XLGbxANmY8}pEI<tJZgrn3%*Sj!8yCX6sSv8uy~i%GQz+?^{s7xY
zc(=VddVTWh<dw7hoAX%5i<s~duj5<1owvMd@RFi{Bh4Id&cn(v!7+~=Lsk-S@4RI4
zD*PL~s>@n|vZy+MG4B}E;57&fUd?!%KrMlnWz(?9<XkpiFr6rxBT{}o74b;lAh|_V
z!Jyf^WXwC86?FC80@jK=Aaqj&bwO24b7fIK86Ll_owJ#ZhxjbW;3&-JGP^hTm~18Z
z49R8TB%m5>WTbI+7AuOX&w<j^B5*uamo$D}1uN;i0SCZFgLQ6GTL3vP=|!*~OlC3U
z2;N(yq$^+(sF0o#`|ObN2wtVJTQIN!QVlE@h-wy-ek(`~rKz))FRPrkd~jeZfOR>i
zU@JV2Z!78?HcY6>oPo8B6?A=Mg(#Z{)CP@Mh>-tWNSoPwI<MxBn^3N?dHi-^<mEFr
zM{pXXr}J>AoSt6Pv~1dmj5Oqim+SeW)#UgUi&S!{cX$0rHKH%Vp2jKY%Ba?Z`uOGG
z(?r+(bN9~u+*liVu=J$=<VOF=YX7Ov@Rx~+CyAMj#7s5u)^cbw-mx6trh)%V;)MWU
zCte2P{XSYk3zTG6E5Be;8oTWz-a`G7t)pP9r_m!fd6$srVL>+CZCCqXY;U+3trMC}
z^;uo&B148uxbmH*FnddQ0N2>JNqK;N!PO;xNM*FtCGLzL4DBtu+}*Ih?>ly3cXlbF
zB1&?Tr32GY67saHLJfdupauFYUpkoLr#vu)LApX7l*ZrCuw-D~$YWW}6zd%PEhtBH
z;niSTTMTR-<9DR*h)IS?430*4=q#>KfZN1R`%|Qif~h;L!1&m8dRatfB&~qQ3CR)C
z42Xve8Gyl{e&xv#O4=;Ky<nK4s;j0bminFx+h_3CDEB&aWwaTM|MbG$3zg{Mr@j2I
z+keyb%dTJbRC`m)mwz(31-SEf&sU-Y>)a<z51T%H?em%H`H798iKlHnn{9&*bnX2b
zVqO}2I+*@lpgK5GIdZ1vV_MH{`+SL54f&d5wFqizc@pi}i1t*XL+dv_dHdnpmE)rz
zqsB6=>8I(DPXpET#Y*ZDWqgHc;Pj!?D-1A^AyD?2T;Tv<=gM0!*)LZVRA6p1q?@6+
z^sN_{>E%y7J{Hjw7<w|v*(Trd3ONQFk`#1}_U}*)v7wNFAE2`8GA<20=ZSqNB`T5n
zvW&Lki6?P>BhIgLmH4qg$FDtZ|9#JIdp_^{(~;`vwaW0dO6c1E$RcDIG<?n`R%Cn(
zt~~qg`<!WF&VlQ1<5K@V7O4|p*kOBbLri;yI9eT@t_)9CLeu|uh8T0-{redL>Vy4V
zu&*KN1S%MUyhJ-Y`n{?T5HI@A!eYPZUufh2I@*?)CGY7qg&c3PgnlkrKDaECKD)A5
zzMB}necTsj{c3e8%>nu$L?0Q?JTXg0p7ZLSbXnNR=!Om|4~_EU8}Z{$;=>#9;l~4y
zZ&l+LE1`?_ag!{eWRuB$D<q1#l*OWGMMTkkyoy$nD85^eG#3*TMI|STqLZvVa9VLu
zlyp7kywD6l+4Yv*E2Nd;{TVGMnNDKcIh~+TpQ@YW03|v|yAIk>J6fEg%BF28Lak4_
zXg5f^G)0FXeDj!?MT?uw<ur1VVouZUW!hbU?xEvI+l++XqjpDiF|I=?{}K8ofc)pS
z`UlDrD+8<Cy`xob04k(ER12Wq!{w{X#>$Pmr7Fj7a>=cMWQA*AkykI@Tc~nLN_K>j
z@#V>t@haC(0Ve^__d@x~^2~~I_nj(tm;#dk?CuBP)XJ&5LY3>Qu`B>XsJG7+Smk;t
z*-;>C>n)Ejf4|E0Y;u>k5}lN%%5`pXum1hS>CcoePrP2?dRNW0vGv5-YahK|<zC<9
zMz+3}u5dl8^4jH(K(90v)msa+_&ZnSZ3M&ii!pz!#-l)tqOLRR?f*n{-1d1O*xA9(
zFl!ve&g@`knD4?e{!7f`seb|6C3u+Bjht*DeRO^lIxFgZzGK7jZNMz%;i>C5mVV4Q
z_iuZ?s7UZsms5=#^uxw#r7uW$3({wMs$i;`K|+*|J_ZSVsUhc@u)TbhE^Srpt2%Vv
ziQx-m5)kwbH!{${-N!K70mQ`rf}(##y?;Z=4V3%}9sLTuxYgXg^3F!{KsmCxGYhw@
rbgc@N*1?VNP&oj0VMCit<lpQM80HdFL-qh>WuvqUeZ$!RTaW(&%@jqt

literal 0
HcmV?d00001

diff --git a/config/__pycache__/kv_events.cpython-312.pyc b/config/__pycache__/kv_events.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c1a5e4195730de9930272bd793b8dab7effa53df
GIT binary patch
literal 1417
zcmY*Z&u<$=6rS0gwb#GmBn>HT5x5DYairQp5CUx!sY+XlTDb?*9#%-B&CWPkI{Txu
z>$J9tWQl@|5F(sXZg525fcOizb14{!Xe1;g)B`t17DD30%<ejnIehcJH*em){odRC
zu~I1lxfuG?^>P6Gp~z%Oo~-eEa@z+45XgWBEeMsZG0oF0J+XC$Ji{^)8?l_1xAG9s
zJT)}%HXz1hKyn9Kn(QFmz+|_~ZoY2*sl0V4^0(ZWa+^uhxb9L$q){MtY&*=3B1v*i
z;J4jvC(Dv-dPc_IOJg5UU_k;b?T)P1(urmvYS0|f*X3yeXtFMXzBLYDddo6tf#l9e
zB4hGt3^A=DElFO;II_yLL{KlEL=`h{$*RyP8CA}B#i}NJ>X=U_yqfW8YbMD$lkwTd
zz?$u%`YADW^X|1>>c`P$@^-zYbnkFGb_2iG4tVY6-5OOPwXn0r+-S%3w;R{RJoW7@
zM)AE}?AXo@#Ys%mQc@DywmU4YYXbQl#)RJU?u$Zpo$_8ecEU@|=E|kj)zvj&QlEr@
z>&K$XX~^s@o;cj;3jm1nR;S&j97iz?BloM1ArSh`15ZqO_CtKXLpu~lZjTBej5r8g
z$I0|fR93xLT^iqzun!)A_Y?O?=+8@kHYNW*;TnNHB-$f@kKJ9+1$Di}%hJP366zYS
zD7&C+C{RRMJ5nXo{#kFvUf2xX@M3K9Z5m&E*jan)&3kLK$=t1G*o}7rzq!kp*Gy-t
zDaA}>Y=m7=!8i<}7`wh3W88b;WTzS@PT!EvixwpG!C|TT`Nk(3PfO<ymsWmVy7KeV
zl`rr7usgW=S!<+&^1@g~0oi#IW8d~D#-fO^7m$u@CKhEZCAC?0lE;_?4#vsL3A7ai
zOjI$peLskk0g2=plKD~zl+b)ig3zOw^QxlL36<UDGm6eCm{ah)gl_;>^UqH!Fejko
zjJ}re5je^L<JI36m!G1uPp%Hp@<`JR^T-7C#&_hG<;(qd1`qZ=_^JBJ5M3T=&@e|i
z@Z4hm#=se(g^6SFLjU&OyH8&K!WyEbiSx`${absBL-b;jab$w&)BVlCsUe!5IL<Bf
zTYH;BbbfMWcCLSI@Y;vBlYp_Q87-JruL^I~3nCYHL-}!VC4(@-F0uXCbrOBV+=Moc
z|0y)$hKig~6VON}pwWq47IF3eOZ8Aa{ZAuduBV;a;PT4=YRaND2_qds_*W6YbI-up
k-@wW<@Um1wGY?_$Z><hna3n{w1;;wjN(#&)q<E6}UmPM~oB#j-

literal 0
HcmV?d00001

diff --git a/config/__pycache__/kv_transfer.cpython-312.pyc b/config/__pycache__/kv_transfer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0c4711a19bc29692452101e0f5d95e5c7e5404cf
GIT binary patch
literal 4599
zcmd5AU2NON`AAW+er(CMoY=7?n@QTlN@FQb(>hCnG|q1e2SyUdYC&`*X!2yyp(y1@
zIg#KNYLNjBR$%VS;vyU1VFTtM1)2>5_R@zw^kKkOK%NT3;4;j^(1*Uc^MC<++IJ*H
zJC4&nZfE=MzTdn1{_f~MwzY*3G>!YQ`r8;n|DZs#1>DKTPhoNoDM(>7Bse1@FaWa}
zTkr`!hT?o0SMUq|LO=)<T7(uG$7#VrNC??;zZNb;gb0IhKnd&tjY2ETTI^XH4&YYY
zmSb%wiX%A0qDx2#-a$&}A?xhpp}U>tD8wpED*O$_j;9#QpHs1>q<ofdRIgYqmsJxJ
zNwb2}*c2r)Z2(J1kxWU}B!dD0xv1yV=@e^4Zp?}$QdG(^CRPgoQ$;iH;(^I17ce2z
zOtQNJd+@oy#tcKPgAuiez)pgd1fRkR9QG@0wFS}h`c46J2<#=aY{7Ca)-MFHpIXI*
zTZ9k}103|EBDmGl74oocIO<`;E;b^>a1>-)UARqXw{=HdI3{%1^mYek5$?qCPdXmL
z8E6x_a2)t|Ii3JLovs`!?B25TxQp!)x^WM1?Q&t@$+1fJ9ZuMzB$XZ*dvTw#8}|Tq
z&mGS5T*AZlZowu!Y~L1aKgh#=lmuuSsIaMit9>kcok+To!{nUp!|D-dEECC8i#nex
z5?)aalc-Z=6D#~!mX{?tk9pG-OOIQv;Ae2Ij%Bk*tPs|xRUM0}VsUa=k*sza2IU+q
zAu4!QmGLw+5B~DYQ7gJhGSn)zBZd?;cOvOGzM;mnHIyU>K@DpnWvqsVkB+2|z|XMd
z2OVlj-8c@6G~!A{VnR&D6r7XFnknWax~+<}2WZ|dMSL3$Kw*emtLG_F0m4_qVo5Ud
z7p-orOH&lWqyPpGwW2I(;*D7=K(JXRy6k$J9trv3kH+%G2hiO^)978s^yo8g?g7bb
zCY7+;9Mg=O8Hn@kt?6xr`Gjre@Jwhs7eY<GciB010;PP?A7J?~@3uEbuZ_Pke(41N
zW*+N!7873Lb$pArvz=EBUQ!frv03EJJV1_d4twGl(wBha^ODJ{@N4j@E^B2fqUwOg
zyklyE*C1ecHRnkJw*>x|O~YoBi-l6zbmD88NTqx_?6F=U#aUIsu(P~m<ekOJx_YyW
zwF(ae-Be+_uvJZSbx{u*p1i#~XEB=&kz1C*QJ630wlD4p*_+^Vq*#EHz}8?PBZCW5
zSW#4c8a7QW0>@KzN#pY>SV`v%H~==bSm!pi1+epyUIF{TWC}y};GI=Ux&k(Vy6SD>
zIV+?+hKn?+%LZ0JtAXV*QO!!qZ?#ZEY3h{aD=4p6J~*%yz`9&iuocSV+lo4k4HIfP
zXJ9R7wYWaAf>cZdZi7ZFM96<mXUsw=Q&LMqCKP#W4&5$~{NVVF5u5?-nGzhTsApz1
zt&njdBLi9ERe@5)YIXdIMXI@)++JDITgm5OP2(7JHME{U{rr5(lX&mFlOLV@nXxo-
zf9~<X(UpOtje%pI<FDeEAIGyR@oXdh)_ia^);%BFpn?BX;spUgkFk-1c)y3{&<thS
z)@u7q%44_9#G7ee%}o-F%`|%GChr^)Ju2v?t8HuVpW7L4Mw*OfYjf7rI?Iqj6CMgq
zQ<$AK+=r{~yR_U#Kj)enKcG6=n;JLA_Xl^@UF+MjzVCZhVK-N)pbAQH<JDc0P!dYC
z;6e?6XrQJ01Yg~q<|jNf#X-749#k(}(XeD--Y8*N%~hHb{4FR)6!5Autt|#N5A&Pa
zH`Sy<gc^<PgU;g0Ww>Yjv_D4T6iwY}1;(=1=rt0~N?I9TAf!l06bKI(@*)fd^(#*X
zDQlYuH-=$~s;-)%SnYo%Y@eb}Qt4&rYG^eQ`^o9Mr|XfuPm=tvx_;gJi{4)*8p-th
z`47j}fOhKcsd{ApGWTiggVxVp|03Hsb$Mm*@{`WQYUe=*yY${VVqQJ?<Y4A^fyTj+
z`hnx?KBnWuhR+v|t|MPtbUln(+aE^~E0IJ!GPr#G)3+bIT^||+9qTO9k$I9C`7F@L
zyjD-2p@L_bEs{QzKFfd*IRu-1Dpxo_*tzl+OrDo33Mw<V8PdnlT>8$7%k=W686UG~
z0t`K#;%t*|dWEE6L2?ATt@iI$4Y*FdLIQq(%Bst_I{1typ2LZ$#skpR&{{11IL5EU
z_+_phJN)O^)kj^wPy8nFMbDoOG)Ax1hp*OySN}&AAuq!YpRtJ*9?Qa&XTO)9F-_Dt
zaPvJ~9e9pKnhYweu(7itCOtzOYK%_ShbQa7$^Sb;oNIm{Y>yGw5KtfN4~XX)qRCJI
zLlAfmBIk%+)d!3h{U-o;Ui8mwl>k24=9oF}={12IZ?dEpD3%W{%aqTqESB#EhA$@f
z?b*Cqol3Kdem>Dh##4{a>Vapxx+C9BSjp&v4k{0g@}ZU3(Bs(fN^JPi{ztbOvDfOs
z*X-k_Sds*`@f2?bMNyXuSQM?WD7w#D(P|aNn`KFJDJ`O?6lGC#lGQG%F;SFsz39Bq
z3?SL{wgZ%sPUztCP%BENlh}4ncTucQ)lIUSGIi6ghj!GC7N@APX<Ld=>l1nilCUXL
z#iB-16dtB<5F!~K+Gd5&rvVwE-AUS=f$o9hP1}~Fjbdp>H)Om6_54TZ+W_*PTpQS5
zyS%V}k^AUSgWC^f(jQz8pyb}#8}r7(^}E#u$FFj!wZy(U*R>!wxP6pm4`tzN;|muW
z+yF%!1w{Y8+NJsIf^zqV4Q?+*9tULK03at8j@=a+T>m=D`cvycl<aqvB`MoWz}A_p
zU6_Bl!6jC?^K0=QD%0S4R=JCRKk~}w%2!9m>RfWsTspTLUwZxH_Zr;TDmSwBQl`!&
z7UiY$AI~(n3{{l`RWBZ@bA5}~8(eCYJG;)c`+FAU4Fto+3sHY`okxKvWxd8Mcl{I5
zal_}KK-{5bnI(==vzyc`^L<pte};K9@h=cN!`P8!8$8uccxwE^&{+}hzW~^9oE<PL
zC3yQfo~B<n&V}4nswfh?-R1OF3HqgDb<igzJPzqQK3z6d%^>uFMP8*H%~I#yusuFT
zL3*P(85KO`1odfh1#t9IH}cTIWymlaLBz!Vf+BxK$-kl03QB#A4t<SYSZnL5?;2WZ
zOV`4yTc)A*h2BM>-f?gxG*}COW!T^<6aF{*4#S*b){#AcVc7`ng5PpB!rsY$0eZ$?
AjsO4v

literal 0
HcmV?d00001

diff --git a/config/__pycache__/load.cpython-312.pyc b/config/__pycache__/load.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..80b62b1805827267d22a2fc6fa0279468bfd9eda
GIT binary patch
literal 3396
zcmai0O>7j&6|Vjp&#!0fu`v+94K}+murolw&H~wJMPQfMa#q0swzE;I>8cqw^v_V;
z1B}BeRzxJw9%4>-l^mQK5h%(bhdu5QDHnSO39GdvMo|>yHY|}M?J4hd_Y5}KD6N_L
zd4Kil)%RZ2p9_U7fzOsdvGi?({0%4FFO>{l{s9K}2_;mpiH5ys3y!FXj-*Kf&LvxR
z6isnbS}K~$cAt~h($QG4Gfq~^M&p#7bMjhVAWY;1(Cf1cPQTV4@zQqDDQP8vxH6Np
ze)yL}!t!k3p%D9_4YDjti{w2*Gq(xNJ``j6!^F*Qua#TEMDCwRot+TF!rX@+oY7Ce
zf9CY`x!LzZ>0P%4ROPJ2Y#J78*y+~|+oDF`@d+W!z`!tV!}np5GCj9u)nSygTr1FR
zuU=;;m7DPlde-BP5ujXYj=8?atp&zUM;d10RMhnX`4Md8K4C-?DAB~9KtMH#iki$6
zmRjf|g!NJB6sTkfm9;cesGLxhgqqSaAlpa#;yDB;%W{v>y%6PDjujG}OwUsPCQI2@
znlyKtY|<^V5>s}->P$&2<P!@8ZGa8Js{P5lsFlHs9Q>7<h#HA}Dd7(woetiXwIT3u
zm`b$#XsCN!R03~MLZ-vF<=&xfizM?~B=cK60<A3`f`x6HER3||iIFgi2NR#c!lAft
zawD)jSFL$mwSjB7bv2l0s^d{+t2dZcpAY;>C>zbd3v(!;gD9NrY?!Cs4L71ti-)pp
zEVRNMzENXAblyGy0;K%_R$%oO0HH`(&1l+zUNcO<6G%s^L~@Ml>?VlnF{r{6W!Ei}
zZGj46U4sA1G&GQNLR~mdCdApV3xKY=<r;SNz=7(4-xIzarQlD#o~i~;quQ_<Zv_Ug
zv*4|p&8fG)dv%IcZR>Ki(F*20w|d>Sooc*r6`ig$T4DN>Z8(>y@y<ed21s$VDqZ3<
z*!BUGWRZOCt)02R@ub6|Rd+qk^o9`xjJy6^SZexA53W&1_uOcop=36i;ZOt91)}2^
z4H%fw8H6d$f+ly(B&We5AqxDXJ^vC0_eq_6ECfCNl_bkiu=@q55q-CWF7&UUr>}io
za8cor*oEJf%xgk0?aF;D-V!0&lJOXp&#K9H@!cQKLghH2UYutxyUw_3s4lyqMx{fw
zeAS?oQ8n-YR4|KUe5j`mKxuLYJR?vo`1z{knsyUaEH}bo3>9CsEg$%`o+d~ewHh-6
zKN2%Nr_l^zDA&2sn6G4eq91VYx<wgyHgEXz@nTKay4GZNO9h4-Sl}+WYTJn|ENgyG
zKk_bKEaC&An<g9-Q@z^ji}#cwC)67E9M}oC1`GLB=3HhJQw*HOh%kr~pjMr?AWE+4
z!v>hYDLOYX7MPKS3qZxeWd_;DzS*SVQiurvujj=7SfSDrIEz^c5T#(%XJ(UIL2E(@
z`!G<DAED&X<Dmo_4pYoEp(KQvd3KXpb>;^XQYib(u7!Qc8HH(7!-V${v49Z16Z$Y8
z9}d%zy)d#Vn>I5(0#W}MG>fFOi|kSF^nF?0dH>|SlfU&>rhaql>FCk5(WC9rW1q7p
z<(a4D3v1;I?ee8N>Gk5sonoARO0;{}l8kl5+?*UZj?!o!4DOR#!j)bU0U`OiPzRU`
zvtUNCy&G_$iIB6l&x;`Cqn+-)wn63s-!ve_qhyW?<HFueJN#x57flU7vq(0IJD(QS
zwW8WC?psaoi#D>wa~Z@U&ovmJ=UDcxP7%V#UloE^sZPbKKLFmgptt)gy@CJ+l8;KD
zkw^$&6Lu`m@)6*2q%NE~hlQ+r7t}l(c8arZVN-8Fx~tv#kDTPDIHB(M0T`0a+%OeC
z2twI%Yu<#&52N{A&}@m~j_w14>91AKh4IaSOr9bCCB@O;acBTHX_Eie@-J5RRKLho
z|8)AZV*A+pkB@wDZ05`S;IF6ePOq0{*Gr@SQlvtECre7BtLZ&ayeGDYX<c^>hv|Bl
z)pbBm)5dXL*RM4VJK^-{I`vFlkC4Fk<8JVM7#4Nia9uC1K0feE$Qr~3Lm$f2G6Oz@
z^BgwA*kBys&V;JQcSpm^o@et>WF5o?pGEu#Hj~)kg%<f5r4%pV6dOD;{}5pLSL8*C
zC{r8z4=zqGm6v|LHn6WPAMA)D%E``QqK+@lER8M8_YSn>v5qJx-v+@|dH1p(3FVaZ
zi|ypZ_a6sO-kw8pu=>X2+UR6ko<rfo8#{I{p1pH=Y5eXF+wyKC?Rx&^p|$T_c=G1O
z#UCxrEsx#%aHV`tZ_5{vc~02ay?0d}TB2=vFA_={M<!S0?aN~;^2+%KV=I?_*T1&2
z(v~MXVp>UehDyrzW%DJ0?!`Ds4KMxd!N?Qk2x^Y~vD_iheOCSoyO$D49gXO)+tl#t
z@EZ><K2eT$#Ede!zGvUccRsZqjD6~LB$#hx3U|!AJC@Gh9sNpyIqFWnK*>0e7`}-i
zJ_cQw3R(?7F~>yXm~mmc(V_<23}$qO(Q&}7ozN=1XE5_Q-mT#PJ|Qac^;T&H7Ss!T
zq=dPM9w!3F+ci`pO8oF)H=*XjOQ^E>9TbD=;Qte=#IG!TRmZS`l0Y~X&=?(C5d+Ve
z7}f9avmk=S&;Kbj9Z3)bcuxt%zmom`AP1k31Aiyu&&b$wsq{=f^%r?&V{mwJdVORk
qoagh*(9)%LX3t`(lOkezUC91hGzDR_L$HPTiaBi3FJzoYQT`8&tcYj;

literal 0
HcmV?d00001

diff --git a/config/__pycache__/lora.cpython-312.pyc b/config/__pycache__/lora.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..72ec99833dac23449650a27cda8758a2d17de90a
GIT binary patch
literal 4632
zcmb6cTWs6b^-`iF>Sf86Y&kEPapI;*8rjavS(Bv=^61;`k}T~w6f7-X*>p)ty`-GT
za9d;O0C&UC7#Ls|?NApO&=v`>e(rPF$1q?&)@;Bk(X1)DedJG_3k=wPb`B{qPUZj|
zA)R~fdELW%&OPVyFUe$#z@ziO)CRf<`35JQC)`Fhvm7ByL?tSx6A8zF&KUtIU<9S0
z!Araml0uxv4@+U-2la>{NP-cSqDD-LxjbHv8wn}l;vqe0bV*$<9@bMvT1vZkMDI3w
zq#hR+^o)^}U}+j)Nw68!dyPJ+&*jDRoY61!bHwCnQ0jw!e}K>)y5lBzijTCDhSc~D
z#C8FeaIxKhC0%R}O@n*_{({<dE7j4u74BdG@)S|i?+~^7X23N_ZhC`1O8Gih=(&s3
z@dEE8ul(et3-Y<AFPwYsnenHb;90Zo2<LRgvaTx3i9D~_lqq^4=)}%d%(6ClUMty7
z=%Pk-)kzr@mFn`0qHC&RS6G2_qJStRREG(Fnd)U2!zEW0u()PwwyaksCn-v&OEt!*
zY0FhzvC9=^pvVho)LRUv=akYEZBK&^uhi^{6DjKz#U4H32or6r5WR~#cvnD>Mj#@1
z62UwI0&ML`0Cx#&Od-H_0+sCoa0OP$DQrTsnZoL_U9VD0R&>2`jjAQ!`w!p7Hqp!y
zp+w?TA_aa7=_Li#fW*@f4XeS^AQpv1Xhh{z{#K|H2uYw(;D<fF8j)f&4s)SBk4gy|
zRim>JLVy};Q{z&Sc1`DfAAE$S+meYb>m}W!Xa`>EhQtc1X`i2&e$-d@kxqI@y|j-;
zG08xu8+FvEl%xH02i;K)Al>(^r|nw?IcoMDUfKz7yG!l8)z?WwHA8m;FZT}b+ux)1
z(>&02fc!u`TG;8tp08Xw>qT}p=Z!U{*jmLDAs0mC7Fi#x>?954I%Ew~WTu#}vn<dG
z0Vkr;vQpD+CooB!Xh+1l=w!+@U9Zd5l)_Z1x{B7gXQWiEd2<FugE%qQsERRn6Jquk
zuelU@9g;zwsg#rn+0tg|Yoca}Dy=eFQf#V<im8g%G+h@bsK}^MnE{$+iZdg{(Idr?
zqIgzSHGC087hNMY9a2lQYSn6m+5X#!imFuMd|7CHf@<cZSe;TVuvMwqMaWUn_3_@i
zPVctfIXRc?xm#6WZFACf+ex>#NHz@bwVg1dc8!@OJT09k1V|A6n}2c>dy>4#&2iIP
zCEAj6WV)SP9aS7VLFdRrwK_*<i`w_l>eTW7PYX-H1JCzZ%k3ujt9=ix#QhpLyQgKR
zI^1cjNDn-ArbC$HIy%$69ooIIbAVLtR-jW#rgQiB9jqhwW?(LGnG}M`pCN!TvHiS!
z_R=`i_s7MTr>IG1C=(UYq}RkU7II8K$QsByyCT|CFe|wQ`!QdgnpTZb;3>AK!4ERl
zEa^2=fwZ@$s907?&;cw_*DT<deNB*7%4J%zEmy2mF{(A&JLHp0sZJGRzUWJ=GNY*!
zJcC0p<t<h-wKr;1uZzGiZ4KN7SK-{@lAe>6ukU*2E#~qqo7GB?>{P6jA6(p5a-9&%
ztYW~MfNQXjHB5~O>YgHS8g~R<Ps6i3rNJ(lq6IHNtu4EA9rpr{uVU6={{WewP{Qc;
zCb4)ZWjOb~6AxLT=nGtg9+j#=WdN%dg|4aD^+Li4E7dABRW<-gzy=ZQLokHk00J!d
zP6W48*Cw2xp&oaFuq{rQnk8tnPIQW1SG7rM+0fy63)(gGRxgr{fNC;GTUZ+)kN!P2
zY#Y_#s#ZO0D{PY5hp*ShesJ>jF**#^hpX`F6?1q-*NtH>G{abyiq*Q4@WM`IG&!5Q
zSNDrs8PC8n)`tM*Nvoga#f3;yNWItfZr2TaBUfnT3hTl_pR)AU;#=#&BmR6NH{8e#
zuL~nSW$Eq3x7URO{(K`h+Q^Nr3rDt4jy7^f*M(z$&+J?}wRq}7Yh~<%xs8D%je#R;
z1IPYA*E7#=WUe+cSJyJHEC|h1ZXvY^{t+kS#t(wR;}z(>Vha7+E2e)0WQjn@M2!cY
z`ONmEbdJcr<Q%#D5bf=CUx(7n9<i~QyN}9kzxD@k4c^`YaDu-H-E0^BpMgFU5`KI(
zg}v49oZ_Ri{RPpe!8wQScjkwp-+9GH9j;Iavi-2Wn~qNGs-oBE1;+4l$c_TtLhB+s
z0nq8~Tpg*`+`X)sbvyq#w*nQnm3R&97y#zUop@>^zNZo2vl<_2?j8Ch|8aid{CXna
z>LTgvLcEnET|FDgfktv*W&bC|kBfgzj(pj(yV<jMW&g(DvBu!B)xF1CggcRM<_AAA
z-#1tH9RBo2tsvJuvKb6!x>_Wd>}thaTkItIobc|vo~xy;-4J^mo|Mhs19({ARc?l`
z9_W)>H9;Pqt--I8dx6|OjJDq$J6(Z^cGR;(i0${Y?X^2P_pe!pYt=aX+{;lR>=qIy
z<X(@Qm}Y4vR6esr*$6D-M4$pFHWZT(6#mi_Tvsr@><IuCzMa^PazAt%tz4I{Y4()7
zb@yiXZ7Bo~6VlP#lK|#PGoE_yiFcn^HXHHBn)!np`H@C`Wa0d;Ui>ndTjoDXy`Q?3
zSx+ARGC%ZN`stP5$)Cw<`5z*`6(n6nH+%)r5oFm^3@Xb`Oh$KVI^qdgexs)7ZB9g%
z)k;a0-NNc5UQn*1r<dUFX*nrbR!p<v^)L%$@V?<?dr&iNw*ou-M5Us8=fEw-=TYV?
z04Iu;&R@X`Cst^u2j>^?x_K3Eo0s9T$-0oS3%1ug7XN#%bL%?8lg<h#%d7BJ=0=5$
zAraGn#SxrAfcFq~0l;U(-39mbG5n}-0V39a0Q{VM8z!N_JA?b@U$}94jo;to`@iVj
zxib1`_j>Q4`DYfaHU3bOA8Cq1t9))byT%W-0>O~b63E^mP&vAsU3?tWS^+MUy>oD6
z{@EL$rTAieS!<*Ztbrc?^cN$?o9Rr84<tvwi$q4ltNf1DU57VGBouC?xzK1UOrpnE
zh5ilUSVK6rCY*rSg?2B$vQm2g)lCursW2Hny2@v7sLMxJg3Bit%@w=RcW8}2(h3Nn
z-K}hIsDHV%NnrT4NW#6#2i8M_tw1!CU9ta3VAu?j@IIH&>f=LaKL6==1O{(ka3=}_
ztO$b>hK~a1<P48A!?W$}H=a6%;dF#*T~**tQes&0y)?j$cd{Ku(f=5x7Q+MSbbCf+
z_`ZNE6?`CAZkU{I?3&OF@e8|Hvo+mfc(rumF5UZHW=W)Uxs=ZLvgPH9C+4ZU(Z1hc
z2|uA3-a*+#v=MF_97oEt2wp_sCd4Jgu+n)YS~%?;ku&U7pkeK{ehmOBB*$$EgiC!z
zPOg!Y-;l&tWUN8PZj*zz$>2Z8{@Y~VZF1=AVEQ(H;BWllJ3YPg&ovQz9nIc&Wi6VY
z58p{-R<omx#F6=EGu5}6JJm>?o=-G;A>57LM^;G>#5y2+!NnF2etu=W=kay!)V~5R
Vaom{}K?s2ioJJsg%j4Yj`oA3XZZH4<

literal 0
HcmV?d00001

diff --git a/config/__pycache__/model.cpython-312.pyc b/config/__pycache__/model.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c3ae8de216b2a34fc05492b43b92b0e3cc929e58
GIT binary patch
literal 74258
zcmcG%33OXmdL{@EAPEv60TST8f&0Ew3$;@swTs#)yNoIug7_XON&rYdfLc(XORhL6
zs>+F}R1!;7u9&X4r{pP3!eo*zRl1X?CY_FZ`pg+Tk`CZEN*`5PeL8i{^c>l8^;Bhg
zdglA@Tkt?V+OA6SBtG1C?|=9I-uvHwx%b}}6y%%m1g+ngF@3>o`j7OXK1GV-=_lDH
z)0?JqCeFl}gC?K+YxbGhca|>;zga;`$m+A2Da;bg4(0fALb<+N_H7N?LV3PC=FSf0
zhwMIk$l-H@3Va2jLSJFX>2tC$bI|2;A%0G<C{*k#4!M2qkjLi<mH0|ncy6#XROTyV
zZd<TCRN<>s;#GyJebvmJ7pw`@`f5XUzPgat=VgBR!TL~xuYtMk!NyRNuZg)G!RAnl
zuO-y#YYnye+L&KKuszh_>tOD}U}vby*Tvk<V0Wm;*AwdX^@jR<eW89|e`vrr5E}Fi
zhK77Yp)I~Gp{>5Hp>4ixq3yoyp<&-Ji{}dN2<`Ok4DIsmV&6r<-Jw0cJ<MGk+#A~G
z+sEAQ;7Dk{Z@<~Z+l3uy15fZkXw)~#!py<3(80+pvnh0ly$}12DE>zk|6{)6%%>!H
zA~fzBXYSJA$<Qg^DdsK<o(`Syonh{Bq;}SKmboi}6QOgyb7oVxgLn8w@i(4j;`ect
zct7`jrTe+6?^|T2?}$NYwHA6D@lWCJ4F1mI?;M~z_~*ZGR$_mFFW_qUrm3t7c=%qx
zS1oh-n7>c)|02HXnE#jH@-o+paMd%{OK>$Xm!Ch+2Y81Zi?{Nl(`J5D{)*)y{R@C>
zWRR0^H8B^*HFGV~S<@!2^}A-SZQ9JWzh&|9NU4dR;=e>NN_x{=$1Z$L;~&@gT{GSU
zc~OD%Wk7ZjB;ShKmf^3M>%P~c*7;tq>dG=5GI4#cnYjM%X8|0K+P><qZ-yJ-1Kc2L
zHN^)g2dW2WruUSU8+y&^yM%IV`L5Y_84y9h1yOFL-Q;ppEPk5XN+sg9y=L--I5Ylj
ze=Ca{M%p|0COJKBC+|~SyNpv(^0jfhU(4}@dDo@?fFw6OoBBT50Ekb(8vFj;v#{Kr
zx3YZ#w^#eO58n}P1U1-?bpHO?7-*jZXrKAdfEfkM6>bda9OOs2L->_jH-|fnkgF{A
z5#t=Vqx`k09PSw4uA@bdzh&0a*^izuEEVfN#7pPI?J|a(a&RZm&M{W5P3nl=3v3$S
z#*L$7U(Pe-nYib<lc?P({=Cw|r}?<zI)k#D)xIV)*E!yyK<wh<Q!ehg*Rp*J*Ujx;
z_z5-jc)MA$9S8)2feS&tJxj_x5}t`Z7Z9ZEsTn@VAvAAlCd~OGbNpm`wp1|j!l^O;
zfx}}5jvX04Bw0qn*QMO!Gf`d$1SRWaAQF{q(|pt)5T+yTRw@6$Y<OyBdUR$oDixl+
zJTv!PAUMMXqBFB$$;mSCUy*%g1<4tj<@jLQgYpJ!U@{npMDUU0r_9f`TO|9569)p5
z7x{_nbG+m{abheyiKxQFsT25-Tqov((HS@cK{<QGb)1@=4f2BaoquLN97YTzfb^Wm
zfES|vi-E{RY6mH2l9gL>pe})ERPa*`k&Jx?t>X{QPEYf~duGWsIWGu&IO?AZ2BK55
zLa5y#IpjPJ;wuo9@~JVD#A?WWamqgv3QY6<Ibn8^k3?n#HMm#_j`G*ED9mpTMV|>z
zt8ncE7eTIkc#`)=g+Mq$S@VKFI(wN9&&1$Tax9*S_yI+2<L7wxE0sir>wZdt<HHf&
zk2aqV@)4;*^`7R@F06;tRI1gWNMMRbt|)WFA40=W=Sbyh=rg(J&qsIw3bSbAEUEb9
zg-iTo^lWriK=rAkf|3j66XwH#8UO5sOa6Ib22Jb<1+HIU<pM4UJU1gC7X0&%2V&Qc
z&jwHzd{s`)hC;Jp{{;a)gm%<zelCjsq<%Ri@MxHsFwe=oLFtY}QFg+-{eele6E_x~
z53zKSf(BK1DgaCl@@dR*pPmmOT8uTx2|jvpmLp_z9-p0_iAGMTy(kr;B~fDj8b3LY
zI>uVB1cRZTOwXQR;5sivdS2Eg8LKn`Wbq=BHGs4*j;!I?FfV2Ep$j}G+1P-XnYu3J
z2>jK6z_sTITQQVr<gvcvr91}70c(Wq2oZ)UI6E>qEAYY&au+bXnG|N`*jUWwguqm^
z-72SJjRa?}O1Yt#2%v%(4D*rbY^Xg)3B4EyPD!~_!P!8xf2(A>pt`b|LkSripy4kB
zuF_~hLrD(B4ZOb)kz5M;^PC!9oZ-WuwDM33Ne&&VN2GiVNTBJgFnJLJI1htV?p(=*
zvBC!gf7&NI6bM}i2s^1E_Tbf?EzlC0ZW&=WeNwv!dnw$)V5MAT;4x3Bz<=i4`1sfv
z|HR1IV`ty9=%TY0b*bS8PL4k}c4p%21hAwmAY7P1xiRDjH6woD*6dXt)2dL8oF?(7
zJ(Y^<>32c3ziHx4M1%XXK$)9;7B0(Y<+J%5&O$}UI$-tX@-}>DYu|Z%KE895?_8f9
z^L{R^Qt-8Dz6E?CpUo(V94=3b>*QU4%2&Saz9POD-wrL@&3pKgOD$SiHHVUZftG$L
zU#8_+DEoqLD(CF?oGP{CtKch<x@(irDi&I#rC7~pYbh2hzHVO)YYmSERm<1O_0nKV
zv@owOg;LG8Uguk;`8Mc$%QfFdv|5?cY89Gqldi6nnr|~;TjWwGF{+d>yRVhCYqj!S
z<7?x~&=R%Ecb%^tG<6Q=)!;iBe7*MF#l9P~?{4<psD1aa?<VCt*Vl_yQrd;lD=I!T
zD-c#+A0YabUTo3g4IrKDj2NwQ81*GTc&|<C%OQRXO5Co++^TCoMrAWx-Nt&WbCWc-
z^MeQ<R;cqFj?vtRXZP)3_32hpxB7MhZkJNp9xcz^x;%R|-#t`welNd|dV%85uZA6c
z8r+C3cE9GkpFg0%4rsokDCvQWb{W*d#`uF;j3LeU5Pz7}u1tQX_b{?615dV4EH2k~
z1aXQpLS&jh*LPG&P1jxq>1<QdIi^4>Et`?zb_M1*U`}L&3@ahy2sxP%vO@_ug%D+w
zD;U002|10BGZ}GqDIsSOGNH#QCFX7={2anF>%2z^dG48zy-LXQ2+1t_J{E!=oyy|&
zgJ%8$cL1}AuC-X-Q7>xv#*J{fp#8@H{Q@ZTO3?GqhSCng$8FK~p<GLDt6FMq8w=IN
z)%OgSf#XWtVYT$2{*{)--c4y)>;{yU<aTGa9JfcybFb#wr=>;pspO8J#9zc{{SsHj
z9ldu<-Iww&a>w~$?1hH0t2*(TRo$PezrL3c$Ip!;hO)EgeuF!ihVz|ATx#7@NIw8~
zG2Ex&zQ9j%XI|6xy*`ke2vz1Dz?{{k!Lu+*WkTmW#aS>C^YAD4$T_4sjopgLcaeL8
zdmdji+!xdok@h9j;05?z*7;`hHWre@`4AG+g?y2}gpd$=`b!82ZwSfZ^I52kdl8|t
zy3i4Rj(dr46}kBl_A=+<D^c?Ea0@6`0KXCZUche@zmxc#$1jK9D;&>b---UPa#Q%e
z#!d6rmG6uAjv-H_w~^uue7;ORa9@HuuDCD5y}(+G+B&Ffu~!s`5FoyyxWjPYkn=%G
zR&EyGuj;<%@cmT<_GP$#MG1QiD-m*5YAPV)S9P%>`2ID_$V<#G%72Zeki*SmFS$r=
z8KY6YD}cNSpM!8;h5PGpXN(E%8hpR;jPG^$zOL0WrmN+zYrbFB`TmCH8`t^1q4_T8
ze3vxeS9HF&G~ci2e1B8(y`l5{rsn&q&iA)8->>R?e_QkY6`k+z!1p!X_;^!;`c)m&
zZO!-BbiQ{q->>O>zXjh#U5ek<pl<4*-eSInv>STp>pIBq0P-8U^nMrLuj{_w<|-I&
z{yKVU`Fd{qEo{SS%OmfdV%75Ryu5exVoU0cUgW)OBhwRep1#V5d+9aU-Pf~qzm&}a
z<Q+v0_JG*9NV$`<;VamOk4x5QAaYsC)3%gSq2{C=D}PWbiVE13V1pQ%jq=#3V&9+5
zwttc}!V`flS!u5><zd5(WWj`x3gOgmuIXD2^3MgL7bTNau8`;0lS~GJ*yD0D0XeKh
z4Uzr0*${S@5y>X-S7su_%_yKEpg78Bak{*kUqL8vjg>y=5AtEDf><j4C^#k9jAsTp
z^czH}fDfZJvDfFZaTb2!!DJ*kC<1m?Y@Z|?A+G}UljR|max)RODUN{SLhOU9VB=t0
z=TZH!Yo5eznl?&d$sGZ6M#n&4ZRg>`ECpl|nv43`o-!g8fmLz^`!?2r{%|0~Q{}0J
z{ltd=)5As$O}q%&Cv*H%0Q?yLRA3Ujwd;}tfwSmkVTJ?Sp<Lb_>bN233T*AdQqi-F
zh)Ojc_!k?Q6h%r|BSD^@lUpEPF5ygQE-002QMG-c%q@_LHkKeFxo2ke1q#kj&!B^8
zH<)IvlxhiP`WJ<W`GlN-KMLNtgEJv;jY1*+9OBE3DY=yL!dGcmr;J+2`!Y85(<lbT
zQ27h0XGw<VByqv~(-)*N18>@KN_7Z`TnzbTNWvPhTEJ29N5ClZhb~CP08n{EQKjW5
zHPw&M!+$|$nMfrwU^@xmPG3P>BpelhS%eaVJ@7zrr)G#*B^6&m|57u~hY9&GD}bv8
zuFSj;o>V9cAg#${!yic?p5C>ZOkc}>6Fm6^bKHDM4?}Qx;-*UqcU}IL-zuGAHf<UU
zDQ|o}N35KUalqAAO7$suQGGT%pCcBN(`82c9I+gkG3e`a#47xyV!3{)SjE3oESljq
zJfEXpr5mE)^K--^Hq3_SbHq}4HM*FeBUZHzTydsj<q>|@J_~WF{#ifHd@oClxsbI9
z-fIwMQ*=;GBW~8>S)*GtU#sd1*lnusC1M?Jc#KlIM4Yt^kGh{w)4fD2whfO8bJo;o
ziZ-Z$O(uclofgg-gp~N}+030Cgrs=Eg3@)XaF=>iSNb>06t^s9Pno%#*KC`#W`7!5
zb*bf0_efkWXS<iDN<O*#7yuWtUNF7>Cs$3^EH9X@n%nJx_c0aZdzI(;ku&2EhwSh^
ze-R547B_Fe8|JTinS{eT6Y&N(j_175S&&5dlGlYUEjn20^8$~sK-4>f{}Jy@crrLo
zQD(x7ijo)4h&Kq9taoNgiwWq!)D))k2m=FCd~O~B3lJpUX(2Fou_s>xJtfT2l#G&*
zlta!8bMwpdeDJy#0pM|?xF~8csH8<pdPIxQN+)N=!ZG*HPhvXfy|YsrGuI-qLU^Y@
zKcFTk8ZwIXYP@L_np%WMJB0&5@5LFkQrHV#ew2^sTIU+I1r`x+AbcI|2gd~-lm>5{
zWFX9;O|VL7h1evA9u43i=oA}-6@G4JYD%CrMj+%O>g7@dLWWRa4ip>Kyhz5<MazmC
ze^1Zg_1oq*O;K&pikohlRdf<uKt)>OHasfYoi#<Ff+0U~ZOS@pde1x#&UQY?%P^V*
zvK}cnI*TGglx9KWL!@H9BJ?6&gi7qa@ekX3qoKLpxtY0cnW*f(Hot9n`{iwXZ*b;9
z?;P50Hrz|B^j;YOdl`MyGk0CG?FxcL&IR_wI!=I$RY>|C8J&107VFu?XyV8oIAmBq
zY8&Z5)<3&pdRW!G97wbeuUGAOVlg!~eXsqU_TTG#V#;c4dR*gOF8cO!PqN{DO11n6
z6?X!~&jCRSw3G56P>T95^VcJiIlsM5$_dQPK|UkA065`1y~6aGq1PpP1?lxNy(0AT
z(`$iVH|X^Wy?&EkSLii~7i}N>tSe=TMam<=-<TlG3c?8jqGpubOb|04oe4&I2skS6
zyzn~|Vx>>)FXlsY5#d`D;oI~oqp(~WPH12$2eQL~EnB4=nR3F;0|MEZX+9Ed&!J5T
z6Phq0IKs9f3e8MO%emN5IE74($Q?^02%BQ|3E!c-9Qq!Km2cKp+o)%Lh!=Y1Nx7-k
zyO^7@Io~L}S-2E^Gj=PsZfn@|J6YBymbI<h+S3pVw-(lI&DwXetX(W?U$=F9s?Ww$
zl4S#8*}%GOP#3FPEbCsk^?ZuYn_s#0m33RI4q~fVwsqaMP3O}imi4ULdUZa1Vp-q1
zt^Y}mC$BJ7Q~&l$cV0@?>=0{qJQz#V>{zQgx;Xx%!<6S@E%M5`t>tlP#qHK_1{duQ
zZDqIZ>$awc&eAttx%tXllgq8&4kl~+#oGS0+QBvFP|~?abnaPm?n~JA{p^!|ldIxm
zQ*mD5-#WJZC&$iDY^I`;H}h}hf9Pp^nw3@2^d!erQS)};ox)^!k67NbR^InCFT14l
ziNjP~ld5g_q$sbb_=(5lF8in?zo_hEi>aXMNdc1khX~Cpf3>&z&@R(o?;0sSQe^pe
zE;HUzjy$xb-1#|3Uoj!+Cl*2%`hMy|-@j>!XBkn^>a;Uzdhxc&^d$_&1<Qgps-+XR
zMm2g_o5IfP!p#QZ#h^jJVc+<~E#F5;=vl}P7ew=9Hz;{?+`^gF6?P#zp8aaCE{E)A
zbBH*ib}e=`m!*}=jmfn@4N3pTv*T73#%y~1iY|4d^5?{@R3_pczy5mEsis4INJnWK
zr1LGS37Qj@*zg%hd4<T#6<R!%uJ8twh20C*2Tjx7t25DypaUXNEaVDM&$wjsvq{|V
zZ?{R=&?^W<ggeMkvdU9CxB*fwUf6emBZA3=IST!90)9C;DK{cRKq&kBh%Efi^!j5;
z#)64d%7#|OJoe=>w8CVFXw!+8O((*?27IhiKZ|7MGDq{sn*hQz;xJV;yxo1L`*(Y9
z9$h@JRPxYSal83l&$_eavAgE>)VtieyEE0)@x7z(9K9R)y_2_2JZ|c|dvN8zea~9c
zo~08Q37-0dyX&E+_V&U(ZrwBZunexdm)6UMA9>1?o>tM*dbeO@e%-S><*EK8$K<NK
z-STeJy0bM^+qjgo6!}g2V^`VjoMp@Mxer{OAGMpRI)t~W)<nTedFpn2lM(SR0rVy$
zsnBIKh0H`rVsvQBE&`QDH#+tyqr<w89o29f7-8isDn=~i#B*M))8TavFrJn-JOW{+
zhO@FCz2iCYY!wC=H5Apbm(oU98r${*+br$Y*nyF`Ip7(?DXpGepyR?E?X|rZX47~k
zuPPwpKnAf03=<+fX|iU#JvY7R2|u8s{wci(2^mTVe+CzT7-CWD3O}M3t&zf?)9Wwr
zf@%T~G(rud5W(^iRpQ6$9lS21xK`L$eFl~pfxJ%0_5~z&!}L>!DR1CWW#ikucY6P(
zvQt4gcjfJ^%Y%2VYwqsF(UjAjaMrzh^lmh<Wo*6a;3JnO>1q^Rjmx8Vn?G>%0fCCj
z)7auPRdq3JnbcYvIThlMTKnlDcDG+MeXaXV(@hgm7#p7(+c@)06VVy+6IJ@yWV)oy
zm1-Dj;f-p%gG<_+mk#H$jB`n2MS89Sq`@v9zEt)Nj~X8()$lc{>iJU53{q0(XT;IU
z3`m20`;8*w6cAIZBOna+?kr~MhQi_#F*UwNMmY^~*OgPtElR=)_8{L%)t&y0R;zBc
zWrWI%d<^2~^3gCQTBoLie7veV{j0_iie^j;1;#K7g$Q$o4-f>ojG-<yrc+g2x*5r<
z%t)?<qIBKkMbRb=R-Jot;ze<1oM~9RUJZAF;%=})hkKzAxwoou(!cOEz!3Nv^@oxZ
zcI4@?(3Vb1bzL(r6bn`HV$O0Ip+af2Qw`xXp2H1$dRNb7tF8G}(rwKNmW9d}+-Abw
z0X1g&_tiG+_}!O=(mtw7ZM8_*r}HzEy}ni(<g-IfBmFB>vwVm=*zjoi=<AT5u0wRM
z8UZOA;M+BG#KCH3-17U>*y&%SV>p&B?N7s~F2Ihe?({FPq41vl`^p@#;E8)M5;e?=
zJB4DzJCcT1U2#v`sg5M{`!UrY&<9m_`d4iOq}`(WMo+3P#5u0I)4!a9GpXwz;%WE<
z=(A}k)upyQAZZ)Qp6K(c3vrCwl-8IH4`2=2^j?9kEZu4pz<x<}r+>fR4gZ(Y->Pe&
zBwlhUpnj!)ZvtLz%Y{<FOs2zBR|ZTOR~Y5g5Y8E$Qr%P5#qLFDwsWr691G<r#YHtF
z{rl>_<%$+6@K?zdFH~{vg=%BCsJ8fV9-3UQm=<b26S72stc{lnCGj%QJvBlu=TY)2
zU8oK}7q5j+iQ-cRpA+HZ@zO{Zpj$Jb%MrF0&{YJDF}F#5RNO*+D&m#jHgT2Tu^?tc
zxc+8$yfj|MRlQ|dsEdZw7T`9i@3*tKnt0u}P2bVxqOY3c6~L!$YRq^gzP4*$RmiJ0
zUX2)*1@EWNEOBpCP~++OiEOmbt0C!M>g`M6^tb9#u>|GN_^g1uu7;<7SqfLu->M7H
zbE-T2tHW)LHw#FE_?(B$-A(ARhG<+(LB^1Udc=vTe(B$M{S~vIpA+lUKKm*tDZ^Y!
zST1|xWs%*wTo`sOG;ESf19E8rp<93HE9tydSG+;ZlM2W+(0id#x7IYq8_}Ol-_drd
z=>3vQud4CWzxt8LcFau+&G9Dm$cPFPZ^oB41MBF&uc;8}U#>actoACy2BS7-t+8Yl
zT2b@GbX?W->KAo+d_(n3|8gyA-7!<^=_G@+4Csfd=&!43as4y2`WnQ0*Zdnq6(3R|
z!$ct(!0BNC@f#|9`uB!2ou6)2*HVt&QehF_cvd%<ztuKgXo<JHdNAJd8PwIFLS3~k
zv}LSQ2IY;ns%gJ!e!V98O<m~>q2q1pXv2<gi<R2*t7@F|@1@^LyH(dhyK#$M`W+P_
z{d=P*z6rEnTdSjYRQOF>(qJtI?6=f->0kJ6in$0g=#hJ^-&gkBz=;!TN`QS!b*Fy;
zp{Ew!Nr$K|<9I6GBmTG!(x|<^tA?k4g|EbITpOE-Xg)TI^==wkb%DyvQQen}Mq|5L
zDoC?B7HrXG6&ic~EaEYNUzHQjjoadR@%*?w?zq?aeFe`KI^rFlj=68NzR@;mnK4af
zy=YJ4aJ=n?`SrYbYrO57S+5sZO$!|hgxTLybEa_}?@-3@gzAer|BtFW{VNo4gtG<|
zoBuf#3gN%6y3@ZA7ySP){jIvxQI7WLLQlP*`UCn;RCoF}4UKT(SZsLG;n*{nf?rzb
zjCWr8(+xoQyhNOh4G-51nlnrGT<D5-z3PZ}aXnW|f{m3-+w_O4xn7i1`~Hj`?@RYM
z%KW1Znc_2D=IiJ=vuV<@(6-Qe)zm&P&UiJke=z~c*mQ9A0z_jl@`1{cmo%G5JP76=
ziO!n29`9L*3VH8y$B&=zkByJ)KR)JvuHS#+-0_Jcr_P)_Fn0DV<dV852Lr(f-vyx?
zQh}k3B0Xe6I5iIvzo|04Q%q>&RkTn51_@;_Fdv523Fp0nOnapKgU3hC9zHUDaO{kf
zKLt}QNa&_`A@*miOd}H$W8)J?PLBKcj~qBQHa@B^ix#oVdjYb+bY#*RgH@9EY9Qhb
z&mv@YK1_AxdGEz&bS|=^w-+`g7w0dKh>D4{x=}<@Ymwz!7tm_Gq@mTz&BE44=pAK0
zP)&iX5!_jlsFCy%a?*$wveJvQSE)Ujpbg^BnP`ttg)WNiR2f*^V0Ov&CEZNPOsxeK
zn+iA&A>FhW4Ic8UreMM{Qh*3CAHuuI%RxwmgR#D|q@Bcc;wS}*8JVA(gZK;0iE=3B
zWLg?Mkdis|`clvW+Tbx2mONVF{F4{w!<U(APkWX?B%&-eqYaBdt5k;kl2~7E{5>T)
z^|!MiFaU#;roKovTv==qG+)nxTi(2zuUp`@D*jfuvzfc{ro~9ma8px2AcY<!jV#V`
z7HOX~UC(LH9p7k&vjYW@jd6$oN8?o}mTIyJnQ90}%7L&AqFPBd$l1Z)hPGfq0JcEj
zr!%2+gmEt;R)BcDH*UzhNf!fzY8q)~k)mO2FoP}WpPPkBAv5vwr{$d+BNbt?h|sk6
zvl}L`A(y_q>TFo%?oNMqHdR(j9<fzteX6XUoYz*Jb*ZvCa$f!VS5j4V$*N(oYWRNl
zTGintTdKKxrE;}-=Ta=;I{csvuSf0*nW?=M>Bl&l0a~eYt=?H?s711SNWUQ^=lD4o
z#$l*J+6`9k)fwRJ1>Q^gkWkJ8DtoW=_4E(+^pP~;N`FsZm-p($8H`)fPQa*vq<?Bg
zh(vp0m8T%vj;K-PsX@-IN4A+dLuHxPpn%|*ao7x^6pG0?&UbgqYMfrx3hg|NDYSHS
zCOpq8Lqwi<NXG0%O#&(`1SzVf=;Y_mNWq8ClaB(bW>TSLLd~VGOsrE2+PtC)`gmgl
zzj)rTF8klnpinZ5Xljh4O-F6Q3?fx5XFjomgagd!ja;0a4|3GY8SRGt&8Qvv8Tdh1
zqs~(3hFD&Y_aM!pJG_$F8|#~33jpf}ZWg$pn~J;!J=r6fcS+{BWZn}y{Q07)ebeK8
zVRqg-83=plU}Q^aYmL`H_yHr*Ia%u^OkbH*>4{aG;Ulv_!f5^I-r;SI#BQEfXJ?FC
zooeQJs`lp_9s}v&kvTwUjh%(brO@M5&;jZp-t!yt!7{=JILy+*D!P=-wGiXMDmHfU
zGg>JW>Q)piyQ6d6)W2SecOJb21so>S!Ky(GgcdUZzRJ%`UyMf1_ei;l6Q;*7eI!NG
zw3ewryD{M=y}nMbZ_w*?deQbypuLLl2ECT(MVl<9IB`%aQwWNKC(j&!x%auz5&xkx
zBc~2SA;sJ;nXgOc7baqVq%;kGjaD#~2H6;8cR$ra)^^1L#{qYlW)jd*0NP#c(s`<j
zA{tws*1FM3Sg<GgZl?RpdRA6z=Db~3F%U>?O1Mt#g-ocA(mBusL#jWD0x}y!@0r?R
z--~)mRz7?sBGrC6;UwiiIT$+EXykxEdaP0jDQiEY04=MkT&4Ewq}Pk|x=gPbdeNRs
z;ORwbBe35^7n5SO@MZENdRDkk0Zp>$^W1z8y5}@Dbqd*N1=&<uDm5mo1loZ}`7p4b
zmo;0YLZ;86(jyU}nlgHopmNFXdUi4-*_3+0(wJNVaZ#i)gr?P~{edfi8M(NmohWPD
z5T8)EMz2YF{Tq6D=|wC`S)BOq;gZ~J{Z>_pG4h!ne&)AOM{$T)kt#sz7+c57b0*a7
zr^zV!x>SxbGF^V1COB&{HWH=$2~2+{W!q-^0eP_}l^;ek2xlp;!VzZk4-!z;1M*QR
zzDOa(qsrQfu;-P2cd?4d3mh}$mF)VDA{MO7Y;rhsbr_AozJzm>u=Ua`6v>M~W<v8H
z3gN7aCxa2muDC%t&%)4HKh=>L1N#0~DZWGLE&nWNexZa4{2IOL=|x)`DEBMc_R93D
z6eZ)Ugq0OUgCC>-tjJ|Oc;P%H5~M^*XN4JPypsV$hQUH9;l3^&GeLkMgIl3tVe7By
zzDtb;o|;ZM^vr3t6G&Jn{2IL?lyPCEse(XUQmIreX4;~H8cr&du}RTb;3SU<mti|m
ztoqWt;Ab<Blr<ZXaxwg81ZZCUkaC};j5N>-;R}lDetVBVds^XZ^!nxIQsLiG-2as_
zC?t7&+V(*wOV3sG>*XQJhSU>^Cen*7EeUd^Q8YgknTBpXKQ(hrvXL8`uBb%EJ*eXW
zBn6|2o$%ATpUC8Vj=wNJ4JsF?W<gZV(1NUJ7{-!ye)`A>qLZPpred>9@=2;~1*Kvo
ze3k4MKt!r059Z6lTU26`8TEF-FhJ=n*|I@^$P4YQnzf|6hK=$_4`QBIlnOrAkD?t{
z;MWuIv5FHkz7DWCrza!mJIFp#Xfv694#k!(lf(7K@Xg_by*gE1u{iqrk%#WGq<ibC
zd+S42>6?YO3ZG<IN}8Y8OeGa>9=Ubo6MIfk@h8QmhHWWCJbLr!ZL6%^_0*EpkiTeM
zx7B`<V=C>q+w=z=?{%z|Y+1Cvp8v@1d}GheJqdd~>7)7X_>j+d%I-|s8$^3U!rqZ;
z>G)pgozUXwx}))7MfY9q55n(-*D7`+a^Yip$r6_=Z5K=1?+vcodmlDzU5O^Q9Tm47
zU28Z-QR*Js-AkiMPqXN0UbnZTpz(JS`en)5Ua__p&hFlu<ETJgJ=`^Qi{n~YvUZDD
zyX9|cx82HLvMil@2vr{b-HCN~N2;TDX?%Hb)zkW@vv29-@_|)P+mk#~-S#K>rn<((
zlaFkUq^)1H^{+JjpyLla?sI<;{$Y6Cb^=wes7aO&isgfeg2Bb-@k&8$XV<E$^`Wcc
zcGsG#HR0-gTwIMtEgF7m$#xe$F=ZDN{<P4PH-uJ7+S^2XTf#n+*nKXs`$Tg0IdS*7
z_1(`uba>u4aq~pVbs|+&{nKnqK_Lp_a3$^atM>Xt$C*UOj%3FfvE$5o$Hc?p>O{@S
zwc=9=$EnAjT69y=Q71a;Rvq2TL*Lu+&JO0&AUYbT2Psv8s1+SDD05VIrm8zXaoS4q
z7xSQ@SJ_A%@u9tffwqW_mgVa!J?oB<hqZkxo*&fyVeMM&KI;3bhfSRfhB8dlZ@cdS
zS~N4XsD}<zU1PF#t5~~rt#-Q%-F}eD04!See6Qx6n){x=sQF>dCzh-Z7NrH9M$OqF
zmUk=`q}*k1?!L8q(Uz)hN!IQaYxh1Vct5&UJCU$erK%c}RYPLc(8`MsM%Sv2By8nR
ztoFRhcXvE7;pdM#|114Gsnn3&n`&%dJeX?kTs-u|YAzZxLvOdB4EdE0EgpVU-~7Fb
zcPj3M?jIF<4khXjCD1mt4R6ofnYp+7eudb1AW?f@@#K%44PxuI58chFn%1R*soJI`
zq?J|C|B=O1Qu9&1sT2V%x_}-Q09CS*iVusL#J24jQB!q0ZXN!xq>07(u(s!J^bfAT
zcYUpPc<Ioi^08D^!|nDbCUaBI6H8WwE+w>T%V4T=PpWPEN4eJ8;-&mg@=ayUPqNG<
z!;i|U-n@S6`ci0l_^$8nap)kI?09OimK8rSS)q9eowj-m#A8SsKgS=H)GZxfHZQj=
zS0;+P77r*mce`=DuK#}E1INBcw14jttNK=I9$5d{{v-QZ)p6>^@>I1qSv??D52PFw
zw}+Bdonlqz-HAW=(tBS*@7J)dtU%KezE+9$s@t(ud%HL=_R!n6QYm_OB^)*25G0*m
z(dkXJ4U5j<$EDsx{n@qBiG*u{O%p8I^;L|H{*i}uy(@WQ-HwE#S{H4*=-i&FZ(5Fg
z@7g=p5`FvDT1UkCkp~CF`a?^F4@<q&Aib&H-HDz(XvV$0XvUIWU1PXR)lJE&En?M{
zmC%EUwW_0{t$Z<mX*5;UEZ4E7o_;GI+6v#W-?S$@y(^w|+g3EcR;}x6_BK|c4$;|>
zaMJuKD`h>&Lc@PzL7RW#FhK*5OV$pHwZs2<Xx+W<Vfz-bed4|~x&5q&|Lqe?qaS!$
z9<_HT+egLr(WTLKd{OJvi_ZFlv;ARn|L?uDWL<YPJg)3QBm3U-$)jei^3dY3l(RD7
zY<X1Onyl^?tGoZEy7$)T(#X=wq-_{Y*7b{Z{VV-zWn09u-4Dy_maR$efao1q8CiMx
zgYw}g*`}I4^ixw?vT;ys985MI78?&I99~u_%0KDs5uH7#T590nk~QgS5M2%Hn9sDu
zfJXE9&2eQ=W3o@ybc;3JD;3Z_PGJFg@z#r2KpKG(ujfB;nOZxOE!)KwHW@TB=<Q<7
z_WPdX@G)`t*jf!kuSzyA5(Xsgy{q=#N3MqDsa023s=PW`-X@l}CCiVmmLGqdZf$eP
zLGvdT3sBr<YUxd&sp=Y2^+T!p{*<>j)wC_uvNP4TH`RAC)wqQm_-q)2`;&?SZz0g?
ziPzLHkgVS()^A&{AI5a#E&Q;4_>Sjx(e07@r+@h3l6k5BmNij7Op`{<M<#?r_qk=O
z*nA|h{V?9NC^fKRx2)P*fFlE27f0n;c-_&%y0di^s+~0Pwu+9{bw@kRj!kS*WNS;k
zXschhHKu5tsS|B=>$dv;!&ZdVi&jt4=uUKvJ>b@AjwNiBDSJ)A-k#{$_u!=1b2e4q
zvN-yIqZX4G6{Gf{qgc)vSXji`rQnbm4U<<Or~HAf{^w73q6!g`xcsd*|NNeuzwOM%
zTgs6QO~8n>63xjJA14)A0borg;xAh8_mqTY83rKcv|f}dU4S8o`O|bx&q6QytVy_y
zq`)L%n?|-@%%&rQ$lk+(y#gzPZ1Ev$@k-Uo32MAwPx<=gqQ~0wRM4kEen@Oh+KSyU
zVG(zfF7a=jT?f75E`M|9t)1W8&4z(z(ZTqWQZ_TO$zUgIZSk#*ZDDA)X`th6PwUx2
zI~+tBJzq8J&1x=zYTNik^Hm?Ur6c;3G&VG(`=+yK+VNPgwwLgRU_~yo)MV2T*>=dA
zK`-{iwq)#t(viYov_^Sw2n?e^Ih*w&V+T-I3jdj2Y?Ea{#P`f>dl8|UDxF!SbrB()
zYC`O1tsQGM?8|2XA5mBCMxr-NkD;dB^mfmko_me!&K^b?jjt7-OgK)G0(VogvP-P&
zx;MG*9AIG+YsKdhj&qpr7VWaWtkMfeOo#2q;Y-@o#Mp<HGYiao!B;;{l)%ei>kC<2
zRv6-dSOK&#<oJqASf9f8l@Ev;Mp>NfbQ~^cAq#(&G`1i&1H9mJE0BtcN6<vH3bweF
z>2GASch&*~8kaQeN$1bmSV<kmp|H5j;_@!Hp<LClW5|cBupGa3=93FiheNF!Mzn=1
zVE)<gFVy*)IcNH--4%<E;%Ge~gtN<JKD~D$eXt)yb%YEmR}i*QUUmeW#`S0XGM!oA
zc^N0j@||%*6?x%#{RwL4NicAp&X)rd(V@>x%1<AlC`_SMenLnfSx(H3$)ZViYJ)&x
zfj!j8x|7gIQ%WivqhspGVvpggeE3`i*nMYtSQ~<MaexkVgtZ~W7hthSb_5*=%tr#j
z<0mj=*!GvBgq*~1z$tw=R1d5h>_Y44tU;VGFnKY9M}nganSdz5_K$3vtlC91qv-O!
zS(X;5kdoQI(HugmVT=)d8>x2heoVZvc2*m8KS@Q~4D|15{QVtjfbC_D$yu{#d1SNS
zj=ufMomW;o$^KEXe{{8O^k)412GMqW(UL+S_K;m-dDmKb&q~p1`M}Nj`&puG2O<`g
zEauQ~v_33jyS^jhwj=M?i`$N`m7Pe~Pb_Z7E9Gqy9W{$1H(y!GxoxGr=FXctZ)4^4
z63Ow!TVGr}NYrQX(hIBh+U21{=RUD<9};CUDVIA@)+)MMmn_&(x!jBS*ya_N-mY9N
zYD`hsfan@P7z{Ef4C}pXX}9R`E*?lZix=~sog@e&*pm1KI7p^wG(8wi4wwu~pSC=b
zp>v!`B{7McW1|Ny^5Brq$i}A(;fXygOJa%dt4HZg22c;y+5bkE=Fqd;gzZ2Ygb?e8
z*@be{|8&r$cGPA>j~NlFE*KTEkg<}Lzz{cLEqWB%9L|CS85iV+=@IcF8bx<w(%mPz
z`>^+GY)v+fiH&1xjfWC8P^M*xszK2?n6M2#+ZQx$Szk230rCWI`7vsLmGsDx@<NI{
zDk2rI5}#4nt^&@^HtCitfw)vLkG@tahc=JuP>5h!gUXZ67SY*~u(do}Mw<Lt8T;VK
zAfXJG5Dv#RtIAZsgRF5j=HJVbna-0)<C#K|xGj?#r0?xW0hN@PsZ`QZSV+Ed>y_oN
z+|OEb?o8NrK3ia|Q7c)2jS-xoXcNiq^m%!SBkzR`=sY9<FdT!JqX$Pp{=Y`0-hq5F
zO+57}6;YvGtk5(xJ<9gTRxg*A8dQC>2L27Cn9;x*jRosEsug?U8od-TU)R%K8Z=Jv
z(9)0VPa?3yEk*-4PA6<zzH7dxv&bX5!JkgWVzhn(LZb}Sp$~oG&GX1c9yuxv2n(;x
zQYA?Vdot>$)ms?U)h|nT(t<T^-L!ri^R{kMBVFFGB+QLHI0b2sJU!{CQf4tPADHV^
zPRu0%7mNiVYQt%w`6^#jJ{}k6>c~>xFcgG<Q)#RJ5ga75LxZMRY^L1dWn<P$r}q#Y
zK<6K2KxqW>4)26|s<1IM9UyI)7lN>g%<YiRyNy{pU{xN=>0oBm2rmG-&t9dIl;~)m
z_G|_ajTLnC=#CVQWq0&km<h-7I(ndMLx&8L&s_8(5-6OR4#VPKOCeY2KnDu#cuDz8
zUPih-n66mu{EA3avY>fn*&LDJIQNxt^IxE-<RN*~vvA}?i4`Gy`37IDEh2=DtmS3<
z$^V4USf76O`#b`?QX0Bzh>DF?v8kwjxn$kdy570-{*m=ga081UgF!U5Zf|(lxaEHH
zdgDIYcsaaDN2loMOu0%{oA=Wy-1Uhm3rx@)Q$s7;<)$jSlNJ49ML#%MM`=nZxt&LP
zD6XcYt5<aOraToNXXP}Ng2z$R_lZe1JZ{*UtREKZhnK9sRhV*>(!Q_y_7QN9AGQwP
zpIL7O@1rT@Xi7SIMMp34mg=5I`~t)$2CU6gyER!eEY=J!j{f@ilLC{Y_1W3dii*-W
zf4U#9jM>L<ddF-^F*ZEvm{yl4i$DvS+_Ox=x^Z3lF9?p+>3fFJcA0|5{nQa<fW-L)
zPB2~mqVk884<`Ql#UH)6<~*CQoqe`4w8>zV`5QR&l}T^*jVoYe9Ib9~)XLFjC~Zob
zPEp;!K-IlHZ5YTAwPes#P-xHkv{Vpo`Hs%WicQ2sv$5y8sogprD?b;$49Pr{NVK6(
z<7$WZABuXsCzK5{v?EAMP%`&`)}}oa&W2aPso@2(h7oWXhe@!Li?+T{lwc!}g7iEL
z!A6T+Lq>lo!bz<NY;cZImrWx!x~!t+t<c?xWcNO?dtb8qpxAwIt^4p=#gWCrl)d8J
z@_XHD_1i`JcI<0Y#T|EtlAU|R&OM2az2JWCGgm&WY<PF~T4jHtVqm5IiN##B<*CI&
z!U!3&>$(@MAK0oG3NQ*IgYBa&sl{wbH6{TTvUJOcVP7Ghwj7{N%A?|gfaN!ChME33
zGSP>UaF&rVsftC|gth^KntH=SJ*=e(MN_1jWoR<L5iTq0RFl#f@?#N<m|s7Zv60S!
z34abLv7R--WH}2g7PdQN>SOITMkUHZYBu%Kh?U$-kwR5|WZSujEb9CS!NL|atZITx
z^qZVU6?}1WAZ-8zI^;t5zY+AT4RSdf?5ZeSC#R1!WuO=p!2oKUkc_lsuzj<cJms>`
zg(gREuHU|N=MqGF-S2g;+qb9O)&J205d!U{t|iL`#j-)-EjzcQ+*L_;m+0=g`{Mo4
zb@#}JRZYxmNOUs^&AR)@hgHpwJ%cNwYo6i7G0EvkwRFOKdC3e~f9cqAQL3zA)z$E%
z#8lFNBRpJ{&(d`?_}OGc{3JT<0m_?<zY>RfB~T0Pv+>cL{se@AiYLLBrl%Ss>V^ZP
ziatbBfwHxZ%N&56NI&+XrlFPA8)IArB3RO1&Cpfyo+1@6+M9vP1(iT->w`0sGf|Mj
zfQ?`UCtYS)MG#jb;Iu>9pq-<R{xPx={ySdK`(#rHLkcDkXE;EOK`XPoF#lI7SoJe~
zt;2*V>f^%zLmxwsSiJPys=X@Zu2?+rsI)R!Iw+P7uAEpa-M?tZTIwjf-LYzK0wej2
zV>gdMkOFbpBUjZYxmK)#4wI`2JZO2Qpt58f$)U{@pCDwj-7rQsjq?D;IYt-AR_fLb
zk8Yd~u&yTdlV>wxc*BS%hLx<tOEGdcB#qB!<_O&yf)Zt=Nq0J|1LObsxXeP!VT`n#
zh1__qI{vl1%-6Fq7vzk~TBJZV6Pp#l^`vHETqBTVw1pJTQXjK{&$J!b=(p)Qnnhrc
zGzAC~^kNgh&k;L9%QAI7J@O_zQ*U@ur->75eg-YnDIf!k@PioH3_sL4V6(wqyWFwr
z?pi5N_MZ{^&!jx{%R>;F3>1HqW2$aQxoel(SKXZ}wq)NCvG0f)+%E^SN#Mcdb<Y`j
z8ffhjT}?C%G(m0^Pn9*Ux*DI<&@|9Oh}gbrZ%nx>A300p8G#UAeaOvbgfJXHHk`4d
z%m^5@o6QK=?<vbaA>Zeo6ZCsIt8Px9ZjSl&bAr;WUj3w?`u*~=!V81~KSpNqte}wg
zY*t{%LYiCx!;TF^`_HI=HP0Y{zVq);=N|<eI^SV(xR<6@p&a6_TpWi$IZ47pl97IK
zt?cxogQkb_+gqW9uwi<r)~1JQ$miwhfy``-35g|yY&Ja@O$QkRRwWdgFo9(04if{X
z{hl^=6A6KV>yBI4kd^u1INKzi4IVpsEs}K<vX*$ZI*hMp)6gA8x#YDR7sz4E(I+u^
zF)!0_luDsqG%3tR()Y}Sh*d4G-^$rEtW%7}EfGI#&??jR|Ay~R8K0_B66rPlK6MeX
zblDmWq3iCOyCEGF?Y%1n_oM6f(UiM}jn;>>#y*%?_ng{fcr9O9E$dFWx)WvH%3!n8
zU@J7a%H$EI5y!|)o6fyx4gCfH+<jOcsf;O-5WuDpF!F=Ytjti1$1J0M<zUC9jz`0A
z%~F~AQ!&6evPoJwpOIFsy0u^<-zLj1xNJ<|>}C)~M_9Rh#owOk|7u|x(>O=m3Y%z+
zg91DP4bomPF1a&gk{D#909s7Pm<d?n!Tnb?#%wU);pU;%h`Vm+NMRepBWRnk!{4NQ
zmJY5@nTFQd!Bg8M`G{n?h6oq(NZI4h9XvIJQ;`Yz5XnC^Hx#Q;w=rz6LmSk~62S?F
z)3ZCgz~Dbc@5l;(Y;&T_A(QZx^5py`r>1f6uTnC0*0De`&kc+K=qSzw1Zcm>k)XsX
zS9HUU#t`Pu36cK_Sz<@ysk(h6(YotCx8^ypn3uA9pp*6(S_*lI&b<#jYvl(Qk36Zy
zkz=IXQ(~%VdHckj6L&jSF054#C#!dh)w}OctyPaLo=7>Xm-APh9nhqC`^7si-raM5
zV6A3PvSz<nv;V=awVG2)`4}F{C9Ce1RNs!JBe%n%r<({Fma^Sc>RsNpTGEl~+oOir
zl(1ZcB}zIURyHMCM<4he98WZ#UaLHl@SJ(%EJv~A5u@Qfszt;Gs%U!p-|)tWfm42r
zSkO!aU{xW~zpu8ZWqrC7Xx-oNV3jk7uZ}2i6t&R|NTbb?p?$G7PH0?r=(a_M(E6DG
zQb&tWv`Jo?-8sz{OXgRd7{^5$DuhqW9oj5@$^C4&N*dBAzC?`d4G(9<sVcfP9^*J`
z7hu4Z&H1hwD*%YkH?V!1CJWL$tRXnnDxQ7CjMc&x&$*TLx*gV|x$w=6XU7nah&_<2
zATnUds`a&zy>Hy6wOn32?^4Bvg5eX^ub<ju3;FSU*s*Sl+oDx!>`%u4HAifS-LR)c
zJp^a8MvcqC#uh9PTZYYlK3Xncj~lo%(`+@-NnZ;6WQFvZh;zfT-hfnDA3NM>3>RnX
ztWd2hO&-mg9P&28T7=j$ST%-FubwcD9XF%q`n*V*Z7?>FOF`U>ccDHn&dIrg&X8-t
zZZ_c@4*R7BwFT3^#_6f;4@Lw25j8QHwU7h5)}nFAt~-8T;DI_!yqsPSaH_n@`qkD5
zp6gcp+U-&<ZqvE|>9JHeJr{i$qF@11asR-OWY>M;);<bULGuGwRY)k)&+*qF-<sw9
zSHpq+t-=K=#57)#eU6X9cqV)WO9yxi*JuUtoYq~`=9SkPZ|vJ7XM{nMYJS9wSK&pr
zd1Ob$?DKRd{=#rb1&y4SkMIp#fKQK?83`d~n5U}%!PlpKu>Le)+AC{unY9Zn_+Zh>
z4E$yVaM_3lM~dJ)?jfAydt!q|MJ9U#I^CB=qcqt%sUBC@7CYPS)vUl6cZF@z*=nX-
ze5Y3anUv1!q0Xa-)AJ!%%6i-WA*;P7y#(u_l(cqug_G3!xWyJqAwVl;bK72wrC(V|
zCC}+|Bd{L!jW7%16JryHPmZ3IPlF|nqcBJ>Vsyw#1L^gg*p5=Jz%vs*sf-vs`Vy!_
zN446vnW1t=r`eXm-%~!-c;Sp#*=9nYTDyboRHahQmNz3g;UX0<NH2!+KcaNZFH0VM
z8VVs35du{59EGeY$pBFc%SytO)nwvXPeSJ-dQ2AX98fgh4NAO9M28P;4x*#JJz2j;
ztlyKc)iO=fYSCVuu(v(*Hog0WWb=sFJn~>Dd0;|3FtO%6N1}!rY<Ws5lAc}>DxlUM
z6#il1nrE*{t~{)2fR6Q^clNC8e$cd51;t?~W#WZ6s$TfYv9<Dji$@;WJ)+(FsH*Ah
z-FJ51t-W8oR<$cxwO_2-zg9K6cpMR`+mcniVig1rO^Fuh?PgUM!rx|U-?DgQDJ(jg
zKh7_#C|o@9k=Il`fZ(RW53Bl@0xPHQ&#Z1a^qb~HRX<5e>TwKl6Y*)9w%>0T8xKI9
z@)V`%Ua~%{s83c5ixtE7o7O7!F6E@!dXjC&#I|E8PYr2{_K9_UNVmN>;c7;CJni7#
zfm>8j^RDe)d9r;>Y#&?m9u&(DLjU(}o><-gxV9}-JFqge(gHs6@NqNVHOI}+a<8j|
zmU~4d6=Hblc&cqTskJtL=&5+piIP0&F?DUfKd{=l`_8ThLyO0mek4-{cDALO`j)I8
zxaw0yCCQ=&v8Z7=xLP!z=<}AR%A1y6LH%0FACWR>yI9_yDC@Y}@Fdq#(t~_S(>WVz
zpoL6HSLs@CE0c<@F&$=$v{K-9jV6c2#G$do;6X6R51H#z_1hBO?f0P<ZZ6pg-Z&)%
zjnbdmOa<E?Ir^X_nsoGu4yeB;`}d3e`#*3Tcv56?wEz6$7tCmHhM#}w%sVt}{mTj~
z-p0Cu?_)4*w(li@h%kXwMxk8*sy&fI>D`AR6J3E62BI33XhiQZF$(E@Zg@WJd_|mD
z0jh<Lzm^|b=jb1479Jv7N!h|tHD=Ui1$Oj6GdpmAofL4Lk9K*dAQ~m>A2##T{Vr^7
z?wJ7Fyb;MW(<Ip}=qL2~V|x7^y(aNe&2Z?Z4@I^jx#n@2ymF=hGxEz2v|u?m#cJ7x
zXv6%Fw!#?zl@NIW$wU2wG~NfqssYgUAKI&yN0UukSDUu3?>v^=c~;zcc75kLVtYX2
znYg0$IE9l8W|FRU(bX>VKk`itvN|s0gS(zHCz`e<>@qhb10jeNfJw>pv=jy03?byx
z2^P$sC0AhtGo^-yv&@@`ycSxF$rU5yF_N?BiD(dm*-$^!whv&&&>=2{n*oPuTHCS<
zHPJ%3R5*&nh|teT6Hg#ibw_eux8NXHTWlp?o$*PtL_IA66Flvti4p+K6M==^h3hyP
z+S}IGGqkm*zg<3uczZVj<%J*S(TdHtmL70XJ&MAcM&a}k`HkL*lcOiSXV~!qGK-#>
znP+6E;9VpgO>*b~gqP5{<B|h6$8s=0^KVDs!Px0^e$NgWRBJ!#G!o|avpP`}?=u63
zNE+Edm<SsTo;;aIU<3gT6qYmF>Pr?3IC)fQV@Z)INMtLgFRxSvk}hK{R|y9)prxWH
z2TZ7Phr&%qSK6j<H;t~}MVT0L5#y_}Q>^T~`-)h(d(rtA%*N3-$8U`%nuhNWtvU9+
zZ%sIkV-?Hu!k)&}O6yq>4Y#DDM|AWg9Rs3cU}evPE$faWkBUm4<l<Cwn7=rjk6d*r
zS1U}fQgpa-i|A=dxLTg%!P4pzORgjT6PKyLtq$8Bm<lj^Ds`k*0pi)6JPjx|L`UIZ
zLlm{$_-K1k%-tBSn7MHZoH7(?C#xd(SIum`6nd$}UKpQ;#wa6Y6-`e%zamYisyf=!
z0*?bP=w2~U-+i*iiyQ$8Eb_I@GZEZ05mC&|nPvVEa?lH(CA&_eR6jRLb*il>ooAuw
zoDyRP2m|HYNGR56G;eMK{6*^K9yAXQ2_cD6hgjONR@${_PuWXv7kzy%#L_fnZq-Sh
zEhdLNGfH+gLS!aV2EQ1I%6;&E!jZv$G+ZU2MX#)#!b>zM2D3tz1?<SMqr(aYX`m8H
zyhPzRo5B<yeZLxMGI3VoAb?kBn6FU`>_#iOoX-z0-)yX{t-0e;6$iCB<%k>IkvELY
zWg7@63RN+&vdn4Q2qTq6HVG(yCO|%~fSZ7T>R+Lv@@m`74C>k5NxSD;x#62S45vlN
zibsBShlKD=!o1(aOO;tJkq7xo#pw)H4ru07A~h&v`=``7)}zPA&xW5Ql>7#21H~h#
z1G|@o-rRF*Poi<(x_#uQR%jD_WHUAFzCZC`=UP211ZqEYlF4F8E2#{X$m{wJ(X}Jx
z>Hf%)#cYdUP*zp<_MSU?l2v13)!0WM6%U#jg^V~*J;p?q^z0Emds5{CAH&`Z6BL86
zn;_bDnjHJhY?_gr>L^p@*9@EoM@q)|UjuGp-Z5W-$Hqq{4cM9M1{i!J_bAOhN+ej6
z5FejCz()fW47z<t$ICYx;WNez7X27v%kmSUI86``4;>s8oCc3~uAZ-g(i>2l?1~tt
zTBh``T4HwJm@DnCx)i?sDA1}OH7Qp8)4xXiKtPtJAyijdWDM&WjZ??vrDtrEy;6lv
z|1t@Zjag|#kTUI(H$0Ik_>*PPhDWU(IE$8e4y6z&L_g)TR<p-*&~^^Aoe~Q&1wh5n
zyWl@&$8#^EED<;03mAMMgLlSr5z7_NhBU&ai<zawv=K*8>9aP(FGu_$#u20&EDUO=
z^q*D+h0=GAOGW%OQf9=Aq#TGQ#O8278K)Tsk<kUCkz|#06<j?(P4Fs4|3vwR0+)Hv
zUpUPq5`fVLS$aS|g3}bhXrd!dK;Iw$%EV08=Dj*A;8e3nkL0GcEIrR%#A!4U`SiH@
ziP<O)jzhSzvT9IX2IXywb+>C}<!0#KN*qbzy#O8*)4tS}R48V|cyF6<m1ZxtUI$Ns
zjfO(<8jP~+>P`_tL*Up7nNnmkCXR1Yw<RhSO7<x{;}%f`&nw}PQ>S3GLiY^f)+=zd
zN({>rOBX(aEQqSr_FlfC)HJ4&3hXvZoCiZ!b+Uu0&?j0ISaA=X9_c-CdL%Z!84zm=
zMvp+<lyq5$4=8wH*n-AJN46Okw#?hxi(sWkbVakadv|+d`SJmH(_kLPnm2ab%U&42
zP!#kaj;f<BM(2TLr;<e(oySei5qjX9C{|R4fXd-Jo7IW>2^IIYwY#Kh+zyIM9dWK5
zc(MF7+;RfdSk>5potz^}%{Yt*$s<=*qmkIbbBxxKN|oy^W%5je5Z<8GuM~GwG5pc|
z<(N#OTtWv{%=y!MScW}J2TyX3&qj}^NW*jN;1(2_bto+zjJ>R_CDZ`8C<k)6P%t2|
z(@R(vFq5LoSNyCgu~qne)J3>M1*=GhYr{nb6MmPlf0<stN07MR6`h%pl6)sC+MiWM
za?sFxnH|P-`AUQqF?H{z=%`dFD>fq_wL;58-v(1ZndfK-XvHk{f1yOO92^$H+eG`e
z#Ln?m`#7B!Fnnt`;ck<)8bNLz1v3h?KD@9?XzpV6xAI8^Tkj(XClw@YwCH<#lXVBg
zx&sMYb;=G|-%ioK^Zv`L_I*s7axgJ;A~84)zSBvw=aHu^;cmZM4CDHuZrGEP4yCLY
z<v?lrSMB{Q7h)ByI|d%r_a*BO!6u!t8|#-xR_)C=>>~7DDA{vb>^aR~=>&#lD>P_&
z^PzR;ZXrVX2$fvb&&)TqZA-SE6<eXE+my1m-o+^pohze1IQ~b+Q}xZs`dwoEt~IbU
zacY6PHPNwa)xC=qDplN?Xxo)&-3=Dkp3YR~?nDPOhTjTf_@ZqnJT=WOaOtZ15`#q1
zEFMp}dsh%2TBF!Ip&;(|RQv8k8;j;mc?S}8gDXS#9V_6%nGc$A4#T!Y<#w>&iomc$
zj09p9nyR-XwjUL%j#6@UiH1F*d(VUVRrdjwXsURd9N%)#>>+}yDe2iKdiEvUBM*ux
zr7_|l78HtrZ!~QgF(>Su&+g7N&4fN++UMCBfF4rzWsuZcVtWtKnWD7L$kzpfX+YNn
z%d-eGN1(vN2eCR}(v-23jIT(J4}O1-kP9RnSM6|Ude~@(BNa2+JmWUvOjgvh;eSl%
zU5>;Q+ni)shgjB;=pq@p6WDp+pS&T)rTi<n{P}`BBM~hr+@n#yLBkvZD99AjkeSyg
zWrp3SN|dom;9jw%s9cG=$M4s#Id>&&yZ#yKV3+Sw{H#ha14|uftV+M5pjzkx|CMny
zPTcQbbM8*qc0XGUM35=>U1-72gOloh6qZLM7dD{ejU<?yg<0Sl!y8ferg_-e{{rdD
zN1pE5B!<RcMs1bHu$0+XOxMgpIcWJ`u%xmQ<!flegY9{eox>5bI0*Q%|H^>=V^DIW
zLk0(QU!mxnlzSOR1Ntu`26GVc77*yl@bEOOaQ*D)UD}3)r|113JB0w$?Rm+)!NX5U
zWrNce<e@(ECp0epCB1%tm%3Bt&;|k(R&rpC4Z>Urmp_Lu%f=cTM-g${v{GZ0&P2cs
zfqza2_%@Qym<;Y7Uw01Ul!8=2QL?}*7I>2donis*p3Lvd|HzbInE#{{I^0Qji|B4i
zx(7w~;Qb-Y$_dBb4KeOsT`kxO@e%|r>?SFhi=A{0iLRlPdxUHR_M1O8WfhH>wHwQl
zo*~gQbbmDA+4qEL1A|GYC}yGsv`3qqUjs^S#@!aalxCCxMQHGBc%WFKP1;OV#sIm6
z3gfs&TiCcch8%GJsK%f(j*IPZI$v1f3c28?Lv19UrNp<Z1>GdRrYtJ-8bcUuiWTLy
z(oJG$oOCsBstI5Xw#l%h_)J?2E+?&^_v&VO8f>sXN9*N&j+8y=TBt5o8v`sb-n<*(
z%OzSlH$1d~#)5Afms~GjhJ0ua*Slg%f&1D*Y~#qh!x`ReFz3W@>uX>@vZ>ILN4GXG
zGM7Ty3xo$WBm60{l@Eh_mp=c3UW}2(5-ZN6t|@aIix|=EWT)uv)xV-x|CU~VM6b8-
z!nDK4_5X!D{t~ZD<Ld&pW>I~J_|G)@%?L`-T+)L0ka5weV|A<cx`%Zw%h6=(4zYDd
zV%K=$)akXlGx8ZrZ^XY2O>C(C67`WR+a{K6OYAr*mK{yFjy`To8yD?6lbATS*7#h)
z<^2#=+ilxZRh>9*NvztF@a%bPFJ2mw=b^ifb^8{L_)a=HL`TQni>r>U%-ma^sfI=O
zaKbUnN=JvBrQ9AeK>^oJNh2S&BX%5HHwHRio!)vycW=Vcn*j)7^?`NGK9;bb)<NzR
z-8&PGotW=1Z?fajWDCQ)(PZy_v3Gy6_c;;&9nXO@&NGk((A2}E0pG&=P0}SZLzj$<
z(l#I*eHyLg&`+ZEunhN;=(%wQvGw9S66Hn8Gh!G_f)LhecQj(~6PMZ`U87QQIhVl~
z5)P60%`lF^Y7gpzCS9W(44~yxN!Z{vijn`U=ccd*^bt-jq4ICZXrX75+~mBJO=@9K
zru5!nlQ>3Ylg~`Kyh#iLz9_T|4}sqY>4cFy-gv5iy>gTE4QjDTx(3rcO`ED_d{oo1
z<a9T^Ay)&gDzMLvvEjhjfOaP813oD36V+q90scZKU%PvZv@xLpS(7%fLrw;9jLxya
zL|+(dKEvahc3gBo8#u<c&~XKiJtuRNU}z=fKo<cUJ1PGR&J_*w-1Gbe$(eSut$|cd
z=k3cJ7a`*imV=U=9sde>DKA`Sj6$3*Iv17lK?a6pE(#9Ez93wSIl>SlM{)XUcQ_D<
zH6Ng3&BLuxaOS}DV@Kem*_J97PZsc4r93$)|K%$(hehS%$gEJ@ed}koWlDY}x+3B9
z*V*|wV%dyCV`~zFf|04|rAo3BhfNVdu+>H?z)cd9mldywa1xQE?C`9Ac206Bbs|AF
zOIdQ9na5f8AznUD_<dTf<V#egV!35y`*L<BZ$v8F*pRsTn>Bwn%TvlnVPr;JMEFZ8
z>^iM>q)x5ykz`Z1e*xc2J#$*;p5;#cj21j%a@{a}>@d|HF~er<k$hNP($NfMszf`j
z2Opcv1;@+}ab%~J?yXL=?SC+~<~j;-4kXaf0&l%X$DYay#&XR{HkdSB`H=W{O2D~5
zayaBPX>StkO?R_b?cFJ7m3-_?vTj(!e-P?8krC%>B+L56vi_AWv21U`wU-!GkVGZj
zTSWJkgkuZz&~ypqtlE1Xx+_zvZb^se>PWe&wQoA0=4r0gljb|=i&400-<rZD+_iUV
zlNDRmE4D0Ur^>47Uh!mE*IHQ@^rqwsx_5}>J5p8NxA)%Jo2=R?R_%l|t76y377L_S
z*`~^^pA?$FyQw?4R!mB5`epfJtF1JDG5=|?sibaklxe^v8@Gy$Tkl)Jrl>jqu8*@y
z#A$c3EmtnU$h-t+b~K32hNN?==-isHZI$=W`gv2^HiXgZn{FG(`p0BsE27Fj^fp1z
zcLD)#G=I<xr|!QoZ)C+<_47u0K&mqa<4PYob*_gEb%;0_p-1S5VIR207^W(<MtCQD
z53fvW%|)n6Y*KX)XWDFT4BdkEh-^huFq-X+U0>hz$nAMVM=a8ziEA}GfYM-Vy4*|s
ziPE;aCzD;LMEoy3wdOpXu$}&t_8n*Ko7QDVd+PfEq4Z>Izd(ne9WkgjJ_>;i6KJAW
z<!MVXHQ@mJOuJx4LkloobY|-?tyK!kB$gww#*IuG1EBrXR-gpXR%BK(nyl^>t9uju
z2j4fZd5%I`(^-D|WU_jni2v*|`)9c~8?aBM@II@R$ks`v4)mB8&x&fRmWpTCM8Xz<
zgpHtavTzqFbQ9=u81N%Ijj_*2Kcol9M`znePSWe9#!#SWj>eoXi!$UB#EK{wb2@nU
z3Xrm}2viDr$8rZQ$qJ2+sDi&pM@y6$0YzAT8Qmq2o=GPALd9Ptql45X`&pNKY|X9)
zr@b7fp_Vl+56QCyPR@M4ey#NQqWvKbe7^kd(7L@1ld7lg_REmcJL(@fD{-65?Lfj-
z_bI4+1Bk1;=o}3SWHvxkqbWeP5soY%h5_Mf7=y9KBHS+!gWVYvIra<0U?h2D;1`II
zOGI#li1N={51DK(PmAyo*Pzw7JgC&rwg=CGC4Bf7$U!!v`#d?=bvcxMW{Dj75@AX*
zAfw@1D3@9Prilt62K*8dkb_(`3|q)%%0ukRI<=gd4LD4MrewoEc~s%x9vTD?=Rue-
z0~-h7K8;gbXeKnvc!`ebU}%U~jqEEA^7I+mS@`l*K0N3TL)bt;!k<yRavFx@6{fTA
z*=hR0z;y`1rJ@W*CW}FmYKaYZg-;=af`eMh)Od7)&K_A`=f5C^JOdDuLZ%Rjk0DtZ
z15=X#LN)jI;mt&b0!5O_()3nFW>PMyPLY{|$s@CI9heZ6EI7o`z;3;onoBOIp8?{^
z1X7h`jhA_r>!(3JM^jBFN_NBa(;QRY4ooBIT|Q$rgjXHApa=fOD>q+BI@?5N+uft9
zIMq1AXMEMUBh%;Ds&iY04<s?G&dh`oT_dZ`k;g6FAkbt+YNC1XgCYnQTMI=;BZ^X3
z{KiW+UrH9Vhy^W)j@_#TyB}@_4LzmS9$iA)@7J@05=bcDQ~(upFU}%dKACJfEaJc8
za0)_4rWE;6c9wf^F&Ejn8<NG_#p3OYxgVA^CYpBMfBwPrTFLm${Kf3WNXqG1np}(}
zZ1TNZ8Hz_V&gt*z5MG-pJf@G-V55MJ6oq0?44X~$up+bY-_R4P4j3ba{(<o8|G{g6
z(ia;oY=vTI{j5+a9d?Df*o%TezYx|KC0oUktt($yD><art9a?$%`dA5Q%L#pMurr{
zGtQ@=C7IRnExf;mJK%28F(Q~fQ4d3whJ%<k)td=1SZKj!YmP%Up`$&_hG#=7W@FQ9
z74o2zNY`R!%dJU-f$^-&AVEkVT!RLr0SPCNX`a!VV89$$$c^HNTKVBDubIgFF`iRt
z8r80DR8^zE1J;zckiNl;3WikLI2=kyuZE+VA?GGBG?PtX#2Dg|0nb=rU$vp-N_3^q
zMd_jVv{~tqK8YtcJn23`{j`=?%$hQDw%3><)n@5sw1z=zV--!e1`I<p%9@X|=51cq
z&rI8{OB=?cuO3q|IwKbca>?I37sQc|?bWwp;it#h&_+(Q(Wm4Px7{d-=iMlVd8<>W
zZs)p5ii1UZ^HfFUtazNUAK1d0VLCx*PKIz#kK%RAWM)&<i?Eg@`<Y7{I+Z?+28P4*
zJLWgdxShBL2RNDjC(Bi{d=7b*oau)&gJnrsJ$+Kvg~<%9>AYQZ<;=A?VNYzQ(Z)ns
z%`RN`r>CIw<%(M5Tk3rF_jIpfqV%-5{nSds?SZ#<-GNzHw^-G^Ue*o2pR+0RtM!d$
zEc$Gg)TJvkbp8zro6$lv!Lb%<fkSH{vUDabbrVf@O6~2ay_sr{%H~|WenFVw#)bcY
zSWs-pLPJaDsJ`-o6@LGyYQII*rmY97HZ*D)D?c1OcQ<f*WV!r1C&a;XKYvPO=vSRZ
zX5%WM?55u~Z>-c!c22IYQt2+0t7Bo+5%N%e;s2wBh}y{Oy&*G|{?XNXhpI)=r=Q8)
zS^2y;^xWN-Z}%_fe`hb8a;<*FSquu1G2Lik^3#^fxR$?2$1#3{+-rgj_4}vou>XN-
zMzf_-u`#i8bUA>EnZL6Y&YuhUgeG=|nlh*FA73M>aEh*k)A#`YY?Zr5l_NWQ6&veH
zKiqb9rT(@#QPcfFdAGRjtXx6i6oCHm6=TW#v(;wBpf<zjRz|2cy&shKio@sR+89^l
zmm67vgHZ0Db~OF*hS5}ePTW4R(trEq<)h#E3Y<R|3Xo}RaRLnf5S@Uc7^uq=7&HF@
z7sMNY>M`w>bQ31&u0n$~a|m`ZUl~|NVbvT*JJ|%6HU`3^?VD!VlXL;(DOsV#a+RFg
z3#2@Vb>(tMd1Or$o}HbG2*ey`WU;)<O5szoMCL<jW_(&&Ec|x@{?9<TcDrulMYERV
zWF=28EI23@_X1+a6@gM~h!+Hn(iT`AWzV#LEG`fVY1GOKid<#cKSG)fUhjFY^2n!)
zv0Yl46!&MWZO`t~Hie{a9Yw}i@W2qRYQAe1D+d>0yTz<1p}n~3m{^W}@0E96Ni=SO
z`#zW4Ga>GoNbHy(ldv*uZeUupk@Wwuz2e6W{Y!(lOKyRqzkTIpyqKy><7z=8c=#1<
z;Ey`C-#xps<-IS;VQ;+j^_O77{Py^r@nrROv3mRBiHGh|vGnx)f(QKj2e9m}m7ZR6
zpH4VVL$thMN7kh6$Z+axYXUb(xGU)rq#m)VXT`DZ-px$VT18K5(la1>239VvdiMOd
ztmR={18$CKtV|6aeSb^h^aK_=q|{jX)Rg6gxpWrHrEMl}Q?hPAtQ%O_y9RC4@&gac
zD%UEXPYfM<e=Kq4999y1t(85Wa6ONL)iy6reD9@qUP^2kdl03|bH+b()*yyhIfgTE
znjcs&L9bPgt(A=>Tw{Q*Z@X*#gTnU;QOoF>_c*(T$(wL?(cw5%IMD53RV_+bSDM;(
z`2CXiBbfbAz`9Ztu(}ilgkS(2;HADP*`mP?E43M>+US9?m#wZ_t38+4e&qe;#3|f%
zG=Z<Rs&fg?IV4onhKtcso`!^{BjssMc)B0colRLKgO3JxuXNp?rpv1iK@(KFy$TjK
zxC_fv(ur45-)Hh~KZ|dh!QBR3bffGuW9Zd_C`J}%C5j6C+w9oRe09v|8Mz@+BJr|Y
z%4N+`Xpq97lfQ<QKcdCJje!KGyUiS0ndz&|e`3O(f@x){=gHR5oQpq`dj6k>xFZ`A
z$vhXq2;xUHA`c=RSV-aevYOiy$(lZ~rY|utio1qNjxFY=>?H|%&EpF1vL{(TB-RhD
z1aaRQ4xK#;WObAx48o?xqmP_8N=acUV4l(*S{LZ=>0!J!ljz*gTTE)FuG8%`M$|l$
z)!fwD?vSF!o4$%uQP!Oo*lim$Khspr)(PD~;b#If5q`r_;m>Jz$?otT(M40ubkljH
zEq-Iw8LJSj5jrq**sr1HY&L&JrIy{Tn+8^-uCe-!yNYK(R;k-)xn}byT}M_g;#NR=
zJG;|n=UOptSlh)8RcIES%?Vrcvx6lEv02A-p}RKg7!E2c!okndmV+3>!8jn4=7tAd
z2;ANHz}JBP0AB-ME{>z84FR47bGR#`EV6gTd(-@kQr1*vXb|7XngIt3yk0}zu_{^w
z@>v7K($erxzW17)%0^@b4y=a_Q*;*QOps>d@_B}QVTk^fQ#ZX#T#rK$7=CHVsMnan
z{#(&C-(XFYuYnT2Jqu1Zjw5C?083(agD%dsAtQO5yaQ5*9b>~Rb}qx%sS8&{Ysp>Z
zaUMTT^3e>j$TS1zv5>u$_xX!6lNSm7uU>?m6uU!RuBtqPdH?^~z67|9>^u`kHx2>>
zKpeae@V+66mn2H0MDfr?Q8N-{&9O5ShomG*6e%~Ti$i8OIc(CAGgO@HfHmV9XyaOA
zV(*%}*{Y?>sYFgCmDwYeZh~3Du;k$+lgcJln}S4D9H(|S`~9yQ4S<AZY{!ctU%&46
z`d$6b|M-6YIK`eBpG+Y1qwW`Jt{I!SbZI!AC{uj7eldCc$wC^bSpD5zB66eH1P!Fr
zhIGT&UMr~$cU3<z9%TzX#5ENL;DDnwO#TUS?$86B{DApQ!aO~%BxjtQm&r+eA!?nO
zmMcSLi_gGx)=Qp&SsJNWj%2%s8X{3xWrY8ThVMNjfZ?0VfJ)f#t!$GlZI3(&^6$E1
zFLpz-4`w4}Rhwn|rLz6R*e_ZsV&+Vnq~fM$W<J}t)DKpDHc(?gey)-nRf*VS5tT(V
za@jW6!~wRabFnMp@&Jv-Ubc8kX2^%_70@c#Jw*`Nl1&kd=<i?Vo<B(tJwX7D<5##T
z2L>R$v*Q;ZK3~B>dx=ZOXu^AGrjKtaYl)WR?Q|q>mw<X-<Up9ygXjb_w|M&T_|WYp
zj5pmV1~o9=P`-IkGmvw-X-C!3htyH_+)okjYr1=NK!}58`53^9F-7J;u1X~sCaMmd
zTBZDiTuJ)lQz#D+%t4w{8C0JKj6n$03aXe6sA9&EVl4dX=uMt}Fy%10r;(p>6vYRp
znpk4w%McnWjMwfy4CJdD(A!M0y+IRGe3px+&D0I$*@QGZI}+1aqxaUp!0BoN1G|Y6
z%w+skKWW)q^p8(o^6eTqon^$zD!ZtbxG}M|BPAvC&rX40c~err+=mxQ0E~`(n7gLN
z<*kD<T$xc1XlPzibETc$b4y63MPS)v&#rX#z&HmoR#Q>-i9g>An5KObbD%u)8KO=A
zf)U6Y!H(X5g5u=NU4o>$4$*)Sbd~WaKQnz}_?moyq60+HhHpe|Wc!bVwU{Xae|lm;
z6?$_L84im)Euu@hTXD)_Mhab(5#cZw%QVFs0-HW*qDUpdweQ^eq*+AL&{7LAbtF^Y
zY;96SYv7BEUtI3L_a?kD4fR)SSz4h1g9j)=sG(fD*=Vn9OD)~{2ZTE;;0)eQ!6F+Q
zpJE!r@eL(9-SL~3VLbk_w;#&8Y1U-{%9_`q^9wUIURAA3CR&UVyvMZQllPifWbsG)
zN74nR_zhmD3&Y4b_7bwnH5)Mq2B(yO<4He~5a$y;tx?%K&?vd+gQ};xyhRN+Z@>io
zxbRD8bYQ|v-Br+GZcN{hL6-g*0nlk7PH)sPa%*H_as>L(^1|&GeAI5PG@nEMlvvU5
zDZSn!GQog}@}!BpTa+hFr2j+9;}#MmGC{GrJ_dnUUmx-0EcI^@|F1>zw2-m!ejFvu
z*^7pEGM6&RYIvKJ-3BwgPdTG3apC|tOqg{DxR65sq>hl)%56WW>j=KMc6II2A71_L
z)sM2icU|hb05h*0%kA%W-0ujCe63S*cwuFm5NNzarzQj3cmhE;@QquKZML40S^=C!
z)PObsrj-W=uwLU(R9-1sOFpqAn_<;Mh2|NlG-3sIl#8aapFFKbf($b3`-M424|Csd
z^}yXV)Z`sHn&R`7$-bp5HQ1qQXY2azU`id86&#QE10IG{z=b`E9IHY!gA&wbA2u}Q
z$Uvq`?NC=@A*m{hAUDO0$|#97)8HfK9<!qgQ@s`6^gZx}?R!Pj-rbuD>L{#Mbl860
zmLdi5ih!n70V|v}AeI0V4QZuSNWk6?$*81Lf)<=eJ}$Q*b9xbH4slejELb9{5iRg~
zrw~Tk%j}2KK$<PXjCz`g3w9|y;<T}^s=U&8s)}eG9pLdpc_2&mv**cp&!kR3?a6-W
zOPkz&=p6u-;YTJX-k9i*I*v|GPham(Sfhld`m|qOFW6VcyvC@547OC*#3zF+$QbgH
z>6U*^KBnbDB4jLFSR>ze;V3(081cPyIeDiX&47kFR9~nFv)RcLe&YE)>Qj^wBp+?g
zO<SpCD_zusf|coB?g``sE5p{Bry6^vEn+VX4sBNMlPdR#_I*$Fctkes{9<7%V502@
z)-Fi)-lsesgBq2U8_)+{3p?tcYBFG%8<>dY!Ip0xesK6d^@ei~KoU6bh&EDK^1+!E
zND7kp;Hq)W6D~abls9^^K_4lqhOzOt9=!GYT)41P%<ZH%`m~P<%Y!}NJoDhp>V>uO
zaA9w(AS<2z2z?~h@f+azS%!0*FNsa;b4DqJq-n|Pr0g_EElJR8q(i8f#tqwRMN{qW
zu}S@r6|oqe=Z(!Vrc5dqN-GmLcFY=47bb}$ngv_zQjJrkiEuVCji{81(2)3?X@n*_
zR#e|-6g3^+H!h^2lkH%Z#Ub313oMM>h6vJ)n=`}HQ<Hahk!{LSOP?BB7I{xaD*F8R
zU!cm9cmw)7fmN1B_L5EeQOSN(G#&kn4@F$5=Y6PjwZ~Lrf1a?4JUJ3|O}2u7-P->~
z@&J*NVN6o&9$;c%#wK<(jsulVv5$}{;=D8T6{<M(Uo7>q%vPa9K%1?SwRPQkVU63|
ze?kKN_!VjYh36<{{i3>pMXl$J8@sASdb`OW9jSt^I|47J{hIZXy<Rk>K{EISRY2x3
z?HG&fVXE~H6jo)d4wKs9SlZ(5m7X*7)D`?otn+;?(LC8q1da%AyAsMkV>(Efq&vQA
z@6rm7a_#)3qb3qfZcuPw_S&_7`k93wnDmFtpvC&dPAk03LZits4tvPN1yT&nqfuq1
zUz*d&b!y*ak%#(>ANURg&oA~Zzxo$e?}yi9rffep-%N{i6gde?=oM`I2_EDer#ew3
zlh;xfIO|DXMAed9p=^&KErx!UL#Di@R;EJN*M^vxC&2QFma=d7!SG?_!8W!&12z_G
zGB6O`d60UHPeZlRbJmMrRL9Lmt#*z$fgYyTOy#DMA?w|<<^S(uM(tF9i78MANK_R^
zshwl(3>7&AQDVm%x6>AUk7VB?n)d9T=6^x$8!b|2Hkm_2@aYqGhDS$6uh2Zcvl=f_
zHByX!f9Csdrma+`^c;)~BrdPqN8owh+J)_O7B;pNm;KUF46Ulbsa{sW{uoiCjxT_y
zG<<rXd${++x$dI_eY>hhYCE&8<RPOVCcQ-!DMTX5B3v%n%OTnO?cU9XZmFSLtmzg_
z-Mhb%N+zAbtH~R?q<wkX(+c+Gs#IY7^o9jGbw{86O)`){+aLVc>=*Tb+ArLl_FuU+
zLdxZ!@q^|A^RSo=5+VK2dF0-ho}NsaXLf%4FVM%&OKzQ%Bz}e3s14cDcGC4*#{#{?
zLl+x*9u7gxCTu?iya-3ef4>c#IYL_voCy(E_yuhSPSELg#p+_xgfx>I57WQ;^{JZj
zFS*I&oyvK{5{}Yjxw9q|lFCa<v_w)HEm4g~kyQcNAZ<Odnl#AmeWIyv_xJwUi>#hr
zQDpsKG?V(<4XErh3e-^g(!a9nJEXkzRVuX%v4ew+BS*F3jbf+ArcsMcT3Vmq(&-P_
z=@;d1Csag;XN#ik{3%w}4w4nGbYq!W9ch>W6;b}BMJ|8Np+9~Ef8M?pLekpAfjymK
z2#{JEKPPV}homogd>B4I_oS55L0|(`B&h}@OJEpz6Q4*W6PJ;yTp4J9FnPf^i^L3r
zNst-u00Xs=MUQIywZu{c6A<%XgZi@nCfIi%aI<%0tve!ek0cW++4(H-3Ij0&EY>LO
zPm^HODDv`?F%3a}Gky;k9pW#tx0CpK7iGK*l5e~iN9=~ZOFBu#0k{2L#j=_FGT^h-
z@;1Um2v8O=M-fStrJbPagR>|@OJ2Is(#+Jj6Q#a8eUn7A$i%$2vGK~K#<=kazqk5L
z)`Y`jRHm{HZy8IrY`&V<w9twnGAD#G66AB7e26|RTqNhm<eY^w`{K`2wPd(^r8-m$
z@2i#m*L<@>RNFYL`Hjhu8Is~s!OG+9#Uiu%dRZM(LG*X0YNJmeNA2)d`k?`2XN<_i
zmyxM`iTZs)l_UbNZ1lsSEck##WEuLS8Dryb+`NqQ@TiKrpOHu|WlKsHr&6gAiHKjL
zY3uip5B8+Fn(RtN5jy1lPX34a58a#HFG}4nLdBZYi%Gr&k_`nC%!A)ux737QS!?~n
zj_-D?H}(O7U)IPbpu8p$AIrF(5r^N0?Me`EA=|WN@oW?|ZWeV(__K8Fe2FPo(|ZIG
z4#KSZ-lrzprYTP{<%#)qp_3aXXaJ=bZsAZ7Muhmc@O=K1ngmWwcsppOoxgNbBhvv%
z7gwcUCQ^yBL5UTUJ}o-j6SfSra~R!@oi*q|ltH5<nJbDPIVKU9@_i}xY|d#CyX=uI
zt|Z~&{Ac>WT__P&Q-XgXHTPiW1~3uhD({Vwt5LKz0wet0sryr#*{xD`YdE_dIN|pE
zO?#DOuM$mFyH{Pct#2Ul&u{DWlQkA9r6s9_-UjPfR>mFE)A5Y8behGB?XY0Pl|%^s
z_Mh>KS|L&~d<o1O@X-8d$_j)e8E0n=EL;ALW`bixfSj=PM*ymneOzYCHV&xTu`!~t
zGVq@K<TgzW`vYp${dgD6n%fBc$g3Y-ec1Y^o!{@=$bE4!Gh)dVEikz34LV^)HTXKr
zwushN^$3?%ftE<ztn=Q$_k;p1IOJ$FJly$HkfuLZ3@913W=uwqYe*up|H}n|R5Cua
ztW}aa%Iw%#VrFHH*6TF5CU~l%nIzte4;+N1!8E~BS`T*ozHRuHG6cb{$d3nJRV}Z@
zpMcnJ+_lD=WP{<+oCLjH?F_U&$aca^BX9VpC!x=c!KezQ0AqtjZPdZGk3fAA6h5^u
ziN}JU9Kxm)u9NTY;ml^A_p{}6<c_kW!tgXL40d^SOHduE>6O>WVcA`SFPg*F4j9>p
zTMHoODH4$R04%$Imy%tQm0AV7iWTe{`o1D3u9!dNXeKF3?)4-tvpc6hq25oQh!F`3
zy-+0IB1{e<6$Z`g*4iZaj_!xeVMqT*b?c6yPfPYGm>CI)7}#XWYm)MsuvmC)z`6oe
zKd*_|E2x#SYa>OCk^JgNdG%&_msH*btasTMOt_#mQdPHE)hku?vWFz<`^;|2%UH~O
z=G2(&?^u>BqPrn<eZvIhP}sjMWHVS?2l6Fq(XWw1K735_57ufKwW;<&)HKYr?1zV=
z8N<p{0l#&aOmR$-bx_<Hhlj_eM~8>ydFDMNfK?rh1%@%(i1`up3OyxM7SJeQ{uA3X
z;Z=H+iHREEyEDqOe}!klQ*zj+Cdn1yb#h*$@5sLV1$->F|A}U>@6$VkPDyeC0xZ#w
zP~2LIONR=1FR_PwW8{pJbD5kg<oq4QW71bNxd_yy<c`X^=M>$xkTXrr7s(OeM6CnU
zmtlwW4L@ZscWOFc3pdHRMb2$<?vO)6PPj|X8aZ#miCT_dI)f@hp9xCXbM$zg9O8Zp
zbj%RmB4+_k)XZu~Fw4T*^zfJIA;(5xE8YJJIloE{%^bq7k@F>Th+r>#nH-LsMRJzN
z`3gC|PEJ2L_sF5SNcbu_zd??RoOj5fldrH$&V6!zlbruZ&hL}+$K-ga4Q=p6Eo}F#
z*lQy=H-TnCp`LvE$?1d>CEKzD|8Q3}HvZ=nrGrBMntcC@924ErTqm2G{|EAIlk+kK
z{3H2jg%JLXoU8OKgB%MvHgX8qTG&gW0rEAI?{~?^CWBS-{T?|F$@wqj5LAlrm*o64
zIpBE$TWIDcWE^D82vU29+6G8v1ANKRYt-e0Lh6X6<dl<BN!hfqTk;(uUk&*VlkX@w
zedHV`hbdhU`IHe81tQN0MBI{*TZqyjF!BMNwFTO?%CLKv$wzY&6Ix*dS=JJx!OKQ4
zb!>m3MWgvO%@c!$uinZkTj*PC33Fu-VCP9nzOZbee{mqpm12j=4`{cF$`_6;z82=n
zDMF7HF-po8dKc@KXQYe*_8!NZAYf2cw{T+dmja`}$q93{^m5r&Mcu;S^64;F7t?Y4
zAeoyesSr8O@(fE(%V%#@H6Z(r0RMqy#UfeC!(2m5XXLA64oz+$aw%Wtmg>S>0VP-R
zNm+I1{6<;J!U@q{66RVW+@2p)H>_4}RPSFH6x|hJZhwS(38>P@v?ow;|74h}RLW5$
za)p7>Fb8~U9bb<+>}e6Xyg+MEzj7crBNfz#xn_!52rF6(#}`MJdzY?;xe|KRr`_^a
zES!dthWma;n5&=^yhx#{PUNz|l^t8jVD*)s*7*>%D_9N$(=gXab;(0r8uyA^QNSM@
zTA2-VO%bj)a=2$<VA&@^D1AmMJt#R3g}I)XPS5Yb*`dITG+J5qdftr(c?F1!w#la$
zr?n)hu@_PBPE$;0K<nEy6}2LlALtEpHB`Ri^qI=4MJ_jhRzamXJ{OH&ie|_OxLLF4
z_^MrTnh<Ai8+{;uU?^C=^78$+LT)LiG0e46K4hD&b`NWcLdjJb=6sa!LA+F6jYb<=
zKDTr=&??#RZCE>3qKB1Mt&VMY52E~N;)B$lr?p%4d)Vg)_O76j_fUcNp)AF$Yxr5$
z;Q5o<Css}KzK1g#dj~`g7~{cnq4MBM4{Tv>fSTbXHA8A|s@y88Sva|@U!J&cXANOQ
z(>OE@P06`MxT?s}e%1*CJ;93LTT<CRsSq%c``20laTVtJsgSNM`n)*-S72r(AN@DN
z5ikS$xQBuj@sF$J?OO*rS;Gep5!1awDr^sPos<H7$mVwBBj!|xDx@4=m}{fwzO7Sd
zDCL}>J2)C@S#__DuC=UQ`47cX{b8}{uvB{FA#@dvNqNV^+?fb<9QX3&z!<vDH8M-Y
z?TvKzEu2}tKp!YL6Y5!Yg^ok%sH{yYYF~3pMV*qTE6nvpI=Yf_30`?njKY<+OL_ak
zTvw!JANBry!M0HAgF{k5Q<&QqIe1v)3IZ2`udcRAkV*hb6L*+BEDv6Q0#fUTuSk{b
z8Ks;ZFb3^N(c3QNvJ_7avbV*`18Y4JKqM-p%6_TnSeP4(P%BVot)Yqs0PETl=Gr5^
zX8HoR12e&~l{cjv8h(+cRykch#67S|xvbZ5`}l5cV02qU*O;Kq=Nq;hUL>UtoeP;B
zbV-m~;_(n4$C<r68faO*a=$ocq$ef-3U8aqx8Kg*it)H2qMKwX&IL^OyJALqB1a@&
z*(}GGQBN#G+xmkwE3b#fq@w1Skv+%2ED5?->SJbho1w`s4vZ#>A{OtJ@|stNV52f-
zVKIQ+wj-fT_S~lNRt9HQ=3;hs>(G=nhA<1X#Io4EQ&Wfg5A$O#cI(y@HJ})U%`p$V
z&(@T+ujw&qtc^*fM`JncVJ@_<s3~K4>^5Ih=nYn^9E=sP+d@rI83x-xtccwfQ_GZ)
z_sJcz#^70gJyf&7w?udc4J^;93pNON&zkEgUAFZa0}w$phSnH|TbMR8cmmZMeA!bS
z&$}rA3j=&HTORKU`L{K=#M(K&HPpMU!3E?AgY5}Ael^7<Sbogz2E}&>9iV6BE~HWT
zLu&9LC0NIo1x7)X=gX8J_+q9yzGJOCrorVS`68bE!ZzJLeMzh3hqT)UBi|TvX7l-5
zIR$~9`*&kJ{75pxy=^34lant{gWyL{R#D7IKJ*0lwwZi2MOd5S@57HsQ1LR750O0E
zX7Y8puwKL?!LLLjpGo5^iJ8flLD4PbtF!SrYIOLiOj%-<PcrY>HqyP<$>)hpN47P%
zZr8l7<$JZ;NAzaCYCF3S&LIPDi#a@e(H21Icw8v~+qRK>zWuyyD-Y(Ma8(|YZ$_&_
zBEcSvypvFcgFj}{@|{8bHd?$hX3+9oK^OVE@DhET9NrUjKh@x(v^jjS=3+i0fG>+n
z?1=Utzb}OMaf!`pE&N&SD$xAs`mkl2U1Rw=3|6wTK-Z7TDPs&?la2RMX1K(>#e9CG
zq%o$)b<1p9^e^`;-dQTy=5dcKbbLW*ie4{xh!=3d!c(>PiLp=1J6SEsgA#knW9%7y
zlgw>1dpfAI^ZA%rdmmig*1#Jp%iycT>V4Z9Tw}RKd}XM0Rlj;})%0Q4wg$Jct`@#L
z<PMFlwuG*HSiG&lZ4BE+Y7QOW9PFho2%EL>2gr<q+-MU7;i3e=7i(ZaTE32ga8ZKb
zQ`%RH1cxXno*;Z`P>*(%z19QOK_wx!-=ggFd`7T>24p-t_|Uf~NXs|SH^W7Jjixy{
zs5#i0K06Z%i6C5*x8RGp)$+5q;z9B9(=djWT_sYJnn_n^hBE0=gW}yu%OBMS+!S^+
zQKzG{IZ^5qz>B-<MEUe5UVxpl_zPX~3-O%v=(uttl=At3z7I~VfQtvOQV{rJ{q!ZD
zV4o77f8bN*B#!qg5#ftjbNHgwo@eO$Me@d(?U`SujWeCsQs9Q@(8MTE`{4m67-)EN
zAi^aHlxPzi;5gxqVA#jB3b~HBCAtw0w(5+5ps4II(JiJC4r%JCM$*W-%dC($FgD1g
z2?4y5>qNg~r*3dH*xL~37jA*#od|)<KR73_R5c~@20kl&G9ol}xq*~B@e;TYAiz&R
z_IqaXuKY5jEWx0F<RjV00%wIdGHOZ3A;}H?3iuatY30;pWp!4#U6qJi(WMd+TLk8$
zn92kzJ@l-+_{o@LI$?#H|L@RBpggFbBAFB^{1wF@=VKzZ(1B_}^8}L9MSzQ1v_3Ls
ziO%wG3~d<eB6e>u3w&|WR33rZY)+wb*pPAyGWbv@9HgZ7!2zO3E{T>-1I&x5bWI*p
zH7kU-aK=IebI+BL8Fu`RKd}s)J`V0h$}>BX83GDgA4xHzm66L?%7yw3GTw`fg<oX}
z3e9pMSnvV45ZQRU`{vlhbdSQwk{MURugOKA;1kzJE{{Jy_zNH+Jm+m!>RWQLm6WrP
z^4am*BZ6F;q=I+IC9@=j3coHFhnJI}>O@_`=g#-{pLl6_=*)0$Uw`-cfuVDwcvbz;
z=qbnlHp!IAkSIhXk$-)l>Ar~=|62F1?n^wc(E{gYpXMH)z`D^2zkzIaoN}Z26A*1l
zK{^Kf@ud;6%_b}(J_o9&pQsKDGvg5eUAeM#uI!(fH2W`SxV87RPVTD)Hy~wX^5Rbr
zS0+C&UK+b40+=eTg+w*#WUzpnWcohQ{pbfMX;2#&=9r$j91QVk-!_0TD`PTh?`6&D
zaIc$_5f`=h2oI5(Xvc3(|1I<q`uVl@>VaOy&GDCXm!K@B#q>jJD{+xqs&3Ro$aSP@
zQES*yi>SeW^AaR!pcf%G(6GQrZ%kx5>W)8zP6iR*WS9kvFAa^&xF}g0bzX8z)U0C&
z1#8Ty$*A}r=E^5Vz1gs6cmgxzhKQ*kVxrBFEl<q!22a6kdAOoKl2s&TRfY=11E<5a
zrvVbY>8O+(mBCAY;b`1)<%xuV+9wwDi?054Yd<VfXH?-VXLZQbNnYqdenKxfj8Juq
ze0^|cy9RFpO=1GDp_rr~?exaP<iyNfpZ5h>A%*6fH!i^j=*-@Bnx&W*JXwm1(d(<_
zqlU}l*RR8Vf_!a>TG)NdFtM1T2JkwsPd7(7f<u%+j4mSEl;weX1%18kLvTn?DABc{
za_0t9pJK3II$jr3N(59ejLGN+`-dR<QZ(E@aHe}`Z~O4znIR0V7hX7XcBrp+`1G0H
zzJYVXO(e(K0{!+^>8o5s+R3vd=&g{2f%@)*!WI?2j#qs2-3k#ExOB#>4NtRVY+k+j
z$NZmWem`@4-)T&sfKF!Zol-mM2ds8P0o_%*#-FNo`H2>p)8ru?Fh)=s`A3G{-vdS*
z8Rq=Ds)z_P#Ck|e&f1Cbe4W-nFA+Muv*o+F&dT@o!3g$<e|oCJI|O?6`_xKmQ^_bL
z`b2w04bW*qWIxp{-pQj*ARCMWRy?`wf=H;1+K&2Q`nG$N<qOS9SsjapN4DIEttfCc
z@VZz(_|dJ8u87tPkSnswVnx_YDqR{#n`~X57?U~pM0Zx3od!KM4{P>+z+Lh*L%WKE
zI2P$>E)*tqB1|nD1>X6KPfokuEl&u!5|dHgy(D8yq(!CvoRsv>Ny)UcWK6|G6)$7;
znMj6Kozs0=HBv)J{lY7ATsrmpJKA|3+O&K+C6;*Yp=oP)$2h9Lg0_CG0^JY@{^_`K
zn8HE!hBZ^;j5A(d3}tiTZq7*E_&4?UJe=lU6?AM(^9IB>!KSv#wVN}=r*AN9^$U&}
zqGGdOIxZd6T+yG^&l~3r(4gf9+0c$=k_k{~Mq+-xG;x`6$^_~xFzLcLVk6YmzlW5C
z-yz@MldlR6(5WWC%N+(4egrCYBT<8_(l1-}WxB3N6VUk4g5h)B{e44ygXhkiJx8nf
z(3!J6$A^1|UVfoZXr%PmNIC`|boCxkF1hrSx^2`dmrItwh#H~FNf5G8lal#N)JQ&h
zWM)Dd5K0xIR;I$MNNuDu!e|+WrfYou`uE83Fpa@%j0UVb4h^8Q+k^W;y<ykhg#nB!
zlUp<vJjy8+OWFdrHcQ&1lD2TkzO|f(72%v?i`IzIh460}LxxrRhW7{}QmhsUHUcjI
z3O=VNISNkY8{TduPODVXx_WtSCY;l|XvMN7XXNyS?mVp7aGqK;eqwP3k8M_TNEIDo
zZb!fb2hqGWAH22l)<#LwGoJU^J}GHhJ{Bph*(}|^QM!NmM8s7HGARtbJTq#t8bT++
zj`pq6{XnzN+7~Hl!ZkDRi3aaI0UCYbBf{ekGd%t+R*gr1$)CSJzi8dE<bdq=lkEaT
zC0S$5AJx?Mv>AjDeV}#Rr=L=SY)ZiZ)=g@zYv=V43Dc)rnJ`?qQQc)4EMQ&FbBQ?{
zCd$=8Dd^_7`?`Bh3<4el6k2*of@EoQ(&k`pP00G}IP-=n9;P<f@d<-en-trMYVG*3
z6%>YqNmhcT4gh$Dkdf9nNqjPxH)68XryKri3}9(4a4=k~n>SD8&Y7+fFKow8jhjL7
zpzoIflt}LD+`M^)xNhv14#N|MsLd#?;ai*>2j9S;s?T#6{DwhxDiR71KAZ2YVLG(X
z(1o@SB(X+rC_5c*R9icH{N?GJ0>sa50m&Kca<)Q}*$zcI3Xgoy`kiE=YGm7(PGX35
ziB5V*5o}py+XV9){}cH!;VR)Z>P573NLof|29PCi<lNZ7G|KQ{ln05T0YDJD5b#84
z?!uUt+3kOc6aW{-HZE#El{36ZSyQf<pqLaPprn;q1-A95a&mTAyR(AW7YnDU#gde#
z0ux5tSoV{(eqF;5hnb$dH9kx__Hq`&caiaBnq&SE#Q;3BRl_%7V#%%oj@P=UeVgZU
z4WD@07yBMr@&g^gn;VwKr!c-@i+I{GU_m(3AOg4;rrh`YJ~+K{T5Rl;3OgU=mweE;
z(zs;bf{fN)DZg>i&L)xHx=BNL-B=OHslq_UxX!7TjMcD5A)1It>1q+3fJbhYoXufp
z>%yr>ZkL!_vzgl^<#vU0kAR-OWy}?g-bilw@>@$8TiMl{+3iwxdpLVPB$Vi(SasxK
z!NbgtUKBlN7BfEOGQK?c_F%+xHezx{Ozwy&2l8aR0kk%20eBied3sEX^80yI{<l3n
z7LKhjDk3r3MngetOR^t#DO(bdMCQ08;aZ$`(n*cY8<I8~>5LBa&grfaGk3>N9b?!d
zLO>U%e!-r!MF6t!oc`OYocX+Q>J&^GsPhDbW^D;E8~|bH-qU?uh0=h@c{S!7GkAda
z>r=|9itVHm(^0oMz?R0FJ9E;c<doPN0FOQXCPqH+i<w~YG&UTG+|=ztqB&UI^JZx6
zWxuO5JM8#jW`Pm*BynFOwjca2AYE$b9qA^Ogk&3b{2)%W>kZhqV?9e~M`Q?=&?@y$
z_VZKMrlxOC#YI79UFUCr1T{mlK$xf4Yz1@Uy@;~=aaPaHm=G7D4TC(#tRMs7J#s3r
z?6FZE%^N;9bXMNo?A+}94aH=eor~n7&A&jCo;-Q|U-JDW9B3COc0m{EDOE%kA7Qf^
z&2NCPATbnWlS4aSWfoGzig1jF84@_ZP16qa9hI$3N#IT>d#z@}1+H-<D`zvSOv)--
zIQgkDYq|1$*M_ku;_$p{xo`Pe<{}@lIF|dra`@AHpt?g)v@lY-7a~Iiwxv@bdpbND
zg>90(?NPQjczCsKwN`}n<?K$;foZ8_wNJ|LSUUB{>{{-7zwLvAD+f2s)sgIiCCjI_
z+`!>bTc}#hYYy95L{rPBT=w#8@ZbiwXUphZo?JJUK`ZP1N}Ac$E!Ce|o$s7lIweBj
zZ*J|?4eJRyx?^XO9kXj}`R||q;I)<4)-&tWXnR%**WTQ)o&qtKMSF(*j*GM~M8YLp
zyS8CHxdo*!E?Yj0(wr0jsdJEk)=Hg&b{<HSnS$*Fk~CcOGs=paFscLFm-?&t1UrA~
zyo0TIVh6(J6H7cUR($=A`9wY9%qh~EDY>h&O*#Sp_?&<}6%GS9G#p6GPU&_ki33SG
z%yE>I)gH5^EavF=?9`AW_DzYImDMd}2BRYhlRtSG^%uTJgX1iGSkKu(WXD+heG1<(
zpx9U<Dg;~TaZYFFh>P@q5#1<tKYbw@DzY>S5zz#4{)mRj8p3b_FlZWDR@>JOedG?;
z4=$YC!q~X5ZY-3^!06H^zoFkSS42D|o1RL^QyKPDGl;;AqISvB4)nReTcO#|lvvam
zcEW^9*CW_j$d~M`qN$Yz#K~{)-?TiiY?vElk?M%qC7KH!Ssd?lE_H5rn>M}O68<dR
zFmDSZQkLvM?YgD>kt_Gz&ikFB)ys+@52KDyg9tXfZNF&RFLN43sj}CoQj_HKlane3
zIhx!VX+dPm?nAiAT^?fE7zFg2H!7%8rZN4zdCr9MYc-x`By~K1swY&j<}Gs;U`V;<
zEOSOy5ZzqHly=UHO)CvB_QRrNiFe0&<Gorg8NLBq+(c?Pd0Pbz2$SYHE6%`r!7|6a
zZ3eMYP8+Zm2;mT-6^gMjNUocb7Zzo8Ih@Z-DMMzW3|JhM`V!3`UU#-6mV=;*%>gZR
zxbo*TV}^NKV#ub|(!ptc&X%-H+F({dooePZV`$5G=)8T-{&wG(8Dv^@_$o!m1;cFL
zoP8{VC<612Imeg<Pkhu4N!t!<yu3h*w5M%@%rTo<*DR!BXEo!IvV)}zYQ$XDtdqX>
zoIx;;Wz89Ikb>!eu`DHAw=jTmmc+|4=42`4%w)yOno>VUVlj`GZC*EJNyJ8YynpFt
z)T2+jiDpjSPJyte=9YMh@1jF*=tW1LNhw28FPeAGIp207p7UBh;$@=!UQcR2SG+90
ztQ~U`sc;M+{cy8!?9z<o%sJuae%(Cp8q1q^e>SB>C`;-Y={8XLbFMje{M$pjGi{A#
z)D6#^3wamJxk0{E3HI1lrhTinaJG(sKp{Kq#W7{#5`h&e1WrISL1KC0I-r^%wS0Nz
ziZ7}MKq9naa!8VSw*a<3Y5@$Ef`ft^isc{wBFQ{QGZYV!0cb0uH7erJ^u$emn7bh{
z=0pN6C4rlOQ~~BYD}xNOm6VuK@ec}rLQ@!<xV-SqhEz%|Dk77F7$8}KUW<ne^%0m(
zaj?@%)030aw`rdT1CeZ}mx^0GEldEj3dDUBEvaSVud|Ag>X6Ud?FULVCG`CEB!*|@
zm@jH&#+Cix86dv!E(#wtvqwZ>2K`;<zZo@=-6DDzHB5p9Fw!zR)5|olC<{L*>vToI
z$EI&nvV?}E>LRg&H7go;s04kLoS({?5D3?mIH?mTIn>yuy|?LLPoS8$#<BOk49#sH
znf@HbF7mQGgky)J+}#mjDhghP+%V9ZP1`kukLc_C8GV?yf3AY>>@z49Yg*;Y#u+R>
zRV`+V&x2>($gn-3pEpKdQ(<4Dmw9Vu8*8Z%FB8ldxXUwF&<gY!Ay7R5PWR5}QElg}
zhqyUA%h)-aN5y21Q#)a;Z-lt7Oy|0LVBpM!;ej)Q$A(XLza(>2h6nlv0f!5I`y1mj
zQ=EM`uz-Z|>-1S*h-!LD0YHm0B*0wqGsv?UloGmtG9ZzRVMX1e=IrzfeYF5biw{x2
zDUSlig2I%lvCk)0gIWSit1&w6OpT<?E3Rdsrl{uivt)960ywIu5%oTA&-vbN;2jDh
z7?L+<8mBKc0)`cQL@z|rf%rDd<NQ_WpB?fJO?yE>LT^{}6{!+3&Z;~z8@zr6;COuM
z7O-Ol?`Jl4=U$%|=d^zGYqocUY08Ny2FH{j6Uhg-e}nHP3-QyoG3t^zG$}nu_?SY9
zJ~KmEYw&LnvDPDN0<fLW^R{47PuedO&BVv_PY~W5O<3}ri!Voa!XHp6j8rl_!Qt=v
z4fc8ICO@GAv$NAi?Q#CA@}}@#Y3TkpnwD(JBn1n!Gz-X6F44f*A=FRw1llL>`pFyT
zNlJ&DDE3_bzl8@IX9yUU1uNf!lx^NqU6#kNa5`3{apf$W`k}pWQUA!97pR5oZAI9*
zXVDn3I3-Il=+<KWk@eCeE9DQbEuMN*Q7zVVuH6n-9Fwf2F|)=|^bFP#ivtrdRLd|s
zMB~wgH{nFGYe0+g0!*d|f`sOhh&5ldR*_rOyl!pY%C4ed9|eQ1o*Sub+pIhwRUU{~
zi$!l6*k)BQ#aKpg@D*ak0rBAZu=fjyOw|6OZ}7qK-?6S68)TKTEtePD?k!7&Xdyu*
zH#GMew(^S??T<{hcWg@}+?5FlI8A0g?2tXP7|a<Ue3dpKwNHVGe;_!uIu>?8ZW&RC
zz+VzPzItM_^|*w;isN|bDGe4#?#4y)mc=ash~KjR2lh&oEC;ggI!}2L_`5?>T(?=&
zC>1q^uB_?9MTZs#w_wt<f8Aadsc9A4E=V;miH^#MwG`@a))ttL{KV)X1<olc{}8pt
zp2L#&h*C|DXe3s;6<TxUA?xa^Qcd^6SJrFJJSr@KDpAB;B$jlGJujiDvYaSGk!|TT
zzD1E2%@;0ghphl286J{y53Rix&OHSkpck}28C;wXTZ$l}9y_7cWaNl>zIC(j88Gn6
zg9k+45pYZjjzM!NVkr<U)uGd3=jru^)5+CsOsXzy@9teKTD8YC+9TSQNK4mh<JuP^
zt{Tx<E7k(Rw_J4M<8{W2`mDo*Q0R!+_^dqgxxvLDQ@eZD?Ry_NvSo{O!DA3UuHJBT
zpc;vSJ~L}_N+UV>%j3wVuvZ)DJ@xQFOt19}LTpT*<Aek&VA8-`RjVe;4d@03Ykx`j
zU5pYTM9$yQ0JV=|&jEQS%;$dJ$Qz>qZTh1YVvsSN6{z8G6q!y!uv&5b#<Va42smbn
zP#`8t)PQ{graysBGO~^iozVp1bqGWlVDuyCw%i>Xf!XO%fzAv<COM=U!xUkn?s%v#
zIb$OJMYH@Pmw;+L<(~$ywXDcQdr9G&G?LBCL?WhGzdY&5CKHuKIe}#+Yw^&gohkoB
zo$NIw8fmR#dZ*bV>PZgpV{Rq&Pk|}iM6;5^WJ`=Wlp;H_)0qRLcHnpVCZ{i7#yi-y
zYZB~(XfX>*GWp>jW@-53Qpn0s#q>@IIbL!~$tfeJoSX`BD#@uLr<xp4e>Kta=cNs~
zmXQfLAEB0_*HQGM=S7z*RZnqpSRA>8@<&&aX`oQKndMNKs3*V5c%!E&qdgR@nk6F7
z@Z)#JN5NeXd@?MP4=Qr#4YN!KPH3ap2026^$qL~PX7y-(y7yUf{-{B|3Wq78mqk?J
zv3$hUA@LudFn$>p8(`+WiE?nTXv$}Y6wDY?go?V89}^=M17cEWred_vYb7lF)?Ob2
z?;WQPJTU`YF<}~(LeVXSR*Gf3JURWw$fRGmj*cm>+QhPwwX;YbMONKox_Tr6Bitf~
z=r=Mw_BP$#A!nYPa}+?rf5I2(_B`FbM9yE4!vw(QD1c<0m>?39fsu)`eH4X}o8G6;
zi*(C4SB!qkh`~%zka#?d;>zer@~(odl0Tw1K47oGiJA_fu`v+3grDFIlu6@1k4XVj
zj#i6#Mr;3}#_~gr{jsLvV@(xvyZ%Dc^;a6}$C?+znin5y>K<!){#uiZTZwM#A8Q&u
z*7Qi4p2wPU-2PaXsnz{h6L+?muTY~suYIiPdaUt1)^vWNcRc1A|AvElN7u(36eyY>
zbA6Aw`o~<$WA4<CxWijH`Op^GDkz5D&kyW*5mW9;^?S8q<seoAhhgD3*3_&5v7r9L
z3*UNKghdm_`GpgaEce36h$nYpFp`fIASaTYw{YeYvwQiau(^1_umwcQTY*_I2M|?t
z3)YCuBW53zY=;&s5!jtK1TA82z2s<E$c$vVV>%O``9z;#(=BAgvH@8s<{p$Bhgg{C
z8I&^5EM!FN*%9vK6O>1{K)iFi3wl-h<^4-jfjeUD0kNh-JTxHI3`ixXCEID_Vs(k`
zBa*dy!5l$?dEHXh(FKxl2fc1sbTmfoy(rV-%TJ74n{FX<ac22skPE&dd7DIc6JX$=
zf}qu5Vb5|!?Y>B+9q|t6M2%y)0@UkP81X4@6?0l8XIng?&h!Iq#{Ih0p$%uphW6l(
zbwZxDD5fD7vcfvjQqY-V9D91T#i}g|x?&n!)?8~d4|~3Q_q!z@wMqxhY}2!+6^;{H
z<mOr)3RDL5!SkVx)i=fZqf%v$=<Sj6dnHfbw#K2=J+0De%Tdazx=3~XQ*)Nq5pjBA
zdR*n2j)B@AGt#X|<AN%b<gAEMERub;EVeB3%U6T-Vs@kC@QD_m#FHWt-@a|3D0P}l
z=R2pDNSf=N`K9>??p|AZEq({Kf$hHSiN#Qaa^^w)+kQqHu?<FC=g74VAfyx_MKLF*
zbp-X`XlfmyzVDp+@Dw!|mTn^+x5PBKgl>N4%@5z)CU4ALsfE;2R!ooUmbEa(<BGD|
zoupT{ZKk^ywDsD8h{F}r<GSU{dAI(4eT;`6@p1~b&E&hHg&xb(%sOojOAJ?*7_Mj+
zt9{w?Zoz$kY!t?f^e6-G#Vq8rDmlgIRkW+Y^5s|Ges$YUcduwYTI?qaV|uz))_wEU
z2d~Qh!$;Y5i_c)Od4$IfL3Ixbg-`5n=(NQVdr3@Bo~`Wsz|j3`F`jNv6gQOW?svqD
w?AD|y!XB7;Gc+D3;N3qNv#?vM##>G*fU!(=Ym0}n#K9pkn4e`)2%C2PA9d89i2wiq

literal 0
HcmV?d00001

diff --git a/config/__pycache__/multimodal.cpython-312.pyc b/config/__pycache__/multimodal.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ffe5516f7e578bb4984345caf185ca9807830115
GIT binary patch
literal 8619
zcmcIpU2GfIm7W>S@Lw8IBxU_r*67EUXxWr4+p(QEacub~u`SiLy>6Cm!5wifrLl&j
zJTtT{K`zw71(fZgP=du;Mf0Gd#jc9@!H;?L!(vfjU&v5^)Iqx|W3wm%>;oNT5n!M8
zoI68`vMFy`U<cBjJNKS@?!D*le)sTSo0|L#JR1Kq^<NG!%zxlV^>I6ut$$=0<}veE
zjKV0a#w790X>68DaxB(enk&mE`K*u>vhJii>q&ZOJFj`OzN9bfPx`ZgWFQ+%25GyX
zHD#NV&9v^;#B3-TVj05g9^mEC!r7K&3(Mp<A|zW#Gsj$J6z?NO@qNnK>-p4KRx-jd
z*iU?l|4HCeSR+19+|?Q#8HABdB=V`t?yZfDev7fqFjj0ZHuf#XhG1;C!Pr*fR$AI&
zG08npi_lsdiIC`=hha#JmaSMO+lhyCDA6-OOG1tuV!*ZaWjWOL)H%z>_k4*P9gnk?
zXH1@%QFD`V-fFt_*ViwmM&G+QdiDMB%a-e0Zr1W#Q%$1Fn&rDSJ44QCs%!wIe>9)V
zsFN4ev}p;KRH7-Cn88=-o~)^gZ02=K%;puMZ8yMNKIoCtnrs;G;Z9Q?zh$lHInyLL
zQ_bhj%js#7Q!eHT*)%S&`tVL=>j+dHGlWU93X|l()Yzm8#LO$4;(EeYx11D+n|Krf
zg)-}od#uoT*&r7R+3f6hW^f*3?i992dHYMs<aKG1<Y1#Fh(c13Qo_YTRmYYYJ)coE
zs3pGq6WEB3HU@j(CW$4a^M#x_9`{<_R4ONDNh)ReQz_VeLBo15mAYGyHK)guN-6nt
zDy92?gC2##a;Z7f5>qKTm&=>509als^;>2O`k4QDd)Um*49}=DhfP_ZB<A4<g_EaG
zO`jygnmRE&Giy%ebHn#EEjw(Bb2wYjOcf@VwZzP<9>!U)h`_(m3dK*E=luES;npQ%
z`R-b{XW`=Fu{FL&-&-ZL+#rkzRe{|J<bkQnjTP}Dp#OG?P&jI>jyf7B%L^7>rE#Om
z8qoOaXgpM{90)voTUAJYhh9%R3T~{@dq}^FV#ldc!5q0s)AEA_rZPHc)3Aj5s$x!A
z?kS>9PMLAP9z$87EcHEDv|&Nj*^f2!RlNg?{a8S>Wb{rfsEE6;)>AEz%(wsrYGw3!
zSMSR4)pKiIiG?dmt|jFof0<AGzO8FnS-HE`7DrVrML&GA%*TJ<zHixFW!KsdE?in1
zUF!ev${K&ro&b3_R#_5y{=ZZ<%Ym1L-_OdEJKgN{>QIsXwd&A&VbR-yjQe&MK9%;i
z@Egf}5Sd}o2mi(}6t>*|Oc5i8#v*<Ldj1j-gZSK5_*_9z{~T+Uk^cV{pXJs_Zql5J
zdv_P!5G=gTa$mC7gV>7&k{M{Uw%m5NLL`oJmghe88N=c+m_mcgn95o%O)pr%dbiyn
zO>`xEw$LFPNs|aqxa#ShbQ1wiKyQXa)x#O@!sy^*6h7%E0r;kefRDzM9pi#@9FA?W
z$JRK|7z7+V$!1C;+C7Sg#xbAbwP&DF%ElB9;z))_7-kGQD`)~-5`pjLI(m^}kScwY
z#GpUq(1(+)WDk6|INzRR8)>i28gW|rWCz_BJ@M&2JLz|<ZWfQys_c2vRz)+(y(C=Y
z(_W+NQd~;Mlg{d)N%kpw>3(B&Y3~~M?CigbwmXu}@XEeNd=*nv-^p%}N|zFOg|COS
zBPV+mN>_DXz@@tZ7YVrZC=#sAL2F9SBc?V-FO2tOIHmUypX^im;Gpj!G2qk>-~G<_
zetRZp-4Cq?lmlb{G+ouCy%XmPXa<00P#Jv0B;&K5c-#t&;UPMPho}v7=7!*H>UqtO
z%qb#GkSY0|3Ya0Ek+#oUi2@!Y0Vk)Zkc<pGQW-f7SZLM?X=+wAQ!_+Q0hGwjn3t>&
z$;lId5VF}6$xaZ(0K`NTRZgk-)bxEg?2U0N0-ZpgCWevMoz^cA4A}q#9L$+W$MfBa
z?I2If=_!($oX|1QS$i7vnE>g&T)^IL=mpnI*<-TugH(Rv4oRCSL!E;qPUwe_ss*S>
zE)BR&Pnk0aaR}vGZIewimzuCKoD~CDLv)SE_vjuC6M>Xrg^g(yhSGi6kZKZG)5ob)
z&c<E(X=t%G#c8J1LJw{bMIi@FQUKG4<(?pbR0v3$rwb7PdKRErCuTv<r5zumjPZuz
zg8!|rpm@y8vv(Z3qP<R0wXX}z4<Q`=0LDM$9=c2%N1u6@S%slY)n{~GVdq^c`_MJd
zDcm$147zB7o!gHhsLZ_UH|)>Zd3K&dzx%rc(77DCYMf&l(47Z5-k}S;hTm<o={3EC
zhrQlp;_h)9X$n+~mO#&4OQ7cm#U^lg3xM;phUHfcHD{P|E=}z7fMOMTaMDu%u_Rmo
zTxreFFG1a6r!DrLfs&En(GlNR9aYp%QZL*6+|bLumDrv5?}3@|Gbk3Ail2#fJihwT
z)qfcK@WSG`#k*gK?aMu%+*}iTHe!31<)v#&?4}r6y8O5Ef9O0^>O8u77m6ieN&eWo
z5pG$U{CMxTZvUclsML96RffW5P-$mky_F6o6k7~Zl(oaUaPQQ*egc)pa3z6TFOy{-
z!mW3n{c+F~pqV~s1vSgzP&4&?CR!<dsx*e@3f!8jcKH(+4VGK8nkqF@i;Q>zg0^`Z
z$?DDUId`GXW$WD&;+A1TAd_Ut_Dl)FnVgdvUBwb{!IJQfkpK?%MJ?fYxslMxqzW8n
zbrGi1$Dn{i-qbCjFayyJJb4`3(Nrjffs(2jO3$|LcUkA$$ZPCnmocj_h4DTV3(S89
z8Q&FlGZ0#Q`;#jxg<|6T+TPKPNZaByw4eRIiL8nHD-7rJZv<~_x!_%dZ#NU_U%B{C
zSATW&*JCAdr05-?N(YC@KtxN|#}3>L)x8N7h%C$<c)$E8?DR?4{vh<$M<s`BJE}D5
zr6U7%F{Orlz#dTBu5mp9oaTNw0Md9}2p^D)seD0Gq<l`BMa>(;l<rTFoP;B{PZ|3N
zz@uS6QVnSUcn&1uy#5x<qQ8yB2o#q8Hip}ax}MkJ&cqu;%NQsbCj@lXX|{GFP1$$U
zxkInh>C4og0aIfXiUnpfAg%`nN`ZmZ6Q2i;Yy?B=!6T*Mkw1vt>*Cpxc=jt7+w?B`
zwVR1_RX8^M#+J(!X|6D?rsj&52}KtJw)5625S^1M@OMzzO@TjdZLHWv3d^wyJIOv|
zw_W>A&9Pw$=P_$;JkM4^&YfDIuTpKhw!%GeRl~xaTF8Hu?jbkNVF-|a2b=U`M8@ZP
z=WdKcM(0iGd!TM|kASC3IdWg3DH~L>tSCg0%sikQ__DQhs5YGBjDk*}Pc|hL{tQXY
zrL_VMQF9a!*)YeDGzbNfnyHNhYB`eu9AV?8G$5aXo#K!tb$Mng;jfWi*YkKf!OEs&
zW6GWkPW!tB0@ey0kRO8O!csMjPH8XFsEwzqvnQkd5Q7S7Kmw5D$v6XQlh+2(MMxPy
zWUv!h8cbviQ#7U^Sg|ESKu$SXlcrRVQVzl;pbw)?IuB45Kn~#((lJ=Ekx65ga!vu6
zKpd$p0ug0{84@*u@k<CP3kFdD@E9ZwDJgR{?$OVJ{w*F8OO^+P1{opCl~qpYx3I%)
zqcY1kMII>XBr!|~#^1*tkE1Tji=$E?shv?dXzPijuzRlS6=$vQ{%2rld;kR;(R;zi
z*2STcI8+o*R$NR|cs)2+3J$IZ4}Ts!ycv#FJp4ZYqUUQr6YYHb)<<uBVyv9}<@|d0
zNU3|I+<p8RS&Lj-kK8UrZkHn;EP6M@J&U3pdc6SgAhT%B?l^hTajEm(hRSZvdj~0A
zdbXVo9cF=@g|qbz{}K^=f-7-z3pGVthKPyU0(`7y3t0)0L=)glU|^2*AcR5-&EE&#
zfa4GIh5+_!3^31#3?|ikU`f?INrQNr0_0b~^|CXN0)%@(d|Ur|3oHeccN|`p3zC2o
z%{kiC5j9(W8)xAyd#5g=K>jKS+y9DA8<A}QXPPCU@T;|BJ$A4ZJGdT8lwyh12j$qQ
zMgL|XRt$7)Mp`$-_I0tlBz70Q-LFEVnxakt%fC!fpbB>G=QT-IRbhvLf{s_I`n+v@
zW>>CBdRwM9=q<sJ#`8G>5lhPDYsp|4Vn&rMsL|FL1ih-dwwc5^suNv>T|ph4i>kxG
zW4;Q8!zfysQBFCFn(J*S{v9-500#rpFd+LN^{f7p*uO3gmc+r;wsIXR38}dZ(ZSh?
zb3xqUB52gqMc#qRZjyh%8UR*RxbVz#br+u6$%I#TD*umPk^eNAy`Kleh5KqD3qhL3
z%o)h=S7T=u&-24ncIXZERkp@PPN!is#!Pzn5Q(Oo>$o8+P=b?&uWfaQ4gg$198}=P
zh^kNIu*GfPqIdd3dzL^N-MN46xL3~|d_^m}(*76lH!$G{+6gf&t?S`<DIEViJiK~i
z(Y+zYKH-a9hs$k=l9(uZ6R)BUv=6G4ccHSIRurbdK45hbt`WPz$_sXgvH^db)klGy
zj(OgCDAuJKDXImkgxV$APCqDfiC4D$TKaF0dp{Hl%!U|Q7Y~%g1FK3=9Qj<l@zh*D
zIbJ$BUi|Kj(#ab|?+v>1_`%)tjx)GmjBE7F((&gVJ9mBpY8F3{&ucm+RdvK^I#smW
z&P?cUB88CA^0G;>sTCL-8^x3d{!nEDRhkV(!?(n-v5R)%;@0&s%wOQyX<u31#o9S6
zsPz0$vjX%-sw{zDR}}rb*oP;KjsQ*n0Tvl7rm>*Euw=1@3e|Ni@G|gn&L2TDMb4Pn
zFs^_F{FHg&W`sAMA35<%SvzvI$VZoy<zp+sBHUkF5109?6|PzER`xOb`e<L7@2zld
z;mC_-X5{2EbM5H0h3_ogTJBpmS4LMOEARc{N5ziA5Sq*UwF<`xXW$-l;&hSUvm9Mc
zue`B5U1~qLdaKlaw9KEXa2}!aMTqH-KMg;<yVeI}?aL?1{AujC#DYy9I$GpAm%m@;
zj{uSuF0;>vj(iq*7G4_~E%JRUH_QAe&Jlt+hK?8c)@8BGAFFTy;jKy=bLL$Z1{b@I
zKD|)tI#uS+BIzv_X!{0nqT^+L0J$bMac8k5v&{EZI6-K85o87rKfU!?`dNBy;0m%8
zR`_28%lwrJ=Muax{ERzRj18<#tqCVLU~(=b#5SUB%MsY%h1JMvdbRCW<E4Eg#rBa>
z^jO6O-J8Cq#q`pdVsm%NCw(PA%a)6Ahp{+S;o<W|KV_PD`oWs;4rLk?j%`Hu6gv{7
zXyR$K6g^RKLDQzMYlScQ`o9w3qsHTGg@?}<dx6LDz?#teg7XPc?1c?Mt<u^ev@NH%
z7<g3%{erZ5v%<jZ>CG*CRodLbvDLl`1Fz!9`DeFEBkynFM<wJFhBrHUR{B=%tqheq
z5)}a&K!E;c*v%V@(<NWWmIs=)T3O*HOWlkbSA4JjH(+0un9ge&;BNdeF(FT+sc~9v
zxYa?d)p@i<>QQ(#(J^6Vd1q!789;Vg_hK8~PjvJJYV=mL+MB5Tgi8!Phy%kkGhiQ>
ziGry@VhArN`b{ioQh>Th4}Navk!JDp0T$anPhAAhJbOPhmE=7GQ44-ZeMet_4!pS;
zF(@l8mSw;8GOYMVrtjaG(`DxLpP2W`%zJ-i4*n<8|J)V&H~!*g=e{D}22$e!-*7Ir
z7jA-VFDQo#fH|?fU~OFBqk}7_)>;m&v4_9r1a_#{Hn_#W8>tdtlk5<9$xbTXp@O$V
z1vT)=om4J|3f>MC)ZiqKbQC*=N-c*L#Es_Il2&T&TL^6O(c+%L5<gfRI#c4$6wh8S
s@z()AvrUWY7Q?X|B)>TC2J8QZgQU_;wgLw=yy#A_@V?+_0~Oo<0?h(?SpWb4

literal 0
HcmV?d00001

diff --git a/config/__pycache__/observability.cpython-312.pyc b/config/__pycache__/observability.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fdbe34d69f82c6714ee63558d13e792a1d32cdc1
GIT binary patch
literal 5399
zcmd5=O>7&-6`o!0QWQyvlt@{MV_O^lRG}@AjwDO2^V2xC6B~8qHj<ryD6&~`hvM4H
zU1oMETZ9dyfg8AJ59!G+k{0gI!G?3NPjznYEk!S6WI)2gL0q&s<VIPC0zLJ;S^h`?
z<>c6fG&?)<-prf#^Sw9xM^8_fz++0kHclr9`4@gPpJ1c2{s-t>CpysulVtHNnnF>`
ziURfnW}ql#rJ|gbi@|J=k4a`%F_aDQzHD|E!`W~#l8x~1pcyUpWP5nO%j_-2vN7Hd
znek#@wof2b*1Mm99kczkkM@Y<4Wfsy5<PN9^yRtJ5UcslCYFR$^cx(VNeNyor{xM%
zS4+$;QRXhC0$$*#wd8f3HeAXy)01+V<K7lLxuh|NrbI86H>jzri<)WZnrkyJR<w0$
zwg+I<ZkW+>rsg>C(X~jKW7rmSgE`yE8w;?B%$dC4MVnoq%nN9ynQKVOUtNul^$!Kq
zCM8)xCt2|<Xf+$q#jFJ97ArtSgL>d4Anqo#OP6RUFY5ADsdd_Jpbc-J4f?b&8lh3z
zgPLot)Ag-&LL1iUZLQwDVKfFi%CKYjs+5h3g!buyJ0LGUv|o=j_eCmym%OA$+x#sl
z6P!2roxD9Ac$1vBYZLFLlfmwrzCniG4(klSI@|Qvr}5@Wdf!#jl5lWIO!a$-GxH8*
zi`u+l8t&3DZp_M*|1LAl1uH9gn<@52GG$CDQkNMyN6{=@ahaAgtcCQ9H|!Mbi)z8p
zb!w>%5*66hhQoM4M%^;Aat)Poy#}Dg|Me_1*U4pao)2$s-WQex7peGjUTXH*@6LS9
zqtB9*SQ$N5pt%c*kyqRTReUj9CjrsRrmoCW1rK4RUrz-XAOc}gXuLs)C%UK>4Xb?`
z^`hoL97zr}^A4U!`R}V4w^+)QjMA8^u?6amT`Eui@bHCcnlX*}Oliq2*j8rIG>aKO
zZZeznnl3GQi4H2PjC8P4x&z@b2;uC9=6zBRl4yJ-lBq>9)yVW}V(3w9+e$25i=}V5
zE1B6^W_CF?R}Iar12yrIwriGDG$eIYYUw50uv~92XPYL?xvEZG%`gE}e2PuxLsa7C
zdj~pOnNJtW!X<(20;Cf=8)}hU5}aO`4{S9LCX^~uZxtvQk14LLG^A5F@SvAo)EIc9
zQKZ~u(Z-CvSEi1eo?*Qp9g9PATVOk}KM0L)HHMhsZEqgd2fxO0DlS(^chdjX^y9en
z%g}H$#FHzr1GU(JyOY(}^b-<@hgYMCkKC2PiQ3>qH9GNx2t9{ZW62xR%FtwO2&g9O
za-ciRo`n_uFI7!1(OlW3Td6t*a&uKP^vCZ~bYrpat>}&PM_~P@E4r=K=;ZfTv<&NV
zpZ)+k*U198BDgKcI^W2{Fx7fo<lxU`p$R$Xn;EY;1@9*M>cXdDGoPRD-aydkHtDX2
zmqqaVfc80TA66RATSwoVIW_af5e0(5qJXW6rdaf%!t=Od04f6jLnPRMbMWOu&1j3A
zT27gP^$MD+81UyPhLtnR$YNL=8uMBX>HtSE4F~4)El!};@_9f6hm+;(VyW!<Nn(L%
zr9wK~BK;||7Y&_)WChJB_?wk21H#c<QeeVz4G<SZHO<CaSVuT5elDHA8J~AtR?b20
zpo;Co_lC_|Ok4;h&+H<c1Vn?4oD40_Q(cDy1wx}n038fVGn@GDzyYYUK|7aF7eEfV
z4e%N}^Aym4c3u(_pq7WqswKo0JEU6#uS4AwD?3z&RUL>V2AMY{dtIm~NE2S5s2}nI
za9}S;tsInMUUz|B(v1Z`GDu28;3HmF!$e*Pxl|x_&|$$rd^C&t>Y*x5SCr29h1T;a
zUISid5*k3P9b}hst?N-@`}G%p`{F0g&FPOXuMCgZhR2tOCm+y<iPI~IbG5{|<;2_9
zLaVXCYcUQ~o(%P4ndUYI2TFwh>k2fG8iZd&+F{fV6ai+y$%Pq)5p!Gg0y)!RW6*bS
zwdRph&4QGw9a7)MGNbZxr}KVq_Bq^n8#I0v?W;z1{5#tB(Z1iD29&-Q^>KOQIVGUw
z=R6J_e$Jh`0G9+(6t0Lx@k&4-BDpL!gWBnJThIXMF7Pq=y?CbqFCPe87t##F4WKyh
zGaS`+p&Hi~Aq8vmCiR}>-$t=yGgqaIK}Evz^1PP2Q2EuF61C>2NwNHbNOKg+hNx{a
zr<Jo7F5>4;3^@#`kxuD<B(0qAkz(_bCD=v-UsN<66A(X8B<N}73^NvZU~!R-gj13i
z#Zo8Ts1Ml$oQR>5dEs;DD<@F&l*A6=IGVdn;h;*vnH%1`t8KeZl2*o_ZtqS!KZgyR
z!_c&i{8e=JpNYK>6F+#gO{t6Gz{KN;nd<nNx-1U-Ojr*{gZ*_P_4U`oBtFo|4e-9m
z-QYv$a5s3Rle_D}h3Da{2cZ%Y^Z?c#i-e`x#jT5H=a1XGffA%@Qg_N1ddq>DS>;N@
zkt+5{fG9LL0G~-0wA_*c7eK09ger<E07HQDMPs4hDsW?LKsJC!Q5$n8+z<gA^%img
z%pe{bmg7=QM<mw#905Il&PjiRp6m&uz5~l%z@!$#gLo3A6EAtZQB2NZwfPfUFPqfy
zWTyld5S9VDO+o)$+w#qN>s!TW<<QfOzXcm!GMv|-0sHroC<ggo5;xEOdHb#R{xp1d
z_Wp?n&wY0Cp86;`^hxsJuJPJ46L-(vf8pNSe|_iPI}eU6A3C|5Jaz3v8xTC1X90kA
z2@A+gbsIVbcZ}1}*{VclgHZTxL=~XL$BDFy3%ylb08S9R)67(kZ*f3g`x*@5^xd&B
zjDRr?63$q&ynh!l0IxgLO+#AYMez>UkWFFp?eci2ZHPuZtA1Tk8GX9`H&d7KME(us
zaU`}98TleIa#vb8c<PITrylk1SdE`s4~U80IuUz%;R+K^UW;(NO$~V=RkgGtRaGyn
zs-R==8|X(>^}VuYHfFk1Rkw4h>fhW(U^6eKs+t8D$jcN5rqB|eG;iA`+m0vYXXdBJ
zUke!4?M%UDH#Vc#V1?#I_|G2zs|8zUFW~SrHb259jLk7<ZWAspPr|GpN3p?w=L!VI
zFUeYv$VY|8<5N{>&&}CelYh)EOH*}GmWRO&g9CL@lFte^=bjLJuLoK~^(c9Mv?>kV
z*mG0*-Tr0iz^e4><D)04(z7?_s=KFZJE!mOt?hheSvpY{gK~d8&N*c{eCzlV0<XqW
z&};0|c`7as-N>yIc&+V)6{-VM%kuQ997nkZ?&lsH|Li<~pgi#TY<2dnzh_a*0bIHd
zo5OVpKG&k0@xZb?${EA*z}<=a$$LlY1iBCQd@lWM{}b%C_{QoIe69^~zVx!3;e1{4
zz-n@+`pj4@nZBE>B@fjDF!Z>)r`o%_*1hMZUhCffM24Z(ItS|#e6IDwIyXih%DdM<
ztx25S!+XAE&=#pA+XpYNJ72b-(zT)7;9e1Qmr4L|3=x=NN$&$!pP%wzCf)cUgN2Yi
zR9ezCC}eZoLAVom$>vzP^@|yGSOm!>%!dBY34J^<`T>+Ky9Nl*gWGZE<8Jd~{KOle
zU(bbJ@;&|)HVb12vCf;&)B}PbtcQpY`;zSYitMYAeP5G3Uy(y!lKo$kp)bka$Ai17
l!_&3F!&Q=mfD%KiLij)8f*>U81Y1y#7{MmACgC^V^M5G1gMt76

literal 0
HcmV?d00001

diff --git a/config/__pycache__/parallel.cpython-312.pyc b/config/__pycache__/parallel.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4c4981d4432e0bd8584ae2eca06adfaab3dfee0
GIT binary patch
literal 21952
zcmcJ1eQ+DcmFEB$kRSmPAPIhmq{xv-i3C3&eu|>3FN&l-DT?~C9V8nF#EeKt_@D=%
zB*IdnIN4n}n=Q+^tFv6$RJfbVmAqD6>?>c{x!tN&_O9w&wN+Obk$1q((igenq%KwW
z2W>gES9?`=_j^5<0SJPYH&+=^jsAH3y8HE;?)P55p1-T8DCh8m`9BGL6yvyGQbK=9
zvXQ3?CXRc96FJco=6u?($!9{^95zQRK1+o6@e!-fYSPL|d?hHegi9kfpDj}6D`WY5
zxIAL_*;(8gc0?+C6_H9`B}<otoe`JMm91YDsrFT~cxkvM;`X^&+!n5l)cNXIyewQF
zY4A0$czJkRq|w*N;`VS;q}kWZ;*Rk4NQ<w<#7P#p2K}iBw?+h?z{)DaJ0d%MJ6YTr
zZi}@0+D%-vMB;q{{_n*9b~7i{NxR<0$m#LzmaL*{8^t;ht75TE#Hv}$Be^BJnLEyj
zHQ(Vx_uFPxiF;f7F@Akr23#%R>b8XIUNU*=e?zsWJr=d%;#X!S{o^Ml$4{S}KCW8E
zqDyM&R45_Ifw0G{T91XKu&6pCF;NQpuLr^*F_4JK9+O&zNFW#v#Nz;S%*e5z6ptU5
zV~Y!_?Ytx|2BotL0OK!6;Vbwp3C5yVLUV}OL(x#eACAq<Nrb2VdN>^MhvNR(Kq5Hr
z4@IvB<WL}*K#?oBD9chb;a>;`5?5k!1bH=cQo<iwkfQ#Dn4F0F!=X5VHU$^OfM1lZ
zhk}wn7+XZ8cp{LH!srx=%g-Yx6p<#Q*O9862?v5w1ejTW-!iGT$(vGekp^Z~OTwY3
z6p&Rr#u63%a%?sf_3)}i4lJqW$bxEFjE2-I=_W`N4TSySz+yBwkD-|52GCTdISUeX
z^@q<!o?b@e4Nl^SyM5+M;CP=!H2ZkTDwT+q11K%yMBZ1*(pD`EPO*t4V#&i&eLj6<
ztlXA`FY}d4cGNGY^pf4<P|GK0rjCv?YA5$<zl(Ap5sF0x&`_AXxgg02VJ3hH4ohKS
zDi#ohqk(WB8Vp6}gwDwsk2mx`EF7oWZ-k;^?1n!cN=l&*?8vEzC!_^T5rz&{kckuD
zGOMMcbS1DDPN?QNNv(}8M*K47KPqAp{Ss>}eoS>?!ZF3vj3h=eE7Rzz&F_x}B9h;)
zmizr+vBfaO9e)2yi-B;qq}1;hV?n=PZb56R1&ymtzdsO-#xTDaR2)UED3WPKk=rO}
zCrExa77M?{Jw=@Rr|0%0A`5#KLJPf#fD8`my}39ty6@VEv?m;z-LtTin2$yG5F_r<
z*mTcAmOS2tC3!pHq`-s!@zV(Yko&ZRvyPdb)HmHZeXnMPZ_4m}nQhzeoVho+!f#(U
zTdlTFE4iH=4_<ob-0F^z6u<303Pv*g#FOniQ@s10xWeyTH(RVWxmU-&foV#SOV88y
zz&_7p8grIu_$*VHeYSii0+VS>Q<5z&1=A4I<(SBh<)$o&R&`baE82YysRC(7wpN9&
zlGUorrky?~OS`h^DxXWL0(^BgUE`~kYLIptX*WyP8tGb=t~1hgEM2dq!TR-5!@~w+
zncOBd0Nb`KG?rzl3F)S6y3E%sZ5NyA^)p7Y-6(6x8()i&+nSf#YUB!exq^|qL#i?G
z?l5w9=E3gF=GOSy*f`pZbURD8XVbfUyBOVeXVV?D0bnGZ27CvD_ZaC;mhQ@?%X}WG
z%jiqDk=rfx7`Z)0ZZGE0%Vu_u)JN2zxB=Ijh4cFQ*<9~2(gQ5rmreKk23dL_o3{Ig
zSb8v<9`X&dF$`zZrM|r^y*HaS`$kxLL`&1$iZu`S8FRajm5v&<M_GD*4qDou#|h6#
z`z0%l1yp;^XyE{>bHGR+Wa)!B9HLn)eR#-NNDr~{!+GVU;*p1AM)_e@e$*&GB91?t
z(0eRSN@G{d;<4}W`bO+KDvcx8irnLQxf9vE6W`%|lZYQf`ANi&Gw2$mPUS(LFmRmC
z%ROo2PUYpEGIG!4<(`(N#A)f6cozIRDb-vl5ohvB&tyx_fp4j=CF1$K(rNL+cR1f!
z@dfcBdN^bB@KPSkIm}%#N<5zjbAGAJ^CGs{>>`@ojCwY2Mu~Yz5V3>Hq1nZRBnlGS
zhOw%9e?!8NT8AZDqW##fFUV{+Qr!tD8jr~Zxz!|+6y!B*&V%d`%<f)lK@~X=y*8~D
z)S*nRPO_|jV8q*pfBkCxM#PZ-_D0zsS_nns)bWj_@<NcwE1?5axNT!$wkpXpOnOjj
zH<r%^g4d*|c&xBqP6U}P?9KertQ->k;aRm#iUww}t!f*wK^)bt=P!h3Ard*Wd$|8f
zAP6yN3FRn&Bt=4-Tt{=UO-G>%Pmr)6S4eY9o)Xm>4TP>sD!;H0zKOw0(gFm9`Ow_F
zKQRwEYHogEF#%$0`C$kZkm#gna7nF)6fze8AIMB<fDjoBBtS{E<_cuX`B3x<N&qu}
z|JPM#HU>$8(S+^ys*CkCPg+r{S<VJ&MXhCdg<^=>90}Ys$bxAOh!BJPH)8TNNsfc$
zp*W*oa50{UMW`p)eyZhJ3W~F_-v~sYM#Lb31|cf@6ERE~ja`b*$HHQWgRG=B5x{~h
zT?qk80fgG7w-gNq!+uC=esRGcUxI8Y$D*MmlXcWO2%&o4{EKnPAB}^?kccQ>)?{42
z6a}FmGHW8Pe~!uI&3UgGm_d_vbuy}a0K%_Yu8rCs496kriP?r&l2hH;LgG5K8jG@g
zdzN_vq9}(B5_9W0#LjA2l!!qukXizXO_WF&=ScxzjfF++b><mFtA8Wk=e-w9%vYPU
z#06I-(2d-zk%WrU;DZ0!b$>7baa<Ep!&2b7#F~I~zJun-JO?)P2Npt@2d1%T%EE8{
zFCLlAV%3IH)-h|~3OJH_PHK=^B1?%yIU3BWZ$Qg&B(Fhc=ANc7(Qk0KxT};~@E|v<
zyyX{M`x?Z{T?wn6Cz^`G{QxR)alAj^e#q<l(koP3SFUxG_(iTQFPV*An?T#U^V+r)
zuZ_0(;uuh3{h@V3>qXiTORhDdrF!6CCV`DTk?nasDBXa|u@RC|ax&r6bFaGeSngNf
zkK_4RZ5yyw=b-i22I#U4&~6<j_gkD6Nz7q(r1>;02Xqk}pq#xp9+WsX()0q&AFaX#
z&s9=63m&oJ+6buBmPgadFJBvNJAY`&AO8i;<C;z$Jqg7e+P{EsQ4(TTgv*;=l*?YG
zT?T0<PsD^-Nx0nGe_4RidHJh-Jwnpyx!faQqlX>}^>DwCY~1+5(`&44v_fZchewED
z%_S@c4howAg-+Gvk^3?D<mATEynRs!2BJbN8eSqaaVa6(n3tl(kR1~GlP_jfV_nn;
z#Uldk2ZE-yl6D-5YuMt83$(sroY1PrFHMXIn&|<>vT*+Fc*ICYV>i6XK7F%g+OV;1
z83Vj1gQTDsR&;^1cW=^1KY}d1v>3t`A`}yMsHu$uC;DXxKPOArU}YgO4+8XSRG*6_
zgo`r=lYGy_%t6)UW%_$kD5|j2NQqwPRC0>V8S4;op?3?~a70XZh<5I5nsuFewHT$U
zMe%w)6*4W2@;m~y{CQ%gNm-7`@-XENQ9uH>e3$}y&(#XphM08+?1w%15ETqkFh&6>
z{4n6~ahRFnv?2?#7ooaMH&*3|j+!)+?A$1qdbfmx&5(=#0KpyZiQSpD?@;VJmM^Av
z9Z+^1cx*qgR^7aAHdXD(>={h&Ii~D6mhv87=S(L|Et!^`>6Rg-Whk|Mc-?BQ8hL8r
zYbw_{zM^v7!8u%Md#7UWd@z*mKB{ydeQZApRGI3Y2N%=5r<C4Psh-ooGi4gc4D3x0
zoKyx*rut8PxMSU7sybtOYOxS13s99aR67;>&gH;kd&h%`bkC{BJ*Nnn>xHKlGr^ew
zXJc?pkL^usHErpdex;^=wPtXwPC)l-_W@yjH4s)+1JK=&uJJyu@uD!b<HAba#gyw}
z##xhgb}CMz!;16hqrhY5afZQM+xVohCEYlvG!CY=4ZSn*fjd1qqm0g^_MJ<eJCEVl
zUPPyPYJ*1`&78}9*S=nbpR}`8aki$N!-{kGgQ~~Q{Xm#;@6FUVrRzJC`i^w{L8bm+
zs_qbmakzKgVyW$YYOxX`D-cyOM9hA&VJoIBmTkqvO#i&Cm=<s>ccx?j!cJB=@dtu(
zEFOn6M(@PMnVT~+Hz#I#giwOgq`<J(4htg1S-o;0`-Gyw@FK~R>_rvw78WlAl3Dam
z<9NtTTt4%XthK56WLp8>76Up+EK8d49S*bUa=-S?SHHRJPVd;K;Lo`)W!txzU_>lN
zu=|K?MKHM;dkD%4pQ}`};L&&B+ooG4wsXOTRrsKcyJ@;wq(n3&D_}x3`wdx%uz1XY
zS1~q&v@b|PghXE<Drvh736&u%5m*AVqMg7b-?$KpVxbKuLJMKZsGbF(rFA~QW>S_&
zC1D#Et*ZHx)ninXymMY*HkOztq}ln#nj{3GqMjo~=b*3lV5bQM=Z%WA4~3y25tJCZ
z0;LAlXT76R+$&s+34!Y|?60)12((g#L%~EGc=9?OTMz;m@C^;<iX4luPC%sqYoYI~
zE?L9{2|}<y7H`zoNn~^;k5pN7nk=jl47<*jl<*oj*v{**$RZ|IwJgLI<o$?&s}qz_
z5{SlcK!2hs6tXLFEm`iPB)3DcVP^o;-DG<KR~LmEC$=WbE7-c4t!8^3+xKK@x20=G
zmD<sC?LnpX;7aY`yT`C7y6Wy$te0|ijp^D!rFQV{u?$vRN7rLV*MorK*z;c<T~C~~
zcPlo(2qd_&7hwj?;Y`YeGbk=%x^2Q)jtOT@IFGt*Mx4KG5xLuZq73ltxn&4U6Wkx5
zo42iHQ21_<xL!ouMJ^b;@X=oylvWm&G4Z{KsGBeZ*<u3bL+jgFr6P!4U*LG|7JtWl
zii3*4zhY|RZkgISx$ibk7ZUY)i?>SN#@Ok(&dJRQL%h7&q~+#^q9LlAxLYN+`LE!F
z?smyHO1}5Xt&&%8#zFBLrW@Q%%U8G?CXa2J2^>(PToYi?X(@pP>>Atrk>@pzYc$?~
z5dx<{`AVy<u(7xLH#9O-E6o}LaOyEOF>(In^rZ`v$^J2Dqc~y^VC9hl;u5`d5Usqz
zc_|?;(Q<qPa!cN;<n>glRjfsCUW@W=w4v6~u|R&dcQFwP$K`KOp%wZej<NP3F278{
zUJ95L!(<l+p)<5>3k)VWUScO-YUz!D97SI|rR<eqjcG`sLEnUt0Y)(?uG(M)p<|Sw
zYVxZlDNc%Jc6ZSPo%#a8;pJi!O71Rrv9^G_NUzp=z<P)Kt&1xg`7LiQE63hZ-*DHS
z+2y%wTdS(O_ws+MYP&nOZgy5Qd|W@7ft29xQ`~(l;#J(<m2A9Qad)#!imWyFq?<>T
z=F!jXB@NY|aV6NaOS$Uy_1&DSA?0jK+1e0hD(mi6{;%~~&fN}>iiRgOt^ay(`K2H4
zRcbtI?#4H!U!P93J-_OHA=4_{JF(_&&eYZ4EB)W=6@dMxI2{TtkClw|nSb7AJ-W;K
z^WpZRg7t4(%oGZgQ(QKn+1qNX6HV8#HOXFZby0;KWjN_YS+UK_Oe!@XoD8CfA}%rr
zY-pBg4=*1_Kjd)=CMh^Z0qHa-I!W=Iw9A;PP*B)LHlR4P1lZE@1l>qX+9c&}3Hfbe
zfalQ|*47fPqAKkW6bD2@tE+O|Qc_X*8CO=(18J+OHtp(GT-~2JDeYoukK*z?7*kxm
zpH)$2HOuT!TpbT~0CK(7URJ(&nf?C}&_K`&koTvt(fHA2)umaL{PaSHqS#sFLK4*&
zCa4@xa%aK2Q3U4uL>5{XA^baQUi-$Y-&p3;!mxrr=Wxn4`~~BZQEO}Fy4Hz#H7#vn
z<tffqNzjZWreYG<EfbZJgfy*h%9qgrZ51M|O5c<VEY@tyB)jJC((?CFA=z3;9%j1B
z(eGaoZAeXHiqUJ&z53k!9ndZ^HSQ<0)wU^)w&g^+V?x27V`AOHl?h-iNTV;m`f{q}
z*#snB-->|6-${)G^6T1gXYs>EvWXjT3=P{qSvIrs^`@~F0{mzrACNrVp58g4;Lkad
zvW+l4P;L6Mt5(hj;{HXL&7-0Cyd(yR+x3SwEhb?68j&}+1W;>FF}vU`)0`=x0~B9u
zOb^X(6Fxk*&3UjzmYu7Hu%f|Jc*~qH#FMK<EN!>AhZY^biOX5tZkexE<*?{6U4YRA
zh})K17H}m$ty+Q$i|`Y$iixEKm`^oR2{O#F1=Y$nD^HnfW&5vMqM15WD-QYx2UL6B
zeyo<~tnV^)T(z7Tdr|JD7!Qw?2o_CJVdOU{_%UT~3(Ub1g7XDQ^lzM(IFEALNVQ$G
zYGWxDlBD4xG0qM_yqh3?Oq_86Xzp;IRMoxF{Ce~KZ=_nh?@8}pd-vLhyH=}a?v{LB
z&XrZBZQB&vwzREXv9&Kh|DNrA$GeV4CsMZdRoj`h_Ra@&KW%!e>Fw<+?ck>!8E0q8
z)~Ruo(=ca8qzF!BiZjy?`hmB_B%0XL()-11mB%JTf`Uh%ykaKg+on9sMU1>(f?>@$
zhT6ce1{>zOQ%pt%!y2-2G1D&?md`OP*t8~xPmk$r3f8nv%OPaTKcL{xDEJWqPr3XT
z_yGsv@F~U^aqp07fl$VHO8yA}{u>IiJa}?ien9ms8uw8H3^Goyromy`=qx99KA}x0
zJDb?FRc{ITZ;9jPftA+X#{096?ZR41+mEijdF|n@pLW01z0$Hb-LhY4*?;#eq&CKp
z-%Pdad2jLkm*0K)!{ODcbKuC5XK-Z3Sxf8mpWIH_nm2E9#uD~_u&}+s&C#}Gx@s(B
z=v($FzE11>1?gz3T3^7GUr?*alJ_OrD#FEIqE-=Z{Svi`EU<aCxMB;i{4ckplJOqs
z^yau?Z$w@TThY51CPS~xVgDU5xpNrw*zbs`$ni%GQ-W+>?751Arotyd-dpUsWzy?h
zC8x21M_(HZm>mTGNa`?HKTLu5!T9C0i_kM8$F7G&NeBqoDqwvf!xDT2A)Mp<0R`|t
zyaJUDT4|V>Z8URq+^Ekg1YjEq!tPFX#e}>V#7QGNZJ~@{EP`Wnb`oq<nv(+y^8zyk
zg`y}$L-9RQWL6T%?g;Z%jNyVf5(o?PArajGVr+=<Jge4C-AoyX!WE7b<XH(P&}6MD
zf|86~>_pV)1a+=R3*K@A;^I7vrHm~24TR(DtV3iDi4!wqH6<&WMiAXuksUW}94rO{
zTi10mo#9*qqhsTa;Gl+lM_~X9#^BQ!Opu`s#EO9W@FpP7#|7q85RK;ySe`0asTSZ!
zD#`<xR_#cEsar#oWZD-ygcze_I|Za{YQBbTh^eJC9{3NcCGq*d!0=xAk0`eUsu-OT
zm(5Ez#n7At_tdOWtW@)@i08}OszaMpiNurnWK)6QonQC?cr9*006ndaYZ302W^B&a
zDqpR<mq^zSDD?xYw!yrdKBc~I)z+Vvvl+&#)O%NLd-7nqmHO^gTTfmN8RA!Mof$d+
zp(BKhqvo~gSEug}rJK5yrtWmp0j24{s^j3M{1K&TWYw{6Q~s#ZG`i~8zbSuAX&PH~
z99?tPk+St?!R3x0gwrkkN=yGr%ixN0DD6C?I1jBjkECozHt$Qu0sLnWbhpwS?i@}S
z;&?Ib{T4?`rS>Ff_hwHqSx7Y25xF*D>>^j~dY#;_Xnq@WMh~+H6xjv7)rY;ZNIr6l
ztj&I7r+Y@bhE0;STf}<E+AWg5MZ1Oq@r-s2R|M8>k@cUoTO@yrb`6?7qg}%ZfwgN`
zE;ZUy$l5KEzeT%-jrJMs8WvO5ZgZ|ZJqG-=auhst)&zbt=ntr!1t3U@rA($D%Im|f
zB2b2V1N8yND#B(M;NQJDH;J7dM=kliC;}yxkyR`11dh(lIK*<+$N%|-Blv2fTd$eu
z(PLM=dMx)V+G#7--x=T(a%FmKi?QI{COZJAYRvL8=;i>XJ{@cBS9bwrGfKNd!4r2S
z$gsj5u_D)3zafPHZ;^Ue;h0hQyq(QJuMOT2$z`NSzk=qQX68skGf`xou3_}?*P|vV
z>(A-!h~)fH1Q$7a6vu)RSHAm6-kM1^pMnSdHnglfNZLsYo(=PYo@&q4BYG_N3&<UM
zDi0@ku<!vS?ZxcLgFK<<<$eKa&==$0nJdv_*>|l|ta=8AG6(l(a8`}Z6^w_9w06&Q
zX9WEa^wx8~+S_)|BzK7AqC31RvYVYi)!sHk8#tST(_=aZ-L@po>3LVr>#^Lg4ky>-
zQR-r@T#v~XvF^4x`geKQ$UI!|7}%;YiWdtCk<>;3T<CZ7CtniR!NgZ}OgjGJG$Kxi
z<Ju-@oXX`mpWMv^9bfJj{M~SiN4PDY%K`hf9E=_l8`;{{@Qm4R%FVXei1GH`vdG=Q
z_;npm?iUmxh-S=fbGR?ke;YU3a8_v5$16KgvOPQy8N6M>N=l3pGu5P1MZaNw%j*}J
zG728C<(7HFT2_P)@6;8i66OzUy<94yJl7szuNE|d<hSx=pvdNOu{B2@U?|cHv6eZl
zHKBBCUb5%St)OFk#k9mNah@I1s{8q=sWbkusi^_{_a7Y_KRr1;kz6j83y-DiA^6qO
z9WZ#b;ldewq{*K{l%QZhXMiq2YR(OK>XPf24D;J{<l!JOAY55wN*RvHr2w5O&ahwR
zyhVyoZ*SH~xi@<@$y5<w>m^5a0r!s<S+j5yPvCUYn|xH%Q>sXBpdz3%P~dRhPwu_c
zKb&JSzh+H$@)kt}?*dZ4iVWsDJlO}}&Mu6TK1GTj)IX?Ibm>pi@i649UxlVfF(mVF
ztA!(&ATedtn|zmbA<qH(ck6r}g5P_W|2^yS1`qMyt<xJ&{NB6$SFGEGPVB#1&kM2q
zzB?~BVP!}TT#6H)=}wx0et(kL0`jc=U_9m}6O_E{Sc^FisQme{>C?&X3-B-8==(^H
z+GOn51-^wZI}8F){lnoUul!AF)m;R-Guf2$G0pn(u=9L@yjA5G>ZztawS_Gplhb2I
zrzZW+_xsOWn!0#$22P%n7cSt+Y;tgdT@j!`J>Q@8G}8QOD2uLKZW^l>9*bq<vah)k
zkklxX*(zCgk=<)CoR2i$vd-jQ4|%eZ>m?SWFkNBHx^~ingLi%wX?UOot_MP4wv-*8
zxfF*Jt=Z#cw^EZ68r9L}hWj=Kje$29AotUabkbKatO=+Je~U^uV;U=hBqFDY9Cq?9
z>gL}%NO~u<tD$UV(fnI?VR<3X)x29jMlX_6UvwFRxIEhs3~EG-oEvWbVjY@`!ghs)
zbzD0f7U0~wg(GlYC+JQ@Vi7&d8*^mA>ltCDAeG0C5tsjpc%lR}fP<_2$CPkn-8lR)
zoWL`0RLw8-6wN6!7@ejV85`v(3YaB{bOX)eG)u7;5YV*<5QZ6_m@lk{GR?8LTAJOg
zH0KhLDv-V=FHt~VSMo~;R0reJi5dTelfKDZie4DCS}&uNf9mY`*py7Vh+3r=oEf`t
zaq_(X<P39WQELkFXU?9#sJfUd%=Lb+et$%ML^xc;$)JhBeVX4cktwmTm~G<4sWCr%
zbNm-(&P=GKC?c0$`7-LuB+SSpwaFxAYPYC=j+kl#V&-il|1Bl0qBOfWC!Zmpy9jj8
znMagy2Z8oZG3Ro%Y;IvuyW62wXZx4Ow+!KCUz!R(ZfU{Yh9Ld^WOIQvZbPX8t4{nF
zpFIOl+glZTYs%iS*4B}3JD{{3xI3}x5Z2&1Kxf`f{j1J_HCJ8Q)uy=G*3IVH<EGCo
z<PKZOyxDds_FXA^e`a_zJ$zOfK6`f}?PyjU&8v=qHAi*Y(W*FFab37-=jRry;X^Da
zb|Gc&$#m~YcOOx@kK`(KZe5AIg;REKrnf)cJE8PW<SKP-T}kg=-%z^ml+t%9SE;vH
zB^TG!nr<9c8izmN)BDaT_-j0Om;auVc~SQ$_MTMV_+$Gx>b`dR)zhhlsa3}rIO)B1
z_Pb~AC(^BZ75q8&{^?l;&-|OuJ+|+D(4Ou(u5=y$u>Wz_6nrw$&OXK2ml`?_S7e-O
zb$cJq{`BfwS3jszyhm2L#^8ta#@W};k|V+)1%K{CpIXe_)%W;SR|mkW>ff-xZqK+0
zF6}0NrO&N7ALx<CH6v>yr#|do8975Wh8V%lDZS^?y_b~UODnxE&;)lqao65=r?>Sf
z+xk}Br`{P#51vv6Pa#UK%ynJ5i+8GP93I^hrv6O-aJv75(tje=ck;t3cy!lJkw<sd
z0sC_Y*U_EcJ)-O$A?$5yySwsJJ$>n(aiwRR$~<c{?PE&!7^OPbXg(*E-bt-jWUS56
zIrH41?;U;Z)T^gb^&^U7pF#FBtBz@7N)-Fh2kyUV{aGu<JUaDT8&@&-WMJ>z<C%sX
z>4pKNVPK_U=<dli^4H$2ICrl)J0HSbef)9nc&4%S_0qMf9qB5MQsr5#>VAiR-~O)s
zgTTLYW*S>wFa5+Nq+Okgt8>-WwdUTl;_iQE;{CJlo_*{d|D<_jrFryT8KV~b-+$_V
z%b)5w2wEK)GiAn3J+gl|Ktwv5M<n>BRoA7fx|OQ#2aAuZhVWX^Op-7A;O7=?3Y&!2
zOaH#AF;i2YuIYGO(~)Uud;R#Y+$TP+_pH`;f7Ec|<EFi<P5UytyYC;*^f6)+C%-oJ
z>Qrjm$q!+-zF-h0We{fU@#vXM-!PH5H?Nox6ee-H3^0ry7#{aD1Ml#US^cJ;H9dOi
zKeRI6{7ZSh`4(>fNfVmbY|%DOTEB~>Z7YkmcIJQ66d#1m$FNvKi$a~kCxOLEdvu);
zeroloN49hJ6t9PC(}o)ebLe18v}%L65XarVrDO2BU^`fO2%;Shm#`D6JoEJ^g>ZnA
z7kQH(PAR#gp>DFSV2#b@f6a{5^(Z>Uysxx3{hdk0Ir<rAah0z*>gdp8pHjc?uiIA~
zhd<*?71O3QSN(lH-7u;&jDE2H(c+5h%(~T5%mK}y?0K}Z(a$$`Y0A*LOGR9Y^XJpn
zmL*r-&$ogJyPgCUi$Ej{3%^eN_{nG1G3@_(9l0)H=>Emq!3ifuMNfQN!m!MJ;q^V^
zq<~!>EMl3L>)`)f0$*r5`9H(2!mx8{Em5e`3;aZKK6|bj7B@X72N!SNNY{j6Bfo0c
z{&KZ8_!<|tAlTSt#(y4G<Dwt4(zWN>(_`$)ViAhqx?qmB<vCl#Epo)OYo5+B)w`JN
zx)g;;AvT9gywKS5<z8KkGDOZ~*ehHxu9mTzb~r7?Icx`Bm5v^vBeKvTbl_Bz;<{F0
ze1Qg;kdNt_GOpoi7knWh&$4gy(6y{k0(T)I?2Z7AL+8En-=KfV=QZ^OU1LYgT776v
zz4Q^6pd{d6Hj2;0==y<n?Pa6zjq}y4TrTKe>d|zz<k4p!$9jP#a7BRziTlgs5KUL=
z*nN#&@;dY;pS#3vu#<8}3W|2)nXXRY8a070M(HCz*)wG5DT`6fEOH*gqo+pxFBqg;
zO98!1@-zjsTFL)F!5>kuhCs#Qr4x(E)AE0(qDNHZ#z&6u%^X^<3WZ!Ztyj6b;Tp}D
zW+1Op{mT?wL;&xg1jSiT9wD~TJILX`F3F)Qz%S3mHys1#7m^QH+y>zj{@QTm@j{ew
zw5{6PA)v6mKkLKWt2la7j?p!D3rSQ*l-48vscqGL>=Rcbo!ruy?O%(luJOF`N1dzg
z)4*1<J>xpScFrNCW++uXjN4axkC<@%s_F=~VJqD#(}mF24t)2(M~;Cfj#^x>P#j&W
zj-F3QLKsq<L#xicdY`geD{YYdxeb!}jaGg4Z~;`tb@6ixU0cJza8qtKNq&i+-ula1
zZ0|giw|CM7r@MBxbK;Dh?2gl(3o@OL$#gg(cTfN$Ca0b7lR_nTQ7}ls5Cu%r+DkD~
zhcrii#uKBIWXct3CTh(D?gZ&u)zR$72M!QSHw6bNI7Go=3Q8y-pA$_Nq<u`S*KU^@
zpPssq{dj`rX+T?&radyn@iZlwy2!L0#<XPlm(Ni^wte{m1;knMB?_u3VEPlSOWJ<i
zh__Gww1&PS=zS-i*O>7u6!TH=H46TKg0EBHr{FRLvlIjos65>+l0`~O6kMTTo&u6M
zWRfIg+6d)E1gZ^hDSd5fNxngOFH=Cr$nu|3@EQgGf`ac;@CE|aLB1)WU_`<fnMC<7
zDgRvxenvrt0`^+|l45j>$R?k;aLRPX#R4LC{3pErnWm8^JKIux<Nfg!zAeM|W`rFn
zzTtk`3cn-6cV}8!Q+(Zh%L)(u%49umdeXit#W&v%uJF4u{GPnx4BrJ!i<K=;ym@tn
z-$NBzp0s&WeAE34E4(+udonvavQ2dm@?Bjie*69S3aTR2KaB4{rJB4e{BVXJgX~F#
zi50$^J_OYZv6jG_?q6KtJ@f^sHe3~L_Yk^?6}~gWPiGpo<7-oHd|)cWAN~85ws%gg
zwj4%I;|hP6@Q;oGVXAfS3Xhu_rPf31?eN^k#R{t%?i|2a(e|mO6n8sZoZb0pm95PA
z)KYG(Sg$L!o;D%V)5|_nwd{U#{|es&9o2dmuV8y8eXc5af8uovxr1_tk-Hl`1=a40
zZ<e#(nyn+q?E)#b-5*+RfAhH&zL#M4V^n=ZDPCA^d%*vB*9t#KxjT{D(W8$(!%se`
zZ@zQt9>2mjXZYuy>_(F<%b1c*B1|oSJ3*?}<r>hDa@ujntAB5b?|1-O4AU&^rH&e;
zS~qjn%jPGZ-aBXS`Ig(2+TG|4DE_3kA30xN7L{7`q(8&&18Pvn%2{`0Z1z-Tr((k$
z*LQ4h9a3zgA518=BUo%ep^_5oAP7{y9i2qC=+>{b|H-yi?Q>s@an6{Y2>7rU<16-I
zFS>Qx(58JI3>hZtei|hESQx9n|4D7#os)OL8+BS~b<Le)cgMedmZk7{vHIra+SR%a
ztx0gxsVA<gI}>-?zI_IB{c-=^M~T(`sTAL~eDOispMPbApCZcI(5eS>1A1rYrK=#v
zhA)%3xz_dvWAE%(#RX-J`G?lcB`9!lEo~3_->F{Rj)K~I=o|`4QBcj5)ZXt{#mt$z
ztnLRxpK<tkYT-&?%Rp@XMH5$2Npmy09E5~!9i=iYW4+vIty_*i<?yq<v)x+%p!q3>
zpY^Y6bsW}m!iS%19mH@+m}+BUmoGrJx9-grX){elB`9jceIcU=F-(zGYabPvthm{%
zXMjISs@Kgnt7my?ox{(gcJ}ijT1JWhwc>R*i<MfpKL8+pJ{)8}sSD44M#(HBVxLvl
z;|p+42Tq!;mFv&*tR>!Be&78Who5ZIh<)nF(XQL-zAt{p;fKoGJ~bnztzfixd3xmc
zXbt<%2;c|5gii_0$)tD4Sj#w>Z4rM#WwwPS`nX;wsBJW~=&Ei#&r23uCi6*gne-6(
z6$;q0TTYNw8fM%n%YMiu&Q@%-j9K@Xne#s~IF`<yD`|#mQejj(%hztP$rY5-#d5Sy
zMCvlFHyl{P1yFCnR~?xUrdF~Fx~v%2?1c?1lQraxYL^4E_HnXyX7Ax?#oFaStxr`{
zNZ-Hl=6(N$ZHH<D<r0*a9hcFmn|3!&W_x5#GGrpd9|Mv6D++#1!6y{3J)CVU8#f!(
zc0l`F;UW1S0S9S}i+_j!whEK!sf{x^|A8y}1?N>b?=LyWFSzcHxUOGtLmzQFf5kO?
z#I=9Kwf)v?Hkl#8nR-6r_I<=1`q<+7i0}G{ANe)!c~a%Rb1GBYaA!K>tiE&N<1+WX
z7gx$!?vy-f+>zQjsx<CTarK$)?WtW;%JwrUt}#=${r)wjt}DgWfYr^mjH&z|&2E!z
hokIX#GutV!t@D)U)d5bIncV9fg*lK<c}g>;{C|U3mskJ*

literal 0
HcmV?d00001

diff --git a/config/__pycache__/pooler.cpython-312.pyc b/config/__pycache__/pooler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6cf5bc74d8f31fdd209c37cdbc5ad3dacdcf266
GIT binary patch
literal 3113
zcmbVOO>7&-6`uX!a``98)Su-aX&pIk8CYcExOL?O35=#SlDKLTCr&~XSS)vj<jTuk
zW@adhstgc?3n=J?I*CDh@G*sQ$T5c=dJNDD4YshcaDWzd4!N<FfdT~z^vy1{rcxIL
zIw0T7zW3(6H*df9X8(}Or4bBQ{gv~tNre6?9u9{#S{!s>v4=3il8ee>mR+eKmt{$;
z6<2AfWi?!@Zla-;wQ!wqlMTJBOGrjUC#iiYvQ|zLji@rZim-ME;pDy?@%N(%9nR$p
z)=9Q1<J29soNG&k^fy9dtsn);6|W6b3R~Q=U5hbz&}`qUIyG2j9M9pV>(^?8+9RXk
zq>LU8PC+Pph@i5BQCWTuj#XB$TvkZ}%Uel=h=!GyK{*8nEhmW{bJdueBI%f$h`E_D
zT`lHj$8?i1H%BI73wq3*9OI^9?$nswbj&?Arkjbm`7v+Vm^)2oNO}Rz6#LALWD|E#
zc@|HS1f+TjQa#s}3&(=&TfXlS`ol1(TbE(x)OVS|>%^##y0zi>)bOi@-{Q>{H=3aB
zcs0ZE;$_3f#AU^`AUhJ8yxk;0%JXT%a-A&_q_NW=9&>z;1q;NpDlReYdds^>u-T-(
zO&9~4L9StKnxs(yu1mZi$^0q@R*<%A?rc~b_6HL!M$ED2G`xNQLB+9HkYSuOO>Wgp
z2M2jdc#C>qi~Bc;2P|fffEi;%;N;*ekUhj>*)}=^@HR4IZW|S(wSpYvYlNFeW1v%D
z0pO@I;#Qg1Vf=Ho#2d|0(`l}7i^7(b&DN#WAKbh|O0H8WHQT)Id!-H6ZImK3mqh9a
zEjHUh&NQ1o<7NnMbL+(T`zaog-2hh%N*Q&~qs8YxpBXHEe@Fe3e)0fVDA1w=9659X
z1mU570gF9UL${?T2VWo6r`UZsxY!YnZRs#A>rgn~9*4DzrO)KUI$uwHTMNZCe_P&`
zucLxueF^zW8>8|5m3P)&U%PtQc)w0OvO%a}86LT1R2|}C!(oPnF~J7+0iEy^rS5#Z
z9U#`C1Y{OB9QZLnsqMDJ7J#b&bQO@}Q)ajh19>&x3EEb*N^BnC-u4@S^$>7Ijatom
zF&(SEMg0v26Ns#Cv3lgJ<vAa<h}$+m;Bg1Sg-~5LbQuN7;{9QCk+V?FIBnU0R3eH@
z#5m?W-V_F5RH@&9lZY||G?&6k!B995w8#h?&+#nRs5_7)&tPx>!p5?*DRLod*YW^=
zVo@Pg9~?i`q~&4A2`4lT;=gz(#tJ`%BAA5Qz+jaTyG0$|E+m4aNEE<6P#XAqfdU5(
zG~(INHG))~Y+|QI7%wPv4&V|bN3ST*#V!++nE)&Rgw6|jHcAgMg?MY>NO6pd%Am|H
z0_mXPDYR(pBp*(n*n4UBrQfi-mwvr{f9b-#r3-_li@zs-oW6E{`o_KK8-wW&cJv36
z^E;DN^v}Y4pqr*=HHc{jY14!@*Mh!f23gbmsAah$Nzyd2Z<{6+Xs1g+f=Sb~JkO5+
z#6To2-axHDiPMZ&Dh@Q+tkBO1G9h@0s_R>vigFGc3Oy!Pc|oRyTost5$HlYgSiePK
zkYQ4&F1Uh--7Enm^-J_O4JCdg{dsA*bFI7FQ+J;msLMlHN$A5YT70JS`VQ~nkAFT;
z&kSW5n3`a|(N(&5HytvCrjCji`s(Q(zl%Qs)fa}c2HXjB=Go3qx-a%-b}tXqvk^0o
zPM_&q-FdJ3?#DkHsK%jD<183WfctFdKJv8uoz7bKwcf?uHwWsuC?*{}MKg^c`Zv4N
zUA}u_pguE{Rq&oh=b!JZb3L_p{gc$)*X|wv?m#VtqQ7V5#HFD=l{ntBA0wEe42ir1
zlK=ER_&X3DZT=WO74`+>U|`geHl^DVo#%0HT#q|qq!a4N`;c=nB(yDEKXRF1<v;An
z|I?m2W)J%0lODZ|aN>zQ=%CtK2%oK2Mwg{=%YnvIAqFN*N^EEW_`K0{iN%Nkr78Yn
z*C&)d+?f_GhPd0h^5kOuf9-^Kp%NtF&a=3v^yu>}$lkK32R+C1J)1zWmmpbT<e}#y
zHBM)ROppfrSqn%9J<Kok&h$R~R2}43K7Y5LU+pJXJGX#5)F<xiC-3PeA7rmRR^(I~
zpgc9dGx2ElRPXJ(*-!Cc_QfwQ_Ge%1CtvMs0U6uy(|E&)zP|7%lkdLJpF0OWGAn&`
zCF%kb^fUwzXz)z~;ZuQ(V5Zr|7BqUh7=M@&MpYp?CNA}2)bxuj?zoH!zyz6)A0>l|
z&u#jwAQuD)5vuu>b+~|{!xsfxG@+>J=`Tmk=M}mNJOMTKHjtqrNz#Fiq{*+)+}G&2
zuhH4B(DGkWGu;mcsl|>4nUM7dQu-hAhmv%Bhy*=Qkem@jAF3gDQ_e}n-nqvJrqJcT
E0qpQ4PXGV_

literal 0
HcmV?d00001

diff --git a/config/__pycache__/scheduler.cpython-312.pyc b/config/__pycache__/scheduler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..28bf46cdd9ecd9b86a2c07df4956e9ce041e81d9
GIT binary patch
literal 8976
zcmbU`TWlLwb~EJgA(0d*k+Ni2kI`GCBubR!+Lj-QVq1>aw(^jiWZB1L#JQ5j9zHTN
zR4mphgl!6Vu|Vr>KcXO8Kn03IfsNLmM!(X(6#XG31yrVXS3$RE1N4JgxhUGNo^yvo
zQ3|z9OGx*1&OP_sbMJZG`3Ik`o`Ijj{Y+-Z8Rnm{WBr`v#{R!U;}b?=BvxVKSlbjf
zX^Y!fY}*xkl8bY+%_)wgGww{f;;y7S?oQUl>yq{HdJ1zWo}@SKP5R<K+IK1qNq^i=
z+b$)LY>YQ1o8nEh?^c4zP&`E2bxL#cMEnG8*DEc_)_5z+5U1*dwLQwoWLvzAWo!&N
zK~6npO^)O3q)zglgigEzT0Yw9Bq8FrG1nQX;bTVfKem~;kIjm)>Uh^G8xDMnqqAYw
za9<G>MO;t_v|Tq+vi^>!h8>1){>N`#6Rx~|?aIv?v)2v#bZQk)6;aawZn$pAI#ET%
z;1Z&yhi!&qMkb16_!qGfRzyXXL_Mtn%{pj^37iOM+#FFBje3b>RFV*NA_0Okkxnhj
zOVIMju)Lt8mzD_5Y*C4pR#u3RUbrhPtO_4wMI|LBk<q5P#4?ex3Q=#QfRRNpLBe*!
zy+l&Ll}-#-CY@H~)RN(lRB;g*<Q5Z)n&Hl<a$1%3)kIk+v~rg_`~L(Y`-CA(oRyfk
z?G9XrxLvZvIpQEr6ftp0_KQ$UT-;qX=AdKFcpa$+3>Wt5@W4ETliW}0tb>Sqi4)-U
zRdDwqxR1g;2XN^yyn({K$HM&-?la+1Lp(tH{wn+isiBIWMhXv<@f+h!BnbR9mHWYX
zi1tI}esjDTuAn7{6BVo$7!8)C(_)U|-lgD^*2;Blr7N9026~c0+sYJA#oNd!;G?~=
zLObQ7qiS~NldcNw4$?`w2#*}(T=b0i%FJ#$v%Avoq5YmJN{1!fOF8K+<M)v+sUPVs
z+N6Pxxp<${M>?TB2<?8@<AB6VJ<`yV@MAk5!H*0|5i%qVlQ3WoEjp!<k2y>2tU4Z%
zK#Ece2}*rZC*X_%wP7*>^hTwqwJVq(gq6l>%#V`j-QP3Ut1e+>oH2edBOawI^^x&K
zPKv=QvDMD-gyFB~&K0V7xz@@6Z>nMzbVyF8qA~-TVRT--HZy(a*1T|g`aNOx&TZkf
z>3OgVSB3dEZeE+6`*sbuFhWO>=B~Xprv?$^QL`yfOF>`FkZ;j`fi}7%vM6R1-LNeY
z<3v)tFQl?bVL{YUtpz=OkEAriYmIB<1I=i)dKppGWl<5pge=O6q8TR<qNGzx!cmZl
zCeUa%VJ5msT+o-nxGbl^WCd|$C7r$}E)!7_G$pNT^Tr91LYpWgmb0mQz*2d!86zlb
zLJ~NalW7T<fRZRO!^1K@WP|nvg`|uoKqRRIz*Rvav<Ab)p@}ovt-V+Xaw?P6t$jCH
zqX`kjA!u@rs3&kE&I}l}#H!IM$=V_Al1YJ50DG=>A*N5W?4ytX33XW$mRA>4SrYE8
z2qx{Mm=eL*8UayTO(lf#EHs>cO;?GCbiuxYJvW>x(X(nwZ36m<vKxXX!*KAA_kTYE
zqn|Jjn7cT7<hRxi<7J0b4N~0_3(nS-w1331%ma1~Y%VxlF6sCPobLnM9HV<J{JVau
zbx=!O?e#31%QAYSg<Ts{#|_b+HAm~vo2@Y&1y6sH11&*q8rDqU7Ln-h7|gQd=9sW^
zmR?V|6b;iT{fZXCNL{6q%iPi6JorRb)6+@5a;`jeseHc{<>!}WtqMR-3_T(b!>P2+
zXR-@$ZFn&yfqo}5pxX<w0zQyWimMc1fj|?c!9S6r^n}Ac6@n#3oq)pVSy7Z^bR`x|
zq*W57EJP1o7^14bg^2An5Gx$3XA#9|x_86-p{S-{V?sKWAV$3mo78j>+jh8lY8~Qo
zXfjkhKXC4x2B8C8h7!{7%JDq^-xtU9WM(WQXGV2VT_XDE{p{KE=kA>)V~V^mmRZ%8
z)2T7!Ys@rmV-<#?nN_0^W?0uA6cv;u*F9(Hj%gpG-$VHnmexLoVvX7L_=}#7f~O<z
z>EHDSi~hbXf8UG1?Y)-%e4zh@_wrt_J@0LQS<lq@i|$he_o<SN^}WXKc>_gnXTjU~
z(#6%)131vO-dAiJDYT6|N$mJ1o(Efg!R0$*h1Q9uSBsM~g~^%i;Pt%s`g8xlhF%;z
zUl=^U?VrlKr}lx5!wTtu0jiKcfyO7y67vzOR}{9E66!dE{vNQF1G)>Y^ytrWVG{eq
zW?lKacv44x7T!lTRN$~({1TS0hr^=3cc<T;g^+TJe|H(ewH2cBBA+53@-%eBJ1a^O
zk$64L>v*xvQyZyF2hWgI3BW|1m*G$2<y1n+;uJXr!-R*s522^VE3yXg#mY>;78e&u
zLf0r7>Oxkho{nEq#msWFzJmIunqHA50-P<2+OoM=HYI<MCCVxffRru+yTGcVlxblI
zt5xPx?##s~9IkXW0p^qN>BXaqS0+&=_(c`eoLX~ONE;)`1tLkHD8MvI1hyxqM1^0L
zK}snebVesym2~c-EYM(xDY*LBSRjj_wzWy3O@R2As1+uTSs_|Mm;v+T&uT;hsv1dT
zF`9;a!G(eXjWg^?>5O^_ZiL}9{g_d=Ozuna5`jd)uD*g0SNVtxH_j43I+i-CuOi%Q
zo(&NYoNGU-kk!z?0eo!|iZ!Ox&UEq*UC)DUpIrF)g<ohJXFq#T?3yTaO>B2fenEDE
zw~E1c3c+`_gYP|b@A_LF`qkHPHSR+=ee})fybT99yDVf7%OD%bFA}Ip)(_kGzuyK0
zxH@*thAztnj_N>j;KsALnYnv%hA-zq5KF;5q=!d|<E4FnHk~5x^B;l^z|qJU(STFO
zunVCOREVo!i$6!pX9ugK&ccf78&DjURI{MLLP83NSy>m5$n_r;SxvORLvpQ9fb86i
zxAEbn-C*m(TVMN6Jj(v;5AyB~DxX6Vz>Jwn;NL){K>{{4BC!t`0fx<=WP@JC+DLZj
zRouRA<=adxt08fZ%k#kTGk0m$Zc#OBpjDx8EJnp{0Y+uz13D`Izi{EGP1&+{l()bE
zJ*y=-?_GrxdJkrE*4RNU+3yVjG^k@lOn(np$&~}UYwh{}ASXAhQG){*4O!F=>e~D~
zF7rrt({g}qwGM7G%d9fty4m>|8m#1ge9a7LN6R5CPXk`KuxT1eXxU6At?GO^Z05^h
zGr&}{eV@m`6U@>D-i%49g-Ywo(cIJ(GuEz50zELJaEbp=)|Vkhsg)*N>W7e}6Bu9m
z{m@@u|0egBujKv^95)yy70fhWP6;fc$B;alH~`TRx?at+f<k{&QUM5IuQ~=yse@Sb
zV=)B<#{Xb9yRkol#V8iN2(d!|ruJbg1U^w-Ton%G6J^t>hH*j!io<rmCkUCerbD<6
zFDOE;<9qsF4gPza{*O?sF<*N+_D04ZUfuDAcOzq15AKe~upWKxZTgd&KfMX@O5^F5
zcDt{kRL_jYiX+zxBiA2tJMQpq&p@%~QlaM(_PX{k5*pa@43y{X25#*JLdC#vAu#;X
zVNQpj$1_y$3~k1?JR>w*8ZY?ApH6T2&pe+z`^@(xS2%ZTd-C=pZYL1?m9@UDaiZj8
z8k>uO(L!L95{(uDQQC+V0<o7q7ckev)cK0;?t;5}WArQcI5l0lKYstHAdVz-kfLEG
zCB2W19$Y0@W4Jc($V3B>@6E2A6~2!#IJkC2;&Ce6RtO6qs8&fby<)~CE924FMD$SJ
zgvPGgnbgdi=9tgf+0R*ejUc&0@2TNL-gJ~L$80Az_yhNi51$$u6L0|y44jugQt(Ie
z?ucpns|_f&DZiL7q4NWi1ugTp%BXQ@slN?H*hcxJE=$8%yveQlJJ9~Yoc#wNYv=^l
zn7x7Fhul~0-tY5-#-8%@SFp};x#t7+9zfM0Fonp?k)PIn5dNYotChWe1`omySSam(
z?ywB@PmaL_3Kb`HuoUHB;0LXQ8Ep*;u)5>_yZQqbT@7_mQQdm&WbS$n__JD)v$h0k
z^JLPsUcaa_sbuRGMR+ZB(Uo5V8nxu_sgjEOkaQakXjm;c%d2pf)n`@*bZcOOyz1$h
z9hF*b*I9#ax>EI-d0?d)vp=&*UVzk~01)5dGlSr;VK!HJ%R2nx#Si7W!x;W)Nk}Xp
zF@iKAMcq*4SqV`7He62m2~B3?70gK#IVqR(8gLtOG7C=y1kx2qsCjseS_1b8=|gP~
zN?!(&;yuV`R&L$84QA^uBuP9vIN-q|0}l;vDn!&UlSshR5HyY<2fiMng9DTb^U+)^
z%qQU?1C8SnAVA__?h&Q{w~*FUF^R8!uw7d?np2KhX$br*PwpoOk+cdobYA4B*Z{LE
zHhlGfjZg!hO_BQ<*en?71+pxzz{deIn8;l{8jV<dTOkQ>su8`i>d^>-zs$#?xz67d
zCBWuJ!VnLo@R8=IL@*D-T~~w$*j@Mp62;NlVM*>%MY;;nFw2GOQ!U!ce0=jf%JC(G
zjfU&Y*aV{%qy8Ptgs!P-T2*^sz>HvA<%b&@wV07j9{??*kMYSNqyH`p<ob@fqgo-(
zf8o?W1@8tHAD>4C3*N!a(Jk-U-B4>WG`1BQ`&Co>Zc}7)vN$|b7@o;Tu9q10b#`ob
z?BZs+#Bi4*CA*_BvTt_<8%m5B6ky0PQ1A?FhKk{-LU?M+GxhxYRBW%ap*>uszYyxr
z2M0D5N)8)R;*b&t;f0quO6l3}7Q#Q;^85(no!OtxVw^O~?pYxZjZV4?f$ojl7^2iU
zfJOtQaS#9nTZ+NxRxtYf1P`;DC-?34mZlP8Z)}243w<$-jxKHaUoB&_?zXlUThA9-
z&*xjFVDA^qtv`DkxNV+hfnA)>!F-e5aKRJayjmQ&Q5d<g<+*_y4^BLqECyqRU@YHs
z8c0k|>>?ZEh2VI;Y2s;j$<8*O0Y-4&X3!Q0J@in|3*Qdhf`Ac@AQ<%mUQPG{2W_uV
z`8EeVmmo;#gdnJxB&+D5)pwvU{DMHQI!$slfVU&413~p~(@zBR_}qss-@JtM&S7j!
z!(#KQ4PckvPHq7{@u`qiF=kB6VG9G}s=zu5-Ky^$Z_?*;GcF%TOnjzLFC&r@zA=Iw
zP-8fPkDlsjET*xzi3R#f!$TiklLX!rB^7<Niou6EhsAq{0N)qWum^orMUO-S9>WP{
z0t}t%!x7X5^(`!3!{Sve@X44KC@}5Mz(@WO^PQ7%^zKcb%X2*&uW!!%#qDkG+-_tv
z&$X@(ZJhpebekL9>l|9U`KWE18`|Y2zUdjvkI&}k=68DT<hi!>E8E<il8tk?zw<ID
zJM#lm&py~`onE{3sCS#2wgCN+r`^xkoxZ6&*S?<E=BD5lI>NB@!0^-9v&NnN3wf?%
zUEAg^lx%j#EDN_X9LaP11`r7&ZUk`o{>`_Z#&){S<hhph;5K)rWOF*smI6%Q5HfOg
zn;R_I91b_!{_X+932k%zyIf?iXJGC2qqFO$e|~YB8^8t5A^m8cJF)KC;6C-i7EMMQ
zVD#ykouTvPrOzYs8!YUst8cS;r*jOa*tfYca~!C2^{>r5d}EvILjt#1(1w9w+@rM3
zMUa_W>~~E_RN5K308E@-53MhL+Fl6u)2-SZJUoYtPUN}XjrnaZhGgA9wX-+Rg&qNo
z9!r4j-J6Y@AMBipt-bMRu8euQR3CC&*qF=@T`cro+Gn6s8VNXB*Ax2;RNwV6&gMr#
ze&F1*l^w^-t|NfNIyZYkZylY_+_d^)?$_Acw=>R0EUvR94*Df;w<ER*S_{<|S84U-
z{66+dGc4n5_}bww*=%(&umetKsh)KVZ-#!&K(+6I0VD)=47!j_IXjAu-h!hSPjO^(
z9<fFc0VD>kk~8KAJq4Dade-+6EAzhMRSom%HK+`KA`L-G0-vn3sJM`zx?p%JpZkfX
zqD~r4c*Tb-Uxf&iF_nhe1PnvXXMT5PRTAMvHDT&L)wGZ`7Okd-A(qi-(i6yi9o~X*
zbyKxa<BUf71;TtYj%IZkUe55Vk>R1^=C=nGV>qLQj!=}SoWxfP!NkY!4K=@HR6eZG
zFC^*$;8B;TE@4Z?f~xXi^)}oWO+$HEy$>juylE;FU}#x(-_5Z87fjy^rt6o?<*%5_
z|H=%%U?RU{qW^+}y)T#x-`E2$xL3ZZ3q5*oyRLK1x#tVzn@<;flWX<6O(*m4$)IU;
h%@0RvbMLbC|7n}$*iebV63)}+!NUC=hkbg4{{tCb_S^sf

literal 0
HcmV?d00001

diff --git a/config/__pycache__/speculative.cpython-312.pyc b/config/__pycache__/speculative.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3ff9e4099d4d1e18ec4f4c5192764422070ad1e2
GIT binary patch
literal 22183
zcmb_^dvF^^n&03>f&@sA1W1AuAK;td0~FsBDN+xUvfh?0+3Ta%2Sb=42?-B+07@oI
zRndFCTPfL!rMlg<Z0}~dm#dr{`zpGB5?|fcl~Q%7Y}F-I7*bon&B<B0vdQiK2U)tx
zZvIH+_w`@~AUIt6ZZk#p%yfVK_18V!Uw^O0-&RzVbGX9he;GRYCdd5`dQq>^+{4og
z29A55<2l|C<`$K^VbOqhW7rrmEt(?cMRUZmXo-|8mKdnq6fTWe7p;-9#j;5GVmZq*
zhiwu2qMbck!WEIq#Y*;E5_UwY7OU8EX}CI4vslBPtzl=xwdi8cW#QUL-C|v&ezD%b
z2_~@tZIp-Ik%q+vR&EG4Mh*mx1}@UX(&oh$mTwEUMm&oi0~d7)=EVm5dyJe=$J>#%
zeUj@QU-5}ad0cEkzDsET1pTFJu|u%%l@0XNi6;kNC3G&C*n1b=tN9w<$-DSkp=+sx
z<#r1-0&qXi@pbQVeElazhK5sHQtyjB>jtm;S5$c3YnCf6{oaKI|8pl7o;!2u{PVKu
zSae-3JsV00VjwJAmxY8sATGzfCfRZ#B!qdn^5WId>MMb8hz}$}v8e2b#CRd>zoz8G
zM6W?ELs1|Y4#eYlF<%tIOSo5F2moVP2tOB#E`^qnQxa64Y@ui<;Sa}_mj%&ll*`Ws
zlIv$<0bUSg*GeD`3WAAH&>xB}38D}U3aDIlK@<{VAQTmN1>wgA*>;XdQC{Urg)ZSO
zA-I-^iOHU8;c&#aJJS~qtP5h?_vTt4ng}IXhrCwV&I`h7ToA7MBZ*bn8VN;W?8&|y
zj*R&uF@e3631T#)JXXGWU5JkQqrzJWR#Y91MVEttgntQxu)?xTgvz-Zh%T@B*TSG&
z!($Nw%V9w-VYgA)5?vMp5xFEH@N4k^x)EOW$5+vbZ~)zqZM+y*LMzl$xg@@}v=n+P
zsC;N8Ez7+;ox;3&pA$G*D~raLv3?d!ym8TtxnoRXbqOWB=`euHILy0J-pHFjwWxDu
z(JGXoyhJHSt#ZMp)hg9;?Lvi?Yu$yb?9*}$SEW#<LD{sr4x#Ewdm-V<vj%D37hg>Q
zz6uSWvw*@%E!S0$>)3^{s(`}U0*uwUx;2Y+f(2vX+*PZvU-bpGT>C<~3!rLqxQ*Zj
z`SGmNavOyMLKCfJv|F#`HY2wsm+RJYTMJ+tv|LXCY-29>z+xNwnoYU)=EZjQ-jaK7
z1*hpmi=Nzj+hP}cZ_mAV2(~37-}$b2v0LcjyM$i8L+D*H^WE>7HJ;+-d*0<1`}kg@
z{ebeSz2^Jy)Q|rTp=`;@4;0iH0GwNB;RiKXAHz*>Lj`by1#lfg%Tft{u%Oh3**nA!
ze>$S_O|*0n^o|z53=1QyeIq|skUNSz3n0hQvoSnVFDLLkzHanR%GDQhi!O9cP*_T`
zN4c+wj8S-&VxmV~nE>+eLNLaMqRYPXa)l5@X;AQEQ469-oEUtqloyr)Sp2eaIU(0Y
z*CN`&Ms<H8c2$VRWlL^pM})*mjQ<sF2417sgBz*|a-*{T69A2g{?!~$^~Xa=LADq2
zF}WfVcuV0E{;&|0t)g%(6eo^d0Wt-@`uZy(POjxc@xbM<;J>`?zZ^&eR~W_<a+8|B
z8sK?>_p{aoQGt=GSH)Oll{k0o>e{Lw4erSbMdiAJK~j3@Pl$pbI}_Mhu)iogImk8x
zxh|Kf^(>cPQ^5E9xx88>uL$&4Zt75r!W#YRM<L=^v&dOZtc0pCqH>2GP%sc&K~F{D
z%{3vOh%W;huIv%HRS%l_=3fc~!JC&q{D7{%JfhQhD4OdzM(na&g1u`^j0ST%J!`;%
zlq7+te~sjQZkfAb*f3lvgkWGCx4~V>?d-V>cH<3KdpS;B0|qWZ_}F!&M19KN6Y4I(
zZ5Y%#S8Vxm^+{ddyzx_$%FnM<sHOS43U|Y}VZ6wB&4HhS@N!S?`o^)B&O^4C_IzVS
zhzi#P(G&1Qh3lRr5-2>OxQERxPa@{QhlzWXuREYs$5dYv1(XF6o)G@xo=`LxUc+?6
z1F{8=GX8N-I21?ul2#MYfu$uOn20m5ASUZtLRq}nWLH;w<r?S(F?KD)3!n@F$BNR}
zS~P??5MKA70P+FI1*ze14i`x=ajib1PHBvl#}ndO5Fc6a#FmO1*D5h0JWE(a=m|(e
zL-8RYa#`SskAP?z5p*vU4TL=_A*{ftCyovX@q*ELi^c-ro<MXR<A;aK0+^4Wk1`PD
zF(#1iG$QtC!KVR;E%?wUAagm^;sOuUaY!R#D6#G>l}iGvt3s3)`vD@C($IxNmt|9g
zAD2xS0!TGc;x=;GitrX6TE>EcBx#OAB$P{YUrn}BH9w%^H2*PY{?FV{BC<NP8d@Dx
zxWV9CYm<kju1*R=z&^B!ZpNZRB+m^gb7iQ2!}wO$WxMjF1wUa<wp=Xc<i5i4@1xQ9
z86=xr*3GqeZkA?CxU#DEDsNTZPQ3s2owv7Eq<Y^&>(C=-<NGsrW_}Rgn*3-Z-8v$*
zj_kCKJrEu`&!(NPNX}PwoUh)rW*qf59Z!LdL#LN=tZLUvr}fBI`iDs0r}a$GMHg?l
z#)**1HaNdlvJa$@R=(JtAe`*lfDXiSs$Ky;!d=n0feHgYV&Kio2Hx@m<0m;TW7v<D
z5=Kku*Px~JpG}KZhZY^q#g~yJ#Fw*n`gmI*P5;yp;L9)ucC=gZ1JkZC*uUM%T)U3n
zx!o$AcJm)cd*Z8Ei=})`VT=3BgqnZ$=sR^rU!x)az`JtP)P4<WYX8~P)O}5A>RAh3
z-d#vd(JW~A8tb5OZ+qCq4xER~X47=RYoi5<;kD5bu@>VZyGe{A#V_h#6$L&NgfzsI
zO1WwtTI5A&k>@U5I7jLlu$5_0as`yy6{y*4lZeZXBGpiABJ9;KfV*BGrBOw~WJ%d^
zE_5z-A|^f;fQ}eGdrqt)XglSqfZ(&$M4Pg0<cJc#0XXqh0<L);%IvwAP>7|T3LLot
z6_IRbitd<yoK#kkNmmsMr2A?R<$3*Aq~$5wUnGV2Jcb1@a>XunSZpL31_;b`7JBk?
zfy4<?lT~c6Nt7!hVPbt%kV_#V1`@QDtgXVXATa775x+=Ss5^0zhCCkeJYlTSSgt<?
zK|{pOo$TDp|Mx<DOqg1MYLk0xbER#qlC3q>aa^(;&vXpmJoV7-$*9>|bKADzNAA|G
zvQ+=VgT#*e?9Edddu`g@B-xuXEj_83bE)a`Qq>F3OvZ{zY$hmE@O6$$wuwx~)NXvK
zj;U?i)Ne(2J~jP<RCPf?Xk`f7C0qN}uw?5>d8fB+)0vJzhIKzQkG*}Fw!TdFSgLFM
zNvXNI=9#Gk#8nmJn%%a|sy+THT$8D;sXe%8;MfRdI()nPxizzG^X-Qd<M!E+)btst
z>TF>z8MedQwxLYN=x%JOj?rz~=x;+emzq8;Rh=pR3R_3EZ6leEiQU8X=8pSR@n?K7
zHT{xQby20Ksv%`{ix)6ac5UY{r6}9Ey=wpMJkOL8X27#c-Ey$GPVB?b4Ob^I%X<>q
zhIB;}+*K^t3?U@wi4dy54r3%lfL&q)GrQ(7(9>obSnRv==<S`q)yJ+V9OAnut=wB{
z)0U`Kb9rrZ{T7KLI?z{YRM`CeiYx!DKJn(<_G3YRY-;X4ICc7nTACn)TExnVuK1;W
zu<5`8n>Jq2Dby>%MXx-GPF9{oC#~gZ`#!K%);lY2-347Zl4a_gVI!&2-ewzc>-78`
zY}k7FjJ{GvpN4H8>Zm8b*#k+;yy)6I01UK!6<wPSz8pQ%)JOKF&4y?Qwe+xg_rX>;
zF1B6cqSJO^yV0?IF!t_4!Tv4j(2JI|KI!ArZ~f{#R(e;#s<G?W{)po%^f7$I{m{H?
z95g!e9|F`l)Hh)9sL%O3Aheac!Cl->B~a!ngwiWr`MT=UC%FewC@yk*W#O2xH*F4}
zzRqmDZFy&rujC!%gt=ibz(5T_eJaH9Rr>IMY#?_CQYXrFdVQr&r7V93v}+$|l1+*(
zK+_7+!|f{q#Vere_JKaA3thht^oTAr#9duV#&n?@_JN+zg>D4&lx_*F>S^7QrhQr<
z`*G2Qk!jusdaei*uYhg=v<~k@N$Wm%NE9x*0PWca`e+d-UIE>fIIiYj!MZHI{@C!Z
zXh$tvNyQ*|=i9+CjkgWa7~g@`$%;~R>COEs&ldsVRb5ZOSH^duWeo(_kMdprAF%`1
zF6`C&;6AC5pgrjB*xk83t-BC!^nd-1SbK6<dv;;{tKSXlSIB4sd!#6B_t%Di<9it&
zzxEXpn^)!2a1OumyHU;eVO9+AeT5?djQi8p`xUhH7tmJ24;11}oKbtq52{f6Ng{0a
zhrq>s;qFM!4Y<egJQVJYcyE|so_<-y^!0ncVcIY*8C9uPG(@MdFPQ!b_4OsR&QA|&
zCIa(@Ss$Ojvw&Wmv3+MDLAofr^f6q~Suy;u)*D*GI(WZ6F8_eqe&RLt>Fd|#M+yvv
zmJQ207xd}bv~G~>t?47t!}@R=7Pbxs_bW{T17FFsn*#+h&!|2;WS+4N%SXl{`R1Ey
zKlAs^sf5P95&<<|AFDcp=ehSvg2rVoXnY;A$c>VX623Qys{D8oGW#9lckE`A-6&Dv
z(SL2vkIp25YAaWG^(lWx%Q{r5m~NC7P@8i!!7y72HzfDzq&hcL=)!gj_NP$3HT4Ot
zderCq9l2NXZ|W0r^>!wm*{ZG*&@ryoE}$c#=H>6et+T7|)1p44p2VdCnWs&!H~v<Y
zrUH6nYF_>h$~^fu^$EE;<EDNcjK(f`nL>bQwp{1Dht7)!fFyZP@#T8n=!(BV?kjj8
zMFHU<aA1);Mif@VfgoP4hY~9u#EJNl{W`8uPh<_=t;>Q3mE-V7G5<55#Y<@85-eiW
z$z<tkEPmv5_9k{v)^UALv*&ss4qVLb#d|Kp`$X->a4+ztc$g*5_bXCfldmlR0N%Sj
zUSAJ9;YFG7%;o9LwQ(KpKhIj6TvX(AVuX5>vGFBq_8^!|wrDsG&lWcjcx#r~LPfG2
zh$P^{t-2PCB4)_K{K9e>^QglyF3OeKBl9-P)$q>66Y%jyVhI608hEJO@a)B|!|@xA
z1p{F}!f!$W_}3FFa;;jT<ngfx!j9mm=b3#H&Mbi!hlvQ1*5#UfQ>u$yZlDqMtKYQH
zEiVpH#crx-Cl57ZpfC=X<FXwlO4WiH$H#3ZI9jMlB~WNEpCfvxtc?=d1CsA7MB&P(
zQQqgn&v}ONt>MVTctsG85Lykxy&8(Zy$NR}9DLUUBJYX8*BFQh9@u3)%%nYVeI*pc
z1P!cX%EnR8gO5yO27hia2(Nkop;;aTM+nTsn|vc@-DMcqJOchG+^H)8L`%e?f`ZoP
zITu=9Nx&nFB@mCHMfx6|;0ny%pa?$D_}c1fOiW-h<Y>)>ZHevF-46@QyIKr}vX<C9
zP^K`gyJ!q^Tfv2<)`f)6b0I7Q;?!a^4pXt1o1HN>%?p=-8b*+tu5sYOP+$SENj!jT
ziq;zNupq7hS`W02;WO33NZ>YoPK$S2IQIP6h1{!=IZwqU^hI{j7o%v3z={yyb0Hzj
z%AKs&|CrNBkG4qo5Jh+(io<hx-J^LLX1xZsP<9zD$yeya|5LJ+yw4?a9zcpN$Zt1G
z@a2DOIFDYK5J7^QArU9QoUPq@I2?#v<^yxd;et<~^vdV=ug0*#SYV&ucbF}z_#7UT
zD*pj^;w0~EazA<Qf#I)CJUI53Gt9P1tz8w?Kjyqs%D|AUAy=s0flKfS#N`qtR!}a*
zOpRiuv-K}}0Vy6L@Nxtwt_cgGh={pLtfT}*=HVm5WzPnhtvF@v!N3apD<w0OkcKOg
z;wm?&F^z)1DDXqJu~@<!J{m?bN(t>K;wmL?QX*0krzAm%#v;TudL=`Ec%2e5pop}K
z%NDkpm}^6Jo{uF?MX)j>;PnEp^re+GjOf8=9LqF<*hT+ZA{36pq0Pb(#C1Z`^%YP)
zHcLg4apZE$m?&ZjuymRKo?I>B+e8t`BO;jsM3Mz$3mQfIktq;Q$o8-jAL<tn_K7G&
zEKY%!-F|pnLQCs@Y-)ZA>`}sVutSl!BzGVLXZ^CEakX6W?kJ_EpeTTW<jRU7d%RYW
z6cCY(IQ3NNf}M3o{k$ZG%Z89_rx+uDa3vNB3h}rVxri)am*Od^*fm3wtzR*Pe+dNf
zJFxX5N}z_bSG_lLYvu>Ne>%I<2p`Pwef~dQ{fny)Uf!NK{m5SP-uYYSGgZeQ%>S1&
z|4DN{9Pr$n|IV4mHphF@x299J=B>_j`>fPHn`%FmaX8<5`_|icg>6Si##x_s_DjzG
zlyme^V`r-CrJcr$Dc40UKkb~BoYQINg5+HIY0I|r8*ni7`EJiYbag*&Zc8_hOU>iy
z<{7DZ=C=8}<tTJFrR#gQ>w7c31L@wQQt#1p?>VXW-0k_Fxw<mdweKIeb0Fmzld8uu
z&7HT+-z(4MZCSUgdo#^ll=X``Psa7?Q<Jg2Cd(PCYqIv-2&8N+8H~m0Tc=a@_N~O9
zC4Zbujh~WwPCagHQ@e|SN;Uc<n@`PiIMa?U$<dW^4BqcdkDQc7PNqgKz(IA}{IIG!
zL-(KIUR|56?vbi{Qq@DO^Ipm6O*w}#C|RSS;i%!M$#kGD%b9BHvQ~^h+IvLu9{HWB
zqIHZ{l}jP-o;lq+C-u&4JLVpt|8>3hTuK|M-lJL0aLh2285&IwEl5KPDc^~#$xwTe
zXrdu9VTh`@p8j<AoYXycbN->dBjX)Rd*>zZJiT>iqh_>o)0T~xxyqXNUc2?$-ILoD
zofylsy-%|DJ+u#GujD|M&0Kd6)oRalb+h|p%$MY?B!=)GOStN>FZ#y6<ZAkBGL0=i
z>ie)SYr^vv2imh1+|i%bj&#d})H0E7IlA3)G+Ro!R<5%*-7zC|%%nR`Z+D!|mQilG
zMsm9Q!glwCtc`N*oNpvOxF8KKqz8Y0d+_(O6_i`a^$(@{j!S*V(|xaQ_r02RP;M1>
zpf%k%A~lYr8>hA#r?S<QTf;TBq#K5%hT(L>#CF3()=9Z8uBH7)uYdS@wwB)NxQ?E5
z``C8-Shk+t-5jQC&k?ETNV?~x?Vgvi4V2r+VaR<aB;Sd&@6xvKQuYAlHgWCU>9&#W
zwvlWzy|*x2(^C6%y8YyK`^ju8<$4&@A*t<9y6wbv+lg!&a-X$x?W5_oh3&S5YzN+H
z3if3CIG3A3eNye?l5_m;Ty6|aUCWj$-8Ln)O{LrBq_(+q+q~2^zteU?sy&fu_uiiW
z{+Uc|^KXOcQ(zj>wF6S^K)QB9s+~yJ9+PU1J$QAy_FSeN0N(==9e~ur%iFatXWB>h
zh4`CSAGzAFLQfcKo^ZxG`tTjSx97imCR2YPT|Xk#kKBK8yME%4yX8lfA5><I#^zIo
ze>9mJ8mViIdr8W;dY+hacqV=;o@oV*o$EMAaE}@Xvqn>c_o>N3%hQ78S+#38KX<)|
zzhBh1Wx$!-Ly~(a?LH*A4`muUQ{9s(_tZ0s$xUmzq4|rRkxY{(-83pSji#Gsr6#zh
zd;V<Z$1|B8-?LJ4Z{uA%$e%rBxNBB0J#-&>ObpZ~IejVT^iQs5T<)~1Uvl-QUE`8#
zJT-X^-rS=GS^*8sY4@n)9?hCK40!?2L)YnNR<60TsP6r@AIxKbn`>^DVQ^i|DQB-X
zwyFB*#}h~Hnt$dVeN4R~y!S)f?jwx+NvUb_Gq2S2+=Dl_n@&E%lJsU;#_#j#i5I1b
z7gOUeWm=Bh|GoQX!9$vl6Ax)^1P@`K2IS{DGx3X&@khfG_Y>*Km!!#;9u8mJabJ>#
zFWx(Lx9x7=gRZTyk6Kd07bW*45II^$?0x82IoH{f?iiIiM(@w3$6k=eUfAilaQo~d
zpmMj|-H?V)Jaj*wgMY~2YrE5~ImtE0J`Qz*JxogO$)eBowA74GYvQVFA65-LtKq2P
zDamz;f%Qr5z5@7J$vw+n4@&NXY4@Dup37HHSM^9$JrAqKb4ZR$uHy`t4dSKr_$6ta
z`lPkihi^{I^EY44at$vV;v^vceY4{YgLRjPODZdgxlex$S+h{Y{REkG#cg?uFRz8c
zGJB?3fhbHjhhYbxriw1;{}h12t^|o0?9vOSWqx`c%&H}Uh2QD4z?-h31+gKadChpT
zQtCj$PG<SxS9;s|l0Ep~pVspz0iU%9A7UJeFCBbkz^4OQjE^q?9O>^xSJ3#D@oFRb
zY(d{~j~|E{U^CA5AAV%Ldcbchq<5Y3+RrEXW9;~l=ahPUh;%^;?+zhgONruV$7nR=
z(Fah7#88m0g#w;85Qhp)SIJOLA`NOMk!EKP`i6bOZ}^fk^Ga|(Q0i-Hq{(*0b=y<)
zcHQ`LCdIOl_1R>Frs>VidWM-&m+UOkO<0_JQ3!ic&4Wp3uXJu`cW^wZySYgA+2meY
zc15tyCTlcWU<7#W;DBfNb#J*y-(0pqZGlF>G!{iCBZHmzE+v0R$sbX2gp#9_97FQ4
zfr<77>ZN!S*~xw#u{?LwY>!%&BAs#o$tL&6(ecpH^{A#9qGI&|u~cUzSSkXZ5Ij|t
zwslLk?v%|3K2B21IjQd)306It?0zl-DX^+vs_MsPgj(gS774NUs}Vi)sHQ1XGt8vY
z3CTH;s+qih1I)Yn#NL)hCEMuzz_x9Y)tO**W+dlKs^;)#=cvw^y>*5p+tB?sif*EI
zMp&Im$vK&-nfk1P>O8-@PF3~o`Lt_Na!o#T9R6$=$zB3elc)ByX5y-5na-^ksOW?l
z9Yoo!kvSDDZg-|j&z2P=ZmV9zof!8eEt7(r-|=n0i_g3Q)p>IR`P4o#f-@S5t@|6s
zePH1QDu%tt<vIC=VMFr~v7-pT#Eh61V3dmBupl!$qA#8}9q%A}6)YQUO_D{jz+U9@
zT%xlG_*;vwffcNm=d?$LL1#<`m<g4PV=&PYGQA<f;RNLfgN7{(<rLrn<sgGDUNR;r
zXlaS+ekBc^il5nV>BItGaK=IHQB)w6I3TXW+(vD~DwZ1!*rsF5OeVY)By$|~BN$i>
z1QG3@JIJ6lRWMj&@5*;MXEV;9t=N}r8eTG{!X`*Z3zYAGGXjc*co$v4KvZivjuWVP
zBXumAKdO*y+_$aSWIwtRB^w|<P?(M$5z!cUok5>X4(tQ0_f=<MpCz7#a}S}Y*ChUH
zJc~b~WDALUs)3mu#P1;|Ij+OizS=nQjQATdP?#V(IeS;ib}-}UP4%l9YW;Ak{$Q$Z
z1j^~?6apMm?NeCtwbKPkDFi2Ps{hEg;|Qs=g%u8EIwn)?hp58Lt_rTflzreAj+%_U
zHDmWYwV0~P!AZ-?6~@tBINr)Y>K;vVC}mpQ?Ji!SNor(d0k1G@Uf3||xLgp&$o&4J
zypbJh(Bv*u%U!&}HGKIf%PX+i6kj}eh#vj|NzA|^pLANFV_7IOFlkPwe93stAUg5~
ztRSm_w-w1{z~C)O-qB|CD`Yrh$BXEA4u1vC3FXL=GMFCK5aywCer%Zp3YnFLhrR||
z^*KZK*ZVs8^;6(Qcm=XbZoS~N4~|_Yuu8FV;4@H+>xtF5;Tdp_1Y53Oucg`HWY5=x
zOdeO8N27{C9vlA}@m8$aVa9UU`N5ohUvJuZEjhEgUSW|yf^|EMc_RKBO8ykd?sfZJ
z<Rtqp<{7YR=ibNW*@&qT|M#fGP8HclQno`GM@!n_l^ovG;Ow?zHgjk?RRw{-n|97g
z&bbHG+s@;UT#fIazjK}pTxSfA-92gdh~yrDste_(ovWHiS;w=rTrITOBa-U~X<w7D
zoGAI#T;*8CUXii4r|pxHeKKn?9WH;unJUYn%{rSi&gqo%P^xAI?BVcf1JYvAgP~!|
zI#@WbDdL#z<bQ&PLOlvHcp)50>B9cY!F09fLavU+f?Q2!%2z>ddHzj(Lat7P#HWT&
zaw|M{_|TZV{TwqQdjk1&qu9sU%E3-U{*nBCe?2B%6-1qVG6D|<CVc?zp;dMJ%Wdn$
znBn=sj=7ppwn3cO$2!d~D;$)ogBBscDJSecvn&2v^p2gfO^6}*VBvpMf3W~(Y=bxv
z%*#zAd#M}%-k|`U_VX)L$K?j~gl-T_BNp*PR)JrWUxPirP7JK8aDH^#4<{EqZ8&Q}
z{$}zk_?N}l+N!ryq=6OhQSvb*|Be#Ulf_Rd`Ew+@)(1IAcCU}`BPZ$GyFPxKJ%5(g
z$OTl~<e>YvA;$kuy5oY>aUs+8e8zhu?fs_Y{bv55`*6DZ6{-7`JXq66y6L#obo`ma
z+E$*jHp8Y^)s?b#DtnWKopXdg$xP12UA6&DI;{Z--^Q%Ir5hWBD0Z6p>?*Vn=tE=g
zA)U3MppHo&5_+n+P)`Mv&WaJc^z-$0G(hUCqfa0)&}E?h>8z-Cdi3*o3$qZo3wlzb
z4+%+JJ3ja=!!pO0{)yp+0kAqNl~-bhUqGo&REPLnJ`U(6w`AbU-nDKR=C#;IwJ-6Z
z0;<Zfw?gOF$9P4@vY;2ExLcdJg@|Rc8r;}Ni{Bg7Kv5e7n_6x^T8rjH`(0{9?r<~R
z5)?&%0Fb<=mN6B?Lx346%Kf2*x3J+*oX9@Jz@&iPahb8ZoHUDYhnS}~Y4rNUQGEJj
zM8Uxr6Fb?j$PkGY`0!U^IDZY7zrsRD>Mrbu=JSS>j*tOG!C59BI*#x9RJOD02Lont
zc*_!ok2fHj=}eeh3W+!rT#euu7k(!o7LT(ShFxosRv1zG^fHp~8O~s~lD_zQH)63M
zYu(b7)bw^9y)|@=`@Z3Q*p9x_Yv$IuKQ~=Bh&Rv-m>Kzr#cxxx#4==~@1X3^!UL3F
zB~XkKM4`vCsrU`c4lm;n`&+A`zS~<B2k@IY1zvBp%A3UT4g%e;f64tCk^yIOSANkm
zcl!m}$~{|SnomaRIGyfzS?YNCVb#lj*E9E<IPr%+7#K1nn-}QkVn#`IV!;#|#cXp+
z9#y7a+~;{-{ZgvRLT3<jUQ*v~pLp(PaVVZ;)@xI2Hh+W$nM+(gkn0nL2j%x6Wk+SM
za*+bh6=yy3zMF6oy<ljKY!u~s=B6E0!(cSJ+4;RUaxn#V&4-Ku)H}IdSpE`?<`{S!
zh7yid&8!3K2OJ#LJx@($GW(cez#)gFQhpDHm3{_csBX!$w5MARNiBy`&C{Q?lYwNe
zz*eMKecHEe?aVRPA=x|9_9K%02(u3LNmYI7(J(^ZMQ8EI6`Y>9AWd9IUA(kCaVba2
z5c5h5O3uMl%}~~2tRBwO_9Z+grwu7<>tlFQ&)hn5cWN8%Lb5;gZddg_a@9Z0%@XKd
z?#gFycvix$4}q>`D0T4p)X+(Ya;FSu49poZB-Ib4>*u8Uxpe(0ss2=|?hN(nT%o~8
zv7Re}UT%ZH_oH1RC+J}pV@ps^MFMj)B>(Rv3g2484;6^SKJfDmA^I&S{76AO9Ls4g
zarzaFwJ;#SX4b%GD2j@L-aM-XKRyso2&)4WN2KCVfAc^=q}EYP0|I`T!*ewnyAERs
z{aA{Q$ObzGsL1_pLY~4xw#KT)2Pk-lAuK4<^e6_SSvccC{G0*|DXIks0W~bt<cAoi
z0*j^WBrctg-eFxxc3s?~Gw6Wbps7sOQ!s@p=7R2%9DONk-`>vzNJSo}Xt3Y*^8xr&
z#`EBGTId*yMg;Nws3;Z_Uq%8VTcXJWdr8&`zfFYF#=6Pn!WL33Qz^$($~v`|R1(aI
zc|QFXlKn^}CeMEDz{qn^I%Go~EV}eqJH&lmmEs0|<%+4?%uopR+r-rGQVd54PIMOp
zMmFr}XRi{CIGeO0q>K0^4BZ3T=9`Phnw1S+uUQ#I7BkcbYT1lHE(=g$15CNHgT6J*
zuv}fn$7voZn~BvAS$$RX`;(1(Xh8^-QuZ%s$j<{ChFpo)xLJ~Mw~%w%J$}dh*;sn!
zC28iR^vtW$%&Rvo2m?qrj!TW>HyxSk{;d;Rhwh!aw{~wOHF4^**3{JLpSGnOXH(X*
z>~nc1WY7>roS)w>m-}hg!<xmj-S4NRlq)Iq`}tT91YuL=Wb@@%EG#?x2=swDjs2cV
z9A)&i*)YhaP&A>0WSyiu8jgG*98ApT*l!!LupkzMh2K~csJUoDcD`8fTWktkT#1#+
z$4{~ChC+~)xGfgJ#R8Sso=$SG5+cO(d8XO0&qPX#$XpSc??JXKL7z%67lil%k!h#j
zR|y4`c_3C(6$;G~KcwU)C1k-9$s8b(&Lfg~EZQjf2@=_g@J%qd#Jc#`l=py=zoCSd
z02^|}4%kJnlu$q7Jy<1w$UQ0HEF+KGx;D?<9=qFlXJ*ITl`+qK(cW|4{8{zG_L-Eq
z@$Pdw<{6j=EHA)3(6qU5bM&_B*7S}U8=k>Z{kW%p^F+$tyk(Z`ojd0Ktg*y0{G^ie
zjea)v;Ml{#6Df1cmT8Osarut<1l2eKf5@TP&9k?A(=|S+#&_Q()r{|$4`chZoHBr(
zw(fiU{Wl+a4uPi8yRJKE>JU|&e0-pF^W@Fo?fF|*cFe5=?}j&p(Vl}tn2yoX^`xBh
z`tI|ez4@^BSjyaRcXZ430gxOcB=d&HUSG=W*#fOT1PxfmpV+yszWbf<VRX)>%(b`U
zcQ4&Z?wDr@y7P-p?><EyG~EYG7@n=p4^Hox5rSZ_Sdlw*IAyNC+j7q)HH=~8GUkJs
zS<umV_x!y%sfh^5n5O|ZiNUSATe<Z%Jl;Fz>5O?kbNDFHJ9p0~9XPaOKAJI~2VDPP
z%G|z%k1#+joHror;CRa1bI-YB9-}T$sEBVkW$xH|dB=Q^hQNn09z00Z7Iw@-l+&8E
zR$JV6gHJi!vfW%sP1bnW(va$&$Z~X_IrAmmpPJN?FE<QJCX4IK3#ILr%Irx4%kQw1
zXF9s?xqdvIHR1VjvnOl89Tc^;XG`hH%9U4qS%#+^CdxalRQ6aVG9F*ng!|)zqxbp0
zD9>8(jLMCD*;0B^D&r|vneyh9$~BfQRvC9xMx2qQ3l+=VUzXx22acyFy<AD{-JXY*
z_N=kj;=0R!$>B!j9V{bz3Fr`tQfleny7(oB8<i;;*&2i8(A}}89B$bXv*n!OZpSl@
z?#ddXmE-Ld@6akbfkZBW@JfN8wB3kiO311#mQa~>b)Balcnm5miZKXUwz5kt@M*tT
zDa1umlo27$@WC2GwnGRvakj{1S3&5fPc_Og^NCztSj56IMe<nZqD7U6RgpAbxt>8P
zk((jrELFldMF&b1Cn~}h^Ff}B56NHm7c4~=wNau3Nh?9F|Bdk8qJ&~6p^SxNmjmIr
z_@623T}u9d@*PaKI7b^Fi?bE~D;3dL7qKtddRW;h=ER?)lqAP^3JGLQgW;)_GuZx~
ztNb}PwZl#Q12-daGoN#PpL6a1lN<V+>-?PS_&GQKg{kUu^WZ<2=XT6<|J~g4xV|xE
zc4ca6H_v?GXvkRIAM||WO?90|;73)-=E*0Rj<vU6-6?C?EO}g2Pm|`r6H{5WakBzO
zA7|s;o~@~SucsQPrJ9*dN5*v^W42|?_6$&(tJ#AyYqMBtpO{K(jVZ1gm5kPmq5OXv
Zzfop52Wu$1Vg4CylvtmbSq7VI{|}gQ*OveQ

literal 0
HcmV?d00001

diff --git a/config/__pycache__/speech_to_text.cpython-312.pyc b/config/__pycache__/speech_to_text.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f6045a00734ddbb77707a8e056b02ed4d76a1064
GIT binary patch
literal 1110
zcmZuw&u<(x6t-tPliA&*+aEy!RJvPQ2^N&yNUc;5X$1m_15#9}<uVs*I`$@}p7CIN
z+HAxjhjQZ5TR4^*sCUHwz-3VmAfGBB4!LbuRY;t8-q}P*;KTdzy=Two?~Q+6TWcd&
zl6)h6j1c<WC#Nf32J=rKI7AFFEKz||jC~x)pa|0tBOY=bpidDCpCCq_2hFbM%gv`g
zC6j0nAA59wU5jNl%VlN^Byq0FvDnF%I~FcnCi4=4L&Q;v8A^lCfkPUyASFEFF$=e#
z+Jdj9D?EWbTIO-uTI4IsJW1O;VXgfYgrKY4puEF6e03bK)hFbP<=Uh*SaTQeRh;L$
z_tkyAXFp!B+kd<9wa%<iWq+)6-z>T|tlF^9*Dn;~(hSAH9fVxRWJM)8g?4^?1!%hS
zMYcz?nh8a7DJp7?v4_{yBd%pu(R{ZqA5z0X4JJMW@weUOLX?!3T<=V%sid&<u_&2(
zOpVy*F4o-Ey3GACr^~DFwVV4-9-^<%7pIkfd4_6y55}-Pz<L#Mm;o_dj*UO5|My2D
zTU4V;R2w$aJKS#U)wkY%@8K;zlH$Rrn%G@cjvh%_jGDoX8Xc%r)ax*;CT=~G5@;@O
z>n|qCo&C4|E9>z88m|Kla|z4=deOb~Yj^XP?&eQq+TEHaTXTTX;G9b+Ewh4C>e`fo
z@-=8p-72MD)|p&ZRw!jEr&Pn-k&DJsW!7~m&B{{Q#TX3~TfP{I(&`RG3qf2`X;pD;
zCyqQ&O6m(x`2p#RzTvz#{%tIbe?CTn`5K+XD7x|Dwcf#JPhUAAy;%@My;*|Z=uOG`
z)BK2B@yJ~a(A77m<kfGl9g(XZ`T&s4n^V$%cI|ue-8)C*#w-Y<o3l2G&&>iH-G0XY
zMBwHj04E-3h<Fa$gUGE{6PA@$<ioR9#f|oVfxF<xG;GE+tgVnn6Tln#mwj}0C6{b9
yGTzZWDEME&48hDojPc7h!tefpuFql=B){SIU%~76_6&gmQbEU?<b*)FIPV`^vLRpq

literal 0
HcmV?d00001

diff --git a/config/__pycache__/structured_outputs.cpython-312.pyc b/config/__pycache__/structured_outputs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a654011f35e2fa6a74db59765a9368538d8ada7d
GIT binary patch
literal 3591
zcmahMOKcm*b@szQB~qVQj;vT~N{U5WA_G;09ocOYnTef5RvoLg0s_Ti#T`;BFL#;Q
zr6Q?vVFWH<pqKV!0cipElms?Vx0m+lV}V{s(I|yMf(mGR$c?HH6zHjM_9w}f+XXQ*
zZ|42xeTRSP>WU-ybnzG3Pf`f|odNzA_7?j;gT(`+B9+rok<Gl$Rrw-c6^a7KU_lqF
zp<>8ci+Z>kDMp-iNRL)y#h9}W>+x!$nBWi=)X1yAv6#dO9O2Pbq(<){HTH;i<vsGm
z`g5^soy*3*VY~BLo(gXp>ohW_*_bGLmZPbvsbXDTRdh{NY?HuN3>HdBS1bzvaRKXP
zn8PL0C~K8$h>A+xHfeONLX>J%Av9X41F2EMG-}puT{Ez?(W_S{%O<HR_9Ql7QNpC;
z>E%p<2kid=77q|cMNUOU{>NaWqM-6c5r=SC6)wYR45?x<f};S30yyTt;Q)?1aKwY7
z#RN_Qek_2y95^1}cRTnA4^HA_nOD2+iNzF;a9ZttoO;B$8mdX$183=bVqnkS^`2}m
z9aykQy=2!3R)1KxYjxYY;uvUSw%}V&`ea!vElXfHThR<lvH}VT48=&;85mUp3rY4e
zmatI)^W{hkgwx29Qo4-|^<A1)HA`92v0PSko$b;S{*Gd-%OJ+aR!sp9ycX=Ms%C4Z
zq3Cjrm^Dmn4O<k^G{K5x8k$j&YYMS2p##tF$ThtVYS2DxI6^f;4p3;AV7RkU^33BH
zDFh>P=>DfLJU|t6hqHt86)!9uOmDCmh4XE4zM)ql{@%gtn_T4{^L}`*Fxx!$`FMBu
zO@0Ao1?A5mJ}!CR;@dap-<!WWBP}jt1FvEtDUyLdk;)p@RY|iXMOCpX*(SIEAlD@m
z0Xa4-a59`Jwxq$&k~E{F*BOasI9@9&B}g1g(lrat%K;@|E9EjSfuEUkOJ)^(t}w4i
zkUO>ITs%O%LCjT6#h}@;VlBJE>W21l9qa2792m9+>Vm4e?(t%AV+Hh%cCIkzJP0+(
zEI%(iAaazD%EYX~O+YmeWaV*n2}A4{6;PU41cRL*ilk)?tYkn8D-dgkth2^!0q7D$
zBG?ZWOBli#AJ0-TRImxuo<ND0NXP{U@3JCQx3CIaEnKP-&0dEp6k&$awIwQ4)$dXP
zE=<GNC_yo!v1PobY87nRS%Hcc)Gr$Gd_<#+Oa^R=MJz<ff8NR4)mpx$)h2C)RIoj{
zR=@D(#oHHf9=PXga4FNsuj+a=??y&Gu&pY4X`HLA)1>QOEHeQcqYFW<AE^$x!&o`c
zz?z2PF6s=S)6)IOSAByIF8%7#udRm{KHF>$Pc?_9TEo*%@w2|UcHgaL->p{PNB5&U
zse${ceU<|><QS8cX;#LMWMvf2ovi#TBm=Y`4%!Z?a(6fmZK4&CkstlYckCbskH>iA
zWwk2YE+9lsZF0wD<Nu}w>D)@<sAL8m%3-vUeDPcrZ(jhJZvyvYPB-~gj-0ol1-qXb
zIv(#cq=wbVN{^3sFmLky?EokGn~)EE$^oa|13Z64UWNUBA3B)T7-*6>q)Ge;rxOR5
z{)!B~gj2$~@nK%c!@Qu<b<Go2Ucvt-Zu)iohEvwBD~3|R<Qo<Nqz{ITLCtWQyc863
z$?X6$(nd-eFD;uE<T@(`Kb0squ^~uzvRR(6_YGnG+L#M^%aNYLDxzsXnX>A&nn`S^
zi>#gb&jY9ns^q^AB(J4eIhW;o0n6js)k`?Dit#+dTsBEZS(4_0+vSuc>!5LY-OeK8
z>^`r+Km{EebU>>zrC&g#DOSy4y8;u2CQq2JY5bO=*YP`qn1qTere+WpN`%E7VL_4=
z$S_+oDRjWG_Y15ozx0p{!^-$?FU-o4_oVPDi|m%1jhUB~lmAcq7Ra!^h2bvxHjH97
zxZOmmojALlIQ#g@6S4iqT=R{&*2MM3jSsgcKHN!W+R2$_a^_Fd?MsWzON-BvAMIu?
zwlmk7nQN`g`;F-EZZh3Yo@pk}JiNJ`JiC+bZ>Pta>9NLSp_wlHqjzYhcjAj5wI^qr
zle3M9D;>lYxXeyw?DO&8jyKNFwlY^5X9`aX9f9k4pW7FNzU~eZy1F}Y1bh>(Zzo>=
zV)}QNzr5V|!D93L;#a*x9iHo%I)oT?5GS`2lTSwfIPv?5r{}h(<~+QKBY5fl`w21%
zH=ob;(WopNN)^j8jmt9B$~wHJWSW%akL!x=okV0=HA}MWxRaiI!RE8>dyJ-JSuqUL
zZRHl=r$Go6mrPT4!+}MD6E9?ltyr`XmiT0Z4eaqlSfwRXFnoy|9i3Pp-E5Z)jDz(#
z3_nMEVHCQ~?T+W}UTt)ZwZvS97ee3bMA7MyhS>j0wIybD#JQc3@rF3KRcMLhV6o5#
z-0r!2Lp<|vx+Ug2JP#Z?Vf5NCqbRk+(;m*qSVKIuwa^mB*v9Ey3E+XPet>txiybi?
zI=NNaM=<S;qVOwQXP<>K9sX3P|4HFr2&R1jg-7<-hI<F5dA6Gj!bHRNdJSF!#3?|m
z+t6rj9sVZRTFJ2h?f1c4@OJ}Sg#BrvJua<`*KBxw!F$Pa>_vN=40m%PSGP6YBCN|1
zXbi5|$P8OCpS!sgz3jUB`{XUyW8KU800xLYj@yqSF7-Dw{7*FcH9Ge-%D`gx6xgz`
lC-6gj1D%AR<fA)W{NMaFj_dCrHo}$p1RJ7zB7+@a{{`z{zl;C?

literal 0
HcmV?d00001

diff --git a/config/__pycache__/utils.cpython-312.pyc b/config/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4a883a10407f97272c72e567b76063c76eac12a5
GIT binary patch
literal 8245
zcmb7JYit`=cD_RnA0jDHGG#q1OB%l<(Y7eRqR5Kl)GNuh97lObNw7>^YQz~zBk`3x
zL&;+3g_;_u(hVA=&DPXzQp>1;(6HMWXn%Nt0-K)&`iEMnwK}VGT_iu+f9%pfcDH|e
z&K(X(sah<00p2_Jb?&|Ao_o%B4*$8f)<qyi`5!9Bn+f?AD`s+*K8k<G5pst}BuFGq
zvP8Kc$4X1k!b)q<3Z*s5$813xhhzAtJ?02HV$Ps5Ruim=xq_~kJLryif*#gyi`K^K
zf_3cM9`(lRgY~h7U_)$Qa9_+9^s#nJv@y6JXgQ)yvF2biYjZ|hVy(eej>z@Y0ev;m
z1F^PX8%N?6xgpplAC%i#Vbj5O3z2=2OKyMUerPdH5$upWa)(qacSLxp?lvFngnGN=
zl?7;XM(k2Ov>lQf<ipZF*(M7}NAk%H(AyAkN{!HaMB2|r9|a0cP(M~xZ-#moP&_C%
zu$i@Tw=Bp)#DX;#-va$TRVyBa6<eXrFSlCA6(SwDO{6w?-$Sdh+lNL$g2!3!LFjF-
z^af8z9dMRTwnl@o20NKu5`gB(MT`GXI`FopL=|mOh@|3SO-aO6A(EiN{PpXv3E@OM
zqD%{tsEOgIsH(CW_%B>>%+Kl0QB9`eR8;ocb;oO?<Kv@aS9IHDMUG0kEy4;rD^%U1
zsG%|q-9hDKR1C{VBPl9$K~ZHtuh&j||BaE*(AANlSCNwSQhZT&zCjaOBAkfoj)}#j
z{EkRrQVm;UG#*JnrGcj6ni7*k;TbtR$F>8F!{&xZ<Ekdc!?NxeVn>;PDYmIZDlX~P
za8%XpRMt{79tOcJC;UeC7VVJTAsI4G{G3<=^5GI7T@oZYoS>oxOwwjVO_1Yiipr`W
zMx%mpU_prsVufqMj5rShAxFeiR1@aKXi8QYDKRdUNQmJXV=jyZN`jOKs~T0}(*YM7
zIU0e+$<i4n1w|E7sw@d??9la5L8Q~Em>kyxMN{Qy<Rp-lg-H!~HYv=>iwg+~gG*x=
z!6Z%0D-w{HS`;RyWi2$f0R8Huu%N&(rero~GPx*;z}|2GxqnF#lW^rdCMN@M5(TbR
z4$Z2GcuzR0gn)z}NX#g39F5ANrs75nTBZI;W7F5hUmp{UBbLU)CRAh&BWdi*Tz;~|
z1!HA%5Qr)=A}Ldl*O+k>JhqldMAg0|1(`_1Vv5#h5`{X7b0E3McBF=>lGIL?mIq2o
zd_FM;bfgq=p0N<9^cqwICSYoSO??0oK^s9lR1_BBw*!4zEZLV-lD!(RK-PM1rd~Wh
zF!!R|7geVEl8f3*BHlM2jmG+nE%c?}&8e^v-EK5ceEtWJU=3tTq;P<Eyi3=LP$4=W
z7h`g`q@S>bIN--b^tVjoYGv`wkcXvj)ve(OmL$$>{gBgaW@}~aF!{t1wkRZQx#1<`
zmL+4EMcLn#GM2xzeB8j3TUHpsWvufYJ*eS!S(2dbCq%Ml$SkuIX1h^B5C4U&vWtv0
z!{L!{@fm*BvvVxgZgRJ5TAkUR;;2V!Fl!mxqcWv&0`vEoJ(UvX+jq>rrtLR-Gj^@X
z{5G{d4P@+l?c<M|s@C0e#E!k#_u32Wq_TJWBfH6kaZ=&l@8%lgs^bgZob@3Wws3G$
zw=4_9?@ZGxvc@FUR4)-R44MhFIci`bfqJ8?dhxNNECqzOQG1}82VvDf*j=dE_9TJN
zLYN$hPb+cx5^9J*`p5*lvT0>rjtk5x;46$LwCa@tX$RBNLU-ER%{n8fbdi?M1waXV
zON)g{`-LV)sVN;0VkuQKv?lDnT5k%lWwW6)GvN17L?C(%Dyb1l6O`inpl#UbdI!}l
zYt@~h5S~61q8-@JV}^20JK0D@RZ7-^!Yd$t2YcZL87`u`z+Qw5{jR%_j%3sfVn{;8
zWs#APXbaM;0rr+gbwm9)4*DO+mdJBE@w8;Eo9=_#b<O#fmpAGz=A9R}kDbU3-G6VR
z;q<-t*0_~Jce+09${zaEzxLkJwS2?rEr)w$aNW_qUDuL*aqZk%SI+yy`ZLc@J&%9z
z^_%(DD;srJ^UkYVtw+{|*IWHduWq$<J#Fh>Z|l!H`<K1{xUlZHyzOmV3vGH|$U9%y
z@^w7*b*=ll^3JYh$0O+N-*)d`nf`on)9rueZF=hMTK9J4y=S(Y59Z!|+B>}7JG|LE
zlCK|mcHq$6zSX`J2T;qtyXifacOLuB)wt!Z`{cq$7nTEAE_*cFl<#~k?;I;yEpB^(
zSZwy+{Hl}eJENlhx!*W6!0YzJ)T|uVbQ^M0Ww#J6>ns?BBe7n*3K<w;ZkXIS2s*=B
zt?x2c^9`%q$MqGRmm!rNd@<vMCm9Qx^7Iyy_DjNy90lW1#y#+iz?uUfpo%<?_8g43
z29>Fl1^|sFV%TDAxnwh9qG3sxeUE{0SCUa#NG4QO0bInMni>!$X3(}UiycWtVJf_v
zh^&QY(8!cm0MrFbu$_r?O3|nYk9ZP_xXR2MRReF}-b8qZl3@q|2b2W1WS0CE-2wOk
zY3dFTJ^b+Vv<KKn{g|PYGJ#f6_$zYiDGd%OVBl#l^bNsJJqg(oDSAjl(=xy9-nY`9
zJ@+qeVcT~g+rM^h!`Jh3Pfx)Hy#<hF-_jUG3#Rj$d{f(jsBkfMk%RC74gz<Jt6br1
zwPAyPOkiG!d97%UBuk2etFwx8VBHvxh7j%vN`&b?Tu_K65_75$Rpw+t6p~=UHBfPH
zFw<MQwUdGz06>Mu2CJ(9C-IUO1vNEQLLxD-bS;P@lE6Nh#s`JNAQq=?UN+Lj!;HYY
zvcLul;xy910iaK#(ZqrQM9%b{?gs(839vz=s?Y-jsoY(HeK7SVs%97h7)BKO&-KEM
z3+ke($uWNk?4Yt8WNYDu*%5nSoBlx%C;&NlWG!K!5(6W?#h`4}8~~*VID4i55W%#`
z37P^p2s{%@dk3LpYWbuvd0C9A(3!w}A|N-|lx}86e^2a<T<X1is`vbj56+xC-GA%i
z7>JsM%DP>ZMH-&*TWJ8UO?Q-drrQ{ERJ?T9yrB&Dn@kTGk0``0iJpTouftD03K>H_
zUjNdSZBN}NqaTf~OlP$X&(WokEq8sE&$|!i`GZW#_Li@HAaRFOWUB&kRBn;0C<g#5
z<R|0{%fk{_`jGQm$0pJrGN%XMKj88NLh%_vO~mAqAB12Q_yMopuuVIJ3!b>dY$b3o
zR(bTIFqN7<DS%!ORnQ^|s0Gj>imIl-3QyoAPRXbTa4lIH6#N#(5WVgacv}?RF=o2}
zZX$yXxM{G{i~bnZLO2us9{M5-5OEMb^(C_H7S<X!-CbK=-?pozV6nJ6o^>3~zEiMS
zYK|4HJZfd$X8*t3EQ8B;;QFe$xz|grz{$NJV+G*s1qv&-W8Q;V?ghmp12A$L8fTU=
zoMwKK+4}Nl`NPy80EK;Kqf~Y03P9Z|Sjg?Qs=1?KvclaE2>C<MRsewcs$E#Cc2NeF
z=6Zxw^&%$Nl_C~%mvpL%CSNrRmFliko^!Q&&MX+m-KmNWf}UNeOy}tDqq8S%!6awW
z0TcXL)tw(U`zs~D^*wgESDVRsa0Dth{(E?B?t^+V)>+giyHXt6yLL4~bsF4-j2++w
zSiD<~s`VUI{6jOkE1B!TxjQnpj3wikMU1yAU4Z(>0Ujji<0B;yVofi&P_179^o}N|
z?C*m=i?I>#)+1niD)0cjW>uMvqmR$Dj97x+QweFYWH4qlEvXLn^+_Ul_KF${faBT+
z{%>zo2}6uR?qe%bG`H#YD-6DyXa?d427qUHKHzWCt)dFRED5$t)}3f<7O0ri?GQ15
z9q0})c}awB2yoRzib8~i$F0yKKwWnZVX$aej!*%r6#YTn4hjtppx0cA$4j65$jv0x
zZQ!1#U=hGH7^~5AD_A+*83v6R2e#-A!=;8;jq#!LV*nR*iz4}*458y#H55-svTjYJ
zG@TQ5Zc4YpT#CSvjzXq7Awz~^GW2IHY(0bsDTK_YZ^D2%9N7Uj0q}VpsrP-d_|f9$
zEq6OtJ0CSa^$)K52cMkX@V~Or`Ue}{OHaL**S(j&et+FNx^(qB0M0Y_tzUZXc{bg>
z4AQ^2Q8$ox4m@*tmWBZBH?(G3?zXSCKdtZnh+pQGPh(qK_VnlK-Sleu(b=zFe(-X>
z<NRj*;I^+lE8h2g*>bOC(|4TJ?oO{x-&eoP+{<kG&Xrs4##UpG#y5SZpLrU;tK0vy
zu4BEfBm4f{h1G?-w^na$)b%b~pF4?gJa_2P_*cOP!OhMA@G1O%;eYb}&u;$o=9AfF
z$G1)G%a^}{6(je<U(Vc{+4S{o)weur7nX-s?00HDt@*RDU%5$hN8u1@=qUtPRKhSB
z)vyh{D75v(w;=mduG(lUa}kIF-*#4vZ$<476El8kKK5B22<%D#{48TT>^&}Z7JkL=
zLG~l=Rl=crKyHBcy~Sm?*<A#%`jKT0-Y>jUUxxcD?heP1k6U=MNdDHkz&+p~p2=Xb
z->O>zrzmO;11952g0NKb<}OUjaT#RxVj3)XNQo;Y=Pqy|ng|1cx)>;r_z_H0QPchU
zKgq9`NZxyX^`#Xtcj&9G2VIYc9|k_-R$uxJlgdA7?BueJPCy_K=z)jEoL8Mk>Hr2B
z%UeNy3zH?;-LX9VK6HHsKNVFxthVj;Zg|gs-oJL_^OxXb!+rj#`{KI$VxGTf+#L)n
zC-WYQXr1m5nLyN@V8mXwMgVw2oS0v<LVVUUo=PSYR8y}4;Gh^y*>NXGkBI=@;2q#B
zoq!Jt{}qr2oX%rZvKqa3KshDBv10Hg-C9i>^;Ws-$1tBcD@$bUEZh8;-$oBZtL_Sg
zVhJe~1&3bughKD9#AwOAzl<w~FvI29EXFtb9#%2S!cRrLbelZmyRzX;zRMVfoniQu
zlPQozTyrOTWM1Y=fqR2dHpVEQd6?JGl?<yGss4ZQi{5~xb}%buPy&&QB+|kj^aIr+
z{u-y_zL!WYT;iFX@r+JFD@Bl~^O6$QDC3ljjk`F7JfN6;0Y4QZY`4i4e>y9zoy}R-
z23F&n{Aq(@Y$V3=^qRyxc#jZOR(Av|F}!DmUlDQn9fGI}-Y9(UPNp&dI}G<zMp`(R
zrD~U6ZMsG(*t4QiAkYY*Nyse_GAqr4peJHlma1t0vM7fyGv$yXeY>i)9ClN$Y3?!&
zUMq(z%LpKF4T7J)V@EvOk*%t?yc+D(Ue#V+54;m+)&468$d=*FH8FS!n8V8O#gBPX
z6=oz6PJwX8eeTcEZ+48Oz35?pkuSvsCv|QzUHiIuU+C@7b~s<U(TKfGp%aY~B4ETV
z?K%l=j3!J&kk4PE+aO91Q|Sp956(UW-6#eMSP+ice;UD_+EkMLIRIWC1l=ie+HYrZ
zZaR(qKKKhFEQ1dth01cHyI6pYh3V)pqY_S03XmhjP=bnv1}r!v<3UHEPBFU&KlK@8
zOJwT+c!|wh?Ok_6tD%2w53D;|mt89(+uo*?`D}XAdmN%sHLh*1Z{_k2Gt2Sp>$z*W
z3y<H=d(K0ws>YS~9tYFhDy-Rau8o$n%eC9?=4>rEQjaoEMmGDthvrwlKLMt>K&-WO
zTl+fi^K0+?jVJqq+?%;{E?OYmOD)?i2eUUeT2ADfPv)-ugZ5<P?>~4PD_FUP5w2*3
zS$W@au*~}pZ`HSN)$cFbto!ShM+#1I;#A(*mc90KXLq5Ubo4#%fVj#^|GN8hzWo&D
zrAO!Q)g2+kEfC8*4~M2NWA+kcx)=T}ivl#mKk@?NRG8xP(cR@3Fa+9AHBbz$8PQLC
z8^-0~9qBa~17iQ7lz<!DFnFjG#h;?w(^||hIIr8NJT2d(r|{cr{#z3;f}|{nsy7(3
zLtxkdgW{$rdTM%22n7dyUW&nSI){xez<?kt6DU%satvu<I;tD1h`?EN3c+R~$~<M}
z_A-fM5RTbGL(hkCG!u}Wx=nXpFzm)f`T-0<MWkMb9Il7s{@YHt7rrH~Uy!<A5brnS
z=r76jr{wxKq~n)lV1o>NOZI(3j(tP={=-`T@BE2pEp2&z|FhbL{JtaWwMUm+|K@5~
z@vjYTx&lj%g1wgWt~d$=itLpl76qY+v#$&m2o!7MtjN7x#9HA@4d=@?6$lhL=VRZ4
zTK4(1l@<SFEn-KZ#mlv?K@$`?zKBKPsDra-j}!<LYe$P%6dJo=T`fEG>0*Jv=h{T>
zNKVc5-20;<Rts;zIbT^xgP?M+<b14n+*rgKNT9{{+`@6)D+AcjU9>_&0UMq>Iqpoh
k=Q*^VDL5P8ySqT3$VrdSKCwO?co1jRubZD^D>DuM3twQpw*UYD

literal 0
HcmV?d00001

diff --git a/config/__pycache__/vllm.cpython-312.pyc b/config/__pycache__/vllm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1d8644d9405f35256a2c869e6c55978573993b60
GIT binary patch
literal 48524
zcmch=32+-(dM20vK@ucD0wlrvO5OwyP$WfCq(n))bW)T`qNFPJ0YOYi0tJxl1SpkY
z%9h&YZB?{qTIH*%x7*Vi+q0{7*M>EA?^-kCh?TeP+1{OrT_j0uva(gSdZ&8riiwz|
zO69S8cOz!M|K$Zz36-j+Vi08J%Xj|o`rrTl_y7O<Hw6Xx9DY&9HzV);8;<*T^r8P;
zn&WwX7RSBIo#g~hutm8!^=+H8v2XjFoxQW>ve?@(=V0&bxoq~%nag4C+__x5?NMhe
zZ!XV9d1OWNW3D+Db33B$n0wC6+}Y8BSm9hDbLT`oG4Gt0xpSjMvEsSnSjk*T%s1zY
zmCltie_OO{t_=A(qvf%Rxr$ijTxG0ku8M`_MXO^qb2VDL+F0FO9dqYL>tp;J&)lwP
zL#%PGG1fHK#J=6p=2**I3v(AlTVri=ZEzO~o@jf_Kj&v|Z?q%UIoBEMn(K;n&vi4u
zqG%x2GuOl1#nD}{-nm}pE{XQV`sezY+ZWv(8<-nl?$YRBY-nzXxyzz^V#9O8%v~NG
ziS3=+%iI;weX-HGQRc3U?vEXqJHXsk(SxzExiRLhj*iDB<|dfCCOR3Lnww(o+UTL!
z;km=HBXdV=T)0>)K^xUYkH(J89YZ)L)JKoUrst-an~$D|&CJc%xW$}s$=osgPvd{a
z&V`%8Cx2j5N5b5x@Dcdb;J-p>c)wBif4@n0*}21<(EJuBwEV!Xrul(3i1hc|Yl1Cw
zI*eyBm*c``gw}nC0l(SsS;Mc5{K9#8oX{_{Bd%W$yW|i$-pV%eItNG!g~Inc_40+T
zw>Ts8ywDwf?UG#xyycjC9Wi}Ej~;LC4dlI><-IFB7k;CXVCW5hDSVc>7;H%W<?z|?
z8<*_lcgZRAy_G%pl^Ztyz{mLJX8bm#aDHhq5q>if3oV8&hei10is9vGXg&<5QwSx(
ziAapxc~NmCI3Jq7LLZJ(p~MxxLn)Yj<J44e;>gs*@uM?`m8`MF8%pl%jpgvUkf=B>
zhZDh&cscIRQt~I37B59EPe$ewO7@{hI4UTf*pd*A2Cs#p5frmTMd!g0nvaI!aeR2D
zLYJfA6BLPZjQj0MRd_LUF&YjgM8Frkw6Zv#h%7Avs%TVkMHVB8V07uSS_^L^9u!v=
zLy_Rp#f9LC7(tFMF|;Tw#eyp<5#eJR5ac&ORZ^h?oJA8$vE@iKMER<oiYLvBpiv4Y
z&Q6XU7DLNd=o5LkC&Skw^Li#W#XB`Ii=yI}!lITj+WGjoscYfIMBMQ49zXX&to-Sv
zkYL2X*Xc3i%f*_)_$)bjF&-ALg)T;-k;DzdyYN&<M013rhL7hADk!W((|{>DvmBmZ
zp;}%up)Nm@5Lf0CD`HqUxsq63F+jB|?lUXP%S&P+ek2sXqU6l8zC^{nr^GP&BC;4Z
zfi8Y+CA64`B-5G@F$<2LOKa#^_>_mlixDIiZv+$6y+J^|bUiHiZDJd`W}XJ9{&Q-M
z=l=($<hxv$Bg8#t2RgUSWno%41pE70#>B`D=Y(?w2Ti~{jzYuE_p^=Ays#6YIccH!
zX`!xgK0<TTLfvVh1z|TrooS(kX`!BQAwu)gLcM9BMPV;O^VLwnK35zr5$p_s<O(js
z*B34|eBEg|m8IoW9xg*p1!<ubX`z+j3WOFKIaY<MjT}8`X=>8a)P`%2#%rXh3)dTI
ziVR;q++g??8@`R<Cd0QRE&t}U{9D4!;a07#J}qVGTwAyurIu;m<>7W9x(XmVzfc+O
z5X!?HK$TVa?i2z-HQrs}Zov`G5%R-cgle_Alq1x<<uDLtAVZwmv^YILoIOHac$ZKg
z?hUsybjf-`C>J>7#{)_Bq09!9*)KG{#m(&&n!>#(vlkFG!*@Vvf$yNu3K;D|8+?X@
zcKGZ;oME*!;O~e32#`HDw-=*upV0Y!mp%%GT|##nM58zC{$3^jTr?U}r)}~dP3oAC
zzkVe$e}%`KOJJhKc}x@j8X|U!VNBq#Kq0`aD<Ye40e<#MB%aUX7mvi2qmfIIaGYNT
zMvW|9=0oDr%A&w0u7r6Z5>G^cKes23^N~dsJP*uvF%%C6SXQ)9<O<<Sp_OPtamNTH
z2Mr|P(E@^(Li0f5HxxHpCA0{NXIVo?x`#Ke<0IXtKw$V&|8zxx1k*mmkp58|H}RJ4
zR~a|ZR&YthTY8XhDIG=XzV5FPg3`Z==S_rf_+7n5OAJHcx}O(*VTQnUpW^WR3$cnq
zf)Js#BcwNw!qLhUPlOh+VnqZc2N-ijT%6bF5r)`u@C1FzJ^!sdLT{J3n>PI01siBh
zE@r!#W#d-u3)w90w#TZ0^bmtvpnP`x#EuLpEn_dB{GC62YUx84^i`2{p2Bu$7*)PK
zx0gU;5&H{;#=RX9`g#d87O}rjXbL|UG#0VHP-wiL3mS{qUnn%ip9>m`*k33#J_~4G
zw;unPfflh}4I1kl6Xkm8$lGcZROsR6Tc4-;`<3Twm6?a`ddUp2i2Z6ceMRh1qr+gn
zUjmIq>@N@+Yuw8%)S0m9u2(A+y~*n-%(rOEBP`x%`sl8g)Z8NWtHJP!{m`t#V7^}h
zjYaG)6q;5O3f=V*Xe?rXq0qGJFqm)g8;MT+3w>!3<4xO5N1{uQqw^TVqlq5fZ(*12
zGT(`Q-Mz3|cbV^1hu{FYt??@shRhJ%rLW>b&ilDWykR}meCzRUW-oeI9WQIGo7vVl
zYt`6ly&~qZSyDE36Mub1%a}OQrl<KLT0n3Lc~#uaoYkB&oIgMGV-RflL{`)9{MhLk
z@H<BM^H;))pbAAk#4m=g^B}gP0v`d9E(oB^6HB0_@uiZ=T}JZoVjR0{goP4(1b;+z
z&qr4%iAH{_q;#B*f=cHjmyDE%9lCTWJfDbbRC)~ibVm5|mx&<}$Ty;%5|^$;gfJkx
zf=#<x*vew$Yb)XC4ITm5qqDsM?I&nMpaQ9G9jJ~BI<+tsZjjmh(j_f{QMgek1A@OK
zF2zt2fQEwNJ>l5JFv#M?%K(~MB#d?ffy`ftpp_PR(8h^yJgs%!q_$w&mBkxqKkQpB
zhA%Cl!7Q@`O9yR|2#W>~8A?#MGE_B@CJMGRu3!*-7bg}{P;tyGEry9PkrxN2BX~7@
zBYp^9o|Sl5K<RNXOhhnRW<DlL)nBVPXcHz*;zP*^EiZ=`1(9Yjc0brqtR%ugYId;~
zUSc0TXab8gcf|pE4C0|=p;48xSm@2*;z}%dF_fU4Q82M|6(dBXSuF0M2hCG)gdTh8
zK^taqKRpiMq2x!fw^KJ5ibEg<TP_tHja*c+V#0vpScoqzD%rwHY&ovvgcoURr{rA;
zzbQm6hvNx<uHuM?qnDIiZO|!hs+qQ%i?bT41(m(9xnXrwoK##8Rf&Tg%25O3_x}v_
zBx1`w%aP^o1bBeqME9F3L&JNn4uyLFS<f<hc4@JPO6pNZ9&-nlZ-~c{NwWMLLMGVG
zHjv(+Zz3>$51XZ1+*Sow$KT1_%Hf(??zlg6Ha~UxWM{SHtbXtKhO>Rs<&j-AYp$A2
zcZKY(m)!OD95UZ4@x3y?U*h+#^9LWh$DSI2IUDY_UpP(unyY?WIlCo(x6F@8{Mb4_
z@z_0SQ4YW6;<u$4koW<aAD8&?b$;@(d&(kB?V780Tbe$J@00lh5`SQwAA9T`w@6dH
z=BnP7W|ze8lKD}IA6@4UJa!-a+-Wx42e+JDL8aQPe~@)=Qf?lWnuq1)Q&RJ(b^f)-
z?$Z{THm<oEw*fLF@k25{De;r*{GrG0!xm}$YcBt`G}Lu6e_Y~^uk$A!yJvQ!F^0gT
zTr(im49GR(QqA~!&E$r2Dy?_D%>9c1^j|7X!<wt%iKp^@LhhN8dZtoU`0M<O#D-`3
ziGSB0Re!(wiLc__WA7YG)$e*Zx#1g=eMcnUk#*m(&1V0n*;yUMf1ksZ)V$;W&CX}J
zTv6LrKG(5V_8*q~hu8f_Q{GmiQB(ZjWB1U`X7qfk@a@98s~gVdk4mcE-TThoCvMN(
z+;2{+UB2#acrfs3mfe^CH~A%R`@h+FcmA%pm2LM`-*I9-dMoaDo@1f{H!++Rj7O5;
zd5t<De{f|rjt3#ccZupH-yOe&^b}gys*TunXSna%X8d-B4wdqYaiGlLGFx+lYz1Nk
zBK#cUieJGaPFVr*e+e(82vLJT>B0FGA;jV*Ytqoo3!xj7K{X!0Ir*H|Cwp2YPpj<N
zFM0MqOiG?(Dd#cq%Lw1b)FE8Rm^!;r_PbmHpX$%5T6b+?Zo**jSTS-8!pxS?x#8S`
z71N|ZFUNeZ+7cf9Yr$gsuIH^2hBs}3En%>N7A&^ddW!GhI5bge<Xxt_%y(MMtOWHP
z`z=^(AJbwwem8faR*!4Gg=`_mfYJVow1WWdJqDY_#_c=Y@7h=GKX9m}-ONg>KW{>y
zyFR1rCOw|{Hd%E--uwA_Eo@w(MUP{~uyHqBH(Y*q@{U2%oCzoRm1SN(^5VgsoF~c%
z!&oK8Rzwjb9o%9#B$&ih<Pxu*nF;*0NQgzfaBh0~L~s@-OH;u^XJ;m6kDi>lfLPZe
z;?iP_GPxEKBXrJYQcMbOk%-NqWpQaf9FGSTXHYF0lvFU32qql?oW&_NUa<wmqo`xD
zkQV!HomA;2Qp*{B69jH>>FSKXL~#IwxKd(Kkm5{)W6PH!(Xf&aN`gLwh^W|?;)-J#
z2azCgmLiKvF2ab@%^V=xL?wrOz;w-1K|_NndGG=s7S$AKzA0IYOV>r}b#aV7ow3l>
zFfvCbcrJ!wVX+AQeh0%PN-k)cAeHSTXed~5qMATHi7Ro+g-9P2%d})Zt7HwQf|T5q
zhIw8o#ZOR5d<~CV+^6}R+bg@8)?H0c%If4Yzf|U5FYCN>_@lClcQ3zl`Q7L{(R)Mh
zAO540-#@wDHM(B5|IXp3#eF~Q`_tinKKv(pA9QaPSABO_t`11mf%WQLsjA)wz8_xs
z)962s{>fr$VCvEAR+g>kxb1HWOW(eHcmBQp^}_nCT&|$>QzutZ_3rg|uD`qb&g!PO
zeA8RDS<K(_$ql_yLvM=jOL_Y@y%o>%vMUPj9QoAE6?ndN{O#l4wSO=7+qvKKeA{#1
zxn9xx5H!x%6L;&qHy^uqZPjz`W)+F1V|_wG42k}4*nYi><35ceZfE>%ZL%Vc@w>f_
zIF4vm%t2gpJGYv(%B|Y;>2}kBJ*&%zY&dk(gFS8b?Nh7S3l>P!h=Uy=cE$!mH8L?y
z?XRK+Vt0bZ4f_e%Ksgq$0(pK$PKc4anuDkFcXNNBofv%GhSE#)yv?@(UoJ}Xnf|(K
zHTN1$R!yj^W1+0PjL_z<<^oL``+Ek7vHRA`;b=8~311RD=QzXN$nv|AHHU%KXt%~r
zWV9n=Z6g|Bo3!uaj2ZhbLTy0^B_x3EVssegrCFSQj+3mI-I-4;j4g)1C->3@dvPhj
z$JIk@?6P-a&BLe82KW;YAc(ER`1#PXcBnqWC(8o-goawv{S{jv*<qdUwz}vr_yW9k
zgpSe$cHTY0`wJ9?69an9;^Hr(6&3Y>N^1_Ko6u%JJ#!1ciCrkp*tAbNCku;#>*2`d
zD~aGrA`*>@zd|{bQuFACYDRUG9FR$o#e`B!!LbMlPUuy|;bSPe5}p#pB~huMaHF+?
zIMxfQFk=@<uq!38(2a}X;L0+|hv?^F*$hU%lWl|5O)gc3LBw{i=t`r!U}9yN(7EZO
zc+C>k(&9wu5JIJ&ic~9tM#pRIqm`a)O2ea>B0WQXaS!IvE$;8~xxC#^UFEW?S#mX}
zT)RGWpZjTb=l$u2o$J+y?o4mi_sI2AQvK9={o$0m=BcMX<>}n4?UrkIOSQY#YX|S<
zZ<f^Fa~pfFwUV(XRn41KeGm4@{nJwabgJ*f7H6NawLNX?m)j0WZHLy|j-*<TZgI9_
zww}$N;rr2t4O_Wcm7~wIva8Fsxa`uhEjPz^$@P;`{p5Q6A(Xr6sg^wrlBXf%AC^4B
zPs;es@+P_5FO~aKWgW<>vu?AlL#`W=>V{Iads2I*H_O{nW$mEFOFN!tIm(N-I7d-2
z$X42|bxH27`(Kv34@lhyu!q|$sZY7<H$5dU;$2!A8Qvudn&Dk8iWA9%ft#&(cEGlF
zE7En9({Y!HiNRB|&!~JDhvJxD!oI&7MTy_S17b(v@G|-Nv(g6BI|zysP{wE|&omes
z(*{F^IK>zSabm;X;+{LXJRjCHZ<XxnlRSN!?#erp-#YR3iTAqJ-EH@)pJ&;<`RL2M
zeAZClom|q#d_hQ@zY<A+AqR$De4e1we}wQ^6aE1l*y7l4*CaF)&T&?I05pyke$%#U
zU$q5|#{P_SmPffpURkTQ)vO>v!+r^4`NP7P^}ew*vJQdl4e_x2IU+T-_#5>2ZF-Qe
z_*?X#j5KOU^)SMB&_9LOBZ(_Pqp6aWX??Oi2;z)foJd5rzj9ZmT+L4^YQ9(S?Sgxe
z^@?40j&8R0-#NPBZu+Ra`rVuF+`Km{w+u=xgX`r(cifu|9e3Ot&bp60Wp@+zyEZ&S
zDd*6OyD?)xSD{ru&xRB1dfP4A4V(3%c*~QZeIEPi3-Bsu_8d~_!D;UWV+Ut?q8$4z
zm)Sdl!2riH%Pm+PNLw5TW{7FA=S!kRZenZ*SyypLA&v_U>ly})ec-BH$fi`QSxJl`
zkW!XJjTPy!U_~T2gd8FFyGAW>SkMD#oD7<dOhiaJG#VV)LjG#D;QFrJ8lIrBM;6=}
zVi;`;!N`K-##y$i@jIpScoK&Z_$A24EG>6O!S#>oJagjOr;Tot2Y;FtX3!qjyFliE
z3Nf~Cv`JH0_)C{A(K1eZxj42qcq1D4=lQhg(JxJGjwfEX$}J^y!$_wWzzogLFNu_2
z^oF^An@Ntpv9!X+R&bnvVt5F%m<2O#3B-)Ri{I{lF*FZOG&|5hqJWaK$Rq}pl9L9|
zV9_oD`z?tP4CR9=LboeL$mik>aP@=BVKE3vnyX47ak%G~SArL#OY>K;y^6+|n2=ID
zeL}CIn$x-7S-(A5q=jP_3Gq%!nXJ;ih+%GcGw79EDsc%isRfMXu9RBVL}i^5XF)06
z9)UPi;x`b$nDvS;0S-JkM274Vg)3#?W{0DYcHH6bMqcO^6?~;K{VNF3T2p>0N2Qn;
zwBk}U3`EOVRQIUhe@bAvshN-gwOL&J4tW*g^YTTbCF3OJ!$yWi6V(Qnm#~Ru;;)Fh
zLvShCo;EUH8ncVga6KMC!)~s%Lq)Q3%e2%oopR%^A>}%|=`IF?k9M7nlB+T0>Uh#R
zxZb+w&Lq(D)5cc0v0rNJmm3dBjUZp}SC?{~d{SJq>7B(YT2hErw4ji9$3?Q6m)yMU
z9+2Dvn}x-4VWU*oC>IV(g~QLXYy~4*SzKNz=oWXwy(4R`uFd`<cP3?bljLsNaPQjW
z`yN~dBluB`#GgpHYqcCHRCbR_?oru2DY+*%TZew!D|t`+T^5y^!xc8&i>wv&Z1x{c
z&#SiQL6=m!|IW<Q7XM~o-?QwjF<YS-VHAzgx%-YocGgSI`p3?;7Z(@m5w_I-Ef`DR
z!1D6)1zTSzzQetpwp6^$Ef`A)^3#5LTpQwAEgQFwS^Hb<auL%&b$b4sL7QbN!D^?A
zoGg|Uo#bFSSuhQML6|J|vbS3RfrY=-LSx-N+hDcWt=`&eo$hu|!eCumu_&!m!Plz2
zGy)H!z~~pmG~8w%Surd@B!U}q4OBVO@Mc`ywa}=$%(wU(8S-y7<LE9B29v-_u0)&R
z<Ir2}>o(*AvSH`%_G{Mu3mrRSa$JJwefCQPbeEn#I2GyTrg0oH<iAVL!F+GaAxF;{
z#FRb$ep;P!S8a^HV#qGCy76W{y349PZ++wQwrAXJU4z?gi9VwwIw0Qh6Y}&LK-VQ7
zdGI?T;4^4&oEG<@mhGRBqs!cly;7b<0>S>$a)kn+khGPE_lCF@WbW;-bsh_JyuITm
zp0v(mfeyfT{1W?hkA;J}%X~AUvVApcVZ!v&T{?ypJS<jeTB}Xzam=^iHTwb39Wq07
z*TNCqWxj8PtZQ<6(At0Dn3-00f!v$c-3v3i%Y0iy6EtS_VtrcrQ)W8d^;zi?XY`nN
zxJx#n=q;yEJZbPe^;QwTX`Ro)te)C@3ni?@Ph?18(T*>#!Bt31h^-lNBRXrxZ{dv{
z9{3b|dQGq)p;gAJhhH_XQZug%InBKY!2+Em?)Zt-Z0=dXVv$3TcI)hi5g*ds=35`}
zckN<F2DmPov31w2OBv$6yq_#aD(iJVA?P_TT+&_U+q$e^uO0)V*-ZcHquEGro&SPG
zy%%U_v*V|?p!k0yAFK7+V%M*&rvsmXU&_oelUBp%4gm0JU4yh1`lpEDd@<ea-?sK&
zShR@yS<se$VbErxW0zlqO5FV!ZCLR|L1o=iw`11+R#;m+p9X9E#kvTUmazT;BU&f`
zR2CQ_XsoQ4GmV+OI$VoILRN-cj5QbGzof@E-};OI*8I<(nO1v;RkJMJB_0AS?fRGb
zX1fCm{{=c5+40li-bO7}>3#BbTUzf~Q3KU_OdDzKH~^2ujDv7TCQ8O)&WSgybFrGA
z3%7Pu2cPT=vjk_DzxraBUR$Att(8SMNwiu6Yt33EeofCM162Q&9&WycI>G$|+7IIw
zU&~NNy;;WMqYQal&HX<FjmeXS_{|)gB<3vqBek6Lr*&?6c?jjxW2^4qVcjpS$B7BP
z<0mv&r(gKTJ0jv!KXuMT3oj6VeaBB|WUJ#)f|%{>x9~f<%X}|<+jQ$Lp-Hcy(9C)_
zoszZMQMBmsGws&}+luW?n^=}9eBr;=%QoLPb5|Ylebzm2yUf~u!J?nzRT<jZz-DHd
zLjDS*yjFALUs`oca$f<n`KB|i7cH>vs?)6duU9%U@2CtRB!*pivrOF;oY7r?*8*?d
zE@Hbii;&=nw3Poucbo6qW606Mf8m}PM|X*x)}>qZQ2evTMXT91))3sDwDw>4JslqN
zEwr(*NbtR4T|N`Ob`w6(xBtv6OLx7!ou~Er=(FDhq*f{Z8$EaPjhGhwx^Ul&p}VeD
zVP~@I)#JZ949OhqSqcbe#0QUYg8$Xa0M~=4|5vOlVs}FFL#q(uk-TC`^?)f}g0d{u
z<lDJ`x@%j$7Br02o;qzWXv{&qy*Z9yQNkfsx#`83(T#m9!*y0^=F%c-&V{eO=qLVB
zhBDuOG47kTcq0S=|40wXkn({ZZoc&yp!WRDJfyVh4P)<brc`$!ar<gsd`{@jP@={D
z796?%+?{nmhZ;0u4a&C*J&QJB*UkJiTx~^T^{%FgOJc_ViCG)nrFW?Kw;5{mdG~c+
zLOvFh-0e(s+z)j~%y)eFbHMVaW;)%a*J&F*v}&I|vt2(&iT^?`$9(H0ic=Z#Ibz1u
zU7tM*<8_$f{TXt!=ob>i)gj4<Xa1#LzWEl3$7VGP{>+S{yKcHxUBd2bT-*iN23B3b
zZiBy@wXIZ(-e0il<yOX-v4|ZsFve$$@1bq|=g?s^-|^za|EPcIFha_4PZjoarl<jG
z&+D<w_rfF7t-J2p;yA=#_>ul?zV+PWnR&ez^w=oxFLby0zTKKuTPvz_*sN_vesX#l
z7E}Xhs!W{d^pqBTa{DbnZQ;N0ugx0huG@=<+pd3^@7rD0{x98K7JoLxi-U<D>!mFG
zue!^8$3LrOM?PoETCH;b)+|qViA0CKV%&xQT~B4c^)a;|nSQ!U53?>Icu9|!)-r3l
zpZUHmCLZfwFOR9W&@T$-O&WKv*cM{hXUv4Xt8R0LxSAnnvke&6ecxNon+1@wE6`hx
zQT|pCS*+nV3x(0uLagLPtA&>P{{4FUFe*sa+thsPr9wf$=0A`eJQo%tmu?thFd^t@
zGIL&hEBVDC+fV8QB<;nAVP=bmfCl7MXJBW`9$QwjppL2(K|mr5LHlSh8iGA9go~vp
zFnM?^eq(W-*KEa*c#I~+djsMtq!9>F6sRbunOn<c@ca4RK=KVuem8ofiw{}kxwHs<
zSVQzw&2MV#@bpyAiP=;9)d=KYpzxYzc!n3kP@x1w$^Ywx{7A6))e=*6G|h}I{vtGG
zVUUN}Hq-Q&1d%DVs!E}wv*HRf+4C7Ov?elZqY661J03}_sCvSXMhftdy@fOr69sx{
zxrajWXgK*xFKfc|_KWiuV#^o0_zUP+ywDgIUg+Kn%=C~LL7gE^rAstJx{Apfscmrs
zvP$z;mH^>}r2Rr5nRwY?Fl);OnpIEn1WM*X!sM#1N1zCO(P(8Ma47lvFBH2o5)#aZ
zplYJ2ac`G0XW)={`-PVH%WKWIvsT>JcqHp()p|6^j4JyBvrOhnyoovEw|`6$Bp+wf
z{Q13Es4HXEs8ZlKJY)h*m^makCM=~3#PcM9mgw)}W1&QBB?=Q#OZ@dE@v31h3gagl
ziA7XJ^Dh1x^oKA{&|D-+))one!)=;w_OckBhdMHZ<Y?s0Us+j%HVqG7sLMdj917G3
zx{CQ8j>ZGq)a8g@*pL6`w3+*D+i}ju#5BKB18xo^9p1KE9I04}(O$Ftj_qBWjr;XF
z2X}+}@3OAj#2~WNwFUF%Ap-{+fJ@6{me3y9rP$(32ul+!zNHG9=k2=;&Hgu+#r?_7
zbOEX~394XV9}_~0?++M}ACU}I6N>wXzvcen7MCiV{qvI#zjo(q?>Xd(9;u>7t{9Oj
zMm9Vne}3}kOkVa^8(VBJY?uWte8sT{4Rpl`i~}=#OQJ}d0`Y&qBl*jdgmRdUKG|x7
zJulV9AKyMXamv39m8jOj&|@$uumek8T0tL>?LyU7Ks>;og!;P}VZw)oE@Y6z_(@U!
z)X}Mlsq;tAOa+qXPAx4#?(H(qMEqYIKa{bN!RN^Lt5ZxHUF>Ek6=oE^;QU)BbPZ2x
zBMs9DJZzw$tT5TTWF;p57<dk?stwbnWthCwwNYpsA3w*(uRtfxT!eNuEyMX(UR31I
zi{Y=WL};R6x?x5nc<6{lV6%ZTWA+x9hCf+$!wPmOz3j`d$f)++3kjiV7h8tD3`-kG
zM!LJNUhCH2>ZVM(^$M89UkNQj$Df2&S<7M>K;N>dsRFhL)jfv&(BF_rjY7)NXoh&`
z8fuK*R2;C#nMj^GNh@U|xf}UqZ9r(42sPa?*9m<wc;19U4P@jOFYnblfSQp+H3Lc>
zY;+R(3`LV)WtnT;zru{wsUds_`hKugfhuTa{USv{WvJxD+3DG%Cr(a|O$Sd;9X@(y
z_VgRcuUHO1AWahK4+|r@OfJ?n%}9f4KS6}JC5$|1rW!8LbkPEMs0CgIz0=+j_bc`1
zA@vIp*h5QX2voNWcNmyOwbrN9Fm1>4Cr=-rIvr#Ho;rPUB6wnI_Q=UeB|E+xy1tnF
zx|R!#;j37_Ndg&0J+5KZiN{yay=<XDuM(~$#0{Gk0sbh67Fb?@o(-j=fq;gG9I^;%
zM-?>Y+g?_B8<o<=AZQCDFJKNZd0k#Lf(KKAVGJvEx!&H-R2(gY8g&ymi{-JqTm4dp
z=$qZzkWkx=shR@&0gEKRX;qFsal434q6O8kAV_6_(q#4zQF%bTymApnQ^?*)I2Jeo
zIt}#ccGIf?P0f<TbjkLsX4VgB8I^^%8X=H$jgzc06EJR1&ia7_mR4Zj1w_JSOcs!>
zC?&K=v<2on44NP*4SOMS4Qn6~rx$PV!u&GH^Qt95`6?`e^tu*SWv<(kc7GswfCx?2
zhcAr`YF2MrWBn)D@<1}LTa3kni_ncr=5-oQ@8k_AsG>zM2$)U6q)#V-j0GeTk0r01
z0rVKXnEBeW0^fA{fJPNacvbkD*Yj5e#?`6X64wOW8C4LCTqPSbs3+?Yv=CMqD6J)L
z&j6Z8cs_hRf-zw%7z`n)gdpLD`A~cwdTr*!5Af%SdbmWGlgLCiY8dj?5&<_r&pCuZ
z7*OG1^_MUxI^%_$;z=0FHSGH`oS4?BX+an`;Q*T*6DLocIyyb2*46-7T_i2)f|BDr
znT+W&>&GIGVwEo@y{7OoWY@1_w*#~`e?uwL{H{P%fHbI=RxV!wW=Td)MCQdMRwLFZ
zsuCiabvwOHv*E>D)nTX>wj*O&fBN*6gm8a=PyXW<h7}_LFGb#@nqcl~NxC%}ebk~r
z%z=#YUVs2|gsFj}KMDRx06K-OmPQsPcTKXbkmXoV`(bkYB*Cm>7?D`yp;gdcAbJ-m
z9h4jRD>p8Jwt-56hPX5f*9OUcfi0lAxO}&YMlMjkr0l@#sH#*h3?i>!b`Yq*<-oJZ
z3E$WiGD;Yu4+OD>h2t=0O#oa66}NQV9K(bpPK06?L#7u)(X`VcR2m{eJse#^0hBQT
ztt%9C>AN-f(E2Uv3n7)0sgktDBX7{)dNzcNpxjQ0nDwb0p{RBU0T-F|Z35xK8Qtdd
zi81V6K*7VxGy08mM2t*(uJ!gXGqKAz0?Cb8?A~cnLQdN722lZ23FEV9B&J}ZE$tey
z!02bQMN}k6?W|SHSPZnj3-IR9h$OK10KckMY1xQX#{>3aU2JDU8Ks*wVDouwdivyf
zSS&v~b9`ztIDK*g<iObM>`d_d(b*%xBX5kKJ~|mZel9pM2CL?y;2%s+u=S;z_LXEY
z3-~>JaRnPI*i!<=#8Qt6FR6qynX>{+tf0xM@w116lV?wy3Z5F9JwiyUB|eXVYW#@R
zTY~@R3Ld|0dzZv>j6l<I`>Tm8{mVLrU}*7)71lAV)XxQO#de1K%)IS7lS-uHG#!w%
z_si54n4-61Mk&&Cl$r96s<Bf7t5K>l5KLaF!7#YxP&I|gf)xlqQT!1K5{b|JeVe*V
z!zAa_JsR^)4t)0R%%Y(GXvaS70<yv;4GOTbhnGBj%G33vr0Tuha&?zf-IWTAZIp~}
zR@bYaa`k?xdjBIKRedbwJNBfs=Dk_DHXzjoQoE)$N)M&QJ1A8jT(2Ha`NlU(DwwiJ
zGQV5ZRll^nCz;=Axc%7kk#&8TmB2Fyn_pu9NvQ#iMuy2ix&%Q_Y*({ps+dZ(7EJ51
zsf>ha2}(%SU~1H22p~*?j5vo?4vmu5v{zLfZ4!x8t&vrvXUa%%J>m$(G4*q6K#*ZC
z&p0?xa8h;B!Kq>#9A@ZD@iNv}&}83<zfXC5gC0Y8C^@QXyyzkyFZoce8TngEj%wLo
z$-N$8C|<lx34fUqmT3f?wgm}l+aU363e3h%dj1NGo2fhw@h$RnYncR>fXG!VLJq31
zQV?DQ=7gnYwmB3@F+_2v(*ZCOcXDQm?aGy0y~clxXyP%7>mvIjTB|7@4KB4Q63a@p
z<`LHjE~Do_a4D4<Q3pe6VARcPhKv|gh1=;4v66}^K6G{(sB302Xl&FKHm7KtZ<;oW
zqg@&EfS@Agfl;VB4fD*@1+=MyzMeXalw$18^xclOKUW+Pw2x9nn;{b>=<t*JvzlMI
zwSQcxFat=(ZRt`Foe*1rO*&r?3vOC|q-z&f%CXL9yIa_zgMypZtx6t<66znA4{&SS
zP<DfWl1=vqh|Ky6!yP0-rFgC}^9e9q9zk1%qT;_I-zw4yN99njAXP@MCpK?N&C9lW
zuz*0=UvZ}^ev2{6Ggn({lq_Vflxlsg?u{7zkEK_si7qX|T#U+TP`8iFZVt8<Q9&G~
zeDvXL>>AV^my)M#ZBWH>Y+JA~c>y_~uV1p=fHf{-KciGoo5x`wp6Q$tJB(SSxz?-H
zQ2XjkC~X)Tdk7_qny6q~LZyKA@!+)J3I~w>icg=&8vRX(XHlsjG;C1JW_QPxI-OsU
z9&D27O1{>V!o?-UqtT)Uw((Ju)$1jybc4C!(&z@IT%TM!A~1ze#g~Q|i85g$nQ62t
zeV?CbP&{mi1c^YvWP^DkXXs*lDGGi!s`BPCdJQcsDn2VRK_m{Y_=kA-J*vqe?@k1(
z)EYiot#Ee+9c-xBR>g@%i|jy(L2O)M4l*wO2P%ing@VxXJiM_7#BmKXP){)wH#(J2
z2{VvJX6rB0O63amh4i+E`KHBdtcGkU76}c;J$PJD)l>DS%26!{rt?md6`9uUb6DZy
zbp>o`hEaz4rtd|+9sSN?s<!)%W5ZeT)ajO;e#z<IaCSarCLSeMP0H2237u4Tt>mti
z-NTZ5_+hg=G9!)5Y`9ORg&dUJ2Os(5vDc)r*EV3Ikn*aOoRzY3KynT|5ahvQ(%`WT
z=W&*EwdAT!x!PFz8p&OwDyveg!_wg44fm0>@|*AbWdDfdA4&NSJ>ffKenR3WHeoBy
z+aP%x?(LSF`lY6R=)g8WwRD4Ntk&>yb&pitBUevL)zc|w#b)~+SnC*tsR@TaKjmzJ
z;wdTG@{)^}UA=3r-ls&VG)bN&*)t+}MjpPl=GhOEAX|1@Y2Wj#EHd_y1!Es>!$w^S
z#w<$8<&qAmq(d(0l}dX5tl}?v)`w3^C8uGn1PLn-*^rXVk7U98h?DbG=&=v4l^kYq
z9Au#+hoa<^mOU%ve7&qpduhefiuP2w|9&x98|mI=Z3GIv1&vZcqg>E074)YH_9E+|
zQrX)qd7EYLUdg-nVQ9^JzyK~)GWe0V?A^k53aK*3ZJ%aQMV#Eofx8ab+ah^e9(xBr
zDD8WqN3xfWK%uv^<<q=uR^x3EpAL`e$u_)$KXdjYDrp?k@JPA+tXn8g*}HGeyU*w)
z+1n<0+uk4eqtWk=u6g%tdU@G9D0v6hy?Y)WTJw&7<StgtA8y(0MF#<+16sw!hBCD5
zYLi@TDOXQALHS@-9ylZo9FhlS*9K;v^z4^=j!Qkq2|Oz7vA63Z@|%!)CUn0IZx_bB
z+p|uG2Y76_W}nhPqWH46NAmVO7+Ld<ZlbGvoszFp_U)2<yMB05-hD*cePqpdBrSHI
z<n5Ea!;*LSVe4b>m~}|YhL`Ml>Pp?RD<HW7vTOgEYyalVX<ZXqcK1l`o((tVMz!o3
zkX!?gT|;PCfTr0)9FRN%DbJ|Usd7n=RMPXq19JaKssH3!$;nT1xXM<!Vvkg@2kPCW
zl`8y?eIuyv{^K@z^rSR;^6sSSz2T!C-k!VcIVyRMZg`GArBU4`m9)tvlTyj#qpz)%
z9C_lal6`HGuMOQ(IZoYES_TVgEaO>ebXLz8<!z$u(pIUoHC5WTSzaxdw@c;ia`~WC
zKA0*We^OB=S9D4hofwO?hiEKTRsq6s+ew=|_PR9ox_+ATxMKfiWvyJ<AyszBm7{Bw
zqpzHFqhh~SJ8kFjz$f>POTFWA@2R!kQ#8(9@3>O1Tk4&9GJHrLJ}wO#qXvWe>C_=}
zyo_&-PwHQfy$7C77+>hwr-T?=BzMbWciTq;<MO~^X&_Diz0W{mvTOI6Yqv2($cCFa
z#0Dhaz=m(=Bf>UWrGA(!B5Z@X_h}(lP@+!@ThRfu7G_00H@GL|Y*X`IhYenRk0pBo
zYo5SneUn_jORC=`*YB6=_sjLirTXJ{-DHrcr0xDbxpP$N99{1`@Mv(Y^XR6pU-pei
z7!C|wp#bzNEYQ`zm(VjAk?Kbt9{;g#qkLvZ?7ySf7~I8Wa#5pH)F>AXtQ8G>=skee
zFKw57<C1Uu(QbKSR+^Yy_npPCBs4|HVZ%F)@mf^=uKOJ~A*E^CQ)&*s<nznELz3^%
zr@3TV$<4-bi{xvOeSMOzFEx06&3FDuMb-E6zn%ZR!fzL*+NRbk4*j@ot>U$hd{ytx
zyfcFqtZe->i|jpB7<lR4EHKlW`|N!|4jhmI2jsw6DM0Y#l|6&Kgf0V1rM%q_n&rL;
zsc%B=JGa(%j`f&^&Lr=?N7<5h>Vt}w=Q&*U$lV-mB)xa&v9}4iRgXN~dyuAdgXC`5
zaPQe18#ll9vjs*Qkeez>rR8hGOB0<iD5XldyLVzxY8bT%_OAK%0#ANx=518dRy3>+
z2kXQPnGLRahuKI|oA%(E@1T)GR#6KY3Ioc`<zbcHB{_FJ@NGB;0S=+7ddXEUyY@-0
zeGk93<~qn)LS16UB<~nQM9or3vx<m5fic5ftPfRC32Sa*TokuT#jSGjgj75M%M+!O
zwx=b&Pq3nuZsq2q<U+2b?ma=S>yheu<hl{5ZX{K^7j`W6`B+}<k`KdZO7cymN)A1`
zh^4UTnC-cTQraCwrCJZGwl2sr#iOD%_c)slWJEUQ32bF&<(;rmg-+O>=Q6k5R?tJH
zFElF~>caB=0lD+A)OmQ#b(m2ks<DfGl6&8Vdq10KWRXKh-pAHl#{fDFW_8_|l)RIl
zaJHfe+mjMlN|MV1Qh7iw-zSytTQ31rQpxyMHmrnUt`N@ML1p}TbhD)Ho*=i5O0A=E
z>k$cmB}dZm!=U6FlzpR;Z}j2S$G&42vV7OGEUvQiX>C7jMwV6s6PH$-_<0l+uB^xE
zjY;6;KwG)|lFPs0>NN0=y7tQ6W0LpShIg8kMID#&^=?+w$Q6F6!Y^0sUjq)NPxW+t
zzf`ebt~f7MoZqN;0~CeqZIUqV?e@|D)&n+OcdjV2l4o|qbB-+oYMb;+<^4bW6?y24
zG<0UI{ETWr4Oz54g;5l(1*WCe=~T-JqI^z*f<o3Q#8e43byRk&xjHth>g1|`R27h`
z_Dfa!?;J-frW%R*0x?A+#8$L-bMK*t-5|e?*lM<rPYr0Tg2EJHco{LKj^E+6lHpC2
zs!=E8Am+7Nxm5GH4exn2bL-bU^-t<MzH{^b>H8rVh9*iArt3g7HcOsn*)zHBnMD8k
zFd_CzC3`nYMxP#;riDYrcT;J@vJV&*xQ`KJIlz6NW;xM%#oSTb3ER#TlzGatYkOX-
z9|>0AE2HmJJf89$LhtL#f66zM)`7!P#qdT2k&7p6ui0qHCamz-ck~G@w5Qf8PhpwY
zk?1Lar4FF<$Q!<+Y15%^&DEDSriLW%knBAuc@M68$7SycSch5no&;hf1f^P+=?B`U
zsizqRd{SQhUCo&IdikJSen2WeuwFhUmrqOO)9d9kca9j%CVK|gJk&EfAv^HYSEDWy
z`P|R}os!yc_kZfh$*X);!MW=<U<973wo9tqC0Fj1D)-(w2CIMfK;Q$-R%!c(t_^Pw
z+AOa?c6Lb4j>pa})f8PJO#iT>Mz&>*Z?myYVnD<=eopq)VDij1$$iT{Z@<jV+rPp?
zss`qcVGs)ucK)o4(=k008`I@Mx_9iq-sph&FyxUXb|#3C&3;y_U;%Mny&PR{5W0O|
z1iX;n6%Baj?KkabP<tExZ`!Y?x%^qGEyCp0adw2rI8b2Mv!fX?90Plwj(t^8FB~h}
zU;%W<4SA_V1k!YLVv<;9y}-BNyp)V->1@7j=c+g?P}vy*c-?(yHIcNYL=uh_Nw!tD
ztyhgs!^I3_cB(*wK<(olX7*Y%Bb*Fm#=_ByH5h$#$eV6v_?1%7g~{>v0njb(Sw2_U
z_B`8Bng7#@*1HZ2_q&2z)*+R3$Ylp4{CN&M>Rt0peuDL*XtSaf>qs7Ui-?bu?#d@R
zIbbj9!x%2AW7LDXOw-QfQx_24GoM<9_Z7={mhB*$jE=ngpMO$|l79Y44Lst+P5!l(
z@odMR*S3u3JGM!f<s*#EhwtWOHUW6oe*5RIK3ebE<Nv3%Q8_C+m<dDj+{$n}%`I4D
z_?H>-v(RiHxwu<RrfGMiBu4s<-$L;Y4}9W^N?-@v*N0;e`XMLlw8UN8@q-mm;_<K_
znW;?61D2Psei_4tbh^@X#WK{WOwYx9-@a~|h=27|y413eLl%oz>AAY3GBmiW_52ft
zHs|NhTQ3796SIIv9U30Rn1UfhSd}IXzqsw!^Hv?ejc(w^Z1`s{)azxNZyhpdL4^dT
zMP4?`ylg@qwXN8?nw?go20dRPFRfS54@m?FhTasc2hqsKPp?N33^r(r+k||UYfXk+
z^ASVM%atJq%lpa}n$^<MpBNkH9kDk<+qb62RozzF7m!`&7CK*yYu-9V`tKtC1ved&
zK*KBtcQ{#_s<fC>x39i>+|?Ym9-hvS!fJfCnpUrbf(+>_pn`r<A+rPSNw>aj+Ra*^
zL%bb7!Mkc)mOz^F)};l33)P=>_<~g}&ZW&#!!}o%pLJ_n<fM<rtH48`BLX@smi3{Y
zcjz(9w-tmK4cd4|%`;eE57Jt}ev6H;!)}?k**cfWs<}n!W-iv@3nbIL<7Z-k8#av^
zaTwGHT>j$F-=bUcb^iG^lDAd`Fd)Ybp$1Ln0dg&nDI^oz>OEl~K~xDSm3$!)5L4RM
z$W1$~gRts|X{hwVg$wG9Ohz<11T*ha;YWGc3vbs?#z11k`3}CXiy!Fi^BZZJ_}(t^
z+)dJ8Ab@n@2=Wn^_&s!g1%x2_1_o7$(-&g&4yNU#M&1sE5zG#oOz7eO?@L<IU*S7h
zYqZ0H=H+nv9so2j*v0Sh`}F`L7iwQM7K^gIEW}2Ry@P(g*-A&%yOAL^1r-N6SJaM5
z*$q|NrSXQBE_sZjKl6Are!(bRS0$hhRqsPnyN$`Mu@t5R8Q%`M8;HfBWRl;3eb=z)
zPrK`F_DUFnT55WdCc^m=6TLI~8WLAx7`|x(f=MGA(4+}Ab<aagKLVqxOu8k`w}%6l
z16>$&s@97i7V%k)2ojZ)H7|{eM=mcyNCpEl0Z}zNwuQKoD%eHRzc>wpfF2}dLf4j5
zIjK|Z9xx_9a|QB(Bz6@xfKqS2V`Cl)1(7H+BRX8S!)wUovQckboOVHncu((eAH?O1
z>|!vJ%EQ!u+}{NPUB6Ttc39O}l~_uk&NyGBTj+V5QD0PLu~dO;l6(poS+Npf(;q_i
zkTD|FCY|brjMWWQI5%Y6qw+##Y<?J-Vc@Zg2OtQ|ghq`mh$?<2KxPpA2MH<|;wLdv
zqbOC>IG#2Trrr$U((mwykvEO;^AHj-1(>%t7G@4L6O?s;OL!RfXC1GXV0J9!1F=;x
zL{h~3FGE>GZI&(wQ8Lkaz{Zkp!$3^V5K?W|X%d>&h$*upXl3NbT7r+?z(9$q)y1{s
zkPBqp00gH_1a)MqC;=EJ{YFH}3t|Gx5TQc_V%V!ez!{?%>MCjNGP9J}(I^m)rc+q#
z#@@ss_<V%Mt199JeKvjW?f?Ko0JC*l+ma%HHuE(>WU3KqF0uKo$%T>dAU1wF-X?8;
z`R&aymLR!R5(7%Z%2c;*667`;mESjtk)UojfjBN0pzc63YP-%y0ZBZu4PsTlEDaH;
zkV2@Lu*P<%b{4)La(%eV4;}uJf(?*Z#@ouK9rFtX&3sI|kO<ugrmFs(KA}wrGbb7V
zX_C4b#jks}Ng1LWwQDh%l2r1vk>U2%(sL#WnGnr$C~V-EJi%Hz91XKek<!H%&5UtF
z0jVpB4cM-KO!UFWw8{Gz+DqKWv>E&OKjD{bQ<aWT2@KJUvNP?Y$wTQv<^X4#3MH)+
zNKGo1&<4bknxQ)Fql(R+?1VJ?;ygr&Fkds5$;1+c<k<{aX;Xrv9?>pogI!zZh)42*
z_@gR6gdl&FdU3!ewa{LAJf#QG<s!*Eihqj-E~$(xszPIKf|G=Uh`ta{P>hf1VPm`y
zS`BbxCS+?IbVH|-&DQQT9?BDn`&aZJE7q#4nZZ|4DorcdW@Q;-@#m^mxEVBsIt(g)
zQ(U-}bwy?D#1&hF0fcK?An777$sv{l32k7m(vJx{i2oiQ$@+8=2MZCW24b;X#sdbo
zPuq->APFbb=7CE8x(|0L8OOhL9{p$C^2oF_GQIAd2A|Yq@sCU1apGjQfy?6UNO^jn
zbnjw0sRt{>qJLO~bF_yOkV6O*r@S4ASl1}m_DQvUa_v#6_UN6NC;qPcUrmjkU-!SB
za<@J$>3&eOR?-Llw92l=$sb%P_?S`#>P>hl&#@=vOnS0Us_v7kk4e?X*2|CoIJ8!N
zQk6@<AsVCvaIl{$KZ)aj`ldhVzn75P_DgO1<+gKD+qw0o^Xql5-*x@89(R}6JBvT4
z?|84_e(1se^}yI~jJ@|us9aGyj$S%RG@z(m_I63$uE*ZMvmA~GU@S#DQjDc~kFR$f
zN0J+9Npd(}fK}$Huk-!HlZx8+LVr+_YB}(zL28+JbY{Kb=#P8XD^4JvU1iTWdudt9
z*NFx~qLQ_e-A1DMRMY4qo76P+s1N6Q+hgam-Y{8P568A2)DKC%A=!6k&3EQ$M?mhF
zl{#iOeVq*Ql(!AC6}t}G;J9yJ^LGAtjQX<rg&t0MamHyJ{nJ6@j{|GI*AWlCnxw}#
zPIFQvGn$A;?PhI*dT)(fds3=BnW{O3Mtse-`|0lSRR6@IUb=;b<UsUmXmF;h^8Pn{
zW1GH4Tqg<Me?AVtPuWZ!wt84--h_z$|F`i?ZyRcJ%2xQ1w?sd0mwgkGZ(<$CPuU2W
zvf(~3?PS4Ws~koP>n8zfL^Q~!1-b07;lMegyvJ@j6BxHm7(O`l+T72MGF7(yUgSjl
zakA1bJBKCb@MGuRpMUZtJBG#2KXKz3CvncdXvja|aQsD=1JA$A%|DUn_{(Ako=O2t
zd{ycdbk#OaI_)Lt|M>+xGF=`*{PYEiwd1$#S{LH8?Fgq&(~8FpPSsXbFTPRANKO%i
zjV=yMFakQU9|#Uh&pD)JZiZ*KUyf4=#lui^euX6Q8KyGomTXQ#Oc`VS_oz#pI4!rh
zr@Dv)u3M>SmMiv36?-3^Sg$yCr(m;Vh)m;?5Y@{~<BuS_OihRTRnp|pt(yo2Pwe`p
zUPOE$!=ZxNl-BuJF=iPfmGX25*-=L<`=&jXLnf@zp$4myx=H<kC1#lRBj(?2GNV|e
zhnjEm+9Tv-+3i-WSunV=e!<)<n6+SuwquBtqh`5LSIm7gn;0UWmA}bgw1!)7>P%np
zkGC;Z&B_}tE7SEq!04r)_#4QdXU=Vpg~n~4>;vpis!3a-Sr1!i(_Q8pEKe<Om^61;
z=Wd!wzd`-No2hk|W%+Ix&KOSk^*D@u_ljv5`_6g<bm;k+Zx}#IGqisLO6)fv3_7C}
zs&tj64j>#-HUFVjRs^Nisp&JpiIX#jjvfx47(1oZA7RQ*W4gpYQ$0EX3HRs((-Bad
zOwR`z2GESHIity=Pe8Xf&bIHQZ>z;DQ1OPQp`kcJxPUHsY*N#Z<xj6Hj)Wqbda(-O
zHofu-bh{0mOToAR)01rjSsIGab>U&UU9(Lo-0lHI{R8MjrEI%*kYvF@izP43E<v3d
zs)Zq~P<Gq=nf@-mEv=|F^{yLiHg=Xrnpivh^t{_tb=J$+rL-mU+i)cywHPkyD^uy%
zEp(E&2f&Gc2ba=7EFjC9`C!{XRmB*l$RqUldrF~eSP(|nPT|yuOch#{O{NRv7qK&j
zaxq=C*YuJ?LIU>3*u#qZsD!^H=t!SP9Hq|zD$teIB<dOC-%x~a(BqqU=oipXeMAFT
zC2Jlx2~wszFPjnn7eq|9rL7+?(^dIbw1j*E*+9w06xD6U9Wr#pUUGN0Tteavsn)@V
z*&7fxbQf=S_UOwAu5dTj9l3l!Dj&e=<0?<lMeD_X@5su_2T9`L<-#Tj_qt3!XkITI
zx|6l(D!g-G)9sPn?UK9wzHh@FNE2{tU31~$>rVA{m`Af4?qg|zB!F^%Zp}6HGxzIH
z-R-h_OmdGsYTj@k{>W9V!+LLN!!@|E_jsC6ai`?&#9i3?@<D)*a7n%7sh2&SlBe_j
zwKdOxCV)jEWD_Jy2+GFE?K;S$D0s=sLj-gaG<;EmRMa3BbxTDg3^G{wjLRx6gb+q~
z1Eg2V`KNrd%&Ql-@00j_srpe|{<j~O|2688Ndr>dK&o~Sv|Q;PQ#@}g57}&$0J@ZG
z@Wq>J9OzDT68F3iy_9Krwvq?Pd?i|j1=f;#Ze@!Lbd+^mI=|iVqtiIS&K8Dj5Cpi%
z<9F?gxvC2nn%N1JvWv=gq@z!(TCF<R)n+(7!gYAr$@8bfP;7xVaftZDSGz;dSRpNG
zu+xaSP6GbeT^k$@rfH<{f{95_T7sl6L#Pk<)MTy9FrES1z+R>6l7;0UCL-G)7tqut
zu>i$EMM7mbln5Co`RY|#JN#$|s?B34k}a!oa*-!xAf7;mklJ4+9-=C%zlhv-&TD9t
zFh*7ww}t|2Q+FYmewAW|IRAmB`EMgv>|@i#i2Ed0U&=KCF}yS}yH2UN^G<G>$FNj9
z3=i6(^h&k8a_yv4JDGA;(QInG2NCyH?1MbMyNB;WuD|waNyU5R@8#X|-Mf76jZ{$&
zWXtk=Km?{#*P!GXd{`}cChw4>!X4L32K_V+!Rd0#1+>x5-(?(<zeD6YF{gI?tPX;{
zgV;hAOJN+TnaNnFBV&F}Gp6ohDY7%Bu$T<r;Q&ES#uS#vib#>0F-4&ci}_|{I5VcO
z5I<lk@-n8d5Kdqz@-wEepmJFXSH=_;2aha;o29V0{K@Kede$EW8B^4lZKS(c8HFrG
zo$hD8t>{jc!jmzD1y#&acr&IjXl1ipmZB(Q3X5ZSmZF%Yu$l{?%6I-)ijs^eENNbh
zL?27hwKF%MYU5zo3}a=KvJ|^aU){ApD0Ih<r6^-5cJBznC+pvG7CM+Aw1S0NwZR^X
z6f_$vGo~Po+8sXzUlmJX)du@^M8_vfQO#29e=&67;ER4NMNLMi#w}71UaMs(CapvD
z9T%3&x*3rQP3EvY!)US;iuh2QCmsas8fiS^(WD!v6J*5*3zs;WEJLKLk!4jGlDybe
zhNH=%v{<SMjijp!$CzYXWoeORZsY>}HQn2XWFl;Q!7GMS9~3HtN0Uw*U=lq&nk>YT
z6}Tv1F%u_cH0ePIZ0ayVS%?50L`b8WN0a5q(Bd}8(PSkoGgw{-$za>QaML0^nyf)t
znv%0-h79Li0F>-YFi4ncxMq54H0kZa0W0VST_2gXiJ=y%)d!LEo4(negO!5a6>Nw>
zDOU(Ctt4PiL{~~?)mgfTldo&qCFe%3<dW5durQiL3sN}Js#`x;kpXlS1dOVmP1>ta
z09MU9v3Afxb|@RN8f;T4W-asLF~X?7NnFCfQMXyNF;SJo^NbEwN-V~RQfP!TP!*>>
z43uIs#PBP6VO%g3ag~9_woC5xksuz@X)#qq^Y;lXMov{`>_qYF6p5X8kVuZ=Qtke*
zt`Z6BC^>3piG(u5Ve)ZMt1Cq>G`aW>6ouqR#C3Z7j2?_g{MT^BiDuDm0L=~3b~+eL
z7N>2@G{65u#F>Q0E$;6f)dl;Xb9mgjv_-GGv#J)9T-qg-cBOnh%oiJrU5(7ONf&w!
zOO3;+hJ9OENPtbuXeDz!HT9l$OO?A*6+>Iu6v1KJ)1<m`xaM}bX}8n_-Nz$R(~(r;
z(XCvHl7sut>r^MHck26>{ZifjRPBMSJc{GA9kf-bP6(gY>eBvwQbk{?yno9@aq?}u
z8&#K^Yiiqe^Jv52tpbYTwjHrGsLnzTm1*dc8v5jhNvUBn#ZPT{C{Cg6kgZg8dbzTy
z?Jd&1RYY;Twm`M&D&|OSlk7vt)gw~%NUCb@RtZHZw(YA?T|N%9Y)zL`(<RpoOEtr(
z>U~?K6vby7tyW!SESFBHx>K$mlB$PNReQF|DN31bxLI{oa4mkhd5_e*M{YhLHJ?Z|
z&1_XtlnSV!wW`i4uB}sU9g$i`<kr`u*4I)kr?;vpPL=J9tx<K>u(lbL8VBXZqf+D1
zRKu~YT8dL+J8tu<&N>dK5&luhKPvmrOaAkz_Sd)SDNdd34QM4WC(mltE!A|(H6v2Z
zNUD18Rs+T1ZTo6fS0g)2BAXa;?LMh?U#ezwtBImCVyCLQn$tRbuT-};Rl9Gig`zau
zMr&19E6b%vs_l_$2c_D<RL#&<8%1fg?eVLwb_VZZ$$vQ2er(H6f$gYGv+C?%EjKDP
zkEWUqZgo;<hi%N}Q=MID`dS^5uOn5`xz$Z^x@=tysw-eIRC*{%07Io^i#d1gydbyv
z#8xlG*=3tS_b_K4>z=(*>t4C_wA6Y!)pBO5pW^h{W^J{qbN35vc3^9O;_Su@XjGkp
ztP8by_~{UZX4UGK(PuL=vADQh20qv(?~FOG?(P309GUj^x3JqjLu^nhvc`dgJAPy|
z26w`AGnV!%ra|sIa-mNvJ^{&75;I<G$N-VWMk$_tX}V1(M(EOXcBOstKzDbH3@>#v
z;|JZe5JRj3R@=y$A^3whn1!GMw)7cn)M0Dg18~)ArM)aG)ocwD$5$5*hN+3E2IeK5
z$tdMJ;{~BjkCNilWZEIIQprw{)#Dien3n6d6Pk>%>d`;(Rb+@0nsoMBN%@`QOzTrs
zhYv{Zzyl%W9)bE-!8x0uNGN+rJ6Km|mj};E`1776>3tshTkfX&yXDS(QYX|gPp@^J
zX16%MhSNR$7H8siY1?a5dmM1g=$2OLgV~Gm?^m3`AQ2G3ppqY?ReB{#Zg((9CiAoq
zEMUUYd@v|NDp?}}c(@c#5Qkq78e#mCIKpWw$9h6+Bo|TnViP^sG6@-Mj;*pHZManP
zHbl&eB!<l>3bC17E%aaua09t$6=r6KMB?s?<@8|dERozI35_$u93t)UL?X1sYI>Zc
z#{qiKriq#E5vR#@91kT67U;wfef|=Cx>c(#n$eqYk^gVfgLY412N4?YlIsuYQAM9j
zgyG-Q=OBF&-&M5@@fv*w=|TH*QGo0F9Ak2*q6gjNOAmrReg^~Y*SKdn_H5@fH`ma5
zU)bRLZ%yCrTzB+uI_f^)TOM59;Kx;;aq?;Hd^oewdi>VOyI);*9N%;_e9+$gaA~7`
zCgt$mU0Qd{Y&sf0Xl#4v-e{b<b>i;6b;s1EqyB@srU%D1>JHpGez$7fabVL?yV>HW
zkM{&<-L5<Q<kLTta+IYi{P!oNie2lDp-o5k2g6X`>jC?8Bq!ylP1O%R=j_=z;QeHG
zeXwg_vw}FQy$GsERdpLdZJU9<ThpoH=6eZnlhz%5n~s(bx_VRNXEwTK)gsm%vs?Du
zY$vqnv{Kve?}h>1b;sZ)zzg(IZ5ENfOikan**C~irbojp2=qVNz0rLn<tV+IcrPlI
zcdR>(fFYaR3lJ-+P{ERQN9CrYb;~hl%dU8D{y9hQtvBu2*~e}7C!ivY_k)S&?ESpZ
zhlE{RPVtt#F59<R*07aD?_Id<9Pg)j)o87}#!s^G@jOe9wsp|PoO#*#ECszO1>R-~
zd}t})+N$9?d!FUGv-dnL0X2p<L0j|Q#5*_c?Uu^hwkQa!y8N=|d2l_iY0uvM$*fJx
z$?o2|Qc#+m|7dcH!|TVh&*}9^;Iut^-_{j}BYV$-_;U`gPu#uP#aowbo^0QJ-vh_@
ztDkdle$rT%o&Su$Eq$+TBfIevyGyM|(=&3ZgOr9QO#aNP1`UIByrFGDFx_=u)oPC7
zN)OFZJ?Cj%(|@!=(foh@SC|H>&FF+42K}@IM!)*I>7WDTs6CdY9f4Y`BsX*Nuo8xF
z>>C0r?{~7uiZs@uDy&5o?6w8MRXct^(7su^P=<6CY_){JII}tuX8i3D9NSvJ3>^fZ
z5XjCOY_SExUps!_g>wrPJ3R4e#pu$Hc5NJ5BMYtJ2-y+_18bq-#azr<-^gm>5`-q%
zuNk^`Hty@(b?(iqH@NGzrq7+9o|3G1`?Ev1@lTbCpAE;Bmqb`(CZSEN-y|8Q4IR}c
zqjnI<So3E|7+O%Rp|cGwnDP*CCS%8GeEIXB1jwXrhOC(QFMl}-i=0tIuD6TjA74Tu
zhzydjtGd3yCM^hz(EL1ES0-zOBtZ=T$?!N2OG_+SS`;di3HhsFlT032AchPpBt5S{
zdX_vi>1p*8fypzHQRD4<X-JTU#hK*SFKj!CU^Xr3AOr27o9tz>gmk(|5`4lEj0lr#
zre;qFFbDWk>J<U7NQtVzz$%#<MsogeBynWrA{ksI+m+WL=}pG(0U^;+s>w)*k@}0o
z7<x-w!~@5kbWoZGD%=cIQKVoGiTtsiAsPwNEwuQeYPz9z*h{?(6Lzq8#fV&Hl}-Er
zaZIgAlX0NrO}#lEh6Qh!Fsdc#8MXr#fMN_mT^-$MoAY^8RD=xR62VfSTGmoyhs9+E
zA53#?!&CX>p<*Le12KVU@mxRz0YLhx7LUqRnLkm4{p$4eB3UZ!BjW9+NWu)oe_Fwn
zciuYrq=>(D>_f-Cr)7S*Y*;EAzIBpTirt&_9VutcW)*+O^Al$Q5oeW~?sD1PA-Owb
z_kPK}f5UwcQg8)To8D^K8<4yK+1oF9O*MA!nN4q#>i6JR*1U(9*$&l8gT09C;}q4%
z-ge0gp*l+acX?!Vp^)QySh>x2JRdn*WM{AB?0xL)|A$WpICm+?$?U>SXTeq$-v94b
zAVcK;FHYRsuh&m>+kVeEVdwsE?7)PV`=9)k@c5D4HBpfDqk=5>{K#81(UJ9|jx6|N
zWaolON3{Ap5*t54=Y;;B6ASrWj+$Nl=_tr*8-s0tEjczprk*tsZ5pji0|DH`WisR}
zV8TX84Pc39L*~V`sof7ji}DPCDzz8|G--6$b^4@-Ks{XoIB#)u?A^5PYL;C?k_*Jp
zkQ#p+f!pdyb!7E?9S+nJPxW`J-dxfaaC)`#2TPz@o7lJn4M_IWTL;!YbuVpmRIlCa
zu?_t|pqC*7SiyxhGMmPR7%ihL#T`}s6{;#d=wK{P)b%ayNp5v2w+RQ>d7f_-zFn9q
z-?QNye&VV8=4#4W{lrzDa@4cRE4EoBKN`9Lwl9-+aH($E7{s?N^;8?yCQsnNcGiBY
z+wA`g+eLu0^Jk@^uD6fgcI*h+ARWvctj_Z`K9I3uK3kHz<<Bax@4f$F=1#GOqw
zSuqFdqMGk-+UfF9D5E<JwRBSdvL*kDtq_N?va!~Hst#=bv!y9*nb6c5#>C6e<Wlht
z&!-VgBcw}{-m&HZwAtQjBx-r4!HxthOq&TiQ?Oo9lQ8GDH2U;mc8zDCq(IDiT6WmV
zs8&SH(4Vbtc^IBA)9hV>&yC}CLe$JmrQ*06z7ZE^(0GVWxLN!<J$@Ar#j`WAHi8&X
zG%Z+js93m~Caqd}keYEDCVm^aU8g}y`m#8_uHl>|sobh3WmWI(m8*xP>S4M1lvI66
zu0AVOpIxs$zh3tG9oN&c2DxmvRJL0#J1&)Bs|1W(-3kqPcg|0%TJ9Ws;wrtnbZ<c_
z>wPc+xfa?{m)t#h@0jH4k(@o7RV~n7cjrKRJv-;;pKx%p<M=<%uNm_@{PsiIHu|gL
zI{->trpGCIoTf*N9#`oRr^o+{hmx<gSu}D{q$vWSbw~{`39oQmq)8xBqbPZopb?OO
zk<YkDXVgkAi84?knp;W^MghbbM4~c98o?q_y{duM4T|7gz9C?_hh1_yOIG*lM9eBa
zJs^-?u7`s1*wPO>fpOKIV!1{NkfGW@+S!n50+!MH0oBs0NFtRYoeyg=P}oi{#z~q2
z5>LSuXbHsws)!hKGs!0<pJlIl5JjwHv*n-h4Zw^yX#jPXPb9Ibj__p~Tf{$5Trdf$
z76q&Iw9!}caO9%e;AAWS#f5Jp2C)ZlK?VfU7}J5AAWRv<;hU5@PvHgIPF%zW@^k9e
z_8BWf$usUWU<?h#mEJhbl%V*<LmkG+P_otfGA=|L#dN1P6=N|d{j6aak!4uy4QO*R
z{m>~u+I1R%#MmK96-#-oH((q*v0Dr-g<v_CmSHhWO~)1p+S;k>MTGo__ER|`MDVb+
zkgXEpZG6J=F_4am2N)-Xrs9r;MRD#^3F`gge~VE3aq-{66BLKdhNZ>k{s~ve{#-xd
z@_xd3e!_Ww!nr==T0Z3JKjdoJv*NG0J?q?_f5*B1nj4b1p%1x^pK%o*a{YhJ9r%zt
z_#xN$Gp_EhxnmM{>_d+Kkn^+Tc-FALx(~U)hg|cATq_cO$PN89*Y?va?}v`=pE=I`
zm1ED-@+xo=o>ta?dGOR%e(S_f^L%$-U(c(%MNAC4^8;J{I~@;ZH;P9#Y<vIS9`k??
z&CwIPb^AVgIJX?k_d-23?J3T8cL96!vbJ?D0O77%p1UP?6Yo^5bB&ap_vzu|&$0rx
z-J3<#TkJhD`pEGwIzAycW#-+o!}aW<jkCM%_HNippV{p;h=XzVGH@+yd$#g(ZT!8e
z=Nw)zxsmO@Gx4j_w`@@6Xz@SGEw|;cjPZuaoV%~Rle?7-H%cxpyF33*<$JS`QQM+u
ZU>@Y;-)Xw@wL7i1zx-()eAr_C{{sRt(vJWD

literal 0
HcmV?d00001

diff --git a/config/cache.py b/config/cache.py
new file mode 100644
index 0000000..864cf1b
--- /dev/null
+++ b/config/cache.py
@@ -0,0 +1,207 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from dataclasses import field
+from typing import TYPE_CHECKING, Any, Literal
+
+from pydantic import Field, SkipValidation, field_validator
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.utils.mem_utils import get_cpu_memory
+
+if TYPE_CHECKING:
+    from vllm.config.parallel import ParallelConfig
+else:
+    ParallelConfig = Any
+
+logger = init_logger(__name__)
+
+BlockSize = Literal[1, 8, 16, 32, 64, 128, 256]
+CacheDType = Literal[
+    "auto",
+    "bfloat16",
+    "fp8",
+    "fp8_e4m3",
+    "fp8_e5m2",
+    "fp8_inc",
+    "fp8_ds_mla",
+]
+MambaDType = Literal["auto", "float32"]
+PrefixCachingHashAlgo = Literal["sha256", "sha256_cbor"]
+KVOffloadingBackend = Literal["native", "lmcache"]
+
+
+@config
+@dataclass
+class CacheConfig:
+    """Configuration for the KV cache."""
+
+    block_size: SkipValidation[BlockSize] = None  # type: ignore
+    """Size of a contiguous cache block in number of tokens. On CUDA devices,
+    only block sizes up to 32 are supported.
+
+    This config has no static default. If left unspecified by the user, it will
+    be set in `Platform.check_and_update_config()` based on the current
+    platform."""
+    gpu_memory_utilization: float = Field(default=0.9, gt=0, le=1)
+    """The fraction of GPU memory to be used for the model executor, which can
+    range from 0 to 1. For example, a value of 0.5 would imply 50% GPU memory
+    utilization. If unspecified, will use the default value of 0.9. This is a
+    per-instance limit, and only applies to the current vLLM instance. It does
+    not matter if you have another vLLM instance running on the same GPU. For
+    example, if you have two vLLM instances running on the same GPU, you can
+    set the GPU memory utilization to 0.5 for each instance."""
+    swap_space: float = Field(default=4, ge=0)
+    """Size of the CPU swap space per GPU (in GiB)."""
+    cache_dtype: CacheDType = "auto"
+    """Data type for kv cache storage. If "auto", will use model data type.
+    CUDA 11.8+ supports fp8 (=fp8_e4m3) and fp8_e5m2. ROCm (AMD GPU) supports
+    fp8 (=fp8_e4m3). Intel Gaudi (HPU) supports fp8 (using fp8_inc).
+    Some models (namely DeepSeekV3.2) default to fp8, set to bfloat16 to use
+    bfloat16 instead, this is an invalid option for models that do not default
+    to fp8.
+    """
+    is_attention_free: bool = False
+    """Whether the model is attention-free. This is primarily set in
+    `ModelConfig` and that value should be manually duplicated here."""
+    num_gpu_blocks_override: int | None = None
+    """Number of GPU blocks to use. This overrides the profiled `num_gpu_blocks`
+    if specified. Does nothing if `None`. Used for testing preemption."""
+    sliding_window: int | None = None
+    """Sliding window size for the KV cache. This is primarily set in
+    `ModelConfig` and that value should be manually duplicated here."""
+    enable_prefix_caching: bool | None = None
+    """Whether to enable prefix caching. Enabled by default for V1."""
+    prefix_caching_hash_algo: PrefixCachingHashAlgo = "sha256"
+    """Set the hash algorithm for prefix caching:\n
+    - "sha256" uses Pickle for object serialization before hashing.\n
+    - "sha256_cbor" provides a reproducible, cross-language compatible hash. It
+    serializes objects using canonical CBOR and hashes them with SHA-256."""
+    cpu_offload_gb: float = Field(default=0, ge=0)
+    """The space in GiB to offload to CPU, per GPU. Default is 0, which means
+    no offloading. Intuitively, this argument can be seen as a virtual way to
+    increase the GPU memory size. For example, if you have one 24 GB GPU and
+    set this to 10, virtually you can think of it as a 34 GB GPU. Then you can
+    load a 13B model with BF16 weight, which requires at least 26GB GPU memory.
+    Note that this requires fast CPU-GPU interconnect, as part of the model is
+    loaded from CPU memory to GPU memory on the fly in each model forward pass.
+    """
+    calculate_kv_scales: bool = False
+    """This enables dynamic calculation of `k_scale` and `v_scale` when
+    kv_cache_dtype is fp8. If `False`, the scales will be loaded from the model
+    checkpoint if available. Otherwise, the scales will default to 1.0."""
+    cpu_kvcache_space_bytes: int | None = None
+    """(CPU backend only) CPU key-value cache space."""
+    mamba_page_size_padded: int | None = None
+    """ Optional override for mamba page size; used by hybrid mamba/attention
+    models to ensure exact alignment with attention page size."""
+    mamba_block_size: int | None = Field(default=None, gt=0)
+    """Size of a contiguous cache block in number of tokens for mamba cache.
+    Can be set only when prefix caching is enabled.
+    Value must be a multiple of 8 to align with causal_conv1d kernel."""
+    mamba_cache_dtype: MambaDType = "auto"
+    """The data type to use for the Mamba cache (both the conv as well as the
+    ssm state). If set to 'auto', the data type will be inferred from the model
+    config."""
+    mamba_ssm_cache_dtype: MambaDType = "auto"
+    """The data type to use for the Mamba cache (ssm state only, conv state will
+    still be controlled by mamba_cache_dtype). If set to 'auto', the data type
+    for the ssm state will be determined by mamba_cache_dtype."""
+
+    # Will be set after profiling.
+    num_gpu_blocks: int | None = field(default=None, init=False)
+    """The number of blocks to allocate for GPU memory."""
+    num_cpu_blocks: int | None = field(default=None, init=False)
+    """The number of blocks to allocate for CPU memory."""
+
+    kv_sharing_fast_prefill: bool = False
+    """This feature is work in progress and no prefill optimization takes place
+    with this flag enabled currently.
+
+    In some KV sharing setups, e.g. YOCO (https://arxiv.org/abs/2405.05254),
+    some layers can skip tokens corresponding to prefill. This flag enables
+    attention metadata for eligible layers to be overridden with metadata
+    necessary for implementing this optimization in some models (e.g. Gemma3n)
+    """
+
+    kv_cache_memory_bytes: int | None = None
+    """Size of KV Cache per GPU in bytes. By default, this is set to None
+    and vllm can automatically infer the kv cache size based on
+    gpu_memory_utilization. However, users may want to manually specify
+    the kv cache memory size. kv_cache_memory_bytes allows more fine-grain
+    control of how much memory gets used when compared with using
+    gpu_memory_utilization. Note that kv_cache_memory_bytes
+    (when not-None) ignores gpu_memory_utilization"""
+
+    kv_offloading_size: float | None = None
+    """Size of the KV cache offloading buffer in GiB. When TP > 1, this is
+    the total buffer size summed across all TP ranks. By default, this is set
+    to None, which means no KV offloading is enabled. When set with
+    kv_offloading_backend, vLLM will enable KV cache offloading to CPU"""
+
+    kv_offloading_backend: KVOffloadingBackend | None = None
+    """The backend to use for KV cache offloading. Supported backends include
+    'native' (vLLM native CPU offloading), 'lmcache' This option must be used 
+    together with kv_offloading_size."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+        factors.append(self.cache_dtype)
+        factors.append(self.mamba_cache_dtype)
+        factors.append(self.mamba_ssm_cache_dtype)
+        # `cpu_offload_gb` does not use `torch.compile` yet.
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def metrics_info(self):
+        # convert cache_config to dict(key: str, value: str) for prometheus
+        # metrics info
+        return {key: str(value) for key, value in self.__dict__.items()}
+
+    @field_validator("cache_dtype", mode="after")
+    @classmethod
+    def _validate_cache_dtype(cls, cache_dtype: CacheDType) -> CacheDType:
+        if cache_dtype.startswith("fp8"):
+            logger.info(
+                "Using fp8 data type to store kv cache. It reduces the GPU "
+                "memory footprint and boosts the performance. "
+                "Meanwhile, it may cause accuracy drop without a proper "
+                "scaling factor."
+            )
+        return cache_dtype
+
+    def verify_with_parallel_config(
+        self,
+        parallel_config: ParallelConfig,
+    ) -> None:
+        swap_space_bytes = self.swap_space * GiB_bytes
+        total_cpu_memory = get_cpu_memory()
+        # FIXME(woosuk): Here, it is assumed that the GPUs in a tensor parallel
+        # group are in the same node. However, the GPUs may span multiple nodes.
+        num_gpus_per_node = parallel_config.tensor_parallel_size
+        cpu_memory_usage = swap_space_bytes * num_gpus_per_node
+
+        msg = (
+            f"{cpu_memory_usage / GiB_bytes:.2f} GiB out of the "
+            f"{total_cpu_memory / GiB_bytes:.2f} GiB total CPU memory "
+            "is allocated for the swap space."
+        )
+        if cpu_memory_usage > 0.7 * total_cpu_memory:
+            raise ValueError("Too large swap space. " + msg)
+        elif cpu_memory_usage > 0.4 * total_cpu_memory:
+            logger.warning("Possibly too large swap space. %s", msg)
diff --git a/config/compilation.py b/config/compilation.py
new file mode 100644
index 0000000..6e53b25
--- /dev/null
+++ b/config/compilation.py
@@ -0,0 +1,978 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+import hashlib
+from collections import Counter
+from collections.abc import Callable
+from dataclasses import asdict, field
+from pathlib import Path
+from typing import TYPE_CHECKING, Any, ClassVar, Literal
+
+from pydantic import TypeAdapter, field_validator
+from pydantic.dataclasses import dataclass
+
+import vllm.envs as envs
+from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.math_utils import round_up
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+else:
+    VllmConfig = object
+
+logger = init_logger(__name__)
+
+
+class CompilationMode(enum.IntEnum):
+    """The compilation approach used for torch.compile-based compilation of the
+    model."""
+
+    NONE = 0
+    """No torch.compile compilation is applied, model runs in fully eager pytorch mode.
+    The model runs as-is."""
+    STOCK_TORCH_COMPILE = 1
+    """The standard `torch.compile` compilation pipeline."""
+    DYNAMO_TRACE_ONCE = 2
+    """Single Dynamo trace through the model, avoiding recompilation."""
+    VLLM_COMPILE = 3
+    """Custom vLLM Inductor-based backend with caching, piecewise compilation,
+    shape specialization, and custom passes."""
+
+
+class CUDAGraphMode(enum.Enum):
+    """Constants for the cudagraph mode in CompilationConfig.
+    Meanwhile, the subset enum `NONE`, `PIECEWISE` and `FULL` are also
+    treated as concrete runtime mode for cudagraph runtime dispatching.
+    """
+
+    NONE = 0
+    PIECEWISE = 1
+    FULL = 2
+    FULL_DECODE_ONLY = (FULL, NONE)
+    FULL_AND_PIECEWISE = (FULL, PIECEWISE)
+
+    def decode_mode(self) -> "CUDAGraphMode":
+        return CUDAGraphMode(self.value[0]) if self.separate_routine() else self
+
+    def mixed_mode(self) -> "CUDAGraphMode":
+        return CUDAGraphMode(self.value[1]) if self.separate_routine() else self
+
+    def has_mode(self, mode: "CUDAGraphMode") -> bool:
+        assert not mode.separate_routine()
+        if self.separate_routine():
+            return mode.value in self.value
+        return self == mode
+
+    def requires_piecewise_compilation(self) -> bool:
+        return self.has_mode(CUDAGraphMode.PIECEWISE)
+
+    def max_cudagraph_mode(self) -> "CUDAGraphMode":
+        return CUDAGraphMode(max(self.value)) if self.separate_routine() else self
+
+    def has_full_cudagraphs(self) -> bool:
+        return self.max_cudagraph_mode() == CUDAGraphMode.FULL
+
+    def has_piecewise_cudagraphs(self) -> bool:
+        return self.requires_piecewise_compilation()
+
+    def separate_routine(self) -> bool:
+        return isinstance(self.value, tuple)
+    
+    def decode_use_graph(self) -> bool:
+        return self.decode_mode() == CUDAGraphMode.FULL
+
+    def valid_runtime_modes(self) -> bool:
+        return self in [CUDAGraphMode.NONE, CUDAGraphMode.PIECEWISE, CUDAGraphMode.FULL]
+
+    def __str__(self) -> str:
+        return self.name
+
+
+@config
+@dataclass
+class PassConfig:
+    """Configuration for custom Inductor passes.
+
+    This is separate from general `CompilationConfig` so that inductor passes
+    don't all have access to full configuration - that would create a cycle as
+    the `PassManager` is set as a property of config."""
+
+    enable_fusion: bool = False
+    """Whether to enable the custom fusion (RMSNorm/SiluMul+quant) pass."""
+    enable_attn_fusion: bool = False
+    """Whether to enable the custom attention+quant fusion pass."""
+    enable_noop: bool = False
+    """Whether to enable the custom no-op elimination pass."""
+    enable_sequence_parallelism: bool = False
+    """Whether to enable sequence parallelism."""
+    enable_async_tp: bool = False
+    """Whether to enable async TP."""
+    enable_fi_allreduce_fusion: bool = False
+    """Whether to enable flashinfer allreduce fusion."""
+    fi_allreduce_fusion_max_size_mb: float | None = None
+    """The threshold of the communicated tensor sizes under which
+    vllm should use flashinfer fused allreduce. Specified as a
+    float in MB.
+    Unspecified will fallback to default values
+    which are compute capability and world size dependent.
+        FI_ALLREDUCE_FUSION_MAX_SIZE_MB = {
+            90: {
+                2: 64,  # 64MB
+                4: 2,  # 2MB
+                8: 1,  # 1MB
+            },
+            100: {
+                2: 64,  # 64MB
+                4: 32,  # 32MB
+                8: 1,  # 1MB
+            },
+        }, where key is the device capability"""
+    enable_qk_norm_rope_fusion: bool = False
+    """Whether to enable the fused Q/K RMSNorm + RoPE pass."""
+
+    # TODO(luka) better pass enabling system.
+
+    def flashinfer_max_size(self, world_size: int) -> int | None:
+        """
+        Returns the max communication size in bytes for flashinfer
+        allreduce fusion for the given world size. Returns None if world size
+        is not supported by configs as it's not supported by flashinfer.
+        """
+
+        MiB = 1024 * 1024
+        max_size_mb = self.fi_allreduce_fusion_max_size_mb
+        if max_size_mb is None:
+            max_size_mb = self.default_fi_allreduce_fusion_max_size_mb().get(world_size)
+
+        return int(max_size_mb * MiB) if max_size_mb is not None else None
+
+    @staticmethod
+    def default_fi_allreduce_fusion_max_size_mb() -> dict[int, float]:
+        from vllm.compilation.collective_fusion import FI_ALLREDUCE_FUSION_MAX_SIZE_MB
+        from vllm.platforms import current_platform
+
+        if not current_platform.is_cuda():
+            return {}
+        return FI_ALLREDUCE_FUSION_MAX_SIZE_MB.get(
+            current_platform.get_device_capability().to_int(), {}
+        )
+
+    def uuid(self):
+        """
+        Produces a hash unique to the pass configuration.
+        Any new fields that affect compilation should be added to the hash.
+        Any future fields that don't affect compilation should be excluded.
+        """
+        return InductorPass.hash_dict(asdict(self))
+
+    def __post_init__(self) -> None:
+        if not self.enable_noop:
+            if self.enable_fusion:
+                logger.warning_once(
+                    "Fusion enabled but reshape elimination disabled. "
+                    "RMSNorm/SiluMul + quant (fp8) fusion might not work"
+                )
+            if self.enable_attn_fusion:
+                logger.warning_once(
+                    "Fusion enabled but reshape elimination disabled. "
+                    "Attention + quant (fp8) fusion might not work"
+                )
+            if self.enable_fi_allreduce_fusion:
+                logger.warning_once(
+                    "Fusion enabled but reshape elimination disabled. "
+                    "Allreduce + rms norm + quant (fp8) fusion might not work"
+                )
+        if self.enable_qk_norm_rope_fusion and not current_platform.is_cuda_alike():
+            logger.warning_once(
+                "QK Norm + RoPE fusion enabled but the current platform is not "
+                "CUDA or ROCm. The fusion will be disabled."
+            )
+            self.enable_qk_norm_rope_fusion = False
+
+
+@config
+@dataclass
+class CompilationConfig:
+    """Configuration for compilation. It has three parts:
+
+    - Top-level Compilation control:
+        - [`mode`][vllm.config.CompilationConfig.mode]
+        - [`debug_dump_path`][vllm.config.CompilationConfig.debug_dump_path]
+        - [`cache_dir`][vllm.config.CompilationConfig.cache_dir]
+        - [`backend`][vllm.config.CompilationConfig.backend]
+        - [`custom_ops`][vllm.config.CompilationConfig.custom_ops]
+        - [`splitting_ops`][vllm.config.CompilationConfig.splitting_ops]
+        - [`compile_mm_encoder`][vllm.config.CompilationConfig.compile_mm_encoder]
+    - CudaGraph capture:
+        - [`cudagraph_mode`][vllm.config.CompilationConfig.cudagraph_mode]
+        - [`cudagraph_capture_sizes`]
+        [vllm.config.CompilationConfig.cudagraph_capture_sizes]
+        - [`max_cudagraph_capture_size`]
+        [vllm.config.CompilationConfig.max_cudagraph_capture_size]
+        - [`cudagraph_num_of_warmups`]
+        [vllm.config.CompilationConfig.cudagraph_num_of_warmups]
+        - [`cudagraph_copy_inputs`]
+        [vllm.config.CompilationConfig.cudagraph_copy_inputs]
+    - Inductor compilation:
+        - [`use_inductor`][vllm.config.CompilationConfig.use_inductor]
+        - [`compile_sizes`][vllm.config.CompilationConfig.compile_sizes]
+        - [`inductor_compile_config`]
+        [vllm.config.CompilationConfig.inductor_compile_config]
+        - [`inductor_passes`][vllm.config.CompilationConfig.inductor_passes]
+        - custom inductor passes
+
+    Why we have different sizes for cudagraph and inductor:
+    - cudagraph: a cudagraph captured for a specific size can only be used
+        for the same size. We need to capture all the sizes we want to use.
+    - inductor: a graph compiled by inductor for a general shape can be used
+        for different sizes. Inductor can also compile for specific sizes,
+        where it can have more information to optimize the graph with fully
+        static shapes. However, we find the general shape compilation is
+        sufficient for most cases. It might be beneficial to compile for
+        certain small batchsizes, where inductor is good at optimizing.
+    """
+
+    # Top-level Compilation control
+    level: int | None = None
+    """
+    Level is deprecated and will be removed in the next release,
+    either 0.12.0 or 0.11.2 whichever is soonest.
+    Please use mode. Currently all levels are mapped to mode.
+    """
+    # Top-level Compilation control
+    mode: CompilationMode | None = None
+    """The compilation approach used for torch.compile-based compilation of the
+    model.
+
+    - None: If None, we will select the default compilation mode.
+      For V1 engine this is 3.
+    - 0: NONE: No torch.compile compilation is applied, model runs in fully
+         eager pytorch mode. The model runs as-is.
+    - 1: STOCK_TORCH_COMPILE: The standard `torch.compile` compilation pipeline.
+    - 2: DYNAMO_TRACE_ONCE: Single Dynamo trace through the model, avoiding
+         recompilation by removing guards.
+         Requires no dynamic-shape-dependent control-flow.
+    - 3: VLLM_COMPILE: Custom vLLM Inductor-based backend with caching,
+         piecewise compilation, shape specialization, and custom passes."""
+    debug_dump_path: Path | None = None
+    """The path to dump the debug information."""
+    cache_dir: str = ""
+    """The directory to store the compiled graph, to accelerate Inductor
+    compilation. By default, it will use model-related information to generate
+    a cache directory."""
+    compile_cache_save_format: Literal["binary", "unpacked"] = field(
+        default_factory=lambda: envs.VLLM_COMPILE_CACHE_SAVE_FORMAT
+    )
+    """Format for saving torch compile cache:\n
+    - "binary": saves as binary file (multiprocess safe)\n
+    - "unpacked": saves as directory structure for inspection/debugging
+    (NOT multiprocess safe)\n
+    Defaults to `VLLM_COMPILE_CACHE_SAVE_FORMAT` if not specified.
+    """
+    backend: str = ""
+    """The backend for compilation. It needs to be a string:
+
+    - "" (empty string): use the default backend ("inductor" on CUDA-alike
+    platforms).
+    - "eager"/"openxla"/...: use the specified backend registered in PyTorch.
+    - "full.module.name": a qualified name which can be used to import the
+
+    backend function.
+    We use string to avoid serialization issues when using compilation in a
+    distributed setting. When the compilation mode is 1 or 2, the backend is
+    used for the compilation directly (it sees the whole graph). When the
+    compilation mode is 3, the backend is used for the piecewise compilation
+    (it sees a part of the graph). The backend can not be custom for compilation
+    mode 3, i.e. the backend must be either eager or inductor. Furthermore,
+    compilation is only piecewise if splitting ops is set accordingly and
+    use_inductor_graph_partition is off. Note that the default options for
+    splitting ops are sufficient for piecewise compilation.
+    """
+    custom_ops: list[str] = field(default_factory=list)
+    """Fine-grained control over which custom ops to enable/disable. Use 'all'
+    to enable all, 'none' to disable all. Also specify a list of custom op
+    names to enable (prefixed with a '+'), or disable (prefixed with a '-').
+    Examples:
+
+    - 'all,-op1' to enable all except op1
+    - 'none,+op1,+op2' to enable only op1 and op2
+
+    By default, all custom ops are enabled when running without Inductor and
+    disabled when running with Inductor: mode>=VLLM_COMPILE and use_inductor=True.
+    Inductor generates (fused) Triton kernels for disabled custom ops."""
+    splitting_ops: list[str] | None = None
+    """A list of ops to exclude from cudagraphs, used in piecewise compilation.
+
+    The behavior depends on use_inductor_graph_partition:
+
+    - When use_inductor_graph_partition=False (default):
+        These ops are used for Dynamo FX-level graph splitting. The graph is
+        split at these ops before Inductor compilation, creating separate
+        subgraphs for cudagraph capture.
+
+    - When use_inductor_graph_partition=True:
+        These ops are used to register Inductor partition rules. The graph
+        partitioning happens at Inductor codegen time after all passes and
+        fusions are finished, allowing compilation and custom passes to operate
+        on the full graph while still excluding these ops from cudagraphs.
+
+    If None, defaults to attention ops for piecewise cudagraphs.
+    If empty list [], no ops are excluded (suitable for full cudagraphs)."""
+    compile_mm_encoder: bool = False
+    """Whether or not to compile the multimodal encoder.
+    Currently, this only works for `Qwen2_5_vl` on selected platforms. 
+    Disabled by default until more models are supported/tested to work."""
+
+    # Inductor capture
+    use_inductor: bool | None = None
+    """
+    Whether to use inductor compilation.
+
+    This flag is deprecated and will be removed in the next release 0.12.0.
+    Please use the 'backend' option instead.
+
+    - False: inductor compilation is not used. graph runs in eager
+        (custom_ops enabled by default).
+    - True: inductor compilation is used (custom_ops disabled by default).
+        One graph for symbolic shape and one graph per size in compile_sizes
+        are compiled using configurations in inductor_compile_config.
+
+    This setting is ignored if mode<VLLM_COMPILE.
+
+    For future compatibility:
+    If use_inductor is True, backend="inductor" otherwise backend="eager".
+    """
+    compile_sizes: list[int | str] | None = None
+    """Sizes to compile for inductor. In addition
+    to integers, it also supports "cudagraph_capture_sizes" to
+    specify the sizes for cudagraph capture."""
+    inductor_compile_config: dict = field(default_factory=dict)
+    """Additional configurations for inductor.
+    - None: use default configurations."""
+    inductor_passes: dict[str, str] = field(default_factory=dict)
+    """Additional passes for inductor. It is a dictionary
+    from pass name to pass function qualified name. We use function
+    name because the config uses JSON format. If we pass the config
+    from Python, functions can also be passed directly via Python object
+    constructor, e.g. `CompilationConfig(inductor_passes={"a": func})`."""
+
+    # CudaGraph compilation
+    cudagraph_mode: CUDAGraphMode | None = None
+    """
+    The mode of the cudagraph:
+
+    - NONE, no cudagraph capture.
+    - PIECEWISE.
+    - FULL.
+    - FULL_DECODE_ONLY.
+    - FULL_AND_PIECEWISE. (v1 default)
+
+    PIECEWISE mode build piecewise cudagraph only, keeping the cudagraph
+    incompatible ops (i.e. some attention ops) outside the cudagraph
+    for general flexibility.
+
+    FULL mode: Capture full cudagraph for all batches. Can be good for small
+    models or workloads with small prompts; not supported by many backends.
+    Generally for performance FULL_AND_PIECEWISE is better.
+
+    FULL_DECODE_ONLY mode: Capture full cudagraph for decode batches only.
+    Mixed prefill-decode batches are run without cudagraphs. Can be good for
+    decode instances in a P/D setup where prefill is not as important so we
+    can save some memory.
+
+    FULL_AND_PIECEWISE mode: Capture full cudagraph for decode batches and
+    piecewise cudagraph for prefill and mixed prefill-decode batches.
+    This is the most performant mode for most models and is the default.
+
+    Currently, the cudagraph mode is only used for the v1 engine.
+    Note that the cudagraph logic is generally orthogonal to the
+    compilation logic. While piecewise cudagraphs require piecewise
+    compilation (mode=VLLM_COMPILE and non-empty splitting_ops), full
+    cudagraphs are supported with and without compilation.
+
+    Warning: This flag is new and subject to change in addition
+    more modes may be added.
+    """
+    cudagraph_num_of_warmups: int = 0
+    """Number of warmup runs for cudagraph.
+    It means the first several runs will be treated as warmup runs.
+    Only after that, the execution will be recorded, and the recorded
+    cudagraph will be used for subsequent runs."""
+    cudagraph_capture_sizes: list[int] | None = None
+    """Sizes to capture cudagraph.
+    - None (default): capture sizes are inferred from vllm config.
+    - list[int]: capture sizes are specified as given."""
+    cudagraph_copy_inputs: bool = False
+    """Whether to copy input tensors for
+    cudagraph. If the caller can guarantee that the same input buffers
+    are always used, it can set this to False. Otherwise, it should
+    set this to True, and the compiler will copy the input to an
+    internally managed buffer. Default is False.
+    Note that this flag is only effective when cudagraph_mode is PIECEWISE.
+    """
+    cudagraph_specialize_lora: bool = True
+    """Whether to create separate cuda graphs for cases with and without active
+    LoRA adapters. When set to False, the LoRA-enabled cuda graph will be used
+    for all cases, incurring the overhead of running LoRA ops even when no
+    adapters are active. Setting this to True will remove this overhead at the
+    cost of increased startup time and slightly higher memory usage.
+    When `enable_lora` is False, this option has no effect.
+    """
+
+    use_inductor_graph_partition: bool = False
+    """Use inductor graph partition to split the graph at cudagraph_unsafe ops.
+    This partition happens at inductor codegen time after all passes and fusions
+    are finished. It generates a single `call` function which wraps
+    cudagraph-safe ops into partition functions and leave cudagraph-unsafe ops
+    outside the partition functions. For a graph with N cudagraph-unsafe ops
+    (e.g., Attention), there would be N+1 partitions. To mark an op as
+    cudagraph unsafe, we can add `tags=(torch._C.Tag.cudagraph_unsafe)` when
+    register the custom op.
+
+    This config supports both full cudagraph and piecewise cudagraph without
+    compiling twice. For piecewise cudagraph, it applies vLLM CUDAGraph wrapper
+    to each partition. For N+1 partitions, there would be N+1
+    CUDAGraph wrapper instances.
+
+    For full CUDAGraph, we always apply a single CUDAGraph wrapper outside the
+    inductor `call` function in the model runner. The top-level full cudagraph
+    capture ignores all partitioning.
+    """
+
+    pass_config: PassConfig = field(default_factory=PassConfig)
+    """Custom inductor passes, see PassConfig for more details"""
+
+    max_cudagraph_capture_size: int | None = field(default=None)
+    """The maximum cudagraph capture size.
+
+    If cudagraph_capture_sizes is specified, this will be set to the largest
+    size in that list (or checked for consistency if specified). If
+    cudagraph_capture_sizes is not specified, the list of sizes is generated
+    automatically following the pattern:
+
+        [1, 2, 4] + list(range(8, 256, 8)) + list(
+        range(256, max_cudagraph_capture_size + 1, 16))
+
+    If not specified, max_cudagraph_capture_size is set to min(max_num_seqs*2,
+    512) by default. This voids OOM in tight memory scenarios with small
+    max_num_seqs, and prevents capture of many large graphs (>512) that would
+    greatly increase startup time with limited performance benefit.
+    """
+    local_cache_dir: str = field(default=None, init=False)  # type: ignore
+    """local cache dir for each rank"""
+    bs_to_padded_graph_size: list[int] = field(
+        default=None,  # type: ignore
+        init=False,
+    )
+    """optimization:
+    Intuitively, bs_to_padded_graph_size should be dict[int, int].
+    since we know all keys are in a range [0, max_cudagraph_capture_size],
+    we can optimize it to list[int] for better lookup performance."""
+
+    # keep track of enabled and disabled custom ops
+    enabled_custom_ops: Counter[str] = field(default_factory=Counter, init=False)
+    """custom ops that are enabled"""
+    disabled_custom_ops: Counter[str] = field(default_factory=Counter, init=False)
+    """custom ops that are disabled"""
+    traced_files: set[str] = field(default_factory=set, init=False)
+    """files that are traced for compilation"""
+    compilation_time: float = field(default=0.0, init=False)
+    """time taken for compilation"""
+
+    static_forward_context: dict[str, Any] = field(default_factory=dict, init=False)
+    """Per-model forward context
+    Map from layer name to layer objects that need to be accessed outside
+    model code, e.g., Attention, FusedMOE when dp_size>1."""
+
+    # Attention ops; used for piecewise cudagraphs
+    # Use PyTorch operator format: "namespace::name"
+    _attention_ops: ClassVar[list[str]] = [
+        "vllm::unified_attention",
+        "vllm::unified_attention_with_output",
+        "vllm::unified_mla_attention",
+        "vllm::unified_mla_attention_with_output",
+        "vllm::mamba_mixer2",
+        "vllm::mamba_mixer",
+        "vllm::short_conv",
+        "vllm::linear_attention",
+        "vllm::plamo2_mamba_mixer",
+        "vllm::gdn_attention_core",
+        "vllm::kda_attention",
+        "vllm::sparse_attn_indexer",
+    ]
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+        factors.append(self.mode)
+        factors.append(self.backend)
+        factors.append(self.custom_ops)
+        factors.append(self.splitting_ops)
+        factors.append(self.use_inductor)
+        factors.append(self.use_inductor_graph_partition)
+        factors.append(self.inductor_compile_config)
+        factors.append(self.inductor_passes)
+        factors.append(self.pass_config.uuid())
+        factors.append(self.compile_cache_save_format)
+        return hashlib.sha256(str(factors).encode()).hexdigest()
+
+    def __repr__(self) -> str:
+        exclude = {
+            "static_forward_context": True,
+            "enabled_custom_ops": True,
+            "disabled_custom_ops": True,
+            "compilation_time": True,
+            "bs_to_padded_graph_size": True,
+            "traced_files": True,
+            "inductor_compile_config": {
+                "post_grad_custom_post_pass": True,
+            },
+        }
+
+        # exclude default attr in pass_config
+        pass_config_exclude = {}
+        for attr, default_val in vars(PassConfig()).items():
+            if getattr(self.pass_config, attr) == default_val:
+                pass_config_exclude[attr] = True
+        if pass_config_exclude:
+            exclude["pass_config"] = pass_config_exclude
+
+        config = TypeAdapter(CompilationConfig).dump_python(
+            self, exclude=exclude, exclude_unset=True
+        )
+
+        return str(config)
+
+    __str__ = __repr__
+
+    @field_validator("mode", mode="before")
+    @classmethod
+    def validate_mode_before(cls, value: Any) -> Any:
+        """
+        Enable parsing the `mode` field from string mode names.
+        Accepts both integers (0-3) and string names, like NONE, STOCK_TORCH_COMPILE,
+        DYNAMO_TRACE_ONCE, VLLM_COMPILE.
+        """
+        if isinstance(value, str):
+            # Convert string mode name to integer value
+            mode_name = value.upper()
+
+            if mode_name not in CompilationMode.__members__:
+                raise ValueError(
+                    f"Invalid compilation mode: {value}. "
+                    f"Valid modes are: {', '.join(CompilationMode.__members__.keys())}"
+                )
+
+            return CompilationMode[mode_name]
+        return value
+
+    @field_validator("cudagraph_mode", mode="before")
+    @classmethod
+    def validate_cudagraph_mode_before(cls, value: Any) -> Any:
+        """Enable parsing of the `cudagraph_mode` enum type from string."""
+        if isinstance(value, str):
+            return CUDAGraphMode[value.upper()]
+        return value
+
+    @field_validator("pass_config", mode="before")
+    @classmethod
+    def validate_pass_config_before(cls, value: Any) -> Any:
+        """Enable parsing of the `pass_config` field from a dictionary."""
+        if isinstance(value, dict):
+            return PassConfig(**value)
+        return value
+
+    @field_validator("compile_cache_save_format")
+    @classmethod
+    def validate_compile_cache_save_format(cls, value: str) -> str:
+        if value not in ("binary", "unpacked"):
+            raise ValueError(
+                f"compile_cache_save_format must be 'binary' or 'unpacked', "
+                f"got: {value}"
+            )
+        return value
+
+    def __post_init__(self) -> None:
+        if self.level is not None:
+            logger.warning(
+                "Level is deprecated and will be removed in the next release,"
+                "either 0.12.0 or 0.11.2 whichever is soonest."
+                "Use mode instead."
+                "If both level and mode are given,"
+                "only mode will be used."
+            )
+            if self.mode is None:
+                self.mode = self.level
+
+        count_none = self.custom_ops.count("none")
+        count_all = self.custom_ops.count("all")
+        assert count_none + count_all <= 1, "Can only specify 'none' or 'all'"
+
+        # TODO(zou3519/luka): There are 2 issues with auto-functionalization V2:
+        # 1. A bug in PyTorch, fixed in 2.7:
+        #    https://github.com/pytorch/pytorch/issues/147924
+        # 2. Custom passes (fusion) rely on auto-functionalization V1 and don't
+        #    work with V2. Addressing this will take extra engineering effort
+        #    and it is not yet a priority. RFC here:
+        #    https://github.com/vllm-project/vllm/issues/14703
+
+        if is_torch_equal_or_newer("2.6"):
+            KEY = "enable_auto_functionalized_v2"
+            if KEY not in self.inductor_compile_config:
+                self.inductor_compile_config[KEY] = False
+
+        for k, v in self.inductor_passes.items():
+            if not isinstance(v, str):
+                assert callable(v), f"pass {k} should be callable or a qualified name"
+                self.inductor_compile_config[k] = (
+                    v if isinstance(v, InductorPass) else CallableInductorPass(v)
+                )
+                continue
+
+            # resolve function from qualified name
+            names = v.split(".")
+            module = ".".join(names[:-1])
+            func_name = names[-1]
+            func = __import__(module).__dict__[func_name]
+            self.inductor_compile_config[k] = (
+                func if isinstance(func, InductorPass) else CallableInductorPass(func)
+            )
+
+        if self.pass_config.enable_qk_norm_rope_fusion:
+            # TODO(zhuhaoran): support rope native forward match and remove this.
+            # Linked issue: https://github.com/vllm-project/vllm/issues/28042
+            self.custom_ops.append("+rotary_embedding")
+
+        if (
+            is_torch_equal_or_newer("2.9.0.dev")
+            and "combo_kernels" not in self.inductor_compile_config
+            and "benchmark_combo_kernel" not in self.inductor_compile_config
+        ):
+            # use horizontal fusion, which is useful for fusing qk-norm and
+            # qk-rope when query and key have different shapes.
+            self.inductor_compile_config["combo_kernels"] = True
+            self.inductor_compile_config["benchmark_combo_kernel"] = True
+
+        if self.use_inductor_graph_partition and not is_torch_equal_or_newer(
+            "2.9.0.dev"
+        ):
+            raise ValueError(
+                "use_inductor_graph_partition is only "
+                "supported with torch>=2.9.0.dev. Set "
+                "use_inductor_graph_partition=False instead."
+            )
+
+        for op in self.custom_ops:
+            if op[0] not in {"+", "-"} and op not in {"all", "none"}:
+                raise ValueError(
+                    f"Invalid syntax '{op}' for custom op, "
+                    "must be 'all', 'none', '+op' or '-op' "
+                    "(where 'op' is the registered op name)"
+                )
+
+        # Currently only eager and inductor backend are supported.
+        # for piecewise compilation. Custom backends are not suppported for
+        # piecewise compilation. Update when more backends are supported.
+        if self.mode == CompilationMode.VLLM_COMPILE and self.backend not in [
+            "",
+            "eager",
+            "inductor",
+        ]:
+            raise ValueError(
+                f"Invalid backend for piecewise compilation: {self.backend}"
+            )
+
+        if self.use_inductor is not None:
+            logger.warning_once(
+                "The 'use_inductor' flag is deprecated and will be "
+                "removed in the next release (v0.12.0). "
+                "Please use the 'backend' option instead.",
+            )
+            self.backend = "inductor" if self.use_inductor else "eager"
+
+        if self.backend == "":
+            self.backend = current_platform.simple_compile_backend
+
+    def init_backend(self, vllm_config: "VllmConfig") -> str | Callable:
+        """
+        Initialize the backend for the compilation config from a vllm config.
+        Arguments:
+            vllm_config: The vllm config to initialize the backend from.
+        Returns:
+            The backend for the compilation config.
+        """
+        if self.mode is None:
+            raise ValueError(
+                "No compilation mode is set. This method should only be \
+                called via vllm config where the level is set if none is \
+                provided."
+            )
+        if self.mode == CompilationMode.NONE:
+            raise ValueError("No compilation mode is set.")
+
+        from torch._dynamo.backends.registry import list_backends
+
+        torch_backends = list_backends(exclude_tags=tuple())
+        if self.mode in [
+            CompilationMode.STOCK_TORCH_COMPILE,
+            CompilationMode.DYNAMO_TRACE_ONCE,
+        ]:
+            if self.backend in torch_backends:
+                return self.backend
+            return resolve_obj_by_qualname(self.backend)
+
+        assert self.mode == CompilationMode.VLLM_COMPILE
+        if self.backend not in ["eager", "inductor"]:
+            raise ValueError(
+                f"Invalid backend for piecewise compilation: {self.backend}"
+            )
+
+        from vllm.compilation.backends import VllmBackend
+
+        # TODO[@lucaskabela]: See if we can forward prefix
+        # https://github.com/vllm-project/vllm/issues/27045
+        return VllmBackend(vllm_config)
+
+    def post_init_cudagraph_sizes(self) -> None:
+        """To complete the initialization after cudagraph related
+        configs are set. This includes:
+        - initialize compile_sizes
+        - pre-compute the mapping bs_to_padded_graph_size
+        """
+
+        computed_compile_sizes = []
+        if self.compile_sizes is not None:
+            # de-duplicate the sizes provided by the config
+            self.compile_sizes = list(set(self.compile_sizes))
+            for x in self.compile_sizes:
+                if isinstance(x, str):
+                    assert x == "cudagraph_capture_sizes", (
+                        "Unrecognized size type in compile_sizes, "
+                        f"expect 'cudagraph_capture_sizes', got {x}"
+                    )
+                    computed_compile_sizes.extend(self.cudagraph_capture_sizes)
+                else:
+                    assert isinstance(x, int)
+                    computed_compile_sizes.append(x)
+        self.compile_sizes = computed_compile_sizes  # type: ignore
+
+        # make sure the sizes are in ascending order
+        self.cudagraph_capture_sizes.sort()
+        if self.cudagraph_capture_sizes:
+            assert self.cudagraph_capture_sizes[-1] == self.max_cudagraph_capture_size
+
+        # May get recomputed in the model runner if adjustment is needed for spec-decode
+        self.compute_bs_to_padded_graph_size()
+
+    def set_splitting_ops_for_v1(self):
+        # NOTE: this function needs to be called only when mode is
+        # CompilationMode.VLLM_COMPILE
+        assert self.mode == CompilationMode.VLLM_COMPILE, (
+            "set_splitting_ops_for_v1 should only be called when "
+            "mode is CompilationMode.VLLM_COMPILE"
+        )
+
+        if self.use_inductor_graph_partition:
+            self.set_splitting_ops_for_inductor_graph_partition()
+            return
+
+        if self.pass_config.enable_attn_fusion:
+            # here use_inductor_graph_partition is False
+            self.set_splitting_ops_for_attn_fusion()
+            return
+
+        if self.splitting_ops is None:
+            # NOTE: When using full cudagraph, instead of setting an empty
+            # list and capture the full cudagraph inside the flattened fx
+            # graph, we keep the piecewise fx graph structure but capture
+            # the full cudagraph outside the fx graph. This reduces some
+            # cpu overhead when the runtime batch_size is not cudagraph
+            # captured. see https://github.com/vllm-project/vllm/pull/20059
+            # for details. Make a copy to avoid mutating the class-level
+            # list via reference.
+            self.splitting_ops = list(self._attention_ops)
+        elif len(self.splitting_ops) == 0:
+            logger.warning_once("Using piecewise compilation with empty splitting_ops")
+            if self.cudagraph_mode == CUDAGraphMode.PIECEWISE:
+                logger.warning_once(
+                    "Piecewise compilation with empty splitting_ops do not"
+                    "contains piecewise cudagraph. Setting cudagraph_"
+                    "mode to NONE. Hint: If you are using attention backends "
+                    "that support cudagraph, consider manually setting "
+                    "cudagraph_mode to FULL or FULL_DECODE_ONLY to enable "
+                    "full cudagraphs."
+                )
+                self.cudagraph_mode = CUDAGraphMode.NONE
+            elif self.cudagraph_mode == CUDAGraphMode.FULL_AND_PIECEWISE:
+                logger.warning_once(
+                    "Piecewise compilation with empty splitting_ops do not "
+                    "contains piecewise cudagraph. Setting cudagraph_mode "
+                    "to FULL."
+                )
+                self.cudagraph_mode = CUDAGraphMode.FULL
+            self.splitting_ops = []
+
+    def set_splitting_ops_for_inductor_graph_partition(self):
+        assert self.use_inductor_graph_partition
+        if self.splitting_ops is None:
+            self.splitting_ops = list(self._attention_ops)
+
+    def set_splitting_ops_for_attn_fusion(self):
+        assert self.pass_config.enable_attn_fusion
+        if self.splitting_ops is None:
+            self.splitting_ops = []
+            if self.cudagraph_mode.has_piecewise_cudagraphs():
+                logger.warning_once(
+                    "enable_attn_fusion is incompatible with piecewise "
+                    "cudagraph when use_inductor_graph_partition is off. "
+                    "In this case, splitting_ops will be set to empty "
+                    "list, and cudagraph_mode will be set to FULL. "
+                    "Please ensure you are using attention backends that "
+                    "support cudagraph or set cudagraph_mode to NONE "
+                    "explicitly if encountering any problems."
+                )
+                self.cudagraph_mode = CUDAGraphMode.FULL
+
+        assert not self.splitting_ops_contain_attention(), (
+            "attention ops should not be in splitting_ops "
+            "when enable_attn_fusion is True"
+        )
+
+    def splitting_ops_contain_attention(self) -> bool:
+        return self.splitting_ops is not None and all(
+            op in self.splitting_ops for op in self._attention_ops
+        )
+
+    def is_attention_compiled_piecewise(self) -> bool:
+        if not self.splitting_ops_contain_attention():
+            return False
+
+        if not self.use_inductor_graph_partition:
+            # Dynamo-level FX split case
+            return self.mode == CompilationMode.VLLM_COMPILE
+
+        # Inductor partition case
+        return self.backend == "inductor" and self.mode != CompilationMode.NONE
+
+    def custom_op_log_check(self):
+        """
+        This method logs the enabled/disabled custom ops and checks that the
+        passed custom_ops field only contains relevant ops.
+        It is called at the end of set_current_vllm_config,
+        after the custom ops have been instantiated.
+        """
+
+        if len(self.enabled_custom_ops) + len(self.disabled_custom_ops) == 0:
+            logger.debug("No custom ops found in model.")
+            return
+
+        logger.debug("enabled custom ops: %s", self.enabled_custom_ops)
+        logger.debug("disabled custom ops: %s", self.disabled_custom_ops)
+
+        all_ops_in_model = self.enabled_custom_ops | self.disabled_custom_ops
+        for op in self.custom_ops:
+            if op in {"all", "none"}:
+                continue
+
+            assert op[0] in {"+", "-"}, (
+                "Invalid custom op syntax (should be checked during init)"
+            )
+
+            # check if op name exists in model
+            op_name = op[1:]
+            if op_name not in all_ops_in_model:
+                from vllm.model_executor.custom_op import CustomOp
+
+                # Does op exist at all or is it just not present in this model?
+                # Note: Only imported op classes appear in the registry.
+                missing_str = (
+                    "doesn't exist (or wasn't imported/registered)"
+                    if op_name not in CustomOp.op_registry
+                    else "not present in model"
+                )
+
+                enable_str = "enabling" if op[0] == "+" else "disabling"
+                logger.warning_once(
+                    "Op '%s' %s, %s with '%s' has no effect",
+                    op_name,
+                    missing_str,
+                    enable_str,
+                    op,
+                )
+
+    def adjust_cudagraph_sizes_for_spec_decode(
+        self, uniform_decode_query_len: int, tensor_parallel_size: int
+    ):
+        multiple_of = uniform_decode_query_len
+        if tensor_parallel_size > 1 and self.pass_config.enable_sequence_parallelism:
+            multiple_of = max(uniform_decode_query_len, tensor_parallel_size)
+            if (
+                multiple_of % uniform_decode_query_len != 0
+                or multiple_of % tensor_parallel_size != 0
+            ):
+                raise ValueError(
+                    f"Can't determine cudagraph shapes that are both a "
+                    f"multiple of {uniform_decode_query_len} "
+                    f"(num_speculative_tokens + 1) required by spec-decode "
+                    f"and {tensor_parallel_size} (tensor_parallel_size) "
+                    f"required by sequence parallelism please adjust "
+                    f"num_speculative_tokens or disable sequence parallelism"
+                )
+
+        if not self.cudagraph_capture_sizes or multiple_of <= 1:
+            return
+
+        assert self.max_cudagraph_capture_size is not None
+        rounded_sizes = sorted(
+            set(
+                round_up(size, multiple_of)
+                for size in self.cudagraph_capture_sizes
+                if round_up(size, multiple_of) <= self.max_cudagraph_capture_size
+            )
+        )
+
+        if len(rounded_sizes) == 0:
+            logger.warning(
+                "No valid cudagraph sizes after rounding to multiple of "
+                " num_speculative_tokens + 1 (%d); please adjust num_speculative_tokens"
+                " or max_cudagraph_capture_size (or cudagraph_capture_sizes)",
+                multiple_of,
+            )
+            return
+
+        self.max_cudagraph_capture_size = rounded_sizes[-1]
+        self.cudagraph_capture_sizes = rounded_sizes
+
+        # Recompute after adjusting the cudagraph sizes
+        self.compute_bs_to_padded_graph_size()
+
+    def compute_bs_to_padded_graph_size(self):
+        # pre-compute the mapping from batch size to padded graph size
+        self.bs_to_padded_graph_size = [
+            0 for i in range(self.max_cudagraph_capture_size + 1)
+        ]
+        for end, start in zip(
+            self.cudagraph_capture_sizes + [self.max_cudagraph_capture_size + 1],
+            [0] + self.cudagraph_capture_sizes,
+        ):
+            for bs in range(start, end):
+                if bs == start:
+                    self.bs_to_padded_graph_size[bs] = start
+                else:
+                    self.bs_to_padded_graph_size[bs] = end
diff --git a/config/device.py b/config/device.py
new file mode 100644
index 0000000..e85cd15
--- /dev/null
+++ b/config/device.py
@@ -0,0 +1,75 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from dataclasses import field
+from typing import Any, Literal
+
+import torch
+from pydantic import ConfigDict, SkipValidation
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+Device = Literal["auto", "cuda", "cpu", "tpu", "xpu"]
+
+
+@config
+@dataclass(config=ConfigDict(arbitrary_types_allowed=True))
+class DeviceConfig:
+    """Configuration for the device to use for vLLM execution."""
+
+    device: SkipValidation[Device | torch.device | None] = "auto"
+    """Device type for vLLM execution.
+    This parameter is deprecated and will be
+    removed in a future release.
+    It will now be set automatically based
+    on the current platform."""
+    device_type: str = field(init=False)
+    """Device type from the current platform. This is set in
+    `__post_init__`."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # the device/platform information will be summarized
+        # by torch/vllm automatically.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def __post_init__(self):
+        if self.device == "auto":
+            # Automated device type detection
+            from vllm.platforms import current_platform
+
+            self.device_type = current_platform.device_type
+            if not self.device_type:
+                raise RuntimeError(
+                    "Failed to infer device type, please set "
+                    "the environment variable `VLLM_LOGGING_LEVEL=DEBUG` "
+                    "to turn on verbose logging to help debug the issue."
+                )
+        else:
+            # Device type is assigned explicitly
+            if isinstance(self.device, str):
+                self.device_type = self.device
+            elif isinstance(self.device, torch.device):
+                self.device_type = self.device.type
+
+        # Some device types require processing inputs on CPU
+        if self.device_type in ["tpu"]:
+            self.device = None
+        else:
+            # Set device with device type
+            self.device = torch.device(self.device_type)
diff --git a/config/ec_transfer.py b/config/ec_transfer.py
new file mode 100644
index 0000000..d95236f
--- /dev/null
+++ b/config/ec_transfer.py
@@ -0,0 +1,110 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import hashlib
+import uuid
+from dataclasses import field
+from typing import Any, Literal, get_args
+
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+ECProducer = Literal["ec_producer"]
+ECConsumer = Literal["ec_consumer"]
+ECRole = Literal[ECProducer, ECConsumer]
+
+
+@config
+@dataclass
+class ECTransferConfig:
+    """Configuration for distributed EC cache transfer."""
+
+    ec_connector: str | None = None
+    """The EC connector for vLLM to transmit EC caches between vLLM instances.
+    """
+
+    engine_id: str | None = None
+    """The engine id for EC transfers."""
+
+    ec_buffer_device: str | None = "cuda"
+    """The device used by ec connector to buffer the EC cache.
+    Currently only support 'cuda'."""
+
+    ec_buffer_size: float = 1e9
+    """The buffer size for TorchDistributedConnector. Measured in number of
+    bytes. Recommended value: 1e9 (about 1GB)."""
+
+    ec_role: ECRole | None = None
+    """Whether this vLLM instance produces, consumes EC cache, or both. Choices
+    are 'ec_producer', 'ec_consumer'."""
+
+    ec_rank: int | None = None
+    """The rank of this vLLM instance in the EC cache transfer. Typical value:
+    0 for encoder, 1 for pd instance.
+    Currently only 1P1D is supported."""
+
+    ec_parallel_size: int = 1
+    """The number of parallel instances for EC cache transfer. For
+    PyNcclConnector, this should be 2."""
+
+    ec_ip: str = "127.0.0.1"
+    """The EC connector ip, used to build distributed connection."""
+
+    ec_port: int = 14579
+    """The EC connector port, used to build distributed connection."""
+
+    ec_connector_extra_config: dict[str, Any] = field(default_factory=dict)
+    """any extra config that the connector may need."""
+
+    ec_connector_module_path: str | None = None
+    """The Python module path to dynamically load the EC connector from.
+    Only supported in V1."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def __post_init__(self) -> None:
+        if self.engine_id is None:
+            self.engine_id = str(uuid.uuid4())
+
+        if self.ec_role is not None and self.ec_role not in get_args(ECRole):
+            raise ValueError(
+                f"Unsupported ec_role: {self.ec_role}. "
+                f"Supported roles are {get_args(ECRole)}"
+            )
+
+        if self.ec_connector is not None and self.ec_role is None:
+            raise ValueError(
+                "Please specify ec_role when ec_connector "
+                f"is set, supported roles are {get_args(ECRole)}"
+            )
+
+    @property
+    def is_ec_transfer_instance(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECRole)
+
+    @property
+    def is_ec_producer(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECProducer)
+
+    @property
+    def is_ec_consumer(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECConsumer)
+
+    def get_from_extra_config(self, key, default) -> Any:
+        return self.ec_connector_extra_config.get(key, default)
diff --git a/config/kv_events.py b/config/kv_events.py
new file mode 100644
index 0000000..ce46cc0
--- /dev/null
+++ b/config/kv_events.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from typing import Literal
+
+from pydantic import Field
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+
+@config
+@dataclass
+class KVEventsConfig:
+    """Configuration for KV event publishing."""
+
+    enable_kv_cache_events: bool = False
+    """If True, enable KV cache events for tracking block storage and removal.
+    Events can be published externally by zmq using the event publisher config.
+    """
+
+    publisher: Literal["null", "zmq"] = Field(default=None)
+    """The publisher to use for publishing kv events. Can be "null", "zmq".
+    """
+
+    endpoint: str = "tcp://*:5557"
+    """The zmq endpoint to use for publishing kv events.
+    """
+
+    replay_endpoint: str | None = None
+    """The zmq endpoint to use for replaying kv events.
+    """
+
+    buffer_steps: int = 10_000
+    """The number of steps to cache for replay endpoint. Will only save
+    events from the last N steps for the replay endpoint.
+    """
+
+    hwm: int = 100_000
+    """The zmq high water mark for the event publisher. After queueing N events,
+    events will start dropping if the consumer is not keeping up.
+    """
+
+    max_queue_size: int = 100_000
+    """The maximum number of events to queue while waiting for publishing.
+    """
+
+    topic: str = ""
+    """The topic to use for the event publisher. Consumers can subscribe to
+    this topic to receive events.
+    """
+
+    def __post_init__(self):
+        if self.publisher is None:
+            self.publisher = "zmq" if self.enable_kv_cache_events else "null"
diff --git a/config/kv_transfer.py b/config/kv_transfer.py
new file mode 100644
index 0000000..dfd7ef6
--- /dev/null
+++ b/config/kv_transfer.py
@@ -0,0 +1,114 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+import uuid
+from dataclasses import field
+from typing import Any, Literal, get_args
+
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+KVProducer = Literal["kv_producer", "kv_both"]
+KVConsumer = Literal["kv_consumer", "kv_both"]
+KVRole = Literal[KVProducer, KVConsumer]
+
+
+@config
+@dataclass
+class KVTransferConfig:
+    """Configuration for distributed KV cache transfer."""
+
+    kv_connector: str | None = None
+    """The KV connector for vLLM to transmit KV caches between vLLM instances.
+    """
+
+    engine_id: str | None = None
+    """The engine id for KV transfers."""
+
+    kv_buffer_device: str = "cuda"
+    """The device used by kv connector to buffer the KV cache. Choices are 
+    'cuda' and 'cpu'."""
+
+    kv_buffer_size: float = 1e9
+    """The buffer size for TorchDistributedConnector. Measured in number of
+    bytes. Recommended value: 1e9 (about 1GB)."""
+
+    kv_role: KVRole | None = None
+    """Whether this vLLM instance produces, consumes KV cache, or both. Choices
+    are 'kv_producer', 'kv_consumer', and 'kv_both'."""
+
+    kv_rank: int | None = None
+    """The rank of this vLLM instance in the KV cache transfer. Typical value:
+    0 for prefill instance, 1 for decode instance.
+    Currently only 1P1D is supported."""
+
+    kv_parallel_size: int = 1
+    """The number of parallel instances for KV cache transfer. For
+    P2pNcclConnector, this should be 2."""
+
+    kv_ip: str = "127.0.0.1"
+    """The KV connector ip, used to build distributed connection."""
+
+    kv_port: int = 14579
+    """The KV connector port, used to build distributed connection."""
+
+    kv_connector_extra_config: dict[str, Any] = field(default_factory=dict)
+    """any extra config that the connector may need."""
+
+    kv_connector_module_path: str | None = None
+    """The Python module path to dynamically load the KV connector from.
+    Only supported in V1."""
+
+    enable_permute_local_kv: bool = False
+    """Experiment feature flag to enable HND to NHD KV Transfer"""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def __post_init__(self) -> None:
+        if self.engine_id is None:
+            self.engine_id = str(uuid.uuid4())
+
+        if self.kv_role is not None and self.kv_role not in get_args(KVRole):
+            raise ValueError(
+                f"Unsupported kv_role: {self.kv_role}. "
+                f"Supported roles are {get_args(KVRole)}"
+            )
+
+        if self.kv_connector is not None and self.kv_role is None:
+            raise ValueError(
+                "Please specify kv_role when kv_connector "
+                f"is set, supported roles are {get_args(KVRole)}"
+            )
+
+    @property
+    def is_kv_transfer_instance(self) -> bool:
+        return self.kv_connector is not None and self.kv_role in get_args(KVRole)
+
+    @property
+    def is_kv_producer(self) -> bool:
+        return self.kv_connector is not None and self.kv_role in get_args(KVProducer)
+
+    @property
+    def is_kv_consumer(self) -> bool:
+        return self.kv_connector is not None and self.kv_role in get_args(KVConsumer)
+
+    def get_from_extra_config(self, key, default) -> Any:
+        return self.kv_connector_extra_config.get(key, default)
diff --git a/config/load.py b/config/load.py
new file mode 100644
index 0000000..e424f8c
--- /dev/null
+++ b/config/load.py
@@ -0,0 +1,124 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from typing import TYPE_CHECKING, Any
+
+from pydantic import Field, field_validator
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+from vllm.logger import init_logger
+
+if TYPE_CHECKING:
+    from vllm.model_executor.model_loader import LoadFormats
+    from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+else:
+    LoadFormats = Any
+    TensorizerConfig = Any
+
+logger = init_logger(__name__)
+
+
+@config
+@dataclass
+class LoadConfig:
+    """Configuration for loading the model weights."""
+
+    load_format: str | LoadFormats = "auto"
+    """The format of the model weights to load:\n
+    - "auto" will try to load the weights in the safetensors format and fall
+    back to the pytorch bin format if safetensors format is not available.\n
+    - "pt" will load the weights in the pytorch bin format.\n
+    - "safetensors" will load the weights in the safetensors format.\n
+    - "npcache" will load the weights in pytorch format and store a numpy cache
+    to speed up the loading.\n
+    - "dummy" will initialize the weights with random values, which is mainly
+    for profiling.\n
+    - "tensorizer" will use CoreWeave's tensorizer library for fast weight
+    loading. See the Tensorize vLLM Model script in the Examples section for
+    more information.\n
+    - "runai_streamer" will load the Safetensors weights using Run:ai Model
+    Streamer.\n
+    - "runai_streamer_sharded" will load weights from pre-sharded checkpoint
+    files using Run:ai Model Streamer.\n
+    - "bitsandbytes" will load the weights using bitsandbytes quantization.\n
+    - "sharded_state" will load weights from pre-sharded checkpoint files,
+    supporting efficient loading of tensor-parallel models.\n
+    - "gguf" will load weights from GGUF format files (details specified in
+    https://github.com/ggml-org/ggml/blob/master/docs/gguf.md).\n
+    - "mistral" will load weights from consolidated safetensors files used by
+    Mistral models.
+    - Other custom values can be supported via plugins."""
+    download_dir: str | None = None
+    """Directory to download and load the weights, default to the default
+    cache directory of Hugging Face."""
+    safetensors_load_strategy: str = "lazy"
+    """Specifies the loading strategy for safetensors weights.
+    - "lazy" (default): Weights are memory-mapped from the file. This enables
+      on-demand loading and is highly efficient for models on local storage.
+    - "eager": The entire file is read into CPU memory upfront before loading.
+      This is recommended for models on network filesystems (e.g., Lustre, NFS)
+      as it avoids inefficient random reads, significantly speeding up model
+      initialization. However, it uses more CPU RAM.
+    - "torchao": Weights are loaded in upfront and then reconstructed
+      into torchao tensor subclasses. This is used when the checkpoint
+      was quantized using torchao and saved using safetensors.
+      Needs torchao >= 0.14.0
+    """
+    model_loader_extra_config: dict | TensorizerConfig = Field(default_factory=dict)
+    """Extra config for model loader. This will be passed to the model loader
+    corresponding to the chosen load_format."""
+    device: str | None = None
+    """Device to which model weights will be loaded, default to
+    device_config.device"""
+    ignore_patterns: list[str] | str = Field(default_factory=lambda: ["original/**/*"])
+    """The list of patterns to ignore when loading the model. Default to
+    "original/**/*" to avoid repeated loading of llama's checkpoints."""
+    use_tqdm_on_load: bool = True
+    """Whether to enable tqdm for showing progress bar when loading model
+    weights."""
+    pt_load_map_location: str | dict[str, str] = "cpu"
+    """
+    pt_load_map_location: the map location for loading pytorch checkpoint, to
+    support loading checkpoints can only be loaded on certain devices like
+    "cuda", this is equivalent to {"": "cuda"}. Another supported format is
+    mapping from different devices like from GPU 1 to GPU 0:
+    {"cuda:1": "cuda:0"}. Note that when passed from command line, the strings
+    in dictionary needs to be double quoted for json parsing. For more details,
+    see original doc for `map_location` in https://pytorch.org/docs/stable/generated/torch.load.html
+    """
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @field_validator("load_format", mode="after")
+    def _lowercase_load_format(cls, load_format: str) -> str:
+        return load_format.lower()
+
+    @field_validator("ignore_patterns", mode="after")
+    def _validate_ignore_patterns(
+        cls, ignore_patterns: list[str] | str
+    ) -> list[str] | str:
+        if ignore_patterns != ["original/**/*"] and len(ignore_patterns) > 0:
+            logger.info(
+                "Ignoring the following patterns when downloading weights: %s",
+                ignore_patterns,
+            )
+
+        return ignore_patterns
diff --git a/config/lora.py b/config/lora.py
new file mode 100644
index 0000000..84e92ee
--- /dev/null
+++ b/config/lora.py
@@ -0,0 +1,112 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from typing import TYPE_CHECKING, Any, ClassVar, Literal
+
+import torch
+from pydantic import ConfigDict, Field, model_validator
+from pydantic.dataclasses import dataclass
+from typing_extensions import Self
+
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+    from vllm.config.cache import CacheConfig
+else:
+    ModelConfig = Any
+    CacheConfig = Any
+
+logger = init_logger(__name__)
+
+LoRADType = Literal["auto", "float16", "bfloat16"]
+MaxLoRARanks = Literal[1, 8, 16, 32, 64, 128, 256, 320, 512]
+LoRAExtraVocabSize = Literal[256, 512]
+
+
+@config
+@dataclass(config=ConfigDict(arbitrary_types_allowed=True))
+class LoRAConfig:
+    """Configuration for LoRA."""
+
+    max_lora_rank: MaxLoRARanks = 16
+    """Max LoRA rank."""
+    max_loras: int = Field(default=1, ge=1)
+    """Max number of LoRAs in a single batch."""
+    fully_sharded_loras: bool = False
+    """By default, only half of the LoRA computation is sharded with tensor
+    parallelism. Enabling this will use the fully sharded layers. At high
+    sequence length, max rank or tensor parallel size, this is likely faster.
+    """
+    max_cpu_loras: int | None = None
+    """Maximum number of LoRAs to store in CPU memory. Must be >= than
+    `max_loras`."""
+    lora_dtype: torch.dtype | LoRADType = "auto"
+    """Data type for LoRA. If auto, will default to base model dtype."""
+    lora_extra_vocab_size: LoRAExtraVocabSize = Field(
+        default=256,
+        deprecated=(
+            "`lora_extra_vocab_size` is deprecated and will be removed "
+            "in v0.12.0. Additional vocabulary support for "
+            "LoRA adapters is being phased out."
+        ),
+    )
+    """(Deprecated) Maximum size of extra vocabulary that can be present in a 
+    LoRA adapter. Will be removed in v0.12.0."""
+    lora_vocab_padding_size: ClassVar[int] = (
+        current_platform.get_lora_vocab_padding_size()
+    )
+    default_mm_loras: dict[str, str] | None = None
+    """Dictionary mapping specific modalities to LoRA model paths; this field
+    is only applicable to multimodal models and should be leveraged when a
+    model always expects a LoRA to be active when a given modality is present.
+    Note that currently, if a request provides multiple additional
+    modalities, each of which have their own LoRA, we do NOT apply
+    default_mm_loras because we currently only support one lora adapter
+    per prompt. When run in offline mode, the lora IDs for n modalities
+    will be automatically assigned to 1-n with the names of the modalities
+    in alphabetic order."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+        factors.append(self.max_lora_rank)
+        factors.append(self.max_loras)
+        factors.append(self.fully_sharded_loras)
+        factors.append(self.lora_dtype)
+        factors.append(self.lora_extra_vocab_size)
+        factors.append(self.lora_vocab_padding_size)
+
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @model_validator(mode="after")
+    def _validate_lora_config(self) -> Self:
+        if self.max_cpu_loras is None:
+            self.max_cpu_loras = self.max_loras
+        elif self.max_cpu_loras < self.max_loras:
+            raise ValueError(
+                f"max_cpu_loras ({self.max_cpu_loras}) must be >= "
+                f"max_loras ({self.max_loras})"
+            )
+
+        return self
+
+    def verify_with_model_config(self, model_config: ModelConfig):
+        if self.lora_dtype in (None, "auto"):
+            self.lora_dtype = model_config.dtype
+        elif isinstance(self.lora_dtype, str):
+            self.lora_dtype = getattr(torch, self.lora_dtype)
diff --git a/config/model.py b/config/model.py
new file mode 100644
index 0000000..784ed44
--- /dev/null
+++ b/config/model.py
@@ -0,0 +1,2172 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+import json
+import warnings
+from collections.abc import Callable
+from dataclasses import InitVar, field
+from importlib.util import find_spec
+from typing import TYPE_CHECKING, Any, Literal, cast, get_args
+
+import torch
+from pydantic import ConfigDict, SkipValidation, field_validator, model_validator
+from pydantic.dataclasses import dataclass
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+
+import vllm.envs as envs
+from vllm.config.multimodal import MMCacheType, MMEncoderTPMode, MultiModalConfig
+from vllm.config.pooler import PoolerConfig
+from vllm.config.scheduler import RunnerType
+from vllm.config.utils import assert_hashable, config, getattr_iter
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.transformers_utils.config import (
+    ConfigFormat,
+    get_config,
+    get_hf_image_processor_config,
+    get_hf_text_config,
+    get_pooling_config,
+    get_sentence_transformer_tokenizer_config,
+    is_encoder_decoder,
+    try_get_dense_modules,
+    try_get_generation_config,
+    try_get_safetensors_metadata,
+    try_get_tokenizer_config,
+    uses_mrope,
+)
+from vllm.transformers_utils.runai_utils import ObjectStorageModel, is_runai_obj_uri
+from vllm.transformers_utils.utils import maybe_model_redirect
+from vllm.utils.import_utils import LazyLoader
+from vllm.utils.torch_utils import common_broadcastable_dtype
+
+if TYPE_CHECKING:
+    from transformers import PretrainedConfig
+
+    import vllm.model_executor.layers.quantization as me_quant
+    import vllm.model_executor.models as me_models
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config.load import LoadConfig
+    from vllm.config.parallel import ParallelConfig
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.v1.sample.logits_processor import LogitsProcessor
+else:
+    PretrainedConfig = Any
+
+    AttentionBackendEnum = Any
+    me_quant = LazyLoader(
+        "model_executor", globals(), "vllm.model_executor.layers.quantization"
+    )
+    me_models = LazyLoader("model_executor", globals(), "vllm.model_executor.models")
+    LoadConfig = Any
+    ParallelConfig = Any
+    QuantizationMethods = Any
+    LogitsProcessor = Any
+
+logger = init_logger(__name__)
+
+RunnerOption = Literal["auto", RunnerType]
+ConvertType = Literal["none", "embed", "classify", "reward"]
+ConvertOption = Literal["auto", ConvertType]
+TaskOption = Literal[
+    "auto",
+    "generate",
+    "embedding",
+    "embed",
+    "classify",
+    "score",
+    "reward",
+    "transcription",
+    "draft",
+]
+TokenizerMode = Literal["auto", "slow", "mistral", "custom"]
+ModelDType = Literal["auto", "half", "float16", "bfloat16", "float", "float32"]
+LogprobsMode = Literal[
+    "raw_logits", "raw_logprobs", "processed_logits", "processed_logprobs"
+]
+HfOverrides = dict[str, Any] | Callable[[PretrainedConfig], PretrainedConfig]
+ModelImpl = Literal["auto", "vllm", "transformers", "terratorch"]
+LayerBlockType = Literal["attention", "linear_attention", "mamba"]
+
+_RUNNER_TASKS: dict[RunnerType, list[TaskOption]] = {
+    "generate": ["generate", "transcription"],
+    "pooling": ["embedding", "embed", "classify", "score", "reward"],
+    "draft": ["draft"],
+}
+
+_RUNNER_CONVERTS: dict[RunnerType, list[ConvertType]] = {
+    "generate": [],
+    "pooling": ["embed", "classify", "reward"],
+    "draft": [],
+}
+
+
+@config
+@dataclass(config=ConfigDict(arbitrary_types_allowed=True))
+class ModelConfig:
+    """Configuration for the model."""
+
+    model: str = "Qwen/Qwen3-0.6B"
+    """Name or path of the Hugging Face model to use. It is also used as the
+    content for `model_name` tag in metrics output when `served_model_name` is
+    not specified."""
+    runner: RunnerOption = "auto"
+    """The type of model runner to use. Each vLLM instance only supports one
+    model runner, even if the same model can be used for multiple types."""
+    convert: ConvertOption = "auto"
+    """Convert the model using adapters defined in
+    [vllm.model_executor.models.adapters][]. The most common use case is to
+    adapt a text generation model to be used for pooling tasks."""
+    task: TaskOption | None = None
+    """[DEPRECATED] The task to use the model for. If the model supports more
+    than one model runner, this is used to select which model runner to run.
+
+    Note that the model may support other tasks using the same model runner.
+    """
+    tokenizer: SkipValidation[str] = None  # type: ignore
+    """Name or path of the Hugging Face tokenizer to use. If unspecified, model
+    name or path will be used."""
+    tokenizer_mode: TokenizerMode = "auto"
+    """Tokenizer mode:\n
+    - "auto" will use the fast tokenizer if available.\n
+    - "slow" will always use the slow tokenizer.\n
+    - "mistral" will always use the tokenizer from `mistral_common`.\n
+    - "custom" will use --tokenizer to select the preregistered tokenizer."""
+    trust_remote_code: bool = False
+    """Trust remote code (e.g., from HuggingFace) when downloading the model
+    and tokenizer."""
+    dtype: ModelDType | torch.dtype = "auto"
+    """Data type for model weights and activations:\n
+    - "auto" will use FP16 precision for FP32 and FP16 models, and BF16
+    precision for BF16 models.\n
+    - "half" for FP16. Recommended for AWQ quantization.\n
+    - "float16" is the same as "half".\n
+    - "bfloat16" for a balance between precision and range.\n
+    - "float" is shorthand for FP32 precision.\n
+    - "float32" for FP32 precision."""
+    seed: int | None = None
+    """Random seed for reproducibility. Initialized to None in V0, but
+    initialized to 0 in V1."""
+    hf_config: PretrainedConfig = field(init=False)
+    """The Hugging Face config of the model."""
+    hf_text_config: PretrainedConfig = field(init=False)
+    """The Hugging Face config of the text model (same as hf_config for text models)."""
+    hf_config_path: str | None = None
+    """Name or path of the Hugging Face config to use. If unspecified, model
+    name or path will be used."""
+    allowed_local_media_path: str = ""
+    """Allowing API requests to read local images or videos from directories
+    specified by the server file system. This is a security risk. Should only
+    be enabled in trusted environments."""
+    allowed_media_domains: list[str] | None = None
+    """If set, only media URLs that belong to this domain can be used for
+    multi-modal inputs. """
+    revision: str | None = None
+    """The specific model version to use. It can be a branch name, a tag name,
+    or a commit id. If unspecified, will use the default version."""
+    code_revision: str | None = None
+    """The specific revision to use for the model code on the Hugging Face Hub.
+    It can be a branch name, a tag name, or a commit id. If unspecified, will
+    use the default version."""
+    tokenizer_revision: str | None = None
+    """The specific revision to use for the tokenizer on the Hugging Face Hub.
+    It can be a branch name, a tag name, or a commit id. If unspecified, will
+    use the default version."""
+    max_model_len: SkipValidation[int] = None  # type: ignore
+    """Model context length (prompt and output). If unspecified, will be
+    automatically derived from the model config.
+
+    When passing via `--max-model-len`, supports k/m/g/K/M/G in human-readable
+    format. Examples:\n
+    - 1k -> 1000\n
+    - 1K -> 1024\n
+    - 25.6k -> 25,600"""
+    spec_target_max_model_len: int | None = None
+    """Specify the maximum length for spec decoding draft models."""
+    quantization: SkipValidation[QuantizationMethods | None] = None
+    """Method used to quantize the weights. If `None`, we first check the
+    `quantization_config` attribute in the model config file. If that is
+    `None`, we assume the model weights are not quantized and use `dtype` to
+    determine the data type of the weights."""
+    enforce_eager: bool = False
+    """Whether to always use eager-mode PyTorch. If True, we will disable CUDA
+    graph and always execute the model in eager mode. If False, we will use
+    CUDA graph and eager execution in hybrid for maximal performance and
+    flexibility."""
+    max_logprobs: int = 20
+    """Maximum number of log probabilities to return when `logprobs` is
+    specified in `SamplingParams`. The default value comes the default for the
+    OpenAI Chat Completions API. -1 means no cap, i.e. all (output_length *
+    vocab_size) logprobs are allowed to be returned and it may cause OOM."""
+    logprobs_mode: LogprobsMode = "raw_logprobs"
+    """Indicates the content returned in the logprobs and prompt_logprobs.
+    Supported mode:
+    1) raw_logprobs, 2) processed_logprobs, 3) raw_logits, 4) processed_logits.
+    Raw means the values before applying any logit processors, like bad words.
+    Processed means the values after applying all processors, including
+    temperature and top_k/top_p.
+    """
+    disable_sliding_window: bool = False
+    """Whether to disable sliding window. If True, we will disable the sliding
+    window functionality of the model, capping to sliding window size. If the
+    model does not support sliding window, this argument is ignored."""
+    disable_cascade_attn: bool = False
+    """Disable cascade attention for V1. While cascade attention does not
+    change the mathematical correctness, disabling it could be useful for
+    preventing potential numerical issues. Note that even if this is set to
+    False, cascade attention will be only used when the heuristic tells that
+    it's beneficial."""
+    skip_tokenizer_init: bool = False
+    """Skip initialization of tokenizer and detokenizer. Expects valid
+    `prompt_token_ids` and `None` for prompt from the input. The generated
+    output will contain token ids."""
+    enable_prompt_embeds: bool = False
+    """If `True`, enables passing text embeddings as inputs via the
+    `prompt_embeds` key.
+
+    WARNING: The vLLM engine may crash if incorrect shape of embeddings is passed.
+    Only enable this flag for trusted users!"""
+    served_model_name: str | list[str] | None = None
+    """The model name(s) used in the API. If multiple names are provided, the
+    server will respond to any of the provided names. The model name in the
+    model field of a response will be the first name in this list. If not
+    specified, the model name will be the same as the `--model` argument. Noted
+    that this name(s) will also be used in `model_name` tag content of
+    prometheus metrics, if multiple names provided, metrics tag will take the
+    first one."""
+    config_format: str | ConfigFormat = "auto"
+    """The format of the model config to load:\n
+    - "auto" will try to load the config in hf format if available else it
+    will try to load in mistral format.\n
+    - "hf" will load the config in hf format.\n
+    - "mistral" will load the config in mistral format."""
+    hf_token: bool | str | None = None
+    """The token to use as HTTP bearer authorization for remote files . If
+    `True`, will use the token generated when running `huggingface-cli login`
+    (stored in `~/.huggingface`)."""
+    hf_overrides: HfOverrides = field(default_factory=dict)
+    """If a dictionary, contains arguments to be forwarded to the Hugging Face
+    config. If a callable, it is called to update the HuggingFace config."""
+    logits_processor_pattern: str | None = None
+    """Optional regex pattern specifying valid logits processor qualified names
+    that can be passed with the `logits_processors` extra completion argument.
+    Defaults to `None`, which allows no processors."""
+    generation_config: str = "auto"
+    """The folder path to the generation config. Defaults to `"auto"`, the
+    generation config will be loaded from model path. If set to `"vllm"`, no
+    generation config is loaded, vLLM defaults will be used. If set to a folder
+    path, the generation config will be loaded from the specified folder path.
+    If `max_new_tokens` is specified in generation config, then it sets a
+    server-wide limit on the number of output tokens for all requests."""
+    override_generation_config: dict[str, Any] = field(default_factory=dict)
+    """Overrides or sets generation config. e.g. `{"temperature": 0.5}`. If
+    used with `--generation-config auto`, the override parameters will be
+    merged with the default config from the model. If used with
+    `--generation-config vllm`, only the override parameters are used."""
+    enable_sleep_mode: bool = False
+    """Enable sleep mode for the engine (only cuda and
+    hip platforms are supported)."""
+    model_impl: str | ModelImpl = "auto"
+    """Which implementation of the model to use:\n
+    - "auto" will try to use the vLLM implementation, if it exists, and fall
+    back to the Transformers implementation if no vLLM implementation is
+    available.\n
+    - "vllm" will use the vLLM model implementation.\n
+    - "transformers" will use the Transformers model implementation.\n
+    - "terratorch" will use the TerraTorch model implementation.
+    """
+    override_attention_dtype: str | None = None
+    """Override dtype for attention"""
+    logits_processors: list[str | type[LogitsProcessor]] | None = None
+    """One or more logits processors' fully-qualified class names or class
+    definitions"""
+    io_processor_plugin: str | None = None
+    """IOProcessor plugin name to load at model startup"""
+
+    # Pooler config
+    pooler_config: PoolerConfig | None = None
+    """Pooler config which controls the behaviour of output pooling in pooling
+    models."""
+    override_pooler_config: dict | PoolerConfig | None = None
+    """[DEPRECATED] Use `pooler_config` instead. This field will be removed in
+    v0.12.0 or v1.0.0, whichever is sooner."""
+
+    # Multimodal config and init vars
+    multimodal_config: MultiModalConfig | None = None
+    """Configuration for multimodal model. If `None`, this will be inferred
+    from the architecture of `self.model`."""
+    limit_mm_per_prompt: InitVar[dict[str, int | dict[str, int]] | None] = None
+    enable_mm_embeds: InitVar[bool | None] = None
+    media_io_kwargs: InitVar[dict[str, dict[str, Any]] | None] = None
+    mm_processor_kwargs: InitVar[dict[str, Any] | None] = None
+    mm_processor_cache_gb: InitVar[float | None] = None
+    mm_processor_cache_type: InitVar[MMCacheType | None] = None
+    mm_shm_cache_max_object_size_mb: InitVar[int | None] = None
+    mm_encoder_tp_mode: InitVar[MMEncoderTPMode | None] = None
+    mm_encoder_attn_backend: InitVar[AttentionBackendEnum | str | None] = None
+    interleave_mm_strings: InitVar[bool | None] = None
+    skip_mm_profiling: InitVar[bool | None] = None
+    video_pruning_rate: InitVar[float | None] = None
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+        factors.append(self.model)
+        factors.append(self.dtype)
+        factors.append(self.quantization)
+        factors.append(self.revision)
+        factors.append(self.code_revision)
+        factors.append(self.max_model_len)
+        factors.append(self.max_logprobs)
+        factors.append(self.disable_sliding_window)
+        factors.append(self.trust_remote_code)
+        factors.append(self.generation_config)
+        factors.append(self.model_impl)
+        factors.append(self.override_generation_config)
+        factors.append(self.video_pruning_rate)
+        factors.append(self.enable_prompt_embeds)
+
+        # hf_config can control how the model looks!
+        try:
+            hf_config_json = self.hf_config.to_json_string(use_diff=False)
+        except TypeError:
+            from transformers import PretrainedConfig
+
+            from vllm.utils.jsontree import json_map_leaves
+
+            # Handle nested HF configs with unserializable values gracefully
+            hf_config_json = (
+                json.dumps(
+                    json_map_leaves(
+                        lambda v: v.to_dict()
+                        if isinstance(v, PretrainedConfig)
+                        else str(v),
+                        self.hf_config.to_dict(),
+                    ),
+                    indent=2,
+                    sort_keys=True,
+                )
+                + "\n"
+            )
+
+        factors.append(hf_config_json)
+
+        str_factors = str(factors)
+        assert_hashable(str_factors)
+        return hashlib.sha256(str(factors).encode()).hexdigest()
+
+    def _update_nested(
+        self,
+        target: PretrainedConfig | dict[str, Any],
+        updates: dict[str, Any],
+    ) -> None:
+        """Recursively updates a config or dict with nested updates."""
+        for key, value in updates.items():
+            if isinstance(value, dict):
+                # Get the nested target
+                if isinstance(target, dict):
+                    nested_target = target.get(key)
+                else:
+                    nested_target = getattr(target, key, None)
+
+                # If nested target exists and can be updated recursively
+                if nested_target is not None and (
+                    isinstance(nested_target, dict)
+                    or hasattr(nested_target, "__dict__")
+                ):
+                    self._update_nested(nested_target, value)
+                    continue
+
+            # Set the value (base case)
+            if isinstance(target, dict):
+                target[key] = value
+            else:
+                setattr(target, key, value)
+
+    def _apply_dict_overrides(
+        self,
+        config: PretrainedConfig,
+        overrides: dict[str, Any],
+    ) -> None:
+        """Apply dict overrides, handling both nested configs and dict values."""
+        from transformers import PretrainedConfig
+
+        for key, value in overrides.items():
+            attr = getattr(config, key, None)
+            if attr is not None and isinstance(attr, PretrainedConfig):
+                # It's a nested config - recursively update it
+                self._update_nested(attr, value)
+            else:
+                # It's a dict-valued parameter - set it directly
+                setattr(config, key, value)
+
+    def __post_init__(
+        self,
+        # Multimodal config init vars
+        limit_mm_per_prompt: dict[str, int] | None,
+        enable_mm_embeds: bool | None,
+        media_io_kwargs: dict[str, dict[str, Any]] | None,
+        mm_processor_kwargs: dict[str, Any] | None,
+        mm_processor_cache_gb: float | None,
+        mm_processor_cache_type: MMCacheType | None,
+        mm_shm_cache_max_object_size_mb: int | None,
+        mm_encoder_tp_mode: MMEncoderTPMode | None,
+        mm_encoder_attn_backend: AttentionBackendEnum | str | None,
+        interleave_mm_strings: bool | None,
+        skip_mm_profiling: bool | None,
+        video_pruning_rate: float | None,
+    ) -> None:
+        # Set the default seed to 0 in V1.
+        # NOTE(woosuk): In V1, we use separate processes for workers (unless
+        # VLLM_ENABLE_V1_MULTIPROCESSING=0), so setting a seed here
+        # doesn't affect the user process. However, without a consistent seed,
+        # different tensor parallel workers would sample different tokens,
+        # leading to inconsistent results.
+        if self.seed is None:
+            self.seed = 0
+            if not envs.VLLM_ENABLE_V1_MULTIPROCESSING:
+                logger.warning(
+                    "The global random seed is set to %d. Since "
+                    "VLLM_ENABLE_V1_MULTIPROCESSING is set to False, this may "
+                    "affect the random state of the Python process that "
+                    "launched vLLM.",
+                    self.seed,
+                )
+
+        # Keep set served_model_name before maybe_model_redirect(self.model)
+        self.served_model_name = get_served_model_name(
+            self.model, self.served_model_name
+        )
+        self.model = maybe_model_redirect(self.model)
+        # The tokenizer is consistent with the model by default.
+        if self.tokenizer is None:
+            self.tokenizer = self.model
+        if self.tokenizer_revision is None:
+            self.tokenizer_revision = self.revision
+        self.tokenizer = maybe_model_redirect(self.tokenizer)
+
+        if isinstance(self.hf_config_path, str):
+            self.hf_config_path = maybe_model_redirect(self.hf_config_path)
+
+        if callable(self.hf_overrides):
+            hf_overrides_kw = {}
+            hf_overrides_fn = self.hf_overrides
+            dict_overrides: dict[str, Any] = {}
+        else:
+            # Separate dict overrides from flat ones
+            # We'll determine how to apply dict overrides after loading the config
+            hf_overrides_kw = {}
+            dict_overrides = {}
+            for key, value in self.hf_overrides.items():
+                if isinstance(value, dict):
+                    dict_overrides[key] = value
+                else:
+                    hf_overrides_kw[key] = value
+            hf_overrides_fn = None
+
+        self.maybe_pull_model_tokenizer_for_runai(self.model, self.tokenizer)
+
+        if (
+            (backend := envs.VLLM_ATTENTION_BACKEND)
+            and backend == "FLASHINFER"
+            and find_spec("flashinfer") is None
+        ):
+            raise ValueError(
+                "VLLM_ATTENTION_BACKEND is set to FLASHINFER, but flashinfer "
+                "module was not found. See "
+                "https://github.com/vllm-project/vllm/blob/main/docker/Dockerfile "  # noqa: E501
+                "for instructions on how to install it."
+            )
+
+        from vllm.platforms import current_platform
+
+        if self.override_attention_dtype is not None and not current_platform.is_rocm():
+            warnings.warn(
+                "override-attention-dtype is set but not using ROCm platform",
+                stacklevel=2,
+            )
+
+        if self.enable_sleep_mode and not current_platform.is_sleep_mode_available():
+            raise ValueError("Sleep mode is not supported on current platform.")
+
+        hf_config = get_config(
+            self.hf_config_path or self.model,
+            self.trust_remote_code,
+            self.revision,
+            self.code_revision,
+            self.config_format,
+            hf_overrides_kw=hf_overrides_kw,
+            hf_overrides_fn=hf_overrides_fn,
+        )
+
+        self.hf_config = hf_config
+        if dict_overrides:
+            self._apply_dict_overrides(hf_config, dict_overrides)
+        self.hf_text_config = get_hf_text_config(self.hf_config)
+        self.attention_chunk_size = getattr(
+            self.hf_text_config, "attention_chunk_size", None
+        )
+        self.encoder_config = self._get_encoder_config()
+        self.hf_image_processor_config = get_hf_image_processor_config(
+            self.model, hf_token=self.hf_token, revision=self.revision
+        )
+
+        architectures = self.architectures
+        registry = self.registry
+        is_generative_model = registry.is_text_generation_model(architectures, self)
+        is_pooling_model = registry.is_pooling_model(architectures, self)
+
+        def _task_to_convert(task: TaskOption) -> ConvertType:
+            if task == "embedding" or task == "embed":
+                return "embed"
+            if task == "classify":
+                return "classify"
+            if task == "reward":
+                return "reward"
+            if task == "score":
+                new_task = self._get_default_pooling_task(architectures)
+                return "classify" if new_task == "classify" else "embed"
+
+            return "none"
+
+        if self.task is not None:
+            runner: RunnerOption = "auto"
+            convert: ConvertOption = "auto"
+            msg_prefix = (
+                "The 'task' option has been deprecated and will be "
+                "removed in v0.13.0 or v1.0, whichever comes first."
+            )
+            msg_hint = "Please remove this option."
+
+            is_generative_task = self.task in _RUNNER_TASKS["generate"]
+            is_pooling_task = self.task in _RUNNER_TASKS["pooling"]
+
+            if is_generative_model and is_pooling_model:
+                if is_generative_task:
+                    runner = "generate"
+                    convert = "auto"
+                    msg_hint = (
+                        "Please replace this option with `--runner "
+                        "generate` to continue using this model "
+                        "as a generative model."
+                    )
+                elif is_pooling_task:
+                    runner = "pooling"
+                    convert = "auto"
+                    msg_hint = (
+                        "Please replace this option with `--runner "
+                        "pooling` to continue using this model "
+                        "as a pooling model."
+                    )
+                else:  # task == "auto"
+                    pass
+            elif is_generative_model or is_pooling_model:
+                if is_generative_task:
+                    runner = "generate"
+                    convert = "auto"
+                    msg_hint = "Please remove this option"
+                elif is_pooling_task:
+                    runner = "pooling"
+                    convert = _task_to_convert(self.task)
+                    msg_hint = (
+                        "Please replace this option with `--convert "
+                        f"{convert}` to continue using this model "
+                        "as a pooling model."
+                    )
+                else:  # task == "auto"
+                    pass
+            else:
+                debug_info = {
+                    "architectures": architectures,
+                    "is_generative_model": is_generative_model,
+                    "is_pooling_model": is_pooling_model,
+                }
+                raise AssertionError(
+                    "The model should be a generative or "
+                    "pooling model when task is set to "
+                    f"{self.task!r}. Found: {debug_info}"
+                )
+
+            self.runner = runner
+            self.convert = convert
+
+            msg = f"{msg_prefix} {msg_hint}"
+            warnings.warn(msg, DeprecationWarning, stacklevel=2)
+
+        self.runner_type = self._get_runner_type(architectures, self.runner)
+        self.convert_type = self._get_convert_type(
+            architectures, self.runner_type, self.convert
+        )
+
+        if self.runner_type == "generate" and not is_generative_model:
+            generate_converts = _RUNNER_CONVERTS["generate"]
+            if self.convert_type not in generate_converts:
+                # Currently we don't have any converters for generative models
+                raise ValueError("This model does not support `--runner generate`.")
+        if self.runner_type == "pooling" and not is_pooling_model:
+            pooling_converts = _RUNNER_CONVERTS["pooling"]
+            if self.convert_type not in pooling_converts:
+                convert_option = "<" + "|".join(pooling_converts) + ">"
+                raise ValueError(
+                    "This model does not support `--runner pooling`. "
+                    f"You can pass `--convert {convert_option} to adapt "
+                    "it into a pooling model."
+                )
+
+        # Note: Initialize these attributes early because transformers fallback
+        # may fail to load dynamic modules in child processes
+        model_info, arch = registry.inspect_model_cls(architectures, self)
+        self._model_info = model_info
+        self._architecture = arch
+        logger.info("Resolved architecture: %s", arch)
+
+        # Init pooler config if needed
+        if self.runner_type == "pooling":
+            if self.override_pooler_config is not None:
+                logger.warning_once(
+                    "`override_pooler_config` is deprecated and will be "
+                    "removed in v0.12.0 or v1.0.0, whichever is sooner. "
+                    "Please use `pooler_config` instead."
+                )
+
+                if isinstance(self.override_pooler_config, dict):
+                    self.pooler_config = PoolerConfig(**self.override_pooler_config)
+                else:
+                    self.pooler_config = self.override_pooler_config
+
+            if self.pooler_config is None:
+                self.pooler_config = PoolerConfig()
+
+            base_config = get_pooling_config(self.model, self.revision)
+            if base_config is not None:
+                # Only set values that are not overridden by the user
+                for k, v in base_config.items():
+                    if getattr(self.pooler_config, k) is None:
+                        setattr(self.pooler_config, k, v)
+
+            default_pooling_type = self._model_info.default_pooling_type
+            if self.pooler_config.pooling_type is None:
+                self.pooler_config.pooling_type = default_pooling_type
+
+        self.dtype: torch.dtype = _get_and_verify_dtype(
+            self.model,
+            self.hf_config,
+            self.dtype,
+            is_pooling_model=self.runner_type == "pooling",
+            revision=self.revision,
+        )
+
+        self.original_max_model_len = self.max_model_len
+        self.max_model_len = self.get_and_verify_max_len(self.max_model_len)
+        # Init multimodal config if needed
+        if self._model_info.supports_multimodal:
+            if (
+                mm_encoder_tp_mode == "data"
+                and not self._model_info.supports_multimodal_encoder_tp_data
+            ):
+                logger.warning_once(
+                    "This model does not support `--mm-encoder-tp-mode data`. "
+                    "Falling back to `--mm-encoder-tp-mode weights`."
+                )
+                mm_encoder_tp_mode = "weights"
+
+            mm_config_kwargs = dict(
+                limit_per_prompt=limit_mm_per_prompt,
+                enable_mm_embeds=enable_mm_embeds,
+                media_io_kwargs=media_io_kwargs,
+                mm_processor_kwargs=mm_processor_kwargs,
+                mm_processor_cache_gb=mm_processor_cache_gb,
+                mm_processor_cache_type=mm_processor_cache_type,
+                mm_shm_cache_max_object_size_mb=mm_shm_cache_max_object_size_mb,
+                mm_encoder_tp_mode=mm_encoder_tp_mode,
+                mm_encoder_attn_backend=mm_encoder_attn_backend,
+                interleave_mm_strings=interleave_mm_strings,
+                skip_mm_profiling=skip_mm_profiling,
+                video_pruning_rate=video_pruning_rate,
+            )
+
+            mm_config_kwargs = {
+                k: v for k, v in mm_config_kwargs.items() if v is not None
+            }
+
+            self.multimodal_config = MultiModalConfig(**mm_config_kwargs)
+
+        if self.disable_sliding_window:
+            # Set after get_and_verify_max_len to ensure that max_model_len
+            # can be correctly capped to sliding window size
+            self.hf_text_config.sliding_window = None
+
+        if not self.skip_tokenizer_init:
+            self._verify_tokenizer_mode()
+
+        # Avoid running try_verify_and_update_config multiple times
+        self.config_updated = False
+
+        self._verify_quantization()
+        self._verify_cuda_graph()
+        import os
+        enforce_cuda_graph = os.environ.get("VLLM_ENFORCE_CUDA_GRAPH",None)
+        if enforce_cuda_graph is not None and enforce_cuda_graph in ["1", "y", "Y"]:
+            self.enforce_eager = False
+        else:
+            self.enforce_eager = True
+            logger.warning_once(
+                "Please export VLLM_ENFORCE_CUDA_GRAPH=1 to enable cuda graph. "
+                "For now, cuda graph is not used and --enforce-eager is disabled ,"
+                "we are trying to use cuda graph as the default mode")
+        self._verify_bnb_config()
+
+    @field_validator("quantization", mode="before")
+    @classmethod
+    def validate_quantization_before(cls, value: Any) -> Any:
+        if isinstance(value, str):
+            return value.lower()
+        return value
+
+    @model_validator(mode="after")
+    def validate_model_config_after(self: "ModelConfig") -> "ModelConfig":
+        if not isinstance(self.tokenizer, str):
+            raise ValueError("tokenizer must be a string after __post_init__.")
+        if not isinstance(self.max_model_len, int):
+            raise ValueError("max_model_len must be an integer after __post_init__.")
+        return self
+
+    def _get_transformers_backend_cls(self) -> str:
+        """Determine which Transformers modeling backend class will be used if
+        `model_impl` is set to `transformers` or `auto`."""
+        cls = "Transformers"
+        # If 'hf_config != hf_text_config' it's a nested config, i.e. multimodal
+        cls += "MultiModal" if self.hf_config != self.hf_text_config else ""
+        cls += "MoE" if self.get_num_experts() > 1 else ""
+        # Check if the architecture we're wrapping has defaults
+        runner = None
+        task = None
+        if defaults := try_match_architecture_defaults(self.architectures[0]):
+            _, (runner, task) = defaults
+        # User specified value take precedence
+        if self.runner != "auto":
+            runner = self.runner
+        # Only consider Transformers modeling backend pooling classes if we're wrapping
+        # an architecture that defaults to pooling. Otherwise, we return the LM class
+        # and use adapters.
+        if runner == "pooling" and task in {"embed", "classify"}:
+            if task == "embed":
+                cls += "EmbeddingModel"
+            elif task == "classify":
+                cls += "ForSequenceClassification"
+        else:
+            cls += "ForCausalLM"
+        return cls
+
+    def using_transformers_backend(self) -> bool:
+        """Check if the model is using the Transformers modeling backend class."""
+        used_cls = self._model_info.architecture
+        transformers_backend_cls = self._get_transformers_backend_cls()
+        return used_cls == transformers_backend_cls
+
+    @property
+    def registry(self):
+        return me_models.ModelRegistry
+
+    @property
+    def architectures(self) -> list[str]:
+        return getattr(self.hf_config, "architectures", [])
+
+    @property
+    def architecture(self) -> str:
+        """The architecture vllm actually used."""
+        return self._architecture
+
+    def maybe_pull_model_tokenizer_for_runai(self, model: str, tokenizer: str) -> None:
+        """Pull model/tokenizer from Object Storage to temporary
+        directory when needed.
+
+        Args:
+            model: Model name or path
+            tokenizer: Tokenizer name or path
+        """
+
+        if not (is_runai_obj_uri(model) or is_runai_obj_uri(tokenizer)):
+            return
+
+        if is_runai_obj_uri(model):
+            object_storage_model = ObjectStorageModel(url=model)
+            object_storage_model.pull_files(
+                model, allow_pattern=["*.model", "*.py", "*.json"]
+            )
+            self.model_weights = model
+            self.model = object_storage_model.dir
+
+            # If tokenizer is same as model, download to same directory
+            if model == tokenizer:
+                object_storage_model.pull_files(
+                    model,
+                    ignore_pattern=[
+                        "*.pt",
+                        "*.safetensors",
+                        "*.bin",
+                        "*.tensors",
+                        "*.pth",
+                    ],
+                )
+                self.tokenizer = object_storage_model.dir
+                return
+
+        # Only download tokenizer if needed and not already handled
+        if is_runai_obj_uri(tokenizer):
+            object_storage_tokenizer = ObjectStorageModel(url=tokenizer)
+            object_storage_tokenizer.pull_files(
+                model,
+                ignore_pattern=["*.pt", "*.safetensors", "*.bin", "*.tensors", "*.pth"],
+            )
+            self.tokenizer = object_storage_tokenizer.dir
+
+    def _get_encoder_config(self):
+        return get_sentence_transformer_tokenizer_config(self.model, self.revision)
+
+    def _verify_tokenizer_mode(self) -> None:
+        tokenizer_mode = cast(TokenizerMode, self.tokenizer_mode.lower())
+        if tokenizer_mode not in get_args(TokenizerMode):
+            raise ValueError(
+                f"Unknown tokenizer mode: {self.tokenizer_mode}. Must be "
+                f"one of {get_args(TokenizerMode)}."
+            )
+        self.tokenizer_mode = tokenizer_mode
+
+    def _get_default_runner_type(
+        self,
+        architectures: list[str],
+    ) -> RunnerType:
+        registry = self.registry
+
+        # Some Sentence Transformers models use *ForCausalLM archs
+        if get_pooling_config(self.model, self.revision):
+            return "pooling"
+
+        for arch in architectures:
+            if arch in registry.get_supported_archs():
+                if registry.is_pooling_model(architectures, self):
+                    return "pooling"
+                if registry.is_text_generation_model(architectures, self):
+                    return "generate"
+
+            match = try_match_architecture_defaults(arch)
+            if match:
+                _, (runner_type, _) = match
+                return runner_type
+
+        return "generate"
+
+    def _get_runner_type(
+        self,
+        architectures: list[str],
+        runner: RunnerOption,
+    ) -> RunnerType:
+        if runner != "auto":
+            return runner
+
+        runner_type = self._get_default_runner_type(architectures)
+
+        # Don't log the most common case
+        if runner_type != "generate":
+            logger.info(
+                "Resolved `--runner auto` to `--runner %s`. "
+                "Pass the value explicitly to silence this message.",
+                runner_type,
+            )
+
+        return runner_type
+
+    def _get_default_convert_type(
+        self,
+        architectures: list[str],
+        runner_type: RunnerType,
+    ) -> ConvertType:
+        registry = self.registry
+
+        for arch in architectures:
+            if arch in registry.get_supported_archs():
+                if runner_type == "generate" and registry.is_text_generation_model(
+                    architectures, self
+                ):
+                    return "none"
+                if runner_type == "pooling" and registry.is_pooling_model(
+                    architectures, self
+                ):
+                    return "none"
+
+            match = try_match_architecture_defaults(arch, runner_type=runner_type)
+            if match:
+                _, (_, convert_type) = match
+                return convert_type
+
+        # This is to handle Sentence Transformers models that use *ForCausalLM
+        # and also multi-modal pooling models which are not defined as
+        # Sentence Transformers models
+        if runner_type == "pooling":
+            return "embed"
+
+        return "none"
+
+    def _get_convert_type(
+        self,
+        architectures: list[str],
+        runner_type: RunnerType,
+        convert: ConvertOption,
+    ) -> ConvertType:
+        if convert != "auto":
+            return convert
+
+        convert_type = self._get_default_convert_type(architectures, runner_type)
+
+        # Don't log the most common case
+        if convert_type != "none":
+            logger.info(
+                "Resolved `--convert auto` to `--convert %s`. "
+                "Pass the value explicitly to silence this message.",
+                convert_type,
+            )
+
+        return convert_type
+
+    def _get_default_pooling_task(
+        self,
+        architectures: list[str],
+    ) -> Literal["embed", "classify", "reward"]:
+        if self.registry.is_cross_encoder_model(architectures, self):
+            return "classify"
+
+        for arch in architectures:
+            match = try_match_architecture_defaults(arch, runner_type="pooling")
+            if match:
+                _, (_, convert_type) = match
+                assert convert_type != "none"
+                return convert_type
+
+        return "embed"
+
+    def _parse_quant_hf_config(self, hf_config: PretrainedConfig):
+        quant_cfg = getattr(hf_config, "quantization_config", None)
+        if quant_cfg is None:
+            # compressed-tensors uses a "compression_config" key
+            quant_cfg = getattr(hf_config, "compression_config", None)
+
+        else:
+            # Set quant_method for ModelOpt models.
+            producer_name = quant_cfg.get("producer", {}).get("name")
+            if producer_name == "modelopt":
+                quant_algo = quant_cfg.get("quantization", {}).get("quant_algo")
+                if quant_algo == "FP8":
+                    quant_cfg["quant_method"] = "modelopt"
+                elif quant_algo == "NVFP4":
+                    quant_cfg["quant_method"] = "modelopt_fp4"
+                elif quant_algo is not None:
+                    raise ValueError(f"Unknown ModelOpt quant algo: {quant_algo}")
+
+        return quant_cfg
+
+    def _verify_quantization(self) -> None:
+        supported_quantization = me_quant.QUANTIZATION_METHODS
+        if self.quantization is not None:
+            self.quantization = cast(me_quant.QuantizationMethods, self.quantization)
+
+        # Parse quantization method from the HF model config, if available.
+        quant_cfg = self._parse_quant_hf_config(self.hf_config)
+        if quant_cfg is None and (
+            text_config := getattr(self.hf_config, "text_config", None)
+        ):
+            # Check the text config as well for multi-modal models.
+            quant_cfg = self._parse_quant_hf_config(text_config)
+
+        if quant_cfg is not None:
+            # Use the community standard 'quant_method'
+            quant_method = quant_cfg.get("quant_method", "").lower()
+
+            # Normalize library names
+            quant_method = quant_method.replace(
+                "compressed_tensors", "compressed-tensors"
+            )
+
+            quant_cfg["quant_method"] = quant_method
+
+            # Quantization methods which are overrides (i.e. they have a
+            # `override_quantization_method` method) must be checked in order
+            # of preference (this is particularly important for GPTQ).
+            overrides = [
+                "bitblas",
+                "gptq_marlin_24",
+                "gptq_marlin",
+                "gptq_bitblas",
+                "awq_marlin",
+                "ipex",
+                "moe_wna16",
+                "modelopt",
+                "modelopt_fp4",
+                "petit_nvfp4",
+                # Ensure heavy backends are probed last to avoid unnecessary
+                # imports during override detection (e.g., MXFP4 imports Triton)
+                "mxfp4",
+            ]
+            quantization_methods = [
+                q for q in supported_quantization if q not in overrides
+            ]
+            # Any custom overrides will be in quantization_methods so we place
+            # them at the start of the list so custom overrides have preference
+            # over the built-in ones.
+            quantization_methods = quantization_methods + overrides
+
+            # Detect which checkpoint is it
+            for name in quantization_methods:
+                method = me_quant.get_quantization_config(name)
+                quantization_override = method.override_quantization_method(
+                    quant_cfg, self.quantization
+                )
+                if quantization_override is not None:
+                    # Raise error if the override is not custom (custom would
+                    # be in QUANTIZATION_METHODS but not QuantizationMethods)
+                    # and hasn't been added to the overrides list.
+                    if (
+                        name in get_args(me_quant.QuantizationMethods)
+                        and name not in overrides
+                    ):
+                        raise ValueError(
+                            f"Quantization method {name} is an override but "
+                            "is has not been added to the `overrides` list "
+                            "above. This is necessary to ensure that the "
+                            "overrides are checked in order of preference."
+                        )
+                    quant_method = quantization_override
+                    self.quantization = quantization_override
+                    break
+
+            quant_method = quant_method if quant_method != "" else None
+            # Verify quantization configurations.
+            if self.quantization is None:
+                self.quantization = quant_method
+            elif self.quantization != quant_method:
+                raise ValueError(
+                    "Quantization method specified in the model config "
+                    f"({quant_method}) does not match the quantization "
+                    f"method specified in the `quantization` argument "
+                    f"({self.quantization})."
+                )
+
+        if self.quantization is not None:
+            if self.quantization not in supported_quantization:
+                raise ValueError(
+                    f"Unknown quantization method: {self.quantization}. Must "
+                    f"be one of {supported_quantization}."
+                )
+            from vllm.platforms import current_platform
+
+            current_platform.verify_quantization(self.quantization)
+
+    def _verify_cuda_graph(self) -> None:
+        # CUDAGraph capture not supported for encoder-decoder models on ROCm
+        unsupported_rocm = self.is_encoder_decoder
+        if unsupported_rocm and not self.enforce_eager and current_platform.is_rocm():
+            logger.warning(
+                "CUDA graph is not supported for %s on ROCm yet, fallback "
+                "to eager mode.",
+                self.hf_config.model_type,
+            )
+            self.enforce_eager = True
+
+    def _verify_bnb_config(self) -> None:
+        """
+        The current version of bitsandbytes (0.46.1) with 8-bit models does not
+        yet support CUDA graph.
+        # TODO Remove this when bitsandbytes supports.
+        """
+        is_bitsandbytes = self.quantization == "bitsandbytes"
+        has_quantization_config = (
+            getattr(self.hf_config, "quantization_config", None) is not None
+        )
+        is_8bit = (
+            self.hf_config.quantization_config.get("load_in_8bit", False)
+            if has_quantization_config
+            else False
+        )
+        if all(
+            [
+                is_bitsandbytes,
+                has_quantization_config,
+                is_8bit,
+                not self.enforce_eager,
+            ]
+        ):
+            logger.warning(
+                "CUDA graph is not supported on BitsAndBytes 8bit yet, "
+                "fallback to the eager mode."
+            )
+
+            self.enforce_eager = True
+
+    def _verify_with_expert_parallelism(self) -> None:
+        num_experts = self.get_num_experts()
+        if num_experts < 1:
+            raise ValueError(
+                "Number of experts in the model must be greater than 0 "
+                "when expert parallelism is enabled."
+            )
+
+    def verify_dual_chunk_attention_config(
+        self,
+        load_config: LoadConfig,
+    ) -> None:
+        if hasattr(self.hf_config, "dual_chunk_attention_config"):
+            # Try loading the sparse attention config
+            from vllm.model_executor.model_loader.weight_utils import (
+                get_sparse_attention_config,
+            )
+
+            sparse_attn_config = get_sparse_attention_config(self, load_config)
+            if sparse_attn_config:
+                self.hf_config.dual_chunk_attention_config[
+                    "sparse_attention_config"
+                ] = sparse_attn_config
+                if (
+                    "sparse_attention_enabled"
+                    not in self.hf_config.dual_chunk_attention_config
+                ):
+                    self.hf_config.dual_chunk_attention_config[
+                        "sparse_attention_enabled"
+                    ] = True
+
+    def verify_with_parallel_config(
+        self,
+        parallel_config: ParallelConfig,
+    ) -> None:
+        if parallel_config.distributed_executor_backend == "external_launcher":
+            assert self.seed is not None, (
+                "Seed must be set when using external launcher backend to "
+                "make sure sampling results are the same across workers."
+            )
+
+        total_num_attention_heads = getattr(
+            self.hf_text_config, "num_attention_heads", 0
+        )
+        tensor_parallel_size = parallel_config.tensor_parallel_size
+        if total_num_attention_heads % tensor_parallel_size != 0:
+            raise ValueError(
+                f"Total number of attention heads ({total_num_attention_heads})"
+                " must be divisible by tensor parallel size "
+                f"({tensor_parallel_size})."
+            )
+
+        if parallel_config.enable_expert_parallel:
+            self._verify_with_expert_parallelism()
+
+        pipeline_parallel_size = parallel_config.pipeline_parallel_size
+        if pipeline_parallel_size > 1 and not self.registry.is_pp_supported_model(
+            self.architectures, self
+        ):
+            raise NotImplementedError(
+                "Pipeline parallelism is not supported for this model. "
+                "Supported models implement the `SupportsPP` interface."
+            )
+
+        decode_context_parallel_size = parallel_config.decode_context_parallel_size
+        if decode_context_parallel_size > 1 and not self.use_mla:
+            total_num_kv_heads = self.get_total_num_kv_heads()
+            assert tensor_parallel_size > total_num_kv_heads, (
+                f"tensor parallel size {tensor_parallel_size} must be greater "
+                f"than total num kv heads {total_num_kv_heads} when enable "
+                f"decode context parallel for GQA/MQA"
+            )
+
+            max_dcp_size = tensor_parallel_size // total_num_kv_heads
+            assert decode_context_parallel_size <= max_dcp_size, (
+                f"decode context parallel size must less than or equal to "
+                f"(tensor parallel size {tensor_parallel_size} // total "
+                f"num kv heads {total_num_kv_heads}) = {max_dcp_size}, "
+                f"but got {decode_context_parallel_size}"
+            )
+
+            num_q_per_kv = total_num_attention_heads // total_num_kv_heads
+            assert num_q_per_kv % decode_context_parallel_size == 0, (
+                f"Total number of q per kv attn heads ({num_q_per_kv})"
+                " must be divisible by dcp world size when enable "
+                "decode context parallel for GQA "
+                f"({parallel_config.decode_context_parallel_size})."
+            )
+
+    def get_sliding_window(self) -> int | None:
+        """Get the sliding window size from the HF text config if present."""
+        return getattr(self.hf_text_config, "sliding_window", None)
+
+    def get_vocab_size(self) -> int:
+        return getattr(self.hf_text_config, "vocab_size", 0)
+
+    def get_hidden_size(self) -> int:
+        return getattr(self.hf_text_config, "hidden_size", 0)
+
+    @property
+    def is_deepseek_mla(self) -> bool:
+        if not hasattr(self.hf_text_config, "model_type"):
+            return False
+        elif self.hf_text_config.model_type in (
+            "deepseek_v2",
+            "deepseek_v3",
+            "deepseek_v32",
+            "deepseek_mtp",
+            "kimi_k2",
+            "kimi_linear",
+            "longcat_flash",
+            "pangu_ultra_moe",
+            "pangu_ultra_moe_mtp",
+        ):
+            return self.hf_text_config.kv_lora_rank is not None
+        elif self.hf_text_config.model_type == "eagle":
+            # if the model is an EAGLE module, check for the
+            # underlying architecture
+            return (
+                self.hf_text_config.model.model_type
+                in ("deepseek_v2", "deepseek_v3", "deepseek_v32")
+                and self.hf_text_config.kv_lora_rank is not None
+            )
+        return False
+
+    def get_head_size(self) -> int:
+        # TODO remove hard code
+        if self.is_deepseek_mla:
+            qk_rope_head_dim = getattr(self.hf_text_config, "qk_rope_head_dim", 0)
+            if self.use_mla:
+                return self.hf_text_config.kv_lora_rank + qk_rope_head_dim
+            else:
+                qk_nope_head_dim = getattr(self.hf_text_config, "qk_nope_head_dim", 0)
+                if qk_rope_head_dim and qk_nope_head_dim:
+                    return qk_rope_head_dim + qk_nope_head_dim
+
+        if hasattr(self.hf_text_config, "model_type") and (
+            self.hf_text_config.model_type == "zamba2"
+        ):
+            return self.hf_text_config.attention_head_dim
+
+        if self.is_attention_free:
+            return 0
+
+        # NOTE: Some configs may set head_dim=None in the config
+        if getattr(self.hf_text_config, "head_dim", None) is not None:
+            return self.hf_text_config.head_dim
+
+        # NOTE: Some models (such as PLaMo2.1) use `hidden_size_per_head`
+        if getattr(self.hf_text_config, "hidden_size_per_head", None) is not None:
+            return self.hf_text_config.hidden_size_per_head
+
+        # FIXME(woosuk): This may not be true for all models.
+        return (
+            self.hf_text_config.hidden_size // self.hf_text_config.num_attention_heads
+        )
+
+    def get_total_num_kv_heads(self) -> int:
+        """Returns the total number of KV heads."""
+        # For GPTBigCode & Falcon:
+        # NOTE: for falcon, when new_decoder_architecture is True, the
+        # multi_query flag is ignored and we use n_head_kv for the number of
+        # KV heads.
+        falcon_model_types = ["falcon", "RefinedWeb", "RefinedWebModel"]
+        new_decoder_arch_falcon = (
+            self.hf_config.model_type in falcon_model_types
+            and getattr(self.hf_config, "new_decoder_architecture", False)
+        )
+        if not new_decoder_arch_falcon and getattr(
+            self.hf_text_config, "multi_query", False
+        ):
+            # Multi-query attention, only one KV head.
+            # Currently, tensor parallelism is not supported in this case.
+            return 1
+
+        # For DBRX and MPT
+        if self.hf_config.model_type == "mpt":
+            if "kv_n_heads" in self.hf_config.attn_config:
+                return self.hf_config.attn_config["kv_n_heads"]
+            return self.hf_config.num_attention_heads
+        if self.hf_config.model_type == "dbrx":
+            return getattr(
+                self.hf_config.attn_config,
+                "kv_n_heads",
+                self.hf_config.num_attention_heads,
+            )
+
+        if self.hf_config.model_type == "nemotron-nas":
+            for block in self.hf_config.block_configs:
+                if not block.attention.no_op:
+                    return (
+                        self.hf_config.num_attention_heads
+                        // block.attention.n_heads_in_group
+                    )
+
+            raise RuntimeError("Couldn't determine number of kv heads")
+
+        if self.is_attention_free:
+            return 0
+
+        attributes = [
+            # For Falcon:
+            "n_head_kv",
+            "num_kv_heads",
+            # For LLaMA-2:
+            "num_key_value_heads",
+            # For ChatGLM:
+            "multi_query_group_num",
+        ]
+        for attr in attributes:
+            num_kv_heads = getattr(self.hf_text_config, attr, None)
+            if num_kv_heads is not None:
+                return num_kv_heads
+
+        # For non-grouped-query attention models, the number of KV heads is
+        # equal to the number of attention heads.
+        return self.hf_text_config.num_attention_heads
+
+    def get_num_kv_heads(self, parallel_config: ParallelConfig) -> int:
+        """Returns the number of KV heads per GPU."""
+        if self.use_mla:
+            # When using MLA during decode it becomes MQA
+            return 1
+
+        total_num_kv_heads = self.get_total_num_kv_heads()
+        # If tensor parallelism is used, we divide the number of KV heads by
+        # the tensor parallel size. We will replicate the KV heads in the
+        # case where the number of KV heads is smaller than the tensor
+        # parallel size so each GPU has at least one KV head.
+        return max(1, total_num_kv_heads // parallel_config.tensor_parallel_size)
+
+    def get_num_attention_heads(self, parallel_config: ParallelConfig) -> int:
+        num_heads = getattr(self.hf_text_config, "num_attention_heads", 0)
+        return num_heads // parallel_config.tensor_parallel_size
+
+    def get_num_experts(self) -> int:
+        """Returns the number of experts in the model."""
+        num_expert_names = [
+            "num_experts",  # Jamba
+            "moe_num_experts",  # Dbrx
+            "n_routed_experts",  # DeepSeek
+            "num_local_experts",  # Mixtral
+        ]
+        num_experts = getattr_iter(self.hf_text_config, num_expert_names, 0)
+        if isinstance(num_experts, list):
+            # Ernie VL's remote code uses list[int]...
+            # The values are always the same so we just take the first one.
+            return num_experts[0]
+        # Coerce to 0 if explicitly set to None
+        return num_experts or 0
+
+    def get_layers_start_end_indices(
+        self, parallel_config: ParallelConfig
+    ) -> tuple[int, int]:
+        from vllm.distributed.utils import get_pp_indices
+
+        if (
+            self.hf_text_config.model_type == "deepseek_mtp"
+            or self.hf_config.model_type == "mimo_mtp"
+            or self.hf_config.model_type == "glm4_moe_mtp"
+            or self.hf_config.model_type == "ernie_mtp"
+            or self.hf_config.model_type == "qwen3_next_mtp"
+            or self.hf_config.model_type == "pangu_ultra_moe_mtp"
+        ):
+            total_num_hidden_layers = getattr(
+                self.hf_text_config, "num_nextn_predict_layers", 0
+            )
+        elif self.hf_config.model_type == "longcat_flash_mtp":
+            total_num_hidden_layers = getattr(
+                self.hf_text_config, "num_nextn_predict_layers", 1
+            )
+        else:
+            total_num_hidden_layers = getattr(
+                self.hf_text_config, "num_hidden_layers", 0
+            )
+        # the layout order is: DP x PP x TP
+        pp_rank = (
+            parallel_config.rank // parallel_config.tensor_parallel_size
+        ) % parallel_config.pipeline_parallel_size
+        pp_size = parallel_config.pipeline_parallel_size
+        start, end = get_pp_indices(total_num_hidden_layers, pp_rank, pp_size)
+        return start, end
+
+    def get_num_layers(self, parallel_config: ParallelConfig) -> int:
+        start, end = self.get_layers_start_end_indices(parallel_config)
+        return end - start
+
+    def get_num_layers_by_block_type(
+        self,
+        parallel_config: ParallelConfig,
+        block_type: LayerBlockType = "attention",
+    ) -> int:
+        # This function relies on 'layers_block_type' in hf_config,
+        # for w/o this attribute, we will need to have workarounds like so
+        attn_block_type = block_type == "attention"
+        is_transformer = (
+            not self.is_hybrid and not self.has_noops and not self.is_attention_free
+        )
+        start, end = self.get_layers_start_end_indices(parallel_config)
+
+        if is_transformer:
+            # Handle the basic case first
+            return end - start if attn_block_type else 0
+        elif self.is_attention_free:
+            # Attention free
+            # Note that this code assumes there
+            # is only one type of attention-free block type.
+            return 0 if attn_block_type else end - start
+        elif self.has_noops:
+            block_configs = self.hf_config.block_configs
+            return sum(not bc.attention.no_op for bc in block_configs[start:end])
+        else:
+            # Hybrid model Jamba
+            layers_block_type_value = getattr(
+                self.hf_text_config, "layers_block_type", None
+            )
+            if layers_block_type_value is not None:
+                if hasattr(self.hf_text_config, "model_type") and (
+                    self.hf_text_config.model_type == "zamba2"
+                ):
+                    if attn_block_type:
+                        return sum(
+                            t == "hybrid" for t in layers_block_type_value[start:end]
+                        )
+                    else:
+                        return self.get_num_layers(parallel_config)
+                return sum(t == block_type for t in layers_block_type_value[start:end])
+
+            # Hybrid model Minimax
+            attn_type_list = getattr(self.hf_config, "attn_type_list", None)
+            if attn_type_list:
+                return sum(t == 1 for t in attn_type_list[start:end])
+
+            # Hybrid model Qwen3Next
+            layer_types_value = getattr(self.hf_config, "layer_types", None)
+            if layer_types_value is not None:
+                if block_type == "attention":
+                    return sum(
+                        t == "full_attention" for t in layer_types_value[start:end]
+                    )
+                elif block_type == "linear_attention":
+                    return sum(
+                        t == "linear_attention" for t in layer_types_value[start:end]
+                    )
+                else:
+                    return sum(t == block_type for t in layer_types_value[start:end])
+
+            if (
+                layers_block_type_value is None
+                and attn_type_list is None
+                and layer_types_value is None
+            ):
+                raise ValueError(
+                    "The model is an hybrid without a layers_block_type or an "
+                    "attn_type_list, or a layer_types in the hf_config, "
+                    f"cannot determine the num of {block_type} layers"
+                )
+
+    def get_mamba_chunk_size(self) -> int | None:
+        """
+        Returns the mamba chunk size if it exists
+        """
+        # used by e.g. Bamba, FalconH1, Granite, PLaMo2
+        chunk_size = getattr(self.hf_text_config, "mamba_chunk_size", None)
+        if chunk_size is None:
+            # used by e.g. Mamba2, NemotronH, Zamba
+            chunk_size = getattr(self.hf_text_config, "chunk_size", None)
+
+        # Since Mamba1 does not have a chunk notion
+        # we use a default chunk size of 1024.
+        if chunk_size is None:
+            chunk_size = 2048
+
+        return chunk_size
+
+    def get_multimodal_config(self) -> MultiModalConfig:
+        """
+        Get the multimodal configuration of the model.
+
+        Raises:
+            ValueError: If the model is not multimodal.
+        """
+        if self.multimodal_config is None:
+            raise ValueError("The model is not multimodal.")
+
+        return self.multimodal_config
+
+    def try_get_generation_config(self) -> dict[str, Any]:
+        """
+        This method attempts to retrieve the non-default values of the
+        generation config for this model.
+
+        The generation config can contain information about special tokens, as
+        well as sampling parameters. Which is why this method exists separately
+        to `get_diff_sampling_param`.
+
+        Returns:
+            A dictionary containing the non-default generation config.
+        """
+        if self.generation_config in {"auto", "vllm"}:
+            config = try_get_generation_config(
+                self.hf_config_path or self.model,
+                trust_remote_code=self.trust_remote_code,
+                revision=self.revision,
+                config_format=self.config_format,
+            )
+        else:
+            config = try_get_generation_config(
+                self.generation_config,
+                trust_remote_code=self.trust_remote_code,
+                config_format=self.config_format,
+            )
+
+        if config is None:
+            return {}
+
+        return config.to_diff_dict()
+
+    def get_diff_sampling_param(self) -> dict[str, Any]:
+        """
+        This method returns a dictionary containing the non-default sampling
+        parameters with `override_generation_config` applied.
+
+        The default sampling parameters are:
+
+        - vLLM's neutral defaults if `self.generation_config="vllm"`
+        - the model's defaults if `self.generation_config="auto"`
+        - as defined in `generation_config.json` if
+            `self.generation_config="path/to/generation_config/dir"`
+
+        Returns:
+            A dictionary containing the non-default sampling parameters.
+        """
+        if self.generation_config == "vllm":
+            config = {}
+        else:
+            config = self.try_get_generation_config()
+
+        # Overriding with given generation config
+        config.update(self.override_generation_config)
+
+        available_params = [
+            "repetition_penalty",
+            "temperature",
+            "top_k",
+            "top_p",
+            "min_p",
+            "max_new_tokens",
+        ]
+        if any(p in config for p in available_params):
+            diff_sampling_param = {
+                p: config.get(p) for p in available_params if config.get(p) is not None
+            }
+            # Huggingface definition of max_new_tokens is equivalent
+            # to vLLM's max_tokens
+            if "max_new_tokens" in diff_sampling_param:
+                diff_sampling_param["max_tokens"] = diff_sampling_param.pop(
+                    "max_new_tokens"
+                )
+        else:
+            diff_sampling_param = {}
+
+        if diff_sampling_param:
+            logger.warning_once(
+                "Default sampling parameters have been overridden by the "
+                "model's Hugging Face generation config recommended from the "
+                "model creator. If this is not intended, please relaunch "
+                "vLLM instance with `--generation-config vllm`."
+            )
+        return diff_sampling_param
+
+    @property
+    def is_encoder_decoder(self) -> bool:
+        """Extract the HF encoder/decoder model flag."""
+        return is_encoder_decoder(self.hf_config)
+
+    @property
+    def uses_alibi(self) -> bool:
+        cfg = self.hf_text_config
+
+        return (
+            getattr(cfg, "alibi", False)  # Falcon
+            or "BloomForCausalLM" in self.architectures  # Bloom
+            or getattr(cfg, "position_encoding_type", "") == "alibi"  # codellm_1b_alibi
+            or (
+                hasattr(cfg, "attn_config")  # MPT
+                and (
+                    (
+                        isinstance(cfg.attn_config, dict)
+                        and cfg.attn_config.get("alibi", False)
+                    )
+                    or (
+                        not isinstance(cfg.attn_config, dict)
+                        and getattr(cfg.attn_config, "alibi", False)
+                    )
+                )
+            )
+        )
+
+    @property
+    def uses_mrope(self) -> bool:
+        return uses_mrope(self.hf_config)
+
+    @property
+    def is_multimodal_model(self) -> bool:
+        return self.multimodal_config is not None
+
+    @property
+    def is_multimodal_raw_input_only_model(self) -> bool:
+        return self._model_info.supports_multimodal_raw_input_only
+
+    @property
+    def is_cross_encoder(self) -> bool:
+        return (
+            self._model_info.supports_cross_encoding or self.convert_type == "classify"
+        )
+
+    @property
+    def is_pp_supported(self) -> bool:
+        return self._model_info.supports_pp
+
+    @property
+    def is_attention_free(self) -> bool:
+        return self._model_info.is_attention_free
+
+    @property
+    def is_hybrid(self) -> bool:
+        # Handle granite-4.0-micro case which uses hybrid config but does not
+        # actually contain any non-attention layers.
+        layer_types = getattr(self.hf_config, "layer_types", None)
+        if layer_types is not None and all(
+            layer == "attention" for layer in layer_types
+        ):
+            return False
+        return self._model_info.is_hybrid
+
+    @property
+    def has_noops(self) -> bool:
+        return self._model_info.has_noops
+
+    @property
+    def has_inner_state(self):
+        return self._model_info.has_inner_state
+
+    @property
+    def supports_mamba_prefix_caching(self) -> bool:
+        return self._model_info.supports_mamba_prefix_caching
+
+    @property
+    def use_mla(self) -> bool:
+        return self.is_deepseek_mla and not envs.VLLM_MLA_DISABLE
+
+    @property
+    def is_matryoshka(self) -> bool:
+        return bool(getattr(self.hf_config, "matryoshka_dimensions", None)) or getattr(
+            self.hf_config, "is_matryoshka", False
+        )
+
+    @property
+    def matryoshka_dimensions(self):
+        return getattr(self.hf_config, "matryoshka_dimensions", None)
+
+    @property
+    def use_pad_token(self) -> bool:
+        # cross_encoder models defaults to using pad_token.
+        # `llm as reranker` models defaults to not using pad_token.
+        return getattr(self.hf_config, "use_pad_token", True)
+
+    @property
+    def head_dtype(self) -> torch.dtype:
+        """
+        "head" refers to the last Linear layer(s) of an LLM,
+        such as the lm_head in a generation model,
+        or the score or classifier in a classification model.
+
+        `head_dtype` currently only supports pooling models.\n
+        - The pooling model defaults to using fp32 head,
+        you can use --hf-overrides '{"head_dtype": "model"}' to disable it.
+        """
+
+        head_dtype = _get_head_dtype(
+            config=self.hf_config, dtype=self.dtype, runner_type=self.runner_type
+        )
+
+        if self.runner_type != "pooling" and head_dtype != self.dtype:
+            logger.warning_once(
+                "`head_dtype` currently only supports pooling models."
+                "fallback to model dtype [%s].",
+                self.dtype,
+            )
+            return self.dtype
+
+        if head_dtype not in current_platform.supported_dtypes:
+            logger.warning_once(
+                "The current platform does not support [%s] head dtype, "
+                "fallback to model dtype [%s].",
+                head_dtype,
+                self.dtype,
+            )
+            return self.dtype
+
+        logger.debug_once("head dtype: %s", head_dtype)
+        return head_dtype
+
+    @property
+    def hidden_size(self):
+        if hasattr(self.hf_config, "hidden_size"):
+            return self.hf_config.hidden_size
+        text_config = self.hf_config.get_text_config()
+        return text_config.hidden_size
+
+    @property
+    def embedding_size(self):
+        dense_modules = try_get_dense_modules(self.model, revision=self.revision)
+        if dense_modules is not None:
+            return dense_modules[-1]["out_features"]
+        return self.hidden_size
+
+    def get_and_verify_max_len(self, max_model_len: int):
+        # Consider max_model_len in tokenizer_config only when
+        # pooling models use absolute position_embedding.
+        tokenizer_config = None
+        if (
+            self.runner_type == "pooling"
+            and getattr(self.hf_config, "position_embedding_type", "") == "absolute"
+        ):
+            tokenizer_config = try_get_tokenizer_config(
+                self.tokenizer,
+                trust_remote_code=self.trust_remote_code,
+                revision=self.tokenizer_revision,
+            )
+        max_model_len = _get_and_verify_max_len(
+            hf_config=self.hf_text_config,
+            tokenizer_config=tokenizer_config,
+            max_model_len=max_model_len,
+            disable_sliding_window=self.disable_sliding_window,
+            sliding_window=self.get_sliding_window(),
+            spec_target_max_model_len=self.spec_target_max_model_len,
+            encoder_config=self.encoder_config,
+        )
+        logger.info("Using max model len %s", max_model_len)
+        return max_model_len
+
+
+def get_served_model_name(model: str, served_model_name: str | list[str] | None):
+    """
+    If the input is a non-empty list, the first model_name in
+    `served_model_name` is taken.
+    If the input is a non-empty string, it is used directly.
+    For cases where the input is either an empty string or an
+    empty list, the fallback is to use `self.model`.
+    """
+    if not served_model_name:
+        return model
+    if isinstance(served_model_name, list):
+        return served_model_name[0]
+    return served_model_name
+
+
+# Some model suffixes are based on auto classes from Transformers:
+# https://huggingface.co/docs/transformers/en/model_doc/auto
+# NOTE: Items higher on this list priority over lower ones
+_SUFFIX_TO_DEFAULTS: list[tuple[str, tuple[RunnerType, ConvertType]]] = [
+    ("ForCausalLM", ("generate", "none")),
+    ("ForConditionalGeneration", ("generate", "none")),
+    ("ChatModel", ("generate", "none")),
+    ("LMHeadModel", ("generate", "none")),
+    ("ForTextEncoding", ("pooling", "embed")),
+    ("EmbeddingModel", ("pooling", "embed")),
+    ("ForSequenceClassification", ("pooling", "classify")),
+    ("ForAudioClassification", ("pooling", "classify")),
+    ("ForImageClassification", ("pooling", "classify")),
+    ("ForVideoClassification", ("pooling", "classify")),
+    ("ClassificationModel", ("pooling", "classify")),
+    ("ForRewardModeling", ("pooling", "reward")),
+    ("RewardModel", ("pooling", "reward")),
+    # Let other `*Model`s take priority
+    ("Model", ("pooling", "embed")),
+]
+
+
+def iter_architecture_defaults():
+    yield from _SUFFIX_TO_DEFAULTS
+
+
+def try_match_architecture_defaults(
+    architecture: str,
+    *,
+    runner_type: RunnerType | None = None,
+    convert_type: ConvertType | None = None,
+) -> tuple[str, tuple[RunnerType, ConvertType]] | None:
+    for suffix, (
+        default_runner_type,
+        default_convert_type,
+    ) in iter_architecture_defaults():
+        if (
+            (runner_type is None or runner_type == default_runner_type)
+            and (convert_type is None or convert_type == default_convert_type)
+            and architecture.endswith(suffix)
+        ):
+            return suffix, (default_runner_type, default_convert_type)
+
+    return None
+
+
+_STR_DTYPE_TO_TORCH_DTYPE = {
+    "half": torch.float16,
+    "float16": torch.float16,
+    "float": torch.float32,
+    "float32": torch.float32,
+    "bfloat16": torch.bfloat16,
+}
+
+# model_type -> reason
+_FLOAT16_NOT_SUPPORTED_MODELS = {
+    "gemma2": "Numerical instability. Please use bfloat16 or float32 instead.",
+    "gemma3": "Numerical instability. Please use bfloat16 or float32 instead.",
+    "gemma3_text": "Numerical instability. Please use bfloat16 or float32 instead.",
+    "plamo2": "Numerical instability. Please use bfloat16 or float32 instead.",
+    "glm4": "Numerical instability. Please use bfloat16 or float32 instead.",
+}
+
+
+def _is_valid_dtype(model_type: str, dtype: torch.dtype):
+    if model_type in _FLOAT16_NOT_SUPPORTED_MODELS and dtype == torch.float16:  # noqa: E501, SIM103
+        return False
+
+    return True
+
+
+def _check_valid_dtype(model_type: str, dtype: torch.dtype):
+    if model_type in _FLOAT16_NOT_SUPPORTED_MODELS and dtype == torch.float16:
+        reason = _FLOAT16_NOT_SUPPORTED_MODELS[model_type]
+        raise ValueError(
+            f"The model type {model_type!r} does not support float16. Reason: {reason}"
+        )
+
+    return True
+
+
+def _find_dtype(
+    model_id: str,
+    config: PretrainedConfig,
+    *,
+    revision: str | None,
+):
+    # NOTE: getattr(config, "dtype", torch.float32) is not correct
+    # because config.dtype can be None.
+    config_dtype = getattr(config, "dtype", None)
+
+    # Fallbacks for multi-modal models if the root config
+    # does not define dtype
+    if config_dtype is None:
+        config_dtype = getattr(config.get_text_config(), "dtype", None)
+    if config_dtype is None and hasattr(config, "vision_config"):
+        config_dtype = getattr(config.vision_config, "dtype", None)
+    if config_dtype is None and hasattr(config, "encoder_config"):
+        config_dtype = getattr(config.encoder_config, "dtype", None)
+
+    # Try to read the dtype of the weights if they are in safetensors format
+    if config_dtype is None:
+        repo_mt = try_get_safetensors_metadata(model_id, revision=revision)
+
+        if repo_mt and (files_mt := repo_mt.files_metadata):
+            param_dtypes: set[torch.dtype] = {
+                _SAFETENSORS_TO_TORCH_DTYPE[dtype_str]
+                for file_mt in files_mt.values()
+                for dtype_str in file_mt.parameter_count
+                if dtype_str in _SAFETENSORS_TO_TORCH_DTYPE
+            }
+
+            if param_dtypes:
+                return common_broadcastable_dtype(param_dtypes)
+
+    if config_dtype is None:
+        config_dtype = torch.float32
+
+    return config_dtype
+
+
+def _resolve_auto_dtype(
+    model_type: str,
+    config_dtype: torch.dtype,
+    *,
+    is_pooling_model: bool,
+):
+    from vllm.platforms import current_platform
+
+    supported_dtypes = [
+        dtype
+        for dtype in current_platform.supported_dtypes
+        if _is_valid_dtype(model_type, dtype)
+    ]
+
+    if is_pooling_model and torch.float16 in supported_dtypes:
+        preferred_dtype = torch.float16
+    else:
+        preferred_dtype = supported_dtypes[0]
+
+    # Downcast for float32 models
+    if config_dtype == torch.float32:
+        config_dtype = preferred_dtype
+
+    if config_dtype in supported_dtypes:
+        return config_dtype
+
+    # Ensure device compatibility
+    device_name = current_platform.get_device_name()
+    device_capability = current_platform.get_device_capability()
+
+    if device_capability is None:
+        device_str = f"{device_name!r}"
+    else:
+        version_str = device_capability.as_version_str()
+        device_str = f"{device_name!r} (with compute capability {version_str})"
+
+    logger.warning(
+        "Your device %s doesn't support %s. Falling back to %s for compatibility.",
+        device_str,
+        config_dtype,
+        preferred_dtype,
+    )
+
+    return preferred_dtype
+
+
+def _get_and_verify_dtype(
+    model_id: str,
+    config: PretrainedConfig,
+    dtype: str | torch.dtype,
+    *,
+    is_pooling_model: bool,
+    revision: str | None = None,
+) -> torch.dtype:
+    config_dtype = _find_dtype(model_id, config, revision=revision)
+    model_type = config.model_type
+
+    if isinstance(dtype, str):
+        dtype = dtype.lower()
+        if dtype == "auto":
+            # Set default dtype from model config
+            torch_dtype = _resolve_auto_dtype(
+                model_type,
+                config_dtype,
+                is_pooling_model=is_pooling_model,
+            )
+        else:
+            if dtype not in _STR_DTYPE_TO_TORCH_DTYPE:
+                raise ValueError(f"Unknown dtype: {dtype!r}")
+            torch_dtype = _STR_DTYPE_TO_TORCH_DTYPE[dtype]
+    elif isinstance(dtype, torch.dtype):
+        torch_dtype = dtype
+    else:
+        raise ValueError(f"Unknown dtype: {dtype}")
+
+    _check_valid_dtype(model_type, torch_dtype)
+
+    if torch_dtype != config_dtype:
+        if torch_dtype == torch.float32:
+            # Upcasting to float32 is allowed.
+            logger.info("Upcasting %s to %s.", config_dtype, torch_dtype)
+        elif config_dtype == torch.float32:
+            # Downcasting from float32 to float16 or bfloat16 is allowed.
+            logger.info("Downcasting %s to %s.", config_dtype, torch_dtype)
+        else:
+            # Casting between float16 and bfloat16 is allowed with a warning.
+            logger.warning("Casting %s to %s.", config_dtype, torch_dtype)
+
+    return torch_dtype
+
+
+def _get_head_dtype(
+    config: PretrainedConfig, dtype: torch.dtype, runner_type: str
+) -> torch.dtype:
+    head_dtype: str | torch.dtype | None = getattr(config, "head_dtype", None)
+
+    if head_dtype == "model":
+        return dtype
+    elif isinstance(head_dtype, str):
+        head_dtype = head_dtype.lower()
+        if head_dtype not in _STR_DTYPE_TO_TORCH_DTYPE:
+            raise ValueError(f"Unknown dtype: {head_dtype!r}")
+        return _STR_DTYPE_TO_TORCH_DTYPE[head_dtype]
+    elif isinstance(head_dtype, torch.dtype):
+        return head_dtype
+    elif head_dtype is None:
+        if torch.float32 not in current_platform.supported_dtypes:
+            return dtype
+        if runner_type == "pooling":
+            return torch.float32
+        return dtype
+    else:
+        raise ValueError(f"Unknown dtype: {head_dtype}")
+
+
+def _get_and_verify_max_len(
+    hf_config: PretrainedConfig,
+    tokenizer_config: dict | None,
+    max_model_len: int | None,
+    disable_sliding_window: bool,
+    sliding_window: int | None,
+    spec_target_max_model_len: int | None = None,
+    encoder_config: Any | None = None,
+) -> int:
+    """Get and verify the model's maximum length."""
+    derived_max_model_len = float("inf")
+    possible_keys = [
+        # OPT
+        "max_position_embeddings",
+        # GPT-2
+        "n_positions",
+        # MPT
+        "max_seq_len",
+        # ChatGLM2
+        "seq_length",
+        # Command-R
+        "model_max_length",
+        # Whisper
+        "max_target_positions",
+        # Others
+        "max_sequence_length",
+        "max_seq_length",
+        "seq_len",
+    ]
+    # Choose the smallest "max_length" from the possible keys
+    max_len_key = None
+    for key in possible_keys:
+        max_len = getattr(hf_config, key, None)
+        if max_len is not None:
+            max_len_key = key if max_len < derived_max_model_len else max_len_key
+            derived_max_model_len = min(derived_max_model_len, max_len)
+    # For Command-R / Cohere, Cohere2 / Aya Vision models
+    if tmp_max_len := getattr(hf_config, "model_max_length", None):
+        max_len_key = "model_max_length"
+        derived_max_model_len = tmp_max_len
+
+    # If sliding window is manually disabled, max_length should be less
+    # than the sliding window length in the model config.
+    if (
+        disable_sliding_window
+        and sliding_window is not None
+        and sliding_window < derived_max_model_len
+    ):
+        max_len_key = "sliding_window"
+        derived_max_model_len = sliding_window
+
+    # Consider model_max_length in tokenizer_config
+    if tokenizer_config:
+        tokenizer_model_max_length = tokenizer_config.get(
+            "model_max_length", derived_max_model_len
+        )
+        derived_max_model_len = min(derived_max_model_len, tokenizer_model_max_length)
+
+    # If none of the keys were found in the config, use a default and
+    # log a warning.
+    if derived_max_model_len == float("inf"):
+        if max_model_len is not None:
+            # If max_model_len is specified, we use it.
+            return max_model_len
+
+        if spec_target_max_model_len is not None:
+            # If this is a speculative draft model, we use the max model len
+            # from the target model.
+            return spec_target_max_model_len
+
+        default_max_len = 2048
+        logger.warning(
+            "The model's config.json does not contain any of the following "
+            "keys to determine the original maximum length of the model: "
+            "%s. Assuming the model's maximum length is %d.",
+            possible_keys,
+            default_max_len,
+        )
+        derived_max_model_len = default_max_len
+
+    rope_scaling = getattr(hf_config, "rope_scaling", None)
+    # NOTE(woosuk): Gemma3's max_model_len (128K) is already scaled by RoPE
+    # scaling, so we skip applying the scaling factor again.
+    if rope_scaling is not None and "gemma3" not in hf_config.model_type:
+        # No need to consider "type" key because of patch_rope_scaling when
+        # loading HF config
+        rope_type = rope_scaling["rope_type"]
+
+        if rope_type not in ("su", "longrope", "llama3"):
+            if disable_sliding_window:
+                # TODO(robertgshaw): Find a model that supports rope_scaling
+                # with sliding window to see if this case should be allowed.
+                raise NotImplementedError(
+                    "Disabling sliding window is not supported for models "
+                    "with rope_scaling. Please raise an issue so we can "
+                    "investigate."
+                )
+
+            # NOTE: rope_type == "default" does not define factor
+            # https://github.com/huggingface/transformers/blob/v4.45.2/src/transformers/modeling_rope_utils.py
+            scaling_factor = rope_scaling.get("factor", 1.0)
+
+            if rope_type == "yarn":
+                derived_max_model_len = rope_scaling["original_max_position_embeddings"]
+            derived_max_model_len *= scaling_factor
+
+    if encoder_config and "max_seq_length" in encoder_config:
+        derived_max_model_len = encoder_config["max_seq_length"]
+
+    # If the user didn't specify `max_model_len`, then use that derived from
+    # the model config as a default value.
+    if max_model_len is None:
+        # For LongRoPE, default to original_max_position_embeddings to avoid
+        # performance degradation for shorter sequences
+        if rope_scaling is not None and rope_scaling["rope_type"] == "longrope":
+            max_model_len = int(
+                getattr(
+                    hf_config, "original_max_position_embeddings", derived_max_model_len
+                )
+            )
+        else:
+            max_model_len = int(derived_max_model_len)
+        max_model_len = current_platform.check_max_model_len(max_model_len)
+
+    # If the user specified a max length, make sure it is smaller than the
+    # derived length from the HF model config.
+    elif max_model_len > derived_max_model_len:
+        # Some models might have a separate key for specifying model_max_length
+        # that will be bigger than derived_max_model_len. We compare user input
+        # with model_max_length and allow this override when it's smaller.
+        model_max_length = getattr(hf_config, "model_max_length", None)
+        if model_max_length is not None and max_model_len <= model_max_length:
+            if disable_sliding_window:
+                # TODO(robertgshaw): Find a model that has model_max_length
+                # with sliding window to see if this case should be allowed.
+                raise NotImplementedError(
+                    "Disabling sliding window is not supported for models "
+                    "model_max_length in the config. Please raise an issue "
+                    "so we can investigate."
+                )
+        else:
+            msg = (
+                f"User-specified max_model_len ({max_model_len}) is greater "
+                f"than the derived max_model_len ({max_len_key}="
+                f"{derived_max_model_len} or model_max_length="
+                f"{model_max_length} in model's config.json)."
+            )
+            warning = (
+                "VLLM_ALLOW_LONG_MAX_MODEL_LEN must be used with extreme "
+                "caution. If the model uses relative position encoding (RoPE), "
+                "positions exceeding derived_max_model_len lead to nan. If the "
+                "model uses absolute position encoding, positions exceeding "
+                "derived_max_model_len will cause a CUDA array out-of-bounds "
+                "error."
+            )
+            if envs.VLLM_ALLOW_LONG_MAX_MODEL_LEN:
+                logger.warning_once("%s %s", msg, warning)
+            else:
+                raise ValueError(
+                    f"{msg} To allow overriding this maximum, set "
+                    f"the env var VLLM_ALLOW_LONG_MAX_MODEL_LEN=1. {warning}"
+                )
+    return int(max_model_len)
diff --git a/config/multimodal.py b/config/multimodal.py
new file mode 100644
index 0000000..9f62b35
--- /dev/null
+++ b/config/multimodal.py
@@ -0,0 +1,248 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from collections.abc import Mapping
+from typing import TYPE_CHECKING, Any, Literal, TypeAlias
+
+from pydantic import ConfigDict, Field, field_validator, model_validator
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.registry import AttentionBackendEnum
+else:
+    AttentionBackendEnum = Any
+
+
+@dataclass
+class BaseDummyOptions:
+    """Base options for generating dummy data during profiling."""
+
+    count: int = Field(999, ge=0)
+
+
+@dataclass(config=ConfigDict(extra="forbid"))
+class VideoDummyOptions(BaseDummyOptions):
+    """Options for generating dummy video data during profiling."""
+
+    num_frames: int | None = Field(None, gt=0)
+    width: int | None = Field(None, gt=0)
+    height: int | None = Field(None, gt=0)
+
+
+@dataclass(config=ConfigDict(extra="forbid"))
+class ImageDummyOptions(BaseDummyOptions):
+    """Options for generating dummy image data during profiling."""
+
+    width: int | None = Field(None, gt=0)
+    height: int | None = Field(None, gt=0)
+
+
+@dataclass(config=ConfigDict(extra="forbid"))
+class AudioDummyOptions(BaseDummyOptions):
+    """Options for generating dummy audio data during profiling."""
+
+    length: int | None = Field(None, gt=0)
+
+
+MMEncoderTPMode = Literal["weights", "data"]
+MMCacheType = Literal["shm", "lru"]
+DummyOptions: TypeAlias = (
+    BaseDummyOptions | VideoDummyOptions | ImageDummyOptions | AudioDummyOptions
+)
+
+
+@config
+@dataclass
+class MultiModalConfig:
+    """Controls the behavior of multimodal models."""
+
+    limit_per_prompt: dict[str, DummyOptions] = Field(default_factory=dict)
+    """The maximum number of input items and options allowed per 
+        prompt for each modality.
+    Defaults to 999 for each modality.
+
+    Legacy format (count only):
+        {"image": 16, "video": 2}
+
+    Configurable format (with options):
+        {"video": {"count": 1, "num_frames": 32, "width": 512, "height": 512}, 
+        "image": {"count": 5, "width": 512, "height": 512}}
+
+    Mixed format (combining both):
+        {"image": 16, "video": {"count": 1, "num_frames": 32, "width": 512, 
+        "height": 512}}
+    """
+    enable_mm_embeds: bool = False
+    """If `True`, enables passing multimodal embeddings:
+    for `LLM` class, this refers to tensor inputs under `multi_modal_data`;
+    for the OpenAI-compatible server, this refers to chat messages with content
+    `"type": "*_embeds"`.
+
+    WARNING: The vLLM engine may crash if incorrect shape of embeddings is passed.
+    Only enable this flag for trusted users!"""
+    media_io_kwargs: dict[str, dict[str, Any]] = Field(default_factory=dict)
+    """Additional args passed to process media inputs, keyed by modalities.
+    For example, to set num_frames for video, set
+    `--media-io-kwargs '{"video": {"num_frames": 40} }'`"""
+    mm_processor_kwargs: dict[str, object] | None = None
+    """Arguments to be forwarded to the model's processor for multi-modal data,
+    e.g., image processor. Overrides for the multi-modal processor obtained
+    from `transformers.AutoProcessor.from_pretrained`.
+
+    The available overrides depend on the model that is being run.
+
+    For example, for Phi-3-Vision:
+    `{"num_crops": 4}`."""
+    mm_processor_cache_gb: float = Field(default=4, ge=0)
+    """The size (in GiB) of the multi-modal processor cache, which is used to
+    avoid re-processing past multi-modal inputs.
+
+    This cache is duplicated for each API process and engine core process,
+    resulting in a total memory usage of
+    `mm_processor_cache_gb * (api_server_count + data_parallel_size)`.
+
+    Set to `0` to disable this cache completely (not recommended)."""
+    mm_processor_cache_type: MMCacheType = "lru"
+    """Type of cache to use for the multi-modal preprocessor/mapper. If `shm`,
+    use shared memory FIFO cache. If `lru`, use mirrored LRU cache."""
+    mm_shm_cache_max_object_size_mb: int = Field(default=128, ge=0)
+    """Size limit (in MiB) for each object stored in the multi-modal processor
+    shared memory cache. Only effective when `mm_processor_cache_type` is
+    `"shm"`."""
+    mm_encoder_tp_mode: MMEncoderTPMode = "weights"
+    """Indicates how to optimize multi-modal encoder inference using tensor
+    parallelism (TP).
+
+    - `"weights"`: Within the same vLLM engine, split the weights of
+        each layer across TP ranks. (default TP behavior)\n
+    - `"data"`: Within the same vLLM engine, split the batched input data
+        across TP ranks to process the data in parallel, while hosting
+        the full weights on each TP rank.
+        This batch-level DP is not to be confused with API request-level
+        DP (which is controlled by `--data-parallel-size`).
+        This is only supported on a per-model basis and falls back to
+        `"weights"` if the encoder does not support DP."""
+    mm_encoder_attn_backend: AttentionBackendEnum | None = None
+    """Optional override for the multi-modal encoder attention backend when
+    using vision transformers. Accepts any value from
+    `vllm.attention.backends.registry.AttentionBackendEnum` (e.g. `FLASH_ATTN`)."""
+    interleave_mm_strings: bool = False
+    """Enable fully interleaved support for multimodal prompts, while using
+    --chat-template-content-format=string."""
+    skip_mm_profiling: bool = False
+    """When enabled, skips multimodal memory profiling and only profiles with
+    language backbone model during engine initialization.
+
+    This reduces engine startup time but shifts the responsibility to users for
+    estimating the peak memory usage of the activation of multimodal encoder and
+    embedding cache."""
+    video_pruning_rate: float | None = Field(default=None, ge=0.0, lt=1.0)
+    """Sets pruning rate for video pruning via Efficient Video Sampling.
+    Value sits in range [0;1) and determines fraction of media tokens
+    from each video to be pruned.
+    """
+
+    @field_validator("limit_per_prompt", mode="before")
+    @classmethod
+    def _validate_limit_per_prompt(
+        cls, value: dict[str, int | dict[str, int]]
+    ) -> dict[str, DummyOptions]:
+        for k, v in value.items():
+            # Handle legacy format where only count is specified
+            if isinstance(v, int):
+                v = {"count": v}
+            # Convert to the appropriate DummyOptions subclass
+            if k == "video":
+                value[k] = VideoDummyOptions(**v)
+            elif k == "image":
+                value[k] = ImageDummyOptions(**v)
+            elif k == "audio":
+                value[k] = AudioDummyOptions(**v)
+            else:
+                value[k] = BaseDummyOptions(**v)
+        return value
+
+    @field_validator("mm_encoder_attn_backend", mode="before")
+    @classmethod
+    def _validate_mm_encoder_attn_backend(
+        cls, value: str | AttentionBackendEnum | None
+    ) -> AttentionBackendEnum | None:
+        # We need to import the real type here (deferred to avoid circular import).
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if value is None or isinstance(value, AttentionBackendEnum):
+            return value
+
+        assert isinstance(value, str), (
+            "mm_encoder_attn_backend must be a string or an AttentionBackendEnum."
+        )
+        return AttentionBackendEnum[value.upper()]
+
+    @model_validator(mode="after")
+    def _validate_multimodal_config(self):
+        if self.mm_processor_cache_type != "shm" and (
+            self.mm_shm_cache_max_object_size_mb
+            != MultiModalConfig.mm_shm_cache_max_object_size_mb
+        ):
+            raise ValueError(
+                "'mm_shm_cache_max_object_size_mb' should only be set when "
+                "'mm_processor_cache_type' is 'shm'."
+            )
+        return self
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = [
+            self.mm_encoder_attn_backend.name
+            if self.mm_encoder_attn_backend is not None
+            else None
+        ]
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def get_limit_per_prompt(self, modality: str) -> int:
+        """
+        Get the maximum number of input items allowed per prompt
+        for the given modality (backward compatible).
+        """
+        limit_data = self.limit_per_prompt.get(modality)
+
+        if limit_data is None:
+            # Unspecified modality is set to 999 by default
+            return 999
+        return limit_data.count
+
+    def get_dummy_options(self, modality: str) -> BaseDummyOptions | None:
+        """
+        Get the configurable dummy data options for a modality.
+        Returns None if no options are configured for this modality.
+        """
+        # All values are now DummyOptions after normalization
+        return self.limit_per_prompt.get(modality)
+
+    def merge_mm_processor_kwargs(
+        self,
+        inference_kwargs: Mapping[str, object],
+    ) -> dict[str, object]:
+        """
+        Get the keyword arguments to pass to the multi-modal processor
+        according to the extra arguments passed during inference.
+        """
+        kwargs = self.mm_processor_kwargs or {}
+        return kwargs | dict(inference_kwargs)
+
+    def is_multimodal_pruning_enabled(self):
+        return self.video_pruning_rate is not None and self.video_pruning_rate > 0
diff --git a/config/observability.py b/config/observability.py
new file mode 100644
index 0000000..564c4f7
--- /dev/null
+++ b/config/observability.py
@@ -0,0 +1,123 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from functools import cached_property
+from typing import Any, Literal, cast
+
+from packaging.version import parse
+from pydantic import field_validator, model_validator
+from pydantic.dataclasses import dataclass
+
+from vllm import version
+from vllm.config.utils import config
+
+DetailedTraceModules = Literal["model", "worker", "all"]
+
+
+@config
+@dataclass
+class ObservabilityConfig:
+    """Configuration for observability - metrics and tracing."""
+
+    show_hidden_metrics_for_version: str | None = None
+    """Enable deprecated Prometheus metrics that have been hidden since the
+    specified version. For example, if a previously deprecated metric has been
+    hidden since the v0.7.0 release, you use
+    `--show-hidden-metrics-for-version=0.7` as a temporary escape hatch while
+    you migrate to new metrics. The metric is likely to be removed completely
+    in an upcoming release."""
+
+    @cached_property
+    def show_hidden_metrics(self) -> bool:
+        """Check if the hidden metrics should be shown."""
+        if self.show_hidden_metrics_for_version is None:
+            return False
+        return version._prev_minor_version_was(self.show_hidden_metrics_for_version)
+
+    otlp_traces_endpoint: str | None = None
+    """Target URL to which OpenTelemetry traces will be sent."""
+
+    collect_detailed_traces: list[DetailedTraceModules] | None = None
+    """It makes sense to set this only if `--otlp-traces-endpoint` is set. If
+    set, it will collect detailed traces for the specified modules. This
+    involves use of possibly costly and or blocking operations and hence might
+    have a performance impact.
+
+    Note that collecting detailed timing information for each request can be
+    expensive."""
+
+    @cached_property
+    def collect_model_forward_time(self) -> bool:
+        """Whether to collect model forward time for the request."""
+        return self.collect_detailed_traces is not None and (
+            "model" in self.collect_detailed_traces
+            or "all" in self.collect_detailed_traces
+        )
+
+    @cached_property
+    def collect_model_execute_time(self) -> bool:
+        """Whether to collect model execute time for the request."""
+        return self.collect_detailed_traces is not None and (
+            "worker" in self.collect_detailed_traces
+            or "all" in self.collect_detailed_traces
+        )
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @field_validator("show_hidden_metrics_for_version")
+    @classmethod
+    def _validate_show_hidden_metrics_for_version(cls, value: str | None) -> str | None:
+        if value is not None:
+            # Raises an exception if the string is not a valid version.
+            parse(value)
+        return value
+
+    @field_validator("otlp_traces_endpoint")
+    @classmethod
+    def _validate_otlp_traces_endpoint(cls, value: str | None) -> str | None:
+        if value is not None:
+            from vllm.tracing import is_otel_available, otel_import_error_traceback
+
+            if not is_otel_available():
+                raise ValueError(
+                    "OpenTelemetry is not available. Unable to configure "
+                    "'otlp_traces_endpoint'. Ensure OpenTelemetry packages are "
+                    f"installed. Original error:\n{otel_import_error_traceback}"
+                )
+        return value
+
+    @field_validator("collect_detailed_traces")
+    @classmethod
+    def _validate_collect_detailed_traces(
+        cls, value: list[DetailedTraceModules] | None
+    ) -> list[DetailedTraceModules] | None:
+        """Handle the legacy case where users might provide a comma-separated
+        string instead of a list of strings."""
+        if value is not None and len(value) == 1 and "," in value[0]:
+            value = cast(list[DetailedTraceModules], value[0].split(","))
+        return value
+
+    @model_validator(mode="after")
+    def _validate_tracing_config(self):
+        if self.collect_detailed_traces and not self.otlp_traces_endpoint:
+            raise ValueError(
+                "collect_detailed_traces requires `--otlp-traces-endpoint` to be set."
+            )
+        return self
diff --git a/config/parallel.py b/config/parallel.py
new file mode 100644
index 0000000..9a6326d
--- /dev/null
+++ b/config/parallel.py
@@ -0,0 +1,655 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+import os
+from typing import TYPE_CHECKING, Any, Literal
+
+import torch
+from pydantic import Field, model_validator
+from pydantic.dataclasses import dataclass
+from torch.distributed import ProcessGroup, ReduceOp
+from typing_extensions import Self
+
+import vllm.envs as envs
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms import current_platform
+from vllm.utils.network_utils import get_open_ports_list
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+if TYPE_CHECKING:
+    from ray.runtime_env import RuntimeEnv
+    from ray.util.placement_group import PlacementGroup
+
+    from vllm.v1.executor import Executor
+else:
+    RuntimeEnv = Any
+    PlacementGroup = Any
+    Executor = Any
+
+logger = init_logger(__name__)
+
+ExpertPlacementStrategy = Literal["linear", "round_robin"]
+DistributedExecutorBackend = Literal["ray", "mp", "uni", "external_launcher"]
+DataParallelBackend = Literal["ray", "mp"]
+
+
+@config
+@dataclass
+class EPLBConfig:
+    """Configuration for Expert Parallel Load Balancing (EP)."""
+
+    window_size: int = 1000
+    """Window size for expert load recording."""
+    step_interval: int = 3000
+    """
+    Interval for rearranging experts in expert parallelism.
+
+    Note that if this is greater than the EPLB window size, only the metrics
+    of the last `lb_window_size` steps will be used for rearranging experts.
+    """
+
+    num_redundant_experts: int = Field(default=0, ge=0)
+    """Number of redundant experts to use for expert parallelism."""
+
+    log_balancedness: bool = False
+    """
+    Log the balancedness each step of expert parallelism.
+    This is turned off by default since it will cause communication overhead.
+    """
+
+
+@config
+@dataclass
+class ParallelConfig:
+    """Configuration for the distributed execution."""
+
+    pipeline_parallel_size: int = 1
+    """Number of pipeline parallel groups."""
+    tensor_parallel_size: int = 1
+    """Number of tensor parallel groups."""
+    data_parallel_size: int = 1
+    """Number of data parallel groups. MoE layers will be sharded according to
+    the product of the tensor parallel size and data parallel size."""
+    data_parallel_size_local: int = 1
+    """Number of local data parallel groups."""
+    data_parallel_rank: int = 0
+    """Rank of the data parallel group."""
+    data_parallel_rank_local: int | None = None
+    """Local rank of the data parallel group,
+    set only in SPMD mode."""
+    data_parallel_master_ip: str = "127.0.0.1"
+    """IP of the data parallel master."""
+    data_parallel_rpc_port: int = 29550
+    """Port for data parallel messaging."""
+    data_parallel_master_port: int = 29500
+    """Port of the data parallel master."""
+    data_parallel_backend: DataParallelBackend = "mp"
+    """Backend to use for data parallel, either "mp" or "ray"."""
+    data_parallel_external_lb: bool = False
+    """Whether to use "external" DP LB mode. Applies only to online serving
+    and when data_parallel_size > 0. This is useful for a "one-pod-per-rank"
+    wide-EP setup in Kubernetes. Set implicitly when --data-parallel-rank
+    is provided explicitly to vllm serve."""
+    data_parallel_hybrid_lb: bool = False
+    """Whether to use "hybrid" DP LB mode. Applies only to online serving
+    and when data_parallel_size > 0. Enables running an AsyncLLM
+    and API server on a "per-node" basis where vLLM load balances
+    between local data parallel ranks, but an external LB balances
+    between vLLM nodes/replicas. Set explicitly in conjunction with
+    --data-parallel-start-rank."""
+    enable_expert_parallel: bool = False
+    """Use expert parallelism instead of tensor parallelism for MoE layers."""
+    enable_eplb: bool = False
+    """Enable expert parallelism load balancing for MoE layers."""
+    eplb_config: EPLBConfig = Field(default_factory=EPLBConfig)
+    """Expert parallelism configuration."""
+    expert_placement_strategy: ExpertPlacementStrategy = "linear"
+    """The expert placement strategy for MoE layers:\n
+    - "linear": Experts are placed in a contiguous manner. For example, with 4
+      experts and 2 ranks, rank 0 will have experts [0, 1] and rank 1 will have
+      experts [2, 3].\n
+    - "round_robin": Experts are placed in a round-robin manner. For example,
+      with 4 experts and 2 ranks, rank 0 will have experts [0, 2] and rank 1
+      will have experts [1, 3]. This strategy can help improve load balancing
+      for grouped expert models with no redundant experts."""
+    all2all_backend: (
+        Literal[
+            "naive",
+            "pplx",
+            "deepep_high_throughput",
+            "deepep_low_latency",
+            "allgather_reducescatter",
+            "flashinfer_all2allv",
+        ]
+        | None
+    ) = None
+    """All2All backend for MoE expert parallel communication. If not set, uses
+    the value from VLLM_ALL2ALL_BACKEND environment variable. Available options:
+    - "naive": Naive all2all implementation using broadcasts
+    - "allgather_reducescatter": All2all based on allgather and reducescatter
+    - "pplx": Use pplx kernels
+    - "deepep_high_throughput": Use deepep high-throughput kernels
+    - "deepep_low_latency": Use deepep low-latency kernels
+    - "flashinfer_all2allv": Use flashinfer alltoallv kernels for mnnvl"""
+    num_redundant_experts: int | None = None
+    """`num_redundant_experts` is deprecated and has been replaced with
+    `eplb_config.num_redundant_experts`. This will be removed in v0.12.0.
+    Please use `eplb_config.num_redundant_experts` instead."""
+    eplb_window_size: int | None = None
+    """`eplb_window_size` is deprecated and has been replaced with
+    `eplb_config.window_size`. This will be removed in v0.12.0.
+    Please use `eplb_config.window_size` instead."""
+    eplb_step_interval: int | None = None
+    """`eplb_step_interval` is deprecated and has been replaced with
+    `eplb_config.step_interval`. This will be removed in v0.12.0.
+    Please use `eplb_config.step_interval` instead."""
+    eplb_log_balancedness: bool | None = None
+    """`eplb_log_balancedness` is deprecated and has been replaced with
+    `eplb_config.log_balancedness`. This will be removed in v0.12.0.
+    Please use `eplb_config.log_balancedness` instead."""
+
+    max_parallel_loading_workers: int | None = None
+    """Maximum number of parallel loading workers when loading model
+    sequentially in multiple batches. To avoid RAM OOM when using tensor
+    parallel and large models."""
+
+    disable_custom_all_reduce: bool = False
+    """Disable the custom all-reduce kernel and fall back to NCCL."""
+
+    enable_dbo: bool = False
+    """Enable dual batch overlap for the model executor."""
+
+    dbo_decode_token_threshold: int = 32
+    """The threshold for dual batch overlap for batches only containing decodes.
+    If the number of tokens in the request is greater than this threshold,
+    microbatching will be used. Otherwise, the request will be processed in a
+    single batch."""
+    dbo_prefill_token_threshold: int = 512  # TODO(lucas): tune
+    """The threshold for dual batch overlap for batches that contain one or more
+    prefills. If the number of tokens in the request is greater than this
+    threshold, microbatching will be used. Otherwise, the request will be
+    processed in a single batch."""
+
+    disable_nccl_for_dp_synchronization: bool = False
+    """Forces the dp synchronization logic in vllm/v1/worker/dp_utils.py 
+    to use Gloo instead of NCCL for its all reduce"""
+
+    ray_workers_use_nsight: bool = False
+    """Whether to profile Ray workers with nsight, see https://docs.ray.io/en/latest/ray-observability/user-guides/profiling.html#profiling-nsight-profiler."""
+
+    ray_runtime_env: RuntimeEnv | None = None
+    """Ray runtime environment to pass to distributed workers."""
+
+    placement_group: PlacementGroup | None = None
+    """ray distributed model workers placement group."""
+
+    distributed_executor_backend: (
+        str | DistributedExecutorBackend | type[Executor] | None
+    ) = None
+    """Backend to use for distributed model
+    workers, either "ray" or "mp" (multiprocessing). If the product
+    of pipeline_parallel_size and tensor_parallel_size is less than
+    or equal to the number of GPUs available, "mp" will be used to
+    keep processing on a single host. Otherwise, this will default
+    to "ray" if Ray is installed and fail otherwise. Note that tpu
+    only support Ray for distributed inference."""
+
+    worker_cls: str = "auto"
+    """The full name of the worker class to use. If "auto", the worker class
+    will be determined based on the platform."""
+    sd_worker_cls: str = "auto"
+    """The full name of the worker class to use for speculative decoding.
+    If "auto", the worker class will be determined based on the platform."""
+    worker_extension_cls: str = ""
+    """The full name of the worker extension class to use. The worker extension
+    class is dynamically inherited by the worker class. This is used to inject
+    new attributes and methods to the worker class for use in collective_rpc
+    calls."""
+    master_addr: str = "127.0.0.1"
+    """distributed master address for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    master_port: int = 29501
+    """distributed master port for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    node_rank: int = 0
+    """distributed node rank for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    nnodes: int = 1
+    """num of nodes for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+
+    world_size: int = Field(init=False)
+    """world_size is TPxPP, it affects the number of workers we create."""
+
+    rank: int = 0
+    """Global rank in distributed setup."""
+
+    _data_parallel_master_port_list: list[int] = Field(default_factory=list)
+    """List of open port auto-queried for data parallel messaging.
+    Set to be private as it's not intended to be configured by users.
+    """
+
+    decode_context_parallel_size: int = 1
+    """Number of decode context parallel groups, because the world size does
+    not change by dcp, it simply reuse the GPUs of TP group, and tp_size
+    needs to be divisible by dcp_size."""
+
+    dcp_kv_cache_interleave_size: int = 1
+    """Interleave size of kv_cache storage while using dcp or cp > 1,
+    store interleave_size tokens on (d)cp i,
+    then store next interleave_size tokens on (d)cp i+1.
+    Interleave_size=1: token-level align, token i is stored on rank i % (d)cp_size.
+    Interleave_size=block_size: block-level align, first fill the block on first rank,
+    token is stored on rank i+1 block j after rank i block j is full.
+    Block_size should be greater than or equal to dcp_kv_cache_interleave_size.
+    Block_size should be divisible by dcp_kv_cache_interleave_size.
+    """
+
+    _api_process_count: int = Field(default=1, gt=0)
+    """
+    The number of API processes initialized.
+
+    Note:
+        This is an internal config that is only valid for and
+        should only be set by API server scale-out.
+    """
+
+    _api_process_rank: int = Field(default=0, ge=-1)
+    """
+    The rank of this API process, or `-1` for engine core processes
+    under API server scale-out.
+
+    Note:
+        This is an internal config that is only valid for and
+        should only be set by API server scale-out.
+    """
+
+    @model_validator(mode="after")
+    def _validate_parallel_config(self) -> Self:
+        if self._api_process_rank >= self._api_process_count:
+            raise ValueError(
+                "Invalid value of `_api_process_rank`. "
+                f"Expected to be `-1` or `[0, {self._api_process_count})`, "
+                f"but found: {self._api_process_rank}"
+            )
+
+        if self.data_parallel_size_local > self.data_parallel_size:
+            raise ValueError(
+                f"data_parallel_size_local ({self.data_parallel_size_local}) "
+                f"must be <= data_parallel_size ({self.data_parallel_size})"
+            )
+
+        if self.data_parallel_size <= 1 and self.data_parallel_external_lb:
+            raise ValueError(
+                "data_parallel_external_lb can only be set when data_parallel_size > 1"
+            )
+
+        if self.enable_eplb:
+            if not current_platform.is_cuda_alike():
+                raise ValueError(
+                    "Expert parallelism load balancing is only supported on "
+                    "CUDA devices or ROCm devices now."
+                )
+            if not self.enable_expert_parallel:
+                raise ValueError("enable_expert_parallel must be True to use EPLB.")
+            if self.tensor_parallel_size * self.data_parallel_size <= 1:
+                raise ValueError(
+                    "EPLB requires tensor_parallel_size or data_parallel_size "
+                    f"to be greater than 1, but got "
+                    f"TP={self.tensor_parallel_size},DP={self.data_parallel_size}."
+                )
+        else:
+            if self.eplb_config.num_redundant_experts != 0:
+                raise ValueError(
+                    "num_redundant_experts is set to "
+                    f"{self.eplb_config.num_redundant_experts} but EPLB is not "
+                    "enabled. Either enable EPLB or unset "
+                    "num_redundant_experts."
+                )
+
+        return self
+
+    @property
+    def world_size_across_dp(self) -> int:
+        """world_size_across_dp is TPxPPxDP, it is the size of the world
+        including data parallelism."""
+        return self.world_size * self.data_parallel_size
+
+    def get_next_dp_init_port(self) -> int:
+        """
+        We might need to initialize process groups in multiple
+        processes that is related to data parallelism,
+        e.g. both in the worker and in the engine, which
+        can live in different processes. To avoid port conflicts, we
+        pop a new port from the prepared port list each time we need to
+        initialize a new process group related to data parallelism.
+        """
+        if self._data_parallel_master_port_list:
+            answer = self._data_parallel_master_port_list.pop()
+        else:
+            answer = self.data_parallel_master_port
+            self.data_parallel_master_port += 1
+
+        return answer
+
+    def stateless_init_dp_group(self) -> ProcessGroup:
+        # NOTE: In high-concurrency scenarios multiple processes
+        # can pick the same (currently free) port through a race
+        # condition when calling `get_open_port()`. When the first
+        # process binds the port the others will subsequently fail
+        # with `torch.distributed.DistNetworkError: EADDRINUSE`.
+        # To make the initialization more robust we retry a few times
+        # with a fresh port whenever this specific error is observed.
+        from torch.distributed import DistNetworkError
+
+        from vllm.distributed.utils import (
+            stateless_init_torch_distributed_process_group,
+        )
+
+        max_retries = 5
+        last_exc: Exception | None = None
+        for _ in range(max_retries):
+            try:
+                # use gloo since the engine process might not have cuda device
+                return stateless_init_torch_distributed_process_group(
+                    self.data_parallel_master_ip,
+                    self.get_next_dp_init_port(),
+                    self.data_parallel_rank,
+                    self.data_parallel_size,
+                    backend=current_platform.dist_backend,
+                )
+            except DistNetworkError as e:
+                # We only want to retry when the root cause is EADDRINUSE.
+                if "EADDRINUSE" in str(e):
+                    logger.warning("Address already in use. Retrying with a new port.")
+                    last_exc = e
+                    continue  # try again with a new port
+                raise e
+
+        # If we get here all retries have failed.
+        assert last_exc is not None
+        raise last_exc
+
+    # The all_reduce at the end of attention (during o_proj) means that
+    # inputs are replicated across each rank of the tensor parallel group.
+    # If using expert-parallelism with DeepEP All2All ops, replicated
+    # tokens results in useless duplicate computation and communication.
+    #
+    # In this case, ensure the input to the experts is sequence parallel
+    # to avoid the excess work.
+    #
+    # Not needed for pplx-kernels as it can handle duplicate input tokens.
+    @property
+    def use_sequence_parallel_moe(self) -> bool:
+        return (
+            self.all2all_backend
+            in (
+                "allgather_reducescatter",
+                "naive",
+                "deepep_high_throughput",
+                "deepep_low_latency",
+            )
+            and self.enable_expert_parallel
+            and self.tensor_parallel_size > 1
+            and self.data_parallel_size > 1
+        )
+
+    @property
+    def node_rank_within_dp(self) -> int:
+        return self.node_rank % self.nnodes_within_dp
+
+    @property
+    def nnodes_within_dp(self) -> int:
+        if self.nnodes == 1:
+            return 1
+        data_parallel_node_size = (
+            self.data_parallel_size // self.data_parallel_size_local
+        )
+        return self.nnodes // data_parallel_node_size
+
+    @property
+    def local_world_size(self) -> int:
+        return self.world_size // self.nnodes_within_dp
+
+    @staticmethod
+    def has_unfinished_dp(dp_group: ProcessGroup, has_unfinished: bool) -> bool:
+        tensor = torch.tensor([has_unfinished], dtype=torch.int32, device="cpu")
+        # dp rank 0: has_unfinished_seqs=True
+        # dp rank 1: has_unfinished_seqs=False
+        # aggregated: has_unfinished_seqs=True
+        # so this is an OR operation, i.e. MAX in integers
+        torch.distributed.all_reduce(tensor, op=ReduceOp.MAX, group=dp_group)
+        aggregated_has_unfinished = bool(tensor.item())
+        return aggregated_has_unfinished
+
+    @staticmethod
+    def sync_kv_cache_memory_size(dp_group: ProcessGroup, kv_cache_memory: int) -> int:
+        if kv_cache_memory == -1:
+            kv_cache_memory = torch.iinfo(torch.int64).max
+        tensor = torch.tensor([kv_cache_memory], dtype=torch.int64, device="cpu")
+        # we cannot use broadcast for stateless dp group since it depends
+        # on global rank
+        torch.distributed.all_reduce(tensor, op=ReduceOp.MIN, group=dp_group)
+        return tensor.item()
+
+    def compute_hash(self):
+        """
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+
+        This hash is also used for DP worker configuration validation
+        to prevent hangs from mismatched collective communication patterns.
+        """
+        factors: list[Any] = []
+        factors.append(self.pipeline_parallel_size)
+        factors.append(self.tensor_parallel_size)
+        factors.append(self.enable_expert_parallel)
+        factors.append(self.data_parallel_size)
+        factors.append(self.all2all_backend)
+        factors.append(self.enable_eplb)
+        if self.enable_eplb:
+            factors.append(self.eplb_config.log_balancedness)
+            factors.append(self.eplb_config.window_size)
+            factors.append(self.eplb_config.step_interval)
+            factors.append(self.eplb_config.num_redundant_experts)
+        return hashlib.sha256(str(factors).encode()).hexdigest()
+
+    def __post_init__(self) -> None:
+        # Set all2all_backend from env var if not specified, with deprecation warning
+        if self.all2all_backend is None:
+            self.all2all_backend = envs.VLLM_ALL2ALL_BACKEND
+            if envs.is_set("VLLM_ALL2ALL_BACKEND"):
+                logger.warning_once(
+                    "VLLM_ALL2ALL_BACKEND environment variable is deprecated and "
+                    "will be removed in a future release. Please use the "
+                    "--all2all-backend command-line argument instead."
+                )
+
+        # Forward deprecated fields to their new location
+        if self.num_redundant_experts is not None:
+            self.eplb_config.num_redundant_experts = self.num_redundant_experts
+            logger.warning_once(
+                "num_redundant_experts is deprecated and has been replaced "
+                "with eplb_config.num_redundant_experts. This will be removed "
+                "in v0.12.0. Changing this field after initialization will "
+                "have no effect."
+            )
+        if self.eplb_window_size is not None:
+            self.eplb_config.window_size = self.eplb_window_size
+            logger.warning_once(
+                "eplb_window_size is deprecated and has been replaced "
+                "with eplb_config.window_size. This will be removed "
+                "in v0.12.0. Changing this field after initialization will "
+                "have no effect."
+            )
+        if self.eplb_step_interval is not None:
+            self.eplb_config.step_interval = self.eplb_step_interval
+            logger.warning_once(
+                "eplb_step_interval is deprecated and has been replaced "
+                "with eplb_config.step_interval. This will be removed "
+                "in v0.12.0. Changing this field after initialization will "
+                "have no effect."
+            )
+        if self.eplb_log_balancedness is not None:
+            self.eplb_config.log_balancedness = self.eplb_log_balancedness
+            logger.warning_once(
+                "eplb_log_balancedness is deprecated and has been replaced "
+                "with eplb_config.log_balancedness. This will be removed "
+                "in v0.12.0. Changing this field after initialization will "
+                "have no effect."
+            )
+
+        # Continue with the rest of the initialization
+        self.world_size = self.pipeline_parallel_size * self.tensor_parallel_size
+
+        if self.distributed_executor_backend == "external_launcher":
+            logger.info("Using external launcher for distributed inference.")
+            self.world_size *= self.data_parallel_size
+
+        if self.data_parallel_size > 1 or self.data_parallel_size_local == 0:
+            # Data parallel was specified in the engine args.
+            if self.distributed_executor_backend == "external_launcher":
+                # For external launcher,
+                # we need to set the data parallel rank automatically
+                self.data_parallel_rank = int(os.environ["RANK"]) // (
+                    self.world_size // self.data_parallel_size
+                )
+                logger.info(
+                    "Set data_parallel_rank to %d automatically.",
+                    self.data_parallel_rank,
+                )
+            if not self._data_parallel_master_port_list:
+                self._data_parallel_master_port_list = get_open_ports_list(5)
+            self.data_parallel_master_port = self._data_parallel_master_port_list.pop()
+
+            if not (0 <= self.data_parallel_rank < self.data_parallel_size):
+                raise ValueError(
+                    f"data_parallel_rank ({self.data_parallel_rank})"
+                    f" must be in the range [0, {self.data_parallel_size})"
+                )
+        else:
+            # Otherwise fall back to env vars (e.g. for offline SPMD case).
+            self.data_parallel_size = envs.VLLM_DP_SIZE
+            self.data_parallel_rank = envs.VLLM_DP_RANK
+            self.data_parallel_rank_local = envs.VLLM_DP_RANK_LOCAL
+            self.data_parallel_master_ip = envs.VLLM_DP_MASTER_IP
+            self.data_parallel_master_port = envs.VLLM_DP_MASTER_PORT
+
+        if self.distributed_executor_backend == "external_launcher":
+            os.environ["VLLM_ENABLE_V1_MULTIPROCESSING"] = "0"
+            logger.info("Disabling V1 multiprocessing for external launcher.")
+
+        if self.distributed_executor_backend is None and self.world_size > 1:
+            # We use multiprocessing by default if world_size fits on the
+            # current node and we aren't in a ray placement group.
+
+            from vllm.v1.executor import ray_utils
+
+            backend: DistributedExecutorBackend = "mp"
+            ray_found = ray_utils.ray_is_available()
+            if current_platform.is_tpu() and envs.VLLM_XLA_USE_SPMD:
+                backend = "uni"
+            elif current_platform.is_cuda() and self.nnodes > 1:
+                backend = "mp"
+            elif (
+                current_platform.is_cuda()
+                and cuda_device_count_stateless() < self.world_size
+            ):
+                gpu_count = cuda_device_count_stateless()
+                raise ValueError(
+                    f"Tensor parallel size ({self.world_size}) cannot be "
+                    f"larger than the number of available GPUs ({gpu_count})."
+                )
+            elif self.data_parallel_backend == "ray":
+                logger.info(
+                    "Using ray distributed inference because "
+                    "data_parallel_backend is ray"
+                )
+                backend = "ray"
+            elif ray_found:
+                if self.placement_group:
+                    backend = "ray"
+                else:
+                    from ray import is_initialized as ray_is_initialized
+
+                    if ray_is_initialized():
+                        from ray.util import get_current_placement_group
+
+                        if get_current_placement_group():
+                            backend = "ray"
+            self.distributed_executor_backend = backend
+            logger.debug("Defaulting to use %s for distributed inference", backend)
+
+        if self.distributed_executor_backend is None and self.world_size == 1:
+            self.distributed_executor_backend = "uni"
+
+        if self.max_parallel_loading_workers is not None:
+            logger.warning(
+                "max_parallel_loading_workers is currently "
+                "not supported and will be ignored."
+            )
+        if self.distributed_executor_backend != "mp" and self.nnodes > 1:
+            raise ValueError(
+                "nnodes > 1 can only be set when distributed exectuor backend is mp."
+            )
+
+    @property
+    def use_ray(self) -> bool:
+        return self.distributed_executor_backend == "ray" or (
+            isinstance(self.distributed_executor_backend, type)
+            and getattr(self.distributed_executor_backend, "uses_ray", False)
+        )
+
+    @model_validator(mode="after")
+    def _verify_args(self) -> Self:
+        # Lazy import to avoid circular import
+        from vllm.v1.executor import Executor
+
+        # Enable batch invariance settings if requested
+        if vllm_is_batch_invariant():
+            self.disable_custom_all_reduce = True
+
+        if (
+            self.distributed_executor_backend is not None
+            and not isinstance(self.distributed_executor_backend, str)
+            and not (
+                isinstance(self.distributed_executor_backend, type)
+                and issubclass(self.distributed_executor_backend, Executor)
+            )
+        ):
+            raise ValueError(
+                "Unrecognized distributed executor backend "
+                f"{self.distributed_executor_backend}. Supported "
+                "values are 'ray', 'mp' 'uni', 'external_launcher', "
+                " custom Executor subclass or its import path."
+            )
+        if self.use_ray:
+            from vllm.v1.executor import ray_utils
+
+            ray_utils.assert_ray_available()
+
+        if not current_platform.use_custom_allreduce():
+            self.disable_custom_all_reduce = True
+            logger.debug(
+                "Disabled the custom all-reduce kernel because it is not "
+                "supported on current platform."
+            )
+        if self.nnodes > 1:
+            self.disable_custom_all_reduce = True
+            logger.debug(
+                "Disabled the custom all-reduce since we are running on multi-node."
+            )
+        if self.ray_workers_use_nsight and not self.use_ray:
+            raise ValueError(
+                "Unable to use nsight profiling unless workers run with Ray."
+            )
+
+        return self
diff --git a/config/pooler.py b/config/pooler.py
new file mode 100644
index 0000000..6bece8d
--- /dev/null
+++ b/config/pooler.py
@@ -0,0 +1,122 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from typing import Any
+
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@config
+@dataclass
+class PoolerConfig:
+    """Controls the behavior of output pooling in pooling models."""
+
+    pooling_type: str | None = None
+    """
+    The pooling method of the pooling model. This should be a key in
+    [`vllm.model_executor.layers.pooler.PoolingType`][].
+    """
+
+    ## for embeddings models
+    normalize: bool | None = None
+    """
+    Whether to normalize the embeddings outputs. Defaults to True.
+    """
+    dimensions: int | None = None
+    """
+    Reduce the dimensions of embeddings if model
+    support matryoshka representation. Defaults to None.
+    """
+    enable_chunked_processing: bool | None = None
+    """
+    Whether to enable chunked processing for long inputs that exceed the model's
+    maximum position embeddings. When enabled, long inputs will be split into
+    chunks, processed separately, and then aggregated using weighted averaging.
+    This allows embedding models to handle arbitrarily long text without CUDA
+    errors. Defaults to False.
+    """
+    max_embed_len: int | None = None
+    """
+    Maximum input length allowed for embedding generation. When set, allows
+    inputs longer than max_embed_len to be accepted for embedding models.
+    When an input exceeds max_embed_len, it will be handled according to 
+    the original max_model_len validation logic. 
+    Defaults to None (i.e. set to max_model_len).
+    """
+
+    ## for classification models
+    softmax: float | None = None
+    """
+    softmax will be deprecated, please use use_activation instead.
+    """
+    activation: float | None = None
+    """
+    activation will be deprecated, please use use_activation instead.
+    """
+    use_activation: bool | None = None
+    """
+    Whether to apply activation function to the classification outputs.
+    Defaults to True.
+    """
+    logit_bias: float | None = None
+    """
+    If provided, apply classification logit biases. Defaults to None.
+    """
+
+    ## for reward models
+    step_tag_id: int | None = None
+    """
+    If set, only the score corresponding to the `step_tag_id` in the
+    generated sentence should be returned. Otherwise, the scores for all tokens
+    are returned.
+    """
+    returned_token_ids: list[int] | None = None
+    """
+    A list of indices for the vocabulary dimensions to be extracted,
+    such as the token IDs of `good_token` and `bad_token` in the
+    `math-shepherd-mistral-7b-prm` model.
+    """
+
+    def __post_init__(self):
+        # raise deprecated warning for softmax and activation
+        self.use_activation = get_use_activation(self)
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+
+def get_use_activation(o: object):
+    if softmax := getattr(o, "softmax", None) is not None:
+        logger.warning_once(
+            "softmax will be deprecated, please use use_activation instead."
+        )
+        return softmax
+
+    if activation := getattr(o, "activation", None) is not None:
+        logger.warning_once(
+            "activation will be deprecated, please use use_activation instead."
+        )
+        return activation
+
+    return getattr(o, "use_activation", None)
diff --git a/config/scheduler.py b/config/scheduler.py
new file mode 100644
index 0000000..8194295
--- /dev/null
+++ b/config/scheduler.py
@@ -0,0 +1,298 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from collections.abc import Callable
+from dataclasses import InitVar
+from typing import TYPE_CHECKING, Any, ClassVar, Literal, cast
+
+from pydantic import Field, field_validator
+from pydantic.dataclasses import dataclass
+from typing_extensions import Self, deprecated
+
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.interface import SchedulerInterface
+
+logger = init_logger(__name__)
+
+RunnerType = Literal["generate", "pooling", "draft"]
+SchedulerPolicy = Literal["fcfs", "priority"]
+
+
+@config
+@dataclass
+class SchedulerConfig:
+    """Scheduler configuration."""
+
+    DEFAULT_MAX_NUM_BATCHED_TOKENS: ClassVar[int] = 2048
+    DEFAULT_MAX_NUM_SEQS: ClassVar[int] = 128
+
+    runner_type: RunnerType = "generate"
+    """The runner type to launch for the model."""
+
+    max_num_batched_tokens: int = Field(default=DEFAULT_MAX_NUM_BATCHED_TOKENS, ge=1)
+    """Maximum number of tokens to be processed in a single iteration.
+
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
+
+    max_num_seqs: int = Field(default=DEFAULT_MAX_NUM_SEQS, ge=1)
+    """Maximum number of sequences to be processed in a single iteration.
+
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
+
+    max_num_partial_prefills: int = Field(default=1, ge=1)
+    """For chunked prefill, the maximum number of sequences that can be
+    partially prefilled concurrently."""
+
+    max_long_partial_prefills: int = Field(default=1, ge=1)
+    """For chunked prefill, the maximum number of prompts longer than
+    long_prefill_token_threshold that will be prefilled concurrently. Setting
+    this less than max_num_partial_prefills will allow shorter prompts to jump
+    the queue in front of longer prompts in some cases, improving latency."""
+
+    long_prefill_token_threshold: int = 0
+    """For chunked prefill, a request is considered long if the prompt is
+    longer than this number of tokens."""
+
+    num_lookahead_slots: int = Field(default=0, ge=0)
+    """The number of slots to allocate per sequence per
+    step, beyond the known token ids. This is used in speculative
+    decoding to store KV activations of tokens which may or may not be
+    accepted.
+
+    NOTE: This will be replaced by speculative config in the future; it is
+    present to enable correctness tests until then."""
+
+    enable_chunked_prefill: bool = True
+    """If True, prefill requests can be chunked based
+    on the remaining `max_num_batched_tokens`.
+
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
+
+    is_multimodal_model: bool = False
+    """True if the model is multimodal."""
+
+    max_model_len: InitVar[int] = 8192
+    """Maximum length of a sequence (including prompt and generated text).
+
+    Note: This is stored in the ModelConfig, and is used only here to
+    provide fallbacks and validate other attributes."""
+
+    is_encoder_decoder: InitVar[bool] = False
+    """True if the model is an encoder-decoder model.
+
+    Note: This is stored in the ModelConfig, and is used only here to
+    disable chunked prefill and prefix caching for encoder-decoder models.
+    """
+
+    # TODO (ywang96): Make this configurable.
+    max_num_encoder_input_tokens: int = Field(init=False)
+    """Multimodal encoder compute budget, only used in V1.
+
+    NOTE: This is not currently configurable. It will be overridden by
+    max_num_batched_tokens in case max multimodal embedding size is larger."""
+
+    # TODO (ywang96): Make this configurable.
+    encoder_cache_size: int = Field(init=False)
+    """Multimodal encoder cache size, only used in V1.
+
+    NOTE: This is not currently configurable. It will be overridden by
+    max_num_batched_tokens in case max multimodal embedding size is larger."""
+
+    policy: SchedulerPolicy = "fcfs"
+    """The scheduling policy to use:\n
+    - "fcfs" means first come first served, i.e. requests are handled in order
+    of arrival.\n
+    - "priority" means requests are handled based on given priority (lower
+    value means earlier handling) and time of arrival deciding any ties)."""
+
+    disable_chunked_mm_input: bool = False
+    """If set to true and chunked prefill is enabled, we do not want to
+    partially schedule a multimodal item. Only used in V1
+    This ensures that if a request has a mixed prompt
+    (like text tokens TTTT followed by image tokens IIIIIIIIII) where only
+    some image tokens can be scheduled (like TTTTIIIII, leaving IIIII),
+    it will be scheduled as TTTT in one step and IIIIIIIIII in the next."""
+
+    # scheduler class or path. "vllm.v1.core.sched.scheduler.Scheduler"
+    # (default) or "mod.custom_class".
+    scheduler_cls: str | type[object] = Field(default=None)
+    """The scheduler class to use. "vllm.v1.core.sched.scheduler.Scheduler" is
+    the default scheduler. Can be a class directly or the path to a class of
+    form "mod.custom_class"."""
+
+    disable_hybrid_kv_cache_manager: bool = False
+    """If set to True, KV cache manager will allocate the same size of KV cache
+    for all attention layers even if there are multiple type of attention layers
+    like full attention and sliding window attention.
+    """
+
+    async_scheduling: bool = False
+    """If set to True, perform async scheduling. This helps to avoid gaps in
+    GPU utilization, leading to better latency and throughput.
+    Async scheduling is currently not supported with some features such as
+    speculative decoding and pipeline parallelism.
+    """
+
+    stream_interval: int = Field(default=1, ge=1)
+    """The interval (or buffer size) for streaming in terms of token length.
+    A smaller value (1) makes streaming smoother by sending each token immediately,
+    while a larger value (e.g., 10) reduces host overhead and may increase throughput
+    by batching multiple tokens before sending."""
+
+    def get_scheduler_cls(self) -> type["SchedulerInterface"]:
+        if self.scheduler_cls is None:
+            if self.async_scheduling:
+                from vllm.v1.core.sched.async_scheduler import AsyncScheduler
+
+                return AsyncScheduler
+            from vllm.v1.core.sched.scheduler import Scheduler
+
+            return Scheduler
+
+        # This warning can be removed once the Scheduler interface is
+        # finalized and we can maintain support for scheduler classes that
+        # implement it
+        logger.warning_once(
+            "Using custom scheduler class %s. This scheduler interface is "
+            "not public and compatibility may not be maintained.",
+            self.scheduler_cls,
+        )
+        if not isinstance(self.scheduler_cls, str):
+            return cast(type["SchedulerInterface"], self.scheduler_cls)
+        return resolve_obj_by_qualname(self.scheduler_cls)
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @field_validator("scheduler_cls", "async_scheduling", mode="wrap")
+    @classmethod
+    def _skip_none_validation(cls, value: Any, handler: Callable) -> Any:
+        """Skip validation if the value is `None` when initialisation is delayed."""
+        if value is None:
+            return value
+        return handler(value)
+
+    def __post_init__(self, max_model_len: int, is_encoder_decoder: bool) -> None:
+        if is_encoder_decoder:
+            # Chunked prefill should be disabled for encoder-decoder models.
+            self.disable_chunked_mm_input = True
+            self.enable_chunked_prefill = False
+            self.long_prefill_token_threshold = 0
+            logger.info(
+                "Encoder-decoder models do not support chunked prefill nor"
+                " prefix caching; disabling both."
+            )
+
+        self.max_num_encoder_input_tokens = self.max_num_batched_tokens
+        self.encoder_cache_size = self.max_num_batched_tokens
+
+        if self.enable_chunked_prefill:
+            logger.info(
+                "Chunked prefill is enabled with max_num_batched_tokens=%d.",
+                self.max_num_batched_tokens,
+            )
+
+        if self.max_num_partial_prefills > 1:
+            if self.long_prefill_token_threshold == 0:
+                self.long_prefill_token_threshold = int(max_model_len * 0.04)
+
+            logger.info(
+                "Concurrent partial prefills enabled with "
+                "max_num_partial_prefills=%d, max_long_partial_prefills=%d, "
+                "long_prefill_token_threshold=%d",
+                self.max_num_partial_prefills,
+                self.max_long_partial_prefills,
+                self.long_prefill_token_threshold,
+            )
+
+        self.verify_max_model_len(max_model_len)
+
+    @property
+    @deprecated(
+        "`SchedulerConfig.chunked_prefill_enabled` has been renamed to "
+        "`SchedulerConfig.enable_chunked_prefill`. "
+        "The old name will be removed in v0.12."
+    )
+    def chunked_prefill_enabled(self) -> bool:
+        return self.enable_chunked_prefill
+
+    @chunked_prefill_enabled.setter
+    def chunked_prefill_enabled(self, value: bool):
+        self.enable_chunked_prefill = value
+
+    def verify_max_model_len(self, max_model_len: int) -> Self:
+        if (
+            self.max_num_batched_tokens < max_model_len
+            and not self.enable_chunked_prefill
+        ):
+            raise ValueError(
+                f"max_num_batched_tokens ({self.max_num_batched_tokens}) is "
+                f"smaller than max_model_len ({max_model_len}). "
+                "This effectively limits the maximum sequence length to "
+                "max_num_batched_tokens and makes vLLM reject longer "
+                "sequences. Please increase max_num_batched_tokens or "
+                "decrease max_model_len."
+            )
+
+        if self.max_num_batched_tokens < self.max_num_seqs:
+            raise ValueError(
+                f"max_num_batched_tokens ({self.max_num_batched_tokens}) must "
+                "be greater than or equal to max_num_seqs "
+                f"({self.max_num_seqs})."
+            )
+
+        if self.max_num_batched_tokens > self.max_num_seqs * max_model_len:
+            logger.warning(
+                "max_num_batched_tokens (%d) exceeds max_num_seqs "
+                "* max_model_len (%d). This may lead to unexpected behavior.",
+                self.max_num_batched_tokens,
+                self.max_num_seqs * max_model_len,
+            )
+
+        if self.max_num_partial_prefills > 1:
+            if not self.enable_chunked_prefill:
+                raise ValueError(
+                    "Chunked prefill must be enabled to set "
+                    "max_num_partial_prefills > 1."
+                )
+
+            if self.long_prefill_token_threshold > max_model_len:
+                raise ValueError(
+                    "long_prefill_token_threshold "
+                    f"({self.long_prefill_token_threshold}) cannot be greater "
+                    f"than the max_model_len ({max_model_len})."
+                )
+
+        if self.max_long_partial_prefills > self.max_num_partial_prefills:
+            raise ValueError(
+                f"{self.max_long_partial_prefills=} must be less than or equal to "
+                f"{self.max_num_partial_prefills=}."
+            )
+
+        return self
diff --git a/config/speculative.py b/config/speculative.py
new file mode 100644
index 0000000..13a8632
--- /dev/null
+++ b/config/speculative.py
@@ -0,0 +1,654 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ast
+import hashlib
+from typing import TYPE_CHECKING, Any, Literal, get_args
+
+from pydantic import Field, SkipValidation, model_validator
+from pydantic.dataclasses import dataclass
+from typing_extensions import Self
+
+from vllm.config.parallel import ParallelConfig
+from vllm.config.utils import config
+from vllm.logger import init_logger
+from vllm.utils.import_utils import LazyLoader, has_arctic_inference
+
+if TYPE_CHECKING:
+    from transformers import PretrainedConfig
+
+    import vllm.model_executor.layers.quantization as me_quant
+    from vllm.config import ModelConfig
+else:
+    PretrainedConfig = Any
+    ModelConfig = Any
+
+    me_quant = LazyLoader(
+        "model_executor", globals(), "vllm.model_executor.layers.quantization"
+    )
+
+logger = init_logger(__name__)
+
+MTPModelTypes = Literal[
+    "deepseek_mtp",
+    "mimo_mtp",
+    "glm4_moe_mtp",
+    "ernie_mtp",
+    "qwen3_next_mtp",
+    "longcat_flash_mtp",
+    "mtp",
+    "pangu_ultra_moe_mtp",
+]
+EagleModelTypes = Literal["eagle", "eagle3", MTPModelTypes]
+SpeculativeMethod = Literal[
+    "ngram",
+    "medusa",
+    "mlp_speculator",
+    "draft_model",
+    "suffix",
+    EagleModelTypes,
+]
+
+
+@config
+@dataclass
+class SpeculativeConfig:
+    """Configuration for speculative decoding."""
+
+    enforce_eager: bool | None = None
+    """Override the default enforce_eager from model_config"""
+    # General speculative decoding control
+    num_speculative_tokens: int = Field(default=None, gt=0)
+    """The number of speculative tokens, if provided. It will default to the
+    number in the draft model config if present, otherwise, it is required."""
+    model: str | None = None
+    """The name of the draft model, eagle head, or additional weights, if
+    provided."""
+    method: SpeculativeMethod | None = None
+    """The name of the speculative method to use. If users provide and set the
+    `model` param, the speculative method type will be detected automatically
+    if possible, if `model` param is not provided, the method name must be
+    provided.
+
+    If using `ngram` method, the related configuration `prompt_lookup_max` and
+    `prompt_lookup_min` should be considered."""
+    draft_tensor_parallel_size: int | None = Field(default=None, ge=1)
+    """The degree of the tensor parallelism for the draft model. Can only be 1
+    or the same as the target model's tensor parallel size."""
+
+    # Draft model configuration
+    quantization: me_quant.QuantizationMethods | None = None
+    """Quantization method that was used to quantize the draft model weights.
+    If `None`, we assume the model weights are not quantized. Note that it only
+    takes effect when using the draft model-based speculative method."""
+    max_model_len: int | None = Field(default=None, ge=1)
+    """The maximum model length of the draft model. Used when testing the
+    ability to skip speculation for some sequences."""
+    revision: str | None = None
+    """The specific model version to use for the draft model. It can be a
+    branch name, a tag name, or a commit id. If unspecified, will use the
+    default version."""
+    code_revision: str | None = None
+    """The specific revision to use for the draft model code on Hugging Face
+    Hub. It can be a branch name, a tag name, or a commit id. If unspecified,
+    will use the default version."""
+
+    # Advanced control
+    disable_by_batch_size: int | None = Field(default=None, ge=2)
+    """Disable speculative decoding for new incoming requests when the number
+    of enqueued requests is larger than this value, if provided."""
+    disable_padded_drafter_batch: bool = False
+    """Disable input padding for speculative decoding. If set to True,
+    speculative input batches can contain sequences of different lengths,
+    which may only be supported by certain attention backends. This currently
+    only affects the EAGLE method of speculation."""
+
+    # Ngram proposer configuration
+    prompt_lookup_max: int | None = Field(default=None, ge=1)
+    """Maximum size of ngram token window when using Ngram proposer, required
+    when method is set to ngram."""
+    prompt_lookup_min: int | None = Field(default=None, ge=1)
+    """Minimum size of ngram token window when using Ngram proposer, if
+    provided. Defaults to 1."""
+
+    speculative_token_tree: str | None = None
+    """Specifies the tree structure for speculative token generation.
+    """
+    # required configuration params passed from engine
+    target_model_config: SkipValidation[ModelConfig] = None  # type: ignore
+    """The configuration of the target model."""
+    target_parallel_config: SkipValidation[ParallelConfig] = None  # type: ignore
+    """The parallel configuration for the target model."""
+
+    # params generated in the post-init stage
+    draft_model_config: SkipValidation[ModelConfig] = None  # type: ignore
+    """The configuration of the draft model initialized internal."""
+    draft_parallel_config: SkipValidation[ParallelConfig] = None  # type: ignore
+    """The parallel configuration for the draft model initialized internal."""
+
+    # Suffix decoding configuration
+    suffix_decoding_max_tree_depth: int = 24
+    """The maximum depth of the suffix decoding global and prompt trees. The
+    tree depth limits the sum of the prefix match and speculation lengths."""
+
+    suffix_decoding_max_cached_requests: int = 10000
+    """The maximum number of requests to cache in the global suffix tree. If
+    exceeded, will trigger eviction in FIFO order. If set to 0, the global
+    suffix tree is disabled and past responses are not cached (prompt trees
+    are still used)."""
+
+    suffix_decoding_max_spec_factor: float = 1.0
+    """The maximum spec factor for suffix decoding. The spec factor controls
+    speculation lengths based on the prefix match length: max_spec_tokens =
+    max_spec_factor * prefix_match_length."""
+
+    suffix_decoding_min_token_prob: float = 0.1
+    """The minimum token probability for suffix decoding. Will only speculate
+    tokens with estimated probability (based on frequency counts) greater than
+    or equal to this value."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+        # Eagle3 affects the computation graph because it returns intermediate
+        # hidden states in addition to the final hidden state.
+        factors.append(self.method == "eagle3")
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @staticmethod
+    def hf_config_override(hf_config: PretrainedConfig) -> PretrainedConfig:
+        if hf_config.model_type in ("deepseek_v3", "deepseek_v32"):
+            hf_config.model_type = "deepseek_mtp"
+        if hf_config.model_type == "deepseek_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["DeepSeekMTPModel"]}
+            )
+        if hf_config.model_type in ("pangu_ultra_moe"):
+            hf_config.model_type = "pangu_ultra_moe_mtp"
+        if hf_config.model_type == "pangu_ultra_moe_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["OpenPanguMTPModel"]}
+            )
+
+        if hf_config.architectures[0] == "MiMoForCausalLM":
+            hf_config.model_type = "mimo_mtp"
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {
+                    "num_hidden_layers": 0,
+                    "n_predict": n_predict,
+                    "architectures": ["MiMoMTPModel"],
+                }
+            )
+
+        if hf_config.architectures[0] == "Glm4MoeForCausalLM":
+            hf_config.model_type = "glm4_moe_mtp"
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {
+                    "num_hidden_layers": 0,
+                    "n_predict": n_predict,
+                    "architectures": ["Glm4MoeMTPModel"],
+                }
+            )
+
+        if hf_config.model_type == "ernie4_5_moe":
+            hf_config.model_type = "ernie_mtp"
+        if hf_config.model_type == "ernie_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["ErnieMTPModel"]}
+            )
+
+        if hf_config.model_type == "qwen3_next":
+            hf_config.model_type = "qwen3_next_mtp"
+        if hf_config.model_type == "qwen3_next_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["Qwen3NextMTP"]}
+            )
+        if hf_config.model_type == "longcat_flash":
+            hf_config.model_type = "longcat_flash_mtp"
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", 1)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["LongCatFlashMTPModel"]}
+            )
+
+        return hf_config
+
+    def __post_init__(self):
+        # Note: "method" is a new parameter that helps to extend the
+        # configuration of non-model-based proposers, and the "model" parameter
+        # will be used to set the draft model, eagle head, or additional weight
+        # when needed. If users do not specify "method", the speculative method
+        # will be detected automatically if possible. If the speculative method
+        # can not be detected, it will be considered as the "draft_model" by
+        # default.
+
+        if self.method in get_args(MTPModelTypes) and self.method != "mtp":
+            logger.warning(
+                "method `%s` is deprecated and replaced with mtp.", self.method
+            )
+            self.method = "mtp"
+
+        if self.model is None and self.num_speculative_tokens is not None:
+            if self.method == "mtp":
+                if self.target_model_config is None:
+                    raise ValueError("target_model_config must be present for mtp")
+                if self.target_model_config.hf_text_config.model_type == "deepseek_v32":
+                    # FIXME(luccafong): cudgraph with v32 MTP is not supported,
+                    # remove this when the issue is fixed.
+                    self.enforce_eager = True
+                # use the draft model from the same model:
+                self.model = self.target_model_config.model
+                # Align the quantization of draft model for cases such as
+                # --quantization fp8 with a bf16 checkpoint.
+                if not self.quantization:
+                    self.quantization = self.target_model_config.quantization
+            elif self.method in ("ngram", "[ngram]"):
+                self.model = "ngram"
+            elif self.method == "suffix":
+                self.model = "suffix"
+            else:
+                raise ValueError(
+                    "num_speculative_tokens was provided but without speculative model."
+                )
+
+        # Automatically configure the method for ngram when "model" is used
+        # instead of "method"
+        if self.method is None and (
+            self.model is not None and self.model in ("ngram", "[ngram]")
+        ):
+            self.method = "ngram"
+
+        if self.method in ("ngram", "[ngram]"):
+            # Unified to "ngram" internally
+            self.method = "ngram"
+            # Set default values if not provided
+            if self.prompt_lookup_min is None and self.prompt_lookup_max is None:
+                # TODO(woosuk): Tune these values. They are arbitrarily chosen.
+                self.prompt_lookup_min = 5
+                self.prompt_lookup_max = 5
+            elif self.prompt_lookup_min is None:
+                if self.prompt_lookup_max is None:
+                    raise ValueError(
+                        "Either prompt_lookup_max or prompt_lookup_min must be "
+                        "provided when using the ngram method."
+                    )
+                self.prompt_lookup_min = self.prompt_lookup_max
+            elif self.prompt_lookup_max is None:
+                if self.prompt_lookup_min is None:
+                    raise ValueError(
+                        "Either prompt_lookup_max or prompt_lookup_min must be "
+                        "provided when using the ngram method."
+                    )
+                self.prompt_lookup_max = self.prompt_lookup_min
+
+            # Validate values
+            if self.prompt_lookup_min > self.prompt_lookup_max:
+                raise ValueError(
+                    f"prompt_lookup_min={self.prompt_lookup_min} must "
+                    f"be <= prompt_lookup_max={self.prompt_lookup_max}"
+                )
+
+            # TODO: current we still need extract vocab_size from target model
+            # config, in future, we may try refactor it out, and set
+            # draft related config as None here.
+            self.draft_model_config = self.target_model_config
+            self.draft_parallel_config = self.target_parallel_config
+        elif self.method == "suffix":
+            self._validate_suffix_decoding()
+        else:
+            self.prompt_lookup_max = 0
+            self.prompt_lookup_min = 0
+
+            if self.model is not None:
+                # TODO: Move this import to the top once `ModelConfig`
+                # lives in `vllm.config.model`.
+                from vllm.config import ModelConfig
+
+                self.draft_model_config = ModelConfig(
+                    model=self.model,
+                    runner="draft",
+                    tokenizer=self.target_model_config.tokenizer,
+                    tokenizer_mode=self.target_model_config.tokenizer_mode,
+                    trust_remote_code=self.target_model_config.trust_remote_code,
+                    allowed_local_media_path=self.target_model_config.allowed_local_media_path,
+                    allowed_media_domains=self.target_model_config.allowed_media_domains,
+                    dtype=self.target_model_config.dtype,
+                    seed=self.target_model_config.seed,
+                    revision=self.revision,
+                    code_revision=self.code_revision,
+                    tokenizer_revision=self.target_model_config.tokenizer_revision,
+                    spec_target_max_model_len=self.target_model_config.max_model_len,
+                    quantization=self.quantization,
+                    enforce_eager=self.target_model_config.enforce_eager,
+                    max_logprobs=self.target_model_config.max_logprobs,
+                    hf_overrides=SpeculativeConfig.hf_config_override,
+                )
+
+                # Automatically detect the method
+                if self.method in ("eagle", "eagle3"):
+                    pass
+                # examples:
+                # yuhuili/EAGLE-LLaMA3-Instruct-8B
+                # yuhuili/EAGLE3-LLaMA3.1-Instruct-8B
+                # AngelSlim/Qwen3-8B_eagle3
+                elif "eagle-" in self.draft_model_config.model.lower():
+                    self.method = "eagle"
+                elif "eagle3" in self.draft_model_config.model.lower():
+                    self.method = "eagle3"
+                elif self.draft_model_config.hf_config.model_type == "medusa":
+                    self.method = "medusa"
+                elif self.draft_model_config.hf_config.model_type == "mlp_speculator":
+                    self.method = "mlp_speculator"
+                elif self.draft_model_config.hf_config.model_type in get_args(
+                    MTPModelTypes
+                ):
+                    self.method = "mtp"
+                    if self.num_speculative_tokens > 1:
+                        logger.warning(
+                            "Enabling num_speculative_tokens > 1 will run"
+                            "multiple times of forward on same MTP layer"
+                            ",which may result in lower acceptance rate"
+                        )
+                elif self.draft_model_config.hf_config.model_type in (
+                    "longcat_flash_mtp"
+                ):
+                    self.method = "longcat_flash_mtp"
+                    if self.num_speculative_tokens > 1:
+                        logger.warning(
+                            "LongCat MTP models only have "
+                            "one layer. Might need some code changes "
+                            "to support multiple layers."
+                        )
+                else:
+                    self.method = "draft_model"
+                    raise NotImplementedError(
+                        "Speculative decoding with draft model is not "
+                        "supported yet. Please consider using other "
+                        "speculative decoding methods such as ngram, medusa, "
+                        "eagle, or mtp."
+                    )
+
+                # Replace hf_config for EAGLE draft_model
+                if self.method in ("eagle", "eagle3"):
+                    from vllm.transformers_utils.configs import SpeculatorsConfig
+                    from vllm.transformers_utils.configs.eagle import EAGLEConfig
+
+                    if isinstance(
+                        self.draft_model_config.hf_config,
+                        (EAGLEConfig, SpeculatorsConfig),
+                    ):
+                        pass
+                    else:
+                        eagle_config = EAGLEConfig(
+                            self.draft_model_config.hf_config,
+                            method=self.method,
+                            model_type="eagle",
+                        )
+                        self.draft_model_config.hf_config = eagle_config
+
+                if self.num_speculative_tokens is not None and hasattr(
+                    self.draft_model_config.hf_config, "num_lookahead_tokens"
+                ):
+                    self.draft_model_config.hf_config.num_lookahead_tokens = (
+                        self.num_speculative_tokens
+                    )
+
+                n_predict = getattr(
+                    self.draft_model_config.hf_config, "n_predict", None
+                )
+                if n_predict is not None:
+                    if self.num_speculative_tokens is None:
+                        # Default to max value defined in draft model config.
+                        self.num_speculative_tokens = n_predict
+                    elif (
+                        self.num_speculative_tokens > n_predict
+                        and self.num_speculative_tokens % n_predict != 0
+                    ):
+                        # Ensure divisibility for MTP module reuse.
+                        raise ValueError(
+                            f"num_speculative_tokens:{self.num_speculative_tokens}"
+                            f" must be divisible by {n_predict=}"
+                        )
+
+                if self.speculative_token_tree is None:
+                    # Generate chain of tokens.
+                    self.speculative_token_tree = str(
+                        [(i + 1) * (0,) for i in range(self.num_speculative_tokens)]
+                    )
+                else:
+                    # Sort the token tree breadth-first.
+                    tree_choices = ast.literal_eval(self.speculative_token_tree)
+                    self.speculative_token_tree = str(
+                        sorted(tree_choices, key=lambda t: (len(t), t))
+                    )
+
+                self.draft_tensor_parallel_size = (
+                    SpeculativeConfig._verify_and_get_draft_tp(
+                        self.target_parallel_config,
+                        self.draft_tensor_parallel_size,
+                        self.draft_model_config.hf_config,
+                    )
+                )
+
+                self.draft_model_config.max_model_len = (
+                    SpeculativeConfig._maybe_override_draft_max_model_len(
+                        self.max_model_len,
+                        self.draft_model_config.max_model_len,
+                        self.target_model_config.max_model_len,
+                    )
+                )
+
+                self.draft_parallel_config = (
+                    SpeculativeConfig.create_draft_parallel_config(
+                        self.target_parallel_config, self.draft_tensor_parallel_size
+                    )
+                )
+        return self
+
+    def _validate_suffix_decoding(self):
+        if not has_arctic_inference():
+            raise ImportError(
+                "Arctic Inference is required for suffix decoding. "
+                "Install via `pip install arctic-inference==0.1.1`."
+            )
+        if self.num_speculative_tokens is None:
+            # Suffix decoding decides the actual number of speculative tokens
+            # dynamically and treats num_speculative_tokens as a maximum limit.
+            self.num_speculative_tokens = self.suffix_decoding_max_tree_depth
+            logger.warning(
+                "Defaulted num_speculative_tokens to %s for suffix decoding.",
+                self.num_speculative_tokens,
+            )
+        # Validate values
+        if self.suffix_decoding_max_tree_depth < 1:
+            raise ValueError(
+                f"suffix_decoding_max_tree_depth="
+                f"{self.suffix_decoding_max_tree_depth} must be >= 1"
+            )
+        if self.suffix_decoding_max_cached_requests < 0:
+            raise ValueError(
+                f"suffix_decoding_max_cached_requests="
+                f"{self.suffix_decoding_max_cached_requests} must be >= 0"
+            )
+        if self.suffix_decoding_max_spec_factor < 0:
+            raise ValueError(
+                f"suffix_decoding_max_spec_factor="
+                f"{self.suffix_decoding_max_spec_factor} must be >= 0"
+            )
+        if not 0 <= self.suffix_decoding_min_token_prob <= 1:
+            raise ValueError(
+                f"suffix_decoding_min_token_prob="
+                f"{self.suffix_decoding_min_token_prob} must be in [0, 1]"
+            )
+
+    @staticmethod
+    def _maybe_override_draft_max_model_len(
+        speculative_max_model_len: int | None,
+        draft_max_model_len: int,
+        target_max_model_len: int,
+    ) -> int:
+        """Determine the max sequence len for the draft model. This is usually
+        the draft_max_model_len, but may be the target_max_model_len if it is
+        less than the draft_max_model_len, or may be speculative_max_model_len
+        if it is specified.
+
+        This is necessary so that sequences do not exceed the capacity of the
+        draft model or the target model.
+
+        speculative_max_model_len is mainly used for testing that sequences can
+        skip speculation.
+        """
+
+        if speculative_max_model_len is not None:
+            if speculative_max_model_len > draft_max_model_len:
+                raise ValueError(
+                    f"{speculative_max_model_len=} cannot be "
+                    f"larger than {draft_max_model_len=}"
+                )
+
+            if speculative_max_model_len > target_max_model_len:
+                raise ValueError(
+                    f"{speculative_max_model_len=} cannot be "
+                    f"larger than {target_max_model_len=}"
+                )
+
+            return speculative_max_model_len
+
+        return min(
+            draft_max_model_len,
+            target_max_model_len,
+        )
+
+    @staticmethod
+    def _verify_and_get_draft_tp(
+        target_parallel_config: ParallelConfig,
+        speculative_draft_tensor_parallel_size: int | None,
+        draft_hf_config: PretrainedConfig,
+    ) -> int:
+        """
+        Verifies and adjusts the tensor parallel size for a draft model
+        specified using speculative_draft_tensor_parallel_size.
+        """
+        # If speculative_draft_tensor_parallel_size is unset then set it
+        # appropriately else verify that it is set correctly.
+        if speculative_draft_tensor_parallel_size is None:
+            if draft_hf_config.model_type == "mlp_speculator":
+                speculative_draft_tensor_parallel_size = 1
+                if target_parallel_config.tensor_parallel_size > 1:
+                    logger.warning(
+                        "%s cannot currently be run with tp>1; "
+                        "setting speculative_draft_tensor_parallel_size=1",
+                        draft_hf_config.model_type,
+                    )
+            else:
+                speculative_draft_tensor_parallel_size = (
+                    target_parallel_config.tensor_parallel_size
+                )
+        elif speculative_draft_tensor_parallel_size not in (
+            1,
+            target_parallel_config.tensor_parallel_size,
+        ):
+            raise ValueError(
+                f"{speculative_draft_tensor_parallel_size=} cannot be "
+                f"other value than 1 or target model tensor_parallel_size"
+            )
+        return speculative_draft_tensor_parallel_size
+
+    @staticmethod
+    def create_draft_parallel_config(
+        target_parallel_config: ParallelConfig,
+        speculative_draft_tensor_parallel_size: int,
+    ) -> ParallelConfig:
+        """Create a parallel config for use by the draft worker.
+
+        This is mostly a copy of the target parallel config, except the tp_size.
+        """
+        draft_parallel_config = ParallelConfig(
+            pipeline_parallel_size=target_parallel_config.pipeline_parallel_size,
+            tensor_parallel_size=speculative_draft_tensor_parallel_size,
+            distributed_executor_backend=target_parallel_config.distributed_executor_backend,
+            max_parallel_loading_workers=target_parallel_config.max_parallel_loading_workers,
+            disable_custom_all_reduce=target_parallel_config.disable_custom_all_reduce,
+            ray_workers_use_nsight=target_parallel_config.ray_workers_use_nsight,
+            placement_group=target_parallel_config.placement_group,
+        )
+
+        return draft_parallel_config
+
+    @model_validator(mode="after")
+    def _verify_args(self) -> Self:
+        if self.num_speculative_tokens is None:
+            raise ValueError(
+                "num_speculative_tokens must be provided with "
+                "speculative model unless the draft model config contains an "
+                "n_predict parameter."
+            )
+
+        if self.num_speculative_tokens <= 0:
+            raise ValueError(
+                "Expected num_speculative_tokens to be greater "
+                f"than zero ({self.num_speculative_tokens})."
+            )
+
+        if self.draft_model_config:
+            self.draft_model_config.verify_with_parallel_config(
+                self.draft_parallel_config
+            )
+
+        if self.disable_by_batch_size is not None and self.disable_by_batch_size < 2:
+            raise ValueError(
+                "Expect the batch size threshold of disabling "
+                "speculative decoding is > 1, but got "
+                f"{self.disable_by_batch_size=}"
+            )
+
+        eagle3_target_supported = ["llama", "qwen", "minicpm", "gpt_oss"]
+        if (
+            self.method == "eagle3"
+            and self.target_model_config
+            and not any(
+                supported_model in self.target_model_config.hf_text_config.model_type
+                for supported_model in eagle3_target_supported
+            )
+        ):
+            raise ValueError(
+                f"Eagle3 is only supported for {eagle3_target_supported} models. "  # noqa: E501
+                f"Got {self.target_model_config.hf_text_config.model_type=}"
+            )
+
+        return self
+
+    @property
+    def num_lookahead_slots(self) -> int:
+        """The number of additional slots the scheduler should allocate per
+        step, in addition to the slots allocated for each known token.
+
+        This is equal to the number of speculative tokens, as each speculative
+        token must be scored.
+        """
+        return self.num_speculative_tokens
+
+    def use_eagle(self) -> bool:
+        return self.method in ("eagle", "eagle3", "mtp")
+
+    def __repr__(self) -> str:
+        method = self.method
+        model = None if method in ("ngram", "suffix") else self.draft_model_config.model
+        num_spec_tokens = self.num_speculative_tokens
+        return f"SpeculativeConfig({method=}, {model=}, {num_spec_tokens=})"
diff --git a/config/speech_to_text.py b/config/speech_to_text.py
new file mode 100644
index 0000000..3eafff1
--- /dev/null
+++ b/config/speech_to_text.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+
+@config
+@dataclass
+class SpeechToTextConfig:
+    """Configuration for speech-to-text models."""
+
+    sample_rate: float = 16_000
+    """Sample rate (Hz) to resample input audio to. Most speech models expect
+    16kHz audio input. The input audio will be automatically resampled to this
+    rate before processing."""
+
+    max_audio_clip_s: int = 30
+    """Maximum duration in seconds for a single audio clip without chunking.
+    Audio longer than this will be split into smaller chunks if
+    `allow_audio_chunking` evaluates to True, otherwise it will be rejected."""
+
+    overlap_chunk_second: int = 1
+    """Overlap duration in seconds between consecutive audio chunks when
+    splitting long audio. This helps maintain context across chunk boundaries
+    and improves transcription quality at split points."""
+
+    min_energy_split_window_size: int | None = 1600
+    """Window size in samples for finding low-energy (quiet) regions to split
+    audio chunks. The algorithm looks for the quietest moment within this
+    window to minimize cutting through speech. Default 1600 samples ≈ 100ms
+    at 16kHz. If None, no chunking will be done."""
+
+    @property
+    def allow_audio_chunking(self) -> bool:
+        return self.min_energy_split_window_size is not None
diff --git a/config/structured_outputs.py b/config/structured_outputs.py
new file mode 100644
index 0000000..9530d3d
--- /dev/null
+++ b/config/structured_outputs.py
@@ -0,0 +1,92 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+from typing import Any, Literal
+
+from pydantic import model_validator
+from pydantic.dataclasses import dataclass
+from typing_extensions import Self
+
+from vllm.config.utils import config
+
+StructuredOutputsBackend = Literal[
+    "auto", "xgrammar", "guidance", "outlines", "lm-format-enforcer"
+]
+
+
+@config
+@dataclass
+class StructuredOutputsConfig:
+    """Dataclass which contains structured outputs config for the engine."""
+
+    backend: StructuredOutputsBackend = "auto"
+    """Which engine will be used for structured outputs (e.g. JSON schema,
+    regex, etc) by default. With "auto", we will make opinionated choices
+    based on request contents and what the backend libraries currently support,
+    so the behavior is subject to change in each release."""
+    disable_fallback: bool = False
+    """If `True`, vLLM will not fallback to a different backend on error."""
+    disable_any_whitespace: bool = False
+    """If `True`, the model will not generate any whitespace during structured
+    outputs. This is only supported for xgrammar and guidance backends."""
+    disable_additional_properties: bool = False
+    """If `True`, the `guidance` backend will not use `additionalProperties`
+    in the JSON schema. This is only supported for the `guidance` backend and
+    is used to better align its behaviour with `outlines` and `xgrammar`."""
+    reasoning_parser: str = ""
+    """Select the reasoning parser depending on the model that you're using.
+    This is used to parse the reasoning content into OpenAI API format."""
+    reasoning_parser_plugin: str = ""
+    """Path to a dynamically reasoning parser plugin that can be dynamically
+    loaded and registered."""
+    enable_in_reasoning: bool = False
+    """Whether to use structured input for reasoning."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    @model_validator(mode="after")
+    def _validate_structured_output_config(self) -> Self:
+        # Import here to avoid circular import
+        from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
+
+        if self.reasoning_parser_plugin and len(self.reasoning_parser_plugin) > 3:
+            ReasoningParserManager.import_reasoning_parser(self.reasoning_parser_plugin)
+
+        valid_reasoning_parsers = ReasoningParserManager.list_registered()
+        if (
+            self.reasoning_parser != ""
+            and self.reasoning_parser not in valid_reasoning_parsers
+        ):
+            raise ValueError(
+                f"invalid reasoning parser: {self.reasoning_parser} "
+                f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
+            )
+
+        if self.disable_any_whitespace and self.backend not in ("xgrammar", "guidance"):
+            raise ValueError(
+                "disable_any_whitespace is only supported for "
+                "xgrammar and guidance backends."
+            )
+        if self.disable_additional_properties and self.backend != "guidance":
+            raise ValueError(
+                "disable_additional_properties is only supported "
+                "for the guidance backend."
+            )
+        return self
diff --git a/config/utils.py b/config/utils.py
new file mode 100644
index 0000000..7e0878d
--- /dev/null
+++ b/config/utils.py
@@ -0,0 +1,178 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utility functions for vLLM config dataclasses."""
+
+import ast
+import inspect
+import textwrap
+from collections.abc import Iterable
+from dataclasses import MISSING, Field, field, fields, is_dataclass, replace
+from itertools import pairwise
+from typing import TYPE_CHECKING, Any, Protocol, TypeVar
+
+import regex as re
+from pydantic.fields import FieldInfo
+from typing_extensions import runtime_checkable
+
+if TYPE_CHECKING:
+    from _typeshed import DataclassInstance
+else:
+    DataclassInstance = Any
+
+ConfigType = type[DataclassInstance]
+ConfigT = TypeVar("ConfigT", bound=ConfigType)
+
+
+def config(cls: ConfigT) -> ConfigT:
+    """
+    A decorator that ensures all fields in a dataclass have default values
+    and that each field has a docstring.
+
+    If a `ConfigT` is used as a CLI argument itself, the `type` keyword argument
+    provided by `get_kwargs` will be
+    `pydantic.TypeAdapter(ConfigT).validate_json(cli_arg)` which treats the
+    `cli_arg` as a JSON string which gets validated by `pydantic`.
+
+    Config validation is performed by the tools/pre_commit/validate_config.py
+    script, which is invoked during the pre-commit checks.
+    """
+    return cls
+
+
+def get_field(cls: ConfigType, name: str) -> Field:
+    """Get the default factory field of a dataclass by name. Used for getting
+    default factory fields in `EngineArgs`."""
+    if not is_dataclass(cls):
+        raise TypeError("The given class is not a dataclass.")
+    cls_fields = {f.name: f for f in fields(cls)}
+    if name not in cls_fields:
+        raise ValueError(f"Field '{name}' not found in {cls.__name__}.")
+    named_field: Field = cls_fields[name]
+    if (default_factory := named_field.default_factory) is not MISSING:
+        return field(default_factory=default_factory)
+    if (default := named_field.default) is not MISSING:
+        if isinstance(default, FieldInfo):
+            # Handle pydantic.Field defaults
+            if default.default_factory is not None:
+                return field(default_factory=default.default_factory)
+            else:
+                default = default.default
+        return field(default=default)
+
+    raise ValueError(
+        f"{cls.__name__}.{name} must have a default value or default factory."
+    )
+
+
+def getattr_iter(object: object, names: Iterable[str], default: Any) -> Any:
+    """
+    A helper function that retrieves an attribute from an object which may
+    have multiple possible names. This is useful when fetching attributes from
+    arbitrary `transformers.PretrainedConfig` instances.
+    """
+    for name in names:
+        if hasattr(object, name):
+            return getattr(object, name)
+    return default
+
+
+def contains_object_print(text: str) -> bool:
+    """
+    Check if the text looks like a printed Python object, e.g.
+    contains any substring matching the pattern: "at 0xFFFFFFF>"
+    We match against 0x followed by 2-16 hex chars (there's
+    a max of 16 on a 64-bit system).
+
+    Args:
+        text (str): The text to check
+
+    Returns:
+        result (bool): `True` if a match is found, `False` otherwise.
+    """
+    pattern = r"at 0x[a-fA-F0-9]{2,16}>"
+    match = re.search(pattern, text)
+    return match is not None
+
+
+def assert_hashable(text: str) -> bool:
+    if not contains_object_print(text):
+        return True
+    raise AssertionError(
+        f"vLLM tried to hash some configs that may have Python objects ids "
+        f"in them. This is a bug, please file an issue. "
+        f"Text being hashed: {text}"
+    )
+
+
+def get_attr_docs(cls: type[Any]) -> dict[str, str]:
+    """
+    Get any docstrings placed after attribute assignments in a class body.
+
+    https://davidism.com/mit-license/
+    """
+
+    cls_node = ast.parse(textwrap.dedent(inspect.getsource(cls))).body[0]
+
+    if not isinstance(cls_node, ast.ClassDef):
+        raise TypeError("Given object was not a class.")
+
+    out = {}
+
+    # Consider each pair of nodes.
+    for a, b in pairwise(cls_node.body):
+        # Must be an assignment then a constant string.
+        if (
+            not isinstance(a, (ast.Assign, ast.AnnAssign))
+            or not isinstance(b, ast.Expr)
+            or not isinstance(b.value, ast.Constant)
+            or not isinstance(b.value.value, str)
+        ):
+            continue
+
+        doc = inspect.cleandoc(b.value.value)
+
+        # An assignment can have multiple targets (a = b = v), but an
+        # annotated assignment only has one target.
+        targets = a.targets if isinstance(a, ast.Assign) else [a.target]
+
+        for target in targets:
+            # Must be assigning to a plain name.
+            if not isinstance(target, ast.Name):
+                continue
+
+            out[target.id] = doc
+
+    return out
+
+
+def is_init_field(cls: ConfigType, name: str) -> bool:
+    return next(f for f in fields(cls) if f.name == name).init
+
+
+@runtime_checkable
+class SupportsHash(Protocol):
+    def compute_hash(self) -> str: ...
+
+
+class SupportsMetricsInfo(Protocol):
+    def metrics_info(self) -> dict[str, str]: ...
+
+
+def update_config(config: ConfigT, overrides: dict[str, Any]) -> ConfigT:
+    processed_overrides = {}
+    for field_name, value in overrides.items():
+        assert hasattr(config, field_name), (
+            f"{type(config)} has no field `{field_name}`"
+        )
+        current_value = getattr(config, field_name)
+        if is_dataclass(current_value) and not is_dataclass(value):
+            assert isinstance(value, dict), (
+                f"Overrides to {type(config)}.{field_name} must be a dict"
+                f"  or {type(current_value)}, but got {type(value)}"
+            )
+            value = update_config(
+                current_value,  # type: ignore[type-var]
+                value,
+            )
+        processed_overrides[field_name] = value
+    return replace(config, **processed_overrides)
diff --git a/config/vllm.py b/config/vllm.py
new file mode 100644
index 0000000..672b004
--- /dev/null
+++ b/config/vllm.py
@@ -0,0 +1,1166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import copy
+import getpass
+import hashlib
+import json
+import os
+import tempfile
+import threading
+import time
+from contextlib import contextmanager
+from dataclasses import replace
+from datetime import datetime
+from functools import lru_cache
+from pathlib import Path
+from typing import TYPE_CHECKING, Any, TypeVar, get_args
+
+import torch
+from pydantic import ConfigDict, Field, model_validator
+from pydantic.dataclasses import dataclass
+
+import vllm.envs as envs
+from vllm.config.speculative import EagleModelTypes
+from vllm.logger import enable_trace_function_call, init_logger
+from vllm.transformers_utils.runai_utils import is_runai_obj_uri
+from vllm.utils import random_uuid
+
+from .cache import CacheConfig
+from .compilation import CompilationConfig, CompilationMode, CUDAGraphMode
+from .device import DeviceConfig
+from .ec_transfer import ECTransferConfig
+from .kv_events import KVEventsConfig
+from .kv_transfer import KVTransferConfig
+from .load import LoadConfig
+from .lora import LoRAConfig
+from .model import ModelConfig
+from .observability import ObservabilityConfig
+from .parallel import ParallelConfig
+from .scheduler import SchedulerConfig
+from .speculative import SpeculativeConfig
+from .structured_outputs import StructuredOutputsConfig
+from .utils import SupportsHash, config
+
+if TYPE_CHECKING:
+    from transformers import PretrainedConfig
+
+    from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+else:
+    PretrainedConfig = Any
+
+    QuantizationConfig = Any
+
+    KVCacheConfig = Any
+
+logger = init_logger(__name__)
+
+
+@config
+@dataclass(config=ConfigDict(arbitrary_types_allowed=True))
+class VllmConfig:
+    """Dataclass which contains all vllm-related configuration. This
+    simplifies passing around the distinct configurations in the codebase.
+    """
+
+    # TODO: use default_factory once default constructing ModelConfig doesn't
+    # try to download a model
+    model_config: ModelConfig = Field(default=None)
+    """Model configuration."""
+    cache_config: CacheConfig = Field(default_factory=CacheConfig)
+    """Cache configuration."""
+    parallel_config: ParallelConfig = Field(default_factory=ParallelConfig)
+    """Parallel configuration."""
+    scheduler_config: SchedulerConfig = Field(default_factory=SchedulerConfig)
+    """Scheduler configuration."""
+    device_config: DeviceConfig = Field(default_factory=DeviceConfig)
+    """Device configuration."""
+    load_config: LoadConfig = Field(default_factory=LoadConfig)
+    """Load configuration."""
+    lora_config: LoRAConfig | None = None
+    """LoRA configuration."""
+    speculative_config: SpeculativeConfig | None = None
+    """Speculative decoding configuration."""
+    structured_outputs_config: StructuredOutputsConfig = Field(
+        default_factory=StructuredOutputsConfig
+    )
+    """Structured outputs configuration."""
+    observability_config: ObservabilityConfig = Field(
+        default_factory=ObservabilityConfig
+    )
+    """Observability configuration."""
+    quant_config: QuantizationConfig | None = None
+    """Quantization configuration."""
+    compilation_config: CompilationConfig = Field(default_factory=CompilationConfig)
+    """`torch.compile` and cudagraph capture configuration for the model.
+
+    As a shorthand, one can append compilation arguments via 
+    -0.parameter=arguement such as `-O.mode=3` (same as `-O='{"mode":3}'`).
+
+    You can specify the full compilation config like so:
+    `{"mode": 3, "cudagraph_capture_sizes": [1, 2, 4, 8]}`
+    """
+    kv_transfer_config: KVTransferConfig | None = None
+    """The configurations for distributed KV cache transfer."""
+    kv_events_config: KVEventsConfig | None = None
+    """The configurations for event publishing."""
+    ec_transfer_config: ECTransferConfig | None = None
+    """The configurations for distributed EC cache transfer."""
+    # some opaque config, only used to provide additional information
+    # for the hash computation, mainly used for testing, debugging or out of
+    # tree config registration.
+    additional_config: dict | SupportsHash = Field(default_factory=dict)
+    """Additional config for specified platform. Different platforms may
+    support different configs. Make sure the configs are valid for the platform
+    you are using. Contents must be hashable."""
+    instance_id: str = ""
+    """The ID of the vLLM instance."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        factors: list[Any] = []
+
+        # summarize vllm config
+        vllm_factors: list[Any] = []
+        from vllm import __version__
+
+        vllm_factors.append(__version__)
+        if self.model_config:
+            vllm_factors.append(self.model_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.cache_config:
+            vllm_factors.append(self.cache_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.parallel_config:
+            vllm_factors.append(self.parallel_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.scheduler_config:
+            vllm_factors.append(self.scheduler_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.device_config:
+            vllm_factors.append(self.device_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.load_config:
+            vllm_factors.append(self.load_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.lora_config:
+            vllm_factors.append(self.lora_config.compute_hash())
+            # LoRA creates static buffers based on max_num_batched_tokens.
+            # The tensor sizes and strides get captured in the torch.compile
+            # graph explicitly.
+            vllm_factors.append(str(self.scheduler_config.max_num_batched_tokens))
+        else:
+            vllm_factors.append("None")
+        if self.speculative_config:
+            vllm_factors.append(self.speculative_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.structured_outputs_config:
+            vllm_factors.append(self.structured_outputs_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        vllm_factors.append(self.observability_config.compute_hash())
+        if self.quant_config:
+            pass  # should be captured by model_config.quantization
+        if self.compilation_config:
+            vllm_factors.append(self.compilation_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.kv_transfer_config:
+            vllm_factors.append(self.kv_transfer_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.ec_transfer_config:
+            vllm_factors.append(self.ec_transfer_config.compute_hash())
+        else:
+            vllm_factors.append("None")
+        if self.additional_config:
+            if isinstance(additional_config := self.additional_config, dict):
+                additional_config_hash = hashlib.md5(
+                    json.dumps(additional_config, sort_keys=True).encode(),
+                    usedforsecurity=False,
+                ).hexdigest()
+            else:
+                additional_config_hash = additional_config.compute_hash()
+            vllm_factors.append(additional_config_hash)
+        else:
+            vllm_factors.append("None")
+        factors.append(vllm_factors)
+
+        hash_str = hashlib.md5(
+            str(factors).encode(), usedforsecurity=False
+        ).hexdigest()[:10]
+        return hash_str
+
+    def pad_for_cudagraph(self, batch_size: int) -> int:
+        # if batch_size > self.compilation_config.max_cudagraph_capture_size,
+        # it should raise an IndexError.
+        # the caller should make sure the batch_size is within the range,
+        # i.e., batch_size <= self.compilation_config.max_cudagraph_capture_size
+        return self.compilation_config.bs_to_padded_graph_size[batch_size]
+
+    def enable_trace_function_call_for_thread(self) -> None:
+        """
+        Set up function tracing for the current thread,
+        if enabled via the `VLLM_TRACE_FUNCTION` environment variable.
+        """
+        if envs.VLLM_TRACE_FUNCTION:
+            tmp_dir = tempfile.gettempdir()
+            # add username to tmp_dir to avoid permission issues
+            tmp_dir = os.path.join(tmp_dir, getpass.getuser())
+            filename = (
+                f"VLLM_TRACE_FUNCTION_for_process_{os.getpid()}"
+                f"_thread_{threading.get_ident()}_at_{datetime.now()}.log"
+            ).replace(" ", "_")
+            log_path = os.path.join(
+                tmp_dir,
+                "vllm",
+                f"vllm-instance-{self.instance_id}",
+                filename,
+            )
+            os.makedirs(os.path.dirname(log_path), exist_ok=True)
+            enable_trace_function_call(log_path)
+
+    @staticmethod
+    def _get_quantization_config(
+        model_config: ModelConfig, load_config: LoadConfig
+    ) -> QuantizationConfig | None:
+        """Get the quantization config."""
+        from vllm.platforms import current_platform
+
+        if model_config.quantization is not None:
+            from vllm.model_executor.model_loader.weight_utils import get_quant_config
+
+            quant_config = get_quant_config(model_config, load_config)
+            capability_tuple = current_platform.get_device_capability()
+
+            if capability_tuple is not None:
+                capability = capability_tuple.to_int()
+                if capability < quant_config.get_min_capability():
+                    raise ValueError(
+                        f"The quantization method {model_config.quantization} "
+                        "is not supported for the current GPU. Minimum "
+                        f"capability: {quant_config.get_min_capability()}. "
+                        f"Current capability: {capability}."
+                    )
+            supported_dtypes = quant_config.get_supported_act_dtypes()
+            if model_config.dtype not in supported_dtypes:
+                raise ValueError(
+                    f"{model_config.dtype} is not supported for quantization "
+                    f"method {model_config.quantization}. Supported dtypes: "
+                    f"{supported_dtypes}"
+                )
+            quant_config.maybe_update_config(model_config.model)
+            return quant_config
+        return None
+
+    @staticmethod
+    def get_quantization_config(
+        model_config: ModelConfig, load_config: LoadConfig
+    ) -> QuantizationConfig | None:
+        import copy
+
+        # For some reason, the _ version of this modifies the model_config
+        # object, so using deepcopy to avoid this problem.
+        return VllmConfig._get_quantization_config(
+            copy.deepcopy(model_config), load_config
+        )
+
+    def with_hf_config(
+        self,
+        hf_config: PretrainedConfig,
+        architectures: list[str] | None = None,
+    ) -> "VllmConfig":
+        if architectures is not None:
+            hf_config = copy.deepcopy(hf_config)
+            hf_config.architectures = architectures
+
+        model_config = copy.deepcopy(self.model_config)
+        model_config.hf_config = hf_config
+
+        return replace(self, model_config=model_config)
+
+    def _post_init_kv_transfer_config(self) -> None:
+        """Update KVTransferConfig based on top-level configs in VllmConfig.
+
+        Right now, this function reads the offloading settings from
+        CacheConfig and configures the KVTransferConfig accordingly.
+        """
+        if (kv_offloading_backend := self.cache_config.kv_offloading_backend) is None:
+            return
+
+        # If no KVTransferConfig is provided, create a default one.
+        if self.kv_transfer_config is None:
+            self.kv_transfer_config = KVTransferConfig()
+
+        if (kv_offloading_size := self.cache_config.kv_offloading_size) is None:
+            raise ValueError(
+                "You must set kv_offloading_size when kv_offloading_backend is set."
+            )
+        num_kv_ranks = (
+            self.parallel_config.tensor_parallel_size
+            * self.parallel_config.pipeline_parallel_size
+        )
+
+        if kv_offloading_backend == "native":
+            self.kv_transfer_config.kv_connector = "OffloadingConnector"
+            kv_bytes_per_rank = kv_offloading_size * (1 << 30) / num_kv_ranks
+
+            # NOTE(ApostaC): the actual calculation for num_cpu_blocks should be
+            # done after the model's KV cache is initialized
+            self.kv_transfer_config.kv_connector_extra_config.update(
+                {"kv_bytes_per_rank": kv_bytes_per_rank, "num_cpu_blocks": 0}
+            )
+        elif kv_offloading_backend == "lmcache":
+            self.kv_transfer_config.kv_connector = "LMCacheConnectorV1"
+            kv_gb_per_rank = kv_offloading_size / num_kv_ranks
+            self.kv_transfer_config.kv_connector_extra_config = {
+                "lmcache.local_cpu": True,
+                "lmcache.max_local_cpu_size": kv_gb_per_rank,
+            }
+
+        # This is the same for all backends
+        self.kv_transfer_config.kv_role = "kv_both"
+
+    def __post_init__(self):
+        """Verify configs are valid & consistent with each other."""
+
+        # To give each torch profile run a unique instance name.
+        self.instance_id = f"{time.time_ns()}"
+
+        self.try_verify_and_update_config()
+
+        if self.model_config is not None:
+            self.model_config.verify_with_parallel_config(self.parallel_config)
+            self.model_config.verify_dual_chunk_attention_config(self.load_config)
+
+        self.cache_config.verify_with_parallel_config(self.parallel_config)
+
+        if self.lora_config is not None:
+            self.lora_config.verify_with_model_config(self.model_config)
+
+        if self.quant_config is None and self.model_config is not None:
+            self.quant_config = VllmConfig._get_quantization_config(
+                self.model_config, self.load_config
+            )
+
+        executor_backend = self.parallel_config.distributed_executor_backend
+        executor_supports_async_sched = executor_backend in (
+            "mp",
+            "uni",
+            "external_launcher",
+        )
+
+        if self.scheduler_config.async_scheduling:
+            # Async scheduling explicitly enabled, hard fail any incompatibilities.
+            if self.parallel_config.pipeline_parallel_size > 1:
+                raise ValueError(
+                    "Async scheduling is not yet compatible with "
+                    "pipeline_parallel_size > 1."
+                )
+            # Currently, async scheduling only support eagle speculative
+            # decoding.
+            if self.speculative_config is not None:
+                if self.speculative_config.method not in get_args(EagleModelTypes):
+                    raise ValueError(
+                        "Currently, async scheduling is only supported "
+                        "with EAGLE/MTP kind of speculative decoding"
+                    )
+                if self.speculative_config.disable_padded_drafter_batch:
+                    raise ValueError(
+                        "async scheduling for EAGLE/MTP kind of speculative "
+                        "decoding is enabled, but disable_padded_drafter_batch=True "
+                        "disable_padded_drafter_batch=True is not supported for "
+                        "this situation now. please set "
+                        "disable_padded_drafter_batch=Fasle"
+                    )
+            if not executor_supports_async_sched:
+                raise ValueError(
+                    "Currently, async scheduling only supports `mp`, `uni`, or "
+                    "`external_launcher` distributed executor backend, but you chose "
+                    f"`{executor_backend}`."
+                )
+        elif self.scheduler_config.async_scheduling is None:
+            # Enable async scheduling unless there is an incompatible option.
+            # NOTE: we won't reach here until async scheduling is enabled by default.
+            if (
+                self.parallel_config.pipeline_parallel_size > 1
+                or self.speculative_config is not None
+            ):
+                logger.warning(
+                    "Async scheduling is not yet supported with speculative decoding "
+                    " or pipeline_parallel_size > 1 and will be disabled."
+                )
+                self.scheduler_config.async_scheduling = False
+            elif not executor_supports_async_sched:
+                logger.warning(
+                    "Async scheduling will be disabled because it is not supported "
+                    "with the `%s` distributed executor backend (only `mp`, `uni`, and "
+                    "`external_launcher` are supported).",
+                    executor_backend,
+                )
+                self.scheduler_config.async_scheduling = False
+            else:
+                self.scheduler_config.async_scheduling = True
+
+        from vllm.platforms import current_platform
+
+        if (
+            self.model_config is not None
+            and self.scheduler_config.enable_chunked_prefill
+            and self.model_config.dtype == torch.float32
+            and current_platform.get_device_capability() == (7, 5)
+        ):
+            logger.warning_once(
+                "Turing devices tensor cores do not support float32 matmul. "
+                "To workaround this limitation, vLLM will set 'ieee' input "
+                "precision for chunked prefill triton kernels."
+            )
+
+        # If the user does not explicitly set a compilation mode, then
+        # we use the default mode. The default mode depends on other
+        # settings (see the below code).
+        if self.compilation_config.mode is None:
+            if self.model_config is not None and not self.model_config.enforce_eager:
+                self.compilation_config.mode = CompilationMode.VLLM_COMPILE
+            else:
+                self.compilation_config.mode = CompilationMode.NONE
+
+        # If user does not set custom ops via none or all set it here based on
+        # compilation mode and backend.
+        if all(s not in self.compilation_config.custom_ops for s in ("all", "none")):
+            if (
+                self.compilation_config.backend == "inductor"
+                and self.compilation_config.mode != CompilationMode.NONE
+            ):
+                self.compilation_config.custom_ops.append("none")
+            else:
+                self.compilation_config.custom_ops.append("all")
+
+        # async tp is built on top of sequence parallelism
+        # and requires it to be enabled.
+        if self.compilation_config.pass_config.enable_async_tp:
+            self.compilation_config.pass_config.enable_sequence_parallelism = True
+
+        if current_platform.support_static_graph_mode():
+            # if cudagraph_mode is not explicitly set by users, set default
+            # value
+            if self.compilation_config.cudagraph_mode is None:
+                if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
+                    # default to full and piecewise for most models
+                    self.compilation_config.cudagraph_mode = (
+                        CUDAGraphMode.FULL_AND_PIECEWISE
+                    )
+                else:
+                    self.compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+
+            # if cudagraph_mode has full cudagraphs, we need to check support
+            if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+                # decode context parallel does not support full cudagraphs
+                if self.parallel_config.decode_context_parallel_size > 1:
+                    logger.warning_once(
+                        "Decode context parallel (DCP) is enabled, which is "
+                        "incompatible with full CUDA graphs. "
+                        "Overriding cudagraph_mode to PIECEWISE."
+                    )
+                    self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
+                elif self.model_config is not None:
+                    if self.model_config.pooler_config is not None:
+                        logger.warning_once(
+                            "Pooling models do not support full cudagraphs. "
+                            "Overriding cudagraph_mode to PIECEWISE."
+                        )
+                        self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
+                    elif self.model_config.is_encoder_decoder:
+                        logger.warning_once(
+                            "Encoder-decoder models do not support full cudagraphs. "
+                            "Overriding cudagraph_mode to PIECEWISE."
+                        )
+                        self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
+
+            # disable cudagraph when enforce eager execution
+            if self.model_config is not None and self.model_config.enforce_eager:
+                logger.info("Cudagraph is disabled under eager mode")
+                self.compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+                # override related settings when enforce eager
+                self.compilation_config.max_cudagraph_capture_size = 0
+                self.compilation_config.cudagraph_capture_sizes = []
+            else:
+                self.compilation_config.cudagraph_num_of_warmups = 1
+
+            self._set_cudagraph_sizes()
+        else:
+            self.compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+
+        if self.cache_config.kv_sharing_fast_prefill:
+            if (
+                self.speculative_config is not None
+                and self.speculative_config.use_eagle()
+            ):
+                raise ValueError(
+                    "Fast prefill optimization for KV sharing is not "
+                    "compatible with EAGLE as EAGLE requires correct logits "
+                    "for all tokens while fast prefill gives incorrect logits "
+                    "for prompt tokens."
+                )
+
+            logger.warning_once(
+                "--kv-sharing-fast-prefill requires changes on model side for "
+                "correctness and to realize prefill savings. "
+            )
+
+        disable_chunked_prefill_reasons: list[str] = []
+
+        if self.model_config:
+            if self.model_config.pooler_config:
+                pooling_type = self.model_config.pooler_config.pooling_type
+                if pooling_type is None or pooling_type.lower() != "last":
+                    disable_chunked_prefill_reasons.append(
+                        'Only "last" pooling supports chunked '
+                        "prefill and prefix caching; disabling both."
+                    )
+                if not getattr(self.model_config.hf_config, "is_causal", True):
+                    disable_chunked_prefill_reasons.append(
+                        "Only models using causal attention support chunked "
+                        "prefill and prefix caching; disabling both."
+                    )
+            elif self.model_config.is_encoder_decoder:
+                from vllm.multimodal import MULTIMODAL_REGISTRY
+
+                self.scheduler_config.max_num_encoder_input_tokens = (
+                    MULTIMODAL_REGISTRY.get_encdec_max_encoder_len(self.model_config)
+                )
+                logger.debug(
+                    "Encoder-decoder model detected: setting "
+                    "`max_num_encoder_input_tokens` to encoder length (%s)",
+                    self.scheduler_config.max_num_encoder_input_tokens,
+                )
+                if (
+                    self.model_config.architecture == "WhisperForConditionalGeneration"
+                    and os.environ.get("VLLM_WORKER_MULTIPROC_METHOD") != "spawn"
+                ):
+                    logger.warning(
+                        "Whisper is known to have issues with "
+                        "forked workers. If startup is hanging, "
+                        "try setting 'VLLM_WORKER_MULTIPROC_METHOD' "
+                        "to 'spawn'."
+                    )
+
+        # Final off-switch for CP/APC:
+        # Disable for (a) collected blockers, (b) encoder–decoder, or
+        # (c) explicit CP=False when APC wasn't requested.
+        # Do NOT disable merely because the resolved CP flag is False.
+        apc_requested = (
+            self.cache_config is not None and self.cache_config.enable_prefix_caching
+        )
+        if (
+            disable_chunked_prefill_reasons
+            or (self.model_config is not None and self.model_config.is_encoder_decoder)
+            or (
+                self.scheduler_config.enable_chunked_prefill is False
+                and not apc_requested
+            )
+        ):
+            for reason in disable_chunked_prefill_reasons:
+                logger.info(reason)
+            self.scheduler_config.enable_chunked_prefill = False
+            self.scheduler_config.long_prefill_token_threshold = 0
+
+            if self.cache_config is not None:
+                self.cache_config.enable_prefix_caching = False
+
+        if (
+            self.kv_events_config is not None
+            and self.kv_events_config.enable_kv_cache_events
+            and not self.cache_config.enable_prefix_caching
+        ):
+            logger.warning(
+                "KV cache events are on, but prefix caching is not enabled."
+                "Use --enable-prefix-caching to enable."
+            )
+        if (
+            self.kv_events_config is not None
+            and self.kv_events_config.publisher != "null"
+            and not self.kv_events_config.enable_kv_cache_events
+        ):
+            logger.warning(
+                "KV cache events are disabled,"
+                "but the scheduler is configured to publish them."
+                "Modify KVEventsConfig.enable_kv_cache_events"
+                "to True to enable."
+            )
+        current_platform.check_and_update_config(self)
+
+        # If DCP, ensure the block size is right.
+        if self.parallel_config.decode_context_parallel_size > 1:
+            assert (
+                self.parallel_config.dcp_kv_cache_interleave_size
+                <= self.cache_config.block_size
+                and self.cache_config.block_size
+                % self.parallel_config.dcp_kv_cache_interleave_size
+                == 0
+            ), (
+                f"Block_size({self.cache_config.block_size}) should be greater "
+                "than or equal to and divisible by dcp_kv_cache_interleave_size "
+                f"({self.parallel_config.dcp_kv_cache_interleave_size})."
+            )
+
+        assert (
+            self.parallel_config.dcp_kv_cache_interleave_size == 1
+            or self.speculative_config is None
+        ), "MTP with dcp_kv_cache_interleave_size > 1 is not supported now."
+
+        # Do this after all the updates to compilation_config.mode
+        if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
+            self.compilation_config.set_splitting_ops_for_v1()
+
+        if self.compilation_config.pass_config.enable_sequence_parallelism:
+            # With pipeline parallelism or dynamo partitioning,
+            # native rms norm tracing errors due to incorrect residual shape.
+            # Use custom rms norm to unblock. In the future,
+            # the pass will operate on higher-level IR to avoid the issue.
+            # TODO: https://github.com/vllm-project/vllm/issues/27894
+            is_fullgraph = (
+                self.compilation_config.use_inductor_graph_partition
+                or len(self.compilation_config.splitting_ops) == 0
+            )
+            if self.parallel_config.pipeline_parallel_size > 1 or not is_fullgraph:
+                if "-rms_norm" not in self.compilation_config.custom_ops:
+                    self.compilation_config.custom_ops.append("+rms_norm")
+                else:
+                    regime = (
+                        "Dynamo partition"
+                        if not is_fullgraph
+                        else "pipeline parallelism"
+                    )
+                    logger.warning_once(
+                        "Sequence parallelism not supported with"
+                        "native rms_norm when using %s, "
+                        "this will likely lead to an error.",
+                        regime,
+                    )
+
+        # final check of cudagraph mode after all possible updates
+        if current_platform.is_cuda_alike():
+            if (
+                self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+                and self.model_config is not None
+                and not self.model_config.disable_cascade_attn
+                and not self.compilation_config.cudagraph_mode.has_piecewise_cudagraphs()  # noqa: E501
+            ):
+                logger.warning_once(
+                    "No piecewise cudagraph for executing cascade attention."
+                    " Will fall back to eager execution if a batch runs "
+                    "into cascade attentions"
+                )
+
+            if self.compilation_config.cudagraph_mode.requires_piecewise_compilation():
+                assert self.compilation_config.mode == CompilationMode.VLLM_COMPILE, (
+                    "Compilation mode should be CompilationMode.VLLM_COMPILE "
+                    "when cudagraph_mode piecewise cudagraphs is used, "
+                    f"cudagraph_mode={self.compilation_config.cudagraph_mode}"
+                )
+
+        if self.parallel_config.enable_dbo:
+            a2a_backend = self.parallel_config.all2all_backend
+            assert a2a_backend in ["deepep_low_latency", "deepep_high_throughput"], (
+                "Microbatching currently only supports the deepep_low_latency and "
+                f"deepep_high_throughput all2all backend. {a2a_backend} is not "
+                "supported. To fix use --all2all-backend=deepep_low_latency or "
+                "--all2all-backend=deepep_high_throughput and install the DeepEP"
+                " kernels."
+            )
+
+            if not self.model_config.disable_cascade_attn:
+                self.model_config.disable_cascade_attn = True
+                logger.warning_once("Disabling cascade attention when DBO is enabled.")
+
+        if not self.instance_id:
+            self.instance_id = random_uuid()[:5]
+
+        if not self.scheduler_config.disable_hybrid_kv_cache_manager:
+            # logger should only print warning message for hybrid models. As we
+            # can't know whether the model is hybrid or not now, so we don't log
+            # warning message here and will log it later.
+            if not current_platform.support_hybrid_kv_cache():
+                # Hybrid KV cache manager is not supported on non-GPU platforms.
+                self.scheduler_config.disable_hybrid_kv_cache_manager = True
+            if self.kv_transfer_config is not None:
+                # NOTE(Kuntai): turn HMA off for connector for now.
+                # TODO(Kuntai): have a more elegent solution to check and
+                # turn off HMA for connector that does not support HMA.
+                logger.warning(
+                    "Turning off hybrid kv cache manager because "
+                    "`--kv-transfer-config` is set. This will reduce the "
+                    "performance of vLLM on LLMs with sliding window attention "
+                    "or Mamba attention. If you are a developer of kv connector"
+                    ", please consider supporting hybrid kv cache manager for "
+                    "your connector by making sure your connector is a subclass"
+                    " of `SupportsHMA` defined in kv_connector/v1/base.py."
+                )
+                self.scheduler_config.disable_hybrid_kv_cache_manager = True
+            if self.kv_events_config is not None:
+                # Hybrid KV cache manager is not compatible with KV events.
+                self.scheduler_config.disable_hybrid_kv_cache_manager = True
+            if (
+                self.model_config is not None
+                and self.model_config.attention_chunk_size is not None
+            ):
+                if (
+                    self.speculative_config is not None
+                    and self.speculative_config.use_eagle()
+                ):
+                    # Hybrid KV cache manager is not yet supported with chunked
+                    # local attention + eagle.
+                    self.scheduler_config.disable_hybrid_kv_cache_manager = True
+                elif not envs.VLLM_ALLOW_CHUNKED_LOCAL_ATTN_WITH_HYBRID_KV_CACHE:
+                    logger.warning(
+                        "There is a latency regression when using chunked local"
+                        " attention with the hybrid KV cache manager. Disabling"
+                        " it, by default. To enable it, set the environment "
+                        "VLLM_ALLOW_CHUNKED_LOCAL_ATTN_WITH_HYBRID_KV_CACHE=1."
+                    )
+                    # Hybrid KV cache manager is not yet supported with chunked
+                    # local attention.
+                    self.scheduler_config.disable_hybrid_kv_cache_manager = True
+
+        if self.compilation_config.debug_dump_path:
+            self.compilation_config.debug_dump_path = (
+                self.compilation_config.debug_dump_path.absolute().expanduser()
+            )
+        if envs.VLLM_DEBUG_DUMP_PATH is not None:
+            env_path = Path(envs.VLLM_DEBUG_DUMP_PATH).absolute().expanduser()
+            if self.compilation_config.debug_dump_path:
+                logger.warning(
+                    "Config-specified debug dump path is overridden"
+                    " by VLLM_DEBUG_DUMP_PATH to %s",
+                    env_path,
+                )
+            self.compilation_config.debug_dump_path = env_path
+
+        def has_blocked_weights():
+            if self.quant_config is not None:
+                if hasattr(self.quant_config, "weight_block_size"):
+                    return self.quant_config.weight_block_size is not None
+                elif hasattr(self.quant_config, "has_blocked_weights"):
+                    return self.quant_config.has_blocked_weights()
+            return False
+
+        # Enable quant_fp8 CUDA ops (TODO disable in follow up)
+        # On H100 the CUDA kernel is faster than
+        # native implementation
+        # https://github.com/vllm-project/vllm/issues/25094
+        if has_blocked_weights():
+            custom_ops = self.compilation_config.custom_ops
+            if "-quant_fp8" not in custom_ops:
+                custom_ops.append("+quant_fp8")
+
+        # Handle the KV connector configs
+        self._post_init_kv_transfer_config()
+
+    def update_sizes_for_sequence_parallelism(self, possible_sizes: list) -> list:
+        # remove the sizes that not multiple of tp_size when
+        # enable sequence parallelism
+        removed_sizes = [
+            size
+            for size in possible_sizes
+            if size % self.parallel_config.tensor_parallel_size != 0
+        ]
+        if removed_sizes:
+            logger.warning(
+                "Batch sizes %s are removed because they are not "
+                "multiple of tp_size %d when "
+                "sequence parallelism is enabled",
+                removed_sizes,
+                self.parallel_config.tensor_parallel_size,
+            )
+
+        return [
+            size
+            for size in possible_sizes
+            if size % self.parallel_config.tensor_parallel_size == 0
+        ]
+
+    def _set_cudagraph_sizes(self):
+        """
+        vLLM defines the default candidate list of batch sizes for CUDA graph
+        capture as:
+
+        ```python
+        max_graph_size = min(max_num_seqs * 2, 512)
+        # 1, 2, 4, then multiples of 8 up to 256 and then multiples of 16
+        # up to max_graph_size
+        cuda_graph_sizes = [1, 2, 4] + list(range(8, 256, 8)) + list(
+            range(256, max_graph_size + 1, 16))
+
+        In the end, `vllm_config.compilation_config.cudagraph_capture_sizes`
+        will be the final sizes to capture cudagraph (in ascending order).
+
+        These sizes are used to capture and reuse CUDA graphs for
+        performance-critical paths (e.g., decoding). Capturing enables
+        significantly faster kernel dispatch by avoiding Python overhead. The
+        list is then filtered based on `max_num_batched_tokens` (e.g., 8192 on
+        most GPUs), which controls the total allowed number of tokens in a
+        batch. Since each sequence may have a variable number of tokens, the
+        maximum usable batch size will depend on actual sequence lengths.
+
+        Example:
+            With `max_num_batched_tokens = 8192`, and typical sequences
+            averaging ~32 tokens, most practical batch sizes fall below 256.
+            However, the system will still allow capture sizes up to 512 if
+            shape and memory permit.
+
+        Note:
+            If users explicitly specify cudagraph capture sizes in the
+            compilation config, those will override this default logic.
+            At runtime:
+
+            - If batch size <= one of the `cudagraph_capture_sizes`, the closest
+            padded CUDA graph will be used.
+            - If batch size > largest `cudagraph_capture_sizes`, cudagraph will
+            not be used.
+        """
+
+        if (
+            self.model_config is not None
+            and not self.model_config.enforce_eager
+            and self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+        ):
+            # determine the initial max_cudagraph_capture_size
+            max_cudagraph_capture_size = (
+                self.compilation_config.max_cudagraph_capture_size
+            )
+            if max_cudagraph_capture_size is None:
+                max_cudagraph_capture_size = min(
+                    self.scheduler_config.max_num_seqs * 2, 512
+                )
+            max_num_tokens = self.scheduler_config.max_num_batched_tokens
+            max_cudagraph_capture_size = min(max_num_tokens, max_cudagraph_capture_size)
+
+            assert max_cudagraph_capture_size >= 1, (
+                "Maximum cudagraph size should be greater than or equal to 1 "
+                "when using cuda graph."
+            )
+
+            # determine the cudagraph_capture_sizes
+            if self.compilation_config.cudagraph_capture_sizes is not None:
+                assert len(self.compilation_config.cudagraph_capture_sizes) > 0, (
+                    "cudagraph_capture_sizes should contain at least one element "
+                    "when using cuda graph."
+                )
+                # de-duplicate the sizes provided by the config
+                dedup_sizes = list(set(self.compilation_config.cudagraph_capture_sizes))
+                cudagraph_capture_sizes = [
+                    i for i in dedup_sizes if i <= max_num_tokens
+                ]
+                # sort to make sure the sizes are in ascending order
+                cudagraph_capture_sizes.sort()
+            else:
+                cudagraph_capture_sizes = [
+                    i for i in [1, 2, 4] if i <= max_cudagraph_capture_size
+                ]
+                if max_cudagraph_capture_size >= 8:
+                    # Step size 8 for small batch sizes, up to 256(not included)
+                    cudagraph_capture_sizes += list(
+                        range(8, min(max_cudagraph_capture_size + 1, 256), 8)
+                    )
+                if max_cudagraph_capture_size >= 256:
+                    # Step size 16 for larger batch sizes
+                    cudagraph_capture_sizes += list(
+                        range(256, max_cudagraph_capture_size + 1, 16)
+                    )
+
+            if (
+                self.parallel_config.tensor_parallel_size > 1
+                and self.compilation_config.pass_config.enable_sequence_parallelism
+            ):
+                cudagraph_capture_sizes = self.update_sizes_for_sequence_parallelism(
+                    cudagraph_capture_sizes
+                )
+
+            # user-specific compilation_config.max_cudagraph_capture_size get
+            # truncated to valid_max_size when they are inconsistent.
+            valid_max_size = (
+                cudagraph_capture_sizes[-1] if cudagraph_capture_sizes else 0
+            )
+            if (
+                self.compilation_config.max_cudagraph_capture_size is not None
+                and self.compilation_config.max_cudagraph_capture_size != valid_max_size
+            ):
+                # raise error only when both two flags are user-specified
+                # and they are inconsistent with each other
+                if self.compilation_config.cudagraph_capture_sizes is not None:
+                    raise ValueError(
+                        "customized max_cudagraph_capture_size"
+                        f"(={self.compilation_config.max_cudagraph_capture_size}) "
+                        "should be consistent with the max value of "
+                        f"cudagraph_capture_sizes(={valid_max_size})"
+                    )
+
+                logger.warning(
+                    "Truncating max_cudagraph_capture_size to %d",
+                    valid_max_size,
+                )
+            # always set the final max_cudagraph_capture_size
+            self.compilation_config.max_cudagraph_capture_size = valid_max_size
+
+            if self.compilation_config.cudagraph_capture_sizes is not None and len(
+                cudagraph_capture_sizes
+            ) < len(self.compilation_config.cudagraph_capture_sizes):
+                # If users have specified capture sizes, we only need to
+                # compare the lens before and after modification since the modified
+                # list is only the subset of the original list.
+                logger.warning(
+                    (
+                        "cudagraph_capture_sizes specified in compilation_config"
+                        " %s is overridden by config %s"
+                    ),
+                    self.compilation_config.cudagraph_capture_sizes,
+                    cudagraph_capture_sizes,
+                )
+            # always write back the final sizes
+            self.compilation_config.cudagraph_capture_sizes = cudagraph_capture_sizes
+
+        else:
+            # no cudagraph in use
+            self.compilation_config.max_cudagraph_capture_size = 0
+            self.compilation_config.cudagraph_capture_sizes = []
+
+        # complete the remaining process.
+        self.compilation_config.post_init_cudagraph_sizes()
+
+    def recalculate_max_model_len(self, max_model_len: int):
+        # Can only be called in try_verify_and_update_config
+        model_config = self.model_config
+        max_model_len = model_config.get_and_verify_max_len(max_model_len)
+        self.model_config.max_model_len = max_model_len
+
+    def try_verify_and_update_config(self):
+        if self.model_config is None:
+            return
+
+        # Avoid running try_verify_and_update_config multiple times
+        if getattr(self.model_config, "config_updated", False):
+            return
+        self.model_config.config_updated = True
+
+        architecture = self.model_config.architecture
+        if architecture is None:
+            return
+
+        from vllm.model_executor.models.config import (
+            MODELS_CONFIG_MAP,
+            HybridAttentionMambaModelConfig,
+        )
+
+        cls = MODELS_CONFIG_MAP.get(architecture, None)
+        if cls is not None:
+            cls.verify_and_update_config(self)
+
+        if self.model_config.is_hybrid:
+            HybridAttentionMambaModelConfig.verify_and_update_config(self)
+
+        if self.model_config.convert_type == "classify":
+            # Maybe convert ForCausalLM into ForSequenceClassification model.
+            from vllm.model_executor.models.adapters import SequenceClassificationConfig
+
+            SequenceClassificationConfig.verify_and_update_config(self)
+
+        if hasattr(self.model_config, "model_weights") and is_runai_obj_uri(
+            self.model_config.model_weights
+        ):
+            if self.load_config.load_format == "auto":
+                logger.info(
+                    "Detected Run:ai model config. "
+                    "Overriding `load_format` to 'runai_streamer'"
+                )
+                self.load_config.load_format = "runai_streamer"
+            elif self.load_config.load_format not in (
+                "runai_streamer",
+                "runai_streamer_sharded",
+            ):
+                raise ValueError(
+                    f"To load a model from S3, 'load_format' "
+                    f"must be 'runai_streamer' or 'runai_streamer_sharded', "
+                    f"but got '{self.load_config.load_format}'. "
+                    f"Model: {self.model_config.model}"
+                )
+
+    def compile_debug_dump_path(self) -> Path | None:
+        """Returns a rank-aware path for dumping
+        torch.compile debug information.
+        """
+        if self.compilation_config.debug_dump_path is None:
+            return None
+        tp_rank = self.parallel_config.rank
+        dp_rank = self.parallel_config.data_parallel_rank
+        data_parallel_size = self.parallel_config.data_parallel_size
+        append_path = (
+            f"rank_{tp_rank}"
+            if data_parallel_size == 1
+            else f"rank_{tp_rank}_dp_{dp_rank}"
+        )
+        path = self.compilation_config.debug_dump_path / append_path
+        return path
+
+    def __str__(self):
+        return (
+            f"model={self.model_config.model!r}, "
+            f"speculative_config={self.speculative_config!r}, "
+            f"tokenizer={self.model_config.tokenizer!r}, "
+            f"skip_tokenizer_init={self.model_config.skip_tokenizer_init}, "
+            f"tokenizer_mode={self.model_config.tokenizer_mode}, "
+            f"revision={self.model_config.revision}, "
+            f"tokenizer_revision={self.model_config.tokenizer_revision}, "
+            f"trust_remote_code={self.model_config.trust_remote_code}, "
+            f"dtype={self.model_config.dtype}, "
+            f"max_seq_len={self.model_config.max_model_len}, "
+            f"download_dir={self.load_config.download_dir!r}, "
+            f"load_format={self.load_config.load_format}, "
+            f"tensor_parallel_size={self.parallel_config.tensor_parallel_size}, "  # noqa
+            f"pipeline_parallel_size={self.parallel_config.pipeline_parallel_size}, "  # noqa
+            f"data_parallel_size={self.parallel_config.data_parallel_size}, "  # noqa
+            f"disable_custom_all_reduce={self.parallel_config.disable_custom_all_reduce}, "  # noqa
+            f"quantization={self.model_config.quantization}, "
+            f"enforce_eager={self.model_config.enforce_eager}, "
+            f"kv_cache_dtype={self.cache_config.cache_dtype}, "
+            f"device_config={self.device_config.device}, "
+            f"structured_outputs_config={self.structured_outputs_config!r}, "
+            f"observability_config={self.observability_config!r}, "
+            f"seed={self.model_config.seed}, "
+            f"served_model_name={self.model_config.served_model_name}, "
+            f"enable_prefix_caching={self.cache_config.enable_prefix_caching}, "
+            f"enable_chunked_prefill={self.scheduler_config.enable_chunked_prefill}, "  # noqa
+            f"pooler_config={self.model_config.pooler_config!r}, "
+            f"compilation_config={self.compilation_config!r}"
+        )
+
+    @model_validator(mode="after")
+    def validate_mamba_block_size(self) -> "VllmConfig":
+        if self.model_config is None:
+            return self
+        mamba_block_size_is_set = (
+            self.cache_config.mamba_block_size is not None
+            and self.cache_config.mamba_block_size != self.model_config.max_model_len
+        )
+        if mamba_block_size_is_set and not self.cache_config.enable_prefix_caching:
+            raise ValueError(
+                "--mamba-block-size can only be set with --enable-prefix-caching"
+            )
+        return self
+
+
+_current_vllm_config: VllmConfig | None = None
+_current_prefix: str | None = None
+
+
+@contextmanager
+def set_current_vllm_config(
+    vllm_config: VllmConfig, check_compile=False, prefix: str | None = None
+):
+    """
+    Temporarily set the current vLLM config.
+    Used during model initialization.
+    We save the current vLLM config in a global variable,
+    so that all modules can access it, e.g. custom ops
+    can access the vLLM config to determine how to dispatch.
+    """
+    global _current_vllm_config, _current_prefix
+    old_vllm_config = _current_vllm_config
+    old_prefix = _current_prefix
+    from vllm.compilation.counter import compilation_counter
+
+    num_models_seen = compilation_counter.num_models_seen
+    try:
+        _current_vllm_config = vllm_config
+        _current_prefix = prefix
+        yield
+    except Exception:
+        raise
+    else:
+        if check_compile:
+            vllm_config.compilation_config.custom_op_log_check()
+
+        if (
+            check_compile
+            and vllm_config.compilation_config.mode == CompilationMode.VLLM_COMPILE
+            and compilation_counter.num_models_seen == num_models_seen
+        ):
+            # If the model supports compilation,
+            # compilation_counter.num_models_seen should be increased
+            # by at least 1.
+            # If it is not increased, it means the model does not support
+            # compilation (does not have @support_torch_compile decorator).
+            logger.warning(
+                "`torch.compile` is turned on, but the model %s"
+                " does not support it. Please open an issue on GitHub"
+                " if you want it to be supported.",
+                vllm_config.model_config.model,
+            )
+    finally:
+        _current_vllm_config = old_vllm_config
+        _current_prefix = old_prefix
+        # Clear the compilation config cache when context changes
+        get_cached_compilation_config.cache_clear()
+
+
+@lru_cache(maxsize=1)
+def get_cached_compilation_config():
+    """Cache config to avoid repeated calls to get_current_vllm_config()"""
+    return get_current_vllm_config().compilation_config
+
+
+def get_current_vllm_config() -> VllmConfig:
+    if _current_vllm_config is None:
+        # in ci, usually when we test custom ops/modules directly,
+        # we don't set the vllm config. In that case, we set a default
+        # config.
+        logger.warning("Current vLLM config is not set.")
+        return VllmConfig()
+    return _current_vllm_config
+
+
+T = TypeVar("T")
+
+
+def get_layers_from_vllm_config(
+    vllm_config: VllmConfig,
+    layer_type: type[T],
+    layer_names: list[str] | None = None,
+) -> dict[str, T]:
+    """
+    Get layers from the vLLM config.
+
+    Args:
+        vllm_config: The vLLM config.
+        layer_type: The type of the layer to get.
+        layer_names: The names of the layers to get. If None, return all layers.
+    """
+
+    if layer_names is None:
+        layer_names = list(vllm_config.compilation_config.static_forward_context.keys())
+
+    forward_context = vllm_config.compilation_config.static_forward_context
+
+    return {
+        layer_name: forward_context[layer_name]
+        for layer_name in layer_names
+        if isinstance(forward_context[layer_name], layer_type)
+    }
diff --git a/connections.py b/connections.py
new file mode 100644
index 0000000..31b0d5e
--- /dev/null
+++ b/connections.py
@@ -0,0 +1,189 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Mapping, MutableMapping
+from pathlib import Path
+from urllib.parse import urlparse
+
+import aiohttp
+import requests
+
+from vllm.version import __version__ as VLLM_VERSION
+
+
+class HTTPConnection:
+    """Helper class to send HTTP requests."""
+
+    def __init__(self, *, reuse_client: bool = True) -> None:
+        super().__init__()
+
+        self.reuse_client = reuse_client
+
+        self._sync_client: requests.Session | None = None
+        self._async_client: aiohttp.ClientSession | None = None
+
+    def get_sync_client(self) -> requests.Session:
+        if self._sync_client is None or not self.reuse_client:
+            self._sync_client = requests.Session()
+
+        return self._sync_client
+
+    # NOTE: We intentionally use an async function even though it is not
+    # required, so that the client is only accessible inside async event loop
+    async def get_async_client(self) -> aiohttp.ClientSession:
+        if self._async_client is None or not self.reuse_client:
+            self._async_client = aiohttp.ClientSession(trust_env=True)
+
+        return self._async_client
+
+    def _validate_http_url(self, url: str):
+        parsed_url = urlparse(url)
+
+        if parsed_url.scheme not in ("http", "https"):
+            raise ValueError(
+                "Invalid HTTP URL: A valid HTTP URL must have scheme 'http' or 'https'."
+            )
+
+    def _headers(self, **extras: str) -> MutableMapping[str, str]:
+        return {"User-Agent": f"vLLM/{VLLM_VERSION}", **extras}
+
+    def get_response(
+        self,
+        url: str,
+        *,
+        stream: bool = False,
+        timeout: float | None = None,
+        extra_headers: Mapping[str, str] | None = None,
+        allow_redirects: bool = True,
+    ):
+        self._validate_http_url(url)
+
+        client = self.get_sync_client()
+        extra_headers = extra_headers or {}
+
+        return client.get(
+            url,
+            headers=self._headers(**extra_headers),
+            stream=stream,
+            timeout=timeout,
+            allow_redirects=allow_redirects,
+        )
+
+    async def get_async_response(
+        self,
+        url: str,
+        *,
+        timeout: float | None = None,
+        extra_headers: Mapping[str, str] | None = None,
+        allow_redirects: bool = True,
+    ):
+        self._validate_http_url(url)
+
+        client = await self.get_async_client()
+        extra_headers = extra_headers or {}
+
+        return client.get(
+            url,
+            headers=self._headers(**extra_headers),
+            timeout=timeout,
+            allow_redirects=allow_redirects,
+        )
+
+    def get_bytes(
+        self, url: str, *, timeout: float | None = None, allow_redirects: bool = True
+    ) -> bytes:
+        with self.get_response(
+            url, timeout=timeout, allow_redirects=allow_redirects
+        ) as r:
+            r.raise_for_status()
+
+            return r.content
+
+    async def async_get_bytes(
+        self,
+        url: str,
+        *,
+        timeout: float | None = None,
+        allow_redirects: bool = True,
+    ) -> bytes:
+        async with await self.get_async_response(
+            url, timeout=timeout, allow_redirects=allow_redirects
+        ) as r:
+            r.raise_for_status()
+
+            return await r.read()
+
+    def get_text(self, url: str, *, timeout: float | None = None) -> str:
+        with self.get_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            return r.text
+
+    async def async_get_text(
+        self,
+        url: str,
+        *,
+        timeout: float | None = None,
+    ) -> str:
+        async with await self.get_async_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            return await r.text()
+
+    def get_json(self, url: str, *, timeout: float | None = None) -> str:
+        with self.get_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            return r.json()
+
+    async def async_get_json(
+        self,
+        url: str,
+        *,
+        timeout: float | None = None,
+    ) -> str:
+        async with await self.get_async_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            return await r.json()
+
+    def download_file(
+        self,
+        url: str,
+        save_path: Path,
+        *,
+        timeout: float | None = None,
+        chunk_size: int = 128,
+    ) -> Path:
+        with self.get_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            with save_path.open("wb") as f:
+                for chunk in r.iter_content(chunk_size):
+                    f.write(chunk)
+
+        return save_path
+
+    async def async_download_file(
+        self,
+        url: str,
+        save_path: Path,
+        *,
+        timeout: float | None = None,
+        chunk_size: int = 128,
+    ) -> Path:
+        async with await self.get_async_response(url, timeout=timeout) as r:
+            r.raise_for_status()
+
+            with save_path.open("wb") as f:
+                async for chunk in r.content.iter_chunked(chunk_size):
+                    f.write(chunk)
+
+        return save_path
+
+
+global_http_connection = HTTPConnection()
+"""
+The global [`HTTPConnection`][vllm.connections.HTTPConnection] instance used
+by vLLM.
+"""
diff --git a/device_allocator/__init__.py b/device_allocator/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/device_allocator/__pycache__/__init__.cpython-312.pyc b/device_allocator/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8b33ad1ceeb18985242058556120f2de4e19e10d
GIT binary patch
literal 166
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx$2kX7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#uSmSrZV#wX_F<R>SV<QM73$7kkc
nmc+;F6;$5hu*uC&Da}c>D`Ewj$_T{8AjU^#Mn=XWW*`dy5FIHF

literal 0
HcmV?d00001

diff --git a/device_allocator/__pycache__/cumem.cpython-312.pyc b/device_allocator/__pycache__/cumem.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f0a77204c7998f4d9406958d79353292274b56b5
GIT binary patch
literal 13260
zcmb_iYit|Wm7d}IC6RhREXkvXCDWFr`0YBjvwp;}<3veo=cR6!p*bUo3SXHS+7?T-
zYMNqY)SD>ShvjYBD!>A()?L6qgZ<Sc`y-157M#c_*@*(UXcyT0W1<u(x&?N>b7zK>
zXeMony%O)-_w(FyzH{#VkA?;x2bXYsKmN`G9QSLASk7$*Hkxf5casx2kxy`w#+RSu
zS==^h!`GIuCmoXxp7QJoXVNw4Vqr(Zo%Bq4SeQ?EC%wpbCVWZ%q@Sg^5`kpHWCPFH
zILR+H-sX)SCxfC}3W<CUBbc&@o|heyO`><Q*-P#F5-rKr$<}1sWLvU*vYoZ#Pjn<Z
zCp%d?O=6(ZP8ZtkylqZnvRiDJY?gYYUgK}d(S@AJK8c$>VHVl+v2l-ZV&lu47`%<y
zldH5Nh#{#@bc_6yLu|s>`ZvX!5g!m+B!|>H%}c#gHtIucr8rV-sAHtKCGYH6*6bE<
z_S}{zi_AWHf7+BwY(r1OlIu_D3%$C;_Lm)%8H}*mbzpX#*6b#C&hdksv~7r!gIH63
zvK7BJ{MzyB#IFm#?&r80Z(QZB*`MRC^5L$JXkZgzUiX}iCKA!h2?^oGSUROj*VJS*
z6`hu3q}WfU=J4^yQ*kwtNKYH79dRX+iKik-DVdh%BGD_+IBP<8$&#9tQ!$em*yLUC
z?f7k+Kq^R)pXb#|zG$;H{2(`P%iGRy-vCk1+w)xBeuY!`8=ky<p69s~??6rZvnI`R
zd47SP<MaG1wO->yyVdTzBhTj@BHzu;I%^6cYAx%$Gw+<W4$Y=w)pkTia`UddYu3A|
zfEg5>R)3<4$Y$1mf0;aIl~EcV<wSSh^#e}y<hdVkKdfx;OMKpWksIXpV(wRMJog;O
z<L|~5bKAVpFqY0Iz@3c6(y|y&O$%yTh;EL|sA@(zIzEnFJUo_`r^gfVRQ4K0_hhiG
z3WW}iXXJDYn<z$-(Tp;7aBN0RCPrDy>Wm~z#S@b7JS#M=NQo)b$tceYL?6+3N)f1x
zvHJq$2<a)7M2$*{GAdl1iN|Jycq*32iV`c%npS3_vLp(L_+>dN$B~gpM@1xDp4(h~
zOn62TV$qb4RV1Xx6=OJ<=Ttl;8YQFZjM*t`IBK<IG(9)QQYUi3nkne~_(%T>m$Q#4
zX_>e~uI;ImbS)#rRE&eBor)%<qe8Ahm`cm$NauvGOLwF*Qc8DX1kyF#si<;1gHI+A
zS9PD9iOOnRji*z(Pf-z8uEy1wuv_<FJP~S9_f4g<DKUb*kaT`Zcd!7OL1EpI!E|(w
z)w@E3NP7(T`%~j;GBciuXZE1zw50C2mOcEHBQG45u&tNJGjr-pIyHVJkw}h<(v^5j
zir_e>V^K9NkH@muqOr`J-a_k!<4bFe5zyk#$=&FLe#+bM7PxXF*WAAF=(@L|(764s
zS6DguL2KLMnNqN0`M`U@?WNxSCEqVYZDlvt*8Z8D^Yxc~oTs_q?z$IjDZ99aj$)uk
z3-l~sTnqFsJY4d(ElEpL1%GeRKdAW!*Zeyc&{oT<x$C**!S8>2S=NFB3+GDymZHB;
z^Y<-hQDP;k`F9rm`!)amJLm5DkC!={(^c|qU-2yGR(tPUyE9wxoZPS@v4Bh$7YHp}
z_^cm8DR_n7D<Mqd72l~A`z<HDw_BX2dfaEjc9VA{(_%Iu>21b>MPjlPRk2oB7SONW
zX(ne=h_O^zN=Q+Km}0}}tQh^;rN@kA(}QePtE+q|hJGu~VnrLo_-}F&N3wR(_7o@C
zB`~35NR^xj*(fC1CtZ?zmIhwqL_5h(lygwIIeXZtH=Z>16*P7xsz!C!3<i%G+12Ru
zgx(a(WFwcOu@|zLh$^K(+hMQni7?WOM08&yVk`i{fk@=VY&1bcNjc|OGneKvk{*m;
z>Z!CEB|=t^X$O_dLl}YX1U<!Obk`-;_D{GC8n8^9PVTq72?P|1eUG~rXkT-*m%M@R
zo-6IyTX3{3WpCzR%dd!9$F94Mz4Dk<M{hF86+K3b8Ep|Bw4U_aXoYu^s|t=h_X-%}
z9QP9*LQL*K?oW7m93O>bi@=5kdA4Pn<^9NdipmgoUf|XpU4?C<?>Y9c@qD>{<-KSE
zJ@?`x@1r(1_1knG9mxk#<T)y4b=_0w8-LI70P9*0ne>-rs}Y$>RZ^y8Ns3HmQ?Zx{
zWzYu4ktAcwl1E_cvg9{ONVQUD)<M;_x>=IUHLjj)Qz4NJ2l;EeZIU=i>x*32KB0S)
zb2vmqow^%A8gbYqZ$lM%H$2@D!vWG=hPcq%Pd|0$<dcc)^fZAElc>|O+>D}OyL^bM
z9j0pDlyucNW(su)UTAD;2bf?aV>M7ci1I@y^$q-#ufSX2K6P=<P$47~2KL=`>|YPH
z-SoZYD~9^DP=7IWL<=2R_k@;qFVBIYG`SYe6F+GyI9d%_s4N_sqGcMyZ=)God;wJV
zc?&*o`~O++ylu9!<mlIQw~4^u=Iwt*FAYZB&3?WDkq%-`d3)YAW%~!)O`f50p!F)y
zn!68>%$YdyU+h<T<0QD*^0N(>A4E4YF)rQxxRiV{olbxOnddw$>j8*$f{u|4a>9=4
zmdk|Yb&r*$5Y1xS&3*4Ps}bU)nh_GQ)n?^~QF<CbMTGa?-0wgE9<FI;Vds&;(MQ)p
z7Z%R12U|)06oY~m6pF!}T5#uTS228C3m;z#o>(}y?rnUv`+9fL+pT%wk7(YJRnPn0
zy`{$XWpAOe|2<DXNxpqW?_SNj_YX=RI(q43_>`M}Yq$I4gZ8)fc`5v$^OVE=Hs?k-
zh7uKL!Ox9fAZfE~06Mpewn>Kw*&y0!;Y0^X2E?2clRRRZ=-#9Qc%fHulRnWa`9+s#
zgD&HPMiCJGQiJG{{D=n-Zxq|b1}P}H#YRJOk=!IzL>u#sdcl{SlOdD~NllWQ*!h;+
zCge6tEy!<1E36)Lx|Wxnw^5QDG!2*3fV5Wh*EVMhcj%3$v)J^?xsHxt7a15kDJVdz
z2}w<-gjgb~5GstSfRChWC_>c2leD)Cdl91$3}L1ic<xdab;eT$GGwI*D_)j>2d7Lt
z3FIcml~`0JaCvn`qQa5^6fJZlC<#dd^7XOg^C=}R64(Ult)a7>5U^nb`a(4t6+p<=
zs02g4po@4S!P>znOhQM;Y>XA0Od~~Y0N9zR0iYF#U;(WQMw~T3(F_&`)q!_uJf==&
z4)htC%vFNN7{>E#4$p5L6CDdyQ30rpPsOPvG)hCnBC$@Y3xz&TKlzlo^v39@Pgzn_
z3)7oBU^P%(SYuDN4(Mw11u2rv)C`GjG?2fLk%3XuStT)7-7GdDb95GpCnQ7jf8<My
zjkPlqy&?%xGNaC!bE+)coDf%qlq88*`!rEYv`UW;vAS#~)!nn^P2--9%9lZ<*o#Dh
zX$qsllXI5{5*f=vyTRI^#Ula8_J?L+sX}amY||Kxnev`VcS@zA&tu3y^J10OPwxT6
z0dWBwkuF4sWIB<)98CyUpgxiOq`4@-W(MgJP9W??TNh2S0YO<)qp27j4iE)YDR%V6
zg!5C3iWoi;lG%hB&!9D{w5iZp#jAQ@ZTHr`rLRcxRXMI=w2Z{>TZifq0l*ZlrsWri
z>Mg~~nDT_~u?C>KMQJLEVd;J|5CIX(9`KwkJeB0M9lwp2;6X0KH=N>zip^Vm>Lvb*
zW#&SQO06(w)v4BqRM0>*tsbBP9J1y9o-I3xt*wkuz+!G9IddN>g$<3D)}}%vIQYQd
z*%-DLhfW6FB}~1RwN4Cx?WjRDL<vAf?BrXkXe=w0&IwFyv6vHD#Biv$itPrPlBL>M
z<{bGEEQm~IEqM=l47HPx&;x|QtX^{4w$5~HbLQWmxI*A}f%|PE7usI%oGJ*X);y;c
zzrF77D*6XB|3JaNYkl~@+VG(p6L$lH>%rb)a99ft7d*rF19QRzY{P$pz~&8~t!xr9
zOjpn1!!WE_cAgjQdHxE|h-H%vCeG!#NQEF&qB`d4!7`Mr;AmD4BGzzuuAXX#@)i3L
zN|0Vt<50qHCCzbR=Y-zz<a3vv_}b}n5fX`!laD?2#OcWCCnnD7T&@#G2r`9uK}3<J
zlTu1mj$V?pQtp+9D>;IdBM>uVM3zp%<`5?i!sG=o7jTt8GHOhClBvFeDiasBtVz=l
zE7{9qv2>D*4#fH@-?*Y=VOH9E;P8=ydzt8_<DY<n4Jne%h!hwL2XtFn(cMz&N?eAW
z#11OagPC+37DqXvrXwg8H7JgBXWbvm$}(m{=U#6y*>YND$~g^F(K{krwI+*?>g}JC
z-ey(U!glr6ddxU%(;Z~^g7%V5O({e$77&G6&CH>ZTt^MzTN$@dT1mr$ju~ts%=zlK
zu79i0clgcbwcxQuM=2P-)2amzmN|#lSGL(2hBxd86_66(9z4G2xa;Xz7siUhQB62X
zvCh)|gY*^39&TiJarl%re2U_OrJ<e0p%dEBiABfzo_^zmk`}y0TO|5qXXZx;+=Sg!
z<mnVcT`^S(4r!ppIw#0d0+355ug2w>8AGkme?9F{w4pyc^;f@#yzRExGSqoT*qNKH
z@Wk^(8YxJ-Du=7eI+G$u+7abcDlxQYk~6Vf1Mk&EV`CrDjB_VWR?6&9V2T8_G9pHV
zosFm{0uLzy;!|=uS<6X3qD7ntI}Jk!nHS_s@N}19F4vu+bU8Z>)%NR@MVq60GIJ3a
zo}}a!%~pN}dAZ?QnyOFCKSf#PS$MGAdAQacD__-GMixEm;lrgs@3LClKCW#ahibda
zx9BK(dNfbZ^0S&}7)r4>_-f#KpcHtF3P!bnPzr<$+g&Np`l;6miVUC-qb1#*QRVuy
zbQgVtmbh7bYh68yJnRyd0t?GQJ!<+6u4VGJO~Uq%(N$eF*`zhwY@l{jMCDaltFL53
zggbIG6=JGGfr)hb1u!)xXa7VRBz99z8yK6&9X-qP{v5iKpT`8lZiCqDnRJF(>f|U=
z<;&y^kT*z$OxhC>)*W<Ow$j~mNY4#@4&80xmH&#8%3r}_R2OP31_!m^U@<tN1xHrx
zYr#?QHh-|_@7MhO1^=GXj_~4{yMcjqPoqI|=Rj+(Ubuc?nZG_k!E@J<610de)cWc-
zuYa@P={9IDV5%u30hF;VR7et;akSTQf{CLoG*_WtJw7&tTc=cuYN_C;QRP||kCTA~
zsN9xP71?i<Qf!ZMFToBrZ^IAwRP`{yY#nop1uJpG^*YD>CB{APV7E?<m`jbrEt4(p
zGAKERwqR>>*2NP16;7Uo>1K1;N^IV(wpb0<#TjmujBd=$wp*d<S9GYvwwbd=|1+m`
zg62JW&ny}FYMfPa-mCUlS+m=%Q1zSl<{f#rWle+u%9D3SDyDFi=$5&>%i<fj2m6tO
zQ-`da*%2#L{fbyQ(VYW+%G=GaEpN}koMyzV(es=dwrb7pvO?9bH4BuhuF+^U-wMqV
zKd*7sx^sNk6TJwwS79hmW(|aHat^}bDZ>&Wz(6lm0Xt+8lWR3bgiRdhPtfxT`G29V
zp9WBqNz5_Zz-HCHGUB7S+KMKvX4qLgDqNajhKtI*pDAxQjgG1OX1kTPwv1<twX)gL
zaDOXx21ad=n_#zhj0x&?+<riRaf&KkW4MfqFx^+ZqRuUD<!(pKH8(i(j<J1H!Xxoh
zrpbUUIc`B<t%1^P++<dY08)^y4t@?9fW0H@3E6ZA@v^yWE?KofRrI$wh~+QBotuEJ
zFAlqyp`^=1iMVUYLKipqx-+f<B~)3tVNrK73y1E^0z4m)N#W2v#MUE_*18uLd}MLQ
zy`qo4k4wo|X3h`}q=+#Ip*!NKskCmJhRxnIYA~~{?q^L$V$s-)6!saIWrjNNtF$B$
z29NXrtpTo@SWG6lB2SY?B1dmf;yDQr+03Q$icWAph0!TEi5%NM<{1`!Co^N^TDR`e
z7)$+klvj@92tndBbAir+e>*Tt@9tvHA+6_7VcU`GkF7U!EC>E6cDG?ysb}Z%LyM37
zCfKz+`ZMR<;8?*kRtS#WYwuX}mpVEZ1NXXmi(PxPu06%B{aV-lUvwS3etz-vQfsNL
z>*m*A`}*S9QlMk`&`STUuV{gx#S3&{dF}eO<zo<UrBKg`Yvsi^yjm!{6etP96kcjr
z9}55Tg*PsgTKm_#xBqzet=*+<!us|@Yuk@Ns_kelg!+M|wv86M4`|&7*18WZxz|Ho
z#n6xz8d`Z~HFoFt-O$NW_~?@3ZfJNNfNbjhz>e~EuKUoZ1BBH4*Zrg)bkYrL=kkaa
z=r092mk(=!ffC}!w1$yYMD~5!;P(1HZRWiGSAExgHv;RP1_~5CeVV85eUD%WR0j#t
zEpoJ?8KkhnUk1%tJPy)q*_37^4f*c`^Y(h!4q7&D$Zm8Xw}R@hv!<JOs8yZVQRVk2
zP4rUZ7Wf+v*3Th%irhybEx$klBR5#nB%;=ga=-|Xzs}jF&o2YXT9pcI_m_k8#_Nu%
zYy+;fM=IFk#y>hZNCsOpzgaRo1IuX*u7q@83I{s~pC=y}qXk#0XIiZ=cI%l1DfEU}
zwZfAPrd!|iOFYGB<MZsQbc#(0LB#cCC4*`2tqg{mBi3RL(qzcYS~-zUNrs{O^TmWQ
z%|F&!C4VC9XIxg!U<(;iHW)2k6PwrGDLkP_=m9(iAj?XGIGe0cHo;9f3oq<3nB=!9
zVJjyzcy69D=HV%XC25A_49@2^?d7@l8s2B7{|{CBDLin$R<66RKJyB;EasQhA78t5
zZS}x=+s8{?y+7V|Yul1*J=C{+1$?E{(ot*)YxIAxv~#q$^MtnZM4@#@sbi<sao}Fh
zo?_2_t!MvQ&%wfx^Ti`iYe$}5JMyg7^K9A9bq#~{3?3*B9McAltqq)5cCUB#7duC_
z&e7G2cShbkez)^{Y45>h$NQaQA9sOo88!%lZ})K;O5AuIL~mT80=0*}7`4}6@e1eI
zip7D!D<~a3m=2g3HjRkGimQGrg!1)tLvFSX61RH7>ohxXc72N;d)6WH#^ot+CwnG1
zTfyE|zf~TCH)#%VPDp#=SO(4)Z7=M^X7e`!=%pS{aT+hsZe#t(&AZeNBLu9w86%H6
zIPjlMGp~I&M~?-!zAu~OjrV1Aof~#WM>g}Nlhy^4c~d9T*~Dc8Lp<hDWM;$4u_EYt
z{~5Ke%7AsOn>O=itHPyB_$Y~$rvB&++U6@R^QwnVSCu7IIFfMzQn`(*Le)*&g+QEn
z-9UF{m0?hm78J$Q%^Mm@HBhMDSQ$EF5xU#78HEE?peLuWT@2yLPf_S$^2mZCPm=dE
zJl&(D@S1KWt;(d6vqvM)@R{L=4v+3mCq#A;LTF3(S0|z9zG{SVvCWUj3}zFox!BD0
z)i9l!{1%Xb@}KC4U8aNo1cHkXt~U$C=25MAbn!I7tijinyTQSNXRr_)yw}`bY#z{>
z2NvC>ZGFsax!$mwS(gA@Mpj#k;Zs`p)Tee^qwiir6L8U<y^Cjxfgxb6m5W*+{6V0p
z+|F&=zWm~?kz)5Qt$Wv6_vqq<5BkDOzEVqXp>IrU8Nai4t>pk-qZNA(YrTix^!@xR
z+L6cCdMB37uD9-3nR>r<Pub0F-vy(XFha(Mp3nB9zt1>$ACvb7We8Jx>15~W0RL9^
zfzzD*?ch%G4||dF4(B}Wb-&|uBfRB75b+T^ej8Wd8LwDzP7$tk^=w}jw!oQ(M$L48
zLQ8d#lKEbh@ero_^EbBPMDz64Cii%SBp)%adKfAfAf_%$GLg7pzO0aAjrzFtpjI^~
zScooRB8DI&5D#-EQJwBpvdOwAUm-X{C%}|sO?2sFne4L)E=zMY7hvpKXiJHQh`{I=
zFl$oxwnZ;QSA7vz#pi9y?JNAPE+F9R=gUqA9LT3oSHaWC1W(w;?g))j$DU}l%RA76
zJWL)L40LxSBI4<5#JJcZD}ekcdEmyl*n%Ra#$$%TS$>?-=}D0c*32>ctZs+SWt`45
zrF{z?J?6ws-FGQYbRvJByjRHEL*5v9WJ)oH^$0>Q;-`>q^F8ikTf5U!et;VoUN~21
z>|1j{E(;46mRi;v!aZlxCpNEhWW&z6n#&aWq&?_-s65c<48GZ2=J0vfu|c1*(BRy*
z+EV85xzoKtpO5<<aQ3h4ShcTST=l#$e&@6{aQMw3ZQw+iL&m#98}#{D<lCKxmd~uT
z+&aJN(0WG89O7@HQG75eSL?^NuybT(|7z<SM?V2wu(7n3DY5)C?{Rjm?EjR*$CxF}
zEgZ(BEs!I-X_gfED$?Yy!ovllaeoe@y)qWP9FyrpK}$7WozufqT0Y$cH6BkzWFj#`
z;q}u4*D=GOE)xvUyI4wAjVF|`46d5+ST`AAQKk<Yn;xYGXkXc5SNSoj*vcx_JmNH7
ztC78mJ?PW-u|iPa@yhpd7B7Rx%*VC3{z_(3arV9zHc6=0k*jhvlaXYZUIVdLYz!Of
zEswJorxR)QEIs^vSeEg~jgic2RFDWt_g0q4xIAFM^B`qENZv8>j*~}E+YEt03tU50
zy62ejxbuYkL*(L6amwGpFWY&Z-)QIfmJc{D{y*e~KIC?M$hH5P3;Y*1_#t=vSKij8
zXV<)a3$C)OlMk(2Ts`o{<OYXe`4HFAxezSdn)$ZRY!0XEV-DVLeVp^F{I7xog~0=B
z!GjCuei`ch+u*|aQhWEp6JXtqElc~C?aLQe1`91aw1(jY9}cIjp~$yueEVlMJHM~Y
z!2>nhI?5~>;Q6tY*)oUEol6_^DSLQ+?<!~;A0k71${si0R%-8Cu`g#=V#_(LeOK8|
zNhi*}Yk&9R&vS)~&lDbcMmqt(isXAv-(OFDXR_#Q*PQJ|=N`?uXTynfNHANdY;*Ag
zwQW&SowksC&*}Zdi7yS=sQX#-({{e=6OR1fm7_f8+4c!Xz2f!sg;I}DaCDWn4;CCf
rrPj`c$6-OhE9X$_OXtf$6#BhFdgEL6{?q%oclI@%aoPXP$;1CYuFJQg

literal 0
HcmV?d00001

diff --git a/device_allocator/cumem.py b/device_allocator/cumem.py
new file mode 100644
index 0000000..e969569
--- /dev/null
+++ b/device_allocator/cumem.py
@@ -0,0 +1,327 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# cumem-based pytorch pluggable allocator to implement sleep mode.
+# other approaches tried but failed:
+# - cuda-python package binding
+# - custom libcuda driver ctypes wrapper
+# both of them failed because of cuda context mismatch.
+# not sure why, they are created from a different context.
+# the only successful approach is to call cuda driver API in C.
+import dataclasses
+import gc
+import os
+from collections.abc import Callable
+from contextlib import contextmanager
+from typing import Any
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.utils.platform_utils import is_pin_memory_available
+
+logger = init_logger(__name__)
+
+
+def find_loaded_library(lib_name) -> str | None:
+    """
+    According to according to https://man7.org/linux/man-pages/man5/proc_pid_maps.5.html,
+    the file `/proc/self/maps` contains the memory maps of the process, which includes the
+    shared libraries loaded by the process. We can use this file to find the path of the
+    a loaded library.
+    """  # noqa
+    found_line = None
+    with open("/proc/self/maps") as f:
+        for line in f:
+            if lib_name in line:
+                found_line = line
+                break
+    if found_line is None:
+        # the library is not loaded in the current process
+        return None
+    # if lib_name is libcudart, we need to match a line with:
+    # address /path/to/libcudart-hash.so.11.0
+    start = found_line.index("/")
+    path = found_line[start:].strip()
+    filename = path.split("/")[-1]
+    assert filename.rpartition(".so")[0].startswith(lib_name), (
+        f"Unexpected filename: {filename} for library {lib_name}"
+    )
+    return path
+
+
+cumem_available = False
+try:
+    from vllm.cumem_allocator import (
+        init_module,
+        python_create_and_map,
+        python_unmap_and_release,
+    )
+    from vllm.distributed.device_communicators.cuda_wrapper import CudaRTLibrary
+
+    lib_name = find_loaded_library("cumem_allocator")
+    libcudart = CudaRTLibrary()
+    cumem_available = True
+except ModuleNotFoundError:
+    # only cuda and rocm platforms support cumem allocator
+    init_module = None
+    python_create_and_map = None
+    python_unmap_and_release = None
+    CudaRTLibrary = None
+    lib_name = None
+    libcudart = None
+
+# py_device, py_alignedSize, py_d_mem, py_p_memHandle
+HandleType = tuple[int, int, int, int]
+
+
+@dataclasses.dataclass
+class AllocationData:
+    handle: HandleType
+    tag: str
+    cpu_backup_tensor: torch.Tensor | None = None
+
+
+def create_and_map(allocation_handle: HandleType) -> None:
+    python_create_and_map(*allocation_handle)
+
+
+def unmap_and_release(allocation_handle: HandleType) -> None:
+    python_unmap_and_release(*allocation_handle)
+
+
+def get_pluggable_allocator(
+    python_malloc_fn: Callable[[int], int], python_free_func: Callable[[int, int], None]
+) -> torch.cuda.memory.CUDAPluggableAllocator:
+    init_module(python_malloc_fn, python_free_func)
+    new_alloc = torch.cuda.memory.CUDAPluggableAllocator(
+        lib_name, "my_malloc", "my_free"
+    )
+    return new_alloc
+
+
+@contextmanager
+def use_memory_pool_with_allocator(
+    python_malloc_fn: Callable[[int], int], python_free_func: Callable[[int, int], None]
+) -> None:
+    new_alloc = get_pluggable_allocator(python_malloc_fn, python_free_func)
+    mem_pool = torch.cuda.memory.MemPool(new_alloc._allocator)
+    with torch.cuda.memory.use_mem_pool(mem_pool):
+        yield mem_pool, new_alloc
+
+
+class CuMemAllocator:
+    """
+    A singleton class that manages a memory pool for CUDA tensors.
+    The memory in this pool can be offloaded or discarded when the
+    allocator sleeps.
+
+    Inside the `use_memory_pool(tag)` context, all tensors created will
+    be allocated in the memory pool, and has the same tag as the
+    tag passed to the context.
+
+    When we call `sleep`, all tensors with the specified tag will be
+    offloaded to CPU memory, and the rest of the tensors will be discarded.
+    When we call `wake_up`, all tensors that are previously offloaded
+    will be loaded back to GPU memory, and the rest of the tensors will
+    have empty memory.
+
+    Why it needs to be a singleton?
+    When allocated tensors are garbage collected, PyTorch will call
+    the free callback, which will call the `python_free_callback` method.
+    The C-extension uses a global variable to store the function of an
+    instance of this class. If we create multiple instances of this class,
+    the global variable will be overwritten and the free callback will
+    not work as expected.
+    """
+
+    instance: "CuMemAllocator" = None
+    default_tag: str = "default"
+
+    @staticmethod
+    def get_instance() -> "CuMemAllocator":
+        """
+        CuMemAllocator is a singleton class.
+        We cannot call the constructor directly.
+        Call this method to get the instance.
+        """
+        assert cumem_available, "cumem allocator is not available"
+        if CuMemAllocator.instance is None:
+            CuMemAllocator.instance = CuMemAllocator()
+        return CuMemAllocator.instance
+
+    def __init__(self):
+        conf = os.environ.get("PYTORCH_CUDA_ALLOC_CONF", "")
+        assert "expandable_segments:True" not in conf, (
+            "Expandable segments are not compatible with memory pool. "
+            "Please track https://github.com/pytorch/pytorch/issues/147851 "
+            "for the latest updates."
+        )
+
+        self.pointer_to_data: dict[int, AllocationData] = {}
+        self.current_tag: str = CuMemAllocator.default_tag
+        self.allocator_and_pools: dict[str, Any] = {}
+        # Creating strong references to the two callbacks here to prevent
+        # these ephemeral bound-method objects being garbage collected.
+        # See discussions in https://github.com/vllm-project/vllm/pull/22724
+        self.python_malloc_callback = self._python_malloc_callback
+        self.python_free_callback = self._python_free_callback
+
+    def _python_malloc_callback(self, allocation_handle: HandleType) -> None:
+        """
+        Internal method to store the allocation data
+        when memory is allocated in the memory pool."""
+        py_d_mem = allocation_handle[2]
+        self.pointer_to_data[py_d_mem] = AllocationData(
+            allocation_handle, self.current_tag
+        )
+        logger.debug(
+            "Allocated %s bytes for %s with address %s from cumem allocator",
+            allocation_handle[1],
+            self.current_tag,
+            py_d_mem,
+        )
+        return
+
+    def _python_free_callback(self, ptr: int) -> HandleType:
+        """
+        Internal method to look up the allocation data
+        when memory is freed in the memory pool."""
+        data = self.pointer_to_data.pop(ptr)
+        if data.cpu_backup_tensor is not None:
+            data.cpu_backup_tensor = None
+        logger.debug(
+            "Freed %s bytes for %s with address %s from cumem allocator",
+            data.handle[1],
+            data.tag,
+            ptr,
+        )
+        return data.handle
+
+    def sleep(self, offload_tags: tuple[str, ...] | str | None = None) -> None:
+        """
+        Put the allocator in sleep mode.
+        All data in the memory allocation with the specified tag will be
+        offloaded to CPU memory, and others will be discarded.
+
+        :param offload_tags: The tags of the memory allocation that will be
+            offloaded. The rest of the memory allocation will be discarded.
+        """
+        if offload_tags is None:
+            # by default, allocated tensors are offloaded
+            # when the allocator sleeps
+            offload_tags = (CuMemAllocator.default_tag,)
+        elif isinstance(offload_tags, str):
+            offload_tags = (offload_tags,)
+
+        assert isinstance(offload_tags, tuple)
+
+        total_bytes = 0
+        backup_bytes = 0
+
+        for ptr, data in self.pointer_to_data.items():
+            handle = data.handle
+            total_bytes += handle[1]
+            if data.tag in offload_tags:
+                backup_bytes += handle[1]
+                size_in_bytes = handle[1]
+                cpu_backup_tensor = torch.empty(
+                    size_in_bytes,
+                    dtype=torch.uint8,
+                    device="cpu",
+                    pin_memory=is_pin_memory_available(),
+                )
+                cpu_ptr = cpu_backup_tensor.data_ptr()
+                libcudart.cudaMemcpy(cpu_ptr, ptr, size_in_bytes)
+                data.cpu_backup_tensor = cpu_backup_tensor
+            unmap_and_release(handle)
+
+        logger.info(
+            "CuMemAllocator: sleep freed %.2f GiB memory in total, of which "
+            "%.2f GiB is backed up in CPU and the rest %.2f GiB is discarded "
+            "directly.",
+            total_bytes / 1024**3,
+            backup_bytes / 1024**3,
+            (total_bytes - backup_bytes) / 1024**3,
+        )
+
+        gc.collect()
+        torch.cuda.empty_cache()
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        """
+        Wake up the allocator from sleep mode.
+        All data that is previously offloaded will be loaded back to GPU
+        memory, and the rest of the data will have empty memory.
+
+        :param tags: The tags of the memory allocation that will be loaded
+            back to GPU memory. If None, all memory allocation will be loaded
+            back to GPU memory.
+        """
+        for ptr, data in self.pointer_to_data.items():
+            if tags is None or data.tag in tags:
+                handle = data.handle
+                create_and_map(handle)
+                if data.cpu_backup_tensor is not None:
+                    cpu_backup_tensor = data.cpu_backup_tensor
+                    if cpu_backup_tensor is not None:
+                        size_in_bytes = (
+                            cpu_backup_tensor.numel() * cpu_backup_tensor.element_size()
+                        )
+                        cpu_ptr = cpu_backup_tensor.data_ptr()
+                        libcudart.cudaMemcpy(ptr, cpu_ptr, size_in_bytes)
+                        data.cpu_backup_tensor = None
+
+    @contextmanager
+    def use_memory_pool(self, tag: str | None = None):
+        """
+        A context manager to use the memory pool.
+        All memory allocation created inside the context will be allocated
+        in the memory pool, and has the specified tag.
+
+        :param tag: The tag of the memory allocation. If None, the default tag
+            will be used.
+        """
+        if tag is None:
+            tag = CuMemAllocator.default_tag
+
+        assert isinstance(tag, str)
+
+        old_tag = self.current_tag
+        self.current_tag = tag
+        with use_memory_pool_with_allocator(
+            self.python_malloc_callback, self.python_free_callback
+        ) as data:
+            # start to hit another PyTorch bug in PyTorch 2.6,
+            # possibly because of gc-related issue w.r.t. the allocator and
+            # the memory pool.
+            # to avoid the issue, we keep a reference of the data.
+            # see https://github.com/pytorch/pytorch/issues/146431 .
+            self.allocator_and_pools[tag] = data
+            yield
+            # PyTorch's bug, calling torch.cuda.empty_cache() will error
+            # when using pluggable allocator, see
+            # https://github.com/pytorch/pytorch/issues/145168 .
+            # if we have some memory allocated and then freed,
+            # the memory will not be released, e.g. in online quantization,
+            # where the model is created in higher precision, and then
+            # quantized in lower precision.
+            # Find all unused allocations and manually release them.
+            # TODO: we should expose `empty_cache` method in the memory pool.
+            # TODO: ask for help from PyTorch team to expose this method.
+            allocations = data[0].snapshot()
+            for allocation in allocations:
+                if allocation["allocated_size"] == 0:
+                    handle = self._python_free_callback(allocation["address"])
+                    unmap_and_release(handle)
+            self.current_tag = old_tag
+
+    def get_current_usage(self) -> int:
+        """
+        Get the total number of bytes allocated in the memory pool.
+        """
+        sum_bytes: int = 0
+        for ptr, data in self.pointer_to_data.items():
+            handle = data.handle
+            sum_bytes += handle[1]
+        return sum_bytes
diff --git a/distributed/__init__.py b/distributed/__init__.py
new file mode 100644
index 0000000..e911b2a
--- /dev/null
+++ b/distributed/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .communication_op import *
+from .parallel_state import *
+from .utils import *
diff --git a/distributed/__pycache__/__init__.cpython-312.pyc b/distributed/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..be1943ae0d5de23cb904aeef8d2a68e56bafe347
GIT binary patch
literal 250
zcmX@j%ge<81UW3-nfrnCV-N=hn4pZ$N<hYRh7^Vr#vF#VOpFi~Bb>zqVpTF}GQVU5
zD%51W#i-?{$$U#7IX^eIG%qtbu_QA;FFwEE7GFVPQDRO`YEFD{Nn%OrE!NVK%$(wt
z44*+3{c_MR$t}<?$Slw;Ni0fFEzzwgHMg|LHc!>h$xPBOs4U6I&(kl<$;s7E$t*4@
z%1kOPNlnp@kI&4@EQycTE2zB1VUwGmQks)$R|N7D$T7tNK;i>4BO~J%4hBYrI}EaS
K8AOUWfPw&9kwgFh

literal 0
HcmV?d00001

diff --git a/distributed/__pycache__/communication_op.cpython-312.pyc b/distributed/__pycache__/communication_op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1c8ec37d0989125c1a44f635750a51854dfcf498
GIT binary patch
literal 2312
zcmcIk&2Jk;6rb4-$MM){Oqw*Lk-CDYvXwd}apDFksuVzgpvr*&2P@Lb+1(}^*7j<4
zT;a%vB2_}D2YM@<=+RLQ<XBGp0bFbaDb|()QsI!BtCR~Dcr&}MT`Q@8h$rovw=?f!
z<~P52KP3_|1mY<7>{%6|C;X=?Vg-Iq9E{KdWFiwgsDuj`b6awxf+R*6M%h#xrKA>A
zSW_)&C*Doc8_me+^S2ap=&n*28b;>mnXyqTdS-mY9KNd-hR+cngZLQ4C(o=;p#Dqt
zU`o3~2;GXBamYj<(<^4eid*>f6I)n#ORoYrL8LiiMFEEk5S^$=>9J!DTN?ZFYPq&{
z4Dj=x_?E?V=IUFtQg!`^U3RNX_aoF|Ra!Q<Q&(g#_;<1h>H%WU*Y-n?9lkmsb+jM)
ztwXil<yFVYP|K_umd3U%O_bA^RrV@WD;l)od0MGrT8`!xY0+`O5F49IOB9%d{1{B?
zL4q`<5t#CLe(lfqv#jK1UE9sDB84+$KCfPXbNRFDR@SjMvu=%TSIXJjj#J8-w#TTw
zS!I@)H7cc2wQL(jW>?C3#hr6&ez+Z7>_hMFL+=%)1S)badgGw(px?-)dpC~AOpDAs
z{Pd7qYbw`HU;+8EX_pL%o1rK$3JCLH{BsEFct6b2197Ve_|bEK7$n$}1c)>N8}fJ&
zO{4sYz6^yRk|x28e;#Mt9rP@U;*&ib8taE-zNySp4%Ghu!pcX2MVWQDJN93J7zvo9
zdqEO9%8%2J!c0KTK`so0U4*bn9y)+Tszp+biG#62veZ<T1QNgrj~V?Bh0|JaVi}Bo
z!-=}IALbFPSbXmsjEDqxnwA4La9#(L;1#qkC#FwFBjf`|;0k=+Wl(*5&{{-$IMEnu
z7>8t`sVoFIkT92N8_btIYMjoI+mH)D0UgLr|8wfjaR>*b+mk%0j@A)_J{m}OerLEl
z(;MsP#fP?*R(+LKsIl#nzNX=i*q&~eZDto8d)G39#x%Z3D@D^NdeBWpJJb2eplxwZ
z&?!*;#G)K1p|0|kc~F2@1jUm_WV%JBkH~C`%>GO=?F&=Q=+rMkhsm}`_JBNsm$lkd
zRt1h}eEb&()ZxHT4OCiM6F=z@Kf-FRUEZSn7U?u7KPk>L_rh_Ww>Xa#;VFqe8~Ioq
zLbN(xw#!UBcgmSg`9=E*Kb|<j9uhkV+D3E*+Gf?UZqO8X@z(5hKy_q{@gGryFFir=
z$7u3*l<GtzoN0XW{l?x#2Z8y>`qBBpIpJm}j;^Mj$_id+$CF>*{OV>$*jHW?<F9J$
z%Z)EKPE=U$jE0{1KF@qR@XYsl=D~9@&vWMbJaeIEuAO;<=gx%@_upx$le|C<!al$s
v;-|8T-@@(W_<iG>rSDe0U1_}Dx}0fFWLn9&gNv=?QYUbD``u^45QzK@##IA>

literal 0
HcmV?d00001

diff --git a/distributed/__pycache__/kv_events.cpython-312.pyc b/distributed/__pycache__/kv_events.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..501066e206b0caa3ed37c152b163617b04e4ad49
GIT binary patch
literal 16650
zcmb7rdvF}bncvL57rWS9U>EP#;6Z{*5+EtQL{Q?JlqgaVC4%w^C*69vGXNIcmu3be
zfh=jtrp|!PgkUZgg0U}z&#p36VwIVyRE3vRCAO3DId_$0SAY)dF;!v8N+rr4DNumw
zRQ4a2-`BG<y8xG#(_7oq^L6*vudlyX_xx>jbrpw@uzffF=i52%H}qlzcQLV&<2mj&
zCvqa6;D+@lKg_dt%diDcOTwD84cn6TVLMOx)`TPJ9Cos_E#XSKhuth~PgEs6!ycA)
zB)rM$;cAw4Cb*<;*vHbYgg+S=4zM(zs2Q$d?bHs};^|HVlcC`d%d1M%CF_UlS=y6m
zNHz{P@|=Z}>ZPU+(O(L~%@*z@PV`>q#A>N#e2)$-k3}DT{`-Ls9XfQlmDQ+0joRN=
zL-gGbe&{ULX%j=k?W|rM>eWkaA6kn!9Sqt4Xk!^vV9+K&o6De`4B7%{tJG>@=wi?|
zK-(po3GHUk4nPH|+l2NoXeXduWzY=_+6`#Whn8Z$Hcs;44WH4=VA!Hr4<9+I`J(3)
zRgT8gq@<3e#W1hgMd{rM2?^KHXd)3kpP;lOs)+HJO4+gWM2aO|pO9EN>*3TSGJL1r
zJbqD1smjrGY9u}ih$o(ktC2){bX1b@T66reD#@v6;z%MLyYO;U8H?%t(&OUfaVsz2
z{Wd3YL~6s9bDU(AY$8uk$u2pX=xGxz^e$S5osvtmPGLy^vk`348n$aytS3jJYHUoi
zsEX#0SkDHvS~03dBblg-p-G8|98FyayERuNl8Pp!NJOiOM3QN7B0*_yB=YV=G*Qg4
zk0jDjRr5z8(Nrp}M%8#arJ$585yu45Zjx&eY1Vj3{eW9RlKbu9ZE7;JEfdf5sZn`U
zQu{7X?A`bLg}u_YMEv}=%p_(!we4aek=!N{lKA-vRT8&dxERs9+n<?~{e+kz8n@Dg
z=zVV4%ej5uI$7`rW`i>)7i@Kf4dI-ve$F~4-l<x&h2<8b($I;pRjZ21a&$71h+mMj
z>U0uIB1$9Ci3H}wG8$X62E`4;tptFfv<4zSY@M_KmG{(}N29SZiB0d+<|9!>5@Ly{
zq6i~tS-_kMr`{A|RH9Fo5>bpsD9(J?CI_ikA&Tk{Y0gMQOvfS-xtTz$%dM2^G@>3P
z6xwXpxzBx^eYakQvVp9PO0`qefk?Be(NWF%(wTE>hGUY{7|N7}qmvXPBzuvtKv0Z`
z?4p$snzcx1cAcmshh!J+EXQG%bg*})`R=55Op{CVFbY4bre#UgyyuDBBV(X<Ng32?
zKz!IGkrGsMtLY0;DiRkJtx5+g@hM4jCem^gP|cB)#P~!q>{>U4awCnunxY1ZXhfP7
zgtUH2H&QM|JMdSio9}al+WK6>rhIL9!4@twY`V8A->_}Lwyod~&K{kaT(C730>N*+
zR;Uil?wT21ur(CC{@I?HR~Bvc`Z^H0%9GuXoZmayr72{SjVZHfUN&WKNXhg?NtAnm
zVo=_SIPCn2LHD81`tfcf7)1m4D>O^%#=CATRCLW)%zfZRPH8M)pB61}IH7Ye<!C~}
zT8e{V>-s*fBWap;nWBUED|STJxq{85Pb9(DG;UJuX5^F_*Qr*rGdgup%qZBYQ?Ri;
z+0JB)Pp(1r!DkQ+qX;%ltZ$5b)^&O(s>>7|#ow4ju$-2;Y`$houKz&3=0M(iaM5;9
z9|sj(GY%Rjg_S`>rEw555#6E%4BIN&Mr@+}I`jw0Avz>y5#qdV`;b+IEO#NNN_3S$
z+>^GjNAt0fo|!lg{yQeg(U&0PPRB>b)Jqb@LdM8ptf@3D!g-Pkk|JD+t78I*1Hljn
zaV1$LASe@=Oj=g^tJvGg)Y?*lBB>J@Wvd{8&k4uQ2qZ)Vc_O6<aa9r0mr}yot_ks!
zqDE6OiJ?=|LiA!fE(+pACJ~Q;M;2M65KVzwrj!X;5;Af+BguM(5LI>20D&{0cd1V}
zUfy<0mVibPqUaip1t`tYvo`w#bDmIYLQN+jzG7h4lW3F)GqV$HR@5;mF0)au6_rI~
zLt}BENhH#j6d?vFIFXcOMZmyFip5i-6Ic;rP$P0W3HZo}L|o69E=3>5&{$bd1t66r
zB?E+UC>^>)5k=smT2N1-Y_XI$W>P>81qI7UqFQF%q6uTO5KoCxMnaTQF~0N&)mGD)
zH1rS}t|%yD>4}7x>Q#l51ObKY=q2LGlA`o8RJtH{$XI7NH5e;uPmCZbP5X0&Wc_U}
z%V)U=%b;kI`+y&Wq7#f%&@wEVO_35K47WmP1VL`agOm@ZCq<?j*3wPCk?|&qDWqXs
z;|kror)?j*1bxfV4qwwfyzAYwA#s}{el_*|;}H4Aa>P?YS{5a_NZUm1CzF|kl*DZ5
zDot^EgwY95Qc9I1&|e=Iouc-oY34;K5x*$OY%1Ao5sqXURFqD|V>)(PvrSU}X#ZB>
zVw|WF3MJJ|O(f5QRKof+Q^i5Xx<9bU#Hks_S~EA!A{|fFubY}8{4La4p~-wt*C1jB
z;|7QYwpL}6(QtNbLKSI`5(SyNq`%k?p7lc^EXL|6#R^ZYj*$^XVVM{^TayoXnfikf
zk=ZdAu39e|x~L>^Zh1dN)HhwpJ3y%;6s=>#y9q|oOZY2i5MAe<SiE-ElUClo=ibg`
z4vz=w3O$w`oFlYsvD>|K<I5Z#_l7>F$BNZ}FZ+=C+``*8GT0MJ>C{9`tYP3Z5DF^-
zqIC=$iqdtMej*ekJnaxa4y|@@B9U0TP*Z(_>ArMEh_4|sVN+296)ufQV6Sn7%nUKy
zzjm`x+vN+$$<G6#PtS`;m6M80(>K-pbPxKAiyTM(3W+3aBA1Vi`1evvd1HsEu@X_R
zRhnw4(3U|H2~?0@rikga$B+s;DpJBTSN#Olrf39z#gFJZ_bc1p6&r8&uR0LvsHw!7
zMI)X-VdeiI`gYl}or4_@$!i(5kr}1yxuR{HFs}<(REOxi?=me+mzyj7#AdNda*H0R
zO7!CICQSr(wp;Y!@5es?XpQI|2~2Y%yjXj^de|cdB`<^7#1P1(T5J*P@buwXkEb8c
z20R0JHsV<$)iV4#ZfdQ@XlcYDHkIiD!D;R?KO8#Cg<G|n;pDq(sW19>AmKN_u!y{b
zGv|(Md*iipL&x7JZG2q|h^8Q;`;t&T!PjIdlZZ|V=O;*J75U`ZO!N}ud$c5A)iDTN
zk%ZnDWD2kwWCqs9WL{JN)0>cr2+n|+LWF_&=`ys>2<#QoDwBrYIAAhV^i_z8BIKdc
zFPwvw^>sCt8Q8XM^T6)iyZ3&b+C2|J2X<@ZjHMOT%rx;pJg1}>R2gEn`p6<rxAt0w
ztl4NnC{9nYWhR1)(;*WNS5)-oYqVuYAp=rdp(&kLVz66D{>P#zv)N*4AsJT`h*(4A
zIzNdCOfiwp1URf>(iheX2qB88E+Koq@BAcGn)C6|KB~+XOO@bL&_|^&R76pwj8dAw
zK_+TQ{AVD#%pPFgE=W?QY-Bo;u}jHP-C;>izxui`20gOx5_Af=FBz3DusXCZ3d}jF
zIHk$xWjG12&Ji-%N+@29UXCXxl0}I}-H@0Ef-M}QEKnSj8lpJ82T)Psu@ZtIdZp4u
zx+>Mzi;wDicKM(dIQ#Osp<}OoZ7?!)^3~&@@6Y}L;WHNsXjV+x5Hu2p5+6;$QqeUV
zmq7uVe;rA{SY@5lXH&CcS~TC<F=}?!QzqVG)QAy?w=!=1H`sK4&fn%#BZr%DWx0Qh
z{4D<=aZv=GQw{TgQyn@CY=kq+nyll#Sr#f5Nl6w|kC`IVj0M$arpRr<!ia@LEd8^#
z`xc{BU^1MWoJyVu7RKw1ROvZRRo4Z>Bmow(xmgf7yqWE@H<O_<<<RU=mK*OjYL%W@
z3*bWO-AEZOJ76bGlZ9tsuzn>5a=hpm?7(M^8}+srIi;sDN~{o>)+`t>)Fw-jg{*U&
zOviOWw3f}aIftSRHA$;sK{Xw+<NFL)=_%R`4Cn!=NGyz#(_&pf|4DkT3!+VQ+;<wH
z3+)O<0hB*vq)X57qouTwGRDh8r4PGErFUWz&<>})gk(ZWP1z^Zk-q1LrrORLY-|`z
z!&E7uV3LHGs-8-|+h;=ILv!f9K+PdWvHeq;jU0^OF3k?JQ<8P9kf@Ytg>XVL#-TGA
znf44eAS_2o_x9L{H7f9>>HAi*qBYG453DL(RyCJld1|&uOudX49YJAz*TeD<Gt335
zh0-G<Fl$ZG5Fz_lbDQs4pjf8_u|<eER7Z4f7-2@S%$SY~FYiW1r4-z*saRT+FbKvo
zB6??C5g5xU@O{mp`-U}JJT;Pr8;s2u%NSxwt%f?R8~71D7rieg>@ccjHSE?+2ihg_
z>lD2~(OHUyC^|<GSx^{Gg!w8X5ryWLBqD`t%nW1mKGpn`3Sk;y-$fOr1?=m~Yusu*
z9I!LaysI(Sv}Mt?^-*i*k2c>^^Ibdht-Bun$ztp2Y1^W!=}|-L_s{)k=Y9M9K)$UX
z{<R0$#fD?kwj1762Upj4`_!#dOQB8q(58jZW<cGA-Yx90xu41u8VOkaxT$Ta>A8H<
za}S<>IP@Rh`Kxypnoa@kD+oPH!oIw)ui$N&8@l_>op)BOmd+|_xD8f7T_Z!~@-DfW
z^RDJaS1a0VYX6>-a28rS@1DMM`d-6A>kigaRA_3WoJTI-P0x%c7uvb#+VyFJu+-3-
zZ|E%q8<v9Md@%f==V4^kYH36>H@v9iuD<D=DK_!3t5sJ?pR!6xDlp0Lmq@^9=Em_{
z9~6&DWmphR-v3QL%a5Df-^hm&Ujr<r+$h1be8jL?sGV~8R4g>^DU~)-<#Gu--ZD59
zJY&!uxg}zWG}IVq@b99A=6wSPAn~MhT$a-^lc+NBG5Jp@)0&x3<;uoM)6>LNr0#!>
znhNnD*e3qq%`4xz@~E~w*RgA%c6ZLZyWpu=^7Q0AJvq<T!ltcDn-1kS9hyF|=-p7D
z<!#ElnwDH`c~{%q$j7b?Pg^#oU=Cq|ah|uvXMssFCk!1ZhH+Ck8xRO*Q;dQ!L+95+
zrA08<=M`SGUa@2?@|8cVe3qYrm!tBsT|h78x1Q143QKDA!OO88)RpzXR2+;kU~IOM
z&_RDUl$EYPWCrf9>@R=gEnwSMQc%WeZ>$R<gmT3-FvWJMg4uFK(l&%1PjhIB`BLq1
zQ+StP21a?~GwPT^yi^AzD{QR$j?x^usRyROFV%dnwK9C1j&s%pW`UaOBI>oTD}Yyq
zuLAt5@l9H~xl7z->s#C<KJ1>_fy0{2TAxr+fHRk23=XiAFp(h#WqLx6NlO2T!J+^4
zFYZwItAkSmUyI5l(FTOq$rupe2E|zzj(mg-<Q0~ZFla_#NYJYy!6*~qF9i!pPpBV2
zxhN)?=ZG|n1W@6~G{E?c&R43yS0btOrD$B$Y*b!8jqz)CDVb3xp*tjC)yOh|oN#6`
z>1uzMG#2?10bOw=5+%o-W*dj4DUYzqjIYULO5g~CdEhP+yqesn=t6|`Tp_j$IjM`u
zBY3GKCJoQWzeB##hh@9QJ#J(orHo1S<Xt`ULyNA>p9Vs=-M8F-=9#t^8e6BUf8}fW
zQRv4_KWO@4%e{$w=dK6p(%#egy{A9wJk8|Xj=ZpAN!Xhg_AUtfa;^KOU;UN8^%0O%
z-Kv_~`Oo}MoSeV4B8G*|(@&~6Z_^`h?ajfN!9w74ArM*$bmjw{OM%{epm!k<W{?f}
zz=l<)t=fmvRd3+t3o|b)d4#-2SoCz^p!MeInbS+&w!F7(UR>I^KfiH*&fB)=ePP+*
zaMuveo}8J?`Fntg#&z3&%Rm3_tbY->k(Zsx=KQ^s=e^}!3UuWIUH3Y3fv&~C*2mt!
zm($07tB^tQpLQJ%oUn7huv<<zt!sQ!v;y>B`M=<T&k~@s{56<a6*)--ZeB9FD(z)s
zCqsQkvw8q-BU$#WC{DTY3Ov@p$+(kgGL=xhcUdH3s6x&~PB|u$nNvA$PvxA7yw>FN
zO3VL8Ez=}nT(Z<<Gc{g;S69YgnuXMk$|c_00Jw>{lo+oorHxc&45c=ZU%|M2ZwT-|
zQ0kY_37w;^3r0(z6VoIH?h2g$88cL&cLq)vUpx*l98>9&xJD8O_nHD@Wxf~PiAKu%
zn5x3-vkiACVEFWt!3D<>t`#W#@$@zcmn(Mc>)+nLeH;8NxZe^@k<$#EP3a#~lZkHK
zlIT;SBa%8<MffNTYW(IY%fP^tBc6!?_mn%H!hswm!#>72WeM{DrwZ$ge4bvc@C<2A
zvY}uW$q9gDT12giSt$w~t7$fBU2_(Fa`FX+M0dF{CM+KYq}<P(#QRjo(`w@yqf4Vo
z|A6Qkx9lR;wQpu$-qQ-cde?o&z0|lV-?-_1@Fxu)G%Pgkm_Bxc?v30$Idf8HXLI7+
z_?`HocN4VvK<MVxnX5TJ7-Dc%y?yo8Rq#aU{&TzT9=LM=>Oa!A58OJi6x^B*ZoT(M
zi@`l>A%DCW-1oT10)4l9bL!ozcdmXM=r7dN-EP0to~zkXWRN-op6~f_{}1{X13MVY
z)!8lSxGf!b_ubjI)UqYtvgQ8KpS<$HD+?`q(eu-581bCA)V?#{zVl=6u4Oyt?fX57
zZ!0W_a(~nxO8ka$1o9^K%L2%|g7S0C@(KrAg&T(gyFMuGfLCCMm0a&ei=ySiF^-$%
z<uK}+KBN-n_qJAsSK4MJ#a*spidh9lVzkS{(f^FzR#MSy_f6JFYW6j3SUM<ByN#X#
zSC5e{J&i4Xg_wE;1$(@=RMtpkP4nZ5Eo&VQ8}QPT4lNA7*%eZ%E38u`j~7aAEnzWI
zS$oztVtTWf(CRnxO3z9@u&fm|&EB$_l~#Xe35$^`tpfT~fs$m)EPum|yh`{?zoUVT
z;|zQ{HL=>8h^cmSs>yhJIJxr*ubRw#oKCFP1qff>m|32C3nt_h{wj~YH0Y^IyrD`1
zv#E}c3+vF}6|LC_1M1!`t5e>a-Cx-oS9xz#I<{n?;zdtW;FtP+<0tETO$NY`XzaqM
zjJu6E)G40rj74#c1dJbtFt}YoCl<^XS3KAmWa|1<khuZKo3DG-2B721SJ5H)8x##v
z^cte6HnX7V(<-(^Rd9agOe&*FMvAdS2Hnw|$C>|3*6g^45xbzv9`Zpjn?U|HrAT|%
zY`ET#z}-Yek}t+%lHuTUAHN)v*x8P58n`9nU9;jkqGo4D7n=PzGa_s$_zdL~Ax#rf
zmzpkm?0j@;6G`IAU>x^LR5?RsqEyBa&5*GG-(6I>fctzYN&XgPzK;n060#{YUV@oI
zrysbRCc!(IiB94wCF+oykhugE;sH$d7Ojknc%SO7Ao$FwD|!LHKtbh)%-s02uJv~0
zR%EGeYrbylLLK?gsvet~dCt`X{rs`7_Ga=s$vJhYV|%`1`%=fAe8--Jj^`ilSm=0x
z3hS!+y<<N){lV#_tuN-czW6Y@xb@Jo#aeT)5Ng!jb&H|R%T@O3CWzRj#&Etdywup2
zZ|r*z%Qf~bG!D$#3&F<O7Ym`LWh)ozT&}9F79Q0%LyEq5=f#Ek@T~Q5bNk)RcQ!9I
zZ^<`rxp#b_`MFtVp|ykg<ZAHV`rNGBl$4wDflc>%mNxItZ{Gj#tzSBG;WLYY*GbGW
zYoa?J=$=1&uXlcMF|ZSr4BKW)KCopm(6_vU!?2P!DvkN?I$rp4wTf%({G8)!4n7Js
zFNJ#Yp`P4^frp2eLI*wy9r)d{6*<3K4RE2R+xu_rN5SeQEzk&Xb<^)wo4HWi=bW`#
z_%u+z6cF+OA=i26r=5#|W2S9JrqJ(}ohb8L=HdFeEpWoY{k*RI#7^$#dyaIzRL%Xu
z;Xbk5`U`*ki7nP&Y_U^%XYi#e>tDNhimTl(d#rz5zvX3z^_LDi(rZj3^5inp=-+|}
zo@E-D(iw%<hjCM~mvRig2~K31P9+~9xanSycte?LOubka*7D3r_%Yu`OIIvctXFKR
z$=k<GwYgM1i<`^_w`Fpyg4uJ7dk1^#Z7A_q99NuKN7jDfZPFcYcp)81sLWI)V<>BZ
z>&a13V{nvukadof@z5JD*hoJx@s<+LY@wnnO0<__g_`f2+H-P5h#IHw#sM;%ujKN8
z%8tWkFq-1AeCbTNfABL}z^Uewsf#cX#B~T5HzxM0yQYa7hdnya^vP1}Vu`6~RvhXu
zHYxupl_$TKRz*koI*(%fPW~Zf{Uv2Nj}IP;oIU<JE?6=yXCI*xe$5?A#KG$5+Abf_
z{7n02=OOyphuZ|m_Xvv>=QaxIDLVHvye!`XWU8|Q|69x8n?du+e?(b0TTJGabM?a8
zVDbmz0}Fw^Y5OCOZ+hap19LUsIaqXt<XZMVtXuRREO=`RoBHyu4b$$~9kc02p@!Ro
zw+81AJ~+M*8klxJh9%+szIW#3>7%p3g1>e)zToeGsR5;)aUg1;P}e?hoj?2Iw}0^V
zgU$!%7B=jEcs3V0{Dsw0Q@iZpnl>zl%)^52ysLZutq0ZzL;vROfA#iHcjkIt`q=fd
zuD+LBrL^^EZCCz1BHG%rJ<E&yg-uujcnZ$KBc0_ga<VhaeGi`kWclxLe_;g_hmC;l
zNBO<vTSa;&NETDIK9r6cp}caUBWr2qu2@UQ5Lpge#5sj(qNABJl~!BU2G1{`*qm0h
zY|q;DmZ?uAh9SC)8sCJ6G5Sx@ftRHOUF#f~NX6*F1s(6}2X9QdpffkpBj9NSrLzkm
z!ugU}N)$pm$eJsw?DA>ZWxm7mXxSwQs$!rT5Qa#BF%Z+|2B}fg=B1JpinsQ<%5R%=
z(JhlM(*|bO`@6zxsy=<+QE%?)zLt#{V>6Mw!R}hF>-w4w8y8arHciE8!-bNkn>LZ^
zLlUU_3a&N8FAKW1B8g@Zro(9teQ=r;2cr0tAePbifx*v+Vy3nme8rf#0U<eo3neh(
z)hHILSFhSjjr5{sFHU&v@(2w5A_sXhnwZd!il7g@4wU*G3?IIlP$MziN~Mecmo@i!
zd`l6bi#Nq2JArkjq)Y59_9+c1PMzEMG>52kkh_D}#J@y^YuuAAF3^~3>3dM~QOk3M
zV9WGtk3GTJ%Xv>np}u`~cuvW6@6L7Y$p!c3yn73t!0gL#CH%_YFn4tR`8%&Y?hOC9
z{Riz2tP7pHW_^X$p83dpD%ZMu*8QlpW8QVI{b6T5ygwIyF(({YXgvrerllv>yD#6e
zZ`M_4?w)IzKRiD+Kb&jWo(pVetv~YN2=&y0?{v;}nsEU5d%WeuHy97V82oJhPkBxz
zPN#7)3}Y@_SMfI8X=KS{Oz0m(5TlkKP(<8Z?xTpV6s*5+Nq!cYbWWKVujU1l#{Fph
zizu098t2^l*>OxtBqEV8FHZu>Ts4PuzxXMtO%dtF%HJdU@_pRWth2k8`?-#;oGmmf
zE!a8>{+gS~ndIEzxruv2)5!(jbJt#4uHu?{3mZ2VTDuCt=0f|1LS4g?nqGU`<JOL4
zJDzaO1nZZblyY&+ZFB0K=4Cg%RdEf?%N|O3IbY3kHKlx9Q|q#yQUNXyTqZorwOp0&
ziy)=m;O+K}`qj{l_l8z*HFV>OugzYwa-hk+du30zU08XAud|=z(Q8NTvZdYrDqpCr
zo3q{8yliDJ&+XO|kKNvBb*A}qJ3;9xY3(X2tqWS3i5UK7Fl_M^60W7Yq{i1>-?z{w
z01|!8Ws%(a?HxVF#Xt6yh~yD%_&~s3UV<!sTnH@xIKV4;-1ziQbW7D>-A=IXD#?dW
z3*0E@xo$T!yJ7#NGhD6J9VffQJnKDy@8EDD3m<vdQn<>>JbV4PHy}%+^nKQ(3>^!`
z78TO3_r^#*8NrlSR0{Hn+(AZO*%R`}Uy?C6jfLD2Eq`IU8sJ7EKX_RUBbj9%!Qp_~
zIymJqEg_+ID%6YX_~iVg+l$myT(%d(7Wr>bQ*)h?CYk98&SZ@x6gCL?Z;`d;WJjwt
zs+R6tOl_(-Kk&2ajg(5hMJ#3qa6%LD_-A+Ce(~0eI6Qe&+dTKj_d@p^x&9-$mZJ-`
z$8z3dh4!v#>&@z!>RIt4R|}&T%>jOjj|LfUTr;U;88Rh6Knpaf@3r7Y0D$X*><7GD
zeJB=ywoVE|RY@=#Gyq`@`p`p3yN6H8I$lwq|BwU%0`osrDp95<GcQ_|UcNle+K3Zf
zv0J#TU37`gtR>E8tv}-b34fM@@5J=$z)w<l#i5!$9Vi(#kcp#2CRxWfE%0MFt~yHI
z7x*!HkAe=$KL9aqqv{hZBq0JJ_;KO=Kcgd>+ax2cUP{q5*$6&AWFo%!5#m(Sxzq(5
zJVGg<y;63;saNBB_3IDKKm|Q`0T1~jicU~OlZ*Qh=?tSo`M(g1R5^Uo^<OESqloV9
zXdb<D5&Fbbvt1xBIf1a{CTOo|R`@O0mw-iy&R8yJh7EP9wK9?Fxe+2vk^}ILd%5c1
z^k5;_v=rR_QE+>~U$^A%$oo6y_k83Je;VAd5bVu)dq1sjoqO}oQq!Kt{^pzCnEA%s
zKU(nPUQWRkyy>6u=Nh*!x^}=H;6B9{n%nO7-RZk$%QyE;pLzlZdQ0AaCf9!`=Rfn)
zQ<QX_`Eu0`i3__K<sa3y=HP1xJ#;*b=GqP|)E@q+lJmYoMmBPP%f7MtS-t=8HtuKJ
z+()XdKYKoK#AW@t%Z{{s6l1`NFda0NKBCkonwYJ=*KIU|x}2kp!@e3|q7d^*pJ^6F
z+JB=w4@FEaYLuci)OmL+rG9BdXK4a&<L!O!aiFW<7oOOy`yJO#POGy==Njj`=db3v
zcITV+<U)J${=F-l)$V{?a@1go?A`ORWdOP#G(PNpcr`chYJSHc1LV$r4SoZAH^~jX
zB&+lI#7j@CLHp}`p{{#g%-2EYu(v};^~7U$!{>H_uzF7{l+^o7-3|B3cd6GZMc+cC
zS)=D;GI0;~nFY}lzWQaVx1wLA^Or&TsW8o&<{_Pu&6lL;RP4q{xU8nr;GQJNWZM0>
z$Tvw_N&oiupA+~zf$Qjl-hQ2;`^|58*>r0jmZ#r(lWDVSEevvT2P()C71#IP1TGLL
z`lp?2#o5We<1E_{y7tmZwX0q|e(dDAS0niFm3`mIK6+$d8nQ3<^z~<(k<kcS)U^w(
zxn9secs?NiZ(t-Ar~C#HXp-kwT=4h&nhX4z^Za+N`xCD16RzhIuKg3P<rA*q6R!R@
zobT6M)&JzSe?qzY{)am>`$r4z_G^w+hl}4_uz9{c_}(B+!11kV!Rh_N4d80Mli$5Q
z2Ui5X@Bj`Y(HFc{wd!#24YONUIXqTtEl9tx%HgqE#q;jj>?()Hs*C3j@v{T;a)@7b
vwelNh&#rQKtR8Uk{<-#54v*E)*RA}k{G4x<V~M{%;S~7S`Oi6u8Rh&xa%Qp?

literal 0
HcmV?d00001

diff --git a/distributed/__pycache__/parallel_state.cpython-312.pyc b/distributed/__pycache__/parallel_state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bb3721bdc06e3f936ad74fa59f6ecd17c40ae7d1
GIT binary patch
literal 71265
zcmeFa33MFieJ5CrKF}w+ao=F$J_rH?!4td*kQ6Ua;w2f9+-jm4B)|q5s&0@3)UYYr
z8H2WBl8&<k*G>o~&JY}FVrVmOM7>PbbmEMaH<`GLO{LpCoE>JOeQ*3`b`~<_+1M{{
zvcLaVM^`rrAayv;`!+?Q`m3t%{D0T~{{EfIW#@1OO<y1W2ZMq8TY6BgYB})us*U5W
zb0;~T8{l{YpA$3;7}#&lKo0vg4j9?5X~4vO%>!oq8iSV6+<{yJr7;DqqqYGX3!8(6
zQTu>>)G^>-&z7Kb)HUE@;oM-}sC&T8!q%W?G=CtUg>Aut(ZYek(V~GO_G}LpkCqIS
zuy9VWbfA=#TPFXOk5&xk7`V~Ofhrcm5iA?69;hCz8K_~;&fuz1?|@fMT{~JgP{+cq
zVEt&rKm!Zs1sg}32AWvd9c&(L8E9c)Pq1~gZJ>>X^Mk8L+XvcNxFEP@v}2%Sv~!@7
zJ?8}1j#dnG$>DXQ-2>|lT)>sX?dSNyuW)?Pn>iAE-;}{Tupx&F<nqO5IKJff49eGm
zjeKcfQ($wTbVN`(CjA>IoXX|6p`3EO;>!X(fvx!494M6D&|AFGO-bLRSVJbh{41t`
zZNuEac2?33>3v`)U$Kqytqg2N-kTAx3h{O!-fkApc7_WS@zt7~SUr%ghNX-0s}O$=
z@71pXU(52<t=*7?uS442PnfnIY5SH<+Ys2nH{x%l^6h*R^4R++^JqpM`#xnJEy!d4
zr_7@jc|2p|q<{Q0zj~P-X<z33nq}U1Ec3n-J-ZeV?vkOr4x?}f8>8LJq{yLh%&%YZ
z>jr%NCI)2I#Y<^71`cAB>W`)>e$!XX1Bd>94S~&oz+tQ~oyvM6wBxCR-xBBz^u5*d
zrcnZ`fn#sC2KEN_EqS{wus`t3lDFFfhXaQ)-(rp1fi<pLUB!;@IsX0t?$pm%A$GDA
zBFBGJ^KO^??pcf)CEjlKt}Jk5D2LyJQT!bGn8LjXALIMfakUp|_ObQk$dHxakFUq&
z(f$Sg0Ak7GkBvbk?m>(gS_7o<bBK+fBSU%oVL<8x>U&aCw<DT*^dt9EfRdL#`ldmG
z8vpE9I0dc)&m-*%nzYYp(jG(F&jmg=Fn~BOYT_K1+y0W~-3d*)lSub6(tKX?{gmeW
z^Z4$QVe<mQudw=kPOaa7rhfi_oqrKC<%d}l36Fs6OJ6amEg3{EEdgH1Wgx&m;~(N*
z4je?h&!dzx%8a64{)=o?^`R$T0aO(z`vYzX!b48}G$4CcNyA^_2N9RYUjTnnFHj#!
zp)x*a$j%QT#W2hL^{0q^2C+x@vuN92FKydMa_Kv?V;Joi<ww544UF+^{t#euj*YOO
z1`gx=D89eSkKr!xA>70KIPMWZ9J?j|D)N}%1-v=WhjG8ae~FJUC{3V77Xh0u^XCIK
zfhM-fT|jHgFd`4Kozuc!M4U;yA*fCwrztr+h45>dbX1m!e+_S=lR2$l@&9um5a$mc
zKH}wv!x3Tl^h6}Ud&3cbB+y|$5b;L*=K^7G=zKu%M$QJjgQ2mA5DI!jL+nwTCNOq>
zSO|@c2F4=ZAt5yCeRlFhNEkfZVLyR{k;(DlL4VMDAtam|3WhFthr>N~`x-Ca1--8f
zj}1qBn#_Ef%wF+ELSBk6><<o4At&UfiR#rv?a0Vbitif@@qwUk+%KS{K=2iBNbtTA
z7z<AbfviuybRj$yYR@i}<>Xaz@}3bw6XW3yYK4Dn5}@Hxu>dMLcE)>QIC6GLO~a9i
zp`mo6`2YYOn#`&NYp(o><*-bt3h0zvG$2_5J#BWHc$uKH9~kmZh9<nBvEZb4EPzn}
zxKD&v1UPGFXd>cemFyfJ9uJ`T0lNyM;qYiX%XQE{<_(`49@lG<3U_~GI5Y-e@_-{?
zGcicdc8taV!TF~&^ZHv2Df^gzG{8qD#)APoS$om3{?iEOr1EHd1};WM{bT+!0U_lW
zn+OKwcZh1^{Sp6Q&>s%dLu44a1cDJi9$ewGej&j7MgyZEVG=nRcaKe`tVhSG2L2#o
zn8*E*!L#_1yT?CxE-=QYoX-lO!9X~?pT+@V*!jS?5E#VF;qg?`7dSsW80Za+j!ukW
z=tn}r9)FlBTzs5nR}d+)GH|eI5Dc9`)e)~$2!uny^8sJz^oZ~Dr0>-Ue~?;^PnBl^
zne&CE91TRyhImx5oF7I-B0eE-29r7<_y#A!k<h3wG@dF5PmGU;gh)93Zcw|T$s0KL
zco*JY=K>svG;Sd0Bo{D_ShW$Q@CYOPGT#R*yn!|qEHB1X;eNqCezw;?9>Ij`m3k*-
zLFWeiqy4S9DXY&%ZSwh2b|1}zi6DiYKDD)YG6QylXH%xZ3ErQw9A{}$ZlBLTHWmUX
z(L-UM?+*8vs`1NxosrRT8i{KnegR-wb8%wRmd)oj1v-Pnr#r_d0iv<a^TFU~r)DN}
zDwEnLt$gE?LK!k+w;c$C3vl}l?vXS9%E8MA6V7VUS^dCNEz~KIQh6t^ri6qefry_5
z8Cq`P*#JnHd8~bblqrnGE9Ho=Xjtn8BPojz093{X<?SDNaU8*u`rz>kczc~Y!%Z9T
zmlNeiw6Q2AE@g}D<6geXaW7#dpEgdLB1#`}QB%Yu#pJjVixNuzDu|Wv`Kak>dw1F#
zHH^5@c_^W%G2&LkX5{Blp3=W~TbO=QLP{$X<Z&oRK@|*KG)K2AQ#!^QUs$d_QIj^O
zH@<1&qK0VBP|k6#)iCwH9Ul)4V|$~miFFC~6t>*>g-NXYSo$ItLbQxUuupk$b#-`m
zdxMxxwD+}~3rx0q&-;TDfmTEs7Q!7~ET5Dcdx_o6>z6Zb_o5s;3xV;Ve=xwa+$cxy
zX_OQRdogX<nCW0&)@jR;s)n_XqPN;p=HW<SG@P;zhlj^7QpW}Z0`XT;7HRYejr3q*
z<IUn9AIB;sG~kucM7L(#S}j5g#c?Tx`lw0juw)NLG%jUk?O+*(Y2;7^yk4Q65*PTw
z1U#Q+EDP)LVITg&-@)w?x9H*8J1!kbHnm(jlq{)Dlr)Pa&3|3edf7f>oH_Z>QG7M<
zos&0Ty7AHjN86&EE2+Hx(zTZo#Z6*y)6Bl4vpnJSicW7bzvx?IbEoD{e(%LQFWznZ
ze%rfkf7~7~*&p*f^N}&fmA7c&TxAJojp(eIop|5b_((}OS3fr~SM|QLW3ikoZCkA1
zoaM8tV~)m{sgcduRH2XU-qPAL7@EMYA*4*S5@pOrnmueb4k2)zi*gbCO4oUVVB-zx
z=O{;OUX=Sb$LDC@5_<M+?stsS8F4S>T$I=?#wpCDLE~T!OKrf|G)+bK2O=0g*fw6B
z2zaSd-XUNuG`d)=rQxvmqJI=Spfoytv>`|dSeshvBI9+f-ZeYC2=uJ2V*_aANL^AS
z0jmg?GW7hE)|*y?uz`MZgpKqzcPwy$suQL-%4qOpXDe*Q*FpS+`*6cpaB^1XgTf{;
zw<+1s_`q5@+b3FUlljG0Em!>y%2v<!iDg}}(si-C?o0b0no4I)aZ~kNzG$k$Z_-h4
zsbA_d58G&aLm`159;5v<l`HjPIHS*~zgV9=i@<d*qOO}GRO_rO%DpLnPp_0%YiY!1
zU2I3=?il)8O{v@q0slE6FqAUlCTvH{ltTmjJHQrLM};YGdD6JkyD|GF?8Ub*{Z-<2
ziF;Vva=Y?Y<^0KbZTDC9&+L^pnfs<1sqq$RvZd@SG3#T{Rq4x&AZztMLjWUHGuqB`
zVaGwRPooAJo4;dJ*4r-`(y)mdXq+lvu;1ida;NtZIjs?CWoUf~E9nT8nRTV%d7Qgr
z>YuW(KJ!lH(F%y&8UuM^jPH=1WwbQFceENMDB4falDbzA(7DAv;B^2RKQRatXd>cc
z%O_&eG9&D#8;!3pwOU=8?CCVZVSKniF;3!kiAy?)zf&qYyfM?>xqb6J^X&^`vAVr+
z)83fF`_Nf<^`Pin6?fKN+MCREUYdTGS2nwGu5GSr{`0Z&ZSlPAG3)lE!;^3{iH@eZ
z^KnN<%+$fUCZikF!Pky5pMLNi=Y*X|fO*E2b9-QPJTi%;`5chibbB+Vojcu9-w=p2
z;V3frBL2d(#bP{BWh+HT<?Oz=qdsP;m&TEiA0AEFL4^f*A7LbeCd5`Qbr8+q4F-`h
zy^yJc$hg8FGG+`SQ`D3-h$wC5ATsF>qNvKb24oJPGV%Zs4kDZ?S4Kq`Xf>g?>gc#*
zmY_vbUwDpg>2X4h!#Givtvq>T$$1DgNWP4}@aJ&DqGjQnC7;E3X%ii7^BWhs<Bm-+
z(<W)e=)(LDQLc8xU>VX*aD1gpnSj$K{qNF5j^<1uZPXNHh<HSusCo+<VsU!NAKvO9
z_iq^#Gz}9xr~gilgj+PCYIiIt6GI@(Ag0D;%*4!wvL=#l52b9_S$r&6IIEuuGy6#z
z>pm3soA{G=n2#(Rc9T<tL&QCGmkuP089p&r4|HO_O)Or2>A=k3>;0G#SGHc>dUbN%
z@;&Dr=iO7^fBD^)A2<%hOovwJmtXI>Agz*T{6G#g^FTO3z{!FnTN|aA!fAZ}ZHn_5
zk9KKwoDatx-7!=53Q+xwM?0GOs~+vb^MIE?@Dg4o$Ynv7t;cddu=SWnq?;7654TI)
ziet1wEbe}~F}g2h*qt)$N#*YLVdV-2z>bguHf5_EPkBPZ@ELl|R!3U#S7{!6{vld4
zNBxth16WDftV=nuhK^&Cm7YwehyCG{6CWpnc*hE|(JCv^vUy+&VIqbjKL6n0#OR=w
z98?L|OIU%hhvck8xblW`fQ~SPSUPJR4|JshDE0E+&TT^Kru6#88}(yj-!bWzfiLFY
zF)OPoLu(*g$i8?BpQ{kdBamZfUunc?Y|9f{oLy(@r>%3uq10!@sf5zM$o*5ah)CwB
zF=~t2qmHQaO_>EW4GDDAHIkPuMG2kZqE@Njeh&zzZqG4P^P1sbTE4+eyCV5Y$`RtR
zWL;4gX0<t*`=&|yFrBA~Uz8OYkI_7(C#UnGc_5~2{lXT!|LH&AntFL3s3;+HVa<hM
zur+B^gH_wk=&E4A52E4>m;j^Tb`N>w+2tJt<IFosoIm|&-j>~7Hf4IeQ~B*`GWk`?
z(8|cEpZ-rO-g{sSMD;MA8B3Ext0QF|n-~oQg%?q03D?OT3eqedOWBEyIeca!G!d4O
zL}^}vXE~ZOogWTdNLhv^#s)*dRB_gpDU%M43x1VoZ*>a+Dr1OlXXtj8Zo_mNq1!pS
zG2|&op;5Yx(Je%`aokddUZQ`(VPg9*#43H0_ypjp0dU}|4q?3jx=G6js_T!8PN;~z
zvM#YDlhD`O_zU-g%m5Bn$64K9oqm1#%U_($zn@zHTJXyD%iCuQXX|1PP>8onZ<Wp$
z&ezRV-FK{cSWvZ?lapWlsJiCn^EaNKJrHZ$xNzZ}>9?mBLie6qH0R_$V|Z*d73M8+
zCU6eyTw%ra&TE}>wR6Yf1ucn!Zn2;{Ua;YEZqnwtQhmAl>#JsW-?vqR4p_`FxXP2|
z6*o(7l+M~>wd)o(y|ex8?F*gv@)wN;S0A!9y6uac(Psb1&e`%3)-usrmbBWg*e=_y
z)?Pgpx0WTW^`f;tZf(Ttq}9#-JCoL;q%}WjEqR=8vso_fUM%8l?is@s%VkT<+Huu6
zdwlkE%u|c-T-WVQw>Hgp-Rik-?YOl2q1}_PH;MKpmK$<FX$6mMW{2fc??+C~k)N<v
ziT0}5<8gcKrQW0?@6thOE7mU5)NPDnqz(q+iMw>^P1+H80xEInS8rK~G9DWi44Sr<
zXl~T1E*)~&3aMj~MzJw89!^=qlcS@=dr#Fpd8o9yKK0NIQ(e-d6(MQBwmtoTg_w@x
z{saEP&)|mby@msGc+2H22}iZ)s7^R`iH=>Yd({4x`l%UR#X4To{gru6%OaO&wy<7e
zgew@xxuJ1J=d%D!?UapXiEkKeA4aY)ERI!V5Oq*5WmSG$fOTKX!siVG#(*hc<{7go
zU<sJYkqFO5Vs5Z6CN*SMLlzdwMZ8=!WMv^MZ)1{pGjC_lHuc#-&rIU_4DUoqa#>U!
zZw{DvSHK={Fga#kz{$Ju=Yh<W<pv3FK4h6L$U6`41z#}?<RNqr+D?W6cfi9JX=Kp(
zcrMmF7vQ->^IVAMQq6M_p35}P#dt2)JeLGY`9pj~piHhw4qy2dv$D4jl=D@AiV<Rj
zWnFx={(Hz-YanN>`UL4n=c$@MylhG@V7OeV7QPnntNDa!Nn>gi>$xM#<$&JQg#-02
z>r<*-z0&70EG>KkYUTaJZE8g7T8xDL<!S}(rX{5=3nMEuv&;i^E9SL4d`Tm#9(6go
zZ2A_|WraSHVPfT5QHuut*=6%-3z#s9RwGs;{~X^QkY^Y#y<da(O{m8az5~#<vDt+$
zd?z#jrMYC`*CI|cOG$OA=55f5>q7loC=bBLhWyvzxmDGuIL3De+Au$L`#2!wD>1KG
znB}9E2<<DmY~=kha)Fk{2Gn%5R15z2Q`do7CDmhNpq=L!3^uWnow7!w^!4M`W;1HD
zMy(CO>a#D!%5Om_9efY8Jvy=SY}JQ3pKhbnf7_61E&BZsza1%vme0EQ9eB@Yy~HEy
zD+M09{R_RPoyfhL--SA@=XWC?!Uwai5yBa=F6f<*Zq+8#>jdAsOiTKfdA}DsKy_fV
z{#X6Cvfinc--r5cVWmpB=(o!ReJ=Ar&!nyOq(GaK{}^ygJ0StGo{Cp1jrU%F*cv=6
zCV25nVi%$d#wC$|Ko-gACIzSaG;z5}e<CynLSsBII6O2w2n`WM7l70pPD^S8?W_(|
zk3h$n4sU;N@8Ndu{$ME7?mhDCfp%{oGAPM=7$;pL{g7322BElcCO~xqLzodMnZ<<A
z3Q0!p^^b<e&ZxzaI7w{|M4lS?k{60Uk_rVi1)40q&z_XkGDxRE%_5^Dsg@~|;2%4e
zGSfZGSg<L3Fa*rs$KJc>4n-SDaFenPj!(!zrz9?yp88XT@?*LPhy?ORU-g|9LVkV_
zya!V6kc1(utW-JE63EaZl0lp*C4PlohSl@|@~kklMWAsIm<VX|XY|h?kSO)CAjELy
z{|@dCm>ZUhhA>pbdBe0tBTKQoDN9MBoKFsMT$)LdmXR2^2<6BwJr?YUO4uv0(lQ$4
zt)>Nu&iT}OMpVhW9!Wh?oX$%L@i{!Fus3+)dBb!r&rO4jpSDE}&@FfidIk0;)U;H|
zEBy<Wf$=SqlJB(RljOjgH90uJ%5bLhS3*%cgcF80PDFEs;s~w(>>8<1Lh0YAL+P0@
zXte-l3aZSZuAGl3B6dY;l~B~Kq`-HTRS~t1G%7LDzxuV)q*rwxqK;{6)H!W?;}4;e
zV7ruakOSk%D*xJ0lFHfu{lxjy9wRnXuw=A!8fFe)zjUR`RzeE0D%3>O@i4MZ`I`Ra
zt<fAvrBzJ}l%hgz>`TadLprV!dg{DwE989wd4mC#eW`i3tz2)U-khD5<m<ehm8r@n
zGul(Ja-O_8DzvFcEaD?+9J|<PsZpMyCLx60u2Y`Vzr2$%G+&AARNkS+yOnVIS81;@
zI;Qi$P|HJ}E$KK)2yb<I5Tl*uLzNOM{X6Es`?mD662e;@ChJ=+g}H|Isx8Dw%L~G!
zWtxm=Xr|PwxtN76<g|R->!R)v64_;4NTbs>-pzXyfs(cq?MUbI@kO0)faj5{tnsM8
z^P)k3;Z5YI5<|1*kW4V^8abBr0*`!wvSOiB6^fHwYhi!N<{t}<O^$*Emnu31omt<$
zqsMyp`e@Jg^&UNPWC!gHDMMGv@VS&>5_)>M$_`{YgB_jm0-+q>8JrLVsL7H<I|9v)
z(J3>jw)ISzE{;$12sFS`M(m7?b=hhXeiJX4CXVn83hluSxj2tV`_^-`ZT*zvc5y$Y
z4Pjr(!;}HTXTedC)F4||GnEXMkf|L=tQUty0WM`F1rpjwh09dN*Ktebgu<y@S-m!8
zL<C7p$2Q%RY53w0pDJQy(I)L9l~<_Gg@gd~lkiR2$%U^`PR3whOhN|C!()8lqVNV4
z!rDbmO68G4UWWpXu<*O|(lty<io73s01$*T0HiE<2Oy>L@JsTD(2x)6fY7UxcX!fG
z5q^s@zd|=!ab;ymri|y)q7%NsU^vyyO4dN4LkCX?cMvpH%tN?Ed0(Zx%Lk#z7=bVZ
z3eP?no01xyDj?iKRlM{81q!n2qhnLKXZ>NYbp_#d$|T3vn<`_mfepzi!qDA<aAxp)
zs|Tusf#8sEjS8iH5xz+`*2r&BXg_W#7p14RuqLMRDT#veNFA2PUa1Hd>lkT3v3_76
zcWW9?;9)Hd6Fxx*s`io?X3*Yb1Hd;`o{gS%D4#YMz$Ckdl?M#n0<Oe+zqn&=>x}(j
z<?8u^@ybmzrU%xthgN9)Jg`=OP*k2MY7~na6Ga_jQAfOJ?TqOSTe6}7Kkg68DsI|u
z*l*_D$cr^^zZ;2{^}TmAR`%kI>rs_AW(AA3dM590i@h^@A69x3mF;3>d!llqSh+Fj
zDUPk$ylCXAHa+HYs`6$IgHKytlPGHy%UTm<-C|ky!rpruV`bg(vV$`RlJ3GQlb0uF
z_uhBc{^ZEOcN-FQTgAGqcMm_PI}m$?ziRrHJ6T<aAN#|)#<{@nx3M>kZMR>%_2NR&
zJLPYe#~Zg^H9hduB^%a)f19jryOy_D$(7VD)^MJhn7cJ*ZN)w5_Qu@pF>5>SkII|T
z#JptH8iGgp|7q=h<fu$IT17|e1IOxz6{~Kx-)NsNo}Zcz#+tXrE4Iz_{pO*ht2*Io
z5M2!qTun-pqWO{emtxI5@rtc#ly=e8{=n5CM~SudB--|gZTn)a`|rK_Ud4OPSo6tv
z#VLyZfmG1kM7(0nOy3)a9yRZv`ZOf#QN0IN?@t_cbCKI$y!FMq`S+W99@cC~db|nG
zHqo;!?%DC!n6oNx=IDnOu4PlQqUL7DjgDk#<@MLDz4nu}+h<SQ^!=~Cd+QUuC&b<p
z$trK6s$HyV|Hx);$(!kW;B5GL9%nmgc+|}XMCDH$E%PV7=ey&(`|ABQyOMPsiMnUR
zx@VG}qU(9r^5$~q^HEwoOS$UjR?fEmQ5~z{sz)uG6D>Q%mYwmI-9O`UTJ1kP^AL>L
z1D6k6IehtWtfC$1_8aUoruVIqDqw~Jj1?oD;rFyzT$jvLxlzNk3Ha7Bsw#Ra6}%DR
zMkY9W%lxK{r9&8H>1R8DFo(>A-=o{_;|5Nz<AMOiPC+7(N}#_U5TJDKli!|&LOcY$
z*3+P)&Ou0p9pPV7VzvssLm`^Lt!Cj*DEvdZ{W;zKE!`+mwy3&TUbHf)si~$VQ&>0N
zS7|;I7xWVMa|`P;cV)u8L3D3OIz3nVFZU;%g-NF?SyrE{-;yk@UUYGujgPrp4@4xn
zHoGK<ARsFjA*u}MXA#f<-3Xu?_4R|61-iZ_3zIlTbI=(e+vr-pGjdW6tmwSl84QMi
ztP1Z`^Rf#*)TzeKKzm(EE^ThK`Jub0V^T$$d{qiq(@7>oq7_zJSsUbXGBWjL_E>mo
z!*X4=VzS?+9^8TAGJ3FAboXZUU=^*mvHDG7*=FiU2j_vXi?dKqT9lqdUh0KKUg}9N
z0w9mM5%p6#z_Z>!59Ca3KE@Q_CC)=IbQ<<Sgn|$=gSZnz(5sFpJc<ksg^WqDJ?xHw
z!B?wmX=f?fbegJM0;2TC-y=X2plVFt%Tsh^>hjcV?d9p1wMrVMpQdq}R&E@uP?l+%
zfC>qJMYkX0rfrvv5=qUfSkf%@+iks8)m{EV%qkfyWN6E(UA7)&E!SoGl*2jT^XNvy
z)K<Br7tX=}MKKfux`QBiVJr6}^cxw%8PjVoVSwr0nyOjS=8W%eQM-u`q4Xwg;(a%d
z-Z(0{SI4ZYSLo7D(fFPxHh$TjR@#1FukB8>P3_XDYQ3hbpWoJRdH;=m(cKoawk>Tr
zt+#B=eF=f(x_#Q9-|@^Gg_f(VD++%OQ+NmMLu`7)Phhir`^pnR#+ors{G=WngmIuW
zXb58t2#g52W0WX{=a8o~>5bBE$LI)p8>ZH%t0&Y6FD^S#)NlV9V0%nV6gFVWs}p5y
zVp-daD_LBA-FMA5V<$|ImW1u|T|g!m>|#Za=-wK$ZvDpusC@}QcYF+hl0_P<+?GI8
zAUjs!CrcrR1m~AqV$^Sc0>}v@{bqnj6`vs^FOWFQ$_o?-Gs4SIjHXS#9)FK}u;Luz
z3^eErm)atDC0%;F3BAo<q4cM7(p;UW%Ey{Ej5(opM0i}*h4>ETm70g-a0CuU7>38`
z*(|-jE0X5h>BfkvJkGGh$<vKBQlylg{)H`-`E^g!JVL8h)|IZ~6JVtB?a~>jX)Vyf
z$YDxy`A|zELxZd<s`9GAHBrCm_JvLTtOn9>-+&&C8rj|OzZkC@h-*au6kf{G=Sd8Q
zF6?d>z(4;SQX9B83N9Ky$6YXFzn|o!_y5v(!O&`yaA@#WJiXuz^r|A2kkFdP_!<H+
zv4mB0V>WyQAAykY)TXDS^%>7W%P0^YQ5KA$&`$Z}4*Df38v!=rVRtHXbR@$@AoQea
zB|Ws}N=w!ML77lxQXWb5lI6l?id4XVrf&|)NlqE2NrN?wE(t4iWlS`k4Kd^U4{2Kf
zXNdbR+}~Z|9>Mg%(ekjk;`+d~0m;-VUfeRX?_tBHyOwyvPSIKWsJJar+$9!w&FuTg
z%2hRg8&(fxKhMdr*%z&x6ZQo4B1{P!oevAEXZb|UMzLmNZ1Xb@3J=7b2V#W>k|h<1
zk`A$?BT=$ZEZI1-Kj|)sx$BbkZMS#c+8M83AM<#TZ)w%_k!vG~l1{OtGhWg)<48J6
zW}EIiyh&$)Y|QoA1Lx`wTm@GKE)OJJHKMC#_Wb*<ru!|MlLgK9oz4G`k!#(Oa5cqT
zO^KGxv6juhlpg+`(IsE%ZRx8t{8^i^&u#p(HRe8}`Onr_Dcobj`yU$3eNNjCt+{yf
zL$|rFEcb^+xp)uW%or)a3atQG#?nPQ9osA4LtweR5}K?)hlHFcOt|!SO<_aY#7K{R
z(Ob0i1VA7xb;TfW<tUSl)xeF)W?itVz=)s=`?Ashd91{CX>@tLC&K|@&5(bPlpwM1
zu8~v-y`*-;jIvJ$z^Dv(F9f{)!3YeIVIxlaGhugX9-4Hj)Dh<KN)gY)mW`Q}pCt(?
z45h)c^7c)FWf$`DA#71(A0(S6!>BS$Gz_GUUcYd9I3mC<Q_Tqm(J*iJw!A_ttyd(<
z0C^6QeKkp4{a%TS<_(Q^c-3OboHNWeLNy~<uuEJ+ub)gdF=bI|I}>)IX=7fnZO?fp
zB(wE1Wateku4;hB{2Zh+BTQF{Lm9S{mjb3x#!z5A;80!FMCp7qC1}8R0FdB$xIqYw
zwW~5~wVh#rFav<26Ow5(`8yC8nT3X_W%$t*7Zl4^S@s(yC=kSshgd%cFZd^6oeGt+
zWgDR82VU%&(9jxYq9qA}*`l=tV-55faVT4@l0nX0gr#-*b%da~3Z5m?c$3)EhbTpk
zv|`fI6(#~jUjA4#9fA&^1=US<V*i;|yyHj#jLwS{>&ni{J7@j(9jlUs<ugYfIot_H
z-F-*h!@{!bTdr-nzT?`CL}9yF*gk*io++{GS#j61vBLIv;d3$PbB_v36NPKU!Zq_l
z@xl!;=LQMqqv|LZEedR57(!sVh2fGzYe)B{JOLr^(<P4eFdpr+g~`n?tNJlt7&}{|
zQGi}%rgbosVjI;#R7nEs|AkNn6bZyS%pP5HyI&GOB@{VH(33WR)ljyLRd0<KY>PR!
z0ZC4{n?-kX!o5y(uUps{clX4sJq%m|@zDkeM#@DSF@xDl$ay)KO&g=Y%rpzCVMLpU
zoR@;-I6!a=!k+dVB)&o+u)h`Jo<skItH%rm4i=HHa)jj2h!iqgNU0?KD!D^Ss=Bga
zy+$p_x`a&;730)1n$nY6kLWJYOxa!+e}o)dCb`)1uHvNWsu0I9y#?GcORDcvE=BDe
zy6xVUshU=%)5118WdUH`N|?^NSNN~Uu+=WjRq8!vHZEk&TH(LZhtqW1LpMKecO*8K
zK$DhrJIf+Wb!JOJJ-w$S%S>R&bmkvuy!`=U!Cq6L!X7z_XY;?dlTG2Ir{uc*n*Fz&
zGt+a%2kv!qL$^n6jr@KP!9@;uN;0o<ws&?z%)8_6`R~8>?rVQMeK!<y_Jiqbv&Rre
zLSuB-0AxLDoE=!`ORVn`*Y`nOP_zc(f+8r4lc~9tD=JeKgoVL)VNc8{jq!}(P0eM)
z`z!*>4e!rlNzit+@PDJQjEPTh2F=VE!fJ<PkjSjhmRkj~&B@$3=#_5dNmjH^xeDCv
zj=OiptUK8{kTR34X*h$|PIHcdikO7IT2Mueii{cB=h?tYIcWcontXogDE=R)UDhc6
zJG`2zTEdahWK%={+k|M?hnyPBdAWtNTXc6X?7Q20uQ=}BAG7Y4_8RRv_D}03ph?%S
zdfgO$hC-fh0X&JA(gH{*hwvD;tdT-7rdBN(DVg>;H8fcM@z=byV&PhyHLq*Qn%5;3
zb}cmBt&bP(h&gviLzC7y<@&Xm$gpW*&H`kcqVvKpP{phs`Fp&Y@;;$Q&Ua|$FATv|
z%6GZ>yGe9|h`wjMcQWoi6tl|a#M=4$YqBx0A^URz3snvqGvg}=G=8VrmOw?us>yOI
z)6O1FW<SP;uu*hxTsVI>9C!D|ti95PVC2IQ{q5i?>ayH+0IPTS2G$^kx++cBUujIT
zi&t5L40%JnvoBpUCMLX1ZyK$}sehr;I{ima?Cl}464WHD^*|hfaZO}g22KTf6iUAI
zn$cA<!tNgwLgBEQ6}Ai(g=w&+=_aX!R{$aqw-W1?>Ck3K$H;pI`9UFFVoIM*&RFKc
zA{q+WBQeL*Btgm|ZFGvXm>~!MlcF$Ok0NJDiv<oS*;MJ0u_5I{+}!YCq{2q$;Yunb
zzIg`5_GE;iLv(k{pI->y?Tx#4#jLyJ5fT;#GjJ<)osmfga*BnLvoD6?OAb#6z0YuX
zqMw2{K50bhnZF5LX$G_&?}qVdz`W1CqRe(;86J*F8FOH#f|C?c6;$<D(|VT3pGB#y
z=Bdx`QPixLjO_F{lZPq#X@y}L4owJyfvgew%L0WcL1JlCw+LZCN|N^E2nGx~=H8{%
zrWwKiJH>b%x0EfdjP*5o$rR&ATT`Ho6u592^`)#bS35I}=%oTwHOqrEsBa@53~DRq
zDZF}uhV^}SL(IB6*3xsg`)=diS7S}P<9Kv8kf#tmMgx(`2}jp`N7qBA`^u5aM`oL#
z_Hy&!je~RH8%L8hb%~lzv8MCq<{VeoVjkxynQ?uT%elY;CGT<xXS3*R21j((L_+wv
z?i=p;NTPF>*trXoiL2!!5G8gLP08f>0<M_;eEDm%7c1&N;(U3%Ihw<pX;y`EL1<eP
zVtUy%SY59Hb@|e=Juq8z$Zm)>i08WP3B<Qc$ua#KHJl*^j5@nCUzFMDNxxG<Z{=pr
zPTq9JFm3z<rIVL}PgAy$H<KU%TwJUEOqCd<pT$fSpoPPwr=}!*nOY<3o_d+hgjbz8
zkoYtAp^B49FQ)hQwF1<qV2UqIWZK?S9yJ9yw*)U&67Q-LI8~e-f%&PEbQYPmlgw?f
zQ0-`j!|nvil3B=}6(6Q*muy|xc@rZ%{NGWpPc+|4W)3o<xJGo;#2jtO!jjqAZ*Gn`
z567wx$DN0-ZcY*>u}Lg!N)&Dq3pd?0#tRwWj5bEH6`m`+?`VLMnlkabMQ1lW-(5A&
zuD{uHqi1gL#?FO?cRJqgpozbpCO$d7D=M8i_^7Dt>c*MA?6jVu*@l~KH`?Zo-{^!w
zV$It%nJLR=4c9i!$X?Z~=l}`0eSm;IO7>Uy@~c`vA}UIzx5+Mpoaw81DN|Qx(*^fT
z#>S<M6<gfk9-S>t8jZ})<F8=$NE5*#O$2qY3pmh1(rRGan5-`*IFzBy_Q9-?O-XdP
zH`ybbb?kW>-lNj+c7E*bta9e)2Ub_YS}t146V^`A+L?4_jITu39<gf=Mwo3a#wJ9C
z*p$j<+!CFrC4p4@tpOFf4(sqwv?I|jrVbf2O1?<Q&Gs6tdpmVk(c3*DHYKed%Qn6H
zL`-TtrxHs4YRr?2X{tkabvKUWr_(7RWoJBN(3C?eX;~Kxp)AS}hKtv9opjU+^wbH+
zoMogeD^onG*r<-Vly<-S1SQfg_bE!8w6@x&x{pH-UW0;a=BFY&TS5n=kxLLzTI6!-
zkb-qCN#pIyqNWtOixF=S4H6+I3;88n7OpXy06&3TJP9x02B{Szq-YuKhb{smyxyR%
zG}BXdG7&fp2jH+<w7?hoIjHoS`H4}uzc5e0;p}E%AH|)ZxTYWsH5n#Ly8m$E%5Yq^
z@5x%eY~Q2eQZ5N3vNP6{gBY#yLlz~6Z)8*;#n<6qYQBDzmW;na_D~zJ_C0bJtc(Iv
z1U^yHB9^q=cegN4DC9Jy9*$9n?cM^PB&2TNB9^thRr0;6J5^wyxAy$7@kgtFu=+t+
z|BUMcIDida3npC^371!NdE>6Sn6v(^4d3gz({ncfU$3S183%G9=PJ@dR3lnzW?x${
zy<>mdez*H=_r1uEzVHL6IMzI{p85!C$(a$Sv4OU|-FEl*+nw(f{kY~YYFNY<9=Qvp
zWlFoCsLK?&&|}NgGO{`ip}EAfCL_bNxdN7Sef(vL*G_g-$|U7R_l$)hM>9=zc0pZV
z%Cw;BA)}Jgw7x7#MTCL=uDHlT>!>hYS0$t@dYanmEMplh(?a2CTSiOXCvO>av!aYK
zz_t~uQfGKgRkgKrmp7B1o|Te%gw}$rOZleAhNq#m1=Jpk-!bU!4WF09?-FxKyZ*65
z78rv`Lt>}#^{L&;YNsW^A>3E#@h7fv5+g}n;TZZdwM(uQ@0BY<>jn^irn#-^aio1_
z(SqdF#OZ+Vsm!%eASG0xi13|1ppczH>XHXbGdR5#3h8A&ZYgsR7T{Pl;VNr<GL;(%
zot}&Y!it&|;~bPyJR8-BIXM+d=-I)ZrAiC5fG*Xqg6{v|`Q=wg&DY<f6|x?g&<eTp
zW3P}Ts&pQe#gZ+OQq;L?=jLjaHSa-5A67gIS6rbOM74=UZAoV-3~2^#49pvE_!j!!
z>3_Q)h*$Ay@a&82Gd5<{bklLefp`gLmFTRBJ8K>mlwMzbZFRD+?4w*$xgA^vCseQ`
zkKBopcCn-#{<dc$H>Yk)&DY=f;sXE9*xO^swUnfvwC)lQq;hunzPnixv8v+KX4KnV
zd?k1}IJ-Sj*&$YT#4Fb(DmROjo8y%|@w}}wMgV3;GWn4Fj_0X<$Ip;5&7it?px;T`
zjqt_CRiO2s=#WaA5{c+iCX(RB#Mj{$WO0sl7E>r5=z2W`-<g(4ojlb|KvpKux>rUD
z9gLBbJ|)h@RfDhz&iySK$N7e|@xCI;4;O-iV$vv~s#;vkfLm%h49FwJauA$DWhr4t
z0$8SVQ4@91Qepx3gK{WrV&rYgK!*)jqq#8n7h&*ki`qtr$&hs^Fy<|c_hNXX6!CO$
zM{q~glzRBO-a-ghVcbZKnoJGIII4-yeaosSK}_4nMiJYqMp6SKb!t!z2+fg3<w4J6
z`Uxc)vr1n3nYS&ggs63-S*dUOH|>l7%Cd2|4zQxHKr2i;qK=W)bUY=b^c7+kA-1HM
zs51_D80@FV!L(&qI&{Jswe)dU4KJ^ekCt%4TcfJ95_Lt|)N<qzgz=o8c7rj}u6$4b
z!g#wQ{iKBOcC8Xl|Kjbs^pg^L%dS#EPd7p>=vzb7xeXb-aps@Ksscyl_Y=&+k3Ck?
zJ#f|VMk{=J%Kd?-wVz}Zw>qYV^_Vx3pG(a_9-j#dhjbXzSk*79_FjZPA4uMyo2n_Q
z-FpVwtI&01_y<jh6Ocl%2O<blR)2VMY!D~#^fO|ywL;Q?Bz%V%vy&OMbYK-PVMpJf
zVu|FFSfezVQYJd1M4%bO&f5@(zsV>@;az%1at#S@x<Zetv_$A+iAg72XrM0)-=YO3
z?Ux$_>z~jIFw`Z6D&sl{wUi|zVrhm7UAU!OQd1<e)G#AkQx@4s)v5g^(EJs;aSIa~
z?#;NE;91M(m3ohzjI$zVOB3(k0?y%I;0FJTC7h=?;r5DdZ^GRvx;r1ZyB1Eo<9plp
zp5gw61Ifagn6u`Qrzqj66+N{xW*Cd#thrG$lb3uVaa&fU8U{JaW_#n%ChguZbA*)O
z&%L$&LE&1aAeJoXcq_7SDBig%*0DS0*#q3pl@}{q3mmR(+ucL))@MX#)69|Ctw5(-
z;Puu*-+pe*!tt21_JMOtvZ`k0$bYD4ylR1(+x2bNw*A(Qx##W|Ha#k;q8Ho0x&4Fc
zx<qw{SlyAR-YiycPL|co_1!*r>)?F&*3r8=Vkcez%2u-lC|ga*wS91JidvU;ilv>2
z((U(4w?C|HxLtj#dj5Q}d(%5TZ};3Ce0yhdLr-$^wvTd+bvtfYfI8MSCu-M;wd)eK
z+r-*!nFVZkZ$0v_+m8I}N@gwK@#WVfJPo3!VeZuXp7zC7uCnQI8&?ajrAbef1myQU
z^+;3Ou?SCFp30cDV)2lHtFBE{b%|A73k`RBV^v-8s$DZjk`+}mhZqDN)~vo}ziPaC
zl7Jid?&sexT>r4T?&ga(UQCu%lN@Zm@q4T9tiBuge(>EO*a9^rSNEYVWi{8M*P_4m
zh57vZrEQN^cg;HHdckW*mU)w<)z_!LIsHLxQ%2jW>XP1u+xA=b`R-fpWZl|iW9y=g
zHP2jEal-;pHVo7&yT!`xMCI=LmAfA{w%mUC*2@bUlbg1_Gxhe=z52JmnB1}>xosD~
z*R;oQV;|txv^vqaQEc3pXxt?>?n+kG&6~bwzhhtMzT>_-@m>V5XxeQ60GldisnW%D
ziJ}&<sAaz7LDAY|^O~!N=8W;8hDXiqa%gcUx2pZ|E`vT)AGs?4Qc3jZNvobI&L=c)
zqzMzwz_khYWw>?^@aSJTu5G-86Q1Fg#;Auu10SaEM)q9~C$|94(;@j8R;!0!!?n?+
zDx}fLOSVtc#pKCmkq$mV%9ZeZPy)~@FlXWUw7z9s!g}PSBSnOEipmm!WE2Z5T}(2n
z6I;(+7xqt8(bs@u)_}L$(o6{){i1SR72KZD5V;Z604z-*WYG{Rdm<f!(Ga$2ILI0y
zqpGY6dwUMBav1|8;mSyDRunucm}nn&#c{<sXgmW8o0sckywWl4)YRUo!L1P^`%+4R
z!>`(?<66!e4JLRIpQb!i3_t2ppsIPNI`U#tX=bPwQE_bGBz7fdhVx>)v3BQ8yW!4g
z1>9QJ9WlI736=Gn2?HDuf!VNfny8t^nv`<d17}hNa4xYryQQGd@}eH4R%3>!2XQ?@
zG4cjRo_$5lyiJK4wGiRPYEHO9)+IcNdZA4|>xvRZt%Hrrl$kY+m4nup(;xRE>$5V&
zBYgKmZX;c~G{DN`=4O=pP&0Dm@u=iYzk2S{p3tt0{DG~yOqgwSCj6jr+BxmGz_mL3
zRVE1H!2#0<DV~gnuB_Rm<=3Unr!*@%<DK+)Pe3NYf=r{IIDv?>MpDdzA&>0$k)2Ej
zBkS|Se1K1Tn<Qim##JGla5*|WC8?1?*DNqbM``k2*z&{NE8vIYd&bz4ZG@!ah?^Jo
z`t4eTE*yksNalu8u_~Z*JgHLPnh_V1%#dIi3=1oq>lvm)@g`&ouZ(=sO=w3YhEYBp
z9SWb<XaO8n1_W}LMJL~Np#7*Y>BmWD%fciL#bsnB^~4(GbVmtVX{ta2QhAf?@$S|j
z^(11FymwB@b&;dN=YMD-$kXwtndN2oK^nM9YfxXNA`yTj2xJ7>1W=D<<noH9UJT$&
zy-MlA4)2~x*#8XqaWn@VUO*XUc49_m&<+H|(A9vBbkO02v!O6Jvc#4}T7LLEP7_3*
z({Y5^@LO7w<}e-Mi>6ch4(~Ie3juU3JL6D>$>{*{46{*`Q4y+z0zRfPi33-qBf)S+
z>m)lKk&a2l*prkb+1QcBTMM~H%^bSYzzPrZutiKa3<i7Q0CZ9?JYei6o%o9*XsMm@
zz;2a>O-9W$CqDx6<bHt8I~Io7i4atf3~d-Kp7oy}MmqphKaIsTQiC#bJM9k-%kE)m
zelQ-o?D!{-s41rAwul8uAoelDh)ilI&<i-*<65iIl%dc>3DV5+Z%`yg6aE_tF)HsM
zLMac;$c*zCiCz?%DLHKc61iALkF?JSw1EhJh+E1yH9Rhnkay@YS3VC$A}EU~!Ph7*
zqa|q<Z_U@xiLB;pSRuHjv`663@W^;UtB8iCOp}v_b1B1l^#n?sJsFnh#(h*DcG66G
zI)wA_QoHJ~u%yGh7FEzu_Q{4!1JK^^73>e78P`7r&6r%(8C$jKMr~~Sk;L{F#O*K4
zxF6-$#`0S)?~ZluOmrR*JC6Xhx0Qje%P(F+UOsZ<&1_{FK#gKy<GevEY?T~ai3Qtc
zdY?>ul9Eu%eMgIGWfyaIJ}mLZYInv<cEvoq;ISv+Y!ICd3FijU34dIbv&WUQF^kF`
zb#~3T9=dV(<#!_w-0iZ7RNGtY7aZ}`+hT3oq0lc2A=*KxHf_G^h&SSN#=05T)z{D<
z8x%k2FpJshd8lreJ+Q8Q)VNlnavn5peo*p)*tq$|iP`7o4FBffy;uLT@yG3d(f<Cn
z=fC-Cta0;<Lo9jWA*k!Eardh4cF(;QukXI^?v7czWA5$`Dj~g{KLlaH<wG;QS4)zR
zBSbGpzy5`}{QK^@M;->v+IdsV(|+G`YN6zvs<*5DsODa$*!5iO<SDW16hQ8({Ls!7
zH6fH=pYSw^o~F6*eE$Q_)<?zli_oN`&z_oO`6?px=iPS;;^o`!`o!`hS1pfF-1OI`
zKLE>s@dKpf$)bumlR_0Pe1S4<{yCSEUjTBNjK5Zkg{u>VTkaQbc?jFI&t3c6?0Gmw
zyWMlEXMXV3&SYcT|1js2w1X1N6x!hQw}?VCz88oUwf%L`iN)<))t1E_oTum)kM|n5
z($5*fM9TbdOWnaz%b!=7aL-W1B8r63YZbp*dd)CNM?Xr`T8<taM3NAhTFcR+ut3e}
zQ)@)U=}~LBa09YDwFW#K>2&BZMy=t5A^orCFu&QMmvF=Ol+@Zf<fKD?eHPT(n^>9X
zVuqVK{P(B<nl^HrX)CzzHsb7q^ZqTF3bDg^vMP&-IwGpPMZx&NdB3RPyjMx(Y44B_
z)M%fjFy4A~-_|XC3o4IBAg*a=)T!qHnf3>|WSYnlb%Hu%Cxd|Vo};0TR!ki=X{aMt
z)ClUxs4ooxoriv=3)GQo+7)#PwWt}fFtaY42IbVHu;A5S$s@{iYFXQ8^US)QNHr0U
zHS0qAIbEtoQmx3KF2>I3k3T)C3slnvr6^r_%F5+hv{chr=M$)=kKeA0{Lv>3Py$h@
zJf+^4*G}H}mP3I)gFE3SS=SfSCwgJjDdP#W*j1cICXX&WU56aO2BirnqsNXxiqFu;
z42zsJnwO>kKE4TqitDAZ5{c*bPxRP7(PRHakNtm&9!uLcFnSE0!zEQtfl*`3YQew^
z<31Tt#?*x*3XzGm1TPi9D6{3naA{IZIs<SWrC`Fnv{IBxi!pZ!(57O7I|Id3X)&Rj
z9@o>Y4=XB@<E08%g;Wh3I;&Tb_o;F^Cd?ByBU#EWogqpm`7V3HpU{JtIy6^y!@oo{
z*Xt6^weATtSLv@i!9~^_5+$%rEZmm#6oP<CJBff<SM?gPdd)(8ta?qndLv{s$)=VW
z$HR*D%LhT}6caVp_}!ZK-D@9~*W9eUQ8{<=_Q0)yg^71wd;7KbHvD+oUu=6&{=yPD
zpd=p>iyD$eRUpiY8|V9CMQeY?8H#s6Qg_pN!};yJ`BiY#dUv;2wtdme<*)kC$(6N%
zh$(JP6p`}SeD^}$gQA^qH4W;BeJ-j?);8a+x>a@cV6wXY=I3vGe*Wm)WAW-;_g0D3
z&t2X3NESV&y>c@pv`o<>m9QFQQgO*rsbg8yP1_CITvM{Cjr?>h6y6FYTh@R~D(_^v
zYKjZ)4zUatpm*1QzvtbadxP)pj2(MER@U*L?1i5c);_9UlNNdIMrpE?lS%$+8d$9l
z#;Z4>y7jGB9T3oZypQTz<j~^F2Cj0=;^$=%q@?bPQLA2r(=y76bhtl>But+I!8zG-
zDI}qRx2@H9+~WsV35-xu1vo2&#uUCQJD4ZU@5)9`_|RB0aZ3Z<S7iU}GFOmzw6)$>
zPD|M`M_6<g0oYwCmI7DOg2dgE9d3c|3T_w_&Y6#CFy8!W^Q|<~*h?;9)J(zwcq5LG
z%P;2bp7-v@c|bBR5A0=@V*rwW;+N8CI*P+ASz%tyN2+}XIU8fGrDKI84&N~N!f?Bs
zZn@Bl?&yat3`wLURd^hxz`!SQz<!MP8sE6W4qA%J_LEkj=8&WgInCdqi^C+o0@nwQ
z##Qa`TG0wF!}s#;<i)JD?^~tw+1V<XVM=L2N;XJ>2r!*+UDM+X$1a(M=SY`*>3JQ>
z679j?;nZf5E`Zyva5({Ei6@z9{*5k09K}bt7rwjtB@=M1LnvbCDaNtHUt_$-OygLJ
zGF7|;j>Ja$Zv;eA=U`R=%X)&bIull}X!RznjiR-2ZfJh+ed{_l@g!eDO~@gGxdE2O
z$A+#ty_nz>8Dw9}L09Vw1}><ZK`W4SLIYrZy=uY`06LZD%CwXfTdlM%4Q<0&wpz4v
z>p+w?$;SlIt;m^K9@=&pmIZ3s$yU4QZl6D~umKJ^+&f}c*&zqYP%mUE!IRvfE$2$%
zbpZ>POg^hA5fC=&zt^+Q14BPoNvp>ULQcwO&F`CXT@Bn=YXl4)>C$5k=^D5{Ax|C*
zBcGBfF^}@p2Q~2e>Q7XzPEP5zM7dW;%~l7ZuUF{5U&$N{B4lo)K&`MEc-_j{XH#BG
za+92}6HoA1^9}q+<5R^DQ^jQIB!nh2&n8JPs%$My<;t<xnI_p@$Aw-Rze`tEInCeG
z5GD*&_6=1fI;!AjRN_}dXMDad(cUMv<9_UZ`>}_lfz>8@+UD0MR&NtmZ+qXfUBiXl
zBziX8H6=D55H}xq;5i5-9XcDL8nfccj>|h@j>argS4jo_fwLC}LtM?%Odc31s(kTw
z(b@jM*}=XlM!I!PGkxznR{@)FN`App=Ft!z2xd6`ROitNG;i5?M9fQk&%X4$(500s
zfE1`bm%}<O)dcU#kXhl(7}cjOTzmK=lQAEpXFgU#I1Oj`ejj=zOruTl;j)jqY15L0
z`{{CZV22CSDwg5lOAEzAqVv#ud*62+Bbcp~^p0F-hj~6Q26wfP+l5muY`%1iMKE+`
zID#XR;K5vx#`zR!oc_X33W>`CxccJ&82URJXJ53P4&}h<7n>q7psk8uPG$Ap56B76
z(Cq*L6`%l66|f#6ur58_M#;lXfZM?Um*MHFlgWG}I$^z7xIXEro}G?$kXm4xSSW%9
zV63n+=IoU4QW|i|MYW*k$ER>x7B(Mi@TIkez=?)7cm`B*G3-tcj|CL;fB}WUgKD9I
z;|PIc>0%%!CS`~)iT1FcY5gW?q0ucCb}t->^*$djd?Dt1;ZdPC=Jc}mx905YNAWbM
z`%hq;Q(&J|NdqIv<#+w~B?_H>DGqyp>Mey^b7Tk6Ch4~yIrjJW-!bfK-6{~@Tp%SV
zfjH!;T%V5*4f=d3BhX>NOYaBhM(eylvH*d0r<4&ZsNkZI>2xR*6#kUH{D^LUNiVGs
z%tI6$nG|C5?mpcf(Cx43mZIB#q#I#5l1J+QLLr9NGCAyFdOSq8({%IG?eFMzl5T%b
zx8ro<0D4Ksm+Ad7t8pgM_0k6>>uslygCdhOl#%BQF%}4`OPP*CC@ZP_GHwDb?5Uiw
zv6SUVh@XJ3eOf|N=E%f2!Zhv$>TRKx@~fj;J>9k`H!3^)V>IhGxDRu3%~l*=@5uY|
z0j#rEjhDB?O+}!MzkC$Bl=($pJ_@%8aTCORm2p#LvY;kzs(Do2xzHe%Z;YEZCW}gE
z8?GJ1OT_M6pR8^C(EY5zY=2Z-KHD%GzR`Nkw`ispq&8W$n9G7zuAzCp^w#!88+(NQ
zYSW^F1)W?=`=W~l^AMl1e$4V)9LnMP49^%I8=c6jhFiPgvC)B01!u|oFek@c4SdX!
zw@4w-*wVWi^<9nn4u=TI@!HjQtJQa_<##6YHu)VwSR5$7CGUzp%&9cD#JcyrS0r{H
z`5A`?N>sE+uNQkt%p2#5i9%oG5L{?{r~U2r#}r&#Ycy}2-}}A8cMike*1YxZ$?w1P
z?n{p;_@O<|yj4ks;6g8*Ex+|%@sFy0Q1zICi(aF7mm!^cm*H-ha@l3LH}RwB52BRK
zE(7|as5n{I^r6jae#Y>~Q+(Zd%{d#H+k5-)t;6D~F45DqXr@o-mAw4LTo#0_Skcv9
z9K5k!bgz2MQhr#JXWj`e$4j?fqKfRiYh*w7PX6enAE3r~vslOV8;%)1G@8wa4N1us
zcu{(2ZI=T*JMM<xZN0~fJqM*Xk8F8YsxDVOHdCU-Jh=5XESTSMzU`!z^cn7TOTQ9J
zg<8~SKqu_jg<|r|yVJ$62P%dIHuXpWIrmwUXhRY7=|gXUxn$0K+j$EmAh^)|n0`KN
zDKS^h_0BikI!Jv~dAFDPr*d%}chqnkWx35|$+D{1<2P)JEZnkM`rX`jFCuO}^q5{Q
z)|H!!X3+)snJ;8N3q_CVX>ntnxsbl#XD<AheijcKxb3KaVG*>JlO5|mbi8CRSJG6e
zpPjfFy%C)sMCZgR;KzO4!U?f>%c7Yg$eqN3=%lJyUUb(j+SoHrLu;Iih-Ir6SzZ8>
zJ#S|4>IPCopR0%7LM*RQv^C8aiMBP5T`b8SBUia9xn+BD!xmP7BK-=mvWr;RSJz)2
zSj<J@BFvA<`dIx2v0@{uKoJ;6)wOelbNpQSjid9tShbE-r0B^NDO%j6sff)-kZ^fe
zQD%BT$!bx#?1gnnQ7jdzutJ+1l=NqNjJf8`9~PL+-Lo5RZo9E<kwb8PaG~$c2n*ip
zdrWUIZ}uAwq3d(aJCjA_*AHI9h^26I`|a0my(WdXY`YtIw}OS$fs8mmD{z^c7i)6N
z#|?M)e*c+wpZWgLcaK769M8zMY4wLThk5NIc+iKw`=S|PG_b6iJ>}Aqm0MN6NO7n=
z?wJWvs+c`_^Q9Xv;lMf3*7n#z->SH+Gz~1~T9^YY(yv^HkIV>5xShrK{Ly2F`%-S-
zf&Tuz$9#Ry$}b$g{-b?+ao*+0{u6`P3)G9YUxu-e09MOMyF@;q42pCZmWpZ;NbGX@
zr)ngPGMN)3`GMEi!$3vqb4&N3l$%bhWGN;2n*dH9*G32kiOMf=4;}e2M|I4!Gq!4H
z9Ct@G-ds8&VOnYp5ctIPZXO;R12>N!msR3cXuyC@1InlYEDIk$p3xFIHM)~pLI?}B
zq$1{MikY5^wLBNc-O)sEOp@}yq@VS5L=?V_TL#;Th;!B>4G5q|kgaq@IrzT<Zp<6_
zoVSdcQ_)QQ`%-2GRCoxyhRE3`PVUD$pjw0k09E^%8iUFXQ&|e8C?7+r?Vv%Fzn+>!
z$OIU1z!0mF#T8fgCkv~Sb*)KnW3sT~BZtLl!TDll3+t&9QZ2qk1^pIogIZk>((qrV
zebhQK;E$TXiIvl^(bj6wZ5Jzm8Yi4aEi)of(}eVQszsP`L`!iA^$4cQ*)f=mKvPK_
zc~}OJ-!5u3MMSGT)aoL5q?g*fDcRJE@JFs(YId&N?3B@W;@LqYP_IusN;@P*t(R5K
ztI%Nz-&Jq64WY(aSYOIXgEcZPx9KcmoTN69HVX~VyqTRb)8Sav;kfDW%uYOCI>@?j
z>T9pCgiP~PB4D%N^NJT|p+d6~s+*vHgMOS=#F)=sDWP2AE9^uDoSTA}h&KuaP3VaZ
zf!g$*U)#~OuEYCm5FF@$#3k3(mAK*(Z&@FlC1`<mYADN;LLM0eYHT(*Rz0Cr!Uz%#
z078$Q3_`HEcb0v9N6b_%t*$0tU+-tszZ-d|RrByp6Jlq{e2jh$>NLzn4dVxujvhml
zA?j#lO?Af{l`+%FSoO&`?vBcb4)-O=-7SXfv(Mtz_ZhXTiT6jKWGid&t~6f9b=twk
zE0$HZCJO>$5M7@+Ui)HIeQ{HtcD$ngdq1Q4w*+7)D&UO2r)U8QGO~vlYe7J1!31Kw
zwxk97VpaR%rhVEL=#TP`yCtt3A07_`!4CKs!zr{}BgU0RTtJLVOB&H1tLl%N`n8Ri
zy3A(3Qi)Hna42Q!E*ub*EVF8)lYQD%gW8(irL{D<R&10oiDbV45DDifJ#Cci;A`4C
z)r+=u+DsnT;H`9)T6$~$1pf56w6Id)XHOf_?$MMLQU5R^B?X=R6(KGOyPiHxR5>pU
z3W9LfOxqkToEMh$JeiYyF4(f?h2?0^3-fO`%EuhNl5sc|v#Ic>S54`tblJ>9Hf0Fo
zEUwUmY{tSCSu$L()3y&8s&x1l8G@5MuJ>f$ZY)wb2ahD8bZ!nt8P0GYCu0l5hS(09
z-~?<QnDIk6G%A^nsCGIqtQdwnXxiT<Aj)HV8)eM$OqT~69>f7VSQ4SKuS$*B209tw
znM_tX^oQhHuk5F4^-5=z^-9~sD~k6X*~SKMQDNrijO8{4u~;~aLzld48D_>CYGveO
z&pN!l(y?d3NoD}T>{@6W%E$@avw(k8YIV9jau(DsG<S@k7#fpJdgK)N6b`_%Hj{U<
zN+}N57_8-3WIe+=K;8f3o<#BhNx2D8Ko`QWAu}_@sN-q!xd<0TfU2tCmeH52YENhx
zdLc~QeelWYj41+$DrU^Ah-Bu1v4c~lfZforxi}8ns$r79gX>J52PTHYXIY!iL5Lp+
zvcV+-lvRdh9YU1^uMz{pkgR+ry+J>Y^g0Wmz=q|tfAAb_kN^(~q$Xt6MH0t@{%XXO
z?1zUXGAxxim!wQA9kR#JBgWFCB@ZlFii|Vzq;VFe39azbSuDDJgEj#_0_<eEk7_t~
z-FF*rx7}(>)OCw>-FG*}>bm1~d*XS$m-auj6@R@ZVFLrAaqi6fwvK=0{G+_Y+QZ`7
z!|y%+{@RntyyCC9a3EaQDMP~65wmq9)}D;5J^4%NK|T>~w{efl@B?$j9)s}*tIWGM
zn19e<rEt5A-fuAP-eLPePcGj4slmL*p8KbkT)a<NB%7g(wU^dmEGXP#D{jP=_p5Ro
zL#o`jw}1DZ!yt}N9zSvPh;R4d!@gsC`%d=m1q`D|O8Yz~lMKZek3Q-AF3r(P!WR+c
zHi3r<fS}#mB$}jid)Yy`sZtsPQ0aiAg$MPBV+NtnbvDGq5!Uc%00Ni{3W)@Tth(*k
zG_*9io_LCfHa+MjBPb`6LNl?2*ci+iHBMU$AeC`oB(kIn_Sd<upN;0~34ZnLwRzLI
zK8%^8`YGUf$f_p-CS7<v5pI;50_Qo(&YQ(KwN^dd{b_i}8PO4<PTMuUlAuGZY&z39
zW50_weMi5BBSa}=U2>bgyi5w3E?F16VnY{N7|~C`pr9jWe(Kf|!yxNo5F}|s)}{92
zvd~ELX>>;mEINqFeiMV0E^Pm_D6nh9D+e?`BlVgGIjGbj{QH`+X#L2#^hYKvQHZmY
ztK<UC(#kbx&dL^#80j=8afP>Q>d-2^)82V2;;QJ$6G~dGO(}(yS~7QnHs$F{2Hp;T
zt}EA@#6(#a{JFwY0pM?j4n1Z9T~Hb@@=mgE7fQj~aj}pm(jk3?1vE+KvMyLokPq{9
z%IizF(zXR@+w3RQZ;O&T{j0Q3fv)lkOO~xlENJk9KciTc_{;U@#0qOk>C>n1*Nl}%
zND9oZbbCj3$*(j&N?rXmnh`;(Xx7E&MTif^uJp(l+o;KXkMceJ`^jNR{mDj;TY)Z=
zpY+#XthCveyjFeni`ErZvRAQU>eLzD6;ulj#L!s@6_~-pgX>D3?BSsnyM#-V(y57+
zHweEK@B#r5E39)|Q72o^^QKU3cy(}^@NGH|p?dgtaKpnxUWB-F?25W02b8b^iIIcK
zoAfWvit+IIe8F3V%5LUwn&i^GLr;?^2lo6Z>w*+APUlU#VA)^PKXpK2UXm&6_C{ck
zuwbQMb`%RcBAcF;*^ak2f~f`c3Tkr*GST!ML#mVrKpBhm(aD!|R`$^F8D=D$%EzJQ
zOe+%yzcVCFnA*LYADLh{pTuKk?ku&HS)q8s+54WII<`y{?<g`RazimJXNKrN1Z785
zgpzBL0+~KP44u_cAk|Yl`qD^<(o8Q}44j(|arK|~4+qHte5-c|W-^o$!Ge(4GdNJS
zW2$){Ub9#G@vP>MoxDT%4tf)uXkx*p92#s#GK#*8*TU;qznKQWFM+R}@9FHETH6<h
zz_uPZF8XH-yfM;umC##FwYBZp%6eMnG5LeQ&-uwTB#;q1A(8xjk^g2uKw|`d0{**5
z4xlpe_kl6~Evgv}SjMz&ZBALB6mtfypUr&W^u(EzgB?XJcm7w<f|Og~6Ujp&Wf@~t
zPdP^Y;9m+p9R4b#3Wyp@b5LnWri#+T)F+wFqbh2$@sJP^iU@vLX_<v~m8OS%fs28`
zi3k*p<bexZGov)QBE#c2@EzlL48xTg&ANpZ!*m+{fLh%|O)?FS4TYE*kes1U9T=(H
z3x0v9zEnQ6glJG`z7<G03LzpvB@SN7gzgHb?1zu`?gmc1yZ?|R6B?j~nE{3~fm9w<
zDh&&P@OI%vs))l!paftipy%<MR6nw*PkAH=`>1n=$Iujkc=b$<B#AvpYSZe`jI~Sj
z{p*wg6AG}Q$9m5qcjX&YTn->)VgMoeNUAVhCso`7mAi4agrp3^Odb&?eG_liB@oJ#
zs$$^C=&1Bm6mFx$w}66$FJOma;svwgtA}4doU|TKS__g^C%dmoTHO#am@Pl|aOU-Y
z<7$Yznl9~2=DK3J<+DSHn)PDM`b5oEv1aRC|NWYs$qH|xVy#%QcE+7_RV7?4qN`;l
zC+V(9xVuC+Ry!!Vcibxy-Fs(D$>N4Y@fL`gXYA~Io9J$vF+Hr?e)sgfhIrk6(Yor9
z724Gm>~!xs(OD;1s^2x-hubqc@mqR_^T&6_dQaVVo_drn9MVnCs-<N<(v(TnTQ9oS
z%hiM0!TPv+qqYVy>#B#=yerPjPPp7nI!mA$m~_^EWHa0B#Fo!bI7nwP;aDv?RzGm8
zp}3CAaH0FW5*I1zlg>iG52qV=I8QU3B+9|HIXO9RlAWBdgEQQ;2f7WSd&9z+2kspY
zods9=FZU-s&n7*kADNA=Jj8=NMPY+j*pMjPC>CyfP`Fw0Am`a4JB{0nc9&Mq?AIK;
z&@NirlSP%uvd&~_Z8E<Y;Y9~$Tk{cTK|P8%Yr)lH_j5~;uoYSyoA0+A`W8+t`lc`T
z+{qdH2f40GUx4c6w@!X%L!z=>tZYwIZWSxH#w)kSi+995J7>%f^K0iC=PMSTkLPcn
zu_PUUO0DRqh4TT?(K3%yjM~*Pk*L@tR&2U_=!1&J?+zuJHi}If;}x4`4#_}{74QGc
z%J;1&KXA+b_`bV0(Xc^m*pO)G6C3*C4g2o9_sO1w56I33$RC<DFOgd<=2j<iJH*_M
zh5Y-u>ynO&gkz29ShHZjF-pn0u0-87u?~l)tb**&+c@V-H0~E0_di(m3?N&X_cyDa
zxw`)&Be#8zA-3n_gKekcp6A7FrxsqlS{j3U;(TNp&tDf~?~|*Zfsu@>>_ZL-(Iu-k
z!*#+#&#JhmHsNU(J?-c&C|4vaSHoZhJ-;gN^3jh9xK)jpk1p17*6v^Y4DKFYF#H0&
zUzrysLhmm(7W8{8|K95EcR2rjsTtwFa?m|hA)A0@Ne89%cR6k_`&uW7c4$Y4&|<5T
zLxw)3O6_mUruJpJ1=Un9Jq39Mn+i+*vC?t%(xZ&*OGyukM*XCx60N7$t)_+4_M#!&
z1$uJjJRIt0HK4<Q)}f{qEOZ)&Oix?DXf_6|qqgZ>#@|q>NutGHF9Ehon`hRghXKQn
zGnQiM(svB6l&j|;o;SlAGx#qGH4Tq$RZ4EJXP=>E)APiJ95{sv8L3s$rhma)m+J>#
zZg%p-CS%~>kT4IzE70e_!{I@An*0!`)Opmd1MQ}Cc}fU0X)bSl%cfAN{=5k280lgy
zvnxFhYR0w<Y*fL(uU*R=nwAx%eIm1#IWt<OL&fthK2PnlN(CzEU-YR#{r>CKr|!2r
z%2@Rmr+Eyl-T6;!x8aHHw)~p5yFk<K(um4YVeKw_igv3$E0!7Q;HnWN{A=3!B2DYd
z(v<Xw>W@M*c8j5ZV@i*Vk&WqZN+>;Fbib-Apzc={_Ih96ly@f>T9{-CAO8BDHq=_;
zcL1lh6Fz=GA&B*5;c)fEqU{#W;4s*+NVtbRQp)A`{T?q4uQ(0yOlXK~DPb@f29e2x
zY?6;Qw$rN_QDzEx2zO>_E6J6xhvmyqQc1G?Czm2qZ^+P(<8D!9(1`HMr=dt7MjaiU
z7$g5}bR4amK!(iWKm=an!qDBh5P-4|Jl?^UF%*H{He|I~YCo(<LPW5`2i=*q-j0qA
z@0m?ZY<EGDk^(;7by8F?5mZ>fg&j$)B-JJf-0dvcdcC-;rRn$z7)Y*1To4EdLD&z0
z^THZI(pZ*4GJ5r{R}3&&X<0r6A!daTZJk%iQ>s#Sr1a2OIkR*;>iHMXtc7>+u9w>p
zT8B_K3#~_J0}E|LXw%DTH$HtO(wS4Xl;K8}VHZN(_}hR#Ipcox4nU2Aj%kp>cOe9l
z@UjQFFTryV+#C#MS!zD&KL;TvNxJ>~2=uuCRN_-eHp%4l4<m$9v7@#6_P^jg9lF@z
z-ADOe^pC>!z&kudLxrMBE+W@?5p7KuMGQ#U$ov>}7<FxA9o{ZEt6WQ*rcK~&(K%Wa
zrs9T%1>$#wE>c%9Xt7#h1R_G$hOF2yc@CjRscKSO;&DsXCSL{`)z3IiQ|qKLx2%$k
z4lC(IDkm}yDe1Q;KjIKg^*p5lmriCWBUH7f)@P17b$ZDBEO6CylKzxX`k#Vl0Di^z
zxbR=8CT+{8T<IiF<?!QE?aQh->81#bPn{x|Gfv@{hJ_}x4so9L@R>2J0#FF-dsgbo
z#&Em$SxxwaCcIY-FZIvyyXYk0pHu4`#1@iQB#F244ZIe<P7#QABM{F<_$F>C3k3Aw
zBnj*24by_0q#P_0W3Y_kQ<g}G`OIKkqOVgXOoNW}o>I05l7>myLtyG?Orz^E`$AkW
zUkENKnIrvHr!Y_1-=W*Tpc`W)F(;3VpGh^5Ds~H@l#Tohv60I7L@C2X<|&Tmu5w9i
zBBp{W9U+iKC<=d!j8*}u2%nI6MBA2fJz}OcG4MW0DwTtQHi{)1<0YFf9en8UC>)YT
z(a{)pG+*k2(EWbisqYjg%G<>9wnX_x*zx?UFUB`Llh|}p+;lQte(KWxN9E8_F8Pn9
z?o4hI98DyuyT$76MD;$gdLI}=aNVC@!fZ<h;+~d-XRYX2o3z^DuRrG97TfUxcm(;D
zO9zNo<DS_{YNlmO&2($Bpz?ahwT`)hSmVxk!LCHXez9Qxdxm(y!ApmJ(!4HS(0%K*
zx!S8;*Ee6={M$WquU$G6E9eI2z|oMj7Cy9=#_2@M2GNQ~H#}6pVh_s44$Gz9kBV@l
z^UOBVb1Wx4$C+(Vr!TBZ6x53a^>ce-EeGQThY|(H#DZh7<0s+;Cs!!%;j*QbF;(YF
zeN-B2SbwaHDZ*`iWX(@lD@AMN?C#lD<JQ`QwN<pX&ez2{4#usA64qm)l@)9~31dvN
z=R*tE(yiaxhxU53^;^DpaZ{og79m{=o9;#6ACk4wE|=RED`R?)1kgl5qgc>5=bz7y
z7pzVcbc+Su3wvUlKTd<6rpSG<GN!n=q^bYO=DA#YwIEj99Bb<ni~HiXz5mJPzFczE
z@bz-IEkR@LpRBP~&g@8-ibNAks|>a+j~HY0q17QBD7Zr4=lM3X<rhDLa!cX*U;M0z
z-D}w0!|r9che>|>!-CR&v+2)wmiF6CKiXE>?>7C#=F<Km)4$tP+Fx$UVAPQMI4!-8
z$xIJgBu~fizzoj5()RZX>7l2N@g_>43xZyU6iT~f54+Q3yd=<v0WEM}x_~?z(ntO%
zB}6$Uh%AQaJ!k3HZ-bo@<-VQsJ0>MQ#PZ~}m0ij^U9}7ogxUs{w~LOvikgrY2;j`T
zCJn8YsrR1=1fg6@J2x@MrBzRN7l!Bu`0CjJ{G0%tAmLOxf$R;N5D!^1k0IY_tc`Fw
zWp7QtCDt6aRAdKN!{mLKsc12Q6GIiw`-2lCa$@B!Qz=TVsfdJQ^iKiH8VjR73WB@5
zL<&lP6A?n7Cm@EQ18J~rQpJEchax>*+Vk|ukF+qNrFHvMi}!rE1I|LgU*vmMAXv6f
zy`TW%(^n2kw&_}IpK8mfgHlY^9wrGs;pHGLWBMbE>hy-5`hQ!y65uwj^Sq1uA^`#*
z0r3P$kOU+WBqdUobx`IZJC=1tViG%JhoJ~smdrz0P*KE?5#{mJWUY><ai*dtPAyL}
zG23J^%uJ_Il4&BlX_H>^u0WeGOvTJpnYJ_S3?$m4)J~7@f4hra!jNbufyB3Oci+A5
z_}~A&|Nkp;xT82%(zP&K1JmJ;(=Gyo?$UyclgB)3b-G|p1#+#dR?D3!xBU9DTt&%W
zq4oGD$ONL&e$HL8?s~fHj4V1gF59Y8uKJWKl7dD9oJr6r2E^p-?wii$q_b6QKX~1F
zFvFS57MkX^EqmIMo~@!ACk*`kkiu>fz0Dc3!QQ%RL=e$=khIlSzi?p5-z52)ruL_t
zL9u+>btl3rNmM~{U36C=eyBACS#>XjJ`MIQEWYI2CPS1-8NnKu98GR)g8L;rdfeH$
zVjWkPLgf6w!&D|K@PCzQh~p3|>(7TpS`&*VSN21!tbg5Dwrs4Dv8;c+SZ8=lM}~gz
zs<}h5_6B)Bw01YljQ(bI^s{a%5BOf8KaSaJbOf`=+8y-J@uNaNbVVg#iX6Ksrqzk&
zjQ*kF(S(dZmN&iq$42nr_<&9o`{3}PaE#8}M+Q&dGg&rU?H}EPREIX>FBIt+96Y(_
zP!!uPOl+hZ3hK~FC;MG%#gc%=bId-<u1+pig7n6*Dl^^ms2`?lY#n9I{Vdi2j4noF
zKZw>7nD9WBat2(Ix|9ws$z;=+^EwS25{+l7oNUgivuyF+EZH_Mv@hE3U$#1ahevPP
z?guSp3$Xq?p!Nm2(msiG<$8GZT{+G(b00Qz)a>yHJtHx*@m<|d4Fd5%i-0_(>(`Q;
zDO6rebQ463G#jwC$s<!C{0+4iIZ0}XVw7r%yXh>PjZg2s?u@;Zm=DjL6-_Z#leA5h
z*;+F^X)x8|Z}mwyiUa|C@=wSS*Nhwbxv}g}RabC;F1db#9m;<H)NqLhOw`m5I9k8q
zjIlQBKh5co_~!lq%6zDQ46GyCkB^;HRySC8#bG&mJ31T==#OJXC8GveMhvOHQdmh0
zfGy))32Q>Uh`0c#JnbccbcW*oCz-*9Q$t`xfziZv)-)8bMiZ)D4$QhJ>w}Dqpn*D2
zr1;=5VGunR#=21q@H>dz)h}S(P*!p!Cync;XZR_CE}_UnIeN&VSX}jW9vB6@`}jyd
zIBBdP<Iy9sMG2x%h@GN<afoxK?xjys(+$RZ4*+12E`oeu-;v(V-aUPXI(xf6wWmjx
zQ=?vk&hxjpq+O#!FbbfQNe{$Mm$9@|3PGhd6k(~KBknuYwMa1q18Bbw<7(BSX}?&r
zKMB_vS_zhmrs8E^)e9X{`&Jy@sqT!yY%Y7pR)B-tiW<?jAyrs9WBd(<ly>*q1f8Tk
zQ{KwIY>IGyZf@o0EivQwjIDhB@wO46^GW9AJ5a=!<Hxri9vnL*tYIur4`B^24?=lz
zQtK=CzZjZ}Vc6Lgyc(IxYZ{FY;U{Pd=DbG@LKqDiYk}uGmYiY985T|9drTOgxB@Wv
z%qlPpa~Q-Y`6Q)3PsLqZ`gG;p$sI~x_(#<4zdus32FckVni~F)73;YBm-!gXFZx0x
zh$sVba_ZPfb-edExkhXX|BPh*S6}1c^ShUv#Mcl_b$`ej@3_mS{3O-Q_ety5uP*zv
z*HBR-sGn?~WfdhbhiHo2qoQ;)t6${qExS*~z*&!FV~p|iwS$e1gS?A@=a?Upr(y|p
z%Oa=(f^+5ea)$fT0lY+nu~F4!>G_+^646;BnhuHKLrJ*Knq@pOmE5Bd%8`P;5d{Ce
ziB@$@#45;Rt)$hJ{SYtf&qqqGiD%G=Rm4O2<=?vTj2gL$c=se-*W_o?bl@SL<74M%
zCX#nNa)hL*u%s~oTPA@tG751~B6AeYaP)c@q>M!-WxDCpF?xn^O|!IK?&mB~qUUU&
zgzJc3NT0PIMV;c_w{bQnC_ln#oi9i^3a7f?2Z$)oBiFLcMd+{dq#$mp=PsevL_F7h
zkKXYk<o`SN4z8bzgKE-!-R$>L+aEA}r{-6E>X#F$)`^>yz*J*uoF2W-IjanxWZ#61
zDQ#O_Pv5DFoNA=O+CgS8SE(OHH)8vAC|Y3=kv7p6>O#aR?$_1=f`k>$6fW9=se&Tl
z4ZS5(k1ShVOV*%d4K7(5Bx}Q>HM(qrnVAg|abue$Tl1T?RwBhWvaHjt#8aon;-jZW
zzyv=tfE=<v8d^k_uKp38>IsE>1cKUtAl5Pc%Rk+-ES5=oHo*yg=*QrOOdxgndwmq7
znJrg7873`F(zh{W9kxvZa}KKr`DBxf6UK8^$XOY+Sau3abbiiH4UwoC%OdjgA&>GQ
z4b-@Dr>NyLv{4vZ%1|RsBBeSfTinKt-%)DJbB_T-uM+xEMeCaIO#~X>!On?eeciD>
zm>e7H1D!v1rW+>Z1|v~y7ioW~0>!}$3mrNmpDTCl+8k?-7Nrfx2GX`uBTs@JhuSh4
z{;Y?kjpztzo7yc%(h#SQu#3EaJcU1llXkM4`UWT~S$jI`-an>yp4_se3p>XYfx0~q
z_Z0*>wGrmvKtJG{<bRtSN?2HiZ>@g7blCtDPmG*82@UU5#gQ-fVG4vy-tee!MtB$D
z+i64)=oplv$@1JI=N@@>|4mcrqN#k@RJ&-Zd)w-J$L3wZOvdJ@WrW##Ztt`EZkU=^
zyfsVSnB<L3J(99|MQi2THsASz477-SmQT3>jIEd4^^5KZv|?WP)Xb-rTy>JG?oC$%
zhL0!uo14xJ&<~EF$|w{Ay>HQp0X_O4L4EJF=2%x1_j*-jH)ni(HxCzQfdHq=1_;@y
z(;9`CG)mZr`v5-uh?~%DfmP&+@EzUamtD?~g7V9U0o3?7>%`42S88gQHc8V)&W~j6
zn8b`;`w-0=?3d53&<VHtR=ZAc-_@{lhILAoWp&>rzHy!SJ}sW=(^_THG|~udn6!_|
z`N486mlu_2)GP<-?7wEmuR4x_*v!t0C$hL3Et9wr8iS04OwyG<J4fiknZ9dQCAucf
zaSQO3)=8_K8>?2soTyQK+I1|f`qlD~Isr(yvEu;Y1<g`xKI=YlTigztHVP94a;X+b
zMbYLf=NGq*Wifb=W5w8{Uzu+9&fAY$bv4e{kMmi`vF4MtLkr@7gEXn2M>*A2f*NGf
zaJq#RW{rbdWHC<K3s{SCsdWXxSpbxkVJBXXd{bM6^4233w;tmsZNEcpAo-ZD+!MCA
zk!mw(AMxd{K^)e-w9*38n#GC53*+u*vnV&FJfcCZW4>=ZVF&U|`C^k+AWHF1YlTnp
zy-Oj(OovQ@S!=tGrY963&0T7Vw5zsmqE9R3q3@}&0M$|n)$6o$RvJ-DT|d*HUwF`}
zc|vJr_`ODzcfu-oP|Hp&f7PeuklQlr)H%FPox9Z>v@7~A&9BPn#i%z=I!AWtW}_Z0
ztm>OEXZwOP->lZdJ%P<1Y)a)HSLO+qu2&X74z*w$g!82HJQUc%CfY-4KH61n5#Xj(
z$wjPzkX$U3<!phFw#zb$N5ENa<r4g9(0Gqw7UN;b?fj=@MrfWlTh%vXS$rfYuxiMt
zZ&PzWu|xG~*Laa8w@&$BmUVp1ft<b|`%d#JO;*d{JFnZDPiJYk+%lg3KrW#sCmHpQ
zOAZ2`sQNHSjS8c|i07JBXoCG8_@@G65U}G=oi*XCL>>cy(dL~c2;dLxDfI@B$-D%V
zOOwUmCrMP1WWto=*Z#3FqVQm4SVnkJS}Ylv`huAa2+j?MA~=j-T0jOUE(KN|$ibrW
zS<Ltjh=3vUK1xNF7ei?@o3>O2WTgPlu-9#3hcayY8xyEs%jmF|$@eIn1Z~BJ`;Q$T
z05u3zD#r#7^!~>bo<$95i;O9h?ID;jjR;|K2xB%L9fo0F7-eNO1@AfrVB+X0VPLQi
z5F-eb3V3h~wC12NfZ%I>Rk&Lv^5&ANl!EQykf8}I>_pn~G^Fm1B@#5&RLym^okRV@
zN8|k+<8^r&Ahwf9yCyo|k%K))<SgYe#m)DyEgIM|)OE)rjC>9O!Ug3tOrr=pf?eCF
z+ky3phGip2B$|<Xo=c6EHc`_u^p-$4E?I0=X%U%8tstTpV2bf=Nf1!@CN<)Nl!6%=
zowsaGI~2(o9H(K&a0)m#e2KL6;1QY9CwZB)>j>)}`x(WaHbURJ@I6Y5=~t$Tr3;P<
zqy6y#h++1P9z7utotd`p`O3f`%r1|Pu>C^X3_B~M5bqoqA_!Oql^U=yh`v58?4$4w
zY+*(deRP^9{59UfY|{#r_E+R+)%ary>&w$_>4G&~2}-G-8fGRaSlg$0GPZjRM;EaE
z4ZR?Q;}gD3g|HJhP`>{W?(b^K37LMh`wRbrDEsJxp8?s=gbN{OR`d0tMQiP{+rQ)v
zN$${+n^~kdoOHMR)t;rcJyILo{ZiZhrMAOT+u`f(!#ToUhaqmINy<efcXYu3?W9Tf
z7D(;EbZT+EL};aUskr@0mss4MEZ#lsc+Ucmm};!`e#vwHm71hy*Nl0^U3B5}%xRKC
z3|xBR;uF&jCg(P{9f+r-r(xQRh-IOd8((Zp*&Wly=@YPK`z`aU&R3iZdw_!~vxueu
zw5Ar<;q04uNEuU|Ik;R9SSkof1)*;R-Ykg1l)>y*VU_k~N$pZei&WBb#dLMcV#!0Z
z##GC$S>q+^MXMNWe5rPBI9b{#dYYDf6>~?w)wt+uUe*jJ?U4LCQX9%&4!#(ibIhCP
zpOzxquhw9rR=iWTorE$3mi%E@c)EP#)kj}>bYX|+55rtjs<BD*)L!nn?unu*{z@h3
zRC#D_>ugVM4#9Fr@j0cMwkusM?e~~nCJR>{y3D_L-^HGlvWlg$O;XvW`JRQR#j;Jw
zvaZ=4e2<c{lz;cz{+9R6#u6{?%OXpqZBl95mGENe?%D1;c02|K&L6mR-^KgHvgVhL
zT&_q~G>g8Lh5grkovD^q(cds{0*2tuZmw|Stp|Bv%Tg})g@<Pz{*y;;T8q?Pqp^CJ
z=^X<zyR&J<=D6UPah!LdiVpvhy<D=Fzx25`?RBI~e8+WX<ttk#vAr{U&+ofq<{b4X
zqSh0&GzrWH)5BMhY<SVuohogbao;ShS}NTrm2MO_btFr7PrH|kN@mC3Dyo_8Oa)7q
zf)Obg5u-b=R*S(%GT1ZyaLQFScSdqWAn9l3ytU{Z6^%>fo1v9>vAiwmY?sR0X1_Gu
zIa~BR)bF)P&UVq%ey5X13qhE$#QVXWEocF$Ao}5Z51<u_X%F7R_Tbpxi^aRI0^8Sp
z-PZjf?ZkWd4}sp(H5I;^%l*L}FX|}T>wbH?lyhxO3}aUKSzyC~2JUAq-S-_RHU6R@
zaG=2ai;f8V|4?tki+?H$9&9xJONZ;=Hq*5N^MQc<n%9Q6*GkO?!q#h56y{ok{a}&t
zT1&}6m+=jY<)EK?!)3;kH;Rnp_ZJ_G8sBI%A8fa-Sy^bZ$MEM?ufZYXM;bHyoJaHL
z<GLNu?-ujzooEKm`Kgpv0@#Xms7Yr|RNShu;|8Mfi545n@&!Ow85zGSOB=y1*MDJ(
zV?;xD_P`z#h^lE!S#;<yf(R2CL(b0TAhUi{#z+icVy9DDSz16nTqLveP}GF!_!z-B
zB8Lt&hI;YWgTFoa8yp*mf%ITme+CN$P#%nyXi5OhbsYHm5J;PWrxgH*tPGVMV&?G0
z*-8k0+OA!pmM^l@aO5d#PgG8RBheTZ6jpQ=_=}2_%IpEVk`Yx<t`$3dWNFFz1gLT$
zeZ}HXH8qmJ;-?<W%f~>vqj0j60E?)?DTd}}2l`4IDp}~7GQt|PCE6H*S_lYwFwJGB
zk0%CY%8V#Y`KRQPO;*Q<&U0J@!VlyV#0iv-s1SO+j820xGp1B}5q(BSgD~dzx9Qn!
z^ov{$I9W82i?3@=;r|eFo)*b3A|B9OrEaqy^O(y^DyMxA^=^=S4Wg?7&$MN)S#mco
zx`C()ta(hUVbZ;6{!5a(MYOemhv&Zy?ce@ixqX0Lnf)ImNJ{XT;?5v9R|)3_AvmuE
z?VVxcYqdPw{3Ev!Ma&twzI%_{IODwhp5qtr5Djpujl+EUyuO1H(ofA7<Cad_*$?9u
z<ncOlK_0$Yb}nFb88AGC`9Rwhtw~>=7YyoKm|g2-{r}@n3XD#ckL{KIOo%Ah!C@Lm
zl)lHhUN2CLtnWRK+U54WPgA%1201U0!+Ig>kJS{ISZDHK4AF=zOMOq|LD>JCdg3&~
zkx4O6PERDI1M|G(i;Ax3O^txlI%CFWw6`z&O1?gJ>FmX`NngW!tK@4GU5&q4b_cPN
z(aWH!yr4<)H6?w`3kcG7-PMNm%-;SX>#<Ps|2BFo7C7`+;%q$=?6Pv-sD$(5vd#ea
zT3}<B3Ci|(Jb2y6liy?{zt!I5GrsQS;jTIBA>JfggXmytUC#4*oR>VS4tNk*lX8>%
z2yqVb@R;c&NM2b4{tST5q(z;0qLc6gTuqx7_R|bKffKO@?@3#iiFjqOjZXUC`13Bv
zMH?8`0Vh86mUws?oElK<thTX9vj(8nI3GwEr#_G4lTTVm7hi%uZ$~;7B^RuIcmmt$
z^o-IzA2f029|C{F2(XN4{4ZJmR%cY2`(<IOyPV&v3!%K<m6t7uJnClrlgDHW*lR-4
zZX5bIht7--%5grjP++4b$IF{NE2O-;rp>WDb=&i9ADP4t+Y7R7AZ=aJ_CZu<kQU*n
zP2O)&fV7*T1!Qp}lG#kVm@XUk^msh&QZ+Qux|DWn41p(y`mu|4u=R;8rD+$2VfH;!
z*{H5nY?ul!(;z12mozN@9+_ho#k6%OyQuv8of(+EQMNNHpq)Sc%-NLN187xn!|cG^
zUa6#h3I=ujQ~PcPE9OqT6^u^1pekc-C#mY_yzXpDxya;(y?Bntp(@@*+NRxeE*N9P
zT2mIAKf2H;6T*?!h32;+U6Lz2y?4%)c9&gtFF2&ojw@eEh8{@8w$HjRJFa^+-7<60
zZa!1YZP*CY5w0M%O!CIxB=pcnq247#;lN%eY%Kwv_8{yxS(u2N>^w)!ARt8AG%_$S
zM0P#d=gc|;c%+*H!a)jp08VsLI7I&cBxi}7S1F$&@;yLFIaQ_;$Pj@hhqPPwB-Vd)
zKrm4ZnmYtEKVs0ncwh)0elQ_`eFx)Bcrr+eGX)#nx^s9h0?ibV`#N(HlmxQ|#jGo(
z3n1${MjWBo@aVwPj3dA%@^q1W<f$V}($SARiuI|aSN{-nd#IeVgly(CaJRSPC=0Vg
z#SBy-D^@CKZ6bsz(P9FfU8U_zwG^pKV(Un{gWc;&6jO}IYKY@eApt|Fi9z6~zI+^v
zCjA>`2rFIkkwi`bsF@Jxv`bNDB`dfR=v*-!V8L0C*l|L4j`hjmX_Za~b#F%o#|TlW
zy!O*;IWIXfYdhs7oq!9N@;IoJ`U;?N_-HX*wFFx3(;k+#s#kUNWCF^c6eX*;5zbK>
zq^(5=lhZ(*=`cA>bo(gz7$>QXZt1W>U<-1He8hzn=tw}ojLtE(j&P8CpCPA@oTKE#
z$*Cvj2&H$He9w}@#tB>bnK=-KyLf_v^pQjBoveWBN%ApBB3TiTg$xP*mS$odcTonz
zCT1OsTA-*2a!!%MWE#$pua1iH@8p0*4&D<z`x-fC$$6EWACq&HoX?W;IdZV0mr=*U
z-;s|%qB1&?K!gleClKaLAoP`XSkF$t85@a_$pTR*@}yWznb(k03ny*c32Y{8kaY;v
z2!b@QdSOU{gy8wx9uIF?4RgHr9nQ}F7ret2-r#C(aN&2k%{RE}8(ifLF8VGPy1`Zb
zE9ZKL3%<*37rE{K#%;O5MSjf%-!~X|1CT%b{WrMU8{Cc?+yi$EMm(}{d>FA;c*h+B
z&sRdsfhUV!1}DTP_{v*0&RZ^)H(rlDoGjWqRhY2^_<Cqx!Ys@z0L|A*Wlds96Lbq@
zjCi$Tc1*X;n(=ze>{A!rk~4HUeEHO?6R%8wB_lf9By;<!8R0T*Ttigke6zhU+LV}!
zT>L_ki)1Vg-Z!@;!{Krn#-(t9WwI{5ho7=e`(cl1+g#UWn;6|8K`gQy#>aPwg}Wqs
zN0RGaweWmf#%AW5XHPL>KpeaaK3FB<o39lAwETy#`vq^t!}H;}JumNjaUWGQyfDBn
zR|bDN^uwW5dXlkO`E4n{3HHtGgK;AGtH7k9Ys(h-+S$XdsOfW$pL=}OjCUEonTOpj
zH5R*}Xv{<Ln1>>gCmWM)G9D}6mW@e%Ilnd~zqXW|Ut2a7!u&q@g}LgwRHQK#j-<*$
zx5`?1cgpH|ZsOcT1~_E*isA=0*^L#n(0AeSna49$y0fWwcDi$L9$&^uJ{K1#%@mNY
zkgJbo+~gyZcbOvcc{yKTHgPeU@zEU&<asVM&NR;XB}YZ3m>!jIzTl<Ci;b845WCC-
z=ur^c#0y`Y`RZJ+<gU(aphu-#@rDc)7VEFY$r`?b?x0h8O?4`GOSU@jXR8Cht~zw5
zRfq26>X1*a4*BHjkWa1-`LycLT~2lAQBHN}QBHN}kz5_}Y1P5qE%3`sC5y(u+op<?
zr#$5;O?j)|w?YsJrtHm?DNiWnsZ4q6^pDnr^0H7nQ=aW9Zzl_Nr*N-}ufD~RoB4c@
zt8JLFh_)cC)7h$$TzzU&^OReJ>a!lHD3auwQ>B$t&gmm$KP<^rW-JEYD{hFw{uU4J
zr-3gMYc|tOS;k>UOUs51Ge+{))X7)s?zmqu7q6Oe&4jp3EvbrX^tW3DZiK_!5ue*~
z@%Tm9p2htNx{(=I`Z_S7M?Tm!jAZQObD$f|#xFWDPP%h(l{Fbk17F5cvg#&Zm<xrc
zjH0<1cIwRKNv@WP>=sMvsg!Pr${Ji`%@8x1$zZtU;Q7*3Cwv+5A*1TLDU)a^L3gxN
zB)Kp}_K1N7itIst;Z~6gtyI;n$szZCO^zt?y$VEa`0-0;@MH`gzGSYBxc9d?cxhsm
zAKt3x9L2MbChe6|mX-35$Zeo<G+Yi-*&C=AZ%BE(soG7cl3>cW0fvNc6`bVxI+&!)
z7|FBZD9D(}gO;zX&RCfjD&71UJM%i|dpMcb#T5q7L<JSAEQ!ohMy?@}ibPZGThU)`
z+0XL$uA$nDkvuEt2xjsi-Du-{{4X3CE4#&jD`Ix(Sa>v)#j)ySZ}ytFt@p8%DwTwA
zW$ECmONQ>WROn7lgnV6mA-^5wAtT?9{Gj>!&9JJ-Z@*n*z?2X9zEY7ZLORrR#puHu
zx8LS)RT>k%+bssZ?l!(ngq(VEq8W#g56l^1H<1tAc9rt(+uN=D=39P0|5<)MzRJ-x
z(}LBh8;0Z_<N2*An_mo&mcopDyQ4$)teEZ7;d7r~HB+F>R}AI6e-80+$#nSP@1?Z-
bnOK+)&h8Uyw@H4;9^&T8k@x7rNQD0fIFy<x

literal 0
HcmV?d00001

diff --git a/distributed/__pycache__/tpu_distributed_utils.cpython-312.pyc b/distributed/__pycache__/tpu_distributed_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ce01c9ac59825c697be232376fe171921b5cf939
GIT binary patch
literal 9285
zcmd5>U2qdwcD~(eNv$6v|48OXHf|eZkXg%vXFOocLST&t24fh0b{H{9N2uGj?A8z6
zEn|D+V7915WJtzr)s{UETVtLO#Z<+Q<SF|&Re6yHvC?#TvZS{1urFICu$#@kB<J4N
zpG_M>QmIXYukO#e=iYnnx!*bW+<&gAu_O2-=JW9VW`ur&3#HFe%)Iz1jnD!TkU&W&
zLIo%a=V^(Km;xq}H%Ux@fjX09j#vVgVx2W&3DFdaumM}K#vXBy8fTz})G*SPh%4YC
zd9zd-sSDJRyhW;yGz1zV?tnYu33w<(Be70wd_?Ip3T&m(2S~8qLINvV#@{JTxbpkR
zRHWQ4*hFUBS!pTdjCu)nv1a_e5=G@#aJ)H>5sTow#RR;6hH-0P+@?RnxLaV{X4oN0
zaEZ+$v`{O0A*~aeM(9yfdCztV^|w%<MQC_)SqgT+EjR=d$kYR4aMLDV<8Se{_$bYB
zRu)8A6b8Z}6^iWHxEhW{gVHb*Z0CY<Fe0j=j0wZhu*yrZ(NQRxH205UQX&$?6p|!L
zL*b|xl(o8#PXBm))%n=<wN;^tMj%u^95U42hT|ck041OREwBP5n#S2`Vm&X=qFFF)
zhr$SxLL-#G+^Pv!1e;)n#aTD%1){V-JB!slU`wGXDqz2We0I%!Sqi>7ZTq!}NnX-d
z#Y9A9>`&Gy#eW7eq2ie!lVKpm<rmxFO#Pf%Kq{%m$sJP?{hb-1N5vWnsZi3tB&C)X
zjvfIj;7_4HL_eXDl+luth{q$54=4!Ml*+|g#8+`QI;jFRu@^?Meh8RTniGtNC}jLM
z?piwnE+wgw9zrkrW_=Qk*BMaJ6{=}8jeMrz-(tv_X}@@mJHqYf!U`9QO4FQ@h{t2H
zDhga83R=irICo~i@3U!UXb@$M<$0oXyk-w8;i#epqajho8llxF6X7_2H5^p<pde@t
zSyU5plvHR|HO?#H8BuEnbqxyqbum0TrYii19E<Q(+gigbV?nvp?qf7Y5v36sgPdH0
z2eI*dND3+n&nsB^9LLT5=}fm8iFe1t@h&wekBVy7RN_G2!HEN6w-mnG9iLXmV$tqN
zNs4p}VMUe0R}-+jZZ)3ZtIB*r4NHnYJ}uV+-<f734fK~5zZFQ7zlY?Hb7+OFxns?;
z+j8uV71#E~&RoZVoa<nQJ(zJFEHv-QH}__nds7TF7reXk-u+qceq7pCaBa`KTC=X!
zrH{UKb!6D#%--QAkh(hlm34l%_J4tO=Go3H+nGL;W8W`0Tp5SA;H=F%cV?YC7uBcE
z_Ei&dHobrup-@qGaUNm)BWK}vkitnQS{cw9G+s?dh!Gku>ua$BeuT1q3G~;d(#Zhr
zFY{W%wS0yu9Nvm+`6RF5Y5+NJ#kG7=RYz%FM(5F3DoKE|lGO#o*o=dL1m2Q^!D`oX
zfO&2yt)ucgPu*morM6O2%H4EAJ=W`W-yB9Ba|L<U$lPFrx01QFG}xvRGZ+chYpIfX
zS=Wr$_g3>NOLx<G8A$Rq^D>a{Tg}V%#_}>4Y3;lS!dr(m)07k(d`M|EvUn{KmPLgh
zm4m`VTBD|hXAZq$VL4?imXHK)EI280*M7iF{D2Ea1#XhVpe`z$8Uu746J@`TlG|Xm
zKD&$oLu0QM0bQfjn8r?&O6+7QM^7nQO(ZB!==dIvj%t=`x@oXX6n`hluaB0o8$r-s
z!4So9vKLougJh=77?!Jz#$KRPu7bh<G;eENYJbpmzboI?lWpr+?tRkM_l+mF?QDv<
zTl2qYWbJu&8$kY|`>W<Jo6}5sBF7$Dd5c;=@GtuB^k*Gyg@&yQ{rCDa4V`KAA3l5d
zS*Ck%711?Y3bjKoOz@j&7<_3#-u9(|2dD3!elUE07*^4aSFz)4YT)ka73Y?`vnlIr
zTD<txl`pTP+m|gl=Yf?SyZ$dbJaryeZ9vXlaudjUjlIFxN9@hNz}78*Z!!)Q>%UKd
zVwRpY%`(t#WQEFTUFkVqMw3ci3Abj=YWeIW%>sBqJHTpvO_yxdtfjg=Ny9(W46s>8
zWnD)_XoU4tEFe(X0#xQAn39&#c-VV0q+ycQO=-+Ywu*)_vQjrcubQbLg@FugoAudH
zF7`L*X)G(p26C_@ZB=VDmX$SW-;{<;Iw~~N8%f<Fl>PY)cgFe#G;B2uc+j@tLAeDq
zK;DIu-8kvMi4P~8IN1k@&#F0N32-)5;s7g}MfZI*MhL1w%@m3!bP%nV#ZhoiMVXJ6
zu6P=Qf!F8M5fMAVn&TQDmt*6)GwqnDDp25(V^3OV|N2QOm>2lY<xhuL?AFfo7(?vq
z-1bAzPf-Zu7CPR^cl<C5|JhwB$NZJ0)>R8?<no@5tfwRI*_ZX~%X_-Bp6(}}{VDrO
zL(^g)?M!<!&Aq?8lxsMhVxg+wY@GjW>B@3{cK4Bt^XNB;mnPb6Pq6@m?&e}+cI!Kt
ztvwm%yT9x$w!%2JnmpT*Wm}f)>61COmw3&uDL->~zBqd4XvWd8;@P=4^VN+nZ={pU
zj!etpZ%*Vq=Tn1FU8vo$;JW8pa-=67pU(O}$kd)J?A-OzY--$+8hpv3#+E9IEZ3Le
z`ZKlAA0~w<U{W=8dFQUIbJx<z^hnOxOWgL2%1@oW&#+rxY!`CQcdO}NDL-|-`zi*P
zeSW8o!N>@M73>ijU~d#I`m;2&!IrN7NFM`iCVk*$y<r~%kC^mfD#&7Ze}<c|5&k9V
zl4n?r{2OvG@-9tf4pp{cLk>oMVEINcYgHRck{WlHa+TktIcZ5+M@?%i61E~0l5$So
zu?a7*TuEjvFCs}B@M|oyDQ6Tq$zDK7HfbB7A+Q2>{{MmxB1a}6906Rx(_M#G8a1d{
z^dQSR4AIPLOb(3!WCc~(13kh0!>*cU4o3mr*7E`X4kMKY{+<3issFMVq)3gUh>IBH
z6gzM#!;$XtY1WaLd>z68Gfjq=RBXKhJ(U6^a|n*xZePCr{cqdfpLZ{Kf98EWkg^oo
z_r5{ZN?rZJwtL$acQ3ggG~aJtwmhjjkg~i@?aNx^-oDUxuWxZ=X(T-YkoLGI*Kj1o
zKI=c4??3Zx|CzfdzBqN~)coY)<kDoO(Z75g9I4EOkKyiabHmhY-Fa8bx2~2#gEw`y
z;M%(A&A8e#Y&$vP52;~rjd2V_#tQ9o;808yLV-NsKF>#DLPElMC(mC?1f^mN9gS+1
zGo($%Czk{_h$}5)u$KoQ(Q1k@m5?Y&JP*G84yeU&j{ZWo3)tV0ae`G$!D#=-Tj)9M
zGVfmMdC+&iZxumy`Q+nIvhRKHdz^pKR%<@E+TLP*?=k&Pwtuv}K#={zajMb0n=FPf
z)67zET9oy;jzy0at#KyHK(+`Yt_@zOW#}q70D7pd63!bp03A3a<;x$iEPilxqDpW8
z*L$pp<QvDrUiS$AjinK>GeHiO+zM1P9mnEvDGYJ55Q)NeVJnWquyCmY6^0uRT%Wkz
ziq9%zxR9|wEAPPxzOcxCNZ{O&P_AYc#H)$XhqOF|oA5NMZ$cUetkp1%3G@0`#ACo?
z6{Dl_dFX<pp2|^3<`5W8FsWj$d4JB)lVN%?j-D09l4smm#yx*&;nRDcF1?rb=9u0U
z#(sO~=1``t?{ROAIaYAg&JDfB!2Cbo7au)LuBkJ-N?Rkxu5Y$4_$IM#U*xm6?i@}&
zf@IBJG*|Wln7^_S7lD2j_gS|Q{+y#b!*pjH-J5L0`;W~z=Ew#cfloBKZABsTwg)7M
zBge&KG)q@v-{a-G6fiA*0$Ab_EsipS+S9`ou>zuFoitQ;v###=+>ujX5vI>n(QnNL
zkqVyRfr3{AmViKyRwZ9zH;SW_6#ZkM{VDt@??Y0h=vDHqZC|>S9(Yo_f9_OSy-QMc
zXBf8*NMwHGOycE-F!+@|oF`JoXB6(VhL+pNm%4!D6VL@<8w09*66Yz+qC+*o*OHxs
zunIqNEh-0q1Rp8|8|FFm%u$zjc(V>~-my39*qdSYlF4djU?EDx4y*x8JWDcDd=I%z
z-KODX)0Co96g;%hw`_k))94Ncu;S_{G)?)Kncvy5-90ac60#DW6yXgZG$w{7xFC0K
z`XaXY92t&;f`Wi?(;TF7EG~zGs#rm{s}Ld*;0=LrgD4Sq=Ip?wp%eVYPtHMdmjC$t
zv2*864S&E7UK;)p7XcoCiGDjFKPHbVhe!@jg$#EH;1b66N2C5T#C~D;gkeJ>_zIW`
zfA|sT5O*xfT^>3{UMffp7rQzxhEy(rCj?GHd5)yt@S4XWY$Y%rzjz0P@^cUvhE4q&
z$D&;KJt~$5&|h9a=u<d8IE+!TIu+q2P2_2Zy6d4)62h`~%2(c5Gd$DKNs0ttsS-zc
z_Aw_>f|A=eIf}4>NpqFG!giT_aDfLNm6oJ=7EvflF-R?2GEiQFC#2FG9u*Y>RtHpM
zb(UExC=Hvmf)k4>yzkaA`Xkaz_r+M88xlcp@V<c$f?txNF_jai;;;#@1F&ybMee!`
zJ1z?T8Mx=hrC>+|TgY7xt7F(EvRc#Yv;{m&Rg5U)cvSF1vnrw*R8?7HB)B+hTd>a~
z@S(A=B*<bEywguWE*gWYH4EUA7*#cgK1p7kj*D6inG~oYKaz-sv@OLs7M&^0PFN8q
zOLOXZy|?DV4lLHhBB^ept6kW+Io)-_Uj9tG9-oBHqU1j;#X><zIpSZ(;{i}AUqgc5
zlsX6VokQ8qp<i_lXPq6X(~He3uEzPv&u=X4d*bT)uGOEOTvng79-iOwY-@97t1m5N
z{6`>gSXW<gpMbz&U43Tj5pXHpZRy5rLpNMhJ>G?(dqbJl-sQ>1f0J_$ueiO7gG&Qx
zf6m?aZ2O*h%XhV&)fTkxEcLPt`MT0S&UYQpb{&7xHSnvwC$i4=)Q5}C@0{Mnp>*f+
z$W!MJpPP_xkRo^lwqW=n+%9D7iR&&ZUbYV8f35qFnxjevvINb)z$7@5{hxE_5AFu@
zk>{Pr?4CdIl-Z$kZPgs$-bkQC;OQtbK8>0M_6_z+_hk>`8ny%z@+n+wC>8y9OZ9hi
z&0fjN*n8D>5Go#Qj=$;&(67WJ@NQXE1J938Mce_czRVe$I`Ras2W}krY0<B{ZZgIb
zt(DY}?dHWP09NSg*NvOMc(o#?h8P{<a125>U9&&LIeexy2ES|*S5C%mgp6&S{8u=^
zW`f92p1?UAh1IPkdstV{Bl0xV;nS@2Lb__ADC+kXM74j9yuU%t?~&)%s3n71evS5I
z(4Ozn-hV^8{)1*H`Z>ah6WKlUm!H^n&RJesu29tO#h$PFzU+I6aDFvOTc|qlNWM6D
z=OB)steSASt^L8C`+G?Knc05(^3BV)`J4O;GqkPN{|`EN){Wq)8o{$}1kdw&#O-@#
zYs&2G&#;FJww6rmu?%~>P^wwAGG@yQlZB%*sOjJ9Y09^1Z=t;NiG`_qQwull-B?9X
POoz$O<AImBM8x{vvxtG@

literal 0
HcmV?d00001

diff --git a/distributed/__pycache__/utils.cpython-312.pyc b/distributed/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3d75a4da5181cfa1b2c2d4a5932dfc18f7596143
GIT binary patch
literal 23220
zcmcJ1eRLbwmER070P#f<B*E{m5kEwMq9{?{k}W$FNy(BZQWj;$W}Jl}%#Z>F0`vfs
zM4Gg@UZ+bXP9-(zif)oMeVlVl9lN#C?ddAbwpG$JRX5ozAkrZ^q0cH^_q6$sv9xFN
z(LegTZ$1Fhpd+{G9P-V>%zO9Uci(;Y-Fx4C^W*${7l$h%d?ozaDUSPl`e9riJ@eo>
z3&-8yBu?TZ+@N;n2YL3}GH79U>!6k0g+YPcZG$#;w-4HJw?y(r9fJ;@>RKbtQP-f0
z<%NiQ)HCQ|d0QlZv|zA+<@reAU?IxdBi_-X!J^UP!D9A2FH$n<8}yBq4wjCV4VI0T
z50<m%j!4C5<zS^=w`#O{u$twak($xk!CIDgMe0WD2kTkh9T7)24Q}E&3n$mg4e#<=
zPX`-iVdN>J`<c7MOP(rD%D?ae$6e;*n|W@-as?<?cwq~bQ-JdZ<q9eRT=EjU!DgxG
zHEwXTRE)GmDnYu%$w_UJPc9reox#D#Nu_eDR3>kg%4JvX5(In5AyvF)8*Gy*QMwBM
z)%Y)$x5=$?>ySk+QS+KG*e-J;e`LVU+%4QuPO5#4lj`2Z*wgi{cH;(jNcD25Bm&+h
z{5QxRz%3ebNsWNkAvMW6rDi<ejQ<w=Z^3VR?~(j?ze{SBi==Xi9}=Xk_`Q3A_iy_p
zLGJVOs!ft#9G8)C3{WN-qP#N^9+f3Ik_h65wKF>5x2T>|N-QMD<42X)_?YTA({*Yf
z5mRKppynM8hAzlaNp+u6<e~6o_FVM^hUG*+l81uhkwkz1#>NwBWnet2$iv}yLRJD}
z8pOabfkaC#1yJP4i?Q)Ie!0WZa3T<i4G+r-{UmUS&{$wx3FBvZI37Uzq4NQt9gGBG
zN+2p<l9gXt(J{YODZ=fSZc2#Hen|xNTePP%`F`m@62iZEQ9b&9AR)QICCnE}X@Z`!
zYeX<|nY%GaJU785@{H#r)WEt+;ti&!vNtV#3Pa1L7Ctl36By`vs;4{f{IQ<iZq*Wt
ztL}K{yetJK!g54X1tOqoi$`R6>?Zes0RQ&T_QdGe_ObBTwnR_?b+%m|-*;gDg?;k&
zNci0Lv5Ca_SakcvNMv-o1bQpsbK?nF+CH8LN8;^c6G}B;uw)xD@hT)U+=qE(D-PGy
zf-40dI4VAJc&@sxxUO}4HD9U6>yXZs$a0(w|BPIRk-5Q5aZ~)H9rKH)c^EH04*4^p
z&u}VkTvTp7cfZO{SpCA}-kxZDT#?1Z`Cvkfj*rSp5CbfR<DwM47><X}MP%{Z1YXOc
zBu8VT;V8XtXEdCwd}*3WMq`P!rC*vRCbtj8l+j?~rbTs{fK_)ElsI)w6crISwM1r!
z1oURZk#J%{*^D>4@gLugWQM!%_Fa1^<!+b{-gCFCau%CC>F-|lpGf&nq#Z@q9(!Q5
zwAvrg^OU>glhh+NV$^Fw2FzwsDw{sMMpd9T!1?*f=l-wgBL<_AsK|+NCF&A!G4e5b
z#-ifIU}Riw_w%fGN+WeIn-F%QfFvszQSLE%NiuAPduZou6?4w{$CiZcX}53AopLuO
zg+|s()t&(LVv1S-LI=izN+O&H$D(nyJQRy2!o%a3+kyBPNE!&8ACF#$t9A{!kU7WD
zhRIz20Y8Yja<P&z?<9T_GkV&ZnWZRC5Y}Br`6(-PBg2N%!l%z#42dvheb4f)j^VUz
z%Ayn}NVc#`vcASm*}6?(ZOrijJjK8X!95t=0qU|C6gBFI!ALAREQS+tF%pau%Z`F-
zpi{ex4N|8v4E~QM;s@DJHg1fp2gPu7Y&@ZZX*b`lCH6s@KIddbj17sIArKQWkx`!U
zfQE<(V1v;)C>|RU&nV+^n>ZT0Ad7M^bY5fwCuVAxKnTyAS2!w;%A+x5Lhs*c#*bOO
z>l7mpQH1Xq*3USDsg!`gn7&rfCuB|$Jfo4=h5rYSBRRqGj7Prc0~hd9{HO8CpYb<%
zo_oDafc*WJ)=T_Np2UMI(-$msmi8U0O=HgN$>4l^SdPk<$CM`~+cgH(NEl#a8K7~5
z#29UVJQ529Bk?EN&GOF!NhV+a7x(KKF6rz1&KDMXu069{+MFtFUM_9<&KG_YCxP&4
zRSoaAEA7a#DW?kY@FavjTjn79iG}cMd@LfPn4gNZQnD3^>M#&c^Nn19Rd?%X5`p88
z(400xny9P(l%6O=+{5^fe;&yUx7xsY%dSpdnf%JsTrgEwKl9XzuWD}Zn~%Nm*f$O>
zRHUkR-s)TQb<LdosJQ&b*6Um6hUQ0aS1c7Do;mT0yt<V_Uy6FZ=<8f8>`Xd3@4L&A
zLYXEsiim&Dhb2g45OP9R;%eU5SU?FzFR%=CWQ~BJWtN!W!JlJ@vKQ+S8nSiQv~|k*
z$CFNO%9=|oNS1eX*6QZ23L(od*10d{gO#$x!jxc?xo&yAP~fI*c#AUHHDxp2PFXJO
zqeV60G~P)$%YDNlL5Lu=f6J`<DxWAcYGpy>7{sq;LCnil4zL_k+<J%*U6x5uWI8WF
z`VhOOvis}M`wRA)c1-1=cXrl0z(P%M%VmDrsq|%POU@~$<eUT~V-@e_zUW15*OYC_
z<>oG1E;CJ6a!rChA#2D&T=aUez$J>c_Bn2()W~J-k{kL$dFHo~lRUYFtI;~oWm7}K
z^snNK(U^8mxq%f=;+`;`_TaZ?$TENt=J7u*T;dwJgsG@Caf&!?&!V(-#1!%dK3F)c
z27Kc_Wq;Ko@zeH~?U(pV+-2+Y+$COb!EuT6=Ldg;AvmKzb%}}cML8OofWS8tGAsbZ
z?_w~d#NzQRajlC=$X{BrGXh;NpG(<UTQDQ}+gvo~>8&D<2BB7C?J=5#!u1K9Bm<jZ
zBqBm<WK~J3FgPaMcJT~A((?@3q=d<rLy>Vwmc(;%C^#OMvCcuVLkzJs1MQ=?nlciU
zB&Hq&BhcKGQ4J}kv0ReHAW#b?67uL+f)EDr&IKbu7$^WUibYV)Q0Od#1<45U332CH
zR(~xiKGE&4w!oa-AwDi%79T$(8UVHt091~C7IHDN=mSU%k3y0`Sv3h2*C;g<RzND!
z$JWve<e*W|sm6dAlmoO0gK7*TZTTk{u%<{8kg?E%iqYXX1~)z?hZ5n7GB}KiT#_}+
zK0!!Dmc~KH(ctCq==i9<Hd8zCaiTUf!yN2LJk+Q1ZId;}qEH;eQl^6<adUL|p!m}C
zq&Ff*w`98RKQvh(N-<f}&7p)tfzXM4Nafony=Zc6@rL!qKe0F*Qn1u>OgotT(o<~N
zF!&i3pe&9@b(S{Kkfnp-7n<W=q=5j3hJsNrC;A_S=?G%QF3O6c!5NP;X2U2x+uM6G
zaOzZ`xAXa)(}7c+r_UTabF9Bll%p5JN-RqH85C$G9E4%AMmwRkoM|UJkukLs2={3|
zOVKxNL0u;)GISDU2da_Q1ERuYB_Jw4maUj8WQa^|B7+#D3`eCf4D%d{$CpqnPQq4G
zJSukIteWrqX35;sZ<gJx(sho~a^CMz1#}8J`UYKAu&8mWH5^T-u4l<)=uwoIqBO9l
z7;d0CKC0TVTo22tU9;F#AsiiwslrGs9QEfbhfr2|f|4hxR<SuU0n$qX=&EXCB1v_b
zui~l|!=m~$Q56^?kAY!OsC+>6n$y})8u&1*W*Eb88<130o$x2<?`X9q4mK}M0V-Ha
zL}d`g$Tbt6g;D@hN93yNmMiz9D)&HHN#|82^O{#JHfMQyXZP~X<Efp;@9tXK*}qtM
zDz&qJq4b-LbMm)ZlRNuok0&cnJ#=xN!r95MJUKUf&)vLIT$2=ceA_yI{O!VIeMhq6
z_??zJRd+j*wI>&g`;wl%6?Xv@PS$O|=idH_(r1!~2a=u7B%gUUS^N3L;^&f{=kC|<
zxOFsD|5(ydv$FfZ?UsMjw^-WsoxX(^@0GRQ>YH^XOS`DZzEu6eq#J+LNLNa$<~ovf
z?YD|jbvu7ny6YOB_Eybx&h7kK!ThF_xAE%*t5&XT_eY-Mt0%6UShZM+o?NwaMZO!3
z>y8vL&|<~zMepv1PFsG#!ve0P?ApkD#e7S$taY(?>&%I?w|Z`5p*&UBk@9xT9J}u+
zpQ}tV>+m-p@8PPR=6}6XSotw$b(W)pX>a?ocTdW@C%N~jMei|~%q0c)OUhPlmi+SH
zty)p&e}C-b%DVaZHjK#EOS<d0cZ$0!h3{IB`$4_4$0hu*(uVvG>zqA#)*rT1_gJj|
z*<wRJgbL;b^@Lpy_G2Bs!O0xCQ3oy0z*#Y9l?B-*F(rlNtfa2U_K^a;PS$P2fRp{q
zRBAF00Z(91Tq7i=)?Jcq63Q#e*r|+^H|S>VI_MW1qn;6R#H_pIg7=*7>PqThp<I9(
zg62>J9M>b)^scMvW*B$|ix>v^j|``H9h`zstyz+VyH75WOXV`TT*ICeGxVU4;o*f7
zwn8eBE2U!ePJmNZ7_5?fcv=njs{r?FC7zb!X$>pI=xDyN!}Tf**0MKca-CdBuu;Ae
zPwOQS?pU-bRl_|i%A1@VoV}Z*8o5lW1!N2U!3UB9|8@8;lenP*ss1&a;V~F&n6UX9
z)Y5@OFd;|a1I>1YPX4%4l!A$12#b20w3PF)2oxwRs)-;y$Jz)tX`88)kWtenUWzFZ
zNz++i^kSK3D>ZY3wu}9wBI=4007Bgv9gl`XXgmY;oSe8MLru|rsF42*!V!4PsMT#_
zP?eabq*ukF-X?|=nSk_lb@gsj<OuT6BhHOLY0#^y0<*bX8T4Rx68?RvJsyLXH}Oj^
zriNNhZ3JKqhvB3H=s;YC_8^hlw$O0-4h2J~IiY&vB!wkN`A}>;3coK2?$E_RTnQOZ
zm=8}aJEz2gQiu#`R>de@m3h9tqMC<QSP9GVH4CumKI+4yVeX@K6N-MqNd$4Q{<?r?
zam#TI)|lx+%3ac!kgyt|?T5)~L=AF4Nc`6<ujdJ5VenI2fb3Lu{lOrTg7JriX!do&
zu#I5J=r+unoKk^?;eGfbZVD}wN-rf6B{C($NZ>>f;&Nn2`8<APD=un&ATSog_%hdi
zV6rjijA~y~Xn|n-8Il<;U08B;;>yI_?l+%&<H>u4tw~2~vaoe!`|ew3{xa~Lz|!`f
zMe#^#d(XnA`J(yGw|vR%Jt^_Xtgz&$eY8Rcp17U(kFR|9m8Apyi>;?p2l{VyE_5se
zZ|+VW=ufqtniW29wEX5{8@K5w{~J|2@*B1FRGbX!zi=I{5WZjII$SIKz~(yKAgESM
zEBLMAi8XEua=$RQ#eRb^b*YZ$=4D77Y?|?K62Ot3n*pboq5Tc+TLK&$T&|so5py@f
z1P=2xW8jXkZOF_!%E2$H<CHP6H)`KB_O02*K1v&#m|37lOy@@CA#gF>61i4agAzlg
z%L4l*g5NgTJOGgbiK+`PlDa``3dCV3GI1o56l?#jgNczuY`e;DXVyZW->JHp)RF@v
z!8E=N03)cdazeF_g+mu2aJfmagW}40dSMTajiEKA20#3QGJ=~Dp=6ZaS}({G%y~z8
zrKVD9tz!Hq>vFR<!wT>J6#&G^F@fy_hiBPQk#bZlIjYj$in)?G+uYN0iRJp;srucw
z22%A0l641@1&_^I)7qvCZP8qdfAh$jy>Ij`lq}Y4TXMAH)v}{D<*1ztEjq9>k#e-)
zP8B>?@TNNDsGb}6cGEllxBPE!P1dx3;MlJ1Ok^`5u_t3uY@}`|JC&C($SAn}l9;dM
z1<258e%g|8$mf!@#^A!w1UAggz!$nf=e>AG6KCBuV*1!JFEY$adndUt%;nKBFyXl<
zKS7f%1JKMV{OgkwmI;gBI@#Gn%N{nNXmMwoRj??r=EL8PUs3Vw25aM4QC}prEvr6A
zQDQL0SjsudF-CM@-&Ib?0WcPPpD{RlhZ5M&B&3v!NVLsaSUKQO8YqMBlo#=1a#L=W
z%i{Tei(>I05^!BX@zuzeBll}Jz4^i$FDz_&BXFf}w(DBuiY8~j^3vS%slv?*zGZ(;
z%HMOZuqW;H-EduZEqj|&-sbtxlDCzfc&>Yvy-g`^(+A$o_r0a7g&gWfz8cYdyH>38
zN*mf+vwcW|$Jp$zk;&cw%f%|WnIo5UgT&-=?Y!zz)P=^@U7CB4q^K$P^yx57tdO(D
z267LMMZYlFd|D34@WEt>ry(UaDh9=PY+MP!2S>6=i2)B~jFJ*0;DtDDuz{fg#WhB-
z!Zg*^Sz1^P7MP+cB!AWnzUp9_(WeL<<Nf!kDp|QR+(!kztC1^_w8wk(_?6>V`>yoO
zJvT4C6Mic^|Akxpt)}IjM^ihG-nFK7_9i<{Cae1vJ^e7!3SF~S*o4mfT*9WXc-Ex}
z6&hXRGS@vjM8k#(nT58Fl^dXXc3mAtW|C&Dih|KV=5DTsk18^(nVq~`>sCgjWUq&p
z`CRL*q^*ON0D7ri=u0k3(p>e7a^zM{5F@Z_B!^XL^gnwooZ<(vb%Y$&X10!y)z31c
zrOX|e=AsyxQR}WxI>4s|)Xv%Z1~WxqGv!Bz4SoMp=L%ch;fRjGN>bSD(Tx>aa*tv2
z)Nn3_A~MA9_?Q@kvsu9&YeXw8o)2O=Vgk^#l*ri9^@hy;=`)&_8esz1h#U=*T|@yF
z@itLzA8v0G=>_SmVfZ~KnTnCAJ6V{qPiUrZ&zjcx+5{%itPD{?B3@A_q4};PC}FF>
zIORykU>daYGUZ-D;<sg~9BlH_BB0D5iIdh&M9>wF{0tr>2sTiz*A)7%1ZEitw)fzz
z@?Je~<-nZvp1T@CVcAoY^3*JO>e9Z(`L6jr3;aUUa%)ejwI}I6k}N(t+m$Ujc75Ca
zj^{1U!oZ@~vE<pw>bKnUv@CR_JZ&F%TBvOAmEL7feacfmU-E4xXWqV$6n8FpcBM<o
zW{=;`Zsu63_1N9URBK<--=8c#HQTjPUVCHe`qX^)JICKT{!ZUpeYbWkHtkz1-#_~l
zYin!Dvvr|s(X-=LXUek&_jF11Y`-Ro%;|`Z63y7cgDoJ4qG1ktiZ1XsvI&ia0Xtn1
zG#l(Dg57h79wxrFPg!y;Oc^o4G?SdVOKzy|nej5%xb8%m9CcwLSTp4?9dqMgE^&Y~
zBw&XR)6hEE)QO2Q9AvXAqf%>YmNA9eZ}JK;Umw`97kAC{V@4oj+*k1|n^V<%4Itu|
zz>0BZ2<GJ30?g8YR+dUmHs#h|)|UD?T8mS=P+=;nX7g8y%C04DymI}OpB1&tcBTux
z*Sc>UyMFA;FQ>h=nr1RTu;leaS6TKpq`VFDyB50NKX&t2(%bNXcklh``sM0vsp@SD
z(rrFjy=}4j;5A34=5rr-+gJ0s;w`HMoVOOfR!yzR(<9n)Yc+r5Am+lBb53Pa3zAZ{
zO4%xM4u&#hKGrk~(?)XHbJ%)(&zf1Aq9tfEM>$EzE;o&>XJ%XG<;IY$q5{L;13Is}
za@un6pJlLkG`nuvmf5^D`ic!$a~+(r8&eNh=2%}YU}7uZd&IW#rt+q2%+%nSS>esB
zhms3U8}~N^$@499a~BSva--Y1TQ_inSa=*_!7=5SvR~w2C^$^oIv5?D8`3e?>S}s=
zAt>x46r{KAnsOK|V;Vn!jrGq)FIS?`0BF!0o9Len2LJl^q=MheKkg0toy!;C&gP%o
zT#0$J4<pV`2#+}Cx%kVI)mM)}$=oB%`0Klm*4Bo+<^2QkmPh9;gYN&Yyyf|fy!9xw
z`hC3hC@}cfzxx?x-VvI48}eDR!ReX%+PP_rKd;H^T(T|~j5TABf${oN*uxdpg_IN_
zGSO|cFPY&!Q&t3xz;pL9qR@<>kx#8@%7qPTlJ3YZgs})b_dIva^7_d&!7W>-U5PrQ
z)W{|ym$^&%Q?4u-o<mMN&jDxG%PzovNy|MV_JszO9vOT7^_Ty@Vb8z*-tWO)giQQ&
zS{1G1Bwfj5l;>aHvcZ@>3f#5awHEG#0oPv~d=alYMJ0A_9APErf{0)s7Zid#C!(SA
zh)|$_7}E$su#Ah@3P@n>Am&6IMPPn-+t~Raj2}2TVT>U*1N9MsNpaXz)!bcz`NZDB
zcG6oip`DXq9U<C<g85~NL^+sgsiR%&p?W$TF&-X{A~=#Fg3zo6R5!^CuqND{8`RZY
zZW;h=Iw7hCXBC)LM<hUG3Wbpp^2}f~!I9eqhNJm=SG#x`kHj6~r62|3l8I;5(hWx<
zCc~J(hq1FJQvd=BQa8wC!eeNe<koCXt^C>!iYyE$3lRkSW<|o%80o6zLGh#>phFK}
ze;N)%8YDuR;mpQG8^kS{BL1x5J{=5Wz%!x5)Wm7*!~rM^<X}O*p;%18;A!sjp&-r(
zh#&}+L1sK*c2nD`bLgWLP+o)h=$ouNf*RCM1ZkN@y-_ACsSbT;0?IQe|9}jxj!7|7
zNvE=21MyI7ASWvh8(a-MSjdxZ+fQ2CcMeTD41!FGtRsj_mO~dPeh1D|1XLligbuVE
z6r1BJ+^YK61tuFdY}hO`*<dtnK4QdJgG8CuDs$NCtx{Y55@z+Q!uUA4ZliR!@+!Kl
zI(sgMWENnhda_3#%Pl}+TscljW_OMJ0IC(ia;oEmJi!`OPSP_R-Z?iutexbTzyk!@
zj8N4-rI)TO`t!2tHim#4%P#nj5hX*zs}`A)Jiv;`XeKnSu$P+QMji(>j}bQ@tNA8H
zn2)+RQ(b!@OYseYZSr)CCTnwBdHU=BiRR+JfsqcUM0=j|Dc;!k>x4yD-}0XDzU!vz
zUC;c>$=bcwTp6qG;H?g3(d~gld%1Rds&@M=;r6Cv?e@jm$FI3oy<Fv{`Ko!(Lg#|?
ze)wj1;S0&K1GDZ`i`99Y&vs=zwjeBdwmo!kWmPwxzyAE!zA)=r+3bH?PC6<-Dkw@8
zH!c=5%_rV@<*irl73}?}y!yt(^@*>&1V2P!`CMzNuxb9%y~6gDvW8^yq1(fELbtzo
zcT2KyV6p5>(t8GHC(5d|4a}dFZbkG>i7#2<PnG!7zMA_LqK;p1VIW!7am~7FaTPVd
z*IHV6<M{RCH~Oyk&F@<BwWNK`%RYa~=U>?Lfv;_~gez-%*u;5Dk|j-xh0P1X`-L|P
z?-lM_@m7C5|KT34us9p%#e%)7M|iHfd46!dm)yL6>Hm)ZR&}!C&}=@@qIV4~4lOh-
zdA6@Q4Brs{<tNgfV(LYPHZ84hk0%{fj5bY+1qK2I`#v)F5e8F*EekF83OhiSblLvf
z<#$SM=ihlQ>Fa|-xx5$$Xo`vvF7-*$w5Cd08EG2k56-tO1aI*R@nqSqPa)0bWnXK`
z*SgU0fp1$jX_^;lE93q8oAvh!_iLot$4HYwd9h&M!^gSe@+@ZpD3X5$F;ZFk9t)0J
zRku91J8uVX4<t8tE_n~HI;{E6t}Eoab?{c(?cg2$c09Sc>jQ81uL|Kq`1QkS3+F`y
z6c4suDXvS_Ke<@^xjVt6=O`kc=;7}k`t$<FwE~@s#fR_mNzXA>;5Z7ja~0yppjhR9
z_f@Qvvup!G@o)5A?@ey%y7T!Z-^mqU{f(3V?BwqdOI6hHJ7NyjX0HaaYq7Zd?xv*Y
z1OwR%ko!L~$O_I^i*A58E8a5N0!r5Ixm|Im^-j&*r|-UaH<a9Wdf7XGKB2_#Ftl3f
zXR}LJ-8p{e@w+c3pFW*DHIUqQX4(4;m4BB1ZF~VD;MLCj6OVJ>Z>Z_5<bG&x>)mVl
zk)`J3e(vt>w!Tu!U+>-2UvBwv#imnM%a0#-_Lf<HV)OJCS$|SwqkN^acbD}i4W8b1
z>rdKkl;7(-xySZ576+v+@#GHM-|Vnae!sJ?*!ol6)0c1kX}*o}rOtkz?Wda@l={W~
zLfhXK+K~U-^5#>V?QfstktVIpr`l}EtvpgyIFFD9RTzsY2{oTZ%NWNUL)k8MbIa>r
zFwf%@95>`KoVHKdm4BY`L6QJpf03J5yK-%hWxdViMA8+=X*fV~Ifk-o!)dkt%6gk)
zD-35RAg1Ypvm$SV#QwUA&a<uAvdGKjJjysC042xfi1B{f5k;uhbRPa4S!O)ifKS$*
zC^Z_Nvb|^eI&sp%@t*x%-6b~d%rY+FHJx(8EhM~`_b&N`als?%2)>O@L9vz*Llu%)
zoG&SdXW2QN_Dtx$)Xu_K^z~0W#d?<ZfHQj%rrI<Xi$oBz&eYW5NDPtehzmpfRhAxj
zYzP6{n%-!r%bhH0%=mQ}amx|XvK|c+vu!A4z@K&?S$vrpiWa5zE(H<BY?i?JN!ny#
z<-|+jL`HM(Y!eT+iCx-J0@5J6+enMY);FEGL{N`*Koc71sfjamF1O7L|2Obo-y60q
z6O6#JkS0uI2~%`&4Xy@&t~KQ7rZ8@5oI;E>vg`446yu!%I37hzJVM%mYLMdYE(CGh
z7~vx{rU{A$569y;1(~r79*w*jJbf%_U=Y-I9!jtVb4YL1M1!@?hMWQj*+{n2?$xC*
z`PkWcIG}enr($&0jB_F0(t_7bz=#vn`ho)l2tODmMbwBrY!^RIW5{}GVAN(BW9!Dl
zgh&lghc>{bU5g?Fr*Ftt#(*)VG2wP;oX5uPvo(;-mYIz=W{T)>J-nKyM^_y2=c!JT
z$bo1OXNcd#q-LtL>colhQ3Mytil!esK{-U9pBulZdbQ^)79B^>h9vA|WFp+yp50l3
za}J5$qflPW>pT)T*4J}Jbr1A+od^t^Io;EF5{k8)pg_sk7-HoI`g;TP5`{bi{ejax
zIOg5i-F;dW&LL<Yk@Czy!RchM4bH!i_*F;_DK8-LyOcktJnKLP8A3ssM?&ZPz+~qU
zE2-f40)8@R0WC~Zb?QHdBxYR1NqW<?)h<OO2zG5GCu?$Yoj%T^SgqoBP#oI$4z99x
zo`1tRoB!Y36(7|!ym|7ClkaVQzx`(WUu|AK*qb`oyI6B__GH>qx$J35d78fc>~izo
zRP)}yvM=vHk=lRa?$b-2e)hI5<*Az&=B2r*B~KfBBBngzlBXeE(Y##Ima1r5tZ2V-
z?0$_1a1}MP$3F5_q|2((MWyNTP3f}66<_WA=#p=Dx~w`~yZK?EqsTRDBh{%{FH&5d
zE)mmBk3DqTy{=Wx?$p8({QNMwg6oOT;cP_^nQ$9A=x<aV0md+afa(eaMq|==L`L2d
z2+-#Rh?VdwFA$Jop+G=+3KiADK!6D#W;4g}bT2)%1iI8BoCGxvcu9d!#}1f*?5hZj
zbr>7r_&MT-SkSN>S8YSuDSw>gNN7Q6GGJ+2#)Pn9rQ|#%`zh&0f=Y-MNhlZS0Vx{F
zB}&*{^9<!)MWPDC2g*O8-`}F&9+E-f5G2I;n56t`dQN^WwyDLqf-xUU{wbcv-v@QR
z#QjRJ+8o#+b{G7~v9!13Px{kt@74WR_Ak4eQ|{(v_tunq>!Pp~rb>Rv)st6F&UIrn
z7X|TtV@py%)Y+oYf_GaE%)hkUvOm?b|E_PTr7tP?u1Ryd=B;!4uSXY!zWXivKlOdO
z0msa%=DHSz#&pNwTh+@Qhf^JglLMb$>Ub_G5IYSlG|oTwR>7k199r`qTyQUMIgr|N
z;BNEMmQyoFXP>#Y2a$F1Tve*1DV5*6D4hCO5NuELs~)>;$6Ob<#I|ET^nh+3d!4qj
z)iS%SM0;K`-$l<$R=r+Z&3wsx;;pJx4%u6c>~_2H0sUHSa@lI<@d&qtriJ)T{{zbY
zs-oLsdzPOYf55TKYOlcAi&s6|mbP@Q_^bR~Hdnf!Xw{1QecWxh1OLL})jY~MxYCMM
zC*@pRL-VSeavrXtdX?&7Q_{8R<3i*fSON1_7UZ<CBpIT5#@H7*aJ~jEI@QJ2N9|ax
zo~KiDOdN)?RY&3`;<yJh82#+%tjrfIl!8onA1Qe_R!TK+O$*Vc%)4A0<&p(EmVnGk
z+cIS}I5_;O<1#H^*U}cTjtbLu`fSXUT`ysULT8l8OIS2WI9QrPMa>n{1Le`&fyxzk
zD&?8jIWvlRR^N-Jgb{Pc%xE3q16ezBP-IPYG*iM*WT7q#xsJO+9mO$RgOXH=6w*oU
zbbu+PStyElD(ibJnyv<AgbqovkFl^rl9=iA)eKVP*eWcAhlX%Kj%j>Q(L}5p^wj}9
zo@Uazvwg2B5ER7m!&$=su~inoz1i&@MHz$y{3&{-T0>*wSQP1Wj6zzrn%B=<TyeGG
zlN$4Sxv2aXs^QkZAaiD7Ojd=Xz5V@~EVWDWMVxKJw`8!an%|Pq5mW2f)42ZGnt*mh
zHUPCwQ^g^L%`eU9Rj{UhpV0gPCI5*M)&tAfu$qSzn@FJ{l&@C^FafQ4jGqZ0sQeTa
zbFQc5%pM^6t^Kr(@-x)<HW)ts?~uW%G9TxtpBrDwYhKB(OnWNQo-+JB$P)@&S1b=b
zTuJ?M@#a+V=7oz(#d~M-vJ0g>B@djo0@tkNA3U6`oBxHcDeds#5LWB0;fGdBseR@o
zoHIUgxnygqWb1Otj#SBxnckKB;;S!Qd10=3F<+cHvXWQF8o%#wEj#K{j{14el4Dz1
zC|VYFq=X$y!p{4GeOahT2^Di?^EC_8OTwYFJAdYwCRlQ5B|k#HLb?fsEXR>9!z9Sw
zbrOVTu(8L4{eN9%VD6X(8;;hSkg}fIGhgY*M6ly{HyLqu1i$F=z?iu&0P=L+v<2Zh
zc_VIy)0!j`TYy<+!S1~krlD!T0&bp(r3<HpEck>LKBqP9Mrn7>xi3t)Fn686MaUSF
z*wOPD&0=2;G1Xb-r%~RNcOlF3FhI>69(!;Zf|yO*&Oe+rx}hb?PIGG-p|n=GATS3<
zgmlA$4kj^!gCQ1=VP_(SNueo0VtgE81v@)uVLxc6jL&8aLD-9CupWHH6vGd@3>GH?
zg?U3}F$<3spNd_=8D6CgL9-h)VD2-VCB(=M#ED+QjR7+bP*anvCG28oXS%bS(QLj(
z@l1br|3RRAff<G8<;a-G;-7R=7N1)Qj*4MspGUFBMJS7Bvk))|pj(mbkg;KKk)a5@
zhQ=c>5OHElKiW<hYx`{Hu)o4UCSnN?z&z^DI-;9W*o9$6uD;I(3sSdrkHCtRFC!Q{
zf-`0SJsO-?<3nITI@-jYZDM<Sdz-i)NYL()X7y(sEz^uM!*V--L+r!n8BM9Pap=F<
z=+F=wMFAW*fY4?QoW(E~8oktGnc_PbAhWOm-Yk#>de5VP)(pa9G`gTPj*o#5=VO-`
zyMiD%=SD}gCk!7*rpx3MAd@*NV`Q*IhNEk`cz}5uI(C4pcu8Xv#OeuO0)31CG<jq|
z+0=hhW4V5u%`<%_@fch~x`%>nYJ4RL`>E6*Sk9obfergsfI%~cZx+2e7|MGv6R--(
z=$e$}?7<`Q0p&!S0XhfL88Z^xM&;S81`KHgd(1}1*-k2JDRWFvloO$LbJj9&tRGaz
zVDBuDG$&{R1S6M%6Zm38Fg~GS3N~UM5u7!b71C80C>j7pbNYHk?jGnfuYX*D$XG*9
zy^T-nJ{w_^)NH(1yV{J&q9Nw7#%AW^Hk}~4k78r;vQDfYPW^)fph6osbr>g-n0p92
z*pL+%X2rzHU;u^~eK5jcf;DqdV}Q2bLoASA1EZ0jNQ04IgJ3q(ngjqNm>=v|(@_S^
zm`fPjTo8>8X!BLMi*?b|EwSH7YH0u-*96st|AkbFT-qAWVCB%^pn#G}uaJ{nq2*o`
z@Uf<ZLMuAH2|%9?#9k*jQ6U>aEuhchwHvL)l{7tUB-5Ck@72yHYRaenl|fQm1JDyo
z`eKP=ByGtrEKAyEEa`W^U?a^)|CFI_bCb%cZTM!?P}U<tB2FPlhL?u!ny03H9coOm
zUgKoY8B0@rmA?a&pOC^yREEOY&2uGnbJBeGVzGbb#7aTwwc*8rx|yRZ1r78277Mn{
z9Q~-SVZ~8=?J-!<Bez?Y9EY(nS8q=V)iXV_yRTKj9<{lah0>IOs!KxM{i4#D<LRR6
znd8_e_0`Y4w9vCyvU8?))lzJ8edySAzp#F}uq##AmG)JqE1St_gFj#Os+;q6^Dw1#
zr_8VM5dlyA$DG6Fg5K(F$u5hJ40v51b2g`IH4pE98>eFt-``Z-d5HV|p^C#5)*qDf
zNR@kdyypBbDV6m9fIJ`@n6E_$`J*!Hu8e^eEnrHYWz;&&GvgCSi{1rE>4F+(MqvX^
z4zn{;k{wvol#*_oP*h?QYn3a__lxOwF5?9MY@@x!uT3ek-}V_(swfaYKc0|cm!bjP
zc%cJlWTdGM<BjrT{8WBH39+5wA0THJoMS{*_HxY$-i{1zbl?)*$(kVgHzwCvKOX^5
zF^qKm(}~y&)UBU1J~ipS;{Iy>Kj1jgG5!~h%DD!d)%{4QojdpD=o_OS2yM*d@bgFf
zdz9}HK2?;&DLIP-r#2_z+Np`J(oc5?+bpz1lOac=s}^QGX%C(YDP$(74*1?=5(v!Q
zif<N9jA5bDoM_C6SM&+Xm6^7hi<VK12^t!BCT%qO)qJ8>d*+L#nkaHI!9!nLQI0T-
z*>CNWDGD7GQY+XK?JJ#89P-D8MS%Tc0!}T<daX$T?Ikn6|AO#2Nl-kxX%9&Tc}j7{
zT9n9U%59+%_A~5Ddzvd#I2VgW*azP<{~{d_Q=O)VQu7Itlw+PpCSDX8)^)x^)$zFI
zIekKTh_^Ib;{P5gwsm>_ftTY;e$F|6&gHW|*UvdO{yyYtKjfM|<mx`;%Ko17{2jOZ
zA1yZC@_<7E8<*exKe&nyxyBE<9UpQBf8q39dv4KLH)Dr0%vZi#(wHh~oIgDObh4yn
z;b5v{5B9}NENLNcS@5OcUOas*n1mI3G$l0N6F#?KUEZ=kwPpY9qSThhZoin?@;Q9$
zg!g{z68N%@3k2RyNz<y2Yi|8jUL{|i_7u^Xl~pV9_kHE7Hrycy>l#++EgW<9f?1i4
z(4}nE51jO9|2DoUU0$_nrF-)h?Y?U-yWh9DW)ZkByZ?^^4{Uh9dKO|Of0-{!@n!#L
zIW6#TQ&S2@o~3+Mdobc?<_prrwX0U#?|VyDZMXx4BHwBr<s4i=`Kpt0E_nYQxG8sv
z@8Wq^+Lga*Wf^!6wT#%PXF7K4nI{ixnftb)2R16a+H1+@x7}`A<#4;Z`yt)f6#PGF
Cw21lu

literal 0
HcmV?d00001

diff --git a/distributed/communication_op.py b/distributed/communication_op.py
new file mode 100644
index 0000000..5ad99e4
--- /dev/null
+++ b/distributed/communication_op.py
@@ -0,0 +1,43 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any
+
+import torch
+import torch.distributed
+
+from .parallel_state import get_tp_group
+
+
+def tensor_model_parallel_all_reduce(input_: torch.Tensor) -> torch.Tensor:
+    """All-reduce the input tensor across model parallel group."""
+    return get_tp_group().all_reduce(input_)
+
+
+def tensor_model_parallel_all_gather(
+    input_: torch.Tensor, dim: int = -1
+) -> torch.Tensor:
+    """All-gather the input tensor across model parallel group."""
+    return get_tp_group().all_gather(input_, dim)
+
+
+def tensor_model_parallel_reduce_scatter(
+    input_: torch.Tensor, dim: int = -1
+) -> torch.Tensor:
+    """Reduce-Scatter the input tensor across model parallel group."""
+    return get_tp_group().reduce_scatter(input_, dim)
+
+
+def tensor_model_parallel_gather(
+    input_: torch.Tensor, dst: int = 0, dim: int = -1
+) -> torch.Tensor | None:
+    """Gather the input tensor across model parallel group."""
+    return get_tp_group().gather(input_, dst, dim)
+
+
+def broadcast_tensor_dict(
+    tensor_dict: dict[Any, torch.Tensor | Any] | None = None, src: int = 0
+):
+    if not torch.distributed.is_initialized():
+        return tensor_dict
+    return get_tp_group().broadcast_tensor_dict(tensor_dict, src)
diff --git a/distributed/device_communicators/__init__.py b/distributed/device_communicators/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/device_communicators/__pycache__/__init__.cpython-312.pyc b/distributed/device_communicators/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..051ae84f78d5b66114fdd8a0d03902b4368ae482
GIT binary patch
literal 182
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVh3c2&7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs$`nmSrZV#wX|J
z=9cDVCMTBU7ZvNr$7kkcmc+;F6;$5hu*uC&Da}c>D`ExO!U)90AjU^#Mn=XWW*`dy
DV_+|{

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/all2all.cpython-312.pyc b/distributed/device_communicators/__pycache__/all2all.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9eb8f3fdba15b78c6689f0abf8d1934636a49ae1
GIT binary patch
literal 20137
zcmd^nX>=P`mR=QhfB*rm0x2%VMV26olqD~+tj$^|QL;qKvh21Q&!8bxQ3QpBE&!H@
z27A=qb^^8CBdODKBu`Ib^_)&xikyt5v$Xxo@=S8#Y$t>yH{gn#QJ?W7an8v(v`H`V
z{7An0YQe&ytnTSE`H_<N>h1OF)qVGV_rCk^AACL!hbwM-HTLQbj{8eW=$BoKEPRva
zxC@-fiF}+(@Z&sBaZB7XZee$8!ZvQ#@*D~0xRb@LaaY1U?oN2dJuGdDHzd5{UKY2<
zeTl~LMizI({fWSMfW@8hrbP32bE0Lu1!<S)j<+V-#@iC@<Lx|W;iSM-ZAfx6p6rRQ
zNCd}&tYt&IBhfkD$>QGl%0$<A7i-ZdbzjBk=^F2`aQisX_cA9oN^MuIT5d1P^&>Y>
zl`F8^Cge6(<@T}M7UZ^8<@U4OHsrQT{YJk7EO!NRgH^eMEVl!>omD-onz4jdeoO-j
z@rre4a%L=KQM|{cOjw)_AD2_vX*DHjDb#AA(utIOG9ruNXeybJPGykY5KG1~;dtu!
zaY;t9eKL{`PsAhX$yjnilEaaBd?WtQdjpk-5_*)T6&EF@r{kwSrny3C^G;O6-=Rn{
zf}VCo(vo7|9f?j#=+t>AGCdtj9;e40N+w^5?@lErVw7~T<e`)lRVP;s8??m2M)dyo
zKuHoe&WjwVhaa~VxCvggyzCmciB`!z<*jb0#zosQ`F6=EI?T%^T%z-3+qlb(?=8B_
z>xk}U^3{HqDK&31Vd=nN@l?;t_HoZ$pL(}ZJH!UGZxFpNbK~9ucZwhPJ<Ww0m6owc
z>?Nu8o8*4s5peAkl2j(d64P-hAtf`BOe~cYQWFBcGkt3zno1<H$yk&X46{c2GeR~k
zrK!r0EQ#5uBxIAKBnz2INtjHf#C5{S$yjt!h^2*OD#O}H6BDs$3=a?@_#clC3rA5o
z5s4**>8w1RN@EOZ0Td}@q;v-4Aw-fQYbi>{vd51jM}2tIQuU2#71H0rAc8;OFK`*7
z@QfwT{Qx{D&tKJ6Fwf0!SNO3j7R8><PD`@l3WpiJhp$)_TUv@wDDLQVR$DRda5xIe
zPlv;4dV(OF{_5!ZOk#TdbZmMk6OplihE8QSZGQB`CTV><c5MChOlC5bT>nx$o>(u&
z(iu5+ESr(U^`i7rEGl7<>GPP9)9ba_9iE<%SD^P?m&qp@)`vHM8VdmgU!LY}yL@My
zMOW}*$NR2<1>|uGe@a;q&4x3n6H+oAjzr}YMxCAx<6V^27^2dPSt*GjOh;rqSBfhR
zS;}PPWYk9OwabY+n@TSx7!#>Y8cpC-^^|MX^+^@^6KgmwZ8^Ywm(S=dpPO>%-B#{-
zi^#|v{kbc-dQ7zHJx*9qgNYTrOuZx5WO=`7(^=-MEpL^*d2Xt)wjHIC4alb%th;9I
zTASv&0wh_R)}{Hgj=Wv8(_70H(VleXEl68)7%?s4S(auoSKgL)=3TFlnB!itsEd4x
zK6l+!O`;iU%C5XapOHP>?`%fT?!3G1x$e5>y4B}qR_cA|0&l8Y&#BzaMwfSA)xI^)
zy|%^1<!xXfj<Js^^W*=6OD1j%4)0K@TCt0n87w6#5BU{qTuNebO-81{?=vYmI;q&D
z#B^o`%PW?X<oi%fUX4Jp$&us<#R>VuBA$~eIWC5&lHx;VRni_!P0xfCJL*A{5QQo3
zV{$4YMkDD=$RpD$%e@o`6!alb9LKT~kXP~$<*cV1dm2kNqgbV+s90m-sWcH7F+lZ_
zyQq?%@xpK-8_$5>r8Bt!vsGDFiQXyAW3`;-7QI}c<=ln~o6c`~HGlEN8-8KVCCvGS
z+fD5kR-Rv3_6=S-QuM94-1jH<UAgaC)78+N_o26*dgr;fpL_4A|NM=A_l-rXrP)((
zeB$D|Hxx2wXTCpkP5edtPvZsK2Wz&TJ9;7f!|?UN(ypV$T}KO^J8c~opZekR=lQw8
zEpP3)zTxfB;^0WZUT$1<Nh~(rU$B;4jfL#FrwcQG*jLCGU0o$tf6>){X~Qkos@pBW
zi=Dr087%BBcXVCi|1fxd=iKV;Z>6t4_4di)>V1Wga&zeNK(Tqau=}<*`07~6J6QA%
zUV8TO$hCpX`+xr8<%7jlo8NlyeeaHWC)c`a-opjj3qHArCeb$;6GbT*#)N~DD?Y%F
z44?xrMJ$u9;W+dy8OOPe$OR57u^p=v@%qb*|0H>lpS4vujzQ@roCmAiewuNpyxolV
z<Zb#&!`kMibih$Hj69!r<gEs$;g_jpsi_4%mdC2c3bKr;>&BtDG8zVBWGT~Nl?D)e
zLdrzMNG77Rm~e9WQB(^#RZ<5h;N-_BV5IH@qi1Vt8)XRy(!|MY=-LHwG#$xAC(Xr-
zUb>wczl`8C_lcKVznecdcwy-LP^o$CjpnuQ@dfAY_R!7t`%CScitU>U4P}4lod3Q#
z*L?`f{X?bxoyGp0*H_={KQQO&y%X#z1=kgW>&o7axs@B|9vWS+S~@%h-@JqC=w7xc
z(0ws6=f8i>bw4AfD3OPLk+5Rq@&Fba$i>2#y<S>%XN=oKWX)Rdkz8zfn?^1cMv|_o
z&b6qSfMO(R&)cSaOY7(DRU~E=Et>eSKzx9(M7~OVAg!@+zuu2Q+)a8;<z5jUBp{Xw
zoLN54g9NQA396jht#Za;^ukC`X2i3VlEf`#q6C%IdH@*0D#p`!Eh9jc_5lBheXGr(
z|7kq<VTwJ1Kxv}pH4MR&@j3yHj>VEvZlxK+)e4_Nhv_#EfIJ<X@DQjo^uy3wt?zWb
z-BoaYv@C6YFubdtke8Bc8`$6vUjQ=&8$9`5)7#%Fu6{ygrpJqo!v*U{U2A?kR_c1V
z*!A$W#LccfbFPkZFm!p<HS6Wj&!4&sO5arQmHl0Ft}c~wL8CPnqg*243qYYV!HO#Y
zqijj1sji@kAg2iQE2n16XF@AHhWZP{Jx_CGmzO>73cnXXAAmL)Nl4+a;t7WnDKQ(T
zxHlYrF&l|%CC+eIOhv<ChCAi8=tXfH1#nEsitSh`6=%!_(mM-<Kz<y>@(2a{siIHA
z#8C;KHH_gC&|t%VoDE+l7{vls@D5U6zRZ1MvD;mXjl6wu-qCJvzta#nyY<Z0c{}3Z
z2K}pl*7cLFc_*b@T<^fVn_?c$<3HPVrfZ>rQjc=?-T#TZ$-eH+imnU!^Z9u@;%FP}
zW+^A7)V36(wuS83{F(g4XWn?>^%v&+p`v^3LIahp;r8=m{3lkwy}R7qPo?uLzH@}#
z@3<S;Q|&1Kyq~wLGL5}a6fa|3x`<f#ugF?nCxs^G`3?2bWwg$((I1`A|J-+d>fQB6
z7wMm(8~S4d(;vOy91T$Cj~_|ztWoK6Sr3VroymLE9ED>r0*FE?$=ZP}3>}X^U6h42
zy7&o^#wVz}W+)AP6R<&8qb>f>Z$tTG%T8{?CzFE+biGa`U8aVuT>7Sl78a*=grnJl
zlWXO$+>ZitbYo%Ss-jOB%-l>wRYZ?%idJ~trMIm@G*;P@A&Ji}y*%m87&?}oM|w-%
zVJ5gp+?Z=uB2Q%%4G--Np`<>MLc%%6VUEe$-?Zo$=>@#qEI(VpK-Sz7?9&t3>{CB|
zjbKo}el=JWCgfCtYz2ZiEs&f^t3*IOFgXTI-YUit0Qb-v(jiwxmMJ}C--=FVlP4HD
zGSp&C;b6i|CUy*fik@KyP}P1pM0pJ)wp99j$sBj7BJb}|We+L)YU?G?i!sog8CB_2
zpF$Vue~19;Lo>Hx?Q#Gsu(A|*tQdIgW?(DilD`#dg{oZqYW0>Mz3`*o{nuT8-c#_P
z;M{nrZK#O<{^4swrHv!SjU(41#f_sk{G)TO(K-KUdG&_U>TSi<+seMqi-+dCYs-PA
za`Orx`8C@YINKUe(KT4`otq_8e-}7rp!c6+@YVJLo!-n)`>Zu@)u5I2uJm152bO!L
zZ=ig0><-GbRVY&jM7iAtJsx33EQ9IP(Iqpe+>H+9=P?B#M}_?47m!g!V}6yZg*C4B
z66(^rQh5kLsR}vCVI<R}7Z90)(7ULZL~yRtggI&K@$XV2f(1+o{TowJu)h@CSPX8w
zw(WZ4z3g0Y<IUhRzb?Fy_tC&dX<!w6!(fEzi)hg152(=r3VJAb0zt?pAEfvp3dSgS
zk^<t_48F*RDMsi}K0?9c6d0IAewva;5me)pXDO3{2`VTcU^vAJoZ=yz(#QZuTNU6y
zyb5qoN(CGgTMlqg*#jEj@Kpg0iWA_#-2fbjf8JvN4jP&{;P?n7%L5M43ejx`0BC^O
z+hJx26Yb07J0uvrCAWF0d9Go$X0YL|PgQ$29npjXfP>7|o*J{YS7|<c_~3JOu;URG
zcBojS);4V*41wASCnPy3#Wj&pV>G74#o#zuI+@X!2$Wqq?@BulV7p3B!Ln({>NBtq
z`~b4GqIU5dtO3+#-6g*#T10EymaxxS5{_AG!Z~Z>xlBN>Hr1lXDtFO_zD#V6$ZfCG
z(qp=;Wg{?YrKy=t3v4U;yCfY*S@hJby<%^i>eTzK-1F7t#EI%IjEmN3-E~!)PtD$I
zTIWrBW%OS&C%`Qgt0YEm1CIHPW+_9gmR<V$=ee+<QqRD|GL|dQK2}&G9@@RYo&+{G
zhK0j%2?!RccszAdn9O9R(~qrR52My(_Si7kFf;rQP0Oh%DVkAt0glB}$JWyp$NCHu
ztMq!P%UZ|lkBscxb7*8ZAqtt45KF>X2AEU*=wVe;w<_Jqm(r67DM6cW(A$_fHH-}z
z*!06OQEAhQ3Gh_1y?QonaOAe^M;MF50h5HWXP+KDG;)Y-wNyXwF$S@=t)k5vGR6u7
zs*r@S*P522ik)pF=Gxfe(mQ!({~lqRuqqvDmdT(h6Ol5`thi&?Q<Re_QBqo~A2X~C
zOeW4NAE#gvf#Og%9br(W?Vc*jt&QN7{2<j?LGOqej!M|zV8dbNhqO$TE0fhl@lHaC
zfYuvjn~j>uj1|{C&zg;is`^?nmz}QG1eP)%LlYplmi{GzFR>rvU-4RQp0m0=^A_H>
zX2FVBA-Cw_+>P2k%`Ml!od*Be?cd-2g~R4+{DeaQOR=xz?7=e!%Yj4XK<fqfc{kns
z=lzRL6hr>B1}|(rzZph}?Vnh=ru%LMR{yGP<IT2*0MmSdMGxm|Iy-h|tQ=^$-5M;l
zK2U6Z;9Bc1dj7QMX6xhEn~JTw%k7;PlIN43QFm0GJ#DVzfolV|ypMd~4PI=yD83PU
zJ$AYEPkOKP-tun#sH^YC`wF)AT^*_c!{B&$PXfw}WBw~du$7PP*Ek1k&zWI7Gh7D^
z!JJ2S<}FiZ<~0+3s`G%S!M{w~5Czs<l{QykgQZsrITUX-J<2a4Q}GdHrQ~o_mSDA(
zPf(r<qUUG|0i$JT383YWl>s-!aRM9X$J2_9y3+JW&4S~hu2d?_b(;`TrTEYAl=Kq_
zPILbSG~#b5`GuliDEWth-OJwQ^6LA4_U%9Zc45!iLuU?^yaPq=z=GWx@Gxq-vt`FS
z+uq(*+H$10<wzy_-gHyq&+L2BR$29?>34b6GzABNu~cTiz9}q;BeI;5uh^<!t6_pp
z6LnOe>f=b|R+_xHuJQbPR9K*I#jvWsf6mpXQXGv)zrJpS@+@jzQNKn7M%R1^4K$mK
zL<7w?(1kt_2Uj%^O?<Jj5FxUuBJTrOo$q;r;$e=7W!6b;FhvtqcTE{8e5F7aQrP~3
z&B9QqEoNI7dR=VWt*~)`V(gzz{%j;B%R?T(Qntk5bu(-IT4-Wy(2{3N1yIng`V2R~
zZ2-VN30ueWcyEki^C|1|+(|xU)0Q2t1ay%!5lb>rR3}UHY}lFEnzUojD0)J1sJvXU
z$1+kP%@hc>K4oT)c?HuYCn!iF2&n|B@L|QFE<u?p)KMszGIO0KbfM`WC2EpE0Q0J^
zspRV^`g%&f!JEFpa(7>;d$`y=T<U(f*!^&+drPr<%P+gPop+z(&plEOv|ngE-}rt&
z0L$*#{)LrmTm>z`8zA2QnZ*J|?5Z&0Tiy*Hc)Q;B_RRY@Z|4_oRG#w<ewA*(gD-5`
z<+J{o&%UeO$yA^#jmxV*-$MQ0SPv4ZF$J&VFa7%nm>y(-9^~q`4}LnzJM5nMAk&5%
z_I|_sig=YaL@8ApqS$iU5S2A++K|=WZ<t>xPTCOehBk!w=bi?8ugcD7fKmJz7tIk}
z3m+l)|3n)K?t!<}$YIE%I?t-FM(;%@Qd<k7vE!3NM<=l<dwg;_o4JdYL`;t{J{gf;
zTT3G6n>sCNsg)Aw+lJ2BC89;xuBU*-tz)^@v_b#BLF2U#AO4sWEEsO^R#iBcp-z=w
zIg{B$I1LuHjBUAZxesXI%KwS3(_0WQT-o{Btbr@ns<?8t4p-h*G21Oy2i9M(vtavy
zx*JrZ?%taywWy+fhK4{mNw+)^d&vzfJM;>g`J7r3lmjMi?9+w%*P6-iX>{`MQRhS}
zbvR@BIn~j||3)MEGzFxn)@&%>+oQjWW+u2oSawP@bit#0`FqBL>0#9uTUzu+#(v;k
z3}(weOcPlSde{N<rZUVYDE2A^M-fyTzJ5TN6#NwxP^7}}J@(E|gFLvjYW)Jg{@dmE
zhV_ev6~&)%>0DxgUh!`HUV?Q?a%grbi)e!rr&F}UuH=HNr+dP}+&VpMYpVfUTP~$t
z{fwhWYx$~7qOfKa(f4BCY!H!q@ihGU&8A-SXB+ImPan0i;nYt<swN|XjBH5s^{Y|5
znN}w9IdE4soQ3{23$HX-<2f@hDnCN#N4?A}Tj~3%%86OjT{X`lEzv~76D>KkoV6z5
zxQnsaFcyoxGoaoxx|Ao-ZQ}VyyG|nf_uh0|)#L`gsB`RN4%8ykS7Q1ebG+Gm#V$`F
zNAVGlhRbpI*bF%*HBwR*6A>*PfN3WjhX$C8&d~n31kj2aFHXa~89q$3QxtM4HVH^p
z>3sI!!9(FaBO`}L4u^L=vv=>vk?_;|$4A14cB%T~y6Os}`}d88kB%OB@|k_3ho3nb
z-uvW{-6P@sV@Hqd439mzXGA_v!-K6Onqk%q4av&?fZl`b4e})fwJcC+4JRTeB;6}J
ztm>q>`<EjtlgiDYob*NXe46`+Ja#t0kKwJsVsQKQ)?#o3CjXA^LSuPl@0=^B*)V=O
zSn7ZJM*q{d2?}p5c5i(vQ|#V-T`YDVD2$bR2j0lPp1=HJvG;+Zx9d)K59JASi2A#+
z4L|1!AuRiQRUaROxBV^U=JpH2=ZDLktII1xK!xS*p~VIVsksifN9EepG={IMQvDnv
z)%#8ri>&68N;X`>()nHZi@|C^JCdB4h2koDqYF+#hV8*j(GszP^>u2MsRIz`+sq!X
z_XY1&^0m~|rQC%1M--$}(=acRTeScKM3y|Z)58Lo7xTTA;prR0UK5qUJzJK@LJpXR
z9Qaw2cedt{FTfWM{?5Z+Y5b3Nx0ts#YY2OuOJ0M?fP<#$;xGRrq$+wA13dCeRKu~0
zxmsd@u^lbK5AtOy@ToqS8db{QM_!uNDM@f`SBqf_O@!BT;Nc3g2oaG^qA6M1n$JD*
z>bEXNZuol*aI}emqd9*slzI0G=6SZE7~F6(_+Y_z+tqm1d&WE0HgtLRmTOzNZ&j&p
zW3g{zsqgV(-{WvjySV9%?XPc#b6P(<FQL;Ij*M(Ynu~x_7)zBEjBH!g6pB*1PVB){
zkUz3X8TKG8W}Mf|3{atKQnh7bz2FWs$83o56~vT=G^|b<0M(3CYAMyLg)jdUIk|pw
z`Wmk4=24pVVN@pb6nW%$Ti}EG!uc0&H1v^mF@8Q?*jIM>&o-WE)O<@fy{|d$g}lov
ztUpDUGRZBKsE7#QlAFxPG%)k+I^s|=1vm@Dr8go{K`qR!sLk%VBwl_H-dK<RB)PyL
z`RT9^jzc{z`?^aHe!=0UA|vV~ia+CO)M5)FB6o)t*iwVzH~w&H1Y2cxoD6YDPRXgk
z4KKE_aAt&UW4Y<nh}e*Whz98JBEJGUd^+ejc(4|9<o5g;irm4}$)SU)q`DU+ZV+$x
zTSYDPgEvsiC_YgIwJ4p5$SFpc+VKREqnZ<j(!}x%|3Gs7_7V+iZiQ*3nNr8GixP>4
ziSx;sw9-U*unbkQRNoteYvWA~Wb`kPU@O%Ed$psoi)Xg>;7d;kiG}dux6iuZ?NZ$<
z`l8EBDi9XQTj6D3yJ}Nwku&B!;ut6S_2*r+I41IYm`6qr#4nehMBy>U*HIys$R-3#
z&M~-6;rxy|-$F##bC~Vy7<~ysG?El_{fPNBkYr#EHbNqs&fo|Swtpxu4QE2(rARz0
zRXlH&d^2?bs?P+vg-A+kM~EbB!l>h@G_U@?YRk%yM-B^YSEt_DhuYLq!DGUh@uC`G
z=n{@#TfFvpHPo_9Q%ngSPm@q-%K+q<{9}C4kWHbv1>iar)~8NCaic>+*c_SbyW*yr
zY(A9+ifSV~D*qAn<Wzb0PY{>?m;%PYnZr^w{A93{_TaESz#JLZq>U`y4fp5N^q*5e
zL@xhJ3TS&q?VaJqOO#}rRUX8Mj?_!t<|2`<gT<w**#s;;LClwA-)U|^fTUeiUAdQF
z#+B;;7t0;O8$GZ0lsfhnJNA}`_LW-(%kBN;;M#dN*SU{h;Ow2A0&R2!dJJH=6b$w;
zFz6yM=rRL?1Spsa^iL2m7P<xYX;ZN)+G5za|0)0bJYb%-P_dv*Z0}28o(m7CyG)&p
z2<Dk6D|Il>o)eArcoYjwh3;%mRu#<kAA}Cak#YczFAB$IjK*dfz!C!f83xX*3p(x5
zr#C}$j1*;>%ez6f`mt3(HJM1{DYOTPs9<cvMO!IIaI6^Ia&0eyzX>KAtI>b)81>`R
zmxLLGXV}QpjG}mH;lel<#=%8Vw`VPRk?Km{p;saL!Y+V6z|h0pP|ZI>O?8phLK~T!
zpv_UuH7cQCH$7?!kvdef%I>){xO(1>JCJEt@4S;@E^bBVyqjVku3MOIpqQ6ReH3ft
zJdK6uxd#iAXL=U=$oX`P_YxA~?M)Y>m-f6q^#zBhiiYUnHE2i|cMHFZl4>;c3`_^(
zR*4XhWh=^9%t|qK0@sEUxDI$a+e8cg?2-*mJq~7kaWdnJ3!$6&6<2VON9ov0M~nB<
z(PAJWw%4lZC%LVR!Zm!foS#qSWO6M8s(267;CF*ryoF)^RxH~3beUoTvS^!m+alMD
zK@i#C!Vz>>Wx@ta62Z#C2J?Yk+%}fmQ}yDy;--50n>eg!&L!({_&Rz*sI<&ITICc%
z=WZ)Sq)*Z&0~3c!Jwo<|+%k=*;_XqzONOX`4w0y5$yKKlQSo7%nG^ze+TvkBRM51N
zYNw0-y~`1V0WZ(eTKNW=GaLD;TmIGaoW<=adyhbeb9?6et09)EeJ?Z(u<YGi#!lS+
zGyCcG<e4YoXaS!M57*UKu-$^Z>c;(jS0`H-@CTUAsx}|m^{?^krf<$f&VR#5mfH}P
z`5Dp*wQq_R#--aCu-$rh0b~K9<g0w7Xy1Wd8rJ0BwCY&1dgnyM@?#si<ZITXw;`{o
zjNxylkHO5->?+=hF3};{-gN5Eho2bvTe544K3?6m45b@>TNt5FZ&KA$m!4O--$PG^
z2ReC`gadk8%vY5+7tlBtZr0007gBnndgfOfnMOo(*UtP5AM)f{s}>8~qfX#FT~r#&
z^#dl+S@lF@dRhM|{Ne!){joE8WC_6U95n9+%1$MASDgrtp+pE-6)y}niSV&V6lb|b
zB`^^=CdZ;UxP4qw568A+2|@RvL;CQ5iX^k~h#bqz9L+sgSvtn@CEqV?0WxSokQB~Z
z>zHd7d2O}Ie~#xW&M17_lG*91WlU<Z;>2swFEuC|=}`MHaIb!-ec0?!`*4DO&4CWO
z<FKLp9(s`JQ!zJt)kTZGmC{U>okU8aL%!-frj>vZ55xFMXOTMeTGO(GbL&;LmEe*r
zt&w_ojd7rVLr=01uhD(2i6^Oofy&tM6gM<c{P+caeWKpuTJcmSFE?13TX4l{IW=6V
z^+&{*Zldec9E7kpP-<9tqhTf7c<#8oWP*CF(Xd5re(Ry@owr;EZ?EVnd)vW}V23KV
z_AI*XK~KT<n)kCta58N5wFw_|-2djmt7D~gdy4D!-0T=BcMp~a2En@8JOwwL$ofJh
zVM|fK0pNEIzJ2h$&`seeakK8*YaS@AIZ#}4fS4WJ%r1t&9Yg3GhkpSeR<6Qh{N>gl
zZtimTTFUQ)nU`_Gk6<!uIMYz}?!5lcd!3&VS7l7G274K@^nc)utF5p)Z%L~h(8Try
zuT<zU8izD^AiB}6^yA<GhWyiW;c;sU>5*$l$4cD{DLm{lleK1cSa4HA0;5lpaglX4
z*E^C-XJJ=0=#_wZg$TsG>Oo&?9Vx<|$|NQuLRxe3`xG!zU5l7vi)O`$;x(347AoH;
z3aWhPl~q_7csAMlRZ(gTg8htzw$gJumZ#Qx>fqlJA^#4ZjXeQB3D|NAGyd;5vjcY5
zhF(gNuUao`u$n9d>AbPy^&RE5jtkG9fBtsQz#CJqPnCKeF7`Z3{)%0T<nstw8)!wd
zBFz6T)w81po{`|8Pq07|mIUk5>N!aj(Eoj8F5Q^E%gU_Sk4yAIL{Nm}TM7+#q2^&!
zT~?-VHK)MutT(5Z@ASLz65oW3`X-%?;==TT>|!ZnWw4ZiBpLeCD?+DH{|#`JU5P=Q
zvYq8K2GyIXp}?NJu5yw~7S77^-{xQ2qux*QCppzUYXBv`*~s)BuqK*!llTy_)0I^*
zmRq|w5{pAug?qCmU4#l<Rw_OQF|-$IDO(eBcyIXz0>wRYDk@Erlw&eUal+j)2}vaX
zCzOU%Uj>DiY6#*#qA1r_c}P90)`p=FHITLjKJ9=TZOPkp!`lV#+fravF|cYbuz|&g
zih-fIz~*_I+ZO_(oNHCX4d9-kp>wudfmP)P9-{jYHoeZ-e&j6=tT|_c@7MeauIaIP
z`0Q>(;OqW!5x%_LpK`qKFn?Qh5S#0L;=QLzfhUWBC;xihN(Fz7k=(u4uhJn5`5)VM
zdboEz?wt=>-)(8%Ic$A5WZ(G+_wKNravro&{E?nrt=45UReEj39}Y*7aBOEF0zYq~
zo}^*?=mV6?WRRC>GR?Ktcd3MeS7;&+AoAraIN}SJF=(L;jo;f3pXBd7xoB&EBSB{f
z8f@!|c{}cSMSt_WlVb2yS-Idw?9*rYM!WE-z}s6tcLeMqRV$^=L-#2T{IUpra^eZh
z!Hw+2_(_p!9D?6YsDKhVg_??+VHMh<m48C%Ks|O*@dybprInS{{S21&qYSJ_bxN0s
zc_?ixC!2}kP|1Yxn^=smD=VtX@KZ`D8NT>bQS}xgVWb4<04#noYsrrR$)pXc-s}EK
zzjUM^Au|}(R+p>dEQYO=-ukkPoB>udWQ0tROWlh}P>c{UJNU%B{+K5S+gM?C2=-Z3
zc1zAO%uJ}bwyLV-cKLrH58s?ilfe>%%k!T(IDW-na^4R);jg&hUvQf~<R1Ev8~BiW
z^e?#0|DD_MD{IFs>&g#pt3R}DfCHqRe%i#-cJ8^G?w-?*MaL-5`{p{=EpilDeAe;+
zk{$Oia=0%}@cVhbmnA8(_?)F5rM(*#IouZy@Q?88=DHtV<Zxe<`5k-{OX0q_$0G53
OXinJp8AlODQ~wt)es28$

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/all_reduce_utils.cpython-312.pyc b/distributed/device_communicators/__pycache__/all_reduce_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cb81dcfb386e513ce3e583e8810c990226c85765
GIT binary patch
literal 12373
zcmcgSZA@I(mG{l(8|H)IbNJ?g!3G-!e}HWqm#l-aLk!q4IH{-2PKJ38m|?#1-Wy}c
zOhTeag{`&5N>vjzRjE{UsghN_zt&y#M=N!kDCv)xK*Hn&OOEQ5HvdTNDqZiNJ?Fl8
zGXth^b}Q|Lx!?EP^Ugi@+;h&oAKL9j1VYI0{Xok>LjH&aEts>J`>*H;xk)Y&p72bF
zc+`~fFtn`m=xD0<=xJ*37-(wr7-?$qm>|`K%wg8UGB{QrvV@B~MKo^+S;IDujpmt<
z-D9U?9N}V*Gh0^@F7=dU^X1_RPX)~zLzQ8d$3^p|P*u3vQ%&>cP))ejQ%mz~s4iUZ
zsi%2Ms3F|wX=I3w2-O1j4x@gXr-?7}H1k%WdCo`(Z&OpDnYYjB2!YgrDPR1yfwyP-
zXsI(>)>7<K^0v;iXD75=S(^oWmTsSsFUyv-RD;&SJ90B?GnK!s<4gI9xAmS@VXv@H
zuubTy;d6vGzValbyh~{3s|0&+EW3UM312N7m@x4*Zx}os7Q(mjwE`=&<7mE4*vB(-
zu;vp6zWxoPr<1lf?AqQ4?e2oH`Ciq~{{X^+SvZ)bi)VZXDV7IREY&#x*CvW<GvK-h
zekxuqFyav3I>~qr3mm_9x{VMq4lAY)P857ZHY*r|Q;*gLgS*s)AFX>QTcvTrcY((}
z$2`Y9y)a*wa7;M<4y-%|&k3k`Lg?l9X*E5>b5b}Nd|7QTj47^(!WuO%oY3acQs7Dk
z|1_8knPp~~J>(FPm>C^IE)xd+W|^z{%VdUWZ~p=TjkGfgJ1V>s7b1QE^5&Qr<>P)C
zviehzSxD^tao%@vY$z};`b4a-1|k938;VX&3L+F;S3;q%Hz0Y(eX@Vb8;D%-i2+{(
zA=JfVyiXRqLgY$7j7GvjME26w@sJ=vd#xWpdwJnXz%O|H(Ks|qG7NxLDL{ymeDQaH
z;ujo7NV+c!5VadbJ0zk5D@+)%7~%G7*UjmB-3R9khYq?AicYMar`5DGt!URPj&LC2
zor#Je-YW&>1f@ux5(Q~08sa6T))$)b%}U<5BzS$}(JMk>$HtNV{vq$^<>6uP@W8P5
z)X<Rk;=t)k{R7_q^CM>l&niU)P;G%oEG~OxAtFUZ#Uu)HT#Wd$3;;+G0_;J5_x}wt
zH*xWFArfYiuv9XL4mD^@B{H*m9ZBf4vIOM>k@5R!;0?G%rU5?oET}hPebA!zDvT3E
zW1OTup?}SpV1iU|7xp0}p`ZRPg=yM0o0-mbnvhY_&W?!qS-76S1=4IdEXZQO?+pv#
zs5lFY?}O#$&xmEvNi2tGOsv5ECgmuyj++li(0@EG3%onW3*m4)67c)vs3^H(vk|{P
z<n@I@QCcI`A|zaOu@WLhKPkwHDKb7Q16LVD7dBL3g#8ptetD67I0z44=#s;+u2>+}
zDf>hi-FY>BtoQizF`+9I81IVB%2Uxu7b4eHfLzyZ$aMi$UQvK8BY5L-AcWW|4Zuxt
zU@wX`5(H_1_^TboCctA5eiBNSdGcqS&S-kT61H*O%w>wpKez5(x3)nhV=h@QKa%P`
zoh~2v$UFcwo6fFVwzTtG8_rW{=c(W9Uvm!64`$5Hl(}xDZlkF?-PC>C@=?>NOmSJp
zTCrYrEOq=+y6U;K^|_Scx%)61&_ms)lIT~;>HfPCkOHtm*?lPabG!$=k-v~n?|&DT
z_$EmhUbD;DgAN2dlQ0Arjf;S5u_p~0mnMw~a+)kLFTjpXni9rfA?$45geeaJdT1&_
zwiOdzr}aphp~r5#Z07aQD?2|!pqI4(KsKvkMcYw^><9^SZXOnPL-CGgC?;5~2f)w;
zOCIf^&5^VuEMjbTD7@jDLIIlMuAw1_TW3e$b*N<I<}8BmM(*Dc5=9AfA$4Tjyfow~
zdz!oeBa<c>_Y4g%%7h&?TzTX4F<@EdS_N-PS{M>x3?LnLrIJM(Ln&RK1z3=17&E{d
z*PI42OWMsNN_qdK)2F=84UP^zH8kKoJ@DLM|G?-M1a_^6l%`UK%KkI$#UgTni0rA@
zk&8zK`7}L8lp-t+Q(=+K3t<TaL<QEXeMUi`Ou>PK(!UI=2V?%Tf;=pQpY}!gkf7*6
zbc=|$V)DzgF+qaV>!0$8If#DP=0?#MnS{<!kyncI&@T!wUAtA>gX10Qc`ArrIAY_1
z;_yc!Qaqe1+u-Plhh()?Y{4OVkU<I)fTK7Xh{ysQ9#bk-wrEU<c%``C59gy|nTkrX
z7tU9oWQAcU*Rnz65Dcr$EPe}$-+`Z03|n`eY&i&9moo3$WLr{uPp0}VrdmhW*|B>?
zuJ3ov_ix%O7nlrd-C(QJZ1r-}I$M`1t+?sF;a(|UE8V+bhPLaDMaR<23bWF^&bHCM
zO=%W-?#YytZ<Ms9OWIalYbA#kOc}OvgRM!kHOoiW+2)L^b;H%3cD1j$4lLL{wYu)w
zYBp>QX<NhcOY63#j8<B=ardele^UQe{c3r-x^u1S;KE?WR(ySAab&r7WpY(sw{>q;
z)GT-Z@H<P)W?ALZ>`KXv#9CR)DzjGBp4rp3H1uhC^_H1bHf^!QQnA5SrP-?Gx^;Fh
zMYcB0)_%g)f7wnPF0mPDm6eI|q`bTI8~@v+ACUbUNk3*c>8I_LB<$fNYeCtzs|3{c
zT++hplPpN5-6UM0{9?s70oE>3?o|tK;Emg)>DNd)*yCS|H<gsT;KCQk{l`c-<2RIY
zmO`uxq?}QsO;*ZTw@EqcHYsPwNjac)PRi|q|F*Nh7<`<RGoX~)L*$%})j~u)D&^Nc
znITz~+&m)g1$I0$rfRtRAg`)c1>#O@!&)kv=<yAr>pX~syzH`F1U)(s76wEyDvF)h
zdp|}8Fmhwmg%OzML_CDiVT_JI)NT{|FyD<)4@O5ZLZKvr=qCyj6i;B`35<F%LW@g0
z4v}PoNE1MqW`&R@?!<m*Ph!Wm|DzBpY1}B;lP=k_R?-TB#Z|Xp+tQgVC7H_VjY@aA
z(!F|Rt@7x?*-UNY!q8R`vAD95=OoA|Dr-~$a%|<)3J8!65GWhA*0im4-L@|$hd}b=
zq!5)!|1War7|5Z&Ja7<a-JgiwQu3vV*h{v|kb5YV0>yr7C_CM(`(3l;wA=W*P6py_
zW(4ZNsQBFffC?!YvT6uId1pxK@}@;FXFTM4f%TYG@6agNP0-}Tk>N4z#>cdqpdAmc
z9YID$q9Fn5X2O^-C3F+UcXgUo3o795<Io;d$AMb9%Q!Y+{yK#X#1#9Oc5^VNjA?V_
zl`lH}>)Xw{s&IPhlPHGScT@0atE78|yv|ILq(#oDcR-z-r4M3_Cj?dWWKq(ZFa>i8
z-lKRXZI5ZUCu|8j3PG`5uF=NtCf;}hsEF2rW5N<_)cWUB5Xo7NV#u|z#IAi3wt_wr
zpjKMItTg#XfkBH<mRyqJpwG>AaQ-R5KOKlna)Al%!r=>?kE%jkK;p7iCg=A>xN-3G
zL?Z$>K1)Zx2u7rT%8d$|8=5tLgF4n569lmhjG+z=PXG27-Q3gB8R3c`c5qS@3|SDQ
z5``j90aP&nEnGM-IVIyP<6?ALh;(qEo^k)HStvx+B_MGxj)`&MMGhv7Jo;Ucs0?2z
z)9>eEQSgg^sph8RM+JeKlI56mqN{5%AWy}|-Tr8pnysCn`vnERtlF>vNs0?n*WqJ_
zk0Yvdur_caD#pVS+TB73)JxF~t{Of7gaSx1Sid4b>70zk=?^NiW_chQ>Exq=)Cu@?
zN`esXl%t*C{g}p?0ZeGN>+ta-hmUr59Xd$o8=DeD0VWeVxEVm(cSYdjC<i^EF3kBj
zQSgNdmlPW5Vk1QYGOn;j1qv=t30fS9$^sXSaIwQNx)`|D+~9@&6SOtQKFAb+AF9tB
zcz7fjB5-FfTvEG1h66_6Iy?I~3INV7S-2|aDpg-juBbtRF-3Hq=LIez2t0lmP-;AY
zv+Y0#xr&pgeDdEuC2owzhlB)Hi@+x+g7}5N<&S=$R+;@mt*Ct=l<D{}Kpd9>K2Y+(
zcGTLDYJONj@V~%PW`P7ENLr*8bo5C`ZdegmdbF?r1cj(UfEm<nR8W!K-7pUK-gc<a
z-_3!4l0#<m$-s`d{Lqg=&G#(?HxmejaMuDKhJdSKp#a70ptbH4>2bmD11?b^P6@Ld
z5R&$nd|`o8y<40lOrl#;-I0ToI)QL3D$3viMLNO$z(GJa4K@;2l|6s$%Q|oroi<BA
zH;0tpCvh`Vv$%aImr>TD^3ScZA8au$3^pN$LaS3%yiiuge4@H)(5@jtR|}{HkfWUM
zN;JT$3kdxS*99<y{fVMUoCP=mk&8~?s!DVh193R&OhTR)BpC*~IoJd$D{%76wl&Ve
z%68;Hpi_vj3007|8Wb9SEzk^Hh|^hS0~=XT34+U|y5TtA1lY!$;PX$>$+@<fsQ~1G
zJ%M`gO};<~9ghh1!t59x0qyE4DMl&gn~AjR6qD-xQw-n)l&GdXH##;0Vo8+|fH6;3
zkn>H7AZ%3*E0j{`t&XD@;aYhP#6~L*#|Ul&&Ie-y67_t#&$K%g1Nguts@*HPa7?j+
z(-A!0RK6(2XQ^wzd_kR-+Urzb2224%Suq5`6QHod)qw1e^5Aip3&gVS3Dpg+m}h)q
z1n94rd@-;F_;v?%KdAb=>Q#`!u^pPdVvKo#(=h?2L?1P}A{0H=>9L0KDa^Qpiq&>O
zqw4lfJWMsI>;-ld!Bb3r4nOGv)$t#kW=I{kQQMua?M@l09uyI){knV6z3f^mYMSrQ
zR8-x(eB<()-<cmN%$8N&?7h+Z<`eTnX!D<2Jhxd4j)Dr%%jthr#>Q<~O^%{1Be7TA
zCl<SDeqgJd*qz_Jud(QR=UzMa#&E`9$!DH<?U^@*utv>To!9#o`<9>m$l9>d^G|(0
z?Ys5tM|+N@3`bMeqnYa3`7@j4u4T(g?<eJ*i|m4aVKif_+OXB7ZFOt52JoP4FIjC%
z%s(96w3VV0V@t=BoVe>O%Q(v(Sd4bZmW|lUt`9E`FSmYd<L*Ky%r|{(tJ|t374EGX
zVk?~=Ry`FJUO0@A*g$za$Gm>n0D|~!pt^V&qHU%Ds@K#s7y?b|Cdr!yuQ~Gh1o;to
zSQE^T$dC1?H;xwgaf1e^*b#CDfKJZ&YIAjZ8O;$IcDqeT8WM*2CSJdrZ-O_xLFAk_
zBB6gLt2Um_`8Tziq(R2J9d#D8kamRKpcmk^o0@G*7=Q|<AM0~whEdM>Jc4-3up>MM
zgIyHxL{1Ur&F`|>JaB1e;fq4{up?<gPl;Fow>&0|p23D4(?XHApuw=jh?9@Oq3O}F
zc^sA)>8#wW^$50VxqQl7p?B7VWJrJ{%`!S9XxMF?a;wA2?YVyW5eKxo1Ph*%EL?5O
zKdQ!yC0Qh+!-9q&`YLt=jV?VTX_e7=K|>Hd7&}73g2qX(dq*`CCvu#Xw8`k!pdpA(
zj2%HnX9o>I^mFV8GWtqrnA9a~u%<T66iV8`OJ@(B(%SQ>hClfA&uO*0W63);8o{>~
z7kulGHZGqgiZwbWojb39cb4;OgA{tzso@MJB<v}?vQCyHOOs`ZvV=KNLM1~fN(Lmr
zwNgVN-bTJ;8;<8SjDi=mTs{S8#eC_zW!ij?URFQC`=j~MTCRY8U(dVcg}hrp>)als
zRLx`j^;9+Qq~fb)Ux74zRDyz^?<oyu@beu`I^+SZ%-a(dpsOQM1aUF&$r-IBp9Tl>
zc`c`XJFG^|bDD6xuH%`c;}ypYqj?c`UiiZei(d6F?$W~U-g51|zfzyfdMYdCTKdrz
zNAoPJq*Bv6Ymj3Vs^}wgy3Rg@>F{S|IsFzqQ;xvzK5pA{gu#17@&ZWyB$K~e1m{L}
z%nzBH47d(T(0}^R`WfaI48B>=!<{i`a5}i>r|w4-D4NsJa&l6L2v=ib-`u{PrzIlo
zK8Y8}A*s)u>sSSoNq8&$pX4v|B(?ACuN=1yy{lh6^-I&Q9RDRD%CA?r7^QkAJUo59
zpd)+djP9Tmjf??qsHnl!Omtdx-ZDxtYJ2M2fJreLkIl6rf@rsZdXBUz@MX~R9F^8q
z3BJ!rUlG8qkuL`C2Lx|4F2mK-+!NHf3$_$0d!T*KOo8u!D$klC4yLsrqEU`%*52SI
z#AukCGoW2Er#n%k=tQ_^nxT&)0Buts!h<O@*8&PG|5q`iFaWpx;tN0&#ef&&iUThG
z@l{B`7lJ!AUPLFi_%ud)F&e=L#kHb~N{S)olc$v8=Z1!cz5S>9pC0gDJb!*nVZ**@
z0UQpJVum;ZHkQ)($ol}WWx#L{Lh3saaS~w`(be?AW!$u4qNJC^XR*N$h)hHkLkQm&
zphyyN85LF*!m)_}-13!<z$E+_6r=dG<qX!DVqkVaYUJbL7~o3rD3apiS(`x7i}46>
z->jq*30DPwTt*#VVZB}i>Gdj3>b8I<0rb5GYU`GPt9~JdHmZn6f?|?nUJ&70j~A#m
zZvY!M0%%5kJZSpBLqJrRTrrRPL@@wwY|8WM9i?=^n*_xiiHFgnrF!XO_?46>M#@Ku
zKEO+POF*%z{6lfYcRct)g+7~5SQTM`R~SKICdB6vQ=K;ezo5d15-LsGjR3WzngZoJ
zw*_u9aT&(In>-@@9CqhCd0-=KeahUnS=_R!Ux}|iwJNO&E8cW*Pm1liS5duD(Uz`g
zTdUYVKXT8}zUDYEe|EFBF=swx%(W@=o=ju&Pp-aoHNEfbuZ_1Sf9+V?cXqAuY>KVB
z2e!qr#beh`E}q<EZ5wP|8ZJ4x-qeYaRPXus<Ee&A_w_oPY5w#B6ET`m?f-%9rul~X
zX7P>U6~mgd^_JmdL(d(<lb_pa-iod@bZs=8NH?6g?OSVja?|Fxes=LJy@2cn6&>Dc
zSc<P(7p<xCCvK0evrlE3_AD4T9i>0$S$4hIx8`VG(BErp{@LkwUAM|^`PbS{thGFm
zYCH)jEm)R%A5;=Y<%Yd2ZEst*?_ZtXtl@sr@m9yG<yP<Q>5aaTbl*s7-}$wg3k&Bq
zT}?M%x$(+oN%_r&8x23JN;&u6I`BUKK(DKEEIhr%vi9nXvueZHo_4mcI}bc?lG4hh
z>5a<0>B_yUhV_!pTP2%tm0J5&?aH%1YFILTr6;BCuNsNtz=LK|Q@?x}CO!H|^@+v7
zg{PKuOQ$k>S{4SDE-sy3)-4}iZdvO52&^qVsd?g_y=19nS%1yD!fe`{*9R8|mxSeK
zS6=$q)($Wo^`Dz7K4o2NZ1o14y$jwnP%A6tJbK%(Zur)w#lFB_t66$!(^-Dga>KIR
z^rmgW2xE)N@76V?4Aq-fZl!;vXH~a)WVLmrF>O7RG93ELgMFmD{!heYufA8=42F~I
zVCG=&>dUuVZqMGHe!nc^YP|XCjaN5ZooQF+nyV{Sd2q|9t2lgLZ*Y~u<!@E>mc>v~
z{oh+gfbj4u2Yh|Hr1K%AK-#|l;a7VB_XY36uZjSVg_?(w4|w+9_nj&pV)Va1=6vR;
z?mcrQ<ln2WJlAb}?+6R|_q(cx9QqH~%Ap$l2S+XE4jDgqvh!Sr@xu-y<Uc&5hdv*6
z8_)GwKJ3N*e_)J5R`VYm#vzya4>iW2J!ZNyP-cXE@D$Cf=w{$;9ZcN*q<TTO2zfDz
z(aRXUg3&xivk<{kgD8kVKMEAd?Hl)tXyPfB0JuZsXf!0LV$KBb7C?xL_~J$}QWv;V
zqI$v$<%hMPAcnDTh1w|$t^n{dP-iK?QHpm|h^V3{7Am2sZv(}>a`+L6t$J&~*P*$N
z@kJN9SG_YL9$%vRh{H+;s@@FIjG*?@nlMPvkXMzoQPCap%?dDHeZrJ`YDnLLsSgp|
z>LV<W&miX27g_YFh*C+xsjc)2vyFIE;ZmTW_j=WXLq8mNN~!I?G&**E+cUr6Q{VQE
z4tfSgmHORY0p^<3XK8RW`ekt(;TL<oz6iLbsHakb71zVd4#hO4J`OaD!?MvwVR_dN
z^`+1wR%I45K!BHKUd4##goK_UIHMKQczj|4o`@Lm%+3pXaS3LnGF<!~=6--k7-vM}
zkp$#_L8v!D72fPgAaXn;^ohTMCXm-edKm=vmY!i4kaUdWGh+RWSUw~6&q&E<r06qJ
ze228$A@z4i<sXUd4&m;Q=Kmm7cgWBkvIicsF}gpS2y=?LL;60qlrMdI&C)P$x@#(#
z*TcQ6&9S6kJf5-I)x@#Xge97MX))SN@H)k2Uyv4$WvsSG6X;?$eOYX8)TK!6R`X71
zS)er82`x8a*<vqF2#E%*382+)al}=1ciW_28ueu+kRmOuU)s$_pi|>Y`HFw_$ja1D
z8}1V`quVMkW}atOr7eQ#Z(85$_-%)pPmMl*pH^<UNn6L4)<&iwQ|wySFDAG2kOxB4
zHmn%l+J7HgwniA*X>UO%$QN|N(naPX!<6QrVBu~Sq!9~SCSr0d@UQ*-eKRdSr6-4a
zQlw%@UhZEhUmm>iDm<qFDM`AwOalyac-g;2FkRKF=`F*3THd;#Bev#LQS-d{uHL#Z
z_mRFj)7HIe`lam`wp*kBdih^2Z}beLdj>Xoo=NvSv(_`T);63rw9XGM%q}1J)Ly?F
zSgl^OADKV%DTw^(<?eM0w{j}OTCSTH%}cf=(@onA+wya3&X#qy73F_Z%EG~89Yf7m
YCbjU8J|_6Rx%tcy{qK($&zv;>4<#XtkN^Mx

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/base_device_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/base_device_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3113f3cf1b44c414bc9b362700dfb83450322e3c
GIT binary patch
literal 14463
zcmb_jTW}lKdEUkD;tqlo3En}1ltda9Mar^uu`JS(Mah<AQL-&NH6s@Wu}caRF7z%)
zi4a(+w$i{(Qi)AklH+7VrJjnam4?nkO;0-$r7y`$AIcTw0kV~6lt~_%H%QdPiDx?P
z|DVM!E?Ls5(_{1C+|R$~{O9{G=jh*EE;|Jw!hS34?xLt)V@3;XKCzmH#0<q#JRPA1
z@z)fgqozR<t(Gx^45?$I+@P71F%dRu8MNf<tx#^ur|pAw6ZJgBvzI8I`_QD$Fz6s<
zW+=1hWlmCNg)*C7=9;Aa_TOTs0Y9x&e@zIUc`X<j7y84YL^vJ`ijz?6JR!zIf+RgJ
z#>dA(>I`a3=QFGIkeHzaYLMosK@(43qTmxu5VMnvpH;X6!O&?Tq&3H0NGSt<t0y6v
zp%QxChmgmRq5^tZf>X;VYSgTy3cp1?v=yc%sT=fwpA&Hk#T*FX{E97cS`>nOI5whi
zFTWTMol&?z1b%MN3M&bbVF@SneIfKDqGLT{;jyiWpg1BVww@c`_4MvDyM&%dc&KM=
zGI2T{>zRl|qCI?AN{Hd1@r1zl@WMnmBm_e7XmmUl4h0i&QR*2AN<zS(rh9Bsu?7O+
zSU3>~BrC}BbZdDRP$4x!bdkEdrEg`+zBK!7$6Zg$Okg^&;^|1U-?6VkEfvC#(}D#O
zWIb8<h~o83=&f*DQuL_4mReVe(pIovPkoqQd+m3MNg1yF4vL1I8nqV2(o&-iEminU
zG5UCHioIB8qEaT_6b7n3p#Pelf->W=Qp{c$B*lhIa4z6KjelwC6>1~(1SQdD;q1H)
zw9v5g=a|>2v$UTXC}B8Uh9}`~^>K)fLc<v#{0$)T6tLnHJ!MMKDbuj&@8}ttroQcB
zVW1x|XK4{X?FQv%6jS#$g+8Ou6A}*P^Z7(K{3^D+BSK6#HzxKaJJfvymI=hgKnQp(
zA$0Er4hu%4zHYr;HFT32Ao?%r_ZO+<#@-vTYy5n0p=x&j>|5X8c_a1*3HkW#s%l!S
zfrQ_zaEbA;h@hCIxCp$aaN&dyl|(00iZ+N82Id5AufVkV%voStNnwY_V<Ck(BLJ&~
zV^Sg*gF}p)52S0vyGm$HRvUak74(pXAi7BXrlR_LhvdfIh2bAZZbWXzRvLR(YI;{H
z`qIojSJmagZw+Sanr6;VpP#ufePLc&soRo%A?vPNcDMersdcVzzGJTMiZ#1&%N2IU
zG3}T=AXoab)lHu}sEYc_gYOM~AtB5B^UnP{nV;?C_CITZ1B|C67K{pkfMO2>qH%sa
zf@x<U@YZ-RqSlC&&`oT^2$xGlipk!H2o@y5m69;JL_IK>xXx9pjcZmLVw({B=>bm?
zhSepA3ZV8XB`^ZZ)5wV=Wx^EC0LXEOzJq2P#aHs2U>QYv$^vg*que6chRwY75;th)
zZ2~iF;_a8%K?m;;7~Yu#TA;)QCC+um#xYpF0>*IhZlI)M(&?{KHtdf?w!`1CU@SNy
zh|d8ODXbWbol)#(<6?vlNa3Uq%1aDFE-nS~_Ub8uA#fn5fc_mktxBmWQ<RxvqU;m^
z4W3^OJD{zOEKtrAmFt)dr<+JeeNd7ZMYb&qFq)1jYxLSs)&;WAOCLW`r`3<5bSeue
zT0<h}gMdpyQJ-e5tngdX2ag>IiB>HIU(Kdyp1#Rw_@vF@M9Oron56vdfQSnZsN%#E
z$d3g^P`IkOgqEug#{!AdLO{X;5R3CdASi)6c1ZDY5kw8{CG4{;G&Y{^-ilJGyGSZ^
zj|IhGBqBrtaQ+j5h}b7?!3cB{O0nt_TlGm@I4nq}{E!xCf+gZ(*ue$40`n*=PNi7!
z6G)p*Y*T^RqDBl5pxDAOm>$0&4^v_{Qc+4z89I@3ooxDJHr6F2o_Xn;5M89Q4ecN%
zD?T@~Hv4@FqYA2F^ZON0==x>-CN+_>QuWO<Q`1wKy6tk^cBpe^y=_<Dn0q7R-64B-
zq}e;x#=AB3GsmWn&HGnsx}b&aZevTPajV?8bs@acxEo5`53N*7o80!);_JWIf2VC=
z#e00Y;W&up3W6vlM+(I#Ia0{uAeJFk!`peu0$SHVJaIS*@E#RljrfD27#IB}g5{zY
z8cWD28erRTaZd+hd_+ik4OXU5y$8GEX}Cx|tf1WO%honRp5i(k=6NBea)hL~fbn2!
zKoJ@VCnTjNECnRtt#JXQML^@85XvJheAy?7&p^u?toi|ckQSfCXdgsGt`($@71(Di
zm<XLV++?lt0CZf<e~7dALoBiJXh4ceB?}IX^Lh{@W<ZD&0j|o?{GuL&nvz9zNU*5+
z!ICWot6Efl6gsaW&;iR?o$893MIkXR#!B@KXtEX|BGK@09rHSbGa5XHUlJIX1U}hn
zKtXYX0q97M3XtHgR(TG2Obd^;K}^vG?SrnRT8#zt*r9MtNH!V}ldpRTdm&1Lo?6kS
z@mGn`1(lDy2o_!dZ8|<_IAy*LjRo-qj8Mqmpbz=oVmoFxVzdb&g#n~d+<`za7K;Ps
zffXYK0;-D8i}f5R=AqMy`J@m7ZAxK>;_--xJSIMm5$>;uD=ePCs7#^gz%q=;!JLA`
zH>j-L_0HjJW%WD9AFy@Y3Hrfy3)h}&q&l|Tx0$*2dv(n-sp(XXgLKYJ)q6?Kf;lVI
zx^WfT<SJ>-HUH!)1wT16&DG3?=KJSHF<)~Z^6m4lUO#p1R1Wg(zo^0D_Eji$kyRk{
zgn$%1IP$60p8#7FG#H*9WNZ}v$G7pQ%di4Bib_#g;7zD^fF{G{Q=q#HTX_rU7gpX1
zeGDWo=q`rkpqHRNW9Qq~?CB63YxXwtPMFn6Xx_Ni2!hLaZd9?!m*5O8Xyw3?{5P#Z
z@0X1Q>wtPz#aI3wH}rPH4s2TMYe4gRWNLw$N*J#a#@oE+cvUdoI%}-12aL1<MyldF
z_-f<T<Z&F8Gi<yGbk-VZzX4|M;62a-4@FtvYoQ#~hO)rd6-F|i3#h4w(LH<vXtT9^
zBeX(wp)8DUD=UC3kF>FT6YyLE(ALQ}8_&Rd*C=lh8i5;|jBAZchfT;=Kyxe5+`R6r
z>gdKN#mxJlzjxB)e@v<EC*FhuMa~4&-;@7sN9l=4UnmlkB;Rmc^r`-Zt<snf3J-@v
zK7eQ41<_4998UN`!I%%Eix2ck-<!I|_@*xr_n{Xe9E^Z9Kxz%T50eUY9^dJp<U28W
z5>XVoCWH}@psepPtq`XYg;0DXhC_l<L1-up3y|y^3Wm-IG2Y*$5|nq55GD9c-`Q{^
z;scvG?i&((BjE`lrhdi%Q5qGq+FEfI_fj0-bpf@7Sc@Uu5`m3D-34%vTKxbNDKPp?
z=V-}87kQjUQNbz;e6f9i0+j?}5$UZ{;1dbp$Z8$<E&@0g2?-5@DI<g}u_OR%|EP~{
zD`<6K+Z0n&us#a&pr|SfC4Kak>(lmOehl~;T{aZ;FrcicN5PWPXB#!Lq^MDSr3xg2
zoo8UFX|@#5gZ>s0c+(WeQ&VQ1;n_%Kv}y`GqhNhmG)ktdDeGVMq^zT;5tIc(q~gx>
zgA<5bqlW>8!QAE)JArncN1FiXM|-9$oTEkXO{F+!S*um0%#hRfi^oxPYZa_R%Yeeb
z5j~{Zh_q6NT776-6v03Upos@w#@KLp<hRI}ib)vr*Na3mdL8nrVKs=UuVb_Wqn#La
zVzdh*{2+DIG1axJ8hgZulN1hZIZ1JhMB+oi2q{#m@|hyLj@WtR#Hz;Mb{y0}EKrp^
z@z1futr-z{qLmGNFcH*E3*v=P+(GbFz+WJb3(5vCLxiysZz`N{aHi%P7J5Wg_lDo5
z>a!>(M6wS05-4WuD2$0=tRqC3RSG3MM~J8-s6HcP@MLShA^z%y=bO+-s)gmhNaZT1
zI`8e;CqLk>JFhtxUS07$2{xi5Z;xi1A48+EA=?Cg+dJ0!FE=jldKxmGCuGkPi~beQ
zUKq-Lx2g4N?_BTu&#EJ|ZO*hk1=i<E+fFQKx$AAqc(=*kZHqM@w|vxct0uGmC3*i#
zE8dr}y769BZQ7h|Y)QL6v+nv;)nhAFk3-&3we0YM0$SUg@obSjTQZ(L+0%EcO7=XL
zK9p_QlxcZNZh0!x(l594r;p!j?^xKf+)nJ{)@)O2rfIv}wEcEd@8SfZDcjnOzs=b_
zeQEYntLj-(%;DJBICusQ!(x@#Xn6JsBBLf>?5j3HV#Hh{w75xY$N;B{eueUz2EdQc
z5r*_LgzXhOvXm(B;~_yrcF@e~IHZd$Kv9B%WZN2>UKr#Z?AHVlSUgteW%s-8S@S%f
z>DVQA?E2KYJL~qORh?X6_;9quKaV~z^_%ljh^Nm$N~}(S<9Sq<FwiO=G%QO3rlNCt
zRF^bbi-O-Cyz>lCqZVSkR!NYD!!)!3|9K;ogmzPGLYF&6-h1?98Tsm<RF?_`I>6(V
zrw%ZbGV<q%n-XZTkziy$06yYA>zJsu1&xlq$$f|%1A(Su?L|I113P5xac-J58WD|0
zak0vR@!H|K;fiU#JorLx6nUU5@Nj*gaU^MDGy?-zZ)#j)mq4E&nxwj0I472X&J8JT
z--@XKp0}ueL=oMzH%to0Cnm=P0)Hog*F`8*tU+lq77E12#J3>puMiVh%A)g^$N?fb
z6i$eaB__qQP)E8eF2u~dtcgYyHhgZFS8DMnj08c46v0E7hzAnHh$d%CJ#iLMkWL53
z1jQ1KPY7@b{ALxG@yMxD+f`UV0u%@Mo)9BQ#+A>ggGzW}ihx-?%<AOp9#yr;H=(!G
zP7pflsJK$~-mZI2_m!P9d#3k%cdzVhO&`d5nr6N}{q^s@k+!2>uzkL5dTKs#{lc{i
za^245+TBZgZUt`*E%nK@htrPV)O)Ww<{VjP-R#8G)Ld%u(8tF<I`)t;HQ3WG=<ck{
zIJ~zV-n)=+cFNAq1y}a5?rit=O!u>L_p{k2cKpu5xOP3XQ?4ql!Q#ZNlbM6B$p>Hi
z)cLi0^_w&GTjlz#3yB|JxN%{*d*7`+a`&;7`hm17tJeh=t5@oG6qRJ1wO10e%(Al?
zTtSyFynA83apAzVR@uF6xnlc$hIT!9ucCgodiJfky4i;1ijDU<lWWr|!xFOXRHb)W
zLu(HAK>F&QK7E75OStrSVsZD>OEO1+aVC=O>)@=qc@zHty~Tcv5H*Z}^gR_wsZnTA
z9#lX)1A2}K(D@2pd#(eY4mgw{(>c?bMrdEXep>`>$s40->Ik?JQl|Ie3J7`>8ytCJ
zGys2}`T?t@-v*H2*&^UyhbkTTb)YVMCC?VXW>hx@3iaB2c%^Ct<2*}*1(SqB2K2x>
zNv0zdP`7?-_;!RgfJEbVaQmMZFXn`93K)q4P=HyZYceP`0Cf-mns~7!bn#;(EJk%T
zy08{03%OP{FfB?%f@SniSZ5WA5rw~S9ga<aG0pn`{Ctmn(c&jII>9`jifmxtCQkbZ
zO!|n5FHS&56`oxxCL>0RlNeoqNU?*unh1}K$HzfCCmmINA0<N(W;=>*eiV<Y_XH$(
zih%z8BB=IT%P?6r2%IV~s|{h!)8lXvM3C93!8Ag<_%_TcSs}vnjX^!*6{Qm<H?MKb
zOPl=@4%VyUw5I`|IHc|O9G=;#_nysGH>8hcD{E)$)AsK=(^K=z9ryP6;p?N<M*ltn
z$sA>}*|QZ*vj=8(Ec^PFCVqPUlk@*FwG>}=4y-azw+w9nn%zd|kC5Lo^B2>90T=Jp
zD|K5lb-U%d-79r_($0JCri{BycDKz#v}rymyPsHm>9%|4vUTUOduP_umhp7Tp3VhY
z_B_5YDtmUP?b-VFD^v5SOy|>b=hI7VOYO^@y>eY|+NsNp`gv!@w_WyaU)q~_W<Y*s
zATK*WBG@W2)&|+ykg@j2)}E}hVRr9ABGa=^?%9`PDBHG&_?<Zf>x_F7QuNXSv*PZ`
zxOd6!T`TUVm#t5$FqzkqU`0_?%IljIkTAG-BDXZ+UqNLVRJ%*}XCm40Nc%YPA2?M0
zn#NpwO~dd~qC~9VIm7e3I=>!*qXN1PIs#@hUkS58ode89h5FGko8g%}W+T?GLlwd7
zHJ-|(Ohg`aC3L(_v6?#9PhI9hrV%ic-T(xf;))zDI^MyG<wL=(Gi~~I0}GCjDJ}+b
zWeVI1MrbQ;{}Sb!Mu&tEo~jBd)akAZjRue#9N=eu4M8#Alfca<!N`p>imzVE0;v37
zVcwgTf;j+`p_*70@+;j?w2C0v%LB~K+_dT{yCr3L1!UnA`3-@~CIn8Vvy|VK{72%y
zM4%fue)8ZR-`4~mxL(Jj=q?Q=hy$|(-oug)Je=rg#f$sAd)5~WiE&AFh2l`45RoRt
z*P^;N3p2b4N9Ii*jDv%a_d`Bx=ZkBOSSb;Xsa{tsFLW2*g|8If!wAk6HE<Fv;lITk
zngZfEh`=n+3;Z<E$iXH61whr#RiU#TvcwGp??%wEq}Yjh5Qv1&2;zBco5E7Fs;!Ab
zSTcywcd(cNiBlqC$b>|s;XDc*0N;{oL`3ibov}O-=b&xUy9W5E{qH~%sgDScTqRZ8
zsEUt2Rb-gg5*bi|YQF67&R5@dY`WX~+^s!#dIwe-kITISOZ4}5WSX|fO<NWYecJTo
za_>O;sN8t`9(Z1k-gCHh^WgH)caP4Rv-KOZ&AzKg=8nuubH}qS?U|MyxuqxDw)uB9
z*46pYNx3#;oL<@K%{Vv7&P`e8hAT(sPhKCqHn_-K3oP|#_8yb>9s~K{+6?l+WrwT9
zQsSE1t{$E{Jbz|Uy3_nj`WVy`WgmKY+d!<kn?dvc!-LIK(+QfGTK{HlKImW-vnu{e
zRBk-v1h9Vsi5a**Oqnh=!_k9Wc~GrYs6+NE3#e>PnG(8`GCI0O$}I5==-^TqR0k&m
zh}0BDcn=6K0h7C5fy)NT7t}N`xb?uJg}2JZ2MO*opv@4z357?ZzO%u}0b*MFEg~KX
z^_bv+P#GN_jmG!__rqC3VJrRsBjov#D|PWIlq8$h;Ab4^3+#f<vWwI`Yd=`6>1VRl
zb(!kTa`k3VHmdy#Cx0Bc5s)|RO&_>xb!kdNi)?L~odC-<c`doP@!EwYHnaP%y!-H{
z)+6fuFwrB?vR4>M43&steP@3U)nsRxHFuUy!XB)%v&{OhbYT}w&>Qu}vT)O+?G|{Y
z3fy6^<D<G!Q5b?K_qgt5A;l0AhcYrVwE4gj#DeP1Bs*UgLIPYg6|u;$7>}wTPF`CP
z0PZH-K-6{cH<z&lQN~{fD)P($S6~xG%%Q%{RPmL#S>~}R@=E!$ryoMunv8;@(tvo<
z2($w4vz4;#qu1w^-&EDkG)*_no?P%OCO$s@(fK=72h!$8;GjF!BL$b{SAEw(-ccl5
z*5Ld6yABt8k@x~G2-^D!2M;}kNQuu_=hTPL0H5v}p^rpQ((5Z|plE@qPZTY<69K=f
z$;h{CgiJh9-=v2BLk}kJfG~lYwj0zm2Igb>sW&#{XVw)#_@sQ$40m{fTmw&#>AWIh
z0!4&P?$;HO6QTguD&_aJ<YIMvcvujL&4~y{7P6op3@Fw^;Mn7j#SbbKubhS<cr6d_
z@^DGfafgp=CB+s9kUM60J=2aA4bkA_kf6R<CvAda0Mvn)5b@_9dwqb-%xZtd5seG^
z2fI?4iP15pl3#Sa1EdFr2<ZX1(#C#5B-y(L(>z-DN<1YOfh2NDDr++Cj@#}I5TtNs
zntWHc&TajE&njoDv;V5mf5i-iRdtz4AG}G<RQlyg|H9zy%3WZBW~w*J)f+R_U2=8T
z^0s}qtM@%{QLgH2qd&({wwfFTBdpd?b?tC(;slx9B|E!5b#~uppy&?|JWxx{_xv;a
zcd%mVbGQ;HMuAC$EaDz8IC+f@;6x`c>D%6)e=kRHNqxrWBM&<Pw_?0ceaQz3BfjLr
zn|<Vf;27NT!QB@;|IDkR1$H=j8gxwfKj@3ax5md%{9%_N{e3~9srnM?IiRg{Gs)Ab
zHSf!`H+-9LFWl;0)PN!~8(ns9S+;Ib?N<D3EkHwc8BnjsWgtuN4SfmVNd&%2d!!Z6
zA^iV!4UPd}rILLBO4dX;c=vz=Z^IS9ttB^x1-~o&Glc;KcKNse0|AtCWP<_t{V4y7
zd6H4zF}?&@e@pqBH%lPE$3t*XS!_)d6cj`t?-Qc>^zBuwz*{cyWsKgzT9#<v-^Bdi
zVDvqV<}gB4MPXmTD*_^_eu#x9u+S8XDduAYA;ceH>1!CFq$P}?zMQMUECRWDqxxr<
z!U+GQ6nxPo>b{BNthpMhb4#{sTeiu2-_gcBd#}1R$H6b?svxqQ)6Ut1T)8o4!6GYF
zw{iZYT<g!-Fl(o38&<JT?htL_YUe%Io3Ay4Lx`(g-28FZM_sF!yl?e#Uabm}iwANP
z{M_>Vy!mI%tC-C7(^QQo+uor*)vNTVv(6v9{^GS4<<=+U$|tmkdlgl={G+|fnkxt1
zot%A2cDLrp>peSVcVBLPw|SPGef8?8xl?le<Ff7XRR_H6yI<ML?a^NEL2`-7QSfu?
z)t{gG*{M}bA_)WZ%k+JQ;o7scO*4_{NRFiaUFz?iz9s1s|1DnLbA%M!vsK`1s~mL5
zIjO#V(03E()%#)^`{M7eJ>)mvWtNp~&<`r^zesc3QF?aA)xC3ja}=f*LW})3M%DDK
z{#8;2R@L+LQ5fIO)n;oNW{yk)37GEex_<uJc{Tm?-lfDRjU=s;25lbHlh=$JxSpkh
zKYiho7k+yDljAuGvdbq<uHtWQ8+jvX=eqPal8`QXBZ)bDBbl>d3RgKjemV7SN?qk;
zx1X#s)-_Ux=>Z_q0-x+{$34iA^!|h7H&50>4(e6LL{<d57Z0RjISc>nO%#U7KNeH%
z-74}(wD=`GQR>vk6nMzso%A^nR8c`JX++FoQ(RL2<w*xLB#dA7j8w7iRfS}q_^;3e
zAy4XsD96w=y=tcDs?Vs-UsKM{DBow)<DXF*|C6$P&Q{RP_bG@zZ{JP3?o$wbK0yZ<
N+WP=rA<^o0{V&c91pfd4

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/cpu_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/cpu_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0cba5c474355bb7391834cec5cb701c1f0f12bbd
GIT binary patch
literal 10909
zcmcIqTWlNGnVunM$RRl-b)_YWvS`US+Pe5|#kbg&Y{#)JyS1BbmADMe8QGL6l9?f$
zNT$|7VRWfYy0$i3NJbi1-W0G>8>k8tsDfP}&c1Ac-3N}PEQwhK5YY4?Z*=6M?Y`{(
z{}~QRF=NB~kR#~KKmVNjIsffD{12zoPC<$???v{sP}CprMNe#zSotXsQ<Ojnbd(yz
zrzuL0m<CO>#xoC^foF~~BkUkccudqXVjZ*+nvHTJwm}=AEm8Z3W6%M#Rp6rhh;z_M
zQzq&JCD?9Kf?aezFl&7dx(L?+T>gQn$a9a<0q58FG7z9u^O4vnJos}`JS@uc2`QdR
zz`G?8315whK-Gj(k|f5G!9+Ba9EwXLz;pB^Qb(llm1D8g$k#Nq1Uyf_cr6kZ`{E-b
zsaPZ&O2(z5Az2J-y=pmGBp_G550(B77DJ>4X@MFv*(m%I>I9Q$7R(|ute32)Ezo0D
ziV_$op;4@88R9b35G`14ItQ(S^(HmQK`ZqF2QAc9R4tN%O|--E*agQkzLR!`IDx;(
z4myN}XSVa4Hij&M6KeB<OLU4B<9<XJ&Sc2c4C5kWatJikbKhhJ-9il+-wV|pVuV_#
zQ<I_Ip$BWvQ-Ma+4Lei01p}%roJa*P<F=|6foze=YtJIr0o(OfN({zABVt%Tthizp
z_{W2^at?Ou=kyenL@r4aY?}HRlugrVQ`($n9xxi8rjkX9qK2`4RZ3IA()Xl8|2WL+
zRQdU!NG4r6Z@5OM%FnBtDN6cLvR>y@^xmNJ%Fkg>nbs+R)&)b_m1c%<ORAD!dVoh9
zl3e?Y5@x-GRGS3x*HW6&xs|gXrL?~QGoaQ)Vv%G}zA_RV3B^K}MM*U!6RIhZ2)I;M
zP9=cB1%sqeP-Q`&!dFy>5RsEo<Wedr3ffC>Brc?)qJ+z>He42yLEP~W6pkdta55!{
z5}Y<lHUF@8k7~UVl0(U)q?+RiSv3XwRJ)uENlE$bNb-tW7wkLtgY&PP=`Z&Yu&9hI
zMu#NaBgu&w?ug{ZCT+oBI2w}WU{J>1{g~eUpNl=okwi}-lIVh#VLV;$r1rkldv&ka
z6OCNzNsK11#A7|zqS29_in;U@&t$klf5<&JlS)o^VpM8`p2nK0&Uv@KPAK;B1Z01C
zmwM`=Y_18b!Zl4d&m5mUJ->C4JHFK7&$V<aEu9%=k!yNtp<HWo&K-(#$AWX$zdAm1
zf9ihhJh4=><`?W;+a23o{tlnr*t=NsQoh!gtKFp3ZklBlYrE!Ja@$WR+fV$SS=@f+
ztG4ZP>lfPgX8OP2eFc`<F+dm0RP8><T(8h8Fc>Oa)V@elC;~*VE&wq_rKw@$R;A&h
z4zFZ`xKYC;0V;oaSUSWsh$JWi)4(UR$`Yv$n58BtsoF!)XiyS`R9GZC7%)kG<Xa-K
zL<&wJ4$$wH+TkH>f^5uNy~O1PI^es!5wdrwJjds_CRpMe*P(D7GsoxF=XUfdJNmL*
z$0FCCcQ<C75|)=hRN)W`auTx0h-#5UIGeF><#g~6k%jTWXr8q&<4l@1S{z+tIH<Ha
zY<kCZ)eD{0Kfml%=tpji(KPicnB}zjLomuvqf!gPkTB`3e@K1A==4vZhG51vpda(|
zdm01L88^fB;T)?{+C=nNXVRvB0F7GIIsMcvHf*{K2k7D&Xn}pc)=blSy-Cyi%?vee
z8E0cAff=_z&m~Q&_X0Y)woL0395O6zU_aBuV!<~9-TII%+kofJvbkag2KpHKHb1oJ
zI(gihww?!@uRX)yDuqqs?AuhpI`%6&Y8y-gXD=Mv=l>hg51J@7BKnh8LP^L(KRMa{
zq!^Rql0PE*<1xaP!O;0Nb>k0(rMN7Ynt~%vib$c@Rk^#w)_Qmo&hDGo4z?YQheJ_6
zmh;Dl2uBd*WF!_!MxYzym#dFCPsXl=q7lIl2j9PWY;C{~j@0Vmq5k#DS3(KVFTsHV
z-^?Th;3=V)1!!ptK6ussc3g@IK{+xe5*8?DAXO)J2$rH~(ph)~bArpO+QpGXax@r?
zTopA%V7VNE2}mjyx+)W0pqjy73vfgs5INPl#y+JkY=jP~4y_tA1QP6wr;?~Ow6&Ev
zC_}aaGEIZ*0M3}FT7zg!pmveLV+HL|sG&UGso-QVW6#%krtFjU5BSXZjCs+$V`k|7
z@V()Wqd*oYlg*xYwM_R-@6P%U&0qWM`lr|bWqdxK<p);G@GT2vEEMm)UHkWYm*KHz
zYTx9(4-P1NTc!^`)Z`qkilcR={;^~I(!ryT_AMS9Sn!@z4i3!Izu28?*{ZZ`ojv|V
z%g*e<fy^nzdv@8oHggJU+MK#_Yg4$kJYRSF)XatZgZBpK%=d!x{ka2Ylmll#&D;D>
zaf}77sxRNVyC?6QoVhwDFZ%Xp&OnPbty#_oHCoqY&g9)bc=_u$EmX@nnpn_(v-tXL
zOt@0@mvrJ&STWFvCV?($9Mn`rEdeW9O1gF;8VAc%wpJ{qmjR6g-ZVNrAhVU4xL9rs
zG~p0xIg>znsWIS=GfDI&NE*g{uS#ju&IaB)a1Fe?hh{xg83&K@g*6mQ455LBddTSQ
zfgxmv(N(BQ#`DBE;_P(o38P_$LEly<uo0$`Zo)D~JwO<jHhG`1qF^V87S&c3`$Udl
zLP}rb%29wZX9tKzkZ`pFCY2SEqu?46S8M~ac%liUZlH;@YI4sKxtCr-E-6dA01q1R
zq9jLR$#_wMH7#J3M52LI>qz{X2)Zg@sZa^14ODy4TR^4bC@KM>jP}CUvJ<Fj0nO*o
zdNXz>v~RCqU5+S(yu)QA#QDaSsn;i8|KMT<Wvr=vX5HlYO!EGXdpDFdd$OM1`F)Q<
zk1ow0QamR!j<1?p?>g={^8A|VYj@Lk(sRducjh-|o|;X~_KXv%mxa1V;d=6X^YotC
zhFoBu5<rj5woMadJJq}~*VLsnb<HM!edCiG+3v%S_9@+G7Mcb!&V18`;<wOT{X*03
z3QnH)+)hrLv%D|wuD^9-;>L`3w(nk>;@*~Z?Ra9QojaFZP1E($Z{1ll-JErGJYh}F
z^($tE49>3U2jVcP4o$lTg-AHLN+qD65;tid5YKXxjKm(pHU0RWr#_+4$dF@EBa1Pi
zcos;1;5GW8ap?$VXoqC%u%zDm;bqKUt=_8}5wKn>WT5C_W(_$vEJIt)y$u#)u4O*F
z;69q=j%t%N%TjoilZ^e5N%jKq|C^*PKj$f_4=R@?DT(20t0t+rz|t`&w95ZI0gP`?
zue$nGtcKwpOpmLcUj2f5cb3~tCKoUd45&B^H0)phFC;MNCxH&sVStB$cQB~hgT+V=
zXg(NxD;0`rUnB;K5}_u7tePPJBvBCY(^bm_;^3%ekY@?)u5=hOmBC{p;R;IqnBkmM
zXE9(4i=YOAFp71+mC=YC*6g+ei(-b3p$u>n^_QDCyG>j3o!jy)txp_ows*O{t-!()
z%vr5xil5}ClS)lT!HO)7TGKIeLGc6%Hhi^Hp5{Mcop0JrtOs5X9j2d{+t}8;r)4TS
z87&Yx(5XH5f&jv|Wt;1kZ^AdtC^p{;3ydd6X)oJ4(|F%^&sU&;oa-ZxM~(mP``ovJ
zoI)?l_R-6Y&C?yzDU|xzu+p|Y>)oz2?kKSM4Myv#Em#T3QFhmgjgT&e-LvehDX{Q_
zB6e3Me0%rQfyo0i9ZLO%tZRc}+xTZId?Z^*)+P*VQ%bm4m{zX9VwDjsffmg}pw|JP
zVF1x$fo6cV5R}UzT8+>Q!7ADWmY`f_fdxc}10=~#kg<B<S#@lp!?-nqE@`dVMYgJK
zz`zitBBSAr>p!!{)uZGH-sJ?m%O$#vTM}z3@GcySHao<-Y60(p_ZO>M#JlQ7*+7HT
z25YYJmEgcC^-*%0y2-Ybp{rpO!m6aXK;!5vp{!LUaFR?UFof{%BQur)KnDejB;#Pm
z$Tfmcjwyz67z{GyK&Tw<LD=Sou#FvuLnD}m(QsF#G^?vO7!w2Iu@pyVfp_*J2F6x$
z&|qu^0p5dRi%_x@aE?M?MS?2^f-B2_>VEC?=`+Fpljko4Pxc=hxS-NqD*d`jUmUY`
zg%c^jtO9n`6qi-27`qmc;xPgUN#~(yX(wi9AXAy)cqFFU2@XNj94H_HXF(H)d#RQy
zp_l+LvsJS;SY54;!~l|tg~eb*0Ngn;6cHs2ZelQEfj|Vo%pi$g)CNS)G)B3!j0*s^
z3X`VR2xipsZFH*y8_7^Z{ur`%sin34yTf;ev)~Y{-Jj)J@}Bmbr(5xKXB_!;yR!b>
zbKjf0J~xtG+m9c8n-NE9UhdkS>pG-#9m;j}Kkn*Z@ElXR`e!culRUla=cC!K{){8*
zIhJ47KC|<F@4epHQwtrv+4h&_YqM?8g)iT_E$iDpSDW2=BD>?2-&?cZa~bA+_p-;E
z^K4c;n-@G=GR)5$fBnWrtvRkm3ZGl*j@B{KRv2;^^|zi7y1=u!qJ<03KletbeYkXb
z^d?DgVC3pkMvlIbn-AyEAS5ty_jUJuoURzT0q{FqUml%KJ);)`utJw0fUEV&l#yOA
zTpxq5fP^CkE2R5ctNQs4XM@<E=JN2Gzu<%EN$7z|s0XAsFhe2J;)FMm!s)2iOCd=@
zIYW#{twFJ^#HGP?@nhK^L$=CMx(JLhzmZ&3iunz!HVYXD7dQ;flg(4UNkCJ(mD=t+
zUvum1#94Uc_*R8)&GDNResjfZyTZ4xSeZI|#`4q-cy5ksR=DOIw@%^K&8*M0?^N1%
z=GqS{?S~h+BTJm~mTkgzi=O~ga)ZKcfRMe|!&BC5vp)sz|M@K}mjKHFl_kLrL12vi
z?<mZv@>=AD&(Mp@SOu~>THIT<YHw91DnSVBis&xxlJ36`0Zk^b+JD~!?6FpZeJf+U
z{{Tf~KV*QT0}$dWuWP%)wa@IjzyIF;Ira;#=ojsQk|a=Ab%liXg=nLPKz!FLl{QsK
zvyr|rvZhShtV?Mbz|>dTTD{VCVr~e2Mub6=9v5D^l&w;L)ue^2eQ8~^T|o6*VV4L@
z)@-m3T44MEl$H-d276GmY7aCxs^-?IiBoyL7DC-6zE&5YPKEEB{lQ${0^j>58*8&`
z0hUFJ)>q-}C1Vl$?zacrCSAGHa0jNTsc#)+SMewpF$%KC0Y+O-ls2h+pc#0@rPM6^
zes~)T7_6i*;PKB;TyBR9R+eA2vg8({|Ng0ar{)^xEnjdiYkvO`D7#7tlpIVGIFxX-
zOGfzlh?{PD#?7m0;7(K}-AyaiU@n7Wm}dH^i^suzw3KnUv?W<GK1POCKj5+>SrP%b
z_biSWZZX(lyw0miY0LARN4+*pz5fbBm2WPL?hTS9l+5S`7Vt0ja_Nq>VkU@8RHcU{
z_yTSO7{gIp%Ok63%UjhDybhyrtV+WeRa7N#EBsX~cm<r(RC%5u#vkjh0z}}#Av)@Z
zi`+yUZdm;Yk3?dZix(1dH-z7a&IM{!hJfnKRdG~SEpSti5@kTzWZe<gw9o*QRr&9y
zz$G3Lk4aKoQZ1oG0vaXIpK2eH;v<(*LqlN3@i+lcm>PjgUN!~5K(ADC1vH<z605=9
zHAyR80pMXL%3S4OOd8~GC*#s+8$x~>NncalScY((c^%LX4UTmfNN43R5U}_a6qG-Q
z4CK;IH8f2-a!s3+rp*gYTNdiKX1FB?@VDl?or<?}!P~vi*aH^_4W5kcziV4EN0#ba
zr$fIaD8XWV_mZbQ+i`xub0J%EA<sAFc%Q=iroVUhwL7nU_`@&wjRh-J=L3fT?t{Hs
z6z`TLzV6oPiPO`YXHI6DyBGML-==<d{WsSEH*B$I+yD*O>NVeEx@VEw@>Qj$5m30m
z?D}7C{bcLh*rT0`+=*p(y{0yf!Bkeor6ra7TM)nR+9K+L4>2nM_yX<4D@eFNKxm*c
z{xtO24aG}WN-v@s5JVRU*bOl%1o@;_Yx&0-X^SqZ6}*!8;+3dudX@SKUGdeZM(M{F
z<r)!coGU9GxKgx&l`lr@pgutvya8|HwsHHoBkeE(`qOrOY-uiSI{@qTzK@~O9Ki9+
z0Kx7mF!^d{Ta&O#xUeK)MahiDLjp)9{Cp}gs#=rrOQT5;d2>{ZsphdrLS?Q+#J2(1
z_d~}7o-BdEq^0Y~{#(d2`6K{5ULZ(m%usq&GYF-o7wDvnH!o-^^`x216TmeT%F2<W
zP<{pl<^O~Xgc9&Q-&ABWg5X`wvsdx#oo7CCeCl`vk_OoOa$wio`MFEkz)K*Q-VHOC
z?(}5bU)47gK+T==?^gV~7yNs3{+AX1%M1P^3-w1cT)w_#`pD#dAR0hGCr@Q;OYXYc
zz3+|x(mZqWW7lJMcb4nUy1UEVS3h<?cK2kto~*lPxo3OEvE*x;;bsGKga73_JaIbH
zce~;CTlqHs-D`KQ%?KZ+GpDA_kKwl&aPM}6UUqx4oL7_2KA06mHweZK1nQ+%;VGTM
z>@;Q$%+PpAXEDQQr>u)LSQb5LDS;V*UeOJa&S8cCNEQ7038i(4eh0y?v<%+l{h$p1
zXf@f{tuw(D3Lb?fC+nG(S15QC{L~Tp7yzecc5lAXJN3ro8wEmd*)!juY&l3?mTk@z
z777&Vs0L4dL*R+S$=a9Q4Y$%0=>iKhs4$Ordc)n$JDp17rrGsMV|T%dd=7z88&ZJM
z`=$lO-Cn@T1s-8iCsG@!ja#1BEbL)=xuy{z-vWy-&}2;`>A*@}0R}JDCuN~MXuv@}
z)zq^M&w^*+6SRcrEK(Xci`14nwuNA`@Pq<}*z8j)eALzzjd!3%`Vl--3tW<cvDJ2f
zT!hz>A5e8y{N{-4pz6V&B2}`xQ^`nF)+E(MKI%Vxl(ipOHLYfLgMAgHp%DDA2ID%l
z=@R_zF=+66CJDnK?NH%RrS~xFzzk1>${o;t$#qEjM|gz;0mlNef|;i26^^3qUs9ew
uQ2dwFmOoN~FR86xQrrGW9e8T_F-^lASm#p;i9a7T2Wh(H8wzvM`2PVntE8p?

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/cuda_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/cuda_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..265f5fb529c07fa89fcc34d139ca45e731b03c01
GIT binary patch
literal 14466
zcmc&bYfxKPdiUxrbU{J_0p=whMhGxCwu2qOc5J|j9l-DGh9*&D-HVZ|2f30+z#_G`
z=|rUI1UI_{Pj<(+-8S;Xon@y#7SD7VcczbY+G%wGkCeOdluWZTyZ`Xona%EWrv1Ki
zbtN7bC)wSZ9$V+0d+v9>^ZL&BIv@X5SXe+o3TXbs_rhL^`fq%ZlQvs;_}5UFrC5rk
z1Jp1+RRKDv8dlL#ojRx)){wF~pbhGVb)>8b=!1q~11W0*#$ds40V(SOrXVxSkg`5d
z7%Untg0g`%2FyXru!Ypqf#RTb*p@Aq440@Vj^Ro_q@@uJ+f~#v6kG5n#hN(Fhw5x?
z*#zxket|DTE?Q(x@nJ6)i9ExHV`K1M6B!N10<1ga^#<ILiD1wj<brNbAi#5M%*z2p
zCC^>-MWP&^hvA~U&+874MewsPLfT1n&^XLbxVez$LV#o8v&k3oMcsk$#fuyduNH5N
z=ebbSJr?jpN5XvY7dUwMVDIC`eO|6N91O-nKCdSl=8t+JoL8EJl$)|I4_{GH)LXFj
z95qa{)Ue7(;Xk&DRdH%o&1w8(_trP1V3#KKkZS-!Drq_0h#^6Z(5&vw!eKqDf0G(E
zu+^*q+FLia#W&W-6^v+Lb+yAL=&R;&aIpRiS5SeiNM9p5mVtJKY%N>34fZ0gAUiHI
zO9Q+G;ESN2TDBNk)F_O{3iS?!dRrcoa$h3`wgj*jv!yU&D_J?mcC&$bD6R(1jjSiE
zio$H|fZqnAuVc%U+q31{)K_pNteGoS{;FI%qQcR@tad=J_Q&=rVON|Hta&B0FH2Cb
z)5GOwDObH{>5Z|T^%OZI8ogsN_eDHAqK+jLD>BkETWbR9eKp3pL!Kb#m01Puk`8`&
zBp*HtrSH+RR1|ATnzqKNKLyx09aqKGam|MssU8kG9oLN0yp~l>;ZGMTXVt7GpbDy|
z^fVRMPidouED}nI=%;jXZJcsr-z3F#@CL^~N>PhkQX+VNsr)tnWVI~yAsjwTtZtkJ
zZ1SO`U}X9L6D*uU=B8#1fuf*!%1Fw_fF)Qwg^W(k76hz8+ms2)6tpgpaKYRue~Vns
zKUveIK8oUxs;IaTAlmX@<Py}j%jNv@HY1O6eIL;$WQY&51->*2>|IKLsaY=PpE7gJ
zj(3Org^a#(!&{a77T59nquuhGzeg_RpSk`UU}mP@dS>|^wfwt)W&0Jp0{s}iNk0I4
zAU|HY#8NT(b(${&+Ee`QKO{rupA2=oP!>k88@Ux+w?a?nq2<zs6)N~9Bj2$1xg7!w
zM`hgk=M2ri1Ydy0HYc{|5>NwQ!<txgpdr{e1)>?&kWn6qOeHYCoie7-ueZT$$zd)A
z%uQ2;1asjx!2IvqV7BHk+W@n33RDOfbI~`zd}ABTB{|HcfVp|fOfZ|j0cL(1%=R4S
zGQjMb0#ygbZ21P5`?tYdp2J)Lm|Lcb3FhK&fVn*SEqOQD9m>7DPyIk8@BVk_=(lBf
z{~ySu{FAK&94GSca>@UqT*^QFFXzj0iLJU_EuSQsnt*?<njujY9XrM&PX;Zj!reb~
z<mf=ZyZ8Lrb0-JgM+OGmXZrij_x6h=&kqa?x{sYa)7$SJ>g^qH_nsUabg4!936Xw5
zq$i-Yxi=PxhJ#1eDSy^e6GNaGt`~v;Sadq(^IihDGqRFsI}57gAQxN@$QyA`Dp5=1
zC0~SZY94tODT|hzx|vlMMQzCA8%LefHiQM}U=RETJs}Thk7Ai85V+`xj)EpCDW?%o
z6G1Npc<YgiXCj-xHDhCe*YVq_Qv=`L^v%w4+!#0J9`#)ubw@`*o?jdti$wt%^iXcB
z|J1YRHnp&3TLi+dxj}X1LS9_4EcC#@CTQD8z!Mqug+^ek9+(CE#sR$I7*-$0YG`mS
z3|V$^lNIMfmqOv!LXIrB<ATR~i3_n^4)_%Dg)TaFMsnYR(u%Z;x{HDE1y2A_Ya`z9
z80Xpzh1eJ@mci{Nnzvi59S;P8?JTJ9yzfFR%CYTZ9v*t(K;MtTOn4jYh^XO0;}Nlv
z5D8F?L^SU6XZzh}Ul<&85B3j=C9w$S_7W1w8wjEmYe8H0j^@k<Q5BAedO+yo!y!?9
zk&B9j2!#W2dqKk&_iq_fR*Ax|vi=`w&v%yHalRbK+V=HYk4>Oa!=rL2c7DAkuOeOJ
z<mCQPT8Zsnudz(dJPIArBy}&%x8Suf4@OqRH_7pZ@Rb|@9@R1)bwp9`^+<sFS9z&W
zC}Sh9JZgEO9!xDSsHCC+c9R%bqzVkWplHGc&eD!(&KBHRA`<o43ceQc<UVKVh_Aze
zG+>6(i+5t?f=n!U-V=y%{X8G$MV(~CiAEsnusa;`a-z}g_5wvm+-{^dRC(QQmrc|}
zxWLG|d72R)>Y6+%VEi7;km$&6lKtUvoyoe95pFvm9=T@(+d8(SE5CWUBN`m*81s$o
zih6jUx?Qiw_CIyt(tfTZ;JeT<HW3{ShdOXCJJy|s4kgO#z-1;YFB4<?*aW`|`kk!U
zY!tN1Ck+WL@)y8~zq~>{Dx!=<(|W;BK36e+EIF{)x?(t%F_~vB3#R(jhUOIG$ka6n
zOwG@j)2j_V@cL=p&UD=oq3%eEsab72kkG6c>N55F@LBtLb?uGe>%%u*zW#Em?daWo
z%hk`OPPtRnZv49A3!TbX@P&>to}<4|WsBdUS3A4#YdLiK?&0afbElU~HJ{Wzk+JWX
z4P6Um$|`3sU%UKBt9BG6`c{~#M+VB$x?*no)Y6*lOSkn1Z9OZNgR32T6PkCJO#2@4
zc<LbO@Do$@O8uU6eV0(*wNl^nN!`9JSnCPang<0G<CyRJ;N;Dd3!bIM{hw8~Yy@2`
zDNmO)2_;QQHdV4`spR>^ed+E&p?fgh{k+iqd}{ymkBqu1K=#hSBMW75q|Hvj>|8Os
z9x#-neWC9sLq8t+c;A0^|7-V3?YCw$-(^-!=CrAD*;JV^+tTI+!Q3$a+LF2bzU9DY
z&aTCMA04`LXxVvUMsv^7m?<tz7w;5`ccxrNmx_<xx9tDS`P5?LN9}jomz~Eqf+X!r
z#T}1@NV$$I6(6~8>Hf@laFP8ebSJdz9NdT`<vO@jeDEtk4lNZQx^Fr3ne*wpCI3?M
z4>ilqQv}QBc1NnAXYpM6;A!FD=~T~|RNdKS`?-|m+~<rn%~T0YRmReqv6Q4Oje?~y
zZD|)Q?P<$?!LmPNuUXSmh1FkBn!=*BrzocCA&@HN%^Gr8rjQL0^Hc-*EUNdUdSiBV
zFp4lFDMR?PrmGBv&p0g`WBjgY&J^|M4A(rYk_qcaez_?D#;nh4N)=aKh2L2mF=`l_
z(v&)`zPc~2_UBC9JV2xw>XDahN_p&j89*qQ!FdSm|BC7a^&K$X$r$XLkiqMeCa!@o
zXto)H#*d6+Q_A-MW6=0>W=tL|53ywoIkPYiJ*ACnuQtcEeiQ(kQXUiZrS+pQ*p%`R
zTl!MiZ<Z#Cw<=DP6{+8Z3|{%hXwFRXJGOoYM+oI_+FH-5ZmaVOFydcFPYTAn@?4a0
z-`2=f3dSv9c4>!*0(<V3is-DO!4m<60=%9snpC(-`EHyGt^nTynW!adkf;X7sHj0X
zBi7_qiFHoW*L=}Y5H285&|Kz^U|W0E51Z3KBo$Y*<SJy9<RF4uvf#3Y#EZppF|WKF
zMo3#067>UFrw|MB<KjCJO5=Ndgym6Ci>7tL(WT=DuukU-fqLwQsl}qwpm7vDb`Zf6
zEeT_O5G&E}nXKF*CG$OA0f0yZ4)7IfO-C^n;ManwGG%hEw4KPnE8%5n#wjq)r2Uav
zwX5Kfj<S`{x~{oq+po2!t%n8c;k&wJ>obYojM<v_!%W$ZnF2s%E1PY*)|Sw(GPV>`
zn<=SGmozSwG-fPi5;shauUI-)trcl&i(qX@b}n1@00x_V=5UIspE(Sr#EFd6zCDs=
z!P1<xuUK{yB&~wAHF<2=x_2v*@~U)si%{N@D9o73Q>Mmbb=q}8aGm(LbH#NgW37Gc
z2(kj(vt+8x*eVi(M5I+OnW{f!EbpG2J~?+R*_dwW7FxRRviF$hVB!{gqVSQLDg-%D
zEilz-rdeQMpbOFT{%3{#&!(8>73O%xT$(84hj5F~wiMN@FX+v&bEv_MBq9I|@NGo^
zFjUIFUT{DoOvvP9MhFZ5Ab1;iGig5xmQ6|a?Mwn|2ZloXa~{b&Ab37i@`3cDA-O5Z
zIFPX^i4B%Ut{PWQ!mK2Q6p`5U<Dp^P;4{^Y(A!{DvD6M~5-?BcqdCE(BzWR_z@Q*>
zpjP2>A<x#P4AGpx@hb=u@Zy0-*N=A4ro?J)YxADtxZ!tMRbYR*A>vdZJn$A6@oaPg
z>`D}|=lD~Qy9x=@lX&1OP$BAr;c*U#N-Xe(Ls8$wSU45|b9B@L?am;8mJ5zWCwMQE
zB?IV1tSyx|ojYsIyTP`Ogn7b?Tt>ov2)**JU^C>iq)U;JSds({U5>^=mxzHSGQgye
zTalhco%9w#8p_!Wgj0z{8+)Ft-NLjs0wB#regoMRDpOi9>%Qhr6o5LLwl@j(ri3YD
z-jOmlr3_7wXG}#i#c%IlWy~|3vt8G^-s=&V+C=Y~fhw<=edF32^PZ$_xolUu?0`^q
zV7aU-!K|7q)8;zCTsIF{<NTyxeq!PDlDRWw=uDYAGo^LuQm0VrOwvMWOVTft9)P~f
z>u09s<7wwp0w}I^i}fkzL80tmg897IK3jRMGQ*V5Gik>j!LettC*3_HbPoYLwH73F
zj|wPbVcJkH80zOclWnL~4haW`QZKx8&+sx~DDS>8{l=VU-nMMsnKthh%)6J(ds2oy
zgnz)Mf*~96u9y8e{qgO`F%Qi)%mWVb{|ocbfp&N>YJx2#DXy0F%D4t~m@LcC`574^
z|CAU^6h$UU`L^p?BC}Lr0?3-C^dVRLF_`0;Ev)PD(8#*<aXqjuWw<=+GDLG)uRnJI
zlbr@UfW_z(S&vSM?W|*6Mp(^KU~o#>su8Z9)SzQ!1rAMxtN>Y^?^Q0rMUPHq{Gf>$
ze@8Y3S{y74Mc5dB0ZO-MJ_HY!InPTZ*1{qf2bri2a3Ow#lp?X9Sjc;TwfI8P4Ig1;
z{6z%LF*4D-kx`8ELHO<}*v!4K<8|Ho@D=SW{t{*Z$RY)h<=B)%(x~vJaMJM=%xV0e
zu=#0OtpYRu_spM6mXxXLQ_z-T?{&@ZShBUInAVi7HDjwy+ja`Jo%0^S)_l8nLHpr}
zC0l2T=}g%=GZi&+(RA$-0{pMoGks!p18}lSusyk0ykzT2F<mKJSEgcTx}sI6XiXjw
zD%uxXgo++e$bM@k2h5f!hB0TDvaB|#TVU??rx@ow=EN#if&->$emogpVS2ur>FKhf
zM$JZ|qK@aHF+Q|Gf6B4IX4r&T2uJ|aunHIe?91lFs!)eeW`=m|K`Ww^OliI&n$wk(
z3}|9FAqj0tadJftI29OK{zy*HQIzi_DX}djJ?wYw(WRa|a2EXB;M{gd3+#x79pL15
zuv{eS3wffxaL9ot(BT8;xZ^?~?7f8U@Yg&Ol7R+FLIj2^ohvkEc%oK-6Eeh#T5K61
z%7k=qUjhKQg+Qx@k6|_rSp>NfoI2^aO~A`!>6YV$_<oMSV~|~;Rt<e1<P+T)TbV@v
zAen8h<hdWYZ@C3)57-3gi6UydrDWE4%{bRI-}phx&6ecZn;i@L(tG=ay?ysA{hu?%
zvesTNFer}q{iy3!*Mj%f;l;jm&!EsVc#j#9<gSJ|kdf_(>Im;u7QkaN^{Ka|K6(;p
z<T2Ezjv_6S<VUMuQzCH+loI{jR>{-^_JCqU0>Aq!^k!_QATr}>qR&%G+Oymzhzkw4
z1afMLl5q3q1a^K>@!z>mpkn74&db52)jC2R;ln{f%8_u4_i}`a+w+phWm-qLs31#H
z1&<&x%CmILbKY?t*@Z;Kgn+dY0bj;iBnP-$g$(IAf;&e9h(ye9z^ei=Bhp_Y_$*{#
zhZ`v4)AZx%IjdC8olBN3M1OMm$Cp=%dlR}mm4k75eERsz$Q*maf8C$7T@NRt>5iv`
zj;B|cBT7c<cI3Xo4CQTAFHmzXp(Mwn`tUYn+d3)rBsL@0NSV&BN>DlM0F|SgTvO_5
zy>h*hQX*TV*+>x_D@k}ydy5`&X(UsLI8Khi7g3KKjt|2<BH2y!h)`J;bQOw|<y%-#
zwgC;05hNI}Lx{Uua-U>s8;C0(J^nq@Jt<Q|rm_}2=LD!$Fx93^t;E6N5EzH#Bv@fu
zG7Zi|-#x~$rlpuR!e=({6_ht*&Hn>>eT#Za^_KcA{ac1vYFY($^?o2bQxr!|61(m$
zd|J^@@U{W!6;}Ff{j~lnGp$$RH$1W2r`1>O(VQnBp@zUc^_zxibsr_KysW(Qpz6L2
z5lE~inv;b}l8@Eq<y}4&3i%96g4;$k2~|R$pb`cM{DUCDDNSB+j?<6FEvvA+5uzD1
zae7)U*PNv;Qd3%(Y0l2iE*?DOnV<`@k9r9dX^i0Vm*pYk62YpQR^Qgkc;(sC)H~H0
z3h?7ZHl=m=wP52LCFOXsAsh-!IKXsw?8ZChUD7T4xWgB5z-{tan1@^A4F?f7a4-BG
zwnO$k`Z<aw$MGdlFQ#aiENlSwj+W4$)3ZRY?-XgM3Hoo;uhHO6#iKEF3&gOfYTqr=
z5u%W1W$+ckwnSskMJ~j>KE@xK?AUS)(3O}SVtWth1D-(SP<yUHIi8Lk(8ZTOr@p*G
zr5cak>0fwt{&aHZ0)4CbuU@*-|LX{j|BtMtwB%VpwS3EE2%1O_{~2(7PeV9Oj>e%r
zo8;9*AJ)~;byp*~>xpT@I%80g?x(dxuF=YrFE3)G=>*Dag>xgde;*?SAA<v;RMhfl
zAxb58it>(qFdJ2D-b7S~%<xWR?zCYNWXk66d81kBWI+_8;&lwvD#-S{SqNGKebqj#
zQ@oY|DIKT5$A#Pok|gZ`R^c3>M3>Kn1PA`CNsXiKphJ?sNP@&1<WZXgNlZlPt5}PM
zpCp)hEae3=5ws|sMbkP8lzizDIf5#Ru2n+MVu9qKLX}N4$u22;Da^iP9bK<ri*C$_
zQi>j~ytC>GB<Vz0NmxQQ{sjX<0^H<*uXi-IwyeZ6f?@;?NT#CpM&<R&_p8CyGMA*x
zj!(;W%su(u<oxhbSx3s!kt*xRlvU5huf^wkg|g;k|3YJWPoDt)+xnNv`qwB`v2{H_
z%I->*B)NsY^uA*P{BM6Iwd>hb$?=D308EwjgEQaJF#qKHlXJnOf3bMcnhXgwJ=aXD
zwXS5{^{M2fQ2SJ>rhC!<aq-92Mff%_WBR<R?#6T1pUYS(=Q}^>x!JR*`>5~^xV%->
zMTtSwElOeB@HK653KnOwaAExJ`IN=EVnOeCNnHx0o0=-FN?V!)OVj++!U)`LXKW6r
zCjyTU0e=Nn-c<;(N8#x4;8=hQLYz9slHiARM*9(f64gKel2222j<_pDO#lLHM71vz
zg^h>pfzTR^kT8+hCk(XV!D#f1jiFIulq#XP)xn9ph<_LRkZDFnJSGuIjy_&-yz+{}
z;duIKLLdCw&}OpgaRdSJw^Zc60PKH2;bSOpP1e1A;8W|)RMT_I)`1i=u)R|=c{$zD
zyVTK}GW4d*=*1+4^$%^!$Xp>?sXLk}DNpo2&{&OiKa714zZqYnp!j!v|7g2&{9}#K
zGw>^XCzX$yDaJlC@_p_`;Cf)i)cT2S=ln>LTej^>G5c2S<={y**wTht!B7h^5I==0
zkX~ZK*Fd-gI1&~b7SFHL_TFRqU{6bStRif+V5o*TiB<5x8g`H^6$?jwEX#$Y7^et0
zap2TJG!_K0_@WW91pjJ*gFtQAB)1$7wL$O6S@Xybw$nAUPD@1_-=F1E&^(uj<&?X^
zd=a?N6phj&t{Q>sV~GM)Jkbs@#%IhE^^St#NEpNWfQA1)W<P+8h%ngxtipH$suV&~
zWE@?%^@x`2Jj4i)$cU7=BW37-JmYLlJG%vEciPz}IQue8#oWPE%ON<i%>{y?F;O@(
zg@>$qE|@a6rVOoQg*W&<P%;rMaTp4}&()H-II0z!R!9%QVi$ZNPB!Ps0+F@Bk>r-<
zCcG%<(%HtxaAmpxgj_~$T^YQ|YZJ=b(&hVv@_n!}smcymmx_W!Az6}?p^B`AOFc9s
zLI~zB{uh!<#s4Ls93mUazX?SbeauzCKL;hT!0ir(*;oK#r9{T<el_L^NRd-K4qK8p
zM9QeaIv_De<VuzQGyM8p%+R^WzlRxm2KfodM9o=@E%V|#ntc3K%#bIDnhW7@0Pdz^
zz|wf66CPJYEX>Akc{$Lg++c&8fLdaMWEl$Raukml-Ze%39@gp0H_=dZwr1LPXDX{7
zm^fNn1RlLLEf!!k;MRe;#>_<pOT(I;)ETI<hWT@X-L+;U?*){-;tSI5mqTio*8bpm
zx?H<={`?0o-h6S5g5sk3AwJeRsUi9d{Xku(-J7vj&IYap)=1gaCOx|jEk^FR?y^GH
ziHG>%!7<vPJxR|!d86lg&l-j0q<5k3mR~C0?R!Y-*6h?X^mBl>P;1YWRLq{Zc4Cc`
zooydnzIj<HKh?7sy|aUqSB*vQR!vtu)B^l3YxLUYwQ{PYG*jR7z}T*>T(y)+6Q1w?
zVBqEeIyo&*tZCs3EJjiBnjT9KS5-38J3TSCPcYX$#Aa)wG}YAlz*wMdTP>?X!Mdh}
zGPEftVs=fBZw9KiVGUu{3aA2eBKB^4IzD&)#*5cqOqpGRvE`u&zwMxo(?c*Hy|y}2
zU5{VaNcl)Vd1lA|D=mDNBpq(3t6Y*@#Ux%~eP}2lLD5L!9Wfx3?*Q<x8$5|hQPvM0
zi~0f)DKg>!V32|wzh(?(Hf|EIfo2aQBw>=GiHu1KLFCaU6^lrX{C8v#DMYgT0{qdK
zTOp*6M@tac{_FThXB@v_(&$nl&K4eR8gfecXR$<%z#n622(v-RL_?2sdJpk`3$Ji0
zs0f~%H8oAs4+|)|@IKY@GpZaS@n{tU<<aLcC{HRj-ltmcQ$6>ohM!W#PmCoq-(EJ>
VT+uz!#WZwvs%+O66c$Kd{|D;OPeA|x

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/cuda_wrapper.cpython-312.pyc b/distributed/device_communicators/__pycache__/cuda_wrapper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d324ba3e6fa7e731fceed0ff67c20185f10599bd
GIT binary patch
literal 9500
zcmcgyYfKwimacMD8RG{A48}M-OkN##0!~5#c|d47guG~y3F-7UGd(qqs{k{8ZB;>n
z$646vo)wwSZWC!Gh<bKIORF7FMjKihsTu8RCp~{=R{O_pC&F7pOFi1zAN|i+BDFMs
zcF(z0HnwB34{7%%+`5l*&%Ni|bH97;z5ZvL%}hZEu^$G1>!GNB#Y`@6dSc5!Q`90Q
zP@|MU3x*IqO2d~48N$pcLt_~mV#C}hN79CnanwlYD#E5w6Di|Dm0|O!nWT*&OV~PU
zr6~g?nnl|q;EiFlN~9-Sv~*!STD?Pgje$B(2^Akuf(a=07PisSj~MMc>JS-1TM4x0
zM+UuCZ!lUXSj2k45U-%9F@s?JfE{%bY8y~j<)}v+W(;0?{1?|Jg0g2U7!p13^?PDd
zlIXcQqfA62o?DVX7851USXA;T6QU<DCHN)96AIpx{L)N^`J&?SPe+4-Oll*dD0q~p
zClC$Cke%Nni!s0CS459I;g_INZ+OV#j|kA4IS`FZi;<uhQAih4vgo-rAws{RXL3qb
zJb8}(PzczKiMKpsQ;~oYj7H=R^VcZuu$NXV1;64Cg#5A$8Kyrn10PE;5>)t5bbMTt
zAX^=nk|gMdkA?gSh!YOzx*{J&&ukrr#3Ch9U=7r$L7+uu(o{&Or9rb`M`MO@dX$@C
zysTP_in$mIyd{P&fM_9+S5#9lqKHz&ANqO@S`B-Rs)^?#{;<gNs+s4*QDF+`c-6}D
ze>~+6={3fHG7}SJ)fnJ!&L|?Z84HRbLFQMfE$sXc@A{N*%ohvB+7-VvE-LM}r@Bv`
z_<pzO1LgW+WZrz!p-|W-1Z71E-kefI!6%5*!GOra%!H>R!GK?hO0o|J&FfR#5u1@v
zQW7;oLUuv)0hOuQwRGd*dk@}Q8A&xCPF5dD+K>L}1*tYiT3(Gup?X`5Z&M;8vI5-$
zr6LC@14$W0t`SREfx-L?>*Z9_pgz4SiwaRIBvD3%s3s7WXlB@3Az6T2vSMU|NM%4y
z)z0(&NF=KGiE;3}#9|d2LM7B7DH*Z@Q}wy14HB{wq90LTnQiZ1%-E{mAIenKE_B`v
zK4lxUCP=LsB~h7@A_0A2LlH$8;SUXG>x>2^^c`Bs*9(Rm2pp&G7!rm7>OBCZJ4}K~
zFw>Mw-!lo!9h#;hG)oCA{>v>(no7_zJ;Tm2lR2}*-t-`FIlgz;1e1VvZfY_IYB?hK
zKGM^7xCA!|Fi;w{`3Odwg*(QCak8?MiUKgo^(UB+ZW4805)xF7Mz&p|gvx~RV*sTD
z^)dBVY;GJsq!Zi-wTC(avfl#ieV3x)-@WPE%)8Vr+H3K9L3L&ig#JJvDha{JI6{fP
zFf*YjG5M6w7xqWGJEGD!SbSvaHfGyn{&7*p)Nx--iU#;tP~gM<nA~x^V?qgs4iV0X
zU<BvBM~Hl~7#f2%G5LD{SrNq_jA%F(7Q<0##)CDU=oo=EWGc$?A%Le~V8RoO1VU4S
zNXQB6B76%%MJVbQ0Pt?k6gKbhyaO2Ok9ZL1lsxQ$oMS-%L>yntuT1Ej62|@<r#$AO
zjt1lQ5)rNstF-Uy|9}u@I^?K?J3_qv?TC0gCI$cjh~T)SPI=-s0=7Cs4*(MzjfoMJ
zgE5G=RSr=j2A^0csHkQM5L^l3qEgK=K#n5c3Mv!c3e^M*2%f3jSad2PsPq^vw}^-w
zfKFvm7S)6r$Bt#RLL58<3D=?OK&b(uQB%A=9H|{@4#1!M_Ylod*(%CbJ9log(w3}h
zeOl>R?*DCF{ro`2-mrA+3wvwE)wIC<OLcv=f~t3Z!%*h7=Vr=U^OfC^HBz>kk1pN4
zv><<YW$s+YVqf4EjPpGkmgbbDIc;g31164-;&<aqdp?|9l2Z2Fa~Coe$A+aPWocQO
zN?Z0V`%{(!8<x(LrE~4VQ%i4_GH}L>xpmpJ6klmxyS+A<H1%&WP?&^DBW10gyZlWX
zj3HU+`GZ^y<Npiun-1my2hpz_+?!1mMQDix7`9k|szS5`CxU^khZVU=1i6whPUoBe
zLT3=!ajK{Uu(qTGIaQUgfh^D!^8#!Jp4?<^WCcy26alm(Jks$FYU@g>AUkd-8kdns
zREA5*C@OZMgI>z$V~4((qP|V9;8|uw<#~#hakhwS<ty}MEznJw9!hj$eg&sjYu*ZD
zb(hh7UjA|OXq8|Qtb$Fb66`{?P$Sd|4xvt{|A~3j9;Cn-tr2TQ$C!ca#&v=dcVj58
zC*=iod5Q+45RM3qVy)oPolN%!+^AF71-p5Z;2L9vW^g(igci(;wUBRxyi4$ije30>
z<lVwiVK;nt!FLaQn}oes4-%Ep81UE!G|j^P^7T63*MO#FN16k`->Z+oB)kr^t-`?_
z_#N7ze7k)+wD;`TSCeRkF?Rq>o8S|zuaN67(CnUZc{^3xS@6lOT_4gMY}JM?+K8wO
z5cf^3$E=nfnTZ4@q-Z1<7ghUq@ikEv70n$zFDmCGDJqQsoJYo0GZMW8esnaTnlL>m
ziK1RAhOw1KA%+978P$Ol;Lrk-yicpv>4jHdx7aSVP6T7yL#%_`%OkAHmuds7fqcpM
zDxpXpUIiq{=t!A1I6aADtA*;)p*gg&qLF#c61wx!5sZ#v)QQnCjE-Z}g;6&~Conn*
zky?+N7OzBe`w<`T2PQ<dE>|oB0}6T;G0^F-S|LZlKM#ok{Qw3W3jD%<gwjRu=H@yJ
z{6ad13wLO!X)dVAdyJ%}TFLXAL|3*X5Sj|`wwMABi&oGlC86B0Wtx@_D0%;_9F``w
zM+ZLZtGOkJKmT9RAf_ZJKJS4h3ddMxpMf#{EC_yb0pBuM0N(Tm;Ipy{I_D%LsB$};
z(vYj4#N$j!$Z1Y$F6gZcmL}NArjn+RMad$T@^v|19=vb1+yy{_<Lx<)K;g-yx4%G<
z*G_^%Pruw45Qp#m84G8M0txc%3b>WdRaqK+uJE)(!VKkQht*2(%y8j@M`wYgKP<pn
z>pB*{k}t=512}o*Jk?-?c(VF|+mm;l74WG6XB2epZww8+#h-n9p#R!+e&h;&wg37B
zZ!PitR91{k%c`Rch2(=_Ndp+6H>0v=2Zn}J2F4+s!+b3`yHN?8T|R$FpjN;U*{>*)
zgeya>2+BNo@?j0%aG8TFx#cY3Nl-$Ik<eJct%b9wjP5ZW6r@3{cnd3xgukq^NFWhs
z6}c17R(EaTs88-6__*^d=q``w9l7%Np@DoD+^0DzW2v3*+jM$Y4yK)5^XD^m=ltyN
z-R&#kw7X}aB5R`Rb}jU6w(Q<$=}NV9Eu7Cd+)2m&EXCNWvIe^5=oSMhEHP15$4}Zf
z+`TFIZ|U8vbuAvee{g9$UAuq&Z07Wtdv9%6eJQJNts-STvFY$^IJ#1fuC-e!N8dbq
z&-9h07F+kE;J>9OQ{ON@xar!r;X3iubz*_ttlO2Tb1h!Df8qBHuWdB=QVqVR4M$!u
zRQ>Lay5p(3<7>ia!B2x<)V=XlWAnqt2aQ{mTz%~VowZWUZ4ZYY3@y-qS($+(+$BKL
zoY}i?!MLC-&fK5*qPi{Xpc+qR>!{QHG>)<(W$jqGm9lnk0{8mvRDJh)MXLUddG^oE
z<WP?1ad|4FNVqPGz!#yC9Lk3vf#569-v@}7S^*&PhjXaXLm}WP`Qx?#;0K4-JRtv&
zhNZv^Ylo^T&1^j)Zmy?1UIW=yRO_{=h!PBoWY6_7(g^e*y#tY2Nho<ZR>{~y{`h0n
z?f>kBb7wEd-NklNSogQkN<It`+DgsBw|;yYjy)SLU&`fMGp1eL^A|U3Tb5haDp!7x
zY(1T>?MYgDvK(dAE-+M%^k1YU90$?TB}gp7ttDs&Ql&wl2_)n<g|ZhCc`c0)9pN4u
z=cbgg_7k9*Ymifof*6PjB4mkDz5``4Zf^QHkmxV&DV84*r`SV4w3hcm1X{5B<`q1;
zCEXn<yKjw4+q*XGy(xR|`gqztm^2OQR-#>d6^V{_B}8=HK+2j0QAmFOg%)}!RY-0x
zrztQH!!YqTRt?g(ft-k*6PbsCB9U=6<GWrKIqyjQ9kytL2&6SxH%yHwQ)AM7d};5)
z*B`vT%%|MP*T&NB-e;yWMAV{-sl15V?3TCuSBse28cPKvzLXz^wMvu8lyOaIm`D7q
z_@0+#ddVI96lL>3R3uxkCR=hJ08nq*-S^D&#{a8m#6v{UqyUbuKrpO{H}51E@o0aJ
zO*{}4iPW7FsVn8~PP<P&Go8{5la;}5FEUGXkce6SH6#|PZMSf;j2Y%;2QC)NUjC7}
z#Vx5MXy#kMyUg8oBEOyi8}+`otsr55RSt%ZPV_3LZNsJjk8c2cY}@Wt?&gdnj^$ub
z1ZqTq>8m9eNchBEFRNBN348|a<X(v8sLh&&#n$_+>6+d1#)1WLR9_I^Nx6^yyz8@`
zPkWvi)1BvkQ<ruRKQ&#+*z4zQMCB6VTam`|tK|Oz2*~*YjVXr!*nJTKAVsNj5CG7_
zgU>%8aT`QM)^u2xbu{HZyyi^1Pdqc7)Xa&S_J^k6-Yo$4a7uuMhPjY8tE*4~+u{ET
z?GlDW{x)IT6g0#mXDA{ltD!pzDupl#LnPy1V8_!T0;$VRH#y|}5*zG;s7UO>DPHSZ
zKmKH2+I``f>7ph&BghIo07!u%vC*!{Y8r(Eyz<d-S<Zqp{y!6+T!<uS6hFZ|($!j|
z0A~1WEY=Q@L<>eu3sEeMVT4*xYj9@a$PCBV0ddR^o{P$UA1*)T62Fl!+Cf3k_E*45
z#-#`MqDHE@C24BR*gf;?4hv$fbDdd#`^iAsees#;646)D3dkGBkAY<&<`m%z>aipc
ze9`q$Sf%4j{;*f>5c=Q47d()AIqgL%znc=ck%CyI`&Vdes&RrmxfMBA<U}8Ddl^_t
zE)M<)7|3TJLWJ3quGv?BE*We4`~cn{CmRl>tnEJ=dmLH~t#_q6-h48cwqAb07%I&$
z4b{#Z#7qO9@(TVNs3B%(C;;DA0Xw`Cm3!6M5!i{T7Vs_y>`cyd(WG<tn7J}|bz+DE
z_caY;C3hjxIHbJ#vPRj|7Bpk+nRCb=pE(!t-wcUYMNxt`8+aWd7+bR9PeQx+?y~bx
zbXk)GI(Zl(So_}BlcxP;0Y78y$W2K*91%9For~7{)}<Ti>b=Wj$&MkojJH+2U|5(K
z^Y+Ae>0y9jJSq%(_mn&ylE*;Rf`SpxomaF?jSIj54jyp>d;p%V`IuU9^~%NJ>*uaX
z6Tk<{aSMlM-YRUWE$z#&qKV1k>+KXYmrx+-TNn*sD;95$B=o7t>!gHt4dm!5-M|zv
zbo8H91{<S~Sa5mu%6qHQCr)xw#^@~k$sdEM{fK&Qq$+C`T9*&589%drYF+u0wCT+6
zOx4Mn11ksDq_pW2$?RUfyjGhw9V3~2%hNxd{bY81*Salj8ib;Z)s?X}WNf?UZ+!IK
zyWd?Je0b%-m9*{9%Gl%RYBXs*vsD4ge{RK|+)LkH>3ZC^+LwI&blTLTwO%^7Vtj00
zwXZvW+4PI1C)2;4{d_k0+B-0D(98tQay>Xc;_vcHV-KSbqASynXIE#RR3)ufw%KQ_
zZG|IAHg%+JzBT7(t)I3gt^I{`y9?>^BTja_@nrw6+dpqlTCWo7>^b^1w=u~&vo~nU
zeIV1;o!NCT({d!^Y|GR&V+{XWJ2Rf+&+9F_fUqIkLbdynY~#|gWoCI~+4SH{n(cs7
zc=yR9>ss2oBrgxFI938Hu1|)Otw&St&NO@CIornd(?BnLV&0-KogJhZu6Ow~9O${;
zwPRcO$(m{IJiTJcQutkGw#YYYq`AK3vsl=-GJs`$TTs+bV|+SmWH{%NjBK3Rv>_`e
zvO2Xi{c!fdEH*raJ-`QfU80wrKW+V_70WNt>kjSvWJLS^<~kByqO(ShyG&;sjf;Kv
z`?3tlczussS6lT=|A3bGs?xT_VRg2O<D4t|ANy8)SqhTLGgr6po2@cI<{-SI!55V8
z``q^elbVBu*6MYs6+AD%11_&ELreab9ilAZPNW*)R{(H>q&@F*@H>XUgj$Kecj&--
zBk2;-SV&&`?T3VZo?1mpa=-nM$!!op0@bLK{Q$_MI7YMBpc1alrvmWiFKU|*UNmYe
z7au6Kn<%^})5h+=CZ-<kHyvlBdyqvKmFFSKGBiy;H!?K4Wv1w=FR8XKDd(1vqHX_1
zxxS?Kd`TVrU1i<EAEhf>=8SM#Vz2)wbT>3-$$-b(biZk?>V=V}JC~drjowtF_XPzR
vurY(>8v{eTV76)376aKV$y!}>_43Hdu}?;~C`f+O^|pa_{yT*+8R>rlJFXsU

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/custom_all_reduce.cpython-312.pyc b/distributed/device_communicators/__pycache__/custom_all_reduce.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ea8468af13dcbf964608eb8ac094c5d5a2c79652
GIT binary patch
literal 14661
zcmb_jYit`=cAnu&!-qslq~5R5+q5k?vFzBAUy=22WIKvu%So2ql%Y5ynKECQ8QPYX
zLb3~EOC>HWZMT(zW*fP1VHtK21z2Dmv}n9Vfo@wA6+<~xrb=O;DbVznV!Lfp^heLR
z!{JagV{hBNkY?`Od+xcfbI(2JyO)1gTx_8r1P$*7dUjLPKjViQOqs~TE}EhiD30Rj
zAQhrLG>vgxP#4mB^dzni8axI_(+7<qlc$KJ86eJhm`uJoWbs%?+!(ZmY@T8gHw8;V
zc8@*e@HohKQLr>r<|!j_Cg=>gJT4M92g^eho(dAT1S>;To+_F$Q#y(-o`hEChg+Eh
zptpKzfXc<!-GV+~@YHj~d;?bk|8~A{+{8I98$2vm${Qw+DipcTaUE9%`OP}&7{xg+
zQ=IFTPRaMQOzB%FzP6PTj8KowQ}aFQ%5xW~OZx9o7io9-S4ifj<r04+Eb*75kT2|;
z-~~uA_<f=@0ukFOA>!vn@t6>aMd91(^~Xdh67oi(qFX1|_Mbg7`qGQuzLO`trw0el
z_78er?0e07X4o@$Ms`g^W8UcQsMqI57GD23-hUo=I0Ip?bdL9mz7X#XM>yW=6OnZw
z9FV-h$b`}ahd(9=d|2{EgFb0IB7}gX)*s`1UXH&I@bg}OBnG*n<dgUyupb?g4T3Lx
zUbb9}2tm#(2Bvx0B=Ay92>UYwLWac%Pd)rUl;N>JNtr>Xs5q@ozyS67>l8Jki|gXl
z`E3*>&{xb-mdB)l@Y(VZ_DQNJQj_K_S>%Ju@}?<?h%+Wn+8(Ezv_GB}r{X$wQvEub
zIzvgNDphVCwDWbEn$j7lDZSe;GQI!I`9L%p2v4x5cAsL&__Mw+$4UZBA|}H$u$&OM
zzzZEBp%M6KM3B0MM%`xF2*WwS%LYDtL6n`ZoILrW_sogmQ(oZZ?SEmg|AcH(W=l45
z{8(&4HcAn}e-4BPW=XE_`@-r}WdtC~^Mb%Y!`*tJ7+yjNJY+f`;&iYq`(MAkOA1AI
zMFY`J$tO(kQs<@EzMlQ(_wl=efw5iDDd}7!yz4?R7}~`JL`evY#U!5Fm6eB3C>9R*
zeb5SVS4K>I!Jt>*xtO2ticZOl7aIj4Db!+(@GpAc@iw(lTsGJHS#d*xUbouj4Da-;
z+guw~d)nIaskLRpR(AE|?8(*YGi$cd4QJIt?|g6CxhLt|vod<;*_89pr?x{I_LilA
z<)(Y~ou50aHtkeN<EDeMIUWLcO4bL$QGZs<AO!`8h~U3LWPyrPlexK&hC$U3muPW}
zMj9-U7gU-_6zaU7=0VA#ye#<4$t@tRYVI`fod$6Q9@hU44_riNsGIbN+awnUKox+(
z2~5NyF;Ol8bs~V;kxk*TDTx>5l1zd(GCnTyl5B(J9YRGwR<to33-LiWE!0DML>x9&
zsDY<k25c|#zVkV}g?7l;iF9M|c$-?cmZYt9No!ro+VFtV+f3_>^{RE&`fhQWsY^0-
zDW+k`nQrP%Hg%_(_TJH__rH+b|3Yg2@nqBSBy${!U+tOgdH2AgGhOXYR=ZQxJCfEN
zU+Zb}&P~1EXcFq68bADJgF0vre+(^Mpm@qdbCgFn0o&9c(;mGUHVCeU)AI(-z#Dnf
zG)xp<H0j8e&qgqZGjb-_42murJ!am*F_*KG=&^F<%aq5)S)eqIMqYp|!U|hN31{MT
zob7$xchSMNQ?NX2MRus!e%a)4aE|YwF@8rn>D9P_D}@%6!d69j%5a<VIC&T8e=X<Y
zjbsc6C0EYdIVEP~%Xwop^ktmkDlQvUq4ZQ_O4f0eDn(BDD&UqW597sf)j1_Ar%dj8
z+1^j~u)bhWQ4MaxSE$^-!e#jts`0N-Ne#)y3EcH$lcHb*RLmp(+?9r8WF4De4T1GR
z$0;u)DS?B{!<${#5;7-2ta!>+p;xydQ00a=^32vLq1q&25_M-@&^9nByRj4!rpdCr
zg7A5MA1sri;~-?}F#m{_%2hh4QjNuF&UCv--Hg<hZs`-wSYF^5l@j}u(~APa3c4n{
zL27Jnn^g`o#<&s2B-{TSZVei}8ha`?Q{2Q^luaH++a$4S$;oClroAuF!mgazE7Vgf
z@Mu#@Jeix?qgxrxPR6D~EgRQKpf#1Cj<--P?NHMuQM2U*&KB4GA@wtz%6Uc?Zj*93
zwyFiP9Lt}~5e$!v4A1DcaN4eND%1{@yQn)({fI_0%3Gn*OS{zA<TGkad#lnnQ<OvZ
z1p8Uo9XANi#EX8|6)&3HtMO4|S$<5Mk)BgiFHk~-)T4fB>2U_9G;ShKz1oWzz0|AH
zP99Wa+Iz+vHw$j*h?*kxWn<YHjGHI>)l}`x6|1AG)}?;WSi*HV90%1h(lIrr_Dn6I
zzGp0POI$bkf=Z{ou~#$JocTVk<*Bi_b%K_(xy`m;&4+EM<hEUv*cqFYZCTu;wqSs|
zTI`2S&aZpj4K)@&xkk?Pzo~IvcV&lxnkfOUnl3!4wN8!2OX9ZgT>IJe7B7Le+B0nh
ztvF+k+b3UAd1!BStf6)n)b5zE=Sb%%jZTfJ^osoF(4JN)w0GR0j@wKr=px7Y0kDj#
z;-yd3sikT;qBpcvHLCGeW7+mJORuVFphZop)IGJXvfR4JK9}9uV3fb7^3>kaZ>jOg
z@2fHGt+pqwpN2%(Q*^hTs!V~d$o8c$@3=lr!+wx)$bdepM{*<$O}@OqxpE|%%gcmM
zsI7ob)ubJ2>Q+lZ8z}Fd?AMkZDQ<$itS*X|!dF)F<cv#LEv>zw1;4F*sWC_$SL50n
zcfrY^_N~TlWh@P-b-$XHQ>&n+X>Z^Y)xOjiq`slXwYNIzD0AqF`gJqK7vV`__KTFe
z-1jkvh6UU?68eM*u{ZmLNyMn?C9Y>w0T+}cR*JCTx}Rqw;VyP~oE?dT`JHS)VlM`Q
zK{h7xSY!()<i_#izF1IVx3KEkLZ+B+N{vb!s~QWSBMkm;o-qh{TJ>A_V0CJ9#&~uN
z@CV=!VaJ=%;qCoFFyi-tw+R@;OtaR4VTlchq$0=-5=UF$#b_if2F3!xfHZ|HLca4n
zE5-z#<$eBhtUsc;ve_m87p2V+*2jXQ`(_M$cLIg%Bu+hW-%?Oy17WBaijfh|^6^0}
zBnN5)1cpTfMr-cS==2N9h_Jv=v5&C>;BfoKf;`8L@qQmpMr51~1w;{11jX0Rp$BhW
z@Cj2R)BExVS3DPq1(6BslO*UWFof>=pb_EDk^cUZN?W@GT-%5ViIJE9SPu^B^od`q
zU8Kibq=6NqzOcyp{6a(&Nq5Dro3zjgReXh7Z2IOC8FMhs*v2pnx)_ThJ_4;KAQOu&
zX)oKxb+Km(<cN?ZcCn)opbPS0KT0qR<wc(mhGE+Y?c)7`@hNp|RcH;yJ%d>s8Wo^&
z{!%m;@CT&eRM)hTh?-3Al=c2-3=lXYCrw3pp$qyUz-CKLUw>j})Y%J20QiI>5(u5z
zqez$yML;&BbI?`kVuU@_Kg@SV!oex_*r~I>;eOouwOTm^v(Kvd9~<=f&x_a=1<mqB
zeVGLm5l9Mv2NFB(gQ14`_ze!aTSsI?W@2GK5!tU0OmO$g#opmF-u}K*qi0VKj~tU3
zb&beozXFo_1i=M!A{zo>Krm6@WCJ2svK7EB?-=xl4|8(S(M-gED?rxcx-%nfQASc^
z2FY;^5ZFvE!A}k46wpYME4*jUo;vl?>CwRf@2fAJJ~@y<Vf6r%$(8^tRDeoB1`&;t
z1hmE#p|N7&a^$Ee6M)Fnft8C8szETX#3y<IBoqUYFd(ji0B8ijTA@H#0HcYLUHxYV
z`n<0UpBX-Sa?m?4_{wlU;J=0-c2ytpMP;K1A}k3AS_(ESVFc~VUy@A{9~L9fK9u<h
zAE;vi220{Y3QB}%uP+!l&l7ZKJQfU2A-ogj{jdZ{>tF*35in17`2`-JV6S)%6ddOr
zi;a&1Gd<wcvN^;{J_SBfqESf@WvfEsB_BpU6qTlAV+;mozih^__HsVSCo>`6B~nxY
zEA9D>C?TkIcD`i;@{{cXKLMTRg-ko#WwJr!gX2U7lyOI(Kz4{zp^!JkhrE24sMj1^
zwDj@$D1R&oX9K#919buB7&LTd8b#TXAr5e&ToyeyB?2@WR3|yW2`^&<XfMbj8Fw$4
zEn1SDkJF068$c}LT;nFVH7M{K<Mon}@J?4LOS@0qJ-XB!Ko}_TmtcFpO>H()4J`@7
z8dI}gRhKYaDgGCG)gu#C?7Vtn_Qa-+E`9EiUSC|Y$w1Qm@*1G9d}(*4?Ttx$<B~CD
zZ@=C8;m(^o)7uXuw;%Y_eqfW*nJw$K!H0Tyui6hhVkn1m&Dp*byVJDhJh)~*^d*3}
zBeNsOyF=p*Os~$&&MfV@(R;0T&EAzTth=h9HuFY#b-H|8vV7aJ^x^c)>9z9Sgk{}Y
zzF7Lsk^8o?`_}UJz3KY?B>Y+X5g#V3b)_Tprim)8-EcU6`cm4}n{@T290wj*P0*DR
z=*pMY^11Q%{cG0djq;j>@6UgKX>hrHxoWj}cdER5c4(uxa?x~MzgFC;X1Axx-HD+u
z?bVCz*V}IFytZ@AzH61)wQAqBUV-Cg-Kg7{t~;8nJDRE+SY@iewAH0;tw~$!nyvkF
z2fOZQT6J{ZZ{3@29Z0qgq*{koZB6U;*0pW@NqhfBZNr9Z*XlEaN!QTb>7?uQx~uM?
zQD0X!$H4fpt?9=7$;SPwOx@?!#*OOw_x;yfRyz))JNl9xeRo?@9Yd*xW2x#FW{-af
znfzMokyLA6s^Ms=x<7IJetpNX=|kI1Te5!dDpRvjTCq?!U$@%$>}tdAKX3cQ{jvL3
zgKMRy6Q(bRPW<Zl+R&>obCs6QhhDu~dSwvN_Qj?}=k>uG!`Fsa_|I$ySBGBR)Kg{`
zOmw9MB*k2O)jn%qv@X4}vga4QANAg24uAga!BoSck7}3u7T^5f!h08fc4?({m8o5A
zIP}OuIoPzlGimS4j^9Sj_H@mmWX++~!!M_5PABX*yYxGUukFg2&O!Q--T-rFfw{{t
z=}6i;*6i+|Z@aVSZq3^6lR4BQIn?*7>QSsgfNL7k)w`3`yEkn1t1r&J`0h)K=aRPe
zW&REa9jfVmNa<=UK#G;rvFX}9$=W?DuiZVnTDvDzdjgk8)gv2K)A&K{d$sGf+Ut97
z9JqF1Mf$}LKKj8Uy;{^nRX1UE8R1>8X@xKQdLzj58dJC7s!Y4uldkr4n*#-Pao~fI
z_ePcnR$9}$hmyO8VCc)S31%EuTbij&GPOW6{NC`Al<wG<?AUjY+5hc>2n|F3?E{8t
zJS?IP|68W(<sQS|HB`QQ*znltMhg%;{0n%TplCow0p`xbM*l#!K*O0NdQm{71n@XA
zKAoC^ZxQ^bC!KGAC!(9uwfu&7U8L0W(LdG08L46V@3V&UC^!otADGU0_B&X@#IDPn
zq5=&$M$MT0+2U_x_k;<-7d@BR8N@eO^b5co1}0$ZflER7@nFl7Ls`u<2Twxa{Sko!
zTNX+nxw3_^K8}MniM)tz5~o`CxG94@4RvWeMn{I=@D2S!p$8svMd3z)d5r#X?)gd)
z*adKw%1>A3>-S8?Ut<A80{)fy1~hz$$=tQx)Rq`nvo-vqt@M6VJBhA4D;Ey^<j}gq
zm3Hh%I(FQ1biz7tHGKom=8h+l{I`ez){p4Edit_;4|TN-B0q2MtI_|mMi0>~GROcW
z>@?KFZ$P4Q4|xko7|2(~XND5la4Umwd>=T>(13p8$p8t34|pZCq)5;(Q_Wk}&??EU
z(iOtyp)I)0=7rl?6jp5&;8yw!ZUya{(Q|O$VL}J^6a)B_VFnPAxNbrhHvm60LGuEF
zm>Q;^)1s<8Liqf3TQp;o@KlwAxKV58>pLiljG+lIU9InRDy{a0)+)$rQQ<l{{cXdo
z%uLbLl}-aCHL9gGq&+9rtmdNN;D6iz<Hlsh4UE_sK!rJS!~`Q}HXxe8sB<=B{*7=a
zJu1N6qFp?gY*pK-y<r3j$Yk6cx2QN7=sgv8(Pt4DCO76T8kuf6ov}pGQE%hGSLb|+
zQqZ)9@GR6TAeiOW%X(4p=a{LekcHit<rH3nmt2jmLaqk$2BLm2Vd2Dn3~5o?gab&a
z2cK6l`BB`2ete)0q&P7qu=~-9uS9+se;xS3fgAC3z-s65s8;}+UM?RKB0di9q<AA^
zlVJT5V^zQb5?;i|F?_rU54V*lF4+W5EEj}BW#tfAI1hO;gI)%)>hWsBc~L--P+CKS
zJE0VT6KSQ4DB^<7v2}@|OKO>J&)0#4)#zuyKzs)D2;4BJu1i-xm#lsc_U@^Vrc%{?
zvn2`BoN0q8!6WEZSI?h!-?{K-2iBNlU}@}l=I4g=GyTbD`hV5>58MA{``R;S*S5cs
za=x0}{>swJbEAuUesXek`zr}%)%ogrW82b&)rPJFGv`{Up09@8d&5!jQz>29oviG>
z)B4HwkGHQ?4yGJK3FAg3yHx&JWykEXL|;PMusPDUcCbd)9aW2^^VTKT^5}=2o1VMI
z|Iq8e?9o$I+n_Pd%AZQ_4_tS?H$4B=N0(CDp8x35O4D-b^0T*GE0>bno==taC5kr6
zpvtFHG1fHGoMf88;_kWDvplhK@g8&J+Xv;8>oxk@2M)^JM}I4Cd!D!&zwERQb{hW5
zY#ZEd`K$f5!F?8T=)dJM59)ZL=l=;J<R%5Y^MgQ7(Q*1o_a`7Xd&a7jzLkmMEeN~}
z#ObC%*K&G1D@C3XXb>f6C$A#bMNQ)VlNUGxo-&HxaVjC$@szC4g`o4W1kX@YwA(l`
z^pyjc5^#)wJ?<j1iwkX-ib{mscp#oC@z?~ktzf_BFbgkC$P8RXA?~bt=SK0~911R%
zMWBS~d|0$Ap8`M-N}PZP-m9=*J@n3@b!XMOvtprVzUTK2;5~|GlTFX2;5LP`JHgzy
zI_Jh_4=wh6YOM#l4SUm4%bL9%qTn!rS$bsl$fEC4Yva<Mbj!X^TlTFxYZti>Lhpr=
z&K;|^9qV=%xm*E&mp&4cWQ)4qcux2o>|6pKS;0V^g;PTW18(%8VCdd1&r!HYkr%Wn
zgsIjGZBkYsCbJvAR;2J0<EG2eaMvqS7Ow5+;I7vHkrUKW;2^xPkdV!dDs(AeYg^p9
z>D5!bfcNRZiVU+bn4OXFPQcjw0Lg+?nYk=w$(pTz#A}0%HZ5Y3I~9x9CyJn=5onGA
zoEVJ&c)|-v;{)W_$4zNWPW5+cT)Nno5b3!X5E0-HN3q0sKmhd4ABhHt0ZTyPsKDox
z$}&@oUd^Uez+#4ATC#-zIj}#R=av16Kub!mlnn|GrWBZktPX>=Iy6xd4M2pdU(xyR
z!q;?7zRt(pL}C05<ck74!0s)hZ1%)~jk3ygS#z?id8s>9){*G{+**zfAbMYWKInO`
zXUV_Zy+W@%yJp)9j-SJsuskZFiivv$rtyM#-n`hoq+c3Mx9v@~?Oox15%?&OY<vE0
z>tA>NvJ)IX(9R}Oj4TU;)1omcy8xgi6!w5D0Jz@zotlyOR!Ef>w8fCoXUHut2tzp*
zaRGhzq#I*`6U4YUk0E@Llfdk`J1m{7hAkx8S}V_>m0Fme;dTx`w{iMl){TStQ>KsY
zJ2eaf4K5hiAr}H1NOT4kXJMh_m`q(Gqj2*Kb<L2QQB?1b;Y0DK2&9VlWaL@`n<}?g
z0iWZ2Ap}*yc>)_uKv@#rfd|0K9LBG}Lqvs?kv6&1pFxka@-^L*FME%XSYejM2yg)r
zBpMYI@{%FV?oG0LSNJvdAUIy2r_<JY(7+pZ*VXCS>9l=s(!O`izHhy<cHyo0w*W13
z&ApYXJiO{S3<ywFeY&zES=q5{OjUNRI=VnmT~!N5=8r7xT{$~<B;`D?YCAyWZ;R`d
z6}+8K61)UVSOG08{6M=X^~1)eYR&>2Zb7XW09-)GA@fDt7zEYx0<_}S*0JD(W$Gi>
zF$;6cUQ5y{f;tc{$qTvMrofb+f{l74bM8gdlPY0jP*722MR0ZyjfjATj|+Sr(k*z9
z43~gF6dY=!T=(7R4?@Z5^2Y=Tlj~7<CZPoE<%o#BGqdEnQT@l&8}_oqTL5M*Sm&(@
zBDCgcU$3f83|tuoFez<oN!sAv>y43XBX?Y%RDWE(YHL}u_2*=zTlXYe_uSd@NzcbU
zka^EGxM`)DcO+&Wmm3^gqOe*a^0Z5_===!i{K0zsJ$MQE{VnnW)E)GCABQV48Ex2S
zwD6(NjP0sr*7CbHMVS`ksUD!&UUDB*cn)a%xjGWf0n$*swfl5zK@~{i1M6oDPZ4VR
zcJ`_`c+{HdP(Z`NEeMU)1pYrAHxgU5D5qQ@@h$>S8_Q;TMN<>t32O*Nyhv>`T!eo<
z<Gq{VUXeL&A~)sA;!MG7>Nz(TuhbW&$uYvvmdy*`-DVc7`UXG$sDX+zaC=xcLL61M
zSy>HDpuge7J^#qZ3yz;xapeTf?>q_>$)&hsXHGj5KT^Q!C$h;Gjp9L^JpwOs8l#j4
zXYvmqUvXMd4CJDWjU&V{9oM?D<bH^mOeRzDD`omzVFwZ~;7qqZwhjxNUTs4W{TYzI
zO#ud6+mNm~lB_v$w>VWZGHXv1%~gDvJ*9}PmG4bhHZsQ<pwr!Ol;NzLYhUb5mbHO<
z#sIL}kYpMbFD{!__<PL3`weV@*>Ke_PJHHSpB(^y@Xd9*V{YJ`Dewjt?DO`eqI-^Q
z_m%i{eVXk~vfV3vDfYR0j(wYEs=NaYm#T!FEE?gD)UnvIR1A<xmI^LUVue@a2tY=g
zLRL0x5ouk{UQnGQ(gp4DxDIV#O>9u33X72BHYjp{B0wZZ_z9-!l_qy$Dyq#b4iO=l
zZqA>i$JOp3oFcpw1lz6+9GS$y4Fovn4=u&koSlh*4Qol_2v~k;TXWLZytIFL;M(DP
zw%y=b+iJ<cffaz~Vnc2nAhWuW5qA~*O2He(pT>A)i`N^9a4|U4^U5}__sy6usN@I(
z*lbh|3iL6EF=Bv_ivVZ`2srM7hz|rtWYZ`)Y8B96kqu*!NKi3Ft|A3dp}&tgHvB<N
zzz=xNxd^9#D=4sJKyFgXT-RX2HuZtM7jd7xOv&}`RYMINb(PhxS2uiZ9nl$k?%QiO
zjTpg`G1r_QEZe~kPQG_C>DabeMAB`PrQ~5TiN0Z=Os=nWHe=UAJ;XLK_MooR_&mMY
zUTiF18oY7x+R29$L^oNg=g{iQuRPF~8lB)qE*zXcxJlyft`F;O)+zDhBM&icv)y4l
zxD>k)zZT!5AbQ96iS1+CT`9T$#6$dk&}uRc(GMIn@HJ7UGI+FaUuWCCE-Euttyk7;
z>fsF?S>%%T=1n7f0EM%1(KWwg6G`Bh$5N8;&sIM$!xuKaY*UBn+p^4R8^11MjNR*H
z6?5Xeds7c_jUjvhLwniW!0hBEk`aav%n&2YzScoZ8G9UdcdKm4oDSek8=Po3NuR<W
z`Y4zfN`hQUevQ+G_YE??l##7DAIhRY5t7aLlbSC4nU8XuZ@_N>SDB(|pCkD>WxLdK
z=$v~>VwdI*d1F!_D3V(O<o7;u<6|76J^|=qhbBMZQtmrg36=7jA_4a;xrC&sH$X%I
z_iMR=B$6t+NFOuRp^+tg4<EfqW*)rc=c5u_SrD#aA^|3kVeC)vfmpS09UtxZAmV%j
zV+c$us0edVS$&6vpF<i*xT1|W^)yZYJ44a!Ur?3*OxeDm*e|H<|3X!LLACs+PEYGF
z?|B-&zMyt|K^@*S80m_2L+RW7zw_b`U%dPhICyUle{G>G<#Vs4%nfgwHce*QG1t9G
z!E33Xyp{(Z;@4)Cfi@}Y<sk*p|13FUpt~PX`21#bFU6ETpmcP_eMk9^hBu86`!5AK
VvpA1hsK2xn9d+sd(n-Vfe*j2_uM+?O

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/mnnvl_compat.cpython-312.pyc b/distributed/device_communicators/__pycache__/mnnvl_compat.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da67cc3313b24bf966c63a81d7f45771ff3f987a
GIT binary patch
literal 1783
zcmcIk&2Jk;6rWk|t~YUl+s0`l(kAP2vZB}$NNtg-N~NfkDm5I!1^2Mp?2O}e_QTB1
zMztFxgmMT%2yQXr07s&7fD?ZNmqZ1%TEPJ!4%{N#UO4gIuGe+c^vFp2=J(#4+4;SX
znV)B8rwI&C{mi{lAmmR}@}Z5uunAzFFv6%ueA-kfV#O=?YEw;d!P9)bsZ*j5u0I-W
zi;8y%Q*-STs*pQ`X}g5!Tzv#*;b<0nv{w8Z;aZI*rCXuzzhgUFJYb-nZ`+a8^6aSX
z1}!cu+w<OpufKA8Y%@WZA&70$4_WMS)3Jjfl;#FETVWh92mhT9eFTPg0qhe_nv{{I
z!ssq(7MQ}-mck0VYEv6w6|l~<)UE?AvLaWR0iVK1OJ`GHGkVjtQgZHA9Ldl}{&C<s
zwhV=%<j2B{7-Jru1F=tb=nk;}Wur$9D2A_Fn<9+6H6>9a?zIvvRU_PMn*V;#kbbw(
zb-Sz57MonIK8UZreQoP1Z+PxTquZ11FlcOhp5I_@B!#;XOU@dMZ@Uh+oC#u4!w-UO
z4{cpr*1NsLuq-!lrDgROUyh@mJ7<7LGzH>g^7Q=Tp89!di2M^>a2bohp{R|<INmE@
zfOttK_e{*4Q5Q^@NZv2&L>OSNDFRPSRAC2O2UK9UMtG1ZkWOOU;nG6ismya{8I}&`
zK>+je+!qf&efXrjd{kb3T&^A(Rq+~l{$KWy+vfsH{}OlfyplUQahIr|K$?llY-yip
zExe{_YY6~&O*f&rI+Mi!JB~cHec17lBFD+^sF{CK?kL!zo&3T~xW1?P<)vgtS%(Ti
z>xvSrsHx%tOh6I(FF6aB(%Q6T8!m3R(cz9vD_JX~H53cD(#ZUrMM%apM@5~2t(m8P
z@sxfXd$FQX0|b<{vhd}V!Moqw`|94;?;Xvp>>0lqGf#}ABV%ds;JeBX@BeiF$NRq;
zH=mX-?3J@jYEI~dA}MU~o-@t`{0uXf<`aX*)*ZFt0m->9fkP~VI7wSu?|QE6FPuU-
z^}LQdiXhT1+$*It)@oCD{Q}$PmX%CfR`!emp0TVCW82F-Vixu#1vijl4p5qCaS737
z6jc=1AL*?S$UGHTmgqK!UGk4YwTs6()h-X-7!sIH;)1p?aE1h?<7ui@25%k1n##B9
z>2$by^BJny5%~9-k(|Xhu3evaY?9K1A~4)!{>AfM$2X{+K0N~So6O^5Rgb0XMfDfU
z1a@N<!O5r+<9e2x8)5~PV40#ih~omK^tn!G^>=dpFLLdV;-z1T%ZFs`u)6jbWO4bK
Peuh>Ci_Zy6X$b!TWVM!n

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/pynccl.cpython-312.pyc b/distributed/device_communicators/__pycache__/pynccl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a1b0fdea3919b07e979ec01418c88c0c1eeca27c
GIT binary patch
literal 17305
zcmeG@TW}lKb-Mr-#A87~;tQle2qZ;GASphqm#wEQk(Mdblp{)N#JWWx>{0@R2fe$H
zOcqSk)SZxyI+7+$Mb$|~&A20~@{Ht}&e)mB<T3e4n@&mya)9hGtvXF-nm@?2<J2FW
zo^uzw3&Kl@j_uad>6Li*KF&S&b<VlxoO|(8m&-vxh+Do99o|7v|ArYgSW1bdzlFqA
zilaC>PK_#GI$;_$)0j5J>4as}l3+#|lBeU=MAc{&Nt@%ggniVWaEv+<&QWKA9c2@)
zQCFgRv^wD)brTp%+>=-{x`w2g_}WCxXbnkQ<F$#p(K?zkQG5+wf16fDGupsag}t2Z
zRcf@+L>;0y`>Pb^xNR!cHcik$=dUp{95l)7i$W^Gi{c?6l^&OEM|mzC;g5_5t7PZ!
z!Gl9X(NjWLn2?>P(qm)15RxXwd6|u*x$uZ2@Zm&Ak{!uNBz`cJz_bU`{b4D54B!Tm
z>4dxnO91PUajl5OqT|Wv%V~a)3(|7kh!mFiI1HkEEKuQ$CZkd)o;rP+7a&_5Necp>
zltLou`q@ZnzGPku#Af(g`e%r~PJP`1yFtUsQwjPt3#=B+nd7E}d5Wef$wpd0B+wHS
zX9-(4Mk0HR<uO*R)xVte(e-1NY0ES<X5y+|Wv5J^9vkePWy)-#GBjt;m@?)!9k+3A
z5NK+G3Oa`c+)P|LT*{C*0gIpD6QM{dDe<pJP|?Um1wJB$1pahXlwji`X;DfgLaFg%
zG8;{fr=^g@C&iQ?TLoT93&~}RX$9;x@VB%G(YH)jfxu?WGZvM=w!<(aZSi9z!U9k&
zWGEGOie5FO30MXGsf0>XU!`NXtrbDXO;a<LSXD(eWHa<vO)8ctQ^qtxwNZVPNS`;+
z)JYgSO<nAM#e9-FPv4@4gBF>QQbOd6?BEmQ(nKg8J<H2XBsD$}k{#iA9M%wdBFG49
z0k`ZRt4)?rc9L`|Ex~#U9;|haPmnE%06&O0_&^|V;lf8FJyK%4XFNK-MG6b2d1=cl
z>77qKd3Gn?6OW$i8K02Oq>?@7;_*Ze2iqk?Po*WE>*4rw(FhN_nn<LR(MTAEDFQHd
z&^<mOx9Ni;B)~(%Na%c2Is;8$^wGq4eDXPs0yI)l;8Npa_nvqv5{`@ex>tc|GfYMd
zL-gAV)Gu7EbGzSl^(;2}^Nqo5V{pDJ*SK@~@M6>Yd{alZsbhXmuIb6?=Rahq>fWN2
zve)Eo-mJ|#>$`8;Sg3Ew*LP*>yXHsVS(mFHn06N2O$)ZB51jzK;OhBEbV4t$bw1N-
z{!uIQOlQ?H(nLNWq}c_DtE(o%5lX0o20@ch4<Dfc(=^#o5eYdUG(-H@6&(wo<v*Jh
zMNGZWrHFI6KrOm!^X~Oo_xd?D=iahl+p+}3l<a@>z68y3Rcbtx3@3P!7)vK3vK>*A
zy$2b-18J(ejHbGcXbOml5C`-I^Z-<*&~iO#oR*?-v72y6h@^!zIJCwP9uJ|BlP|mw
zI`ZO3=;*+q!I5JFM+f@J3d`1GM7#jk_yC-=5&W16V1&Fv*yE3YKb}?=f88S}Rp@{Q
zxJ4ol(SKf`J}{XW>jzefd4`7A)>5!l7Xlj=EX_rWm09<__8)Y8x2s4&@*lVV)1JTI
z^BYVSJv7s;RzXs!TB0EN5HR@*p5B6IYhms7-&9!`tIz^HMc_{h_EKu;O^|q3DV`do
zIcn5or?~Z;i8u3>NsvXHnP+$_rueEDPO~Bq7z=OZXiSY+Ip$Sn)XveoBZib&5jc9x
z%vk}Gx1s{FT-6HYHr~P6jqAp2oCErEkuf`sVK~;fe9XeRpl$W<(w3{{-8|C>qlOu~
z0gGqF`I@*-I4%z63s^mXb<JmpRU0wEZ{yYg{<W~vYmHZjtKk_~p;~~dc?47)fvN|n
z+Q&jQ08}041vRdoYlOIArM^M&XnNH$>gCq)4Cf;~G(*0T^Fu3C_X6_T7bk|{*g!Q+
zJxYdU<}^|ItcpyKSvZSO*$a(_r85y#wMD{1eSj!eqd>FeLN`N8+Uc*JxZ>9&?bME8
z%ZhNjlow5hsjtyxu$o$?H^|Vc9wBMtiD{~u4ripao!trIqUtcHerk`)daKr3t0}#=
z3>DHwQ#L|W04l<=HrmLNtr^;g`^)hHL~R8!$O43hB|}3F4?_|%lo32<ItwSW=#exD
z5o=Og=wHFjnE{tJXU+mSw^~2J*eMCc9SIq;y5<0bvYrIeLT``QwDvHvRuxYF#y06`
zHKpzZwASVhtqtTPXT^C5FRp;QQ^lx%%W!LwRO(jiV|{8$|8i9;VBf04s3{dYXM5AG
zE8|JGw7n7n=BD?L$^{9AoN`?P8dXB<Nj0T^rQK>8#)<k)MTqUGD1fZGcj|Y_Qbxb~
zJ`S(b?-Wx8`LqF~CBtx5l;Ih=+#tzVVh2ACt*+OURT@xhGgfs}{nQ_TGVl_}j;X3C
zTgJBf`DLnb(ia03ityMW6}SF1#>H9RbgB|+g&i_U&#72cNTIQ8hYqW?`j=xfrq`+O
znACYqnUd|gy^}FXLn^F>vF_0rGiA7zVcMZ$iW!VU#jeOyFd3;(y9zJqEr-=I{Tq8;
zPpc_?3~1@Cz$0H$q4h67YFxdn)PQyY)`06(&Vum=RSeQ`HKoy%y=)CnsI~f+1Do$n
zm%1iX4(RKoUaO`u4t3XHj`rB^tL6Gv?T@Cu;@}wkr{V-NoN1$^4Jzyg&~U-Y@CX@u
z5?Y+66sxn+8l7O2@?drNAqWfy=)@#EBb*j@X*nz+2llRjbcPR%D}EcLC?KT*=TpMj
zKq}cC7#s@>r;>bEASwmUN8|B8TI8|GGE9h#<Hy43xU?Kq_cAa=HBfp~(%99hXp$p?
z__$U9)%pmQp~4>35uM@#r&4J|k_wEqqC08V9}`<NB!rV^r&^Z}qFgU2O&&B9Y>Nwl
zc1WNEqIa!!^|2w87DJnSsbv6_9=+Q^DG(J2dN7dVys$|O2)sC+N{Z1_(Rfsvz}^#J
zX$8czzz6tn<V>L4PS?5xEXr!70^tCtUf}eCuF<a7JDc2Pu#V!HR65QDV5P#61n7CP
zSm8i2mE1z6OlYC|*LcD_dra{NP1c_q8hQaoo))9Y(*d;V_U>&LWri#+_=Ok|TmwA#
z{mh~e5w<{EFoU<jXObbi069D|gWa+t3MfP=oQ&`S3q`U8%}BXADu&Q47Y)awlRPIo
z!J82}6^@+clbl?2pp>xS2xS}A;fBf<5?5m$$TZG{L})BK^fVcYY~hpVM7ib!Od`}j
zIP%Pap@GngCkZZl_*^&|51)$jvJD1;2~I#gQ?}qNW&6M@5q?~Xrjm-w@enT^4WB>3
z3nCT~mt*K$Dd)x(0HFFHWxKL5p(rO?6?da-k0!@bp%lzst}cO>kO@xcRWWiM2PPz5
zF?3~19GAxy1rMB%49DdLoNS3nLu9YWQi!tsl#mK@kuX48r4(sp=fPFV3*ZHnU0Q7@
zbt)#C0Uy~B*f2?uEx1XFmlaj{LD-0+WPOqL1XRytW|9|DqJZZ#`lphSGeRl}s~vR8
z7LkvSk(DMWg&u^lmi&MWZV`?SrUX7P7#$szEtr$7io+Es06e?IJA=Gj3X1V=3lXXa
zg(la1oR+)QO4Mh>Je>L$sP|hbPt$Ds{gxf~-8&a+8uB$8vo#y<*KA&3H!sv|CM9jz
znzp%tTusND+@1KXc)ojowtN4*n*Bw}<f<-shL+6mU8vdrzKv>ZzV5o_n&WfcuIc`Z
zgNy#wyuUB&@4MTc^FKM=|K~>@c$=>~t~s!>;BU+OyR-go$Q*f4*EDUp=l~}b>$$Xl
zX8&yXo^$;h+wyI@@3rkNG`9lGaKRUV&kF^1ZP8R^uUYiA%?;(eeTb{*p_=@Fpt|5~
zhL7ukFK~VE+F;(dGwa)#^F1|fxo>MMINg_?nt5uLer?}_=9cRxubs>{@5naq$Th>z
zE)FlUYxArx%lZnQ&GQ@X1aAfN9S5=<2XY<#KRHx1Q?BL@aKi69D1XQ6e~2x9<!;oL
zuC6Ix*Pg9we}kLfc4yzMefiD<+0FyGjR$je{nO7b)_U``z1iB{yLGwRoznxqf>{pF
z4A1VEOV5Al#w&Nz@3MOfUOz70>+b2n#dRCzPX2sd&y}jn^yO`ZEq#|QSF5j7=RKRU
zo=x-gJx|9&Gvz~<9;{(=Z??JjZtdItxBNf+(n51@uK5s|j<fFa*taA1ovn*?O;=yK
z^3vSE{Kk3jLhBQ`x~((MF1i|Kt#6p`yEdrR8*_ER>1T0H8{cTZ*>$7qzPo3^*0bR5
zDb)L5QJt{A)isw!XGZfbf7a!nJ@>9_V`0PQn}at7^BeYMH|#5TYOlJlxaVqb`fvDQ
zM2&AX0&TQc;|@XN`VG0dcIctTdv*7f-Lo&x*Wa({o$fEdS{#`<GTVQjZGpYbv;HjW
zzt08$+lO^j^`-^a#^1g_LQ|f`_bA3*Lne(AERn-6fE=7q{?Ug=X$ATtaXk?Dk2^iX
z7V4)v4_Jm<%s;a<4ExPLYo;-7VTL=ZP_n4LcL%tR)wC%!E}%0oq8ZPSK~X~t?`~k4
ztEh@WL1n;O3@|1EqA~!yK`Aj9ThK5zu74eFtc>x2s%ue|qOZ{z(}lV+lfl5$FEcJo
z8OsHSq`J^370VPDqJ{>&t8y+BCFuqy9n%a`9Zto0yJU2g!JAeC4|B#1s0b=n3H`?;
z7&+>ot!99$aJn%jty9Yk+m;#JG4z&J1PQ5%1TeJ%rDWMho$qaM&R_s_7Op&QnTJ2x
zBAo$U0FSR_$_Xk65xBjBI|fu^N{VCPqvoyvTs#o1hum)jl%oN`Q^`PZjc@?4D@O-f
zxWtQ24jlmvK-q;IJrl><KDaLtkRITyh9e_14o4S*M_gP$3XmOR0^CI@w=N8acZvc!
zJ%le~gtL&Hc+izD`oM>b%DKQ{#A7suQ5YiiiY1^p@X4t+*=%qE>5lZj#AXj6x<D1H
zQRwe|ZEvBbp=bj>FZtlN-Q0a+_dR!akuuvIh3eh!^#9=b?>_&|-XcX0(jA44t@(~!
z*^XTc!QDkO?b^F!2CxMHcTjBog0oq_6$$1Vw@n{@;9N7kZ?Ue82%&<Fy=0%U=WXk=
zw)Kl_!>m2;?Z|pN;NZ%!Td=^9_jYEzojLE89NS%B>rh7J*ycsnmuEL+*-i8IJMLTV
z9Q))V+ni@NXW7m3YjbQDO0&V4!9~_PTc2<2%r<sH;rniz-BDZ%N9}^Gk$ALamvUWI
z5<BDyWSOrIH-d<qp932`QskJ7gp09AS(V5!#8)A5%pgQG0jaX)6xdxxp2nCaZeUKO
zAUV}k#uPIUGAd4$smkE#)xZN*O-!jhfgn(O*Th!L$d_m`vY*wFz#Nh5DuRTH9tjz<
zk>^iseY+%{@d8;m0}X=JW$cWa<8mfG1m+Mg5GEGlSew8I7gR`Ml)^~kS798oL5sqt
zFJl!>Phn9Dq)=B>6h(5QdYT|#kx`ZEx1pW*4-f&P6738b70z5>RA1iRnsv9%aW~K2
zID60Cw-Tf7$an0`cI;gU?n6d>nl5o_AK+luK7uFNymw0$_|MyuV|$S&U3qVJ*4v%)
z_U72W0_#<Dg&Z5uxsuIq-j&_FE646O<irnLRd$EMfeacy;<9rd4J^WR-+$aWZ^$H{
zGt=S8{c)zVz?o-o=5uDGNd2VO-N{4<5T`$9o?>9kC~7LgqgV_c9cZkjV+B{@t&%Iz
zI#mTOa|ZrZO#<E~3S5iEy=ZKxcQ0vYKd`WN*6Z~u3#$xO25(ype8v{TTjz?PV%6E$
zh>2lD26}-yl8hB*iFd0Nq0FUkiM3W#LRM{GrZ?cqfl!=cF5b4FwrR9O?FN`iMdWpg
zWmt$pUWj3Y>SwT~LehX2;!GIc5t+qwLXkR(iH)~W@D@mrgrm?*(I*b5#_}f;MT)_H
z2oVk>xuCsLFr{&9s6fc9I1cWdP-<*U<R$P^q*CyrNhu>f3OgslgQGb3YeW=&D9A`q
zq?r@-3PoI<oAj@sca-XX2F=B%;ZQACJU$<J=2it{U)J6JX3hNZ+fDb}TNi9w7u;J5
z4c=*1(?SASTj0K}bukc}Z~u9q7mU#9{>vQ&Z~I*Q?n^&BoZUXW;5{-uSQ2S@wk^xH
zEqd0?4&{A)Szlkyw>9V4h6P~qc4vLvIbUzi(^v2`qCJ-Lv@Ci8c~587(>Xts@7kB`
z+L!a}2m1;QHv1L(qQ^ITBH!GTZSKi=dO=xnRfDqPYMecsWjD?Y6&t9QzM_}1yA+kl
zpSAhlwFQ)$c}*a}vO3|9h|mA}BI+zFiO(;N&O(1)I*X)<JVSk_-0(3lpLDYc44+2`
zKwW^Tx{bR+;wVx^eTxXz$q2l20Y}|qgbIqkN+qXcjOa?vO2&v>tvnnHiArCSEe7&o
zImkm45e0}oe-WXYA#GV(8)`U@Q+XQm?D{ObKF78gsXVJNMLs}NL}A@>tpQbV!n%L=
zMbvy4L(PW){RPk5@_E2CFc_H}>KPCE3koU{mgz4)D!U3b!D(*I*ie7@GZSYSGody$
zWnZB;0|TZ^N3yTR>rn>3Dz6G$m1&xiG8c^1IX=cqV)_(b67BhE2CwZ6#6g*#goy?8
zv8gFd-?1qr;3vVAMt#S6@yA5pG1}2KwY~mTXG`=Qrc&SO4z4v4Kf(kcP&6CzWV*~v
zva*F`Ac2HG20THBp-Q94A|ZpFO=0vEh~PcznKZcf5nV}vfsdlYxR=YIbCa!)l~d<j
zaL$T56kW!nI#E6sUFN}R)Ro%6obN9C&SbWCaG_=JCtDX<hO@OtrUx{&C6EPE4YZVj
z>%-TEbH1*eXA5Ru$orni`ku)7w&gtA3!b{G&MVGux{P#|MNdoK)0Opf%^w9#Wkn5U
zjU6<Y+A<BM5jB`5Lk&iF2{*<J`lYe|W&Uxx%>RbV_p|iBtj?eEX>=3A7gnkmz*iFg
z6CM>Cx<yCedh{{MhOsjRiA0#jC=8Lf+?fIwdP#1w!GK?};t3$2B@|T`D7=AE+$RNh
z-KD9SsX5C{=MCpQcjrp3lioX9Zf%)gkA9O~CAUfEN^X;;tgQ)k2<vtCHFwS%%&{Hd
zsJS#WGxQC(+)~|^);sJiHpgx+u<plrNXUis|1$;bTq&sMjYhivH<;omA368CGX=g{
zFk}k&;mbKgrof7RU<%<PHf@1u8Id`mfT*I+K28<=B1vA9Vg_mpc|Ezc%ne7!aDEk`
zlCa>lAbL4S0QcT%S}@5ry^V_RcfkYmKsRVbFtSWD@DdS5XW+zB``4XwMjmx&Yv4)O
zm<w0*(blNhNc~jXufiJL1CuNx{DYW9jej*xcB`WJk#j*~0ojHEAAh4K+mOmJB_dTQ
z${tblgcl({=`%Piv?nJgfH}nf0I<*N#Bf$$-f%T|C3w%dZn2?tZpY32H}>b+w&fbO
zPe1po<pncX@Xe{|=RO9gIj`^vt-#ij|DXK0(d|)~wHDA}Nrb?YkXY&ZD~1piK_xwM
z!Giu{_^lDySXBFO(PY;|?5U)7JC!#<@WM)v3|)t1_2alNc%uUQq8je#xqH{vs)(`A
zcLr#12!8=l`S|V1_)q~cqA9Hw+f<HynIjKZTn%{lOIH8;koY944=jtSQALnSH{$qY
z`B9d+%DRshc~EO$Z>#%02@Xm4sX=KJaQ|)^7W!a3!79c1RF7&PKHB;{cs!Xpf3)<&
zOvSx~tg0J<G7G<kO^{!@;=?VI&ha8HmTI`wYCo95*I)3%Kg2t^$$-I)0MFsR3<5f!
zDR<4KiJ6JKyC(~8Zq$2ZV|@<&wfOEQ*Zf45eWJj+mh6njQG^FFrQ0ntUiMqicOEI{
z5}YB~Sq>7P?apeuXDVNR;Tm)VSCWJW{|eIjN(ar#ihc)6{~96@M+Tx&F^IiJ%LR}3
z&QEr(a%~a#E4aR!0B^<m-nG1Kf6M;8-9Hp_yPyBbv4xRiIrs4e+i``F%b5X5i7eSL
zBtHF;!DE~fcJ;@QW`#1n%PF&;SLaVwtVDjYRiUqC6j;w`u;f>&Dh&n=*2x(3PjHp+
zhka$M1eX?lcQ?Epd@K0QiJZHC!PZaKM)?8fIvJiC;x8UU@ax=AD3RjQaZIzJ(97v?
zT&WRo*~qI^;TWclV?>^;bYm)l5w5Om9y$Jk5X3CH*#rrr7cjbj(Vt@Ub&S4&(It%V
z5EZ_K(N&DTjnN!NZ$NZQ(JGbWwhK!!+68}N9wz!K1y4jaY<_4zNi%g1-0K$nTeI%1
zMFz8Q#l5EXa^#8~d=x|1hO(Z`#VS&6qZ*oK`>({7NULJT1Q-ep>#t_6WPooUI@dEz
z58z?jo-2Eb45R@Myt*5@GE}U>oQ-nT744W}DTn)#Z^pOe!W^i<N9Ymyp}CH6z$?e=
zFI{`7NYYR3`+@Jfz9mc-pQJps51lPc%Yz0V_E%&e4IMx(ekES4!W`Vj*Iqt2GqGgH
z+%Qdf1KQA<7>Cvp(q%0%heKPkW9mS8D_2`te~>O~g*mmqq8)P%#NmY0!^5<Pam;SN
zzUSJWA_d9$$P#`YZdjq%%Q)tko9qp?NI~-M)+PMBw~c1n-m}u!s}*o;zq9Aoo+bG0
zr~`jHdV-!m2v30EdsoC?jh>*F0Ca#>s1tWOxK4Q&yoNk&D*xTB>@52cuCN11gU~3U
zLOc1PExvsg_Ct-l?GycK_q-4uhX+*TF|?vo;;AQ~lT&%GL41f#M6CRxw`?Tc$}f6R
z@0OjUSLOM$fCrs`(o1>Y^*5Np!$R1MQ3pnZzHecw1tVl)*|tYv$bG_H$O6ezA~Fnk
z5omgerD)eLsldNb+y0&MerU4MrVlBI9%A&tT8e(^msHy?slI=;*Ixc|&hEcpec)?Z
Ypc>z^Hqq7(cRk0@1N3_o`H&v}8}%a~*Z=?k

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/pynccl_allocator.cpython-312.pyc b/distributed/device_communicators/__pycache__/pynccl_allocator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..42cda9a529167da12b34165c31431e2aba8104d9
GIT binary patch
literal 7588
zcmb6;TWlLwc6a!GiljtJvTVsCQ!na4$?quMIBQFO$+GIK?KIXlosKvoiS+Q1J3~u!
zr9uu2ROz~i|B_(0-K0Np;6>L33bX|Zw8&2jv>#-ofb6V{O_A-#{wb1+Ew(>B=MIOI
zX(eqh#5?zK&bjA4&Qt&5_j?Ew#rC7*d^;guW5+DEYGXIW5%K|%h{P#m*7$O>9P3+V
zE%3D{*0gQb#u;<=Sv!nb6-U}R>ttg##g%r?x>?(<c+%ckFKas#U)n$GXKkm_ln%@W
zSlgup)1lcAYrB=^bjxfDYkQP%Ix-vKh=s@@x%CO~g=Mx)^3JwPoOl3!9q>B{^M{@o
zlSJ%<kuJ$69)>S3`5%zkZmCJOrzWcadp`3PDe%BH8<m0p)gy(V?v<LM?vq-e?w7()
z4*+$N`oSKwYE$kvIbs~{4>PbA<`R)24~W$I#A1+`9V~FMwqIjsCdTR3bD08soOfla
zCbJo6wocrdJa=8mFD!_2ihNE{vI$YkQkd~7Sy2*_86}yKp=*;fcUAZ{UoXrg63Rq2
zoz7>HHQ;0>sR>GUVL?XRU?NYcoY91wB5Lzlnuf8q`D8{CGJp$26G~o^g`B7@s^Sqi
zbx*W9#(xhX;)`cJ^0Fq=41Z+e2>*v3&)sZN8sr(ah)e?I{K9~myeA79kDp;anbCMj
zzMD)y+W=QJDvRkD;PcgyoJP+;2kHDkR`ZGm*fOR3Yi#J6oMtC5&<AkCjBE_SsjTIJ
z6^86tHJCAYnWr*r16eUvtl|A1x%zfSE&}BNAO{S<imRTBiRz<ZAG}^G{B}=3^#Re?
zAXcgB#n%R)vCL5r8_g6y;v+Z6XWUH8N}VvPx4t<&eNDJ^<AN|VF)=ONxP9%KaP7i1
zz1z4fcHH<Tgn2Qk$daICg+w-;gZ5`+7uWgi+oM`KH=0Z4Ml_Kw$lAzq{`B}OcTUTr
zN^)*ASI`!-nbEt7k{*?ka3{&Rye3Pd#$6$;+DlRaxPHgDXgpWY4<=PXEu_;jpeBU0
zoX*mMAZPHwO0)$S7=xeM2Gtt*l{ZlK_LaPSUwE%?j$SVgT`$_M(-6$*4o%LeS(>N{
zISdhEhaWq~KZgdKV{Oh9cIwb-C%VQJxO#7rynURIRc?ioEC&D^`Z4HRRxFYg`zs`c
z)EkOPH-$&vP|UeI1F#+L;Q&WCQn1;`!;>}wVr-wes5|E1?cY&#rzlBOR@Iv^8#@6#
zA|%AbBHT_cn^gogBj(h_tfmL@8Lg0mVHM6&T#$8_Bx<67@5)NUu)gk8<%Kkes%|$(
z<7x2l<ePD_W51I(j*)f(z)AS2Z$Pz1w!D3t-hs{GbH(8+l|cBHEd%S$O61UoZ*4~U
z)-S-wquZsx;g3(1qvNIM_(t?hIXYR2PHsdmZUipsZ3n-xlh*!iD+$N8UBnk+SN6hH
z;nlFKazWz*I9`zy2=zk;luMJaK*ijmvHPS1BmNf#RK%`sDx}KVi{P{yW?zS&inp>x
zzKR^VKVxtJ{aQiG#yEHvsO^0$`w5+SnW`16grz{-M5|qS3b)WuO!!r>eyg13HK%Li
z77h2x$_l47nQe)atP7kLH2W#MxP~Ix@JUJb6|!Rand3=ybx;Wr6L5w6m`KhQ4r<q*
z*(A5*d4fBIB6_t}qXo(Z-*rPV`4jyG5+&LpbGnDnp;fkbt;-xs;W;-H$*V=pp%v>B
zyeBB8{o=@N@Bvn>e`GCGzf0T_S+?FLOI*x1b5n16QC-|~j3_vw+b1uazjf(i%%$5h
zVp`U{iCj)lvw513Ro%Um)E0$AUJ`Xbm>DVxiZri?3m{iu8RxR9tOw!c8;VOvXQjL%
z>w&p^Qjr8HN#z6xQ$cSrP+u@+IyZXH8dtM=pw1Vw4^>8M_Tt{x7nwHYwJcxNraY=&
z-cWCRP3y+_8>Z?r=a!O+!q3S(C{v~b<NVFVq{_peyqp8(WQkAC8`KtMQ36}fi&W+_
zS&bL(!m5ZA=d(EtTmV?7z=J^W%m^?8aAjs<`qtzH;rh9omyx|(7A-3@z}Yc34?Jfy
z5sZFjf!7x0y^F>93zTN*t9-8-Yo;hOx)Tl)Pn!m?=hEbKZXV2s?g3kY9Ux2b!BYp$
zN9sq%%#LwuhOKI5Y)=2qrAt?4E(y~Y-n=kPQOoMhLhZzaB~S%9nd<J^knX8Z>+TE7
z37KtPcNiXv?pzWn?nSqPd5YO|XEv|lP3x@<ynsDp&#9S>H(b4}qKO6NSyeQx)r)Pg
zqxAa#H3>hp2o;*FgJo~D<c)56dn?0ZMOUoiYTCAR**#m$9p&cUQgiP{b3bU)?xRIl
z*H-6=jm}d=SI3sCr4s7jY9Fbzc2o{VKOEc&x0l01rSQ<>rBe7*rSnMTP_)7y`_GWu
z?Rg$1T_-Am*7fA0cZvr_i|u1itwrC7im$WcJGASxb$Ni|a}Q}9C`XQ#B1bnO$KUh(
z*OoWDLp*km!PS<l>HVhnfHS+l{kf0$gO9i$UHnbJ<@S6-p!)A^JAnRH1+SlcbZ+dt
zhkWjFpFeB;yruj6xb^dKJG2upS1YJs@VEOAs=YqU+IZc{s>ijO6*W~2C@y>`tlW=k
zHD#J&p@%tRd{Z^0Ss$-so9af~<3Zi18WpGRMqh)O6!vi0z0uP^N4J9lNG$3$rb3+H
zHeLs-OHl_it6><=5WH^V>T6^!0z?Xa>QSiR=AFT!v;E8N^INX2O&7oAjTF7zTkV}c
z^?c+hw-1)u2Y>eJM*FGtD{v7-Tli&*gxZoFA)Wz7RC{b9Jr84zJhci5MHVypTmxg5
z0anFd)c^*=_pkgvmqTBmak;}UE?1LBQ$*<$AT8s%xB)P{2Rci()|VGHpTO=gfPDbb
z5=M)&7B|=|iIc68MYhe`B<ll=6m1YuIV3yO&VmE<zoAahe`ME*iVGCC?yY*7=zfA%
zR8^%3JWaFMputY}F1Uc;aafi)bp;+@)kcApszUm}#a6Q%S>g8c1SAfvFF^c0;F>!j
zsoE1ZmusMR383BPoVk)j@<?eM=1^g>lJc3Y`nT>Mr0`WX6!Y1CHx0>R!rg)WuMnZe
z4Y;=Zco}q5La3S$YUq)(l0u!(P|O_xMomN+e%-S{YG^T7DZuHzK)nW+;;SHgKB?%Q
zPPO^+X`1`n%fp_N<6owc>V0`^&rWJQ{V!Ddzmv+IJ;$swzsBcw&vh*RN_;FXj>W=;
z!|z$jQgBBw^kqhtjsX}&1w--O>h_#SRhdp;+bamwh+h!s41!$4VNX>Sz^LioOkPn;
z+3?pCpODa&nJ;8`(+M#Lk+7^gjM$A%A{k#^m1_trSTm!4BmRcS1hLS(HkmU9e$1-d
zR9Ts4>@dbul((7zbqSCvfV_fmuZ!8+Mj?)y^X~$dYKMbbBimq^B0I$HpXRn&;u|ev
z#lYB(6}w*rI?93GQlR&7s1z97vE$ft2MPC-TZT$4LmMq4#lXmplMTB_uzMqL<YTD_
zkZv~QA;GrySKnLx$*po{ywn-r2#o%9|KE)K)yO}3HjZ5_1+H%UiQE6sza1pL;QO!r
z$!nEY&#q5y`VRdn*ijDlm4ba6!2t+x{Gm->*S3T7#&EW~($Td(`KMREIy}gLx4Qd2
z?f9gl-2F<a`<2b{sg3dJjqYnW)wR_V`*iA)sdCR$sb^}VXPTjJbsYZb;75byj^m|{
z;~O0(k(Qx9Yg!7<rl!fJU=(8~G(wGqT2>%20COPijb+U_1=%|DrN0Z3xF1vs*J&t{
z<<9S+T>*US3;6r!KYFHa%-M>zI)+x$EBooYR83~;%L9-5=)U?2^%w&n_t9smT69#W
zY4QWQ9?l9v@_R>La?h#!P9FSZl{YL5dd}di<3kn|kX9-A^S3~tCz!Wi6-)kD{MhOE
zaXw4=#pJ@GOwpOI(vf&bpcxJ}zJHbksYU|#hF=JB5ec1qbm#LK@cVf-%~z#1=G`Ov
zJ|<Ar<>~Lj4(Va6n7*(G6M7r-*dfg#oimbx^35#sa)5b4--HVMBbbIHogl<G3YQE?
z3#bg|m(D@+-r;W(+bZ5q5a}<VS|b&2fC)`Y+xpc?prsr*4C#VmU}&3I+@6Z>^<67`
zvF{+kurXT>43`4KPwig>PFA7bs6w3tC||Jb<-hRqTP@wimJtB(H&udX0l?n`{pT*?
zZ+`#sdzZ_;;gWCo@y(zA@UtKOeSFh*rQ-6HT^%J?N7>a=a`kMw`hcBvuOU=>A2>c>
zR9CzI{9QuDf#KR;SZb~S(5MzLaTW-Ikt!50^0kzK`S4b4E4DSu6af*mrD_J*fXCW|
z6Cv2&Pf!fpx-dc33Vgp+`-)xSFuJcBuDcxMpaT0-Nnt{*p_mll%kp7$@v75IVYaTJ
zn0Tf!=E%b-8=e`ary2?!-II*i$EipiY(Ri6P&)MTXgw)W=d%C_B`~-Y{TAJ$WkFt<
zeT@YT!C{XcY?8c;Hi_9<-DRfQD6(VN)mDMZ3y|oPDJ0(JM6iyStyA@ObC~5kg(b*`
zXO{#jF6mYTU_yxUNB;mB=raUx4oGE85u7m6>Ngi5uPyDBN0i-|g9)MTl9v+#X8m+0
zw(g3G?qEZ6y4{Fo@RU@1zF=vguyBRS(EoNjYwY<i5wQeSU0!|7AZu>FDKgQLEBf)}
z#|uyIZo1BHfe{Tx*X@w~D+c(Yi-)?x_kP;+Nz(=ofo|tsK`*+7K)iq1HoSfb0@X)_
zQlNV?_WBor*DE0JLB15^%fazdaJ&*e_~DgOxbLy^sjoEf+H<QV)C^`k)L#w`mV$$i
zPd^<m4ZZed@a(piw2y#0P*ViHkRkAAO1?9HJNXY+|L*F)c75r43v9Bln~694iv%-9
zaK#wp3j(AKs@WfC`vl>gyr>v66yp`$Hiu!~+t6g{jvZk`2t=oG7OVU4Qz1i49uUZI
zb{zi3*=|4eRiuC04qrIKmbP6S**Oukhj)8I_S+oeiQ&eEbcYCGOH!jZksgMRkk2mU
zz^S6BEeyTw&WVXTBD|Lc!v_qpFg1=*YTU>x8Of3Z#&}*!Dry`PWB9+84E{&R$iUbz
zS8pU-hOrsnleUlVm$rv2J!*R6RJ;tu$gEIQQF;>_G5;5&8cCr58#H)e$X?t>7OQcr
zAh}Lhv`txLc^<luo&oc>fD_DEq0u+w4)u!exXBXyEHlkgy7c=9z<gp*a)d>jy33S8
z<7&`FFb<k!yj|Zj(tT&?8cd))Q~wF7Z7audyAHxN{epykK?2W6>(|8hjC4LDC!Ud`
z|3M<p$kk^g`iu-cBgg;U9e(uIhP!Lcv26<;uoX#UyN5J2uX!qw14YtY@del1|90Te
zk0V9WS_wtgnkqf9BI&NQ9|F)FhlP8C+x9rQ(8u{tS3X(UCD7anTe#?sC(3ztra1=}
v*=e>w<*{&G+aAIN*BpNwxF0A6`!-2`g#^s*=q4HajpHnLo7*8+vyJ`_E=Aw(

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/pynccl_wrapper.cpython-312.pyc b/distributed/device_communicators/__pycache__/pynccl_wrapper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..26e4c7bbd63643e4b3cb5db024dcf9f3dee2df2f
GIT binary patch
literal 15911
zcmeG@TWnj$mG_dDZ;CI`6!kQ1OSWmtvMo9CTdrdHAzPLbznZd1S(^7srp$*rB;`n<
z8#PG*xyi02G=P=e7Lj+m8wKv7%5H%e+hSKOvQ4lHEJ!nfh`SEpqS%k@7ah6CqW#%(
z=HAPfD7#4m<Y%v~nKNh3oI7)7&Y3f3F8`yZ#>l`E=3WiW^)t-xu%J8|8Cdx_%P=<?
zp5fUr<CAjM$3j^ZRz=i4HH$cPn2Tt98Va*vtxpR$F06~_eR_)1gbfj+&q!fy*c37Q
z%oNszYa$k(g~Ix<HDdGGSVqMNX2E_N-iwdVAuywxCAc*8IRU?|6eGbt*Bbab6?1~&
z4X-e~5h!-8Zh2cRbEsc~L&F;QM!;9=VH16$3EpVFt&({+uR+^FX={MiQlMQgs43P8
zSet^qEqC1Kp>=ksb0~Gb4I>O+`!}p_;{@w<eu9*PURE^lfkYq}4#eY7Q1?bBAk&`}
z_+(HR8UvUUqT^U)3PnQ+e>gTWA`mFrf=NPzXu>}h4kU(SBmy}5a45?AqrqU<9}Zn2
z0WuMk`$IEXg3Jnv_a-ASxKey7o)y%i`cgs(=2erh&W2SZtWPtc_Hv>bIbVo|zLOOC
zc~KvVCIk`<gg==A`a!Q&)cgI>Kt%BSMWf#ziSfxW!e+n!JIO#;uF(b)6JtVL)CT>R
zCK3X)84d|yKJI^;S;5!-;hQ@Xk+Gd)p|Kr_02vVyJDyMO-M{b3USTH;Y3JBP;&Lpy
zb37c5?Bql71PNVACIo&bFN}wRf<G9GM3T`^Fp!9mI1p1&TqS|AF@bc9O%M~jfhM~F
zh`S+qg~{0)=Ptha+#Am=oXa%tO51j)t)1UHN!BT(Wg;vn-Xv6)iqNO#Ss%x%d>UR2
z3a0kyc+RKiH9iBc^%;4c&jf#FUhk`cKMQa0S>eyd8+~@(1WHuPn+0bzh2d)i*D%Lh
zUf~K$t8T*TwTU(yTOTZ)^B~V-(PV_+BK`#R@)HW-Y=6RGf}Q?Ei-`^soa#>un4p0X
zH9XFUs3k%oNuohn6`+P;ur;z-u>kfalVTHyrO#+7os7G(6{KrUF{9Y7;yG8|8hcam
z6k1nViWRM?VJvT6Xl*XXW2vIGWi>^iwQY4>MQg`uib8AW>bi>7uGJKU*0>xio{H8D
z71dBIv~F5mSJAp<HASJdXLa2<Cb3Du@@$IzYv#u)#q7VtdR2pywHKoC<k(n@fChT#
zDmvitIz$a9U+}WXfqmE~>T#L&Bcw@Egn=3n3Thzj>J%vkNB~4k_nra<K;3XS7D(*w
z7ERdhxLlC1(4dHgf`o-eMJyEbmlPJ%em$v_j28ppq;QOo81bq^bub(!INmreY>$WF
zOo_%}5{vlhcqSVw6|SRLc?KK456KjB-(-9J*v(V3r|z0sa<#6Thh`6@&Fga%dwTZt
zUDJBR9-cj%HhVrl_RQ>=yQU4u;mGWfw0Wb%;qzbzX9w?^HUfv`+D)0-O=<I{dlq-P
zv11{*Fp{qC&RX`S^?RxH8}zyf>I$)9f|@}<!5L{vk6sQCf*U+(N1RTcX3?ljZ&xSj
zz?uT0dk?{VM{0gD5FRF-SfsO0=auX!(D%iXm%;++Mg*O;!DIyOTwFBKoiZZ8Hoz0y
z*6E~)YFIdAKNe93CF6}VNKmP0au9&{I3!^4t+uI?Qev}D_2+0}u}+=H*&S1-q#}hJ
zwNs}hIto!b3ennH=hQ&1cHPv#eT^-zvTOFuCEtAEjTiC^fD7?YF<VhHTKfa6le&bx
z3Bq6DDeNabfU4L}RIs0@VL#zuKheN`qV?$o1FsW|yk0QDo?s~16U-AvuSv9{@WFK$
z8Y|lrNIftoXgo+GCTJ>1GbExaHbz<jsBZPoQ|I#ktv<tyer~Iur~|Rmr@HO5mD<kO
z7#L17!Nnk|&s{hpsnfY+MASWXcBt>d(esklJVj!>s6NyCj6`rI@H~|I2jx;I3hv{@
z6H=*ne1z-;eqI&X2N^jINvUb0$}-usYQdBkwFox(J|t+=YF>BWY?^JlYidU0b8z-x
z+T4;u?6Q4B#=b!|N{X>tle#*ORak10wl6%nuqR!=D{I-E*6)^0Qca~vf};^bPGf>b
zm<(a^G$fMY0lP6Y7AH?47R5`BVp7de9K#As1o(@84H7UE)F@DEL7`%T27s!)Nz*xZ
zGS5J^Q2QxnvdRM_sXVeQQ+YKY@L56gS5)~6jGz`co;?IuK?9JALRvwC+6!ehmM1u`
zM${iqMuUk^EGly7Rf{?z#HkOb2ag$n_@Gx;AtzA{&a!Cr`vcKvED^xgalfCSrzUb?
z^rR~c=Xt0hn55t@j<)ps%zb0c%l)|;+sgwvi({tidgw#0P8uZ=mW@(zW>$WrDIX=A
zAHh`?xX~(3oS+?Hm2)1YQwdtgxzQ>v8(^zAYl?$X!AJcFK87{gaF1wXRN7SUg<z<T
zAK}VIrxCP*3I1`TinKtA$|KYW7QrZ3M|5Rvw2y65RW6j1zKoOZF`V$-+Oih<$F!){
zUjuEk)(F?`Yx$dvUkVq~WBR{#Z_4Mu41A0gE35|AE>k8g%PNc&+pRU<Yp!$Kqu1Jq
zrtGaY`VQNOO2LlUeD)B=X=(+hux?mIt%-}bqcs719mSW_6(}4?!5`+Gf|IYEgp=d2
zieLAN#^>f;f|jonoZy1EU*UZ9Qkk!Xay^tApso>U8vt&ibSl0P;AVggfNui0g>M$t
z(=x}mK-t5u7aDmFxHlUhuM>>JdVV9|H}IPT6W<DdZGhhle_P;hE4V;j!OGXcJ8k?n
zpxaoLZhHl-gKr1gO;u^jdF}wZ)>U++G#0)CXxb=^(zl%z@3Zi`fM#=9|97vV=>(cB
ztKL=FcN^aYbX)1zaoilg2g+W)hkpX{ZIE|EzMa<Z1$pg*_w0wiI>9z<<PShyJFPn?
z*r?pJ{2{>Yn5gw05lw?fj}8n-0VC0YF2M;QK@UdfAixqG5iK(AqCn!f?O5e<Ar?e~
z5l12T(ho7Jvw`Rpu?9(c!|07dAWPbeWmu^?5lCDXNWp0ZvU3o)ftZry?3@##5M)9&
zXNBOn#PCTH3-G}}JRx-f-`EFxABj!KeI&8u*f|IsC8T4+2`nE2J}%^g<X?vfS?uar
zVFb23c$2#v-zN~IX5AQc4~~9HB+VZT1TPDsQ$h2gV8S1P$Px$$Jg|5S0$E|9%#p@u
z3-0zSXCcM#$@6R+qO1uycFHhHNaq@B!0<>Rq*5(_GR~5%3FJth(JDcb6suT@YpRs0
zgj<!JHbwo6$I+mzNHP9Gu;x$bV=Ba4<4X9V<52PRG0%a!a7|-i68Hl8K+vd4;3lOR
ztrGH3;;GlPP~W6*DCQ}xzu+$bMU}7zP~e%CJ}GUAtNtFef3IESm{jR_&|#{0R>`s|
zjV#N8JSLb;Orp@wR)*}lrcM+*n$g;dmp~B@5(x}T(r47EK*d~HPm1klnUwk^i1A)i
ze^-5#y~;eV{swcEh4*@tHt^nOfU2sTdDS>WP9`=gw4<#GRLseSl0I)K;uVNjSLY3D
zRrZ5HAG`{6wE(CxCIWq*VP9)`iBZPk<pu-&pi9RCpm@9|5%WNFi1(l|^T^?E4~A$w
zZSf9If5H=rdxYo5gdj$%Lc^YkSke<9f(P7T4@pL&pvRtA)H8UozpuY{XYZLl&xxll
z#5;!2NL>xZg?0}>9<&z)?vc>Q<pgCQJP-Dy-E&Fs1Y?9G$M797;t3@@d`yT_5;;^x
zxyZ45j}p6=x+wQ4OoRYG;kg_b7bvkjmUf^P0&&3;7ZMZ?_W~gji$>rQz%w2op#X$T
zJQoKB&iGLT{&PeAr+UwyM7fN`AUuKqjsQCdLMR^zTD1;1D_()AAYn)*Up^1C@rlT#
zSQvVT!b3p~$C6QyUX*ewlQatXe9R+6i`}?z?wH(_Z=5;fKXdGiM;StL3@$wcoB|@v
z*SNH^U>|!9dpbKh_jc^+>hRVPj8l_mF^OVgheYI#_6-aWJf4bb5RPa#_IywnqX#0b
zbUz|$1dQv6dPTsZ1E!t^D*eOq;VCZa;CcZz96~N2>x-Ct9hq8s0ZA_w=q5<e{)sLs
z*;PXl%~t~i*N#6H4GIL!vZxEi{UjEQh+6uxxK}4~aRCBeF?<C<5>_DBFz2v0B0C&M
z%kGgLDf9@JDfGg}Kj|#lo;wum9$5JCaY&|^oTL7(W7mhx9ognx)4DuoH#l=v*N?6&
zxAbJ-zqRL{tLf&I*(>u~vaW42>fGV4y>42z?atVCFK)@$4&1BTxLmg{Q@8I<U8b&g
zy6?4<`4+}p`=jm44F@vt-*h0?wq^SGJ@=+%clU?x?intxs<SuTbFZK0-qPRFFSP#5
z`?fdh-ZRsi^R&KYzGa^2eZ4=oq3x~aTg?ET%5C+|9G~0s=KeSK-*vX-O-%jXd?&O2
z$ZMyU&FvX;`@+{V<|ppCHY~fkGp_E%s~OjkY3?sf|NHO)%h>8aWy}WWJ+tG+!1aN=
zN^9@QTNu0hp3S{%+mNws$l5kNtTonH@-C*<Iep@f`FbG#<HL5wz4=qdVQ<LQHQt<<
zoyarlHrE42?RGuXGfkf5#_qd~-S?U{E;sGWH0{i*)El<v^$hgcaLbVMY<XCtYi@aH
zW18BR8@n=%T^}|+@u`++Zp%6A^KHQO4{?lo&h$F^49u^Mz4l`o)q4iRF_ro~$M(L%
z>h}(70RA^kZ`1M3n%}glAjSKYcru(=9d1KANWFwp0NjN8RoDvws(g5s?jVIdepI%f
zrF48DK!1+$st3t)P&uhdCWd$H1Kp+zPRk3y7%xEayHH79hNLVkM4Pmft~j)K<^JGh
zTzj|~z}mC!noit!;ra{d#+@1Ku0>bYx^LNfBx60Yq{~`QruEWATA5qKK}$N|0RYe~
z;@K+@sv_%Q;J~@^DRpZSg+cS+;*{S=Owb{t4>f6~mWi4G2&}2797OZkWHb?q$Ps^a
zar~lzQu@J<j3a;0LOJ@6Z2U)09y@w^(p4&wBK``B0>j!M3X^^2=^q@-xto^VJ2UQ`
zi`uMv?{xn?N6UQELTKTe>Gk`wjst1)fxLz>OJS2>>2M3);v%rSS>h#DyJ}N*#cM1G
z4I(U+4_!qCzpYp+t)ij_`e;8=@h6oWJO#E|+y+*gYLI*jUgOnDCR!5&>y;qa0VS<F
z&7}z<42zm^ymXOQpQw|~e(4I7&I7RE&IYc^=Z(qcQsK+%u~<EZbAa*lDdwKTeY1VG
z{f8aXx}4s8!+PDCc0V!4y=i*Gly2RVaX<0%;djIDgqQYayH97`10U+o+_$=JT)TcP
zt#6`%tg;zFxzdHY1VHJGfXoXE5vt@znG;1?FgLKYQERKsP*GRGTW5JS&ow-bP7QP%
z&peinL)G9lDK$+wP!kQzkam#X5R2?C={^9j0z|gMt0vC?L~dYF8wMo^jd?XxJ4BN_
zKd2g_CK4EhEmac<MKJ@9A$U2CBBHw%)fl=2CL5~EmOPWVVa0LdhN*JZ&$TW$?8-Fk
z$~JUnU0u_r`?kip-dW4Ctu13~n-6Af+om-+#LWfLHqWvRcB?H5>a49@K|eWTUAAq`
z*f!6{v$pMkb=1w&&9QTBb9M9VeA|3o+UiZ~y{l)oplj36m(rP4=8)=Dl{uz*g$AtR
zk@X7s(&zK*m83&{XbsXgK~_{As#4@Ntdh*OXn>C#;42J&h%Z$gf~_YTtB7AYsDBsb
z-wjkCf2Ze%gVTnBnsh5_@<hhn{qym6Q}3jf`m=inv+kh}^-txj?zG-b1u1g$gO$Qz
z6}X|Hp^EaK0F;WeXuD+_?=H3AMKe^SgC(o}v071~m)JzXxD}>G_2^@8No}=*ud3QX
zQ+XdMZ1G@{Qo*EfgQNyVHR(O3oE>&|?(^WcD{=6K33a0t@wR(Lz(=0cO4Z=@sl!5)
zUc*Q;O1)QIM2JLU<AP`i@H{vL@z^ji!y7;m>6ZLg0FyT$Dc_8og(>&bduQ5%N$Nez
zp_`6s6ffh9e-pUDjGHXeiC6c}sqdN^?>U-sj)T8Ey2SmW|IWds;k50{idt1`$up`N
z%R?=*ZUZikdwR<a%XQ1^<I8nhGId)P49i;&WVRm2)*ZZaeyQt2{fW|LVZ0h6Vcs7P
zO$xO8B1a$)6f9L1^p5E|`AYyw*GXY+x$36%&r&<CIJ+rTN_|`Ik%EOyjgyq`+t4ex
zUZFSE7%TFZY+xliC>cjG57cy^<Q7087lam-_VC+KGuc$BkjPsJl)Z-Y(+6Zz42a#<
z@M>zBlXWs@-ag%T<Mj2@Y4^5_dHX$^>!x|uJa;~8+c<w}(Qs!E%ot3Tnll*lM#kox
zHc9%ak3;0_QgV1$)Wbn<oI;u)9NZG39#t1_i0FMF`3ZJh3&vdtM1rLeCA2?uqHt>f
z7p<yeMkl4z3;-=Yil>Ug#@Gr(Sai2#%UBdTxNG1u1c3f+RngSFt(TPG?*LE!9+S5)
zS-|8tCfH^2HY9QEFWq_|k#-+sHd$XO?LrXpCW;y_-KH2g;TUSrJ;<52N;00aX3Sf2
zHuv1t`C|+F7SG;s-WjLz{XNQ8Hhd%&O9b&msywK-R8Bqsz6?2~^ta`CsFc(tcmqK_
z@fsc@qJKcjqMWe5ikxIYA+K_e7M&_7Jo{6W(jFiHDR~M~YLlg8&Y0WErIc8@SRtpc
zW+m}BYLpN8DI`@^2NJCIB&9*if#+Z2*t>wPY=yKdTDTn!tL1~QTq41O0{~2L_o0ge
zBMX22;<zol^OXxD2;8NGp<8=l`~-=p+F%dm<sfMdwy&x+Qha_HWg?w$@(qRcP+e=z
z-|4Pc3*an3eEzEti%?Z8MQid7);~fl*uFgUf;xhi690n|*#XtCN*o1=Y?3v^m@#jf
zKe-?*K659rbpC_xtoiKk)hfk=sN*E~RY+sFQW_Pu^`9Oi4Q#(!8hA1D*`F$n_)^~o
zo3rMpi_-XN48=%66pz?zDs1TLy#~3g)|$fo6bJjFve!5ZYh*30*|X%T(3`S=3A(`4
zkPHCuMGc8!Hk6!Yq#gKjK^$^O2z8?DRDl$$PZj9I$ail}9IOYZAPAzIy339ei;1lJ
z&`0{is}Ev@p-I87FXCt@zGLOULeL><7vE;7U5vv*W#kPI>#Cen3%7^xYXm0VQa+-x
zI0A%rKGI7c^;HiUeEH)URmMZ^08}~}teJFI`aR0sX9JF<xqK{L(qV6YFyrpZx}W$+
z-z|GM)LG=vhZhZ3Ls9>5I4}|q;w&kT5dgXvX8@?`!)v~X51(SuT`W1f$!?JHTFg@#
zWsXzaZMjbh1~0KBFa8Qpf)`Ie8<lQ**YM-D(soJrfPaQY<QJIy5)x4hV~1<vIBvPp
zW-0BJ$a`{QrKC|6%I}q%QRc^in0ob&mLIlEYYSfeZpEM2l`-$m*_<={T;ESNztw)L
zePKMivHOmJ+Jb^#@0zZmlSBR$_ytk)%7eY5Q!xm@7qts1m2#h26s2St!oXE>Eaa0Z
zl@#`(>|`ok7qzY}l;WlORus!dU{GQxjwo@5o{am*61Oy*b)Wf2KS+n{Wd|YR(FzR)
zy&V-Fw9#+Vq+p{y=nul@$o?^D($CUByFURRPY(4Do<DY$yow_+Ve+?-h$dX+0`W`V
z%mwL@70BsV4$3bopiI9a2mf$r3<~C8k`J7tCnZ=;|AM@(ViG}y9DWQSh0!=feghMF
zU-c3~7*m&yI7bn}NE?lm(Rhsrkx_^xkT((gZA=1~T*8FMB#4QC32wrKZeP@BQv*k>
z0xnBB4V549(Tg)oUWUK;KZ4GDpLw8V4ED6WZGQZ%7jM0Ir|FI*t3UBuy)A9uFn?&V
zV{!Al9q)83x!!O3Ra3TeFui*ytAC1CZ=4@k>{;x7x96RnrS@#sP`dM}tp4c-MqrnN
zk3r4uTutNj#T(zc{;j!F*_tg2uAeo%-L#lmy7>OHzj`)pKD(lWlhgwjC2s_B2=_sB
zF9*k3>#Q|rYoUdPoUJKu)z?^7bY`I5OsU;#QPUG~&PE&A4cMp#8f|^VD=2A=4oOWw
z+Db{+uf@NjH*g+;p}G|6V#iDSQDhE>%+EtEaj!0!(iaq^gS}7Nab6BAwrBN63bW|Q
z>i0ll2Cp7SR^RzRPrK4edk%vtk@}4Gre)SLmx8b=P6b35@+K{c#|Yv9haX<Bec{<V
zr#>*J4_?UXFXm5chE)yPH0R2n*DyPFrn&mLJ@e}MbMyK)da_&xT%+yXpXS_it#k4D
zzJ=O_;DY<sV0wLLrlBj#?R&s=YQDw-J%7u%!XTW#%(9w(cA+WHV18%Q3eEFcwdUYF
zAR$|9UBN7G<TTCmT`LS^d9zltZC<^?K$f?uHTCmNNK>CT>NNEW>+%d_i-%S)%R3Aj
zXRe_+uf}{^x0Ltv()_-mc0~jDysK7YyzgkvYaq{Snc9}T4k0~btIZn_GBUNUya^#Q
zQ)A25AY@^z^?55oHpbqZw<F|WjFy#Jgtj?lmXOOV5t3LUB(X$DVu=v2bmXlF*^s#%
zAqO(AMaYTF*CEsnZ}_tNYnNF<F83E9slNzG{YA)(eXBtTZeyGCR)lQWH#<U`O)?|M
zfe}bhhmam6Xh6t_gES!|F+xaUgpkAtp$16kAhA%Lk;VQeF|x>vAeV=RkTf)eq@f`M
zJ#yr05RzsWA!&9Il4chn53A{!KZT37XK@d%*`5_GtJ#mq-n`bJapjyXxWrt!&AX+1
z{~;;wAE5bt!#Z4guDpxY46zG7WHrPtQ9T%9(`PR}qzGyAM<Wg&byI_mUklSu)r)%?
z`2cb6A<-r&R5=c?XriHd{B0@hFlxkTVbg=J73hcG^!GEOo&LP3qvY3=(hm_h{E?;f
z?Sl!y4(ZbhqC++oic!9<h)dr+SSd1@2!-PvcvzM`-mm~YNnk>^;a_8O*s;fBA>Kbm
zH)Oh<iU!zSlR@|mq96^cFe36BY)l9JK0?PZfiK9U??OZ!eA6Bd!?*1CL6jsc7eJ!^
zkn|JO9`X?s(fN=6J0y8E%d+t8J!|<d#`-a{;bX@2JI4Gmv-!W7bssaEK4!Lm%<TBB
z!8!9x*3dGgh2>y#-AG+eO__5wwKx3N{Zq!Ab={2@ufI5DeyC;Hu9<G>msBuYY!|L5
zmsFXvIB&$R$EHm8?REGAhbhZv+E#Yo0|t`(Aj<%g@b&PN=`*d9?R>yMlJ8(trq5Jr
n)(uvVb;B<SR3`W|fpvdo9@er$>;r~opPsGJn^fP^(Xsv?u=Xo#

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/quick_all_reduce.cpython-312.pyc b/distributed/device_communicators/__pycache__/quick_all_reduce.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9a36038a2a4951ed56b549454b4d27886925cf0d
GIT binary patch
literal 13622
zcmbU|ZEzdMb$7r4#1{#Y0Qe#C<4B66AW@_~C|e>$N&J#TnW99Al4DLB6vQ1!kochP
z4wQ(3wd{Dtq+?fBl15bHR8;GZsj)kz{xtGTJFzpJN!tDa1iD~u=ow|=OzTd6u%bF~
z(m#D~4+nrSXgghjyL-ED-@bkOcK5xvtA8ylG*J-z%=dh+?V+gO;D;J?sm$gsnxbw~
z9L3RoDnO6YH0Cva&8UW?+5j`EBV}5@HlQEXr|Js=hEW5_Gk#;hG-@V!o!=5D94#by
zy}u}69kr5tfxkFVGFn3N27hV5Hfkezqu(BIj5=saL-8ei*?T|>hS72(mY65^E8p4i
zd#Mj-ZyK%SEWBp&ne2Kc@6~XHuQH=m8tOE~6}?JvR-S%OtJIBFbH$@Iq^1OFO5f9@
z%4=se4HUm)7bW0`&7+ksP;VT#MqSswKwYDqw$BmFNy|)sFdP_yjOBt5^6;W~S_p-w
z;oI!;gheS7aD}Et_$(jiB`6UDJ}9|n{QiK;6AF5L<4|Su1zpkv?-Jbs-W3dSyvvO(
z%)X#ca`{8!<GcW$#cJbezgzN#gaDN7^n^LLi{oc}9v<+80ktT(CEgEojGU6SzTmVc
z#YHkI24Wod=6^zTn~GAC*|h|OqEwz<r^PWEVN#q*Rg*-8nN%ewt5U6lmIYbGsccrQ
zar@c`;EjO10uJ-`P*D3dIHq<})FtXZJ>=BOg+38^F8Rj8p|B_yz~l(-abDI3$7Us7
zl#5aYu8`L&@{();HU@CEL|=rLbui7m-$@HdkBDqz|L|g)6qs(C_D%1T+ycz+zU$#<
zj~<zNmT&X>#@eQ5rHN3m4d=Rz^NEt+8w*Q3*Os2HKp-6SdE7vT*mgDS^Gvzie!olL
zxv+<Cot~9Tf#7Srdn$`+!2umtAq8U)-JsUYMM-m2++39~*F2%L7X6yReAB#O{$63y
zP!%^+B@8u7wq)I*c-^5y-QkDY<dHM+BWDsv&c^G`#tmno`OTvXN59v(XiHW)<CV@t
z<=(h??|*A)W6OqCtJ7~nFO&x(HK+o!$wJ9(il;_tj)Luh9@TQ1QHIlw>NsXp&*?@B
zX7$bjxnvkec99I~B0ug6@B*%|&k@h(B!}YlIZEb`(;ypMt{^T0muzym0wFH!$GpYm
zx*B%-Q#G1X7i4B&XygcqpCNI(%nY3$>c3A3Wq?VrV^pC=4UiFcLi8%NW;EUCSu<O1
z^lgb=?o--f6CXttZyj?nlw#QY6CgM<=5g32{~E^4Gm~U%Re;nON-b(Wla6af3-ZHr
z8rY_^ya7d@)8wS7@^NOHwoF!AU8*g!700%1_0TrAO}@5yMnh;;Y1OCt%SlPU`Pw4Q
zDr`Zjt(vCj*|u#q&4yIloOGP==|_#6kvDNB-ppGfuo(gOc4X#4&0!5^<}6-4IVOtm
zh#0kUR)~waVu(w)5@@+gh0mlgf>JnGY@CI&y-jZi#o4!M&2Wxa^`myK4Ek_z<q((6
zTAUSf5m__ce!sG8oLT{?7I58vZonM*tW1}od<wABQJ<fL$VUN;tQ*I3NY*R6jjR`V
zDJ%qsJlUH$;==FE@9W92Pe&;id@A9qH-529!X-;WzHOe<sK+-=&1xm=iG(ff@@(xK
zlie<g6aj5YkgRHMQeBa10i;n{Z7CJ0#gnCKE|X5;-jEZfo`nsf;4H=I-b>ZILQCZ;
zkc6BjAxd-l_X|`NLG5qLm~flP37kQNB)rIs0w**l0N3-ZmG_M*hB<8(7iw}E!{^tw
zXQEo*X_|jg2EIyEJW+--;gKoOv)U*lr6qo{NrlLyGqli_B?I}!Z3Y}pwZ&IsQ^%*O
zWrS0E)wWTM)S~89?hBPtn_8AnHRLQ&&5x;{q~&l<6Ks^SF~T^NkjCivYK+k=Tw5@;
zs+jW8p<)*`XQ@}{s0R3rrwj?wK{YqouI4i7oGz*poD#^U5~QQ)T$&qE-DIa)nn}6B
zG(Yi(g`j@V>4Q~S7`v2Oijq#KIdui7E!1>QAJs=SlP6WUOp426t{{tdJ()T+7cCg4
zr3|0a^sDu-0~ft-RcC+BAf+h-iLTE;sX3LZKI*2?qZy|>nioOR=8RuW1*iXGsJNwh
zV=qI^nE-2M&GxAjWYVZ9YS?z&rS@A;q)kApIYle%OLOL^dGd4yi<(pU553!=cgvhv
z8c^#d&#Jjhs=_Psl?6MPfl+f&i^?~U!sc{oUJi4`Q!rMc9!55#LT1t}dmfyhxq&ND
zd%~3rIEHf}GKL01cr-N3;hgar#3X0FMmbB}31FXzO@&@!PqCmRD>^beEre!#951rL
zP;eilk`VStz8Ri%dpw}L3vS653bO7X$NI!H7Wa(X=Xa0!c@~T)w)b*hH-Wf#zBj<0
z8#uIoKP&Qrj~81_=_aX;iH@Gty`P_fKE|PcP)@<Fh$#IbT5nhYi%v*m*g_D{guS)0
z0}`7u>in~;7@nRE36jVTA8BESpJ^df4Y#LJ<n|G811yg1)P>z%f5<HzfHq^PoHL7h
zqD*9w?Gstxm2W)AbF3Rsu%1w0S}}E4DFhUu)tZ5CO;a!c9imO@bNkh?3Oq1H01f~v
zf-KrN9*GwKV~_*5P%xW|=Yudx;0hW17FNUbsKW=Ekbk+Xc1vk0qzQnQz>dfoVz)3Z
zcBCOtT!{A5LAnDeLAzWj!Vz8z2~%t+2>kc5L!ltw!ullkn$PcN!y=DOwqQbR9Pf39
z{SpdX233YJ3J4nEN{@=pg<XyLV1jVWiU@&9ml9nml<EFU-Kpe^@$48F^?)J7dh5~F
z@Ay-H$m0eh(H)$ctItpXl7w7=j-VDKzgc8qR;FPBd}BVpPXfk=*noSA2R;it%ey@j
zIPGZzG))3vQD_c<V1RjgHO#~4acGJ_0`@HpQ6ivUXht}m#^Z)wNDcG|_8hEG4kip4
zg<&Lee48}|h(ahQsnr1DkXkKU1g3Q;GO|4aFt%}hbL<%JapRPRyllWHioW2uD&4vA
z1@^k&7G}34OPmOW{fLltOA;^-kOM>AWaAm??HyD`-%3ndblr%dumCO@oTkX|A3-VM
z<Q6Go#c6jCR;fn_fea%X#n$_@fQpQO2XDml4bXEii%4$}rZmG@SO+jB^lo&pja(~x
zN!fv5Y?&Gns>IfajtHMjx5!%0bl9npb(}Oi%?o&r6Kf>m`UYgE^Wl>~K7%1?>nsOC
zAT!bg5Gh>?u@`y=_<ckaPG7hzwz5vAY)~gww!2^<23&5zGvP|_=dxb$l>u%1Sa@7E
zkVyt0nehc-Q$d!=40>W@GdknO+@2{u$jJpgsSJZNDQoe3!4pj`xaJmuAT+W8!Er9-
zBFqu)C|)6kl$tUn0-maJnd{Q!3m48`9O>_KJ%9e<V4v&Kz-a#^SqnR)Z1RC5f}1Yr
z;n71U$vW@=c_s)iWrh#Vh_W4zCD)aKO9MTF{jR?LD+9gIn(-s;+JJjn)``=ws%0H?
z58graKFB)QYWVB2UgCpd2zr5GxW?VECE)laJ|Gwoia5d0X$X7x6i-}C-mu?4i$10x
z51Th9TXPE>#1Wa|X4*sLER-3M_j?slB!Yl?pU{il*ok9u21W`CG3B5XWmC%a<>N%T
zbb4Y|1n-w$bzk~8;Q}_LT`)a_ZWkFZEy=bo!-`@d0F%u`jfm3+9Y};+SEPIxJx|@L
z72T><9D|19eb9?<P#gQH%IbOMjlwmnEot2yx9(oG?pe2#-W*&QTr0ltRI4d0+R#&l
zw%=OIpJICRxrOI8G<3<ar&=vk8KCH~V+UX`ts{ooxV3gkm#{Xyzw3jR`z^^mo$)=L
zkF1>=l*VXUvkY!(A&pr(0avkY)z-8Wept6^JGN@=Qm_v#3?cUR40b?!b8ca7sr}uK
zdmXFR)_G>#QJHk?jyrZQOCLn;M^+sj^QJX>1<+tz+p!B0>zdiISn~Rb$ClE^X2;v#
zNmlp7;b-o_fu(vFpdT0SSTDBya42a%8n+)!6n8u|>R?0`7|~~D$6MaFJ*(#Wb;pj|
z-@f(jrT*on<%(GS!Gz<`!m0Jb@<shS+SS5cYIRe>;haCUZmnEwdZ+Q-mU}I$*0z|T
zEoN<7E2{#E%%9aZBx{evYmdYXRlhRVu2)vS?Rlpm*4&wF?v6Kif7Fm@K9#6Bov1vs
zaP~8(<X3l{NbKrP)bu1Od*{!tRW~o|Kd{`l#H$a-3_I3K%5GQPs*2Sfh}9hYhsK{d
zKXm@Gf3@V|ydJn%wsW!l?uk1mRvmjcb=q>%uN`~eqMvH1LNcj~b&Ixl`rjS6H?YG0
zo8{P=WABEJGTJvNfP8A8jD<I?3)V&R(v_9=pLRUx_{4DhR|k$IYPufmT<%`HdUxi|
z%ulYb?2H+9#%j8rny6wnY26pM?n{q%y|yh`+Y_(tiS=Gd)ILAYtQxA;%+{MH7EUY<
zKQh-WNy+BUN6non8OxdM#|BH%P#-tce`476`zOsn)9;^{sM_PA1w{6rYgz|SF#pnC
zevV<bIQ4P$YvFHm9pc-R1X(3af{f<|(EHP+S&(TTO9p<9j?x*wO+F7NcmR4NB#ng0
zw2h>efK5kpnkfBaiqlGIAH!GUoU~<Ht2x!ec`xOA2CJS?t!l6x!1Kc~#A{KOMGZR2
za{_pGQW&sRhK?wW2PtsItTxDaeAK?@G*QjVe=DWE98vIHsx%09vdbs)cy+k6&q(+#
z*wA?(CiD1m=Co0*#Huvqvx2i~)4m!No}#=On4$8o;fW!tRmVYincZU^oP^JHV9zm`
ze$<@c$m%O?U8=Pp4QVeHoh_wlKTHO4j)^iaHxO?WNbA?)HD~4(JWhL5Jm^WEW2AlR
z_hj1tpq3DS+5XIznuGDBJu_+<z%r_T0%RraM+QnYQ6^~1>L<??q$)?yG9yFOWZI*X
z=|zQvOGgVpSF1I%l(TRsQl4MU>WEYg1ZUt(=eF9SXrlT%*oZw_yCa35*a<kl-$;KP
zbBl^54%!Jj;}(3xe!em|c+Lfu>^ax)<$>PkTo?QMF8B7sNB7Xkz-af#!1<xBX1tYY
zmMw6V!~0RmfGbbo5cYdM|43L>$?Mo+2#9RTvLz;O#@-D}EU08eNBvQLgdJ?psRPe|
zF)|$n`<0k^pvD6wV7!C6gL?6)3jhGAFMu8eo(07g^u+*bXszH4kXTg8TDKW)Z}+7U
z7k1$qIqyPDUHcIidfUP9@U|*iy7)pU%%-deqWJ<=H&|rXi5|&{0Z`Y#a3<>Sfpa}A
z?6nCW+GwB+`*}B^k{1N9jN!-e<AR%0oDI;EC&yq%5W(Z|x1Ms=2<SSJcYjmT<zg_G
zT;6FI%oHyKdA}$(Y|}P-mdQ;UTzI<zd|-?hM3+mzB_N<rQFsn1V5az4Q9w_oTy#~y
z%RIPOC2}a>(IXd3xJ9t61i_6>P(Fk+q&zj#vO)E12)Jan9nrb&ZxL17)$_tg|0UPC
z9$5o_TDXFji-=mNFw1pS5PGl^qO3BmX;90}K$kinpuY+{+@rh12{2?i*I3x=1@@zl
z)~OSoM+!^=xy*$7c4(S)pRW)<4Im=kjT7ZmxsJR7pOIZTN@-rz`W<ZjH*i+npg<|9
zYfQ4|;_Nw8CaQ_{*A;hkfzoGotX8)st2^TGGk2u4yR~BHT50QYWZAz#(VdN-*~(Wd
zoXLvA@ruLAijH_iN220b!qyclJ-(sSl$@lW>QuE4l*PreN1&Z4`tOEDQ_}TR%Yag7
z0;O=hrftO(ujxc8cCMH0OO&<En;%=sW0r>X;&M=#zO!1~PIAeL{qc(ZE6uCL9gpp`
zNqbA&-jcK*jN1>+_pe#)Z(qLq;++@Y@Bd)v{!px{Gj8o%FD|=nxn%)m$norBd*#yt
zrlb`5EGd5s(7L-tcZwcao0i*?drv;vdlG@ox6B(Ft)t<oR##H`w3sU2nJnv#m-Wt@
z*UV)xbN!li$KvqoFQq|g#|2OUwSd(??QD8q6W_6C{<(E~dD7k#w>K?G@6O(vUD@^1
zwg+t=btdfRi7LJ4aBNTaoz8y}fAP}CFC|WY3&&lth6-9;+)%e_XjrQN%i+yJa&Npv
zAH!)U`dBf{;A;$MWGStKqVj2E>V7ZMv$T=Qx>3oaljVEvkhy7_qa`!+O#<jdTDVI?
zIv~8xa60gPYvwc(noT6kGhUi2c-0Wq^rfGCsORV<s)5SfqQMgw7Ve$WcSiYiG;WI?
z@d7*>n$!N7b{5_SV0w*CKb$cRog!WmF!DUXZm@fYz&#}6eWmyM(RL*{yoH}Q2HX)g
zn;`lN`Z<awPgh<v!08S;>Vjs5`VoDbrl~hf4Cr-#2fYb6N}&-Vr&iXq?w7TI9n5%7
zkoXKlM9H!@6pPV#Y@84B*QbT!k!NyNXFfMW>oMYj6OXs1+x<JB6Y<@_7ym(haf6DL
z^*m@>KJ=EjIPt@m9<=>lL|y5-MJ04(|0(c2D`yVJgQGOy3#Qzmd7Pf;d2yN)v%LVG
zf}qPo*%cYIu4M=MB2pGLoLg{cN#M4Y3!oUcQgCDhXJupmbq_y{uGq|$tZrdCY$eLp
zv`0u`j!g4H6i1})UniCQ>oAl>8omLC9%JJfh=3RC*4m`CIc{xUwK~^q6&soYW97QN
z^7h$VXOs5!xV?R4IAMQwzJI;EW-+`JSh<)eKQe!2t+r{oAXc+~{`|VFEP?EVC}Hb~
zS$e)$w^lp>bGkCM-^F&G`{mVD%ka9b;(uXBGgkgV#Ot-iZf$oJ^>LN4N2mR`v8;#E
z{+!Z5ev4$KS86G&(63vk`E_1(#lYG_pAiX@Aep%VTBDto6W&kXS<h)W%{bf+5}j3>
zg)41eWtzebF5HW6gD<t>LBr1MIz^ebYA*k1w%7t1r#3QSA_o{mz2rc|>jLFWWR){9
z<E>X5+ZiA48Ms>j?F4l#)NSCd!HZV|TTkIMdI7a?cmN~>Ae9T@EJo=DXCMb^Q3%R}
z4ve}n+KV718UL0mG&TvYE7=OIU>O8c%|s`o9M$?1nqF)Nng-$&$)d!;DZ+gf>b@l0
z`ILbF0>IScD{ugmI+7*z@sfJ*&m6sXG*Pl|UZ2-LV=I5FX|W?-+BjdZj%P?s+)%T4
zZCSs<{dDrd<R^yib%Qx+*cmtMT<p6$aA#oY+9!rK<w+85>7KOB4j;Ii;4E+ch)6BW
zBz)usxWR|LG2eNUf9AnbR9d8^ID=6=p#UHH5OacBOC%SpWKI)-lZ(^hn+n94eI}`^
z1<$(t)Pc>L_XUJdoH>v3z5al9aI-#{=e@@iSZdd4;V|65B7{AMeE7r{5tF!m=LD}t
z@e53*@9Q%F`Q8yB^whWU!J(6h97>CJ?*#9eVtroaQY&@;1NR(h$8{R=l;8vu$|XV(
z(Kd-TDVJoqllw+qxX^z|KsSkiqa`l_1rO#>V-|cEq527r=7ul2&J7F^g_vl%!Z?=e
zz)lSFsl`E_Gs*_Aj));b`rEoR<TAx<0i`|lL{S++q%r3x$Pe~A=u-Sgh``%wpe)5V
zyI${tgCO<taIr60bubP;^Fb`MmEAsi>*x<U@y+6ac-?^nyj-*$nm2$C)?$BaY@uth
z`;oaCAlI#ROAV{mCTvt}yKTH>oY#S$Eoo*SnOQtv&fPjU-~ZTRUu2RMyW{Y)?1odL
z@Cv<FTtS?@Y~0E&H7?sfsJ&kst2-LEc06oPb`HfmhmxHmarjv;!!yW|EA)nrF`CFy
zgo_<*C@cv-fYGE^B<`}fX2^>Cd&t1ETFnhd*6y3VcA*|a=B*NFWOxdZFquc=1If&H
znvi!S`A&d*uZI9fo)h4`RKK_`Kw|00feVV+3z7+zYgpPB^6rDT#va(f6$_IH0A38k
z-6DCT3fncxoNVF))6y)s>%nMD@87sTD{#vGjj|`ag%JuXylF!-iijU!Xi6tjwqv<C
zEo><qk=h(-%LRa^<&=0HP%3g}o$p*PEl-x#$4l#%4kb#P=X=Q(TNyW0u7MN|EDV5t
z*1Kd+*0sm$+LLu1@w$$OeaU0P@ngf__cxkA=8A3e%FO528kV3p@`xJJ+#vQyC=nz?
z(GN<gy13Au(eYod{r}9qx{HE`2zE3Vo(Cjw__9m=08JSGIhi4a{V0Vap!uN<E4+*m
znJE*TndId}XqLdi)gsP|^1xZqk98h@NaQ2-oCzSMJCN(gp#eNa#+!=Q=iVt_wlB}D
zNUL?n)~%)UV1(Ij7u_mal<v;nnOz0rw4!pp?~Q@ADt5l_&2t+@s=jM}?#o6Ll1rA<
zF35b{OLcTy5|tmGXa5-Bg};O-dk6(C7^L6jij?IHB2`|8!@z?UhGDSWG%c9kv?xoy
zTtEk$fZkc57Nb6lGCM7vy~3Yk<j3eHMhr%$G3v*t1tXjn;R;5mMhmEJ$odg-RVREO
zOKxLCi2n)Z8Zp8%Nl{OlF^3VlFvZt^+*c{Nx+%u&SgWkLTYaZ`S@%KF{i0aKvoXd2
z`>e@&vwER=k%rrn#o?vWJ6D#5mrL(mSsq>~y?<q8_+jaTE3v9$YsR8nu#3y}_nu#N
zuhif7uDBo8Kk&w?y0(B_T&lnG{E{2Mym`QC7HSqt;Cf`y4Pf3pVATX$4%pc8!F%J&
z!b;EmYY#OKFMe1Mt3HXHroqOR4&E7Gl9tENP6y(h4@W-g`S68U_34em0=xdk;6|yJ
z)-^7I&jZty-iHkj20qgL!t${t-ae=l#)dC%lG-O1v>m#dC)a6{uJTERQMZ4itW0NG
zZp0hAO$xGbD|nV3qMuMkoo%WA-NAc+0kRJpf7bFLKtT3MnNC-?Sw!m`${gX$I9a^B
z4F?1iTV-D?As4%?c;%dW{4blcJ`|M}rA0QP2dNd^jEcvO!EXU~Xl0oa4^wN(eTv6~
zTuWMHVQZas3#e%OmHz^wTwyEilzVXj4-&bEv{U~NiKv*DWu!1H`TSxlq1i?9<YHM_
z0M8&Ps8$F^F#0Y=e}$0)BUF%-1waIKtMJN(W6DGR<HCJ_1KFj-HzC^4(lq@)28u5G
z4Q2V1Vn3z!{FbWtlxp~tYWtKrK{9(krH=pFXn*Tl31iI-{RX3>9czs3M(=CqUp~Le
zIAG7Yac0B9(E7#xyMuQIHz~+IEz;42i_B9Bl8s_YUvfk9JH4c(9Zx8Xzu0J_3?-lp
k&<^k~y>bSOM%wWQ5p}7LO|~8#^>bZ8k5&8gA{yfV1F$w4w*UYD

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/ray_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/ray_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bec28142da4542a71cbd33582220ce8e26f8e374
GIT binary patch
literal 11299
zcmc&aTWlLwcEiW;EzuGsQKDpftd~Vurq+oO$6CjZ*UCe#BYXYWBy3Y=%o$0fNe**o
z=vZ8;aRTo`?xt{D6tIF|yFxz-2Tp-}?8pAK1q$?|KtYCXsZJf#i}g?XMX!>Nra;ki
z?wuKuA_b(|0v%g3_j&F)_n!CVKXi5ZICwJ7pQZj{jN^WT74zYZ!uDT6;T|V(k}bo<
z@oUf6vi7*$#@ZZl2kmplo$z&J_^d1LqJ7ScJL`#ivfj9t*7=Mt>yP_s*_8=oyW(B6
z?9Oy&gYh6Odop{nJ@Fn|_GWssp?Ju~**UpK?t5Tk7{&YT+$)^qyTwU<+4I0*v<|G=
zqJgilvKY1Lj?=kS_yjMCt7lfkTu#osM2JG7c0F)L$z}_=R8rIwqW4`^NOI+}oKqEY
zI+IaoD@^oUl%+yaKA(s3z`T4tm6V(3{XkS@=m{*#S|XoMEEA=GBmJpdN=syv<z<;b
zwL4iLM9ygmRU@*PO)^Z`yUVC-|2vR%kCVB$P2%GAE3nORhwPN>MK{OEyyQ3m1HGIS
zm7KCm;$^qwf-mir+_FdV3_-u-mA&ac17g!BJ<wD!ipE@@99RlS{#$&!OA6fL;@uQ(
zmt<dZO5L}d@u1XYLSM2=L1@_{?U8%Z<LwaBlkIIV+Xaw%U|t`V*{T4k7h3vhuU!g3
zc|huu`lSIFfor>@FtmlGL3t2bhL-G<x`;GPM~uirFsgsaC+&q%5ijfu{*$I90qVo@
zNP4avlO>z94_4R@e+T3dSYZ@s-uE5Hj=|XdvLKD$;vN{F;|HKV(NrIm4oQ=+{uod-
z4ip}Q@`OAIH8<3zZaJ-)2UqRU8NCO1^1_8?ZYutjPk^VnNzfGGsw@;#SrV2MBIHwf
zIg`rCLS7_dCIe+PE2MG)z`}X?R0amVLd5(^jKaFSl2Qfu|1LDCf(ZPXlLT!=7OtN=
z_nMHnZ~+Db&z?~fBBgRD3Nc?}VlpGDbb3zFU=}d1bXXOaWCnXt=MzZ~BHj0{LNZc9
zO%-L`jV+0kq&tb2yQX)ENr0IE(UUT=TI?s{YK%6;PGiTbv|aZn3zBF^hdu<vQn*Yw
zQ%cV0QIjAF)`Rknf7?H$f>W}UxP;XyVa?DJ99MEe&2Dy<T*R+gkR-dQPd>1f`1c1(
zyyi7Wng@367{|dJzu7K1n&vp(FKDI^bLnn#Oyg@pQQc=b$zp;JY+8>w#vGCEHCq~A
zz?|x4Y$<V_g!`ubEC;xE?CT`>Ejz=dQL=VCCO)8jc^GX`w`!yNYT>i9H|i2+;YcX|
zAR{k;7EFm5U<*M+4sGRjU?@=&l48zcaNu?19(L}s@NP<5v0y2{w4?)@3zVDGU4_G7
zXGG^TSytyPfY{RD+d1Jf2t}@ty$Y)+ODJAiDw)cQS}M0}tiiY*=iy`U`J8ZC0EFKu
z$W6F|pf1eE03;K>bU_92LE>^C!`W8C7&L(jr6I+ZSrSfPSP(!&P=ZkeQ4O?WfkMV`
z#}Z<$;i62$goPzxQOU_O2s}quNTSjpCOolaHxLtx?wrPe$sG=knmJ)gjxEP1XdKc8
zNg}E1VEtOrrFfaz0JjeG7hQ;U2!@(yoztWnaK@P{^QQ%7NO4c4lnRHGTxr^U&=`UO
z+D=p05wxLZ?50}C=M|#u+|pgu&z$i3icHxM)`d|!mSi}ot;pk^nrwh4*kR4Z;`FXd
zng?Y~E6z1-hroma<j6Q&=4P0?vy;r?WV;Nmh{##OD;KT+)2M1{IVVdmN4s@@q9Gfg
z=BY04PP81K9$Hkig={_}XTi6TCF)oaRFb;yM`ETR(+1r^#8uso4$^YI0ER&&s9*Jv
zM4hQ7MXwNo+Eees#S*C;^QQEn#MMFytP5M4_GQI<9>h|2Cz2TjL?Y_eovNH!B0-o>
z_TUS3D?xQiLij?TNJX8G=K;^RZ_R4i{47}0!<t9{xx+UK$BsXL?U+29NnM@IuWBnw
zZuWX6lbr<y(@5%S0Vtg9fU`Oa^tDhC%dhI51P}l&V4@gl+w+*&Cm>RP4X>MA{U|pw
zx$b=E8QeNBvF`lPx3%vOR)_z^KmMq9qC9!A+Iy)SxU}UTDEmh@fBef_^|_b7IQa6T
z-jS_6=e8a8P<NfPcXii2TwqVxKl~&#aPQRJQx8Mq<-lTja<K~U(D;*~iBI;`hQ41J
z`u_U-hiA7!;d^s;=gOgIIS_?+y_<{d`$gpANNwmyW#|YFc^ueN3rtr6(+>kPbssml
zcis6XfjST4Xm5A~>)SvAm$a-cR4`_sw)r2y>fS@Ug+q2cH|;6z5~txf`lOv^sqr-}
zQQFmLGfQi>k}d5qYmILjS#ZZ=!dbIR_BBVtUYG1?<e42$!@fT-s9JM2taZt0ww4^%
zrr-!eXxBUSf5QFTZmtaW9yyUdove7tsae*)lhyu=e*k-lPbZ7rd56;xHlz7%;=Tr!
zz0;|r_co7a<q|KsK69Jvuenliq6ur?v;*c0fH-QF8((w9dG4)0<hV6=$z5_3fkW0j
zCAZ`$!a$?$ExAgbk~hMoCmOTOlDUuRgJw(PYxPANZDz^rTl1BC=|g5~<J&mvH9ug+
zrS~=Z%u>mZ!PkdxJ2{9gy~RKCF(o1hSEvyHi<;EH*zK?fU?iyK0^i3_Si%xfvdlJv
ze}D!`Kz-I^GN`FgSCm3VLa&HgYe`UYNr*KH1YHqSE7Yd~&qT>JjLqU#0^nHW3)<4*
z=Zhm(a`KHlpaszYGp!5rLPpLlYb$dCM5Mf=t>$Hd90fIpl*)dEoE{yZDwqsISr4Jk
zCWV}q%A!9GD*lG1cbTCqg{pfEwG95gV@1B9d#|o)vPe+nyX0I_k!0Ng%j!J%`pFgD
zhZ}IUu(Tu-oiC(v+Vi?yQ*;;8tGW-Ilf<%!CRXpUASX11*&iM@3j%74Wpzg~U(k8*
z*Ff32H3gSd5e_aH4G?5Wf~TzqnB7Q0c%l(KaQe*U^A{5f^NDjWE$ZD?ADbVv>KaW1
zKwM9ektJ%k(5C2K6%2+3^&7fd&SA$5-OuJRARZHl8i4U8r{I^MaFG4*Djw=!6?QXo
zZ^8uiEF2G*2_LBUJ9D?^%Kp7uq5k!SCxgSa!P&~-Y<2KRZSYiO@YH(OR(QM?j#a|3
zTKJht_?c?>=z5^;;szt@fk#85n<r{x&sD~r`~2PN*s1E!i|gHwg1sM|tOiFnGhYOs
z0W0G5ZFNt7_U!#XsvbI7o<3C$ya@Ki>njJJ`P#z`3$@5}B{F^g<lpuG{qWxoKa9Lq
zi(IHgE^Gl}XK$aa1@=|~dtt(`Z#{?>W8_}(Zm|}gsf1_lC;sL@IXqJh&r^g($I-&=
zd(=0yG0uSgbKjx$`K`f`jZ$Us(E7qwcz8p+dt>uNWngywm95C+=IZC+a^!d|@<Ju@
zLN#)#7I~=>d8rzCr4~6~iJY%Sez^X7Tj9}KI9dru?;os&pILu(Yxddo`C4GK5*Xcl
z{)@oOQ$N=~Loj=xyNIk6NG@sURcK-lwOnY7?s2Q!r?$mUxu~6S6mo!y!;Qn#eU>=N
z#gX<iZS?*aXQElW$vyT2==v=d6Qz%?iz<6Ji+PD7uR?d!Mh4;Ysf{9~;#9_4dJl>$
z<3BUv9&5*{ZP0rFK}Fx|Cbty~)q<my;Aq)1%65sT@LD#>GVi~HIrlgXF`!QgvR0;<
zpy6(l`2%CUbE9ES8e#2tER}69*+C(9F#Xp#671YlqM0IaE36=1a+GYJfPwybQ_vpe
zi*H&={37K78XYZz7SAz-c~GUg8T@?Ix=cYeDR_wRl8UAHA=+qYVglI$u6X`5<~JA&
zQ~hHAfKsj*p`oGZS46NKS7lgPf?#bIMPGC=fJK2uf=e`!1BstTzznOg{3EZs!L1iH
zjgT2Yg&f8gB1Mq7q7KH(i`ei2yj0{nQ$6V(s`bGtb@E)zz7KF3dJi`_&<T6OA8F;i
z-+LH5Qs*3AU)^r&deOG+fMOY%&}+Q+-re_V;ps|vx*DEY4?OmVH;&eZk5u5l{|LCD
zwNSJYir$~8gpQR1$DZ_#Y+T=zH(xK$oGb5rt=hW?PVDb2GErOcQ2SY%F|u*Yjnf0+
z3Ik!}9Fo{1T3tvx1{u^A758@*D{H`?;&dib;FIs^yHmVfEPICjH&mQ!r=mGyK|Kjf
z1%mn9EoN^a6YXdlncYZcBlIh_LyEPI*g!%t<O1u2gw}%lE5ZF`&wi#o9ANFg4N&VJ
zW7&1xo0nxmcQJ{aXFg6SP!0G~DD0*IAq!{C0aart9-95a`8ysfGuELmZDjx(lOTs^
zH`SMogCwm({1|kWweOd};0q$SZQ#oo)SwS13P@2?qKSHO%(y`2)l9vpIQyDR;0^*3
z9V(M}$Qu=8X$I5+CRk;&Kiia0L9Ibm1c*8W+nBF_l!8oT$R)AV4)YU<VCWO@T?#}7
zaFAX@Ukb8sM7D^4Xdj$8!;OQya0)ypqykq56gA;(II_1Pr=_JbW}`$AUIKHbt~94h
zF5?m@bw-dORR?J$@ZU^`4JTGDT+OC5^h6;qgR7WpvxJF-*c1v+EYXzThzbgs5mHMy
zQG`qn`i+Pon~13=Se{i3+AUz}YA(4#lpN+BF^||`;idy?&kVvIu(aCF!^TsL2@9|;
z^U}o(X2n<0Tc_luR0{{tsq~=+6cmjlFNuYWW*C!(EaD(bCUz$C;P9v+ffJ$(1W7Gx
zfo~_;v`~YyBpG%_S%u?Tj5>(`Tux97SdInKB{|8o1V6&&H{jJ`3CQn5OL3rWg&0o#
za~ypfULf@X`lKiR_{5{$1Le_$YVX-{;OygIh-$pxMA<V@4o+-&0(X43eRqPlgBy;G
zH~-0V&~Pr)6)`Wz2nKaUKig{>n&@8OC3Xv!Y<3YW*P{<)|Nl};G;Rbs<rGSmuAy;r
zCw<}v5_UW#9vm3QXLj>$a?RDqJeW>Sr~HH2XWJ!nva1$!T>|qiqK9hn$VE9RV{E!Z
zZLvs{vK>t@H_J=Aj5dqPk_LiKlgt>M3Wl0vd0=8J#zH(yUgB*LjdMXrX!vU(CgxTR
z*^LRO=>=Bv1uY0I00*HWVhZoRKnXySQ^vbnK}k{#B3Yn}Of-?Rie}1-l!CnA45ba}
zX<&rvv>B^r+S)D%D0?!Iq(w6)&f-Hx7~S87P@*(b7G~3E@jFiYE=s`MVm!dsMJ<70
z3tLsh60_CtNrJ9|9l{MU;J{@d4Ru>VAq{5M8dAbwXV~o{J@%BD^4*bvAaP)S%qFNL
z8TIVYIOGU)>ds4eMd*aJud_t4zlranZswT&0gR*yf$Ajk7M+N9iv$%_a~78c)FQNY
z(o?t!1}N%vc!8dp{tkNTQIL9S8xz%_u<qRI?!A+~oxY>oRyL%~m+r5wE7k7f>yEDj
zoHtzc4Awm370>uX&*Wo&aHj^`3ihu1n3D6L#)K^PlI}sAu+-xDH~>HV+s3G_Ih<<t
zaH96bVg$~VWhC0}1t1v2i#$`MOHd{<yjoN`RjLd?akyQvThMi!$b7o5eH_GsqbIA~
zr^=pFj2^p^Pd017{}KMcO7MG%HvGvltof;vae#$ANg*b<7IGv#Zb}0KvI`BY^Vdx@
z1lnl$-SFSXK&$ZM5LALY?^h@d<XSt*T`luE#SSe4zG_4L2i5K~WzQM9{Viz&+#1R{
z7oY&F18??x*I2t@_DrMmz;LRKWCNTD6J7Mn^sY<v7c6I3Hjv72TL|H&OwQc0;@);P
zYwCUq$Zlg$dXsy?B(D}cSP35dth+k(d^LEy>^c7bK{Lq%O6_z}G2Wf7rtWWWJ|0Fp
z_Lu{qCx+R6_&HU}&lXl8)3kUQLQnzc?hHZQhD%o*YTs0&>px(g>W3HTJ4pG_>zQ^O
zpr7G@>;p+I8?353bID|eEI>=!!o3*sX%Jwlcwd^xiCMWg-i|~2sQ&_JM%HU9*x!zb
zwHebCkwzk^6Z@JBYG%Rgy0cJ##50fYqiA@N8MQfNA6%AmG693vay<tb+v0R5<U5bG
zfjAg}{1fKX{;X8?3{zU7wwJ-RmT=2n#}_JGT7rDx%TQj7PT@@;?pGqA`x1$)A{8=N
z4kQxq6vT|t<4z<bC7DPNyv@>si3I#mP0^@%Rbj9L66FMWMt9<MIh9B94%S^v9Chba
zMahscXrk$5au!Rk;R`eQ1XDe_pXQI)4{pd0vH23duHXw@eaO)lAiN})ZX;+@$qK$O
zOx7KjuDnJvSj}P8lP3z?9%!pX#Wu9B<OX&)06T)IPWVL+{&Xk{*X4>tZsGvSS>sq5
z#TWjlguVu#p#CT9@=v&@cAodZEhMCB=PUlHs&lH|%N_dO)8H|F@8iC3orf>5b#H&&
zjU^8Und|x6>ADwdm}@SNJX;ALt^2Va;0A{8#qY*z{gajc$@_hk{=@Yy?C9pkr?wH~
zZ;4IdkJjgHcD`#vh0HhKwW)36r|z-wW1C0IQ>Q9pFK%;Csk^%Q^R|uTFH#?;YWtq8
z?0dG(Vau-^+w@x(oP1<M-Msv9ahro;J>cYpP3VMAJ<!KbZNLRBd_ISH@cGrzZT!?{
z#`)0WVBbfVHpV`B<Mw-X9_m2hp1pN9mOLC#?ZuLh>zk_ku@vBZgWFwLI%nhg7j2Jw
zg*uM~m=`**?WV;6Zcw;ax?6hcb(ur3K!?=bwCLfw`nPF!eXwctJOk+B=NqG;XpV;B
z9?sSM)NbSFwjEG{Y#%=daNF9pT@HSv?z8a&n`dwf2XIgi4j;K6`Ykk!;QSthG(x3`
zazivs)_@^&7u-)l;+3*JV`6HBx(WP#Oumtn^LYEE(uh`{V2!|$a8s4j#7ry+*>6a*
z#F~?%1Vcy4-FlA^Xf|&48JnNP3;$Ttg@3Hmg@5cS{OB{$p@)g@{x%@yPxasi3X~E1
z`GcR1V!se2KBRbnwiF=iqQ)qG30h`0_I<i1#&9Y+t>UD6PB7hal6(w9L7F&q9$s~a
z&1Tznakjvh+`w-*-@kHDnEp5J@|WD?H%`0F{tfgU|B@T~k~{KiZ{J66RK5Fdy1sU0
P9k!8;z&9Lz>EZl0n`ID3

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/shm_broadcast.cpython-312.pyc b/distributed/device_communicators/__pycache__/shm_broadcast.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9ef27ed7cdd8e3b46c27bf7950bf136b560d4ce8
GIT binary patch
literal 31362
zcmd^oX>eTEmEP-p1-h~Cz{5tM0T2YZN+d;!3qX++L5id#3$om5q8~tjy+E%UqyRNW
zv`5K+GHpS#2^`BMXvP&o5hp_@o(w&iifPMMR5PheKLT>M+fbQP;~%3eRiH=@$DUM@
z@7%X_Hyfffm84RYN8-Nw?sD#a&bjBDd;717ikuvtkol|Q1LryJZ|OsQtcvH3+sJWm
za6v9;2yw&m+c0ck-^O7h-o}tAY#ufnD9#kJgssEYux;4JzRe+f*fH#2eoM#@b`Cq4
z-x_j--NSC?w}pzr#lyv6&#))#9rm&?d#EH_I$X;9hEUmX87r?mTrpg!gjEe!A<Pjf
z4_6OYvoL3<DqJ&M6RsVu4c86Vh3kjw!wtg?;l|-cB~MeBALg0g6>1K*47Y?^hg;dV
zJJc3#A8u#<qR@tL$8blubGS3?8}@~}hPw=$P%K(eUU8^9+%w#RZ+>D}?JE5}ywS)B
z+{7345Y;Dans{FI>+hiFs`p*=FFnKk!4hFpuoQn~!sbzHu>2MC@D{*p7q-4@P||D*
zR<QW(qvl{G;&&LiLtL=x6)sq<!Fh;<)gY`^c<5b|lJj8}T8GejE#*$Z%0e3u+Ng%U
zD`((_cd@u8#PMp}@a}1YulZw2G2}C3ibtZ6xbR{;9Eb$Q1kq>AID&zAU?dcX#WI%B
zaUm2$s-oE0fG7n0VIdq9rxD;jF+OrGB<!CW9YrQX#xihTh{S!SOws9QP7L@DJT`FP
z=;5J58PmSVbjCaqh{Y+<WFS6rmgN?sBSI{8NQ_QR`m7oA;S*17&zMd<xj*B8bLzm!
z!}|v^<}aK;fSX+ZQv)aWA3rsau^o`Bi+Wa^iU;CC2w+ZRLCd&eBWF?5X{F|_@yK}G
zABv7q<IEZBm=O1mPiBhf9i0>+{>i8q&s1oiGvOByKjKGK&t@vdWB&7j(0C9*=ePR<
z!JvrZ&;Zw|@fjf~w?1P!Gd}i?A>%kR9T%cvP!KZ~WSSB(<``0CtfCN~5+ftZ9AQIa
zhD)P*rxVT_T!NcWW(SK^oP;50xN20#?G)!T4T<%L6C2>5683o1Pi4k@MzM*)c{njD
zhUb4hyeS@@+%!2pxiKCP(YlQ<PVIR3p>sQgO`-8Kn<l5@XQPo#=R=|Jrr>xiE{>m>
ziVML_LE-%Ph~OWIhQm{l@sU70D#kX&&W8PG#AqN$!`M4HopGxL`_Xc-9R+Trk}Kd`
z<kBwhYkMy3S!i2opWCzS>PwpY?jVB8IO1o~duOAe;7E33sT){V6vG1~Wk_(}07Ckv
zi8Xj;>rj*roDYnL0%t-3FHb{Wo`$?uDgI0-I&zL5jZQ^^{CI?)`CUFHU}6Vjz5MC3
z<1s!yJ&D$YLeu=&z$8XJ#$PxqMEF=VEbx=^>=9x-ra0mwW8;xAJ}UCTD0x_#_;^^@
z2!OGvFoj)+is$%Fp?9p8M^{ava`EwKq=&yCjE|j-Z#s9L9|>R<@-IvUBJuGV7VGPM
z2ZJVdpp`LdKQFey&6I|skum>;046CF;t$8h#4bc^rF3<0E^=#TgQGZITs8OX8fU8U
zt(nXYI97{Q+<^EI{ArKcv3IHw^ak)4VR>M9!z<jdDQJXio;G0_I8IHDM^2+WF=s3Y
z4jT)apKox}+&hLL(FZ@Kw>c(+Mzd?~5z)nB&>t9ykDnipPtVk7Kzs9|_5wuA0teH>
z?v|^qRu!Qf%~@8iT<y3Pry?=~>LT_c6?%}SnYal~c4f>lG-#$+uK|7Ur$jb57r9k?
z+1H9#!9zYv#_sn=0_bdi#_9Kmqrs^V`Q3g$1}r4Ui2YQ|7ILTqSXMS-Vh??ivj=}M
zH=I|vPmBgj(H*P7QYj~-=$wI}#?y0$8j(FP7#4fbD42sL!3=_6e#J6u30g2v)}R%x
zZQAB@WLUdSg#=-ejalIP=pZML=P>3lu*)RP=kbxVn7!u(o@NwQfjTbyq#%w*gE4+Q
z&SNPAh1j^r7E?UR1E)`o2n<wgIu;kg{ABckAYxY2RG*|-Ew2>96j%^gB#~(REY^Us
zur5TWLP0(x1cE%kfjG#(4xD(BkDnF9a3I8=MWh&whGjqjl=;Gx5R3ByQ4I7q79|#u
z5bNQE*rYHr&O&H;vTB8=Lh<oQEd4_#o|IQ8>J|}3fUWpIj2E!ZC<;rGDuTKR;)U@T
zRyEK-G$NoDB2_LBXVCil`r3J_+*AzIuGh%|Ph+LV#=|HCwTeYUQ>@v9HPjA5uY^Lh
z@JCtYBO}vtW2iKNIyDkykhCrz1^Ni^BZ3$YpdRu7@X=A8mUu5qnsJ?(icNzsMJN5S
zjGG~V7>%$$HbP55eYB-<5+QGJ`qG%7n7l__E(y-B#U_AI{TjrC5nr^r*`qEhOU6t!
z%Q(VO3~v;eKT`w-Ag--#@nNJFcf#?R#6I$C0WpG&sVJi}tSm-w{WDdx7WFyXt42^e
zV$E={C>xsJ`qGszEjMhOGq2cd({&r@U7fD)oHKuDulW=_u^svUDV?D<*d*=-1o07a
zXc_0@6Sn$i8uOZvht-}&##jlQ+?IT3uf4zK)JgPr=Q^CvTJu>04c>${T*#_C2vwPT
zH3;t+{G9{iD)L#=#GaKv@gg_dG~~v-t6*Kiwecb~PMuOZ2Dat*9ZiLdg-u>IMHq$#
zPeSt~;~1F|MMl~b&O}C{gji?F^7@x>HgV)J8WMDBdG#AZuMaJkx6L`yuJQ$Qs=7<6
z?pivX+W3fs|J9G&bUm`__P%!H(vkUis;X0}>ip2{`-QveYsc6K4Ec;>fP}~X=-3}z
zq33&heRh#(tGJCEnnxL%-ye*QfB;xVL(xE7Bx<!j`hSRG$r;37tPRd9+-;-7V!vH!
zviKGUK%*_b>r;2=^@-D9>AhpMSmYVOvW*~z_Nc>fCxjrKEI7De5r~2bM8Om^<Ie&D
zVVD6a8?}Qh5Q(rc5@9D25p=+{3yz>uFpV06u2;<Jpba~<P<K|S3p;?~Owp;c;gdjW
zG8a3Pu}A!bD#5;b!hsk4BWI@~=Vbme<J1CT88gwx5tW`%OK2vtxm^qw%q$@s3TF@a
zIRnj0glSZrAt4<>nQ{=+dh=aNuK>nNhFfqYpnlniE=XuktMlhtQ!*rNwI$3KzaBIL
z8u1nEi4zK7&qS%})8CYKqQDxwYEc<`z|!K8)~n}LeG}!XPk$pNu^xF(&{WH9<7O@K
zDm7w)SgO1yVTo6&K@+vAPk&#vs&$*7tw!DxH0qclh$$L0si}b@OhH>t-_X8<J>YUM
zP1Tg!I0NV4KE3A>=BrM%q|eYtyi!ost8mW~hKw1Ha9=TCncY|aR<0k6<praGdj@r+
z7QJYChPz;B<>D<W=r&F?QT%280;k3n&gF9jA{Zt{@rhsCm$!oviK#flHqkueK*HdO
z*meP%88K^vqwmPTlF1wd!5fIhkb$vGJqmvpz^+4>5{N+oZxW4wy&^v7!gwgeKQBaB
z<nw$08zq&s(rPEC2@-!cB|J|Yp1@<}gE^W3q*0mK8V8ry1J($8N|XS&@w3G0v4oMS
z@EJkW;2{g81|xMg5XY7%!k+=Bg*_#BH?T#NOKCgpyv{|U7a|lM2%Zl_Mif4YT6vh#
zg3H4GQ=m;27|}>aoR0{A10F3l9T_<*f@?u731(n~WDAJVDw0){!t)VW8S$x`$xvWA
zIu+lk=b<F*A$f@EU-umr;sHunAV1G1*3Fg^kys~lC(%%hvwuAJqAw>$)<=TRNmdZl
z`K<Jx;ytfr?%w$6&x7K%+}#?;1kWf-A3BA3`r+yA?NvYVR=bjtsD3?_8p7+n^`Kfj
zD867Vb&|)wNRvC8Akv6xK{3R4_VeAmN<V!(lgh{)oRIez^r6*U5nm`XPF_}&g?17F
zel!#q!ve!Z9vv64BT-{0<bpUJk1IPP0x74Z#Z0jfuf&-UL#E>_mPtSW3P9!U6ZVU=
zX!-ybd%@8F_E$PS$?K`l@|m9|YoL|d`l)dAm|UyA+|PdXQ=S8Injs}ngOy*1He$?E
zFg8C>ABWTEsu;-*38!g;LVX_t)(wTC7h*g0)SZNN_<kSXw|DPeR1)q^8J{qj6S85;
zqz()}EyQ~W(@_|;g?+GCd1Fk2CPUop<FOm<14Oua5GSTEkV@~#5Hwh7Vfo;;0Ni>N
zR3I^=Pk?CXnOIBiZS1@WH?x@WQP!LX7Pl3};X&=;=GDGXaoE%=<1d$1sDHH4W`bQl
zE(Rj8akdvHTBy`DYh<1#5ne!vz+!>851+CqkWm~6JhX->olbJSEj~soDT+ynvqqB&
zA~_)l8{7N`g8JGxPNXz28mBnSASD@!9gm%bT!iXJ)STj29pp7ESDV!%9DvkNi>BE|
zk$M3q@g;~cnPwMG%y*88kfiic?fTISf=1nqI#C9qv`XnJ_-VBvO4fe1_<dPquwZY?
zK=V60t2mZ`iAdBgR~8EO@K(8pW&8!KB*f*KsWXEi1VTcXdC|yuh)JmD1h5il2(345
zDj<=({unm`_COxePaii{w_bkVx?@EN3XB!Yr?W5e++p|<y{ZhPj7a6WGbZZ3K~)=>
zGgSI04;?=}ATJoED<GT?&JRimh>9UA6T#tR^&1<|oT58pQ3QgY0v|+dQ!GxL9oQxX
zPq9f6VbdXZHYoLy**Y2jWi2s6fAMH|e598@JSy{8jG>g-G!eo&5onNAnXMkiD~?fB
zpu-tEE0?~7p%{!JIK2P_^6Kbq?$K}$P4F;D$ytZ88jeE&C5DCIIH6?LiY?&sm^@R#
zu8=cB_5wPk&5MImjCCGC*T|yx=V@E|JoV-fvAZfsRC#MKkCaph_VQ0tArQ(z!9~Su
zAe97s^vndxqPjC_VwQdYXcKCLb4(IA9+x{ZKMnPZ1`<3nYa!K*iT^N<a#a{qPf|mn
zuX})#ks2e5T0tg?I;xy(RxM)$Di?;_Mtz2TOdD;H_RB-3p(nG-4P)9NXpJmEC_{w7
z8K2Dl%gPTd2FUDV(J2wyAIyr8bApI~F{p;1B2f1|>YFxocStHlDgq{!XEJh>WrnUP
zma(3@K<{jUPsYAG6bPRQ2KLN!=Exm1xnS>Z(9=LDwg(<L<-bJ<F)HRFw`67l9Z3I=
z;@ej$K89DONG0BW+M$St5hfm?h>CbL9tg?83x9OfFZWQ!MGQK=N3o_M<WM+vHNXjF
zAL}YiHrnoI+^3k*^BB{4Ld!Qbnz3N>GIBQKBrL1|wM=3DK18b0P{=RRo}Be`rettD
zBn(C4gQS!i5XGqIv&y1Vs=HoU)}pN1$Y5hs17a2w!739<%~TfdIvSwZ7)BksqDcc+
z(>!OsT$FBTT&%wGMOm`i)JyOBbZr}=Jh$B5l$)2_{NmPB>oy7h-P_WTqaD9={I<oo
zp`OyVtXaAG23a24)S7DAA~kKf7W}j5ccN0$00VZ*<(b=ktFdM7;N|11&AqAST~hO|
zbXDDATdHNZ)Ux}o$=FgncW}ksxMt@{D^n${Qb}v7q(ds{STd(NcT1hSlbw5{lD#+f
zu6ip{US9I@i%oxF`M&FWt`+aWl=q0_J@P^Siuc$(6Ic4EAz88)fSTH<yt{x{mG<uX
zski5s7E@{Qn%!Mev+CQP@*R+T2R<lY@eR!%Tq)nM=H}}8RNY3YZeyx$vsAbFS}?W!
zgtYy{&AJoG@)J_siF;L)or80)L@DJT?{;$4zE3!FNzH9LS5dR(fbZA$YSe_kj*;B>
zJ>#|k-t?n#!@w@nk1F?Z13ktcSJKCidCP#$_TwJMz(bZFZ!=QJ4g>igGLe6mWzcNP
z(YnzTH{tJ&2!|<y@y>rB%P1fLLn!6Wdl0J0tMsTsQm9e$DMhblVM{7&S`q{{H}hrV
z87p+8!H_Uho;w@m(D#uowi(Vv4%6(lW0#I$X34WnnPTj_QF1q?+^v$kb<JV%I@dUh
z!}%#v^PK?rDLq5Im-nb5&{3n>LRdEV{mibx?-$P?`F#z8GEi2C`TaB1xsB6f{u6S>
z>fy)@9J(|_?K*nt=vR-eSxnRvQ=z74gS?2W*$RLJRNkssOx$01m?t#RB{D0I+CT$Y
z4-^<~v2Gn$4i$p_)?rNpqfc`_;}AoEP?g%w24aDDTtSJJkx(=yh+ja~jCCpkN_g(R
zUL<k45JDGL<aZ$pUP0d2J~$BYyGrM`E;OyUd|7j%O>(!bxHqIdWv{*b>dR?wdCJ=&
zd0SFmpXBv@=<QxJao(mi3+L`)^CjcT5{~59SWus|;_nVk$)gbEtvi88$x>i(&7jvw
z#5`*xfpx(Y6btcnp+#6|OaMm~(3%tG-#5NtV75xIxl+fUlq~lNAQchgADb>1WEHqs
zd<x~tOO+Za4#RoJA`_Q$@Ix5`qmOvTBt(KNlIh-cVv@0wxeF1)e2SumX8<Mk44l8?
z{sHrx27#gHUDwJ}{R0yIw+=|&fjLXMxNJU{s_c^Rzqo78lrAbs6*WmkO{t<*si<{v
zU<t3@Ypv<hidPQ<j~8!B74;(Izu##D^snr*>}xjsz-HN3VfumFLH-KMzDC;*YHjfU
z|1z4SM-)$!qm8B*#%KPhxoLD%u4Se+cXegQ{S9T#9lbWm+qU@9wbQ9>ha~*(I3#%w
zX`|OERd!0nou6a$#22W#%pk*^uTC?8AIg|uQzR?W7^W2{`2;zHs>MliV&vr6Rve-*
zawu2q%Wz)d7!AMe3K%Rkw@NG4EaU-mQroa*V_uNx>NN-RIyq12{J~2TcUbCA24N)Q
z{KRX9<2GA*0LWUtW;9zW7Y~5CTPp9E)Brtd$)rc!rnC&pusV&PI@+UR<U4Z+(lvKa
z!j?sVDaTdAyWq#@8HVmou-3pQ*n-C0cn3|StrM*5pL5hqaX}Ml_mIM@q;LsNEzF{X
zxwFEoEX+1sBorf;oxWh%<H%SaW5gMZzDJSn`A1=v0INMRH3EaJDEa)5uAGYvWr}2e
z(=Su+Ou3vUHgzU80;4d2*}P>cMDW0I!JivEnDHv%WEjUx<b0mI*&tFsWy~S6F`I^0
zjMKNr?`I-1ws(txwi22Jb3Fwc3~`E*y+lreoLP!8pNU38`IF@WMU(R}{$gK*^Ut`y
zY4crgTWQ;yG*>Q|7fxMqESvY<+P?GRvH5KaWeX#VTb4}8nr^AAXDKd~ZCN(&Om}oA
z&D9I7i{>j`%jWKMXHU{xv#@2c{L0Q{b5FXVC220753ZP7<at2F<;(+BQGRC;<E_sF
z2h>~iFIZ1{TtOaVrokmcALw+=(CJ!obh_4{O|U_KYllrJX>%PIS6h&SQIIoBck6_H
zmm78o?qEaEEfgsbjKQK;EGiWrE*9KM>5Y1tV6otlQwKeQ7q+S1tQ;kI&`O|VF8vHJ
zN|CM%buAOhC%Vuzc~4g9Hlb3sht+CXg)%E%F$`A=4%Smm!AhYfScRUc7QE<-+90hY
z8?BB}BXjM+nyfn4$@$R7JmnPXX$8SvR>_Z^vj^+4(l?OZYsP&Hx*^#9JV83HA$d;f
z8%L*NTtp_IfTlg<C(Lyx1U?RYgy~|1ZekIq81^JI)u_7qXH5}rT*Vd0r-mnt=Q=TI
znHrL*!*v*jgmDIT0kgIQsZxn=WKZ0s`qUnrwI^WNckUoo!E3s~2B4V}7S(1rTN#_M
zPiU%Y6&A<EHKnyyH_ngp<p;b?0p;^Vl^U<V<C>xw3SxzuGH`J+VPub1Ye&3Z4V%!^
z!)gd&!h}Q5zfSqhdV1A|TnfeoS4AcWT3aKqGSBXZAUEq^AzCY$LSIWCw9GmaHl=6(
zBw>v?<LzoGS}Uxdqc_Xc+-S`P)vv!lM{g3jWRF%4SG-#dOIXz&5Ia9dNj+-*pr-am
z4;p8kP~}@;ifjL-Y1SHaFuyb5`Udw+^Q?Ov_=U#Bt=0-qbD<PPFb=atY%H`sVx}6}
z{0dqya{A07!wW(M>|t@W>Q{V+>Qnm$X|<Ua-=)STh+i*Ozx4N)YYT@@&}KjHQA>!x
zx;EiR6eXNjUGFNZ9HkO#%bo|!bn3<3YFhoR&wlL0iiVgZ@AOR3ekeGY&^pSu$3Fg_
zcm~B|$dxfXn=w2$V~vkY?%cE~W7z4l$Y_m-Y91k-=|2DX<Hw-%VmMH-6v(kHAOmP@
z?suXLUz7M71m6NyVNA%FLP8`{9D&KA&P8NAr1WIGfh?pJX&f21l(8xTGHVRB*+N{T
z^_6ie`~?fjI7u@AZ*(#)5*iX|Y%^BbS|5^1;mp(+Xg?Y*o}*}*7MUWI8Ii%#<Pd2V
zh%~4$=!F<h7UXBV<j<*YN%j|GfifkOD7Ou?B9NI{<R_anX1*peR)Yx+e8pLUyvtPd
zG&vd>5nrLtuMrd*2nrpqkjH`XGWRo6><EHO?k2`?G0rDO?O~fX&5>>A_9A?yBAbqB
zLe#s6iZuZHLK0ZXxf_$N_SNS0ZwX67%NuqrH}8hj<rig@$tvG+S=UnJX4&qfdv~&I
zce=5MM0$1U+LpyHNwr(%JZVK@_>0n--|@}aZn<g}_T6+fK<-x8xm0}J^Fi%$?P*Bj
zj;=Ym=FV>yzg>JazRYhWabE+Zbl3&D8zgr_%H1isJFnJXi?6tMueLt4+`2RA=2zXN
zuRVV0@r9;j*Pa#kUbgv{Q@2R&mSpRW75788n)tbcAG+&r)izQw>DCTpO!JWbp@ei(
zGrj9?)$vK#i@ItTp1A31ylv&m8&?}zzww26XBw4ie7o_x=H=#XOa_@HVem<A-_@S$
z<`wrNt8M*%bUf*9UiGvs4zGCnvcwG=CGW<o!E5_gyxXa8FQ0DW7i$;YOZ$=yy(pl*
zWpU?X&r%@SH;~*kn5;cCcQmUEl58y=U2*rNH}otGFFk(UklcAZ`S6Kk+Y^$z`Bqye
z3Qae+v#L=OA(c(@?KB7t>E>2?H{NPy=CF;cyzh@(Ean%L_35Vm^yck<*8QFC<mST*
zZEtm7=}y)5NVPpHwY?w2)6Lt`Ej!W;8}GWTRZakP-Su(~&ui{W?qtRO8wdZx(H|WB
z(0)Q@WeHd3$RUY*GA4&s(|W=ZRhnifEJ7<1UZmNqY$s-Fb7pBy+#wXltmkni0J5H!
zF1?gg3}+eSoXtNmL9Aw5;e+rDpYk)Iu}x|S7#hv15*`R}xP(zRi3WRM)J>w}4mE>{
z)*;d%k&wn7sPP<ko|`v_PQ;O%KkvE7n7Oz|4KAGO>r@lFng+zq=-0|GT;>EFc*uJa
z+V&FpU1}s)C!=4h8Ed7wJpt=k$d)gzkt(&X070`rOc*D46}JAKXx06yFW#p5f@Yn3
zp*;oIomq1ntgrk`bgMr74YHmMqi`KI>giP<a?uRNLt-_wLt`T1WQok436f0bJz`0m
zY=POM&H&`rSce28$OV{-ycDcNeO#@8pp9#gzVuO|*{6>ZjhQw|42s_WpMA`<wqndk
zER*+qt})x0ml>ZTzYg32%u#%gnm=gEnG27q;rjb?&xJy5d%#?v@$=b-24y}f!_9aP
z$R|iNW=j0$s1f6(e9hu-!cQjQ5#fTWC-{AeW{eG^^Ng=LL}6bi=Nx6QfJYHt6c;Gq
z4RWrK^BOsX5X5;nnG&7d@za^R$e2iDE%OGyO}^iuWW+Pj2^aDA=*uib&c`z4Pl0dq
zpL%>?;DrC_#|DP{hYvnJ!0gH8^GJU{xrx0HUnhrH2gXEz7bH<y#!TWKnQQq5#eEY_
zzI?G%Ruub5xv3)XrW^!*e}W@~#Xo>^k^6<GF6C*JJgwh)eA&}KXHHi_k$Bmau5BXf
zrZEzp`R%E)9!Owrx_Z)OHL0==sjMSewk7G_0(Z5xW2rLbdqna*lC0gsC_ga*p!MnY
z?o|68seMnX{h-u-@W$!o_9GP0l5XpycXPVEi+$hXI~YF_TjsY=KtmRPu}N}o`mW>p
z<`wszbS<B%-6qv;n>(uTBM=NNJ-gz5I4ga-<ZfR)x8mM>OQF?wtz5e=)%M8Ewnu)q
zc-hNC8&On(!q+-EZ~2_-ZU=YJaLn-DuDtNIX0EPDZjH>jq}w}`%KMbcvv<oag~Pd}
z@Gqw2X2w)CX7Lt%lDqG_HP`nO>*T3Oc{beiY*>eJp*C)pYPT0|qpXD6Ah|azzO>@r
za?4XT=VH7;4qHGZmj3RX0AINtTOj`XEGbAqeTa&j4|2}|wc=<?L9Nw<hBQ&4@~BAJ
zz+G-MleUZ4fxJiAt&`4+gy?zCgob?eh-@?VoVshMSx;M_?zF=4p3hYG0??JZ*Q4%*
zpgy4P)23<K(P~6PuawxbPH%ilACs;tm?fKHur&!$9_&K3{amo=Eb7cfc0!lzk6;W2
z(>pp&3Tqi0nq%T&*m1$WNk639IUX4aO{u1KPIYf2Z$AM<v4xelfIgVYu!DhQtp~dr
zlrlOMK?&JL^o%etWO#C5-@#{wd`^*J{8!Oj@iI9Kdz)c`be@jEVmJCV3MKTcBYWjw
zT*fdi(uB=D7UyN>`=(&3FU#MjXBu)4Yku^LgjQV)tztI?{qo*d_hRo=S+}q?Ro5%k
z_5P${)4YM{<(egLbIQ9x@^1Lh+X=mBWgnCyP}q4|Bu~rY6Tl7lE`fc8o^bKS6>lFf
znG9}|RJZ9T6@3agS=ZVjc{@Jz`UqUV0*)~IV&JByLjk8JT(W=Y?O(HTDBjK$m!^tZ
zZWguNDyvGBwMk`dsWP8bhW%#u+`)8N)xtwJ%UY9A{Fk*dRblJRqE?o)T`Fr&m32vF
zUCU)X`AGr1xQ$_^jExQ|!caeFe?a2dR{Y(09Ej@ERJ}3V5mL7!DLr2?=nKCPQc=^*
zVoA)J9P23B3oUyryaKxi6^-D8jyX$UYYyTHj#^HQody3JG?64^)|#-2uOuJ>D~Qwz
zEWdL*FeT6F=W5gzKoCnPoIRh`Qcd)1__7P)XIZ#x)kVZ#F(hnpO(2{wk&2uNpgXco
z6j9al9$gHq=T_URzG29KBkD8Yg{iND?4Qm*UcQ0d4f=)TW$W}uLtdeB%1<8$d&2(v
zrb3GNxF(t=f#hfHf7BnPs<j5G!_0)R88uHhsOFa)W{6g^+EJi(GK_V~<N+k_nE}Cr
z&{0z|+~0Ti8x>rhEPQS$qMUY`H(b6z1_wU#&`cvUe3tPkoxvfq#22Q<VR|Zu9YcK>
z3iXx9c#|3`AFcg5`C{apg9D}TR9H4MqAhL4O^4aBl$mi{hG!h^Nn9GT|H;9@fs_8H
z_njQVm;dn4>4B3^?R#7#4mo2UkHAQ~i(pQY^C~$<-~em)k^fKNK(I&#5KL~DaYS&v
zf*2ug`*{|}<a#48%ZuaOwS1t0oj1tXgiv5ICdf7u;vXY%jK)VLG3puTBBlMZm@!Yr
zkrQ`?(D-FIvKfVJ(vq}4n&cl{wm&-e@@hrR8((_;OUo7QbIx>m1&+BEm!?Z9-l%)M
zE>+@_N_<Ogsji(;*UpuaUDsb;ZGe5;wUTS4$>y!g4cj1tYU*8jL2BxscmK4kY4OOl
zHj)daHV;ah2XD3w-Yw=T_}@JSJm1v%R^&=#xv}?Jt<<<{{!qHAF<I5Mbm4l{%}tN4
zHg+YeyMWZIn^v0l-8d{YAG=v~Y_+=aE!P#-YJKm@rsK=?Ct%E1Q;S43ASqXh7aX_B
z>+kh*rMr_QyViDd8#?Aaiw0Qf+(Lt%ef`-~g-@!`D_^nedMsVr@Y`enQn?!<soJK6
z7Z%&T-TiiVs%5*>vi*9A)Uxv@HM{2b-STzKA79*e6Q+9>u68#FiUu2eeyVM&)VB57
z3sT!d*AIUG==YAMcAu2+zxCw2c?A+WZ^gam405gRJ!(K%$%<XSzPC>a`t@xS=PCPD
z>>$SUEBm~IZH6C|?k^dvG`-jAz{h(%UGV>?(lY3@{HSi<27J74posUKmccT|`yLyG
zAiBx+ejSCwvX;)Ng)&as{Lw*xxG<8<n`&e!@_&XbfpE-P{<o4P5F8+$LOd!%Y>X&D
zE2NMoAWzYlu!(<wJOzkRA#I~hkP^l(*FmU2+v>bWO(VMEgeTYou@aUMJ)f0mC(KNX
z>PQeNgUiU2RVPy*Wv1AcghSU`CM;RxtX3|K;|hw+G~%G=R_mv}LC!1+Il~y;N6uE)
zLGaCLx%wL^2@T~vYB^vgoC#-PA_h|PspF{-(*n>xl?b)uRRy2<L};BEq3Ka|2<m9l
zf#CdJDnPg<9!R+67~!%E%``B=rEUze2^WPic@LvoxTAor<B$;amB|eKdL&F1@GxP^
z7BnGah3<%q$=xT3w+{=9l!^ZuQR2TLhY5AQOTI307{xk5zJ549mrk+7e@CHzLC&9&
zL$>cSxpFXaMaNFW>lFAsa)#l=TyS*Sq+Gz^RtXSgo2kj!Wn@SFHIXKwPmDCJ6|*fv
z+f7ef(ms&fFt7~Q)Asr3Q@Xx;>0qj7ztpq;#uHM{pj3Zo-jPM4s#@QkUMq(|b*kJa
zmHSfVy;6DaN_pR{ss?DJmPY?1{7(346!d6m*K*^IWc7~EM!KN(so#(W^=jFF;~A-C
z=w|iMFFphHQmMk)AP7b61F07DTzelifXtaw{C0^alEv?oyt^JumDnz=UGlc4yxS!2
zwiWLVqEpYPbc%|X=@c{~jG*Szscl53HV$@}-rMUK+-CTZy&e7^ZL|#5S$?#6ACHgs
zODW?0I?G_2<9*&nAsv>%KHK{}6rOXR4ACUo3f%d7NOOM6@mtRIBs%$9rJ!-l@G4l@
zSDis~9C_s@Xo+hSZ`3^Jm~+B{$@+?W))c3b*i*>xJYk4ya+*TeEn&K9Q*Br-Ib{1b
z;FLm?$<8qQUte<Ssu#*Zv`WR1#FQhqSFTUCJ5fNk!LCqw1nD*Eqvy~qd}tE~dj_*y
zx1f{$sf<6f$*$CMslJH<TO-ufb=9rsj7)r{lI>c_MY!%kv$DzV1GV+RVih{_I1-jR
z?vevrlWy8z>gjds5m+8sf*$I#S-TDy7BL<j4mPFsIu6vuoB$V)uu<w44YPoKd83&y
z`ThM-ul9oe4$5QKh!$&#C_VPG^wzX<+L>=Lefj%^X~g9Na=6bs^YGJjXp+u&g>y_H
z*lh-|Mu2<>H&-d51|A|O^*%Y@O!a-+A>~p9CZG72W;H|4B2n@jK`Jd2Vt1Iy=<gZX
z!UF=%e^i1vn<bsl^?eW)V)2QFY2zhhp<@AhN&|Pvr0@FmaF~^%NZMz=YMM6tEJNcQ
z=jBd+Ow}924UQ%;a6$YkJ~CEzS6<L(W(~^N5J5+&GA;<ylrvSaj4SJ`6+5lP^A|5N
zLxqex8a?AD$r~L8oaxG;MM|gXr@pe&7Nd#mjKDuYIb2!u#@Op)zcW5}XcgAIJHDD&
zICs<IyH!<}c2}j`B*R{~u;T8x<*s^j%ff|k>|Sb?>bfO&H}vsk)of63FwG7DVmu1@
zV#cEwysGtLEC6E$h6d@HyOHSR^v8rDKPDt6z7NOel{dD8(Znyq$ynJrKmjHyxFs!?
z@jiC=&|?FqPWw-sJbwE4f#Z+MVngagSx0o3e1A^PJY_E?A);SCfQNmmNNkZVQ&jkZ
zj0q<Z*>+a^j}$*lIj!>PH3l_fLsR@@mE$Cj67!do_OIaN@&}JTDvyax>G+xQLc?LF
zj-SP({1vSJ)$QueB)@anzH{#7bl1kEiaA%hvTDw?X0|(O-VCjAcwLSEJ-zOhbG7_i
z^;hcCZqJ(=Qnme3ZT}5A23G5wbItF&RE+&2&H}j_C0FBO$xT;F+Ee@Hsl~dbC*E#c
zZs?Odeb)~D+0pMDO>I3cZ9RU|b36@Jp`t^o=vcC?RP<dtfFo`52Nn#k57IueKTG=A
zCwcp>)!o>Z^!9z|Jq%;+%G$yi3BurNTi<ufu06Zlzwbu>a@zobT-Y#w>}M?-7p$u-
z?Te#-)V*N4)!w}nczbxkx!V88^|2c-EcYK?Ff9x&?o3wqrjMP1|H!o?H>#wqk0rYv
zTiPI1AGz(~T6^y~NMZ`p8?>`Yay2bB-*mNR>25Yk?u|?5Zdj7;jUT!Pp(S#+-RnS>
zWJTYv?|BtZjL5_fo2&z^ruXXic?UL`e%xvq=&}8HlV#u`+kIP1M$T!;tVhblKLvuN
zRCy1q9B?2-C9_1(Kp+fMxU2$zB+?Q)7lip=mI*61oe67}w9+<4WI`kM37blGKw^4H
z`i1SHnJ~_*GaCv>hcgR`D*@9&mWm833n&plXq?&QLK)O&=5(XjLaaf;F1H46W6)B|
z>GvAVx`Vi7F{s_aWZ+)5;8?%5i7m8sMIRPm7Jyd?Pf+{ZFS}0>o1w`^<#2MvmIuNv
zz%FFNP5^dXV;`VdS189<4EK@0QH9LeXLg>%CIFWf;>v)}OXqa7C`!}-!h=J=kA!n@
z<!?-(gS5+_Bi*#SQZ5ei70G+3A0kJlm?@LleJJd**jEYG2jnbMv;`Ng1!GL-&a@^B
zJ<7WC-=jn~-~e79`AM*swM}B^&>qFPbllo@K};hSSMUN4GRdCE&>)HM#0)t<B_{<Z
z2D+EMYf^=JHl_A?cu@((9nQFo6<rRyx?;At`I{~tqPkQ`i&WCGxMOMX+L09;W!;jl
zYg~BY%63S}cFo&=TGb?D9KLrccCG)~Q%keU{3G*+(=BcDM^_tK79aje!^Q;zRND%!
zY3aLGcI~O_N0R-AmRlZMu%(;3m&T;#Z41_Pb*pmy-Ik@9>l>2Y`#!ARzvkc?d+$2A
zy5_ffuJqu1PygG$as8za`ajrw{pFR~<MRjZRneK&+tr-6dbP48RoNj`vctCzOPvp2
z-?3bIVBUm{jkj#h2~ecEA$`nhX=AFiRVr;=JeX?RF12mHZd)#WbnXDqH>JF5;>wzm
zO%E@Z!j^C6y;kMa?5~+I*W$kI2X>j>+hsXuwlVXE96b%O7z|rog$LNma1ol1NRe(z
zPgfq35JsKdWVuxka~W|lva$kVR(%Tsp$<2p;UW~GJVDb{O@Q<z!>kGV7Y)Z0-hSZr
zF%3Jwe#AO7{&%Q34xrOC92EZ=uJ{og9O{nal`+#5p={@$DJDf>7ImkYF5aTF7TF?1
z7EvqQC2ss>Q$J&8*}w+n*=4ZUnUWlGO-YZ_oIDAzAk__R3;x$nf4BA8*bVb{BFmcx
zAW!yGkWt;@&bgOXJiQpxq`Q&XJZzF`H(h%&S-WYucGsL|&OG<xDv~BHB^C}Yb*^}}
zB<))m*OW7IG-_<*o`+{$I#agJXld4J*ccfYj?}aj0H-`E->X^}nq;QyXNVU67LIbG
zq`Zm==c-HBtK9?bm+x-KQ?BMmKTRFC0RZT-Y7ePaL7<sIY8hFJlvU0hA&W%x$X9<O
zX>VYikugq=Wn410lkJA>?2;E~6$;;l_}iGBIhKl4<GiO3|E~4|Hg(!OF0_Hx(vis4
zG6U!^Y-eveSTbwVDI@FvZ6Xeez*yZ#6#uH}U0R2DaDc=<LHIE5(O`piCrkuStO=UO
z3|TeOD5ah?p{-h4!6?lPim$h!z~&obStps}W2GrI!u&9cUet>ANqLW2E2OdOf?-{t
ztBYcZOeUN!8e+J`Z%ot1(MfQhHPC^goT}LD07euSsPh3ndwH?D_X4WT0Y65!)XNv$
z1^5_79Jdk6Ga>6j5@y7J!<lEJxZ6&?WqB-u`|0RLq1cEJ3E&Q9cI!CwW>NK0KE<km
z@5GHC3P_(;H+I7cOu?Wu!|i(VHWimAk%0plGvr@9LU+L^N;+KOf{Tpl(w(VE4IC9w
z=-v<pu+R|z^vVcb@J$V#X60(I#&9`4QGJ3bpBI2#1#uZvG2K)H+iSgHS$(w+mxJV9
zv^P1%cb<^1B9VU+U?;nLklnVyXI)UQ0++``zw(5}Q@fB&zW0N6?Q!2u{#f9}@$gg_
z1BdGYv5}YWW}{(YcSo~3=qQ|OD)Tn$fQ{utly5tvdtDe1+~c!8lq}4_!1TbtMV2z4
zil<TZSSWf1A_p?lLsjT{AG+2DCpYOLr|e!-r>^=wDBt0RM7U2Wx9Tc};yda1WKNN|
z<L9(Eg}a7W8cY;2P01TRno(5m>0GE(aCV`CxU@yRN}J+NvY$K18(?;{^V#f0*2B}G
z&}Zf2s?R-_J0GY=vJ<0gq0xo1jjbo@4%)tBW~vjSN1K~e1-3>Qd>S2fhIX=b7l}qT
z3b@*QS_37IjS2}@V-W~?bQJ+aAddm5$lH3hnI|be?ibFOg0XnU!cYVl)n^e35yDh3
zka26jr9g^iGfiUo+&#0z{7r)P7NstxliT<~fe_A`V2a|GDcIstNSXMrD4~lSI*Y^3
zpg=zGU&yc3L;SDw`QPAVoXYtcx({cG0vvQ<kUtU);&yL&di%$tvQ4N>>6lzWfl5_7
zvW-2JHSK5ZL_G-yDhG*Ywq_4h?`O>Q9MND>cU<J|?uH@K8^f;;rz(1+ik{_)-Z|$g
z=<n>M*{{9~Gt%<vg(Fh=hNbT7wNlpssr<m4W3`-5S5*F#_g(2<dI4&ObXD_Rho!<f
z=fK{-6uR?Hsibqcq-)Na-oEqtxtrS$&u^XI@TOurwInXrZN6E$`GfeJZPo5h*=r?x
z?ZWoO9oJkpHh*Xz{Hd!f?XF0<$uM%o-I?}OzuER?{9A)p5=&42%jd2e!8av6yOQ=@
zGH2kDu`c5ZMo9dpK1BN%&vXrL?v)?90A1ZZijV5M<3iRZI(5z7jThn!vQpZzU^>-m
z>F=zR_Q-bdZUw~autDMqDR;qPl&Fy68nrH*_FaWjSKqVPm*XdgoMG22epbjxN9e%4
zfG<&aBq%ghzT*c8^Ovi1%08h9y4A8l>CF&bt2tefFT^!FpoDgR@Imf1_iIHXrZH~B
z_#ArTi%37~o-Ilg#SE7n3HR&9%Wg9_Tg<|2K?_qIdvqJ1M6p_TCC-~DCYU3*U|fcX
zBav?KO0d7mfmkx@)_3g*Pr{ohVLX^sJuW!wO1LJP_1369mD`yu&DtGt1?Ejd))=>_
zx%GFVbj$z&J+mhRr==-X3|u6N(IUxX-jgVWOi1ZZr266m%5NjiaJK9LwJ0lGheVky
zp_wg>loqZHj^=8$L0?p>l`S|EO0#D|!U9gxHPNBw(BEp`f|GQe!uT1u5z}nZtowrO
zH<Hh14^)DUb;^{0=RcKGT$e+Uxkh&XvV2P;D3b<Ky?<HZ{9;)g(&ytQwcoIj8A%x*
z!SoeE=9pgE13AbnE;QytrA7oY#8o-Z&(BoK2O8<eJ(M34qF)nHiSfF;rM6qkW-n##
zlIXtNIAV5)*OW<jcF#SSx5Q1frwaXYl){Lu%X4ZysZI$-40UdSg8!f9L9^)8KamHO
zA>=lhnw`xK=JB97`znY~rYUD~m2)M0r_A@|@T5<|^e*prRRYR<xv%f#-A060!K>UN
z&+c_#cUXdFIX@m0a0TxaZmwju-}2<6$wS6k_W?a|NS$8Fq*o3|6Z1)eRO0k8<Ji@q
z0bD<Rfo@js&1pSdKAGD;|96;hV&=2(M?oGun@^KB9oZodWU;fr%jTYjOc|YxK8t%{
zR36hGV84#0TqH@H?hs?5A^Fnz=V@SKop~i5Iwp>YYY6p~!<G)*rOfM#B$^QKkaL%u
zU&6^$5xbnrj#4o(ncH>hjI_)zze;(U=+}#SvygP}WIzP^z%6Ac3G?%R5O~ItzeDLA
z0=9N^{6JuOP?=A!&=8Ztn)_-0g8OsSUq+)~#;*Iy^ZE1tPEae=xthBa6uw>Ntf?s(
zuk6>Gl5xwsL;21gR@;n~YCaVce??XQV}fspWjy*o$eohc>1QZ0QNI}JC}`#8KeCdr
zW?e3RW<&OzS)begDj0~^UxM!ge-8^6cjf$<H+xoG9ji4BZ#7(LSQM9Qy5^3o(#?{a
zrKZi-HZM1APrB<@>zYz^JEXcD;Iiv>U3&ahP2F2nSE?Y8YifRL_R6fB<Xe`-Gv5xs
z9maw4<+^QikAGx8^fx7Kizlx=yHc_bJin`Aq3))uE$wMfdiq!EJ5%+$r21Xy@~)*L
zcTC2H($^h0OR;&^_3bPD`&U{Xllu3+Q@&KPwC{(3KkQHT@1OTbEsv$^Ad|<*h<W>J
zbK9aH$H=c6q~?d`i+|ex=yLm$-)UOfcVpiNb;}1&|6$--Q_|a#Y=06(r5oDQt^Mha
zhtq9a(oH^`!)_>@cR*)Q*`#l823I{b3oUPkRy^ISIH}?7lDu8%in{s7aGv}nsb$xV
z&3|t)mXyNywWLhBc&&1&?nCdkUugN#)%Ek|=goR{?2<xDyQIb)*TrA5%(x+|aUpP}
z>UAqRF;(M}YG9Ci&9z*!d)~TQ-Il7}Ayx0VZoT1Lu0A?<`2IZ)4%Ywb&LdpwVZ*OJ
zv2q)pGQ^1Yde7uMRAhax*i3GZ^H7=jy&Yz_FccrhU>iQBZN`v%Gni>;Xb?hMVkKc$
zz}~o!wlV*PD7LR98M=J)6WwkgU$wxt$8MVE<0G<UO{C>1Z;5GRB@U4D=j7PQ`7${_
zBu5h(XH57($Bgxqd{+cjPS!L1XYw)pa*=%hNDi$D(Stdgf6)}f4CD|lih0l=+)C!;
z`nEzN!uO?X>v59*cG(jK%M%8SSwr(;*_FdfW~shs%^?RC(`{uQ+3%(6%1UH^Df|m<
zuOGRiWFE!O$ki>Jzr*1L*w)fDW4EPzar+vF*R`Qf=tY;7$>E<28=5R_Yx@nj#q73m
z3$8VLa_RKjU;KoFSGn2@zBT-`B(6QPa?S1Orq*;Ff7`L$QhBSSa-sb7`ZWvuh{Kop
zb@!T$zUa!+PbiH71HRjn2A}1S0k`=beEab`&|@4jtPLBoAl6#SG>GtLL8LE&c*jA$
zhgjV$maX%rXvdFhKP_9A+OM^})5E;iw|qh&N)yRfY_>Gg<!q(s@A`&xP2+7>w`F(Q
zUA<<)8;~n;JuCT~Tv^o`#UZuRGxr+{@kMOdlb&wL(ep_W!nJ<eO;uL`qDN{PZWm!V
zY5+7@M`tV7O!TS1W?nY|XNj<qoz<VvP}VSjw~gdwf&fN9e2-)t?1UKvZZW3gWWSb`
zp^K&H9uWNaCc6SpzKfXMMk>Tah@?6BrZi99t;`|`6hx9F$iJV-?wDt@J!7RGwZx$Y
z2c=*$+eOKW@WY+>jR^cwXBd-SzL1!SrAioQn@t8$3A&d}{_Rhh(BkKMm32W9e);S&
zN$%P0E%F^LwAs%%7)hn0$>P7D@5=i~EPh1~J;2r!+0kWOEQNfvi%81uOf?H(>3SnV
zoPJc(FXyU4v`FZNT?oT&cfsYYbZ<4T+7F5(1Yq{H85;;W{rrurgJah+%hF%*=Tw4)
z343Mpnyr+H+2c-;uZx@>avmb*5IGmfVT;{IK2j0M^w7Rr{*lN%B7R<&!+$PD?wZM9
zFx;_nhLWFgML*+QA93wJ=Q=;)d>?U5A8~a*=ei}X8~(rL+#hlL&p78tT-QCL&0xI8
z!TDt=XQ=r(H}DbHde3Mv81Ha!ZWrU);g8Jiw^}<=t&d5qk0m+&R!PfzjiPAY^6fou
z@45cuO38tXFsCsX`WH-V9A1lC*lTGUaEGBE*A_b~=D)D)XuN1$v)T;S#nv?xX<cf)
zL$7<~7DMH26jyoITVtr5f95WS*S&`h8Y!6EwIMTSblo#r4af)wbKU4#qtAP#6E;K5
MC(yDQ<Z1uE0CYMpumAu6

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/shm_object_storage.cpython-312.pyc b/distributed/device_communicators/__pycache__/shm_object_storage.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc5e1bdf3903b4ad9ac447a24c9179956d5cf5ea
GIT binary patch
literal 29775
zcmd6QdvF^^dgtH`5a2`L3w#eLQY0i2)XTC&y-bmkEK8PbQTDEB%M^qeijY8n8Gw?=
zP+DitTSw)*XDYd@=-b^ho!iP%v6JOqrLx-G<yLlb*}cmBfidL+jFW4X%cd%uzi3k_
z<+kps?)P=i3;=2*+j~`48Owv7p6;H0eEs$J=3keVmI%0F_J0*!l?CB%=|R67T4J@v
zA_zAGNsuftVVHicG0V7h*g9?-wpr-e7PF5#h8^S1VJCaG$6Vv?VK+-VVxIAm;S!d1
z#=PUcVINDoVx{9{!(}Y(j+KvB46kEpPs~4FIb6xoC9$gU>fvgZw!~_NYw#^^tadyw
z9IyyhK@P}u@1k#X4cA+R!-C{{U64xOwQ6|{EUyfC<+Al%o0i+iax0L#PHr@Eo8%If
z??-;6-om@QiZI;F-c{jUwf=6nWy%t)`6ZP&9<=6c{RakeW#O~QloF1l#^uylLPEBC
zARLQ@&&K4O`$$SwC>6Bi$|8w)O1_*L568pjWCb}MDVz#NV&P;G501!KI2uQyG&vSl
zWNBnv9#1G!$gm$vL@wah)*q)w$3!?48AHMwjYm@>vBWvF7STG*e%#u_>R%yoLy(1G
zizEzNCCjkQBX|U<MzYCv$u2u2>$FP{B!}!AbxO|H9m6ik^|~<ZmTD!>>-J%fRD!1x
z$&1o%**j{-RNIGrQmO34vmMW6crL|6)B7^njy!7}zKJ&#cvCJ{V7ief`Cqpi)4C2l
z2uPK(ALT30S@CUFN2)?AygzOkY1WQYsz$G>r>w!cT-{JKel8||MTufghsMTF;_<-b
z=qM)m$EAW$BI4>7ldMqBC043i9G{G(q7yN>N0GyltcVI;i)UFaF*=SH<8nL|PDK-O
zagwTveDYaid;vn@sj+BMWXmK@D2a<vNluDkF*Qa__9Vlja#5?7#$-hn6LFaeN91IZ
zwG|1+Mb;;g)?B<a7LCb9=k$_tvX{4t&!IfEFODjSaWR?-mGJQ?kueNElA2WHK9<uX
zzK}$Jc(+B~WpOm2h!G``O!jDf5F?54@yU2J!iK6<d=~JQ!v9HBONCj#sG=N>jEMl?
z1PaTNK3S2m$@m2^8ppV0J`zRmw$|Lx<itcmNulqP$rL)>7EO+fDzZE>8gCOvC*u*C
z<)oNOh?0yI9FJm(Fj;Z!3w+FHW!9RA!A~Y-No)EbbxB(_-VxeM)b&2`%*)$*&Q7Id
zF)E$blga3`eEMZ<$;ohRga&r{44=QF@{~A`h)3j!R8pV6@kBh4N?>kAqS8n*6;@Kc
za$M>YPhn4AV8d0y@pD+xQ4uXhFUopPjtug(?O|&=!ux05!o=8A5|ba(7l^lr*~B2V
zG4@Yl(y%-c%x-uhtRyDm5}zNy0aiT^x9FW#=U8}pN<0@<&H|xeiDNN927&U~Fy;<0
zDCU<yjEu>V3rRi=2QP;S_5nInaVR3k!%8%P8DZ_}&*GLoafoda@fa2>tcd*_D)0$b
z@XVPr?3eFCY`tl@Pu#M3vq<Z~=jI4dR21XJyr%H-<<OVC#MA5(w7CneSJ^u4#Y}W<
z4r*It6hNiJEzQ<etsi1nRNA{a$d~)&sMNQ4hV^vo<{1JFy+fzJNZ)v8_}B5}f*xtf
zSE)-|cRs35+Y0-%<qPx)-QB{wyREppyxY|2&+XI0y<C&SI=y2@&{$NKFu-7IpZF|0
zi^P*M&>#WnS^$uNIAq`|S*DrqI-5x8`xU4u6^+FRa{$)=*^QWuw4Z?vK?XLAI389m
zVE52q0LTmr%Zi3AUOsg4;K4y1WD0-9(*#;yY^~Nzf6=1`TL7V=?EHhVSOr~Y^9`bb
zbz0IO{gGWQ>~?WF4^H{-eTh`Tu6#5!ZR-=il1FfPj3RasPLIYX34++Emj}Q+WKwU2
z2uB;G!ff%hgHOo=C_!Alg?}z{!WT_DT*d8$=wNG5>;cY>O^MsKa||kmFNULxkQBoy
z5tyZ0OePABhdfH#%5lVYGaQj$;?pMJ`|B(@1HmoZi$PQa+($3`_CE2TqJY47Ivkf`
zw0=F}iOCe5t3wmv2tNn)BgJfu3(iH2JfX9$aGAILbDa^k?5C6|8Z`(Yow}kk3Pe8P
z8623r^NC1gav}=)pAM;!xO_?6OG__qV&^O7j2(T*!~!65>rQ0t*dgxIs1jDK3x_b@
zGd=snli?^)h#ZBp73dS&jwcA95|ih~#3W6=PT4UkkW(^ktkbk0y!VXW6^B6YrlxpT
zdq5r#Nv_d@ec}m%-U8BBBWFRKCMIK`W{4;kyY$f$#iaF8d{(2=4Ro8&(MVV`;<zgu
zAqu;&p_81>Pfo=nV+yFcX-?da5zG-aJ5@vzp(|%W<*@<w051`1A@Z_GGs3Ei5wz6r
zJdH(UI%<u|vc%eAjcEtwvG7y^AU=Wj8j&<WbTpqngK{mTKn)s}(Yb6jizr#_W)QQ4
z24B^wc206qmg)5>ttl^~uOwKH0-_gykOV)G<g5vJ0{I*!VhV7@hsG)Mi?R|Oog#X8
zs#D>cmCrtdX)pzmgaY)N;;qORLD+ND%%Q0OZHd4EjJyxAaU9Q8upaVqY{WTxJUlMv
zoDp;Y+>Tx2XX(d@|B0zzeGUx&4PnMIBaBc!yJl>7(u4!xYw4XP7QmAgPntMDduOye
zBb+zVdRu~kT%D87XA09uqa|HX0zn9#s8{S_PvEHwo{TowJCFWu#-{W}sU;?iq1;rh
z{_cE0Pvw6lJNlD<G*UCx_Z+%F1Fd=W7xAy88uYZ}B)(o3Vmu*OKIdC#)BUbCkA-cb
z2Q_+|`QP)6`Lv!g@9TwE1R-gCM)<k~G643U-Y4{^S+9G(RZr!ACC?+i-Igz-r_8^t
z&yhu#64nb_grwz?)gruvxv&Ut?7wV#Nw{PQmK^^j0YXfN6RV&Q0G$fjluG>O?1YpR
zKa$fyE?VF`KK4KeJ18-!MC1_?23?R9WSom8flwkSUUaqKX_dZn1AVz^Iet@s(8wNE
z&Lwls3zz6ONnaJkUybyp#wU6wq7yx!dCtkHp39R@?%H|bNx3%`J=;4m1%Xq%_hKwI
z-Yel#O7!d`SoU5?z8FP6@;rY+N%khk#zzuo&tr!I7bFxgexZq}oO=%l`m<7a-}LrJ
zidRA-BTUjX652yTfmm`M61>(o(aj`{<TYW@zKUNVXyMbdeTYf1bcUDjWT`hXA;*D+
zFGay1&>rs-JCdMk80Xj_1^vo8w2||GZ{-r4oae~k$ngU&ojN#_b0Ya{|5tO~p(Dcw
z^-R~ZgCq2ut0+WiBRDa0{-PXqZ06P#p&BA2bLE9uRL`v=R)w}^&c{c>F}eatlc3Nh
z$T_*>E$5Krvy<o8sDpMuh#VVbqhL7<Y}gDDZdPcg<lOpvPPcvjoR6bM(u2MDny}&%
zTDQ#F@3@<?buF{@H_GnS)zeS5rU5_RY(pcx4BV@2xN-IR)kS-zYp05TwL9_Fmla!i
z)wcEY+mdZ<qu=Iii%7qXf8$+uuRAn5_{Ot$TSJ-F-D>OZY;D6rd#3G4we87U(tVq?
zt!#GiBVY6V3c+8St=Ro>MfX2CZ2q$QZehc=Oviq;WB=__cRHS#v)`#`Ltg`pncARQ
z8_d*()Y{NeduHolb?e~|YY(R@4y(0?A5>G_fZ!>A(|666^&QCiDl)!i)z_Tytyg{P
z*<-8fYyC%;-Ba?Q4y9KF+<uj$CHSDR-!j-}`^!ehV23MWpnSZcox=`@LrCC&Fh`og
zc`CQ&GCKrDtwVxB=olz~V3WZFTiTlzr5hPZ`na~TPEI;ZYjhE(CyGRsAztFURIwem
z*MxgCY#Qg9@vk^+6(tz4r$iylm~$#Jq<(Spv3?6B9yQja>lqw{y7=|$I229CZX9T6
zO1tzrki{1tp7dnbOR;xGZT4gwhf}toeY$2KM#3W!92SUQL(?6MTr7|$lF&0^l;!k5
zh#}zPL6<^UQ|ZDDqH-#v(EKSKblX6;PP+BtR<I(<Hat(aJbIh4mi|3e8pI8&QC|7x
z)!)9Fb{|T&99niCn!TEJ``#?QR+@1)sO|>Zdym^lAGsUZY89;#%@l*k1te|=DFa$(
zXk9coR1W+)>w-GQT%&RAQW_r7mO*^zB?TeB##1<qrf?D+XCNMQ<XmInWH^;lI2y#H
zCz3K-g`9IT4hHVR+S$&zMn)t#HZn5Z`sf+gioAy|B>QoDO}Ojz&uyP?x#JBMY=L&w
z*M7&hA<NezTTzv%Xj3cNG8I9!BKT3orWKn|(Y)did>i@pa51_Shi&1$Ca7dHzYhr_
z7S9`Vj|}ZHpDW2CS>LniM8l8(IBtaG7*udd1ej`HBW8~AZXp~8(NroXpSo$uIg`<I
zIORwaluC@S_lk(G1+5HYD7%o>PI&D^KyzEE+~ZCJz07~0+Jq7aT5B@pEoynog8lnt
z@02aMZ&#(uTb9cY0e<<kc&Jq-0ym$St!M`zi95f}({!!5W-KO?(W*}d8y>hJl9hwA
zHKrz{>_$7Mls&kUstn!Fm5^MAPl!GjPvLd(Tu_5sQTlOnp_lnns!e3`Yr-$e{cm2q
zc6C0w7`W9wdv&>df7-pDO#(Zv&4>S=G2AbVHvthB2Jt<@r#5}x0G~brqfX<Tx<c>l
z=--;leBVxEFJH0FSZ6Gp$uQg7)B|PXmueL|Lb5-)#cAx4E7rKryv?Hi7_3ZwIMbk!
zuGon2dSq|CDX(5$a_DRY=8aAfW4D@r-Mm#cPs9!pC9vi~ZrPeFJnCP?+lq(Zo+pBS
z%{61kf5Q2yHQ9KinQS1s!tCpoU+YVc{0{4bF-Q5n7=18@EfXfqd|r@i!fMj|(zeB0
zllHGT%-g!+oDnWt%xVChF;@|5(Q2Elk^!ZU=o8?@V6A5yGf*4@FFU9IphTB@^y`Av
zu&$#!qp=5PASydUY{nT)v<k5yQ65ElQ!bC7#x(IwjEQf!w1%=DFR`KKPrs~*JBX>s
z%W9~yIlZF`!?X@3IlVL8FoedSAWo*lv$A-O$w7#O0)E~6OFG1+k9`3VUbmQ1rl3oX
zF>$LdyXp!Ore^w$$q6q03zl;7YCT%!gcPH7iLT0d3nYiiek#yTH^v*;Fj{uBF~Uq~
z#S2hsL>6-%sX`O#fUOz<e=MhR>mHJC=3FQQ-RtF?KQajsQaq)rQi&NW)AOL5#dDGX
zfMydHKRbQ;3{tJ>4UZ-~3d{W&T1hTr9vN3vQMH!lE3cdj|Mumydq=u%$Fh6J>}61a
zbM_m)>ps;DF6&-HOQxY$ZRpjx8nxkY+8xMx8|Ed|+qQ5j)6u7P^nK{<yGMjeyIRps
z?ATrv|0?$0wx|{TjH2mKD>^=PSj7#huW`jKi0zq{ZEDN5G@eR?rk=%=+PG~=%Ir9%
z;$P#jw7V|rZJbYKTDGe#+duSfzw2*Wv0B#kt=epr#2uBEQ7fAnL$~4-Dr+<T4XS^`
zVpS%%PsKm~zFAlH;E|u6e*d(=Uai`!hb$$t_Kdq;b=POy&8oY3{?cOY()J(i`yp!e
zr`-q8o6>b}K6~xi`SxXB3rH^y=;5N`RX=FH*{rrad8_mG;7^aee@yLrF719E_4XaG
zWcEI<?tOmNPGt0)l&RUI)@)joesJOD1+`|E>h8PO)S7A9qBd<wyX&)cO_{ooS{Irv
z!<1*-jUT!j7woFL9h7ypwIkEILv7u0Yn|HKcT4)og&$u~#UnJ@rfhlZ!oGAln%JVz
zgJDSm#3hT)eWH~K#8<zEr9TS657C6cX2@E5X=kxHuVjK1ahl;gGdlwbSJ%@SDV#T<
zzh`U`;aS>EYp#0Z)Ve|^k!fA?n#iS*uDJ@@BMfeGs+i*L$BYUic4(t>ri{~Y#;Koy
zPY73BGcKHAj#2BV^;^~(7G~82!Jp3cm<i*i1TKvGBikhl=e%77ocGfhmBP@}Af-gy
zawX$TJ$*4MUkbW8_BlZ>kJ8IhU7EwNO3oUUIBH_XS3Hj=sd|zq9KtPhar{z}*D*}D
zKL)!Pnuvcu6UqOG+usZS1QOj}H$RwZ+@j*2f6J^3+Y%ri*r*0JW&$BK5L&!+tM>Nx
zpYC~okGktbI`G_VX%>6!^tIFTd(**Pi`##&@8-UAL*H`g?pZ5wLsza{nLo|5Zw>zB
z*pH8;n~p4(KQn7b%hh$6stsz@hD_B)wQA$ylS`+5^vVxkQ8)G9KKwK3{p0DXp;^x_
zd^K}ZcYLi2FWvJu%%5FopC3;9J3sVwK5z)7ZCn)bzZrk=^#hv+Dl8vt^$gf;AMExZ
z{TFt}K&k65JT9bjC3)kLoHNeYfC$KG<04E=&#V6v+vSTA*(n1o&l@5IqeUi$FavFX
zvk7UcGjA5!U?v*^ThjU(k-a9H?}}Bjvu$Tm4>f%GKIy58!kk6v1h88#U<^pNnwK;0
z3t77{!m3<vFaJAZ5Y0~rub}NK&MPh}M_gvTbLyK*`QtCsgT0TKC5dfuv}8g!6Osf`
zW~{pT*vxxzQBV#ug3*llHl1Pf)@kPO#-tTuP4LEKb*bMPNot_gc$s9sjKg5W$U)ku
zi*<EL4*C{j>+JCoXfSN_pFZ0bA>Q?Ho_U{<YYIUMAxj27ignKNM(gM71}93JLN;>E
z_Jek8vHf5&U#Mk_HxGTJvr+avW~EH(OoJr{xnD4oU<^!HDf2ICwT*Vo$9Tm(<DRjx
z-ud#HGcclVeMN?Z6fGFLib|NmvR*4+5*jz7E&c7#!@8r-G~JOa{C_}I7`(_KvL7<|
z5EwZSyKxTYgK?(r(9B9<Zxj~eiJrs+Y2b^vk#3_YXm!L(vKWVknJD)QvOEF8o+K_>
zv-%OIS&7o&b!3zq1L+Ew<OC^m@ik@_$~psb8uA)RGbqrSDv;3TJ3w9M)|ADKULwmb
z@F&DfT}p^a`5c+kCPU&8;;t~Z2n-SFTbja{I>ybx#-r!PQW!X6Z^F<W!}RCeWMUHL
zV$2)?y*b0rlrwoNn1bQ;LrIqB%cxym8peL{RJWLzARD!CEC@4B;_`@@(gw&m5}gA=
zS4YL;Fj>eCmKvjr7$lghqWXCFa&&xhyr`LidCIem)2(JAZN_Qw&n83D&l6yf&Rplc
z*zDme1uepExj;Y9b@$Me!TzTx9}7si$C-#+IRrrGtxL$%*j#2vMPvB2Ti02`jc8uk
zL^mdKZ>JPv61yn%BHf7n%gf?(4rb-55Eck}I9c`;D)Cj^a+O6RIm-+Pb6%P%Nt2i|
z67CdLpf9Y^<}uTPBsI;}if)=Hm6~9z;A50)dYNCLesT~;D%ikwL1zOGq+1RwyARA>
zz3VO`-4s}?(%no=Q>2%=?{Roapyz5?pJ{$VZGIx{Zn)=NH@hzjDy({=TD@`hP`0La
z)|)N!XUaO%vW~^7A2i);`mk)rt=&JXS>AmjTT_2y{QCI9V5WVyihnhGW)ElARo`g2
z-m*}8XI)V3Ij|VL75KQaX<p)=Sem+1*?%w4_;%@Ar3+GK!(Mg6-gICeax#HlHPE}%
zss^@Y@!tEE7kp)J``qB2s!bpaNf*bpa6jt#VUJq7pH&Hc7zkw>#kZe*>)FNj%*K8d
z{~8Zuo7*zY+tudnpV}-<Puy!1IraLf%eHOnr-H3+>wgb~Fzh3iXDsQ!k$L-_KxnDz
z&X$AOs+NVFi~aBHR;xnSj}kRn|DaRwZ%nTXu82al_@EUJkl2@37EXuCr{m7<6Zb=!
zE>N5ATE?OlPr28LDfbIdnR#1PZ)*Xg%?h`D=xd{S*{$NAZ}&&OHkK`Z=o4v{cd7X2
z+x3x8WGv@)wP`z8&U@abbSvYgD+B4e?sVv><;woFum2a7fx8ve>6##j?cFzbFIPPI
zpQ>;DM*6_1<y|j;X|4jpZ7nT(aKggJsOcr!2b@PbZ2z^xaU|q|F6GcotFi@9cARrE
zHKhC{z4ypSu4H6nJRwcSDD4{=`3=~rYi~%6l8B6qC<h4eZBXpz>}L~+n9_r1Wi#DK
zuchpy*A7N`bHU6Y%ScVawp%$)C5Q&+dy}YX<$1ah&8WOeH#!};guIbbMBuR-i4T+i
zfZOZBr`A&zhkFGWrcun+Hh$^}IZE!;H?27EizP1i&kbHXzv7}Nx3I2ymEM1L#$tDr
ztomGz*3bNQNB4@)>Nsp!uwlONyXaVDzbkI5<0;ER2jxCxSsb9;rz|V(kYnpY<%)ox
z#p=c6(!k>7n=PyKxN^oKIIC8yrH-zJ^`8m&S+(gI*uBkdpSq4%9A)>a8s{Smed(sq
zl0DtDU9Eaz#X<S#?YgQt>3YcuD~9ft_~+JNYr5~Dw|p9C1|s<1xO56;m1Z;VNh8}N
z3wf)^4*0M*Wfy!{xW9^BvK4r`xKYk7dr*#iWgG=>N~WAaSI&Ea*<%dJiX`V87sIhh
znE^|Y%mOq8XQN19TBxe|x+Q3tZbD_)*VFk1(IB_)ptFquMF_g6N{9)M=#DP3#O(ic
z-OG8jSfqRLK*7gbo31YCTgb>hjNYsgVfLDEAFJP%cDHhIi=E`1U!vdbgOCR5J!hRQ
zR3Y(kgp?S*q<3~=ZD+mk!_k|Vt}X0t!HZ+)u#!Mk*3IKVuX2VS!gM=JH#^;k7+22G
zjdq+eO1C)O*oILkwPvqGDUWW4@PXt>BwiP?j>;9Q)zLPeB$#enm|PrMTE8@TE0XT%
zS33`UMwuGOA_V{>Xr_Wt^W$eRnJ@7v<#U*%j}*bAPT8*>!<#%zN*4HP*$CF)-35;>
zf=b4(00+o!Ji84TwZk{d1Fx?V@&f~8I`QnCas}Nv-?Pbcpua8*5lEUVvHu<WDrp2`
z!noy%1tJ{_oB`n&c*QzyzhWaNy%|G21|G`b<B@Mo8GMhKnntq2mJP=-U8t##lv;#R
zY|UGJZ*m(z0!ns4h3(`NQP7gBVs@p^CZureC^M`&l9I=vjV#l~IVeXGFy1tt560Q^
zAyoA+Vw}A2g5F#W*;s{`#TRgPI2MY=Cni%#<sv?rt70!NZqc^M$Rr#dlFB8#QZCbb
zm&{wuIbe4c8Ou3O!Qe81kEYl!ROY-BCFA2px^e^$+!kyEMycZ?kytWl=R_2JG~ax&
zaS=NrrmG8=(J<c{B2Xp0&TGQox%dCvefV!`JC<uZ$vWuc=I-}i_`xeTU%CClo#vw?
zQEm9RzAGKv`?Kmh^(RoGJiGqMS^GzBkpm@Rj)zedoh&x|4^&Q&DM77RVC-Ni;AUyp
zt+~v(yiuzT56Y=j!HVl5Ml+6;iCPUf%YWv)nQX;S*g;im85G{MN37?-yPk$P^NKyS
zPOm*<*S~n(`bN1OBg5ND<E>SHd&Lnyn5x$E&8#J7EGdH%HdDU6XPAUsv3&6n7xXkg
zA_ur($BcE<cE$NQeR6)`KDi(;cg(m7zUR`%K58Gr%vtdN75gPJB*89n!+JZFfNNT?
zlmv$G*h_`sey3c)6e(Bf_FK5+?5Qc(NS~qS8G3f|Et9jw<TwbR$?=?XA{w~>k6MQ`
zIX;ohRXly<@Y4r}PK`Ww^2DhV11FB@f?tBnoD0=PU?G(AP`ixa%2|?}@hInq3pO_Q
zdCXNBrwIAn^2~?j!0bGjt|{7BM#a;#vp&L?UlX$anpxLfZ}pt~9r^9pTd~E#O!uJL
zJ(zAfc*lF_ZlH1gg>QQ^fo?U>J$ocu6}WNi`msz^r&`sy=vb}_%^v)?vwOLw=bg!g
z)_;?n-|~AG7ba&9r)zrdRtM&5fA^JZhkj92Pjwcm|D-0f<!N=x(|4+l%pP3RFqN+U
z-Qn3o_Zr$4Mi<Ye>vznS-)(NE9%X$E-y7w;1C07wO2D^(Hmaze8%;NF`IBwwC!bl~
zb~IgnH0?h6zdoxKYC}od*Y7v^2X@<)7mzGE<_WvAJ->tP`TTx2Q!vaJu=xt=U=P_K
zW3|lKyucMukpNax24*mm*qTYTE`U2!4xNKkRI)(bU>_7ti)h<TP>TQDnu5YJ<2-Me
zA)wFNHRI8t7g8}QP5a*UMw^`^hhG$j7zz)lz@0;MR+&ne{y+ELM8ao^0Uzpp0WL63
zV12#>fz5aA=d80KvF0;UAX9^y?Awr>e%GeYJIGi&Kd-0jUVtM4b0UVIi*HkrHn7+^
zUD`=v5`B9HeabcTDCdYJAk!*9CTA$u8J>WZv7~&BJ!q#Zp&8{hx)F7kD|wNqZB7lB
z@MD!gTlps4NI;>yLB-0AEiN%5s+<ko0%<^o!%SuE1g1Hc8Ut>lLz)q?Ng_o^Ai*yt
zmQaX>oDLLWj{+(+LHJ`gZj7wn(Ea^a-g#vyxZJTvb+^rW=61|KnXO;H@Z!SZg{RZ?
zJ+tNayj9<EyzP6-mkIQ!fu0Y&Jz0O%>_9e9H+$rN)VIz#vrXNLFWsuU{i3?-Xu9dx
zTuHW~@<z$^lKH+n6&tb@b@MN(73;5iR$M{@5u&6h?oj<58GpCx?_L~QhNfy@rBSG;
zoGn>t5Xx%j+cWiB)%vZO`rT^%?hi|M|G$3kM(_3BjK53ucP&;f`+M*;AOD&cU;9qS
z+o88YAC`9A^#^WrU+<p(+OoeFMck~&eTPully2F1tL~Qf_TF^U^UMB|Y2QhW!1t{s
z@EOlcJDC&sZ1wFivX*DG{^QB~6xE~KNm`-9NW3n5W_3Guu2fYxj#-G(r(clzFD#w9
z)$zlZ)t;wrufIL{Gtm6ctDPrT+3S_|21n(>@QQ$+rGfkO!^tRWxrnwWOiI`4i@4=!
z`xgY6A~slvcw;FmOF59%q9+j5&+=Tdo2Y&~+u1Yde2VdaXD2;RIly<;z$97Ym$)au
z)66?6R}Mj^;UfT+GUtiIYJ<F+k~u#K5ShAERz|oHbIyz1A;HgpB3K;Hd3jL;q(HQa
zlC{e~lbtIc841TB^kqI-NeDO?&n4lN@(sEXuak3AxQkOn53J$2$Y@%j+c#-3NDT4~
z;a+uM*&fK2`~Su9Y@i8@|F-$Dx5}68oe-qWT~ODxE!*3&>!5<Y-g3vT5wFxl(X8uu
zesv=n&d)l<%fP%rbxj-<i<beuN+QmR&9USn-kxT6v_x_vPDP2-hKL#9r4TX0Czr}T
zo&S=2sE=o<48P@anS^?yJ{}_j5i%U?*-lY1hAWKscBvB2>(FKue*IFlTq$|vD)4JH
zc&^r-YryM4y-r`kn_9f7Wp4s<0Hq7xI;A?it&{5Uy$1TG96;2MM&#8?P2e3H<VLAk
zZbDzErIrF|MKkN8Nd3n5ol-06v>+zO`ds50g?JHEg?|FVp@gttKSbx`DEP>*92&CM
z98<*P6#Qn!VG<RM!9Ntb1gJ+Kz7Mm;ij*XUa_x}#oF1Ozf;`p3<S9@$Fkct$aS}FS
zEO3hf)*g??LW&Ef4JnSBq2qt<MW~%lnjV711<~8rx;%;?42esm)H!tI&<U~YP*h2#
zdXB_<cmn>eL6N+3SeS;1L@XMaVx8boLr74ch~Z$ssF`R84Z%Cq=r&B4rZf!<i=4qn
zAu5xItAWpQMZ~k*S0CCJ<_#Sk$6;y&gy4G=ZxA*GG&XtdO_J9&IpY?7lKhZa$CyN(
z$DzR24UfRFFydg0!YwE{hUSYL0mmN`tAvA#<}a$p4`IPhz)p8z)w)HtY(c#<tPeeT
zXHc#GhEFJ~3&*G~&D^J0L$bD+13Eyh0o#+9fCD@z42ys=IvR~c2_TALEe|PLw@wwr
zfPrU|!tol1HLa&>9Z@ev!&oXK5(fn&IRqz1^1sxbY8m7l)PMv|wGRUXgCNZNC_xur
z91Rq(>Z6mfnAX3O#xf6R%Z%m<0E<?+5T4=*V}Sv8tPyd|;%Y4qLdHzdWMq*>z|IfM
zAw0Y<<76dp!di0RB^_S^X7l9F1%XGmcpgTLTGI-}<<THfk7+W%qQ~I$k;EZQyvL@s
zPdqS%$T6c~cnVV}33xPfSrv<RBkN11wOqV!fjgdKzH&NPbpyAg80<iMiI_|v7il^v
zYz_}zLu98O-DQA9(gAKEUt`??+AQo2^J)WVlDqGkb=RgXALL~KE-dlMi9Yf0!{J-T
z7y%32BNS**hmuJo)=8SABUl@sX3R)|I9QIh=?nag`8u!hG&W`%&VktXr(f17YR%DD
zpEfArI5sGXp2NXip8;)1n$vUv_;+D1cXLOcAj4l8^5?OQFwbzp29AS|gx17K?m=DH
z1hzD<%Pa9POKg5=^Yn0hW{gIg6djjo&1!Q}6cZw;d3Q@#^+*gMpDxOnT6Bm|FLycA
z(GqLrxI*$y<!#(R;9&kW5=eQ6vVR}92yw^yMf4l}zv^d{1Q{2O=<gU`nD<U5+l{<I
zG$foxge>G!8|-2p%?3{lzS4vvGn0X#4MXnA{Gg3qq77nD)?7*x^F;<N!!Pz^e2YEh
zrEf4F%=;Nn!3gj*Z(hCxix`ZZE|~bQDH*hf@8hMmTrg7L(Sb;N!HzzLn)D<4vD*GM
zlqw?B6zb?{BZoDbL)-GiK60gq@pYn13<9@LJU%&o78@71;-NzZcGnzR@Pm$ZRy+9f
z%71FE075j&gCZ|jdaYZgQy-}f%F<5W;<m6Cb>bRvm~>5t0`Fd9mm=x_S~0E7$H0hj
z;C#&-f}K39P98nc_q74@(dB!=BS#dQS>*ZVJ~Evs_zcC)AxjF@KF?3)+fqm<dVIQ#
zh<n4X9k`Ohsd3D!R{?Wx>^Zj0;7<jf16;`W(FAuuD;bT2u@xz5M$Uty1`f)Sd^zWa
zkvLCz`CcBOa?0<a9#pIaeGNJ}&!7JgYunh=Oyoris+kpVv3kcEvVo)6Ax>c$V)j1=
zgeOTn0i%MAg4oNfv9on>w}q>2!v=Z`d|cD|yW_}!(=N|ocF#ezE|{s?rq*qvviIuA
ztrxt0`J4NGd*8iXyWyOBT=UVr*SlqQ@D4W<?;^Q;9a#B_hIDz`-5N37dT_bsP`cvK
zy+#Q4@s2Z_ThOH<m5za|5Lgjx4-f-Nti6=0$hWS|6$CT$%y+e7k21LY+&Tur$$#&2
z>zE+3$JZ%PL76B7;E{>hpbNIiRxmlX={h>Ax&JEPY6gay4ssCCGx(tgcqX$d1y(*R
z_!-eMq2mxxx1d!H#7uop)1|yew?CrWM!GQrn_i@n)C+FY!kt*xnzIxGAM<1VdxAVV
zZ(w%Jp@x}1G{U<e<7-oWZFhX_$a(Ylwc{C|sQSb^%s_$+`!l{4)z<>E;D>A6_4(gC
zcI{ZY4$j{PSG<C+p2HI<WOF6ld7d^RH`8&C>-IZLRBRkOC`@T~I973ZBjtoC%snEP
z`LHzzsr=z+$%~5(H4#@(SV^SZ0Dsn^(nfEL(!G!S7KE2j37xJdk#K=3#!z@b$n3%x
zAoS&8W_X2BibTlHHyZ8qbwlJVSqd!V4H)~j@LfZ71VO0v_;j#P21=95C7|rIC?<#D
zX!D1dQRQ{IjneJgbo-ZdBaFvHD!SnnEtaxGw=TN<kZ!a<$~@ivEp7<9Kq5>sl{2%e
zLiEy!sS$E#Wqi`~rpMyK;=-R2Tz(7R07k431}sM{5NfuQ2ykKW`zPKxu{5T(?}N7{
zsZFHsKu^+^-LP@?$lUbYg}E3)0o*OEowt8Sx>LHIY@5p8DqrkU16v{LY;Kz?x!c&X
zQ1a~)bDr$}BXgel;6ijM2=kwG#U7G#zNA)cxbFGX1uL!lB}{Jk^na`Rne^B7Kl7!V
zURd_OnD)KM!FdS%E7EM(k-@<A6(k;o9v|f|s{<J1L#X`-AY<}8<|4m-NKP@TA{y@j
zZzIyN#m><@S;`&5ltX9^p=TM&$k~WY)|`r||3$_e)zLVjZjf9<i>1L1!|AP$T{zP^
z4&eVJp(o%KSi80Ksx7_TQ)%hIEz5FC->v7>mVM+x6j0rPc|Ux1*qoYA=L{P9a?`0}
zWcZ?*;tMl;KZ9_$H1&F2m=9PbD=-3K^v6y&Clf;2OxrlZ9z;{j#tLB|x+zVYC+E{h
z3dVRO30QQ3Ay+W_S|M7~FFgANbv!ityU;dv54Ys&RBJmkwVT!2%}aI5wYz71h}4m(
zEy!(zi`ka`<=O+Yp6jjGe0(wJK+!KlYxfJ}e5u7SbqOU7!%SaCuEqLJ;QIB`uvufv
zXmZrgFexU}-kTiiGdAX-U|Ns8(WSWh81Xw}-7CD&2SiMZ-gyX?q2gp5`wJ{6!(vGj
z+uP7DiQ1un6O1H$6%V;;P3|zFyS%Vqs+>$^2RJ**=@i#&G;$s$H-m~OnRDyOoR=t7
zpis&vHrwEquOqy3(_N3<qEuTeSx%rqs2!l;X5K&TYE^rtsz<HrVFx)J3pXrUNC*9t
ziho^C!Emv<WY)9l7C?|bovm+vyXUQ*MYmeNW%ejs5^t1UFPs0(bj2o0mtHTOA4^ws
zGFL@Wtq>OiYQ@G+J*dhcDrduZiuO3o97CDSNC2z|ERb4zT@>KAYndJ}II#hWO)EyZ
zjl4!<F=n68AGevur-;FbAQUdBDWfLB4bj}|Nbm!si;y5i65@3pat$pepp0@&G^b?Q
z!REB0a!$GtzaCGQx2N6h4`VeNEgSK3NIYsI%~(i0&s=w)^2VG{jWricrnC(T>e)JD
zW4_In={?3s4{Ij`AC1n{LUO@oW)v}^A<}^Gt$^pktT4d*5x%7x577)MCveO83N5hL
zfMW>`7Jc429}A87g6nDGHlt-WajhK`kzz5airZ9o)2wT*k@<7BL8G~_=Z<@Gw!CKE
zS1_vz0ZOEBVrZwcsr@H3{5W7z%JW1XFp&lNWow~+853?tTWhZKt~D8WoH2;8S5Skj
z6RtSOt=&xOGQ&eEIO&jKZjPpM6&9|cv7mpp85jCTemf>O4sRUaHFW0`B@N|F@S3R}
z-ylmFpt-M5#5A+I)h6RMqP=MzW+hj=kEmVyaBa!3AebqUT&QP)qglWN+68Ma$hY7g
z3bMK6T}@sEdqPB^mt6X}!I()Sl3l)fk>!Sa#xwc|;$VhRSqv35=4<Pz84qbi;Yo!0
z<lB>~(BHJfz>R&IaKW03b`@Rhz1bX_FqSh9t<Ous8y{ZMoLwJ^NcWqXSCKnRNZ!B#
zBy1qJB5Zn1!8H+%D*7>|q0WayQ~i*<k0a!{?)5?*ExLf0`Nl9wiWUK%sUH%MJt@Xl
znX-v+aiIW<X`Lv#B_w9tX@^Uw(K}M+K=-0+L>?>2!$=_BLhL%OG@vd*Bm|ul4>qYG
zI-@Hjl3^;MJ`sNo0WL?}h?xGyLa~gW%f+d<nHY=9hP7y@kYizRirkrG9!X|#Q8~R(
z)QdHeFq$5{Hy|*yrNEJuN+iS>MeqB(+Jwl%F{1pYG*qsytG1v<1JjP9DBC$Lc0RsB
zXgV;Y3l5Dgu?6p%Zsp=os3R{&;B-TAuP^Jp){3~aB3cNpa(<dH-ts1(pPNYkA*Glc
zjnPYFD6br*+xv7QI|lBX@F$d_lZc5tAmr<&G&_z6_2;~N#+br^bE<Dr0pe71UOxSd
zIc0~J@>leZF|b`oC20@RQtKD@1+oDSABx3ReC(sdCOWsig~J!;R<qzM2WJ|(9#XyH
zU4P^J<igOx!F2FQy6Kr^|IxJX=)JxDKY97bFK70iRQI0D`qqJ<+E;=g2D9F|;f0o^
zE|BPmzn8e4SS(R%wk~~Dt=T*4MW(NIzA97Kqt=nN4qDFoH!kj8>{$^kJKMAEU77Zs
zYWvRg`dznbS8SGb2P_349efVY2@5N;U2Wf<Y42Ct`)_YrZa<EoakGc#URfy<;9^wT
zq?R^iO1sq3uEp9rrCZb|o>_|C4rDj=W;X3sH|@@B8dNt8-hO_0)8W}8>6*@YJ8{x!
zUl$`3N&1tmXqX>fY`N8S`v?pJ;o9O5%C;he0|k39&TR}u>|FGvo1Z{Hhq7yBb4i3n
z%Wep2;T>YCdws#t{!jN?A(s3MQS2}R3Uo)Zs5`#qdo*IR(frOUD=sShs|P-OJYBlw
zS4onZy}ze<aGUVK6aAKhn{9u&?a6~Zw*S&?q5EdX!CkIAOqf#;e}L6}6me!sj2QwN
z?K~tqMcCia0S5ovCjoo@R9?RV+jO#NW0r09!t)zvp&@cYRqgsRp&ZCA@?DKEWd7kM
zr_FC|H$ST>&MV%Sokh0K4?6L1sD^kMS~Jc^eKgoSR*LAlHlFK@!^Bs%lAmg8PrI+7
ztajcxG+V&xL6UtjMGg<-(HE7(&YY!hx~&sByd>OC;YkZ){OBlxWm8CDpxS60M?+K!
zLF&bj5yL)te8n6&7{2;r^j`Thx)F5g+5jSp^Oz;)1J*Gtf|VP1`H))RPm%dK7zPCL
ztAt@bMp4L5O4pg})Z^HxjrYnM=KHUGZK3<a@(`r>Sp-Qrytr$re<`-~D$vBBWhd^{
zJAoK#{fPCl&X28GS$kvC^-URnQ1u5FgG+-yI`P93>Fo#88xJk}55r;(cD+@Za#1Z8
z)8*aFF>%9k^#+(7XR1PQ(_5TM?|SCe_Mhzk@&0u0(K}Vg9@vDM&UEz#G#zNXarJku
zrYkz;u0B{#h+qS=zI#y4OZ@6VT|V<yESBYW`kM!ww)gv54)i%bsH;W#gFeTA&GW&2
z7t(*>bPQCuiWCq;finvK_mL<LjA*8E0Q8yA@yPvxdrYU=P{V}wMy|=;f;GOj&%v@<
zr@M#?<JNCnjRy4|5iXinwPBVL3OWjuSPK|lUSSN$0<&aWqkAIGi5FtP*^9?Q9RR(C
z+zKBn_!CIQXBqF;Bmvt1N>fO@4!Cz_8aJzro5|S}d~7x^zuTd<>{xEu36W|h0C{Q`
zO9a(G@V?hckw@Wb$@pF7aA>}6AK){EE@@`Clw?DBT0W08&DZT;BV=BIsQpW<6r=FV
z(4jRKzGH&3-m@00tL^x-H~_kf8Lnuw7R+MsH;nj{Qjp@J1!c(P9ejvc007%;r1U1b
z(YKTZy8Qv&@{61=ZsjhV)JT!6!q0;wLp+2aiTumcy^me-hbw%IR{tw#8J5Iu&7U@1
z{p78hJMO3M*7PpHXW$ui%QNYkqqE+-<(smNZJEZcYU9>yO=G5JgIcp88-S3#nFpvb
z5^EviX?&pQq@_K=b~16pp9c{nnw6~e6hDLfy{H~8CKxf>-|W=I`AeLl>0T!(BgKJW
z!Qj4O5Xpm@t&k?OGyVh>XnoS=vp<KV%bd6&mGNgcz+xfHcOoxlVy1r3EHjfQ3JQQ0
zh~VdRDIGl|mCKjs9{I#+7e>LfbCYA*oLuGiHc|jAMhTPrUZIIqevDhrrzx<xXqo1h
z(YD;0{Lk_DIih4!iRCv5Iu4*RpaU45#fe^sEVeH8FN{&}(7CJ2wTBAC$%|ICb`zd)
zGR+`jSNvvNZP}xi?@7D&aMVD`#-O;?);EG&W;M;n%eKTfD39!WmG9AwS!Hjd)F|DU
z=IVJ$<=F&wJikwQ65V9F{UzPb(e0;nBZRH|HQneSX4@*~gK<9oiWUr;@W=Q#rd8=B
z&DmOuVzx!;M&y6;HQdPKxg8GAFIt3+JF=adJ}nJ8y6)9At~l_E<Fu-F#YHK%P}95O
zp;U=bQ$N2+#hK})N1ssBykNgRvPu<KU$nR!hb$|8zvC;Gdu5O%&OdSef?C$P;-DO~
zR~=Y!u_TP}11lbu#Iatp;$=ynP}RIr%93S5N!e;SOLkcu`xluz_5LM9UB}ak8<CkT
zi_<Ft{oayR+3%{)=h(E;Xm@nX57C>Bg;VsRW5wr0Rs<*>S@Pn*Qsv^)?<7{~aiwC5
zqhk(c?f6;P#(ox`SgKr#ECp`vU!~lYQA@R>avtySvxr9UvlLmSpU*;W_<>gmPXCJ4
z>wwR}h7}ur?|C{ubKsYJU-_GrdY5A_jQ~GO8`;n8s{8cB!HSjyU`0k0Ia~N_L?Il(
zTy=Bh`9E`(4ACpv8qB9XS3*%lV9bZm_{{M==VeaGWStJ}Gzq1cj#B|c4*yIKJ(sTu
z;?JWRHmu1F<*j98#Y^A&9#wY2ND${SgTh=X{<<EdEXh=892PD-O#Brp<z?QXJXX9y
z=M&#8?8IO@gKY}(1mM8RV3HUOJ{2UhLX>_UDPW)Sb36h}0j#)zQ?yth%D0sLTv-2e
zA@qsR@rls-iO}$g5d1{g`H4{TiO}-5g75Ey^?&23n)~Xqr};JK1LwHiQue7p_xoo&
z9!uNY`uhTY?gw^SD(80J7x1%k5pKNR2Udrrbw$7pOK0`2(Bp%Ot2WEt&jh-&9{yj3
CBu)JQ

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/symm_mem.cpython-312.pyc b/distributed/device_communicators/__pycache__/symm_mem.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fa0edef78952504642ea621646c15e60f878a713
GIT binary patch
literal 6798
zcmcf`TWlN0aqoCX9eJcEQKD>1ltjt0Ejl)3RjyOZQW7<m633F8_z@>;nghi<*+=u$
zy`vp5bn5{AklGZMkPpddiYRS?*l~cQUroQ-^rt}cBSr#998}ck<0JiIVjB(8k9PJ>
z%cEtsPW#aXwL7=7GdnvwJ3F)b*z0v8C`s;zYD)m2Ka&qyxJ}^By8tX98Ocl%MXi=e
zu~7#@U^dC5xF~1BjwGLQMx7?iB^y#gR4`#a=}NhyZWDGU#gr%NVUWw><V~@0mO-h;
zs1NWB(Iyrtg5tl$ShGi4So9Q<U00FpzQu0#wazj-k<#3UFb_0BwCP3kdhil@#qlD#
z#Dv99$*>b)#_&9gGjT=Jp2C@27QQ=Ay*M=`O^r`UW0RB8$?>CSo*b8^#$J$49gB{i
zf&rqMR&^<vId@LM@VV_`GMSQ8O`4AB@$-_Jz8J%5EUg2oDW1bvN$XNJ8PjJnICXj=
zZb@g=rdk2K^EarLkb<I&jH2v0P~uM+nUx*qSebhhl;|RgXqKG{CpRd(;><T7q%<U&
zYMEIu!N`K*l6ezyDZB;E2(tSsA9c$j(6v2CH^a)Ft6bD0^Ro9%=HHEy8|zbV&gT11
z*cqqXbk!O4&hlZu(Q;}wm6}pgPi9i7Tw0CC^b8I=J|))lsgqO!R9GaH2dXfecN~r!
z$a8}SA_q<w{5i5$hErB9s&U0=1l7hBDV0m=YD!5N&8gTclBVVrDRWW5Se2DH4@_tQ
z4Iu~o-T4djg2^%kBvBmFH_ZnjjhRJyl`cV~+EQ+9ers(y5!WmUBJ-9av(!)-1U$VI
zU10S_3RAPiJM?DSm+(`_Ze>S-{W1DUmE&bLz3V=Xt#oXaW8gn?EY$GQs}@zyMiM(H
zZ@aar8B{~vZjYc4Xt}!D0t;WRDu(QUkACSr6iW0`$ZiWL(Pe*8i0T*kRCQLfcf090
zyQO<~nJ@5H9=3lR<xlpnz$d~s9|}=^AOW~YtAMO~DQvg;J_=uCaL+?5hp*3r?yV^g
zO7u~Vc5Ba4p99&-uQ0z8sOxaQZ+`Bz{sIT<-bQDyS<@ixvs<|Vct-4R3fVltqN_Uk
z_tMvwjI66x78lZo=nRR26tdg;vOsUp9z&tTAqv@T9{dH2u3DXqsn6p*;TG{dP(aG+
z95pfyTiDtfIDMn`+k&CD&Phm&JUEhS_Oi3!Onmb}yzIWv503U>r$D^#6gWWs>iLvC
z@Kt53KSe=$DzI?Bmz{-kv=ix%(Q$A|hc7qO*v%Nl*sbi+?UU6&Wua?h(2Ec%TyFSY
z!|Y~ziK$-p-V>+ukJh<yhC>=$LyC^ocnB_z44w_CS}2{-L$Ql7H5r>uDv>-N&&jdj
z{Bw2bts5v5k7Z-iYEsor2D$WwbmmfeUnpL4yVc=*wl2$~=A~B4a+f8Omdj={SXbnS
zGJdu$<Fgr@ltbiR4DFK5Rep7jhw5@Xqp9h0A$rM%=(Rf>0*R+*bwvxanD~5ym-X4K
zlD}S;i}t`CKzyafl4?GttC@6Y2DU<xO{TTs!h;G8oz8^Fk}yPbA^kjT<)s)-6A?8<
z4?RCQX@+#05#5<n;}VVZMh{>(#wb7a)#Nh+jd)DcLz%3CO(C^V3@i8RG%^wHGXz=H
zh#AR-pDa@XE0e0Wg-Il0G(hM`Ow4dvA*Io<DYfBNLBE<FOGAv~P}91>LzEOhZ>iLw
z>Db^*LN_c=+Kh#S>6v6ErVk#%#3f-8YZx2|p&O0oVALgI17>VwxNG15!C4$6+m?;S
zm?l94rNJ&pWV+@DhF}u083NsTgHzKp8KcpZQ=%(2cqNt9XAMEsl@zf*!#SOsnNhIe
zhUi#U@)t8X&2XDRos^EH6vJ~emnN~?IK~-lcs3OxWr!xcRrO0*9b*zVU=o~#1%uO+
z<czsyQ%4q#gfxb`W>wDfv9z323`WsN*cRF>U!EDzQ`v#6n%%F*FeqgIE4fDxf8)ZV
z%0N<`9>~t>=QHU666_BUePVSw2WN4Bs-)(qYXfxUku0oQf}8*n1}Pt`V_p%8B~g#|
z9WcWysM3UXbk1?Fd;jX|DSP~X@pYGcdy2k2>%Q=Y$A9g_{E5|$)9aoyfZGrQ3o~!V
z*TvqAK>N~5i!ZH=-`IU)`)cpk)&fKG6C2)b%g&!W*1dfcy?ZSXo}1VZyw}|G?vl`1
z6grn@)`eXJ|MKF?Fsr-V7KBDD2inQkMtfJOeSfii{|)*5#LdK7`(fzyZ3K3e0!NC0
zBWr=tId@qMtcsnRvQ=27dGM~o;ccu4$lFrxd8E`cT<jTM>lvBj)`hOJ=qrgmMX_f+
zJW&)UYN>8FwU(N87n^q9ZQy|1O~^&xwa4clU+;bVH(cq7=Zo;`JzEsdZXsLpE&6Pt
z+hTB4>@NrR&mDbzii|uyf4toEbh)W@$-C&i$AfHl-KcZ;!@kn+vqks?pCdTn@tK3|
zY$Q|_XQQiSqrJb>9x1j*HYrzH-)Volz0`BC2*0L-<!v2HuP(k?ZfjpkEGA(34nley
zShw|+0+C`MazlUr)tj$=c=XrL{OXy~$aBS!=hgxz=O!wC<nfop?xNVeGWdzuSF@Pm
z8qIa>BMR#%Z#Ru$L+o7_`^v%4+|eIRRUF8(>x;WRs44h4Y5+-rpQpR%>8`MB^MSig
z)ZDr-_J;GWi-)CpK#%{Z_+Z$V8i|j7H~3BGGo$GDqpsrvj*p$)$M-ru-pd0_yi7Ju
zTp=waRxxv>-vY2iA{~mUX)!a)6qrOU-6j^s*Xh0RC>&XfrkY>b>}bpY9EpG2QYbbL
zl$Y58E3<hx{Ia9U6EcfLH5;>uFMu4UP?$S0fl1bF`ui}CTL?@%rNO6jDJ5xml%$d(
zDLe5~co$&84t#)&BEcWHuyoc$X+$gFIWUPSjTY^ECI^l+rzushm)}$GxYrq&0}k5r
zP+dX9+DCsdT5j2178|b}o<F?Iz2&~{{zU90T`g@(hZhgOab%^X)H7J@8C>fbDz*&G
z31zWmAvQm<45kz$<9yqe``+4reLuL2RbkH^;Edog!jZ}8cobm6i4{GE)76b8uPDTW
znj1X<wYkxxcS|WSH0&bDae=)O&<TxM667Y>Qta`tRj6JHEhE_GY9eTp(`{}?^%82J
zsV31jja-$EN(t{i>}3d46V=4i9{rlPe*a}hdKX}-iLgxpz4gQVYRYYoHPb5ub35?2
z?I(r0N%eM{ib9DF3fV2pPWEU^dAR=I!JvLJQzv<#sR@J9(f>hea)oUv|6i#KY+Y;l
zA2nCc#$bltElY$?YHze<;B1)A=F@*dnJ^q$E*19UBQO+`ml4Bl21HU)y`W(7M1V<t
zXYlb%c2+XDi>h+Tid~3CjevCaTPG)vTJMk2)S1cC$KZ7m_Ys^Ulhq7?h8spJeFKwX
z$)to8IS21zRzO5DYNJ)Zl###%>9u%+*UrbXN|>|#oaHAx#GO%&8adx2RI)st+nylb
zRnO7c`0oRuHU{nlA{!@yE8YxdZaCI``^qibz|qYe+3;^G`Fo50-j$&>|DL%g%Yx^c
zI4>?tEyS19MfHsft3q!{=r0QWH(K7`eslW=y|;qv!XaP>ccaIQD7uPb*Q&Vpc1L%q
zBU0>$%uho2(HtO``pUu5&e7t|(GTU)W2cMo+j(ZS=?q+<-W{I_$g_RJ(|qmN{IQa!
ztLW(}d4`IfA#&l1i{kRsa{Mjzy87b_t4(`vjDK+Om&3mpE)6|h9D4emgN3UVA{_sJ
zPkWcpg77ZSHP^grp>OGt#YdJ?D~@+uZ@YdbuKM?t{DVdR;0HT@8U96h%|Eg(jFx@=
zIX5QBeV9FQBHT#AN)jqdlHr!5R7TDv3G9)i@8)7j3xmgDI3^w%6Muw>S269+${@Ju
zOeTrH4xNVcw35~`*s{<`=(&l^xy-%B#6O!AVW7PS)m8K--}Z8|e_?FF`5Eu%bgptc
zDy?YGBjx^mpLtI*e9vuPM};Q<EE8gp_@Zlh{H@9Blf|a~N`u+&h9GxYzb;lp^V5TZ
z-7Brvhwqr=mGi8?_pjvMDZE{{g8;0wp(mK5%;%0yz6I{MrIE#viV24!?+0%NKjeyG
ztK+t-@mg>`xXcw@!Mi++wiZIx5Dr+Uuh~pbA~jLGA=Z50Zn9pYHscTp_iG16>V^9e
z+t#I=t|m1rD-um&E2+aI&@uL!J+N6yQc_+~;yDl`l8ntliWS-N-vcwHF&a$*`riZ1
zN*H%OAb!LQI?Q(rl3~I-hSB^$7v4jbMeZs?JeDFa31)VMr${&XkASt$CkaIC%sS`7
zh-F)k;g_I~!~~iQRmH(D%pCzS-anwwAJE==9LuoxoQUbW$8JLVDjd&r|B-uQm3!j$
zj?PuC4Gx<-u<*i~tLuvM@6IunY55$H`iqJe2>>%pcX>zGCtMrh-u<OU9>U)h#{~3|
N&@kqAeALW9{V(Sf%_sl>

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/tpu_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/tpu_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b0df31ff1fe2a8b1beaed90dc8f86247fc7e8627
GIT binary patch
literal 4209
zcmai1Z)_9E6`!@&_WED`mc#**7($XWNgVzv^zO(({y-8SAOfd$RkU)vlVqLUwQqKv
zBatI<71AZWB50)wkSdXWDiwU7pL+e&_ERfWs_Z6GqG_UDb?||2L2&A+U)ndj-q?+D
zFqUWDym@ct&D%G>H}ltUIDnw2{1?id8ic-P9jACo#A}^H=suE>%&ADUTTbMl?^0cw
zTXb`b=T>>mBYG^FSG}4~^jWk=6*Rx-w`i{#(1KzRXrC;oAuTM1Ipjjv^Q5#?I_fN5
zZqv<W+M#6s%zFsk<ir}W3iN%r_6gX?idct(#t5!Uci8>PS`Ii;)~fzA%(1gLmXHo>
zzk9?zR@<O8rd%A-B4U%Z6HeW$?GvLG9aQ&g&0@1fhtw7=CdN2~Yls&#!|DO;pm>n2
zcOJ=Aw~<_p!%y7ys$we+5<f`QsE4#xu?@7^#MU`(j*Hj6WFlj6j)ty~ObQ#ud6LOx
zq2D-#O(~Tl1nZ_WtE!rm%IK5I6buCwT`?s!Gc|<?bZZ=`teP|@GeiSk?e*~?>Dra+
z(#Y7kp{qk<14A#F<6xv=5YH+pJdn|}oUWvjW`^`94NTo6IX8dO%;qFTpTw|g3di(}
z8Jo=Hbh#^*GZcL)Hhb~nr4A!@Et{*<hgtb-nwZeGqzF!$SjuEgMN{UnED@YlVHs(P
z?aKfWKP)8WOhq+PwtMW_U+TR68xWsE9Ad;`PjvYa`^h2Mh263n^Jy!RD^(Fh?7R<Z
z9wcnagT0f&BAVo6@9nVYlYO8Ealf<3!tVS@UiRPSMZX;WPR#%ge5bZo4&L^N!9^Ci
zp>Y(iqSZTGHb(s^aJA(W>XofeLPK_2;s)XKe3HYGp44#4IiqX?Uih=fdcEvI=oj35
zWHPQ*mO^=S2W0bH-j#Rf`6s;1=TIJ{OLR%pY8E`eXY=hS3tm%jSmd&~?eTQj;g(yO
zE1x#A+Tri!ZRgA__$uV;9F20jEhpp!*)=nW5OL*&1z+Bq_szqe7yNlo-aij^F9h@(
z@378YVcqwfHPQ_ZRc_NwW!j;(EeYm>GS9HcaE+oLbLQJ;+UMw(+wGYuY&Z8i<9Ux`
zrMZoQ>6kNGZe`Dh(5cYdM!I+Cc`dzGXQuQahbp)EK;HiZyvquQ%xzqK8+w9Vr>%jI
zv%@@+w!J%t;=Zx@Lpy>$#_&r?stg}upDN~b?CRMc61Mbw>pMj+T_G$qY3;zp%hv}j
zjJtMr{DL$xNNXA3eLONg(tmMC8W<kAG9GWF9wV2<gbEVi8la{`gHvi|BB@Fwsn5{b
zQs>hQQDw;hi>Qx5Cm2M%Ho{UK05L;Y<bybXvYyi<6ArJQk+DHz4$JDoA`-xG3Tq6u
z?c?nSh)qpPH`OF{gC4DRCV)j}FfnL7V<cyjikh5Iv6PxtvIcb<CZVp3L48=CRY*oB
zL1sZ?*>{qbQ%xmnrw!`5Nod60V|g=DhRBMZR7r^GdP^7_ro4gGNx}e;)Ut{lLQ>Bv
zb_mE`sHmS=W$)3lxV*n9TBBxC;KK4kG+=Wqr&^lR8N)QFUy@R4(l8{+U=EB`lw1F~
z(PL`ao~)AXHj@P0*nKnC`~6chy|_nJCVH}S=5$8yVX3c2R=^v|M9#!=PYEPb6$#Af
zVc(;YlgQ4I2rM`s*%43)Cl1<S)M$aE`0Xw9rV9D1mV8Aa@}Oz?+~bR1cCHHNwgRYe
z-&#X^v7vo2xE_tIMUNGu#|lEzi(uVGsP68Cr3-~f-)iV1&~7@o7CByw9AAl?TpZbG
z?pSLcE;bLZG><M`UaxLmuKj!U!S!h8J^xoNN1lxoTTT~3(e<W7g^u20Q}5E~b7!{G
ztD(N<kpqvy55sGblf}r%l}PX6$a;NrnfrNPA#~tg-y1KA#UCv^Tv%&4Q*1f2($Wu8
zZF$k&HhZ$gQLv^n@pxwC@cTb?-3=@S3ia(pp=0B4_v7@Fo=VnpA+#nODhh{|#lq3E
zt3v;V5Lgphi$d$F(6-TVa;2enk-rms4Ss^qQS@xil&F_rGe`7P2`AVXV!6r6M-xCm
zHY(lF5K31{F-a)pT(w(1g1ohBK6=VIcPYrGF1Rj{!!TEzhp5+RAgRJ>#&Rx&Y2fP6
z;PrtaY5e*nTf{{eK#>zr8O)qmj2vT(Q&7$C-5DI^nSR6+TA+gH@S>W!y9-MTzr6bB
z#={$r&wY8~4<G#ggVpNu1>rn74l>j&D_V;Az$q-(T0R*D;y%i|WX{SSzEQYMJ4gw6
z<gLD9S^TNn!DQGuKlbv!Q0CtQpfh3_U7d>ox@9xOjDZ2CyN|+cjl^IR-BU?(8j}P#
z>U}UE?jpU=*q*Y7;_k9zEE$8D3&+!T&uQrF?jBn`3FAf^RJYK2b=|#*pUf46!NT6b
z6=863Zlk)Ex$D8lkLy>fy9+|M<)pZKY>dJUl(1A34>Lq&R~ta&fFx-dIS0@u(U2s4
zl1r-g2w^r+kA<H$P_eva9c=2ohIJ!DtPe@uif$5SGYyvjCxsy>Bv|bza1G|>GxpBd
z4TZ3ZS#K;t_3dr6C7_PZ^{yl9`}V&Ip75Ods=j5*11+4a+J^g~pM@Tn#hTVFA7crq
zv32=cu_3<YXWam5X!?ffY^j{vGt4dT`E~SH(JjR2XKlah`fb;1i+&Ywc@oYbkk1CT
z5Hx?>^XKTFqW@;3<t58BFq>HzZzs%1(hn7_wY-q1KtkI)K?aZs`)xp2*ioBfCojSd
zC#|w%oacc-*o}|Y{Xa7S5K7<@jc8;7-UHGuFiY4SomOX)1VRj}r3VR(R@fxrn>dvN
zQ>BSyY6j~vVRs?&5v!uCVpkqO6N6<?5@Vgnc6x+e5S)NK$-)7vlxKbF-)7iBY&(Lb
z(*()s@XUaeT_Olv&=9RJPYC(Y#Dpb4D|yDtBNaB=D^}!Ec<I;)v&M4K?9qg?E9(|u
zeH+UB1=E+FN|oOwv5V^r$`a9tBVPG>`VF!_JcA`Fd}yD9J|aSwg{|=vsx3Fiajyl$
z1-?e1O?3DL>e)oCo2YXW9eII1eC0)+=nB7ojqfh<-D~`4kstjFF7o4BZWrge<y-7|
zC7{5bdp}t5H{bI9%NJSa1D{{`>_VaD{3<`Z?rSdi8rOWyMPKu(FZK^1@=t-C+D)N-
xQ|S7}<?;tWJygFLI`+of$0Z64U2hPyulikx-vi?wFFO=HpIzPx0>j$P{{WFI6Vd<x

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/__pycache__/xpu_communicator.cpython-312.pyc b/distributed/device_communicators/__pycache__/xpu_communicator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3cfe7359a36df3e7da6b0d74614285f6363a3b9a
GIT binary patch
literal 4689
zcmb_gU2Gf25#Hnd@c1WEKbB~TjG4%>L`xBy*s&a2@lWkIO<=1*oS-h_^g{8D7A5{=
z?<iXg1sH{aN-Y9g2nsO>iqP#t5;za;QyugneQeQ(l1W?<hZs=M<{@u1<e))c+L=9`
zBrCMhhpxcg+1c5dx!IZT_Vibu&rP6ZgkPl<A0hw1iQU8&u|5UF3Q>v5Wk}o_xvV43
zb4WWfTvmt+jOH_9R*FkN3#yoLX63ld5eLyE&2@vbw8h;H@;p(cD@1i_@(sSl^~`fo
z`5T-}Mmf{_63r(yU4NeDiv^f_(z&#uWbzj-X!ILY1iapp+FUxRoycdi#aud>F!J<=
z30+HC3a#GLnymj8HvIygK_hWaC2@y~;Gf!~Iy7G8HDQKDVe3``Pg`<AFMxzaiJFv>
z7fFf(?|pG6_%F-^?%#v6ltY!T2yqwa-=VtN%cyS6t$N`103DXal&pHMh;fhF`#?QD
z)S+@IN$mhhFWBr;{SUAicmTgs^MM~7?N{4#Q;wbZq_WxtR{amPYH4pDDM{^y{eeYt
ziHmohCDEYiKUXMjJ<>_jl`IsM3z!I|q_QJ7z1G;`df@oqENV(Fk=2rR&f-Bx@WcFC
z-w&t%Yi@-Y$YpIwDwDTCw#=0sWxg!j5G+1N%4DWRw?x@M=Yfy<wl$TT9Vdhi8M3`F
zW9OXBfKhd{-+jYj2|>MZWumld0la#UtzodWPvuo1BW0ZnBGy(}1nD+eXxAI)b=j_L
z@p6aF+Z<KV-ouf3_7{~VO)-~9&uOKfz45sIMkJBRJO#f<Hjzs}DMr$IB$qcLda+Q*
zQ$tfD`CR1OORtVaPJvW9cOf#BNX|x#eB=$L<@*X!dCE3WJU1xn?n$(E9L&J)jAf-1
zdR0eVOvQE=#-bim1p68_Wkq2yp_rbct|{OF`fB=Hgo3_kIn|Ub95J026Ep{kO=nAj
z`oRf`(c0Y9dQwwJ=TiBo(-d?qlVUOyA%o&+Q!jS7*>ovNGLz7CMbQB}NQAY^|9(AY
zWDBuEy6}XNpcgdbiA%-tXAaJeYq3mvDpr^`rt`VjTqcu^scGGy>8T<FGuF!T<Q9a}
zW0#;BwsOV_^RyF8m4e$UXUq-<uIg_?_uXZ3uY<TcmYj7tSlL-U_2KDTBVWj;8Xo_u
zXW%o>K*Qg?>L0B82dfu9^N)QQ=w0bp?r1u=9nW)XJ;BwU;d;;TJ*Uvw)pV2L*frsc
z!0!9E+zA}~YUt3d{huEB<jChkFER;K<5~99LWgb#4mVvS5Nmc4Z)hDHBBn$&qeyef
zRv{pdVEM7K{SgpQw5=BhAv0U0P!bvxaNC0YnA<F_G6&G&nEZ${MTR3$-V`v-rW+1k
zp_*DuYV07R4vMg5O6gpoXec_`i$v%E4D>PRO8whoys2Oa)^(J;Oum%8SN%)=id0os
z_l(!~jNg_IHvBsleKdrc2B9-~73}kBI-A^zHXDd_5=^ha!_90wJZx&U8?Dhp%6!ss
z$uZjxO1mE}I}7^saE{~1i-<M+dx%Ng%m(7vx(Tthzej!}*!0g~hsvW4u){yxQVDJm
z3n=pt-3x-Tfz$0!6^?WRPd7bFab=+dQ_$V!Z4F#3!)@(j!M<TEhz3?DYwhq7a1>Li
z%a++3KNf8r?CsFAxnfgg$1EcAb7gU+&*p88DqrU9WLywI26Jp%D+?-|W<Mf-n<p;|
zWga(`AZjU&#Q->}gp^A9363^)qlL4;wZ^D(vgCUqH<!qy)d*x;WVrN5G=iwhQaoa4
zIUOb!)5df}pH39C2!&IIYB5FCm<Lp4Ah!!x7DD^z<3Ixnrc0VB!j&sIZHij9V9cBD
zi+P$+6<ncM4A$01QM?z+<U+!j)+j)<kyk9UtmaG~P2^^Q-Flllv-vp<JT;wEV;)5%
zR+Ox4=x$WZTyVE)6dm#9iv|{~rB=r(V!&&at|?ijOTF8x*W!<WxV{Gp?J{Xfq_c0u
zz3hI+ySPy0zwkd*O?@zPedc!=Ae+SDayL2#DkmyW*CI!5&3*dTCvW|6;a0xpom}T(
ztp+j@@%pcI{&IW`h65{ymJhu%QTOgzJOK;6p_SK`Uwh~EMfX30;rBi7dK$jYtICp6
z^FC7TuX{&s9{9t=?<f8&{mu6m-#y;3)4k}sCli-%RUWL%gVi%P5B#ZT_4v#6<1gQq
z&oayo*FE8C_h+8nYoX|B=*fEM$(xVfJo|a*nZ+{=o6`vNSN2y<)B=%4ci+m<<)hX3
zP5!!4@7`bQI&hcgI>*<#LY1@CC*S=^<)^i-p}V4^b9kK>!X1lenjIt%uF0V$Pr{Fa
zPJaj{48%-cr^)2j632qZ`TGBe+IS_}3VpB@8{l?JD_%kXwE>g&0iQ;oi}IA^lWU6R
z6KXO6uS$=_#_Fch}}0U2N+_tP*b?c9F$8!BGF4MFHE;O<!JxHeba_o2EvcC<cr
z^zZU9>w$gKX;sy7if$wfO^2+7oP%_RyF}X1&7QQb=o;KYb4g7pBq$`jmbnkwH{z25
zQvmH`2FC5}vg1VpVB2=B9iUp*S36?op>!9x1pxN4Bjq?tKH@NXh)AXk@4G_6NKQuu
ztC|h~m%`PR(1XzFcoJALR>Tg&?ECi#Tg7SIa0)u87cU9)SXYLcKUR}t&^LxgR)-GP
zhYqg}ovaU?Y<PE8o~`XY0u?gsuFJa@eb*MC7y{u+w&owH$s;Vh_oWg#!%`^@#Q!r?
z8z{`-m4F@s^>%=qaHpC|=QKz$mP;%?EHwA!(zCFo)VDpCT6@pIqK--#kbFNd!O&`O
zv>qH?4eqZ8_d{T612G5-7CMWFU0hLqa?(W45Q@L~540#}!7_I$+J*OA{M1nt)2%4k
zyjsj4?NyXFi;0Z2LeXg&#SQ@+s@0(EmS{?^FvMrq8IuPvrca?1)`%%g<?|Up^<p8T
zQOp5~k8Ao`ciN-|D6W7j{lL}nVsgw%7kpz;?C>*0AA*(du8^iohDI8rKWGeu?|OQ~
ziM8%sO%X<T($3x$@3OaI)B}S}C$ePHH&}h8-WzSYaOx(#JHN#}%~6NgTYc_>)7MY0
z6Ch#b$T99N9}>fj-hq|Oa;C}X=%_W0A7bO0tK({DDO3^auF$#&!gnV)@i<o%Kk#1n
zHVM)<_gUjDW1Y<b>Gq7=b-BgSwZ70wdAZyafd*fLVK#H(OeVVqn<xW*xc!U8tL3F~
z<<<Akzk9yskJep#*FCt_PhQ|A!AU1L8GZ~`n~XmG92;BC{Y!*(>pqB)i+b5<nVsyF
zI=1C2!1QdHF!*DKYkKf=Va)oJp;$3ya0>qYp|tsEp!h<h$FRf83p=Whh-Dmatfo9+
zrO^>O2~#{-JqBHq=QwWNO*r2j61hY6eoY3yCKF$|daj-O-1W$1>7Mjsjtkd%N53UV
HFopjGyjuQ0

literal 0
HcmV?d00001

diff --git a/distributed/device_communicators/all2all.py b/distributed/device_communicators/all2all.py
new file mode 100644
index 0000000..9ca1139
--- /dev/null
+++ b/distributed/device_communicators/all2all.py
@@ -0,0 +1,490 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+import torch
+import torch.distributed as dist
+
+import vllm.envs as envs
+from vllm.distributed import get_dp_group, get_ep_group
+from vllm.forward_context import get_forward_context
+from vllm.logger import init_logger
+from vllm.utils.flashinfer import has_flashinfer_all2all
+from vllm.utils.import_utils import has_deep_ep, has_pplx
+
+from .base_device_communicator import All2AllManagerBase, Cache
+
+if has_flashinfer_all2all():
+    from flashinfer.comm import Mapping  # type: ignore[import-not-found]
+    from flashinfer.comm.mnnvl import MnnvlConfig  # type: ignore[import-not-found]
+    from flashinfer.comm.trtllm_alltoall import (
+        MnnvlMoe,  # type: ignore[import-not-found]
+    )
+
+logger = init_logger(__name__)
+
+
+class NaiveAll2AllManager(All2AllManagerBase):
+    """
+    A naive implementation of all2all communication.
+    It uses all-reduce under the hood, which is not
+    efficient at all. The main purpose is for testing and
+    debugging.
+    """
+
+    def __init__(self, cpu_group):
+        super().__init__(cpu_group)
+
+    def naive_multicast(
+        self,
+        x: torch.Tensor,
+        cu_tokens_across_sp_cpu: torch.Tensor,
+        is_sequence_parallel: bool,
+    ) -> torch.Tensor:
+        assert len(x.shape) == 2
+        buffer = torch.empty(
+            (cu_tokens_across_sp_cpu[-1], x.size(1)), device=x.device, dtype=x.dtype
+        )
+
+        rank = self.rank if is_sequence_parallel else self.dp_rank
+        world_size = self.world_size if is_sequence_parallel else self.dp_world_size
+
+        start = 0 if rank == 0 else cu_tokens_across_sp_cpu[rank - 1]
+        end = cu_tokens_across_sp_cpu[rank]
+        buffer[start:end, :].copy_(x)
+        for idx in range(world_size):
+            start = 0 if idx == 0 else cu_tokens_across_sp_cpu[idx - 1]
+            end = cu_tokens_across_sp_cpu[idx]
+            get_ep_group().broadcast(buffer[start:end, :], idx)
+
+        return buffer
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        sp_size = self.tp_group.world_size if is_sequence_parallel else 1
+        dp_metadata = get_forward_context().dp_metadata
+        assert dp_metadata is not None
+        cu_tokens_across_sp_cpu = dp_metadata.cu_tokens_across_sp(sp_size)
+
+        hidden_states = self.naive_multicast(
+            hidden_states, cu_tokens_across_sp_cpu, is_sequence_parallel
+        )
+        router_logits = self.naive_multicast(
+            router_logits, cu_tokens_across_sp_cpu, is_sequence_parallel
+        )
+        return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        ep_rank = self.rank if is_sequence_parallel else self.dp_rank
+
+        dp_metadata = get_forward_context().dp_metadata
+        assert dp_metadata is not None
+        sp_size = self.tp_group.world_size if is_sequence_parallel else 1
+        cu_tokens_across_sp_cpu = dp_metadata.cu_tokens_across_sp(sp_size)
+
+        start = 0 if ep_rank == 0 else cu_tokens_across_sp_cpu[ep_rank - 1]
+        end = cu_tokens_across_sp_cpu[ep_rank]
+
+        all_hidden_states = get_ep_group().all_reduce(hidden_states)
+        hidden_states = all_hidden_states[start:end, :]
+        return hidden_states
+
+    def destroy(self):
+        pass
+
+
+class AgRsAll2AllManager(All2AllManagerBase):
+    """
+    An implementation of all2all communication based on
+    all-gather (dispatch) and reduce-scatter (combine).
+    """
+
+    def __init__(self, cpu_group):
+        super().__init__(cpu_group)
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Gather hidden_states and router_logits from all dp ranks.
+        """
+        dp_metadata = get_forward_context().dp_metadata
+        assert dp_metadata is not None
+        sizes = dp_metadata.get_chunk_sizes_across_dp_rank()
+        assert sizes is not None
+
+        dist_group = get_ep_group() if is_sequence_parallel else get_dp_group()
+        assert sizes[dist_group.rank_in_group] == hidden_states.shape[0]
+        hidden_states, router_logits = dist_group.all_gatherv(
+            [hidden_states, router_logits],
+            dim=0,
+            sizes=sizes,
+        )
+        return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        """
+        Reduce-scatter hidden_states across all dp ranks.
+        """
+        dp_metadata = get_forward_context().dp_metadata
+        assert dp_metadata is not None
+        sizes = dp_metadata.get_chunk_sizes_across_dp_rank()
+        assert sizes is not None
+
+        dist_group = get_ep_group() if is_sequence_parallel else get_dp_group()
+        hidden_states = dist_group.reduce_scatterv(hidden_states, dim=0, sizes=sizes)
+        return hidden_states
+
+    def destroy(self):
+        pass
+
+
+class PPLXAll2AllManager(All2AllManagerBase):
+    """
+    All2All communication based on PPLX kernels.
+    """
+
+    def __init__(self, cpu_group):
+        assert has_pplx(), (
+            "pplx_kernels not found. Please follow https://github.com/vllm-project/vllm/blob/main/tools/ep_kernels/README.md"
+            " to install pplx_kernels."
+        )
+        super().__init__(cpu_group)
+
+        if self.internode:
+            # inter-node communication needs nvshmem,
+            # intra-node communication uses p2p mapping directly
+            from pplx_kernels.nvshmem import (  # type: ignore[import-not-found]
+                nvshmem_alloc_empty_unique_id,
+                nvshmem_get_unique_id,
+                nvshmem_init,
+            )
+
+            logger.debug(
+                "Initialize NVSHMEM for pplx_kernels: rank=%d, world size=%d",
+                self.rank,
+                self.world_size,
+            )
+            uid = (
+                nvshmem_get_unique_id()
+                if self.rank == 0
+                else nvshmem_alloc_empty_unique_id()
+            )
+            dist.broadcast(
+                uid,
+                src=dist.get_process_group_ranks(self.cpu_group)[0],
+                group=self.cpu_group,
+            )
+            logger.debug("PPLX NVSHMEM UID = %s", uid)
+            nvshmem_init(uid, self.rank, self.world_size)
+
+        self.handle_cache = Cache()
+
+    def get_handle(self, kwargs):
+        import pplx_kernels as pplx  # type: ignore[import-not-found]
+
+        return self.handle_cache.get_or_create(
+            kwargs,
+            pplx.AllToAll.internode if self.internode else pplx.AllToAll.intranode,
+        )
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        raise NotImplementedError
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def destroy(self):
+        with self.handle_cache._lock:
+            for _, handle in self.handle_cache._cache.items():
+                handle.destroy()
+
+        if self.internode:
+            from pplx_kernels.nvshmem import (
+                nvshmem_finalize,  # type: ignore[import-not-found]
+            )
+
+            logger.debug("PPLX NVSHMEM finalize")
+            nvshmem_finalize()
+
+
+class DeepEPAll2AllManagerBase(All2AllManagerBase):
+    """
+    All2All communication based on DeepEP High-Throughput kernels.
+    """
+
+    def __init__(self, cpu_group):
+        assert has_deep_ep(), (
+            "DeepEP kernels not found. Please follow https://github.com/vllm-project/vllm/blob/main/tools/ep_kernels/README.md"
+            " to install DeepEP kernels."
+        )  # noqa
+        super().__init__(cpu_group)
+        self.handle_cache = Cache()
+
+        # This is the DeepEP default. Stick to it till we can establish
+        # reasonable defaults based on profiling.
+        self.num_sms = 20
+
+    def get_handle(self, kwargs):
+        raise NotImplementedError
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        raise NotImplementedError
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def destroy(self):
+        pass
+
+
+class DeepEPHTAll2AllManager(DeepEPAll2AllManagerBase):
+    """
+    All2All communication based on DeepEP High-Throughput kernels.
+    """
+
+    def __init__(self, cpu_group):
+        super().__init__(cpu_group)
+
+    def _make_all2all_kwargs(self) -> dict[Any, Any]:
+        # Defaults for internode and intranode are taken from DeepEP tests.
+        num_nvl_bytes = envs.VLLM_DEEPEP_BUFFER_SIZE_MB * 1024 * 1024
+        num_rdma_bytes = None
+        num_qps_per_rank = None
+
+        if self.internode and not envs.VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE:
+            num_rdma_bytes = envs.VLLM_DEEPEP_BUFFER_SIZE_MB * 1024 * 1024
+            num_qps_per_rank = self.num_sms // 2
+        else:
+            num_rdma_bytes = 0
+            num_qps_per_rank = 1
+
+        assert num_rdma_bytes is not None
+        assert num_qps_per_rank is not None
+        return dict(
+            group=self.cpu_group,
+            num_nvl_bytes=num_nvl_bytes,
+            num_rdma_bytes=num_rdma_bytes,
+            low_latency_mode=False,
+            num_qps_per_rank=num_qps_per_rank,
+        )
+
+    def get_handle(self, kwargs):
+        assert len(kwargs) == 0, (
+            "DeepEPHTAll2AllManager expects no arguments. All the required "
+            "args are computed in the Manager itself."
+        )
+
+        import deep_ep  # type: ignore[import-not-found]
+
+        buffer_kwargs = self._make_all2all_kwargs()
+        logger.debug("DeepEP all2all args %s", buffer_kwargs)
+        handle: deep_ep.Buffer = self.handle_cache.get_or_create(
+            buffer_kwargs, deep_ep.Buffer
+        )
+        return handle
+
+    def set_num_sms(self, num_sms: int):
+        import deep_ep  # type: ignore[import-not-found]
+
+        # Right now the buffers are sized for only what the kernels were
+        # created with. So we can only reduce the number of SMS used
+        # but not increase it.
+        if num_sms > self.num_sms:
+            num_sms = self.num_sms
+        deep_ep.Buffer.set_num_sms(num_sms)
+
+
+class DeepEPLLAll2AllManager(DeepEPAll2AllManagerBase):
+    """
+    All2All communication based on DeepEP Low-Latency kernels.
+    """
+
+    def __init__(self, cpu_group):
+        super().__init__(cpu_group)
+
+    def _make_all2all_kwargs(
+        self,
+        max_num_tokens_per_dp_rank: int,
+        token_hidden_size: int,
+        num_ep_ranks: int,
+        num_global_experts: int,
+        num_local_experts: int,
+    ) -> dict[Any, Any]:
+        """
+        max_num_tokens_per_dp_rank : the maximum number of tokens a DP rank
+          can dispatch all the ranks must hold the same value.
+        token_hidden_size: the hidden dimension of each token.
+        num_ep_ranks: the number of EP group ranks.
+        num_global_experts: Number of experts in the model.
+        num_local_experts: Number of experts in an EP rank.
+        """
+        import deep_ep  # type: ignore[import-not-found]
+
+        # Defaults for internode and intranode are taken from DeepEP tests.
+        num_nvl_bytes = envs.VLLM_DEEPEP_BUFFER_SIZE_MB * 1024 * 1024
+        num_qps_per_rank = num_local_experts
+        num_rdma_bytes = deep_ep.Buffer.get_low_latency_rdma_size_hint(
+            num_max_dispatch_tokens_per_rank=max_num_tokens_per_dp_rank,
+            hidden=token_hidden_size,
+            num_ranks=num_ep_ranks,
+            num_experts=num_global_experts,
+        )
+
+        assert num_rdma_bytes is not None
+        return dict(
+            group=self.cpu_group,
+            num_nvl_bytes=num_nvl_bytes,
+            num_rdma_bytes=num_rdma_bytes,
+            low_latency_mode=True,
+            num_qps_per_rank=num_qps_per_rank,
+            # allow_nvlink_for_low_latency_mode=True,
+            # allow_mnnvl=envs.VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL,
+        )
+
+    def get_handle(self, kwargs):
+        """
+        The kwargs for DeepEPLLAll2AllManager is dictated by
+        _make_all2all_kwargs.
+        """
+        import deep_ep  # type: ignore[import-not-found]
+
+        buffer_kwargs = self._make_all2all_kwargs(**kwargs)
+        logger.debug("DeepEP all2all args %s", buffer_kwargs)
+        handle: deep_ep.Buffer = self.handle_cache.get_or_create(
+            buffer_kwargs, deep_ep.Buffer
+        )
+        return handle
+
+    # DeepEP LL uses RDMA so no SMs are used for communication
+    def max_sms_used(self) -> int | None:
+        return 0
+
+
+class FlashInferAllToAllManager(All2AllManagerBase):
+    """
+    All2All communication based on flashinfer kernels.
+    """
+
+    # This type lint could be removed after all of the work in
+    # https://github.com/vllm-project/vllm/issues/26533 done.
+    rank: int
+    world_size: int
+
+    def __init__(self, cpu_group):
+        assert has_flashinfer_all2all(), (
+            "flashinfer all2all module not found. Please install/check flashinfer"
+        )  # noqa
+        super().__init__(cpu_group)
+        logger.debug(
+            "Initialize for flashinfer All2All rank=%d, world size=%d",
+            self.rank,
+            self.world_size,
+        )
+        self.initialized = False
+        self.alltoall_info = None
+
+    def initialize(
+        self,
+        world_size: int,
+        rank: int,
+        gpus_per_node: int,
+    ):
+        """Initialize workspace"""
+        if self.initialized:
+            return
+
+        self.cleanup()
+        logger.debug("making map: rank=%d, world size=%d", rank, world_size)
+        self.mapping = Mapping(
+            world_size,
+            rank,
+            gpus_per_node,
+            tp_size=world_size,
+        )
+
+        from vllm.distributed.device_communicators.mnnvl_compat import (
+            CustomCommunicator,
+        )
+
+        dp_config = MnnvlConfig(
+            comm_backend=CustomCommunicator(get_dp_group().cpu_group),
+            fabric_page_size=1 << 29,  # 512MB
+            allocation_granularity=0,  # Auto-detect
+        )
+
+        self.workspace_tensor = MnnvlMoe.get_moe_workspaces(self.mapping, dp_config)
+        self.prepare_workspace_tensor = MnnvlMoe.get_moe_prepare_workspace(
+            self.mapping, dp_config
+        )
+
+        self.world_size = world_size
+        self.rank = rank
+        self.gpus_per_node = gpus_per_node
+        self.initialized = True
+
+        logger.info(
+            "FlashInfer All2All initialized for rank %s, size %s", rank, world_size
+        )
+
+    def ensure_alltoall_workspace_initialized(self):
+        """Ensure workspace is initialized"""
+        if not has_flashinfer_all2all():
+            return False
+
+        if self.world_size <= 1:
+            return False
+
+        if not self.initialized:
+            self.initialize(
+                world_size=self.world_size,
+                rank=self.rank,
+                gpus_per_node=torch.cuda.device_count,
+            )
+        return self.initialized
+
+    def get_handle(self, kwargs):
+        return self
+
+    def cleanup(self):
+        """Clean up workspace"""
+        if (
+            self.initialized
+            and self.workspace_tensor is not None
+            and self.prepare_workspace_tensor is not None
+        ):
+            try:
+                del self.workspace_tensor
+                del self.prepare_workspace_tensor
+            except Exception as e:
+                logger.warning("Failed to cleanup FlashInfer workspace: %s", e)
+            finally:
+                self.workspace_tensor = None
+                self.prepare_workspace_tensor = None
+                self.mapping = None
+                self.initialized = False
diff --git a/distributed/device_communicators/all_reduce_utils.py b/distributed/device_communicators/all_reduce_utils.py
new file mode 100644
index 0000000..ff2d743
--- /dev/null
+++ b/distributed/device_communicators/all_reduce_utils.py
@@ -0,0 +1,344 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ctypes
+import json
+import os
+import pickle
+import subprocess
+import sys
+import tempfile
+from collections.abc import Sequence
+from itertools import product
+from typing import Any
+
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+import vllm.envs as envs
+from vllm.distributed.device_communicators.cuda_wrapper import CudaRTLibrary
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.utils.system_utils import update_environment_variables
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+logger = init_logger(__name__)
+
+MiB = 1024 * 1024
+# Max size for each world size in case symmetric memory is available
+# For different SM architectures
+CUSTOM_ALL_REDUCE_MAX_SIZES = {
+    "9.0": {
+        2: 64 * MiB,  # 64 MB
+        4: 32 * MiB,  # 32 MB
+        6: MiB // 2,  # 512 KB
+        8: MiB // 4,  # 256 KB
+    },
+    "10.0": {
+        2: 2 * MiB,  # 2 MB
+        4: 2 * MiB,  # 2 MB
+        6: 1 * MiB,  # 1 MB
+        8: 1 * MiB,  # 1 MB
+    },
+}
+
+SYMM_MEM_ALL_REDUCE_MAX_SIZES = {
+    "9.0": {
+        2: 64 * MiB,  # 64 MB
+        4: 32 * MiB,  # 32 MB
+        6: 64 * MiB,  # 64 MB
+        8: 64 * MiB,  # 64 MB
+    },
+    "10.0": {
+        2: 8 * MiB,  # 8 MB
+        4: 32 * MiB,  # 32 MB
+        6: 128 * MiB,  # 128 MB
+        8: 128 * MiB,  # 128 MB
+    },
+}
+
+NCCL_SYMM_MEM_ALL_REDUCE_CONFIG: dict[str, Any] = {
+    "min_world_size": 4,
+    "thresholds": {
+        4: 2 * MiB,  # 2 MB
+        8: 1 * MiB,  # 1 MB
+    },
+    "always_use_above_world_size": 8,  # Always use symm mem for world_size > 8
+}
+
+
+def should_nccl_symm_mem_allreduce(world_size: int, input_tensor: torch.Tensor) -> bool:
+    from vllm.distributed.device_communicators.pynccl_allocator import (
+        is_symmetric_memory_enabled,
+    )
+
+    if vllm_is_batch_invariant():
+        return False
+
+    if not is_symmetric_memory_enabled():
+        return False
+    if world_size < NCCL_SYMM_MEM_ALL_REDUCE_CONFIG["min_world_size"]:
+        return False
+    threshold = NCCL_SYMM_MEM_ALL_REDUCE_CONFIG["thresholds"].get(world_size)
+    if threshold is not None and input_tensor.nbytes >= threshold:
+        return True
+    return world_size > NCCL_SYMM_MEM_ALL_REDUCE_CONFIG["always_use_above_world_size"]
+
+
+def producer(
+    batch_src: Sequence[int],
+    producer_queue,
+    consumer_queue,
+    result_queue,
+    cuda_visible_devices: str | None = None,
+):
+    if cuda_visible_devices is not None:
+        update_environment_variables({"CUDA_VISIBLE_DEVICES": cuda_visible_devices})
+
+    lib = CudaRTLibrary()
+    for i in batch_src:
+        lib.cudaSetDevice(i)
+        pointer = lib.cudaMalloc(1024)
+        lib.cudaMemset(pointer, 1, 1024)
+        lib.cudaDeviceSynchronize()
+        handle = lib.cudaIpcGetMemHandle(pointer)
+        producer_queue.put(handle)
+        open_success = consumer_queue.get()
+        if open_success:
+            # use two queues to simulate barrier
+            producer_queue.put(0)
+            consumer_queue.get()
+            # check if the memory is modified
+            host_data = (ctypes.c_char * 1024)()
+            lib.cudaMemcpy(host_data, pointer, 1024)  # type: ignore
+            for i in range(1024):
+                if ord(host_data[i]) != 2:
+                    open_success = False
+                    break
+        result_queue.put(open_success)
+        lib.cudaDeviceReset()
+
+
+def consumer(
+    batch_tgt: Sequence[int],
+    producer_queue,
+    consumer_queue,
+    result_queue,
+    cuda_visible_devices: str | None = None,
+):
+    if cuda_visible_devices is not None:
+        update_environment_variables({"CUDA_VISIBLE_DEVICES": cuda_visible_devices})
+
+    lib = CudaRTLibrary()
+    for j in batch_tgt:
+        lib.cudaSetDevice(j)
+        handle = producer_queue.get()
+        open_success = False
+        try:
+            pointer = lib.cudaIpcOpenMemHandle(handle)  # type: ignore
+            open_success = True
+        except RuntimeError:
+            # cannot error out here, because the producer process
+            # is still waiting for the response.
+            pass
+        consumer_queue.put(open_success)
+        if open_success:
+            # modify the memory
+            lib.cudaMemset(pointer, 2, 1024)
+            lib.cudaDeviceSynchronize()
+            # use two queues to simulate barrier
+            producer_queue.get()
+            consumer_queue.put(0)
+            # check if the memory is modified
+            host_data = (ctypes.c_char * 1024)()
+            lib.cudaMemcpy(host_data, pointer, 1024)  # type: ignore
+            for i in range(1024):
+                if ord(host_data[i]) != 2:
+                    open_success = False
+                    break
+        result_queue.put(open_success)
+        lib.cudaDeviceReset()
+
+
+def can_actually_p2p(
+    batch_src: Sequence[int],
+    batch_tgt: Sequence[int],
+) -> Sequence[bool]:
+    """
+    Usually, checking if P2P access is enabled can be done by
+    `torch.cuda.can_device_access_peer(src, tgt)`. However, sometimes
+    the driver might be broken, and `torch.cuda.can_device_access_peer(src, tgt)`
+    returns `True` even if P2P access is not actually possible.
+    See https://github.com/vllm-project/vllm/issues/2728 and
+    https://forums.developer.nvidia.com/t/direct-gpu-gpu-communication-does-not-seem-to-work-properly/283264/10
+    Therefore, we have to perform a real P2P access to check if it is actually
+    possible.
+
+    Note on p2p and cuda IPC:
+    Usually, one process uses one GPU:
+    GPU src --> cuda context src --> tensor src --> process src
+
+    We need to combine p2p and cuda IPC, so that:
+    GPU src --> cuda context src --> tensor src --> process src
+                                      |shared|
+    GPU tgt --> cuda context tgt --> tensor tgt --> process tgt
+    That is to say, process src creates a tensor in GPU src, passes IPC handle to
+    process tgt, and process tgt accesses the tensor in GPU tgt. Any operation on the
+    tensor in process tgt will be reflected in the tensor in process src, because
+    they are the same memory segment.
+    It is important to note that process tgt accesses the tensor in GPU tgt, not
+    GPU src. That's why we need p2p access.
+
+    The most time-consuming part is the process creation. To avoid creating
+    processes for every pair of GPUs, we use batched testing. We create two
+    processes for testing all pairs of GPUs in batch. The trick is to reset
+    the device after each test (which is not available in PyTorch).
+    """  # noqa
+    cuda_visible_devices = envs.CUDA_VISIBLE_DEVICES
+    # pass the CUDA_VISIBLE_DEVICES to the child process
+    # to make sure they see the same set of GPUs
+
+    # make sure the processes are spawned
+    smp = mp.get_context("spawn")
+    producer_queue = smp.Queue()
+    consumer_queue = smp.Queue()
+    result_queue = smp.Queue()
+    p_src = smp.Process(
+        target=producer,
+        args=(
+            batch_src,
+            producer_queue,
+            consumer_queue,
+            result_queue,
+            cuda_visible_devices,
+        ),
+    )
+    p_tgt = smp.Process(
+        target=consumer,
+        args=(
+            batch_tgt,
+            producer_queue,
+            consumer_queue,
+            result_queue,
+            cuda_visible_devices,
+        ),
+    )
+    p_src.start()
+    p_tgt.start()
+    p_src.join()
+    p_tgt.join()
+    assert p_src.exitcode == 0 and p_tgt.exitcode == 0
+    result: list[bool] = []
+    for src, tgt in zip(batch_src, batch_tgt):
+        a = result_queue.get()
+        b = result_queue.get()
+        if a != b:
+            logger.warning(
+                "Two processes do not agree on the P2P access"
+                " status on %d -> %d, treat as disabled.",
+                src,
+                tgt,
+            )
+            result.append(False)
+        else:
+            result.append(a)
+    return result
+
+
+# why do we need this cache?
+# we are testing peer-to-peer (p2p) access between GPUs,across processes.
+# if we test it every time, it will be very slow, because we need to create
+#  N * N * 2 processes, where N is the world size. This is very slow.
+# to reduce the time, we use a cache file to store the p2p access status.
+# the cache file is generated by the master process if it does not exist.
+# then all the processes can read the cache file to check the p2p access status.
+# Note that the cache file is suffixed by the CUDA_VISIBLE_DEVICES, so that we
+#  can have different cache files for different CUDA_VISIBLE_DEVICES settings,
+#  e.g. used by different vllm engines. The device id in the cache file is a
+#  **local** device id, i.e. from 0 to num_dev-1, where num_dev is the number
+#  of visible devices in the vllm engine.
+_gpu_p2p_access_cache: dict[str, bool] | None = None
+
+
+def gpu_p2p_access_check(src: int, tgt: int) -> bool:
+    """Check if GPU src can access GPU tgt."""
+
+    # if the cache variable is already calculated,
+    # read from the cache instead of checking it again
+    global _gpu_p2p_access_cache
+    if _gpu_p2p_access_cache is not None:
+        return _gpu_p2p_access_cache[f"{src}->{tgt}"]
+
+    is_distributed = dist.is_initialized()
+
+    num_dev = cuda_device_count_stateless()
+    cuda_visible_devices = envs.CUDA_VISIBLE_DEVICES
+    if cuda_visible_devices is None:
+        cuda_visible_devices = ",".join(str(i) for i in range(num_dev))
+
+    path = os.path.join(
+        envs.VLLM_CACHE_ROOT, f"gpu_p2p_access_cache_for_{cuda_visible_devices}.json"
+    )
+    os.makedirs(os.path.dirname(path), exist_ok=True)
+    from vllm.distributed.parallel_state import get_world_group
+
+    if (not is_distributed or get_world_group().local_rank == 0) and (
+        not os.path.exists(path)
+    ):
+        # only the local master process (with local_rank == 0) can
+        #  enter this block to calculate the cache
+        logger.info("generating GPU P2P access cache in %s", path)
+        cache: dict[str, bool] = {}
+        ids = list(range(num_dev))
+        # batch of all pairs of GPUs
+        batch_src, batch_tgt = zip(*list(product(ids, ids)))
+        # NOTE: we use `subprocess` rather than `multiprocessing` here
+        # because the caller might not have `if __name__ == "__main__":`,
+        # in that case we cannot use spawn method in multiprocessing.
+        # However, `can_actually_p2p` requires spawn method.
+        # The fix is, we use `subprocess` to call the function,
+        # where we have `if __name__ == "__main__":` in this file.
+
+        # use a temporary file to store the result
+        # we don't use the output of the subprocess directly,
+        # because the subprocess might produce logging output
+        with tempfile.NamedTemporaryFile() as output_file:
+            input_bytes = pickle.dumps((batch_src, batch_tgt, output_file.name))
+            returned = subprocess.run(
+                [sys.executable, __file__], input=input_bytes, capture_output=True
+            )
+            # check if the subprocess is successful
+            try:
+                returned.check_returncode()
+            except Exception as e:
+                # wrap raised exception to provide more information
+                raise RuntimeError(
+                    f"Error happened when batch testing "
+                    f"peer-to-peer access from {batch_src} to {batch_tgt}:\n"
+                    f"{returned.stderr.decode()}"
+                ) from e
+            with open(output_file.name, "rb") as f:
+                result = pickle.load(f)
+        for _i, _j, r in zip(batch_src, batch_tgt, result):
+            cache[f"{_i}->{_j}"] = r
+        with open(path, "w") as f:
+            json.dump(cache, f, indent=4)
+    if is_distributed:
+        get_world_group().barrier()
+    logger.info("reading GPU P2P access cache from %s", path)
+    with open(path) as f:
+        cache = json.load(f)
+    _gpu_p2p_access_cache = cache
+    return _gpu_p2p_access_cache[f"{src}->{tgt}"]
+
+
+__all__ = ["gpu_p2p_access_check"]
+
+if __name__ == "__main__":
+    batch_src, batch_tgt, output_file = pickle.loads(sys.stdin.buffer.read())
+    result = can_actually_p2p(batch_src, batch_tgt)
+    with open(output_file, "wb") as f:
+        f.write(pickle.dumps(result))
diff --git a/distributed/device_communicators/base_device_communicator.py b/distributed/device_communicators/base_device_communicator.py
new file mode 100644
index 0000000..cfa81cc
--- /dev/null
+++ b/distributed/device_communicators/base_device_communicator.py
@@ -0,0 +1,311 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import threading
+from weakref import WeakValueDictionary
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+import ixformer.distributed as ixfd
+import os
+
+class Cache:
+    def __init__(self):
+        self._cache: WeakValueDictionary = WeakValueDictionary()
+        self._lock = threading.RLock()  # Reentrant lock for thread safety
+
+    def get_or_create(self, kwargs, func):
+        # Create a hashable key from the kwargs
+        key = tuple(sorted((k, v) for k, v in kwargs.items()))
+
+        with self._lock:
+            instance = self._cache.get(key)
+            if instance is None:
+                instance = func(**kwargs)
+                self._cache[key] = instance
+            return instance
+
+
+class All2AllManagerBase:
+    rank: int
+    world_size: int
+
+    def __init__(self, cpu_group):
+        self.cpu_group = cpu_group
+
+        # compute some common properties
+        from vllm.distributed.parallel_state import (
+            get_dp_group,
+            get_tp_group,
+            in_the_same_node_as,
+        )
+
+        # all2all lives in ep group, which is merged from dp and tp group
+        self.dp_group = get_dp_group()
+        self.tp_group = get_tp_group()
+
+        # no self.ep_group since self.ep_group is still in construction
+        # when we create this object
+        self.dp_rank = self.dp_group.rank_in_group
+        self.dp_world_size = self.dp_group.world_size
+        self.rank = dist.get_rank(cpu_group)
+        self.world_size = dist.get_world_size(cpu_group)
+
+        # all2all communication often has separate implementations for
+        # intra-node and inter-node communication
+        self.internode = not all(in_the_same_node_as(cpu_group, source_rank=0))
+
+    def get_handle(self, kwargs):
+        # get a handle for the all2all communication,
+        # based on the kwargs.
+        # different layers can have different configs,
+        # e.g. one layer has hidden size 1024, another has 2048.
+        # usually the underlying implementation caches the handle
+        # and reuse it for the same config.
+        raise NotImplementedError
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ):
+        raise NotImplementedError
+
+    def set_num_sms(self, num_sms: int):
+        pass
+
+    def max_sms_used(self) -> int | None:
+        return None  # None means it could use the whole GPU
+
+    def combine(self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False):
+        raise NotImplementedError
+
+    def destroy(self):
+        pass
+
+
+class DeviceCommunicatorBase:
+    """
+    Base class for device-specific communicator.
+    It can use the `cpu_group` to initialize the communicator.
+    If the device has PyTorch integration (PyTorch can recognize its
+    communication backend), the `device_group` will also be given.
+    """
+
+    def __init__(
+        self,
+        cpu_group: ProcessGroup,
+        device: torch.device | None = None,
+        device_group: ProcessGroup | None = None,
+        unique_name: str = "",
+    ):
+        self.device = device or torch.device("cpu")
+        self.cpu_group = cpu_group
+        self.device_group = device_group
+        self.unique_name = unique_name
+        self.rank = dist.get_rank(cpu_group)
+        self.world_size = dist.get_world_size(cpu_group)
+        self.ranks = dist.get_process_group_ranks(cpu_group)
+        self.global_rank = dist.get_rank()
+        self.global_world_size = dist.get_world_size()
+        self.rank_in_group = dist.get_group_rank(self.cpu_group, self.global_rank)
+
+        use_ep = False
+        all2all_backend = None
+        from vllm.config import get_current_vllm_config
+
+        config = get_current_vllm_config()
+        if config is not None:
+            # as long as we use data parallel (coupled data parallel
+            # where all data parallel ranks execute forward together),
+            # we initialize the all2all manager used in expert parallel.
+            use_ep = config.parallel_config.data_parallel_size > 1
+            all2all_backend = config.parallel_config.all2all_backend
+
+        self.is_ep_communicator = "ep" in unique_name
+        self.use_all2all = self.is_ep_communicator and use_ep
+        self.all2all_backend = all2all_backend
+        self.all2all_manager: All2AllManagerBase | None = None
+
+    def all_reduce(self, input_: torch.Tensor) -> torch.Tensor:
+        dist.all_reduce(input_, group=self.device_group)
+        return input_
+
+    def all_gather(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+        input_size = input_.size()
+        # NOTE: we have to use concat-style all-gather here,
+        # stack-style all-gather has compatibility issues with
+        # torch.compile . see https://github.com/pytorch/pytorch/issues/138795
+        output_size = (input_size[0] * self.world_size,) + input_size[1:]
+        # Allocate output tensor.
+        output_tensor = torch.empty(
+            output_size, dtype=input_.dtype, device=input_.device
+        )
+        # All-gather.
+        if self.use_vllm_comm:
+            ixfd.all_gather_into_tensor(output_tensor,
+                                        input_,
+                                        group=self.device_group,
+                                        async_op=True)
+        else:
+            dist.all_gather_into_tensor(output_tensor, input_, group=self.device_group)
+        # Reshape
+        output_tensor = output_tensor.reshape((self.world_size,) + input_size)
+        output_tensor = output_tensor.movedim(0, dim)
+        output_tensor = output_tensor.reshape(
+            input_size[:dim]
+            + (self.world_size * input_size[dim],)
+            + input_size[dim + 1 :]
+        )
+        return output_tensor
+
+    def all_gatherv(
+        self,
+        input_: torch.Tensor | list[torch.Tensor],
+        dim: int = 0,
+        sizes: list[int] | None = None,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        raise NotImplementedError
+
+    def reduce_scatter(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        world_size = self.world_size
+        # Bypass the function if we are using only 1 GPU.
+        if world_size == 1:
+            return input_
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+
+        # Note: This will produce an incorrect answer if we don't make
+        # the input_tensor contiguous. Possible bug in reduce_scatter_tensor?
+        input_tensor = input_.movedim(0, dim).contiguous()
+
+        assert input_tensor.shape[0] % world_size == 0
+        chunk_size = input_tensor.shape[0] // world_size
+        output_shape = (chunk_size,) + input_tensor.shape[1:]
+
+        output_tensor = torch.empty(
+            output_shape, dtype=input_tensor.dtype, device=input_tensor.device
+        )
+
+        # Perform reduce-scatter operation
+        torch.distributed.reduce_scatter_tensor(
+            output_tensor, input_tensor, group=self.device_group
+        )
+
+        # Reshape before returning
+        return output_tensor.movedim(0, dim).contiguous()
+
+    def reduce_scatterv(
+        self, input_: torch.Tensor, dim: int = -1, sizes: list[int] | None = None
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def gather(
+        self, input_: torch.Tensor, dst: int = 0, dim: int = -1
+    ) -> torch.Tensor | None:
+        """
+        NOTE: We assume that the input tensor is on the same device across
+        all the ranks.
+        NOTE: `dst` is the local rank of the destination rank.
+        """
+        world_size = self.world_size
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+
+        # Allocate output tensor.
+        if self.rank_in_group == dst:
+            gather_list = [torch.empty_like(input_) for _ in range(world_size)]
+        else:
+            gather_list = None
+        # Gather.
+        if self.use_vllm_comm:
+            ixfd.gather(input_,
+                        gather_list,
+                        dst=self.ranks[dst],
+                        group=self.device_group,
+                        async_op=True)
+        else:
+            torch.distributed.gather(
+            input_, gather_list, dst=self.ranks[dst], group=self.device_group
+        )
+        if self.rank_in_group == dst:
+            output_tensor = torch.cat(gather_list, dim=dim)
+        else:
+            output_tensor = None
+        return output_tensor
+
+    def send(self, tensor: torch.Tensor, dst: int | None = None) -> None:
+        """Sends a tensor to the destination rank in a blocking way"""
+        """NOTE: `dst` is the local rank of the destination rank."""
+        if dst is None:
+            dst = (self.rank_in_group + 1) % self.world_size
+        torch.distributed.send(tensor, self.ranks[dst], self.device_group)
+
+    def recv(
+        self, size: torch.Size, dtype: torch.dtype, src: int | None = None
+    ) -> torch.Tensor:
+        """Receives a tensor from the source rank."""
+        """NOTE: `src` is the local rank of the source rank."""
+        if src is None:
+            src = (self.rank_in_group - 1) % self.world_size
+
+        tensor = torch.empty(size, dtype=dtype, device=self.device)
+        torch.distributed.recv(tensor, self.ranks[src], self.device_group)
+        return tensor
+
+    def destroy(self):
+        pass
+
+    def prepare_communication_buffer_for_model(self, model: torch.nn.Module) -> None:
+        """
+        Prepare the communication buffer for the model.
+        """
+        if not self.is_ep_communicator:
+            return
+
+        moe_modules = [
+            module
+            for module in model.modules()
+            # TODO(bnell): Should use isinstance but can't.  Maybe search for
+            # presence of quant_method.maybe_init_modular_kernel?
+            if (
+                module.__class__.__name__ == "FusedMoE"
+                or module.__class__.__name__ == "SharedFusedMoE"
+            )
+        ]
+        for module in moe_modules:
+            module.maybe_init_modular_kernel()
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Dispatch the hidden states and router logits to the appropriate device.
+        This is a no-op in the base class.
+        """
+        return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        """
+        Combine the hidden states and router logits from the appropriate device.
+        This is a no-op in the base class.
+        """
+        return hidden_states
diff --git a/distributed/device_communicators/cpu_communicator.py b/distributed/device_communicators/cpu_communicator.py
new file mode 100644
index 0000000..fdfb74d
--- /dev/null
+++ b/distributed/device_communicators/cpu_communicator.py
@@ -0,0 +1,209 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from typing import Any
+
+import torch
+from torch.distributed import ProcessGroup
+
+from vllm.distributed.utils import pickle
+from vllm.platforms import current_platform
+from vllm.platforms.interface import CpuArchEnum
+
+from .base_device_communicator import DeviceCommunicatorBase
+
+
+class CpuCommunicator(DeviceCommunicatorBase):
+    def __init__(
+        self,
+        cpu_group: ProcessGroup,
+        device: torch.device | None = None,
+        device_group: ProcessGroup | None = None,
+        unique_name: str = "",
+    ):
+        super().__init__(cpu_group, device, device_group, unique_name)
+        self.dist_module = torch.distributed
+
+        if (
+            (current_platform.get_cpu_architecture() == CpuArchEnum.X86)
+            and hasattr(torch.ops._C, "init_shm_manager")
+            and (unique_name.startswith("tp") or unique_name.startswith("pp"))
+        ):
+            self.dist_module = _CPUSHMDistributed(self)
+
+    def all_reduce(self, input_):
+        self.dist_module.all_reduce(input_, group=self.device_group)
+        return input_
+
+    def gather(
+        self, input_: torch.Tensor, dst: int = 0, dim: int = -1
+    ) -> torch.Tensor | None:
+        """
+        NOTE: We assume that the input tensor is on the same device across
+        all the ranks.
+        NOTE: `dst` is the local rank of the destination rank.
+        """
+        world_size = self.world_size
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+
+        # Allocate output tensor.
+        if self.rank_in_group == dst:
+            gather_list = [torch.empty_like(input_) for _ in range(world_size)]
+        else:
+            gather_list = None
+
+        # Gather.
+        self.dist_module.gather(
+            input_, gather_list, dst=self.ranks[dst], group=self.device_group
+        )
+
+        if self.rank_in_group == dst:
+            output_tensor = torch.cat(gather_list, dim=dim)
+        else:
+            output_tensor = None
+        return output_tensor
+
+    def all_gather(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+        input_size = input_.size()
+        # NOTE: we have to use concat-style all-gather here,
+        # stack-style all-gather has compatibility issues with
+        # torch.compile . see https://github.com/pytorch/pytorch/issues/138795
+        output_size = (input_size[0] * self.world_size,) + input_size[1:]
+        # Allocate output tensor.
+        output_tensor = torch.empty(
+            output_size, dtype=input_.dtype, device=input_.device
+        )
+        # All-gather.
+        self.dist_module.all_gather_into_tensor(
+            output_tensor, input_, group=self.device_group
+        )
+
+        # Reshape
+        output_tensor = output_tensor.reshape((self.world_size,) + input_size)
+        output_tensor = output_tensor.movedim(0, dim)
+        output_tensor = output_tensor.reshape(
+            input_size[:dim]
+            + (self.world_size * input_size[dim],)
+            + input_size[dim + 1 :]
+        )
+        return output_tensor
+
+    def send_tensor_dict(
+        self,
+        tensor_dict: dict[str, torch.Tensor | Any],
+        dst: int,
+    ) -> None:
+        return self.dist_module.send_tensor_dict(tensor_dict, dst)
+
+    def recv_tensor_dict(
+        self,
+        src: int,
+    ) -> dict[str, torch.Tensor | Any]:
+        return self.dist_module.recv_tensor_dict(src)
+
+
+class _CPUSHMDistributed:
+    def __init__(self, communicator: CpuCommunicator):
+        instance_identifier = os.environ["VLLM_DIST_IDENT"]
+        unique_name = communicator.unique_name
+        instance_identifier = f"{instance_identifier}-{unique_name}"
+        self.communicator = communicator
+
+        group_ranks = [str(rank) for rank in self.communicator.ranks]
+        shm_group_identifier = f"[{'-'.join(group_ranks)}]"
+        self.group_name = f"{instance_identifier}-{shm_group_identifier}-cpushm"
+
+        self.handle = self._init_cpu_shm()
+
+    def _init_cpu_shm(self) -> int:
+        handle = torch.ops._C.init_shm_manager(
+            self.group_name,
+            self.communicator.world_size,
+            self.communicator.rank,
+        )
+        torch.distributed.barrier(self.communicator.device_group)
+        torch.ops._C.join_shm_manager(
+            handle,
+            self.group_name,
+        )
+        torch.distributed.barrier(self.communicator.device_group)
+
+        return handle
+
+    def all_reduce(
+        self, input: torch.Tensor, group: ProcessGroup | None = None
+    ) -> None:
+        torch.ops._C.shm_allreduce(self.handle, input)
+
+    def gather(
+        self,
+        input: torch.Tensor,
+        gather_list: list[torch.Tensor] | None,
+        dst: int = -1,
+        group: ProcessGroup | None = None,
+    ) -> None:
+        # Note: different from the torch gather, here we use local dst rank.
+        torch.ops._C.shm_gather(
+            self.handle,
+            input,
+            gather_list,
+            torch.distributed.get_group_rank(group, dst),
+        )
+
+    def all_gather_into_tensor(
+        self,
+        output: torch.Tensor,
+        input: torch.Tensor,
+        group: ProcessGroup | None = None,
+    ) -> None:
+        torch.ops._C.shm_all_gather(self.handle, input, output)
+
+    def send_tensor_dict(
+        self,
+        tensor_dict: dict[str, torch.Tensor | Any],
+        dst: int,
+    ) -> None:
+        key_list = list(tensor_dict.keys())
+        value_list = list(tensor_dict.values())
+        size_list = []
+        for v in value_list:
+            if not isinstance(v, torch.Tensor):
+                raise RuntimeError("CpuCommunicator only supports sending tensors.")
+            size_list.append(v.size())
+        key_size_tensor = torch.frombuffer(
+            pickle.dumps([key_list, size_list]), dtype=torch.uint8
+        )
+        value_list.append(key_size_tensor)
+
+        torch.ops._C.shm_send_tensor_list(self.handle, value_list, dst)
+
+        return None
+
+    def recv_tensor_dict(
+        self,
+        src: int,
+    ) -> dict[str, torch.Tensor | Any]:
+        tensor_list = torch.ops._C.shm_recv_tensor_list(self.handle, src)
+
+        value_list: list[torch.Tensor] = tensor_list[:-1]
+        key_size_tensor = tensor_list[-1]
+
+        key_size = pickle.loads(key_size_tensor.numpy().tobytes())
+        key_list = key_size[0]
+        size_list = key_size[1]
+        assert len(key_list) == len(size_list)
+        assert len(key_list) == len(value_list)
+
+        tensor_dict: dict[str, torch.Tensor] = {}
+        for key, size, t in zip(key_list, size_list, value_list):
+            tensor_dict[key] = t.view(size)
+        return tensor_dict
diff --git a/distributed/device_communicators/cuda_communicator.py b/distributed/device_communicators/cuda_communicator.py
new file mode 100644
index 0000000..9c04664
--- /dev/null
+++ b/distributed/device_communicators/cuda_communicator.py
@@ -0,0 +1,333 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+from torch.distributed import ProcessGroup
+
+import vllm.envs as envs
+from vllm.distributed.device_communicators.all_reduce_utils import (
+    should_nccl_symm_mem_allreduce,
+)
+from vllm.distributed.device_communicators.pynccl import register_nccl_symmetric_ops
+from vllm.distributed.device_communicators.pynccl_allocator import (
+    is_symmetric_memory_enabled,
+)
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from .base_device_communicator import DeviceCommunicatorBase
+import ixformer.distributed as ixfd
+import os
+logger = init_logger(__name__)
+
+
+class CudaCommunicator(DeviceCommunicatorBase):
+    def __init__(
+        self,
+        cpu_group: ProcessGroup,
+        device: torch.device | None = None,
+        device_group: ProcessGroup | None = None,
+        unique_name: str = "",
+    ):
+        super().__init__(cpu_group, device, device_group, unique_name)
+        if "tp" not in unique_name:
+            # custom allreduce or torch symm mem can be used only by tp
+            use_custom_allreduce = False
+            use_torch_symm_mem = False
+        else:
+            from vllm.distributed.parallel_state import _ENABLE_CUSTOM_ALL_REDUCE
+
+            use_custom_allreduce = _ENABLE_CUSTOM_ALL_REDUCE
+            use_torch_symm_mem = envs.VLLM_ALLREDUCE_USE_SYMM_MEM
+
+        self.use_custom_allreduce = use_custom_allreduce
+        self.use_torch_symm_mem = use_torch_symm_mem
+        
+        self.use_vllm_comm = os.environ.get("VLLM_FORCE_NCCL_COMM",None) not in ["1", "Y", "y"]
+
+        # lazy import to avoid documentation build error
+        from vllm.distributed.device_communicators.custom_all_reduce import (
+            CustomAllreduce,
+        )
+        from vllm.distributed.device_communicators.pynccl import PyNcclCommunicator
+        from vllm.distributed.device_communicators.quick_all_reduce import (
+            QuickAllReduce,
+        )
+        from vllm.distributed.device_communicators.symm_mem import SymmMemCommunicator
+
+        self.pynccl_comm: PyNcclCommunicator | None = None
+        if self.world_size > 1:
+            self.pynccl_comm = PyNcclCommunicator(
+                group=self.cpu_group,
+                device=self.device,
+            )
+            if is_symmetric_memory_enabled():
+                register_nccl_symmetric_ops(self.pynccl_comm)
+
+        self.ca_comm: CustomAllreduce | None = None
+        self.qr_comm: QuickAllReduce | None = None
+        self.symm_mem_comm: SymmMemCommunicator | None = None
+        if use_torch_symm_mem and current_platform.is_cuda():
+            self.symm_mem_comm = SymmMemCommunicator(
+                group=self.cpu_group,
+                device=self.device,
+            )
+
+        if use_custom_allreduce and self.world_size > 1:
+            # Initialize a custom fast all-reduce implementation.
+            self.ca_comm = CustomAllreduce(
+                group=self.cpu_group,
+                device=self.device,
+                symm_mem_enabled=(
+                    self.symm_mem_comm is not None and not self.symm_mem_comm.disabled
+                ),
+            )
+
+            if current_platform.is_rocm():
+                # Initialize a custom quick all-reduce implementation for AMD.
+                # Quick reduce is designed as a complement to custom allreduce.
+                # Based on quickreduce (https://github.com/mk1-project/quickreduce).
+                # If it's a rocm, 'use_custom_allreduce==True' means it must
+                # currently be an MI300 series.
+                self.qr_comm = QuickAllReduce(group=self.cpu_group, device=self.device)
+
+        if self.use_all2all:
+            if self.all2all_backend == "naive":
+                from .all2all import NaiveAll2AllManager
+
+                self.all2all_manager = NaiveAll2AllManager(self.cpu_group)
+            elif self.all2all_backend == "allgather_reducescatter":
+                from .all2all import AgRsAll2AllManager
+
+                self.all2all_manager = AgRsAll2AllManager(self.cpu_group)
+            elif self.all2all_backend == "pplx":
+                from .all2all import PPLXAll2AllManager
+
+                self.all2all_manager = PPLXAll2AllManager(self.cpu_group)
+            elif self.all2all_backend == "deepep_high_throughput":
+                from .all2all import DeepEPHTAll2AllManager
+
+                self.all2all_manager = DeepEPHTAll2AllManager(self.cpu_group)
+            elif self.all2all_backend == "deepep_low_latency":
+                from .all2all import DeepEPLLAll2AllManager
+
+                self.all2all_manager = DeepEPLLAll2AllManager(self.cpu_group)
+            elif self.all2all_backend == "flashinfer_all2allv":
+                from .all2all import FlashInferAllToAllManager
+
+                self.all2all_manager = FlashInferAllToAllManager(self.cpu_group)
+            else:
+                raise ValueError(f"Unknown all2all backend: {self.all2all_backend}")
+
+            logger.info_once(
+                "Using %s all2all manager.",
+                self.all2all_manager.__class__.__name__,
+                scope="global",
+            )
+
+    def all_reduce(self, input_):
+        # since currently we perform copy input -> symm_input -> out-of-place AR
+        # return symm_output, we don't need to check if input is symmetric
+        if self.pynccl_comm is not None and should_nccl_symm_mem_allreduce(
+            self.pynccl_comm.world_size, input_
+        ):
+            out = torch.ops.vllm.all_reduce_symmetric_with_copy(input_)
+            if out is not None:
+                return out
+        # always try quick reduce first, then custom allreduce,
+        # and then pynccl. (quick reduce just for ROCM MI3*)
+        qr_comm = self.qr_comm
+        if (
+            qr_comm is not None
+            and not qr_comm.disabled
+            and qr_comm.should_quick_allreduce(input_)
+        ):
+            out = qr_comm.quick_all_reduce(input_)
+            assert out is not None
+            return out
+        ca_comm = self.ca_comm
+        if (
+            ca_comm is not None
+            and not ca_comm.disabled
+            and ca_comm.should_custom_ar(input_)
+        ):
+            out = ca_comm.custom_all_reduce(input_)
+            assert out is not None
+            return out
+        symm_mem_comm = self.symm_mem_comm
+        if symm_mem_comm is not None and symm_mem_comm.should_use_symm_mem(input_):
+            out = symm_mem_comm.all_reduce(input_)
+            assert out is not None
+            return out
+        if self.world_size == 1:
+            return input_
+        
+        if self.use_vllm_comm:
+            ixfd.all_reduce(input_, group=self.device_group, async_op=True)
+        else:
+            torch.distributed.all_reduce(input_, group=self.device_group)   
+        return input_
+
+    def reduce_scatter(self, input_: torch.Tensor, dim: int = -1):
+        world_size = self.world_size
+        pynccl_comm = self.pynccl_comm
+        assert pynccl_comm is not None
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+
+        # Note: This will produce an incorrect answer if we don't make
+        # the input_tensor contiguous. Possible bug in reduce_scatter_tensor?
+        input_tensor = input_.movedim(0, dim).contiguous()
+
+        assert input_tensor.shape[0] % world_size == 0
+        chunk_size = input_tensor.shape[0] // world_size
+        output_shape = (chunk_size,) + input_tensor.shape[1:]
+
+        output = torch.empty(
+            output_shape, dtype=input_tensor.dtype, device=input_tensor.device
+        )
+
+        # Perform reduce-scatter operation
+        ixfd.reduce_scatter_tensor(output,input_tensor,group=self.device_group, async_op=True)
+
+        # Reshape before returning
+        return output.movedim(0, dim).contiguous()
+
+    def reduce_scatterv(
+        self, input_: torch.Tensor, dim: int = -1, sizes: list[int] | None = None
+    ):
+        world_size = self.world_size
+        pynccl_comm = self.pynccl_comm
+        assert pynccl_comm is not None
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+
+        # Note: This will produce an incorrect answer if we don't make
+        # the input_tensor contiguous. Possible bug in reduce_scatter_tensor?
+        input_tensor = input_.movedim(0, dim).contiguous()
+
+        if sizes is not None:
+            assert len(sizes) == world_size
+            assert input_tensor.shape[0] == sum(sizes)
+            chunk_size = sizes[self.rank_in_group]
+        else:
+            assert input_tensor.shape[0] % world_size == 0
+            chunk_size = input_tensor.shape[0] // world_size
+        output_shape = (chunk_size,) + input_tensor.shape[1:]
+
+        output = torch.empty(
+            output_shape, dtype=input_tensor.dtype, device=input_tensor.device
+        )
+
+        if sizes is not None:
+            pynccl_comm.reduce_scatterv(output, input_tensor, sizes=sizes)
+        else:
+            pynccl_comm.reduce_scatter(output, input_tensor)
+
+        # Reshape before returning
+        return output.movedim(0, dim).contiguous()
+
+    def send(self, tensor: torch.Tensor, dst: int | None = None) -> None:
+        """Sends a tensor to the destination rank in a blocking way"""
+        """NOTE: `dst` is the local rank of the destination rank."""
+        if dst is None:
+            dst = (self.rank_in_group + 1) % self.world_size
+        if self.use_vllm_comm:
+                ixfd.send(tensor, self.ranks[dst], self.device_group)
+        else:
+            torch.distributed.send(tensor, self.ranks[dst], self.device_group)
+
+    def recv(
+        self, size: torch.Size, dtype: torch.dtype, src: int | None = None
+    ) -> torch.Tensor:
+        """Receives a tensor from the source rank."""
+        """NOTE: `src` is the local rank of the source rank."""
+        if src is None:
+            src = (self.rank_in_group - 1) % self.world_size
+
+        tensor = torch.empty(size, dtype=dtype, device=self.device)
+        if self.use_vllm_comm:
+            ixfd.recv(tensor, self.ranks[src], self.device_group)
+        else:
+            torch.distributed.recv(tensor, self.ranks[src], self.device_group)
+        return tensor
+
+    def destroy(self):
+        if self.pynccl_comm is not None:
+            self.pynccl_comm = None
+        if self.ca_comm is not None:
+            self.ca_comm = None
+        if self.all2all_manager is not None:
+            self.all2all_manager.destroy()
+            self.all2all_manager = None
+
+    def all_gatherv(
+        self,
+        input_: torch.Tensor | list[torch.Tensor],
+        dim: int = 0,
+        sizes: list[int] | None = None,
+    ):
+        if dim != 0:
+            raise NotImplementedError("only dim 0 all-gatherv is supported")
+        world_size = self.world_size
+        pynccl_comm = self.pynccl_comm
+        assert pynccl_comm is not None and not pynccl_comm.disabled
+
+        # 'sizes' is not needed if all inputs in the same group have the same
+        # shape
+        if sizes is not None and all(s == sizes[0] for s in sizes):
+            sizes = None
+
+        def _all_gather_single(input_: torch.Tensor, sizes: list[int] | None = None):
+            input_size = input_.size()
+            if sizes is not None:
+                assert len(sizes) == world_size
+                assert input_.shape[dim] == sizes[self.rank_in_group], (
+                    f"{input_.shape[dim]} != {sizes[self.rank_in_group]}"
+                )
+                output_size = (sum(sizes),) + input_size[1:]
+            else:
+                output_size = (input_size[0] * world_size,) + input_size[1:]
+            # Allocate output tensor.
+            output_tensor = torch.empty(
+                output_size, dtype=input_.dtype, device=input_.device
+            )
+            if sizes is not None:
+                pynccl_comm.all_gatherv(output_tensor, input_, sizes=sizes)
+            else:
+                pynccl_comm.all_gather(output_tensor, input_)
+            return output_tensor
+
+        if isinstance(input_, torch.Tensor):
+            return _all_gather_single(input_, sizes)
+
+        output_list = []
+        pynccl_comm.group_start()
+        for inp in input_:
+            output_list.append(_all_gather_single(inp, sizes=sizes))
+        pynccl_comm.group_end()
+
+        return output_list
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        assert self.all2all_manager is not None
+        hidden_states, router_logits = self.all2all_manager.dispatch(
+            hidden_states, router_logits, is_sequence_parallel
+        )
+        return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        assert self.all2all_manager is not None
+        hidden_states = self.all2all_manager.combine(
+            hidden_states, is_sequence_parallel
+        )
+        return hidden_states
diff --git a/distributed/device_communicators/cuda_wrapper.py b/distributed/device_communicators/cuda_wrapper.py
new file mode 100644
index 0000000..6aadab3
--- /dev/null
+++ b/distributed/device_communicators/cuda_wrapper.py
@@ -0,0 +1,216 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""This file is a pure Python wrapper for the cudart library.
+It avoids the need to compile a separate shared library, and is
+convenient for use when we just need to call a few functions.
+"""
+
+import ctypes
+from dataclasses import dataclass
+from typing import Any
+
+# this line makes it possible to directly load `libcudart.so` using `ctypes`
+import torch  # noqa
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+# === export types and functions from cudart to Python ===
+# for the original cudart definition, please check
+# https://docs.nvidia.com/cuda/cuda-runtime-api/index.html
+
+cudaError_t = ctypes.c_int
+cudaMemcpyKind = ctypes.c_int
+
+
+class cudaIpcMemHandle_t(ctypes.Structure):
+    _fields_ = [("internal", ctypes.c_byte * 128)]
+
+
+@dataclass
+class Function:
+    name: str
+    restype: Any
+    argtypes: list[Any]
+
+
+def find_loaded_library(lib_name) -> str | None:
+    """
+    According to according to https://man7.org/linux/man-pages/man5/proc_pid_maps.5.html,
+    the file `/proc/self/maps` contains the memory maps of the process, which includes the
+    shared libraries loaded by the process. We can use this file to find the path of the
+    a loaded library.
+    """  # noqa
+    found = False
+    with open("/proc/self/maps") as f:
+        for line in f:
+            if lib_name in line:
+                found = True
+                break
+    if not found:
+        # the library is not loaded in the current process
+        return None
+    # if lib_name is libcudart, we need to match a line with:
+    # address /path/to/libcudart-hash.so.11.0
+    start = line.index("/")
+    path = line[start:].strip()
+    filename = path.split("/")[-1]
+    assert filename.rpartition(".so")[0].startswith(lib_name), (
+        f"Unexpected filename: {filename} for library {lib_name}"
+    )
+    return path
+
+
+class CudaRTLibrary:
+    exported_functions = [
+        # ​cudaError_t cudaSetDevice ( int  device )
+        Function("cudaSetDevice", cudaError_t, [ctypes.c_int]),
+        # cudaError_t 	cudaDeviceSynchronize ( void )
+        Function("cudaDeviceSynchronize", cudaError_t, []),
+        # ​cudaError_t cudaDeviceReset ( void )
+        Function("cudaDeviceReset", cudaError_t, []),
+        # const char* 	cudaGetErrorString ( cudaError_t error )
+        Function("cudaGetErrorString", ctypes.c_char_p, [cudaError_t]),
+        # ​cudaError_t 	cudaMalloc ( void** devPtr, size_t size )
+        Function(
+            "cudaMalloc",
+            cudaError_t,
+            [ctypes.POINTER(ctypes.c_void_p), ctypes.c_size_t],
+        ),
+        # ​cudaError_t 	cudaFree ( void* devPtr )
+        Function("cudaFree", cudaError_t, [ctypes.c_void_p]),
+        # ​cudaError_t cudaMemset ( void* devPtr, int  value, size_t count )
+        Function(
+            "cudaMemset", cudaError_t, [ctypes.c_void_p, ctypes.c_int, ctypes.c_size_t]
+        ),
+        # ​cudaError_t cudaMemcpy ( void* dst, const void* src, size_t count, cudaMemcpyKind kind ) # noqa
+        Function(
+            "cudaMemcpy",
+            cudaError_t,
+            [ctypes.c_void_p, ctypes.c_void_p, ctypes.c_size_t, cudaMemcpyKind],
+        ),
+        # cudaError_t cudaIpcGetMemHandle ( cudaIpcMemHandle_t* handle, void* devPtr ) # noqa
+        Function(
+            "cudaIpcGetMemHandle",
+            cudaError_t,
+            [ctypes.POINTER(cudaIpcMemHandle_t), ctypes.c_void_p],
+        ),
+        # ​cudaError_t cudaIpcOpenMemHandle ( void** devPtr, cudaIpcMemHandle_t handle, unsigned int  flags ) # noqa
+        Function(
+            "cudaIpcOpenMemHandle",
+            cudaError_t,
+            [ctypes.POINTER(ctypes.c_void_p), cudaIpcMemHandle_t, ctypes.c_uint],
+        ),
+    ]
+
+    # https://rocm.docs.amd.com/projects/HIPIFY/en/latest/tables/CUDA_Runtime_API_functions_supported_by_HIP.html # noqa
+    cuda_to_hip_mapping = {
+        "cudaSetDevice": "hipSetDevice",
+        "cudaDeviceSynchronize": "hipDeviceSynchronize",
+        "cudaDeviceReset": "hipDeviceReset",
+        "cudaGetErrorString": "hipGetErrorString",
+        "cudaMalloc": "hipMalloc",
+        "cudaFree": "hipFree",
+        "cudaMemset": "hipMemset",
+        "cudaMemcpy": "hipMemcpy",
+        "cudaIpcGetMemHandle": "hipIpcGetMemHandle",
+        "cudaIpcOpenMemHandle": "hipIpcOpenMemHandle",
+    }
+
+    # class attribute to store the mapping from the path to the library
+    # to avoid loading the same library multiple times
+    path_to_library_cache: dict[str, Any] = {}
+
+    # class attribute to store the mapping from library path
+    #  to the corresponding dictionary
+    path_to_dict_mapping: dict[str, dict[str, Any]] = {}
+
+    def __init__(self, so_file: str | None = None):
+        if so_file is None:
+            so_file = find_loaded_library("libcudart")
+            if so_file is None:
+                # libcudart is not loaded in the current process, try hip
+                so_file = find_loaded_library("libamdhip64")
+                # should be safe to assume now that we are using ROCm
+                # as the following assertion should error out if the
+                # libhiprtc library is also not loaded
+                if so_file is None:
+                    so_file = envs.VLLM_CUDART_SO_PATH  # fallback to env var
+            assert so_file is not None, (
+                "libcudart is not loaded in the current process, "
+                "try setting VLLM_CUDART_SO_PATH"
+            )
+        if so_file not in CudaRTLibrary.path_to_library_cache:
+            lib = ctypes.CDLL(so_file)
+            CudaRTLibrary.path_to_library_cache[so_file] = lib
+        self.lib = CudaRTLibrary.path_to_library_cache[so_file]
+
+        if so_file not in CudaRTLibrary.path_to_dict_mapping:
+            _funcs = {}
+            for func in CudaRTLibrary.exported_functions:
+                f = getattr(
+                    self.lib,
+                    CudaRTLibrary.cuda_to_hip_mapping[func.name]
+                    if current_platform.is_rocm()
+                    else func.name,
+                )
+                f.restype = func.restype
+                f.argtypes = func.argtypes
+                _funcs[func.name] = f
+            CudaRTLibrary.path_to_dict_mapping[so_file] = _funcs
+        self.funcs = CudaRTLibrary.path_to_dict_mapping[so_file]
+
+    def CUDART_CHECK(self, result: cudaError_t) -> None:
+        if result != 0:
+            error_str = self.cudaGetErrorString(result)
+            raise RuntimeError(f"CUDART error: {error_str}")
+
+    def cudaGetErrorString(self, error: cudaError_t) -> str:
+        return self.funcs["cudaGetErrorString"](error).decode("utf-8")
+
+    def cudaSetDevice(self, device: int) -> None:
+        self.CUDART_CHECK(self.funcs["cudaSetDevice"](device))
+
+    def cudaDeviceSynchronize(self) -> None:
+        self.CUDART_CHECK(self.funcs["cudaDeviceSynchronize"]())
+
+    def cudaDeviceReset(self) -> None:
+        self.CUDART_CHECK(self.funcs["cudaDeviceReset"]())
+
+    def cudaMalloc(self, size: int) -> ctypes.c_void_p:
+        devPtr = ctypes.c_void_p()
+        self.CUDART_CHECK(self.funcs["cudaMalloc"](ctypes.byref(devPtr), size))
+        return devPtr
+
+    def cudaFree(self, devPtr: ctypes.c_void_p) -> None:
+        self.CUDART_CHECK(self.funcs["cudaFree"](devPtr))
+
+    def cudaMemset(self, devPtr: ctypes.c_void_p, value: int, count: int) -> None:
+        self.CUDART_CHECK(self.funcs["cudaMemset"](devPtr, value, count))
+
+    def cudaMemcpy(
+        self, dst: ctypes.c_void_p, src: ctypes.c_void_p, count: int
+    ) -> None:
+        cudaMemcpyDefault = 4
+        kind = cudaMemcpyDefault
+        self.CUDART_CHECK(self.funcs["cudaMemcpy"](dst, src, count, kind))
+
+    def cudaIpcGetMemHandle(self, devPtr: ctypes.c_void_p) -> cudaIpcMemHandle_t:
+        handle = cudaIpcMemHandle_t()
+        self.CUDART_CHECK(
+            self.funcs["cudaIpcGetMemHandle"](ctypes.byref(handle), devPtr)
+        )
+        return handle
+
+    def cudaIpcOpenMemHandle(self, handle: cudaIpcMemHandle_t) -> ctypes.c_void_p:
+        cudaIpcMemLazyEnablePeerAccess = 1
+        devPtr = ctypes.c_void_p()
+        self.CUDART_CHECK(
+            self.funcs["cudaIpcOpenMemHandle"](
+                ctypes.byref(devPtr), handle, cudaIpcMemLazyEnablePeerAccess
+            )
+        )
+        return devPtr
diff --git a/distributed/device_communicators/custom_all_reduce.py b/distributed/device_communicators/custom_all_reduce.py
new file mode 100644
index 0000000..0259180
--- /dev/null
+++ b/distributed/device_communicators/custom_all_reduce.py
@@ -0,0 +1,326 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from contextlib import contextmanager
+from typing import cast
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm.distributed.device_communicators.all_reduce_utils import (
+    CUSTOM_ALL_REDUCE_MAX_SIZES,
+    gpu_p2p_access_check,
+)
+from vllm.distributed.parallel_state import in_the_same_node_as
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+try:
+    ops.meta_size()
+    custom_ar = True
+except Exception:
+    # For CPUs
+    custom_ar = False
+
+logger = init_logger(__name__)
+
+
+def _can_p2p(rank: int, world_size: int) -> bool:
+    for i in range(world_size):
+        if i == rank:
+            continue
+        if envs.VLLM_SKIP_P2P_CHECK:
+            logger.debug("Skipping P2P check and trusting the driver's P2P report.")
+            return torch.cuda.can_device_access_peer(rank, i)
+        if not gpu_p2p_access_check(rank, i):
+            return False
+    return True
+
+
+def is_weak_contiguous(inp: torch.Tensor):
+    return inp.is_contiguous() or (
+        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
+        == inp.numel() * inp.element_size()
+    )
+
+
+class CustomAllreduce:
+    _SUPPORTED_WORLD_SIZES = [2, 4, 6, 8]
+
+    # max_size: max supported allreduce size
+    def __init__(
+        self,
+        group: ProcessGroup,
+        device: int | str | torch.device,
+        max_size=8192 * 1024,
+        symm_mem_enabled=False,
+    ) -> None:
+        """
+        Args:
+            group: the process group to work on. If None, it will use the
+                default process group.
+            device: the device to bind the CustomAllreduce to. If None,
+                it will be bound to f"cuda:{local_rank}".
+        It is the caller's responsibility to make sure each communicator
+        is bind to a unique device, and all communicators in this group
+        are in the same node.
+        """
+        self._IS_CAPTURING = False
+        self.disabled = True
+
+        if not custom_ar:
+            # disable because of missing custom allreduce library
+            # e.g. in a non-GPU environment
+            logger.info(
+                "Custom allreduce is disabled because "
+                "of missing custom allreduce library"
+            )
+            return
+
+        self.group = group
+
+        assert dist.get_backend(group) != dist.Backend.NCCL, (
+            "CustomAllreduce should be attached to a non-NCCL group."
+        )
+
+        if not all(in_the_same_node_as(group, source_rank=0)):
+            # No need to initialize custom allreduce for multi-node case.
+            logger.warning(
+                "Custom allreduce is disabled because this process group"
+                " spans across nodes."
+            )
+            return
+
+        rank = dist.get_rank(group=self.group)
+        self.rank = rank
+        world_size = dist.get_world_size(group=self.group)
+        if world_size == 1:
+            # No need to initialize custom allreduce for single GPU case.
+            return
+
+        if world_size not in CustomAllreduce._SUPPORTED_WORLD_SIZES:
+            logger.warning(
+                "Custom allreduce is disabled due to an unsupported world"
+                " size: %d. Supported world sizes: %s. To silence this "
+                "warning, specify disable_custom_all_reduce=True explicitly.",
+                world_size,
+                str(CustomAllreduce._SUPPORTED_WORLD_SIZES),
+            )
+            return
+
+        if isinstance(device, int):
+            device = torch.device(f"cuda:{device}")
+        elif isinstance(device, str):
+            device = torch.device(device)
+        # now `device` is a `torch.device` object
+        assert isinstance(device, torch.device)
+        self.device = device
+        device_capability = current_platform.get_device_capability()
+        if (
+            current_platform.is_cuda()
+            and symm_mem_enabled
+            and device_capability is not None
+        ):
+            device_capability_str = device_capability.as_version_str()
+            if device_capability_str in CUSTOM_ALL_REDUCE_MAX_SIZES:
+                max_size = min(
+                    CUSTOM_ALL_REDUCE_MAX_SIZES[device_capability_str][world_size],
+                    max_size,
+                )
+        cuda_visible_devices = envs.CUDA_VISIBLE_DEVICES
+        if cuda_visible_devices:
+            device_ids = list(map(int, cuda_visible_devices.split(",")))
+        else:
+            device_ids = list(range(cuda_device_count_stateless()))
+
+        physical_device_id = device_ids[device.index]
+        tensor = torch.tensor([physical_device_id], dtype=torch.int, device="cpu")
+        gather_list = [
+            torch.tensor([0], dtype=torch.int, device="cpu") for _ in range(world_size)
+        ]
+        dist.all_gather(gather_list, tensor, group=self.group)
+        physical_device_ids = [t.item() for t in gather_list]
+
+        # test nvlink first, this will filter out most of the cases
+        # where custom allreduce is not supported
+        # this checks hardware and driver support for NVLink
+        assert current_platform.is_cuda_alike()
+        fully_connected = current_platform.is_fully_connected(physical_device_ids)
+        if world_size > 2 and not fully_connected:
+            logger.warning(
+                "Custom allreduce is disabled because it's not supported on"
+                " more than two PCIe-only GPUs. To silence this warning, "
+                "specify disable_custom_all_reduce=True explicitly."
+            )
+            return
+        # test P2P capability, this checks software/cudaruntime support
+        # this is expensive to compute at the first time
+        # then we cache the result
+        # On AMD GPU, p2p is always enabled between XGMI connected GPUs
+        if not current_platform.is_rocm() and not _can_p2p(rank, world_size):
+            logger.warning(
+                "Custom allreduce is disabled because your platform lacks "
+                "GPU P2P capability or P2P test failed. To silence this "
+                "warning, specify disable_custom_all_reduce=True explicitly."
+            )
+            return
+
+        self.disabled = False
+        # Buffers memory are owned by this Python class and passed to C++.
+        # Metadata composes of two parts: metadata for synchronization and a
+        # temporary buffer for storing intermediate allreduce results.
+        self.meta_ptrs = self.create_shared_buffer(
+            ops.meta_size() + max_size, group=group, uncached=True
+        )
+        # This is a pre-registered IPC buffer. In eager mode, input tensors
+        # are first copied into this buffer before allreduce is performed
+        self.buffer_ptrs = self.create_shared_buffer(max_size, group=group)
+        # This is a buffer for storing the tuples of pointers pointing to
+        # IPC buffers from all ranks. Each registered tuple has size of
+        # 8*world_size bytes where world_size is at most 8. Allocating 8MB
+        # is enough for 131072 such tuples. The largest model I've seen only
+        # needs less than 10000 of registered tuples.
+        self.rank_data = torch.empty(
+            8 * 1024 * 1024, dtype=torch.uint8, device=self.device
+        )
+        self.max_size = max_size
+        self.rank = rank
+        self.world_size = world_size
+        self.fully_connected = fully_connected
+        self._ptr = ops.init_custom_ar(
+            self.meta_ptrs, self.rank_data, rank, self.fully_connected
+        )
+        ops.register_buffer(self._ptr, self.buffer_ptrs)
+
+    @contextmanager
+    def capture(self):
+        """
+        The main responsibility of this context manager is the
+        `register_graph_buffers` call at the end of the context.
+        It records all the buffer addresses used in the CUDA graph.
+        """
+        try:
+            self._IS_CAPTURING = True
+            yield
+        finally:
+            self._IS_CAPTURING = False
+            if not self.disabled:
+                self.register_graph_buffers()
+
+    def register_graph_buffers(self):
+        handle, offset = ops.get_graph_buffer_ipc_meta(self._ptr)
+        logger.info("Registering %d cuda graph addresses", len(offset))
+        # We cannot directly use `dist.all_gather_object` here
+        # because it is incompatible with `gloo` backend under inference mode.
+        # see https://github.com/pytorch/pytorch/issues/126032 for details.
+        all_data: list[list[list[int] | None]]
+        all_data = [[None, None] for _ in range(dist.get_world_size(group=self.group))]
+        all_data[self.rank] = [handle, offset]
+        ranks = sorted(dist.get_process_group_ranks(group=self.group))
+        for i, rank in enumerate(ranks):
+            dist.broadcast_object_list(
+                all_data[i], src=rank, group=self.group, device="cpu"
+            )
+        # Unpack list of tuples to tuple of lists.
+        handles = cast(list[list[int]], [d[0] for d in all_data])
+        offsets = cast(list[list[int]], [d[1] for d in all_data])
+        ops.register_graph_buffers(self._ptr, handles, offsets)
+
+    def should_custom_ar(self, inp: torch.Tensor):
+        if self.disabled:
+            return False
+        inp_size = inp.numel() * inp.element_size()
+        # custom allreduce requires input byte size to be multiples of 16
+        if inp_size % 16 != 0:
+            return False
+        if not is_weak_contiguous(inp):
+            return False
+        # for 4 or more non NVLink-capable GPUs, custom allreduce provides
+        # little performance improvement over NCCL.
+        if self.world_size == 2 or self.fully_connected:
+            return inp_size < self.max_size
+        return False
+
+    def all_reduce(
+        self, inp: torch.Tensor, *, out: torch.Tensor = None, registered: bool = False
+    ):
+        """Performs an out-of-place all reduce.
+
+        If registered is True, this assumes inp's pointer is already
+        IPC-registered. Otherwise, inp is first copied into a pre-registered
+        buffer.
+        """
+        if out is None:
+            out = torch.empty_like(inp)
+        if registered:
+            ops.all_reduce(self._ptr, inp, out, 0, 0)
+        else:
+            ops.all_reduce(
+                self._ptr, inp, out, self.buffer_ptrs[self.rank], self.max_size
+            )
+        return out
+
+    def custom_all_reduce(self, input: torch.Tensor) -> torch.Tensor | None:
+        """The main allreduce API that provides support for cuda graph."""
+        # When custom allreduce is disabled, this will be None.
+        if self.disabled or not self.should_custom_ar(input):
+            return None
+        if self._IS_CAPTURING:
+            if torch.cuda.is_current_stream_capturing():
+                return self.all_reduce(input, registered=True)
+            else:
+                # If warm up, mimic the allocation pattern since custom
+                # allreduce is out-of-place.
+                return torch.empty_like(input)
+        else:
+            # Note: outside of cuda graph context, custom allreduce incurs a
+            # cost of cudaMemcpy, which should be small (<=1% of overall
+            # latency) compared to the performance gain of using custom kernels
+            return self.all_reduce(input, registered=False)
+
+    def close(self):
+        if not self.disabled and self._ptr:
+            if ops is not None:
+                ops.dispose(self._ptr)
+            self._ptr = 0
+            self.free_shared_buffer(self.meta_ptrs, rank=self.rank)
+            self.free_shared_buffer(self.buffer_ptrs, rank=self.rank)
+
+    def __del__(self):
+        self.close()
+
+    @staticmethod
+    def create_shared_buffer(
+        size_in_bytes: int,
+        group: ProcessGroup | None = None,
+        uncached: bool | None = False,
+    ) -> list[int]:
+        pointer, handle = ops.allocate_shared_buffer_and_handle(size_in_bytes)
+
+        world_size = dist.get_world_size(group=group)
+        rank = dist.get_rank(group=group)
+        handles = [None] * world_size
+        dist.all_gather_object(handles, handle, group=group)
+
+        pointers: list[int] = []
+        for i, h in enumerate(handles):
+            if i == rank:
+                pointers.append(pointer)  # type: ignore
+            else:
+                pointers.append(ops.open_mem_handle(h))
+        return pointers
+
+    @staticmethod
+    def free_shared_buffer(
+        pointers: list[int],
+        group: ProcessGroup | None = None,
+        rank: int | None = None,
+    ) -> None:
+        if rank is None:
+            rank = dist.get_rank(group=group)
+        if ops is not None:
+            ops.free_shared_buffer(pointers[rank])
diff --git a/distributed/device_communicators/mnnvl_compat.py b/distributed/device_communicators/mnnvl_compat.py
new file mode 100644
index 0000000..61aee2d
--- /dev/null
+++ b/distributed/device_communicators/mnnvl_compat.py
@@ -0,0 +1,27 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch.distributed as dist
+from flashinfer.comm.mnnvl import CommBackend as CommBackend
+
+from vllm.utils.flashinfer import has_flashinfer_all2all
+
+assert has_flashinfer_all2all(), "Flashinfer alltoallv module cannot be found"
+
+
+class CustomCommunicator(CommBackend):
+    def __init__(self, group):
+        self._group = group
+
+    def Get_rank(self) -> int:
+        return self._group.rank()
+
+    def Get_size(self) -> int:
+        return self._group.size()
+
+    def allgather(self, data: int):
+        gathered = [None] * self.Get_size()
+        dist.all_gather_object(gathered, data, group=self._group)
+        return gathered
+
+    def Split(self, color: int, key: int) -> "CustomCommunicator":
+        return self
diff --git a/distributed/device_communicators/pynccl.py b/distributed/device_communicators/pynccl.py
new file mode 100644
index 0000000..2fc35e8
--- /dev/null
+++ b/distributed/device_communicators/pynccl.py
@@ -0,0 +1,386 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+# ===================== import region =====================
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup, ReduceOp
+
+import vllm.envs as envs
+from vllm.distributed.device_communicators.pynccl_wrapper import (
+    NCCLLibrary,
+    buffer_type,
+    cudaStream_t,
+    ncclComm_t,
+    ncclDataTypeEnum,
+    ncclRedOpTypeEnum,
+    ncclUniqueId,
+)
+from vllm.distributed.utils import StatelessProcessGroup
+from vllm.logger import init_logger
+from vllm.utils.torch_utils import current_stream
+
+logger = init_logger(__name__)
+
+_NCCL_SYMM_OPS_REGISTERED = False
+
+
+def register_nccl_symmetric_ops(pynccl_comm):
+    from vllm.distributed.device_communicators.pynccl_allocator import (
+        nccl_symm_mem_context,
+    )
+    from vllm.utils.torch_utils import direct_register_custom_op
+
+    global _NCCL_SYMM_OPS_REGISTERED
+    if _NCCL_SYMM_OPS_REGISTERED:
+        return
+    _NCCL_SYMM_OPS_REGISTERED = True
+
+    def all_reduce_symmetric_with_copy_impl(input_tensor: torch.Tensor) -> torch.Tensor:
+        with nccl_symm_mem_context(pynccl_comm):
+            symm_input = torch.empty_like(input_tensor)
+            symm_output = torch.empty_like(input_tensor)
+        symm_input.copy_(input_tensor)
+        symm_output = pynccl_comm.all_reduce(symm_input, symm_output)
+        return symm_output
+
+    def all_reduce_symmetric_with_copy_fake(input_tensor: torch.Tensor) -> torch.Tensor:
+        return torch.empty_like(input_tensor)
+
+    direct_register_custom_op(
+        op_name="all_reduce_symmetric_with_copy",
+        op_func=all_reduce_symmetric_with_copy_impl,
+        fake_impl=all_reduce_symmetric_with_copy_fake,
+    )
+
+
+class PyNcclCommunicator:
+    def __init__(
+        self,
+        group: ProcessGroup | StatelessProcessGroup,
+        device: int | str | torch.device,
+        library_path: str | None = None,
+    ):
+        """
+        Args:
+            group: the process group to work on. If None, it will use the
+                default process group.
+            device: the device to bind the PyNcclCommunicator to. If None,
+                it will be bound to f"cuda:{local_rank}".
+            library_path: the path to the NCCL library. If None, it will
+                use the default library path.
+        It is the caller's responsibility to make sure each communicator
+        is bind to a unique device.
+        """
+        if not isinstance(group, StatelessProcessGroup):
+            assert dist.is_initialized()
+            assert dist.get_backend(group) != dist.Backend.NCCL, (
+                "PyNcclCommunicator should be attached to a non-NCCL group."
+            )
+            # note: this rank is the rank in the group
+            self.rank = dist.get_rank(group)
+            self.world_size = dist.get_world_size(group)
+        else:
+            self.rank = group.rank
+            self.world_size = group.world_size
+
+        self.group = group
+
+        # if world_size == 1, no need to create communicator
+        if self.world_size == 1 or envs.VLLM_DISABLE_PYNCCL:
+            self.available = False
+            self.disabled = True
+            return
+        try:
+            self.nccl = NCCLLibrary(library_path)
+        except Exception:
+            # disable because of missing NCCL library
+            # e.g. in a non-GPU environment
+            self.available = False
+            self.disabled = True
+            return
+
+        self.available = True
+        self.disabled = False
+
+        self.nccl_version = self.nccl.ncclGetRawVersion()
+        if self.rank == 0:
+            # get the unique id from NCCL
+            self.unique_id = self.nccl.ncclGetUniqueId()
+            logger.info_once(
+                "vLLM is using nccl==%s", self.nccl.ncclGetVersion(), scope="local"
+            )
+        else:
+            # construct an empty unique id
+            self.unique_id = ncclUniqueId()
+
+        if not isinstance(group, StatelessProcessGroup):
+            tensor = torch.ByteTensor(list(self.unique_id.internal))
+            ranks = dist.get_process_group_ranks(group)
+            # arg `src` in `broadcast` is the global rank
+            dist.broadcast(tensor, src=ranks[0], group=group)
+            byte_list = tensor.tolist()
+            for i, byte in enumerate(byte_list):
+                self.unique_id.internal[i] = byte
+        else:
+            self.unique_id = group.broadcast_obj(self.unique_id, src=0)
+        if isinstance(device, int):
+            device = torch.device(f"cuda:{device}")
+        elif isinstance(device, str):
+            device = torch.device(device)
+        # now `device` is a `torch.device` object
+        assert isinstance(device, torch.device)
+        self.device = device
+        # nccl communicator and stream will use this device
+        # `torch.cuda.device` is a context manager that changes the
+        # current cuda device to the specified one
+        with torch.cuda.device(device):
+            self.comm: ncclComm_t = self.nccl.ncclCommInitRank(
+                self.world_size, self.unique_id, self.rank
+            )
+
+            stream = current_stream()
+            # A small all_reduce for warmup.
+            data = torch.zeros(1, device=device)
+            self.all_reduce(data)
+            stream.synchronize()
+            del data
+
+    def all_reduce(
+        self,
+        in_tensor: torch.Tensor,
+        out_tensor: torch.Tensor = None,
+        op: ReduceOp = ReduceOp.SUM,
+        stream=None,
+    ) -> torch.Tensor:
+        if self.disabled:
+            return None
+        # nccl communicator created on a specific device
+        # will only work on tensors on the same device
+        # otherwise it will cause "illegal memory access"
+        assert in_tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {in_tensor.device}"
+        )
+
+        if out_tensor is None:
+            out_tensor = torch.empty_like(in_tensor)
+
+        if stream is None:
+            stream = current_stream()
+        self.nccl.ncclAllReduce(
+            buffer_type(in_tensor.data_ptr()),
+            buffer_type(out_tensor.data_ptr()),
+            in_tensor.numel(),
+            ncclDataTypeEnum.from_torch(in_tensor.dtype),
+            ncclRedOpTypeEnum.from_torch(op),
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+        return out_tensor
+
+    def all_gather(
+        self, output_tensor: torch.Tensor, input_tensor: torch.Tensor, stream=None
+    ):
+        if self.disabled:
+            return
+        # nccl communicator created on a specific device
+        # will only work on tensors on the same device
+        # otherwise it will cause "illegal memory access"
+        assert input_tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {input_tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        self.nccl.ncclAllGather(
+            buffer_type(input_tensor.data_ptr()),
+            buffer_type(output_tensor.data_ptr()),
+            input_tensor.numel(),
+            ncclDataTypeEnum.from_torch(input_tensor.dtype),
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+
+    def all_gatherv(
+        self,
+        output_tensor: torch.Tensor,
+        input_tensor: torch.Tensor,
+        sizes: list[int],
+        stream=None,
+    ):
+        if self.disabled:
+            return
+        # nccl communicator created on a specific device
+        # will only work on tensors on the same device
+        # otherwise it will cause "illegal memory access"
+        assert input_tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {input_tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        assert output_tensor.shape[0] == sum(sizes)
+        split_offset = 0
+        self.nccl.ncclGroupStart()
+        for root, split_size in enumerate(sizes):
+            dst_slice = output_tensor[split_offset : split_offset + split_size]
+            self.nccl.ncclBroadcast(
+                buffer_type(input_tensor.data_ptr()),
+                buffer_type(dst_slice.data_ptr()),
+                dst_slice.numel(),
+                ncclDataTypeEnum.from_torch(input_tensor.dtype),
+                root,
+                self.comm,
+                cudaStream_t(stream.cuda_stream),
+            )
+            split_offset += split_size
+        self.nccl.ncclGroupEnd()
+
+    def reduce_scatter(
+        self,
+        output_tensor: torch.Tensor,
+        input_tensor: torch.Tensor,
+        op: ReduceOp = ReduceOp.SUM,
+        stream=None,
+    ):
+        if self.disabled:
+            return
+        # nccl communicator created on a specific device
+        # will only work on tensors on the same device
+        # otherwise it will cause "illegal memory access"
+        assert input_tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {input_tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        self.nccl.ncclReduceScatter(
+            buffer_type(input_tensor.data_ptr()),
+            buffer_type(output_tensor.data_ptr()),
+            output_tensor.numel(),
+            ncclDataTypeEnum.from_torch(input_tensor.dtype),
+            ncclRedOpTypeEnum.from_torch(op),
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+
+    def reduce_scatterv(
+        self,
+        output_tensor: torch.Tensor,
+        input_tensor: torch.Tensor,
+        sizes: list[int],
+        op: ReduceOp = ReduceOp.SUM,
+        stream=None,
+    ):
+        if self.disabled:
+            return
+        # nccl communicator created on a specific device
+        # will only work on tensors on the same device
+        # otherwise it will cause "illegal memory access"
+        assert input_tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {input_tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+
+        split_offset = 0
+        self.nccl.ncclGroupStart()
+        for root, split_size in enumerate(sizes):
+            chunk = input_tensor[split_offset : split_offset + split_size, ...]
+            self.nccl.ncclReduce(
+                buffer_type(chunk.data_ptr()),
+                buffer_type(output_tensor.data_ptr()),
+                chunk.numel(),
+                ncclDataTypeEnum.from_torch(input_tensor.dtype),
+                ncclRedOpTypeEnum.from_torch(op),
+                root,
+                self.comm,
+                cudaStream_t(stream.cuda_stream),
+            )
+            split_offset += split_size
+        self.nccl.ncclGroupEnd()
+
+    def send(self, tensor: torch.Tensor, dst: int, stream=None):
+        if self.disabled:
+            return
+        assert tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        self.nccl.ncclSend(
+            buffer_type(tensor.data_ptr()),
+            tensor.numel(),
+            ncclDataTypeEnum.from_torch(tensor.dtype),
+            dst,
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+
+    def recv(self, tensor: torch.Tensor, src: int, stream=None):
+        if self.disabled:
+            return
+        assert tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        self.nccl.ncclRecv(
+            buffer_type(tensor.data_ptr()),
+            tensor.numel(),
+            ncclDataTypeEnum.from_torch(tensor.dtype),
+            src,
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+
+    def broadcast(self, tensor: torch.Tensor, src: int, stream=None):
+        if self.disabled:
+            return
+        assert tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+        if src == self.rank:
+            sendbuff = buffer_type(tensor.data_ptr())
+            # NCCL requires the sender also to have a receive buffer
+            recvbuff = buffer_type(tensor.data_ptr())
+        else:
+            sendbuff = buffer_type()
+            recvbuff = buffer_type(tensor.data_ptr())
+        self.nccl.ncclBroadcast(
+            sendbuff,
+            recvbuff,
+            tensor.numel(),
+            ncclDataTypeEnum.from_torch(tensor.dtype),
+            src,
+            self.comm,
+            cudaStream_t(stream.cuda_stream),
+        )
+
+    def group_start(self):
+        self.nccl.ncclGroupStart()
+
+    def group_end(self):
+        self.nccl.ncclGroupEnd()
+
+    def register_comm_window(self, tensor: torch.Tensor):
+        return self.nccl.ncclCommWindowRegister(
+            self.comm,
+            buffer_type(tensor.data_ptr()),
+            tensor.numel() * tensor.element_size(),
+            1,
+        )
+
+    def register_comm_window_raw(self, ptr: int, size: int):
+        return self.nccl.ncclCommWindowRegister(self.comm, buffer_type(ptr), size, 1)
+
+    def deregister_comm_window(self, window):
+        return self.nccl.ncclCommWindowDeregister(self.comm, window)
diff --git a/distributed/device_communicators/pynccl_allocator.py b/distributed/device_communicators/pynccl_allocator.py
new file mode 100644
index 0000000..401b800
--- /dev/null
+++ b/distributed/device_communicators/pynccl_allocator.py
@@ -0,0 +1,191 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import atexit
+import contextlib
+import tempfile
+from typing import Any
+
+import torch
+from packaging import version
+from torch.cuda.memory import CUDAPluggableAllocator
+from torch.utils.cpp_extension import load_inline
+
+from vllm import envs
+from vllm.distributed.device_communicators.pynccl import PyNcclCommunicator
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.nccl import find_nccl_include_paths
+
+logger = init_logger(__name__)
+
+nccl_allocator_source = """
+#include <nccl.h>
+extern "C" {
+
+void* nccl_alloc_plug(size_t size, int device, void* stream) {
+  void* ptr;
+  ncclResult_t err = ncclMemAlloc(&ptr, size);
+  return ptr;
+
+}
+
+void nccl_free_plug(void* ptr, size_t size, int device, void* stream) {
+  ncclResult_t err = ncclMemFree(ptr);
+}
+
+}
+"""
+
+_allocator = None
+_allocator_wrapper = None
+_mem_pool = None
+_registered_base_addrs = set()
+_graph_pool_id = None
+_nccl_allocator_failed_to_compile = False
+_cached_pool_snapshot = None
+
+
+def is_symmetric_memory_enabled():
+    global _nccl_allocator_failed_to_compile
+    return envs.VLLM_USE_NCCL_SYMM_MEM and not _nccl_allocator_failed_to_compile
+
+
+def is_symmetric_memory_tensor(tensor: torch.Tensor):
+    if not is_symmetric_memory_enabled() or _cached_pool_snapshot is None:
+        return False
+    for segment in _cached_pool_snapshot:
+        for block in segment["blocks"]:
+            if block["address"] == tensor.untyped_storage().data_ptr():
+                return True
+    return False
+
+
+def set_graph_pool_id(graph_pool_id):
+    global _graph_pool_id
+    _graph_pool_id = graph_pool_id
+
+
+def compile_nccl_allocator():
+    global _allocator, _allocator_wrapper, _nccl_allocator_failed_to_compile
+    if not current_platform.is_cuda():
+        _nccl_allocator_failed_to_compile = True
+        return
+    try:
+        out_dir = tempfile.gettempdir()
+        nccl_allocator_libname = "nccl_allocator"
+        nccl_include_paths = find_nccl_include_paths()
+        load_inline(
+            name=nccl_allocator_libname,
+            cpp_sources=nccl_allocator_source,
+            with_cuda=True,
+            extra_ldflags=["-lnccl"],
+            verbose=envs.VLLM_LOGGING_LEVEL == "DEBUG",
+            is_python_module=False,
+            build_directory=out_dir,
+            extra_include_paths=nccl_include_paths,
+        )
+        _allocator_wrapper = CUDAPluggableAllocator(
+            f"{out_dir}/{nccl_allocator_libname}.so",
+            "nccl_alloc_plug",
+            "nccl_free_plug",
+        )
+        _allocator = _allocator_wrapper.allocator()
+    except Exception as e:
+        _nccl_allocator_failed_to_compile = True
+        logger.warning(
+            "Failed to compile NCCL memory allocator. "
+            "Symmetric memory will be disabled. "
+            "This is expected if NCCL headers are not available. "
+            "optionally set VLLM_NCCL_INCLUDE_PATH to point to a directory "
+            "containing the NCCL header. "
+            "Error: %s",
+            str(e),
+        )
+
+
+def get_nccl_mem_pool():
+    global _mem_pool, _nccl_allocator_failed_to_compile
+    if _mem_pool is None and not _nccl_allocator_failed_to_compile:
+        compile_nccl_allocator()
+        if _allocator is not None:
+            _mem_pool = torch.cuda.MemPool(_allocator)
+    return _mem_pool
+
+
+def _cleanup_nccl_mem_pool():
+    global _mem_pool
+    _mem_pool = None
+
+
+def _cleanup_nccl_allocator_wrapper():
+    global _allocator_wrapper
+    _allocator_wrapper = None
+
+
+atexit.register(_cleanup_nccl_mem_pool)
+atexit.register(_cleanup_nccl_allocator_wrapper)
+
+
+class nccl_symm_mem_context:
+    def __init__(
+        self,
+        pynccl_comm: PyNcclCommunicator,
+        disabled: bool = False,
+    ):
+        self.disabled = (
+            disabled
+            or not is_symmetric_memory_enabled()
+            or pynccl_comm.world_size == 1
+            or not current_platform.is_cuda()
+            or get_nccl_mem_pool() is None
+            or version.parse(torch.__version__) < version.parse("2.8.0.a0")
+        )
+        if self.disabled:
+            self.pynccl_comm: PyNcclCommunicator | None = None
+            self._mem_pool_ctx: contextlib.AbstractContextManager[Any] = (
+                contextlib.nullcontext()
+            )
+            self.is_graph_capture = None
+            self.device = None
+        else:
+            self.pynccl_comm = pynccl_comm
+            self._mem_pool_ctx = torch.cuda.use_mem_pool(get_nccl_mem_pool())
+            self.is_graph_capture = torch.cuda.is_current_stream_capturing()
+            self.device = torch.cuda.current_device()
+
+    def __enter__(self):
+        if self.disabled:
+            return self
+        assert self.pynccl_comm is not None, (
+            "Symmetric memory requires pynccl to be initalized"
+        )
+        assert self.pynccl_comm.nccl_version >= 22703, (
+            "NCCL version 2.27.3 or higher is required for NCCL symmetric memory"
+        )
+        if self.is_graph_capture:
+            assert _graph_pool_id is not None, (
+                "graph_pool_id is not set under graph capture"
+            )
+            # Pause graph memory pool to use symmetric memory with cuda graph
+            torch._C._cuda_endAllocateToPool(self.device, _graph_pool_id)
+        self._mem_pool_ctx.__enter__()
+        return self
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if self.disabled:
+            return
+        global _cached_pool_snapshot
+        global _registered_base_addrs
+        self._mem_pool_ctx.__exit__(exc_type, exc_val, exc_tb)
+        _pool = get_nccl_mem_pool()
+        assert _pool is not None
+        _cached_pool_snapshot = _pool.snapshot()
+        assert self.pynccl_comm is not None
+        for segment in _cached_pool_snapshot:
+            if segment["address"] not in _registered_base_addrs:
+                self.pynccl_comm.register_comm_window_raw(
+                    segment["address"], segment["total_size"]
+                )
+                _registered_base_addrs.add(segment["address"])
+        if self.is_graph_capture:
+            torch._C._cuda_beginAllocateCurrentThreadToPool(self.device, _graph_pool_id)
diff --git a/distributed/device_communicators/pynccl_wrapper.py b/distributed/device_communicators/pynccl_wrapper.py
new file mode 100644
index 0000000..b2433d5
--- /dev/null
+++ b/distributed/device_communicators/pynccl_wrapper.py
@@ -0,0 +1,564 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# This file is a pure Python wrapper for the NCCL library.
+# The main purpose is to use NCCL combined with CUDA graph.
+# Before writing this script, we tried the following approach:
+# 1. We tried to use `cupy`, it calls NCCL correctly, but `cupy` itself
+#  often gets stuck when initializing the NCCL communicator.
+# 2. We tried to use `torch.distributed`, but `torch.distributed.all_reduce`
+#  contains many other potential cuda APIs, that are not allowed during
+#  capturing the CUDA graph. For further details, please check
+# https://discuss.pytorch.org/t/pytorch-cudagraph-with-nccl-operation-failed/ .
+#
+# Another rejected idea is to write a C/C++ binding for NCCL. It is usually
+# doable, but we often encounter issues related with nccl versions, and need
+# to switch between different versions of NCCL. See
+# https://github.com/NVIDIA/nccl/issues/1234 for more details.
+# A C/C++ binding is not flexible enough to handle this. It requires
+# recompilation of the code every time we want to switch between different
+# versions. This current implementation, with a **pure** Python wrapper, is
+# more flexible. We can easily switch between different versions of NCCL by
+# changing the environment variable `VLLM_NCCL_SO_PATH`, or the `so_file`
+# variable in the code.
+
+import ctypes
+import platform
+from dataclasses import dataclass
+from typing import Any
+
+import torch
+from torch.distributed import ReduceOp
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.nccl import find_nccl_library
+
+logger = init_logger(__name__)
+
+# === export types and functions from nccl to Python ===
+# for the original nccl definition, please check
+# https://github.com/NVIDIA/nccl/blob/master/src/nccl.h.in
+
+ncclResult_t = ctypes.c_int
+ncclComm_t = ctypes.c_void_p
+ncclWindow_t = ctypes.c_void_p
+
+
+class ncclUniqueId(ctypes.Structure):
+    _fields_ = [("internal", ctypes.c_byte * 128)]
+
+
+cudaStream_t = ctypes.c_void_p
+buffer_type = ctypes.c_void_p
+
+ncclDataType_t = ctypes.c_int
+
+
+class ncclDataTypeEnum:
+    ncclInt8 = 0
+    ncclChar = 0
+    ncclUint8 = 1
+    ncclInt32 = 2
+    ncclInt = 2
+    ncclUint32 = 3
+    ncclInt64 = 4
+    ncclUint64 = 5
+    ncclFloat16 = 6
+    ncclHalf = 6
+    ncclFloat32 = 7
+    ncclFloat = 7
+    ncclFloat64 = 8
+    ncclDouble = 8
+    ncclBfloat16 = 9
+    ncclNumTypes = 10
+
+    @classmethod
+    def from_torch(cls, dtype: torch.dtype) -> int:
+        if dtype == torch.int8:
+            return cls.ncclInt8
+        if dtype == torch.uint8:
+            return cls.ncclUint8
+        if dtype == torch.int32:
+            return cls.ncclInt32
+        if dtype == torch.int64:
+            return cls.ncclInt64
+        if dtype == torch.float16:
+            return cls.ncclFloat16
+        if dtype == torch.float32:
+            return cls.ncclFloat32
+        if dtype == torch.float64:
+            return cls.ncclFloat64
+        if dtype == torch.bfloat16:
+            return cls.ncclBfloat16
+        raise ValueError(f"Unsupported dtype: {dtype}")
+
+
+ncclRedOp_t = ctypes.c_int
+
+
+class ncclRedOpTypeEnum:
+    ncclSum = 0
+    ncclProd = 1
+    ncclMax = 2
+    ncclMin = 3
+    ncclAvg = 4
+    ncclNumOps = 5
+
+    @classmethod
+    def from_torch(cls, op: ReduceOp) -> int:
+        if op == ReduceOp.SUM:
+            return cls.ncclSum
+        if op == ReduceOp.PRODUCT:
+            return cls.ncclProd
+        if op == ReduceOp.MAX:
+            return cls.ncclMax
+        if op == ReduceOp.MIN:
+            return cls.ncclMin
+        if op == ReduceOp.AVG:
+            return cls.ncclAvg
+        raise ValueError(f"Unsupported op: {op}")
+
+
+@dataclass
+class Function:
+    name: str
+    restype: Any
+    argtypes: list[Any]
+
+
+class NCCLLibrary:
+    exported_functions = [
+        # const char* ncclGetErrorString(ncclResult_t result)
+        Function("ncclGetErrorString", ctypes.c_char_p, [ncclResult_t]),
+        # ncclResult_t  ncclGetVersion(int *version);
+        Function("ncclGetVersion", ncclResult_t, [ctypes.POINTER(ctypes.c_int)]),
+        # ncclResult_t ncclGetUniqueId(ncclUniqueId* uniqueId);
+        Function("ncclGetUniqueId", ncclResult_t, [ctypes.POINTER(ncclUniqueId)]),
+        # ncclResult_t  ncclCommInitRank(
+        #   ncclComm_t* comm, int nranks, ncclUniqueId commId, int rank);
+        # note that ncclComm_t is a pointer type, so the first argument
+        # is a pointer to a pointer
+        Function(
+            "ncclCommInitRank",
+            ncclResult_t,
+            [ctypes.POINTER(ncclComm_t), ctypes.c_int, ncclUniqueId, ctypes.c_int],
+        ),
+        # ncclResult_t  ncclAllReduce(
+        #   const void* sendbuff, void* recvbuff, size_t count,
+        #   ncclDataType_t datatype, ncclRedOp_t op, ncclComm_t comm,
+        #   cudaStream_t stream);
+        # note that cudaStream_t is a pointer type, so the last argument
+        # is a pointer
+        Function(
+            "ncclAllReduce",
+            ncclResult_t,
+            [
+                buffer_type,
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ncclRedOp_t,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t  ncclReduce(
+        #   const void* sendbuff, void* recvbuff, size_t count,
+        #   ncclDataType_t datatype, ncclRedOp_t op, int root,
+        #   ncclComm_t comm,  cudaStream_t stream);
+        # note that cudaStream_t is a pointer type, so the last argument
+        # is a pointer
+        Function(
+            "ncclReduce",
+            ncclResult_t,
+            [
+                buffer_type,
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ncclRedOp_t,
+                ctypes.c_int,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t  ncclAllGather(
+        #   const void* sendbuff, void* recvbuff, size_t count,
+        #   ncclDataType_t datatype, ncclComm_t comm,
+        #   cudaStream_t stream);
+        # note that cudaStream_t is a pointer type, so the last argument
+        # is a pointer
+        Function(
+            "ncclAllGather",
+            ncclResult_t,
+            [
+                buffer_type,
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t  ncclReduceScatter(
+        #   const void* sendbuff, void* recvbuff, size_t count,
+        #   ncclDataType_t datatype, ncclRedOp_t op, ncclComm_t comm,
+        #   cudaStream_t stream);
+        # note that cudaStream_t is a pointer type, so the last argument
+        # is a pointer
+        Function(
+            "ncclReduceScatter",
+            ncclResult_t,
+            [
+                buffer_type,
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ncclRedOp_t,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t  ncclSend(
+        #   const void* sendbuff, size_t count, ncclDataType_t datatype,
+        #   int dest, ncclComm_t comm, cudaStream_t stream);
+        Function(
+            "ncclSend",
+            ncclResult_t,
+            [
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ctypes.c_int,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t  ncclRecv(
+        #   void* recvbuff, size_t count, ncclDataType_t datatype,
+        #   int src, ncclComm_t comm, cudaStream_t stream);
+        Function(
+            "ncclRecv",
+            ncclResult_t,
+            [
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ctypes.c_int,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # ncclResult_t ncclBroadcast(
+        #   const void* sendbuff, void* recvbuff, size_t count,
+        #   ncclDataType_t datatype, int root, ncclComm_t comm,
+        #   cudaStream_t stream);
+        Function(
+            "ncclBroadcast",
+            ncclResult_t,
+            [
+                buffer_type,
+                buffer_type,
+                ctypes.c_size_t,
+                ncclDataType_t,
+                ctypes.c_int,
+                ncclComm_t,
+                cudaStream_t,
+            ],
+        ),
+        # be cautious! this is a collective call, it will block until all
+        # processes in the communicator have called this function.
+        # because Python object destruction can happen in random order,
+        # it is better not to call it at all.
+        # ncclResult_t  ncclCommDestroy(ncclComm_t comm);
+        Function("ncclCommDestroy", ncclResult_t, [ncclComm_t]),
+        # ncclResult_t ncclGroupStart();
+        Function("ncclGroupStart", ncclResult_t, []),
+        # ncclResult_t ncclGroupEnd();
+        Function("ncclGroupEnd", ncclResult_t, []),
+        # ncclResult_t ncclCommWindowRegister(
+        #   ncclComm_t comm, void* buff, size_t size,
+        #   ncclWindow_t* win, int winFlags);
+        Function(
+            "ncclCommWindowRegister",
+            ncclResult_t,
+            [
+                ncclComm_t,
+                buffer_type,
+                ctypes.c_size_t,
+                ctypes.POINTER(ncclWindow_t),
+                ctypes.c_int,
+            ],
+        ),
+        # ncclResult_t ncclCommWindowDeregister(
+        #   ncclComm_t comm, ncclWindow_t win);
+        Function("ncclCommWindowDeregister", ncclResult_t, [ncclComm_t, ncclWindow_t]),
+    ]
+
+    # class attribute to store the mapping from the path to the library
+    # to avoid loading the same library multiple times
+    path_to_library_cache: dict[str, Any] = {}
+
+    # class attribute to store the mapping from library path
+    #  to the corresponding dictionary
+    path_to_dict_mapping: dict[str, dict[str, Any]] = {}
+
+    def __init__(self, so_file: str | None = None):
+        so_file = so_file or find_nccl_library()
+
+        try:
+            if so_file not in NCCLLibrary.path_to_dict_mapping:
+                lib = ctypes.CDLL(so_file)
+                NCCLLibrary.path_to_library_cache[so_file] = lib
+            self.lib = NCCLLibrary.path_to_library_cache[so_file]
+        except Exception as e:
+            logger.error(
+                "Failed to load NCCL library from %s. "
+                "It is expected if you are not running on NVIDIA/AMD GPUs."
+                "Otherwise, the nccl library might not exist, be corrupted "
+                "or it does not support the current platform %s. "
+                "If you already have the library, please set the "
+                "environment variable VLLM_NCCL_SO_PATH"
+                " to point to the correct nccl library path.",
+                so_file,
+                platform.platform(),
+            )
+            raise e
+
+        if so_file not in NCCLLibrary.path_to_dict_mapping:
+            _funcs: dict[str, Any] = {}
+            for func in NCCLLibrary.exported_functions:
+                try:
+                    f = getattr(self.lib, func.name)
+                    f.restype = func.restype
+                    f.argtypes = func.argtypes
+                    _funcs[func.name] = f
+                except AttributeError:
+                    if func.name in [
+                        "ncclCommWindowRegister",
+                        "ncclCommWindowDeregister",
+                    ]:
+                        if envs.VLLM_USE_NCCL_SYMM_MEM:
+                            logger.warning_once(
+                                "The symbol %s is not found in the NCCL "
+                                "library %s. To enable VLLM_USE_NCCL_SYMM_MEM "
+                                " please update your NCCL version to >= "
+                                "2.27.03.",
+                                func.name,
+                                so_file,
+                            )
+                        if current_platform.is_rocm():
+                            # Having an exception here on ROCm platform is
+                            # not allowed during graph capturing
+                            continue
+                    raise
+            NCCLLibrary.path_to_dict_mapping[so_file] = _funcs
+        self._funcs = NCCLLibrary.path_to_dict_mapping[so_file]
+
+    def ncclGetErrorString(self, result: ncclResult_t) -> str:
+        return self._funcs["ncclGetErrorString"](result).decode("utf-8")
+
+    def NCCL_CHECK(self, result: ncclResult_t) -> None:
+        if result != 0:
+            error_str = self.ncclGetErrorString(result)
+            raise RuntimeError(f"NCCL error: {error_str}")
+
+    def ncclGetRawVersion(self) -> int:
+        version = ctypes.c_int()
+        self.NCCL_CHECK(self._funcs["ncclGetVersion"](ctypes.byref(version)))
+        # something like 21903
+        return version.value
+
+    def ncclGetVersion(self) -> str:
+        version_str = str(self.ncclGetRawVersion())
+        # something like 21903 --> "2.19.3"
+        major = version_str[0].lstrip("0")
+        minor = version_str[1:3].lstrip("0")
+        patch = version_str[3:].lstrip("0")
+        return f"{major}.{minor}.{patch}"
+
+    def ncclGetUniqueId(self) -> ncclUniqueId:
+        unique_id = ncclUniqueId()
+        self.NCCL_CHECK(self._funcs["ncclGetUniqueId"](ctypes.byref(unique_id)))
+        return unique_id
+
+    def unique_id_from_bytes(self, data: bytes) -> ncclUniqueId:
+        if len(data) != 128:
+            raise ValueError(
+                f"Expected 128 bytes for ncclUniqueId, got {len(data)} bytes"
+            )
+        unique_id = ncclUniqueId()
+        ctypes.memmove(ctypes.addressof(unique_id.internal), data, 128)
+        return unique_id
+
+    def ncclCommInitRank(
+        self, world_size: int, unique_id: ncclUniqueId, rank: int
+    ) -> ncclComm_t:
+        comm = ncclComm_t()
+        self.NCCL_CHECK(
+            self._funcs["ncclCommInitRank"](
+                ctypes.byref(comm), world_size, unique_id, rank
+            )
+        )
+        return comm
+
+    def ncclAllReduce(
+        self,
+        sendbuff: buffer_type,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        op: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        # `datatype` actually should be `ncclDataType_t`
+        # and `op` should be `ncclRedOp_t`
+        # both are aliases of `ctypes.c_int`
+        # when we pass int to a function, it will be converted to `ctypes.c_int`
+        # by ctypes automatically
+        self.NCCL_CHECK(
+            self._funcs["ncclAllReduce"](
+                sendbuff, recvbuff, count, datatype, op, comm, stream
+            )
+        )
+
+    def ncclReduce(
+        self,
+        sendbuff: buffer_type,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        op: int,
+        root: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        # `datatype` actually should be `ncclDataType_t`
+        # and `op` should be `ncclRedOp_t`
+        # both are aliases of `ctypes.c_int`
+        # when we pass int to a function, it will be converted to `ctypes.c_int`
+        # by ctypes automatically
+        self.NCCL_CHECK(
+            self._funcs["ncclReduce"](
+                sendbuff, recvbuff, count, datatype, op, root, comm, stream
+            )
+        )
+
+    def ncclReduceScatter(
+        self,
+        sendbuff: buffer_type,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        op: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        # `datatype` actually should be `ncclDataType_t`
+        # and `op` should be `ncclRedOp_t`
+        # both are aliases of `ctypes.c_int`
+        # when we pass int to a function, it will be converted to `ctypes.c_int`
+        # by ctypes automatically
+        self.NCCL_CHECK(
+            self._funcs["ncclReduceScatter"](
+                sendbuff, recvbuff, count, datatype, op, comm, stream
+            )
+        )
+
+    def ncclAllGather(
+        self,
+        sendbuff: buffer_type,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        # `datatype` actually should be `ncclDataType_t`
+        # which is an aliases of `ctypes.c_int`
+        # when we pass int to a function, it will be converted to `ctypes.c_int`
+        # by ctypes automatically
+        self.NCCL_CHECK(
+            self._funcs["ncclAllGather"](
+                sendbuff, recvbuff, count, datatype, comm, stream
+            )
+        )
+
+    def ncclSend(
+        self,
+        sendbuff: buffer_type,
+        count: int,
+        datatype: int,
+        dest: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        self.NCCL_CHECK(
+            self._funcs["ncclSend"](sendbuff, count, datatype, dest, comm, stream)
+        )
+
+    def ncclRecv(
+        self,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        src: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        self.NCCL_CHECK(
+            self._funcs["ncclRecv"](recvbuff, count, datatype, src, comm, stream)
+        )
+
+    def ncclBroadcast(
+        self,
+        sendbuff: buffer_type,
+        recvbuff: buffer_type,
+        count: int,
+        datatype: int,
+        root: int,
+        comm: ncclComm_t,
+        stream: cudaStream_t,
+    ) -> None:
+        self.NCCL_CHECK(
+            self._funcs["ncclBroadcast"](
+                sendbuff, recvbuff, count, datatype, root, comm, stream
+            )
+        )
+
+    def ncclCommDestroy(self, comm: ncclComm_t) -> None:
+        self.NCCL_CHECK(self._funcs["ncclCommDestroy"](comm))
+
+    def ncclGroupStart(self) -> None:
+        self.NCCL_CHECK(self._funcs["ncclGroupStart"]())
+
+    def ncclGroupEnd(self) -> None:
+        self.NCCL_CHECK(self._funcs["ncclGroupEnd"]())
+
+    def ncclCommWindowRegister(
+        self, comm: ncclComm_t, buff: buffer_type, size: int, win_flags: int
+    ) -> ncclWindow_t:
+        window = ncclWindow_t()
+        self.NCCL_CHECK(
+            self._funcs["ncclCommWindowRegister"](
+                comm, buff, size, ctypes.byref(window), win_flags
+            )
+        )
+        return window
+
+    def ncclCommWindowDeregister(self, comm: ncclComm_t, window: ncclWindow_t) -> None:
+        self.NCCL_CHECK(self._funcs["ncclCommWindowDeregister"](comm, window))
+
+
+__all__ = [
+    "NCCLLibrary",
+    "ncclDataTypeEnum",
+    "ncclRedOpTypeEnum",
+    "ncclUniqueId",
+    "ncclComm_t",
+    "cudaStream_t",
+    "buffer_type",
+]
diff --git a/distributed/device_communicators/quick_all_reduce.py b/distributed/device_communicators/quick_all_reduce.py
new file mode 100644
index 0000000..9c77658
--- /dev/null
+++ b/distributed/device_communicators/quick_all_reduce.py
@@ -0,0 +1,290 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from enum import Enum
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm.config import get_current_vllm_config
+from vllm.distributed.parallel_state import in_the_same_node_as
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+logger = init_logger(__name__)
+
+try:
+    ops.qr_max_size()
+    quick_ar = True
+except Exception:
+    # For CPUs and CUDA
+    quick_ar = False
+
+
+def is_weak_contiguous(inp: torch.Tensor):
+    return inp.is_contiguous() or (
+        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
+        == inp.numel() * inp.element_size()
+    )
+
+
+class QuickReduceRegime(Enum):
+    FP = 0
+    INT8 = 1
+    INT6 = 2
+    INT4 = 3
+    NONE = 4
+
+
+MB = 1024 * 1024
+
+
+class QuickAllReduce:
+    _SUPPORTED_WORLD_SIZES = [2, 4, 8]
+    _SUPPORTED_DTYPES = [torch.float16, torch.bfloat16]
+    # The following data is based on kernel tests.
+    # In this order [FP, INT8, INT6, INT4].
+    _QR_MIN_SIZE = {
+        (torch.float16, 2): [1 * MB, 2 * MB, 2 * MB, 1 * MB],
+        (torch.float16, 4): [1 * MB, 16 * MB, 4 * MB, 2 * MB],
+        (torch.float16, 8): [16 * MB, 4 * MB, 4 * MB, 2 * MB],
+        (torch.bfloat16, 2): [2 * MB, 8 * MB, 8 * MB, 8 * MB],
+        (torch.bfloat16, 4): [8 * MB, 64 * MB, 64 * MB, 16 * MB],
+        (torch.bfloat16, 8): [16 * MB, 2048 * MB, 2048 * MB, 2048 * MB],
+    }
+
+    def __init__(self, group: ProcessGroup, device: int | str | torch.device) -> None:
+        """
+        Custom allreduce provides non-destructive acceleration and is
+        available for CUDA and ROCm MI300 series.
+
+        Custom quick allreduce leverages quantization for further
+        acceleration on ROCm. It currently supports Q8, Q6, and Q4
+        quantization formats and FP(float16, bfloat16).
+
+        Quick allreduce is designed as a complement to custom allreduce.
+        Its initialization requires even stricter conditions.
+
+        Only the ROCm MI300 series is supported for quick allreduce at
+        this time.
+
+        Args:
+            group: the process group to work on. If None, it will use the
+                default process group.
+            device: the device to bind the CustomAllreduce to. If None,
+                it will be bound to f"cuda:{local_rank}".
+        It is the caller's responsibility to make sure each communicator
+        is bind to a unique device, and all communicators in this group
+        are in the same node.
+        """
+        self.disabled = True
+        if not self._rocm_arch_available():
+            logger.debug(
+                "Custom quick allreduce is only supported on ROCm MI300 series."
+            )
+            return
+
+        if not quick_ar:
+            # disable because of missing quick reduce library
+            # e.g. in a cuda environment
+            logger.info(
+                "Custom quick allreduce is disabled because "
+                "of missing custom quick allreduce library"
+            )
+            return
+
+        self.group = group
+        assert dist.get_backend(group) != dist.Backend.NCCL, (
+            "Custom quick allreduce should be attached to a non-NCCL group."
+        )
+        if not all(in_the_same_node_as(group, source_rank=0)):
+            # No need to initialize custom quick allreduce for
+            # multi-node case.
+            logger.warning(
+                "Custom quick allreduce is disabled because this "
+                "process group spans across nodes."
+            )
+            return
+        rank = dist.get_rank(group=self.group)
+        world_size = dist.get_world_size(group=self.group)
+        self.rank = rank
+        self.world_size = world_size
+        if world_size == 1:
+            # No need to initialize QuickReduce for single GPU case.
+            return
+
+        if world_size not in QuickAllReduce._SUPPORTED_WORLD_SIZES:
+            logger.warning(
+                "Custom quick allreduce is disabled due to an "
+                "unsupported world size: %d. Supported world sizes: %s.",
+                world_size,
+                str(QuickAllReduce._SUPPORTED_WORLD_SIZES),
+            )
+            return
+
+        if isinstance(device, int):
+            device = torch.device(f"cuda:{device}")
+        elif isinstance(device, str):
+            device = torch.device(device)
+        assert isinstance(device, torch.device)
+        self.device = device
+
+        cuda_visible_devices = envs.CUDA_VISIBLE_DEVICES
+        if cuda_visible_devices:
+            device_ids = list(map(int, cuda_visible_devices.split(",")))
+        else:
+            device_ids = list(range(cuda_device_count_stateless()))
+        physical_device_id = device_ids[device.index]
+        tensor = torch.tensor([physical_device_id], dtype=torch.int, device="cpu")
+        gather_list = [
+            torch.tensor([0], dtype=torch.int, device="cpu")
+            for _ in range(self.world_size)
+        ]
+        dist.all_gather(gather_list, tensor, group=self.group)
+        physical_device_ids = [t.item() for t in gather_list]
+
+        # test nvlink first, this will filter out most of the cases
+        # where custom quick allreduce is not supported
+        # this checks hardware and driver support for NVLink
+        assert current_platform.is_cuda_alike()
+        self.fully_connected = current_platform.is_fully_connected(physical_device_ids)
+        if self.world_size > 2 and not self.fully_connected:
+            logger.debug(
+                "Custom quick allreduce is disabled because it's not supported "
+                "on more than two PCIe-only GPUs. "
+            )
+            return
+
+        self.init_quick_all_reduce()
+
+    def init_quick_all_reduce(self):
+        # On RocM, bfloat16 kernels are slower than fp16
+        # due to slower match operations
+        # If environment variable is set to 1, we convert input to fp16
+        self.use_fp16_kernels = envs.VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16
+        regime_str = envs.VLLM_ROCM_QUICK_REDUCE_QUANTIZATION
+        if regime_str not in QuickReduceRegime.__members__:
+            logger.warning(
+                "Custom quick allreduce:",
+                f"Invalid quantization level: {regime_str}. "
+                "Supported levels: "
+                f"{list(QuickReduceRegime.__members__.keys())}",
+            )
+            return
+
+        if regime_str == "NONE":
+            logger.debug(
+                "Custom quick allreduce is disabled based "
+                "on env variable "
+                "VLLM_ROCM_QUICK_REDUCE_QUANTIZATION='NONE'"
+            )
+            return
+        self.qr_quant_level = QuickReduceRegime[regime_str]
+        vllm_config = get_current_vllm_config()
+        if (
+            vllm_config is not None
+            and hasattr(vllm_config, "model_config")
+            and hasattr(vllm_config.model_config, "dtype")
+        ):
+            dtype = vllm_config.model_config.dtype
+            if dtype not in [torch.float16, torch.bfloat16]:
+                logger.debug(
+                    "Custom quick allreduce disabled: only supports "
+                    "float16 and float16, but get %s.",
+                    dtype,
+                )
+                return
+
+            if dtype == torch.bfloat16 and self.use_fp16_kernels:
+                logger.info(
+                    "Custom quick allreduce: BF16 inputs will be converted "
+                    "to FP16 to improve performance. set "
+                    "envs.VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16=0 "
+                    "to turn off."
+                )
+
+        # VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB is specified in MB
+        qr_max_size = envs.VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB
+        if qr_max_size is not None:
+            if qr_max_size < 1:
+                logger.info(
+                    "You should not set a max_size smaller than 1MB, which can "
+                    "lead to error or degradation to custom allreduce or rccl."
+                )
+            qr_max_size = qr_max_size * MB
+        self._ptr = ops.init_custom_qr(self.rank, self.world_size, qr_max_size)
+        self.qr_max_size = qr_max_size if qr_max_size is not None else ops.qr_max_size()
+        self.create_shared_buffer()
+        self.disabled = False
+
+    def _rocm_arch_available(self):
+        if not current_platform.is_rocm():
+            return False
+        try:
+            props = torch.cuda.get_device_properties(0)
+            gcn_arch = getattr(props, "gcnArchName", "")
+            supported_archs = ["gfx94", "gfx95"]
+            return any(gfx in gcn_arch for gfx in supported_archs)
+        except Exception as e:
+            logger.warning("Failed to determine ROCm for quick allreduce: %s", e)
+            return False
+
+    def create_shared_buffer(self):
+        """
+        Creates a shared buffer for quickreduce.
+        Has to be called after init_custom_qr
+        """
+        handle = ops.qr_get_handle(self._ptr)
+        world_size = dist.get_world_size(group=self.group)
+        handles = [None] * world_size
+        dist.all_gather_object(handles, handle, group=self.group)
+        ops.qr_open_handles(self._ptr, handles)
+
+    def should_quick_allreduce(self, inp: torch.Tensor):
+        """
+        Check if quickreduce is available
+        """
+        if self.disabled:
+            return False
+        if inp.dtype not in self._SUPPORTED_DTYPES:
+            return False
+        inp_size = inp.numel() * inp.element_size()
+        # custom quick allreduce requires input byte size to be
+        # multiples of 16
+        if inp_size % 16 != 0:
+            return False
+        if not is_weak_contiguous(inp):
+            return False
+        dtype = inp.dtype
+        if self.use_fp16_kernels:
+            dtype = torch.float16
+        return (
+            inp_size <= self.qr_max_size
+            and inp_size
+            >= self._QR_MIN_SIZE[(dtype, self.world_size)][self.qr_quant_level.value]
+        )
+
+    def quick_all_reduce(self, inp: torch.Tensor, *, out: torch.Tensor = None):
+        """Performs an out-of-place custom quick all reduce."""
+        # quick allreduce doesn't require a separate graph mode,
+        # as QR uses static IPC buffer.
+        if out is None:
+            out = torch.empty_like(inp)
+        ops.qr_all_reduce(
+            self._ptr, inp, out, self.qr_quant_level.value, self.use_fp16_kernels
+        )
+        return out
+
+    def close(self):
+        if not self.disabled and getattr(self, "_ptr", None):
+            if ops is not None:
+                ops.qr_destroy(self._ptr)
+            self._ptr = 0
+            self.disabled = True
+
+    def __del__(self):
+        self.close()
diff --git a/distributed/device_communicators/ray_communicator.py b/distributed/device_communicators/ray_communicator.py
new file mode 100644
index 0000000..d9517f5
--- /dev/null
+++ b/distributed/device_communicators/ray_communicator.py
@@ -0,0 +1,259 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import uuid
+from typing import Any
+
+import ray
+import torch
+from ray.exceptions import RayChannelError
+from ray.experimental.channel.communicator import Communicator, TorchTensorAllocator
+from torch.distributed import ReduceOp
+
+from vllm.distributed.device_communicators.base_device_communicator import (
+    DeviceCommunicatorBase,
+)
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.logger import init_logger
+from vllm.utils.torch_utils import current_stream
+
+logger = init_logger(__name__)
+
+
+class RayPPCommunicator(Communicator):
+    """
+    Communicator to be used for pipeline parallelism in Ray Compiled Graph.
+    This is wraps around the vLLM _PP GroupCoordinator.
+
+    This class is not thread-safe.
+    """
+
+    _comm: DeviceCommunicatorBase | None
+
+    def __init__(
+        self,
+        world_size: int,
+        comm_id: Any,
+        rank: int | None,
+        actor_handles: list["ray.actor.ActorHandle"],
+        cuda_stream: torch.cuda.Stream | None,
+        use_communication_streams: bool = False,
+    ):
+        """
+        Initialize a RayPPCommunicator that can be used to communicate with
+        other Ray Compiled Graph actors for pipeline parallelism.
+
+        Args:
+            world_size: The number of participating actors.
+            comm_id: A unique communicator ID. This is just to conform with
+                the Ray Communicator API and is not used.
+            rank: The rank of this actor. If None, then the caller is not a
+                participant of the RayPPCommunicator group (e.g., the Ray
+                driver).
+            actor_handles: A list of actor handles.
+            cuda_stream: A CUDA stream to dispatch communication ops to. This
+                is not supported.
+            use_communication_streams: Whether to use communication streams.
+                This is not supported.
+        """
+        self._world_size = world_size
+        self._rank: int | None = None
+        self._actor_handles = actor_handles
+        if use_communication_streams:
+            raise NotImplementedError("use_communication_streams is not supported")
+        if cuda_stream is not None and cuda_stream != current_stream():
+            raise ValueError(
+                "cuda_stream other than the current stream is not supported"
+            )
+
+        if rank is not None:
+            # Rank is not None, this is Ray worker
+            assert ray.get_gpu_ids(), "RayPPCommunicator has no GPUs assigned"
+
+            self._comm = get_pp_group().device_communicator
+            assert self._comm is not None
+
+            # Since we wrap around the vLLM _PP communicator, we use
+            # the rank from the vLLM communicator, and ignore the rank
+            # passed in from Ray.
+            # TODO(rui): refactor the Ray Communicator API so that
+            # it also supports no rank passed in.
+            self._rank = self._comm.rank_in_group
+
+            self._build_actor_rank_mapping()
+        else:
+            # Rank is None, this is Ray driver
+            self._comm = None
+
+        self._closed = False
+
+    def _build_actor_rank_mapping(self):
+        """
+        Use collective communication to build a mapping from actor IDs to ranks.
+        This should be called once during initialization.
+        """
+        if self._comm is None:
+            return {}
+
+        current_actor = ray.get_runtime_context().current_actor
+        actor_id_str = current_actor._actor_id.hex()
+
+        # Ray actor IDs are 32-character hex strings (128 bits)
+        ACTOR_ID_LEN = 32
+        actor_id_bytes = bytearray(actor_id_str.encode("utf-8"))
+        assert len(actor_id_bytes) == ACTOR_ID_LEN, (
+            f"Unexpected actor ID length: {len(actor_id_bytes)}"
+        )
+
+        actor_id_tensor = torch.frombuffer(actor_id_bytes, dtype=torch.uint8).to(
+            self._comm.device
+        )
+
+        # All-gather full actor IDs from all actors
+        gathered_ids = self._comm.all_gather(actor_id_tensor, dim=0)
+
+        # Build mapping: actor_id -> device_comm_rank
+        self._actor_id_to_rank = {}
+        for rank in range(self._world_size):
+            start_idx = rank * ACTOR_ID_LEN
+            end_idx = (rank + 1) * ACTOR_ID_LEN
+            actor_bytes = gathered_ids[start_idx:end_idx].cpu().numpy().tobytes()
+            actor_id = actor_bytes.decode("utf-8")
+            self._actor_id_to_rank[actor_id] = rank
+
+    def initialize(self, rank: int) -> None:
+        # No additional initialization is needed.
+        pass
+
+    def get_actor_handles(self) -> list["ray.actor.ActorHandle"]:
+        return self._actor_handles
+
+    def get_rank(self, actor: ray.actor.ActorHandle) -> int:
+        """
+        Return the given actor's rank using device communicator collective ops.
+        """
+        assert hasattr(self, "_actor_id_to_rank"), (
+            "Actor rank mapping not built. "
+            "This should have been done during initialization."
+        )
+
+        actor_id_str = actor._actor_id.hex()
+
+        if actor_id_str in self._actor_id_to_rank:
+            return self._actor_id_to_rank[actor_id_str]  # type: ignore
+        else:
+            raise ValueError(f"Actor {actor} not found in communicator group")
+
+    def get_self_rank(self) -> int | None:
+        """
+        Return this actor's rank.
+        """
+        return self._rank
+
+    def get_world_size(self) -> int:
+        """
+        Return the number of ranks in the RayPPCommunicator group.
+        """
+        return self._world_size
+
+    def send(self, buf: "torch.Tensor", peer_rank: int) -> None:
+        """
+        Send a torch.Tensor to a peer.
+
+        This returns when the send kernel has been queued, but the kernel may
+        not have completed. Therefore, the caller should ensure that there are
+        no concurrent writes to the sent `buf` until the send has finished.
+        That is, either all writes should be submitted on the current stream
+        (self._cuda_stream) or, if on a different stream, that stream should
+        synchronize with the current stream.
+
+        Args:
+            buf: The torch.Tensor to send. It should already be on this
+                actor's default device.
+            peer_rank: The rank of the actor to send to.
+        """
+        if self._closed:
+            raise RayChannelError("RayPPCommunicator has been destroyed.")
+
+        assert self._comm is not None
+        self._comm.send(buf, peer_rank)
+
+    def recv(
+        self,
+        shape: tuple[int, ...],
+        dtype: "torch.dtype",
+        peer_rank: int,
+        allocator: TorchTensorAllocator,
+    ) -> "torch.Tensor":
+        """
+        Receive a torch.Tensor from a peer and synchronize the current stream.
+
+        After this call returns, the receive buffer is safe to read from
+        any stream. An RayChannelError will be raised if an error occurred
+        (e.g., remote actor died), and the buffer is not safe to read.
+
+        Args:
+            shape: The shape of the tensor to receive.
+            dtype: The dtype of the tensor to receive.
+            peer_rank: The rank of the actor to receive from.
+            allocator: The allocator to use to create the received tensor.
+                This is ignored for this implementation.
+        """
+        if self._closed:
+            raise RayChannelError("RayPPCommunicator has been destroyed.")
+
+        assert self._comm is not None
+        size = torch.Size(shape)
+        buf = self._comm.recv(size, dtype, src=peer_rank)
+
+        # Buffer values are undefined if NCCL ops are aborted. Therefore, we
+        # need to synchronize here and check that the channel is still
+        # open to ensure that the receive buffer is valid.
+        # TODO(swang): Avoid CUDA synchronization.
+        current_stream().synchronize()
+
+        if self._closed:
+            raise RayChannelError("RayPPCommunicator has been destroyed.")
+        return buf
+
+    def allgather(
+        self,
+        send_buf: "torch.Tensor",
+        recv_buf: "torch.Tensor",
+    ):
+        raise NotImplementedError("allgather is not supported")
+
+    def allreduce(
+        self,
+        send_buf: "torch.Tensor",
+        recv_buf: "torch.Tensor",
+        op: ReduceOp = ReduceOp.SUM,
+    ):
+        raise NotImplementedError("allreduce is not supported")
+
+    def reducescatter(
+        self,
+        send_buf: "torch.Tensor",
+        recv_buf: "torch.Tensor",
+        op: ReduceOp = ReduceOp.SUM,
+    ):
+        raise NotImplementedError("reducescatter is not supported")
+
+    @property
+    def recv_stream(self):
+        return torch.cuda.StreamContext(current_stream())
+
+    @property
+    def send_stream(self):
+        return torch.cuda.StreamContext(current_stream())
+
+    def destroy(self) -> None:
+        # Just sets a flag, vLLM manages the lifecycle of the underlying
+        # _PP GroupCoordinator.
+        self._closed = True
+
+    def get_transport_name(self) -> str:
+        return "nccl"
+
+    @classmethod
+    def generate_communicator_id(cls) -> Any:
+        return uuid.uuid4()
diff --git a/distributed/device_communicators/shm_broadcast.py b/distributed/device_communicators/shm_broadcast.py
new file mode 100644
index 0000000..052df19
--- /dev/null
+++ b/distributed/device_communicators/shm_broadcast.py
@@ -0,0 +1,733 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+import pickle
+import time
+from contextlib import contextmanager
+from dataclasses import dataclass, field
+from multiprocessing import shared_memory
+from pickle import PickleBuffer
+from threading import Event
+from typing import TYPE_CHECKING, Any, cast
+from unittest.mock import patch
+
+import torch
+import torch.distributed as dist
+import zmq
+from torch.distributed import ProcessGroup
+from zmq import (  # type: ignore
+    IPV6,  # type: ignore
+    SUB,
+    SUBSCRIBE,
+    XPUB,
+    XPUB_VERBOSE,
+    Context,
+)
+
+import vllm.envs as envs
+from vllm.distributed.utils import StatelessProcessGroup, sched_yield
+from vllm.logger import init_logger
+from vllm.utils.network_utils import (
+    get_ip,
+    get_open_port,
+    get_open_zmq_ipc_path,
+    is_valid_ipv6_address,
+)
+
+if TYPE_CHECKING:
+    from _typeshed import SizedBuffer
+
+VLLM_RINGBUFFER_WARNING_INTERVAL = envs.VLLM_RINGBUFFER_WARNING_INTERVAL
+
+from_bytes_big = functools.partial(int.from_bytes, byteorder="big")
+
+
+def to_bytes_big(value: int, size: int) -> bytes:
+    return value.to_bytes(size, byteorder="big")
+
+
+logger = init_logger(__name__)
+
+
+def long_wait_time_msg(threshold: int) -> str:
+    return (
+        "No available shared memory broadcast block found "
+        f"in {threshold} seconds. This typically happens "
+        "when some processes are hanging or doing some "
+        "time-consuming work (e.g. compilation, "
+        "weight/kv cache quantization)."
+    )
+
+
+class SpinTimer:
+    def record_activity(self):
+        pass
+
+    def spin(self):
+        sched_yield()
+
+
+class SpinSleepTimer(SpinTimer):
+    """
+    In setups which have long inactivity periods it is desirable to reduce
+    system power consumption when vllm does nothing. This would lead to more
+    CPU thermal headroom when a request eventually comes, especially when
+    multiple GPUs are connected as each GPU would otherwise pin one thread at
+    100% CPU usage.
+
+    The simplest solution is to reduce polling frequency when there is no
+    activity for a certain period of time.
+    """
+
+    def __init__(self, busy_loop_s: float = 3.0, wait_sleep_s: float = 0.1):
+        self.last_activity = time.monotonic()
+        self.busy_loop_s = busy_loop_s
+        self.wait_sleep_s = wait_sleep_s
+
+    def record_activity(self):
+        self.last_activity = time.monotonic()
+
+    def spin(self):
+        curr_time = time.monotonic()
+        if curr_time >= self.last_activity + self.busy_loop_s:
+            time.sleep(self.wait_sleep_s)
+        else:
+            sched_yield()
+
+
+class ShmRingBuffer:
+    def __init__(
+        self,
+        n_reader: int,
+        max_chunk_bytes: int,
+        max_chunks: int,
+        name: str | None = None,
+    ):
+        """
+        A shared memory ring buffer implementation for broadcast communication.
+        Essentially, it is a queue where only one will `enqueue` and multiple
+        will `dequeue`. The max size of each item, together with the max number
+        of items that can be stored in the buffer are known in advance.
+        In this case, we don't need to synchronize the access to
+         the buffer.
+
+        Buffer memory layout:
+                  data                                 metadata
+                    |                                      |
+                    | (current_idx)                        | (current_idx)
+                    v                                      v
+        +-------------------------------+----------------------------------------+
+        | chunk0 | chunk1 | ... | chunk | metadata0 | metadata1 | ... | metadata |
+        +-------------------------------+----------------------------------------+
+        | max_chunks x max_chunk_bytes  | max_chunks x (1 + n_reader) bytes      |
+
+        metadata memory layout: each byte is a flag, the first byte is the written
+        flag, and the rest are reader flags. The flags are set to 0 by default.
+        +--------------+--------------+--------------+-----+--------------+
+        | written_flag | reader0_flag | reader1_flag | ... | readerN_flag |
+        +--------------+--------------+--------------+-----+--------------+
+
+        The state of metadata is as follows:
+
+        (case 1) 0???...???: the block is not written yet, cannot read, can write
+        (case 2) 1000...000: the block is just written, can read, cannot write
+        (case 3) 1???...???: the block is written and read by some readers, can read if not read, cannot write
+        (case 4) 1111...111: the block is written and read by all readers, cannot read, can write
+
+        State transition for readers:
+
+        When a reader finds a block that it can read (case 2 or 3), it can yield the block for caller to read.
+        Only after the caller finishes reading the block, the reader can mark the block as read.
+        Readers only mark the block as read (from 0 to 1), the writer marks the block as ready to read (from 1 to 0).
+
+        State transition for writer:
+
+        When the writer writes to a block (case 1 or 4), it first resets the written flag to 0, converting either case
+        to case 1. Then it can yield the block for caller to write. After the caller finishes writing the block, the writer
+        can reset the reader flags to 0, and mark the block as written (from 0 to 1).
+        NOTE: the order is important here, first reset the reader flags (so that we are still in case 1), then mark the block as written. The state transition is atomic. If we do it in the reverse order, it will go through case 3 and then back to case 2, and readers might read the intermediate case 3, which is not correct.
+
+        During creation, `name` is None and the buffer is created. We can pass the
+        created object to other processes by pickling it. The other processes will
+        get the name of the shared memory and open it, so that they can access the
+        same shared memory buffer.
+        """  # noqa
+        self.n_reader = n_reader
+        self.metadata_size = 1 + n_reader
+        self.max_chunk_bytes = max_chunk_bytes
+        self.max_chunks = max_chunks
+        self.total_bytes_of_buffer = (
+            self.max_chunk_bytes + self.metadata_size
+        ) * self.max_chunks
+        self.data_offset = 0
+        self.metadata_offset = self.max_chunk_bytes * self.max_chunks
+
+        if name is None:
+            # we are creating a buffer
+            self.is_creator = True
+            self.shared_memory = shared_memory.SharedMemory(
+                create=True, size=self.total_bytes_of_buffer
+            )
+            # initialize the metadata section to 0
+            with self.shared_memory.buf[self.metadata_offset :] as metadata_buffer:
+                torch.frombuffer(metadata_buffer, dtype=torch.uint8).fill_(0)
+        else:
+            # we are opening an existing buffer
+            self.is_creator = False
+            # fix to https://stackoverflow.com/q/62748654/9191338
+            # Python incorrectly tracks shared memory even if it is not
+            # created by the process. The following patch is a workaround.
+            with patch(
+                "multiprocessing.resource_tracker.register",
+                lambda *args, **kwargs: None,
+            ):
+                try:
+                    self.shared_memory = shared_memory.SharedMemory(name=name)
+                    # See https://docs.python.org/3/library/multiprocessing.shared_memory.html # noqa
+                    # Some platforms allocate memory based on page size,
+                    # so the shared memory block size may be larger or equal
+                    # to the requested size. The size parameter is ignored
+                    # when attaching to an existing block.
+                    assert self.shared_memory.size >= self.total_bytes_of_buffer
+                except FileNotFoundError:
+                    # we might deserialize the object in a different node
+                    # in this case, this object is not used,
+                    # and we should suppress the error
+                    pass
+
+    def handle(self):
+        return (
+            self.n_reader,
+            self.max_chunk_bytes,
+            self.max_chunks,
+            self.shared_memory.name,
+        )
+
+    def __reduce__(self):
+        return (
+            self.__class__,
+            self.handle(),
+        )
+
+    def __del__(self):
+        if hasattr(self, "shared_memory"):
+            self.shared_memory.close()
+            if self.is_creator:
+                self.shared_memory.unlink()
+
+    @contextmanager
+    def get_data(self, current_idx: int):
+        start = self.data_offset + current_idx * self.max_chunk_bytes
+        end = start + self.max_chunk_bytes
+        with self.shared_memory.buf[start:end] as buf:
+            yield buf
+
+    @contextmanager
+    def get_metadata(self, current_idx: int):
+        start = self.metadata_offset + current_idx * self.metadata_size
+        end = start + self.metadata_size
+        with self.shared_memory.buf[start:end] as buf:
+            yield buf
+
+
+@dataclass
+class Handle:
+    local_reader_ranks: list[int] = field(default_factory=list)
+
+    buffer_handle: tuple[int, int, int, str] | None = None
+    local_subscribe_addr: str | None = None
+    remote_subscribe_addr: str | None = None
+    remote_addr_ipv6: bool = False
+
+
+class MessageQueue:
+    def __init__(
+        self,
+        n_reader,  # number of all readers
+        n_local_reader,  # number of local readers through shared memory
+        local_reader_ranks: list[int] | None = None,
+        # Default of 24MiB chosen to be large enough to accommodate grammar
+        # bitmask tensors for large batches (1024 requests).
+        max_chunk_bytes: int = 1024 * 1024 * 24,
+        max_chunks: int = 10,
+        connect_ip: str | None = None,
+    ):
+        if local_reader_ranks is None:
+            local_reader_ranks = list(range(n_local_reader))
+        else:
+            assert len(local_reader_ranks) == n_local_reader
+        self.n_local_reader = n_local_reader
+        n_remote_reader = n_reader - n_local_reader
+        self.n_remote_reader = n_remote_reader
+
+        context = Context()
+
+        if n_local_reader > 0:
+            # for local readers, we will:
+            # 1. create a shared memory ring buffer to communicate small data
+            # 2. create a publish-subscribe socket to communicate large data
+            self.buffer = ShmRingBuffer(n_local_reader, max_chunk_bytes, max_chunks)
+
+            # XPUB is very similar to PUB,
+            # except that it can receive subscription messages
+            # to confirm the number of subscribers
+            self.local_socket = context.socket(XPUB)
+            # set the verbose option so that we can receive every subscription
+            # message. otherwise, we will only receive the first subscription
+            # see http://api.zeromq.org/3-3:zmq-setsockopt for more details
+            self.local_socket.setsockopt(XPUB_VERBOSE, True)
+            local_subscribe_addr = get_open_zmq_ipc_path()
+            logger.debug("Binding to %s", local_subscribe_addr)
+            self.local_socket.bind(local_subscribe_addr)
+
+            self.current_idx = 0
+        else:
+            self.buffer = None  # type: ignore
+            local_subscribe_addr = None
+            self.local_socket = None
+            self.current_idx = -1
+
+        remote_addr_ipv6 = False
+        if n_remote_reader > 0:
+            # for remote readers, we will:
+            # create a publish-subscribe socket to communicate large data
+            if not connect_ip:
+                connect_ip = get_ip()
+            self.remote_socket = context.socket(XPUB)
+            self.remote_socket.setsockopt(XPUB_VERBOSE, True)
+            remote_subscribe_port = get_open_port()
+            if is_valid_ipv6_address(connect_ip):
+                self.remote_socket.setsockopt(IPV6, 1)
+                remote_addr_ipv6 = True
+                connect_ip = f"[{connect_ip}]"
+            socket_addr = f"tcp://{connect_ip}:{remote_subscribe_port}"
+            self.remote_socket.bind(socket_addr)
+            remote_subscribe_addr = f"tcp://{connect_ip}:{remote_subscribe_port}"
+        else:
+            remote_subscribe_addr = None
+            self.remote_socket = None
+
+        self._is_writer = True
+        self._is_local_reader = False
+        self.local_reader_rank = -1
+        # rank does not matter for remote readers
+        self._is_remote_reader = False
+        self._read_spin_timer = SpinTimer()
+
+        self.handle = Handle(
+            local_reader_ranks=local_reader_ranks,
+            buffer_handle=self.buffer.handle() if self.buffer is not None else None,
+            local_subscribe_addr=local_subscribe_addr,
+            remote_subscribe_addr=remote_subscribe_addr,
+            remote_addr_ipv6=remote_addr_ipv6,
+        )
+
+        logger.debug("vLLM message queue communication handle: %s", self.handle)
+
+    def export_handle(self) -> Handle:
+        return self.handle
+
+    @staticmethod
+    def create_from_handle(handle: Handle, rank) -> "MessageQueue":
+        self = MessageQueue.__new__(MessageQueue)
+        self.handle = handle
+        self._is_writer = False
+
+        context = Context()
+
+        if rank in handle.local_reader_ranks:
+            assert handle.buffer_handle is not None
+            self.buffer = ShmRingBuffer(*handle.buffer_handle)
+            self.current_idx = 0
+            self.local_reader_rank = handle.local_reader_ranks.index(rank)
+            self._is_local_reader = True
+            self._is_remote_reader = False
+
+            self.local_socket = context.socket(SUB)
+            self.local_socket.setsockopt_string(SUBSCRIBE, "")
+            socket_addr = handle.local_subscribe_addr
+            logger.debug("Connecting to %s", socket_addr)
+            self.local_socket.connect(socket_addr)
+
+            self.remote_socket = None
+
+            self._read_spin_timer = (
+                SpinSleepTimer() if envs.VLLM_SLEEP_WHEN_IDLE else SpinTimer()
+            )
+        else:
+            self.buffer = None  # type: ignore
+            self.current_idx = -1
+            self.local_reader_rank = -1
+            self._is_local_reader = False
+            self._is_remote_reader = True
+
+            self.local_socket = None
+
+            self.remote_socket = context.socket(SUB)
+            self.remote_socket.setsockopt_string(SUBSCRIBE, "")
+            if handle.remote_addr_ipv6:
+                self.remote_socket.setsockopt(IPV6, 1)
+            socket_addr = handle.remote_subscribe_addr
+            logger.debug("Connecting to %s", socket_addr)
+            self.remote_socket.connect(socket_addr)
+
+        return self
+
+    def wait_until_ready(self):
+        """This is a collective operation. All processes (including the
+        readers and the writer) should call this function.
+        """
+        if self._is_writer:
+            # wait for all readers to connect
+
+            # local readers
+            for i in range(self.n_local_reader):
+                # wait for subscription messages from all local readers
+                self.local_socket.recv()
+            if self.n_local_reader > 0:
+                # send a message to all local readers
+                # to make sure the publish channel is working
+                self.local_socket.send(b"READY")
+
+            # remote readers
+            for i in range(self.n_remote_reader):
+                # wait for subscription messages from all remote readers
+                self.remote_socket.recv()
+            if self.n_remote_reader > 0:
+                # send a message to all remote readers
+                # to make sure the publish channel is working
+                self.remote_socket.send(b"READY")
+        elif self._is_local_reader:
+            # wait for the writer to send a message
+            recv = self.local_socket.recv()
+            assert recv == b"READY"
+        elif self._is_remote_reader:
+            # wait for the writer to send a message
+            recv = self.remote_socket.recv()
+            assert recv == b"READY"
+
+    @contextmanager
+    def acquire_write(self, timeout: float | None = None):
+        assert self._is_writer, "Only writers can acquire write"
+        start_time = time.monotonic()
+        n_warning = 1
+        while True:
+            with self.buffer.get_metadata(self.current_idx) as metadata_buffer:
+                read_count = sum(metadata_buffer[1:])
+                written_flag = metadata_buffer[0]
+                if written_flag and read_count != self.buffer.n_reader:
+                    # this block is written and not read by all readers
+                    # for writers, `self.current_idx` is the next block to write
+                    # if this block is not ready to write,
+                    # we need to wait until it is read by all readers
+
+                    # Release the processor to other threads
+                    sched_yield()
+
+                    # if we time out, raise an exception
+                    elapsed = time.monotonic() - start_time
+                    if timeout is not None and elapsed > timeout:
+                        raise TimeoutError
+
+                    # if we wait for a long time, log a message
+                    if elapsed > VLLM_RINGBUFFER_WARNING_INTERVAL * n_warning:
+                        logger.info(
+                            long_wait_time_msg(VLLM_RINGBUFFER_WARNING_INTERVAL)
+                        )
+                        n_warning += 1
+
+                    continue
+                # found a block that is either
+                # (1) not written
+                # (2) read by all readers
+
+                # mark the block as not written
+                metadata_buffer[0] = 0
+                # let caller write to the buffer
+                with self.buffer.get_data(self.current_idx) as buf:
+                    yield buf
+
+                # caller has written to the buffer
+                # NOTE: order is important here
+                # first set the read flags to 0
+                # then set the written flag to 1
+                # otherwise, the readers may think they already read the block
+                for i in range(1, self.buffer.n_reader + 1):
+                    # set read flag to 0, meaning it is not read yet
+                    metadata_buffer[i] = 0
+                # mark the block as written
+                metadata_buffer[0] = 1
+                self.current_idx = (self.current_idx + 1) % self.buffer.max_chunks
+                break
+
+    @contextmanager
+    def acquire_read(
+        self,
+        timeout: float | None = None,
+        cancel: Event | None = None,
+        indefinite: bool = False,
+    ):
+        assert self._is_local_reader, "Only readers can acquire read"
+        start_time = time.monotonic()
+        n_warning = 1
+        while True:
+            with self.buffer.get_metadata(self.current_idx) as metadata_buffer:
+                read_flag = metadata_buffer[self.local_reader_rank + 1]
+                written_flag = metadata_buffer[0]
+                if not written_flag or read_flag:
+                    # this block is either
+                    # (1) not written
+                    # (2) already read by this reader
+
+                    # for readers, `self.current_idx` is the next block to read
+                    # if this block is not ready,
+                    # we need to wait until it is written
+
+                    # Release the processor to other threads
+                    self._read_spin_timer.spin()
+
+                    if cancel is not None and cancel.is_set():
+                        raise RuntimeError("cancelled")
+
+                    # if we time out, raise an exception
+                    elapsed = time.monotonic() - start_time
+                    if timeout is not None and elapsed > timeout:
+                        raise TimeoutError
+
+                    # if we wait for a long time, log a message
+                    if not indefinite and (
+                        elapsed > VLLM_RINGBUFFER_WARNING_INTERVAL * n_warning
+                    ):
+                        logger.info(
+                            long_wait_time_msg(VLLM_RINGBUFFER_WARNING_INTERVAL)
+                        )
+                        n_warning += 1
+
+                    continue
+                # found a block that is not read by this reader
+                # let caller read from the buffer
+                with self.buffer.get_data(self.current_idx) as buf:
+                    yield buf
+
+                # caller has read from the buffer
+                # set the read flag
+                metadata_buffer[self.local_reader_rank + 1] = 1
+                self.current_idx = (self.current_idx + 1) % self.buffer.max_chunks
+
+                self._read_spin_timer.record_activity()
+                break
+
+    def enqueue(self, obj, timeout: float | None = None):
+        """Write to message queue with optional timeout (in seconds)"""
+        assert self._is_writer, "Only writers can enqueue"
+        all_buffers: list[SizedBuffer] = [b""]
+        total_bytes = 6  # 2 bytes for oob buffer count, 4 for main buffer size
+
+        def oob_callback(buf: PickleBuffer) -> bool:
+            raw_buf = buf.raw()
+            if len(raw_buf) < 1024 * 1024:
+                # In-line buffers smaller than 1MiB.
+                return True
+            all_buffers.append(raw_buf)
+            nonlocal total_bytes
+            total_bytes += len(raw_buf) + 4
+            return False
+
+        all_buffers[0] = pickle.dumps(
+            obj, protocol=pickle.HIGHEST_PROTOCOL, buffer_callback=oob_callback
+        )
+        if self.n_local_reader > 0:
+            if total_bytes + len(all_buffers[0]) >= self.buffer.max_chunk_bytes:
+                with self.acquire_write(timeout) as buf:
+                    buf[0] = 1  # overflow
+                self.local_socket.send_multipart(all_buffers, copy=False)
+            else:
+                # Byte 0: 0
+                # Bytes 1-2: Count of buffers
+                # Then each buffer follows, preceded by 4 bytes containing its length:
+                # [4 byte int L][L bytes of buffer content] ...
+                with self.acquire_write(timeout) as buf:
+                    buf[0] = 0  # not overflow
+                    offset = 3
+                    buf[1:offset] = to_bytes_big(len(all_buffers), 2)  # oob buf count
+                    for buffer in all_buffers:
+                        buf_len = len(buffer)
+                        # prepend each buffer with 4 bytes containing its size.
+                        buf_offset = offset + 4
+                        buf[offset:buf_offset] = to_bytes_big(buf_len, 4)
+                        buf[buf_offset : (offset := buf_offset + buf_len)] = buffer
+
+        if self.n_remote_reader > 0:
+            self.remote_socket.send_multipart(all_buffers, copy=False)
+
+    def dequeue(
+        self,
+        timeout: float | None = None,
+        cancel: Event | None = None,
+        indefinite: bool = False,
+    ):
+        """Read from message queue with optional timeout (in seconds)"""
+        if self._is_local_reader:
+            with self.acquire_read(timeout, cancel, indefinite) as buf:
+                overflow = buf[0] == 1
+                if not overflow:
+                    offset = 3
+                    buf_count = from_bytes_big(buf[1:offset])
+                    all_buffers = []
+                    for i in range(buf_count):
+                        buf_offset = offset + 4
+                        buf_len = from_bytes_big(buf[offset:buf_offset])
+                        offset = buf_offset + buf_len
+                        all_buffers.append(buf[buf_offset:offset])
+                    obj = pickle.loads(all_buffers[0], buffers=all_buffers[1:])
+            if overflow:
+                obj = MessageQueue.recv(self.local_socket, timeout)
+        elif self._is_remote_reader:
+            obj = MessageQueue.recv(self.remote_socket, timeout)
+        else:
+            raise RuntimeError("Only readers can dequeue")
+        return obj
+
+    @staticmethod
+    def recv(socket: zmq.Socket, timeout: float | None) -> Any:
+        timeout_ms = None if timeout is None else int(timeout * 1000)
+        if not socket.poll(timeout=timeout_ms):
+            raise TimeoutError
+        recv, *recv_oob = socket.recv_multipart(copy=False)
+        return pickle.loads(recv, buffers=recv_oob)
+
+    def broadcast_object(self, obj=None):
+        if self._is_writer:
+            self.enqueue(obj)
+            return obj
+        return self.dequeue()
+
+    @staticmethod
+    def create_from_process_group_single_reader(
+        pg: ProcessGroup,
+        max_chunk_bytes,
+        max_chunks,
+        reader_rank: int = 0,
+        blocking: bool = False,
+    ) -> tuple["MessageQueue", list[Handle]]:
+        """
+        Creates a MessageQueue for a process group with a single reader.
+
+        This method is designed for scenarios where only one process (the reader)
+        will consume messages, and all other processes are writers. It sets up
+        the shared memory buffer and communication handles accordingly, and
+        gathers the handles from all processes to the reader.
+
+        Args:
+            pg (ProcessGroup): The torch distributed process group.
+            max_chunk_bytes (int): Maximum size in bytes for each chunk in the buffer.
+            max_chunks (int): Maximum number of chunks in the buffer.
+            reader_rank (int, optional): The global rank that will act as the reader.
+                Defaults to 0.
+            blocking (bool, optional): If True, blocks until all processes are ready.
+                Defaults to False.
+
+        Returns:
+            tuple[MessageQueue, list[Handle]]:
+            The MessageQueue instance for the calling process,
+            and a list of handles (only non-empty for the reader process).
+        """
+        local_size = torch.cuda.device_count()
+        rank = dist.get_rank()
+        same_node = rank // local_size == reader_rank // local_size
+        buffer_io = MessageQueue(
+            n_reader=1,
+            n_local_reader=1 if same_node else 0,
+            max_chunk_bytes=max_chunk_bytes,
+            max_chunks=max_chunks,
+        )
+        handle = buffer_io.export_handle()
+        handles = [None] * dist.get_world_size(pg) if rank == reader_rank else None
+        dist.gather_object(handle, handles, dst=reader_rank, group=pg)
+        if blocking:
+            buffer_io.wait_until_ready()
+        return buffer_io, cast(list[Handle], handles or [])
+
+    @staticmethod
+    def create_from_process_group(
+        pg: ProcessGroup | StatelessProcessGroup,
+        max_chunk_bytes,
+        max_chunks,
+        writer_rank: int = 0,
+        external_writer_handle=None,
+        blocking: bool = True,
+    ) -> "MessageQueue":
+        """
+        Creates a MessageQueue for a distributed process group with one writer and
+        multiple readers.
+
+        This method is designed for scenarios where one process (the writer) sends
+        messages, and all other processes (the readers) receive messages. It sets up
+        the shared memory buffer and socket communication handles accordingly, and
+        broadcasts the handle from the writer to all readers.
+
+        Args:
+            pg (ProcessGroup | StatelessProcessGroup): The torch distributed process
+                group.
+            max_chunk_bytes (int): Maximum size in bytes for each chunk in the buffer.
+            max_chunks (int): Maximum number of chunks in the buffer.
+            writer_rank (int, optional): The global rank that will act as the writer.
+                Defaults to 0.
+            external_writer_handle (Handle, optional): Used when there is a handle
+                from an external Message Queue. If provided, use this handle to init
+                PG writer message queue instead of creating a new one. Defaults to None.
+            blocking (bool, optional): If True, blocks until all processes are ready.
+                Defaults to True.
+
+        Returns:
+            MessageQueue: The MessageQueue instance for the calling process.
+
+        """
+        if isinstance(pg, ProcessGroup):
+            group_rank = dist.get_rank(pg)
+            group_world_size = dist.get_world_size(pg)
+            global_ranks = dist.get_process_group_ranks(pg)
+        else:
+            group_rank = pg.rank
+            group_world_size = pg.world_size
+            global_ranks = list(range(pg.world_size))
+        from vllm.distributed.parallel_state import in_the_same_node_as
+
+        status = in_the_same_node_as(pg, source_rank=writer_rank)
+        if group_rank == writer_rank:
+            if external_writer_handle is not None:
+                buffer_io = MessageQueue.create_from_handle(
+                    external_writer_handle, group_rank
+                )
+            else:
+                same_node_ranks = [i for i, s in enumerate(status) if s]
+                n_reader = group_world_size - 1
+                n_local_reader = len(same_node_ranks) - 1
+                local_reader_ranks = [i for i in same_node_ranks if i != writer_rank]
+                buffer_io = MessageQueue(
+                    n_reader=n_reader,
+                    n_local_reader=n_local_reader,
+                    local_reader_ranks=local_reader_ranks,
+                    max_chunk_bytes=max_chunk_bytes,
+                    max_chunks=max_chunks,
+                )
+            handle = buffer_io.export_handle()
+            if isinstance(pg, ProcessGroup):
+                dist.broadcast_object_list(
+                    [handle], src=global_ranks[writer_rank], group=pg
+                )
+            else:
+                pg.broadcast_obj(handle, writer_rank)
+        else:
+            if isinstance(pg, ProcessGroup):
+                recv = [None]
+                dist.broadcast_object_list(
+                    recv, src=global_ranks[writer_rank], group=pg
+                )
+                handle = recv[0]  # type: ignore
+            else:
+                handle = pg.broadcast_obj(None, writer_rank)
+            buffer_io = MessageQueue.create_from_handle(handle, group_rank)
+        if blocking:
+            buffer_io.wait_until_ready()
+        return buffer_io
diff --git a/distributed/device_communicators/shm_object_storage.py b/distributed/device_communicators/shm_object_storage.py
new file mode 100644
index 0000000..4af2caa
--- /dev/null
+++ b/distributed/device_communicators/shm_object_storage.py
@@ -0,0 +1,660 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pickle
+from abc import ABC, abstractmethod
+from collections.abc import Callable, Iterable
+from contextlib import contextmanager
+from dataclasses import dataclass
+from itertools import chain
+from multiprocessing import shared_memory
+from multiprocessing.synchronize import Lock as LockType
+from typing import Any
+from unittest.mock import patch
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class SingleWriterShmRingBuffer:
+    """
+    A single-writer, multiple-reader ring buffer implementation using shared
+    memory. This class provides a thread-safe ring buffer where one process
+    can write data while multiple processes/threads can read from it.
+
+    Architecture:
+    - Uses shared memory for cross-process communication
+    - Maintains metadata for each allocated buffer chunk in the writer process
+    - Supports custom "is_free_fn" functions to determine when buffers can be
+      reused
+    - Each buffer chunk contains: `[4-byte id][4-byte size][actual_data]`
+
+    Key Concepts:
+    - monotonic_id_start/end: Track the range of active buffer IDs
+    - data_buffer_start/end: Track the physical memory range in use
+    - Automatic wraparound when reaching buffer end
+    - Lazy garbage collection based on is_free_fn checks
+
+    Example Usage Scenarios:
+
+    Scenario 1: Simple Linear Allocation
+    ```
+    Buffer size: 100 bytes
+    Initial state: [................................................. ]
+                   ^start=end(0)
+
+    After allocating 20 bytes (id=0):
+    [id:0|size:20|data........][...................................]
+    ^start(0)                  ^end(28)
+
+    After allocating 30 bytes (id=1):
+    [id:0|size:20|data........][id:1|size:30|data..............][..]
+    ^start(0)                                                   ^end(66)
+    ```
+
+    Scenario 2: Memory Reclamation
+    ```
+    Before freeing (both buffers still in use):
+    [id:0|size:20|data........][id:1|size:30|data..............][..]
+    ^start(0)                                                   ^end(66)
+
+    After id:0 is marked free by readers:
+    [FREED.................... ][id:1|size:30|data..............][..]
+                                ^start(28)                       ^end(66)
+
+    After both are freed:
+    [FREED..............................................][..]
+                                                         ^start=end(66)
+    ```
+
+    Scenario 3: Wraparound Allocation (continuing from Scenario 2)
+    ```
+    Starting from after memory reclamation in Scenario 2:
+    [FREED..............................................][..]
+                                                         ^start=end(66)
+
+    Allocate 40 bytes (id=2) - only 34 bytes available at end, so wraparound:
+    [id:2|size:40|data........................][FREED.............][..]
+                                              ^end(148)            ^start(66)
+    ```
+
+    Scenario 4: Error Handling - Out of Space
+    ```
+    Starting from after wraparound allocation in Scenario 3:
+    [id:2|size:40|data........................][FREED.............][..]
+                                              ^end(148)            ^start(66)
+
+    Trying to allocate 20 more bytes:
+    occupied_size_new = end + size - start = 148 + 28 - 66 > buffer_size(100)
+    -> Raises MemoryError: "Not enough space in the data buffer"
+    ```
+
+    Thread Safety:
+    - Single writer: Only one process/thread should write (allocate_buf)
+    - Multiple readers: Multiple processes/threads can read (access_buf)
+    - Reader synchronization handled by is_free_fn callback
+    - Writer handles garbage collection (free_buf) based on reader feedback
+
+    Memory Layout per Buffer Chunk:
+    `[4-byte monotonic_id][4-byte chunk_size][actual_data...]`
+    ^metadata_start                         ^data_start
+
+    The monotonic_id ensures data integrity - readers can verify they're
+    accessing the correct data even after buffer wraparound or reuse.
+    """
+
+    def __init__(
+        self,
+        data_buffer_size: int,
+        name: str | None = None,
+        create: bool = False,
+    ):
+        self.data_buffer_size = data_buffer_size
+        self.is_writer = create
+
+        self.ID_NBYTES = 4
+        self.ID_MAX = 2**31  # exclusive, so 2**31 - 1 is the max value
+        self.SIZE_NBYTES = 4
+        # 4 bytes for id, 4 bytes for buffer size
+        self.MD_SIZE = self.ID_NBYTES + self.SIZE_NBYTES
+        self.monotonic_id_end = 0
+        self.monotonic_id_start = 0
+        self.data_buffer_start = 0
+        self.data_buffer_end = 0
+
+        if create:
+            # we are creating a buffer
+            self.metadata: dict[int, int] = {}  # monotonic_id -> start address
+            self.shared_memory = shared_memory.SharedMemory(
+                create=True, size=self.data_buffer_size, name=name
+            )
+        else:
+            # we are opening an existing buffer
+            # fix to https://stackoverflow.com/q/62748654/9191338
+            # Python incorrectly tracks shared memory even if it is not
+            # created by the process. The following patch is a workaround.
+            with patch(
+                "multiprocessing.resource_tracker.register",
+                lambda *args, **kwargs: None,
+            ):
+                self.shared_memory = shared_memory.SharedMemory(name=name)
+                # See https://docs.python.org/3/library/multiprocessing.shared_memory.html # noqa
+                # Some platforms allocate memory based on page size,
+                # so the shared memory block size may be larger or equal
+                # to the requested size. The size parameter is ignored
+                # when attaching to an existing block.
+                assert self.shared_memory.size >= self.data_buffer_size
+
+        logger.debug(
+            "Shared memory created/opened with name: %s, size: %d",
+            self.shared_memory.name,
+            self.data_buffer_size,
+        )
+
+    def handle(self):
+        return (
+            self.data_buffer_size,
+            self.shared_memory.name,
+        )
+
+    def clear(self) -> None:
+        """Clear the ring buffer."""
+        assert self.is_writer, "Only the writer can clear the buffer."
+        self.metadata.clear()
+        self.monotonic_id_end = 0
+        self.monotonic_id_start = 0
+        self.data_buffer_start = 0
+        self.data_buffer_end = 0
+
+    def __del__(self):
+        if hasattr(self, "shared_memory"):
+            self.shared_memory.close()
+            if self.is_writer:
+                self.shared_memory.unlink()
+
+    def int2byte(self, integer: int) -> bytes:
+        """Convert an integer to bytes."""
+        return integer.to_bytes(self.ID_NBYTES, "little", signed=True)
+
+    def byte2int(self, byte_data: bytes) -> int:
+        """Convert bytes back to an integer."""
+        return int.from_bytes(byte_data, "little", signed=True)
+
+    def allocate_buf(self, size: int) -> tuple[int, int]:
+        """
+        Allocate a buffer `MD_SIZE` + `size` bytes in the shared memory.
+        Memory layout:
+        `[4-byte monotonic_id][4-byte size][buffer data...]`
+        """
+        assert self.is_writer, "Only the writer can allocate buffers."
+        assert size > 0, "Size must be greater than 0"
+        size += self.MD_SIZE  # add metadata size to the buffer size
+        # reset to beginning if the buffer does have enough contiguous space
+        buffer_end_reset = self.data_buffer_end % self.data_buffer_size
+        if buffer_end_reset + size > self.data_buffer_size:
+            buffer_end_reset = (
+                self.data_buffer_end // self.data_buffer_size + 1
+            ) * self.data_buffer_size
+        else:  # no reset needed
+            buffer_end_reset = self.data_buffer_end
+
+        # check if we have enough space in the data buffer
+        # i.e. if the new end (self.data_buffer_end + size)
+        # exceeds the start of the data buffer
+        occupied_size_new = buffer_end_reset + size - self.data_buffer_start
+        if occupied_size_new > self.data_buffer_size:
+            raise MemoryError(
+                "Not enough space in the data buffer, "
+                "try calling free_buf() to free up space"
+            )
+        self.data_buffer_end = buffer_end_reset
+
+        # first 4 bytes as the monotonic id
+        buf_idx = self.data_buffer_end % self.data_buffer_size
+        self.shared_memory.buf[buf_idx : buf_idx + self.ID_NBYTES] = self.int2byte(
+            self.monotonic_id_end
+        )
+        # next 4 bytes as the size of the data buffer
+        self.shared_memory.buf[buf_idx + self.ID_NBYTES : buf_idx + self.MD_SIZE] = (
+            self.int2byte(size)
+        )
+
+        # record metadata
+        self.metadata[self.monotonic_id_end % self.ID_MAX] = self.data_buffer_end
+        # update buffer and monotonic id indices
+        current_buffer_end = self.data_buffer_end
+        current_id_end = self.monotonic_id_end
+        self.data_buffer_end += size
+        self.monotonic_id_end = (self.monotonic_id_end + 1) % self.ID_MAX
+        return current_buffer_end, current_id_end
+
+    @contextmanager
+    def access_buf(self, address: int):
+        buf_idx = address % self.data_buffer_size
+
+        # read metadata
+        metadata_buff = self.shared_memory.buf[buf_idx : buf_idx + self.MD_SIZE]
+        id = self.byte2int(metadata_buff[: self.ID_NBYTES])
+        size = self.byte2int(metadata_buff[self.ID_NBYTES : self.MD_SIZE])
+
+        # yield the data buffer and metadata
+        data_buff = self.shared_memory.buf[buf_idx + self.MD_SIZE : buf_idx + size]
+        with (
+            memoryview(data_buff) as data_view,
+        ):
+            yield data_view, (id, size)
+
+    def free_buf(
+        self,
+        is_free_fn: Callable[[int, memoryview], bool],
+        nbytes: int | None = None,
+    ) -> Iterable[int]:
+        """
+        Free a buffer of the given size. This is a no-op in shared memory,
+        but we need to keep track of the metadata.
+
+        If freed memory spreads across the end and start of the ring buffer,
+        the actual freed memory will be in two segments. In this case there
+        still might not be a contiguous space of `nbytes` available.
+
+        Args:
+            nbytes (int, optional): The size of the buffer to free. If None,
+                frees the maximum size of the ring buffer.
+        """
+
+        assert self.is_writer, "Only the writer can free buffers."
+        logger.debug(
+            "Freeing up space in the ring buffer, "
+            "monotonic_id_start: %d, monotonic_id_end: %d",
+            self.monotonic_id_start,
+            self.monotonic_id_end,
+        )
+        monotonic_id_before = self.monotonic_id_start
+        # if nbytes is None, free up the maximum size of the ring buffer
+        if nbytes is None:
+            nbytes = self.data_buffer_size
+        freed_bytes = 0
+        while self.monotonic_id_start in self.metadata and freed_bytes < nbytes:
+            address = self.metadata[self.monotonic_id_start]
+            with self.access_buf(address) as (data_buff, metadata):
+                if is_free_fn(self.monotonic_id_start, data_buff):
+                    # check passed, we can free the buffer
+                    del self.metadata[self.monotonic_id_start]
+                    self.monotonic_id_start = (
+                        self.monotonic_id_start + 1
+                    ) % self.ID_MAX
+                    if self.monotonic_id_start in self.metadata:
+                        # pointing to the start addr of next allocation
+                        self.data_buffer_start += (
+                            self.metadata[self.monotonic_id_start]
+                            - self.data_buffer_start
+                        ) % self.data_buffer_size
+                    else:
+                        # no remaining allocation, reset to zero
+                        self.data_buffer_start = self.data_buffer_end = 0
+                    freed_bytes += metadata[1]
+                else:
+                    # there are still readers, we cannot free the buffer
+                    break
+
+        logger.debug(
+            "Freed %d bytes from the ring buffer, "
+            "monotonic_id_start: %d, monotonic_id_end: %d",
+            freed_bytes,
+            self.monotonic_id_start,
+            self.monotonic_id_end,
+        )
+
+        # buffer wrap around
+        if self.data_buffer_start >= self.data_buffer_size:
+            self.data_buffer_start -= self.data_buffer_size
+            self.data_buffer_end -= self.data_buffer_size
+
+        monotonic_id_after = self.monotonic_id_start
+        # id wrap around
+        if monotonic_id_after >= monotonic_id_before:
+            return range(monotonic_id_before, monotonic_id_after)
+        else:
+            return chain(
+                range(monotonic_id_before, self.ID_MAX), range(0, monotonic_id_after)
+            )
+
+
+class ObjectSerde(ABC):
+    @abstractmethod
+    def serialize(self, value: Any) -> tuple[Any, int, bytes, int]:
+        """Serialize an object to bytes."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def deserialize(self, data: memoryview) -> Any:
+        """Deserialize bytes back to an object."""
+        raise NotImplementedError
+
+
+class MsgpackSerde(ObjectSerde):
+    def __init__(self):
+        # Delayed import to avoid circular dependency
+        from vllm.multimodal.inputs import MultiModalKwargsItem
+        from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
+
+        self.encoder = MsgpackEncoder()
+        self.tensor_decoder = MsgpackDecoder(torch.Tensor, share_mem=False)
+        self.mm_decoder = MsgpackDecoder(MultiModalKwargsItem, share_mem=False)
+        self._mm_kwargs_item_cls = MultiModalKwargsItem
+
+    def serialize(self, value: Any) -> tuple[bytes | list[bytes], int, bytes, int]:
+        len_arr = None
+        if isinstance(value, (torch.Tensor, self._mm_kwargs_item_cls)):
+            type_name = type(value).__name__
+            value = self.encoder.encode(value)
+            len_arr = [len(s) for s in value]
+            nbytes = sum(len_arr)
+        else:
+            value = pickle.dumps(value, protocol=pickle.HIGHEST_PROTOCOL)
+            type_name = type(value).__name__
+            nbytes = len(value)
+
+        object_metadata = (type_name, nbytes, len_arr)
+        serialized_metadata = pickle.dumps(
+            object_metadata, protocol=pickle.HIGHEST_PROTOCOL
+        )
+        return value, nbytes, serialized_metadata, len(serialized_metadata)
+
+    def deserialize(self, data_view: memoryview) -> Any:
+        # pickle.loads do not read past the end of a pickled object
+        # within a large buffer, so we can skip storing the metadata size
+        type_name, nbytes, len_arr = pickle.loads(data_view)
+        serialized_data = data_view[-nbytes:]
+
+        if type_name == torch.Tensor.__name__:
+            obj = []
+            start_idx = 0
+            for length in len_arr:
+                item_bytes = serialized_data[start_idx : start_idx + length]
+                obj.append(item_bytes)
+                start_idx += length
+            obj = self.tensor_decoder.decode(obj)
+        elif type_name == self._mm_kwargs_item_cls.__name__:
+            obj = []
+            start_idx = 0
+            for length in len_arr:
+                item_bytes = serialized_data[start_idx : start_idx + length]
+                obj.append(item_bytes)
+                start_idx += length
+            obj = self.mm_decoder.decode(obj)
+        elif type_name == bytes.__name__:
+            obj = pickle.loads(serialized_data)
+        else:
+            raise ValueError(f"Unsupported object type '{type_name}' in metadata")
+
+        return obj
+
+
+@dataclass
+class ShmObjectStorageHandle:
+    max_object_size: int
+    n_readers: int
+    ring_buffer_handle: tuple[int, str]
+    serde_class: type[ObjectSerde]
+    reader_lock: LockType | None
+
+
+class SingleWriterShmObjectStorage:
+    """
+    A single-writer, multiple-reader object storage system built on top of a
+    shared memory ring buffer. Provides key-value storage with automatic memory
+    management and cross-process serialization support.
+
+    This storage system follows a FIFO (First-In-First-Out) eviction policy
+    where the oldest objects are automatically freed when memory runs low.
+    Memory is reclaimed based on reader reference counting - objects are only
+    freed when all readers have finished accessing them.
+
+    Architecture:
+    - Single writer process can put(key, value) objects
+    - Multiple reader processes can get(address, monotonic_id) objects
+    - Built on SingleWriterShmRingBuffer for efficient shared memory management
+    - Thread-safe operations with reader synchronization via locks
+
+    Key Features:
+    - FIFO Eviction: Oldest objects are evicted first when memory is full
+    - Reference Counting: Objects are only freed when no readers are
+      accessing them
+    - Duplicate Key Handling: Existing keys are not overwritten, just
+      re-referenced
+    - Customized Serialization: By default uses Msgpack for efficient
+      serialization of Python objects, but can be extended for custom types
+    - Cross-Process Safety: Uses shared memory with proper synchronization
+    - Automatic Cleanup: Garbage collection happens transparently during
+      allocation
+
+    Memory Layout per Object:
+    `[4-byte reference_count][metadata_size][serialized_object_data]`
+
+    Thread Safety:
+    - Writer operations (put, clear) are single-threaded by design
+    - Reader operations (get) are thread-safe with lock-based reference
+      counting
+    - Memory reclamation is handled exclusively by the writer process
+    """
+
+    def __init__(
+        self,
+        max_object_size: int,
+        n_readers: int,
+        ring_buffer: SingleWriterShmRingBuffer,
+        serde_class: type[ObjectSerde] = MsgpackSerde,
+        reader_lock: LockType | None = None,
+    ):
+        """
+        Initialize the object storage.
+
+        Args:
+            max_object_size: Maximum size for a single object in bytes.
+            n_readers: Number of reader processes that can access the storage.
+            ring_buffer: The shared memory ring buffer for storing objects.
+            serde_class: Serializer/deserializer for objects.
+            reader_lock: Optional lock for synchronizing reader access.
+        Raises:
+            ValueError: If reader_lock is None for readers.
+        """
+
+        self.max_object_size = max_object_size
+        self.n_readers = n_readers
+        self.serde_class = serde_class
+        self.ser_de = serde_class()
+        self.ring_buffer = ring_buffer
+        self.is_writer = self.ring_buffer.is_writer
+
+        self.flag_bytes = 4  # for in-use flag
+
+        if self.is_writer:
+            # Key-value mapping: key -> (address, monotonic_id)
+            self.key_index: dict[str, tuple[int, int]] = {}
+            # Reverse mapping: monotonic_id -> key
+            self.id_index: dict[int, str] = {}
+            # Writer flag to track in-use status: monotonic_id -> count
+            self.writer_flag: dict[int, int] = {}
+        else:
+            if reader_lock is None:
+                raise ValueError("Lock must be provided for readers.")
+
+        self._reader_lock = reader_lock
+
+    def clear(self) -> None:
+        """Clear the object storage."""
+        if self.is_writer:
+            self.ring_buffer.clear()
+            self.key_index.clear()
+            self.id_index.clear()
+            self.writer_flag.clear()
+            logger.debug("Object storage cleared and reinitialized.")
+
+    def copy_to_buffer(
+        self,
+        data: bytes | list[bytes],
+        data_bytes: int,
+        metadata: bytes,
+        md_bytes: int,
+        data_view: memoryview,
+    ) -> None:
+        data_view[self.flag_bytes : self.flag_bytes + md_bytes] = metadata
+        if isinstance(data, bytes):
+            data_view[-data_bytes:] = data
+        elif isinstance(data, list):
+            start_idx = self.flag_bytes + md_bytes
+            for item_bytes in data:
+                item_size = len(item_bytes)
+                data_view[start_idx : start_idx + item_size] = item_bytes
+                start_idx += item_size
+        else:
+            raise ValueError(f"Unsupported data type for serialization: {type(data)}")
+
+    def increment_writer_flag(self, id: int) -> None:
+        """Set the in-use flag for the writer."""
+        self.writer_flag[id] = self.writer_flag.get(id, 0) + 1
+
+    def increment_reader_flag(self, data_view: memoryview) -> None:
+        """Set the in-use flag for the reader."""
+        # >0 for in-use flag
+        reader_count = self.ring_buffer.byte2int(data_view)
+        data_view[:] = self.ring_buffer.int2byte(reader_count + 1)
+
+    def free_unused(self) -> None:
+        """Free unused buffers in the ring buffer."""
+        # try to free up 2*max_object_size bytes of space in the ring buffer,
+        # since the buffer might be fragmented
+        freed_ids = self.ring_buffer.free_buf(
+            self.default_is_free_check, 2 * self.max_object_size
+        )
+        # update the metadata after freeing up space
+        for freed_id in freed_ids:
+            key_to_free = self.id_index[freed_id]
+            del self.key_index[key_to_free]
+            del self.id_index[freed_id]
+            del self.writer_flag[freed_id]
+
+    def is_cached(self, key: str) -> bool:
+        """
+        Check if the object with the given key is cached.
+        """
+        return key in self.key_index
+
+    def get_cached(self, key: str) -> tuple[int, int]:
+        """
+        Get the cached object by key if it exists.
+        """
+        address, monotonic_id = self.key_index[key]
+        self.increment_writer_flag(monotonic_id)
+        return address, monotonic_id
+
+    def put(self, key: str, value: Any) -> tuple[int, int]:
+        """
+        Store a key-value pair in the object storage.
+        Attempts to free max_object_size bytes using FIFO order
+        when the ring buffer runs out of space during a put() operation.
+
+        Args:
+            key: String key to identify the object
+            value: Any serializable Python object
+
+        Raises:
+            MemoryError: If there's not enough space in the buffer
+            ValueError: If the serialized object is too large
+            ValueError: If the key already exists in the storage
+        """
+        if key in self.key_index:
+            raise ValueError(f"Key '{key}' already exists in the storage.")
+
+        object_data, data_bytes, object_metadata, md_bytes = self.ser_de.serialize(
+            value
+        )
+        buffer_size = self.flag_bytes + data_bytes + md_bytes
+
+        # Sanity checks
+        if buffer_size > self.max_object_size:
+            raise ValueError(
+                f"Serialized object size ({buffer_size} bytes) exceeds "
+                f"max object size ({self.max_object_size} bytes)"
+            )
+
+        # Allocate new buffer
+        try:
+            address, monotonic_id = self.ring_buffer.allocate_buf(buffer_size)
+        except MemoryError:
+            self.free_unused()
+            # try again after freeing up space
+            address, monotonic_id = self.ring_buffer.allocate_buf(buffer_size)
+
+        # Write data to buffer
+        with self.ring_buffer.access_buf(address) as (data_view, metadata):
+            data_view[: self.flag_bytes] = self.ring_buffer.int2byte(0)
+            self.copy_to_buffer(
+                object_data, data_bytes, object_metadata, md_bytes, data_view
+            )
+        self.increment_writer_flag(monotonic_id)
+
+        # Update key index
+        self.key_index[key] = (address, monotonic_id)
+        self.id_index[monotonic_id] = key
+        return address, monotonic_id
+
+    def get(self, address: int, monotonic_id: int) -> Any:
+        # Read data from buffer
+        with self.ring_buffer.access_buf(address) as (data_view, buf_metadata):
+            # check id from metadata
+            if buf_metadata[0] != monotonic_id:
+                raise ValueError(
+                    f"Data for address:id '{address}:{monotonic_id}'"
+                    " has been modified or is invalid."
+                )
+
+            obj = self.ser_de.deserialize(data_view[self.flag_bytes :])
+
+            # decrease the in-use flag for reader reads
+            if self._reader_lock is not None:
+                with self._reader_lock:
+                    self.increment_reader_flag(data_view[: self.flag_bytes])
+            else:
+                # if self._reader_lock is None, it means we are the writer
+                # in this case, we do not need to decrease the reader count
+                assert self.is_writer
+
+        return obj
+
+    def handle(self):
+        """Get handle for sharing across processes."""
+        return ShmObjectStorageHandle(
+            max_object_size=self.max_object_size,
+            n_readers=self.n_readers,
+            ring_buffer_handle=self.ring_buffer.handle(),
+            serde_class=self.serde_class,
+            reader_lock=self._reader_lock,
+        )
+
+    @staticmethod
+    def create_from_handle(
+        handle: ShmObjectStorageHandle,
+    ) -> "SingleWriterShmObjectStorage":
+        logger.debug("Creating storage from handle: %s", handle)
+        ring_buffer = SingleWriterShmRingBuffer(*handle.ring_buffer_handle)
+        return SingleWriterShmObjectStorage(
+            max_object_size=handle.max_object_size,
+            n_readers=handle.n_readers,
+            ring_buffer=ring_buffer,
+            serde_class=handle.serde_class,
+            reader_lock=handle.reader_lock,
+        )
+
+    def default_is_free_check(self, id: int, buf: memoryview) -> bool:
+        """
+        Default is_free function that checks if the first 4 bytes are zero.
+        This indicates that the buffer is free.
+        """
+        reader_count = int.from_bytes(buf[0:4], "little", signed=True)
+        writer_count = self.writer_flag[id]
+        return reader_count >= writer_count * self.n_readers
diff --git a/distributed/device_communicators/symm_mem.py b/distributed/device_communicators/symm_mem.py
new file mode 100644
index 0000000..eb1f173
--- /dev/null
+++ b/distributed/device_communicators/symm_mem.py
@@ -0,0 +1,156 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+
+from vllm.distributed.device_communicators.all_reduce_utils import (
+    SYMM_MEM_ALL_REDUCE_MAX_SIZES,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms import current_platform
+
+try:
+    import torch.distributed._symmetric_memory as torch_symm_mem
+
+    symm_mem_available = True
+except ImportError:
+    symm_mem_available = False
+
+logger = init_logger(__name__)
+
+
+class SymmMemCommunicator:
+    _WORLD_SIZES_MULTIMEM = {
+        "9.0": [4, 6, 8],
+        "10.0": [6, 8],
+    }
+
+    def __init__(
+        self,
+        group: ProcessGroup,
+        device: int | str | torch.device,
+        # add options for testing
+        force_multimem: bool | None = None,
+        max_size_override: int | None = None,
+    ):
+        self.disabled = True
+
+        if not symm_mem_available:
+            return
+
+        if not current_platform.is_cuda():
+            logger.warning("SymmMemCommunicator: symmetric memory is not available.")
+            return
+        if isinstance(device, int):
+            device = torch.device(f"cuda:{device}")
+        elif isinstance(device, str):
+            device = torch.device(device)
+        torch.cuda.set_device(device)
+        self.dtype = torch.bfloat16
+        self.device = device
+        self.group = group
+        self.world_size = dist.get_world_size(self.group)
+        capability = current_platform.get_device_capability()
+        if capability is None:
+            logger.warning(
+                "SymmMemCommunicator: device capability is unknown, "
+                "communicator is not available."
+            )
+            return
+        self.device_capability = capability.as_version_str()
+        if self.device_capability not in SYMM_MEM_ALL_REDUCE_MAX_SIZES:
+            logger.warning(
+                "SymmMemCommunicator: Device capability %s not supported, "
+                "communicator is not available.",
+                self.device_capability,
+            )
+            return
+        if self.world_size not in SYMM_MEM_ALL_REDUCE_MAX_SIZES[self.device_capability]:
+            logger.warning(
+                "SymmMemCommunicator: World size %d not supported, "
+                "communicator is not available.",
+                self.world_size,
+            )
+            return
+        # Use override max_size if provided, otherwise use default
+        if max_size_override is not None:
+            self.max_size = max_size_override
+            logger.info(
+                "SymmMemCommunicator: Using override max_size: %s bytes",
+                self.max_size,
+            )
+        else:
+            self.max_size = SYMM_MEM_ALL_REDUCE_MAX_SIZES[self.device_capability][
+                self.world_size
+            ]
+        try:
+            self.buffer = torch_symm_mem.empty(
+                self.max_size // self.dtype.itemsize,
+                device=self.device,
+                dtype=self.dtype,
+            )
+            handle = torch_symm_mem.rendezvous(self.buffer, self.group.group_name)
+        except RuntimeError as e:
+            logger.warning_once(
+                "SymmMemCommunicator: symmetric memory initialization failed: %s "
+                "Communicator is not available. To suppress this warning set "
+                "VLLM_ALLREDUCE_USE_SYMM_MEM=0",
+                str(e),
+            )
+            return
+        if handle.multicast_ptr == 0:
+            logger.warning(
+                "SymmMemCommunicator: symmetric memory "
+                "multicast operations are not supported."
+            )
+            return
+        self.force_multimem = force_multimem
+        self.disabled = False
+        if vllm_is_batch_invariant():
+            self.disabled = True
+
+    def should_use_symm_mem(self, inp: torch.Tensor):
+        if self.disabled:
+            return False
+        if inp.dtype != self.dtype:
+            return False
+        inp_size = inp.numel() * inp.element_size()
+        if inp_size % 4 != 0:
+            return False
+        return inp_size < self.max_size
+
+    def all_reduce(
+        self, inp: torch.Tensor, *, out: torch.Tensor | None = None
+    ) -> torch.Tensor | None:
+        if not self.should_use_symm_mem(inp):
+            return None
+        if out is None:
+            out = torch.empty_like(inp)
+        self.buffer[: inp.numel()].copy_(inp.view(-1))
+
+        # Determine which algorithm to use
+        use_multimem = False
+        if self.force_multimem is not None:
+            # Test override: use forced setting
+            use_multimem = self.force_multimem
+        else:
+            # Normal logic: use multimem for supported world sizes
+            use_multimem = (
+                self.world_size in self._WORLD_SIZES_MULTIMEM[self.device_capability]
+            )
+
+        if use_multimem:
+            torch.ops.symm_mem.multimem_all_reduce_(
+                self.buffer[: inp.numel()], "sum", self.group.group_name
+            )
+        else:
+            torch.ops.symm_mem.two_shot_all_reduce_(
+                self.buffer[: inp.numel()], "sum", self.group.group_name
+            )
+        out.copy_(self.buffer[: inp.numel()].view(out.shape))
+        return out
diff --git a/distributed/device_communicators/tpu_communicator.py b/distributed/device_communicators/tpu_communicator.py
new file mode 100644
index 0000000..a7724a8
--- /dev/null
+++ b/distributed/device_communicators/tpu_communicator.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+
+import torch
+from torch.distributed import ProcessGroup
+
+from vllm.config import get_current_vllm_config
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.platforms.tpu import USE_TPU_INFERENCE
+
+from .base_device_communicator import DeviceCommunicatorBase
+
+USE_RAY = parallel_config = (
+    get_current_vllm_config().parallel_config.distributed_executor_backend == "ray"
+)
+
+logger = init_logger(__name__)
+
+if not USE_TPU_INFERENCE:
+    logger.info("tpu_inference not found, using vLLM's TpuCommunicator")
+    if current_platform.is_tpu():
+        import torch_xla
+        import torch_xla.core.xla_model as xm
+        import torch_xla.runtime as xr
+        from torch_xla._internal import pjrt
+        from torch_xla.distributed.xla_multiprocessing import (
+            create_optimized_replica_groups,
+        )
+
+        if USE_RAY:
+            from vllm.v1.executor import ray_utils
+
+
+class TpuCommunicator(DeviceCommunicatorBase):
+    def __init__(
+        self,
+        cpu_group: ProcessGroup,
+        device: torch.device | None = None,
+        device_group: ProcessGroup | None = None,
+        unique_name: str = "",
+    ):
+        super().__init__(cpu_group, device, device_group, unique_name)
+
+        # NOTE(woosuk): When using TP > 1 on TPUs, every TPU on the same node
+        # must be used together. Therefore, the local rank and world size can
+        # be simply calculated as follows.
+        global_rank = self.global_rank
+        global_world_size = self.global_world_size
+
+        if USE_RAY:
+            logger.info("TpuCommunicator initialized with RAY")
+            # Calculate how many TPU nodes are in the current deployment. This
+            # is the Ray placement group if it is deployed with Ray. Default
+            # to the number of TPU nodes in the Ray cluster. The number of TPU
+            # nodes is computed by the total number of TPUs divided by the
+            # number of TPU accelerators per node, to account for clusters
+            # with both CPUs and TPUs.
+            num_nodes = ray_utils.get_num_tpu_nodes()
+            num_nodes_in_pg = ray_utils.get_num_nodes_in_placement_group()
+            if num_nodes_in_pg > 0:
+                num_nodes = num_nodes_in_pg
+
+            local_world_size = global_world_size // num_nodes
+            local_rank = global_rank % local_world_size
+        else:
+            logger.info("TpuCommunicator initialized with MP")
+            # Sanity: Verify we run on a single host
+            num_hosts = torch_xla.tpu.num_tpu_workers()
+            assert num_hosts == 1
+
+            # Get the current number of TPUs (we have locally)
+            local_world_size = torch_xla.tpu.num_available_chips()
+
+            # Get current rank
+            local_rank = global_rank % local_world_size
+
+        # Ensure environment variables are set for multihost deployments.
+        # On GKE, this is needed for libtpu and TPU driver to know which TPU
+        # chip is actually visible. Otherwise the TPU driver will fail to
+        # initialize because the number of devices would be different from
+        # the number of visible worker addresses.
+        os.environ["CLOUD_TPU_TASK_ID"] = str(global_rank)
+        os.environ["TPU_VISIBLE_CHIPS"] = str(local_rank)
+
+        pjrt.initialize_multiprocess(local_rank, local_world_size)
+        xr._init_world_size_ordinal()
+        self.groups = create_optimized_replica_groups()
+
+    def all_reduce(self, input_: torch.Tensor) -> torch.Tensor:
+        # TODO: Remove the groups specification after XLA compiler can support
+        # auto-reordering the ring order for all-reduce.
+        return xm.all_reduce(xm.REDUCE_SUM, input_, groups=self.groups)
+
+    def all_gather(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        assert dim == -1, "TPUs only support dim=-1 for all-gather."
+        return xm.all_gather(input_, dim=dim)
+
+
+if USE_TPU_INFERENCE:
+    from tpu_inference.distributed.device_communicators import (
+        TpuCommunicator as TpuInferenceCommunicator,
+    )
+
+    TpuCommunicator = TpuInferenceCommunicator  # type: ignore
diff --git a/distributed/device_communicators/xpu_communicator.py b/distributed/device_communicators/xpu_communicator.py
new file mode 100644
index 0000000..ad61fdf
--- /dev/null
+++ b/distributed/device_communicators/xpu_communicator.py
@@ -0,0 +1,95 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+
+from vllm.logger import init_logger
+
+from .base_device_communicator import DeviceCommunicatorBase
+
+logger = init_logger(__name__)
+
+
+class XpuCommunicator(DeviceCommunicatorBase):
+    def __init__(
+        self,
+        cpu_group: ProcessGroup,
+        device: torch.device | None = None,
+        device_group: ProcessGroup | None = None,
+        unique_name: str = "",
+    ):
+        super().__init__(cpu_group, device, device_group, unique_name)
+        if self.use_all2all:
+            if self.all2all_backend != "naive":
+                logger.warning(
+                    "`%s` all2all manager is not supported on XPU. "
+                    "Falling back to `naive` all2all manager for XPU.",
+                    self.all2all_backend,
+                )
+                self.all2all_backend = "naive"
+            if self.all2all_backend == "naive":
+                from .all2all import NaiveAll2AllManager
+
+                self.all2all_manager = NaiveAll2AllManager(self.cpu_group)
+                logger.info("Using naive all2all manager.")
+
+    def all_reduce(self, input_) -> torch.Tensor:
+        dist.all_reduce(input_, group=self.device_group)
+        return input_
+
+    def gather(
+        self, input_: torch.Tensor, dst: int = 0, dim: int = -1
+    ) -> torch.Tensor | None:
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+        if dim < 0:
+            # Convert negative dim to positive.
+            dim += input_.dim()
+        # For xpu path, gather doesn't work properly together with ray
+        # cluster so we use all_gather instead for now.
+        input_size = input_.size()
+        # Allocate output tensor.
+        output_tensor = torch.empty(
+            (self.world_size,) + input_size, dtype=input_.dtype, device=input_.device
+        )
+        # All-gather.
+        dist.all_gather_into_tensor(output_tensor, input_, group=self.device_group)
+        if self.rank_in_group == dst:
+            # Reshape
+            output_tensor = output_tensor.movedim(0, dim)
+            output_tensor = output_tensor.reshape(
+                input_size[:dim]
+                + (self.world_size * input_size[dim],)
+                + input_size[dim + 1 :]
+            )
+        else:
+            output_tensor = None
+        return output_tensor
+
+    def broadcast(self, input_: torch.Tensor, src: int = 0) -> None:
+        dist.broadcast(input_, src=src, group=self.device_group)
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        assert self.all2all_manager is not None
+        hidden_states, router_logits = self.all2all_manager.dispatch(
+            hidden_states, router_logits, is_sequence_parallel
+        )
+        return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states: torch.Tensor, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        assert self.all2all_manager is not None
+        hidden_states = self.all2all_manager.combine(
+            hidden_states, is_sequence_parallel
+        )
+        return hidden_states
diff --git a/distributed/ec_transfer/__init__.py b/distributed/ec_transfer/__init__.py
new file mode 100644
index 0000000..0decfd1
--- /dev/null
+++ b/distributed/ec_transfer/__init__.py
@@ -0,0 +1,14 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.distributed.ec_transfer.ec_transfer_state import (
+    ensure_ec_transfer_initialized,
+    get_ec_transfer,
+    has_ec_transfer,
+)
+
+__all__ = [
+    "get_ec_transfer",
+    "ensure_ec_transfer_initialized",
+    "has_ec_transfer",
+]
diff --git a/distributed/ec_transfer/__pycache__/__init__.cpython-312.pyc b/distributed/ec_transfer/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1b61decc06ae4ef6d3eecd142562fe5cd4e98ed0
GIT binary patch
literal 377
zcmYk2Jx&8L5QWD-Q34@KM~P^+$hr(jh!Y?VutKsNY!VB5v$DO2rK9Em^mLqs8@Q#S
z15zMS;SC^pil;Xo`+K%uCX-!AW$1&xKmf0O^I!PSYz~uo1PKxuu&6>7SJ;w@AXtLL
zPpG0DDd=0jy&&;G)xLF#t4ki7sQs04T-Q2iVf3Anak^9?AI9lQ_<W%tjwX~Ny$q6^
z7lT;d7-LJReQ<iw1|`dkpL_0u2<rFn7Sj{rkaJ-S=g+W7EqtG`U>nxxW)_4?7n<F+
z^W&rIxnf2ySkr~ox@LVO%OY78$@unBoR>`(M<;eITcb|hIKk6Dg5OW_P7p$0BZ}|`
PB>CK<V|+h!J8AR-j}dF-

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/__pycache__/ec_transfer_state.cpython-312.pyc b/distributed/ec_transfer/__pycache__/ec_transfer_state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cdd80496bffae9d8130378d7a2ae9d76835ca1a5
GIT binary patch
literal 1493
zcma)6OK;Oa5Z<*N$9XlS<sm>y!=a@qGyyJvKt&}AP%61l3Kh9nZoExh96MTX5UDss
zh#MDf<;Z~xf`7s#fkTi55(qBbB87*<iCH@-ZpDF-c6K~7J2N};t>2_laRg*ZPt2Bt
z&=>wOByk}0DG1x>HZqWbEmXs0jJYgWLQO1-HK{E5-=Y<%$z>TMf~gF4$%@vLvI4e<
z9wVX=*@_}W;)Z+?;u%pQt_z0pSSlw#PJ$c*Ib|e_IP4?MNG|z}7m&kVYUS>Yl2*J{
zDlRUlS95}wE)|Q8ZIcRf=w;m{yA;cgMc~j_$mfdAJ)5A7-?6M3oLx7osyD8cidu0=
zRZGQ{rDbjYYDr!3WJ*|r+7+IANCF7F8~tfu+lUSIs1>~qJ$W_weuV#8ZlRo@ZsiQq
z)vHxXsyZV^wp7ek^vVXwnr_y1Sk|;nX6lx?MU0o2DiG!+>hoZ~Zx>jtUZ|V(S*Ft}
zVY3e!XV0Izca{_^bFENsvJJ;B+=sgqAOoZ3S_9%2NJV2*x7~F@!?NZwNT07ay)=Z<
zLS8ft$@al=j{s|-4~a}WG1Hb-+b37w0Z+_ujg+A&F#o$HV_*rl#6S%Um&YnifQ2SG
z<EQBeFfYBKySobD$q&MExsPAKbHguTCdi3FJtP2VFoqW(Y@>&0b7%?eE!@Qawruh-
z?jbtMcvPQSQw#ta&?X<o9(stF|5&(slizC(y%t^#GU!4Rs%YYzxHTQm0xj$e`Y#45
zLj>o27Zq?VgAS1CNt9za>Wzg)r44L{%v}xCOdF<aSBMWEDnm`)XoV6OI6o1*5gOrY
zd39-dv9t`YAi<F{2<Y+-XM^cvi0w8g2@eS3?_iX2knrW+0M<gi5u}WFqm!NJWIH<h
zUK#1hD7L?=Om&p0t}^#lnfs8OXeW<<&7A6H<~y1B_v4utT6gk7XY#^#QJ9E#l%u@}
zN=^4f6uaclJ15b@5S#Kr&=@c^m-b}VtebX~@+au!dF}ZS>hqx{ae3#~`8D`8P(I$^
z{-^){<a+SK2-@j)D<8B!D2#){OKX~L!z<RA>DaEO`ESXS)*Q#89Myie_Tpc;SaXbq
zMds)+aN(_YuL0|c7~`KZ!pD9|A{Krq2;an?#nF$_)TjKJHX47bJ!hQ*C*GkmJz2mL
Z&nEf^wq6|L6VLYd5p3U;Q5^Ss_y>zeZzBKz

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/ec_connector/__init__.py b/distributed/ec_transfer/ec_connector/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/ec_transfer/ec_connector/__pycache__/__init__.cpython-312.pyc b/distributed/ec_transfer/ec_connector/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e4c53d490ef02f8fc0c6138bc4db10344458aea7
GIT binary patch
literal 186
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVMe3L27U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs$_8$Cnf(<`t)<
z7J=Bw`FVM%$tC$k`tk9Zd6^~g@p=W7w>WHa^HWN5QtgUZfi^J$aWRPTk(rT^v4|PS
F0suGjF%bX&

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/ec_connector/__pycache__/base.cpython-312.pyc b/distributed/ec_transfer/ec_connector/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9d454973ec3a9a07410085cc1f8fd50653e77036
GIT binary patch
literal 9812
zcmdT~O>i8?b)Nmj?&4=b03<;Wl$s(VVkHoeL`#+#MK%RNGA$93K}bpv%frD=0~m64
z2kMyxh%Ht^yLg}~sS522nNz4-5|u8##m7``spJ5Z;v#CR6w`5Xa8(X#g1O|B?{&}g
z%r1b?mC_|!g_)l2*WIt*|9g#p>hCWZ__^6Xb3T6BFn&!R(JvP^cK;QPyM}En8g|M~
zyQ#$#-WfMt%PeMU*~M&%`m=7XmS4=*dKP=+ciJs17SNw_i?z~XN%rO4-df*cpKSNI
z{k4I`ft11Xq7QHdw_F=s9F${4_fTzUaVTY^4PN5IU!)W!iz8{{ZNo0zGVETSy82v%
zX#D;n6G9%5kbQvc=Na95RQ3*_x18u5-Aq>ot-r(6((KHPSFiJG;E6XZpR*a)@_n}K
z3HGMr2f|ru1l(q`^{Quc!Dg)LDre7@-hb(R-B*=;Rj*cS)SapoI9{DOb@t(lrP2a`
zt8&3L;jKG1_gR3hWzTiJ4X3`s)`U}Y0%x83=SvK~%UIrSxLlm|0ezl{M%|~yXqF$1
zO|m7YZu_jp1IxAoYm#lOI@MLVfa9}<4}_OC<(v&qTniUtfyZ3WvZsA(op&NXC8yH<
z*rIyPlqd2{ejOB;sIaqahPtr}2OgqxF7uX|;GZ<OANWkp(2F(JfE_pefS%TJz=dhy
z;8nS#8e|FbGYQBfpk6~x!2Bt;u!^&7IIhcVUIlTY^T=~59)M|eFVJ&Cw9I9v?)adq
z+_#DqK_8r@&a4P?hNUB@Nj-mAaO^@XlpNl0f>rq$9k(PQKZ;2l^NV8!Q^cQ?RQDy>
zeNDR=xn$r?FAJ|G*P)HHD6%EUqRk*l)EzN8<`YOI0+ZNjaz#(s<IBBBuy9Jy)@Ktn
zYjcS+%ipY5EBa&`mJ^teag$_0l4S{exdz#(2aYQz(}>S3!I|yVxjHII$O^~I{Rm3b
zaUhkDhiE(^uRn=a&=7TBV?axV&=EOtR4ZVsB%M&EHJ6j(NyM4Y>o!g`EqHYu@2S#n
zNa^P)=~m{#8#Ao|YYD1qRRa)e)w9vvzwk%z&zdveot=5-;@sPSs&7_OtzO_wR9ji$
z0-t5AZSOULwMKxhLkW4*ouv<5w+7ZMJ1YR`nOD+Yjct%&gyzcF9YOD1gBviI#$wt|
zEoSWWVs<lA$+pUgwdXzPcp9+3p_y})T&rN3b*sirvsE(9nny+e?LO1|q+z+?NbxdG
z^yUZe&d#^;AH6sK&g}f>#x9}p-yci|wYBLrXYDKm11vgwz46U&y?X7NeA;!Erq?z>
zmiqKMjxlY=R&APBO^~hbFLOcdYGeqfN&2SNHbp<ymJc$#{s11gjE94VZeDEXje+uy
z-V%o+fc>d4h~Z9Z!0={T!wE`U3XND(X~Bh%lPv02<_xwgHn5y6@nC~PfuS5yqBJ8r
z?1@#knbOW=w^E|HN>-E!c|uVf!lTt=nzmOpO+h?VCp$u|(dh9K8h#%hw~XJWGr2;$
zWaNqpkYGAUP(TO$cK;a+PLjY*+Zmo&&f3{q@S{9u=kS%b^S82Js2Rp$UiS8&w<pnC
zunW9s=j<ZpmN2(uKW+Eo-HR29fbB!O55BLT5AgC;7A}@}EvJv+3y=eVJj93K5uX4X
z?lzdfV)%EOcZd(jxp{jiF?Yls=7;$JVF8?v=ytK$V;G%ZA+A|_1h^i>o`>xtm@~?I
z<QcN|(ZssP!tqf)2HG4;j2y?v7$27u%G$>hBPZ-}{uF3&0_#5=u6~5~NQyAEyDjn3
zm^=l@lbgi~>riBh8Ct!hS)@L&5Q3tsR#rg4tC<A#sZD>oKgEMWs~d)?hi|0t71<Eu
zMjBsa9OUmt>S{h}$L}AF@85ql61*6cc8UT!W77yospZd3eG%^Y<5VR**L*2q55m*1
zTEh>ZZm__C42lw(OGmHtw1#85VMdM$b}K=WR?Z}Hw1)Ps-x_cbXH-puM|Pvi1ty|H
zf0aJ8+y<W&!V@qXS)aShVjQ@O6L|PUPPh?4T1xg)T6eQK+J)m(H1Zlvn#JR$vGeVj
z+u469u$}QU^ggz8_}K02pO<!ek38tDZ1+~SdSBjQ&p%+VZ?o4QuuI$Q((N~Y(RbqC
zhsL)~eE-X#`K`WrsraqDa%@%2JS<Ob$?7pQ?t=VR@$UXzHa<_yRZ`+420l-TXYulB
zqB@Q|U~{DVBt%9!fV4t4jfdsozi58i+$tQC$oyZB5M<eb#%a97^R#q~1pH;pi{|le
zWD<iHX(G7?iPM8J+b*-M0#hU!(tbtD$6Qs5HzrYA(rX9}(2JA-E%n=kXj(4-smqW+
z8H`0<N{2;^VkkMLL*%JAV3Bd-a-&|Afw{lxHC%+p6x7K;FbtI8ak)$3b{zpOU*`hx
zvr|*vg<_Q@j&Mmug9?;i=hX%+Ns(zBqNxZK%gZR7(g>{CvC`~J7*A64CW9Fr6kQN2
zVIDwR(r+*6*o5s=gUa~>Xc32qbC4?JcSa>Gg-cAK?GvdZjX6qL#6HT~Jk!nT0|38I
zE0RCFX|zX-)34ml{vzagha`5f*WSb4=A9XrTjIbIY5IIUtdt3c+^n0EdZRh<0*<vu
zA4aQ$=YAxc=qA}gkRK;#)@PiaIDlrPgi<A5LE|73ax?us<Hw-p{^q5UYX0o)19j#}
z3gXq>&4iXXb;?IOIh0spUPbpRhn0eh$4sQCQ7HFhncbi4M@>pP_Nu~OK|KJF6Vac+
zLkjBP$b<5k?edwe^0}?TIXrjD!(mV1j51k8iiRme^E(U`R#05YqH)(C)71P#3(Z9&
z7mnpRO%5XvriziW`>|f`RdT)Ac}BVon_|KIAdli<)j^`7_nDIcYNXaAARTI57JLOU
zK9X&9g67lRve^Y7Xaz)IiaN!zB0+z+xmslp8F~S~8<W9$1zN5#yiD1tPDQ2Bmg%mx
z)0&s4Z6LH?fA`%>XHY#z9ycLfQtc61AhlDuw3NdR=r~`FLJ*WzWW`07LK40qlF*9*
zCH|2kP!|4*xncohVb*FUuPt$#Y_xwx20wHXa8wKS6nhH>es(4<84$#k4$56&l!jcv
zYO9vNiZ6H(AH^o*wy5h|xwe6P&A*a3?LP9M=%P5G?EfDl-<?DSL{wL&7I@wF#K&+6
z7n1T*v)0ytIwCk1{>QT|SMw)2KNXLVaHBSYLV-rHLY0+H>IQO)gb>pT3U%#|E`U-}
zc3pOjZ=&{r<Xx;ZYP^oZ5II6A2a!#P^&u4JjPg?7f?T!oYU$1Z?@*%V5lZ&SZpq#Q
z@+Tywp=>jw*so-}C*(#)fDTBbTdE5kQcaZ!Iz$(3yzY}}Iwu8J)l>FP*E*r9MNk7&
zVk}q6h_w<2AmE9=3gNM%5eAZ4D0fjsj$enq*D*^g*8fL=3c122Al#7V1(2GAlPn?8
zEf!=Z1$SfBL%mjt0;%y5Cut`#+p%zc{c@U(<y5>5krBU-hfkJ}_ENb>FJTdx-#u}2
zV(<<v@CWpuLP~2eDx8_9iJ2&m?J>JDCP<jwkCOsA=LOEP16@|4BumJ#L>ydh)AAZ^
zk0Kw!U{ta}(7?L}<&P?nYUP-|#3OB3$>df!s^=5yjwM+(D}!WD_!SiwBPd2cnB~cW
zo8B10P4zn}F{6+j;vZKZ6T-Z2q;YT|QJ+ZG5m$v*_Zq0dhea>FKe2A2vkti?___mN
zgh49BgXS%W28#ETY=p3hN@yi^0<>DtKmn5^cOt4?g6%|4;7Zj{S;w3XQvm9$#6+d}
zL|BbHNel|eD1!R5v*cu$n7f|j5wm25u6-U{i`8*Da&lzXCG|sJIw3#g2-y<4jKCY!
z-UKeF3v|XC7a*t|@kU>=BHSGBHp$7+zoxm`8V`<z);J`lAnW@?iN{q_9B8O}38yPk
zQr8g5>BvHSt)?sn*by-~&JXwc+Yp9L%&SUom~2Je-qKZE7d=TPFEAHT7+dl@mo6LN
z^(iJ?r+NliD=A7qT$wL<Z$eJ8gJ(1WHc=Y8B<ds|^iz!aJk0Oj>}E^}#xpWPW8G|t
z$9|q*%2V1!=8zlm>w6qzm;Gt}R3rR>yzEI9TEqJs2wiw#0}+I43nH5>ljHE_=xbny
zqDe%RN*GTNRm6Ach=e*|l!YEW=x(aHCzCq}@*fj)8`N|g)Yi~cHtvZ6eKsl3Z!{cK
zC&=4rPo5}q$RG;BgXn%OA%8N==&o?gy|=&+^*PI%up``s<><af3=xd&&IQ-^CS^D*
z4L{jwy{f!;6P(I`gdGAc@G*4E8r1|&d$p>YFl^#75-fSy8Q!$0{7}P%PJ%`H*2UmZ
z?B5|azzc%6inSw4M8mFhv3a^%0rrFXGQrZZn5FuBzavYV|L|n3kX~e8KOH&8|CN~C
zD6yp2c91i%hsG+Rq+TW7GaBkN`g7exJ{oF;ULhpS-jw_Rz<*1S8rq|h&L`^1SW;JJ
zQ~|H+CKrZHJ5F4btEA4MyXj<hDKC6+y^By$Q)S=KBC^vY^pOLAUL=A|^2>p`rwro@
zgbbAPNz-oY<%zOk^$}4!)mG?!*$%H<6YC@JBlL9CL88*JO46lHbolDG6x+mG-TWF1
zan}J$Gij-*l0VfA@t+9}9We%vOJ|L$!vy;0D$jJ?o~f(CGZ<?X5QVI95p2pLb}LIR
zP@Khxx=DMHTIcBTGC^ml<k89?<ZtC<KHJKxgjT#tFcj+wD%^|j-~l)u0FHtyF+&|$
z^0MM>Ifhz-_#Rq<?m)yPdKBsLK0W9TMa<Kq>w51v_0dBH@;i{QTShzGle?U{|8Co$
z_s`3_^4%UX@&oO3DmQk=dt~6Xn~6GbAF75<-dmudlX~c6d!UqiW$XN<wn6Xt4|nOk
zJDSf;v<G{06I+$nb`8ASW2IdA;qcLWnR_4n)ervi2V0|+?cwKkbLef48u^iSx}59Z
zIdSs-sr!w;x$)VJt!K_{pZG>QgWiY5{zo~yX-@^$ekN+|KV#?HZyY#tFgLctPTimR
ztkBM&{jfN2+rM+})9d$6fBL8QGt~dL-}tP&Ri551zOb7EM0-+hHULBpjkR-lgBqoQ
z+xDkpk9zPGqDB2oLiXhPe^w;Y_W%8<NAwCI&>|A!2z@vzn{H?DepnoTl*2oOL90Dp
z$d$KVy|`=O-5%-99p5?1+8MkF*Wk{=y;Jx6dlNtT;eC7i@N-+`=eCQ_Kh9xTO0Z;g
z<(Qy*#8#Hq8?{!(TB-^P52UoU^1&t*P6XYVDY5y8VC5y>l=|lZK|yTm7~OGAt-m-`
zMLB0m`mHJD^rZy0%F(#$^rbY0>%eg8%R&tos-O&nrGB;YYQI)?7Kkbxlh@HwXgdYD
zRd@~l9{)D*x>x~rkYmIDAs+2aDwX<eek7IMoitK?zcfz$()hh!8-4#_ochXm`77h>
zuQG#QWuN^jd*)Zgkvo6*W$~$-`N#QOs(i=3>-@xdY@qpgFrO;kJN4MW>+#Tybn5t>
M>VM&$GNowxKl5pRcK`qY

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/ec_connector/__pycache__/factory.cpython-312.pyc b/distributed/ec_transfer/ec_connector/__pycache__/factory.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5a4a3d3f1495da1fc846152740c17e2f7a084830
GIT binary patch
literal 3522
zcma)8O>7&-6`uX!|B{p?OQkGITFH`arZSl}j{GA#4n)X5X(ii{9Hi`Fv*L~<s!LLx
zU8N;U0fLbtG;)Z0NTnc2qoWF=K#x5YJr?L?Ssp|z6x2mez0p?Fv^n+7ESF?$1;_yV
z=FOY`H{bW({v{j^A}G4}LGF7JLjRx*w|H90(QiQ6K^oFH9c5_E>s+4C@Ep|zUC4_W
zk?ErD$$K;2yf5QpZIABH2QmQ;VUhS@tXB`_Lzz%s%19jI5f0$+W6s$n6XDTKr1{=M
zn*TB1vPE%peXMngu1X7NK`roDa7-L3af#4BX=5S5+5WVu>*}(OK@Tte=<b}7zBQNr
z!R>{c3Eqy*rPIYi0cXu3nN<z^e}*@UY*Hv!$eD^>TwTQkru59Emxx+0Rxp97E4fuW
z_?E8c9X;E1Dimlnj(!cw4#FtIX(+?rM>&)cu!ud_yNa+6`v;+ah3`ll(73B$!$FP5
z9!-D`Mr$6;yW$6rh>u$fXF@Q-Pj8PU&4c|bUM<ws8-`v<3qy~)hp0um`XeQ8B5L<`
zx!{IM9Z|9a3c;&6!vs|<sCjIM@<nY^$I6CkuGzt?t{R5II=lp%o20Oi6<cSb6$J`?
zjH4=u_xbmQ9aP~eXdPP5mv<3~nyrUJ0H_N03Bc(y!G*yCP7}=b+NRf??>MU}RQVNN
z6W^1z#EN+Q4i)Cgk|*IUUw@O`3KLnCv+lFYKg*eGV9?ca>AYT4wOnCUcCIU{1x;p`
zmFZ=Z<xm?e^4W6itei7sRVP^0O0wfHOt6+DJ#fmbds14{3-rNvbOXdk{0=f(C`V|$
zg>C3)mxsK2{Vim=tV0#_kaL-^h!WgFLa+n5{6>+OdT!YcJF4Ow-S(|wQ#DNjgS?K3
zL}3FG0bx*w%iG&uznwDk8>x-l#(7gEFyZ{qH!ohk^plG?1uLdDO6FRzka`!;ozf^8
za?6`0)>1gDm@NiSz3s`=iUXhIM#=V4PhwJj^+j|gT~~ExCa>zntg0KYC7o$9JtP(X
z*+z%`BM1Fcwf?F7AJ_XYS8p8lo!Xt=yHf8<T2k@|#sJGj0<j7K5mkK?&k<52wrG|%
zFrm&%cx)l78zc-myT0Ry7&HyqFU#+|Ba`odX7|2$wDRP)y1^;B+D#Du-9}9>l6oG!
zvUBZM*J>g8us6Q@i~S4xXRMcRS;M#My>D338%>c9q&^itRcf*G|3;uU{b+QuDts7z
z7=EPv)jvciz-=%179tFxk;E1W#G@>II=8fW_D8T#jvdFaEukW8hq^iDg6je0WE)=Y
zq6k&m?AsDMj9YiZS!W<HwIZ&wgwbULwIZz32YIe^0yK|+tz3ogg0rwtzR(3MiVe8A
zoZmD|c^S(FHf6IYXMt=c2DY|ASN?vQ+9+w;Hiy!bvRC9upeV2y7gloxtmHImN%-vE
z7xyCc4edUlK?j%$V?RYRjsCWnE36c4zrtdlqS%4<vI!4~!*nu2#V8dtPub!2nP4TO
z1vgo4!L7%+PG`IF>0`k5{Gc<iutCEMAWcFe69>c7wc%;Yf2t80wnCGDH*0vY-n(Q;
zOO4pjK`d2^rL31{>#=k-eCUsS7<w3LNUt}f!2@Z$CXF|wkpt;mO*;24pBM-}9Y8(9
zyKn6+)uS(2{+AdG*;R-icFcAMD;m@&8jrpP@r~%?EBrU2j|cp<V>>L;Dv%Qf03pZr
zRalyI6ClO*BE@|>FSu(UL^Hy6qzm_Ol26cQ?a=ywGuwzh7Q>>;lP!-)V+Si0PY1Qm
z?g^nR-=yeV!(9k;vc__$l{kjx(r%{%=|YjgdZAdr<@o)AvAIFxIEHl7&Pz0aU6BE+
zQg@JLD0RYJtlQp-`z%8fnrp~OD*8brybd-QA|ve$7>LPP7-08zjNOU8=XtY1{S5Gh
z!U854hj#hQF`zw$Mb}`g@ev5XZ4jNBIvBiE8@yDFG(v+`XpF)3O1*c+l4cs=p<Uzi
zt&g{A;i*Ra@^1R``H$!KlePHedVHoj-;4l8Eq}ZjLX#H{ChpWG?pV@TBRXM4rw#{X
z>-6<MMXc+0tg*ZGfqPcZy~ELS2cy%q(P``A59_1zmJ~mXpSC70{Jv0+&sFCe(Ksx|
zke-N=NjRV#R9tr|wxlRO-BfiNO%%m(yr|`}rY%55B$NPThzc4=?Wm%t1$bKsNX3Ey
z5hBEZkjIcoH8M=cQ5TYPR8Z&r7C987>4$_|L0iV}K>QLlUZ35*T{R!2cVm0wd)of>
z+L;+^e5N*d)jD~#7QI#%XP<a_ntZ@BxtDDssQw_Z>d$?wvhLk~My*Ez@}6MBngdKb
z>G|%Ho_Ny(H6*O)NYh6(KMD>$3xL)dPi<3deAF}C7<;8DK>Z{Tt`=*7k!K!guz^o`
z(43plOW3iw^x~QdKSPV~KdG+bw2SKUEd8BGcKuEyyCN~w+n7rlYz4(|mgsaOPB4Jm
z(QHwNjL2M_RF|{tF>EjJ2C@O6fyGXK``wn|_n$o?dm%f-W;$`7_~=@W1&&8EGL42T
zEi=H7)3nK+kG=7$v`I6#^IPG+>aglHLjUUNub*)jL{s26?#Pe06JMZ-FOd9|SK#<B
zp*```kHiyy6EFQeaPraH^}xus_bcx-H~bWVXqGv|^&Oze8k%f~BMtEu$S-{&$Fm*(
E2UBu>=>Px#

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/ec_connector/__pycache__/shared_storage_connector.cpython-312.pyc b/distributed/ec_transfer/ec_connector/__pycache__/shared_storage_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f7f4f4787e4ba969a9b8db2305a28348174731c0
GIT binary patch
literal 9582
zcmdT~TWlLwdY<8RB$1*-Nv5R8*7z<emgJ<0?Ks|Ky|R3_vbB^=$|RsE&QPK}B(*a`
z+al<VcGpFzZUXN<6xJ>lSU(jBvIX3tK>gT7QS_lN;z};rfdgo<=|lUZtej@ir+)vL
z3n`k)_Mv^~0eI%jxnKVO`@i!K|2Y_J<q#ClkJ3LI;JDw?iyeGcV!MjO15V;3Ug2W&
zbSZqs6?5^Fb}R0TC+1;kUh&4f$nz+^j6ddQd0s`xw8UC6t+CcjTda-c`IJB=7z?tr
zUun;TVj-TBJ*p3F1*Id?8SCUZ7bgeh@Ta^vi&&TJa&Z?pspTFgwSMX{b3e7F80)r5
z+fW*iTR(L-l=rZ<L6o-3Ep};a&k`RE{X12iit<K_l+Y7NC823}3C{e<w<qHh7bhpK
zT$;LojMnccN@gOLO{M3eZX+}~fpk_*>N)jW2~9S->N2j$dV>1eQR{k6k<m?CI-Azx
zN^WjWR`D8|PR`3xUXj%|^ZH_5N0$G({N22)=}BvC>|w2k+aAa315V~*yu`&^Z*j6)
z_DK90<jP*8TrB02ypsE#$JrhKk|*jjeAlkg%nW}f6Q56L^F~WHpNZ?an{qa3?I#<{
zgP6wKhCpB}-8un|D{@8tm%P3A(_GXw^@&SuM=dpkD9WorN_QgCs6$cwuk@InSsYtT
zFOKL5bxzht?&MFtdg|s$c}z*qjx8?f^SSKUE$r-=l-6`LJ)75MX-rPWbv2RIQnE_v
zq`lK)+I&KlrMQM&Pt3`+g3-k#qa~BLDaSKdVWGoZ>8O*lm!?E>T;@Ix^{mc4>e~pt
zwkEu`jVzqK%kZhPo>#MM0a3va;_+-EBgf-LYdoIG(E%YHh{wO1PbgN28}l_n@pvMe
z&FKj}oy%&d<4$LFBcM@65_6f)Nop6y_=Hot@leAQv0b957e8$uqCe#}gB?G-S`CGN
zIJN2R{GE&Up4oPDzVH{6GMiF^<}z^{C5<xChdkM9N`~aR$HjaSBqimNJoh{?|B@H-
zAWlw9v;CYlx6=`5M}7rJ3JJ27bYuYC($O;cpv64k<{%ewq|C6yeZoVTR1vQbW{)N-
zDUDi-Z0)qOOatPD=pPz>)UJ92&9xRp%Urd$zvTHS$aaJYGSk_5>7|*m*_}q>0p_-V
zXJc5P8V#Yy+gQVMOPqQD#Zebqhv7>sF3MR6uLqH<9!6vdxVfmdge1kSy(%30gX^lR
z9i^^FGO#oua6h;btOx^TVPN&`C&FR2%BiTJ?x9g56p_Rj9))y;Nl`y#9-?T7B9iku
zK^vr3ifAz!6++P3!#_T;qO5!Rf9K)7FKqdE?~#Wmo^g1XEvbGIKPULD)b?K@@n?0C
zCh?LBQsqv0N?eMEWCda#sYmid!n}A2c>1Iksa5jIepw)iOnIa><hHO};52Z`m-0zL
z<h22r1E?89oe<vJkrp7Y9Y}{-IBAd6DR)R=SwMaV+H~FX#yVLZy?dl?)C-rmJAAAQ
z$P_VpcRL27jqrxB15mDdF)PEP0-TfeGT}isy>D}n-M`?0f_O2*il@kZgl0v)=&GS1
z&!tHZ97!zl3%32V8{&D_U37o{TG72g(%cYeFKui^Pc$(W^njgOAOvd&MR!eVzrLn~
zc`q<)zq1Q_Op<z?u$u+RYxnyDKI#KRs>hJ8jvz9+8en)aq0bjQg!F|z6H!D9p+zbZ
z)0%i#E4*BX>elXynY^Zpv$Ckkx|qtTKqLo*$f`zL46l}7lvO6;Mz^hFT0ASm3@EvT
zq#5Do`!#xCYT_w1mx;@FU`edujG$vVXkLcTG{c5hl4tXCu<!{bFHfp!PK|m^O|Pvv
zWE&*Aua<b6afNtXqoWcLmQ8pkbu8@PP5c~GdkNLFJfhz(b5DifioY!MK799)z9#f;
z2xm6OPn0|x!v1Ri;Y$Cha{sAPsM^-Q)^?=2|9EBp`SSkr)sDjtZ*99>2ii;LHUj&e
z`M6-${i`ciR|hu&(WikhrPun#A4!!H7t1FuJ_%g<JUp<r_m9`Z*Vh8qO<nK7@KZaC
zKdq$=zwN(;;4}EFhkg`Lu!+T8x9%uS(XErxuwaXn=DN)NfG_gP=F`2rM|YH>xeC}q
z2Vvx)CQZck9QXc@ph%vgXTebndt6e=Tb#;&7>1}fQ<kP}>@n|p^$xqI1+r}oVS#q5
zAru`ok=z7u3xv`Q!PzZe(Ff3IItQX{b$dfyH3X<{)0XyL^W29Yd9Z6yZ{h?{sFehg
z!Ze7NE|RLGvvZ<8FN?_pIHyS3VZPezN(6PuiMOs^y>?U+!3lGcteTZaTb=G^=Aq3d
zv0<HRtdAYF#aXDXB<8YIj}c*UQO(^-OURsEV)Zqf^^Q6nU(yLDk_knjYBJD37H`Do
zpr^7*dM{^YWr^0H-C$5bE18@S9lRJ7&ocly=JZH4Zdfymvqj$!6In^TVewzQVGKel
zjF`@fH*VerN7ZiBt@bS5PdgpbcJAm;9Fo#W{aqO2V<Ngq&X3N>SuLl&A3ZIe6{!rY
zFrhAq84w8C{!Cuc)8LZ{Wk;vfF%cP&Xt}J3L(UYV=+_?8IyjvTq1ASdTANch=R<>I
zr`XtvcvD`wol_;ObuOQgv%2Q&9xR}FfvI%`oG*x%vSO_WOjf1)N<uQXP&+0T4uGXM
zh>mm8IK!!2RyG9U?IdW0Bh&e0Qr0vkE)8oT%%?TOK172?Bu=pHjLo<_yGOOAwR9FU
z$tGn+XVh1q9EKmqmBp?yj>fJbMlX8E%4$NF<EgYFGp25Wdz+R>$=22xUUpbU3tJXd
zG(5??lu%Eg+o+#GzY*MV(uU96VMDN2%2=Qw*u$u=p{+(#iH-xoWQLv3?O$PdSIh8R
z-8ZPue?YX%ZSCWtBbA|Z<)L%yL+4Av(@@{)(8i&28==WHVR9`rSq%-Wg@)FIA;i_T
zuC=xo$OcTUOl`T`o#AJ0Z?JtU028qp8LUKxHX=i%3)Rq``yZ@)@NlFY8mo5nRwFM|
zBID)A_@lS~F8<f?^~hxD;?u|h)GkMcDv_7Vk(VExT92H094kjIRwCERk!$ObH%k|*
zBd?UMtsecw*iXmGfnmq;oc;Tg|MbSM-gpw2{vycrMw!8Rj$<)X^PgDZZcJU{VF<XU
zeBJe_Wtw0Nz{LnN?|LOy(YxSqCuCW{2H^#p&DsTc+GT0}u1^>2f@a2Nfk<~l0H}Lv
zAgt4Mn1uz0OW8Rbyd_0ftuDaYlMr@*b>f!X1W<ti47h6w>%d1n9&2db438bC2N2wp
zRiL|)1JK$e&FKrnn9R;D5uu(5+-?EEB8Zf%X3@&g&;O4&X+gg@1k46b&cH-4{K=)*
z4%hJ6#N*rZIn6ehK(<+#K%BN&s$nK6`~MdFG88EsnkF$Y&9r8MXDY8S+_vWryljCl
zNsGg>N_oJdN?2j|Bv{<!yx~qR=GAW^M?Fi~Ei`3@hzvRFaZWu)wU`fQl2R8aA}llf
z7Fs?JYQR!-$L6OM4($$SwOX_2P)j2MkPUDh-IdVbuS0{?K)Bi!sdODLcO8EeS?_wa
zBviY^hmmqulu~<F@BHF}pMJ1Dc)T(=ULG7@A3U)ZK3VcV6}l=yUs>p@2nWl;!G{+<
zerH2C@l<HPA6N;j^}O~Ncjrk4H-=v|eQ7G;%nqJQJd|DVmXRPQ#$6Y#Y)Cf-@J-wT
zaB*`r1tG2(*nqh@Jh#@L4OjLPjBV7z6<xTl@`e9!v~XfxPTmyLDN6w4JGksS+NUfr
zF_3Y{B4mM)2FR|p%o<I5p14?5#39SQ2<azGv9oit3vg!Esq}T`5NlvRS7|O7Z#I`x
zK$*aBU~17%0^|)BJ$pvxoI$Bf83u{~M4SaiJw_X9rsM=%ZnCBx#TLPGr*io$yeJ7h
zIgd2se3tQ-KwHwOG#sWL^IG<8Y5|v>20CT<?T+aBLCR=a-d5<fEu#l_mC;(IJ7}$u
z;6p_Fxo~&MSB>neM20sa!?2VvrPo%jtsbiMpDg#EeC)5Bx?DbWdA<M2lfcz2H`n{(
zW~irRxuv|=82Qc)Q%91<r0o_GFm+8O%`{;Pum_C+(#JQIvw9Oq*ZU??S9H_e0;a}Q
zxa=IkTZ`CQ;?EPdNde?jP9g=AZy;%)<S-XRCu^WLg`>ERe$^R7#vbBr<V?0X6LTtS
zDqV5yt2CXN`VK_|Hb&?3)$MDvb%4EjHc4FBiO#W!#o1H}FYS7qyEXZ93~3*32iMhK
z2_G(p4?mR4;bWEX$uglzb>LuS;B<N5^y6372hOeueVZe%mpm0=e_7c7@aV6FVG~h0
zoU2Pb$2|5sP=&|^JLjiJ)Vt1YiUE}2nw@a7)3w_GfrdHmJ;=pfH>i%Q8HK5%Ed+H9
zq3Etrlsfb|2J~q@n<g~Jo(*pyR^lzNuW#kkinNoP)GmEQ?sd8@YP!5whb)Y;r1DvI
zI|Ad#<<ZB~n=>LVM(NZN7zaQuEh~~nw=x2$#yzje;aNq?9RtiL3Rz}0n$z>`w4wmt
z$hX8gVFGR$`Z^LrkU@b>E0+br&azd}^yz}&pc<7q8uUECHcnC;nznDb*0&uKah-ai
zDL|qPz2-DT5jPO>!7}YJylGv|Xr_0Ud3?K2WO$Q`oN&BU?^BkCE+(cSe;4nLQ_9k&
zZnmg~%T-}yS50bG{Q>nGN3_g6>*YF*uZLbLd8)&smEno<@I+<!QhE5&zYJd~2ac33
zto0nJ20AK%fpTEr=ijO99Vzb}`FL*a<i+*9m!1SJ12bQ|%5Mq*Q^6|2(Xw!KLx@&G
zU8Oejs!)%E4t^4m*v%_dbKu`~=}zkfG7Al%nFfKFTh|F@kB1#IOtNFzF^KYf+H_Rb
zna)u_AtPU|oMw1T$09R;TGVZtE5@#fSZTBl9JA>soW{%7VA*a4@vo?(!-$r-%?9@L
zG}L+j_R8)1-&^_K>il}>=$dep?WGC1!K4b43m%wL;Mv(>pJ<O5ZheSEy|ep&idDPV
z9_M2r@h3G>`;@rgT(dBs6^d?&|7G3vsOZK?xC{U2=$uJOm@=DdAbhwzp9UAI9g>4O
zHdR*AxE0k9<5Ehzv121{kl$%W&CBqf$f*P<1)MH8b1AK|&$~;^FU7V_a;Ac!ysDvR
zzy(!KrByH^_;zFvA!<Ml>iS#43_gYlOf2HLo3M!z7Ol#N49`L?omIyvDbNQ?jH}s1
zhe^&H6}6fxCXa?jr$u045}p1!p9eeHn%AT7N4x6x?v4Hiy=&xPftGi3dwL(d{gbyJ
zy!Vs$9v-S37%v|fe>At=^LnZEU)y@02HNjmS-G;>`ti(@z{}N8AFSr{y6eamE&2aS
zcO^&CATzGQ=gvXZ%S;~jfPIj#j6j`B2nVR(6m5%T$xcmbCbJrGRd&{ka2sazI{7fQ
z9k;_|BCpBL(C}V5&ZvfiVKQg=I&TwmPQx!}NuSexXs4WhgJkqZv^J+gpG~(IJdM^Z
z2lA7_Zr7wtrK`;jJW`Oc6ORbQz7CIStJ&dN`xSKrf&zKjYUlR!S9-?FJ@6r|_k5$&
zY9mr{rMP-|ZD?XWbZ$*J$Ako*l-TEoC_fYJZurEh5<HmSH7`=?O^WDSso|lkhx#_X
zzd+G@6tz-B+)E|<pc1gE<PI`7fq`?-`dpKg6(t_W2kKW*&OS_k(?sJJsXj#`R6vXR
z{XK3=2zaOYhgY{adOi+)$)4K-`@J*#_IbYBd!FAq*5Tc=+1bD4#dFKYwYHa}mHur%
zy&Y=vzQKy{L{UfAmY-4rDs8t=s=veAz1bh7w%ycrFSYC5I_CBcJsRKU@Yw3$1`mGW
z4|@AIJG-~Mc%okKz!v3DN5SnDO6?Q8ll&w17Dvy=?yuO>#C}>+G{Qu|Xrmhy`)q}K
z7XiNE)0fCIt&)~9kAeAlbQA>1`8+yGA52H<{-7~h_sNaYH8w@Af0b?_=5f$5S{<6-
z+En`RY4ouUZ@q+3RC$yUqEV9!v7<CXcDZ#sW!HC8L<pG7Pv3)-VyCwAtG6MXG5@jg
zx=MFCGV0o0L|bm2=eK<v-})K1|1(bfEf@Yb?!Z?r5AXVdL-b`U#~=EPd*wIoj?X+t
zf78<a<9F6u_AUFc->$Z=Tt5EH7Kdotjn^&q8b<1w%g-NKJ9>JX!_z85>RI=DE`E|<
N{oqRwcO=+R{5MY;Lec;L

literal 0
HcmV?d00001

diff --git a/distributed/ec_transfer/ec_connector/base.py b/distributed/ec_transfer/ec_connector/base.py
new file mode 100644
index 0000000..2b7b14d
--- /dev/null
+++ b/distributed/ec_transfer/ec_connector/base.py
@@ -0,0 +1,247 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+ECConnectorBase Class for Distributed Encoder Cache &
+P2P Encoder cache communication in V1
+
+The class provides the following primitives:
+    Scheduler-side: runs in the scheduler, binds metadata, which
+    is used by the worker-side to load/save Encoder cache.
+        check_caches_exist() - Check whether Encoder cache of requests exist
+        update_state_after_alloc() - update ECConnector state after
+        allocate. This will decide to load the cache or not
+        request_finished() - called when a request is finished,
+        free the cache with the requests
+
+    Worker-side: runs in each worker, loads/saves Encoder Cache to/from
+    the Connector based on the metadata.
+        start_load_ec() - starts loading all ECs (maybe async)
+        wait_for_save() - blocks until all saves are done
+
+        get_finished() - called with ids of finished requests, returns
+            ids of requests that have completed async sending/recving.
+"""
+
+import enum
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import ECConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+class ECConnectorRole(enum.Enum):
+    # Connector running in the scheduler process
+    SCHEDULER = 0
+
+    # Connector running in the worker process
+    WORKER = 1
+
+
+class ECConnectorMetadata(ABC):  # noqa: B024
+    """
+    Abstract Metadata used to communicate between the
+    Scheduler ECConnector and Worker ECConnector.
+    """
+
+    pass
+
+
+class ECConnectorBase(ABC):
+    def __init__(self, vllm_config: "VllmConfig", role: ECConnectorRole):
+        self._connector_metadata: ECConnectorMetadata | None = None
+        self._vllm_config = vllm_config
+        self._role = role
+        if vllm_config.ec_transfer_config is not None:
+            self._is_producer = vllm_config.ec_transfer_config.is_ec_producer
+        else:
+            raise ValueError("ec_transfer_config must be set for ECConnectorBase")
+
+    @property
+    def role(self) -> ECConnectorRole:
+        return self._role
+
+    @property
+    def is_producer(self) -> bool:
+        return self._is_producer
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def bind_connector_metadata(self, connector_metadata: ECConnectorMetadata) -> None:
+        """Set the connector metadata from the scheduler.
+
+        This function should be called by the model runner every time
+        before the model execution. The metadata will be used for runtime
+        EC cache loading.
+
+        Args:
+            connector_metadata (dict): the connector metadata.
+        """
+        self._connector_metadata = connector_metadata
+
+    def clear_connector_metadata(self) -> None:
+        """Clear the connector metadata.
+
+        This function should be called by the model runner every time
+        after the model execution.
+        """
+        self._connector_metadata = None
+
+    def _get_connector_metadata(self) -> ECConnectorMetadata:
+        """Get the connector metadata.
+
+        This function should only be called inside the connector.
+
+        Returns:
+            ConnectorMetadata: the connector metadata.
+        """
+
+        # Should only be called while set to valid metadata.
+        assert self._connector_metadata is not None
+        return self._connector_metadata
+
+    def register_caches(
+        self,
+        ec_caches: dict[str, torch.Tensor],
+    ):
+        """
+        Initialize with the EC caches.
+        Args:
+            ec_caches: dictionary of encoder cache
+        """
+        # TODO: Implement this later for P2P feature
+        return
+
+    @abstractmethod
+    def start_load_caches(
+        self, encoder_cache: dict[str, torch.Tensor], **kwargs
+    ) -> None:
+        """
+        Start loading the cache from the connector into vLLM's encoder cache.
+
+        This method loads the encoder cache based on metadata provided by the scheduler.
+        It is called before `_gather_mm_embeddings` for the EC Connector. For EC,
+        the `encoder_cache` and `mm_hash` are stored in `kwargs`.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        pass
+
+    @abstractmethod
+    def save_caches(
+        self, encoder_cache: dict[str, torch.Tensor], mm_hash: str, **kwargs
+    ) -> None:
+        """
+        Save the encoder cache to the connector.
+
+        This method saves the encoder cache from the worker's local storage
+        to shared storage or another external connector.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            mm_hash (str): The hash of the multimodal data whose cache is being saved.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        pass
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens on the worker.
+        The scheduler process (via the Executors) will use this output
+        to track which workers are done.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        return None, None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    @abstractmethod
+    def has_caches(
+        self,
+        request: "Request",
+    ) -> list[bool]:
+        """
+        Check if encoder cache exists for each mm data of requests
+
+        Args:
+            request (Request): the request object.
+
+        Returns:
+            A list bool where ith value is True if cache exist for
+            ith mm_data of requests
+        """
+        pass
+
+    @abstractmethod
+    def update_state_after_alloc(self, request: "Request", index: int):
+        """
+        Update ECConnector state to decide allocate cache for requests
+
+        Args:
+            request (Request): the request object.
+        """
+        pass
+
+    @abstractmethod
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> ECConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        pass
+
+    def update_connector_output(self, connector_output: ECConnectorOutput):
+        """
+        Update ECConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (ECConnectorOutput): the worker-side
+                connectors output.
+        """
+        return
+
+    def request_finished(
+        self, request: "Request"
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called when a request has finished, before its encoder cache is freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and cached
+            should not be freed until the request_id is returned from
+            get_finished().
+        """
+        return False, None
diff --git a/distributed/ec_transfer/ec_connector/factory.py b/distributed/ec_transfer/ec_connector/factory.py
new file mode 100644
index 0000000..bfdf51d
--- /dev/null
+++ b/distributed/ec_transfer/ec_connector/factory.py
@@ -0,0 +1,88 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+from collections.abc import Callable
+from typing import TYPE_CHECKING
+
+# yapf: disable
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorRole,
+)
+from vllm.logger import init_logger
+
+# yapf: enable
+
+if TYPE_CHECKING:
+    from vllm.config import ECTransferConfig, VllmConfig
+
+logger = init_logger(__name__)
+
+
+class ECConnectorFactory:
+    _registry: dict[str, Callable[[], type[ECConnectorBase]]] = {}
+
+    @classmethod
+    def register_connector(cls, name: str, module_path: str, class_name: str) -> None:
+        """Register a connector with a lazy-loading module and class name."""
+        if name in cls._registry:
+            raise ValueError(f"Connector '{name}' is already registered.")
+
+        def loader() -> type[ECConnectorBase]:
+            module = importlib.import_module(module_path)
+            return getattr(module, class_name)
+
+        cls._registry[name] = loader
+
+    @classmethod
+    def create_connector(
+        cls,
+        config: "VllmConfig",
+        role: ECConnectorRole,
+    ) -> ECConnectorBase:
+        ec_transfer_config = config.ec_transfer_config
+        if ec_transfer_config is None:
+            raise ValueError("ec_transfer_config must be set to create a connector")
+        connector_cls = cls.get_connector_class(ec_transfer_config)
+        logger.info(
+            "Creating connector with name: %s and engine_id: %s",
+            connector_cls.__name__,
+            ec_transfer_config.engine_id,
+        )
+        # Connector is explicitly separated into two roles.
+        # Scheduler connector:
+        # - Co-locate with scheduler process
+        # - Should only be used inside the Scheduler class
+        # Worker connector:
+        # - Co-locate with worker process
+        return connector_cls(config, role)
+
+    @classmethod
+    def get_connector_class(
+        cls, ec_transfer_config: "ECTransferConfig"
+    ) -> type[ECConnectorBase]:
+        """Get the connector class by name."""
+        connector_name = ec_transfer_config.ec_connector
+        if connector_name is None:
+            raise ValueError("EC connect must not be None")
+        elif connector_name in cls._registry:
+            connector_cls = cls._registry[connector_name]()
+        else:
+            connector_module_path = ec_transfer_config.ec_connector_module_path
+            if connector_module_path is None:
+                raise ValueError(f"Unsupported connector type: {connector_name}")
+            connector_module = importlib.import_module(connector_module_path)
+            connector_cls = getattr(connector_module, connector_name)
+        return connector_cls
+
+
+# Register various connectors here.
+# The registration should not be done in each individual file, as we want to
+# only load the files corresponding to the current connector.
+
+ECConnectorFactory.register_connector(
+    "ECSharedStorageConnector",
+    "vllm.distributed.ec_transfer.ec_connector.shared_storage_connector",
+    "ECSharedStorageConnector",
+)
diff --git a/distributed/ec_transfer/ec_connector/shared_storage_connector.py b/distributed/ec_transfer/ec_connector/shared_storage_connector.py
new file mode 100644
index 0000000..c838814
--- /dev/null
+++ b/distributed/ec_transfer/ec_connector/shared_storage_connector.py
@@ -0,0 +1,201 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+import safetensors
+
+from vllm.config import VllmConfig
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorMetadata,
+    ECConnectorRole,
+)
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class MMMeta:
+    mm_hash: str
+    num_token: int
+
+    @staticmethod
+    def make_meta(mm_hash, num_token) -> "MMMeta":
+        return MMMeta(mm_hash=mm_hash, num_token=num_token)
+
+
+@dataclass
+class ECSharedStorageConnectorMetadata(ECConnectorMetadata):
+    mm_datas: list[MMMeta]
+
+    def __init__(self):
+        self.mm_datas = []
+
+    def add_mm_data(self, mm_data: MMMeta):
+        self.mm_datas.append(mm_data)
+
+
+class ECSharedStorageConnector(ECConnectorBase):
+    # NOTE: This is Simple debug implementation of the EC connector.
+    # It save / load the EC cache to / from the disk.
+
+    def __init__(self, vllm_config: "VllmConfig", role: ECConnectorRole):
+        super().__init__(vllm_config=vllm_config, role=role)
+        # req_id -> index
+        self._mm_datas_need_loads: dict[str, int] = {}
+        transfer_config = vllm_config.ec_transfer_config
+        if transfer_config is not None:
+            self._storage_path = transfer_config.get_from_extra_config(
+                "shared_storage_path", "/tmp"
+            )
+            logger.debug(transfer_config)
+            logger.debug("Shared storage path is %s", self._storage_path)
+        else:
+            raise ValueError("ec_transfer_config must be set for ECConnectorBase")
+
+    def start_load_caches(self, encoder_cache, **kwargs) -> None:
+        """
+        Start loading the cache from the connector into vLLM's encoder cache.
+
+        This method loads the encoder cache based on metadata provided by the scheduler.
+        It is called before `_gather_mm_embeddings` for the EC Connector. For EC,
+        the `encoder_cache` and `mm_hash` are stored in `kwargs`.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+
+        # Get the metadata
+        metadata: ECConnectorMetadata = self._get_connector_metadata()
+        assert isinstance(metadata, ECSharedStorageConnectorMetadata)
+        assert encoder_cache is not None
+        if metadata is None:
+            logger.warning(
+                (
+                    "In connector.start_load_caches, ",
+                    "but the connector metadata is None",
+                )
+            )
+            return
+        # Load the EC for each mm data
+        for mm_data in metadata.mm_datas:
+            if mm_data.mm_hash in encoder_cache:
+                continue
+            filename = self._generate_filename_debug(mm_data.mm_hash)
+            ec_cache = safetensors.torch.load_file(filename)["ec_cache"].cuda()
+            encoder_cache[mm_data.mm_hash] = ec_cache
+            logger.debug("Success load encoder cache for hash %s", mm_data.mm_hash)
+
+    def save_caches(self, encoder_cache, mm_hash, **kwargs) -> None:
+        """
+        Save the encoder cache to the connector.
+
+        This method saves the encoder cache from the worker's local storage
+        to shared storage or another external connector.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            mm_hash (str): The hash of the multimodal data whose cache is being saved.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        # Return if it is PD Instance
+        if not self.is_producer:
+            return
+        filename = self._generate_filename_debug(mm_hash)
+        ec_cache = encoder_cache[mm_hash]
+        tensors = {"ec_cache": ec_cache.detach().cpu()}
+        safetensors.torch.save_file(tensors, filename)
+        logger.debug("Save cache successful for mm_hash %s", mm_hash)
+
+    def has_caches(
+        self,
+        request: "Request",
+    ) -> list[bool]:
+        """
+        Check if cache exist externally for each mm_data of request
+
+        Args:
+            request (Request): the request object.
+
+        Returns:
+            List of bool indicate that ith mm_data exist in cache or not
+        """
+        result = []
+        for feature in request.mm_features:
+            result.append(self._found_match_for_mm_data(feature.identifier))
+        return result
+
+    def update_state_after_alloc(
+        self,
+        request: "Request",
+        index: int,
+    ) -> None:
+        """
+        Update ECConnector state after encoder cache allocation.
+        """
+        mm_hash = request.mm_features[index].identifier
+        num_encoder_token = request.get_num_encoder_tokens(index)
+        # Insert mm_hash only if this block has not been recorded yet.
+        self._mm_datas_need_loads[mm_hash] = num_encoder_token
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> ECConnectorMetadata:
+        """Build the connector metadata for this step.
+
+        This function should NOT modify any fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+        This only build for load mm_data only
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        meta = ECSharedStorageConnectorMetadata()
+        for mm_hash, num_encoder_token in self._mm_datas_need_loads.items():
+            meta.add_mm_data(MMMeta.make_meta(mm_hash, num_encoder_token))
+        self._mm_datas_need_loads.clear()
+        return meta
+
+    # ==============================
+    # Helper functions
+    # ==============================
+
+    def _found_match_for_mm_data(self, mm_hash) -> bool:
+        """Check if the cache is hit for the request."""
+        filename = self._generate_filename_debug(mm_hash)
+        return os.path.exists(filename)
+
+    def _generate_foldername_debug(
+        self,
+        mm_hash: str,
+        create_folder: bool = True,  # <- now defaults to True
+    ) -> str:
+        """
+        Return the folder in which the cache for this mm_hash lives.
+        If `create_folder` is True (default) the directory is created
+        recursively the first time it is needed.
+        """
+        foldername = os.path.join(self._storage_path, mm_hash)
+        if create_folder:
+            os.makedirs(foldername, exist_ok=True)
+        return foldername
+
+    def _generate_filename_debug(self, mm_hash: str) -> str:
+        """
+        Return the full path of the safetensors file for this mm_hash.
+        Ensures the parent directory exists because
+        `_generate_foldername_debug` is called with its default
+        (`create_folder=True`).
+        """
+        foldername = self._generate_foldername_debug(mm_hash)  # <- folder auto-created
+        return os.path.join(foldername, "encoder_cache.safetensors")
diff --git a/distributed/ec_transfer/ec_transfer_state.py b/distributed/ec_transfer/ec_transfer_state.py
new file mode 100644
index 0000000..ef3c978
--- /dev/null
+++ b/distributed/ec_transfer/ec_transfer_state.py
@@ -0,0 +1,42 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import TYPE_CHECKING
+
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorRole,
+)
+from vllm.distributed.ec_transfer.ec_connector.factory import ECConnectorFactory
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+_EC_CONNECTOR_AGENT: ECConnectorBase | None = None
+
+
+def get_ec_transfer() -> ECConnectorBase:
+    assert _EC_CONNECTOR_AGENT is not None, "disaggregated EC cache is not initialized"
+    return _EC_CONNECTOR_AGENT
+
+
+def has_ec_transfer() -> bool:
+    return _EC_CONNECTOR_AGENT is not None
+
+
+def ensure_ec_transfer_initialized(vllm_config: "VllmConfig") -> None:
+    """
+    Initialize EC cache connector.
+    """
+
+    global _EC_CONNECTOR_AGENT
+
+    if vllm_config.ec_transfer_config is None:
+        return
+
+    if (
+        vllm_config.ec_transfer_config.is_ec_transfer_instance
+        and _EC_CONNECTOR_AGENT is None
+    ):
+        _EC_CONNECTOR_AGENT = ECConnectorFactory.create_connector(
+            config=vllm_config, role=ECConnectorRole.WORKER
+        )
diff --git a/distributed/eplb/__init__.py b/distributed/eplb/__init__.py
new file mode 100644
index 0000000..4cd51dd
--- /dev/null
+++ b/distributed/eplb/__init__.py
@@ -0,0 +1,8 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Expert parallelism load balancer (EPLB).
+"""
+
+from .eplb_state import *
+from .rebalance_algo import *
diff --git a/distributed/eplb/__pycache__/__init__.cpython-312.pyc b/distributed/eplb/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74f26a5cf060240d260dd5a8e3f74fbb95807397
GIT binary patch
literal 291
zcmXw!u}Z{15QcY>pdoM;mZFgIa&WihDTsxTPULEvWplfni<9iK*~rCL@Bw@V3!lW=
zCSYY{r<~PQ?&A3uGv5r%&p)rDQAWHlc~oz{e}v&*(GE7p9-fFGH$;Gl5MCnqqbN`x
z7s<mUE7wL^mm6+5qD0l!IchHQiX(59(&poGadlbDvQO}K1q?8`F5+RIF`<`?4Vg4p
zvDR@XhXX5jXN==YKa)*}vMs5r4K>P49k(m#rt5Bgc6v9L6jen{?{0NN?-6S%RO_s&
xIwu7UzLYW5D96~$^h0`HYtf;+u;KTRrakoKD+Yk?y$F(@l)%wDIkBl<{{kAmQBD8=

literal 0
HcmV?d00001

diff --git a/distributed/eplb/__pycache__/eplb_state.cpython-312.pyc b/distributed/eplb/__pycache__/eplb_state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6b39d3ba9bb933e44a7564f3e5fa1a28fc3a8e77
GIT binary patch
literal 27954
zcmcJ2dvF^^dgtIp;xQyZ5+uMkNP-XW0g9BUHziRL^`InLvgF57c4&wgQlLP99)Pw*
zgKO``TcIwhn2awGeNJlWBvqEm%2`{NyLB#i6*-r?xRQS`qU^!qxV7BMCb_Nq<0wms
zvs-s{_xpM<07#BxJIS@>Mo+){>+Y|=S2zEvsL0B}g^j-+nxEsizork>6=VVr3v?WJ
zg9~yaTu>L(hjk-5{2IdgDZ_|CM{&lmamqAeVqtx_V59(Xrf}hudBi+r8L_bVg0OYU
zHe#FNM|k#K7%rMB9x0x(kJzUiBMug44wp=oj+C;nC0sV;9C5O+HC#SbF;aoBEy#ym
zQ|=Kr3m1her>aJ(bex_OoI>@7=qI_68o{LJj&s4{x45AFL%kCFq4L9x)Uq@O(n{2{
zk-A{1U=~Ve3pp-WCe#Za!85L}M2Vmip@LxfTgH)wt9oBW;73M|vktyCEr@Z?bU+M*
z!$LR|oAQLCfuQG7ARLH{38JTM@a*ZsKF^d87eiw)PaqQX#NvUt5c6BDO`hZ7Xe<^G
zuUf5Lp7!?B(TUJlAnZ{pZExS}8HjiUrG@zAK-?3GQA=@8blelaEO@4(K_T24LyJne
zSX`VLi_eIH-|F$4jC(Fe!$CCZi3zO8t3qhva$M;HY7&L%Fq(@CK~G>zL_a)JGvRn>
zIxKjmFJFyOPf(50JbFtVd|C+3M1p}xJg<uvq9}ejB)lTzk31Ba==6+7MNcd`h5Dk?
zGvR=!b~IOQr{`6{GbRe?g(naUhT@@U1OOO|PKSh;I?N0NGTrxkj?Rdv-V=(93!(rZ
zcT#=mLneO=H7e!D0uj$8!6QazXpr%!=h9UMw^#su$^a!Ey&^<1!#kT9cHZc=PCzJv
z`HRFu3~<p1fp=OM3yp`yJVD`=(3lE*Kscbnn0gjaN3YH(Ed{lQLO>J)k%`<?C{>|f
zm`K0i@AO0?1Yc#IGXR+iT=iTI0Pfj&!<ZP<)R_)N0MS4=G>eL(5!4k7jWeLdGkuM9
zvK6@zdaM@KeRUmVx~wdM(@|QZTCmEl8+C~4qTLKLEM9bGY(~WVsa?T-IEM8iycU?k
z65Q)KDhSi(1>s89(>)kv%+uSqa}xm2`B+q$`7_Z$PdIQ@5Upxf6%^r61i)1ivDlOy
z5Q^mX58J!go`M+jdrpqig2YPnZ11&-+0~xe1f3f?^=c>_R^U%v>p%%lzo&Qi?#)n$
zVWnE*(Rd*2$9@iaUcD?t0RHK4^eWpWuL`Z%ictEA9j6^dlV!~gSnV@g2<XD#Sr1my
z6~G2S2KJzRas2Ev9;LTH2&{|UN^kc7qO{F7%`=wW&k08k`*dmZdEw<5+GPk^f`NEo
zEF6f%eEKwhR*a4bvDk5Juj#ZE=x>w&hK%~O?F?b2BhkosXd+#FHiI0MZ=WH}PYCf*
zVS03e6)mQ(2nvjjMQ0-MbXh1eioTE1E>+?KF*II&p3r6(E#^0j1RJgLQS6NgLByxy
zOz1VjflrMOGRztKIUNQ_C=rDWRvyjFCnB*!Gg~hcIht7`qoK%jI4~xR5g=4&$OIn#
zHw12Q0*3>T8__?5qi@6@7$?~gs%BPxg@T}dKY|wSvFV1dNH=~(y6G#@3o_}2=u07m
zaljP>%@n$7@mbTwgVW(lY{nRfXN%~_Qco;@+NG|J(Rh@=Ob5g0RA4&oQa=!%%|i+0
zYC`6S$xN(60Xyml1V^W_iqfU|F|URq!RV`LD?8OjBbfcPiG_!Kmb7`4#f*-ot)rue
zoe2vF^P{6L&jiAh7hi>=qrvDH0;YIW9J`z@xB$!^71Q?7(Lf}E4M?X;4Cw|OlwvW4
ze~WtvpZn$U?)cPn_jG8wD;^NB9J^kd*|lf)m0d!2ICQCd`fB`gG}8S_I6T!I454i3
z5*;Yr*us~XH_A?Q|MXR{47D+D2Ldqx-uJkl8eMC(jo*La-4|AjzIA=E$-G|2)iq@!
zDiGo4Y8t-3|K0s7#@2Ox5zFDKxe;CruNWKG^(I8{TxH$&`FHshqjz1;Bch5casKL4
zDO>e@W3}j2+ug8Six5lh;Q}b1+;XMG8q^EMpg}NA@=BI`f7}=}g32ir%t4c22^Qf0
zLcuCnhzbG)WPZz-rJ!s<i@=ZTgI44(vS5*0xL{q77x-Y2P#i2q{dM^@E8(DxQCIdS
zraA<NU=b`C+KZJKw+2hzGL4jE+NlSnRtg%e6qH$MurO#FH-kDejg%?r=!u7=Rv^^{
zs!+2pjIvYuqtPP9tyxML0s7-cd*y&rp-}Op7M_%*j1Vxa%!8{-aI+cuih7lPJgN3f
zj;*jXu-P;QtMXc{3|2p}uEHm!V%5}O6;uHhPk=SXS&LlNS8cwAw1p6lf^*J-9`Jaw
z-$XF6qf0>$S^8QbdHtSK!c`)MvqUf`K00fNP`FGqlgE>`t28;V4?Bkn6q;&GMdGv=
zi6fxzhY@%;xP&gjjUuGDgdSfRPJ-h?9KJFf1flaF<;~WW`36g%xXia{)3?e=aaTE?
zepsaHe1&2gencO<G_N2(hEHN?*H-ihR3iZMY9)ZmOIKzRvZvY<2rQ*c<71O>)PeeW
zB@o8ZY>Wxv@mz;uG(bR8Y^L4;3A3|ybhb1*Q+_q>H;^Ot47@kFRK0)Rc;8%;s;HSa
zUbm%o?V-;~ATkRNMApSpfyNB@H0M6e_$=kRw^8O6HFY=2erE1w7%p8JnVA|@$a(b)
zPnWYel~l_{7l;C=fXG;O#?Ui@KAY`V5V*m`vvV8I&SQf6FcYi(&gm2SymXx!f0TRM
zFs7g2#`G_OSDZ5>3<+))EiCG<Ta1XEGt2`2Qt9*f(y^FVL5Bn;(EwYbv`i1rgg}yk
zPsxz#D&?FZN@)5#GcjU!XswS&!{I2-$qDd~8CGv^wyKL!F*Fe(_9?^gC=(7!a0?;(
zqBUFUX$GcPt{Uo9_B7vk;(OXuV(=oC%!@woryj7pjJc#W1OhBZ%-BW;dRGJ+O@wGB
zle%?r;0v#*TwaD|$N*qVEsT{Q7>q^1HN>W)ks!fA?WqbkkRLz`Q3VH3KR}HdsgG$B
zW3YTiu@{psZiknyn+Qii66T1Pjl)grLNVIVRE@F$Ixo?5u}uKBYV^s)XLsf{$u}wY
zZ_#Az9K1KVM>Sl#|F)3aacsqZe8qPnX>LiGTUI-JlD)_8cb<4?(05pW)Olk0<@tf6
zqj80AOm?1lK#>nPy~T>$>jj*{pEP&<;)_DWveEoLzq251i3qO}86|`_Y!C-pWgFx^
zwoU#9NpO?-8wuISeVExQLEV+39JinopNeM@UL2c3aoS}kEoyr1S0yXddevVox|%kY
z7V(nMX~kaI1(*g=f~dYt4ka{VS&369K``0mP(mY?mFPu@(oNa%i4q#ItVAVBI5kUX
z#8L_Iy|_!wAJk9MIljrotJR2vUWFlA(IE8@t1))OYK#xD8e>4LMnCg<kVTl<GouZC
zZ3t^a5wRLQ_%JhCb^PDeT{T=a_>8mPw$gqk_benM;AjP)R>;-}w<s7hM{OvS!;Hu{
z2Oz3!QOb-hq>v*jI%8rbNGg<?fO7~zu}#M0I7*}J%%2@OLwj$p=k+--=JCra`GU{<
ze^U@A2I9b*EKjbzCzcxa6{ihhAtH8Q5u}X~;k9_$7{URcF2E5#BgDiiB;;X1Cmo<F
z9?hPgWfZIOaha1OT|$u=I)X9pu{8fQc=phgFer*(wF)4hK$p|T_|<8_XArkhQ~SuH
zMmJIumFNzGKZyc1Kzg<*hdCdc>CdRbZNNZ4lU9zm&&OrEN3wfXYz@l;E4JoUr~7xD
zOF_A=TdM1p>vl?YJ6Gy<uT<_?aqg9!ha~5r`N1_ux$J0@9BnsG%AF^q&J*_>CsJi@
zxy&z>`S1AT-g8p#xqD^jSX`G>)^(>+?s-b;dFo!-Q!K7iD(k#sk++?Zww<|Gc80~Z
zOJ(ghL$d#*<Ue_@?BvfXh=VI{{L;!b`QC3?b=NFC^PVl`u9e-}B=<HJ*e<!Zvp}!p
z?qz`<$=$;O-IBYT%6#iRd&=D)yLU+L9W1a*a_?e+osxSe3-n3uJ{F+r9#$4LRXi+m
zx=PnMXG!V0iE|F=*6keM!bquMHX$m#nW2zNGY48`hKWy4S3+c@9(0*_9NQ3cV(LlI
zM3R7MEcCG~X^VLw+|JIC!w7+_=7{Fm>=IebpyT4%(`7Pyg5>gJhv(OxNkFVQmq!h$
zg8aFHxJ`}I#C!$ll?Lv+t;^O>7}U?1wOdJ;uV6vPTti&Ypq=AAE@(`c-{XEa%PfCa
zmjFXOi%!j1^7^KQX*Exa1eoFA<9nSUVdt!Qb!*^7^i~6lkAs=ff<`<m(VDDKp_%)=
zUHGBesx6*9htL9T_DxR3!$-LnArhG56NL$$ip&)y_=Gi4l&~d=7)#2eW%Tu${xwDM
zVj@C%48%4`tgd^ET%vHYc2o8E44Tz8ChNDRqF0`+vB3g$wkMmmrmFPFTw%icFV`a4
z%s}mlZCVqyf4Mfl)+lXXxpFihs6E@``n;9n-3nRl)ppyWLT0WQIa;=sn<Q3wlbdYc
z6oF5$=Gpc76{F%NJ2lE{u9nA))$q?8tNj~{)xWi`bB=hA8XGhx90^CzItzR{i@mGP
zJK&MqpALLwcWA<}p!?3HIOs~nscU|6w;GfCohwNgCimvP)sXhyLaY|1(O<zF#`HrR
z@S$Onw)7^K2h9VUlJJ>VS`*LAm7?84Tg%Or#gC}5>KNyoiIT}dH8%H~O)pQBC!EC8
z2hEJ~t__;zobh97&dHN%DEAxW6XoyegGCAFdwSsh%(;gX?v$Dbf`ZaSS;Cnp|1fjb
zy#RbLS25?Bb0=I{@C_C)Oj((z1Rm0Wzmm>QBnH<!2%c73&HYXe=fY}elK9O{F5$vz
zdO~}NN?KubCfzR1?ps%)V)Fc^itwqu-&N=^{7RyuO)lY5bLco=L#-U{yd1j8=QdS<
z&qOg!7n|BY)MNNgL;PE6zJ&3O3apnA^*i_bMoG|~FnySzJ78pB&fi1v7uB3N$5207
zv4a!(6*V^Z3o0kW2?GW%<>J*4N{y-E+^@O<nU2QhbIf*I74|`u7!i-5ij0`LMo~dz
zbNO^kpcwkUSX#3cnj$jKY&|r`klsK=PHHt`gCZVMFp^G%)a9ZbJ^K0oh4bkZ`J^dG
zggxV7Zs|o@NG$&6Mudicd4bxQn4XDwnmrUGrC!X_(C^vS>4E+wBglfSfEa*&hM78S
z5L9{s;Ry(_;+LoVR<)}BU-BrdR@Q$@mo_mr=9sTnJWlPml1G~&$I^&&{-+D#O#P#D
z+&DfH4vU8=-ZU$~+5u9bXk<bpyeAG&v}Gm|gQin}6tw_^F0}LMVrq9PDvUDKax85H
zog5EM%tU8mX%l2w+k2U$G;I?g$5zG6Hbsv$8iPDm?4p{BNM@TAvZf7Ff!9RB<6<{?
zL@TFxMK+z$h?-)T1AsDtm$kEVhe)_fBw`E_S`zdYfHi}-EzQ3g5F;SJN26qILbPOB
zABm)`<1>*l#h4;(m<AcIk4Mucm_=M2O&3GM43-N$W@|<)p+dzO+CHQGR1{fN)My7K
z^JCGeX(+u$Nx<%_QusQSe1h^29u$YjBP^G$$#Rn$1!|)th!cq@O_!e;cz$&7`Llyh
zUl@IQ@aQwcM+b(Fd@Ef8*o?-)(RgeW0NBKTisjS-o$KNrs>7zTr=j3$B8fyqH$|6b
z#+DCrb5`5T)0}4Xl9*Ap%t#F#gG@|aWoa{u#zIb4lc4M|!%-5|PHa|!R#Hhdaib!%
zlt!7YlnpmVz*M*R)?Y>ZXn|pZBDI?>%W=rr$iGDuu|L9Ae3M(R;4DS5xkWO!EYI9G
zcm0enm-)jIe>kObye!ZmIXWJi3`NE32F}v_i07KxKInYEGsU;1%3L@0E$(|{GBiPs
zSifG(H8dy9wJEz(wzo_6_N4#FJ^PV$&S0^oioMIv$jyhO=0i#Ez&fWptm{g39Zq&0
zSvTm426Yb&$dp88GuPJt@yk-{p`_Wn+SvL*`}^&wqEfl2MJj4ZwjE9KgDJjPZMe|L
z8h&Ku8d^TEy>H9q%yw?I)ODkMvHek@u>pOoMfXcx3p28-M{@OiUeY^1kgDpr(;!vt
zm_L<z?)fC&w0tVrbL{TxQqTFM_q@bkNbwEJ9V@&anfUGZdH;GLSGpZTE%M5Im&AA7
z46N|meo|C+?O6sbujKHi9HjtQaq*XCuGoET<kw$VFXAj7s4bpchKdy$QOv3qvr{oA
zSJWu;9TMMha{&GL8co$bDkW9%zIXRAfHX)&4a<FUQ@_;IpX3h^L^>8baxkm`VBG6g
zuB}sU-6yr~lUt8Vt;glo^HS@1QnPqhp_#t;?!`5SQ+9Mpj?TP+LNwAYIoj6?jYY+n
zhB9}4)pm0os;<I1t80{Nd!*VPxwc=b?U!p$Nwuetvg*S!DoWZLlHQ#kH%Q)nl6@cK
z)$LYAyHmhzAJkE>d(BoW*?g<6rgy$AyLu&8?>s~>&2m|XRMxSvH$KVXTQ?cD6@S4Q
zoW)psShp->=A11`f!i}5y?*QUdu4l*{N7~Q-nD9vT-_&C_syS9Ro2Os+oZ~E^Fyod
zmKAr~{K=H7{>I$m+&gc~pIEcImVA=EY5C=Q_O?__?Sf_1Q6W2;BuCS_UhisHbJZ_g
zS*~3^xx9bfq%ZGzWH6SLKC0kK8dDDZt4TSkQjW@$!~M`!P*VKB0+6K~=sy1Wus9m~
z<%Yvj!{NKVQp2$%UxxuEeTQV<G0AuAt|<A2?v)KC`JrUl&}w`4M{T#-<o154y<cu0
zklF{RmXgw>vqN_FNY0)+jgqr3xqC=*4kaC@QWb8j+K$7zhn%saILWtSvRe=9<d&mS
z%h9_R{^H^%7gt)&VeO~*CYkq1yf4{4c%MIpr7!cX65pC^8@SIOUNZw*)JRa-@%V?#
z4cJu{D=Opbl9(MH3&Y2TgH@sI12-lIBY#v>h-q+e{_gps_xbjp?K#fMQx&YPx)kr0
z`8o-M=1U&h&3mx`WOJotu3YMrtF}v3+gGak?wNNg3O;ivHX59nn!1{{A~Y>V$3tNu
zZ2=l(hgEEh2o2TI$qDj?dw2+RG^9*=u?#ephNLN|yPcJT>$t0s*ob?OGb?jaE95vW
z>61!}L2^+8I^CEsYDuG>q|eZC*Xtm)0H-Ae(XK7mo*Giym@~yyqYX}t(~`?Tx<$t}
za|zQoAB)Nt9);HCMVy*102XtF7+c{anXqhfh}DoJ1&zd&Bnl?!=-uShz6VVz<*lWs
z2%2sesPy|}R%el`O05M_IJ2fK#F$r}I<v_I^U~)ms6#_8l%HoZe|2T*((HGBz1Dbx
z+U#Vb8p{19ED7sGcJ)m*=Tg*Ac9gb+jm-lOnOITKNIEsq1nF4Otc~L$x?mxsA_bE~
z?{0Ex4JbprweI@=jN?~vlO1X(_e;EtrqshYNp$HZM?FXs=QyDS-Suj$W?k(2-+bL+
z51o0!9?Hrwa$QizhF#a2i&aDD!45T?`z5aFpR`M#!nnBCbXs)=Eldij&y$>Jwv8U`
z%=JVKU3md>SqO=6zT|~k(vUr6TgpnX9y42<mW+nA<Yq19m)F3GDr5;GLNjI!v;vuC
z8OZbCS(qj(pS#Sa4u}(*Oa@fM?P<FdjfP<w08`qRE{HS2OJs=}f)Om)Lo?hC;|0`B
z=Fh~%l9nM`uS)r<=JKKdb$<}n%gkaIRY1Q4jwc8e9T-+-(@KmbGaSw7{MA~H3gZEo
zw39)A=cQwTa7=h<W2W30qt$J2Af(R9c6$S_x~0oZM+d?_G&M7Y4oywXM98`xCWrWn
z#r>WO87R!e*m$;7@KWZu8x?0FFERF8h`}reTFFRsX5umoGN+=rDWDEc{UwuNg5$;}
zFU^pl_r}p?Pf@MGB9T?2@PTYrvL>K8Ymp`onQO&1bm9UUSLZ7LOAlBAdtx}lG0GWC
zvvRdS;h;D6r_1wF;FSqjm68SiOM3wz6n+K5feB?*sAZWw^OmB-Lv1Lk!k*o~$TX{6
zG-C!Fj6mv<X_u*ZnVEim2e5APYt8lH0^}=iVsk4dTq1B92g!sX7@C?;xBTpx%+3*}
z_j;Ox>@oyX278)gdofOR;Qh`1-tkUqCo`P>=3u9Ke}r`rId+UQS&XkXZON`e#+i$U
z&>mxc6}iSJtX*SQBV#!uTP9!-FCkmnFdLdq7s7gmi5JGGq`=}aU1`%e00+(Oln{uB
z0ZL<16cdC5V^<(di83o1BSBOgr&2~-z=$e>3_5!uUVubJU_7`;XpIR!n2f_`R|E!c
zQ0$xJeFt9J!5DQ06Gaq}F3(6IXbPEyup%*-p&~?Oq?uM)nRO;0px&fQa=;u_WIpMV
z95~ge;!H6m2U!1HDcBrmp`YgSS4WH_VCqiG{3^V-k&xIdGo7X_A^7S0H-Khi6QHHu
z<R0wc_=*(oczgKT@N#f|_&(o};!A&OD_irn$=*K6+b4VXOWysTdk-WXo|MBQJ9;EX
zkL=hbId*;K*aMEd`QR4?9A6F_o@Sry-7R@{uXw@OG;H9NR(I}6IhvQ_a_erXb+_Dl
zP-;E6(mL>^LBFe5a`d9^WMePr`0{4i*(o_YQ|>m|?U&sCn=eDfd}sF$`+v~??+)HQ
z4Bo7~;>!ZAqH^*4($fp)-?{jc@~XvW-g$1_#+7)%=QZzEI()Yz>D|BLJtBLLOWxz3
z4kW$DSG>bXM?=cHO9q?g-FH`)^zK{n9+tf)CGSbudq(n}Nj?pp`^<{>0x~`-;JSBw
zbmi8SR5|$mJxS+YG~QkMcct#dmUr5qsV=F<nA>+tj+O=M(okye(Yr7INB`37&7phs
zJ3k#;;MdBkZ}czrzjJUouu|5#>a4nPYVp*%URSwq&0QnA6@@s4si@T(Q*Qk8{)63I
zUa{T>usj&jaSnG%YaZ5|UfJ0P21|DClbrijoc)-Gk_OqaU2<%{b5!1OR>D8WIrNWW
zH_n&^GY0d<q7s>JyT`ZP9DoSnGe|4!WwO0PvUl8!%iX7>?o;>dr&8V97L4~DoygAQ
zH22IcHyb2#$7e9`ve{*u4=nM`3v$;5sq4Z$+l3TNCW*Vstf$ZT8bFDEMyD`McHuQ)
zjD&Ns%fR~Jm&&&4@nd5dT?5v0o_?O^H`;lrG=UaxG-pbfp2Q!`;j$kj`MB>uR4CEx
z;^}xseh$vc%v#>yJ&6;7#w5!LX>mYmPv;8bSq-`t??U={Q6Dsdem1FG4`~4w^l#pn
zfF?enk418}YFd0w&e{re7)cm6xeqh6)r2l@v?R{k<e(?X>C3HodBIg~c3PZD!kRN!
zRYyPR*<2F3D*bJ<%5`C+nth&Z+FDMnlktSVjTyA%!Nt2ZKWc8#h_!uf9j$gw4T>1L
z9}T`_a+_xBS~)d12h2rgN5B?=pX}ROSI~lXcW#ZJB;oTW7tC>ZWbL%cY4=}UH<SIF
zvg1>o3+<A(t$FjSkNr;GJZbRhs3Xe_=33I!nrr9Oo)Im`Xy|K$HX;rt40-GQtM*1w
zUf!>}H;VpAdxM`G$U#I6VgK;z+<@b@Ode5Fa=+k*GrL{~3Ci_%iEq@>BquCtK89&V
z;-s=-?wjvR)CJ0d9JpxMFEd$z4L#IcrE~Uw0u-U~+=xA{_hDrEm^ooNPrn(hJ?xiA
z<HKB@Ui%wk8WlF`?;Io`T5EL<HVu=f)fRKVut#ucX|rJiVEj%j4{vAn@HoNF<;tre
zb+^&EB|i7{Rub$9vU+Z4^Ns4<z&;?mrh-LpksRWQxK?dD3xo1R$&-6YwjGJ`SzxcZ
zl1NoNs})ykf>py4M>&_XYS1&QhQ^=`a)}NV8hPjGx74`YZ?KrzH`uq>H~b5&Y{(;n
zxwRd?sJ09ZdkO3&G_5A`wDFpIAyJ{dt~B-aCR_qC=A>Pq9(31FY45Sg$KpF!K|D5%
z!Mp=G0_xauzmI80<NQ+BOTspqm7GSZA5)%Ky-hArq1FHz!KK+-cHwW1tWIo`n3K)!
z@n!NXQF8Pj@r;|?<mF8f_?*15H4c_2`fu8YtaXazwnIHF=Uk7eMGHO~ZBN2md!=Q!
zk;t=0!MQL2>}eJ+BnsbD>~eC@`2R%>SLN+q4M~2mgi*t#poYs5Rf$4oBW6&>205V4
z=M1>;X;oR?r`6lhd9oqM@y19hN7n5SkTBU(<|aS!?YPIUme!OKW~5wNGN>mC+;YMf
zwfap0HP6=*pl!XN6oHh7$<|=3|BAq_TrtTa>|!!K5`uVjLJ=mC9FvI>H}+=}3#K)?
zOcn;P45yZblsY7cIR)IWkB7##+(l>`96amW&<&EVZtR5y-{)x~xy?m(BigTAh<?$N
z@C-v#10gMm+>}C(yLUxX3P~%yB@n~KZ<=&KAV|+qptI=H#vaf>PNP9~fm3<8M5#d)
zQ%(g?jAXw-F))r>30pwWrnH4OHSkEn7%YgWJ(8K?5f!>Lk$0DZ8Y2miYJ=`+gJF7{
z?xuC3bMZ~%q?{15F>CcLt$wWmD$>5$N_AHdFcgUuES_S1zkk-!mRa7uG{kLV(=*~z
z*j%^tX_NBSfrb5y#>6ouGsF#vw~$UoKDY^od+CTLiIe!N@WwI}CW4Bd6Eq+9kXWu$
zoQ_%5zX%QJoGyVk2<S}tZQTtWG>tYR_VFJYUe&>7i{z5SViSB^gVX!B!LS8JDFlcZ
zk&^1QHp~7A0ry0v#RIb~IlGdqpwYjdy%G^S;Lqk8LGc(#<o*Zuk8g6xs<YDGr*2+e
z+Py6P?g0dU!ETy;*IuF%iQE#OCXdLaS+5E^NQX0^YsU3P4+%l>^aTv8f-(QB&69<r
zC$01NcIAYa;@eag6HOY&W`cpVjl`Xo#b|`gqKtGECC$^eRURD>L?)~h7pN4GN+NMv
zis+PV_|mq#8~tg^B@xSg3>z?Q!Q?6CSc-`CIV#pg9<eVX(Iw2BOp$kzsg`1B#$%Vn
zv93qSEQi@Ti9|)EEf_79{b(R2K2Mp)$op56Qh+5Xz}n0{3dy<hgoYyaoTn^AMu-Q=
zBeGJl17kwl+PpV2MoIa==2hJa%vMZ%jf#*&npuW1OD{1(pLEEIbfzgbRdf!EA@U~4
ztAOXLR%EtsQpE3&_q*hsB9G*;=|Y%PG4ZRFU`_&DF`nk3QK22Kq*QIiN9ZZN@{qB-
zQZ}^sn^a$wYAdBI3q^pPc@x46{X&2qA4yj}wn~xNpRvh#g*y2vc|RbJLE$QeX32Y<
zyaai3@X}`1eM~@%=qO;6$2lhV6~Bi}`PNt2UGl%MU1ProsvP%`wsB6+I|r0&MDylU
zY1NIc#jba{=L^@$E9b2#SKV^MVq%{Ek<GQrm%Kf6ZAj)DCBE@K?_I5|l`Gq&%J!AY
zPFSk&rEj0Qb}H%K{>jh}E+#KLd!K)9%~mJbTGo6WNxtPrWsPLOgQq1{%iT-POv&<&
zq_gvn27h?!2d6$YJu>L)N*An;Ah3i%OM~Qq*pke?QqH<R2>*UWZaE;e9Qd?>#GIXv
zI6ZC(nVGmbC!v;^gnG5B_oIuqE~cDr*||+}ZcCA*v|Vzx%g#NLb5Gvq0m*qFRn;z6
z^-ER#a@7&3>PV`(L#{p`RUeS62c_!4N45fgX%ePI#au~;BJobSt5})CQq^I(>a<jK
z`qOhORZsn-yl(MZ$@*@&{;*Vkc%}TvPs%G7FTC?ClVb0a-1|s6z55YYP*VE9!MR&k
z>%HGkyqj37>6B}FrJ7#3W<aVLNaa3{Nj1mV=TWKVs9ZB7)eL>wBh{RNl~ZLEtejB(
z%DY!m_1;Hzv!`O=1kA0<t7K=h<b?dZTXJ@%+#ZMrisiOLQrn?V2LQM7ZGam@%ecvY
zTqk!9Nu5KVzMSkFTIoEOB%_&jMNXXTJ@vWc^!h;(5+By#Ua#!ymwf$5C$lJ+?zB88
z;G9jXM~*QVD=m`5e#PleZX5asgZ`+lRB|3nI=#u3gJ`X1Kqqf|UfTA2(%H4@tlZei
zo{!z1o@1T+d)7G{l?I5MO(|DT($VwNvc@FexNtD#+mDv9I%+(BU|hZ+H}901cgoHE
zQgi=G^T8F*p_S?Zn2<63L<<D+^QM%mMlrFQ=TiVpd8bs~i8XC=C2dW&4L47(wC(x$
z`9FQ}k6-+g(R*#DADOwz=J$$~yKeI*SKWPgLU(Ic+`|aFs-&v3A9u=o&q#aE+~51u
zO4ZpF*V*|KYmS;_^9M!m7yZ6na&+Ip{k**o3|vtq)z!Mia?4h>5Rz>5%RTpO-c)Vf
z{L$;f*fug>FY)!T-72evwqT)S>BVKsQUbPHC0(%Hf<YV4?LP={y3E%~e67rTCEmNj
zLmhD#nv?xjiQkpvYm#-l9yyqe7pC!vHeQcl$=Ahz1g*txW+(-P4gpMd^hu6BScWkZ
zF~wZ!i&D;6$5ajbCFg$Gd028Dz6;x~!IZ04cI}p2yFV_GT>HK-=*stFqAPb~bQ-jb
zm34bcsyT&aQ&~k*-29nyKNJb1;mOsPa&O1h$FeNoTCh->k4eqPU~1M3qp`*{XG_Y}
zD!UF!u7k2`P;w34y(GC#QhT@~XfOZ?=qZS00Y%N_TbE`3faD*L{ezN!Fy-uCb62tr
zct~;|lHJE7H`VMON>z0}Fz70~)=fsVYvrnIao@1}7);a5-PrCOFoYwe2|-A99FQCb
zP!;-!))Z~ZPRX%TcI=lN`;-08e(rc~J*LA{Ja|RN@$OVvZL-Xlg!x(-tkE{%Ojot+
zYLi@TE3WqW6B(SDa_sz3L&sv#oif0FX|LpHhD94J)vTPu$<!uv0B0RBW(NHKFbqHc
z;`@i0EOT7$4G1kWp`b4B3S*Yd%hpdqc|(>B&CmNa89{oPMC%$O%$KqzR$%0HlSDpl
za@jHHpzy$p6?29><FV`|OeXe+pkdDV6(cS91|v1)<^8%NC37}@(-82vX{07CWsf>i
zcA=&K25siNv1p0L3lfF6s+JL}Lij+G&nBlWsLh*AOWtL73vz3Stf6ekv;nmituyAd
z)={D$Vg6_L$eK5zuM2gncF#9KU9YK_$_lx$0u7outRH5W873}gLgj>E9518z%(LgR
z%-GYym=J=&3yBmIDp0XQA$E~ou450fG5&m9j83s^Q=rxH$|ez_IYw0Bp_Tz;#(uHu
zD&qV2{5iq?mQMUV{P-LSQ=wQn2vgJXt0Hj(;z#7&A&;m>c6WYCxhL`)6v-F?5{EH*
zU!=XxtSiJnLda)h#Ig7%6iWniy6Lg^r<nl*qkz-8QSm=hi7Z!<cGC?6Dw@3}kl~hc
zcP(Nz6v-o26}tqyS~&KKVoovZ%xC7**gM3!#V{T0-aOH%^XAp^sv8#<FD{qdZvLp_
zR>#M}{qm#p)>SeJCQDt}+$5QsmWS?KmUo_zcAiLHcqVCXx^I3qRbGE%ba8a0yag0M
zohNCoPWiVb%^j;H6$`U+N#p#$DxNWWeew0>p4)>Tow{}EuIaw(7~yE>$d!YaY>;o7
zKQ_y-Xx=@PeD*omFyH5&Uvs!`*ca_9js`mVhjjD9$(rtD&q*9fxH(Y$es!v(KH0D%
z>F8UnsJ?M!@d_Dpzp?lRkbEO(sXCByMXsdFcgHRF9FuyEea0VOZR`5TcFV>J?nyfK
zZYk(P!DcE5>LJ%TGJLM6lPfx;ijGuOHLR_R+8%MrQBvfQ`4$OeL+hUV{N5DbE%Q4i
zerIym+0XfN>)l*w)A}~f(F7BTr2Tl(d|Wwrvgii$2Yx|0cy=H*|KQQmz~hiXcExES
zj}3>6J}<Avfuv=xjE9bBO);mU(yvCv@$8X<yKE(D`P{EslZpc7v|1_6<yS*Erm`se
zNjAnz4`zgQ0-miSU89zcKB%LVxdJ@tWgyK-qJSiyI4+4_+~h`!)d*<AzM{s2p4|>r
z>~0n9*w-n8xrW^WVIJlZg(__DsFZn3AHri%FQS)ZLy<7QqrYBggrx$$jIi~#j2p5K
zN}2JXRKf6L(H&46wITi&@;2c%GM-luoB^UT@z3#@w!Rt_fpXZ*wN^_1l)N$WeuX>|
zKru{+M<Wem;h1v!t%^_;lMrn|R%si_n;<A)RT4fF|0{Wi;iYYa-ZE*~4?^Tj$PmN)
z<Y6}jxfQX8L#YgzT+O<2_-#YNXMk^PKtXX1uBGFHi|=2&Q}Umh|Fq+eJ3bZeH(yAa
z8#f`h6yLI1TKA4$E^U`e+fx-T>~o73``ls$MriRReMe;93CVY2#W%Flj0-M}s}+s!
zMC6KYsiJ${#_m^nB;JEJn1HY>13KWsWbGl4oAtf8UR1Y3uG=fs?ftk%s_RG68sBoW
zTH<#kcMVDW5Qun-TS2n-&3i!c7j3(vllWel-!1XP3-J4r2cDPs=TmkEi1eZo(CE0F
zp{I~m=9JwBLcFM*>UDx^8q^KxKJB=F^w|~HbJEdg?_6B6EnmdjBgv!B&htsvb8CD(
za2GCWfD3k5*J;qd_`<-spV!3*bNso{dbHe_wkei#Og6RQ)hHq{=wN;Lw*dLC>GHAI
zwJdpwH=^1w^WGf!a}7_3)2__D8Kq(ht@{-qxG<~ablf%Fc`i;1m^nOFiI}5Vn+bI<
z#R~B{he@sTySiM7dEK}!Sn!tlv84)gr6|wa`piRbzzpo&DO#JG9G-o1V3!(z-JWQ-
zM5Bg%PG&41w&?_5PHj_b^tcy75N3|BKt41;(8J~mmRAPY1++7)QJ{r~QLYgGnH8v$
zDC~Rspe1Peo?dx^QiU6cxLhubWv=jgC-hhaS*)W6*0JW@NFE4>yA-*l2ajB5g#Q^c
z%gsa?ja&RPc-qqK!$`?Ww;^99>9*F59u-!Qd}CE*B;S=e$@kBxona<MhZy_=e57^p
ze3`d+3vsiZIRvsv_^KiEHev>tj8Ktzm-gMNULIKJxzV@S_s*`Rz;ErpRh^N0*VgN1
zU4V)w1BC1~>)xaO4dXVV6HKaq34!0zWk=qU898D%yC6q<=9*qP(Iz)1<6Fs*2bVU$
zMb9(>2IZ(=z<~wx7;-}eLEsTTC+{A-%p*;2D&o#>4ki<U$&ZTuF$1UJPdYw62RQ9o
z+_luRxOchw=DGLl<c2<}q3=#WYS{f*+3rs|6v+K*XSZ&)Z42bs+t$PsC=a)j_437@
z7yWE{@i?#|(r1J?JJkr7X#)w<X@H8ZzyPVdLZMp}xi$@z4LV)G%%NlHA}Ak_D`PLL
z2)XU3CG)H`!+Yt1==eD9PqUh1)SBm|3<<8l>)#`4w(_yd>i+=rvHy)c{|M^aOs`hG
zzGAChdikEsv&vU2fKFcg_U#uw{1v(Dgw%E7GyY_%tPa%ds=ZXA^|n&lci-NZG@k{9
zxdPwbhm@64Kp5VA`|vtF`<LQ(LNr8IZigT6oVR<Wr2GASOM!)k8?EoOF7KN!NS5G5
zsoL*b-nA@u-08XR?wc?ASy_EfUcG8AUFg4Q{><F7R#h`^$K}KMg8yD#J&)_T)rz2c
zx&KbZ$1QjJJ}voVx3m|xYES*;xn$3<)b!MS{w&O#7lfsO#ml(!ckLJqRV!*B;BnL^
z&2_){!o`(tV~5Hoon=S-#tplHFd-HX_wZwQH#p!m5_%xK*-cWeO-{uKz=0juJ$m4c
zEN0DR1%>)GX<@a#99F#E1uUp}doTBr6&PCG>~(8qNqEjfHMNDCWmi`+_Y<(Zl;_&n
z^#HnqL6l9Nit}hxh(%iQbi#DzrMiurF{=yeGl8!2=ULL{(5|l_@16j$sLD<GMGDbk
z%{<bUF5YBw|C>nL@LrqvYlzvfv^U-}aMQkj8hLR0+{$6$6sJ61+0!F=dSuUT$+P=&
z4~*AwyR=H?ao@TDX6bU{5vlQr+;~!IJh{?%>NEZ{D3*qOYh*CpM7ME=SM1x9=IxAa
z@)?GQhkb@)$By}o$1WgPBa*^KByo#aOI{s$M2sj@ua81K@X|a1H8ch#(&cDS{7Z_b
z6{NfxLDar@oV-HvJn+&+(j$xCW<k2nB)&&UJIVVVMVjI>_!|X`JWku#gZP=cCCWlz
zWzb@pSJrt2IkZv&dDrlNY!JBME$)F{kH@^tb*4Qxahn-GcTIo6f5Jbc;QApQR{&XT
ziOHX;sb4qXcdfp0-GpE4C~N6L)3w?!3i0*Opypd|X*884w;y@P;dlM4j@!N~wWmMj
z?|o1-t~XiN?Dgv=3ZT5JaUH@h1kD_DNT=UDeRGFY)4h&Y#t>)ayuJ_izrX*ES8Ce1
zZewvg=c-=XzHC_9y%<@JgB^az>Ri8I;;QOX)t*#U{R7LW&Q!ZrTCr}T09q-pTrXrn
zT+(*0vt(3mEq-WYvBwO!&W?qW>7?xqy~(+Tj3x@8cvancAq$#u(R{g?UMG-hyV0xK
zo$D5sVBOrSbyf)k;#T|HHP>pEjFP41VG+xFxPZZ_(R4z$WLgR?_t6lgx@~v7cV>Q=
z_(4MIJ({dLD!B*00QgSe<$`SX^%Izil68Hv34)H!bpw9aEX64^KmW|zFI;;;GFL5K
zkjxF55$6}0=AXY-yyTS3wa`FV>K_=4)`BlgsDoNiYF!`JRhsH=?zm(6A^!tj>gZqR
z@O{^Ncjhk=pCqKi7ar30`cAWH$Fg%-_#pg#SZdh*h{LzC!f0Kk_0toIigpLSHW2Aq
z<oXhb^n4OMk@xtXN|uTZaUxBa`??4-!QtsV)J<+qAK`&2t;$!vPvo<5K|s`9)dvj|
zI<U~_+ngb205O~;opTSD0-;|(x(UxFnTYfW8khl{?m7=<Soezhl$0)$%2;uj>{UY?
zpl2^I<H9zT-H)<)q6!X=`w$%jx8X8%_Chk+g)}&GF&b<*uGLylPhqAHAUhEQLsN>Q
zy05#9-1TR1L>O@hn1&gVn<KXra}Nt$Yghgl%9tS1lqjf*M2>0pcQEoe@V}zuUF6v)
z*&=|?#^t!U0E*{tDEbt6lq+p#e?9|OB101ql8>f&diGN>5C{eFdW&M8rD)~txj(Ei
z9u7=E6(0p{B`S%ez|W>D1de)`DLCvuP^08E5x)N!0*sOY$<X+(!}klDAWD?WTcq+9
zxx7y*@B8?0vb=Al{NOd~TDj}Si;FMLTh|Ip7S4V54e+wq-|otVv85rYqUB9IsOfz3
z^v~S2OOv0weNZmis+RUkHe92*XX{Gw&NX}WQUbSVAYM$`JD_h|;w4-2&C+`|T&yBg
zVJTnIL0E~BZ9C@eNHsS@T3GGBdFf8)O4Y%6`)XUyo$k-u@C=G~erSnL+pCxDcdU|U
z-^VXQ(V6n^U9c}(?>Raim^j}N-Fhuo*}m?D?kQ<>DJM{)a>V>01Nj)<;uhE&J28LY
z(il5YU`?X_g%rHAN?S;wK1&qyt2|Q^W%7v@N!#cTOZb&1IF&Pq&aiYni_R<J&pv3+
zq#ug(nzop-J}S24pNWScqajsFrVY>+cr!?(O_pwE*%gvOu}s5VKE)ox4}lO2Xz<5R
zV(hPEq>FQZIfcE@<e&;R{5chN|46YfVTbZKb*qd#cIN$*LhRgS%cqGxz2r5+OPlwj
zUHn0h1L807Nhl=tZ{Xqe7@h7xfm>&MxP#O2KjyqY<{JK*<A1{K{5x*@mwKa4|A2${
z_f}4~=f_;rkGaEt!*%_bJNQ$JbK&_FOWm6VSQUEPm-=%$UCla2KJcyHw$38HysUrD
xs@w5^BY!>aY}C0^W@pmXDVc%a@r6@tA+~g6;k8Box(VN?tibZ95Fyt0{|6_f8ms^S

literal 0
HcmV?d00001

diff --git a/distributed/eplb/__pycache__/rebalance_algo.cpython-312.pyc b/distributed/eplb/__pycache__/rebalance_algo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1426b43a1af29b81b146fe5962d4d9a3327a37c4
GIT binary patch
literal 11139
zcmd5?Yit`=cAg=Jui;ao-j?LCCCj2MOS0p~+Ho8^u;Q2ecD$}1Q7CaFQQ|8zBik~D
zS!Opyq$GgoHmzv1KolTA6xc<yK!Liyng9#LK>u(|VZ}}b)IbBY`BNyBf$a82+jH(b
zM9Gxn6uUq#z?nPuo_o%Hp7Wh^`Hx;NOF@b;A4Ywx6!ow8VI;qvS$;xO)HD^Lu2K;?
zVu{gLE#z&zYK>TV>xk26u=0*Dye(qm?d5CBmkwI$fx)0XVt<dh>R6Yv<EL|8N1j!e
z=LC7qb>+E09t%G={5*eP*`A0OWV_at?faw3_JeFT5*VVdy2mY{itrIwX13>ciWej<
z6&Av=7$1v@aW0k&N4WlQESwnN1+Km4T<>ckZZIiuH+y?ece3oI;i$;Plaa9)&qd>@
z7$4^olE_KJJU5UOcuwHMf)Gv&k#a5^8%hdMX*f<=u3O6i&u}E1lK2QWC?w<TwWB<r
zy2$gR9CqMF`>-UX!~<PjL%?gSzjGiN?}`A02oyWQ(Jnp}>kom5b1^<F^4wrF5#hoT
zcdcdTt{-iS0=lB2IL3=zJ9mY+aDwA+hjC<VGQkZeZ;`Pf)yinNTS;M5>}0>gLvTj5
z-{PY~!;<PsjK%v>;ek<6wF|s7CL{(dE60Swqhp2NvWKCl_x<k&rYV^kDIqYj*P&I~
zlD5iLnZ9GE;2@5+Q<P{qN&S*0Wl;ZtAKI33*BhsqNq@wG^ule)W^fz<E^8CCcdac0
zS=RfoGcZZeOD&BMwPAc|Z<%?(+{e*C8u4oH(r5XR8NAcBlD_#$+i7|ECrD4*Wt(gt
zv|Pm5taz5!eZ6QTxPD#QAypf-BQ-{D<t;nhFf$Kq_w^Z1J4@*6R_KhJY>};lmWWlV
zGD^zL;RCxdgK5_vm>(-`FeJ+sW7dySH)PmZ?ucWEhMfhwBkhUMM*f3<?3CT8CV_4c
z>bz2u!DGTd5rFYH-*cAmrC0bGb1ZvCnvFIq?*}e(-h7h**@rSF{i86K`kwa5F4--6
z2Q3G&MyHV3l``2Q`)*rq6QdzJv~uKf2X@|ob--+A&_pbyH6IN#)JN|yRLP#>pz)d{
zyNvOSw5+LuPnj`lSM6P{3?*w&{s<p)--g)md#H{%NasL(a0yP+D4-6L{UiJUD%d0!
z2Sp9KrGpd428KZ^frjJ5kn4{oK=&r3a5N#J?i!F{<AhhDD{i(AgGxjttuYq4<RGZC
zn8uL{gW?X0hS~?+DRQZ#C`S8ZJZM#|TS7R_OS~W+Am3P~u{ywAyVAiWZgiBeNA9F+
zQHhV6^rm(^z(KYj%nOi_A!#x$5S3XX0PFfdm-Dw*3&C=Zl$RF-_6OS$RlK?-)?gc)
z3G5qiA$jCT`YGT6{|+_acmD(F3yW%tNaHD9wMY1y(E&b0t4#QIR1DDqD#amV`3H2R
zNxo4nz68JJ-SGGe%PEQmL?u%<0Ar=;Nl@zK09eQYpg;1+^k34`G);X}!BFGW-&k+a
zA^OZ0RESY6o!u%uqWXt~<XB4V17l6bq_Wz~zyL%MwKT_NGXHg|ONytuQqj~7DJ%@}
z(vI6>`}Y5AbRXXpi}rV=#--t8qU&ZX2BtGAN<y@M49qPtom~R2Tl_vW*qy0y)pc-)
zPw=->!l64YdR>IbjwXgW55|%M;h1=+(<FKoIw5X^$M61~`dx;~2hJ&t9oe_%*oQlR
z?fuGM=sx>#1(f_=L>u@kZykNtQ3s<`t)u*Ss8Y3w!(kYl8!A<sloSSrRXbo3KoKe<
zM(^;dEt-(_?pE#4BiP6)dxsa2VqYve%B$9a)R=064F$cnBvPsa1}`QBNo5AdVlmaG
zv9ZRZ3Dw=#2lImK-q)wH2sHZic2Y7_A>gtJIGrksTQwFQhwZNAwFS^Rs82p_OVv}l
z)l`>uBKn{gENoBME+Xc=EBhEf{iSWNfR3sjLZY8d)kegr3>FG#(S%BPh?s+8SDFqV
z7SO7xfwgNS;QqrZ@jqZ^{ysx3HB-&4pIpCpU11tBC$ntPU7d3&?oBi2AG_P~Ok3XF
zR;=M>PAD}yGH0K7gHtyqZ)9G7;;6}OdhFP+Sluvv{qFUmr*i7l<f)wH!?U05`TXTi
zU!J@9)M}|=|BVeywq<Lk8}Bw2*ybf0<qAHvQ*})XwOf_it+V#O<^OK<*Q1Zx=4;PS
zc#8h|+`+tmYu>r_NuXw$z03Z&XCbgz32ZI|S~Dl0VP(~H!`+75pX5%?UYM`w&Yb+V
zs%HAw-DA0{vkm#i-E;lFv3%qF+Bsi!B6E7Nrfz!Z?ojT|?16mq-iMaoZ2qSG>-PDY
zQ<<~C$rsEX_^r2jf-cr=$d2X4mD+abKuvA-Vs8K4z6th8^~M?c;~Nt_-v(<I1Lyv_
zXC^e?*ii_aD^_s}RUJxI$5WfN$~SRziKVKVa}g!jGLw89+>`h0$p`lo+qO-d&TY!Q
zk!x2xEyea-bGw!HpG}<29m$R5jw_xmMNeI>s^Dp!3C$jv9h*I_Y~G`I_CP_=Q<Ien
zp2itk@obv+G=5)8)wC?RDBs4Xo2km$g^Eo|#ip4Zg^KQlikFm%m*!qCRJ@!yxfrZl
z2)1A+&K82Z7lQkg;J%0ULh#j0?-O@*R?fRy@=VJzEIXw-a1W=3$5%m6gn_utm#>1J
z`%(A_VDk=Wxilj)070*t=DIxaEQNIC;3i!HC{YcpNwV#M#ehR2s0r328Q_!&BkU!n
z+_Q!dJ^_Bch%_DG0{B}2%H_Z)fVmgwyTQ#_!mZpqSYCh^t`Q`Fg(jdy;BSl{0NOFA
zWo1fs-hsI)2W=w^z*XHUjhHZ0<4btE0Y-uU9kKtZMP@bV1pp9$nC6?yj`DRT#Imk}
zSSJ`twgWVC4q7i#AxHR25KS!V1#r%y17V5h-XdBxIrJ8Q6!bd@s3C>0P2U2~kr1xJ
zH)yBhU~l7N8jK*`sSaHXdUPH^yGP?-C?YQkS5Utvhi<IKCd1<g0B1?zSP4Ecx*8q?
z@MH8*iY625VV2?XUBFp~9oi8DYy?Fx2{C=-Toizv4v}E&Vo8<RBeW80x!`o@!{)Hw
zBnI{a32B8K#|EIxL|Nusp(js}+3F4vMg;o^=o1PKeBdEP8y$(p&xG6px<$kS3bmL+
zuSaNr2l~1xJ}jv=VwF`UncziXGuBvP?No<u3PT>v!tTKuI-w~j=!WXWeIf9Xu|y=C
zkTfIffN8;bR2dwnYKJTg5RE&cf`rh8Oe)Mqh!WA<il_`q4Wwosfl%LsefoL|JwSLC
zequFjR4|VmRauAj>)n%?Bbi&pstvgzrD{v&bkSXxJM!4wlxLdq?xvz)7#DrPsn}#J
zx9`E0FSmcO{o&xeuV=y6tN3~!ozI^;U+`VX99wh;re2<WIs0~Q>x1eqH+-?-;pKVv
z(ah0BZ{^h0$*VcKq_wvv^SZ%v=Vv{ipZfIFL;Jk%Rp8>S%<jt_`>nSXtXNaa%;3Gg
zg~pvq<IcJMeB;hS<Nk%lBTD0uytBSo7n*SV8J*pkWhTAF>J7PL`7L|%jeC{qeG|+F
z=d<+0rAfBv^iAB#*M;)_P{FxvHmo?i=AGNn^lSke=Lu$y<^T(Dd4>}Zy{c8Z86kVr
zoIMCHP+GVnk&N)7>O`uc)R;J6YEq!UT|}(S2<XP=S{oZU@pjqrOt1sXz*40h=ukgX
zi)C2rl$kQMw9Guy0?V+4D`Ju0ttIT;+61oqbL$702=g9;8h8Xpxh6$y&|k-(#n9Jf
z11+X@PP--3-hoawtsDshdD32Rex2y7%icR6M|NPoT*xJ2a+GxY0d(c;nWJQEfi+!6
z37!$en`_caumXEAVunjr$RdvWy1hyJEEKr!KJy!cRj4)AB$y|^IY;Oetw~UC*Vfpe
zN(V{;5CItx3apb+dmYA|u1Hs=gK|I)63bX#YK74vT~#voRb(HP@`HT3I$a}I%Pz74
zH8}QkEg4;{Il4NzVx7^|nR4po`jIjtgwT~0)=gip=dW9YhS|{PW1Tf}-q-hXIav``
z#1?TGvR+^n>t+8s<El5u)gV`{Lt~D;Twi3kF)(>-kb^%)vyKd($)izjkT=MU1bwjK
zPhsJRO*;n$W8Js~Dy?{u*F8OAFA)`>H8wQeGYDao9$Xd3SZ&84p#2PDFboq>mc*qm
zWuRFmPIEO$=aC+1iH<EL6?x$%pb=8u!QC3>A$~(b8el%dJFu8b@Dc{8O+Lu0o$nm#
z?BLE^?u{l!Lx`IO!y>>MlgQBGrLvBldjlX@d`y(Meuxr5E+$1GI*tH_fH%^Mx7LS4
z+Kfp_b86$^6xU9?{LV{!0(|w*N=ym6d9B>K7%=JCg)vqPB$!11ClLlC9U^paS5{Wv
zs2fO*C8VF;d!xC|TH{Ob7I^u*5EsyFu8JWc3`75Y*#bIsnv!(Q3Yr(T_Sz&<_YKVp
zf!&c(8?2Lp?kMF^&Mzr{9bg7|B~xg*P&VlIGJaTzM`zqGnq0unP$Olmk1-NMPtlZ2
zgGXUKqk&SKmynA<P?hE5DQR2_135+TF<>wEX}}a!EkUOmV#Q!M0k9#9a1!#WHJZ37
z;!JX!1`z?J!jTgBJ0-y|eYN_Aqr4D?pcE>GmEf1&APY>y8}P_b0N@sU&5Ex%Cl!3H
z6V{^BJ>{A76g}ReC$Q+LnChME%~gF;f3JRK=U+8Gc;m}!UtIgD>YEK;Z<zO-UhrH}
zJeP`rDvXFMTP<GSQ-|HfF8QcHaDpXZj39CX(7*d{2u?x_5^)2Wmyl1x=V<O!yLPNp
z*H~gOhO?4Tt>Rdm#DuU=e0z-N0j!%4UdP-9v3)2E+C)&9n^FE2LCT>f4ZFXN@(}z9
z;D1uWaeQorhZ@8)yJnZGEYW3sB!X8O!$ggt2H~(8hnYk+0X_<d$kl+990k3g6{4C{
z0~({1IGS3im7sHAM0!;x$ln!*hw8*9aUc98ytFEGEJzMr4B}ik@DsfYUkNc*hH!Y>
zuuD#Cm4XN4NEUJ~lGB-DA(4!Q$W?d^+KG69f+}s@q;0<Dl>ltHJtvF;n<Vmk7q%=o
zE8W!A9iPWOjVVk^=43w5Qgk=ZG$`)vvu{6kcjuYzyt}(t(K^d26}vJgpBw2bx`WxM
z;@&v3^Rc@%&$Q;<tws21SKQzmJa%{GnXbIMtJu&v*RC`i$TPJ|jLR1Mn4gZ_jV)1-
z{cP-W`BQlrvrBbUU9%qYv&>$7*pTlyTBz+=s6C<7o_MsmP<uMhR4s0QIe)PCQM9oA
zio&!*LB6Ja2?BM^Gk(R}mEUz#@g9A|DxM4f!UiWp+1EbYvB>(TIwm`^cQhv||H|ow
zS1u{9T$*R!_}*c4U8a9<QV!p{LlgbK8eMWzHt+WyDo~rfUGQ_6<4aDewrM(kH$L;)
ztg}$FbD?IhQnR<{Wb>YlGy4@!2b{E8JBbx;eyQlJ&DZakt5@m|K=Ed~!Zc@&PYh*m
zEqSQgwpoW#)3s2&58SDTmWRg+)jgRriyOP<d|x>qolp+HQP_A{VHzQ}iV@CyW0&IZ
zn(I*fhcd_i$zP*)=SiS$+JDy%@+Xdihzfh=1oY5VIpv%5W$(=FpY1O=cj^NsYGY$j
z?`JXCvJl*+1h+kP+1%_8Eamo3wobgA-JA`7*!jKJ?yCR6w=xYCl+CwPNd@Yrelhur
zoG`P$;NOusUi8;Yy)*evu79Sz;NQOB?^gWXa}5tK6#R#w(pxokee!y4+f0AK8(Q#o
zE8gz8%DF2A@1e}=xJ|C)Zsy%v^2`>^G4$YxH{uGb+&)y%2xyo8lb9}0^YF1Y5$6Wo
zK59e<zoiuS^^Y`$@=6>(p=u?#2Ei{HYvE>2H+Tg8JJQayD-m2x7qLVv<>-KeorE}9
znT0z;kP6P2>Clz?vkTreLx>Fi3?rFFw5&mNl{JWr0npPPfbivvqHQJ2S?)GFV#WJU
z;*2=4za_mb<Fr8-^!dH?tkX+<P0G1>0NqU&wZup}z)f`#_-zaKLvsQudjOD*!(Ad=
z-;h6%XxeSZx_>x%k?@^%FH;_^YnPBDN+?QU3GTU~1AuZN=mnRZCd@@`49dDB>L!|X
zrMtQm27_8J4b!a$iA_EzgTP~qio9hOBYO?umonF;<&O>h|6d^gHBi5FF%4y+UnT34
zvihD^r!nVKU&g*Q;Qu*Nj260~MU=1Y8l5#>EMq89+ploHZpy+X)moWF+Gii}3SM01
zs?e;lu}q#Q#+VAT6KnP>A=cuxsI69jp&qAIZG&(KBmx|?aP1}}YrqG=j6cWRX?ze6
zi1;|<)i7QROUqz9;R;q9#>W6Y5a6iQ+Ii7qw+5b5T@d(%i6$Xic<;hN;-7?YY-TcJ
zv&QAKz9fPGl#k#ivS2^}?i^eTcOVK2rs~5t!7w>0vL_Tr(@e!<$L4Qaj=&9Nws&UR
zZ1iCr*w<E8adH!mZ0)_ar!3X_8m(2srRS`(v^v)Y5Tq%T-+oAGJd|hZi-9e(v=Rtq
zPAoQV`sC!jlSNlBU)??%$~$+1?Z!au=;Ub8Up<wcOoKsgvS*F~MzDF_?|rv7+mO3Z
zV7LV)q%a|%E;{|$kmAIEvUAI#(~B-a_PQPs{`o(=`S)+mJ9`(L7ZvA4xE9P=pkpo;
zu)oa?*dGG2$8wkR<X%tn0dR6c9@Wv;7fBBE^$GZY8v(E0wRJuZIrMHI950Q5n@&JK
z!SLE<z~<N(^dU6H=%B_HeNEMQQ2S@!A>kH$qDv|Ez;nq;)AaXtmS&dgC_4DhlxNAl
zpKdK`9?g;!^IO`<`-zR6*fVu-@?fs|lg4|E02mZo+p-NPmTuEc^d_?n=3Cm9tngmb
zW`-cjy!$1^wtLwI^-G88%QW3)HpP!84NXfn%)r7`R4qA3)(NiC5&%LdWhsB<lAB~b
zl-*t0r&avDgha5c8P1c+>Lt=?jXQQ<V~#nEH|Czt8YynmlxJg}-T1D9O!NN&J(gGi

literal 0
HcmV?d00001

diff --git a/distributed/eplb/__pycache__/rebalance_execute.cpython-312.pyc b/distributed/eplb/__pycache__/rebalance_execute.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3bfdcf799c58e4b7d0ae1b8e7f5b5d45ccc1a987
GIT binary patch
literal 13283
zcmcIKYiu0HdAoOe&%O79?<1FQ9-oqENe&~+W+aO;Dbcbdx2_`Na=crTN8QVNM^RMw
zT-kLHDpp_$L24QZ8agRprcMC`4GRAZ(xM1jpxEWv;(5yg3Stz^zmusnQUA2xH@ka0
zQlu=W?SPz{nf>PV%{Sk3{@LlYQ;?F(+ljv%p{QSDMNb~Bur+C*sCTJ2b%~18aYK?$
z87>)8#!JQ&bBUp`&6qT$%$Llh%p@(BEYN03T2r=5wv_#nJ;h#PQ;tiHl=G4kV9dNL
zZh?O*{M&ffv^8#ji@D^EvyZeppxskxM_6;*32olE3t-*w@8KEVRSye|dn+Xy@8gYX
ztNuG}K$vNJ+y}k=q$ke4S8qRW;4O1KIuf>j$t(ewW&f{1-X6EbnQ2eF2IdLcC>s^$
z;<bDCh}Z4Y?uR)Zvj(yboT;9#i8t`IJm5mzU!1va0ZiZuT=B-YOqc5RoqK1$CcuSl
z@72KRgkUfA`>uB9Nc)XqjyJ<74e^#4`cmT}6K=geYri<lbJ19SKAPnCYkX`zpU9-S
z%ruvWc7cxyLNq<Yr}%V!&<?PP9G6I6%_Oh#IRe37i_Ibc_TaB&c_Gg&@QIn(e2$yq
z^9wwm=ElywoEx<N29GdoRID%Lc_BKL<Q4bX`8*ab@UPAD=@_qA^-`EtEZL}#PehZG
zVUuDycj(-US;cWq$i(<uZcNC`XBB%inT*UtVU>d7or>mTvynuOPsbw(fsb8P+%tSW
zGLy_qMUxTO!4<`p%*3Fah+or-v2<Rs@LBb<S>W^YLON#LrZfuf8-?{PA7t-RqCupu
zn<z@8u0#C-6{fF0XXhZD$fU30#-kjWL&rlR9p|rc`3$tH3)%5ukaYbqphR%MaDo#v
z7i2k{5=Q;6$)S8IJCsdi2l7z?wli>T{^(bpzH*cwN+za;vWxlIOnT^QGMO5RCvtfq
zF*Tp(<3oHlIW;8ku<t0~G@>3UKbT!q{IK_kiiLbe!;RpF$!c)c0Ax3)vWIf`m;Xd&
zn^)^)wpU_$x1gO;>>4Uzh#e@xwc@{yq6(6(14G*rMSGw^#nGd<Q&A*%VSK<+5PlxT
zl7MHUZcSSv?2Qa1)WVlm_^;Yp&5C6;EZ6nPY@fvR3ApDNp0b`QCyqw~Cr-hMLmS!1
z)4R@k-;E%-!6kviuik)RdjmO~hU3(w`?fI~fu&<-0eMS5{O8<|!J)V)N6iYHN1Md7
zkwq&;q+@S-KBXO~di8P&n@PeANXHX!Q4}`KFX)vR14HQvh*&+fEREaDL$0QL1sNj!
z6Z%7~R$ykRf(ic3dF)A&X!ua;b&`5@h@vh7Y{62nidK=j0&F`+-*Olzkr6FAT)`%q
z1o)2=At2hW93@aKqG=A;<?bZf^nNsT>mWl_&1}@ae2JOOFthoQnaxi$vrS){Xwqjc
z*hTY6>K$9mFareiDnP*QY@+=t4g0o=w%dkVEJGDo+_T6|8!iA84gUq(0+4d_?*Mgn
zxZ>OxpI7-ToO(`Yy4qR7hiINl^L!ld#}p6TLuIvbV8qyYRG7()kP_B_AVxUk<tp3J
z7`Qr?N{0yb2*s#<pm~ZHZ~@h~5V$t>!Bj<7Y7c0@nUKzQt$Vvu75Qn?@C*BPB2%3w
zOt@-Sqg;MIn<UaDzmVaQ!04*J4v-DwmD#<BN00}i0R))38IJoB9YLD#iK{#y9Xp3<
z!h(MD-;ly4!3?B9ZmVMB0f!*i^1Nb>X0srO6l0FhhaEx#!Zc#mgjonOg;g*8AtITa
zWCM8lQGO}gRU*jfghKNQLm<67AOSqD1S(Ak9Z>~&4%wH!SNv63O&!WaP2lAs3yJ(J
zhzAteLLa~%f&bjULw19D&_nqfHmwaMU;6`-(Qm#nQMOZD+l{lOmew0*Kl9YD^xgGz
z-DH;NrGq8bv21+%=}-O5E3bX`_|nNw{oLx=J8g2u;g15vj%P}q(1xc&_H?XX{KV5+
zwo%^h2M)^H@V^_uMb$U0oGsRYfC~PqzH7^9Xfl6V-?bcA>yVC&t@n<7n^_5!jg+ar
zOu?tJm2%We4TBOpC^3T%Kes^}!O<^TY+oB@ei3FMS6nJGBAWi91b5aWQ}ff)plnzH
zgEOdt#H!gA3y33vunSuEVW}WZfT<!Bq=Kc2rBNSNnCUxKjj4bT0Cs8sCTbC_`gfEJ
zqVdr-WVyg}8iDE9pqDLfh#MNHf_?8fUY&=rSuzT%k6du<1N$n#Iti?^0_zg(q7&C5
z(6_vx7dfyTHxkBg6^){53y?ZMwCND~7fnD6#u*&v81&6oa0w#AqzfKk@Nj2{XmJ-j
zqDP%`uELO^qn1Rs$l@CG6@t)cW~f^c_+MZs5MAB`Rq*YzL%5O!R>O1!A2?dUFZ$J8
z!7c)#U-VtY9oLJj=o9_8?prM&n(*vN5`A;1#_dWUYIS{Wu&aO3cI7Xyd6e-a!T6{?
z89&rSHQ9Hd5X_?jq(TJsF{;`EdK+pgg&Hw1hdSM^B+@!mp;oLFYfz6Z)QNRa0?0zW
z7=&^?P)x&KBWv)DVxw3~;G4vzD!9t3uD}X}fY>mHy4tP;Gc@fyA+Z54F$S|c^Qfwk
zB$`F1e)<KM=oJ|dvu^E1^a89qkAskuN6t#p9CFrOX|8!!15|Y?5ncK%ggevEpkQ`i
zhm$LKZ@mB%BQX?EOK2ZzX~z{;(Z5Z*kCof;2<0@u$%Y8!w1`eIq)|@i4$28VA?18f
zp&aM`IpqYufO4wOyh3#q+Gr9R$@$yFfY=1BKnnyDY}!g%8qp+BTXvi`TRCqBoVV!@
zK5uT%^CnzMbnJWHKV~S=E41a|RMjMUD>tQCYz7Ji1EbI)w#;?v5Zk}{%?550*rB3U
z_z?7m3j_3GtME%u6SZ>x6LCHFW4NBi5%m>oTyNwHDRKg-P&<n!;k=Ju!(N<MWT-`h
zru14DboJL=T?(77AG4!&a*h|KGeSx?k9GgS4(9_ZnVB@tC8LYHpy^_UZF6u^Xn|w7
z81}0w8FE0y1gg;tuNbc<vWh8|$u33|b1ox*k*t^!c|MgRYL8+}@@Z&5drfGCegd*{
z0kNW(@);pEtFTq}H9!(A%|zS`0=n%KW+9r$hdEWrLlb^m(-Y8)69zCFL{JCOuMer}
zpU_2`61m8HT2t-8lFdbQl~c9tl8c~83NghFnP#;s#&|BT*dfy!%qr3pv!<k2vWK#f
zOg5)@R3#=ybW0piF>5+s2QCVUTJfP(fP;Z9NZ>%rvEweGn$6@CJ5epC_?bjnv63?C
zscI`xKNYvYr=o~L=nu{cSQ~<A-78BVU2zGFz`vGLjF@w<0HlG(B~^QM=4L?wOY#vy
z0>XLdI0OH=?|`@jm9>rvG;UfOL1is@Y9CmbfceIm2R_PIE7kUV><w?3i~;knyy2x$
zPz!B=+h<n2-+fWGcC4{KJ@a$#-@YjKoGe;Tmb~Gzi86W16hN09RAcx1udNJ8OzoyS
zAO*Yby1SQ*p9Wi3+l#@jCHtnoPO9&{>+f4S@o9bMYOGk_yEI;Mx2+DZySq!Cx{|wL
zWkhy&t+lPY`|q$HjmrndetBs9z}f0=eRt;M-qE6awA42wdD>S`$ey0fuJGERH1guz
zu5-61mrt#nDg_!=hHp=71UltF=j!y@h4-&~5;%0<NOiwN-}h31ept1qr`$j_HQyL3
zo2ed9j006`E_s{YyS&z33=PWOp(S&P^)8?P_OX&903|8dDYKneZts$;bt^UNR<7)X
z;Q)Je%~JE=M)Om0^Has<BX?_$-ei}|%f`*_XG;!W$q_0!YT<9oX6ms6E|;9kg$Ew0
zxpg&E3=REk_)eiX{Jb1`UII%Z*tQYuk%K*JwZ-7UC3`8@BDFmw2cLqXKO}L7WdETh
zD?qJ|tj$Wnqf7P&W~#AyB~@(bmxe~=hS4Q=DcG@kT_(NR;P;J0|6gZ&OOBciM@V*r
zR#I!@a`VxT9Z&z-A6h!GS>Ll(cW1a*e-sYI;lJ;oS_Zb9mO2+HEuVV8Qr?=)K)s68
zjX<9q=+p3A3N-)L!gzgP^|TD!Cw(Z3({*#~zKIGnm;0!?r^{cXAH_1;ypmgI+Yy&v
z7U5n*c+LMG!Z#ZLKh?-&gDdWJw!7qOS+z@p&&k|#vTyX}iF;UIi^$wD+4s!SiO&G%
zudL;Y!C^Qks~b?)cmR+Xu#?iV8Ib7oZF+(mo>tk@y5Z@TJwW+2%emWZ$<qKxbh-eE
zjRydU(1)_v>^CjtPQc&&rzxv@)6K2c7Tw_`=3o7_OD9SW_dBO=p8n1_T+u+?11seT
z>X)v>)~*=W*(O4=Dwa3fI#<)uk%_x)XKuTe%`0YYUUey}U2FdL`#$ju!X;@xOT(S0
zX??$GEmmwjB*SJ-mE6G<-?v4)iN3bgBeJg-DCWzIc)u1-?BVB8BXEj`pJ!<xtcRbU
zqhXsl)Yn&=CmH4+!$Xrc`#-e~O}eZ~J^D~IXP;(SY7P{o9z7*{f3kx-$O@V11USqc
z$ZR7ia4#g%Gcoi%=n2J;5&pLxKn{LO(;FwZoqF4DE73TIP`i?@#h_ItIIFZ?dfO5!
z(CNl1Z3Sj{{8+laRRACAoORcPP}N*<^#0$7jc6FB-lX>)fmlaou%b1~8MOO~OHwp%
z_ujV7@)g@mG{lXl{pfm={=4UD2qf6ld#)Ai70a|?dp5vI#h%;VwT@wM2R`-$z^!Nj
z?a+$WS=E@@YC$t*HA@KWC9oVTcHta4!FMIGV#$JyQxARt2iUlba5-PG&2%h)b_}{Y
zCeT)2(CiCm!BwTD+jR_8Y3Cqz3vST`qnlxL4_Ib;q>`GeQ^%{$=g<YVE9rQlsXV&H
zNJ1-LH2#FqDF}4h3D6~x3Q)z{mGlt`UO1n}efL$Zj@vZ|ROi|sZPUkw)m7Q2+n9Lu
zX~2L#U$G0o^=$(ShUnFE-TRM+z5}Gb$HEv?7|{X#08K*&OpG8VG_9K5sY^$H4_Dic
zYSei>Xs1W$c0}b8X)c?L#xUj=%LsAcB<NnoU>`6cT?N+|ljdkfukzJsa$a@ALPh(`
zL0Af$o@t2nMFmjJGcySYu~okAa6#w#$=ViXfst`n_(io#c6Kp`efIQd@5?VoxC^t<
zEYJ0z-kQp28ey)Vc(?T-HP>b?yzTYfm&^X41MYMXj&P$~PK#xtxsuy!k>MUyQ;)<l
z^XYt;AVt@G5n+59OcdhHuIf&VhRE)n^>ed{c$`m1a*6AFBvG|d9Pm^|fYXeoz<b`$
zL1Z$K2C`7iCoUCT<YuE+d2T+-Mbi))&ny5{2$?xPhS6X3sPt9kGFn7eT{8C!cW97%
zJ{p_Vn!9t_IyhVh7mKDbSP@U4vvh~kUH6-+v4A*#6@mviE5>v=;!)+m4Ae;w;=d5#
z<-y~h+CIT;VaWANWirX|2=~G?_l=9fJpYY;*anx*<T)UBVopZWi+W&N#W{yY;Pzm+
zK{cSA<K}Y^W{J-WcpWrx%L()8er^Hc%RKB9jL+m^W$5^PDz&)d>|&WzYCa9Lj0l8_
zmx0)Mju!yOd^$5fGs~s;R7O}NJH*ST+G$l0mTK9Klmwv_94ZQZG>MNv7!JX3biAxs
zR<|?x8<c_qvT=x=n+P()0pT#z6$Xz*38UT+!5gqs_fW$C)st(Wc>BH()I^9>Vbc7y
zyuyG{EeN1QPy&SZAZE;`viZeGGI50$4r1#8%z$Z9ie(Dk6(j%}UAc-emYr9a*nB*y
zu(?Grg@sHS)=W%1#hlMz)CYER0lQzsj2P8uPYW+&_D7H@uAR(431EHql~Ee7b?@s$
zg74%(06`eNpqlL`aE6mO107Mk<lxajzp94=Li@6*2yQF1FVi8PO~jZb5o-OuRsX7%
z@Afkc{X{eu2?TcuFBh_~zK8Ii^8pD!!1xGd4M>)jP1dy}7TKm%>j%#Foj(G7f9SKG
zmr9;+$<qV|ao8n0Iw2YpK2NJ{pbfw4yzTt1d&|OvU6P{{OkhXn2HOiy0oD%6?0|G|
zeB<Cb`QSO}rStN^3+wC!iMb%L7w+|)+~^yZ;g9LLF)0OlaOT&G@QPq?ojo8i2PF2u
zXRV!o6<<64QLEf{tl0HTvGw>y>q)uw<j-G{TgN1(xx{v8GrcZ7dqEn!xXxabn2Qp7
z@t&*Zoz%_L+nF0<rK%#^vU*e+7?az_)>#-}Ok&5t*7)iR^e?^ZBNN4@GxEs9otM7<
z@<wPt4h^hDKM5U>MkXYtUTQk?D~lHl%$By*!8=~LZCE-yez$qz=H$|;<x`&>JaT8@
zXU#?Kxt}(#jsCFaPP60y3-vjGcluOIbHmXInETk#z3Head0N5nDAhFoCoy)MRLdE<
zTtnI1_d1^0=opndMvEOMB&M~rvkKOY$^NbJH^w)Z2AOI2m}&aVTeJN7U2oTtY10}k
zIl91REjhw#Fw=nz$5GjFwCMQC9t{mEhh;}=3I77Wbz5zAFnE034?iEKLTBlRpS!5m
zQJTcM{(h)w>;Ur*2W?}A&Fa$tV8}@7J05hPRRM|wwRIgh3ci4tgUaqibZ=vU5$T*|
z9A2L3n$nwe9{ZA16>%_OOov1#%n;u&lh{L5^lPr#lF@q`QLm00_SXHO6)m1!=_i%Q
zNx@pB>sNyIpxvGWjm-v{;vPEs_Jae^!tFQcTeYG+Zn|<AE){(%1X{TPz1vW32Q5$C
z0}F9BGsZ)-x&xrpFAyKt@x>)laVE}u(*Thp$2Se?J2BC!wK+u>wvl+!dGJSD;k}6^
z`T-mO5iw_@S)!jI`&W%bT}JA9Sd{{|C%~6fuXYHwDpgD6RsG~KfJQr9Z`G56-Q2cH
zBdHcJBOL4qO;~PP$fO=4)sPbsiKWu%2sgQ{p;oB}MDNhH_{akSoC-v{D#<FUDaO84
z{j9QAqD<;LteW*ncKBa)=TR(!geBX8H*(<GoCgnaoVcZbY*g%Ez$YU_iB?SU{9+cK
z38)&-B$3*}D?mnJs{p}PiimAhgfi3f$)s=<8y7G`391+&j30KZ;t)lj@EW$-iDX0X
zcuuK9nY5?;BkzN>vlC{qUmfmsPuL*thu^IQC{`RC&r`8tS5k6f8}a;-2X^W#_!bXd
zDLE0U>KnnW`i;DAs+M<9CL&LOYe$jnkKq>NT#$iO>!A9dr?=(Ixa8^il&zJRVX1z&
z$P6zX0~YPCSxy#x?KdV$tzY@*>vHR9lq@a1C?{G#NHhURsO<;i?~RvieknL0SqDr0
zV9C|J;Tn)#10{FQhI>eM4?VD%LS_&Z;LZ%<TZKRucqjcW8~%3L-@baf=pTSO>z6?W
zoxVf==<J=@pEnkdoVnN3A$5<+O`}U^OO5TT(f5u?eb37c&o51s_Wc5`DR1vzx30bV
z(O0E`Q&R6K*)s+XFlXBjTUTGb^Hr(yxYTxh-SKSMPX)Wn&6J~6Vz@`2u2mTK_rHj7
z8w$oJWZcZQGbnC&3!X3R^<GM6{wFED^dYPOQvsYr6~@n07=I;vzZVk+0fCI)2rM2S
zvFu9Fit&|Q37iGsjKBnpzv2`T8GRkV_(xU7FWN}Z3mANbwc}F;lg8Que;{jzN7=yI
zH8zej0Bcv<G<Hu|`w5-3PYOAJiD_8EbrX?048L1lkWElD5xwMH87<Or3g6281^q4!
zE&vu?0Dog#pu+~jTqf1`kp{&uctE%Ty?4AWv>lt_K{?L~$FCoIVhdpK7}1b(#|JCD
zzXyxWp%>&osNdh9q~L^nczmsHd3Lq!dub>>%;5pN>GslOO+p@ORea61&DS87HJ?(<
zgcIfnlM}8X@J=2F?2Rb;guS7J6$+S%m?5_#tV{S)EWM7|pJ8?bvo|n%6SF_Z>@CRl
z=Q3YM5X^4j_8K4qE@S;NTxQc3l!Fs@E^iz@EgwGp@!|1eaH8m&*q8l$*3|kXn2&1*
z^I5gZ{xD%X%dfrt%*rckY%w&vKVRAZ%M)`PFLIo^Dvm=8jj-X=WVlJOL?ZD_ED}-N
zu?!gM#9GY_MyFx|>VN_ggaCd_O0i8tcry>ydQJ__664TILaT#SkyR3M70_2qtU?l6
zC9zm|?3&J#hsxwhulnB3MBW9e5nS^{;x$q2MF#x>3WMe|S*<Ec@Q`uE_-H&rZVcg|
zs(ocWmdeEEll*bvdjJMhK;=$@u2(kFG=1O9(9G`~6#X16Q_ubz75X*h_?^K_8-7bc
zR`yxxzLMKlHp1^c_%*>Vpx5OsTd-uM%(g8XmTIhYf63!Vz<v#|zXI4_0qif=SZIh~
z0wDYnK==hf7{`L8z#u(TvN_5|_`O%#P&UCYeD*c0wBHVuEm*VaH5=CKl$l+6c4Zhv
zRm&Z}+<I7I56h+_TP%K^qF*$?fH05|3-_F!vIz@SLz3$Dn51f_f}xd{e{lJ|%W|N%
z%#t<-)zq>2{0C>=KO;9DEIUb?i*h%X-K6ND%=RrWDW(~!E>!9ryzl%vP1{Q?9X}A?
z6U#=d+|w#1tiU2*npal&50dXE<<PJkc&cn6AFMd8jTG&aH&|v#(LwoZmvbv8map9&
zTzyLRb(hHm@O&Dkb`ucMaENZL%n0RsJ_uH+UCJh?<Hmz!3zp#U*l%5a<MNgbYjZSL
d)f37)dO{s~YVa1UouVnnpkyC>!$K(Se*l22@XG)I

literal 0
HcmV?d00001

diff --git a/distributed/eplb/eplb_state.py b/distributed/eplb/eplb_state.py
new file mode 100644
index 0000000..526d3ce
--- /dev/null
+++ b/distributed/eplb/eplb_state.py
@@ -0,0 +1,837 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Expert parallelism load balancer (EPLB) metrics and states.
+
+# Glossary
+
+- **Logical Expert**: An expert that is part of the model's logical structure.
+  It holds a set of weights and is replicated across multiple physical
+  experts.
+- **Redundant Expert**: To achieve load balancing, for some popular logical
+  experts, we create additional copies of the expert weights. During inference,
+  each of these copies can be routed to by the same set of tokens.
+- **Physical Expert**: An expert that is instantiated on a specific device.
+  It is a replica of a logical expert and can be rearranged across devices.
+  I.e., one logical expert may have multiple sets of weights initialized on
+  different devices, and each of these sets is a physical expert.
+- **Local Physical Expert**: A physical expert that is instantiated on the
+  current device.
+
+For example: DeepSeek-R1 has 256 logical experts, so each MoE layer
+has 256 sets of linear layer weights in the model parameters. If we add 32
+redundant experts, DeepSeek-R1 will have 256 + 32 = 288 physical experts in
+total. And when deploying, we'll have 288 sets of linear layer weights for each
+MoE layer. If we have 32 EP ranks, then each GPU will hold 288 / 32 = 9 local
+physical experts.
+"""
+
+import time
+from collections.abc import Sequence
+from dataclasses import dataclass
+
+import torch
+from torch.distributed import ProcessGroup, all_reduce
+
+from vllm.config import ModelConfig, ParallelConfig
+from vllm.distributed.parallel_state import (
+    get_ep_group,
+    get_node_count,
+    in_the_same_node_as,
+)
+from vllm.distributed.utils import StatelessProcessGroup
+from vllm.logger import init_logger
+from vllm.model_executor.models.interfaces import MixtureOfExperts
+
+from .rebalance_algo import rebalance_experts
+from .rebalance_execute import rearrange_expert_weights_inplace
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class EplbModelState:
+    """EPLB metrics."""
+
+    physical_to_logical_map: torch.Tensor
+    """
+    Mapping from physical experts to logical experts.
+
+    Shape: (num_moe_layers, num_physical_experts)
+
+    # Example
+
+    For a 2-layer MoE model with 6 physical experts and 4 logical experts on 3
+    EP ranks, the mapping could look like this:
+
+    ```
+    [[0, 1, 2, 3, 0, 1],
+     [0, 2, 0, 1, 0, 3]]
+    ```
+    """
+    logical_to_physical_map: torch.Tensor
+    """
+    Mapping from logical experts to physical experts.
+
+    This is a sparse matrix, where -1 indicates no mapping.
+
+    Shape: (num_moe_layers, num_logical_experts, num_redundant_experts + 1)
+
+    # Example
+
+    For a 2-layer MoE model with 6 physical experts and 4 logical experts on 3
+    EP ranks, the mapping could look like this:
+
+    ```
+    [[[0, 4, -1],
+      [1, 5, -1],
+      [2, -1, -1],
+      [3, -1, -1]],
+     [[0, 2, 4],
+      [3, -1, -1],
+      [1, -1, -1],
+      [5, -1, -1]]]
+    ```
+    """
+    logical_replica_count: torch.Tensor
+    """
+    Number of replicas for each logical expert.
+    This is exactly the non-`-1` count in the `logical_to_physical_map`.
+
+    Shape: (num_moe_layers, num_logical_experts)
+
+    # Example
+    For a 2-layer MoE model with 6 physical experts and 4 logical experts on 3
+    EP ranks, the count could look like this:
+
+    ```
+    [[2, 2, 1, 1],
+     [3, 1, 1, 1]]
+    """
+
+    expert_load_pass: torch.Tensor
+    """
+    Expert load during this forward pass. 
+    We use the token count each expert processes as the load.
+
+    Shape: (num_moe_layers, num_physical_experts)
+    """
+    expert_load_window: torch.Tensor
+    """
+    A sliding window of expert load.
+
+    Shape: (window_size, num_moe_layers, num_physical_experts)
+
+    NOTE: The expert_load_view now records load for all physical experts
+    rather than just local experts. This ensures consistent load statistics
+    across different dispatch methods (naive all-to-all, DeepEP, pplx-kernels).
+    The recorded load will be multiplied by dp_size when using naive all-to-all
+    due to each DP rank contributing the same token set to the calculation.
+    See:
+    https://github.com/vllm-project/vllm/pull/22167#pullrequestreview-3086143856
+    """
+    model_name: str
+    model: MixtureOfExperts
+
+
+class EplbState:
+    """
+    EplbState of each expert parallel model. Key is the model config hash.
+    """
+
+    def __init__(self, parallel_config: ParallelConfig, device: torch.device):
+        self.parallel_config = parallel_config
+        self.device = device
+        self.model_states: dict[str, EplbModelState] = {}
+        """
+        Current step in the sliding window.
+
+        Different from `expert_rearrangement_step`, 
+        each EP rank may have its own `expert_load_window_step`.
+        """
+        self.expert_load_window_step: int = 0
+        """
+        Size of the expert load sliding window.
+        This is a constant and is taken from the config.
+        """
+        self.expert_load_window_size: int = 0
+        """
+        Steps after last rearrangement.
+        Will trigger a rearrangement if it exceeds the threshold.
+
+        NOTE: Keep in mind that all EP ranks need to have the same
+        `expert_rearrangement_step` value to ensure synchronization.
+        Otherwise, the rearrangement will hang at collective
+        communication calls.
+        """
+        self.expert_rearrangement_step: int = 0
+        """
+        Interval for expert rearrangement steps.
+        This is a constant and is taken from the config.
+        """
+        self.expert_rearrangement_step_interval: int = 0
+
+    @staticmethod
+    def build_initial_global_physical_to_logical_map(
+        num_routed_experts: int,
+        num_redundant_experts: int,
+    ) -> Sequence[int]:
+        """
+        Build an initial expert arrangement using the following structure:
+        [original routed experts, redundant experts]
+
+        Returns:
+            physical_to_logical_map (Sequence[int]): A list of integers,
+                where each integer is the index of the logical expert
+                that the corresponding physical expert maps to.
+        """
+        global_physical_to_logical_map = list(range(num_routed_experts))
+        global_physical_to_logical_map += [
+            i % num_routed_experts for i in range(num_redundant_experts)
+        ]
+        return global_physical_to_logical_map
+
+    def validate_ep_configuration(self, new_model: MixtureOfExperts):
+        """
+        Validate that the expert parallel configuration of
+        the new model is the same as the existing models.
+        """
+        if len(self.model_states) > 0:
+            model = next(iter(self.model_states.values())).model
+            if (
+                model.num_routed_experts != new_model.num_routed_experts
+                or model.num_redundant_experts != new_model.num_redundant_experts
+                or model.num_physical_experts != new_model.num_physical_experts
+                or model.num_logical_experts != new_model.num_logical_experts
+                or model.num_expert_groups != new_model.num_expert_groups
+            ):
+                raise RuntimeError(
+                    "Model: {} "
+                    "with config {} "
+                    "{} {} {} {} "
+                    "mismatch with new model {} "
+                    "with config {} "
+                    "{} {} {} {}".format(
+                        type(model),
+                        model.num_routed_experts,
+                        model.num_redundant_experts,
+                        model.num_physical_experts,
+                        model.num_logical_experts,
+                        model.num_expert_groups,
+                        type(new_model),
+                        new_model.num_routed_experts,
+                        new_model.num_redundant_experts,
+                        new_model.num_physical_experts,
+                        new_model.num_logical_experts,
+                        new_model.num_expert_groups,
+                    )
+                )
+
+    def add_model(
+        self,
+        model: MixtureOfExperts,
+        model_config: ModelConfig,
+        global_expert_load: torch.Tensor | None = None,
+        old_global_expert_indices: torch.Tensor | None = None,
+        rank_mapping: dict[int, int] | None = None,
+    ):
+        """
+        Build the initial EPLB state.
+        """
+        self.validate_ep_configuration(model)
+        physical_to_logical_map_list = (
+            EplbState.build_initial_global_physical_to_logical_map(
+                model.num_routed_experts,
+                model.num_redundant_experts,
+            )
+        )
+        physical_to_logical_map = torch.tensor(
+            physical_to_logical_map_list,
+            device=self.device,
+        )
+        # Assuming 8 GPUs per node, this supports up to
+        # (1023 + 1) / 8 = 128 nodes for now.
+        # TODO(rui): make this configurable
+        MAX_EXPERT_REDUNDANCY = 1023
+        assert model.num_redundant_experts <= MAX_EXPERT_REDUNDANCY, (
+            f"num_redundant_experts {model.num_redundant_experts} "
+            f"must be less than or equal to {MAX_EXPERT_REDUNDANCY}"
+        )
+        max_slots_per_logical_expert = MAX_EXPERT_REDUNDANCY + 1
+        logical_to_physical_map = torch.full(
+            (model.num_logical_experts, max_slots_per_logical_expert),
+            -1,
+            device=self.device,
+        )
+        logical_replica_count = torch.zeros(
+            (model.num_logical_experts,),
+            device=self.device,
+            dtype=torch.long,
+        )
+
+        for i in range(model.num_physical_experts):
+            logical_idx = physical_to_logical_map[i]
+            logical_to_physical_map[logical_idx, logical_replica_count[logical_idx]] = i
+            logical_replica_count[logical_idx] += 1
+
+        # Duplicate initial mapping for all layers
+        physical_to_logical_map = (
+            physical_to_logical_map.unsqueeze(0)
+            .expand(
+                model.num_moe_layers,
+                -1,
+            )
+            .contiguous()
+        )
+        logical_to_physical_map = (
+            logical_to_physical_map.unsqueeze(0)
+            .expand(
+                model.num_moe_layers,
+                -1,
+                -1,
+            )
+            .contiguous()
+        )
+        logical_replica_count = (
+            logical_replica_count.unsqueeze(0)
+            .expand(
+                model.num_moe_layers,
+                -1,
+            )
+            .contiguous()
+        )
+
+        expert_load_pass = torch.zeros(
+            (model.num_moe_layers, model.num_physical_experts),
+            dtype=torch.int32,
+            device=self.device,
+        )
+        self.expert_load_window_size = self.parallel_config.eplb_config.window_size
+        expert_load_window = torch.zeros(
+            (
+                self.expert_load_window_size,
+                model.num_moe_layers,
+                model.num_physical_experts,
+            ),
+            dtype=torch.int32,
+            device=self.device,
+        )
+
+        # Set the initial progress of rearrangement to 3/4
+        eplb_step_interval = self.parallel_config.eplb_config.step_interval
+        self.expert_rearrangement_step = max(
+            0, eplb_step_interval - eplb_step_interval // 4
+        )
+        self.expert_rearrangement_step_interval = eplb_step_interval
+
+        if global_expert_load is not None:
+            ep_group = get_ep_group().device_group
+            assert global_expert_load.shape == (
+                model.num_moe_layers,
+                model.num_logical_experts,
+            )
+            assert global_expert_load.dtype == torch.int64
+
+            num_replicas = model.num_physical_experts
+            num_groups = model.num_expert_groups
+            num_nodes = get_node_count()
+            num_gpus = ep_group.size()
+
+            if num_gpus % num_nodes != 0:
+                num_nodes = 1
+                logger.warning_once(
+                    f"num_gpus % num_nodes != 0, "
+                    "not using hierarchical rearrangement algorithm.\n"
+                    f"{num_gpus=}, {num_nodes=}"
+                )
+
+            # Get new expert mappings
+            (
+                new_physical_to_logical_map,
+                new_logical_to_physical_map,
+                new_logical_replica_count,
+            ) = rebalance_experts(
+                global_expert_load,
+                num_replicas,
+                num_groups,
+                num_nodes,
+                num_gpus,
+            )
+
+            max_physical_slots = new_logical_to_physical_map.shape[-1]
+            assert max_physical_slots <= logical_to_physical_map.shape[-1]
+            new_logical_to_physical_map = torch.nn.functional.pad(
+                new_logical_to_physical_map,
+                (0, logical_to_physical_map.shape[-1] - max_physical_slots),
+                value=-1,
+            )
+            physical_to_logical_map = new_physical_to_logical_map.to(self.device)
+            logical_to_physical_map.copy_(new_logical_to_physical_map)
+            logical_replica_count.copy_(new_logical_replica_count)
+
+        model.set_eplb_state(
+            expert_load_pass,
+            logical_to_physical_map,
+            logical_replica_count,
+        )
+        if global_expert_load is not None:
+            rearrange_expert_weights_inplace(
+                old_global_expert_indices,
+                new_physical_to_logical_map,
+                model.expert_weights,
+                ep_group,
+                False,
+                rank_mapping,
+            )
+            self.expert_rearrangement_step = 0
+
+        self.model_states[model_config.compute_hash()] = EplbModelState(
+            physical_to_logical_map,
+            logical_to_physical_map,
+            logical_replica_count,
+            expert_load_pass,
+            expert_load_window,
+            model_config.model,
+            model,
+        )
+
+    def step(
+        self,
+        is_dummy: bool = False,
+        is_profile: bool = False,
+        log_stats: bool = False,
+    ) -> None:
+        """
+        Step the EPLB state.
+
+        Args:
+            is_dummy (bool): If `True`, this is a dummy step and the load
+                metrics recorded in this forward pass will not count.
+                Defaults to `False`.
+            is_profile (bool): If `True`, perform a dummy rearrangement
+                with maximum communication cost. This is used in
+                `profile_run` to reserve enough memory
+                for the communication buffer.
+            log_stats (bool): If `True`, log the expert load metrics.
+
+        # Stats
+            The metrics are all summed up across layers.
+            - `avg_tokens`: The average load across ranks.
+            - `max_tokens`: The maximum load across ranks.
+            - `balancedness`: The ratio of average load to maximum load.
+        """
+
+        if is_profile:
+            self.rearrange(is_profile=True)
+            return
+
+        if is_dummy:
+            # Do not record load metrics for dummy steps
+            for eplb_model_state in self.model_states.values():
+                eplb_model_state.expert_load_pass.zero_()
+
+        if log_stats:
+            # Sync the expert load pass for each model (main and drafter).
+            # expert_load_pass: (num_moe_layers, num_physical_experts)
+            expert_load_pass_list = self._sync_load_pass()
+            ep_group = get_ep_group().device_group
+            for expert_load_pass, eplb_model_state in zip(
+                expert_load_pass_list, self.model_states.values()
+            ):
+                # num_tokens_per_rank: (num_moe_layers, num_ranks)
+                num_tokens_per_rank = (
+                    expert_load_pass.reshape(
+                        expert_load_pass.shape[0], ep_group.size(), -1
+                    )
+                    .sum(dim=-1)
+                    .float()
+                )
+
+                # Compute balancedness ratio:
+                # for each layer:
+                #   (mean load across ranks) / (max load across ranks)
+                avg_tokens_tensor = num_tokens_per_rank.mean(dim=0).sum(dim=0)
+                max_tokens_tensor = num_tokens_per_rank.max(dim=0).values.sum(dim=0)
+
+                # Just to make type checker happy
+                tokens_tensors: list[float] = torch.stack(
+                    [avg_tokens_tensor, max_tokens_tensor]
+                ).tolist()
+                avg_tokens, max_tokens = tokens_tensors
+                balancedness = avg_tokens / max_tokens if max_tokens > 0 else 0.0
+
+                if ep_group.rank() == 0:
+                    logger.info(
+                        "EPLB step: %d for model %s: avg_tokens=%.2f, "
+                        "max_tokens=%d, balancedness=%.4f",
+                        self.expert_rearrangement_step,
+                        eplb_model_state.model_name,
+                        avg_tokens,
+                        max_tokens,
+                        balancedness,
+                    )
+
+        # Update the expert load sliding window
+        if not is_dummy:
+            for eplb_model_state in self.model_states.values():
+                eplb_model_state.expert_load_window[self.expert_load_window_step] = (
+                    eplb_model_state.expert_load_pass.clone()
+                )
+                eplb_model_state.expert_load_pass.zero_()
+
+            self.expert_load_window_step += 1
+            if self.expert_load_window_step >= self.expert_load_window_size:
+                self.expert_load_window_step = 0
+
+        # Step the expert rearrangement step
+        # Note that even if this is a dummy step, we still increment the
+        # rearrangement step and perform rearrangement to ensure all ranks are
+        # performing collective communication.
+        self.expert_rearrangement_step += 1
+        if self.expert_rearrangement_step >= self.expert_rearrangement_step_interval:
+            self.expert_rearrangement_step = 0
+            self.rearrange()
+
+    def rearrange(
+        self,
+        is_profile: bool = False,
+        execute_shuffle: bool = True,
+        global_expert_loads: list[torch.Tensor] | None = None,
+        rank_mapping: dict[int, int] | None = None,
+    ) -> torch.Tensor | None:
+        """
+        Rearrange the experts according to the current load.
+
+        Args:
+            is_profile (bool): If `True`, perform a dummy rearrangement.
+                This is used in `profile_run` to reserve enough memory,
+                no memory movement will be performed. Default is False.
+            execute_shuffle (bool): If `True`, execute the shuffle
+                in elastic expert parallel (EEP). Default is True.
+            global_expert_loads (list[torch.Tensor] | None): The global expert
+                loads when scaling is done in EEP.
+                List of expert loads for the main and drafter
+                (when spec decode is used) models.
+            rank_mapping (dict[int, int] | None): The rank mapping
+                when scaling is done in EEP.
+        """
+
+        ep_group = get_ep_group().device_group
+        ep_rank = ep_group.rank()
+
+        time_start = None
+        is_main_rank = ep_rank == 0
+        if is_main_rank:
+            torch.cuda.synchronize()
+            time_start = time.perf_counter()
+            logger.info("Rearranging experts %s...", "(profile)" if is_profile else "")
+
+        if global_expert_loads is None:
+            # Map the physical expert load to global logical experts
+            global_expert_load_windows = []
+            if not execute_shuffle:
+                num_models = torch.tensor(
+                    [len(self.model_states)], dtype=torch.int32, device="cpu"
+                )
+                torch.distributed.broadcast(
+                    num_models, group=get_ep_group().cpu_group, group_src=0
+                )
+
+            for eplb_model_state in self.model_states.values():
+                logical_expert_load_window = torch.zeros(
+                    self.expert_load_window_size,
+                    eplb_model_state.model.num_moe_layers,
+                    eplb_model_state.model.num_logical_experts,
+                    dtype=eplb_model_state.expert_load_window.dtype,
+                    device=eplb_model_state.expert_load_window.device,
+                )
+                logical_expert_load_window.scatter_add_(
+                    dim=-1,
+                    index=eplb_model_state.physical_to_logical_map.unsqueeze(0)
+                    .expand_as(eplb_model_state.expert_load_window)
+                    .long(),
+                    src=eplb_model_state.expert_load_window,
+                )
+
+                if not execute_shuffle:
+                    metadata = torch.tensor(
+                        [
+                            eplb_model_state.model.num_moe_layers,
+                            eplb_model_state.model.num_logical_experts,
+                            eplb_model_state.physical_to_logical_map.shape[1],
+                        ],
+                        dtype=torch.int32,
+                        device="cpu",
+                    )
+                    torch.distributed.broadcast(
+                        metadata, group=get_ep_group().cpu_group, group_src=0
+                    )
+
+                global_expert_load_window = logical_expert_load_window.sum(dim=0)
+                global_expert_load_windows.append(global_expert_load_window)
+            # Perform all-reduce to get the expert load across all ranks for each model
+            global_expert_load_windows = self._allreduce_list(
+                global_expert_load_windows
+            )
+            if not execute_shuffle:
+                for eplb_model_state, global_expert_load_window in zip(
+                    self.model_states.values(), global_expert_load_windows
+                ):
+                    # (num_moe_layers, old_num_physical_experts)
+                    old_global_expert_indices = eplb_model_state.physical_to_logical_map
+                    torch.distributed.broadcast(
+                        old_global_expert_indices, group=ep_group, group_src=0
+                    )
+            if not execute_shuffle:
+                return global_expert_load_windows
+        else:
+            assert execute_shuffle
+            global_expert_load_windows = global_expert_loads
+
+        # TODO(bowen): Treat differently for prefill and decode nodes
+        eplb_model_state = next(iter(self.model_states.values()))
+        model = eplb_model_state.model
+        num_replicas = model.num_physical_experts
+        num_groups = model.num_expert_groups
+        if rank_mapping is not None and len(rank_mapping) == ep_group.size():
+            # NOTE(yongji): scale down, we need to rebalance the experts on
+            # remaining GPUs, transfer the experts while we haven't shutdown
+            # the GPUs to be released.
+            cpu_group = get_ep_group().cpu_group
+            num_nodes = _node_count_with_rank_mapping(cpu_group, rank_mapping)
+            num_gpus = sum(new_rank != -1 for new_rank in rank_mapping.values())
+            num_replicas = (
+                num_replicas // ep_group.size() * num_gpus
+            )  # handle num replicas change
+        else:
+            num_nodes = get_node_count()
+            num_gpus = ep_group.size()
+
+        if num_gpus % num_nodes != 0:
+            self.num_nodes = 1
+            logger.warning_once(
+                f"num_gpus % num_nodes != 0, "
+                "not using hierarchical rearrangement algorithm.\n"
+                f"{num_gpus=}, {num_nodes=}"
+            )
+
+        for eplb_model_state, global_expert_load_window in zip(
+            self.model_states.values(), global_expert_load_windows
+        ):
+            # Get new expert mappings for the model
+            (
+                new_physical_to_logical_map,
+                new_logical_to_physical_map,
+                new_logical_replica_count,
+            ) = rebalance_experts(
+                global_expert_load_window,
+                num_replicas,
+                num_groups,
+                num_nodes,
+                num_gpus,
+            )
+
+            # Update expert weights
+            rearrange_expert_weights_inplace(
+                eplb_model_state.physical_to_logical_map,
+                new_physical_to_logical_map,
+                eplb_model_state.model.expert_weights,
+                ep_group,
+                is_profile,
+                rank_mapping,
+            )
+
+            if not is_profile:
+                if (
+                    eplb_model_state.physical_to_logical_map.shape[1]
+                    != new_physical_to_logical_map.shape[1]
+                ):
+                    eplb_model_state.physical_to_logical_map = (
+                        new_physical_to_logical_map.to(
+                            eplb_model_state.physical_to_logical_map.device
+                        )
+                    )
+                else:
+                    eplb_model_state.physical_to_logical_map.copy_(
+                        new_physical_to_logical_map
+                    )
+                max_physical_slots = new_logical_to_physical_map.shape[-1]
+                assert (
+                    max_physical_slots
+                    <= eplb_model_state.logical_to_physical_map.shape[-1]
+                )
+                new_logical_to_physical_map = torch.nn.functional.pad(
+                    new_logical_to_physical_map,
+                    (
+                        0,
+                        eplb_model_state.logical_to_physical_map.shape[-1]
+                        - max_physical_slots,
+                    ),
+                    value=-1,
+                )
+                eplb_model_state.logical_to_physical_map.copy_(
+                    new_logical_to_physical_map
+                )
+                eplb_model_state.logical_replica_count.copy_(new_logical_replica_count)
+
+        if is_main_rank:
+            assert time_start is not None
+            torch.cuda.synchronize()
+            time_end = time.perf_counter()
+            logger.info(
+                "Rearranged experts%sin %.2f seconds.",
+                " (profile) " if is_profile else " ",
+                time_end - time_start,
+            )
+        return None
+
+    @staticmethod
+    def recv_state() -> tuple[list[torch.Tensor], list[torch.Tensor]]:
+        """
+        Receive the expert load and old placement from the master rank.
+        """
+        ep_group = get_ep_group()
+        num_models = torch.empty(1, dtype=torch.int32, device="cpu")
+        torch.distributed.broadcast(num_models, group=ep_group.cpu_group, group_src=0)
+        num_models = num_models.item()
+        global_expert_loads = []
+        old_global_expert_indices_per_model = []
+        for _ in range(num_models):
+            metadata = torch.empty(3, dtype=torch.int32, device="cpu")
+            torch.distributed.broadcast(metadata, group=ep_group.cpu_group, group_src=0)
+            num_moe_layers, num_logical_experts, num_old_physical_experts = (
+                metadata.tolist()
+            )
+            global_expert_load = torch.zeros(
+                (num_moe_layers, num_logical_experts),
+                dtype=torch.int64,
+                device=ep_group.device,
+            )
+            all_reduce(global_expert_load, group=ep_group.device_group)
+            old_global_expert_indices = torch.empty(
+                (num_moe_layers, num_old_physical_experts),
+                dtype=torch.int64,
+                device=ep_group.device,
+            )
+            torch.distributed.broadcast(
+                old_global_expert_indices,
+                group=ep_group.device_group,
+                group_src=0,
+            )
+            global_expert_loads.append(global_expert_load)
+            old_global_expert_indices_per_model.append(old_global_expert_indices)
+        return global_expert_loads, old_global_expert_indices_per_model
+
+    @classmethod
+    def get_eep_state(
+        cls, parallel_config: ParallelConfig
+    ) -> tuple[
+        list[torch.Tensor] | None,
+        list[torch.Tensor] | None,
+        dict[int, int] | None,
+    ]:
+        num_local_physical_experts = torch.empty(1, dtype=torch.int32, device="cpu")
+        torch.distributed.broadcast(
+            num_local_physical_experts,
+            group=get_ep_group().cpu_group,
+            group_src=0,
+        )
+        num_local_physical_experts = int(num_local_physical_experts.item())
+        new_ep_size = get_ep_group().world_size
+        global_expert_loads, old_global_expert_indices_per_model = (
+            EplbState.recv_state()
+        )
+
+        # EP configuration for all models has to be the same so as eplb config
+        num_logical_experts = global_expert_loads[0].shape[1]
+        parallel_config.eplb_config.num_redundant_experts = (
+            num_local_physical_experts * new_ep_size - num_logical_experts
+        )
+        assert (
+            old_global_expert_indices_per_model[0].shape[1] % num_local_physical_experts
+            == 0
+        )
+        old_ep_size = (
+            old_global_expert_indices_per_model[0].shape[1]
+            // num_local_physical_experts
+        )
+        rank_mapping = {old_ep_rank: old_ep_rank for old_ep_rank in range(old_ep_size)}
+        return (
+            global_expert_loads,
+            old_global_expert_indices_per_model,
+            rank_mapping,
+        )
+
+    def _allreduce_list(self, tensor_list: list[torch.Tensor]) -> list[torch.Tensor]:
+        """
+        All-reduce a list of tensors.
+        """
+        if len(tensor_list) == 1:
+            all_reduce(tensor_list[0], group=get_ep_group().device_group)
+            return tensor_list
+        assert all(t.dim() == 2 for t in tensor_list), "All tensors must be 2D."
+        assert all(t.shape[1] == tensor_list[0].shape[1] for t in tensor_list), (
+            "All tensors must have the same shape[1]."
+        )
+        # Concatenate, all_reduce, then unpack to original shapes.
+        # We assume all tensors are 2D and shape[1] (num_physical_experts)
+        # is the same across all models.
+        shapes = [t.shape for t in tensor_list]
+        concat_tensor = torch.cat(tensor_list, dim=0)
+
+        ep_group = get_ep_group().device_group
+        all_reduce(concat_tensor, group=ep_group)
+
+        all_reduce_list = []
+        offset = 0
+        for shape in shapes:
+            all_reduce_list.append(concat_tensor[offset : offset + shape[0], :])
+            offset += shape[0]
+        return all_reduce_list
+
+    def _sync_load_pass(self) -> list[torch.Tensor]:
+        """
+        Sync the expert load pass across all ranks for log stats.
+        Doesn't update the expert load pass in eplb_model_state.
+        """
+        load_pass_list = []
+        for eplb_model_state in self.model_states.values():
+            load_pass_list.append(eplb_model_state.expert_load_pass.clone())
+        return self._allreduce_list(load_pass_list)
+
+
+def _node_count_with_rank_mapping(
+    pg: ProcessGroup | StatelessProcessGroup,
+    rank_mapping: dict[int, int],
+) -> int:
+    if isinstance(pg, ProcessGroup):
+        world_size = torch.distributed.get_world_size(group=pg)
+    else:
+        world_size = pg.world_size
+
+    if world_size == 1:
+        return 1
+
+    # Build node assignment map
+    node_assignment = [0] * world_size  # rank -> node_id
+    next_node_id = 0
+
+    for current_rank in range(world_size):
+        if node_assignment[current_rank] != 0:
+            continue  # Already assigned to a node
+
+        assert current_rank in rank_mapping
+        if rank_mapping[current_rank] == -1:
+            continue  # Pending shutdown
+
+        # Assign current rank to a new node
+        next_node_id += 1
+        node_assignment[current_rank] = next_node_id
+
+        # Find all ranks on the same node as current_rank
+        same_node_flags = in_the_same_node_as(pg, current_rank)
+        for other_rank, is_same_node in enumerate(same_node_flags):
+            if is_same_node and node_assignment[other_rank] == 0:
+                node_assignment[other_rank] = next_node_id
+
+    return next_node_id
diff --git a/distributed/eplb/rebalance_algo.py b/distributed/eplb/rebalance_algo.py
new file mode 100644
index 0000000..e6645e5
--- /dev/null
+++ b/distributed/eplb/rebalance_algo.py
@@ -0,0 +1,260 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Expert parallelism load balancer (EPLB) for vLLM.
+
+This module implements the core rearrangement algorithm.
+
+The rearrangement algorithm is adapted from
+[DeepSeek EPLB](https://github.com/deepseek-ai/eplb).
+
+Please find at [#12](https://github.com/deepseek-ai/EPLB/issues/12) an example
+on how the EPLB algorithm works.
+"""
+
+import numpy as np
+import torch
+
+
+def balanced_packing(
+    weight: torch.Tensor, num_packs: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Pack n weighted objects to m packs, such that each bin contains exactly
+    n/m objects and the weights of all packs are as balanced as possible.
+
+    Parameters:
+        weight: [X, n], the weight of each item
+        num_packs: number of packs
+
+    Returns:
+        pack_index: [X, n], the pack index of each item
+        rank_in_pack: [X, n], the rank of the item in the pack
+    """
+    num_layers, num_groups = weight.shape
+    assert num_groups % num_packs == 0
+    groups_per_pack = num_groups // num_packs
+
+    device = weight.device
+
+    if groups_per_pack == 1:
+        pack_index = torch.arange(
+            weight.size(-1), dtype=torch.int64, device=device
+        ).expand(weight.shape)
+        rank_in_pack = torch.zeros_like(weight, dtype=torch.int64, device=device)
+        return pack_index, rank_in_pack
+
+    weight_np = weight.cpu().numpy()
+
+    # Sort and get indices in decending order
+    indices_np = np.argsort(-weight_np, axis=-1)
+
+    pack_index_np = np.full((num_layers, num_groups), -1, dtype=np.int64)
+    rank_in_pack_np = np.full((num_layers, num_groups), -1, dtype=np.int64)
+
+    # Run the packing algorithm
+    for i in range(num_layers):
+        pack_weights = [0.0] * num_packs
+        pack_items = [0] * num_packs
+
+        for group in indices_np[i]:
+            # Find a pack with capacity that has the lowest weight
+            pack = min(
+                (j for j in range(num_packs) if pack_items[j] < groups_per_pack),
+                key=pack_weights.__getitem__,
+            )
+
+            assert pack_items[pack] < groups_per_pack
+            pack_index_np[i, group] = pack
+            rank_in_pack_np[i, group] = pack_items[pack]
+            pack_weights[pack] += weight_np[i, group]
+            pack_items[pack] += 1
+
+    pack_index = torch.from_numpy(pack_index_np).to(device)
+    rank_in_pack = torch.from_numpy(rank_in_pack_np).to(device)
+
+    return pack_index, rank_in_pack
+
+
+def replicate_experts(
+    weight: torch.Tensor, num_phy: int
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Replicate `num_log` experts to `num_phy` replicas, such that the maximum
+    load of all replicas is minimized.
+
+    Parameters:
+        weight: [X, num_log]
+        num_phy: total number of experts after replication
+
+    Returns:
+        phy2log: [X, num_phy], logical expert id of each physical expert
+        rank: [X, num_phy], the replica rank
+        logcnt: [X, num_log], number of replicas for each logical expert
+    """
+    n, num_log = weight.shape
+    num_redundant = num_phy - num_log
+    assert num_redundant >= 0
+    device = weight.device
+    phy2log = torch.arange(num_phy, dtype=torch.int64, device=device).repeat(n, 1)
+    rank = torch.zeros(n, num_phy, dtype=torch.int64, device=device)
+    logcnt = torch.ones(n, num_log, dtype=torch.int64, device=device)
+    arangen = torch.arange(n, dtype=torch.int64, device=device)
+    for i in range(num_log, num_phy):
+        redundant_indices = (weight / logcnt).max(dim=-1).indices
+        phy2log[:, i] = redundant_indices
+        rank[:, i] = logcnt[arangen, redundant_indices]
+        logcnt[arangen, redundant_indices] += 1
+    return phy2log, rank, logcnt
+
+
+def rebalance_experts_hierarchical(
+    weight: torch.Tensor,
+    num_physical_experts: int,
+    num_groups: int,
+    num_nodes: int,
+    num_gpus: int,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Parameters:
+        weight: [num_moe_layers, num_logical_experts]
+        num_physical_experts: number of physical experts after replication
+        num_groups: number of expert groups
+        num_nodes: number of server nodes, where the intra-node network
+            (e.g., NVLink) is faster
+        num_gpus: number of GPUs, must be a multiple of `num_nodes`
+
+    Returns:
+        physical_to_logical_map (torch.Tensor):
+            [num_moe_layers, num_physical_experts]
+        logical_to_physical_map (torch.Tensor):
+            [num_moe_layers, num_logical_experts, X]
+        logical_count (torch.Tensor):
+            [num_moe_layers, num_logical_experts]
+    """
+    num_layers, num_logical_experts = weight.shape
+    assert num_logical_experts % num_groups == 0
+    group_size = num_logical_experts // num_groups
+    assert num_groups % num_nodes == 0
+    groups_per_node = num_groups // num_nodes
+    assert num_gpus % num_nodes == 0
+    assert num_physical_experts % num_gpus == 0
+    phy_experts_per_gpu = num_physical_experts // num_gpus
+
+    def inverse(perm: torch.Tensor) -> torch.Tensor:
+        inv = torch.empty_like(perm)
+        inv.scatter_(
+            1,
+            perm,
+            torch.arange(perm.size(1), dtype=torch.int64, device=perm.device).expand(
+                perm.shape
+            ),
+        )
+        return inv
+
+    # Step 1: pack groups to nodes
+    tokens_per_group = weight.unflatten(-1, (num_groups, group_size)).sum(-1)
+    group_pack_index, group_rank_in_pack = balanced_packing(tokens_per_group, num_nodes)
+    log2mlog = (
+        (
+            (group_pack_index * groups_per_node + group_rank_in_pack) * group_size
+        ).unsqueeze(-1)
+        + torch.arange(group_size, dtype=torch.int64, device=group_pack_index.device)
+    ).flatten(-2)
+    mlog2log = inverse(log2mlog)
+
+    # Step 2: construct redundant experts within nodes
+    # [num_layers * num_nodes, num_logical_experts // num_nodes]
+    tokens_per_mlog = weight.gather(-1, mlog2log).view(
+        -1, num_logical_experts // num_nodes
+    )
+    phy2mlog, phyrank, mlogcnt = replicate_experts(
+        tokens_per_mlog, num_physical_experts // num_nodes
+    )
+
+    # Step 3: pack physical_experts to GPUs
+    # [num_layers * num_nodes, num_physical_experts // num_nodes]
+    tokens_per_phy = (tokens_per_mlog / mlogcnt).gather(-1, phy2mlog)
+    pack_index, rank_in_pack = balanced_packing(tokens_per_phy, num_gpus // num_nodes)
+    phy2pphy = pack_index * phy_experts_per_gpu + rank_in_pack
+    pphy2phy = inverse(phy2pphy)
+
+    pphy2mlog = phy2mlog.gather(
+        -1, pphy2phy
+    )  # [num_layers * num_nodes, num_log_per_nodes]
+    pphy2mlog = (
+        pphy2mlog.view(num_layers, num_nodes, -1)
+        + torch.arange(
+            0,
+            num_logical_experts,
+            num_logical_experts // num_nodes,
+            device=group_pack_index.device,
+        ).view(1, -1, 1)
+    ).flatten(-2)
+    pphy2log = mlog2log.gather(-1, pphy2mlog)
+    pphyrank = phyrank.gather(-1, pphy2phy).view(num_layers, -1)
+    logcnt = mlogcnt.view(num_layers, -1).gather(-1, log2mlog)
+    return pphy2log, pphyrank, logcnt
+
+
+def rebalance_experts(
+    weight: torch.Tensor,
+    num_replicas: int,
+    num_groups: int,
+    num_nodes: int,
+    num_gpus: int,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Entry point for expert-parallelism load balancer.
+
+    Parameters:
+        weight: [layers, num_logical_experts], the load statistics for all
+            logical experts
+        num_replicas: number of physical experts, must be a multiple of
+            `num_gpus`
+        num_groups: number of expert groups
+        num_nodes: number of server nodes, where the intra-node network
+            (e.g, NVLink) is faster
+        num_gpus: number of GPUs, must be a multiple of `num_nodes`
+
+    Returns:
+        physical_to_logical_map:
+            [layers, num_replicas], the expert index of each replica
+        logical_to_physical_map:
+            [layers, num_logical_experts, X], the replica indices for each
+            expert
+        expert_count:
+            [layers, num_logical_experts], number of physical
+            replicas for each logical expert
+    """
+    num_layers, num_logical_experts = weight.shape
+    weight = weight.float()
+    if num_groups % num_nodes == 0:
+        # use hierarchical load-balance policy
+        phy2log, phyrank, logcnt = rebalance_experts_hierarchical(
+            weight, num_replicas, num_groups, num_nodes, num_gpus
+        )
+    else:
+        # use global load-balance policy
+        phy2log, phyrank, logcnt = rebalance_experts_hierarchical(
+            weight, num_replicas, 1, 1, num_gpus
+        )
+    num_redundant_experts = num_replicas - num_logical_experts
+    maxlogcnt = num_redundant_experts + 1
+    log2phy: torch.Tensor = torch.full(
+        (num_layers, num_logical_experts, maxlogcnt),
+        -1,
+        dtype=torch.int64,
+        device=logcnt.device,
+    )
+    log2phy.view(num_layers, -1).scatter_(
+        -1,
+        phy2log * maxlogcnt + phyrank,
+        torch.arange(num_replicas, dtype=torch.int64, device=log2phy.device).expand(
+            num_layers, -1
+        ),
+    )
+    return phy2log, log2phy, logcnt
+
+
+__all__ = ["rebalance_experts"]
diff --git a/distributed/eplb/rebalance_execute.py b/distributed/eplb/rebalance_execute.py
new file mode 100644
index 0000000..5c1efba
--- /dev/null
+++ b/distributed/eplb/rebalance_execute.py
@@ -0,0 +1,431 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+The actual execution of the rearrangement.
+
+This involves the exchange of expert weights between GPUs.
+"""
+
+from collections.abc import Iterable, MutableSequence, Sequence
+from functools import partial
+
+import torch
+from torch.distributed import (
+    P2POp,
+    ProcessGroup,
+    all_gather,
+    batch_isend_irecv,
+    get_global_rank,
+)
+
+
+def idx_local_to_global(
+    local_idx: int,
+    local_cnt: int,
+    ep_rank: int,
+) -> int:
+    """
+    Convert a local expert index to a global expert index.
+    """
+    return ep_rank * local_cnt + local_idx
+
+
+def idx_global_to_local(
+    global_idx: int,
+    local_cnt: int,
+    ep_rank: int,
+) -> int:
+    """
+    Convert a global expert index to a local expert index.
+    """
+    return global_idx - ep_rank * local_cnt
+
+
+def global_idx_to_rank(
+    global_idx: int,
+    local_cnt: int,
+) -> int:
+    """
+    Convert a global expert index to a rank index.
+    """
+    return global_idx // local_cnt
+
+
+def get_ep_ranks_with_expert(
+    idx: int,
+    num_local_experts: int,
+    old_indices: Sequence[int],
+    new_indices: Sequence[int],
+) -> tuple[MutableSequence[int], MutableSequence[int]]:
+    """
+    Get the ranks of the experts that need to be exchanged.
+
+    Args:
+        idx: The index of the expert.
+        num_local_experts: The number of local experts.
+        old_indices: The old indices of the experts.
+        new_indices: The new indices of the experts.
+
+    Returns:
+        A tuple of two lists:
+        - The ranks of the experts that need to be sent.
+        - The ranks of the experts that need to be received.
+    """
+    global2rank = partial(
+        global_idx_to_rank,
+        local_cnt=num_local_experts,
+    )
+
+    ranks_to_send: list[int] = []
+    ranks_to_recv: list[int] = []
+
+    for i, e in enumerate(old_indices):
+        if e == idx:
+            rank = global2rank(i)
+            if not ranks_to_send or ranks_to_send[-1] != rank:
+                ranks_to_send.append(rank)
+
+    for i, e in enumerate(new_indices):
+        if e == idx:
+            rank = global2rank(i)
+            if not ranks_to_recv or ranks_to_recv[-1] != rank:
+                ranks_to_recv.append(rank)
+
+    # Remove those ranks that can get this expert locally.
+    ranks_to_send_set = set(ranks_to_send)
+    ranks_to_recv_actual = [
+        rank for rank in ranks_to_recv if rank not in ranks_to_send_set
+    ]
+
+    return ranks_to_send, ranks_to_recv_actual
+
+
+def shuffle_layer(
+    num_local_experts: int,
+    ep_rank: int,
+    old_indices: Sequence[int],
+    new_indices: Sequence[int],
+    expert_weights: Iterable[torch.Tensor],
+    expert_weights_buffer: Sequence[torch.Tensor],
+    ep_group: ProcessGroup,
+) -> None:
+    """
+    Perform expert weights rearrangement of one layer.
+    """
+    local2global = partial(
+        idx_local_to_global,
+        local_cnt=num_local_experts,
+        ep_rank=ep_rank,
+    )
+
+    # 0. Do nothing for experts that did not change.
+    is_unchanged = [
+        old_indices[local2global(i)] == new_indices[local2global(i)]
+        for i in range(num_local_experts)
+    ]
+
+    # 1. Perform weight copy inside the local rank.
+    is_received_locally = is_unchanged[:]
+    for src in range(num_local_experts):
+        src_global = local2global(src)
+        for dst in range(num_local_experts):
+            dst_global = local2global(dst)
+            if is_received_locally[dst]:
+                continue
+            if old_indices[src_global] == -1 or new_indices[dst_global] == -1:
+                continue
+            if old_indices[src_global] == new_indices[dst_global]:
+                is_received_locally[dst] = True
+                for weight, buffer in zip(expert_weights, expert_weights_buffer):
+                    buffer[dst].copy_(weight[src])
+
+    p2p_ops: list[P2POp] = []
+
+    # 2. Initiate sending of weights.
+    experts_send_loc: dict[int, int] = {}
+    for src in range(num_local_experts):
+        expert = old_indices[local2global(src)]
+        if expert == -1:
+            continue
+        if expert in experts_send_loc:
+            continue
+        experts_send_loc[expert] = src
+
+    # We need to sort here to match send/recv
+    for expert, src in sorted(experts_send_loc.items()):
+        ranks_to_send, ranks_to_recv = get_ep_ranks_with_expert(
+            expert,
+            num_local_experts,
+            old_indices,
+            new_indices,
+        )
+
+        # Calculate the ranks to send by this rank
+        num_dst_per_sender = len(ranks_to_recv) // len(ranks_to_send)
+        sender_pos = ranks_to_send.index(ep_rank)
+        recv_begin = sender_pos * num_dst_per_sender
+        recv_end = recv_begin + num_dst_per_sender
+        recv_ranks = ranks_to_recv[recv_begin:recv_end]
+
+        # Tackle remainders
+        remainder_start = len(ranks_to_send) * num_dst_per_sender
+        recver_pos = remainder_start + sender_pos
+        if recver_pos < len(ranks_to_recv):
+            recv_ranks.append(ranks_to_recv[recver_pos])
+
+        for dst in recv_ranks:
+            dst_global = get_global_rank(ep_group, dst)
+            p2p_ops += [
+                P2POp(
+                    torch.distributed.isend,
+                    weight[src],
+                    dst_global,
+                )
+                for weight in expert_weights
+            ]
+
+    # 3. Initiate receiving of weights.
+    experts_recv_loc: dict[int, int] = {}
+    for dst in range(num_local_experts):
+        if is_received_locally[dst]:
+            continue
+        expert = new_indices[local2global(dst)]
+        if expert == -1:
+            continue
+        if expert in experts_recv_loc:
+            continue
+        experts_recv_loc[expert] = dst
+
+    # We need to sort here to match send/recv
+    for expert, dst in sorted(experts_recv_loc.items()):
+        ranks_to_send, ranks_to_recv = get_ep_ranks_with_expert(
+            expert,
+            num_local_experts,
+            old_indices,
+            new_indices,
+        )
+
+        # Calculate the rank to recv by this rank
+        num_dst_per_sender = len(ranks_to_recv) // len(ranks_to_send)
+        recver_pos = ranks_to_recv.index(ep_rank)
+        remainder_start = len(ranks_to_send) * num_dst_per_sender
+        if recver_pos < remainder_start:
+            src = ranks_to_send[recver_pos // num_dst_per_sender]
+        else:
+            src = ranks_to_send[recver_pos - remainder_start]
+
+        src_global = get_global_rank(ep_group, src)
+        p2p_ops += [
+            P2POp(
+                torch.distributed.irecv,
+                weight[dst],
+                src_global,
+            )
+            for weight in expert_weights_buffer
+        ]
+
+    # 4. Execute the P2P operations. The real communication happens here.
+    if p2p_ops:
+        reqs = batch_isend_irecv(p2p_ops)
+        for req in reqs:
+            req.wait()
+
+    # 5. Copy the weights from the buffer back to the original weights.
+    for dst in range(num_local_experts):
+        if is_unchanged[dst]:
+            continue
+        if is_received_locally[dst]:
+            for weight, buffer in zip(expert_weights, expert_weights_buffer):
+                weight[dst].copy_(buffer[dst])
+        else:
+            expert = new_indices[local2global(dst)]
+            if expert == -1:
+                continue
+            src = experts_recv_loc[expert]
+            for weight, buffer in zip(expert_weights, expert_weights_buffer):
+                weight[dst].copy_(buffer[src])
+
+
+def rearrange_expert_weights_inplace(
+    old_global_expert_indices: torch.Tensor,
+    new_global_expert_indices: torch.Tensor,
+    expert_weights: Sequence[Iterable[torch.Tensor]],
+    ep_group: ProcessGroup,
+    is_profile: bool = False,
+    rank_mapping: dict[int, int] | None = None,
+) -> None:
+    """
+    Rearranges the expert weights in place according to the new expert indices.
+
+    The value of the indices arguments are logical indices of the experts,
+    while keys are physical.
+
+    Args:
+        old_global_expert_indices: Shape (num_moe_layers, num_physical_experts).
+        new_global_expert_indices: Shape (num_moe_layers, num_physical_experts).
+        expert_weights: A sequence of shape (num_moe_layers)(weight_count)
+            of tensors of shape (num_local_physical_experts, hidden_size_i).
+            For example, a linear layer may have up and down projection,
+            so weight_count = 2. Each weight's hidden size can be different.
+        ep_group: The device process group for expert parallelism.
+        is_profile (bool): If `True`, do not perform any actual weight copy.
+            This is used during profile run, where we only perform dummy
+            communications to reserve enough memory for the buffers.
+        rank_mapping: A dictionary mapping old rank to new rank.
+    """
+    if rank_mapping is not None:
+        if len(rank_mapping) == ep_group.size():
+            # scale down
+            new_global_expert_indices = _map_new_expert_indices_with_rank_mapping(
+                new_global_expert_indices,
+                rank_mapping,
+            )
+        else:
+            # scale up
+            old_global_expert_indices = _map_old_expert_indices_with_rank_mapping(
+                old_global_expert_indices,
+                rank_mapping,
+                ep_group.size(),
+            )
+
+    assert old_global_expert_indices.shape[1] == new_global_expert_indices.shape[1]
+
+    num_moe_layers, num_physical_experts = old_global_expert_indices.shape
+    assert len(expert_weights) == num_moe_layers
+
+    num_local_physical_experts = next(iter(expert_weights[0])).shape[0]
+    assert new_global_expert_indices.shape == (num_moe_layers, num_physical_experts)
+
+    ep_rank = ep_group.rank()
+    ep_size = ep_group.size()
+    assert num_physical_experts == ep_size * num_local_physical_experts
+
+    # A buffer to hold the expert weights in one layer during the exchange.
+    # NOTE: Currently we assume the same weights across different layers
+    # have the same shape.
+    expert_weights_buffer = [torch.empty_like(w) for w in expert_weights[0]]
+
+    if is_profile:
+        # Maximum send size is to send all local experts to all ranks,
+        # So we use a dummy `all_gather` to reserve enough communication buffer
+        for weight, buffer in zip(expert_weights[0], expert_weights_buffer):
+            # A `/dev/null`-like buffer to avoid real memory allocation
+            dummy_recv_buffer = [buffer for _ in range(ep_size)]
+            # NOTE(bowen): Needed this barrier to avoid OOM during actual
+            # execution. I'm not very sure why this is needed
+            torch.distributed.barrier()
+            all_gather(
+                dummy_recv_buffer,
+                weight,
+                group=ep_group,
+            )
+        return
+
+    old_global_expert_indices_cpu = old_global_expert_indices.cpu()
+    new_global_expert_indices_cpu = new_global_expert_indices.cpu()
+
+    # NOTE(bowen): We need this synchronize to run, but I don't know why.
+    # If you figure out the reason, please let me know -- thank you!
+    torch.cuda.synchronize()
+
+    for layer in range(num_moe_layers):
+        shuffle_layer(
+            num_local_physical_experts,
+            ep_rank,
+            old_global_expert_indices_cpu[layer].tolist(),
+            new_global_expert_indices_cpu[layer].tolist(),
+            expert_weights[layer],
+            expert_weights_buffer,
+            ep_group,
+        )
+
+
+def _map_old_expert_indices_with_rank_mapping(
+    old_global_expert_indices: torch.Tensor,
+    rank_mapping: dict[int, int],
+    new_ep_size: int,
+) -> torch.Tensor:
+    """
+    Map the old global expert indices to the new global expert indices.
+
+    Args:
+        old_global_expert_indices:
+            Shape (num_layers, old_ep_size * num_local_physical_experts).
+        rank_mapping: Mapping from old rank to new rank.
+        new_ep_size: New expert parallelism size.
+
+    Returns:
+        Mapped expert indices with shape
+        (num_layers, new_ep_size * num_local_physical_experts).
+    """
+    num_layers, old_num_physical_experts = old_global_expert_indices.shape
+    assert rank_mapping, "Rank mapping is required"
+
+    # Get sizes from parameters and rank_mapping
+    old_ep_size = len(rank_mapping)
+    num_local_physical_experts = old_num_physical_experts // old_ep_size
+    new_num_physical_experts = new_ep_size * num_local_physical_experts
+
+    # Create mapped tensor with new shape, initialized to -1
+    mapped_expert_indices = torch.full(
+        (num_layers, new_num_physical_experts),
+        fill_value=-1,
+        dtype=old_global_expert_indices.dtype,
+        device=old_global_expert_indices.device,
+    )
+
+    # Handle rank mapping (scale up/down with rank changes)
+    for old_rank in range(old_ep_size):
+        new_rank = rank_mapping.get(old_rank)
+        if new_rank is not None and new_rank >= 0 and new_rank < new_ep_size:
+            # This old rank exists in the new configuration
+            old_start_idx = old_rank * num_local_physical_experts
+            old_end_idx = (old_rank + 1) * num_local_physical_experts
+            new_start_idx = new_rank * num_local_physical_experts
+            new_end_idx = (new_rank + 1) * num_local_physical_experts
+
+            mapped_expert_indices[:, new_start_idx:new_end_idx] = (
+                old_global_expert_indices[:, old_start_idx:old_end_idx]
+            )
+        # If new_rank is None or >= new_ep_size, the experts remain -1
+        # (scale down case)
+
+    return mapped_expert_indices
+
+
+def _map_new_expert_indices_with_rank_mapping(
+    new_global_expert_indices: torch.Tensor,
+    rank_mapping: dict[int, int],
+) -> torch.Tensor:
+    num_layers, new_num_physical_experts = new_global_expert_indices.shape
+    assert rank_mapping, "Rank mapping is required"
+
+    # Get sizes from parameters and rank_mapping
+    old_ep_size = len(rank_mapping)
+    new_ep_size = sum(new_rank != -1 for new_rank in rank_mapping.values())
+    num_local_physical_experts = new_num_physical_experts // new_ep_size
+    old_num_physical_experts = old_ep_size * num_local_physical_experts
+
+    mapped_expert_indices = torch.full(
+        (num_layers, old_num_physical_experts),
+        fill_value=-1,
+        dtype=new_global_expert_indices.dtype,
+        device=new_global_expert_indices.device,
+    )
+
+    for old_rank in range(old_ep_size):
+        new_rank = rank_mapping[old_rank]
+        if new_rank >= 0 and new_rank < new_ep_size:
+            old_start_idx = old_rank * num_local_physical_experts
+            old_end_idx = (old_rank + 1) * num_local_physical_experts
+            new_start_idx = new_rank * num_local_physical_experts
+            new_end_idx = (new_rank + 1) * num_local_physical_experts
+
+            mapped_expert_indices[:, old_start_idx:old_end_idx] = (
+                new_global_expert_indices[:, new_start_idx:new_end_idx]
+            )
+
+    return mapped_expert_indices
+
+
+__all__ = ["rearrange_expert_weights_inplace"]
diff --git a/distributed/kv_events.py b/distributed/kv_events.py
new file mode 100644
index 0000000..7b5cb94
--- /dev/null
+++ b/distributed/kv_events.py
@@ -0,0 +1,371 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import queue
+import threading
+import time
+from abc import ABC, abstractmethod
+from collections import deque
+from collections.abc import Callable
+from dataclasses import asdict
+from itertools import count
+from queue import Queue
+from typing import Any
+
+import msgspec
+import zmq
+
+from vllm.config.kv_events import KVEventsConfig
+from vllm.logger import init_logger
+from vllm.v1.core.kv_cache_utils import ExternalBlockHash
+
+logger = init_logger(__name__)
+
+
+class EventBatch(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    omit_defaults=True,  # type: ignore[call-arg]
+    gc=False,  # type: ignore[call-arg]
+):
+    ts: float
+    events: list[Any]
+    data_parallel_rank: int | None = None
+
+
+class KVCacheEvent(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    omit_defaults=True,  # type: ignore[call-arg]
+    gc=False,  # type: ignore[call-arg]
+    tag=True,
+):
+    """Base class for all KV cache-related events"""
+
+
+MEDIUM_GPU = "GPU"
+
+
+class BlockStored(KVCacheEvent):
+    block_hashes: list[ExternalBlockHash]
+    parent_block_hash: ExternalBlockHash | None
+    token_ids: list[int]
+    block_size: int
+    lora_id: int | None
+    medium: str | None
+
+
+class BlockRemoved(KVCacheEvent):
+    block_hashes: list[ExternalBlockHash]
+    medium: str | None
+
+
+class AllBlocksCleared(KVCacheEvent):
+    pass
+
+
+class KVEventBatch(EventBatch):
+    events: list[BlockStored | BlockRemoved | AllBlocksCleared]
+
+
+class EventPublisher(ABC):
+    """Lightweight publisher for EventBatch batches with data parallelism
+    support.
+
+    In data parallel setups, each DP rank runs its own EventPublisher instance
+    to avoid duplicate events and ensure proper event attribution:
+
+    - Each DP rank creates a separate publisher
+    - Publishers automatically annotate events with their data_parallel_rank
+    - This allows consumers to distinguish events from different DP ranks
+
+    The publisher is responsible for adding DP metadata since the scheduler
+    operates independently of DP topology and shouldn't need DP awareness.
+    """
+
+    def __init__(self, data_parallel_rank: int = 0) -> None:
+        self._data_parallel_rank = data_parallel_rank
+
+    @abstractmethod
+    def publish(self, events: EventBatch) -> None:
+        """Emit events in order.
+
+        Implementations should guarantee at-least-once delivery and
+        monotonic ordering (e.g., via sequence numbers).
+        """
+
+    @abstractmethod
+    def shutdown(self) -> None:
+        """Shutdown the publisher."""
+
+
+class NullEventPublisher(EventPublisher):
+    """No-op implementation (default when disabled)."""
+
+    def publish(self, events) -> None:
+        return
+
+    def shutdown(self) -> None:
+        return
+
+
+class ZmqEventPublisher(EventPublisher):
+    """Reliable PUB/ROUTER publisher with an in-memory replay buffer.
+
+    Spawns a separate thread to handle publishing from a queue.
+
+    Parameters
+    ----------
+    endpoint:
+        PUB address. Use `tcp://*:5557` to bind or `tcp://host:5557` to
+        connect.
+    replay_endpoint:
+        Optional ROUTER address for replay requests. When given, subscribers can
+        request missed batches by sending the starting sequence number as an
+        8-byte big-endian integer.
+    buffer_steps:
+        Number of past batches to keep for replay.
+    hwm:
+        ZeroMQ high-water-mark for PUB socket.
+    max_queue_size:
+        Maximum number of events to buffer in memory.
+    topic:
+        Topic to publish events to.
+    """
+
+    SHUTDOWN_TIMEOUT: float = 1.0
+    END_SEQ = (-1).to_bytes(8, "big", signed=True)
+
+    def __init__(
+        self,
+        data_parallel_rank: int,
+        endpoint: str = "tcp://*:5557",
+        replay_endpoint: str | None = None,
+        buffer_steps: int = 10_000,
+        hwm: int = 100_000,
+        max_queue_size: int = 100_000,
+        topic: str = "",
+    ) -> None:
+        # Storage
+        super().__init__(data_parallel_rank)
+        self._event_queue = Queue[EventBatch | None](maxsize=max_queue_size)
+        self._buffer = deque[tuple[int, bytes]](maxlen=buffer_steps)
+
+        # ZMQ sockets
+        self._ctx = zmq.Context.instance()
+        self._pub: zmq.Socket | None = None
+        self._replay: zmq.Socket | None = None
+        self._dp_rank = data_parallel_rank
+
+        self._endpoint = self.offset_endpoint_port(endpoint, self._dp_rank)
+        self._replay_endpoint = self.offset_endpoint_port(
+            replay_endpoint, self._dp_rank
+        )
+        self._hwm = hwm
+        self._socket_setup()
+
+        # Payload
+        self._seq_gen = count()
+        self._topic_bytes = topic.encode("utf-8")
+
+        # Thread
+        self._running = True
+        logger.info("Starting ZMQ publisher thread")
+
+        self._thread = threading.Thread(
+            target=self._publisher_thread, daemon=True, name="zmq-publisher"
+        )
+        self._thread.start()
+
+    def publish(self, events: EventBatch) -> None:
+        if not self._running:
+            raise RuntimeError("Publisher is closed")
+        if events.data_parallel_rank is None:
+            events.data_parallel_rank = self._data_parallel_rank
+        self._event_queue.put(events)
+
+    def shutdown(self) -> None:
+        """Stop the publisher thread and clean up resources."""
+        self._running = False
+        self._event_queue.put_nowait(None)
+
+        start = time.time()
+        pending_items = True
+        while pending_items and (time.time() - start < self.SHUTDOWN_TIMEOUT):
+            pending_items = not self._event_queue.empty()
+            if pending_items:
+                time.sleep(0.1)
+
+        if pending_items:
+            logger.warning(
+                "Warning: Queue still has %s items after %s seconds timeout",
+                self._event_queue.qsize(),
+                self.SHUTDOWN_TIMEOUT,
+            )
+
+        if self._thread.is_alive():
+            self._thread.join(timeout=self.SHUTDOWN_TIMEOUT)
+
+        # Clean up ZMQ resources
+        try:
+            if self._pub is not None:
+                self._pub.close(linger=0)
+            if self._replay is not None:
+                self._replay.close(linger=0)
+        finally:
+            pass  # Do not terminate context; other sockets may use it
+
+    def _socket_setup(self) -> None:
+        """Initialize sockets
+        https://pyzmq.readthedocs.io/en/v19.0.0/morethanbindings.html#thread-safety
+        """
+        if self._pub is None:
+            self._pub = self._ctx.socket(zmq.PUB)
+            self._pub.set_hwm(self._hwm)
+            # Heuristic: bind if wildcard / * present, else connect.
+            # bind stable, connect volatile convention
+            if self._endpoint is not None and (
+                "*" in self._endpoint
+                or "::" in self._endpoint
+                or self._endpoint.startswith("ipc://")
+                or self._endpoint.startswith("inproc://")
+            ):
+                self._pub.bind(self._endpoint)
+            elif self._endpoint is not None:
+                self._pub.connect(self._endpoint)
+
+        # Set up replay socket: use ROUTER
+        # 1) handles multiple REQ clients (identities)
+        # 2) lets us send back one request → many replies (streamed events)
+        # 3) works in our non‑blocking poll loop alongside PUB
+        if self._replay_endpoint is not None:
+            self._replay = self._ctx.socket(zmq.ROUTER)
+            self._replay.bind(self._replay_endpoint)
+
+    def _publisher_thread(self) -> None:
+        """Background thread that processes the event queue."""
+        self._pack = msgspec.msgpack.Encoder()
+
+        assert self._pub is not None  # narrows type for mypy
+
+        while self._running or self._event_queue.qsize() > 0:
+            # --- replay (non-critical) ---------------------------------
+            if self._replay is not None and self._replay.poll(0):
+                try:
+                    self._service_replay()
+                except Exception as e:
+                    logger.exception("Error in replay: %s", e)
+
+            # --- main queue (critical) ---------------------------------
+            try:
+                event = self._event_queue.get(timeout=0.1)
+                if event is None:
+                    break  # Sentinel received, exit thread
+            except queue.Empty:
+                continue
+
+            try:
+                seq = next(self._seq_gen)
+
+                payload = self._pack.encode(event)
+                seq_bytes = seq.to_bytes(8, "big")
+                self._pub.send_multipart((self._topic_bytes, seq_bytes, payload))
+
+                self._buffer.append((seq, payload))
+                self._event_queue.task_done()
+
+            except Exception as e:
+                # Publishing failed;  back-off a bit to avoid a tight error loop
+                logger.exception("Error in publisher thread: %s", e)
+                time.sleep(0.1)
+
+    def _service_replay(self) -> None:
+        """If a replay request is waiting, send buffered batches."""
+        assert self._replay is not None  # narrows type for mypy
+
+        frame = self._replay.recv_multipart()
+        if len(frame) != 3:
+            logger.warning("Invalid replay request: %s", frame)
+            return
+        client_id, _, start_seq_bytes = frame
+        start_seq = int.from_bytes(start_seq_bytes, "big")
+
+        for seq, buf in self._buffer:
+            if seq >= start_seq:
+                # [identity, empty_delim, seq_bytes, payload]
+                # (identity, empty_delim) are stripped off by the router
+                # receiving payload is (seq_bytes, payload)
+                self._replay.send_multipart(
+                    (client_id, b"", seq.to_bytes(8, "big"), buf)
+                )
+        # Send end of sequence marker
+        # receiving payload is (-1, b""")
+        self._replay.send_multipart((client_id, b"", self.END_SEQ, b""))
+
+    @staticmethod
+    def offset_endpoint_port(
+        endpoint: str | None, data_parallel_rank: int
+    ) -> str | None:
+        """Helper function to offset the port in an endpoint by
+            the data parallel rank.
+
+        Args:
+            endpoint: The endpoint string
+                (e.g., "tcp://*:5557" or "inproc://cache")
+            data_parallel_rank: The data parallel rank to offset by
+
+        Returns:
+            The endpoint with the port offset by data_parallel_rank
+                or suffix appended
+        """
+        # Do nothing if input is None or data_parallel_rank is 0
+        if not endpoint or data_parallel_rank == 0:
+            return endpoint
+
+        if "inproc" in endpoint:
+            return f"{endpoint}_dp{data_parallel_rank}"
+        if "tcp" in endpoint:
+            if endpoint and ":" in endpoint:
+                # Get everything after the last colon (the port)
+                last_colon_idx = endpoint.rfind(":")
+                base_addr = endpoint[:last_colon_idx]
+                base_port = int(endpoint[last_colon_idx + 1 :])
+                new_port = base_port + data_parallel_rank
+                return f"{base_addr}:{new_port}"
+            return endpoint
+        raise ValueError("Invalid endpoint: must contain 'inproc' or 'tcp'")
+
+
+class EventPublisherFactory:
+    _registry: dict[str, Callable[..., EventPublisher]] = {
+        "null": NullEventPublisher,
+        "zmq": ZmqEventPublisher,
+    }
+
+    @classmethod
+    def register_publisher(cls, name: str, ctor: Callable[..., EventPublisher]) -> None:
+        if name in cls._registry:
+            raise KeyError(f"publisher '{name}' already registered")
+        cls._registry[name] = ctor
+
+    @classmethod
+    def create(
+        cls, config: KVEventsConfig | None, data_parallel_rank: int = 0
+    ) -> EventPublisher:
+        """Create publisher from a config mapping."""
+        if (
+            config is None
+            or not config.enable_kv_cache_events
+            or config.publisher == "null"
+        ):
+            return NullEventPublisher()
+
+        config_dict = asdict(config)
+
+        kind = config_dict.pop("publisher")
+        config_dict.pop("enable_kv_cache_events")
+        try:
+            constructor = cls._registry[kind]
+        except KeyError as exc:
+            raise ValueError(f"Unknown event publisher '{kind}'") from exc
+        return constructor(data_parallel_rank=data_parallel_rank, **config_dict)
diff --git a/distributed/kv_transfer/README.md b/distributed/kv_transfer/README.md
new file mode 100644
index 0000000..39377aa
--- /dev/null
+++ b/distributed/kv_transfer/README.md
@@ -0,0 +1,29 @@
+
+# Distributed KV cache transfer
+
+This folder implements distributed KV cache transfer across vLLM instances.
+Currently the main use case is for disaggregated prefilling.
+
+## Abstractions
+
+The KV cache transfer contains three layer of abstractions:
+
+- KV pipe: a FIFO pipe for torch.tensor transmission. Key APIs: `send_tensor` and `recv_tensor`.
+- KV lookup buffer: a lookup buffer for KV caches. Key: the tokens, value: the KV caches (and/or hidden states). Key APIs: `insert` and `drop_select` (similar to SQL semantics).
+- KV connector: a connector that connects the KV pipe and KV lookup buffer to vLLM. Key APIs: `send_kv_caches_and_hidden_states` and `recv_kv_caches_and_hidden_states`.
+
+Why we need KV lookup buffer: FIFO pipe itself is not enough as prefill vLLM worker may process requests in a different order compared to decode vLLM worker. Say the QPS is really high, prefill worker may handle requests in order A -> B -> C, but the decode worker may process request C first. This is not the case that can be naturally handled by FIFO pipe, so we provide KV lookup buffer to help translate a FIFO pipe to a lookup buffer.
+
+NOTE: KV pipe layer is bypassable: you can skip this layer if your distributed
+communication service already supports key-value-based lookup (like redis or
+RDMA database).
+
+NOTE: If you want to not only transfer KV caches, but adjust the model execution flow of vLLM as well (for example, allow vLLM to receive KV caches on some tokens and do prefill on the remaining tokens), you can bypass both KV pipe layer and KV lookup buffer layer, and directly implement on KV connector layer. Bear in mind that as vLLM's model input is constantly changing, this implementation will likely be broken when vLLM has new updates.
+
+## Disaggregated prefilling
+
+The example usage is in [this file](../../../examples/online_serving/disaggregated_prefill.sh).
+
+Here is the diagram of how we run disaggregated prefilling.
+
+![Disaggregated prefill workflow](./disagg_prefill_workflow.jpg)
diff --git a/distributed/kv_transfer/__init__.py b/distributed/kv_transfer/__init__.py
new file mode 100644
index 0000000..2bf4e1f
--- /dev/null
+++ b/distributed/kv_transfer/__init__.py
@@ -0,0 +1,20 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.distributed.kv_transfer.kv_transfer_state import (
+    KVConnectorBaseType,
+    ensure_kv_transfer_initialized,
+    ensure_kv_transfer_shutdown,
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+    is_v1_kv_transfer_group,
+)
+
+__all__ = [
+    "get_kv_transfer_group",
+    "has_kv_transfer_group",
+    "is_v1_kv_transfer_group",
+    "ensure_kv_transfer_initialized",
+    "ensure_kv_transfer_shutdown",
+    "KVConnectorBaseType",
+]
diff --git a/distributed/kv_transfer/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..588f6e60a312a4a76b37182f65e2f279371fd1be
GIT binary patch
literal 506
zcmZvYF-ycS7>1L!*B130l+!_Qw%|25oq{;%s5ps3mrzZ-3zxJZNl)wM><@5v^SAg9
zvO2kmHyk*b9tb_W5Aq~mUcQ$%dGB^tfGZw6vpo-hkEZ!6*UxLZ@3t2}0D&9`m_gxX
zp71kY1X&<DSx1Cf2*D5#?-gcI?I*!!Gnj;S^Zfd(EDCySN_CoRdR0qmcWI$3Me%ro
zjmissM-^rTGc4!qkrKPJMAxIrkn+B;y&*LVlS5Tj()LEVUUI$7G@cy%7m`qgE}@DV
z#0`Q5od&+cWfI$T!nsHZ(?+qI%21NF0=Lgto7~X(T+3$B-$oecoMZe3rp_PyTp%MP
zl1%nZuH2jY57pr4a6F)hvl}F9Gb#(zBtWeMsFeWW`KMu=%G$=qq9hfkCu-f9L$~yn
Y!<P>soW&9JX29WlBU<&IBDLnEUkogk2LJ#7

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/__pycache__/kv_transfer_state.cpython-312.pyc b/distributed/kv_transfer/__pycache__/kv_transfer_state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f40e2e0f3306cc6754b7f76416865bd251ba08f0
GIT binary patch
literal 2680
zcma)7L2nyH6rQoyyK6g6;y7+g1I|L*xNaM}X-gZbDkwy0Nh6$+x<Ob-tBrT;Y`WgH
zX4ff>iWE=}NL)A|l_MuaRDM8z00$&4Hm#Isl}eQ;2W~E|REZOBc5TO40XnOlc{A_L
zdvD%*^UW`jNC-jGxv#W8MTCB1lTH)bMC&IY?xR~sMJm=&8Rv1?m-k^d_v!vJm*-sC
zuLsI}o_A?Z7s_H@EC=&Jj0mO!AREv_<#0ai@_Bur9LYz37L-B4slp~$BSWfq1#GE7
z!WDgL=pL6J2099K80ZmoR2}HZy6c=8xfjUCf(ST+>X152d}{PHSA!}Pd36N1qiS4@
z!R~lXNFDlv9Vz8=BDs%m%*%7{&(AF`WUo2mQpMIxL(x;%i7l?onTA0Mwn^VpERw5L
z2rQ5EEMHX^vj%#4SDCQ9GUW{QNG_W?+Z<Za^)hHJY9*LOKtL(15pN;u#N@>ld2T72
zouA7sEz7gl=Ce76r^K#Oqre>QG#?Ot_**BTyN~S7I@%JhLuwwh=U?D`&P_ONc5_zM
zETvSUq@>tHl@?c|0&_sJsbW|~LZymA6<sH~RHA0JB59Unn6{)Dnyo3iwn@}&Ov9jl
z8?~5`ziwshawSvIDwDQCOT?c1w0h~C>D!k`M%Pv|m72X~8kr3^bOtQjR9mfr-OTL`
zxnr@HmMt6HN>^%598}3YQnKp~9RZUu_$>*#EwmR-)WfHm$QR&u#l@B%Mwq|g(ZG0}
zOVD8uIyh`hPjA>%RK+*ZHqO#P;Lst~vE4KZofBVEtOJ~h1MevORs=fNneS9EU*}G_
zd!1mRQ#}O?5}n2Y;pT1{i2LX++T!=K^ckDu8n&5)+wLNp?Qq)zmUn0@m&zxgbZ(6l
zZcAEGvLS~onH`HPacpg4YJV*qlAtYk!jP<LnHZ2-OUjxCIU{MdbVt*53CaO<vdtyk
zTvhac=nc6#W@*W~>{3i)*XU&_*YAdHdiv7L?!VaSDq_kGu$lIZW=)&y8_lhO<Hf2`
zVAs`i+%P9~(<ng^uM){1M1=xZiZ;yKk?0Lj*XSxKm}TNcOC?36s@q<muBQBMr8^<b
z(hR6fqd+J_!W5>5V6a$HC9gsbYnHq*bwG_U2ud*F3Fx*^^9T~7b>Ya~X!6V8Q(+j$
z-J#KE;rQ3u<2TPg3SX#m7rf#LvpXY0XaOl`5H>qQa2?#s+F50IU1(PXkO&3fcPs0A
zAXsIsv(>)Fs_S6RdathbE}Gu2zOAI)c?i%tJQ4j3D%E{L*!ucFKNq39_($J^c3msJ
z8u(GeDgWk0Hx&zAg!x}k^3sz{`5oSikHb+wS2_kJQ-U+n3ma_#mY?3`Zax{5Q64&H
zxIhVj4-2jb`IH^e;XhhhUYuV}`6#>Ut__RDNor?4K@6)(NuTyETGC@6dmer(2OSi^
z2ohsE!ik1(qApDCii1ra1xI(piH10_BhLIP&g=np4J4l>&h8{;8;RN7SYj_K?L?D}
zXma=U(=P;WJk$`!ngJ9!+4Q5}yZ?c5Ghnh8<vu^W4>aptfB~U)>pUCmT~<&HJ~|34
zI6DiIBU)=!TQ%<({rEU`Kn%LFtnjbHZ;eB@g`NpV>%zpIIJP4mZ-~bqixazvx4Z+1
zNe^?|HdzH_Q->Vhu2nRnM47{sL7|gocO%{No}_zn%jj+n)2r|lQ+6+$saM}r^j>wZ
zF3!CAzKtmtAH2eGFL2tcKkot`bv12FxgN4tSJn(bC$L5+yEtByhh$kX;LTMSuvxO~
zzIhI}YMMG_FAimp;+7R<q3zFwc%^KrRh`Vx3~(7lS>Hg{^ka-)@(7=<qf@`5>=Sh3
zrO%Ij&qIidKH(;waMMrEU96*6J$~|s3ypZ@5xUsqIXqq;Ki5JqHU}|2{jJ?XFgzDW
z@Z0s|<%hXOa<++J@^h}mhUOXc0sas__mASxZuE_&JD#0>INmtB;7*<ff~^2BU!*yF
H%+2=S!?mpT

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/disagg_prefill_workflow.jpg b/distributed/kv_transfer/disagg_prefill_workflow.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..a25ec5ef52491a0e3faf596669e6cf0e7c7ae175
GIT binary patch
literal 142656
zcmeFZ2Ut_v)-D`+C(=7XKv5|{1nERTnuv%<kroA%5^2%`1VRyzE+C+wAWcBJ^dh~e
zNUw&P07@r8z(7Lyv(Gu-Ip^DZ|IfYm-19&GEnmpwSy^+HIp$nr&N1Hcj&(Y7x&%0L
zL)SnTKtVwPcuxKUoX!HY0aTQfzkSIcYVwzco`!~+nud{%j+UO8k(rr^k%@_gmHiA0
zD;p~l(;4nFY#f|iTwKgR9$s!vUUp6{&fhLVK}9}?nudXfhJllXiG}lj_;cC;V56s2
zq7kQ}5Cu@OQBbi_ob~`f000FIxwXGF_-`KyN^%=%>F604naBs!odHl%P*G7*Q~lOz
z^3lQMdH^*W4g1;4nzS4y59ma_IOW2UbLqvjsyn&vjAF&F*gpwpVC3fE<>NnhUgE;V
zOY#a=6_u1#w6E*v>ggNYFuiMLZee-P%E9sBBPVAUS8pF*KYw^YV8qkNsOV=gu_>u9
z($X_tzRJwYFDQIhR9y1@Lrra6eM4hYb60myZ(skX&tJyICnl$+XTG7(nB|q#??2Yo
zH*kAD_YV$#;g61glZygC^;fa}F4^zoVk65%Nli^fP4}Bz6qNqtLd8Z+bM`VVyQT@<
z11}CyxiET8t>oP5P6n|ncd%UcPevKJ#pTiGaKDN67s>wn1PlL{B>THy|Bwp>V5XuV
z4;~d800JQVIy8pjdvhX?hv%IakF{9>D^Ppw-&9FPPD_g?F`0^_=iPRt*BI&(YHM#(
zy5+k`a{{uQXAN}#=TTS3M*o$HFhd<qfXV+R<>kLa;(uf3{qa&EmrenluI(%9t<t9e
z`-hdJ45*3WDS)Q*6p;E3+i((--hONwtOE#nAM$x|4+fz<1#I0MZQqaLKd{=X{KH7o
zaGG5EmkXDv`I~K@*%$}6in!-qnZ2>gcT?n%4HxEe+b3BuFNLJJh5|B+h^GMX$uZ|Y
zwkSqNZGOCZj~w1R1uW+3{eA12kkEgf@b~`u-?o>yxCR$WJcLgH^(8C71MQChUrr0<
z@2)vNiS57EO#WlzHl3c1clM)_QvhV(6c7?A{Etn5kI#Rd@YnA8Kc<(AyxvRZoiv4b
z96MfI_^+Y<zx?^W+w8Wwd-!2?&W0g5U%HE8AylzAFZNo9B(l@>6!4$cHa#MDCFxdH
z*W%%Mt5d+b?*S*paS1^J`MHcJa0;ltqI(J$<AqJazO*~;9x42jVN(v^G|~B&%k638
z3ef))U^D1MzHNUQWCy%gF62+T_6vFNb;`Gr7}!n1oB}Qd(@dntUMP^wi@gB&ca`^<
zImE!EU(-jE%_ZddvA_5f5R7~Su>N;l|DUcyc@Z+LgP*A5%-PH%x>^A)<i-A5%OwHG
z5wGYepn`?C;Tkne(xq?Tj6kZ~_mMZz5rJ^EFV!LUd=|LL11UFs3NWlJ&L=ThoB||_
z&>jR1Y2<$MaV+5E?n!F<%2Wu;DPZPRK60H|VWVyp`oW)=Io#P!;E?w?IUDuSJe2W5
z-oIQfz}oldTFA|OR8x*zo&x>iIWkWq{}u^qKmHC=nI@?}I0bki(=@_2$kyx~-hVb{
zEn<m&_;n04s!avU^AvFrEeYm=*-58tD6yXc%&xNa+<*4v8}ibv_vP!KgzL7=_WZXW
zRJscDoD?9PwoPx0$h4XiThF=nNsIPbVlsbRy>pRq>`XpI+>^kIyG9IeY(TXQajig1
zC2$?d9U=%0-yaOby3||kyeh3Ia&EZE+t1mUz-PFvdTV^KN?~8OkF>s-_-1nzA_zxf
zklTi(aBZDwl5l%Bglb)7LS-S}`@L)ZFaL}-U9=#Z9)*V8_K$Pb@swBMuX^+(G0r3O
zPg);hYmdL@zJos@ba)Mv-kZ5Ks<34U@BhMDz&Y@E06bVL7p`bp1+v?AoAvY$bjUQ<
zHEt~o$!oigFF`vO;a_1}4n44gy}zQ=D9&ejmu^(g%o+Zev+6npNEg3(SwHopx9SNk
z9TgX}&yHpk>EID_3Sd%z0@M%F&`3_07u>@dyOr@_&Pu=LfkTt#S^E^-?bhX8fF567
zr}vg<p{Krx@QXHUq|g5Ftx4P|V4GoCvU27ZruG!T=JRR#Hg-30iS+g32ytIG&OG)i
z4EAy|>A0TeX@OTt(?%V%A5yc^f`)vf4VtM70BeY?E0!*omfzrUA{gx{W{E#&(y&ar
z9PbsDB74h_X1IFNP>>>Z+W;y_492a11Y7B_{$0YtZH^Hbzg!nz-*aUIM<W?d9z|^t
z%A!?<*OY=ZB0iNRZ1%McX17Jd#R1-3#lob}JA6y+LJ-$vtOq7K8X?USeXGVny;Tvl
zQ+SvUJTxks_Coc_j6F4YCBEWrLy_92e~=RsBI^M_sNfW1MeA)fYlE*Y-?sLa>CGC5
zZ?s(!q)Kd5547mGg9yYM<M@XUpEcr=;!JN$wLZ8!y8qJr%Q0H4rZ&F3tW?}YC1H%)
zy~jc6;F#$ezM!4AeJSU7`dRh^ncPzVecE<<ZdkmnHkBTjmzTN%-LJ=Getwy#Owd8N
zOt;b%!cpMxz>r+@pw<_4UHP%rJ2g;wW-3HgUGu}k6u+H~%eEG=5Z8oDi-*t_`~bTA
z@<H5%yoB+atr=Tmbczg2{bDq3WrZ<I!r2F_IaC^#5f;&h2<+7)G$@=uv3O*SJN+>8
zdw%)1*?R_rI<uF#NZEd(C6%A5888k?=iWv`c6L+{CTKU^V|6`qVcYGK9_7nfuPV_2
zlpLRL-=YxVn5K-A3_HA)6yj?u+=VZC;a<M{x{uXw=i1CL;!&lPJMn!D@PQ?X?G%u#
zr*#Ub3T`LGTHz~~c_N9@1*8#S@Kn1ql65n4IJ}O*%>i5VY}>KPO;JDQ_HLqyJ38-q
z(-5XeLZZmPDxOe^dOiAK@5{AcTzeAR;AOmqFp&*!i-uCcGi<W7akq**-hpG}VXqW~
z3<=7fdjbJxc2l$%izPqZzP4?1t~Hwh@3IV}-9*wN#BgHz)2!7r^$o1K1+GZPNvVgb
z60lSy$&Vox76P7{%kMxJYzPyQg7-PH={V)&PFBS>B$t!8;le*K{oA9<#&nCD7WHjs
zko4bdT$_UnyL+aqr9!37PJ}-j7Lks32PA%PC?kT4LI#m_JfS}G%mzhp$vzdqY>=UW
zgny#s?43uUJBWlqKF7@zEmq?@9l@rx+Y*9-V`c6G&&%|RxqeDS`(`EagiJs<5MCFu
zp+KVgsBXjqwmH!h-1IijEzZ~OX7pL1D>u695J%V(5<l@F_Nm=fd}$t0AE%g9H#l9r
z$#0%i62O0_TH~gl5rA!5hvDag4;J#4G9iiY)7P%-zb(BKem68w(4sSkTg`1b!TXR2
zd%mPhC%6DV2IO#=vbVM46U}@SwWE*DbiB{IdpF^=FmL)6Yy%u|3aD9()&MR*Hx3*4
z6B{re&AF1yrt4r0*+KQpL$?@a`FH)#-UZ0fDHYyV*ZTeP{6D(97NYzjA|gh{EQW;D
z(%LvlGud=F{x2iW*&5^DvETC|XRdqXLa$C~=e)Qg`tmsZx~uZ{mmqx_aVNpR=?o$b
zeh}Q30PeL&S!XB^;^?tJvFF+FwW2*PYF<2N;qutYL+L=F3xCTnCnl%fBK9C*T!^Ye
z<+_zn^P4V-2^lZ>?QqX~V)QMcYg?Bxw!o(V(f*!O0O11vBI!k@AKN;l)}rrX2n|93
z$)#QJu6DEd-pon5VFaM(XMs)wjYmt1Qom9^*Sc5xEB^Y+jZ{!2WTz%%W$rs!6-Y^^
zfWlFW(fU&WZkLCUe{^S!E)oW<qZmQD4l1H)rb0`Kp!d2(VW$9?c=^}ruQ;s--$q-b
zDH?n?Xnc{i(S4uVopzrdXT;4Kkx(sB`sHQ&)!-M?rut|tTE_mcrbNy+#r=X7gCGzB
zSOQ->48?aGGe0rFBv5rNfN<QgXZv3r4j9J8+&<gS{6&aX_Q}b$L0f#oawF22FzaS*
zsDos}Yj>pJ+a4uq-F5Y^G7u^g$2E$>t~mOC(nvGcYC3>+L4+VZyOC{dI7GT(kwL|}
zIV$yDS)23I0rs{Iyg+peU&oM&g>7y2HKlbs6N1Dk;Bys`{J+}Th-^4IZ}yX<;X0&q
zA+v$NNcV#iZ@p0otWodaoQm{MEA_F$Ifu_qc3M|Y0a@-$6!A+FvnDy#ALN2pB@Z}r
z`Klu&)Ri`&0^rd7#czs-#dwE&Jk75BDS#G!<i6z#Wcj!`;Kqr&^ub0~T&lCpS114w
zf5>OYhlhdsA*hDsUy%rtQdbVV@YJ$#bMuJXjvZ&~i>~!E{&#qF^Sv%dL_Oex_-EX2
zI$Se<)Iptd^Ul`&PJNMM`!*1M8UqAwf<R(;GYrg_#~9nvWe2K#;jF=3)7nG`?taeZ
zo-OrhR9y4gQIuu9fjU_L^73}xIM(hGJ{WDw)Mw??CFI@x;pXFmSxJI?b<0B4fFOra
zl(F1J3JS}r%PI7|+)QsEok#)VE&Mi)s?Scm0hiVgP2@l)vD-L%!mVa?qdc~`8mPRD
zd?j|p9zE(aO;n<4Hzb?HLWsLq@K(#R2N%3q2&jkKdFAHo<=QMKUtg^&NN>P?Wyh^G
zdv2d=8B#^pc?w{hQS5<mYCcp8oJztBI_TGCZKrZtKkTA*l&%{Z3wcD-?0s($xO1-g
z6cFx2)J$=)a{(TXfW^4gph|){_b(o>ZGr^b6!9$`r+^Ph;Y9BOyH2`i2Uqe=-l4aX
zN83jEYiG2s#-{|bs#=V*U%1E18k!8{B8@NZJwURwwUK>@QA4QfAgS5-SJKatAm)dh
zCi)L_IB!$@u2A1WR>a{-T>ok?*ZwJ@dFMmg2L16^u&xebkf6SR?8?P|#-*a`OFU__
zJY;d%&k5aCRj=)R`}{%DUGevqLuhG7EQM!r-u>)|%lHQv5AJ?@1)k9@@sHLP&wFY(
z`DWYc+=D$``@11LkRD(Zi5+({z104AC&}r(!u!wP>2G4i3#snA&$g4F@+)CbF?f*i
zN3tF52u)n%RB%vg$L&E~&9OtQB2`+WvzHuGxL)vV#>*{vrS1=JEuR9;Z(~bIz0zW*
z0R7x|Be5EC_;JNZ4Gp3)-m_W7RvR+_BScRmeAcZa$OA7>sz--xza(_??b^MIYf1}r
z#I!l!$pa`cOHe0U=BhSieNx_BUqen65xP?Oe(rAlAee#s!Tj)nZpC9ty!Y)<iPSCV
z`lAQM)&+Z7dle?0X5%!vUfH!dwHe!%?Gy-?B@bp4Jcz{3w8&<YcWcn+zV!vGyD^SR
zx}T-`0ox$3)zR$ID+sUvdkW}j{H5mv>`8!i^M8$t)Pw~|8FHrN?DVVjJ%QgI{4}i4
zreUL)prCGzkyxy2!RP10^={eU(ipfe@zaud`FoSxneO*t77w4ehr~2*KeB67DzyAY
z+DJcU^p+unw^b%hwaMW1usPZ%AL>B72t9oIaa7a0{z_Yy5YUJ@$ysWj0DJQO!==72
zHw)4S1f5b7bw!-2h_v`z3`iJp2S1y)sd(AA2o8lt7>{8RY2tgCwC+X7@;%WXvR2q0
z5RhBBC^o@}pFMO)0Y)6RZ=0xrgG*6(CsXUE1fOm7uj@1~D!2+do$PtsJq?yiD$iq8
z5fFSOb_&8pygnWx0bAtob^g&3-4p1S_TE7F#m?ZWbWHq_mb`#hsAj+VMww(z0q6IG
ziHB(~f@1NNJvrPVBKWLBBp!?oiksK&wv)r{RI~|A97x8QhaalKiJkIa5@|n+-@Rol
z79f_bS4&hrc^)D}l)$;?V89HTrEAA87}uXTOjZc1>v@VPUif<brG)1a^AhG=chfdZ
z05X4PQPXI>b7{J-ow-fG8B(9|Of6^`9CLotc9iU~Y-*0k^X?Qj)K!O5H4ODUG`w*%
zXXvBmgQ+E*L1<2EFmL7vl7tsGc(TuqX@J(T8zfN9Z5A(2X~$TLy>rh68?}mgazz>*
zqGx1+{h5u#ioV=nr%=MQiXDRSg&5;_B;{kG5vFBk_aLT@sgd7#N#DZpiQ6?UfRO4z
zCHN%!6!376V;R(K%u2k8k0{$jE%t!fyE4D39JH0Iw>IC-0CM`}TDwx)=2NrHFjLq7
zJE5_eIh_#v`TBB90@tW-X|V1N>WfPT+~8r8C9&&rxS65sFdvn&AlVUm8)CgZUsr#;
z9P1Y11+VN5VHiPBU2Rz!1Y=qd?lla>y_nJj;9YiCp7*o!=ggttfmE3=za_dKVj`qS
zIP`9g4Yn_-#MWBj&HU;MMGk8N0Wlr1zOqkdO}ygq!tfH;4wq3K&ZytR8C)zm#CSI3
zG%d+jLEGsRAVv*6=xl!@tHOUF?>Q)T5o^_cq~gJZoOwlFzze4*O#c6g5^yRk9#PGo
z0;aFrn`*~x0ts=%Qa#&Kz;pG*6K{n#<hBV{odO!$zvO88p3959$o$V3gk*on1%$-3
z+5_BAG%)@#|ELd=(Wuy<n4wVeB8SyyM*4}1bN;eJ`W?j5nc{a8c2_mnU^&=n35-+L
zL$Y_XOB4mogg`SFT?l$8#BfuCfZwlqyu}BTYr^Mn%S(wLmw|k6Rg6TKud1|ae+Z|`
z9eRapT>~a{8NzO@Uqe5vP@07*Ni2%J84uwkuY{dA$u7GK_-f$@^fpfy55!|!P4Vs5
zU%DFvDz~rWmj$%WFutYBF7Q9rh?NoR((6!dkAZR_pcrH<x7DMP0);H+Y`!tBwvlvm
z_xAQT4I-2Qx0Lx%Jbe3eCz%MEW#gz2imc8yxyI@#soJ>o+L7J+F9yVqodG&R9T(bL
zZ_`UW*A#x5V^v{|(F=WmPeZ>Obyp~dX+^FYSpCp!B}jLoylX-jP(fiwqn;Y(CkZ5h
zVGmplhNf%rjdf=mMf-%BGCJl(vY=gXM>ggRklEqrcGdEDxa0;jE)W@`kQ8Niew--m
zmfG_xUC!Flz+Y99^N!ND?>uJqS81hWl`qlp4H{vm(Us9{Y<QLaZegA({*Yvs#<HNe
zmKMR*#2*=cYUvV?G@pINVnO4M#b_AT9}S9B12Jc1-Kb9FThZ=GWotGc<{L;??lZQ+
zZSx#@<DgNGA<iDGF2DG_@z8!<vH@|;;!WE2u8hb<l`k!~Cg)7FDHo-#Eje-Rf8?}b
zl~_uO@E{2hg|Nnvb>?9Q(jfi%>L!>Im@P%AtA0v^T~1}m9JsB69k#^xVkLTofg@Iv
z3T_4>mi&9#g4z#zo(O%V5L?woeY_K^)@L#zRWR-&Bsb*N=Jv7dcH4Mz)9s6$`=2U#
zaK8Q9bPn(F;r%zs%DfB$LJdU5SKAvi2e)${L?&X`g&vwMD=9zDenZz{at$Q=jnuCg
zXuP$I22!stoVPaShZ~#nlTs_nbjmSp>^0ka!x{!GwUu_nef9Qm-(eJ;$yDtCloRjW
zfx4Q(`N>yEci6P4F&!S|U*4*E%|b%33BZhnS32dzJ;UVyiDJ_}i>UElB>N+nF<#FX
z%slISxbY#?>qkL#3wxF)4`aZPH>wut0*tiE==A_t^`h6&wK%`%_g1h>q2BHnG45|)
z$ljx05xaQbYs=FsVx!i?EBhWngDBpNe~A6O-+m@bwVi#F$KUGRM{j%UFWDOy-GHk#
z0DX$^MB2-}0sdhj!bI<r*ZVODp`{=oBm76_?O`$JG1rE%8C#dp7S(5k05;LHB9sNy
zpMLdEyfE<+X2JbH^CY%iL7c(vMpsn$K=6j;2j!|J6B3cDQJ>Qp;#Bq09#L1Yj;X9T
z@m2=p#nO@|IFbK^;{6l)Y5jMvZG@)z{|)Ke+eJapZl{3Wq^R!$+UWvFPM5&Qch&jE
zUS|`<Tf!guE_AS;3GG;(`luTV*xUU!jCL=?)}V=1_*iShN?w>%+CoF6t!0h8-2B|l
zAuVpe_T3AOeR8Zym0Wm#?CfDY{<8Nn6Nqsg!dfRSV2KmXE!VzUiG)iqd0kN{rJuOa
zwVW6*e7>zE?@h164{!pMIph-2^CU~48&%g3S*8|(DlGqz>foz1-r6XWt|KsSxRMu-
zn>Z|0F)t_F32ytMy2y%<jO`xO$=3JS9VoL7wa;&2dL1-9^1{TkdgU0{HE3;oQb=@K
zo{g#vrm`H7Kap9ueD=ywRqNpS)!EQS-_AMjVXh%~(4oZ`i4SoO{|22y|MeHof()!_
zvhwAnF2^{>+maN?oDOf5`@SFa2F;UI3bf=DegKSy(5kVZZSTDeHr5$^yia&n{{+Wp
zA88VM8IbnnH9HLghx1Z<gmkY28ZIfzdsS*L!Ae4gE2MHBH9xiOZ)0EosoRrwwnJ$)
zTo!&zYAk7EcWwajN{5KIHsoNRTf4A3SNDiRYmR`TpL#0hcIP7A%=Ej;(51maXu2Mt
z5W;Ib<RZe%2&A9dJ@w=pKBzlTXd;7w>IQu}#)TI!WcG{#-ghP8t@)2G<A^}AFMxD5
zj@M9}up1x<^d>z#$$tLT>i$^^R!7^n;04}JNMw*Nrwxz}pNsYH<A?TsB1sX!IX6;!
z_FVGyCw<iY48&?D+$Pc!(yxCuxSKrTCc>PY7}OqloYAv=2ez5>OvN~AU%;)pJS{3N
zKw%CY=5hI5a+)c%8|pn!J9UUINQZ|H1NuNlr^=B_q=@BN>42?lTkl?#s2bPD-(5I0
zm1z`Lbp;aj$j<#&IL{#rcRr2)!snpv3Vn;-wZCV%*{#s}^>D+fF~EMVmqL(>ZdK{?
zCe+YGrw37uV_M4S@rZ#|XGFJhc)we>@=x-CR(+T$Kis?*nTra&K|zr%+e97K0+AJ*
z9#>(RDh$q>v4L@Wxg6I%7n?_ED!vgkW&8QQjdqnzNohUyqYf2Wt)Bl`n4isn)C}$`
zEG{?&*zzpj8Tq}}^OxVyt07Z4H4SlXQm)6W?Mo~-`VFS@t3F~$MGE_o+(uVd>Fo=|
z*m2eN`AKa7l?7`>Rl*K94)pcR=&kiKgfjN4A6C^_OmBS5{Bl>8!`+*&**PiJV4qu=
z-jOCq6j(?!0_^k_A=OkfDnIKc$5)}iv@55Nj<Gj)d&|-zA^~8Yp4d0>0?8ws@%L~Z
zJy6aNPQ-O=WKrZp958af<z*d{y44PRYp}QHyt27^tZlM?8-ob8X;@(vad}ch!v@|p
zs)o#iQ}%ZY2o5Vo@9eC!uySspJ|G&U<A2n{W}Neu5W8gcc4~r#k~HuE%X*O<J<SXG
z#d=rYT=ok)?*kX74vS$MxvI=(;}~%parY!+*B2a~!$bn%uLf!IJSA!uxth+o-r<cO
z>8c4B6ME(?*4k2?XrMMdx^LpgEjUaVTTXl;x$40}R>^(>1V7M6_Q+YJiI*{zRPfY0
z!FEiLGj@h9GO4~Y*CQ_Qem=t_?Dg{uEkIfNK%LXZDJ*2Tol?zsNyq`SI-KY$q-x_K
z0M&+%uYVbpbZ>b0My=+{rIrs8Uk%KdJ#W#{g(85s*(KJLY<g^3QY6A_DeIz;PtZ2Z
zB=gJO*nHNLUfH|%(M+;)P2zrnjK@!6Wh8~gaHUHg&q5Rsir7ljK{-U5Y+VdA`o>9{
z8poh|!O8lLs3UJGCpw5CU}>526hN^7spT%g1Pg<Cok?^f`%HIE0jLZsx0PRtJg0z*
z3@c}Eiwacr2MnnMTGWl|bR0E>@FMQw&n>reZ$O#K)f6!v4ERzLH>+jMsS3xMtXr+V
zC!5`(;bkcrmL+`DOU&leoyczsrvS}yVo)hjccPrAvkV3aHP59}q)ajS>gsRbpC6iF
zJq29m6DKhK3cSz=0wb>Ay$RP4V%Wik?gaK<oekMMRf}$g@aCf;*np%>gfPLlMeMCO
z&0_7+!%#sK-jHx%e!cyJMkzL^Z`$vJaq(yPU_cRvXpfzVxLjxl;>(xvh9ch2m4$0X
zp4C5xpDv#is(}mE+qkobJDM?8)OE%@^H7^ym=7a$3hL61OKb@m>S8bFl?v5*w;k6S
zg+P4G2V}1>zXtY<js6BI-1$R@u=p`K+<8Ba)TsEg<o!QlW$R%hWQ#wPXilE!CdrW1
zINX}lGXOo2Y0FE(OGAlo6eHWWZq|`K?#+!0R0pPqx5(_Ddw4}MBj{1WDWE`h`u%j;
zANfE3Q=z@wic`QR;ayTw<`DVDNtVbt=&F^<E-`H96tMZ~{gjn{$`I|(6@h%yu%sKo
z)N-*kC-IOU80c8i7CCqZVJE#{F4wt7>I416f!Fm8WlsS)F~}Q$Ki}sFU+lHx#>4Uk
zO7S(lS2YC3#R$_@g>#<ggDLFgjPEO}mwpd6Br#H<lh~k!53m^>Bt`s3Zvi*O%v;%0
znXWm96^~3BvR7q;_+6k6Ko+CWvkg7NsD|Dz*0-?WFa#BYvPs1z`{EqMj`Za7oF3EM
zu~UF+OD~Hz?n+0!^vM8})!+gsPG8bYD}T*cPNO-m&EOR96nXge6p+`11`^L@k^6w`
zQPGp*PnxFy9q%p>-jLk?!bJyxZz8fKrY0;tL$FDt3DCZU+FA0cHAvhB1PwYVhOAY<
zwNC*Ik4^#06Tx;x_kYA3)N$<@6Ui`49o-4nFg+42wMY&C<Mqf*0v=0dpE(6|-D}4m
zfGkR8lrh0>I*8OixpDq)F%DD&DfY)x2sYh=q^>u);l~Qku{ME<lP>@v+(wStV53Rw
zgMSSv|3R4l>l>b2Ym7=^Ylg%wFu!SU0Y?dG60g_(ZG=8@?J<W)oRkw4oA2Gn!<O|k
zNS6K5Q#n^o<O=mLlcJ>Ag>zV1vh_&>;))`rIbwV(fvr}P;mF!;?yEBDGlaW0UMx3*
z<eaAOTI3+a@CVrL<+_rLjs>;q>4zrGhMXB+TA%q0%zom&&bM=y$}a71%2RXU&lTiP
z6v<2hLViYeD}R<7|4rl43@yg5bBDFA3&`Yu?=Pnm&nr6xH~^3E8T<JJUgU63dm)vi
zi8-=5nn*M}Hu>8vL;nrCEaFHLP`-)~S~yfQqWjPg0~Ustnnzs6?j(52#$MbJf6#1T
z`J`I6wI(o)I(~&xJtX$Xevup@u1o9DB8Ngiz{lU+t(cI&K{<&kKVK>JPh4Q4D5MU0
z!Udu@1)#5x10h1i-;=z-Zmd5h?ph4AW1o>Gk^6TMbYxxo+D`OK!e2+awjW>8pdvr~
zkDw$~J^7&M`e^TsOOmULf2jMzwevI8yJxkV4!F4X$RNV+ZcJ7+5UP?Cn-qEqz`n{j
z1tg9R3Zu7k=Z<4zkNp2wN!He+Z42@&q1S=L-y9(8pY!)5&%=?OU>zL<nP%{ZTCxm!
zho$7HCVvS+JWob4mTSHB8iSnuHS+S>$k@prYLQ)H1T!*}ZGr`nIONFj9F%hYoO-Ql
zj)@6WhTH+auZ5u5PTrpa){5~!@>KK+iQg6+-4R9!4Hp+zW+4Ai3Hp8SCOZED{#Vcc
zHZFhZdF1Gw-*^12&wsJ3E3?~Zi8i?T{$9zXNC>x-PotUxce+BB5Ul%ya`i;H|B*YT
z%1+|-5PCJXaCPI+#hGqW$hnhC`;TJYRm4u1<^0FuiTtbHzRj!Sa{8O@g8q8!1<L>0
z_5Vpv{1d1O{hQrlcD9Zn@hsPN`}}=}^y3jRKXP#S3eNfuq$S87h)r*Slg7ViU)!1e
zk;vx!2OII9=vx1+I?Aa3AT7BDLr9v3iwB>P&x`*Kz?!a~0``FQWS)~DF_O$>vivLD
z+PD~(!-J5<Ds}`W#StA!`U}^l3<nhDjLs6OufMU=6{FB=T4MkR@jO%0d<QqxX`MVM
z*P6XCwzVubXJ>b#T8Evr>}x;3qJKgBq>OYnWF+(HF=*=`U#|%6e)X~~@g`25IsG*|
zaK`P^yz>4d-eEH;7MtFjP~t;^BWx;L0pBS!6o$p{>GVgFcuSwxTv(Oy71balhl{SM
zc*=p+VFChfGGCZfRpI5*BASA?wZhmHgt+c{(p6O)TRMRQAIX)tv7tjaPZAO5SZhGf
zNFvY;2sh%vuPk%i-FMETjpEvFIWh{L2#pX^yIq(YOG26X)JVUZ+nHIxGjFeJuDw^H
zTEAmr7w^DZs>55qfY#wOd-l&L^nYvnqFHSH-87B76f&v=jmi1Y-i?g4Ff3kNV_Vk{
zNof6~u+5N=K$P?Il7f>>v5%Q6Qmx*&%|p}s$I&Pab)szaD{&o5qQSfCS5m_wn{Pun
zl9q%*V)Cj=bh#9DO5{C=LipvS$|O53<1=sx>u8G)L!U8#g2N9EFTclBjaKc8ttZ>A
zB8+j?hfmrXa1ID#yn1o}QckSjvQMP0{D~Lc`Gvi+o%8VwbYg9uj0DiuFu~MiQCRvw
zn#p3^5sU2kNXNFB&D9F|7}j{QMQ&nQ<Oli(8&@VcR__*G@-WSlyQ4l8d!dYxad5hQ
zxfi+l9;q@`HXlS%vmiAW{e0KJAzz#qtNov_yWcRnBeBCTWXB}xBptHl(n|JL9zd<9
zKZEKmh_4m5s>!B^(GOB8qp`gNwq`BxLSB=x;DyR7CxsfKuI&tMH2C&j6mNr@^^N*O
zn3q3aifEtn$j)s|G3KDy?`pvWozF|q2w~RA{F)>id?aS@>en?AsE%4;b!9}X8YO4W
zC1v0+!tA7QLwf5@oKw>%R0BVbDe3_}wd(I|B${1K3Vw%=!mbO8HGQb^;r{iZ*qQm}
z!?O<aO&a$NE&)}mRKX|<Ox=&poCwtLv;9(drNTD$n~QnsS>Nm(7fRh0O`0U}ZMrwL
zPd-wmW#{TVbg{6o@{fF6fzb1HVcF+4`CMWP-f^2Ui|2do4iTkg4p3u#*V>N;ZcCzv
zWBGr@)izAlO7fAB*U$MbUgyi12Hsz<zP_pE^1A+e@{7lFtV66%C~KIm%&e73oAzh(
zjXpkLD%b9@GD@q@xe&g0Z`WR@{&}dDLHZGIIK64a&8fDtaO>_&>9*=pc&fp;e9N=z
zSlb1=eok*)3r|NWU1Ft}yZ5!Sq43z@5jE{Xe5GOZol##&Bj~M{$wHIy1M;^tJ1Jfy
zKZlpSvBvmE)JmThvM|9tihlUcNV1b_1r;yJnIgvJV?H1CP$Y`#x#rLXs&{#%)*F8Q
znSs#R`Pt$7xT67I!S|!`@FDEdvb*w-mnA=4FPIiyX_;X#im=YzKotZv+`H$>W+*%R
zE3w!9mg;gLz*oq*GD$-O-#5HWx9y@B?u0M*MFZ)a0~x=Rq8HEfKbl6Re&rbezYd6N
zO?X|k*U>RxF%fbWmk}Kzw4R=XF=n$|8<9QJ>s4k~Agy|VZ}ro{{E)i$-DMc(GE9hu
zOACC)#h)K^IAQhXMW*8OX$Z=|GivrTAU$=E&b@=;Tumqi*(SzY3iG%*+!)K~2{hdZ
zEIW_s8U;JJ$mI8J<BB12$)Ci+Df&EJ4HVZZ<xg@+@>U22ymdML&0yqE5$y5ajEjFp
zsr&Spj9kp?8n#Bq3lhneNM4PLGaF>0QcjZZA{{>OOYp639T(Dg?#4x_^gAC`L!4(`
zxC`)gE*+b$I+#2@43zv#4l&tc4~n|lqt4*-`&1rloSP&n7Y>bX1coz}mN?cw%eX(-
zSkvMpQ6f<u=vPv<ek|zOR)~ZZiH}RS8U?6yiKo@nD@f_uETQ!zI5Vp<VOpzP33>2=
zYq+aLCF>~Nx(Dx}>xtENv-jo-K3HEK;_6DR#Ujt>-F8iXg@bf9Pd@``jT7(XF2eNh
zS>LLkc#wi9J{Q&TP5k}}>r3Tz-Q1FKlY6LN&-QbeT(*(ruJtPFvCmnia-TfE&alKX
zbZuDd=X(+tE<0>FL6M-{-8>o9<j~^MIKIRFkY(*gYQ$E+Tb4}8Y@A*Xlo2irb4KW3
z+(4R{KVCXaROU6f(0V-=iqeG--`E3xtLzJGk8Qhv@UL&5s;F~QG{T9?t|t$Aj`ey_
zU9*0yEPhECIM7+-CZp=&y-1#WQjD{GSD<(}wCfP12%_Bt)GI5c3nH%^O;1hknSUfh
zQuKJT-E8kio^|pcRF=cusS1~a!pM;5-N(O=tNzdY=1Ns0#*-J=gPp~py3+F=M||XP
z#O6FXDyu+l<^P%lcjF>5u%j_cY69<Z(f*13P&8s|NbZxfuQVia=E+M)7S|Aw=>vM7
zavr0GpwgCss4i{(_!>}m)ylr$boU}~KiKrJ6Cdq_%juu;w#G}|OiKzSiuts+=y&!X
zCUgn&TXb9k0ssLW<+~`@oz%m(_@584T4OH2P_;`UQ>`B2Qd;w0^@D8Hs*V|WS!Z@=
z)pzJc>%uRH#GDNmw_J`@U@U%n|58{7IrUUHZ80i;aQ9PRL3tiXhs)YDsCa+2zdGSj
zo2AWc-wI6t<(tryYn_i-^($|8q#HiVPf=R9YassV`XfL+?JYV4V@ezE$!iT^1PDKm
z&U&dK!l!_Ye=>K=H*Ko&e8ipl7dJYuU$T5)rnLm{dz~mt6KvsIyaugV>_XPURO)lR
z^PI1ujpl!5Wi`=mi8_@woio!5p>g8#mfYuCFtOt)3K=^tuPDiFk0bGJhA?2Kn*7qO
zLK=dDs2AH1&!#ZcM@!6}6p!PRH*Jjjz;Pi8WMa#<!BRQc5c{a9*joD`;{N!yuXA3s
z70sDfe(9(@sZ+p!=Ia%pmEdFrx5oPla8EmTEtn2Z=w9HM?43_r_$VO2bR;7B#UQMs
z;b$O&K6T`Ne{n@pcXQ-Ud9J0MtBUnn!_S@%Mnwj4U#GT^q0PiHy*f=yCEePB(wJ^m
z1(|tauI0SLtsFg<ew8_~;7J+%C$Y?iAZIcA*t@nnrP)PXKXu~>PPXvjj%s*L7le_h
zje%LRtxVE<?D6V%sLr}1Sn()04C)Hj?SmJr<Trv0O`vKvAu|jWa1972oCm%53;}!F
z?e6Z&w6>tCztvT-E+){x=cpO~p4q!wkbi#w8qfcz9GgDge=L*r9(L@znrS;bv+may
z)THPswm1Ezv(0pUxbU3#A(PNN7rGu&n_m46-*9b==z$%u#L8q;&Xp%-mDxc%pCovm
z0yZ$O#P}j#6W?A|OWsWWwurEa(8mwHLugFYHa%Xns7n87IC-;)%reC~HZaxNUu(%J
zK^xx;z2!)U)bWI}kfdgbx29Wd-QKx;IG>Crkh3X!CsFquJ~o=Xy6#HH_%zfq+u%@X
z*EO}RgVW+GIq7Y;$Cv{T?jrFvjO@QLajWp%<Tzhl1TEvczZ3GgR`!V_)yY@ZAd4a!
zgbR|9cx964f}`qI454ZmU%BLSw3FAGY4g08<I7S_3k}oew&~Z3k*z?p2b&95M_R9x
zIyc*ul;}AX!%XYybErx=yhKavOGB@n)l^$9gl{41%t)~)zuaYLBuNx&@wD!uL)0|1
zIa?r7H@UtD^}slD-hgyoqF9~P6^ObVfp~n9^GTVmhet__^wBOgrEbLXm^=38CNge>
zymE2xs4?ZaTyY(KHyd+MZuW?6cD=0QB}Uow`;G25?{(?KV}G=o60W&k#@F1#?uMyR
zyhmJbA7wmWqF%Vg?N>i0JHK-D!3mKYa3NnU%<SvaATF+zsrK4O(Ip6O9I!`KUF9I-
z8i!8tT7!tTznd=`RBry~b6yYAY)xwZWra!<X|KO)9kYD}4UO?dQg!ni24N_q{BU`%
zJ>X(qZSct$=oR{ck{^O&Kb~10%f<eLK3f!$PoltUck@ryMNU6+Z#D6P!E)FAq{6Mg
zN!<QKm0GPk#)|Pup$kMtkR;$m=1CSwJ?%^f!%R?1l)xuU;@+%D)KAhY9eJaOi^@mz
zf=~26aUP{@(dCcYk+E5pvt$5#^b9_kjLEN&0TVye)m(`_Fks<bVIDrKW6?Fa9JR1c
z>Ma&6F=rR+>vwh!jmYLT`I_C~&()1E#eXayo^2SdI2cgZtR2)kkSd&TbNiZpc&_oD
zi~vNG{n~Ijd~qupZ4IF&Q<S#zEDe3t%X6MdFB?=Ax%@zMHrA#ne%($9P@5jJs!x4b
z>Ea*gUg*L?%JJvW_JVna<)`u9FQr1IxSKTdxme1DvudvJTMc1%!XBb+sf<Q_W>7*9
z<A%hkg{yu~s`DaE8dGiogkZYGns(<1T8J}~2-|=Hq9#7bUpN8>>jr%stE1ZM59T>n
zRuSkP(<$P#ldevouw8ri%cUD%UB1mT5adEeP)^%I*j<7<ld?SYjLS63yG;~JKZi@h
zC{Fw)P-*y**Qa09K%2@4lFWh;;UdvxjHI%DrV1NUEv}-NRCfPn(z%yX{Gle3%l4eF
zpU6Vu6n>c%&hbZ<DVo>ldArF;B^xo(8k~ubx}zi#PA}Se<GIi3m!aaehfiGp)DJ0}
zT7H!FXY@^|c*r;Cp6B9+{*wg7oa394n}L6HO$@fKlemL{I-C|4m$Uf@<f-Fx5s?hR
zSMs*+zvDm3=sE@^h0t3O<xX<dY(7_73ed~D85%S^y&-SQx4mo#d-gJQH7CO-o*WUd
zZOB&-&d1H7<8%1PRGF+!6Ia6mgR*PS<9>vG6`j4L;pc9<=naDVmJ2DOw^N9hs<Btg
zYs|)%N9{-5W0G9wbgSrXw#AoZsh1`AcCGr%%@yLy1q6AvA1>A4R1f`eY-4IIZ*=?S
z6$a0vb-m=NZze{Iy)QYANc6UI!6fnCBaJR7oxItP(_MVv?XKosVqHopW+`UE`Q+lK
zQ-ED>0BCOz`$Q5&q9RI7kl2U{5uIcoCn;|GabdcuWLBKFVBDkri_`@z9+K&{b1W^o
zv~uvAZw-fL&~IesrQO+y?>O;nG3#Or<1vTy*)J+?q1i5^;g%qeqwf;_1B>xz0GS5i
zE@Jb$wFFzMFPJaKD1lkYmngpN3Ndy)smHRPzGyNRu+yuZfvxP$45N_|;!|ysu3$6^
zMIDPk|Mc_q47b9LM^y<T4UYPtNA_k?J=7wU212mSSZoqAf(GZ`ofNwuI)xBgW)dLB
z_*3sDSxm~iX&b>_^~_M3FlXPV7X--NO%9u;d<WKzi5txy2;m@#VTXIcsLJKl;W+sj
zgyw_1jYAJufh(KTl&;I$<eS4Bloem9w{1JZJ|<on4CLvPY>yhonHr5D(Uy8RL(Fxn
z`?BjWYB}u(j-X3>0#SP+M{Vn~t;<wZ>iylIh&x18{2QEJZ)IuWF?{TBY+Gt-rtdNF
zMY3PU0^;k@t05lV-OSZi7*?!rlxRQECW27K4dz6-AC%HRR<M?~HYE7Shz@5+IRrik
zb$`0FTzS6om0}a(^T#2&!^;gV*xi2Pgau&_Rx7+**F~R?nrg}qJkK@Mq&vP=)_Qwk
zu3FbKpNg034S}1;g|$dh<H97sddZY<oY68o)oeW1){SQFs$bXY%YF}m)d$Rbs@2zc
zYf>{0A>l}X2Z@8Ii))DU1@qd%>wos1nUUHJa!uAxv5wIe%$==k9j((!$PJKwJ=MSU
z3+o3BTVR{0z31yVmHE@Eb@J)@<NNdysqiEhzoCV!n&G#(13>`{<N{I)8ET`MY&%Qp
zhj5Z9p{SPiaVva;`ABU`$;-4vk&%Jb*TECs;;}QQfb4kBKr*uf$pIJZu#?3?BHBcV
z;#GK$<pHgF720Z=_&eWRIXL%X!gmztf_9ZHe)zmnvcIwxLUr=Sw>^51839AT5$iW~
zX|Df>k$e*}YgJus7IX!ia$QI0wbIEH!>3R7vX_d87d)N`E8+Z~DnMd1)W+&QUg>Hs
z3+yFRJaSK-4SVxySbzC$Awr9qwMe8FKU7X_D^!;7eu^FLTBMl^S+u)ao6*HjonD2v
zn>LN*8C$w2G;7QTi@fuaJ*DRr-B)t7UlJ{S=O>1)e=#mwVv@vWhq&83c2I;piGMP0
z$>eqkbq1glwV_G)e7Wg0*dbzo@fd1=SC+{jT!%+sye7x=eT`U!cwLZ>&gNZiR($n+
z_lN4`2ItMGCL|Yv0;iFH6S#}3>>B2^#%mF*&(@Vom{cid25;q)>?rB(qzZ3c$>e<A
zl)SpYi*<@YaA2(uGoyYBf>UGta`P8A_*tX<gWNo&4c9-!rNv*{DvmOF-U_%HHrBE@
z^8*cxl1D~pP~seqb<&HLnG%#GG(<i&+^e)V*XHl#{K}-q-}|hqgo<xD)%FKb63GLP
zSULs7BP7UtJ>FSZ=JYdp!T`;rbZuH~_^4BZv&CadElU}H!8QYl<ZKntQxY9A3du~o
zf;IqKm;?*=sb2A`4$!jA-+eqc>%E?8FrcaI44)=)3UoJ{mk_}4c9W0eQk4oqax(@F
z0bcGYM$Utxw9c>N`}6_q1&)mExCrzqAd<*LkRWQ2!y&M4D@b(6EPCu0^xIW7tD~)I
z;yYt$U5w&Yh9O0e)jqkYIn0mS<Peu}zz79~g{fKddRc*IeOBi`U0QN_eTG$an#zTo
zo5$Ub_3yQ##T6y`e6%JQ8rsTq?G5NT8&xry6=uk#N-7TYSqKFF>@wCVmdKmfV;Uw?
z$bJxIZyxs(#ki#_KQHOGUPH}|#(*Oy{Fpo=ojl&$=Au7yCRfA8z9eLXCu2eKBtC@E
z$QP+*@vFHlT3}Ik@uT_W8(E#CL*?O0h5gz^hKH$#-X4*QsQ2eJ*vXPP5G=NSxbId6
zXASQ)_zVx$_}A|oe1f+eIyK_-I>FHk6i~K)H*loKK4EHtCHY|!LDuuG-glO)2H!ca
z#Dg1Fn{%$@vfA!4%(RZIsoa{zh+)UC*I}nh0uQZjq7u^{Coc@8+^ptFdF<}r-9EIX
zFLNuPQVCbo_2!00r1>!@4D#s2qAUC2*jGg>NQ}tDepmp@#N)E_DM;0?&tD_HNvNxM
zK_3urU|ExJ)}1OpB7N7GQRe0DQ$H^)Klzb=aqEkx=3(W<Q4Kbt(`eat?PXlbR50b-
z`*ZsXLVA<&BG@PgiF6xgplqM_$-;iVG^N}~DXz#I%hmUBDG0<v)PTl-INTrek<&Yw
zJE{Gd&O9_#{q&(dS@1y^rNNbOCH2iA5@kOU?J?`$6R3}U*xvn7wMUr4NO!sW(86Sp
z$&l+yfj_k_r6ju0wlq|+de^Q2XT5}sts9O-8TWVq@XgcR8e;Y1j-xyFlTs|(<-Mi)
zAI@+Drn!A868V`l1fe7i2ku6PsDgX8gZl5lvrIEI-9#}9M(WZd`j6P%qaEy(LT^($
zUj8iJG{|F4J(+a%B!x(qhj?6r8}6xmrlOmJ*=2XlJekUjDYw$|$qX*wz1xte%=xVU
z>l46=+kx`rNjy>U9bOd!-loW1o5~xwF-|n{@PIw87!r-Y=2t9b(6J^5=M|!Pj3N!%
zUBUZfcG(sX()bv<$W~>HVPAXusIT-{k8~6opJHvk(855W%PV;QiB_1cM~87}28jB=
zLug?R|8BSU2|oXJ^zEQ>EgHi}-#FMSK6-Ph-j{B78D(X?GQ}se->#G$s0Wgf-gx8e
zy4@pvy{=sXM_tm10820odJeX@_dF?b@lXN=I=;$(Jk{(_y)lYEW1_>Q+xfd}nZNMH
z{?&c=t{^`Rc#sX1ZQ`cY2Qp70Ien4zarS7O%8DFrp~E!%;gtY?d~Lur(EFU<r--+f
z{s~X!&na*JolU1<`P&--CXSKBi0$^xlvBXj+ka0cFB&Jadq89a$R^{6k^H8BYC9zE
zCuTmWqcWmR3O9+rCpKE<n0>)!$>{3UUJ#MtOQI?}Y(#PeJe#>p;@A}?a^bJHx7JPj
z_D%abM={o=g~wb~B5mq_f-IeXZE?kbYNVVXh5%2H6E)67-^NKQ^e497^OAVhs^cq5
zY0=WCdZ_rW_pJV!K#0mTnS~XEi;Xo9beo^MlwC(oHbLsOO@a&d9+$lhidkW_e(YTM
za)~*cV#(|aJu|(S2v+AdNP~<lKq%Xtp$tW_9(8U)_wMtUz@xg3q`~F76wKCVBbdYL
zI)B7lL~b5O$F}+sfX>bJMa8Zbe$B=)`HlPy>2@2oG6K=po02WPYq=25HR*xl8wu8j
z_ITq87!)<#4&1-!5qFe`88tcQ)>$Je!>#>X1FNvM>F_vRYtRkD9S*r*{Z!cUri1&!
z%YNRn0D(Dw4d-bR>l{KKo6zhEtyL$LqUUeuJ4X9(8wz!Mm_MVGHJGni6<i6kLUPGG
zAhUWN8%MCue@({@6l_dY4_u)!fARiIXbwh1ka1rKboiK@z<UxX?PQGANOCLgzL3qw
z&0KZ|AiMT7O-q*bE^EMsK}BkR4l_|22e}pA-)klGuEEXYLN-^EcC!TUQF0jbM_JDR
zLBUvM+wdQH%%gMHKXi*4aXhIMpf%kW&AHbmi2eQwEyOykJ6e`EUfUwSx4nIzSASZ3
zDMUP{ueQ_#7;)l*+y(xCDv&xM;H}Dhhot?u?*7V`uyv6e&-JLy6(fnDT)c!<oX&`R
zsS(KFS+$|6(o?Szhjb;O&+_H(@52?h>|>D*wlw+zR$V{ErqAD;7Q(h*CU-lBXDqr@
zRwHW_6^E6_r3+fct!Mc>9Ah442yST((Y@t5u!u&0^5A;iRcrh*X|Tezs(d}6gfcCq
zG;7sRlg-qlNmY+15?3wOgD7eON8S?VLw!C;ncA3|y%#4tqpNIhJTdX4Hm!yA$0umr
z`E+?86Z`@U$)f<|#pnI(vGT#KM+L#9=GDdq)vi{{+-3P3J~TrYF&LP!?d2fRb7I&H
zVNnAMg0NMOatL;_<^jT2-p*dvd*%I+R`Yq}GjMQ!e3)HEUdRyH`BqbXN6ulKflKJc
zP7lQ{m8E0MT||}R(-GAu-D?tnm0t>zGk8VqafD$pJZjdkF4|^7OuyoQCO%+XG<fpS
zX4tyvr-PqN+13Oxe8kN*yfJH-M^S%1EQG%?_2yLVNN=`eoxPQ=6orO|oV&WeFuW30
z0qU`1%+hI`Y}Hw^<<V@wWxsPUY#G!MmTykbAAUKS&>Om@4=MMCI^(xb0U99`r+|*Q
zVbb~Xp!Z){wGTIw-AG*cTNv|i)WTQBR?~F})o*`(_!<NZj63}9Tp7aU%s+8UfrUd0
zXB1UfDqSiSYDFQMuCy<w8<;4dk+wBuC)A2d3R@l15Ov9vDLl92*jinun>je{ciUbw
z1x_~;miVF#h_^t40eHV<a(<P75k#-ie*9agqk+Ngg0?+>M}YEv0cM`qvFCxB?qA@=
z(QVCRRE;2J)ss62L)Y{`_40zxQW@U*>#I+%c~8XS_I~wxB5S9jF)aq|P9Fs{KQ`3k
z0&VMFDE_*3<YjayophPcVK3n;t@U%2U%%R!NPig^F3j1AwQR;QpObs{GF4wLeSZ4d
zv4=raBd3GTbOTl~NtDQk9jB)iyIMUgKR8UiV*J2MO*0#%RcLq?;*%zR$Lq<Q3|wMs
z-MyWvO$?re7OsBs%fjL((qrv-dn_{N-aQUQich>Q4vzK#5-xO8t+PwWr@rKnjiH7(
z-W?iel@sbqfU?;_jq`)EXO6I6XY-oOUp$Nu5mFM+(~KoB-NQ!3VT3I7CJv<KP`_@E
zuDa|KN>b&lS^#{{52!;a4!9zhhr>za)IDFC;aCK?Xj9QsB7<uJhjFyoL5bfHaM!!J
zoVww>60AZq%!n)M7BG%(uhHux%p!RPmJQ2;hFaU&lSOT8axGVQlUC=GhY`~cmTe3O
z%!}><?U?ZRpTmaddIR4ik=af3>uoHJ*f&Md^0QDDn<$QT&)N5yG8iVF+Zy)zd=jY(
zwME#9Bww^2b_M0u+RS7X99H`)p4X^tFxzgNs0#1ZxZQ+qws_hKT&^U$;^^~nn0Y&C
z4inNqP0Of<SevzBql`l&@D)|+uP8lxRz2Fc_@HH=Fx~@mScy%&gLBJBc<Br-by*M(
z@+Fu>97VEAPMFpmbq-Un1fqje?eJzxyPWt(1Kp_hD4#(+azHY1st@zcO4au^<um+|
zEI`mcYY7x7d<G9?`D({CA}#;m$!rmv^Od-g$xl`G{zyTmdgoRDYXQHAqNjjbo)aL6
zk<5{&ZYSCX@<brfqS)QYZ>_<V&cB*dhI$t7X&<US;Oo#iJG<+o_TzQz#->1T8_NhW
zAg?VMBP}y~Z(L|fx3<LyR|CGJzZ+pT;Pw;_+S<ejU4kSmf`kqXISnh>W>4N^t^%@7
z1c9kJSvfb3&0D7pPclhdYt0FDCrP35Ox6P~+|G{@KU0a7e0tD-`&#9Vyo<f}5+XTG
z%tgrD3Mz@-Y@Tt12Rhig8`b+^e%-3DEZzS$L@!~Y6zDKaR}GlvA^`9MCP^I{qIeUG
zKzb8SqTA^DTDepaSUrOB&@`C&e&tDx!n*IzgKZpMnGl4hv(sK#%i)j@N@8(UMr+Kw
z#grF7wq<8|PXPg^09L8HU}5*Z+J$<Jxqn2_%P;){)Y?n`zBTsyT)5v@2$Cztv+o_T
z?L8jf#`{p|Zp16O_>S(94Q7bHvy3QPzj(r^spo3ajpLn~R&DgWWN)+dLQ?s9eREqH
zJW4W7V9nh5kttCso?dM8T4r<gm)VUe9?yaiC~BA~z99KleA)lQ-gkgCnXT&vL690n
zdW#AIQbj2uC5S^4ktV$aMMRoNj}VB0^b(4IfPm6_Kza=w1r_PNgdn{nAP^zM`_JBI
z_ROA{d(S@Y-gD2hpU0RG!e3U_`qo$8_x+S^&`{?b0s2OyjvpW-JISd>0y>`tsZ1Q+
zzC?t7Ns`~$+}pgvF*czup<1vHqC=5+vybGFUxGY<cucSqNSYZXSMFXTmoE81r%I8_
zOOPWX2B-1sOKT}$00xd<V^(g|1HiNd0OGt@1jSB5E0d2;$w7$*j&r0$jmlkc@zad{
z{dL&)@1bO}Byr%^mt#@Ljw+<R<l*VZNPNx+=DP@r=#AR=`U9lO*iU9jt^EPIsJ}t#
zSev!4JZ=~x2i*Gs0xB@l{=dGK!9nnwkcmF>3+_zPB^g)pt?WPC$6Y_@<-^*PjUS-L
z0Ny$C6>=Mhb)zA_{Q=%XQqb6U{{ebSy$mqfbu4~>;tPI&LLZSo!@ixH1{SDRF>=R<
zum7X+KgZ+0c07jTba-2BS;B=aACI?HWTbS#^Z)qW6r+ggM<<AW*qA^?*CXhpBOfy{
z0XsOhZ;Uf)Y^og@xx4)?RU!P9OPu?gKzYSQgZ=x!4EVOkOCj_uTi_6EK2HX~d_&6D
z5myIDRyjGb;`5IlJ1<$io19Va5)2+I5SfqhjpBP@@*)~c=I+5URpe<GIL0Ap@OPKG
z0in!#7h8gI!Ko|i4^-)IFoAkwwVVU5Fseq+#J~;RlP~STeqAR2))iy!2fdpAUozwQ
z9oZssQ@2j)UC~NZft14g|2VFNe_6lb^TZR&ko_x;m|qs~D=zO`Cme<-EEoFq%QDKa
z8lM?dHe}RLop>>V_Hmv*gIMph{F$pR-}vVsFq2G@3{i3(`TWqTEPNiuFiv#66R#d`
zRCROd4)NO42luUwIr%**uHkZhPd-Xaj49AaQhck%Vkq{rUHs2_i2kNz?__*?Zs*Dr
zz+7$w6w90d&9DDtLdLwOD=$36l_)G*i)A0#%Ir7;2Or&#&H~ub7O3hep;VfKnnrNv
z5Fp$o+Ji7TvP6jCU1n=-3*ZsPBhr4@JWIf^dwo36aW{l(;xs?R+C(*crB*jJ(Z>7W
zLW9T(fL~~a56BrC-LGYI@S?&uv9k@L@5T#JygcCK87Sc0WW@$tJ+5wHhO>8ZWrl9=
ztxq*;+)C&h#=QIH*En8+;$-e)x&16^heE)IbrwE_vkwG9O=u0FHcW;nrg+t}yt#T_
z<K^_zHyoXAS;^iu?yPrT+s6o3Qr2ZPp|HqJef;*qayX=;K{ofP{Q_&)v_xXb>d?5Q
z_GwN@uHFa%%9cURHI-5bU%()QsfB|WaimI+3mdvUvhj^rEm!4amg5s*#&?ZW8ip8q
z7~L8z2klF*TZ+7_BoRRnXW#E5>XZ^;W@9Fu?q(f1mg2cH(VM}YChMa9o!SN&&cTgT
zhOZ$vt>oIaC&6tHUfU6k7uE8QC8d*1x4#`tX}LTujeI<AeTmhSdUE_)4|SvzU(_ij
zCI_buGR+zwc_ep_U}%D0j;Ky||J>KfzPtXZC@q{i(~IMZE{n(ttr`uHl5$Pw;rd)H
zsx6)7_B#yUg{I-n$1VoMmbC1d&*JmW3tI0{XFMUI*cKaaT&h^>Azj2$=7LFZHlBk}
zl6w3ifLS){;OM?q;M8}42l5`RJjWhA=7ja_sj>N`1o0xr>oxWHr7JVG0%VTinpyP0
z+pc;Ess1}J^dDYbaTF;_F0@#`ZkPA=(Z~H-y&S^TY<?CyhMZ#1jW(Xsr?#zcE`X;f
zv96)mx|y=+HFodA+|MY9%zTGhId&~KSD|FLS4m3k(()fe7q2O3^PG6LA0hftSvX+O
znu4fNWWIWRzgV$h^J9RgxpK0d%-(Wx|2CJfe#+UPU0I4Y$_&vgq7%WQ9mC#q^%#Ry
zvQ{$GG2^1OuvHUaM$g8WPSZqps~bI2jIi;lG70_x>TpJ!1M->iI8DBbKo!E>d1;hg
zr~di_56Zxh-M*b??~kTx_GePpEcT;`h)il6v1oEJs5SnnpBJ>;a_e|;{c&df4r$iT
z4pt9HeEf9|d_^D$H#=bTBpN>)lzELYpXmPiVuoK=ZPNXM&XdZPj-Q|28*rFa1Zc3R
z5M{>9E^DEYg+WhYBh%^LlCD}?$1Guq4M3nx%>NR_u)ehg9<!f_m+UGH@TbveYI#SX
z(&NT#q&wZoXkXH#p!^hVr?z``$ud!hJK6iHS&QOvsWLA@nP9XXD(UK_q-`|RUX#ri
znKL~nn89I(I0)y|%iLNlfB&8`)!WAJBJ0lbrv4G^(Hx^PAJIY|U(;ZrKen|Yv9Wbw
zNT@!<MZQeW^0FJJ%B=Oq`SbnwLYYk{V~Z^O=0Z;>x*Ef@CI`+leSg2cZrJlET2a02
z=Gn+FoPf>oywtW@#)3kTXf)t}eVPX!@-`{`00n76iGWw-0jD8{x`L7OgJ7~q?C0JH
z9P;nqLlG@!fw=YURL2}qI_L)|;tkV3^dS@gruwUZgK{PylX&EMxQKaga;B8@0DpE>
z?pBKo{)jmg<Omc|2}bD);P4Da0?l(TUcrt9>*zOY><yktUmTMf5&<rmMp)6uXEpTa
z&xiO$_*3}?BaA$N=#Cbs1=#kmUt#E&hf$BOp79kMbKOsJEsVMC&ti<(C_b{Xguw@w
z=QF#koV4qR33*Wtz;asIw-&5!yCi)(-?6_6F@V2AOL;zU7gk9My$kTJ99_(BHW(B5
zGHp2aO~tK1q>AsxL@(d46q3*YfN%1%7yg^9qglWOf^jsK8&b2LTAC5(@cQZ4P>H5)
zo@qo-dw?u}(m_cN6~H|#%Ez2<I?HkSx8HtV&U7VbHxP`|WNZ*k9cj5p)V?t!0Vu(B
zHW)<*H*GtKf9hI%6n^D|^%X7bGaCMaQY)HHF8c`SIxlgEUd@Q~_jk4pRf%@d_$N<V
z=Xce<aIu(hmyzz`{bNd@A-MqXiYDx9biB9}I@==28}^cF=Jo3+pQSq2@&3*RbR@<e
zLg&~p`_`?<(U3dt;>gf;9Kr1zrxG3n36`+)quBH`7K&7K!){Zo_8}K^Ty?*cq|}HV
z2KTB)%|5H(EVhOa1QQlMT~|0}H>esZ$vH}9GZZU8vI@T9k~X;n?n0fMhQES)OR_y0
zbec+mRvI5(RsJe)dE)irX?3OIfL*ilA+)%-1lnb@%vG_!vP1g0xvRKO%NJb*lZ2R{
zREcNxY97|S#1t%q-HF}TIDElH$Ygl)>hh$SwT4&)uFOb_pOe+2%Ub%2A~@e4(|P?<
zOt{@^|7^WFO~dC2eP`50=bZ;&&~ehugicuXQYfIb^~_P3tpRV<wbo(pE>IJ%@4;M>
zd8y4MC+cYI9kH(~6&a`~=U?LJleBNVPpB|yh`n%i^P-{B2YwEo)LUB5Yt^2HwnCyO
zeY#Pg74u?i2RC@g&U>p_2R1p1+2Lg>R)KO*to&XX%9>a`pGm*2zjD|U>1lP<C@!!x
zaps#_uU0qppht$rvc{F_)^*_=V}`dcLkzB*TG1#qs2-DE|8!?pC-89AMfIborFqV?
zzEh9yzFR)W!((51SyJB!T2r;M*XMG<V%>AN>~tS*+AS(H$F+y_uVa;*dZBi(@YDl9
z#6Zq>E^Ijjr-w3YdS?>I8jdKKP-QIceyTXw(EMy)M6?U)<QkE2o_G`AuQS>t<HlG`
zI{ca&)Pxu7y&tPpcdxF$S04R1MfLXDb?S2go-hkgujo=5W|F>(OL8;XV_tNr#`VMp
z-s+Ou_l)AX>q}o$EUCzy{#XW5bf@-++Cx_7cQe{!X*#ZLDN1~ijPT;l6#P_n=7H(`
z2-%D!Z`D(Fn)jU#UHcs~ydEAg^;8d7_Ou`S?smZ#o5V}j7|_T9hol1&hA<XRKADH-
zm_Q#CO>|9KvH+O)tG{s35nqqIZVD#g(H+(@HRmM}><gcSEF-MfPPPVz4jr@t=`@X8
ze{O63Bj?ri!hl{RbGGYu`&^mUeW`cv!An{13eeP{yaW5<&FxkeUD7%&msqaX7Vw`N
z;r#`eUeX`pqvMaCYflz)A99e5Kf87Brn&C{364JY(p|P@o?ibAUc|U%xKw()X{xWl
zg`Z5?p@O8y!~>#9W_Q5hp3ji$WJ$8fGr5&AB$<sp7_(wG08qb_f%i~EQ)@QBf+hn{
zkyavxSOi)T{^y7OM-Ks!eSZ`W2KL*Bz`P5PAeu@0x(2ogRhj#Q<Dyxi6|SZwT2GxR
zCHU;(^~NDcns^h4Cx9@8y+Lpgo!-FZI@kjHH3m16gvW?Ew!4aDevK6mZKo^HX+J>o
zIeb!IWOOGo9*OOJlHGD8YD$Of%r{0)o!Gx}hhpWVzgadsL31Q4T+GWtbZk=D!tX`w
zw|&9qX5u=I!dcIOoYr5uIk0R)aXWp-OJpPW!dYa`*W{y5q@u6?ZZT|Ncl^`8{Vzj1
ze~^ZJ*Xj?0ZU95FxtZ%bw~-F0)m7qM$(^6L0kyh&r53P2U&hQH?*52ErSF7`qmjpf
z_^QHveb=QPiTN}+*BR#BMh>BfM_}-A;<rdnsH5a0fDXO}(T_B%tc}^sroJ1U9hXAs
zMRzMu13~wJXn35PMe;l@KidJcno+B4s0e>bO(+rYa<<ud;QUR=moM>~$+G~)6(keF
z9)~*XkT3@n8rru+XKqO37)SHT*y*39ql=RItZhJ)n_mhA#1t~*2pO45-%@KM7i*IB
zViwdM>9s+UG7N%Gs?XMo_vb2v?Ldh_!7agZ8_8IC&wjxrCv;Uyp%9}$t@=~B@A-{3
zXc%^COuht)@?qONat5l<>J1g>;L$n#jCM{HQ*M3Jh@M!u7^Z=a=6t%pQ_&cJZ->y#
zIhlXj4n-K^bVK*APgSL6ps-4hCdQ{5{g<U&Y;qenTif_41sh@90Uybfgo6$%_O|Ou
z>DL_^xVoj&`ka!rXOzBx-rZEzrf%i@d}E7Ip?DfBc3fLl3NTd=^eyG%836V6#ZoV?
zvL<0!rqS+k@^H`BTK+um1pN<hS0~XVmMn|3DQ>^UNN{M)kh!+>y;NGp&E90yfYnLO
z_Zv>lM290mqAT_w`W(SKdqJ0#2tdk=W2>8k52C6K3uFSN`kr#?mzTE+WxTc(Y&0c<
zSK>(anF~)c4#>>3Rgb<2hJJ)q`lnxfdh_H|W5BZFR<~4_Xc%7UY<t7qIlKW-YQHjW
z@#!h#`P=#kvkL|T+RHh1UvTFm5cTUZBFi0nr;%-HEtkY>E_}k$)7sH@?=v!oDCaPV
zPHifKA0;6<(Jg{G2l<`ssj4gQR0ky|UeKS5J>BTz+8g6z%UhUg(iTmxLHtxox*h1Z
zM4(3Jb>&X0?wqeVqkgy0XsS;3?t>)$$;hbh`TIUVHqhb-$Zw8MEJz*;vQ7l_1V9EC
zj)Of<8Q!VZtY&1}(XKMROCR#^l~e-iRV-+^9BqV00trVfhU$?rbWr*z{g$>X*BX0j
zQqI^}ent1`ybn}Aotu2aL`mJ_?gYd3xBGKrQSCDdt=Dgl#jn)JzBB6*pN<%M>E0RN
zrqcfz89JC|gRsqA<?n>xwVF9Ej_?mnj`mJ&@juZ`b`!WB*yP;<N?2+raUu_)2b;A!
z$M~)vXL;!cC+U&oMoF|l!D6Z2sdVkItbS3wrd@dI@|4R%2l}LL6+P;!pH)Kl6Nt#S
zB%0&M`$S~kq?MyJi*~Wn6`a9vkfn06^VkLTmV^&<TH(*^&VeBJ<Uv78$TJu5a~+sa
zTLYrYkpaA~GecCAi|BVFvXgCcxVDyIJci$?JjvjOVUvrcO^noSjTK%*_7VLfF8`KB
z!m?@1pj43+LT%J0X`RzMTEeo({#{__ypKFOw~1S}(gVxL<a*}D$=Wc1isySAF5yxd
z?zV;^Z@1naP;6Qrw9f?{3bjLtx1bgF&1qz2@yF}djYrNAM~@|V8jD<v+E2h~gr<iX
zzTd=3&#_2i9CT3!0gR~DoprbMIP+<_h_6lTP7mY2l_jF5&fV<eIk4@&Vcg_}uUs%`
z-wuXV^~6-KlH{2R7XVEryLb4U1cA$nQqqPWj)tkOX0r(iRI=@(-vo#Rd~D$YR3iIy
z*?NlB$xMXc>e>l*YkbQa=dA~!@@M+m%vkt3J#k7>UjR81g?xkzel#~b-J{c5oa<$&
z_*Wnsp@FGObEle0YA<?0@dThQ$`{p{E-KTnDDwgJ4wC4-eDjHPI@ePj{GFgjIaka>
z6VsHmyzftJ-EsOVZ<I-<rF<~stzpZbsb=NKc0b_RS)xf3ETEly@{6a{Lk=MJ;?%;j
znr)xQ+pZ6mp;$sa=6`x4rGgB874+HXVKKQ|nRb9INN#I6i^qhysF9<KSCiRlpTysI
z;E+QVC~r&?+Yzh6AE*0KHDES1JqKEji4gF66(><Or8)obiQ?$Ps3LSB|7-BAWvF9;
zqLx3Qa{o!yz}o?PEw1mIwgjo<BbmLEwb5^xPqkfar@iHt-s-VFA-6#}ucO^=GRrqc
z(!s%4CO$nHHFhaohdGjaqvk0eMTJ~@B|ORPaE^_V6MYX5eS)=Tax^iwuoKjRtXByy
z{hnsW_PDu-FbGs=Hf5vq+g5JSu$0B}$rm6l5x?Tl5p#?r-G#yyh^aYI*C2j%@rw|~
zqW)eIKT8GW1s9QCk1E_Xo`}*?(iLLzks@)Z$6B8FsKF$fB)K4(H(HIRb-F6kyl|(m
z`cwM*lL2;=7gPe~K_02!prOc0tIX#JBfACqZ3uj~+o!=-GwCuh+1fAC&wountxqMA
z|K<Iwg4=qOAPwk(?l@3->&`9J$|d4@GFS(_KIGO7e^cVN_N=InxBOoEPR%`d$H(Oy
zpHvi`#MO^TM{op}Mpyp?6x$zNbuF)IV4Gx=rMvhs&3wvkUPGM{6*rO`b8VreeN@^B
z3<z>H7#G`9XXnADnyW{0hwp3VhYuHL7tR+_1%maQ0txmT>+>)U1UoF)$5(fP#LHUc
zJ-S~r$m-|D$M87D-KP-rwK8E$Ugj-60c%0JG_bWHKtM$x9y}H>QyyAKzquLT6->t_
zJ9)|yq`534R483V383XeM2Yl2KtF}H%@Kt|e}KZX$sFi;$zx^+4RSsULKbY!i-^k*
z2hd$6cy@9)I0%E+2Sf?ZYLKL0t*}D@WhS74_!E?*<EO(yu`q}4LQ)`CVu=cXn&oLA
zy&#S3U?rUdq!Mn<Z<APV0-MQL)qo1$*^+>+AD|QG2e+)0&%l+e^kO?SLje>&ZwZDa
zpf{5Okg-$J?ld4V<G0YqY5C3TW)2MuhE|r&Q5BkBB+Ncvrg3+g-TOtk@^{2(WufDE
z<o$G6XxJ5mE1~E4HzbWyW$Y|B{!X%E?9|F-aJ^WY%C5wFCEe){P`?wh0sX?BfHsT8
ze(n$~+^~yHE=~8qzQ)_|JKa%C%ca_CWdJiC7=gG`@p2=wJLBw-%s9<MKihqEh^2ZD
zkbbt}@NxV(OVK=_#=6M^<h=hPPD~Sta3;_Mij$n)IQY!c!orl5{mcZ1JYSV&Cz-nJ
z_}u;^$Sfch?8E1N>O|A-{IG9K&=HK7e<z_sw&hgqaFe7<fo|67L8RN+_d@Vd@A0C@
z^Ym3ki-<Rii@2c{K@#ie-dtFNE2`<t0=!9lp+Jl&!E?-8b!~F%OZ}6Q6sjwgQdC~^
zd?)2vVHB=_P^{x}&tYxkHbSQu=D>fa@#ujT7d7)XpX#|2!XcWpyFBsQ%sTgnmLNBK
zk#=(-02(0_MV4`#+=_N7nKdH<%2ZREy$@qJKA17RpAsoCT`cFk26|1QN8%opXyGDB
z9A{zihp*1zmoNqCBBQ(o;+TPf3J8ZD_fogi>%-Io$si=n6jnVS*Oy%w{S!RXI@z4=
z!o;Gho?_*P&r+jriGFz1skUtbAFt|~xUDWBrc^fjVq+^PS|D0K%f_8Mcs=I$l5nHs
zE6e!+5Q!GAOS&2m<b!-`y6zj(oGn<2EQGZRWIW9eyJg|W*m_BXougIHcX1T80Zb~v
z+WGC$G4jg~Mx;wevc$1AU&|Kokg_Q327WX0RB8MtcBAUxaKTd&9${ltpegt=U9;!_
z`6Njka+1uk8UVHcyxeQw4qoMc{uG?})t-|t+Z#&fc4u8haSC_P0XzGN-~@mNm_1R9
zrlcD~RXVa3oK2EXF9;NT{u<rYvM2JOjglszmKV%37o{u?ckJ7@CFYhPWCozv(_@==
z%PR6@o>euztB)0XsFiK$QO<Mi{dxGRbsKJ*f_R`$xa+$eq<ju}udv4AX_bya+v5$M
zkRKq^H>{qBv+osSul7(Xv?41<V#2eDtBOX25H`ma`GkN*cN;ds^<X>A1r;qLmCZmc
zdHID<b{`u>1p_>#6O3Z6twFN2)c8{FP-2PKcC~3_koRe69~a?-r((p1{PCQjzC%Rp
zn^|~AC*<8|9PW{wzxs|}q`%`?2`-0#zQ;nwc0EitsVM_FVnUkfJ1|r&f<z(h8hm#U
z!T1{K{G(!5fElc+Q#d*G;5qYci+kfQs2&<d7q?Qn06W;}fYW_AG&kuAf!>j92$$V)
zs%O)@;nX4E_ICAI{-q3R`BlRYc{8CNy~;9hp^hIQurjblYsp*#&eHOWV>yGc4YqZ<
z=Bl_d{lMq1ZE#9*a-|Z<*mX$cTums-u*+C#?a(K%s*&4Yu>Cum=Dm3Mpvf!2%ck4T
zQXkr^TPfCIEXrr)I$hZi3Zu#T7H6<Zwnul{ZD;nM*K$+z_wAMFhQlcL(p?u$)}j>Y
z7cj(|2$OxOyg99lS<_RnDVpgl&3+TZfrfcu+@lURpQ(ZvN)7y-p!v+HngMBE!7<H<
zqqbxpxib^p{2DK3ROvT)PPly*ogzy<GWQ7s+>4m8yA`#=;z`{O#@w$uBY17^mj+Gq
zh1BT+P}YW?&=x5R0Ps%}U8ZPQT7!~J_Ix)faE5WGd!;<<N!W7^o3Cl!TA%!w3iH}Z
zR+GKiMa(DH*aKDasftg4p*Kxfv%i4TkoM_vxAD3g&vW2ow+5US2-3=|Nw`h?lw>A<
ziF0cuMG~ix5Ok&(SqW}~o`fgwd*Sz%n%|DYll2HP*|4>SkhhNoG8VL6RbKK)`c6Ge
zb>@I#K6Sn2B!Y`z(zdBA$!HBP>*(Y=RT=R}tZG%dHJL7^?WLCB#$`^sHlC2>sdNBZ
zX%C1BF%2TY2qj{%TnLF(`kfYI^im4z%xL=3HG7MvX*Jq$uWjo2UstQ@>VT5>1xF>(
z%FJu#Ix~CS#jXJC??|HpQx~f_WbxCyMt}J?TwIKZWLPf-*sUDrK=2PV33>3|QC&Jm
zRGrN<NTA9#?wOWeegBL)u58<sXo&AoBPz@*U2RXLdR)VH%R?;xiVi;@gNtnH+2P<V
zO72F5K=CzAG;VLZ3R<EIa`3a`j&5bkRrTQ=J?A(%7teeXEKc0X9icJo51`E?n!&2<
zJGaAbBW4sd;vv*4{X20rJldWeyisMR9xtc@9Z|;R$eR8?K*v$3DDsQMbqKXGj~YG{
zyA+Kr*kU_$QW>0{6}u0u`n>fZNtH(DV-LOy-X92k*dKvp@N8`6Z_i}gl%C;pnm`-R
zTAkobu~wx=d`cMiDXcX11_2vTAOPNA9zbq90*3Zw^|#F)5<;6yAbSBo|FbP1V)nvv
zTN;EGj_NMABnFNdp$y1Vs5_<uoqqd5FLNlK9s3t`C*rqpE-e)f9t8+kIp&?#$d<T9
zs153~O6$AFl%jEQaf8K1f}3@oicSj}L3<D`pmWk5b;OPYCU>Plxi;rjvd8he3I3$Z
z*=0)|!rkCcM0R3h_i6HgGB;s4ru4S!8z69OUbASwvn^!MT<-Il0n*HKvrj0qNn>mU
z%}5eLf=N#Zp`8>3B_9^(=`En;-%T&SGE(21SmbR<U!x|1vB&&a-DuJoY>o@xSSNms
z&w22w&eu;qXZfK*7ftx-GiDs+`LgQ^@xV}Ho<lci?E%lixY4&A4+)uSYoYz(N%PuD
zHrbXjCB@`XLZ3=w#niRZ$q8po00gb_bDD&8A+siT2hdr0hwl7fIj@Wo;9pxjcWi1>
zJ@y${8{9F6U>Rx>I<ehM2o3j4r#sbSEbd+@3!T4wI-ojT<B{yOEtCq;if~|!XYU3x
zkS-Bs)9mu$e%AQS;GQ6vJ{zokl7g2-q-coi%l>-p0?T`vJc}lS4S&mN!j7~8`n@qc
zEoT65jhvm=F=~PF;sOT0RL&XXFouu1DJ=R~Dp3h;+vPr2$-YV9L&(OC%*HLGAvZF^
zGtM;WaCaVB<{Il(b+d54yb+~#sqa$v)z~W_p*D+j`vFgVOQ9ZcR4TYtH^jF;8llGT
z9|?p>-UFF{>O#+%8ys6(ofO23XM-GbQFA;^oOt?n$puL+r!%Wbc1?|Nl{q&biE9xY
zJs-FHX>iYB5^E5^g?ogYeDFO3B1Hlbk&=gv#p_;;1l|pMOwygcC+Z4YG{m%A4LlM{
z-ALf?8X!3k`?(zXt~KdQ3Wd&z+hZe*zg`FjQ@dX_>p!=Q;a`dP=5Q~uKJT7L`kCEQ
z^o9_AThG=52Y8DtB+cRJt)zo4uFcNeDa;n`!EL|O0r{oQ=#86raTZ}fY%o?yKl}&i
zOY!uhvXMLVZ<DWX!I2~>NNfM0V1wlGkt+dkT~YJ)$7ikB$;Y+Cu{wR-iH>p)<z>LF
z?KneX0OpDlP`#h4`2pgBV#CPP$N`xF<n|OY+Ao;J@0vH0{WMTJBHo8S&-|w22|L=K
z!vS9IZ;p?Cl7+HoYWsMU0RjAB4g6Jdcv&RS9dnBG2=Jr%iJX8RJ*Ec0nOw*+TP*q;
z*m3zx4`BcLyK_PCok&XPO6m&cU=!2b+#aFyT7l+YzZH$jP@5(He!%tq`x5~U_U~@(
zfKGV-$p%k<Jr>A;|Mpy{zq>VStQy~E-k_8NMd;rR8<08wyIXUb7S8^kKa4Wz{zo(j
z);d9L2%R?e2tD60AS0S4fBG;w9;7?Wbx8d$UlU^472kvFX-#3<#lpHSHF;%q1kN%M
zBO?RXpds8NlkeSLQ&#)M&xlTtPXMimc!|wrALi#yJ0v5)%0lLO>zTCc4`>BAzHa8U
zn&IYm>aKBic~&oF^0b^-f$&tFvT3>EpnPFyZj(zcTr5C)=E^((RgdDWrxbn7<NHiQ
z{I;}RiJWw_daZI^R*U0t0`gI`PxtkVdOUi;+06`LjL*81@u+)Trtxa0&lhlj-1Ao3
zsYF<=Q=dcrLr<Wpqe<tJN%(F@-bISk-~BZU{qOF~_Xka(U$nnJq><GvkcS7Z%jP4$
z5#4yjHT-|2vmk$6ZNwVw`BdptPL}MR3n9h^mv7J%Tqs9C@wj&DvrX~qH}Nfz*;ZP8
z{rRi-*3Ir&GnTVGkXtJSZ%#xA|Mii=AT`xlp~lt4g)fKzK~ye%`$N~6UwAbCR-y^)
zT)?F993D-UMlcYIvimA)Mg;L?r6Q>BJ}r6|?3EJjbV*@IFnYZY<A4crLm-Ik3)@su
zrdxaTva(m@_>3kIcxAtPBkumR`JC=mZR>B1BLG<z*uqFpH#o@G_-!%21sttyKhSi;
zUSu<#QFZ#e`<8WAIfS>?w%T{oj}RZP!*dVN(fZRqIe)9Ot38GFprQa}MEV7MO~M-o
zJ)m(S!8oVkVWQL1^D*OceJy}WB<oGdI~xj=T8*ORN(K?TR_qHjQ5&QiSST2t)^>aB
zu(W9xw$8<qr*ow(wq{rikOUT>T1Pc^yG6k0NT&4!njT3WIJM4o4woh+dwU<&HBIeL
z%NHt)4O`nDpUVCC>|3hnrxqsQlf?8w_|D+6Zb%RL41fXQlM7Lu^%c^v@rB&$^3{>v
zDtiXN%xwOw7{a<c7g5p=Bpjx)vCtqKpLgQCC_S2U?TzQznsMi00192E-@3)w%%n7D
zJ}TCv0MIcTqC34){iB#Ir>Ac{spyU{dzGm|A+t1B&K~NjsFejD!x>jP;~kM_s-aaA
z8kfIg2j9%_X4%%LA6#3nGhq`!lz-iF(sA-w=OS+Jx8qy#@sd5}KAZgW>-3Sh{2sn^
zoIl$~Y_-+Za{}XSd=D6_mQgPmUW@yOTk9VEgm4;ErX||zw2W4PPdg>CA4EC{?X$fc
zYd_g0wky2ys=rY28RJu-8zZ^|k2Y@%(|y9XS;3+Ec*}AP_lCt}x|$ZtsG=xKJjFw!
z<+s;lcI-O=lcpOm{$<7WTqDr~pTyxs`__1dkzD^Ir(O5q>7Il+8l@a`EJ=e9q&g~b
z|2U<E59Y|#-vJOw8?_n-vGoyf2~P#tI_8=24?Kioo7-$gHc!~SO~=Nd<&$LqZqSTS
zS;%gEmB5!<rfHE-kuTNx=I|6wMKm9LQhxnQcq9KxMpH%=fa1{j6~&<j@9)Zto)y9)
zyCfOmXWOlrstD?(r9i8RXHK8)nu&;MEO82JsOXv}4SU)6$*^J@BsXaRNur)v2tKnD
z8G02ii#)BlfB3M_uBfYEQuj(AqDJ^lw<gbnc>j}rNlc?kFCS#I`hH3E1L<pANOpM7
zu^6bb*JJ*MIl{=G2lU{`K!QWmOMUV3ibgev#pFDGk+@@vMz*`S<lX>$YEJ6-22+<$
zb|gj#vliQaUifmU*F3WdrC>ZLE7|GsRMpnE9_bOAUQSIrB@UjT+b6RU?^b{qGH+-G
z7*Nb-sO$k&#47(Q$Jff*IbJuFlQEzVZ>WIJ)I7Ob73=o-)SB=lAiDH?c;OjygkDbJ
zIc6Heh@0(6iXuB&E5e|x#FvF_R1ja;*iPF-P~2+9OVCRbZhyk{!9E;yA|5|J{h@G;
z>!;LqD~Y*F7qmF(;?k$Wt*`X}aamtJb>bFanGAoCBcxn*om|#z!K-0H$k&LD)UIbq
zO7#|LFT=2C&q5CIkw)L>5>tDHJGg0}WXVZj4UJNi%XOO6X`fm3&CM|xO{O2zv{PB>
zSStbJtPRUnj5CD4?1{7M>B@E()Fky{rAFmXXM;aPKY`+Ppl7VtGT-H)-mV#NdVy)z
zOlEmf#&?gxr)&;It_$z$TU(3B#wUAZr49A~s_|-1xL*Fc3;lmt3;i!_ZTycaKV^bR
z&K0l;=>99zg7AqkEUGi*emQ~V*?r!tCi-EIrzq*-3q+QWre0;j-umt^X%v)=Etqtq
z(=04M+r!WhGrGJOX-sRKoC;{$+S(ZMiDssvqD(i1`EwCIc-wBS<<?AyWUFp??Y7c4
zVcj4_Ew6T`B>Hw$i~LD`&?W168}FGFY|+$oT(st%2B4^~=Bxh8zWCc`nv8%ivloV&
zF5>074?m-PE`}7^=4r`P51Y<#N8JnY8;k0gca5?ZC*I5_-O!CZjLr{V8sr}p`{r`J
zS7u07@x<NdL)<y{Wdk=G87x3Sse7==e6mglP`i8nm3+S`tpmc=<l}~ibXcDqAhWDj
zuGd;~zpJPip2>C*?%pS8@OFG;GV;Fctt!WGW+=5C#+I#0x^<k@q~U)g3O~Cb7y8gb
z-1Y9T=eG=w&}5dV&&HZ}eC~0ETu+GE8zokn5}+IF__40c(?BKS2#9gw&EEv6r7+Lk
zsi}|GO}wY)<9xEB??KT%jtAAX{p_$m6l#}wf(Y)Yk>ffhM;AG~v!wrtDmI=i^|sqi
zpl*xkWPlPvG8xC-cI?;geULdZHWn*tJ{_;36&IAZ!SFmTP=jB7Q!N+mN3k0k21qVu
zoWN@n*CZ#obqR7&C8~4QaD7)7*sTWDqui>Hi+zQlL^Fz+9XvH0>fpi$NEpKaGK+os
z<DRaDycDMe2hxl(z~$jG<S2!Gev#OB^?QWr<(~J~IAvy5`K}G$tEd^QcAe<m(Pb+x
zZTe)NKM8c?Qg}@F&?4*9ncYSz=9A6{f4poZ8gc(PbB~c-t*&lRn%8<kdsQ6AXB8!2
z{z8I=?sC+%c^4T*EB_8bf?Rl$HjtQ@q@N#qK@+yM$Ect;xOb+o>V4$?_w&)Rx7MgB
zA0+JHN)3rlK#RIuLISz<(1aXuYn+%kf9z^_oKHRj4;;E(S2y6<r(_^HwK66(RTcJ}
z@_-wq`?g4#bwCEgNFHyIA1?D`yro0mnJN=oHF_`9t4NDZq{;mnRFpR#w0G>J<GOoH
zWqh0fkXY=9bAX~{*H?dfYnr2Lk5ZRkv|K>g4tb^1=nXAk2s{m4G1&sJmD(rTub;Xz
z(K9fh^)pNTzTQ<n4fsjMfq!&#(fr46S`?7&c|)F`xK)Nw;Q{=_cvuD8r=$FJb7v1q
z_D+DQq5MMurt2}9DOze)fx`>XM;e&pw*eO)AuD@A$}R?u9`%hNTneW$iG;zppi^?*
z@!lYc)j;(@r!8@Ajd%Dhlx?m<&A`O!=;e#m)lD~PSv243)0Bh2?M+Vm`p2*PTcOmm
z{bi1nozT-HjVE4`%<CVoJbrAEDNf6y#-VW6ZF=6Ga@wh*SbsS2b6roOsi=b0{Tjy`
z=e`#Xt((iFp^-fiKmp?}*(-JWAu?Q1G-t+q#*yaMJO4Wz7cW~?H*nh8a#|MS&f#K2
z7g6J~@a5wKWxnsoozI_eZY%934AARG)|#W56C8G?HYi7;$3C<_aEX|WFIzl?R^(hL
zMqdD?;=KkBrN(2X2M|2ndVAxYZZBEoh^z?FG5PjiJna@UBDTy)nfJK7h0A(H8IsU>
z7(w*VHyX;S)8u>^&smG1q|Ed^Ol?Z*%%tBdwb)MrL{!c>-FW-xP-Zi@w<$+=sV_av
z<ngKHgt%`dOKIked}`QZi*9JOT(^?Em%l`RYbvxu$5Em2lb|-b%F%Gfd4^3>ub7i#
z^>x(l`)>A5a2U|e07bxc0h$A5idueHDD5ZSq_j6H#>u)2Lsd8O>gxP#I5J;}6gu1R
zow|m029!ROeCKd;ApsYON*l)NwbxC;HY9SS{NMEp<b<_Z9K<DLXnX{5o+uz@V=*xS
z5R$=2lN)|gT++OTz}$0Ok3GKc;nMJE_<}A&?~9-+kWrnIlN`H?U(~K^&>SlSJDW^+
zy;3uKu8D}mHlC_RfhC$9+|IW5bElLh=5eRW#F>CHK(-{KW_<qsgMk))gwjBh1J1>x
zGqoprZ~dB=;K;)0!{^_YVxLCxzI#ho)cEXskUP`m%QWRg<ZXfmio}j~z?}XTeN|mY
zU!W$YN2}2<BxVLT>GR&`1|mK{|M^hr4w4$sc$sU5oiZoV-y9-|E+|3o=sV@Yll5Ct
z1w+RD+hpntOy7K0F$O)$ju3Z(-KB<Y@)N*!GI4UD$`E46ZYSF;eeGb*h>SK2+~pzO
zowG4}S5Nax0O3BRpH#m9#oUG3*6q`e%)y&9`73iwVoh33^Zp(>uhwL*kEE})**`rc
z$rD?({B@UIL__|ZEpIdTf_*!TV+P*e4s;W5;zi~n+ud><HuGQ;jwduXWP~A3*F(5d
z6|YU_)4ciYW(Di;w^(>wQQGH*lLW6Q^A03Yo0e7`tx9aA+N_5>6fQblMy9@_dKk-_
zDVwzdhjf5xW`XvQoP?tr+G*JZS~y0-jVl6M?=-}oSSa4$cz}B4$yZ&9bB#Wjy?z{{
z2z{FUnI^Kyxn`Cl+$izZY@bk^N9$4XPG3J2jqyVB&3zx@y;6jD1!35{&%AQoTBK>T
zG~mOfC+Cu`vC7%0b4%5zykGtF#QMx}nxY1F4y9A5_0(~WQOqlHo7urzRQ_u2-mq{~
zDc?sbRlBL(47%6$g2|%qIC~LK2-Im<Fgwt5Qr^d}bb`p#^OIa^?~2>BrS;l*&FJ&q
zk;|w0cPk0;nz##j#2X8eV7Tl4GyHxs{&P>4aR$TK#ujeW^OHd@0YC-ck5XhmlQJCJ
zUmZ&tKR)T()9o6pEHKjKfXxgGplB?wA%ujoB)Lzlr3IJe+VP+GqEK-0l)OzVpWCVx
z_*peF+_$C%))l}5<jz8?>}p-(dko^YmbAiw4JgU6=o#g7LY-%iWa2LU+ms_Cor{=_
zuLL^N9C(hEcyE)lQRv6!Q>&KHX9(7N_;oClB;oJqH+KfU1Ete0oSw6sz4N8&;q>it
z0q%$kMOo);8td-s3O4KF@&orEVRJN17T9Qk)`pD2`=k3yUwbv`-esmd6JSzewD^Kx
zK;c7m@DCfprR`NB)iIhDA{`s;oT~BHA!$^o_R{X1I!|R0{8m07-o!_d(3v6DOjyb$
zKuv<tx`12`<IUdky2Z|#;?rkNeF^4edg88$z6m6+GdW1AL^-@+JNuYP3pWAMDVjU9
z7p<c1vc-H#Ww$qk(>OsiDkcgpGYJ>%z;G)wti-`3)dm$6aJt~}%9}asTrv3<OFNAh
zD}JiG!TtDBYi~lvHOhPwAkhmBQx<@mwEG6fytTC_P_`dbIM$d@X(qYfVQ2oSmA74%
z1}$LY{a#+Uk%53h&7B}A;dML6C!6ptOSQS&C{_n!AA)kJ;=mf6J(YCthWh*sdA;m-
zsVIt7DDzf6YX3b^;e^hGHo?TA<Z#R2`xg+**SU6KlNx%&%#ugeC(^oop`j#&yq<*_
z0eXLteeDnVuRc?2Upe;^h*_#GeWt>?5ztISN6AQrDW4<;&zn|F9eZ>@9RjT+@20$s
zS)(1gcS40}P)=%f+@F5iZk!=AD%r5($P_^xEEsn_Q3iQM#+{XL0>}Thr}-%|CV(HV
zyCB!o&%K%nWSOyoE%^N42Po|!X>qo}z0I%n9h_VCP6+0<kP+i+A~!bsvwQIQ3&<#C
zS<*FPDA2K!?em!0k$eA}@%JCaY?DqG7#pNyXx#T%b}UevdL8fCq=xV5fibm+!U25<
z#)UzzM&wxm@e(4^G=1|!Dyv9*+hqm{g*1^4PTN2lkOKzujWUENS>|M7?%EBZMO?qW
zVJ_41`Z4LETv+MW{nXJVQ_kD87u)(S+@dhh;QSuxeut*j3WD{@tH$yQbxOhWTQM9i
zb`jdoi`Lj<l?&Y=Oc7g4m$Kt9!N}$+o`lS-Dl=sfCq5>i=J^Ef+L0lULbI>vy`%l~
zWJTMD*Rg5+H+SZNGNJq~lougS%qL7rf*%D)d?86<Bb6kLg7nj@hg`ol)L-C_uj#c_
z56^65!+|`8d1}geOk$Kz5QRFCwI^fZka;tG0MC#m&9o_6M!RleEBa%v<@H;f>~zX%
z=b;meW8+-bX|CC;H8pHu1Cx`T<((xPix-}O#5xmN*R*67pd5hRUYf!shbjvbxpfEk
z*3)z@STP@H3_p%8yYC<n_dx4JT<joEpaR`~GndnP^o3rlJCoc>T3Ge^+S-?WJO+u}
zBbLwWC}WwZ-M$#LnKe`Oz0_B8{F%x9b2v(2l0-S%lt!lQxnN1UPR#cLll&|Zx5n&V
z#01m#1S%DyiG{dzSTKeW0l3-SMxkm$OHC9FSBo;mq4T=cNG|&g3jESGHgh9wUO`ER
z(<}PU#9rejNj`pc(yh+h2E`S(me;glJHc(Z_7}0h)W?Q^vN@_x@*wTIQExs#?}jA7
zw&iw;U;ZnpFP4Av?|;ij94$$~EZWrq@`T=G&(=|ZD^5WK*w-hE0loD+eC=^~66Vm#
zUk&p6Ca`)mYx%zi)1r;gBF71s#nAvp0IZmjja+4rS^M)2*S}`&{*RYWar4jkL3g=+
z=@wN8C~|$LnL>_TB&z~#U&VmKhOjPSAQ+(BMn@h9IGNlLAQ-4QE62{|UHr(~YPFVs
zOP6xbn1;ubKgc>!4TQLe1xNFV5WzTlXb6PwrG@3kS=~_bd6A7FuVILn;N#e7TTYrl
z|0}uVIAf-w-kYKfAvEVu=34>hNY{ZV3r05!cLK=qdCghY4BGbaw3itl!AAEco>O_t
z?64K$p*W$9%&WTi-lt?qgrs2|QNgrss>C6@pUsEr{$1X<5MPF~$!OIi!O7d*cMr2y
z%td?19OMxUkb{TS#PJmhg*54NPC-LRTI}PJSmf4Aj}Yh<8|#Kx?wwQTj>fV%FNx;e
zD+ea7-d~sy{{q|QS?+YDG6$rz_!_ZJQ{koJGET<TNq+t<_eE_Jr%(0sc3I(3q4)5}
z7gb6pCe4Iu2c5;g5%bcxXU>P)8ap#Q2&TeCrH*DLR@VWCz5TaD^Dl1j-#uf=LI@YU
zTw5`90|6CYB7Nsd(vWt;g04zznN{V6=!eoKEdpl0!0R2+HESAZs>aZBmWb;d1t3>f
z>QIWu5g#*?`LpZ!-p1nH(oKhEUS=(NLAjw0^tz!9)#yOd#XL-mvdCKY!xXF^W!+oo
z&g9pg)1A#)_h~7I#1vo?sQtTjMB5S=;wNHgu~1Zt<hs6d(+E&G%U&(d2>9?Ye@nfY
z-iB?TDq^#Rg8Z?C_Bh@1DHi`VXDoGOA7V&gD-_BsSY!5auv5e-ZgS|aT31*bnGY6_
zV#2z90`j!WVxn@^z`|q&x?L2K)^AmMZ4(Kw!?n!MsnfRy(NR#Rbn4xCNH>a!{AE(D
zDuL*}z=B_n*|agZHBkw!oSXNOk{uB$lVu8y_RqX4vkBHEC`bC|IF3G9<Ffk(cJXim
z+P0WZv)bL8KCN@@L)Q%D*v;N=$Es7t6}8Rp>SESDFUX{FF1UQSaJjc!sf~)O0w!r?
zM$Fu&92FR>HuVCtlKYddBoE0HB<45b3m<-{t)on?`S2Z9J9h4v7mGgYz<1@#CJ;Ru
zRF6uh<<2mEeVL{C+VArA=CDcaof1dU>?D0R>6NUA@z{SceZOSm{_L3&V7}uqTEx;^
z2k+}uwWoXX9lZ}r7@e`Y>GY3P+?h<2)Vx{rwLbz=Chxa7mA}3QogGU3zPuo`$yf}>
zb)5xz)w8=mB1lgqx3;}Hzkfr6)!`2Luk6fkd>-$9$~SfUmRn#`NP-`W@?{~C^l}dv
zOrjeEPd3Tt>ax}28Vf$#M$BH}qGyB7C04`@ODGWz+%I%TguOLVKT*(1IS9yfxgBSC
zLMQrLOS4ypw2Pg5U*sKFj%~}=k4SPSC*2%>5L^6Ocuyc<ZExXj!J2kTy1r#m8xTaR
z{r}E;_-~Nw`-MWn=SA=U!V6czlrCGwb$mz~dXpn!&Ge&>9uUyWe<=Y9<rMb@TM)_n
z9E7<J%gmrTUd0<(tE*&m$E-xKOe70rTHS_A<_F00>^AIy{@om0(fv6O9H%(ON%B+*
z+d-Q$1z}MNU-_t^YSKC0ZzILhe&>)54e3IoY8G>sH%5vpV@mB8L^)3%)7n9E{Y%xH
zD_GeLo?buzXgT^I9P*f3Hw>shKg|a$QZE$y1OX_<WjhccWU%xP5Lq7Ppl`I7n%?!{
z?7|$;62c8MyP8C30L<7=P@rFz{+}G<=vIVsrD2`>PsCa>J5Bcw(4lN5fTEb+)dl)I
zy+pRp|D51aA6kHt_#A$KNbW6zS*ViXEuJ`K0K6L9M!=Ax^E;75MF2iS{0hO>Da!$R
z(N#p$4-ic%@&||qT~(01E~5}Cpc{$&!{us_Bz|TTeREL;@PutknLvU~bW=q5@Y5aa
zKkwj|?_fe%lH_IA39VFbfz_s<O@&FM-Xntum|5YpJTNc#nvV?OsaG28+b|47v+xDi
z)9{zN&(~~&uYQ*?gH5>ZKPSfR5O;CGwJ)SUTz)V}=5xsS=>=brM6RF_iI#6<Ux$^s
z)WG6hy}=3`+6K5nC@iGSZ*Qb(j)~W=b7Gc!fgskShj~cGKUFsEZ*r_h`+$T&40PtA
z%z?jbt-o$FRmH#Ae^yI7KZyW6c;A<m-fO8&nq1=85??ZizbO);@pIug@YE(uh}gGJ
z8`Lp-u8{z3#c<A%AfsibA3U-ryCpnDYu0xsFnti%{5-hf%`VJ*Ku5M(1z{$BuxU82
zc6kjzQ~*#RCTW+fqmJtX6+ZeTb?#?Rq1zPSR#izhL|m2YajN1^+$}Rcy1?{OH<|P_
zQSH2IrMVbRaQ)-N6aM3L_Rm#=0&`tLGm{O#75#oC04(y~FEEqIyZXTL>xdWX!u)Y5
zWdCu2CGID(_&>~l@^85$$iIB?f3leW)F5b#I{GmEH@XF&Vf+~!`ZPlA`1OVt>a63~
z_1PjXe*?;=-cvbJJ$@ot3DYM*U>h38L&1MqnqN)(|It>?qrza-8l9M6WuEH?K=Rps
z6R9ysg`Z3-^hy)rdr-zK(=M-AL7DHn@|O7gNE05{6b;!&hN{^^#OK1Av>#VU)|=j}
z;G19_0qn3gW^r8b2dE+x*f<8qi`Oh%i3gF#ZKOi~`}uA=KM^OP6X1n|?ixy*T$jv1
zlboR9HVsKBy!1l4U(T3r3a78#Q<|C~m>x-rsEY*$DYMq%=K`zfq2Nb&&)TZn?9Mh#
zG46x%TOYNQt49Y+Z{4}G`7*HvC<WvIH37Yo3jIXVJ3ulFlW1A=E3D=(4A0+&4gcZS
z4?g_>@rz@Q{c3kh9e)MZ+-7tHOco?!?)O0?uzUVK&;$h({juNh4thd?tYbevcO0H7
zM~>~VF8&W)JIkLpvbzEFW%z4j;!I$tj`goSc84uq`o?b1^=G{R{y}BeKRUqx>%#1B
zI7@S*UuzqlqYJ;Gk^hyP@uz<doSLQ&g4fagE|Ug6Vp@kB!esn)VPeQO8R+7uGjv0t
z1i6YB*;D#cvMmdME=2(0{YeQR#J5Q!ck@DifVA(U3tcd{S;+&M9dr_AK6h@%`7Cn0
zBl`zv)!ArIyq4tGMV=?$r4av@5cB7`@=q`McYJ2OG2|lH2axIg^p94=gMTxe|Ka5a
zC<qZ2Fnc4=bO+<d%|H)nQJ{r{;rAhn@YK6N-=)8ui`9BpuX<?Vij`%D3kRp<)fbQy
zwBjh#0sVpxQYU+u*#)I`7zzqv9mP0tgIhnS@FlA~g^*;HTjvhNtf_!~I|gt~e|CKt
zp91*iNcQJYe0J5(zAeT2OOrSN!fK6R1R$(k^SUJAP3X@)>{uoxa-{-(7Rbsd=#u4C
z`0D>39x)LYAaI<$L82s#-68rf9CP714!xVXz)bKAGfLAnxodoO*=NW_HUVq3vm8Bo
zB0Yb&b(8Z1Tb$&^0HL_G0rjHEgrM7Ma;UQq1X#a|Ss$o^UZx5$+X)!HzxV#|;WNdv
zKm|0bB!D5HZ<hH>)ute>n-5B050`;UyV9-hoUE(UFZi@{djlT9!YQbZi}J;NW3i{?
zr*7dqj&D*p5)b&W?;G8nMksCz;3tUhHfW(8t<S&P9i6VXdk#uC)%3OEAWdMOas@+l
z>VJ;;X4*sxxLv$JG{f@-YzfF`k-2u~U60u$Pav@xK)lfdcx53?L?Dh)i)_s#>Q5pG
zy`a5b(f2@V8?8(Ygc|qpLSz>2Op-h5zuOUe#eaaDpn-A*VoyjgyjZ+cdloU~W5PE+
zJD)>vR27)jBDXuTbak=`eDI*6A;u1>n)8L`69yo2f0w1jY}^|F0;3v{!=x#)(!vkW
z6Qsy@Co&z7VH9kWJC3>zB`0;k45pAhO|UKSR~6;~wZG*iDeml&p<<X>*RLib>C2=5
zGi1|TZ`uDAW%<9e+W+eN|8o_~)mRKT{=ua0Ka|h@t$`a&{MGWw)TQM9^;`%yg5Q1`
z!Kd4m-7%8^YX5z6K~{3#^$bZZ1<|J@klD<Lb|{m|P**(;uq){LFhOrSu6#XUbPgOq
z(a)4p0<(0o7Hgo~2w?qk@5nmWz30uDOYM|n9*KN=SUJ8+$N4SLtG6CkVJ42+4Uxq)
zAyS3wgKx>ZJQ`<|r_4OwJ8rZ9y2b%#i2SaKhn82@$QPTHALcIj-y;tc%)JlTRm_j2
zUCDmF<*r*`lB-LXR4J8sr>FmPKu61okvt1Dk7Ix!F}dLJ>=>W$=)-h5pUzvxmz8S9
zTyw~Mm{Xnt^tSk^4n45HvK%yx()z8MSJ9K0_kAg^g-F7%5X`r8Z~(1xQV$8RTHAwv
zMy{yRgkbPSGyq!AYKGOaxZLU=`Xq~cS)2EhO#IsbE`ZMP9E&Eg0)WF#U>VV|W6{T_
z_<*<D?m|d9KA!r$jVCAC|8O>q-(8Q)%z%c-2D?3AqkeY?$nVcG=A*{*&kOyBM>NAa
z;4_Ba>r|8v1gt1?f$tQ#?*;N=8NcaqNDHGQ`-yE`d_L*IVIXQ|7Vf>{M5}ig#EtqI
zaZq&Wn%Y+22Jr|7*+?dM7~**V{xPbXew!5zx15@l3{~_BA8%qVDd2B5n#Ej+p?l_6
z?U&r)I@PF&GOxmic0(CvNj!w87i!@Bl0YlL?+p)Uzad`79awO@r+77%KPnW}1b&0~
z34i=KbiswM-*WIVyK_=)1?}mhsBiq045yz`*V_k2weT{ss@E!gz7!9SH%)&K-D>A0
z&j3CbG;O#(Un+s?`2i{~9hzA|7b4V&4BY;+;cn+Mjq#IbceR|CQ{GtTg3mEcSNfOE
zL-`&-&m#Eq;F%p<uerKI3snVcnrfYk(W**e=K{gNzY9$t+V9TfJWln^4u}vg_}MD`
z)4czFXZpAD1pcp@ch;|vYMSm9sQp~v;dUgVx?#k~xKFcU+Xs1Rf=b1wkLR_gk?mw`
zKg)3;S;A?K6(A*dD3h)XFAkx<KGVhNGEcgDTF_9Q=J&2k)EyQD8=`IyU4PaSp;hF}
zBbu~Ndip+$wn?)Me`;@gkQ3L?Sg}~K=3g!vahyVC`h<_f?#fmwI4a8#7&c4b$wn!W
z+Ft(W#ab)KEYn7SJiM)St@S55>(6q2uPc+U0zr5~81Ub}o4Io4<&{JmPF<=qu}(`0
z-_e+Rx?!aNNJs-{uT9yc<(u8bMP>7Dh5gFuY`q%&16v`AFMhrfbNP-j^#DyaO${?B
zV_~{o)wjYoxiqPtm?U@744?`1=E@kz+NoQX?DIka)xZ*QbV)u?YFhfa)MWE>sp(zZ
z@aY@Htc0-*!-ZpAtVxWb{*gQ}V@n%N)X3sO2cfsP#h+%qA3yUT!<^>3^7CiyZ~Dip
zu^+BAUM+r-6(OSj&uaGHyvJW0ntx9<`{!u=KkLEzYp%g7_tzYR&SOD`|Ha;$$3y+@
z{o^B*Eu@HSQ&B|7z8eyfkjhRfStn#43?o9;389FwW+(f;WKGs=Bl`?xXNHVnmcH+E
z?)%*5oX_WT?%(;H`}=tOzTf+I|5129xaN9q*Y$e6p3m3wY1$3p-bO9uZ?$1;P9%)M
z^e{oGD!PS0i{Q2I6Rv8OHy@9@F`Q>D32B|MXJilpc|b8c-+1ey_T6G2Yz}wP{8#Zw
zSk3Dz-g#Lh6%o}JXHY~Aw+N){%{z1PKULX{9)A1s|9lqab^KSp0zS1~4f}y=%=g^(
zO{A=~tNMC^%=%_wKiPvvv$LBULk;Wvwm-y8()T<xpS=X2cetx5+(~)4l6tDMr?o^y
zdIb}Tijzs1XZ(a}l}1iP{Y5134-###QV^P1qEl}e1b6+Y!x?m9Vu?Hc<(bhn(`%O+
zZqQlTnK@+f?;kLi4wxq6tu!w6A1@G$yQydbs57d5;@CUrMjh|Pi((Mba8VJ4lNEWh
z=Gk@RpN^knsI1jg4xvrDrL|UppwAFyS<%8%DYcDmga@QJOYh>EdNJx(vm_*G;`@^v
zr>nk7S6i+Ho&XFZ84CX=&-hJU?f>A7NW4ZqK4+nS?CBZ#<y<t-wDnQ-T`lEJGpi_X
zzaL-sax7&f!H*A#)ep=n?Os`}!|yM+U7|WemsqE+>}}apB45}FoU!PX&5fp@<NP=x
z7PWjHtI0Xsw_W8H&Tg@N|BtlD4;`?VGwPOxXRffGD34Xq!wk|=*^I}TTO$f;K03Xu
z6yH1*r!C$4*urEBiwXv$YTyi*I(%8_5||OzK4(EeKD5hN|KgbKWODNj^X5zOQTp~F
z4@s-xE<+aRLt#o&>E=)H*;$yuPnaa{f~BR7GRIlHH`C-tM<mm7A}hhK8aEt!5s!KW
z*DnE3{MYRSoDGyEMA`UxR`c8V8y{}OWa#$&Xc%>A@)b_(UZ`Gqp~C51ZZ;1nM_be)
zeQKqge9oOQ^mLbe;V{D($3;IS`NUY~hDMJU*$%(g!B0CX!!vg;V9&i=U0h~PWT?Y3
zdgJAEN!N|wq-n0FwV<^G=s@f7)mkx<2|RF;ds1#3+cdV7(<s7}>*By8Rk+DOs{pw4
zn3;C=a-wQ`V{LI1!VBAC9ZZwNCINq<WQ?wI$Zl6o={0;(xgx&b>(ij;Z8RI8*+x9X
zKzLwoUED(`%7=)~748p7p80*}vYdUkX-bC&^gvTR8Y1l;%<v@=-$oEUF>DFK3H2We
z^9;n(8lm@@W&)k}3|>bE*fCagr5tyO($aZc{WzF*#Izn@zgjMlz_E$2U!d;P`B26B
zucq1wXw8}oHeubEil)PuZ+6!@Ro!2Vm`ajZC4usd<<iAOBvD`1jgqHldfEN`d;>TX
zO9^fEYCYLD;Vr=mNJg&nh|3n9-@cQEe9Kjr<L|Ds#Re2IP`Ev68yNy1*iXs;^lvxz
z7YL~IpleHkBNk2IX#uJ}1hYax5CI@ryZipwGTnsxFHo^fX8wKKUm%mV+umLY|7f9B
zlAF1N(o6-^2Cp;==@WI9wz%9`;_<YWAHxuh(U(p`<YYJEV@HMe70Ll{Fyz^gw?r8D
z^uFB>K2t1zLjV)PkNZ|TBsFyppC;fOXjtl)9ks{&<*#_ef9E#ee>MOV{$tO#&_ANV
z-Cq^Y1Gcx<9e=@$|95=-PjKgRcfUM{3AwHXS0!Bt$2BjU3*sL#7FW5tq`V)+LFKVb
zCfyYKsk}@}8MARW?FOF{vs`r8n#h91M<ilwqPfk!x-PHAuM?VQk~ighX6OnXREyy%
z4bGSB%aCxO&0<FJ#y>a#7L8VpRWZDg+Qma(+OFsiK+BKYS+MY@hO})&z%{?JR)Dnl
zh3J6Ehz4Y#VZ~jI{<F-6T~(TDnNQzTo{N*@erAK=d0+ylqJ*fOBUW5anyff6SXT8&
z(zevem)RxIS^B+T@r)q3gmG`QY5J<UMf>vw<{;KJ@F`a}w`(<Go@V229JU!GtMTtm
z@kzQD)om++p7egdYp^tQ{lsuM0Gi7{!j#0b@>WHkC#Ouu9OZUk?+f^ixy)<y(thXS
zD=y8B7NkS1LTFV)F~ed0DV_ah;x?U1Ay(Zo(u1w~RVxEDcobIQXUUcxAaFBTg9}1q
zdU6n@Hmj3m2^xW_tMXrEJpAI5-Ux#)wu2?q>15YsjJ^aH=B{nzI{Elql|hR_8E;&v
zcNtYMruF1KRneo{Yf<;_N+N&sI(tISHal>3qQa@d_&Y;vUV&2BeLXMn_zEqur6bvy
zl_)g);tDa4#7~y1Y|>Auo1`;+UpH^-Enp?S^E}}KS@bjFnH&m`9eP1!TC2Q1u6AKV
z((<971M|6ewAauc0grFI$XGU=A;{fzsx=`bR|uY)#FrRpadl)1cNFjigBW)!?lr#&
z;A5Xm5dv=g%kjVAyC(fL2KqA-_m603|MIcFVY_;l{!O)Y?L{e&!qVa`sZ6FopO-$y
zjdWHF@w4$L3bI&(*!7wR=n555XaFcHFUVw_F#IhZ`Ougogy<_F1B-2iv^D_pazQ5?
z|K(X`M+qMbZvyo21KN&$I0r(g8ia-YKE&&SKL#$<Le|ax$mHoC1rYzt@&A<c2&NRb
z0=2|WbvVbQiY!#P8h@hcN`97&12eSXhMwjH)k=?-zd+v8Eg?~wYIiAVLDH<THq0*j
zOj8CZY`T=mC|M)#i(J10V0?C|a-XK6B`}RogLVRFLjVAZaQ}sNL?kOo9j-iPKYmS|
z?J@o!yd*^o;oRnP1SGu~Ur%jQaVyBTC}SKX_9rBgpJS|97t^B6XR0+WaAsys-GhFc
z9%unRVL-3KO(>Wk#G^fvjlSD|XE(AI{4arQCP06X>RJ89aapFfn<ZkGoVLZUDBQ|1
zN`4XuIzEwl7~1X29kEq`mu%&P-T2|ydUn-U1n!Q7nuw%q=L_i7x*t@k?{RtYcd{nk
zj(YF<CB`p3u9F~%oBIXoDUSqVuk3x2xmY#jhTKT=S-a=gN7mdM_Qc)eP7NopX1W%c
zw0<e_S3}xiC|COR#$0SG$4WBwpioCsXDx1FV=dslqWM{zg!y7%u(>`3+~oNGX<7bF
z_WXY~K>G@4(FgoeHOgbuu26@lQj~O+$AxfBBIl#jwy^#4%)_s!+^$mzZ6*z4Bpq?-
zw@3WJUbI_`A~`~wURTN+_UJyfAv0KsD|y52m?na?_Q0EQ8NKCQw@pDh=(Q2lyXUhG
z9|F+XrV#uLK^mviQ|bZcu<Q$1M7;8;mz$Ts&7$m^kDsCuS9s_CB7BARJZ;o2Qx7FC
z==eqbfR0)SuZkioxtn~w-=X*=-*UBEvNj<aVz9q<zgsAG;IjTtRch4Xh6bg%_4I->
zogSX0w15mj-#=z8+CBYrQmQBLeAF9oG~>P)c*(SLm`z)7v^fA1tIMkCR5GLY3zXSV
z)~(QQ?_eJ{6b1Cmz1-^r|CDk96TzInKpZ+`p$wo)D=YEVzl-A+XYo{<aQ^lv1fzoM
zrJPFDq0#~AShtba$t{jBzyxF^9J2a!6!Pyn`-Un&h^=`g{uk&49)W*gP1B_H7}4Q}
zK^~o#L6TXc0r!#|>e=B_h>^Zr#3I~=Y|N?d`qj(^mjSb-hU){dEiHf^VhesdNv)Cp
znUm{RtBIAaos(-7=f%m^nbSRr5^DL!XoxB0@_58nDGu`K*1|I)GG}2x!7}ii_P8}N
zbC)(aDEFR6)Lh&EVR{fR6j_Ztx$5gb)KWOTdZeGdlR+RDu^S<MREHmrXPkiN<24DB
z_)=8J6}&`<8Y^^io_BAt8remaez`^{*}EkWnG>q^G_#83!4jHdlb@9mX4x}6fs6`L
zC04pcDdjaWl){xNC}|p1uFaOTq){b%gZgFe?-^Ivh~8rN-8_e}lg$Xy^I5%YvI=zP
z7@XT-*V~47_U7Z3Ndc;Y%uiQi);X#7-U1aSBuxym6U+?f!>OfUBp96Bow)ha!70qm
znhA)=xyGuBzH5GhXk93jIkrS@a-`SIjq#eh=9#dYcdv7(FM>{jIK=!C3q|5~mChLb
zX}KPF{6Ac+-|@QsFX3vPghV#;Wx__g%!v`2W8NE*31a)ox3&dV%D*f|?dn4bJVZJy
z!!&dujGsqJvhTWuAMI{TLAhskuo}P@itwinp?=;5l-$<csERsdWi-JHAkf^;1~lOA
z1N@AmOHrW11uEYLNeS`wDxd^c*!Cw@&5q5tF>0g%uwVu1|B2_l3Yd_tAc(%@n`?l+
zTRu>{Z3S{AfO6j1f^aZAx~wEY*_ZzlfjnC{lQkXSd(5|0<x|e2b5f7e{*BPXvQJ5e
ztiAyh-^LdJV*0E9+Vl*6KfNW^Z@)l<N0fIEM~U!B>h&?TQ%*<L)paR82>Yf4?dKx~
zxWuHy<9zSP(67Inpa~uM?0u@feJ8cEv6q@MXmfvr4zLdX?R5YME`NVPZEhN=gO!1J
z_3tkOVAc6|7c`I!Aja(guA+Z;5s<&To=HCe#Bi_ecXtW$o9k)%72xUpGxM{C^bAk;
zV#?cf1uF4Z8VJbK29U4K%DG*x`#d4q>SkvJ9VR|1ZalmkNYbQ^g3q-rqu`QXgSZ_N
z0taoe%rkmE>wYY?uMx!xn=`#FR<>8+!uoj)YqhA4tebnb7ZN1GxEUUQ-aDg9w>+ff
z?-m-w2v;NeUDCxMkHZie=_k(xLhgj0N9@#C_u^%D)5zSEOt@iWvp(sLvrpWd3tSRI
z3Xm~;d}R|=c-IMnc^7oimy$=lvNHYSB1IHY{9sc@#bDtd5@~E`iJb&7p#PYUeT`p`
zk{NVy!{0nraWHTBW8e7%IhNRv7UN)nS(6pAv{0ACks>0pjmQCP`e$_}ihNj|&Teyy
zVs?o3Hm_`xC?C|WoZM=}UV>b^pF`9mX%X+7hf9)l4U5=Dhk?fK5Da)~fa@cfQzp<N
z|Itb$fx>}LM{a504={2Nj3ZgF0{<Zvd<Nh{Fqc{AvZ<2>?Ih>FZEH$=+*I9JEZ>sE
ztq_8%lgK<+VF`&X;MLjCZ8$l9G!;jmK-U?=FC7zrR>=`2->M#)+6QX1xpx0Uto^$M
z`~Q-~`nO>B-~RkB5Nj_gEaOC%z>(nU{8)se+u8M?V?<g%w+}G?9!;lmxc)np&yQV^
zC*LdS34?dXlK5VIsnI1F!f&DhVIBQ60s_ZhD4vu((_Td+b@}KVBu{RuSu0&xy_^(u
zkX_3XWLN$GXBgrIi2(9kxICssiBD8(410QJx<i4sL8w?#@iI~{LEq<Y)|TqpGdo3(
z)i|NWh0U48@{qgzYKacwg;?cmpn<V#x|5QBujTdbz;4}zvt-d1`zq+d`=>q&(pzhy
zFvBuO`}d4Ybks0^*4n#kZDVP6sb#RsWVK7!$x2udN2j`m=DcgsVV~-Vd3oxc;G?3G
z((h5upyVj$Tb063AARxXP-I^R0qv`jLH$%VVx8Z~Cbk9~B5w0lq9HyaVqx=uFr?&a
zCopJ3u&jM<D!a-4;ETxZ0SOl*FHr;Nw<*S;V!X=3!Qj#98RJ&Bs#SiK8bb*~G`#|Y
z@Y;z_$L(OpGeQL*Hm1WiXQ^C7-zB;bZ!jY<`;*(xw25Ue*i*2F*-TMmh9>LstukqX
z9<dh-p@U%$7U{Z3-z1v#^Jdc8n26zsL!=Y*wN$|H>ErSq>?n-jq3kM2)ui{1-C)+f
z-G5N~jQ{4%F4I&83NrtdV$SdW_Wws^sA6ZOqz_12*)7VroXPXDHCJ&#ww~zq0Rzy{
z$ca?Zl{TKB1;jBGR@gIp{C;vxq3hJOW(d!^RK-vJTaOU5RxeR?%c)~ZFrCGSu5z|t
zpkc)yV`n-z4+e&Kz&LJavCWr(4qEV#wwktH%ay^D%{~=({s<#{STifJ;6+<H5EwCQ
zkZu69)_S0}M6}ifIQ|p)m8jhcPw^EryD30>#f^ijB`7@MKtvQa4k5?tkY(w%m;ihP
zlaIi716YfI(PlomL@~v4BT94`L3C!F=A_1U8URG-bud*shsqsF0J6-S=VNWS#)w~_
z_yWRxstIp@!+tl%F68%v{mqOP{%u0z0at&4L|N=+kFZgP;NOo26vZ+rS%}qHnH{ot
z7N8O3tor5`C@Df}JJ4MVj{JiG5uJB~M%sS5a{E#_fkw++S^h7GFP-mv)#|fbb$&k_
z1XBQUv^kPz2BIXU0>mLV(hl<d@jw&G%E$)DcYiw=7&i{7zO;+5C!OSvUMleX1<L)q
zQ(%P5FfFOZ06r0frxP#D57Tbp#cD9LQ(Q}f))7?3i<r`jv#@>)(B*hShwE_Lt@>pB
z3&i4c>6i!gx~>skfseId=uXrO&thG-LmZfetUa>Q1b;HLzHBj^NWOS^T9<IX{AmGK
z^>3;>{|UbVAbExVQ6c=d$KVyeK*z^{#t8F|0G_)I{FJw6I=;W#`@6{VKQ;|O2lF1>
z*(MlFOV-5_vq>h!r*5EcS5KSG+T4cMpB5%9C?C^#{-Nbbt0JYSETU_8x@obuQ-Cxl
zeKUNim%HSeRO$Cb<_yGEW(t1Bm}^h>qP(4_4q&~YDDkO0j6g^&*(xA*nkUsD&p3P3
z9*Wm6wE8i)Vd)Lp172j5Kqm{bTZr9S=DYzY8nQFKHf0e^6t+(*+c*N0Ca$1t-BfnJ
z^g6$A^q24v%A^%cJ%R#qXIpl-rKRu&wOCAxiQUAK=7q{}v1x|O8VB#BJ8kRf1V&q3
zh<Ukd(+gzw{LbXmylPG#7v?lB*9TJ4OixTN;DR106r=b{O0GfNcEV1>oTo+gA8FA#
z>p76x-c;wWFnw(<{r36$?d2t|ANSl{4wD1#=a2z4&j!4wDG}=A_ndldw3IsG?K(MB
zQ4;XvStR|mfe<n{0ChWVVF?|&-75N!tQbYWG#fd%qVInqm>+lI&h&tH$YszkI+Vi4
zaNC$`h{b%H)0f_FCXjS?x6sWoVkI`TR9f~3>M>_l(E7R5d@_4g*Y32HrZ4@NP)r|F
zgmnj3r?}2}x=_<C@X}*5yx}Vpdn-RYh*DU-4fiW?PJ}DOY9+sOalNeVbnMlL$cZo8
z@#&EY3Mv^BzJ%Ar!bJ%_>PQABuC=t#nT;%fdk^{MJNddK=h?_%0qFsJz~glfH~}Qc
zukXLm(Q>K7kSJW&CF)R78{oKg<!M;fy(pg>9-Le!i{aX%n`u-=+eN6YgR4v4SZ5zY
zq>nNWv_nt)x`Dc)T2gF!i@DB-Cm`=+O_G9xak(DOV)?6Q%(aiSlDVNX1+#P~?(axa
z7W-6AEyi2^0-Xe;&ylonAIr~Vp`z-8NlkgBz*(^q1A4FJ*&lydeo_DQ>5?M0^$u}D
zJ_<}AjBa_QNw8WupLR0(5axy*mL{npyt*nyq@Eb?3J*X0HiI-GTH+wsSk#uD9Uk2M
zk*K3%@-Z2Gw*uF%667y)r=m&w`&-m?o#bI0>+Np_rj-_FZ5t*LE{0*;%n`4)%W7uA
z09z-0r5~&nw=O66NP#K}X<_{L6Xs5yG!#&4!hp|Oz{WZnbzWUN^Yr6{*rk>_PKHWD
z5v@~UDHS3by)AHM5+{)pF!0{Gi1##}sO}Hc-qUM(Yo7Lo1*j_VDxXkspgn&edyv=C
z>{E-^I0a>w6uudIlH<WC5Z$8_){3`pZ{7hqCkRzU&jMmvdu@g!uHZCT9VgaHAVhc-
z?^Pgwq|PoSBwTuJ+Q9U1={5_!YEX?wRD%1X^z=dGOE8B_TkHZeoMS1S7u#!D&3Q@6
z<8k5%yGZ0gg8FLUI6BJ|C@y~70G9tcA|MF3`1MIG_qoQ_3tuk@T~g**C3ga>Xn@>7
z-IEQ>dU!lVv`T3NQ1uu1XCdH!>i7QIT=)NpYV|)gM}YJAufy3QqG<)sw!YWbCtV1+
zEFoBV-B^oOFu@-re9U66Ed~%m=Is0h`bN^=u8Sk<Ib~~IfH>6HFL--(5+8?oY<s?F
zZ~xrKv4@TW8b*fC!5#6J0Y(DQ#Hq()Nea-p?u<I)eN!y=8-Gk~Frs%Lr{cU#QF@0V
zu!~pLg~QKcIq`@{@iIVn@#gy-RJWSoCBLLfg9|a=9~)&Hi+Ry5`_<rO5p*O{|7Ni-
z=@#6ZxS9(W$H~@px}6&A3KGUopKFe1)d}x5<a;H>m+L<%LhbgqiIb(Taf=C(!$Z2a
zj4cPw9hL4)uYIi8_-@hhKzR6(y6R+W+>oD2s_1AqKiiroo!k%<=syP*n(faPFq=+p
zoruzkQ2sPKUY?ezf)mJwzOv*f(HxgQaZCTr2KNsbZhuC*PSKuXi(hrj4pt#yIX4e*
zXl%8siuqzJk9krL^LTQHay)etzZH)-$??O&ce8WJFw|v*3`Fo{#3z$#rXAEPZd)!F
z8-~VB53}jGzK|ETOuvqs+{<U!j=Bf6?Uvb@3Ft=Ae+VC50s@6Tvf?9iTc9#N)-kj5
z)5GB8+5`JrG>Vu?*plqNO(@*uPfYNw4=tEj`~HVt%g|o()9?)$!*!|r5arO%D%^X0
zi+~*Zg$%(|2KL<eTUqhrF&qFQ!WRqQFAwVXU10SlwQ-S8;2DU3RH)%Q&+Ns%Eazv6
zGpcnL8P-}(nhG7OcYbU!d9tE#mJ}Cth+2efCDFw+n*!|yE7+iL0M-||sirTteP?R@
z3*>uV%raKpf3r_5?BmqYlX`Bb_A?+LxbWwvdl22W)Q#9ELMV-v%>Bg(_(R=UnS$&n
z&41?kS2F`1IcESAo<dCd0^g4w7O(r0*C>$?J3ZDYn`1e6j@~ZASFPZLC5wr>Q?P)p
zy>I5dmAl4Yx*|aDpJps4KHLYW1p>K1>}o><WCX%$(8LkCu{Wjz2waDfAq7yRi2)NW
ztr4-{-~0>;R5Yhvq5^TuOT>L@7wP(BYrn))&@|Vll}$C9cXjD$74JP`03(s#{GI7I
z<Ov_G?%1|ld5|>Rs=BHs@<RsJjn`U4hdadlZDKI!c;c2iA9%B$WF+66u4#r7iv3xQ
zbL(McCO5W4SijO;`rJKND0J|;_QCSmI**m`d+@XlWwI8~j6zE!72Sq^%5<FOk91v_
zjdRrMrvZ=@lX5A_`!+jbt1NZY!n7xrrz=C&Eh6abYt5{Uhe8uSn#SRpBGRso1Mhq7
zlI?)2V8(O`K8Q3Rnsp2lW+{c&-ct$YD)Jt!8w3E6#&&x>2H=}lsE&aBKa);jzFosp
zq;?di+C>|{BI=%V!n(X1)Um>H_L@<<@iD>Tu%Z1PZ3F3PWC)^?H6)0Rn7Y^H51)>!
zD;wZe*r{<c(SE^mp8go}?SbvMSFhp$w}_%Zz?84U3%Ca*2F`&W>#iWC-EAJPcCr0z
z>Gxsm-LawK^t_}OhrtS;H$jT+r4r$7mGZ&VGvph!c;E1DO5R*+I^}(BxrmGbW0;f8
z_t{Z7DFgMsRXUC>FQY!5`A<H6z7Yrq6e|q6WKxG$o8P;eXfu%m`w*gISXJ;SbL(zX
z)k|>qoyj%_2n)20&kGSXHt&2D%O_5ATyE`B;JY_EB6caRn^=3Qc&2HQkzo@3Zh0K4
z$|e-z$YTj6-db#^9p8l2On4n0_hrjclzbmj0vOIqv0jLI|CK02y1r_2yk?`tW2}q+
z5_&%%&E0X&8T~znjrMh`S-ZkkeXTOcuiQ2}<(gZ7Gp9-uMq(3>SqN<v!JEF4i5|SM
zPU`YFtb_Wj+G@6-mKihS%=U%y{A1aT1(RPL14M!7!eD_m8o-+o>sZ;ntBGZ$F+A0d
z;F+;@J%0557Tu!g79(-sP8|eycR1qQTK_ar-Z<6J&hLpa<pKIz64sO|pp=CRV>hz;
z4*d6b#iu{7b^q$I|JI%B9HtK@uKiS%+A$gze^U9eI&!7HA-zL~-I+<cLIng81j;yh
z*d0#Cd0O0L4i<cR-Q-9+I{yZm)3na8R^hcbK)Nu<eSHG1T;x12MQN!KaEI4X87LXH
z@aeS%M_DjOFk<qKj-(~;^PFV<{3H$ELh1s)0<z10SsDN$KweCh)91p3h3Bs{#KaT&
zlK=__qsCN3Iku-YJx(TECQim|NsF-{hen+X#M05U`uMPA?d?z?TRH}H%1MoB<k?Ss
zCjHt`nP{2at<B9Pwq9-$4Vg5V&TjhQ5&OL@wKs3t|Bcb|@mkOYnC(5hK03TqMdQOP
zF?{^2S_;RgY!|G@BX}hy=Exyc-R<jx8W&Ifk!L|OMb0MvcFEsus^@0~C0(B!i``W3
z6Qmhd<jT2=mKnSPRdA~jRle%>bl1hUq5jr1_Kw5T$FJt6j$=GvnM^?Pd7V)tIi<|0
z5o>T{pW{$?xp~k{+I&{9<ErV7cDL?yr+|px`Qqw-VD|6;;Falr&8^bcG^!e#-?gi)
zu`GW1YW8+76EE-~%Rh}00<Y5e{OOHh#rrO{y`(C@97vqq7S9{w<o3iQF1m@Ye|b3C
zDg2#_7pxhl!LhQyh;TGKM;*+#Hb&(pyN|P!VglB*>cXgkpXG8F=4#qh&saSdRN-G~
z2^f4#T=>Kd?m{xI1CCf%(pXBf*V(wr#2n6_Qa<fpObawFUpVb)weMIIJy74*bzt{s
z9WW0NxDXef+<KKri?^``j2A9BwH*%<TtB;>ac2B&@1ooJhjMxaYx&mlP7fXl@aNEu
zfuW|c!u3tkdCKd+u6nEEKcN<i{8KbW(G_qEq`K}E5XZH}OgqCi)T<0b8mBuQoUj0G
zHgB{XdBW|J@=b%FjRLN1%l9DL-w7fF*;4y{fojfGWRU^e*^c3t+{O_xtyk9@CyV_q
zJ=}4T*Qro?nL9hz{FIjiB2xTxo31gOB7eSp_~B0waKk|yeBI5a$-AFabY;#I>I%eb
ziWYKR2pwme&dm-MT{{XaOSE;fvvuJ}Pj7~@%i%8ET2jBx@!&a#FANS{vXsW{P#Ld@
zr^8zySfP*(!PxeIjjKU+{JEOn0ie&DkOVIWHp=6;Qc7KC8#DRA$d<*1H4$3eTly9Y
zZcgoP^YuGTkbJ#B7%+MBy-)Vi)3OqO7mhRxifxU09k-oQwkChoFK^xC>)iCLwnwG*
z`gy};Ehp1v4`6A$bF6viA+d=Pf$#5VV?k7^07ZZ~xfLVo7|CEk;0x=npC!xY=0?4(
zDzpD(cqqvb)@FsX*|Ns<>~$(>Op>)cvmTl`5#Dw9jmf+!`vuy(;#*glI^^-)lv}l_
z8^RNg!rR^?24Ds`sb^w676Wrk9Jk4@ssjuUH$<O3vH}7b_}O(SX(&dgdk-&QgP)A>
z%@vO<h8dc;$T^<d**XUMd__6zip)i;WA33Z;{3|5QjoTZ?b8QcU>ahL7#eHEokB<_
z<l1<p4px8RSDZjzJDqHu6E>@yTxz*GgBjk+d+ZI~t{#4+#A7*7^nk9liYMvSy6#Jw
z3<U$q@j_KD{@7Buxe}tMoE5HIF{+*AS>QCbUWe}4=(l9@y7*voYTj1)HR#JC?=m_Q
zJ={hkhQP=X=kT6b!J^AyZs?AqX9Lo&T(qw+A{y<5>Tsb6k~SK~-E{>aQNqPQf%iLA
z7=Cjs2ym>x(?##w8`<W3>+|~D%Wq4wtF8L&V_WQ%tzz1NpyL29C6MF~zl-OVc=vdb
za<a1ne<%Mt>1JM;9oQ)O{&o!^7T!l<Ad60@@siobWD#d_Bx0J~3T9#D7JHm5RaWG_
z^TQWP0;KYDILkk5w7+l2{Wg`91kB>kt&D%^HTo}q{ckQ3iU)6TVq-N4rNlP*PhggL
zT_@Z|ryB=4ZXarYVZJZ@>zez={hl>d$<Q%oz)8JUzPGpy=%rxbcVqoT$yypdJ^LX7
zldh<4pL*n$WWzT>BOY*uo!52H15&l~sUPtIsL4L_qJ8eoXYT;ra(Li#?Et--K6Yoo
zPtlb|HMp!qRl-TMCI0>QFF=NRXLR$YwH(@TYzx?(Ya$<qOrMyJ*Un)qQU;wc&yFG(
zJjw=;{pBs5c2RsNA%i%W4-LAEH_i)>nRcqI9hL3d5<m{r9rjEpd=g;=`IbdsIyc%F
zAx;9gK^4OiSXD>LJlN$SO}SNI(S||%Wwx!oIIf;{9P14QK4|QS8utSE2BoA`J}{zZ
z{sPW-YC%te5+<lecs;oksnX?|2J2D7mj@ATaq=3($A!*HU7SkcO;}Z}Gome?=Jk8q
zd0HS5*LKDnK6b{HC^zHToYX`@Ij&}I;(K^lHY}x^doVfAJ>P20LM@FDxww0IH#bAQ
z<i<@ixydI?@xgR1<*#h2!4YIyY=MgC$+S{fRd<3GA^fX~vK^stF#>d$u*>lvv{x`g
z;nT@_@YJwjZJkYYoqJcYr{~h(1HCJXkE%Wzq0|}3gYFAVKNonM!PT6-Ow4pW{x%V^
zoh7~Q*OWel625Jh5ZGvYdc3-z;XLXJvkZ{y?1y=FKLoy65?+pwHE?NNYS(c4aZLqQ
zPC+htlSsFG$?;9skoZbVcu120*X!pXAr)R2coSe-&}*SL$4YfdU_9n^Nk3I@Tl;oZ
zI$|%6Z>4`Qx2<gvl8WaBnO-<)W0XoTq$l&BgTS+JbD-X+a^DHdr`LUs(N&;gwDl9a
z;fdl*msaR<(uIuo34XxzkF|a02dec`Ri%j4nMR8SQG%^xt1>Gyaw?(|fqSLt>xK#S
z&8<c89iH@lHJ`<UGaO6^K--Z3kmK_{j)~d>WPGDeq60w}5MNZ98K?vR8pw-$h$88G
zF0}=ltx!e&{0mpTNWn*!nxR&dA{EIG#H#xv)#<F={1PeJiTx8hD$2R4gRL3u<bHu=
zyWqZy8msOJ^!%OAFGKxqo-pxvsXct4X&Vw)6?M2mU}~*)`?ft{R$?(&mgP&S`%x=o
zSuT^}wD<X$t#XT~lf2h!Ksu}9N|kLP5sW=o>f(X?FucU9y(Z4fh3*$U>w2+WwAboI
z)Kn9tviaii6m;!0U9_wr{nWsS6|Bi{l-otp+VYf%y2oebkG%f8F^7=O1~*wZK!PtU
zMI*@-KybWkYZK0WhUdbIk156Mr5?0}D)qixq`W0d_zyd)fLS91Ec0HMCtoy^RB@G#
zU4Tnvco_JVWX~mN%9CC2DIL_~M0*v4pZDd1@bhBd^-5)rf4KF-?t%C5807o2L+%;U
z-Op2OYK2~Gd5ft~BD(YeJ>Bk)(LMTkD*lph697X~sfOdOw7in%LFl1G&4O+KKIjlK
z^5fO@<e852wR54)zo1jCe<ImK-yL{@WZMx<x=hTF)iT4@j14&E(D+!*ylLkHiCkAL
z+|w;CLo@N`;m=}yBdDB2A5{md`n1ixf#k{8X6<Ns&P2#;6xYa^?Wv`@!eb3c8tO=@
zP^^kM@I1B<qRWZ$UH8;oOTBi^no;6+F43JDA@{ml@y2C0LznuYP+;K*Y6`Wkz|G~D
z&1pf4oqcX>Pm3Oeh-EE_hXx4Kuq^5fX+MX4O<U~kVs-$+lV&X}@>Qxyb}LU~>bj^h
zm?ce7$o!&XIuj+Y)#^ILYxjhjlYA!fd6^#8w~NAx0f)_4qf@_^PQ$hy)mFY7boW$=
zU|=_jGe@fU9}6(maVavNx3-$Gocp9YSjeOz`T0Cn@aaj=@>75GS$r`jE)j3rDaWmr
zRn(VlGqcXN;KUu)RFFJRkPVEBnpI>RPEyr?SbUwIrjNiZ^t^5ME7Q-OBSN|}&P>>b
zZi(`@<f+{4<5IY6Z{7DA*2y+=en|9eH_#>?Ap>D|Ze&T!B&PM$HA1+nU=DZWji#;(
zT@^TIRsZQw+uv3ZTLEXnD`QzhgT$OrOhFeBc2N20(wKurNTk<<BOJqN<W6&3G@!5-
zt>WjliO3@BOayT~{FDhh&>q<-tqJ&4yjC~QOR`(`wZCEhBXNt-?Bh(x1Fv3%LA!yU
zw|vy1$JJC|YW)}{@}2M_YrPKWncEIkF*0wR&Z)3JsTUcLV&M9;(F2RMCG_JSA_MJr
za$rSnr{=80N`l0qbr72=@voS^4;k*Tr+11#UM|Y|9dz%!tV03y4qHg%v@xNMr9~~P
zK(1)daw_^(e12<K`WdmEU>;RUMYj*4=EQpluKVGoFk3T#u1NT98{=XW7W3l8%yh)n
zAeyWV#2K}#umFrsn2ino#8|JR^^*`LuRU?`JlmI1T)RvSn-CS#fi`Zcqy=0XAMr`~
ze6uXpjeh+#Z0B};+;CT;<uuRRRJ#*P&tChyKY2eyo<%eOo7*o0ya?YiR?Hj?kZIvg
z;s&Q5@;tbHc8YiVlPW%Hj#4I`ZO93yt8t2V<>{UF3OUp1XC!rOY9mfZ?Pu=H9mgZ_
zDB-e@8$dr0i|7((hxOSdhfa!NN9sC9$eQLSUoOg4ddD6wK4YkKm`_{hhI7g$pf78U
z=Oiq27)G)b;&nb<e3H8Kx^W^L6i!vypJj~rDabEn9LU%Trxd}ZOJD~2bW0H-r30-}
zI0oriOYLq%b#;QLw=;45ShD-4PqSL?*sGqs?_6Uq0*}6%k=0IT8`!apLxm{|*3?;d
zWAEmqi$HTtTCk78(B%0;a|7d)f=3$5rdkg*M*m-+kWXQC-P01mWcdPEXqQELZEW@$
z{(M<^xgg-5qnv=app>A_vB!?WJ&<^zW=jDqug_(<GB9{UF{BSs8kFysX#{WuZEjE)
zSs#o1w(}`9ijvdme-O9TlmDc5x#?Dpz1ghqo%cy9XXrA^bGO>7LliC?qZhav-+g-e
zRpuiQ9f)Si6cyPWXq^Y0olb{1!WRGwa}6SZ_^PVh2a1PV!+)Y-kyYsyk>sCvL+aT&
z2w6Yy>I#rUsq#>dWc+p!!$7l3YpnY(kQ3xP8L`L{XftqFPUR29=}`S)`9Q!lgQ8wR
z68%{}fe+WPD6)_%f|z=Ae>joqFHiaDxVH>c17ZOJBR8ZPwM&KIXxFI@g9zMDa0p~?
ztQ$f!m<42c0qfY2AbJ4%H)ID$fyw~h+=U*^fTQ-lw(aETpoGXj-AJonDL|z(1^){a
z3^v_U12|q0nPfI#^b7!7@9<gq1&Yl1?Yvsw{Ppuy4k0T!hy`urmJqoONd_IYz1y?-
z&8a_yHBlL_l2l+oPLvYStYL>0v(y^Tga$N;qL{6!J$gEiv(@eMhK4AX7m@!mo|@s|
z>cYX-9Fp!YkOWX82dS0+fP+bj)G?b%#AY34h9cD7h=_I>%2LeOyW2A2YTs19ys4e|
z=<xIz4t3De48YM5$e(_9HsyK$G37t}2=u>rFTvA>hX^o{W*;H_qwP004uV;Q97n9=
zM<H<O4M4dSx@P#7&;H9DrH&%{i2zHVwfGPv3m^g`t@JE+T7`{fQ7p5Ih^3ls6chD2
zT#b_3%<Nf6)HJWc8-zaRAKK*$vykc!4~JQuyzziCNqb@WDKA>%FHf56?n3C#G{a+n
z+|cd)XjR5}Rk`7A2<wxH8YtBJ8{gov?`~IB60h4-{czxbe?{4QHR&0{_?{lmywByH
zi9|hS^d<`Lzqe@mN?g#5&N*SQ5DuAeHN#~2NQl25fb9u9x%~?S<NXCXO}pmbMA8fz
zrt(p8TKR`Dv9Li06%Vobcg5e*>nvQRJ$do+Pgsp+p9UaPgSg4AcyOm7S2r$YDWNx)
z*a(?hoxj>MsND5Bj^pbvgPLRmi&P*Hq90LG+9wd=zK+ax%#Qkb>PB-!x6P^j7E3|~
zP9n}_bas_nE!NN0Yf$|1nJ<FhY9v1&h8sZ91%=LwFm%tt%jurFC7Y9EO`L^Ac}%nF
z^V;3KuJFsPW3%zsPLUTu+x@*J0s^uQ1SHW7%L<0s+-SqSs6qBT<eSKx@ak!~aMN7Z
zoGtQx@RtC8(=sEyB<K%16r6_WCe(p=sm6nw_#Crtf;;cF9DQ8ZTY&S;G7ak8M;0aF
za*gb$+>#QYfEEAtQk5iQk(Akc5Zyhe;F>*yeAk6q)2$OOi>mSm0Jx$Cp4TaW6&u~V
zqx2y+;=0qS&Z&Y<Pr?!kGn*kpL}AOPExYRwjMS5}FDt{EQ5^7_HmSq6UQt%X-nxtR
zpF+ODZ-qZS+FL{e6@F$i1JO4RCf`wuup8aHpW<p)|7LgZ_CnXDpCE}Pm~qdYBdOt%
z8~wh+eXlI>5@U7a6T!5Z*s_Vg;cS&F{E1Ny`rr9a^orZzd6!?Hjk&gT=-+0?kDvg%
zB$#Xh6tyRQf%?W^mej6(8;W>qHj*f2Lr#|uYumh214QN<>%z4A_X!4nqL&cme}SIZ
z11n$db#xIr>Gzta|E0NS0Tr6xNtuc;`%={p5c>n;M+kE0R@+9xFVIE9%*JHl?B+TG
zirCn8td)j{?kV~rAv33@`Lr~&agBOQo7E=$P5dhJMU<l1IzYJ%`u6Y&-pH+*sDp8C
zi|}&A_ZNMJjM?+&(QQ`^m%H2CFioU>0iKA3MWBt3k?6lEIhnCQ(lklFq1P9nxOe4R
zK+?6dsvV5`Q3t}E2@JdmzK;RL{pCMZ^LZyjaVzRLbc~7)HdbjcbCRqHY!6OW=a=2(
z-!$2FoD+FVM^qp7UvtcU&ASj1#J37zS(;cHc{V-h?Q$c~WK(8W?}ydEOs;!N+=wnI
z2jp|?BUJ#-fOG5Czdd#zEwh$lR{g5;WMTeXzk^qNVtU5YJGo_um&+coa`o(_q!K#t
zBI+fT8z^I?QRuX*>*G4eP1ZcceP#A<8=qayi~ly<-@X#8(5;IB(6|h4TwABnqL|#L
zMO@|d@Y8F9U2*ewx(A|vNOLZKCU1Wp=4vmijJg(#k#z$aRVG{6g*u~4C1*N}KJhjC
zpd1t7&T)M7uWKn^+E06Ch)A4+pTgzGHVXh_v#gKITbZv)b*iDB*CmJzNZrgcZXWSH
zTm9M-t%A-p0wmOqiEQ0fRVWw4(`^>xX1X%2Hlw#?pwR&{Yj@E2sdf2tlLtcvx~amm
z0ttSKV0n0)C|dZ#XuyjB7#$`*yp?n9fS|@Tx-|N%yqy0C>i8}u2wGIkaqpH^NBNg}
zT0YU?9U!^{&e9^e2%SLm(Qv!`sWI(#92Mhrm?xy1F$GEX6N;@@{e*4FhywKFc*|pe
zl*OTU{se*!%KfAdQ)_mAQ*Kwav8e0I*P^#yl0Zc`)@Q~j9vGb_F>;YK%(Ov>^~<)-
z){$)-z@K|yXU8)V&Lz^q>b&Zh|CCO8i8VaqJpSNiZ+NptZfB9>m#9KFIZytH>5@2>
z?~jzO0~Rdbn`uZ2L{Us@8%teYXOY$V#~YKl+4a<#!G)yrJ;vvBM3lUH0yoB1^S%Jy
zlvoI3E2r)UGK?6DKPGmbteU^U#Gmm||Dx2wAk)VL+=u6{W>0LZi@j(<X%ORa`5nJN
z=c?bz?69xd8imZ;sLgAo-m<StB;oscM00Fo3h9o=g*Q$M8|j*{DiZ^6te;S)Y9hU3
z`Fqw~>~C4ju3M!4M5i3Pq_I2k-Cm@b<)re_`!RgoCVEkVAC|CU(>7LqZ9h7**w;6A
z-SnJ<SLP!Ic*<R}d*Tq?$(9>YipHgn6w($#)!4?>xcYF^Ksj9%(M#9d99@6RFWwUD
zOF_KVea@g<88C^8R^wlND2G!;zm$!ZYa9_TO&+o|PQBHCGZWM_5y}$!+S8hkeKUBO
zY>O-J00Jy$n5E5V;@z(TW|ImJbxe`=a#FW)l|J^)10KFh)i&RBFlCYMd2?m4o&kkU
zb%dj&+B`(Ttd&*nh}>!$Y{;M+vOB!Zdn)u{la}~{19hOX|8Lea0wSMF%8FJyPn7`b
zI2wH2V(c`Sg^HvV@>QT{f4cS9&<|B+Gh%Uv@G|C^1Ki5;Lx9%RMTe|mPaAvFj<%Za
z@dZZj@^BPyi4l4DIMjV+ood#XsM~yrDLC-CxjS_%bh`CNU47L0ydoyvK3t0>;Ub_>
z^;%<_zMQ36@ygc;PA}cRN*evGtg?61><6dc^8esTq-Th}r<4@PW`GUl40QGAu#+(L
z3zX1D5=TrC+KvR#U-uX7A-sVsvuXpvMHb6QmWYBr9;sW&qm`BKPv1C0uT}%x&oLaT
z7tEtZPqghxP3d)eWx_fA{+>)N0lnChXZLhTK$YDT#prD0kyxp{n`qEyMY6j3Y|%cU
znYK5B33m`C7R2T_FG+lXEiSz=(?y@^{WCE+(YR63o#X3WkNSs7G_@@}y*4}m32eb6
z(E!g<NMNcNo4LPBP7cIH9#<D1@l{q9dC8mLq~vB`?W*Rw;;H4Qda$LjC?@~O-zKuG
ztVUR@1{&$&HK(#xC6^T-=)fXS3u@?LSY}b&mU3*X-g!aRSX^Ku#trG4X<%03R1JCp
zuV9t?O+4gWgUhh=ic1QhRMjN?L(L4;VYBR32TCHuc>@xi!87Vr8bsLL=`r;+J$&c&
z?qZE&!Vfn=29D#8UYSUu6_4|KTBEk?@bz#eqH+oJTvfkIxs^I@O<F9gK34qt^{0zP
zaj=C?3LFM6Ck&rXX0IS6BsZ%~lgPBhwH)$OTx?10?))#%Gjk_Gf^(b8*mAXzbQe?7
ze3rSdC}o~*jALjvXa+^^;*G4-#R3t2Rd??<meypc)}$ZbgTc<AtmA+ybsVb#9n;i!
zQ&e059AC2?5ZgU|&iydutd1N1jh&>9n2b=NhC=9%;Ti0rF79N9+0$7h)|xMA1oy?&
z^f>s2=r{6Xyk_S-?L@PD?mF6_vHVq8Yxf6p%busnexN>O9WB~~-e9Fv)wJ*Ttlfxo
za;4HG+08&$3_J;RaB!MI4gO@7=z3%PrQutE7{vC`BB-lUgG=0W`Ee81=iX8aq9;DF
z0|<ts1Il0lcm1|D`LM0E^<i0!Rq-^}5^uCi$(?+zqgtf;{?M;9^Dt@4vo^a~+KN&W
z#O~<N9A4&~Hm5zmJwAWv@0xyX*Rq{2XHN(ew5BIY(;TxT5C@%X=2>Fq!P15O1bhnp
zsj7xr<4^WV%d(G)mfcc0O@ASTUL}M+U&J${IqAi1iJOC|heeP>-JW;9Ku@cFfjm6X
zqcwXE5W9)7($qc&>hen204qKQN~S}5_mEA95P(M-JI_`Rr~!E?yZGKpLy14q?3%(X
zxrgiUy}Kp*&B*4q-%95JioR7fsK1f}XFN=n0Ebr~ibnPWUYu;p@9phpC(bCn7`Z<D
zsCcpzFl9v(9S{Y~LS1$K5uN3yS-`sZu*9j``3jh~?2os(qDUqmo6Q#unPGc|P}Z}s
zfZKSE=)etYlP}6|krURp$_kzcG0RIozq32Y+MUW7nQboP;-){5^Z50oeEbkAWw)oc
zwI4zTEPM}T+o20M1Ms)8F8O;_eYpAQ4&UW;p}Wl$8b9OCCqeMjK=~rVhB`dgtXM*`
zs-gv`<@7=kWe6{%!w>)AZw^3ODTP?Lf~*7*WR<5t2CNS^Cp`-SHVyh#Ci1D2t_=23
zSv@{0D7VYoRDF-#$KMCN;y=qZzw{{4cJB^ohT!gizfmySYJ8JY55R|9<t>nnQV1}<
zD(c+^$}Wux15#{w>Izw73CT<};7qZ^vn1tehhB3le-iQ2o}&}dSq`9}3s~Iz$4*iy
zR+J1T$6B+7w=Jfls_MeZ&#W(ClETRAp6O4vSBy0G^&+hiw{5Jbs{s({ftt1%+jc2u
z)*RwFW*cn&t4a>91$wiVk-kN@w=cL)?F&**#wrs6h=U|UgG9LHcyGsW#4}$+2P-D6
zP1>mSVV0W&sH1Szm`*@|KFFEG*%@?pgv|G$H-D8|4wY@DeLcC+yU4ODXG8>a0&1#)
zKbw)pt<Au@6RgG$gJK-Qo{{A-V&}#*zFtE=lk;)kGFtC#lHBe}2uNKm$Zm+fI*;i6
zo<bTV7k&R*4Z;6XJp4y_z<=L(UUb=Qrge#W7R*6DO|)Wggll3S7cKP06n~q#@NS|d
zx>^%oUIxgJam^t*fQ04*H!PI124@&N{!Ha%V^hOr<aiel`nBpi-Bua9b<anq5umT`
z@V@wqGTYrjKQ|ZNN_`b~K}{*?dKx;b1pfyUyZXqEIZkZdRv6yCv+HYZK8B>HFZDzJ
zoc5*Zb=zk}Na5qIQ}Ql!G4BZ+XMAdck2<$r2flMvAyS9hrTUv)F6`2)O6o!VPV6@h
zyU6&St`il!bKY<yiipPk$jY>a`&AI#ONo|U{FjM=7(T{H>{v$ze}#0n;NWg<3RCmB
z*wc?a+!Itc0v1buW^fS4%K8@<Xka-VD3&s^s@U9QV)0tf<h1H-&TITM4Z-4X?@3AN
zsw_SU{7}n>EOM0<)zi(13MhD-tobrd_gEEJona-b5WXz3tb}1W<vGUZX>%oL5O6XT
z!uPl9U?aLzW#Q)7a&~L$&kn8euRew=zq=I21$w4a-DAcU!emQy&TofG=2Hj3{H3SH
ztm$P9*>2c3zV5sB;<4TArl0)<4?_#~`Bc|)YHj9hIeWBM?>IbHvE8_FtMY=^qjhb~
ztDj|o<(2+{#HMjp*$5|<O&8V+UY~FFIp{&pGgCraIn35d3oO%NPDeM#oS4$8LvGy3
z=GWOd|DcHUF$bl0cmi2-alBOA^>PSLfnA0`q<}8X)1A+BQ4+FD)=Chm?H@b<C9y^3
z1)Y_*+Olb9t3(ZMI~tnpyue6hCT?`9$&Gr`i(eYI)NyP@pCcRcb-v>nV98Bv_FlQv
z!nA}AP99!LBhK_tk2ew%ao@e(RE8+aa!O<maJ{=s5??guvb`py&g+mT?mGoY8{)ye
zr{OBNlTFyji=1EAeC}CCd%wAu_9U@djzt=&X+q}2IyOJXxCof4$II@&m)Ad5kC5;`
zIfHtJZFM5%VNhYM;*=;AJ;dUSa-d#ks$J}ltlab5CUWwc&y|gbmW6d`44L9i_z!Qc
z;PO9FX>cr&MKI6KS|zodVkZ+M!qYkIA*T7`w;;deMB>;zSB;TLVjtdr2E&XD&rcn2
zJ_EJb`VjN+aNa!T&Mm1Gx{J>hmJ~Ov$(}k=$#Giop0QsvICjxneT!fgXfY1`U|c2u
z+Hzy5+dn8#tgA>*H8-y3mLbHuX<~R<RClcPG+Y&j=-dHWb}yzYcT=x~>NTY4nP`Wc
zm$G*p3Nn3i+Cd<8YM)M8f0i|OYhP5aIPyaH`uTk1iKRI8frho$tQ=2YXC^$SvpAF|
zgb+_)SYOyMy21l+8+Z8G@rExaTr*p%l0vOBpYw~pUl}y%6H+yFw=r5h__{I8oV3*4
z$TRaaDf^vLapq-n!-`KQ3w7rQw5FDIU#mPTi^#e9xm*G8gBN}Xzf9CDhgIo@Pg4&J
zt`~Ja*NsVecRGC9v)u#Q2l(b@FD$Y~1YIXe+_Sfops_YAUR&+D7^vjsl*RO(g-gmI
z>yf`#8Myl)eLXIMeD=VmWjsN$jF<p}YZU5oeg9G46xI`XOFz0t$*aKAXT(QsY|PbS
zPrthUIjuh9E%jA~yNFW1PWXdyQ^IS*2$WqNwcm{e2>1evf9y36EBDW!dE5v6&xHai
zNMiETmTW+P`~*xBsIMI80F@I-pqx@=Ec6i>)LIX<<asxK>}$^u&Dv{*a#l(r!m)T5
zNd==(W@C$EvMpDBT*q0`v9&Z8Se!q(?RQmJwe_xsVmWjYvdk6;m~{vOL+iseNXoOl
zxP@CpMLf5YK-E|8Xy^h1v`YDUoGj;=eyFs^b4~3p29hzSVn*MjCTz+C_;%S$-`)VW
z{A%A&HEt&pAK%)eNaKm^%TEMroH*v$)mg6@GqJ_d+@EhDv~rF;X`Ue4;i7vj-s|({
zES2-mZHOeY&Rc%FTs`uwgQt-`*nR85L3yKasO!N=AgTHfBU;)-V%?%1A_~kzHpPgR
zW{Wx8$rw;Rb?Ex}24unp%IeJlC9vTsy<Iln4BO@F272$0ZMIeH821iTSyTjv?!2@j
zp|u|BkxmQ(>j||1Kl6$C3Zeq;qPooHbIVOY_YJGdyq(`v{c5g@{!g`<zjB>RMgB^G
z-b?;5F#2bSsq)LjcO*0NCE|@?&M0_5uK7a=@T0mnbJmIPPhWT?^Af3Evz!91Y3nwO
zD*g^XN8~J-o4LN!^-wiQCYs~Rck9QqPm_Y4s&G7!ZeItf)s(9dQ6vqx98m(g0xT!f
z@)41Sl49FsZ)R^d2uOA`#2?aa7p^@#&$?NM&&Ot$v~j8_+nAewh6G~TB78axYJ1P$
z_gWhCR#;iSC-vOl_AB)~wFg3{c6N?ui|3PxyhW8le2ulOH)Td{uBo{%`m~>_<YchQ
zH-rn46K?W$2F^+p#kz6MREi3{BHzl<8hzg1<e^gUq(1xpl;rW(k|ED}ah5>$Pf1oY
z0`K38p{7U&ku-_E4v{bYhQ0<~-{Yu1FHGm2Ai6#+OpA4!)@jGX0i~18c+6*6Yg5a(
z&K?Y;TDG{hvFZKWZ_&D<9$g904W<7q*UZ9#4>|V@kA9~70;$X5<u?%|#W~mt!5!yQ
z!`Thyhxv(TrEvQoi@98~yN22>*~Tmh&8CtP*5@R|?CajxUp2~k&LWljh#KBt^K#*o
z3^LS)^=CQVs>JgngVeH*JPovc;U2x$K*QId;pwIZX;E`EM`>SFM)flUNT%lL^464e
zms7iQJP0214p(s=uY|3-*KW3RaZ-kb1woe`xr5q(hyg@2k!3R5?oJ5<G`-GgyiOEE
z3A|XB=MC6<xPU*4(T>K;kvdZRtE_UV+!OcBDxiLHtcu2O=(v<qPQmiVTiI6|^Sjf*
zSiwP0N=u&8*qYCJ<rDA~li8UR-dY_x*<9#l_U2Sl-*bO*9Av5Y(+(SK<smL5M&)d|
z#cGfou6T%GGky16sd!G3oGyDN{0o<RgNL@iG595duf~QS`cMid9|IQyo_G|pS=Ekj
zaP!<=bhKW*oe6`C6wUkR3a-yPN5VGLgy3gJsaKp$xT~NRKv(4c3|A^sprOY2!)dM9
zSJz_R_W+x4b^iG!_BIA8y(5ajwWj69DCq&(d&~7^;=TVx-g`zh`L64}L69O%M0yDd
zf`WkbPHZ$05S3m6A~n)mfItM4UPJ{H6huHkN<cb<UKNoJ(n&&*o=^iMalg*9=3Miv
zIsaqrz0a3(_W2OQcm_kl`|>`|U9RhQk5@NlSJ_x^^lFKL#0wps-=kAd#~%cwmAWsX
z7B$WK{el47;DIA@(zBztj3;;0-_f6LD|?eKGV+(#4U(28WeVt_L_H*?CLhzHC`n0W
z2nhM@9^^UYTDCcUB?h5m|H&Xwfq<Wyr~VY1&z*w)(payeEcrCpk7L#LD!%M3E}6+K
z3p`%>eEC(;bW`c*>A3C0DEi(-u=jB6!{pk7V%R+4T>RpaW+-v9(9IG_V&9^KUU~14
z99c!|(>^i3Noaj_HWcyc)w)eqGEjG<6We&@`6(X8fe#_xRZl555-GOwaC)RXTldoF
zuxZ^HBi&le`YhPsAjKUkeHI?AoyAcdX)u90{hc#ljhp@vpEeiFeMRIcExhbB(!PaS
zhuZZ@DX~<Yb2yeYvKw$zPQIBbahOb;vk=!b__;W?J5nooJY)T3ZuTnT2qypodXCYK
zB=yn#3V(lJmg0imX8XVlEBN+&Z#PBHB~3kG(ILSsA8}?(UCZIbz{U;A?I%BiaKvs3
zc&JN?SAJ#5cFWIjmoXeHk}b60-_a9!jBSo4CgPzTNOpBb2MqH~o+nlM5}8(+aQQ>F
zAg9^L+qsd?`L6fm>l4&4g3$y^0h+Z>*zuE_qaVloX0^M4I#w0oT|{Z*PB!-bH7_}{
z{g^vak{<Kl4k&M$G7ZTk2+T*Y;B44rHn#}=JB9C+Wo`M$hj4_hn5<U8m$a_tA2E+X
zUz22o2i*3+r-0Fl^HG$G2wlQJycAl6KkUNbxp6BntIk!okyh~IVNbA}dk`&dKzY@s
zpbI*=(lO6bohWUaabk+!j+g(5j`w79;X*p1**Iq$93sk|?N+}|f)~%TXfj!l)JOK~
z_&RMb5ESOhPt8HsCzi3M_cB5EKo6;}dVN-LcpyIHJ@UmWV3#+txd7N&+B6Vq`O{(F
z!gw+yH775PZ7DD)(C&mQJ&`WEAn1Hp!7FY@2scKysVure9?vswIl0$z*$4731ogL)
z23Bmx@adSe6ufh*s@XGn+B$a$1J?}pK(V)C+s;9mlHu7I+C4SmEp7A98pPUIL6dNu
zj()!>lgzIoPCG`jcN;xap0F%`%r}9!E^oDfcj?=D(!UCnBF4a^JltKtgawFN>Q&ZP
zE&oeFV!RHFJJZq{8VInmhqK^7QSXn;k!lA;I^Re!i10k&_Ct~-<C^npfPu~MmKpH3
zX5g`oNJoAxHvr1nEXjZzs={ovW}dLkbrN}WkLHi27dUMH_WI{!^Pg~(um2w_DgWbR
z{^S4o=ibr(S>xBuI>B^{yoZ}PC->If2U3DQx*CIT2&Aw;whP-xu+3v4>;Tq>K#~jJ
zHUooiMUAQV&ellevXXA!rm+9|3_!1Q-~2sOm-wzOfG;q{&-WOCiOV6=dVaq_Y?hNZ
zJl%Pas=`e6=FJbK82Ifn_KvS8c&P_s3xLKU+Z^%40C?QD%`1jTuC8uV{<F>HFZJw;
zCSP)EUA|R+r<{gk&AYc7mPho35k%KQPO@VHHTgJ)Z(pbx+M~bpnE(Bb{?)uR5k$^I
z_qLUc?Lwe+;HBx0&u(i0WNftBIY7{1x&3SzZ!k7fYYM@qSXnD9r!Uv6Xzj#UTo*~5
z9o=v3RcWaJwz1qXO>UC$VA-~m^u;=YZH0rvVqCm@PEz-ar;1T3B2Q&rtwIgWWELP%
z$KVdDP+MkN26xPu0#CL6>$C@A+e=UCt#_z28Xx*t6tk>6BdRSZbu&v~&`>5%v@?bb
zX-f+jw&*H$IT(>bc~i~STy6e^rKw=TSUeSC+ShmpsZ?E?uY^X2@vH}bo?dIvXlk@t
z=QS6xnr)xX&A8U4N7cxGPHwpAM;szX3O*3!H=kUwX6cyLSO(``ReaSs5&ZuB`#zib
zc7D$rJQtPUz7i_urlUDCLU76?BpVU@0loUOeW0*Cb$TMbQg33@Il}5<F7r|!gIWjw
zEA-=Y*OXQERj=$E#o)K;DE(htk+f+4g-uVh8uTdI(K{%laAwj9ZCc*1D()U7I~{RZ
zYt1J}W8HT_I+`L1*SS$MsO~EkwN*7M{*6z9uV0|x#Gvi^XF)qaKq0O&ot*ih4L9bJ
zqb2!tXM0KvbLkMM)=^Jd{5l+5ouVXvwt}fXnXp1fWpIj!WQN)0vG*>X)mWG4hA<$E
z35}SCQ_{)O@`-d^XXiz8^4)BCENuLau#kpVhXq%EN|jK7CElG4671LFFACpHYQ#HZ
z=erqg)H<N&0LUmD!R0P;-|ZSPY;Iu|W@~looau{jUYUD_Gydvqt;e#LU(&x+9u;vp
z^*QM&OT>FEh4WAGtjW+y+aiKP4`=YFSH)AVs!lo1w5eG0PeHdQOuc7&l+SM7S8rvT
zSXT2|bg0{cxEMuo&2u%gu4kPc+Pb<o-H4%&(Erd*-{~v7uyOx-yPaLIS?<uECO((C
zW{&|m_sNHvTFMad-r&t*Fe%tAGwvxJX|LN$92^5>2ou&Pe4EFLh5JJo+Qff3=)9cn
zOqo@NG|6%rvp^=httR3Q-7YVgmTv{ML_7(TH1I9#!1c9I_kHSfAxs0p8HLjuz6`M-
zF1ZSu%s@XtRrdm)ywTz|UulDCPv)MBFC1G8@|1U;`ex8^_mg6pT!bubz%g#TX)aF1
z%vewlHxMBQo4ZIf^8IM!T;Qt7(7Zb}?tYR*<zat2*)1g{Wi&k8wpQ!>u<oh2%b)+j
zNkQ?FGi~Id(;>L6*SX*+OU>t>SwH9X_WTBc!7osbC@P{)?dAyrVPSA(TtkZ@U_pNW
z#_{%?hp<Q}ESZBOcPAtZsAeW-^mHaqsr6{G4_&R=Ck8IW%U6%>Pj<ZhG?vZ0cyl^}
zChpptlS$Hs4;9Y<vE}3miH{g4?5bodTRrZ-|4v&T%3AEk<t`+A`J9kfhX#WHnK{g3
z6{u$mlTPE4P)eH|_(QBx42fDaU$MZ~6@z5E+3@()U9KNl`;tHFPwM72a^Ia&BirL~
z2T?>Dd|-PG7-%t70+g%hv<Dyc$vLovn)L4pPp9+he;g@)?K|g1SB?@|)sUv}LU8F_
z50*$$M6hDG-CCDFpk7jf+9wDUa91YFmW$*py~f|5ekqRZ;DH1EhN^ZP&bdeWEbJgL
zO_LWNES31FNa%`=W8e3>0h`iY!621dKo50VjhsEM6>mn6D!^n$+{p}exQULPpox4@
zQR^MIRRx}YwLlk>u9(fGE^+q9{2uwnRWfp=X27t;$oM+nJQLC}`xy`-au_{BGvuz;
z-r9zKrJItPS%|O<(%0>IHP)DIxqoLFEk}@R7nG+VhI9psqN!<qye;hT-er5CsjZI7
zSp5eQnR*d9{qgZ|*hNae>MX9b=9M#!=unS-fmOEDeItsSR<lCohl<{K5ZP9!d4(i_
z@99oHwH9`k5cXEEG{=pe)0{ii(axtVLB;Go6_W~$*^hEcYv9xqJy<?vaGqP9tjP9d
zZV(>(<`y^R9zP3c!F$l`eO!CPru>GdVL@ec^zeDJA5eTd?>3n~xto=AnU8cC2*uA%
zAb%}}T|;87&tt410KLw^vqY+AsOrD_UY$R<zBiiXjbQB|s0y-!9@etw1L20?KX~GE
zDcrYg06I*{-z>b;$mc-Ufns;uz7fi&g#h+ZrVD^pW2lz|Y;Nu0E$zufdqAd<q=TcQ
zoM)z-2e^Glk?V{Vd+r>&>7;9apwK$P1fVE#2B1Eifnc5~%pa?O0UPi=C89CF?ptR4
zf6WI*^ykfJl_1*;A9LQ995{e<T;AL!Rc2S-Iezx?A|&^G3ZH;i>sSlXj_ij=x`Gpw
z4+zw(tF|q8#se7Mb7LiM%?s`-jjFbJ<n3Dwo9Z6|u**E!UL$vcalZD~K^_hX6=KEA
zk*PepHO}`@s@2IR07-mICE`CI@~o-IznWrevNQ3Q0prt4AODl}bm~86J^nKg>I1M>
z0WXP{#J2=k+dM5vNwf*)37D{WhhHxkg<g9gj0{jX8CE(GXE^x4QWHm{7)_7Z5M#JW
z{6r-zl-FE_Jl<3)>vHUut2~n|{e7MCYoOXR6RWf7TcYb&JxJk#2XHRgHPoTe{s)%=
zn8*_5BkyW%?}~)J(n0{eCx*aH;4c6IWkBN3{00H!#-V?+HWqT`ePo8lK;>l=fJ?wg
zk;{=Q>lkSY6%-IuPC@?bg2r>hwtm5t$=7DxNPK$OPsr{*9!L{FK%0rU3I3NA!S({X
z<z(NDZxT2NQNQI0_~@9Z4@fV~fVeIo`CnJ;AC&v*)E_u<5VA>^=4)6<WW*&vBq;G4
zL{ZcE*Ol_3pDMXCC$e$G0m`}UX*x<+^SR%k1&%+ztw8R-S^D{KgMVl%^zHxr^%>d_
z4`6XQ)cpRjSq_M18V`T~G8^@*g?Rc;v(M$<EFEyD(aDEoI~hZHfM?a_1bAWxCfcE-
zQ$R%oSB3nSmH(gK0GDP}GOFaK+B8XQbkzSj=kZK7k<E!>;);A?6t4+-1jOmhr`8^<
zdZ#SA&C#_O7@Htt6KJm12?RUL<qv1f(g9SfNUb2VHrA<VO!g+5^VKYRf<{el=&9uu
zz3gjHD~HJC>qIXqoY!gJ!Hj*&-VcAC*#BdRYA67hr9+NAu?rh*ka(x&mZ6vzzb0Dg
z>;R;=rJ-$5&UMq=HYDD7`)s$*1p+Eu67_nI*&F8d$bRd#O96#O0-;uY`!0oj_7~tJ
z`*H7|b~jMIasAVM<-(P>k{@2WvIr;YR~%4_HoFl+u-oxK-Ai7{RsmlSSCxGVerwZ5
z>*H#AhU)y+LJ{}!uj<cVcbBv^FYB%(QOPd3gZ5h@=eZ;`Wn48cv{a6K8gUrf?|aXd
z=1Tq6k|Qx85@ZLy=KVuvym9JC?cfgKB}t9QOmOa;6WMvQswp{Ewr$#@CX!-TbLryz
z!1sCat$m(iBt8w{Qb!C0cP<fHqA=+j$f-U&+3#0^f!jmf3$RZw^j4lMzVn)4z0+@`
z<^A(GBMvVe3$0Qt_Qq^SD}q_}h-K<F1O}Q0pS3%86*;kzyGEjP-yM2!IUR!6+tw)p
za0hI9l=|(CE{ggv!WpwFX)~oYlx|pGTQ}2qGv;TpPHoWFMF(yHx1+L+XTkm)yE>5w
zdxG;peC-$jPZ{7?Z9awfQ}UT|shO};wH+u5@~r;!uAV%Vb)6yW1`d#xv_h*ADiL5p
zZH&4@fn;(Ff<dw?sov8K>8sEwk?P_Tta}EhF`Xo%XTZ`^K`gK}VkA17jz4~0#%@%d
zwwhx)WqmPCob?Iz3m~l90>=VsZgmK@FGQ(4(!4T>Ao<v9leez-ek)UUdvkCqMU9AB
zST4oAx9XhZudEvNi!E!xFuDu-Nw^HjfM%n2Y4Qz&*+#NDZnb7}fHABaR(PDrm#X-C
z<0$!cX1P06^^eN?0%aJuQ^L8g8|w8gI0&mSW<!N4_BJ_oeuLskfrMKN?n$q3V0Od}
zJRtlaX-+-koZ3os$k%%EL~_Zi*}p38WbvmJSefrjy@2j<nAal<I_-N%8Pj}kMy((S
zP`~H1B$nd){aeoVpFdnNX|9@O(m!|PZLRKd4ejif6f$vo!E=hQt9HH;oUAD{Yd*c6
zL3v&{e**?Pe_GfD3m?<}eD=<V0H-#Z&sjQ_)@u_2$@#FPp|H#5>)Gt;Hx}MhHCY0R
zA+74DE!cXzP1>ug(MxP!v)_=f|KQ`9w)Mq3L1P7hDDPQd7Z_iSR>MJ9-Po=k*Sw`o
z;eRxM(2B6qXWzPts)mFlzm|Jp)Mu4NMNBOt#vjBIQx~QuaiNUYt45Y9Vjr3KyN)Hi
zweJfZO4!Tq520H3GwW+%1*TVJ;`&?Su|w*{IYc?5A^(%vEB@LeT1%tbg5$d5vL?b>
zI@hh!9+{_%aJ1l|2NC1`tl`Zn1aP8#)Cm+X*_{I`1m-#wYM~Vit$dzd%a3vV#g(w&
z1N!vF{Fo)~h`lpRkvN}^poVZ6CHuM19N^c)Ix1YeHJYkR%0AG%O*%|5Y3uM`bXG<c
zsM9ulChFV`b+$<E<b5_6n`xZX_T<^;-yqqrMYU%abm^Fao!&WyMJNHALizs<W<$uH
zoZ}dWc%YJkGtQdb#Z#gSzz#yGy?~zBe`9PBT8@^$vc>?w#6*yLLwW+_%SVTy+{$nV
z+;m7UgxcD?U`qsM<h$-<l44<TOM;0*SSb0<z=WO^M-RBkFx&E<SURXH9v;>Wm9@>u
zef1G)F}v?yez4EB=3S^pO-^9UVnto6jiR#HM#Y{`D|AOc+41r{jB`dc1q+;yLTr{I
z+tdO5i+iwkNb>Urb*b;>)tUXCUscq#7aXSf14<Z?L{Z?3E<Fz>YVS+)5^ryrLN_4n
zv)2pFxLaqg|B_e(47E!YC+x&XJ=g3GV6#)|l9VrRzqDK=a4cPLyeP6KZ~}gyLz0`{
zWX&@WUIkZGrKfBjU7SE%fkD*wT_!bjlsBRG0j{)!-UrH03OGx<iU4UxaZZ;YFOObD
z$sY;SYY4N*{q&(4P%dQcGMd`%IK1r!rbdIYnf^2@9h58j_b0nSCwc<1z9~PH50Bdc
z#J3!Uj}KcD)vIoFauvQa7LXP&D7Cr&NG2&lqh47<?p;DKrtgnl10R;*0A(jB08qN&
z`Oxa*Gs;@6OO<@}5*+~p-{7bcmk+FOs|JWy#5T4IpI86|w^WI9>P-)Ho2$F!NJjLw
zv&r5w*d|6D!1a4(efiP|<tkipS&!Z%*1ymGg2)1M{tkoY*e}3H=?6J0HTytoWdG7i
ze4qIe|Ncqqei>IM^viZTE2pBrXH*zRlO`&!UCrT3vL$G%3J}fy3a)yjFX?QAPIyNf
zvC8kPyb)S#Z1b4Mlu6@8KVqdAxN{Kaev`xGXhl`utr@U>UDi-I4(*`<d9ZF_2EiKw
z#WSxhN;?742|n|(EqoYl;lGoTG+Y@u=ui7pGxuY&Ni#W)<ov0<4`VcCh4py((?n~m
zOlUOso@!#gu-H?ON^g(K=UoH?xrhW|O8gi$tZG{Kt);Pc0>MXfr$>w`Pbc7)?+exN
z?#tBc;u4E3Y6lbesdAWS<eXHTeEXX@%6O1&@7EurG<e<BUs^`sp5!Uy4V)!8V~=dB
z0G2-nCv0{jXA^OfGfd}H*@vHMmVRtDt07mbTYb`w?gSEi=Pu^U8#9}qEUnhq3ht8H
zZ;SYEX3_BzE&+Aw2N*O0mc>s1q}6X^%xuis1CbY~)!(G{pl${S`(6j%H-@UZWCQe@
z$#v@lS<>B+s|;7wo9?K%gOgp)f(uH6St3vLNumUGw_|8$HlwWsKXXPEwMMAb&q2C;
zV~YmoSieM9y^(4w2|No!b)BBd-jQCZ_`elT9hv<#vs)6`rr)yo6L^R!qJe(<@Xz8k
zD^KEKJh_cjc*^phrrG|rS_`dzP)#I5TA@)e&1feDB>(!vl{`31uiK!1;~lN=NsR1<
z5kE+`ALNUyD%iC0$DeeXBALT@R~c}S_>8I$Y`J8-fhapr^D`^c#IocB*J7!I2Evh!
z5<F<#EG1&)=aw#Lj6u{%KuKoFRaLOm@F*$fvkpx{Rvm2vWO8NUE|iu82@3oSg~T92
zQGEwM;7N>I+)CS7s&~8}#CAd11Q-79@j`Ha@SfM&nVp&C*V`XiT3JBc)Puo*;_0W;
z-#Y{UJMTf@uI<U_wroyR&V(foS_T)Qy?YgHg*iNt%B6W~C*$Aqc6HY|Nme|&9X#dG
z4P`(C<s+nsM+zmwZV8ekCBm6;i1>hMSOjD0Dsvl&TJUYJ(?Q%)m>5C^zugU{S<^gE
zFo>96<@#Eko|mG0@}+yeeJzN2eY4AFEQdF4-3KSe{>xHg5pa`FU<YFMY(lJwYy`1;
zs_6-6$+PuC`$bmE<9j{<T`~irx<sAzX^|J^WP4jRL#gj;Xa0gN_*9|rW8C#H31pia
zz@S}41O3%Ujwnhx)L4haiJ};0w$C4k0u7f{|NZk+$3_1-5exRM<?;5BLUttbK-6Xa
z_!e_;=|9>p|2r4?e{Gx(#}0V2f(j4q+I|W>r+t5Fz$UXJa7X+%sE?1>p5yRKBr$kz
z2Dbi<fSd+nuKot`wm1R*5Ix#>s<SIHH|6?%5CW;rb#j3_EfkXvi@J8I+SYRd;&xjm
zSFo=kykTdEI^8l~j*b)KLcb{d2Bih+y;->%&>8ph01$TEMtv|``-KC}+JC_MII1N$
zM)#(RmAd<4vP5TOuYJ?mN4*A)HGp6?5;ibL7Y`t@5f`xDWxtf}Ppxj|yPli9_4($H
zf%7T7xgNU8D$3j<xEGq$A9K35ezCr2rbkGPH(#LiLwFFEKD*Wm@{Lu`pLcWTX#P+N
zPFs?+VNgDL73|=%$j|TeMV*za{k>SbYCtRw9KrkAR->XuU#&@#mATLNU~<TW*F4{N
z>5IxypGSKHV2-K2Tyzk^vhux!Tb-{64(S5ZQN)N!?GFa>h^A9kHn%!z&Wg`k{hZNC
z&^deZJworsjd|`Z*f5Ee(5OwUFValO2k3U#Ze0<pCY^i3d0%QHBh;IA>?*Ug&-3#;
zbFA(?SgIV<`39y76EQluM$}%xpb`)=SpA|s*mPU28?R={r5V-gs+Z`B*D{ecH-F4a
z_{d(N2oSljo-t6GFd5BiJA?)n5)=4kO)<l9gn2wJT=Uz@O=TuT)r_`xmhW(L$;Wgt
zo$@UN%8{^xvnERTE~Mj);#re(hBEc)My&KwFIsSNCVX>NNzmD0ZwwT9Dr@j~ZJy4*
zMIfv*n|Y&T&mja0X0=*9{^(*x2tq!QaR_aUYP0#K3rP<?K8{n7Ze+|BA^LbeZNA)8
zF`P@3F6t_?zLTQ=$p~X%QX2b&Gqv|;VIKI+JMXSgk5=99{4e>Ugi-RZO|;cNYU%<=
zCE1k)k5?#!>KFoyg#oTxi}l(stK~meebl*z45Z)k9sLG*n@K6j*<BVIM{RTjm6D{%
zStMisLZXq$sK12gd8qu9LY~+rE1&v}Nsfc<dyO%zM^AC3p;}sZo;M_|bh9glW1&fN
z)Z?1Wa9F1;-^8@38Nt|HJXEo*MD=^R?t1y1hu1*No$tsCdBLdmCeh=GgF0egs6yg*
zMI}zvn{ECgS1az^)V!&}{YY(rV7sq%hI3R3PPYNepIZ$RAik7-vUN3qqBdF(V|{z*
zDCJFQ`Fb5wQCkNK3$t%_rAPYbUxLiUZOQS79euG_g`mw6fAfU1bBSdp`nso%JX<9X
zy+S3{#Fv`I;oOM3L~p>bqp*?TGPW@{v1xqDQvI-1SU7<#>xOU>e~o^x6d<v~0p}lv
z=!-FcbT^9;UmVk1<oimJ@plkA5PJuPn>fZ)PSdHF?9waKi8k-!Yh(SAx#7Vb7K5Jl
zqw?{+X;!d!WZmjCb?qm$M`)x$C6VBa2|=<*y<brCthADR9o!k1Zt!O4CN1Zj`I$RO
zSx$6K!Qggqlp=&KOmNlq{K%G5Q`C1gjnM_V3=4t0lwJYZjUIlok>$e?OKLTMXjOCe
zpE|!(k+^LxOE_I?^F@Nf(X?ak>LJ&zZ-nXP$zH(~Zox%UXA=8%+e8){`87#E^Aq2R
z71RQK1ODThrG7oH9g@RQVG&uAke;P9sLq4;)Je@9*A#)(96#v?OR{7$GHfmNeEfVW
z^twINV^!6rEINO3wdPuBb>h1#o-|hu9TLxr7aoA9Y)!?@UM4$y%otv3_)l@yKgHx_
zm+Eu>=Kz<mi@kM@Od9n4s&Sx>F?B{vlMh(J7*9z@f`uLX-}$iIpo?gJM)6-cp4f=T
z>vx{c0E&>1$byv2pcgJRzZQ24Egk|Wvfw3Pl!{_LK+TvTXDNWXr9n067u23*I8}tY
zC+TSEwIA$ld4KJ9$R>&@J*%ooLCX*z*xJZ9HA^<aT^?*+w6r4HB9E`EXTSD^nh#wE
zi{3gBBH80-hHIby2Dzbl+BnVnk~=LOYs%XmB0f~*Jzgp5(P+z$#w2edG4+>V(usm+
z2*IZ>aCHjuaOUk8B8MUt_5`!PlO2IsFo0*1L1{Dk;|yd9&4aJ(#1}5CW~44f%B&P*
zK&MeT`<QwB;Cz+nE3eq%uzoq4u3BlSXl$cZ68x8lIXN_h_c#d%>TOy)m_2nf=+QS$
zG!P~uJfm`7o%1A*rG*6T12lZQ<-&*4jEGmb+6_dp-0J!;EYN7yyI_aJ2;s-ZzI>WT
z>rKJwB3GdgfZtBj1&P1MI=Rwmz&k}U8N>xDGs1_h>~QKwF?Gj#s9S>o2^#WzPPBD6
zOqgh7{K)&uv}H}efV!P#2>4qy;ub!$l_K>U^kO?w9a4(?c}qVctbSnr7I~R8P#RRz
zc)~;i5zcl^v_lxRb~%58Zj@UY8j-!Hdus214o*S}J%x8Amy_VTi9_Y~*@Z>0B?%N!
z6x@2+S2PjRZ`Q%Zm-_5ju`!4*f?oJ^p2xGWPf_G>WW^=|#YhSywqSNs0kLGe;UOF7
z8f5HC_#jo*&z?IV<X@KJTa<o-Jdoi?4#2^A4mde*KPqsN=V8H*5+%%sHo0UKI$?Zo
zQ*M!xtIJtfSb`^7knMaY*1rPmT<6&|`H8RC$_6$KXt85SRBMl3glEb1_;!IpjkFMT
zbJFCpDh`M%;M<$;T#!OyEl}20a{O7tUE!mF8$ruCo>Nx1?P!eI1TblK)6(yuq(}y9
z>=TaxZm}o!wd@0ic}a5D!4HR^KzQ8IiXF;{A?7X^b%R-Tugl8d8~e}r$i-5FT4{NN
z0=wnzyF%~}wkMA_KPEpUh!$bu->O=zt1>S>q4i?8!dFQ5>K!if-95UoQL|_w@?e2@
z8v9VYl30(?4SWe2RXAU%A=jH}4^9j=il$tKD|Nk51;_hIK4z~%I<MUuc=b|dM`k7R
zh!->s_>PkMqz^NXOups#it7bASC2J2{qmhc?*j70Oe|2KWAae9!5Gm4_W&lE>3hB*
z?aeEB-*~2MP4nvyns0Nfg(?YpM^LSq;OF9lfjK7A`rTQwb%My}np`>fnurA1#3E(p
zP~|lxX|_dwK?_u|pJ%+SAb`*@`;*M<UsgywW1whrb8cC<gGT#NiE8nwJPyEL1X%Ys
zF6A~wZ;W9!?_-cy2dr9rQ}E8MaXl%q08>qhc>=N(R?IBux<2?L_lxFJpoug2k0uV#
zWa-irB_Rl`&zi+8iR|qZP-b^V$<)0uqgO?3&R-xhFMfkch4{~^tz@N2=GO^MXu;>h
zfu|sLA0qIRDAqm4Fct=eXB)@qRsGs_id!2d3e9}wC!EV~U))^T%DU02`Sqro6(G&w
z0Gy0>>aNOq)h`a7GPaKHV0P#Z9*+)EN>Yb7VrC6I^ONSLy0<sQ4>|;`6K3BmMQMQ4
zojE3kXMkqVr+*9s_`65qZ|^=Zg2Y|VxM4W;*LuoN10IDIHMb){{k!<*KYSZ~*b^MM
zmm9tTKNkQ={zpco=}WGVL^Xpgfa%)F(HK{S?dagwflA(;UK7C&zh7*8dg5*uTCY*O
z`JUAh7!?&?ur}ql?q4uJ-Q(}B>i1IYUT??G2v(e}G%lHOiim3q29jy%*9uvvf*JF>
z^aEe7K6yqlFmL&jWOG`>D-UkqshXTZHf85*L_=3Z6ws)%;E2!3?dXz+?w6!iw3PCb
z^ZwE%gH`zdb~*rD_Y2v~B&89qgCKGdA{1ZLGl`bNb|blo7Dn_5D_k{Sf4Y0uUH(<K
zr?6+>jjW|>OZ3Ewbu<Bzema}%b0oSza(#|$nZb{tlarf}SjPmmT4D@i>mwJU62VHB
zIEkOXO^Aw{cK4^hrSD-S4ZDWbg_85^bQVJ<ik}zt3z`kC6!EFO&j-fRcHhu~uf(*t
z_VXDLl8Q0etVHL|W|cAd0LIU(tQJ>OCi$IVjSW}qXCJ=Ww1GaQ$PfdukZ@1+2f2D`
zQ|7U0JHzmVK*cYejd@YGA^xpBg1GU5w;G@=alVkgkO8@kLpGzO3Z0#IisJ$gaXAMl
z0b<C>gJ00|s48xR1ZJLX?cg{jd6V~<qKl;8xTEA3>`fw5uE&x=rzaGle*&2&X-4Z4
z$cK?tZ_ygA?pVgo@%*M2SpB+|i8~Ad?fx3k55o2IG@c%)MywrA^?W-q=rpA~iMULf
zU~C%D;#o8LfI8Je{^C~*VbRCFL7&D+44jTtuR~}tzlJ(zuZRnn<g=Vj=}4tso!jmL
zMtBQ%WpNTcKNE57s^7?so#XgbP9^=t8B3^pW?$O%FI1IokN}!%3&SfmbPlt>PzuEK
zlk0E?j9FY&3+p-zpf?w}O7<rN1S~t%`#C}{aTwx+Ik~yJsYDV?Sfim;PN}#7!CAQM
zVMoJZBuS6sLrYXoCnuqE!t|&O{!J}1At5qyz>wKYw&_`Lzibe$I>O?Ue;oJg#@>}P
zpK0~P%0XtS#1Y&v+_|$MI(jdg8s6A-TpA}~*r1&mW9HS{Is8S~d*GW9)Uq}oac?M0
z8o^HBijg<cR7O^AmzG`K7T(#Clsd;b&s6lPdO|oMi(XhLP9?21@K~z4fEce|J6csd
z9jaqgcYko!vR5SOIs;8H3#(9ad)Y)Br3;wm0&8IfI26O4<SQAq6j92cARo~fTPl2g
z+-}sVc}((BL$wv3gUTz1(`@2JGe5px2T`wiQOUn<8vQAlt_9c3Jh3C%`}g0vMF2;m
z^%uwi-1nCU^v9kkS+99Fau`+S-Cg>bjZxM>Hh2$`WXL%HR5MF<6fGQr+4OCj6RWJ{
ziqBuii}+Yur3vZt=-BD-?@nlVxh%)8acbDc?X>VCf(1DywyWHQTjwMRi3i!`a{^pO
zf_E>ZLdj1`;#OeP&m;%vI5eLFcMV|2(`_|hbWzMmtN3J@TXh_Y7MB)&Y<KAv-?gI`
zjxhs5{LXQRURHyT=y_A(2_^(gLp19gclR%uCVq60+zT<#ymrXtdAXO0fqROYQzS9R
z5H{2!bnaT{m069amf}f`pA}<s)_CJ4XVxTLJukIZR$kv7sL&7cE)wE;Vs}bM#H=4$
zDZP0bMeMUCC`46a1~_d?Ct|nkYnwC9hqz1e3z=VXKT5Wz6Q`o~*MDgs1e74r@m<+f
zS;;xXiF^38Xv_c`9A`UnswUqPGkq!bNhDLaNYby&itN|t=C9!5Rw*1L>%p*VE=rbB
zaUOOV-vX)t_kYf{Sqnqe9&y3w$Tb#a`J-0>)cHVPB~~8A>1ym2ER_o@b{&2x+)$b7
z7+db;_00>W-E2mFNfC0HXGA^<W$ipBx77@9a60+K*Uu(&ieChBMj0WH#I(8=;guHN
zxg%4Wo0tUjLvB|$ve8!^EzHA*`zU2>=N&6AP=1Lu2lE=gblYIriQ6%v3meKn#vpEe
za%q@<j?i0x&6=}+LbmI<^2^M<Xp9riOQOcTFOBdX&IB+np6wJ)!Z>Q7!=c2j`AS6+
z&!ge0X(Lrw+r_l+*9BwfzV}x#B?aZa_4KM(uQJO-2opDRN!FtZWN`txhxqLn`73M+
z%v@H_FV;U(R<k<uJ>QU3=$*rinWWgJ%_kd${qg4uNFI1@M~#`Rr2&>1Y^djs=yWeT
z%R`eywN<E75Ui4hahNImbW14X{0oW8j?C5F^u51y9E^%V`Jf6AQ^p<qz*HqxvoePW
zy^Cj!u+{_2XX)UdQ|fL+n4f)oe2s9bIZkA2Ls#STrAy}*yHjVQDBn$s3Alp~go!Rd
zIIM?ndFJ3rM|66!tl~tYu-_iMR309_WYiRzV=dhZ^p8}fTRoox*c{QP^&@*QlgI(b
zGl#O-85Zx5K{J(E9RYM8Gk;sAyv3Qf;{ccSuc*h8Z5a=N6X*~31i<tDZ@<7m{pv4E
zwZ%&);*~&BCe8f8wO_wM$5tGn`tH9$f&^q8Bo(CpCrB~bmOrt%!_GWgrDS|fs7Ky@
zG~${zYqj~ur^?K*gHR$AD=Jw;QpK0<F23J&8Q+*$QQsKwJ(|dZfr06g`(@`Qz-Ov1
z&%Ey{HD1urIphvD8+>?=?wdZ4(X9}5a^`PS1T(wlIMbXRTC@lnOU?5iSXX<7(JQ!u
zHnP%z1s(=lIe12FbPo!YwOY00=Y4JYemvhxriS}snymT$*Ip3+J3Q;mVK(8&k+O>v
zFD@b)X^mHxikXed7pu)a(34fn4pJB2nR<I(;?2*5B0G@sdK`!ta&VhSM*uGXoZ?zS
z;5|ZFQ4k&JQh?c1e)4k^8)EZXl^oYg(|e$_dk_5FJ{MPh(xV=1c^vDId0<bp96I|D
z9`Mx=g1&HXzEELbyE?z8%;oUdZ{}8z=cPshNh;sy7Yv*I)9C(7)^HStvHxo^QOt5w
zT`7c}yy#Nkl$>lNbsKD=F#9a*MB7ABGv;r)r1t;NC7o)1KzxgBvI68LHJ>s=bBPb`
z5uUf<?GsDnCmoVZ9{9~eeq0xFpj(qz`?kZE9L>9tU2T9$(n2HgNjjK-;VGm_Ao;@&
zsK@uM?vV-ZlEuvGa6zjDjgU@owP!aVYvl^&*JQ;HbcAYeagLOgbvC>{jug6C7JfaE
z%WY9`{i&4*N)8K+4`U;y5`4RBkZkI%rEp}2tzZkKe^}mzVfzAm!{uEmr?g4EM|z+O
z>UP<84l-MwHvmF<h)Xe&AFkN0_MWbDFy4sMA~P@gam@870tba)BEn&)%RCd;Q;(NU
z4r2lU$7V4IcFZ)G7oapgV7_^H8`fFXSkZju^G^4VGY!gMKi}4qMxP^#{mWQ&>XTb~
z3oSs(&Qmb5A2Pt@s>yuKniyg>o@OuEX~y=nyw`>!`|E4ASACCn!!y=3`6)lxiMeeV
z;5dXaE}I*YxUXzKy3$-R?i3;6^rEEscEE4YT01D<tXWo5l-dFQM>U}m1C2#%;I>(A
zEd2D(hq;tql^)-LW7<<+YSW+9Bs9A8c2g}r#%pqnX+nss?E!*k;#)1bVmzzr&UFuT
z`K&)uQ?W}B7pc5arE7kf=iWCf8hmi0d;e$Zw?s0*N`Ev=y$gTR6?S!$bYY=X*dYFX
zgX)DktEM~4M)mCa^inCGU-o#?B(V2#<eaFIZVqo!)NJ5#ZDB%V=m!gYvtlPVr8oWS
zokygG4N7_SRk!^7Ri+0Wy$4q+iMc?*Ul2^Ja3<(rDDNGxj7NalaO1saNBYFg8QbgJ
z@;+KJ_c?D1^Vp9(Wzj9`!(_*zL$J&~K_vYJm^AG#7~K}#LB{Od*K7VK-{LsV7J0}T
z-V;phs9YYkVSN+E(}CTN`J-9y;*kdcXt0;?Yy*PU{@i<i<_(mO=70b?g5%LiT<Y8@
z>IkcxU!l_2fo`h-e#&=E&SpG%xDBYg8aU^flf#qW((LkEZ+P`pb)R!&PKltx)f%0M
zkfaD)?b1|mAb`A7Wtu*bC4wGZFn87qkI==?cNPip=X#Gms@n#nrIod@>SBbKiepbU
zxiBlwxBU6G86R!vOTUNz@_O*OL~mJ$Nwr)>?A4V!eczp=y9Z)<ZKDYx9W9KA8#oQC
zjyZ;5w0bSDePm709-6#KO}d<Ao|<=~ih=Qz-0rEMQ=f=@1Zu4jAUS08WQ4PKPEEuj
zn2Uey-aTk&Yk0j{`=VweFZ~RkLk>tv_q0(BFbOXn%7n0TAi!=D3-CZ#YdY?}0oEPc
z6S#@nSS_65WNH)<dggD(sxAPiXa#FA1Ai{N!6Rn^_~})Wz{hwKm-qWFTV->hJw6+W
z*VwriUxe(wJ5#yL60LIL<Tfz{-sr()Zpt347&b>q+~OE}*Uwb3d@v(WmdEx&cVSP&
z^#1At#6@8IFv(%OI#j<iO9nW6JgoW(MVnIm$Q!Y;U8h@SVsD9mu&eLZTZ5I53((Xh
zq<chG>;NM?jDE}iy|$WvZJdSarAO)adMBNPSX22>`F;&O;dX?;_QqtoHOxy!GT({R
zdY^}xpP-eyX6`$%+o#M|k2ED~3CWTEtkIRk<om=H>^QMPqY|2TP+EBDwUSk!<QJ<L
zbhg9=GaCMdbMXG)g2ZM~crF&eN-@Co4M(LAk|6}zfz6Emebm=LPnvtVKPt{@YCAol
zZSB@EOl@4qL?uF*)TNyl){~<foD)|@UTp+uibR`7{g}gE!ir^x-W<Z{D1TKJtS=o%
z2JV3aR=?#Gkj?hl0|mL-XHG#;>E1G&wJG}C77ORj*8Ng^NoV*JTdDWcIfG<LbepF^
z*yEEaY{^{k3i(Y~kLnYyV}DAu!sr9ak&nKLbOd*l&9s$z#C1S;+ZjBb3*Ky7AYV~n
ztQuazJ9h4vmuv|Io$hQ^NmkPbfo8Pf9LrE%k{*G*%T|tf!5=$M_Y*FBH@+wM(JiNj
z52I3Lj&h$?uErGeUZw&0Sb3?lNQ^Wq!TGu~oV$%qlOEzVlUZZ8<ck>-g&z)yG*|_R
z*7$rc<trEVa`t$KZ@TeBU~};lvCm@Eo?J=cT}^T0@?NbK<R8t?=o0g$DXX9A=T<XM
z>P(0uZ2DqXBAdk!P(pu8CzKav2|%-z3iWbbRRy14S~Q;F{#jDXuF<gc)gNO8VtLyQ
z8v!^Y>sZfNh|4xT;x54^EjxcT?bu-dl}k;azRYk(nXqYkq+0LyuDC*zR{qgLO$Net
zn`bOVg1{Q7uHuesIYa!ia-#hkr2q0jO}~-xM<7}&{Yeat7`#%1yVTeeY|UbZfp$ut
zheu+}y2z}p$K5&D%u*_AxS8pweTs*Zp3qzhyZF}2+jif0qQ3_$CgrqLHl=r<&biHj
z)9(@v<2S=D{Cu8nI=J8Ogz@mmdq`f>gUMXTWzsuM2eM=9MY)god&V|IcaUw5&~g|u
zUDuP7y?$OSdCPvM&APO6==0MJC7kD(J1aS;s|2M;L@1%JTadnPJWOzsr0L1JMp#R4
zAdFpTs7p1bKT#L7jIukam)=RtU1NMgcOeLGqyr3@%g0Iz?phLV2W(?ps==xg(E2F<
zlr8J?791V)(Z<|IH$-p>2O?+V;SRC-vfVjUKISiIRm6%=r-+FdX@0ocK}0;(`58jC
zS+1&iP&+>8lO!p?=lZIQ-wU}SraZ-KDyIz%=~2NIFM~=-7aN{hS)<*CTg&*h7f*fT
z4&C5SIP9|K$Yd7<f&}Bg2ZHqTeiMNBwoShG)qzJ{8f5<*G1~$js>oN{Es;m8#}xwJ
zB1wX0ycCbA2A_T%`ra(B)~%(2v23^G01n>+Ry;tmWC18X*-=xDGfrxgdtIX*RO`){
zgqahp*1#}&#$l50!CJ`DUrfER4XQ8II)9&<U`1gB1ifMg7|#=SN#tI`aU5i!8oA>)
z2NZ`ZWP$3aKC18o>zL7`8pXhQVV)eDp+tGnVOwl#@~^$$e@OrTVe<HADdK<g^{GF?
zccGA$<7Kx{2<67X{Qg(ui$aC@BkI}Tpb5DLt3XoB3dHVZ`lRQY5o_jutm+aNqgYGp
zmI`Q35a|K`la|w(7v>Ac)XM|lNOR;7T)0XO$+j_noo}n5gU}P<2aTbyjiF_*YV_3x
z>?XA^t450`lcDHeH`-`?=xKb!F=7n97Zm&*28PCOn`xVAQ>DI+px2-mE-a8zV%qCR
z^a0r$bOQOfC5978+blAt7lP5ac{A%YA-|10LpT`OvikV_EtTGy%+G{SIony)xIB*}
zJuxna<?WyD<2`M*ibE)TmiP$CtPlw+d5%~P@G{lzQ8VO@fNR_k8kcShDy{b94jT#X
zj=8AGS^wU?I%5LtoUyEC(LDT1hvq%uags6$N_>8zMA9VYlmZ}y^#)-9o7}TsLmmAk
zt17jrs6;NeUTYIhdB^X}ZwCE9<m#B?z-JJhwT31AN>AIvPbYqSVo*kp^f5FvfA`YI
z(DiZ?mtFl5vVu9WIr~J42(r5QBDRz_NRi1iCEw?JsGdSQWq?yPpa_7UlG7^GELXWS
zFA->zYT1gM;%E~}5<rVD@{<Kq_tGN~;5-Bb|KmMo^VD~9S6)PzNp)R7X#7j>G?6Ue
z<ccFWhZ}XYJlBLkqj~w=QETymh54CaW$U?bngP?ob}J|ES!9yDjncjbQDMSZ2E(o(
z%*k&Na`<CO>boOV8V?NP7}Osq5MNO)wYA-^S>R;<0+M+rrN=}M3dpVw%NBf<Phu;7
z{vK0J=*|R?&V3yEu;(;cE2q$&?Nh8982beYeaB{k>3ghSt?pJ8Ot`SEPy=uDUaLV$
ziHqhj;)6p<+%ez6e21hyAn!R%V(=uG{=nTMup|bOi=L$KwoFOpnZB?(`d*rr^5}(x
z$AHR!!n@EV`wa(#_PzO<^!9`V+>Nmq5-ty5CuC2nEiA?;qNlV=8EZe&PgWc~g-!0W
zQvCwZu2m?GS@T$bvJ^vUsT8T3R(Yv=e~M+~eQx2WwJfT^>TDjDW^weFUH@4@75j>Y
zUG5-#@l@|Be*VZAQ#6XeF(5iZ3c_V4AkU&<IYbBR5fUqA;0!cTb^X3#EMU6pU!uDj
zdtoOx!Q<pd=}X9@9b)>x{4LO!V<zVcQ6_=#B7%EA<j_X{(0TLjcp0yC&kkw&AqgF9
z)&Q?Pa3%WUk~s~q8dle3-D<_pZRv;9f3WJJ2HmZwW05&J?Dv~vCqglv)SntMI1_0z
zIcsIID3|qVQsbUre4q2d+i|5vS5X06fO79Z8epK>5CNsV?JMN!-LXi55cLU+B+&aq
z-sT>lEm4seZ{{IM;#b-QXhXT$$6uPe`r2q<YJxKEeNn#GrGM`F1+#>MLj~Xac-rU1
z@ChA)`&fD=YW1wXr=$P!wVm7-XK^mdDonv~WoF-A2yzhEZiUT5>30C7|M|Jx-=L3M
zfEF@7*M!{AELe9>0DY;jSW!ht^E%{i_V<YjH!uqV@)>@jN5~(G&cqssPwDHc4ah{N
zvPZKt-k9<c@zCAAZ$qTJ*-RME#xZQv5~Gc(UUpAyf45)ixX@QNv#>H6XN@8-X5Gjo
zuJj=J)M2<LNJsO9N&sDy&9Elxdd?P*dGv&a`m2KH^kQ|BF1J32FsYnK8ObIm`NJf+
z+Q1xT`vOkP`g#=v+kE+{Vv(CFAE|7XFJ5D3?i0x6Cv*jS#<n<tqnfV~5-6f$>dKXF
zX1DpOld!rU(84(xB6eQ{X?;{$f57e-J+-AqGQu=@lW*u7P@6Y$)lT{6p_t@!PbIkD
zS1jmlxrl*x%XCRu*e)P4@wDU8r%5h&&)Dj9wLS=l_|~5u&A>d`Hlm+}#pL~5yFTTZ
zAXl`xOf~9#_}&MoLpxxy1>v@=EbErmfxH^%7k#JEcL$Fo*=S`Go^eQoCxG3S{FB)b
zHdSLNyJ0jNrm<g2WmZy3%70Zj&HUEcr1i!3C1x}U@7PC2;uZ&$Gz`M<s4NIjyxeHv
z5E45qC$8Mvbr3#%gDoXxOJa}&#<IpvOzoY8r?>O6q~?C9%?z|JY3eL&)3erobnk{T
zU6x$N<N3;!a3^9S5G)R_%32Xq${f%c*tsopT-M{0WD)zCdb%u~`>tzKF02aVgvF$8
z&v;di<7Wi_+61YUQB#9vzo9xK@w?8Klo8;@ufp5B$qNEwHPt7E2;Z?i?lF=AFf&9i
z@C;?m{igE4594UM7rsdalGzze5?G~;^#yQT#xP9vAg;&4935F`KBEUyk8M4($-{@I
zrQKNY9tIL=TB6tu05Uu6&e#!b(wvxQwbEBzbD!48^pW1xo`lMChII0;ZR5+q@1dvn
zvU#jXY<TI;Cev@s4=~$LQBz9@<r_}*F_oboN#V&E=e~Vo(Y`1)0nwt2r|+)wrnk<s
zxvDNTr(+H$o@GxfDXx0Edx{K3y35COGTG^>2%m0<j60?V$`3&AV*x_jfzjZ)6F1#4
zB;0-Vu~X`q`b&|XA}@S`#|+dktdV;y(Zg_FNfrim(e;Z0QkX3BgT{1m#&g%146kX=
z$t0XfH7NWUsJ?4X1mjvbVS-$Z1f9-!4Z}XIvC@5WyV}9=$vpUvfM|<g*)0K9+Hy^P
zK;s;RC6;*i4*Jc2e>85NrhEq;H)^behVPvrQPsqFH4D8Uq(=K>8jVb>P4E3%Z133n
z19&|<T3A;F701vvF#9E9v`K^ntZ_gl`7J-vJ7C47r@Y@xVkm|Hrkx3b)Yf*^O{Us;
zGMIlAvXe=@wvgSHxm(ht-$uDYeoK-oh4)~RWBumOAyiE>%^L9IW#5dc6;}nvx2^?e
zg?~}=2||64r0@}aCVGOi6LLq=Dd!~beDynN{1jk+m9f_CyqJfk$);_n|A_$UBDy(f
zzWq+xj{eHm0<9obi{7JN(X%IBEV>}7uQ>kuOQEM$ir^1A&k`%!j}_}Z`MNxdCU1rC
z`#AWN#FSC>c=1-dR@{D}ozfl851588x873)X^1x$eYW@&>^`1bID5;%9>#9q?eB#V
zj#J=qastNnty{)?BWx#C0peShF|;w3uexGruZ|asbrMz<;Lr(hcurj}WJYzuPm-EI
zyJJg@fcjdr^CiH5aLe-m%H-m^<7WU?OVQoD+7jAGnyuyFH|xlzTZ7c<bn1h7)&oY&
zNi_J``OKVEv&+V4BY5<wEfdJjR<znfGVV9%6spnW=4BJAKf{(!q2FnF1ojCe#b{4e
zxO|MmDV+JYs*?Yesi}YOg#NpCO%tF7^;a+lvpy*P{`Qd~L(7K!&~MOQjreieG(`iD
zQ+Of8L1}-lz5(xN0{>o3tbe!-!R_>smnkMbPtOpeyBl1|nMilNYNhXjG{lbc-c|2n
zO8tMGf68jVqOG@*=H$5*cM^=A2CgVyZrI>&5Tieo&TZ%G;|VIKiqQ|?=JJMH4OeiQ
zpXYEwDJdCsdhK^~4Q$N&KccySQtDW#H7p~!-80TuCl6tPpW1j0P80AL^%mH#Sh!{<
z+v=wgE#ACuyYcu_S(0|i22e08{$~ZzKll;<q$>KeM%9V9Lo_ZR8IGz81cnBAyHI$>
zKa6jVgYxvR-sLggC5iFlGB$sGOnrL!W1QW;$}DYN3DdYwsd%+^f=$1>R5e!Pj<ItN
zG2lCA!{}D#v&8d{H^1^_^0WGgTN#_#*RO!9s!Os3HHC>>2Vo-uS@Y%%$<~C&DT3}*
z@qx@0F~1yNoCeGdS#MDdb`fgk4pH3WmmTiK^1E@ETyF&d`1Yg2gWKe+{p9DtwzW72
z*t)BTWJ*XV4l13weM`rg8{AM4laQFgqP&px7R0`%08e!b(X(EUTQdDCS?ZU|<3PMm
zMFfK0)5Sns@d;l`j!kPhwh7e&<1Jf`R6QAyKi>kPy8MaJdvt3B8}EOEL@V*0l+J#>
z-ymIklnF|l{HkSfJd7Do%f8J;t}-dCRsGfF{-0T=`s4V0p)pVPRnW`^5|<Ot<HeTV
zhrHXQ@GYQm_qJ&7H|U6N8aZ)^ax?pe|5e~FM*X=l-t(LkHX;-k{d6Bp5AQHAFw$<e
zHQV~i6uH&MzOQ$FhuiP?oCK~(q9;s-`~soxx*(lk_5hZ3s_umqfd03-GF^pFYe+s6
zp$6%~HS<E}n_yyHVeCU_f6VkIU8kyJS!FKtwtamCI!5n&VaQozZ>j5Os*<06Tw1~|
z+$m|9dpYWM2G4m_Jw95~2ZIsH!gJYBH5l|1MJ%l6(03kjC2AdO)_$|w0>K#Q-S}W=
zbf>%9>1!$-^h&*kiU^>O1CEs`>NY6<)lZ(xZn-D-M^l@Iq+hocS|}?!rqLcn(F+R;
z&o#OE=RO!+er;`}4P?C^Qs!X$bCcb3O-)y-{#P0yAiY)|1#HXt7B^3T;?>CrRQnmt
zXAwHYWKC06MtI1%Z;3rh=a@?98F(an_ljP>Hd$m)s#vAS6KbC0w>tuxg$Pnb?zt`p
zF1E1Zf~nk}fleB)A7{0rx!Ncog4yPD$&C`?m+q5xFzCs$MTz{CO6J43w}z&$rz%O)
z$`@2?*VI^}AVA?Xruh>5b03y#lPwg6T1!K%xKL;+M1CF1tnqXsheZ#cgi|K^YS$OF
z5;@pzeoi=T{FE*~$iIRmY$HHbn9=Rqu~Vk&$JOz1PR=0<^QrFgHqTQuNg~G2O^jPX
zOm-%pFP91b&A0dO*=#UxxjS)}^RE3jDfEArc2h4w|GHQ7M+$dZ3V62cGAZ2xU?A~-
zger1x!Ock@((Qa;0QUZWI1K&?os(*~OMzT%ne$vSyZq<JQ}+PH*W}4$Kn7N2`0DXg
zLai!mTveK!OV*X)>AvQX{IxT+gbT{EJPW&nJDQ%*B<NX)({$G$#D$qwKk))zUnMaW
zGwqydSZ^5Tfi-TJGkTEVT%+l5_*}~$c6uM3c6hDFn<f(0B_3re_)L)gZ-3nIm)QJz
zOcpa?K3emFYs#7?_k=t-`0IpMrcs?ml*U08gm<<~xTghggp3rFA9Wn_+ho~o4c<sZ
zuQf9@hbr34ygP!uiT(QH?&Apor44BUtG)v`8sZAH(JZE<83e06S@PD@n7=<bI<u7|
z8Jg#~aUwXR1ur1U1a@a1tCj*e4nwi$AD8ogSuokJ3*f4Bt{$?z0#E>K2nCd+VkjWa
za-06Y9Nqu21bjcM(*W!v`T>Qz5obgeFl_-cwz1m3S)%`CW!-B-us;jXL;d%kL}wiH
zQzKKOERJAAe6*bi+4HvqeA(=#^M9<||8=3XqdY`0#D)W#jsG9)y?0nsYq|#-1jGVF
z1f&xc6cG^V(h?gWBA|lOi3);r0jY+BBE3XVKv4+2NQp?Vp%($^AVnZSr9*-c0wnRS
zJv004;@)#-&N<ILXXc(icoz9mR>{iyz2E!(O6xQ~YJL&8HK->GaX+!de?MRrdWY;t
zu9j$p;UnvT=0g845QQnaW+>9QCM^mo*Ov8)oIe_GX#EVIe+Tp(ge&!P777|GnK*^T
zsEO=KBlJjHp@j--?8wpa^0EwzwRPzNs=9;dO(##y@g~cM?;Cc5%>Jp}{&*nJ3iih3
zv6V+g5vXP!1n{+Hya5VZ#3Z1a1dzIa9Qx}Kj?ZJcfJF8T1?VSe-2zDRcm=1w(#C%r
z+nH2l`Cs)tzgZkFO9;BRRh|5$KG~MH%iQ8>v8D`t@Q_6NC|QJ3>^-3%J^re7zzkDc
zjf`c^#02HPM&7Ez1K%Bhcx?K($uxv;$faNjMX8zRp0$|{CCcm-qUMrCz_x7KgxP-Z
zSV<5Gyz*d5emI+mZNRddBW{!Ipk`AOjKYyQ&!}EJS_fR8dZx`~&v-)%ch!-dZr<RQ
zXc7;>vRVyAvRRZ0HSi{nE!>FhK5_$6nIX#4V6$N!Yq<$5p6BZi4jdb(g=HGgCs~U)
zdiwfRUpNdt{|3aJZ+=VSYWCOIh%f-n7jV}^4%N}+0u&fls7t2rY`%kH6Q=2P6WfD~
zra-i0AyoW8S^1IHavt&q^UjN!)Z2*L<&<}!9Sf<uU7P<01}=Sn3;+cB>%Rd6{_$hx
zKk{X{?toio0g9eQHaWm8_89`)UFM0~2mF|aih<HB@6S1)Q82=j7F{ol@Ep1~x>{IN
zD>eJd*$KdTRz;^|a54l-F17gko)Z(?Q-$?N_lE+WK`=X*|FMv?OcSaPF;iW7!>?TB
zvun&6!}iH@4cpLr_G<wsCvY%Se(04}?dYpU<ca9os#0m5rt$kj`n2Y+`2D?i#-Q<J
zCs!OtJsU-UKu(dQ+TqnjTHc<1ekpfc6wRydsVwk}zDL9366d-3O}R&d%I9oi2%-sM
zCRPvmEcTsl*f<)Kj<GcI0x$xfiNcW*UBs<cq&($LkJw8x3cPevz#J&*@_FS^9iaMS
zq2yrV^b3SKiQa4$h03oWX@yu>p~+d{?eqW(*VgtoazKc=D$!zq-&zUIiG!6w582PF
zs9|#_N>B~A53|ha13}W33<!>;8Z~|cSQKmkHX-^J&HhE*YxG}&DF<eJmmUCP0e<y&
z^H8KWFgza(i<{>p0-<{^e<HvE%2<+b9_#pPAp7At`tRQlExD%tZ}!nVH0(q`HbPjR
z9Fvv@p=D`}*oBtF0zoqj4K(e`$T=s+sJcYV#V`!+zRP3p20zhgmL;Qmw5Lc}?*vU@
zDO&pGDJg4+IyP8d;_)8!Co$G8?R%cJUP^te=$lZ6T|n{;W(_GsU+vX?8)l<Zv->1a
zRJdUEJR}^uZy4u<-D{uJk^-UFWjUaDsMl)!&`qBDQnh|1CpsCpQR94Y-wiMrXqPA>
z!4vj}7LgJaBXrTl{upUBc)srA557+(d5CQi^Eg&-ol8W$XGh}kEBwtD2SvUB>RQ$n
z;eJg=85MdZ%}@uV3@r4YIwAK^k+f7`ItmUYIG}>24!xqegsO?0tsJ(!G<>pdH*XRm
zeRQtQ4+1E|`Vm={xAD`<s67<V39X3pY&}z~iAIjF7`s<z=9JZ5v%UtM!)l~geo@w)
zx;89Y4lHX^@BSPU{@AbN(FnmNp6kYy|9IKYFaIaEEbnoDz98Oq_*3rZ`NREx)m8k<
z;_{ai?({EWIR8*sV=yekZZiTI&1fxVXMcW~4v<tlRrn5~J?;d4i%FpE9QyufU?rwX
z9HkTBJMPuk+@&wQl#@!-7i-P%-Eh>xhsFAgziI9Kq_^{T{(cqTN6LQH)ym#m23$#S
ztIH2YTtFpZ__t<V{;*rH-?I~ajDB1!{{18Qdq??G?copCfT^RX&tM=Nn)m4E07QG}
z1Rdy7a_t<<yZ7Ia*#9Q+|5sl^{PkpNGYCIf(+ADaS`wztP(st}l!}wz8Pjrg-9r1*
z(C%1*#Csn4fxATK&0eyKcSVbgCq|q2sk^_TQdQ$Dv?#sa5CF!b5sKeIX=Vg5`e84?
zVY0nm0M%DW;so+_)g;MXhD{6Z^&G0&V|)eez%&Pp_^b->k5ng4(1TsVFcj^{e%p`W
zH}lwd7=Ct|4L5(A5)Mo>$vqGvX)R=WLjrO6C$h`eNN9tfkp?0Ukna$t0F(H|iWYsU
z=<0*t@85*XxL7UmMW5om)$FpvU4I;f7jxJ8&F<5C-$HKn!vWE^-yG`i_J73Bf2XMa
z4yASXvNv{yr8Pev73S*~OOYd-OPJ6i-Fl)2(W;eUJ_}#h>=cwS0fDU9TclvW*{w1C
zEUkvl4k*ht^J7908Z-LBi#sQ?7|lM7S$JRkk`d4A22NYu_ZhH|iTdd(u+t)dg&l^=
z64?vi2dLi*4Hhb31oADWD3P~@ZoJYb(gKE7&E&X69u0_1o_7ynsTA25sAr{scXg4y
z(<NR(;1I;Y8E{yVQ&9IPXODESvvp-<EP5*LqU=ZB8!7$_ma)ITd?m{)!;g&KV}5(F
z(Z4wj4a^;A{=f8BeF}(_%;J<A4&UH*!YYHu))eM~i*B$~ol_X693(FTB09nZRVOim
zWhC1yQL0RvEpm0CVyp22v>{2dVJk`eX?G%rXt7EsU;*(+nH79AXwqQeFZHW`UkTcu
zOKCsWIe$_5{b!#0C)|AhnUDSXwFsbK`KN^yYyxg3%fDi|`4polB~lXv-l0X5BUE><
z+oQN~4<z7w5Yhv{>X^mb%Zqx_Qo3@|sqo9k%buQ5nfp&pN4Gx(sXctaxWNAxZc(Pq
zzN{C)!kGmBBN34+K##Q-2tjLU*R>0bFMbiNtB7vDWoHPPJI_2vMVg>$r{5RdmRhaJ
zE*#Df((F5(Ao_9$B(n)jPE8hRs6GchK)VfS<h1!K%oli&5<|xcs;)(L**^RBAF4sS
zAAShp>-<_PLVicfQh<k)0DEGm3ywDzAuLH(B(le~zg@~U+jzW`Qe&m}5Il91=ozbf
z^3zkG7+b2fav$&Ff7otEY|KT?VwPrXrA<Ue)Zbs}|IFgJ=Q#Q(b!Gk`JG<J+E&OO3
zZd^vUy%jAm34jY)8+xfn=`5A&nWs=+l85KJuDCYddT(@>2qAk9LfPB>3Ksc;+ar-j
zm$Z6Ds3v*TEh9I<`v%JE1m339<-P6^o7Ec&cjHDLzh2M#2q+$f!b(`0Fi%K8$!gzd
zfV_iFCZO;b+*(;xBR2XW(LHKs4@;SEFqe`2RTYt==@F-YDz5)W4eTHNUm}Jy*NA1H
zUa#=3HJhRFv<QT#O)QD}B+|xQ>-4MN7PUp_id90C#_8Rb5){#1KO&fLG7Eq1`AZlc
zOk%?3&btfOTvV23*MoYTsO!DDF&zXef8skDwL%x9ni9WJWht?zS~HboSq42~U%Ql4
z&bMG@#FS@6KZ7q7DG}P6AO{il#Mg9Tl4VjN+38!eEVX1@XWZC&F-Bc$Hr71;Y=1&=
zf0AZ~83qux6h`*q1k?<OE`$?_jj+h^4ErU-KB8@O(cbBm2cvY0GiGJ)qd@x8o1#&)
zP)oyf!t#eFtK83&s8K*IWpj1<Ls|Z>EL4vr4c*W<3ggE8fGEoN0d)kT8U9e9FZ%-j
z{nFh3kD5mR=-8=0UT_EfQ6=AC{!CWHsr08!|1a6z-_2Qn|K2|%3KX{Voc?dv7dQ?z
zlRLuphTf@?9QR?Q(7n*^diaoao9U`dC2Lgd>rEkvFW9j;ve6)tld4@!ksv9xV-Bea
z720#w%>{2tvpJ-9X^y6~cZ=wsdR_%$>*&^=VZGzL)BgK~#I>FbyPY?7>r)>mEOj1q
zDb(~HsJV2Mm;DJkzOG%K;oAwo6rsIY>1nAP)tFKxuN&PlB{4HINB4Pbh#{_GLZ>&*
zQLh4lruu7rE>N<#6-wV<LwswltuR$K+oLgghnC;!WjXo9ME^pJuC5rB6E(BZ|2&oo
zKQ8=c>U8~4y6}BJZGgPp1EF$0o4KkPF(o|m`84Rv)ahZ_sX3mbw)5f`;tFnzR;0F|
zCX(ALRxl+xG_7X!deR-P2k1FTTLPl@DBHDCGff1COw7f`p(U@+95I-sMH-IE`HJjO
z5qu9GQhtUfL)*)38ChU0N>|uW_>ZW0ouw1T3A>LQ!;&3|dU+)1H+<Vm7V7c&>L;xC
z<Hw4)L!U<Qbx00yT?e~K93-1kZ1X=F+fQ?;0R}lF)%I)EAsM1UurYFr&B0T+>abUC
zEJ)=8r(MQ(w(Dh({nPvD2abJ{mpDXMB1t-QcsosWm4z2mrNosDX!E^yEx%aC9KlT3
zD4gg6LeNIkPxl`?4*}Pj4|(#|+s153ARk|}bbDO#;>X<elzZnrC$-+oOe8H*FBNFv
zKY?!!pN!6mXq(arjZt&H6JZ>XLNyAck4>+GDL@g$>MKwRNmF<%-LkeVh6HFQZ|{%N
zBkUt<ienLHNSoMJSZFm%q+_AYyRs3f!>g)~1GBF*vqzW4VzNBcV#?O{VhX)00I4ma
zK5p-n_c?pU>$-{^7W$ca4jqzP=u+){f@{WGhqOen_8Z`_5ABUfSzF|GfBG59t2V{`
zPVc?}v=4Z>liPU{Q)Le8@OS&(`wJ|L7?LkoP0wS)9O>u0<p|^|f`v{yoL>RWXgao7
zGB)qa6I#adZv9T!6CPPLS5Ap4=0w+H7uqByQP$Jpqp-tN#)85R<p{lT_A=K@ts>cA
z2g<FRSF-Maw#%=kzIHQA+0eAtYqXm1mjYT%-+J5E#syk12cXIbaiV2n&VmuYZKU*_
z^7^D5K2z`b)$}JXB0Ao%kBU0qo)fCXs?dtnd<Ym`gd-8s2s_}AXer3w)b5oFAA3)#
zk&u6JsWkA`Z63d>#uI)Lopf=8KqW;4&~{=1`pS68p<09No}#fy(=)lLopu1ZYu}~x
za=lyOEP||`XOqHv7M~8lu8?2b3i|fFH{xUR`dZIJ%Pw0J22V&gA%%%rVRQY`WlmC(
z88$EJy*x?pGTvLUFvn_phziPzFH2mSz4f7LmkZfjvY^5f37C^nu&us>Tq9Tv=ftx;
z+fe~8t7v`A9^F-90k>9^2Jag0-p{ztcl!JmSAdSS{}t}-C6dF;92#{W_|COj0P#EB
zkxd~F+lt8B71dA6N`o8Eee6cGFfli?&c+4}T9L;oWd)NI+Zj}pnnLc>1I|Sv;Oop(
zUU~mx_tPu66cJ?GJ>{91odI%!-n^vWm$JY)yY?b+iEm5f2qHKJW-Wj@NYxpvKj{F#
z-(DH+9?2KZk#nlF61c*3%x145$A`1iUgBt%`bQQw)m^lThwcj8s|i#d^4)vA0a@mn
zC})>?=H?qY>tIpv1#Nf|@;FJ1DhebUVlndAXviU8>J^A|AnUVr-usYnn-ng(o_SQ5
z$0echIa}+C1QvNcL^)FtGU4Vs*_rsG!Y{c=-$5(tBnLAJ<F2~5#Kk^9(LR64^qbTR
z65<`;ex{OZcjm^ZGED966;Xd}rdT*ssa1$)1`|;$j-@J5dWyV92n6yz1)7*)h)2w#
zq<>H7w!VP>2NP{3;j+VT(w9{smXujC0A>k6Iq2`Do+*1fklCk@e^;S(sQ;>SfBChK
znunPfWw3_o`uGjmJS%@$zkC8Z622ZM4HV-xXJ8w*hTVYEGisYhc<f%bhwdRM0T)LI
z0VU2%s3qO(80FbgHGF!N6=-4YU5mds$CPAFt-w7j-r5y62t4b@b~;1p)6MA%@Po)s
zm_P=gk>DcieY(AMbV{AL_hlxa_qJ#n@;QMyL`F2$pBmgOn=%%~4dQ$a52|M*p;sDV
zVN`blCX62!D&J+c_RenHGG^s-LxTi0zm}ntd%L(Qyi@I7{<!6cX+%4KIpnE7JwMG1
zG?WQFerE)9$`Vdx9?2Ef9XNZdDNe4FT4DhS-ON?fPF<+3OMPl;f29A@rLSj3J}&ZF
zd!ADu&aL2y$gL(g141m%oHA%WdZPat|78-q`$OV~uO@6QFI{R61Y5FmF~s>`eQB{s
zR!ndTGui-Hs%IFEj<%@y1viup3CMh0iJowT%gk(7szV8VfWx)1RNA8DIZ9|ILfwLE
zu~+sx$YJsN!tHe4$ge(nT!N2;zgF9C8<2;I(&V}DdTuy`gA%FFgFNwWfZmm}D17bE
z{p9+=!z-%JdzbgiKICHc-9YgwSUAjt`XeM}PzSs*W<ykiSvF7glkJuyg&AB`sR<uq
z?4WFPBUf|=i$M4W*LIRK-fBKV;tM*0evqWUJc@TG2{dCk5Vr{W%VYRw<^#3*e&ian
zd0`E03j@Z^`;+@7`dDolF}ad1$A=1>u*Z}`2q%){UQ+>2gS0m{>!U7j+|V%o31cq&
zm^3@{A)YjW?*W=vWjqc#wULE#22WxYG2XA6RX94vKXwQi#<saB;jAFh;}xyAkVI4c
z$e{})p2jVwG)jzci1sYxM8nMe``6Bj1bW@8zPi13a|qmknuu(mpN!ms3Q)2hOz{j4
zJq)_}gyr4ynANfM&=OeLLqgt^+EQAfvV+yi&Y!4^)t03GyWlx~UgiB)xBugd(CKwY
zPSnR{06DwhcxzLtg8I0XK0`NTkopyKmFpKQRo*Wat{{XC5#tq!a|Dlzw3g($TY2PA
z?g99$D#1f8@mj-4a+{`GJAk+q*=QOlyoIjpx&Ivmq}&JjcRhV)m&p`ts>DQUp{`&F
zB{1StQQ%J*4fr%I8_Kx|;iYr;W<IEJ9rF%pTW2%7n&h&HvVW5NhAOzHVD{WOQ9;3b
zwM(t_XDJILSmPG*fc_H_#mHz_s=gCNkf7P@e?;MEG!cy!ne4vuVVF6rqoZA6W0;#=
z$*WS>)gzOVh=(;zv(Ha4^c7HVKqJ}eUKv|XMJgpt$&XJN#J<&TXroGtr3`;f;U?;b
z*Lv(;e1PHr`}5$VQ<Cl6+23p_9jg0UCLi=b(^!Bt?7WMto*5&b5Hv15#w_5QbO=>^
z7Cp9RNm7hYr>eliko$%<#T9fF9dvddxJX)>^WA-}8`xDT!zvfxulpF&T(jb0KpgV2
zJVvY)J~WgW+hzCAqTRjtLQ{fwTTcta)2vY3-NF8g=raw7oLy4{8|iBqNwpEhUC%#p
zDUX6~CLOdZ-Oe(!6EWd?noZzBPhaD8W?_{XsFdbF$WXQc=~`G58sd#@OmdFSc~IT@
z8k;i)zw~v?G^<;-Q?llB*I}-wkyRlB2ZH>O3+Y*dy66|%?gXPo6dxssJV+EnOUlDb
zz4fmJiq;H4NB3-B-Y=_G?s{yut6$%A73QGtFH7&k90XV+%V$Qq%m#}z({i+rjiXOz
z<RmOJoGuVtS2>hZ_Sk}Jn>%Th2YQ%f6a=%A9+zm|k#0uwQY@RBOoa-HJM$=EJzOCu
z$wP%@Csfh!_`Um&#_g3*r5}*Ocft2lP%~cxvX}#Vb+sLx5X(>V_!}b37{&beAGQ7l
zM;XN;5VRyU_1#NQ|8a8On}v2wAJL#)8G^+Z@*L_VP<(j!sNKNiJ*IjkUuY9>OnXUe
z2k?$7+5~mRrYR_KBp$#Q9eA*n{dM<7NwxO9+NXPJ`jtwGPg@^23!3ucX!XltC99Zo
zn9#CMCF~nf&=$SkcphX+Y=y^m$H@s7xLcacx{O8QQ7tZ<mfoQ)DeQxrPBuhMvD(*)
zTOT9&ZCT!>qniq~5^v>mEbPx4>u5Z@%HnzMz&mkKx(5l}&Zas$+ENHMB_eS|hvt+M
zyN2)Dv%CX8tRI)W(fM)y!(zvKSa@LI`3~jAEi9Pc3ENjIQM9o0;n|FzBH#%*r}N6;
zMUZpEW#!v~n@mPUgRXA3?-rA$qhMD09QM=idIPBthc_3bqp1>d_D8x0I2_kiOVm`u
z<{3c+=lO1=usKkbhU(=PcgW!x-ib4|Pd4&T-M^6UV8rIkk;W7vbDC%Jvm1!Xnl+w9
zVbh7LE~&21d>c%Tp_q{lPmoiHVy)79DGv0*uhbQ}0tqAH{T62}1dhG*78h@1nu&SH
zEY_y)4^<`VuP}I!tnd|pss?{^Uen!SHCP_+Q1P)#D%-(^LB(cASDCDs_;<(=>PcP)
zQv`_8bk1HLZEV-<T8Jr&|3>61mlD%U_xfq&=f_MKgFihvjS35jhlsO?07)@bo|X!;
zrkS<yLju(#vZxn`<#`WJmRH3sp5j+(8@6RTF8lh<A-C7o{JZH9>M7&Fy|1C_2ysdP
zX^CtSsxd6Nu_PTPE^qoI3Bkj-ye8^A``$#EA<Csq@6$&ne>Wx6{kq2l>nVVH^#s*U
zX96}ir#0S|l@-_TUcE9Jl@_~o$~}rXDsZo|v#(Lr4gEy3$ur&+E7~)V!<4RODDSY^
ziMztZg%m4`@{x>z%$Ij}@3rZDW^VyKbnl!Kt`)?FTe1N+0yeZ-5ep8@B(g+P6^gX-
z?T(lhel{rhDk-SinjG*!OC&nzXb2XW{wlf!(KtJgl%Nk-LQ08>ImA`{Q2rCcEz;N}
zp7E@*k1}mt$3mvgb=pk6uSA{)MeWcOY#oH6GmrG|IUb@A&hUBVI*7)sqj5lS2nf6R
ze`&p7lTj{aN6=)yS1skAvor8Q4!WZ&qL#TN^GwGEa*JCB>cGzFS_AUXdhc=$NvWr8
zdf7(?vv%K;URkgx(HNteu~a8=6Ky=;hy~yz1|EC#FstuEfb`_qFK7*EyyhC^Rz3Ul
z77#BAwroc`u8m|)uge0ssL>jf3Q@25-wDC-Gm_)Kvc2tG2jub+z|3i|JrZxTG)*Gl
zHiu!!3Y9OjevKCSPwwOI8teh7bYO~>tJrc5BH^8+l5Ww$ad9E9)36DV@hhtgty(z<
zZd(2dwF<n#k!GIVz3(d#A%Mi40WY10nD)b^P)(UMfQvI<>kV{@_X9tg+2?;5!u@q*
zAAppdea^5c#l2pKX@-oCk7(LbdS@bAMHp;}B_MUWk>D_vVgz6i&@^szD1cDX0aDub
zT*ie(iLa0!pLkP<3j(-t2hE~aNC)v*lU7GX$GJNU=8+~0G@w@A)k~qi`wsHK#rsSL
z0UBrrDb0kf2s$5kT|f0co>)?j$!q>1Fmd}}WWIZxXrv^A$Wz~l^_pZBa^>!=^0gz>
z(^8cyZQ*_k(_5SCm=!;~e$38jD>j&XgA&xpAKKR8f}pY0a_3l>+21Ztg(&LeS;uFX
zU3eCI{Ha^RL-RvmPl{Ge6RNCzg&QyaQN&`}j()NXy-S+BP_7BlywbR34<t)#<fnt1
zE`c}*^Z?@Sh;_w-GKXU``n;b^#C2RH8+4dvgfAm~tGXWTi+mjmzbMQu@v&JaDY-^)
z_(+-tmyyYf8yY@hEwCtl8m1)@9y+zR&v6sSS)NSG_krelJFQ3-M#>&LaY<EG1@oMJ
z?|!ub=ZOG7;ywa#n$kFn;YVnaz`>h8O@%whDLy0WnhzAj?|V)QQ!<0EU9eQ#l-$?I
zWPRHyryUNVUQ)>}B#t(Wdsg7pp*~WC`r$G;C&gS++&jOQ+`LYc?0g+;0ZXxJ^OBF(
z^K3wSwC9;mAYylKBFu-7M*+lf$}uASX<pirqT8i6ogSVdm4jm^jJxl0aftXtENW^h
zep>)|RKyxnQho9Lhlu<59;IfwX`7TLCifNY+##<c@6SxSE{z0>ehRh98LHLDdN4Zf
z5l_!>u=UBia_?P5(siucET8evdW*HKkeoIFe0TxMIY^%_wD(NXP1r=Q@RUeu*TrzV
zwdbibBff)nZ!9JxiM64}wr=1mb#w%D;Wtx!KA$t5H9lrzwG290j6Ccxf+`2Ms$v8`
zP3BW18offMFB6xX_d2BeM=k}caRz#_e{7^59qh$QUoYMmNhIisnb!_UZqTldkk|A*
zV%GPaU?(p(#2-HOMH>{GQkk=ua&%xr+40_xhkzNMOOBbtmDQ7m4&nNj&+D0>Q?bl3
z-3WPFS;~W1<44#q--Aa^y%xIIS442_dqEZ??zd5Uo%E{ppi&ELLZB(>y5u9=p8549
zgCh1p5BF-`s#(ZUt4T!Z_6x{`eiO^n!_uYtY{1g~WoB2=;*pUxNq%eD0{urb)|v&=
zr$kB5TD{?6^-zQk#r7n+!227X{4B>?>v~<q+XO#pV~1CT>e)`Y-}0hPPR6r12>Ws-
z<(v>|@#6%%AKLU|cu)tax-%=Bdc+~RSUpKH@sOF>cz1DC+_|mXE<~FCi5Hmo3u>cE
zsR&QfNHi(3dFmh~bf!o3QaS0eyJD<g=AzW2!&myMLLA@V%cBn0-VYUZ*Lf*+M}58O
z1zqHUJ3{kSLzn9@5|@haBHHDPP~a!b9VePxr4{!aoCB&t2?U2v6N~DFD3)L@O3Fcv
zx*=!mYEM~AvH(Zv)y0C=FlEplA3;IEhj2EJy2s|UvNCNoUHm5TYXvyaDugg4Q0&fB
zSz}{z?;*pfThH(MAB(TcQ(m%Gg%|=_fvvq^WWW`Ue~Es!z9MdQLfc=5>>a~zWNX~-
zK5=Go|MGr?E(*ByJBYhX*ImbjgQ9eyocJ||?}eqEX|t|E#EY)fcoPtUSQV9G)@PId
z(y~canw@&Nk9v#H%Smz9tMVyxVJqFAcey{_IO_chFRQm>*hJ2?+vRmwJ33FlOPQbP
zsw$go+sTx#i;l|xPe{_0CNYP8qC&>tQR9r{mm>-enZ<*W)&pnGIE#MxIBV=2u7<k0
zDi4lS$%zCS@ipx#6;CqW_E`<ONSF2~(sjStA8~D1EmYxnVq$3J0u%3Cx|#JzZlG40
z;3wUdB0RYH>BzeJC2d@ou9Lg4XGdmiiqGP{##M=%wFeDpX;O3uy$i`li3S999UiNO
z70gCnD!$95*x#|cr#%?N48YpiCvU;|=zWmGNI|<ofTP2SkgFJ^GIPa7VkHc}m6@G;
z*|h!cVqOU)<d$*#TFgWDB0!+q_jElb_rjY6@@V<H{Z7vJOwymC4!>oBbc}{BVju{s
zJgO-P(>%@MePr5rs1{1j+10;3gzT{{?s5`rd4EwZr2CcO>DRMj+<Mykwjv}t>RA!?
z!&Ey$;p0ZAEOF5r-Zn1jYTo1Gq+D5ERq-r1NvvU3?T`=6A%+N9IWg-JIcge=4Wxpt
zBpy_^j3bM^-q^FT)w*VOzd3enf85Q;+9*)XbK4|ypoA%;8+SQGF;3G^gZbr)8IVex
zLz~(KQcf%MC?%lKTMM5UQlNIh9lxGeusGiH&2-GHyV<QFn0suRAz=2vg<d`PRRB5n
ztZjN9!cPbj{OlTOG_<?gGe6T}+A(6{kw(jcY@o@t%POR2v6~q$+1u7aQ1<$Jyx%$)
zdEQ(M$J0)ZJ5*7%T(f(GUyxc1uUNe<5)5oUpsY3{$iD~(goQSx@DXj|2{nZ}J$(w=
zPWY1AvZ(j(N|%oum-!f{yaI>Ods0q~%ELZxd|H~~7;r|2WqZ3hygK0!D>H1!mvlMh
z@T=>BcRrW98zB3pj#iM2mdl9WjLQb^^sivcoc0o=pdT5yt4m3-{Qe*i`(Dt3$+vp5
z;4)|!NvXvN+{C{Xvf-phxPql#dN@+;E2{A%?ljNQ*e&FBeT6}zURbFXHDP*em)^Vu
z+qts2q3|Gi0$@UM-{JmNv9gk@M3pO>3r%G%19RK&I0xAAZ^mgm-xxc;_JR;sAC65a
zTT!o9K~CVnh!ZSpfKK#>Pqh{W)$2ItXP=A1QeF+wiQw~_!FFzg_cbgqcJtMazGu)@
zIW6wonH&>oWQ_x`_}j1Onr5h-Etfgd;a~MHYcCc2UuEjIFp7V%%2X?bWyUB7Aa_o*
z(xv-1w!z_uTOQ<OeZ$)1oa7y+aK29Q!!!3}8X7iuSEPTT2A<Q8f$!VE#^Cl-wP&2H
zzLX9ZUelIECr#bCqybchOXE(z{SNZ1cc3L8Pur&)>)(Wj)+<4*D9JM>nu!HwSI#TB
z=C&vme+T(0^RS5E)cM@Weu&{+BjgAE-e?7NF+yUq_|ZYA6valiobJ-aUSjvUF1r0%
z(1#J&qm&F~f&RSZFUTiX)jC#lu@V%XpGr*vjxJJ1#!>8)E^Vk@1>WL{W9{Hq!Lz5&
zPraO<xf3WC)ask{_(oh@wX)}dZTRf%I>-~8y@l{M9TGH}xNB5NtcgrEXmMRF9)7mM
z8#Bo^&sywcD`}=`u@}s{lU^&<0wAswx&TdK{-T;9@6*%mbdKtQyCs8O=HqJvlZS2f
zPkNn4v@t~Hi7{w7?oVmHjAKMdWOUONM+Vz{;nB4g1fx&6i~JI8#b)W*9qHlRAK#>&
z>pHCc6D-7|pDKl4+k<KnpOp>=;2+=!s*-#{;*MJN`p1R<?Yoi(rhSjsh6q0NHNsNl
zW;`ZgrBaE}j<q~i#JT2i&1CiTMh7)E_x!Fidlzo*wKnc!^*3`prY{&l#vSrzX@*Kv
zhs>E0$%$_!n=ZsSbY1!4(XRh8#Cs$6h9fwMu7FVQdxZVy(rSuo9$QtrkYS;@^V;Yl
zTs?dGT%0xo$aRRQ3h~_$1J<W4`fP}c{e?vc)gt4?1+sURM`@+D@QJ(YYX|fO8+p|m
zH;SH`Hb`l_4U}=@>^ih8pg1ewxzVP28y<?_N%huRfqnFq3W+5rPQyMH#!1W6nLXeu
z<Z@hP`G6}I1Gv>;5N;^Q`?2YhNjsyR;SH}tAroJZ#(avH>sx6gD=4+~oCJ^I2%5p9
zXBP&$eVICig9u#*UE)rZ96K`gne{FrTZ3s+8Gc)AL83>v`Fd?hP4&Bqs_J((kL|L<
zO=fI(?>#|3f6AhN)iW#GWJyuZ#Qw<BX_IcnP8V0+I3?j={k>VuUVw(b){2j_6O|c{
z4jaE~l0~#Bu`3L>`e51rLhCG(dq|8P27i<OUL07SJ+f4zU=&B6wefGXbyCg^uHamq
z8H8jHefAPjUz+&bUvP3jFY&~4aQ2HQC;Kz@N=vdbO$_o1oz{ivmkl_kmAoqt`7ppe
z#$CIQgTrr63@E2-&7FBeZHxSrL@y@dW^mzZx~VO3iwWZ31na1dVu@Zs7ja8G$JqAl
zm$``TOJu;w@(Bl$XJL({<Clzbg-u&9k@v3mETvjHO7Y5)2$^CJh0*)<se#sA8R
zi1jIBv2d}#TjHWOPu=$rVLIe}G-fzBhpI{}kF|BRv%=S%92mzp_pmD7NbhJ2+S9=P
z@VtmRo47^?ry6|L6+-NvE@`Ks>|r~XP8iTK_W{k4r?lh%0KQx|O^>{~b9_l-a1C3q
z<}B$nS6d?KR3sWE*JOM*;;?L$pzC<TH_f+0(voXu3Y=D*m&cOEebR4xYxADi&v#QR
zOG&6<JEw_$asYXNJ_6??kdilxLLFu$9s`P8hC?UT(=qQ4OFk`#+7rl%c@zsYj73=d
z5e^yN-^hfKO{qQG3hFWlKB0H;3(uIA6SaK8cdn$y)g+3zz3t`Ra0x?*r&Fp&RQ+7E
z-wn@1M~ZrlES<WjxnCflO)E>s7QZ5)TN&|KSMkHhgFCyDE=&i4kA14?GH2%zJ11z9
zD6!4l4UXiWej*QJSag}Kx{Gcaz2JytZn`qRbZnyZ3A6v^-L3PYPZ>nMequ2$rl^vF
z@FM}lUV`M560toD%N9KPWNygd2ESjfrE}Wz!=y}aF}v+67x(UUSXxMnA@Chbl272{
z%5Og&a@%0&koWPowJ_pV6P>FzVNHX$nwVvw)7)!oE2yU_6Ww6T_2tN?2FkjApc24y
z17M~<g(MO02n(L(KAoIiFDI9+BCOg=WE(taH}~V!W!2;$mfTGjF!g3NC1Cd~RePZJ
zl7KN~tr;pbR62dgZaqya=C0k@m^-QkxoM4p)=$rYFsYIo7BIc~y4tehit?Je)1yWl
zm$~O8lCwUtmdm=Pyi^eIcF}%Zc=1bVmuBVAy>;pPXN#6zkXOczwRbB<-60dQE>1A_
zMj|Dy<N=hHPeg-f>jl1d#pvTn8*Ah4vs(cO3nHw=S1d&BQjRyqlB7{JP+E7q>8{k!
zyAPgw?m=W7nTjR%D$eGCHsNJjO@3wsSi>0N#LSA~SkcJ(z!k}nD=X<&G7xW>!)^qO
z*Ikunq}cbi$Srv$?R~j7UnD`Pf2^%UFwVV_b?#ZOrJY;NM2D9IaFbJ~IEg%=kIX_o
zx#lbo&8}$ocE`R+aqT@`??Y4qVw*RF+(h~0LJ)H9z3g{>LEL_8eV<i)LX%*sXVYrq
zhsn=TGY=gWeM#Vh2;S;ffFpH}OUurQm^8f0VWD#$rAFgb-rp^a5#Jy6IgPbI_I$@e
ztNF8mCS^>}P8O~e@M~;?9a4j~Z8e#ChJr)WhSU8<wkq}-#&=(SxR?f-lvSSjW`w$T
zC<8woId<_grQJv>U}&2%M`T>bA_q3|rNH`u&AO$5P4Af}xa&&qo$GsiikB<N2Jo+F
zATE$^lh4*hOK7<qZYx-J>pm|S=W{YxKsC5G3L%ECgEZm<pr^dO+J%)#ECFZAblsd>
zw3FD3O~&jM2Nf@|z$C88rX}XKDYyD=1yaRl{G=OToMpW%-svb_-8_??BUx|sa}PER
zv^u`euVp>V6_Da<rFQ4BbQo1E-MgvBN#WD+cH?q`_=ufP_isTn9-gC~ZcPczUf9tm
zTNGg&9I}^XXfgY49Us@+H@;U{$j|PS@fpM*@iUs@rBT%jA%+6NyyE#UDaFSp=*>X4
z%lWgaQ(+E~I;ay>@Zbbm(vR8Ci#;IQY#ukpVMi`rurvu>mN*=SD0yAfZN(yn_H}9x
z*?3jQI$yGo@XT(n4EUoZ_t|A39vhi}1+9|_>jzU9b~WwGuTxEE7zOb&c(k6%a`%~+
z4Uu5`M)p;VjEHa*_eQYQG_VpKme&E&0<Cw|1BI9GO?`O4oe_D5L2(b%B9+xD%kkC;
zn~#AJ63;2gB%Nj$3*wj;0e-|j)-K7Sa;8G|8Z9GQr6%S5=~v|itkW@Y-cnQmjBQi@
zh=V}(Iw<6Q+nM`y)yU%kEH_PxpMBi(_%;Ucois9`+$91u_!gwR#q?n{Cr^*wLo(*P
zLZPdLn%Ye*FU&np1p8DpK!WN|(Nduz#s~*WNk&)tgX+7}Gib&sa8kE$Qt&tcVD;o3
z&sp7E&ZH$<s{2m$k2%J?(28gN75k&m{+AZBd0WW;Q9=H#s344us0Wxap5|#mtRq!F
z+ujJtM2XMBQgsmUbZX+kn9J_D4Jp!O<E?W?4}-%#QLQM&yXuS%q>_eF{?$+x2r-3n
za&mI~-5!*WyCc+_T_z4>o&s8cKe}PsRFFrNOyrj8eF-Sd_CeU_QkMiMI&Ia^VtN02
z1FBg%v75mpF}kYdla8+8D?1TAl;qtbR1Qj`hr(PqUGPB#e^g6pBH2|yHPMQyFM5Kn
zceiEq^#x#Z7^S#pC0C0@Aw|92!1#)R+FSBBuy2|5zZJDcu13{iUM_AJC8C;Z5i)?2
zsTpC5egs%wkhp#r;f9-A1dY|t<@Q?w-Ewvkv7N^45;;vV22%Ex8$XV0wgL?ARo`gt
zFVn;|2rH`pHU(%I1V`bhfJVme2mTd4TGoXkh6{GW$C*GS5thcYH@l~aFWx@{b<z(&
zD{ELv{CW-3YZ>v<fcenqtV{DJk+ynHN;4^9>-_MMOHT4r5-B`Tb1Y|Ilz*VGk}##C
zqp_%lE;Nfr@0_0I!4ZoS0a=HPrO3CBl_od&CAx6<DJU<X8&*hq41{Yw6eR-o!^q$E
zdn3K}$4~nA`skyX8%(20v-;ssPKt|-bFC4<Nv!#8Kqbn~QtRMZz%<8r)oM94X%=8z
z2f9*DZhP88IFP3ouWyAcwGO;HyCLHAD1{k#&X)=zaueVei0kd9Lx!tL$fI$(8ZUO@
zU%r%ED}UDJd10B_D*`D)=8*1v)s>!63Q*7w8#U|JYT=1h4+(W_m`O}-kdCP_wB9vB
z5mDqbmB8}g!yrMcZTgUO3mP&(-SK-G+10-RbvrV`9@UJVI@inBhOeY)+1k3~j5j+t
zFnNyj<zB%D?>T;IhMCcyB{eTUCd+PUazy3^fEzD9^{3`1cN~CTnm_gSk2FH`4^%_O
zO@lw6jE}}6JEzwjV0!^A=WG4AjS&7#(|?*k@N1$$S`k1U6kelOC1C)x?o+=Cnj8G{
z=|AF@>!(&H0Pno?k3!@Bq1XK@D?j~(A(Q_1=>u7Xs1ANW7NhR-cTk_M#T(O6Y5*1x
z^O@48G4-+Zz=+pewq>S6a9fAJg9ej_{j}g`P>nLU&+SOyU6VTBL3&=dHiiBnyURc2
zOq~7Kcij1}`W^f%k^7hJFP(0?U$?*q&BFgzcq{yku+6OcA6;ehH@|3){ki1>cNapB
zl8o;Ss%IXqg%f%-<m(Pzi|k3k2i)^%O3(fBG8}a3^E0@@1pO0KY4oTLjgfqx5}P|;
z!Ps3|Q+=h-@<Hz>cfJpOS|V}#)Hn^qHDR1@m#5lCON}~!cIh|@pt#PDK#!tkE<^BI
zR7DI>>)TO4he0SDEEL1X_NeaA_q!1D8*mYT0BT1Cf=Pxk1t@w196|*{e*gCJ9BPL$
z+-fOeTa_F_sUk@LGNI9rXW5W8B(DYw8{U;Ocgu>SUDPC$&!>2PzCL(C<aM#z)dY|g
zNbUEZb<0D4e3u|xm2I&wj$Td%w9%ofCjqPwLB~fVNs&obHa0Nx@IG~St-tNF1$74&
z4p_aNK(JEmh=X_s2-^ZuFzM@DD_yScop#*Wtu4-z7zaWBg1AnBG~4!$BAF2E-~r03
z23RS8sXaom9BfYEq@k&HsSiABq7-l6JRg=7F6nC>r!AV|kOmZc1}T{DAkAVDBcOYC
z6li&?m%+YX_)lCLiO(pC6D%B1rE`EBf)S5{i5YYOeFBQc-`)bI?hB%xA`g8By=0MC
z_H)%hL<7={`6LA&moZxcdw=JIyrk>0OeYz8pN7FbSUW)PPk{_cKjPhFlQtZ1hPLO=
ztMn9C;0A5mJazbb%>~bj3UV|u9f+Eh4xYU2;64mQ`r_aGYJSFS{>e(|8k;>pH-bb=
z|6V%{NGpG@uLeTC`EeFo$NpXq`p<9mpO5A5Y`Oke=J~=OO?ToOJU3ha8?+OCBir)t
zC)2?49zwi+%dCfUW-9sIH%Dot$b<gL37oj>{{7?4l^ydA^96IyI<d*$K`y<NEecR}
zyDz2%Onc+?p;#6f3c>3x8BnJ%dg{T<^+xHeaM?GP!0#X@1`=m8(IJJOqBGlLdnNg$
zRc(1$#i>?3Ue<0E{sH+f@{_k)s!px?iD>vZ=aXDo85@y;qw+2xDl40-Id4uxPocde
z6-QMbiN1As3AJI?>~Dazs2Js?>~B|)jf|Pql{uCEoUMgnB=g=4^J#zN@dqeQc@v=2
zH(B;6N-6OOn~0{tR$qtJQ_$nRH|3_e2Mp|5$0Gdz*l^}qY%-m1ycwXcHeN!Wpd~2;
ztxT~DtQH}P(JD9GMej}w2c9nS17Xu8=6V4P(fZRh;qRa^*dS`-o&5%Y2bx91_<jd5
zZ0d5|fNT2T|44|#<o_3PL;pzt*>5xxe?3$Ge+^bM1@iSj6A-=5R0>Ei{tVSOsQtxH
z^H-8~&wq0&zq%X@>xnA>j2*ad7;(#)^T3QMVAQwyt^E%MXKY}CddtvmATY1%rS*RY
z6~J?`L4cRKbd;qO5wkptUy;+MXb=E@ol8=U7B`y~M^0Ivym;k?NXTrqE8JW2;iCSv
z(Lj1Losq=StUuP?JOv>^6BW?~6Fm<H#wM+N_dbmmV~Wx6FnDft6+pZrvt@OA%z8IY
z(T4!GlMWttkb1O!V6Ki>_qAkJSGM<hsR>u-XC0S^17;nX7X;$nW0nl-p_EtcEaW(f
z!wlwtcWmiFFvo&Q+#<LFl@R-)H~Dai+LxP++A~KwKS+3yONl3Ovpq2U6W_gwin%-R
z7)b@yMs}FH<I~Cf_ikFCYIIvN3DQtaF5ERih>>)Gl6rgSMxETPin{u1T!Gq5NYe`C
z?YFLN=L+pAvv{%xzJvV5EmwR6A?>+T1ENtA^k6><4<$XZ++REF3~#kmnINxRZ95rO
zdX?{b=?%WOvO!;19?XJvc$(pi8gCG=Q34Uy)_cgi=F+g0#^9#s&{15?ppct+R)<A*
z`xj>G-Ac7Rx*l*Ys>dvZamsk|0S-Jz>J7CHAH8mIn#6NG_?_Z%;5Ery&1L_w59eBa
zV9RsFS(9?gr&*Nnr5Q7H@D%$<Y1d<8s`?|6XoZsf_TvnuYqzBnzkIe%P!AQ8i<hW_
zu6V2fC6)`OgT?QW4Jh_aeac0HR<>E}A#JB4Rc~4qgGAaKodwOWgxt2M36k0V0G|3<
z-;Pa0+3-?riI%%JDYk{ciHHrpg4frUlJ4W4kNcD*X~vp#I5k!XI(`23Eb3l;dO@-7
z`}{<$;z#uYz#MO$od$;@VBbN{L%p}?o%C0L=IJw|K96s6K#_U-iWeHSj9I|#m?-$3
z1OGavUHQM5#`R}E?0;zde{oE^?TIBwi8aro-`FSk+ABAeeQCPPyTjIEn?}u#7>3zF
zo>YrQ3#XATHJ0DZm9)aZOSKwAA<sKgQqfKR>iiKzDKqjGEoI~KCwCIOd0Ck-Zd9pe
zRchZ}=Qau_8t9L$I0K9~O52=yrHI6l#7v9s58h1yUjns7!G$0{T@6GDgvuq+IG!o1
z7(m=2goX>bU0j#~SKn#yP!<V@V}X_yBga$3hF-$n;cTTNyj*dow@eX=2&>oO)=Yxr
zb3GtGIiK$!NCJFKX+1xFJ$`hBkF<7U=(q)pY%}E4RBq)2_(5I|5%6KLq4Jj~wP45F
zjYEzM(%C5@m+l#%$T<;~Gcz&XF(=w&RZ~Lzp_%FR=26Ho{tT5;9LvV3vGc4>n*xc~
z=0rJ8F~z7v@n_@qqa2(}1>p!E!1j2zdY;Z1f!sg$vhg!RyU>Tn{Ggrsh;69Ln9giM
zmD{@|T$ydSsp8Fd8W|MdUj2@95DCqP>?{^lOmj<In73?G#e#VR@VMA4G&gSU(L>7f
z3mmf$_pUqVI<|l_b1>csjVfh3@zSNNN3kQ1A-HwYbtc9C^Jq6v$7T9J(en8s<bIQc
z3;(2Sr{KalS>+zcpnAZKVV1YBM~S|_aaY;ST`i9|axnXD5H0Nu+yeVWa+zi36yuPG
z%eWlgGL*m5j|6FYD<QbYBhsCkQu#@Xyg*^dDvgA-qS=m|*EYs7g$8Ouulo>6H!vS3
zW^RY`pTIUj_6pTpt!s;9THPloG$0{Jhi*;)jn{otHaz+E0F@6<Q%-aqbjZHIA%I*}
z%w3om@K;lur60Jl3(KKC_HLUqJSWEQjP`l>a3A0HacCLa8kI}6;VzC~Ff$!SKOU84
z{Y;M--DlJ=&l;dgT8M>TYt1x1FC!FRYejqU9Cfw)4c8r3usvw|KH#11U>Jg029He;
zK4iH<G^z(u%c4lMSvlcM6xe;?y7Y=JY5L}U`g>ZuLbm3e)Ws?BvUh4xaazwQK%oYj
zEU~zFiV^UwtT88Pg+n3qUSD(+RgNd9R!6BNT6!f(QY8?cRb}$o@c1JJGdE@=OBc?r
zlMkD}G>4w}Mpvh^pvJU;DSAT@o3_-@jXan9(GLJnbAL|0pmBy>E=K$(VcRboxNsz7
z1bWN?xxcK|mLweQ#P;b+{^bVIo580Vt0A@GnNv;GT0pk&E8)go4EQ_f%dsi-@1S?6
zY=Bs24LFM-wuwNA>88-^^sd;B3q3*CGKP^dEs}z3@G}4s?g3%%U!@%X5t;r+)qJd%
zrlk6)XNt>93Kn**c5bn44qU2PsEq2{TgKgiYMLR6(b!WUK<1qZq27WJE7kUY2VKem
zvTULq3xJ3{FXZ=c`7(!j=-EERO>2I|iX8hksJZbcEg5*xfa`gIpEJy#x7Ytj{Ed5W
z&5wphIeiv7z`Op-o}s^~2K-YsGy{_ng~@JiKkbH8mK!EK$TNMVo1Z)i?MAvr<t#Ka
zHWl74{=}<qW@D-xLLT$B=}5J4QN11TkmV-Q`J+6;yu49}1EfN_L5NMq91y6fedTrE
z$z=pzxhNw%n}Xv13asg8GNwy5>+#^|A_Xx}yoKszTopLr_1-H7c0JmB3I5O*>Gii^
z#2e_)(Q8W?6jg#&nCEL-U1BChgi+KdSjC#%XO5I>MxH0J=e?z%$c~hnT#?vt>C&)5
z9sxJKHHG$U<vCcuUxK(ieGoWW#lmB{Jmecgf%q$lw@H4<IX6*Ha#HDAO!No1!!SoD
z8?Ifk#_u4IH=sETCbx%8%{gD`JkCfJQEr5erGg9QvCpl5gw;vPuEN{_#zIvVAe9dY
zU0fIx{T6zDKV#~rps7ss3~uE{VScm$`3aF8#;eqoK~YpLjyucXW4O_)j>ejTcHTs6
zThreIB=M6U3U{wl%9{5GJ*qoC(EX^PeM%&zc5^P`F|rBkCsLkI8YN6+ResJR?Kv+C
z0?`*wECAG%#UrsIyWRPl=iYcFeSMX4@qW#al+!(4=C3brXzH<u?u_<W(f5xMn@C2x
zw#KC1FpGy?i<Xjgh^Lhw7|{mX!(9-H7|-%ITcuah%@cl_dQgYmuJB$y`bP4%XXk|r
z^N|33Q=V%&kE%mNzQ#<|j27M#I!_m8af7K4JkS&QWMto`fmy<6$bD;8{f}7Y5!X@S
z>y8_<LXT~V>>$PPhGekIM>-e9;z0b-&O32}*lP(NP=%hp`VG^eDhDO(>KTZwk>X4W
z^=Rklr*7;QZG+AW^W~!&^>Mc9O5KMjQ%eT14DUbAd#%0pWW9U9ecAPv8U29Hj6|zJ
zDusm*8gb<OHJ40^o{<sA`l&^tzc+MqQxlW%(N5xBTibY#&$biZxLr&vHUBxo`XhJ+
zII_$q3#~zWiIg(u5@9hM(0skGT}<}1t$K+4Em{WdL7hGC=K<LL{0ZxORZd2&;|S3`
zvU&rzYGOWxEw%cY00J{*5H!vq`QF9105QfdReU0JSWR1!(y81V7n<4tvy{`-g^}Bb
z;t`+B@QNW`ceWL`Mnjo4x69pFoVQmZc2Xih+jjLF^r7+6h*6ACtwN@V^R#e0{)F30
zSkpj<4`a60s62Z24Ao)exOf452zru_RVH)ZQ}M+I)i<`On;k1~13<1O={u-Gdby;~
zTVO_F$rRHDSaqLy;h^HkX8UF_X!%K}TbStjb!OI=lQ|_I-_hDjKw2?Du|QQjIard`
z!qxf;jBb;3TY`?>fh0O#5p*{|{i&I7F5_1rAm@0tt7w-Gp_)B#{u~u3S~avL7$-C2
z)2OfaqFrIq4pt0nu;31;plINEc5$T5EDhJeoSlYg8gg^x(RCJ%Gz2@v74JQwE`SHx
z&!u6*LBYlSPN@t5qJpQ{-L$C=@5;+U-ZO_x@y-MzmtAvj3C{VSHvNlw{GMO*M{oVA
zqW-6HoZ#oUAFEd>uph@5f2nB2c|iE6nj~Dy1Z=|n0??l4%UR@6Oc5S3(kpYaeIK*a
zpN*y+zi6~?sg&&n%=?>V4@q@)HEl+ka*?WFg%2vCUMF1^7Znz$sM;go^d_62ZQIVF
z>E%zEbFs%mPdFq9gK0JO!uGzOCVeemdEtdL-wSkQyyJOsEyloSMyPiEG1@er#MzPr
zZ^lg=1e|;}Yd$_}03foZ<5ES{1Dv)lZr`*deI6bNI3Bg<iUCe}mV3c1Z~ZaOw%1}q
z*?HE_HyIm<dQj*L4j;E|#)j8};Vj-5;}D(blZ$QJ&KtX5G$uPBAzHj5Om3PiH&P55
ztFux<cON0_0fJGbqoWi;BD?2rZZlUR<z!|+d)*C@a+DHnO6RUNm6M1IQaGj1bE(<1
zwEo!0nbNT%4>ooUZwXj?h>Aar0-?s1DvdCR%M_VBgfFcWDoMF1&Do2u+k;}aTgjJt
zA?!E4E#q@z&xIzRS0;5AXX^})2`JJg+TnGa;;LIE(3g}8r1$y}NTE^ceMK~oaIX1F
zC20<nIbGC!H*Izq{OS>qiglf9yxpdEMR>U3(yl(@{BW(9Qj59>{&FIO?fC7g!{&>^
zw~O6va`t{zbqe;Jl`bv6n%Aby*W5?dz#?pD@kmjGbWNbDbOe%bU{(I$r!x}=$<Geo
z+kelT;fr2g@s*~}DgF@z<YCI=MoTe@T$Yf|EMOI;rb^a@s;l1aTP=%pfWN&K8}_9_
zMtk4=>lZ-6EpEO8hN)GrES!cH)>n<>lgrfC2)LCC*#P$d=%Anv*_qyNkC2D+!Q1Ve
zM@~=qXdkl^c`(~%5`Mi#Pi2$vwh$1*(HHb~CwM)P2ZzB}QFxAiH4{}6yXq*F0xvAv
z$iNaSLB_v@)wRv-!cjq27@wM02IZhOEgk{G?^a2ds>50p9~xU+#V0+`C<x|#3Q}eg
z1{KwiJ4JTAW^SYAQE%yGGQluUMF4hI7~yPMvtqSy`c!)DZ0a8rJa^dZ5kEPziL;Z|
zXwPT>>{90>R*Qk^659)(f#v~@9SdN!UpJnA{{MfnS$^^1{+~){wx~cP7cCowm!cGt
z46X*XtE^^W7y137%Zpe?s_(~_H8%^MZPM#QUTiIX7CZQw23!!2`uKI1<%8crqU@+$
zzOr80IbBOnm7CELtrG_65qhS{fO7-70lOng2l{4>=5U~8_S?snJsJQxuoUx6t|s17
z&6dvFK4U~Xi~{o9nIdVR)AQTMSet?#gI3d%p%35Mn|{FL=yiUTH1cw7Y1I~a$a<me
z0v}oa@l~`<bAmcr5@<omP`JN?E@PTd6p2XcsoxJs3_Y4Y^1yU>bgXp6MR(|oXTrLZ
z^K3j(CHYOuY?4bb!Ya*sR@YCfxw<Z)A}4d*Okwy*m*hRebB`u-_*k}srZDPy%eTY7
zLWpg!J-GR2Kk0liyZ+SX`|ab$3S4!WK!*zb51n8-+79;h?)w^HIl$P$iYP%3hdlxE
zeIp(U&_ep{fKkZ}E#S(X{bGUU`{Cq(zN9@m0Lo5#Mdh?3MdEE@S^R5F@D^8F(d46N
z%@!30Cfixdw>TKfhQi(B<kn}?6v)7Q3!DPbgMX$)Lemfnm>t*h!dyd48M=1s^8dr$
zdq*|drt70YL<9t+cY=bV(nNX<7Mh5NNRbv5kR~9~YXAk577+!d1u243A~iG<IwA_v
zA=D6%4hba$65@HkZ?BngX1>{b_V1j1_HXvuf3V0}#w70(-sidR>%Pi$saK0(cO864
z-5Mbg4OhxbGJ^5qs_&PRfObU87()95-0I(T?UBWrO}TNuA3DD==KfE@NB?wB{L{Zb
z2-bXh=W>1zo1N!cs2dg9T{nEHspGm8+;lH))~^?<frG@{PO|_cC2L9}B>~nuB_0E+
z%#K~EV)&^DE#5eSu?=bS00B@cUC5QVF6Ej5l1++tk3wgvkobf*wvGisKD)8HTq&(=
zuUtDc@6hHisD!UMZ>TEIcH|8G@&~DTE7(k~{js6bn^khL2<}FGIet5p7C!b7%|{n|
z=(HfEYA_EIzU8ZkF-Rq}UE^I?PFRCUQrjVej?iI#{*5FJpf)ecMcY8CEZ68i+*yKE
zo;ql}uB{J5lsT|5Niw`LI?vw`2-qW+!`x-uAlq_J!jF9Ck7*tXHIX3C(Is=+ztMuV
z{0`4pZvqnSFf;KrFq5K$uh-sPnEzt%F_C4a<skmW^C8t}Zrad(o?1P50cXrF|5?!T
z$qVC85nsPf_-WU5s^+l22V9vY4pPx-?$?l|;X|V0J(s!rL$w_4U*MyENuNOKgxI^C
zK8V_3y?M!R8h~bGb2G!&$J^cwsdiC5<U33FB#rKa!tUM{M8t2)aMup{eNu1Ak)C#I
zNYcvjlk^ro2L6J+2UvtUQ6<n(s@30YI<?Q}Vvi0{O&;PR#GYUB;Foa33vahS0LB0W
zW7t@yzLPK6i*@et;cD9ZkVkA<=0BvSlM_U@>6X(`YvP2wOYEedpl9}6sIysL{4yT3
zid>}I%65++2CRJ}uo$CU-jPdj!>KA3XBnDb6MKc|*6fbNQ~0Sz3AE{o&=UloSBoRT
znko`LnLo@OGI!Vd>uunVrw$Pg5*&;O`mu`N%Xq@O^2ggFY$RBVR8PN#pU9vw8xvT3
zO4H)Ys$(ukDSkS+KC|5uZnb|5{`Hmza04ABn9mlwOdTP=LcSFXO4a75AKwjdmd>kz
zsPFqdSi@63>S3-NDllhh;ujr^39U!epfMlhjfF@7<l?Z?`qWU@Vbc4akjAOU1Di!7
zqzv-L`*R`+B-^2v<-i`m1?9H3j(njd?vvoG=?yjO(*d7DwM}F3R?iP&XF8)4kB;8G
zUOF37clO0Ylb6Mr#~klCqpCPBQrz9U;nh@O!WZR@ori8*U-HC-Q=KH(g6Vp-r>%fj
zIc-b`AfZMe_!SZ$NQiBvuTz8_)m0U~1G>MEUH4fmTeVOhh@^KLL}mGqN{Hqi_y*c3
zL7p<i;|NB5Px;Kq!5I>=#3hIQrNcp_^?|rL;3cq;kp4C9B49qjbW&G9!#ne+k)OoD
zM(?M1*zaj5hNrib+@}QtpAugUX_^OL?0_v~yq(M3*>_0aPX}szbT`m<Q8dR^C2`-X
zaX0f}F3`zIUm)1y1xhpz6TIS!7@eN+d^Vo}c{0V3h!-nK%x~EMI-nmngGb8ybc8*V
z3C>OGha%sRrCLd1$JoWMMF(e+pw>$=z9Pz<hsLj0qv#{&b&3;q7SHYc(<t`8Yw7S`
zJ0&~V9HVk1*CvKbERMh47D$fh+8_D811EORpd*PC9J*j;nj?s4ZO4-;)Sy46mA@FE
ztLQQIst){g!=A~5AVn(dyJN%xPMQ)Ll3wdfW1T|cB1RsG%?Mmo7APOw(K3`w-;xh>
z9dT`2Dlolx8)4W7RfV-=ACy2AE6I|;*9fo@XMsC2T8m-@>vJZU&^W*S1htPK4iGk<
zr^lOi<@f^GTf-scNxf}Ywk#x8k9O~J(YVBN=`ub2<C{}~Di;Sefs^g%+Hj(SPfpM!
z@M@PwUn#Y`FSJ5FavOQ{?_L@xTA4#g9|8Jk?+k)^3Yf~of7nk9Lz3gib#~bqsoI3j
zR*FhB@CRG<?a*Y8wU%<980!x9i2EflI}q4D)KSih@DMHa=4@8lY|C{OxAm|Hb&QN`
z-bNw-t4NdZVes~CDo~s}se}=I|L#(k!t@%3szkAj-#Hf5AE*yvTdZtO7b{A6$t<_!
zIwu;QOCWdMFl^GU{<Z>TXr!ApIS%u5L$iGM6LCgtQ%cp(o>p5)l}h<;ndpiDECbz)
z-8wWTA^5Zi<my~ccRZAJFS&+^@mLuUlpS`l7(yt-xU=s|(}41)<u-;~?@n*`;3w!f
z>HBI3=`HS)l!XmP$UCeZ3sY*yMa6S1Q@V$x-sykQk#GzisP<qq9x;A9_&^5vEq}$w
z)AOX|rjyw#zt6bXduspWwO&H`0+-siZP^3<+fM@d+oi%(t^~1<H|=YqgUNv_k^n|M
z%Qnn9Pi8c>Z0_mzoEHOMj$$>3Fv8rA9EP<l5v-jPyK(mnb_LwFkz<`C_xKrCB5z$u
zVA576__(I&1zY#*Q-k7GQ;*_nRPz!8lO%*0L?=NY|GN(>^USjKl+L}^143lZ<bLvb
z`A2oZe`o#delWam*@gKiM}4ja5K`}tK(=v8VUB-X9pAr8<yrRqPKM_d<;Lv|G)m#8
z;o7VOSQ5ljj&2F9TK;iRQI34M%+aM<Kv}oZM7jUEzS=JGWAR*XJdJ^{+h#J}+GMT&
ztjb+0z{u-}-Bk~{Tu!~)_g@#^+2t9E@lOe;N$4o+9^Bc822$JE$#QKTC1m#2eV(LB
zVHp-X*AxK>tBHiiTbYM$g`2li`N$}ou^j0R(WDK`9LUDbvWPuD<Tc$&@+smnd{D9x
zd-Tx8SmfsOM(@bDoejFsQv~PMBlX&xgpN13fgscxqX~*5sKE#2ua1}8LcY)jZs0E}
zv@<{!B&2P6|Fm_#a#4oICkM>ewDoE)g$bG<t<M_SuJ%Cbn?h5XKZG^C!ziPd$BnPN
zv*yZ^25BHvV&zog?W+Rk=_JMO8aoEEli=jXM79w_qG$@?{wBW3y826}>-%?go^q^p
zDR&x_SLrr;0z5veT4*Nb1I{Y+)vOA72d}9@LB(AR=wvTktz*Lryy(rA6Wyt#4j-s`
zAa;F(<V?6q)ghlE$_|(lQfymnnk+}2!Q3BJd_FQR-thGq&GWc3L0B;1gxb|}>Qmhz
zuvXe3PgBDhUxc8xOsGL0%pDF`!$VrvE?WQ&Rf7^A2WE*P)m7G5emv{L%Od6c&!lRg
zuXn8X3tQ4t3rhmMOwhx=7KHU;&5P^4h4o2uShUG!C-{8$1X6gU7c5XM<;6zBg6Vhc
zZaRJ(@bt}sniw_2jPYRwc!pR+=}uf%n5KWvvt12Dj=go~`Ib+#v$?9GugE4M92_Ie
zv0YMZ^Mcn7VqvR&*3B50be#BT`E8nDDz~Qy18DanJ#T)33WePE_0XOGgX0;jE05es
zL;C`~+PK9aEFOI83XM0+44~|N<^nnxB#>OO&0+cBugiL?%0|?nOdF}P(}#sK*T7c&
z1=C^2;N$v(g8N%vPXCAXzF(7#K?BHf?|wn~UC}I0t2GwR7d8nGe`B0|<AE2EyLI~d
zfNs)u;K3_4fihWq0{!A6_tYVXi%E>2xCfdXi;KVCGof9|cvInE<LYItBXNY%%cMmz
z-Md5gfr>pwELw_n^GlGxVqKZ17x~O?6T@aZDxu6zW{&P4D|gy<GnoAaS1%b3K*jgt
z_B>6<X96Pbzi!V5AaK3LQHJnloYZsv7Y`ZVR2B&=90Hai20!BGek-kYx)R?0?MgXT
zd%WPH%bQ8~rv->eP$xeXz>I;a|HwfR5U*$rle>KI%FpE7l~bpO8*jTi-dX@(2)d?D
znqcBNhTwucuyYfDRnm@;xmq7(zV4}<HS-58(jDhWnN|~~|NfnExXQ9Cx0N(Dtcgl9
zBg^NU*n1<BJ6Pz~)X^_s(7e(Li#Bp6KuM)T?=mQ6q-O+LB1f}se<L4jrzfJ(S1kN=
zgm!5z+6+1-hv&`znCMI@B>EOGuhTyFtvv`}I}qqG(K7557B+tmxvMnjI9(j-OaAmB
zmCg>@Cf`=tB@w>PAjTQyv!Mev={k3*F5s4EiT5o}!0^W^?^92qvu9Dkn}RHEAVncF
z`_)z$VB=kkvrWwvaWEyKp4L&Yh<Le-gav*>Zihn87Nix><pX=5bAv{HZ5nP3U7(&2
zl>TbIz0cEUE9iyrzR!3ZXvf%@6hXd=8}c6tKS?$-zU5Kkxl`;?lj+Rplk`w3aTwSM
zBh-a6WW!|xZ(e?mSqzS|P0|Z)uXUIvtXL>wMjK`<;@V4S+=150Vo~1;#WOkCEf~LB
zx)z3VkOT71$)rVUD!Cm${!Zrf#Bp|e{~L_YreV$3AkOX<j<KC8>Q6rCoOQ}^yWl7A
z*{gC55?O)*Zi|=XL+h&GO9XJ+2KTc#z*NgI&_Zv%PWba8Ti{Z5F1oP%`}Ug5v&w-r
z5B8GdA42>^cY-6djp3vp#OviJ>=;ST<hsCoc3EQ+LnDTJhMiwm_0FrQsrC+>^`cx0
z@2lSyTY^-S?!0|4Yi!d#d?Rwp;gpqBFhOlyYDN7F{k%Alh14`G0iYFRV*vNkdG`Fd
z5|qPGBhOdhe3TY>Z9*{JLz2`rq&ei_gA<KTdF5^;xBhtzp2f9-@XQ<;+`hrs?Tlkz
zGb}C&0nQVlej)$RPjbyGVie5O3ol#J8kr%UWJms1q`(R#WfL!7u~ME?&@HbK2W@LG
zt;Fpo0mb%R*xf9>tuM6UgPd?#=$@0wx~7iD1x8a!fqmmnJ|Gzaw@U3!m#)yXiQ*qy
zfntVSwycAfc&;NZ_TrJ$G7wSvgB8HI3n*$<DsLoPYyFr|ycee3_--nQjCF_aG7`(W
z4G*4$A6k5?i)!&=Ii6EQ(aTODTo0Pg9H{|{b!|974lpl_6trxeW?qVjl6TG>*KHO{
z-ppCnp%#Cv7+CWi4b3oe@wmG(-^#DM$ary;ao*w|1Y7-A2Lil;%@q8xv8(y!2$j2m
zW*p^3;rE3d$i$%wfCvY8AZ7ymCF0btTjhTelRxxp=)rq;=;jd&uw4g1wz(|bQmX+F
z#vLHe?WO><DIh4ogv!Oua1a|V7;zpl>jWGC8XxwP(6+!|x&y2$iK_GyRGUW2TrXZ$
z|EF{_|GMSXY1q-l0By+{q6Ahq0WDUIayL-YM_u;emNs-5zUIknDCwd)H(bqaR~lix
z0JN5|;k^B!XM=F@a%`^t*}{#tUo05L^e9%paXNfeR80BfLxTrNKHq#5%^Gazj7<6z
z4<z*;8&;H~s{3c2UgUWxf377tG9nVxWb2*us?+5ss1iW2P1wmVAje&^4*?MkrTSl>
zHm=X}<AOa8%dsY@uz7d5qjS?=zFOVoN$vqqncisH=_UE4Z0YZcK<PiKe<occOmEWZ
z)^lIK&wJNZKd-tQwN8ojQ%~h$UG`6Bx#znoyUve~j<$SkWuD6_iUXOxxDMK|=DzvE
zzj~WRY67U1FEj5o(3npFd2w(&cz<sIvW@qE8jSowk${C09hRRWT6!!=>j$ONIA|<Y
ziGXNTL18TuLT@{<*sfR%UziY)G!D&2apa!8@a2-hhxbwEug{B_BOb%5(^^fQz?i98
zIQCcsoA%kjSp5O<O$&D@v)$+Z&tJbuAjKcvo|Em&JY>KRqT7H7V4M+b;eBA%?JPN~
zkVFN`fnlj{LT!RRK>_vV*rKzFa)XbKSibGNM<)obTu&oHT4}6x{n}@j)h!x|T}M1T
z97>noChtfonQty+UpSv4{QOIufWQXSK1l!NcsO?I)bOdzZP-}v?5pwfr%yM0jQS>&
zdF;(8p^NyUC2X!27K%Th!75=+Ylf;0S!V6LsrV=m<pXtxTD<%L*px$hpFyi@N}9JZ
zkHe4ji90@!EuD?6b9!*cx%<jSN`kL=^6(o8NKH%wH!-YuW+Ns>+c2+Y(DRhALu10H
z>p}L@h#_EX*JVryA=M8n3t_N~t?G0W4Qcv>ms}C@J;#=PdcxG%vd*%v#uF>eYm;{{
z*w%KRPH`#jeqSj&%>+MC-g6CKdbCgaJ~j?SrrbD)kf`sQAg7R`$ls8!VL|g?&XOA_
zE#}vm+nsvU2D^UPOgiGIEbs8j?FM4nGuzHIJIl7+D~7e}YVs9e(+>6hE$GdaKh8!4
z?O}UqOuZEKu?3n;^`|Kx1Zp{81Pb49_6*w}ffj~$LJn;g<r%@A*dG(MI$>|jIi<f)
zcKc=d%EU;ysR5gjK3R9hi(LbqHZ#d+;>>@)X5elDqKvnmC5-QSHR$49_oKpaSsvT)
zOJ#lkuOtos=LC%ZOg{R*Jr@ilb^ODbZt*<wABTQ}jD8`y|EEPvzbZOz4rAt6VL%q|
zCT#I^*^rDoO=kp1D%g;uMY+)bK#>0?^AVW_nRz|E>40H{tpj)b@B9A0FV6dufbTDQ
z|GzTsdM!BkUz#-}_=kNm^fqMDs~|LkatH{Tq({&?JbVBZAeZHv*D!|QEJbbc#pN@(
zXx|OZZc-fiTOpN|Y>5nv@h~!~8g?kJ4HNA(%hZ!A>p!`~EIVWSg7Hh^mSs2_)s2Aa
zkYgLSUCb8m^UJy^r7AhNrdZsTIo5S@!Tm$|*)2x;fL)V<N06EtgliB*hH8-dW0+|k
z)mJ7FW$0kxg78#1AwI8-PyeBP+77^Ist;m!K83XMDr4=D0H~FJc=Gn8k6o$HxEn4+
z7}AX+OZ_@Bov%w3`%@Ea(^J+Q2FoBW@EG23SpaXchk?oda>w^tCYCme+D>t%L<$H{
z0Qg{sgj6~}Q!jo9^dbeNQ}l=Ad^392615nH5swH))dkIVix-<k^n!|MTnE``e!K9m
z%Gx3+mw<V!&>Dm6yTNzSp<@C#PNlvKhR2Q@6YL_jvuHQsM*I$x8`gYY6I|@xZ|LpE
zbC7umm$Z<|@0qPAIT)>jri8h>DdN_|&uqT{AWVBbpO<ykVQ>u99M8(w{LKyfque2{
zV5ff!n=$?*w)YLZThLS7N3_Z3Rw$6H&;pF6wyOq1Es;w!(TZehe#VVjtH+pKOUWPF
zEoeJ3WEM`gnXbNt1qAkCf)s<nxqeI)O>{{;MJ|~q^8W32w|c?{$1gwEGxu4Gv#xnN
z>%|?8#T+j?N%m%MyRCVuaP;<)asal9_r_A633Io^a^+dJO@;Fl>TGO*ZDDpkk5Cm2
z;{++JtIrDb2zjLybG+)xu%<%k=nB?G{-R%DPo;jX-_2VD{f9w3U)^C<`oITfT~fBr
zE+o>oruy?WW!OAZI#bg_&wWbU>-CXiZ0dLREz_yT2;jsjXi~Nc@qXcq1|*gyG_u`b
zo?=`*e4_ET+-v}=s#S!!jL<p6%dnn3rFL2il!<zxEWGE@vN}Ar>cHs6;D*vsPfxGX
z;ea!zoQ|q2xJ8aVR7e>dtiOd1Qpv3uUbfWCdZAt0zhk83Wdg|1%5doN+KUn@%Kc2@
z$tEXW#U2KmTDULBjUI7@;4&2{l6U%C>ucUS9XTS;X@8a5K@-FVS_L8V+_UqwGAA?y
zb+>fSBQr2FxzJ4)nmkY)W+?!7jq=cT;vY=*KIBoY_TQS|oQKrG)JUM%*xv<c0~dLM
zixy#<hX;O>=Ryt+n=b<${;wkD|M6L0{{p4G5bat34tdaq*<SF2nvQfM{!T#s&mFP<
zO)5rKSpD?XJrxqePtXfS$Uy>jftGn1S+Y-rG6$-(Psts``I&H$#oG|asCV&R47MwL
z!I;=a!<j4vivF(Ug*VnLuUqMb@+u#hXhjN-98u2vaI=bM^4nsUo~85XpygK>VJcYv
zfCH8YBkKYb3{gNZ+G_wz5afuz?a}~W7(awNut05QWe<z==4krOOlr(ZM(y;nEVo>K
z=gw<pWxFR+O|3g#?4gy!8nn=YiP9D$z@z0trSM>3c5tBi_I&@EZ$_ygi(d>6!=p`E
zYYVApjoQ77E4F-8mF#4ojfdi)G!En6+_V8OX{#Ty7*7S-vzD_M@{V=h(}bW~zNdOJ
z0&1tp4ls^Z+*l}+D-qFV0b|aW0aL~M#%vDCWir&NZTeN7?sX{Rg*`fa7Qq0S;r=Aw
ztV*+%1}-%taEh-_aY_1H@kK@~^Qk(9TQN=(HVs@a3?(H-=z;BRAs^PqM+QoTCuT6>
zG6dJS4c|Wr<go)|)i^JjmbL0^#`SUc@A3WBWx=QpuP73RH=nRx==Gr&hvX*vQ|*`3
z=W_)lPz-6kPv6b63l}x;b1jD4nWf%3K-?#$B~)z)ll9vzMM1>1Oo&sOWkqGutkjAR
zd}2c9CrCQNVP0bXQ7|!y{qNR(5Y`&B1m4!A0Zk~5dzu>jPO)6RI<MSz5Mef^EkKrQ
z&*q7}k<vb;T~BOZ8#9sf&+u|!_)sMF6#o>E7oU1lhmVXaAPCJ&Kn~Fa$H|viEsXE0
zmdVO$k4YTj3>}e6e4FvkdnA1mPWI9gr#;1VV5ld7xe*)~p8n0Mr0E|Yux*ISQX1Sr
z03r4`vdD}DVNkFny+!$L0F3lT?09Cc!c|L``;><A%&nxMMZYcZfBXes`?xbVk?H4j
z?qz?4^T4aE04lc;%^2JP+1YvrTk61m_}c}j#l(rK6JyuP3r0ib39&60!9b%{%l+um
z&Zmv0_^>le$=29r^=mg7q(jGU=b1)4Quy3Fp_mu*;e&4N&S`V8*?#9q!N1<a^H3-w
zo4~j5CyAG2!$3{%rIz4-#XI_6!wbynU0}AjU2|?fb)2R(3q+W}&Vf>Y!C098VmEN>
zFY!G8TrK^-h8MrcLH`xW`u{q;BG0!_12P;p{RGW2q<MSx(^W0WO9S_|JY^lbI#ro-
z9(^?g(RH0hhn64IRm->yYpjU_!R9jh*Is*}8fm>XPp@TVO7-v`QWF5p41O_%x2-B>
zjP3)Y$q<^5Q5$006TuB5@b&^HH89kR=_g7a2o<)2sSE(FH5UhWH`z;@(!TAl{WceE
z|M&k6!BsUH0xl3sME##2I$)H&ck<u<i*Uti*k$N>YA_jr?;RWHv_#8}oJs*WYloGd
zT447)N-s7Ls%TahA)ggwDzmLJUrL8K{Kn|}oA*b;D0kh13liI3ZLE$FFRb^>D#y78
zm6T*j=<z!_Da=H%9aRjmhJ8g7=F=R00KT=eyKsQR%0h+`;&EIshnl!u6|_7tYZCe9
zNCwNY3TLM)^T)QzZUM7Jo=!-J*V0a?2VsHq_%RL~GXQ{32d~g40|WGKJ7(S<9UaT{
z@|XS!>sM3L+6RGV=<EPHkhEuz#Yt^orDkLRdVz%Ln(I%{1xjnG9lXc|nTGj;<sf^=
zal-oQLxIDo$p%6*$ioiMoOWZS8^AaEpmMNQ*T587;=nANc4!O`*8_%QSbJbhkmpOz
z19ZMMFlw@Xbs@ETgYDnG13RyAvo@E443aN7pZi#*_3f0su-s2(Gx}?+I1?<_MKqc~
zY%CvC?1opkrJpYK^w`*5`UzUd>;u;as)~!vY&C!Q-TT5=scs2q`>mpW*$@AWKUV-G
zkmS^9+Nbfo;p$&X$ahEn*Cp^b&f}kdN+v^SnwGTs!mZMCf3bLS_g1+2o3FyJ&-_1l
zOg|6($M91qFc0{L(dao$F2Ce$7Y6-BAbNd^29d^0dCgn?<s$y(qtVZ^lh2%!`4LO-
zG0wVz4cl$=5R@u*J>u|2v&Fx5QBVIe^vd>(FY=GX0)Mu@FdeC$gtY9-(2yS{^&Q?>
zHSMaXTv&Kunj`(ydlclpPz3WhIOnc_lxsD4$`#1;>^!+<TJM5&qYl33?DG{c;|qm>
z`L6b$=LPEN?LuF!Y5+VX^Quo*r>zHMlvq?QVC`B`T2`Z3#LqZsSRGOokD@D9dIOkl
z+@SmOPmtv^^m#Wy_BEjyOe|m%TCs#(hX=hk4xVpZ%;u#t*U@+wGI#%z#RpUG>iuVm
z8+U$p!Duf8@W9L3r{Z0P>B45hWY-rZ54ooPFla>;A2zq$XWl>g_w?^FDh5y?G6VbH
z?-m&UD;L-Or-^od7HR$}-2A^-F8)i+^Z$bd#vEEERO|69rd5uMto~!Z1UJ0BSCaTe
z7SG`)rmZnEgGWm($g$AAiz*+y_Vo~NfeD84c?10~4Z%6ujGt!v3CbVs;>3w7v>jPQ
zn|AfUMn&A0pwG+#E2f+FtFjp%U#}zH>|jk$ue>nc;3@Q&XF(&tp=Q-NVWgL)4!Bi8
zW+ht>pv?|5r$0H(irnuv);2_ztx5EkevPmC;xuI>cFbT;;gvA+eBOqBs-f!ir}Qnw
z_j&ab*n>it3qWxy(H3>J7bV(f;L7pt&48TMxGTxv!S)XP>kHrM%~Ypz$FnbVuh{$K
zhuZhk1VU}eK2A83#9b(Nl^mB_>y@GHEazLO#@eXcX~%6_x&&W|-dACZjgYT($R~EL
z_Rd0%Q6<T$q4ErfI89T+_!rKlGzl4WDZPHh@~N#0ba%6&>w(A`27f3!73wo9$G^nu
zKnfqylsS58y}I<O)X}_(WF4tWhg6@2x2B^UHu_^7qU*&rYx^tZ89yG4T+UA4ZO2pr
zaI%n#x>v%E7af_gSw*U#TQXMUBxXo1{d~XYtD&KLI>8KG6B?UJ+Na5=HcSO<^*6_o
z?pXi}cqS_T;y`*^O{vy_lQC=P#Ivs<*D|gf-V2h<5w>7nL~9;ohO3h|+SFAZ%QeDg
z<b+Ll^Q42NpT|#LAX>WrP?4%vo*YHgvorb!%RQqp5uMjA5+rR0{Mgxz2o!rGGP3HZ
zA5(7jjqj^3Bs1=wdxGAPN(Ir4q}y*OdU+aagi;Um`*zjXpF&w^QdAMLLl9Bu8o3oo
zhPPuG@|Nq%UX>ip@7uVmE9cGq@Gz_3hmCUqTmZM6NvsrsWyC|`l)TuepkbPb+w`bH
z;DBxQQ~iK9Vp5t$PuF=K+L>lNKiXwoN@VE-3!*Pj<p;w>tf;34HKk_l?hRE<+Sm?y
z0Zi$NoamS_EU%^Wb9G*Gp^J3zhYFQMhnet72M>zMVz|J-!Z0wAWgw@Rq}-@Cel~A&
z>A2=9lQ1V!Q`f>LTaQ4Bjr~T=@aER&8~ffg2gc4}ZS8|hniy4qNKZ8xY4moQg&o(;
zaksXwI*~M%?lR|ns>-zE@QKixmiebMjtL{iM4z^71#$-EvK19fKs;M-<jWmfd~8Ex
zt9+O55xlthGH#03Puq0w5j0yu*!yt<#XOL`O;jDi4Ed;7=LcCu2#vV~Oqre8lzG7t
z9dv#60-c|*<5qti@a<0V5fLrZ*qd_k_Pm5|(}{{A4tmC1cKyC%9A0-_CaTOjB%Ca4
zJs5nFtFm`EUc5-isw<&*4Rn8hmtMc<P0D5%3KykKK#y&&UG7jvC6t0&gY#3(+@n+)
zs;@=#DSqbrYCDrqB=x!LTUb0)#$_Mc26+aqc8)}!Sk9(zAQV2?J^-K|lLV;km0g$K
zC_!Jn6Dr_(I!Vxa=hgkxk8K*8(;?v{^<iO`{{F~9=B)g^m(%obDkdcw{c<`mczM3n
z@_$!l2wX%R#XD3D@XvB>6e7WnlLy-UKT9<BYk~{3-zueN$JieK5JahyaCAHtx6hQs
zoel(S(hsbS;N+euZAgna*b+S}eTt^Co$7oWQx&Br4a{$V7S%e<Y-{7DT7-w|3RHa>
zcriG9I4=Ms8WI7~%TYjgfUknJc2H#iz%K>QPUBbu06+J|gS7+vUf(B7BTRh@QdK}L
zG#MK4SzspzPDf)FUxeNTa6l~#c@0b;Vpw2(5@di&^CSdD#O^~vV1YDWFRu-74}9$`
z>`a(lfc8Uxl8{KYp*@rA0FXg|NuLCu7VJU<)B&eS0)(s&ke5V|dAq1x_<|mZMx-v%
z`qMUJ|Fz$6#EgI<t&+WoDxDVgY}wsy=p#hg9ClI|;P(+TkWNl2X5swuZ81M8_*gp0
z<G0lw0We?FM0Kp!82r|-J-2#U^as~~eWxFg5Ld`}&Ltws{FKN`e34RtW^<35tVYT?
zUduWX1CQm^H|xF)YWW)ZFSz}+^NUWGT2?&zb-?^T#y{_ZVP5=3eIccj=Q{Mb>%$^f
zB`Jf!%tHf3v?{vrxCNy439{w&#O#%}dfke%SZkZbmq4JSUkS?wmJ1h?+8>X38qQa9
zKCz$4FObir<54*5DrlQo>T}@%63u8`dplf~d`?+hOu4~hfJQ0vr;zp!va5cWr_Eww
z=VUU&vhTn4UN*fBDFuZb@NAh+Q@I030aYFt!pGqSX>K7IQQDlmc8n@NxD_MfuD(lS
zzD>9={Y^O?`P9!`_p>|Xm>a)C!kQ4yKD-tX{_H66Y(52;Oz^-%OUb?)^weuZZ(i0>
zz|p5PEEBlu(jI4z(aeP*gd5;B1JiBz*cSf&+u9TaSx?*?%f@v0`XqTt2YlNUDuG-p
zC$itrS9e}T5ta2^HEUzua$DT3qnByW&|~xYyt{D~Qw{B;bmjAcE9`5CVqm3(_y=pR
zQx*jkva_C1&m00S<R37-Fp3yYxp+(!U!3-l3<z&1eGS3>@d2{XU_Y7Yl(iMq?I#c;
zFZ_Vt^C5Spu(KpTGRJ{9y%rxPEagtX;A&o0+=;=AEWEx_+cUhmpZ!=W8Q})n?}*#G
zu6IzaBo!p6s?Fjm+sO>~dEanazL(>?+QL?W*HPLSU(XK{QL4-U_Zemx-;BCl(MQ(_
z^5Y{^9qr;=v^9#XPcer|8-)>9TJ~W=StX%@70*W(Rj$^FQp0}3cYF`t%5KU*T*vwx
zB`~9!C)}BY=MKwAIiPHb>7f18xIJ%(lU%%t;mKui)lX2O#57P5yj`lXn30u-*FFs1
zJbV8jPHCkZuDk+_<&p9%Rfh*lbLlgI@i4vCBK?v(VCD({M?gfVjWpl;L+Bf@QK{=T
zpET`59mv(8bSF^c3dafmojp(|&Jq9_qWr1KgF!=$x<q<w*m;9*VYB0%6FN=3-<CQ7
zdnBFviNW>oHgk<N*tLOU_qJ|URb6m)MyS7Abx`eED59?Xcnsi4-^nZ&x=6k3Zs{3a
zyZPwh^&j`-6CAq+l3o=6*vw)4L1syhek-fGy*y<lK86Y#_RC?1ej-m2R*Yl6H4t~B
z*Y5R9Zn-OeuG{VkukLjNSEn`0oG~OJ<EIz^#gU>zn?(X1vigi^W65^?4dp1UcVErS
zgOJx+cf(S_=FN4cUSdl6qT<Gw!c5I8U=}saOg)KF-k5SB81_<`j6puT)2M(|N@3SY
zBcgk&><v$C-RVqq=ctINuxOt&4B;kntfKk3AyIv-J4%0SyJ4w5cr^k~MBb?+GZDJ4
zPm@eywYjRd<S|{}*UbDC5@xl75k2)nki+Bvljnx+IZLVibXA(l-fuhKT>`9@0dZ%u
zDa1MTxvs-(sgXri=7-BpIa8IjpchSwmlN2L)ts>AtKt0JLWYHb&a=GLqS}Vino=6l
zi3dY6s7zvy)birpq$#B&2`jvPTm%Th90m$401hNjP2(1%Qu{C<hWD2>Nt+o9bjYNS
zQSDLhmt3pHOW}?K^W^)`xJr$(O*zH6YC7-b1!Q?MvbZRR{S{CNy7eaP=K|ya49SXU
zC3pJsH&UIG$F#tmIS>AgfvJ2z6-1<5vu(^aS?%Mg@N5Y~c323AK3R3>>_@-LjnF=O
zP+Se;UYTb9je5KxxX3%jPt?S4`eJHaEdrv}&lqIu8dpT99MMS}NE}^*T3PmjQ47=%
zD$oN}qyRwLq6hTyNaSm(x5h^bfXhgAsYk`x3Oftm1P}wB9snUbPSyGlxL`r>E6Yy_
zOuJeWw@zvjkBK=eUmnj<wIKdhGTl|>W0~)*Ukzsd&W{LsapVt-ixy`fiJNLGRK_7i
zQ{Au=3(>!lfBy9N7nJSSV2=N4yV-v*s70)!`q9P*k+8W)02p>q2I}2HrsA((AyJ>M
zr-M1R{en!|*|9dw(=4Hv`C>iO%tsoHBu>sP(!c|A=-RlG4<(+9wcR02=!IAoTXtou
zqKF%-3ltr4?`(L+%s3oOmTI>kJ-%Ugs@u)_ZqzCGTs#@CVRSqXBCp1e<V+A(Q<6(F
z%JT7)x;#naqIwbF9r0S1ypBPQrT2Z~d3K`LN>Wi4NlmYApG>|itD}m~6x@*d8qP%x
zB!>`vTJ}-#no>oV75!baEYwbHdalJ4pTGTb>$@_Wf$9TMHcg{upuNo?c3({Ctaol-
zW5l&5l9qhIOvcX6zDVX5;vrp*Z8=|#%ogc=Zv}CfuiEC*z5rw(Ty(EvJ;DwEZEa~I
zf;9yc)j+QHbhczCA3R3DO@2|Cmy3_WZ8_zmD_-~6;rJOV(8Uw6TJ8<x5W)stF1FFE
zz)f3{T<JXfNme(7VyW+Oh{dHZ4k2yb#cv5xR!dR4@rdciyIZzqkNl?zg6ScmfO5Xm
zeHQTyRu!A1>FzND6V@l-o3;4{f#h#I2GuYA>C>Q>xXu80I`lnfnrTy4r+2cQ$|{Zs
zZO1MoHF^^|XT_@PiC#~fB1bGMo?aGx?|gnz_=kLpGP9!`So{3ZlNoO%GV1Fm{rIZ%
z8%&`>p-e={P9)Z0<`ews8tvrL6k{r1ZIni_ohVCPwb~1d6Ynf_o}Wy7U(FNGAaO7&
zRYHKQ*}b=+b?i>_gqjsz4ww}Y`Zln>CPSB`kug}y`&qT;`=+{QhfbF`J?PfQ&G-t}
zhEbj?J6c<_k_lWm0N<uwoOPA4-cigD@G`DYy)4@<Qzg$R&}n-MO;5Z^#y8PKiGnuO
z>2CXBpZ3QqH{_WdEU`B9s*?%$>d*orOEX3U32~n04n(#=xTWoo+iGQAn&PsNpej@}
zUiw~=Z(GBlJYCWwoykngJ`4yp7agh&EM9=gPf)+h()G-{EQJ9N6EX|jMdts2KZDG7
z|FJ<nlSWO4B*0b{t^wBdiPgH`+0G#zNHpTsUz2F^08z=W`kLaE-ZQ`I*!~OWv1e0^
zMH-EzE2K@&bZa~ZiRP!bHj*Q8Vd{5zrk^Rs-!_=wbYDy^Ux}Jjg}efJ_1XJ{QS_;&
z26zOwX5mq5^mAtsZM@GKM7-aqm1tciwUGthNhhkb_Z~?W0PU#{a%P7elJB)2q+3<A
z?A?!Dqfj)L60S`1Z1bK_q2cB-l3=xk+3J4O6$G$NM7;_BmI~bIX<o{(h3t$#@13uT
zbUO?@n@?Z_Gk9cLavRqF?JTQZfvUmw!J%b~2Zs##uj@1~nOz2O0A7M<PKAg<6QF_i
zyMdf9zD?G{Jx1}HZhT$=0?}^)f#@o0W6~)GHPdwA@+O=PyKtP^y&nBMj*Tm@8vP_M
zNe=7quRlSY6KfO3ZT=tG(50u@7j(ck`=GK$l<T3M^>Hc#7^j~gj%0Bv#$#lg{IGFT
zZ}Z|($GOwwJ<8QdX{0MfX}l!|$4lwp{n8ov;*$6=zYXl~(tT*ktjZd+NIGU<1~7Zy
z{wmAk6>2U~7@$dgo{*I3z4KwE6e!LT`Jt>-$$=x2UkB``dQ&?1SWqH+KYo7!Yq-fl
zg`d#F7b}pXifQ-faRb#%w~vI}zsIJJ3QnM^9h4#S{WI{45!>xPC?|M~{f+ntm9xp{
zU9-o@2v5L;AYE$S35d76F==4jxu)dqm=l`Y+bkI3sZANAy|TkNPABp8G6Mah+Xh#a
z_v2R;gq^H93HXMT&u5W~8w0?%km&6G!MaOFK-<lCf28|Sc<Yq%po93$gF>3r)pg38
zyU4`{%?qkG5CKW5s-!jZYB*VPCx5sMTiA(6On<jo?vc_?^^klXaAiyw(eoM%z2#%8
z>-n}I`Q*)qEFbB$Ge^E42y2L#G&MnZT=+@1W$oGNz%qZPmBiYWPUuw|F!|K(>W*8v
zOlS0t-4(HBipf)C$4`(?h10@PoKD!;0K6C563w-Kq^kQaM_abvoO>lo%~MKn1#j8f
zeO9vpE*f~BNj|G$g?HI|C29xn4<i_3##-9$Y71Ue>BSsKnPU)=NodEl<j(6^fj>~I
zu)FMIyC%*qXil<I_c5^cz&CKjBX9BzMxzjl8C7Ip(gHsVi$4DGGl1q)N$x56jKEMT
zO+vzZ7~W8Y=i>%O-xnYR;o*a{)jWdPbrzD>6Z<1iK0KK~i&RbMi<qRPeD^Dh>YRbM
zmdbTez!8lKu5<YAO~nx3v82~6-a4WtMX=^8FlP^qZ_~ufh8f)*;XM^ynfP~H+0_?;
z0b)Lc4l_U9&bPZVS+cD$7DeGK7Z%(X?QKavoy8G1qW`hxY0d0&Z0@oB8Ma3DFJ(Y<
z8hElMIy^a22doH;TNyaXHi6>m_ut?XZPinMf-VtWZQa#75|rTG>sA7p$w_BuL5_xV
zhguGbWVlJ&b0@3#jL3e0C_v35T*1t7nDqp+BKrBNgF3klP9Fz~cBp;5Jp5%%yq92V
zCuqI)v%tn<L&-HiqPnZR14S-y|CVX0dqc624?>3}ljgT0!%esOg$B?(87AUVVHMxj
zt>%QL1+1G6;WZJbJ_dX54+YUK(1!WCGr(gjt@Yu1+Gb&RRj17n)xD_PluqwG|KE$l
z6h~s=T1IF^1~eANvRxv};Z+@y@wkEU$HBO){&iLD?F@*=q~Q&L@S{um_YJM8_0&{n
z<`Kzjox|u#pfJ3KBCxNeg)r*}5sh#)ufJZ{99=ZK{w0j@HAs9S(ilDiUAqgztYNA;
zlJ7{Qyeuc^=0|dgQ48WSlL94C_U<dzXXxkV4}j%!5qdvme3|rd$ni6sMQ00dYEv+A
z;rsyugvO7V<ryRjO=Dwc9h%<k$w)*^Ch6}+Ws;WJ!{7W{g*#3<nzX5^S3umrYf;Wl
z%#c&L^&ULZ;oYMrQeELd8?r>u#TqEFKLv9u=|7*Jt0y|vsdmsYe^Bi#2(twI(%Si`
zT!@)2XZLO|Za2pWzO`_v!RyVv#+7V!8|m5XfHrHD!bVT#DH}Y-&^WZ=Oh3&ozc7tF
zjZOs?0S46GcOYXM#+y`3wDqx$3kE9ZtJ)SIAtAy$8#c<oi3e+nzqSWu(mYwG2BhCy
z)8C6D1)rhsc>t8t;OOAc#8aqN1WU`Ra;n{Fwk%k~s#I_<&MRu05H;SS&Vz2pqU|%7
zXM!JA51Q%-qynkxB}0b=brVjo-O_&$U$vmdFYIH@(f0g3M{Z8f!#wW&KMxoG+h&+@
zf9Fs7A6b?Hxkw!0XQ&1P7!NzPfop`r`<edX;6aD-0Y3XAp24>YdaQUy54h*|L+53-
zMBPWj&xZF^P*vc~^%C008;R^~2=4J`GMeHJ0it)j`CUVoKDTtl2Jc1MXfV->s6wAk
zi48QKrG$iPG!A>+?O#P|o+!HA>=z^!C;9qo;zy0+Dh@Rva8q+_iNHK#vNy#wkiAn|
z3>_uMK#px0SgcW>=$9KUEwjFo#owLyLE=i2$LNWz=XFX;k2*rLH^wk_0lzz(Wj~%V
z!SY!lW_e;GftNZ7WGzb$<)(&--_K2tPR%XfI;pRIZdUg&XTGm^woaKsvwCz{3dKLv
z<rBItuBT_Z1?yO8dmYEAc<X8Ey+9E2H}drCnh-#qT02G1Xvt<Bmfo2(Y2E*d78}YR
zD7^imV_4Ayz4EHtcRX{!MRh`|7cD^*8rIgNjRBh|*khKLun~*YR4c4ON^r!a<F3f>
z$-fuFg-#|+et9dh{Pwy!YJEz5&+XaEtPvXppbvWjpq*>9vw_ZSqH^kHE}{(OsiuW1
z^@$z5YeIorKkSZvVV9MD9A%Y~6xFyv6Kv>6o8qV?N9I$724!jd<1M=|EK0ELhMO6-
z%*a;%-i;SIXHOVKH9hV)T9U{JC9-$G#>{5<TBRC}ZX@Eth5Mlw2e<PNoxz&Oo!1Nr
z98)}DLND-0K1vEW`@C=_BB308r|J)KsYW<*X;smxpB5X%Vqi@#yRYM9DsPfiz_~-`
zRh*;h)ZYJQab^S2Lfg@1Gv{-!?Rv#ws@Y-z>k1%fT_@e?2L?#SBuTkA4YX?ZNj$Im
zu)<j^U^74d(II6dt{HVusA-c!y+SC9$77-c?Ag9+n)#4erL1TpaYS1G#k0bMTz0vK
z;3<iag(N;aU$mmvp(StyDwe8Iq+I;g6@9J}RgQMGxU6{+YX`3bS$tks1q{xBbM5&?
z6NUm_g_K@%9oThn2PD|ht7b2&1F)U_Kr0)xpkw(54eP(4)9whRbQ_rhy93=5^8u_0
zzLmk2THN-#Xe(h-bJL@IGy~zEAd-SRV*g=!<JVTQ)Zo%vB3R!tnp{bW11z9_f&|<J
zVex1_@{5($DC2$0r<$kSu$dQH_*836t6EQA#1~$3JT$caGAH@_Y~#_Z^5L6x;}TO}
z_w;8*B9t)C5W?CLp~h%J;w}L7vjnE-*fEbA54}AOwO2c5y>4}j8q2KH)in{EWRf1L
zK<IrO&P4Xm<RChbV2vZ8x&>E<Q?<qVLeHd^SkH;wKYRECWP~H)#-{4z<LBDsf@AuZ
z<CgZjhm_uBg#^6`kyH2qjh|*#l5xjDTHzd2b;7l9ks+$kht^pmFNQ8*i+=SN#_cs6
zancDTQ+rw&aVw!Ll<SZ-Fz;eLFM@#SOb<l?yzFY(ol=R>=KN?qvCr!d=jx-G&l^ZY
z7>wJG8P#rob6&fZ=PE_oOY3s>?S0WGRJshV;7bgJ<+^J#5tZv^dO6&E0%HwELX`@u
z_pjW)vgNU$tCslqgjjY%(vc(j<`ktsl{T~(xf%Zxlt4Sv=cx&dP?#=_FYW8a7In@~
zjgRT@T%M4lRyuDE)i{f1665xzIn{-4n!O4se24TmsoeU$H$b8%OqJqH#t`}gJD+5C
z^)WUpoysWE#^JZu3K`u&58b;P>4B(T2nXaYLV&D7QO92+igaL#+|>QhZ@F|FUufVo
z#TPnwjWYs7&+n~4J^M0u3U{9QTy=HB!XAbwIlduI$HQFMc>qsFt`f3r?+j2vcXGMB
z0HVNm1zl0)m3Ia7y*0p@A_=DEhM{*X`w;XG))hCR&~(-HQAX}XiY!M9VjRy9Yf(Dp
zFE@{h9~N9!5mn1C%F;cv*`d6A>)t>^z(1|by!D$?gBn$OKgGB{rnA)_rE;Ou%ZoMF
zP@@0iE#0F`_e?-^J;wJ!r2)Guc%nAj<92)YK^u$jvZvFJda*V>FL`%XQ2CsM`Kf@j
zt#pr}03W5<2-rwBF2iw%$XUYNR;bhn{xQY*My!RglHb|g<BCh3uX$?XUG(oi@M4e9
z>p+?k;BbgrsY<Kh{Z~1mAcAB}RjruS1DqGP-Y}`}%$|;w&+}W}RlA3Gkx0$F)nKW)
z0wVibd67UuI2T!~;Dm;$Cvs!XyL0LbC%bm*(oFz4qG5N_)Y9z83Wb-rBHcv`lz;R-
zBp&nL81>cxTbV-7pjshV(xySGNdoQ20KUiG$b{t$|1n>>9(L{7La(u1(#yfSCN<#$
z!=xl=X!0moaN>?5q0Ez!e+SyjO}C@Pvsq00f)U)f@@^M!MNr<I35(UKLfw#Gs!IxM
z=5d3J;yWy53vV72XrHlVusu^<TZPg{x?r+yBc6l+5N7eRKcxa@m}vM?9uO%7v`c8K
zA;?`-OQXyw>H~6hQSQ5IkH`rpD}%F=&r%iQDt}`LK{UDi?lO|n5@{04xjOKZlY!_B
z_awG{o`_D7y29`JgT_A05BqZw{ybc6sfN2qnUNJhXqXt<CrRak&3tP8yz7rXjSe~@
zP}XP?zQErB8Q#AI3>$yzXJ!RV=g2VDKGO)43W}5cbC-d0gBygiQ9LhJg?6s*K@=o)
z+GX$roVEAMqsc(c5KFE1;r(DH-}`rqLT?b9p50(!K^(W%j|k>^qcOthM4=1swKxQk
z!|6rLD?C;-Iqj3(@Ol9mJXwB_NMm#@FYyQLmm1H-6+Z0A5b`0%fsFM@U&-tR<y@h6
z2sT*&tG;iiA*e%*h8GQ78rdp)v_)g)0W_rN(#Y@g4Qppu0vBG>PKZl{D=pSwDlsh$
zT2m&iUQDOgF+_<PEyxTH%7IYX9Bkj}jAK1AaBmeVel1cNnbSfzL*L{DnJI);Mwj8h
za9KGK=v^BR`kP*DT%O$Uw;Q*C)!5pILK!Kz=C#*<=@{o84fLFUk{G#JHZQ!XK8r4_
z{O<cr%iP0v#mLEG;_&%%ps+v@w*ydU8UR*{5K7y-Vp?%39jv#WOm+0O92*bnJW;?n
zP@@K<#fG?z#4rrN?r$XWowmPh8+bRzxc0L~H%D(B&rSi*)x?L7Lb*3Uz|^Q3-__W0
zNDehQZtW}y)?QuR7}<Vrvc^ZzTR#3}KVTIZ#1B4q(9jY5z}cT}-sr42U?lM#D9Fvh
zd>FTtF7As2`quQ|=x(76{!3$;ci5#xgLmG`gxXQ=ESt7Ka8RmTzetz#NbuTVB&heW
zzK|dOT`=u;=VF;EXpI(L+mU?vU2!J6%ns96hmqGK0R!;Tb7Xzer$)}8>Eqf0K*1!-
zwYtyqwN7)6+JB6rvouT}XeR1Zny0aGn^)wBl-8Q3Idj%zr3=$`1A>VVXBhV6!rg|0
zLfP5w_2;((Z?+$~5NOx@QGO-+)s7Z$?US9W8ALOS+Yn&-<N6aM%<C^e>-|_!Eu^RZ
zAmI*iyi^`@&*b=&6tJBGNfY<+336jQuWFjKU_(W{o+19o_lr5~sTf?OVtm^(KY*OT
zuVgAnkkxedPMmOxExd{ZQ@NnHE0Hk;AINwc%X|H&^Je4IZZoNMgY+H-?Z@rc06rDh
z*~zB>o#Zl#U28gO-OteWy-Y~)WF0=i(SZFLdy~aC1eGh6<XP_TLgRJ)YISFCB;Y2z
zNwW|f9VV#@3iN}oY7khiyQG7kp!pp5v1q@jFYNqt+5uo6gnc!}fpU(@H*n3^gOJih
z)YN}u2n_ny-ukKa1n_U|kGwb45e`dh?gcG<d|j%^j%%=bgW`@gMCnR`oaxjFkaJ59
zwlhSOUSn^MV^jGZj$M7TKVx41=YHqU%+NoPD*tCPM8V^f`6{y5!V~B-b!DsHZ0dk?
zFg`r0*^UKpesO;vsL{sm<Kgk>rhCYW<e0a!w~%LCU`D0XF`C1tKxxQfh}$F^V5&q@
z541EdM~T|1q+_CEvH7OoyQ-hcEc<*5dflkFQZ?&)vnZ#ex8Mw*c*NbL0j^tCR3@NB
zsLP}A$gKf&o-VuzK{iU?0!$c|_k<{c+2eS443K2}rm)><wwKK{`($-Asx3XSqI+KD
z(UXMtS_D0}_Ra{ZQV>pw&<G4GP80gu#OzKQ8DNJTM7Z_zzB77it+f2RZ-y)ysV<ZA
zVC$?6lmo0B!i7e^Ipd&guHhmzS=6q)0U1tqrI?4dMGQ~7=+&BLye(xyC38o~FDPxw
z`{w!TYuknl!v(@(CYr7hMH_>WkrBc78rlE)dLVy&vCB$RrLi?|hpD>+&&OV~&!|Sc
zi4J^EJ;itj+>)D$y`^>L#8n0EXwcjK_(b5tq2fX>A2gHzE`9ac<(LqAJJ)iJ&!Zhs
zsV&5ArM(%j-KUWNpf<O2#)Ntba2$OP1Il9Q@WTLU#rFG0^Wpb2X?rZYZ^(~QoEDdT
zic!kVere>iQI=<k;OwL=_REJ`nn7T3kiqAjJUha>#MvOlC8aRg0kbgmc`s?~@`)3u
ztnk%mi2BxYo*CF*y*j{a`K$MqD;i#hc!+lPEB<C@_3P*OyJxQMqc4+)+R4aln&?Lu
z;O^AMny(Dpq#s5XTq%x)jNkF;1;DGrNwr=tsZNA*^d0kr8o-MVdHo;@c7GIov};x-
z;5JcYI!O~Y>-xgOy$#hTEu-B0bT&@RAWlMrPjclu+gDjmU*}%&bFXgU9YcULJNvpX
z+`lkB|Md93FMw9*kNO#O#UF|-70%O`chp@%_4@`*bwih?xGkU3Mll@K$QTSA)hr}u
zslIA=U}?luwz%MGxroH;r#6N6nj<Wvb}vkJUaclb&i;5mD;ImVh+NsS-}z+KxAf%H
z4?B0e+BjXbDaVCt1p<hOhG(AFaf8ECU+jCa9AE3|OdLzR_yT(`5!m9en5Wf79^h-Y
zImP{a$IU{rK45OTH{~Bx^^!ERr61#*<2}O#^0<JWAk_V+-V^QKDw*=TXXB#+9QaER
z<GpR_0r4=$ZaXi7h9rv7ppvod5A3Y?s~5`8kHhvSlXP8$HS6#K#iv)Ve2}&1+i^dX
z|F~KBre!uz$WOitRG4LpoXL>UUTF)L9iHeCeRDU$!{g$KvO=FW@2I0)bD1+1UhNRL
zDVe=(Sd<fRV~X*U6Ahf&oJ1ap&hHYwKQ-aVRG4~+Q$kufvCVP2#9Xc6wkK4*e7VXp
zlX{9g;6YT!+w`w*i<q_8pZz|`W%hl?+)Uy`vwZ#4C!HtHGaf4x7TjW$Bn_Gf2HNc)
z8A8t!o#S!UTWmQVSI)P)mOqvH(Lg6YBgK8~xsX=k%{*mnO>-~TlC@Ma*@$>qm;8;e
zp-W7QopbKrF$f*JEss_{T--5=e^gO{@V4`Fl9<JYyv!Q<{@YFSPkF#q{nlAr13cis
z#eoW!$<c&uvQJyO9e|&@DN8X7z3TTgJf6ci0lst|aH-_50@I;cC7WRMs3&Wo`X9)#
z`lyCfV|l-T+Y%qE?`bxeKU7hdRFyVd5C$;>{Ee_2-MAU`3vG~DaDy7T4(QC^yx#_-
zL5$<DkyErwIe!%C!oAP({@(uwqKUscfd3~RzJGOrf2uP6ncpREFmp}-nGoqu^DF%&
zkaH=r6o_7;C)&_hEPsL|jd5NSE*aQ%{eB!|rW&^CJH-p&#}`HbqkAO4<rp&g+xS|0
zbBZLatAr{9JWW9l7_9QU54rsMDd~{AHcQacv?k1^&I0hH48Wvn;K|TVO4z`kFq;7S
zS^!l*Q2CAR|JFW}*gGyLAPaFq#4&Ly!Vexl@-OOYx|Tu)8GBFj%6K+9P#BhL(4sFV
z?YnVD?N!%4%PuF2tI}(Rewcn02KIAj-6<I!k(VHCok%jszwu>R@2J?$VM}(x^o&Vl
zILCyW0-(el-dBL;B>6qdO1X2Y=3My+OUdUs^pQ(;ipyu(W#3PHG4<Hbgh$e(0vZ0F
z)u+bVADQrKR@D!u<A;+Z!!)^cvPI;AqgyQs4y^3azo*WSGBIA`$7$!QHP*mU|Lq@g
z_rCI&z9~y=y20VXV@D>vbML8U;>cfo{rYwJP4S1g*9+F?dOna<xF_9MazaUoZALO*
z5_@7|pV8JkKW;yK-(II&QCp%f_|hP2m(yvPL+27)sux>2H}=h4opEispXagP_unan
zJXKwv{EWXn{iyxs?Qc21o$nUkRkz;!sKzCYKb`_Nc7=Y?ig<Z@_7dHlEC~Xf4uuDm
zjeO-}w*B3;Pwi#%@yiw50Uz0BE|1F;l9o{WcWGN6tGmaoP(_!#J`NV4fH`tozb^0l
zC;y}RQC{Dy@XjwQOuJcj^u1Nw!Om$Uv!u)MM1to*xvld*@;_v6uG4<`ZCahqhrjc-
zi_U((t-94NhqotHg~e$8!Z(^aF8OD!t&RLQi+yvoa_5ia4`um0e}b;pB(D17u;b(O
z4n30<CMzFRD73h8o%rMyne=|zWR_pEp4dN_|4Ico1t+>Qc*QG){@;05-^BCT@%}J>
zsJr)0oXCZ>UnW=FUYF){Ugt@H`EH@J4GfYtVe6Y}*ca4Te)v-*-}dE1$yzl_xzMfc
z*3Oo9j!(Wb=UULJrIPM@_iWplWtKTl{x{=BU=>gkQT%&_>EAeu>%UijyXj|dRB!dm
zYQrDt2esS}-}RKt=X*IJ)2eV@^yK_Jj(8(?edStjp?ax1YhIlVnX_cqbkWlyO_;}T
zhF>y8-W(2Wq5yY?&jqa@;Hu}gTX_Mv#gY>^o^X9n{V$HySKWbg;1l$K+X~}80#__4
ztq;FGF92y{45Kq}5y}MH`+ti~?SP6De&_#svj0Q~)-ra!W2p{MYa6W1LJeAU_WJtc
zT|n1{{3~6Gxc1pMPc4%gR@JP=v!iYOwEeh_;|pQbg)O22(jthB+$-<ZAAdUi_t`(I
zp29D#rA9b_%ow;fpy(&o_ix^Roc|!dw<fUugMIXeeaj!b7mDAv+Pt+UQRYGB_M&3#
z+up*=8&8}Jvyg2oI{x~XmO96km`&l%zDMuME9d>)WdDNoL;t`34EO&td@MoZmwr7f
zdj4ya{i)2i>34ogm%p6|Jgri{rT#lmJ@9Dm#pnX-*JUhzwWWTF?V8{7i7;EFHmv_s
z`_}ozPjc^XbN|b*PY~#g-@t4A^m@_w`*tqsUv=?cz_-osYI?zw84JV@*#ni<1J5JB
zh%Rvbx=A3&)pFNr&rjT5cT@fg(+}VrdHwtU3_o_6qw#+|>#|$z{?qx^`JJE4-rrXK
z*AUO~pW*#qkPpQ}@_>id^~G-y+qy8SChOWB^@Ts!J@>Z<%|E=4zprd^_$;-%LjF2y
z%8p1dg;qUY=8*bZu4~1^m9C#PUa1H9Ms5^!TEURO#~`vLFjftDOCl?8`9Fv6^<U3i
z`Bnd?`R)GKlm0U(24rJDtc~@`M&$btkxBuqTjq$7r{%V~;Mi*>>1AA9Mv;9Ca$8>I
zOkA^ZlT|x#i+17!$2S?wPv-y7n74b`kLllhV*Nd?=$6KsJw763?Od5`be5+f-i<Rn
z$nlBb!ME`tdK(jSOB0v-R_BW?Eamph&-k=rTB^hDn*wt-#GanSF5Omj{kizt{@=iw
z?T7zE-MGsS_RTMSbiQq#;<a2;>-)@((&z0a*G%Wsm~}?aqs?h|toxl4dCl5ip1-;M
z+v-QN`$yONN6&Xp|M>d8*w^YprlXu^=eNH(uXO5aaby3Z`bU;ep3ZErn~2n$BK2M^
zCZy&sN$jDx=i20FKtwdtEB+~a|F-(ua29jBD!p@)P`<XJ{*dMJ`tuw9GwkdCaanNT
zbM^1nKQBJ#|9<^*(70}2=Kara?B6f`XM(Kmg0VALh5MZO_v6oP2Clc1xxD}Rjr#lU
ze=>lBKE;0j8RjScXQ-9`xPX`6(th9mxpGDIwe?oO1**uBi~k9pwf<Mz{`X7$u?7>H
zC;xu^E2%vB_v@e6_DC}QKio~;|NJKZ{UY$d9EJ;@C;xu^^CH-pYk&m?lAJw~E0{+e
zhzQ%!5Tr#KyjHeX$#l}gDgQoJ|Goqqkwau7U_#}%Hy3zm@8Qq(j~#l6%mIzFAejW5
z4@!ZpMviA-GyeUuf9(E8c~<$K-~7K{0H>xHGQgSS1vn>Mt4EfSN6N5_MCN6-c5p84
z2ZvEQhDQ*NaF7~xAlA}wGz96F28HgPn4h!R`ucnG`mF8nTEOiKsD_vctRRppfzjG*
zw7P}1N=DlQ1X@(rVtS;HOnV~We)IP7Yrs8T$nCV1YfGxVC2LM3a{M?}lp$CK9Q!pU
rdkm7o6Gw>YK8*l1j6c=_hhTuiFq4-7cb|7o+y5)J7I>Zx`~RB&kn;59

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/__init__.py b/distributed/kv_transfer/kv_connector/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/kv_transfer/kv_connector/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_connector/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..067f78f9a30ba181c03db0e408243090741f6cf3
GIT binary patch
literal 186
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVMe3L27U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs!vv#g`N%<`t)<
z7J=Bw`FVM%$tC$k`tk9Zd6^~g@p=W7w>WHa^HWN5QtgUZfi^J$aWRPTk(rT^v4|PS
F0sur!F+%_V

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/__pycache__/base.cpython-312.pyc b/distributed/kv_transfer/kv_connector/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..72594a5c24ab9876c181a000ac4c52a096cd9929
GIT binary patch
literal 433
zcmZ9Jze)o^5XNWkE{Q}#z<`y=fhi1_TY^dy#6s-?R+{3P<#M}8j_mzmZxcK#t$hHW
z!Dq2aDOUx=!cIwN<t~^IGO!=te6aI_nYT)%463;G90&yPp_@e+|7KoS<^?FYKoK=K
z3Juplzzo+^&!Q%^28LV63XS4}bItle#8O)hnceeJX3H#Lc0U$&r)&G3uVO!rBIe6j
zq|TQ{G*G_X>0T|;OZAI%TX}UY%WG@Ft(tt(DCQ+XXzUY`A5J(A9U7!k1ii6j)EP~P
z6ke3}nb3Yob|x)hDzvb)6qM*G9_NI-!d$iRdxvG1;3P<z(h~zFoA=}P+3BdwFb{e-
z$>cDOum<84AYK7#zXW2v3n$6)jq@<3W6mzbmZGSYL%Ofz+e8Tc6ak%lLT9#Jf2_Xm
V9894$+uWV*9Zk!}PbHx*^#^CrgQfrg

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/__pycache__/factory.cpython-312.pyc b/distributed/kv_transfer/kv_connector/__pycache__/factory.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..19fe0f95a4ac4fb43c54b9ebf579ba565d9cd2df
GIT binary patch
literal 7051
zcmbVRTW=f36`sA2;++&p(V|3JD@C$J*P>!OactR%Vk?R5IFc`N+=gw!tT-!)%JP!k
zr5&+UYZwVCqYrT(3M)v0x<G-d@E^!yi#)VIUzSw>u?q!t(5Jo>w3Rk(`qDGAT#}aA
zIPO54ot-&*=625aof-Yn>vbVWGXK-;?tX;+N?xpFYZSKcG6>y57-2?6De`1xCdZ~&
zhLky(%ke2bXG_^~_LQC0@p4zrk#gjmDJOlm$*!C`<<5Ch9{O&Vy*XdXN6THZKNm;^
z7$osZ5cE0Z?p!bxq-{<)lnbZAwCs|5a*<SoK`fGd(ylu&CX!OUEINg-`(1=Rci2W<
zREjP=ZI;_}?8QFpy~CMx&|_yQKMr93Bc-}=5O+UPDuly0^hl{59Kk)0l-h-R@vcWo
zMR6aFK2oY5$8dj3YMDvI|3;Q&CczkvDN&ZiIax|@hWFBI=U+@uoqloZ?3tNUhT~jO
z%NFvYZ15RT)e@}XKYMwqkk3mQt)QF~RmlkLsJOITly=BnEXb1KQA@>QLDAIoVoro!
z-PwFrOUs3Y1xX>V&E~hR!mI1DEa#x3`RoF`1<qc+q=<QSUQ(KMUg%fMEJ|iYrhVV3
zi9^Nq-yyq&B$Q$>O0ln^EJ|?_FWDsf0+PBUM-<xU*;Xz&F>@U1Bo}5S8|L5#(%6RW
z^A6ngE`JBwNJ_aSmlMHOJFpYGBoB5=UhE-yuuXD+toL18Q`QICd_)WM=%;=0*x#lr
z0PO+X4ei~QgcNLyipRk=$xu_Wr76_b9$vO5dW>M(hP)(_eOfl0X+>Jdsu~peyqJ>=
zcdmd-vXm~0+M?mg$fByIX@gynw33pa$?$ZhW=4>Kc+vJMWIthl!rej@rh=Bt)(7${
zNbze8kAvl4D$Iv~A0Km;|6XS>r!{qJcI#tv6IQuZcAmxjyPg%k!gubWLbqtymavy6
zFVa~_iXaLZ%PNJdS#1$2WU;(FCKp7U%`XV%bOkYw1v*)QOg8zo8?48)Wnpi*cdw9D
z1yNQc5ibkof=P;mlS%|enXyJno@4?c_-(%g+0WTqNNd0oLQ4%$f`(?g!CKQ_L7D}#
zsDf@V7KF{B-!L=af6i=<IEkE{GrVRoZ4TY&T97nR(-aW0n^j5=bfAPGQ^|r0*RFm2
zy>Ts994}^zW16VI2V?J)o;iBtt!Jch&^TUP))ou-@hjk3<Cs`OcCMsJc>Jv^X|3U2
zq}*J|@p;pHlEr1iPF7M<%1=LRT}f-HT3;rQ%Y}?6tIs9P&xXk$1<3w&4Q=)8-t5_5
z?b*Nn{f(ZZt1oSZ`qmELp4bQ_bx(2|WB`<a8sG^iAj&1_MMWtn2Co6IC|yvUuo+xN
zRu!@Vbo%B(2=J<s#TA4%-xQPqC>g<rhgKf>Rx{X5w4H+N-`7yxjy!>zhi*OlvuCSr
zVJjG0`{DXi>wEMkPwVkB8^M=#&&ze5b&h|;f0VBFj{Orsx$Zy%Bdgr|-W%SV_)m_0
zWsr==4r>dLrg+H<uMk}HlNBdGMplos`Jt_|_g$vETwyx-9r2fI?sm_!Ozt}I)TYsa
z@<yugmc$RhWLIn}cF^4PM@tF}+R-XoB@bHZs&pyCn%k<W*eq>ov~3h@#kS<JWLi(a
z1g;$uG@sSB)NPeoPt14LQsI|~ne0d{maEtmCyOdJz$&)oXjV;yvm|H1q-M%bwYfoK
zFN9o4)r2`oP$f;!3PJ{;L6h3SrtE4VNclAZ7bI247c`;4X2R*|69PCHeFC^hdBU?e
zDV&!jAWy3I&9O0XMp8evxICw1@z`5e#;8S%<;1)Q^!R47{PYy*njqPg13RIPK-q*a
z0?-BMCgm5hc`2R6q$c4qf)CG18G;ovgf!qo%VX0f2N3Lp${g^55m3P@2}>xA<uC>s
z15KL)O*c)qF;Imtui;2jDoLjaXb^fg_-uZ@U^ts&OE?sQ2+AIk?IqbL$@W2Jc$@G8
zLsEg8=wQ-ncENB%<dAMGp-QY$Xe86w1LpR$=2U*7gRAcpBAu$ghYbAOhjtHd#t&EH
zhjm9^%^la>BjD|Ne0C#vN%vf;4e#9?K3yF?UGwbT=GYNe)iJp0y;-iiQ2*d&-+^l1
zfz7@P)xHaQ<ie`^&+f=amG$Y*1|~p94M5}d&G?~e{E!}ds*aeaFEWsK&obK_7xL8+
z=k<N*LQent?i=o!XR79jZhD5Qo+0RJ(=%H2jDFe0J6-qskSFp*NVpwY51W8_&yK=_
z<aPbW8=*<vGid^iueFNAJTmR1)MRrEv;GDqXCB4m;7J{0fC@v{+zNoeySVbbQ{X{j
z8>zM#u}R2t%O)qgT-L5$6tgP0Q;P$H?7W~YN^PHlOA&9gP#!$1_4x^9L7iwSBT64!
zlL=u4Rz@h8I$J7QVr|MU(x_;MzDo~`g-#>c>`>{2H7JK^OtE8(36|0u^+PCAS2zsP
zD%mBWL0$cw+;eW3x>h;a!LYwU{t{6>0U6kM40-x)hkhOZWxVQ6nq2mrzHdUGn9<|s
zHiGAM&-t2v|El`_%8iw^H>&>q8~&v3NK&(+9;y(me!!pzDU%3fyY@{4#a7t=MNpVs
z;VLW`6AxN;BnT+s$k(~8LSuK!&}hiW&9k!*oOU9z6<fu2&DTaw(C3Hf<7RAjoza|D
z=Su|1cBB@?t=OGNBOFds#onTq6<%u+nARjGjRa{l5yt@HZMY*y?`kwaEw)?r>JaW)
z;WT1FG%dkVeP_ZBpugD8T5!9DZU!_~=xRKHTJ$=MlwB)b8i_Gz0&0adz_2o~63u|1
z(siB1K=D87y2@Nd?{Kf7t4zW<Qyy!P9YGZmE>p4t-_GWRorkoS%CT4T4I-2v?rw(K
zB$AsD%JwO8>=4R6s${-U0{Q|qlnXAEuebUFYAX>Wz*13>GQhxC06NHva8QxVX#XHU
zz}uxP1nUCCy``L#*VHD-mWr6LHt=^gpOH&g5}LdPV}g)N5LJpRss!&X4atPx@DNdJ
z;M8Hw$h5b;z7e9+!<0g{N+J8A#33_$Cm?30aW)NO6%t@6Pmqidm_lMBWgIf2>#C^a
zf#8)SyjcWE$Vnm4pd2FELCB1r=6KrsH3B=U4MuvHB$e-git?cj@bRc{U>-hH2f)Dr
zLma4Y|7P?^HF{*#S93>o_aLRoS2lvvx@Wr9)3@q^>b2Qly#B%KRrkJH?C9FmFQz}3
zUQbqIM>k@}R;TNuC=g#;(*2{lW3)bkMxNOmK35$+r+Wr#{$bs}e=8#BPfY&Sr%#^K
z2hVRrF6e;^TLYt;1Ba^vhxKP(*%*MXVs+N$jcy5h_0c1rBsYXJH@!fj@xfn(KihM(
zIymvk^hWIE)#<I!?zI&?Ir&-W`C5GNrfVw@x#jzrug)?(-(~KG2RFm}s^NV=u-!qR
z^47Ti^<@-=hwcM6N4FxwwMcC34L!DheMUcaUZ1$2hc7}9uq$|XS8v_Mc1QnH=Rojl
zm3Zy%p7KmN(Wg%5RD%077@QjBJ{`6}`2pA@kV#>a>^Sf+T7uQxnJSDGSJNn+0wpji
zQx*uLKFEd-5@~{=n+<0vN-)%vr~xr)mEbI4L^E&-b)b&&o(?wBLGC@!qzaIMS-4Pa
zV6%U++CQm3e{rLKw(97G@aXNDKc+ikCV}*UWTJ=KxZz4$2AnoL>GazrQ6{L8PMa>q
z<7`GVI5?&%WR*;(Ayi}d(`hjezykqsA+JK5>83N!NpQTy$_NoAK(3HLM<Mrurmr1=
zl3~+IML2cwbA^IT*GHLx>fa!9c;wKi5CEqcab<NcY|4A6_Wa3fXI8bFQ)|7qhi>Eb
z$?BeC`p~gz^tc{AUiCk_!JoWq3)ESsZRB>Qj^ObLM<0I((T9HF)%&D&n?v?)Dprq>
zk_#Q4xaZt!d!D%)h}CVR0H;m=?s^w3f};)H9<N3Z)~O7LyQ25qq^Y5ZN?l~AQon7y
z78mLqJnuTax^J-R9J+6Vw}vc~>O)jAW=qrt57jw%-gWv`H9fqy>K|PPze`q~<M(Y)
z-}nYf_2cv#n=MYifoGd`c%zc{SSXomNS4ot%r1(6#<Oty1Sgm&3qi{-lFNr=+vP(N
zfYiEtAmt{CC9fPvs#Hl@HMO+bjKKMW#hFY-ZYiF6EXBox#U%XFdC<|OHu%c4b*E_F
z3SB->e(tdp%em%R-qc`NI;YRK27BWF(wQr^4b?l7eWz{u#~w>#9=>hU<(n?aTDCR3
z<Bz2*M?P-T7CJXS-?(;bseHT{7n&N{^oCymddAX8DW6$vDSo_t$5cgnj_7EqPV`gO
zHvE}_EW^z<L6xL9m!Y_0*dbgYyi73DgcQQzM)KP)(i|N1>CF|zA!Gly|MJQK6Uj(4
zYPjil=8;+<7cWK+ttn|)SxwHD@|iR((x9RtooTyo+C`<!ns&FN0lm>jTfymw6Vm&r
zY+jQTxB`^ul@!Hn8mgE8Nn!RCvL=Hhqt|VY<L1rebIKb~N7zh-fApX_$1u#c1CG0&
zqv5}xC#&emuXv7Ozj8qK52zph9F2X!1wQBZe9j+%zb~BOo8Q}T?!IRK%3frc_&r4O
zdY(f}XcLW8(MXMt)%dfJ18XyE-P6_(sqtrOeB|MV-WvZxjqmN)aH?ZNsK%eD@u7#m
e2-o<NH9q`sL$t<&s_4TFeRNcP{~*JqEB0TQTteCa

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/__pycache__/utils.cpython-312.pyc b/distributed/kv_transfer/kv_connector/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..34c825aa20bbd9873c0a4224ca6977433e1e94d6
GIT binary patch
literal 11293
zcmd5iTW}lKb-UQb`$+;M!Iuc}ArTY_iZW$Ov?5ueWLc(6KNM?h=COvbOA#a<^zK3y
zX`o>;N=h|OLv@mhOx%k0c&2panW&EswLeW~I@3<`gC(2+vZbf;#O*XQ?F<wulT3cv
zbM9gRkX|Wv`_ntX#l7dAd+yzP&wKF`x7$HMNwD9J9}QE~&#|KySEaH2w=_lFq<CtI
z;%VNLpp&L4Q<9ltXzViyc8Vpx=A>oHLSSsdnzT*XN!y%oB%M>vq-)AW`j&({>6!A7
zwl(2R`lfuOZA&yH8>bqR{wY6A2`143H0_B%vT3S`rc9LJ6Pj<sKCn!+n5eT9@3=<s
z&fBI6EXcdAQB$pC#0?{!>PQ>!721W4RzT!^)mDSR&W>qw>uX`pq80EOA35q5x?udN
z`gvO07&>jjwWl3?;2Jx%mv0ifg*}hL<ePsdhS3wX2n-)2PwD5GX&2uLtMx1};kLyN
z$Hc`@EE<~;LNh{QUJygmX)z?pX;Fwcet}yLn^gA~Uwz>WH~!3-@riSjXI1O@xGad#
z#AKLOom?yf*hwxuF9D|GVj__oPp78im(`Zbf()agD5PZW3c$G-8Gu=h6Bhv~CB$Hz
zr=wUeAgy>RE^~?W<;#Kyv>NJ=p3lhh8Ch+3F3k&xmohL_)Ic!JTZeZlDhV;|z_q%<
z1Jw4npnsDRs3{t_)x^^RGi~Bca1Jcb2<BOxqwD6*dg?lrCd^@Bj*T}1N7+B;Obg6(
zELg)fwKa*)!A0MQiUK!x1rLwYj$gHChZNH{jtgU(f$#R)P~D`m^ep`DF0=JBDuY>y
zs|W@~$*ewO)}ps+zb*=Js~E5X5&qgZwu}x5W`R&>Wr2F1o`k1!X-}s;i0X|?94`p-
zk|4}+$wX9Th13;E^<6xF{yFZs^C!8}=PsN)b^eU%%t!(vz-h>;cRmUnmViU5kO{~_
zN=l1d6)wdW1=T9gbJzfOVI?6kEqY-q5}rgT^xKQWa&mrnK0ZGrM@3-9p{toEjvkqN
zLKsfOFAdKx$TR8GFf!&aAD3h?ekmgh{4iXHEJjn(v>;*|me=@nI3vdsQe=KXwQ(Hb
zRBo~Rq4yZkaZu_c)Fw+*sjIKpbx7$tRO~vXbe&peKeTmhb@ddxMwPD7eETQ@f~A(u
zV#|=yGE{6irL+LjcU;>rn^Jw+TEbN!mXV{E62cA^F#`%=k$)x{`LnY~&XlF$606K3
zSFbZ`nziA|J4==_VvR*7Md>;?$G}VjdCIW>H;}2E8EE=;u7W-B0Kgj!;9Wo`@M$<e
zn?DU*1W*nv2JDK-TBc1GfYA+C3mdN{bpqYsr|CXwHGL(yU7wc)UBgqi@rIz}ELqEv
zr|zWLta%Y`pn8H9okEzI`~^y|YMT+FJjchAVUKDioIqGz+=GKmJSD6CR3^#I2@Bkn
zXd)wkI*Ia<h}@?-XW~3Bq==wsXi*uYNsgye6*NDfiFkOb3s^pp7NZ=9z?|xPeU1~;
z^BOf=oj_7MAXbnppeKf{VjGgd9f^2tsvUQv?V}HY`v{Oc2+FL4oEFlGh$p3b&|*|X
zO1vyB_CH*_c4Fe1(tkk(Le{chm!DCkWpvq93LQkj>f8#nth$Q9BTDed-O;~0_BY3r
z;MqdpnPq#axx3gLQJN#m&eEQN;-2Hmp5u92d%2l%`HIf2O=s8o>0<BbX76Yz*jo&a
zD8Z3C=Zm8+D)0%uxO}b@Y+XKA_EEmp)o|Y1lehJhy_Bc1=-#{O-n-FT92nai7$Z{;
zE5XBeUBx3WEAR=v46|HyvmV%~*3i0ZWA<)uA$S7ldV_gyXse@Z-I*UgrG!ouI>uM*
z_q;)U8L<<dI965K(5Y&He}@hj3d+b(h>rujD(`?;DdGTV4WzKE@O0LcWvaZ(ekLq)
z7I>OS8~BCDg`bTw&wNJQD*Z4!`HTOCBH|N?A*jNPSmS4_C`dEWc_C~e+^O17rK7te
z9zgs-s8l;j4FRf7O?XI0LNi&<o(;%!Fn?MEe}|wf9(Xi|?m$K(Abk@mU{a@dH)n;4
z!G0y!ztOny>Ro#wcna>nt-IJZptKEa9NJj88!oh+UY;o1kYNtwy?uFGU)fBx?p<$K
za~6XKl;DAlQ+Molj~0Sw$kg?bwFAYrA*F3-<I<h*-B$~3XO|~{rS!=f^VnfKdO?d%
zOvt-Xe;zL*X9tF=XTu6b@izcB@HNE$%(6zN#mKN2V{%ohpoY=p?<zc9Ri%!sgNFd+
zo1lKPb|c0AO_Sz?=bSpGF&@&WV7g>vFj5Q+k#n|1AFusp%|>QK-)GkKznEjrTC&!x
zt&K81B_ks|i#mE&`5d!5c1?xu?aE!y)B=??Yr+n{GzxOglXKUd6{_i71@6!2tlW=0
zE5>k+=aF;VS<nB6)A}4|9oltN(7j!8$ndPeH6ZGaD86um*bU>FPf*i-cJzrku+Ayf
zhMqNPv81+2uV(~dQ4sgTJe7e6L=Awi8;i<ZG{tM`jkxP3IjvfF;YvIvs2*K=a=g4S
zFMuaJ$4RkhLQq>OdbV!zbRsIv0Lm2&CG4&F2Pz9HS5hrR+e)fA5nT{OaRhhbk`iff
z0;2Qt@ziD2E`jSVbMt9QwF<B;XlTBLcaDp3skE3Bc-RAM#ZdzQb%2P6@IW4eN<s~x
zDe`KqIUHUHDp8}$>54uNKU|;hLLEoKbKsjTQQ#>A`*%7W_dccId;0(E#5*U7Jx?k<
zPcEPN?(^55|IigG?diUiSW9e-{4l-ze5tkn&l~cCXEzeX$XO+F7Ml6+S*7)v<!4L&
z?srGl6UBWe6#Sgb_ncJxr<PA|xx7VJuj1-0`Py!}Z@5=yZl%}K1z)7(3*5Bcu&&x}
zdDpxJUw_FLEcrTCUtNDA?;9@pnr?b;c#FPX#n)T(J*M~`+XWg@d_%u-Tiu>=BegHG
z5q;-Nclz&+{KbKlH<!<mHTNs7{rVbq&2kld;gYZUru~L}6%5ay(l%J|4V8SYC13mJ
zUD{|j4R*JO*sRI06C<!xG%0YL>fq2}%p|bw;<(o{(S$Z4qFNGBU#VuuFT`e4Q!1re
zo+HTO5Dt!FH38N86roIbLc|D#ROs|e$Dz7Ll}(I!oL*hrrtr7yXfyY2WPWt@{i{Fv
z+WTMIrl9-FBUbaia$}#_bFZ!IR{vW6t>Lxd2WIGNq>*Y2zSV-37Qfqn3Dr$XuEy!N
zD=0a1-wfQe9G#`VenPG~YDN||TeE*A(6IGZzCt})3pOAy`Z_px7bv+J^Ut~~Xmvj|
zn+n>;1lniu#JC<COCdfTN~PtHG%v*B(+i<!XzofStpu{2&d7ryUYL$%5;912NKS_)
zpE(^-8K@y_z&Jo{L@}(y-IbVML~W<~(d(*4;am)~ilnw9P!wLz#6?s9SBN*pX-laV
zErq1o<EiO12Rcm%v*6j)GEm_0k-#3aRPK7x66!HSq7wQys68~r(OGc?>n5X9S=oX3
zRY0DDuk;#JOVk4k<sT?C9$1<HVJP|{iZ8Nsu4MJ)tsPszfnxBu5<Gr)p%6T`>@IZ=
z7rQ5v?umbzD0IJ)w{?}A-FauE<R8ep2DWUTqAjRElEC%c1IA=`lr5C2LG$Ebp=!~?
z_U+dIRG;*kVtA9lLK2ICRFqk;@GNiUEdXJ8>or#AyeX@l;@!MWunBhFj!93n<-9{+
zd8ZDUwm?$V4CyR81f-D8)3R|VFJBgg%TbWGMfqh&m&E0T5V<hC@@QpH2+5Fb1fBqm
z8cI)xAk7ncBQ4Geq7;Ha77#-ca7jXN;CWZ@Vrj@DO7rOyUtyq^AU+Kp)UuUu@~8sD
zh}t4t1rCHX4mS-c8VTUQI+>KbBUge~Nks1(<albLCs)O-mMqg;KK*DQQ-U)|`JD4`
zRZ>X4r7FG)l-K~^utjD0cuZCq$V7=f08yKO!DCmTN=D&XQkS(S0kDLYa5p%}J>=2D
zCe7|ffo3H$rYSnqjf?G{zPf7a>T5UyttjE(eFGo#d?0P~zw^~X-(ifXySMtnyFsP?
z6U*#RZGD6%ReM!DM9c@N4!Gt7Px274>M_DV^+Fzp&P_;nW--TE)rbJB6#W{m(vpd$
zvL@YozEC+t$Sk8^?!5ajqcX9CB+dX4F%Ff4Yga|tqlI(2DqGxZa3VWVzJ)X}VX;Jg
z>}^~*TJ#Sq{^5duWYd4*&Q!tsRNnTKb^un5d!<R$skOAUibWLUjF{SS1}L+*uk9tM
zf1ku(SrRx)^a8w0kzq(HH6|reNs*TlrW(W6#^q|1q%kqiJd_H{Q`5F(YMO?`wkyXN
zu{N%zpMQ@1ofu{w(p+^|)xGSXW6jd1sTKMw;GyMgS=*B7S?U{f)@BqPLX>Hj=(k!R
zI;+|#{Y*eRS>{f|^}cL8dfhO0J@*96I3`z9lCvm?y9#eLo@>00o+JU@G~DHNsusBd
zmotEcnX+94Ry0a)vNh_Jxd!P@m}``*G}q=r>d_7B8pMG)OX^AEk*jphAr8SzChGvK
zei<`Qq+~5}SGDcX<xzjZCTaI+ncb`7)PA#7Y)FS%VO<Phc9lgqhn#hVeyfoMjiAW`
z#OY3rPvkxwJ<Dnu0b+b}wPmTc9&(2t*lt(UaMoG(?!$S33fm`D$Q-@S#d!#ecBxv(
zgMyxRRh5h+$l^TgWQRB-VT{AJ{}ih4)0m5^YzG+rE93B3jIoN#GS|&UZl8XnkVR*C
z(;|of90+p^sN*kD1<YJOC?@)?gW&R2?F%4O3gqxADizoh=6r#A>kNy5Bs(d-1UPlk
zBxp>~qvB<Ns!WvUA$ukwhJ+O=5fxMzo{s9>bvVS<)G}vFn!DuB%=1xMs3~SRv&EwZ
zini(_M2;oW5LimbBL-9d2zDR|Q2hpiF9+4${ez+Pmwqs`Vkvb$UhE!Iy2na^w$;<c
zj-yJ)(QU@m)41XVSLxu1A2%q&r}Dnu^^1ycu;kyrVFAT`XQbdCEd@fwK(7*jp$`Lt
zrQqPkMI|_T-%GXkYYsfR28##JRNRY@e)}Qx7X?X{LfSt05Za1RACDeSA0IZWJ{^_V
zZLs5Y5H#=zLFcz>D>;aHWl3#_ryx9z^V}ski8<s%5lwj54=w`S4G(QGhE)$#s(%Ls
z&Daopa*5(Ah-2o3OPR~!n>cA2t1MP{j$#ff)e#533l;~5S!GFlZ?E2m_<M+kiZ|@i
z{D~9-(pW8GMW`Y{wX-@2J@ehqMF^>WEzTCnn_N!YF7e7MJ16_GXdMZChu6Sf>qT>4
zt^sth<54{H2Y?~{7I+@n#6tO6R^Ht7_LTfBWt+=>c&jP+w*ST}>+B7#%s~H>?tSk`
zAB?YGeJ4^jLm!;>_C0UM*80m<=t1Ju)A%bp!aJyruD7MNBR?F=+k#twqqj@_gOHVl
zg#CNW+A}|VHg9X)>H)XCtK{F8_aDl;4nbWC9w-J+D45^>nZE<Vav<E$R`iW1zL7g8
zH+_dofzD#!uo5_YH&8r!Q8{{XGjQ<}h^t*UT&2L%r9iM47*PTvRkR0IwxJP(U}UU#
z@I~d|i!1DhzM+p{QD1A(H=y_iHcl4@pH>E+&Oh@C#0+lFeGBCdJ#-W(`G)e|(R&Av
z77w0R-~&PY{)5H+<I4W=d;@%Xpf33j=KV)Xqff(5K56eO1rPtVoIf^Mc;b0jqNBM?
znVPVImW^tCTzlaBQ!f>Q7s?FPbO@mCJ?pK-y~h;zxQ=bQI?FH8RPTZEMVe}CU2Rty
z`j##CyiIxU-n?xu)LVUzmpX?wI}hIpRDZjUZFZghF<aU*T<YyF_MTLFPd;#3_Boa<
z;G5$6nC4|Sk=-z@<;a}kdEf}~Ijkn3Qmq`vr(+yPL`cgOI7zsY6yV)3FD4O*P2kI6
zCr(0^(^MteKaCAv!xmO3021oPYt(%cZ9ZJKn9WbocbIJof6E@q(ohEYNjks(NSVUM
zk7K_izuQc83{GZ(K2P6gUZBm*rIz-5$Iu;C>3}y`hszr5^jWQO&)&BBMa91Nff-RX
z9fjLa-I5rq=?vA)OLAS;fuogdo&$%pwr0Rsn6DQ!AmE8o+wVeEpPw)?PT;Sb@X@tm
z^e*57TK7QeeMduDV46NNt=elK(<B5sUw{pOnnT?MZ-Ji2o<;lLfNF-&^6^nHWN!gf
z{0>%sh}Cxy$%&^DhuAVENU9T$rP8TcvP$6J3aQCCfkS*ulh&b%e+-m9g0J)>R1h+`
zD1Y$g;Elo6+?}a^$o%7*fB)u(jTe?Cwi;Uupe1MXsx$BG$+JCL=s>O!)hFf^B<&h&
zT{{nnj~Kqeg?~OUGlzJU;SbHk>a9LzRmcUdf(AtYL+s4bVtdvkwq_ZzrRJK~!l*h}
z)mI=+GQB{{NQ;zO>Io85xXP}g2MM~jq5m2>^=3o5^#7TzMMjAw1>as~;Z?~8rrQ+;
z|1uc!oHb|T8J<m8lGYsj9}T=JGx|>=I>!e8M#wo*E*LRz*K>|61wI|T#sJrp$~w^(
z%elbA(pqkC)*V?_){U=f^c~RDTdm-G(P7JCcsxD7fax+~=cUjkL4HFJQXxJ*4Szv_
z*Yu%F8Ei?B$uMigy_#~PRiFM}tNBD!hJSG-#UH><!VZ;52q~3K30Gy6#eZ&z;{YeJ
zLU>m7U}`L)&yvJHfnl`;Tmb=6@7k^~LtfDuEz%p&c{JH|Lo;bf4tvC#NOu*hnvktw
zw<>Ak_ptkYtjH?X7(6^Tol+g-6#&WVszgUs#FpqNtu1+An(hN=znXXHAw)npw7rTO
zfcGEpm3{)%5_P|ka<~1=+o657oSx-e!P)tqfBh?ky^n1=AG>GseA3YLJ%05I#r9#P
zeYns*QfNL@Xn3sHFs3w&Ej_#S$k9)_j+B~v@Z;}<&jY(TWKr0TrHPgHUwJ6=!FyKU
z%9%}TYpJoj*f^#%j$OCj)0@lIe`)Snc9fdB*T<BmNPX*PHt&jK_1O*QoiF{=cJjWJ
zYU$OCS+95<9t-r^0=^*;Q7lE|YfatR$z9?<ti%AKvDg<;FNkB<Cuz_K_?nRW)KcUq
z!RiQ^R`)lk2pp%Lj>UG>JB>_h|JT!!vl=-q-zs97S@jZ1S4JWg=Z*M`#C)oe&%Ved
z_#Yq18EGaP-B&F!kC|0sZpCk7s|PF8`otfGOn+t`UPf8INd7BExLfm)ktKFnZq;^7
zdvkDH{3{s6&`9cny3EitecxiD*<afzdf?}j>))v0M^w+hQcr$Fy+9gIea!eiVkbYg
z2UcDw*!L`1er<Vyrakv5tbaLea?=gJ4skTyd>{UQM>m&GGd8*x{LWS8#?dmi?^W7n
zXoF|kK-{}kN%3`;tq202unuHLkb|-~mk)pU*!5$pO}9GMI`Ymw#k_CZiDS*Z^eLLq
zUw!%3m)E|W4~7;0K$$@>S!xH^j9^$b5G4DtlCDkf+DR9@z?PM);_WRvN#8|T91q;s
HBuw}}mpTaL

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/base.py b/distributed/kv_transfer/kv_connector/base.py
new file mode 100644
index 0000000..011bbb6
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/base.py
@@ -0,0 +1,10 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Defines the base type for KV cache connectors."""
+
+from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
+
+KVConnectorBase = KVConnectorBase_V1
+KVConnectorBaseType = KVConnectorBase_V1
+
+__all__ = ["KVConnectorBase", "KVConnectorBaseType"]
diff --git a/distributed/kv_transfer/kv_connector/factory.py b/distributed/kv_transfer/kv_connector/factory.py
new file mode 100644
index 0000000..df871dd
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/factory.py
@@ -0,0 +1,192 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Optional, cast
+
+from vllm.distributed.kv_transfer.kv_connector.base import (
+    KVConnectorBase,
+    KVConnectorBaseType,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorRole,
+    supports_hma,
+)
+from vllm.logger import init_logger
+from vllm.utils.func_utils import supports_kw
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.config.kv_transfer import KVTransferConfig
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+
+logger = init_logger(__name__)
+
+
+class KVConnectorFactory:
+    _registry: dict[str, Callable[[], type[KVConnectorBase]]] = {}
+
+    @classmethod
+    def register_connector(cls, name: str, module_path: str, class_name: str) -> None:
+        """Register a connector with a lazy-loading module and class name."""
+        if name in cls._registry:
+            raise ValueError(f"Connector '{name}' is already registered.")
+
+        def loader() -> type[KVConnectorBase]:
+            module = importlib.import_module(module_path)
+            return getattr(module, class_name)
+
+        cls._registry[name] = loader
+
+    @classmethod
+    def create_connector(
+        cls,
+        config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ) -> KVConnectorBase:
+        kv_transfer_config = config.kv_transfer_config
+        if kv_transfer_config is None:
+            raise ValueError("kv_transfer_config must be set to create a connector")
+        connector_cls, compat_sig = cls._get_connector_class_with_compat(
+            kv_transfer_config
+        )
+
+        # check if the connector supports HMA
+        hma_enabled = not config.scheduler_config.disable_hybrid_kv_cache_manager
+        if hma_enabled and not supports_hma(connector_cls):
+            raise ValueError(
+                f"Connector {connector_cls.__name__} does not support HMA but "
+                f"HMA is enabled. Please set `--disable-hybrid-kv-cache-manager`."
+            )
+
+        logger.info(
+            "Creating v1 connector with name: %s and engine_id: %s",
+            connector_cls.__name__,
+            kv_transfer_config.engine_id,
+        )
+        # NOTE(Kuntai): v1 connector is explicitly separated into two roles.
+        # Scheduler connector:
+        # - Co-locate with scheduler process
+        # - Should only be used inside the Scheduler class
+        # Worker connector:
+        # - Co-locate with worker process
+        # - Should only be used inside the forward context & attention layer
+        # We build separately to enforce strict separation
+        if compat_sig:
+            # Old signature: __init__(self, vllm_config, role)
+            return connector_cls(config, role)
+        else:
+            # New signature: __init__(self, vllm_config, role, kv_cache_config)
+            return connector_cls(config, role, kv_cache_config)
+
+    @classmethod
+    def get_connector_class_by_name(
+        cls, connector_name: str
+    ) -> type[KVConnectorBaseType]:
+        """Get a registered connector class by name.
+
+        Raises ValueError if the connector is not registered.
+
+        Args:
+            connector_name: Name of the registered connector.
+
+        Returns:
+            The connector class.
+        """
+        if connector_name not in cls._registry:
+            raise ValueError(f"Connector '{connector_name}' is not registered.")
+        return cls._registry[connector_name]()
+
+    @classmethod
+    def _get_connector_class_with_compat(
+        cls, kv_transfer_config: "KVTransferConfig"
+    ) -> tuple[type[KVConnectorBaseType], bool]:
+        connector_name = kv_transfer_config.kv_connector
+        if connector_name is None:
+            raise ValueError("Connector name is not set in KVTransferConfig")
+        compat_sig = False
+        if connector_name in cls._registry:
+            connector_cls = cls._registry[connector_name]()
+        else:
+            connector_module_path = kv_transfer_config.kv_connector_module_path
+            if connector_module_path is None:
+                raise ValueError(f"Unsupported connector type: {connector_name}")
+            connector_module = importlib.import_module(connector_module_path)
+            try:
+                connector_cls = getattr(connector_module, connector_name)
+            except AttributeError as e:
+                raise AttributeError(
+                    f"Class {connector_name} not found in {connector_module_path}"
+                ) from e
+            connector_cls = cast(type[KVConnectorBaseType], connector_cls)
+            if not supports_kw(connector_cls, "kv_cache_config"):
+                compat_sig = True
+                logger.warning(
+                    "Connector %s uses deprecated signature with 2 required arguments. "
+                    "Please update to include kv_cache_config as the second argument.",
+                    connector_cls.__name__,
+                )
+        return connector_cls, compat_sig
+
+    @classmethod
+    def get_connector_class(
+        cls, kv_transfer_config: "KVTransferConfig"
+    ) -> type[KVConnectorBaseType]:
+        """Get the connector class by name."""
+        connector_cls, _ = cls._get_connector_class_with_compat(kv_transfer_config)
+        return connector_cls
+
+
+# Register various connectors here.
+# The registration should not be done in each individual file, as we want to
+# only load the files corresponding to the current connector.
+
+KVConnectorFactory.register_connector(
+    "SharedStorageConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.shared_storage_connector",
+    "SharedStorageConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "P2pNcclConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.p2p.p2p_nccl_connector",
+    "P2pNcclConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "LMCacheConnectorV1",
+    "vllm.distributed.kv_transfer.kv_connector.v1.lmcache_connector",
+    "LMCacheConnectorV1",
+)
+
+KVConnectorFactory.register_connector(
+    "LMCacheMPConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.lmcache_mp_connector",
+    "LMCacheMPConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "NixlConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector",
+    "NixlConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "MultiConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.multi_connector",
+    "MultiConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "OffloadingConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.offloading_connector",
+    "OffloadingConnector",
+)
+
+KVConnectorFactory.register_connector(
+    "DecodeBenchConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.decode_bench_connector",
+    "DecodeBenchConnector",
+)
diff --git a/distributed/kv_transfer/kv_connector/utils.py b/distributed/kv_transfer/kv_connector/utils.py
new file mode 100644
index 0000000..b8eb5ea
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/utils.py
@@ -0,0 +1,268 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+KV cache helper for store.
+"""
+
+from typing import TYPE_CHECKING, Literal
+
+import torch
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.logger import init_logger
+from vllm.v1.outputs import KVConnectorOutput, ModelRunnerOutput
+
+if TYPE_CHECKING:
+    from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBase
+
+logger = init_logger(__name__)
+
+
+class model_aware_kv_ops_helper:
+    def __init__(self, config: VllmConfig):
+        self.is_deepseek_mla = config.model_config.is_deepseek_mla
+        self.use_mla_opt = not envs.VLLM_MLA_DISABLE
+        self.tp_size = config.parallel_config.tensor_parallel_size
+
+    def get_model_args(self, model_executable: torch.nn.Module):
+        model_config = model_executable.model.config
+        self.model_executable = model_executable
+        num_heads = int(model_config.num_key_value_heads / self.tp_size)
+        hidden_size = model_config.hidden_size
+        num_attention_heads = model_config.num_attention_heads
+
+        # Deepseek's MLA (Multi-head Latent Attention) uses two different
+        # kv_cache shapes based on whether VLLM_MLA_DISABLE is set to 0.
+        # When VLLM_MLA_DISABLE=0 (default), forward absorb is applied,
+        # resulting in a kv_cache shape of [num_blks, blk_size, 1,
+        # kv_lora_rank + qk_rope_head_dim].
+        # When VLLM_MLA_DISABLE=1, standard FA is used instead, leading
+        # to a kv_cache shape of [2, num_blks, blk_size,
+        # num_key_value_heads / tp, qk_nope_head_dim + qk_rope_head_dim].
+        # For more details, see vllm/v1/attention/backends/mla/common.py.
+        if self.is_deepseek_mla and self.use_mla_opt:
+            head_size = model_config.kv_lora_rank + model_config.qk_rope_head_dim
+            num_heads = 1
+        elif self.is_deepseek_mla and not self.use_mla_opt:
+            head_size = model_config.qk_nope_head_dim + model_config.qk_rope_head_dim
+        else:
+            head_size = getattr(model_config, "head_dim", None)
+            if head_size is None:
+                head_size = int(hidden_size // num_attention_heads)
+
+        return num_heads, head_size
+
+    def get_kv_from_cache(self, kv_cache, num_heads, head_size):
+        if self.is_deepseek_mla and self.use_mla_opt:
+            key_cache = kv_cache.reshape(-1, num_heads, head_size)
+            value_cache = kv_cache.reshape(-1, num_heads, head_size)
+        else:
+            key_cache = kv_cache[0].reshape(-1, num_heads, head_size)
+            value_cache = kv_cache[1].reshape(-1, num_heads, head_size)
+        return key_cache, value_cache
+
+    def put_kv_to_cache(
+        self,
+        model_executable: torch.nn.Module,
+        keys,
+        values,
+        layer,
+        kv_cache,
+        slot_mapping,
+        start_pos,
+        end_pos,
+    ):
+        model_config = model_executable.model.config
+
+        if self.is_deepseek_mla and self.use_mla_opt:
+            layer.self_attn.attn = layer.self_attn.mla_attn
+            k_c_normed_k_pe = keys.squeeze(1)
+            k_c_normed = k_c_normed_k_pe[:, : model_config.kv_lora_rank]
+            k_pe = k_c_normed_k_pe[:, model_config.kv_lora_rank :]
+            ops.concat_and_cache_mla(
+                k_c_normed.to(kv_cache.device),
+                k_pe.to(kv_cache.device),
+                kv_cache,
+                slot_mapping[start_pos:end_pos],
+                layer.self_attn.attn.kv_cache_dtype,
+                layer.self_attn.attn._k_scale,
+            )
+        else:
+            key_cache, value_cache = kv_cache[0], kv_cache[1]
+            ops.reshape_and_cache_flash(
+                keys.to(key_cache.device),
+                values.to(value_cache.device),
+                key_cache,
+                value_cache,
+                slot_mapping[start_pos:end_pos],
+                layer.self_attn.attn.kv_cache_dtype,
+                layer.self_attn.attn._k_scale,
+                layer.self_attn.attn._v_scale,
+            )
+
+
+def get_kv_connector_cache_layout():
+    # NOTE (NickLucche) When running disaggregated PD with NIXL, HND layout is
+    # used for faster transfer.
+    vllm_config = get_current_vllm_config()
+    kv_config = vllm_config.kv_transfer_config
+    if kv_config is not None:
+        connector_cls = KVConnectorFactory.get_connector_class(kv_config)
+        required_kvcache_layout = connector_cls.get_required_kvcache_layout(vllm_config)
+        if required_kvcache_layout is not None:
+            return required_kvcache_layout
+        logger.info_once(
+            "Connectors do not specify a kv cache layout, defaulting to NHD."
+        )
+    return "NHD"
+
+
+class KVOutputAggregator:
+    """Utility class to aggregate the output of all workers into a single
+    output corresponding to Rank 0 for scheduler."""
+
+    def __init__(self, expected_finished_count: int):
+        # Complete transfer tracker. Used to track finished requests
+        # [req_id -> n_remaining_workers]
+        self._recv_remaining_count = dict[str, int]()
+        self._send_remaining_count = dict[str, int]()
+        self._expected_finished_count = expected_finished_count
+
+    @classmethod
+    def from_connector(cls, connector: "KVConnectorBase", world_size: int):
+        return cls(connector.get_finished_count() or world_size)
+
+    def aggregate(
+        self, outputs: list[ModelRunnerOutput | None], output_rank: int = 0
+    ) -> ModelRunnerOutput | None:
+        if not outputs[output_rank]:
+            return None
+
+        # Aggregate kv_connector_output from all workers
+
+        def update_finished_set(
+            req_ids: set[str] | None,
+            remaining_count_dict: dict[str, int],
+            finished_set: set[str],
+        ) -> None:
+            for req_id in req_ids or ():
+                remaining_count = remaining_count_dict.get(
+                    req_id, self._expected_finished_count
+                )
+                remaining_count_dict[req_id] = remaining_count - 1
+                if remaining_count_dict[req_id] == 0:
+                    finished_set.add(req_id)
+                    del remaining_count_dict[req_id]
+
+        finished_sending = set[str]()
+        finished_recving = set[str]()
+        aggregated_kv_connector_stats = None
+        invalid_block_ids = set[int]()
+        for model_runner_output in outputs:
+            assert model_runner_output is not None
+            kv_output = model_runner_output.kv_connector_output
+            if not kv_output:
+                continue
+            # Allow the worker to dynamically update the expected number of
+            # finished sending/recving for new requests.
+            if (
+                kv_output.expected_finished_count > 0
+                and kv_output.expected_finished_count != self._expected_finished_count
+            ):
+                logger.debug(
+                    "Expected finished requests updated from %d to %d",
+                    self._expected_finished_count,
+                    kv_output.expected_finished_count,
+                )
+                self._expected_finished_count = kv_output.expected_finished_count
+
+            update_finished_set(
+                kv_output.finished_sending, self._send_remaining_count, finished_sending
+            )
+            update_finished_set(
+                kv_output.finished_recving, self._recv_remaining_count, finished_recving
+            )
+
+            # Aggregate kv_connector_stats from all workers.
+            if aggregated_kv_connector_stats is None:
+                # Use the first worker's kv_connector_stats as accumulator.
+                aggregated_kv_connector_stats = kv_output.kv_connector_stats
+            elif kv_connector_stats := kv_output.kv_connector_stats:
+                if aggregated_kv_connector_stats is None:
+                    aggregated_kv_connector_stats = kv_connector_stats
+                else:
+                    assert isinstance(
+                        aggregated_kv_connector_stats, type(kv_connector_stats)
+                    )
+                    aggregated_kv_connector_stats = (
+                        aggregated_kv_connector_stats.aggregate(kv_connector_stats)
+                    )
+
+            invalid_block_ids |= kv_output.invalid_block_ids
+
+        # select output of the worker specified by output_rank
+        output = outputs[output_rank]
+
+        assert output is not None
+        output.kv_connector_output = KVConnectorOutput(
+            finished_sending=finished_sending or None,
+            finished_recving=finished_recving or None,
+            kv_connector_stats=aggregated_kv_connector_stats or None,
+            invalid_block_ids=invalid_block_ids,
+            expected_finished_count=self._expected_finished_count,
+        )
+
+        return output
+
+
+def _make_src_and_dst_indices(
+    src_block_ids: list[int],
+    dst_block_ids: list[int],
+    src_device: torch.device | str,
+    dst_device: torch.device | str,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    src_indices = torch.tensor(src_block_ids, device=src_device, dtype=torch.int64)
+    dst_indices = torch.tensor(dst_block_ids, device=dst_device, dtype=torch.int64)
+    return src_indices, dst_indices
+
+
+def copy_kv_blocks(
+    src_kv_caches: dict[str, torch.Tensor],
+    dst_kv_caches: dict[str, torch.Tensor],
+    src_block_ids: list[int],
+    dst_block_ids: list[int],
+    direction: Literal["h2d", "d2h"],
+) -> None:
+    """Copy kv blocks between different buffers."""
+    if (
+        not src_kv_caches
+        or not dst_kv_caches
+        or not src_block_ids
+        or not dst_block_ids
+        or len(src_block_ids) != len(dst_block_ids)
+    ):
+        return
+
+    src_device = next(iter(src_kv_caches.values())).device
+    dst_device = next(iter(dst_kv_caches.values())).device
+
+    src_indices, dst_indices = _make_src_and_dst_indices(
+        src_block_ids=src_block_ids,
+        dst_block_ids=dst_block_ids,
+        src_device=src_device,
+        dst_device=dst_device,
+    )
+
+    from vllm.platforms import current_platform
+
+    if direction == "h2d":
+        copy_fn = current_platform.insert_blocks_to_device
+    else:
+        copy_fn = current_platform.swap_out_blocks_to_host
+    for layer_name in src_kv_caches:
+        src_tensor = src_kv_caches[layer_name]
+        dst_tensor = dst_kv_caches[layer_name]
+        copy_fn(src_tensor, dst_tensor, src_indices, dst_indices)
diff --git a/distributed/kv_transfer/kv_connector/v1/__init__.py b/distributed/kv_transfer/kv_connector/v1/__init__.py
new file mode 100644
index 0000000..0e16bc5
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/__init__.py
@@ -0,0 +1,19 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+    SupportsHMA,
+    supports_hma,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.decode_bench_connector import (  # noqa E:501
+    DecodeBenchConnector,
+)
+
+__all__ = [
+    "KVConnectorRole",
+    "KVConnectorBase_V1",
+    "supports_hma",
+    "SupportsHMA",
+    "DecodeBenchConnector",
+]
diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6ef6cfe145d8b9e32464800fce971c18d3daf065
GIT binary patch
literal 528
zcmb7ByGjE=6rI^;Fo}ZL`2|~K$E~6uf{BG7S}3Gggkc|JvSem=nVkevTKfU^c7BV0
zFs+rH7(@^YXVxU9^%jS7?=a__%YAOQH-IW?-DlqrfEV2?%UF>4o+1w*1u3L}!4NVd
zG?*Eh%nB{2=LWTz6FLwKL25q2(4ASH{i?rvmfSuY^ou+vi70q4st6tga%*jNSx_RI
zSCg_VxTsFgk7cV`G<d`!56Ybrk`yWFkvti#q&%Bj%7B|191XSxSHXqXkinEv=BHUD
zcot6tN&WE@3m)aw4dI$6%S`?>@MD$hSE<&lm9(bp|4SyVbK+PB{WGXDNf+aYQjDL#
zTnU4(Yb02S%B<{&h!2VA+)la&`{OP_G>cI=6Qd$W+8wPef!3DLe6<9c1_<LU&jiMP
uIg^b;R-_Y3j`*fBQ<nwRu7WocLip*}(3k@SA1wnK?+vGE+_}7^-hTl8hnx5S

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/base.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..80e80291be5a758fc20c3d34d373b8a0df30560d
GIT binary patch
literal 22740
zcmeHvYiwLse%~F=3^_A=3`J5B_4KtQOEWSbmMuS4yRlcIWLs;Sc12q8a*>QL=U$Ry
z&4a#oMiQrPqur>8oJFuQkitwFq%zWn41ZD34{gv7P4lG-v_MIC0}Io2S4ENn0rFui
zDhLo1ZGXRW&OP_egQf!n{nP<??&Z1Xp7THd^M9ZJx&L`^FlFFZjQzOqN8dAyKjT0C
zuTR}<{Z+&;J~nJ)!LTECPcgC(!8Ka!DMc5erPx9&!unV-Ug}-wE%hz*iT~rpL@BwD
zETtAwrT&Hf(!j!isP8EbE)1f5Z*i!UUPz0&zT$9c*TODwpD2!$Mi)jShLd!kL%U>g
zth9S!w|JH+?kVkE*emY)i{qtz3;V?VKyiQRz`}vj!G(jRLkovWhZhcu`oZF3C3C?P
z_d~_UOGg%ti2HQ$XzAF(F>ya!e4=!G;W)<Ybxt@LXYjpCJ_3U4QqMm8v*YuV&Xb~@
zf9<z-@&Dzx-6MNgnCLN_v@`h`Fv{P;RFCnBVUOH2>`^EBSya_d+hb13-t9cK6tnl-
zj4hlJt@fhTxD$ELmaW32e)Ad8avxgm5A}Ci)E+?X!BFk9qV^DK4~J@>TkFX_W_{9Y
z7^&AT&s54~Ctt0&=Pb|3T|Q;b6fMs)mnyD#zTj2e!eXuJ*yd}O%^54d;+V(HR|~f7
zl+C%SRdrJNN~u&U7xGrMP$`>*vU&CO*WWO&o=T<W(Ks*qT6HT|3%28#Ra7liip9#c
zLV4L-bql3JwQ$w(&ZJEI=Fq)eD?09^ht_9Iw^sJpBj57;XA|aPp=^6*$*EelRkbF}
zYb%BPis+!=nKcivF0P4pu2tMCsxz}%F^d(;p7yM(4(F2RT&BcZ9D3QQ=E}8FuIyaP
zm8>cU%T+5^oU)h6nv;BN;_;&6nw2FJjnE$->i5}4b;YWh&UN6-2ikQ?m1<}>^Nqst
zO4VEhUaVpffR<{-YGJkLwDwad0ae7mWiA6dWz%)uuQ}+}D%+;FQmGX&MW6&onsk<y
zuz2Q@>x5=gTLosEoW}*qSxZ&N&0)MsUd%;41P=7Vo1&p98n!~>lvXRQ<*u2FHH-s*
z*o%)|K@M+NWoy}S15B#1^FCGODz)lrt@?KzTE1msMO`QF01GzeSSgv|HPvHy!SD)I
zxurt6;9(WTxC+~qa^3;80HKyfDF*PHPPEMZTA{iks0aiO_%Z&KtCDKWMIhmdTp^OC
z8Zv-^#Bj-})?AP;hC>@ylU!*1xMsFlu3R&*)P*Gu)&hZ^o@fJ}tdTBU$6KwGy~1Ll
zSg5WEGGRyLr}hpAoPyQz*2?)6w^FXuyyDuFdA8_P%*rZx7HhhOUM0A%U2XxP>RM%w
z3%_c)Rw;z$s&&Q5IiSs|WDx&-vIe+IK9L-8&2d5RV0zH0W4Cm#_%xWPSKty6Zpe+Q
z;F777c;%M^UJe9<1144!F(KI76a4K3*sfNlNj9Pjc01#frMU=cXPXdNtoDUTu!dj>
zx0<8K$X&TAh)C3UVi+PDXu~j`nJHOoU`B!9te)L9t5D5>g>yw~4cy0mL?>!FYUOI7
zh&ke!SrA>4((Ovwk+UTQQBq-S*+UotJRkr-Gi8L|$qsO^w@wH+2|n>m3yah`K1HI>
z8sbgGMS?L3kid|H{&SxPya}I@G$uF|)mkwM)c_>r3MDa_tLTus1OiRZDchLbG?<=~
zoJ##ARp4y4rx87SZl*D0EkYw%`6?D{rDCHxF@rf+i$$lAxClANyKJm6IRE{(F63rj
zy)g6I#o1TzZh5WI_j-X1ijBmZite+KMnA*^mw6d74F9IJ3VKsWEmZ9a3Cf`IY_$s7
z2lu?8)DT*xE*Fa>5ZF>-8UGF7J?fYXWD<b1C)CedAW6LF7V=(WI8;9ef$cR?!Q)1M
za6gYuhhDC@*DTk@C{^cr6*Yrum~%oVg(@^4eV3&6AP!fawi{9V>6Lugu;^F+Y`ue<
zj}6Cw?Po0X*pY>(6SI5ls2y|Su$=m6=h$&+<=DNbOE^g<<@BqXzB;T)dB4<aCvL_*
zQyni1to3D+jsCgXD%45Ud-aX8^?xr2WFEXHO$0#_Q0z1$l%bHXxKh}WB0wq1Offyx
zjk&V6=oX+vp=I4Q(I04`f)2nI84Qw@>^#2$-V%!B{aV2VslgV2nIITH=(Sn_!BbKT
z`fll3sy%iqJ8bkRN_NLF!$wjtbq+*6)##Oia5k^ZJb?ikg8YAL2*t-nRaCP0Q6w9&
zezON=7`cQ$QZpcQu7k!Qmb+=J6)R9#(n<gmYu&W$R%)wWpvo2<2nok5R6VT<@UK)o
z6dyu_ikFn2B^0x7&R@v91|ek?vS&<zzol9^FD*PUei@*tRRFM%;u?*Lx79-vixBEo
zthQc8$W1W)H&JQ|a*d=`WybL()=4JwZViTzZhA@THECaRYW%T{Qn<e0B7H0hB}#D!
zGZ9QHMUqyU!upc(TX)ailtEUm2*XZdR?2s37DXwb4oQMkv%r~FO6-BZR%sjPAwKiv
z6-55LQpj%!eN0M*?t#)Q)@<~uY-Kg3DQ&1$BUNHbt{UNU%FBgv$aI7R8J(?EFH$U*
zfCR_B;JOv}(`X~+ImIRS5Xja&jKU*D1Gv9^XS!Nion9@hPC{j38k5&+&wuNME6+RA
z#lqtB>KX)fdHO0u<Fp;P6Vp&^zHz~OO+eFEPfb%bPpz&s4*1CP)eNoJoTTvjiI6mz
z`kIE92`e4o8^)svBYk8e@%R@0GqQt?L@rmhN=`1<Nab>+3SAG}59D(1*Q}y?(wEEG
zm3%Je#_&!fUabKyjaU&gX+#U<Y9qE-sT3PA$SqVrH@OM4bDu!*so@^y{V^5?{o+mB
zct1dK)A*_<7Ed$>jNY+k&+hn<2fOw+<G40^jj?^}W9#|f*>`7V{qW{!rrF2pgpo?$
zs@|SoKf3O%XFmGXJND-8lN;%io5?31CedIkik`k=PjXxi*+^={x{u-iyz)tLYZ#o7
z5KD`=fmqVdJ}|0~N%HrZx^suCala1F;X1ZHpKE=;%kxhovrvPn0&F~(Qn2$HvFh5Y
z!y2!)D71h;Q#Rs0jlMmCV+!mw27Hm9TPa!Y3wTgr3!?Xi@$<f2x3j-D|Fga$KTq#l
z&;E-ae4akFkvR3|;eP~1@@TGq{$#htP}QpR?4E_#S`@IRL#p{w1%4@U@t1saHXC<O
z;Ob^rWKlGdb1*l~zy11!OO4)Ne)H067cRM{_%NV>GyIpuRs4C>1viZc!@F)=#EK84
zfB3R&$_Cvb9mbPZNa4mu8wW#Bz6uY~TY+uvn<e%4g{<=bmF_X+K4b$8xJ9~@nnqxg
zsrMmPs@EK+EZ%-=`n<BTy(y^;%J5tu>MO9<+=5js)EydLQfke98f(LidlHbhW8)>(
zvG~XM+ZsSYj);OIQbs%}alyxbCtQq%aN*CnF0KEw%5pUQdWj3nA&6kWU6RwLZ6Kzu
z?Lo-i8LhgAH0h9ptJU<~?*i)f+0L+z#c%NDEDJ#xtZJDd5y9WqL^QnGNy9#;OtGjP
zhgsH3V+>|i-_7^}j59moM3;K(WXS01vr|sOPS_CynEDZ5O4>8_0In&tO`z={?)z~+
zfcqib587#G2!X5N_l^h%S_);>_1ME`Ib!c}M)B4N?#G<n_NYCEK-L~HRxg8D+VI<p
zr+b~Wf?_=MWL!Pj*L^&DzkNXWnX(Ut-rR>b5zx|O>_=$pfRh%+X~H?E?;|uvTmMtD
zh}n+;@<W*W0q3y5V~=g3<}v&6o5q5P`j~x0)gMLu<ES}ei~ca{W2iX_7@n|?+b5jE
zcy<t_91XZs>yimUd`z{@+9&NNox@nQiO|z0@O08Sj(!qYsj1MD6ZW)|!H7>`#H<+a
zlyg!-EJhs=>$OLY>BFbSe;V&RiB=Q#GioNMQ8VdG2`WlpP2_xH_Oqc8r}2iG3&wp8
zZ#?Bp3EF$Ub1by=@f5RPxEa?ga?1V|S|4_fD99uYo<VO<tMR{$=g-*RA!NAzl7x_@
z{UT;4*YYLNhx*U&2_t@2v`*P)LvWv7i)7C?MnXKQf|;|8ewrS%FW{EBX$;Ybxsc_J
zG_4LgX#TUkc$TM5^nYMLsUQCqH(|5=Jw9ps*^$qbN<qZg_`t|%4f;U@|LHeAh`dJ&
zq3!p>k?!?)Q)}IFe|6A*&F=9>`%&bBC|ZHk<?jRIJ!+P=-;LdY)6o_BsNY}2_@D><
zX&BdxY;3lE?IPS{A?RsiccNLTg|ly6q?PMjUxiwr^=K7k%(Axl9;1{Lwooz4G+BlF
zwN!&W%;1T6jXnz8bA(H2mLgbOST0Z1pAFfGYM~G`MQDiePXuMD$~wWR|Fp9XL#ipj
z_@$3W4cJBlY8se=?W`gM0cdPQe_`^$A~jXubgfczLn;$<vhsOnwWBl6ic_hs6kMTW
zVI9^OXGg4M8KFEn7|<iD47L{pZeZm&ZYDdG%ZaE&4!3Zddu4Q@(Fe!B4D>ff18X@~
zQsD<!tsy#ZjC7(6uXU+RUABrfN0|7HVKxY}L?fOft7K#DQP7k7GK*JOyo$mjtHAzO
zCK_yM33UBHC+_u(KH`g1_%Ox?jAZ&JLmv(`dm@9cMjl0@$rNnd??%o?ZpD6<Fz+8c
z!Rx;J{d>OX&u;c-H~OEwf8yycPF&bLapBhaKOH#s=OYI<4$Xf)^7h8S+xN|Bwmx*f
zKmA3&x!G@S^k;rPF!Gbx4`-V_(Oua`(fHsHZ0$Y!Z^eEqC3SCyK}-fFqi*d-@iCbA
zJzU#=bB22wb+A&ohxBPg;3j0O3Jlfvc0mGhNg3%;$KNm>q(^^J|FFK1*eAegjA%1V
zuWDWk5xl{B0o@3003F2&?&J^hugCf}CNKx4Al2#4bZk?`&-qO6rGy;iRwqB$WKcmr
z6{&@j<P^CtQ%0Z!L0;?(RKe)NR3a^?Xafh4O`YpbzQ(u#Su2RMf&me<01u1p8Zt5Z
zZ0X70q6y-y;1wD93_*R?T~>QX9GyQsZ;eDVL+1=}jP7U&T<uvb=IcObwnx&t@EnPC
zpT_rc=cx<x)lYU=?QPor8}z3LpgCq7d+t{3PZOpffEM4ZZL#f+#jf9;fmCw0os?dZ
zzn_H_dqZNd_I1?*&AN;qx^HuW<Rm2+#`A=;8`hreg0<}$|A!FT28?5wZP2DU_&K!S
zj)QOXd=HVg?YKJ|so#5LTP6z8URT75&=}}iu?<{ZY|^zZQmBir(Wx2V&F~$Sohi3F
z=J)0pRO)1iuH?E++y6woA3<@$XpR`eV_&3CY^G0aq@USHJcIIndQ{aUPJ9g!GhVda
zYS@ulWDY!6|9ED_$zRbMX5G1!=0(1SxNw=_QCI*wVUyt*gfLaaPa`9ciekeS`xY--
zMd<hnhIOwM5P#Z<uJ<4g+YPzdE>zvU>F31lZi(9gjoZ6biCw7_lD<mzT66(klDdFO
z_+x|8zy4n}#M)THZl}MC>C01i@Naw0QmrUVCm1=CuCt7277R96c9^~H1#gHA47~*(
znwXh!rk1Bf7qb`Nc^!dv{aU9;)>AlRQWA5^5qbl`2f1~{KpXJyN3eBAv%-h=h4H(X
zs23K-BR<^PYVqn%gg{gd078RudO@@QhOV|~FoULtVT4Fb59KSXYq<(6Fp<fyBf9@U
z1L~{X>u<e1>8(2X!crlRy;ZqE%wDC<tYZr+71*yd{cPuIAs?nRL{(^<a)(+pQoHV;
zd95dbCO>W}7h!_7^lagJQOk{B7qS(Fb~_5k!9O_;l)H{S-kcl_DDdjtMDuoy|AO5r
zbfz>q(@^T%sUnMTtI8#zH+rw2Zn=||`|)rqpk?d7Ly!mf<yNe=11J}KVh&82fU#kZ
zGXv#>2g`anwBL+(<OBmFUkPcESHNx+$h08{a>$y|u=q`c)sCT@G6P?7r$B>f*90?l
zXiD8nCy%sY%gnsoy3r?ffIqqdFpyESd`_N}$US3PwhdQ@JNw$z2(lHp6%FcCWFGJ>
zg8ok1HVIG?B)vFtKR`$W&C!C4<rcSKV}CPbF%TmJjmY)D<{>emNHZ!;t!1pgyFx;u
zg^M?2+;^~L7rx%b)0=8(@mK6Yk)mlN2PJ2x0swd7YHL1Bcw$f04EAzBLRbOQGBua0
z&3Bm<0M^BhfKPsUu>~1^E$vZAgNZGFPgw~@L0%sGW8Ib9Blks$pxc)D3+<?O)I+!y
zmI^>~+$AedouF-RUk`|ROfIfX$_ZgJ$0@>{;|9DQypw1Hyh`#U2~e(!y<G87zuYQ`
zu5g{g!hEz#zC`_a7ir$5-Tw|P`nX>71ZY%%&=>?>%i0@o869Z}^WcA@UH<${m<;BG
z{E@x~7GI(W(`=POVWFc|ThAUVNfyvTs=El<mJD=1Ez-s(10`(&PwSg4nVCU6LU~2O
z!ZGm%Nhz(8#Yd%?LG&WOGBuCPw~GI+ByTNU<@#f;(n!;wQw;DYu?K1=zFLQAStm2o
znPMTSEMOBq_|e+UH<W|i=MCgw(1oJZxD-sJRJY86J5EwWF(N1C;tMJCMC(FKt-Fv4
zw?K-l7E&3XUR#_$^xtmXS!S3b!-5H0qDsDo=OYpxn9tKrYI;FbbgE6IFn<xL0$TJ)
zUMBIX{2Y;cq&tx!C_KBc2=W!E+`d)zrLSc}l10cTn4%(`%&Z`+aLq+9P-Gajlb4Dx
zC~g!p)X>PK>+nDawb0<2cU_>C7RVpg3pC;{P-9qcLSwU;$sRlEl3#&@3t+2MVHaXf
zT@x6$&ydm`_`@Sp0Kpg7s5I9_5~`oXCVLJjd7fIAnXF8yMY3%r?;zBexmvIU!CVlb
znTqRWrACk`F|ajd+JGLI!V4)^^vsZF>u&_=gt5>%c6DdB&;8Of3g>fZ>sF6XR?Daj
zewAKAS}BN3MwR&i)hk>)L67ap0GVty$cJHXViTW&D&wb{DRKg=OkfkKXVWy4h-6f%
zL?XV+9}%m8Cru&k5P56N&3s?1q>4}%D`JgkFd(3S1z-}i$kMP{W=A`eEC(w<<TWF+
z4WgF+h$q72K&~{dVCWDm*`C=}y~-eei(VZFr<K$n>!MJ@4JJc`ZyLk<zs95AgOS21
z1D{c5;RjDXV*Rf$;rp=^q5vot2{h)#^J*oRtOE0$FnOYTCt8~8+J{rlS74+e&D0jX
zm<}^mLdmLJvkRqFWXlo=WZIVHaH^qM$qQ{29-h{4TV!$4JiEGDBnt!DMFa{==G0CK
z6If92q)#zEu?DP22=G2%@V$gHrkcA<DKeQ3g}{;PFhx#LNm=Cg(v1?^1T92kVn2eA
z(2<l0K)!$#z6qR2Y^+dlD`<do%H~l1Pg{5IhDjlleRs-a>LSraKw*YLG7wP{Exig-
z_mIt6Z0jyO7mA$r?k5D~1Tc&TK^g3`tv73RmC;TyDXt!NW*GalxQ&EdQaTp`MeQh`
z`x=Y~LGCcp1w_*MYJ)-U)RdJRL_6fK0mnAdSDD!y42>MBC@8H%5gjIm#d1@B<Y@27
z3}Z>K^;6sM=k~9>M2@BLiv5&h#_;HmYqthExt5GczbfQm*EjX#=2mJ|yK+r#$Zc<;
zil_vUBh`$rPjok+Ee|~jy(GJ%cTD$1E|G7iNIOD1pd#~FcM?hm23d174UjM_5K3nD
z94H^s6h16c+4Z~IX#WJEB0ya?ru>I<A<@TJoIs+>otB*}v-(>a0$<e8G4O-9;%o&3
zxu5@TDs!E46FKg}FS}|Lcbv!`QV%_EziV;6!>e}-ICgLPgU}=s{v>yrpY=T6>N3R{
zAB<4akZ+I+H(4q$zf~|jVeRRbAR8Uqg5fb)S(@A~CrJb0C+URqk^-lvs}&OBtd1Nh
z=~e`(Pd;n`$Q0kR(7j4`bT%b%T2~<^gET1dj!Xk;-x3iksXNiG>9#A`+0??C_#w<O
ze<fvZrbtO1<yj{G;EFoP)RL0iMI=~{5P;J-CM^fSpWwukWac~sF9bXl9@x<jpy`(p
zJab%zpR|j-=&V%~M|S}&r1v|c48H!#TvB=La=rZOibySJU8^obm>Dpd@9yf8T+9~7
z@fQs^7mYt3bx^Q8<`vMh8g&P1JF84g9eoeZy!m0Y)=(SAgndwkL#hII0qzwDLeK4h
zcXlIx+pfShs!LL9(RD1FncMPoQ!4^xCl{9l)g!`O#eNA+0?Ea170WUe5E=N8^VkXo
z#yYTR3LWW|kZ3GqdN4P2)J~x}FbTBV(xoq@ws9g3y9kWO2|?qNgSBiSxFGC<&M8fr
z@6t_pmweobA%$o^JSK^|3jkqv1)ESAUmR(mA@iM8I1T0-GE=2XA1B0i(+L7XbS@QK
z><K8^;PN~bVu>!c=zNQ2R2UI^kI)X>a+DjxMFiV<ZV>*`QsFwyZ>UWe!jml!g=k#5
zc$#ZTC;2Lpp)pM@-Vmo0FpJejmw>;eJ95;N3EB~K!VD|8G3ByMkM|`8md&dOY7zV;
zwv#5H8$0MnX}iKz9(H4<FwIcr9>|@fEUnQB4|7OH73QcKi)YlzEue|;EV6azE(Fw}
zd?*!)776Y@gnVobMenCdrCjMeAzGgdX%~OnY5V5yQwuY{3foWTB09d%EByeMo>fE0
zZ=XVa`OW>2@UP9Jv+jo7uD8Vz&~U^&e9BX~VOS|1mtlHFAknaL+XGKh+Q#+9sswJW
zVn?nHh)5qEQBDp?1bU--4clLeg?%I5=i`7xC2t7xQ@KjCx)tcuK0*Y9Ek$2q@^FM+
z|2D2wgh+~zV#jkpYHIV%g5wq1M3KV=J%xwI%RFBzh@E{->)kob+c#%J*!_FaZwe0?
z&>i{foILv_^`eg>xwIktD9i?QPa#i=ZlkmAn$pK9)rXRh8X;0!Ahz3T4s?pxU~I*6
zDzi-R+)dE7`%h4KBy{#E<E!K9L@{<cT2C`~-KE^F@o$ss)Yi~(&2+<BW~*b$I|lU_
zBheE-S1aHswvcnaof{+;Xw^h*5TXEK|7wm<vKuF^m@!pYf=VkmMZ}Vz#n^E>fB_15
zgm*$jh@|5m<}<NE@YrF*iB5<*9hvt*4Z+k&mF?r2nK?g{_@+D>DalQ@Q(;51-5zU=
zP~GDChIf9(7Ky`<Q$y>!exi#+?bh(q(5mhaR#hnt9KV&Z%$-)X{wI1#x0Rd1$n6@u
z^&_TVi_dnDOfs*(5-k`FjiI6PIZXEwjOjmW#q*Eb@w`_thVDV3rfV|LHf{eMu<hp2
zv-FOc)w82hF%VWtGg9t<)6<Rk)I+z^iyAB9tX&A}^DS1<|36>olLoI;>3+-_dBqxs
zeD?qJd|}Val2Y9xBvINhfIv$6VWpxpp!K66Ch;w+_C|jak^#q!;RBL5d01+v&_?~H
zM#DU8MIkD+?W=a9eBTzjT%A7-5#0BMsBU%TX5|+UL>{&O9fYo*H6Z5slQ9BuR;)cx
z&>#BDLj7<TT!fx~5kkX|F+3u}fE2a<kGK{#BadS-9WOW&P&3^ADxZm8aF*dm5gswK
z@D-gv>Aj+q3fDm#r`9OL1}Nlh;FE<=CZ}qeor)%uwr*xF2Pf#Idf`)|9)~wVc<&nG
z!FF~K8R!Pslqr(dUY$KZK^J27)$^@v;752`^|@Vv$3c%m&DXSA(mycapqKh<WHTQz
z2-eALdW9FI>Xmn*Y+&^P3jezX;<FU;NIX7z;9kIbG?Mc;CMi<%d4xY-^h73pixxfb
zHRIN&x)9FSw0}TCI);JapNty=>7R`p+w4E~^N|Bc)ZaC^6^)J#HH|2;>A!ghvBhZe
z=|^~BG)fdh%X1@)q{ErhrZcu|$~Hd-!Ee9>`}M)0X1SdyjBTGm<rzg765L3`6A@rU
zpFE%-Pb-quHSfQ6S?b@j%gaa><S~EHhuVbp_f%|W$-=jK82pB{;^DyKPUHyB;*2;6
zBW9#F8cBC@F6>yj2XMb|+r=gA*gzQJviVXRHWS|In)BG%YzvF(-oT;?v4Hc+_;S*Y
zR?+_qp=ibzf5?VGf&gsGN>L>C)8GZ3Ri1%DI=!=NI7PFD%o2RjAsk}!^D(i^T0V#^
zHMujzl__AO6Z;V%vXz5M(=yo0mC*{u#0vg#b>y9RReUDMQfo=v;`|H~GNnDuiHkJU
zfNQno^xMSGI*JzF8kdG=m&kj!EXnN}{~s)XAF*X3wOoe;t=(_57Wed8a1)dwielGa
zly4e?*PV3AVIPtf!}L|`F1DN}RuNPkkq+D)@E6>TE?7NEto~j*Ru7=DOgq(m1%dEx
z66<T)r=aEBf5u^WrnWJFso>KpIi4=}+)>t#u^xGVi;g(g?=|*d^C&03eSo|jRAUDQ
zp(S@08s?ec6aERMNvBk0TK^Y~#u)@r;aOQ>T74_{xC=g#ArH2zJwv4dd=}8%0GP>O
zE!hD-MN$*V0Q^Xd+~n0XURlJkYw<asP_Pw;?idFPy3v6MI?kR+IT`fau}*PUP`^0i
z_0KU?_YR9sP<U<mP9u`U8A;@d5x%ZMsI%E_tdsA9@Ar8?o~G&%pC_2jKI@*~xEU5a
zRxi%WyD8qyp=cy9EU;BwlLyge_~832_(=u#S6EE3;K?X=n#EHn@ZAO`t~GjP=9;_6
zx`7#_X3NmYo2%{;+j5QN2OQqxU5Ul}EIbz1Sv<+&DvL=LYb^dDi+{x8B^JNN;@4UH
z1`D3{a(|Nrk8ira#bScRPgwM_;IX(yzxV_KSH5Dq|CH4qv-n*Wzt7@17JtA(7>lHJ
zVK)maK@_)9<^6t?N9l2j{<$+>CCB6YAMAd-8OIf08Au;)_VF%Z>_2j6dUM~?TWrug
zZS?XKUVQ)U%0mN}EqqBrRy2oF@#i+qywNmxy>xkt*RAp1c&0g=if1;m-(gLriJH@Q
zV_OC;&EZ5mefRvm(R<FnE&gF~<J7s$iJ2_}mCdnuJbmwjEd!V4kofFHIzG5D`Aba$
z*Po7x%f>%=`yu}&4EQbv?wUu$U4MM=ZoX;Ya?gIqi)w+p=6=y)G(PxXY;QA;E9N>n
z{_(^|6U{#UmoUbkY$kb^GDi0_`*}BDq=p_2;!gF$x|8VVtDc0e!(DT1IKKbBdGyZA
zCy8bh_Yaaox4hfWe0Y8R*oVJ%C(8P}r$0$=q^CENPi@7~qIqm2zWZME-pn5+whY`p
z%=E^`n!~a9*xkg&shQ2p`7HzgGzU`gv5n06Kdx?OULzXEnx>eCiFxo_Ah=>4haYeD
z@lJgH!@E8IVSWAdM*6YMr1>z3dIddOoR5gtN8*F`_nOTpuP47HuW!vg<o~KM?wT3V
zb^vY6>1Gty2g!pE<G89exN9E7qHVlzQ7ztR{D1%pSAaD(z8?MPTSV^x30n6rlWYO&
z2bw4Q;v?(t+$nD!dUngeJ&qFf?rQc7$H(p!n+7g_?EQ59Kh_`emgCE3&11mHoteAG
zKKY(R&p4hucyjuyXd*s#e{}D9bbW3;@zINS&hr~7tbCB%wE=52`NYFG{!=~St~r*(
z8{-Gp=QfVKxN+#k&GDC-QB*xh4sOM9ZSE0c4xon2f-7dY_rUt;I|G{sChu17y|Foc
zZsWkY%{?>CK0ZwtyZ5b+esr;!<bNsS@h9%g-92{K`!sv!S2xYm&3;yc!bUbm#P?YS
z@xK7)s~+45H6<7}`@HxzMkD4R5Zj1ai+LB^D+N&_t&#>{!+2ACL_sVBMxz(H4Hl%!
zfTk2!N!|%L`7d!NPrXmclfy0(L>l|(N=;ooHHFV=Ia4BRHwEVfpEeW{s*(1e%Sum3
ztA;6Rb;|A3A`$_a>IQh=Z((yt<WsBRpnLQo`~Bj@&=-HEU_eQq+NE#aINhy*ud~=#
zYcc|@6phf&A}u4N*T+Op2)A~gH#sC8`IBa+;>3SReza2VwMa<OMn8t>E>q=QeiI<T
zjB-@OSHA+~;{Gc%k`i60gn!L{g%<lB@5GmXgid;aoy9I-rKMIA%3_9XF0g17>W##A
z5D!M?=8Nth;VG;~oT^0Gj7B1nuX-Pk#I|0J7?FWr7)O6$O#Q-m;dA4KKQjjY!Z`Y+
z@$8qz<o}2ce;GUXW$gHuvFHD$Cm!#m*zNu60V96;%h<QSjJ@z>>;#B>c>F<P;MUyj
zCnzj81`ls09=qSQ;=`n<=Oul6U^8*3+20%Qg&2<~o9VuI>Z@pSxaY>eS9^@q?%VHt
zo;-Y`_fhYm$dTJe9~rnbzZ;1~o?f468o1n{0E|5SXeb^@-?l$4d{lU3;P%mQZzOr=
cnMVdLk48|e<6UuosW&pVKKj=NuY!60FWS8*kN^Mx

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/decode_bench_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/decode_bench_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9c7e76c10b6401e727c220f5dfd8a851814dbad0
GIT binary patch
literal 16090
zcmb_jTW}OtdhVX-8TDMG8QstgiPi<sAZdiKy+$%%0|IOVVlnu#%I;1^(=BPlT(sRi
z0x6Q0Y`lp`oHef64frJ{sZ_08Bo+L$yk+x{Dp%!Y#=?=(1r@g9R3()cIl{G@JmvdO
zU*^JyWRpEAoj!f8fB)zF*YnTc*Vg(uq?GVS$-g_oasNy&cJf+<?E^f=-Qr|!l9PGa
zmEzN`Nf%FLcgmd>CWW+T(v$X1dRd*2s+p`on<piveUrYlf6~wDy{SMtI2mN+npADN
zZnBP*#Z)LAo(%JxBB%#2&X=lBH%vCLHh-!y-89+6%7IjKde`JGRt~0G(yf!NtX!LF
zOSez9vvOUkBfWcaH!Fuyo$0R0E}nC7N}aOjF1~@%q@=i9+!;;|zsJe-O7O1RtiNkM
zxXEtT+JM$Z#b>up_ORL})HdIBnO!G)S=}zwwK#Qsi$bI|{+YmW{&6Ldm6a1pCNX<5
zo5?5%J*$pM$ECAxNzS`8omC~7b(E4BO^;_1iZrjNs7|x8u4sBPGZXduFV7}5DPd0}
zDd}7)j#eoy&8y0EGL;&#=8=<Hd}c;fX3#84nxfML($u0volx}avkC!`h$m3En$%|{
zIhRf^N(=E+PSFOXcq)~>N@LPWT+69STFK~AcG`kdErrjY%gBl<rQ+%g9?8snPREMh
z%i*IHDWzm)^jS^nf9=w_2pT0-(Xu%;p$w&x=_CQCWEPTYHbV<&_{28>xH9IKkS=GX
zoTf;6`9~ABrU;?wxOxQ;4iZA9lQRHPO6s%(ecP3Vn6Ab%+O(p^%=R%qoAlJRczQl%
ztw5_Rq*7_Xt1c+gku)|dbxax>y0S224<9mzOZ$I^ji(`$da#1C6Fp;6PqnS?8GLGt
znoTLx9mA)x`fQaR&a5%z8i26C$Cz>e7!b6bF>Fx=%?G0gM_wpju-He_WwT2eKr7DM
z%6=0)muD61Q7$7bVwZ||wvLFRB~@%0+vDMEPN%K5cG%o9T96@>?U04mp`od`rVQoO
zlr*dB^JBxqBZpp$0^I1x*x`c*4+7r|@ecmK?SMt|4Gqb09TVt7nRr@}u&Z)5jasuX
z#DEzB6w>pU>!4IQ*y?6N%leI&OUAF!)+TbQiqo_xjT|&FaMC(WaXp#MNZEOM;QTHm
z<8-L1Z%(B6^+Sxr*q%uJ)2VD+kBmv@u|p<lF=DqqAwvY7V*RClS(%RKQo6N`5eEa-
zeAvI@beF&*<hUw>8UYrAlc>U)md-@^e8t%$>5`&LdR98f0KwM~ztJ7CKW5fjGigLB
z#4Y}fxLt%de6$mZR9w>{Zlm_{x4wBQcJkFzC(ph%amH{T&nz0^1%|J9Y9it?8qU52
zWSUIx1U4}C)`$@*se1#YfJqxms?IBVoYp{fAel+(u~c>jTm`Q}LQXE=S$|yD!78vR
zC4K#Gfr!nGLzlYKS@kN=g9;ragqm6`L7eVHDx0{Xp(1n%Z*nfBs2A8NF6rY;Q}YHf
zF-=ccQh_}jdH4!mZ*dAY$wMZ(-h?EabSr}5QM~x8QN%X1%dTk`Jr&V>T5mqt4Kd3>
zN_dRj)!2spWlMi<m)LGq>k5uZG(w*mhwuPtGO@wVM0^T|Ub;G)Ow5AqvTxC(i~<4%
zhfJzP{!b@Hk=aB~i2}BADZiEGbLxCnQ^2fg<){(F+*(Y}#%P*}h~E%nF{0F1%<#uz
zplqNS<zOuKy<9wHwbaC7ayEf#K~5%g!>#G6;n8#8%!ZIkYN$zObR!gt#WR_#&d#_N
zi+#dv199Ac%?<16`QiEG{E$vkM<2SDdvWyel^2!aRB~!~eo>#zW`>Cm4MPy>YH}(E
zNi$p`6R4c9&*t#L$gn9lW9&nVEz$W!wFwKd>?IVmgUEi!eI*DUajS`IY`Ll3K6PjB
zny_~16W_h(*6Ip9FWzs=_Z%tgKALYiT4*@-Kscs$+f$SsC8l(tWqS;2$sd#)COS$!
zPVST4vLJgDLG~&hxrPqXw0D)8=4J7{+DWhMqhqG{<_N%wWFI%#|DG@zkOOj1u2q6^
z9S)>d4xz4A4l5#i7vy@p*Rl78>a)p>a+5ROFE^uqNQTNY8J1h*R=G{7m+O=U<gTR}
z9QH<Qb+6oxo=vPzhrC<vRO+#M7wVejJ>Xq+%C2ca?#6oy>(isOD)o$PXtqZ7bwP73
zb7p7WUW{p5<*xCQ?U%U7UZbfRWyGOQa_orypVcio-xVqsopFt67}d0={!BJAw4|un
zh{aLCY8eQYruM&7)CQpx#ixk#mg!jpj-?BdDn@FKd2CfvJU>$dGpTjL2oPCVI)z$`
zb7Kgkk{BVP2;z};TRqwm&|#hALCKB(?FYzy!r$U_r|E{U%>6Oim-%JavfEaep@MVE
zT+C9H!4Bz-W?*UArHgiX&ZY&s0?#Y`pu2jVKxAo|ziX-QrE@NFW%Jb8y^Bw49{L=X
z%I0yPS>zVEPxy(5&+uqDDBr}ym;j0yjSi!TX|~ib!o|v~S@nvds`N32?-JzU_?zcW
zy<v1#JCu&tF}!bIc;hU(wO8x*Hk%USLC}=cw7M5ltNSS1&lZWrm<*1^G};q77T47t
zY92tgRCVE~{W+J=MT;Z*)phPkkn`2us40l8w>$30YZo4fM;^a+epPrNN}DIo(6jS#
zAoSyxHyQ^Ejf0;D1|RMp|M_pN@4vV@{zb5Fv$p=nv5n?|Li51qwF3|Pj@|#A^}e&z
z)V<~A>INCxGko^B(h|-=!0Lo}c9`Bm;T8_Y9G;cwy6biB2YmImIcMvNql#P0V>{Id
zS|ToW2oIwHwh%-CtN{m}Ph9FDG^x)c(+D<6GO_p#l$Z8b+n4Cmv&_(F998Z*w;5{O
z2=x_0efiMAym%1#rWo81I}2jxhIp_b9=zA~h4_+*mJq}==_o{Pq@<{Hat-el)Xivy
zS5@?!nkmB=kzxS<+kcMi*%;Fu+yHl_B#e=ibX$wzY@1bk7N&jXsM5Upyf%RrvF|al
z?@wyBWotAR#VfRAQ{7|o)u@Fos_IOQz%E7H=Jp)My6Px0jlK$Joo$lc849+H&P!Fz
zuc$ep)#nP$aSB<roq8B*yWO|ZeyGrX=)v>fd=R>r7cb^R7fUv9pdb#cjc*K&7Y4__
z5Ko!g=ugELai&PADcdZpVjge8{w@13suJFCBH6Kf1?AFXXEa`oL*d1_h?$cT*h~FY
zk71Rb^O$a%*uiz~u^2R=6LHqrTt;nN*E2<Q2hp#Lx8vPBTvg!p6ya6J(N85Dnmb~%
zA7@YE3kne!TXd&ADeXfdM1#@*sJFtLua?1`u=qTx&BPc*707r7nMU1h2pr64SY`(Z
z%KE&E!RkrMx{(<*mZGdS&|70BN3t>vJ6DmR;$BfQTEZbN^dO)ZbiY|Pw(PPA^OD2H
z1__{cD7!HNDx+MDrQ<ruBMUB@US3B(^(?Y7dQs1#W@)(UY1(<t-=}F_K!)w{bK$0q
z(EdVbe?IhFUVIKYV|Y}v5js%_o!AUE=9~Ms-L9~Ii*xz>CPuwe%;-`>n8rjX*qx$g
z;wc-UghV^hiDC$S2Zd*IxnD;vl&U2aC~eKn!{St8;1$T@(<CFv`;~|Y=D}wOod7uM
z1!NjQ3oc|HIQ1glmWHaLb*Fi6(kw3`15&-uMCvPr&?`Xd&A0NM2P@GUc65=L>Do}k
zn6ius5gr*XFQf3A!==sTEAZGfl}o0WJTonR#%*k7_XZ#+Wp*lov=pg|w`%j;rtwi^
z|0B+h6hcSxN6)W^Ci3Ehc>;ax1jdqbIqf>=`OVU<jUEU=KH`EO<TU<OM!jK+xj@8a
zk{U?2jAq}YZzQ0c!}T^^miAUfQsqp4N`pz$*@03?5s?a_v>}cZ#F2aZABba{p>~EJ
zQ%~wpcVV>JLRl+iWQj4QRwZqLsg`Oxl{%2YR?n)5S;Ko795Jh^q%x^QyXwo7ouKRt
zWv@}zMcHm-hA@@QrWh|`l%tYr!Onu(NhSJVqt;Sy6AFBru?Vj|hgyx8{41t@)<<0_
zBg)jK(DJMIxUXDZnB=Y8H^#p5)p^eGkDI%<JX8RUg}SzCSW)EKd+rPu+75lq`fT;P
zJV(~X?={|2ewO+)l^;1#7(BVnp>j)fdrtHDp`%+I6+UY;pZSY#ZnKIlzspm*mH?ac
z)ZUY6NbQy=dTJjxwQPCt#G;L@w+25P+^V5Bk!u~;@=?jpHSXF9P$|gy>$YoA`i~|W
z9Tq+Q$Mx+r+K<s)-89mVk^a!CcJuO$rQ6TvLwgE7X&dwSx0<{j|7MG{<)-I>QS<rD
zOWX9m6&5@f_)TeK%T0yHzTMj%Dr^O7JRNKeJh4Vo>uvXkqgyrf#@5kqUcTLXTf5!=
z;dk%Ih2{hK(1C();FmshFi#30J%N8G*%sXP6sn5uF!Er?@CU$77c4J^2VM;LF_ap|
zimySd$XZ3&C;Jr-yaNH$`N&&=-hOxo>hK<r8<@``xEPK!s>4`l=|#tm8q$(7{Ql(9
zryGQ#Gqftzl(9!r`5Aj8B?RmdhDHn}GcEIT)LxOQDbuCas7|U3OLwg&S_P}fCCUCJ
zB4NokP`u2%GlHeYx8XNgmX=&n;2TqPBh1ud2z!h0HKQ&zuViHS2w00|bK1R_yo}Qh
zpkirXHFP*gbc{oS+LHI19s9@tY~5_%YpTT??MDmkM^}aSLr=WiK=kfjW*_1hpXV>|
ztHKwebw-%DB<+bQA?g@PWh#>+;aAZ@XrIHgGOf6m-H`89wqSu%`9&V19JCh4F1wce
z9JeAAw?TF-;{Z~vtx&CamOZkIIR$7Qk1R~P;6(Do7r;mSB-kmzgA7mURmW{Qh!R<3
z%;^ICYYI1A<bq)uAu8jz@|w-&QZlYgm_y%kr_x*{E>*{8WL~pb&RgpA2Af_h-Xl<D
zKWTdA8hEgM9+Z+=EUqnP5~WUkT#`sn_Z_1;3({Q1R%30T)5%OulSZ6RrUfbWUp2o#
zQWg{yo>cNeDc2IpJnjwPaf0)oE)bvzGtaQh?ky`}v0)sOPRCQY!s{o1XK~Ay#ggPg
z!=%MAIJ&gar&<1Q#OO~)1jBEOxTLJcQD^vzUud|~@oN!piGD^3FPY8XgP1p(sb}$v
zEfg9J#R+V5Y9!m(XIuIlQ<D!rn_70(m+xaX=3Idk?&2ESHtKr|^}VZJFxz0m&C46j
z2f$SefdiY39gqaw{TtGuf^;bV!m9=8)x6mGuv5BIpYI#Jf4tClbiMOfUTl9H=)6<^
zd7y_zh+Mem&I|cae_rf2`7zT<NwH?CX_-YwoQQF^!$9aC)a*!T!m?ZDEpl)zyQ;ZW
zY+knF(H-u^$kTBnU@a@zWcG(Oy5lxjt%1+l{hqk&8RzV|Y%OWUyX;+dPrE?uAkxaT
zEYL*>+Q?w7NOSbv6=_+p=jAz_^kJ6f8tqc?DGN7h^k(~g*<+8x3>IU7{^p8!mj1;d
zkdv?qaCgEi1j#gNq&O~}nXy3k>{00wv?98&R?K$kwQ)_-vJxmN5zjai5dl!AbSZ0i
ziX&Xg&Ch35U6bgVSfXn>cI5{{-n{+-QGtq5CD-^fYBo0?k<d{(f9|-mTtA`&^dtmi
z@xq7o)FP%&n2tXqy@@izo6ta-*ETt~e!`#ScxFR<2iv*={ws4gT<zSS@V9uLdp{t+
z#qn3}t31;sO*e<za77OqLAF%PM3+f{X4#=YQ{%nPR6E0WWJbv-*XGq@ORqhf2zRos
zqDNr5f$1EJI#Yd(570;l{nfvc*Aq%xpZ_0EOxzn>J(q7A%(o9d2oC-2;D0j9?)O3s
z{L&lMmPXhHS%oa1VlVhSvudSyLd|NLgbIhZo5*F{(PClJUM&((6+mFr67yhV$sSPy
zs8dPnVCu0tMJ2}U+;Lepyyoqv;gOZ8+>GJIC3i$DVS0{Hs?O5fL33VneWTG?1&V?i
zW3_4){WMbAXw#7_jhb1p->CN0MIB)$gc~&F8Zts{Qwh_19O$~!{du5wGuQwvp|xwH
zWuVY9u--DX8hj#hT|N1p7w+jl`~IijU++8vPKUZZebA)Y-oV=J^W$ZYKQDG{)p51b
zW^m7z$GzXbDr|@y1+nAy>4Mk`mguXsJ*?dYvHQ-x2V&$)vF?N5jo_AxukCys?0Ogs
z-3+b=I|0Yn0k7qjP{|^F+GM6f&$#9fP{0ib2_u%OD<g9bKeYQn(Xfht>D*VW5O=Gh
z%FH?1;?tvf+-pEBaV^a|bbNyBYsBN2E>ntnp(|e!&pTcET4xm3{ls#diOLlcoAH<j
zLXu!`5nqJ&qX`doBystkonJIOiIfsoZJU)4Xb1#OxzWlj`$Nw@OVvz#A8@Ua9f^C1
zIxakTziDIiTw(Ow#^}Yu=*9KXOAkVqR|QB?+HpDo8zSxa1F`pUsBtyG1Y((fPy5LB
zlE`Ey_eV8(S6#WhYn=ttu3vi1L8m1bu2SSo+}0SS**IxBrkNj=P6BfoDK`)1yhyxU
zSBkuM0vKg9UxUl)1nvYFr?B<;*8zN)KF^#2(P!h=R-J4BS_rqq0YRdrB(t|5?!7a!
zvF~tU-{CLBQHH~bPh94OQ!V-f3Ic$6LnF0ST?7Nv?pXNhB)yUrRcYW8+)Of<s!I>O
zk}=0J;vZTD*?ZhS3dgsF0GX@pk|)B<RXi<|m`avOJifYE@U?CGsA`-avdm$6k~vII
zGKcZp`Ys>zG%<4+Pi76{`DC}?88bm4C=&R0lC9Tl6I-pYYJ;{_%R)VB<{T}<8O>Q1
zu1gk}HS2*T>yo|9lC8llyr|$Vp51f%lpt(gx}&dK3;?|&m}BXA^YZWiVc0rM>@frX
zH(}U<By6M<zmo%Fb6IzEt~p2DD|SF6r{l;jHGQFGR_l#$2U~qaZ)ZJrZS1g0_C^wn
zrA1h76NZo28w<Ibx!?7}f4_MDM=u*9t3%k-jNLclGtc#RQNd)c(SWN8JIv3z_BNVH
zKu@dLbXoMB`nxoUgaW%RG(x6Y1EY*xbs!wd6w7<5$L}F4=ZQokOTE=-*4%8z0PiM3
z)zBMvR685sL=2IQ&X)?EFF|l_hPv~ip}aVRe6wv}qwRR1?fB0JKFh7Qy$N%@ZnO2k
zM(Znu)>nSs{@JDV){Cek|J2wqYDD4aab~{nHi_YREMCS&X&)FHCBJp0n?&YI?i%@L
zi9?%xCdti0^RZMC0zj%zMUq|BuK(>b0!HkP2usIJr5o|D3I*~Z8W!@7RB%TjgTf3S
zC8A`Z7&FNuvE7r>@%ed(&nQ!Vm!7M(J!3G;&3j{L{-sKux$P5?8g?F-_tFrqD2tl<
zLwtlvTd0y>NzGCABC;|jPI9jLwSjdYp1x=vp`$_G6kPDN^{~Bz3EA@(&#(FZy6%&@
z_5Q=_y`%X(W8{|EZK*(;!Q-U;`2J|(YmeK$kP&SaqHLRqAlWv{SZ60|Q6ra0RbA$K
z&FctvvvnVKX-{mZBC%fXl3rDvKhM&O#<}nOHphJ%+SH1R<!-op9A<*p6F^T1{ouuB
zJv^{6xw$IGYuN+aQz%BOyx%Txx?^cpvoB>>%W9ooj3sf)9^&Nosu_g5FAJsZb_;Iw
zEL{=i(iF@kKH`nP2w?rT-gVlt3XAq+@dR6nT#4fLRHRXfFNuXLX-PXcd^Wy7N+M#!
zv-2!oyu?-^Mn^4X^tdz+twkw@5R+xgg1}`nI=xCzdRgR=70V!z+md3r?N9q(o3e~9
z9Sc?}TCS|2)L@-h8nEeGlhQf(q~Lh7i3YSfrQjmnbY$V<m%7i8ZERD#Gk_v|lJOM4
zm3K1wXj@F$w>F_4Y{2x%0Z_;KGXbnH`WRz@*dcw|<P*dk3=iVo)0*K^;Ez&N=z@ri
zWYWr9p@MmU#T=sXtCW#KqF$wJ8kyl^%fgbproM@Hc9U))o!QgsG1OL%A+Y$286m+|
zzq0T$v6#QX5U7a_T(}j{ET4z^U^hX-{@~pk@8(01y!cLj;GK2kp$NPF?Jb0Q^P%Cq
zcsW0Ec^!FZ`0?oRjnRq1=)}h8<-+LYe;9qM5PV_vbfM`5To11u__BW_f9TXd^q($-
z`)>Mfk8a{#Iow?cci)Muee1sei||Q=4@J)Ka5L97esJ!_IT&*F-M<(<@nd(sY5y8u
zXgcs9Jn$L68E$_VZba33xPLRe>+9N@+Pbd-+}PW^DarmAAHvYWa8>3UBmIFfyFWz^
zX6LdP8>%al6N6O6fO}S3HCedK&lLU8!m=>V-Q>SB4ps)AG+0#S(s*Cs)s|wkPF1bR
z1?QCo8(2%E`aH{wO|5u!hYeP9sUeikal*~jJq^yXx0<^9mrlUnO3iW&`jGR#BFO@=
z$t%RRMf73O(JQ_Z2b|All(JwtBj5kg4l{XVzMWg~<2&iXvLazL@Tq>Y<U8pyvm#+^
zdqovqtIt>s#%X@pzeFRvb9Ad&k#@k6*A@UPfy{Ubd}KORq-U;K9rj-b61VN*TnQ`(
zAOd~lWWCA1e+J^u(YoilD}chQT<S7)**iw|#WVK8C5sS?zF!CDcP%KGsqK#+dP+=c
z^GYH)og_YQy5UMBqaA{4N8myZK*Cug5=EKHSZ9flI*!1*^6M9exsD+UxI~|1^>Dh#
z$~Dq8iFrDrj<_#_iQIc*(mBK&(nS%gV(wsT0ER<J#jm;8WM#vPw-i_xvG1vpYaIK+
z$z0WzKhSn@$zr0ynQCI`h3XpZISN^WOHx8$Jp>khy+yz{(iA`3@W}e&ykdCi=Oqb+
zNikK%{!>6I{n&`Y^<~7SLT;)bpk5`@VCn7Z%RMDPv6zWL2vW9h0L64dLEvNdqkE&z
zO%K9LBC}Ei*E-PLvuQ(wenEb4JyKsHP2Diqn8-A05Ijl#F!ddPV|Y!qA3rC^qKY6y
zXzy$sIt)|Ef57^fKfy7rJNgnsn9ikAOmmL}O}SexMvMT{{8_}GroKW$D9Vmq-Wp+N
z=VR95etcL`Mx>T@#R!>Yr;iaZiwr0uz+|wA2aS|aOOCULDa_wTZS}ZR+lpj!nCIZz
zB+Gw_>^k=qWO-YK6puV5zlR~YVGXu)Z0tHv*mYoISG2Gzy0&<~XMNYv)c}Ms?9taZ
zLv44Oe%keCU4_u_!|<+KbsyGkHl6)!@`>A3-+<BeZI4?zZoT{AyLaXaEhDS1Vwkk|
z<K>T*H^Xgz(frf)KWo4D>d!8GdI9~Vx_odqZo%3QtiAfz6Q4}nA1MqTEwmlQB3;q7
zr9#)(>V+>u4L4t25B1*p-sd66_*SgY(fe`qqv%@wS_2&St7oBue6Vt3<u*D<Uv~9=
zocbuW+1B}S*GFBOt-C+2{iya~d*|)!dV4hAcJSUyg|=gx?L9QXCgyqhqnDoqyn7lx
z3_NLo@A>1okLDgWx8B~f-W<s{4Xj-$G>vXHwceWeaH3+6&$FlDW&i<;k>^)my%}2%
z?%jHm2Y#Ns!*jln?R)O~(los`gUuE!Yy9V}ksGhBEo}zFA57espvU<e=f4h#mTfkn
zzKcDMgm!kck=$YtIP8$C-=bF*e8Zfzr0$u%I2KMr2d2{HMm{FyXu_{zIgOmP<Z?T<
zE!26A^IKBT<9|9J29;a8J3MvyeJ8d#Jh#Tq@E-pigul@9o_zngPm^Z(vrA7{ovDG*
zT9LghlE?@+KOIvvm2@u<=pvclsz4BtabyM>G2$JhUnxXOe!LScan(>6tiTL2i!O|)
z<Qy{N??--}aZ&nNA`3w>e-#lmuUk~ofsAH0Q%+B&v?u~CXJf3$E^G|;6UV4?6Nh;c
zxDS`LXnYF4Hi{>7l?d3H6p-TAspd~Dn%Ja}NKc1;ce191k!S*T3;RO$V+{NP7{7;A
z&FIOtvOX*TFj^A)XSCbxHb=rw7!b}l9S0L9n-wgG(27MY2Ql;Onum>fEZ8CHBWyCy
zEITU_y>?U9gUk@=N3!@u*D>`|yy6UT8u8XGH_!85c{_RG>th_>^H1DxfgAp3F8E8q
z&AYx9IsOg)5!d^O+xH81_>pkpk+AQP@Z2NerANZ(BjNBPVgE0DO*h|J_jO&T%W_xX
zi7UXrobUa{Hizf78#P;0^JMpL@q9<VW9SJ-g<q29&X0YC@GyStmnrut7w`WMj&cU^
Fe*@1ZX9EBL

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5ce3920923716514a5b2df39e9fcc0fcf3f0c50a
GIT binary patch
literal 9244
zcmcIqO>7)TcJ7|vp5c%){QnV6wN0(Xp~#^a$+0ABWlOYV(UK`g;xd~#q|uzNA&2Ve
z9#{8JB9}shM8HxolGq3qBCrUc1#)np92DfTK!8O~L4sU3kPRvgE0M9uA-8d8!HeXQ
z_o}*kddT70I%FU;tE;PCRlWDU@4c$hzqGd}1^DTak4y0pLHISkc)zGy*!@Q+JP<TN
z6Lq01=EZU-9}@9Bq=)li_#4(E<!C;}>LPl)EafFuj_QeWGM_BB<=e`se2Ue@^!9Q`
zzJrzHdb*s+XGDRBbOhu`dS|&S-^IQq^zL#`zK4~QdT+Te-^a>rdVhH!KfuZ<eXu-~
z9}<O-Ksv~wM<SnbemEq&Cur^W1g(Q4ABEl8SJpz=^nc+?HsrL=|G|eBm6^*IXRgf7
zz2}6_8*6h}(doPT!Him1CNrjCkb-T}h3VOHMTalR1zj&gb+NRR4Le;|7W^g`REsDJ
z(@uAw?gL`0nrf>~I#7At)CovxD;XtQ(aohLLg6)i1IE*;I-%F9cBN`VRp)uzCWc)y
z4NneKc3d*)EtP68u1#)Zvv!b;lf9sug_~BO!kwn*#IKW&s>HGjTm}5eEDpuptDvu+
zf@O)27d0Ut(nKw!g-KY8XwhP9Qz(jB>|QD#(c+q<B}i0DYHh`smbw?o$Fz15XYUcM
z1KuU}o+gQvp5RcttYx%LzkgEeg7$4%_dOw>(s~HU8H8q95-jMI+t%ZP(EL^mVXI<9
z>xJHFXx&aStR|%OK~1ODuMKE}B*WxnG%lgb?G@98piMVxb4VN3ULhG+#|YH*XopEJ
z^yvf1GQ9V*Hm{NaE}cp1B7-DOqFff2?8|)(`V4Ifx5fOS8$x!}>DrGUr)?FGqZAl)
zXbe{2L?|G^N#9&m3TQv?TN=I<BJl8j=z)md-E&~6pNS6y+xsHimo|hyh3^~UMrb4a
zH=>7f5o%U~GTa__L+=ZJEVll(0@~jDLnJ&3@!C6)jR-wyOJ19mHm}t9t3^ET1J8_V
zF+Em}--*I(qAQt3E3b4Xwh>$D^4=PM@5GHm-!V?SF^=tH?M^%-Y{Z!^1Wywig5u9}
zO~^`f*)Z*fp(ysEz3_07Rq$LxwM(ny()tf(!7WRwURp01OERyOU31D{J<bOdbpo!|
zt(Up&O5lx46l9pjdbUY~uG-*wvPM?-i^-;(s8y{H>PU*h_&{;G01q}*4Xa3~3kj!p
ziP%b!nq>uCo~mATjI)OmDH%o6nLvQ$w321h(qh#nS}q_7%l_<htJ8D<SDt2=T%A^c
zr7AX|6rtt}?M3fZwghBAC#`rZCdN|9AlZZyv4~#Wqf^=sg7_GcC)^1abjwL7N<mjG
zOHr%@w2|H4-Txs|cDXWDDODzImBM-_Z&%+ued^|$WJ)hBPF2?IWz(3#`A!9vI2BkT
zmi;A8txivQGxaNTl{Gp9gRURiyTXO(oM!-te}eUMc>LzB@J&icbli{Eq=Bacqn{o5
zhjcwGBnH0`LWyKOCS(rnq$g|X$?f#%ZRs>TpZ3Z-y(enDCw6*gYrV5iQv+K+*bRsJ
zlAFn|V?wI$%T(8&U%7u}d*JQQQ}6s|>c`Lf$9MYA)cVhCUVh#+w9_?R>zckl^B-QT
zna@-2e%Up#IrG)w*B-w0IPzF~a`>&y$QRP^E=&)sSLC4pSB<fNwqtGVCWMD2%ZX89
zSE(^qaNQTX2xwn)huw4VcmM%&Ls)^*-rq{FkNa^$EQ%#zBlK6|pNXQdCT2tGzX2a5
zJqz9dv)Qt4sv0_uy-egQ3o>&K8Ij9sd`rl-DX(6=`oU34uBb~y^QAza#cC0tpOfd8
zOO_1(3aYLXts%r+H98}%T3#ejLr}gi#cNUlpy5!&P#1L~tJa!P@TaI%DbBQPYDAaG
zZBnSB_vVtml=Gm*GyWT{bC1I1u}jUt_zYX6H@Z8)T$70Lac-Y8vZ`soG^U~IG8n8{
zhEQ+e2uud*Q8s}Y7^O7kG-ukRc~0}7X`@<RBvdwwGSLYaR5E1r2MjEhtQwlEt7||g
zhFXSqYuT*o8fdO*YG^YHz6Vq=mkrU^002(Ah318HMb(s>tH7b7P)oD;7>9?2@d*?}
zk7CUvJk~w7oAEdke5^^xS?qTh9(RTMh>$q88QGDBYtrzJG+vX&KYP0-UHoP7iFA>U
zK^rI8n12(ZabOl4&p_e9L3qX%dwv_@BR5fW(L5hSGfSrADr8?evj^Z3O{2<Ig%nD~
z62J)ciTFgF06rlCc$oIJ%CP-g0e!1vFN3L6FVl0yGR#_4+At8uZo#aqA!wOLHEEN1
ziU|}=?4SX;6M>`9qFNyGt&*;T*=2}$#j4Jh#MUvnxHicb1O!ZU2t~$H00#R#p<xY<
zdBhds&t6u61W+};5_}AG-%=st1vM(XH!2SBH428IIe1veIv$3OLwWu67ChZT$OqUN
z0~#QyPe`<TI67XFjz1pyLORPKB!NS)k)3wXx1p5X?3|{c>%NSO(c}gA^0G9EnOHFl
zR2d0S<^Kl3#i`O#S3RawU9*D%n@KaskuHvWy#hwiV|`9-&6o!Q%$L(djvl~Va{PX@
z*Z_k(2H8h;FC++GUNaGT#*oKge^pq{%@e~iy}sOW{9wS51#7KR3N-0Y9T<oG*aW}>
zSxjjjrpeOs*#0dQpKQYcJybM{`JS{5HU&5EXuBc8_knh70SwB4n2k2jPp1KE^mp*V
z7!^Y`TO8-qlknP_Q-cEY(8@wq22Xf>AE!P|^=(NHC%+Cu{_^z1X-G{HN#+^_mkFVx
z07-$%sHdRtGK~5Nd&AG=Q#lCvAfG}!XUJ_<7K`<oX^_1*_N}c#EC;~v39k^kOAt7H
z#^e-)4LN0UH}i#X<_zjA$edm>Q3M9GfS7qA<Bk|0L`JI>N>*9WHdhI~MN5$9BT)BZ
z*UeA(JY=>)e>M$V__T&v$%+gY7MjJ4slN-wmiBMz_z|?S`rrZf&jgqdBkC8@1n0pF
zUmejDN<LCbn$<d>zO4Bh0TuSZqWbSa^F!JKK@;?I%cM66owQ0?fVpIt18NSYgU1wT
zW{4uopa@@4-jwAfVz8tLO=I2!&InlLI?H(X<ZK7ZmVKEFD9h9|%qooS?!Ek>(Fw<z
zr-qg<L1TRl=8Rc3#Q%9(1#Dub>$X)q`D5AaM3XeT3Sk--JZ2FC)8#1_95B}j=w86U
zFood}5eSvp29w}y=FtlnLSbCQi#3IUEF78XvRs87=OWQfrX|c;h%HyBxe98>Ohs0k
z=7SkFIuN8HmJIy2Y-+&D_`<%hyr)7-@E6=OFc&X5OtI~$J0UNkzll%`M)cE&;KMB<
zda(CTu-7mL@UW2S*-4Mq(xW@+<F)kh?dkJR(igU+3;Q_>$r5wC-DP;d0g2CNu)o1M
z?D^plmv=yLN3^jw`!yg;@hCy`8105&`-dZqx@>s;SH2$K0}UhTpr*mHi+C6(&%Wzo
zxu}+K4+A<zt9}<`Z?u#_jDiUXDWM<;rO2>fH!0vBA>sWlmMiuen?$K78+<sop==gd
z{Dk4X*3Jm(p3N0`K*3~z=lERqTsGpwp$SAs%J%^hA_6y4P8e3|+S-Y6&@`F*Ezs!t
z^a18Rc*u{Tn}tyjcHbGHYjCS)XK=DMIJrG_ZTt6r^rUlPGxlX$_a~P=Z#(p_-GhH|
zYV+DRuoLh8xVo9*>=t+3kK%!o(+yiA*dLeSL>2gsGe!ZC;{75}V94P+;sf@>!5(f;
zJZAEa#x$`Q0@4eqzY3BbLZY!VGsrEMu{gaIR0A_{v?Lgm5eMMMHx2A;3B|pkpAasR
zH52x62(lK73Seq~w(hD#9=pyN*3HnoYIAV~PPrSfKzOtmLLP%Xj+fl|J5B&PKw{0G
zxQ8uI>E5Do`@}fK9ksEiZAshiGTm)0H{AD99FBjW@@`>Z0bWyeN>ptPl4p*L#@a7=
zq&9@Efm#5=DP`5h<9QcA-uCw$fC4=akLK;~4AiVo9)SGT68{o~9D@hM?IQu&J6B7e
zdz$Lr?j3_<Et7oSmZ?WWna(<#Ky`As$CxWwv;#VGw0n#9(2fZAem>f9^Zhcp9iZJm
z2<G|S`UT(QKdQhb2cGx%dwm)9rck360mLpB0!RQU{D{TFh@bupRGA2cbyHY3g>}eA
zc!vBA%$L54kBjiIa2+Uw=f>~B+xoE<3O`8d-=T~{@Bnqg5ud+de4{44@px(b?dxAi
zH{4vwLc8O&jAF8Tng5quX);I~7pf&Vn?d~hTRRNO>>|lM9|8nhHmL-Bo+YHks!>1%
zd*?fI*XHqft5jTrbb;uQAVBCx!Fw0gfd6^jGACHr=gBXO<V$6T2b5rhV?vmTA=Wib
zH87|BJhXRQd2H{k7vGKf?PRWWc`rkGPTI4G%4!_@vOT?*fm}u_2Q!fO5hq7m;G~t5
zzsKHgCNdCk$y2rTsqNFVPtxyiOYd`#B>ZsJI<&m}(NrU}uw43H5Faz(7!WaTEfdJ&
zykrxyWw4Z+f=zha7~B|fet;uJ%uWg13Va9gvOE@&2ehgeAOHo61Ob7`riRI;&39LB
z(hPYp9x?Kvd|E&Ubx#@%6Z26%fxxMnD<5(XBxOI9#$eba1*zCu+*lw1#SyMm+(XnW
z3-fO3{-H|MGTRcum?fj2SKYKXxF(J)t7#m628(NK{rrxj;T<0AGTy|!Ni{`;D~KG-
z7+`jspzwfdeY6Ge_R9HZ?D`5kfS5)CpgUPhpM3oLzbrjTU*483Gt^~=@zMy--4w-1
zDhfC{&=izYit<ra)%h2Smn`hkgCb|LqghDZAf3YlHYdu?UYr;|e4%*AKyjx@F&l!f
zxKW{)xI1Bp{S<RLC$eaoI>jJIk$7nvKJZqMqJKFN9d4kUh*m1t6xZ#vyEi@sqU(wR
zTie&6mThg{;o89)K#C7sxb-K1_21kR>Y>5t+2_5l)}!zjE?d$g^*EL!VJQ0|fu*zQ
z=p}J`@`rT+3;)#3|3Z?u%PQ)xwMBpUS)ne#pU2uR{;3c3Mw8Eb`s-2n3o^S09!z{X
zQIF%BBn%v@C$N+hy8G&FSV{@Wj@@=B{dZ1^PS$%mqBG)CdGz7TFQj@HU!EsAHmy%i
z+`qkb<o+K$4C9B-PW~djot~;Cj_*dXNnLJ__C5|jp7~p8SAb&uNKdr$dFN0)3V&e^
zBd^xuSdxTf8f4AiU*9^pojzPk$h!%wpNK{0#i#vpJ<JN@r`^JbH+ES~J(G%Ffmuz}
z!&rEp7~YLyp+20B&WdaxEWk)T16$!wPuJt@l?`WqGQTytWo?ap`iBp-TJQLFdc2l6
z_H6=NFpM#)WJjEsy;cGDrwD3}qw7#|#@rjWT;TRI$8I58-7C^pu@Acj&p~8^|3Sg8
z!KYb|z@^@AySL0O!hf@%xEbS+LwLI~`DG|gV$C3*#WV~=Nsfh+9CvsIS4U>w{X;*H
zT7a_z&C02Z;2SDH7te&99@fk~{%O8ud!=av@2Uk7MFZ}$C{M?Ryf*%4R1`ajr+CZH
z?_c3IHs|sH+q2L)_(ahcnEL-(;HEf=9i+3|&Ck&yyn?3))&e~0VNn#njS1rGzZOz2
zLLo8qLK4K$Z$l9=^tAww7fC@p@=SQ+t8nI7<ifMaiD!|wo<&YQiyZwb(eufVpCm@^
V#=eRDBqYv?+k?km2&}}${XdFmuGatn

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_mp_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/lmcache_mp_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..86776b0c95f46630d5d821eebcddd2c527a736cd
GIT binary patch
literal 36054
zcmdsgdvqMvdEYE{7uW?B*aa2<@gRT!2ohKj4?=uX1YZCs@de5xBw4T(Xn`4!AQunM
zEJ$JvT8ynUpe;va<CO4;UDGG&2~_!{^yxVb)24}%x~Y4TG&=&7MJH53H*Rv$)6=d5
zI%;#$$M3s$Ub`5Oa_Z)f48gm1?%dbh``zz-@BChAX|aGS;rq(uZ(b9GKcgG-3K)^K
zD+PjZN00=`lMqJew;<t}Di|s7P~4mFPWeWBQ~nV@yZ0pur;0|3rUD~@so+R(s(7S$
zs$`^uJ@X_&BOz8#=}0Ml{fV-v@JNI`D@>G6Rg6@ycu^ucRXI{QRW(vIRXtM8(gKN1
zQ#B(sQ?(<tQ*|SCEG?L*pV~aKnZ=6}4O5LHjVxZ0Xqpm7M2{dBDF@L`DA7FCGSb4H
zIol~sY?*2uX=UkUiLF!HMz&40jkHa*kF-z4Mq(^IoamU^KC+#~BZ<zbu8}SlFHdw&
z^^Ekectv8zRPRVHi$@dBOzj-m=@AM9IU?_R$HPZ)WVci)?~(V)`)ZLORZSGIUr(wC
zchzS4giqS^hHqrQR3jgdYUR>PSIo(<f2BIP0wroD0#ZHl9{dD(Yms*|^7cs$@?NQt
zwM=auq8Qq2!n4B#!gGQoz9C4>vT*5!-JThH$ID|QM`a(&+k(7X-T`dT^$!0LMvfUz
zTk&-3x~KiD<TgBOldG&62Uu!5Qe$$Zl{z@@iFN!X)jJgP=z$YSS&5G&<XC|ol;X+w
zcp|Q<x_@F)PDnAoUON2B3xlKm&ky#WIx+N|?map^uNR%3q(TWjaCSC1IWvuzZ#=Fh
zQC-R8^ki~0F>~R9tl+lzr9@(?e`b1O@<Pn3SDbnY@o9NHIinnltMceey?WG<c1BLd
zsSA48k$7$fee>$Ir_c1q$1lofUO10XnoG#aQ7Jx)e(2TKqnBrt%XWIn>6y569&O2I
zXVI6iRq*Uwa(0e-TkdGbN(`ZoYBD~ZJUz)?sr+a%DNoaTn*Bq`5K2;a2Cv{z%%@j7
zYI;GLnL<`&a$MCTj`Z`%cv97i?Z<kF9Un%eWyfcft8qm_2a@tN>R_qS%(2AG_+=Fd
zK^A*Hu3mIJH3rzD7oC$oHz%t}Jvc@MMkgh;TQ5}P<eV}+ZmbvvP=162cWZAVxFakG
zHwrEY=Y^z|XF*6B5C|AFVrujxa8;7ZvTH#wSK%)T-z+d8^^2Y))?R)Nso?T}ASflt
zp!rPlnx((!Sr8;2t(o&e%s-UcIe2XrFd|E$^%i1sMjVsHxR{)qO~~TRgqXnOsGZ{2
zTvEI+lNA4wdY*dSf&>fB#F^>Dym%FWp^8^0lNV=D;Ntw4GAW6duZZI`hvHOxIu3a4
z7GFrn084QeD?se(k|tGJ7+pMj*X1i+EPI!cUA%fxo)!TqN^)}gf_MdxuFyzf(G*Xr
zlMIH&W!=xZtoxGlv$F0@$kTf0+#JAZN*+{{87vZ|8HH5pzxdY|dy-SLJ+qUuU8weg
zob0+bw|D=(%X{UX#N=4d>^%BE-9s()pmTsQyuK{;T)r}zRN~X>gsf0}++1TlS9*IA
zQ>@dYQ?qt@_w2l0p~w?6%2Yf#Y7Mfo9ewDb&b)@;hOk-`Nf*_uhRYX&4@;_UP5yG#
zgOawaP~b0IE$;gb>D~SRY9`$`ln$I-^CB%>()KtY1WFe7f9VTLp7)AsAC}c+3p}M~
zJ!@WXxHv0#gT>imAyjqiQ#TK$eVf+MhM*U#vT{XMM(31-UXq&n9CealUoWAzq&uLF
zaRWtC34zEb1Kr<2<W3IAE_fCSE?HnpnfZ0eXU6Pb<SexB%-AK9IGYLh-5@6;@Q!Re
zXDBy??k<(BPkYB``@HbBXDAj>BFLhLre-8LVZ5{MXLovdHV#aiu+xhH%L!>zolMEP
z53_z*5Ahl1W2G1K`K0G>dzCI!taMYrCYA<H6h)<j+N&8?<akmZRZWCC3hYZ5RXKpi
zhw)!MkKl&z7}K_OHBhk{h~h635Ve4q32f5>+t}?EEwCjM=+*+=j@x!E(C)~*T?=eq
zD=i8YW`!buq0)(Z|31&E(u)_wyq4ofd4__W6zrm4HwAkr*h|4a3icyVb0(+Cm>j}f
zSRdxh97M(;%52X}%TIh}^bm)kiy$+ysx+d#9O^;Ki7mk$h&Y#^O*4|#k|VqhN?|O^
z^8z0luR`lb_YoS`{bTb<8PrYbLmJ0~96}oa)4&cUj^h0pP0oz60?JWjf0c?<Apn>b
z3Zcl?d|!L<cFEFbS4uk4z77s(cxqiHdRQYC@Qxr0BOXZ@DUduPUT~JaOD@aWq--OF
zPt8&E)Et5N0&p``7NIgIHt_~>>TAVVoFa>ZD2-p7oR$x;q!-Q&9v>X;e;zCt2$MKB
z3pNQ0mkN!>C$MBkfg@(d@$8WJ^3fB+$TxcY?77j?XO9lB3i1=FmRV(HTvk<ZYjFt_
zY*gXQ1ChQ%;<>@21Fx{6L$RP97#*FCPsyXBdhzHe5EIxh#6zQ_pPP#(j3-5-qteVc
zl6~^@+?4K%&n0KT;n+RbBl*41{j8a{1vXD?&Xs=53k${(QE45$A$(Zi^9QmaA-efi
z>z&x`*w1gjacXswcq@5l{`UOOe?IN2Tn$w%4!m{Z=83PI`sqPl8&yPgSeMs`twHi}
zO#O?3?3I0zhnAM?mkSACabLjiC9iSsqkBwmksSDr{~aRNxJH6<z$#HlIi#YIV!06I
z1IAqmy9*k3A$C`6+?BGs61tPiF3~#6yG9~%8R`nL{B=?(1d4L0Os<$Hkiv*Zjd%p{
zN~v5fM0y3{RZ^72D-o}js?0v(X*E(dp_CVK5{YVzcn#vU^R=;heN#SY4lD6-pdh{2
zfDdq$dMUsS>+rHXO*|&U5Nz>+DGf{VM0_rh9G!?0pFgih8E67hB?qfP%TTWboLJOH
z;`OO|IZGwB-6){yQA%PA!9_?H3^}QKH6@ztjU(O9mc_Wa&}l?z=IQ_1pCACc>$!yA
z{A)oNwUUs-S>8xT4rAU0!NCT5+&BpnLQuwpJK+Kl;i!ceC9u7t7BkK6ERKZTS!{HY
z*aLQ5sxV{rFKV%n*1Qla7~))LiSh#SD4(K$@FSZag~*2TA_Xr|@G=Gc6r7~s(+D63
z`cyeFp%<C>fJVaP8Gs0wgg2TJH-M9FGsn-Nm`dmwoMc^drmj<~>s<7`8D4E@%``lt
zH9WKEdl0C5xVe3KQzq7@#rjq@AEKn%)h%1;S6ppwq2I>UEv@{1TO0jud05qvsoJAe
z?OF7FwV1E<7BrJXqNvYo#uY?Jz;T~(w^=4Z<(fxn@K7mhwor|6C9PR<;}$Q2s6&kL
zq(=KM%Hx+wNJw6k6%m0rKBp)U7e!-W#c5fVRNR4)m#@g3kWUf`5_9HMSz@S{sDX{^
zFXZ6*n4ixcn@5^BK98pnd)uRo;KxZx%UD}L@w~0nwvA>lH{UN(HN>#o5V8TGv^*1P
z(?V^_t(lHv8va7ZJ`y~o2Ua7McZzQpKWN;UY22^jFS0-D2fNRyueD@QjWsQ=;bx<0
zvAGDh;lJF@rU%+BOpmohP@Qp^)S6Ag<)=@=B+WovninAsnR5YZ*lA6Gb5_L3=?%$d
z%*WObpN3QDjY9ZD`6&d>nb<U`Vj9rkC>k^;1P!KoHky(R3j7jPO#HnuH*cN1dGbMB
zPp0mOhQH7enwo8xnoMMi7TK~A*=o;;UPiccTE1%FTz6ziVgt?5HFtFBNtI&J71&5~
z-r(&#$}mdC3K$S7W7JKWcN2v)OimMT3-u2}^oH<ZqW{$H4Ts@L#eS7qi6Q{934}6%
z=Jx{4cYjI??EIrZGXq2Wl{xwN3B9r>R*-t@gwZp$$njERSnp6#sEmejC5Fnt%LNHo
zU^aXakT@|nJx-b?3l)r$>?d(mgTb$nvVm1Zx(mrfCTh1;6V!SP#hWuA=g&Z0?hH6d
zZR(j%HvG;q-=+FF3l1a^EX@QO-wQO}g+RFDj{=Q+^h*iYxKsg#!F}*a>f8t?T(XEL
zG8xx`=N$vLcm(J)3sSGY$oOJ5I;<@bZT+1Nd;ue{dLc9z^0Z`5z(sU8X9+|Mq;3sJ
zs(qtj&(Ha5R96iGtokxG*jyTK(*kYFrSAv!tVg;egfd!KhT($20epuWHT*>wAd=QF
zyVE{%z>(LRlh>k&Xv?@9d3`x~U34styneK7@iS&!f`Aqa@x(>Hf+t0IQfB8hV|Wt4
z6N`H?(^+l7Z<d2Z6c44gY%uigHox1KD(w^rTQQbb?Mp@ZEuTLwmiDDK@x(lK7r86>
z1C9?2_O&ln(aCg%qc-c>m#XR%*K@ResX!;`8Iy9K?uo^MoUsELG`KsGnq3(?#uen#
zA8>GrJgba8k%Qwo{tYTtzlGq2@Tjc!UhA**e77gvdn_w>`aN|I>l&7%Oydr%amPws
zZ@TswB<~a-id*guWLkG?t-DvmJ?W;sNZr@^u(fU3muWwuwI5k&J(}Lat7u+r-kNFN
zt2OUUi~Epof75EymQ2%Lt!Zz%ktMXOwrtC^^l2@9>E=Voaky%=s`k#v?U7rj?|QP~
zqS7r{Z}5qHMhkk+aEg-)K^k2)r@(a*9%UM->j*aFTBuqvUQHVS3OHVt;SW(-B`^dH
z3P<0%e)IZQUQZhca0s~IGgP~XAXcXgP<)Vr;|O#wD$v8Dqw(qK8B8=NfQo4%oT_^#
zr;`ea3Cdv#7z0oA^~qek@>weD8=IL)a5f}PMI;I?P;i+7_PVnaJ3|2}<+u!fmSPml
z;J>OP_!$AZ+w#gUoy`^smEv8m7HwVewXRk)E`46B*uLW1{$W7aw*CID2V0Lox4Tri
zH2(G472grigXWgBuV!h>imw?pG&ZGuRkzd?UnA-fn<;B_#V4+|Y)Sj-mikwGTaezm
zKeJ^(+cI!tFkK?9_y*Q|0sr1?U7^4Du5V4iPd0*Jxsu1LJ^o$y`_}~gWD9-%-uuxt
z0YBMLk$>-_P4!Ftx98XVh-Yhx{l!aL)&%@yYdrp@rRZZ6YT~a=FFTI^)@9l$*0=y+
z>WOld1roD1LO}O25uU_;rY4Y!B)=Sx3gw_wg#Q642uoq{8$J`_pdzqy(9=Sx#PPIb
zJ`^j}Yx2R(G(WNR4>8Sue)#OUK|OG8aQNJb!IuVMznfHGI05wN1v9gH5sU&%at|{+
zr9yHW9ltmSjd7UC(j0q{qFAA2vL3$82E_$&Xa;6Gi#Q-RA#u82`^Su^*p{OlRPRHM
zyvs!OIr*MIK7hbo2*yG|3OuE0)4c9o@FJfJ*+?Pnx^Ka^;Gz82{R@7{a~W$xNxJ91
zUbs-W;74w(xD<MRy(kGTmtQF1@;=C4RA*Vjt`os=c^jVVdN3Jw)aF8%K!S;jW!FMr
zA^07ysX6_Q&wATpv_ZHb?^-BYD5Uo_M;H=P@p)n1A1h4#_hJ$y>3U9{hUqpbGbV{q
zByq|xyKclOi3S{X7hAO)RW7JpGs$Ze%{&LhVF<dWfNK;a>)i!syLO8(mD-Fe)s+XT
z2l9Ao{+PtDxT$~;$z&`tz_$9Qv|?<Os|emM;EIoCihDWfoTrC0yF;-O-8(fotuSJ0
z(@`709;K|LD&{3g{lXAvtVH=d#TO{JjzF(OJ)`j}@yP@k4NWCg1(R`-@e8D2<(=1y
zDUJ0Pc6QKpC8>MCE!zFmy^zz@64YvrE`GU2Jo22JWF~EMZKh%yp^5JNtp5=esy{#g
zRe6gbZh06A-zv&PTD3^)N@%Nbw_S^DUkP=thN78JyB2C+KC6YET`Tg5#p%Fi!r;%`
zdoHu<jE294GwDFxYE|3vVXf-GV)3Jrs-^NTA6~7j&s274m0gR2s}-A;I_|!%)$P$L
z_AK^4tlzg9*~A;X`{MG>bfgEC!_8%jr-Afq#Z1jkt!C%F!TVd%HHQ{Y{IH^9wZ0`&
z-=)=eL4Wix+PHlB-4hR@LywDm(Xz#UaKELMnNYVD>Rwjwz4-R$AB3J=jaDz7d=!py
z9vBPWx-4|{8beoDK={qSO!TaJ=7~pkmN&9;G{Vut^#bH^K?n>Pc~U?EFnR;9)FPP8
zy=L9H=5aUFW-i|aFCi*c+9Dh<m3tSsDgAVk0EAuWhbxL)@H!Ba54l{p=Y;~wb>06|
z#N>A%Cf|bpJB1cvDzXq0kS7q1Cl*M3WG%%Ugk$QT{yyRyu6Iq15dyT80LJPR!R4Ep
z02NLM2{<>9Kf@F><&%a>0}1tZK_{j&WCD)ly2aFMxoxnlA{RqMyY>sryi2Ob__PS+
z7R)>G1mWV`hSvA6TU4$Au$0#+xPc&6ti&m9>x^xLd6XV7t~3`-#)=#m@@FX1KcIji
z*=CCUECQ7jcm|T=2rde&b<WUIS~#xrNjNS)cOh1``VjR(Laq^jaKhbMxcfnP$7*yF
zkVbh;CPGMV`E@OF=-nnQ^1`BjwX7;r)~S_sE_zqP6}LvUaO<+?y>N^>Ex?Ik7kn6k
z#p!SiE)J3Ct-YCOn-*<b3AZozzZdSYvUM5RdcgMrxmJDo+5Z=u*Sa3(6$_P{Yz#LP
z3*`wC%I9cgiDgv?BPc|#^bpC8lj9(|7iT2K)+;JKT%_R36y&l0Y$7RG!GD#g+s_D(
zBGE6MT@6>KH+5)XV)$X)|I*n<{_<==hre>Qyglp1@1xqySwDV((CZqqMHCAN#oIp$
zBDUrg3M*Ld?590u)TJP@Q$d#fL#mu}=+vKa{I@O>J+B=^($7N5GkNqyVZtMM-Uy6%
zr2^RpLzfrEEx+V@Ll`NP{0NJrLWF@uXf{WJPy!U`bryj2o6a*P@a32lh~uUIYdaA9
zf(N#5{POE2NXA#eHJXUt!_7TrF9lOO>IKc8n}w4Fkh`D<Oe2e-E7F6bqs#*jG9?ui
zZ*Yl>GCMRC>w0NfU3L@n6La`KZU_$pr8kSTKn=_+tNRYXT2jh}QjeIL4S)o5xcmR0
zk27?^1<EaY&BFNXtV1F850RFm5UY$!64VmRd2Q6}l|v)G{(apF>^I+?DS_WAy$Mz1
zW-YKe-O%-Zpqn!V$YNdAY?9>b^kZ-*{w85IeHaQj+ek0yrZj-77nBAq8$%Z6jO95<
z-6ka+W(?S8*PXuGeJkPSw4u4q0YIYQ3;+WtbO#`IeFJUYfbc5x4d78cZmLu001MoB
z7ii21-2I*K#A`e6A&-l&WeyPX`rLE4aUjU;|7OrE>k;03)dyXlRCLJ_mGI8SWvhIN
zeU}0hVgUz-QuXIJ^q9*wM|&6Q6fM!%(&cdi+n2&a79~q|pE89Sb<byXPqFTK6&^fn
zcE5&1hv>kFA2qEsQ*Pg-naSyxmzg{CkO{@m=%{RYGkDH%?onn@>?x4JG)hMZGJX!3
z0nnRj7elKxo4-~1jnc*ES3@<KP?HvFTCM0>zL@Dgs&yYtcX72^!)n9UOhb>>(39T0
z14^^r#)pl~ciVqu`?t5RG<K&OK(0JHDATt-^YzbgOKf`c&U?MtB5(PgA9?+yWm&IK
zyA7lgly3OWE4N=+T3D&-)WV(1suq4G9e8H_N+MLnz_JCAPp)sHamZgfOe^&iRL9km
zr)YF+ecQs#g|B=e9cW;^1IIEzl@C&IoC3n2T$1|*irt}rwNF|wz0^Rv<1!o@Mqxm`
zjZ|i~JHiq0S1CUQyQtMxME=Jc!sCJh|FhYE$KR9QeTGy}Js%Z%{4E~^g8rR<1;rFM
zez0QWC}CYDAHMbx2F^*k$PFndNJk~F<bw*y2NjZEDk2Y*i9$x!0&kR#6he6vWQ5JB
zQi2*u4uaT0ku*{)h2#=B1V{JHR-0CYyT~Iad6R^tGAS%Y<cJiM3ZRB6M_Rd5A&1z#
zPm1Ecg56iT*Ctg-)mHgp=2H@tYCv8q;b>nahp6x9S+x}}AlLldJEKQFsSd4eLhdTL
zhP`tEbH%TPlf5ufhjhQxV5B!9XT8)UiEyj0VfEKYyyneDZG}<`@-(nKTclQLD_r{v
zrEN%Sgp+&|$^_w}-;R3`?(xkSj}F9JSpMzu7TyC^^JX@d5o2osYsG4#6J=VFYpc{{
z^sE~x+vGMjgF%cV&+n6Z916a6lrZ{>c6XpeOm1WI-n+gn<Tc;hCq46q-()aGI*e9!
zqRe(_7qySy-Mk+ZN_+4gd<OO+PmOtJyb0CIwoObFOZy$Y>y!@2UB>)Bi@tTU@iNm2
zrGrT8$xG`)+79Uu!HwLDaXpOtXV_Ts`y;sD$r!F(z}Lt0iuGhM^~c2|36N+5w?Dp1
zfT^U6tXx*=GOVB?xyKqBsljVdG*Kb=3aetf!yVdirtOA3PKg^gF|N4kGA%9LQ?uO{
zXVfHDHBpR=w<IH(4Rar5uBXZ=Hanvj#VGcqVnfXTR-uItuU%|u(8J`ZO(tBUTS^n2
zjr$Oo7nn(oRG$Hs$YVC4W+Y~lJf0W4ru+?spT~`=-zYdKKy%>w%*};D@<;`ybPwg}
zCoc!AWtH<U_=vJE_^~;_d%ZA8@(8=!IEPE6=2QFEg!AhgSofan6-AmCr7mfyNl5_<
z?tzFDF8EAY+LKATGcmF-{XCdIA}V>8qqVxcN4RCJMUxHYlXb0Gyv%e>l9&c|F^i^4
zTWmW8$P8U<-iWH^U6+Ui<z09WOL+`Wu%e+<*w7r9FrEr0$7c`p^uSj%o*+=q$w5Fo
z`Oh(Ay5~Tu_QmPT(=%76MaK>n+KY2Qj8!Ucp=B<>RIFcZdKGpqj7~tcJL+6_x)=Wa
zdJ$N8=HMSNcStC|OqJ09>A~~ZXf*KR>A`c%1zj&+=bCQIE{1Md)eB!fd+roU9Hbh`
za{Z;T0V$rC<2x-J?$#vI!j3vZ4fjyMy6{h^f)Zmx0u7FJLj&V*rDwbW8HfzcMUIeG
zzaFz$!WraVK`llA;p}lp2$nJNY^naPw0!nK;NYWhT_)V6g}c(>{prAdgsaufnd)6y
z^{!0yNv-<iYN#RIv;#`hO~s2Pkg+$l<UL(Vnhyg)ZR@S;caPq^eD~FK)y~D@ht;)r
zF5kYKsqWCKJ65VY7fV)4!f)-rx&IsCOiiy=)B9dY@58NqtC6~;Q_J<JW?R|fz=Kc=
znmOS)<yjnfKh(ThTK?86H(&V%oQ!s8bvxcG-SMzxuU%pbO1vLxf{rALe(t+p`CGNW
zUVFbJ-7v6HF_;bwK5FXV=G{!wF|Fy?qVN5{X2z{C`%{jbL(tC{N?L3iIfa;lm`C@I
z5>8#mO478ZY=>4$itMJ`*Jv_m-NU*Kb8YHoDjld@&)Ql&+4F>+7#P;ouLAVWle!1B
z7NaRPX*0!Khgl`p2guOmu?<X678<TVST>UqH{V!wIjVp*44b|3j5F4Yo6-@dbyj&x
z9c$ZS;K>^$%EalgC6nh5vA$`P7W?{)sSdYw;GXve%>>~%XzVHlc&vrnv~XKGyfYox
zi4ewgBPGzr=0^{jv~vSbB8g3vt($Qdfo+i!DBp)7d6ye$v;|Q39Kn-6^@ogUAw+Nj
zJ0B<G37AvaMl&|sr(WV)%+zl2MOB`dOE89JR*}0D`2w~+$co|3Wz~Wb{lpchWaA<x
z#DRXrcDegPH>+ak#HUZk9MituAZHEH0m#10C>&Sj+0ME6Jp9whX&?LN%sp^c`>E=4
zj-Hv1)#f2=axCQgI(6UVG<+Aoi{YYeWc)owt@cc>r+<m(P9=}>n@C7)bpea@b$pc|
zg2Zg#$%qgPzg2RxBwgA0Akf9U`|7noJ>PM(JpUlDe>G6X;UbJ~(FRI_M<Ox`i9dSb
zWu#rm1r;*U5(lvMMetTn6Iic1eVx4a))tf3Q5k>rWWV4`7Qca3jq52Tp1>2Cpu1b}
z2v4cS;ylb&As2YQQ()FW#_>z#_A@hPa$ned?WKR_yOLV-x*z`w7rbuX=+HYoPiFIl
zqDz%#UG}f!BmZc{^Ja9xe`%AQZpKiGeB1Iav#;Q93pXg`!jsvh-aP3O9K4yedqeWG
zO{u$*jb?+Fn$4K~3ogxXzdcZe8#lJq&Tq!xMo{>=WwZyn@XmX;2))oMT*VguS1@zX
zb^XdU?<>MpPpl~ZCjj|klc6|IR$<ZDn3ID^MB=ORC<#nDS5BWk)252E*vD$SjsusB
z%}roeXg8!Pc$ebOAR<;J#)2W?i53iuQb=Lc#p;Whh3$$(Q}Q$!xW%|SKRs@BQJQ0z
zjO|$z<!kcz9J!%95kcjxRk8he?(Sz!qs-Qg4%!5YhN`23FYN;&)WN{Mv=v>%TA!PO
zo4xJ%N#iKaK<Capt86cZp_!zyzsekU5<YDcoScw(ML@+CdK2T*l9(VI%C<zQw!zIB
zF{+JFw+bBV7=q!qv2PsST(V-wutVI;1`H&mdY>OWH`pwmfAQFv6T`HBOB{ZFP&{@N
zo4y7Iup5iJ_#pDB7YEM|pBJ~Pv8eLvD5((WF%=WG8qX->7qJ(APKxV=&>+h3DZR|t
zbwEC9bnj<d)@fJx_>3ZP{pLJXVJkUPbW7M*`3(yGH3baYi(~O5IUSFxb7NE3iDQ~`
zP1U^$h3N?8{w)gLMW6>vHb?hkkHa*0YEwZ9b*t{3nN@WkWl;mjZB7F>1(q`32(~>9
z)Wxykq~Byqx^r@ToruQ&K{a3_8imT5OteRf_N+vE7XuH&wM*>}S`R%4A5I4jr^APT
zSX%Mc$jy;VX`@!!_>H-5rM{lZH0{%x_N_D>c)#@7hn2N=PToG5sch9MTko}|D_d78
z_rjqeRQ}fKo2TC#`q(d&9fWBMO4*XtvdE(MQRU`L<<<w4TNek&_wNfgzi_wiz3}$c
zNX=?!Qzq1?g&LQV-+KM)uRjR&tcJqmtB>7lS8rbhznl#URofsAgu;uTUn!|yioaLV
z^e|NM)~TDPRwMoIe&(^a06N)1w*7*1zL^lY_pe6km(Jha`Xlx*D1^k1>(Qrl>9c>$
znA+cN>>b$c{oZc>z@Z|&*oM~}QxC?9bJ@iG++j}C@nI((I!4C`h_qcDhGWKzFzzER
zs@S1FIWY+Yz_<xu7FuL*M+bbH*vMKB3@bem717Ro^64>8S}>|**hZaGWUDHUb;f6A
z=ZSG*Xe<W?7>=8nf<--<v-BAHqos#kX~dsd8*NOUjJ-$K*nAg%A#A~y6WHlAeZjGS
z*E3o6xEhX1Sn*s96bJgIp|N^C#H_3)bEILwoy?IQy&A`Y0=66Fb<%J;cInt4?~?Cb
z0(`Qh1MsWCEpcWj0F=e*!fw4}a@uC$tC2HD(S&=>3^~ByV<#AJa-_zu(4fbS$$^s0
zWN-OIIBAeE+t%A-CJBCk#koM?PLVbQ1FN1K;$wn=L3}<L*|DcgYzIn=<xiZ<UoV%?
zm_sSHGZfoBEKjRAyMdSG;B66GQw?a~U90ORa$_AJ?w-agx0#%I65H1wJi;5amx+m7
zbF2A;WD)ZTU^U62U4;RuevZlsQk4f3yidWq2vleuIj%MlHEJROfW4YKqITx^0|&fr
zGvPHy{3rIDiT^Ks687BV@Fn&9J!8+w9Q)(4=U%Yqq_!pRkG#uZ&!Lum3VZH#WwiZI
zVb6UVl=^YlbL(6fgFSBq%WW~}_Ul|~w&P|D&T+oi3rr>N1}yh&gXJ!ai%uNpBz4%r
zVK8vc6~Y*3369YD$je&dag`Oz<5|HEPl6k@h#B&LIuJVK)Qsa*s}fGsoa@C&)JzV2
z0>nuL&E$K*j20cViZT39G!W0FiZeJx;i`gDn-HDgQUW1wE*+Rv8u*>Pq1BsV<##Z;
zL(G?!Z!9j)V>^}aA%pU7DfnFq{v8G1r{LdHzzpacGMJ35Y{+9PnOm~WQx<YW^m|m>
z?^Eyx6#NGY{t$sm$butR107i;k}#YrI?BoMp9mfO7gPfB8TmWr8&}u!jho&JxBspA
z#??@SI|gJzeOjpR{^jrQOuz8r`=OU$(+7)Ko6jOPdB4}>A80SqBOIW>+k-zRSBM-&
zk#I4?$E0N6NFD2@WwZ5Va78H~RcQQGpmYnoAcBF71XyyteHYVhT3iC#zXyOdL<U-2
zSUDFlt5yYOw@n9gwj$_Y0zf)fpz)e*@-|G88A&m8hM2jVS8TsBiPNR<Xpjl7Gm0AH
zY$7&eBOMGbPL9H<VOGP$(a`=1?9H4Uzi9Mdh4d+ld<9uKT~)HQGtu?UMC*+hcDSg_
zOwY{W&5Z+|tXc`;O(z#)U}(8dA~O!Wf@B6YF!=FdWlrYonJIUf^|!}j_9kbl%{p7F
zU4^d}2C~P%2<U4kY8)r_52hn_S_n-I6p&QTyl7y}$|3t+k<}imi1t^1j?LuM9Biv&
za$<(C)(jX)6-sf)!dIZsCdomJ=hR2K3hu6o(Fdmk??v!mG!^U#JX+%@J&9l7WJh1X
zV>7f8VrD3YCuPa-&r$vu0IYkj#1pw5IUgX|u>r<rx1DwT4Iv5<Ie{od0b1#@X05C_
zQ`W7Ob*Fm{uaq5uAQ-M#eA32uV!oZOW~QEvEsei%E{*35ivbN1AcgrTi6;h(xt_pA
z0}L95ktW1}_+6pxylWlu^!N;9I~gZ!uv$cTB?9nsXLWFDHaX8`YH~uH=FJ%y#hG!&
z<T{%tol2hdp-VhEJDZ?Ij^2*VBrl4jI_hGI6b9p6CQO;@JhulZ@6<IN5RG?dBLc{X
z&jY9cWMri?;Aom{=O<M#h@GnDfE697z`zfB9BhP6%n_)wrOz~6IIw{$zzA&VFg=Vp
z5nyXYjm_s(_nH$%+GDSEi=<)^F<jJ9NUvDwG*F$a5wljd7*q(>iM;BZ??Ol^zxqx#
zaD=Ly<G>(;>ddQ+953UF$X<$O4_ki>k8p-dNkzqmD1XS$JG6WGBW}BxI|rThh^z4O
z`oP8&%bR0L<eTSc5;8g+^Jg~=qmvilzRt+hNF&Uqn<&#LiHTe-!~r(d>ta-Ra*+sD
z8rxw51H(2rx_xDCF~r2?95ICCVMg{|$Xm5Iu+U@bgq1olsHiUgx<pb^-es<K!+4}w
z19kr5Tv8%yJB^}6|MD44ehvU-;Y7`(URE`LQx!F_0||L`q^~6n3MvNaG#OjYcv`X_
zBU@G_<A(l3vH;EM5aUE~NFq@dtRmoUh>wYRdj=Wi9l{A$Mc9r2IaT4PI6%Fk4&_g+
z@<WVJ%FSkOme@)&)rwrqWFCs%+Lf-2Jt*mLa5}V4=|QLiiZ?ce3i&?e%p=VLn@5^Z
zuIEa<V7;%2Xi1x4>L=KKYY>_l9KXPhqBL|2H1;?kHA#9doLm@B*sspT=KL4bs|gTE
zdu&$Cj_pz%`?mVcC*AH@duRj<^$xZl82<3qZeo5q5=|N%25Fw?L9c6GmNeapnl>_a
zIXE@iOZf=_8d4_Jo_9GMg*|TWKJS2#(q%3oc9x4<i!LTG_ZH0>$((hAwr}A8FXoiv
znTJfc!TY$F#>@qZ5)s}<XUKMi;(dAD-0TMjEcd*4AM7`!w%ux?r({C29Cqw>77ER`
z!MOMry!P=<a4YiKj!Q{`b9TXL8xGfO@24?}*tcrQ+?Oo3Br`wW0QncJjaz6320Ogf
z031z;OZUegW2xk<5Zf$*qdY)A8H>%3$~d+cfoKsC2U;*qOIBf+m1KnsGnTe+OrD<s
z@ujtdTCp;6K-a;`tXH_2)U*8@C(ecn&P<*eyM*OxuSsG}U78Tvv3yO<pLJdfbBapj
zQ+E+afcMXQX$afsJ7WnLgJ2t!TzRjf24hWBi@oy%kjl(eVmeF%Q|?w;>NI#B?AbC-
zS9X}BevEOaYWTI`3|u9efES4;U>d>^Nama74j`}O#01*}-YH@u+Y~5(!H4G1E8|3~
zDP}^%3AY$A3k=N8h@u3#uVA+<Gc!8g4TsT^SY`~f&E{CbnoC^<D}s4|b3^{bi17<?
zupNx&S^r91;%g)vy+(}M`Vle)+O!mK;CAVNQ%Hl{)jlRCugY{Tuq9!_%VQRzl6Zzo
zKQ48&9fvp~w^2uEI433*5EuhCXnJ-ymV^s`J&ZCIburD6%xeg#BvA9y#}Y7%5<3ei
zabofs(*wbjJe%yw>5=i?G?biOvsNv^$#@c52=SWMK4+M0SfA-UW2zGU&#8_iwQdox
z!{CG*TOhpAAs0@Jfwt5c1}zM!FfSME*nr@g2S3JJPF|UWNHVFaV9(jc#w*;xB}N?f
z49V*pJ24j9Xe${<-8o%jma6zT6M<~#!1;N@T+da&evYTMke;6H-<(trh+CyjaR}$O
zp$#rGVOX|Gv9R9A9HC&pF%E7uP!gTYOouQizY655*F#tt!@-^0e43b<xjZ*(D!TXv
zlcUJSHc9GH3>MDtwlb;MD$0*c<buyASTDYfoNYko=X$(E#b2hTyi@UO%zmr;C3$S_
zf@zv%e8XQ*w$D@Wvy?YXIMO~7Le<%}b@L<|-kctyqv60_FwWb>Tw6!n3spo%JsE4+
z;6_qi8!+hZ+4qBpsrak_SibBLj}YCIso1Sm?7nwlrQ*<H(IYzFt5FLyW&#JazyY>X
zo$RX*#J>9%GKbD-ht92t=V3I(dD8(VrMGHjt(mfYTG_t)n=<=PY5PyDl%2*_&yuo5
zY#DEOR8n@U`OEuOqxEEDjojLmiN>^OEE7GXMGvh+kG#7p)Bm!Dzv#<a=+mp=$VXmJ
zX?d1*gwg@m<=7Qp-+iw#(>ti)uWoP=M;wZD3eG+ae+~O+mwX_c33O<Ij`a4v2Z2Lq
zr)|$-5zaDPjXg`h+kUvIZmD-^Jl(oiYuvlCY2RY#VW8}-(9O_ls5iay`1eEneF}xh
z=B3XrAJrP*BifY?ba7K(A)g|J2t8*9O@wB$gT(ln7sVMjybnXXF+1qS0={D~Zr6Q|
z^Dhf75p$Y%nT(WG0<6#_^H3E>Uij7+b%F`;xp_&MHGy67x$PfIS{~GHj22@8+ZPIz
zh$EkiVPrb&cwXt~pb=g0jarQEJQ&PaL3|ltYGD-P=rO0a9t_hsXM-KjYiMtP4B>d4
z=NSX!xbey%Y`uX_4_MRIml@cG5Fikeb&Q;$8!^0ol2<3kL0%a90=&&+f0J{vsQ@QG
z>~MPyR!mqox=supEAJ#ZCR0LZ^jiaxM;Hz6kdQ8?>?-_Ezyz{(;?UPPJa~Asc1@68
zt>#gf&O2uGgzD@u6{Acv1wG5N{QpE)NMjt@bHB#Gjj`q!@u_u;k1?_~X(0}X5MJKe
zbZ17*F(nSoU_z_`F<GfRj(a^9W4BEwom4Ukl~0#QwZTsQ*GmZu+3T=FeJ|64Q3}{O
zV*M05Nx>-!P9wk;f9CDONXi<eKBj=tm1e~BAWbpz%UZwDzs5M(j;#{sA=atwF2rKP
z%tR`F25o^<Y-5ySJI<q8elF8_Nb5YbQgL{(=waoyyH_%8&uVSYuC(>7R32Ikf-VFj
z{2cqcwGRT@fsd=;ztf>rcC1u(E(TXiD&Fe5+4o>`Z)S6!wz==UlD-eI^}gY;S18|>
ziR^hVvge0%2<;B7YDcyR=a78$41Pj~I5v)0yx%Cd8RVE!EbL3BEH_OsJ6FUhz9S!9
z3zp9&6PI1IOSBs(N2GSa%ei?Rg1S{Z4oDinELJCrdAs<6fr}VU`-B~Bk<jRk;}bqM
zMm#n*iBm2Z-)AZ~EI)IbRVVJ)!QKw%pf7{FA38fs+r1_yz~a+qX)NF9{DHRN{b)i3
zo*}%)mAg))$d(hdvZj8Wp=r*$+I+O5PwP=ge!F7(d6V5YJ|n|%gO$%P9*Oz#DPu8H
zn~zVDd~9&HK(D4-2iQ#&i|nhI2)%C9@EQca$Pe)~8AnyGvYrv|Wvp;jud$NZMl)-N
zz3Oo8`){b*w2k~V;>zzK$gz#+m18uM4h0r<FV*I<O5HMki&p4oQ7QCyH9}?gO0;J&
zz<4-zWM$w%pqKe{w`hTu^p>6XJ`MheC2Z9KThrV2+((Y1KLo3G?JIpt*rc+VT;t$`
zm#*D=zve;c*rV{KMZ@DMVvV5N!b2C<DFJ`S!l@h5Z>G<1wN9EQ!6$-BewRcdBIbI?
z0TxFaR<BG<Z`ESAX+FyJD-*B+bNtFS8JN?m!5A9X{TUnN{TDQagiDx#-0&}Bd*5@8
zgmW3-c*w~k^<z1LK+4x3M?#34nFcq)>Az)bf!5fvA!1)X_eLh~36sn^d;upE2qccd
z&y|CT^?~UJuE1owQD;dM9-B;%<VYM06*lcYyl!jI^Ej6=)0#@zNn_w>(pBNZOs<A3
zZ?adwKVz&tvWrS&7lksOtXhVBmt<;iLwP-+IW};hA;z+Ib~t33)Eu8PLKBvaih$O7
zAF72&yJ?$kci2klnfVbfDCmX_EAtEZ=*$$i*U5&F3=;=k3ZZlJoj7sJHLh7bz^GAP
zc^W65VZ^8%x?%;x2Eg+368NE*#4P0EoQU~iW~bdw1nADs^sWO?Vb!VQ<^bAf@Kkfa
z8&(&Gp($W}w=^Gy6OF0av=Oxf5?*11DOZs<1Vw3nCHOEDpq_??nGu+N#A=!!#B&Dy
zU1vrpAqB=L?@6lB1@}6hzwa0ZoZ?Wyh9QRuA@+iafE|dC2$;k#zvk#GT^9QRGZ!!l
zU0?Ljey2FT>SvSq=L`}`^MIo#CHrmR2?+48$-ISrY*1KFRvn*w65C(0zZ}PjDLtj3
z$0l#bxVx@E_;vC!8+EK(WIL&z9~$T+1=7&-19ra%OzF5wQyph@9ey3aCA1KYYQ=bt
zA2eRrt|fJfmYmr>3_yIZw=pici`o#+41bmQ7`hJ(31@q#ve;ojbb2iDV0v&EUlAK*
z-wi9!z2ga$f7S`}Etn?+)<2=$RJRM@JR$#|5FoXpav=U1_@_UpXw^zuA6C>u?@>;N
zT}8`q_7$AdEwj|q)>$r#Xu=QE!R5Ha$mS>Dpk^bjG)Z-ELYS6%;D;hl=D6iq%ZI!0
z01sMIW*ATn=Mg-iPb-k>4qhSVW<9J$tA<lAagu!W0uE2R5Qnob;KT5pGpU8~eG@Xl
z8sFi18aP7eJpig_eALcxt|7SN??M$D?}!~Nh{7ks2BZzliWM|%CUOLChBB^u>(*!c
z5R<xQQ1c4YoT&TQw;u_RoEO6pKBO2%(?55NRKLl^z&jiS8Z>q$!FK%^zB;*MPXhc^
zRg~tj@o<s=-nO%t+y5{#*2FQ|!-)wY%Srh7<ZeahjdFh4c4OiyYcfbp63o!<9ei~I
z{)AJo1@I}QA;vyNY+W$c8#_Lfwn*lWITl?I*iNBi({p&L8qVjs7<Ju5*NrlhvyW0r
z4Rm6F@%1-i>&HjwJAtY~#yh2+(y?~~E>mo~rd~}dUrtitYmH<WprHd-XwTeuzCf5i
zcfW7VT|YY*5ZKGXioO7j;SB2mTnOgI7}_x`00y!$r^%`Yo$0bBOr#3vQz!6M<8K0U
z0eRS1^Dr~Uw$``DoLYUX3R2kH)mZ8r(hH~}Eor;vbu;AWGsO1rm(x(<L$`twr3s_q
zAXIJ~oLa%B0W#DS?S!C@bGojV_1TIrkS6zAXRa3}CgqS+YL5+hH(LL3TqG_1<_719
zK1sU@cW#{TPA86DqWx2OmqUUN<vqgfWxf-$*`fDzaWtp%Mol@NjO#yL4g<WK(c1S8
z-kUD$NVPQwZkklD{SBlyU-MZ9<CQQIiSl1jh4Rl3=!FJ!+v+E#dAdRwzDxl-$muj<
z_!bURM3L;OM>rF0n@998kzts=Oj`^-Wo7M#$%7N+Z%~D+xx$jAftA?zdMr7+mH^}p
zlmnFv2%E)BeXmyEo2fsp)gND}e?A?kc|_;h@6wufWtyJVnx6fmroKg-rP!DWx8kJ9
z2km{C_93l(=)Ld|{C*$S_GW4awc5eeNK?AG7Y8xal`WoxhAL8*4sS(<Or%STbS+<c
z5ZV6_N2RwO)>;oQp2g`5AC?OuS3%{7WtR8H(BBp?y_j+$0(lpJZvntZ9u97bCZ8Kf
znm_{22v^S#sQ6s~nH(LU{`b2nqMY6mPXT54QlPIc%71gm0Bu{o;dwKGJr~x&G4@Nt
zU%~?MH^1NtxO#=D@{yPs41lL9e}yV&za_a<vrpqF5>ohCWQ!ELP5}Y4X`{0gF-i?u
z)Jq&%9i<j2?4vrUl0or$Q=Ia@P?zJAA{M3Ywt(1CqZ%Xly@Miv-(q+8t>2!hKlGsf
z(Bi4p#+FPY8L94<WcHoZ_MKd5JhgcCQA1az;h5HN?A>QG{V!_xYj|mKXf;%y3GLTH
z`|o!@2%Y$0Rad6!kXChw1NOaLnVrvRJD&r9SC=gwCjhV3!p$~-PrM)5{b7}``7jq>
z2)CM-1=7nuVUUJh%K~M0P&7dR!2dNt_$+Anbw5B;aI;+5pqX=wywB}?p#?tyxmi1o
zkuP%F_OlQ$b1-X}3n=q?t_M-x4TK%%EGEennO&DGM<O!?+U6p*ScnhFyR5}hyiknA
z@&*=*i-XZZvE9=*|B<~|!Zw!ItL(*MD=1YxNZ*fSht#ug&@p2Kts!QmP%cvJG6jD@
z!G=qzgp-8)rQ~eLJ1Je`R(H0jSj}TpX%oPTd51Cvf(QH<!2gZMt_BKgW!Vi7$x#o|
z;`&{b+IVqQZ_894)T$3ImON}~U#`!@4r;N3pb<CEF81H5vlm?PN@M@x*~f)KL(lT(
zGd<61J<oqXs`Z>%**vs(hOM<uE!4UEDh@)&YHEyS8V+g=2k)QP8jk*$YZ2m{%UWzU
z$qO5^9OlP|7o-Kcb`AlUpA8Nry@FAtZ-_5=a5PxKHywwfV*#OL{<YvC$RyLkP^#&i
z;f_thF&rwGZowq%P=BRDOf;W>BqVi<_yiX55axDUGIBXtc!rZ*RoHGevX^KM526bC
zuuJXIFh4XCXJO)F*umn}G7#hC&)(mh4jl(Fqhq3<A#8?YY>2$y9nr!&(t#aMP{I%q
zph0sR0@^l%!O0iQP~wUQ=bKqfe~$a+1`eDH1@sc`wJoqunV2Uk86QfZA!G+e<J)$O
z!D5y^8ca@;jHys*`e~K$HS(9Zb9KpnvWLuPX_TKwS*(;op}HYc)uvUoEf%lhy8`Br
zmpt>ZuJ>NsO5Fiaq8-mJ4rD^jTB!MMhZgE$#{{h#asFwa-O2zecAN(K9NmT~AfE)|
zEM^D?kZF?h{5UXjD_~pQAR9wE<VS0N4~cpq-~P)Ev{8s&C}|2-D9BKtQ}Bp_Z4`V!
zfl9#-DEJ`-e@+2u-IR|g_@5LITdmLm1`4sw3Qh?zKKkRM7_Bdb4ma0Jm~=+c7S8jg
z<HVE@1^6VQptMo0DvFWSh_SPb9Z(2!@x#9vE~QCQ?o#k=1kRIAe~A()IEz|T3C-f9
z(+>*@@de%*Vb6gNgN^=v&!ej5te+y7s&Herh(!ZJUCZ4bt@fE8u{`9vQ&<L7k-zTN
z48BI_uUo?r;5;E)R^o3@#}2Lu_|4W8`@_ov_oDaYUrT&9flo|no%o^;60<d1{blK{
zzN~=X??>5B`cp5i(QS6fQ-WgSSyU0eCs9q|Y+ckJepI<B>&Gv;7OlC{dAl=PM0Ww9
zW_vbBv0@=woh_kQNGL8_D@E+1jvD{Vp6sp)e{>a}u<HMIAnQf^QLt=Ly|we^wWZdZ
zuiy1j`tq)ChtuI6Ex2RNj~v<dsK4r-_g?>Z18V}JA9Vz9=y|2jU%4De_x5Y;1N1o}
zq#X8lKPs=w`tgg7H8y99D2CI~!)RgnW@>3yI^3iM#kC-%A1m16FT*E}vtIh`*w24o
zIKM{s*^{0sf6c1cll9{FQE>B`AHUh|fIpnxcVbPzZ?-b(uVd}u7wuKnEO~G5r-7*B
zZ6<FGFKt;;m)dXt)Llud>PUw>wBYtNj89#*qsU*e^y$0PTEp%&e6GDBTOkzUocD;o
z@?Ih<;OAZS`@_GT`iP=5rTkg8HR!Lr+rQlU?UQQ)qBx46u>8^Xo)5hk5uClh<Xt+y
z6u5op?tm7>Y4J#W6f93eqZr)!kso(PO>FpBogw5PFvBn20H1Q&bvJ~Mfh;HQozZ%Z
zrR$Gr)&1EbdKwU_YL}w7Ph^91S1dGdy?cJSby<BohHpTMyRs#ejJd8zSI}F2REm3}
zIeOAk=0D<jRMDCBQv_`RD2iBAEcfquR2R$o@r(3mSGI^^n6<LCAjP)T7#Z+uWS|(&
zK(Sr;7S*zvrB70&_YPT~rs`#LTjcM36cj(k=c#%bd0@*fc3dGWsE3Ws2T)k4-SM$;
zh5+;url*7LK!x7NM@yARfL;i-5%h=(amE}a1t`Xl8%g7QlkPvItfl6ekWkh^fm}jq
zQPbCt^rCR^yKn&?d@do4dpA@w(75xHOM6+0goDeJ$uZh(&<!1!sj;EBrN`;M(%Vh?
zYo@kV7%C-fs~`EXYOs5ilrQkpdz1*h4Jj)4#|>&(g=h_@*~s0Dq3q^{DTYq@r>>|s
zJW*w+RWCJ5@i8DyS!ZA4>$c8TK=;9BVEZD*o-5=PVwm+hw>RK+8D$e?*yWaC!$C51
zQA~x$Hm*2Sf0e8zSS#0`Y1UxA0DEm3d3KcSRD2pIKq=f2u--ine`VTHZ@dcz$EpCT
zYJNrvJC4>KJ%iCwL=@w+^fxHR$lGCxG4i&ZVxObn9SROmKrDxHgo2|8bl)JDd;X2w
zvy^y+0!FGB-C?#b(ueY`+<}AqWAlfUqaa536V%Tk%z8Z@&sw4234I{6{;AOZr^2E4
zg+qTPg#K74{y;eRpM{o>3w)k}4+R7t7n`vk6$_p{9|&C^2-|+(jeOuc_JMEP2fn=@
z7x?{!YXX8Fg#`bu4}8yl;M@IyZ{G*LwjTsHFMWC?xa~$^Hc;xRxx01Qw|xHX;Juy8
zWm?PL`>k3FzDkG(@9z4(_qX@2Q8X)tJcX-~Xx2-=EnDf>bsj%>oc%uXH?H~dEZg|h
zjP*uFuV?#eMfELwX%F8!#LXjraB=HTe`d{(_~TH}Q?oSitrK5A@mN3<G`gVV<AT>b
zo~EooA@E#5NtP!Zr})POuX;R{S%E_1Aw?e_@z!`6)6Kgc3;2D!XE@-&R~@(iNT3MA
GPX8BQ#G@tv

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/metrics.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/metrics.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b65dc95a2ce6a7fb11c20c8ecadaa8426f6a737
GIT binary patch
literal 8692
zcmbVRTW}LudOqE1-DOF>0lq=o7_bbMmxUQ-7#3_`2WAFbQ`}~w$*gFrkBy9Od%6W<
zMbx^s*pw%k4NRqKVQMQ`Qne2zkSgA?$<w~)MH-lrri)Z&DqFS5n;20=Hc$Egb6Ra#
zm`N(f*6Gvd^7rZg`klZ3rK>AIpk$Q4OqYiU`FFf&6}R1J1|&l6kc&hox|AVVDIsO$
zge>8`oN;B9gpze9+*wb;!~0wrZ`POaW&H_%HjseDFi*(@v!O&N+m-0z_wGzM8%acX
z+mnfAyA$2K?alOLdlS79p?>Nsc?qEbtP_3IP5X7<5!jMUs7LqHzK4Mave;o_3-tBU
ztq)+ISQ6W)B$HD_58fnts5R?>7$k`SKGp?e;nrAUkoQHPFY5FS@xE^8>v8&qmwRJ<
z|A~}hvgOw`Q%hwu!?4^7X`0bvF3UBWTekccmJ4(?lhzE&i_J?KgCXyUd@*NIX1Pyk
z#YJlQPp1ttzsR&K(2Bly=>pSo#sXz0^0|fdq7}H5$z(-4CRsi2U4nLwrp!EhTf=%8
zdi$?vM)K;lq-ifrF0y>F00Y5vE^Q_=`Nc(eUf_L}&z_|wOQ)>hdiw&*bI-$`^pwpS
zesRQ}gWEfVl7ys_gbd=B5-wo0LfsE#ht(bsjF<Wr<N=sX{kjW9q$@W`BA^F!&rKx}
z)ZKheh<2eU#mog+_rh2h#v;)6K|8waj|Gtr&U>CWHPa|H11gl`nn6|0Yjq*d)b}o_
z&NP+J+ox)3DxWj8bdEAUr^OVtKpCvbYPl5Uw6dHPh6;4@<`v4Wr-61lTgWq0%bBW4
zGZd#Rs|&z46=on|!TLBSFq_G!Msa?M?}r*{j#6DU^XfcR4a(A5CSB6zGgQ?K)xdX9
zHHITVn^U}=XIEj5W}XuhLQ)GXpQ45#9srVw=yX9VX3XS*khZ08ZL?LJOA6aA_%*{&
z-61CL#Oh~KOe&3@qXvbyf$j56>;v{u4IXQE(D;4H>YdA*?_>-3!l0V^4;jld=vEAx
zSul{k`rjW;o7uv2Azhd<HMU62sgH|?-hAWgAv&E&&rcVY%`5rb^fl1cX&v;LrRR%4
zXu3@)vF$K$`r7_!oB#2`vgKyD$<mfismFQ$cGy7E2h|GseR#Cu8*M_HSRO{rBFm+0
z^T$5&-Mn~*a~kz%c5#u>Ma{ICqFzs%S5z&>^+3JcxsA(eetrpTPDlmUvu*IOn9RUg
z63fk(8MqG^8OAQZ)_Oo`u#;Nc85@JC272BV^4v!vWAJKh2i&Iq&*Ig<UlQl7&QZOX
zqFl83c~HS?nwie$4A9$52DT5{sTWx~w+J?3rn8{z=!dRp8C2SQj)EmPq_TO?RYnUa
z0I()AeT}Lxvj}QFL4m-vMUbDK)^gKEF{|bmgg$}RQzN#{rVCfnh6?{#$}NhUMoNRt
z=<573Ut+60YydQ$?_L9&%4RjNJ3-ailCU8(d(>U<x1iPSZ?XPZE*&<A+~vwEWCHqv
z4=8PYNg!fi0_HbuX@vh@(kSgb$5m3jz>2_Kn<<Xz(`><9j&Hs>U)o6W@zTIc+iMN&
zhYd0`2CgJ?F@>Q5u|BNSRx8$R`I5<;mZiz06-Xwtz|{=4L&@Y%idx1V@g|dcK9x)|
z1r~x+NvBM<1)DA~UWU%!iX@X-4opHQ5lkJyXYAyYKyx72W%8QIc43DypU-C)a`3*`
z9cQ`N8t$(be#ZMy{hT~g+-~2qFc}_w)c0iQ^_7#W<EzH)6RRJ85`V0`{;eXr$C^IH
zJ=O?$-D7u^yXWuiTyy{3-pa^Sbz8hiptI2fbMB5mCvf4c;Lk|`b*JE4VQHR&YCU@C
z5_LhGks;0~x(lL{TUV%OJ#xXA8^-)Ju!PL$C<_uqGAR*S_Qrf0BJmjruwYhJx9#pA
zdZVj@@V&t~p_9g6^HZq6Q9D-N!X!+77o2ukV!O-IQoCETH^K(ZR#+xW9=o&cQkEXr
zG|ME}VgV_WrC{46yV-iCM3%{YX)fkr7(T2}yO(BN*wqW(e%*5?1=8tqTsd?YTs3TW
z$X<s<8=N8NBgY}h(omaj+f0kM1`pw~x1a(q-#hW7ce3J}tVAZi2@Y3Azh4_Y_QmM2
zr=tgIqo=B)r|Qwsrb`|RubzAo+TQRGf7h+RCxKstUiO~IMb7gcXxsq|3Y>wKD9ePs
z0WAo#gDsSh<X$GJrBcOgF{1&%>hvT0T}#_Gc@rM2W`UsX)9WWrttwyo_V8U<y&aF>
zalBo~C@{WN1%!A9#U^&Sp<WRxvgz0ouI?!7Dse+D%PXU%qZUhm!a9pCZT{32@I_^T
z85oN@%8IWnw=3PN=53~mWd}!Yq!5$mO63dfxJ%u|!-*ZwFp`O&0ANGa^9aH6CPFv?
zWO$soJYP&_bVSGN8p{`5hNuLfMUM;M2oM0^9IglW#-oxR2ctlRw6?v9hUF3Q%L-lB
zSPu4+%mcb)M`00nlra}a2<#YA32#&Y1Eqyff&&Jx2-tK3TxgkyJ$4cn80b4z$k&nH
zT4b~u8LdR7D!wVG8v!!7y*9A7I<U7kaI!jZvL4z2HZmAk4TFJ%1}nkQr=gx&Xh$`)
zqanMx_ceT^yT2A4t47D32R&WkMwoQ<ejSX|f|J$YWF`3hdi==h$uC2DVfpldTKsG^
zezq3>pc?<69^DR<r@{JQRG3`59;1umdJN~lSL!h<ZmwyY>2S+c8Hrb{ahxJN*)FX$
zH)LJfRMX{~q%1G_Tl3eit(7N9tJQL<H{je;mULIywQdivqu~15R;#rV>_x%9n7cFs
z!c<!tfT{<_Faysd={y8qz(mXYR3n{DXAqm`L3QB>w|J!hij67;s#TH!y4&uZKL;)O
z0Q{QYgX%qizUVVP0x$ljAdMRm*t_&Aba?Ww$lthrDczAI@@Z5d%hEr%u1j#%lzuSB
za6Oz!<@on3>8d4N+o+WOBa1XgKQ6GNrPwC^4mK7)lF7s7jiYgAY8pryqfq?^`L7jH
znYdV;x$sZQZ>8VvUz=S!u%<nd){KXP(D_FL-{5C`TO@>JfSJU(x5b;oVC)!{xG^EJ
zu#v`6KAp4NX_IE{u%ieRj;5Gg$XTI}G5p#LwxaEK;M^I1D43mXcP?19;oNaXa61nD
zm*JrX9;a3a*g#izEwuNG(B69Awp!nTYTtoc-;rwHktcme!IFm6+R)+Z(Baz9Y;|b%
z@z9CYGxZ%if4%(qa&_Y3??SbibJdx1Pi8JWp1AmU$Hhu$_^VJ)rFUN?e)LJ`7$<(~
z-A~^A#hFGg=|9$Rk*<B*uI6H0EQYT>iPc`LP}>-ut_2*M!d4tBGy?WRtd2uvDd`+Q
zWrROm$ef%2Wv^i$Ry<H+*u6;_vd`ULnLOMiaQ(JVa-WtOo<Vnb?cgKVqw|k^_m4IS
z+&11IgX*t`J|B8cy4(YTCQ?el&nYc?Xs$q4JN8PrbeRI~f;<3VE}kjyP#<1JHUO{~
zATPY<xq@Kp&dwG1cpf37d#P9VQSXAH`vI$U>0vzp6azGDQwh=_jD>Ex6OrYvSj1{S
zRj#K!j8cN1EN0dDjX4D{$tfpPsJH;a1TEqr25lA&MT>aA<*1lb&~iF-rt(Y&D;0+j
zD~Kmy8v|M)u`+2w4#=<q8Eu|&7;acw;9*Ic1M{Xy-Yt$;sdk5ku9dsfUvhQ=GK6bq
zfxzjwhO)dK<dK;$hU<BOF(-K2W6rZ+EYzB3k2w&b>;fvz%CZ7?j_YipsDRaD<6lf)
zwO+n=Lt;vxVuowsaI%OAFpeLQG@MXUA~nXl@FZr1lW>9**)i<2f`UzWh%v0K$<5gp
zbBm~Z2`I1+u=){Je*%?(Z;RG1%%2-lX-AuHYf}&hnO?(%r=bEr5GLc(wVkuoowKXT
z6Q5ci-2Izkb#Q7``7}}=o_M&mI=mkT2I|`<AHG@L{u<s4)rWTBbz6PU4-gQJbHlMb
zLM`~wZNoVMnZYG~6B@4qg5MP=Pm){mEmz8wCMo%&emfw@H(X^I1K5%RWIIaP^;hJt
z<xjUNB;~r{x*?y3m6F}Q4gk6Ik6hJ}aVHqXyorXfYf9*@nz{lQ3(xD&>lh3OEDgDX
z_*r2$m|}5=;0azUz}y1l$$%PHen^v1Gp-`yD?q9Y@?^HjWs7ju2UwQkkJcS3MFSxq
z(ptAEH3JH>o(cd2rop?iIj8`wq3IcLaK^k1o5wy^TL0Jzwi#bXfQV$ZtF%qgO1od7
zEgkbvcE(w#Kxv|6SFAQZQyrhFjlW$TfBVV!>E~`&H1N&%>1tHH?YjLTy8P(vk=tAD
zjC?k7FIef`R}Jl}kDvY)r!|PnANXUFK$CCoZwHTf1f&euz60JN<=8kp6MX^KAUxA`
zrUbP;FzoQ~9QRzDiAJ$d0FglsvlWUFC<8kYsQ@N<$rl=2ScXWaqHeU!$6Tk_-IP(F
zsq{iR1-V&pmBy8P5tIeQDV(OrnQFGIoqh3)T&J4s5ft|bdD~BKX-PT<j|cb-`7SL7
z^c_;R+NkU5(jlvfn0kd~K%bEm9toVKJXv$U4aKu7z|jpTiO1a1_E%_y4c%|SDz+Od
z%<s+Jml(SBShO>`@53qRg&78ROTm!AqIloU?@_r$xJS?@aKIwA(65Q;kC3h{+F!(5
ztP1cmeh$@5@=SKQeT_iKee~=89St{J0fKBDx_j_mpgOd7?ZTtI)v2SEp`+C;#~NN7
z^^yL8yS<;i)9~Y6fQ;_CcYbYr&A1=C_v5O1uo=YeVZS?YZ>d4x@+i^7%d;(ztyzZ<
z4NTtr&UlU&u|wQf3Vu#$1(hb+=0@y5l?3311bk&k_yI=*07nFA2m=-1hAtXz-Pvft
z!!tP%{Q3Z+AsV&OffsOs0$&>3iEjR-p}#|LBG{Myo~yulun71Zz`rAixDR+8Tn@Uv
z@4yHK*K|(70S2!!D$qCh>>wN+*waOW8hl~fw(z4zTpU5sySA|Hgq>(*JkB{GF4gYd
zF-gQ7f%tg0G5xW5lIez0R#>jAY!)T}^*E4Vvn)Vad0@kk8*UQ=I4^KUa)3pvj}Q}m
z6E851D&A2{%-HY(<CsJ2C~4OXPuab+wWAwu%Tn0`*$CGIn-c(5oJq@&!Ds=NkQHj@
zC;Jd)u{W{8ycau+6)GhA2rG=r?8jK)i!mf=^}H;Vn70jlI6@J$F`2*tiGf^1hY3Z1
zazykmIT4|Y4i5PZ%rX8PDhMeda%4slNMmH8Hu6?=<gJQt@T=fRW$a*WZ1#(>*{8$t
z+VJt}@bSuti;ssdt)BgTwEwnw=ck|j^l5bK-M-quWOZQjX>{Q3!P-!~IuvhsmErK}
z8MN+rO`WN#Gxg|DJvv;E4%VZ)n|}8wKk$z<B4p=rsS+F!CXA^K?i4o!AmlvPJJiir
zL6{YZXNh1&XW0zgfK=u6b9YOIGW!WE7M>4*@g}Z$q|KDpLs;DQ%>RswCZJj&bxeK?
zS0UjT9IuCZ>b_9TH&FEr)O@2=-)Lp*wMV5deaD3dXIEiKtY=gI{hc}^yn7Z_3qOv2
zo~=9cSNich&co_+_!$_5(2pzN$3vuN>&m<J-oceK_5STEa}A}>9p;W5uHe{h*X_kS
z-%GCB58co9x!fnDc1Ml(=&A84<cyD=i;Y-8=W91L7>ZbYLGVDN0?#Po5PBVkDsFY7
zfeAIX;h?Z1&LWQR`AI2mp9}cm7JY@a9}iIRwoi%iwzCDc9rqizzl@4xb^L!@*TObD
z(Mv_rTkHW&{P3BaMR4=zkJvO;7<Yw~k7J8}Y<Ue^Jg_2HI?mUY?}+&3a+LiUjG{j@
z{sO9oOOm7)9wNmmWa8h*WR*<*fgGxmLw_I#|CPMY|95`9ZRDQ!^T=APy6wP9VD+8H
z<iJ<q{@dBL!%xDmuLQsG_uc-{WB>LQ56D#xzL0lFV+{gT(*?H;ynS&}IwTD|BT&6C
XrQOolGXm9%bJDnULi(0q%?0{Dlh{0t

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/multi_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/multi_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6393dc3ab257ea0b25968b90339cfe68f2889d83
GIT binary patch
literal 20049
zcmcJ1Yjhjeo!<;z1i&EylHmIVz6n0{phQ_OixMSSl115)tk_H(6ygkJN&rdEfO^nS
zqBw3A>MCogsUtexZ0Ka0(6zTwc0WYhbJ|t<Wpmn`79&aqGL=r1CVS528*Iu=HvQ24
z{&yY#Nk~q6PVXV_+_~?$_y4~Ci~n3w;^h#cjz68+x1ZyFO)q9}8Hts*c#gZtiJZts
zxp8{hqI}FYZsRF!kJ@97aR*B~qRyCW+!ZStFJkX})IIJ-9cR=N^NxF2o-0}$6UGIW
zE{c}KO2<oC+8y=9{NsL>_C(8K<>TeCit&nAU_8L`ywS>7)p%8`db~PTGhP#`9j|5i
z#nHN0{dhe~3(<yH<9H)WmqeRl&Ew5HC%NQy%%L<IjJ1rnurgn?HP$xX#?t<1d#q!;
zgQd%&ow2U*E|xBjcE>{FA(pO)_QZO}dwI^rN%d0Shgc5^<NcDu#vSCuz+0SHDOG%E
z*YiKrAKdtWQC@}eYN>i%`5<dugVI{5$}An<z;f%5TQ8Mcxf?I>p@!d5&toB8b03OJ
za^!SWLfRun;*p7HL{UOEt>ok@FYFKRdv5=}BZtNgYW9)oOQ_;K6^+LB%}h^Doxz*`
z$f=WZWLlY&WGk=Y$SI_!rHS~Ayf>mqCoj!X-{pDP2O?B>DP&)jOO?Z?Hfs4D9F^h`
znv~|tYkqtNvvp`yd08*WGcnYarzRAdlr@19@km_Jyt!hnIF~+&X%$aRPsPL0nKNf3
z8Lz$*6R%0)TvU>e&BbTu;>aq?>n@i$5|2yM@u`_<bB3rXpk@T^_n$`*-b)Y6$QL5A
zh}p!Yi<DDh)Yu!HnK-B9Wmv0MbX<CUPEz6%#?G^c0S(;B9=zV<ByOA+xpCV|oMe|A
zB0p)XMZV+|Z9DN4?c*+~NODUaJzuoX7qL<Ym0q%koLbG%xoCVU@4L*87|`4?W5vg`
zGR#?ygd@tO>4~rsIWH+8ujUSirz0^b9M-(yaBPN_3TYu6etj+yHA<ZExmm2BfZ;S>
zI2@Utp20R?t(0(BZlYX=I5iR1>`GkL>{HY654aWNa(|c@jK^jNXQyWS;}Q9c6z{({
zH~h@DbHmbLbn5ir?4|f?Gt-0T0f2+z6xvRmo{LN3;JNc*%##5jr6)|_8$7>pFh(Dm
z%Nm%yBsX9r7Ih<`^dkD_+@sQpRG@1KQJ-4czwGGG3~o+2DzC>E_AOQ{Ja^+OOAfWV
z@1A3`OpRFURU70$E`^oX5al*V<j3uz4O@h5nskVcw;bb6(fJlP?m|x97ERhj7s|ZI
zEk?QsX+d;LZlj$C?<MTr%lawCd+8-1RH9X`-AD%S^WXLc5spT%wD=E3g0$ShnaN<@
zmb03{nbT*1s7haOW?BkP&d5Ot035WIaDa7m^0g@?h`%{S5`*!XVC2jhSvnJmOTqYS
zQcxij3r+$7gOO-7*H#HC(riRVwdf_iAI&*~2D0XorTCmYJz-;Orbli(2+UXh5z$R9
z!JpOhSH)*dM99lEN#rQ^>Pe3K68gMsyKGO`5?rAk&hxS>VNY-ghAP+U;!d-xggp*4
z(L>?335I4S$^Ouoy<$7ey~$ILgoI~3W*@m{!fv*)#y#cW65I*y1AYwH=wJlSITe>;
zAXQV!)HIfKdP341aga{UV=Xsmo<otMlX4$A*92>q!c(H=WZR$+AkyB;AtdA>MDxuB
zVPwGSbqgvf3Zg4qrmg!&+uz@wZriN3ZT`4ziz+lHpI_+6`05vje)P=yn>Oh?ak
z$MrAW^|$_}x@EEBqrj5*<Eam(ZVT$b{^ihtd({V1{)4INgPD%dQlHu}obDJ=J4Wtw
zEO$I-w96KA?OU?~=MN-{89GfEOb}DhVSvHGX}kaq3hv_Pz(F}+fCmIwd&_!ekqIq4
zcP-%HE^+c8vO{)x10I^|d?X6mt2t#!k>VknOiLpVBT{Iy%~jow^n88cRb?%AQ;Swa
zSkcPbo3Gq>C0*H}R(5<`*_GU%5z5{^a`nhJkA7n3s=C)N00ALefNvo2|F!^c^KaWG
z>{Hx??bRv+CHTv>1fQ@yZArdmyH?}iChR~T{sh|cM*704MUppST7<#k+=TRjU0<TD
z$kW$}W^REW@tgUECoL3puopFyeTc4bSr@mTKg9q2p`RW4`(r;lc5n2h$99|F`^(Xn
z)c!q7U%I`8An|*B@AkbnpbFio(U(4@;w)$Lc>igILz2P%U)1k%t%4_l0k)i{khsak
zEm#xzw+OmuW7mYIEz&4wLXe5mC%BMpY}Jr7+-Cf*(DxtVc(#kL1`MFICXgG|?DE_E
zO&)+*MS%HN_6xiYoDk8bl&}<=jbDOPW*gYB4k9(r&NI@qba7VRJ-@N=a+^I2?1bbI
zi7LAXtR{yr5v2~%KXSjn!llYb)s6d>oY%M9+<jwrx}ptl|HPK|&AJ925}O@Fo}r8U
z4BCWv1_26vl|gj&AUWUk^l3bYI!X}H74CtrTrD5H75HiGPioT}N7RiY_crcZE+1X?
zji%hAI=?0OTE#7B*VwL7A5TJ(1Wy$CgbuzR@NCj1Qd5ulNUarz!w@)#28YA*Ern;F
zSLFz`FGB<r_f@=o>FTA02G!S@a(C)8CZaJxGc*IG*^G%UV8&12PYIrY#-K|w^e9f=
zg-D^MCSK88L7zTvu2z*X>cEc(b8YQPI^OnN^<3|}>uzRK9Siy7W)#Xnidqn9Md7eG
zGXYu6M_I%~WTJU;J4GE7kwPcaOf|>pnVG1(hu#lRL^~^YQPfQlV?(`^qG$mB$~i=D
zai2KsPIuN@<P4;m2eTYKhelWE`DwY$S(kM?oZbb;!imMUg_qwgUE%PW6?o@<exZGZ
zqi5E|JG++bS-f<mHteCyF3RiH^SaU9W8~=+mW@7vfvrHoDTNgxvwwmeF@<W87j2Nc
zAhAhKCRRHn7d;JO+Cg#~y^BuN@tAK$sS9~-$*aFjdXwBF4{1&qFBXd-zfqZB)bv0+
zcZlA%oZ}@)?jk>43OXWa>$plzSy8lNl6*;)h3+L2o6rOZ>ri>ZBqu<0h(=CJOa@o9
zs#!@6OVekjrll~;Hdvc53pp*UH&Z5P8_hsz2B6!Jc!vk6G)uUvt_1f@5K`hG5S|<#
zI`kr*OE?o;*dn18JB2hdhY66fz|^a-Ruax1I8>zbjicyCCh(MxQS<^uFCx-B;V@G}
z0qFFhfP922Iy9X`#(eu)49#1p0dv$7sHqS{gRVXHbDq+xMXI}Ip?)!X>u_q%seA4(
zWEw+B$9;Dl16HlVR3pMnm<ltw%xkRTlz4F!LR;(g00RJ_`Lj=<><~_0F*vdPvV#QB
zLX77;r?emD6886CA1PepX{_lz?z{F6F&7FXkQN#tVJFZ%OKZ9&Bpf0WU=ub|umvaj
zB5|USeQf?^691vak#tWg1@r*u6(s#fp@@-Y0fhi5335Tc25@02{#uZ>Mnc^=C1?O%
z5a2O8BgeM~b)xKGQic2y=A=2!NtYC@Xy&vc$>*hzQ-_o<ph$k1BBI=yH@86wad-wF
zI(U2$uk&qB0}rF?FQcMz84<{0_l|V;h}u2!arZt|XosZHlc{K497;n3#$UyjEN3q%
zMb`BJ(3_T_%+R*<&;fPmKzitiI&@@t=xA#5Sk}&$y}+;7Q8R@WZmy&(Ei|b@(?UWO
z`qILXDh%BkzvEK39Q=9Rec|LM#aw8VXOIUjN=USh66+L~WC@w*w@eI2bI_9OWVn+u
zODQ6x(5W(gKhRCbp9v`%4Tr(|Ncv$+dXK(J&r^Mhj#I%m5dHowE^G5RdmdG`WSw|I
z9;>cj7+UnI^}S0cZ}qDEyHoYM)v9N+MO5nMDr*-iZXC*b=*`QubS$1&YF|=52rYhD
z4Gv|CDO;c}Hm8DHQ}tWbs^QN{koifK%lQ(&G<3^;>%=Yh2fMQzz28xO$DTUZpotZx
z*5AfDt)|wbVT*Rr0WI4px+Yx~&2>sHR^rw*ZOO~1wq2*clm`8UW^JMjXtY-nq!Ow0
zESV_Q1cRd6MAE(eq9B!tZn0$2!A2_ug)bMku(S{93egW8KOk-u%TT*gESI3YQ*E&V
z?^WzQP<R}%QmkTi-C{NBR*Nv{jn}}aS1XmU`NJw;rAwG$$1GuQ#ylNj9a`6c=hRB|
z>|1SOJ#rev2C-3WlIqEtfLQOL(P-ron^C8U)d`9%Vyjd?=@Q$J*DSV6L9}VXH+0~=
zRqT}7V5#Urx?Qi2Rc0fxo*UUpcIf@;qgZ2fqfIAjb%`NkW<AL1wsxz;sP7Pa^L8gB
zxjdXWEcUJM8GZFwZTjDGT07c{l0I{EaR8(A8>0-O7mv7s#>aD`J`ak;P52Idr8lEa
zz4>N*iCY?&^om1y^BQE_djq)lHm#IVoqeYLDN+WGzzirO!3%O^795e8SmvPNp9#ju
zG6gePzD-66M&i0n1tzv&d@3dlcv%N0L1`!EWEpnFAZ(RW6QIZ2SxJBJ`I(4_PIL<l
zk>trK88q3l4xmHy8WGP+a(qgWFvj`F6l4Mn9iKTTP3yKB)>$wJ88|#W7Yk2I7s9bf
zoQ$Diy;gUqFL)XjS`nrqHpdxR#0ME{K$l8%Gf#i;1dN5uP_)V(q?gK!=`-=gA;XZX
z`N(ERW>ZtNp?#PzL=1+8Zp2J9X~%*-O*Hw4H;vppcLv&BPBdX})CUV-j)m+r{D%e$
z2fM~BnJvk286wWv{Mi_NoGmsIc@G<xa6lx2kYvuo>=B|8ca}tkHK9;13Flc;I?bz{
z>*?At2RB7uXR&eiMytdEShj5pHVwAWr;#NSEe&~Ol7|?lfCgcKhoV)7&&4Ogc~(?o
zBeYghiE=e{mLe%I=!!-aMRO5cPm5Z4f%a8lSvO`YfT3JJT6uWAWjS9WwC1dpSkuJd
zkbt3{%^E}NEUmC~SiKq%ErIZLEP(PIL?jRjra+jfX<KT)<ICDPPwiu}CxE$a-IjFR
zbJt|LARpdyw`Y0=(mgM#Juha2>i=oC^?FsIGkJ7j2bd&r`36;JNDFPM(Dwe(TfMjA
zcf!l<FWnPPWdwg(=!Ur>Eexu{;H~2HhB0-+*nQzx)`L#6es1^~>c0(~a`P6FM0K4^
z?#CQgDZKQZ3<dNPw8G}mE4nGNu<4Wpj5VQ<G$~q00E>}L@9_*r22~)%*I>hN<jkan
z06LLt?@TxfjsQzkA=B(x3xIReG-c7tuDFG6A}m`8$6rECOSq=^zvTanPdLL?lZ5?j
ziS=S7;-ty4aFztAH30~>CWl^4giAOlZDtxW@z-IxwS(L{#x$=5or>nM)C8ve0^6q0
zhgO?^AYp*LPAfG#kV|t+%-~337FA{XeEBtsywtLy0Pcl~G&}HsVKxNiI1an)u%&Bu
zB;^=2rJnLsCc`9i2Dyf1XrIZQ20kCTze%0_S46PRxjBD*+Sjl8`cuAVQtoFEXMA;f
zPTF@+^&L$6j;OvP8KGu{40A~baKj%+`I=MiX2hAjqe=UJtEf)ydr;T(z0kX%#Usmg
z8<IydHTB;sdben?c<GDj{v&Gtk#s){elIQ8oJt;g(7)>w&Nfh*DX;v*PS2Je82tuH
zlSl3eB%hY}-#&cx@NWX0>A-e1upM}uuGy;AY{djBt59AU%zB(<<)7J$N=maOT%ab~
z!1*hZUR~Ssn0!ZBg=s|U8Kyml#FI=*z=aArXn;l4Vk)R^gd7e4UMh2DW}7UbhE{Is
zN<?!R=TktfnXUN}mGcv;%suiO$TUn+x!qge$B$6Wu&HIrD$`{x_sUw5BN?G2Ed*5|
zxLA8%=!MO>yjB1FatnCL9Ka4)#|ke*gUNLb?ns7!xJ6D(6gAF4_(Hr=?sx+CE69Zl
z^^ilr93eoT1^6V03u#1af;mfUTvh%l(OFWd)`Z-74Ym&^@i@*C^l;SyLr4pKe{Mde
z(ZefmLM3)I$j&(Bb9mKUbF;7_NSb|qYL@N3+(_Bgr>ArtsvnbEJHS}9sq>O<DkrGA
zZ6c<#J5$#+Od+7h+<fO6X7_}y{~C3bi-^Gc9{6fgb$#~+4&3t{Ot}xHd<Qedjp^dS
zyTyZyWf3P!3q7jPlj_}-?medV9=j*J@Sw70A&{;OskI@NeL(F!@NwnAtNW89NtwY}
zhbnX|p1v=Hz)P#1<A38WA&W~_s(br=_YMYj>kQ=#)kI8-<T~sqQfmYD3_HM1bP6Dw
zDeYsgaH12pB(<xsu#(X#S8nbUNG68RY9^vmM9zsNYc|2aNLqh=?P+Yw2=x|T=DXIc
z{F6HTcc`rNAi~nGMa@n~68D8}ELeG~v0mNx-976U%d$6R&=L92U_qX=T#Pn(U}P>t
zopK98v?&48LxO*kzr?lWEnYk9ESK$ZOJFS|F2hD;J4>u;O(=wvCi+1PwqNF7q1oHN
zV!!s1{=C3n;4a!<;V$qHT<5#?U!0I;$z32Q&dH=IS(GZ+fkWlj=HlYah3Nqp5!pVv
z%^b~RwbWd?M+exl*%{kJX6X(&bYgoI6W8&Jm)HphS&?+}2pL4?*GiG*IDdyig#Z=1
z+1Zoy<ZWrz<|=8*_{(m3Z+PDkvQBL3Cw@+-%#_zBk7196%HKaO<^qkMa*mRw2mY$G
zKdAbHnZT~wum9Z}fBQ!I*%RusCvfgnRu1;n*z}I)e`P(W`3EI{;lAbXvHcs*NXYp&
zeIxD8pS3%YTt%^IyNdC@LiUrVU{fWq$qrq`UeH9yPx273Y$R9#r>fVnuM*haWOA8_
zh+tsGVro7(50I}5;S)K#Xs&a3J)^J%UbDK_Fg@d3FvrkV^-4mA(t&6V!qg{6-adBq
z*upVY*t&FnS=gG#&|v<)1fw_kpsZRIq6m!2{C{KU6&E7#A;JQ{)J{{Nr7=1B+ZbJ6
z1D$>t0Coe}^Q~*>M}cmZQBMgXTC)&f>Mg3!ve<K9=+9dNHzW!+2dyL$k5A`F8n%43
zPHn-;3n+OCtW*P5oPZT)VOSwuchV5Z8NAdMfEQQ;NYr5y3%PXUW9#xSF}D0IivElu
zqO}T5j1bX8#dq+&9$50bOjEO7L=aO;x$>%<=wpJ*;U)L2epNVpXX~<XIJaDdnb86C
z^ppkpqgj#3ZVaif#M)hQrTV~dE?}QbvXuF`H<4cVxvQG~3N@4lL~B8UFyp?^nEO7>
zKZ)ZPg={!b#Nj2fTG9n`)Dhzv1iSpBag#$_w&jk?t-L3kU4Th{8=&GStn=jrCT3J|
zUUns1iap^}_-hRyL!{lV2?^IlULn8GJW(s*H1japs~D{a9FWweHKCwUrN|W7F1r)%
zE9Kx_1@y#(RSTqVQ^GCU&W&QVb-fzySm(L{rlo~PO%(0ou04-7_IYr{C)L@Bxn2u9
zxN8gGy*A@}K#I-Oq>bs8`VlGt#&5AX94US{&(#^8K$@Ysv+`F_%w$bjMheICq6p=a
zX%p{KMh*rP*lEB{^KxWq;yiM6CRk*agRin|^70_4(Moi44cU26TOpyH@RJ3dUw#)^
zhD%J2qUTTZA5cO0ABbRhadDlYAH0-u*F5OxX3snZnrRMx?<?<qB{i^nx%pXGRgwp<
zf8m!Eb?*;n{56kEBg^8!?;l-~?+KfrmDaa@r+@MIclxipGQswAa99lvr-M7x;Evk|
zmV^7Qmt-n}sfzAQpgkSvRs-EjRrdlLGJ%Fnb^GG$cdNTo{_a$DH!3ZT+^y)y)HI}P
z2GyFuTQ0R`_|evVcOvT6gV#sXfnGJxyL8}gVDl#xTzz-80*pP|&H00OeO-$~sn9cb
zLnF6OrhFqQ_sDwD&4KS`9OyI>1rhBD$8`X6;?<w)x-$>);4)9VIsw-m)2HdrF`5oB
zO|%uK$>)@aK$uSDbp9>L@{DY1pWqp1&g7~U;95UKkMsR&xYpDA<^aCRCbWar(c1BY
zj$}#xZVR;wFQyxJsg1jq8?oKbUOmbL;YYrPl)FLKQvr?4Ayy_A6|I7d(-Si>xaL}x
z=~c(F7E${zs17lihZsv3!~&3#P-;yu2?JL9aGurIS;%-rN8qL~%Sf3EM96gogz6GF
zp~#L`but0c)}4T#CnF&IwE<X$3tE7ouNEL-L?#lhMA0OC8LvHWnVjIhLLYDda`FNF
z$k0iar@0thxasf}Wm+9=NMRekOj4`nHC7a`5OV93VhQ>32UO^RrB-*()c7f#FgS1k
zK;8u;@G)m#g(hs^zah_jgq-<M0mvvk5f4Gd*U<(n+sjopCp`}WjSFJBX+Uin_&6|l
zbrd?~>mUZ{<{fJDj*P!LRoe%%POy|{!svB6afJV1;+NI!WM-;eD7%_iczxLyTs*ln
z@`IN%d-q*;r2W0Bzjx_ix^K6NKmW6t#+JqHsfK|Yo@^~wxglGJhM+<^n7J5wC~^%g
z0)sLTJxQL9M2+*0RVNZ8q%e%e#y?S5D5QL0w}~3831D&tT!Mkx3b8|r{W{~8%>?iS
zMzc2LLGwlfni-5H9E^Dd5=8|WA9L+6Pc6Xwnx9w?ZsvLQHj}&u7lGgYZv-7Aix`+O
zb|n85rl)!6G>JK|$@CpMnAYf)5$0+kg(H(#>@Zx*W+qm_<X=<$zoAb26R*vHL*?{!
zO<-N>1WS>BOf?gT3P9&ik-bh^f719(1e^0{0oZhL4Z$?duIsm^>$j`*+iwr2cN|rB
z9R0bxTz?#}lc{b@S9ht^UCY&>q)-rseg0IS{jRV5k-seM?@|3dOT)Jgq;?*=?|%W^
zmz7(Y&);de?;ri71fZ#dq+c=bB7|qyWrS5~jRk^>nChR9zm7%b;sly3B%#c~(a{Z1
zDFAlsof$u}EZtx_1<93MQ#e0igHU4xb{u8RAwd$2eYJ}uRo#sLl|6{w;Vmag;&$Y@
zYkdlejd0bPn&BqNG}C-H$-wEksVGxG^Q>yn!$!~pgAAD&VrXKP9cM3I=C`h)TZQ^5
z;5a!*fYOQ%e$PB7;fh*c`pdn?Z@+k*Py0Jne`l&|IPKr2?mezMP=39>iHD~L831A8
zYrsRM)(jnV362~OOvRDr%IfOI;D2Ti+JBF1!@VUZX%(7qFU^jWyWcaBE713#vJQT-
z^`)7;2hw|w-`#s0^t2wHb+)R~$96}+n}j<ahXbqP*1N^6nNWW^v_}o?Nj`T^=*)C>
zCr9rIZ5dy6(q{lC^n7EP3jinWFQbpoA@LMts)9*31<h1Bl>yXfy%D|IK;N~~FqiK?
zVBi80%pGK}vzR`it8KJ`EoiV-(Mk(s=uCBPy)O*sw5`Ho2pw7LVhC(qBm$tnwE=?1
z1}uaVO16bHxjKbK4%rED!!{2c24{0cSNLnK3CGupbJrO}>(T*y!HO<Bu5BVALf2<x
z=v-(E=J5nvezHhXkmVF+D22otkuw<`Spr3#grkJR)Om;p%I_hX-*{{~dWqdhvGzAO
z5t$CciICjJ$=$*9)eF)clbB*!1O29OV=73RaC{CIwPMnKl67@FBd(;&LiX92*>wy@
zE6%&~#QYQD7jeTatdFD%Mc!N$O~@}Uz<&NCeUg3+BZsqV=ed)hjTjXZiK=Uo#hJRM
zq%U7u?&?l=J)?F#bGr+MjIP7vsdjil_@%El<F8+M9fri~#ki`W`noa|t*MFuC|dPh
znVKVn=T)Fi>`bg}@P;p2P3lVxCsZ$#{flQa+xP#R|J%XjsD6UIcre|*RmGn$4F2RP
zNxR!rcU#)s1w;N)QM!A(+P(eu=sowyBVXOZi&ww8=u7zqQ|>`V7GxZ*aI4HJL<!pP
zzj7LpN#~z{1d#AQ&&t0arsFq&B;U5(w0*<rgm!VQfh3S&?pjff7Z@g&;&|ko6qe{V
zo+2+`{CtmZ`9C3JzHSZa&uj4o+K_HkV$?l<AF69^UcPbpTVG8JWW8q;AR~1CL7~&A
zH`@mJf6e#1e&`<LSMh6-nRSxLC<2%qGS&wDygkRiEwPWdF{w6dLXJp+hV&TX9`i6Q
zBt*h<7h_W(S_7I<2Vv6^C-oAF6Hc=pmbVXwD#d0Qlpmu9gOc>bEh~y>FH{e{tZ>Xb
z>oa@EJ#&4bj_bSDm~ZlN>rgHZ2BC*s?VPX-xuPgS1lDURBL^kje~OT6ihNN)DA);W
z5XMLFDdv9_r|WDMUD3UgsDlxht97R;v%5Tp>tJ`@#n<i30g6hgAGl*1Zd%mtIJ?`n
zrXx6P>TRAhv4Nm8aAqL*+}J3t;>p3W=SFk$qF%@7e%{n18`qk8P@I7~7rEsc-3B8;
zWmcM)nuLRx{=vCk#&pWMZbf2K3Ul<@j<uPa7K8Hv+!mY!xnsU&Y}J%t_q?qyINuW*
z7+K}f1t&Imn&Da?o0mdPYsRo4FY|wp{~Ws~lly^IPim?8`7j6TE?;_e`7fx3Jt|G(
zelgv_VzgRwoSm7P)*QIm0!Im4caUK`o}&(rQuQLets+M$D@Iw>Pw0Q0QTZ3BJ>Rni
z_n$JsF9OIEI`;u_u3GO2@t~pkz5U6eOizEh=LNOrh4o%ST|?>4V`}FyP->9luF{my
zMv7~f>e~e6_Ga;o;#9-t`~IP<4}L+9%Q?Z9yzr+x7h3KX*FPw4$lCad+6T1_3txDz
zVWAW*$X$U<pyuYG8;2IoEC)JM6<x^d-jQ|M%XY5VofW9!EGdPDlRxmUMi;8Tb#!rP
z+1H(N8<!y<Y^?S!vWzBM@tqLY_$%I=Heu4B6L2~sQ&b@t#jFD=gpFW^5m2F=G?H-S
z&Js-t02eW#>?Z6xF`H`*IkmQsQky%HzwBJqE0J6ltX^>+I^lpPz4tJFT_E9rSG>)f
z9V8)?l6xWS&xL7{>my5Uy2xKHf)QsbQDn_>2DH$if1r}KTwUE}OY1rx+J6x!2<sG(
zkzKoGKJbxX7u_c4f^()675jo`2x<4DK7@~6Jah+mvXkkTZoEk8C}Ux}aU<gNC3eKc
zT*I{*UGgVC5=$IsuJP!WVG2!&98ORS8Z<}q(yuj?<{Hq6nO3ZO)U#_M45M%p6#~Aj
z*RELI1FKs=(D@jnt<$rgG{t$ssrzUFoN`0)NbY=4(Y;*JlY(zgDc2NCx$82$gFoK>
z!S;W<Qx&?BV+%)q<Evfhz1KB-&$lhJWlzfAx(K@t5UA#{n`<0QHyl<Q4rlyLz_7;B
z<WazXplRXUM??22HrzUO`wex=VMsyn<1gQF`^fEGDgPl<Bxn7@K*hR_#Zzi+Uy{;<
ztk0{R&u1!|VUFxN%0o%&0#4cdr72%4T$22ysI~PF&t`DfzbQM&^=*5+iSu`)dUoFP
z?Mk_KF>z>}B*X*&qKTh#fWI9e`UK}96PO|P+rh%C7_wTTfmO=mk_jEqlbK*mC?uFO
zB;1*AKgK0kw9~4HDz1kw9cWLXM*fkyR<1)4VAKLHUGpAB%{8aM50N$BQGf=oAMN`D
zD&wesg?qH)Sptka2d6+~8n^ZXeanFX+^+Qnl9vGx8DC4v7y3=d_T`S9*rm+y&J-?U
zy#Bp6-hCt8yjgADd{+RiB{A5~`CC)&7F~QDqYv^^L?TG;R?>vEz{sZ4Dz=f|N8%<?
zMRF0g=mIj0uu3`umgfw{g=nZwXL7fz*f|w{tuf(-OR=kv{f2E?KWLJ5enwkPH?$zZ
z88bGI0~|URF4wU!|1y?-`|o+o8Rte8do6S=E05FWkq_#t(3#L9^tjG#ZT;{+roAP<
zB#;3=w_{gQcnTYB>eWvRNa6X?()QHwQJ`>BX>yF1X_M*;Wrp`(7ZzSkH*QuNH{Uh+
zDfYM*JQ==;8KEj8w33rzv5RgGyF9u#APnpMn8O&{8NP|9Tul+n(N9x0uDK&AAEF8+
z6w%cit(aX`qiaqxqWmglw^BqlE}0~3w)%`_vzt4b6Tg2l@tWp33IBU&rR3trelJ7*
z8l~Q%=o=JWqv!@j?@)A;BBCGicPZ+m=!X;?rsyMzNQIP1Y}PGIWG|A*dqloN5s?F#
z^ii20nCU?BFDOL<x=i$2$817Q{btc4N`09ka<a|8LlmJ*ib%dweqn>D3HLf}MYz{l
zUgzAxE)wC1t?@Nwizwyh>O!A+D7B4qm1S+!&WcQ3XV#AABTq?Ex;_dszZ&RYN~8ii
z)Y6@*XV<4r6t39K>e)>;XW!E3t%_UHPoqDHrZ(<X`}To6JNvS@SF|&={V3fh+L=0j
z>N9$N=C?b0KlK(n8&-lg=Wy0-a}F#`fRZ~0Zi&=vAnSHJkMNHI)mbMcFxiTln|(L>
zvPJCG&DHc~JuE43-qMv4N`4x!Ih(TXTIXIq6Kq@D_r5!8r<X^b(xh^I^VN$B?a+(u
zRIoJkKIzA*XTyq<s${o1oQ=5pwC^Wwy3^X2Ew6CaJ}RrrI`PEdO)c3XO1U|&4}G1y
zI=?Uk?^)FoT=7tTPcg2(W~zf(J4^IDV<cWUvBGk)b;Zt_OmL90YaV%8R-AZd>uk<#
zscnbogSXMVH?R@$#E4~;*H7R?q=??wsPXG37upt-h3*?)UKG{Jo|Lag_4KZIsKQp8
zvuoky#c8#13w73o7POBI&d{xBmc!$Y^7E5FoBx!O#-<^a-HBR{dIvwTcQ|)vDykRk
z3nv!bH+C<Msul2jL*^q-?ZPNN@>3^XjD|>M$M|ArYpQ$K9f#VD+rfCjsSS--<@7T6
z!V}-XE~*J?eg9JY)=_nEZ>oN;TD31*M5VclYV=m%q8epmZ-bwfAjQUhOx^1YfxtVo
zNmlUCd=oR#C`3E@A)A57=?R8HS~1CW4ErTTc2GSRuH(|FI#FO9;eJio?E3Bi_@Z@v
zx0*CaBWD0y&opT<S8#2BmFE4>O@0+hTP${f?&UBtqiy`-8%^pz!lZkf|6jB_zfm8r
zm_ARSh{&Ke^v92k9*m2iI*DPl$KtxiLg@~Cayj)~%lbyMi5XcMV8<c@y49IcI?ZR6
z>zN88cv_I<!Ve0XEcOhup1^e{k@gO<Fuq={q|WOKP24aVkvU5XunKGZ+Zcz?8qI;(
z#Ar|0MW$F}I)dMm(hn2${xNy07(dG+$yk0#CS4>qd(vL<(@*TATjw`Pl<RaH;)8x+
zlTlpVJ%o%?%>P1j@6>;aX}A14<nj1trbJvx<@psC#|sa+_J>@{f9E=W%?ba&wLavA
z9&%$3xfgzCbMUrLI7GkmI(gd)hv+kb<57FdL$3c<cK<`i-iMCihmOq;9XlR6wmo!o
z{mK)#{_?V?>52=eXDfbev++Zz=1m|7{1EWRR-C0Apc<70`R-Ih-wKDPQHIpx1AICE
b5}#___L!r@<DRgS_ogblKI16CQ1AZ$WDYyZ

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/nixl_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/nixl_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4447a16a8a52958b3deba9799d5e84c32a28fe7c
GIT binary patch
literal 98101
zcmd443wRsZbtVW900|HP0TST*1-=RKO;Ha@)Po}RR#R$;>IZE%OtBz|6!_=@s1|9;
zmhE;-*`2hM*bzH+((H_rR)4Kb(}}Z|lT6Z1ylZDCGm8@023)I|<?QzNZTuxO!)__D
z<Jpb(Key^u0Z>uu<a1`WNZh)0Uv=x;d(S=h+;h(Tw{CZ?30K7W<?-+@n@#^0J@Ct}
zdL9&6O{QBW!6cX?rV-_C9x=1$tdT5sw~ScW-8y1rciV`K-Lprs**#|@hu!TXcHFZf
zj>+7STr-tri8v=+BQEB*M%<HmBYBga5f6K|MZA;wBl*mq9VwXfjrb=0BmT+4kwO+`
zjued)v2u$?O4z-0q?FyuM#^x{iIh)Pj8w3+_DJPq)kqcdJ0jJSfsp|7=SFHKYe#CC
z-x;Z!tRJaoepjSnvT>wwvT3AgvU#L=GB^^P+%mF-#knIbldU7IlWikylkFqzlN}=+
zEIcpLIoUPRHQ7DVJ-KycD+}{PdM3AxY-4_JWc%cfksZvRAK5wCJJQSi1(98oyGM3U
z_KozhXJ2H`<ld3J%<qrvo7_LLpZN<T{gVeq4wy}0pGe<Z6d9Nt92sPB#gT)Phei%D
ze@W!<<dKmh%wHNgI(cm581ftsp9nv7KC2YXIx-YKIdTfWr-ibS(^;nQj_{ec%}RTZ
z3_GY@$|GkdpBZ_Ul~ECSZu0q&=TXM+#2@nRq2Gl{p4V(*d8?846C<BM-Ws8n{ndTl
zI`TsJg^54Yb8#Qu-aGLwf70)7t6shAaDJBQut}(Y*(5ZCo8Pu533$4ZQ8m61@l9`M
zWyGFid7BXz3<r7Mkues!1)(kBCM{H8p{)pQ<K>KmSy(&5I<&C!VbjFF*K5puLTA`7
zbcIg}-C<X_Y$DFX^*gn}`D|h9%T}%S<7(}D@P=*SHeMGkeuBM!J7RZ)TY2orr8#q*
zDg3c|lUTx9=R5j4xKF6kAt;zfp2hF^=S{D?_mb&~<$2RfJbw{d%RKT4w6IYb0lf_5
z{ac<lxbw&KnxUXsb_(J1qqC8iFg_N;qy1<sERM#e#bB14eP}i|D~9EQ;frE;R5&#~
z9XWU<JT^<QX4xT(#zw~?qtR&4BD;s5KXouPaOB{?@uNeBWlR6moNPZi6C0nN8jT>a
zH9U1Wio3Tz77I^N@PW~>OW`R2VgAgpgHyAUl=eb678;Gkrb6emw7JhjB9jBtQ|HGo
z1Z}cwV0vcmKxBICQuO4ETyXpu#7u?9P`?AC(QxRQF1aEl?8xYp5WP5hDg0D8HcFM3
zeJQb8peH5p^mHT~w8}*(L8rv&Nu(9W$D*<~CHzcmG!~U}^=R3t`-cIdD*7CJd~{k2
zO->8pNN8qM9F0Wa5l5#k$@QDZzcejIgiv&RJ}kRfs+rIQae8(JK*~EbExt4=3i$F^
z_zJb4b9`z%7K%(?xDcjh@{Y}lB0wIRiHye1Pm7aiSob8L5SpKS5mks?ls(#G6rc=K
zAwGJ|rOTnQ(Xor+P-Jv&dX|DcXYeS@M#AFB+1LyV%4P5$9z6$0ndN+~Ejc_9=mwam
z9HpgF0@Q{y%Q>gRFV2Rev8W5Zl3qQDCJIePFCcO5)cBQ1X!HWUfnGpQ&z%p8!{JC6
zsl>VY{Gp@Iod}Fa1EZHm$0JmcpB3_;sp*&=%(E+ng~nJnny+PPS@{7ah{{UOm?c}s
zW`$ANGBz_CG>dJhWzZ_N;wD=F2ibCEW|oDHAxOJaL}z*sL(nZ#*hG`>NY+_X*b=r1
z=01dmZSZ9=Uv@Z$&<ma|>^TQMtLC$1q{(K_R8EfOvumjx<eSS4I_3N!z^k8t#~Va;
zgr_cyPlZF{f}F=bn?YL{5WLBw7;_jwqk<q}pocGykFoT*7@47SY{1F6>>i4sN6Y!C
z!!$HCIvJKdyePHz@buJ+hk|z59%AW2Avrfh;{lxtepe{;;_PUIO2CsP8WUwtC^R~S
z<`^Zc5k;u&+*~Xim93HSXiT<@PsQFcJ;3Lhes-=SHaXKVGd|N68x_%u+OEv*=-qi~
zN4O(0ey(F?E_QKxs^c;cNQZ!|;`q7QSXk&lJ!2SvQS>SDqYEe~q~mf|2kUxTNc+s3
z*o7A{Ck#)N!2AW%x~JgtLrH(>s<kv(TDdg#8ho`$7U=bT{$$eYzj5ZKgJO%zR;^{p
z!je^MNz&_k`J_0=i!<&x=MkORaabp@soe)1Kz&v^k^Zc7qU^9u?L=1icqg(6O822K
z)_vyeK?fUz)JbFy8hA9Kv@?21R4!2hW-iV}$J1lHVt8^o7EVd)R6{OKqjmVh%(NJj
zd0M^u<-}$fRvQZDh`R|A1W$1fIsN1uAZH&rd&wCfhe7Nh`3`FiJkcF+&=iHGOLaG&
zU$s`PSJf_WeQkWz+LSCRTiSXPzUpMYf7R+&-6GarZtu${lrpKfv{rB;fUXDhO1%{X
z^UJ0Yi-Ra8hmb|X6@xgNT0yXebHetpL!s3KTR2z94(FcF6>?s-jW_}0T)B{j;{fks
zd`OO|BpkiXL<A6Fjt3KPZkfhS3#Jf!%Eg|v)a*$mm`tWv4o}6259GuWK)DQKZ9I0)
z^p<%jm@T`+@Qcw<Y&s-{$1dwn(b3D8dU#wE^ESq2I3~MU&^XP|v9XJC0ei$)4b6zt
zW8r8tEWCxeKN^mlk5Z)rA~hTheKtph=Bo_B(az&PgVfP>IM+<c?w&>Kn!QxJcXqSq
z`@z<?3&~e@zrE}2@S^oSdo^oMITw|oIR!mfJVLK6NEzvD?wthUicF6R_*mA7*<>fX
z=wk^4)Pu*ek&|CEIkA@c7Cg613)ThOJi?+`$4s9y$Fx>i$ikmRFjJSnoe}Q1ThwPZ
zU>7VCR8qzzU|@10^-j*)YI|PIUa*Oth3o~>gw~pR#sxNyELcS^OOaY%HIb5H&NOEV
z+K0qr2o;|q=Queh$Qgq3W2!&KA%RLfO3r2}G4s(_ku5;6;xMH=0|!}0$p3M2SRtPv
z-wWhW|COx(^NUgXrhsxOoxzDYCNvd(iDKt#jQc}Ml3zmp=x5<vGi?-@yfw>x_dFeO
zdq>>Uao<yvtY}F#^du`g;++Si$^qR|vgP(3siZfl-q-z&3I7(!zvXuC%IK<p=fix5
zH+Rwcf#2jRNw#(_4klcclB;rQLUILv<g7>wy5|aRSWK=;*2{*1S;L2du1xIpG5TQJ
z>F|q31s#*gR-&;LROX-r)^nh!MFHMS)OL!($oVvWQS!WO`Y_98>)9wV)iot6Yd>%o
z+q%~Mr5iTfH?mD-RW$8v<j|AdR9Um^TOM03d2MLJK_R)Oiok}Gd@fUQ`9sR9;5;fh
z4d+o8r|ZEfpp`GCU_D^F4q!WUV<JmvE}`yxK6}x0-YjIl>>dI6Lh<LbfbI0vkzKF@
zOXh|hf-_96c^(}g>{Ku$R#L8)ts^d$#x3Lt9^lSw!HY1rkRQ%N9?yBJP=IGIOXCaY
zhaC*lQfba`LD(1etJs#6td;9Wo<gAzDIDP<HHA|!qqHK#6br>HZ^=YA``R=|Eh9@P
zLCP|rG+d5vDucg5C=XYLecJm~KMzy$S%nIutwP-^mAWE#B|@qZ5>UP$Ayo*e3Fk1V
zRzLb3DQT@j;AI;}=p(fXl!Y4PsSDRrU2tz;ZNU(YPzx9-b*y7wuRd`Ygc~s*)u*&j
zlh7$Npf=4yW7sDsFlxeckUckt4Phh%g)J<tU1&ktEdtiuBP~K3+*Z`RNc+xq#I`M(
zu9!#K&zOQ;vO8^n56Mm<$5cvOwu)G8r4Wt^H7+*dBgaxPAI(|}4}T6g>#OElCZeyE
z>$-Kp^vj4}FcS{u%WX5Bjd15RhPjR7CJZp?KQ%q(Uk%GIWW_jR&NRW8cf8KZ{ZccA
zd|k}VL-7SBqdM^U0cET60|*bI5wz0hOlj{b;3evJ<y|b7Rz|Fl$A5%3r@U*<B%Vf2
zEH!M=*_p5?GTfIo*Q)JEV@>qKksW8iDHuF^;^1kyD6K<i%S+j(QQe^^UvpwD%PFT2
zmc*CBqMZHg$<xPCj4!R2XIW&>rp!o0M~RoniLjT4LX2w>3Pq_S(Oh(mO+~Ec^XV1R
zNRc;?H2O_AKfPvp=rTF-uIEVhlBM!x;r7Wjd*8aJEa7RBJZ*7LZ`|GsH_1a1o*j~B
zN8B?Iw-3Ng*0m?<`lY)5MBQ<z?)akhmArMQ=PUaXzE;WCde7PVzPEAtQ!9ht9{T3c
zs&@cWjXQtMRSz8BZ$4;V9DL7JlXT~QC6p*^kqTSxxm%J=EsKLlald}YUFW;Q-+$q|
zFRa!NvxFNqQ(h~>^x&827xhUte!c+@=om9WDD%2j6w~rd5TG(H!K|~E(BlltFzUZo
zK^=+aIa5mMG#O@GLRL!YmY{WL{@B?mTG|I<(*YqI1CuA9GByIwoH+56x^iz190Es$
z*hNY@#@Py7x*TAnT|nVuw9g++>n#CLva#{03xVU$q@|-GjtmV3z%&V*Lz1u<xPnDu
z0G*upD5Fzj;da@A6vT;AI66vCm$Mb_i|hhtW(p;Trjb_8nZ=5FGBPSV#;49tvoNrQ
zEMt+V$hznPU=XEtL61~uqjF+}5E(lzh6S)=Qn@kn!L*NPe@xQvP{C*6Tr;gZixSQ{
z$ypb7w%m6WBwW>!t9m2LoWJ9t#p2Eb?cgs-7E~q*wnznA5(V8-LHA<LkDLW8;=VmE
zVJ|_qPr9CcXvuQqqEmVc6>2+&stIaaY{GkFAMpvsrYFH7Ld9d#;Pgf1Y%vUW;?$Ui
z5|NV7I_rwhz=N)6GVF>9nl_9xBBKfUb2NEIMNe6xNEIt1Fj3`*;+&*Ki&np&ML`$W
zkWM5DGp#Memk~1G{3y(g3yV|!ZE!%Q0!aRZr%CcO#XVc&_N{P}9-k7D@Enjl2a+yd
zys-I!CCi(;VFFwgkY+247O?@vC=dmMFD!zgszTIwQhW}{f02;Xr_l^pmdwt8X%r4c
z!I}Z9=sfBc!sweG!vcXV1+Jkc;upwaR6Dgby0+4{#YH^LH>SgLvjUSy%NF=ggyw$9
zvmemB@l3q3GZUU(Z6XPQn~APzj1*}_^NWKYM`IbV^Pig?2TNC<&%nwY4Q45DyH1}=
z$d|+F%kYCwnaVn7H!5JAGAiq34A{r@x<1L%7vJ;Ls%I#UHQ^xg$qt2|2Y%20&=CqQ
zk+N(*4<11j!!vDMzCvG^iX+8eK}ZH4p*^#R|C@4kz(N1XeJosdN}io}i{A~ddQQac
z3S&sNQ`@l34sAk2QB;Y40nEkwi`g`14rcvqDVIhJU1!3vK<r|eO;Vf+3S8t{8UbEM
zHe1Cmf`hH~t@d24kbdz(beHx-#cKJQ*#^)q_6~z$F&AQ*Y}fK);j3WOas-EHUJPlu
zG=4Jg(618wQ#<spA|P`DdrUe1mGW<aqb&L#!KQXs!XA+9frPzJviIG6?mhb<wNG;<
zbkumP|6*sIx3L_d3vH*(I#E0mU+e-n&VZ3t9}b#dLwp)&zKVePK>ApJH2XhNHmn!`
z5jL09OP>0;r!#KvgqtLIR7&>BguPR;cdnGaXWy;BBX0~FW}#_NFpQi2KNKh>)ZoNp
zQ+m(2+4Izire~sWsc7)mGeNUNpvjmrHY+3xZShe6v|X}qU-`7wVZ0pc5ZOh%?=%om
z7iMFgRy@C`IfAe4u|77>w;xuAIj={67_mg0Vx(gPP6^~!@msVVy@+)%wkyc9@UHb6
zneh8M!LKa6YY{!fGiDRaf=C29kqDIZPQ^nKo-WDLwaQ2t)~k%U*Z*Q5Y9SD@xhimU
zFbaG%8Vj7q#$Q+<f}Qxefy?8g0ov8m;KTM_wfQad(s=A5c1Xeb#d>vGjEc__sA%-6
z#K~_Fq*@<^)aFGvKO*b~B+tOA=V07^@G-C>w%n%O3u`B1GTDd});pK7N>}?!5jA`2
zW)~yk9)-g)!J+<9I6RuwOW#kN8XzR6C*cf8&OqGRob(lI_$lGpEqQjYdiKQadlYnJ
z-F#N<RzP6>tSg1FZoZ=}I?tH&aQ!2LSwnA`#W#=_d%b?DcjgW~1_$v}S(;S5E0-t)
z)uUgQiE%bd2hk=D0kB!U{<x?5Ar|j7%fgzgWy4~1<UY(c6*R8qH*MtLL4kk^^DjgR
zLb16SY-#3V_d3irKcjLHkaS4hDr3QyM<ZBZjioNdiABZmQ5A!h4iSa@wP1bQiU?es
z`os=C0Yw)~h=NJN;K5d)zl)^eo8;Vvqp?SnK_M3?UyiMvNt)qF0wQywdNf5fL8Tm}
zfo<Y7d8?DI;-!k^`S{kO8RU5yqNQp(@q6&wa5fzY%DxK$fL+G>BQXLJyZDk&*{|7T
z3>okujLUs=vbQO?ICnfcK7}<AE%|*J6h8HL#@CnKNFkD#29VID%PNg4d%##AX%5Op
z;v91JB|Kh;rjxwy;B)57(??}maV-S&gGgmW9o+YnF4ZT>x}~!2wVtDEo?~(QvAE}0
z3enIa*;{T8CRzuj*1`8wL`8jb4n2}~=F^&rK+F0dwb?C3wa&Ms)h!@QhZTVe0r;6p
zd1*Wv4q%%Nb6NWk+xy^i*6*W`v|;IcX%x~d01Jr`;Qa)!jBTQJgCv~<0U9cp%Iq#>
ztl2TPSs}8Ui7Rl@SFA_6w6!#zmF}1FO--A86YUlT!dGS@<74Bo$Q=J3mG?;BBmN;d
z{}VaHK+GIgZnodZ>-I>y(q<%&?4hqBjxFe5ugT$N-<3A~QiWM-{3AU7T?dZF62^<w
zOWd=`Aj{<`^t;%&Nm`8|uBUzSfTYb%Wx~s0gHrrG<QD%mIW)J*9%98Y+EXDrWhWzy
z+4LTjJ-kKKP2f!OKz3_Aj#6eeSz087K~2$1c;`Q5DDnw3;q1KU>|7a6Y&#}xJC@k?
z%)M>TBwgNwt44CwBwSsRt81k`(S1znKK7pLI9SEopEbvwosV`4jd1-f)MT@6@!7IX
znn1&_$gEy`%Eiu#;jZ*&%Z<YyN2AcPi8q@?!KL=-#o3rJ{n8X$Yi72C_-Ck1Cc~cR
zfOM@XI)DUe1W9WO__j!{Eo-h;My@C<(GC_{FS+Uyt~SZl_MWQ)Ky?`a6oo6}>=-<o
z0aV>CGUi)SlVn`90vO$aqH}3wP8VMdq);&*b<M975C{wtFMy*ul59iQ7Z{fSOt7};
z^KIv7WuY+(^y0NjfcO1UI6M_N)iD@Qwq2qrEQQmIshh!7NU855QkR>t7<AqOReflB
zDjXO;4>>%&Mrog+3H#~!_-d$l6Lv&q|B)FP{3zSPh~j-T6-2Z73UkBHm`a<iml(6n
z-p7Wef|ab|3ff+*Am?*%hJqcLA_N|aqunx*u%)uA=42aJXv~Y#f=I$KOhQVw#b#$9
zl6ipwUM7clt70uVK61WHPCq&4$=OQ|(K(EFCKizISK*+XX%SL9*~3goRU}S?=p~01
z-XifzL|Q_Mgha$5a+b;Y9XPU;C|I$Wo=eCnB!{qsNYsk>EpqOX^KZzZfh+zw9NDez
z#*Kv|kx&T4`(=c(rPzLDQ*NA+lCw+^zk*@&)0c^hw|&<K4xjC;dA+cD!$uzP**#So
zIm~M}mDMhHNTuC>$I@(cnzHjZvb?s!m5C2cxIM7&fQ{B{TW+#AuwkM5j$Q1&?#Nq=
z-Wa|<ztjUNUUCE;*buwnO-;I`SIKhf%md20;kDULn%B#M8#eNwGP#uxa+o(S+xC=s
zJ-=)Ng*-(u{*ooj&EAb1_GmZddKP0hhL`G=qD##;Usx8T!Yy&n7Rk}_z`;^@b8Uys
z$&!ktGx6HJ@yfkY$-WH>g{?c>4{YSwsLHbS-5y-=t%ScF`DP^EbwFwzcwj={hCK`M
zD+~01basoa=k}Qu-&@aZnBcwJ@UG?Ef$!RXQ1^qezif{0KP~M#^ME2YaxJz)<`v7z
zz&Gs_aL7y{d*jVJ@AgQ|`zUBH+8{fBy`|#=OAa9CD_*iJomsNq+`Bv|`I<K<aNSY5
zGzjQ@Xv2dFa`-k181NlPKy8ORU{YMZ)U%u`mABj;UTKlq_QuQiN=5rNawyhrf>fXH
z=FtrYJ>{Be8kW!8uD>09E4ciE6zJJ-Qm_kH^Fud$>Wj!%q|`ji=Dt0KjTM`FMIb=9
zH|%zsd);5WVZ$9S_m$jgz1g~vLr->7Ny~<Vd?+#Rfg8RL{Z`uv^M@|0t#iZWwC#yE
z5560dnveg)ga>6*QwJTxPrEpY^8ng1m>{_9FGTer5vB+YLKwvg@rZ1}2C<18hzde<
z5aNQ07)Op^N4x{^&aevtG!*C7ggEjhs<bz09>Enh4tGPW#xCTg2z_`3kKl!fjYG&G
zk(zLUD!h`-gl&8*)+hKOKtlpKBr@ZN$V?$p7ok=p7*ovBl!i-GfgCEQ0JXGfwX~C{
zk5(=T(3C<1vRr%-6`pTCIti3D39)3xhzv}h4`_S;f#|ppCR`6Jr*4gQBaiW}#33LA
z%)bzpAR#m5!e%r=GcO|n5aiNQLSQ6CT;uV=8c3-vD^pVDWxkUHQ6>n5W?U15bTh7b
zJfmFRaVRI@*o;e|DPn|U*)>tdefnK6GXW2~KwqTQX{yS&M8mGcN=VHe3-IzM>bOt8
z3l@FHl{Al#Q~N?Dq)PJ;yJA7^o7lpA`kj-N$gh1n%TE&vyV#TV_3Vj+pV$@K#(gQ}
z5buFqhOsmQvkStJ)*&Xse`vnyC^RU>M<e6&#B62i0ea_bhz2X!e!c8cw&OuMK^sNf
zg<?eNr=k;%TuxF6A<7#%b99hYWBP}N4xR`dIeBJS&Ziz88Usx+1?>+eDZN?xQzuUk
z%N|WrM0uH9K#YV8{gL!SN#a_Zrs@!;AT1vz!_Q{vKcWyX7L_W`U5OK^1IkvCO_0k%
zQ(zON?C6lJeRvA%@0c6_S85FUE5c^GKC&am^o0OC*>><U#<=VRe{p&y6lM<|CJ2fh
zcof0Jj8g+>K?RY2aJZvN3gUS)+C$D$LN#e)pPDLF+?a0`PSBTAYov2dNH%G{I&CGd
zwX7!U^D!dqY;dr0C~qX$;*w-pgTgUMl<kqq_CRRIldNkc*`50}4T+k5sivRORlQG(
zvsMX<ioDW9UQo&lCi42EyuJ@CX7?T}B^+)fqOIBT3~8bJ&hmt_Npd#b-i8%lvaXrr
zcLJE2@+%VFcFEhG@a~hm``+Cqd5@qR5(x@Cw3{5BSDn|LaevRs_?mq`k`J1Xn5iaB
z$^8fD-gdvd{`GyY?OQEJZSf(PJ&%}=u_P7A!$&EsVtwm2cE7)+?d=Bgm4i{)x%KT?
z5~dD3W-<8{Ky$OT&*K+*#*4$x)*6RT5X&Ru;v-zeHX0V!mylLbMjnN1{ULm^bz*va
zDsv5>tRXk+5_~cF8R`=IPzbsNZLX0JOu}9v*(=bVYyr7Na&Cz`x3dLgi{xraxH=_Q
z=bEcK+1^cU*#cQC*A9hPc$Mn)IXFXUoHW84wA6kugs&mN|EpOsJSvyrj7AKujElqN
zss-5oF>o6+ed3cQ)5r0qtJbTwn1dIyV2f!pkj5}|>SBqy*w^RG5MrlQO2)Nd<E&B4
zs7!$=rp<s8+B~3V!YpOgg%4vIrl;J5+IeZ(onVB^Y<lIK6{3!qE4b7$F(b;9*i`r0
zXJVE7*=V-YV3wVdF2Hl>ca&bMKXD&wK%)8e{8_&vv{8TJJ|g=B+nsFAn@9aM9+z?b
zC$u?}mjS4#UNB&?CtCDy?$hJvEOQnJ=ifxk{1Ic+NBm1j)J560bDFXkV-#p>Uu^;2
zKHoDu6Ckz4K!dO=piT$|*-6`LSD+ypU^-hv!*cN^6AQE~vlXo^*-9L5Ia?ToR>qWU
zC605jNX~&aU=+1vo*78^$vFqvJS57t@mP2=s_^)_@R@S%GqhK7koNZEY^8F_>}C_f
z=VmXk6|ii9=9-v5a*?oum?Y;%lsj8dca=*vn*<faa*xv57~fsC63>roK+y1(U3`+H
znOe?KD<PA{6Vvu|ldB0zkfPM6FsDqAkLXCS)%kq4aoe>&MsDH@gtnlD5443v*Ot~r
z*ZqRhTOBt$5(Po2Ah=r4vY3->Y=3j=jj10tZkJrOi-&J~;=ZqPX>zS?@0xGl{h|P5
z0}Ho2uvm%<uwu+7IlzY2H;3LBTG_K&-@kZbsTiC{2ok<};`)iC_fXPXeBbN)%D|Fq
z`B|x?ZPnkt>h1Wu94jOXJ*K7|&|c`m<cVnsQx&F4r-C)R@0ZoR-tk(;YFW$T@%!yN
z6774X_PxpC@<efuRNS-f4<!B7Nq<SgUoZLVnTK>YHXOF10<6+XDw2im4}G~Ec_ath
zvQdQTG2v2>FtJG2TwAg0lyFr@u8Q|uRU4Hi*H#4)KcqJQDK%Ga3VmWF+9_>6fbb~8
z%wJ-d`SDo!sx_wJWx)(3Ax#V&cvf3AOlTMvWvdr3p^f8Qvnl4};V})rO=#3SkHeZl
z%d^b{RiW&Od_9i)QcBS1avlfqaf|*|%o@bH$+&cELV9m_hlZu~ggnj10jaAwSM66F
zF^#%5!nzYRdS32ZaBwWoW+ung+$TWHx{#YvcSlUa&zE+fX^T>FH}H4pcfp4Dp+)Ip
zc(h6Jr@9MRm@k+Xa%m<yZ{fAW-1BmsDFv$9ibT%~-F|EdFJw(<D-b=7!%ED0-ZYgB
z&HOuDGaniuIrOL3Yc8kG)CHE<OAu*!9`yv9JV&tr5VX&ClNvqgf`f;vP~8k;V|$-T
zG(*Z&S-)r~JPMKJ*x1Z`)fw7<r1gzL+LLd3DnR<+gs*@6*J#E0>eJz|@c3o$izlJX
z2VG%Bx{PD~=zQCNB8mphT(um?M_+)>_3V@~rKDtSh_XR96!fzdlKAfc4zZdXT6l>6
z1&*9UI_YDvE3yS1Is5d<v%?VX&jpGj&GhM+m~1~i@XYYhrw*P}*95eH2u;F%!8q1P
zG1=CCVRU>-&K{43kV*V&D*4A$a<&krMT_h@d~i7Q)WPBY&{Jm)%Q>omwwy=H485G7
zQ`B&S_zzUb&!`Y9TdG-^(!7;wB-^o&gE@oPoNR`=GNvdwPnpF+Dx#0lDCWF)+!dzg
z2MC<+*aV?(HtoElWAle4jN#lNc{&!Y_dOL$XO{<W*RQfCd)}+A>#lg=wv`wZ6YjhH
zUpaGY<mSk-f6d)^yB-AUt0%9Y{QAJ_Ctf>oyME1uJ&$4vS#wn;3yL<fZ26VYC`dHz
zlA3m{HuVAF-Z-)}y6l6}LsR>k({D^C8vCTizPo2u8~Y`1-3`l)7w&tDZn<u{lKyQ;
zf9*q?GEMl4zutP!*LdGwc5CS7P`vJReE8Wl|8r1=PI&8(arwF1(UlYLR!Kdl;`L9j
zc~5Utn|#GT#nPjs{MOvfxeqbjR3?jS62;9@ar0X7mLHW={>Wdkk%Qo$t(R2(B;S<R
zlyEmn?#7=*Y1aR4UiV<H<<HIjL2K5Z7xs7H;d|D)!B*S%nyln+F_XX5LjGRc!K@td
z8gemtbtdke#$O@~&M^L;!bAKeT2N+QS1l<@3>wbYQvv&@D<N4vyAw3C0adQ6JBUqq
zm%(1@6>}8h{{pCWeO`ck2f74Z3t97^+OOIcY=Y&|AifH!se<)<))~{BEtoyJ6G$$X
zcfvzZXHXPg12bay{CFhN8km`lL;{fAMhJxVRq?85;5?qxv|9Gj=-kxUMR9s+dNvxF
zLoCcn07a1Ol_ISIVv=lx041dC5<Mz-s>-khnole8zCmSQhzC!fn*c?s@9j|S4U`H3
z&Cvf>vm*K&&<|LNOkF)Pr`4H%I@d@*Wl1AJ!Dh5SroL6nV7RHZg~`V1Z&3?j0%&8S
zQ_vA%(r2{0MsS0$u2!B>0WQ9;E1H}O&rJh!zeF-@sK#i7k%8EaQ#2>iKOgTGXW6D0
z$pJrFm|CBg(4u->GOCc#dd+-qPZNy~fX_1%4eD>6f0me7DxOEzA;~dgorhgU4Ya2r
z+6o06&BTJLc#U8=Um!Jerg^P)M3E-rVQk~k{ZKGlWGckk^dO!?u<TX(sG<WwBAViV
zMKBVN;HHe}&r-T<Vwyq4+ri+%>=@X_Fj2;$M1(0VqG02f@jTzP2{zvRd+!lGo<?3!
z*Y&1?(nNlXl;5(L4K*3Uz@VJned{hrJQX~2*q|(vXL1$9ot4XtZ*F;GOT2CWT5bP&
zNp+&6Q!44aSF(NOz~a&S{^BLauMNc;c1r%8iwBb)|BV;FG?y%{SQ2i0D(<ZX+3YP*
zXxA^`#Y{DXDOaSCs~YmU3^;x<do%R)rR*o7FU$38U5D~|b`-LQ*R!91z#6cKH9%k!
zG!bT8Ky?~vt4F=9A~hykU_kJS15d0&H^?pnGMJNHiZ1?DE41b-uyp`Li8>n)#>VyQ
zLsf~*v`H;Aq%1CMl0svUh%e}jkHu`JNNpE#2DQaKhlIG5><2K!?!}iqhWMT`V~Vih
zn{4cx49L>WziFx}r9T)Dt%4oBfkq}SvuP@a)u|a{fXU$rj_cWqsS$!rFn4JFY&zoD
zOu0uv8yuafs!fkU8(tl4C^Q|z7GeQ<jd%=IOOuD9IeaUA4~P--Rr7IFoH&-BKnJ~Q
zUNB$Jx@`J&^DQ&z`CKci{d<;|%xs5V96)+#=Vi5b%H|o-PeYx`;<}=;qYpN9K;w#g
z=MQXxIX3&?_C7X0MfbLAWfTIeQQ}ek^sh<56ie;mg8x)`a>)!{Z(-3=(N~WDsPg1L
zM6F2i`Mi8HxZF>{t6OlGKXw>I_xKcKM8^e8FT<)qn^O!05<%at2!inGl}!?4;|LQq
z_Blwcgy%UF%rnBf;(x>&WeZsZ`Z&G&kLb}&*ijRT7Vj%bA`wNhVs`4{C~5Gdr1;+{
zs~ynf%#v#qz;M|wk&pCy#3SS|kQ1q-U}{wwU=abE63&|e{O_stj>93)LI(FqnEHb}
zleY+Hd)=A;>aOd%;ziAC&LHFLlD1^RRVTUXmJcWDw@dZg*IYXo|F`;{vwHc^o5$Wb
z7Vqd^t3Londns^xt5njuTGD>|MX97~@#qJT3ocFe4ZQn&eD}#4)`YiS^42dun`qb}
zHSD<O-HF!rmae;fuZ~<FiI=pjxm%N-!dK_7&&SJJ*F0_aeMQ)LXFcPA4fls8i@yMj
zor;c?{Cnly$W5=@CY5YkE7`GLS-p{CDy+w}QyNH?G;P={`^`l+1{3~f$=`gtI1$_}
z1$W=`_kpl4EGHTr6ISWo^^z*^YYK~quhMdR^j>jC+}jZ^?pWW_v3Mx%YrN-b+SqN%
zYf~nn>u8QN9yZ36LN|XJJsOJn0J?H<)C=`r(?6A$4PNzjl~--y9P0(Ek#eyrag}An
zU0JX!*o<=tW+Cg2<!zOM2QJtNzOtc`zL6p{|FVDaT4o7mgIXF)pbJ^LX#jkO#(n2)
zLF<K(#(zQzzaGPVNTE&Go3t3QL^3W83pRCY`v`iXiO1%NX_F2w2fT6WQS35|)!xB&
zf;H~i0#-iQ&xL6g+olF-faXr2V3DDuzabx^HU;t#A`|}uIcLcs)F(bm&i_Hqb8uwa
zSR_0uGA;zCJ!v$^R+6<NU1w4sk}bG1r1l8W`DG-|5R}%pA{9A$Z1yUq$QYlvo92jp
z7*LR;#|~n{st0?MKxe_WM020i+?QxRAT=NOVe=rw7Z(rFy8X;jFzG8w_=1uz824?9
zySBk)c#K$~$?}?HAegLcOw{#Cb-l^jM%b0vaGKnee`m@D!`5aB9yCL;?H5))?AFv6
zlwVnssOXd`I*Bh_iX@53PN|YTm7z|F+FerZE{dzhw>sR)u3N%hE7@z;?DcFnj`rcS
zko#3NUxOJa>|)-pYy4MiXETtjuAz_$Xf-W570g8wP1=f|dJ<dl2jIeLE^tD`G-<wS
zL0>jB9)gv)*58cq4P+wBMut9&2{2t(1Mjnf&<1g8w7Vwg#AD3@h&@K;8I5qmclY5V
z!Oz706ZtlMM-C@ESv?Gibnr0@2xi80B}r}rjABH#8bgS`9h^>UOv4zEFi~d{$hQnC
z+z#>56WYLT{DxQ=KA&9^72K!a^(9Y?_>=6K2&kTv8^=<QFO8P3fJkjhM%8OvH)<K|
z!Zz^qu%DDoyPQUQi3n}x>GV57x9CsYhtO8;*Y6YUx}W<dI=N53-^u0X$cU>Hbk6@q
zu0ogv0w<yA5*Xz?6yjrWg~C>5szaQFwMp<eAkYQ&45vU9S$nOJ=*8*Th(LUc^CAR8
zAou%H0Ne)7%m8~9hCI_*Pb9ajBnAsAEb1%^wjh84nESNCS^}#(HXEHkk-i>LE23#X
zHbb(fl~<4H!_7uFUxoy;4h^w2$04%dYnuPqlM4^fCL!_Jq0NGA(?Ap)X;`FXk19h>
zS<nzK?R*%vDHJuw=rD+7w!EP?u{BNx`Ogfv1xsZQSyO7i+{G2(#U{#-!9@8u8dc85
zz9nG7I4W!gl#31>9XfgjW_dy<4h|h2J`x(}KXvNhpfclCQaQwCQG}bSb>XJ|0}xOO
zoj&;V*@I_>LyR+jb{NvY<1hj0B1<VyWdhFydX{WDJx^tHlk@M%xkt_fIdM3$Up0@b
zi96BuF`r$pQ8KnZU|&V+1F(?5ew+(YFHja4(MRUlUqQC{bmbj=p3Uq7BQ(cOpyX?&
zzbh~~y4Ukd47fV=>n>lyRVBHqU~1ykq3c7$;&Em>a+QUHuS#1u1lOEfK!Eq|H@{o3
za+S==1teEsxj0d?Rl>ikC#jOvlB+3+e5uqvo|DdkSNC4uyYz`fWxrI}f6v*EIgmCt
z6%~bM$)yqUYpy<I0AWxWSay7E==Rf6MSI*{`k$N??<>2rWaOo1-CLaS)=J*m`^1Lt
zk-R-%O}X<P=9%&f6W$uhTeIq|`-YHcJSO4adkjkodR<1PNr0*58}-SmT2KthO3)28
zufOox3lLFGl(b7F?Yf8W*(UrwlD{Y6KPvf;KJ?h@VCKY5wodG-9%QgAL;PLN35A5|
zu~10#P_yqP=VRpj89A&M9UvdgL5lFYi+c3<m?|7k)UCdyFVcRC_&stikn=J*w3IXy
zlBXUc4v>Rc#-y+aUnCzn&!KZfTj0EG`jNGJ!&+<GwtQ^EgxlS%59s#c5wq2{b;H$c
ztIm|!Mi3L(#(iVhY|1X!$O_obn3;XjWy{jen^PMW3Ro|!x)r(^+OW|BS{#ojZ=T%9
zVUKo`r{F^ec}dV&En;KPTx%;~V(fG$F?QS)G4{d5ImuD_z=nX0Bj#PUPL_=BB*IR2
z5@E-E<BGY_=4T@8xZ}Mf!A`zY=6*ATwMl}VJc!{E?CkL|66_BhltO_cL2nE{?cyt!
z2j9Y|OBaz2Tbb4Ltd~>vrul4(6AG+h2u+7`AW4%Av0|{yU=<Gn(t-oOT=<!-LBumr
zYS_CYD}zqK4V!^EVV9AF5ErZ#@=&G+sq+LcY!7A$`S5#%0+b2cgMuG|(%C{G!hBCI
z4Y|4CG+94%pkxx9E@YNtdtq0wNGMb5>_lDdLOHC&7PD}C2U3$A!4mdvdaspP5iAv|
z!euDA8gb=9AY7r@7_31^C9MDDhN}>&h7<9mLLp12LkebvFbvCs6vOXY3fKi4sYPAY
zc)W)!1J=P3AVIDIn+}d}m6BR7IVHVSAj^UEY8{*5Z%C<s5YLUm7G5`4?pJFmv;w|u
z3<hK`uu15EKzuWU(=KXf{X1cy-y!6YV7bs0u2Ox@aByN+>s6Wu?cNQDwxr~C@;3sS
zu;C9|g(weS*#mzYzN1|!5h2?U(!sur*_%Yjc7${aJ5aMOVJF<~xxC<RaTc$eZ+KLg
zU9muyCdr=G_pNF*AG8CN=zaez+46^lP1x7WB07-yxFu&81Xo~>SSD9T;`XXdXUdVy
zazKTEwXJH|S+Jw7q(a~b+wm2-DM|otE!3G3n#bPhVr9XmXUaR>6o#<}wFHD(NuglG
zgK<F5UOdyd$;Y_KQR8Xs6sXS>Pj)<g7)KOO$_-?r)33(UGmWdll=5lx6s43`jOXIH
zl3?l2(#@kNux=lo0S|L}W*WBF=H|bs5tc{75s)DPra7f-_%ZD!NIEFS_nBc0Sbl?i
zGRq1sD(Ewq1|yjU__Ts1M`vb;dgEJWjET!~tHj&zDP28|)5eT46aOB7lk?QQF4g8W
zlTjdRa0M~gHjl79HSCjJgdA8@cBR@=Ph)7)lGB3UgZ~2OpCWuq3tIe$g`{@At7ctL
zX+blrAXrIx;EI{Jv<qg%%&VeM0A>umnO(Zl1C|v$Fy(Hv+rtq!bx*PasFz{13q-ZR
z8@0`H>?vdqiKEE-V_NRQ#u#{lCMI?-yJ$mF1D=Cm$n1*$m{@wsYQQe;#7L71h+&PC
zis(L0gFxRPx)u`e5E(%P$Vuo$s>CGL1|m$_k$9$TXB&ZJ**^PJ|A`a*XCTy0TEsKh
zHXp?i7;O7d&dVs9UYaI?P6}@`Wb_8stzx0je0$pFfk9V>Sb9qOcZfj!H0r}R*;TcP
z%66%;T_F#X<rTLJ?$*5fBB-{i17>JCRpl)XfxVmWzX4N{b;~bG-sXGWf!i<K?T3cd
zyERf9H!s-&!m*-r#hU2smpc0soyVlkW2>Dfr1Ga0Pb8~b);b0f9mgd6S05u`<_cv-
z{~YR();aO9O6R2I^=6$@vqd2iGb>XbTQ1$S9p-mE5muY#{ZoQl9)sJuuQ=iBmVDiD
zS2z2Pv`;`f<r8Q|+3XV_j8Vo|oRm7_LL3f7!l>XVJ|*6z8RD>r+v(#Ekb|>-9tDFt
z3X1~hsyO>V2wnaN-6SpjpVQ~I;LYeJcF^{>oHw2KyiYI164f12bqBmFJ&CPPOIx4b
zuw?o3pd07TQ`&SFGRgTWs#11#Xc3mi<kxUe42d^`(Sms%=@iTnEjfn6ql_`d*FfSe
znBiJ~)5b9bM9U4a3d+QXf&E|`CA%UTY9?$uFd7+~B}M>~(ohzXI+ADht{#WFb?yNb
z_G}oIK&MdBI3%1QP%=);hYax#1^??vzYVCQO`8hR>c+LE11IQU1wKnC%ng$G&;&+c
z6k{?B9s~(R1hk?tC8ZU|&VGqfy{KsdpJbwDn6EyW{t*oE&6g|h%mfI_Ip4*PIuXV%
z!)yuJS3O5EJ?#C4S!8oN4nP?~!*i1zI3g?EWQU#CC&R*<5pv^6|B5>7(@KZ+V|j6_
z?`Gd}yX5O!>A&aOhW$`?Ub3L=w(w5mt;p>cHcaNe?qv7=cvt_s`5P8<{vZ}ZNCNgY
zy1SZtujK2ByA(s`|9|Vg^Jmi<G`;V#QKvNRKe5{?EuOEmcuFzzO^<8m)Px>lx{;<>
z;Br`uj#66_M&NCIG_$R}I*Nc?JNjUT9F0+%XJ)xiZBOVH$SRLoZ{N**@rLb^Z~NVv
zd%oRj<JT<@zIpPElkvJ9wEni{WOHx4Y1duYXE5g<=dHh6X?@DyxI^;oh;xk_+AUA(
z14PI$GU@<4o1-w5R52N8GwJ+jKBHxcG#11YaNbgl$+B&FHbUraz$}cNAQ$s~57rf|
zDQPF7%<p{S6t_vv9}^Jk@eYRZi7=pD6bull^1$K{)U$8xxw&V#YSq^n=k_d+L%aTk
z;6eRG9D>93@)$f=FG_<)b!MN)gv<UX!sQ7iY!G~iSI*!ArM<v*DX=}h<FFJs5{Kw3
z5e3aqT#pBLt@?JyU5dd(#;Q!~I0Q7-aR%XeV#nEJvzuly%#0srb6M8>@1!AvXH`Zy
zH}**<XVLH#!(?L!6Pyqj9TTUcQGJ4l1_THOf@_>9bEpd|YLf|6al*8WxqyiWY*}Ps
z6J3~u_f+votcKV!Bx5=m#TNq+us%*!N_d+xb}r2b>4dIVA;$D-e+1N!ndK+cYP6Su
zR?CHrfJ9MHDhl3))3bOu=_^|j5>?wI{QI`u&6j+;;;vl^Nk`4ZFRgFyN62PP2C@x`
zG9WuBb;hMHj`Wev$hWfu1=U(5_3U)ZRoa)cg#}x2%=bL89~<QQIYFTk<-?d22J-Hk
zyYKmqF4re&cSyB6;yaJ5)*g+!jy~qY4<Il5aMU;R(m!r9(F_O|qXJ}{W<Fh{_ONQJ
zQm0p#Mp!cz&ZmOZu@sB7+)lejFj1<sE>AfIgBkQtdhY|639quHH1BvCwoUJN%&Lnj
zg|AeNsa(zPcp~g+iT7wm3%W$K25>_s^g`R{*43L=mtR;d?pZuSc$FxXoszF5?rQlc
zO^^wHJTI`Lf*AOXdY`uMsrNqi<v7<9=B(hPe}04US7c(;L;p-@WR#Ofz-d%~V>cPh
zI|(1ixc1whUiIybyY?~&4FyXw*!?2eYh%W2l;gh6qd?hykeyS9BXk(k{`&|MiDxX5
zX(!nZF<?;Ku{mY^ghNx6nOC-*hmE)xn{~veDfA3EG*rcB$zfn49q$YtzwAooAc;Ll
z@dgb%vf%Xv(+5_I!v!2vQ21pR4iJL_gDlT2N0&Y!m9(tdTcFo~u!`zcdo}p^@$wd_
zsCCue`k~eBI1c+Prd)99&5o_NV;`Dudtl)K#AZj7)seT{^PvehH3~k6U=@~p*^?}<
zUbf$^TXsw3?W^|o4Qn3ur7B=J1$X4m%YTqVzJSxQbG^ED!-hKr`yS+wugvD?TCZw^
zRT>AK6GW-WmuGYIslk0}YJ_a$Wjl7?zPMq+?QYKlx@~x~9LLOe?PQn!nEBmda20Uh
zusa;BtP;4Z#gebc=GdneyN?Aw#M}0<Mi)Z_a<<n;6Na(u#WLDA^*EPnffSKcRXz)u
zwM*AVhQ6G}D$+x7EEk$kxeR4Aw6TT!k58Fq;ey#4(duI?(P5~om%`9OE(5uZYtERa
zBQ0p6#8?m;rcRZQGEQNn%}2+KT`+S|UX<bFFcNZ}U|ED6F^O5Si09DngQiz4V_6qK
zXMZ9W3_c6QgR@B<Bx-)ev0%BG^@__%y5=MmWANRE^~7!tuO)OREBL#vSp;Z0PIc<i
z8M-En;ACRbMY<-pac%Fo-bR0<Ys#6D)^^9u!>?xR(u=VgB`prwtK+_jdhXNjoPoj1
zSkMHf0cEXSbsH!#qHWlv<w&u7!gSj;VeeR%mR9wkOj@9@%h0-sCQldZ<>`10k(Ve6
zb_q^ARcTLoc+%uvV*7dc!~yQp??|aZW|MXu)KhaGa@Fd7qjF=1c>HCvSfY<?w535U
zz&!H&rZ$op^T^<>dYQ(h5Ge7shL7+zFG?_Y1L~3gn<-<K$s}sMggt3eJ;rqq3W)73
z!dMevM6)Wpru@e5Q&Oj<jP>(86GV__T)geC<}Bn~tJ|bZAFF{y@L$cD%HJf7Qp+r%
zkd^ccgxEq3zJ^w5>|%C=g8YfWPa7|+&$jS5_SBm8)Ry+t&YxH*9cfRUX;0cHyFl9y
zG*z*S<s(f3cBPEqi&_}XZS0CgxR3gjvS%05VpB#su%mLZ(s%NwSd{yCi=igOhGCas
z?C!_L(#9RT7)1B*r`T2Q6N-f5J0%>~;%)nQOzgAVH}N^{)9<mDxj&}E;g@)rzEhm?
z9oo2I-+Yj#jr}tBP5cV?>GzcUM|ddk4N-#`*GHIje>Ecu9`VITd8l!@NRiD`u%2;@
zKVgg*lsNJ0JYK(}jN|+%_8RwXlK*QwUcc*5Fnr_J^_1L)vW;N$TRdLBBW0fc#C-@g
z_>McJTvq<7eZfBQ22ZWu^_qr=smrd|?{HsA>=_=0H~lX6>vup*+u2W{&v*fPLX$wo
zYkxZ>K=txIokrgo<tKx+1~t(0BVNNI`g;(%U4P=fak5AE41d}*rvb!SP7*a|mm!{6
z;jt=a(VkN<%kw-<><_t*e>7@Fl2q(M&A!9^`rY`O5UOFrw6u5hC+<U9gMNchqmlB*
zJePjg>$*v={MUL~?pv_msd(G2JmDK((85g<f5QFxed14bKldS5i2H>iJbjWs&4H>l
z<9F5ak||g@B+@iAU;3z-xR*o-353P@a)T&#CLuJj<~y-R%ugIAL+`L27nq!lLhBkv
z(ZNz7@zAuzxooEs?O>oFDqGGDJSUsGaE>%tmK#2J;vj4poPIuZaH#*liG#9}Ho_G<
z5YZo7QAxHV0IRB_W^k&^Vi>nW^96i200%abt&_0OKA#QlOYCA`zJio>6}xbcregN-
zlw<F$&z$amO12KdWt;Nzl_Y!GHU+bBZJM!(HrnJKAB9=jV3zEh9KE6*+Zct=12Yk)
z90AX?f3Ki=3k256L3X?!u{m+(9*ir1Ii!9+L9bkk&N$W&kwLpIZ=vuh8Jmunm5O~n
z#*d~w`QWJRBp5%dG?;1~h@A!^yG}!374oahevtScL6IhJ@vq3CX;`tV_qXuLg~V)8
zc=%V)rfPG_Zh`|2#a3G_YdT6MfG&?iZC-4l5|}LQUMj&lI}1G#8@W9YWT1R%FA|9v
z#AF?r={u$<4I3O#U{)k(iMU|=FtLmZ%Ec}tjufMfJ+YhuXdjMk6*5T)xj4)YPz<4e
zPU2WTSkkAX+%H{b1_H%ZDr}9i6{%JW&z>UNgOCRvJowDffrGMFH6h3)9H79Rd3sM&
z(F*hvP}rADVkc3YW2all-pmk@2EN!s&Ng~6>%4T-(KHSV%%z^pto27_e^eY(j14lo
ziPXJtPHdr3XjCo~_=!R(iKB8J1yh-9p8$1->bY_z6Z8`WoU5S(v9oqGvrJ-`D%Vey
zvvc)Gxd1tpWPA`uA=Cj$Vs>u2Zm!U)g@IE=hoK{<s-dY=f~lnEhm^BxSfMP3_+5G_
z5gT$<iUme>C;>Pj#lQk=TiI|@+H6?1Jxw=7zV$HWBm0SDPD&MTrZ;P2GIV|xr!a=2
zOga{4RAaO75;ExV=ogp7IVz?|*;9FGd<rJmsoy9K!iK3xbC;t3sfpXjHi7I*!k9ko
zS%lbwxF4fUcBw;wjd!sIS;bz;U!G!vUl+?!WN;LVFm^JeLVX(IHu@HiV)wcZ$TK=S
zNvBdw$Hvdo<_LjDQSuL+W8W`+gWi+NEP|7SaFp?(6#Y~K!K)m?&5#6Rk{NPCXy)Qv
z6y;(p6Ih}O5T-A%AVQQB8gwY82N;r|DN;6{LvKe-X2-5*NPyv9Ia|T^;-?8JIUGTd
zv@-Svl}iygrYU;9VhHG9fNO!Nd#NE+bf}OxuV1ziTl&7UDDJFM&2Ys_VRo?VenC~d
zdi!bt?SYa(0%j(%W6j>FJ#?+~uG#m1OIOiE%27r(F4<|JLCG16J5gXoyz=B~!Kt|G
zRI;`$QM+HN-Ou#0)+?J6mAj?N-HFPlrOKz1uA-&Fr5qgZQiUVc*X(8Bns#)*lJ#ot
z_1w5`3(gk7JDXb*O}+P;dRNPjNKL)VHFuwWx8aXRexpC$gyVBd;^jxM6I@)IDC)sZ
zPon6URCFxqDqZSAp~bn2P8f-CRmPq5$->g>hakG-FOC;Ct@@g8cir=~;?SM^+S@&e
zmOWC-p7*?a-!E)j*}YZ>Thb;sS+S{XzGJyF_|CDnj=g<iwYm51_SFhzDzo(cy+{A5
zes%9js&qN(Sl`ABd=_t8E#3j2>wekZ)iQkYE1vr$^<T?_$DJ%Ir{`o7v#wc>dR4S0
z%6CZR$Uq=%=u9*WNDTvthGD5;n8GTVws5)REMJ4#owFD1L_0a%Qf+s<W@~)w!Fctd
z)q=xu*I}IUn{d}k?%K62```5^`k$8YzvZ;#K8-wVzp_s9)x`_ymk-g`?w4Bj$G7xj
zbNqn09&Ua;L?V0;?NN?(-POn5jt%nN%mSNYwUX+wG<y$_R4tCK*EJ>Tc1m?S?;gYv
z#bi&7%#6}U?U%~;ua+M`>m;4!ac7-&tkdo6d!F`WT~P7{lF%Z^Z<O*IZ#Ue_??6}_
zVJ!7Or^+>5N|m!sT}+Ly1eM>{&uo_ll2z3JJe^ltQK^7hX$dsjmKF-ANp53pP`j>t
zc`cImY^Rv=WNSO!$qwsIrde2Zzqaj8_*=t&()`UA;_U-c?cn!@S8I<^qU!aot#mJY
zzqRA-gXF73Be!)b{_6MPJF66yZ8~5+#41<+e*6CQlG0@L-iJBX4mJi_9_E??4X=Od
zwNKsI_N~G{$yupFYf07ptJMRPyCQk)1l_COuWo+*Gp~JSwVLTaR;(MCovmm}RP;y{
zJ(RvQnf8Q%*1Ma+>zM64vYV7B?v#pA*ekC03u>9_XQkw-RIKBzy4q4gNU1&LF(|o6
z<((`;!QkGl6E{yl!^M}on1g{?S)ZtAl`2|SD;OY4?^k!PR<jCKBwIQXE&HUFeN>HR
z)e=g)uxCX`Y(Fe*KfGo?q6K!Z3?_PxNIgf^>_^wzyWg35YwE7>XVc%Aj<*f5!PT|x
z+g0DJde{H`>hD&^JD;W^O91_zeSb3hy|KIV($-^twRLqX8?T-B%i34V=tDj0WH*q$
zo$3v}3AOszMtObDYkSlkyJU4;qPkP6?o3o4mZ}f0Rv!h(ZhhwFXQ0%QsA`w0+LNV$
zjeJu{@PWxuf;N1`1y$IJ!0Ual^(D%;O69Cqlq9#IOTB0B{)Z2*T1^#4A^Hcj{TJ1_
z&pWMuvBe5kB=hggco?Hc<pORNO_%v#mSEG4^`b=#(S8r^!cA48H&UGEOC?zSFqAno
zvep8Vgs2u>U~<#s!!DSsqJxv^&A6`S=!Re?+)7xg3wgdAu(#FJSYDH&4!cs!y%z8=
z{l1`?wu8Asd(6*cjJ6bv)WvmW%Z2Ro8q@cx1B?ibq0P$#yWY$FMkWZ;3?JGjh%U*v
zbc2Kt4zN$uWklmqgMaQ5zNO*Oys<_ernQH2!D(df6=n{3i=`Zh_t^g6enR_M7u*Xr
zG8>k{;&2%%j#`;oZ$(UJslt!~nBCb6hUpQL16fYBzF^0@Hes9?uv0E!DHF|sw5XlK
zm9g_RrYwgSSavR$-PKKN=INU?kA;fo2~cq?coy90P!V$JF9k~33wh(_Gp0<lj0@SH
zVd1KAM(2FX;B;U#!~UYO%pT=3mi(l+cJcqgr_FbRk{9PlJcq0Zkm=Y|ql{P(^L#PQ
z2IKgm4;dSXAE2L<vy04h>1D*Gr!SEanE8&=ifAWG&DN6KXxq`jz~p$8orvBZILOQa
zV+B5++ls}GVggb;juxG-oH`ZQ8<-k=ggFqH!|}j4q&lM>uon|hUc@Ug6f6~6QIyz5
z&g<l`EqU5<(oI2%|45HNha+2{U8-Ah6#p|t<WM#<IpE7+5lzc3*-8sDIcJbrdK5+K
zG$Ng8sw|hM$Vba}*^5eHZKN-#gI<M#Pe<0`?@-aO3`+;~F@;t)jQ1+pNQ6anQi%}u
zHi;fenaA4<OOF^%bIeiA6N#_VOY>nCQ(IUn#c?rf1|POGlD%L6&CZ0B5PD~n5SY3$
z&~Azlp(n#o<b0jsa)B+owdLJk0bxhKjq1XRM1iTOEK%4f6*jIGHZS4`8&hfJ>#o;a
ziIUw?$?m&Dt0l)5-G<gBldk>m*8jl$(1OG2LE7XM!p7vYH=kV+*4%Z=G0n(uvsBQ0
zr}eHo9weG}abVrR_@wvMqt}n#7<*-iv`C+S?fI{LY;ov*QRS`ao70J+HmRs>t$p8W
z(SC?~6<6K*^vzE%PpuYjTRd_<P@f2NNrA4_z*flbX(otw#CwnZU_|PD7IlLW3!L^{
zlJL|>o|-r;?09zEFRFzcMsXk+=#E!!1)1CfZ*wBhEwO-=t_@pO;r0g>E7?1?!rn0i
zQY#X^M#%@;neTMG)p5_)%cSL#-VQ8ANaVN|G$+XuZj%DrlHQV~w%b*RsmVjFKsuwE
zjLulChQ2|CR?VKIHvmyqQoyx=K>x`eQ(ir^Gfnwewc!ZouDHGHCty}R68N(yO~v1B
zKj=H`wtU}hJ6xJ0{u)BkEy)w}fF|Y#e~X6xVvb@<-a&RO@SJ&ZL<{>hzsIfYkZCj{
zH2S3+gcDye<6^`Iy*1-f#Q(+fAWc-xY-$1{>lmLs_0iKB?QMviF^#KkWC9LTz6t}J
z9AE{HS0jH?OtIyhH{(zqyO8~;DYh@==oacH49u%t&w=I5oI7?-7?B0gK78~m?^wxl
zG6X_H8lg0o1slS|yJHvZ1y_I^(`#=)&Ik@&qQGqW9F!`qW`8>SB{R1k9L$~nR4zvo
z8V?$xp{hNw0O#yZ1qM!?#RM_QxXq(uIDU)H1jkv(TK1un!vSF&C>5t#1~g7F=?5?z
z-yCkg(B2w|&CCY1EV5<j$l%cY&8AIQjZJ~`k<kk@btnnQ@+A&#hLs2=at^uE6HNVz
zQlO;v0DVG$ctpJ7j7fcDXpn?mp@>HUtZLN)3fk{DrPwruaI7Mbj@b(K5Uv2kX?i|1
zJhtNZpczhzVK{V$t1t_vh~%lJ;haXM;Y4TvfzvZC)3KsVkxUiCyQVO3DiEDv8ct>4
zD4aa9y7tKN=LV+XYB1cQMX01=8ZKUc>^mJRPs4id=<j^&J01V<fJWozJq2c1I?94q
z(U7CBBZ+XZk5LWAwub=auTzb)6<~w6lxo&fsTxrYQP2tPm=OO4xnbU(X~<DV#;{Wu
z;nP&`9EHu3k9Lv8*XZ$k<oloD$hI)d$j-^mrx*iR;iOMek_9+m(~nR}LR_+ovF4P1
z85Mt@f(W9Fg~)sgPthC}?;>lI(1_Z>_bbz2`D5UjVJhy)4FD^Ers)5Pcl?w|9Aohh
zJD$akf@E{oJD#^ZKWy%W#kL!{OGlFBb+7MzZSM`c=2<6W2h6tG!F&ELW&@#FDrr_G
z(|F0@jF3dhnR_K?-uIU&R_!;kvPy@{4=rSREzh)b&yB$~f6x8u`c-OgIIGpiZXCJa
z()rHrw{|D}70X9f&SHjZEx6%Y8oB3f{-Dkj+=XNAYOx}J&tCP@hYp-E^C4vQ3N)_Z
zj=MNCW_Qw+|KBjjISPIjCG7Qu0n<R9=`Zpe16wVBQCvLGZuyIL8~h?|-x&+OPa$SA
zDQe(*$TW!NxlIJ$)%ie)r=FW}sYf%@?kRO)cFko4E%UqkqtWpTQ?QIXGZ$zUx-Yf{
zE_MsS0EvJyu5XkK%uJ=>3Lp_W>$077{~;)h()Nb3(eX#*W7`j}!Ivtw&CWW^IQm`f
zHXzL&8L*-0nP?03nLQ{6T}C<9fDS)jK6sCe2EvFSPD9uEY_0;vIIFwosf*j|;-0!>
zd61e+wdz_=W8^8ST^)RBR$WQFkxlBqi<mE(zG%K>x^Ac?XDGt1uaq&hU%QT+2H-d1
z6(FU-)D81bSUF~12qgwc#)VLAQq!ZrX#nq<E+RIJzhohcrp|>dOvh$@B_Gqc3i^sW
zMi`P^y3on_tVI)YX1(kNd15u<CFn=hm`&GloXz>nH))eI?X{siGfK=7EGQ91v<yqk
z*2xQYq?l|zpEit$NWy~6^x&`Ie3jZTi}npNuWcsOD9eZhTQKh-Lc;VoQ-sKAK#VPz
z37P`?(^s=|SjWb+76uVg3SN%ZwuYP^@QL*NIJ{sBCqFV*#B(NfEu1wpUvdQ7c9>2s
z!4wqjG~-MdW#<dVjed=K{Y^MzH!lif{^DhNa2&ic7M`I!9c6#k5$4a(0Qf$ou!P42
zHkYK$y|P=t>9LqXA`#kQnLlW_E}|&q<b;fMls*Zk6?2e=`6WOQQv)_05{1Fl!XQKH
z9a2fhiX~psvyo*fJZ4UA?fLf3Z|?kqT}#$PNejfoZx6u2^G|Y2MO)&9!JiU8y#Z3-
zNO`}cDp5j{L_9d~?wKE!9ECO;f`9fChm!VZOk?R+^7@-CzggLD$@;FPy1&8p-P$Y!
ze7D|A{ss&An{EAFIcfcj#un>m=K!a#X5CWy4E&iFC;!pk3`u^Yex~b;(3#EXKU!}?
z|3TB~{mIA<fMC9!a^MKwYJfA0Oy41wTK_BNt65?La%$W?{i}?Qn1an@jnAm3<fXAM
z*YJlPZ#2I3I?!Ppb0*&NgXrPA^d7GCY(`tFd$8#5t%1o=@e(s3!8Q{~rC8k%4!Xs^
z#J7nz;K-Jl*_imh(jz0U{w?`_iJWt&oA_l)lC7A!6^~HJD-=f-x<CT5QDK9OfH)`H
z@oL6#5ZSCkBo{w>{+dFh%5JrG%6{=bf1solbBYGaSMW9rl#MK>d+WM4|Carx{VTcb
z@CUMaoA5Tn7QyYp_q-iHz3;2|(3Ioe`o6a);SJC(lK)iv^mCwYu>8(u3+Qc9^|nNH
zuT<T8w{f+)Kkn<lu@eqE38+Q#w<P@ClD~UpXJYGdY3uPdKaL`Td8<ar+nDffk-S@O
zZ~vjUd&7g5{EYEaKHt(|dZ)kdK)dD7+strb3Y4&q0^na}0FKU{n;egce?Y;<3CbtP
z86t;<R*DHKCdH9YETuGb!A@A_R*uuBb=iVFc=6v+(W`LSc~77GB%^8-lD3TP8XF=f
zV@m*=r{7ME@xP$P|A5AT?I>R&uR+RdP!1=IZ`rk)w|mi&bmlGY#_1o4f^Aa4wnRan
zRM4lj74xumA)u-rcHW0K@Bn*4d5Z&}SbO`(x*2UE#p`<{*S7UNPkjJ0qQ}hND7s_4
zbLLxhx1W0}Ppa8Lwnd>o;x)O|W9*mP)?A%v=kA?%{VRDNm|TvnUw`Hs1FwDT@5#GS
zVRGQSy-LZBL#f`gw=z|dG(_jbw=uHl1c;2y=u&YU6Q)K{B8Pe{nD1zYPk^>mf`sHj
zjV4fzFjCTKxk+j|8YD9ZDY1_&1#EIlN?NU?ubCi2uGWt+zcu8_YYmbqYpQkuNYJ>R
zq964DZ^MXiL+M$1=}(yGX-mn7bTcd&Y4r+fzPD8}lbu~+q4P_S&IoO5M4gruhU|rG
za6}4uh)(1YImW*NYXxlr`3Px=f5tA<qk{YOdn$hh(?*RR!+rd{gQgqiPy9EPV}|pt
z7O((cuutK4!Hn%F2a5-lcQtn*_puvC(7rH&T(m>C0cvFXlh;EmNBQV|nU~>KP73#F
z!MR|)jJ4V;!+5_zD~leK+nQM_2uNl-Y$|V)SUa`NRTs)^e>Crci>(j)Qu>|2)(*H_
zo8;zPHKwU+SU#z$q7A7M?7}vYDO9XIStm%;EaO^m@{x^lb0@HZ&Ad3Q5!;&?r}xBp
z;E${Bh3soZ3$#EmhF&gJ4RzAEdyh{yvFp+IF<e8NWKLc$h9?ZTk%nLE26PQdCCH_~
z!SEza!}3f<d{Duqe5X+_c;rn6y)R1Jdv5JZ-TIftXsOLEKu*(B;9+`e=v#JaW7=Z)
z4Nh!^nhdvyVG&S=$_?`?e`CeCf8`&osf(n3{q5W*cwz(GkCF}AhL@@@rBY^t$L2^$
zr`3%?iXFsZ+`2+8)5TL#5Dp&XwbSniJ)}QzA1xYF-l!4bfNDKYlM<gbah!+hciwvZ
zn~}GX$KtI++^^p!G`#^m3>N%N6Q}iO?&A==nwNrCjM~JD4P*3jx)=sAdhb~!KGj`-
zHrB*5sUeF0PQG5+6W(0Fzns1Ixkt+~?3H;bxris$#`B>*1|t}uALl9bJ3=>URm2$0
z#4qT1xlcSF8|D6#wl>5Oyw3cNeWgy|MGxLq#>>#}3m(D~f{z)C%1!IVhN-V)U13%|
zkpufEW6(II{`pEbo!D^2JV6Vhj0-72Ta0Dty%lG2nnK#VgL;KCvfvS+2J;L5Cgi8h
z19l<hdG6Qm2)(F3ai4Li^aY49AOa>LJg0u2n9}{+C-@0+;?E(dP#D=c*?ZLsYIc^#
zZc_GT9<SdQyu3%NoLJ*p8RWd0zmPw1MK6i_t`;DCo<HgLt3F-(Y~s^;IQK31jA1qJ
z)Mu%ye!W*BHLcJxF5X_~gDvQTg$o4>g{;3ZY<RV3p$Igaf65Fxvlt~@%gByL!*N;6
z%f(qCZBLvDph;p>GKX}=y2GFj{B6eHsE?W0=Xw2+(qPOZbcm<W?-O6p{oKd#HFA99
zc|x7<t9Tju9i<p!D}z}PX@5!2$$bdr-jq9N1k=P~N`UH}B8vJ;kA@?({n5}n#c!*7
zz!=pU)aJ5-CG&NsRUH9l`VHHY1I!o?lgk;O3Xo(4S;(S&ta*2eDEqF!yqleR$9A!z
zcpPN0DO+6u)!;py!34b@eGiNFM6r=U!sWB)&qKCd-5kYk#{5&fKEy;i{!EBf2S+=R
z9ZHxIB@rL?+O(WXC?!d&VMBE2$N%{Apa1;F|1X^R@v~7_ucPy|Ax96v9~e<38F$41
zy<&@u?BfT7>2MUb`5{|0O7`iwczobeSeyz!lDs`|HcC|`Q${e&M@ISsijA_J{Wzph
zQ{Yi7%|#V0sEea?nj~^CTX?!vB1HoK$EfYk=UYE&cBVN1@u<OZf+Zayz={dr?C%S)
zi&5++MIzYY4&xAWh({Hs!j~z9P_THxjP@-W1Wy^_SBlaIeHBX}{xKruY}f#u9PPoG
z1KtzNH;nVlAh-|JuK6u2B+#S2S<$8lVBZQLnS-m^m8Ca9lb{=YNu;?&SBy~%ozkjA
z+(}L^IW(Yxhnc>O_&roX(I}$bRb`utP_Cl8v_L*4X2ooz^wZ-3II@p{A_P$Ax*f7F
z8iAY=flUuol#FQMr0fdYX#j*~Vj@!=lHIV{G&U=YhH&^8`oW(NKy1(%311Qa4b_LL
zs%#Q3Q&cvo$U$1mhNcZia8P<AJc));6qmMB#VpVilXFRlNa_1b6NH_#qX31$=rdH7
z^-_2)Dqf?v%+fPEj|^?3X!Iyr79QSa;DwSlk~l-j>1cHEQ{=o%&LKFm4N?*p!T>=S
zAUQXR5kse)L30PfT;*CR;N3zWgbihqs)F2v_*p9AbL7lX{T&zS)B|dKId>9=4o4IP
zD3>CI0pr3jttb9RN)CY=$c-U+4E=@Y$(zEtnAq6V)SomxxX{?eS)3ZrI<*xe@S<#m
za9%|G3YA3!jbh(cksjmHXyOvZvQEP`>A#C~Fu*f{8^c`UyNFkHcA_C_TJb+q4(cs(
zzA`kG4#C9Qlr4G>!)&2xQQ4@6zLpX|he_jTBtnz2Lj$3lui%Fi4Ia6O%tGP2r=lo?
z^*2Ro&ZZ125>aC?lHJPKQlTS0plao&0K%*ImCnpS<6r{|>Qz_d0`yI#!89O38Hw2M
zA!Q)4U2s*P;E|gm$?;V{YQE8E4@v72Two#kNwB-3yR%dFg6Uv5CRg7oxms7|;;z;;
zS3gd2yAewiw@JlqtG@Pc)vb*GLHj-5e$~`r^*1cbgNgcGQvI&g!0vc;ALP{bRN-Kw
z<>1$*;+1V=^AOT!%;4pIFm)>eiSjO~yzBaj_40Zc>?HyCwtK~GitY!_eQ07QI`>IU
zeeuRUlzX3=yX|4F$>Aa8AV|fzYe_!u#Pt)bx;2ukhI#1l2X?vzn6|~Gi_Z0`Kpgrp
zeoa`gTPo>ZbSEniT>5@p(;dqjz5j}-Aq4KHJtZMsSn*l~Wa;ygEjtwb98wl=H7y=n
z^8Bc^_qFPGJ@I{~7LUDOT6e>itf+Z?=(VBMiq;zr_DL=Gid)t?_a{1sq|TwW&Qr;T
zEpLAOjgKp*=iM0m3alJf!~<I;-&P1nka9=gw-<hYVfo;j$KN=<lJ(mse^B_pmH%aV
z{Oq%TSsnM*kR>(6P~<(|4xCcW#W2jJC(Y|66|Z|<^CU}xI39xuWT5H@h`01fC4Dfj
zTv)p1-wUR7(@wni<hr*`-Dl`s^KMH9+utdFtNiWCyM>9~<5KVO)!wJ1;8SsL<GQat
z?rTjp?~VH#l8r5IUV7uwO3fQntcc=@Tc5i5spYPlpT6yXr~0kxd&N5;XP94*^bbLr
zFux#<XR_q0?3^UL9g?>r>E8m2sMBvvOa484yCgFOWKvosf9vhjlD~6h@Y^T9c~bHZ
zD2eT4%WUCS7uL&L<DG}@l^?<j3yYE^hw#F}qImfsC`;8gET2s@Y?B(ctu{b_WVL4Z
z4eM9(lHPLV7?EUQRXni$uJzCIzLWQZthoR9-&0*bgqm?#J@l<w_nRMzX6j)$4>#%B
z`mHl}{fXYErQWAkx1B~MAUui#ZGAU-622B#P+Rr1e#;W?IlS6=<euk9+<qkPIRa^k
zS3h(8Gs`uaz{L92LyOjgJs{Zw%l<d3-l&qG)K*@#^r_WyrukEHzpQd8lBnvCsybGy
zx>n1&nN|pGUeEz23g}jxcZU;uPD^`EuX@ic+BBV%*4vlX?7P^hVx^M3G+_@)_TcS?
zyY-1(C!}2`;`ZR0{V6SV+nT+dr9~a867~kk-mn~Av$w7XAk#s*UeIbm^H6omC42eO
zAa!Ucz(EJ>)xPU}31`<mDApC0eSIrgX5JxH?^rG0`NP8A8)nwwJEY={6|+>_z4EkF
zOvX@)cgMZE<Hft#mJHiL%U|`jAc?nY&D*kJGZpQ^xTF(XD(<-|mdzN#FxHKJTF-Q$
z0?GR3ME#&tKltwO_e0+et=2Q$rJD8ayAs<^O534Hqa35Q-1FwXH}*;Pt>|(tZ^Bt2
zIV%#*M#<TTDof6;mFMm`_xuOfw)cINWPy<&ov7L?Rqc)MKegt2I_`Qp?t2;tAyLsL
zRkS54`lO1!#ix>$TN0JMQe`jfk(M?lN_R`8yBCk$udaK2?*A+9O`zkt&h)@nKow9M
zPz9i{Z-pI&rLb}X34qwR6I?~flw}x1ffOhbpk9HbfPgL8QDRW0Tj23Y6YMAv)UAmi
zOC3X<OdIa@nWo$Bwj5_B^;jUQT%wNQ)9%<#GMyqpTkdXWX1@R4x1sPr*`1j)kKn7f
z+;`u-_ub`RzyJ2sV!=}28xtQ)NWOt^=^iqbEiUK9xL@2hXG0yT+n4rBRRmjJ)rU~X
zKWrNSlJ$q}b57P8^^&_j;%=4PtxLP^xpyPZTuD3nFJfuZgy!bzEK0=eZJ~qr<kAe>
ziq;KhwJlA4<K+)tzMF*?Bgo|*^vc>DfN{GuesdgtLy^J;sSqx3-BMw9xUeTmrpMbQ
zFBDdPUh>Tn0Ej9{Wfvlvf9cyXUm|K82031HH>(Cy2Mc$1x2SoQeC1lCj27AP=y9&I
z7Jf$etd$%tji{z|iZ0du=RZS)wV9%eBV=C#3>Sjas|qhLK3JC$H-)VPbNoG7jbUbn
zy!57oZN{uA$~Yb*1l-1IATwhG8D=ElfegcFA_o$cTPHPTj8#{fI^2T-WhRxSvLkG#
zoygg14p<VY#<N-hp~#@J7>KgYs=`Vz>J20!IuB7$;$~zU0MN28Z&JFZO-qMzuyQ&#
zDJO}vKfRnSX5q&7Aymjw%4uYW05xNwa$oc2LheP%RqYp7jhS+T7E^4pn3&S5<)IuI
zDYBSYRuu&+DIunjMXgYY2<MIRs?pLaN5FzlQ=S9jsCoELK<?QU!femw@ezgxL3Vwz
zbp_|gz_1d#N>n-Xf&o>|&5ZbUjW`6pwVIvm45Quj+tqtO;T@MV)$WsBGUG~NxxpPl
zI8(>y*9Py^QR2imJf-Fdn`MP!<cZdC5y0>jiLE42Kw?4kFXP-eN^$|538Ad6D<`|l
ziZV`N^zcd)NiBi;`eE?!6pfG5#(HK3>8TX!-Ut?vassUm<N!4@CI(>!nIjV-*@=&%
zKpJW*P)88ONto{LV@SgR@VC6Rc*HxPHz>YGxB*7WOFlJ}2zVcg%!3|^xyVv^2+`?I
z4)yFE7(D6oa5o;?C~=T5{~TouORR)AMg?eK`0B7YN{|Bl>!AkXkBFrp22&)r2=OPh
zV@xe$j)?=*xgY&^O2-(@U(yldF4O4+tgSeY!kqYBKrgu@UnTAbwj_+TqWPPFkj5OW
z2r_HM_?rKLcg38>g#*|NV^07IA~PxzXV1d)G-f7dG?sFOF{Pq_rey&wl(E5oImhz1
z$luuXS?K^WQ>6d!>6ns(R8JU+l#r`y_wDY*^HSk<a{125n{_-Ws#-v3xGt%>>wZ!9
z^+U5gvr{rn+9tW%mWM;`wy=A5sQ;woK8cksEg!2k{K;7a*X0(eyfXw3_HvL1rNj!9
z-YyN*%QQey*+Sj@qDEL#m)3;pI;GN1EbF=6g<V)h=gg}Lxw+84*uaU+P{rPR?tO8a
zQ0xaxs@wDW%=MXwYfIR*1xtHb^}_l4-j=z2(Te(zzXy)&bBCgZl?yX)+nwuQEiPL)
z1Z?!VJyB0-#8WMKsuxq1oNzrJ|K@n8=I}kw;6sN{)*7!8ib20NtK{q92Ts?VBaFzo
zV3SzXKZRSOGlfMW0-V#C&62x$sc<<E={g~God~;6&RP(FHsbP1E^oxuEV%&B-g{>t
z>^cy#9$<@p%*C9wH2z&5G>C?Wu|Y6_g@7P18OcatZ?TCjwxMC4c}$(QVH@Dn4Eqex
zQ%%sMs1Czy$&jaf^nG=kkqH7K3r--mEfxd2dQ&|B@}i3^BnJ0p%uGW<PpXz4>Vt&Y
zn2)-rYgd#b<MeWFh6}Nw@u10wKzI)Wg*HYosY^A#Mth@0TSF;j#FNoe>Y}dYq<ae9
zSE!T05-+!b@iK3aUTy=E(Xxy;c(u1HM{288C|9&!xQ(yZs~Xj;N=vUC>1t*L!D^dS
z2?BgiuaZjpRoa|c)}WuTSnzg`g@Uom^!u98yAyUGsbqHmVk9+?%rIh;V5I?)ESQPs
z>$JBhM>AH^Nx~Tz^CC1vW@wi+{j14{q|(aw9A<xLJYA@VfyQBm*?=(O)(zs-O+@2N
zI_;rFvz=EplS)Z&Hv{E28R4(3BXM^z64$8p+qJxuBapan{}wem@{g`j#*<nhV4<(V
z>Ylkt-7|lqx*ub98EGJ#@zwZdIA^6ys`fpab3e^v#=T%2L2N)U8`%SaburX<DTM7c
z(rp^$rCPQqHNcm*%w#Fg;i)d|j&dZAOr=-1B2|xaPy59;Fqk2g9*bvswY18S@iS~L
zwtzTK9saykN1XS-)0@;bGUdpe1ldZ)h&!T^K#{Q&L_LXPm&n^tCgO(!L~}B+v0Wi(
zIMu{MBk??SRPp|CitU7WuL$`h!WW1M;=N};)WQYm;sj9AMkg+FvJ&AmMn(0?$)kSn
zNtBXe{Ecd?02wgD*AYZD<0ELT9U3E=mw>eNWnfh5(3nQ%Qf6GY)c}KTz)?|6`u$f`
zFg7?K9@U-l5Yy~kJVL_N2|Z5&4TZu%s3AL`D^!|}F*t-b=N$&6KYk9*lWH<u^X!AJ
ztA?uY9eru|;w7Z21s+x7;X^%W<lv~ULt}JURXK^tT3&T=XMtvPff{O|u46&Qp#Rfc
zJ{vz}Q$HtV-mH9E^;f>aJ*;p-xp`aQ@A>@jg|igl3QAYH*5y@`JWJR5m?HMMb-AmV
z{v!^W*5%Z)A%}J4#BEm2Rxm9I<!o%yT9z`|SYtVFUY*uYuQAg9|5D?1<!pO$jn_5a
zhPJ~68InQkt3jhwUgo>|k}lP!X6*IWY9p<)-Dj9BUDPLQ)w=Jd=@V}#VVAs}(Bw8X
zd0TPNs(owddI@fjG4M1ADqR%%__4FzqmBG?V@i1*q60S1aW?+h)&>f^!@1PpQKr3T
zv3DBQNfsEyUSRB^*5UCI#7t50J<sx8pIN__SyPiz{7tg;dk;fl%O>Y?cvqK`Y8qiM
z*(^B>X@t@m@WSL1oL1(3Z&&B~Dk!CDW|JqTc$%)1CTJ!Ha=sYQL`iK0KA2TmE2a8A
z7JrimBjVY>rHeg7T51*nPr1NX3%}YVEfD`8ZGgo@VnQ2K9W|o)TzPR2Kq06#o7B`-
z4quo^C>Olop`Z@J4Gl9qrJta7!Ae6gp%=X6O52uu`*mFxUj%jxmoCG;Kwd!9CeTgP
zgB0jbjg&KdW&+Q!f)8K7Yo4FDfR7>~wi98(Qd{X4H%$CAnM2qENe*(s%uTMa-q9<=
z7cN680^!gEeBZTBdVKWUu*hn!EClf1N2a_#LZYO`9s*{|h7eOI4<**G7p$b`3A%Rp
z!qwp^3N7VrR$G!iAjbf@imK>d#1^ywb%jk@PwR5iPaS8FD>8}<^Bq*<rIENu5gpOt
z1^T>GSoB6f5u8KAD@yPNZ}5e&OZX<T529bRg6tHBLF#a~c{1ae-ft|b0(7WORK-dl
z6FJlvN*OfD0atwGTzEu&jNGk=NL+5n@cVS_U(&9Fu93(^e2;d_?1KrTo~F|iv}4u@
zTPYop@G<WYKJFMKZ=(tl4Hp)u72_dq>{K}i?S4s*GI<v>Akl<gOy0$$Tuw?yvMe!;
zj{YefkpziZG(gyPnzHcFt!&zDp<7Hc_5mHSqEd)A9-k?llBhy1(S_4k7H_R}(zuvI
z*O5dwJ(WSbOxk79j!C%4ZBLne^uJurMXfenX{4DacP#m>tbzJSxYY%P2!vbDn1t-g
zh^JBVG|t*q9r^Pod9b`lal2I9zVw+pN#Wu?$<Zf!&O<Yv(PLV5=SSToPzM84#)%+>
z91~_?3PC295a6gM<m`d8%b5)w-{ISb0ht-C*)rSz`r+$`=K-Zx8FhH(`#EZ!<Y<W2
z?TFO%OLhI^GgTxxi{?KAE%>UYFzb?vx}wg)h_g;|)<GRxY=>?gU^dW|UAPV1Ch6Li
zr@|%sNfVz*!a9aaw^u6M`=KpdcpM_TRsO~%si;YEG({VCMH=@?jeF^hrINFB!G@es
z;-;>M|Cr<lxSp(1h1#=z)e4`hM#<W^II;XYE7n0s`GBQ|Kv$703ahwm3upDtTJbd5
z13U&GVD-X8q<X(py+2ZPfC~nh+N?_|?D{YxRM-_RJP5mla(}3`S1Ru%0idgtsdQIM
zTj!h)Q-r*F2n-RY)_K!8|B~b;A>dti=PGpXK<&(fl>)SZO_B0lQu(g?MV(AexY)$o
z@D5Nh3BzyBiDKrJF`3~~y_DOTC^&RQwjYzW9}86+zvn&?cL~K^Xga;<@F(6Xs>g1r
zdiQ;A4-+3QPDK3sB>%n-GbH~(sp6m}NL+eBD(so-2Wrv6kw|5iRN1xsqEy*~(p2t|
ziudTGi_!ejg`&lmBTf6HrhTEj{l6gf`XifA)@zD43dILak9Vmu#-}wIV|LV8K$1r2
zFS%?nld1nVl`Te_+m-Om$E0S!uoll>M%QV9Qc>3G?!Xr%jc(EWFpN@U(JhlwmPT3*
zN-YP&?n5NEh5oo&a#k<A9I5G%@aODBT6bB<>Sa>Ob)lOuuDJW%X=oTX6+)8XKE`z7
zHj~VCg_;Q~SWe`VxZ!D)sn_o5o-))#o_A<zl_O18#vIYWzb0-*9`CxRfFuAAi+;=|
z<bb1dr9&AF7;Mpr^vSHGlzzQqpMeN~nY0?{D49tsO@;~EW`e}vXVH=d`OL78OyXgb
z*1-7I$Ut9gFwQApp<0Q>T3Dv@gy5F21yX2^rVVgQ6x>DC_#*658NUPbe^vVnM<&zx
za^<@A8{i@GNS|yV-U?Fi2BU9jBy?1D!s1~~;HU*!Ku!k2K&2MSuWV3mHBLRloZx`2
zh(2#zAD)7>py@_6dWP*ixw2n0nT7FP#!um`=wn<rE<bC-vv&Qn6hg<S2D}Al%p`W?
zC8HczFLr3p<5>fjKY5%Q3Nu+Q%&kb*hNkn)+P71Vl(y5QGc2i+PRn`9=}Vg)vnvF^
zDVYS~^r)UXRLLNf@Z(BLnc`P-Ah&yQY#31b8jY=yoZLjYo-?gP(jykQY^M!`L=g0H
z)KsuBXNk!;d6W^7(_2phQ>*q8QVa)&uC(~P{YM5)cnL>K!Kg}<MKRDs22M3SD3iG$
z!wKJts9H`@;sUU+8c>m8#ODTO9ta?)!o)b#-7=IvX-s)qS#Nsql>g-P*Y+g{zCaek
zz8h6$Ds07Mk*rL?>iNA#MEMmgok%>-B;IirVPc{6l{Lw%Y+x%;BDGSW;-R0Mq&D6Z
z_^b0IaWSx&Z)|+wN}~ct*2t}7{nI<ZFKb+}YzWRx%z^TC752E^qpV5#xpln8s7yEY
z;0ws)IJ5gSG$Uv1A!E6xFUt*mRF1<=ygGYOE`bt?gTkv5`jwa1>cIwCRjx3rbqc$+
z2}jL2MT+Lm@T>fUddY}pM*TB8Zf2Lu$o*rOBRRR>OGkf-5u-EMouShS+G&_u_vn-%
zS~9Z!DSC`i`HZ4xn(p<SgU_y`;~5Emn6fxT4>IbV41{BDnP%oHXi}OJDGy6tbgvi4
zQaniNIb|Hm(X7Q>OmoJOZ9k1$`5}?zr|>w)@^qo7K2q2&6}A)g3bVg!*RR3YRdV^4
z{C8cuL)P6P*X~tU30IvGcJzSMK5*AH5V8)0Tmxj!sZyvE6gO-CEWo)+HOe^ZECM}L
z1X4N=q$`jb%U+v-<~3A&AZ$G_JHsK>?`BmjytLHv2iIT>X|qS2{dmM?54qYweG}C$
zTX7MM<h|?ks#aW}Q*C(!HwjhrYcmV3h__qvcHil~>pi|oriV2kY9sFMyYB9&ry}BM
zlRRxpm+yLZ0rldR<0hHkX4gGVP6p(KRcLOXGv9MJ{DiP7ld?}Cy15RHk{W4?RJdhn
zSXRxGE#Ygs=G%Eix6{=f`&SAN{KUwvkb#sjgV1A=rzzCd2W!x1ZgnKLMapeiDwA^C
z*8oAYC61CDF`<<_M@(y}>=*^y@{m~=rVAyFk>YJD#oNd**9*J{#KM)0RR_>qWUSf_
zI<jOtIHim-hSH(FatR1&9ii?cQr3}2Fho9TiYKRlrLvkbj+xeMbO?3}SKVmIh^t(3
zm4_<YBv<<~sQ2U2_TzV5U~Z0wT*rUn%AD(tWKo#-uxs15+Lk9H-A_y1PltCtbJz7u
z$oh=rdS)ZJO5K;t;?_=~UvFkar~1C3V<v8|a1YufBQh1SEsaqo49QodH6U4_15XB7
zNn|xP_=Zu5*=9tT>d+z$h)HE36}RYe$x`yueqnS4{iaa_P7Ui)iwmmhdX@Y&uly;~
z6o3e)>zGv#q48q9g4%#d0LlAEfpNqN!j~%lU@RFxZqxgNQ{y8@tUZJ2S4Ne2wkr4>
zEkE+&hWxmHQv+M`WCNeE0NkvAT<DFN8i1z5rceg(wjcFmsDs?wV;ZM1=U8xnucmtt
zMI{x^PUo<C#Vq{;y-)4sLYf~_Iyj<S5=rF-@Hi#~sif(WklDn2xEdr@g(gELjfmw@
z9Uyg}T9d3}azgfB*#u5*lhkEkb%M8$GopQyxrh!bj!sJ@S82#qAF|eCzgkcdDcB|z
zY@2m4JLEhGwmPubb(Tv`4)@Q^_zNLS0P-K>Bf+mbGb4@?$x-sg)i<x*zP93M)QLK3
zSKT>LcNPKmypi?BiG`+cerwp>_6sKYNEV!aHmDe;@jCNVVz$`G`t|?Z$TDOAjezMC
zq7_8(cVt@t#OK1OlD+v*9(993raF$)iz?c|OtKc+PdB16w3Nz`20iyAn-H-}mrJhl
zto94&e1OOqS%_#xof=z(vKv^vC_3SdV{p?s$k;l>tCdSRGJd1+Rj{<`Ty^6w0hCJP
zAAxxQ)2Ix5dE8<I>!twz;Pjp#B;+te8>Z31B-{xDo+W1*Pd?!Nh67$K#WWpD1}3C0
zLpSbEqBh)JtqAYn5qmHq*Eu3#(qIEwWRnC<4WbvBiDk4ar`_MuHJS^=3Oc2^fX^cg
z$5fsbUZ<<-)UbY55Wj_+#>m{P`h1?Cnr@|Wzk<}i$+#~<2#yx1s3lUgO)A=Uzi0=f
zZhIh&YG{r$9F`gmGn;rq+QNF=m`-tAeB^48!<W>zx4qN(R_BVV<pHP<h}?+!Xjt_W
zL_N8;_TAj~#)-GH$kMM*s_qLH_lG?Lkb8nMN$0KwkXN$ot0Z?7J0PGfcF-uf8+8ZS
zzi?ndf0!>6ckoH$25Pr%(jZH7HffLm_)BS<EyzZ)BeHQ1nEt>7J9oJQg0D4PXpJTW
zW%5vlPk@68u>Cc&E=Ti|CXUzA0?F6Y0!d^Np;?R1rk%xd`l@v%c_Vx@!dSbIm~BQT
zATXse8_8|nw<rUiNqh{XVMfchQcFycr*uF?Nr^y3&kaDTKrltdla(68`WjRUh)+R6
zyM#?c(lnAG%_RRWK?2#0B6MIfL>vi?gt)O6_V3SNB1wUP$zP#coP?qvNah-3>`b;6
zOf$*I135B*$~<x<AkhjeB{SuqCrO2ASGbmw&x50eUg-IW0Nj6>;WErVc&<ta1nABf
z&BF1o2`3wlqXa%XhC64b)Vw$YuILlFGoz+1gfX<5ve8>tcVgnQI5H|@TzAyfc|ZTG
zrbmSyn1}|_gl@u8etunMCx=CtBX61+=h(;{a$Ux%BKh-L(R##l!45TVY9{_LBdL14
zWYkQS80?~Ve?L<za{NKY<jO(_U0wH+#R(H1keouxy3zX*wC4OH5p~2f@x$zf`0QGW
z=f{qG-U{!PvC*rtPy>qt)45TM2Qpb_pGqxnqap<f$Vzm);w8UasM<P6df=ss=O|Mq
zcepeW9M#$y3VN-nbeS?~gr9ja!}Ijg)KG0RRQcn9F+}ofNPH#b&6Yg*wT$Q`OLVP~
zK|!J~19X^($6-49Q#xYTKElxm{;L~JiKGntp93f7yt@<rykxh|T6P^ws#t_~PH#6-
zpUL%*=~whi4HI=2*;c&-viK~mS0s#;fywhbKiIK2Jm0YJ;=gM8V8`Ey-$d^40U&qq
zL7ywp1O1=iGK|@wsYWP5<|h7KWF`J3cCi#bkl3Sq33u`j5rnV!$Yd;4?lG}cxtuYF
z?n5aC__Ww?CuW=431UvjzR)>kcyXKB<zlJww-wV-F!Aqc_YbrqYBuIh?6WbK@}=cY
zC)VLhZnVdjA<8p0v?l_#7=-rQkn9Mx@vo?jAt0$t@VJe6ytB3kxo|5~Xo2lg(e`jr
zM>u!qa*vct3aQ+lStlhq6e;pcMgDMZ)2uUEP&DhDJ9gdmz>^=QuZCUN(}}z?b8j`=
zY?z-~DvGr9OD+8?nFF(_tL4>^@@-Q2wn%v=Z20e&!(+Duw*N2dJ$6509=jE_k%}!+
z1!NP;x#5Z)ivCu9I8@#$y8!G6mk&hB4@>2T;WrvjPO8Y9b3w+C0o+g0YAuv4JiR!9
zh<z}>FQ|m9p<=g*(G3bx0VX5{O2Et<*3l6}ATv55gwJpbbiu2DNYo+%fi9qdmax5t
zPfJ@Mi6qScEhqYcSh|GmB~uW@oiS~JdpYc$0V{7rIXKBLPt}1Km&?e<O<BpcGSec=
zsTOFmOh%zDlxMK|LtMy=r7fTyEZqE=N&fZvC<MEBJ@s|#2tXP~lAd#bB1oM{#j|J;
z3iEw4`9=y>W*FFxBww>$O9jYb$_$=)?tdYT#H1=#Fk*~g5NkHl+vuno`zCE+z=Y}Q
zH7eK30qP<dRE-nxi%yg*Z6*yR0}F61eJ0(AUIEpiMs&IcBL$fMy3QLI-v^QcDS_lb
z>U(m(0G%WEq~9d<H8<X_0{v;-irx;WCF-%*;G1{~Eqf0C-@*R~MVnyZrdc~9;Iwsc
zU1ukvnVNg;YuIf@G6zfnp+NX7UU3avF}et3Jk0*x0^Cq?LzG{REYyvWVo9(#R(U!j
z9}zSMRG<N1b1Iyl5qFL>YEw~1B75OMzVOj<r&|o!I(Qb>utc(jpb0H3He(k{MYs@(
z0gZqWTj?SRsu3Ajp_78#fMyrvN0FUlR={?Uq&g^WLvnqr2t`CQB*)^F{h!WF%2p!N
zhm7W9o*BbJ0fVMItF48~mBieFG;L3!U4ax%fCYP`<~?^_yd#F14@k~NpdHv3_D8*S
zA%B<T?LwTOXl~8yzIYylrQE$g>dBe6F5rImoqQ%x{Uk-m%)gmCpE2Jv|03qeW8sXN
zA7$k6D_<>!w{uz%*fUQ>$XU)=E!3aW8PjD)#u2~;VY_xw*e)%Q3*m1-#dBfGFV<7z
z{uwnReGDwtOp8EEG>`Smv=W+^To2{lK+pVFI-)gOY@}0K>qS2u(dQFeumexdBxgJ5
zLO1Og3QZdwvCo;#$uFAQ8F)x4keAtkd2Dj@qR3Y9EtJ||VdlMpeQTO0h;&`Iak(51
zW6U5%K>Mkmak}m||K#Lh6`VlrUJ)K8W!owq`vs?Kb~56slw6fzN7Z7+T}K@Sd*JpO
zcb%scYabjgnZM!uz!_;iB{iSIs+Vt{O#?5USM+J?cC@)K(!5`4-haROAh1K=6F)y5
zg?eHbj^rWdp^)!T82hZ6AGY<Zl$`pYYccf)=k5f4fAYg~^OH+mcS}x%il3ex{OjWS
zIopGR(l;A!H!Mso7e#g)l6D+gDL6crx?1Ot)OAaB-I2Nhsczst%xFB-b3Jn}|FFI1
zt<n!&p}o({9r&oMe%=zTZ{~O%%foka!}a?^d9@GiLVcepiqNnu9O=@rWz%xY@^H9l
zcc}L`I&FQyPYcR!*HC9&G%W&#p)qa|@@ui)=L7WKC*}DT%NCzrnz)y@=V6vm-hlPK
zexK=Ks!-DK&?dATGX33Omz<)3B>aWfJy334M<CN`%hvk?7I_N9w@KWTb>bSJ6OE=j
zT$N{a{gcWH3vlHmqlpbq8LainQ=8HPSWgo-rF;<bYZQSB11(#br0edf?o9li*sc>Z
z8myC;&JF$DbvdeU(_K^FqO5rwy4eU?S*bNS8DhQtJ{B8-j5e|?F<4uP5>ZxDq9tCj
zAAn^7V6n}5h-&0ll-P2Z4ajNBz}^IlmnyAb-@<F~EIAscoG;&aXByvuiI6Kd-aD^4
zr)l?)3n<6LO>LD;EHMDN{CjXhvoI?n(~UP!lZM1RK-;A-`v=pF_u-txAeYZKZA^s{
zJi*cel*JF2OBgYe37h78x32%G)-iG)%RuSKNjhQEETZr<si4_*p7h!Yo6^fcLmE0o
ziQm=$eJ52oU*oh!j!jDbN~<fsGQEqqursz7X#KEI06fH!NrDrqp}Uh2MTb7B#yYuX
z*NwM<glggx_Dw*lnB1e>F#;pi#uUnMKuM|no+qt*!ludASdZ>VxQ){pODEYG9WlD2
zw8v)8qBnk9X&0Y$I%HQ?(7li@$pU!>GXNuRn1N7?1DJb25CU@#7^RcCiyZ<XfCOtY
zgy4v5T%j4&oO~Y70TwK9ne1m|GR#|hWo(!U>kcF8%NSi9cxiOxGF-!a+zy@q6<Efw
zQ9)b`wR9xo6Cq)NJ;)e<2;l?*$v!N=<sxeD<;FaRj&n=x1`2UDbQTy3K@^2FhFTrh
zRgLU#Hr$jeJ2+jzFc8m9Tt+GwwaC}i@SaR&#);jR@J*)2jze%U%y1PTI)U$3fQ(K!
zb*Wc;&>Q9YkVU^ZIw_8gk`5InHdO&AKu3TkC)c$WXpAHl!|QR2yD}hfTW!oWL{%Ig
zy*dP&rLnWYSk};`iAy{<1rvY)BO@rz5~&uV-3{86(~ePnObf!)9?W!{R#~x!cK;kn
z5SwJ;5?8WR(wJffDNK37s6%G4PCb~Djbu{7VHWn$Q6D|AopufMwno}rr%cTdC;{I9
z^q$Bm$~Wkim3FjjiuH8#8l^;dpo?&k;L%PTjIxY5S=bG^OUh^R2Z?z!;u7*kMOsv;
zU4?X5W*HKxd`+Rl>D1)$iL0?x{`rC;n0_Hhg;Pcgez{Hh8@M>_H6ktbJ@0KIC@Jn3
z<T_5!f{|QUEZ2u~8zG)i;DeUTk><Tp^WJdoK188Q5p3BCj8vqkRVr#-v9{^Jrz$0D
z<%+fXCkW*+6Lu8Mzj)W-eY<bb8Lr&2Y`R;yL#N_xf<+3ceI5XM>rmKTru;%Z4EqbW
z;4KeXiyky}e5*a&1iPDtk8;Xq_b?12pOoc`WHm}zjf-cO0^zKkv;8oe31xxrII)<r
z@KUJhc&O?`*m(k%)Hr9VMu?tSaqna|>hHShqwdN@bEI}a!k>E}<gP>|y_Ijy+@6V)
z9+XNCvIj}a1ai`gc&Y^ImYsj=&{q#dJ(UYDhCLMGU5U9D_Oz_J+e2HB)t-p^u;f0h
z-h{z5v{zL^ZbiIKu%$(;6%s<PRZ`sf2aa^aU<*5t-CakmsyYu<Y+G?|2bE6oQc9)t
z(r|hi!la~UM$)}^)4dN$%HM9MqIXEO9g*7IQtj?=ZEv`uFI>`p{Rk9sdsktd^7L!h
zqVDW?f#5Eh|7^(R19(_G9~Fprc1fOH5zlVPv-?iYhZ$kd!Px=&JV22k>z6%nHh>B~
z`vKVvu@JHByKwCr>GLDbTFF_vn1jG6tcl7cclpBBkQ*FGp6pL>YQ<R@FJ;B|hSR<A
za$O-9gSd{ICMuhe)4S0l^#SLV#g&oJxR<yY$p@5YjEHCD9*D)Ckz|6AjX!2YSF(|s
z4vQ}a8g1ukuqA8|&Zq<=TkZ+IYIBr`Dt6DnNE_%0xmtKRBMb;cQ!y)~Du}AnSiC(6
zg~92JSw$yLCQ?#CC*LeJiSRTF8*Q1F3BRvkNjFlpshIz4NjEG9$N@uhbVCwneSRcL
zP1uY?STJi><vVDRzlPxIzkt+4Sae^?w4^T6G7$kRPGx077;Nt_mNtsM&GDKL<T?l^
z9lw`hE?s1V06B}nrIPS{w1~8{xGVm9Og%?hK4#1c!Xa>Z1aw911`FHZ2n=V%u?Zji
z<c7yI0s=EX{KYP4uOYSJ8JWN#w>?lb8Wk~ZxjcEcaeK_v!It&u;87GG?tjQ(3KRfy
z%1T(%FOOptnm9L(g@x>zUWB4!k}dEXmiFQGD?4*gp8_uM6!#&NNd}mZx;O~#Wm*au
z7?HNhb9qb(-ANIdM<ZKX*|N!DjV|Jz$X3=~d|$SNiU%;J#l6`1Qut!(W;6p3pdlA~
zk-l0iMW!Mw?3b^KWHriIbH4iVg>L}a7#lhy5G4PF);=e)KnQZDQ0@D}r(lr@2)#&7
zjg(Up$=NF9Yz^mZkK}YqIo<bjdS>^0lwS%w(2Cl3cD=Q0DK%WNJyOvvRdnA;zH=;G
zu@@o3=2GUZuwPiHjFh)a`17<!^Ge8sVW)(@yqyTMdh5{5Llk5cPB#!ilyYECr;uID
z%rm!3?(NGtKrgz}gQW<+Y`NPhW$j$vBW3k{H~8W9?_3LKoy5W;FE}|Xo@N&PZ?}|(
zX*`s-kF7U8$>WQ7nkArZBE@!gjUa|1o;nF|om-dM?|HUA^a%xCSV-ogFb#s+8?u&i
zMTbo#&^AbX+5G%Vw6Wp*oTLN$Gd*cmR_0TNp>j+XpF=(zFwxw}uGY&}Qy6?7tqlpA
z(M%1t8()+*QWnT6mE)L&jGi}`%XQBadWO*~<l_13_Zor+n+uKJWgr;Q-i4WK3Z-QZ
zIwIuS*DN=_ptJGH*1wA%2P_aCsL{RITMZmi4Cn1+NX+s5XhQ%)yI6&K7VvZZ-f*_H
zKM8N<A6trlY@2QJeaiH;;K#~(Z=#qveyk6Ok%gl!h}J4Lrq&A;2vew&o;r!Az_R;N
zb*$;piA$KbNs$ZWcD9I+RfZSb<p_(fNOODtk--6Pa1x%f+AO}&(m@?>9WdJ%VRjCD
z;`0J>g2d3zikHX7u@o?bH_iS2_$Ztr#uLmY-~~a367tLmwiV9L%nO{>8OB|bF`KrY
z?TMMGlri(s<45{VP9J8FDN2dt=%^dmLyDcss)e-#Zu^@>l*DS0$ybXWG&E<c*t!9@
zY_t*wtYi6b%y5PTH_5Qr5j#@+R~XDOAg9AXCNQKFi5z)}j~(Stld}zYdB!lZ#f3OT
zwwkaYm7KdI&M%fDXT-x|s`=^JIPn<_4V8OiOAlLXVyXN!LDKP)zU3U0|5%my)tE!6
z2;5a-c2)^qsbnN$mb%7V+8$c0YK*uv17_I<ja!g-TP#=}KqCKPHk9h66$|^{Ir7#K
z@K=%2t(@wQ7L?8&d{E<;+!a`n9PkZ|6#J!Of26ouD(=3M5-#35XOCtTFXTXk&un+=
zrGolML6=m}wR|O9uxG9h3&yP@H;>330)5I7QYCq+BAy+R2N5vud3vJRr3+i{BK&N5
z_1r<AU4v7}F61kmDSyjqUP&~sT!F3zT5YL5faaabaOvJq?%ugc?9}+Rk-V)^-qxkb
z$hL#hwu38qV6nhj(V7+U_$7~j@ygQVif0$QsxQn63ZoRc1E&4=J-gyfLT%Gpv*0O>
zx{G+k$c3C0H<-2J`LlODRq-8ycU!yz90|OaIWr<pi)>0DLtVDm1<XvgZwPB=B+pkS
z8@7nyYcZC9n*>8kkhsB|)nK_$7BQFv<L!LIbZ7iLl{8_~J+D4vY&Z)mLzNXV(%uIk
ztDG@wdUfPtO?VkjmG`Yn_k?mODqBqbWGZdMJS34dBV&~e7B;X-J$TMQ!cP&apYT*M
zo-)z_ppKaK>3d@XR5)xJ=%2DsVuAkY#%svSK&y`SQrSVa;Fy{0+raGkd>MbAey{YN
zU@xoz40R5;YLu73LZ;;PyVNGePd%vwrW?Ir{VMgP<Hul|QEwLZvwGuQLl8Vwn}e1t
zB?isNHx&6cJ|SP+OWXkah!I8`YDjt}KR?s&(N|128V?BM(TevP=qa8&il0Nv%468V
z-eFMZD*|BbvLSajECG)nf1?T(6-kM)$w69F%F)S_r@v@d<aj4wE;k9oLyi&yq5>k=
zbLTj)4?$=#(IE-E$6>$479Wkgcp6MAEv^b$3yH49@t2svq(ZKcxOf!cRanDEFV*_A
zho{eB;Swi}?BR)PWc;qoHFNkAw*C)Zz9>5;sxnRP217U2IrD*+lkdP2@dUmTrwM8>
z_3CWk56}%J!PVrzOf1aSc7|s1ReX3cf?do5CK1N_?9IU;5~YIlVKJ=5|Bddm5H1j#
zg6$Tcri@93%NfsSa2iVuj0H!4NW(eRr*KJTLz#DpP5?^<in$mcOb9pQLz7tUH!z@I
zN2=*Eqcwe9%eK*K{%e#3qF3NbR4K-DWJn+RO$_P5KUVo7l><`cfL=mb#mwx>m<%&g
z+Afv0Lt?3uy2@fbFG*YbBc2w?(-L;K%4ftjhTV0K(^4UU%@q8tgwsJzJPTWa(?Mt%
zlaZPZ34gARRW<m0Zq4Fkq^VcJUv4j3%C|{*+m=%R!yh_+Y9;UKXr5PzJ0H#M{UjM-
z<soh+=fx_?S+#I>F>v467T*E`eXPe>xsl9jDYH6~*&t;$tYrG5&MGPfON!U;lxlWH
zYW7Gqd%`vQBqxH^Cp>a5(~q*}mPT?KR&p9<_b_oP7g+Mw-E$&#iGaW)R+g$|C8uRw
zDj=o!7OPjBEvs4i3!X?>n^e|zH>)k=Yzt+z!NW4Q6{W9jj?_>nlSoakRMUIErXMk<
zA#yzub!E?cBKdwPAMT=l0G`a5d5{WFO71$C7t{`zKG}g5kg|P$A0!6zJ2@5msw^K?
zS@t#A)`40OVZca`_i+Gz8+*PPO<1&08yOPJn6zaL(-T>3C2XX2Gkh}1XsJh9gM}R!
zr!t{pg4via8DZ#;>pkKzbqrq_9=kxk;|=g|W^ygBe&8w`2Ido3V0{*4jHLnbXh;QF
z;?o1o3>co;w7>?XQ=b!eqhSe?xz&&66hqCa>PW_j`mQw^sru}c8RY^E*rRy<6+w=?
z5q0iU`xdNj9;cdZc8p~b?Nii_Xl`+o9OIg#f+iM)Vuw_;gAwDcQgLhCCfEvoAy{m7
zMtf?t6US*Tqy`vKX*Zk@)x|o)BFeFuxt&qR(AZgsR-i{_ptA?i74*3ybJ`}=?qT@p
zRWZ0`e|XI_>EO?TT2t@quBj_Ddv7{iJO!h>1p*W9D_QA&jT}yObxN5r!&U>{8we?G
z7?(kzg07|N-m8|BiHW%2<q+CL_g>}Dh$_~-pTtC&N?Pq##;UN9<ouc)I)6hd*T~Za
zHkqmK>%{z1hV2EoVe5?J1qg0rH(@%Xj*|i!#p)2q?2=JvT9MSF^X2NHdce!e0%jXf
ze1=vh6!x%I%|Ja+Xl52~p-#Q59>{N^V73kFMfD)qg6mD{sd@lDL8Zo75Lcr#f)RCx
z>CN(fiZTgabC3TqK%O)3KXX#GM=>soLR*3^y&%(oS=T%>o>$0tHG3xMTFyA&kY_w{
zYvYP~Ou;sdN|-#84Io__$Jkh~Poq@E^~gamQmTnO(O%0#NK+%57+qM<nM}hJc}mSd
zjgOo4qkbzdnSMW$p`^a%*3Az_DKpiSF5OsjD_3>bT*@`3WMa<j0pVKyrsITk_z4^A
zT+(J>*$jAV8ZR;zeJvj?Z@^EU-<j|@PG|C!QZW9A7|w)^gT@=SVZLT1bbfcjV>nf2
zowMrvM+;+xpgFKt0%;FcOBlg?GvXy7=GDyvsF@MxSEl5k{VH!a37^4RuL_*QNO=1n
zed^n-32*P!-k=;A&J3z54+7=_CSdMY(rdrx_iD$=(M*A%wGyag+BW545Ayr^z19LV
z`ClMhCZj$<v_ry{&?g2HZsXK2B)D4R^)2qR$;Rf#X==uQ0kJu4OocUcF?eqJGLyBE
z(FnJaF_yM=0Ck327AeL$4Dk|L!m}bpR~bGFlNB#9BMd=@dlo`%$9#z(dG?M2yatv@
zh#M1x`j2A8GMi`f@qwQH>7(oAy^tPXzSP76!4i{WT%;$7e0@IdWksUOSO%G!P;61?
z@;HYUOB%lvOC1gli{kJUH}*M(l;Z!1))AkjBgWq`DY0E^8u35SEk^hKfR31GxM00R
zmun427<0x<@p&}NGnDfe=%If~I|@??rjZK9xm6ZMg|v(u8plrG>L--Q0p%}pgXVT}
zG?sC3_yt5G1?CUcg=D-jt0I!-c1)T*5o1%oOfO@$P5Y<-pQmhxXm^8d6l3Qr<n$@K
zPXwz*`>`*?aB<*HKn7GOU(8K@nmX@uNTX%unoulbb`HWh4!ECK1|`*V-a+o0ki#G6
zB5FVd56KejTsiHA8xWe4jy$ocV%fTK@HnSTPwVEFd6O~&`V2V(?Gg*fBc`A!kP8K$
z)z^vTlEW{rdo^i+J^JL7AxkZ1qI(Zr76a7Q6=>!lN&G<dZ?<v8@dT0^TTJP>fhpnw
zim(K8s31M!Wm>rK6seFMg$&q`g<WfxO4=W|GjG{%+UL6wBrnw12`i$~^w}fi2cI?9
z9d=c`Jrb(x2v_gC>)HwDi;C7z>;8Y=N6<m-`$Odi;G0&k9`-UVoV5p-LOI^K&n{#v
zY=?tJR%0ZqUCL??XKkIeBJxa8>HN##!X~*eWP$}oge>nP1&5>p#GxxjAqvxH4?;=+
z4kf=q%5PYF4sr074@&v_W)H-ZY-ycLsK8+!8zgtb;^{lvL+*wZU^8YSo*jx`><xLF
z!$mE?1chWERMCFd1<a&&fE1w#LM2Uif%jS36l&=SHRG>0RN6<jQ+TfI%|o~03D_YO
zbu4#EML-YDkCs(M%63X+J0oS?Qdu{lMj{m9cBynbN?H!Aq!K(xL3{{$bNM-`{2-Lo
z2r@|MJau<nb*m7CRCOUPAL<r$d)F+<)v(km2Zv8Gl1{0Ts&gy-CSpdGM$1~j#8-8#
z3FfMF*fDWaGoT5;;LKV4puT<SWMs=xY0J_3^~V60G-sRNwVG854+j*XaaYLWi#B#b
zA;Hd;Kf8Q*c`(#)kY8S&S-!YD9%?)sV)ttsA~n0En%z+k;D>xrJglXfYct8h%r5vE
zBegwJEmK<z-W)^_P27)GZ2@2C>ou(j79SE;!JCG>aR|04RJ&`%jcUlwIU!%yJ$E;R
zCJo0;kGBg|HSY|*H3%f7aAkkUS@r<upL^?bq4t4r6`~221EwgHRU3Bs-aip)*&A-u
zB3q&wnK`p5@uWgqTa-jP)lznKBzwD*y**0yUw~8qyh05f6qLu)gq$5~LTXO>>>fG9
zW3l8cmVr92tT_G1j^sKOkcKS4%cv>hgyd-Ja>{qjk=@6n-N(YaPlUFeyytxCSC4y=
z1yAuKAvLWN_zzq`LqJp8kwrEcM!;AOz)jh=TsK`2cZcNexQF<O&dhiQp7@8yy~%<*
z|B>LdwL!SW&CSSat#Q>|07e|*D{jw7v2A5osk(4(XUNq#JBc0Z+#C!GYBE2`ull5>
zz7=;rIQrL*Tt5<Vwo1;{6=yr-IU!e>ZZK?-+*_8;(x*@mZsh7u-*>jg^HHF`50Z%Z
zJNd;2i-hkt_V^DK3O^{?aVRhOKjxZfU)bArBqRAhxlP!w6ZjBE&UpM1%v#{_4Ruc7
z;K6l?Rhp@Vk?`i6Fp2q$Z$=s>2yEp0utSFch=qaC#cDL<|5aL+9QojYm;BFQ`gWF~
zRS>=?zrxRHp(c5Qk-?lon;CKTPcF4WuR{@U9ws+0yEdoy4PT%z91L(A23fF4f;n;m
zWB>%|a-4I(laB&RfoYn@Cw19CFi!SdwU>03RY3&#K)4DJRIvSqaW@DTO=9l#4)EX>
z9kL5Q)}GF1;iljEoZhLQqoQ}Vs;}BW7*SQ4S$$gA{@GUc)Ak(uX=nQ_>f`Jb4*z`B
zqmY0z&o?)oX`Xq$h4$>Eg`Kn{oNUN~E!mWVoQ0olc#3jTPg>OzzgBrY5rBI0LSfJA
z!B3xU;WglAS_3e87_RxhhwnJ(OO2VyH%_Du5VNp0rts~PTiX$;9pnv^AG_#Q%5ZRU
z>e8qpqQ8ND#;I8w7q1hUkjevz1Y<Ut@@x%k5Yv;@v$6a8h7VI<#hO2b7h%o!09^a^
zuIpX%$L=~x9%N<T+J1BUeDB+5-g*A5=U1|tLe8dDPcha-SYDAQyXThgrY}^~5YB9z
zO~nNN`@;*K`EwNOEqBTD$1g7BN<Px20|4BW7hxgU!mjd&%O_!`F8_M%yO^@uLe@4e
zBBVHmtgh<>gX*L~zNwfrl3(#^F6TxL=U|3Fza(z&;VaN~%`*N5Q_9K=HNVRDBw$ie
z=?v~0=S)wDUCa&4;28!4Ygi&pH1Op5Am?PtMf;`6N15JGpLUeX;LV$q7LzNl<CEWt
zHo}Cr{!PdcT_tgw;h@0~RDK~{Cj!Aam0E3ga)~zuOqfzld<q3fkNi!*bUG7rh4@09
zj_EmiQhttnr&CzFCb4N4e$VG!8=qIEVVX>*zpl;-dogL!49MtpFAZvDqq=@F#bs?0
z*ngHImxAhkiKY>l$6Ntx0RR~}6e(p#As?YKQ}Uxr=f<v3bW`F0w9Jm+j(By91(e`{
zOv!ACKdpP`pax+Aw``g;#5vl%j3yIbq1~&r>qWK2-=!Ngc_8I!y3k5HHgl*$DrVOT
z$f9$`Y@A_1fj4?^i!UL!O;iU4d}Sj|Ah{?HCXhT#AR$N5gZ#ob^Ka)bv`2s|S<x2G
zZ@+$EHLGZT^39iTBLcKP<n)KK{7TqyD4|-UvX;B97ErW#`9Rr3R7@!san~bo-u8Fh
z&Fu=gyF$5L4~k3Q{LJmoEWEh5<E?AJzwmu<@y@Wcb#J(M-%UFRD}-8q`R2=um65s*
zsjlO0Zb!)75z6gQ9-CV7Ef0Ut7%tvDXJ`7oS}D7BF<;7Vo3#^B@2Gi@Uo?Lj{EAfE
z5vI7=$TP?L2d0Jgg;XS+wLkFW5O&x6XTqMEMf2B&7gO0x81<Aa6iA->#WBgVZPpgm
z&2}Lx_Z44fYN}3ZWT3m5wnL_blE~cq$<&ahnE)P#EPchGGME(DG_`T8sMCp&(J2O>
zYViSF4Tti$@u0;dp(N1#LZcv;>r;p7J$0z|O^kzzAv*yEEXU~&He_K$&LQT!m!6*r
zj!{rzChMS^+E`<fA`DpQ%PH(wfTJ4I&|IG*EzI6py3XD10H6tr1f0SxPSm0p1tvy=
z%p;9MCM)UH+~tRWr7-T51LSIDVFvAtBoGOi0Yi0x1~41hYyh+2%|IC{&~7mgmUcpK
z(j)1?Aa8PlgboT&CXI0=el2P~1j&;e&6blC2_Si7g)rT0s1SStcHeOt-IwtujBcku
zf$FzNjxEa>cO4xV(WHIP&A;{1&6gHz;oLgH!O6chb#n@=dw-;IP^ugZ=N^gVJ}u=w
z9d)M7ir{zi?6Xc14-`aPe&7znoo2o=QqV6I^xwIF+iv?$?e6Q<U#^W?l5ANUE!R*9
z&P9;Z-)3XSh%gX6#!Dh!zych&1I{wcbJc)^kQX|Z!k09>2j5Tas>-Uudm$j4&%uC{
z78dGJ2b)eQl(@I{AcONd#Z6YJ4>8vY>Vhy+QS;k_NB8uwq&$SQ+@XMq#r!nUtI?^^
z?a4!vIy8SH>|*JR#Q{?DVr8PRd0yq+<l+HFAV|RiNr1Xx`C+dIzWVd~#~}#R-pS&y
zZSp=o0`>1vO8`_Xyiu(zf1Pe@5GaN(nTu7aSy>QiTwtpiTf>U*)n!;M*#po)ow?Ph
zGqV*6POBt#-WZ^Igu3${-kmeionPN|eOJWMa@Wza3J1ZwW+|_EDId-ZfOX2-J-Z(Z
zfIA<OCRkMD7wc}%?#CpL>%4!W%<880&kMM;Y5!DbY4tf(rxGkMo<of^+8U7qNYJF|
zF15*(4haufMT*M|nmM^cp8~?)ao~JS=!la+v^f(zTgQS!qZcntPQ_d!h}1PY1S4dK
z3BhoRpFx3xRA2c!Ea1=><b%Egu=dpV41t50WYk8G^ro0j7?AhN*I$mfY9v?9ipvK#
z$6MVu0XW?%WwnO0VA}%$g**oswlOKSHfv+(?$uUS+6l2S@C4tO8<lDLdup3;b8|N6
zMqq)>V}Wg8vYEj-x3Q+tM@DSAfvc=JWCMZ~M_v;&mux%%+7UiYXQ%jpk-fetj=WkB
zB!c#XJ0>gok74h6MFy1s5d*YQ<V)fP;iphL9J8_WeKZ<zf`Z~V`>%2Qgi!;27ZEwJ
zl910cH<E+5Fd~S~(5NBp9KKpQBx;e2S}CJ;Hst~Aw5w*#D^|oB%AQSo!f2?(!|Y4x
zzay^ErhFaJA&SRw0V<q7$4_Esi=_@h7Jp%AXu8m7;LA6^L}eu^1-L*~=j&<L)4t-`
zSTL0Y8%HPEtP2?#oCHi-#ABwiGvieWn~@!oQc0-WYruyh1PhM5s_`Wm3ZvkOn~{J?
z<BXu-E{9K`kD1^al_M=NKYe54jjD09mJXq4j7wtV<71e^d-5knFdEcqNHw}az6Pcw
zpVC%jic8+6Mr~tMBAu#|nc^D1^V8bJNS&(ILu)JDHwDwh1cFaaMYSPZFr(TSz{0Nc
zp@L!Yjdu2>jY{`vH8L<JNB^Vp5P*tNd5jFnQ?+j^x2{3HMuJbJr7*<Jz^*Pi@%-h<
zz{FK9jZ~Ki1<zs+CV(|GGb5M>fi?LRbSXY1Fh~Uki$y9_u5o0z3SYo!%%k|u1c*+S
zwSQbMN@`agBoBDlvNDZn6vcl=cQSxp3LYK?!y*tS2#Ho<r_W#l<=Qp^$BKE#Y;S`e
zF-@OiP<$EB#LSGvrl#exL1hxAscpK*Xa)<)t@0Wk3J&3IK&hrEarFon7qPZW*7oHp
z=%7}tyBU6gU&{4Ia<@piTkhv>o89|Sapg@LTw+Wc#QFE!oevQzq6$<@9w{KmhObnz
zmPV{qlC^5ZS`&4+B96+tj!Gu==SmOK5G=Jv+73x=hgO`2qqROlxUPy;*78Vf+&K4s
z<=&9foA6kuZSOtjKD@1JpNUnVT(Xu&thJK0cEwu9j0Bsd;%3CRkczk6FWxbGI9gI4
zDQT5TTJM*%!+VFE^0{)3=_AhHbN8SEr3jfJlyt}yD3q*)5o?)bEnBfxa7UUIPaUul
zNO8fd&;%9DlKGyKp3CL|_evydNyJJx4)?6pY+1l!NlPT-(0oaQgT6MAtZ77|EyPaR
zHRDT&G_XbbCL#%&I7s=kbks|`v$XqnboVdm=&xw^T{?Bs(LC)wOQ(D3i0rz>e?doo
zOGhnqL<5V(co8e9zmX*-Lp2wB=!gM&e2$VZe2?$aHCpJ!H)uyr!6G?ZiC?EvGW--t
z-z(DE&qdCu;{k4wK%yOy*`pH$E#}Yz3$!EBK>S0x#+KebI_;<30PTnYWV?Tj6hRBt
z%vXgUnwwTF>7OLMXtH$21=_DA3n{KRzi>ABa*}1+!hyIzzsqfF>^DAc*=1>6P0xta
zFTSKJGoDIERw2JAZlfcZi+ke^I&up3^x2WQw%O;em#n4Hl^Ij1#lLiNxnlY9pU-@A
zCe(3I+Hxo^;9}_5Q)~1a?={&hbxSjA0)FB-wU)+cPJTR@ejCvZ=(n?fjeg@NO&5|Z
z_Qn3CtfkR!T=?KZsHInG=vx!$YW%a7Hp@ZNswX$j4p35i+FB}Ii(fJcrQT>s=|kJe
zBum+9eqG!`2S|b{q_RU^8+K@?2OaG2f_ab0@)=XKv^k#4k9rZxg&oC@CS_UD7lUyD
zKg%_1^b@bkwWNn?JJ$sK##_rQ-HYu@$?rl#iNp9FQ?q5SX}NOw@}0nk?V+P5zQ5z!
z6QS;>q>fW-0^N!SO#LQH-Tdf6-(vDx`xZx*D&BoQRJm0u*|sLoo%o@oVvBbnYvIIO
zd20d=<6X6uqG*2c{K!K4q6H6ZSv)V*?vN@vLM0v0pHuS{t=gQkC$8tMS#XRd+-B(v
zRqtFA@EaFR4zy=mT)@xLxi$KU7Yrp?+Eyvg+xc+|ouHixOXq{PeeqOw3Xxx7+{O;=
zLU!JogAO0{S~4u{alcSj74<bfbW~U>R<m;A7X0FQPu_g;%^mSnIz!aV+<DK<j<}7^
z>_VY;q4IV^oSvW#<b1v0dcj&6ogFZ_ELlr|<+cyT;sOru^naN3?fq+X7%xw^<S!?$
z3HXV7Q!SoQ?e^t%skR&1V2dZ7X|v=kB`@`TV5M%A^C-t;$y-awvefVqLW3jb2!eP9
z%R}lL9$@v0xV%p6M^i`z{;%!ANIoc-7~MIE3w$#YTIlW?(06B(;Qo`YnJvOfUVx#n
zDmnk6DUft6$tLI|?FK8ovNl6_=upZ6V^8EYqqoY(z)##>s1=0wli!m|_IpXUOrVI9
zzK{hgdINeSU<MQ|YEB#IfFyDk`b|?`Rn7eVDEX=h=oj9;iSbDw8bRYZj%8ew#rUTW
zA4BM9`ViB3PZ5MRSX}U7{F0ZxO^0{TXO1P0Oui&KXhMA-^@^F#z?zIL1F&FAAyf)T
z{!+#N8zmJ{RzZA+cK;2hu~hlRqL-avjh_@JrocH<M*PG7TO6&IR{UR-5$zUeW&b@K
z{EVSZTLo*@8*OiP-0pZg_|Db0u7+SvpW5^wJug()wsdf*GnC&GPVWs_dsj=!U+Ie{
zrCQ1#q-VVT!u1!vd~r7UK{~8KvgRun4=%s(A5Z+J)89WWbv^w!Imu;zL~*q+G=QH8
zYZKS&2d^KTe{uHUJ(z<ax=i7(X4?#}|2kNNqJ6Qgx5)G-Tj8Sj?S>p2{zX!5Z+`M$
z<R{~J1ozdAcqrP|Uc>H|Fe;pe`TJ>Tcupg_(yPL0D9y3A1k9r;XOjY!SIwtW11Y#-
z4Wwdk3%CO|T(bwPqYm7+<JcK+jHcl{?W{TA#CbZ7U8C;NjM2<#j2^B5LfSOk%Nq6I
zZU)ZMUsWNNPiIfLfQI@u3N&3uUut-4T<#pI90cPNqB-=Nkx>d!AdZa$*8%lVN5=vu
ztaY(!fjq`<;ua*#K1!9aDT9f4S%sTT65m3qn8jFv(vPk+T~6fS!BZ$P7s{L<S&4rL
ze$t>e$y{-0=ufEY5R(AD7J=KQUYjBy)C1QKeC1Hw0x8u-9+&1DRuL}_ZVBgf{{p5r
zz=sUsI^W>ck~HW`iDf9QG!(eZ5WvS{X{-$DX~vl;7$Iox<)eX^i>&d8*cHbvL7)Uf
zHoB1DhaQaO>8|Q+8H3^<q7aG9zWBf5J4_cCwhL>>Kcn_2#gmXpqzL7e(PG#>RYXh6
zqLtOr+Pa5nsf~!r`xP6Xqt79?b(1koTC8!7qWw1$0PuL8M&B9ME0jaR7D$@L6sk>f
z#(gJ{Onwua<Z7t3`HgZlKOtANRpR!krL;UDKYL<s`dXtir3{MSK#QNFWUsvH?-7@A
zCVrE4e~KOK8)!&yJ5(oeQ~gSJb5eIx&+L;Eh>zJzU5=|P`v3<xsmQnJqpp*0eGV6R
ztnv+GDFJ5Tuc-IDOr;|h>vh|8TPPFEP_-PAdxUEq?_^2-{uS#036hXxu8Hw6KFR7^
ztl&z<<r7lf?iFi~oML?@Umt&We8t+S-UB3BCFkZA`@Vko-NW~+JZ8_j>4!Qc>zKQ7
z@Y{DxxOJmL(}pQ18M^P<;|yTJJFM6`uNNdvU^-+b#eVV6(0V`R&&In4-{sR5#}-T!
z`;xiubp0lSli^t;4FCU~+PeUm>)IRqpf6%=maNT7S@*14HcnvwZ#PAgVN>YmB5$o`
zlkM}1-$FIT?_f75ewPjto8c-oL(^~24ElFS22Ig`sNtN$UpjHmx`WSIUqo{mcMW0>
z^$<lyE7XiS4{e6ctgTff3+Iy8q?maGkyzO5D-W|+^2CL}x?#3J)vh$Gc7nd(9@Q06
zCVch>>6x#OT_2k_e|Z8Ze;82q>-HPYs4H`p`v|V9DPEvox;B|dnXMoUJdy?#+KsI-
z!OJ5EAQL=$`GUGk1vh-UH>nQAhILT2A5{1(R(J-d*dVzYmQ0chHo-0I3&ku<JGX9K
zQ3cEY2m3}?C*<LXQ*~2XK6n!MsjdmzlXN{0+ihDXHa2*EhFL8F{enmUwgKe=wc(p$
zJR}=CnGJ=^Dn>Dc%sWWzsPvE&k(!Rr-~SaEiho4A9_(T%AjqM1^I5q1;Ri?;GrbTq
zU5Pn{M@B9Kb#9pG18O2B5@WK3m~HqR@Mg|I6FFUC_&wD7AJYe+F-Rnk=k?#Y{yQtK
z(r8}soA%rGNM5a!S9?FN?xuOpG}i+A^f$+Dk1d*RUzl?|$Sqr_e}8f%w><>(%G~y-
zyHNI8Zn+05<WwQQ9>lWSGwawm2Vp(uJ@FaLMxUm^5FOlDNw-gW!}_WA8^*R8j7m@@
zbG<gpi1NS)F`^t8O`ztXw+=C*UJ2VKc`!Oa$s>?Lv<U1#Xl`cPZ&4bCu&uL!RePk8
z7uZRw(mT<6sqNXO;b@bP9p!W?ceGz(M&%y;WKUV3pd&Ur)gl$6?+K=3@SaVXv9gr5
z8Ox-qZopGCD<o|1$>#wZGuKlipJ>nN+RQ+N58q*jQuodC0BimK#k-S!qj#qU3~DuF
zGrVekVmX~^P1*SHrO7k6bvkblpc>i?uBxwt)0sV2&T%kHat8C(UJUxCGmq|Q-f)f5
z5f#at#&qctu4PfW!@U$|Onu9A#>wZ!iOc7nCsXL!!@W&-M?R$k?{Ws|U}2$SbQq1R
zk+x%k;O6wLcmq=(BYuV5ukU67KYq?Mvcu>kJ_nycneoqMWiE}ST!uYxTPyb&`wujA
zCIgxiTq6Ns$IKT;hsR@floe2$lVcY~<yhk}8`DKli^Ob<Q)7oo7te?Sn|{aP$3-;s
z(8V*bF1~V(elz(MN;xEhTE|?IYQ>RcC}<RfoS>lz0+j1t4M=Rd`8PC4lf(&>9>QjK
zUhlloz1q+it*+7jYHFiZ)zL=(!wj1zJq~?D`r{lSJNMRsn+IScICXm}<l7~cB4Ab*
z%#2}kr(Rzyl}dMnJsq>QpQO27KYji5y!lPrZCj{(3xKu4Y1@{oq_pnYB*iJI{mmV>
zcZ908N`>3LCI0!;H>XzI`)4f=oUS>`mk-REqAs_B5(48xtm+{bP%*M^ZN0hmtJ~p(
zl#xH*bF*kRWwp5a&F5}E_b-P+)&ls6gsONnV6dIOx(DSoi?*+)zndP0$goYS?Yd(M
zm-pi8`$=C<dpB)q>`rF5w*O90sy*;wPq=*Ww@zOH5aOkba7EjLvg(DGmrdcajt4&f
z;^nVTzdQZj%<{3YuN%$iwxbzkw1st)6wUKASFe#-sGerTEQ$`2xN(kGne91kMVuUH
z!T*l5eA!PVgQ>SpHyW<p#Pe&TS)<3CHuMrM&7dIT?YDN^+z~2nma<yHuGWyXl`X`B
zc<UGGt#4!J%Q4i;kobgAtD=um5(mhg5s5YziBc75Ao3x{)EyFCV+tD*@NoSN)2;lN
zZahc%QH8`ly4z1XrUIcdu!8(Cb?`6Z>{a2%=JrSCWJ~@dyA87L9E)Wq9L3<>WZC&B
zJ;}25ku}NEv1Uz%fZ1-cw9Z$q3HXVpq(H!2+7uV)x4nOje&g;ci+$cae`29x(ehS(
zsJKze^REfG7>74&3Po(Uv@KRVLI!Q5W=VfY7kKfgWFz>mZpym3MmBO^!dKTsbE6Q=
zjhaU-qbd2ghhMfPbHQ35dDJ?}FdZPWGmqMpGg<6rofQys)$*$Iv?E{(q#%WD)G0ri
zI%<c=&ibn5blNO{H&3Ud=h(%s;T0nBCgQ)L-8-~f#BQC1Kar@cgT97F{}(1b63q3q
z8R09S7RiMN7U^b1(oDfpSXf#j1&EqV*Z^*p4104k!9>g?L+Whi37GDk-j}dxdUnXf
z<g|FJao#B`1cg3V(x4mVs%p!Tt6EAe2n@<+4cHXJSOkW%jv(AF!ooqgat(I^b`T#Z
z=`{M=&7>PnGb{{PfDbh<tr`JGzzM=gUn+v`Fe;Tz8Qdt9dLQkXhA_XIwP$+3m5@7y
zl2f17%7K7y7(cWjca)oNNNYf}K>nM75@#wc0MHNPJRQ0`(Kb)aGb`X(mnXq^7?snh
z%TpOH5ZJPia7ov!2nd%w=u12I>vtdCJ$&Y9_ql)K`L}z2JUyu#yxM*4_iwXJIe54G
zTpQc|opR-y%E9-QTjB0=yzr~a!OyyxctO7G**#r&<-&!F9peh_83W-`*68V-`(U5|
zaL(b2M2IM&TCXCTWjYWh-GSL(AMnoz8ja%m0uR;C_1k9grzioihbF*|fskO5pIGXd
z%cL?1vJt8;f=W=RMc8Fr1dX&JtJlrS@N=4Tm}|q&={xG*v_YzzP+4|gtqxgp6WO-e
zi(oSHGt4GGCo=ozCA6c}@8<_;7ogpT*p1E6RR2HdD1<IDwg6UO%w2<>7r+Q(N56v-
z=4+pWRx%y!H@$mZOBm9JS{VtpJn@T6m#oh`L1Gr1_6@2;C%?COeUsUD75|3Tt#?qP
z>2kxo^<t<XR_rI|zb>`k=M=}0vq(k{vGk$mm9986av>OVargij&u~O52>YoEYl$=}
zHSvzx$Hf1J?-Apef7*i^I!3G{A?t(>6LZ4m6hdN@g-TYYoUo@TZDKpesy0iqt^t&g
zw+8E(_@AlWAJXm-?Y==BYmJT`(~bbe#ZPE=1#P!6fbA=sz@UZ&`-65nDo$KH%r#Tc
z0de(DCJ{`3f{cF!fZTM!mVP}|vgXYfE?ihT5ZZle#rpIkb9$D2HZ@)%z(l8Ft5mTy
zn&FQYJRS8EBBEh0Fl=+n;D22S^}nSOPUl|e$H`B7msGne)cI7n_7quiRz=~6t~?E@
zqtLtRDWoSI?8y}VWV+FlKdEb4GA*?(z4(4pIJ4v3riEj3E%TZ4!?$z3+PT;?n;OdO
zh}Jhn>bs=+F12X9Pz}(uTN+TPS`?~fOQgA9YKA3G0~`Wcpv76SHa<#mvD$eB1k?j}
z;M*0=XrS^{s^zPLsYFU0GO31<YExUp-z)ihqs}^H(!?^U2gTml5^3m^8aksHEzyDj
zdV8wSNZ#^|c+dv}g4V5(mI0|{AnI(ygRSgAa{Q)J^+?S<(Tpw8g8lr#7V>2`x8TV}
zJh`<avSq)tWq;J!f+x4)$$Qq;zk397JZmQpvM0C(1amA)nU%Ro^iW`UayVvJq2OLx
z=QT}I9Y!8KgKz)o^gEV2m4LyM@`kGh(ji<`muMv=*j6(qt`rU(^2Q2T-bf)%O&m1{
zS3yjJU;uIz&FY3SM4h_-Mjp%;ff1^iBH--?QXE`0FiJf~c(uvrRIhGbnFv7N#ACOq
zWdceVE0Zd*(Q2m!0D)XnE)(=sW*7w|aPv%2#dIP}4dAoIlBW?oOB?0t0Eb8J8Mq3;
zSxFt~vE;Gw5ygV=S2Xnh4!f8Y&Vv_+CeECXr7;6VioOXSpQ)HlJtbHcK6_Czw{oJS
zH1O8@HFBQLO`JF6B2Cb=L8~1E@HKTT3`3*jZe$jA>H!(qu`6woyDe_Bq@_P{V)si|
zTCJUcANS2&j28(dElb5K#ocqZs5@`IKyp_`+zdM7Gxyxv$h>g3DPD{R9(x5pq6EQ$
zZ>!|q%CaSRgSaIbumx5jy)snQ9dhper6a|U%zd*5L-{_8*OC@sX{;3YQuc-O2LK5X
zao0=k`o;bC+*>L8KGQ=N9$_pG>_bs$3Zl9bKRQ!AlIC&V?t64Z45mmXs!Tr3jrMx!
zl;&CyO@r9u$Vj9H62Fffb8Xno=i{%@McQRh8<Hi?uU-}6Nza-r@E$CUTj&7u0s?=x
zFW9BR`o)t=^-^P3sIUtmHR7r4HpNn!&$_ukZeyo**fTAhSgc$OzUy1~oaAl)g@dj?
zoKDKOY$NNgr4vimce~;OPVWRip&!oTQ89cMV)hYk^>ShCjQBk&cp2?}LCejHwEJD!
zMUj?A|DxJZe}XT<2%#MXMVd+A)S+GR51$zkX~u|UB5yfdt^e$0Anya)oj45&%ZglR
zk{W?eP!N|vEkW21YZ@5Jh%|-prnJ-1&*+{7>nxN=Ov3e-bd@Y=VrHUAShTTNIvx61
z++ix1NHamqyZ)kIaeDG|%UmGllT}eHHz64hSU(|(G;zcn>@MnZcI+H8)r_^UD}cd;
zsmGbiFbDF(Ek&7v=@^M+SC}g;cqxW5v)ZKDLnMoJk(d{eXvtXnZ<Uv9T_R@F^Gx=j
zcF0)ihMdS73t#F2TNOq{Mk|xXR4k-7dsuo<*H;1NOGPH@Cz0%R<SN654^~SeDcj`c
zy##d&S-J#8B7tLhEQiYw9tQm~X4Vip6UmA~^imrB3D6Acr_sIwPg_RG7+LH`GN^h-
z{mi|^&tnIQ<#fM*y$bg^u$P}BQB4v)s))rzd5^(MhR@(L4UbHUm6WVl$%nm%J{55_
zK-^+BUt-m|cd54_M}>*cFhUhoBY{{;g92ndEOKerOFJg-`4Zh=G9YG~J4!cF=^C3<
zi1h}V8OSmJ&@kc&*3#_@xE)L97s+M}10cu+PxmOfWB<iV6XN6mInD6cdiC_wG-Vp1
zM+?X+iXMkh>=Gpf*j8Zl${6&O+zxmzrDxW^V|4T)?U;RGy8OxIy2nyZFf%u1RmQ|p
zT-wq{5A@S+0K1rV*F^+vx-i-$mSgCn1VXR{Q${@5WHPO#2&T-B1jk20I@{Ym5}Y3i
zZg%YWSg80|sQi(z<71)hM?#Y%H2pOtLwcmK|BaCSu~7f9(DSj-{;^R0Nm7a_=@$Za
zpQKw%Ng(BL<TRU-9tzm~!Y-JaS$_3D68b(Cc7H5v`B-TAakBekbMMFIogbUGe{8N<
zb-3rU=0@iVBuCLJ)~F*LJFDXr%c`s773Ys_p1Ehjwvty;;we^B@yF)2kIl`iX8V^8
ze&JxqU9n=WjHjDTJ3cno$KA<kDP;NPi8`|I_t0f6ND2u#fVME@MucKXC=QkE50&^M
zCHtk4{o#^>E5aen;z^FjNj8%wln3!0ej#E@asVjG<bg|jlH-#kt0^NcU?<<e(c_#_
zQ%k6*>9K&{$Ni?uNv6(_r}{DMoK2mdT(b08O!kKY?LRqWe>vAw^H89DyuVpUaz;!A
zlBpn`lx`}Y&x#B9S?FUwi~E*NeB<;7r=^D7kLWVJuaKpSm$O1XYcjQk3hUPdI*?04
zhmU8Hu9{5SLOBh;5a{4n@gwl1v}QdLl1;@?G}Yi2218kOE9UxWX3i@I0c3sGoE=Za
z&3^zy6s1ct?ZDNLIa^J=?Y?<C+;B}h{ys><@jKg!_ofNo%}&|dD10xiU~gUW_k1SW
PH|FiLCV!Y}!v6mOc^sM+

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/offloading_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/offloading_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d7aeb2427adb1eb9836c4f0d155d078506a479c2
GIT binary patch
literal 24140
zcmdUXX>c1^eqZBcg9HhX0PhRD3Gosok<>xWNED^fNzF)_W9ji?A$C)u1d!YYD2ZIq
zJKi0yDO>hXj=kcPQ?*Ru#8l0=!mV=3s)|2oQ+8z?rz&Vs8erN|mM)Kvt;z?^Qkz-(
zLn^=j>jTF$HS6`{LtX)|U%&hO->?6&xVVsmi`aj2>b)}@_c!#Sy8<n+{n)~B_c(zQ
zED<hh8Mjy{Y>il>wsBk3K5l34wumF@9Cxy?JyH<m$9WcZL|oCr@j@1MMvBIZP_`iA
zjuwv>vp7Cd67`IGSlAWuMoY&_qh;e|QQx?a#T7>U(em-~XvKI1doPMqMytlFSlAt@
zj@FFVuyAptHd;4c$HFC%`e?&=0}Fd1jnTk(fQ7x0rfBncGYgkSTB5Dvtt?y?X^Xax
zx3jP>(h=<(?_^<rBpBT_zKey+BVEz%@opBbi1b8z$9toF<9+PCGO|0`Ki<#6Rgpc>
zz2kc=oVag%z{-hr;@}6EKXT(kqSMN~!U@&yazc$*^?^-||3H0k<NH}^EmG^may@nY
z0E?|hY{LguHS7367T1WlfDv~{XcFz>u(%KZ!{STT$SO2XTIngiJZYmR{U@zL%e(gR
zBlFH+>yPoy1uaUEAWnwoB5`4AA|A9V{HeGog)c`$Efk-TkjW*4<Kc-&I2OZ;b1D{@
znh+7P9i5&Z!?W~gJT6Yhr)H+liSaPyMP%U{kx2B|%=F~cm7q;=k3?oBu3r$NGdDy*
zDPnIIQ8`}RXWlp#p13L=zkxc?g)+R)OizmwNFE8t#Lyf4iYF`X!c2r3_hm(8HCu9G
zM!Ff61XK|hZ^e<ZXli;Y9*WFdxgye7inZog7ic^#7CIS@UB!#%B6=dsMMUZRTzqzp
z%IgKRv0%98CnqB_VPR_e%DM1#Sgp1^6M1n~oH!At?$4vR_mx*)Ka1RKw3LLnlHAM~
zv^Nv;=8SY*loa<RDLfsU6eX=pY1Vj+z7<>$zdk3%;uEx*y3_U+w>^lMdz{FPTLf<0
z`Z_1tuuB};zHkbbVWj89St)Mb7PKq1nI0L-q0h78mc*~eLh%_)YgkZ<^|u(U=vc5o
z;X|S6a8wM1l)_LbIztnRusam``dm1orPyi9DGrR_lpxiiS;Z3yg{P-y;$hlKu~6tf
zw~c7-pRV@BqqBXpQ?otsuyjR?_uQHrI<Wuxkk}WQy4*KAAHO;?-FE}qtxuSW#igms
zb8%7VyM7}S*QSud6Z)R&yV2h_W2|5%zIS$B3ZOaWwIdK~hWBgSW?9AZ+)5-_xl1nV
z+OT(}eU&SYl|-_tOZIg?ws%Xr^g=nSz@RHqwyyyO{Cd_pxNtTFt7sFj8Uofsuq*)H
zPCA#kNsHikw|LwsIK={y7hTu<D4*xl)x$|Hz)3C=S_BuKZlO@*1zxaB+Jz##7qfS_
zc@09bP{Q)^f(Lm^1n;}txJM`zy&}&b2QM07Jx*)YE|j4}ncx%rLb>P@D5p>KYpG75
z0;%OJwNj`Oszu+VQ>Z~)g-|P2B6k(~SBLj%p<b-P7#a|+W%(NcEqzAoem4GkwO(z0
z7&JqD0hDP#U5#QugK15OX<FiLS;m_$a=})`XR>q0lp@+7wAuhjid_N_Q9QIQ2=r*t
z6ZWjhb|6eAY5V`c`#sA&E^Z{=b|kppLVCiIuqJFew6<_@D#P40ryj~Y6BZpCEZPMw
z!G(<0*qc!{VU4@>QrAlKQ095P6MM8YUaH3=?0UV~b<T4+^_1zkGf%Caay=%e9-}w&
z+&p*RG8QaS9I?4sz$F}Q22ev%6-p{a6OtH?i=h}Go8mJLStzE%QN^2yyvabD<e`GD
zi^onLAASAo@e4|w$$}YhSaH62{=ymLsy4}`!pfjivB$*7q|}Rwr9Sd@QxkU9DOV`O
zP**4vqg4rzdq?V`T>IcHn6=)k53&b2Vqb^%vv;`XZq8M5yFlivR%%y;weyep;ZHoR
zDbH@%vwOXE!*h7azIpQOlKn9sNROPLXMMWJ^SdvneBFQ)kBYjVb{u;+y3uiJY4nM^
zHC<f#yP;Hhmt5ZUsJQEC>){8&M(Z(3YTB}KB`R1^T>2J`O=tuF`l4=3wmILx%ROwS
zYb-j~d&hd3`<BH#?V64xvWjFjs0E8I?Lkt|Dh=VGlu6<hfL2io8T~;L;R@+xcrof*
zAfQg_QG^%TO%|*7^Od|rg|VNxceu32m-4jAp4Oyicaq-?Kh3*Se7(%qr}*76zk9v<
z34e$ITg54f@i}QaXG-Wa72&`AZ{fXoO5(=gF*(L5L@~|9jnk`BSg{vPrAsfDd79U&
zpVQ3rI@IYcoQh3N$Kv7X2~qK7Fj6S0ky8vMDaFVk5hW8Auna*Pn}5YKsS-R?j3^$(
zc^&l6l~{}hiLI_K$_czIG?^_*PNgHr7CR2lY(1WOs#jW5HGAZmJ&*UDf9!cR$-kQP
zyqdL4T{7RbHk#@lmAglu@W<7~DvX5Zv2h6N=PVdnQ2{Kiz&(A(NkP2nd+QX!*?UXz
z-3)`4!-zv_r8E}{9cIHa$@mJ@Mt}{2<K1fKc<g6Zl~Npz$EPzhPK%m@5Ad$;FO%*%
z)T2P%mCllPj=YobSbJCnZ5^<N;Ts|yBG%{*E0Ue%G*v?U*gM=-3Fj(i-Ja0c3Pf`p
z^@qWN|Nl0=G>X1UwBOVnUZQSBMn+<i?pxTr#%Q$aK30m2b)|_kpTC?e7g6?Ku%o+W
zzI*Lbs^_@ebNmT^LftgpNnpSj_=FG$-_Vq>18ly8re6$*ei7JwF&8qsK@W%Y{^;k1
zTFyQ<5}}EOfY~|8F8&r3>xO4``VIJ;^7PA|{^XvK4bQP8e@vZ{0?Y(4B2oj2E57MD
zBDJDmpfE}Cnd{<oY{CG#$YJc+FBg9$tUAEX%n~s{N(~K@IyEic3`N6nB2Kh^X>e3}
z6Zs@I137?m9MKECJI$PVm2aa=Yyck4tdsNlQ=Sgl(~<P-P4au;vzerrlxIZtjHKPZ
zWO?Vd&FU@O;;gPhbwZt&iD8aOK2)R5Ct$lMO@|};e9|21j-VQY0W^RwZ_j0uw|O&K
zH8%@JA9NqMH8B*PB-$VxL7#(m6&SMl{3UcpV$(srHNc?sRlF^9o6YJ@)e0yPBU<DO
z=k$o|If6M|ej{1GJAYQa23Z=KVf=j#Mxq&Hv-tn|<gz{KzdSb;5%RFTeu6_Z+-#~U
zjEIF!vl%n1CPKxD8verB8kRl7$;0P1JYz|IOapHjg8fC4^yMDi&(lU$iA__bwj=U8
zrO(vm{F$Pive0EVQ#;foQ4K_PXkah*uo4j(koiE0-!Jp~lLt;c;ZLjc<YGsZ!GGE{
zy0as|cF~tRK|8`WuLgQESU{x=Rfr~{H@T$X6~rvGn$1ssMK`D{u~XPZg)f9-`(@Am
z2bB+l8=kXC{w$lG92$joGMkeN2z*)aNf(~xL8hX3__`PpNtzgwsJ$%uL7Kw*LZjK>
zvr7F6720t_5TBw#@4d2T?}ld}$q%p*s~nSEB05td_FNi)Hx_J>TIi*fyf*SkG{l%-
zse(epg-Y%46dMqz;(!os;;Q1j1f)45NyJV`M7~RB$U9FS5jDsxLVOmVn}x8Fwwhv_
znvN^>%QG_(iLe#}vJ$cPl9xP!AW}Vf0zAbYAz2wu@3bQ%+O|?Lc{E2#vBot|h>=Jr
z6tqZ;RU=C5h{{nAXDpFN1Vijsk@B;5X`A#9eCqNzMlGA=jav>100nv)whCB~=W06E
z{Bm{APg$O=W~*a(ZFJqYF8)d6`;lb-h}?Z_n?vL_Z*!cmY!zA@#cLB=93Jb!Ha)hS
z1&-oPf8~|~PgL!zy4QWTd#ixnc&@5z%S9nKS6H%LjL=WYY>rn@j};wRySVPV{}ym8
z!VlUW+8!SJ0sq66A5Q#5XY$Ae`QSxr7~SQaj>2?hV9Q3&p@ZzX=_*-@EsrkE%dYBe
z2NJft*|~NdP;<X}ahpnQdF_t#mUN(R%SM4sSKYRQ0$XmY<BTP_{}i=!hP8CgvRPWQ
zg&NP%Jo&3uY<CZA6|h&HEA%YImoKffti)D2?|yYvkjr-^J-cLA*S3r0@LC;%D{rkv
z<odmzp~gXV7t)$c;BPoX68U$C%E*HS%eW14NIT?kHb~GME)J5(D#0N#`J+%E76^8d
zOhVQMStOIS@sKt;#tR``bP7dC=SBFU+mQdcQ4h%;okFo#B9w>)kk^rn(Ia?8FWM<Z
zxRk;uSq51kNfUhnlOPIygv(jka<M`z&}4x{qFbyKtHf$e7RY*Jv`6yB8rHvBO%_;*
zn7Vm;uv$8R!7g;3isE=g0ScH*IWRLBFa%41*pwg!z+zvW5n|F|WX~Z643g?Q*xCSD
z7BdkGByPquBL{)GJck@~XqW@JZ<@ob<^|+LStCDc$6Dk&9Ry}e{-&rL^`1HQ=FE9B
z>S1XF0ho&usi}tiMu-3ub8(XPF{jQn`Eesv$KGg}KnQbRQhkO5R2NBkl#(m6b0HP^
z#-<iT#XqBp^Fh;R#g=Bmp-HBWQHqESh^jgpr9cn3h>auWC8m_=L9HV2c7TLP&L}%7
zz(d@MgYG5em67e1MCeWGATLTDO`%#{EOc3fsz@u58%OdBQMj*((r6Fn5PgIh7TQd(
zm9dEpLFIR->?%AEF%8YBhJLxBpG1(g>DJCv>tVSS(#gksQ@W`w)pSs9I`}|Hz4V%l
zU(;)p(2(BMo7#0y-gR(e*YJ}4j(f8Y#qX4C9>m*YzHxK^L3-8zNF6vtp_b=PuBG=w
z@sBV5Y4!KNn(RF$H;?|=#f|1uEc?^u9@C^Jd?N!=V~P!vs<>2se@eKe6o}ITNU2*4
zXXXfAX!A1K;UNML!)K1u4hPOmq?fQR;7FK@<rYvclnelq37gblo+n}3x%>x&I^ixt
zIc{D$ljFX1?8h_!aGi7v6}P%cuR{AM#-y8+qVZ3^im>!8^1cl(Mr|1UlTsR@ot$0P
zlt<0lCi(f_r%DO%FuAt3BJK91+;y_MF75WF+|9DPdG#x@yLa86>VHMX&;7~|n`HNy
zk9Q9(jcVy{%I<C>_qNMH{Hw!Nh%NHch{Ys9MNbBwog)x17I_d5Z)a$020sZ>F4{7>
z7eGn_-eG*2%Rs1W2E^0TaL7<c!bTbqL()sK<UE%VkT2S?(C)lsyj~;KMxM*)RV=hU
z&{DorH`k&g;lMVfZD^Y7I!a2GdD1zVrn7l)?$9qoTa;-VIZelyaDHfrQS@0`EJzdx
zY<^e|OxsU569sgX*g;|ASmfhndVALlJ(C`TLubcY88{>ppWwmlXom`O#+#4Vm=9in
zP8*s(XLv8BsE|$xxmUz^0P>m3qC{vPf}emYhzi87hU0;W@O0p^7*GK)Li01z0#Zby
zxQPg>x6nvE3JLo`<Bgira7du@f{ILn2dO$Edgk&qSTywJ6ftQc&<P@5E1Ky%#43=j
z%;yxQHgyr3J~9Z#(dbl6Z#C233rt~>*X5%D#ytdXPQ|aX&Q8uif^!qdDj=#<Q(ggT
zvnOx~!^-sS3n%p^P4`snbDa+a!V%~Wg?VEbxwE4-_O(mWocOiC)TBPfn^TcU*2;xr
z^V1VorJ3oOxtPfe1p=Ly#rRE8oDLYGp8ynDv$0^NHHZ@ERGt8r^DR8t%fdlz9RqE#
zz}2ZZJq$8K?+X)qQ3`B4SSEEcE(P66AuX=@D&0V(iY+2eOTSLl6O@;h$eX7G@OyK_
z??q;2uFuWVlPpyfhag^_yP_0o`wF-*=*p6;k)Tg)gkgagt6C|YoCCY2;sv#F#iQa_
zHI6W?9ixdUCDcEJv_8gMsE=lxIhDg>qR*ihQXhm>sG`q{RsRF(gLMs)9kg>5^{Mg>
zxx8a-U#e?V#;<&Isqhm|+44}z*CG2lHawlAHv;=d648g(9vRA|%Gy+Ak6hWac4eb-
zaLK*NyWex)hDfGH=4)1lAM>4?b%9jffLu55pir(GN%Ga{qPk?`9=T}G`lZysm^?7{
zsAz1{SG!r$L&)s3j9<;^B@d*q?<H<0Ql4hn(`;a?)uHv7q`P^;eS(P&m+Zi1Ztrsc
zZyZSbY7s6jO}X1-ciURygMD)FW!ZfsdF&0@{RULFu1b(ZE)R7t?LG+!WXjzjyBpH(
znzXy|xr;EPn{(H!jH=yzR5XApH$C+$@ua6E$+xKJ(U6$t&_D(=atV|Wp+|s3OmMz4
zXF*6!du0d8WaknIn_yuk0v0kQcoFjfWM~&G#1Jex;<S&L6Rhu2IiRzAr{*2ybmrv)
zjiOt00)?2ORYEC*f`BMd*&@$Sg25PM>R$ljS9`6Z@hl?=hu%uUNho&Fm9QmTJGYia
z3KSrhSz7=Zi-kM(gi?#L+P7RYP+_LOMxQt{Qy)f@6kUh-+#pISGiCJ<_CjHz=tIK{
zWzmiP8qAuW3#3VHCai}NZoLPK#c>i1F$XflDR4EMkye5lf4-KB6D5;Go{$zO&%I!$
zan}NQnel3#pLW@`7L(k@NI)<Yp$Dxdc})2QIvw+%y2lvU&yiXZ*RdD>?fvl1a27gw
z+%IDt7cJ-=;_{uq%~`%{xo5F(cl>tL`bV~#7F8+;d&ms64tqaq?{3ARLT*Amx_a0(
zd_@F%IV-)iaPozKcPBMT?=YhkVlVX?HT^y6j|JfU0~xVE{MBCg@!*NI*O!i~1pn&j
zV|S-Kc;X)!kMXUl8VmSQh6jo92>K*CbJ8+--+-qSXIKehk8QEJsKlVw9AzO~C;cXQ
zX1LBhD~YpVNn}P05-p~bAn%*-6sI~UX%R0$PZq8-V4}`0U6E$yW@C~_r78*k=!8(n
zkPO6_E>HR$%2GjDX2D<*8=jTpUm;PtOCI%A;bYQ-YRAM2F>v^>Xo?X%&ro8<Q;{Rn
zU=932Yowsg*nd+|qm%0$ShBxYa=T>tW~wqM<HzsX9NfQTPw|a1-?&<k3ha^b<M(bB
zHLNy0Dr!l)%Qh?PQ<YtEW!FY!&yqXs53H8nJ-_7oq`B==THf^F@SjA#AANZA(IBC*
z_Cm-TTMCnWBM?~Q-~)SV{}~y-hBHZs2kQEgdydO>#|d+K0;~H{EyFT?p5cd<N1mfe
z{%F#3^pmF6)vx@!hUA`8a?`0Kgaw}FWc%=gc<SW~GJfqB9(gV#`3p(Uh0kHx^7ggX
z)UIPPe&xshnK&Ofbmf~53V~azdNG8m!X-Cky#A_t!*_>OqpG#HH+%<|_@};>)l<pd
z<H_C=$<|jkd?%OqO`UKsuVn9`2Pc#L$7z}wB{7t$?UC{0dzm>)-qfe~gED{c0mzM$
z>4T$Gs72;mR$ocA4$7^AkN6=KcatnIM}|n8CIOM{x53Ta<EFSpYqt182e6~uvh|m1
zIPPuaU9>IQi4&AO3}q8=$a4uBfvkjGsx#0op-t1Ax2(6A-6W76<Z=_X2`ekRLvDt`
z3EgSDS9Ze*8%yN@_)NHKE!CCa&A97?i=pj8AS%v`AYhy;0qvicqXucBEBb-%iV|*y
z(u)(tK>nCV$#UmDYBS?``2_NVzok`yTO`zGf|$*?)kKNDUW=ZD=bfsI^z#}`O`a2M
zATWycc7PCm!qAe*2(|U}Ttm<EUCg>{x#P(~&8E4GetCBsb<u}*W5!B%7;|HO>)2(b
zdfiNR@$=27#|)h>mR;c%eeo8(jm&J0a=#3v*4x;>i~hy(M0vt{!-5sWswVtw-&7<j
z&|?#X&d9>bc!yD^X)b*PXb0=GSe5WyBi&w}194fIsG|00G4(Q7w^}=Q=QTSQ@6rn-
ze0u6)b)q^^27(7xz}mSYWmuj|*o;%?U4U3vKZRNQr!TJvUIj<O7Vp>N6JEVdkZjuN
zv;b<{skej3CfSEdzDWNXB^H`9tm{D%bikw@JTK(c#Hy-92Uy*2Q`VtOR-L^i_TR{d
za<Dn1s7Yxisum8kv<bm#rDT3eg#7~e(-2+xV8j8V6%;?=Tb<q3?QB$h%*X>m@QMv&
zL>3oZtWyT8qtb6vmI4?uPNQw5JVQH)OcJkVVuJQNl(UdUsL0zTqIq0mfkg^&+KL00
z0IrCNGdxQqfJ$_bhF5xzJR((sH7c<|@LOtzM+T;3*agEI*bAwRPYEHF>`+|jsu-Px
zX_Hc%ovsoj5(#d>nWLb_fxF|l(x98|sPqO=9x4lNR1j0VMmVI(gB7<rEY%7_`jEQE
zsH%TY#fynt(fbBEjCgzga^yNItoRIJg^}kLNH;@qLb)wd(jTCv7y+IPeUl$z^bXV(
zMD}4?GV{OC_d@dL^968S3^HdNbm%Dd4lEUaGB}z%{(5Q<4D_C*6G?x^TJ^`Cs`Q?H
z%l4GFL-uy8Ic0C(UxPgl>|H-92L_jm)3Bz}k~X}3>xX6U5j;1m>QYsGa#i2DQ?43X
zI)y76_j>R4u2#rpolD2k)xlKtOLFx~4{pfSCzej9Ya3Fvd*s?Z>*I3m%S&g|)opA3
zRB%MbuX+UOq(3<zHylVc9F`jnKbU+N-e@?vbUt0*vDPQoA6Oa#*S=c%2>tR_LE{~0
zO*Ib4jRR?~PObz7L9PT!lI}WCTy=r(4ZlB}svVGP2a<y)Hfmo%lb%{I{ZG9W_e$=T
zr2YFJv_I^9ZnKt_A%AK0=AK~^vUkXCngMs;rmr#O8+ha!_}E+Zw6$Z+o$5R-cb?v8
zJ(F}dZPqrXYWwBd{`Hmz3(4C4joQ<w-|c<x?CrCv1Y#xe*xkL^*z&?&R<))od*#aB
zrIYE7;L^FLO}mm^hdyc=zFWL(TYd|Yie$@v*|$IKuS>TNJg~{_hmzhFS{ETTcvi+Q
zaCW))X?4R&Ty5r~>cQosX@677-zob$*Q(bKKkS$Hj>^H~Py8o7wQ)5=TSZ*+;pZh>
zRp(kU$#za|w)L#tO1AD_I=9j;yPKFyrbTwQte)6#cP0BqW%noopSa6tXld`Mw724^
z*O&AMH@v&j-p2p!auk<r-L!B+Z(6oSt(><$$=5N$EQcl|>V>fX_SfL$sFTd8BJLUq
zU-Dc=6Yyb%60tIUswT_;?j*Qu9fNSO38fiafz~HL;RJaP;pxVQ1bGxYnS1Bj>Vy%$
z(Eq|?W@i3%h7Ou)fC!nCw<}#;pQ`SXtGm)Q4XK)bxrUi<)*O58uz3q1<Knr708{Tl
zD7I9j60?`lbk4-lG_Z*~g4%ad(cH4ctQJU{fNX&g7k5xqm`<rRi>L$f6tmoE2HH0v
zHm?~nCiF;ixQ2sXkps$p2}sdmMrfM!&V(TQ7xs==#ypqbyLn5{y6|5Lbx8X<Go=h<
zUGO8c8y8iat6rMvVb%(U5gdfk%zp8ODhVUEX6zW~%xdDidcRTCQe?GZ^h)oYQA?&x
zJ!ve+D;Z<xn95;Ggj^Nd?98kx-!38MJR&k%QP3b+1tf9e2GG08{TCbANGGFfL1`CC
z-zSd{U#=FE*)c8bd*SKO<Rr!zw3&FF4hV@fAQ16#l^v;yA-Q7cQN`g0d*CgdNE1*c
z6p^YOlxqjqZ#;-^)Q&ElRXnx8K=<5t-6?OE?Cn}R`@{=-9j@{v;DKMPnq9JY*V^zC
z@BUAz8ujdvU?WF8N+cgUdw++(PG@h?hVugKn(s{aa~2E5NPDw$W(N53%b6%se~$L3
zrzVo&8=NXjX6ig^_+6}$u^o>=111WAn^&RA3F`{300^akZvEa3wGcF5VgULLjm!-|
z)`U|eibB>wG1Y~Unu%$dpxgqLL*^h*TA@awed(@&(1-mU59I2b0%2$kRf^i^C>@U2
z)tR}75Fo-EN=DX!z#MK!N3wN-ATX&3^)3^JMih2VEktqYgX_%FS5XV+XX%n`I0C4l
zUle{dEQO;n=%%R6sp*Nx9BfMv$Zk^u8@bvzqX(DgSzdAa%G9)&(T|M<ovQqg*dyuB
z$s<W16V$QO9@H+tyh*XNdD)Rw{Mtn37{KJ+h+)Qu3q3D9#CkRQTwI~kdmYW-^fqv1
z)v3}JxwK`;3DFHn(ln9I;Oai8hYWF!CbK!QHu{+FXR##1N%0*r4=QUNCM^S-jf@aH
zA_tEo8;^i`NPAjVFC{&}Bp*}>2@S`fX%5zM9M^*Xwi~g!bl6NPY<Ab~1F8WIcya=G
zlH|#B#`B!i8ZXeJki+Dxnd7+(QKCts_r?vgEc1E<>lJ+10cj?hjvd;teW1Y%tql<p
zZ!1Z>gZ72#OR&LZd+E#@;6QQRBA^=Nswj;V;|56nqLX<vK$fbc!_TWLvq3>)5qeOZ
zQBjzhi_(5&@1-Pbp3XLuQCy5E!_kW=1(6vkOkAEOnkQQ_>A$0%AkQ$DY6y#)E$pKO
zQV~*A_KWgJL^w!E%B@;&DGqgn1b{VhzG`i3X0)F%%*i%8rfnTTaaB<7<|=CLy?yuX
zRC$kF-t$p;-_r54$N%2qZ!A8oXkK@uc8|!rM}9c)KZgHe_;JNs8{W4*sepM`d#Y)#
z+_X2{zAN1jNY@3@jo?oD<i@^qE#pI;7Z+5PZF2>sWuLmZirxRn?!<m;#5!UJO~O<l
zW5N17gJq>46cT18LLrGbMb%!JG(6G_d9-htxtq$(Pt)rxdE?~y$RlC7YKi=iLSFL1
z<dM#ap>gT!6ly1rj!>3eGHqNok?dxmiXXcu?tt!n8-W-;5yHL8eQe*eWiNG{wyb=0
zo1^DeH&;^&hVD~Wk)v?4*uUk#6HFEihzlshb7ker@w+u!lnxwTShgILVXs?6uQhud
zt?9~!EgL-t_OoZMB`^}Uu39=B$1N-$3v>=_*;wH0`E3^1x@0+San!HByv@;bYs|_!
z{LDHSPi7p9=a%2=IKWJU@!V=HckJ3Mt=e+nNxjwVg6ZvrX2F!9x71OlSp`4G9F(b3
zMzaM-lW{s=+5Rr#cD4$}7YdxP+;zaNwgBHHfF-b4XlApc+2pF<C2+$gw-}}9+XVR5
z01Fo)?19y=SG6TZz4Vm<W>>5~wL0tq*%6n`7Y9qEL+IQ>+vlx#)r;RhuL<uD*$|;A
z%`(@`Tmsf%F;WfcNuazoeYO~5XTWFnX3$0%$Qn0bXPkC8a~T6D5-X|$%%pyRO-l}K
z8PrflXPnh9f<4SZQ)yL2eL**~S(a)MuQ*i#9$(nFHgg%;Fwh!gLPBpb#id>uMmXO{
zmCmnHq*|t`c>@N)p~`ybE+r@+cI8$Ty1j!kpEpu%HbLO(8W|R<zenKhJW50Q<FA5o
zsq1M)`$k14LPeW(^~8TxW3LYkA);`ztB1@_KdEj1gSihU{<!7-)zxpxwL^bu+o)v*
zsa2m0zx<z}zInp;sQY^a73U~#X(?#|xA(v!#jP1?Cd3QVPvpqn8VL)ol>8bZAtg=G
zLxb>6np|LxED*1FA?BK9(ndD*Q^LZo7feN7-anuzAxMfTDJ@TxHp`{WAY<y9S6_So
zG@FpLr+i7h^UE&U=P=}ie%T1WgTPKBG$TGT(hHCuEt=lRN}4CklCjNEspia#KS<^c
z%SP>pfaz`{g|~hM<}gYs>}u*&P{_ET5|cinDBM-jz9XQ;>y+cmlv+R%&4~ywGwEMh
zKrc?mjmX~YZw#2-AJq1o(TwrAg8MYp1OzeF!JhwEeZM*d^PS+!4_zMxPs5;R>6PU-
zSFVuU?9A;mDJaC<ookir9S??{xQ{_xwd;(9?K6ef@8st!1$B=t1&KI!;?K;MLO<gw
z9mtd*SO_eG0bfwF=JdQ+Cdf*dorOk$={e|`urpNzNnT9o#T$^%u&+YUQk$eFbOoUS
zk1};%Gib<6T*407h6XjEw3(o~X(Iqiod^~%$(Q1oii^>h^gmHbN|X07d2BzF=wIjw
zF}~`)#z*`uWgxC!DK;{YI$nB)xO@iU1maA;0if*#)&7ly3b<1KN3;!ydBHYl>q)g8
zl-mxb+K$L=M?PvBfzWa3#PYdxd3CCM7cSduly^fE(A>G!w%WKf`rhf=r<ZS#MVGI7
z)&GYL|E59q^(EbXNnc;OtqbX6x5rinVK|Ks1l>Dy_fX2$Bl~*RCfB1+e4|PCXwo<O
zX%W|cOx;N4+Xu3<Uv&Fi)^uoJ&i2`1a}W|UwHh|QLBoUzL>uQhbIa(Q&2u?x^IQTA
z-i#`wzb7xVbrifRwy+?u{UiMYrT!RR{-$^hai-U0b2f#lUb%kbKhds;qlmUE4#{nY
zQf)`&wxb`l9ounNw5~Q}?+UV;Cj<Hws54qM2vYIbz54~*!Ns+Ys@p-jgw}KR1i@hj
zQXb-XWy`4zFpy<SV8s11L_m5OfS$k5_71Z=FpSMifQzZ<)mVE5zMN#JCq)2WOh8D&
zNjr!P_{@QcP7q-i@c<|1m_eXHR-vfoZs1bqoww13Nt$WR&a9fPrj`NOId<s#VeZa%
z(WZ&LfHp1{z@h7UCpMG*y%^KHhjG{7i~4ZqFG+}vwRs!!MfM#gvuSFjV2lICiG{Ec
zF`uJSeI_%{gi#XMd^l0~j^)nFFyQ=xoaQ}CI5AgWCEaww#)Ns6@Hw0@L%KCK6Q7!#
z5@Ugz?2Ax&!tDTPEaLYyxer8IWI}!wLO7!WT@)11C@PZDsp{5@R6vvS1;T~^K^N?u
z8rAAFsv-11b-;k0fC7SFB$n8*kA^%lM^+fn5t%UrqGnY4dknQx6Q1`$)JXk6?cEqZ
zlaKf5okL`n6fjt%-ZUdb$}Rw_$o0?Zm4Qhpu}N|v{T0RhFY*}Ty^j#e5|zN9j`U{~
z`mf{>dIc3WH!&f`Vk!c5Fc_)um^zh1pf7z;Nb%|xb$U{)2*qhsno|ws-aw@3=b$u5
zoGs-1Q-Z_i;o(w}pQ~&9ecY|CdRp7Sp6SMx?|tL_Z=@QB<i??o8V}q)4`ltyU;Ap7
z#+HX5>G<C1_fLOs?ESH|!Hv2-x6dK*_{SbUljL{FwOwl`<l4Q<JXE&#Ja;{-&d1)4
zkA1b!XKwncS1zUMN96jEN4^oTCMo{`*?%DAKO*~&Jgj)^KbiKoYHCcp?M{=jxl@MP
zvO=!fy;;-nz25hG5w6+2T#&A;U#)yp*_rfqCM!Ep*S)d3W2=KnKNOUKl($v(wywVM
z#M`~q#sv;;cS2<V0)sTOB%w()?v)$&uAkUwJOs`0$DT%}>>iN411awT*?ZtY`xEcc
zbZL`Z+LKk=V{bR>bF1t}-Lk)Xs~FWntKkhKoBEUZQVZYDNY^o#a<<Sax02UJ-UfL!
z<n1GmiE|jPZKqdan566Ekx)v#h#sI2QCt#XSakz3i4QGvzJ!LDcgDg04z26A@J14v
zzAbyPV}wa)=(*Kkb5yLhY;$;M_q0tegsb<mk6V)MN4GgA<SkoX2mEBm$TmlTt&&d1
z9{qwhf@b%-pL0l1xkc8q5p<|Ghi4>=M^m)@Pw;--`XZq&ATxwlOmGYQobMnqCH$S|
zK(yO5VQC{^qp5Q9H>?>G`rD@F^N2N}ua>O%dZhJT-n>kfu|3fgaK|~p_6>x;YrSXv
zj>7@9>AY=-yW`LVxFZZqeT6K1vhDzN(ovrhy6HBRVOFA<#dHS@vzQ<&d?IIRsoA~w
zZy$vBdlr3ab!%#L8}a$>2Dg(nwMP<RcZ>_TYL8-2q`!~SD$FWk5@(jCe+KOx6&U?K
z@+>sv8ZMcbOn*lEmCWIO#ze76{x$jVtLuYH70aONdu3nmV^=R?REz0vSJmSChy_Yn
z#^Q;l2OU#EsA{HMo=MH>onl*<npGG`1#p-C7)@d%%o>0}TxMAH8DcfF0PWige~1`~
zyuYW8(y>)Lic??Smhulh_75%b>5_`~W^T`{+)6d}%Z>f(1Id#88$6_#T={-T5q&MG
zvi)+|{&&ti^^~P~Uy84lVGc}zCYf*gEB>_yzmz)s>Z8N2Zt$;d7udbd&p5lo`4jT~
zDMob7w~y{VddTvFy_TZ~>_6D&L^ya9--E;*GTd~dFSs&slj6yW=?!0=PzA=s-{RxL
z`getK`IQcz;sUQI#qkM?n0i0f8K0j8K2+tw1dEgs`i^HWKGp`oJ{pl+tRfZ(l>$EQ
z$v&^4)UcSW@4@y$6rg<+gz%IqzbB4X={C!%qiZUbQB~aNmx$t2zhK$_&nee?8J{v{
zl5fS&%H@5wk9{yi{YYuAdIL<NIacaf<{SOJ6VPn3&ae-bYIoPw&qLLk=b3}PF{WNb
zug=NAwqmblRYvzRwb?=|y1WG6_{2is+PuiVQKA@4Aj6D$+a7C)4~XDmy;PZBg`Pvb
zc0aFvDO6n%wGBOks;`MLqdcWj?_^dRjO!;1r36e;RqC-<eK1L=_90<CuR6vU(=#X@
zJr+mP_*R*U<vP%UiX4BNLILu6$U8tD!xjw7eVtwznq(Rdb`FCSw~M?kcnUwPe((4t
z$&bT{9~UDT;+D-~vHaA@Sz3R@^*-a8o^f^0xQf5w+<(h;KjWHz#Er?^*k@Lo#rjj8
zvs|z|<NBU)Ezh{2XI%d?Zr~ZW?-_UC88^&g_WX!D^Nj03hE2Zc9mik0{L61`xEkJZ
zLVjv3dTzB^dXmiputBr*Y}*jCMKR9{FIg;u$(rux90fj`ww|?H%0A`D|Lm*$1&d|R
zryTiP*Q})$=cc20NnAd*Qoa&jJ@)?mTFc6>$kn~;_N0HGTrwa#2A?~Siw*q$0$f0V
A=Kufz

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/__pycache__/shared_storage_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/__pycache__/shared_storage_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d61021fee5bacbee7d75c6b8d9f96bbabb9e54eb
GIT binary patch
literal 18463
zcmb_^dvF^^n%@lGPXc@bB={J<L_(rKQ!k2=EQ$|FmSxknB->i99T>t4B+z)!GoU2W
zpjX+mv*fMsBwa2g`CM0~udcG(*p;I5s8wB65@jp3*;M`rMvw#SoLtAfbyBte!ArUJ
zHh(1fzV4X;2!Xb%k}0Xt)7{h0@A3P-?&g1WyB!QX3Db|`znEm0-{6b(Sk%bY36^2*
zFg(Mv31*i5va>9_8xn@3an_hL&6-$DHzv$U%d917owX)yvo?~(ChW6z@~vam0l%h%
zGwGUjkvwz4ovfR!OL}HKN$;$eq*)U6$%fem61OHAlTEWtByLMICtGG)SVpjjoluWG
z;Y<2w{UpzkXic`wwvo6q5lFVrwv)Ik(UI(&?Idw`qASVGax7zDga)De6BrXdvps^*
zz?^3Ix_24g^NE3`enNkk*<Ll*3%T`z=M!U9ejoX^0dgCKIxTm$pKlU&@y)`nn2B$B
z*EBn@$Oe7C#ZPB~2F1=tGLdK^B1wul78eqH(5SdCeDB4R;i+d%PMtk7b6PP@q!tz1
z3-g(HIu%I-S;g^6B9WX*r(*HTP`cslD-cf!(M(#Lj7UQGl@X<}BJFu06TwClPetOn
zbV7idobgmV6HcTrUlv4ot$+TxiK%olnNDdRL89k;^oqbQBn0t=h0Ody2Fp!kGC~Ub
zQ&Fz&R9d_i5qaoLM!1f}+|XbIKAudZqi;$T32NV2#d=P7YeA4QQFV&Rk6V4&T7$?P
zMqrS<W(_Yhf^p8K=2iR%W}ZC;?>puiNUjCS8A;44*jll?nKzMlJI@MM!GUSKS&vx+
z2X7QCya`fBdEUx1F&A%p*Q67KbI~4jkU`))DE3VHO(7MI^OE9{66s7h8JVAtr!FhD
zxD=LPc?89tOop#Sq$`4?*e~I<kkSqsmEuc+ViASRf|!b$D~5>7hs3sZg)m=6C0B;Y
zs3gcRSw<t`tU)8(WphTaWlm$@ifYT>@J!a+#w=UDr97*(v24v+Ypn&(;w&!PD(WF3
zrJ_-Y@@z#P?OFSrw&E4Vcth3@GidEWYc<MbZG2@J!xD^k3EOvM9dn+F%G9W~Zt7?q
znR=~E){=E(jak#D#!pN%?K~4S&4?%gev7jmG>I+nBl<A#V}Jt<+LgvgB7Qj)&ZNT?
zYiLXeDa8y69=)PifK#NjsF<ZIk$G6&h!{y-78I)}&;)BN5kYPeo3TPCZKe%d2w<SM
zrFgGGQ+znJkc8HN&LqXF(_2_=#H-Vkmg2zjBvn$}G&dcKNkT><W09QD2v>goS7JDm
zoFAT#&+pAd#LGfv@AZYzvBPhU3d4!`rQ!L-%$0O%_$tVsVLmQp#Q3F!jKB}Sc{QAY
zaY->j#CTMbN5fY~hGCeZz!Un9To%fCq4`B%hsc{kI0?+NR1cy6xhSM31)*!w&mp+M
zJoYl}!=FkUW1qZpZz&&mHfQrc3UD7C`{3BRJs;SY+drK<Fr5pWtWLN2i_QIo<~?%r
zp7ja2Ike(<<nQ>%^?_^crFBQ%zkkKO>1r*wx@A}Q+Q{16+Hl^ruUOYvsM{si?OJzi
zOsxGNUpIPhw_G><m63IyWJ^ZI-dwUV{=R~5kL=r%_wCJv#&g5tIp2vD*CS6$v1M1W
zwZGWhQEcgYY&UxyCB|%bY{4i%+`AN8IGl<kg>YDLgu}@+idBfa!r`|TA_<x!c0*ak
za)FYKCmfEXQt3<trL6>IO_$Q?gknm->?=lC0T4Bq8HGu_lI9g-Je3jmLJdD<#1Q<5
zLl_`!k)R7A(lP|^F(nJ*ZN8aZ&E`#k%?96{q1!`wQ|D$~!ynBQJ&m`fRu}Uo|E9UV
zWN0xvijBUz#@k~hBg8k=xEbP5NwdFX#h8t0^p)%wb1+SQQrd}cF2>RLJ2%9(jEtq>
zE3A$73_G<=@Vg)ZpRG#}R0@93(ni7bsV;tI&4Nj=5Fu{miFgN5ZBoUwNspNY8*dTp
zycJTYc(?I(5aABc!YI0(O6Pe(oacd6fi`tDigbu76SW^N#3BocOgI)n1q+H;q$*3=
zkyFKX=>AN!QsCMlg$i&ovMe(Pztzv2F3ih08C4uH%$&8Hs>QM(NKtHM&7Y`(UK5xs
zv&j6EodL1+G!zD@Ge0k+cuEII9YKp?l7vKT$3aNgeJU3S2`SD9&xh5qFYW&3c?(sP
zJq`6pNQ5_-l9#c&Z@O3A1zWppYk%ZwEVw#kSI6D>dh5os_ieun=3N)QHX7`dK!PrD
z7`_vq!e9ggoDA_G1~@7@n*A6%jKKj64q-5f!59W*7C4Hp7)-%`=?w_pV}9M)yD|N+
zbL_@5EBvj|)nwi@Rx&v%C>-KI;VLy-@y&+xZpWAd>D`GjmsY}!Z*`2L?y(1Av~g^5
z8<lGcaVr6e<wq5CZfE#@-oP6Hau@-Kn0P|rG0O@QV|nYl?pZSr^vgQ{lsI`dX5n2x
z$5!4ARF3Z^K&>V~*ZA%c9CN6zsvh3U*X!Rq_y#EN;v3&(X5D-f-^{lNb-YvXK*%lu
zwF%ys0eK8s@<GXZQpV4>@@+yLqy-?Yfo~TY;hQFCy#wBxNf{@6Y2rKKy@l@*d_o=8
z!gCO#Knn9Md^hC#Va&Vuo*jBy`GpO>=zZ5b+e*gw-M+B#eb7eR3Ui&E4S+%)P+Dr!
z?Tq3?m4><rFtvyvQ!$AEkrfYWGsLi3UIXMsb*6+DWIV#!Az03T#@=BvkU*bRQ<nJ?
z$fs-y;!9<47E<Oa>rl(r#%N)^WE@alSY>oXd~=$>)Eb1}TDS*^O2dRugN~syI2iKG
zp)9U?YS&*DFyH(&4`ZM6R#geFT0c-g1<f--qj(Zh#Zwrds8AZK@WOl~b7jedsAQ>?
zt{#U_8pJh+SzKJ=`XvzMW@%ww5K+Mrn+BBXwsk`=r8p}=TB9b-q;N_AfRac@c%?C1
z0cF%RSDFC_g=1nm83wyXjA+Sj9n)Y(6bm(@6jMAEO9##31P-ZcaQ1MR*m~ixgzJd%
z^#;|@XW@0Jt2TLtv@y*>A?ZB`{sAD7i?P?OT4jJZ{@!AJbFqC-$;#MUA2TL93a9pg
zLSVlf*k1@7mjlOFOb?;p=otQT#g6Vm$3eN{V4>rz+;O%D;OEem(a`C@+_uLS#_qZ4
zTy@@>E;J3vO+ycDdmq{AFeTSCywOw`nUY7QKDSL1`KEYc)a=7qLAy`HMOQ3uf+=`e
zBC0ToC|Y}v_z-h$4FNO!$aM!<LCdT7{bLu;X7ulBF$-__mVD#4<ePYN%(mhJ*=l*$
zwQK}(t)XExlVRDEK^;z>tSO_(aGjhb!?Vl}*{tbCOGanPnyhFoGti=Wr?IcPzO^3P
zwt7spSZ$hl{qMmTGH1<mI-_f20McaN_g3_^h5+F088mmu19hM!QuSzkC^I#T2yK_D
z2YT`$^u$s-H%s)~vNhA8eU`QI4&JPZ%Vk^Ec7uJtCu@W6JGC<9U(_zkc33|I&Q%W>
zcILUBszi8&)V?QE^%fnOU0Uv(PK8<u2w5~us-CPvn+={|&AB~Q1>jYuCZ~Y`+-A=@
zcbHdQQM~_`Cg%MwP0XS>=!`@`!<+}REW@F!0>=WExgv09U*U+P<4{786y5ydE-l2s
zB;zt^?&@>TJwG5hD5B#)bY2#C{FIgmIrN+fVA~`58<wwPaBi^5(Q||}s+QtZF%a5T
z#qQly9vtBS8OEt2ivt0%kOVi9ge{Oda9CU##5l2b%6*ziXN2v2x&Q+Q%k~lsE*;~9
zgg`5br#MYvOI#$ybBV~JAQF>H;-o9-g#^!C61H^>r%(cutlVLxftNC<2dDxeRe+Tx
zM)fr62B0usT`IEJDAOC^|5l%h1%N0?#`a*@SoYhjTFMY#V<Yi!)~I??Ob{a=4A{7)
zfI{$(evh(-Uq-yaWDUG2Mogm}zB7ITeZ&Veu|;nM+cOh}+Mzw(T+yOBcG@Cu;Vtih
z*9O`pezxz@ZqOPz0sM6)H3#m??bHl*Y?=}UE@1_MB1t|;q?r2TvT=jN2@|5mbdXXi
z4-Ut8ijbJjJljYD>%xbue26=f0@4BB4fp+hLr8RCWFBdV@K6|ic0=6t>(^iB;xP^k
z^_n#;NXV_=T^-`S{|z;yff&VWajAkBX-_z=lKg6pN=h$?(Xuosce`eXw4qQ>(zXF`
z)t#*@Q?s&f>UM=2w05_l0H^v%zpc+WbF?$Bm$?-ui1_J5R1LrVKk$Tpi!vLH-(L7t
z9C4U^aFV2=f{0#3u^)n<RlJDt?_q#yPVqlUK4G%%id|na#g1!F7F}_J+b%_XSLiB`
z5IoSuqKHmuiW90vp@Fm<Ce*YvxdX(5{)y;`kMQt8=oq+$BMIqvs8$_sLrcUj1}L!9
z!weoN42;VI<2hH~BTwtyy$^#&9(s-z+YfBKB)5;=vRB0VM+^Pqa{qX-sbkG9HwD-C
z0qon=kn{F{l{<Elg~-~mjmBK>0oi-7=<O+Zcgx=0xjj>#d#5+Qxx(gKi)&-DZ)p8e
zMU}^%!7Bf1WG%5VmFpdqy@#tRB@lAyIB=M*vqIZuVh9uz6%2X-4&8+~<p}*}(kWqS
z?7MuwZMF1IpHfASu0%nb^z)!F(ZPy(6V(G%mPsK={6Csv2)2k3B%W>z_CcWd!e}Vy
z9o1<=d>xCRBS1Wd<*a~>Qy>ti7lU|s&toQs0inhER2u3@&d0$$Na#jVtWY<MK~(Cl
z#>EVH3&TR{ay%s{erPp?DpLr@pgeIR^1`Ks%hb1n!d!7mk(fYz#IW%|s0_<0rsx76
z3A(AR@-jC63I><(8=E%I=&L5XG>U`tg{V`-OyY`Ln~pH;oc>C)ZCaPaC{~OUCLs?}
zPNCrm>R@tjTll5E@4_fatZx+*8M1<(X&o&156b?7EAEo1+kTRL#P$Eg^|7mD#FsDI
zx;`5EV5nrq7cg?be~hnId<C~oUBlOQ5`Bhcf_n>t)AHbSe(=<a4Vh~2Vc+CK&s5Gf
zmGew(IvaD&z#~_~&6(AiqW8teMuWQ!7|7kY=^xNKP;~lpPEIY93%v5s^=i@80Hyp~
z!8iEOH@I@T=xHf<x*mACie5h!JiB_f=$(AzZM=25&@?DF4d%VU$7UncZDYDZh0gJZ
zo#VG0MQmeC_K$&A+JEwv`LToP9$YuCFWozk=T6*m7aO@;<6yC=eX~2X{)58s^D_MF
zp1D=G8R#km4$FbV#iq_RYk?b)xsi?0!v1M_|1|Jyd&4ao%nF)~LvmoK5I7_U4sBe|
z2Tt5?lLOBc0x!vdm-2!0w`{-i_O1P+jf?lL6~@oY<L5v3Uihk;={muF<zf6m>hwy(
zx@<H1;GKF&(3x?Efh|zO(r+el0}K`80_-IwH1&^QFv3amLNp$WN2wA<enqMU%t~-U
zO*H!il)Z2TK7;at2+mu9yB1F*0R4e}6JiSq0y+ti?!C0Qmqa+&_7D=_K1f}zz#C6u
z4N{nJ0R<GuatK2+S0Vt-5w7TJa)!7eg9gfBI4u(DCQw=E5>*<nMPUCGMohV!$p4+3
ztDzcY|1(yIng__g0nB!4lG}g@NjIo~!kw^fE-Q5H5*z$~0_Xh52)p@g*=beF-T_-1
zKA}&|eB(FggAdaPcD4!ZY=o5vldB%xGO}cJD?Dq-=&mXa8mo4;Wlp!i%N2o@xeAsb
zZcXYocsW-Bdl%Zq$*6h&E?aBa&yZTfZq{u?8`yAW@V{H<nyM;<SFOLxb^y%wIo*yf
zm()f)hXT6l(emQ#vLmD0)3r>AIo)P1R{>j@Hm!Y@dH=^?Jz4;0-+{$GPpn5NauvA_
zRa>Rr!*|LD#FC^urYb+mTRK^*icwc}-;rIoLD;ZTQFxhY)K<4cI*o*Dg2pQAmGYjz
zMHfU7>`A?snv$V|il>MXyuF$2s9<p7iE|B<!=V^G@1TQ^?bUoo`xYi11chebma7ow
zVfD&J<u=Kw+mvuhhWeM`mp-eevWrVwaIhVjn(i{PGrvO~wJ?p#2FTahPiqC7C9uh~
z-NwuUGt<q1^XP}xJ=EoIsMWed9<?xcY!6tb+@fk@s@5g8YebF#cfNJ$znnyWY_;X6
z`$5RMSCA&s!-OP((}B=FHR_1m)(9W;#o#v?dBJV81qL6Obf}xa?nAZ04-u!spl&Zz
z8;L<~2V1FZ!HD07(S^j<AVdp>Ku2P=pe;j97jp%@gfaCE3?dLzd6kuB;;@bqZw7H-
zlPOu6+6h|$eWJZWCr&p)YF6?kHuob40D3)cV7zU*<uNeylea&9dt>C|cQzJ&_V#CQ
z-yiwxox5XTi1^y?EZ<&U``$*Y+<)ZWWZpM^-}TFA?!-&7?_AD%uGl;HlcOIWU4QH2
z;~NKmcJ#BO_ul&K_^rj2GsQ;#ou_X<y;i?=X2UM`josUqZ#@1tZ`~ity?8zc7^Lw+
z&UJwT4@8+WK~EW!i#()M0Pv^rl|b$|#>k-#q$i5IEj)m1IJ9Am&M$~4ZxuW8ECJSV
zHe&({q7oOcVSqDE0rL{Xlm=ZKmXUu7i%1w?&lIbQ!L?%-Z>S<lL%@~uzcT`^EcF1Y
zl|F|65pbW|{xbUrX6xAPV<jWL=%5#00N&L#-h6HKwXd!CTIysvdkP(6a>rP{<7m#-
z21qy8HuNy`+(XavIotC&&+|oJu;APG(6>)Rt9d}H-;N`{0vtKA;lDRpIQoKo^o4xj
z#ap&wpnvW9Pk!+65Ap+t3j@dGfn)iB<GHr+Th>S3K*8HBd%FwXJ+gPt`ss~}pL>rZ
zn%qwo72TfO9ux^%D02WvGU7NyD9U2V0!dh0#aC_}GvPAsIHTK2{crf3@X-yXXse@S
zMV1jgdrBknHkxL5?nU)RM6pBKgYuem@aGVL?G0wGy8Dox)sHer>|*6cM-6Di>!+Z|
zz9E9Qs^>Z@8Cd2r1Aaw)lOlrvk33o3)5jZ^05(C7YQQ5+e=M88zh}U5DB(fMnj`-n
z2B6Em(?X`g@tP8@>9#V0-)JO-2wR2fnjqFc20<c-aE7rAJ1z-}X>ijb^r$hh6|(zD
z6s{Vj+~7HCovOG(OHN-xpJG|ZBB#}8f*S+_L4zc^Lz%c=5{r7rRW=1L1zmV;(A04a
z3P5eO?6N*bPVrTF($!(AUTe+C@Es-&+uw2Wu3-hxhe$#cBK)G>$@192{y?ka)KcR~
zZ3U)qQ=5Axp6Mojvr|DUI1*y%g%l5`7BkT+#3)fmMZ6Xwx+oOyJZv(|XDH$0*+mgg
z6j9H`^AOYaJqg475oV!;rCdYD3!jFeX*dvyv`!|LO20OAp5O`rQPDo=47N0~gTmVR
z6BdY8ia-k>7WXmUrh;ck_6)7R`p|Q**ckXy+s_O>wC%<-9qn|h^Fh<T4a184QRm3N
z>D`F`>(KoXdEfMXzHsUl`P3`<&R27`z^11s*MC^{9KP3|^Ni<g<J9J|&@*--9x0^5
z)z(WB5-6~=2L%KX5|a=CAp!3GH>Y8;+R$}h3+Kbm7p`E{a}3@W4U2}Lap~XbwEFTq
zIL8p#Pid#{V8a|!A~E1Tj`R~~1xXw?Vk&s-OpNAA+%-Xj^0W*=H9Y#nxEed=LwdW?
zLi7qXfv-^spc)uxf>Q>E8PPVAz^ss@GJz8EgyYcS42(!|sB{PP1qf&Yl0-sJVBIm|
zA44GFTq5aE%JDCdA;We&I>E>=!=&>|!#mK;P9N+-su_UFi9PM=TC0EH>?t0dT$wJo
z`eaw%+N*{BQMrHgf$K1w1a$S%wf9Ou(By=4I8Ba7Zv*fsh{;;ppx1Cb1e&0aX5}p#
zcoz1bYpyWZwD-ZL1)*FEWb1+-Hf3rZ9+_rtTB3%_;EH*@j_ki$Y8~3WZFt{n0=pUZ
zXHB*2>e>q9DkJXC8fx0p*qa(hKj@Yg)K<f)hU30gIDD(BKTvdV3Tg>p@3Qgze+*yL
z*qsL3+o~xo*vtO&|Brovnk)PA{?AQ#N}<MiDmdt@Tklz0t)1^r)YXP{{7($?8u0M4
z9ginN>2{3{%D-2cWoOnY)<J$vC4H5Jk@my4HFm+XcI?Ws3wp|xYt&*{vM0UlhHrbc
zwDPa|ZC&kF)o(pnSJsU{ciEfu%=MMO)?&OR>xDz)=4{;!dKv=Gk&!;t@3=PgJ5qz^
z|COGjhGk3TDppX`FJL{58Dw+v)E>3Aa&HcTNTB1XxhA#F0%)8KbPNzG3g8TTbFCr<
z{+K}^jmd>L>_{Ul&}|3Z!=UbpgJPF5!hD68CT`8xLMn>lTiey1dEo*F=ZWL7MKD1Z
zIdYXmm%P>TsVsOW5>k2yU|Ry*p6C&R*7TZ*zZ8zC1LDITQYE6A%X)V!`t>A4t8SMY
ztiDS^-79)Ij>=E28oW{X0^ow!Yv>WHIvr0y%!Qd?GudWQ8nhbWygZ-@&?l1kPv9%X
z3HL8zLIiGDzzqyXoJX$?%$11OF5UutLlh7_KT29bOauEm)xe0NAf>t73^^-64#>g=
zivTc&?8uO<6LQ7F0}VnVDM4@(f+M8~@lLrCijWjH_L-j5$GaqMSe**M#o>qMXhMjH
z!3L@w{}hu<xL>1qGH_NrQE{Tps!jj}Vr-0DTu_{q{bl3gKgAk+S|5q4U|tjifO<e<
zBI#?LhRtX%#lL`0h+bA)v`sY~=S@Npj|zJGL)CTDC8YYQeX^xJJE-bfh4-PF9tB|v
zt_MHk4dp$<E2ho1z>25n8z}gWJoFs_gVo<v@INK{pL*awv@r=@gyBPl;mHTXlX?G?
zJUqGHeYgIj_7B^0!;qKrPr+`?&39JcS!*hEkIC@QGgbuD=;dTDSL_@pcJ>!Khvm-U
z4OZ^lSM2I7bPda0!^Mss$SgUT`tHY!rM>|U|JHMBBeJ*ewg-*{``Zh?{jzWW#+iGI
zpZm@foBV~QKDnu{*t4hD6D;)XmwWbaOvpWlioFAc-u-g#{$h7OWI~0_{a-Vd=9W@F
z<3CzDz`(Ftj>#>@R-BJod)AH?dJoCHhyHu(=<1o3iIuCxT|*nr!c%AEr_Sbfoz1y=
zf7Q5qJ$7%paO{E%|3VjFhiS8CZ=na;nz-LB_e|$pUB!;Qg^o$NWAgqXx#QWDnIdfc
zv>%k)4{k){_QNaB!x=(fpwJSMTSDts<(5M*qk+&yryLkxd5+BOUfI8QJ-MFE`H!uf
z0TA8PoogJ*xrQJt`uo=+vVU;p%%;m*aJ9>>_F`Kv{zK=%9yze5*xFefIb0Z-elRkf
zZ#yZEOs`Me9r@_khsSaw({kHMm;!eP%qi@C)iLh&yKl)ZZuN!I7}IvRbd2$K{dMme
zU)XhA-gP|RGyZ@8ae(7Ro2y{sWE)qo?UHS~9@+-sD#MEN55EJaK<hO7hu_6mCUA-+
z?w7x5JblFSi=M{Q;|<&J8ahA;Ui&ME>}0@~5AcA#1zcDCXvj>{B2cP^;STuBP=U|j
z@XXHm3^a&-u}jw}hHFfaUD`c`_7t8!A)16(b|A>F#0lIci7KKFfe8I`=qo)$j}lS5
zjlrKm07r2rFixQM8pI@=1z=#pwc>m5vLl{;LO`nR{SX=TEPM%g+Ci+aJ+f!dBbWD<
zuTUS9>w^#Khu6>LT~8HzcLPm7=slEojRIxgjjX(M^R*wpmIFF>jc%EZc#p<tcl_b+
zU8BTq{8x<=E(a0mM4r|5z!ah3O2A#YXxhTSQFrPSsj-L}yxi$<XxZCR6E^EU9=LC2
zY{L^-1^^^DsqnyoQr!zP2jIN=nL|Ue>dBh4UenuYhyqXHwaO?M{<!_0PVjJ#(_Uqh
zD{U1g1W1vJGXmXEhlr3+F{CBML{Bmc*Wq@Nq}lR>Oc2P4=<Zb<v>B|U%7iDRwG`Sx
zkUv2qREfTiB$9-RL6$q1u6>VOo}8D<!<pm>+10<6DGZFt1Ea7(-Q@u58#d5e+6v7F
z<mLm9T=h4fTYWCq3b#h!jLLX!2#&y<D7u=9ZC!8@y5-;&V`_1%IG|Q<!_8}}*HFCQ
zoy&WIIh(pojc8)q&L|QA;r%zDSLAFm{8m32x~p|xN6Q0?%^>#kY^}XcxcsQr3RoGA
z@73CJDLeg$6;yHhxF)HYc;lxgja+M8mDKxX$>_vZ%SNl&-<lR%)}plsJFZ62m(h1t
zYwd@^iC*)k`WJwUtz-k|;%W8h3Ks#mi`2`JeZfm`j~PyaQojM-m({lTE-hvRNqdQ>
zzzgfpAO=9CGOktFy-VhWOl<FAWDpPT&48~?5@3rko>{yAX*NRS;q;q$cL1Ob+(xu!
z(xiUHG?$L26pN6Grg^xki5-C3kBTwLA5`pDgzJ194gh9EoK*2s3|@i&4$Q!1Mm{b|
zK^v8%1gsLq`6=c*2|x<dCM*C%@%COF83ZCiaxYl?mrzo|ZEtN@RQmo4NZHW~wljNw
zh|Gm<6XMVCad*<U)A<&_62o%KaK2?^#R;x@;FxCror||G-i_y*2UkuNUB0`AK6?6t
zr`LV?z=-S`SvmWtmHR00L169s_xm5VK2vBtC%2x<w_aGO`?A@0=hfS<-g)izYioUl
zo&$2vfsItY`Q(b@S57$8Qiq3H?mE^ld=B?2VRymSN<I3O!WM0Q!gII@x|6=e4MCp$
z)KDQl0shgamj129Q^0HNhj38#FDvwD(6kh<q(L|oRf7WQ1~Q>cJXDNY7HL8!J=G|B
zk~q0-M0o)mTsk={xk43(vcS)UOI$%x{}x^~2~4(}%G5+?WV`oNj6?CA)$<M~#6Cmv
zI1XPD^3Vh;h|smxdwt;GLK$ixG8FELQW*;OMejbleq?=UBas`N%6q1B>O~N;4-;fh
z1>37{?KyE^h^oZ17$6Q3@w^DVt9KP+-5Bh{;06Xi#NaRlaEW?h9{%#c0ZdrI;7>3>
z5hjA#X2gGv0YVdsXb83;6N&SoxYg@6Q2{KdaF7)*Kq}cEIzicL8o$JVWc&x1j(>QU
zDK#;Nj(laWH=krTo4ZS9jDX(pbe60nYGc}Z)`sQQeP5F@rCk?U^UG{*@6#oQ#D3YR
zMshE`yhW2r8H3&IS&x<&_}SpM@Tb(W+dRJ6<SUus7wU&?JGg>dvf>+DFy2$LV+?K?
zwv?P0gL|}fTW*N`?jp;==aydc33ju-tz^asRM6R7vXZEcad=jwTNhTB?jFc_x@0@I
zWhWWWvJUeUTl8@yBZ=&W3%w-r;`uESDfype%}twa!IBvxP^qJ1%Sxhe7;JDc5}Six
z%&6P4Vyww+-o4q@c~|-XK7u%8Y4;`Z4f;~IWyjbq#@GIpy~*6Rscul3Azo1$-yDp?
zz2(H%kPD|DX9pu#td;C)TFEOI8}x>;oxI{_zjtDkZr9<8D&*$7YLlX`Z5zl(;X#BB
zZUv*zQE?!<1UXq2Pdk8uGA!+#!0Y{l<3UGMZQRh)q12&{=fFe63!$C(`j1dE@lsTt
z_@dAZ_e}01?;%g$U^ZPXck5SY?k>sB;QF(&^H9!ohzuk+DE<s<K}DlD@ysi^JtjyZ
z_MKdZg}*Pbh<{^3M0r4Yi?G@pz9L)EtBoOW*yvXqNAR*^sN(*92=@H7`}-I#dv~sm
zgisfYcC3zY9CEW-C%y0{B92x1Nu5w!KPm$sM&T4KXys%g0`23U6(Q%Zl~%266#gVe
zh`2vO)bT?&Tj5B4jfx_dKxM*t4-v73(nN}ZTF1XSf_*MuKkL}m0*;8>;Y>zSaC}>&
zn>1}&89iG+Dk!4+Lh)z?RAWZO4PYwV&S4Cl()3g>5hEzC=<<$XEQG-j1d8n#z36{j
z{BQ6I%g#u+pd};AvRf90_53Yk|2t;z@0ekk8U78^@VAWXe=t42H<(z%R}2JSI~ca_
z3ufvI=HRc5-Y-m(UzqlPVLJMS>F^h(fnVF3Ze7gVJ8xKkM-0y28#oqBB?#cQy}?-`
zuczSe+&CW_+^hq3uC^HXRWl*>n2VcPIQiW%{FouJ(nY6%9bKC$G4ONG_!xi4VE!)%
CzAVT9

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/base.py b/distributed/kv_transfer/kv_connector/v1/base.py
new file mode 100644
index 0000000..f85eb41
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/base.py
@@ -0,0 +1,546 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+KVConnectorBase_V1 Class for Distributed KV Cache & Hidden State
+communication in vLLM v1
+
+The class provides the following primitives:
+    Scheduler-side: runs in the scheduler, binds metadata, which
+    is used by the worker-side to load/save KV cache.
+        get_num_new_matched_tokens() - get number of new tokens
+            that exist in the remote KV cache. Might be called multiple
+            times for a given request and should be side-effect free.
+        update_state_after_alloc() - update KVConnector state after
+            temporary buffer alloc by the CacheManager.
+        update_connector_output() - update KVConnector state after
+            output is received from worker-side connectors.
+        request_finished() - called once when a request is finished,
+            with the computed kv cache blocks for the request.
+            Returns whether KV cache should be freed now or if the
+            connector now assumes responsibility for freeing the
+            the blocks asynchronously. Also optionally returns KV
+            transfer params.
+        take_events() - returns new KV events that were collected
+            by the connector since the last call.
+
+    Worker-side: runs in each worker, loads/saves KV cache to/from
+    the Connector based on the metadata.
+        start_load_kv() - starts loading all KVs (maybe async)
+        wait_for_layer_load() - blocks until layer i load is done
+
+        save_kv_layer() - starts saving KV for layer i (maybe async)
+        wait_for_save() - blocks until all saves are done
+
+        get_finished() - called with ids of finished requests, returns
+            ids of requests that have completed async sending/recving.
+"""
+
+import enum
+from abc import ABC, abstractmethod
+from collections.abc import Callable, Iterable
+from typing import TYPE_CHECKING, Any, Literal, Optional
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import KVConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.config import VllmConfig
+    from vllm.distributed.kv_events import KVCacheEvent
+    from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+        KVConnectorPromMetrics,
+        KVConnectorStats,
+        PromMetric,
+        PromMetricT,
+    )
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+# s_tensor_list, d_tensor_list, s_indices, d_indices, direction
+CopyBlocksOp = Callable[
+    [
+        dict[str, torch.Tensor],
+        dict[str, torch.Tensor],
+        list[int],
+        list[int],
+        Literal["h2d", "d2h"],
+    ],
+    None,
+]
+
+logger = init_logger(__name__)
+
+
+class SupportsHMA(ABC):
+    """
+    The class that indicates the corresponding connector supports hybrid memory
+    allocator (HMA).
+    This is required to use the connector together with hybrid memory allocator.
+    """
+
+    @abstractmethod
+    def request_finished_all_groups(
+        self,
+        request: "Request",
+        block_ids: tuple[list[int], ...],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called exactly once when a request has finished for all kv cache groups,
+        before its blocks are freed for each group.
+
+        NOTE(Kuntai): This function is only supported by connectors that support HMA.
+
+        The connector may assumes responsibility for freeing the blocks
+        asynchronously by returning True.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        raise NotImplementedError
+
+
+def supports_hma(connector: Any) -> bool:
+    if isinstance(connector, type):
+        return issubclass(connector, SupportsHMA)
+    else:
+        return isinstance(connector, SupportsHMA)
+
+
+class KVConnectorRole(enum.Enum):
+    # Connector running in the scheduler process
+    SCHEDULER = 0
+
+    # Connector running in the worker process
+    WORKER = 1
+
+
+class KVConnectorHandshakeMetadata(ABC):  # noqa: B024
+    """
+    Metadata used for out of band connector handshake between
+    P/D workers. This needs to serializeable.
+    """
+
+    pass
+
+
+class KVConnectorMetadata(ABC):  # noqa: B024
+    """
+    Abstract Metadata used to communicate between the
+    Scheduler KVConnector and Worker KVConnector.
+    """
+
+    pass
+
+
+class KVConnectorBase_V1(ABC):
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        logger.warning(
+            "Initializing KVConnectorBase_V1. This API is experimental and "
+            "subject to change in the future as we iterate the design."
+        )
+        self._connector_metadata: KVConnectorMetadata | None = None
+        self._vllm_config = vllm_config
+        if vllm_config.kv_transfer_config is not None:
+            self._kv_transfer_config = vllm_config.kv_transfer_config
+        else:
+            raise ValueError("kv_transfer_config must be set for KVConnectorBase_V1")
+        self._kv_cache_config = kv_cache_config
+        if self._kv_cache_config is None:
+            logger.warning(
+                "KVConnectorBase_V1 initialized without kv_cache_config. "
+                "This is deprecated - please update your connector to accept "
+                "kv_cache_config as the third constructor argument and pass it "
+                "to super().__init__()."
+            )
+        self._role = role
+
+    @property
+    def role(self) -> KVConnectorRole:
+        return self._role
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def bind_connector_metadata(self, connector_metadata: KVConnectorMetadata) -> None:
+        """Set the connector metadata from the scheduler.
+
+        This function should be called by the model runner every time
+        before the model execution. The metadata will be used for runtime
+        KV cache loading and saving.
+
+        Args:
+            connector_metadata (dict): the connector metadata.
+        """
+        self._connector_metadata = connector_metadata
+
+    def clear_connector_metadata(self) -> None:
+        """Clear the connector metadata.
+
+        This function should be called by the model runner every time
+        after the model execution.
+        """
+        self._connector_metadata = None
+
+    def _get_connector_metadata(self) -> KVConnectorMetadata:
+        """Get the connector metadata.
+
+        This function should only be called inside the connector.
+
+        Returns:
+            ConnectorMetadata: the connector metadata.
+        """
+        # Should only be called while set to valid metadata.
+        assert self._connector_metadata is not None
+        return self._connector_metadata
+
+    def has_connector_metadata(self) -> bool:
+        """Check whether the connector metadata is currently set.
+
+        Returns:
+            bool: True if connector metadata exists, False otherwise.
+        """
+        return self._connector_metadata is not None
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """
+        Initialize with the KV caches. Useful for pre-registering the
+        KV Caches in the KVConnector (e.g. for NIXL).
+
+        Args:
+            kv_caches: dictionary of layer names, kv cache
+        """
+        return
+
+    def set_host_xfer_buffer_ops(self, copy_operation: CopyBlocksOp):
+        """
+        Set the xPU-specific ops for copying KV between host and device.
+        Needed when host buffer is used for kv transfer (e.g., in NixlConnector)
+        """
+        return
+
+    @abstractmethod
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """
+        Start loading the KV cache from the connector to vLLM's paged
+        KV buffer. This is called from the forward context before the
+        forward pass to enable async loading during model execution.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+
+        """
+        pass
+
+    @abstractmethod
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """
+        Block until the KV for a specific layer is loaded into vLLM's
+        paged buffer. This is called from within attention layer to ensure
+        async copying from start_load_kv is complete.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        pass
+
+    @abstractmethod
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """
+        Start saving a layer of KV cache from vLLM's paged buffer
+        to the connector. This is called from within attention layer to
+        enable async copying during execution.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+        pass
+
+    @abstractmethod
+    def wait_for_save(self):
+        """
+        Block until all the save operations is done. This is called
+        as the forward context exits to ensure that the async saving
+        from save_kv_layer is complete before finishing the forward.
+
+        This prevents overwrites of paged KV buffer before saving done.
+        """
+        pass
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens on the worker.
+        The scheduler process (via the Executors) will use this output
+        to track which workers are done.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        return None, None
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Get the set of block IDs that failed to load.
+
+        Returns:
+            Set of block IDs that encountered load errors.
+            Empty set if no load errors occurred.
+
+        Notes:
+            - Applies to both sync- and async-loading requests.
+            - Async loading: failed blocks may be reported in any forward pass
+              up to and including the pass where the request ID is returned by
+              `get_finished()`. Even if failures occur, the request must still
+              be reported via `get_finished()`, and the failed block IDs must
+              appear here no later than that same pass.
+            - Sync loading: failed blocks should be reported in the forward
+              pass in which they are detected.
+        """
+        return set()
+
+    def shutdown(self):
+        """
+        Shutdown the connector. This is called when the worker process
+        is shutting down to ensure that all the async operations are
+        completed and the connector is cleaned up properly.
+        """
+        return None
+
+    def get_kv_connector_stats(self) -> Optional["KVConnectorStats"]:
+        """
+        Get the KV connector stats collected during the last interval.
+        """
+        return None
+
+    def get_handshake_metadata(self) -> KVConnectorHandshakeMetadata | None:
+        """
+        Get the KVConnector handshake metadata for this connector.
+        This metadata is used for out-of-band connector handshake
+        between P/D workers.
+
+        Returns:
+            KVConnectorHandshakeMetadata: the handshake metadata.
+            None if no handshake metadata is available.
+        """
+        return None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    @abstractmethod
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            A tuple with the following elements:
+                - An optional number of tokens that can be loaded from the
+                  external KV cache beyond what is already computed.
+                  If None, it means that the connector needs more time to
+                  determine the number of matched tokens, and the scheduler
+                  should query for this request again later.
+                - `True` if external KV cache tokens will be loaded
+                  asynchronously (between scheduler steps). Must be
+                  'False' if the first element is 0.
+
+        Notes:
+            The connector should only consider the largest prefix of prompt-
+            tokens for which KV cache is actually available at the time of the
+            call. If the cache cannot be loaded for some tokens (e.g., due to
+            connectivity issues or eviction), those tokens must not be taken
+            into account.
+        """
+        pass
+
+    @abstractmethod
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+
+        If get_num_new_matched_tokens previously returned True for a
+        request, this function may be called twice for that same request -
+        first when blocks are allocated for the connector tokens to be
+        asynchronously loaded into, and second when any additional blocks
+        are allocated, after the load/transfer is complete.
+
+        Args:
+            request (Request): the request object.
+            blocks (KVCacheBlocks): the blocks allocated for the request.
+            num_external_tokens (int): the number of tokens that will be
+                loaded from the external KV cache.
+        """
+        pass
+
+    @abstractmethod
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        pass
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        """
+        Update KVConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (KVConnectorOutput): the worker-side
+                connectors output.
+        """
+        return
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called exactly once when a request has finished, before its blocks are
+        freed.
+
+        The connector may assumes responsibility for freeing the blocks
+        asynchronously by returning True.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        return False, None
+
+    def take_events(self) -> Iterable["KVCacheEvent"]:
+        """
+        Take the KV cache events from the connector.
+
+        Yields:
+            New KV cache events since the last call.
+        """
+        return ()
+
+    @classmethod
+    def get_required_kvcache_layout(cls, vllm_config: "VllmConfig") -> str | None:
+        """
+        Get the required KV cache layout for this connector.
+        Args:
+            vllm_config (VllmConfig): the vllm config.
+
+        Returns:
+            str: the required KV cache layout. e.g. HND, or NHD.
+            None if the connector does not require a specific layout.
+        """
+
+        if cls is KVConnectorBase_V1:
+            raise TypeError(
+                "get_required_kvcache_layout should not be called "
+                "on the abstract base class"
+            )
+        return None
+
+    def get_finished_count(self) -> int | None:
+        """
+        Get the count of requests expected to complete send/receive operations
+        via this connector. This method is used to initialize the
+        KVOutputAggregator, overwriting the default world_size.
+
+        Returns:
+            int: expected sending or receiving completion count.
+        """
+
+        return None
+
+    @classmethod
+    def build_kv_connector_stats(
+        cls, data: dict[str, Any] | None = None
+    ) -> Optional["KVConnectorStats"]:
+        """
+        KVConnectorStats resolution method. This method allows dynamically
+        registered connectors to return their own KVConnectorStats object,
+        which can implement custom aggregation logic on the data dict.
+        """
+        return None
+
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (KVConnectorHandshakeMetadata): the handshake metadata to set.
+        """
+        return None
+
+    @classmethod
+    def build_prom_metrics(
+        cls,
+        vllm_config: "VllmConfig",
+        metric_types: dict[type["PromMetric"], type["PromMetricT"]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ) -> Optional["KVConnectorPromMetrics"]:
+        """
+        Create a KVConnectorPromMetrics subclass which should register
+        per-connector Prometheus metrics and implement observe() to
+        expose connector transfer stats via Prometheus.
+        """
+        return None
diff --git a/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py b/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
new file mode 100644
index 0000000..9cd7d93
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
@@ -0,0 +1,419 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+DecodeBenchConnector: A KV Connector for decode instance performance testing.
+
+This connector emulates a prefill-decode disaggregated setting by filling
+the KV cache with dummy values, allowing measurement of decoder performance
+under larger input sequence lengths (ISL) in resource-limited environments.
+
+Usage:
+    To use this connector for benchmarking, configure it in the kv_transfer_config:
+
+    Example:
+        vllm serve <model> --kv-transfer-config '{
+            "kv_connector": "DecodeBenchConnector",
+            "kv_role": "kv_both",
+            "kv_connector_extra_config": {
+                "fill_mean": 0.015,
+                "fill_std": 0.0
+            }
+        }'
+
+    Then run your benchmark with desired input/output lengths:
+        vllm bench serve --base-url http://127.0.0.1:8000 --model <model> \\
+            --dataset-name random --random-input-len 40000 \\
+            --random-output-len 100 --max-concurrency 10
+
+    Configuration options (via kv_connector_extra_config):
+        - fill_mean (float): Mean value for random normal fill (default: 0.015)
+        - fill_std (float): Standard deviation for random fill (default: 0.0)
+          Set to 0 for constant values, >0 for random sampling
+"""
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
+from vllm.logger import init_logger
+from vllm.utils.math_utils import cdiv
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.config import VllmConfig
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class DecodeBenchConnectorMetadata(KVConnectorMetadata):
+    """Metadata for DecodeBenchConnector.
+
+    Contains information about which requests need their KV cache filled
+    with dummy values for benchmarking purposes.
+    """
+
+    # request_id -> (block_ids_per_group, num_tokens_to_fill)
+    # block_ids_per_group is a tuple of lists, one per KV cache group
+    # For standard attention: single group, e.g., ([1, 2, 3],)
+    # For MLA: multiple groups, e.g., ([1, 2], [1, 2])
+    reqs_to_fill: dict[str, tuple[tuple[list[int], ...], int]]
+
+
+class DecodeBenchConnector(KVConnectorBase_V1):
+    """
+    A KV Connector for decode instance performance testing.
+
+    This connector fills the KV cache with dummy (non-zero) values to
+    emulate a prefill-decode disaggregated setting, enabling performance
+    testing of the decoder with larger input sequence lengths.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
+        self.connector_scheduler: DecodeBenchConnectorScheduler | None = None
+        self.connector_worker: DecodeBenchConnectorWorker | None = None
+
+        if role == KVConnectorRole.SCHEDULER:
+            self.connector_scheduler = DecodeBenchConnectorScheduler(vllm_config)
+        elif role == KVConnectorRole.WORKER:
+            self.connector_worker = DecodeBenchConnectorWorker(vllm_config)
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        assert self.connector_worker is not None
+        self.connector_worker.register_kv_caches(kv_caches)
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, DecodeBenchConnectorMetadata)
+        self.connector_worker.start_fill_kv(self._connector_metadata)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        # All operations are synchronous, so nothing to wait for
+        pass
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        # This connector doesn't save KV cache (benchmarking only)
+        pass
+
+    def wait_for_save(self):
+        # This connector doesn't save KV cache (benchmarking only)
+        pass
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.get_num_new_matched_tokens(
+            request, num_computed_tokens
+        )
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.update_state_after_alloc(
+            request, blocks, num_external_tokens
+        )
+
+    def build_connector_meta(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> KVConnectorMetadata:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.build_connector_meta(scheduler_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        assert self.connector_scheduler is not None
+        self.connector_scheduler.request_finished(request)
+        return False, None
+
+
+class DecodeBenchConnectorScheduler:
+    """Scheduler-side implementation for DecodeBenchConnector."""
+
+    def __init__(self, vllm_config: "VllmConfig"):
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+
+        # Track which requests have already been filled
+        self._filled_requests: set[str] = set()
+
+        # Track pending fills for the current scheduler step
+        # request_id -> (block_ids_per_group, num_tokens_to_fill)
+        # Note: _pending_fills doesn't need explicit cleanup - it's cleared
+        # after build_connector_meta() is called in the same scheduler step
+        self._pending_fills: dict[str, tuple[tuple[list[int], ...], int]] = {}
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int, bool]:
+        """
+        For new requests, return the number of tokens that should be filled
+        with dummy KV cache values.
+
+        Returns:
+            (num_tokens_to_fill, is_async)
+            - num_tokens_to_fill: number of uncomputed tokens minus 1
+                (we fill everything except the last token for decode)
+            - is_async: False (synchronous filling)
+        """
+        req_id = request.request_id
+
+        # Only fill once per request on first scheduling
+        if req_id in self._filled_requests:
+            return 0, False
+
+        # Calculate how many tokens we need to fill
+        # Fill all uncomputed tokens except the last one (which will be decoded)
+        # This simulates having processed a long prefill
+        num_uncomputed_tokens = request.num_tokens - num_computed_tokens
+        num_tokens_to_fill = max(0, num_uncomputed_tokens - 1)
+
+        if num_tokens_to_fill == 0:
+            return 0, False
+
+        # Return False for synchronous operation - the fill is fast enough
+        # that async overhead isn't worth it
+        return num_tokens_to_fill, False
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Called after blocks are allocated. Store the block IDs so we can
+        fill them with dummy values.
+
+        Supports both standard attention (single KV cache group) and MLA
+        (multiple KV cache groups).
+        """
+        req_id = request.request_id
+
+        if num_external_tokens == 0:
+            return
+
+        # Get the block IDs that were allocated
+        # block_groups is a tuple of lists, one per KV cache group
+        # For standard attention: 1 group
+        # For MLA: multiple groups (one per attention type)
+        block_groups = blocks.get_block_ids()
+
+        # Calculate how many blocks we need to fill
+        # num_external_tokens are the tokens we said we'd provide
+        num_blocks_to_fill = cdiv(num_external_tokens, self.block_size)
+
+        # Extract the first num_blocks_to_fill blocks from each group
+        # All groups should have the same block IDs for the same request
+        block_ids_per_group = tuple(
+            group_blocks[:num_blocks_to_fill] for group_blocks in block_groups
+        )
+
+        # Store the blocks to fill for all group. _pending_fills doesn't need cleanup
+        # as it's cleared after build_connector_meta
+        self._pending_fills[req_id] = (
+            block_ids_per_group,
+            num_external_tokens,
+        )
+        self._filled_requests.add(req_id)
+
+        logger.debug(
+            "DecodeBenchConnector: Allocated %d blocks across %d KV cache groups "
+            "for request %s",
+            num_blocks_to_fill,
+            len(block_groups),
+            req_id,
+        )
+
+    def build_connector_meta(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> KVConnectorMetadata:
+        """
+        Build metadata containing information about which blocks to fill
+        with dummy KV values.
+        """
+        meta = DecodeBenchConnectorMetadata(reqs_to_fill=self._pending_fills.copy())
+
+        # Clear pending fills after building metadata
+        self._pending_fills.clear()
+
+        return meta
+
+    def request_finished(self, request: "Request"):
+        """
+        Called when a request has finished. Clean up any state.
+        """
+        self._filled_requests.discard(request.request_id)
+
+
+class DecodeBenchConnectorWorker:
+    """Worker-side implementation for DecodeBenchConnector."""
+
+    def __init__(self, vllm_config: "VllmConfig"):
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+
+        # Get fill parameters from extra config
+        kv_transfer_config = vllm_config.kv_transfer_config
+        assert kv_transfer_config is not None
+        self.fill_mean = kv_transfer_config.get_from_extra_config("fill_mean", 0.015)
+        self.fill_std = kv_transfer_config.get_from_extra_config("fill_std", 0.0)
+
+        # Will be populated via register_kv_caches
+        self.kv_caches: dict[str, torch.Tensor] | None = None
+
+        # Mapping from KV cache group index to list of layer names in that group
+        self.group_to_layers: dict[int, list[str]] | None = None
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """Store references to the KV cache tensors and build group mapping."""
+        self.kv_caches = kv_caches
+
+        # For simplicity, assume all layers belong to group 0 (standard attention)
+        # For MLA models with multiple groups, the metadata will handle the mapping
+        # We just need to fill the blocks specified in the metadata
+        self.group_to_layers = {0: list(kv_caches.keys())}
+
+        logger.debug(
+            "DecodeBenchConnector: Registered %d KV cache layers",
+            len(kv_caches),
+        )
+
+    def start_fill_kv(self, metadata: DecodeBenchConnectorMetadata):
+        """
+        Fill the allocated KV cache blocks with dummy (non-zero) values.
+
+        This simulates having a populated KV cache from a prefill phase,
+        allowing decode performance testing with larger context sizes.
+
+        Supports both standard attention (single group) and MLA (multiple groups).
+        """
+        if not metadata.reqs_to_fill:
+            return
+
+        assert self.kv_caches is not None, "KV caches must be registered before filling"
+        assert self.group_to_layers is not None, "Group mapping must be initialized"
+
+        for req_id, (block_ids_per_group, num_tokens) in metadata.reqs_to_fill.items():
+            # Fill blocks for each KV cache group
+            for group_idx, block_ids in enumerate(block_ids_per_group):
+                self._fill_blocks(group_idx, block_ids, num_tokens)
+
+            logger.debug(
+                "DecodeBenchConnector: Filled %d blocks (%d tokens) across %d groups "
+                "for request %s",
+                len(block_ids_per_group[0]) if block_ids_per_group else 0,
+                num_tokens,
+                len(block_ids_per_group),
+                req_id,
+            )
+
+    def _fill_blocks(self, group_idx: int, block_ids: list[int], num_tokens: int):
+        """
+        Fill specified blocks with dummy non-zero values for a specific KV cache group.
+
+        Args:
+            group_idx: The KV cache group index to fill
+            block_ids: List of block IDs to fill in this group
+            num_tokens: Total number of tokens to fill across these blocks
+        """
+        if not block_ids:
+            return
+
+        assert self.kv_caches is not None
+        assert self.group_to_layers is not None
+
+        # Get the layers that belong to this group
+        layer_names = self.group_to_layers.get(group_idx, [])
+
+        # Fill only the layers in this group
+        for layer_name in layer_names:
+            if layer_name not in self.kv_caches:
+                logger.warning(
+                    "DecodeBenchConnector: Layer %s not found in KV caches", layer_name
+                )
+                continue
+
+            kv_cache = self.kv_caches[layer_name]
+
+            # Convert block_ids to tensor on device
+            block_ids_tensor = torch.tensor(
+                block_ids, dtype=torch.long, device=kv_cache.device
+            )
+
+            # Filter invalid block IDs
+            valid_mask = block_ids_tensor < kv_cache.shape[0]
+            valid_block_ids = block_ids_tensor[valid_mask]
+
+            if len(valid_block_ids) == 0:
+                continue
+
+            # Create fill values - either constant or random
+            block_shape = kv_cache.shape[1:]
+            if self.fill_std > 0:
+                # Random normal sampling
+                fill_values = torch.normal(
+                    mean=self.fill_mean,
+                    std=self.fill_std,
+                    size=(len(valid_block_ids),) + block_shape,
+                    dtype=kv_cache.dtype,
+                    device=kv_cache.device,
+                )
+            else:
+                # Constant fill value
+                fill_values = torch.full(
+                    (len(valid_block_ids),) + block_shape,
+                    self.fill_mean,
+                    dtype=kv_cache.dtype,
+                    device=kv_cache.device,
+                )
+
+            # Batch fill operation
+            kv_cache[valid_block_ids] = fill_values
+
+        logger.debug(
+            "DecodeBenchConnector: Filled %d blocks in group %d with %s values "
+            "(mean=%.3f, std=%.3f)",
+            len(block_ids),
+            group_idx,
+            "random" if self.fill_std > 0 else "constant",
+            self.fill_mean,
+            self.fill_std,
+        )
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py b/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
new file mode 100644
index 0000000..0c24a53
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
@@ -0,0 +1,216 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import TYPE_CHECKING, Any
+
+import torch
+from lmcache.integration.vllm.vllm_v1_adapter import (
+    LMCacheConnectorV1Impl as LMCacheConnectorLatestImpl,
+)
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+class LMCacheConnectorV1(KVConnectorBase_V1):
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: "KVCacheConfig",
+    ):
+        super().__init__(
+            vllm_config=vllm_config, role=role, kv_cache_config=kv_cache_config
+        )
+        assert vllm_config.kv_transfer_config is not None
+        use_native = vllm_config.kv_transfer_config.get_from_extra_config(
+            "use_native", False
+        )
+        if use_native:
+            logger.info("Initializing native LMCache connector")
+            # lazy import
+            from vllm.distributed.kv_transfer.kv_connector.v1 import lmcache_integration
+
+            _adapter = lmcache_integration.vllm_v1_adapter
+
+            cls = _adapter.LMCacheConnectorV1Impl
+        else:
+            logger.info("Initializing latest dev LMCache connector")
+            cls = LMCacheConnectorLatestImpl
+
+        self._lmcache_engine = cls(vllm_config, role, self)
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """
+        Start loading the KV cache from the connector to vLLM's paged
+        KV buffer. This is called from the forward context before the
+        forward pass to enable async loading during model execution.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+
+        """
+        self._lmcache_engine.start_load_kv(forward_context, **kwargs)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """
+        Block until the KV for a specific layer is loaded into vLLM's
+        paged buffer. This is called from within attention layer to ensure
+        async copying from start_load_kv is complete.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        self._lmcache_engine.wait_for_layer_load(layer_name)
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """
+        Start saving the a layer of KV cache from vLLM's paged buffer
+        to the connector. This is called from within attention layer to
+        enable async copying during execution.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+        self._lmcache_engine.save_kv_layer(
+            layer_name, kv_layer, attn_metadata, **kwargs
+        )
+
+    def wait_for_save(self):
+        """
+        Block until all the save operations is done. This is called
+        as the forward context exits to ensure that the async saving
+        from save_kv_layer is complete before finishing the forward.
+
+        This prevents overwrites of paged KV buffer before saving done.
+        """
+        self._lmcache_engine.wait_for_save()
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        return self._lmcache_engine.get_finished(finished_req_ids)
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Get the set of block IDs that failed to load.
+
+        Returns:
+            Set of block IDs that encountered load errors.
+            Empty set if no load errors occurred.
+        """
+        method = getattr(self._lmcache_engine, "get_block_ids_with_load_errors", None)
+        if callable(method):
+            return method()
+
+        # Fallback for older versions that don't support this method
+        return set()
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            the number of tokens that can be loaded from the
+            external KV cache beyond what is already computed.
+        """
+        return self._lmcache_engine.get_num_new_matched_tokens(
+            request, num_computed_tokens
+        ), False
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+        """
+        self._lmcache_engine.update_state_after_alloc(request, num_external_tokens)
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        return self._lmcache_engine.build_connector_meta(scheduler_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called when a request has finished, before its blocks are freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        return self._lmcache_engine.request_finished(request, block_ids)
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
new file mode 100644
index 0000000..07e05cc
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
@@ -0,0 +1,18 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from . import multi_process_adapter, vllm_v1_adapter
+from .multi_process_adapter import (
+    LMCacheMPSchedulerAdapter,
+    LMCacheMPWorkerAdapter,
+    LoadStoreOp,
+)
+
+__all__ = [
+    "vllm_v1_adapter",
+    "multi_process_adapter",
+    "LMCacheMPSchedulerAdapter",
+    "LMCacheMPWorkerAdapter",
+    "LoadStoreOp",
+]
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc78414153f58bcfaa8e348a2ed3412fb6d89ee9
GIT binary patch
literal 448
zcmY+Au};G<5Qc3hX;4eW1QOy2G8EGR6(od&SX)5qfRx2@W7Ar-6U%WUIx_PB>}>EV
zyg^nbHlRZ#CT!G#xZ%_N_n*#perdOxz=aI&#WMup)r)nYRkAp6$pc`3K?xL0p+YHw
zULy%rkOnGDLlvbF1Y^L0N0>I|VG_N$c_2acwwg&Rh&DyW%aTw=wdJPXs-#q;>aGh(
zQ1A8!=QNw}!PU@_%_KKxtL~j&>$))0zj~`*P&TxM;g>pzOz568fk))g@Q58QlDJ+O
zKP~^=IwpilNyrmexMuLBu~iytp*xnEF}I!DS?~C0+T&P?5!Q1%DRS)h$4r#gh|$b)
zhNl&=hUVoBH$KmbJm;BP4Od+(Rpu`vBDZ{Os1<GiaY|T1_Vv8pI8lW^_|&xB0{-X9
dJ%{%ILbz-Kc(_C%L?6K6bF<Mxcd=<X{~K2Md*c8A

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/multi_process_adapter.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/multi_process_adapter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc6be81d78dbdc977ad03fc29121b507cbf5ad5c
GIT binary patch
literal 16467
zcmeG@TW}lKb-Ta<TmXv)-z4~2Nt9$*eClCa4@;s*>P3mNDalR{IT#4Lq(I?8?Shnv
zg0-AF4cV$Asm_e(u`{OI&XkHhV|petQ9e3#|J?S6D@p;oQ5vT4OeZt#6cOF=Bwsz}
z?gI~jvXV4^xkKK)uXA?qz2}^J&bbHw>UKLRNHOLwqyN)GQNO^7ksNwq{Sr-4w<&=V
z=ol5mrzJ+mEkO&7WoyhDXMzkVGcjA-9<-CPEmjd{gDff2F-Oor;GIDyJnb=8oC|Vs
zchF7xD`K9wH|UM~g1&fVu#&W~v8s4=usU87tRZzrtTtX3tc%wN>uJhDiEgpsL-;OC
z!A8L;`o$)(a@5iYb-@KCM&RCJg3W?ktQI_Co!}K)L{{&u(MqGN;Da%(WQ<E}1DHyv
z^FkGj-K3ATXeH>YhQ7@rW1)^wLd{#0Q2U{Uyq@|{dr-kGVta5az_uf7aGP1$PGIT)
zrrv-FK113Xpsmqt3ry1i|1S~SaDZ0X6Dd&&UyO-Rb_n5AI1&rX@*P^WN99;Fg3Z>x
z#B{)-)`ep6NH}sy3?-&guZO~kL^2gliK;7_h^9iZ<k*-f1+1#4e^Lmac&YzYDLgSD
zN@^vP`w?s~F&0gTL*lerG4u*)0i;!@MOhAyi7!uzlVX1?Dkf5@S8IzV#*R*=CM6Mu
zxkkh*lcJnDH$5S$Rbyf*B#H7wG9im0^1Z6#@>Ga?oUGa<5ug$gec#BkRX}cq|Mee0
zcAH9(M$E>swIm62%4RfWsBwfXNyc6nv|+3*O~H7Bq6=V*@dMNiI${~4B9_<O6g5Mq
zT*jabZQ#0Px$b3P#0-5Fa+;K`QUS|wx_0OlUYjF-S)7*nuq5(Z<$ztaYm2Wk(Zpy{
zWnxh|r7}1~wNHg(ux=9aU%(<&!b7#E#DtubWTY#e|IJKyDn8LY5uNBvg(X<o&etcO
z-}}Pl=f&<=^kVnKbm~$v(LEK5#k&Q-D@89(rbM9|mOCYd6Y{7iVL6gaB*aK6DRocv
zb{k|8O{ByzDV&M|g7{=C6%9>D$q4LsC@h30fb6;^rd7{Xpp%ffdr}j8RXzO6gOFXL
z9x~4F481wD?A!iP&0_T9#GS-S*TI#*q5I6?)!u#C-ae(b?|yIpifcgW?O&L>K0N>2
z18(zjZ@=OiSY`%(ea|%@+X2%*QB{4ljOvJA0fHe^#z`7Ug;GdU>_m7vmJADWq>vy?
zvN;GSZsX<_5*4&z%Fr20%7n^q<cE6Oj5T9DOWmP|fsQ@$<i$8}i~erO2k-$#YKDi@
zf>|qMs(qBuz05#`ha~y2wMG^bg2{shhAq&A;PNw&U88bN%2S_pZ&ln|SJ|4Im+tdB
zmkzA(hu5tZkNw)woSovTuAN?ou~ZR*Ai?AJu3vx*7{r`shDzxI2$%&ws3eV1<~->P
z{Um0Yv1BY~DTxOJFlGF1$qSk4IW~AM)PMZ^@KEUNiQpjeuME@@uxiV)8OJyymnIXJ
zLvl1N%J`Y)qST=*FbFO`ND9E9?eH&S;TrXYo$_p62z>O7Z09kh^VnxqEACU*j;>bL
z-)_0p@^;&`ldG=UWu{hYhtVo`F_w&64qXb%mqa;Y&K|mulE^CIxZ+jH&;p$XHWMsB
z0s1<fr2^LUKb!@o5kQ#nsY@bHQ1cpUK9%I*^B->?O-j57B9kW*>T)6t9L2WR!|{oj
z*uh6fHAHeKnh23Wd{pLppX)$e3I3|cUya6MWswtP_yYWz-se)6I`~~X6G8{S`voj_
zb#>{ewb%X<31L`5@&NhqEId>%nM3~7x**Yrv=&7K&NfuIh*B2-cEi7nlnmS912VkX
zvEW_Wr0~0z&fPt<;u>0JhRFIyV2GJ;wK1(9hU_*aQbAgvf|m1?XcZYe07aWXAHb(o
zwCi;X)&;1KS_B4;(+a`%78PWt?STr_bqbjLEC?#`%!D=_hxVaSL6)iju81q}?PR|@
zpisQu<Arnqy_gIUZcw>JwZ_B*c?}$>j4Z}RWn534p({cm=njR_)de5br8gdeadI_e
zAOpQsH+N^N+m-6}74Oz%cB{5bCX2!#Q&4>hm8bvELN+hQ+{T11gK&{|odn&i2;vD#
z@GdYy(O8`&;PcF6V1JkT9%G!4-=e31X@=9o=YTvDlktn9#3yxXH`qqLl$?wS{6&!m
z2_B9i8zC{5j)ooOk4&ccv1E!*+xT!o;6bMBg4dHBk$SPT8?wSZafd<^NjU|41yVYc
zZY<uJg03S7_$p+j`}0xt;<=B%dFPuefdluv2Xd6v;mlcRcm2b9|NQQ3Q-{*ju~Of;
zT-UWI{-FOZ^N*e%c~*8GTi$g%XQkaI>2)grDBc5PkB0*el?{aw;kXzIsm@R+o)jiy
zSmr_@oV(T|)xmeDwu{p#QC7VnLp6hQSB9ZhIESU@V1)DnWOpcnnQ*HF$~Z-`eNd25
zUVfWetE#&>d27cC)3WNVzS%!Fy}~r)7}~aNzIvU4$GV-dIW-&zUc{{&G+<hP53)SB
z3bbeyEFv>b%m6aN%z#g=0wdZ58~odWXE~t)c~)cv7J3|_Lv$ivgKF%2%OsPaOYe69
z6qg3_hkkcKKL_eL^1lagxj`*=Lfr#nP!;!1bAd{=@ziOegr0usEGVbAtWuw*mZ(ly
zl%_-}G%3Z@3Q%oQ;_E5Z32QIL$X=+<t4S#)kmE?L0Nn*Nq06cll_Xv4;XxHarZf_g
zKanK=1%)C81?|C5A2U?QWa=nr8zGayGFGS|JV_Y_Y9>QvY)~^5))Xj~`Y7s2G74bK
z?*qNYV?gDf8G9PeJAo$5UjfW-$usGO5b(u-nKiIXTLVlu29qMk4xVFu(wMx@tYJ%j
zvG?)F^;(@jKXQsU&MAGX__$^)@L&r}ibY8DUD7ZFPruCT4bGxb`7P82k~)t}#81ki
zK;CD(3-#wB;QXFzz@*OOPCo^(P9z%S<tZL1<|)8RNJ<0Obcp<mqX~ZM)Tz_v$4W>x
zzu9L@MAHw*@Vw*<^F$*DZ34wBg6paYjsvkHAsG<`O!dT)$;*=yAzdkz2CxUUbJYP$
za2fa{DiD23LKRf%ge*`Y?ZGk%NvR(*6G%FW)nky!NPkEGkTm51M4c{oH*d(Ca6W2d
z&LE0u$UvRgM)^AyPu{IqX*@j3T=#&Mdx9RKXPNtK)0)2>n!Ky}qmjn}pbj?mF4g?7
z^^?{WKZ1Bc*4=nx?u~^u#oM#gch9>gM_C-sRqi+_&JO1?)a?}C{{9>9ys^}+wDrw0
z57=fR1XZVDN5CqeepF;Ym<l5WJOBm+4U7Y0O4Af2!MRspL|9;)$>90XhM+)`0&Gb}
zw<SSMm;sScPWjF-AL=3n?8;h(nz79=Dbqp)m@*<cWr*?eVgVGcF^j46+cWm^bIK64
zY}&A48Dhhp3$W5jm=94138|>AP(%{Jj}QWe)2xDK96(G1`>8W$hR(lakke`Gz%^EB
zS#{<WObHD}X)|Px(^OMDJbh6N>2{Y+%KDb2_iRjNPXLqfMKh3Hqt;xt^EKJV4h8;P
z9cx_G=iH`+jwL4BGobVgtZ;*~^uHZCyyETq(Um3tO(yH(6(7Igf8gu5du5hc_Vzuj
z+`7v7ZVb;2KjiAOT&u#huDUC4?w&ohUcpp3XYF9n?dY9lvTT#WHqD>B$8P`iBRAzc
zLdz)fzu(ZepCNkdaFL;cv_p=Y&!F%mx|3a~)n#bZ*S=>h67T?7nldyV#c0Tt^P3pZ
zGSD)NFps1>7GuPWHI+YntOkVw4I>qshesYR4Y<&l8cw&KBEpE*caTWzJOjR%u16)2
z2hS9!hhPb5+YSzkfQ`_dYJ;OgnwGW$Zq+JJ#)-^=P9m-deIXfX{Z7y*HS0<yi(Me8
zszGG{6VW6mG+5J}8&gx6;cvow<jar&6?q%y&t+SB6!`P@Xp+a%u^3!Dwfw@FW$q<i
z2KD4vs;Vwq*{)Q!F9em!o>}{<xAsP6E_3})SF7vS3~P4Q{;;-TzV7XB%sN*A^T7LO
z-Z`UqcPz6zh{P(ga8Ni9LP5ifcsSr$n$UZZ{+fBdj1d1?$thl}uj9F;+mSpRPhs9T
zjL^fVnYAXmJ2VjlkE!A{xcr34<q$X$wVg<JZM?|k#@~RstfQBOxJG<6S??CbyJeZ(
zqG_-r&{M=Xrog@cJw<w2S#1i)6<Mt$K`Y`ZNg4X10?)u5OS-#1nE*921<Ruy>F5?f
zYbKoF!D*`b`goDJP0`~AUXua9NzPtr2ug-q1mW&5k_$VFN8GV!l#TN&w9_R#J=0q^
zUdsZZd>e+YBg0&yKKJsg^-Z_mxb=qdsPo@W+)Aw0Z~DSv^Eq>r&7s)_0iU!NKqNFQ
zr2UWqx1}W2nvP#lD`4KJQcLJnlTKlVJWs3`32k@jEM{NB47Wj>7=E#YR<X8oNUu_#
zkqtvZ{t;wvQ8~*d+Yx%LraouG0-W1bwYQsYHRUQum8EJMat=~-V$ns491P02Nzp_3
zTh_g#c$B8>%{dEa>s^ZED0qBU^O^Y1O^>j+ZZ-OH&7|bAbu7Xtcq~Qk4tz5H2#fkC
zDCPV%Tl+#}oq|WsS7CE5h&c)#%RPNx;8U9wPACHZW-^ZA^#)Mtem{!}>?yFQM2B{L
z0k)9?Y$2!Uf@=*cSVx?|iSBVcdrQ(d`Xo!zsJ+PA^8L<Oz&<k$g<vIM@rqTV6%QG~
z2PKY_e!K62%M}x2_5TaTssfBPfU#Pv)xWVutTW5CXoVKn^p$3Wx&jRKLJhG@>tXd9
z1h|@ki=`R^4tAvx+Wi7tG(l@KSgcJ@ZxNbdHJZq3)Ig~jOVHN>eXY~AfmXH7WaU?h
zPOh7>Pu9T8Tc`tYCKO4&4J_3BB}qAHXY4_trAlmCQ!OAhQ%;hasT8E}rh=pbJf_-O
zw%1f-iLLB1;EAnla1ljpWi)L_N}<c0B#_v^U!}=ZOe!)JPqc=y7vN#8sJ4<s+*rgC
zlTJVb$U}UsW>Hy^a5Dp*--)Pzw`X!HoQQ~MMUnd%w~X#d!`xDRaGfPZ#i@LYRTklr
zY!u8Oa8QF60*A|L^@Jo&MU#_qY&vB0m7E5emDY)$!#;(9Msy<?MKjTS3^R>L>~vds
zf-}vtzX34$Bgnu!t133n!1`)#eShyed*9uUCRziC=v{k=-NsRFZ_Y+J-1k{OD86Q;
z<qMX2w)4YU9Nzq}v**L}SmHOb?dm!f2R<IYGrUr}UsHil{aL(n&(N(*tF8yFx@Q+d
zO51_FMMrj_NGZT2AWG6Q6f|u*1SKsMT#uNfZS<l0#2_M?D$se$YPl(sgvU*S&0_)*
zE#sugvqJvjslYlzO&y)cCCOkangTM#o5c}v3@-OX39l)@JE7e&2ApImq#A&hYBAe_
z86FXuc~&_xc<jX4bAuzHp;tovef`G=r5JYN9Uf7k!QV<0You$<KEq`+2uZDy^w;L^
z|I&dC=<4yI{{pCFJorI@ZrqIY^N{u2aLu`vYj)gcJ4!68fWig9vdX$!6nD#ef4Uf5
zX?tOr+ncwt9Nru5Irm?AwSyQ<0o9V6P;J0@iByDvx{**05pwVlNeLSR&(Z`7|0IdR
z<fUhMZ82q<LFG(zVkng(5=%KE$ymotd7A%Dg9yeL!<c^(sm$0iwlQiH9TP|oCCM=M
zB_28gF15Dk`X`i1qIEB8e)ke0vYkD5W<)2PUVv7e(TNCLz9od1sCoc00`Ua8G?d~n
z;Euh(TAPFhX$rHv4*<^;pfO0s#i@4bs>xNu_TRAqq3NE2qQMUUql`fVU`4PLS`h)o
z8(7@@ard3>74N=Tri9p96t0Ds@!9GvO7)h7k-xw2!G)zg*<Jn0uKtx>gUj4eLU>=Y
zl&f*BYsKl$IVgvh*!oMG7n{-E_baS_e&0QI8zIO)65ww|fYR$o66h)_m09e_;JJ|#
zgRc}&oRr3Ke}Y*8vkYV;XrPdY>dl*b{WLb{C~uG!X<l6$jQ=?z|1C&~S2+H6Bc-n0
zOCyV?kd#^!wq<_&9vdK}q`LAB6Irz;C*<<PH9@4?7`PVU-<GiqP_G>W=Z`(Zl$Cd7
zLuoSha`v%tBpOc$o3WL}X)mi;>e7~`uAgA2-_x0i4kvUElqAp-txuAM1u_#4#*$=6
z))~|rAud3m{F>y%d%BVY{Un_10JKk2cdWxw2b7577~oVpn8^_JQ9#ZpB1>pmn#MMA
z^5!X-NJ?GHdlUP=g;`!w5<EnDZibG>wLG=uVmJkEE6^{?NKZMvdjs+LM5zD9SA8Ec
zkfR>TS2fG5*3`{9eo|FCdj#E}Lvus(OtxXC(y()B=MN8ka%iQY|2{Xc%GGAMW`%2>
zA9?@6I~N{s&w`RzT?cw()wV+KX{p%#`jRc%b6Dv)ywY=Ind{#`<aX~_y8P*;Pd6_m
zmphM|l6U{Ym3I!_W1oG3^!+1)z)qGVgY^GU3?jV+FAQ+fx8d;>T=51DDd7qt-~Svs
z$`CwXLb|5irHe~B{ruC>{9}N4`SS-P`_d!g>BxTP3wN77efiUoyKT!oC(Kjg^5Uj<
z68G3n?WFJ-h9m~8fq|-p$P`~SpteP{;b%ZcF7z81q%czu2x7LueReth_(_)raQ+As
zbpf>M8HVIGIE!rMF1?Jm$n<qTj4=HM@TGb(Mu3F2jJu51{4;-T24|CH+@0?+N*Q~>
z=~W@o*UzL(^Q@e<4VNs8aeW6T*C+$tf^iHuDoJ0l0)O@gSOM!-u7LHcRv=}bf|&|q
zUF7<&SP=_YF%^dG0p@Xj{ZN-LNrJU#{k{$BhZ+g^Cdt)j8Cz={on$2`!w6KtF7SW_
zE>cY_<@V$0uu$XZkS<AOSIuIq56oECWFT@(hn!(EG<?qx%*v5*0ELvnIz`DI(pP5A
zaFN^$Q02V1<*3|||Ca0fGi+HpC>(Pd){8AWD{8#0Wb#loW|e<ShRs+<Aqq6W45yEu
zO~%F4C3HDl1rwXUDkZUq0gQT_un{y#Y_W~5{I<&JSDqS^A(}Tv)&X63oA)B%-7%uO
z-Zmc28xj&6d`Xxxu~1c8G$qDm={z>z&53Fa3xaB&oPg^uk@!=<uOLZDi5MKv8;cPK
zi)x)nPDm37b_Ky&LmCJ~bO|AhbT!_lIsL#vvj@li1!f4PR+$5gnaa{>>_sI{btWNB
zPC{8O>o=S*%J3iBbrJ7`k(%Lyxn@Cgh3`&p+29x~98`@*-U?*k{$r`8)_1qgdLOp%
z@19>~{i{8@vpq+Yo+H_w<4Vu*ANQP8xQ^MAN<+td-GYC$y7BgbTL->-aMjnaR@-#@
zwOg;f9hyD5$~9%VHic_jaNg&3klJR2+q|&vKG*dh)s3I~>TYwlIEb{XeQvF$^?xgv
z%Box~)jLGzc&c|#wr5c38O-(!DLq3!?m7Kb?`zF+<{MTysBKlatqbG#x!%vK>uyec
zcYnb<2jIe~b+yJ1w_uf3Uw|948g<#_hQUwM54e%sCaQOsUf)JFJv)066jtq?-$1{Z
zdcf_@S)ub6epm+5ze(XX882LFf51JD{hi=@aJaK<v%)rK*)0mYW#P<ycK7GC4R4>H
zb^fGo8?2I-#3OVnjh%|ObE)p`?(F{43jFn+UIn*>?-|ASOxD+-_&OF}dEnc<=JVh7
z-15v%J@9P<4@CWT(8?XvS+-GO8|T}z{udShi!1&^_u0d6MZMhAx$Ny+)^&s5<rY~A
zA}M|Yv)zyt#9fkmzVt>enQ|AqF9B^yuOX^-$cnxO-LOO>`FALQMgqB($^|VHIcQA>
zF33>xX2O7`sITzJQRUpWW3+L?jhlA^d5ngHBtIM}^Tu+TL>@+S-qxQ_7|zjR_pM`N
z&u#Vj;SGGZL|oY-u_T1ym28sA%9kcnLh@>2L+`&a;8kS*<1kOSGd7&Eo%h+UhitQM
zu)Q~wZQidm@4qW#4-P8_hnHVGL&6;X)9IVrcKw+(mb>AZ^Jv8WfNgzzmvM*5F6&PD
zvVm3Qb{zJW$?t$sGR~-(4MMca>6uT)ME11Io62G;xF*QJ4}Su5I;}+qjEN+;8GlP7
zB_P-tE{h<_mk(b|LTIxg?V%O#fSiWh##m<%?eHronLuxs!=qx!X!A@1wSGI;K9S2N
zI0PDy(}W{$mEngy5K63_NR>i#6n^s~;)RuVHo?yV@DNhH_>O`DswmvxuVF+%v{kXE
z?8%2*7)j|Iz=O|#qng^X{w~GemG$pe{QK_?WDlHE4xC%@pP%)vvYa6syA-x-F_rB;
zrgR^>&mJc|yu$KXcBjJbTmpgCzvgXS*2zl3=!l{VAJe9}06m2^4eWRst*bm8Kx-L}
zE{+0`@E%DDV|Ed;qBX;Shjcy=vSiKjL344Ggb_s1ju|>V%TETKKSh&4QZF+dLqWzk
zFNiX<7DO4M*=7n!K&PjS8N;PT8N#pE;3rS|uh*;)`A4TajbN92s0)xW1iO@rbdllW
zs0(mwfkC(sK$1k&!P!YKV}_e1BYPpyYvJtZ^i6kcpq-Sxk(ff_+6!PrO>u92+SonC
z+qca2{raA_k9@+r4bL%wwvvb!NdUZ(h}kG+X0(gS2+>GN!s{Ce4<{}9r3Xr?4fr^6
zNoDZPL$wX!)suvghSD|6(0wR<2eUcMP~QZINeJSVFi1xWmU$0L$ZuLG4XXVl+DG%2
z9KtH06SOR(OGfqq6y!&+8W=#c&GsURpMhsV_zc#x=ou_&!82IWVrQ_Vh0b8<CE8(Y
zSR7cYUK(3!Ryq!@Q&7*<kw6)T?YUKdOU{bVEnV94`2#;pf0E8Ve@uD)*dy%G181OQ
zLhaR|_Ucf3S4*MxnoxUnD4*>Zy;j>ezvb4~b2hBNd^}Y*cPQ@GTm`Aabx!S#^jtdY
zh0x!&M-FV%(UAUj^36Wm$wE9QOYlJbaXk224ih-1;n`>FTIIJa^nbwStWaKacxL6B
zyXIb>Z->}pE4DB0{=mEJ?N%H;k8ChPM**eW>vTSX=#i(w)|RVr+S=9}-0a!8hIJd1
za}7mtMe7(>l&i8q6x3=nzfk+mP|k{#HHUlI)22B1FKk%V$N?!K@T@cr57iq<#$uY(
zm%G9jBNCpos>}R!F#Mnt8BcY9nIol=$(Ssmq=R3UPEUXeB2_>|`a8^!`c=37`@F8n
zR1}8d#ioQl8MWQ$nCk7)!qK(ghjv9K;XsR%UuJ5*UDZOskYiN;MnLf^T8IU@5mbJo
zQD9o8k}yAVgH3*asj+Phe%0S%M%b2IVH1Aaf^CF%16V>oy(XIo!!j3P`l{<Jp1&i+
za8x~p)u`7wEo4=zX(4Nb?TT4ZWe;dS?l~y^0A2x{NXhUUbqanJMAPebigx~#YX2#<
z>8DilPpP_JP~1-_=g+7YzqBy4<yRDBUpgs>dH)%8>gSG{n_pXTv|h94>=t^Eo);E&
zEmkZXP+Bpx6dIOZT_?|+lclRxy_<4Yc&=5o<ZSQ+27#ab?3#<_DzL^<_S&0g6<g!F
z1FLm5x{g4=bIr!C+u)h=vGgf=Rr}cx;yQ)gVfW06Z-&+Z2~_JSi|b2^i-rI}$bhCT
zt{ka0!^^I@Rx4|73b*{%Jot;Ffw}ZG?o0biH0}Hqh547GmY|hBLO-I&gOKb00eAGN
A{r~^~

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/utils.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0d16ec5c8f599983c77dacef97c192bf02a70a22
GIT binary patch
literal 8840
zcmb_hYit}xa_-spi`*r-5=n^?M=z2qkxNr2+cNdAC5p0WNwh7=jzwEoj&^#<p=M{+
zJ+q`pEbr)xfl#p%(+CjBK!B4E0ph?3pdbO_{EB}BL4f?(4TX?5krExw2gE>r?41-`
za(^yWJu|yYigFMjBXOp?`c+-kUG-J%KQ=W*2t2CqBc)j+<Y!oMAKn6$$3GSbxlP_8
zGLZ$9OxRyxLV&tQ_2j)1-n?(ZC)jlVgdgZ$HINTZggDKohVzk$2rqlpD9~d9p<dPj
z{rqZEzImdVw*}OAJ~5Ht<)GS<Z=Go6<&fHzPfjES;vqCbw|xoR;4`sZ4o|epg497n
zG`0{Vz#YD6ryMyB?a*78Il{Ycczx;ACU(kE+9k*6uAEP9`p`GA8_Ld1Igi{7lx{iB
zdx+2@0rfp{3-!;O*)Sci$gOlA?dpWG+(!4wNnVO=-8UDKx4~Td<?V92vw8>A4}^)l
zTkiZ&nCO90x4eV;<ehw;F1ic)^|~v#^XEL+nhVIgKJ-uY%?l~<TjXUt<*}NsTzz9S
zGjeWp<oww9tCs&QP0_WKV6|PiI3i`I>8LiPXmmu^a>^8tql%`O8C9Q}q717Sb(yNQ
z*2EjCl%><UDpPhz(xxbMX&$F@m+1RNYM5svQvyoRsV+3ls%m~f(F{}4veZgsvV56L
zjpCn`)FQP4jG9HJWgTrI>!311yzuw92VS>HiOe*%0u3Kmf3h%3E|ZjJ;iZvjn!O<^
zInkV^;*>H=HPJAcqD_f>DN!**;8lSN)lAXU#onBx8nic^@>_mhw1np@kEUCKW_k5o
z4))_$^*NLVi@}lxvLXIDKWOF)g9W89U`lL?ngchBFTQm2#*1`NRjv;f=FMqc8^rAo
z$_g@Yy=YQ-@WyP$WRhm&D8n*{L!((!XM?jtgK9pD`T*gWbc#tPsA;fhDyoq#%v&MF
z$Z+o1c36HV@{xqs5_uF&d~)p8v5!uayN;Km$IHIskAY6I_;Me(2(~B>f>3W0)1{N8
zUzsRo{ya~F#+C=B-)%8*Jbz|FZmIs2J+k*pXBPK5vM$p#7-XiY-q$V3KDQ^V+3Zpm
zi54&u^_uKA18!}m)h*S(vjRKzzpN8zSm(Pr3f6nVQQKBu#Vxr<O(NR(ck?Ct@iHz7
z4ZO9xv(&$Gs3f>@6YzNBpiK|-a1OoHpqm*~|E9;~4veIL|LQZ>wSBo^j>}{p8G^Gs
z=Ml(N(0rrrFO!?zt7J|{g{32~{Hql130x+}UWoP`F4`wl%rQOBo2fRdFkQ>zwVIWf
zB3)N$M1*G&2A%@@lNot^{Os7PnX_XTMkmwan0-aJ8itot(@oK!W<SiW7<`^wQOn|`
z5a$$C6>W>bSC(l`Dyrs2#?lc!=n9M$Ya^j-PBSXW1BR5NqNK^9k}s$fnKncNtb|HU
zSfL=9CS_VbpMq*eksA;c!p6<Re5x+VR2FqjorhPJrumq0tHa&(TbD;Oqwl;idTH$9
z==haW7cAcuR-_A`pP?pPeHi+zjwl6?0NSXtXrj{MTgaiP(kUrB|1>8uEijsua7x@5
zm(q0#g39Z&R5Wy5+atcAQptb{O#94bVLjw9%{|0s#VusV^=F*~MWqhUX_#Rid4;)9
z+#8t%g?!hcG13d~T-A$WRsz%QoV|@=&*4g-NWC~U%}>BqhiJIA!-jLWu=@h&3ps=B
zqqTK76Zw<}j8rp=!p*W`uBTG<><w;mEst(k0WkEimKCu5qZOQ!m<F?1ff4T5tkBy-
zPATZ{WQB0E864$Pw482*c^%iYwigRB=*wNp?U?c~w7pi;-gO518falfk)dI-x?EQQ
z>|}J7$%2e))36lwgg@iw@LD2Iwv$jtIoSQLO`Q+o-Q{@igSMT2boxhQpN*A!UirFb
zwQKBt+iMS!J8qAEI$rg7JNG^D`nPR=5+jF(D#_k&4jwKidmpv+{gvmhBYzR8v<=s~
z3Z1VBPrP2}8zS3w+QWs;b2hCSB7Mi!dPgd~BdfimmE`_!_U`|agP$KP51g*-9a%Y#
zvz-6*d|7<u>qGaG<LkY{YrSVGy=T6DceVG;GIUSwUrQdVB#+%sp7_;Eq<P1aVG`>q
z`*z-s?u7TRjx~^eZJ=NNy^(!qeBQtF`OmZlEy37;C4A7%v4jW(aDa|cC17^zrc(AS
z03A?-ci||%#GuJp%1lubr|C^`S~8|xC;`V>5{F(GxUQHYch{8J_x@XSU&?QOLkPeI
zFEjyYI0z&gG}zi}f!Q)RTgKGU*$=(I($M7sc0=`o%0eU-Uw(gO??=OT0+s0QvTrv-
z4`PK){RY)CifmZne4bB24J!u4f^H~i91VspI*XfiA3RHZ^M4P8X8|b?gCmqhuUQ*i
z5=tJ|lbj*fULoW?IERbAMSsaZgF@Z(0JY|^>rIQn#Xu=g^4@rl5GH)Q-weBLKn*TH
zrBp)@iy;#)Ab(0Vlu#njGqjU@eA)*p<3La0Dta9hG{+PZ%z-NzP{=?5QL32JnV1L1
zpyYK~QbkU*p{pSl(UkHjXfCH@74%w$s=z48FqA3o#td7h46j})VEGJXfm+@LrC<dB
z7lLU5J3zH5bK3Ie6^$z~6=s9bn>~lGA$%cju|izk00XUP0~eMba4|F43)sa=HQ7MH
zpv&ZsbJwLpL7mUkw2g<RwpWI+&1LvA3h-JY)m9R2{iOL;^UC|Hq0XgK5BBW8d-Y!I
zpZA=ogmx{5Rt~Lq>|5(NSm`+U#rd`Vla>CH%d^Y=^=M+{)b9?j$C3}4TUHL->G?E$
zch73`{$=lj?&t1xtacAChk@*^gu1FxviD>)Mq=B_zNCF7V<26sIyQ_URNVUNY0&bl
zt9MgieSkpf=Z<W3y6ULQJ(DmF!biYPTbxBaCF54GXwXbvl~O({2uc9I&a8+6%C|!j
z_A+o~`L64_3ODrxR2pw;6b6FjMkFJ%5opX|2Mi;Z$Ty+*O6-oZ8tVHc@r3t0h;3gf
zt+gMjv>*DjE32`?zw`p}QLJMvCRSo%HR$sPxVW;7oT9q<&HN9zd$$p}c~p`Y7BPGl
zAZ&(kdeIMZsofVB<-vU-9~^*v*Dx*2<UET(prb+D^el#eUc=h;#>KGKUJ^d=l{_DK
zO5UZY+2Xd<QTh*sk^u91U=HtM*h5PGQg~(yL|zKcU{tc{akaG=F>5%uRKwegQ5dxq
z_6^l6Qmho1*|BL-s4h0a$X!p<OZAb>(4+h59yK|}OR-Xvd1SvP$bnK*sks!-`4<zg
zLm!M3pB`BX&FtNhy8mga94tjjiBj}SCw^LNDYcXWIS-u7kQ4#MbNe&Gowtie>}dQV
zH6=g>k`0t*FI>2|5kYMUZs|=3Ewg}QvwA)cAU5w#!r=h|XFx4V766lEigS`7%Eba$
zJOqrK5h=@b!>}zTU}6r5zy$KPQ*6o@<|Q;u7}h!$UhI1tDmLax4U12+D(cr~0OunA
zrUbbKfL`2S*x1^(bkBMhBqpgURr@)h<<YSt2Se<WRD|ddCIh%N^%`%_no9(~AS<(q
zTm)BO11o^}OaduUW~6H48?Bkxcd;S+F)Z?$GuVxP{_lKjkY9aace6FYzTxb?CR~^B
z9URoQ@oX`;Er4Mf^jPP^PC_^m>f<1}#z7-w{(lvK?PCRNn*+-?UIV~V9SC(XW5QD;
zkTJ<lXJm7}Ko<(53It}XaWim+4O4{Jr@(a3IF<WFfC6xoL_KGpK1ay?{0QI?s}V4C
z+8~0>bEUsUp!6+*0?UUIOto3f4j@n4Vq>G&xE&kQb_U00n3vgEXyhQB`x`61N%2;!
zad|89HfG318Pfqg*e!hDmY;vPTe6x_I$ANGQKfk}%~m8kUDR%5IABS*Z6LjAh{X)6
z2`N~#JNWsLw<2>oQyr2Ia#S}`tyZ+*gm7*dqEvPfU${rU7b{@z8X&2S1aebWtiCCz
zg`FKiF$7%LjC0Q$t})Fn!F*N}>kgw<xXvREGp3~iwL-30GtmFIhq?Z>QB%7U61jnr
zJBVdr5F!y{H)wH*{AWM$KmT*z%ilDmR+|njoqZH+EeCh6C%e~@{gq_@a(KOc?^^re
zO8epESdDrs{3zO9j&|RDxx8=qE46&`(u3Bnsz+$KB0Tnb+nTGy+tdsJ(6&7|z6VE&
z%i&)HNTTnH@LJ!AO5cgE=KuBwfAfRY`0GpOo&-pI$DI`5t)*A10n)N#Ezwtjo?WYn
z7na7>TiVxJ_EuW<F1@zix^u0yztY<O#e1u*!%OGa6P;^`-b$i(HIagjiO$c1pACKS
z=Do;Q=l`Lz9KXDD4wpQz9%}g{ek;BnO0I>vE1_;)=&Xb~*F(+gp#=XQe;f}b0!!zr
zNfJx0yj|uomJRQM%uek>P>NuKAr`R$plKyHpT$eyKD998BnLAaV=US8B?29I*x@?N
zlf5541H7H7Wp;nx4mms!mekUa5R~8@gr|Y#b!q5eH>~b!Sbe-Cup<D3wn${o)B+EC
zZhX5yVQWbBT_cc-t=HLlF6=)A|2RDGOFIB3a$`QOv%I82<k1+)U?Ks?JR8PyDU#@<
z+%X*0YgSEEA@}V1aGnaArfLC<B_?Gc5zZ~A>(_@;;-sVOG=v*D$SD*VH73PA+l51a
zFuo$aiLoZQ@yRrpR?Sp$3T2b%p&jQliKE?kbTWmu*J(MNa+6muMg;~M*TWDAS3?8b
zNOxy4CLJs?W&->8a{(mt=5);FgJqwG?A-!nzW9cRc~Yn$^uxKuI=4oRTksqT1Aoe3
zqXiuR0_>}{U@b@KNCo{aVi-(LZq|kkXCNKmvNqZG?zMjL-D@eA?Trx1owCo-8(^m^
zkc~3*B7+#z7PuXLqG_|Qo7l(W6jxui%>&<TGF?T~R{$Z<yaX!ALW&JM9wsd9Y~cW8
zG^ZWj>>om$;MO&q1DKD+v>%thlVWtVBryu{GI~)k!7BU~G5~8S6r>0Z_I^R~#%2tL
zt7j3vfq)^EmoJ(CHEo{oR6>Fhej_PDdL@?wfXGjjBNY&t%NKq*Z#)Hx*<g?kQ{X2n
zfN>6+23jacy>4PiG6tN?aecDB1<G_}e?E0gG!c2@jClz9VIz<h#x$;T%r4nytS)U6
z;4*y|57@g9$%Arvaq|yi*RBnVeUr6teX?J~O6^Qdrs{jUD9s~Csh<>aZW?~B+IYBl
z7yy}I$n6?%+w9R+wBdq|Z-}?i%zh949;2r|PXwOvxz>fhN0fvaplyDD+Gxg|=A7pb
zh1-HaKHlvk^W@LH@N0m8za~cNw}><0ZVZ|{>E|pVw;@p(K0ZY?Fc|FQLXQ)kU?#&g
zE$QQsUWL^5$#kt>1=cr2c>O#1uO(7$8ml~i?w+vx{wJkdr8{r_=-Ox3?l&I-+J74u
zNdIu}eu3v&Qb8*Ss0PD(hVeO@f|un(4e@r%hdSpOnUs&o*n{G$mZ#y<;W@GKL)#YI
zviD)cU&5d9V|YQ9?kEYxm*?&@-8JtA`ycE*@RO#od%v~z{JDR6{@iNQSk>#<7Xg0@
zxs&7I<6E|^T>XRiA1Cjst9!mzjvpz9jywn_R@(0zg5lx*pF~?8CEC{#dn$=NYl)sp
zqGvVHw~mzkmBjwFM5>ZVttJjt{obU5FCt`H*IM#GC3)cP+*<FkO7F39+wpSj_@hMY
z%IW2s%W>|%Q@(L{Qo`9(ieab>DMbDQ2wXQS0Qecc437*$aaw+kQ`u`sK!48mAT{oy
zTg-an0L<}OEiQF-$c4Rok<KxrOF@_I0O7hhPAgiWXxf=dtCOQ-J_n;|15)yG8mt0z
zu%SlWZFg(~M<G@ylhGh_%VZcv_f~Xt{ME7X(aiX%i=%b|Kc2}*8vKUDeWa1eSiTFG
z$%lIYsWvzi>@<{kV&8`116aj0tQEKdKlp${(2;`qH4d>ka0L0F4d4giPYIW=eOyAv
z!9o{RdXoJ%3_xsR48gnV6$Am2xkBV$NaEi}@6Sl=AvyYx^gbjfe(Fs;^z}aUz4*{~
z6be5LCs*EC4ewqGtT*pkiUJT!A1;%`O3$66mDYWC<x1<pRWh_5-?cpd$@g!4e>L8{
z6srb2!iklUDuK_PGmr68jiiLGySXoJR(f813_0ko>N|o@=)TidCGff1_833a=7g|q
zJ)XonRrNyoQM_$s<ko!E4`o=nt-aiyf(5HVtcOS-`aAD^@ZRGv)_VLx;7-0u;B(LS
z7(bA6yePa0$oI4W%U$r0Q^Hx{7v6(H$9hw1xh-938m#i#ODFjEkw3D0WW{^yr4_ln
UbD*+4U5=(J{=p}H7{NvQKMDEzEC2ui

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/vllm_v1_adapter.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__pycache__/vllm_v1_adapter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c0ddb3f32d78581c66a87503ba42f8486c14e459
GIT binary patch
literal 47697
zcmc(|d30OZc_;V)0t7&;1VDm2!JXi$g^NT{l&F2BR3(+lrWY9EgCtVmQV*c2M1!%s
zB~((AqLQ3btclZRb$nv^RL!)~<LQ*oc-nH3KJ830XYdG?AA)8b(}~j4o<B0Ik`njH
zoIX9j@4gMB9;?bHeP$r)zWeUJy?ej!cfb4HzjV7xIQ$Zp-<lNvH;(&TdQpGHish-j
zh~wVmUgCI;Hzl}n`Dq$A;oY1tPZy0BnaHguVVSm$Tc?Z1i`ly+VVky(+ov7lj_H!|
z66R(~ILDm`YfZSO-Q#ZNR-Eumd&j-ZZcF&4OUFx@-JbAI2gU=;?nnfu%f`!?y(CdS
z9U2c!SBzJ%cW0t<x@x?N*<Fe1>6-DH>DuvH_U=y9P1ldtPlw0D(+%Sd%*~T%oNgL#
zVs>w$dAeo1h1q?H*6FtKHfAqPv`<IIBh2nkbWC@ScQSh*(KX#Y-p%a6M9*~Zc<=O{
z@jcUf$M-U~vc$gW{p0(m`^NjG`^WpI2gV1c2ge7QUwPud^uh6i(?jD!>^+n?G(9{%
z%<L73!_y<<Bg|fzI5K^7{3x?mB}S)@jUQw7>csKs6XPdMT-+`+qYY~kr>0MjpJslw
zi8Iq@$Imi*UE<vI`SJ72UZ1!yeR2FEvxkw^*!UQ;HzY1iUmm|~;>=vUH2%UnCb_T2
zUyNJL+-Z(){07H2y<?VL-%$p__!Y&s8NMyg`Ce6gTjAUGobOAM-1xQl%kj^|U%Fwg
zM2hjx^6kTT@{#y3-w}VAH!avW?uLc${Dx(GTuG}7X>~uB*5?%89{Bb?=lgknPrT-a
zncs_azQFJM1~>jia^d&$eaI(tqnPi9PgF@`0BH=y_q>BKPCu=#Ut;ZW0KNy+9L8gJ
zO_8BrP_VIxDepKPpNR{x)T|IO=N)`36`M%JlF7XF#$-IfM~d?9tDn7mGJ5>X$>ZnG
zj-AdIjn3T7+b_+fCTC}22_#^hPfaG0u#{c6csw?7D}Hk3=HyKLVmuY2)ZpQqoS95T
z6SFsO#s$235$;MVmP%fng*);!<;$aq=?RJ(ow<{GEgGAdnMHs&O61;_Xg;{@_1OGm
zf@f)#!u?nxK7%*a(VP!#3w(Tb=EmgBd|mWTEHR0a#gPpkO~zBv3FbrY^Kn$T{@R5L
z7mv-~xDgjF#O}t0S0|J4)0baD{F(R!%A2pE0GDGo<NU?=bfM3+effq$Kf~y#Zt2;X
zR9rywjb1)`B`(}yRR~;|oxMFjcRVo}pGlpHQBHRewnC}IX!7pNgd9YR;v2vC!lfHG
z60<R0bMstI%%lA;#O7zvp47M{*Aj_ox%Q}?|NJ$rCdXpQc=X!de4xNh?YF$Q!12Y|
zL_A{6J5P?CK09_YIyQRoWWFXgH<!2@ot}=~iY0HwlhM>H{%*%-qLX|wABew}5>N^9
zzY&k6=7o4NU!(T&O|<%~5S<X<6Ia?l@0?D=qVbv7^+cRU&(~3)RD33hfYY;lJQ1CX
z39&>179losJMUutbJ3f^?ED<6>A4b{o=Z&5+`Non(=;G06a3^IYC;Nm`%Y9IVQANh
zTTwoBcP<V;?-jHXKc9#Tm*!J*^C>tvqfzuo65~4>#cSzk3Z<aot~L!EJ*Q@cS7QQ?
zrc9xxaPeJE#3tgmW@$ja7@N6CiF?q5G^#JgW-wZ)FFa%MS6__3G9OQ-PRJjJO?jQ5
z4^sUppE38e3odVRagLU$aq~-DyeMwrO*G*!o0-|Ha4RC)T?;zNeu0L=Tzn$$zk`mK
zYt74DlgyW?UBDVcbGA>!X7Gi^__6O5=k3wxOl&$Hjpj?D)bwZ_*j>@+EAz30;!`v^
zlgfLe>Zgj<Ng|Bp`s{4td)!m1$3MN=o0^{MotvENPQ?UtLHBF(g9i`X9*p-UCa?F-
z-A&z^o#~|__VSa-lrVXHJ{9MC(N7pSGf8}XWS>yKy52i`d)2Zd@Ays3S;&<o5WTZE
zipgdUA63uXU11+`XT}j&l4UTy$!!&Ll{HyQ^=5Tl)>60W@qc4X7*WF+w|yhLcWHZS
zan|;Ciz1f1{YvakoV9o$d3$m$nuy1Ej6=1_S=%NNWK0;K91oMh@}}|$qpEQhmZTR3
zD{WP6)>2bYP6}pR&d<YVmvYi*k;e$x*cgdZ*)7_*v677ku@kq!-NxQP?yyh}db?W^
zapp@-OeSMDZ?ZZT3-MR*iRYa{d?G%HFNI#*+RLrkWGe61UfI+?H!Gy_0nH5`@$5vD
z98cxFlgTL7n^bg8h~Jn@Bm`Qm^W`)1)7mf);_5IRi#UWq_zMTfI7lIjFmi-L^g2Yw
zc`~Tj!UZyRH1$bxBjW}9Pxit1Cb#MGe*Ju|G?=vnbAj@#r94+rjd7Br(NdGEX}EW3
z`D)hEkZWwpSgKZzuUnerzN2LFevI%aMlafiiaT*TF66yQWgcSl)pRnC2E+6>Goer?
zh{tgj{HKrnsRgcYg6>>2rMW5c+41}8EBr1#cQ|3fIL?$heH5g{n^fv((VRBlGu`D<
zR@FOgPN`Hfr&0+?^EvKornGs=p@!0*Ds^#!`$CxGK93$-ELyari>91<7}ds`)qInt
z*DKPdd*(^1t0iqpv*Gx9qlHVGu5gi}vAn<F+gBRzpX|yv-xDd$m#{S@ipeCIFT#Y9
zFPThE&LmT@nTdGb!cR`5^47^z98F#VM<JDbbux7;Vihi-FnKSAEls=1YLgURBv;ez
zyy;GoS|Ut8fxgImNL{;jM)?AKqxhfvT^RScTzS>KOPltPWN#GhjTw7S&J|w0BsGtS
z_;ZbH)^<s?gJSKVRC`FQJ(L-~oUMH!W3S3NYctN4Tp+aJt;|$)z00qA_h;<;Gv58V
zV5=1D5`$eo4ffnWu{65$O3v$hBYi);a_)U^TQ1O;33TLI+m|opT3VOAtEM$y<CcRf
z>)k5hT-6w!Y-DbmBs?f6{hs!)ab~!XXp>pIIBsP$tvXfc?`*>0t>ZQ}F%+|D!iH(W
z!P|)5#nfR}+)9v25v8K}uxW(1jXUGTe91N+rxM2%cWa?t%*{RS;oaljxDP3N$OZJh
zpZCTCypJ#C{c$TFz<*EN#|L@thKn!zhD9Bf>T^8Em#a16L-8`rULjNNN{&h$sTN4f
zcB7cD1YKQz*A}VDdz7{Ls{CmSr%;f5$(%4dJqLO=K9hG85Ik&F13AM-uVZ?<O;nIP
znfYikqxoN(#_~>O&PdWS?a)Xlp_?*r;eBp4IZ4Y~QW%HRsl0<NER;yzqppHj8i}BF
z&ct7hDkD|sr3A{@>`9~;Bg!UFTr8~u&3D3O7!%r;j~5sIvzf?)@AysbCbwu!X){&Y
zG)43AjvsHLUQE#(#(vtIQEeQ43T?adr}omKb*9!hmYmDS$4%MQbdBa7q)WBi@xzRy
z)M>F8A=EFVAe2y^Dpg;NL#T7wqHV^^n-^`VfF7PNde@@nz~)B#q64V})e!pg9-CuR
zA=SmWyeVpI_A^dJEsL=)kJ-M8`?yw2Thm49;<P>Oz^rV0*ZK~_QaBECa&Zj&BX^up
z>EYC^cvu-`VP&lg-@vC3j)gG-Rj;0s5;l{<7{xq2q`i^r_K_QIH{j1ALo6f3Cmd(I
zWLO^RJ=+p181~`z9b~nfNI|i}#ER~SPb9|9k0jg<+EOV4zM|`KAv}8{EC)luVyW<}
zAX2uKgDQ4C9&S@UGrp}WJUKIwm?sjD)#Xd{IjX)&mR}0D-vJZZmV7QL%pI{rm{I59
zTa&3s7+flA;GKn_Op^-p!f&sd*3QIysI$%|S1l&QpDT{cCZI-PrAxNwq)kiVb|U@J
za<ATsW26Y%hKpRA<gMBH1kZ|1lcAOsn<dAtf;%b(voU$&Zlr|Gw8ED#>V+5?*U6xT
zP2kChlW~KLn`F=w8F35O@W?x~$v1CFfUN)%I183wjQon`X6NLTi6RhaH5VGl!>3H?
z+H5Y+DxWXH6pympqHvRB5P>F7qm*ynKR<JW_`SjzpOudaq!%(t9~6xe`6tsDKKgW`
z1!H)je*0q6voiqE9LfI*;~uxQkE;uVl6c~+T<Mgmdc~^VM<%gq-}g_fdk^Lsx}=5y
zv0*@JI3zY4$~GJpU3FV7uCZHoe)Njia8PO(5gSIb4M#Jsx@W~)C?b`2iRE1nKPPn`
z5xb8(4ra?wEjc%x<&v{?&Dpw9*Z=6YH1L8r@Itok#ru~w>l&9XJ!ypFPny>oFNya0
zCCBpcrngG+c8cE4jCU|&AB4H#t<44Mq(F-pXxRu=tsIi72gT~aZ0JC)yg@48CzkKa
z>_407JDVv#CzW3k%P(ciU&w{`<!blkDw=ZT^|{IxGHW`Yl{tMSTb$ET!ib!_o0?AR
zFZosL`ko0|(bON&wrqtv!DygQPcx@An%TsGW-h|oXr8%LNH@QutdzX@c00OU4l$C_
z);mzv+6twv2|{riYX(i~NUeQaSY_q~ey6NZf@vm{a;p{Li&DfMvR_)GtAC&S1I-SK
zotyHhVf3dFN1&%*D&z&UI`bA*Cp&LVb5V^8xN8D>SiJDkOLGLFZTrgAMFBIw3>F1p
zerATIKy}TS)aN>F+6u>R#wKU9nP7}f1q<~r%_QgNh(C<8sZS@U!i3s{e?hH&6<=ly
z&wMecbpU^YfERfVu%_nc0O-t+Z^<=6^-c-`a61ddW^)N+JNftoV5R6B;46atEXjD{
zhA>a5+<}p#A%ibg{#=XaS$!AEc6_9=^Z!BNzYPPQrk``T-|*b`NcLLMUb`~AZtvQ3
zR%D!EAP}|n_b+a^eap33cm3+#HFtBarjA@fEAH>iue-Z*HIau6VojIomRfgr<y^ie
z{+dkv$PZJGFJ_Otm>Ic}slA%@zm##kl(V}edswuGC3~A_Z+qxow+}qCb1v`FV%Ax^
zTDs<J%r&(wop|3B-YVi;GUplz?ckw>izs;k4^8b>Fxj4@SAE81bKA@0wnzq>fQdjC
zXqe_*V7yY36Vq4&W_f|AC?Q400vTT+V+Tu46D^x<Ux6jrik@ZYhuin{^JuWr;MXtV
z;R`MwzkfGtso1h}Rdp*9Z&hY3jntlX8B1_^B5SF|OKZoy^UGB$yja?pwM5|1)OPRe
zQi@`(^oid3tfe*Aci`TI<>pK%BKkWXUKRa&vz7x0+1yTC{>q65pUYa>@E)qUN7>?m
z1PC;;R_CmxTjm4Sl3YdSRuP_?Wi4A)JP|D1v}Gfkooo)Wm2km|EhpJrTuIeOZrGj{
zam9WzYPKxokuud-+c!hiE5{$)-Lk@tgeq!RuC6w{_1T9-D_;~tT@O=YX#XSrz5RbY
zDTa=0*(i{mEAc#Yz$Swb)Or*6ul-cI_33|t(=MQpHC{}!4>&6s8nPM981QBMId2(v
z#7pp|0!7Zai!WAqJ{c}59(Tt*nw!iA78CELxyc-0@i_5tYTOdW)dd`!{EzqZ&Ulb_
zfk$-Xzg<lcJYEU-z7pOSFXK5X_YDtU`VFhfKY&v!js)_Aq7pnS5Q`?y3$A2h7VtAr
zYRp2X7&0^lJ_@8qRA##f?qpV(sGxzJx2Y&jiM*I3Cl}&*zeZ2pnxDBHWp3r*;3fb7
z6Hbwuj3uHI<d@8svJ8}|h0#4S%SDTj`lD%{El3Z+h`q@fFG!2UDGI}W>0))ES+wz{
zMSI$YI2P4cf3gXi7!o`D3v*P0EILx!L~a~{FQP9MOM|iirOgW{<6;RyYm1Yf-)p9%
z*~Cq9Q`!=x`|-f3)l?Rph;P7X@z#0nHIr}%%d6qCh4isWxl2ilZ=c{OwiO|4>5|(h
zF~VbW72*AQIaC`$VuLqrbx|mkI_+F^rCmZ%x(HyHHEkEnX^TKDYhFM~a=m9vY1^VZ
z?Mm9xZY+XYf20UgW<M}ZE|<1kFM86&ST5aF+@cqyC|5)2PvNsVJ2zFOyQ{XeSL<mX
zQm9eg_2)g?IY2Aw@c)`ARj>M`DTYCw#_6bAg=h)iRD+s^{#0{V^cIXmZmLlaq1v<(
zmllN7>X9x@n`jJCZwUjbW;NDSn`+aayj@KTB+18zbnKSbI~F-Tq@Xd*hAnMamsEvX
znkf);JAdz%Xd~KRkb1|?aD=F*O`n*SGM*L#>A+OCK^jGA(+!QZOZ$z&q)Yjtf-tP5
z=?h*Arh`)i2JQH%y~<mS+7IKF;_cZH39lbt7n*kzz_{qE2LJ@q4$O|9&{fc*{X0DI
z$~zHn;CXk9UPAkK{PfWa0LHpll%g#F_A?Hj_NIe?I6Qzl3}+&^8q9C+y53R9cYq=8
z*ey&924Dz?9k$c0q9H25t1KlSi-@Q+bNhC>Qb8b|OG#lN*+XBT3ORe`8m1+Rcy_`V
zwlnO{FJ*<X*&-&#zA-Bpv;5k!8E#jl06wQ~IetMYIE4w*DjTL`&R<jT406U|yuC!m
z3+eNC!faRx8CI6uu)O4MPwlzo*C-(h#8?*@m_S3x3wD_C0tFrRBHOvyfnpT`VOrl$
z-Uz=M2TlWyB{drcn}Lc?hpEE7lv_z*&&|S{ZC)n3!eg^D@$f7mCM0H{*X7hz;Wdos
zg;J%%dNia(VUi;1(78FA3Tp^*7@Mf!nOSnsAmj!9DxkaP(5%U1czRZ#c8JZe#?V8s
zL6q#dGD~zk@o>|VH*ci~xp`HX#VZ<2Vd2OVf*q3+4GTSE^V14aHWY5*yC}!7oRa*m
z4^4Xi9wbNDCj3H&x&_agjt!j_vJ!sH#*g|Lv?L>Toxl^mj`oo^{Juf9Z<4{2L6lsi
zPDYLxSNJ7zogjl29p*2*L^c+ju`rC886~$kjJ%ae3FM1q`2!hi3X?~1YL;LnnTsrz
zWm@vqxXfQB&^Y;Gh#z44KW~G?!>!mHEH@G{5+M-&J4&9WKGZyZeg38lB{7QiYjBN}
z3BOJueuIo9GFX-FlkGQQfN7lpkY9j$Y;youCAY>g3hQAXNA&va{0tux?&e)eBSvW)
zF|IA|M+YfzBpz&sLSQY)*lM2!t|&qn`4S2*cc?H;dAQk2boRy#NYNx&f3V&5!m+N|
zWj;E{P%X7A$`D?tc~Pd`Wz1`bFQ_&y`4OgGFxNd?b)!_(DOPnZc{i$RS7x(SJxkur
zs`@2w&RMl`Q>xn|*6mqy?#U5AwdLXJTcx@Iv2Gw^uYTh4Er+Dih*%nVI4YKQXL?7o
zu49>#FN?01!5uq7VAd+bQbn&=(YsdB|7f2S8WKZ8nL}fl%P(a^*OpwH!D=bkCI;Ic
z_GN;-A92>QlAJ3bxoSmM?MGaZyC&xgNxpW`*Zy#?=<8bZz3{01@rbzhg^!Bhxk;XF
zqOWbuH=5Zqn&}$-$O>oheZCs(;yL^udN^0vN@b?91ABuX2DxC9*gA}od1^D^eWH6`
zrvLPs`}AgMc+18)su9{(nQJ?^bb8&@yb-L))b4pS`KUV^Ji6pSnq|$I=D|$MU?zBg
zy`!AYnl)$5Mt$?Q({H68p3T+|WL!15K$R3|69a9T!2T`H?Dph*hn^PUiFe?F?nurT
zUTu>a_lu4DAH6K~pB4MhJ|ll*Q5lgND_gO5>FkrTij|O5*(X-^Wy|`PN}f19OLu>3
zWaZq$DzRq&nsfh#%m2oO`xmy%rqZLPXJ`-)kP3Hz+;YC78@|Bu+22L(Rrq`6u)^2F
zl~uiY;lYK~kkl|NHVpsy$$x+D$LH3AmzEqG6}8`Xz2#bc;bF-STYl8>gO2rzlS}SR
zSEb}?5M2$cdsnAcd$X>6IZsIP)Qg__)vAXtta`JaJ&%S&&*2Y?Ozsit@-lGh70ptp
zQw()xL*1F4k?$8hI{QC)GNB_&uAH}8@-~RxhVQ)e-SM}_*Sx(MdvC_ui<-O2fak1!
zR%#hsYZ+83mh%nge3g=~SM>E_9K7jy;Q0re1r6olDr?a`-g30{n<EcK6jZaOlPvhF
zsFx}_#fr{cO_Nl!AC2{_)Im_ELxDOYmS1rA1jeqO`Z(l<fi^=lRs1%6n#EU{;8cM;
z1pBht1jl9-qR`~&?<Co1$`lx?bB}Bcl_AncSS4czW<!&eK*rzWe=-L{!)!La0R^hr
z^oQQ;de8-78#GvLqasEDdt)n5mDg69?|&t0Y1wRODST^*6k<4=KyY+iW)ldEooi~%
zwM24low>%g58X%20Axz*w~ENJ84PV%$wK+z8(~&E7pz&~9~{|ou-6i<p=Ha-tS+u5
zyv0&L50&_rBch|`BQJR|sOCd6S!I-k)%O;vxlM!veIj%5#H8)U#k;VL_B|7mvy>&<
zqH}!2#I_WYlz;*+mJ{I+y*W1@CDA4U(<~D|6#fW7egol>gzG@yz*{SM+eB|$#@Uv!
zw8`83m>IR76*l53o^B!%#7ayM_Tawyr=V`NAiCwN|0boyouZgKe%LxRjHmKIjMLr`
zhhB}42fm156O{${gUN{EW~hP67h&u2$}Z@L5#pfoHo`f_Zm|q7h(#a(Qz~p$P#e_U
z07X#w(?#<qw4GJQP|!|P5BzW9Qrb3fGbdDoNB#I7&~P7!JKGk`pJl1M%Dq<fS?*O+
z#IBHnjk25{69?!as(T&;2PCr;Q5R5K$-Ik?$LEsq`0eO)YA#<vOZg0d^BI!6BFPyD
zVL{Y2xez`%diugi(8DRnx`LPmCB~#-!py%t8CkfvJwz8HId8-!A+<@QFXVD|P?H7m
zlQ$qGK{Vra$VyS@y^P9*gqi>Oatja89eK+nHrcQ<$Pnec4atL;67r5)H<aq-9rKW4
zjmK^#fYk9q>;^zTCN8STM|cn=O7)d%nD=U8q)GtC$=4?0Or9CCe9nTlge1ncgeVcT
zo|2I82*pcUU=WQXlQ(6MwoI_*j~9mg69oD#`i%b(7JSBK<@d&NHh;!ew|Yow8Wo#H
zGffva?4CEA_nkS{o=2V1zRTji%UEa~1S`8jk~1PYBa(BE=-l&YY|VLWqqaHctC4)I
zqOUd6e(dom7VSFE(%4ob=c>wBDz~aRPo?DU6y2SYyI*woue%4g%uaVxu4RwZa$IaV
zF11_}Tdrk%jk$*XQo}K^;aDzMF9mzWU@y{Y^e=m`{+EW{bUtuqYDOM=)_p`zvBZ}~
zki&m|=H`MRd#vuJ4PQA0!_r>Xj+MRCk1{tlJ@Dk5l~fcrg8WmGBqV-3GHN^S;Qq`J
zKHgpQXI&<k!uR1WRKu9iJ_WoGOvxs)zd{4Q$>|a)M)D{Hk|;E%;`bURJ^*_3*_n){
zBYgCxDTTF{W5_0?*bJv7$i!$6XPQfC(}+41CJB@?sS^-DIc-8oTaBg>OgY*_py#iq
z2Ix1Wx~7Y?DaV$!39XoxG>A$K1MtLrdl1bSGWPwdGer%|e!P|*_6m!pYE^grnYL&-
z+6%x%gx1REAZd{Wv<L&5!+KoR2Ee#zs!4s*p9N_X+|#1_s5Z3?0nP%970kS4#so;U
zB<)PQZde!Hsa7@QR7ADuPrz;j)jA45Kn<LmB3bGkzmJ2+0OneZps=)Op%^vyranI9
z{X4S4s}AmB;_p=br}|Wz{^V_GZ{fb~qA!L1m49eA13(OACF*a-&$tG>9r8ZzwCx?6
z9DK1fMHC+Ur8%wl{b+w0Q6#Fo<0ll3D2EyYBMQC5HVgv0#M=Y+qdOAAtKd%^S6$Nq
z^t>NEUYzy;a7A0wZ!tL2oFY<{{dNuGPn|Xj1Gy%rR@-3etQtleZDj>B%sJIpf9f+#
znggI6OqWfOeDRJST*r1e;Z>_adAb}hqATXYM0XY^U$ARLFde~3JH(x?-({{hv4+n8
zq`}z-MFNTm1F7p*39UPdWK{U-E#NsfaOQ)g2APl&;ITL@vPeEYb7vC3%`}cNgzv<J
zNjhS|Vt)x4kK$-g^!TN*Q)f>{Po2GR@=LTXGZcoR%IVL`cvTn@+VP(7Sx7{YC{#hR
zEHyRhFp7c$JYk>$T?qMH!DM-827M`5+Yr?WaG7!lNX~Q!mC~DLTR~);Y=}t%?2M$e
zrF;tMI3tQ!>6APQ)^|Ar!brDQvoQ5-!LMltX=Ew4A-N`UIwa{XcPYQ4KjrKND(#T!
zB^QtREOe{ge`oLZf>1;1Qd4s{mKEoF^46Ic2F60`#S5e1*_p)M@T;@J?Iij<bt}xg
z(C`8uX9K6FhY?u6ptW_O8-!9Ahir%-><Zt$gS3H9$#2_f8**E)PR#SMp}d8fV4;gq
zPlQp1DPQ!4d>BgWYfWI|Zaf7#%0@&P7@B;E3`7wk%>b}`F(1D(If3Iu!Vgg>;eREA
zA!Gj*HaQ;37-<(s)<uTtXp2kupUL>w6voA1TZQ~%A|JA(K|6UmWlshz%IVTNMEKYA
zEY2FSrV+kOY5g%7M4GWO<b5ig2r2YiIKh$3yUB&DY|EFCqXNwsGK+1Y<{`S8YJ<Ye
z<3NmsolGjBLuInNK$Q|oVC1drL(Z3=w-QQ<#NOrI)KXgO=DiA^h);Bez;b~IC!vfC
zA{hi)Gv$(L2dE(QCID!jz%h!vPqRj6uTO!72WUX7E2Fc}IP-#lGgfp!Pj67+F{Noo
zz2#Q>5xqJzl3DmS6rcJDvc@2RmG%J%t~L#eD}$YO3W0uy3_g=&WM{QlE9C7eSk5{=
z@4Yq2^EfTWPeMAHZL_m)jhJ9<bmfaub3jz(0w;+mqB+mtr=W{qpXsEbGL0zp`~cCu
zOVsy0d<FNoXN_E_Q!4Kf%X{Aaa<=?X#&+o5mto|*RS>D$ByqJ)G0=JM0uxc&E0*uQ
zcZmtH$*xbFWy>?`tq0egLjcUI#X0*R=w)kh#yJE)3(%iSYCkHrAAQ^<9lI(XyPEaB
zbnna)PvuHi*3)+H^k3UNIeWQeZxZcItFNxnnSm<F)h4>yGOqnkJQbPB(X8iK#(oSa
zMrp0&>lA&R4=-hX!}rc^lyy8j^qwnQb`so!#l2i7TI%ne1^ywGc8H}N_s-?~b&|hV
z^!GmUX8lL+oo5_Ehv@6b`nnL%SNXQ>t-TLlcvSM<`JYr~yjSj>*|3!S#`&+FM;&r@
zZ_e&R(Ez?#i=X*8U)dWA_ZK8@tLSabdfV@v$(4qs(iX9_<)K|H-E;5UhQ;w4=e~MQ
zvQ&ze%9W0FOUs7a|HkL<e}3iUYR76#rm83F?!9+v!`qy*2PJ!zh?5WMSqWyT5$!cO
zJDLO8;?MikYxfo3JM%2ad0SS$nDzACI}MQ2?p+>{0=;X2-VJJ<(^=1%jQtE+C)Bul
zRxIyE=h(_5Thp4Y3H$~ar8Q^dNyE{cuO1Z!xR$Gi1Yun+RQt?rYxF=A@|mA&JZ}0}
z|GEP?S9Q)+mJ3$rLJc{8RW48o`!lb-t^{KQDL6yF)pPIohPy#>_loY`4SN7h$Etx!
zI^S^LcjF=1sfthCHc#=rQxFVu`R`qnF&m6X?WZCyPZMw|6xqR{W}Mo3R};t^$3YE6
zbjK!(?mQR5jt~we++$NtdzJ8r!&~`c97(q6ha|?G5Sy`UhfA?c%G3Ep{nW0PkKc&R
zCsNTH@>$fpT><8k`A~u#RaH+NB=Olrld1R|3lgQzoC&>*ZDZ+(oumIxiB8=OFEbQW
z)LOvALHN+TkQn9pa7+^{1i3<#iaNU#Y~MXEfsQJ$@`Y)`l`6Yqr&Uixon*!$X5r^3
zG4^%l<}fAW_1Ew!{4I<mEvqW;?~L)h+9C_h%98$E!}b(}YDM%U32b0z!$V?&7&h{l
zS^3QS_Et7jBCeg%dNf{y88WC?42PA4_x^@nFOosLs_-AlAi7=#F^`b#XR6UaSrZxj
zP44G)O^;5j*B!ifW{F=Oyg!|_9Q^A@&wHu$$cc=lT9!!5T24R)Zp&P3ZCgFP#o_VD
z@)13lMB9htF6TlSOyIxvb1Jr{zlRxEAKko(H}ggDB8*N8j@(#r<OX9jUW^0p7^UMj
z*zK^}VTbq`U(Y)V$1YsLytBZ?1s7M`&f|a)#<{z|$F2By;-0BGtyG$Y_u@bi#j-=F
zOglm}?n5m9H}qrlrFaj-{c$^eTPT}uFJYo^st<dUj~AgF!GaWnNTG}`r-Mj{U&hNJ
zi}{LzFy%^^%6J)KR~7h#;8Pv1K+H<`)D-wsDRFA!)$uZ|bTv5aWRKS>2b~H_Rm|5F
z#ID2X&W3#X&cS+Z?^ztB)}a~DH8=pCF9wwk7GeUBjP|4cWnZ-b$Od1vX-f0bE%HGZ
zlD&vx6v#gu0OX?d{ji^LJR|6)P!7u*B^5ldktA<II9CHraYpQQk>v7|KIR|PzF
z!aKW^)&SC3w5F}XRe(T5yX^R>x#Jk+sB(<5c+r+Fp3>x&^awkSQ5N$>JO^nVyAJH&
z@D2bIRW1gHEjv@1^w?Cro|0<gw}m%xuOG)jObgmc6CVe7(5Qyip9rC~&rRU$QKC=T
zFQox8QyMg)`speu5QC;X_JeqQk7_r9TG*b!zLW-~7(pc%N7`{Kq^$v6lT<dX1z1UI
z)x3D}(`JKZ(@bxQrbqUpqp51Y7luM>994o8JP;zRz9Pgi)viAgqCtHF_+b!2IHCg^
zQ>WCh`ZIM#wIlwpYS*8}u2Tju23kt_c2TNUH3j4N%HcG<?Z?#c`qMb(w)P{QjQvtq
zRNHQ`QY4bWe(IN@j%Jj$Q}sjaX4S4gg)z8a*56gzSC18Z*@hufpHaiAy{<^I8MgJ*
z=hV>p(>P}wq*LZPl8{9Ww2_Y4<BNK1)i(7d)uulYYp?po(%7fIu@S8G4fE4r#9d~m
z+iG0>iIvZ$)*4c=P-KKLOl0VepNq<`1CW-fxg7!UiVz1?SEQ0s?fMfT4ykXyLK*G6
zLoFjx(8fPfSWr{bpHqvvU9};kUA5~^wRe!F_U-cyyd71;q`t1%zM<NteqFWc&#C*m
zUA6Hgddn8%qyd<$$Fy(VxP()`t)`|wc_+<@$;w?~EbAdv8}DGV=t}B$RTmxNMQycN
z0;Bl%)DZe}>P_9Q+SIQTAog3T8)Ao5yZ%hm4zf#sS8Z_B`cZWQ6>R2RGxf%PQ~$jl
zPPI*aOSS3Gg8A)|>WUQqg=*KIQ*Y~b)uz{M#>2iat##O&mf|O@tZuApf2gK8^&Qow
zKh=Cvf26vlzNgxZ>(8S+>TLLq!ZCsy;v(L$g@eBee8>dq802|pZ;wE8@-OJ)Sm=@u
zbnyxR3H(nMXJtX<9bBL?IB!nSAdYGVVx*4<Dq~1z5us{O1R~Ifa0*+wObH4p^_WrQ
z%jARbArzFM&8IHCc>HAa%K5XGqgO_+os=QU|BBzjgj$zEG?ipXi2$WSF_cqL&x7}_
zFo8zlLI(x?kws1wtV?4Ksq_L#tVCYgu5LoET;4|KIY8q=+YLjbRA*pbR00`)49Zf0
zOhpCLN5tSO7s0U5hQg3QfhZ>(n#@-s0i-1}*-_S>^p5rvX#EjBO9s(ZI?9+YRx%GN
zh@jfyOole^-u@cY5Jd2xP^J^7CK2e{%R5iUQ<nr;a5?V*qYl+u*dk}Tw*;bs@{TLm
z132;0g_AD|M5pG1iee_EcPE%is=RyqYcPuAujnS|e$x2fWWGWj5-M1rVFQ}pf&y4h
z_)DttUy(s%r|`d%LBuK$&TTlLjlrSNuCk+O^1#!Iri?=(par55@*W5$(q4u-LMzD8
z0nykLg9`Hw>K8gCofIBZB$B;^0w`Iqk##FzOy!tRGVfDE<5&^X=#(#2Ieu0B3p6Yd
zYRtqO3%gl47=$L9Pbi0l@*z?kV{nK_###d!j#+@9|0b2s&tx@$FthWEtoXv;Q|TE*
zPO!EttEmV)xC!*dn3h3irX445o=xU$%Ki<**z;a|Wx%mDF=OPSb>W;aIV()2?&d4#
z82$EfkN$?t!%iQ<!DSzTsQr9NY;IENgS?d~XA!EX#PliV9m<yjJwo0&ro9YBmDQI)
z+Xb^lW%nd;ndl&DV&$99yRKmaCwlGVi&xHG8Wa8p_(Mz3uTkRPC*v1n{9k1JXEJ^X
zBVTkoem8Gr`rfcV!9K$%oRXBdiu))M9ngivFy-h%y)l>EqXyV(#=^YM!q6NS=Y#NI
zx9IK8cn@am2Vnw%T(Z3G%GI<jS=Q~9xlp4N>K8-(Qs}T4I;?m}HG^W!pj2}~thvB~
zZIpIrOM91!p(<vjb-l5F-8%r(*#WuJ(?FdaB^kWCICq8Q>JVKWlIw)%Izf_+jUPfv
zu_aeGDAgSn>kj|4?#P3Z<)Y=6pyG&R5LY|i4|L}mnpa;~eQ`Ckd~PGu|LDehQ$J~W
zKXiGcqVC(yx170}bGe#UC_sV~V`UWtRO^qLwt^h1g>$pENvb^{)*hfjR^_gJhMo-@
zb=^|kL9y;&w(bx)ROg)D-#a1&y2L=&nzQRkL!Z=eR%`$gUA=ORgiJh3C)RN`y_h?E
zglsLj!GrXS<QiL-PW;qW|D<ss=PO6>r`Dn-7PuY~n~m*KL%-P2&m!lVB2v>qv57?t
zL;O(kHm!M^HtP3C^&?{a$VRX}7p#!Qb~TF>>=%RmxnR{(hc)b9w)~!J%ZDSIQlM1~
zv}OYPGOm3vH}vubC0~>1Yg+xBUTT2-P5W~`#Rp~F@bzSUd!E`XYDpoW8-xVunzvz<
zms$^qtp_r#CpJP2tIbklpV-*9J}|Z(x|H!<%7iXy2}!<g(bxUBS>8Oz_`279FKzDY
z!}#!QR<}yk`^D=0QuT;fJwh#9fwtST51!u5LDuAS5EhLIuQ~|f=;Pw3=mI3({;&lV
zaC=BtxeFnK5dNiIjf}UGB#?1@xEVlXbBEN_CpIC^b$d96)@~dU8;9tveiKRr8jp&N
zN2SJVV&gT^chrCsn@X53azqiU_CXVYR5dDAjpiV^#P&82rW#>h_af7}dJ0_iq`v7p
z$G&^+?Q`E9dwVRi|H4n=+2*U+`j^PFhSeDPp|`0Hv^^rZs1A=u*IXyDQzLmhL~n=W
zJuZ5WKYnG+dj{Q6zvq!9TZdus`XwBie&f>pOR_ldx~u6)(_XYN2`S;h+PXpXHEae#
zYM1wXSj3eEHp?odvUahoT`JovmhF|w4vA%lfZsQ>u@}Z5ahFQ2u;>a)u3pjA`@U;0
zX+oe3>6rDpE361{K@`e8YT9)9He856^5I!m{f4Vz!xdOQp~#R|J-V884gG`LrpWoq
z=R_5r5fc%|(UQopwJl67yCLR_CS8V5S507qoM}`iO>^w0D>z6wbvGl5o$y+f{?uhS
zKQUI39!uqdJ~0lCC964s%Q4^{rZoIcEwhd;nYm9)A2>6RU20eSkOQ^yj-OiAPm!7p
z81;X<)Es=tf5X(Ayh~3_?S0<;E&H}M($GA;5x{L|eXvV!8^!YKvD6m)#GHJ39KQ5h
zMZEu8R#H$0L7Bk9AAoShStDqIj6=g4*>I+c9h`z))v!|_zQLqpggAs>A&LqKR>-6#
z3wDDH4|9?1>rnUvOvugPpbYUph{!Zo7-n6f5(vUypuxsunFjZC>@`K|l#byL3ARmE
zoSHU(|4%_4;7h*C3B(n$-5H#NGDQnz!R^C|*z|QiHnMPN7m9<ZAFXU;o9!89R9JEZ
z7CG`?6E#A)-Q#}J%=TvTA&N)a^XxPd)mN5t__QSzIxsmElvL=#`#-CY8&pW*X76#C
zD=*7CNPmXc|Nlz#vw~(jAs6V+sX+L@?YB#3?%Z$tXSdMb=;e8wV&%aRI2w4eXiGbK
zAYXC^6!>*nMkPoN0fSD?yT}pz3lnV-)+q^g(Co*s<;#iNnudgoa5qZooF^C9XBH{a
z!w7vy8tP?Tj4xJ+Z?7tAp*YAiH{(MdBVp)hc}h7oA}%A{g$A;*O-iEF8OM@m650io
z_}Ap~7zXm!2>HBc`;br4432M6mi+KP|4l4JKK1AGXVl7bC>h&`4OL6!ZDM)bk`qKl
zZ3HK#r20K#{hn<7zK!a-l`m(jJD*gBSF5FlgV3b(-r(aC*~+sUl{MdbdG&Kr%VDwQ
z@O!WR#FDMOn5`V!XlQ3*)uhz%;p}@Uq96Srg6ccub7@lDNwMx^w(j(n*<A1c)=e!i
z&LaKTgV6Q<O@FQA?-u>tPp#&9oIWzQ`@i#QLAcX@QHOBt+rqU|xCZ}sYz5(t{<sI>
z8n%UNpm25mZ@sLAdpP@pG=kOnpK|89;D-%?TF<i%9HU#kEwzq_ts{?JKjE`=S2pS!
zH-gnG=cSrHv8M0Q^y919;5oz#`yn;nxlc<j({t)47Pxo%KXlq_Js<9Es47|VY@IT3
zzPgOPmW}9bUpqQMrg=QDK=2!;{KJZ1TKEF32r_ylYiKT96h3LH$EnSs?U70A@XSqZ
zM#sS%8mM^Cs4JN1WS(9hf68EA==xM6ObJa#7?~<Ch#-MKtih2)x%zO|el!`<z<&A+
z#%|lG*f5-gM64OaixyG0q-EVwMFj`^i*!{S$&fC~YNQpA^aZMLJ2nOT8H8&9pWiWI
zi}3_xkxTTPRhu!{MxYG9O@p-3W<rBszilBv6MA4t5{;o63tc1u%3ut_{`lFrELeJr
z&Tp%My26B6grO?WmM@)|1*|qb2QgLUlt$hL^-gqRL<ZIf&K7Wq1J+&`c@N}bQ&4KH
zz=RPC>v@KSkall^=t#XcWZCF+4AY7YC?kbqGcvYfL2{Ublu4*rh6>bzC1n%{L`z{>
zyDpfYCh|Yg7)l`1d)#JKM5;QpUUg{cT&}WRsvHt4hu(v6YU$iYplW4kbzvPWEKX*)
z9=I~K=YKN3?)yy6SF!1>Tn&D=?(I69XUugEO5I1r?xVS2lN8)12KRkfWbOe!Oota&
z7S?<nA9}g!VKz#)%kmHhK^((VeC-&fq@p;ASNT^k@C>!osI(z(VmlM17!-;ix|#w#
zb>4)XGcy=AMk+s5Di<0d+-hp+B7*}Pvg%Fx)YuPYpuXJkD=6s+G`t+AR1IVtXNpLJ
z9Y3{HYI^LLNpMFXyppuQz4DZ{KW-=qpdH`<{!jZWgrn{FDe@MEe#S>Wpt6)^Ui?f@
z0gK+$c&t=|?2aBOnrc+-`csXENeMM#3QtLj!Dh5ed(ZTGAYHs@f4$toefo5l&0oO2
z*(atPM4qjBxl|jJuiA`sxlDDcA@rx(Pm3i5V^}-hP~cXg)|&0cv2lT(=+aYCZAJ%7
zjN8UY{z1(JJ8k>56#G=0{wye&UfO-CzmZlI>`p7o4s<ga_LWh2P{#vms```ZOEUJs
za<&L{VQD9p6<0O%G#QNwqk}8Zx@5RVD7=|2{)(Mi9mjKwkEV3M{it3#)i!lpwdv2a
z1LcCYCRRRrTGA!5%e%IBl=;BKEt_6HhBOVnvnh<roxk1FOnct7t9y4iKBOO1(R3xD
zpAB7+JMGi#_)VSN;egk|BSt9qzu2YR=M7@++7{@w3kKnBMu%PAb!f+3e9$ZP!t?Re
zZ*1zy?tY7<bUev$tn7I{)&fY7ML&+^_;1tlXkIqIUR5xMYEmV7OkVqb(c=1SYZTH+
z>8fZE#)A3vGaysUIL6a}3G)i6nP-P(=uj(3p=!ErXa|V7fQC?xO2~)0>39v1um!q*
z=jbjOiYkXFAY`AHVBJAZgxgQa^u=-ICK6fou@Z`*86aQ^QXIo6i0xXLiN*qRsOUP5
zC*pKYC<)41Be9YUS<z{rf>S9aME<BhY5?4RP@u+!ZTw=3`s|E;WTc1f|6q3r`)arE
z$mfSCCZnrV0bDv)Lb`FV)eLe_*`j+LU3dxtxL_YRrfvibqGpEzPwYs8gwtGPtp+4z
zv2cBRCDkobP0b8)OT?2&beN(HC;l4FQ8WFcTFb~9X&U6CR?4v)I_88!G!P7KSlBxT
zg*Q7>#)h+^3P(#(PKP`qokAH^ML-c{s+3gJ3LoJWn}fvCYJ-PKEz|Csys7*%iZMgs
zirF?64y$Zyz5;5uh>~=W@&8bGM;v`k`iJ7O{O~s^r5G7sC*$9d@n2x%>t)@hAWIPx
znaCUBP)V)s>C=*=9ECwgCE3QJ;HQjei4y*jjK3lS8v1bjh3(+xJ!%8V6m;G~r_hDJ
zLogB^S2nK4DHin`uJ@Rq#u0E_>LC0M-Xj4S5E!Kti*JLjzA10#%bk9XoQo#;*GTye
zyX_%wXP1kR6EydbMj=+sd<lEOHg58E-cP2gCL1k|gFJE#a48wU6gKSX;FG?w&T1hy
zgPcT=z!kOls={p<hf%v-X*G5ZTK!%Mo-&N#-u7ucFGVg3=5GIhoFHP8ufPC!QK9Xw
zK>bSUjbFR}YguRAYQvhd2|FT^t6y~WKbl>4ox;w?o5K%=rNE#V7|aF^F4<{=v3<RH
zc-?zAV?Uhn9)9BWFZa=2Vb<HY`ofyGHDhnhcw09Dp%u%wJ#TrWif*x@J6qA44eVL6
zZ&tKP75!pG|B^e$wB0INQ8JZR*P*A@<!3u{jiR?P<L$vs88A0Vd2O|5ua@jBqP^we
zYZ-gXy8Xarb1Q8DH9V<lS-mB-4vMXVKdm`%|H9Jo<xtLBE_uVEH=OadgO|yLs_vhG
zGMw6j&q}!3RyDY^OYqII8mX*RENfjlwFxys)xBbMuT<S9R`+GA2bL~u1j?81{O+Oe
zG_5AGjr-RE`*9!#T5zz5Bf08DSH0vqBD#(+6+g6jB>DP8Umw$j116}d{@Yb=Rek69
z!{R?Y|NZ$tS@`3H^~z&Q=a|kPJv8+C$Qy3ZKvUYa=`WZ39neJkq19Xpt+Je(_Pcuf
zmd<5D9hr)bjH`3Axl?NH7n}Q~=JR6n`HZU}M?0Lfr-;h0+<NepWeeNIYFi7C;@YxG
z(wHL!Tg6~&uA(ke-=7KhXDSAA6^)sugPG=onTnxYLnPO-H?!|dX8)N?%UNvvm9_mN
zbQzUn>#ws{>NqTR9F{sRh#eO`WeU04hAk)8dC~NgEAA}M1lw?Ws0?b1y4Hi;8$q1e
zAq(4k?G}UGQm{`9_GS9d{4{tL+FzuGK9TlW4~q?lu_2qO-kYh}n+XCzQcE8k$kn#w
z8lau$M5gydrr~6c8s(7Kd?;7l`0bImMz-8s<H%FaMmh_yL)|_gwH*}O4rbd9No_~P
zwxij$V;NubW-#*bwA6K2>^dxUT^8{dyo@$4ZAP;N+cO=9*8_()f=uHOcJC@Ll8&OX
zav*?Z)zqfBiu1XOE@=P#N1LUr{KMmBj5@{`3&$`^Y&+;;#YBbAk$Z}Z5DCLERH6a}
z`3eCJg((zc$B$TQ!%aLT)^5sIz=mB1Ib_ziZFD`~(0X8)CR`0r9NtWX6=QH9Ob#`v
zGMiKMajI87ZfkDQQcz=!iPozPfpkrf8^{w6GOH+JUHIE$*xI;F<Q3-S$%IN|fxrpJ
zn2N#48<P_XMntPPs0z?hShRMbvYsQc*vV<O$l;(9G~D5S2hwzhQ<)IeVd8RZ1?awh
zx0_kQxX~;QB_=3R0a^7tp{A2d%54-NjM!xobaa||YP8cr!^<%o9!4FhT5>MHyHEub
zM6MB&ksDhGyr`^^(9A*sXhnm#3$5%0OFknia4jZ|jFRyp8CS?4;u{BV8K_R<R`?tl
zpC{uBFm_&q6nGWIilR*NV$Ddlg^pc7PlK>`X=z$Uo>-cK941m{^P00+TN;Mn<E4?y
z;>hK7*9-Uxo7<(P;q|8B47SQ^8#0ak+1i1nF}84!8m`r=-;KT<#q9+x2eRG+xll_c
zv^V413p3Z&Z}`b8dP!(P*?;<d-x*94&4;mx@9?rOm*I@8u>~R=giaK6+u0Tk<+_Fs
zbhi&#!&<b@8ObQWB$Vaj<5D<D)s>#Sd|`m>4-9SRZ^{7g0y3n1rbZv3uG)jn$r*p@
zANzq?3uNW32B%<T{HshYD{|0yC)Eu*@n}l=@fOnft6*k?{j#5NoT+NnUw^86qM9Bq
z>oL@ajC_CwESrRf+i@#sg|!u6OxBObu9i(-_;m$iqU(AbQ_XrwR2!6<lzi2dE-^xx
z0ERar7D}@7x9BWrRi~~;SH)kH(*_QsGc${>g1D}fhA&O^?92u2u8cpW#r0ltsV!Kb
zwc4q=vFTl&*j-b54N_H{ppM0O92Zjx0?zR*x@QK_HX7=rrv)s>y<6Ub>Ggk0y0wi?
z_9(cL0p7(_jJQ+XY92-imr;%dEogva0rOGXaM1%5DIP4r?rN^!o6}A&sQF@)JB;#4
zyJ_h(_Q5DIkbPHiq1~4CDea7co;Q@OK;L-UMOaCJq7>3RZiE(%>M>PYAzGBS0XZ?f
z{!QM#Xv6cqg$NgebU<JLSqFY~+$fdTy%g^?lac0f-bpHhCd^UV+G9VQ=5@trb&_!u
zD9Tk~l$f##;_{{Kh>DDyKm{-%Ch}TdqOws~F9}D`c;-*JJcrw{52&02rrS;BMOxW+
z(lzo@F4)?USLb%7AGSx<vZ%z}f#RsiDAKoDDb>=-2?1rHDs9hZ8!I1fAARluTA89i
zFd#Lg??pvT^kl~JPTGgU4RXZoFN|ylVCWJAwJtgUqcxnCo{GXS80RWW5?3Yh^AiyE
zXJE`fUA}^rpkC9v2_#GlAD)FGV)PztGL?c>e*SLM!@xjxs`$0$EyR%PFiyT$)-Wp&
zKhEf&NF(X;S0ILG7)ml^5-@^G9>6<q15!W)n{bArU85KbLD7L1!cqj>JPuVGF!H6W
zcNo{7L<LEf{ycg9oPvFW3>y9gxXEwR>%S!9-;r^Q42Ff^)^g=WQd-euRKv;Al!p?-
zJ_I7xBEAB`>^enbWXV<7@_wyvbRdXuuDl)hr{0(pFoIvA7}v;P<%>~nUsuaQH)5h1
zGFst#u5u&;r;bbYsUi}EV`X<lqA=70BKv+Fb1BHaMkWNio$=RLSik~K?;FGShgS}-
zIomf~eh3WHtK{qyot+t3Y3$hjv7C=|;W4GN?f}@$Z-4%+&r7wVV(n<Q_Ba$W$QNm@
z_ncbyp3c}$XS}C(K`)*dqZi0la@LA;Wlk1X=CrhtEN3HbXIVP)Bpk_f3`-p+#g3Cw
z_|yXzq^MtJs#?3nn(k#sE>M#RG(S8mb&afbjpTwgo2157_9I!}$h%k9L;EtmeVNd{
zO=u&o-!InhUv`mK*Y~Y|;`(FPdgyS*cQ_L|Oc!JgXG87p9)IL`XKW3shkZkt&=4r&
zaF-^5vg}f@o7KZ>fjzm7PN*Z^?AR}LoEAGygZJJHb-X+ADDuwCT4*>|L6;6ycIB$;
zWx-*<4wZeIRduqAE?|es{a}Hiw9m!WHGO;ht?_q@9-e*2^TYU$rhYKBUVC=AB)9*-
za!IDTH&fG_@$Gq{EBYIG5)7?4es?U>azG3o*pOdx!8WMLcysK*7?f>54PZH==?BE7
z0jcSj*aQuOwYkbBnVrv7_v9)Yh$KG_;K0`G&-h5dwzN!EYADM=LkecycjP|=s&n<t
zzjJ2mwux&vZQ7c_qeTi2tcOX3@rKKnDQ$S))rhJz45GpgC{d_dvsbOea4*?U?aHmF
z_%O5|k<l2V+|x54y>}z*jZ{&nL@9)BHJ%+8J!k~HN<b(?ouRaY(YCd*#Kb#FnHf=_
zEt*;_u<g!>FB97aHV|VKYO#d-_3)}qS;EZ)1d4Xe1UPRj;djji8VC(F4yt8?V%HNI
znXi%Y$hShxO@A6~J*zFMrpGV}Bj!gYQccDr3ATt2gD3%lFcsGGQ*E@Z4#M4#1xV7R
zDMoE;VHy=pulFF$W;G@K33kL{#0Y@t&_{+Xr7;9X<o)*1QqbZywKWRdG*z$#B)e5%
zK5a%<gQzWw&3LO3!@zVm8rPgidaAd<W}BR&z8wvv1BT&@2zs@?$l1PI&A<@+pGcE4
zBIy-|U_kE$)y5bCdw~K11M=P|$AbPDQq$6(1)Jm!Y+};}sT~Y~M!p*n<-E-(pR}DZ
z1a!EL{qzf+So<ASoC_WW41u9q0b)jlI^(t%&VYR}>=j)V!OVbBIUx){S2Y>6FqZRO
zd@$a@9v0IUKU7l4?L;;RUMOyKU6sK%ZMc1o_)rvL+ihH-UZ)D0NwH$vSrH+^hOSX7
zTcf(GVau>><7UIShT)@{H~_YUkFqV{l7+*@SS8!NBvP7g0%1y$x3MYeuCKsjzL!-x
z3vpOw3R}1V>(xlHaFd+$z0F&A&AV}f!b}nZ^71`qv~Lz^X2kGLN|)&6yh}O3IX{Ct
z(S*N2Xn|4Be@V96ls*Fuji}<EQxHa2ehR{uN8o(XH1fDW(RR?mM3KvS^r$C=^As3o
z0*T6I6>!UB@HCZ&gmUFd??%}QvlN6SqTI#}3H*F1bZg$6(Khwqlq7jDm9}M1g}~Kt
zOX{6n3EXX={*ee=3k(prcCN1Rlj+fd&8~LQ-kx*SNv;9WHK3_@_7#%Bpo&3{t~qOS
zz(kve)|){JhBth{Oj*nOzE;pVEr&oX??U75wnIl$_jWoQx4wq<y&u}Qbedg45D_aP
zOJ_HIl^I{d!%8V~Xf1Lm=PxHM{;S<<e%xwMu}PN|DB;vCG}<|<T}ixq@?Tx}-i7tR
z!Hnx*CUB5;)6&^MvrJL01wg3{WC8<>TyD>}+A{&V@vx>{s_qi2yRy|iOBXg9JEg`W
zV&f42z}V(u_uenAdAo9<Iw{m4VoxkIkns(`+-Qw})O;9{BEw>2Sc+T`BUd0~+y)x5
z2_52V`p(3|$REzEdHYaiWK-JwNjq<0kigm=p5qV4lxrm_PeQs<-jVCfRCH!sT~Bb0
z#rgZ^u|-rm^hCb2B7-d~U!Qh^MU!&-14v+SEPi$cNxz75X_x-mTgUF(Xk81m=7vU=
zPs=C4-VY8wsi|Le{QlUoV>4L08k7ag#o)pBPDsO7Mf?S?qSH&+m6xp<oFi;Ikf}Kc
z=A*VP(>|1m3}tE$fmW~Y%yf-px<@kgN5CfN`<5*tj#fe$UKy^_ZOGL|a-oh~U5iw=
zSFGEc3%5z(K`}hI<>lP1&p117-YDm~_Ye!Rbe7Iy(w=MMy0>xT@X^PW|H~JbZSq;j
zpZbPAykzDo_RCnhuka{%bdpbQ+Y-a4CllNjSaALYTHK&lZETF4mrymTE#O1mrcupB
z5)f*-3r)N1I}`@`4AM{1O29r$pG^A8Ofk_i@{atDtGFkK6HtE?m)@T~gSi`LpwQi+
z0<k+|a8#3|#zp{X9M|{+H9NMZ8mx>6t3myGSRy=(IR%KjY66?O;4BlFw1E1x2qREK
zHLQclMqGh$$|@xao#Z;C4B9ts)rF#<vPxTB_0nqeC)M158xYD1lvf#s(DJt7k~a(J
zSmO-<#(@YyeTNb|iH0Gaq%w>4Kn-9`!DZa$Gd21qLaIrvoe@W%)>kVvQL(LR4E<@O
zw>({N@gZW-SF+=0B(4fN2`axpr79zsHZJaU6@c8mI}*VwT})^+w%}?&?W-wcL&*ZV
zjO_@6@^l!7X51)rwez+Gj0XtO>KhhDC9(f1B|)AgI!#=_f0#j+I{<$xZGhG@*f228
ziG5Ec;9x<^3G{`Q;E;(kMl?r>N+}#?O0;QP7II3sQ#zK=kxs}$eJsSR$RIIYlk@Rp
zO2LU$XIVe54%t$cBuBJkek#1558jHH9y{-sxT}>@Ew36`MO~@nOa-@+tE{-1LSrX+
zUYIes+fL6!L2j9{?+FOTX}i&~ZWvIp+wy<Dg|5f%&d%`RS82-|^lvO7KxHtUv7E+5
zX3%A=MP~$WKBQdxoy4sqGRh30Ds05dQiKt6-k}h%lRP687y4g}zcR^_QkSmq)!7s}
zM=3H1-6`uu7~P~e56L>m8HT)Y;#ZB!1o@N;{%BL4B=}B20+GqV(V$~@yG5#Hn)(Ql
zrI4lvM60UL5Gv`lMCl1ElENz#tAPxLAHPAiFd55aTq5HOWc)oD|3t<`7<tS5JalDP
z$?Ox%l+oXjGp?f}Z9D}kWZ0E$a+3(OGbgwZIO3EEY(`NpQtTLc#mTrq#vhPDq_}Vo
zzWERhO0{pJx&UC_$8Igc)p5Ag1xFB5@uU-x)RBm%Okr2i3QcLu#9svfor1O%RYY!K
z@5e0a#!;@*68|B}g(bcjG6fpl{QVG<ajS!h-%R)*2<v@x6I8HlbKtNva7r9FwPca(
z^?(FdZ4&NN!=HUWyU~r#<}EoO#MLzL=w`NY1VNS@%fo-|48B$KM7b^vl0zrNt`ph%
zlMHce&qNNsckppy-E}2b(Oz&3+NRSlIU8~B`bJ&<qnpyeMRDL_wr=eHCDIdciP80q
zqLT#boUMhlaIOLZ55uchrIul_WjND3oT)gxbT-$~BXta~bqo`!*t!;M{qv?j=l}iG
zkEi}Dkv(>0$-%e^5}uRnU823~;b+(FgPV=5vU&-r@sQYfh_o2vlChdj$jLPgKjkb<
z&|q8-oguEKjI)D8F+k1ce5aXQTce2UVCb4UvOHtAm$9qNaaY!UNNkDKP`ym_w5w_L
zrmWFo%?VY>HLE7vx`u{%qF!P1BD)ulx}v}W8N`}r&SFOi<imOgbM^ajjR$jORmi6o
zx*^{1-uJH9q>2s^fA&r)Va>`bYtC>k5Zv_EqtG&;$qu(_qfs8)+ekQ)+MvbY>7T;f
zjf67-cd<wqEWGbvsL>C=f&wuR5vCugV}yeN35RP-%pf+3zIuU&d506uq>K0>5`-X_
zlDCkp;B-7LSSJ@Xw*?AUc<GFVXP368LCnc<@nkXZv{B50vjxTJV*SLEajj%h5{sn|
zQFr`4E{0JHAr%9V`Hl%oDh?AW`seC-x<lL`oN;bcqo_s#Gl2V7ifbg9f}9M<PzLk<
zkF1<0FyozL2Oj_VdHsrYH9B3QiQhp<A8toB|31f)6vjWhY)FSBE`GIiKqBq@Asvr#
z@8RkiyGjm!&BT*L!mpHDVb4c=3xBGS39^zpP+-TkLluyiPT}mp4G?Exh>6e53Z%tB
zmJ9&FfrY7nMmq&+=*lf<c;l}CZ-NYgmQGh#7IzP;TCcEL#rY%?dDF6=q>E4D;p3z*
z?4qmzOeU_>1rQ<$B&{f4TRRWs6Y63pyolBtlP_F61FJx1cLauior4WBdCY#ATy=l)
zVzkexg}RHANw#*<xs06@+E94G626lRFBFBl!wc?hJL*>>9+?aYOeEqlNb)Hf`_OFj
zN#Sdl-2_IePyrcrA)F-J7#Sw=C6a+rHnLFsuhT1$JP}&~8S$IsN=f9sAa6*oS?uOb
z8I)vo;^D;@bEQFK%Ai6yV!-+^%KA{IB^G*jp$m44@I%bp$^VK%fGQ}LcK~tUfMo9x
z?L7})m3l|T-qCgYF^Kc}Ld&ma!hP%Ben2YjpyX;@bG2@kma$7!Y1OIAI3o|IGe=$!
zdtS)Z?Riuy)*ZppT@`uQD^?Bt@Ct4YKzz~H55#H2^C4%h_AH%8!nkK3)Vlhb7}^6J
zU%9&OhqGecNUmugWDmurGr8vdnZC1P^Es@56aibE1EVHrzgl@!s^2T(57(6*faWI2
z-XPi==+0Hr5hdFD8A-u5r<nkx=<Eabx2cHrZyq|jbb?eJt(=x>dPMxWde>c8lj#mN
zcj*ov$#qgB^+`Z<NTTv1+=JSPaHY+wu{9sIZrcEpy?Nxpk<~$|sb9ojU_c675Cazo
z2JC&%tCh;%FZs`i{xjH64xTlARAeqYYud7w0Pk{ffxVf%Co+3ZKEAqJY8n5<EzUG%
z3PLFS%}Wn1t)7;e2Soe@2c_USF?cQ$IG^)tbXul<|CX(&wEwA_GB6jFBCm4p!0>Z4
z!~6C=1&mT|rv@$#F%+;G+rTJ|K=?cs^xX&q8RLOcTnv9qU)cTF`Gbr#c0S~vI@#?i
zVO<o(0F{4COi|%h8J?ppb7}~V!w&5bBNPnPr%rkGkg5%2fQB})5*sY+pB(S?VTf;;
zj3(<75V8EiWg<$@8bLKz{b`uC)o2;k%Za@rtI?8-5*REu2x}m2N`wL<mT=((_7#h<
z&s%IHe8zS=4RD`dq1=V{-<dHo_Oo^l>usRgrW#e7{^ZT`rq@iw0RqV|RF-QLi}u!m
zqcp4OOtq;t{b`&U2u0dM(=ZcdXV0a_Q*FlWN(5rT?r5hPT7R;gLJi?5aOaG6n<1#k
z86iw?-KWP@Z8(lzEZecO=(<OOiAQn#ykGU#pJ`3Jl^xW*!p5(`{v~b>JgCNkI4Zs_
z`KRtl3#$cp;JH;Y9N!^0afYLM7Kw~8YCrF8<C5CkXpcDUojR)KuRq~>On*~tYWcu^
zw5x80SRn1&e(K)9zN}$y083QnG}i8>*YACDtH1s`X!D{gTw(i7VchQg6}0L9t+gph
zUl_HikG^ZPpYco}`;y`aqgjp!jvc?WPt6@SgZhPb{RTkv5K&n>ero8&K-zD3_&I<Z
z2uo?+0iqn7@umo>VL#xjJ`l#XKhV@P;8sMpQO~A5td3>7j1k;1`2TI+qcuPIOEkUy
zvrjQ1K9om9#2%w9ZHTXeU}luFCdH^rm?}cM3Mdv<LD3SGa^8Nip>phY?9x@b-fr^7
z-S8|Zasd|;#uGd{vrGi~&gEZAEY5EFWkvatEFP<9WL5=eza*!m6Yisl<ZKsoNz2z3
z8(wCJ+um4;GA9C=S1N*5(*o|}`7=U03mR^}Lg?5$G)-S(go^?hYvD+&7W9nPOlm6?
z$PNIJ{3eDXQ^qa)CT!SW(;OD;Ks^bI4lj%nB1`9&CuhP&s+?uHU|^>RrsmIt7k~mY
zi3T2b^fB>)3L^fQJT1c_nOp&F<_R7$=BO~lNkB2UQaPSMf#`B*sHPx{_aP)Q&koY+
z!4&9{fvW_bG9A8oj|!+p6O+@EDfzbg6lL=@GFHiOQfMZ4P)fD{8UGO;`7%9qxfaCm
zC1si58H#zHf_{Z;^JLtiNOYW-HZ|qz2nBMFk-Hn?LOBOazF&r0q+Di;-k@ZtWgyNB
zRfNzfRG=%HuwMqhvW}Ue^r((`AM&Bz0sbv(To!JUGx1c+8R8xj&@s*~pHgl*WV*ML
zdDCRR2%%V0<~=HODz{(Wqt}#@$@|G))e5b&u~u1jBb7R?wm)UAEqHx?5;quXBb-Sj
zFLdt0u^9#aFCd1KzYiK1+*%D+UH|Q_x4Is7i&cYbRhQoDlMY=H4_#XFKJm6?y^$r$
zRx#J!CAFOp+fLBQ;O1O=2R&Oh>wBg8qwDoYmq_2M<Z2XMjbP_QSL^Cm-m|Q`4l`HU
z{FYo1(FOkPy}tKdN4Kn8c+>>82f%G;=>5>p(&^2Lns0mG@=6t*Vnye})BkGhdt>jN
z$X1M!Gz8F4x`Qw0Z<PFlqJQu`+mAdy@QD7?bcXkgiI_;@p;}tm;oOQ0uDfgBE47~%
z+fQeFExGz8seVALACT&Y#QLH427fg2gOQ)?&DLK8T#7@}(8OEmQB>1PKDw*#Q8Q#5
zKH^NJ$4t3k^J?n5Uw-?`QroDAzu+j!?k>k+=XxkwCcVy@Qrl1tdC_0xQ)h9#XNm6W
z9yn=QIw3d9>fm=r-W~yq`GjOC_KP8CF2?<MP+lAsePL#47k%xys-|39r_^>_Y&#Ae
z%u?e)vGE{8bSwHGp<CfuIs>lNR{{0PTGZ8wpZYqsAediqXbaNnp*E>}SS%lg>bw%p
zRla=tJALcU_Km8h)$>2C+Vh}z*|fZ$C44|^Jn&xNM^!(l5*tq}dr=x$>~}ROwH*-K
z4!qYS4V@Q<&ae9}JRw1oL9u!eTB_J7;$|_}%q#@l=js}BIJMk)TI@W%<>YD(;1F_+
zf7y=u2W!Ltm|7@*rWmWAc|X{*RmoNF-Kv7F=cV&cDjVtcb&^j0Y31PkvrD5(caWM?
z*C*EXJ-Q~=4P#u@c1yL##M)zz2gKTQOJg}YuskF-3`q?mV#COLcd`wqGTu{5zXoHY
zrTt;O6gehFj%8bp)5YrH9w|I5hKF;()=cEkdoyC>!WL=Zd*B9KfO`eY>sIcp+yX1y
zHVC8az|*3lkbjGlFHo;-mumXOn*K*IvF5<i#Z6bW(v^oFb+5aQeo{x)eTt40w{_(E
z=*WJq>cG|ki0m&p87D1FWBS>KuH(y<(RG^E3omAW4ih&cz>Xg<acscjzXiB>8HiBA
z#Y=&Y8zS#A&OK>b1k#<h+#sE>#bYwa<c6*V`Pc)^zIg{b0YO$7EyEJ1VOmhpFRz*U
zJguI9Wiv3<klkz+n}!k%q>D{arr~}%x$`)zHan|R`9j++lb$+Xs{v<0RVP1>oS^#;
zpU}rZP+q72sH|ObV@h%PGdPjZi=o(fXcH>aUzTby3I}ikw)P;#QLSg`B0~AfmZvk`
zri{Ib^%xfWQCfM36@V@j%`RMq!&sz#=WT+-5(_nCv{JN}$##%zw9zOWBAc6ROfgB6
zUSnji?aF^i9<R{rT^P{SfwRd(6ANi_BNj`z&jOPXq1Re6-lkW!)Dn{^0EFR$hvWtk
z?!wCo{}a8Eu?Isb$-(#rw`IO;ww7#`HEdbQf~CP*w`F5i;8;yh9n8vGx~+AqC!TV6
zY<<yGY^_;MVqUP;VE!tu`N&*i^|Ol$x5%~?W^T7l)^f#>tXtznaNaVPS-lS@wm3W<
z@gLDc2?N_!4-0YKWDRcyLt9p|pg@5Nl9=1Fu~)1zP_53aF0RD$k(;ba63q1sW%Hpq
zYO-E1Dela^bxh8`$Xb;PH?1Cj+rCu<`=-OQlw96_|FxCo`(IftBKL=VZ+kP|UeU4V
zBP&8EiNFTgGpfPMRKC)xEh|}2zPg4j8?)NE68BQ-e$__~dR5{vAACg=bHqCQ$g#!Y
zk-2>3BYG-<VB0z>hnY25gSl|;RuNe?9W@_W$)bcK>(+I-A^~eND+Qh?M6hC|=)u7)
z8@-_%-lf#?)s?1|<VyR4FRt=pSw{v6-W{DEIS_y)_MsUzc}}7s5xFju(~$W(jJ$VZ
z7T2&a4bI7)*!2m4(6zjiwB<}d{Yw(MX=vIK@Dbuu$2Ht^5{&Q#dF<KAMgux;Q?%L2
zw@j!Pmh^zqp^I8dD2S@?wkI)r6SpYe6llvkU#3LtnY~U|ki@P-g>LGueEo`B^&`c)
zN%l420#*5n;vQVW!)P=0PG%34h2Xt>MPU$GUZRJo&|x>F;DA~|3Uc{MDXxEK+->)$
z$d^e6DIiI6<s${DFck=pZ;9$xb@b>~`5KSHLMa;w^5rn{y)k_S$!+uQQ9PpRr8Vr<
zASEho%H^92qHe#lrDtLK74`ZS;+XRd1wrL&L3(!F8p7@t$va6?vD$fbG$p^6xnOew
zdWNnu0TeKSst9#YAwx(Vb3KN>WK$!XwrHlzpZb+jP-{(1dlM>`a8$EL9tHJCOqTR$
zAX_6DO_V|Xa~a@5B5)b;1iQE=&aSnQF98p-pwPE92W=ELl{HIfrBuq87t5*#yGFN|
zQs<;V=wZIRzz>^X6RKxBc~&w{8kG>o?qRG_kGy=c30&6x+@mUc?m!f#GB?kzVd~Ki
zq@wM>r_Av5Iij&~fiTmqke7=LnWRFEsBEoLiZzW3hbO_=#}Yl0GhlR+LN^twc3ZKi
zqi72b!X)e#9-)WI(MtinYCvTL7WR<WAQ?>ToDdFSl#G*PjFG|CJbAgJ*DsI}CF5&k
z{1F*{LdFMVFgBNFpdG7K-ad?CgK-}b{sMCn{<!2Lm|I0AlL_RWspLO!&JVbjpK<L!
z<9bD|_is7Z2VCU`+@24(why?yu>6cW{Q)=dGwy|7nk^>tha8N5DB(<JOdoIu{=sa<
zTQO%khPUCr;~Moazbq++7YE~)9?tYx`1gLmwSK@I`he^Ifb08tk?#Y`u@5Z!Kd=mb
zU>W|va^M3?+s_@r<<Ddtb@z%f7n_~GG#8r!xYpMcz+7u~;+|i;`k9A?JYXmu^y*<A
zHdFH!2Sf3o*C5y3o8kP+CsqP0Q!DjiFp}kZwu-%`>W5$4;_!HEd7S#O^C?*&yF>Zj
zHJRGCAP;P6SJGh)uTd#}X@1FUD%s-5R6Lo(oCTpXozVD$=STKRQ`OdiS4}2Awy(B|
y$g){lyJaN{>Q)?hYGYQ&>YAO;%uZ8Vrhea34o@Xb*nU}a#cgW-h$E9NG5;?}avr<@

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
new file mode 100644
index 0000000..ab2eeed
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
@@ -0,0 +1,379 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from collections.abc import Iterable
+from dataclasses import dataclass
+from itertools import islice
+from typing import Any
+
+import torch
+import zmq
+from lmcache.utils import _lmcache_nvtx_annotate, init_logger
+from lmcache.v1.multiprocess.custom_types import (
+    CudaIPCWrapper,
+    IPCCacheEngineKey,
+    KVCache,
+)
+from lmcache.v1.multiprocess.mq import MessageQueueClient, MessagingFuture
+from lmcache.v1.multiprocess.protocol import RequestType, get_response_class
+
+logger = init_logger(__name__)
+
+
+def wrap_kv_caches(kv_caches: dict[str, KVCache]) -> KVCache:
+    logger.info("KV caches keys are %s", list(kv_caches.keys()))
+    return [CudaIPCWrapper(tensor) for tensor in kv_caches.values()]
+
+
+def send_lmcache_request(
+    mq_client: MessageQueueClient,
+    request_type: RequestType,
+    payloads: list[Any],
+) -> MessagingFuture[Any]:
+    future = mq_client.submit_request(
+        request_type, payloads, get_response_class(request_type)
+    )
+    return future
+
+
+def get_lmcache_chunk_size(
+    mq_client: MessageQueueClient,
+) -> int:
+    future = send_lmcache_request(mq_client, RequestType.GET_CHUNK_SIZE, [])
+    chunk_size = future.result()
+    return chunk_size
+
+
+def striding_block_hashes(
+    block_hashes: list[bytes],
+    blocks_in_chunk,
+) -> Iterable[bytes]:
+    """Striding the block hashes to get the block hashes for each chunk.
+    For example, if blocks_in_chunk is 16, then we will get the block hashes
+    for the 16th, 32nd, 48th, ... blocks.
+    """
+    return islice(block_hashes, blocks_in_chunk - 1, None, blocks_in_chunk)
+
+
+@dataclass
+class LoadStoreOp:
+    block_hashes: list[bytes]
+    block_ids: list[int]
+
+    def __len__(self) -> int:
+        return len(self.block_hashes)
+
+    def __post_init__(self):
+        assert len(self.block_hashes) == len(self.block_ids), (
+            "The number of block hashes should be equal to the number of block ids "
+            f"But got {len(self.block_hashes)} and {len(self.block_ids)}"
+        )
+
+
+StoreResult = bool
+RetrieveResult = list[bool]
+LookupResult = list[bool]
+
+
+class LMCacheMPSchedulerAdapter:
+    def __init__(
+        self,
+        server_url: str,
+        context: zmq.Context,
+        model_name: str,
+        world_size: int,
+        kv_rank: int,
+        vllm_block_size: int,
+    ):
+        """
+        Args:
+            server_url: The server URL for the LMCache message queue
+            context: The ZMQ context
+
+            model_name: The model name used for LMCache keys
+            world_size: The world size used for LMCache keys
+            kv_rank: The kv rank used for LMCache keys
+            vllm_block_size: The block size used in vLLM
+        """
+        self.mq_client = MessageQueueClient(server_url, context)
+
+        # Request futures
+        self.lookup_futures: dict[str, MessagingFuture[LookupResult]] = {}
+
+        self.model_name = model_name
+        self.world_size = world_size
+        self.worker_id = kv_rank
+
+        # Read chunk size from lmcache
+        self.chunk_size = get_lmcache_chunk_size(self.mq_client)
+        assert self.chunk_size % vllm_block_size == 0, (
+            "LMCache chunk size should be a multiple of vLLM block size"
+        )
+        self.blocks_in_chunk = self.chunk_size // vllm_block_size
+
+    @_lmcache_nvtx_annotate
+    def maybe_submit_lookup_request(self, request_id: str, block_hashes: list[bytes]):
+        if request_id in self.lookup_futures:
+            # Skip if there is already a lookup request
+            return
+
+        s = striding_block_hashes(block_hashes, self.blocks_in_chunk)
+        keys = [self._create_key(block_hash) for block_hash in s]
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.LOOKUP,
+            [keys, True],
+        )
+        self.lookup_futures[request_id] = future
+
+    @_lmcache_nvtx_annotate
+    def check_lookup_result(self, request_id: str) -> int | None:
+        assert request_id in self.lookup_futures, (
+            f"Lookup request for request_id={request_id} has not been submitted"
+        )
+
+        future = self.lookup_futures[request_id]
+        if not future.query():
+            return None
+
+        result = future.result()
+        num_chunks = sum(result)
+        return num_chunks * self.chunk_size
+
+    def num_blocks_per_chunk(self) -> int:
+        """
+        Returns:
+            The number of vllm blocks in a LMCache data chunk
+        """
+        return self.blocks_in_chunk
+
+    # Helper functions
+    def _create_key(self, block_hash: bytes) -> IPCCacheEngineKey:
+        """Convert a block hash to an IPC cache engine key"""
+        return IPCCacheEngineKey(
+            model_name=self.model_name,
+            world_size=self.world_size,
+            worker_id=self.worker_id,
+            chunk_hash=block_hash,
+        )
+
+
+class LMCacheMPWorkerAdapter:
+    def __init__(
+        self,
+        server_url: str,
+        context: zmq.Context,
+        model_name: str,
+        world_size: int,
+        kv_rank: int,
+        vllm_block_size: int,
+    ):
+        self.mq_client = MessageQueueClient(server_url, context)
+
+        # Instance id for GPU worker
+        self.instance_id = os.getpid()
+
+        # Registered kv caches from vLLM
+        self.kv_caches: dict[str, torch.Tensor] = {}
+
+        # Request futures
+        # request_id -> (future, other merged requests)
+        self.store_futures: dict[
+            str, tuple[MessagingFuture[StoreResult], list[str]]
+        ] = {}
+        self.retrieve_futures: dict[
+            str, tuple[MessagingFuture[RetrieveResult], list[str]]
+        ] = {}
+
+        self.finished_stores: set[str] = set()
+        self.previously_finished: set[str] = set()
+
+        self.model_name = model_name
+        self.world_size = world_size
+        self.worker_id = kv_rank
+
+        # Read chunk size from lmcache
+        chunk_size = get_lmcache_chunk_size(self.mq_client)
+        assert chunk_size % vllm_block_size == 0, (
+            "LMCache chunk size should be a multiple of vLLM block size"
+        )
+        self.blocks_in_chunk = chunk_size // vllm_block_size
+
+    def register_kv_caches(self, kv_caches: dict[str, KVCache]):
+        # Register kv cache and send the request
+        self.kv_caches = kv_caches
+        logger.info("Registering kv caches")
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.REGISTER_KV_CACHE,
+            [self.instance_id, wrap_kv_caches(kv_caches)],
+        )
+        future.result()
+
+    @_lmcache_nvtx_annotate
+    def submit_store_request(
+        self, request_id: str, op: LoadStoreOp, event: torch.cuda.Event
+    ):
+        keys = self._block_hashes_to_keys(op.block_hashes)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.STORE,
+            [keys, self.instance_id, op.block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.store_futures[request_id] = (future, [])
+
+    @_lmcache_nvtx_annotate
+    def submit_retrieve_request(
+        self, request_id: str, op: LoadStoreOp, event: torch.cuda.Event
+    ):
+        keys = self._block_hashes_to_keys(op.block_hashes)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.RETRIEVE,
+            [keys, self.instance_id, op.block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.retrieve_futures[request_id] = (future, [])
+
+    @_lmcache_nvtx_annotate
+    def batched_submit_store_requests(
+        self,
+        request_ids: list[str],
+        ops: list[LoadStoreOp],
+        event: torch.cuda.Event,
+    ):
+        keys = []
+        block_ids = []
+        for op in ops:
+            keys.extend(self._block_hashes_to_keys(op.block_hashes))
+            block_ids.extend(op.block_ids)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.STORE,
+            [keys, self.instance_id, block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.store_futures[request_ids[0]] = (future, request_ids[1:])
+
+    @_lmcache_nvtx_annotate
+    def batched_submit_retrieve_requests(
+        self,
+        request_ids: list[str],
+        ops: list[LoadStoreOp],
+        event: torch.cuda.Event,
+    ):
+        keys = []
+        block_ids = []
+        for op in ops:
+            keys.extend(self._block_hashes_to_keys(op.block_hashes))
+            block_ids.extend(op.block_ids)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.RETRIEVE,
+            [keys, self.instance_id, block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.retrieve_futures[request_ids[0]] = (future, request_ids[1:])
+
+    @_lmcache_nvtx_annotate
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        finished_stores = set()
+        finished_retrieves = set()
+        for request_id, (future, other_reqs) in self.store_futures.items():
+            if not future.query():
+                continue
+
+            result = future.result()
+            finished_stores.add(request_id)
+            finished_stores.update(other_reqs)
+
+            if not result:
+                # TODO: add error handling here
+                logger.error(
+                    "Something went wrong when processing the "
+                    "store request for request_id=%s",
+                    request_id,
+                )
+
+        for request_id, (future, other_reqs) in self.retrieve_futures.items():
+            if not future.query():
+                continue
+
+            result = future.result()
+            finished_retrieves.add(request_id)
+            finished_retrieves.update(other_reqs)
+
+            if not all(result):
+                # TODO: add error handing here
+                logger.error(
+                    "Something went wrong when processing the "
+                    "retrieve request for request_id=%s, result=%s",
+                    request_id,
+                    result,
+                )
+            logger.info("Retrieve request for request_id=%s finished", request_id)
+
+        # Remove the finished requests from the tracking dicts
+        for request_id in finished_stores:
+            self.store_futures.pop(request_id, None)
+        for request_id in finished_retrieves:
+            self.retrieve_futures.pop(request_id, None)
+
+        # Update the internal states
+        self.finished_stores.update(finished_stores)
+
+        ret_stores = set()
+        for req_id in finished_req_ids:
+            if req_id in self.finished_stores or req_id in self.store_futures:
+                self.previously_finished.add(req_id)
+            else:
+                ret_stores.add(req_id)
+
+        # Calculate the final finished stores
+        ret_stores.update(self._update_and_get_finished_store())
+
+        return ret_stores, finished_retrieves
+
+    def num_blocks_per_chunk(self) -> int:
+        """
+        Returns:
+            The number of vllm blocks in a LMCache data chunk
+        """
+        return self.blocks_in_chunk
+
+    def shutdown(self):
+        # Unregister kv cache
+        logger.info("Unregistering kv caches")
+        send_lmcache_request(
+            self.mq_client, RequestType.UNREGISTER_KV_CACHE, [self.instance_id]
+        ).result()
+
+        self.mq_client.close()
+
+    # Helper functions
+    def _update_and_get_finished_store(
+        self,
+    ) -> set[str]:
+        """Converge the internal states about finished stores
+        and returns the 'safe finished store request ids' back
+        """
+        safe_finished_s = self.finished_stores.intersection(self.previously_finished)
+        self.finished_stores.difference_update(self.previously_finished)
+        self.previously_finished.difference_update(safe_finished_s)
+
+        return safe_finished_s
+
+    def _create_key(self, block_hash: bytes) -> IPCCacheEngineKey:
+        """Convert a block hash to an IPC cache engine key"""
+        return IPCCacheEngineKey(
+            model_name=self.model_name,
+            world_size=self.world_size,
+            worker_id=self.worker_id,
+            chunk_hash=block_hash,
+        )
+
+    def _block_hashes_to_keys(
+        self, block_hashes: list[bytes]
+    ) -> list[IPCCacheEngineKey]:
+        """Convert block hashes to IPC cache engine keys"""
+        s = striding_block_hashes(block_hashes, self.blocks_in_chunk)
+        return [self._create_key(block_hash) for block_hash in s]
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/utils.py b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/utils.py
new file mode 100644
index 0000000..0e87dea
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/utils.py
@@ -0,0 +1,221 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Standard
+import os
+import threading
+from typing import TYPE_CHECKING, Union
+
+import torch
+from lmcache.config import LMCacheEngineConfig as Config
+from lmcache.logging import init_logger
+from lmcache.v1.config import LMCacheEngineConfig as V1Config
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+    from vllm.multimodal.inputs import PlaceholderRange
+    from vllm.v1.core.sched.output import NewRequestData
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+ENGINE_NAME = "vllm-instance"
+
+# Thread-safe singleton storage
+_config_instance: Config | V1Config | None = None
+_config_lock = threading.Lock()
+
+
+def is_false(value: str) -> bool:
+    """Check if the given string value is equivalent to 'false'."""
+    return value.lower() in ("false", "0", "no", "n", "off")
+
+
+def lmcache_get_or_create_config() -> Config | V1Config:
+    """Get the LMCache configuration from the environment variable
+    `LMCACHE_CONFIG_FILE`. If the environment variable is not set, this
+    function will return the default configuration.
+
+    This function is thread-safe and implements singleton pattern,
+    ensuring the configuration is loaded only once.
+    """
+    global _config_instance
+
+    # Double-checked locking for thread-safe singleton
+    if _config_instance is None:
+        with _config_lock:
+            if _config_instance is None:  # Check again within lock
+                if is_false(os.getenv("LMCACHE_USE_EXPERIMENTAL", "True")):
+                    logger.warning(
+                        "Detected LMCACHE_USE_EXPERIMENTAL is set to False. "
+                        "Using legacy configuration is deprecated and will "
+                        "be remove soon! Please set LMCACHE_USE_EXPERIMENTAL "
+                        "to True."
+                    )
+                    LMCacheEngineConfig = Config  # type: ignore[assignment]
+                else:
+                    LMCacheEngineConfig = V1Config  # type: ignore[assignment]
+
+                if "LMCACHE_CONFIG_FILE" not in os.environ:
+                    logger.warning(
+                        "No LMCache configuration file is set. Trying to read"
+                        " configurations from the environment variables."
+                    )
+                    logger.warning(
+                        "You can set the configuration file through "
+                        "the environment variable: LMCACHE_CONFIG_FILE"
+                    )
+                    _config_instance = LMCacheEngineConfig.from_env()
+                else:
+                    config_file = os.environ["LMCACHE_CONFIG_FILE"]
+                    logger.info("Loading LMCache config file %s", config_file)
+                    _config_instance = LMCacheEngineConfig.from_file(config_file)
+                    # Update config from environment variables
+                    _config_instance.update_config_from_env()
+    return _config_instance
+
+
+def hex_hash_to_int16(s: str) -> int:
+    """
+    Convert a hex hash string to a 16-bit integer.
+    """
+    return int(s, 16) & 0xFFFF
+
+
+def apply_mm_hashes_to_token_ids(
+    token_ids: torch.Tensor,
+    mm_hashes: list[str],
+    mm_positions: list["PlaceholderRange"],
+) -> torch.Tensor:
+    """
+    Overwrite token_ids in-place for multimodal placeholders using
+    efficient slice assignments.
+    """
+    n = token_ids.size(0)
+    for hash_str, placeholder in zip(mm_hashes, mm_positions):
+        start, length = placeholder.offset, placeholder.length
+        if start >= n:
+            continue
+        end = min(start + length, n)
+        token_ids[start:end] = hex_hash_to_int16(hash_str)
+    return token_ids
+
+
+def mla_enabled(model_config: "ModelConfig") -> bool:
+    return (
+        hasattr(model_config, "use_mla")
+        and isinstance(model_config.use_mla, bool)
+        and model_config.use_mla
+    )
+
+
+def create_lmcache_metadata(
+    vllm_config=None, model_config=None, parallel_config=None, cache_config=None
+):
+    """
+    Create LMCacheEngineMetadata from vLLM configuration.
+
+    This function extracts common metadata creation logic that was duplicated
+    across multiple files.
+
+    Args:
+        vllm_config (VllmConfig): vLLM configuration object containing model,
+                                  parallel, and cache configs (alternative to
+                                  individual config parameters)
+        model_config (ModelConfig): Model configuration (alternative to
+                                    vllm_config)
+        parallel_config (ParallelConfig): Parallel configuration (alternative
+                                          to vllm_config)
+        cache_config (CacheConfig): Cache configuration (alternative to
+                                    vllm_config)
+    """
+    # Third Party
+    # First Party
+    from lmcache.config import LMCacheEngineMetadata
+
+    from vllm.utils.torch_utils import get_kv_cache_torch_dtype
+
+    config = lmcache_get_or_create_config()
+    # Support both vllm_config object and individual config parameters
+    if vllm_config is not None:
+        model_cfg = vllm_config.model_config
+        parallel_cfg = vllm_config.parallel_config
+        cache_cfg = vllm_config.cache_config
+    else:
+        if model_config is None or parallel_config is None or cache_config is None:
+            raise ValueError(
+                "Either vllm_config must be provided, or all of "
+                "model_config, parallel_config, and cache_config must be provided."
+            )
+        model_cfg = model_config
+        parallel_cfg = parallel_config
+        cache_cfg = cache_config
+
+    # Get KV cache dtype
+    kv_dtype = get_kv_cache_torch_dtype(cache_cfg.cache_dtype, model_cfg.dtype)
+
+    # Check if MLA is enabled
+    use_mla = mla_enabled(model_cfg)
+
+    # Construct KV shape (for memory pool)
+    num_layer = model_cfg.get_num_layers(parallel_cfg)
+    chunk_size = config.chunk_size
+    num_kv_head = model_cfg.get_num_kv_heads(parallel_cfg)
+    head_size = model_cfg.get_head_size()
+    kv_shape = (num_layer, 1 if use_mla else 2, chunk_size, num_kv_head, head_size)
+
+    # Create metadata
+    metadata = LMCacheEngineMetadata(
+        model_cfg.model,
+        parallel_cfg.world_size,
+        parallel_cfg.rank,
+        "vllm",
+        kv_dtype,
+        kv_shape,
+        use_mla,
+    )
+
+    return metadata, config
+
+
+def extract_mm_features(
+    request: Union["Request", "NewRequestData"], modify: bool = False
+) -> tuple[list[str], list["PlaceholderRange"]]:
+    """
+    Normalize multimodal information from a Request into parallel lists.
+
+    This helper reads either:
+      1) `request.mm_features` (objects each exposing `.identifier` and
+      `.mm_position`), or
+      2) legacy fields `request.mm_hashes` and `request.mm_positions`.
+
+    It returns two equally sized lists: the multimodal hash identifiers and
+    their corresponding positions. If the request contains no multimodal info,
+    it returns `([], [])`.
+
+    Args:
+        request (Request): The source object.
+        modify (bool):
+            Controls copy semantics for the legacy-path return values.
+            - If True and legacy fields are used, shallow-copies are returned so
+              the caller can mutate the lists without affecting `request`.
+            - If False, the original legacy sequences are returned as-is
+              (zero-copy); treat them as read-only.
+
+    Returns:
+        tuple[list[str], list[PlaceholderRange]]: (`mm_hashes`, `mm_positions`).
+        May be `([], [])` when no multimodal data is present.
+    """
+    if getattr(request, "mm_features", None):
+        mm_hashes, mm_positions = zip(
+            *((f.identifier, f.mm_position) for f in request.mm_features)
+        )
+        return (list(mm_hashes), list(mm_positions))
+    elif getattr(request, "mm_hashes", None):
+        if modify:
+            return (
+                request.mm_hashes.copy(),  # type: ignore
+                request.mm_positions.copy(),  # type: ignore
+            )
+        else:
+            return (request.mm_hashes, request.mm_positions)  # type: ignore
+    else:
+        return ([], [])
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
new file mode 100644
index 0000000..94572b0
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
@@ -0,0 +1,1411 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Standard
+import os
+import uuid
+from collections.abc import Generator
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+from lmcache import utils
+from lmcache.config import LMCacheEngineMetadata
+from lmcache.logging import init_logger
+from lmcache.observability import LMCStatsMonitor
+from lmcache.utils import _lmcache_nvtx_annotate
+from lmcache.v1.cache_engine import LMCacheEngine, LMCacheEngineBuilder
+from lmcache.v1.compute.blend import LMCBlenderBuilder
+from lmcache.v1.config import LMCacheEngineConfig, _validate_and_set_config_value
+from lmcache.v1.gpu_connector import (
+    VLLMBufferLayerwiseGPUConnector,
+    VLLMPagedMemGPUConnectorV2,
+    VLLMPagedMemLayerwiseGPUConnector,
+)
+from lmcache.v1.internal_api_server.api_server import InternalAPIServer
+from lmcache.v1.lookup_client import LookupClientFactory
+from lmcache.v1.lookup_client.lmcache_async_lookup_client import (
+    LMCacheAsyncLookupServer,
+)
+from lmcache.v1.offload_server.zmq_server import ZMQOffloadServer
+from lmcache.v1.plugin.plugin_launcher import PluginLauncher
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration.utils import (
+    ENGINE_NAME,
+    apply_mm_hashes_to_token_ids,
+    extract_mm_features,
+    lmcache_get_or_create_config,
+    mla_enabled,
+)
+from vllm.distributed.parallel_state import get_tensor_model_parallel_rank, get_tp_group
+from vllm.sampling_params import SamplingParams
+from vllm.utils.math_utils import cdiv
+from vllm.utils.torch_utils import get_kv_cache_torch_dtype
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.version import __version__ as VLLM_VERSION
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.multimodal.inputs import PlaceholderRange
+    from vllm.v1.core.kv_cache_manager import KVCacheManager
+    from vllm.v1.core.sched.output import NewRequestData
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class LoadSpec:
+    # Number of tokens cached in vLLM
+    vllm_cached_tokens: int
+    # Number of tokens that are cached in LMCache
+    lmcache_cached_tokens: int
+    # Whether the scheduler allow us to load the tokens
+    can_load: bool
+
+
+@dataclass
+class SaveSpec:
+    # Skip already saved tokens
+    skip_leading_tokens: int
+    # Whether the scheduler allow us to save the tokens
+    can_save: bool
+
+
+@dataclass
+class DisaggSpec:
+    req_id: str
+    receiver_id: str
+    receiver_host: str
+    receiver_init_port: int
+    receiver_alloc_port: int
+    is_last_prefill: bool = False
+    num_transferred_tokens: int = 0
+
+
+tmp_disagg_tracker: dict[str, DisaggSpec] = {}
+
+
+def extract_request_configs(sampling_params: SamplingParams) -> dict | None:
+    request_configs = None
+    if (
+        sampling_params.extra_args is not None
+        and "kv_transfer_params" in sampling_params.extra_args
+    ):
+        kv_transfer_params = sampling_params.extra_args.get("kv_transfer_params")
+        if kv_transfer_params is None:
+            return None
+        assert isinstance(kv_transfer_params, dict)
+        for k, v in kv_transfer_params.items():
+            if k.startswith("lmcache."):
+                if request_configs is None:
+                    request_configs = {}
+                request_configs[k] = v
+    return request_configs
+
+
+@dataclass
+class RequestTracker:
+    # Request id
+    req_id: str
+
+    # Total prompt token length
+    prompt_len: int
+
+    # The token ids that has been scheduled so far
+    token_ids: list[int]
+
+    # The block ids that has been allocated so far
+    # NOTE: allocated blocks could be more than the number of tokens
+    allocated_block_ids: list[int]
+
+    # The number of tokens that has been saved
+    num_saved_tokens: int = 0
+
+    # Disagg spec for the request
+    disagg_spec: DisaggSpec | None = None
+
+    # Multimodal hashes and positions
+    mm_hashes: list[str] | None = None
+    mm_positions: list["PlaceholderRange"] | None = None
+
+    # The configs of the request, includes tags and other configs
+    request_configs: dict | None = None
+
+    # Whether the request is in decode phase
+    is_decode_phase = False
+
+    # Whether the request cache should be saved
+    skip_save: bool = False
+
+    @_lmcache_nvtx_annotate
+    @staticmethod
+    def from_new_request(
+        lmcache_config: LMCacheEngineConfig,
+        new_request: "NewRequestData",
+        num_tokens_to_compute: int,
+        lmcache_cached_tokens: int,
+        skip_save: bool,
+    ) -> "RequestTracker":
+        """Create the request tracker from a new request.
+
+        Args:
+            lmcache_config (LMCacheEngineConfig): the LMCache engine config.
+            new_request (NewRequestData): the new request data.
+            num_tokens_to_compute (int): the number of tokens that will
+                be 'computed', including the `num_computed_tokens` (vLLM's
+                local cache hit) and new tokens that will be scheduled.
+            lmcache_cached_tokens (int): the number of tokens that are
+                cached in LMCache.
+            skip_save (bool): whether the request cache should be saved
+        """
+        # vLLM 0.9.0 update: request.block_ids changed from list[int] to
+        # list[list[int]]
+        # Need to check the type of request.block_ids
+
+        unfolded_block_ids = []
+
+        if not isinstance(new_request.block_ids[0], list):
+            unfolded_block_ids = new_request.block_ids.copy()
+        else:
+            # According to the vLLM code
+            # (https://github.com/vllm-project/vllm/blob/main/vllm/v1/core/
+            # sched/scheduler.py#L943),
+            # only one KVCacheGroup is supported in connector for now.
+            unfolded_block_ids = new_request.block_ids[0].copy()
+
+        # NOTE: Initialized in `update_state_after_alloc`
+        disagg_spec = tmp_disagg_tracker.pop(new_request.req_id, None)
+
+        if new_request.sampling_params:
+            request_configs = extract_request_configs(new_request.sampling_params)
+        else:
+            request_configs = None
+
+        mm_hashes, mm_positions = extract_mm_features(new_request, modify=True)
+
+        assert new_request.prompt_token_ids is not None
+        return RequestTracker(
+            req_id=new_request.req_id,
+            prompt_len=len(new_request.prompt_token_ids),
+            token_ids=new_request.prompt_token_ids[:num_tokens_to_compute].copy(),
+            allocated_block_ids=unfolded_block_ids,
+            num_saved_tokens=lmcache_cached_tokens,
+            disagg_spec=disagg_spec,
+            mm_hashes=mm_hashes,
+            mm_positions=mm_positions,
+            skip_save=skip_save,
+            request_configs=request_configs,
+        )
+
+    def update(
+        self,
+        new_token_ids: list[int],
+        new_block_ids: tuple[list[int], ...] | None | list[int],
+    ) -> None:
+        """Update the request tracker when a running request is
+        scheduled again
+        """
+
+        self.token_ids.extend(new_token_ids)
+
+        if new_block_ids is None:
+            # https://github.com/vllm-project/vllm/commit/
+            # b029de9902aa3ac58806c8c17776c7074175b6db
+            new_block_ids = []
+        elif len(new_block_ids) == 0:
+            new_block_ids = []
+        elif isinstance(new_block_ids, tuple):
+            new_block_ids = new_block_ids[0]
+        elif isinstance(new_block_ids, list):
+            pass
+        else:
+            raise ValueError(f"Unsupported new_block_ids type {type(new_block_ids)}")
+        self.allocated_block_ids.extend(new_block_ids)
+
+        # When a request is scheduled again, and the number of new tokens
+        # is 1 (excluding chunked prefill), the request is in decode phase.
+        if len(new_token_ids) == 1:
+            self.is_decode_phase = True
+
+
+@dataclass
+class ReqMeta:
+    # Request id
+    req_id: str
+    # Request tokens
+    token_ids: list[int]  # torch.Tensor
+    # Slot mapping
+    slot_mapping: torch.Tensor
+
+    # Whether is last prefill or not
+    is_last_prefill: bool = False
+
+    # Skip save or not
+    save_spec: SaveSpec | None = None
+    # load_spec
+    load_spec: LoadSpec | None = None
+    # disagg spec
+    disagg_spec: DisaggSpec | None = None
+    # the configs of the request
+    request_configs: dict | None = None
+
+    @staticmethod
+    def from_request_tracker(
+        tracker: RequestTracker,
+        block_size: int,
+        lmcache_chunk_size: int = 256,
+        load_spec: LoadSpec | None = None,
+        discard_partial_chunks: bool = True,
+        save_decode_cache: bool = False,
+    ) -> Optional["ReqMeta"]:
+        """Create the request metadata from a request tracker.
+
+        Args:
+            tracker (RequestTracker): the request tracker.
+            block_size (int): the block size in vLLM.
+            lmcache_chunk_size (int): the chunk size for LMCache.
+            load_spec (Optional[LoadSpec]): the load spec for KV cache loading.
+            discard_partial_chunks (bool): whether to discard partial chunks.
+            save_decode_cache (bool): whether to save the cache in decode phase.
+
+        Returns:
+            the request metadata if we need to perform load/save
+            operations, None otherwise.
+        """
+        input_token_ids = tracker.token_ids
+        input_token_len = len(input_token_ids)
+
+        is_last_prefill = False
+        if input_token_len == tracker.prompt_len:
+            is_last_prefill = True
+
+        # For save operation: do not save if the following condition is met
+        # 1. has already been saved before (num_saved_tokens > 0)
+        # 2. number of unsaved tokens is not reached the chunk boundary
+        # 3. if save_decode_cache is False and it is in decode phase
+
+        skip_leading_tokens = tracker.num_saved_tokens
+        chunk_boundary = (
+            cdiv(tracker.num_saved_tokens + 1, lmcache_chunk_size) * lmcache_chunk_size
+        )
+
+        # NOTE(vladnosiv): for disagg, you cannot skip saving, as saving is a
+        # trqansfer. Check if request_configs has lmcache.skip_save set to True
+        request_skip = (tracker.request_configs or {}).get("lmcache.skip_save", False)
+
+        skip_save = tracker.disagg_spec is None and (
+            tracker.skip_save
+            or (tracker.num_saved_tokens > 0 and input_token_len < chunk_boundary)
+            or (tracker.is_decode_phase and not save_decode_cache)
+            or request_skip
+        )
+
+        if skip_save and load_spec is None:
+            return None
+
+        # Calculate number of tokens to save based on discard_partial_chunks
+        # setting
+
+        # NOTE(vladnosiv): for the input_token_len chunk prefill,
+        # we are required to discard partial chunks,
+        # as new tokens will be added in the next iteration.
+        num_tokens_to_save = (
+            (input_token_len // lmcache_chunk_size * lmcache_chunk_size)
+            if not is_last_prefill or discard_partial_chunks
+            else input_token_len
+        )
+
+        # If we need to save, update the number of saved tokens
+        if not skip_save:
+            tracker.num_saved_tokens = num_tokens_to_save
+        save_spec = SaveSpec(skip_leading_tokens, not skip_save)
+
+        # Calculate the token ids and slot mappings for load and save
+        token_ids = input_token_ids[:num_tokens_to_save]
+
+        # If the request has multimodal hashes, apply them to the token ids
+        if tracker.mm_hashes:
+            token_ids_tensor = torch.tensor(token_ids)
+            assert tracker.mm_positions is not None, (
+                "tracker got mm_hashes but no mm_positions"
+            )
+            apply_mm_hashes_to_token_ids(
+                token_ids_tensor, tracker.mm_hashes, tracker.mm_positions
+            )
+            token_ids = token_ids_tensor.tolist()
+
+        num_blocks = len(tracker.allocated_block_ids)
+
+        if len(token_ids) > num_blocks * block_size:
+            logger.error(
+                "The number of tokens is more than the number of blocks."
+                "Something might be wrong in scheduling logic!"
+            )
+            logger.error(
+                "Num tokens: %d, num blocks: %d, block size: %d",
+                len(token_ids),
+                num_blocks,
+                block_size,
+            )
+
+        block_ids = torch.tensor(tracker.allocated_block_ids, dtype=torch.long)
+        block_offsets = torch.arange(0, block_size, dtype=torch.long)
+        slot_mapping = (
+            block_offsets.reshape((1, block_size))
+            + block_ids.reshape((num_blocks, 1)) * block_size
+        )
+
+        slot_mapping = slot_mapping.flatten()[: len(token_ids)]
+        assert slot_mapping.dtype == torch.long
+
+        # For load operation: check whether the request is scheduled to load
+        if load_spec is not None and load_spec.can_load:
+            logger.debug(
+                "Scheduled to load %d tokens for request %s",
+                load_spec.lmcache_cached_tokens,
+                tracker.req_id,
+            )
+        else:
+            # Do not load if not in `can_load` state
+            load_spec = None
+
+        return ReqMeta(
+            req_id=tracker.req_id,
+            token_ids=token_ids,
+            slot_mapping=slot_mapping,
+            is_last_prefill=is_last_prefill,
+            save_spec=save_spec,
+            load_spec=load_spec,
+            disagg_spec=tracker.disagg_spec,
+            request_configs=tracker.request_configs,
+        )
+
+
+def need_gpu_interm_buffer(lmcache_config: LMCacheEngineConfig):
+    return not lmcache_config.enable_pd
+
+
+def _calculate_mtp_layers(vllm_config, model_config):
+    num_mtp_layers = 0
+    if vllm_config is not None and vllm_config.speculative_config is not None:
+        logger.info(
+            "vllm_config.speculative_config: %s", vllm_config.speculative_config
+        )
+        # TODO(baoloongmao): Support other MTP methods
+        if vllm_config.speculative_config.method == "deepseek_mtp":
+            num_mtp_layers = getattr(
+                model_config.hf_config, "num_nextn_predict_layers", 0
+            )
+
+        elif vllm_config.speculative_config.use_eagle():
+            try:
+                draft_model_config = vllm_config.speculative_config.draft_model_config
+                num_mtp_layers = draft_model_config.get_num_layers(
+                    vllm_config.parallel_config
+                )
+                logger.info("EAGLE detected %d extra layer(s)", num_mtp_layers)
+            except Exception:
+                logger.info(
+                    "EAGLE detected, but failed to get the number of extra layers"
+                    "falling back to 1"
+                )
+                num_mtp_layers = 1
+    return num_mtp_layers
+
+
+def _init_lmcache_engine(
+    lmcache_config: LMCacheEngineConfig,
+    vllm_config: "VllmConfig",
+) -> LMCacheEngine:
+    """Initialize the LMCache engine by the given model config and parallel
+    config. This function will check the environment variable
+    `LMCACHE_CONFIG_FILE` to load the configuration file. If that environment
+    variable is not set, this function will return None.
+
+    :param lmcache_config: The LMCache configuration.
+    :type lmcache_config: LMCacheEngineConfig
+    :param vllm_config: The vLLM configuration.
+    :type vllm_config: VllmConfig
+
+    :return: The initialized LMCache engine
+    :rtype: LMCacheEngine
+    """
+    if curr_engine := LMCacheEngineBuilder.get(ENGINE_NAME):
+        return curr_engine
+
+    model_config = vllm_config.model_config
+    parallel_config = vllm_config.parallel_config
+    cache_config = vllm_config.cache_config
+
+    assert isinstance(lmcache_config, LMCacheEngineConfig), (
+        "LMCache v1 configuration is should be passed."
+    )
+
+    kv_dtype = get_kv_cache_torch_dtype(cache_config.cache_dtype, model_config.dtype)
+
+    use_mla = mla_enabled(model_config)
+    if use_mla and (
+        lmcache_config.remote_serde != "naive"
+        and lmcache_config.remote_serde is not None
+    ):
+        raise ValueError("MLA only works with naive serde mode..")
+
+    # construct kv shape (for mem pool)
+    num_layer = model_config.get_num_layers(parallel_config)
+    num_mtp_layers = _calculate_mtp_layers(vllm_config, model_config)
+    num_layer += num_mtp_layers
+    chunk_size = lmcache_config.chunk_size
+    num_kv_head = model_config.get_num_kv_heads(parallel_config)
+    head_size = model_config.get_head_size()
+    kv_shape = (num_layer, 1 if use_mla else 2, chunk_size, num_kv_head, head_size)
+    logger.info(
+        "use mla: %s, kv shape: %s, num_mtp_layers: %s",
+        use_mla,
+        kv_shape,
+        num_mtp_layers,
+    )
+
+    # Change current device.
+    num_gpus = torch.cuda.device_count()
+    local_rank = parallel_config.rank % num_gpus
+    torch.cuda.set_device(local_rank)
+    device = torch.device(f"cuda:{local_rank}")
+    metadata = LMCacheEngineMetadata(
+        model_config.model,
+        parallel_config.world_size,
+        parallel_config.rank,
+        "vllm",
+        kv_dtype,
+        kv_shape,
+        use_mla,
+    )
+
+    use_gpu = need_gpu_interm_buffer(lmcache_config)
+    vllm_gpu_connector: (
+        VLLMBufferLayerwiseGPUConnector
+        | VLLMPagedMemGPUConnectorV2
+        | VLLMPagedMemLayerwiseGPUConnector
+    )
+
+    if use_mla and lmcache_config.use_layerwise:
+        raise ValueError("layerwise MLA connector is not supported yet")
+
+    # When use_mla is True, num_kv_head is 1
+    hidden_dim_size = num_kv_head * head_size
+    if lmcache_config.use_layerwise:
+        if lmcache_config.enable_blending:
+            # Use layerwise connector for blending
+            vllm_gpu_connector = VLLMBufferLayerwiseGPUConnector(
+                hidden_dim_size,
+                num_layer,
+                use_gpu=use_gpu,
+                chunk_size=chunk_size,
+                dtype=kv_dtype,
+                device=device,
+            )
+        else:
+            vllm_gpu_connector = VLLMPagedMemLayerwiseGPUConnector(
+                hidden_dim_size,
+                num_layer,
+                use_gpu=use_gpu,
+                chunk_size=chunk_size,
+                dtype=kv_dtype,
+                device=device,
+            )
+    else:
+        vllm_gpu_connector = VLLMPagedMemGPUConnectorV2(
+            hidden_dim_size,
+            num_layer,
+            use_gpu=use_gpu,
+            chunk_size=chunk_size,
+            dtype=kv_dtype,
+            device=device,
+            use_mla=use_mla,
+        )
+    tpg = get_tp_group()
+    engine = LMCacheEngineBuilder.get_or_create(
+        ENGINE_NAME,
+        lmcache_config,
+        metadata,
+        vllm_gpu_connector,
+        tpg.broadcast,
+        tpg.broadcast_object,
+    )
+
+    return engine
+
+
+@dataclass
+class LMCacheConnectorMetadata(KVConnectorMetadata):
+    requests: list[ReqMeta] = field(default_factory=list)
+    lookup_requests_in_step: list[str] = field(default_factory=list)
+
+    @_lmcache_nvtx_annotate
+    def add_request(self, req_meta: ReqMeta) -> None:
+        """Add a request to the metadata.
+
+        Args:
+            req_meta (ReqMeta): the request metadata.
+        """
+        self.requests.append(req_meta)
+
+
+class LMCacheConnectorV1Impl:
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        parent: KVConnectorBase_V1,
+    ):
+        assert vllm_config.kv_transfer_config is not None
+        self._parent = parent
+        self._vllm_config = vllm_config
+        self.kv_role = vllm_config.kv_transfer_config.kv_role
+        self.worker_count = vllm_config.parallel_config.tensor_parallel_size
+        config = lmcache_get_or_create_config()
+        assert isinstance(config, LMCacheEngineConfig), (
+            "LMCache v1 configuration is should be passed for vLLM v1."
+        )
+        # Put the leading with "lmcache." and matched configs from
+        # vllm extra_config to the config
+        kv_connector_extra_config = (
+            vllm_config.kv_transfer_config.kv_connector_extra_config
+        )
+        if kv_connector_extra_config:
+            for key, value in kv_connector_extra_config.items():
+                if key.startswith("lmcache."):
+                    config_key = key[8:]  # Remove "lmcache." prefix
+                    if _validate_and_set_config_value(config, config_key, value):
+                        logger.info(
+                            "Updated config %s from vLLM extra config: %s",
+                            config_key,
+                            value,
+                        )
+
+        self.config = config
+
+        self.async_loading = config.enable_async_loading
+        self.layerwise_retrievers: list[Generator[torch.Tensor | None, None, None]] = []
+        self._stats_monitor = LMCStatsMonitor.GetOrCreate()
+        if role == KVConnectorRole.SCHEDULER:
+            # Create lookup client using factory
+            self.lookup_client = LookupClientFactory.create_lookup_client(
+                vllm_config, config
+            )
+            self._unfinished_requests: dict[str, Request] = {}
+            self._lookup_requests_in_step: list[str] = []
+            self.lmcache_engine = None
+        else:
+            self.lmcache_engine = _init_lmcache_engine(
+                config,
+                vllm_config,
+            )
+
+            self.use_layerwise = config.use_layerwise
+            self.enable_blending = config.enable_blending
+
+            if self.enable_blending:
+                self.blender = LMCBlenderBuilder.get_or_create(
+                    ENGINE_NAME,
+                    self.lmcache_engine,
+                    self.lmcache_engine.gpu_connector,
+                    config,
+                )
+
+            # Create lookup server using factory
+            assert self.lmcache_engine is not None
+            self.lookup_server = LookupClientFactory.create_lookup_server(
+                self.lmcache_engine, vllm_config
+            )
+
+            self.offload_server = ZMQOffloadServer(
+                self.lmcache_engine,
+                vllm_config,
+                get_tensor_model_parallel_rank(),
+            )
+
+            # In case of MLA, the lookup server is only created on worker 0
+            if self.async_loading and self.lookup_server is not None:
+                assert isinstance(self.lookup_server, LMCacheAsyncLookupServer)
+                self.lmcache_engine.post_init(async_lookup_server=self.lookup_server)
+
+        self.kv_caches: dict[str, torch.Tensor] = {}
+
+        self._block_size = vllm_config.cache_config.block_size
+
+        # request_id -> (vllm cached tokens, lmcache cached tokens)
+        self.load_specs: dict[str, LoadSpec] = {}
+
+        self.kv_cache_manager: KVCacheManager | None = None
+
+        # request_id -> full_token_ids
+        self._request_trackers: dict[str, RequestTracker] = {}
+
+        # Whether to discard partial chunks
+        self._discard_partial_chunks = (
+            vllm_config.kv_transfer_config.get_from_extra_config(
+                "discard_partial_chunks", False
+            )
+            or not config.save_unfull_chunk
+        )
+
+        self._lmcache_chunk_size = config.chunk_size
+        self._save_decode_cache = config.save_decode_cache
+
+        self.skip_last_n_tokens = vllm_config.kv_transfer_config.get_from_extra_config(
+            "skip_last_n_tokens", 0
+        )
+
+        self.num_layers = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+        self.current_layer = 0
+
+        self.force_skip_save = bool(os.environ.get("LMCACHE_FORCE_SKIP_SAVE", False))
+
+        self._requests_priority: dict[str, int] = {}
+
+        # TODO(baoloongmao): Internal api server & plugin framework support
+        # dp > 1
+        if (
+            vllm_config.parallel_config.data_parallel_size_local == 1
+            or vllm_config.parallel_config.data_parallel_rank_local == 0
+        ):
+            # Start internal API server if enabled
+            # The enabled check is in the InternalAPIServer constructor
+            self.api_server = InternalAPIServer(self)
+            self.api_server.start()
+            # Launch plugins
+            self.plugin_launcher = PluginLauncher(
+                self.config,
+                role,
+                self.worker_count,
+                -1
+                if self.lmcache_engine is None  # scheduler side
+                else self.lmcache_engine.metadata.worker_id,
+            )
+            self.plugin_launcher.launch_plugins()
+        else:
+            self.api_server = None  # type: ignore[assignment]
+            self.plugin_launcher = None  # type: ignore[assignment]
+        logger.info(
+            "LMCache initialized for role %s with version %s, "
+            "vllm version %s, lmcache cache_engine metadata: %s",
+            role,
+            utils.get_version(),
+            VLLM_VERSION,
+            getattr(self.lmcache_engine, "metadata", None),
+        )
+
+    def get_inference_info(self) -> dict:
+        """Get inference information including vLLM config and related details.
+
+        Returns:
+            dict: Dictionary containing inference information
+        """
+        # Get vLLM config information
+        vllm_config = self._vllm_config
+
+        # Use vLLM config's string representation and add specific configs
+        inference_info = {
+            "vllm_version": VLLM_VERSION,
+            "lmcache_version": utils.get_version(),
+            "vllm_config": str(vllm_config),
+            "model_config": {
+                "model": getattr(vllm_config.model_config, "model", None),
+                "dtype": str(getattr(vllm_config.model_config, "dtype", None)),
+                "max_model_len": getattr(
+                    vllm_config.model_config, "max_model_len", None
+                ),
+                "vocab_size": vllm_config.model_config.get_vocab_size(),
+                "num_layers": getattr(
+                    vllm_config.model_config, "get_num_layers", lambda _: None
+                )(vllm_config.parallel_config),
+                "num_attention_heads": getattr(
+                    vllm_config.model_config, "get_num_attention_heads", lambda _: None
+                )(vllm_config.parallel_config),
+                "num_kv_heads": getattr(
+                    vllm_config.model_config, "get_num_kv_heads", lambda _: None
+                )(vllm_config.parallel_config),
+                "head_size": getattr(
+                    vllm_config.model_config, "get_head_size", lambda: None
+                )(),
+            },
+            "cache_config": {
+                "block_size": getattr(vllm_config.cache_config, "block_size", None),
+                "cache_dtype": str(
+                    getattr(vllm_config.cache_config, "cache_dtype", None)
+                ),
+                "gpu_memory_utilization": getattr(
+                    vllm_config.cache_config, "gpu_memory_utilization", None
+                ),
+            },
+        }
+
+        return inference_info
+
+    def get_inference_version(self) -> str:
+        """Get vLLM version information.
+
+        Returns:
+            str: vLLM version string
+        """
+        return VLLM_VERSION
+
+    @_lmcache_nvtx_annotate
+    def _init_kv_caches_from_forward_context(self, forward_context: "ForwardContext"):
+        for layer_name in forward_context.no_compile_layers:
+            attn_layer = forward_context.no_compile_layers[layer_name]
+            if not hasattr(attn_layer, "kv_cache"):
+                logger.debug("The layer %s does not have kv_cache, skip it", layer_name)
+                continue
+
+            if layer_name not in self.kv_caches:
+                self.kv_caches[layer_name] = attn_layer.kv_cache[
+                    forward_context.virtual_engine
+                ]
+
+    ####################
+    # Worker side APIs
+    ####################
+
+    @_lmcache_nvtx_annotate
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        """Start loading the KV cache from the connector buffer to vLLM's
+        paged KV buffer.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+        """
+        self.current_layer = 0
+
+        if len(self.kv_caches) == 0:
+            self._init_kv_caches_from_forward_context(forward_context)
+
+        metadata = self._parent._get_connector_metadata()
+        assert isinstance(metadata, LMCacheConnectorMetadata)
+
+        assert len(self.kv_caches) > 0
+        kvcaches = list(self.kv_caches.values())
+
+        attn_metadata = forward_context.attn_metadata
+        if attn_metadata is None:
+            logger.debug("In connector.start_load_kv, but the attn_metadata is None")
+            return
+
+        assert self.lmcache_engine is not None
+
+        self.lmcache_engine.post_init(kvcaches=kvcaches)
+
+        self.layerwise_retrievers = []
+
+        for idx, request in enumerate(metadata.requests):
+            if request.load_spec is None:
+                continue
+            last_idx = idx
+
+        for idx, request in enumerate(metadata.requests):
+            if request.load_spec is None:
+                continue
+
+            tokens = request.token_ids
+            # TODO: have a pre-allocated buffer to hold the slot_mappings
+            slot_mapping = request.slot_mapping.cuda()
+            assert len(tokens) == len(slot_mapping)
+
+            self._stats_monitor.update_interval_vllm_hit_tokens(
+                request.load_spec.vllm_cached_tokens
+            )
+            token_mask = torch.ones(len(tokens), dtype=torch.bool)
+            masked_token_count = (
+                request.load_spec.vllm_cached_tokens
+                // self._lmcache_chunk_size
+                * self._lmcache_chunk_size
+            )
+            token_mask[:masked_token_count] = False
+
+            lmcache_cached_tokens = request.load_spec.lmcache_cached_tokens
+            if self.use_layerwise:
+                sync = idx == last_idx
+                # NOTE(Jiayi): Perform blending before layerwise prefix caching
+                if self.enable_blending:
+                    # TODO(Jiayi): Need to make prefix caching and blending
+                    # compatible
+                    self.blender.blend(
+                        tokens[:lmcache_cached_tokens],
+                        token_mask[:lmcache_cached_tokens],
+                        kvcaches=kvcaches,
+                        slot_mapping=slot_mapping[:lmcache_cached_tokens],
+                    )
+                else:
+                    layerwise_retriever = self.lmcache_engine.retrieve_layer(
+                        tokens[:lmcache_cached_tokens],
+                        token_mask[:lmcache_cached_tokens],
+                        kvcaches=kvcaches,
+                        slot_mapping=slot_mapping[:lmcache_cached_tokens],
+                        sync=sync,
+                    )
+                    # NOTE: retrieve for two layers at the first layer
+                    next(layerwise_retriever)
+                    next(layerwise_retriever)
+                    self.layerwise_retrievers.append(layerwise_retriever)
+            else:
+                ret_token_mask = self.lmcache_engine.retrieve(
+                    tokens[:lmcache_cached_tokens],
+                    token_mask[:lmcache_cached_tokens],
+                    kvcaches=kvcaches,
+                    slot_mapping=slot_mapping[:lmcache_cached_tokens],
+                    request_configs=request.request_configs,
+                    req_id=request.req_id,
+                )
+
+                # Check the result
+                num_retrieved_tokens = ret_token_mask.sum().item()
+                num_expected_tokens = (
+                    lmcache_cached_tokens - request.load_spec.vllm_cached_tokens
+                )
+                if num_retrieved_tokens < num_expected_tokens:
+                    logger.error(
+                        "The number of retrieved tokens is less than the "
+                        "expected number of tokens! This should not happen!"
+                    )
+                    logger.error(
+                        "Num retrieved tokens: %d, num expected tokens: %d",
+                        num_retrieved_tokens,
+                        num_expected_tokens,
+                    )
+
+    @_lmcache_nvtx_annotate
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """Blocking until the KV for a specific layer is loaded into vLLM's
+        paged buffer.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        if self.layerwise_retrievers:
+            logger.debug("Waiting for layer %s to be loaded", self.current_layer)
+
+        # Wait for the layer to be loaded
+        for layerwise_retriever in self.layerwise_retrievers:
+            ret_token_mask = next(layerwise_retriever)
+
+            if self.current_layer == self.num_layers - 1:
+                assert ret_token_mask is not None
+                num_retrieved_tokens = ret_token_mask.sum().item()
+                logger.info("Retrieved %s tokens", num_retrieved_tokens)
+
+        return
+
+    @_lmcache_nvtx_annotate
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        """Start saving the a layer of KV cache from vLLM's paged buffer
+        to the connector.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+        """
+        assert self.lmcache_engine is not None
+
+        if not self.use_layerwise:
+            return
+
+        if self.kv_role == "kv_consumer":
+            # Don't do save if the role is kv_consumer
+            return
+        if self._parent._connector_metadata is None:
+            logger.warning(
+                "In connector.save_kv_layer, but the connector metadata is None"
+            )
+            return
+        connector_metadata = self._parent._get_connector_metadata()
+        assert isinstance(connector_metadata, LMCacheConnectorMetadata)
+
+        assert len(self.kv_caches) > 0
+
+        kvcaches = list(self.kv_caches.values())
+        if self.current_layer == 0:
+            self.layerwise_storers = []
+
+            is_first = True
+
+            for idx, request in enumerate(connector_metadata.requests):
+                save_spec = request.save_spec
+                if save_spec is None or not save_spec.can_save:
+                    continue
+
+                token_ids = request.token_ids
+                assert isinstance(token_ids, list)
+
+                slot_mapping = request.slot_mapping
+                assert isinstance(slot_mapping, torch.Tensor)
+                assert len(slot_mapping) == len(token_ids)
+
+                # TODO: have a pre-allocated buffer to hold the slot_mappings
+                slot_mapping = slot_mapping.cuda()
+
+                if self.kv_role == "kv_producer":
+                    skip_leading_tokens = 0
+                else:
+                    skip_leading_tokens = save_spec.skip_leading_tokens
+
+                    if skip_leading_tokens == len(token_ids):
+                        continue  # skip this request
+                    # Align to lmcache chunk size
+                    skip_leading_tokens = (
+                        skip_leading_tokens
+                        // self._lmcache_chunk_size
+                        * self._lmcache_chunk_size
+                    )
+
+                store_mask = torch.ones(len(token_ids), dtype=torch.bool)
+                store_mask[:skip_leading_tokens] = False
+
+                logger.info(
+                    "Storing KV cache for %d out of %d tokens "
+                    "(skip_leading_tokens=%d) for request %s",
+                    len(token_ids) - skip_leading_tokens,
+                    len(token_ids),
+                    skip_leading_tokens,
+                    request.req_id,
+                )
+
+                # TODO (Jiayi): need to make layerwise storing
+                # compatible with disagg spec
+                layerwise_storer = self.lmcache_engine.store_layer(
+                    token_ids,
+                    mask=store_mask,
+                    kvcaches=kvcaches,
+                    slot_mapping=slot_mapping,
+                    offset=skip_leading_tokens,
+                    sync=is_first,
+                )
+                self.layerwise_storers.append(layerwise_storer)
+                if is_first:
+                    is_first = False
+
+        for layerwise_storer in self.layerwise_storers:
+            next(layerwise_storer)
+
+        self.current_layer += 1
+
+    @_lmcache_nvtx_annotate
+    def wait_for_save(self):
+        """Blocking until the KV cache is saved to the connector buffer."""
+
+        connector_metadata = self._parent._get_connector_metadata()
+        assert isinstance(connector_metadata, LMCacheConnectorMetadata)
+
+        self.lmcache_engine.lookup_unpin(  # type: ignore
+            connector_metadata.lookup_requests_in_step
+        )
+
+        if self.kv_role == "kv_consumer":
+            # Don't do save if the role is kv_consumer
+            return
+
+        if self.use_layerwise:
+            for layerwise_storer in self.layerwise_storers:
+                next(layerwise_storer)
+            return
+
+        assert len(self.kv_caches) > 0
+        kvcaches = list(self.kv_caches.values())
+
+        assert self.lmcache_engine is not None
+
+        for request in connector_metadata.requests:
+            save_spec = request.save_spec
+            if (
+                save_spec is None or not save_spec.can_save
+            ) and self.kv_role != "kv_producer":
+                continue
+
+            token_ids = request.token_ids
+
+            slot_mapping = request.slot_mapping
+            assert isinstance(slot_mapping, torch.Tensor)
+            assert len(slot_mapping) == len(token_ids)
+            assert save_spec is not None
+
+            # TODO: have a pre-allocated buffer to hold the slot_mappings
+            slot_mapping = slot_mapping.cuda()
+
+            skip_leading_tokens = save_spec.skip_leading_tokens
+            if self.kv_role == "kv_producer":
+                assert request.disagg_spec is not None
+                skip_leading_tokens = min(
+                    skip_leading_tokens, request.disagg_spec.num_transferred_tokens
+                )
+
+            if skip_leading_tokens == len(token_ids):
+                continue  # skip this request
+            # Align to lmcache chunk size
+            skip_leading_tokens = (
+                skip_leading_tokens
+                // self._lmcache_chunk_size
+                * self._lmcache_chunk_size
+            )
+
+            store_mask = torch.ones(len(token_ids), dtype=torch.bool)
+            store_mask[:skip_leading_tokens] = False
+
+            logger.info(
+                "Storing KV cache for %d out of %d tokens "
+                "(skip_leading_tokens=%d) for request %s",
+                len(token_ids) - skip_leading_tokens,
+                len(token_ids),
+                skip_leading_tokens,
+                request.req_id,
+            )
+
+            is_last_prefill = request.is_last_prefill
+            if is_last_prefill:
+                if request.disagg_spec:
+                    request.disagg_spec.is_last_prefill = True
+            else:
+                token_len = len(token_ids)
+                aligned_token_len = (
+                    token_len // self._lmcache_chunk_size * self._lmcache_chunk_size
+                )
+                token_ids = token_ids[:aligned_token_len]
+                store_mask = store_mask[:aligned_token_len]
+                slot_mapping = slot_mapping[:aligned_token_len]
+
+            self.lmcache_engine.store(
+                token_ids,
+                mask=store_mask,
+                kvcaches=kvcaches,
+                slot_mapping=slot_mapping,
+                offset=skip_leading_tokens,
+                transfer_spec=request.disagg_spec,
+                request_configs=request.request_configs,
+            )
+
+            # NOTE(Jiayi): We assume all tokens are saved
+            save_spec.skip_leading_tokens = len(token_ids)
+            if request.disagg_spec:
+                request.disagg_spec.num_transferred_tokens = len(token_ids)
+
+    @_lmcache_nvtx_annotate
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        return None, None
+
+    ###################
+    # Scheduler side APIs
+    ####################
+
+    @_lmcache_nvtx_annotate
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> int | None:
+        """
+        Check for external KV cache hit.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            the number of tokens that can be loaded from the
+            external KV cache beyond what is already computed.
+        """
+        if self.kv_role == "kv_producer" and not hasattr(
+            self.lookup_client, "supports_producer_reuse"
+        ):
+            return 0
+
+        self._requests_priority[request.request_id] = request.priority
+
+        token_ids = request.prompt_token_ids
+
+        # If the request has multimodal hashes, apply them to the token ids
+        mm_hashes, mm_positions = extract_mm_features(request)
+        if mm_hashes and mm_positions:
+            # TODO(Jiayi): Optimize this
+            token_ids_tensor = torch.tensor(request.prompt_token_ids)
+            apply_mm_hashes_to_token_ids(token_ids_tensor, mm_hashes, mm_positions)
+            token_ids = token_ids_tensor.tolist()
+
+        if request.sampling_params:
+            request_configs = extract_request_configs(request.sampling_params)
+        else:
+            request_configs = None
+
+        if self.skip_last_n_tokens > 0:
+            assert token_ids is not None
+            token_ids = token_ids[: -self.skip_last_n_tokens]
+        lookup_id = request.request_id if self.async_loading else str(uuid.uuid4())
+
+        self._lookup_requests_in_step.append(lookup_id)
+
+        num_external_hit_tokens = self.lookup_client.lookup(
+            token_ids,
+            lookup_id=lookup_id,
+            request_configs=request_configs,
+        )
+
+        if num_external_hit_tokens is None:
+            logger.info(
+                "Reqid: %s, Total tokens %d, LMCache hit tokens: None.",
+                request.request_id,
+                request.num_tokens,
+            )
+            return None
+
+        # When prompt length is divisible by the block size and all
+        # blocks are cached, we need to recompute the last token.
+        # This will be removed in the future if vLLM's scheduler provides
+        # a better support for this case.
+        need_to_allocate = num_external_hit_tokens - num_computed_tokens
+
+        # In, full-prompt-hit case, we need to recompute the last token
+        if num_external_hit_tokens == request.num_tokens:
+            need_to_allocate -= 1
+
+        logger.info(
+            "Reqid: %s, Total tokens %d, LMCache hit tokens: %d, need to load: %d",
+            request.request_id,
+            request.num_tokens,
+            num_external_hit_tokens,
+            need_to_allocate,
+        )
+
+        self.load_specs[request.request_id] = LoadSpec(
+            vllm_cached_tokens=num_computed_tokens,
+            lmcache_cached_tokens=num_external_hit_tokens,
+            can_load=False,
+        )
+
+        if need_to_allocate <= 0:
+            return 0
+
+        return need_to_allocate
+
+    @_lmcache_nvtx_annotate
+    def update_state_after_alloc(self, request: "Request", num_external_tokens: int):
+        """
+        Update KVConnector state after temporary buffer alloc.
+
+        For SharedStorageConnector, update _request_needs_load
+        if the CacheManager this allocated blocks for us.
+        """
+
+        # Clear local status in lookup client when a new request is
+        # successfully scheduled.
+        self.lookup_client.clear_lookup_status(request.request_id)
+
+        kv_transfer_params = (
+            request.kv_transfer_params
+            if hasattr(request, "kv_transfer_params")
+            else None
+        )
+
+        if kv_transfer_params is not None and "disagg_spec" in kv_transfer_params:
+            req_disagg_spec = kv_transfer_params["disagg_spec"]
+
+            receiver_id = req_disagg_spec["receiver_host"] + str(
+                req_disagg_spec["receiver_init_port"]
+            )
+
+            disagg_spec = DisaggSpec(
+                req_id=req_disagg_spec["req_id"],
+                receiver_id=receiver_id,
+                receiver_host=req_disagg_spec["receiver_host"],
+                receiver_init_port=req_disagg_spec["receiver_init_port"],
+                receiver_alloc_port=req_disagg_spec["receiver_alloc_port"],
+            )
+
+            tmp_disagg_tracker[request.request_id] = disagg_spec
+        self._unfinished_requests[request.request_id] = request
+
+        if request.request_id not in self.load_specs:
+            # No KV tokens from external KV cache, return
+            return
+
+        if num_external_tokens == 0:
+            # No need to load anything
+            self.load_specs[request.request_id].can_load = False
+            return
+
+        # Only check for non-prompt-hit case
+        if (
+            self.load_specs[request.request_id].lmcache_cached_tokens
+            != request.num_tokens
+        ):
+            assert (
+                num_external_tokens > 0
+                and num_external_tokens
+                == self.load_specs[request.request_id].lmcache_cached_tokens
+                - self.load_specs[request.request_id].vllm_cached_tokens
+            ), (
+                f"Mismatch in number of tokens: {num_external_tokens} vs "
+                f"{self.load_specs[request.request_id].lmcache_cached_tokens} -"
+                f" {self.load_specs[request.request_id].vllm_cached_tokens}"
+                f" for request {request.request_id}"
+            )
+
+        self.load_specs[request.request_id].can_load = True
+
+    @_lmcache_nvtx_annotate
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        """Attach the connector metadata to the request object.
+
+        This function should NOT modify other fields in the scheduler_output
+        except the `kv_connector_metadata` field.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+
+        force_skip_save = self.kv_role == "kv_consumer" or self.force_skip_save
+
+        meta = LMCacheConnectorMetadata()
+
+        # set and update lookup requests for unpin
+        meta.lookup_requests_in_step = self._lookup_requests_in_step
+        self._lookup_requests_in_step = []
+
+        for finished_req_id in scheduler_output.finished_req_ids:
+            self._request_trackers.pop(finished_req_id, None)
+            self._unfinished_requests.pop(finished_req_id, None)
+
+        for request in scheduler_output.scheduled_new_reqs:
+            # Right now, we only load KV for new requests
+            load_spec = self.load_specs.pop(request.req_id, None)
+            num_tokens_to_compute = (
+                request.num_computed_tokens
+                + scheduler_output.num_scheduled_tokens[request.req_id]
+            )
+            lmcache_cached_tokens = 0
+            if load_spec is not None:
+                lmcache_cached_tokens = load_spec.lmcache_cached_tokens
+            request_priority = self._requests_priority.pop(request.req_id, 0)
+
+            skip_save = force_skip_save or (
+                self.config.priority_limit is not None
+                and request_priority > self.config.priority_limit
+            )
+
+            request_tracker = RequestTracker.from_new_request(
+                self.config,
+                request,
+                num_tokens_to_compute,
+                lmcache_cached_tokens,
+                skip_save,
+            )
+            self._request_trackers[request.req_id] = request_tracker
+
+            req_meta = ReqMeta.from_request_tracker(
+                request_tracker,
+                self._block_size,
+                self._lmcache_chunk_size,
+                load_spec=load_spec,
+                discard_partial_chunks=self._discard_partial_chunks,
+                save_decode_cache=self._save_decode_cache,
+            )
+            if req_meta is not None:
+                meta.add_request(req_meta)
+
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+
+        # NOTE: For backward compatibility with vllm version < 0.9.2,
+        # In the latest vllm version, the type of scheduled_cached_reqs has
+        # changed from list to object `CachedRequestData`
+        if isinstance(cached_reqs, list):
+            for i, req in enumerate(cached_reqs):
+                request_tracker = self._request_trackers[req.req_id]
+                request_tracker.update(req.new_token_ids, req.new_block_ids)
+
+                req_meta = ReqMeta.from_request_tracker(
+                    request_tracker,
+                    self._block_size,
+                    self._lmcache_chunk_size,
+                    load_spec=None,
+                    discard_partial_chunks=self._discard_partial_chunks,
+                )
+                if req_meta is not None:
+                    meta.add_request(req_meta)
+            return meta
+
+        for i, req_id in enumerate(cached_reqs.req_ids):
+            request_tracker = self._request_trackers[req_id]
+            num_new_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            if cached_request := self._unfinished_requests.get(req_id):
+                num_current_tokens = len(request_tracker.token_ids)
+                new_token_ids = cached_request.all_token_ids[
+                    num_current_tokens : num_current_tokens + num_new_tokens
+                ]
+            else:
+                raise ValueError(
+                    f"Request {req_id} is not in _unfinished_requests, "
+                    f"but it is scheduled to be cached"
+                )
+            new_block_ids = cached_reqs.new_block_ids[i]
+
+            request_tracker.update(new_token_ids, new_block_ids)
+
+            req_meta = ReqMeta.from_request_tracker(
+                request_tracker,
+                self._block_size,
+                self._lmcache_chunk_size,
+                load_spec=None,
+                discard_partial_chunks=self._discard_partial_chunks,
+                save_decode_cache=self._save_decode_cache,
+            )
+            if req_meta is not None:
+                meta.add_request(req_meta)
+
+        return meta
+
+    @_lmcache_nvtx_annotate
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        params = (
+            request.kv_transfer_params
+            if hasattr(request, "kv_transfer_params")
+            else None
+        )
+        return_params = None
+
+        # NOTE: Used to stream back the first token
+        # for disagg prefill
+        if params is not None and "ret_first_tok" in params:
+            return_params = {
+                "first_tok": request._output_token_ids[0],
+            }
+
+        return False, return_params
diff --git a/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py b/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
new file mode 100644
index 0000000..55831dc
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
@@ -0,0 +1,867 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import enum
+from collections.abc import Iterable
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any, Literal, Optional, cast
+
+import torch
+import zmq
+from lmcache.utils import init_logger as lmcache_init_logger
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration import (
+    LMCacheMPSchedulerAdapter,
+    LMCacheMPWorkerAdapter,
+    LoadStoreOp,
+)
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import KVConnectorOutput
+from vllm.v1.utils import ConstantList
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.config import VllmConfig
+    from vllm.distributed.kv_events import KVCacheEvent
+    from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+        KVConnectorPromMetrics,
+        KVConnectorStats,
+        PromMetric,
+        PromMetricT,
+    )
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.core.kv_cache_utils import BlockHash
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = lmcache_init_logger(__name__)
+
+
+# Helper functions
+def reformat_block_ids(block_ids: tuple[list[int], ...] | None) -> list[int]:
+    if block_ids is None:
+        return []
+    assert isinstance(block_ids, tuple), (
+        f"Expected block_ids to be a tuple of lists, but got {type(block_ids)}"
+    )
+
+    if len(block_ids) > 1:
+        raise RuntimeError(
+            "LMCacheMPConnector only works without hybrid kv cache manager. "
+            "Please pass --disable-hybrid-kv-cache-manager when starting vllm"
+        )
+
+    return block_ids[0]
+
+
+def create_scheduler_adapter(
+    server_url: str, zmq_context: zmq.Context, vllm_config: VllmConfig
+) -> LMCacheMPSchedulerAdapter:
+    # TODO: have a helper function to calculate the correct rank and
+    # world size for the MLA and other models
+    return LMCacheMPSchedulerAdapter(
+        server_url,
+        zmq_context,
+        vllm_config.model_config.model,
+        vllm_config.parallel_config.world_size,
+        vllm_config.parallel_config.rank,
+        vllm_config.cache_config.block_size,
+    )
+
+
+def create_worker_adapter(
+    server_url: str, zmq_context: zmq.Context, vllm_config: VllmConfig
+) -> LMCacheMPWorkerAdapter:
+    # TODO: have a helper function to calculate the correct rank and
+    # world size for the MLA and other models
+    return LMCacheMPWorkerAdapter(
+        server_url,
+        zmq_context,
+        vllm_config.model_config.model,
+        vllm_config.parallel_config.world_size,
+        vllm_config.parallel_config.rank,
+        vllm_config.cache_config.block_size,
+    )
+
+
+def convert_block_hashes_to_bytes(
+    block_hashes: list["BlockHash"],
+) -> list[bytes]:
+    return cast(list[bytes], block_hashes)
+
+
+class LMCacheMPRequestState(enum.Enum):
+    """
+    State machine:
+    PREFETCHING -- update_state_after_alloc --> WAITING_FOR_LOAD
+    WAITING_FOR_LOAD -- process_loading_requests --> READY
+    """
+
+    PREFETCHING = enum.auto()
+    WAITING_FOR_LOAD = enum.auto()
+    READY = enum.auto()
+
+
+@dataclass
+class LMCacheMPRequestTracker:
+    # NOTE: this class used vLLM data structures, should be part of
+    # vLLM integration code
+
+    request_id: str
+
+    # Read-only lists to track the token ids and block hashes
+    all_token_ids: ConstantList[int]
+    block_hashes: ConstantList["BlockHash"]
+
+    # Block ids and hashes will be updated at update_states_after_alloc and
+    # during the generation
+    allocated_block_ids: list[int] = field(default_factory=list)
+
+    # Number of scheduled tokens in this request. We keep tracking this to
+    # avoid saving half-full blocks.
+    num_scheduled_tokens: int = 0
+
+    # Number of blocks stored will be initialized when lookup the external
+    # hit tokens and will be updated when processing new requests and cached
+    # requests.
+    num_stored_blocks: int = 0
+
+    # Staging load operation -- save vllm and lmcache hit tokens during lookup
+    num_vllm_hit_blocks: int = 0
+    num_lmcache_hit_blocks: int = 0
+
+    # Main state
+    state: LMCacheMPRequestState = LMCacheMPRequestState.PREFETCHING
+
+    def __init__(self, request: "Request"):
+        self.request_id = request.request_id
+        self.all_token_ids = request.all_token_ids
+        self.block_hashes = ConstantList(request.block_hashes)
+        self.allocated_block_ids = []
+        self.num_stored_blocks = 0
+        self.num_vllm_hit_blocks = 0
+        self.num_lmcache_hit_blocks = 0
+        self.state = LMCacheMPRequestState.PREFETCHING
+
+    ####
+    # Check the state of the request
+    ####
+    def needs_retrieve(self) -> bool:
+        """Check whether the current request needs retrieve, will be used
+        update_stage_after_alloc"""
+        return (
+            self.num_lmcache_hit_blocks > self.num_vllm_hit_blocks
+            and self.state != LMCacheMPRequestState.READY
+        )
+
+    def is_ready_for_retrieving(self) -> bool:
+        """Check whether the current request is ready for retrieving,
+        will be used in process_loading_requests"""
+        return (
+            self.state == LMCacheMPRequestState.WAITING_FOR_LOAD
+            and self.needs_retrieve()
+        )
+
+    ####
+    # Update internal states
+    ####
+    def increase_num_scheduled_tokens(self, num_new_tokens: int):
+        self.num_scheduled_tokens += num_new_tokens
+
+    def increase_num_stored_blocks(self, num_new_blocks: int):
+        """Increase the number of stored blocks for the current request
+        This function will be called when processing the cached requests.
+        """
+        self.num_stored_blocks += num_new_blocks
+
+    def update_block_ids(
+        self,
+        new_block_ids: list[int],
+    ):
+        """Update the block ids for the current request
+        This function will be called when processing the cached requests.
+        """
+        self.allocated_block_ids.extend(new_block_ids)
+
+    ####
+    # For debugging
+    ####
+    def __repr__(self) -> str:
+        return (
+            f"LMCacheMPRequestTracker(request_id={self.request_id}, "
+            f"num_tokens={len(self.all_token_ids)}, "
+            f"num_block_hashes={len(self.block_hashes)}, "
+            f"num_allocated_blocks={len(self.allocated_block_ids)}, "
+            f"num_stored_blocks={self.num_stored_blocks}, "
+            f"vllm_hit_blocks={self.num_vllm_hit_blocks}, "
+            f"lmcache_hit_blocks={self.num_lmcache_hit_blocks}, "
+            f"state={self.state})"
+        )
+
+    def __str__(self) -> str:
+        return self.__repr__()
+
+
+@dataclass
+class LMCacheMPRequestMetadata:
+    request_id: str
+    direction: Literal["STORE", "RETRIEVE"]
+    op: LoadStoreOp
+
+    @staticmethod
+    def GetStoreMetadata(
+        tracker: LMCacheMPRequestTracker,
+        blocks_in_chunk: int,
+        vllm_block_size: int,
+    ) -> "LMCacheMPRequestMetadata | None":
+        """
+        Generate the store metadata for the current request tracker.
+
+        Args:
+            tracker: The request tracker to generate the metadata from.
+            blocks_in_chunk: the number of blocks in a LMCache data chunk
+        """
+        # Store the blocks that has block hashes
+        # NOTE: the invariant here is that `num_stored_blocks` should
+        # always be a multiple of `blocks_in_chunk`
+        # TODO: This should be checked everytime we update the num_stored_blocks
+        min_available_blocks = min(
+            len(tracker.block_hashes),
+            len(tracker.allocated_block_ids),
+            tracker.num_scheduled_tokens // vllm_block_size,
+        )
+        num_staging_blocks = min_available_blocks - tracker.num_stored_blocks
+        num_chunks = num_staging_blocks // blocks_in_chunk
+
+        if num_chunks >= 1:
+            start = tracker.num_stored_blocks
+            end = start + num_chunks * blocks_in_chunk
+            block_hashes = convert_block_hashes_to_bytes(
+                tracker.block_hashes[start:end]
+            )
+            block_ids = tracker.allocated_block_ids[start:end]
+
+            ret = LMCacheMPRequestMetadata(
+                request_id=tracker.request_id,
+                direction="STORE",
+                op=LoadStoreOp(block_hashes=block_hashes, block_ids=block_ids),
+            )
+
+            # Update the request tracker
+            tracker.increase_num_stored_blocks(end - start)
+            return ret
+
+        return None
+
+    @staticmethod
+    def GetRetrieveMetadata(
+        tracker: LMCacheMPRequestTracker,
+        blocks_in_chunk: int,
+    ) -> "LMCacheMPRequestMetadata | None":
+        """
+        Generate the retrieve metadata for the current request tracker.
+
+        Args:
+            tracker: The request tracker to generate the metadata from.
+            blocks_in_chunk: the number of blocks in a LMCache data chunk
+        """
+        if not tracker.is_ready_for_retrieving():
+            return None
+
+        # |---------------------|-----------------|----------------|
+        # | num_vllm_hit_blocks |
+        # | lmcache chunk 1   | lmcache chunk 2   |
+        #                     |  need to retrieve |
+
+        start = tracker.num_vllm_hit_blocks // blocks_in_chunk * blocks_in_chunk
+        end = tracker.num_lmcache_hit_blocks
+        assert end % blocks_in_chunk == 0, (
+            "The number of LMCache hit blocks should be a multiple of the "
+            "number of blocks in a lmcache chunk. "
+        )
+        assert len(tracker.block_hashes) >= end, (
+            "The number of block hashes should be greater than or equal to the "
+            "number of LMCache hit blocks. "
+        )
+        if end > start:
+            block_hashes = convert_block_hashes_to_bytes(
+                tracker.block_hashes[start:end]
+            )
+            block_ids = tracker.allocated_block_ids[start:end]
+
+            ret = LMCacheMPRequestMetadata(
+                request_id=tracker.request_id,
+                direction="RETRIEVE",
+                op=LoadStoreOp(block_hashes=block_hashes, block_ids=block_ids),
+            )
+            return ret
+
+        return None
+
+
+class LMCacheMPConnectorMetadata(KVConnectorMetadata):
+    def __init__(self):
+        super().__init__()
+        self.requests: list[LMCacheMPRequestMetadata] = []
+
+    def add_request_metadata(self, request_metadata: LMCacheMPRequestMetadata):
+        self.requests.append(request_metadata)
+
+    def __len__(self):
+        return len(self.requests)
+
+    # For debugging
+    def __str__(self):
+        request_strs = []
+        for req_meta in self.requests:
+            request_strs.append(
+                f"RequestMetadata(request_id={req_meta.request_id}, "
+                f"direction={req_meta.direction}, "
+                f"num_blocks={len(req_meta.op)}, "
+                f"block_ids={req_meta.op.block_ids})"
+            )
+        return "[" + "\n".join(request_strs) + "]"
+
+    def __repr__(self):
+        return self.__str__()
+
+
+class LMCacheMPConnector(KVConnectorBase_V1):
+    """
+    The connector for LMCache multi-process mode.
+
+    Extra configs (kv_transfer_config.extra_config):
+    - lmcache.mp.host: the host of the LMCache server.
+    - lmcache.mp.port: the port of the LMCache server.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
+        assert vllm_config.kv_transfer_config is not None
+        server_host = vllm_config.kv_transfer_config.get_from_extra_config(
+            "lmcache.mp.host", "tcp://localhost"
+        )
+        server_port = vllm_config.kv_transfer_config.get_from_extra_config(
+            "lmcache.mp.port", 5555
+        )
+
+        server_url = f"{server_host}:{server_port}"
+        zmq_context = zmq.Context.instance()
+        if self.role == KVConnectorRole.SCHEDULER:
+            self.scheduler_adapter = create_scheduler_adapter(
+                server_url, zmq_context, vllm_config
+            )
+            self.request_trackers: dict[str, LMCacheMPRequestTracker] = {}
+        elif self.role == KVConnectorRole.WORKER:
+            self.worker_adapter = create_worker_adapter(
+                server_url, zmq_context, vllm_config
+            )
+        else:
+            raise ValueError(f"Unknown KVConnectorRole: {self.role}")
+
+        self.vllm_block_size = vllm_config.cache_config.block_size
+
+    @property
+    def role(self) -> KVConnectorRole:
+        return self._role
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def _get_connector_metadata(self) -> KVConnectorMetadata:
+        """Get the connector metadata.
+
+        This function should only be called inside the connector.
+
+        Returns:
+            ConnectorMetadata: the connector metadata.
+        """
+
+        # Should only be called while set to valid metadata.
+        assert self._connector_metadata is not None
+        return self._connector_metadata
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """
+        Initialize with the KV caches. Useful for pre-registering the
+        KV Caches in the KVConnector (e.g. for NIXL).
+
+        Args:
+            kv_caches: dictionary of layer names, kv cache
+        """
+        logger.info("Registering kv caches!")
+        self.worker_adapter.register_kv_caches(kv_caches)
+        return
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """
+        Start loading the KV cache from the connector to vLLM's paged
+        KV buffer. This is called from the forward context before the
+        forward pass to enable async loading during model execution.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+
+        """
+        metadata = self._get_connector_metadata()
+        assert isinstance(metadata, LMCacheMPConnectorMetadata)
+
+        with torch.cuda.stream(torch.cuda.current_stream()):
+            event = torch.cuda.Event(interprocess=True)
+            event.record()
+
+        request_ids = []
+        ops = []
+
+        for meta in metadata.requests:
+            if meta.direction != "RETRIEVE":
+                continue
+            request_ids.append(meta.request_id)
+            ops.append(meta.op)
+
+        if len(request_ids) > 0:
+            logger.info(
+                "HERE! SUBMITTING THE BATCHED RETRIEVE REQUESTS %s", request_ids
+            )
+            self.worker_adapter.batched_submit_retrieve_requests(
+                request_ids, ops, event
+            )
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """
+        Block until the KV for a specific layer is loaded into vLLM's
+        paged buffer. This is called from within attention layer to ensure
+        async copying from start_load_kv is complete.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        return
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """
+        Start saving a layer of KV cache from vLLM's paged buffer
+        to the connector. This is called from within attention layer to
+        enable async copying during execution.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+        return
+
+    def wait_for_save(self):
+        """
+        Block until all the save operations is done. This is called
+        as the forward context exits to ensure that the async saving
+        from save_kv_layer is complete before finishing the forward.
+
+        This prevents overwrites of paged KV buffer before saving done.
+        """
+        metadata = self._get_connector_metadata()
+        assert isinstance(metadata, LMCacheMPConnectorMetadata)
+
+        with torch.cuda.stream(torch.cuda.current_stream()):
+            event = torch.cuda.Event(interprocess=True)
+            event.record()
+
+        request_ids = []
+        ops = []
+        for meta in metadata.requests:
+            if meta.direction != "STORE":
+                continue
+            request_ids.append(meta.request_id)
+            ops.append(meta.op)
+
+        if len(request_ids) > 0:
+            self.worker_adapter.batched_submit_store_requests(request_ids, ops, event)
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens on the worker.
+        The scheduler process (via the Executors) will use this output
+        to track which workers are done.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        val = self.worker_adapter.get_finished(finished_req_ids)
+        # logger.error("Finished req ids: %s, %s", val[0], val[1])
+        return val
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Get the set of block IDs that failed to load.
+
+        Returns:
+            Set of block IDs that encountered load errors.
+            Empty set if no load errors occurred.
+
+        Notes:
+            - Applies to both sync- and async-loading requests.
+            - Async loading: failed blocks may be reported in any forward pass
+              up to and including the pass where the request ID is returned by
+              `get_finished()`. Even if failures occur, the request must still
+              be reported via `get_finished()`, and the failed block IDs must
+              appear here no later than that same pass.
+            - Sync loading: failed blocks should be reported in the forward
+              pass in which they are detected.
+        """
+        # TODO: add error tracking
+        return set()
+
+    def shutdown(self):
+        """
+        Shutdown the connector. This is called when the worker process
+        is shutting down to ensure that all the async operations are
+        completed and the connector is cleaned up properly.
+        """
+        if hasattr(self, "worker_adapter"):
+            self.worker_adapter.shutdown()
+        return None
+
+    def get_kv_connector_stats(self) -> Optional["KVConnectorStats"]:
+        """
+        Get the KV connector stats collected during the last interval.
+        """
+        return None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            A tuple with the following elements:
+                - An optional number of tokens that can be loaded from the
+                  external KV cache beyond what is already computed.
+                  If None, it means that the connector needs more time to
+                  determine the number of matched tokens, and the scheduler
+                  should query for this request again later.
+                - `True` if external KV cache tokens will be loaded
+                  asynchronously (between scheduler steps). Must be
+                  'False' if the first element is 0.
+
+        Notes:
+            The connector should only consider the largest prefix of prompt-
+            tokens for which KV cache is actually available at the time of the
+            call. If the cache cannot be loaded for some tokens (e.g., due to
+            connectivity issues or eviction), those tokens must not be taken
+            into account.
+        """
+        tracker = self._get_or_create_request_tracker(request)
+
+        self.scheduler_adapter.maybe_submit_lookup_request(
+            request.request_id, convert_block_hashes_to_bytes(request.block_hashes)
+        )
+
+        ret = self.scheduler_adapter.check_lookup_result(request.request_id)
+        if ret is None:
+            return None, True
+
+        if ret == 0:
+            return 0, False
+
+        assert (
+            ret % (self.scheduler_adapter.num_blocks_per_chunk() * self.vllm_block_size)
+            == 0
+        )
+
+        # Update num stored blocks for the tracker
+        num_vllm_blocks = num_computed_tokens // self.vllm_block_size
+        num_lmcache_blocks = ret // self.vllm_block_size
+        tracker.increase_num_stored_blocks(num_lmcache_blocks)
+
+        # Save the vllm and lmcache hit tokens
+        tracker.num_vllm_hit_blocks = num_vllm_blocks
+        tracker.num_lmcache_hit_blocks = num_lmcache_blocks
+
+        need_to_load = max(0, ret - num_computed_tokens)
+        logger.debug(
+            "vLLM hit is: %d, Need to load is %d", num_computed_tokens, need_to_load
+        )
+        return need_to_load, need_to_load > 0
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+
+        If get_num_new_matched_tokens previously returned True for a
+        request, this function may be called twice for that same request -
+        first when blocks are allocated for the connector tokens to be
+        asynchronously loaded into, and second when any additional blocks
+        are allocated, after the load/transfer is complete.
+
+        Args:
+            request (Request): the request object.
+            blocks (KVCacheBlocks): the blocks allocated for the request.
+            num_external_tokens (int): the number of tokens that will be
+                loaded from the external KV cache.
+        """
+        # NOTE: the `blocks` are NEW BLOCKS allocated for this request.
+        tracker = self._get_request_tracker(request.request_id)
+        block_ids = reformat_block_ids(blocks.get_block_ids())
+
+        # No matter we need to retrieve or not, we need to update
+        # the block ids into the tracker
+        tracker.update_block_ids(block_ids)
+
+        # Update the state of the tracker
+        condition = tracker.needs_retrieve()
+        if tracker.state == LMCacheMPRequestState.PREFETCHING:
+            # If need to retrieve, change to WAITING_FOR_LOAD
+            # Otherwise, change to READY
+            tracker.state = (
+                LMCacheMPRequestState.WAITING_FOR_LOAD
+                if condition
+                else LMCacheMPRequestState.READY
+            )
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        metadata = LMCacheMPConnectorMetadata()
+
+        self._process_retrieve_requests(metadata)
+        self._process_new_requests(scheduler_output, metadata)
+        self._process_cached_requests(scheduler_output, metadata)
+
+        if len(metadata) > 0:
+            logger.debug("Final connector metadata: %s", metadata)
+
+        return metadata
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        """
+        Update KVConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (KVConnectorOutput): the worker-side
+                connectors output.
+        """
+        return
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called exactly once when a request has finished, before its blocks are
+        freed.
+
+        The connector may assumes responsibility for freeing the blocks
+        asynchronously by returning True.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        return True, None
+
+    def take_events(self) -> Iterable["KVCacheEvent"]:
+        """
+        Take the KV cache events from the connector.
+
+        Yields:
+            New KV cache events since the last call.
+        """
+        return ()
+
+    @classmethod
+    def get_required_kvcache_layout(cls, vllm_config: "VllmConfig") -> str | None:
+        """
+        Get the required KV cache layout for this connector.
+        Args:
+            vllm_config (VllmConfig): the vllm config.
+
+        Returns:
+            str: the required KV cache layout. e.g. HND, or NHD.
+            None if the connector does not require a specific layout.
+        """
+
+        if cls is KVConnectorBase_V1:
+            raise TypeError(
+                "get_required_kvcache_layout should not be called "
+                "on the abstract base class"
+            )
+        return None
+
+    def get_finished_count(self) -> int | None:
+        """
+        Get the count of requests expected to complete send/receive operations
+        via this connector. This method is used to initialize the
+        KVOutputAggregator, overwriting the default world_size.
+
+        Returns:
+            int: expected sending or receiving completion count.
+        """
+        return None
+
+    @classmethod
+    def build_kv_connector_stats(
+        cls, data: dict[str, Any] | None = None
+    ) -> Optional["KVConnectorStats"]:
+        """
+        KVConnectorStats resolution method. This method allows dynamically
+        registered connectors to return their own KVConnectorStats object,
+        which can implement custom aggregation logic on the data dict.
+        """
+        return None
+
+    @classmethod
+    def build_prom_metrics(
+        cls,
+        vllm_config: "VllmConfig",
+        metric_types: dict[type["PromMetric"], type["PromMetricT"]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ) -> Optional["KVConnectorPromMetrics"]:
+        """
+        Create a KVConnectorPromMetrics subclass which should register
+        per-connector Prometheus metrics and implement observe() to
+        expose connector transfer stats via Prometheus.
+        """
+        return None
+
+    ##############################
+    # Helper functions
+    ##############################
+    def _process_retrieve_requests(
+        self,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        for request_tracker in self.request_trackers.values():
+            if request_tracker.state != LMCacheMPRequestState.WAITING_FOR_LOAD:
+                continue
+            r_metadata = LMCacheMPRequestMetadata.GetRetrieveMetadata(
+                request_tracker, blocks_per_chunk
+            )
+            if r_metadata is not None:
+                metadata.add_request_metadata(r_metadata)
+            request_tracker.state = LMCacheMPRequestState.READY
+
+    def _process_new_requests(
+        self,
+        scheduler_output: SchedulerOutput,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        for new_request in scheduler_output.scheduled_new_reqs:
+            request_tracker = self._get_request_tracker(new_request.req_id)
+
+            num_new_tokens = scheduler_output.num_scheduled_tokens[new_request.req_id]
+            request_tracker.increase_num_scheduled_tokens(num_new_tokens)
+
+            r_meta = LMCacheMPRequestMetadata.GetStoreMetadata(
+                request_tracker, blocks_per_chunk, self.vllm_block_size
+            )
+            if r_meta is not None:
+                metadata.add_request_metadata(r_meta)
+
+    def _process_cached_requests(
+        self,
+        scheduler_output: SchedulerOutput,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+        for idx, request_id in enumerate(cached_reqs.req_ids):
+            request_tracker = self._get_request_tracker(request_id)
+
+            # Update block ids
+            new_block_ids = reformat_block_ids(cached_reqs.new_block_ids[idx])
+            request_tracker.update_block_ids(new_block_ids)
+
+            # Update new scheduled tokens
+            num_new_tokens = cached_reqs.num_computed_tokens[idx]
+            request_tracker.increase_num_scheduled_tokens(num_new_tokens)
+
+            r_meta = LMCacheMPRequestMetadata.GetStoreMetadata(
+                request_tracker, blocks_per_chunk, self.vllm_block_size
+            )
+
+            if r_meta is not None:
+                metadata.add_request_metadata(r_meta)
+
+    def _get_request_tracker(self, request_id: str) -> LMCacheMPRequestTracker:
+        assert request_id in self.request_trackers, (
+            f"Request tracker for request_id {request_id} not found. "
+        )
+        return self.request_trackers[request_id]
+
+    def _get_or_create_request_tracker(
+        self, request: "Request"
+    ) -> LMCacheMPRequestTracker:
+        request_id = request.request_id
+        if request_id not in self.request_trackers:
+            new_tracker = LMCacheMPRequestTracker(request)
+            self.request_trackers[request_id] = new_tracker
+        return self.request_trackers[request_id]
diff --git a/distributed/kv_transfer/kv_connector/v1/metrics.py b/distributed/kv_transfer/kv_connector/v1/metrics.py
new file mode 100644
index 0000000..d6ea4f1
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/metrics.py
@@ -0,0 +1,189 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass, field
+from typing import Any, TypeAlias, TypeVar
+
+from prometheus_client import Counter, Gauge, Histogram
+
+from vllm.config import KVTransferConfig, VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_transfer_state import has_kv_transfer_group
+from vllm.logger import init_logger
+
+PromMetric: TypeAlias = Gauge | Counter | Histogram
+PromMetricT = TypeVar("PromMetricT", bound=PromMetric)
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class KVConnectorStats:
+    """
+    Base class for KV Connector Stats, a container for transfer performance
+    metrics or otherwise important telemetry from the connector.
+    All sub-classes need to be serializable as stats are sent from worker to
+    logger process.
+    """
+
+    data: dict[str, Any] = field(default_factory=dict)
+
+    def reset(self):
+        """Reset the stats, clear the state."""
+        raise NotImplementedError
+
+    def aggregate(self, other: "KVConnectorStats") -> "KVConnectorStats":
+        """
+        Aggregate stats with another `KVConnectorStats` object.
+        """
+        raise NotImplementedError
+
+    def reduce(self) -> dict[str, int | float]:
+        """
+        Reduce the observations collected during a time interval to one or
+        more representative values (eg avg/median/sum of the series).
+        This is meant to be called by the logger to produce a summary of the
+        stats for the last time interval.
+        """
+        raise NotImplementedError
+
+    def is_empty(self) -> bool:
+        """Return True if the stats are empty."""
+        raise NotImplementedError
+
+
+class KVConnectorLogging:
+    def __init__(self, kv_tranfer_config: KVTransferConfig):
+        # This should be called on frontend process.
+        assert not has_kv_transfer_group()
+        # Instantiate the connector's stats class.
+        if kv_tranfer_config and kv_tranfer_config.kv_connector:
+            self.connector_cls = KVConnectorFactory.get_connector_class(
+                kv_tranfer_config
+            )
+        self.reset()
+
+    def reset(self):
+        self.transfer_stats_accumulator: KVConnectorStats | None = None
+
+    def observe(self, transfer_stats_data: dict[str, Any]):
+        # Should not be called when a KVConnector is not configured.
+        assert self.connector_cls is not None
+        # Called periodically when connector syncs with the scheduler.
+        # Note that this is not the same as the logging interval.
+        # We expect transfer_stats_data to be aggregated across all workers and
+        # consist of observations from a single connector or a MultiConnector.
+        transfer_stats = self.connector_cls.build_kv_connector_stats(
+            transfer_stats_data
+        )
+        if transfer_stats is None:
+            logger.warning_once(
+                "The connector %s is collecting stats but "
+                "does not implement the "
+                "`build_kv_connector_stats` method. "
+                "Stats will not be logged.",
+                self.connector_cls,
+            )
+            return
+
+        if self.transfer_stats_accumulator is None:
+            self.transfer_stats_accumulator = transfer_stats
+        else:
+            # Accumulate last interval stats.
+            self.transfer_stats_accumulator = self.transfer_stats_accumulator.aggregate(
+                transfer_stats
+            )
+
+    def log(self, log_fn=logger.info):
+        """Log transfer metrics periodically, similar to throughput logging"""
+        if (
+            self.transfer_stats_accumulator
+            and not self.transfer_stats_accumulator.is_empty()
+        ):
+            # Produce a single cumulative stats object for the last time
+            # interval from the recorded observations.
+            xfer_metrics = self.transfer_stats_accumulator.reduce()
+            xfer_metrics_str = ", ".join(f"{k}={v}" for k, v in xfer_metrics.items())
+            log_fn("KV Transfer metrics: %s", xfer_metrics_str)
+
+            # Reset metrics for next interval
+            self.reset()
+
+
+class KVConnectorPromMetrics:
+    """
+    A base class for per-connector Prometheus metric registration
+    and recording.
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        metric_types: dict[type[PromMetric], type[PromMetricT]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ):
+        self._kv_transfer_config = vllm_config.kv_transfer_config
+        self._gauge_cls = metric_types[Gauge]
+        self._counter_cls = metric_types[Counter]
+        self._histogram_cls = metric_types[Histogram]
+        self._labelnames = labelnames
+        self._per_engine_labelvalues = per_engine_labelvalues
+
+    def make_per_engine(self, metric: PromMetric) -> PromMetric:
+        """
+        Create a per-engine child of a prometheus_client.Metric with
+        the appropriate labels set. The parent metric must be created
+        using the labelnames list.
+        """
+        return {
+            idx: metric.labels(*labelvalues)
+            for idx, labelvalues in self._per_engine_labelvalues.items()
+        }
+
+    def observe(self, transfer_stats_data: dict[str, Any], engine_idx: int = 0):
+        """
+        Record the supplied transfer statistics to Prometheus metrics. These
+        statistics are engine-specific, and should be recorded to a metric
+        with the appropriate 'engine' label. These metric instances can be
+        created using the make_per_engine() helper method.
+        """
+        raise NotImplementedError
+
+
+class KVConnectorPrometheus:
+    """
+    Support for registering per-connector Prometheus metrics, and
+    recording transfer statistics to those metrics. Uses
+    KVConnectorBase.build_prom_metrics().
+    """
+
+    _gauge_cls = Gauge
+    _counter_cls = Counter
+    _histogram_cls = Histogram
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ):
+        self.prom_metrics: KVConnectorPromMetrics | None = None
+        kv_transfer_config = vllm_config.kv_transfer_config
+        if kv_transfer_config and kv_transfer_config.kv_connector:
+            connector_cls = KVConnectorFactory.get_connector_class(kv_transfer_config)
+            metric_types = {
+                Gauge: self._gauge_cls,
+                Counter: self._counter_cls,
+                Histogram: self._histogram_cls,
+            }
+            self.prom_metrics = connector_cls.build_prom_metrics(
+                vllm_config,
+                metric_types,
+                labelnames,
+                per_engine_labelvalues,
+            )
+
+    def observe(self, transfer_stats_data: dict[str, Any], engine_idx: int = 0):
+        if self.prom_metrics is None:
+            return
+        self.prom_metrics.observe(transfer_stats_data, engine_idx)
diff --git a/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/distributed/kv_transfer/kv_connector/v1/multi_connector.py
new file mode 100644
index 0000000..c9d08e9
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -0,0 +1,454 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import copy
+from collections.abc import Iterable
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.config.kv_transfer import KVTransferConfig
+from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+    KVConnectorPromMetrics,
+    KVConnectorStats,
+    PromMetric,
+    PromMetricT,
+)
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import KVConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.distributed.kv_events import KVCacheEvent
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class MultiKVConnectorMetadata(KVConnectorMetadata):
+    metadata: tuple[KVConnectorMetadata, ...]
+    extra_async_saves: dict[str, int] | None = None
+
+
+@dataclass
+class MultiKVConnectorStats(KVConnectorStats):
+    """
+    Maintain a dict of KVConnectorStats objects, one for each connector.
+    This is used to aggregate the stats from all connectors separately.
+    """
+
+    def aggregate(self, other: KVConnectorStats) -> KVConnectorStats:
+        for connector_id, stats in other.data.items():
+            if connector_id not in self.data:
+                self[connector_id] = stats
+            else:
+                assert isinstance(stats, type(self.data[connector_id]))
+                self[connector_id] = self[connector_id].aggregate(stats)
+        return self
+
+    def reset(self):
+        for stats in self.data.values():
+            stats.reset()
+
+    def reduce(self) -> dict[str, Any]:
+        # TODO (NickLucche) Adjust for logging on separate lines
+        return {
+            connector_id: stats.reduce() for connector_id, stats in self.data.items()
+        }
+
+    def is_empty(self) -> bool:
+        return all(stats.is_empty() for stats in self.data.values())
+
+    def __getitem__(self, connector_id: str) -> KVConnectorStats:
+        return self.data[connector_id]
+
+    def __setitem__(self, connector_id: str, stats: KVConnectorStats):
+        self.data[connector_id] = stats
+
+
+class MultiKVConnectorPromMetrics(KVConnectorPromMetrics):
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        metric_types: dict[type[PromMetric], type[PromMetricT]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+        prom_metrics: dict[str, KVConnectorPromMetrics],
+    ):
+        super().__init__(vllm_config, metric_types, labelnames, per_engine_labelvalues)
+        self._prom_metrics = prom_metrics
+
+    def observe(self, transfer_stats_data: dict[str, Any], engine_idx: int = 0):
+        for connector_id, stats_data in transfer_stats_data.items():
+            assert connector_id in self._prom_metrics, (
+                f"{connector_id} is not contained in the list of registered connectors "
+                f"with Prometheus metrics support: {self._prom_metrics.keys()}"
+            )
+            self._prom_metrics[connector_id].observe(stats_data["data"], engine_idx)
+
+
+class MultiConnector(KVConnectorBase_V1):
+    """
+    A wrapper for using multiple KVConnectors at the same time.
+
+    The current logic is:
+    - Load KV from the first connector that advertises available tokens from
+      get_num_new_matched_tokens(), based on the order in the config.
+    - Save to all connectors.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: "KVCacheConfig",
+    ):
+        super().__init__(
+            vllm_config=vllm_config, role=role, kv_cache_config=kv_cache_config
+        )
+
+        self._connectors: list[KVConnectorBase_V1] = []
+        self._ktc_kv_transfer_config = []
+        for connector_cls, temp_config in self._get_connector_classes_and_configs(
+            vllm_config
+        ):
+            self._connectors.append(connector_cls(temp_config, role, kv_cache_config))
+            self._ktc_kv_transfer_config.append(temp_config.kv_transfer_config)
+
+        # A mapping from request id to the index of the connector chosen to
+        # load the request from (if any).
+        self._requests_to_connector: dict[str, int] = {}
+
+        # Keeps track of *additional* remaining async saves (beyond 1) to be
+        # finished per request. Not needed for async loads since we only allow
+        # a single connector to load.
+        # Propagated from scheduler to worker side via the connector metadata.
+        self._extra_async_saves: dict[str, int] = {}
+
+    @classmethod
+    def _get_connector_classes_and_configs(
+        cls, vllm_config: "VllmConfig"
+    ) -> list[tuple[type[KVConnectorBaseType], "VllmConfig"]]:
+        assert vllm_config.kv_transfer_config is not None
+        ktcs = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
+            "connectors"
+        )
+        assert ktcs is not None
+        ret: list[tuple[type[KVConnectorBaseType], VllmConfig]] = []
+        for ktc in ktcs:
+            temp_config = copy.copy(vllm_config)
+            engine_id = ktc.get("engine_id", vllm_config.kv_transfer_config.engine_id)
+            temp_config.kv_transfer_config = KVTransferConfig(
+                **ktc, engine_id=engine_id
+            )
+            ret.append(
+                (
+                    KVConnectorFactory.get_connector_class(
+                        temp_config.kv_transfer_config
+                    ),
+                    temp_config,
+                )
+            )
+        return ret
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        for c in self._connectors:
+            c.register_kv_caches(kv_caches)
+
+    # We must override the base class method here because we need to bind
+    # the metadata to each connector in the order of the connectors in the
+    # MultiKVConnectorMetadata.
+    #
+    # Note: Call the base class method to ensure metadata is also set on the
+    # MultiConnector instance itself; otherwise, `has_connector_metadata()` will
+    # always return False.
+    def bind_connector_metadata(self, connector_metadata: KVConnectorMetadata) -> None:
+        assert isinstance(connector_metadata, MultiKVConnectorMetadata)
+        if connector_metadata.extra_async_saves:
+            self._extra_async_saves.update(connector_metadata.extra_async_saves)
+        for c, cm in zip(self._connectors, connector_metadata.metadata):
+            c.bind_connector_metadata(cm)
+        super().bind_connector_metadata(connector_metadata)
+
+    def clear_connector_metadata(self) -> None:
+        for c in self._connectors:
+            c.clear_connector_metadata()
+        super().clear_connector_metadata()
+
+    def shutdown(self):
+        exception: Exception | None = None
+        for c in self._connectors:
+            try:
+                c.shutdown()
+            except Exception as e:
+                logger.exception(
+                    "Exception during connector %s shutdown.", c.__class__.__name__
+                )
+                exception = e
+        if exception:
+            raise exception
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        for c in self._connectors:
+            c.start_load_kv(forward_context, **kwargs)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        for c in self._connectors:
+            c.wait_for_layer_load(layer_name)
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        for c in self._connectors:
+            c.save_kv_layer(layer_name, kv_layer, attn_metadata, **kwargs)
+
+    def wait_for_save(self):
+        for c in self._connectors:
+            c.wait_for_save()
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        finished_sending: set[str] = set()
+        finished_recving: set[str] = set()
+        for c in self._connectors:
+            sending, recving = c.get_finished(finished_req_ids)
+            if not recving and not sending:
+                continue
+            # Aggregate finished recving request ids.
+            finished_recving.update(recving or ())
+            # Aggregate finished sending request ids - only include
+            # once we've drained the "extra" count (for cases where
+            # more than one connector is async-saving the same request).
+            for req_id in sending or ():
+                extra_pending = self._extra_async_saves.get(req_id)
+                if extra_pending is None:
+                    finished_sending.add(req_id)
+                    continue
+                assert extra_pending > 0
+                if extra_pending == 1:
+                    del self._extra_async_saves[req_id]
+                else:
+                    self._extra_async_saves[req_id] = extra_pending - 1
+
+        return finished_sending or None, finished_recving or None
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        agg_block_ids: set[int] = set()
+        for c in self._connectors:
+            agg_block_ids |= c.get_block_ids_with_load_errors()
+        return agg_block_ids
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        to_return = (0, False)
+        for i, c in enumerate(self._connectors):
+            toks, load_async = c.get_num_new_matched_tokens(
+                request, num_computed_tokens
+            )
+            # If there is a connector still looking up the matches,
+            # we return None to indicate that we are not done yet.
+            if toks is None:
+                return (None, False)
+            # The first connector that has new matched tokens will be assigned
+            # to this request.
+            if to_return[0] == 0 and toks > 0:
+                self._requests_to_connector[request.request_id] = i
+                to_return = (toks, load_async)
+        return to_return
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        chosen_connector = self._requests_to_connector.get(request.request_id, -1)
+        empty_blocks = blocks.new_empty()
+        for i, c in enumerate(self._connectors):
+            if i == chosen_connector:
+                # Forward call to the chosen connector (if any).
+                c.update_state_after_alloc(request, blocks, num_external_tokens)
+            else:
+                # Call with empty blocks for other connectors.
+                c.update_state_after_alloc(request, empty_blocks, 0)
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> MultiKVConnectorMetadata:
+        metadata = MultiKVConnectorMetadata(
+            metadata=tuple(
+                c.build_connector_meta(scheduler_output) for c in self._connectors
+            )
+        )
+        if self._extra_async_saves:
+            metadata.extra_async_saves = self._extra_async_saves
+            self._extra_async_saves = {}
+        return metadata
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        for c in self._connectors:
+            c.update_connector_output(connector_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        blocks: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        async_saves = 0
+        kv_txfer_params = None
+        for c in self._connectors:
+            async_save, txfer_params = c.request_finished(request, blocks)
+            if async_save:
+                async_saves += 1
+            if txfer_params is not None:
+                if kv_txfer_params is not None:
+                    # TODO we can probably change this to merge the dicts here,
+                    # checking for key clashes.
+                    raise RuntimeError(
+                        "Only one connector can produce KV transfer params"
+                    )
+                kv_txfer_params = txfer_params
+        if async_saves > 1:
+            self._extra_async_saves[request.request_id] = async_saves - 1
+
+        # Clean up other state for this request.
+        self._requests_to_connector.pop(request.request_id, None)
+
+        return async_saves > 0, kv_txfer_params
+
+    def take_events(self) -> Iterable["KVCacheEvent"]:
+        for c in self._connectors:
+            yield from c.take_events()
+
+    @classmethod
+    def get_required_kvcache_layout(cls, vllm_config: "VllmConfig") -> str | None:
+        """
+        Get the required KV cache layout for this connector.
+        Args:
+            vllm_config (VllmConfig): the vllm config.
+
+        Returns:
+            str: the required KV cache layout. e.g. HND, or NHD.
+            None if the connector does not require a specific layout.
+        """
+        assert vllm_config.kv_transfer_config is not None
+        layouts: set[str] = set()
+        for connector_cls, temp_config in cls._get_connector_classes_and_configs(
+            vllm_config
+        ):
+            required_kvcache_layout = connector_cls.get_required_kvcache_layout(
+                temp_config
+            )
+            if required_kvcache_layout is not None:
+                layouts.add(required_kvcache_layout)
+
+        if len(layouts) > 1:
+            raise ValueError(
+                f"KV cache layout mismatch: "
+                f"found {len(layouts)} different layouts "
+                f"({', '.join(layouts)})."
+                f"All connectors must use the same layout."
+            )
+        return next(iter(layouts), None)
+
+    @classmethod
+    def build_kv_connector_stats(
+        cls, data: dict[str, Any] | None = None
+    ) -> KVConnectorStats | None:
+        if data is None:
+            return MultiKVConnectorStats()
+
+        # data is a dict mapping connector name to their stats data.
+        # The stats data can be either:
+        # 1. Already-instantiated KVConnectorStats objects (same process)
+        # 2. Serialized dicts (cross-process after serialization)
+        # We need to reconstruct proper KVConnectorStats objects from dicts
+        reconstructed_data = {}
+        for connector_name, stats_value in data.items():
+            # If already a KVConnectorStats object, use it directly
+            if isinstance(stats_value, KVConnectorStats):
+                reconstructed_data[connector_name] = stats_value
+                continue
+
+            # Otherwise, reconstruct from serialized dict
+            # Get the connector class to reconstruct its stats
+            connector_cls = KVConnectorFactory.get_connector_class_by_name(
+                connector_name
+            )
+
+            # stats_value is the serialized dataclass which contains {'data': {...}}
+            # We need to extract the inner 'data' field to avoid double-nesting
+            assert isinstance(stats_value, dict) and "data" in stats_value, (
+                f"Expected a dict with a 'data' field, got {stats_value}"
+            )
+            inner_data = stats_value["data"]
+
+            # Use the connector's build_kv_connector_stats to reconstruct
+            if reconstructed_stats := connector_cls.build_kv_connector_stats(
+                data=inner_data
+            ):
+                reconstructed_data[connector_name] = reconstructed_stats
+
+        return MultiKVConnectorStats(data=reconstructed_data)
+
+    def get_kv_connector_stats(self) -> MultiKVConnectorStats | None:
+        # Group connector stats by connector type.
+        stats_by_connector: MultiKVConnectorStats | None = None
+        for c in self._connectors:
+            stats = c.get_kv_connector_stats()
+            if stats is None:
+                continue
+            if stats_by_connector is None:
+                # Lazy init to allow optional return value.
+                stats_by_connector = MultiKVConnectorStats()
+            stats_by_connector[c.__class__.__name__] = stats
+        return stats_by_connector
+
+    @classmethod
+    def build_prom_metrics(
+        cls,
+        vllm_config: "VllmConfig",
+        metric_types: dict[type["PromMetric"], type["PromMetricT"]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ) -> KVConnectorPromMetrics:
+        prom_metrics: dict[str, KVConnectorPromMetrics] = {}
+        for connector_cls, temp_config in cls._get_connector_classes_and_configs(
+            vllm_config
+        ):
+            connector_prom = connector_cls.build_prom_metrics(
+                temp_config, metric_types, labelnames, per_engine_labelvalues
+            )
+            if connector_prom is not None:
+                prom_metrics[connector_cls.__name__] = connector_prom
+        return MultiKVConnectorPromMetrics(
+            vllm_config,
+            metric_types,
+            labelnames,
+            per_engine_labelvalues,
+            prom_metrics,
+        )
diff --git a/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
new file mode 100644
index 0000000..a70c98b
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -0,0 +1,2440 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import copy
+import logging
+import math
+import os
+import queue
+import threading
+import time
+import uuid
+from collections import defaultdict
+from collections.abc import Iterator
+from concurrent.futures import Future, ThreadPoolExecutor
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Optional
+
+import msgspec
+import numpy as np
+import torch
+import zmq
+
+from vllm import envs
+from vllm.attention import AttentionBackend
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.selector import get_attn_backend
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    CopyBlocksOp,
+    KVConnectorBase_V1,
+    KVConnectorHandshakeMetadata,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+    KVConnectorPromMetrics,
+    KVConnectorStats,
+    PromMetric,
+    PromMetricT,
+)
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    get_tp_group,
+)
+from vllm.forward_context import ForwardContext
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.network_utils import make_zmq_path, make_zmq_socket
+from vllm.v1.attention.backends.utils import get_kv_cache_layout
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.worker.block_table import BlockTable
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+Transfer = tuple[int, float]  # (xfer_handle, start_time)
+EngineId = str
+ReqId = str
+
+GET_META_MSG = b"get_meta_msg"
+
+logger = init_logger(__name__)
+
+# Lazy import nixl_wrapper to avoid loading nixl_bindings if nixl is not used
+try:
+    from nixl._api import nixl_agent as NixlWrapper
+    from nixl._bindings import nixlXferTelemetry
+
+    logger.info("NIXL is available")
+except ImportError:
+    logger.warning("NIXL is not available")
+    NixlWrapper = None
+    nixlXferTelemetry = None
+
+
+try:
+    from nixl._api import nixl_agent_config
+except ImportError:
+    nixl_agent_config = None
+    logger.warning("NIXL agent config is not available")
+
+# Supported platforms and types of kv transfer buffer.
+# {device: tuple of supported kv buffer types}
+_NIXL_SUPPORTED_DEVICE = {
+    "cuda": (
+        "cuda",
+        "cpu",
+    ),
+    "tpu": ("cpu",),
+    "xpu": ("cpu",),
+    "cpu": ("cpu",),
+}
+# support for oot platform by providing mapping in current_platform
+_NIXL_SUPPORTED_DEVICE.update(current_platform.get_nixl_supported_devices())
+
+
+@dataclass
+class NixlAgentMetadata(KVConnectorHandshakeMetadata):
+    engine_id: str
+    agent_metadata: bytes
+    kv_caches_base_addr: list[int]
+    device_id: int
+    num_blocks: int
+    block_lens: list[int]
+    attn_backend_name: str
+    kv_cache_layout: str
+    block_size: int
+
+
+@dataclass
+class ReqMeta:
+    local_block_ids: list[int]
+    # To be used when logical block size does not match the kernel block size
+    local_physical_block_ids: list[int]
+    remote_block_ids: list[int]
+    remote_host: str
+    remote_port: int
+    remote_engine_id: str
+    tp_size: int
+
+
+class NixlConnectorMetadata(KVConnectorMetadata):
+    def __init__(self):
+        self.reqs_to_recv: dict[ReqId, ReqMeta] = {}
+        self.reqs_to_save: dict[ReqId, ReqMeta] = {}
+        self.reqs_to_send: dict[ReqId, float] = {}
+        self.reqs_in_batch: set[ReqId] = set()
+        self.reqs_not_processed: set[ReqId] = set()
+
+    def add_new_req(
+        self,
+        request_id: ReqId,
+        local_block_ids: list[int],
+        kv_transfer_params: dict[str, Any],
+        load_remote_cache: bool = True,
+        save_to_host: bool = False,
+    ):
+        # save and load are mutually exclusive
+        assert load_remote_cache ^ save_to_host
+        _req = ReqMeta(
+            local_block_ids=local_block_ids,
+            local_physical_block_ids=local_block_ids,
+            remote_block_ids=kv_transfer_params["remote_block_ids"],
+            remote_engine_id=kv_transfer_params["remote_engine_id"],
+            remote_host=kv_transfer_params["remote_host"],
+            remote_port=kv_transfer_params["remote_port"],
+            # P workers don't need to receive tp_size from proxy here.
+            tp_size=kv_transfer_params.get("tp_size", 1),
+        )
+        if save_to_host:
+            self.reqs_to_save[request_id] = _req
+        if load_remote_cache:
+            self.reqs_to_recv[request_id] = _req
+
+
+class NixlConnector(KVConnectorBase_V1):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
+        assert vllm_config.kv_transfer_config is not None
+        assert vllm_config.kv_transfer_config.engine_id is not None
+        self.engine_id: EngineId = vllm_config.kv_transfer_config.engine_id
+
+        if role == KVConnectorRole.SCHEDULER:
+            self.connector_scheduler: NixlConnectorScheduler | None = (
+                NixlConnectorScheduler(vllm_config, self.engine_id)
+            )
+            self.connector_worker: NixlConnectorWorker | None = None
+        elif role == KVConnectorRole.WORKER:
+            self.connector_scheduler = None
+            self.connector_worker = NixlConnectorWorker(vllm_config, self.engine_id)
+
+    ############################################################
+    # Class Methods
+    ############################################################
+    @classmethod
+    def get_required_kvcache_layout(cls, vllm_config: VllmConfig):
+        if vllm_config.model_config is None:
+            logger.warning_once(
+                "Unable to detect current VLLM config. "
+                "Fallback to default kv cache layout."
+            )
+            return None
+        use_mla = vllm_config.model_config.use_mla
+        if use_mla:
+            # return None when we have mla
+            # as the layout should not matter in that case,
+            # which fallback to the default behavior.
+            return None
+        logger.info_once(
+            "NixlConnector setting KV cache layout to HND for better xfer performance."
+        )
+        return "HND"
+
+    ############################################################
+    # Scheduler Side Methods
+    ############################################################
+
+    def get_num_new_matched_tokens(
+        self, request: "Request", num_computed_tokens: int
+    ) -> tuple[int | None, bool]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.get_num_new_matched_tokens(
+            request, num_computed_tokens
+        )
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.update_state_after_alloc(
+            request, blocks, num_external_tokens
+        )
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.build_connector_meta(scheduler_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.request_finished(request, block_ids)
+
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (dict): the handshake metadata to set.
+        """
+        assert self.connector_scheduler is not None
+        self.connector_scheduler.set_xfer_handshake_metadata(metadata)
+
+    ############################################################
+    # Worker Side Methods
+    ############################################################
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        assert self.connector_worker is not None
+        self.connector_worker.register_kv_caches(kv_caches)
+
+    def set_host_xfer_buffer_ops(self, copy_operation: CopyBlocksOp):
+        assert self.connector_worker is not None
+        self.connector_worker.set_host_xfer_buffer_ops(copy_operation)
+
+    def get_finished(self, finished_req_ids: set[str]) -> tuple[set[str], set[str]]:
+        """Get the finished recving and sending requests."""
+        assert self.connector_worker is not None
+        return self.connector_worker.get_finished()
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """Get block IDs that failed to load via NIXL."""
+        assert self.connector_worker is not None
+        return self.connector_worker.get_block_ids_with_load_errors()
+
+    def get_kv_connector_stats(self) -> KVConnectorStats | None:
+        if self.connector_worker is None:
+            return None
+        return self.connector_worker.get_kv_connector_stats()
+
+    @classmethod
+    def build_kv_connector_stats(
+        cls, data: dict[str, Any] | None = None
+    ) -> KVConnectorStats | None:
+        return (
+            NixlKVConnectorStats(data=data)
+            if data is not None
+            else NixlKVConnectorStats()
+        )
+
+    @classmethod
+    def build_prom_metrics(
+        cls,
+        vllm_config: VllmConfig,
+        metric_types: dict[type[PromMetric], type[PromMetricT]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ) -> KVConnectorPromMetrics:
+        return NixlPromMetrics(
+            vllm_config, metric_types, labelnames, per_engine_labelvalues
+        )
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, NixlConnectorMetadata)
+        self.connector_worker.start_load_kv(self._connector_metadata)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """NixlConnector does not do layerwise saving."""
+        pass
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        """NixlConnector does not save explicitly."""
+        pass
+
+    def wait_for_save(self):
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, NixlConnectorMetadata)
+        if self.connector_worker.use_host_buffer and self.connector_worker.copy_blocks:
+            self.connector_worker.save_kv_to_host(self._connector_metadata)
+
+    def shutdown(self):
+        if self.connector_worker is not None:
+            self.connector_worker.shutdown()
+        if self.connector_scheduler is not None:
+            self.connector_scheduler.shutdown()
+
+    def get_handshake_metadata(self) -> KVConnectorHandshakeMetadata | None:
+        """
+        Get the KVConnector handshake metadata for this connector.
+        This metadata is used for out-of-band connector handshake
+        between P/D workers.
+
+        Returns:
+            KVConnectorHandshakeMetadata: the handshake metadata.
+            None if no handshake metadata is available.
+        """
+        assert self.connector_worker is not None
+        return self.connector_worker.xfer_handshake_metadata
+
+
+class NixlConnectorScheduler:
+    """Implementation of Scheduler side methods"""
+
+    def __init__(self, vllm_config: VllmConfig, engine_id: str):
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+        self.engine_id: EngineId = engine_id
+        self.side_channel_host = envs.VLLM_NIXL_SIDE_CHANNEL_HOST
+        self.side_channel_port = (
+            envs.VLLM_NIXL_SIDE_CHANNEL_PORT
+            + vllm_config.parallel_config.data_parallel_rank
+        )
+        assert vllm_config.kv_transfer_config is not None
+        if current_platform.device_type == "cpu":
+            self.use_host_buffer = False
+        else:
+            self.use_host_buffer = (
+                vllm_config.kv_transfer_config.kv_buffer_device == "cpu"
+            )
+
+        logger.info("Initializing NIXL Scheduler %s", engine_id)
+
+        # Background thread for handling new handshake requests.
+        self._nixl_handshake_listener_t: threading.Thread | None = None
+        self._encoded_xfer_handshake_metadata: dict[int, Any] = {}
+        self._stop_event = threading.Event()
+
+        # Requests that need to start recv/send.
+        # New requests are added by update_state_after_alloc in
+        # the scheduler. Used to make metadata passed to Worker.
+        self._reqs_need_recv: dict[ReqId, tuple[Request, list[int]]] = {}
+        self._reqs_need_save: dict[ReqId, tuple[Request, list[int]]] = {}
+        # Reqs to send and their expiration time
+        self._reqs_need_send: dict[ReqId, float] = {}
+        self._reqs_in_batch: set[ReqId] = set()
+        # Reqs to remove from processed set because they're not to send after
+        # remote prefill or aborted.
+        self._reqs_not_processed: set[ReqId] = set()
+
+    def shutdown(self):
+        self._stop_event.set()
+        if self._nixl_handshake_listener_t is not None:
+            self._nixl_handshake_listener_t.join()
+            self._nixl_handshake_listener_t = None
+
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (dict): the handshake metadata to set.
+        """
+        encoded_data: dict[int, bytes] = {}
+        encoder = msgspec.msgpack.Encoder()
+        for tp_rank, rank_metadata in metadata.items():
+            if not isinstance(rank_metadata, NixlAgentMetadata):
+                raise ValueError(
+                    "NixlConnectorScheduler expects NixlAgentMetadata for "
+                    "handshake metadata."
+                )
+            encoded_data[tp_rank] = encoder.encode(rank_metadata)
+            logger.debug(
+                "Tp rank %d: encoded NixlAgentMetadata size: %s bytes",
+                tp_rank,
+                str(len(encoded_data[tp_rank])),
+            )
+        self._encoded_xfer_handshake_metadata = encoded_data
+
+        # Only start the listener when we have metadata to serve.
+        if self._nixl_handshake_listener_t is None:
+            ready_event = threading.Event()
+            self._nixl_handshake_listener_t = threading.Thread(
+                target=self._nixl_handshake_listener,
+                args=(
+                    encoded_data,
+                    ready_event,
+                    self._stop_event,
+                    self.side_channel_port,
+                ),
+                daemon=True,
+                name="nixl_handshake_listener",
+            )
+            self._nixl_handshake_listener_t.start()
+            ready_event.wait()  # Wait for listener ZMQ socket to be ready.
+
+    @staticmethod
+    def _nixl_handshake_listener(
+        encoded_data: dict[int, Any],
+        ready_event: threading.Event,
+        stop_event: threading.Event,
+        port: int,
+    ):
+        """Background thread for getting new NIXL handshakes."""
+        # NOTE(rob): this is a simple implementation. We will move
+        # to a better approach via HTTP endpoint soon.
+
+        # Listen for new requests for metadata.
+        host = envs.VLLM_NIXL_SIDE_CHANNEL_HOST
+        path = make_zmq_path("tcp", host, port)
+        logger.debug("Starting listening on path: %s", path)
+        with zmq_ctx(zmq.ROUTER, path) as sock:
+            sock.setsockopt(zmq.RCVTIMEO, 1000)
+            ready_event.set()
+            while True:
+                try:
+                    identity, _, msg = sock.recv_multipart()
+                except zmq.Again:
+                    if stop_event.is_set():
+                        break
+                    continue
+                # Decode the message which contains (GET_META_MSG, rank)
+                msg, target_tp_rank = msgspec.msgpack.decode(msg)
+                logger.debug(
+                    "Received message for tp rank %s",
+                    target_tp_rank,
+                )
+                if msg != GET_META_MSG:
+                    logger.warning("Connection listener got unexpected message %s", msg)
+                sock.send_multipart((identity, b"", encoded_data[target_tp_rank]))
+
+    def get_num_new_matched_tokens(
+        self, request: "Request", num_computed_tokens: int
+    ) -> tuple[int, bool]:
+        """
+        For remote prefill, pull all prompt blocks from remote
+        asynchronously relative to engine execution.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+        Returns:
+            * the number of tokens that can be loaded from the
+              external KV cache beyond what is already computed.
+            * true if the external KV cache tokens will be loaded
+              asynchronously (between scheduler steps).
+        """
+
+        params = request.kv_transfer_params
+        logger.debug(
+            "NIXLConnector get_num_new_matched_tokens: "
+            "num_computed_tokens=%s, kv_transfer_params=%s",
+            num_computed_tokens,
+            params,
+        )
+
+        if params is not None and params.get("do_remote_prefill"):
+            # Remote prefill: get all prompt blocks from remote.
+            token_ids = request.prompt_token_ids or []
+            count = len(token_ids) - num_computed_tokens
+            if count > 0:
+                return count, True
+
+        # No remote prefill for this request.
+        return 0, False
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        params = request.kv_transfer_params
+        logger.debug(
+            "NIXLConnector update_state_after_alloc: "
+            "num_external_tokens=%s, kv_transfer_params=%s",
+            num_external_tokens,
+            params,
+        )
+
+        if not params:
+            return
+
+        if params.get("do_remote_decode"):
+            self._reqs_in_batch.add(request.request_id)
+        if self.use_host_buffer and params.get("do_remote_decode"):
+            # NOTE: when accelerator is not directly supported by Nixl,
+            # prefilled blocks need to be saved to host memory before transfer.
+
+            # save all blocks
+            block_ids = blocks.get_block_ids()[0]
+            # TODO: skip the blocks that are already in the host xfer buffer.
+            # Currently, the host xfer buffer block is 1-to-1 mapped to device
+            # kv blocks, so host blocks won't be flushed as long as its device
+            # block is not overwritten; and it will be safe to skip saving them
+            # to host xfer buffer.
+            if block_ids:
+                self._reqs_need_save[request.request_id] = (request, block_ids)
+        elif params.get("do_remote_prefill"):
+            if params.get("remote_block_ids"):
+                if all(
+                    p in params
+                    for p in ("remote_engine_id", "remote_host", "remote_port")
+                ):
+                    # If remote_blocks and num_external_tokens = 0, we have
+                    # a full prefix cache hit on the D worker. We need to call
+                    # send_notif in _read_blocks to free the memory on the P.
+                    local_block_ids = (
+                        blocks.get_unhashed_block_ids()
+                        if num_external_tokens > 0
+                        else []
+                    )
+                    # Get unhashed blocks to pull from remote.
+                    self._reqs_need_recv[request.request_id] = (
+                        request,
+                        local_block_ids,
+                    )
+
+                else:
+                    logger.warning(
+                        "Got invalid KVTransferParams: %s. This "
+                        "request will not utilize KVTransfer",
+                        params,
+                    )
+            else:
+                assert num_external_tokens == 0
+            # Only trigger 1 KV transfer per request.
+            params["do_remote_prefill"] = False
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        meta = NixlConnectorMetadata()
+
+        # Loop through scheduled reqs and convert to ReqMeta.
+        for req_id, (req, block_ids) in self._reqs_need_recv.items():
+            assert req.kv_transfer_params is not None
+            meta.add_new_req(
+                request_id=req_id,
+                local_block_ids=block_ids,
+                kv_transfer_params=req.kv_transfer_params,
+                load_remote_cache=True,
+                save_to_host=False,
+            )
+
+        for req_id, (req, block_ids) in self._reqs_need_save.items():
+            assert req.kv_transfer_params is not None
+            meta.add_new_req(
+                request_id=req_id,
+                local_block_ids=block_ids,
+                kv_transfer_params=req.kv_transfer_params,
+                load_remote_cache=False,
+                save_to_host=True,
+            )
+
+        meta.reqs_to_send = self._reqs_need_send
+        meta.reqs_in_batch = self._reqs_in_batch
+        meta.reqs_not_processed = self._reqs_not_processed
+
+        # Clear the list once workers start the transfers
+        self._reqs_need_recv.clear()
+        self._reqs_need_save.clear()
+        self._reqs_in_batch = set()
+        self._reqs_not_processed = set()
+        self._reqs_need_send = {}
+
+        return meta
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Once a request is finished, determine whether request blocks
+        should be freed now or will be sent asynchronously and freed later.
+        """
+        from vllm.v1.request import RequestStatus
+
+        params = request.kv_transfer_params
+        logger.debug(
+            "NIXLConnector request_finished(%s), request_status=%s, "
+            "kv_transfer_params=%s",
+            request.request_id,
+            request.status,
+            params,
+        )
+        if not params:
+            return False, None
+
+        if params.get("do_remote_prefill"):
+            # If do_remote_prefill is still True when the request is finished,
+            # update_state_after_alloc must not have been called (the request
+            # must have been aborted before it was scheduled).
+            # To avoid stranding the prefill blocks in the prefill instance,
+            # we must add empty block_ids to _reqs_need_recv so that our
+            # worker side will notify and free blocks in the prefill instance.
+            self._reqs_need_recv[request.request_id] = (request, [])
+            params["do_remote_prefill"] = False
+            return False, None
+
+        if not params.get("do_remote_decode"):
+            return False, None
+        if request.status != RequestStatus.FINISHED_LENGTH_CAPPED:
+            # Also include the case of a P/D Prefill request with immediate
+            # block free (eg abort). Stop tracking this request.
+            self._reqs_not_processed.add(request.request_id)
+            return False, None
+
+        # TODO: check whether block_ids actually ever be 0. If not we could
+        # remove the conditional below
+        delay_free_blocks = len(block_ids) > 0
+
+        if delay_free_blocks:
+            # Prefill request on remote. It will be read from D upon completion
+            logger.debug(
+                "NIXLConnector request_finished(%s) waiting for %d seconds "
+                "for remote decode to fetch blocks",
+                request.request_id,
+                envs.VLLM_NIXL_ABORT_REQUEST_TIMEOUT,
+            )
+            self._reqs_need_send[request.request_id] = (
+                time.perf_counter() + envs.VLLM_NIXL_ABORT_REQUEST_TIMEOUT
+            )
+
+        return delay_free_blocks, dict(
+            do_remote_prefill=True,
+            do_remote_decode=False,
+            remote_block_ids=block_ids,
+            remote_engine_id=self.engine_id,
+            remote_host=self.side_channel_host,
+            remote_port=self.side_channel_port,
+            tp_size=self.vllm_config.parallel_config.tensor_parallel_size,
+        )
+
+
+class NixlConnectorWorker:
+    """Implementation of Worker side methods"""
+
+    @dataclass
+    class TpKVTopology:
+        """
+        Helper class for tensor parallel and KV topology information for
+        mapping between local and remote TP workers.
+        """
+
+        tp_size: int
+        tp_rank: int
+        remote_tp_size: dict[EngineId, int]
+        is_mla: bool
+        total_num_kv_heads: int
+        attn_backend: type[AttentionBackend]
+
+        def __post_init__(self):
+            # Figure out whether the first dimension of the cache is K/V
+            # or num_blocks. This is used to register the memory regions correctly.
+            kv_cache_shape = self.attn_backend.get_kv_cache_shape(
+                num_blocks=1, block_size=16, num_kv_heads=1, head_size=1
+            )
+            # Non-MLA backends caches have 5 dims [2, num_blocks, H,N,D],
+            # we just mock num_blocks to 1 for the dimension check below.
+            self._is_kv_layout_blocks_first = (
+                len(kv_cache_shape) == 5 and kv_cache_shape[0] == 1
+            )
+
+            attn_backend = AttentionBackendEnum[self.attn_backend.get_name()]
+            self._use_pallas = attn_backend == AttentionBackendEnum.PALLAS
+
+        @property
+        def is_kv_layout_blocks_first(self) -> bool:
+            return self._is_kv_layout_blocks_first
+
+        @property
+        def split_k_and_v(self) -> bool:
+            # Whether to register regions for K and V separately (when present).
+            return not (
+                self.is_mla or self._use_pallas or self.is_kv_layout_blocks_first
+            )
+
+        block_size: int
+        remote_block_size: dict[EngineId, int]
+
+        def tp_ratio(
+            self,
+            remote_tp_size: int,
+        ) -> int:
+            """
+            Calculate the tensor parallel ratio between local and remote TP.
+            We can think of it as the number of local TP workers-per-remote TP
+            workers. Local workers will read from the same remote TP worker in
+            groups of size `tp_ratio`.
+            """
+            assert self.tp_size % remote_tp_size == 0, (
+                f"Local tensor parallel size {self.tp_size} is not divisible "
+                f"by remote tensor parallel size {remote_tp_size}."
+            )
+            return self.tp_size // remote_tp_size
+
+        def block_size_ratio(
+            self,
+            remote_block_size: int,
+        ) -> float:
+            """
+            Calculate the block size ratio between local and remote TP.
+            """
+            assert self.block_size % remote_block_size == 0, (
+                f"Local block size {self.block_size} is not divisible "
+                f"by remote block size {remote_block_size} or vice versa."
+            )
+            return self.block_size // remote_block_size
+
+        def tp_ratio_from_engine_id(
+            self,
+            remote_engine_id: EngineId,
+        ) -> int:
+            remote_tp_size = self.remote_tp_size[remote_engine_id]
+            return self.tp_ratio(remote_tp_size)
+
+        def block_size_ratio_from_engine_id(
+            self,
+            remote_engine_id: EngineId,
+        ) -> float:
+            remote_block_size = self.remote_block_size[remote_engine_id]
+            return self.block_size_ratio(remote_block_size)
+
+        def is_kv_replicated(self, engine_id: EngineId) -> bool:
+            """
+            Whether the KV cache is replicated across TP workers due to the
+            number of TP workers being greater than the number of KV heads.
+            """
+            tp_size = self.remote_tp_size[engine_id]
+            return tp_size // self.total_num_kv_heads >= 1
+
+        def replicates_kv_cache(self, remote_engine_id: EngineId) -> bool:
+            # MLA is always replicated as the hidden dim can't be split.
+            return self.is_mla or self.is_kv_replicated(remote_engine_id)
+
+        def get_target_remote_rank(
+            self,
+            remote_tp_size: int,
+        ) -> int:
+            """
+            Get the remote TP rank (on P) that the current local TP rank
+            (on D) will read from.
+            """
+            tp_ratio = self.tp_ratio(remote_tp_size)
+            return self.tp_rank // tp_ratio
+
+        def get_target_remote_rank_from_engine_id(
+            self,
+            remote_engine_id: EngineId,
+        ) -> int:
+            remote_tp_size = self.remote_tp_size[remote_engine_id]
+            return self.get_target_remote_rank(remote_tp_size)
+
+    def __init__(self, vllm_config: VllmConfig, engine_id: str):
+        if NixlWrapper is None:
+            logger.error("NIXL is not available")
+            raise RuntimeError("NIXL is not available")
+        logger.info("Initializing NIXL wrapper")
+        logger.info("Initializing NIXL worker %s", engine_id)
+
+        # Config.
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+
+        if vllm_config.kv_transfer_config is None:
+            raise ValueError("kv_transfer_config must be set for NixlConnector")
+        self.kv_transfer_config = vllm_config.kv_transfer_config
+
+        self.nixl_backends = vllm_config.kv_transfer_config.get_from_extra_config(
+            "backends", ["UCX"]
+        )
+        # TODO temporary, once nixl allows for telemetry flag in config
+        # (next release), we can remove this env var.
+        os.environ["NIXL_TELEMETRY_ENABLE"] = "1"
+
+        # Agent.
+        non_ucx_backends = [b for b in self.nixl_backends if b != "UCX"]
+        # Configure NIXL num_threads to avoid UAR exhaustion on Mellanox NICs.
+        # Each UCX thread allocates UARs (doorbell pages) via DevX, and
+        # excessive NIXL UAR usage can exhaust NIC UAR space. This can cause
+        # components like NVSHMEM (used by DeepEP kernels) to fail during RDMA
+        # initialization with "mlx5dv_devx_alloc_uar" errors.
+        # Ref: https://network.nvidia.com/files/doc-2020/ethernet-adapters-programming-manual.pdf#page=63
+        num_threads = vllm_config.kv_transfer_config.get_from_extra_config(
+            "num_threads", 4
+        )
+        if nixl_agent_config is None:
+            config = None
+        else:
+            config = (
+                nixl_agent_config(backends=self.nixl_backends)
+                if len(non_ucx_backends) > 0
+                else nixl_agent_config(num_threads=num_threads)
+            )
+
+        self.nixl_wrapper = NixlWrapper(str(uuid.uuid4()), config)
+        # Map of engine_id -> {rank0: agent_name0, rank1: agent_name1..}.
+        self._remote_agents: dict[EngineId, dict[int, str]] = defaultdict(dict)
+
+        # Metadata.
+        self.engine_id: EngineId = engine_id
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.world_size = get_tensor_model_parallel_world_size()
+        self.tp_group = get_tp_group()
+        self.num_blocks = 0
+        self.enable_permute_local_kv = False
+
+        # KV Caches and nixl tracking data.
+        self.device_type = current_platform.device_type
+        self.kv_buffer_device: str = vllm_config.kv_transfer_config.kv_buffer_device
+        if self.device_type not in _NIXL_SUPPORTED_DEVICE:
+            raise RuntimeError(f"{self.device_type} is not supported.")
+        elif self.kv_buffer_device not in _NIXL_SUPPORTED_DEVICE[self.device_type]:
+            raise RuntimeError(
+                f"{self.device_type} with {self.kv_buffer_device} kv_buffer "
+                "is not supported."
+            )
+        self.device_kv_caches: dict[str, torch.Tensor] = {}
+
+        # cpu kv buffer for xfer
+        # used when device memory can not be registered under nixl
+        self.host_xfer_buffers: dict[str, torch.Tensor] = {}
+        if self.device_type == "cpu":
+            self.use_host_buffer = False
+        else:
+            self.use_host_buffer = self.kv_buffer_device == "cpu"
+
+        # support for oot platform which can't register nixl memory
+        # type based on kv_buffer_device
+        nixl_memory_type = current_platform.get_nixl_memory_type()
+        if nixl_memory_type is None:
+            if self.kv_buffer_device == "cuda":
+                nixl_memory_type = "VRAM"
+            elif self.kv_buffer_device == "cpu":
+                nixl_memory_type = "DRAM"
+        if nixl_memory_type is None:
+            raise RuntimeError(
+                f"{self.device_type} with {self.kv_buffer_device} kv_buffer "
+                "is not supported."
+            )
+        self.nixl_memory_type = nixl_memory_type
+
+        # Note: host xfer buffer ops when use_host_buffer is True
+        self.copy_blocks: CopyBlocksOp | None = None
+
+        # Map of engine_id -> kv_caches_base_addr. For TP case, each local
+        # rank will still only pull from a single remote TP worker.
+        self.kv_caches_base_addr: dict[EngineId, list[int]] = {}
+        self.device_id: int = 0
+
+        # Number of NIXL regions. Currently one region per cache
+        # (so 1 per layer for MLA, otherwise 2 per layer)
+        self.num_regions = 0
+        self.num_layers = 0
+
+        # nixl_prepped_dlist_handle.
+        self.src_xfer_side_handle: int = 0
+        self.src_xfer_side_handles: dict[int, int] = {}
+        # Map of engine_id -> nixl_prepped_dlist_handle (int)].
+        self.dst_xfer_side_handles: dict[EngineId, int] = {}
+
+        # Map of engine_id -> num_blocks. All ranks in the same deployment will
+        # have the same number of blocks.
+        self.dst_num_blocks: dict[EngineId, int] = {}
+        self._registered_descs: list[Any] = []
+
+        # In progress transfers.
+        # [req_id -> list[handle]]
+        self._recving_metadata: dict[ReqId, ReqMeta] = {}
+        self._recving_transfers = defaultdict[ReqId, list[Transfer]](list)
+        # Track the expiration time of requests that are waiting to be sent.
+        self._reqs_to_send: dict[ReqId, float] = {}
+        # Set of requests that have been part of a batch, regardless of status.
+        self._reqs_to_process: set[ReqId] = set()
+
+        # invalid blocks from failed NIXL operations
+        self._invalid_block_ids: set[int] = set()
+        # requests that skipped transfer (handshake or transfer failures)
+        self._failed_recv_reqs: set[ReqId] = set()
+
+        # Handshake metadata of this worker for NIXL transfers.
+        self.xfer_handshake_metadata: NixlAgentMetadata | None = None
+        # Background thread for initializing new NIXL handshakes.
+        self._handshake_initiation_executor = ThreadPoolExecutor(
+            # NIXL is not guaranteed to be thread-safe, limit 1 worker.
+            max_workers=1,
+            thread_name_prefix="vllm-nixl-handshake-initiator",
+        )
+        self._ready_requests = queue.Queue[tuple[ReqId, ReqMeta]]()
+        self._handshake_futures: dict[EngineId, Future[dict[int, str]]] = {}
+        # Protects _handshake_futures and _remote_agents.
+        self._handshake_lock = threading.RLock()
+
+        self.block_size = vllm_config.cache_config.block_size
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+
+        # TODO(mgoin): remove this once we have hybrid memory allocator
+        # Optimization for models with local attention (Llama 4)
+        # List of block window sizes for each layer for local attention
+        self.block_window_per_layer: list[int | None] = []
+        self.use_mla = self.model_config.use_mla
+
+        backend = get_attn_backend(
+            self.model_config.get_head_size(),
+            self.model_config.dtype,
+            self.cache_config.cache_dtype,
+            self.block_size,
+            use_mla=self.use_mla,
+        )
+        self.backend_name = backend.get_name()
+        self.kv_cache_layout = get_kv_cache_layout()
+        self.host_buffer_kv_cache_layout = self.kv_cache_layout
+        logger.debug("Detected attention backend %s", self.backend_name)
+        logger.debug("Detected kv cache layout %s", self.kv_cache_layout)
+
+        self._tp_size: dict[EngineId, int] = {self.engine_id: self.world_size}
+        self._block_size: dict[EngineId, int] = {self.engine_id: self.block_size}
+        # With heterogeneous TP, P must wait for all assigned D TP workers to
+        # finish reading before safely freeing the blocks.
+        self.consumer_notification_counts_by_req = defaultdict[ReqId, int](int)
+        self.xfer_stats = NixlKVConnectorStats()
+
+        self.kv_topo = self.TpKVTopology(
+            tp_size=self.world_size,
+            tp_rank=self.tp_rank,
+            remote_tp_size=self._tp_size,  # shared state
+            is_mla=self.use_mla,
+            total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
+            block_size=self.block_size,
+            remote_block_size=self._block_size,
+            attn_backend=backend,
+        )
+        self._use_pallas = self.kv_topo._use_pallas
+        self._physical_blocks_per_logical_kv_block = 1
+
+    def _nixl_handshake(
+        self,
+        host: str,
+        port: int,
+        remote_tp_size: int,
+        expected_engine_id: str,
+    ) -> dict[int, str]:
+        """Do a NIXL handshake with a remote instance."""
+
+        start_time = time.perf_counter()
+
+        # NOTE(rob): we need each rank to have a unique port. This is
+        # a hack to keep us moving. We will switch when moving to etcd
+        # or where we have a single ZMQ socket in the scheduler.
+
+        # Handshake only with the remote TP rank that current local rank will
+        # pull from. With homogeneous TP it happens to be the same rank_i.
+        p_remote_rank = self.kv_topo.get_target_remote_rank(remote_tp_size)
+        path = make_zmq_path("tcp", host, port)
+        logger.debug(
+            "Querying metadata on path: %s at remote tp rank %s", path, p_remote_rank
+        )
+
+        # Send query for the request.
+        with zmq_ctx(zmq.REQ, path) as sock:
+            msg = msgspec.msgpack.encode((GET_META_MSG, p_remote_rank))
+            # Set receive timeout to 5 seconds to avoid hanging on dead server
+            sock.setsockopt(zmq.RCVTIMEO, 5000)  # milliseconds
+            sock.send(msg)
+            metadata_bytes = sock.recv()
+            decoder = msgspec.msgpack.Decoder(NixlAgentMetadata)
+            metadata = decoder.decode(metadata_bytes)
+            got_metadata_time = time.perf_counter()
+            logger.debug(
+                "NIXL handshake: get metadata took: %s", got_metadata_time - start_time
+            )
+
+            # Ensure engine id matches.
+            if metadata.engine_id != expected_engine_id:
+                raise RuntimeError(
+                    f"Remote NIXL agent engine ID mismatch. "
+                    f"Expected {expected_engine_id},"
+                    f"received {metadata.engine_id}."
+                )
+
+            # Register Remote agent.
+            assert metadata.block_size <= self.block_size, (
+                "nP > nD is not supported yet."
+            )
+            remote_agent_name = self.add_remote_agent(
+                metadata, p_remote_rank, remote_tp_size
+            )
+
+            setup_agent_time = time.perf_counter()
+            logger.debug(
+                "NIXL handshake: add agent took: %s",
+                setup_agent_time - got_metadata_time,
+            )
+
+        # Remote rank -> agent name.
+        return {p_remote_rank: remote_agent_name}
+
+    def initialize_host_xfer_buffer(self, kv_caches: dict[str, torch.Tensor]) -> None:
+        """
+        Initialize transfer buffer in CPU mem for accelerators
+        NOT directly supported by NIXL (e.g., tpu)
+        """
+        xfer_buffers: dict[str, torch.Tensor] = {}
+        try:
+            for layer_name, kv_cache in kv_caches.items():
+                kv_shape = kv_cache.shape
+                kv_dtype = kv_cache.dtype
+                if (
+                    self.kv_cache_layout == "NHD"
+                    and self.vllm_config.kv_transfer_config is not None
+                    and self.vllm_config.kv_transfer_config.enable_permute_local_kv
+                ):
+                    logger.info_once(
+                        "'enable_permute_local_kv' flag is enabled while "
+                        "device KV Layout is NHD. Init host buffer with"
+                        " HND to better support Decode/Prefill TP_ratio > 1."
+                    )
+                    # Since NHD will not support Decode/Prefill TP_ratio > 1,
+                    # we can leverage host_buffer for permute
+                    self.host_buffer_kv_cache_layout = "HND"
+                    kv_shape = tuple(kv_shape[i] for i in [0, 1, 3, 2, 4])
+                xfer_buffers[layer_name] = torch.empty(
+                    kv_shape, dtype=kv_dtype, device="cpu"
+                )
+        except MemoryError as e:
+            logger.error("NIXLConnectorWorker gets %s.", e)
+            raise
+
+        self.host_xfer_buffers = xfer_buffers
+
+    def set_host_xfer_buffer_ops(self, copy_operation: CopyBlocksOp):
+        """Assign copy (d2h, h2d) operations when host buffer is used."""
+        # Set a no-op if the host buffer is not cpu.
+        if self.kv_buffer_device != "cpu":
+            return
+        # Set a no-op if self.device_type is 'cpu'.
+        if self.device_type == "cpu":
+            return
+        assert self.use_host_buffer
+        self.copy_blocks = copy_operation
+
+    def _background_nixl_handshake(
+        self, req_id: str, remote_engine_id: EngineId, meta: ReqMeta
+    ):
+        # Do NIXL handshake in background and add to _ready_requests when done.
+        fut = self._handshake_futures.get(remote_engine_id)
+        if fut is None:
+            fut = self._handshake_initiation_executor.submit(
+                self._nixl_handshake,
+                meta.remote_host,
+                meta.remote_port,
+                meta.tp_size,
+                remote_engine_id,
+            )
+            self._handshake_futures[remote_engine_id] = fut
+
+            def done_callback(f: Future[dict[int, str]], eid=remote_engine_id):
+                with self._handshake_lock:
+                    del self._handshake_futures[eid]
+                    try:
+                        self._remote_agents[eid] = f.result()
+                    except Exception:
+                        logger.exception("Handshake with %s failed", eid)
+
+            fut.add_done_callback(done_callback)
+
+        # check handshake success before proceeding with request
+        def request_ready(f: Future[Any], entry=(req_id, meta)):
+            try:
+                # check if handshake succeeded
+                f.result()
+                self._ready_requests.put(entry)
+            except Exception:
+                # handshake failed - mark blocks as invalid
+                logger.exception(
+                    "Handshake failed for request %s, marking blocks as invalid", req_id
+                )
+                if req_meta := self._recving_metadata.get(req_id):
+                    self._invalid_block_ids.update(req_meta.local_block_ids)
+                self._failed_recv_reqs.add(req_id)
+
+        fut.add_done_callback(request_ready)
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """Register the KV Cache data in nixl."""
+
+        if self.use_host_buffer:
+            self.initialize_host_xfer_buffer(kv_caches=kv_caches)
+            assert len(self.host_xfer_buffers) == len(kv_caches), (
+                f"host_buffer: {len(self.host_xfer_buffers)}, "
+                f"kv_caches: {len(kv_caches)}"
+            )
+            xfer_buffers = self.host_xfer_buffers
+        else:
+            xfer_buffers = kv_caches
+            assert not self.host_xfer_buffers, (
+                "host_xfer_buffer should not be initialized when "
+                f"kv_buffer_device is {self.kv_buffer_device}"
+            )
+
+        logger.info(
+            "Registering KV_Caches. use_mla: %s, kv_buffer_device: %s, "
+            "use_host_buffer: %s",
+            self.use_mla,
+            self.kv_buffer_device,
+            self.use_host_buffer,
+        )
+
+        caches_data = []
+        # With hybrid allocator, layers can share a kv cache tensor
+        seen_base_addresses = []
+
+        # Note(tms): I modified this from the original region setup code.
+        # K and V are now in different regions. Advantage is that we can
+        # elegantly support MLA and any cases where the K and V tensors
+        # are non-contiguous (it's not locally guaranteed that they will be)
+        # Disadvantage is that the encoded NixlAgentMetadata is now larger
+        # (roughly 8KB vs 5KB).
+        # Conversely for FlashInfer, K and V are registered in the same region
+        # to better exploit the memory layout (ie num_blocks is the first dim).
+        split_k_and_v = self.kv_topo.split_k_and_v
+        tensor_size_bytes = None
+        # Enable different block lengths for different layers when MLA is used.
+        self.block_len_per_layer = list[int]()
+        self.slot_size_per_layer = list[int]()  # HD bytes in kv terms
+        self.device_id = self.tp_rank
+        for layer_name, cache_or_caches in xfer_buffers.items():
+            cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]
+
+            for cache in cache_list:
+                base_addr = cache.data_ptr()
+                if not self.use_host_buffer and current_platform.is_cuda_alike():
+                    self.device_id = cache.device.index
+                if base_addr in seen_base_addresses:
+                    continue
+
+                # TODO (NickLucche): Get kernel_block_size in a cleaner way
+                # NHD default "view" for non-MLA cache
+                kernel_block_size = cache.shape[-2] if self.use_mla else cache.shape[-3]
+
+                if self.block_size != kernel_block_size:
+                    logger.info_once(
+                        "User-specified logical block size (%s) does not match"
+                        " physical kernel block size (%s). Using the latter. ",
+                        self.block_size,
+                        kernel_block_size,
+                    )
+                    self._physical_blocks_per_logical_kv_block = (
+                        self.block_size // kernel_block_size
+                    )
+                    self.block_size = kernel_block_size
+
+                seen_base_addresses.append(base_addr)
+                curr_tensor_size_bytes = cache.numel() * cache.element_size()
+
+                if tensor_size_bytes is None:
+                    tensor_size_bytes = curr_tensor_size_bytes
+                    self.num_blocks = cache.shape[0]
+
+                assert cache.shape[0] == self.num_blocks, (
+                    "All kv cache tensors must have the same number of blocks"
+                )
+
+                self.block_len_per_layer.append(
+                    curr_tensor_size_bytes // self.num_blocks
+                )
+                self.slot_size_per_layer.append(
+                    self.block_len_per_layer[-1] // self.block_size
+                )
+
+                if not self.use_mla:
+                    # Different kv cache shape is not supported by HeteroTP
+                    assert tensor_size_bytes == curr_tensor_size_bytes, (
+                        "All kv cache tensors must have the same size"
+                    )
+                # Need to make sure the device ID is non-negative for NIXL,
+                # Torch uses -1 to indicate CPU tensors while NIXL uses explicit
+                # memory type.
+                self.device_id = max(cache.get_device(), 0)
+                caches_data.append(
+                    (base_addr, curr_tensor_size_bytes, self.device_id, "")
+                )
+
+        logger.debug(
+            "Different block lengths collected: %s", set(self.block_len_per_layer)
+        )
+        assert len(self.block_len_per_layer) == len(seen_base_addresses)
+        assert self.num_blocks != 0
+
+        self.kv_caches_base_addr[self.engine_id] = seen_base_addresses
+        self.num_regions = len(caches_data)
+        self.num_layers = len(xfer_buffers.keys())
+
+        descs = self.nixl_wrapper.get_reg_descs(caches_data, self.nixl_memory_type)
+        logger.debug("Registering descs: %s", caches_data)
+        self.nixl_wrapper.register_memory(descs, backends=self.nixl_backends)
+        logger.debug("Done registering descs")
+        self._registered_descs.append(descs)
+
+        self.device_kv_caches = kv_caches
+        self.dst_num_blocks[self.engine_id] = self.num_blocks
+        if self.kv_topo.is_kv_layout_blocks_first:
+            for i in range(len(self.slot_size_per_layer)):
+                assert self.slot_size_per_layer[i] % 2 == 0
+                self.slot_size_per_layer[i] //= 2
+
+            # NOTE (NickLucche) When FlashInfer is used, memory is registered
+            # with joint KV for each block. This minimizes the overhead in
+            # registerMem allowing faster descs queries. In order to be able to
+            # split on kv_heads dim as required by heterogeneous TP, one must
+            # be able to index K/V separately. Hence we double the number
+            # of 'virtual' regions here and halve `block_len` below.
+            self.num_regions *= 2
+
+        # Register local/src descr for NIXL xfer.
+        self.seen_base_addresses = seen_base_addresses
+        self.src_xfer_side_handle = self.register_local_xfer_handler(self.block_size)
+
+        self.src_xfer_side_handles[self.block_size] = self.src_xfer_side_handle
+
+        # TODO(mgoin): Hybrid memory allocator is currently disabled for
+        # models with local attention (Llama 4). Can remove this once enabled.
+        if self.model_config.hf_config.model_type == "llama4":
+            from transformers import Llama4TextConfig
+
+            assert isinstance(self.model_config.hf_text_config, Llama4TextConfig)
+            llama4_config = self.model_config.hf_text_config
+            no_rope_layers = llama4_config.no_rope_layers
+            chunk_size = llama4_config.attention_chunk_size
+            chunk_block_size = math.ceil(chunk_size / self.block_size)
+            for layer_idx in range(self.num_layers):
+                # no_rope_layers[layer_idx] == 0 means NoPE (global)
+                # Any other value means RoPE (local chunked)
+                is_local_attention = no_rope_layers[layer_idx] != 0
+                block_window = chunk_block_size if is_local_attention else None
+                self.block_window_per_layer.append(block_window)
+            logger.debug(
+                "Llama 4 block window per layer mapping: %s",
+                self.block_window_per_layer,
+            )
+            assert len(self.block_window_per_layer) == self.num_layers
+
+        # After KV Caches registered, listen for new connections.
+        self.xfer_handshake_metadata = NixlAgentMetadata(
+            engine_id=self.engine_id,
+            agent_metadata=self.nixl_wrapper.get_agent_metadata(),
+            kv_caches_base_addr=self.kv_caches_base_addr[self.engine_id],
+            device_id=self.device_id,
+            num_blocks=self.num_blocks,
+            block_lens=self.block_len_per_layer,
+            attn_backend_name=self.backend_name,
+            kv_cache_layout=self.kv_cache_layout
+            if not self.use_host_buffer
+            else self.host_buffer_kv_cache_layout,
+            block_size=self.block_size,
+        )
+
+    def register_local_xfer_handler(
+        self,
+        block_size: int,
+    ) -> int:
+        """
+        Function used for register local xfer handler with local block_size or
+        Remote block_size.
+
+        When local block_size is same as remote block_size, we use local block_size
+        to register local_xfer_handler during init.
+
+        When remote block size is less than local block size, we need to use
+        register another local_xfer_handler using remote block len to ensure
+        data copy correctness.
+        """
+        block_size_ratio = self.block_size // block_size
+        blocks_data = []
+        for i, base_addr in enumerate(self.seen_base_addresses):
+            # The new block_len is using prefill block_len;
+            # and num_blocks is multiple with N
+            kv_block_len = (
+                self.get_backend_aware_kv_block_len(layer_idx=i) // block_size_ratio
+            )
+            block_len_per_layer = self.block_len_per_layer[i] // block_size_ratio
+            num_blocks = self.num_blocks * block_size_ratio
+            for block_id in range(num_blocks):
+                block_offset = block_id * block_len_per_layer
+                addr = base_addr + block_offset
+                # (addr, len, device id)
+                blocks_data.append((addr, kv_block_len, self.device_id))
+
+            if self.kv_topo.is_kv_layout_blocks_first:
+                # Separate and interleave K/V regions to maintain the same
+                # descs ordering. This is needed for selecting contiguous heads
+                # when split across TP ranks.
+                for block_id in range(num_blocks):
+                    block_offset = block_id * block_len_per_layer
+                    addr = base_addr + block_offset
+                    # Register addresses for V cache (K registered first).
+                    v_addr = addr + kv_block_len
+                    blocks_data.append((v_addr, kv_block_len, self.device_id))
+        logger.debug(
+            "Created %s blocks for src engine %s and rank %s on device id %s",
+            len(blocks_data),
+            self.engine_id,
+            self.tp_rank,
+            self.device_id,
+        )
+
+        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, self.nixl_memory_type)
+        # NIXL_INIT_AGENT to be used for preparations of local descs.
+        return self.nixl_wrapper.prep_xfer_dlist("NIXL_INIT_AGENT", descs)
+
+    def add_remote_agent(
+        self,
+        nixl_agent_meta: NixlAgentMetadata,
+        remote_tp_rank: int = 0,
+        remote_tp_size: int = 1,
+    ) -> str:
+        """
+        Add the remote NIXL agent and prepare the descriptors for reading cache
+        blocks from remote.
+
+        In particular, handle both homogeneous and heterogeneous TP. The former
+        requires local rank_i to read from remote rank_i.
+        The latter, assuming D.world_size > P.world_size, requires that two or
+        more local TP worker share the xfer from a single TP worker.
+
+        Here's an example (non-MLA case):
+
+        rank_offset     p_remote_tp_rank
+        (kv split no)
+        --------------------------------
+            0                 0      Worker0  ---- 1st half of KV ----> Worker0  [ KV Cache ]
+                                                                        /
+            1                 0      Worker1  ---- 2nd half of KV -----/
+
+            0                 1      Worker2  ---- 1st half of KV ----> Worker1  [ KV Cache ]
+                                                                        /
+            1                 1      Worker3  ---- 2nd half of KV -----/
+
+
+                                Decoder TP workers                     Prefix TP workers
+                                  (world_size=4)                         (world_size=2)
+                                                 tp_ratio = 4 // 2 = 2
+
+        Considering the KV Caches, if P-Worker_i has cache size [2, num_blocksP, kv_heads, block_size, head_dim]
+        then D-Worker_j has [2, num_blocksD, kv_heads//tp_ratio, block_size, head_dim]. Mind the "HND" layout format.
+        Assuming num_blocksD >= num_blocksP, D-Worker0 reads from P-Worker0 by preparing the kv_heads//tp_ratio
+        first heads from all the slots of all the blocks. D-Worker1 will do the same, but reading the second split
+        along the kv_heads dimension, and so forth until "tp_ratio" D TP workers have pulled from P-Worker0.
+
+        Note that the above will also hold true for the homogeneous TP case, where tp_ratio evaluates to 1.
+
+        Regarding MLA case, the cache is replicated across TP workers so the rank_offset will just always be 0
+        so that the whole cache is shared by "tp_ratio" D TP workers.
+        """  # noqa: E501
+        engine_id = nixl_agent_meta.engine_id
+        # TODO re-evaluate refreshing for scaling/recovery
+        if remote_tp_rank in self._remote_agents.get(engine_id, {}):
+            logger.debug(
+                "Remote agent with engine_id %s and rank"
+                "%s already exchanged metadata, skip handshake.",
+                engine_id,
+                remote_tp_rank,
+            )
+            return self._remote_agents[engine_id][remote_tp_rank]
+
+        ### Register remote agent metadata
+        if engine_id not in self._tp_size:
+            self._tp_size[engine_id] = remote_tp_size
+        if engine_id not in self._block_size:
+            self._block_size[engine_id] = nixl_agent_meta.block_size
+
+        remote_agent_name = self.nixl_wrapper.add_remote_agent(
+            nixl_agent_meta.agent_metadata
+        )
+
+        # Handle tp_size>num_kv_heads: replicate KV cache.
+        replicates_kv_cache = self.kv_topo.replicates_kv_cache(engine_id)
+
+        # Create dst descs and xfer side handles. TP workers have same #blocks
+        # so we only register once per engine_id.
+        # Example:
+        # block_size_ratio > 1:
+        # remote:               | 0| 1| 2| 3| 4| 5| 6| 7| 8| 9|10|11|12|
+        # local origin:|          0|          1|          8|         12|
+        # local mapped:| 0| 1| 2| 3| 4| 5| 6| 7| 8| 9|10|11|12|13|14|15|
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(engine_id)
+
+        if engine_id not in self.dst_num_blocks:
+            self.dst_num_blocks[engine_id] = nixl_agent_meta.num_blocks
+
+        # Keep track of remote agent kv caches base addresses.
+        self.kv_caches_base_addr[engine_id] = nixl_agent_meta.kv_caches_base_addr
+
+        self._validate_remote_agent_handshake(nixl_agent_meta, remote_tp_size)
+
+        # Number of D TP workers reading from a single P TP worker. This is
+        # 1 when P and D `--tensor-parallel-size` match.
+        tp_ratio = self.kv_topo.tp_ratio_from_engine_id(engine_id)
+
+        ### Register remote agent memory regions
+        blocks_data = []
+        # With homogeneous TP, D pulls the whole kv cache from corresponding
+        # rank. With heterogeneous TP, prepare the descriptors by splitting the
+        # P KV cache along kv_head dim, of D worker's kv_head size (D>P).
+        # Eg. PTP1 DTP2 => P0 KV:[block0-KV_0 | block0-KV_1..].
+
+        # Register all remote blocks, but only the corresponding kv heads.
+        for i, base_addr in enumerate(nixl_agent_meta.kv_caches_base_addr):
+            kv_block_len = self.get_backend_aware_kv_block_len(layer_idx=i)
+            remote_kv_block_len = kv_block_len // block_size_ratio
+            if block_size_ratio > 1:
+                # using remote kv_block_len as transfer unit
+                kv_block_len = remote_kv_block_len
+            rank_offset = (
+                self.tp_rank % tp_ratio * remote_kv_block_len
+                if not replicates_kv_cache
+                else 0
+            )
+            for block_id in range(nixl_agent_meta.num_blocks):
+                block_offset = block_id * nixl_agent_meta.block_lens[i]
+                # For each block, grab the heads chunk belonging to rank_i
+                # of size remote_nheads // tp_ratio, which correspond to
+                # self.block_len == remote_block_len//tp_ratio bytes.
+                addr = base_addr + block_offset + rank_offset
+                # (addr, len, device id)
+                blocks_data.append((addr, kv_block_len, nixl_agent_meta.device_id))
+
+            if self.kv_topo.is_kv_layout_blocks_first:
+                # With FlashInfer index V separately to allow head splitting.
+                for block_id in range(nixl_agent_meta.num_blocks):
+                    block_offset = block_id * nixl_agent_meta.block_lens[i]
+                    addr = base_addr + block_offset + rank_offset
+                    v_addr = addr + nixl_agent_meta.block_lens[i] // 2
+                    blocks_data.append(
+                        (v_addr, kv_block_len, nixl_agent_meta.device_id)
+                    )
+
+        logger.debug(
+            "Created %s blocks for dst engine %s with remote rank %s and local rank %s",
+            len(blocks_data),
+            engine_id,
+            remote_tp_rank,
+            self.tp_rank,
+        )
+
+        # Register with NIXL.
+        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, self.nixl_memory_type)
+        self.dst_xfer_side_handles[engine_id] = self.nixl_wrapper.prep_xfer_dlist(
+            remote_agent_name, descs
+        )
+
+        if block_size_ratio > 1:
+            # when prefill with smaller block_size, we need to init a
+            # new handler with same block_len to match
+            self.src_xfer_side_handles[nixl_agent_meta.block_size] = (
+                self.register_local_xfer_handler(nixl_agent_meta.block_size)
+            )
+
+        return remote_agent_name
+
+    def _validate_remote_agent_handshake(
+        self, nixl_agent_meta: NixlAgentMetadata, remote_tp_size: int
+    ):
+        """
+        Validate the remote agent handshake metadata ensuring the
+        invariants hold true.
+        """
+        remote_engine_id = nixl_agent_meta.engine_id
+
+        assert self._tp_size[remote_engine_id] == remote_tp_size
+        # TODO We may eventually want to skip enforcing the same attn backend.
+        assert nixl_agent_meta.attn_backend_name == self.backend_name
+
+        tp_ratio = self.kv_topo.tp_ratio_from_engine_id(remote_engine_id)
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(
+            remote_engine_id
+        )
+        assert tp_ratio > 0, "Decode TP cannot be smaller than prefill TP"
+        assert not self._use_pallas or tp_ratio == 1, (
+            "TPU (pallas_v1) DOES NOT support heterogeneous TP yet."
+        )
+        kv_cache_layout = (
+            self.kv_cache_layout
+            if not self.use_host_buffer
+            else self.host_buffer_kv_cache_layout
+        )
+        if not self.use_mla and nixl_agent_meta.kv_cache_layout != kv_cache_layout:
+            if (
+                self.kv_transfer_config.enable_permute_local_kv
+                and nixl_agent_meta.kv_cache_layout == "HND"
+            ):
+                logger.info(
+                    "Remote is HND and local is NHD, enabled additional permute "
+                    "on local device KV."
+                )
+                self.enable_permute_local_kv = True
+            else:
+                raise RuntimeError(
+                    "Heterogeneous TP expects same kv_cache_layout. "
+                    "Or enable experimental feature to use HND to NHD support by "
+                    "setting 'enable_permute_local_kv'=True in --kv-transfer-config."
+                )
+
+        # Block len can only vary across layers when using MLA.
+        remote_block_len = nixl_agent_meta.block_lens[0]
+        if self.use_mla or self.kv_topo.is_kv_replicated(remote_engine_id):
+            # With replicated KV cache, only the number of blocks can differ.
+            for i in range(len(self.block_len_per_layer)):
+                assert (
+                    self.block_len_per_layer[i] // block_size_ratio
+                    == nixl_agent_meta.block_lens[i]
+                ), "KV cache sizes must match between P and D when replicated"
+        else:
+            # When MLA is not used, this is a list of the same block length
+            for block_len in nixl_agent_meta.block_lens:
+                assert block_len == remote_block_len, (
+                    "All remote layers must have the same block size"
+                )
+
+            assert (
+                remote_block_len
+                == (self.block_len_per_layer[0] * tp_ratio) // block_size_ratio
+            ), (
+                "Remote P worker KV layer cache must be of shape [2, N, "
+                "local_kv_heads*tp_ratio, block_size, head_dim] and same dtype."
+            )
+
+        # TP workers have same #blocks.
+        assert self.dst_num_blocks[remote_engine_id] == nixl_agent_meta.num_blocks
+
+        assert len(nixl_agent_meta.kv_caches_base_addr) == len(self.block_len_per_layer)
+
+    def sync_recved_kv_to_device(self, req_id: str, meta: ReqMeta):
+        """copy recved kv from host buffer to device."""
+        assert self.use_host_buffer
+        assert self.copy_blocks is not None
+
+        local_block_ids = meta.local_physical_block_ids
+        self.copy_blocks(
+            self.host_xfer_buffers,
+            self.device_kv_caches,
+            local_block_ids,
+            local_block_ids,
+            "h2d",
+        )
+        if logger.isEnabledFor(logging.DEBUG):
+            logger.debug(
+                "synced recved kv of request[%s] to device kv buffer,"
+                "local_block_ids: %s. ",
+                req_id,
+                ",".join(map(str, local_block_ids)),
+            )
+
+    def save_kv_to_host(self, metadata: NixlConnectorMetadata):
+        """copy kv from device to host buffer."""
+        assert self.use_host_buffer
+        assert self.copy_blocks is not None
+
+        for req_id, meta in metadata.reqs_to_save.items():
+            meta.local_physical_block_ids = self._logical_to_kernel_block_ids(
+                meta.local_block_ids
+            )
+            if logger.isEnabledFor(logging.DEBUG):
+                logger.debug(
+                    "save_load_kv for request[%s] to host xfer buffer."
+                    "local_block_ids: %s. ",
+                    req_id,
+                    ",".join(map(str, meta.local_physical_block_ids)),
+                )
+            # blocking
+            self.copy_blocks(
+                self.device_kv_caches,
+                self.host_xfer_buffers,
+                meta.local_physical_block_ids,
+                meta.local_physical_block_ids,
+                "d2h",
+            )
+
+    def permute_device_kv(self, block_ids: list[int]):
+        """Transforms the layout of received KV cache blocks to the local format.
+
+        This method corrects layout mismatches from direct memory copies by
+        permuting the tensor dimensions.
+
+        - **Source Layout:** `[num_blocks, n_kv_head, block_size, head_dim]`
+        - **Target Layout:** `[num_blocks, block_size, n_kv_head, head_dim]`
+
+        Args:
+            block_ids: A list of block IDs to update and permute.
+
+        Implementation:
+        - x = blocks_to_update.reshape(src_shape) # view local kv with sender layout
+        - permuted_blocks = x.permute(*inv_order) # transpose n_kv_heads, block_size
+        - cache.index_copy_(0, indices, permuted_blocks) # copy permuted kv back
+
+        """
+        split_k_and_v = self.kv_topo.split_k_and_v
+        inv_order = [0, 2, 1, 3]
+        sample_cache = list(self.device_kv_caches.values())[0][0]
+        target_shape = list(sample_cache.shape)
+        target_shape[0] = -1
+        src_shape = tuple(target_shape[i] for i in inv_order)
+        indices = torch.tensor(block_ids, device=sample_cache.device)
+
+        for _, cache_or_caches in self.device_kv_caches.items():
+            cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]
+            for cache in cache_list:
+                blocks_to_update = cache.index_select(0, indices)
+                permuted_blocks = blocks_to_update.reshape(src_shape).permute(
+                    *inv_order
+                )
+                cache.index_copy_(0, indices, permuted_blocks)
+
+    def blocksize_post_process(self, block_ids_per_ratio: dict[float, list[list[int]]]):
+        def _process_local_gt_remote(blocks_to_update, block_size_ratio):
+            n_kv_heads, block_size, head_size = blocks_to_update.shape[1:]
+            remote_block_size = block_size // block_size_ratio
+            n_blocks = block_size_ratio
+            # actual permute is to convert
+            # for local blocksize > remote blocksize
+            # ex: local blocksize = 16 tokens, remote blocksize = 4 tokens
+            # local block[0] = remote block[0, 1, 2, 3]
+            # remote is |h0-b0|h1-b0|h2-b0|h3-b0|h0-b1|h1-b1|h2-b1|h3-b1|...
+            # local is  |h0-b0..................|h1-b0..................|...
+            # permute is to:
+            # 1. view => view remote as n_blocks * remote_shape(H,remoteN,D)
+            # 2. permute => (H, nblocks, remoteN, D)
+            # 3. flatten => (H, localN, D)
+            permuted_blocks = (
+                blocks_to_update.reshape(
+                    -1, n_blocks, n_kv_heads, remote_block_size, head_size
+                )
+                .permute(0, 2, 1, 3, 4)
+                .flatten(2, 3)
+            )
+            return permuted_blocks
+
+        if len(self.device_kv_caches) == 0:
+            return
+        split_k_and_v = not (
+            self.use_mla or self._use_pallas or self.kv_topo.is_kv_layout_blocks_first
+        )
+        sample_cache = list(self.device_kv_caches.values())[0][0]
+        for block_size_ratio, block_ids_list in block_ids_per_ratio.items():
+            assert block_size_ratio > 1, "Only nP < nD supported currently."
+            block_ids_list = [[item for sublist in block_ids_list for item in sublist]]
+
+            for block_ids in block_ids_list:
+                indices = torch.tensor(block_ids, device=sample_cache.device)
+
+                for _, cache_or_caches in self.device_kv_caches.items():
+                    cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]
+                    for cache in cache_list:
+                        blocks_to_update = cache.index_select(0, indices)
+                        # because kv_cache is always using original layout NHD as
+                        # virtual shape while stride can be either HND / NHD at
+                        # initialization.
+                        # we need to firstly get physical view of the tensor
+                        permuted_blocks = _process_local_gt_remote(
+                            blocks_to_update.permute(0, 2, 1, 3), block_size_ratio
+                        ).permute(0, 2, 1, 3)
+                        cache.index_copy_(0, indices, permuted_blocks)
+
+    def get_finished(self) -> tuple[set[str], set[str]]:
+        """
+        Get requests that are done sending or recving on this specific worker.
+        The scheduler process (via the MultiprocExecutor) will use this output
+        to track which workers are done.
+        """
+        done_sending = self._get_new_notifs()
+        done_recving = self._pop_done_transfers(self._recving_transfers)
+
+        # add requests that skipped transfer to done_recving
+        done_recving.update(self._failed_recv_reqs)
+        self._failed_recv_reqs.clear()
+
+        if len(done_sending) > 0 or len(done_recving) > 0:
+            logger.debug(
+                "Rank %s, get_finished: %s requests done sending "
+                "and %s requests done recving",
+                self.tp_rank,
+                len(done_sending),
+                len(done_recving),
+            )
+
+        block_ids_to_permute = []
+        block_ids_for_blocksize_post_process = defaultdict(list)
+        for req_id in done_recving:
+            # clean up metadata for completed requests
+            meta = self._recving_metadata.pop(req_id, None)
+            assert meta is not None, f"{req_id} not found in recving_metadata list"
+            if self.use_host_buffer:
+                self.sync_recved_kv_to_device(req_id, meta)
+            if self.enable_permute_local_kv:
+                block_ids_to_permute += meta.local_physical_block_ids
+
+            # post processing for heteroblocksize
+            block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(
+                meta.remote_engine_id
+            )
+            if (
+                not self.use_mla
+                and block_size_ratio > 1
+                and self.kv_cache_layout == "HND"
+            ):
+                block_ids_for_blocksize_post_process[block_size_ratio].append(
+                    meta.local_block_ids
+                )
+        self.blocksize_post_process(block_ids_for_blocksize_post_process)
+        if len(block_ids_to_permute) > 0:
+            self.permute_device_kv(block_ids_to_permute)
+
+        # Handle timeout to avoid stranding blocks on remote.
+        now = time.perf_counter()
+        while self._reqs_to_send:
+            req_id, expires = next(iter(self._reqs_to_send.items()))
+            # Sorted dict, oldest requests are put first so we can exit early.
+            if now < expires:
+                break
+            count = self.consumer_notification_counts_by_req.pop(req_id, 0)
+            logger.warning(
+                "Releasing expired KV blocks for request %s which were "
+                "retrieved by %d decode worker(s) within %d seconds.",
+                req_id,
+                count,
+                envs.VLLM_NIXL_ABORT_REQUEST_TIMEOUT,
+            )
+            self._reqs_to_process.remove(req_id)
+            del self._reqs_to_send[req_id]
+            done_sending.add(req_id)
+
+        return done_sending, done_recving
+
+    def _get_new_notifs(self) -> set[str]:
+        """
+        Get req_ids which got a remote xfer message. When multiple consumers
+        are reading from the same producer (heterogeneous TP scenario), wait
+        for all consumers to be done pulling.
+        """
+        notified_req_ids: set[str] = set()
+        for notifs in self.nixl_wrapper.get_new_notifs().values():
+            for notif in notifs:
+                req_id, tp_ratio = notif.decode("utf-8").rsplit(":", 1)
+                if (
+                    req_id not in self._reqs_to_send
+                    and req_id not in self._reqs_to_process
+                ):
+                    logger.error(
+                        "Potentially invalid KV blocks for "
+                        "unrecognized request %s were retrieved by "
+                        "a decode worker. They may have expired.",
+                        req_id,
+                    )
+                    continue
+
+                self.consumer_notification_counts_by_req[req_id] += 1
+                # Wait all consumers (D) to be done reading before freeing.
+                if self.consumer_notification_counts_by_req[req_id] == int(tp_ratio):
+                    notified_req_ids.add(req_id)
+                    del self.consumer_notification_counts_by_req[req_id]
+                    self._reqs_to_process.remove(req_id)
+                    self._reqs_to_send.pop(req_id, None)
+        return notified_req_ids
+
+    def _pop_done_transfers(
+        self, transfers: dict[str, list[tuple[int, float]]]
+    ) -> set[str]:
+        """
+        Pop completed xfers by checking for DONE state.
+        Args:
+            transfers: dict of req_id -> list[running_xfer]
+        Returns:
+            set of req_ids that have all done xfers
+        """
+        done_req_ids: set[str] = set()
+        for req_id, handles in list(transfers.items()):
+            in_progress = False
+            for handle, _xfer_stime in handles:
+                xfer_state = self.nixl_wrapper.check_xfer_state(handle)
+                if xfer_state == "DONE":
+                    # Get telemetry from NIXL
+                    res = self.nixl_wrapper.get_xfer_telemetry(handle)
+                    self.xfer_stats.record_transfer(res)
+                    self.nixl_wrapper.release_xfer_handle(handle)
+                elif xfer_state == "PROC":
+                    in_progress = True
+                    continue
+                else:
+                    # transfer failed - mark blocks as invalid
+                    logger.error(
+                        "NIXL transfer failed for request %s with state %s. "
+                        "Marking blocks as invalid.",
+                        req_id,
+                        xfer_state,
+                    )
+                    # mark all (logical)blocks for this request as invalid
+                    if meta := self._recving_metadata.pop(req_id, None):
+                        self._invalid_block_ids.update(meta.local_block_ids)
+                    self._recving_metadata.pop(req_id, None)
+                    self.nixl_wrapper.release_xfer_handle(handle)
+                    self.xfer_stats.record_failed_transfer()
+            if not in_progress:
+                done_req_ids.add(req_id)
+                del transfers[req_id]
+        return done_req_ids
+
+    def start_load_kv(self, metadata: NixlConnectorMetadata):
+        """
+        Start loading by triggering non-blocking nixl_xfer.
+        We check for these trnxs to complete in each step().
+        """
+        for req_id, meta in metadata.reqs_to_recv.items():
+            meta.local_physical_block_ids = self._logical_to_kernel_block_ids(
+                meta.local_block_ids
+            )
+            meta.remote_block_ids = self._logical_to_kernel_block_ids(
+                meta.remote_block_ids
+            )
+            remote_engine_id = meta.remote_engine_id
+            logger.debug(
+                "start_load_kv for request %s from remote engine %s. "
+                "Num local_block_ids: %s. Num remote_block_ids: %s. ",
+                req_id,
+                remote_engine_id,
+                len(meta.local_physical_block_ids),
+                len(meta.remote_block_ids),
+            )
+            # always store metadata for failure recovery
+            self._recving_metadata[req_id] = meta
+            if remote_engine_id not in self._remote_agents:
+                # Initiate handshake with remote engine to exchange metadata.
+                with self._handshake_lock:
+                    if remote_engine_id not in self._remote_agents:
+                        self._background_nixl_handshake(req_id, remote_engine_id, meta)
+                        continue
+
+            # Handshake already completed, start async read xfer.
+            self._read_blocks_for_req(req_id, meta)
+
+        # Start transfers for requests whose handshakes have now finished.
+        while not self._ready_requests.empty():
+            self._read_blocks_for_req(*self._ready_requests.get_nowait())
+
+        # Keep around the requests that have been part of a batch. This is
+        # needed because async scheduling pushes the misalignment between the
+        # moment in which requests expiration is set (P side) and the moment in
+        # which blocks are read from D. As P can now more easily lag behind D
+        # while processing the next batch, we make sure to only set an
+        # expiration for requests that have not been read from D yet.
+        for req_id in metadata.reqs_in_batch:
+            self._reqs_to_process.add(req_id)
+
+        # Remove all requests that are not to be processed (eg aborted).
+        for req_id in metadata.reqs_not_processed:
+            self._reqs_to_process.discard(req_id)
+            # We should never get an abort after setting an expiry timer
+            assert req_id not in self._reqs_to_send
+
+        # Add to requests that are waiting to be read and track expiration.
+        for req_id, expiration_time in metadata.reqs_to_send.items():
+            if req_id in self._reqs_to_process:
+                self._reqs_to_send[req_id] = expiration_time
+
+    def _read_blocks_for_req(self, req_id: str, meta: ReqMeta):
+        logger.debug(
+            "Remote agent %s available, calling _read_blocks for req %s",
+            meta.remote_engine_id,
+            req_id,
+        )
+        self._read_blocks(
+            request_id=req_id,
+            dst_engine_id=meta.remote_engine_id,
+            local_block_ids=meta.local_physical_block_ids,
+            remote_block_ids=meta.remote_block_ids,
+        )
+
+    def _read_blocks(
+        self,
+        local_block_ids: list[int],
+        remote_block_ids: list[int],
+        dst_engine_id: str,
+        request_id: str,
+    ):
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(dst_engine_id)
+        if block_size_ratio > 1:
+            local_block_ids = self.get_mapped_blocks(
+                np.asarray(local_block_ids), block_size_ratio
+            )
+            if len(local_block_ids) > len(remote_block_ids):
+                # NOTE:
+                # get_mapped_blocks will always expand block_ids for n times.
+                # ex:
+                # prefill block_ids with block_size as 4:
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
+                # Local decode block_ids with block_size as 16: [1, 2, 3]
+                # expland ecode block_ids with get_mapped_blocks from [1, 2, 3] to
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
+                # Then we clip local to align with prefill
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12] to
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
+                local_block_ids = local_block_ids[: len(remote_block_ids)]
+        # NOTE(rob): having the staging blocks be on the READER side is
+        # not going to work well (since we will have to call rearrange tensors).
+        # after we detect the txn is complete (which means we cannot make the
+        # read trxn async easily). If we want to make "READ" happen cleanly,
+        # then we will need to have the staging blocks on the remote side.
+
+        # NOTE(rob): according to nvidia the staging blocks are used to
+        # saturate IB with heterogeneous TP sizes. We should remove the staging
+        # blocks until we are ready.
+
+        # Number of D TP workers that will read from dst P. Propagate tp_ratio
+        # on notification so that dst worker can wait before freeing blocks.
+        tp_ratio = self.kv_topo.tp_ratio_from_engine_id(dst_engine_id)
+        notif_id = f"{request_id}:{tp_ratio}".encode()
+
+        # Full prefix cache hit: do not need to read remote blocks,
+        # just notify P worker that we have the blocks we need.
+        num_local_blocks = len(local_block_ids)
+        if num_local_blocks == 0:
+            remote_rank = self.kv_topo.get_target_remote_rank_from_engine_id(
+                dst_engine_id
+            )
+            agent_name = self._remote_agents[dst_engine_id][remote_rank]
+            try:
+                self.nixl_wrapper.send_notif(agent_name, notif_msg=notif_id)
+            except Exception:
+                logger.exception(
+                    "NIXL send_notif failed for request %s: "
+                    "P worker blocks will be freed after timeout. "
+                    "This may indicate network issues.",
+                    request_id,
+                )
+                self.xfer_stats.record_failed_notification()
+            return
+
+        # Partial prefix cache hit: just read uncomputed blocks.
+        num_remote_blocks = len(remote_block_ids)
+        assert num_local_blocks <= num_remote_blocks
+        if num_local_blocks < num_remote_blocks:
+            remote_block_ids = remote_block_ids[-num_local_blocks:]
+
+        # Get side handles.
+        remote_block_size = self.kv_topo.remote_block_size[dst_engine_id]
+        local_xfer_side_handle = self.src_xfer_side_handles.get(
+            remote_block_size, self.src_xfer_side_handle
+        )
+        remote_xfer_side_handle = self.dst_xfer_side_handles[dst_engine_id]
+
+        # NOTE (nicolo) With homogeneous TP, each TP worker loads KV from
+        # corresponding rank. With heterogeneous TP, fixing D>P, the D tp
+        # workers will issue xfers to parts of the P worker remote kv caches.
+
+        # Get descs ids.
+        local_block_descs_ids: np.ndarray
+        remote_block_descs_ids: np.ndarray
+
+        if not self.block_window_per_layer:
+            # Default case: assume global attention
+            remote_block_descs_ids = self._get_block_descs_ids(
+                dst_engine_id,
+                remote_block_ids,
+            )
+            local_block_descs_ids = self._get_block_descs_ids(
+                self.engine_id,
+                local_block_ids,
+                block_size_ratio=block_size_ratio,
+            )
+        else:
+            # TODO(mgoin): remove this once we have hybrid memory allocator
+            # Optimization for models with local attention (Llama 4)
+            local_descs_list = []
+            remote_descs_list = []
+            for layer_idx, block_window in enumerate(self.block_window_per_layer):
+                # For each layer:
+                if block_window is None:
+                    # If not chunked, we just use the
+                    # full block lists (global attention)
+                    layer_local_block_ids = local_block_ids
+                    layer_remote_block_ids = remote_block_ids
+                else:
+                    # If chunked, get the last block_window blocks
+                    layer_local_block_ids = local_block_ids[-block_window:]
+                    layer_remote_block_ids = remote_block_ids[-block_window:]
+
+                # Get descs ids for the layer.
+                layer_local_desc_ids = self._get_block_descs_ids(
+                    dst_engine_id,
+                    layer_local_block_ids,
+                    layer_idx,
+                )
+                layer_remote_desc_ids = self._get_block_descs_ids(
+                    self.engine_id,
+                    layer_remote_block_ids,
+                    layer_idx,
+                    block_size_ratio=block_size_ratio,
+                )
+
+                local_descs_list.append(layer_local_desc_ids)
+                remote_descs_list.append(layer_remote_desc_ids)
+
+            local_block_descs_ids = np.concatenate(local_descs_list)
+            remote_block_descs_ids = np.concatenate(remote_descs_list)
+
+        assert len(local_block_descs_ids) == len(remote_block_descs_ids)
+
+        # Prepare transfer with Nixl.
+        handle = None
+        try:
+            handle = self.nixl_wrapper.make_prepped_xfer(
+                "READ",
+                local_xfer_side_handle,
+                local_block_descs_ids,
+                remote_xfer_side_handle,
+                remote_block_descs_ids,
+                notif_msg=notif_id,
+            )
+
+            # Begin async xfer.
+            self.nixl_wrapper.transfer(handle)
+
+            # Use handle to check completion in future step().
+            self._recving_transfers[request_id].append((handle, time.perf_counter()))
+        except Exception:
+            logger.exception(
+                "NIXL transfer setup/initiation failed for request %s. "
+                "Marking blocks as invalid.",
+                request_id,
+            )
+            # mark all (logical) blocks for this request as invalid
+            if meta := self._recving_metadata.get(request_id):
+                self._invalid_block_ids.update(meta.local_block_ids)
+            self.xfer_stats.record_failed_transfer()
+            if handle is not None:
+                self.nixl_wrapper.release_xfer_handle(handle)
+            self._failed_recv_reqs.add(request_id)
+
+    def get_mapped_blocks(self, block_ids, block_size_ratio):
+        """
+          Calculates the new set of block IDs by mapping every element
+          in the (potentially sparse) input array.
+          Example: block_ids=[0, 2], block_size_ratio=2
+        get_mapped_blocks    0     1     [2     3]     4     5
+              # remote is |h0-b0|h1-b0||h0-b1|h1-b1||h0-b1|h1-b1||
+              # local is  |h0-b0......||h1-b0......||h2-b0........
+        local_block_ids         0           [1]           2
+        """
+        if block_ids.size == 0:
+            return np.array([], dtype=np.int64)
+
+        start_ids = block_ids * block_size_ratio
+        offsets = np.arange(block_size_ratio)
+        mapped_2d = start_ids[:, None] + offsets[None, :]
+
+        return mapped_2d.flatten().astype(np.int64)
+
+    def _get_block_descs_ids(
+        self,
+        engine_id: str,
+        block_ids: list[int],
+        layer_idx: int | None = None,
+        block_size_ratio: float | None = None,
+    ) -> np.ndarray:
+        """
+        Get the descs ids for a set of block ids.
+        If layer_idx is provided, we use the region_ids for the given layer.
+        Otherwise, we use all regions.
+        """
+        if layer_idx is None:
+            region_ids = np.arange(self.num_regions)
+        else:
+            assert layer_idx < self.num_layers
+            if self.num_layers < self.num_regions:
+                # If we have more regions than layers, we assume that
+                # the regions are organized as [K0, V0, K1, V1, ...]
+                # and we select K_i and V_i
+                assert 2 * self.num_layers == self.num_regions
+                region_ids = np.arange(2 * layer_idx, 2 * layer_idx + 2)
+            else:
+                # Otherwise, we assume we have MLA and select i-th layer
+                assert self.num_layers == self.num_regions
+                region_ids = np.arange(layer_idx, layer_idx + 1)
+
+        num_blocks = self.dst_num_blocks[engine_id]
+        if block_size_ratio is not None:
+            num_blocks = int(num_blocks * block_size_ratio)
+
+        # Compute the desc ids for each block.
+        region_ids = region_ids[:, None]
+        block_ids = np.array(block_ids)[None, :]
+        descs_ids = region_ids * num_blocks + block_ids
+        return descs_ids.flatten()
+
+    def _logical_to_kernel_block_ids(self, block_ids: list[int]) -> list[int]:
+        """
+        Convert logical block ids to kernel physical block ids.
+        This is required when the logical block size (the one set by the user)
+        does not match the one required by the attn backend.
+        """
+        if self._physical_blocks_per_logical_kv_block == 1:
+            # Noop when physical and logical block sizes are the same
+            return block_ids
+        block_ids_np = np.array(block_ids)
+        block_arange = np.arange(0, self._physical_blocks_per_logical_kv_block).reshape(
+            1, -1
+        )
+        return BlockTable.map_to_kernel_blocks(
+            block_ids_np, self._physical_blocks_per_logical_kv_block, block_arange
+        ).tolist()
+
+    def get_backend_aware_kv_block_len(self, layer_idx: int):
+        """
+        Get the block length for one K/V element (K and V have the same size).
+
+        For FA and other backends, this is equal to the length of the whole
+        block, as K and V are in separate regions.
+        For FlashInfer, this is half the length of the whole block, as K and V
+        share the same region.
+        """
+        if self.kv_topo.is_kv_layout_blocks_first:
+            # For indexing only half (either just the K or V part).
+            block_len = self.block_len_per_layer[layer_idx] // 2
+        else:
+            block_len = self.block_len_per_layer[layer_idx]
+        return block_len
+
+    def get_kv_connector_stats(self) -> KVConnectorStats | None:
+        """
+        Get the KV transfer stats for the connector.
+        """
+        # Clear stats for next iteration
+        if not self.xfer_stats.is_empty():
+            return self.xfer_stats.clone_and_reset()
+        return None
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Return and clear the set of block IDs that failed to load.
+
+        This is called by the scheduler to identify blocks that need
+        to be retried after a NIXL transfer failure.
+        """
+        result = self._invalid_block_ids
+        self._invalid_block_ids = set()
+        return result
+
+    def __del__(self):
+        self.shutdown()
+
+    def shutdown(self):
+        """Shutdown the connector worker."""
+        self._handshake_initiation_executor.shutdown(wait=False)
+        for handles in self._recving_transfers.values():
+            for handle, _ in handles:
+                self.nixl_wrapper.release_xfer_handle(handle)
+        self._recving_transfers.clear()
+        if self.src_xfer_side_handle:
+            self.nixl_wrapper.release_dlist_handle(self.src_xfer_side_handle)
+            self.src_xfer_side_handle = 0
+        for dst_xfer_side_handle in self.dst_xfer_side_handles.values():
+            self.nixl_wrapper.release_dlist_handle(dst_xfer_side_handle)
+        self.dst_xfer_side_handles.clear()
+        for remote_agents in self._remote_agents.values():
+            for agent_name in remote_agents.values():
+                self.nixl_wrapper.remove_remote_agent(agent_name)
+        self._remote_agents.clear()
+        for desc in self._registered_descs:
+            self.nixl_wrapper.deregister_memory(desc)
+        self._registered_descs.clear()
+
+
+@contextlib.contextmanager
+def zmq_ctx(socket_type: Any, addr: str) -> Iterator[zmq.Socket]:
+    """Context manager for a ZMQ socket"""
+
+    if socket_type not in (zmq.ROUTER, zmq.REQ):
+        raise ValueError(f"Unexpected socket type: {socket_type}")
+
+    ctx: zmq.Context | None = None
+    try:
+        ctx = zmq.Context()  # type: ignore[attr-defined]
+        yield make_zmq_socket(
+            ctx=ctx, path=addr, socket_type=socket_type, bind=socket_type == zmq.ROUTER
+        )
+    finally:
+        if ctx is not None:
+            ctx.destroy(linger=0)
+
+
+@dataclass
+class NixlKVConnectorStats(KVConnectorStats):
+    """Container for transfer performance metrics"""
+
+    def __post_init__(self):
+        if not self.data:
+            # Empty container init, no data is passed in.
+            self.reset()
+
+    def reset(self):
+        # Must be serializable
+        self.data: dict[str, list[float]] = {
+            "transfer_duration": [],
+            "post_duration": [],
+            "bytes_transferred": [],
+            "num_descriptors": [],
+            "num_failed_transfers": [],
+            "num_failed_notifications": [],
+        }
+
+    def record_transfer(self, res: nixlXferTelemetry):
+        # Keep metrics units consistent with rest of the code: time us->s
+        self.data["transfer_duration"].append(res.xferDuration / 1e6)
+        self.data["post_duration"].append(res.postDuration / 1e6)
+        self.data["bytes_transferred"].append(res.totalBytes)
+        self.data["num_descriptors"].append(res.descCount)
+
+    def record_failed_transfer(self):
+        """Record a failed NIXL transfer operation."""
+        self.data["num_failed_transfers"].append(1.0)
+
+    def record_failed_notification(self):
+        """Record a failed NIXL notification (send_notif)."""
+        self.data["num_failed_notifications"].append(1.0)
+
+    def clone_and_reset(self) -> "NixlKVConnectorStats":
+        old = copy.copy(self)
+        self.reset()
+        return old
+
+    def is_empty(self) -> bool:
+        return self.num_successful_transfers == 0
+
+    def aggregate(self, other: KVConnectorStats) -> KVConnectorStats:
+        if not other.is_empty():
+            for k, v in other.data.items():
+                accumulator = self.data[k]
+                assert isinstance(accumulator, list)
+                accumulator.extend(v)
+        return self
+
+    def reduce(self) -> dict[str, int | float]:
+        # Compute compact representative stats suitable for CLI logging
+        if self.is_empty():
+            return {
+                "Num successful transfers": 0,
+                "Avg xfer time (ms)": 0,
+                "P90 xfer time (ms)": 0,
+                "Avg post time (ms)": 0,
+                "P90 post time (ms)": 0,
+                "Avg MB per transfer": 0,
+                "Throughput (MB/s)": 0,
+                "Avg number of descriptors": 0,
+            }
+
+        xfer_time = np.asarray(self.data["transfer_duration"])
+        post_time = np.asarray(self.data["post_duration"])
+        # Convert to MB for CLI logging.
+        mb = np.asarray(self.data["bytes_transferred"]) / 2**20
+        descs = np.asarray(self.data["num_descriptors"], dtype=np.uint32)
+        n = len(descs)
+        assert n == self.num_successful_transfers
+
+        total_mb = mb.sum()
+        avg_mb = total_mb / n
+
+        total_time_seconds = xfer_time.sum()
+        throughput_mb_s = total_mb / total_time_seconds
+
+        return {
+            "Num successful transfers": n,
+            "Avg xfer time (ms)": round(xfer_time.mean() * 1e3, 3),
+            "P90 xfer time (ms)": round(np.percentile(xfer_time, 90) * 1e3, 3),
+            "Avg post time (ms)": round(post_time.mean() * 1e3, 3),
+            "P90 post time (ms)": round(np.percentile(post_time, 90) * 1e3, 3),
+            "Avg MB per transfer": round(avg_mb, 3),
+            "Throughput (MB/s)": round(throughput_mb_s, 3),
+            "Avg number of descriptors": round(descs.mean(), 1),
+        }
+
+    @property
+    def num_successful_transfers(self) -> int:
+        return len(self.data["transfer_duration"])
+
+
+class NixlPromMetrics(KVConnectorPromMetrics):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        metric_types: dict[type[PromMetric], type[PromMetricT]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ):
+        super().__init__(vllm_config, metric_types, labelnames, per_engine_labelvalues)
+
+        buckets = [
+            0.001,
+            0.005,
+            0.01,
+            0.025,
+            0.05,
+            0.075,
+            0.1,
+            0.2,
+            0.3,
+            0.5,
+            0.75,
+            1.0,
+            5.0,
+        ]
+        nixl_histogram_xfer_time = self._histogram_cls(
+            name="vllm:nixl_xfer_time_seconds",
+            documentation="Histogram of transfer duration for NIXL KV Cache transfers.",
+            buckets=buckets[1:],
+            labelnames=labelnames,
+        )
+        self.nixl_histogram_xfer_time = self.make_per_engine(nixl_histogram_xfer_time)
+        nixl_histogram_post_time = self._histogram_cls(
+            name="vllm:nixl_post_time_seconds",
+            documentation="Histogram of transfer post time for NIXL KV"
+            " Cache transfers.",
+            buckets=buckets,
+            labelnames=labelnames,
+        )
+        self.nixl_histogram_post_time = self.make_per_engine(nixl_histogram_post_time)
+        # uniform 2kb to 16gb range
+        buckets = [2 ** (10 + i) for i in range(1, 25, 2)]
+        nixl_histogram_bytes_transferred = self._histogram_cls(
+            name="vllm:nixl_bytes_transferred",
+            documentation="Histogram of bytes transferred per NIXL KV Cache transfers.",
+            buckets=buckets,
+            labelnames=labelnames,
+        )
+        self.nixl_histogram_bytes_transferred = self.make_per_engine(
+            nixl_histogram_bytes_transferred
+        )
+        buckets = [
+            10,
+            20,
+            30,
+            50,
+            75,
+            100,
+            200,
+            400,
+            1000,
+            2000,
+            4000,
+            10000,
+            20000,
+            50000,
+        ]
+        nixl_histogram_num_descriptors = self._histogram_cls(
+            name="vllm:nixl_num_descriptors",
+            documentation="Histogram of number of descriptors per NIXL"
+            "  KV Cache transfers.",
+            buckets=buckets,
+            labelnames=labelnames,
+        )
+        self.nixl_histogram_num_descriptors = self.make_per_engine(
+            nixl_histogram_num_descriptors
+        )
+        counter_nixl_num_failed_transfers = self._counter_cls(
+            name="vllm:nixl_num_failed_transfers",
+            documentation="Number of failed NIXL KV Cache transfers.",
+            labelnames=labelnames,
+        )
+        self.counter_nixl_num_failed_transfers = self.make_per_engine(
+            counter_nixl_num_failed_transfers
+        )
+        counter_nixl_num_failed_notifications = self._counter_cls(
+            name="vllm:nixl_num_failed_notifications",
+            documentation="Number of failed NIXL KV Cache notifications.",
+            labelnames=labelnames,
+        )
+        self.counter_nixl_num_failed_notifications = self.make_per_engine(
+            counter_nixl_num_failed_notifications
+        )
+
+    def observe(self, transfer_stats_data: dict[str, Any], engine_idx: int = 0):
+        for prom_obj, list_item_key in zip(
+            [
+                self.nixl_histogram_xfer_time,
+                self.nixl_histogram_post_time,
+                self.nixl_histogram_bytes_transferred,
+                self.nixl_histogram_num_descriptors,
+            ],
+            [
+                "transfer_duration",
+                "post_duration",
+                "bytes_transferred",
+                "num_descriptors",
+            ],
+        ):
+            for list_item in transfer_stats_data[list_item_key]:
+                prom_obj[engine_idx].observe(list_item)
+        for counter_obj, counter_item_key in zip(
+            [
+                self.counter_nixl_num_failed_transfers,
+                self.counter_nixl_num_failed_notifications,
+            ],
+            ["num_failed_transfers", "num_failed_notifications"],
+        ):
+            for list_item in transfer_stats_data[counter_item_key]:
+                counter_obj[engine_idx].inc(list_item)
diff --git a/distributed/kv_transfer/kv_connector/v1/offloading_connector.py b/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
new file mode 100644
index 0000000..582e42c
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
@@ -0,0 +1,504 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import defaultdict
+from collections.abc import Iterable, Iterator
+from dataclasses import dataclass
+from itertools import islice
+from typing import Any
+
+import torch
+
+from vllm.attention import AttentionMetadata
+from vllm.config import VllmConfig
+from vllm.distributed.kv_events import BlockRemoved, BlockStored, KVCacheEvent
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
+from vllm.forward_context import ForwardContext
+from vllm.logger import init_logger
+from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.kv_offload.abstract import OffloadingManager
+from vllm.v1.kv_offload.factory import OffloadingSpecFactory
+from vllm.v1.kv_offload.mediums import GPULoadStoreSpec
+from vllm.v1.kv_offload.spec import OffloadingSpec
+from vllm.v1.kv_offload.worker.worker import OffloadingWorker, TransferSpec
+from vllm.v1.outputs import KVConnectorOutput
+from vllm.v1.request import Request
+
+ReqId = str
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class OffloadingConnectorMetadata(KVConnectorMetadata):
+    reqs_to_load: dict[ReqId, TransferSpec]
+    reqs_to_store: dict[ReqId, TransferSpec]
+
+
+class OffloadingConnector(KVConnectorBase_V1):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        role: KVConnectorRole,
+        kv_cache_config: KVCacheConfig | None = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
+        spec = OffloadingSpecFactory.create_spec(vllm_config)
+
+        self.connector_scheduler: OffloadingConnectorScheduler | None = None
+        self.connector_worker: OffloadingConnectorWorker | None = None
+        if role == KVConnectorRole.SCHEDULER:
+            self.connector_scheduler = OffloadingConnectorScheduler(spec)
+        elif role == KVConnectorRole.WORKER:
+            self.connector_worker = OffloadingConnectorWorker(spec)
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        assert self.connector_worker is not None
+        self.connector_worker.register_kv_caches(kv_caches)
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, OffloadingConnectorMetadata)
+        self.connector_worker.start_load_kv(self._connector_metadata)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        pass
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        pass
+
+    def wait_for_save(self):
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, OffloadingConnectorMetadata)
+        self.connector_worker.start_store_kv(self._connector_metadata)
+
+    def get_finished(self, finished_req_ids: set[str]) -> tuple[set[str], set[str]]:
+        assert self.connector_worker is not None
+        return self.connector_worker.get_finished(finished_req_ids)
+
+    def get_num_new_matched_tokens(
+        self, request: "Request", num_computed_tokens: int
+    ) -> tuple[int, bool]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.get_num_new_matched_tokens(
+            request, num_computed_tokens
+        )
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.update_state_after_alloc(
+            request, blocks, num_external_tokens
+        )
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.build_connector_meta(scheduler_output)
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        assert self.connector_scheduler is not None
+        self.connector_scheduler.update_connector_output(connector_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.request_finished(request, block_ids)
+
+    def take_events(self) -> Iterable[KVCacheEvent]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.take_events()
+
+
+class OffloadingConnectorScheduler:
+    """Implementation of Scheduler side methods"""
+
+    def __init__(self, spec: OffloadingSpec):
+        self.gpu_block_size = spec.gpu_block_size
+        self.offloaded_block_size = spec.offloaded_block_size
+        self.block_size_factor = self.offloaded_block_size // self.gpu_block_size
+        self.manager: OffloadingManager = spec.get_manager()
+
+        self._requests: dict[ReqId, Request] = {}
+        # list of GPU block IDs per request
+        self._request_block_ids: dict[ReqId, list[int]] = {}
+        # requests to load for the current scheduler step
+        self._reqs_to_load: dict[ReqId, TransferSpec] = {}
+        # request blocks are stored in order
+        # index of next block (of size offloaded_block_size) to offload
+        self._next_stored_block_idx: dict[ReqId, int] = {}
+
+        # request ID -> set(block hashes being stored/load)
+        self._reqs_being_stored = defaultdict[ReqId, set[BlockHash]](set)
+        self._reqs_being_loaded = defaultdict[ReqId, set[BlockHash]](set)
+
+    def _get_block_hashes(
+        self,
+        req: Request,
+        start_idx: int = 0,
+        end_idx: int | None = None,
+    ) -> Iterable[BlockHash]:
+        return islice(
+            req.block_hashes,
+            self.block_size_factor * start_idx + self.block_size_factor - 1,
+            self.block_size_factor * end_idx if end_idx else None,
+            self.block_size_factor,
+        )
+
+    def get_num_new_matched_tokens(
+        self, request: Request, num_computed_tokens: int
+    ) -> tuple[int, bool]:
+        """
+        Get number of new tokens that can be loaded beyond the
+        num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            A tuple with the following elements:
+                - The number of tokens that can be loaded beyond what is
+                  already computed.
+                - `True` if tokens will be loaded asynchronously
+                  (between scheduler steps).
+        """
+        num_blocks = request.num_tokens // self.offloaded_block_size
+
+        assert len(request.block_hashes) // self.block_size_factor == num_blocks
+        block_hashes = self._get_block_hashes(request)
+
+        self.manager.touch(block_hashes)
+
+        full_block_tokens = self.offloaded_block_size * num_blocks
+        if full_block_tokens - num_computed_tokens < self.offloaded_block_size:
+            # we can load less than a block, skip
+            return 0, False
+
+        start_block_idx = num_computed_tokens // self.offloaded_block_size
+        hits = self.manager.lookup(
+            self._get_block_hashes(request, start_idx=start_block_idx)
+        )
+        if hits == 0:
+            return 0, False
+
+        num_hit_tokens = (
+            self.offloaded_block_size * (start_block_idx + hits) - num_computed_tokens
+        )
+        logger.debug(
+            "Request %s hit %s offloaded tokens after %s GPU hit tokens",
+            request.request_id,
+            num_hit_tokens,
+            num_computed_tokens,
+        )
+        if num_hit_tokens < self.offloaded_block_size:
+            return 0, False
+
+        return num_hit_tokens, True
+
+    def update_state_after_alloc(
+        self, request: Request, blocks: KVCacheBlocks, num_external_tokens: int
+    ):
+        self._requests[request.request_id] = request
+        # the block ids are updated in _get_reqs_to_store
+        self._request_block_ids[request.request_id] = []
+
+        if num_external_tokens == 0:
+            return
+
+        block_groups = blocks.get_block_ids()
+        block_ids = block_groups[0]
+
+        num_computed_gpu_blocks = sum(
+            block.block_hash is not None for block in blocks.blocks[0]
+        )
+        num_computed_tokens = num_computed_gpu_blocks * self.gpu_block_size
+        full_block_tokens = num_computed_tokens + num_external_tokens
+        assert full_block_tokens % self.offloaded_block_size == 0
+
+        num_pending_gpu_blocks = len(block_ids) - num_computed_gpu_blocks
+        assert num_external_tokens == num_pending_gpu_blocks * self.gpu_block_size
+
+        start_block_idx = num_computed_tokens // self.offloaded_block_size
+        num_blocks = full_block_tokens // self.offloaded_block_size
+
+        assert len(request.block_hashes) // self.block_size_factor >= num_blocks
+        block_hashes = self._get_block_hashes(
+            request, start_idx=start_block_idx, end_idx=num_blocks
+        )
+
+        src_spec = self.manager.prepare_load(block_hashes)
+        dst_spec = GPULoadStoreSpec(block_ids[num_computed_gpu_blocks:])
+
+        block_hashes = self._get_block_hashes(
+            request, start_idx=start_block_idx, end_idx=num_blocks
+        )
+
+        self._reqs_to_load[request.request_id] = (src_spec, dst_spec)
+        self._reqs_being_loaded[request.request_id].update(block_hashes)
+        self._next_stored_block_idx[request.request_id] = num_blocks
+
+    def _get_reqs_to_store(self, scheduler_output: SchedulerOutput):
+        reqs_to_store: dict[ReqId, TransferSpec] = {}
+        # iterate over both new and cached requests
+        for req_id, new_block_id_groups, preempted in yield_req_data(scheduler_output):
+            if preempted:
+                self._request_block_ids[req_id] = []
+
+            if new_block_id_groups:
+                new_block_ids = new_block_id_groups[0]
+                self._request_block_ids[req_id] += new_block_ids
+
+            block_ids = self._request_block_ids[req_id]
+
+            req = self._requests[req_id]
+            new_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            total_tokens = req.num_computed_tokens + new_tokens
+            num_blocks = total_tokens // self.offloaded_block_size
+            start_block_idx = self._next_stored_block_idx.get(req_id, 0)
+            num_new_blocks = num_blocks - start_block_idx
+
+            if num_new_blocks <= 0:
+                continue
+
+            # NOTE: In async scheduling, placeholders may temporarily make
+            # len(req.block_hashes) < num_blocks * self.block_size_factor.
+
+            new_block_hashes = self._get_block_hashes(
+                req, start_idx=start_block_idx, end_idx=num_blocks
+            )
+            store_output = self.manager.prepare_store(new_block_hashes)
+            if store_output is None:
+                logger.warning(
+                    "Request %s: cannot store %s blocks", req_id, num_new_blocks
+                )
+                continue
+
+            self._next_stored_block_idx[req_id] = num_blocks
+
+            if not store_output.block_hashes_to_store:
+                continue
+            block_hashes_to_store = set(store_output.block_hashes_to_store)
+
+            block_hashes = self._get_block_hashes(req, end_idx=num_blocks)
+            self.manager.touch(block_hashes)
+
+            new_block_hashes = self._get_block_hashes(
+                req, start_idx=start_block_idx, end_idx=num_blocks
+            )
+            dst_spec = store_output.store_spec
+            src_block_ids: list[int] = []
+            for idx, blk_hash in enumerate(new_block_hashes):
+                if blk_hash not in block_hashes_to_store:
+                    continue
+                offloaded_block_idx = start_block_idx + idx
+                gpu_block_idx = offloaded_block_idx * self.block_size_factor
+                for i in range(self.block_size_factor):
+                    src_block_ids.append(block_ids[gpu_block_idx + i])
+            src_spec = GPULoadStoreSpec(src_block_ids)
+
+            reqs_to_store[req_id] = (src_spec, dst_spec)
+            self._reqs_being_stored[req_id] |= block_hashes_to_store
+
+            logger.debug(
+                "Request %s offloading %s blocks starting from block #%d",
+                req_id,
+                len(block_hashes_to_store),
+                start_block_idx,
+            )
+
+        return reqs_to_store
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        meta = OffloadingConnectorMetadata(
+            reqs_to_load=self._reqs_to_load,
+            reqs_to_store=self._get_reqs_to_store(scheduler_output),
+        )
+        self._reqs_to_load = {}
+        return meta
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        """
+        Update KVConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (KVConnectorOutput): the worker-side
+                connectors output.
+        """
+        for req_id in connector_output.finished_sending or []:
+            block_hashes = self._reqs_being_stored.pop(req_id, None)
+            if block_hashes:
+                self.manager.complete_store(block_hashes)
+
+        for req_id in connector_output.finished_recving or []:
+            block_hashes = self._reqs_being_loaded.pop(req_id, None)
+            if block_hashes:
+                self.manager.complete_load(block_hashes)
+
+    def request_finished(
+        self,
+        request: Request,
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called when a request has finished, before its blocks are freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        req_id = request.request_id
+        self._requests.pop(req_id, None)
+        self._request_block_ids.pop(req_id, None)
+        self._next_stored_block_idx.pop(req_id, None)
+
+        request_being_stored = req_id in self._reqs_being_stored
+        return request_being_stored, None
+
+    def take_events(self) -> Iterable[KVCacheEvent]:
+        """Take the KV cache events from the connector.
+
+        Returns:
+            A list of KV cache events.
+        """
+        for event in self.manager.take_events():
+            if event.removed:
+                yield BlockRemoved(block_hashes=event.block_hashes, medium=event.medium)
+            else:
+                yield BlockStored(
+                    block_hashes=event.block_hashes,
+                    parent_block_hash=None,
+                    token_ids=[],
+                    lora_id=None,
+                    block_size=event.block_size,
+                    medium=event.medium,
+                )
+
+
+class OffloadingConnectorWorker:
+    """Implementation of Worker side methods"""
+
+    def __init__(self, spec: OffloadingSpec):
+        self.spec = spec
+        self.worker = OffloadingWorker()
+
+        self._job_counter = 0
+
+        # req_id -> (job_id, store)
+        self._jobs: dict[int, tuple[ReqId, bool]] = {}
+        # req_id -> active job IDs
+        self._load_job: dict[ReqId, int] = {}
+        # req_id -> set(active job IDs)
+        self._store_jobs = defaultdict[ReqId, set[int]](set)
+
+        self._finished_reqs_waiting_for_store: set[ReqId] = set()
+
+    def _generate_job_id(self) -> int:
+        job_id = self._job_counter
+        self._job_counter = job_id + 1
+        return job_id
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        for src_cls, dst_cls, handler in self.spec.get_handlers(kv_caches):
+            self.worker.register_handler(src_cls, dst_cls, handler)
+
+    def start_load_kv(self, metadata: OffloadingConnectorMetadata):
+        for req_id, transfer_spec in metadata.reqs_to_load.items():
+            job_id = self._generate_job_id()
+            self._jobs[job_id] = (req_id, False)
+            assert req_id not in self._load_job
+            self._load_job[req_id] = job_id
+            assert self.worker.transfer_async(job_id, transfer_spec)
+
+    def start_store_kv(self, metadata: OffloadingConnectorMetadata):
+        for req_id, transfer_spec in metadata.reqs_to_store.items():
+            job_id = self._generate_job_id()
+            self._jobs[job_id] = (req_id, True)
+            self._store_jobs[req_id].add(job_id)
+            assert self.worker.transfer_async(job_id, transfer_spec)
+
+    def get_finished(self, finished_req_ids: set[str]) -> tuple[set[str], set[str]]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens.
+        Returns a list of request IDs that finished loading or storing.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            tuple of (sending/saving ids, recving/loading ids).
+        """
+        finished_sending = set()
+        finished_recving = set()
+        for job_id, success in self.worker.get_finished():
+            # we currently do not support job failures
+            assert success
+            req_id, store = self._jobs.pop(job_id)
+            if store:
+                req_jobs = self._store_jobs[req_id]
+                req_jobs.remove(job_id)
+                if req_jobs:
+                    continue
+
+                if req_id in self._finished_reqs_waiting_for_store:
+                    self._finished_reqs_waiting_for_store.remove(req_id)
+                    finished_sending.add(req_id)
+                    del self._store_jobs[req_id]
+            else:
+                req_job = self._load_job[req_id]
+                assert job_id == req_job
+                del self._load_job[req_id]
+                finished_recving.add(req_id)
+
+        for req_id in finished_req_ids:
+            pending_req_jobs = self._store_jobs.get(req_id)
+            if pending_req_jobs:
+                self._finished_reqs_waiting_for_store.add(req_id)
+            elif pending_req_jobs is not None:
+                finished_sending.add(req_id)
+                del self._store_jobs[req_id]
+
+        return finished_sending, finished_recving
+
+
+def yield_req_data(
+    scheduler_output,
+) -> Iterator[tuple[str, tuple[list[int], ...], bool]]:
+    """
+    Yields:
+        (req_id, new_block_id_groups, preempted)
+    """
+    # new requests
+    for req_data in scheduler_output.scheduled_new_reqs:
+        yield req_data.req_id, req_data.block_ids, False
+
+    # cached requests
+    cached_reqs = scheduler_output.scheduled_cached_reqs
+    yield from zip(
+        cached_reqs.req_ids,
+        cached_reqs.new_block_ids,
+        (req_id in cached_reqs.resumed_req_ids for req_id in cached_reqs.req_ids),
+    )
diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/__init__.py b/distributed/kv_transfer/kv_connector/v1/p2p/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4fe9ae38b6c0d67d4c9b683539dd600be7987911
GIT binary patch
literal 193
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVCFqyr7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs!vv#g`N%<`t)<
z7J=Bw`FVM%$tC$k`elat1x5w>@$s2?nI-Y@dIgoYIBatBQ%ZAE?TT1|7BT{HF^KVz
MnURsPh#ANN0KMKbVE_OC

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_connector.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_connector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..af15664848237285506347eda197d8ea42b6772a
GIT binary patch
literal 20406
zcmd^nYj7Obm0r&i^8#jo0Wf%@@gRvI@gVpn2vK}LMer%fLTrr&=mrUJFavcDNCF<n
zESrwNEL{fI_7bwQ5u8VbE;+T_Dpx{RZKbroR#ls-OapXg+>sKv?5)IqQX_%#YV#}K
zx&4?KU_fbi^CMMh5_fL*ecyY|x#xWMbpLgExrf6Qv;Wb!be`jWOE<>l)FW$qEFAZU
z6F9*V<0dV`77N9#G3%sl*fwb&wof{S9qgGc<{U0Vnl0uUcH!3^b5DAPJuJ-;^G^DP
zeUs(G<&zb|73`Ta=AR4<2Uxr;RykQUT*cz9Sa7m>xSGY?v6{)+;aV2=#6pvG!*v!;
zv`H<f-y5r+Y#44}X}(zFWYcgHi<ifmCtHSFSiB<EI>`_7EbfoBO|}oWTR1BxR*M}U
zU|e(!cZwD(cbXFd_c)>Q1FQD*1MP<!-lC^gAvGwLe_&gezLk}&Mrw`dGg61Q&Dg@V
zzo)EWi|Q7l$>?Y-D$8M;T7K<~OD7}8&zwAd{_N0c)pj&Kqq;6mCC3x-Xlw|%J+H-L
zlgAVBvGME3UUmL8#N*;<G9ev{%3|cTel=L|?1Gq#QuV68;Ng`-OhirPmv&7JjgH1n
z#;=dZ>4E>cn2g*`NHHODT}n((;gNSdKAw!k64$Sb5^gImymIt-VsbJOH!7xLS4VG%
z!gNfOE>0(>rjwNKXfi3rsnZ4dDo!P&+fhkChm+zR%2tj}MN#-zEHQdhE_k4i&!U!H
z5#OE`<>aV7-|WY$->gZ9JmN%d*dlPl)>pCeqFt~I;;HDE@aee<evoQqsbz@SSj;6@
zM4Mn2-C|iiatc;6<`BySr@)PQgtB{fbG<z?uCSYRi$<n;B&~muaY1#D&@d2_RZo0+
zGLlT(6yvh$X205FEr&clE2>UOOioMjQF}rE$`B_4S{p|2h)e1u$Z-=o*%jpFQdWaR
z=j=&`k&@z4_9WHAu9U^d^K*+qd{?=!btr6;LdYT2Q9uI^+f@f>X!M5a#LCGDNvg$D
z)fN-uVTYEt!7R{7Nda@X5v_zwo#5&E-xGbw$*I1n@u{9<R037?+?n2g@W9ReVqa{0
zq;F~_c_R_;y9Gk-6UODFG(Iw&6otN<w<1X?8kfgJiQ=OMVfWqY@0;3%`gTo4;vm?3
zO7GN+>Yj|=6eE*ZjoC_23oT2p`Dh2aB=;b=%RP5-O>OTFzBl;Tz0$ZV?W+6OUz-iJ
zWox&79BNoR_=9(zm)QfJ9A|fX)=+>O3VT&oBodEKijj!wi9{w7MC6G3B9XVJqcJ_j
zh5@MlNF*AMCz4U3c{vi1T2O=PyvC+dwT;J<s!yiWQFQc1LQw578h8hC{fv`3@gucU
zK$Fe_x|4|vzRTsDTxIolF0T5kzn{9FTCq2-27<VCROYNMhbLPd%Gv0*v+Hs2r)RbJ
zz~QIzFT+~=@-_Cm>aP0CfqZK=&RO*-mDHN07K^xx$$UIqdj-LI?jlkV9U6}b)_dHr
zQ?P+g?BF~X;~$3^bBZpZOmKmJ-1qFmZt#sqt<y!0DYIy`n0#{Sj3kemM31J3>={E;
zvA$gAQd|Tv?V90!W`RVM`f>X+i)xp}*qBVEc{Z1{cuaalX4^Jvw%5pV2*qSKg1cO{
zu3_H(y>e}K7?TtezSM+lL!&0g;m(CW*3B_Q9-)&H_+5WZP>yw1(&YXLlV|f;QkIl8
zWlPyV&~q8QY~f}&X*cqP?QHO>GdeXT#s!UfIw-**?Zr<izRh!~HcQ^9AVl=ZpY7aq
zq6%^yM$Phe1b4Yy1?MjRe);|KjH^j;HGS+0W_-<xuX%Cearns_A9_}N=Rdbu-5RNd
zJ<=BH)K&_%Q9z8TbvjJ3eH3(2Kx``=q@b6AP6`-*?4%e4`|&3aA^0x0T2ZyI|NbNx
z<1@R((U^0(9iCNig#*9fo$9(p+rxvoGP-jacW%1#a5Z%~FU5SEr{Z}zVp>zwz$pIA
z%jAhWps#lexWdf|TLh~>JBUqiU{`Sx7mPXQxiJg&jq+iK;1b+|M|28a!7}C)eBgyL
zp&YzH_jaLzc!S;hMb88=<GM=-2$g1ek5GmDJ|PIsD;KK83Z3g%{i5Hzx6Fc^itom(
zTF-<U)DRGAg^*AuRtjE}suZit)Ow@_S!#pOC^U(c=yNlkRSPX*4RY6_&#kx*u{^wp
zIvC$mJyl}8=n|b;T>|TaS#KN4G>DDDR-v87j@&NPt@X(+blh{8J8Tnjb>8F5`{sG>
zj%Bz7+txNUu%14LR4;8Kv?D+vl8A{^y9E74_0tYQ%7u{@L|V~qODZhmT06wdk1W`4
z&8fd{PjTM^hie>|-#aaMGGX$pnVp+3)ZzRi5>;l-ak?`l2INBt<z%9wps*fADUvPh
zVs(&+VpqzVtTy7M$mS;aNUBcK+OW%*&IuA`>#n#(u%aci{eN)XwCSz8^tuDa<F8cr
z?j#8@c44k~JzDTndIkj>o|AN5cm3Rypcp0XB<z}jp;CMwc932~YN7NJ1tjPs+JaP4
zk37)sqOk}Rl$)wkqc_!cBOxbA4^X{R2`L##jE%`+G8|ML^7ND_F^Q)7ipY@ZPToj?
zCKxotuN;Ysq5y3>DyYFofi|R*uv#%L)8i=#n#iaqK|7c8H~!HZ)A5@qKP8D{<FS}T
zLQ8eNe(}orlUF1nIB*7a-oeHo9i=B;v}TM-^3oIkl%Zvbnq8o8CB@UCx+4*0vP2^0
zhH_UE(ImxZ>(?`?xznCUvP`DW7f{K3oV((Fnc}L;)^%hnYqCu{a%G&m{y8aO5YJ89
zGL5^H#@(65!%E}fdHXYD+`X56`D|mWk#<aJJf@`$U83Kn)xO=o_*Q2B1!ez*<-Q9)
zjI7jb&D88zuGx{kdTrkRz_Z%D^A{I0d(J6)&MkMJdvI~Z*PQWnE&ICCmoDdQ*wN5V
zu9gc_|L|LxP>&MoS@!olFXze|Sfe|X#vR#EV<yz6g!;1ejoBvt{d4b~d+v6WSFqB*
zay8`wTvctZ5>?@b?J25%OtXGyEy?_mDrvTzH(?Q7mzhp6N~C67w0N{0Yb_8_?{e>!
zKjQ9}R4XLQj0Gu$W%WAlTF-Icwv-lF{|tNfU6d58NmF!9n4-q$1neQ(m!#XjB;AoT
z_D&Aglx55_Uyi-eioMY{XG6cs^KBWi5A+Dk8o%)jMvW;#3>#e5#%HH-r0f$WV;f~S
z?gaOZ|HW~0j+A4<6qfnaIVajD1#jJzatbb^jjv-~=gQ_>sWQPmi+o916LzIsC{5<m
zx{GodiW<e|+*pAULKl7e7fAJ#PEC18a?g2_%|`VpFSHEPh@11Je0MDm+EYH1FClid
z(xvHQqRpr?|66*71P_fMrG;)|PFUM*$#$dk1Zj2aF2P&6Mxzc3_u#ITgL3P|2pkin
z60W;8DX(v-D8FRq9^~xYj3w-glF@J#re=~S;W-|^&L?k({Q1{-CVKfXDKW{OfcG@4
zgddq6gPF-E6a1}LUb(PM_AtX0!Bq6RC{R%?N3X|BISNJ{Fz+b;I+o_U)*&1NtWiA|
zuQPscQ5D;_YZ739hlV|_!8|-f!t^BY6Pa3Ib<nW*1hy1rVCMTYlt_xjeY%E$1AQ35
z;1XlJ7!$RM#^b!95XpQrF7UDFj3_bdR_5g!iRqZYkBCKGqbZcJx8*xLq&iqJ)n(MB
z0SL@WqK$Whenm>xng>kuBWod^ao>?N1(rb)aus%OQ)9|ggJ59_rj=<lLTPa(*cidv
z?>kG{QPA21n}L5=xMYDA^#Le{u9ThC?}Ek$WJR!#S!u(Yap?Dsl)V9vrS>#0(n^Uh
z!CAWgl+Cc?V81yw87muyppA86ld-b-n0wJ!O)>Gpv3hB2f<th8*UCoB05NUE=2K(b
zEbafsxMv*UvgjAs(~3y#Y<vO`W}aaQ65s)vB={(Qef*Xf=c5Los1Yu&K~4qSN&I;2
z#yD7JIzCE##7|G58d2uoVl?{}>g$<`MMp*c_IUCJe=8aTu&9ZKw+wQAtGlRMH^3+{
zk|x49Negf!KN1}Us>j$TF`Zl|4|u+Z2SUnsU6_s~$9rA@tQwVg6AKOV;O0{RdT*SK
zqq+eauMVAo<%^k*hBF=)#5)j1(O5#4Xk+7&oJ4QH(=vvb=S<2@t+U$A2G_SxqDEPS
zSQ3gxO*IuXQIvLejESSXfPpT0Yg|AlnL^8-Jt6Z#0`m$ijGv4qM{lglfBv<i`dBHs
zn@_}JGc0G~mMFylXV9#ZN=*xiMb*|)=w_lT%0p?2Q;zYx+@@YLoLX2%6dT1h%Sz&p
z?_!W=uLjeF2S7mL21+v*i8c$ZAM59xH)U(d8qIx3TWqRloDuxSdQ41pLq%uf!uTjA
z7DAl_vo>)r>QWw==DPqjVst=92}|d(UclzZ#xViYGM0`u8JarG=(@SP!Z7L$RL=85
ziMZIyrpshEz@t>>Mt&<E<?l)0{+^^iGp%}urcWWBd;iD()?mVQ1k|mKl>qdCEua8`
z*4gOUU4E1UTjX$=>KT{E<3L*Du#d=~g(Y?)Iwh)gKmq{H>+BX0?~IC5$q2|?;whI?
zJK|8wbjk{sNw49#^g0C$B&R)2b(@W=<&a2m20N3mVsM*G@B<MSe^;}G)M{;=$!H^K
z7GaWTc5s7ngbu@cq)i@Kdk2|KCLiuCRr;Tz4H>6g%zhf=DjOGHdba)0v%uhoj=%E$
zrT3$we_4^fa&`I0)zzlX_lMpadfcxx^(?rvf$B`4M+x*i7N30W>D$i&M?VhMF3kMk
z@X{O0!QO25o`sW(;iapKz01|%)dNS^-MOVV(hYr2g6W1mO7-54s~a8-JsiqeE%p0;
zSJ$|B_9qqDy0&ax`{!O~O)XhGp+}7m8y7D>Y+34GuI$YIecJEazi{%$ZHsR_wxt_(
zELV509y+c)Sekw8PB-s*ay;FzU#ULuC7tkdRa=<3bxO4isFsdtTDl_If-E80?dCx(
z)pV-KNtY>zQb3Bdw4DM%A=OZX4#Z5IF~8XVgt8Dw$lzCovZ{fpsD$&kJUvPmsgBBc
z0yRudjpO8it-h?5p;i!&q*mM-my$S0h-j9!>XpP%9D!)ZFK<%y1a>p>3s-1>?p1nl
zje-#bs*8?27=B)+H>`EWIzFY^Nqnjmk~j$+F#_#U5@noBu}(0(uYkg7^fIx_Ta0}5
z;E0A0mlsjzY|D$OH$heXOVH=v0UmDRe1VL&aoO9L^;NC<gBgE^;_pcN`_isHgsXMi
zGIe{Ey1nz|S#Mq1%Oh9Le#l+>aj@>u;KRY34e{UAHa?0yjO84NKX-C<&5u$KQ@Jv_
zb8+=eIX7a!3M#7p;H6l~!i9S>T_=>T6DwV(=3O8A>leG8bq+rBzm#^pl=i>0>J6q@
ze}E0w@tIK9vryOk>1;ipso$a0@0dTwjQegS)ctt)Y0XOL<@;ymk1g1<&8<rv?|tp(
zw#O%)?D-D^e?FjezqHbISZO{yKa_3h$+W!utmWkePnL#sP^mlkbh}b_a>4N&C`QN9
z-pAXY2rG?;7F^k2V>;N8t!`Sa<Cj`9Z7(bMUw34|u}XkOpVHWuX*{Gf9?DiXW~#R;
z)mtA2mFn)tvr6^Br-#>U)~2cj7s1#~s6}UnbjM3iZ)aY<th{{rS@jiE{hL5%wz_`t
zz|!lPE&G%$`<|9%4xCdCoC6eJS@mg{YdvE5)Xmj}HL!aM3swX@;9kc?5qU%gmUZ^G
z$LMU6w%loK9Wk~AVOyh}Bg)HD;wVJ_sIHoU#YmE2V__OxN&9Mpam7?O<QJteO+|~v
zV2{xLG&UX6b|~7hdq!q@7zOh<Toj?374KOa_xe1!YsMIXb=n>pg|SFgn)=8PJ8TGB
zHBO^xk!hRad5sN%x1%@;$A~pPX3~1&fk|(PT>pcrqP+neQN_9a8X!bA6zhN{dkEgx
zU_LPf=nF8@ySB}am1IIcUV#4q;W3S>QZO|To)@RvU!0D!4jaxo9KdtPs4-0|3`f6A
zJjYppo;Z^x1a2CD8lK}U1%v}FxlKq+s%(NLYTX5VhMOQ$bKRA42~MMShUB<`x44Be
zLN$^#M&^_UrAwT=P_7R!_jFNw&I`oCfg`!HQn-)N4$zU3t1&^q@45^9b1{U)!a`rl
zn>SJ)%rI=j9eso@XxN4vy+s^I>Yu4n>gu4z6Ab6j_)W(#G(Iy)9GWMUHn+3_b?-&2
zV<?bRHqSt!#y`dCok7$a^j9jo4qGvF+0ki<Y%8;u#vY^%3djWwskoUU<%{n!Egs`M
z8QLy2h-{?l!iF$5%HnFiBKm@fhtM$4mwXjN+7`<6Lk54CpavG2xQf9a3y84eC7qTy
z?!NUO2!E6ToB))eots_7@kL3%#9jcHfVOpGp2{(J;VR&VurvA;oh_R3lK`cog;uy6
zV-^Ras(*wX&a7zI1(ReHPsL!n{Qqr3Z{##0c#YUg8Kfq!n=odctXZi%K^mO%mCVSz
z2}#EhSos2JKoxCj{1qC_1N>1P!(jMkl<mlj_w-7k24DahDQ)bi-Uidj`Ekv(#h3uC
zFsna~V>D7@MHuzQ*yvY!13V=SBj{yTB%RwarJQtF>FWsafEjR%H=}qU19ReFnQ5DO
zjov%5%xGG5%j~6%x-D3rGHDZST4p7S!<UhhNjd)lM_b)5GR;CwWa=!w2_-Wf=qAse
zZ{GjrV*mYjmMWM1?b%S%k1sE|AMZ{#_u`Bx9q3yPhM3ZDO&Ue@l7IjfLEd`F8!jTH
zm#|NyF-jn_hS?>|s8GE!pe)_s2$$#e9w|xrXx21a16wbrR++m--VlmW7P5?`Nebc=
zkO9E#W|_`*uvl;5PrD3zqHs=2*%O87pP>@@a|D>w+*TaQW&Ewn{??NAM9$vqt}|^1
z#D5oRV%CBKao7$O!S8?l{?|V*!(Hw$*V3M8KBzPwTxmX(b~V6GNH=sp>pk_%e>&|t
zo%Wy3hQgW9u4kcLn_36eE1|<*ZXNsvmc-Yd+|KMjqwGJk5;{A7CJU>`$16TQ<Lg#@
z-Pu6H;#DQUFAb1=e&=Zm6!r3oPs_Qw-E7rMyF}4sZ>AJV;nGToek530K{5RkP_cd)
zsvCJ689qn0Jl(0~rnU=8N=kcBtk46iAQ?+qVx{xNk-nGMhpK=Nme;SFjlobRxJ?Oe
zO9ywSeY+7B%w4bI>;08)XU@U-^h4Ib803!(Z&b3w2{9@%Y-mSj8ugzbvf0$VaEhpg
zbyq2!dX5|s*5#wyQra;<c$=X+!pFrD{bNjnDeQ2*qk(F0%e@KnM+SD6SKol-F+fna
z{bk5qST#2=mu3aVgz(qJI6FNe1(G?Y7D)S&l77>=d9%)_JQE+iAtmC8X|%1oZWcr6
z$!Xg0p`~__tbzL4r)#mOzMCh&gPs|uc6b;rmh{)4#hLAq9wzruMKX%M&4xcY4McN9
z)F5&?FMtCEZ=%vr9;4=5kPw2i1FTn4gJGsZDTFU3R8_iRDa@XolE(21l&GLD@Teo4
z2)>^M{zfDd3EE+Ya)y&eE#MOPd6K0_-p<B(zv?3}$ruVe_n3p;JE&8WvDXokiN2_p
zOi)VS!QE{0hApYEo&n;Sv&hH577~sfMF2|^pK0m=0GMeyqBI@JG`+4gy`FZ}XALMO
z<KL<Hcc%M~rjK7+@xPjOy~-qx!~}aa>Q#dTdD1Y+MOXJ}9;Ln1xF}A4YqV)>##Q8{
zfa9z}{a7!5$0A!T+;wiwR^Y^J`vBvjOR&zue;~!eIeQ9T+c!~%1dls*hXXnAj3fFV
z3wh==2q1qz5f^Xk1g~+&Xf#g1f{suaDwRni*w{r0uJ(BgYebyE2?<kaN=!uo7j4w*
zbiU-fu4u@+Zj~616C-r$RZQ<Cn&7*Di|9r3<6;<bY{u+3kquqOQW=9Lh=$R(-fI5r
zxFpvz6VE(8)+EJOnmB5E)5*I{atS;ZjY(oum@zw<A3I<dB92p<X2+sX;Yh;)vI+$a
zV7=)_&meol#g$R&J>-)J8P~|w=!Z_OriYS_<TMZm(L{qbBJ7aLr0m%pCE2ZX=F7x<
zBo)AXoq41)*tpu*t~n<yHy(T<k*j%2Te^MMO3UsiQKe;ndf<Z6av|+%T=lj<;q$g<
z+dI;})>VJ|(#f<xoOWr*oa)pxbcsA$q<0Y%;X@|heH$s8@twRo1+S5tCs08Tb{cCb
zCuC!j*ACjp;0jpEss#5s(a^eU5ce}y`WLp%9y5vYRd)0W9y)G1T#!_RK|Tid($5MZ
ziQ#)j)_I-`bZy?Qt$aBxlxfRIXV4haHVx^?*8V;{rP(Q#o@$+TRu^FnM_9uV*5qt>
z!y0dvHC`ZIeWvc2?%e;hZMpN%Y9N#i)Mf&mN}zKkuyyHeB@oUzY=af^Co;ZH#n(vy
z?0#j-{$<|*c!q5mO#54zcvS<k@ybjDrVd1Fk)A?OA(N=JnDIil31g+^tfgh?32wpi
zjSE1kNdK^-mUWl(7o}G*Wh>?TrMXn3>_|0zxbhV;L=2u)Nz;Q1`N;fQcNy~CkmyW)
zgDOkmcp3$ku7}ZO2_G-yF5$OEbot<2(7TE9<-1k7MCn$I-XpaH?x^>-BzpLB>j(M@
zz*p%%ZPI2*53*a(p&$Is|0{h5C6Nui?kb69mRt#A-7TQa2bb*RK;5*iGThENldZ<n
zlyibN;`v{r9!BFM9A|pwIZIJzioMMR-#h0-d%g}Mrl)#RE~IxFPxHUGfc0*|LH~Xe
z4q|V=kWP|feuBWl36m~CuUK6T=l1B9hDW0!;Kp9LrgWK<_HGSx{7Ly3=Ml<WqINwe
zLjdQ>Q{{Rag<M*0%p~K)D)`@(Z^~OP#z(*0gce<?a+Lm3>Mz~Xk`&~En-=Z;xWF}^
zV@9AG#wXcamY_nKOHh>?EtE(t-GVWCMn4sEew+u`*^CBK6{Y+T;Zz=I;N~h*8`rC}
zbaACBzsjtj-y*o7bkD=u92ACz?8hqzn$FvWz3JHWIQ;fVXEVVW6Y17{2cdPzNpY$`
zPi04KrrU<@`!{s)8qYj9X5eBo1CvXP!N`L7M3t}Kt@8Wz(U_d*W~P&NGJ)32ns37i
z9cCKYW2_RU0O;oxW_JtvwNZaw-!9*^{#8>A<~Q^4+HT6P*Q}XZ0j+^SRSlR{&8LHo
zWQLf=8LnaH`D&F>mB5rk=*+UFid2&dm`~IcV|s~`U<T<PRmoF8N~l)(D-=6O!D$Le
zc~Nasi7B-vUk!6lWncx~6BW?}ndqWQhxvqFsO6-gnhKEW$7~{xiEh9NB^Jx;#j0a8
z28Xk7m1bLhk6N_T!G~H#^`KIT&LY_Ro~pO7ZOgdykW$z<2pv&FMpFzO#VZ9ORB)(j
z+Su4AN&8YQcpWl{_a60b$P&%2Op=KVg5pbq|EfobXvr+rTyeEmH@9ri$x3D;ee4i)
zBLJ)oT%c>kAD*|bhPGuw1HTFl0H-6nmcfHv2Qpn3l&%XnM<=h9Pi@w&s&t?eXZ|g_
zo}A9?xv1cO^Th?vYOwiV+m=peItP``!R5|lA6i%V<IBP0$O)H#y0B6ge%z+ib!Y2Z
zGj%(aI>1e~!P<ornd&a3y6bW1&su)g0>>1b$=5Wml9LS&Brn^#_5F9=dnennCDXD`
zY1y~jGWfKe-SsIgeNQY(%dTu|N2aw;Y3<9oxyrWZoTIV|uc1}KG_U>sI{<>KGi?Wz
zwu8(5gUog3A6IKlCeWn>x-x-oCD8r&^*?*_XK((Oz+mnWS9b_NDCVzrP^lf9_kLX8
zzH}(lu}|sPm#N=>|LpwH`CHlco=p2urTyrKZA$wI*eO}OmeI6VY1#{8rs=@^h3wYu
zC*I7?^UBWi>8<C}z7FQ-!B%10{>-*llx?qk^qR8m8m2$n+@IcaT4_EFM~P4~jd8Dn
z|DnC<z}|FdZ#LAK4(&__b|TC+(Y!ZxFSvgl>do?<8Get#?|Jf?!Vf;Ztne>?7*_c6
z3um((+cF*dm5%*Sol3{cA6k@-V`<EPXj?k8I~~}KkS%b!bI%IDcR9E>yXU3!%NNtT
zFPSS?t5okKe~kRvZOOLuW?QyxvO<_kQuwtQeO&vb`dMIKHc<B|oHBO&I#84K*DO|N
z>id=Y{uO_Jwz)0SyjN-7t3l0Ax2`lFedt*zTdd5s?s{@rY2CNr%Qkgnn&73?|D@;1
zV7lqZf*ZtCx242P6!&r4hCcp*QPJxbuHisVu;A^JjEh%Xe8#m^aczC(>H>Srdo_TE
z_RAs|$BqZg=(vQ)X69rm^AQRWm0fq?RRwb+C*v@B53K7k<iT;sEgTHpzCoV71m!Wm
z#2ZoU9y)*vuRjscg~*S?3tm5|f{!fxb@7T+!KP6X#JDC+qo8)0WK@owX+)$=ia<nx
zK*S_ph+o40l-%OArp%5~hxHwjJX!%9u?`e?!RYlvTob?{F^5U=sRU+GR7)Xh*Hr*4
zQVYiS9bhnD(^1q*Q7JkJP&Gkqj>ku1)0#sK+e(cwX}evq53JdP5zV1i^DWEo*h69K
zDLO7=+tVLo)ijIRrtKNbq9)qVkIQt#Bw&ovSe}iqRQImW^4~~Scc3buBRr!;dPP{H
z$fZ!GZMV|4`^mLuu7Op5gGQ6II~N(kbRxlM@-GkpO<E*?8FSXSRj|%kzwGM>DbAok
zn8P-y4<=ZN6Ambx=qFux-G~ftc5RZ^Zsaw7q2}9D4gw+bKK}yTV19y^o&MCU`P-Io
z+0bl#BoYzeZ7pcdc#*E&?css0uM0cEv&~4--`Zo2dIf1n$scykdasx+y!>oO-cc5t
zX%a`Tyzx3BBV{@`4Lek;gpW<g&<pTw2M7DE2YbC59}*!C_>+>9kit$z1mrwx^g}J1
zqElumt~wY(mOtQ=2?ipnHDKy7+?Sw-_5P55AbJ=@-n-nVPR>`Gt=)D1^lI(C`O`R=
zs|-GJKXfl{TN+pi^v*ke?G3C})@tsgKWLdhM!u@kkG}cvn@jyacxNTJb^gR^ux25-
zaA5x8#}##phn8lSV(DG4rt4o@sQ|wHI-{o|@kV}0jFhs7yo;Anpn2;Hj|b*uXxShc
z%L~)(Nve%qIKR<rDtKm+%FX>4_O?8>J#U4#l;xf)Pi%S8VK4jZV$-Pe1ZVWgcp`iA
zepG__5s+_NW^m{|RCHEIUEGbowIc|AWH}F`iU$4-fFjKNv9QoegS~HO9ko30(>Dj`
zU6?<yJhH$D3&9PE`**h67WTyf%|#AG)w@&rQ&g&2<$nC_Qf+XhHgVRwnx^L-q(i4W
zQ_|rQF3+3!W9Pk}&C=zV5*a<>zWAT)6qvL2dw$(@>b=Ir%J<GJURkR8sO=;9ue;!-
z+5WvVO4q5slL-;}PN2o|Lr;rk_Qr9|zbH1Nzh@xNOhPM`;IMe@5((|RlL3FUFs+-v
zbg7#*g#_#uNyd94np2{gpX{TtX?(^-<S$*3d&5qAgaY4oVU~bu!yYI7kmkrX3wPWg
zj`Ge<;xLTf#}WmN?;L8G=I+~XM0QDkPDPx|YrS9p-KEd$TL#O019?ion48V1izaXc
zWxlw}tyb1OYI@iNu5xDc(cgJ1=5PJcp?}`7IQEkr%ib+Nzq&@V{Bc+RFFKx#Jsn%w
zb@Ex)DfplEd!BRFUJqC{xD~G8mGDWm1uJr#4KKfzAwiSmM08=xwQ#Gn1+juJJ`j*7
zkpR&?_CNwzdYb}TUP-1P@5?}Dxip7BwZVwQ_i5-Xk)4WZ63jl5NW`Rh%JqN(dRtT?
zMwfm{K@S4ej<+U~(!ZknZVE_PNi=<Gx&8+8s0bS>g71i2!Bcj6eMCEcJ49J2I7bP8
z1s?z69tTh3eFLAmTkwgAnzoz+zc3X1Ex9s^xwwY*r9P#8*XNWWcgAwd;;2gZyp-c8
z@=;LxO<#U>jXlUs+1w8Q<Ix<4pC`f^{p4zoS{xPZ^A!|9<#2`We%PHWW4BNYcjVkG
z>fwU5IWLRS=PTCADf-zdtIg4$^He%svt;>>rQ<(!<!tO`&week>aLiV7k1yjv)Fn6
zTT3>|@p#Wq{qV+C+&kAClsDJg=-9qm*^qPKmn^2XTp7h&oX3x{C+24qcm0~19u0UL
z71<D<v(fMNgWB(<t7~+hs~fR6s#hC;iBkj>d79VCSoDmo%F)PLz%LSvZ*<TdYbCjG
zZLwofUhI1K=8~Y)Y)|{QEAAa@ZpyHeeZa==_?l(uYL27dr{aglKMH<$=9h`j*ggBk
zP0mV5xptNt-C+-(TM^S}lvXy}rFzMIp1sO0$`T1od;n>NUO$pZtCbjq62YntNxUxJ
zk^T)mB^uSfJkg7-*ZlHCKb;Nt7JSmE7oJ1Lxj4m5qqp}~fA0vs*Cmmp(rA`gLp}2M
zs$pu^R4@Ltk0NP`p7s)d>xOEu8<Wl*(~d*5&jGMcXY^`szDNY)t6Nw(^v(1zLoeA2
zZ*uQsEQ-O>x4*O(YwC@>qfpa(8K%*zDWr@MRi34ns3<yu*OB0ECJ~~pR<msD4$HNd
z<C}|Gpy^}Z^O%gr@s6&<j>XglBafMEI+063s^4#9(DhS^PPH|$^d`l~@mG77gYkPW
z-F8yYjzDz{YF~XiEd6KP(l##>Jd(3nESAq*oTdH0bA1Ze_gk*&zjD66;oAS!YPVQF
z<q&-Cu_ADCmcdWBj!(GbpKyDBV+(v@KlX`z_b2v4pV$w4V&C=~clE;8R@^OjonQj1
y_iwG07JPvU0f^P=&9U1q#GYII7Eii$*BXakJq@wvooCA|73om;bB-dc-~R{YBpRIn

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_engine.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/p2p_nccl_engine.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7b74cd073aca41c53e70d6249f789220717ae9f4
GIT binary patch
literal 29262
zcmeHwdsJI@e&^Nu2@)V70RqI^;{Eaq{0Ii@_=O!CCliv126KgjECjg{jv*rU%%m-D
z-5Qdd0+URQ+i8tAX~Xn2o^7||OlF#N=Ip61!j<+8vt@U(ZL@p!91?qud$K*d`~Ci|
z?!A(@wv+y~XHS1Nzx#W?AK&li_x=6!)2u8b1uCHajgc3gqo`k?MNpcg;a;<XqUI@@
zq7?yZfd4866vVC^P?E1|Kt;al0X2M;0nMm(K&!y8s(@}(KcFXOb-*xc9552ICSV#h
z515Hr5y%?IBJr~avdPynV1chTU>(gF$RS~Lf!xu&fxJ=MfNj)1U?0sN$RBkKIEbG<
z;2bR&C?IA-pm4Nkpoo}_0oQ2pK(T^SQa*)$k5Dn`>nnW+>V|5-O`8VFe0tjKD<4+U
zS+A+z;XSB<3ZGF)9ir&$*C^WZj*@p4eJhEd75s7pzk#Yrg(vqD4A|#Ua2ne8(u5BT
z*+XN&u<v4cbTBx0&c}d@fgTJG4h057A+V^rf|KyE9(}r>84QMoeN6XQaCqdLN5h%=
zy1S1Z8#&7iGLxL??8Gp5dc%|BKF&NeK@Xk|Grqx5Z<sR%hlT>(W20!cqPYjs?}u=`
z!HH2!yWbZKjWNf4qhrkE$+58jxM|P%!rqZ_Fl7%-FpMu4_J&A$pSYm{oEc(zhh7{E
z27Q6hP_nhKYLpKCD&X(lHfWQhlmf=c2sN!Z2jk>-71PRyvWNO=B}GlE!Wfz;f3o!i
zJAVDbI7@MisDyrrC?YECxU1D_Dy$WP_zi+d`qIjXLg)bnWuPL|qw}Rnx{nQ|#@uPm
zW75)+P}FZL=M@Ty)O;V-97|sS@xSg6Opi_{S=Z7>hw_`GS_`HK%s;92SD#Q*lh8T;
zZ<OR^>Z0md>Se_rs$N!jbbTHzmy6@sd%Wu_-oEZ9yZZWikDV6W4)>+F<&bdQXO8zC
z_xAR69XQs@Wf7+XXAT}beR!akGZO2`Qz!aQa0X)TI(F#9lqUp(dc1Yqi<7{coOku^
zF=pi4NN_OVy)YP<@P#_uRUsx1nvk)9#wl7DJA9#h%CQiq^93)AFk?YZ1rvnR2FA|8
zoaNLb!QnAZH9j`(Q8PIh%aV~Or-z7;0Tbd>sH-868`S6Ln!=;wP2(fu4dFos(rmam
zv2*vX^E-V_fswOK<CEbR$AV240)f#cdIV<R$k~aok8V1D!5dC42WW<>1bsu{F{bH4
zOA}NO|M*J!f>1SI<M<?JldC)fQ<18IztH~#?VqTBzD#XYZ@YZrGo{X|z5L|8T*~U4
zQLUGjU7uQ<y8i0otII>N($*Qvf@)Ro+Ejt>eJ!Oi{o2v5AB|c&Z+q9&$2ZkRO>LrX
z=T+r3;}v5xuZGoc%e2-u2)@;<zUF88tY736&2%R$B?}?eQW3Q@CCXb?D%kQJZz|`F
zbH;_X*DW7gbI~}TJ(s-@TI#uL^?YieY_5NPW7oef;=hF4P~&fOX?t=N?;G}Z8>t^^
zyVPL$z}Thfv8aAzQGsO$!iY+hG~Igw4D*za!tHKAd4}?-d}>;Olbx89#H8_?li^c7
z5RNP`lWJJMvrhYh^ivbQ3E$zcZ<I5H$ujI6p}A}Z*5a_wJ4n-vFBIamyjPz`$LYP^
z;NYmw>*b7I@8}pk5kRxq>wRfrFp%_7!9d|GUN0=qW8uN@$XGB0VKgv4hF;{f{Az!T
zx`*XraII#l1+5zlAqQx`LTy-bzuA|tIbv!@!klyM*p*{zYA4ewgiLFhEO142?;C_D
z5L(6n3$B5pOK7D}MPnPOeHvN=W-WXbQ?OOgI$AMoruDCB2DEf3Z4lgHvo(U74q}(m
zCU7<T^!{8vlT=-bLF;_RVLfcongNp-OH2=ZW#bQPVFT9;m}$#v6c8Jb6Xa}tO$`JG
zZ_WX;h0X<EE1d^=4sG-0lDyQk9sKg>e4ovy!Q~uW?V_2~F5Nb)#8AU(+5z$MX(y!S
zfZ9E*W(7VKge`>9IUf<Kh=g)Mr~=we7emU0KxUM2Stnb^`(TypCG)?JGX}<nV1<J<
z<2<K@<pL-OPXFRqD2zjfGmVciVei=RFsu=r85SNSDZJx@VHhrqFFe5nhs0eL>VP{9
zPKJB!Kqt<_eiEU)VC7Xr4K|S?fE|wViu-#QsRN??dch=pX$b4bg)u|DMSWW-?);Qj
z3=tN0yoe^nUo2@v6*7h`LSh1K29yV`&_qFgf-&VQH_*iN)l(31S{u>Q%JbV`>X^c~
zI}k;S^vO41hlhGg<<o*qTn-@Dd?AkXeT$-@<@`>`MKD4AF*RY50SzNt>S7_h^rbbl
zR@ncibzdT$E+w8m0yeB`NE6ZXCdNWzjl{MkHmi_ta13IQc8ch+wNgWVi8AOV+GW}h
zF<fq>4YZy%jwoo;+sbJpZ4TqwMU)@6u?!V43VjAGoAqtgbZSp!M@*@s3i|8eePT$q
zzgWL;jgXZeS|w8n;|yvojtoe>HZvU1xD8v~!nhO@<!=;B(pRVvq%DpUNV{1IA(;Ga
zf=T+)76@A?*#%Q-ODL$6+O-QIq;E>?iUe0kb%$V<zW&{kSun|$HKooSLP+T=j9)0(
zUcuE5babXlDVbaF`@%8GzI2RoF^0I__zwzh(${}jG7F}Zk|OCvR0<dK<x>&IO!$P5
z9<;PzO!@ld)(C6(q!2`CYhj#Co5QCCzm!$eOy^7ie<p-_H&-yhxD?0vmncCVZ4+{a
z6zYT=A%&*}v-G9yWZl(|;JQ*TxCdVd15&}Ol=c<p&_mL)k+hyj87D6YsYqXl`!&fX
znCSd>9Vw-55!@m4S-~uQ{XWSon1pgFfJ275h%=Vh#JNXo+l4s9CeAiu+bQ?~uS<D%
z3AV?M1x5%deN*~ToQY5$DS&8_9Z62QAf-h*g}{$(-HSp<>6_8I;>?HA;Fgl19^JY$
zwywBhMAXTh`vjy_l93QtVTXejWgb5!UX_WPJ|?6*DSu>Z=tq}2d|8O$|E6G)zH}j!
zUZkrecW@Qyqcm5yWD`sfR%SPlZxwKrnTy~mff7Qp(AxeBqD3^klSF3}fI)bQ`ld99
zQFSm_hbikxpg-M1gkN!=^|_llMF*!JXT~m00tm%XoRK#pnaUYn42Q?P#Ar=Yxd4gr
z{O`yUrNF8yIddvg%oU{CynwYagUB)i4Lnue(10oJ-PPRO>~3f{f1yF(s~h+bduupF
z%~Z!jQ)m=R;~ojQ836T07$4o}?!7oTIv((KxIfp1hsHaanmFsIZxo6>7Vw5frhMLW
zXFq|eKY<9_=-@@~Ss>8Q6CchH0=|$3@(d@>^n1HbKik*MsSfq__e0gRJWjxA=|Nx;
zgIo>)Gg9$5PO)p^2Bf`t{q^_K*Z}uPa3oysMkb)6imrD{JOQzinj~4yj;c_-dusG0
zfdwUYz7tYIh$SWdNeGfuFZ?2Kt}l)S=#Hw!*5P{hmQq3t&jALPGER*pVsMRPn$WJL
zeHTWCd<^mkoEl>?*=SUa1jC#Tx`K4R@o9u>dKqSn;S64pm(lRPrj){Sc0@CWnX%Ed
z&gZhyD#V#n8-P>$L(sY!dSY}OFdImX)4?!9q?Xgc&>#kF2s#aMpi?K#^!J|PvY0V|
zXBcnNS$%dSNORhgV}SsGMA~uwt7m-Y0Lnp^lP8WHJKP7HKQz`LJrX>}86XdO1X*@2
zi!^QsxOSg+=t9y8nDGQ}Wqd;y0FzDns&O`PS|0P|Ov$JS0CT2fNMg|p2gU}&oU^C*
zVAq*r{a(b-PM$b%%!|00_s{_bxeQK?!<0eNg)>T}V36laI*@VzmOu)gbQ=s!28RHO
z;0FcoqY1%q1qfOyEmus;I8%Hfz?fmAk9kGtBg7Sx=nwVQVB3Z`%@E+(ArbY)A;)FI
z$VeH2oIS<j6~`mfhqcHHU>5|v!()s$nOBIjdU;ob(fQ(=z2nd;f=!JU25Be;Hx5r0
zrw;i7!~Dp_k<8#;%-|NxAoYvw$b=c(yqNu{J%NrUAHOtshlbAqp2%Amr20bG_=pOM
zioi37`QXg;dZ+T!=5wRqeiS3`frbAvwP~ds#WU)wri85&K88eLC44OF`9<@Axxmty
z<@WdX-`XFo?Tl9JiRJIbkn6V6C3DQyfWiNZ#j)-ve&gcIlk1k;+4lL)xz2cAHJeu*
zv(zltv6k&K>V(NM+w$wX*K=Lb;-*+`bJX0NC@6!-*$I0Ae2kk~s<h&Ia4{GyZdiV5
zIsD$#t*PZew5W4Ny{30=>M5I(Pq&@TYhM|-lN-zHnbAY!`RC@Ii`#dw_8lvcJEvmy
zCufWaQ{F7|>-!c4mRnbg8xmy|Gd*kOl7zc_rsuA?c%#g-+<l{DrIsz*Lp(N|uIr{n
zQ{1_mb?&}hcPAWk9-BFwusEX@_eSN8MC;z$;b=?Gry5mh?yPCkNI7=@rR@iW-!Hs#
zG`9O>bk|eSr%pv}rvcf_L1fcWwy9Lu-3fQi!sMn(VXwWXQaN%rDOFA`RHJg+&3!la
zMax@P%2p1qbVl9#u?)o@I|}DtnS14pX=n>`qPXn(^NY{Ni<{Zv=0DB*Ug38OW5s*0
zAqo?Eb6j7@>I>ugQdVEORK0AAdv>#)-O+6wQFrH>e$U7G1@rzn{~G~F$ppc#nXZ`P
zdKasAE%e8Wo7mzeK1B>#T+QbZD{dvJuRqq|<0AL<j>V36Q9WB!A1i7ky|XUo2q6<@
z>$Rg-j>gRmthpg!EnlnLb5Etr%D$&kyNpr2^S+U?SFIP7L`$1iYS_}<v7(OqDy7{B
zB{yuEslt-$MT<r8f)2Kz<96pqrdUBg_+-OSy0-7izJ)WZrt*!QyJvcS^Td5UwY}p{
z4$bsjJ&~~FU3>M)t4l?zmiqO|hInN=TiKo{D!smcasNs?Bwv*~t6sB~!FbED$E{_o
zwJdI}VXZZ5Ru8z<;efUz4)kEfYQ=9=4LBPU{AZ)c#aFwk7A8jLt<HE|FI(3et2&6z
z<r`&HH;Zl*#mf$`Wd{=G(xp78bU9RNO<w{9Evt>Yn^|{rBF_=et7G%(R(haRWyHT2
zN?^!}>x)@^aa>=)>MPdtRU0lh#w|#g@)ychO+`!UxVx2gx2~LBb?;htd-&vTtAAkl
zzTu<FHTMZJprGyJ=3>@d95+|6=883Q)yMj591ELDWmX&Hla+Jr@Rh^ZMJKMD5JMA#
zi#5B5p@fBL10njZ^bvbCYpy1Sa@Jh_ONZHD<gr~uG=@?MON8tQ*awpW!9K-h<q--1
z6NF5_D^p!i%qo~a0>9KWl7Zw7^->sL-0m}!z>wg<q1*viN^B8clahc^Al;Cm1QrF4
z<oqHOC<Ou-QjrdcAiybC*9gJ<NlVCJ(-$bFHH=3{MEMa_&ro<c2`S6OeFs|{6qZpw
zL_|T*WaVijw?#0BkA=Elgl8l-f#IA6G(Ids0TGoP8zi(mtp>174J{=?BvN{h0pQd^
z8p0PK91*IJgU<YQQrdzEY9~Spf|~?AY=;)2HPf1~2&F-Ik?EHY|B&_)8F(ocz?v$6
zmXm!ktp(u&_$Q5@OWFvW7eIP4J;;xZ$Mio!vN9tSMup~`BpXLW7SeKsI8qTs6F(jv
zRu*BbR8TEcNb#~#K|KpCr=YH$<qu)ExVQ1{9(^Cv3wcZ+(6V`b?l+L^a{Dd<@dW%q
z`Y9D*0SH+JCQjAY`wVa^s-aPuGfV_WfZ79EkFa~6;L<RG?Y(*ZJKsj~9)%MQ1BG)6
z_yG6miJ>7l^s0wrSjh1TG9t$((FZw(0tVS`=4+@8qV@u4oVKU8>lo1AIdFb~^x@bz
z5m!KhT7S5wx3B+j|Fg_jFeH-h$SN|IFtSL>F{jYef@L}63!fpyJxp_&vy)+8h|>e#
z;bY*080kHr=yju^bK`?U=b5i!BFM5ZLDZf?trE39(0Eyk)T()O%&(y@uCb656qLC}
zj41HIAPUE+Ndw}Vo1_7G3NU*JsCPIJOqPDil}-ny`~C!Chu%~mHJGpzM=hSH-UE8V
zRIp^bS$Lyx)l>&N*8HBiJv?dmozTsx8&k2o)|no0NBB<L%{@2vtk~i$U2IF&ni+OK
zE1m%^>{x1ymbF9+TGz~N2~WdJ&$T00j?BJ_yNRWkPoK5aty}ZwO>;nl9!S{A6F~1B
znLBb{rv|dgNI8LexjwKsu$;{n?~FQjMy)%MY%?qx;?5S<*%EWM0m)Y6es^N!+4%ND
z?Dj*krYG6F!=!Y$(Y<+YespehsVA22Su@vuoRdFaI9C|YDQ9!am)dW3-srrW)0A*H
zXVvR=&vIqF_6fH3iM#f$L`~hz$s3dLnl84c>rUC7XQL<kV>M@HdmgB$`~!-O#@3ad
z<>zPB<ivR&YpoS4aR_P<w^g#XO1?Jt4Vs+X2PP`FdDBT*ZP%u*Of59B77vgR9k)7G
zf<Qq;Exl2F?*lug9JP0S{y+nvqd85Vhj4uS*x)==uljLW$sxDq$NM|M{GnTO$Yc1h
zN{8lp&7ti&22U9n4`@Tlr2vc+h1(q2j{hAXu&^DgF7KCL5O8TEn}^IsoZPr%7ZSNm
zTG%+YE=H3I=}ZrnEmcJMu2Nhu@jOdrQ>Rq~b<F`^6RA_077@1%vbD*@SCjZhA->F}
zPwFkZtjcZnQf|;%vgv)<_JCAmwgbL5{Njm_RAr%UVT+X^5d>ev+ov@V4Wur!*`M!$
zp|UG1qIt6DtOmCg`S{RpvRLRlTE3hpIhDEjO~MJF-!0WcFhw*7(8}jS%6V5J8z2-;
zhYTf<3$zZyhX}bTol1pqN)Ywv*g`6BRx6u}EU}>#W9cHgNA{NPvAv~_P!|=lEu^1<
zo*q(qtwK#wdQK!{1V2Ee_0T_j-?=4M!4!dfWC=LjL_m>o?Iy-F?Xmr&xO$hYA2K~8
ztRD}lpJobxj4x3?L$ZEKInqtOcHk;kr-!-9%$X?@w5*YwV<p!Zxz#O`Fq%}z6HJeD
z_n7+nJt}@p$L*gi?3@bVUFHZ_Ctd{YzkYlEIRJUTDuQ8zqDtBj;UXw4pv>n8F~GRP
zAb`nZTyFFRdlGYXlaQhFBjau)Slr<;Af`m%_aLFdCccJQzV#-_@^nh5M`xdcsgX<o
z;YAoPvy@4UdE$A<Wb^u)fA%GF3B5Qt4%L;)T<=cLcpIY1RaKr(Xvo0hWJck`yaF1h
z1(~Oj;YnVmi9nb<o{r!o6To12IKgQL$H$@4%z3n!eF5Jnk#R*FQ3GJQFTi{Q!y<*q
z>0TaWf(ZQ~iN;(;Csn`~WG2w04k9G19svrGfx`z1C40|KoZ~d44juzf@`;;ylK6w*
zfXt?}8fQ&!Nst1|N^{|I)2!sEAY_0HGr&R~`{h%fDoCdj3AD<4{SSy4x&pKTK!#?@
zTo^T#B>+XqsfguNBpTX)46@8wmJC1!C9Jl%wVbt<$E_aL>RGeaAu&@4xP#64vBj0h
zFI~yLa{+)4D*zt=ivgi1U^+-<?wi}UR2j>wiJEIRl5o#+tEO#IW>y<!6}MKi*6OA3
znzjB>8A7hvx$&&hSXODG&>b&qU<(^!g-t8f->d&_{hu_lg-^^JO;`#MAKMA!<*H>T
zQgI+Oh(O*E#fGgIa8W|eHL|wGByoCp?(lt!9*EOi%31uNfXa49vr0D$DS&ly%h}xW
zrRUh(=9Tt%+i|w-_-gL)bw}YsJEBlAN8R$^s-r1tZHhXY)+=h>RWJ9y=e^~PZQC2G
z*cY_|bXa-Qa>EjLx3TWFXnRl0-8-ALVJnN<F#njXd1Y_B?I7EBFxK`YYkLxb#|o$;
z;#uxht2<h`gSGCsYjtBS%yVX}#X+bA(9~i@c)GM2scfuBjsYr?BVYDd?(xlPs<s)Z
zc0h_24htBNYt`&pGO^~myJpwAITs0i$SG&fhP5PNEl6045`6a1GxLTy1L+_)3$??c
zfrh2_c*R~8{#*CnQL)zU`+3H!><7IHXv)n21<=S3x|G70`TT)RGD3GILwp`;g&}#Z
z_DGBBho&7z_NqR}?{XhCsD8A+yBR(oHFxcT&re!3M>=#r*{eCK)&10<Ihv~*O0wq=
znF2B;NgeOwsbg6RmsTMC7_!11LL#MW{OK@&Sk+-MWjQeGon$nS=axNlB@`dRJ4qTU
zHJ1wt#v>m~PKI5`33l>_r>D4zDaz!<0|V1|10xMaxTOC2g%k-oby%dO1%QKTj;No9
zHkj5-Yl-xj3{)XYQ)?pH2tpe&bg%$x0HmZw`W`3<5h9aXD58E8bp^hNXJja$m2gK-
z(pN?y2<G+0dNZP$f>_h~6pBm)%7oN_ZU8<9`a%y<Zjc+)6pw>4)H~pV3VID|s=Tb2
z<oPi-aZb}<JRmnzk>*G&5mEB-p>!M(D+LKTSt>U|e4mGPe%d%~qJamXwE*auBL+Wi
zNf}C_t>r+sh*_YHg)fxJAScBp^u=^mN{WpcnSnKuC8Pu;GSfQjR$6}^PSF_GV|u_q
zdLS7`7*!}+5N;Oo@#BJ$q5PsGjpP9>hlh6=N+=o5<FE)0`gdgn11pr=h$Rn85-(yI
zz|Vw!!kmJ<WM;*?W{GFcoTm^&h9`&^FR3FYI%^7M?L*41=1a<tzf3xIR(bUyl<d{r
zN$4-Tk6D5wc=~iNn1GJ^)8~L<{pu+=dUhX#<8(q*CW)94IOzv^jh<kL#5o-Mw+)X<
z1l%Y81S<)16q4~Mncu>6ar|*A5HIG*QLH4%0ZHJ8<-n7%zA)U;pqY0u0S%2eo^C0b
zKgTo?f%^oIFUnKGA787(Bcr|)>QMdi;0PQ?kAy~oa55bn0%|Wj0dg7)%CT@JI2?!b
zXd;Ktqj{IXnfZOx{s1*x3z(az5mJy~k-vjh0w*q@X%V%rf(Bv@&`z8N(+o){A*bap
zQZX-K7>#dqJUq$iKtN$I9A-S(DdZyZ32?NI2k2f>4di?|HOgP`wIvOp7h0To3%r?c
zqecq%Hip)X0+b5(%0jqyi<BZU@W>)B9UxCGl7o8Qs~s9O1baA=i^fzEZ;8Gcyb-)@
zidA>77ZhJFSS)y}Xy%AS-Q|}qg>PQEaf!{}LCCIZ)>a+2)v>m^HCqFaI}SJRznZ^e
z1LBu1mM#~t1#Pq12Rft@jFdG$YAIXKD_$7>j&CimKH+JC6lQxCs+R0{xccnkv+?3q
zwzzer{kHv%=1%y-SKfamR(yK)AYgO0!kOcncFJA==-sNVa#<VS*2!+`1nTUL_Cxdg
z<`1&jZGEh*@2;(K(?&wy&!JrI>$?|szty>1$QHHD>XY<i!giWai$Hd{7Q%BU1aixy
z1#&B!&q<r4qw^da0@lg`){4h>r7WBtX0Mr>HsDZGzzg9l9S*$*<_4CsS$oqJAfIRG
z4To!aH-F9!2fl_YhBs^G8|E68)Un*EHGTC)ZvMPy&htjyjBeeMe{K58^ujYSOBH`A
zues7mjunxF!*f3C{zQ_1v(28FGXZRwl?}u`knLHy*9NW(#Is7+tdfOrytIieZMvJ)
zylyYVGk75DW}lhM`pz@&o>}R+?fCBTSk-}#+W)rmZ#sd>&(EGY2#9HR3-pa43rjd#
zxu9KAFTHd_k7#QLTidaw@7%E1XR;ogS3oDSITfEjcphlMmS|S<=ONrH-=}sS(W>6x
zWdZ%8%AH5@R6o&bj#za+$<rKh>C!F~iX>e>Y|QgO;e~O269o$&jL1y&D8Now)TbXp
zNJSK|6)Uc`LCP|u)T4+qvc)Rla)C)Gj~qBDU13B5h$d%vNpZw~ggn0>ffddZ@_;nR
zRYIX&!WT}&M6ycmvVj}{1^LUsBtnX~4btjqZCE^4gzzq*9MU&6{6lJlTylm2!UTv$
zaTC;KZi1I|5iL1sb7w>ZD*&f5gp)vm?12#BN+FgU(Sw&4<W3_Woi3DC++Z_HJF5zo
ziM^{sW&_xXyWpZnQeavSWBAd%Qzw*H`a&7&C7WPMZEfiyiY$z#rVW_8M9N5IfRYgc
zCWT0m842&2#Qrg4))-1BH(x}NW}&>;TeSJy7a(dM)u&hwGT(Fr+?6Bgbe9ZpMMs?^
zkK|fT>^&f1f#A$k!uSE--I;zs&Ly1)EN_I`cWez4F(!d<9D*5&0O7+BZ(oK7Sp8jF
z-695|r>9L36O`$ITo`}PR@Y(Gv>|2uAKDs%&Vq6vt&yP~GyZ}6lvtdgov?E9t&l~)
zU?iQ0g4~V>X6Z}VWn^NGNp6BEqQ@o#Kk<5l-~+CDp=AhzB$KiqiNXve^xsy<cUBSX
z7U!-tId?0hxeKK@m5~@&N$Dwn|5hLWGh5w&aTFN>yxR2jemV#GRHpaB&kC{S`&_8I
z|2ZL?^rds@JYh!DwzpNV<6!&Blu>M7BwI67YWoJ^&LgcJQEUYhAl)xK|5J9z7cw#f
zt8^fjwn{+GIP2*ga`eYQer}n#kK73|R*gZK_^@jDhh*FzxihA$GxXND(k>BnJZ2u|
z152wG)>s8KtG;?+3)`l;`m6E>5Lcb@?!f5%t>7cA__8#?lUqw)NinC%y!yhuOJ}F{
z8%;fS^}$PN|BBT|YS(8esAHY*oIqxaUHy(w`*g{dS;f`ocps0Wk7r1K6Y5U{GML+F
zng#8PN~z2s>nlpB@O(4!w}eOKnYHhM^&XP0%@eqIr!&+2gypPvpO^@{PYk<JteObV
zCxu{0@+c%iSZrhf;p~MZ)-r+6#Um5r-}R75iE!hD`Gz|RcsIO}!R-i+ss0Q;DMd$X
zvL(KC^9-DKjDrM?4=xY@o9-LA;G^A1F4K)N_Jl`I7S_|osp%0Aw;6^cP#iiCU~q!r
z4R;V<ADsw<N5+A_<+<h`V79orayC(7h!@)@ayZOyqyNLiZJ2MNFY@7de_&{g_N9pT
zd<FgPpoUyG^FC@n1dYokM<P-={tA60e*ZFBzkym9G|tS++b016f;b=#P7ndk3Y~Xi
zm~U-zD<K7TaJ)Ep!3Tood~*q>WgrjryBPgEY7?j-Y0MxJ!s!^_cwi9li98Y&iYXql
zK{Q;bnFS1|gq|A*gU8Gx2d|<J&L`%tQF|LT6f)v50fG*Yfr(fG^GB%t2(*wHv{ZP2
ze;44J;5t>7eug9?IM2Ya4xLdGfuro)b(?d+#*6!U*aA<ipe|;spXmi@-ngZVwUjN}
zSxaNW>fETVjaTntt9Qk#53$vUV%2aQQ8ClEaA-ZRaDMOH-X%vY&jUg~mb}^CE3Yj0
zRxK3?;LQ&&9*(;@SXakiZogx@bDr%w73(}5bM?;}kb4DYI&QCK?QoKG^OYN~+_kqQ
zid?fj>je$VbiA>LZS1*Q(3_}hdT;lw-Mp-C!d1L5xm*c?z4e6)YT#@O4=UgkYtIvk
zJGR^Pvpp!fwD4-Yw4E(&kCpCVZ9CU(h4V+}jwYP&-xYUmW1ZU)&g!_cfps>-oK4^e
zoVGpxfrZL%XYFlpkd&K0>zgZD(!_GApbASxtgB(xu&FH1$zLxhxn8(f7%!-03qS-p
zUf0Rib>1!5vtCw>lE)a@v3PvF-1BbLif!fGcZ*}?`x6y4DCGq5RON*WS}gHi;OY_N
z;K7yctZn<st9QcD9mm#e#}gpK3_@SaeewD(w!SM?-_4fw%pCy)1*DnCk<kLZba1(6
zrRCO>D|CFvL3YQ%HQS*?`L=lZcD8(btbFI~>L1j9zy2>8+43i6k0u;NaYqg7!0P~x
z?YGtOU8mSxr&b-OHbCfqa&a<Vx}7cEzA_vu-MgSplvgin-!tDbuMB@L@ZCVPtb0Mb
z?ku^Uy@&^L#k)ZuI_|1xUG)i9ZQRwux>{ncHmEfG|7Di0pb$>v3W}kLSDo9IkFw64
zcb(e+*2yo7+iPO>nncS^=${jFCzcMA!#ohuYG&a`tzga8nF2O7u(pOZTN40E`P*1~
z4d52C{Q+1^GFgC?yo+95o_?j^c2BIhYxZEmQ5<!6HYzF;RdqL?zw!Kf)wbpQ_guGJ
zv8o;Ms(ozLzS|c+%8gYW`&6fP!$^WI*|BFqeciHXSvIiFRx(zaStk_luCsH)UA6Sm
z!W0a+0w~p{i=6oJhpa8EwPj`Bk9K~z_x-)mr_RK>pN_UZvu6FuMxJ9qGuOFPwwhP*
z#X9xo;TwmS>G#gxIv=a-xZQK7<@-<Gq2mXiW)D7n*Y?cEaHa<bqY3D1BBMv-^FAF@
zQkJ|2`8W&Mf?kwc%Wsd`+dhBbhGE7Q?D=2!Tj7v&erj$i?r3Elt)Ef)ocxr=&KP{f
zWwQryzVyxYC7dT8HeVj#eA(1NN_aS!zb$I7`TRjP-(8=F{IClBaG&#(295+vp4z4P
zpuNihmLFGoPL)u9owf5+j_N~oPYGCl+Su8jqxz3oT|4`WRqQU!DW!qktB0_w8qKL}
z-D-~JRFQ5qUk^c7OS<a&vsG(Z3e<Bn{e`-<VoiUIE=~Ad1zF?Yy*~yGh2Q<SgJ&pO
zA&}uTe-;D6>Oj;eGlGE?z$HgGc`hU|k@8_9$|TbxlMa8X<JWD?0baXGmJrWEZmIe>
zMFrX7J!+6h7!QnunQ4f{sqm!_6;KklR1)Hh*R+INSs|=8><Iiu@ONOz+z4d$r6}Zm
zuMfh4<f*-6-aF@AIvoQc%re$qk9T?OcrL%6h5x4g>wBO0i!(DladRVUZd{&X%^l=I
zOf9RgUG8A@JK}oKJ8tj3tM4T@6aIhd7v?`f8^KdiKZ6hOGN7%a_H)$!Gid3JzXmQ-
zRq4C%L+FXWgAQOeFqu}+(r{Fy;K@)v31JXNg<%IynJUT2$_%<tjeLwp;jM&skV{K(
z6;qS(ksH(kw@y%7nK&W544qjKus;f~-OBkx8m6s@TuPZxSHHD|yC~v$h+7JHz)X@Z
zV*WiO#OdHYuz+tk%oBOP2TpMG^=t59{t&bfRz#Rz7r{K`Oz&bsnUXt|>(FB%1e0J|
zW#>v~D{!l->03=Hi?4L70=J}^-fG%#6wP0nyA*dcvW~`>qj^>hyZ8L1*Ds~S5q3uq
zXRd@j3+@uZ(ZNFdn%TW+fvw>0b1I^M--mJ```>Ci;8MM>?4scFLzm`2RXS2Hjxby#
zVX>6$6JGd&S@>ed@ubIru*_7+QHnWcC<e!sOpHg51&AY;7L3wNr1OiFJE9<B1j?{c
zD4risuuKK_f0VQ;DMBEF{YzNDBrN7z#@@js|Elg|jzH2A$3fe?{;ivMM$2Cs|LWl|
z$o`F;ck_p_C<ln=pKiGI3c`XuA{+=0hryL%^n#1`<TO$g6lDGsQuOG_Nh<SwFlUT#
zp25P|Nw^DO9LebZ03Ch|TG}$kWntFj!Ywj0Q$^{cJ<anUaKQg6qyPgxMP^L?fU$6X
z?Desf0WD1e80%wii~)h1TM3srov!)Gxyd(PSsGv+O>n<el5^U&VRbIF&smb<O}`}P
zWLcEi^N-2FkL$up+X0X2haSy=RvnqYY5NfdAdBnkpc6U)95NM1fWXx<xrGXbpUkob
z)It&Xi1dP#o_s3O&JX@F!x=8o$>t-U8p35nwn;DLE0`W0gTV6YX$@X&^NWLDh==gM
z+_9MSN*DNBrO<*&sF`0p_!4|j7Kc`gFsJ5iIHH0JZFb3DFohk0N$!{nj&oqlp%T8Z
zb*UbCi4G*hlW&Eb54-rdu;s`dZt0-i-9iZIE8mKE5GLPBj{)SB{wgVL!Gx0&6)rNg
z9%Y_Et{nk@3?+nnC)wLTJ>n6mOgqB+Zc0C*2N?=N*Je0@RcOtKhBkbm!x-7?d$f_j
zzBn6Nw&o!}(uAC$CMJ)$?;sD#{S>0}D3@B2LP>$T{s#Of5Klo!?KDb73((w2pN|pn
zIUeL`N`vX#cv+2LUm^|&(l7#M$3sR0zT+jihYuaV3v{7zc$^U>otZ;eG6Fo}V%`ro
z-3W?9@SNX4KZ4jGzQs$C6W|G<A|776izY;bBmorWuh3cy8i<+TGa1ZR(Bbz{`vcUX
zsKrskBN755@oPPj`>^hdv<jcMoP3F1s6q$_4)6;^@k|3!JX4PJWu6c<D2ja_m-tc8
z$Pynnm9VCgsHr-U=Y$oXw}NPi|AwD6HA@l{a9<h)Y1ho{8#(s*qPe0OtsqcQ$qNGm
zwj_yFB!jc|_M~tHqz*zRC5t5qd(r&!bI-5aoeTNbU5l=my*h4hWbKX17jNgr?0Y^n
zXoxtoIVt0iA%y{Q&AaDzztIWL7Qh1qVYtejvYkAs*bwAmiGXYcYpnnS`A?*HL7Fyh
zMc0_Miibzu$p$gs+YZ+H1OQ_w4jr?W5gFRee9Bg^!ApXmoCRK!TdKTSccU)mY+O;V
zy!2iD?aFw^5w_#Vn*L~-fHjJpRI=vErT&{Q+;{<-%#ugg0?s-N&q;({^wIeA1>DLE
zrOD7@N0PmagWkct3|?&h3$hm|!2~1$93-h|1=6Dt{xwAYUJ}?d)dje0di5bM6(vcy
z%qU=&-SJ>Y5mtF}=qt0o$;MMj@dz`LT;Ec&eSADxiT{NBK^_p+QC?lrZk3ybI=>mw
z63JQJw0;`z=g1IuvXZkpY1O*==W6Qee}MO`#XV10qv1$ptD7-mxTpxh#a`HXje=<y
zu7__S8@)-gQ8oBFbg)sFvwe7NV#F76zdXjA_c0Bj5!&ZY-Zuqu5k`r7Y?wT71ou5c
zc=sgiMlMuLKp0f+bH1Ptg#d%+fT}zXCmW4MG0-XUnrNs)binK%nzma^lkh<=!o$mB
z6OcFDF2R@3>(f#pa(r0EZMeul?oFY=3s?w99+%o7v^1eKUeeLim=?bu2x2imi0TV9
zVM63lCsM@GiBK4b<iHrIn0pY&=dc@|5V`;@MY~6W?!mP5;JwuVlGWiC;mXda4<2%+
z-P?$T_&}QuLhKRvjs<-wWnnlNT74cPxz56$A&_GM#BF%60A?e_{3UASR6;$>z}|!i
zg2%+K+5a8P@G#UE+!r1lAAuKw1A~)3CdB+bx*Lgwyduo+BxGax5qc@SDQiQr6;oW2
zZ5YDQFAN*_lGUCwlQ))<3(Hht`m&$u=K@kUgiyz2>Rt&|R5x?vXC+Ou#)PYSIS-Iv
zfP!4RXAOxw*OD5qPORoN!I~Y1Q-p##ggr}dl*Y^2*|PSPXYZ(EWxWepf+}{f&W^Zq
zAM4zAd+MY1wItTK#T7u{!g_eR!&$ym{chD=M>C+gi^c`@!r)R4q=U;Vg40XkyUzMg
z^Qh8h5K%0uyI)9Edw%Z>zH_1#OdFQcRZGoMd(^Xg)zfvmKWgcU>bo8kL;BHzy3fgp
z${%&vyUTPRlxezaO=(~Z()47F{oni=E6XbTF+_$6s|5!+3jZBQ4HdA>3OR;1CAJ)G
zE_?qqWz`c`F}byiyxxn)NEu3s4`mY9Eh!MJSCrfxfQ%<NWZ!3%qvRQ2se=mgmTsYx
zi(rDhWXecuKs-VTkeEX5=4@D`>HTgY9qB7c=nJh6`$L7`@2?b0(ih&=P4*K!z|aA2
z-%l0d!%}V{>6`iL8hL(!Q=H@!JsuUOMqy{>IY^7pa-ZM`@#HaILx(}sUO;UQwbxO5
z12sbRAsNWv4#K>N+5l=hK;yDULSB4Qje)ns;mtKZ@eD!|d4GV913urlz~mER@NIBU
zWAYhf+NW~UCqGthKTdi)0ta#rBw!;~B5_MOYbl3!20CtZ#0b%b?;(}2`jWRp*CUIO
z<^FiXUbbQHnttCpJa=QhVvgEd@Df%x+t$6N@4@$wz;X7%0v#`DW=oo*#Vt{L>zcl8
z1HiA&#m;!q_SK^8bKSS`Kq>BOfI~NUJSbjN#}?JW84V%tjDT?A%LZFs6<7yHeAwWn
ztH(Dr5Qrz7RCFjjgmYI=xDt|itc3ajt)%n|J}F-qb162#h#XC*><IiWhP*$#T8xk0
z2*FdnFf+v8A%TZ@)R&DCD1|+YYFeE#*X3v>10OC`mqc%pw3*BrAqQinaql^)De`8a
zOv0##TFI;fLZ}om#{8{mL0sonS21O{C!Hdos(zG!s&uzK6XJvWMdFN?@)F92=PFxh
zs=_1;tm>O;AX_}XBm&ga=qLy>3=P5=J-!afKhr_3<06p-`@Vas7;m-$N(aQpNN^lY
zL=*&rgSW@Zvt|}3M~dXb9kiYTjniXBr|}{yb||MuhSNJ9W_Sh<mpaZ!9zG-j9z3gv
z-O8Ep!NBBiy1;vZz>y(!1=n9a8lHyuHiY8&zR%Hg2ec3leX{ZM3?8l$nUfu<hT||9
z?)?-zakAS{NFBCv(+$(Ar4HUsGZ+)uows{_aP<2}Z|~it6o(bHiQ4A(8g4Z#m%<}!
zSsn1mn!y-_uyB_&cV^$Zy&`6>nmL#*w0_}k7QSDFGdFI=$F0__MGFV7pIAH*b2Y@Q
zAYedPtv9mQt?szBj<wb;AAIlFtz$9k?u0cDc(HY>YvF1B6}6bP`F@rTE-Zprdkq{p
z8!Y_8Y<Kmp2YKKW&8q(V9^$v}S9k5`-mdy!yQX`e4$jb+p?_Nqpjpz?zpVyWldA#q
zFVHYwYzChK?u5)>=6^#RY4S4v2d#gO8qQjV0>Xh&fVOp(s?qBX1j?MHhyrEKQl#X+
z2D6j_hLK`aprw(g;KOfg2{1hDBu9=sl@>|Z)I?Gh5=pA$=?_8za+{J2!JC$%4D<eV
z1O;W>A6+^;Pw^=Ea}#LF*PwXt;Op2(kjK9!!Or{&XdVSw3`5XBRFcop3<btQzNx%)
z8izRIkzVKw1ch}Ei5dRwzj9VzzNW8CJ;)${7XP9jKEJnSM&G!}#hP4ExEe3L_lLfB
z&6U7}m_3990rG1f77lx;kNE}YaHiOS7EcjVi#~Oz)uVPAH63aMCj1RF{SInGgsvG(
zocb(2^!mr>_#tZFL=DkDW(~EAsQm+K)u{a*YRG5u%;#rl`c>3$BjC|S1CFN_w6>yF
zfm*wu9RWjV212}sm&gi=Kr{<vnLf>$R%nbHHpiw04S4&#Y*R;!dMYn}(?E<yD!*XU
zM2uz%?%(&!`8P>KxO`>IzGp$7PhVA)Y7Q!vPp`D!8n{QHdGm;Zs;>Ria7dxCZ9rlg
zG+-9|b$T7K>Zt<P0=;P5B*CC)kf4e9d_{?|b$c}VBr<#<ZZa^s!WLz;TytG<-7|pg
zvxwq(g(i11qEwS&+@tWjX-0h|kGFkh)@#Z>vzay7o33h&ZDDkig3pTj9)31YD#|nm
z6bX05Quhu0rV1?^hU}TpY}=KK3zb(cEve9Bx&4L(ek6%CG~d%;kk1Y(%$mYaT{)WK
zCHqa+4c8_G#+B}S`1!P2*7<(5MpMOi684X$nt2{RoDP4{3g~qPc_(HBHA4KGhVb#?
zA@W;7$#;MO8^TAB@z-K-rgJ8wJ;=}2`9cg*3h-3*BzZ9xr#cTylacoV`Z@47tr{T>
zc!j$W_zwZoAp@3cC%!4ac-6>135|e;NK%F1XRVO@@xIL9V;&57FPdLP$zo~3YzYa}
zy(PJn95Hth=W4vr(m38a-pEs7UU;$_eiM(p+RY#Vz&S}u6XB6Ss4?gZBN^u<HvWa`
z{1k6OaV0&Ge&Y;)f*d117{<?3!jgrskYs*VqKV8iGGWpu5vSk7|Jc($CLbmcu16uH
z(12i4DDLSgh52Vx_RlE8&nWB9DAUiW;-6DhKc~umPUZgs-ND!R->CKnO07cqOA57Y
zC1_eoQU7zQWy4T7<A@sySwrE%u9%_nvUa1WI7&HTtShaX%0fl$Qs^@ZKKE3D!)6Di
gG(AwN6a_%hDGJa7o+Aa*19MQXsQQdToeZ!43uauH_W%F@

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/tensor_memory_pool.cpython-312.pyc b/distributed/kv_transfer/kv_connector/v1/p2p/__pycache__/tensor_memory_pool.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..03e4652b9a30b0952127d3784beee3c700cfa257
GIT binary patch
literal 11585
zcmb7KU2GdycAg<QBt=prEs^@SG`6JJv}Gys&)QZT+p;Yu_O9i`vb|X)DNA!k5^0KL
zW`?%KP>GSc0F}D6v?waMi^4Mc5E}^)2Q3ioL$N`z1r{h!Xha2MXWc@(o1zH%!i`dF
zk-qetJ2NCjkL2cpymM#n|Gnpa=R0TSpKEI!6oi=N&muKl6!km2(F3C;)^9^%p5iEu
zj!~oPl^&(Zy=l}0S5wS9X&JT9Y92Gnz%z5qI%ylV(UgheZM^+sT5WB#hPRlgS18VM
zhvJxzP3qH+)eAN1sDbj3YlU2!o;&KCq67A?vCMFQR%*DA6bi>eq6jz6NIW71V~O!`
zUI=Tgkc(NnS>FkXd5WiS#G|Gw6mRA&9DNL)l9UNkQ|5q0abDmj6T;M~SR#B~v51j0
zuUJAHCkzJ|#U2dCLz8?ks5pYb$pn{*VcHc8zLN^Yv>bCJE-9X1Fcgm`q>vOz#KmCn
zF}02Z`7YWgO(y%2k>oxpB#iUYzFVooM~_@T%=g72*ZPuE(nKQOcOw>??BgP$Bt)*I
zB%bTLej_Lep}0843z!Zk;&DDKC4{~k{e8*($v%mXiwPk(Nd_KFCK9pU<dk5A4oT#N
zgy@3kPpLIW?Vp@0IBM^l6FhqMhV>$H06FV+*s1b*arCH}YvoL^X0UE!7T7o3Uk2{2
z<lc72GHT`Qcc@VtR|B!VBF_PNHJp=oa4u4|7Ve##8`37u18EoLLD~!HT5cQfj<&-H
zs)E)}9hC86U9KL=;igsv&d1k5u7Awb3^`l_lzO462tKzO_cG?-8leXt*93F$bIlMp
zOtl2s6z^rS#;R<*1}hvAV1dqo)I~xukP(rUCU{oe0Ty?Fy%~`v*zw2>KF*>Lv9N2f
zqalzEvDe{XAq)!R;s8nE-DK!i@EQtTkQCny1p@=@h0v|YWNK1vA~B}-Kng;i38)qi
zjq~MJBJt{0de}q~#V{1Z_TZpw+Fq#@98an3UiJ(>7D~k=(%+%}{o3#^g(4zfF@dY0
zSc)GKgoH4_o*QGy5XrbjHYD(DBz^-{ienQ(^;9Dw8{<WBWA788I6JvvG9+JdZ(Jw1
z-%u#5A9&nzOyht3BoXEe&C%Ce;4Cm1lbRBok_Jd15~h!}^apf?&X}$PC~e3$SL9RC
z%6_mf2pL*0k)eVbq`_0;vZdajY^kjXlnz?d)+mbH>F|r~)ap6qs}7ko=HrpB3gvuh
zo1PV|(^KUu)b^F{^prjynwp{lmSF)Wm2M-@sO{`zN|e}ZJczsqN8tva-VYL6vG=TA
zU|irs5--3pQ8%`tOu(r)%EF^G1cgK@&IP3eK-o=R2qwmY(#?cW51k7*NX0QG@O&@^
z2q`MwPz(+YG|j1UFG77(2I{d4R+MZE>P3Ue2p}k@0j6Sw+P5N-Vi)*vXp<KdTR6st
z;;Cf73>tusjg|Wraj)QX2nedE4~XIkrkktrp;ym31qH>wfao?=a5gWzzT#|O?0qu0
zvh&c>y0+!*FXifvExV3k*6@mR4|(=_uI|#Z>(W~L&V2h(x&7!;Z?64Z*0O4EEj;^Z
z?d20$%Uw_5$N-kuzGipj?VYl{bJgBmz;u^v?^?CL@Ri+t&okp$usm?xcYSH^R`K74
zv#<)hloI0MlE}hCoF@L)dm#d?4@ZKd)1V!qr2_*QTF`|o4K+rnfNA(^ECg!VaSgRH
zA0L+{9-D*?cqm|xBKD-Mq0k8F^sZ-@&rk?Pur?fFTuhI5_VU8u+#7jcK=uW4zP++%
z@3MU_nOL}Tl%=`cfr|5ZP~ch}rt#2I(aJT@id=sShTV;aF<LsB<=Pp-A;{{$@q11y
z^xdv0JW8-a*ipb-7A&C&9thnKZCD+gtI_HhiuhHmeF`F6o%+0Ir|j98wG`ZSvs}I*
zAU6b7+<`*Z3)wUGF3wzBI3v4u6kOif*JsXW&lDNTQ?D2M(j9nq6%mMtMEn)3?L1Wm
zPNOw5UMr9wn6?BBsUeCKr7CcyPs|@<KM*Rx5L&dWPb=f7v+_<&>(U6dOYKV~Xfz%f
zJVk<36+W@(+*8|EJoHt;xIN?^8QKVFk!MOJsEwlZR|SqS9*uEN`dSf)whn)dB6>Ms
zQW#E}O7e;WpiaX%IDvTh1YE}S!RiCo!(I!Cd=Qx~=;DEHuBS>(!=r#pVSsjqClrRC
zOiEKkdKKGPED@3p>{pzm1&I(P#g6nmn3M#?RoSr0N{OuFI25bO*<rZ+wbXb(1qr2A
z6K@UD@vP`@(TbzrT|N5VO|Tt~E+zgoM7OD@t?YxB?!N>QpLcc0u8zfi+12&Q(5Dw3
zU-*Li)@*8XAbvI#t<?4%`L-Uptta1hNNzinYdee?%}<*;ANlfuV{+iw7YFmFFUzMd
zuQpxD))r2`mbIwRns3@G!_VIH=<WQz6EghlClPmDGp>T`6zO@p?Al%$!hhQ=H4gQp
z;S}|NQcF(SzmSur)0Pcnq(mQptQZmusZ1QOMCl~xolul6+q#mUHf2mu(%_U`KLcV@
zNtG(8kZIbSF>g{2&`Wq1@^q`B+&Pso;~5ctyjAX2gy$_-v1!XRo|V$sE;pY6il@&H
zs1cSjI=jqfCp2T2GXkULENP%m&zUoQ_uVo+f_<xLqYvnSHFOYe1~twC%y<K%XMy2|
zBw)iKU{z>P2>d%K9w-S%=$1yjfqqok4)|n))d1(mfaL?F*C~){fndE$MEO_nczg)P
z#{fI1VgU{c$D&u|HVnC<p(=X-+bPpJViS-t0^P5$1tM`VH8vIrNBFp;Hw-00H$stE
z=vu67*{I}`)s_zI8Fj`wzbp~Zz@-gq#`3qqJkN=UW@Jsuc8RbH1SVa7?%5Fp96|$1
zC!(`rhMI(Ts>&L%OR*&r$%w>Hg6%IRV?c69s{#>eJU{_!ne8aGxQh`12q(^8afMTY
z0JBx^=%B)o$|4?7T(c6n)EC@<T<TfKWW;}m=r&bsqClDVe|VHo$P>A`lgqA?YfWwW
zrUP=*fxkb!WLe_!$6uF^zn(jIDc3Xt$mMKWIGAtkm0NpPoV}#ltGT*!%dT^4ja^w+
z!QHaJ<=gw^_Wl)jKM;z0@6WuykXiBc6k0nToVb7D(J{I8NWS%?+<G$CdTP!-OV1uE
zczt>A4%xe7vHQ{XRqx@#!K1U5ytiBSb}#ZDMIT0GZ-1e&Z9YAhUiJe0Xj&KqM9luE
zSW9_Y_3m=+{%^gMr+K-#H|OqKw)d%I^<|i+FaXg8BM%iGLCeb;S{kuCFy|1%?t@N-
z;?+UrC4do?D6ADC>@TxbJ-`CmkQtiO(8jbyLaj>z;H2e~5-tIDLCv6^siKqt`l?6?
zh=en(3dkmm$EMA=-8lETGp6sRk*N~4Y91yhMd*Rf0*p!`kiifpQC8@>%$K$a=zogi
zrc^oC(#S7B;PH92zzavA&GhzXReQw=%R&+HFChYk>#n~Sorx~IyyD*d=*p*~k4KmK
z9|ym%<WG*sCr4KHjTD;OAGF+WS$yYyNA|pa6P24^%%1<s*ReSIB)aMw%nlWrJF`P~
z&#(R9C5;!KmtDIaF`qgfJ7m{^qKESMw&-Vd-^j9i_cDo9Da9Q$Hl@%A1oH#cF{G-)
z4H{IeMts2=QSv1a1z%kl?xQ6IU(PIhAV8T@(URa*lqeAgAdIGfIsFf3!IlQRjc<bQ
zTk0I#O;+<%RcQ+qW<lei1^&I11U3p3l-;N&z?oVep+m(<mQ6RF)7(mWEv?7lfJH@P
z#Bs$8aILt32ZPTwh{6})MKHdIL5lk&pv-PG?JYR&wEr1t#K%9y(x)H-)U89*mGX@}
zGW?u91Vw+4t2?~xI=qHhh{%`s24rvGQCH5}mt}}i-YVN$7lyvH?|hd1;VCD0b_CD}
zE$?X)r*bUSCG}s%C)yaj&|>E{!KX9`P#TmDXS%){mcV6<V)0F$I|11?8Ht799&#=N
z)@j@eD$ZyPL{%YE;!e}nj8z!hq)n?4He#C@tI<(=nUYF&<0f-3tfw=|X`AsZI5V#4
zv|TDW>N56>ZG#nQ=9o0(PMhO&+zR-w?kRm2c6F1v8R`}?H$z>98UZ{EU<slVosgz7
zdJCQKEMQZCdq3tAi;z$nGrW!ft`mt9L=V)crvnd$;<+&RM)1PWrB{Z6XNF$8{3=>&
zNofKsJA&_tu`!XCgh6Z%Ple(n2aO}fWa$REkBD2WpIz05CJe!&bjLI2Y~x{l2!+J&
zAOhTPY0G*F-fdZC&0Rm6SaElQ$>wjFKR<VV(U;$`UxuG=|C4u?4*g=_=L4U;C)c0-
z)sB_=9~RBjwuX7fPaSIwt@F{j=<J(C8&%s}bWklFL{G%z=KY{3d`<Hg=PoV|eRTfe
zdD+*O_Z^UZ2cDeI`A%eq{?+5F&VRyu?)c2H?0e~HJ8+(l_B`D4i2pSDIGSreI_oU7
zcRq;Tk3Q<ZAD?xi0ol6r(rVKyvrNJ3U)VP1m}Azw{$dBHnAt=QCc;t&j%dat^T2W6
z0d72XAS)UNQmhg&uQw<dJY@tio)E+^mS}M^<w6@Nl9CUFHc}#bE|GRrG)5=4q-cO2
zZD9cdidc+%FWSlIfx1TaUC9EasS2fOGH&Z<h=Hb`QGa78TVgeoRI&(-tU%+IaK=$T
ztanv_(x_;vg5KLSBjJH1A=;v+%2%*Y>1bQ|UQfYO0~M~XKH!Q*7ow=hsshwys~*8^
zX+(ggQ3QjkP$m#yHJeAMPD%oqQbQNGCjt4s&wel&8?1Us5;C?AOq_Mv_MYt~eUrLn
z{t0!H4%kACK-@>buY@#&J$>cOAgc;Fn2D_Fsb?n=U=XWs*R~`iTE*SOOVz7_3cU5I
zY!nEBh@Dk%lIL2$Hz#;_gM~)0J~B~lgsW)f`Q~rAGO`)4V9B`Pg_vf}p;0>qc5nGr
zSi0k4JT_H1evu6WSA#b$WD;E3uNlPPA}Cw7Y`O#KlQ;<t>+f82BUCk;!5O#*wpC%m
z@UBHlx1WV>p$S-=FnLj<PxMBFzd67T2kI1CL=1*gT!>i4ii?l&lO-dTiKiy{m~b3g
zR9P2MD`&9-YZ(2IB3y&lrX;X_$ArYB?q*aK(LO8(?{pHA*T5CP3+l*hAP*BEaA7jq
zC7ei31p{_fFTI9ckzPvtO|h!g6-PLk3aV?Zn4vili|ATMeR1O=tEUw*usJHTKZn|4
zFUTmdvAqrV-uv)9Li3L2>P{@XPON$Ss;fQc=~}$;QRZRhZ{L$Whrsa;CiC>n^upyF
zal`9uaFLU}dqI0Sz4r!Y1{N$U&NlD}-a9vQZkD@y5n3+PY4*orrby8TcNBJXFItOc
zdfV=Gv$@_~q|CMMqQh1*Oh0XCo1dJU)GX_U7xVt(vj6x}>KEysr*r=E*|SfZ+w;u<
zxj9hqHY|)ih~1ApdExV(&wBo@7d)OV?*DZAXU1p8=3{fQoVyd=0n|1Y-Be9|-rgkJ
zn-&^Y?d+PTKI{CSZ)+)U%Qut>`rJ6y<&Kw^!b?|{x1Y|{o%vPgvg^YC78xw|orsY4
zkN&|EXLeD)+*LE=H~;cQcF1e~CocnOvd03tXL}VZ$KQyA`7mH>DPWrDG@qu^0C!56
z<;3?jnldzw3h=npmmx<jX_slMRMKrmUd(YSV=7zpTlp&iIjtF+$`64RGEsMV7J5qa
zvudc0%w5Op59sG;E5r6S)mF@w+N!2v&PWZbLZ$}%#MTP!gD&~1kSUFP+ELM(k&Xk+
z3|<jN*JabrjMGq`IrOyv&E$l)jMmU^;Y|K05dz;{NQWx~5d)opxQ6I0Ci!q=ECN8M
zirkjE#K^eS6anF21YuE=a1I?@@Jimhu$l%UH=uydz{?O8flzm*s_?X-B7r%mm`cX@
zH^Bkh!}j*}z73T}5C*rXsLo}8y-YqS(x%3afnLEm!^;^Ck)4dWLR}dty-KwS?N!%C
zm1VSy6|FvB3F?OWM)RIn2P~I}?*cs^lEM?Er7<+|aZ&-AfJl0G+2N}xSmI{Z{k~<b
zC|m+5g;z|d_=Ibi_Ez`^EYR(QVo3@KPC$($5EXL;Q$)}F7*lUx^b?GT+8M>vn;7A1
za^Y==0<H?T0_h1sj&w)742lbMWl+<eqT(PDLR@6TwJH1&mPV(b;zVt$sVMUKR;84w
zYRrl2plh+V%VdkopD6WK<f4yQ{4GSF#P<9@To#&=dfM1JKQ%YC=+8Co%DSF{nf2D(
zTZ=m%4Xyh3=lv&S|B0M`FzYBZbuFglrv7a08u*kCJs7w@u;T0{O7fLl-K)#4SHG%j
zn%_6KPqmQbx}N;D0eRbiYNO@0oy}UI?YzHR_IEFiJsJ9<ZPh=V_g|I$R|~Ff>t<7f
zBkTCqPJ!e2`rLJJEvJ^Qt~Q*>I@j!=tD0qd^THnZ-eJwtvTScrT`GVLrBHIId<c&=
z`vAb`iyob7ldo&Am8!6HoeIY<`tvj*Er2=n$CfD*@xC2BjUSqbY$}NyP=Egc%qNi&
z!o)4d!8;(ZuGR0$$cJSjd{xNz3NOM~;G0D9-2l)yXh$H@tk@<(Vn~t%QsOa9#8JfM
z&<t+$3#6N#5f<%}ml`N39)%*eDfpBG-)rXW+hzOqReJ~VTw%KOfyq;6-R!}I?W@jR
z;P;okEZEqt-OsK+&YURoE=Z8|uiPDYhM~OH;J%>Y3r_(DDojFDF?z)o403!d7&MrH
zmgB`4IH4N&3Sb8C^7YT%WK7Uz1imY!0*wMHb-{rV79@=(!oi?`9{~s~M)>MSKwC{f
z^`=r=G_;AAT0m+`JQoBi6sx+LLI@w@p@;Y62;=IpkKj`>nFOX#@ssh8Gc3T{M2bX*
zAR+z+qC3>@O%BHX`z8<b!lGED;Iedj9WTY5G}H6w0I)))=gEO}ynJJ|Fpb~1T#TdG
z*2cWJFjA!8vN*Dim*O!yb8K;Mk%G%ocpWcAUoF$QP`^&WrP%Icjx7Fgoq|iTr<?ID
z9{T9m!(&AXl24#VxD<!!0MokW-d1Gb3Z53P|K7VZ?-p%%XNSAlk%i9LH)h^1*5DHd
z`dD0ZuA&p~T$ICeuWhDny%z4ixk@w4j&(Q9G^(@5i33_9ClCm@a*$G-rO$eKQ9z+l
zSJ;Uk#R8z=2fl&@ACoOSfGM&qWEnRutzti>exrL_NI^N2Iq?ESK&5GV-A>W&UsJWe
zrkwvq?f4z#`VXq}H#NT5H*z)Yx2-Tylk*QI6Af$|qIEOe7Rjxnjkf&Z_*-VW@f!+b
HGME1Y1>WX*

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py b/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
new file mode 100644
index 0000000..a124a0d
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
@@ -0,0 +1,531 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Optional
+
+import regex as re
+import torch
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.p2p.p2p_nccl_engine import (
+    P2pNcclEngine,
+)
+from vllm.distributed.parallel_state import get_world_group
+from vllm.logger import init_logger
+from vllm.v1.attention.backends.mla.common import MLACommonMetadata
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class ReqMeta:
+    # Request Id
+    request_id: str
+    # Request block ids
+    block_ids: torch.Tensor
+    # Request num tokens
+    num_tokens: int
+
+    @staticmethod
+    def make_meta(
+        request_id: str, token_ids: list[int], block_ids: list[int], block_size: int
+    ) -> "ReqMeta":
+        block_ids_tensor = torch.tensor(block_ids)
+        return ReqMeta(
+            request_id=request_id,
+            block_ids=block_ids_tensor,
+            num_tokens=len(token_ids),
+        )
+
+
+@dataclass
+class P2pNcclConnectorMetadata(KVConnectorMetadata):
+    requests: list[ReqMeta]
+
+    def __init__(self):
+        self.requests = []
+
+    def add_request(
+        self,
+        request_id: str,
+        token_ids: list[int],
+        block_ids: list[int],
+        block_size: int,
+    ) -> None:
+        self.requests.append(
+            ReqMeta.make_meta(request_id, token_ids, block_ids, block_size)
+        )
+
+
+class P2pNcclConnector(KVConnectorBase_V1):
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(
+            vllm_config=vllm_config,
+            role=role,
+            kv_cache_config=kv_cache_config,
+        )
+        self._block_size = vllm_config.cache_config.block_size
+        self._requests_need_load: dict[str, Any] = {}
+        self.is_producer = self._kv_transfer_config.is_kv_producer
+        self.chunked_prefill: dict[str, tuple[list[int], list[int] | None]] = {}
+
+        self._rank = get_world_group().rank if role == KVConnectorRole.WORKER else 0
+        self._local_rank = (
+            get_world_group().local_rank if role == KVConnectorRole.WORKER else 0
+        )
+
+        self.p2p_nccl_engine = (
+            P2pNcclEngine(
+                local_rank=self._local_rank,
+                config=self._kv_transfer_config,
+                hostname="",
+                port_offset=self._rank,
+            )
+            if role == KVConnectorRole.WORKER
+            else None
+        )
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """Start loading the KV cache from the connector buffer to vLLM's
+        paged KV buffer.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+        """
+
+        # Only consumer/decode loads KV Cache
+        if self.is_producer:
+            return
+
+        assert self.p2p_nccl_engine is not None
+
+        attn_metadata = forward_context.attn_metadata
+        if attn_metadata is None:
+            return
+
+        def inject_kv_into_layer(
+            layer: torch.Tensor,
+            kv_cache: torch.Tensor,
+            block_ids: torch.Tensor,
+            request_id: str,
+        ) -> None:
+            """
+            Inject KV cache data into a given attention layer tensor.
+
+            This function updates `layer` in-place with values from `kv_cache`,
+            handling different backend layouts:
+              - MLA (Multi-Linear Attention) or FlashInfer: KV tensors are
+                indexed along the first dimension.
+              - FlashAttention: KV tensors are indexed along the second
+                dimension.
+
+            If the number of provided block IDs does not match the number of KV
+            blocks, only the overlapping portion is updated, and a warning is
+            logged.
+
+            Args:
+                layer (torch.Tensor): The attention layer KV tensor to update.
+                kv_cache (torch.Tensor): The KV cache tensor to inject.
+                block_ids (torch.Tensor): Indices of the blocks to update.
+                request_id (str): Request identifier used for logging.
+
+            Returns:
+                None. The function modifies `layer` in-place.
+            """
+            if (
+                isinstance(attn_metadata, MLACommonMetadata) or layer.shape[1] == 2
+            ):  # MLA or FlashInfer
+                num_block = kv_cache.shape[0]
+                self.check_tensors_except_dim(layer, kv_cache, 0)
+                if len(block_ids) == num_block:
+                    layer[block_ids, ...] = kv_cache
+                else:
+                    layer[block_ids[:num_block], ...] = kv_cache
+                    logger.warning(
+                        "🚧kv_cache does not match, block_ids:%d, "
+                        "num_block:%d, request_id:%s",
+                        len(block_ids),
+                        num_block,
+                        request_id,
+                    )
+
+            elif layer.shape[0] == 2:  # FlashAttention
+                num_block = kv_cache.shape[1]
+                self.check_tensors_except_dim(layer, kv_cache, 1)
+                if len(block_ids) == num_block:
+                    layer[:, block_ids, ...] = kv_cache
+                else:
+                    layer[:, block_ids[:num_block], ...] = kv_cache
+                    logger.warning(
+                        "🚧kv_cache does not match, block_ids:%d, "
+                        "num_block:%d, request_id:%s",
+                        len(block_ids),
+                        num_block,
+                        request_id,
+                    )
+
+        # Get the metadata
+        metadata: KVConnectorMetadata = self._get_connector_metadata()
+        assert isinstance(metadata, P2pNcclConnectorMetadata)
+
+        if metadata is None:
+            return
+
+        # Load the KV for each request each layer
+        for request in metadata.requests:
+            request_id = request.request_id
+            ip, port = self.parse_request_id(request_id, False)
+            remote_address = ip + ":" + str(port + self._rank)
+            for layer_name in forward_context.no_compile_layers:
+                layer = forward_context.no_compile_layers[layer_name]
+
+                # Only process layers that have kv_cache
+                # attribute (attention layers) Skip non-attention
+                # layers like FusedMoE
+                kv_cache = getattr(layer, "kv_cache", None)
+                if kv_cache is None:
+                    continue
+
+                layer = kv_cache[forward_context.virtual_engine]
+
+                kv_cache = self.p2p_nccl_engine.recv_tensor(
+                    request.request_id + "#" + layer_name, remote_address
+                )
+
+                if kv_cache is None:
+                    logger.warning("🚧kv_cache is None, %s", request.request_id)
+                    continue
+
+                inject_kv_into_layer(
+                    layer, kv_cache, request.block_ids, request.request_id
+                )
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """Blocking until the KV for a specific layer is loaded into vLLM's
+        paged buffer.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        return
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """Start saving the KV cache of the layer from vLLM's paged buffer
+        to the connector.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+
+        # Only producer/prefill saves KV Cache
+        if not self.is_producer:
+            return
+
+        assert self.p2p_nccl_engine is not None
+
+        def extract_kv_from_layer(
+            layer: torch.Tensor,
+            block_ids: torch.Tensor,
+        ) -> torch.Tensor:
+            """
+            Extract KV cache slices from a given attention layer tensor.
+
+            This function handles multiple backend layouts:
+              - MLA (Multi-Linear Attention) or FlashInfer: KV tensors are
+                indexed along the first dimension.
+              - FlashAttention: KV tensors are indexed along the second
+                dimension.
+
+            Args:
+                layer (torch.Tensor): The KV cache from the attention layer.
+                block_ids (torch.Tensor): Indices of blocks to extract.
+
+            Returns:
+                torch.Tensor: A tensor containing the extracted KV slices.
+                Returns None if the layout is unsupported.
+            """
+            if (
+                isinstance(attn_metadata, MLACommonMetadata) or layer.shape[1] == 2
+            ):  # MLA or FlashInfer
+                return layer[block_ids, ...]
+
+            if layer.shape[0] == 2:  # FlashAttention
+                return layer[:, block_ids, ...]
+
+            return None
+
+        connector_metadata = self._get_connector_metadata()
+        assert isinstance(connector_metadata, P2pNcclConnectorMetadata)
+        for request in connector_metadata.requests:
+            request_id = request.request_id
+            ip, port = self.parse_request_id(request_id, True)
+            remote_address = ip + ":" + str(port + self._rank)
+
+            kv_cache = extract_kv_from_layer(kv_layer, request.block_ids)
+            self.p2p_nccl_engine.send_tensor(
+                request_id + "#" + layer_name, kv_cache, remote_address
+            )
+
+    def wait_for_save(self):
+        if self.is_producer:
+            assert self.p2p_nccl_engine is not None
+            self.p2p_nccl_engine.wait_for_sent()
+
+    def get_finished(
+        self, finished_req_ids: set[str], **kwargs: Any
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer,
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+
+        assert self.p2p_nccl_engine is not None
+
+        no_compile_layers = self._vllm_config.compilation_config.static_forward_context
+        return self.p2p_nccl_engine.get_finished(finished_req_ids, no_compile_layers)
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            the number of tokens that can be loaded from the
+            external KV cache beyond what is already computed.
+        """
+        if self.is_producer:
+            return 0, False
+
+        prompt_token_ids = request.prompt_token_ids or []
+        num_external_tokens = len(prompt_token_ids) - 1 - num_computed_tokens
+
+        if num_external_tokens < 0:
+            num_external_tokens = 0
+
+        return num_external_tokens, False
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+        """
+        if not self.is_producer and num_external_tokens > 0:
+            self._requests_need_load[request.request_id] = (
+                request,
+                blocks.get_block_ids()[0],
+            )
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        """Build the connector metadata for this step.
+
+        This function should NOT modify any fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+
+        meta = P2pNcclConnectorMetadata()
+
+        for new_req in scheduler_output.scheduled_new_reqs:
+            if self.is_producer:
+                num_scheduled_tokens = (scheduler_output.num_scheduled_tokens)[
+                    new_req.req_id
+                ]
+                num_tokens = num_scheduled_tokens + new_req.num_computed_tokens
+                # the request's prompt is chunked prefill
+                if num_tokens < len(new_req.prompt_token_ids or []):
+                    # 'CachedRequestData' has no attribute 'prompt_token_ids'
+                    self.chunked_prefill[new_req.req_id] = (
+                        new_req.block_ids[0],
+                        new_req.prompt_token_ids,
+                    )
+                    continue
+                # the request's prompt is not chunked prefill
+                meta.add_request(
+                    request_id=new_req.req_id,
+                    token_ids=new_req.prompt_token_ids or [],
+                    block_ids=new_req.block_ids[0],
+                    block_size=self._block_size,
+                )
+                continue
+            if new_req.req_id in self._requests_need_load:
+                meta.add_request(
+                    request_id=new_req.req_id,
+                    token_ids=new_req.prompt_token_ids or [],
+                    block_ids=new_req.block_ids[0],
+                    block_size=self._block_size,
+                )
+                self._requests_need_load.pop(new_req.req_id)
+
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+        for i, req_id in enumerate(cached_reqs.req_ids):
+            num_computed_tokens = cached_reqs.num_computed_tokens[i]
+            new_block_ids = cached_reqs.new_block_ids[i]
+            resumed_from_preemption = req_id in cached_reqs.resumed_req_ids
+
+            if self.is_producer:
+                num_scheduled_tokens = scheduler_output.num_scheduled_tokens[req_id]
+                num_tokens = num_scheduled_tokens + num_computed_tokens
+                assert req_id in self.chunked_prefill
+                assert new_block_ids is not None
+                block_ids = new_block_ids[0]
+                if not resumed_from_preemption:
+                    block_ids = self.chunked_prefill[req_id][0] + block_ids
+                prompt_token_ids = self.chunked_prefill[req_id][1]
+                assert prompt_token_ids is not None
+                # the request's prompt is chunked prefill again
+                if num_tokens < len(prompt_token_ids):
+                    self.chunked_prefill[req_id] = (block_ids, prompt_token_ids)
+                    continue
+                # the request's prompt is all prefilled finally
+                meta.add_request(
+                    request_id=req_id,
+                    token_ids=prompt_token_ids,
+                    block_ids=block_ids,
+                    block_size=self._block_size,
+                )
+                self.chunked_prefill.pop(req_id, None)
+                continue
+
+            # NOTE(rob): here we rely on the resumed requests being
+            # the first N requests in the list scheduled_cache_reqs.
+            if not resumed_from_preemption:
+                break
+            if req_id in self._requests_need_load:
+                request, _ = self._requests_need_load.pop(req_id)
+                total_tokens = num_computed_tokens + 1
+                token_ids = request.all_token_ids[:total_tokens]
+
+                # NOTE(rob): For resumed req, new_block_ids is all
+                # of the block_ids for the request.
+                assert new_block_ids is not None
+                block_ids = new_block_ids[0]
+
+                meta.add_request(
+                    request_id=req_id,
+                    token_ids=token_ids,
+                    block_ids=block_ids,
+                    block_size=self._block_size,
+                )
+
+        self._requests_need_load.clear()
+        return meta
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called when a request has finished, before its blocks are freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+
+        self.chunked_prefill.pop(request.request_id, None)
+
+        return False, None
+
+    # ==============================
+    # Static methods
+    # ==============================
+
+    @staticmethod
+    def parse_request_id(request_id: str, is_prefill=True) -> tuple[str, int]:
+        # Regular expression to match the string hostname and integer port
+        if is_prefill:
+            pattern = r"___decode_addr_(.*):(\d+)"
+        else:
+            pattern = r"___prefill_addr_(.*):(\d+)___"
+
+        # Use re.search to find the pattern in the request_id
+        match = re.search(pattern, request_id)
+        if match:
+            # Extract the ranks
+            ip = match.group(1)
+            port = int(match.group(2))
+
+            return ip, port
+        raise ValueError(f"Request id {request_id} does not contain hostname and port")
+
+    @staticmethod
+    def check_tensors_except_dim(tensor1, tensor2, dim):
+        shape1 = tensor1.size()
+        shape2 = tensor2.size()
+
+        if len(shape1) != len(shape2) or not all(
+            s1 == s2 for i, (s1, s2) in enumerate(zip(shape1, shape2)) if i != dim
+        ):
+            raise NotImplementedError(
+                "Currently, only symmetric TP is supported. Asymmetric TP, PP,"
+                "and others will be supported in future PRs."
+            )
diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py b/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py
new file mode 100644
index 0000000..0e748db
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py
@@ -0,0 +1,632 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+import logging
+import os
+import threading
+import time
+from collections import deque
+from contextlib import contextmanager
+from dataclasses import dataclass
+from typing import Any
+
+import msgpack
+import torch
+import zmq
+
+from vllm.config.kv_transfer import KVTransferConfig
+from vllm.distributed.device_communicators.pynccl_wrapper import (
+    NCCLLibrary,
+    buffer_type,
+    cudaStream_t,
+    ncclComm_t,
+    ncclDataTypeEnum,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.p2p.tensor_memory_pool import (  # noqa: E501
+    TensorMemoryPool,
+)
+from vllm.utils.network_utils import get_ip
+from vllm.utils.torch_utils import current_stream
+
+logger = logging.getLogger(__name__)
+
+DEFAULT_MEM_POOL_SIZE_GB = 32
+
+
+@contextmanager
+def set_p2p_nccl_context(num_channels: str):
+    original_values: dict[str, Any] = {}
+    env_vars = [
+        "NCCL_MAX_NCHANNELS",
+        "NCCL_MIN_NCHANNELS",
+        "NCCL_CUMEM_ENABLE",
+        "NCCL_BUFFSIZE",
+        "NCCL_PROTO",  # LL,LL128,SIMPLE
+        "NCCL_ALGO",  # RING,TREE
+    ]
+
+    for var in env_vars:
+        original_values[var] = os.environ.get(var)
+
+    logger.info("set_p2p_nccl_context, original_values: %s", original_values)
+
+    try:
+        os.environ["NCCL_MAX_NCHANNELS"] = num_channels
+        os.environ["NCCL_MIN_NCHANNELS"] = num_channels
+        os.environ["NCCL_CUMEM_ENABLE"] = "1"
+        yield
+    finally:
+        for var in env_vars:
+            if original_values[var] is not None:
+                os.environ[var] = original_values[var]
+            else:
+                os.environ.pop(var, None)
+
+
+@dataclass
+class SendQueueItem:
+    tensor_id: str
+    remote_address: str
+    tensor: torch.Tensor
+
+
+class P2pNcclEngine:
+    def __init__(
+        self,
+        local_rank: int,
+        config: KVTransferConfig,
+        hostname: str = "",
+        port_offset: int = 0,
+        library_path: str | None = None,
+    ) -> None:
+        self.config = config
+        self.rank = port_offset
+        self.local_rank = local_rank
+        self.device = torch.device(f"cuda:{self.local_rank}")
+        self.nccl = NCCLLibrary(library_path)
+
+        if not hostname:
+            hostname = get_ip()
+        port = int(self.config.kv_port) + port_offset
+        if port == 0:
+            raise ValueError("Port cannot be 0")
+        self._hostname = hostname
+        self._port = port
+
+        # Each card corresponds to a ZMQ address.
+        self.zmq_address = f"{self._hostname}:{self._port}"
+
+        # If `proxy_ip` or `proxy_port` is `""`,
+        # then the ping thread will not be enabled.
+        proxy_ip = self.config.get_from_extra_config("proxy_ip", "")
+        proxy_port = self.config.get_from_extra_config("proxy_port", "")
+        if proxy_ip == "" or proxy_port == "":
+            self.proxy_address = ""
+            self.http_address = ""
+        else:
+            self.proxy_address = proxy_ip + ":" + proxy_port
+            # the `http_port` must be consistent with the port of OpenAI.
+            http_port = self.config.get_from_extra_config("http_port", None)
+            if http_port is None:
+                example_cfg = {
+                    "kv_connector": "P2pNcclConnector",
+                    "kv_connector_extra_config": {"http_port": 8000},
+                }
+                example = (
+                    f"--port=8000 --kv-transfer-config='{json.dumps(example_cfg)}'"
+                )
+                raise ValueError(
+                    "kv_connector_extra_config.http_port is required. "
+                    f"Example: {example}"
+                )
+            self.http_address = f"{self._hostname}:{http_port}"
+
+        self.context = zmq.Context()
+        self.router_socket = self.context.socket(zmq.ROUTER)
+        self.router_socket.bind(f"tcp://{self.zmq_address}")
+
+        self.poller = zmq.Poller()
+        self.poller.register(self.router_socket, zmq.POLLIN)
+
+        self.send_store_cv = threading.Condition()
+        self.send_queue_cv = threading.Condition()
+        self.recv_store_cv = threading.Condition()
+
+        self.send_stream = torch.cuda.Stream()
+        self.recv_stream = torch.cuda.Stream()
+
+        mem_pool_size_gb = float(
+            self.config.get_from_extra_config(
+                "mem_pool_size_gb", DEFAULT_MEM_POOL_SIZE_GB
+            )
+        )
+        self.pool = TensorMemoryPool(
+            max_block_size=int(mem_pool_size_gb * 1024**3)
+        )  # GB
+
+        # The sending type includes tree mutually exclusive options:
+        # PUT, GET, PUT_ASYNC.
+        self.send_type = self.config.get_from_extra_config("send_type", "PUT_ASYNC")
+        if self.send_type == "GET":
+            # tensor_id: torch.Tensor
+            self.send_store: dict[str, torch.Tensor] = {}
+        else:
+            # PUT or PUT_ASYNC
+            # tensor_id: torch.Tensor
+            self.send_queue: deque[SendQueueItem] = deque()
+            if self.send_type == "PUT_ASYNC":
+                self._send_thread = threading.Thread(
+                    target=self.send_async, daemon=True
+                )
+                self._send_thread.start()
+
+        # tensor_id: torch.Tensor/(addr, dtype, shape)
+        self.recv_store: dict[str, Any] = {}
+        self.recv_request_id_to_tensor_ids: dict[str, set[str]] = {}
+        self.send_request_id_to_tensor_ids: dict[str, set[str]] = {}
+        self.socks: dict[str, Any] = {}  # remote_address: client socket
+        self.comms: dict[str, Any] = {}  # remote_address: (ncclComm_t, rank)
+
+        self.buffer_size = 0
+        self.buffer_size_threshold = float(self.config.kv_buffer_size)
+
+        self.nccl_num_channels = self.config.get_from_extra_config(
+            "nccl_num_channels", "8"
+        )
+
+        self._listener_thread = threading.Thread(
+            target=self.listen_for_requests, daemon=True
+        )
+        self._listener_thread.start()
+
+        self._ping_thread = None
+        if port_offset == 0 and self.proxy_address != "":
+            self._ping_thread = threading.Thread(target=self.ping, daemon=True)
+            self._ping_thread.start()
+
+        logger.info(
+            "💯P2pNcclEngine init, rank:%d, local_rank:%d, http_address:%s, "
+            "zmq_address:%s, proxy_address:%s, send_type:%s, buffer_size_"
+            "threshold:%.2f, nccl_num_channels:%s",
+            self.rank,
+            self.local_rank,
+            self.http_address,
+            self.zmq_address,
+            self.proxy_address,
+            self.send_type,
+            self.buffer_size_threshold,
+            self.nccl_num_channels,
+        )
+
+    def create_connect(self, remote_address: str | None = None):
+        assert remote_address is not None
+        if remote_address not in self.socks:
+            sock = self.context.socket(zmq.DEALER)
+            sock.setsockopt_string(zmq.IDENTITY, self.zmq_address)
+            sock.connect(f"tcp://{remote_address}")
+            self.socks[remote_address] = sock
+            if remote_address in self.comms:
+                logger.info(
+                    "👋comm exists, remote_address:%s, comms:%s",
+                    remote_address,
+                    self.comms,
+                )
+                return sock, self.comms[remote_address]
+
+            unique_id = self.nccl.ncclGetUniqueId()
+            data = {"cmd": "NEW", "unique_id": bytes(unique_id.internal)}
+            sock.send(msgpack.dumps(data))
+
+            with torch.cuda.device(self.device):
+                rank = 0
+                with set_p2p_nccl_context(self.nccl_num_channels):
+                    comm: ncclComm_t = self.nccl.ncclCommInitRank(2, unique_id, rank)
+                self.comms[remote_address] = (comm, rank)
+                logger.info(
+                    "🤝ncclCommInitRank Success, %s👉%s, MyRank:%s",
+                    self.zmq_address,
+                    remote_address,
+                    rank,
+                )
+
+        return self.socks[remote_address], self.comms[remote_address]
+
+    def send_tensor(
+        self,
+        tensor_id: str,
+        tensor: torch.Tensor,
+        remote_address: str | None = None,
+    ) -> bool:
+        if remote_address is None:
+            with self.recv_store_cv:
+                self.recv_store[tensor_id] = tensor
+                self.recv_store_cv.notify()
+            return True
+
+        item = SendQueueItem(
+            tensor_id=tensor_id, remote_address=remote_address, tensor=tensor
+        )
+
+        if self.send_type == "PUT":
+            return self.send_sync(item)
+
+        if self.send_type == "PUT_ASYNC":
+            with self.send_queue_cv:
+                self.send_queue.append(item)
+                self.send_queue_cv.notify()
+            return True
+
+        # GET
+        with self.send_store_cv:
+            tensor_size = tensor.element_size() * tensor.numel()
+            if tensor_size > self.buffer_size_threshold:
+                logger.warning(
+                    "❗[GET]tensor_id:%s, tensor_size:%d, is greater than"
+                    "buffer size threshold :%d, skip send to %s, rank:%d",
+                    tensor_id,
+                    tensor_size,
+                    self.buffer_size_threshold,
+                    remote_address,
+                    self.rank,
+                )
+                return False
+            while self.buffer_size + tensor_size > self.buffer_size_threshold:
+                assert len(self.send_store) > 0
+                oldest_tensor_id = next(iter(self.send_store))
+                oldest_tensor = self.send_store.pop(oldest_tensor_id)
+                oldest_tensor_size = (
+                    oldest_tensor.element_size() * oldest_tensor.numel()
+                )
+                self.buffer_size -= oldest_tensor_size
+                logger.debug(
+                    "⛔[GET]Send to %s, tensor_id:%s, tensor_size:%d,"
+                    " buffer_size:%d, oldest_tensor_size:%d, rank:%d",
+                    remote_address,
+                    tensor_id,
+                    tensor_size,
+                    self.buffer_size,
+                    oldest_tensor_size,
+                    self.rank,
+                )
+
+            self.send_store[tensor_id] = tensor
+            self.buffer_size += tensor_size
+            logger.debug(
+                "🔵[GET]Send to %s, tensor_id:%s, tensor_size:%d, "
+                "shape:%s, rank:%d, buffer_size:%d(%.2f%%)",
+                remote_address,
+                tensor_id,
+                tensor_size,
+                tensor.shape,
+                self.rank,
+                self.buffer_size,
+                self.buffer_size / self.buffer_size_threshold * 100,
+            )
+        return True
+
+    def recv_tensor(
+        self,
+        tensor_id: str,
+        remote_address: str | None = None,
+    ) -> torch.Tensor:
+        if self.send_type == "PUT" or self.send_type == "PUT_ASYNC":
+            start_time = time.time()
+            with self.recv_store_cv:
+                while tensor_id not in self.recv_store:
+                    self.recv_store_cv.wait()
+                tensor = self.recv_store[tensor_id]
+
+            if tensor is not None:
+                if isinstance(tensor, tuple):
+                    addr, dtype, shape = tensor
+                    tensor = self.pool.load_tensor(addr, dtype, shape, self.device)
+                else:
+                    self.buffer_size -= tensor.element_size() * tensor.numel()
+            else:
+                duration = time.time() - start_time
+                logger.warning(
+                    "🔴[PUT]Recv From %s, tensor_id:%s, duration:%.3fms, rank:%d",
+                    remote_address,
+                    tensor_id,
+                    duration * 1000,
+                    self.rank,
+                )
+            return tensor
+
+        # GET
+        if remote_address is None:
+            return None
+
+        if remote_address not in self.socks:
+            self.create_connect(remote_address)
+
+        sock = self.socks[remote_address]
+        comm, rank = self.comms[remote_address]
+
+        data = {"cmd": "GET", "tensor_id": tensor_id}
+        sock.send(msgpack.dumps(data))
+
+        message = sock.recv()
+        data = msgpack.loads(message)
+        if data["ret"] != 0:
+            logger.warning(
+                "🔴[GET]Recv From %s, tensor_id: %s, ret: %d",
+                remote_address,
+                tensor_id,
+                data["ret"],
+            )
+            return None
+
+        with torch.cuda.stream(self.recv_stream):
+            tensor = torch.empty(
+                data["shape"], dtype=getattr(torch, data["dtype"]), device=self.device
+            )
+
+        self.recv(comm, tensor, rank ^ 1, self.recv_stream)
+
+        return tensor
+
+    def listen_for_requests(self):
+        while True:
+            socks = dict(self.poller.poll())
+            if self.router_socket not in socks:
+                continue
+
+            remote_address, message = self.router_socket.recv_multipart()
+            data = msgpack.loads(message)
+            if data["cmd"] == "NEW":
+                unique_id = self.nccl.unique_id_from_bytes(bytes(data["unique_id"]))
+                with torch.cuda.device(self.device):
+                    rank = 1
+                    with set_p2p_nccl_context(self.nccl_num_channels):
+                        comm: ncclComm_t = self.nccl.ncclCommInitRank(
+                            2, unique_id, rank
+                        )
+                    self.comms[remote_address.decode()] = (comm, rank)
+                    logger.info(
+                        "🤝ncclCommInitRank Success, %s👈%s, MyRank:%s",
+                        self.zmq_address,
+                        remote_address.decode(),
+                        rank,
+                    )
+            elif data["cmd"] == "PUT":
+                tensor_id = data["tensor_id"]
+                try:
+                    with torch.cuda.stream(self.recv_stream):
+                        tensor = torch.empty(
+                            data["shape"],
+                            dtype=getattr(torch, data["dtype"]),
+                            device=self.device,
+                        )
+                    self.router_socket.send_multipart([remote_address, b"0"])
+                    comm, rank = self.comms[remote_address.decode()]
+                    self.recv(comm, tensor, rank ^ 1, self.recv_stream)
+                    tensor_size = tensor.element_size() * tensor.numel()
+                    if self.buffer_size + tensor_size > self.buffer_size_threshold:
+                        # Store Tensor in memory pool
+                        addr = self.pool.store_tensor(tensor)
+                        tensor = (addr, tensor.dtype, tensor.shape)
+                        logger.warning(
+                            "🔴[PUT]Recv Tensor, Out Of Threshold, "
+                            "%s👈%s, data:%s, addr:%d",
+                            self.zmq_address,
+                            remote_address.decode(),
+                            data,
+                            addr,
+                        )
+                    else:
+                        self.buffer_size += tensor_size
+
+                except torch.cuda.OutOfMemoryError:
+                    self.router_socket.send_multipart([remote_address, b"1"])
+                    tensor = None
+                    logger.warning(
+                        "🔴[PUT]Recv Tensor, Out Of Memory, %s👈%s, data:%s",
+                        self.zmq_address,
+                        remote_address.decode(),
+                        data,
+                    )
+
+                with self.recv_store_cv:
+                    self.recv_store[tensor_id] = tensor
+                    self.have_received_tensor_id(tensor_id)
+                    self.recv_store_cv.notify()
+
+            elif data["cmd"] == "GET":
+                tensor_id = data["tensor_id"]
+                with self.send_store_cv:
+                    tensor = self.send_store.pop(tensor_id, None)
+                    if tensor is not None:
+                        data = {
+                            "ret": 0,
+                            "shape": tensor.shape,
+                            "dtype": str(tensor.dtype).replace("torch.", ""),
+                        }
+                        # LRU
+                        self.send_store[tensor_id] = tensor
+                        self.have_sent_tensor_id(tensor_id)
+                    else:
+                        data = {"ret": 1}
+
+                self.router_socket.send_multipart([remote_address, msgpack.dumps(data)])
+
+                if data["ret"] == 0:
+                    comm, rank = self.comms[remote_address.decode()]
+                    self.send(comm, tensor.to(self.device), rank ^ 1, self.send_stream)
+            else:
+                logger.warning(
+                    "🚧Unexpected, Received message from %s, data:%s",
+                    remote_address,
+                    data,
+                )
+
+    def have_sent_tensor_id(self, tensor_id: str):
+        request_id = tensor_id.split("#")[0]
+        if request_id not in self.send_request_id_to_tensor_ids:
+            self.send_request_id_to_tensor_ids[request_id] = set()
+        self.send_request_id_to_tensor_ids[request_id].add(tensor_id)
+
+    def have_received_tensor_id(self, tensor_id: str):
+        request_id = tensor_id.split("#")[0]
+        if request_id not in self.recv_request_id_to_tensor_ids:
+            self.recv_request_id_to_tensor_ids[request_id] = set()
+        self.recv_request_id_to_tensor_ids[request_id].add(tensor_id)
+
+    def send_async(self):
+        while True:
+            with self.send_queue_cv:
+                while not self.send_queue:
+                    self.send_queue_cv.wait()
+                item = self.send_queue.popleft()
+                if not self.send_queue:
+                    self.send_queue_cv.notify()
+            self.send_sync(item)
+
+    def wait_for_sent(self):
+        if self.send_type == "PUT_ASYNC":
+            start_time = time.time()
+            with self.send_queue_cv:
+                while self.send_queue:
+                    self.send_queue_cv.wait()
+            duration = time.time() - start_time
+            logger.debug(
+                "🚧[PUT_ASYNC]It took %.3fms to wait for the send_queue"
+                " to be empty, rank:%d",
+                duration * 1000,
+                self.rank,
+            )
+
+    def send_sync(self, item: SendQueueItem) -> bool:
+        if item.remote_address is None:
+            return False
+        if item.remote_address not in self.socks:
+            self.create_connect(item.remote_address)
+
+        tensor = item.tensor
+
+        sock = self.socks[item.remote_address]
+        comm, rank = self.comms[item.remote_address]
+        data = {
+            "cmd": "PUT",
+            "tensor_id": item.tensor_id,
+            "shape": tensor.shape,
+            "dtype": str(tensor.dtype).replace("torch.", ""),
+        }
+        sock.send(msgpack.dumps(data))
+
+        response = sock.recv()
+        if response != b"0":
+            logger.error(
+                "🔴Send Tensor, Peer Out Of Memory/Threshold, %s 👉 %s, "
+                "MyRank:%s, data:%s, tensor:%s, size:%fGB, response:%s",
+                self.zmq_address,
+                item.remote_address,
+                rank,
+                data,
+                tensor.shape,
+                tensor.element_size() * tensor.numel() / 1024**3,
+                response.decode(),
+            )
+            return False
+
+        self.send(comm, tensor.to(self.device), rank ^ 1, self.send_stream)
+
+        if self.send_type == "PUT_ASYNC":
+            self.have_sent_tensor_id(item.tensor_id)
+
+        return True
+
+    def get_finished(
+        self, finished_req_ids: set[str], no_compile_layers
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer,
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+
+        # Clear the buffer upon request completion.
+        for request_id in finished_req_ids:
+            for layer_name in no_compile_layers:
+                tensor_id = request_id + "#" + layer_name
+                if tensor_id in self.recv_store:
+                    with self.recv_store_cv:
+                        tensor = self.recv_store.pop(tensor_id, None)
+                        self.send_request_id_to_tensor_ids.pop(request_id, None)
+                        self.recv_request_id_to_tensor_ids.pop(request_id, None)
+                    if isinstance(tensor, tuple):
+                        addr, _, _ = tensor
+                        self.pool.free(addr)
+
+        # TODO:Retrieve requests that have already sent the KV cache.
+        finished_sending: set[str] = set()
+
+        # TODO:Retrieve requests that have already received the KV cache.
+        finished_recving: set[str] = set()
+
+        return finished_sending or None, finished_recving or None
+
+    def ping(self):
+        sock = self.context.socket(zmq.DEALER)
+        sock.setsockopt_string(zmq.IDENTITY, self.zmq_address)
+        logger.debug("ping start, zmq_address:%s", self.zmq_address)
+        sock.connect(f"tcp://{self.proxy_address}")
+        data = {
+            "type": "P" if self.config.is_kv_producer else "D",
+            "http_address": self.http_address,
+            "zmq_address": self.zmq_address,
+        }
+        while True:
+            sock.send(msgpack.dumps(data))
+            time.sleep(3)
+
+    def send(self, comm, tensor: torch.Tensor, dst: int, stream=None):
+        assert tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+
+        with torch.cuda.stream(stream):
+            self.nccl.ncclSend(
+                buffer_type(tensor.data_ptr()),
+                tensor.numel(),
+                ncclDataTypeEnum.from_torch(tensor.dtype),
+                dst,
+                comm,
+                cudaStream_t(stream.cuda_stream),
+            )
+        stream.synchronize()
+
+    def recv(self, comm, tensor: torch.Tensor, src: int, stream=None):
+        assert tensor.device == self.device, (
+            f"this nccl communicator is created to work on {self.device}, "
+            f"but the input tensor is on {tensor.device}"
+        )
+        if stream is None:
+            stream = current_stream()
+
+        with torch.cuda.stream(stream):
+            self.nccl.ncclRecv(
+                buffer_type(tensor.data_ptr()),
+                tensor.numel(),
+                ncclDataTypeEnum.from_torch(tensor.dtype),
+                src,
+                comm,
+                cudaStream_t(stream.cuda_stream),
+            )
+        stream.synchronize()
+
+    def close(self) -> None:
+        self._listener_thread.join()
+        if self.send_type == "PUT_ASYNC":
+            self._send_thread.join()
+        if self._ping_thread is not None:
+            self._ping_thread.join()
diff --git a/distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.py b/distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.py
new file mode 100644
index 0000000..899f1ea
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.py
@@ -0,0 +1,273 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import atexit
+import ctypes
+import math
+from dataclasses import dataclass
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class MemoryBlock:
+    size: int
+    addr: int
+
+
+"""A memory pool for managing pinned host memory allocations for tensors.
+
+This class implements a buddy allocation system to efficiently manage pinned
+host memory for tensor storage. It supports allocation, deallocation, and
+tensor storage/retrieval operations.
+
+Key Features:
+- Uses power-of-two block sizes for efficient buddy allocation
+- Supports splitting and merging of memory blocks
+- Provides methods to store CUDA tensors in pinned host memory
+- Allows loading tensors from pinned memory back to device
+- Automatically cleans up memory on destruction
+
+Attributes:
+    max_block_size (int): Maximum block size (rounded to nearest power of two)
+    min_block_size (int): Minimum block size (rounded to nearest power of two)
+    free_lists (dict): Dictionary of free memory blocks by size
+    allocated_blocks (dict): Dictionary of currently allocated blocks
+    base_tensor (torch.Tensor): Base pinned memory tensor
+    base_address (int): Base memory address of the pinned memory region
+
+Example:
+    >>> pool = TensorMemoryPool(max_block_size=1024*1024)
+    >>> tensor = torch.randn(100, device='cuda')
+    >>> addr = pool.store_tensor(tensor)
+    >>> loaded_tensor = pool.load_tensor(addr, tensor.dtype,
+    ...                                  tensor.shape, 'cuda')
+    >>> pool.free(addr)
+"""
+
+
+class TensorMemoryPool:
+    """Initializes the memory pool with given size constraints.
+
+    Args:
+        max_block_size (int): Maximum size of memory blocks to manage
+        min_block_size (int, optional): Minimum size of memory blocks
+            to manage. Defaults to 512.
+
+    Raises:
+        ValueError: If block sizes are invalid or max_block_size is less
+            than min_block_size
+    """
+
+    def __init__(self, max_block_size: int, min_block_size: int = 512):
+        if max_block_size <= 0 or min_block_size <= 0:
+            raise ValueError("Block sizes must be positive")
+        if max_block_size < min_block_size:
+            raise ValueError("Max block size must be greater than min block size")
+
+        self.max_block_size = self._round_to_power_of_two(max_block_size)
+        self.min_block_size = self._round_to_power_of_two(min_block_size)
+
+        self.free_lists: dict[int, dict[int, MemoryBlock]] = {}
+        self.allocated_blocks: dict[int, MemoryBlock] = {}
+
+        self._initialize_free_lists()
+        self._allocate_pinned_memory()
+
+        atexit.register(self.cleanup)
+
+    def _round_to_power_of_two(self, size: int) -> int:
+        return 1 << (size - 1).bit_length()
+
+    def _initialize_free_lists(self):
+        size = self.max_block_size
+        while size >= self.min_block_size:
+            self.free_lists[size] = {}
+            size //= 2
+
+    def _allocate_pinned_memory(self):
+        self.base_tensor = torch.empty(
+            self.max_block_size // 4, dtype=torch.float32, pin_memory=True
+        )
+        self.base_address = self.base_tensor.data_ptr()
+        initial_block = MemoryBlock(size=self.max_block_size, addr=self.base_address)
+        self.free_lists[self.max_block_size][initial_block.addr] = initial_block
+
+        logger.debug(
+            "TensorMemoryPool, base_address:%d, max_block_size:%d",
+            self.base_address,
+            self.max_block_size,
+        )
+
+    def allocate(self, size: int) -> int:
+        """Allocates a memory block of at least the requested size.
+
+        Args:
+            size (int): Minimum size of memory to allocate
+
+        Returns:
+            int: Address of the allocated memory block
+
+        Raises:
+            ValueError: If size is invalid or insufficient memory is available
+        """
+        if size <= 0:
+            raise ValueError("Allocation size must be positive")
+
+        required_size = self._round_to_power_of_two(max(size, self.min_block_size))
+        if required_size > self.max_block_size:
+            raise ValueError("Requested size exceeds maximum block size")
+
+        current_size = required_size
+        while current_size <= self.max_block_size:
+            if self.free_lists[current_size]:
+                _, block = self.free_lists[current_size].popitem()
+                self._split_block(block, required_size)
+                self.allocated_blocks[block.addr] = block
+                return block.addr
+            current_size *= 2
+
+        raise ValueError("Insufficient memory")
+
+    def _split_block(self, block: MemoryBlock, required_size: int):
+        while block.size > required_size and block.size // 2 >= self.min_block_size:
+            buddy_size = block.size // 2
+            buddy_addr = block.addr + buddy_size
+
+            buddy = MemoryBlock(size=buddy_size, addr=buddy_addr)
+            block.size = buddy_size
+
+            self.free_lists[buddy_size][buddy.addr] = buddy
+
+    def free(self, addr: int):
+        """Frees an allocated memory block.
+
+        Args:
+            addr (int): Address of the block to free
+
+        Raises:
+            ValueError: If address is invalid or not allocated
+        """
+        if addr not in self.allocated_blocks:
+            raise ValueError("Invalid address to free")
+
+        block = self.allocated_blocks.pop(addr)
+        self._merge_buddies(block)
+
+    def _merge_buddies(self, block: MemoryBlock):
+        MAX_MERGE_DEPTH = 30
+        depth = 0
+
+        while depth < MAX_MERGE_DEPTH:
+            buddy_offset = (
+                block.size
+                if (block.addr - self.base_address) % (2 * block.size) == 0
+                else -block.size
+            )
+            buddy_addr = block.addr + buddy_offset
+            buddy = self.free_lists[block.size].get(buddy_addr)
+            if buddy:
+                del self.free_lists[buddy.size][buddy.addr]
+                merged_addr = min(block.addr, buddy.addr)
+                merged_size = block.size * 2
+                block = MemoryBlock(size=merged_size, addr=merged_addr)
+                depth += 1
+            else:
+                break
+        self.free_lists[block.size][block.addr] = block
+
+    def store_tensor(self, tensor: torch.Tensor) -> int:
+        """Stores a CUDA tensor in pinned host memory.
+
+        Args:
+            tensor (torch.Tensor): CUDA tensor to store
+
+        Returns:
+            int: Address where the tensor is stored
+
+        Raises:
+            ValueError: If tensor is not on CUDA or allocation fails
+        """
+        if not tensor.is_cuda:
+            raise ValueError("Only CUDA tensors can be stored")
+
+        size = tensor.element_size() * tensor.numel()
+        addr = self.allocate(size)
+        block = self.allocated_blocks[addr]
+
+        if block.size < size:
+            self.free(addr)
+            raise ValueError(
+                f"Allocated block size {block.size} is smaller than "
+                f"required size {size}"
+            )
+
+        try:
+            buffer = (ctypes.c_byte * block.size).from_address(block.addr)
+            cpu_tensor = torch.frombuffer(
+                buffer, dtype=tensor.dtype, count=tensor.numel()
+            ).reshape(tensor.shape)
+        except ValueError as err:
+            self.free(addr)
+            raise ValueError(f"Failed to create tensor view: {err}") from err
+
+        cpu_tensor.copy_(tensor)
+
+        return addr
+
+    def load_tensor(
+        self,
+        addr: int,
+        dtype: torch.dtype,
+        shape: tuple[int, ...],
+        device: torch.device,
+    ) -> torch.Tensor:
+        """Loads a tensor from pinned host memory to the specified device.
+
+        Args:
+            addr (int): Address where tensor is stored
+            dtype (torch.dtype): Data type of the tensor
+            shape (tuple[int, ...]): Shape of the tensor
+            device: Target device for the loaded tensor
+
+        Returns:
+            torch.Tensor: The loaded tensor on the specified device
+
+        Raises:
+            ValueError: If address is invalid or sizes don't match
+        """
+        if addr not in self.allocated_blocks:
+            raise ValueError("Invalid address to load")
+
+        block = self.allocated_blocks[addr]
+        num_elements = math.prod(shape)
+        dtype_size = torch.tensor([], dtype=dtype).element_size()
+        required_size = num_elements * dtype_size
+
+        if required_size > block.size:
+            raise ValueError("Requested tensor size exceeds block size")
+
+        buffer = (ctypes.c_byte * block.size).from_address(block.addr)
+        cpu_tensor = torch.frombuffer(buffer, dtype=dtype, count=num_elements).reshape(
+            shape
+        )
+
+        cuda_tensor = torch.empty(shape, dtype=dtype, device=device)
+
+        cuda_tensor.copy_(cpu_tensor)
+
+        return cuda_tensor
+
+    def cleanup(self):
+        """Cleans up all memory resources and resets the pool state."""
+        self.free_lists.clear()
+        self.allocated_blocks.clear()
+        if hasattr(self, "base_tensor"):
+            del self.base_tensor
+
+    def __del__(self):
+        self.cleanup()
diff --git a/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py b/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
new file mode 100644
index 0000000..016d1d4
--- /dev/null
+++ b/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
@@ -0,0 +1,450 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import hashlib
+import os
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any, Optional
+
+import safetensors
+import torch
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.logger import init_logger
+from vllm.v1.attention.backends.mla.common import MLACommonMetadata
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class ReqMeta:
+    # Request tokens
+    token_ids: torch.Tensor
+    # Slot mappings, should have the same length as token_ids
+    slot_mapping: torch.Tensor
+    # Is store or load
+    is_store: bool
+    mm_hashes: list[str]
+
+    @staticmethod
+    def make_meta(
+        token_ids: list[int],
+        block_ids: list[int],
+        block_size: int,
+        is_store: bool,
+        mm_hashes: list[str],
+    ) -> "ReqMeta":
+        valid_num_tokens = align_to_block_size(len(token_ids), block_size)
+        token_ids_tensor = torch.tensor(token_ids)[:valid_num_tokens]
+        block_ids_tensor = torch.tensor(block_ids)
+        num_blocks = block_ids_tensor.shape[0]
+        block_offsets = torch.arange(0, block_size)
+        slot_mapping = (
+            block_offsets.reshape((1, block_size))
+            + block_ids_tensor.reshape((num_blocks, 1)) * block_size
+        )
+        slot_mapping = slot_mapping.flatten()[:valid_num_tokens]
+        return ReqMeta(
+            token_ids=token_ids_tensor,
+            slot_mapping=slot_mapping,
+            is_store=is_store,
+            mm_hashes=mm_hashes,
+        )
+
+
+@dataclass
+class SharedStorageConnectorMetadata(KVConnectorMetadata):
+    requests: list[ReqMeta] = field(default_factory=list)
+
+    def add_request(
+        self,
+        token_ids: list[int],
+        block_ids: list[int],
+        block_size: int,
+        is_store: bool,
+        mm_hashes: list[str],
+    ) -> None:
+        self.requests.append(
+            ReqMeta.make_meta(token_ids, block_ids, block_size, is_store, mm_hashes)
+        )
+
+
+class SharedStorageConnector(KVConnectorBase_V1):
+    # NOTE: This is Simple debug implementation of the KV connector.
+    # It save / load the KV cache to / from the disk.
+    # It does extra work which will overwrite the existing prefix-cache in GPU
+    # - to remove the overhead, need to add some "mask" in the ReqMeta class
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(
+            vllm_config=vllm_config,
+            role=role,
+            kv_cache_config=kv_cache_config,
+        )
+        self._block_size = vllm_config.cache_config.block_size
+        self._requests_need_load: dict[str, Request] = {}
+        self._storage_path = self._kv_transfer_config.get_from_extra_config(
+            "shared_storage_path", "/tmp"
+        )
+        logger.info(self._kv_transfer_config)
+        logger.info("Shared storage path is %s", self._storage_path)
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """Start loading the KV cache from the connector buffer to vLLM's
+        paged KV buffer.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+        """
+        attn_metadata = forward_context.attn_metadata
+
+        def inject_kv_into_layer(
+            dst_kv_cache_layer: torch.Tensor,
+            src_kv_cache: torch.Tensor,
+            slot_mapping: torch.Tensor,
+        ) -> None:
+            """Inject the KV cache into the layer.
+
+            Args:
+                dst_kv_cache_layer (torch.Tensor): the destination KV cache
+                    layer. In shape [2, num_pages, page_size, xxx] if not
+                    using MLA, [num_pages, page_size, xxx] otherwise.
+                src_kv_cache (torch.Tensor): the source KV cache. In shape
+                    [2, num_tokens, xxx] if not using MLA, [num_tokens, xxx]
+                    otherwise.
+                slot_mapping (torch.Tensor): the slot mapping. In shape
+                    [num_tokens].
+            """
+            dst_kv_cache_layer_shape = dst_kv_cache_layer.shape
+            if isinstance(attn_metadata, MLACommonMetadata):
+                num_pages = dst_kv_cache_layer_shape[0]
+                page_size = dst_kv_cache_layer_shape[1]
+                dst_kv_cache_layer = dst_kv_cache_layer.reshape(
+                    num_pages * page_size, -1
+                )
+                dst_kv_cache_layer[slot_mapping, ...] = src_kv_cache
+                dst_kv_cache_layer.reshape(dst_kv_cache_layer_shape)
+            else:
+                num_pages = dst_kv_cache_layer_shape[1]
+                page_size = dst_kv_cache_layer_shape[2]
+                dst_kv_cache_layer = dst_kv_cache_layer.reshape(
+                    2, num_pages * page_size, -1
+                )
+                dst_kv_cache_layer[:, slot_mapping, ...] = src_kv_cache
+                dst_kv_cache_layer.reshape(dst_kv_cache_layer_shape)
+
+        # Get the metadata
+        metadata: KVConnectorMetadata = self._get_connector_metadata()
+        assert isinstance(metadata, SharedStorageConnectorMetadata)
+
+        if metadata is None:
+            logger.warning(
+                "In connector.start_load_kv, but the connector metadata is None"
+            )
+            return
+
+        attn_metadata = forward_context.attn_metadata
+        if attn_metadata is None:
+            logger.warning("In connector.start_load_kv, but the attn_metadata is None")
+            return
+
+        # Load the KV for each request each layer
+        for request in metadata.requests:
+            if request.is_store:
+                continue
+            logger.info(
+                "Inject KV cache of %d tokens to the paged memory",
+                len(request.slot_mapping),
+            )
+            for layer_name in forward_context.no_compile_layers:
+                layer = forward_context.no_compile_layers[layer_name]
+
+                # Only process layers that have kv_cache
+                # attribute (attention layers) Skip non-attention
+                # layers like FusedMoE/MLP etc.
+                kv_cache_attr = getattr(layer, "kv_cache", None)
+                if kv_cache_attr is None:
+                    continue
+
+                kv_cache_layer = kv_cache_attr[forward_context.virtual_engine]
+
+                filename = self._generate_filename_debug(
+                    layer_name, request.token_ids, request.mm_hashes
+                )
+                kv_cache = safetensors.torch.load_file(filename)["kv_cache"].cuda()
+                inject_kv_into_layer(kv_cache_layer, kv_cache, request.slot_mapping)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """Blocking until the KV for a specific layer is loaded into vLLM's
+        paged buffer.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        return
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """Start saving the KV cache of the layer from vLLM's paged buffer
+        to the connector.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+
+        def extract_kv_from_layer(
+            layer: torch.Tensor,
+            slot_mapping: torch.Tensor,
+        ) -> torch.Tensor:
+            """Extract the KV cache from the layer.
+
+            Assume the shape of the layer is (2, num_pages, page_size, xxx)
+            if MLA is not used, and (num_pages, page_size, xxx) otherwise.
+            """
+            if isinstance(attn_metadata, MLACommonMetadata):
+                num_pages, page_size = layer.shape[0], layer.shape[1]
+                return layer.reshape(num_pages * page_size, -1)[slot_mapping, ...]
+            num_pages, page_size = layer.shape[1], layer.shape[2]
+            return layer.reshape(2, num_pages * page_size, -1)[:, slot_mapping, ...]
+
+        connector_metadata = self._get_connector_metadata()
+        assert isinstance(connector_metadata, SharedStorageConnectorMetadata)
+        for request in connector_metadata.requests:
+            if request.is_store:
+                filename = self._generate_filename_debug(
+                    layer_name, request.token_ids, request.mm_hashes
+                )
+                kv_cache = extract_kv_from_layer(kv_layer, request.slot_mapping)
+                tensors = {"kv_cache": kv_cache.detach().cpu()}
+                safetensors.torch.save_file(tensors, filename)
+
+    def wait_for_save(self):
+        return
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            the number of tokens that can be loaded from the
+            external KV cache beyond what is already computed.
+        """
+        # NOTE: in this debug implementation, we assume that the prompt is
+        # cached_prompt + newly_generated_single_token
+        # Therefore, we use prompt_token_ids[:-1] to determine the folder name
+
+        # NOTE: in current v1 scheduler, the num_computed_tokens is aligned
+        # with the block granularity. And it expects the returned blocks and
+        # num_computed_tokens to also be aligned with the block granularity.
+        if not self._found_match_for_request(request):
+            return 0, False
+
+        logger.info("External Cache Hit!")
+
+        # Now, first num_tokens_to_check tokens are hit, we need to prepare
+        # the metadata for the worker connector to correctly load the KV
+        token_ids = request.prompt_token_ids or []
+        num_tokens_to_check = align_to_block_size(len(token_ids) - 1, self._block_size)
+
+        return num_tokens_to_check - num_computed_tokens, False
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+
+        If blocks were allocated, add to _requests_need_load,
+        such that we load the KVs in the next forward pass.
+        """
+        if num_external_tokens > 0:
+            self._requests_need_load[request.request_id] = request
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        """Build the connector metadata for this step.
+
+        This function should NOT modify any fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        meta = SharedStorageConnectorMetadata()
+
+        total_need_load = 0
+        for new_req in scheduler_output.scheduled_new_reqs:
+            token_ids = new_req.prompt_token_ids or []
+            mm_hashes = [f.identifier for f in new_req.mm_features]
+            if new_req.req_id in self._requests_need_load:
+                meta.add_request(
+                    token_ids=token_ids,
+                    block_ids=new_req.block_ids[0],
+                    block_size=self._block_size,
+                    is_store=False,
+                    mm_hashes=mm_hashes,
+                )
+                total_need_load += 1
+            else:
+                # NOTE: here, we set the store and load being exclusive,
+                # but a single request can have both store and load.
+                # NOTE(rob): for this debug implementation, we only cache
+                # the original prompt tokens.
+                if not self._found_match_for_prompt(token_ids, mm_hashes):
+                    meta.add_request(
+                        token_ids=token_ids,
+                        block_ids=new_req.block_ids[0],
+                        block_size=self._block_size,
+                        is_store=True,
+                        mm_hashes=mm_hashes,
+                    )
+
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+        for i, req_id in enumerate(cached_reqs.req_ids):
+            resumed_from_preemption = req_id in cached_reqs.resumed_req_ids
+            if not resumed_from_preemption or req_id not in self._requests_need_load:
+                continue
+
+            num_computed_tokens = cached_reqs.num_computed_tokens[i]
+            num_new_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            new_block_ids = cached_reqs.new_block_ids[i]
+
+            # NOTE(rob): cached_req_data does not have the full
+            # list of token ids (only new tokens). So we look it
+            # up in the actual request object.
+            request = self._requests_need_load[req_id]
+            total_tokens = num_computed_tokens + num_new_tokens
+            token_ids = request.all_token_ids[:total_tokens]
+
+            # NOTE(rob): For resumed req, new_block_ids is all
+            # of the block_ids for the request.
+            assert new_block_ids is not None
+            block_ids = new_block_ids[0]
+
+            meta.add_request(
+                token_ids=token_ids,
+                block_ids=block_ids,
+                block_size=self._block_size,
+                is_store=False,
+                mm_hashes=[f.identifier for f in request.mm_features],
+            )
+            total_need_load += 1
+
+        assert total_need_load == len(self._requests_need_load)
+        self._requests_need_load.clear()
+        return meta
+
+    # ==============================
+    # Helper functions
+    # ==============================
+
+    def _found_match_for_request(
+        self,
+        request: "Request",
+    ) -> bool:
+        """Check if the cache is hit for the request."""
+        return self._found_match_for_prompt(
+            list(request.prompt_token_ids or []),
+            [f.identifier for f in request.mm_features],
+        )
+
+    def _found_match_for_prompt(
+        self,
+        prompt_token_ids: list[int],
+        mm_hashes: list[str],
+    ) -> bool:
+        num_tokens_to_check = align_to_block_size(
+            len(prompt_token_ids) - 1, self._block_size
+        )
+        foldername = self._generate_foldername_debug(
+            torch.tensor(prompt_token_ids)[:num_tokens_to_check],
+            mm_hashes,
+            create_folder=False,
+        )
+        return os.path.exists(foldername)
+
+    def _generate_foldername_debug(
+        self,
+        token_ids: torch.Tensor,
+        mm_hashes: list[str],
+        create_folder=False,
+    ) -> str:
+        """Generate a folder name based on the hash of the bytes of the input
+        ids.
+        """
+        token_bytes = token_ids.numpy().tobytes()
+        # Add mm_hashes to the bytes being hashed to avoid path traversal and
+        # to create a canonical key.
+        if mm_hashes:
+            mm_str = "-".join(mm_hashes)
+            token_bytes += mm_str.encode("utf-8")
+        input_ids_hash = hashlib.md5(token_bytes, usedforsecurity=False).hexdigest()
+
+        foldername = os.path.join(self._storage_path, input_ids_hash)
+        if create_folder:
+            os.makedirs(foldername, exist_ok=True)
+        return foldername
+
+    def _generate_filename_debug(
+        self,
+        layer_name: str,
+        token_ids: torch.Tensor,
+        mm_hashes: list[str],
+    ) -> str:
+        """Generate a file name based on the layer name and the hash
+        of the bytes of the input ids.
+        """
+        foldername = self._generate_foldername_debug(
+            token_ids, mm_hashes=mm_hashes, create_folder=True
+        )
+        return os.path.join(foldername, f"{layer_name}.safetensors")
+
+
+def align_to_block_size(num_tokens: int, block_size) -> int:
+    """Align the number of tokens to the block size."""
+    return (num_tokens - 1) // block_size * block_size
diff --git a/distributed/kv_transfer/kv_lookup_buffer/__init__.py b/distributed/kv_transfer/kv_lookup_buffer/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/kv_transfer/kv_lookup_buffer/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_lookup_buffer/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..575718de21a2443250e3c9edd3847562beb348f1
GIT binary patch
literal 190
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV#p;*j7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs!vv#g`N%<`t)<
z7J=9~`T5zU1@TFxX&{04_{_Y_lK6PNg34PQHo5sJr8%i~MXW&E7=gGL#Q4a}$jDg4
H3}gWSF;+6~

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_lookup_buffer/__pycache__/base.cpython-312.pyc b/distributed/kv_transfer/kv_lookup_buffer/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d64d02b83bfa177694ce76c84121a280bf7db18
GIT binary patch
literal 7381
zcmds6O>Er873ThGwfgf<?8J_cj#W3+y3*=UBWacXKz7nXu%j5UVzhFMT`oDRWyB?!
zAt`wU11*XiY7~W$ligF1TZ3HMOMC6T7wb@<*i(R<iXJLkDhl+}@6C{0?vLcQK#igV
zG)vCUo0&K7eeZjtKTJ)PH9U6yXV%h7n)U^K#7`l5IcVVJp=N3unwc@PcBY-($hLDE
zxeR^h?EFSPt9@TH^B-wufoDI<sc{<xSzAQy7%wEXMOj-y?Rctotdpyh^}l8`t-Ri{
zeAcvV&J5QHbj$IX&K$nO3|seoR=;-Zy6bL*-j%S~<l>6%^EwM!dcbtsc6WSc@@;Or
z9v40f+;Y&eoGs=y*|l5D(2W*n)T9TNOLBb%@mvI!vni)YI&miu7WdhFU3I8e%9azj
zn20l5PR|;0ex^Gn`!M99Lo)bX%a_7pK_tNxu2=K9&5ZzJn!;@li>a1V`_^sWJ#zCm
z16S~8@4bx0wsl9}<Z`lWx30>~$BQPN`c~V6mbZ9kaa*@T&U}cb0a2$ND`>HX?psFL
z3xlOi9;9?97tDPe5}gV(r8nGd&UAslh93ys2)M}_9O^fFCnpz?T70$qXEK&bwwqhI
za<w}h4{h_H<(g}TvLsbTW~Cj>;rpS+wT%o+GHYfway)P5&D=-%&!YYtg-*6o=$?#r
z-J5Xt>t%*#C0ZfvF4_TWx&k`s*HcyYUNc~p$wTk7l!Iv$549j^_(`Uc(NCfIs_jB5
zSxT&Js6gQSX)?imHxvf<p+H&+J<{UUmKkgxT|8K))xhD<stk;D$htzWH=G3Oq+(^1
ziLCw&u$>lnm=%y%$A#rOn_R%sxyjAc0^Zdv9N}^zgch~t2CHNrZMXtA-x9(V%Y7?t
zhkk$qX3~mOFL)F4!$xEhN_!;h(@gjD2zixEHxIvP`lM6#j~^}tZEwl5yv0Blu(rj!
z;p^Z0#@6e6$+j9xUI!-OEN$C%d&z{C39AueVM|-vHCUVD0}JR~IcH62eu>Vv>UFvW
zgU)34#UX>J%7*ip-zOmav3B@^HZ%9Qbm4%`6?Rz^JP3ueRw;H%wVI>1d9Bth*J^Fo
z3~hR!tkpgYbvtSqtJO@`sMSOs!^I?uPc<<`?-NuM<Khfn{FhODq&>-I3#I*%R(#=U
zcDyimki**(dQ;<QNS_~&G<ptBKy5>QkmZFBXxf3t%pFmmKcc>HM1Apy`Z2TAoHWN%
zJ~#%iJZd$i-7!r&a!smrjF*m>OSYfG4x2@@oSJdGQ>sjKPYnkMy@=zG*8ObH??d;<
zN2G(Q@Z$-0+cF97oCN3)OCtE_Vd?y}Ta_r_jFu>YmjcsJNKt;c2xkK9)&h5nJN`2K
z9KUS!O+OwZIKqw}$Zah$;abbUuZHF5q66gj5%e4k@~C@SQtXwB>_#X&LMn8Sqi<S{
z!FzGCt#=^8?vRh`+qz}zF(4sygbkm<K{J62wM+s4+K-%&%@ca@yE?(hf`X#$>(}2V
zFhXc|5Dyi8L6!V&z=fmRiM%*~GKA-C%ixs-S|sy5Zdgr<%rs5145b~a1P`E=cz7ZY
zb0SW;h9yChLR(J}YwxVTwJgOOSPHh=3<ZSH+5_$YDhXt9<_0i_V;`2$VxBH&|1=T0
zCes+95CBXDGXchfUihr#+9sj*JVyjh8WQbNGY+mNFOg*;BxB<B8<Jz(xKXJp{FPV^
zNbjMuv_8k(Nz9cq7156~FW4%q3cA7z!#;f+R&;!Q+FMkzR9_|b*xoJ6G`XX?H(`!8
zQ#GI$&^_Da4)HG{2e4Du<TkB-M;D}|Xorf)MT(Fn13ff49`V2UYzBvtI2j1qRv;-D
zZ7n^sI`8ge+8Mez7*#h14Ri}~Yu%z6A}G4A83exZb9~_cBRIjT<dRULipl*%F%@pt
zv9f097(_yK+X^~lCSYT5F+nFzD{s2QX31_;;8WV8Fq_y%y<Sh=RlK{M-kWroJM7!+
zHnz8*4sjvU$em;$2}wS_xB7#(;R%ryG($u_a$GoC%MD?s5)N8AcwVsMg6nODv><;$
znh+6Tsl$at9@q!?AlVnWUu<NiWq_>5y@#4oii+0LTR?oktl@&2`Vv_LbHe~gNstUr
z9XRzg&sq_i10*M{FE$VQYqYBC(iJKx#Ep@Hs0@=hG1ztG2;imFC@fU?m}rIskzNJ`
zk!eu<Xb<aOi1Niz5{~oIei@O2j1n@!ccWD$F5I^r+R})}3<X*7kh}IgS~mSFqEa}~
zv)TVPcNHZ7K&2>%9*VP6yhsI-WlazV5t2L-P^isIqSq~|v~l;`Fd3<;rte~ePoxl>
z^GZgMPRaNTAW8BZ4?1J$dQ&Er()KS=rg<reeGI-Slh`9u&iJ^<>i%;;@{_YmBNBKs
zut(ui)pNc1w695QswCqS$3{xi4{k~OYLnH|!|QUpbzpa$;G@3gI=sF>c}^Rt60lV2
zgv?HNKw>1vN`%G1jdFhp7ix`Il4SY|Qnui2N@pQ4QC{3F^m#Mv5fzzXxy`2S>N3p7
z;t9x;_c*hT$V>|2{s%BA(agJ20Rs?eBiFk9j;CVP?KDK*xwFhx7`00kOW5?Q?5g5W
zbS9~NJ|8#D4Y;XKz62{*PC1dfiP?Q+glDGO>CP)o2`{I-vr-l_Xc8x=I7!7RDk$CS
z7NmB%MHNBBEY;;nKjIbYbDD}?E=Vb$pyI3e^M8wia=|mm1*^ya_p_`p_xahEAKD+=
z`vtu37q#ir58l83{{9$!mEx~)`YLND&OEqx|K9!teNAd7&pw>|cyfP=zNWSE^wSx<
z$;?v9-G4J9r#M%b`_t@&Uta&k^<Q1yn_b$^QN?R-{LcQ3{rmO3*H&f4=i^g9<qz!p
z_M`Q^=?i<~b59HC7Nx0pQ(K~q82C#bBzW>UxQCxnX)4mc;s->t1|Bmnlf#0UM|xLG
zrFSKjP~wj9m~qX#IhGnT-pN-=bP+UgZKnSP$SMv0*%@K%yb1uAycR=@jxWtPuGs?1
z0MQ^g9hoXV^QtYr_fo>uof}CTzIUTMit-QcP&x)WY~#+660`W?C%z0}o46GT!6@aj
z=qgpXcI1%H!h4;iZdizq#CwH-t4vPtI7_`oX~YT(9Si9wSgMTn$dI8E<Y_{tCPahe
z<*O-UQb#Unk=>$O$KI{eB2$h-$ca3Q)Q&8HNF9(Ffoz+bav&*Y5%*ILX9y}_leo<V
z)FYGNgi?%>&b9|uEoqR7GQD`cCaL|u5oCW2OOe*Y^pq+*-AdA>D9H6V$uOuBr<;dz
zKr7!<ni^11%#Ifjk`U4&re#Rl4P`)s$=+%I^pH%c)u?yG@dxUljdT_i^&JwHa5{Db
zVM}2-O&*cY(SZTG9C4H>3C}eeBvh?G8sy+yyJv=wp^ECC1CkD+`@oAS@Het4tU8{W
zJw`L)sWe*{j#AeEm!OmthnUjK|GD9eBp9PjXqic$LqZqbOf=O$SCDK<&qw~p#SX5m
zQ`&nzR+Uv8gRIIYdx+UZ4p-Kr><QJMpqqG=3JU+nQHUHcLVSsOGAh18#XJ=Q<l)Oy
zN5zlu=esC~JWPN*oR^XPB*??miTwh8K^zo0cx3L)%<Yd+Rf#ykINl;oKy|N<7+9Wp
zFnfRYQGRcH_9+dFqCVbK)Tb3xN|FL~b9%!NIaH{-Z@CFdizLU9YaQ4`xAZNfez-;d
zj`$k-kw5uwpxDo4GMOjEiA?_Q=e5kmFSN<S;!I}lQSMN~&*8=QGMTx@=Pn&;^m6EB
PFXQv2%HK5n%2oXnDZmx~

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_lookup_buffer/__pycache__/mooncake_store.cpython-312.pyc b/distributed/kv_transfer/kv_lookup_buffer/__pycache__/mooncake_store.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ac9938c0d83aaf4ee5d5dcbf9030e4049d7d87b
GIT binary patch
literal 7413
zcma)BU2GdycD}=zAw_aXQ4;k}*<;y~Lfay%xJlM>V%M^M5?hwN>z~#{+6l!OS)@n~
zduJ$H1eJPS7m(2uvDydOKnrW1Hh~xDwpgJ1xa&=U0DYmBUYMQAfQ#Ke>`TE|UL;K(
z+H>!4hLkF;b0yt5bMLul?$0^rJLl@(d_E6?lIH$8`QPmb{hGX3g|87?KLKJ5$tZ?o
zMs}o`7(<_qm;;_{n$2)AjxqcA7!Pe++L>|1nrIsjv^(aZv@`9^2r+@uuCy=XkNGLx
zly1%hVgaDtu@>1AYjq$cptL<=%o)Uj3g<vmNcP@Avhc`Zwmzy&FV;@`e9-4t{Eyh$
zn2se!xVi8@p3Cz|O`J=n6)~Y^^>{L?iE%Nj+z=D#xTc98oLALsBEFzp(p9W{AnNmR
zU5uyG>J3ell|?13<`k@ny6VyAli3APofFSp6%+Bqydvs2p4H|QEE1l$o>Yl!P0ZzW
zJ(;~uKVtJLSsf=8&6CXPDog+?8C6$66#eY*Y+O@hF|Dc#`J6bLpCdx!Sy{ZUn4*-M
zNsY?1<Y}HctY%=gu(+D6ZKETe-;#Zp2{VRUj_Yx{Sa{*mYFs8yExxG0({nYQ&YV%R
zbII%Q)>50#7@ffwObQyk$!t=W((3i=3QpH{H^8DKi2tL6x!GoI>&q>8UqcE4JwY+Y
z6{N5VCo^wDE2SKi;-QVTDbDWYZOUm=E=oD&CWV#VGMeLL&mGP_f0yEveV`llmZl{k
z>^IuB9j&=Y!=F|Y@w7CrYI-)FQH<t{qQ}V&Nt%Ke6>PL!Pph-Qp()ohaA=a2EGR~c
zIm$d4v#BYERb5S}X~PS8l1wNPmDiq$Yr2AK(xkX7V@1;pH_<>T7uV+vCsy=4&L(Qg
zP4~_VHQCy&0<^9n-R>(Q%Lv{;%Zy&zeuPpS9k;D2G8XSLF--WeOoc(Z%VPZtN6Kx{
z^{4Ex#uj()XJ66J>C}-BiPl&5ki_eP_1#x+I%U@@IGSYlD>yvXynp0<RNI3~=pY(F
z8gs+JplgVMpO5a{WUrwcOjsx!m<9s@yQ1y_tU{!A78lQ6x-diCNMr_+)52sC*heZq
zshXiOSUr)$0YV|%0*|n3PhQGaV=_2!AX$S;X=)aegT-Vo4Hm55=pCP!Jbh*QvNSb)
zVeIs@bZKJh{KU*<>C$_#38UNUoW5`d`o^wIPELG}c7<8oN@dI?vxXBqA1p;9+9QhM
z*NLc}$whO?+^`<U@R8x0`L~XLXW=a+noiC}b4&WXnvE`kV~EP&c5rewuPbtNVNtRi
z9-&QlBbg=<&D6Z8q!Bk7$t{7#gM*TY+86qEF~o@7JqWYX9zt~sy>udf>%H(t(mK1@
z-o18h_1b;y@BVCM@=F%^`+n2hU+F#YaP+}wY4FW*?^~5n|HHEn&X$J0Qw|-kh=V`$
z{J>KQ3_KYc+hQFD{8cB~KkzX1AXNz*d@^tn+V+#Sj?h|cHMZ{gWTM>udZlaML(c=x
z`a3`FFL%9B>3{8qhktOmG(2AJpLp3R1UywFxIJI;@bMMtYmFTHM;&7$?BfxBY}B>Q
z_mQn7e_J`I8VxvALn~;u3m9h2z?V@G-SX;|=R|cgyv^uNYrt*>TXzhXP?#;8q-txP
zv!${W^t7CkNX{hzU6NU<)=G9UiPbFeZQ^1aC*!keC1M26U$`)H=JdG<>CA<h$@iwD
zi>EKYTR3qU>|nP6;?QpVLn5G2R@FsK(Ia8raHyK$1pNXD05tJ*UYWpH#Z<fTepnr#
zOTe5nRTSzUHL^7#-UqeeBWNX2O#vB&1H0+bHkRWsN;?S^)uqtBhsPfrFAbb1_r6_f
z>Z*8qOWuQ<t)WWbJg7sPzlt0_Kj>WG;M3-#8_h>c!|#-vPnMcaZh-{AP6uv-C!KEC
zZ8S;L!%LFkk)(_&=fR;%h9F6Qo{y)A?}s-Q%*AMyq<9v#!Hft<D}cTsXrv(la5JyU
zboH2M{-+2Jk&lq|nj1rGKLmf;2T=VLdLHa7bDfp;t}@qE=?;~-P^Gh{%=J|KEq{5w
z(h@9l!AkGGGPmzJ-%@o1c+dSyRRoXHz~~F|++vZlm3CAQ0rkS+;!n}GF9>CRoP2Vd
zI$Nr@^*Qv^p<HGZcFrL??m)mNvv&{#dmMl-ueegg>+LAAvj84fcFE2;fNmJ$rrfUI
z#|_Z#22RiKm1|0b5FqCLRuUmJhzU#1uweMMX%Oy%87CSIlprHD<9~+MHRLvfT9jdy
z0V~|dfr<_*>?k6MaMGeTSyYNRi5;b3gtf0oC!j$~iU7rqB6F65V8B77>``^L6w%Bb
z1vqVFt#_q@b=so#;Owya>(4znyXqVkwFhU9)n9+^!AW#}N7;ju*vgKw2dB7$4PLD%
zfI&+T2k3SjbqFAPnQd^z^@xYP?U2zj`yqRSxq-|`0Y>&)vSDNhM%GVs!0M?#WxmK-
zkqU!uLo#K`(}@qDg-YRGA;nqbc1Ynq<m$5uyJj#^XYi|CmZp!_A)MwKg@3r1Rv@wm
zJOGcBPK%iubc?e~;+#q{ACkO~2#9dte4>`v=;FMt=d{si^m<aC&(B5@Y6b!UnhFia
zlTqt~(OC$fqZ!DwqOzKZD%t34KADyy83?OX5$Chw;`H=+@dgMHtuYXsXO#qm4w1qU
zt4)MPh+6VyW(CPnTm}@=@`(fl)N}cCdMQ%ag@;UjE)HRbJSq-og*Q%TMTMY_s3sD5
zj6uYWd6EqhdDcQr461#J3=0PhzqKzB8q(lnu&;*qy-ZHUI)yQVH#>;)q^_L06T@j{
zN(PtA&Z)oy!G7*rM1lAak<Zhq8t#dk2_;AN9Z;0hl=K{xZO(yF3|6_B&`8h#(VSSr
zN`NPts7ZwmYX|9hN38Y<;Mcr>uD4LN$>nZ;CY-7Ug6`IT?;a_4A6ps!=<H_C@Y9|X
z8$Bn=J@3H#xlN(<<8yb<mAWRL2$Ro+z{h9ro_#8WHUvP>;F@>U`!sNPBXHP$IkFKr
zV!uQ;0#W;Acq1@uzZ}{K9I{`AHUdNT%g9Dx<af<YKL1xQyHTL`1>)W9o2`9Shoj}q
zEtUhsZbHHKs+;q*e^X_l^P87PQK07qa=2T`WT)>=m%2~<^t(@lQx&1*o6Y8~?Ohj3
z-@EcexJvq}JdF8TI{}+=+j(XL-90lj?nl2EagTf1UyKUlPWCe=5A<h#_e2N#S!d^X
zg#9cc5PGz8qJ{m}79QwrNgRkW!GrjeHE=JVGBY>|beO>;fo+Uz_(WROl*0BDH9{Nb
z2`foe;GCSu?V}KFunWqP!7q{^YKDd-2^)QYm3)!nRs@JOK&kJyfk(8nNNB8;A_E9k
zLp<UEmk>S;UEna>65Lxz$xJT&DNCn|&p-zrhssJE%%F?~zCz1(9fPI}VI+VG(-x4>
zQu2l>pfWReXYL<c=YJ&(R#_zU(Zy_oTrzDs_1A!asqZmu3lNtbMaQLvNke!^Cyl4b
z_lY3OB5*gn?3^gDFA~O1s9>TV)Y87@U-jSD%7KF`e5E<KBA8PolB_~3jZQHQJ4$vp
zW%V>XcMtRzU{$zdj}he5c9bk!umP5k<EJHMM;2BKLPfSAH6Y$+NBNPBG|QY$GE`cM
zjv^;>e{bjc%e<RxwvAdAAKWeM5|M!3@C|z70{kQSB`ttlL(5Lxjx$nZb9WTLKWBZs
zZbvV&(>mCq6HwN*?EKK#fM-pGzKeMsuF1}r7jCMJ7$S9U2A9ao@!$S06i{Ja)|YZh
z*kL#!<<L|NS6}AMOj0f!nWUINAPAHdG9NG`062KHG})9$L1W+cHj&KXGKdzb<B!Zh
zB<VCo8yxwh!6&n_a?{`e!4mWM0xX_1>Bn9-0$O~IWI!+-O(K_W_)X}=?-CX_kx513
zw@BkCRB&ZLd_~>(@I}JvtF5HAFfX0IG`plL8lVBj)L{@XfMVtnlQ68%X)UA%1+a8#
zEgwRsb`L6QtVjOfACG=|^y%Rf8;4K)bn%ymC+<zGO|MQr4G#V?IQaSNEAGv%zK6mC
zVg1@qlz&<Hr-dh7V=KPRj=>)f{4BFEbh+GdWyM={aPBFFSUiA4&Fa0s5{`aVbHY=M
z?Vu+=XP*euo2|X2(A(wKcYb!PBur9&JjHyik;wArgP}1NJ!aiw$Job0|5${59N~f9
z<~MAkyhDwWDl?4TSyGLLT<dJSC@VVP8qW^e!8z8P<}ydjg}9Jq9w?qt&IWUGrpT4g
zj$(!SwiH(pl9h$`i4)Lmvr5^fQy(q^r)417;465WZ23(^J_YyoJ4?~#xP+G29bxVe
zI2b#n*zImXW*URlhLG6aogxW|+3g{5*j?B^rPPg;UYuF_XBt<d6@n+OS>Y~>yILU;
z-e`r?&Zv3NpchZWE*NYgmk)bQBO_;q|Cm&^d2P2x5(DC4GK@>=N(Nshyx%474qXkq
z>y~J6<cb)_NEh57lSovm8MSHc0o&8m+Rb?pSsF<ysbSWQ^DH#|KjVZQp~m?)WYEu{
zA^=6Ls;zTvbaiy?<m$=wgXOltmGLh;NC<594Syn+`;M*5RN4=&zq`>syfRtYKm5tU
z#{SWg5Zdel13UUOG_nyIDTj`gyZ&(HJqRd*ee2BMo_xuomX0-HRk(k3{o0d2^f&E2
zYwxeVzdlfIf3505zBYiyV9(m|)#LZCmfH@MghS7p+rD~v00p{9NcC;4nIOUK-mzx%
zxY<2+ihbPGKQ_uf9_4`!`!GR#946IaQW2fRr${wMsw1Q#Ct^4+Q~ybwCPj5joEs*a
zNaHJt*rwMTA#J1@hd=ETsP3Su;{f0KJkYbn!}G-?!}7kW$Hfml_XVmvJYiD;?H?EK
z7Vpa&&HYsuX=*|q|CXCjtxmq3a>5fhJ<T77?uPDj8}87Si!=p%{1ihO2w}^ry6CGZ
zhm!j``5@(k=XOCaUC?AMf=oT!X}BZ_awkc`#2sRiX~KUQtbgMu8YWK7+?$pLe2JLw
z!;#KEB^B|J_$pL}mt5yU#zrzKy3xk#w58#KH_~vyOXzJEyb<yrDonzXnkX~N!6ZDv
zB*(|Sq@pKEjg7=5^dNSekkRzEd3Saar+|fcTWt=iD$6j;7fznxw)}_@{sXz6p##50
z!ZY+H{Qei}e}*nTLkFMld#!|eE1|&>>i$o6@ZO)4-TQ7iVLKh(FCB-NQ&j{NTyHr5
WkbrtQ!+gLn!BTMGcZd*llm8C~4~&uk

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_lookup_buffer/__pycache__/simple_buffer.cpython-312.pyc b/distributed/kv_transfer/kv_lookup_buffer/__pycache__/simple_buffer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5cfccb6c280107f5e9d59bb0cb6bfbb0855d5396
GIT binary patch
literal 10955
zcmb_ieM}o?nxC;f#vg+*V8F%%hCoOhf(c20d^Jf!KH7$owE5^3rE!dB025==nSm76
z^wMs1XKr%}s5(LJdP*v-RH9TWRV%gk&#Ak6?XB+q@dUDV=TeEg?P;(7oZOOC@4A27
zJ<p71Y>1)R=w8G-@8|P=J@4=Nc>OQM#Wn&$#Psv<;Rb^E9cHvZWfLn=NX!x}(Mzx-
zYlx7&Bz%n#!?3Z}NUCL~UK5m=BGj<C*Q}ILk)mNsuSH3lBi3PCuZ<)O1ZU&ycS)6U
zFKr-B5^T|11Z&~Uca7Q7;&Fq|8hjNR*`6I9iEzVQR1}yX!-fTs5BH6V9Lrqc##_dM
zkx`D>cItwU2?axg93%3<sL;>x%rF-k3`WDku-|4o#f>v3xS%-7bHaXG3v(=w%Bc(a
zJ%_`B5ROHeQ6U^1V9t#9ghCN!Bs{_ie(2W|i?;MdVxcQoc{v;vI9|NGgUJ=Kd~75j
za1kyfUd9gR1&--DbDj~x1JR&Lh!JB<a4Z&P89o?7I-yvU4T~@+w0|ZTWh0!x^o{o8
z8ieo!hxM@LU|89JD9eoSv9U1AF@3?%l@VBw0ISNa7RcKeMi65oj0oES4f?~82m^B!
zgV7MjTpi@1N)5|}Vn9W&2n&o5iCy*EzQH5t@sTpca<7hZkSIHKp*t44GCFcpnby&u
zfTgxm7tX-OWOMd#G%N-pv4H`O52=T!#&kBbve$qd#1X(bM6ZD*IU{R;e<Nq=H?yX<
zOuZCKab~V)$eG_=O?%+Onm4NLHvtcsdab}k1u3xBi6Wq3W3ABA4lQjgy&gTKrP99N
zz!pPWJL_17YRNj~&UMO5*C{V6T;6YE%VB()b-hLO7PA!)JJy|xy2ABllwJRNYgYFM
z_Zd#362>f9cbxS`_<vfnaz->;1#@t+Zdh^YxYg&8>9b)30+j`2yLzJncr|4!8x(_T
zvP``>0lYZ@aS*P@V91omPnbrGS^0N}W(hHiLIiO)+bB*1^fH!&9B{1~;zr12@rfWr
zt5!awpr@8ozj@TmT1_0O0S~GnZh)Lc%dwc#DT)<Z`B0^n%6(aK0Fd{6)7|XMpr>}n
z2!&3u))p|73ics}GTD%~Yx^01Ilv~HUfFZ{+;J>zVY#s|Kn2f*#+a*!9tyxQK}g}2
z23Y}MBMUFF5FpSFW;m!|B0!E#P6t*1EOs;ma5fqZ_C)}qV@w197;z}ZM7gUl5a5g;
z0yc%Q8WDUrEQ$b*j}Y@S-J<}%k#Pl9l^MpOkW*$TD02#p@;pe3>{J;c#$4q9&vO$)
zKvsILHxZB++J@<zrEFJrW43Yr0Y7u{%z2;Qj>p63k&U5|QGiCX+R*3VkzZu9%9OG_
zk2&RvyiAr;V-Z%isyhs8m#tlzWRR`d#-TADxr9fSldH1(763WNMxcj6CdkT^7~?~O
zvKh8mi1Bi9G{z4HBXB2B2+1}s%4X9(lWYQM)t@8E+kvuxw*+_KhrU*Ec%&6BS&JCt
z2RO0iwb9Ofd#`kIt&wnF>&Un`7>l-!MIytkd4jq1%2+@X!<ddJvLm1_p;b_>aW>~4
z8J8`AfFe5r6BYSa+^-dTaYmORx<)*#A$E0sRFyDYw=a8Z5~d}KJH4e7zndR;Hm5v0
zB+rgTk00tCX>XHS@7b(mj~v5n<JX%u-@177;(XhD!veRo=^z$Xr>kodroSp#fiVcV
zRE%ALeGBlhFi7$!%kis<ka0l5={Nvg@P;dx@(+-hCE}nNA&yQO;~?dflnKfVN{WIq
zHD!*Qu94$LKou(6+7vgdt#ha(>f^+XceA*ZS7y@6G%T1b5;cvD7}AjkCX)?uBTK}K
zs)@Ks{c8PqL%irLF;4nSJqjm(gJYco_Am~Iqp~r=MR`Ob*#a04io`(vTli`y;A=6e
z!>Z!!zGe4J%c}b&+w!(kNo(amKLF$h#6bbk5V;NmkEaf-F&q>@s}t6;Mz**e8VP?1
z(KRCDBs|;a>m~P&L~+{f(^3^pw_lYid<k1xPc7TsNjsCV5H5GdOn91Z4@vGe?6f7D
zdT1spJ@1syy|U<Oe*f&krp1=Sixo!_wg-0SjYCt1=33_M^VP}fJqyF1o%*ad*>Psc
z{zAHZQ<C1aT;k+6!F2d4h<ao*&w<Jr4e25TO7VCUW^uq4BePs9dJfcQO<=qULgF=Y
z2pX*oadJp!hFqQ24{G&;f3$W2>Ly@LAwxi~gdPPLMASu6A+dI48?4O<J#`VIlhXz0
zB&=Y_kt^3yL#0|O_l=Vp1Czu!;WPA1Y(b3~A<3^JuOB&T8>rr#PtjIE{`jmsDv2@;
znl@Sniny1l=;$yP0ku^eAK_GfHTA_}P|_cX1w|D!?MN-4BBRfsGBKW(fQO{<okzL(
z*;WBS*8phC${-U>t1&8%+NySEkz_wa*NAjUMY5zmX?ZT$@Z2KACG}|wowB&^S=@6c
zQZ=noP3vM!+ro)Yx<Bmxs7I<fDp`)+2Vk?8-Z(gQ@SXNs`)}^QXWx>p@XlVGx%l>_
z#0lts!!hMZSvE_S&9^)5Ted4)C!283R&kpSP4B~0^3|O<De7D~gmAwm=)h19r>!e3
zxkh<>r>iZG)*|1X1s)g3aZ*Idq6F3;>im=AfWIaF&Y*F_o21XE0?|a-`RJ8s>}r(3
zwJ~_IjIT(xg~2{kEgJQp&F2(Z$G5-;ydNUj@w9;E8Q4|Fc^;&o3Hxd%z6V;YI`Pr~
zNVh;fJ5AKCKIygfy-4C&h^`S2>=o1OJI8Nz-|Swp`_koAsq#jtym7I-Y2Nig^_}Xw
zHBxzdl5YR9q#O{(Rq?f>CRx|^apQvc(e{O!<fcQ5j>AdIVf7H{aCBr;45(--8v!?E
zBUrjJrI@<1c`(efTr`w_ck#|DnDSo`KhY`Uo!;P-C&`>hiW?r2bDVL*hBOU%G>wl<
z)3_l`V;)V@W79NkNYj)@lX`5L)P^)EFa``D`b}|afSNStjET7U7;&R0WEcRfex)3g
zh$28!{pP?qXG6S5yDKw>>lG$wJ*k&WTA+_^5@<aLqMaa#!q^<QOh7ZJD`0wGIR-as
zP%P8v4C%&+Rsv>q9*#fZ2%UxJJcQW1CTQ66#H%5%!)PF73rH#03BV?hllpCddAZk2
z0J1}<pR5USvvwxR%nF>q5Gn_2LT)uIxYt-hLtd1KAp@zL>{X(HXd?vjD&${=Q^dO0
zj4u;cNtBse!P3(7ZOwB8-kko?NW`ytl)yId`~AKWz5@nV0F&>8luUsx7v*H5Fgncd
z$0`>_$OJq}YuT*&bI=piH##7jt_H&*U!v3mM@B%9%I0WH4EK+NKvvYj1K9N-Mo(dM
z2&2Og>84Lu<c4`f->lJ&cDjHP1eHD|sG6T65M)72$Fg?9gm*O<uc~CByC8r%1qOnX
zpev^%zc~J0_q%|_ZE5e;l($9lwk&#E6Wxf@ArPnsZysE-Z%da|%=%`0Z#O5pHmu;@
zIgcj8l6`yH<(WM-bL#Eq6UVVf|2y2R$j!)-y*W=dFIP3(K0DtqKf2JLtb8hAf8eV6
zW%HuD=a<c&HqN<Ho>s}zx?sBRY5%NQa`!B{PA9C(#ichc{rpn8q&!tpCzaIQ_DLnp
z^K8ohjO2gjUdc0{kCs-=(lc~&(}^YL$#i9Ps<KI{Y?}8-mAe+srP@zR?WgZmo=&^m
zvpq9CDc4rXwROqm%NU6&Z-J(Zm8U@r6_=*yntOE3ZL384?$b4C+Ii#D)TtC*E77%c
zKV71mv7~3JCq>swbo~<D@O=g0s7YM<pYJHbbDI2pu{Uw)2LX@$*A4EIO_qOj95tP6
zHhxk5v<*K0)J&b+13(7VTEMg-rqFs->?C3o)B_*ca|d)kg@I(VYNW1`&5l4=2%y%c
z)~)4*Rh54Zqy@ZrirzKnO1z%5Y*GYkC~H1JU7pFd2PX6vFc~ZSO%a9k?v1qWNfP=L
z(7SV54PPbdl6t6srj(DI(`1wedbm4l!iIA&JV75YI~BXbprH@g9pH*ZtVgpoZX7U7
znpl&lW0<I8Wg!`XW-CkOWJJFyLG+WX`7L^qg4rRetO+QK3`CrY>n5zQH*cp3pgyb1
zHxf^(0L>ws#+sn5?~&2S>wAF;a_^e35k^m%Q9i438G57LyC&r1GD)CZUT3EDYq~);
zH`BFpV4A$%V<moMcdR+tGyaIQxV~AH77c{BSsS^L;60NT)*^1vO5zrc#uy0>0n3}@
z%OH;?Ew5XyA6CCt$*Y>&vGq*2UgSbtcnn@*;Bsc4IO-=l&qO$QAkd#F@D&1-SoPrn
z%_R^<48D`JsP812_wV=WG?ou5?gYLWva7BvUNcaLh?Rea=&#9qH8<xGnKBeKX0lgb
zTOJ(Y)4=E?wARHu5Y2|dG*nMcTo=zQsVGJukjD*$dlbCxx)%r7qsv5$n|zdN=$!lJ
ze<7UkQ8ESoPk2OWfaxf*mfsF3@Fm2=pvd`*s<(v<D0nF#o-)ieRcMw26lNWT!LeXC
zg5K7Nr&dYMyay`PZOHNdgYcpij0lJP1-kzY&==5{{cjMi4x+Z<7rSqZ@BQ@MpDs4+
z{_Uncb7b0Eck8K}Pl2K1z2jYY;ZALG-*b!JQ@;t`^Pc{)Ve7KH=9c}YJ>}jmxwp^n
zy6^U9tVC^l#zxfCE3iD#T3CAly#k)evWxIDFM;NvYB3WYaEnIafeoMO6kim}^o=tk
z9LG<1yTCW4@mKa8PFtq0T=8<scJw@DO?$ovR>pThB%8v~{+Q|_FrjxkrzP<_v5}$~
z0X!1?af}otsAwbxFB1JCzZ;8ALL}2Kjz-1sFsIs_MxdjqM$coLoPLDZ!Cz3isLm`l
zpy)=3d@`x(M3+^KNb^dR7dX5L=EshA3J40ra0B23GlpiXJ6%?p_H0Ude3HkP^0Z5y
z_C-(Uv{^A*o22rl+ha@R{s*pVRCSU}$C9h_OP6Q4uHn|}H(yWH?UU;EE!G{Frk5+L
zXQMOGROL>oa_3^@u4!Yss(Sj*GK8VDEbV%J#Ry->nu)6FxvrToRBvfp*qv<bOgif`
zCc3o#!Pe&YkAKj8r(4>(FJpv)uPZ!%px~RSA%OO!w=aEJ+m_tbwN!iTfxGq=eUnaZ
zxv=DZDGe;;xaml_L4j&sa<_a-5p}zu-Tm5Qz*ddh-aGK_fmB0>)X=fmuy?xqUpM>b
z%+M$0?vUIa3uE`)hd?oEXkFH{C7<N-ExDS%FDEJ+zdb;dSAlD=qWa+(lCYNCpr`0$
z#jg97-QU+i_4K7bKCC31HQx~i*vFFXA2%!nKWdUn_NFVVri&gL3Fp2)W{gnxgRmF2
z{bxt_9&aapb>L~@xX<|OgHO}&`P^cIvd?|g@m)oq`-?E$Zaq<D{QOYKi8A9CWfY`W
zd6yCQ@RqOq3iKz?nhGi@Z>(`5<`5AaJtpX_ghCEK&D>DjdIb~|O)P;60B4~DZ~;6X
z&025)Y(TS+VXKb^FJgs^*de@mYXY<^V7O{%uNY&x`I_rmkkV>H_HldZj;nRYDquA0
zD@BKCp^-M~V~88xP~H+0l@0gmPo)5_nSXL0(-ZVr<>~-!-`F#8J`czkVK6ot0SJd5
zI>6%sC=&qYs59u#hxq#kaP0Do`s{{v+21aVb$36n|A4{ApMkUW*?HWyHHIz^;-28!
zFhX|ZcVUE9y#o0BOOU!_-q?Z_P>omdSQWPRyhTj7*F)jIhhBmg&=<hhOgLSsl4daO
zk|nz{gwblt7|3G(iV;#!^3e7Kwri@aK`LulEZdUkT2{QulEs~}G)k7n+vieSI;Ab0
zOP0N>{ly2DEIU`1>|U~LU9R%ZzCQDMs;W(@YFn(@ouJc>vK!H<Xv(ooa%@|4Y)=@|
zc1PkcETg<~&N$;sbQNgfbj><u94Y5^$+>;exg$ZPODkq;XKGWW%~EOeVrfglyzH!*
z3*Fv5PtA`dOFEL44%Ix<%_P_{)XEgh`vMXQ=D`lG4LKLuUBpNT%I!ldb4|E*<VRk`
zh#~#iBiHqP9Sh)vT^}EAK!Fi9LNavLD32TXFsweK`po=uFp$cscyVR(IptxU$M+eT
z0?#%N9vw(O!ggl$S4R`&t2j<A{4I8P1tR4+%vzkXcqNN>t{dDD!ou-SJC-a*LAKG(
zlzppY-<q_yK4{*PYCa$}A4r3vpsH1>YJF%l>~JKGEz#SuE`n_my)8xiCE9<V-U+%J
zz4K9P8ij#!TpvRsUonrPXE3{6{MN!-_lCD{c_F)6gG}5~=#|ehFfxWh;s#n4u&Hz6
zK{*`dEPQ6UXfP-QMUhwXvS}z5j^<$oT9`gkRlSiVvhS4WM-#Y-vQ=lIl>H|(5>R8j
zMtn_|PajKG?_Q$!qyY$=J0$0hq;u~woCmG$a*IT_+^1VXi&3025?!O#fO1`Tr|v$z
zPuY5389tdugTq`PAlm|gVfb}L1k-dN@akwVqSo+uCsfF*!PLtb;Tx{v`BQ8PRc+mm
zWePVc$}ln@--povMprQE#z=YBM6V~0cSVWNdKQLYAKn7Z(oNN+y<0Ly{O&raeqVfP
z1@oCbHB{-cx9&Fe9{ny2-na|}1;Ai6j9#=-ghdA_s(FF>g#M8JRFrmhWeCXs#<YT;
zjKe}5A#bzu=Rdf3=c3fK@6%&a(~%VdOEWHpYFw`L&PHY;84A)s+fjbw;?%`V5#}sf
z&Wbr3;jFk3pNePfn4^i(N_4KR6hrR2V<bt{erNVmdoq_vFV&f@smEuX`91JTmoZ{N
z$AM2GA4WbqCv`ll6f9ed6Woo+RAla)<fxadn^!1kmf7#5+VmMgI&Vgp%gqRLxfx+j
zn^C41a}L7hSSf+jN~4Y1uO0)QfX^Wp1p;g=6bSGNgxEtdke`ZOBq+Z-QD4S(;m<St
zc|Xta=lwhb)2n`-;qL?6oyQ9;`+lq={`N|3kGv+^mG-K~n8&NhM=<KbNMV`PY$RI_
zs+@a>7oiE>CIOw&86!!O-<qwYX{C}NOTQvE{f?mjgLvU9;>cG-!@pTw(?40X)?PC|
TH2=g%?oXC)`2&FoWn=yiw5b5b

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_lookup_buffer/base.py b/distributed/kv_transfer/kv_lookup_buffer/base.py
new file mode 100644
index 0000000..f48d03d
--- /dev/null
+++ b/distributed/kv_transfer/kv_lookup_buffer/base.py
@@ -0,0 +1,179 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file contains a new class `KVLookupBufferBase` that allows developers to
+think of KV cache operations as inserting new KV cache entries (`insert`)
+into the lookup buffer and querying existing KV caches (`drop_select`)
+from the lookup buffer.
+
+This file also contains a new class `KVStoreBufferBase` that allows developers
+to manage the KVCache buffer as a simple key-value storage buffer with basic
+put/get operations.
+
+These classes above are abstracted behind class `KVCacheBufferBase`.
+"""
+
+from abc import ABC, abstractmethod
+
+import torch
+
+
+class KVCacheBufferBase(ABC):
+    """
+    Abstract base class for a KVCache buffer.
+    """
+
+    @abstractmethod
+    def close(self) -> None:
+        """Close the buffer and release resources.
+
+        This method is responsible for cleaning up resources related to the
+        KVCache buffer when it is no longer needed.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+
+class KVLookupBufferBase(KVCacheBufferBase):
+    """
+    Abstract base class for a KVCache lookup buffer.
+
+    This class provides an abstraction for a key-value (KV) cache lookup buffer.
+
+    The key of the lookup buffer:
+    - input_tokens: token IDs of the request
+    - roi: a binary mask on top of input_tokens.
+      - Purpose of roi: Since KV cache may only be available for a subset of
+        tokens in the input (for example, when vLLM is connected to an external
+        KV cache service), roi specifies the subset of tokens that the KV cache
+        is associated with.
+      - NOTE: roi can be further extended to describe which part of KV the
+        current process is holding (each process may only hold a part of KV
+        due to TP and PP). This is not implemented for now.
+
+    The value of the lookup buffer:
+    - key: the key tensor in the KV cache
+    - value: the value tensor in the KV cache
+    - hidden: the final hidden state generated by model forwarding. This allows
+      vLLM to bypass further model forwarding by transmitting the hidden state.
+    """
+
+    @abstractmethod
+    def insert(
+        self,
+        input_tokens: torch.Tensor,
+        roi: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        hidden: torch.Tensor,
+    ) -> None:
+        """Insert into the lookup buffer.
+
+        The functionality is similar to the following python statement
+        ```
+        buffer[input_tokens, roi] = [key, value, hidden]
+        ```
+
+        FIXME: in the future, we should only have two arguments, key and value,
+        where key is a tensor dict and value is a tensor dict.
+
+        FIXME: we should transmit both sampler outputs and the hidden states.
+
+        Args:
+            input_tokens (torch.Tensor): token IDs.
+            roi (torch.Tensor): A binary mask on top of the input tokens
+            key (torch.Tensor): The key tensor in the KV cache.
+            value (torch.Tensor): The value tensor in the KV cache.
+            hidden (torch.Tensor): The final hidden state tensor generated
+                                   during model forwarding to bypass model
+                                   forwarding.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def drop_select(
+        self, input_tokens: torch.Tensor | None, roi: torch.Tensor | None
+    ) -> list[torch.Tensor | None]:
+        """Select and *drop* KV cache entries from the lookup buffer.
+
+        The functionality is similar to the following python statements
+        ```
+        ret = buffer.pop(input_tokens, roi)
+        return ret
+        ```
+
+        If `input_tokens` and `roi` is `None`, it means selecting any of the
+        KV caches in the buffer, return, and remove it from the buffer, useful
+        when offloading KV cache to KV cache storage service.
+
+        Args:
+            input_tokens (torch.Tensor): token IDs.
+            roi (torch.Tensor): A binary mask on top of the input tokens
+
+        Returns:
+            list[Optional[torch.Tensor]]: A list of tensors. Can be None.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+
+class KVStoreBufferBase(KVCacheBufferBase):
+    """
+    Abstract base class for a KVCache storage buffer with key-value semantics.
+    This class provides a simple key-value storage buffer abstract with basic
+    put/get operations, which enables flexible KVCache transfer granular
+    control.
+
+    The functionality is similar to a distributed key-value store, where:
+    - Key: A unique string identifier for the cached entry
+    - Value:
+        - Tensor to be stored and retrieved
+        - None (indicating deletion or empty value)
+    """
+
+    @abstractmethod
+    def put(
+        self,
+        key: str,
+        value: torch.Tensor | None,
+    ) -> None:
+        """Store a key-value pair in the buffer.
+
+        Args:
+            key (str): Unique identifier for a tensor, this tensor could be the
+                key cache tensor, value cache tensor, or hidden state tensor
+                generated during model forwarding.
+
+            value (Optional[torch.Tensor]): Tensor to be stored.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def get(
+        self,
+        key: str,
+    ) -> torch.Tensor | None:
+        """Retrieve a value from the buffer by key.
+
+        Args:
+            key (str): Unique identifier for a tensor, this tensor could be the
+                key cache tensor, value cache tensor, or hidden state tensor
+                generated during model forwarding.
+
+        Returns:
+            Optional[torch.Tensor]: Stored tensor if exists, None otherwise.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
diff --git a/distributed/kv_transfer/kv_lookup_buffer/mooncake_store.py b/distributed/kv_transfer/kv_lookup_buffer/mooncake_store.py
new file mode 100644
index 0000000..7861bea
--- /dev/null
+++ b/distributed/kv_transfer/kv_lookup_buffer/mooncake_store.py
@@ -0,0 +1,164 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file contains a new class `MooncakeStore` that allows developers to
+think of KV cache transfer operations as putting new KV cache entries
+into a remote KVStore-based lookup buffer and getting existing KV caches
+from this remote lookup buffer.
+"""
+
+import json
+import os
+from dataclasses import dataclass
+
+import torch
+from safetensors.torch import load as safetensors_load
+from safetensors.torch import save as safetensors_save
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_lookup_buffer.base import KVStoreBufferBase
+from vllm.logger import init_logger
+
+DEFAULT_GLOBAL_SEGMENT_SIZE = 3355443200  # 3.125 GiB
+DEFAULT_LOCAL_BUFFER_SIZE = 1073741824  # 1.0 GiB
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class MooncakeStoreConfig:
+    local_hostname: str
+    metadata_server: str
+    global_segment_size: int
+    local_buffer_size: int
+    protocol: str
+    device_name: str
+    master_server_address: str
+
+    @staticmethod
+    def from_file(file_path: str) -> "MooncakeStoreConfig":
+        """Load the config from a JSON file."""
+        with open(file_path) as fin:
+            config = json.load(fin)
+        return MooncakeStoreConfig(
+            local_hostname=config.get("local_hostname"),
+            metadata_server=config.get("metadata_server"),
+            global_segment_size=config.get(
+                "global_segment_size", DEFAULT_GLOBAL_SEGMENT_SIZE
+            ),
+            local_buffer_size=config.get(
+                "local_buffer_size", DEFAULT_LOCAL_BUFFER_SIZE
+            ),
+            protocol=config.get("protocol", "tcp"),
+            device_name=config.get("device_name", ""),
+            master_server_address=config.get("master_server_address"),
+        )
+
+    @staticmethod
+    def load_from_env() -> "MooncakeStoreConfig":
+        """Load config from a file specified in the environment variable."""
+        config_file_path = os.getenv("MOONCAKE_CONFIG_PATH")
+        if config_file_path is None:
+            raise ValueError(
+                "The environment variable 'MOONCAKE_CONFIG_PATH' is not set."
+            )
+        return MooncakeStoreConfig.from_file(config_file_path)
+
+
+class MooncakeStore(KVStoreBufferBase):
+    def __init__(
+        self,
+        config: VllmConfig,
+    ):
+        try:
+            from mooncake.store import MooncakeDistributedStore
+        except ImportError as e:
+            raise ImportError(
+                "Please install mooncake by following the instructions at "
+                "https://github.com/kvcache-ai/Mooncake/blob/main/doc/en/build.md "  # noqa: E501
+                "to run vLLM with MooncakeConnector."
+            ) from e
+
+        try:
+            self.store = MooncakeDistributedStore()
+            self.config = MooncakeStoreConfig.load_from_env()
+            logger.info("Mooncake Configuration loaded successfully.")
+
+            self.store.setup(
+                self.config.local_hostname,
+                self.config.metadata_server,
+                self.config.global_segment_size,
+                self.config.local_buffer_size,
+                self.config.protocol,
+                self.config.device_name,
+                self.config.master_server_address,
+            )
+
+        except ValueError as e:
+            logger.error("Configuration loading failed: %s", e)
+            raise
+        except Exception as exc:
+            logger.error("An error occurred while loading the configuration: %s", exc)
+            raise
+
+    def close(self):
+        # MooncakeDistributedStore will automatically call the destructor, so
+        # it is unnecessary to close it manually.
+        pass
+
+    def put(
+        self,
+        key: str,
+        value: torch.Tensor | None,
+    ) -> None:
+        # A message queue needs to be introduced before making it asynchronous.
+        if value is not None:
+            self._put_impl(key, value)
+
+    def get(
+        self,
+        key: str,
+    ) -> torch.Tensor | None:
+        # A message queue needs to be introduced before making it asynchronous.
+        value = self._get_impl(key)
+        return value
+
+    def _put_impl(
+        self,
+        key: str,
+        value: torch.Tensor,
+    ) -> None:
+        """Put KVCache to Mooncake Store"""
+        device_id = value.device.index if value.device.type == "cuda" else -1
+        device_tensor = torch.tensor(device_id, dtype=torch.int32)
+        value_bytes = safetensors_save({"tensor": value, "device_id": device_tensor})
+        try:
+            self.store.put(key, value_bytes)
+        except TypeError as err:
+            logger.error("Failed to put value into Mooncake Store: %s", err)
+            raise TypeError("Mooncake Store Put Type Error.") from err
+
+    def _get_impl(
+        self,
+        key: str,
+    ) -> torch.Tensor | None:
+        """Get KVCache from Mooncake Store"""
+        try:
+            data = self.store.get(key)
+        except TypeError as err:
+            logger.error("Failed to get value from Mooncake Store: %s", err)
+            raise TypeError("Mooncake Store Get Type Error.") from err
+
+        if data:
+            loaded_tensors = safetensors_load(data)
+            tensor = loaded_tensors["tensor"]
+            device_id_tensor = loaded_tensors["device_id"]
+            device_id = int(device_id_tensor.item())
+            device = (
+                torch.device("cuda", device_id)
+                if device_id >= 0
+                else torch.device("cpu")
+            )
+            return tensor.to(device)
+
+        return None
diff --git a/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py b/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
new file mode 100644
index 0000000..f046a34
--- /dev/null
+++ b/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
@@ -0,0 +1,242 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Implements a distributed key-value (KV) cache transfer mechanism.
+
+Key Features:
+- Distributed KV cache transmission using PyNccl pipes.
+- Non-blocking `insert`, blocking `drop_select`.
+- Use CPU signal pipe to avoid racing condition
+- Handles buffer size constraints and provide backpressure mechanism to
+  stop the prefill instance when the decode instance is slow.
+"""
+
+import threading
+from collections import deque
+
+import torch
+
+from vllm.distributed.kv_transfer.kv_lookup_buffer.base import KVLookupBufferBase
+from vllm.distributed.kv_transfer.kv_pipe.base import KVPipeBase
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class SimpleBuffer(KVLookupBufferBase):
+    def __init__(
+        self, signal_pipe: KVPipeBase, data_pipe: KVPipeBase, buffer_size_thresh: float
+    ):
+        """
+        signal_pipe: on CPU
+
+        NOTE: on-device recv will block all threads in the process, making the
+        KV cache producer unable to listen to new request while transmitting
+        KV cache. Luckily CPU recv only blocks the current thread so we use
+        CPU recv to listen to new request.
+
+        data_pipe: on device (e.g. GPU)
+        """
+
+        self.buffer: deque[list[torch.Tensor]] = deque()
+
+        self.buffer_size = 0
+        self.buffer_size_threshold = buffer_size_thresh
+        self.buffer_cv = threading.Condition()
+        self.signal_pipe = signal_pipe
+        self.data_pipe = data_pipe
+        self.request_handling_thread: threading.Thread | None = None
+
+        self.normal_signal = torch.tensor([0], device="cpu")
+        self.end_signal = None
+
+    def _matches(
+        self,
+        tokens_roi_sender: list[torch.Tensor],
+        tokens_roi_recver: list[torch.Tensor],
+    ):
+        # tokens_roi_sender: tokens and roi of the producer (in the buffer)
+        # tokens_roi_recver: tokens and roi of the consumer (query)
+
+        tokens_sender = tokens_roi_sender[0]
+        tokens_recver = tokens_roi_recver[0]
+        roi_sender = tokens_roi_sender[1]
+        roi_recver = tokens_roi_recver[1]
+
+        if tokens_recver is None:
+            # consumer sends an empty request
+            # semantics: DROP SELECT * LIMIT 1
+            # so any of the data in the buffer can be drop-selected
+            return True
+
+        # Assuming that roi is a binary mask on tokens
+        tokens_sender = tokens_sender[roi_sender]
+        tokens_recver = tokens_recver[roi_recver]
+
+        # simple common prefix matching
+        min_length = min(len(tokens_sender), len(tokens_recver))
+        if torch.allclose(tokens_sender[:min_length], tokens_recver[:min_length]):
+            return min_length
+
+        return 0
+
+    def _send_tensor_and_dec_size(self, tensor: torch.Tensor | None) -> None:
+        assert tensor is not None, "Use self.data_pipe.send(None) instead"
+        self.buffer_size -= tensor.element_size() * tensor.numel()
+        if tensor.dtype == torch.bool:
+            tensor = tensor.float()
+        self.data_pipe.send_tensor(tensor)
+
+    def _get_element_size(self, data: list | torch.Tensor | None):
+        if isinstance(data, torch.Tensor):
+            return data.element_size() * data.numel()
+        if not data:
+            # cannot perform `not data` on a tensor
+            # so this check needs to go after the check above
+            return 0
+
+        raise AssertionError(f"Unknown data type {type(data)}")
+
+    def _add_to_buffer(
+        self,
+        input_tokens: torch.Tensor,
+        roi: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        hidden: torch.Tensor,
+    ):
+        if isinstance(input_tokens, torch.Tensor):
+            input_tokens = input_tokens.clone()
+        if isinstance(roi, torch.Tensor):
+            roi = roi.clone()
+        if isinstance(key, torch.Tensor):
+            key = key.clone()
+        if isinstance(value, torch.Tensor):
+            value = value.clone()
+        if isinstance(hidden, torch.Tensor):
+            hidden = hidden.clone()
+
+        buffer_item = [input_tokens, roi, key, value, hidden]
+        data_size = sum([self._get_element_size(data) for data in buffer_item])
+
+        with self.buffer_cv:
+            if self.buffer_size + data_size > self.buffer_size_threshold:
+                # log outside the while loop to avoid this message being logged
+                # repeatedly.
+                logger.debug("KV transfer buffer is full. Handling...")
+                while self.buffer_size + data_size > self.buffer_size_threshold:
+                    self.buffer_cv.wait()
+
+            self.buffer_size += data_size
+            self.buffer.append(buffer_item)
+            self.buffer_cv.notify()
+
+    def _is_end_signal(self, signal):
+        return signal is None
+
+    def drop_select_handler(self):
+        try:
+            while True:
+                signal = self.signal_pipe.recv_tensor()
+                if self._is_end_signal(signal):
+                    logger.info("Received end signal!")
+                    break
+
+                input_tokens = self.data_pipe.recv_tensor()
+
+                roi = self.data_pipe.recv_tensor()
+                assert roi is not None, (
+                    "Please provide the roi when sending drop-select request"
+                )
+                roi = roi > 0.5
+                tokens_roi_recver = [input_tokens, roi]
+
+                def is_buffer_available(
+                    tokens_roi_recver: list[torch.Tensor],
+                ) -> bool:
+                    # perform input tokens and roi matching
+                    # FIXME: this matching is O(n), ideally it should be O(1)
+                    # but this buffer size won't (and shouldn't) be too large so
+                    # the fix is not urgent.
+                    for _ in range(len(self.buffer)):
+                        if self._matches(self.buffer[0], tokens_roi_recver) > 0:
+                            return True
+                        # rotate the element we just accessed to the end
+                        self.buffer.rotate(-1)
+                    return False
+
+                with self.buffer_cv:
+                    while not is_buffer_available(tokens_roi_recver):
+                        logger.debug("KV transfer buffer is not available. Waiting...")
+                        self.buffer_cv.wait()
+                    # need to clone the tensor
+                    # in case the tensor is freed before sending finishes
+                    matched_item = self.buffer.popleft()
+                    for tensor in matched_item:
+                        self._send_tensor_and_dec_size(tensor)
+                    self.buffer_cv.notify()
+
+        except RuntimeError as e:
+            if "Connection closed by peer" not in str(e):
+                raise e
+
+        logger.debug("Closing drop_select_handler")
+
+    def drop_select(
+        self, input_tokens: torch.Tensor | None, roi: torch.Tensor | None
+    ) -> list[torch.Tensor | None]:
+        assert self.request_handling_thread is None, (
+            "drop_select should be called by the KV cache consumer "
+            "(e.g. the decode vLLM instance)"
+        )
+
+        if isinstance(input_tokens, torch.Tensor):
+            input_tokens = input_tokens.clone()
+        if isinstance(roi, torch.Tensor):
+            roi = roi.clone().float()
+
+        self.signal_pipe.send_tensor(self.normal_signal)
+        self.data_pipe.send_tensor(input_tokens)
+        self.data_pipe.send_tensor(roi)
+
+        input_tokens = self.data_pipe.recv_tensor()
+        roi = self.data_pipe.recv_tensor()
+        if roi is not None:
+            # convert from float tensor to bool tensor
+            # as PyNccl does not support sending bool tensor
+            roi = roi > 0.5
+        key = self.data_pipe.recv_tensor()
+        value = self.data_pipe.recv_tensor()
+        hidden = self.data_pipe.recv_tensor()
+
+        return [input_tokens, roi, key, value, hidden]
+
+    def insert(
+        self,
+        input_tokens: torch.Tensor,
+        roi: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        hidden: torch.Tensor,
+    ) -> None:
+        self._add_to_buffer(input_tokens, roi, key, value, hidden)
+
+        # when calling the insert, the current process is a sender
+        # need to launch the request handler and start listening to request.
+        if self.request_handling_thread is None:
+            self.request_handling_thread = threading.Thread(
+                target=self.drop_select_handler
+            )
+            self.request_handling_thread.start()
+
+    def close(self):
+        if (
+            hasattr(self, "request_handling_thread")
+            and self.request_handling_thread is not None
+        ):
+            self.request_handling_thread.join()
+
+        else:
+            # TODO: have a explicit close signal and have a explicit way to
+            # check if it's requester
+            self.signal_pipe.send_tensor(self.end_signal)
diff --git a/distributed/kv_transfer/kv_pipe/__init__.py b/distributed/kv_transfer/kv_pipe/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/distributed/kv_transfer/kv_pipe/__pycache__/__init__.cpython-312.pyc b/distributed/kv_transfer/kv_pipe/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6da9bc52f20eccae45ac298f198a33c7d23fbfb4
GIT binary patch
literal 181
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVh3J>$7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#tn7MB!dCY6??rs!vv#g`N%<`t)<
z7J=A6?Wy|l@tJv<CGqik1(mlrY;yBcN^?@}idcb`FamKgi1Cq`k&&^88OQ<vBxf%n

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_pipe/__pycache__/base.cpython-312.pyc b/distributed/kv_transfer/kv_pipe/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..94a745f98f2b5ed20cecac2685b0dd997a9ed35c
GIT binary patch
literal 2697
zcmcguzi%8x6rSC^JD)dB4A`=QP|#oni4(Suh9p=B$w>%`knAV~iX&(}w=?IPcz-c7
z>u?qYLKY1TU7!Lgh|*B<KhTg4ZJUbDiGz@+cyH%^tig_;fR#KqGyCSfx9|JDH~#75
zNuR(I)jpT!nuI*S#ptOICkN+Xa))rzA>83^<iu{rjlGWN;M$97otjJDBD}UocwM;n
zJbSKFA9$?>``97GztNYP_GBa|7d@E>O<6)^Vub3kP|(e{-@7I=agk}U>6<<?G*ju0
z<kpULwNWfIGEHbNRaA?F%VY~&aH>Qo<PNTkNOY?75(SI(G!aX5M>3yFI4irk5uAo;
z9OsD)8G6zyzP}blG>n+m5Jx83u*67)mOYim)L_n&9GManO!FAto0N88MXy}FvOzP*
z9GqS4(LtIkdTd0RMa)3{F=dewj1Q>Jvn*9c(`_+W-eFNLXq2YgdA8((D;h$Lx`PaY
z{w){yaxUT9O$1&HQ^uyexxEuu4?#EY^@Q47@qa}$T5jR3UA$DB8r3ourl0cl&_ZR$
zG2WlS`VJAK;{fI^cRHS^aaYuD%~Z|poO`=d1hD5`ug2?pwR=O8&J>)fJ?Tu(<&BDc
z6YQIOs<JZ;{FyHN2{(2JK82?wQ;FLlnoOYjM<gj-S)z0Y$D;;3!I(wE@@u_lC}DDy
zgl?r4KyiYsKR5-$9b(3>K6P3S`vqRV1DplISSN=$3gC(ni7*sC>%y{Z$dEDRF<-j8
zOl6G30lt=k5J~~*`=EyilmJ|`PM}g7mp4`^;~07qNVZ9t+5!f{Ih{gW5ZY}~@+{Ya
zg2=c;ZLnzUVZuz#4C{hGK?G&S$MZZEA><-;3?k{vgpZva@u6#KORtU%FmGET`qD;b
zQ+eN{D(tV^DCPY@YZc&!RLj*+htLnq3cZAC5vBAi6}ZkMsQYk)_0(LAvq)ea1b-8Y
zhh9PLRuwePwLxD{<&hOM0+4HW*ext4Fx$IMF?WPN&|6K5sHZ?1L?cxw{o`8O#915K
z#WE;%OPJ-4^7F4<*gh}Xk?gj!0VpzQ??h4DuGF>-k_KQB4Qj?YcAGZhu#ydm6W9s^
zTa4X>iBMK5`_Ezq*yKMUk13g5{JHtU0jx-fq#Zp^CU6U0UoRUiHoXx*WqYy(Z;d*p
zB{HxOJ0jKxpX;Sy{sO|$@E$_f_V!6Tt~f`u$Np`UqsRZB5ejR4*HPFjHP)4?lQ0%1
z;Bx@VlDLPks_egvXNFiUSgh16?EMR@79ixMC`CCB+X|vFyelJt0#-u9MHLFX0!LM=
z(jSBXCK=q3vI{phcGD0%mX|E}JamngjSC};J=t3sBiTE8Fo}ovXByfo_O>*ADorJY
z|5~agFzRV6aRrt-ewx^Qsv@3p=RyUF`3e**SHb^DWWD7V%^*lvEP|l$gCI_M9^rf@
z2tLeNG<-7^1UwCcK-J(-Q7?O0(YR5vK;dnnp21-rhP$N1x@3!L;4Thx@TYIVuty%c
zUcI^Rlg9kMJ6m7;=Ed)pzFqoZ{{G^t`vlfMo_&Nr2j0kFf3ckT^~EpW{rcutH^0Ap
z|I90o2&{)TFxx*3Hjmut;od`>*)%YCtD#QAPvNm{sPKX-KSN<lu^B#xGi0dcc=L5z
rhBwq1*uyI8=V93Q9LIUsn09KvFA(SK12Xft(RLQUnEQ>uPkH`NW=it3

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_pipe/__pycache__/mooncake_pipe.cpython-312.pyc b/distributed/kv_transfer/kv_pipe/__pycache__/mooncake_pipe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..985e5456441b41582c07b6263d1f7f7e2b9c13d9
GIT binary patch
literal 17391
zcmch9X>c1?dSExs#zBDKEuJm$gbq-YsKb&hS)wS}I!H;Bl$hfLfzVA6Bo4Z}A(=2Z
zQ9MpUd7QG8Nv)_Pv!ZvCHMRDx>Ds9>XY*s6qbghDKWKw0U_11#QgN!{f0&_C-ksUn
z+V6XP0N{X<?cL3z@cNzKd;Pudeb;-fPphh&6ojbd`;l|~6!j07(Sub>tQR10kK!nf
zj#A_5lOCr@-ZXB4rzvWVS;j3i)|sQ$m~Grf(sa~5ZYS-SaR#22s3Ybacab_Pq}}6H
zByEd&V%~8tN!z2<G2gh4q?u?<taiMXq#e<^Sp9f?tYN$%);QisQznY9<(uB8)me^j
z;hf{myv;<Nra0G|6z6{5q}IHzy~cP8sjGrIk6t(4O3J)YR?Yj~H*2ukW@*3gOU#V;
zX{F}!q`-%`3yDN@_%%M9loA4zI=GM&3P(et2pLN>5#sPEhHmiitUi17vJi@k6TC2#
zh)+bWLz(mJ)eDgs{zOQ`7OqG<A_b#~>(_a~Z&o~0iAX#+nGmJmOhS;9s#s{652j+T
z24_Ojq~aB4qR`x^kG#A@e-+kVj696RN<;P@#Z$OI<EASVZ{{r=eFREL%A}?^bIJ}S
z7S3YSSdEm;NZCos$}zl|b8yszg>$}XF%W9wt(+T>T`aNBn*CKu>-j_?9)=gtaWEXe
z9*OfRCKT6<z)wV?(O^=DDo&0MCpaF{BT99QmqLiv;I&YAnvZje*C-Kr;RY`#%#4tb
z65&KtadG^ONSF`CLor@)06<<vl}+HKq!15lbU~2gf*99!{Y5CfM@dFqn$qcKA2mly
z+WJ$}l!f#wi_)~-cFx4n_@`45O-X=EHT<?|%Au!=PtK(GO;@frKcgO&P#<j*2-asn
zuyOWhKwvnB-r@u2`!;p<V^k+KK#BBC6HUEL(eU^7&DYE?Q#Wb9E4B3;kUc9+@@$w;
zIXfXFVr+;#Gd4QH;*tbL1TVl5sxk6mRD)41M2cAo&j@vxqWrc^n~@fNt71va@Nva5
zB_`qm(z@UwFs}2G-z?OV^h6}C*wl%LxRNZ({^I3+DK^tT6Pej1g#>84>$T*8=MGLE
z;QOPIYyC5`(qtmue<K==^>YzX5+c`<63_Kd-v~<D_Qf=G=lf$CO_N+;W)^4;UN(qt
znd*5O!3T_XTVYb-n-JZip4cc)%^m;S!A0|0{g!(#-+g&O{K0R|pZdy7dD_14?#MT_
zKXBf6E<T@a8pt=c-Amm~E$+-V_UGF=AB^80&-5KyIhk!co^Rdu;LQCqncjoh*5~r|
zE%(OnjxRcwhO_m13<%5HvQ7J*RN1SY1<LMler1Ib=7YZwaZ|kAaH7flS54LvTkT=U
z8UfLVzx5f2N;k}u##D`#kO0!uHq;!Irf#_;ofm;%&}-hHC5@n9b5+<N#f>;d`OT@L
zgs{qq3Ng)!GkiEQ5#c#D5+{Vm$8SW0L_EgFCH6*0h=i^I)hTu7M@L77j-MS44vmhS
zdg*lV!tu*5rVd{QO0Cp^?XA?lmyL*QJRz|nF9m=EO$kx40Sy5J#d$RpP4dHnkPrwZ
z3M?Q38NWJbLKcJ{iHI6j=zv(MLMag><Nz>I+n-7`Wo<z;Q{qvG2<5c4KX~r`bD8eL
z*_I<2rYY}g$+$Y#YFhKv=hw}qT2Fy8Re6BIs(0qR`(*FF%>GkZ@97M4dL1B8ev{Au
z4>D~(qcB0jLW4oY84Sh}ToM>*P;m!?uO>rLWUi1i!`4u|!C)v3=m<%XL|nu+BBsN@
zq9+p^L4eQ;fFDvqAHv61R&j${wF!P=5Tf6u9{cLDmb!d(?e|9W4O<pY-kr)?*nE9c
z*3y*s_`Y{OPwF3AeFc-t>RcErQ1Hlf5B(gU>t@PULn;c*kovjFZhes^g+C)nb!;55
zjG*06fMNZALsS%x96fI4Odtk9NP=*)ylEM?lDw6-aW*Ko!;^uhgL6(0Q3v{r8_KHS
z=YgLWe%0`EqBzxB`2Y&T)nG3IwHERYt`72gnT@N5GAAi(C@E*SMksfY@+RJGv}d?2
zP+nC6!#!c+nxV|Ywdnm}hBmGh%Df!*#Ti?;Hpo}QJlqo|t{u|8S*O24X{bzjsgo~;
z;#`y$$<ER_Ae)$AQ7E%XF%rMd8hjABW)Q^n4Cq5F^kc_)A#wg<K(PbM1nxPlIHQSh
zC`!^{<R*GRVM(})8+gJ!$^je%R7fgD&zVuJOPh5KBTWU3erXfr46*E>B%-(?$f+tF
zaPe6J!4S<7N+A-aPylTRoJHqVAkJI#$}}~Fw6q~iwQeYYtls+-;E;2+Ir}qVv_As|
zGv`R#(#$k$Cc&AuryV3^O*=SS3c5nA9cIV;Dil)dOgo-Z>yl6wkpN>jb+Hc^Hr}?R
z1(SA_v_OHb_N1md^>p!>2E~ZX)D7cTz*F1><rUr?N{z9L(5AYIX+5<`%O1VH_}ru=
zvZoDUla|{zG=uE>nslS7vNx^pM&wN^U;wa;444E7IXekcyY*D@Swh8I^ir7V9z9)r
zPVFnE^^_FQQ&ao(RPi}=u$b0UIt{}N+w`*kXXBwMu_2U<hth(Cf1&YMZ8*?a{zdR<
z>^EsxADOd%z?5LX*h?^@m-IHpXPSncYELt1N09<&K{=NUp4bH{_MD|e`zjh0mN&pm
zpR;_|a+AJEsp>oQMCF?V=-C22i~O-suPHv$CH(OXF!WVu63TTF07mPa_31D;Yuc)F
z5}G1Vtlza3=j3;c2&iC!BIPN!9aBHN5aq#g2DJ~gj%d^nL+rI#b|MjtCT^l|LQ@1=
z2+1(fQrM8hPD;{@c&NYsdPJH`UJHa1G0^G5q3|TXD-`M1C1L-yXyRIbEEI|NbBS<2
zAMd}Gj6}IW4D6c(D<tFWjdSPDvo`?<tM?g7#N&Jz#9tt_LoZ{Y5bXV=K-44_wKz~#
z#bh|li{eBw8l4TK_8pJ2JgSatA{<T%0yMZeiP|l;)?Y(aBsDmP*lzJl4lwg2s*?}F
zeGm)17QC4drg=g1cY~d*StkLWnA!re1I6`H44nx?OI2)I&0eTc)iPAp1ms(aP4z=4
zmPmXeA#`Jrl}u1^48IoUXAqYHs!%0n8j4@ViC&CIC>lxeMazzuY{c4AoB|(9NW{EX
z%;3#X?0_DLe@#;C@O~s=6BA(TONs*uU}@u$s8}vs8GBKw62Sw&3qh?O3eTNWyaFHQ
zBj5?pi=A34a2P0VqY`ogY7UC$T5<xMFu^cTPaOOQjX_Z6lQY4hUxAD+`rY8W;iD4*
z@>YT1h@g<>6*K=@SaIu43v|IKzH2~=LA{7LY``5s92um(n$&A0q}u3T))+G);uTC)
zBdE3lsO7{%6ijvKq*cBn0(yhzp}+VY*fzJQg30cv|J=R*XVp|=cebHt-tx99-`oWc
zZ^6PiYSx<f=bBH-%_p<Xr{+(-eRj=V^Um4ZXERO1tL{@zJk*XuD_uX?@#7u2Ll@;k
z7qi<h$xQFOJJZm+)^}jV@)OsOUAcoJ^1+d8->A%V&$}}9-31%vZdy3}nX4zW<4ER(
z3!m+{kniYU?vy+BW!$Zg8~c_9KRovEnA~`1-kopgS*rW6<6(!~aB$wW*5Y5<x#G^Y
z49{CunWnYozNMDs>1^`}obF@B{f_sxH_!Gi4g4GT{K=fV^)q+ta@WWGANA+m)i~>%
zyH|Gi8W~o0vqq*<c6S<?KH1&(#AS0h3)NI$-wOTjUs>pS(ErE%D^l**sC;Y`#{+Ar
zspa15cVGX(9Aw@3wyh6dx&KP8ZMWRE`$x4Ow|&%>8yJ!YhO%uZakkC*j?M?^`{`WA
z9=T)BkM@52{728{_72N?hqE20ut96Sx&6V;`#W>ZyX59wAA~=QJ&ff7FUWxxvdzbF
zz<ewF;N1Olxz>KUwf{%vkE=ea%I!WO?>>=j9YO$GzG&aQa&fi&7-m}Xj6274$xK(?
zU3=%1Oy}V8bY^JmpUozR^M5=6S66k*&nc^;eyyghU^4mkubVAk1u|4!eZgU=s{dud
z43)op(o9u1|C}-b9l*MuyM1oK_x5Ps?fd1Lx2d!^v*kkO(v?;BRjeymq5Ut!LqKG2
z*v@oNe;PP*g!*ZR<IHpBpZ2-W44QvBXvOpq$2qh4Q)|Q77W1bqZcO(!o;_;*^r#im
zifxAYF7Zh=fQ{4g9LW=dbR=we2w*VOYjFp!KLN_V2Q~pmqh1TL5#o)3Go?T)BYLkb
zZT*@p?V!JziKhDJ02Rf~hA^dRdZoohM;~Vai^RrRaa7%LtV?sy4J&HqQ|NQq5XvB0
z()Oo7)Q#8@2ww}LY127Y(zw6QTW<n!*7hym`{|hcHf!^AOn#g9Mu?ldH@x+?SsQ%o
zO(4$N{PxtoF<xSmGn!$|s)A4ibw>b~RGerEXm_hp5A_B#(*s}P*7*`~Msz6wH8kM>
zL?eDim29Y8Dwb=JI42-M3TH8o0vWX#;T#s7hX|Tqz%&tw<CyvmMz3J>8xSc~GsLzJ
zCMG68sw!1nX;#E(=t50(28}{VDzKS2t1Ot4&_}!iS`SD!C$*(x(Fb19%kKr>4KBYb
zcOR6S4$fDBtFvOUtL9GVts@`@a_)B7-JWx!SopK^%iSvtpR{EzUXqVr%65&dx-XL^
zC_r*<6c%gMZ43P3)urE9xhU^Cnyo(e#0(BKkaShPcSdiIJ_Amh>~71sx5@5pfA;)x
z{fh0As?3Fp@(UNUotGZD#~$NszSdA*Ytl~{Y}Gx6B5?BwKXP9t-ZI6b`e{&gL5E)@
zO|FbL8~&TmU~zyqTW@v14uJH=Fohg^LjXI*ls1Dkq1i1oH4EM!&V1c82fVuy&(*Eq
zIj|nmwi~qIE#sNCKcP754-H%A4SJKgRPs7&a{;SF<9aw7zb&=(B}1<zHifQUtL8^M
z3<n#Eg_pvdVg>CzBBoC0RJ}p}Ct7rX{VhY^)K0d3ixnpm$tcHO<Jm+UeiN)hgOgc6
zD_J-Wkzxg#2D*1++EdiCgP=Y8?ds0tv2hJX=+G+ByM1DE1_dq8=|^cIE}FI-)!m4L
zq_*nw-k@9-$NN4s6K_KV8?c6Qw}PwL(5#Ti^VRK(-sPs1!=R18CSj;;eM^lQb|B+!
z14S^`u@5xCY{vmm2J_wyIH-`l2iF?df{Cv8=lzE=eTP>D3TC?g=(^e5SW}?Pz8cu)
zu+fNy*CV@oi~%w){yG^$C0bh)3>s-NTq+!p+=$ZfdyoLa{02m+i|#p78cz47n*p6{
z(X^g2oQMEe3&q0?a2OiIRV)QUG?BxMJ;%X34TmJ24Y9FMJairGJ=HA1Wk-{>c&eek
zRDf{qRHN1rtS|NwIn`u|EvJ!*(g=ny0UXr8234>Engqfzj9!2U4#)@}k3m{7!||wo
zI;PS=0*W`~%A1Vv=g>zy4ACv>v8U#p>D$ve&w%V1SnkPso|`x4U7kBz-#VzNnVBtn
zR^5BoYFaX_`?59rGw%I)Z_T_@TSj%tW&UC03}hJ(LE@V&W7?$q7XbBiYR4&oN3?^f
zb|aEViqTnCe<N<gS_I%+1UH{jI{|$*VDzDe!dIbzfOsrNp$H|L9p}LD->-oC4+sH0
zdVoG}?K`jEem&<6$lk!xjpZ9z@6il%R7Fnh3=g)eX2OOzP5>W57_p-V)R+mT79sJC
zFty1MH}YnkGtXJlaO^w{8w|FBp_^Aay(<zuYz0&)NGO)VR<Mw*uy1TO9-f5rI(03K
zBL;H50DhM8&7i%pwj1ho7FE6%Z0f4j=&*t!3=zZ&8^Q^g#>Ty1Rrdl}NYpLJY6>%u
z5>W&Y4yjt;Rb>!UU7K*qvQ{4<98{-D_Qg)wvr`kq3s*DU2UmLFkk0FzH>2t7z2kf9
zfU!?@uet}wKG~bC8O*o`OZJH)2{#~uh^I0Fz&R5FK+^q21VBWeZn%)m()DXX1enyd
zSqV>o)Ws<77L^K(T~dD&8wW|_pp?*v)Nd(4?<`D7-7HA5h*_24ybih4&P~u+5$s<;
z53vQJlKrw<_U>M8SlRLkoNb=XFlWh*`TxX5x-S7aX^0_L9FR^oMNI<|pN1K7*sF16
z3Eu)2%fQ4OWKz2}!9-;!KS3ZHSjT|u1<t$Dll30YFvnHaVHbsPa7Gd;W8@A%`6kq2
zs9<I^#HYcU5bD3abObqU$VV7h3#bU{%o@}#v)_^m9LLRD<PSGP5s8>P$A`|UcS{iQ
zx|c5i$G#K=RjJ-nA#k6no?6vE$X4tz0+JKW8^r=JZj`VFWZ*jOeizb&Y!x%O5ydjv
zRopnGAXs2Qs7rNjvUH`5{u;oEc-Eq_gv9Mc&a+MSY|DDOR6*JE*7F7fII-#;0@qiL
zVP%G0Y+UMj#0;o}U8?37`u8EQi%M^2lwMH+q$7GZ1VB0T!7yir7RWv}1klZKVYI%)
zlVR}wV$(_sTIBqdtYMA@$)df*Gg}&jaow0NnMozP9j_H_2=Hd86>kXeW+m@6Yl3?w
zTgSkTF6Vfv#~L(-1bXZPzc6jRIO2CIX3)$8RFwo|U&2ceDIT=KgRx{(ip+%I(w<E{
zcu*`e=zku;CN?p7Ef$f4??FZ<FoQ1&NNO7hjQF!v=CP@APKG6%_frJ$+YsHNzVOxE
zdHDzJ^R|3VL#`$u*MK$w+Sa_C_zt(p%(le?OD`?oSY?iql4hA{&M|(O@vl|YzVn^i
z-&v?zxS6f${h;B)mWM6Nmsj>@{U<W+A+UYHb84d;RXL_bW?FI#fi;-x9F)Nid41)^
zBj%J!qZ(zwbSTOYOf!T=VMR!Bc~pr)4OT-JPqL;eP$19~*p0{ub*fTxbEdD+&s?D&
z?uSZj%CIa!AEGMx+tTO>G?(p|s`B^59JDg%A1qm_;%RpUS}whp0KL%A+Ym}2!!EIc
zFt?_9E@_NV73YT3+CbjI?*cH@PlPTa;TA-Gr|J>%Ad@VTw=fTNiY*x@)J?X+YuE*a
z81Wb32@1HB2rsn}JwUOb!a~Sg<*0TJFStsAs&L_|f-HofYFuzy1Ot)@Z%X^cCXb-E
z_#Q+=Dad&{Wp8KByGQo!$$AIpEo(JR_jcXgwP;!7mImIvo`wDJs$4TLZ(s8@-fO$t
zwjeEDUfTNZuVsC^mO`>`_a++$x5>hR#nVeySDC@QrzYp|%O3wy@ACev=Md51aARzd
znJqb{U1r)BV1xCL4W_g3Rc7F^Vej~B1V7?yJ4QPoQtZJX95~`7t4LfDUdHmB7@@O_
zI096zgIE<1--?wWNM%C=_sCm>?_>0b81-Y+hY_Bs3j=zD#*{b-yYWrxzgk8Lmi<=e
zqPal9W4U%6AB7pZ&U%H;H#Qf{B+=EYB?bny#L?qg;_Qf;c<iWJw_@YM&L*qpaZ^jd
z3Qu4c&20rcrWmTWq2R!jlWN#faAC?#wX`o<?r$$tVa`K2J?maf4ce@=OW^_qkLB<>
zJ_^+)>#?OyxX@-jwk(pzinxxs0>fBq7l#TIJXW9&JpRjG^2m%`UB_&p&SX7DFF_N0
zt_-VBY=n8z3KIp!WIaJIjbZT#dWDR2g8rl%M>zqtHtQZ71|G|`<grqRQ`=LhW~`^_
zMF5M>B@V|tO&98_thEcnPbhe(i-7nK!_Nrl7saq%LpY;;QyZ_M!A+=Yyo$zI;AS;m
zK{MgCGPu@dd(#RR&#=VKGnHf;T=in$dY2QfdNEVR?Gkk$jG-T1aD&_1<8U=>vo@Rw
z+Q5BoxN3&uRDc85$lOrx*%StuF$bP<fK&x7y_-SO-p#~$pj9>J<Gk?nfmE(h+`3wY
z_vKRqdQP|h)Z64Np0RQ)Hen;NnJAA}K*^yyTsqzhudE$ytJlQKj3!j+P`_FKcdBf{
zn`Mwy186@~5X!Y&Wx0hAHU#Kp=xD&FE3~*}IzxdaY`(Pv>MJ;upmYOF%vQSLrR#7o
zrlG;b8#aMz$gk4Yk|Cig&lO6Iw<%6am$U%Mm_Nv2DyY*mB^mN*%D7!p>@OJ<bsfF5
z&SH(8`oPfq0IG4O0zO%D>fmNRS-hT2E+E1Q0vHET@U(F(C}iNumf(6s0KVZ67GMB>
z6(I?gIQBq+;(^-$Q8@Dmszjnx!_7s_+oG0`euRZ8Uc=B=FH$JgqyW9FL5X}IqFCW7
zNO)4Q!3|+C0pBW&jE)QkUmCfrxZ>dB4XVYu7HE(t8KYbaBw`>{uM<AfxN+S7PcU)u
zUqb}`ScYnBgTrL~j6dH<j<9o$+vUdX<QN;AOX=I`jJG$#^g^6>`R0$p$+UVZy~KSu
z{ct)LI3ownWSh^<pZtTfkBz#CZ1X<6BJf4WzGd#?=tt2{PX6uaUyf!wF004ehsnWo
z+gc0z;K=<WA2cmFR|bD__{WD=TTahg9x+WS^TYKn^UxNz9@K#80<jt@se-8D=_Ch=
z4XAtMxOUq!6g*Vq41(0*Q`DbOKQxSqG3psGjLS}{GBrlXgbm#QI}>l1vnqM8eM47H
z9%tb^Zs@`le;`$-wj)Pz<m(i?x1(6XNiLMKVthz3hi8&tg%S_#QJ9>7OR16>QUo|5
ziLVyvRm2^rJ5Bx=(y5kmiYO!A|A{?@AOcf>@x0@@?aI_`UplqQ?1fdobM-S<%UW&I
zy(4#zEOswhKJ-5Hf-gS9K9{XMlyM*WLaVZ7YkM;89(C~^0I<r7HwZQ5c4wvK(=~aW
zTM;Ky?@%ZjPU0RV&c4ZzI0^Um;V!-I3s-ju_?Z+7Rw@jtkf<|0)KG)dDn*UrQo97P
zd8(-lMI|*f@N^M*65z*Md*{@>(YvGBy6&vEC&Q>OT=uT0n-Up;%kfQIB}KwQ@{JhZ
zM(9`oR|i_2``~VtDzgY4)QK9$x^N#W64owUi=hep<^VW~7!dH~N5G-~r|={?pHf{?
zAH>hkge9meLy!~L92lx7B~y)M_$gLc5j|U>Cuq~?fM}JO)*RCd7l2m#4zBclaw_xO
z*=*mrN6dLb9A%$ZA)W}X-h{+A!Ie%S@adHy$BI4-jz%kO6G>TNgX<UuIy0pXRKzb>
z4{&=7_vceF3>%an81?CL1mg`o#RPnw2o#MX(VMmb;lxa-gm9z6fe6PtW@Y9Jo&sdO
zyTN?%b}U-5-tNUo+1sz0HOqq^AO7fY)_W|&98(veR76_<6j_A-28qoU;g+xXjT>kB
zpj0)0UTR3wzhg?%<nl7Y+z?=?4AGyaEAd%<892-INyH0LdMc|nt_{E;3%uJ9`^DN)
zIRMIlHMMOF9XHyp(R|hF7hZ<vW`taN5Do$q^-`%__#vhdNy57r{T@V$Rh$gX@WNYI
z@Bv1@vVB}+_o!oS;4dXL9$e4g1OTv}E^p4o$}TqJ>RapD|H;5=*YNzwRrl6>%hpWG
zuDcD(gSov!^4_6&+nTrL&VJ;|SueXd@R_$O!*pf5UBrNFlbJU4)|YnSVd4?<{8M({
z|AN8)uNJ=YA{jdqz-s{(3HjrOpf7wSFG_Kz1JP7icD-H`@lDXm&`^uR=&dBf4@eXO
zdKNe>?0QS8>yqa6&?tkrJrdwF7Id=UK_4s<23&C|(gY!aWf)C?Z%9S(>M7QEGR8;Y
zTCBv!ghi;SKpbR4S0s*-ng%3}5CC`@aro+Uz8=}vlk@G8!70Ign0T1T`i|y&!?JHU
z>pKk|3YYJlBe#!y|LDTS&s^<```<hK?%{v?{EuGztn)~|w()W8mieb~=YIv0*o;0Z
zY5SGD!}<ykZ!Eme#!!haz7?Db{QX<OsbFJ#D>xOH(v)}O+k-DsD}r;-YQ46S&#w5*
zq^1va4dD%Cxa_40rkj&|oDD}4<dZ8r^gtsgkQy9<B0T7T65SqwFB<XdYGMJY*PJ=L
zGzKJ`NDAP?2K&dUiZkN0wjxxXc=(D}y@X+ytYQIkDOOZX!E8e1r{oJp;Xgw@Ra2%y
z5O6Hg_wPexnf9<<X13>;-7>R#mDxjBnyOXol$o75W{=G5L7!T=wvl6Y$;_@*roW^d
zozyv|UuOEjmsV1a7h+Wx_A0YuO;>u)JkkyW{q%_Tt>ehAxZQ*wz+{C#!U)Bg>T)B_
zx1v6dDz{?0OjIx7A+{p&0Xc;5pD<d%2vM@p=XMXvF#1RMiGKwV`rHnKTWpjbqkm@h
z!Z(X~@Q|sA-UC|V_{mSCzieJ7rG;%aYwsd>rQor2<-=DVzJgw-UUZ1{E_T1S^WB~3
zu<Bjji+-wJbYhLri}mldzT1lBBlL0?R*ZlH%WQptUKqy9#_JTO3r?H$s0w1aPTsZ;
zhd8<d&EbJgt>%R*c=vhfBwT$)r&jZmIy?BuRGR=_%HJ;FS**~B(L6*-4cr|hA2P(H
zz(f*0zvo5u`n`)BSmS?^03{Y|PtZGroqQ#VYk*kJ>WAI`5u2fS5pXjpjrg4*e6@jJ
zRRl^t%qHum_(^Tax7(#nFirLix{3tkD2j`;S3h?U(A%#xk&>hoiHd<ZFX1;8L6Q@Y
zb*L94ar3KwTVl5@VirY^>RctOUG8;Nm?P?^v`2-%fp)MvC@}>Q+;pPpb%vtde@8j~
zj;i{c8u*;r`VSOjou5<t;om<}gP&6`d`@-#cWO+g#{S+>cjwo$j`mx?`|EEpKtU$g
uSEhFQMY=#?3`d|QSAi6Kb%LHW(X~ILFn)3soR{=D`p%($rbvP;-~Rz!y0D!9

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_pipe/__pycache__/pynccl_pipe.cpython-312.pyc b/distributed/kv_transfer/kv_pipe/__pycache__/pynccl_pipe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d484dcac4ae1f68e29a74948e96e53b81f8ad83b
GIT binary patch
literal 13145
zcmb_jYit`=cAg<Q)bJsR5~=sYBUzF|S*GH|aU8|*TDIiGkuAHCoQL9ora4245+B-`
zp=Hrhp)6di)Xmm%gN5uq5cy9n!wbY|QN;VF8*foyi~gu4l0jnDK~-!DH2=6O7rV&*
zXwSLB8B)^7-o^IXzH@mW=f2K4_dDla|66IPlY$Vl{UCa+ouYn;KlH%l6B}7bEK)o*
zLh&?jiP0l8`C3LS@U_OQaodQE#xh%siQ7l)ByEY6jFdng6Jz6!5eLb$$DDE3h>N64
zV(xh9NGVCPv9fsiNI6M6VxD-#NCiz<D4{~Ayhm%J81Y)D*D2n4jpAK`@18ZETP0Kr
zHA2bQ^ZBtBeRxZ{grXvrI>;NTBdy)gx>P7NTGvlm{AHmppbO{lXjJ0jNj?=5xM+ML
zCd7q=EO8<3?9^a59OEXU69N}Wiku`Q_-Nu17fSG)D1?RRW%%VhGa*NliBRl)IVpxm
z1H(c>N{SzF7X^7z5E2|8m1Hq`F(nJoD3lnNxXGwI%7ysLp+s2Vo#A9Wo=QZ+A*8}Z
zgpiyP1u5Wk4hU1+iTuwV=RR&IH8GJCVPK}i;AGNoo_bu6LwraML9;htv@t>AE+(PZ
z<LCN%$?%V#J;(9F<!D&oHVr_67AK3>AdyV$yBJG`$8q9XADj&HkRpP}#f9)_C=r$7
z(CTz35xRu^q#{@(MbiT5X+lh1j`CO#3Xe~~)FhZ6befRGWUP2v#R~<E!cddDBqmc6
z`8h$8Nc2)l3|)kMnh1#@n4};|&Tnwz2mQ3l9uLK0SPJRN;Zact@n@6CSpO9voPxc9
zT+hJU!}+lvC)BW}w#&zjZ6GzB18<*&Z9f*0kXqG{9FhfCMd_?Iu-9>1P~eItqH-{n
zymUzr!$k}T9IS<nX83*|L`a}Obf^)_92Ef(y2g%J=cp_6h;4}STU75cF*z<Iu*d!@
zVSzAISSNvmkmvE=#tDdiL@!d)^fVQOv=(He?!0B1`k{lOrl~Q#u;{Bx6irQ0etOVv
zRZHS9DcCoakx~<asItKznNkqSY?2U*h^5e8bp(UqSV)qBK?#S!akJmP(=Ep*x<NMf
z$szHQAn&`9dij+@<1Y){vFOF_i79zBndrV8i^aQ(Hnw~Ga!}_UOrvN)-2{jkNe3pT
z#B%5$-Dt8R0ex&OP(x~f=(n>}wx)T`_L2KBTRLB&u(daRpETZTe8hHaKr!WKa6$>-
zlweSG27{WAL)sk-em510X(gmbwKPA)un>y{gMM19z+O-V9Th7f7F~M8K|;c1`Rz68
zHx>)CCr3dfdiC;6i~xH<!p65is=x+3J!0i8BQ}8<bLVRmeMU+gl!M|Mc$>iTjNsty
zf|IwRPUA}iHp24kHD<)cI|MiH6iS6Mpn`n1B?#;#3vbo5;O|pMs~NHJu4}dt5B3?c
z@NP&~faWyqAwMRkPzkNdpr)5E7b;;)rnRAt2kQ8+4p6RubQRRabS0##pVbS@#m0M~
zX3b7LXyXBTKB!gu40=_twy>%ZJ6{d8>-d^$)JXj^+F*SfUkmjco;ij(sMW~V1J$M}
ztG`ioYKjJh{2LE!)i-4j4XRF1uAx{Ej|SDQ={VJ{sb<xM3O|^PL?l5D>t{0VGH`;X
z5B?s+5wrnFeL))#-GGcsg1IIbv+3o9FVHab2(&V(F>85~`W|Q=Gu<*~FHq7`KoQji
z3Defuz0gvZ2R$3UJJ2KOq^KGsb^Qf&jouQ~J5aTn)!v~m)Hz!M;+%W=^_XE~)CMGs
zp)%MKcA)CpQVo9YP_x>krY)`2H`xcEV$8qLa+>+E^<JJ!V1*350<~)kwe-{&D$p(A
zUj8?Y<80be2tUm!>FYdWpSGWe6@$Kw^@KF?ItkF)WG=iuPm>v?ArB}RYri7};1wv_
znS!xrJkmo=O#;urFJqVFy?Xvwm!2wo^|gT(HF_@esV9rRW{4D8As8hA&R+YVS}Fl1
z5rT3wE+kWOv<n0ljw{<}Qj%30%DrkMI>9-a6k~i4@s!vC?Y}|E7LhUi^&;+(*a(qY
z0;egd@4;gg&`~TV#7HZ(EC>g=5SD{^t%5Z)l$OsC@$gWq;1CZ+#AG}uT!Aw>sOch+
z#WH&s(3A`)0h&f9NM~e-3;}3r$;FT;Mgcz52a$-@5A>SggMgEv2_Q<<Q=A=1CBjAy
zsY7yn8kQh42?FFMG}LXm*g*9VAVD;wOu(M%%FhbdN_A+N09#etDZsC)r>GPl8|0J~
z7J@XXEUtmgrBQ#0i2O^|SX*seD{&V_xErbs=O&>(=Cq)J1p;Ec1&wcDmjKk1F2f$q
zQn@m!rU}4{D_h?NpYm)?!{XH&S2H!8N=+w%nrylE`t<ztO8K4@b`Qi^uI-NNwkyLO
zR=C4+wl%gX>#CSLlC5vf)bCU3_bv0Ej^7>61m08vZ?4u4%=P_nVBIK-tk%CY*Z0vt
z&Q8@eed4<1%GAE1)V}hd`{ysN)}EOweO%R<soJkp?ax+JEjHX}$W*i{6|KgPHl?C%
z>8euk0_HT{XoSILYPyt~u5A6DCoX%n69(+ec_>Heb?3Y@!`3To{TkZ{Q^=GDl=8r`
z{Av1bdbPY~&X#@oRfRo3#(z^@+jU^Q-GAr&?eq70mG+k&_%g2yD)6^$5G%A~pHc=h
zIee7X)}f&hzqOA!|DCeiWvkrtT6Sy4oxQjBW?By`t*~H^*j*Y*>&Bh4ivpNhiA^{g
z^%I_0#P0n*;%svXH_l0@n-4ra{v0qxk8GUN^LSF4=%gPP&K1CC)0Uv26{js@CZ`_c
z8oFHXjiP33GuCPAv@K#8qUPx_1QT1rjCGC%W5afhonfY#8Jk|)&kU-zaEcEB$VF~G
zv1ti#`lui`kW<mrn753f%Gna8X<hA4gZY0LN<pnz1_NLeu|%Ge7stScps%P_Neqj)
z;=1WTBm^vvDWV+G2aBa-NA(dnOmLEPB#>_xMT%7rp%GBm{7Lhz=4I<@UDpD=u=_9V
zWS{-4rrB)r6xcSn6Pm7M!6HFBkw+6J0Wr}hEYVjuY`Z4&giCB_9*b{a+mjgeLnI+7
z?gGlYChhy-ce?%en#bGNJ_ZpC8x(-sbN$u%S2L~##no{0@|Ujmuf6R{!u`I_&wO@f
z&D%HEmu+kTsXd(qnXS83x72s%<n5CSZF7COddlNl7@kY7uywg|%2&5|<i?S?z9%-i
zbRP(YuVJolz1*9xKvrYZE*p&gcQBMiN`_bqV+LT;bHM1JVYl-v56}RB5n=V#0;`*`
zIj}Z0hNs7t@YmGeT6EqSqMkv+R;USVoAwQnlMH<k+G*0mwM*hr=poG@NB5}K@I(sE
zQM+c7gL+Oxk}5-7GlUrk2ly@84kPzVI5B-A{Ya^<cq2C*ofBC9I7GA5W47$NYu>fu
z>s&su#=Z!Oc;W3YT@8=DwTp*u9A0W)wtZTDw|r&Kp%w0xRd3IVyXWhC5wq&;SaEld
zJyGqNOJ&pE;11xwjbjj@sXxmA7==~;8xZwr+6;0)u9-?AE&SHd1PHJb*%iZaa+GuO
zr~v*O%}vCG(A~vH!^D#%PJypR0(TYoqp(&qF_Dt<z8~;QX;e6_SG*+k7{4%An@bNj
zyrmHbzO%t(0w_heL{j%6fzvJT8{&(ozD1Ps7Q*^Cd$``>Q4&WQjxdsp#gdcA730Fx
zmbN&seOxP#I-pe>8+yh#{LLjJWQKXaR(_a)O_R#EmqtTIdy;-u+rhgQl_9-?Zv`8R
zL$IAX=luz!i#ZQKT0Ar^1ofG2X2MNHlh||*M4&)wDR(6RfTot^KE=C##l3&MY4<1R
zZ=Jt?;`39Vol?BLEAC#6(O8}GCRW3<im=*SkN`DcD0(w?0>P&d#G(QqUsF5}HV9IL
z0In@tC}hHVA>BzRC-Z((p?DiMF`v#N2Co+J%61OaCuzng$Qn8y5YJ?*wx?a&wi~>a
zVQ|?Jk0)@K#vOYkuE00w0Vb`BMq|pk8luGE=sc!zoHQYXqmd{G8R0{N-uA%&kOv0=
zdXGUIFQ7{<psBtK1wIwe!E%ek5CMPThp0NgRXhu6l@a0-@)XIsn^%1AK>jB7^98{*
z3uc3$0d{TJ>0QN|(4@i~lIetKmU>c4d8)2ooxhrO`xf3&+)YdGE?-jG4?d88di5t)
zpI9v(C%DNR&ZitjIM^K#SDvS!iV@JyVP;Vlj;blzZ%Kb_?C%g9_M7!yk;(&JL{*|0
zAjDH&w7361oL1N{aJ>>pB)$o=5f5NA0@0=|L9-1ED4nG@YlKZjH?b+6Wdu^_2)sdI
z8*aX_#AiCbqjY@d5qnfydPBsaJ}xQ||5K3ogO=WW;q$aX@agnJW7*##S0$Q=>$53V
z<7jg}W$jJnN~iOO2)Z#KROuK@<-D*-`X1piEWQNMU7ElK;uO}9AE<2tcJ<+G-lR=M
zw}F6!b|Y+(2e8}q^n5x~-l~+hE*;41KCJ9MyjuR+3j5l20Wp;H187Zlsdx_|4?_Wu
z&ww+~48=_ws0%UNhX<jSVX9~}G&*Bw%x($hNbX*K98hXvwiJsY5yY>J4M2bp3d`Vu
zFI>23_g`=zBWrI~y+m6_;pR(UW=<1UgWm5ev^xS6pm$Ngp5-nCD;E&0T-XX%jP5k<
z;h+hQ6I&ISW)Q3g#Q5R|7`*_IY60{~yap)ez*HVAK>#2UHH-oX6g8{JsR=zg71CA3
z+Ls7CW}_cULRATTR7v@2Gu{rx+p%<c)f<>&v#dMAYJ$JUwgV_#aW!S#o{YOiakngW
z-0|P`FZX>qaCcy}_0WU1OwW+gGxW$koU>By=I!di2E7pV@DU_-Vm#e1HUmb2h7V@x
zshwERFd7Mynz0|YG_jcr%rp%k*l$h$yRjQjWhM|o?V6SY#7AyOw=)y!AA{P?XMm|5
z($9Asgw_`x>7=8laFS8Az&GUB9`xJ93$WJW`xw255$YYCXOLY~yVhmim^Rpk=$h?p
zV`TpX+DZcu5%r_9&8qh~U>cWq;dRB;xZ-NddTYSHld0%bDms@BtyUbEvlEtTQrM=O
z5&bM#V~?(vSIw0Yj!|9ObcwGqjO?NZboCSVL0Gv67h15jPt{z+?QCMlyhLHi7252u
zpSGlHC@O3zTwM@bsmNZPqIXmK;U;g=LR0SnCAj>guUOxsCLv!oSgnl``5CKh*sEhM
zeHw)?Z;=g0jG4n_tfEj?PwC<z8&2nfrY_1eE-UV#&_RF)5mug#Il*mX8-p2c4LV(%
z6Hm`r|I|7K;)mZ!dXm!S=eMQL8I1jo7@7bhggj&@C>hkGaD@*q1UNyzc?Me$a8hal
z;I5z}b@Y!Gm~}Ay;```qZs$Mf;fxz=ZgLdfJILY`(cVd-$iY1C;^NXJVyENQ`rYKB
zT<n3g_%cMQ!yq6I;%`O}#iXb~S69*9vC5)zi1@gz@T3A9ykaOU;Hv`FF(F11GWe~-
zex^vhUP5xTASU1|p|T;0TT`@NqEPd!JE^Try17W>nw0-5()j^IAVcmlM=NO7>u2WA
z+&r=7-o1`u)3I97k@fg89_~vIw=|%5x*vJC-&m>2Jy51pbo}n?^4ech4oB-_cjfg{
z^QW?&{>PrGjHgBMv}8P;il=kc)AiWnT{!Wv3qQRd+n+d?(y|RVRob-fuFAM~DehgG
zHve7D3xvLv@QC?dQ?HZyr22^UA6ZEJ6VqE#^3ZC9<iipYI~~Vfwm$Us)*pMp`m+}p
z_z^A^L=;jYs9!*0Cm0CAYa*KCeXx!Fa-L}^$_za4hSsMk8I=MFW{?4H-16fhsz9$=
z^nJ=G=#ToQtZ>t6ONR}nKZbsOf-S=-QG|mU()ca}k9O4bnl9BItAIZuhA$aJC<zhI
zhe1ZW3rNPmQ9)P;qIBoL+gvyl1|sAh0^hvgYX%O;L{hO>fO{ttl|d2$fxxA|x`pBH
zcMu#P&x`0U&2u|1Tui|g1>OUJqaY>-6Cz&a7K6-E@&G3ojRcW$y0(Z*H<kPcwtF2S
z;7=z7p7*k5rL1|$muWeqv>f`f>`<QVR_glK+$SCb_r5v*=7PNDZp<;;sy`|_v>l3~
zx+I*!6O|6T0U2AvY=w+<NZ>8t56JH++=1!Y2tZrGX=Q={bj1dxCO}j#O+(8WOTxn2
z2$C?k%IJX7YZ6W}fv3iyVyN^&TR2qUeFq#W#__QAP%)qR7+(8q2~ZOO-<ANjt3~&d
z;DNODi27)MUWGI1e=&G&2#_&4>UIJ$c@q}Q8elvPPoug72ObwPh-`Y$H5r<Es+Ftt
zq<PKqy+S9b8lQ%4OmVT;0ZVWfo=n9<SAuY-ISy~Pv};U<co2$2)FG-H{JZ%4PP@5e
z5~;Wl6E9<N;lQv<sf+QbEPfZVb!bH3H0t}!xX4wc#naVAa#NK5-`MI$5D{bqVA;hf
zE^fv3+~c-`U+iCN>!0gebGNK(Sh}9muG&`XyYF{=-t}46KLnKeqw{dj)-X4)j_5mo
z@wHxBktuCmEyY73<8J)Y-MHjZ+<PCn8{s@C+YK&yM`?ydT$N$l6t-<?IMe=`(*D|m
z%U@i5#18$Y1S+kRf__K#e8^QF>#+W;gE`h+vPpBJ{1ACu_+#bKRFci)6ZqMX3g|r_
zbQzza0p`(WuRL^l1bGDn575hyNq}AvfL?|inn@9FTm--w^7NX_w6$O@Jfp7NTsjNw
zd3eVfa}W?#rO&nS)#n5{#`?YO@QY2~H^lBO%?a`}@iqJ)QZglm!JYuw4RGWLLqr9y
zgknX)YHE)B(PqdX5mWIB%rU*MKM_u*67a|pyEot=suMW-G;4=IJ#wU`E$vde^z>Bm
z#S8&_u7Y@r(?C~@K!mriQYr>7V=)JDpNL0^W+x+F6O$0-(VS|Jr0`X&W;9P=sTrhm
z5o1SFQ=5dnDF1(<v2+_E5O%zM+d<d~m;=C;so1Af;JteCZgREa$ecZAb2xn2s)of6
zZhY`@aPCCTM|rB}N`L#rOL^*kO_ex&#u@v@n)_t_$4%eO?}84|f9+as`*iQ!y=(4+
zzi>AiunsC@E4_2C|1MV!WWJTq#s1Ld>8++7Ry&R})`z=#TaHuKf2J7tu}KS{<|JAm
z28m)XK3>i0yevKkyl#TvK5Q`0H<SGWzfW2457^<y3=TgYOG=uPkKiD*Aw<yTaFYbr
zOHwi%B~EPEcEa88!dZt>gg?k*)X|U>l4X%(sH`-alKJFhVjCV}!q`>XQ>4#HPAw=w
z2@Pg&N3)dMyKrEoZtt3_>%K3u|Aeyt#LE7+3};Bj-Kn@cAGy20_wm9Iz2fR3Xa}ya
zwL_^{^Z_9eg<h<NNG(6zKiu2bJKP&Q)j#<9@EdB?>E3sP!~KIpXWk0-ojeVRlV=8p
z@-BBUM-CoP%ZxUC!|$E#SFMmOqRtlM7$I8F-q$d43f`TIxQVKLn79wb{aEV99QJhn
zo=)>D5$6DLFI~VYVT@3w$bqOGmNWSCLyZ0mqPrBCn|4=?Y$alZq@_QHCA&stt7~V^
zWE-1TY<1bH`o;Heygxgbb5qT&*@nhnxjLBF)_pZO2EK4?RkY+vFvU_8z6Jh<Gv~lx
zPO7?Y18e5a(zQ%|wyHB{h3~qfEX#Tp+84WSbS+s|;0X!80?q|?@AA9%Q=d<NHvPrW
z%E6OAKd^G}jI!_S3VZffR*TcV!9dg80fyPLG_*m%Cs$U^9HW=ck!K=(O8cQ4g&7at
z-5}pwYZ>EQem6(K=Rx~VyMEHOfyo?K!t~NhS2ig8<|<j{$P&9j!6)Z)Gw0}~symIh
z8}HkcmIFBoGamRh$T!zm##G<z|K!xIQ_BaG#%`omo#T8=Yqq*!F?J)iG^|wnb5_ha
z^eXwTJ4!bg`2Fjy5~e9vS;Y*~OYL{MZUgTrtuN&$%y`hYLB6>_4Uj*F_jGV=*Yx}b
z1;005V3>W{Hj&L~P)mYAJ{b-M#Y4DbGDK>57%n>DB^Ufp0Vxo=7}gl35?*TM&6|Lx
zC?x`>G*+y^H`oE~F;@T{Jn7a7;X}2Hlonap`O77E{iXl6grq3Jvuu2#O`cGw{%uW)
zsA3N&{sFwi6A{3x)!XXBbGMkJF}{lwYM1pQqIga0$bmqP1{adB;XREeGaq4{A7Vrp
z`7bbqt`*IyXAf&nypM=@Cjz`pNuv<utTavk%I>0V8}$@j@e9iJ71j0?wf~ot`@g6I
zUr_^JQAfX`4t+)K{!fQ*;oVh7^Q`@e-AeDd>3>4O2V}wRS+FjgTReZ`{8FD%_1uc*
XImP9lWuMq(E4^=_{(mU^l9Bu$TS%}F

literal 0
HcmV?d00001

diff --git a/distributed/kv_transfer/kv_pipe/base.py b/distributed/kv_transfer/kv_pipe/base.py
new file mode 100644
index 0000000..1fe7a90
--- /dev/null
+++ b/distributed/kv_transfer/kv_pipe/base.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file defines an interface `KVPipeBase`
+that provides an abstraction for sending and receiving tensors, or None, via
+distributed communications.
+
+All classes instantiated from this interface are assumed to be a FIFO pipe.
+
+If your distributed communication platform already supports key-value lookup,
+you can bypass this interface and directly start from `kv_lookup_buffer`.
+"""
+
+from abc import ABC, abstractmethod
+
+import torch
+
+
+class KVPipeBase(ABC):
+    """
+    This class provides an interface for sending and receiving tensors, or
+    None, by distributed communications.
+    """
+
+    @abstractmethod
+    def send_tensor(self, tensor: torch.Tensor | None) -> None:
+        """Send a tensor, or None, via the pipe.
+
+        Need to support sending None -- important for error handling.
+
+        TODO: add a `key` argument so that we can use traditional
+        key-value database as the distributed communication mechanism behind
+        the pipe.
+
+        Args:
+            tensor (Optional[torch.Tensor]): The tensor to be sent. Can be None.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def recv_tensor(self) -> torch.Tensor | None:
+        """Receive a tensor (can be None) from the pipeline.
+
+        Returns:
+            Optional[torch.Tensor]: The tensor received from the pipeline. Can
+                                    be None.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def close(self) -> None:
+        """Close the pipeline and release resources.
+
+        This method is responsible for closing the communication pipeline
+        and releasing any resources associated with it.
+
+        Raises:
+            NotImplementedError: This method must be implemented in subclasses.
+        """
+        raise NotImplementedError
diff --git a/distributed/kv_transfer/kv_pipe/mooncake_pipe.py b/distributed/kv_transfer/kv_pipe/mooncake_pipe.py
new file mode 100644
index 0000000..542dde0
--- /dev/null
+++ b/distributed/kv_transfer/kv_pipe/mooncake_pipe.py
@@ -0,0 +1,295 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+import os
+import struct
+from concurrent.futures import ThreadPoolExecutor
+from dataclasses import dataclass
+
+import torch
+import zmq
+from safetensors.torch import load as safetensors_load
+from safetensors.torch import save as safetensors_save
+
+from vllm.config.kv_transfer import KVTransferConfig
+from vllm.distributed.kv_transfer.kv_pipe.base import KVPipeBase
+from vllm.logger import init_logger
+from vllm.utils.network_utils import join_host_port, make_zmq_path, split_host_port
+
+logger = init_logger(__name__)
+NONE_INT = -150886311
+
+
+@dataclass
+class MooncakeTransferEngineConfig:
+    prefill_url: str
+    decode_url: str
+    metadata_backend: str | None
+    metadata_server: str
+    protocol: str
+    device_name: str
+
+    @staticmethod
+    def from_file(file_path: str) -> "MooncakeTransferEngineConfig":
+        """Load the config from a JSON file."""
+        with open(file_path) as fin:
+            config = json.load(fin)
+        return MooncakeTransferEngineConfig(
+            prefill_url=config.get("prefill_url"),
+            decode_url=config.get("decode_url"),
+            metadata_backend=config.get("metadata_backend", None),
+            metadata_server=config.get("metadata_server"),
+            protocol=config.get("protocol", "tcp"),
+            device_name=config.get("device_name", ""),
+        )
+
+    @staticmethod
+    def load_from_env() -> "MooncakeTransferEngineConfig":
+        """Load config from a file specified in the environment variable."""
+        config_file_path = os.getenv("MOONCAKE_CONFIG_PATH")
+        if config_file_path is None:
+            raise ValueError(
+                "The environment variable 'MOONCAKE_CONFIG_PATH' is not set."
+            )
+        return MooncakeTransferEngineConfig.from_file(config_file_path)
+
+
+class MooncakeTransferEngine:
+    """Handles the transfer of data using mooncake_vllm_adaptor and ZeroMQ."""
+
+    def __init__(self, kv_rank: int, local_rank: int):
+        try:
+            from mooncake.engine import TransferEngine
+        except ImportError as e:
+            raise ImportError(
+                "Please install mooncake by following the instructions at "
+                "https://github.com/kvcache-ai/Mooncake/blob/main/doc/en/build.md "  # noqa: E501
+                "to run vLLM with MooncakeConnector."
+            ) from e
+
+        self.engine = TransferEngine()
+        self.local_rank = local_rank
+
+        try:
+            self.config = MooncakeTransferEngineConfig.load_from_env()
+            logger.info("Mooncake Configuration loaded successfully.")
+        except ValueError as e:
+            logger.error(e)
+            raise
+        except Exception as exc:
+            logger.error("An error occurred while loading the configuration: %s", exc)
+            raise
+        prefill_host, base_prefill_port = split_host_port(self.config.prefill_url)
+        decode_host, base_decode_port = split_host_port(self.config.decode_url)
+
+        # Avoid ports conflict when running prefill and decode on the same node
+        if prefill_host == decode_host and base_prefill_port == base_decode_port:
+            base_decode_port = base_decode_port + 100
+
+        prefill_port = base_prefill_port + self.local_rank
+        decode_port = base_decode_port + self.local_rank
+        self.prefill_url = join_host_port(prefill_host, prefill_port)
+        self.decode_url = join_host_port(decode_host, decode_port)
+
+        self.initialize(
+            self.prefill_url if kv_rank == 0 else self.decode_url,
+            self.config.metadata_server,
+            self.config.protocol,
+            self.config.device_name,
+            self.config.metadata_backend,
+        )
+
+        self.remote_url = self.decode_url if kv_rank == 0 else self.prefill_url
+
+        # Initialize ZeroMQ context and sockets
+        self.context = zmq.Context()  # type: ignore[attr-defined]
+        self.sender_socket = self.context.socket(zmq.constants.PUSH)
+        self.receiver_socket = self.context.socket(zmq.constants.PULL)
+        self.sender_ack = self.context.socket(zmq.constants.PULL)
+        self.receiver_ack = self.context.socket(zmq.constants.PUSH)
+
+        self.buffer_cleaner = ThreadPoolExecutor(max_workers=1)
+        self._setup_metadata_sockets(
+            kv_rank, prefill_host, base_prefill_port, decode_host, base_decode_port
+        )
+
+    def _setup_metadata_sockets(
+        self, kv_rank: int, p_host: str, p_port: int, d_host: str, d_port: int
+    ) -> None:
+        """Set up ZeroMQ sockets for sending and receiving data."""
+        # Offsets < 8 are left for initialization in case tp and pp are enabled
+        p_rank_offset = p_port + 8 + self.local_rank * 2
+        d_rank_offset = d_port + 8 + self.local_rank * 2
+        if kv_rank == 0:
+            self.sender_socket.bind(make_zmq_path("tcp", p_host, p_rank_offset + 1))
+            self.receiver_socket.connect(
+                make_zmq_path("tcp", d_host, d_rank_offset + 1)
+            )
+            self.sender_ack.connect(make_zmq_path("tcp", d_host, d_rank_offset + 2))
+            self.receiver_ack.bind(make_zmq_path("tcp", p_host, p_rank_offset + 2))
+        else:
+            self.receiver_socket.connect(
+                make_zmq_path("tcp", p_host, p_rank_offset + 1)
+            )
+            self.sender_socket.bind(make_zmq_path("tcp", d_host, d_rank_offset + 1))
+            self.receiver_ack.bind(make_zmq_path("tcp", d_host, d_rank_offset + 2))
+            self.sender_ack.connect(make_zmq_path("tcp", p_host, p_rank_offset + 2))
+
+    def initialize(
+        self,
+        local_hostname: str,
+        metadata_server: str,
+        protocol: str,
+        device_name: str,
+        metadata_backend: str | None,
+    ) -> None:
+        """Initialize the mooncake instance."""
+        if metadata_backend is None:
+            self.engine.initialize(
+                local_hostname, metadata_server, protocol, device_name
+            )
+        else:
+            supported_backend = ["etcd", "redis"]
+            metadata_backend = metadata_backend.lower()
+            if metadata_backend not in supported_backend:
+                raise ValueError(
+                    "Mooncake Configuration error. `metadata_backend`"
+                    f" should be one of {supported_backend}."
+                )
+
+            self.engine.initialize_ext(
+                local_hostname, metadata_server, protocol, device_name, metadata_backend
+            )
+
+    def allocate_managed_buffer(self, length: int) -> int:
+        """Allocate a managed buffer of the specified length."""
+        ret = self.engine.allocate_managed_buffer(length)
+        if ret <= 0:
+            logger.error("Allocation Return Error")
+            raise Exception("Allocation Return Error")
+        return ret
+
+    def free_managed_buffer(self, buffer: int, length: int) -> int:
+        """Free a previously allocated managed buffer."""
+        return self.engine.free_managed_buffer(buffer, length)
+
+    def transfer_sync(self, buffer: int, peer_buffer_address: int, length: int) -> int:
+        """Synchronously transfer data to the specified address."""
+        ret = self.engine.transfer_sync_read(
+            self.remote_url, buffer, peer_buffer_address, length
+        )
+        if ret < 0:
+            logger.error("Transfer Return Error")
+            raise Exception("Transfer Return Error")
+        return ret
+
+    def write_bytes_to_buffer(self, buffer: int, user_data: bytes, length: int) -> int:
+        """Write bytes to the allocated buffer."""
+        return self.engine.write_bytes_to_buffer(buffer, user_data, length)
+
+    def read_bytes_from_buffer(self, buffer: int, length: int) -> bytes:
+        """Read bytes from the allocated buffer."""
+        return self.engine.read_bytes_from_buffer(buffer, length)
+
+    def wait_for_ack(self, src_ptr: int, length: int) -> None:
+        """Asynchronously wait for ACK from the receiver."""
+        ack = self.sender_ack.recv()
+        if ack != b"ACK":
+            logger.error("Failed to receive ACK from the receiver")
+
+        self.free_managed_buffer(src_ptr, length)
+
+    def send_bytes(self, user_data: bytes) -> None:
+        """Send bytes to the remote process."""
+        length = len(user_data)
+        src_ptr = self.allocate_managed_buffer(length)
+        self.write_bytes_to_buffer(src_ptr, user_data, length)
+        self.sender_socket.send_multipart(
+            [struct.pack("!Q", src_ptr), struct.pack("!Q", length)]
+        )
+        self.buffer_cleaner.submit(self.wait_for_ack, src_ptr, length)
+
+    def recv_bytes(self) -> bytes:
+        """Receive bytes from the remote process."""
+        data = self.receiver_socket.recv_multipart()
+        src_ptr = struct.unpack("!Q", data[0])[0]
+        length = struct.unpack("!Q", data[1])[0]
+        dst_ptr = self.allocate_managed_buffer(length)
+        self.transfer_sync(dst_ptr, src_ptr, length)
+        ret = self.read_bytes_from_buffer(dst_ptr, length)
+
+        # Buffer cleanup
+        self.receiver_ack.send(b"ACK")
+        self.free_managed_buffer(dst_ptr, length)
+
+        return ret
+
+
+class MooncakePipe(KVPipeBase):
+    """MooncakeTransferEngine based Pipe implementation."""
+
+    def __init__(
+        self, local_rank: int, config: KVTransferConfig, device: str | None = None
+    ):
+        """Initialize the mooncake pipe and set related parameters."""
+        self.config = config
+        self.local_rank = local_rank
+        self.kv_rank = self.config.kv_rank
+        assert self.kv_rank is not None
+        if device is None:
+            self.device = self._select_device(self.config.kv_buffer_device)
+        else:
+            self.device = self._select_device(device)
+
+        self.transfer_engine = MooncakeTransferEngine(self.kv_rank, self.local_rank)
+        self.transport_thread: ThreadPoolExecutor | None = None
+        self.none_tensor = torch.tensor([NONE_INT], device=self.device)
+
+    def _select_device(self, device: str) -> torch.device:
+        """Select available device (CUDA or CPU)."""
+        logger.info("Selecting device: %s", device)
+        if device == "cuda":
+            return torch.device(f"cuda:{self.local_rank}")
+        else:
+            return torch.device("cpu")
+
+    def tensor_hash(self, tensor: torch.Tensor) -> int:
+        """Calculate the hash value of the tensor."""
+        return hash(tensor.data_ptr())
+
+    def _send_impl(self, tensor: torch.Tensor) -> None:
+        """Implement the tensor sending logic using safetensors."""
+        self.transfer_engine.send_bytes(safetensors_save({"tensor": tensor}))
+
+    def _recv_impl(self) -> torch.Tensor:
+        """Implement the tensor receiving logic using safetensors."""
+        data = self.transfer_engine.recv_bytes()
+        return safetensors_load(data)["tensor"].to(self.device)
+
+    def send_tensor(self, tensor: torch.Tensor | None) -> None:
+        """Send tensor to the target process."""
+        if self.transport_thread is None:
+            self.transport_thread = ThreadPoolExecutor(max_workers=1)
+        tensor = tensor if tensor is not None else self.none_tensor
+        assert len(tensor.shape) > 0
+        self.transport_thread.submit(self._send_impl, tensor)
+
+    def recv_tensor(self) -> torch.Tensor | None:
+        """Receive tensor from other processes."""
+        if self.transport_thread is None:
+            self.transport_thread = ThreadPoolExecutor(max_workers=1)
+        tensor = self.transport_thread.submit(self._recv_impl).result()
+        if tensor.numel() == 1 and tensor.item() == NONE_INT:
+            return None
+        else:
+            return tensor
+
+    def close(self) -> None:
+        """Cleanup logic when closing the pipe."""
+        self.transfer_engine.sender_socket.close()
+        self.transfer_engine.receiver_socket.close()
+        self.transfer_engine.sender_ack.close()
+        self.transfer_engine.receiver_ack.close()
+        self.transfer_engine.context.term()  # Terminate the ZMQ context
+        logger.info("Closed the transfer engine and cleaned up resources.")
diff --git a/distributed/kv_transfer/kv_pipe/pynccl_pipe.py b/distributed/kv_transfer/kv_pipe/pynccl_pipe.py
new file mode 100644
index 0000000..526c5cd
--- /dev/null
+++ b/distributed/kv_transfer/kv_pipe/pynccl_pipe.py
@@ -0,0 +1,285 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This module implements a PyNccl pipe for sending and receiving
+Optional[torch.Tensor] between distributed ranks with advanced
+communication features.
+
+Key Features:
+- Supports sending and receiving tensors with metadata
+- Handles both CUDA and CPU device communications
+- Implements a non-blocking tensor transfer mechanism
+- Manages buffer size and provides backpressure control
+- Supports distributed process groups with configurable parameters
+"""
+
+import threading
+import time
+from collections.abc import Callable
+from concurrent.futures import ThreadPoolExecutor
+
+import torch
+
+from vllm.config.kv_transfer import KVTransferConfig
+from vllm.distributed.device_communicators.pynccl import PyNcclCommunicator
+from vllm.distributed.kv_transfer.kv_pipe.base import KVPipeBase
+from vllm.distributed.utils import StatelessProcessGroup
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class BrokenPipeException(Exception):
+    def __init__(self, message):
+        self.message = message
+        super().__init__(self.message)
+
+
+Metadata = dict[str, torch.Tensor | None]
+
+
+class PyNcclPipe(KVPipeBase):
+    METADATA_LENGTH = 16
+    MAX_TENSOR_DIMENSIONS = 14
+    METADATA_DTYPE = torch.int64
+
+    def __init__(
+        self,
+        local_rank: int,
+        config: KVTransferConfig,
+        device: str | None = None,
+        port_offset: int = 0,
+    ):
+        self.config = config
+        self.local_rank = local_rank
+        self.kv_rank = self.config.kv_rank
+        assert self.kv_rank is not None
+        self.kv_parallel_size = self.config.kv_parallel_size
+        if device is None:
+            self.device = self._select_device(self.config.kv_buffer_device)
+        else:
+            self.device = self._select_device(device)
+
+        # build distributed connection and send/recv implementation
+        store_timeout = self.config.get_from_extra_config("store_timeout", 300)
+        self.group = StatelessProcessGroup.create(
+            host=self.config.kv_ip,
+            port=self.config.kv_port + port_offset,
+            rank=self.kv_rank,
+            world_size=self.kv_parallel_size,
+            store_timeout=store_timeout,
+        )
+        # add a barrier to make sure the connection is initiated properly
+        self.group.barrier()
+        impl = self._get_device_send_recv_impl(self.group)
+        self.device_send_func, self.device_recv_func = impl
+        # set target rank
+        self.target_rank_for_send = (self.kv_rank + 1) % self.kv_parallel_size
+        self.target_rank_for_recv = (self.kv_rank - 1) % self.kv_parallel_size
+
+        # transportation-related variables
+        self.transport_thread: ThreadPoolExecutor | None = None
+        self.buffer_size = 0
+        self.buffer_size_lock = threading.Lock()
+        self.buffer_size_thresh = self.config.kv_buffer_size
+
+    def _get_device_send_recv_impl(
+        self, group: StatelessProcessGroup
+    ) -> tuple[
+        Callable[[torch.Tensor, int], None], Callable[[torch.Tensor, int], None]
+    ]:
+        send: Callable[[torch.Tensor, int], None]
+        recv: Callable[[torch.Tensor, int], None]
+        if self.device.type == "cuda":
+            # use PyNCCL for send / recv
+            comm = PyNcclCommunicator(group, device=self.local_rank)
+            comm.disabled = False
+            send, recv = comm.send, comm.recv  # type: ignore
+        else:
+            # This send / recv implementation here is NOT intended to transfer
+            # KV caches (and should NOT be repurposed to transfer KV caches).
+            # Currently it is only used to transmit control-plane messages
+            # for PyNcclBuffer.
+            send = group.send_obj
+
+            def my_recv(x, src):
+                x[...] = group.recv_obj(src)
+
+            recv = my_recv
+
+        return send, recv
+
+    def _select_device(self, device: str):
+        logger.info("Selecting device: %s", device)
+        if device == "cuda":
+            return torch.device(f"cuda:{self.local_rank}")
+        else:
+            return torch.device("cpu")
+
+    def _make_metadata(self, tensor: torch.Tensor | None) -> Metadata:
+        """
+        Create the metadata as a dictionary based on the input tensor.
+
+        Args:
+            tensor: The input tensor or None if no tensor is provided.
+
+        Returns:
+            metadata: A dictionary with the following keys:
+                - "dtype": The data type of the tensor or None.
+                - "shape": The shape of the tensor or None.
+        """
+        if tensor is None:
+            return {"dtype": None, "shape": None}
+        else:
+            return {"dtype": tensor.dtype, "shape": tensor.shape}
+
+    def _prepare_recv_buffer(self, metadata: Metadata) -> torch.Tensor:
+        """
+        Create a buffer to receive the tensor based on the provided metadata.
+
+        Args:
+            metadata: A dictionary with keys "dtype" and "shape",
+                describing the tensor's data type and shape.
+
+        Returns:
+            buffer: A tensor of the specified type and shape,
+                allocated on `self.device`.
+        """
+        return torch.empty(
+            metadata["shape"], dtype=metadata["dtype"], device=self.device
+        )
+
+    def _send_metadata(self, metadata: Metadata):
+        """
+        Send the metadata dictionary to the target rank.
+
+        Args:
+            metadata: A dictionary with keys "dtype" and "shape".
+        """
+        self.group.send_obj(metadata, self.target_rank_for_send)
+
+    def _recv_metadata(self) -> Metadata:
+        """
+        Receive the metadata dictionary from the target rank.
+
+        Returns:
+            metadata: A dictionary with keys "dtype" and "shape"
+                describing the tensor.
+        """
+        return self.group.recv_obj(self.target_rank_for_recv)
+
+    def _send_impl(self, tensor: torch.Tensor | None) -> None:
+        """
+        The actual implementation of sending the tensor and its metadata to the
+        target rank.
+
+        Args:
+            tensor: The input tensor to be sent, or `None` if no tensor is
+                being sent.
+        """
+        metadata = self._make_metadata(tensor)
+        self._send_metadata(metadata)
+        if tensor is not None:
+            self.device_send_func(tensor.to(self.device), self.target_rank_for_send)
+
+    def _recv_impl(self) -> torch.Tensor | None:
+        """
+        The actual implementation of receiving a tensor and its metadata from
+        the target rank.
+
+        Returns:
+            buffer: The received tensor, or `None` if no tensor is received.
+        """
+        metadata = self._recv_metadata()
+        if metadata["dtype"] is None:
+            return None
+        buffer = self._prepare_recv_buffer(metadata)
+        self.device_recv_func(buffer, self.target_rank_for_recv)
+
+        return buffer
+
+    def send_tensor_wrapper(
+        self, tensor: torch.Tensor | None, tensor_size: int
+    ) -> None:
+        """
+        Wrapper for _send_impl to handle exceptions and update buffer size.
+        """
+        try:
+            self._send_impl(tensor)
+
+            with self.buffer_size_lock:
+                self.buffer_size -= tensor_size
+        except Exception as e:
+            logger.error(
+                "[rank%d]: Exception when trying to send %s, msg: %s",
+                torch.distributed.get_rank(),
+                str(tensor),
+                str(e),
+            )
+            import traceback
+
+            traceback.print_exc()
+
+    def block_if_full(self):
+        """
+        Block the current thread if the buffer size is larger than the
+        threshold.
+        """
+        while self.buffer_size > self.buffer_size_thresh:
+            logger.debug("KV cache transfer pipe is full. Waiting...")
+            time.sleep(0.05)
+
+    def send_tensor(self, tensor: torch.Tensor | None) -> None:
+        """
+        Sends a tensor and its metadata to the destination rank in a
+        non-blocking way.
+
+        Args:
+            tensor: The tensor to send, or `None` if no tensor is being sent.
+        """
+        if self.transport_thread is None:
+            self.transport_thread = ThreadPoolExecutor(max_workers=1)
+
+        if tensor is not None:
+            tensor_size = tensor.element_size() * tensor.numel()
+        else:
+            tensor_size = 0
+
+        self.block_if_full()
+
+        with self.buffer_size_lock:
+            self.buffer_size += tensor_size
+
+        self.transport_thread.submit(self.send_tensor_wrapper, tensor, tensor_size)
+
+    def recv_tensor(self) -> torch.Tensor | None:
+        """
+        Receives a tensor and its metadata from the source rank. Blocking call.
+
+        Returns:
+            The received tensor, or `None` if no tensor is received.
+        """
+        if self.transport_thread is None:
+            self.transport_thread = ThreadPoolExecutor(max_workers=1)
+
+        future = self.transport_thread.submit(self._recv_impl)
+
+        try:
+            tensor = future.result()
+        except Exception as e:
+            logger.error("Encountering exception in KV receiving thread")
+            logger.error("%s", e)
+            logger.error("My device: %s", self.device)
+            import traceback
+
+            traceback.print_exc()
+            raise e
+
+        return tensor
+
+    def close(self):
+        """
+        Close the pipe and release associated resources.
+        """
+        if hasattr(self, "transport_thread") and self.transport_thread is not None:
+            self.transport_thread.shutdown()
diff --git a/distributed/kv_transfer/kv_transfer_state.py b/distributed/kv_transfer/kv_transfer_state.py
new file mode 100644
index 0000000..54b46d9
--- /dev/null
+++ b/distributed/kv_transfer/kv_transfer_state.py
@@ -0,0 +1,78 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import TYPE_CHECKING, Optional
+
+from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+)
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+
+_KV_CONNECTOR_AGENT: KVConnectorBaseType | None = None
+
+
+def get_kv_transfer_group() -> KVConnectorBaseType:
+    assert _KV_CONNECTOR_AGENT is not None, (
+        "disaggregated KV cache transfer parallel group is not initialized"
+    )
+    return _KV_CONNECTOR_AGENT
+
+
+def has_kv_transfer_group() -> bool:
+    return _KV_CONNECTOR_AGENT is not None
+
+
+def is_v1_kv_transfer_group(connector: KVConnectorBaseType | None = None) -> bool:
+    """Check if the KV connector is the v1 connector.
+    If the argument is None, it will check the global KV connector
+
+    Args:
+        connector: The KV connector to check. If None, it will check the
+            global KV connector.
+
+    Note:
+        This function will no-longer be needed after the v1 KV connector
+        becomes the default.
+    """
+    if connector is None:
+        connector = _KV_CONNECTOR_AGENT
+
+    if connector is None:
+        return False
+
+    return isinstance(connector, KVConnectorBase_V1)
+
+
+def ensure_kv_transfer_initialized(
+    vllm_config: "VllmConfig", kv_cache_config: Optional["KVCacheConfig"] = None
+) -> None:
+    """
+    Initialize KV cache transfer parallel group.
+    """
+
+    global _KV_CONNECTOR_AGENT
+
+    if vllm_config.kv_transfer_config is None:
+        return
+
+    if (
+        vllm_config.kv_transfer_config.is_kv_transfer_instance
+        and _KV_CONNECTOR_AGENT is None
+    ):
+        _KV_CONNECTOR_AGENT = KVConnectorFactory.create_connector(
+            config=vllm_config,
+            role=KVConnectorRole.WORKER,
+            kv_cache_config=kv_cache_config,
+        )
+
+
+def ensure_kv_transfer_shutdown() -> None:
+    global _KV_CONNECTOR_AGENT
+    if _KV_CONNECTOR_AGENT is not None:
+        _KV_CONNECTOR_AGENT.shutdown()
+        _KV_CONNECTOR_AGENT = None
diff --git a/distributed/parallel_state.py b/distributed/parallel_state.py
new file mode 100644
index 0000000..8091c1a
--- /dev/null
+++ b/distributed/parallel_state.py
@@ -0,0 +1,1794 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 The vLLM team.
+# Adapted from
+# https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/parallel_state.py
+# Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
+"""vLLM distributed state.
+It takes over the control of the distributed environment from PyTorch.
+The typical workflow is:
+
+- call `init_distributed_environment` to initialize the distributed environment.
+- call `initialize_model_parallel` or `ensure_model_parallel_initialized` to
+ initialize the model parallel groups.
+
+- any code dealing with the distributed stuff
+
+- call `destroy_model_parallel` to destroy the model parallel groups.
+- call `destroy_distributed_environment` to destroy the distributed environment.
+
+If you only need to use the distributed environment without model/pipeline
+ parallelism, you can skip the model parallel initialization and destruction
+ steps.
+"""
+
+import contextlib
+import gc
+import os
+import pickle
+import weakref
+from collections import namedtuple
+from collections.abc import Callable
+from contextlib import contextmanager, nullcontext
+from dataclasses import dataclass
+from datetime import timedelta
+from multiprocessing import shared_memory
+from typing import Any, Optional
+from unittest.mock import patch
+
+import torch
+import torch.distributed
+import torch.distributed._functional_collectives as funcol
+# import torch.distributed._symmetric_memory
+from torch.distributed import Backend, ProcessGroup
+from typing_extensions import deprecated
+
+import vllm.envs as envs
+from vllm.distributed.device_communicators.base_device_communicator import (
+    DeviceCommunicatorBase,
+)
+from vllm.distributed.utils import StatelessProcessGroup
+from vllm.logger import init_logger
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.network_utils import get_distributed_init_method
+from vllm.utils.torch_utils import (
+    direct_register_custom_op,
+    supports_custom_op,
+)
+import ixformer.distributed as ixfd
+import vllm._custom_ops as ops
+
+@dataclass
+class GraphCaptureContext:
+    stream: torch.cuda.Stream
+
+
+TensorMetadata = namedtuple("TensorMetadata", ["device", "dtype", "size"])
+
+
+def _split_tensor_dict(
+    tensor_dict: dict[str, torch.Tensor | Any],
+) -> tuple[list[tuple[str, Any]], list[torch.Tensor]]:
+    """Split the tensor dictionary into two parts:
+    1. A list of (key, value) pairs. If the value is a tensor, it is replaced
+         by its metadata.
+    2. A list of tensors.
+    """
+    metadata_list: list[tuple[str, Any]] = []
+    tensor_list: list[torch.Tensor] = []
+    for key, value in tensor_dict.items():
+        if isinstance(value, torch.Tensor):
+            # Note: we cannot use `value.device` here,
+            # because it contains not only the device type but also the device
+            # index (e.g. "cuda:0"). We only need the device type.
+            # receiving side will set the device index.
+            device = value.device.type
+            metadata_list.append(
+                (key, TensorMetadata(device, value.dtype, value.size()))
+            )
+            tensor_list.append(value)
+        else:
+            metadata_list.append((key, value))
+    return metadata_list, tensor_list
+
+
+_group_name_counter: dict[str, int] = {}
+
+
+def _get_unique_name(name: str) -> str:
+    """Get a unique name for the group.
+    Example:
+    _get_unique_name("tp") -> "tp:0"
+    _get_unique_name("tp") -> "tp:1"
+    """
+    if name not in _group_name_counter:
+        _group_name_counter[name] = 0
+    newname = f"{name}:{_group_name_counter[name]}"
+    _group_name_counter[name] += 1
+    return newname
+
+
+_groups: dict[str, Callable[[], Optional["GroupCoordinator"]]] = {}
+
+
+def _register_group(group: "GroupCoordinator") -> None:
+    _groups[group.unique_name] = weakref.ref(group)
+
+
+def all_reduce(tensor: torch.Tensor, group_name: str) -> torch.Tensor:
+    assert group_name in _groups, f"Group {group_name} is not found."
+    group = _groups[group_name]()
+    if group is None:
+        raise ValueError(f"Group {group_name} is destroyed.")
+    return group._all_reduce_out_place(tensor)
+
+
+def all_reduce_fake(tensor: torch.Tensor, group_name: str) -> torch.Tensor:
+    return torch.empty_like(tensor)
+
+
+def reduce_scatter(
+    tensor: torch.Tensor, dim: int, world_size: int, group_name: str
+) -> torch.Tensor:
+    assert group_name in _groups, f"Group {group_name} is not found."
+    group = _groups[group_name]()
+    if group is None:
+        raise ValueError(f"Group {group_name} is destroyed.")
+    return group._reduce_scatter_out_place(tensor, dim)
+
+
+def reduce_scatter_fake(
+    tensor: torch.Tensor, dim: int, world_size: int, group_name: str
+) -> torch.Tensor:
+    new_shape = list(tensor.shape)
+    new_shape[dim] = tensor.shape[dim] // world_size
+    return torch.empty(new_shape, dtype=tensor.dtype, device=tensor.device)
+
+
+def all_gather(
+    tensor: torch.Tensor, dim: int, world_size: int, group_name: str
+) -> torch.Tensor:
+    assert group_name in _groups, f"Group {group_name} is not found."
+    group = _groups[group_name]()
+    if group is None:
+        raise ValueError(f"Group {group_name} is destroyed.")
+    return group._all_gather_out_place(tensor, dim)
+
+
+def all_gather_fake(
+    tensor: torch.Tensor, dim: int, world_size: int, group_name: str
+) -> torch.Tensor:
+    new_shape = list(tensor.shape)
+    new_shape[dim] = tensor.shape[dim] * world_size
+    return torch.empty(new_shape, dtype=tensor.dtype, device=tensor.device)
+
+
+def patched_fused_scaled_matmul_reduce_scatter_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    A_scale: torch.Tensor,
+    B_scale: torch.Tensor,
+    reduce_op: str,
+    orig_scatter_dim: int,
+    scatter_dim_after_maybe_reshape: int,
+    group_name: str,
+    output_shape: list[int],
+    bias: torch.Tensor | None = None,
+    result_scale: torch.Tensor | None = None,
+    out_dtype: torch.dtype | None = None,
+    use_fast_accum: bool = False,
+) -> torch.Tensor:
+    # Copied from
+    # https://github.com/pytorch/pytorch/blob/50c338c2da905062449e4d9ac807832d1b5cd90e/torch/distributed/_symmetric_memory/__init__.py#L1189
+    if A_scale.numel() > 1:
+        if A_scale.shape[:-1] != A.shape[:-1]:
+            raise ValueError(
+                "For row-wise scaling, the leading dims of A_scale "
+                "must match the leading dims of A "
+                f"(A shape: {A.shape}, A_scale shape: {A_scale.shape})"
+            )
+        A_scale = A_scale.flatten(0, -2).contiguous()
+    elif A_scale.numel() != 1:
+        raise ValueError(
+            "Invalid A_scale shape "
+            f"(A shape: {A.shape}, A_scale shape: {A_scale.shape})"
+        )
+
+    C = torch._scaled_mm(
+        A.flatten(0, -2).contiguous(),
+        B,
+        A_scale,
+        B_scale,
+        bias,
+        result_scale,
+        out_dtype,
+        use_fast_accum,
+    )
+    C = C.view(*output_shape[:-1], B.shape[1])
+    res = funcol.reduce_scatter_tensor(
+        C,
+        reduce_op,
+        orig_scatter_dim,  # need original scatter dim for 3D+ output tensor here
+        group_name,
+    )
+    res = funcol.wait_tensor(res)
+    return res
+
+
+def patched_fused_scaled_matmul_reduce_scatter(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    A_scale: torch.Tensor,
+    B_scale: torch.Tensor,
+    reduce_op: str,
+    orig_scatter_dim: int,
+    scatter_dim_after_maybe_reshape: int,
+    group_name: str,
+    output_shape: list[int],
+    bias: torch.Tensor | None = None,
+    result_scale: torch.Tensor | None = None,
+    out_dtype: torch.dtype | None = None,
+    use_fast_accum: bool = False,
+) -> torch.Tensor:
+    return torch.ops.symm_mem.fused_scaled_matmul_reduce_scatter(
+        A,
+        B,
+        A_scale,
+        B_scale,
+        reduce_op,
+        orig_scatter_dim,
+        scatter_dim_after_maybe_reshape,
+        group_name,
+        output_shape,
+        bias,
+        result_scale,
+        out_dtype,
+        use_fast_accum,
+    )
+
+
+if supports_custom_op():
+    direct_register_custom_op(
+        op_name="all_reduce",
+        op_func=all_reduce,
+        fake_impl=all_reduce_fake,
+    )
+
+    direct_register_custom_op(
+        op_name="reduce_scatter",
+        op_func=reduce_scatter,
+        fake_impl=reduce_scatter_fake,
+    )
+
+    direct_register_custom_op(
+        op_name="all_gather",
+        op_func=all_gather,
+        fake_impl=all_gather_fake,
+    )
+
+    # TODO: Remove this once the pytorch fix
+    # (https://github.com/pytorch/pytorch/pull/165086) gets released,
+    # in either 2.9.1 or 2.10
+    direct_register_custom_op(
+        op_name="patched_fused_scaled_matmul_reduce_scatter",
+        op_func=patched_fused_scaled_matmul_reduce_scatter,
+        fake_impl=patched_fused_scaled_matmul_reduce_scatter_fake,
+    )
+
+
+class GroupCoordinator:
+    """
+    PyTorch ProcessGroup wrapper for a group of processes.
+    PyTorch ProcessGroup is bound to one specific communication backend,
+        e.g. NCCL, Gloo, MPI, etc.
+    GroupCoordinator takes charge of all the communication operations among
+        the processes in the group. It manages both CPU and device
+        communication.
+    """
+
+    # available attributes:
+    rank: int  # global rank
+    ranks: list[int]  # global ranks in the group
+    world_size: int  # size of the group
+    # difference between `local_rank` and `rank_in_group`:
+    # if we have a group of size 4 across two nodes:
+    # Process | Node | Rank | Local Rank | Rank in Group
+    #   0     |   0  |  0   |     0      |       0
+    #   1     |   0  |  1   |     1      |       1
+    #   2     |   1  |  2   |     0      |       2
+    #   3     |   1  |  3   |     1      |       3
+    local_rank: int  # local rank used to assign devices
+    rank_in_group: int  # rank inside the group
+    cpu_group: ProcessGroup  # group for CPU communication
+    device_group: ProcessGroup  # group for device communication
+    # device communicator (if use_device_communicator=True)
+    device_communicator: DeviceCommunicatorBase | None
+    mq_broadcaster: Any | None  # shared memory broadcaster
+
+    def __init__(
+        self,
+        group_ranks: list[list[int]],
+        local_rank: int,
+        torch_distributed_backend: str | Backend,
+        use_device_communicator: bool,  # whether to use device communicator
+        use_message_queue_broadcaster: bool = False,
+        group_name: str | None = None,
+    ):
+        group_name = group_name or "anonymous"
+        self.unique_name = _get_unique_name(group_name)
+        _register_group(self)
+
+        self.rank = torch.distributed.get_rank()
+        self.local_rank = local_rank
+
+        use_vllm_comm = os.environ.get("VLLM_FORCE_NCCL_COMM", None) not in {"1", "Y", "y"}
+
+        self_device_group = None
+        self_cpu_group = None
+
+        for ranks in group_ranks:
+            device_group = torch.distributed.new_group(
+                ranks, backend=torch_distributed_backend
+            )
+            # a group with `gloo` backend, to allow direct coordination between
+            # processes through the CPU.
+            cpu_group = torch.distributed.new_group(ranks, backend="gloo")
+            if self.rank in ranks:
+                self.ixfd_group = ixfd.init_comm_with_store(device_group) if use_vllm_comm else None
+                self.ranks = ranks
+                self.world_size = len(ranks)
+                self.rank_in_group = ranks.index(self.rank)
+                self_device_group = device_group
+                self_cpu_group = cpu_group
+
+        assert self_cpu_group is not None
+        assert self_device_group is not None
+
+        self.cpu_group = self_cpu_group
+        self.device_group = self_device_group
+
+        from vllm.platforms import current_platform
+
+        if current_platform.is_cuda_alike():
+            self.device = torch.device(f"cuda:{local_rank}")
+        elif current_platform.is_xpu():
+            self.device = torch.device(f"xpu:{local_rank}")
+        elif current_platform.is_out_of_tree():
+            self.device = torch.device(f"{current_platform.device_name}:{local_rank}")
+        else:
+            self.device = torch.device("cpu")
+
+        self.use_device_communicator = use_device_communicator
+        self.device_communicator = None
+        if use_device_communicator and self.world_size > 1:
+            device_comm_cls = resolve_obj_by_qualname(
+                current_platform.get_device_communicator_cls()
+            )
+            self.device_communicator = device_comm_cls(
+                cpu_group=self.cpu_group,
+                device=self.device,
+                device_group=self.ixfd_group if use_vllm_comm else self.device_group,
+                unique_name=self.unique_name,
+            )
+
+        from vllm.distributed.device_communicators.shm_broadcast import MessageQueue
+
+        self.mq_broadcaster: MessageQueue | None = None
+        if use_message_queue_broadcaster and self.world_size > 1:
+            self.mq_broadcaster = MessageQueue.create_from_process_group(
+                self.cpu_group, 1 << 22, 6
+            )
+
+        from vllm.platforms import current_platform
+
+        self.use_custom_op_call = False
+
+        self.use_cpu_custom_send_recv = current_platform.is_cpu() and hasattr(
+            torch.ops._C, "init_shm_manager"
+        )
+
+    def create_mq_broadcaster(
+        self, writer_rank=0, external_writer_handle=None, blocking=True
+    ):
+        from vllm.distributed.device_communicators.shm_broadcast import MessageQueue
+
+        return MessageQueue.create_from_process_group(
+            self.cpu_group,
+            1 << 22,
+            6,
+            writer_rank=writer_rank,
+            external_writer_handle=external_writer_handle,
+            blocking=blocking,
+        )
+
+    def create_single_reader_mq_broadcasters(
+        self, reader_rank_in_group=0, blocking=False
+    ):
+        from vllm.distributed.device_communicators.shm_broadcast import MessageQueue
+
+        return MessageQueue.create_from_process_group_single_reader(
+            self.cpu_group,
+            1 << 22,
+            6,
+            reader_rank=self.ranks[reader_rank_in_group],
+            blocking=blocking,
+        )
+
+    @property
+    def first_rank(self):
+        """Return the global rank of the first process in the group"""
+        return self.ranks[0]
+
+    @property
+    def last_rank(self):
+        """Return the global rank of the last process in the group"""
+        return self.ranks[-1]
+
+    @property
+    def is_first_rank(self):
+        """Return whether the caller is the first process in the group"""
+        return self.rank == self.first_rank
+
+    @property
+    def is_last_rank(self):
+        """Return whether the caller is the last process in the group"""
+        return self.rank == self.last_rank
+
+    @property
+    def next_rank(self):
+        """Return the global rank of the process that follows the caller"""
+        rank_in_group = self.rank_in_group
+        world_size = self.world_size
+        return self.ranks[(rank_in_group + 1) % world_size]
+
+    @property
+    def prev_rank(self):
+        """Return the global rank of the process that precedes the caller"""
+        rank_in_group = self.rank_in_group
+        world_size = self.world_size
+        return self.ranks[(rank_in_group - 1) % world_size]
+
+    @contextmanager
+    def graph_capture(self, graph_capture_context: GraphCaptureContext | None = None):
+        if graph_capture_context is None:
+            stream = torch.cuda.Stream()
+            graph_capture_context = GraphCaptureContext(stream)
+        else:
+            stream = graph_capture_context.stream
+
+        # only cuda uses this function,
+        # so we don't abstract it into the base class
+        maybe_ca_context = nullcontext()
+        from vllm.distributed.device_communicators.cuda_communicator import (
+            CudaCommunicator,
+        )
+
+        if self.device_communicator is not None:
+            assert isinstance(self.device_communicator, CudaCommunicator)
+            ca_comm = self.device_communicator.ca_comm
+            if ca_comm is not None:
+                maybe_ca_context = ca_comm.capture()  # type: ignore
+
+        # ensure all initialization operations complete before attempting to
+        # capture the graph on another stream
+        curr_stream = torch.cuda.current_stream()
+        if curr_stream != stream:
+            stream.wait_stream(curr_stream)
+
+        with torch.cuda.stream(stream), maybe_ca_context:
+            yield graph_capture_context
+
+    def all_reduce(self, input_: torch.Tensor) -> torch.Tensor:
+        """
+        User-facing all-reduce function before we actually call the
+        all-reduce operation.
+
+        We need this because Dynamo does not support passing an arbitrary
+        object (`self` in this case) to a custom op. We need to pass the
+         group name as a string, and then look up the group coordinator from
+         the group name, dispatch the all-reduce operation to the group
+         coordinator.
+
+        In addition, PyTorch custom ops do not support mutation or returning
+        a new tensor in the same op. So we always make the all-reduce operation
+        out-of-place.
+        """
+        # Bypass the function if we are using only 1 GPU.
+        if self.world_size == 1:
+            return input_
+
+        if self.use_custom_op_call:
+            return torch.ops.vllm.all_reduce(input_, group_name=self.unique_name)
+        else:
+            return self._all_reduce_out_place(input_)
+
+    def _all_reduce_out_place(self, input_: torch.Tensor) -> torch.Tensor:
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.all_reduce(input_)
+
+    def all_gather(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        world_size = self.world_size
+        # Bypass the function if we are using only 1 GPU.
+        if world_size == 1:
+            return input_
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+
+        if self.use_custom_op_call:
+            return torch.ops.vllm.all_gather(
+                input_, dim, world_size, group_name=self.unique_name
+            )
+        else:
+            return self._all_gather_out_place(input_, dim)
+
+    def _all_gather_out_place(self, input_: torch.Tensor, dim: int) -> torch.Tensor:
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.all_gather(input_, dim)
+
+    def all_gatherv(
+        self,
+        input_: torch.Tensor | list[torch.Tensor],
+        dim: int = 0,
+        sizes: list[int] | None = None,
+    ):
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.all_gatherv(input_, dim, sizes)
+
+    def reduce_scatter(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
+        world_size = self.world_size
+        # Bypass the function if we are using only 1 GPU.
+        if world_size == 1:
+            return input_
+        assert -input_.dim() <= dim < input_.dim(), (
+            f"Invalid dim ({dim}) for input tensor with shape {input_.size()}"
+        )
+
+        if self.use_custom_op_call:
+            return torch.ops.vllm.reduce_scatter(
+                input_, dim, world_size, group_name=self.unique_name
+            )
+        else:
+            return self._reduce_scatter_out_place(input_, dim)
+
+    def reduce_scatterv(
+        self, input_: torch.Tensor, dim: int = -1, sizes: list[int] | None = None
+    ) -> torch.Tensor:
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.reduce_scatterv(input_, dim, sizes)
+
+    def _reduce_scatter_out_place(self, input_: torch.Tensor, dim: int) -> torch.Tensor:
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.reduce_scatter(input_, dim)
+
+    def gather(
+        self, input_: torch.Tensor, dst: int = 0, dim: int = -1
+    ) -> torch.Tensor | None:
+        """
+        NOTE: We assume that the input tensor is on the same device across
+        all the ranks.
+        NOTE: `dst` is the local rank of the destination rank.
+        """
+        world_size = self.world_size
+        # Bypass the function if we are using only 1 GPU.
+        if world_size == 1:
+            return input_
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.gather(input_, dst, dim)
+
+    def broadcast(self, input_: torch.Tensor, src: int = 0):
+        """Broadcast the input tensor.
+        NOTE: `src` is the local rank of the source rank.
+        """
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        # Bypass the function if we are using only 1 GPU.
+        if self.world_size == 1:
+            return input_
+        # Broadcast.
+        if self.device_communicator.use_vllm_comm:
+            ops.broadcast(input_,
+                        src=self.ranks[src],
+                        group=self.device_group)
+        else:
+            torch.distributed.broadcast(
+            input_, src=self.ranks[src], group=self.device_group
+        )
+        return input_
+
+    def broadcast_object(self, obj: Any | None = None, src: int = 0):
+        """Broadcast the input object.
+        NOTE: `src` is the local rank of the source rank.
+        """
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        # Bypass the function if we are using only 1 GPU.
+        if self.world_size == 1:
+            return obj
+        if self.mq_broadcaster is not None:
+            assert src == 0, "Message queue broadcaster only supports src=0"
+            return self.mq_broadcaster.broadcast_object(obj)
+        if self.rank_in_group == src:
+            torch.distributed.broadcast_object_list(
+                [obj], src=self.ranks[src], group=self.cpu_group
+            )
+            return obj
+        else:
+            recv = [None]
+            torch.distributed.broadcast_object_list(
+                recv, src=self.ranks[src], group=self.cpu_group
+            )
+            return recv[0]
+
+    def broadcast_object_list(
+        self, obj_list: list[Any], src: int = 0, group: ProcessGroup | None = None
+    ):
+        """Broadcast the input object list.
+        NOTE: `src` is the local rank of the source rank.
+        """
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        # Bypass the function if we are using only 1 GPU.
+        if self.world_size == 1:
+            return obj_list
+        # Broadcast.
+        torch.distributed.broadcast_object_list(
+            obj_list, src=self.ranks[src], group=self.device_group
+        )
+        return obj_list
+
+    def send_object(self, obj: Any, dst: int) -> None:
+        """Send the input object list to the destination rank."""
+        """NOTE: `dst` is the local rank of the destination rank."""
+
+        assert dst < self.world_size, f"Invalid dst rank ({dst})"
+
+        assert dst != self.rank_in_group, (
+            "Invalid destination rank. Destination rank is the same "
+            "as the current rank."
+        )
+
+        # Serialize object to tensor and get the size as well
+        object_tensor = torch.frombuffer(pickle.dumps(obj), dtype=torch.uint8)
+
+        size_tensor = torch.tensor(
+            [object_tensor.numel()], dtype=torch.long, device="cpu"
+        )
+
+        # Send object size
+
+        torch.distributed.send(size_tensor, dst=self.ranks[dst], group=self.cpu_group)
+
+        # Send object
+        torch.distributed.send(object_tensor, dst=self.ranks[dst], group=self.cpu_group)
+
+        return None
+
+    def recv_object(self, src: int) -> Any:
+        """Receive the input object list from the source rank."""
+        """NOTE: `src` is the local rank of the source rank."""
+
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        assert src != self.rank_in_group, (
+            "Invalid source rank. Source rank is the same as the current rank."
+        )
+
+        size_tensor = torch.empty(1, dtype=torch.long, device="cpu")
+
+        # Receive object size
+        rank_size = torch.distributed.recv(
+            size_tensor, src=self.ranks[src], group=self.cpu_group
+        )
+
+        # Tensor to receive serialized objects into.
+        object_tensor = torch.empty(  # type: ignore[call-overload]
+            size_tensor.item(),  # type: ignore[arg-type]
+            dtype=torch.uint8,
+            device="cpu",
+        )
+
+        rank_object = torch.distributed.recv(
+            object_tensor, src=self.ranks[src], group=self.cpu_group
+        )
+
+        assert rank_object == rank_size, (
+            "Received object sender rank does not match the size sender rank."
+        )
+
+        obj = pickle.loads(object_tensor.numpy().tobytes())
+
+        return obj
+
+    def broadcast_tensor_dict(
+        self,
+        tensor_dict: dict[str, torch.Tensor | Any] | None = None,
+        src: int = 0,
+        group: ProcessGroup | None = None,
+        metadata_group: ProcessGroup | None = None,
+    ) -> dict[str, torch.Tensor | Any] | None:
+        """Broadcast the input tensor dictionary.
+        NOTE: `src` is the local rank of the source rank.
+        """
+        # Bypass the function if we are using only 1 GPU.
+        if not torch.distributed.is_initialized() or self.world_size == 1:
+            return tensor_dict
+
+        group = self.device_group
+        metadata_group = self.cpu_group
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        rank_in_group = self.rank_in_group
+        if rank_in_group == src:
+            metadata_list: list[tuple[Any, Any]] = []
+            assert isinstance(tensor_dict, dict), (
+                f"Expecting a dictionary, got {type(tensor_dict)}"
+            )
+            metadata_list, tensor_list = _split_tensor_dict(tensor_dict)
+            # `metadata_list` lives in CPU memory.
+            # `broadcast_object_list` has serialization & deserialization,
+            # all happening on CPU. Therefore, we can use the CPU group.
+            self.broadcast_object(metadata_list, src=src)
+            async_handles = []
+            for tensor in tensor_list:
+                if tensor.numel() == 0:
+                    # Skip broadcasting empty tensors.
+                    continue
+                if tensor.is_cpu:
+                    # use metadata_group for CPU tensors
+                    handle = torch.distributed.broadcast(
+                        tensor, src=self.ranks[src], group=metadata_group, async_op=True
+                    )
+                else:
+                    # use group for GPU tensors
+                    if self.device_communicator.use_vllm_comm:
+                        handle = ops.broadcast(tensor,
+                                               src=self.ranks[src],
+                                               group=group,
+                                               async_op=True)
+                    else:
+                        handle = torch.distributed.broadcast(
+                        tensor, src=self.ranks[src], group=group, async_op=True
+                    )
+                async_handles.append(handle)
+            for async_handle in async_handles:
+                async_handle.wait()
+
+        else:
+            metadata_list = self.broadcast_object(None, src=src)
+            tensor_dict = {}
+            async_handles = []
+            for key, value in metadata_list:
+                if isinstance(value, TensorMetadata):
+                    tensor = torch.empty(
+                        value.size, dtype=value.dtype, device=value.device
+                    )
+                    if tensor.numel() == 0:
+                        # Skip broadcasting empty tensors.
+                        tensor_dict[key] = tensor
+                        continue
+                    if tensor.is_cpu:
+                        # use metadata_group for CPU tensors
+                        handle = torch.distributed.broadcast(
+                            tensor,
+                            src=self.ranks[src],
+                            group=metadata_group,
+                            async_op=True,
+                        )
+                    else:
+                        # use group for GPU tensors
+                        if self.device_communicator.use_vllm_comm:
+                            handle = ops.broadcast(tensor,
+                                                   src=self.ranks[src],
+                                                   group=group,
+                                                   async_op=True)
+                        else:
+                            handle = torch.distributed.broadcast(
+                            tensor, src=self.ranks[src], group=group, async_op=True
+                        )
+                    async_handles.append(handle)
+                    tensor_dict[key] = tensor
+                else:
+                    tensor_dict[key] = value
+            for async_handle in async_handles:
+                async_handle.wait()
+        return tensor_dict
+
+    def send_tensor_dict(
+        self,
+        tensor_dict: dict[str, torch.Tensor | Any],
+        dst: int | None = None,
+        all_gather_group: Optional["GroupCoordinator"] = None,
+        all_gather_tensors: dict[str, bool] | None = None,
+    ) -> dict[str, torch.Tensor | Any] | None:
+        """Send the input tensor dictionary.
+        NOTE: `dst` is the local rank of the source rank.
+
+        all_gather_group: The group for the all-gather operation. If provided,
+            an optimization is enabled where each rank in the group sends a
+            slice of a tensor and the receiver reconstructs it using an
+            all-gather, which can improve performance. This is typically the
+            tensor-parallel group.
+        all_gather_tensors: A dictionary to specify which tensors should use
+            the all-gather optimization, which is only effective when
+            `all_gather_group` is provided. By default, this optimization is
+            on for any tensor whose size is divisible by the
+            `all_gather_group`'s world size. However, it should be disabled
+            for tensors that are not fully replicated across the group (e.g.,
+            the residual tensor when sequence parallelism is enabled). This
+            dictionary allows overriding the default behavior on a per-tensor
+            basis.
+        """
+        # Bypass the function if we are using only 1 GPU.
+        if not torch.distributed.is_initialized() or self.world_size == 1:
+            return tensor_dict
+        all_gather_size = 1 if all_gather_group is None else all_gather_group.world_size
+        all_gather_rank = (
+            0 if all_gather_group is None else all_gather_group.rank_in_group
+        )
+
+        group = self.device_group
+        metadata_group = self.cpu_group
+
+        if dst is None:
+            dst = (self.rank_in_group + 1) % self.world_size
+        assert dst < self.world_size, f"Invalid dst rank ({dst})"
+
+        if self.use_cpu_custom_send_recv:
+            if self.device_communicator is None:
+                raise ValueError("No device communicator found")
+            self.device_communicator.send_tensor_dict(  # type: ignore
+                tensor_dict, dst
+            )
+            return None
+
+        metadata_list: list[tuple[Any, Any]] = []
+        assert isinstance(tensor_dict, dict), (
+            f"Expecting a dictionary, got {type(tensor_dict)}"
+        )
+        metadata_list, tensor_list = _split_tensor_dict(tensor_dict)
+        # `metadata_list` lives in CPU memory.
+        # `send_object_list` has serialization & deserialization,
+        # all happening on CPU. Therefore, we can use the CPU group.
+        self.send_object(metadata_list, dst=dst)
+
+        tensor_keys = [k for k, v in tensor_dict.items() if isinstance(v, torch.Tensor)]
+        assert len(tensor_keys) == len(tensor_list)
+
+        for key, tensor in zip(tensor_keys, tensor_list):
+            if tensor.numel() == 0:
+                # Skip sending empty tensors.
+                continue
+
+            # send-allgather: send only a slice, then do allgather.
+            use_all_gather = (
+                all_gather_group is not None and tensor.numel() % all_gather_size == 0
+            )
+            use_all_gather = (
+                all_gather_tensors.get(key, use_all_gather)
+                if all_gather_tensors
+                else use_all_gather
+            )
+            if use_all_gather:
+                tensor = tensor.reshape(all_gather_size, -1)[all_gather_rank]
+
+            if tensor.is_cpu:
+                # use metadata_group for CPU tensors
+                torch.distributed.send(
+                    tensor, dst=self.ranks[dst], group=metadata_group
+                )
+            else:
+                # use group for GPU tensors
+                if self.device_communicator.use_vllm_comm:
+                     ixfd.send(tensor,
+                               dst=self.ranks[dst],
+                               group=group)
+                else:
+                    # use group for GPU tensors
+                    torch.distributed.send(tensor, dst=self.ranks[dst], group=group)
+        return None
+
+    def recv_tensor_dict(
+        self,
+        src: int | None = None,
+        all_gather_group: Optional["GroupCoordinator"] = None,
+        all_gather_tensors: dict[str, bool] | None = None,
+    ) -> dict[str, torch.Tensor | Any] | None:
+        """Recv the input tensor dictionary.
+        NOTE: `src` is the local rank of the source rank.
+
+        all_gather_group: The group for the all-gather operation. If provided,
+            an optimization is enabled where each rank in the group sends a
+            slice of a tensor and the receiver reconstructs it using an
+            all-gather, which can improve performance. This is typically the
+            tensor-parallel group.
+        all_gather_tensors: A dictionary to specify which tensors should use
+            the all-gather optimization, which is only effective when
+            `all_gather_group` is provided. By default, this optimization is
+            on for any tensor whose size is divisible by the
+            `all_gather_group`'s world size. However, it should be disabled
+            for tensors that are not fully replicated across the group (e.g.,
+            the residual tensor when sequence parallelism is enabled). This
+            dictionary allows overriding the default behavior on a per-tensor
+            basis.
+        """
+        # Bypass the function if we are using only 1 GPU.
+        if not torch.distributed.is_initialized() or self.world_size == 1:
+            return None
+        all_gather_size = 1 if all_gather_group is None else all_gather_group.world_size
+        all_gather_rank = (
+            0 if all_gather_group is None else all_gather_group.rank_in_group
+        )
+
+        group = self.device_group
+        metadata_group = self.cpu_group
+
+        if src is None:
+            src = (self.rank_in_group - 1) % self.world_size
+        assert src < self.world_size, f"Invalid src rank ({src})"
+
+        if self.use_cpu_custom_send_recv:
+            if self.device_communicator is None:
+                raise ValueError("No device communicator found")
+            return self.device_communicator.recv_tensor_dict(  # type: ignore
+                src
+            )
+
+        recv_metadata_list = self.recv_object(src=src)
+        tensor_dict: dict[str, Any] = {}
+        for key, value in recv_metadata_list:
+            if isinstance(value, TensorMetadata):
+                tensor = torch.empty(value.size, dtype=value.dtype, device=value.device)
+                if tensor.numel() == 0:
+                    # Skip broadcasting empty tensors.
+                    tensor_dict[key] = tensor
+                    continue
+
+                # send-allgather: send only a slice, then do allgather.
+                use_all_gather = (
+                    all_gather_group is not None
+                    and tensor.numel() % all_gather_size == 0
+                )
+                use_all_gather = (
+                    all_gather_tensors.get(key, use_all_gather)
+                    if all_gather_tensors
+                    else use_all_gather
+                )
+
+                if use_all_gather:
+                    orig_shape = tensor.shape
+                    tensor = tensor.reshape(all_gather_size, -1)[all_gather_rank]
+
+                if tensor.is_cpu:
+                    # use metadata_group for CPU tensors
+                    torch.distributed.recv(
+                        tensor, src=self.ranks[src], group=metadata_group
+                    )
+                else:
+                    # use group for GPU tensors
+                    if self.device_communicator.use_vllm_comm:
+                        ixfd.recv(tensor,
+                                  src=self.ranks[src],
+                                  group=group)
+                    else:
+                        # use group for GPU tensors
+                        torch.distributed.recv(tensor, src=self.ranks[src], group=group)
+                if use_all_gather:
+                    # do the allgather
+                    tensor = all_gather_group.all_gather(  # type: ignore
+                        tensor, dim=0
+                    )
+                    tensor = tensor.reshape(orig_shape)
+
+                tensor_dict[key] = tensor
+            else:
+                tensor_dict[key] = value
+        return tensor_dict
+
+    def barrier(self):
+        """Barrier synchronization among the group.
+        NOTE: don't use `device_group` here! `barrier` in NCCL is
+        terrible because it is internally a broadcast operation with
+        secretly created GPU tensors. It is easy to mess up the current
+        device. Use the CPU group instead.
+        """
+        torch.distributed.barrier(group=self.cpu_group)
+
+    def send(self, tensor: torch.Tensor, dst: int | None = None) -> None:
+        """Sends a tensor to the destination rank in a blocking way"""
+        """NOTE: `dst` is the local rank of the destination rank."""
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        self.device_communicator.send(tensor, dst)
+
+    def recv(
+        self, size: torch.Size, dtype: torch.dtype, src: int | None = None
+    ) -> torch.Tensor:
+        """Receives a tensor from the source rank."""
+        """NOTE: `src` is the local rank of the source rank."""
+        if self.device_communicator is None:
+            raise ValueError("No device communicator found")
+        return self.device_communicator.recv(size, dtype, src)
+
+    def destroy(self):
+        if self.device_group is not None:
+            if self.device_communicator and self.device_communicator.use_vllm_comm:
+                ixfd.destroy_process_group(self.device_group)
+            else:
+                torch.distributed.destroy_process_group(self.device_group)
+            self.device_group = None
+        if self.cpu_group is not None:
+            torch.distributed.destroy_process_group(self.cpu_group)
+            del self.cpu_group
+        if self.device_communicator is not None:
+            self.device_communicator.destroy()
+        if self.mq_broadcaster is not None:
+            self.mq_broadcaster = None
+
+    def prepare_communication_buffer_for_model(self, model: torch.nn.Module):
+        if self.device_communicator is not None:
+            self.device_communicator.prepare_communication_buffer_for_model(model)
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        is_sequence_parallel: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.device_communicator is not None:
+            return self.device_communicator.dispatch(
+                hidden_states, router_logits, is_sequence_parallel
+            )
+        else:
+            return hidden_states, router_logits
+
+    def combine(
+        self, hidden_states, is_sequence_parallel: bool = False
+    ) -> torch.Tensor:
+        if self.device_communicator is not None:
+            return self.device_communicator.combine(hidden_states, is_sequence_parallel)
+        else:
+            return hidden_states
+
+
+_WORLD: GroupCoordinator | None = None
+_INNER_DP_WORLD: GroupCoordinator | None = None
+_NODE_COUNT: int | None = None
+
+
+def get_world_group() -> GroupCoordinator:
+    assert _WORLD is not None, "world group is not initialized"
+    return _WORLD
+
+
+def get_inner_dp_world_group() -> GroupCoordinator:
+    assert _INNER_DP_WORLD is not None, "inner dp world group is not initialized"
+    return _INNER_DP_WORLD
+
+
+def init_world_group(
+    ranks: list[int], local_rank: int, backend: str
+) -> GroupCoordinator:
+    return GroupCoordinator(
+        group_ranks=[ranks],
+        local_rank=local_rank,
+        torch_distributed_backend=backend,
+        use_device_communicator=False,
+        group_name="world",
+    )
+
+
+def init_model_parallel_group(
+    group_ranks: list[list[int]],
+    local_rank: int,
+    backend: str,
+    use_message_queue_broadcaster: bool = False,
+    group_name: str | None = None,
+    use_device_communicator: bool = True,
+) -> GroupCoordinator:
+    return GroupCoordinator(
+        group_ranks=group_ranks,
+        local_rank=local_rank,
+        torch_distributed_backend=backend,
+        use_device_communicator=use_device_communicator,
+        use_message_queue_broadcaster=use_message_queue_broadcaster,
+        group_name=group_name,
+    )
+
+
+_TP: GroupCoordinator | None = None
+
+
+def get_tp_group() -> GroupCoordinator:
+    assert _TP is not None, "tensor model parallel group is not initialized"
+    return _TP
+
+
+@deprecated(
+    "`get_tensor_model_parallel_group` has been replaced with "
+    "`get_tp_group` and may be removed after v0.12. Please use "
+    "`get_tp_group` instead."
+)
+def get_tensor_model_parallel_group():
+    return get_tp_group()
+
+
+_DCP: GroupCoordinator | None = None
+
+
+def get_dcp_group() -> GroupCoordinator:
+    assert _DCP is not None, "decode context model parallel group is not initialized"
+    return _DCP
+
+
+# kept for backward compatibility
+get_context_model_parallel_group = get_dcp_group
+
+_PP: GroupCoordinator | None = None
+
+_DP: GroupCoordinator | None = None
+
+
+def get_dp_group() -> GroupCoordinator:
+    assert _DP is not None, "data parallel group is not initialized"
+    return _DP
+
+
+_EP: GroupCoordinator | None = None
+
+
+def get_ep_group() -> GroupCoordinator:
+    assert _EP is not None, "expert parallel group is not initialized"
+    return _EP
+
+
+def get_pp_group() -> GroupCoordinator:
+    assert _PP is not None, "pipeline model parallel group is not initialized"
+    return _PP
+
+
+@deprecated(
+    "`get_pipeline_model_parallel_group` has been replaced with "
+    "`get_pp_group` and may be removed in v0.12. Please use "
+    "`get_pp_group` instead."
+)
+def get_pipeline_model_parallel_group():
+    return get_pp_group()
+
+
+@contextmanager
+def graph_capture(device: torch.device):
+    """
+    `graph_capture` is a context manager which should surround the code that
+    is capturing the CUDA graph. Its main purpose is to ensure that some
+    operations will be run after the graph is captured, before the graph
+    is replayed. It returns a `GraphCaptureContext` object which contains the
+    necessary data for the graph capture. Currently, it only contains the
+    stream that the graph capture is running on. This stream is set to the
+    current CUDA stream when the context manager is entered and reset to the
+    default stream when the context manager is exited. This is to ensure that
+    the graph capture is running on a separate stream from the default stream,
+    in order to explicitly distinguish the kernels to capture
+    from other kernels possibly launched on background in the default stream.
+    """
+    context = GraphCaptureContext(torch.cuda.Stream(device=device))
+    with get_tp_group().graph_capture(context), get_pp_group().graph_capture(context):
+        yield context
+
+
+logger = init_logger(__name__)
+
+_ENABLE_CUSTOM_ALL_REDUCE = True
+
+
+def set_custom_all_reduce(enable: bool):
+    global _ENABLE_CUSTOM_ALL_REDUCE
+    _ENABLE_CUSTOM_ALL_REDUCE = enable
+
+
+def init_distributed_environment(
+    world_size: int = -1,
+    rank: int = -1,
+    distributed_init_method: str = "env://",
+    local_rank: int = -1,
+    backend: str = "nccl",
+    timeout: timedelta | None = None,
+):
+    logger.debug(
+        "world_size=%d rank=%d local_rank=%d distributed_init_method=%s backend=%s",
+        world_size,
+        rank,
+        local_rank,
+        distributed_init_method,
+        backend,
+    )
+    from vllm.config import get_current_vllm_config
+
+    config = get_current_vllm_config()
+    if config is not None and config.parallel_config.nnodes > 1:
+        parallel_config = config.parallel_config
+        ip = parallel_config.master_addr
+        rank = parallel_config.data_parallel_rank * world_size + rank
+        world_size = parallel_config.world_size_across_dp
+        port = parallel_config.master_port
+        distributed_init_method = get_distributed_init_method(ip, port)
+    elif (
+        config is not None
+        and config.parallel_config.data_parallel_size > 1
+        and config.parallel_config.distributed_executor_backend != "external_launcher"
+    ):
+        parallel_config = config.parallel_config
+        # adjust to take into account data parallelism
+        # offset the rank by the data parallel rank
+        rank = parallel_config.data_parallel_rank * world_size + rank
+        # adjust the world size to take into account data parallelism
+        world_size = parallel_config.world_size_across_dp
+        ip = parallel_config.data_parallel_master_ip
+        port = parallel_config.get_next_dp_init_port()
+        distributed_init_method = get_distributed_init_method(ip, port)
+        logger.debug(
+            "Adjusting world_size=%d rank=%d distributed_init_method=%s for DP",
+            world_size,
+            rank,
+            distributed_init_method,
+        )
+    if not torch.distributed.is_initialized():
+        logger.info(
+            "world_size=%d rank=%d local_rank=%d distributed_init_method=%s backend=%s",
+            world_size,
+            rank,
+            local_rank,
+            distributed_init_method,
+            backend,
+        )
+        assert distributed_init_method is not None, (
+            "distributed_init_method must be provided when initializing "
+            "distributed environment"
+        )
+        if not torch.distributed.is_backend_available(backend):
+            logger.warning(
+                "Distributed backend %s is not available; falling back to gloo.",
+                backend,
+            )
+            assert torch.distributed.is_gloo_available(), (
+                "Fallback Gloo backend is not available."
+            )
+            backend = "gloo"
+        # this backend is used for WORLD
+        torch.distributed.init_process_group(
+            backend=backend,
+            init_method=distributed_init_method,
+            world_size=world_size,
+            rank=rank,
+            timeout=timeout,
+        )
+    # set the local rank
+    # local_rank is not available in torch ProcessGroup,
+    # see https://github.com/pytorch/pytorch/issues/122816
+    if local_rank == -1:
+        # local rank not set, this usually happens in single-node
+        # setting, where we can use rank as local rank
+        local_rank = envs.LOCAL_RANK if distributed_init_method == "env://" else rank
+    global _WORLD, _NODE_COUNT, _INNER_DP_WORLD
+    if _WORLD is None:
+        ranks = list(range(torch.distributed.get_world_size()))
+        _WORLD = init_world_group(ranks, local_rank, backend)
+        if config.parallel_config.nnodes > 1:
+            _NODE_COUNT = config.parallel_config.nnodes
+        else:
+            _NODE_COUNT = _node_count(_WORLD.cpu_group)
+        logger.debug("Detected %d nodes in the distributed environment", _NODE_COUNT)
+    else:
+        assert _WORLD.world_size == torch.distributed.get_world_size(), (
+            "world group already initialized with a different world size"
+        )
+    if config.parallel_config.nnodes_within_dp > 1:
+        if parallel_config.data_parallel_size > 1:
+            world_size_inner_dp = parallel_config.world_size
+            group_ranks = [
+                [dp_rank * world_size_inner_dp + i for i in range(world_size_inner_dp)]
+                for dp_rank in range(parallel_config.data_parallel_size)
+            ]
+            _INNER_DP_WORLD = init_model_parallel_group(
+                group_ranks,
+                get_world_group().local_rank,
+                backend,
+                use_message_queue_broadcaster=True,
+                group_name="inner_dp_world",
+                use_device_communicator=False,
+            )
+        else:
+            _INNER_DP_WORLD = _WORLD
+
+
+def initialize_model_parallel(
+    tensor_model_parallel_size: int = 1,
+    pipeline_model_parallel_size: int = 1,
+    decode_context_model_parallel_size: int | None = 1,
+    backend: str | None = None,
+) -> None:
+    """
+    Initialize model parallel groups.
+
+    Arguments:
+        tensor_model_parallel_size: number of GPUs used for tensor model
+            parallelism.
+        pipeline_model_parallel_size: number of GPUs used for pipeline model
+            parallelism.
+        backend: name of torch distributed communication backend.
+
+    Let's say we have a total of 8 GPUs denoted by g0 ... g7 and we
+    use 2 GPUs to parallelize the model tensor, and 4 GPUs to parallelize
+    the model pipeline. The present function will
+    create 4 tensor model-parallel groups and 2 pipeline model-parallel groups:
+        4 tensor model-parallel groups:
+            [g0, g1], [g2, g3], [g4, g5], [g6, g7]
+        2 pipeline model-parallel groups:
+            [g0, g2, g4, g6], [g1, g3, g5, g7]
+    Note that for efficiency, the caller should make sure adjacent ranks
+    are on the same DGX box. For example if we are using 2 DGX-1 boxes
+    with a total of 16 GPUs, rank 0 to 7 belong to the first box and
+    ranks 8 to 15 belong to the second box.
+    """
+    # Get world size and rank. Ensure some consistencies.
+    assert torch.distributed.is_initialized()
+    world_size: int = torch.distributed.get_world_size()
+    rank = torch.distributed.get_rank()
+    backend = backend or torch.distributed.get_backend(get_world_group().device_group)
+
+    data_parallel_size = 1
+    from vllm.config import get_current_vllm_config
+
+    config = get_current_vllm_config()
+    if config is not None:
+        data_parallel_size = config.parallel_config.data_parallel_size
+
+    # the layout order is: ExternalDP x DP x PP x TP
+    # ExternalDP is the data parallel group that is not part of the model,
+    # every dp rank can generate independently (in verl integration).
+    # DP is the data parallel group that is part of the model,
+    # all the ranks in the same DP group should generate simultaneously,
+    # i.e. the `generate` call in the same DP group should be called together,
+    # otherwise it will cause deadlock.
+    # to get group_ranks for each dimension, transpose that dimension to the
+    # last dimension, then reshape to 2D, then unbind the last dimension
+    all_ranks = torch.arange(world_size).reshape(
+        -1, data_parallel_size, pipeline_model_parallel_size, tensor_model_parallel_size
+    )  # noqa
+
+    # Build the tensor model-parallel groups.
+    global _TP
+    assert _TP is None, "tensor model parallel group is already initialized"
+    group_ranks = all_ranks.view(-1, tensor_model_parallel_size).unbind(0)
+    group_ranks = [x.tolist() for x in group_ranks]
+
+    # message queue broadcaster is only used in tensor model parallel group
+    _TP = init_model_parallel_group(
+        group_ranks,
+        get_world_group().local_rank,
+        backend,
+        use_message_queue_broadcaster=True,
+        group_name="tp",
+    )
+
+    # Build the DCP model-parallel groups.
+    global _DCP
+    assert _DCP is None, "decode context model parallel group is already initialized"
+    # Note(hc): In the current implementation of decode context parallel,
+    # dcp_size must not exceed tp_size, because the world size does not
+    # change by DCP, it simply reuses the GPUs of TP group, and split one
+    # TP group into tp_size//dcp_size DCP groups.
+    group_ranks = all_ranks.reshape(-1, decode_context_model_parallel_size).unbind(0)
+    group_ranks = [x.tolist() for x in group_ranks]
+    _DCP = init_model_parallel_group(
+        group_ranks,
+        get_world_group().local_rank,
+        backend,
+        use_message_queue_broadcaster=True,
+        group_name="dcp",
+    )
+
+    # Build the pipeline model-parallel groups.
+    global _PP
+    assert _PP is None, "pipeline model parallel group is already initialized"
+    group_ranks = (
+        all_ranks.transpose(2, 3).reshape(-1, pipeline_model_parallel_size).unbind(0)
+    )
+    group_ranks = [x.tolist() for x in group_ranks]
+    _PP = init_model_parallel_group(
+        group_ranks, get_world_group().local_rank, backend, group_name="pp"
+    )
+
+    global _DP
+    assert _DP is None, "data parallel group is already initialized"
+    group_ranks = all_ranks.transpose(1, 3).reshape(-1, data_parallel_size).unbind(0)
+    group_ranks = [x.tolist() for x in group_ranks]
+    _DP = init_model_parallel_group(
+        group_ranks, get_world_group().local_rank, backend, group_name="dp"
+    )
+
+    global _EP
+    assert _EP is None, "expert parallel group is already initialized"
+    group_ranks = (
+        all_ranks.transpose(1, 2)
+        .reshape(-1, data_parallel_size * tensor_model_parallel_size)
+        .unbind(0)
+    )
+    group_ranks = [x.tolist() for x in group_ranks]
+    _EP = init_model_parallel_group(
+        group_ranks, get_world_group().local_rank, backend, group_name="ep"
+    )
+
+    logger.info_once(
+        "rank %s in world size %s is assigned as "
+        "DP rank %s, PP rank %s, TP rank %s, EP rank %s",
+        rank,
+        world_size,
+        _DP.rank_in_group,
+        _PP.rank_in_group,
+        _TP.rank_in_group,
+        _EP.rank_in_group,
+    )
+
+
+def ensure_model_parallel_initialized(
+    tensor_model_parallel_size: int,
+    pipeline_model_parallel_size: int,
+    decode_context_model_parallel_size: int | None = 1,
+    backend: str | None = None,
+) -> None:
+    """Helper to initialize model parallel groups if they are not initialized,
+    or ensure tensor-parallel and pipeline-parallel sizes are equal to expected
+    values if the model parallel groups are initialized.
+    """
+    backend = backend or torch.distributed.get_backend(get_world_group().device_group)
+    if not model_parallel_is_initialized():
+        initialize_model_parallel(
+            tensor_model_parallel_size,
+            pipeline_model_parallel_size,
+            decode_context_model_parallel_size,
+            backend,
+        )
+        return
+
+    assert get_tensor_model_parallel_world_size() == tensor_model_parallel_size, (
+        "tensor parallel group already initialized, but of unexpected size. "
+        f"got: {get_tensor_model_parallel_world_size()=} vs. "
+        f"wanted: {tensor_model_parallel_size=}"
+    )
+    pp_world_size = get_pp_group().world_size
+    assert pp_world_size == pipeline_model_parallel_size, (
+        "pipeline parallel group already initialized, but of unexpected size. "
+        f"got: {pp_world_size=} vs. "
+        f"wanted: {pipeline_model_parallel_size=}"
+    )
+
+
+def prepare_communication_buffer_for_model(model: torch.nn.Module):
+    """Prepare the communication buffer for the model.
+    Traditional communication libraries like NCCL are almost
+    model agnostic. However, emerging new communication libraries like
+    MoE all2all (DeepEP) usually allocate the communication buffer
+    based on the model shape for optimal performance.
+    """
+    if _TP is not None:
+        _TP.prepare_communication_buffer_for_model(model)
+    if _PP is not None:
+        _PP.prepare_communication_buffer_for_model(model)
+    if _DP is not None:
+        _DP.prepare_communication_buffer_for_model(model)
+    if _EP is not None:
+        _EP.prepare_communication_buffer_for_model(model)
+
+
+def model_parallel_is_initialized():
+    """Check if tensor and pipeline parallel groups are initialized."""
+    return _TP is not None and _PP is not None
+
+
+_TP_STATE_PATCHED = False
+
+
+@contextmanager
+def patch_tensor_parallel_group(tp_group: GroupCoordinator):
+    """Patch the tp group temporarily until this function ends.
+
+    This method is for draft workers of speculative decoding to run draft model
+    with different tp degree from that of target model workers.
+
+    Args:
+        tp_group (GroupCoordinator): the tp group coordinator
+    """
+    global _TP_STATE_PATCHED
+    assert not _TP_STATE_PATCHED, "Should not call when it's already patched"
+
+    _TP_STATE_PATCHED = True
+    old_tp_group = get_tp_group()
+    global _TP
+    _TP = tp_group
+    try:
+        yield
+    finally:
+        # restore the original state
+        _TP_STATE_PATCHED = False
+        _TP = old_tp_group
+
+
+def get_tensor_model_parallel_world_size():
+    """Return world size for the tensor model parallel group."""
+    return get_tp_group().world_size
+
+
+def get_tensor_model_parallel_rank():
+    """Return my rank for the tensor model parallel group."""
+    return get_tp_group().rank_in_group
+
+
+def get_decode_context_model_parallel_world_size():
+    """Return world size for the decode context model parallel group."""
+    return get_dcp_group().world_size
+
+
+def get_decode_context_model_parallel_rank():
+    """Return my rank for the decode context model parallel group."""
+    return get_dcp_group().rank_in_group
+
+
+def get_node_count() -> int:
+    """Return the total number of nodes in the distributed environment."""
+    assert _NODE_COUNT is not None, "distributed environment is not initialized"
+    return _NODE_COUNT
+
+
+def destroy_model_parallel():
+    """Set the groups to none and destroy them."""
+    global _TP
+
+    if _TP:
+        _TP.destroy()
+    _TP = None
+
+    global _PP
+    if _PP:
+        _PP.destroy()
+    _PP = None
+
+    global _DCP
+    if _DCP:
+        _DCP.destroy()
+    _DCP = None
+
+    global _DP
+    if _DP:
+        _DP.destroy()
+    _DP = None
+
+    global _EP
+    if _EP:
+        _EP.destroy()
+    _EP = None
+
+
+def destroy_distributed_environment():
+    global _WORLD, _NODE_COUNT
+    if _WORLD:
+        _WORLD.destroy()
+    _WORLD = None
+    _NODE_COUNT = None
+    if torch.distributed.is_initialized():
+        torch.distributed.destroy_process_group()
+
+
+def cleanup_dist_env_and_memory(shutdown_ray: bool = False):
+    # Ensure all objects are not freezed before cleanup
+    gc.unfreeze()
+
+    destroy_model_parallel()
+    destroy_distributed_environment()
+    if shutdown_ray:
+        import ray  # Lazy import Ray
+
+        ray.shutdown()
+    gc.collect()
+    from vllm.platforms import current_platform
+
+    empty_cache = current_platform.empty_cache
+    if empty_cache is not None:
+        empty_cache()
+    try:
+        if not current_platform.is_cpu():
+            torch._C._host_emptyCache()
+    except AttributeError:
+        logger.warning("torch._C._host_emptyCache() only available in Pytorch >=2.5")
+
+
+def in_the_same_node_as(
+    pg: ProcessGroup | StatelessProcessGroup, source_rank: int = 0
+) -> list[bool]:
+    """
+    This is a collective operation that returns if each rank is in the same node
+    as the source rank. It tests if processes are attached to the same
+    memory system (shared access to shared memory).
+    """
+    if isinstance(pg, ProcessGroup):
+        assert torch.distributed.get_backend(pg) != torch.distributed.Backend.NCCL, (
+            "in_the_same_node_as should be tested with a non-NCCL group."
+        )
+        # local rank inside the group
+        rank = torch.distributed.get_rank(group=pg)
+        world_size = torch.distributed.get_world_size(group=pg)
+
+        # global ranks of the processes in the group
+        ranks = torch.distributed.get_process_group_ranks(pg)
+    else:
+        rank = pg.rank
+        world_size = pg.world_size
+        ranks = list(range(world_size))
+
+    # local tensor in each process to store the result
+    is_in_the_same_node = torch.tensor(
+        [0] * world_size, dtype=torch.int32, device="cpu"
+    )
+
+    magic_message = b"magic_message"
+    shm = None
+
+    try:
+        with contextlib.suppress(OSError):
+            if rank == source_rank:
+                # create a shared memory segment
+                shm = shared_memory.SharedMemory(create=True, size=128)
+                shm.buf[: len(magic_message)] = magic_message
+                if isinstance(pg, ProcessGroup):
+                    torch.distributed.broadcast_object_list(
+                        [shm.name], src=ranks[source_rank], group=pg
+                    )
+                else:
+                    pg.broadcast_obj(shm.name, src=source_rank)
+                is_in_the_same_node[rank] = 1
+            else:
+                # try to open the shared memory segment
+                if isinstance(pg, ProcessGroup):
+                    recv = [None]
+                    torch.distributed.broadcast_object_list(
+                        recv, src=ranks[source_rank], group=pg
+                    )
+                    name = recv[0]
+                else:
+                    name = pg.broadcast_obj(None, src=source_rank)
+                # fix to https://stackoverflow.com/q/62748654/9191338
+                # Python incorrectly tracks shared memory even if it is not
+                # created by the process. The following patch is a workaround.
+                with patch(
+                    "multiprocessing.resource_tracker.register",
+                    lambda *args, **kwargs: None,
+                ):
+                    shm = shared_memory.SharedMemory(name=name)
+                if shm.buf[: len(magic_message)] == magic_message:
+                    is_in_the_same_node[rank] = 1
+    except Exception as e:
+        logger.error("Error ignored in is_in_the_same_node: %s", e)
+    finally:
+        if shm:
+            shm.close()
+
+    if isinstance(pg, ProcessGroup):
+        torch.distributed.barrier(group=pg)
+    else:
+        pg.barrier()
+
+    # clean up the shared memory segment
+    with contextlib.suppress(OSError):
+        if rank == source_rank and shm:
+            shm.unlink()
+
+    if isinstance(pg, ProcessGroup):
+        torch.distributed.all_reduce(is_in_the_same_node, group=pg)
+        aggregated_data = is_in_the_same_node
+    else:
+        aggregated_data = torch.zeros_like(is_in_the_same_node)
+        for i in range(world_size):
+            rank_data = pg.broadcast_obj(is_in_the_same_node, src=i)
+            aggregated_data += rank_data
+
+    return [x == 1 for x in aggregated_data.tolist()]
+
+
+def is_global_first_rank() -> bool:
+    """
+    Check if the current process is the first rank globally across all
+    parallelism strategies (PP, TP, DP, EP, etc.).
+
+    Unlike group-specific checks like `get_tensor_model_parallel_rank() == 0`
+    or `get_pp_group().is_first_rank`, this function checks the global rank
+    across all parallelism dimensions.
+
+    Returns:
+        bool: True if this is the global first rank (rank 0), False otherwise.
+              Returns True if distributed is not initialized (single process).
+    """
+    try:
+        # If world group is available, use it for the most accurate check
+        global _WORLD
+        if _WORLD is not None:
+            return _WORLD.is_first_rank
+
+        # If torch distributed is not initialized, assume single process
+        if not torch.distributed.is_initialized():
+            return True
+
+        # Fallback to torch's global rank
+        return torch.distributed.get_rank() == 0
+
+    except Exception:
+        # If anything goes wrong, assume this is the first rank
+        return True
+
+
+def is_local_first_rank() -> bool:
+    """
+    Check if the current process is the first local rank (rank 0 on its node).
+    """
+    try:
+        # prefer the initialized world group if available
+        global _WORLD
+        if _WORLD is not None:
+            return _WORLD.local_rank == 0
+
+        if not torch.distributed.is_initialized():
+            return True
+
+        # fallback to environment-provided local rank if available
+        # note: envs.LOCAL_RANK is set when using env:// launchers (e.g., torchrun)
+        try:
+            return int(envs.LOCAL_RANK) == 0  # type: ignore[arg-type]
+        except Exception:
+            return torch.distributed.get_rank() == 0
+    except Exception:
+        return True
+
+
+def _node_count(pg: ProcessGroup | StatelessProcessGroup) -> int:
+    """
+    Returns the total number of nodes in the process group.
+
+    Args:
+        pg: The process group to analyze
+
+    Returns:
+        int: The total number of nodes
+    """
+    if isinstance(pg, ProcessGroup):
+        world_size = torch.distributed.get_world_size(group=pg)
+    else:
+        world_size = pg.world_size
+
+    if world_size == 1:
+        return 1
+
+    # Build node assignment map
+    node_assignment = [0] * world_size  # rank -> node_id
+    next_node_id = 0
+
+    for current_rank in range(world_size):
+        if node_assignment[current_rank] != 0:
+            continue  # Already assigned to a node
+
+        # Assign current rank to a new node
+        next_node_id += 1
+        node_assignment[current_rank] = next_node_id
+
+        # Find all ranks on the same node as current_rank
+        same_node_flags = in_the_same_node_as(pg, current_rank)
+        for other_rank, is_same_node in enumerate(same_node_flags):
+            if is_same_node and node_assignment[other_rank] == 0:
+                node_assignment[other_rank] = next_node_id
+
+    return next_node_id
diff --git a/distributed/tpu_distributed_utils.py b/distributed/tpu_distributed_utils.py
new file mode 100644
index 0000000..4ff1f0c
--- /dev/null
+++ b/distributed/tpu_distributed_utils.py
@@ -0,0 +1,188 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import OrderedDict
+from typing import Optional
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch_xla.distributed.spmd as xs
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+
+logger = init_logger(__name__)
+
+
+class XlaQKVParallelLinear(nn.Module):
+    def __init__(self, qkv_linear: nn.Module, mesh: Optional["xs.Mesh"] = None):
+        super().__init__()
+        assert isinstance(qkv_linear, QKVParallelLinear)
+        self.skip_bias_add = qkv_linear.skip_bias_add
+        self.return_bias = qkv_linear.return_bias
+        assert qkv_linear.tp_size == 1, "TP > 1 is only supported under SPMD."
+
+        self.q_weight: Parameter
+        self.k_weight: Parameter
+        self.v_weight: Parameter
+        self.q_bias: Parameter | None
+        self.k_bias: Parameter | None
+        self.v_bias: Parameter | None
+        self._load_weights_from_qkv_linear(qkv_linear)
+        if mesh is not None:
+            self._shard_weight(mesh)
+
+    def _shard_weight(self, mesh: "xs.Mesh"):
+        self.q_weight = Parameter(self.q_weight.to("xla"), requires_grad=False)
+        self.k_weight = Parameter(self.k_weight.to("xla"), requires_grad=False)
+        self.v_weight = Parameter(self.v_weight.to("xla"), requires_grad=False)
+        xs.mark_sharding(self.q_weight, mesh, ("x", None))
+        xs.mark_sharding(self.k_weight, mesh, ("x", None))
+        xs.mark_sharding(self.v_weight, mesh, ("x", None))
+        if self.q_bias is not None:
+            assert self.k_bias is not None and self.v_bias is not None, (
+                "QKVParallelLinear should have q, k, and v biases together."
+            )
+            self.q_bias = Parameter(self.q_bias.to("xla"), requires_grad=False)
+            xs.mark_sharding(self.q_bias, mesh, ("x",))
+            self.k_bias = Parameter(self.k_bias.to("xla"), requires_grad=False)
+            xs.mark_sharding(self.k_bias, mesh, ("x",))
+            self.v_bias = Parameter(self.v_bias.to("xla"), requires_grad=False)
+            xs.mark_sharding(self.v_bias, mesh, ("x",))
+
+    def _load_weights_from_qkv_linear(self, qkv_linear: nn.Module):
+        q_proj_size, k_proj_size, _ = qkv_linear.output_sizes
+        # The weight of qkv linear is a concatenation of q, k, and v weights
+        # along the output dimension.
+        qkv_weight = qkv_linear.weight.data.cpu()
+        q_weight = Parameter(qkv_weight[:q_proj_size], requires_grad=False)
+        k_weight = Parameter(
+            qkv_weight[q_proj_size : q_proj_size + k_proj_size], requires_grad=False
+        )
+        v_weight = Parameter(
+            qkv_weight[q_proj_size + k_proj_size :], requires_grad=False
+        )
+        self.register_parameter("q_weight", q_weight)
+        self.register_parameter("k_weight", k_weight)
+        self.register_parameter("v_weight", v_weight)
+
+        if qkv_linear.bias is not None:
+            q_bias = Parameter(qkv_linear.bias[:q_proj_size], requires_grad=False)
+            k_bias = Parameter(
+                qkv_linear.bias[q_proj_size : q_proj_size + k_proj_size],
+                requires_grad=False,
+            )
+            v_bias = Parameter(
+                qkv_linear.bias[q_proj_size + k_proj_size :], requires_grad=False
+            )
+            self.register_parameter("q_bias", q_bias)
+            self.register_parameter("k_bias", k_bias)
+            self.register_parameter("v_bias", v_bias)
+        else:
+            self.register_parameter("q_bias", None)
+            self.register_parameter("k_bias", None)
+            self.register_parameter("v_bias", None)
+
+    def forward(self, input):
+        # Same forward functionality as QKVParallelLinear, but doing qkv porj
+        # separately.
+        q_bias = self.q_bias if not self.skip_bias_add else None
+        k_bias = self.k_bias if not self.skip_bias_add else None
+        v_bias = self.v_bias if not self.skip_bias_add else None
+        q_proj = F.linear(input, self.q_weight, q_bias)
+        k_proj = F.linear(input, self.k_weight, k_bias)
+        v_proj = F.linear(input, self.v_weight, v_bias)
+        # The q/k/v projections will be split outside of the QKVParallelLinear.
+        # Because we are replacing XlaQKVParallelLinear with the
+        # QKVParallelLinear, we need to concatenate q, k, and v projections to
+        # match the output shape of the QKVParallelLinear implementation even if
+        # it seems to be redundant.
+        # The concat and the following split will be noop, and should be
+        # optimized away by the compiler.
+        qkv_proj = torch.cat([q_proj, k_proj, v_proj], dim=-1)
+        output_bias = (
+            torch.cat([q_bias, k_bias, v_bias], dim=-1) if self.skip_bias_add else None
+        )
+        if not self.return_bias:
+            return qkv_proj
+        return qkv_proj, output_bias
+
+
+def partition_column_parallel_linear(
+    layer: torch.nn.Module, mesh: xs.Mesh
+) -> torch.nn.Module:
+    assert isinstance(layer, ColumnParallelLinear)
+    xs.mark_sharding(layer.weight, mesh, ("x", None))
+    logger.debug("Applied column-parallel sharding to %s", layer)
+    return layer
+
+
+def partition_row_parallel_linear(
+    layer: torch.nn.Module, mesh: xs.Mesh
+) -> torch.nn.Module:
+    assert isinstance(layer, RowParallelLinear)
+    xs.mark_sharding(layer.weight, mesh, (None, "x"))
+    logger.debug("Applied row-parallel sharding to %s", layer)
+    return layer
+
+
+def partition_qkv_parallel_linear(
+    layer: torch.nn.Module, mesh: xs.Mesh
+) -> torch.nn.Module:
+    assert isinstance(layer, QKVParallelLinear)
+    xla_layer = XlaQKVParallelLinear(layer, mesh)
+    logger.debug("Applied qkv parallel sharding to %s", layer)
+    return xla_layer
+
+
+MODULE_TYPE_TO_WRAPPING_FUNC = OrderedDict(
+    [
+        ("QKVParallelLinear", partition_qkv_parallel_linear),
+        ("ColumnParallelLinear", partition_column_parallel_linear),
+        ("RowParallelLinear", partition_row_parallel_linear),
+    ]
+)
+
+
+def get_fqn(module):
+    # Get the fully qualified name of the module
+    return module.__class__.__qualname__
+
+
+def shard_model(model: torch.nn.Module, mesh: "xs.Mesh") -> None:
+    """
+    Recursively check a PyTorch model and apply appropriate sharding based on
+    the MODULE_TYPE_TO_WRAPPING_FUNC mapping.
+
+    Args:
+        model: torch.nn.Module to process
+        mesh: An XLA SPMD mesh object used for sharding
+    """
+
+    def _process_module(module, name=None, parent=None):
+        for module_type, wrapping_func in MODULE_TYPE_TO_WRAPPING_FUNC.items():
+            if get_fqn(module) == module_type:
+                wrapped_module = wrapping_func(module, mesh)
+
+                assert parent is not None and name is not None, (
+                    "Top Level module is not expected to be wrapped."
+                )
+                if wrapped_module is not module:
+                    # Wrapped module and module are different py object.
+                    # The original module should be replaced by the
+                    # wrapped_module.
+                    logger.debug("replace %s with %s", module, wrapped_module)
+                    setattr(parent, name, wrapped_module)
+
+                module = wrapped_module
+                break
+
+        for child_name, child_module in list(module.named_children()):
+            _process_module(child_module, child_name, module)
+
+    _process_module(model)
diff --git a/distributed/utils.py b/distributed/utils.py
new file mode 100644
index 0000000..debf69c
--- /dev/null
+++ b/distributed/utils.py
@@ -0,0 +1,543 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 The vLLM team.
+# Adapted from
+# https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/tensor_parallel/utils.py
+# Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
+import dataclasses
+import os
+import pickle
+import socket
+import sys
+import time
+import uuid
+from collections import deque
+from collections.abc import Sequence
+from datetime import timedelta
+from typing import Any
+
+import torch
+from torch.distributed import ProcessGroup, TCPStore
+from torch.distributed.distributed_c10d import (
+    Backend,
+    PrefixStore,
+    _get_default_timeout,
+    _unregister_process_group,
+)
+from torch.distributed.rendezvous import rendezvous
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.utils.network_utils import get_tcp_uri
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+logger = init_logger(__name__)
+
+# We prefer to use os.sched_yield as it results in tighter polling loops,
+# measured to be around 3e-7 seconds. However on earlier versions of Python
+# os.sched_yield() does not release the GIL, so we fall back to time.sleep(0)
+USE_SCHED_YIELD = (sys.version_info[:3] >= (3, 11, 1)) or (
+    sys.version_info[:2] == (3, 10) and sys.version_info[2] >= 8
+)
+
+
+def sched_yield():
+    if USE_SCHED_YIELD:
+        os.sched_yield()
+    else:
+        time.sleep(0)
+
+
+def ensure_divisibility(numerator, denominator):
+    """Ensure that numerator is divisible by the denominator."""
+    assert numerator % denominator == 0, "{} is not divisible by {}".format(
+        numerator, denominator
+    )
+
+
+def divide(numerator, denominator):
+    """Ensure that numerator is divisible by the denominator and return
+    the division value."""
+    ensure_divisibility(numerator, denominator)
+    return numerator // denominator
+
+
+def split_tensor_along_last_dim(
+    tensor: torch.Tensor,
+    num_partitions: int,
+    contiguous_split_chunks: bool = False,
+) -> Sequence[torch.Tensor]:
+    """Split a tensor along its last dimension.
+
+    Arguments:
+        tensor: input tensor.
+        num_partitions: number of partitions to split the tensor
+        contiguous_split_chunks: If True, make each chunk contiguous
+                                 in memory.
+
+    Returns:
+        A list of Tensors
+    """
+    # Get the size and dimension.
+    last_dim = tensor.dim() - 1
+    last_dim_size = divide(tensor.size()[last_dim], num_partitions)
+    # Split.
+    tensor_list = torch.split(tensor, last_dim_size, dim=last_dim)
+    # NOTE: torch.split does not create contiguous tensors by default.
+    if contiguous_split_chunks:
+        return tuple(chunk.contiguous() for chunk in tensor_list)
+
+    return tensor_list
+
+
+def get_pp_indices(
+    num_hidden_layers: int, pp_rank: int, pp_size: int
+) -> tuple[int, int]:
+    """Try to evenly distribute layers across partitions.
+
+    If the number of layers is not divisible by the number of partitions,
+    the remaining layers are evenly distributed across all but the last
+    partition. The last partition is excluded because it often contains an
+    additional norm layer and we are attempting to balance compute.
+
+    If `pp_size > 2` and the number of remaining layers is
+    `0 < x <= pp_size - 2` then the remaining layers are evenly distributed
+    across the middle partitions. The first and last partitions are excluded
+    because they contain the input and output embeddings respectively and we
+    are attempting to reduce maximum memory consumption across partitions.
+    """
+    partition_list_str = envs.VLLM_PP_LAYER_PARTITION
+    if partition_list_str is not None:
+        try:
+            partitions = [int(layer) for layer in partition_list_str.split(",")]
+        except ValueError as err:
+            raise ValueError(
+                "Invalid partition string: {}".format(partition_list_str)
+            ) from err
+        if len(partitions) != pp_size:
+            raise ValueError(f"{len(partitions)=} does not match {pp_size=}.")
+        if sum(partitions) != num_hidden_layers:
+            raise ValueError(f"{sum(partitions)=} does not match {num_hidden_layers=}.")
+    else:
+        layers_per_partition = num_hidden_layers // pp_size
+        partitions = [layers_per_partition for _ in range(pp_size)]
+
+        if remaining_layers := num_hidden_layers % pp_size:
+            for i in range(2, remaining_layers + 2):
+                partitions[-i] += 1
+            logger.info(
+                "Hidden layers were unevenly partitioned: [%s]. "
+                "This can be manually overridden using the "
+                "VLLM_PP_LAYER_PARTITION environment variable",
+                ",".join(str(p) for p in partitions),
+            )
+
+    start_layer = sum(partitions[:pp_rank])
+    end_layer = start_layer + partitions[pp_rank]
+
+    return (start_layer, end_layer)
+
+
+@dataclasses.dataclass
+class StatelessProcessGroup:
+    """A dataclass to hold a metadata store, and the rank, world_size of the
+    group. Only use it to communicate metadata between processes.
+    For data-plane communication, create NCCL-related objects.
+    """
+
+    rank: int
+    world_size: int
+    store: torch._C._distributed_c10d.Store
+
+    # stores a reference to the socket so that the file descriptor stays alive
+    socket: socket.socket | None
+
+    data_expiration_seconds: int = 3600  # 1 hour
+
+    # dst rank -> counter
+    send_dst_counter: dict[int, int] = dataclasses.field(default_factory=dict)
+    # src rank -> counter
+    recv_src_counter: dict[int, int] = dataclasses.field(default_factory=dict)
+    broadcast_send_counter: int = 0
+    broadcast_recv_src_counter: dict[int, int] = dataclasses.field(default_factory=dict)
+
+    # A deque to store the data entries, with key and timestamp.
+    entries: deque[tuple[str, float]] = dataclasses.field(default_factory=deque)
+
+    def __post_init__(self):
+        assert self.rank < self.world_size
+        self.send_dst_counter = {i: 0 for i in range(self.world_size)}
+        self.recv_src_counter = {i: 0 for i in range(self.world_size)}
+        self.broadcast_recv_src_counter = {i: 0 for i in range(self.world_size)}
+
+    def send_obj(self, obj: Any, dst: int):
+        """Send an object to a destination rank."""
+        self.expire_data()
+        key = f"send_to/{dst}/{self.send_dst_counter[dst]}"
+        self.store.set(key, pickle.dumps(obj))
+        self.send_dst_counter[dst] += 1
+        self.entries.append((key, time.time()))
+
+    def expire_data(self):
+        """Expire data that is older than `data_expiration_seconds` seconds."""
+        while self.entries:
+            # check the oldest entry
+            key, timestamp = self.entries[0]
+            if time.time() - timestamp > self.data_expiration_seconds:
+                self.store.delete_key(key)
+                self.entries.popleft()
+            else:
+                break
+
+    def recv_obj(self, src: int) -> Any:
+        """Receive an object from a source rank."""
+        obj = pickle.loads(
+            self.store.get(f"send_to/{self.rank}/{self.recv_src_counter[src]}")
+        )
+        self.recv_src_counter[src] += 1
+        return obj
+
+    def broadcast_obj(self, obj: Any | None, src: int) -> Any:
+        """Broadcast an object from a source rank to all other ranks.
+        It does not clean up after all ranks have received the object.
+        Use it for limited times, e.g., for initialization.
+        """
+        if self.rank == src:
+            self.expire_data()
+            key = f"broadcast_from/{src}/{self.broadcast_send_counter}"
+            self.store.set(key, pickle.dumps(obj))
+            self.broadcast_send_counter += 1
+            self.entries.append((key, time.time()))
+            return obj
+        else:
+            key = f"broadcast_from/{src}/{self.broadcast_recv_src_counter[src]}"
+            recv_obj = pickle.loads(self.store.get(key))
+            self.broadcast_recv_src_counter[src] += 1
+            return recv_obj
+
+    def all_gather_obj(self, obj: Any) -> list[Any]:
+        """All gather an object from all ranks."""
+        gathered_objs = []
+        for i in range(self.world_size):
+            if i == self.rank:
+                gathered_objs.append(obj)
+                self.broadcast_obj(obj, src=self.rank)
+            else:
+                recv_obj = self.broadcast_obj(None, src=i)
+                gathered_objs.append(recv_obj)
+        return gathered_objs
+
+    def barrier(self, timeout: float = 30.0):
+        """A robust barrier to synchronize all ranks.
+
+
+        Uses a multi-phase approach to ensure all processes reach the barrier
+        before proceeding:
+
+        1. Each process signals it has reached the barrier
+
+        2. Each process signals that it has confirmed the arrival of all other
+        ranks.
+
+        3. Rank 0 waits for all other ranks to signal their departure to ensure
+        that all ranks have departed the barrier first.
+
+        Args:
+            timeout: Maximum time in seconds to wait for each phase (in seconds)
+
+
+        Raises:
+            RuntimeError: If coordination fails or times out
+        """
+        # Generate a barrier ID that is globally unique
+        try:
+            if self.rank == 0:
+                barrier_id = f"barrier_{uuid.uuid4()}"
+                self.broadcast_obj(barrier_id, src=0)
+            else:
+                barrier_id = self.broadcast_obj(None, src=0)
+        except Exception as e:
+            raise RuntimeError("Failed to broadcast barrier_id") from e
+
+        # Phase 1: Signal arrival at barrier
+        # Wait for all processes to arrive
+        # We need all ranks to confirm the arrival of all other ranks.
+        # This is the key synchronization point.
+        arrival_key = f"arrival_{barrier_id}_{self.rank}"
+        try:
+            self.store.set(arrival_key, b"1")
+        except Exception as e:
+            raise RuntimeError("Failed to signal barrier arrival") from e
+
+        start_time = time.time()
+        processes_arrived: set[int] = set()
+
+        while len(processes_arrived) < self.world_size:
+            # Check for timeout
+            cur_time = time.time()
+            if cur_time - start_time > timeout:
+                raise RuntimeError(f"Barrier timed out after {timeout:.2f} seconds")
+
+            # Check for each process
+            for i in range(self.world_size):
+                if i in processes_arrived:
+                    continue
+
+                key = f"arrival_{barrier_id}_{i}"
+                try:
+                    # Try to get the key - if it exists, we'll get a value
+                    # If it doesn't exist, it will throw an exception
+                    self.store.get(key)
+                    processes_arrived.add(i)
+                except KeyError:
+                    # Key doesn't exist yet
+                    pass
+                except Exception as check_e:
+                    logger.debug("Error checking key existence: %s", check_e)
+                    sched_yield()
+
+            # Short sleep to avoid tight polling
+            if len(processes_arrived) < self.world_size:
+                sched_yield()
+
+        # Phase 2: Signal departure from barrier
+        # We only care to block at this stage in rank 0, which runs the
+        # server side of the TCPStore. We want to make sure that all
+        # clients have departed the barrier before rank 0 in case the
+        # next thing after the barrier is a shutdown, including tearing
+        # down the TCPStore. Other ranks can exit the barrier immediately
+        # after signaling their departure.
+        departure_key = f"departure_{barrier_id}_{self.rank}"
+        try:
+            self.store.set(departure_key, b"1")
+        except Exception as e:
+            raise RuntimeError("Failed to signal barrier departure") from e
+
+        if self.rank != 0:
+            return
+
+        # Make rank 0 wait for all processes to signal departure
+        start_time = time.time()
+        processes_departed: set[int] = set()
+
+        while len(processes_departed) < self.world_size:
+            # Check for timeout
+            if time.time() - start_time > timeout:
+                raise RuntimeError(
+                    f"Barrier departure timed out after {timeout:.2f} seconds"
+                )
+
+            # Check for each process
+            for i in range(self.world_size):
+                if i in processes_departed:
+                    continue
+
+                key = f"departure_{barrier_id}_{i}"
+                try:
+                    # Try to get the key - if it exists, we'll get a value
+                    # If it doesn't exist, it will throw an exception
+                    self.store.get(key)
+                    processes_departed.add(i)
+                except KeyError:
+                    # Key doesn't exist yet
+                    pass
+                except Exception as check_e:
+                    logger.debug("Error checking key existence: %s", check_e)
+                    sched_yield()
+
+            # Short sleep to avoid tight polling
+            if len(processes_departed) < self.world_size:
+                sched_yield()
+
+        # Clean up keys to avoid leaking memory in the store
+        for i in range(self.world_size):
+            try:
+                self.store.delete_key(f"arrival_{barrier_id}_{i}")
+            except Exception:
+                logger.debug("Error deleting key: %s", f"arrival_{barrier_id}_{i}")
+
+            try:
+                self.store.delete_key(f"departure_{barrier_id}_{i}")
+            except Exception:
+                logger.debug("Error deleting key: %s", f"departure_{barrier_id}_{i}")
+
+    @staticmethod
+    def create(
+        host: str,
+        port: int,
+        rank: int,
+        world_size: int,
+        data_expiration_seconds: int = 3600,
+        store_timeout: int = 300,
+    ) -> "StatelessProcessGroup":
+        """A replacement for `torch.distributed.init_process_group` that does not
+        pollute the global state.
+
+        If we have process A and process B called `torch.distributed.init_process_group`
+        to form a group, and then we want to form another group with process A, B, C,
+        D, it is not possible in PyTorch, because process A and process B have already
+        formed a group, and process C and process D cannot join that group. This
+        function is a workaround for this issue.
+
+        `torch.distributed.init_process_group` is a global call, while this function
+        is a stateless call. It will return a `StatelessProcessGroup` object that can be
+        used for exchanging metadata. With this function, process A and process B
+        can call `StatelessProcessGroup.create` to form a group, and then process A, B,
+        C, and D can call `StatelessProcessGroup.create` to form another group.
+        """  # noqa
+        launch_server = rank == 0
+        if launch_server:
+            # listen on the specified interface (instead of 0.0.0.0)
+            listen_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
+            listen_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
+            listen_socket.bind((host, port))
+            listen_socket.listen()
+            listen_fd = listen_socket.fileno()
+        else:
+            listen_socket = None
+            listen_fd = None
+
+        store = TCPStore(
+            host_name=host,
+            port=port,
+            world_size=world_size,
+            is_master=launch_server,
+            timeout=timedelta(seconds=store_timeout),
+            use_libuv=False,  # for now: github.com/pytorch/pytorch/pull/150215
+            master_listen_fd=listen_fd,
+        )
+
+        return StatelessProcessGroup(
+            rank=rank,
+            world_size=world_size,
+            store=store,
+            socket=listen_socket,
+            data_expiration_seconds=data_expiration_seconds,
+        )
+
+
+def init_gloo_process_group(
+    prefix_store: PrefixStore,
+    group_rank: int,
+    group_size: int,
+    timeout: timedelta,
+) -> ProcessGroup:
+    """
+    Stateless init ProcessGroup with gloo backend compatible with
+    different torch versions.
+    """
+    if is_torch_equal_or_newer("2.6"):
+        pg = ProcessGroup(
+            prefix_store,
+            group_rank,
+            group_size,
+        )
+    else:
+        options = ProcessGroup.Options(backend="gloo")
+        pg = ProcessGroup(
+            prefix_store,
+            group_rank,
+            group_size,
+            options,
+        )
+    from torch.distributed.distributed_c10d import ProcessGroupGloo
+
+    backend_class = ProcessGroupGloo(
+        prefix_store, group_rank, group_size, timeout=timeout
+    )
+    backend_type = ProcessGroup.BackendType.GLOO
+    device = torch.device("cpu")
+    if is_torch_equal_or_newer("2.6"):
+        # _set_default_backend is supported in torch >= 2.6
+        pg._set_default_backend(backend_type)
+    backend_class._set_sequence_number_for_group()
+
+    pg._register_backend(device, backend_type, backend_class)
+    return pg
+
+
+def stateless_init_torch_distributed_process_group(
+    host: str, port: int, rank: int, world_size: int, backend: str
+) -> ProcessGroup:
+    """
+    A replacement for `torch.distributed.init_process_group` that does not
+    pollute the global state. The created ProcessGroup object can be used for
+    some operations such as `allreduce`, because it does not depend on the
+    global rank. However, some operations such as `broadcast` cannot be used
+    because it depends on the global rank.
+
+    # TODO: ask for help from PyTorch team if we need the `broadcast` operation.
+
+    This function is useful when we are not sure about the total number of
+    processes in the process group. For example, we may have process
+    1, 2, ..., 8 who want to communicate, and process 9 might be the same
+    process as process 1, or it might be a different process; process 10
+    might be the same process as process 5, or it might be a different process.
+    In this case, how can we reliably form a communication channel within
+    process 9 and 10, without affecting the communication channel within
+    process 1, 2, ..., 8?
+
+    One possible solution is to figure out if process 9 and 10 are the same
+    as process 1 and 5 beforehand, and then form a communication channel
+    based on the information, adjusting the ranks and world_size etc. However,
+    figuring out the information is not always easy, and it will interfere
+    with the main communication channel.
+
+    Our solution is to always form a communication channel with process 1, 2,
+    ..., 8, and then use this function to form another communication channel
+    with process 9 and 10. This way, regardless of whether process 9 and 10
+    are the same as process 1 and 5, the main communication channel is
+    always formed with process 1, 2, ..., 8, and the additional communication
+    channel is formed with process 9 and 10.
+    """
+    init_method = get_tcp_uri(host, port)
+    backend = Backend(backend)  # it is basically string
+    timeout = _get_default_timeout(backend)
+
+    store, rank, world_size = next(
+        rendezvous(init_method, rank, world_size, timeout=timeout)
+    )
+    store.set_timeout(timeout)
+
+    group_rank = rank
+    group_size = world_size
+
+    # Use a PrefixStore to avoid accidental overrides of keys used by
+    # different systems (e.g. RPC) in case the store is multi-tenant.
+    prefix_store = PrefixStore(init_method, store)
+    try:
+        from vllm.platforms import current_platform
+
+        return current_platform.stateless_init_device_torch_dist_pg(
+            backend=backend,
+            prefix_store=prefix_store,
+            group_rank=group_rank,
+            group_size=group_size,
+            timeout=timeout,
+        )
+    except NotImplementedError:
+        # If platform doesn't implement stateless_init_device_torch_dist_pg, it
+        # will raise a NotImplementedError. In this case, we fall back to gloo.
+        return init_gloo_process_group(
+            prefix_store=prefix_store,
+            group_rank=group_rank,
+            group_size=group_size,
+            timeout=timeout,
+        )
+
+
+def stateless_destroy_torch_distributed_process_group(pg: ProcessGroup) -> None:
+    """
+    Destroy ProcessGroup returned by
+        stateless_init_torch_distributed_process_group().
+    """
+    if is_torch_equal_or_newer("2.7"):
+        pg.shutdown()
+    else:
+        # Lazy import for non-CUDA backends.
+        from torch.distributed.distributed_c10d import _shutdown_backend
+
+        _shutdown_backend(pg)
+
+    _unregister_process_group(pg.group_name)
diff --git a/engine/__init__.py b/engine/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/engine/__pycache__/__init__.cpython-312.pyc b/engine/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f9207e9c97c8f8baf6c6959aa79fb4642f491aa9
GIT binary patch
literal 156
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVS?ibN7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#v9rDx`)>c_`t=4F<|$LkeT-r}&y
d%}*)KNwq6t1)9YO#Kj=SM`lJw#v*1Q3ji}jB<cVF

literal 0
HcmV?d00001

diff --git a/engine/__pycache__/arg_utils.cpython-312.pyc b/engine/__pycache__/arg_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2eaf3326e7025be2af429ed5b545c3ed724e7cdb
GIT binary patch
literal 83319
zcmcG%34B~veJ?&Ejiiw@+V{oQSi5A6yzfhFOY*+Oa-3w6FqU;kvgDbOa%bd4jEEBg
z$Y2sD1S}wc1EzHvLmf(~X(<gYrRhfJN+uFhw=ZqeKA?SlA_*;_uYLdT?|1LH_s;0b
z67>D&Bb|HC`F+pt?7y@A&i(V8oGcrD0msJ%JdfFJ|3DV;%hX=p`Q0>|?W*kon`D#h
z0h?ES+P!wRr+8ENnd(jDr^D;uXPP$+&y+xVFvFW+CqJoyl%Uh=3}$*WgIV6JV751#
z-5mi}Fvpw2?`eVDV4gRR-_ry6!2)kVu+Uo=Eb<lwi@n9c5^qVc)LR-X^Ogn6z2(6Q
zZ$+@uTgiBPpvqgtVOM*X@N=nmDV`aDnxNb34leU9W1KTk8?5uz@q1>VKG@)G2sU~f
zH6BgDW^XgUX9Ze<t=?9C&kigPwt3rv9<L|Z?rjgQ@U951^sWr9@~#T5_O1@D@vaH3
z^{x%B^R5f7_pT3a@NNih^ll7p@@@)l_HGVt@oouj^==Jr^KJ`n_ihi~=e>{lx&k|b
zJH0!DyS%%C9o~*$r?)fM<?UixPGEO%k9QBh=LYr$_j&gP_j~sT4|op*4|)#<4|xv-
z4|@*>k9dzTCNFR_c)$1l;4$wpw&w@BgU7wc`Mn_UK=6e3MDRiHgKRGhJQRG``!K&3
z1-!vWypQmEap2M5V_wt*<XcJLeL<hs7d+`b$@bDfPw<rY6u*}RdV`Wz3i`c%wwDL`
zg8kn9;A!va;DC34-6{fu!86`7!GJfw_R2so81jbry(%yi9QF?Ldv)OPpzM|TeMul3
zjCdn<o4-J=Kpd6^MuKO(XPH(LI2SzcJ<sp%z=hzbca-0k1>PTwdZTt*$muWgM)7|Z
z|L5^Pnqu=m<{x{-uGVDl2VgIiYIXY){)_&i3K0EIj%L_w-lzN}{trrZTgm03{|OW2
zX{OW@MQZS8_&?Nd_dn5>LI|lb(cb5fnx1xeKRiE9vQucPZ=joj{)p7#{}4ER$Ulz%
z52-XlX;_EU3e+WOx&JAt&Hprz4gRMo^uBb-1IkCGcK^rxPjP%y`ejg7fb#J<l&3*i
z3Cc4jN+X9`q{nF$=+BzyZ3s6JlP;|W<_gEC(SI4~SOfcWnq7+vT-U<&d1;-$2>uDR
z9`;Y59A1z%JZ<x*U9k_gA{j})PTMP*izut}_V9Ytih1yojZ%Kz?)?<_tw>@9tF+O?
zrx1MR!)+2c?*!tQ3T~?{xNW|<Mc|~Z{&p>AsN_Tra?L<$w>|9;De-=00ql0<%xC?X
zDYiW}>At6J(vDYB)Ub69FKX1CpziX&_)2OL{c}<W)g7r5oIWpgJ#F)T;ex$o_m2s7
zxWyiKcJu@SJ*NWx7Dqhe(7x{OeTVnNGo_wLPj8?n9FC{=4fq36IPMw<`*c_Ma}E3D
z;7Ft=GB6Yh!=Cv-2ye$P4EtNM;yK43KHBB$*xS`{fZ6Q~g@yq2OYzj5p$qYhg98!2
z+!Kgr5`Jf3peG#9pw|;Uay*S0#T~sp;Yi%s?~nL;<o<9xi{6Ihf&PI|OG-SOJxV>p
z;1ka~(GwUz+z@`3EDy;Po81)aeWAV~fYS-Q4=g1Au<Y-pcmPtoGZOKK$kVQ#-ZTD?
z)D;>DwiL&+J9>Ig`#Xk0eFOdRf)2=}fdKQ?oU+s>@r=7V{bvVy1vtN}<G9=t3itVC
zf$chaaF_O;d*DRZSp*o??D+>yB%==w^+>|!!J%V2wfF2pLy|uryd4?|L<Zo}BV3A(
zoC^EpvpuH<0t1l?8Z7r{4>CBQdvhHf8Vcy~%IiiFr4hrSpnKTgJ3{F^D^gR|9g#<R
zBO|h3Ix-R&9?>J7bs`W5YQf}i`9vbJPa5hCx1_~0cLj!e&vXxr`r}!gk)51TMF&nC
z>FWz1eFLF>Ex+SghtPTSsDP5AvcGTOJb3|PZ%_F2&OrYViYZ;q;+Bkf4#GU^mm^1p
zsnFutd;5;SDi270)XsxL{loImsW4>~7*mF+j9te@LLtAbdCEH86F#H8=NunGu_LB3
z!KqRmI>b@t80Q^2)D`LlK|X$z>8LTC{z%V2z%QZPdi`)j28Q9UvU4CDkq1tVpkj5M
zM?OY|WRb?QuJdRpk)r|l2%_|nsi=Sb7mzZe5RMK7271XUld_W=94y%bp@E1mFx21g
zmnn7~!y`N8-qTb~<N3WKvJ7^<VU$_lkQ{s&(WC73_4|?9o&X3VXet!FJha?_kWcQp
z;Opr{)Z&G3ARF-?K+_pTdq|DvQrJPtINxwj<a9ijy`g;t{5@yUa%+M;7f$(oLt38u
z&J9FP`@&ka8In09)T-VyzW)A^KBOYxkLQC&Z(wLd@`Vv_Pro0@D%~CMpC5q0*(vvr
zP?n&kqW)6q_YCavow^V~rlQ;_Is?Oa%R|`?M8Zeqp<aJD%+0&#{*fLu-BE6rhy0P#
zLlXJPrUtYdxzQ5|zYG!eKo~)y)<pd0BOp6P;l%C7<4!8&y#t|$Dun3mcsyJ7qr!)L
z5o+A&s-;&ODX?61z$6L#P8*DmU<54LBTOJeN{MLF8GW#0+}3B8QlEB>*`xMuTZ`jx
zJoRi(Kz;<k1eQ)X6yg6J8OA5=S8bWL6x*egs7-Vy-L^WL5lFpFt{t;SG%;_p4N{bn
zev&<E`z)e!DFtTg=h6hHsQoDn%*X5>u%EM^vz<?U*mlm2h>fO0fR6axqvh`29+K4V
zQ+{`^+SvS(J2K>s+uKn?vKYo9HtvK_9;Ske7l?AC3{~ZCs{9yY6u0|jFP>qFtJ{6?
z7h6|Eg2O9@2ZlWn`1VIU=SMbd+IVJze??&6)QaH?D8|r=vk)#T{2|m`{|cadBawkX
zxPACSJR8*#;c?lF))?>YTOo0J0^#lLCP0|NJqY9H7j3gCX_+NIELu7do+_$~x$1s?
zH?QJtTWV&>-NMT0!ZxL_ZKkk%qG%#5wq)I{Gq)alZCNb8^PSX`qTDx&if7YOa!USV
zHWlz+g!94hgBjVjk7ce;ePPL})K}Bir@ovLPetpO9|Wx>g%d3MDRim|C*87yM?A}j
zu6!B}RMg?6FgSYYX(cZf&D!v|Uhp$|%;wu%WidzTJ3u5>7R<WT`bR^Md(}V5#^cGk
zwUCQuZY`u*#I=xyvs4SCsM=?m5zREbrO=yfzkr&Fak%!oWY_DJsjjx99**1Mj>AJC
zG<Hrba)qjcS{Eo++!xhc$@LAfD2KG71~=M}U^SI%g8LKT5N?2hyqn3+y;A$pO%tgT
zXFroOQ&cvS*LZn!V);~F<F)Wq-tw4pxjaBY_rVZ_6C(fS!pTWsFAstK0m9V6;POdL
zYkRR{)`rLRoi`jW?fn_O&Su$Ml`%(!8UQ6Qp;haG;wezBnsRNBf=>ETdldt_aCU?W
znSW*(fSkwBU;RZ$X7F#2r|QC{J}pZn<?v{J^L^o#_dObJeSdrF7#{U4>G2fVA5Vk0
z>^&{_!#5{B?idWCe@&zA1X7g?FHEJbRp!DG8tM6@fnE&FLL}N{c?9H-;6J<)#zouR
z?3`yeUfLKdZn{x)C);y3ukgy6kDVXSo5`-fyzRx}FI0ZIaw@z2TK80TOU%*2Ss2fx
zI^aX^ABj8Ywbz_cBtls3q8=hUqqeAh1Y`R!RtSs=X=E2sA#?4ctsT@Oxd-~(k<)%R
zv2{}j?t!qo$4#BrK;J+wySF2y)BsRT&f+1TgTd9rttC4HeHk&3FM#rKqE^GWXnQle
zc)}6OuAa=^c0KFHrYZNj+r=^WwwPm^nyxH8UEzcz={1DA60|rYA>(#*9rmZ4QQO=}
z50aHKy3#sXVUpSyqJ-uoE}?Ex{aS<nch<xBr2T-+&RO~x#2b1Ry?saRmr_Kn{FMEw
z-EO;F=&)U|eI@mr{bl>%m+hPr=oeDjSDNySiV4zQZQ_|*X*_a%Sl&J=;-==J(YkfS
z3-B1GIor>FMC~q?+xgAP8~ZMwyK>=L{d8W_H!I(Jhw|)$r4@E`=BYiQ3oob0qi`{m
z)k!tj94#NT5_=k;=kXsdh5^=ZW#>*2cNkOIoiRrzmy~tsw8P6s7Aze}&nc8o>S*g8
ze}rpXLKSoO$wR@!iWqLUE}5+e)l@R5nDdoP*nT-bYS+rAM3j#_1_m;Tv6fVsBxXD%
za$3zNbNR>@K^m>1p%&Fri$eJ{0O2YaTA}1`|McKQ%FR8ucHMUTpl#a=g`XaLFHGX-
zg9X+0Pi9oxX-?@tkw@eYl2>ZPZmm>!GRIBm5?rqmxfBK$NZu52hVhzXD!VJ@=u(SB
zuZ+ND<DVk`&QiF3B+cAlqBdjXC8{hk%n+n{S2dPmh|y?@WT*Nj1m;K6B4T~hHlBti
zn1UvlGPenan<Eq#{z<7(8e};L_iSo!O24f)<*^(TSE?zTR1v~+DVOscK#Zk+*7iAv
zaDB=ife-bEl;nzckrFvYN(<Sg^f8B&aVah8h!hA!G)3?jNa+S&JM%tgYjKW#UR1%8
zl;bDekksyzy{CsTT@9a9YhsW4q&5*hX%>wkH+x}G96s5emF327UtfZ&8w0K(y+ylE
zq7OLP=04|lkA(g1lR?ar&i2SB-I#zx{5_I;2);$w?aWW6ieX*%e|4$EwI1~^YamP^
z_k?==qWY(+oqRl7eR6dd15=h6YE!7k6q=_`ks;ria~OYyE!xC&L_I-Jb$#=}TkA3K
zXuP(3I<Nhk556Zq3CL*c&OpGeh8K1RN5VX=MpjT)6z&PC{ZYGn4+h+$E;r4mxER9j
zc!rjP@eD23xaqcJ%G7XVsw{FL8PrKZ5(WbDNwSih<9<Azj(HL-bEK;R@+{#pw5Y`G
zz40_oocs*j!|5=nh}}C>;aM;z59Ch)@*-hL9H70vn`JAgn5ew|;8ecn;=a4NrB^OY
z<u1Fp=Wb!?m2(r1KQ}s6SbOonT@tg%8yI)8yYA+e&!*UOie`!`ue3~T{btit^R90;
z-Mar~@r|CZl-+Jpns>#TI%ZStIbHU5Qd9G?FyhM0de>>IY`Ql3^)+`YHeA|w`{9dS
zGp@ob2d<UeOuupNmAqK?#+YN{dv9mhS~~2UlJB?*cV*>T%kq^ZI2?(BBWf4T45ER=
z3;&FUHI^DpRmH?d9fm*|cWB}v)j~XE@5ihwiY6{OK9?#M>d?sb@!KW6=^G=th(3}#
zopRPD*G60-E=H^je`jrB3MK85V@@c#zmGaDIihw$oQ&AR&InCm_!mt@C=MxI%6Ji?
zBSJ$T&0UBTmD1uoJh!b<KJf@*BVJ7X6a*7Zca7O9!n9v@(MV#%ru9)p34Ih#%L9Rd
z;qX9Mv{gIi<o<v^IA0@e>K($$Rxhmr`R>(De+!WdFM%Nj6uVv;xwh<<{afXeD|e1R
zer4a~54<#@^<FuZ_UAGy?V}s1&4z|To-Qp?Zi)#l+bz(7Wgh|>Jq|gkd7!zp`!tqL
z;1Mf!!vVFuhuhqk8tKfMAUT`d%>(WJc6U<%>qw8#@HFa%^J7gds&I(gmt$1QZ9OeS
zGN~m?6$C5;o<q1ia+RrUW$M9H8ITqkL7*}<*?4NeA8JW6MoT<ii>Fc75SBj+M40+Y
zlMpDj%47K@fWAWLKZF4}a5ukvqVn4Dsr*(*0ax*rho@XMXrcKfS9+dvUflO?y3Lh0
zm5XeLaVLA%tSu!ieI{$yYwKQXdc7d#Jb+ntT6!#d7vzbv@Jh>6M)mcQo0&29Y9(X!
zTX}^qoSwKaRobHDwXiH8@!^^AtiN&K*5f26HbYEgX2tSaAS6o4$1`WsZ3UGx<<-}_
zl=7CF58W<NJln4n{WLArl}@v_^tU?qyq@+)`wfS=V+`t*c#Pr33(YeI@l5_<V!Xjd
z^NW<E`30|-)7*mAP<q^_Mg{^A4@ToWwu(F1PHS@Lp?tK|hV?_A5AzNZ&*m8xExmz-
zPxByu8T9WFhFU4lIHt2}l<b;oo0V)&%;A}v4wC7dj&g`Rv%nML$h?GP%$pzrjWLrx
zE`kV5i4aHrjo9RxsC`f$DG7I*%@`F4ktsxpc-k><>$ZWLE~E_c#A2^53W54qHN*%+
z*8*YaLe$`Xd8tDU!9J*uk&O5m=~Ux^@>}19fhtx-xrlgb7*@wd`i_NrNOtp%gbC8l
z60s!{D?k2-+V;39(x@<=J~E8G2*0|XN+qujq>R>y4qKAY7^&2`MaI+BeT}$-8aK!=
zMRRnkgOisDOU9q$KYSSmW-;!%FQr}Fe>bOWB6BLI_Tuil*+p0OO=T~=*!gBg&I=Vv
zM&*pNaN1d+I4fRkzkzP{<+7>DRd<}LX?>|Q<|vuXvt{MK(DmY`SW$zL+3*iVW#b()
zuF`4O62-OT#n6rJsimua;95PKYAY_M^$zxvX3H#kHuqBQl?!*A%ihc`0Uxe^ao6Lf
zMcIU*o!+Xbk5iYH&T{*q$wKNtsP|>e)#a~J(okK+IzuU1!B8lGg+QN~v-~wc{)VtL
z4x%-nvWX3`?An;4c5XYMHc*HEcj{s26J5+##&A+0YCkJFr7UzxcAD6>r2Hb?<2mgQ
z3?G(Xg&zoBnm)-a^(Y<Ma)5l1T*>%*{D(_msI%6LwwE?ebc{Q%bX?ARY2$lg2PjYF
z=3_xSc!u^!Mhn&F3P=FV)O|jzZT^^+0+AIN!JhMB+B!+?4TKYNkY-rio>$@x?HN|}
zCubYO1EYS2>;p(4{w>>cr|nAWV?RxvqYP3QNk7rDF!QiKZHqdL!OmEkskP%&hdzi(
zkERalt=nK{wDS?W++~d!%P`GsG9uKZ_$PSF2cj8+G=)$4U39_SBFs=8+^J-ee!2|I
z2-PAc790~|n-9!Axqx1p6a=hePDn7CUMBsbPGhlPkY?6NKRtGt(ab>_y(ImlRLLQ7
zWGwTEjA*8m_F_sjCF<M?BxZ?O(ex)*MAI=q&4^IN;-BP<xV2a8O-Pwfr;TMtv&k1l
zQOY8}x-I*B%6au1gDaYanQF=?np!Vrw}iTq5^9W4o8lj4qtvwcCt@X+M;e9OV6%8L
zo_aVr%+DVBuLORr0;%(>5k3Yzf@VA;`rdxjqDQ!55B*gFcUqw2pU%Dhp4@4e%Ri)a
zj$hF}>^6k+*@SS`3V**sICK0agwvl8&iemGICK0agtI0g92)8KPft%rM0XQ8sMe#?
zHYxW@_Ayt~8FigS&d9lu&BAvgQn#6EoPiyr>XGzIu8pBL6Joht!1Y+>M07VjG_LKT
zKT7bqV~)=i33R<B3C`idNQdwv<t0i-k&kjtq*Gv$LVr4e``pmiMD_@uk-g$=aKCsn
zo+7M7{<_VSvvb>WXlFt!?w!W`dDE!-(?eBrxG-`^#8WDW(p0rD>V#QjY)N8Td_-V`
zZ!4)OWr=i(XGE717?Iw)4I2_dmv<!fPV1|Jf+uzp^l>fvG#ZTH7j<B|opL4h@{0+%
zHCOHt=BttWRbM7~nnj`M-1In@Wv*qKi-jK!{jWv-NX5i&uv>&<Jf#xh0}?6q^1BYm
zbj(vq4<`&JXh=e0?Hy{r`k)BiZQ>fUV1*fcp1#6doHTovX;A~~@H|N39iZev(rB%(
z7l&wYIAZ=4wYR|}Tn<AWLly6QsdZx4*Il=d{b1#e7mmHus!r0M%CEG4BBRnS2Y`&*
z8%9$a8gRZLL-P0aV2T}g(6DWEclYU`k$~j(V?E6;(^htm8yoKfl6!ymk;62x#sL!=
z)wA`C|3cV3jDt?t=pG1317`=M5v-?OXgBSXQi{Znra?3dduIX$?bVz2OGJ(h(oikw
zXAI7GKcC8gf7s8jH!n(C4Z}=BEq%dPgcVKUJ^hpqq!@ep>N;q;Oe33k4ksQn5+7~r
z$uyFYd&oFNRELZ+QCN6+j9hM$(F;Rc8C54A@jP|+T0i|Y+B|QGCLs&Zg2E)nXcs=U
zpv!)@igsqJmQPo0QmQuHuA8db9xLAd^Sfn@Z`<rdudJP}T&q;B{rd6S%YN&@smg7y
zt%?<QVgsJ2zu*m=rz)y#FJ|t{O#O1rPDko@9BFvv)e-sI2x&AWD=VIkDIHdawo^I8
zb1<sb4z^$wBwljntgn}jc=>|<;E;SlJ#i8*B@~X<_)gJos9(a$5>5vtj>7eZvl@K$
zhLbm6!_gMJ3KE(Ow#{fdFaI74^Zp{wB^J|G)=-|(cvEdFg<D?Dx>5VW_G`7%MGdcJ
zse5Ekm6X}7oBV$x=JM<Rt$1&uc$47bcw;GOP1X-v)?8bC`S8T*Y1h)1E8mm<6x7jz
z2SVYI;bC6CR_ENKxo#YBa${P|=Y`z7)Fxk{*aTs;w8pazcXf4k`}TGnJSx)=QKn|f
z^JTSSjFa{E$)F;XY5puz7RK{5+2QNsqfr;Ib%llbcq(?p;%Ou*hT|D%A#{36-5{rF
z2CuWn9j9=jj$2Z^WEUN->j@pvjx+4!+NZA5-yjd4BIEO9yaXfepoKp9*Xb3r-$=ah
z^hmG=C$z9tLMJhCFe?(z@X?VvpD&(9$L1j1Xun;4ig=8Wahi-U84)s0l0kw=-NH}r
z86L)w#+Dpz({U%}lYBxip04g{fGZu4RF@xc>Wt2e(b2FRy^-VGR#?rlza*~IwBk;Z
zAU>>R%6~}KqPfuy^Q4^C5%r(CsgRc>GUUGlhacfT{O4$-7i~XFw>7T3JT}pNCvVxU
zV;A?%<m6#Nqo8ae^=j34+FSLjZ>{^C&982rs^31I_0x1)$u9d#ty9H2$20GiS5G{A
z!!cFv8PCB2psV27ZI`xP&rq_PW=gBB2A>O#?|Cb)VxsB#raO5a0Lp8o%i5K)_E_0^
ztZS51Up?~tkvA*c(-kX~ij`9ptACndE1<=W+@k56S|z9UW|NY$3aq9}mn)^qr%FBJ
zd%z{X<k`_nqvMX5ys~Gbm!cD$*J`Ko8m9A>D|tA5;u&|mnODSwj%&p@jWX_lpZevu
zI+e0b<LTp(ORia`E$0C{Vvt!tv95?^*T31m<)=0Wc0aCn&+_xTsqgS})@7?-Grs%E
z+Diu~N)?xzc0l-j%H_T$-Pm}eHCDe)ajpA-%Y8Sea$@uK$eo<Fw;DXt4IN5Dhvu<-
z%2lgU&)vycp|O~D)hMo-JMLAtTBqFG-f(SK5hHi7&Z-6?5NmIFzgsfp-t&fQuMvg?
zrg+M|`wiC~6%)Rbv)lqxH0ADk!?oMM+^uUgCGTyAqb@h*szD*-7stw4C-YkGHf_3+
zekJmpYvP2GUq6#ys=iO<*WakWvtsA;ihat8eX;iavE~Cx{((FB^+r1G)-?;>lji)n
z>#CS&z21Ar)r!+83Q5ta!Yz05w!Brh&Kh6mxhehT;LC$kb(;j>9%XSyghhF9GyGFc
z++o3cP1d`%l$BXn8?SE?j1aT83aeu^D{ocaa@{`s`r6kUV@L0gEjcz-*d23qV}09I
zdZlmT_;Z2j(nh7U@!Hv`()OwB6<^<=WN%K&;Z?WR->!dk>uc%Cnmw`Ad#Bv{?zr|7
zhx{v!k8Pg7!JE39hi<oiS9+uEz}>o)w@Pn2Uah{}r>yFls@p9hL@CQFxguSPPUqDq
zc{SHE-^gnf`Tnqy-!z@yuH?7hIQvHa`q}rV*b0}-MpJCA!i$IIuEEh#CUwN`Y=>c9
zi?%unWwrh+hB_F@+I!xQZsZuB(xeW7#~W@{rg0}hd#n98#2j+t+$T<OyLEwP+Q?QH
z_)gLw@T9sLhy8Kc&&&2WAs)td4+ew0Pm7@|M6=|kWk~FIv!#tFStQ_kaPpbY{kkEm
zxpU$Zso2ZqT_oP{#qwrgMB?EkbEHA4dx%d|Yf(CmIG@HL+Y1x`2FfZAY$Nb6MRK1V
z=yCUrgm89u2uC3U@`yTqY2!Wp9=GK855wp11&$KDspnP^B5l!QFzc6zRS0`dbOxUz
zL7fQ(NImie-gicH+&z7Lw5Nu#u}GZ=9{zz<_w8}q$3bDmofIs+u_VXxEe#&c%eQ=B
zUo9E=A3-}z{XdQIv3*>O+DLNx#hM#MQx%@6?Dm+WU9C9)=sz(Rd*>l^)>mzQ8|jyM
zQ=oNb_on(CR)^obY5sJ7hQupXK+u+0($DJzBGaEvLlM@dNhK4095f$;9~w0${k&QJ
zbV=aSG#m{el78N76E0oDQJRx}UY9=yA!cZZ>LfC(-dukk5WJ>`IJqql`ThbuPMI2~
zdJ9~kzX+UoMh;HR7Kma-WNSS1d9{J`miSA-!=)kUOjOd(TgE(iMGv9qD`f`ETh1ku
ztMQ<LXwuJHA<9KhS01A)2iGS-Vf9v-@;YC`ZM48ubGQW>LSKn8klrOgEY)g3p%y<9
zR!Ki^4Rb2e5Id5{uzKD8Wyq&uM$``Owm{TFODjVv(RduRKs5TB^z@f%xT6-hW)rTA
zaV>+#EpW?`t4&nfb*|<2K)238R}dPSPi_7dsZy+dc|E4kE16&W;QK5>Ux7SZ$$7iV
zzj{uatI~Y-S@>MzZ$eI0YX}<eCjGo?xjdF=h`}T>tlo9ZW2uIqb%UgzcReF&G(;$g
z46AnoBitHd*aESU5z91$Y=PLsh*}LnBle`9cQYeYJ;V0Fvq@xFy;~Te>Kmqdx0>?5
zf%r<P-fbqgM$K)z$*oCqyU)~enl-l_CR_`<wR(4Qn_jNjcCoFEZ2tDa4_m~rgUiFC
zA;v8boy?<MLwwW%(PfI;3Jpi|wWObSH*;F4A?P4e($Bkx^J|rcxROMM)w`Dwt2M;)
z7KnWu${Ip&3uu?t>MdZu{{ZUeTFv)_h3|vxd!2^(j0NJ5|1fy0*ASn#Kpf#XZqN|d
zED%Q-v5^r62ES;5xStW5G{kiaL^mTgYls^bhzA(4MMK=QKs?B)-O7me!CMxHhfH;B
z8{=vRzh;4Z*zeV4)piZ{4GY{O&>$7P@_icawgv7{X#8eKI~d^@{FVjceH{0l8sgg)
z2p=PMX`#GkfjH^!K`0#>;=2}zQ;g`;5Z|*v^fIDLL%eQ*kW6{Fn{a6Nev{iC_S-l3
zeG9++T!wo!M9czlni2an#H0mcfD!w(kOxg6A7EdO!8a^?onc=GHN=bsf=*dwNQanj
zt2e~CeOR*%vF(WF`%Meq!zQV5RKxwf1@3VZ?tTsTmIY2mi0KKV!()VI8Q_q*bs2#3
zABc6g#_1;(oJLF`9@lXHVu3sBKd0B_2Q=KQ1r9pw2=N3X+6UjZKwMzNgM{Gtj!F;d
z@qNEP3K`v`nubQX`UbuaGvCp{Us&)RW4>Mu@qa83A7I2IrjQ@iLw<t8q|h&F8s)sh
zj4&TnIYO^G#e(OP>`(Kf=g?#1M{0$3KIO*ybPnkj96rcx%BN$T7MQ1@X)h$nNge63
zKz^8Oa*vM5wZMD?n)4abDIHU2fw|=WXi^R9B|KX5$4oUw(s`6y@VLyW_v@HS3(Utk
z^?l5{)%y(l=w~0#BFEhpKCW;IPwSXk3(Rwj8PG9S^N#1a<kHpB)^m4I_tR*>_Y)ky
zGdiZ(0`r1N<^*)4)vV={sBNDb+%cC&Ldy>7Jlf|Xy;nJ<A;z>L$5vWkCOFnZjHv}?
zwFTzWrdSU%vJc3$7Rb+Vh>sJ7+i#^L>#gXs$kPl-HqpX5?M0;4G_M6NOgPl2&zbtk
zh#oe*B>lXf=ah`-7^_*(7Z`JvFdV;Y(m6d2FZsWSaL=*-FCu-rlLCO%`z6FPLpo0w
z#O=DNwqMZPzHD+E)!cr~l!o_fZoh7Fi)wB+Om1W3=64_-$1LLUvMH1gXuf~LQrbMh
zd|m;chb;KqH1WBpBfS>Lub7Ze>c~eekY7bf{$|3Q?J34nojGZNf7Smr<mm@>OrHhj
zw~+6v{9m6l2YZ@*Q7&1{pnlu`4ZZDtNJoY&`2P;_?i&d$>%)ZC>c~g*I&$0Jg1CN!
zc~Og!EqHyC>&Uo{v6?acE@Lhc2KDIo{NK{!`BBa7_x<12-9Dzd{ek~A-R&~-r<6Zs
z5r^+E|BvgKr!6pl$Zg>n!f-kr(zALx|HxdIkm6@`PU9AwzRRIq(J@wYqd#WMbBrN5
zV>K`O9>?f;9rKJuSbySw9r5{uj(Oe!^QVk?fiRr1TIrK|%KpqG%RZ?iu1TNL5r3YP
z_D^wGm5B3%MOc5qalWc!tY%7o$!VV;4Ep`=vyV@+4=O*anbTj9G(?S$i5j2Ko<2i<
zGi`oqQD3x(lVXx1pXG1}dEEjz$@2O|#!#vJngwQx<NG-sbHf622it#Q4Dxv$`5P9<
zANb$UkzXJra%7rAxW=}ZaLdb#|A*2S{c-6_{y5J2T{qo1^Vj~n(wF^zgP4A6E^piv
z^J^yT|A2o7+<qOm$Gj=s0N=lZOC?-hhRfeezu|XCui&<uFZusLjS=n<x(Ui#naEq|
z8`4+&|ERi4Uqya?$$t&>-+VgF`%ls>=KCtJ{}b_n4b&eY4dS*Ohx9d5Jbnz!Z=u!^
zCMtOPo3wH392aeb>5#r|;_(xX4TmJ9A|Ahuu>bi&YRm7$v%2`cft@&aJz5EqSMqTX
z9Qy-j4<0<^R<9#yho&@Lk8wC&K=-ZSh=6)q2JaYW@^JyWOeCIrx(}P3wE3W3q>(Q3
z4J6RzQm<5idNVE|i5G>>3=FHM49FYb#t|>}hj<4VcbNo-BR+rdlplBR<m${h$an#6
zW(h~IUmP65u@1VVBwmhn{-JY-6JLgaqYctPj~aZ5pr~%r5FI<ljVaR5xe(tNA`Qs#
zif~UKrZOR@jfKGi_lRJF8k+_ExOaiA$P1{6$4Rl45~f+xBs$<8&()7qsCGx#@0aB7
zqIS_mB~p*CU+x*kWg$psI9^6BszWdC@4@{t8ljR-U|195)sk_=iqEgzv4W!-d~r{_
z6n9Ga`Jg!VgJ{Dez%1k0LEIsPti^eIS+~&1f_OTvxuAPvGU<WKP(o+o#cJ~D5(yKF
zYROOeO9e`|h|Hn(4*T@PW7}T4EkzB!koKOEd?dMX$mK~m+>U|5r8p&1kb!Ce$4e6Z
zPzrH5O1w1DSsw27QF?dB%MuBvFPy@~IljQDcts)sY4pn>+{ge@QW$z}YjqTA-MHCC
zPhUI_*|r-0da-0_K<U&_yb^{_%S*1!KIkL+!>5M=QoM?2*muK~F}MkWj@_7ubtrjm
z5~1GS0M$F6H0%ps2;s(pAza?Wdu8!#9ML$XH9A<-Hbidm3K2_j0gq9!3w=Gq0|=L|
zm4W9GoVqATaN{y4p+iBq1ZgBB;m#RUK1y{sp3gy^!<n(6b6Rn;3o6_&9pIoFnF8?=
zcEcS$$dmx-qe>wvrfRC{dPSoKhJ82Rxgq%s_S)iEr|1qPm1&7C5Rg4+9_sx_@p8^C
z-R?V$3zK|3xG@PeK+CT%j=V8fj$*u6xZ_@}-X7Fw>|KW9S>ba%$j)J$Z;9vj4v+YT
z)LWW-{iouk{jh6ir05nFEwkl6M!S~3M~%B&oS8yW=q4dih~anzQ369q)ErW^>O4<z
zy9CRy|8WQ@m5q9}Q#=Rx$d^26Qc$FbvKQLED3tP^{(jltPlw%9nT<H~<0_f{xKqYW
zU9^o!B8-~6usR{Fxz5F1coVl9h2w>W%oSMHP>JXGajTfzix6<R5G1FFMK471P!NR>
z;M#%=%?}I&af1`;3)M2n^LUZ!5)7Ih^R*&|t0wPDOp*ky>XF58JWrM2141=9UPO$<
zwMg3O%J>oyAtvH<pLT7Mx@jCQN$|s4yj0j_7S1f&Yd{E}4vHglDAu7<gV-qM>gfxf
ziWdUlS8vMlMTXU)A#TEr>X|MQiV%4tM(Q0^=uW98R3iWxK*d#vbC`aD;;s=?BI=6t
zb{)V?Qt?c+X2`fXj?edzqbf7=#gQ&BB-e1fsBZ)(I+2PV8T;^>Bm1HnuVS*8f!ckQ
z@H<^$(BnIcyM<1vO|g{j%+lJZ4|?vtP<WvKbR=Fz0)pBKH(Tf|X*XoWi--^y8amU1
z-F@_^fgx1U3U$yxZ65VP4Mgo!aZy))Xb9aQuHPad3~8>_jNa2Dp)-iNCL_@;Xl+~&
zkko+?P7cIt1Vt0@df$XY3~F^nWzueS^Qngra6^}R*Iho&pW%EL<u@8FhB)!EWEbsL
zv3Obk2+BuN1v+^UeS<rhAmY=9c0r(c<9rC*=ixhd8tV6|H1f=glO$YQhO-MKZiYx0
z51=D2M?=RYVdl!E=3=~1+);*8AtI?Y=y=XSFHe%t*Fe`^9_S5o--4oJAyGUO31DzW
z_q>HslcnJyI+ItXDa9h)>P2uG0yUV9jE+#%MSn||xy5rdCloSH(#3Oz`Tji-fl^UP
z0H=HTgnJ>K0MYIn6mD5+ontn|+B<dAsD3z&N6ZUR%!n)BJScqS!_Ck44GNb+fA1Vr
zfp+wdIjPm4K&y1&01kMl&AC#K?Ob@4TAv4k!-06Yj-$NiyA^$ElPbbF6uw^&hrrMJ
z&;jA*ym&#7?*G#yi`Mj1r*K#Z9Mw5rbvE^j1sL&&Y9Q(_waLiiQV?2$Xm&kPyck1h
z9=!(9$<e@=>P@^!$Xim&M(k0Mgse&!3&jhP>lAwZ9vXTe0iw9$d1z4n9%_GDmtRH+
zgs7pq(1-D--fF3owC<H?tmsFFkxg!*8D(?l!|IP063+4JXQ^JtX&UocDrhQOte!_4
z=%)E6X6ACGaSegw7_eFUyKaBR9<})phWaxda<^F?P`3&vTlm((aSFTf)WXqyOSp4|
zZigPT+p+3^s~I#X^fK~=ufam`W<0IV?8x0nTd9E&Z#ZmE3jzGIM!?l#C0*no@<mTs
zq*`zqtPyX<lkSGG4nf?~YR7d-7i=wQ>J<xe7yORy*t^@e_kmr$BfEDW+;_N()X9&_
zBmOoV>*90BZmq#d?nfHJkJ0UXssmlx$WE%>YQB2PxgTXH(|(&ws)lkISt+V<7hSa1
zuH6zT(>iTD@AL={mT(ptO3Nds;+be!bd3tSt=z;|$v+})`^Z=Ymhp5NXQ9V%4A7OU
zI3pJJ2l`a5P7&WkrGgwEL?2oQUvlXiEjOm%?Fp0}sMg^xBOn|b<71H0bg4%v_1uiy
z$zFT6af8x$>~{V1=KB@=H69!9yyL37n~jr;>Osky4!VA<rbVgQcB6B;ZL5O6nr(!t
z{zvD!zjIdKaV~u;yK*|aUdgVX&R#Q_y=JDY>gwooqvLz;Ry5sk{ASk6S+_cW=g_N%
zrYd%gcV6Cq*H!rJflCKw@{i5rm(S!EU(I?h>t`8`oZQ(An`^DA37xL?pL1{7qXTVx
z6!I;1V)Hd!U!*lU+@oO|q~@OV!-bQ2Lmx~}BEou8zlmxrMM{n6jn3+@oaB(wDs8w2
zq(n+z95P&jW|?B8Y%9G1VFHy?YFpH-xdB@vry0qLrwbrw7@4^Uo<C$HD_UK*OWBfZ
zz`g+QIQz(11n<9QWbVR9EP35!Y~I3H>2DaBzX;^tGO}P1$p68}!iABD>6?t@tIqG8
zQ^5WmV_EI&-dO4H8CkM$45WWxWa+|4g#Q*}%NE8;|H#PlMIir)krj(T{!d0$E&}-@
zMpi8X`C~>_FN{R$f5O-$i^BdhW0x)p`!9^GSrqnvG1k2(?7uR0*}_=qe>1YyKti_U
z%#~?UouQB~)l0ZfNNONIQX`qVjSo5AY<@+PiuaH}vm9=V5$?QF?Wc@vT^NaSdYiG!
zRqSG95d6Hue%cnr|6Rs<7KQy8W7`*n{Wr$0SQsn)J0n*vj6}+Q&e&Cp!oJ5?J|22+
z`2xPbVC))$uQ50^28lvt09V&o_o8bJ>;k>019ih;+2j2OVv;JYGh#9?^8YY${lZA3
z?>`y4VNuxsV(i9+vC{u#<fes@S8&9hv6~mhW<t4N!Zjnvg)Ii!R37?JT`!NcdCFs}
zaoxuP<&lnDPPZx#j!g<;lO}C5VslS)Dx<d>Xz4yf(qNNoN2FLtBiME(*mjw1eYhIs
zv86WKqZpfwW#H<MbSpU)&A{a!9nlP^z;}KwRdU_zdPST1;BHm7!=y_b(I+l?&SlP%
zbGr@f0y&q3yvUk2=V&sRDeW=xVtzE|bQ<ILE{sPVNoVZ7MPV}-yMIwwCu0vR3Y*E;
zg9~Fhby<u)v=}twvl)MQF?i&Mi_u3GiOym4Q3H)qwCW}AmySjBV`5VG&ErPxn#acj
z(g~A~2N&VvA?ab05APy;JR&`6v?=MaMfi9hl&_6+oLq#D9_f@Rj9y8)>3>C=JMk!B
zo?6c(m&>`^XXNez^*)dB{foh)r1KeldXeY?Mh`5E2IoS?^1TsypE*xDfi7b7nT0uX
zo)j}Wut;<Xqk{{h5sy;Fh8Be_W9-nvSdMc!qlXRjJaztYQ{9piW$-*c!X_V)Mfn&p
z`8c~MALk<alGC8Rs3iIxjC9X~%LSu7&tFH8#}%9tqef2L6J5#Z_b(D%#pvk5XvCwM
zv11Ekx%`$e`U3`fp3-<ix`@1Z(pW+>jW^H(t3SQh%$}#$e9E{QYk^+Vh1_#l^_ocG
zQp7o1`k)c#`LLYA8b<Rcy7U%n$(hk^Mt^8w-iXIC#(sEF*jmPZWMM4FqK?tyi$vEm
z`qCoN4UGQi!f2$hk+C0J7|XG4V)W%jqMI50@kOFr82!v5(XEVrc9H1ijJ~o+bQ`0e
zTO``U=;sZzsol8ew40oH+RZ17YvdMaH@RpFxmN9lOQ;>O$&p?#VslUQ3Pyi&k?56-
z{?sDTs~CNCk?7Too-oizqt#gK)5%imp6Oe|Tt8!Qy(fAtqd&Vy^g2erxJdMRMt^RR
z=nahi{36jC8U2MtqBk-6nt?Xe*V;MtHE*8!`cg#4E>K_dqxqI4`Nai#<}cm6ZuCVc
zw|uKQ4+*vz>B*D6Y^3KN*e#6xwS}?VmbNnb*B6Q2#^@UhqY>xrjD2}wEXU(MM*qgb
zXmH-a*jEg!sdVe-ly1R1rF+x3d~$)(Ekte?T9pjPd?#X4AbrJ%%{|e(82wcP4Zpuh
zHt80bV@1-d($@x?L@JDDv`CCgumbQ~pGzGpjuz{FzrGbf-F8b{!5L{0{v*rvw>I%6
z_({Kg^BZD=5+9-{(LO|h3xUQ;=821bRUAG_f$xUkqZB3PYd-Ip109?LoMv?-V=6se
ziAKb2taP5z`<;l6U7+;J5Sy}jORsZ)R;)^;+m!oX##lj08?b-b*#DW|XP4&lo4>Tr
z-5lcYl0SVcH-9*L82x*TMDJzvw-$-s$LQZ*Bzixizr9HG0WE+2fbhRm&K~4&URz{1
zhZy~xMWPQg`VSY0KEmifS|s`?qrYpQO*LCr{nBf8`8+lIkBzHh7pU14sM!_s*6jNc
zn{w%UMr@=%5q7DG<i$OGA2a(-+K-q&%x?Dex)G)+2Ua6U{^>bTIZqD!X+*~^kONhb
zb%JYTy?7hkDBg^x2s2tK{Tanh`g1J@s^-nV<4B8!)?4ZP=m!}67e>mFyOwD5Undy*
zmkVRLe|eD6-(Mv9Ax8hzBGC^sI<`o(m(hxWM)_HdUnensoidMX=E2<o?gxoD{X;}0
z=WNaRgt%?Ap&RF+a34{}!F~EIesk3;Wa{^EpJ!TRAcAj)X5)N*FD~HYGh1n_aq(k1
z8*y0vI!yHd3Mo>{|BH-&C4&|XkIO%yS6pvyliw!eJu?1-jDIHM9Wve}gAT69tI1eL
z#&^l>t7PD#(l*&cMmrhxWHgZRzllmp+47Ic_&JQxEL<kl=TT1(+wYU<c1HEuyl;bw
zTmI>@9rEX3#MAgRjX{*x5*FV|$M*@zcpn)-GKR>&N6~FEzJ_j-A14FfHMhx~WYB<C
z{&zBdM#jI9fv>yU<Zd#~k%14Q+hiIp$PdvQzUgiot?+0^Dm{D*A4kwU+Hted+PNg{
z+@?pI+Z=74AA^&d9^>TZ=!$zF^+S6e<Lu^W&Lf>&M~`)N>^$Dp`IvjOTD?9C7q^mv
z3-oO0F0QjH+gGh_Uy09<8drUCdCN4;lK(FmHcBfFp4eo32+Jm?lHnjDjf`|MGRSbk
z7%ldA=(L{)M|E&C)gSQCVgFHwM;Z=|c6Wk;TVYj-n<(@NtH^1b#S$NuYIi?)8n=w$
z0)RH?2a$$C*e#SN+;r&Bt)2Ln`FvKp_5~O9j?&8Hz;Vh-ju=spM^|=}3kr!ZFiVOH
z&YvS-R40ip@M2At_R+aKp)KNJbs$bwV07K#5$F@iloU$3i78H&4L~n|4wK=;H9k<I
zrj<CikCr7zR#P@%u05m6cdEK4bJ^nFGg7~yyUiqz%Bwt?7c^8nq@lvhhDTeD;+++*
z5@UGmXb0cEhU4JsDNc)MiP}tMcq*O}93EY{OH~k>%MfLzUJqOw9ImB%;A(NWyH>AV
zd{rnlU^$m6Odc5pWZ*mTxMq`#Vlqm|C?$iwv!b4^tH2xO84iDYbhQzWrZzIVBcZO(
zgSuA(7%lX8NU6l5s-Af080qMiB(BMTdon~zU_5EA;A=JNG1k#-RxA@B_hgC;V5T@1
z2r*-*zRbx0OVqtsLjwE}l?)dTNqpH&d4GhA4P=}qV*tiz3nIZy)5D)&;<LVR;jelp
zwtgtW;QCV>AI3>bv{Vj&dDE)Ayo@+Dlkvx7ZNytVTUDLl^U3m2qSca7M@ADFG8toJ
z(5-kfjiTfcGCn}Y6J#_Hw~h3+nT)MuY$M}77^5|4E9yCaPcR61X{d5|IBa<bL3fg|
zi;NC3wvf?9#%?m|5W;AVo(-hfFxrZ5RH-LQ)y%<1szMSSU8fdIpPhH(8ror0gD?p#
zBd_-o!+m7XRetgzG7ge)fQ<cQG*W_2(pwK1r^vVhx48ZNaeG_bJ|;g4+mEqHPM<rm
z%Q8)FS(iv|BWw#9tz;}G<9-<NboD^Je4Jb!AVVVK1Q~Q0q#PxKPq+Rjxc%Z8kB5{9
zJ*;BL%>zO^j9U_sgODBQPUt>IzM*k$7qg~)B}s#`tI*Y~#0L#e58$LXlmduDcnBZv
z3P;-AM{(CLK66N)I#k0_gVMAaMUd*J58LJcq9oFUU8eKYYVS2jZ)eB|kimy^&(hn2
zFh+}vf~V$#z9AAGt?E?k0{Rv{q>GEpahyFIf#w3seqHkk6`Vev4av{A(Srwv`rSGe
zof)oolp)`7AtaP1G_;8u5{-Us1Yb~0>U##lL3|{4G{fWJ6TNtKdOWIbE8a7a6{>zK
zEck>D>A2!88*il12PuWp9nCjcnGM{KTr|5dx<A%u1se&Uj;3(9ap4v0NTXEskI@za
zf)Xma?#OAlq2ogjPRg%pZ|7k(DM5uG5>(Y)Q-Fm>4Bdok7i@Wy0LgE5f@IVqZ*~V1
z>PKoec<9S&DWka_kNG1-qbZ)pRi2u*n1{8+-~=G~Md@G!bPC@Bqkx4?WC?YXTGQ9m
z_%v}3c&S0tRQWulVg*VGvI&}0ra05#YSoJ-2N5Rp&^)T187RnmRhL;y4Cyk%ne&44
zSXK0e6XK1W7YZI)yjA5DtvmoiyafWiIw`j3v|pf@kWA?4(9jQRHBdFCGJ>3;xFaHl
zZi((`wA#ebiVkmD%2-`R<ey8cqaIRA0e6J0$4ggD(W@7jB*%=>hwK~}GDkKrf`$bG
z<S7mCJm$O++SDjFs^?Y6S3{#(g$s>pmCS933DgKl*UU(D0YYX~Fp)tN9rXK<I37}P
z@!<P}6a%=THlRE?I#6=Ki#j|~@w)mJ_>e*uTrmqscJ-)A03a^qs-<0ND<M|?-Vt<*
zVxE9%jsh0C*2GgCIr9)C)iXQ{7RVb_>Doi1!~_Q#=79x-hN^sxHbN~25`xBt>fkrU
zBf|-aQkAjigb^7AnWD*B*_30Xm7N5`0I-+hLb%>x&zZAof2odbAiK}{Sw@4?oJoL|
z6p4aCR?#5TV6N)ac><?+uzDI06mud(%m4(48WZwNtE1{5P-h4lN*Z}cTGM(a+ecA*
zH4jjX1_+G+FCxt>kvzKgH0VoIx~3hdHva@b0|1&hAuVdExELdQlC-G7$rvfnuuOBH
z!KNy4;eZs2R0xe~bWrM50U#sGNxJD(gDNJ?G&QwJAdnjvY6}Oh(yAV%%3Q=#)uyG)
zL4B1*@F8E$7nP3(N^h{EnrL>)c2<YeD9Az96;sQZ1BHSnItKdSgU6)I3@+#(^ctc8
zPF;W&q8cFSM|)T!5q9)mI#l#cs3kPgC-$oTr!Hw!-n!r={cWy@$PbVplDNQhHxKD>
zBf<St<Om76sUA%=%+pV00ePfr(NR29Ejkbo1+uC-XPB|0E7j@(h!Ae9Jg2n*5pASe
zb%v^45($DvB_(7bnhF9jbk#)Gs@Z39*QQ}=gjwI2hp&)wYUcw2O<}ZgdC=&K&=%Al
z8d6uiH(KQp44Q<nPM`#s2|OfLGYa`(K_YEtFkHq&Xf$i7rs}F{G;@kPLCR_*797M(
zAu=rb6_vAar*7BOY!M?vZ=3w1U7)O~BB2ntXI7)7>Nu;xu%0v0$9m3a84-#jM4~!I
zfc7%1d4`pxB%BZyjpenDgO!v;fuQa)NtCqao2nDJ6GPM_R*B|113g}yfP&Gqrz!pd
zjw~a6S&ynOi$X%Wdc!P5G<{j{L}MhKSq$Y!XBK&<>db<IOw;sc!Ccjw)leWp98glJ
z327f*QRNp!QyVG~jcx;g3mT0;L&VUP1EQuA6|zaqHV7OGGGr57Js^Bo$Vuc21*WTP
zdst-~oT>bDl~0UpNW&M-hGf?iu?256s=6#w)wd~2SxXyK6pF4NtjR3ovhbjFG`g(O
zl(*pz1;iSt!nZ0*&~j8QRDJpmC}q32X$5tiZ(89xLRkeq$&)0wqNAY<wDtx%nuST3
z+UOKi*&sBK4R?fsG^kq0hAYtiUaA4CuPofTGd5{IYwj2%96`t^07Kzdcu|L0m^<{+
zEi#fv(`OgtC4B8XuPVn2;oB!ZAcN~@hDL_vH!vr|7hErd`MaxU<1RBs{n`sJwemWu
zLK8S%YP>^lJ!DLh!3zXDk*B#f&w%5OL8yz%q<W`*rhOZ|@l=<msXQ4RA~*f}EiKjZ
z$1wGayHsUKRm$PY8VrmAYIL=Gcr*&GE5MBcoDSUGqi2Dx(yzhFEl6tOze2&&+BARN
ziN|r`0*PGFdu#k%>Pm-*lWJ3gE-=<rgztQllM2EGLbyo5h&U`Np&0WYx+dim?tF+`
z5Qw5gS2en{h`?(Har<yQUvE0XPoCkTvQE&W*McrE)h>~zqy#INWU+<)hpQ2u`yM~_
zqc&V)dIJMgv%;fgCKXnyN`i0#%N^lIaG)O=tXa15+Uv`w%G$?WGo{tjr7M)u6*Gl3
zcgyRh%a<$V%V*PUWh>vYrIuxlXX6tw1?4ZU`NGCeZ@jki+OCPM`0U1wz28dx1LrrL
zuNAyjc-y74b<Viz#}7=q>J|Fid#mmCIc4>pN!Q*Pr+Ykm+UZv4Z}*Mp?Y+v1u1V+a
z1oyr8*vP}m$~}|LM11#+M{hSOo}G%b`*mr`*`46&AOd;6viiWJ^I(GeiCfWF=W%7j
z1C!1ZCc=zs*-ukbGP7nHR>f9#DGj^dCL6walex@@VCRj%?F~wM$E35<<W+I*(jqeH
z+?C)yZ&=N0SZy0)o4S>@<8#BBaW$xrmUXf9hm@AXb0Laz|E=oVgUYIXlg|AK!5+UA
zc<nxAefOmExXFFSRjaaWTpe4pM`_$^#nRfV;(X}#*4J~DEe}pQA2P92ob%z2-Fo!3
zc4giDlg?v{z|XiE)u^?uk8L=jv>u%sHB=xK(!4gd?ts#K&<awgLYmgZ*6vf9_FF*~
z!DSH@!IW&OBE@PAo^h4mEhwHTESV`Rohf!-t5k~HZal0MZ<r}qGBKzWwA^S^3RcbL
zpiaGO%RueQPpDnLLY_G?v);_Dj8&~sa@YPe4K~E4y!xFCddo5~pK&ds#x0oc8CR>C
z!R?!4TOL%}AF|5e1-U5B!?(7+=2F%insgpERgV8xakQ!g5NKt~u2)W#wvA`clvGWZ
zv@0d;Glfg<me)>~w<_hW5NM?<Aka#)#<L*MGTq}@)6N=&{tn;Ta(hg~w#INjdh5Vz
zxysrjlg^_vPThUR)uQH+2W|Vf;(0*NBc0_UAd2(Et@p<|bTOr~NBg^-9qT-yY*d?~
zPC)zMkY<`u`S&Z$2iS&mH>|j`V)s=2o|tplOkK-#-BzV;>rCPDyX7mU%Qq<H8<6t)
zZAf{2R?O+9q_^Wa?er*4d|S)?cB)#b@|t7Ko0Z%xZ;PsBMm4>ino1S1Db~DG$=&sK
z8f^F&SZ>SBx|pkdCTG>x*T!5MXL2@tt2pM`K9jTkyN;Nv>z&NB%B)NK#yhSQ1Dw+^
z?OLU{R?XxW&6HHkls8=Kz4kz?b$6_E&rDU#Y^E(|_0Mc+xV|6<zTU02RW)3H-&Ez=
z@w}Oen(2zwO2z7#!rHs#jnn1rN_jgHRk;R<s>~YCr8L!#=T1B86ldLxt4)jSlGxI%
zO71o_vWbw!8CSvET5HN%8e6(v$=#qQTxW&;<JJ?ejftM5P6RQ(`?1@3uRE2Es!%lH
zAG&?t>sy3y)!k<rm#ZbZVteeq2b2{j^qQnc0ja@PwaiiFB#AOI;}%SHeTy2JXKQTR
z{fg(99$J~mxmtt;`8JzkFWiO#$*h0ZmX3nXwPos%W)(71(4hg+xF%Qt_Ra%n5FED8
z13=+WEM^L}&I1q}ipwb)+2(kfGNcJ?%o(>q$=x`&jL}q+aGR9e%~rTZHTPOK#Wo*P
zTD$e!GX+_rLh8`{b}DsUb0O%jZw<W`5Iwh16I`uE@o_8U7M56PQCYYVqF!%Na<^L5
z>oo?XL&@!&3z@&_T32;skHM02Mnp`n5e-~c-MFn}p5k&d;PCu_S_T}QAJA~OsA{@s
zl~S~7rXVRG)J;<XET-u%T#WN2Sr2IbViY2JLu}(=rTK_n1N7Y5FjG`R3C-YI3(@;-
z?k_hIH%6=IT<7U#MOD4WSgS$JhWQ7d^KqYacHfG=c1YQ93~vdYJ30v(UN1-5?^l)^
z;zb``W5~Nus2C!skogDBRE6gm;Mb{s?=?DHL?oA~T;`u9EGix7SSdH^SH@O#DD|Ce
zOPFk6w5~$tAFW#lgf4$c)19UbQ`H+|&Wf3;Wz$t_m8!Kfh4pvKo2ScHD&;HDJ65kl
z?^um4znr?qMm(pT4T=-8Q{)ncF9(z+W0-Bmh}dIpvRA3!r^num5z-FB_1#L{9!rcV
ztiwu^(H_ivM5Vxx^O(|N2-XS_Vb86=>k;}wX(K*ZiS7pDakGC>r0CX8D9azTjK>O1
ziq*v2#sDTMUqo@B{vK2s4_Wd-SS*9VCqWvT<1=4+%otI}&_ees4eC%Xxty%x^GgqN
zi_}5xjH}8dL${ImaldQRCK39$71PXHRkt4z6Ha~Ti8<b_M_#KDvpwD2sGq0<2bC5h
z&vceEu1YP-Dkj>L+$OzC(h>7B7nKLy>0YJDsDvi3=CLw9Wa@6c)4FY{W_!$8J+ria
zdg%sb>4urYrn}|Kr_0wU<!jI`YBr)>)Sz8dQGU1JIqhs#oEX=LI#L^}>r`^P^q874
zLcXJ}bt}!<wBBheYKk@OPzrax)}j<19M703F1-@Idj7fd*D|Kcnq#FcHwt5gZE){8
zh?vEetXG^HZf9auVaBjcId|P%=DB(L&V~b1?FaGE)gLT7hL5!Fv1k2o*|CY8;~mfL
zy|nkr{U1LNTXqcd54ht~u9;czM(x2IM^Q(S4t@OluFF>4cztN9YCQzOOr?9ea*a~C
zW~Q+2Zh6ym`3j|c1+u1UEwZL6Ydnu~reQp9+F7qS>oIkIJC%lkj?}zd48db{Ta?1B
zv#GGXnO`x1St;J$PSXa8CU4aV-mYy|3Rf?}myrL+;RlsAV*+YoEc)lAv6_Ujk_jRP
z0)T8&a<}VcX@ZE_h30-pY0{QoFr_v@L@Ql)>$K8vpDqwgh+i>l7Lmv$9Nf&ZRkv0s
z%XV3XE$S=MxI@X^X_ZDH#?d_YDD}pAkSPU1iepmQrPS@_fFNa-Hs5L9G__=N%vm{8
zT{~U9PN`luQ`m5~yk)w4l~TS6)n&<gRF@@aNflIIn(&-<HY!dG--Sfp7Tf-yvRo@e
zr#+{ezcXDGLx1I5cdJivZcFy5PDkI&b;p)b(ORr{n8Oi+W}x*_MonM*LI4I|>vq|{
zTmL7m-)Ws%duTj6Rt#A{t2oY82~&O{i?MXLTWQ>*7l$s2jNW`+$USEE3$w2mRfc<~
zHcLq>sw;*Zok~NORV2}LXjGE8bb(5bwqB(;tFT5&<I{q6>L9As4#H)kHiJsD!{r)X
zo&4pOj_17hcDI9sQW&4GwY|HdeCJM2mV6WMy>!M-{9JfR#s53shhe@o)auUAsO=T(
zM9>e4WGR{=SuPaGQgAt!L#3EasE_44Y-6coDNvWdmwBOJkgEC|Kr9}^N;+=br0DT4
zYLDs{6o&1W^P?$|Oe@+aQZ6rLrL+`M+!%929lBaU$~o}0lfoL_T2c<H_g$tzVF0H!
zdILS-us<x*9bocb!iZ;JUmZKOay+9SyN`Imq5RuKrEJ3150TQy4ATwMbaalF^TTw1
z2=4%>YyCNWI69@T=_lM*nLzm@vM5aZI#}&bw>7VsZrY?YZMt1|r)m3C{(VZ*_KC=q
z;;R*(sE9RfA5V+r-}iT=73fmRvVOR3^HlD!S0A`>{9FC6Nw0VQVEg^!kry7EIDT#I
zR7tav*L>>%C71dj-W$Lt=&K+k-g`USR<OhV-rMQ6yl#6qAK^|E?Ofvc?Sh@PuJ2^z
z!A!V6ma>Iw!VSEcYXa0e%ryou`iYt#=SueTbR(>e!8`HcAN=aqObR#T?~+KCuvw~@
zqzLYIe7^_$^g0qcXu6!MQ1CFGlH<$<@ZYom|FnB^5$ci)-7Ra58B(fW2xY`au3jJ}
z>86xsfM2%oYurRj>cNuJx)eTPm+0~*{elqT+hzkL3l!R|O8S99S6?hma)uQY7btE^
z3aS0qT2gXBskfw%>NOqwP5L36d{CN`oM8op6na}NDTScW25Hg{eu_Y8PjZG8lwwd;
zT2e|t(G}4Q1pJUv>RQ7^yn#{%imr$z+&LUl_uFW=h&TAD0A;hV8&6P3LC!*If>H$v
zX|N^zK&b|0dy+G(pezAphb3hxD7!2vHK24_Qrw{IwxlcrWv?Zr7L@&#lsZrjT2ksk
zIc!O30OhD9r4f{4mXsz?j$2ZiK{;VbX#wRSOG+y!=-rZk$m`{xc$3|^6xu*})RN)>
z1v|aTKX7XY<$cNS%xwiICoL%}K{;hfSp|w@Nm&g_pCx4tD5otcYe5;bq^tuaU`bgI
zO30G30hD1&%0^IROUfotB36`V?A^AOEr;Wd{{E4^(Xo@pAsL*e!6`T6EHR%;IQh#Q
z^*0~n2V-U^P9}@vWbTz<DUR|}@AqSB%%dYG4jw$@J9Nmm@9@zFj{7=xcI@r)?b)~M
z|9$ukk`aN?4;u&P^vmn@V`>Q}QU99}5l7s#qi?J)X2c`zps-XG%zs99$p1oyp@;bs
zvKktghRUU(i@6G8OjY@E4ZX1{<gciPxrrFC0u3v_uoew#!2Fz|q3hFFs>}RR+Lx?R
z!z!4sf^*9jnWUYX3ty$Te<x!*#pc5>;u+_9Wcr#0YxBe%{?J)`{A!+hBVQnItj1GM
zT>gK_)y3+yE+Rt>)g#tA`qi@WWxG6%WRrT7&8?2Ii+XW79bfNJ4?d}<jz^c84%S%E
zzkn7Q{#%SjFWPXG`^4HWZ2t7-JK2phYc|DPo9L?dCD$Bx+$-PA&YRBmOyW9t+~9ur
z(&5>Zl!9IMcT?%=c9*Sn`FQ6KT#a{g3Z`>fl$@3u_fO`un~)uLjOGhUrt{mB{I+*9
zv0;iyY-{^;OPA8pMS(Oj{|%Gb8%(|o{!Jdfn*Oc4%C~K6^0RP|;cDyit+T0kf3vD)
zx~hG$3Y)92VOgoT{OXqHx6Edc&1oyCxO(vUgR_}r%d){=#q$-j*<{0%yXtD_`Os_*
z*>Y{wZjDbK+4F5Rb<<1NPA*+LTR`?gTVv~V!>-AOU9&}GFSgY+P1kOntlc_WLiSQy
zQ5nanjBMp1qzbZC+Da?0KKA@$vsGlnCUMPlW!q$B+w2muFBQ}pvbk-QOQ$PZCo5WK
zmyx~J=B}TvSwC5`ezuP6^@i^TvNsy|CbBmh^cJ$W8uaC4Z!_o~vbWpno2ToxPu6Xp
zT|xGhw%W$&Wt%6LZJu34_SLp!4b$$8lkSbPYskLVpsyqQdLy4UkbR?p-$eG!wxzYx
zOIA-VSv|Xj>|2d|+eY^7wk6A^t5;4|ubjP)>}VQ##_zO~3!1f_VIAxOA)-gBi(MdF
z^y1jVE>O2?Xqm3xF<HN3b|1Sy#m=*8y6xy>+tJwr>;m;WJ#!DS3sm!TUq{#lx`}$|
z_p=L>#q})fW*6wz>6POFc7b}Go{9(A1)Ai|ZPQJ=C!2Q9KFls&6Xp?idDM<mGFP8?
z{)ySg*bbF;ov)8wPMZAmu*)e^8hY6U`h9xt_}Rs_CNoPOfS5>_%u-Lxli6qRaurJt
z_;`pdXs3^dU^qe4q#y3+#WaByGNN{?TPe;$7G0(Zh=t!Mf3Dn`CZ*DS3eglA&0k*a
zpig=@)K7Xq%Q62re^!wc;5xJ~?5N5u<f46>r^OLp&fnuu<(^QyX;-au*3&Py8@}Yf
zq~3yb{^J?Gz5#zg3PUTFWGPePsb~Bb62G=lj*rm|pwotis~#Km)MA}UxXuT97x@vU
z>A*$X-#CxHSyYBy;X6gE#ye*63S*^>)1~c7Y5Qbe`<un()5WWm;?=j-;BXeUj!0m(
zEBWoQ6}y!Dj@LRS^Y{KV%~rg6Zdqo5JC`M{TSQqRpW%@Flk8`jk;V)u;o~&G(!ea~
zC#5iUI6~_<`~wb)9?3r`RV)O^G*PlZ4C)J1hTm7TSMxFm7QQU~OAe|Rpivr=e)IXD
z`Xr@k{&JE$!79SX;zgdIf|o@;z%^eWj3-<z7FHr90s*>sH9f^LhMXd$hj33gP!{<G
zSBohST+2<Yv{$%VENk4%c*Us#F!*;Kj=N4lZ4g?!td|qdGOBPqFEZrA8Db~`;Om6A
zgF*g2HHusV;iIpcrb79l#hG+xMm$}@HvoJ6R(EH#<f=D;@QCjBMPrlSptm0(X7VJx
z)zX`B2gldQ+D!!G4vs&A)jYl_)W$D-d|MmdEHSmfx#a((wl@pb7i}{%f~i)rtFPrw
zX1CAO@Q|XK#~oElcGX05GJE;mywWR?>9Tc7*}B+<y?65V>1}elc$ZSVYpS@D+vT17
zc8oMS>|OTp&S_Vx;%bd8->$gsdsF?Q4KNr9ncQPLjw-JE;f0)A6j#d~*YdaWaGtDs
zy1ZE_Z=R`Gf=*wlXq|z;Z|qbWJMUJnzO{B5Cvw(w-l^_-Zr$r^b<zw*D%C5M>XkF-
zI+v_gmaLwEz{l3Zvd!-nWTMBkWoq(1UW9oD)@>68gz-|%Q9r1z=47wFB8lvxX3qlU
zDZI=lP%hdp&}VjlNd66)d1*viyOvU3G_6}2!bPI1<SjYT`ZcPtqld1-*$0JOuB^B%
zgw)VwKU5b&cz1UXL)kI_mF}~CwVQCOT1mJ@Bn+MPp-`4v`<*oDU}*iv$@VOre4K76
z=^F|4(#1J$Ro4xnS^1*-KGYiL?$Q0v7m;@N@zZ{5Hoed#*Y49e<<}WuYEIfs(6^`b
z?e9Kv7+U6}5rqjgzE$WxJJ6GKBM>z2(OmIy$-o8nq_dI+I5l+J2`#omd)+TS%B*7!
zznmifHMPFGWbh0vRaLpaf%21EVTevrhb4BB6<X_?o4=#=bKB@#R2k}Act66qXv2uv
zl|P+bt7O;4vRh}0%IMT^j(R9S-L8AHY4c3$4(#G$CXtE_9c-ZGFH`ciTw6O`w^_ko
z-j<ki3wM<9oRKg--biIl+OBaYU8sWlX2J;-z5oGph5s)onV6UMt$GDh|DpGf#wLyN
zEhuA6#;W%cJ?BmPE68*DjipBP-U`jZVqr}n!w*C##{9EJ!quXWf@`txXFTD$=spKu
z$kNjMDDo?DdEck^^>B9y{@_lEJ4rv0hqO6mmC^*x4(qg-!y8<Z6acJIhsZA;(^`CF
z4noNx$^oMRtsHEY3;ZI+@<&ZL>cx_N0%y8ivoQ$*tBHzHS@O?BrKXqkGf~@;NU-)f
z@J+IfrrRM`&Bb8crll3zM-JpQ4Vn12fWNdPfBN_XrMz13FrF7v_S>Gq7c9ooBG`0N
ze<*K@Z2-YHoDcdIfi<2YSI6iZC^WQ7`oYy=(SH;pEGdJ=vf<kO>K2iOU)(23TSONA
zLCN}Dnh5(Tdt|2wRvN*U6KxXh5-!FQ3)Zwr)M>bgH&AGkXt%H%Pf%!+Xs_WS-aw&E
zA`*>BKTs&QXdx}>2MTQx9ZqtF6_mng8cf;{T5CzC4WXl!6xt9vW=Ww9q2rbm+7Pnd
zR-g?b>um+v5VGDppbeo%EyJM=A?qyy+7LQv<p*2i>8P6-kzPR+B`x<#8B%&+HNHjT
z9PAfV<0)`fTLNPl(F{31nlX6Bz>7EGFNBT$u}o}8WumQ?;ma{gr~zW*KdTqt;K9Z}
zWb9a0G)r2Ft^5q$%FiMcRo(?!XiYTJkZ4F<b|jb_y1dksx{#n6&%wuyckw1-K9(I#
zk*V&;f?_=7474$~Kt4r-Ln{>dHo8XLJNsUi;QOpj)L*1pZp~ER&g+i)i&V!{ibuV{
zNy-?b_GpbqE4^Zu*ML5%v(aDR8r3cO%P2|*6bng0lrd`I7QXJ`BR5KZEaEqs0)Bb(
zQVr==jubaUb0Dv1>(7EyvLplQ1A2n=7i+&~5DS){w0UUZ3%qIb@K+Btk8?DaQ%faf
zQ4%Owl$3lQs8)4nO%(ooJ48YjXd|?tc~M}ECtNL3XWUO7as%;{ffsKViz6Qr@6o&{
zr$ed}tq}3jdkyQ@pSOo`Q=WC4r1TN{7;abR8hTNLVmvQWU2iq&x^)bt<yf5~WSfDM
z>c$GV@82Z2U9pGKt^Ggw4Qux?>SaDG{2Na>Gnx|4kg%ca)42m_B@OCuYd5!Ad8w(?
zE*ZSUo767G2pF??#_|*69;KLA)Ei#M%1FXm#u=rMf>KDRN8o8utF^i~Y>Kbd7>l;1
zFN)Y3Pq^N@mURMQl~YuHD~<94%1S=2;uM!gJ}N>Sye!^~r?i?;sZ<9-^RzfF+h+_v
z;_YJio*~yoo)btB*RjF{a%xSqP_!15K;c+X=+Hc2sM5a(IYHa*7U}Ox5utMb^Sp?Q
z@kBZ2W32yza2foRcr%`e0p*HC>c^<}nlO;!?McF0xQFsgAz9FIi@j~|GlGlpl$$ZK
zd(p6qw{SIDmBV*f*cZszbw-;(IG-23jOUXyZnAKP>oo%<-h4;I8|YsY@5Yn4S-8)`
z?U?Wh`mc$1<H_7C+~?t@k3T{G4TFn#V{R7i^Kd&M{6#(~-gwMUM>i~bcZ{g%=!V6Z
z02Dg9VIiA9p`#lY1%KnI$|5NPh|SS_m|LO+Ft-A2QKLcG2Fh0r|Kbgl?Vwo5Fi@y3
zwU9)h?1&b@+!-x~xeF+Zb_PlZC>C-G6p~=KL>!DKC|#g@&2SNKpzH?a>%wk4LD>V!
zHw+i?2FhMgZVS8d1Z5v6ziYUNH&FJ2@-1OEo}e56<(lCl-at7B%D08xc!EN5>NUef
zyn%8Uls^=9;|a<UP`+!ph&ND<MybT_k7mO>2GsWi&3J;+4a)0=i+BU&I4FN6?8Xz6
z2SC|wxQI7UPJr?k!frf4c@UKE8!qAvl!rix3A^$91RXY}IpUPzCf=fsXvxiog_P&7
zTHFyd<2hCqErld49kirHrUjB)q8Ac!Mz|PH#P1QrA#S*cH&7l0<*u+BPf#8Mx4$)9
z#2YB@i<ZIk!RKn>YCJ(X3Cf#>i+BU22R#2?*o`MBr$Bkja1n2y^n%+z3A^zGMFQnV
zhKqOu#Sh9)gxz?8(g(`F7%t)slzveDRoIOuD5pW8J(Hv#C<CCpo#YHFC=iK*?^;n%
zBg(CFAxtX+|2Ef;oE>>jxJqY4|HZxeFNC}Cl%o;4xR!t5_g~`Oct$b58#Ju?n|0`n
zPSHX73%fgXtNz07>AF>aVRxr))n8;BLPdNmC|IYW8BWf8bnF?X-weE>9rPyKSVgqr
z$qi^R>!RgW^&PGjbv;^&@U!#?=`T_pbx|}EqxoJ!DFjWW;DB$J?n!@<LOi0(l|p>f
z{lkKQ8Nf%3cla$3HsdKqY-3p60iw{Lh&L_QEGX=wSm2DOPoF_BqST;>H;tzSWnP{i
z6MpAIjA1l|6qE~`@q7{|BdjUWD&J*+V@##68Bfi(1qHsJ5jgg}RM?EC=G%e--&X{V
zeb)+`@zi`<P~iJ{fxBXlG>LcS)GTbqligblyLe;wHeoZKH;2UBd#oD#R|pF7aiw@S
zp3G&nVHa<r?vAM~Z>?}Qo=@Iq8b#~%#-K~Xf(K?NOAz{cgC^ddG)t|=1)ii9@D^c4
zm-s#_{4&OhXX~OulaoTT;4~++jUsI0`J@_}6~&yka8hU%c!c(%;EQt8SMxCjNRO68
z%cH5$ifCz6ZS59qH(DK4%WA9OVmvvow*P;%eF<<|>3!b=0gwOz5+DKI1PGEKK>#EO
zp5i6mq(q5_BvM-KWtbu;iMtY|eIT_fSlVTsG~vdXF%>s8WXD}@n~u2?Ps?pPQ%$DL
ztdln0NqXQt$axSfWx12hI8NLII=1ULy?+1i;UWdC?Y7}+|M>3v`+wj2{#V+cbg}T^
zq%Zx;!bj8or0Y9tzhjWyH?23UDe<U$2t{2BuH+}l#bb=4l95c$K--y2T+W~u&(1AO
z^x2>jJ{?O;)GJVve;N9jSHM*PMd&cbvA6<-=S1n{`7699RlZZf-vcEEQdM-a%hp#I
zckd&3V`WUK+S9bs;Ds?+E21r-s+8(ny|QKttY0NX!5|w$ORa6>)C{AOpO|}Y;#9M3
zzN6QBmIa)enjdR9V;ehhI?xZIaRAI8jIt~nk2uo?viTC!j{7~6!Sg40(!FXUmTs2j
z@24V};VY<FyXqq?!iR%a+hu4qw?WCgf92XrfCkcb?m9FQ%kjLAhN~7scfhm&|C<Pl
z6|Dq(kV;!#B{IJ6JiolmtPI2o6AHn7vi*l&-0DC~15RY$H7JA*DqSvDu;nyU^$w-H
zWcy=n<uZ}hui2UiP%7{!_!pNjA<jNqLm=2ktlz#A=Y_1Q(s$`xa{d;tGFu|lS(t4}
zQmUB^l;E*v<t0{#{c%Y}%2YDg3utAWyRvqXMw4t8c=)f;z-<8p`($;}wn1APHR8%D
zxChd!=yllnI8b(CX&i=y5FHc<U-Bm=%#wA&Y;y63gZZSU+DFD<4hJh!Nr?_GYtv7r
z8=hJ{k3E7FyuVA#j7$U8HE}Sc%Cb=iR(i6-HmH|=K1)U<N#{u}EbOcED_{VGi5%Ic
zOL}6G<t3&@*0)Or9cavEgH!vfpcU(5wqjBpYa>GlvoLue8wA*&p7jNT4f8h(!NC5w
zr<TO>rIib8^)t%?`x9qWeAw33Y+HoF@c`y*=^`<w>`$A~B~Q@%i;i+|e1B;fHK&Gi
zd5vl%!w&n?rn=;bDX~#vDrkgW4R**o=i(LY@~IQp9K^Ij%B^LV9V)_>+$gZA;peeb
zf*t!yPOL>*<MPTSn-tiJ82igtn{5}c?y>0(%|oyMRYG1Vdj!~B305NDXfXQF8e)+F
zXotrRAl6ZjY!XRLTSY@aOMqFk(UD6*058TIuOy%Xh?VVcpRCN?w{n#)pd@&9OxVOJ
zB3Cg169F@U5(1?J_M5|zEwnJ>EM%r7W<U>p31s5~o`DY1q%v_?F{f<L=^~XxhFmgi
zH&v3iiol-&#B{R#2_GqU&afjwZxhUVNZM*h%mjp*p_`Pk*2anvn2>ex$vWkE{+m=f
zc#xkmM*^Pc43i_lW8=%`7a@j2Lk<4Jwd+hdF1F(mv!c=zaN^kHmvO))_@HQt7O{(0
zvBxd}(NZ=xPnVo|vSAhQd?zfa94FU)J1fCCoZSI%RKXg_DzPdtybXoDJ}52rCA25|
z<TXI+2mMJVq6C>|u$+j$i%P%~1)gkZv?TyuY>xjefZ!QY0*uL6yn2ygN33n&=u8c&
z;6{QG4o^y1urHxwIGG$hzr4P-4%M>Pf!xRz6j<AWFF!N=|Ci#IXgIQ0@vIJfUXHAN
za2k?odgURAB^2Z)e1_zfPw?hts;f;TDUdl&lL=%6xpExiSWD>oO@xq5nAibbxrr!d
zIOc#cnQJtM?_&cv|0$2JaqMW^uzdXT1sIC~!#SqWw|*6ye3>VHBc48H`3_14gL}je
zEAOQl3T79&<K&{J8QEYS-Rfkvx<96NmHVI<d+Al*d5G;m39~PC@WzV3n7f8e#r6o}
zHIL<Dw}BNmW+skKI1q{}*%}!Bkd+@p$+0|k(>pO1Q?t8XOo<y{Oij1FGfb+A|5fVV
z0)aXL$0$?b#q;26e*<O84EDuT{(*ZELxQ=Kg+4*E-n)KE5uZ?!69noBI0*0rZW16~
z-mIpaj#AzqA~t5C%9F?q4Pq>Ngs13g#jsr-n3jp7kv~F>R}qV5tcnfEI<5_?Yrccn
z5Tw-v+GhBdA!~-uIf@{(En{{<>M<o2G@nml-y`rLg;g-Ivr{9_`^HcBPK=Bl_suVy
zg1NmT&+~dpbb?yXP6PS^=6^(C4Bu~%>u)Hmnp|ZBEC4Z`eEnpbowrg*0T~DLCGCgt
zH56uqT@_%awD~XjwD~#CjtZ*DMj&-;96S{AC^mf_d_>-p1f0~~ACrq-pJmHZ>_lMJ
zqy8I3{51g*CiyuKy=>a*i&WGR%27|QDRMD%odr|JN}qvniM}DTp~omcL~3M{Ps~Ci
z4|y7ne-R*NOlX4lCCxALkgVZirO9AeT=b<aF7hu^q$L%ZGP3By(SvhwZ3PN38ma07
znEuZw>=ObPsOtYgE_#a0uvwJ_xj1WNQIkE&^D%+P1pbD=pA(1^_)7vm1i->rq^nAB
z+0RzL;#K~yD7b1RaZUE^zj4sjGM1mdm&eR$H$Hk`gmKm9hZ1mhTlJ;m()Svu{J@or
z?ksF^vxWSSn!^lmu_f||yiW*xN^Q{wt|V{=|KBN)h9j0MW0L?eUD`hXkM|=@%$(pK
zUY50p$k~H6PqPm1OVEzz%E0#uiEH?YnbSg>k5|xm?`qmVDYt)T{NI$`?VXZ(PYb=L
zBh6>-mOr;y0Kr3}ZCmy2{CD&38r+{4TcefMcU-q!QES~htG8FdQ~%D(w_j$=_5(uW
zK(yH_HIE6+V^4IsMa2)n*gvY+T=?}DLgwGH?wId7ham|FF8;Dsp{zAh)&|AoCACtC
zLnv`<s(w8`TG1d?v<eli@D%Q8^s;ie?Mrtx9i#vYEX`IyV-4NhK}bJDB=yxY*YjPS
z{jRfDa?V1<cEow&zP?P-*9iI==CBBQ3mjjadwVYBk89PZNx7EVMXb;Trmr4<`#6bc
zw#pKk`JCHJ5|j>-t~?m!YLz804JOIp5)7`e0s6MO0rwi5n}zocme3{1+ACOl?;83b
zQE7EamI1*s5U~ty&O&a|XqF75U}dLMa!(8RXCOsjqTytmgVwodA(N=^3T57KX<M9A
zw3jofhhCw)H(b_tr#7xs6dZm`3hKg!lhEN*UjK+QmFGj<B$I?w!o3ICK3POj4Ic(B
zCF_?*eoazpPD{Rg4zd*GZV}qxb>!D`HEzi|AX*3F1>`SGOZXY!e`w^YUGXA{DNdJb
zBELB;eOE&M(zJ+Z8Trf8a&{HuuS}O*MgHov44{Sl)^zzb<hP|oBWuZDmzGAXC%-+N
zz5)JCJ%l-{YBmk`b(Xujn#UThplr`tD_Oe)Ygfd2NV1Lz*0IgGk9&`X=A`Nlp}OO4
zb=QaIHfN%SiqOlL*uBP%-D6_o5Hz&46yIwc+Ai7}*;>DKG~74@#W*d+TLn-DZggTD
z$_pr5e&j>TUHx+yQ@P&CySnNh=u0u;HFfV?ynRu!jtbV%h;<ybnyQHRen_kzij#`B
zsQxIbp-COWgq2iCX0K@W?k-4O^J3S0BFWiAk_9B8W#kkL&YcC((6+nqZ(n@>#Sccr
zu89MsO(3bGDGZg#I>T4{-|i0;eTAfMB%=fR{UH}D6}Je*Ef1B7BF`TA+(NPYp*p9i
znPhUxuo_6H&Mg?-JATP?M8H4e5sIosxi;6%!oPg+y%&X=p0K_;YJ%kRw{`F81e1H`
zHPPfnOA4S%4m#6AFNK|xAFO@vOW*y{2baV13t{7F^rWCLj6_TTdGOZY_V~Atzk6IX
zwI;GvhZf%X!tF1FtDD2k+4HtyT#HJ+UU;i8T-zoXp*FSwEq6DD^^U~&Gzx~sog&fT
z+F6rYXT;W-sB2<Nb=T;)Z!G<~?v^fUJ`*J&LbqUc!}0amTeF|$sfvm*ff$P-k5J?Z
z7j=K)?TDJ~;idt>JaA_b4R0%^LRwILQff)mpQQ1b5IhqfE`&WNF+$q9hZ;`b0AUQt
z<PuD-u&Emx9Ma!8ilRf<ztsC~6oL9pUcuzuof1rkQz<GEDM)u(lQXQh?-4@!6Ma*Z
zM8;i0fh%0l9d)=R$GG4ar+C6f&7z_C{j+<m9n`*N7UUKU?y&dhha;kQ<`eW9qXj%y
z(gr-o`q|PJHaerNorxR{!b+opdsH-x?j=Gon6wC51Y?V6oDR25)BG3R)z`C8{_2<B
z{!-}Vuf3HT(#h;Ys%L1wLoDl%C)ju<u>?BM#nfUxEgIVI)AA%a&fP}Q*n`++RNaKi
zaI~<th2g{4LgJ-C&^3g0Em7(`+YBs!rR|$dTY0GlO?`Oii82Sh&E=e4!Pu}@Rwb3S
z31!$dVp%VSyr?*8o?@-`2xiE|D+h|9^scBljM#j(7wv-CE}Cb*Qz$h-<L@kvwW3Be
zfn=Wt1^ZxFUz@R0!bTECrKRBz^^Q-9YNVoWp{Sd*snsAEwYy5xRc%j8_HofZ9&PQ|
zoW84XP8>Di@{@P<r_k1P|JtHmy;9el&^1TWbJc>r`mVm6iRak_oh__uj=EbV_psm|
zPRBQ~cv&LI6NMmm%ec@oo{o31czOKVqTWu)dra^iOUJi-QrYx~vsdLuQ-_HXzC9*6
zN7C+U_|VFfKzJVcHL_nI0sQ_uwLgh#5&AHna||ouI&$i{#=&?2B`sv<PLo*P6gQCH
znD!Tuzc{Iwz(hWCQu#m$d=E>xhQ4?ixym_vU%Y}+RHm_i75S^vr;COB*0dCQ4f$<p
zLHb(q*CkKIdh*%R(&r82Z{(aUQqxhf>1f<R{wA)iOY)u-y=UW2^1ITlcay(4?QbE!
zhr?cN92XnM<E`ZPGHnjWMCY-18~NMQ@g3yvOt-cR{)gS1r8$0xTs`FKr8Ir%GWy9s
zknF)>@(rdH4-AoiSdmUXqM(q`jF2%FGOkF^=L8FZqJWfO{t*g+-cYCkARPt$f~7xd
zYmU~pLrtW006WGCHIbE=Sjy2YSaB<=is~$3oike3Db*bn>W+r>HJ?<u9&yFh`O$Ja
z)EJ9UW2}U4FSW|l@L^r0v^wOGU&B>7q{>dQvNNuQA1kW1Gp?f;eR`k@$X}Sggc!(g
z<Z4?a+puUGju(-?n6ouYHG^W!VBAE0Gef{m(d3MmkiRsozMzc!<>~S&$X}VBs4DVT
zr$^O7ersB3LJj#dFD>M+OE0^6_(^kf6KAZJ46UM}b$49qoDw^y?iW|nG2y@=U@DZ)
zggS;JYeYlMlQJC4xP41juVD4kZQSz>50hx^7HYer(6wM65bXo(Mm{Vy4#V!kJ44?X
zVsi8i5mUpCU2+YGu7NwRiLPNFDw-{C#OmEEsrb~Cj{}O7am1@&4h4-ZC=cuFqsF?h
z(GxY=B;z5$cxaCtbQ(lW4U%a<G@&TLG)#AhQ3aIo7Zu`4ZL&}gIx~6z%vUby?4r)T
z1A*f1XvaucKSDR@gu;~4N~yF(ENzLDw!#{bjQ?yAoh>>zDh<wygY$%(T%z7}SKrU1
zkR1`7gI#5sMI*bekO(o0A5Ea`cG29vsb!eXA?h4qT?fN-)1r5JbLy_Xg~fP9oj0r-
zh+=~~XGP~M#Wb>*ZZtEj8)bF$i^hJ!>ZQQciN+lkb%(>cDHc5{8b=e+9iIXVcChat
z(w!m88UtgpnIZiePx4eYOnmjHh1f^$y!?%q*_kW4M<bRo(!@$~*EW$M_6+4NRmm?C
zW1VE^6%D;%!^Hhk8%DWgLV;l}D`qDdwo2ci)H^Ho&W82YyZY{Zy*JeU9C=TRy{9ws
zx<s8TjQOIx1EOIdY&e>z_h@Fl`RtO=DjHj99BS_Bdod2h)%c>Lf7R}&r6pSFh?dt!
zYuX4h!ENBfXl)mTU==d0EwYR@)Ssk7XsMH8nI|>I;{45A;AUAD>CJrH!2`rf^q+?E
zU++_~H-UYcNb#*J3#pz5gU++0veytN|GkoQWc)JSkNOPBYXt;4@x4xeOay`IKk%0p
zXw9aufJzL2T%V1lC?jY7fkNSZsx8U`ZOOuB^bcO%r?MeSinQL!B(otg`eb8Sdd2i~
zoBV2jN+9%R&T8p1a%N##AjK&DT*d^YTPsVJ?9WS%E@NQJ!WiV&Ft)E_YbhaF)LEU(
zpZ@i0{rM?&808IRfb`pCNw=0_^T`(L*ZKAS0*Htzc!R(2rYgM>Zm2Rx|GG;4&uIv@
zp4!K|K*Um#AWytmCn?vdr)v-YEvzS~ZqX-SwaF}YuyX9m>XQ6IYdaxZpR_U7f=icX
zW4W-3dGU%LkLdj3`GmTH;BStTM<(&uGUzWvnz=%Dai6N%c6~W*U>*-hGPy@K#t!l~
zNIzMNkt+u|b{%w65Fw#-Z1Hll4dzrKIo@o8?Qvq_Ae!RZRS%;8$8?GA27FhqPO^tO
zMpBOzrKzloP$GaT!9cNc6*OE>g3)beDiEgNZS)iei;K2XpjP7P5t9Aq)`@K+sl0|&
zM|7@)iazRYW?Zr!+oeQ3P9qO}L3lL8iUD1L@tgS8S5wpCV~i)TDUCGjiPuFg_NGVN
zXMB{ve<5H20*RSsudGeM{P*%@JgG1HCx~lBricC><@?{1kY2mNxUxwB?ER8*@-+nh
zGolXY0OtP|>4KRGbDl-~;PQ}}8oI%;gRx1_HGSup)I29N&xtxbdfCJ6v)|Xx;cQ6i
z)A){0YB>$FR-*ni`*>;*3@!H!R>{yK7<wKl6~<nA)o4iMlMmy>#{~3ngzQpfn@|aZ
zP<IVIOc#e&sPIY^okB(D?%6wQk&5wKxqGCeLk>SAR2<sM-7}PgETW<DeyNi_K?fcy
zRdi_4cc}bT)F|lab6w}UUs)Tak3jmW-#z?61HKfi3OA2G#9KiPy_&%8&iH+!RWkMq
z#{Q_W1c{@@dc5h)C<^hWXD^Hw=9JXn94aco3t5qK*Z(Ity~_}>)erkMdbg|*D24bj
z_^G2J2jhsNA}a?hGy(y6^Cmx(K_f+GeiT7}dgvs8z9;4RoOvokC5L80S;9MeT(;wa
z<o*5JIus%kX#t$U+RV~qcak5}uOxJel%Slf>5}PCR~EGISNU^N=uv$`jUK7fZFj0?
zV|iDv!1V0ug@u?3YOdE}TB4^dVv7?2nFt;%L}pgtNhe=SpUA<8dNK8-E1*d8wEkmS
z(9Gl)YG<yj51Tds$o~m~UBaR*NC;ptxpWD%heQMm0FhPZrsA70<}nK+NYh4Jyp+t5
zCIzw^f&73jKa{%}u}kLvN+sW4Zjx{q2zF<@pZ@~+T4)RYYm7LQapbd$ZoQzZ-@cB!
zC2l&nLu2o`x+Uk3;2a7!42AV|_;N79(%N9y07Djo@e0mtlT0mwsU>V8O@e@X_~xnV
z5~{kSs!^e8baQ&oSiL=t$B#!`PSFtsOcP4xM#0<|F*of@LJbzQz9aY(b5&?ss%{sc
z5a;*@=7@O`4-W+{Y%#~Uf-dt7qo{q)(3q;5Z3f<qk<EU2I-#T;k<xdD4Wi}J$6&TK
zn_Q33&q4c&{bl3ePNsV$wN{g<(>kZH{*`{^8YmX>ALF-v3A?b@uX>A)<t`|SHzs4#
zzkW5si_`w3%b&ZF1Dy!j^W;4vPag8*u68~nSMD=%X+EbW$a`jOotA3K7_}@Hr{t*d
zfsAyTWdG8?$#f)N@6Tr!t*U4AK=X{&P`}lyL&&fD-2BfPH$BT=gZu?7f8{gk*FU3v
z8Vz+uFSGETCws{cKcnoz8ww^ZoqfDDaxB&JjQrZq&2LEM&%L3(kxO{Lo?A=dTRY<>
z@+)pCp9f#_ub+RNdjqc56;7kfz{xLQzJ4?b0NVg<UhfJw%yBE64S^gEj};E{`XhX3
zfY5%Xdjg<qVud3d2-k@f4(t9$8_4X`$IMKlAF%U<We<bCODpI2(}+y)We_$?@?2aY
z%z1hF@)iDi%#aa5H&5P4<!dM2SX#bHyk7hq%7|%61M%4O$ozb)Xzs+s?8uaF<iwP3
ze&W=biBpW#V(scW|95C9RG;0US_z@B`eR83lthI|&JU_AW=$gc?3_h0^TBws%^uT&
zk>je53JB1`Pm)Vze9!nX7=uz8t!HXIqyFxXK0?_00ouO7eG1J<-SKL*)_T9XS*jiv
zs>dVMlbbX5D_v4$pHSHssT`0hM}^AKNagtEal9|-D?+2cU2%IB_m-V&u&dO16z>B?
z7RlHs7#nxgQ9SO*uh}ZREPD#WdKXTJRJ>|`yuDD++wh3>toWz$E7SRvDBq6qZFqjk
zAdE75VLd{5Po%tWb862}9-0shwR?1WxCFCnXPg}*OpoF?N@y>}%R5f1;;PWHSX7@i
z-Pq@)8%vibr^DOP{ubdJON@?cCnz-arn{ip4GP|oY~!Tdc|~aINvBlqz9M*slRd_W
zlG?|yumLY9V?TNFx`H!S;F#1}_o^*lnTf06`e}fek2bp}OSwNR)lD`i|In@g+^5wl
zbqoA4HXnO1z@j+#2a_U+(3h~pVTuI$fU?~MH|oH*&(Rly{I`ZO<-b?3-VXlxachL8
zLnY*tQXkX`ZnYg)DGP4*s~J8eCHQE=!9Qq7Q3gsf>dSJz`ZLT#pp+EGN|%N9qi4R<
z14l-A+1j6XL-l{v{wy`4{i>hYeob-~*fUJ(evocIdX?o~KxYBdiIn9r<3>tb6PsCR
zx<MIPPGD%c$*KYDrZ#)}jfNY!uaLr;1AjLZYbgn(Y>yAg2N}#l>NzNT&8Q*oXV#E<
z=twssqlVNPxuMzk4b+llT?HD}YLj`fF6)x+^l$e5XVjAF$67-&SN0xdFQ1*{S?45c
z9iPABo-tcD6uchaOpVF*rGK$E70GWVtUB!m$)09eAM!We&+K8=yczvS&B)K#dHK&6
z!Jo4q*P)iusSDcY!H+(kU@{)zFRarC7IZt}9R~s~@@J7}HfRCkdE#p=B}{V;Z!&Vm
zm}X*C7LJK&$CGk0yd7&P_-jm6Bx8iO`L94nBuQCZIS&SAsHjW}Q5-DXgQ^qaHekjI
z*e)-w%3Qve@e)Lzqstlk8Ht~MiC+v{q~{>K1o_vONHAmxZ!uu|wBZ2>svrZNU^O}+
ze*vcCbkcnYzWsBybbkqdFAY7Mm=Jo-%6>zlE+>RK&?$EF1LHK~1N8(uvSg<V)aPY#
znt2cAOXhn06`Wo%wSW2C`URQC@p}l6d12{R$}>LKaZ3J&*d{XbBYPC1C$pG!d}4Cs
z^z?#nX5_4I_VkQzbYuahE5>~bbH^uU=VRuB@$(ZW=Xnhk_a7*~^76`RObtEJ>&wpk
z3^qXac;=>L%>>v@bA()@0I{ko{K^Gi_R)$J?Te(b2oOq2-XLwVWdQ!C=v=Tm<1OGR
z_Tq2Qo$(Cn!xw)cdsiC}^aFQZis+9$%p*oFd}`w>Uw%5Hm#r|A=(-re%kc@g%BJ6*
zjv8C<S-WoK-|7F96m#MdQ&1u4?SkIEqZP@9I-bDXqS1ZN?4}$ED+1o65rH&=Kugp)
z#CXzD1$*vUJ5jLv*#)~qqwAj8m91b<;!3<iiI)`WP7C-~GQCMOSb99H7xeYp$0GXH
zL?>OaE{{$Ub$di;93e&{Qn%Y8RJXuZAbXBXb^fU2nigE>w&lLDMlucx#=*yGrMr-E
z+R?KKI3q~ma9C%L+B%^{U$EiECnxR{jGaha%Mx2CG01ry#$DqPO`cCYZS2}f3>=J;
zqg61sB7G}k)p0*Da&8bXF`l)8v6eV5h;0M)%VP}orgTH_VhDCFHa&Bx=zEUNtpdqd
zFB<Fb*g?Q!Rvh%8ZQJE02qsV1)ECzG0p7ROZ;wm%F2UZlyCxkv1uM!C8>p9{bf)HK
zBGs6EC4>72CF6y%fj!E=+}xz|$1#nMed_pp{BP5)(EEI^0R__64}$&#LA;&7Ul6!J
zDGWX^-UGcdS)Bk9{fMF>1pbo1UlI5*0TM=)O{sK}>#qrr0xFpcTOe1Qz(WFk1Q<vD
zV{$zqP)8uGmHIRC&J*|v0n$sr<H<C^2LGFcG8o@Gi6--ZN8m02+U-2ib7Y2K#u_|A
z-v33wL4duWlN>AmI)O6;7z$EQq4a8-7Aum`QZ9w%5zr9O5@4L_I&!6%br0~n7g6jp
zMU5CwI`QbrLPv~oe2Bbh)^NtVo=@nAc-MIyxrk?-CuQ@DQ(a~?uca^#<*g$Z698x@
zubsRN1R4oQ6y_jT6M_FoUWRQMS%MKL7;VB$v3Miq_!a^l0wmhZx01_Cpp8H~fer$l
z1iC0m7rFigxlR%2CNE=!r&}7|OI}9s=p$D@fdK+^cb9G643c+<z%T(4Vdh83HA-NB
zykq2|TQCnk6ONxC0RECpKKG;Kog#3Iz;Oc81ZDtY>a{D7;E?5%<|y<80mfl{id^#q
zn6Soaaxnp_W~%Qw^18{zc;KHWZ;Jh$F}pLSc9|f=NIZ1;JIKF&n8KL27GvcfCa)hw
z#d2lc+3XFRZ=&GyR0FYf^A`!M5O{?^Eycb{E*rTnk&CY7{AF^j61YO(DuLGs@B{(`
z+9=%`xz-6V$s2s=a{L<vt`i6nI7#WgM6MeIZW4Htz*_{o6uUvLUjvBg1B4}(WRe~~
zOOd}z;W}p8G7-Fp;Fxxno?EUiLWlkDQ}#b5AQFfXa8cHe$i?2ADrv3%EqVV5MX(zM
zyC?jV!rrH_6#{+&KTLub5gE8vz;XYO`&eb)E2@@?>V%@Yjfu^Uh^j8??U%eWf_EmY
zD%lFaRAv3`=Wo5WV;0I<BC45awL_|I6RO)brZxjx3vUM_s<votvsBwJ)b?-8ZjFWP
zw~j?r{n4sMsj5Y&YT20FoQ|kkqLwDf;uS33jU$^cM^xUZ)hSs$g4MGzzUkUp6Y{Gf
zDo@nrmTW_UZ78fN3z;LTAy)E;P&*P<m51yR)kxIdDxWH-Y9^u@WX1Fg)_!X28r4e)
zU}ybkSXCWbil~l8J-w1=PVmfyRj{zUt-Rg4y(Uz-BdWP*jT77u;G)}@-l`9&Zn+|=
z?r1}+)G#G9OodgJP#~h3Vgda^L;uF{Ez{PQFiccQg<Yy>7b@B}X0|Y7?clVK%AG>F
z6GPY+Q8`(&dxY8^v=W2S6D_Ng${a$O1D&nkQoW6u9IUUsf~}Xz2$^poUvJdeCplrb
z{Zv?G-tvb!Zmn$Fh0?}|>eL=t1a5;VU69+<VA`cg!IW599&<VBT#)QMhoYK_a20r7
zb3D0Wm33RW?SD6)#p3l$TPA5b1hDt3IdyGRqYD?3o$j5^UCn!gf~NP*xS$zEPIV{l
zAN6fg-4UVgNLW=F8jGloM9UgvMot<5n(c%BVw+U#5Q-g`X{2{VOX{VP7NMktRtU|!
z%_G^y1lt(RVSPk37H#U5nqcyKKCH5BBVhjN0Bf^k9TKcq2c;n;t%C+9bB6r4^J#qD
zt!#R?$8Wz9QMDfQHZ{{+cWj$)V^EvHa>Tl_ZNH7VXo=cUR8?q!ifMGyG-KJgqqVJ4
z?SxP}!E#1a6HyF9{ZXMF>!>m`PV1=7E7c7Pb;BETTl1mLTQ5XZ!)z!>h+yN`mWmd2
zW2e+OCp2QMVFGB0Il3grNx^Y4tg6|@;GNvlluDXDLDNU`*tBC#PG3#aPT`$`h;<T!
zTp3YKM#~$e@^+!T9e!+tc9xH1NGKnyRKs30<{ekUnwA42WpPWE!-C~7+r1Ih;b^T}
zs+G48#)P&|b)!tUqD8hutJm6;;3SksyE|IfEY%$r>QDx@49Z}&v-N}8Yq#rnRPVZy
z4Zwb@?-lBMF$CJsxL~xgb=)aAj|t9W@}9Hb?vJRB?P*MsrdiMs6Pel)wsvHe0DIXO
zdN$G%Pj7nKULK*`gF4iNCI|<03)S7&UK6xwY0pmz_DL!M0h3Xf=xv%3ny`yg>tO1s
zb<iQ%rv>|T0#Qsy8#<+iS)pMzvGr%8O^2kW1(>E!tkVTBOQlgoJ=^qNq1;PhH2HNc
zQeD4L*N+W7KuE$`pFm2W2D+#ge?;YCc(GNeYTY=xxwJL@He0`h_70)~Dy>_n>qa{N
z*8JPAggS-78g%xa&AH>=eKTU4M7=;`lhFpR)G#JAV1Hq=$U9^#+S(_z9uZoPY)prX
z8+KGeaWie@$_Ck5J(`Gl?O^M5R%m2h#x|I}*FPTBl!q&ufeZ$KMu3GwOWPeg=AEV8
zj-89|S%vyTVJjF7dXkf8^+=XM!7|7&79r%i_5>5EympS>YwKf0x>00%E;i3Xs6Mo|
zJ+@=oK6?Aja3wH>Cs|ngs6uKxEw-Ib)f~Eb+qz>HDm)R@>8K04z802~vE%DIr1~kb
zo=tEU(Da_B95Pm-yg#Z#FYa^-mR7k~7*q%D>=89RwD9cP^U2!W{gP`&bm5#U4H<B>
z?Jpy2Y1<tWEQjvc(Ys_82M|VC$P`+;jZF&SERSRz7OlgHc^;11yg+p#p}Nu#R_fSZ
zxkcW<mS{<hRN@p%oHAB)Ml0&2iZ-#LO+G@}qMjbfGbMV^BZm67m7$(nt2nAkF~?I;
zn@h3{iZ%>0I~WI90NFoFpB_C?cNh56MfWhaiE?ZC>#yE=l|I9;Cz}XYF+3pBQ7Yqs
zJ%-`L3=HS$N)AX>Xnwo%Hc;G5w8kUVjEXg*tm6^Y=)K0)-Td&tbCJfg3FLY9p2NFa
z89qE4am>lckxtoLKH$GSmxt|Y6n308E^V<Hu>nKQcEb!1m=+UvNYoHBKPG2^jWlFB
z`o<JdO>r2Xm&%+ztVBx&&a-raWF%IPClJ_plxj&e*~2PLd!wB_VU>N`zq9b}t8^Ck
zVGu!&+3kD}O&W}j0PnQzcHXhS4<t3Q=kAu=bD|p<9M=c=e3{$xcG85ZFevq*v$qRz
z@Rs8))Jd(cmNfmMhL~1qY3+2r`$BT9H1$i4InjZVaO`cXZo6naG*vi=MI6LPk7GQH
zEq-8$xgcOSB!Yhd7n--|=xZI6TBpU<X?dnY=WkaFU@uk)ChX|xJtr{jsOTI;>;Ntc
zCR`Rq8K!lK8ki#F)K#JJ?E#^>b=MArDUWV0*V4WFN_g~4r1?2?EL`r4sGf_K+NIJ~
zv9y&|4{b4aY_qj2AKQEF-7GP#4MKS<p<Pcq%|LRIwm+3%kM4YZqNOi!7WK)uH8Fi#
zW5~f2E@@-Pflf^o2C;to?7M}@VZ_y`v{@`|mYdZq-|xiq{cexl8O4k{Bb^2#q8$sp
zWGhGq9y<+0`84RmZn{_Byz^qXZ#q(sg@`jSG=2+cc;@4#wp~|v@MNS3_b=QgLu1>f
z(9v6O()G*YkSsl-1uF@=lU5OJ$RSoM8yylS>q0->I}14fXknNkRViv3XbK=}h_dY4
zZwYmWgz7^=S<jtLp=>DGLv`(*9cR%vq*Pe(p@mymsN;K8E~%<dtm>mZ6;bu=QNNCe
zc3jNZ_2tN(qg`@Lhz=}ZU>mG3JuP55Wu2nNNflRyt311A@U|qYs<0-|(Ib^vT?qM!
z+~Ro74UM`qY=OWKbM(wUVvfhkRAl@{5tmyO&&g9)ZI?^69b#?ABMu%)A_vEd=N0Pw
z?H3<&^!w-)BrT2?mm}!dV-7#@&I<JamP1^PUyM#|Ydnu!8ZIAw5wx|BwdC#NJnhj6
z>%+Y1Jay?_S^c(OD09Wt<U=MH++h)v%luf&LSHI$s|R*bFMi@LC|G;S)I)ovwQ)6m
zkt^S@xwf^i85FdYkMa<dXf#E(v*aff>T$)Mxh$?`u4I<!?M}h$*fE98&EVSGS=*id
zpi}5P@}Vi*IW4r#gbg!-cJ@&o%abTm&hO9pqC#C5wO|IAqZh`x$g!s_c%mkU{7FV%
zV@voy^_QeSKBfnPuXD@X3$VuaLe6RM1ihg2=e(d=RxjuJmGqInoR`BbYe2!ohaCO+
z)ywMhVDtTD)$hmwDO++cXqUCwXeS5q=dt{ntoe0X&R^iyF6;gI%WBl5KcDN@{c_6s
z$O{G6_0GbWVI**Ubt(On8+7a^ZY)ytMgGd_mGyw_8rU3?ww@+qCRvXWR25x-N{iRl
zmji2o;JaT;ioRzCXS0BO5xlYImX}wd(~9X>@G~w}+ZVHx`bDyL1?tA@V16U5Q#^Px
zu92dpRogYMr>))N_3X1BovjEYhEjw@zlVPjV@+=qsXuaqi;H_)4e%^Rcs)0d*8(Jf
zrQGM~^Zk$LYn-ymkK*9PU=$rv-IOsN_5<VV$(BlqH54$RDE3-TGLLSEiH0GYsF9g5
z`DxU+kN*sQxy?jiBaTcxH2(YGmjABHZRKA?I_R0&L_1j-0m_$r#wRjv@aJlvo*Gz)
ztgL}eE!(}Ds_$!T@{afl3Xd7sLSd>!e5CVeUt{x-lMQeml4hF2N-lel3l$(~Q{&j*
zD<DH3{JX&=x6Ms5Za`%o`1311UqT?wc$CdVlt1S?%HL7RMKYp!wi;CbFE!|~;h}Uj
zFKO}$Y^X)aE@WeOOZS-C!^|%ROHx+HvCLXh+pe6E0hetEyg<~jWP}GQh5i6_@c*8`
z?*Rl$(`MWE718+O_{51*6Jt<CGXAnnCQoK5aKWiMP$FNBVnKnLq$&tKvNtmRU0QRC
z<P`~=#pKExXPmsBAr=dh)(-y#MD1Iczl+dd^}(G3tzEvQODk-RmC%CRLP1c}P{?U5
zcQw{~2J3ygtTziK%{ylzC7qj-QB9$wsS+S)r?0<ns)D6d!PIu&TrZgq!6s_7$PHqG
zw)zPNlW*Vv)f$qC?dinj4yn9fDDMxO`=dp@&?6Anu`Ic;5{HTt8X|T}?`nFYhLX(!
zwk2krib<HQoTD!PHud%dxfm^ip$>t<P9iL(NoWPR&IXaE9U04ot{!Lv;uk1W>do=s
zs~{Us0{;{1H1I8yNUwrzd$xwew?@OBy5OGL0A_Nn6U^kfx$%63x_R6Gh{Mlg9Rle1
zgS~Bdad_rdN@|;+wmp@lWyelgT2fgc%?mGODc&2Nc&IE>mqv|^arWDLnEmc)YaZbo
zFQpoaALhU%qYBpOYBYKu{-sUF&_fd(gnwZH2AWO*bH1gzsh~$)`R_)`w%wN%PUURS
z^_0wp$Mzf@573PT`n;bAx$;?I3l__|{;pqH=ZOML>aw6Mvkq;+GNdMfo*KBYZyDAi
zlqcY&)kZJmBtlTO>4D;jisERobqg;#c-d2E*>{2FiH6fz@pzeE7gp7=4)5!x76q_w
z{subqEcU4+M!d<bQCjwwjZvNkD9H?QQvs%o=lo!g0^7R!x0E+=rGQB$jb97563iM|
zFj=x5T5&g3VEF-qCyYl`gFRnOR0y!yQhV872D5zX>T)BOm`#!x8SMP(8%pFigQ+W#
zA8gR664Ivg<b3m)aT%o?U=D4EF|CAJRT$ATCfk$#_2=JEW0~k~sJ@97WRt*3_7kb}
z-%2rc-N^fLj=$h$-kW)^D^g6Sg~8v0Obs|DF0O-(0=RY257r9ekXT#3ungs!msVa~
zwmI5fbu`-??K6POYfG~3)u~nJRAWL!kS1EW3{`TBEKfHU(s-E&W18lmkrQPlbiPi!
zu}D%efxdhj{#sb!wiYPQZ1#G+sj%aYL|A)gGOWGJ)BP$7ZtrUDPNWT1HNE6_Hx2c@
z<iW3V$l3JbtH&?TTsX3}@UnB|FR-3ghDQxxoBgA2^y6G8rbVx~98+B2+u;Pk!AO7`
zb}D0v<1xidOmT#GBv^-_bB<qTOetVTf#gEswsvl1l?;If*1@Ur2Dnz(5Cuy;I6wS0
z>@|ozL75`9A#tJvwaH7^&@9f2|BAZ!*8pPL^Xt%ty9h;-vD^#%mG!FunefSIdtanv
ziv-RQApTo0(b9zoB1FhsoETnNp&%RHSdrYW%%EJTfjYO$1G}=e##A&L{1Qrdnn{-b
zKGj5^hju=P{fdiEF;~FU-F#(cW8%KPkci;nibHowBKo0?iF<kay`s`6`}Z(UB@27&
zx#F@^kOfk$6*y)pYu>58UHwh#+l8CCTe(qPQ5Xt-bPk9MZ=Z*N!{+#XQ|Uii51ski
zO}rwNxg)0Lu)aB3U<#Kt2?b42lYRRP-Vip&<Ep%Ziu+}iq3*AJX?sB^b3#?clVVP9
z*j)b#eYyYSNfBqZKH}6!Rce(=y+Wy%<YC*QZHIO>;hx!OnPux@=-N9sZr}Lkn_;VG
zX9b*~CB3rX5!B#R#I>rTioc61QNm9HbjW|Vy<k+w{k~2+maF`IbIX`Q`3DL$+|F%z
zg8qz#?cZUvXhvc577{W6K0tx*P@rMy%B4%-Gy>anz_WO6i6;!l6ZYrnzQ^YhAY28}
z861Fec1!@rZxbMF63c~lNnCJvVoTw51Q?YSL^0^XBtZCrCsZM8(<>$yU9I_Fq9&-J
zdvEy-w(9s(SVA~}ulpCF4sMC3i!@&X01cRlFpq4{oiC-(BDrQC$;v?%5PjgwC<_ft
zOw0Jop*}MpD|xdqe@bVtC!tz2;E{Fz@z)utH>P9B<l{)zg~!PJ^c^B=1Z31tMo_m=
zSS^7%0`&y!1Q-pPQDhzDr86`kl1DB#0Y>I+fh$&&QK5&#hG5H{QZSAKFS*(Xv{TyR
z%(Myn+#M9LuMozv#&=S#E&`0Eeu!K>1Q@#nu|~v7GmA?r-IR&p^mQDo$V_qN9BheS
zTRgWy+B|upE+?4y6Nh(Fvm-x9)ew_GtRypk0DbeX!wNY+OmX|#Oj`Z|{0N21GeFm7
zq#UJ?LRJbsN!P&KcR9e1A&?&@@MWwZcFT>KSQ=<f^;}vEUiZo69icQwsR%2JUW4|u
z0F?oJFDLONW_pTJ9wTs^l3SjYTrPK-63$RUd4O1`2d20&1cBv5<#bPsm9v86c!(2_
zOc@B+;8T>P6f&b%m)D@K?bSr?6O_A#<-XSD39v)SgF%6*chXz81ZBBk5<E$%94r-^
zb!-LL$p+g2M&UXgYGAy<Rthr48pbLSllQ@a)Uub%u4BySQ7GR-*!(mVZ%j5KS+>l}
z!miT4LgW7&rGK5kJY_mdF1kwd&y(u{fr|vL5Qq|3Cvcs>w+XPz_b-#{Z36$8z`F$g
zIf3^G{3`-qCa{evV`_}`H81Jv_LDl~i~JuWDyF@}uQSQJW&UGI`sW0GNPyjP+2!&3
z<b9vO3IRVrOf!J~V_^>RUqiD|J{R~^AVORt6$;!S6~-TMx*u@GKj36X{sYeb5jPy+
zh97Ws54ft&a&(HE&$uLbT*)cQSaSVGT-yV#;Umub=Un*%ZsfC^5=!_qc+A3@a}_zC
zas&!FMdN2V8cGcCkicifoMKq<fb08+TX;alIv#NKA8|boxR#H&vCnc;ln&std`>Zq
zbOR4K&jZf=fb0KQX?&nM{y;VGK-KoAD(9Y|c;jfa(t>Z2XmQEL@u;bEWBOyQdFyOM
zYuz9MxLUtC_Dj<nifCyiBb+x1rA-@}O=pB_!q--4<ksukr9^?(ZuUkvsIJl~%0frC
zm$pyujBKA3s&N-b$ZpS_`8yLIwB0!>bWA*^ka&5nqB8Wxj%i1|^V*I^z&#zEt=zr%
zf%4A!2a6xtzkBh{TSE8TV+xHID;2KL7*s?kT%d5-cLKX(J8!(_5$yEhYsZT(BI5cS
z#o*Q((9fh8+`i6!cF)|I61pbwN~;)*=jSLU6repc-M&nb6N+7EPom!sh+2$aN-?Pb
z73%D53&l(-aN@GxJ5!Wm5-AE5z1#KM7vF7(b8zmC-!a`;x>NrC>|^rA>q-^5cxNwv
z_vJVT=ba|@^TFDOW8sqvA0GYgn~y0t-kziIgf3Fio}ErA*%Qw<C`u^^KRX@h+Tq9K
zjN288`W+KKXB73jXeEB2JVvb%@|w3hzTNZBdLnrsRy0FYMBN-MGJn1NH_Ah`x2m9>
zV^b~VHHvwS+iyhjyb!HaH}B=?fA!5TzZoudMe^Jbs#NH}_?c6(Q6VYJqQV?Hbyop(
z9Oo2@;!tIrqu(9X&it-@H*jZc_l@^G;g(^cY2*=$!DnMmt(-W1Oqs7}-8vTM@Uz{y
zqug28t=|poHof<Sa8tif56wD=fZ~}P-Df#ps8m293_&VE7ncJ@yWoD3)2b-ldgU>P
ZpF|{Falb;15dcXWKaY(~3i&(r{{UiPp2PqE

literal 0
HcmV?d00001

diff --git a/engine/__pycache__/async_llm_engine.cpython-312.pyc b/engine/__pycache__/async_llm_engine.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c64a3899ed09cc45267a4ed2ec78de4bab2af064
GIT binary patch
literal 251
zcmX@j%ge<81UW3-nMZ;2V-N=hn4pZ$B0$D;h7^Vr#vF!R#wbQchE&EVrb;GF=9eHP
znvAzN9E&USl6`!9{WO_xNtET}<m#0f>ZRtTXXd5qC4%JQfnr6>K-IVSU}{~#(kmH0
zgADoQtY4B_pkI(#pj(nyl%86mTTyCmX_0N7s-KgYq+d{3l98XM4>DOFVyr&g*m$Tt
u1(mlrY;yBcN^?@}ia3F0G6HciKalvq%*e?2m4ks%?}4CXBVQ3aPz(U15<~|8

literal 0
HcmV?d00001

diff --git a/engine/__pycache__/llm_engine.cpython-312.pyc b/engine/__pycache__/llm_engine.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2538094384736b684f181ba4dea079c02b881d3b
GIT binary patch
literal 244
zcmX@j%ge<81UW3-nOA`HV-N=hn4pZ$B0$D;h7^Vr#vF!R#waF6hE%2~#!4nl=9eHP
znvAzNeSCaf^U^c(QvEcUZ%LNr<mBp=8S15ih4g^DcnGtI8L0jicbFku{Yr+<ATxg1
z>X+me=oe%b=$0fFrKgtYR+O4sT4bB2>gQx8=@(R%WaQ`RgUr>3n52&|RIi}&7Kcr4
oeoARhs$CH$&@@IMF6IXkAD9^#8NYHcFxo%h5pU!yVh4%=0BKP`(EtDd

literal 0
HcmV?d00001

diff --git a/engine/__pycache__/protocol.cpython-312.pyc b/engine/__pycache__/protocol.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0a26002ea025ded024c9943f5793105ffea10ede
GIT binary patch
literal 7586
zcmb^$OKcn0@sV79MN$+=Nt9$sD@w9WOQLMapV+aBI<o6JwH3j3(u57NS#zJHjdr=r
z+of&k(lk|p1Ob|)JwySDLb=HZ3gp;hPrdYF*%x&IAu3v+&5gEPpzWzMZ<iD)*^29C
z1<lTznSC?!J~Q(k{}hWw2t1nbky=a=@>gus9>0rh4|xdrj3`9$XrzE|ujbLc1+VTa
z_&nJ5X@c%A`1L>`pa%;<P7}0{9xjAA?$;uEOQA)N7NWcz&|-SL5a)PMYt<8l1jj>K
zo1QErIUd$hdb*I-+Y9Zy9nm`U&O#^0TeOVcRp{b)RO{Az3OyW;X$SP)LNCYTTA$uu
z=;wH=Ch7x)0gflMtUg#6^bjwh2|Dy8_=Znm*h?-ErEQrgNlM<i;!qpmmp-ReIK(AW
zAepA#I`#0PC)fTBicIIcw(tB)Q+8awX<AG!S~|7n4JGHZ<LAxAQt=WkQ6^gkvqP6H
zz;0^P4qlbZWwkVy^T4;IMd+gCs-aMA$|%jMb9Ur4P17A5BqB4+(9711#WICfi&|1G
zNi*i=D8uFz<J$Ra^xX<IE$AjaV;CBA>{4E-Smlak$C{e>)#X>9(;_uZ13QViU(Lu&
z)=eP9ugiKF`>9i6*DK|+!7QrWkj(`UiGtlXj0IX!m$)Hq7fW+$iB1`e*39wP;kuS$
z<KTMT#`X*#pAkw59)%RVFh{<3LXCnB{-sMQ_`g*m0Q2It0~hEmwMeIPK|3T#C0VDE
zWJe@PH<XHocvO<!t;m|o5ooER+k#xN4BK~U=2hD_HS_9SvW;s0^WwOrm&eO$dCZd8
z9JR*oR8F0KVc`@V*VLQi<wcn5()cZyuW`x;V7$x>%P1OJzP!jX&;tiufS3mWER&5$
z>Vu(=b06kD8hLN3q4BdRHc%698ZGPupY0h~lRKmJD(ujLj|$YUc+Ucx1_1MMEC`su
zv5?|l3Ifls1b914BTA6A%zBm3vQQh>+Pe^?JN)ny_^}3l<O%$^%WsALTb{sAfOfz8
z7ln81HvuJ1+h`JPR9b0DNzk;?2LIe@*qiMxmZBXrO*?13IFK$aO*24CH__T@m(l_M
z&i6suO?wo-BQcv+I+p`=Uk}honAHB1<6uWp$<SVI!H(Xi>FBEKc#>tPx38`@sdO*<
z>w5cP48Th&(lq+QJr9Dcp!DpFSYd$AQx?YYKm&EKK6||l)FGgrQ2H7u!<^FJKsm@M
zVguz6rwlYu4s%Mjfs*5t!3N3^pqx~Oz<bB$;Req}fOkqcNJkydYIDGSJJcXI26E0C
zJlxQ89;i6($PtuW17|!;loymEpmW648&F1<{e`2>>?x;}F<3Eqdd$^0PA8P3w8Lr5
zhLmF<I|=<x(BsO4yB564<g!pWvFOj8v7>I}(o|ZqmWCi?@%<|nHQ6-9S%ZmFoMnoZ
zAv&^l3+{NS=!EMi#1*R5T44wPPGp_7qpBg*n|6RvtHMe}HwnS)I}fIsZ2`b%WRcwU
zOfwPiyB=FGsWxk(w8*jm?TBhhtWqjLU|#BMv^u}TI0%B<n9ScJTiIbAQubHKMnIUW
zWTSxX)@NEqxlEP4`dr2l{CXS#Mz7~q6{L(o>QI)_O@6u5JR0UY)t~+UG({9DD-!Q`
zms2~8i3WWmd9IIP(#i$w7MM@S#*#(vSawu1m@F|T{n{zZ$%nF~8YOArHslM_j$ute
zrFl?FnQ4d0Of{HlE!s&%wq&UcDOb~A^)R`#U<aJe?N-yxznrg|cEr^osR}y@hOkoz
zUO;df!5IWE0x04-!YAOoNaNyy+_=>5)+1CjcyZvYa9MN}<ek-*i?A{1fML>L=Ma1k
z!M>_ZEH1_R<1E?GoKybLrS_(Yt&y=u6QVyX*J>XLNBLOW@v>9K)ZFi|VA&UCi{ftL
zqmLtP7Q^si<Fnh@<NG@+&O&dZEV|l6zK?4o5N;TO^Pt2T0Y2_KL;eyna2iZBWtZ;(
zS}H<hSV}c{?hr5GH?H5^HNT6s!U&j9u@drg_}`8K_!047bnyJncN-`1SLbg+Ee4j?
zW-St_={^sO?o7Rf)SabsM!Ydk#Y#zqa#2(j(U=u2Ah-gfO<&de!#9LLxg@G?^@^XF
zmEt_~VCL)Jxa-F2j2f;M6FmU+S$Nrg87*E)HVp-*y@sMK0RBP#1&bg7gYj=34d3?)
zo~C%R--xtbq84|?-Gh`l2JMMyF{t6By3kU0lR-_qx51|E9m4`>7{ht{R-*_`(>`%E
z3E>*U0>p8NmheQNEcG`TvR8nDV!p`uFl`*2{ElpiDh8e=B-4^DbE&JzibmFav;HGv
zq)WRurq)r3_y3+oSpp=Ql5K4pfY#d%s>z=#P#yDVyCEr3PrWdzSODK$g7uR|ek
zi4aI;RXpPGRYQ60{uF~^FgDD>&;wu4T}!5kSAIT|x~@Z#{a-AKV)CsU)I4d8tjhD*
z({qiQ?sn2Enx&3GV3aknD8ukSWsKqsKaq4Oico5)r)eSWVm_Z$9XnQ)8J$({>}ycc
z(dkIKMm6uTy#haNGR*dC^cK~gIVdNtYm}DvET^0s65oK%n?s_B^1DJJr!6<zAz1R9
z`OIb{e=ILRkbk-%Z|*iEcpJWuD&<|ZmrMPy$(V1AeYI^iG=;lZygd)MA(S<Yil~|*
z_Y(HrQx;PTguj}|Ql@DoHE@2}Y#3&T+OuD#ID5sA6-b>WdRxTH6H!*=GNd+9EkS*c
z`Opalyz-x|K*e6qkY=qmaHkZDfu<=9$%+Eel*zlQof`Sq@WD>VvOB;Asksa^;X1{R
zDNI&NlBMbtinOAy<`%r`o^?ROsS2z*`+aBdJxht}MOmW_&cJCRHEmdz;Z}$0aLl2~
zMXa}TJ||rlp$nz}Fi{s|d?#rqOzcLYa1gT8q6CYzw`nqVvsbW(H~^lb9*0P4_Fibf
z&E~<d#|}7mV|LJW4K7`<Mh-Z&a<O&?2|YZcqeo{bgA*DSad73L(W0f^qT;ogDToc4
zh6gsB&^aKM#IkJ7=h-auo%1_xzXLeqX+%Rz2f$AmFaWh7i0^bOv2t-&Tx(|j7Qf$d
zKjFI1RG{adym9uO#T3>wX6@chwBX{+<o53=YEoFZ)FmY@x#XTzox^MX2@-2)FIJa)
zy8ad)z{%p)=KRys{J=8}*PAQ{BGWm~H+T}|RZY&LjzS~nbN26a?j*yz4AzaH2Y?-v
zB*iF762mir-6~0PsboNf0S6-!s8}pB^qnP;4~HV7OqsRF@bqE}H=+7xc;;ir5KJO5
z_L6MUi+75&jGeF($Y@7^6&i!vY-0Q1{*}cL6BM;*F}zA-SYz8h*xL+O7i&fEeFSX?
zaJJY51bALzKR}R1a2dfB1k(s+5L`oW0|C~o>~#b`0bmQ73aa12_S*<<BEW*l_RngD
zY}tOR0vnGRNKYYn7lDWXPtAO{u_43|^ufRRN7#wKAb%F}TWviLgr1FL?*pNCqc!tD
z$N;`7tS5&a2t!-`*oHr~Aq=lvxGxNE`$!;-AigCGKLabflD;ow8^6ldzRIs$y)Wb&
zS@|u0sv0MQhc-sWH%^@1m^itS>DtJRJ?f16qg#oA)tA>3`Klip)d1-}Tn!=?BJG)K
z7_lhn=vq1cX`vd!R-ANZS1+u09Im!vGeP>YtAnfN>fz7dT2t10C#r2oPLfRjin%(q
za%a8s@Y?b9&hcsr>1mScsJ0{4L3+j2q0e8gq7l^$iDXt{tJb~D$a;A6Q5Vp-2URa}
zMHn0~WAvzN`q(jW<6$a_)^}I^@CL)X4pxJRIff$^shiq@&FEg6Vn~mpO|6I}$iUF5
z@<pWDhOOit*H9z45Xs!jjIJs7G860J$w%!#bZtfU0kqW{^hZ~VYd`$z`rWJR2TxZC
zw12NW!j~%w7$`tdFNnVRh``Hb0R~P4(i_6$+R%Mrl9QnUvuF!rZfgu$kMP@FAAQ%f
zhupqY742KQ@gy@HiJ?{ViySO~>;xA@XZITCID7o5thE=NkM~GK$a&8N&qJT!&u$#d
zRr&kOIsV=X$F}`IhtV7u-ss3|^kpBmg#6j9M5^kCH>`|g=Suq11Jxk5AhV^bVZ<V&
zt^E`0)0S<NuBN^I?AnR1djH_NcWi2X<icYx-?^^h8#|X{2Vig8KKW*mVWxHBU283k
zKyb_>i$^LRka+Y8Sc~{$5szoi&12rVd353^53vcnkj$$k__@c-V@bi|qATtETEsBa
z+ihGBYm~fu?sr0Fl+)ciAtx?kthBp1y{uK>*Bvw8c%NxH!8_#$G+o&6;A*EiXV+Dh
z6RIPe<zzGri1vU(fLkyV^Eq6VNfk@g%zXW*&f~Hj=W@4><((pprvN+COw2<%ac*Fp
z9D}*Z4mg8g3m4(X9_NP{9&klq?gU{wbk_Ni=zHvAU|_~GF`8F>9*<``L_E>2$>7)I
z+&Ve8Njm;c#y82KO)|Jia$l3Pn`B~>jBO%uXp@}TB%_-o|Cez3lh+@F``!yY4tPBs
dAKdu(jSt^|b>ZoF9J%84WIvhwC&4$j;lK0!Tv-4B

literal 0
HcmV?d00001

diff --git a/engine/arg_utils.py b/engine/arg_utils.py
new file mode 100644
index 0000000..ab6e5e5
--- /dev/null
+++ b/engine/arg_utils.py
@@ -0,0 +1,2144 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import copy
+import dataclasses
+import functools
+import json
+import sys
+from collections.abc import Callable
+from dataclasses import MISSING, dataclass, fields, is_dataclass
+from itertools import permutations
+from types import UnionType
+from typing import (
+    TYPE_CHECKING,
+    Annotated,
+    Any,
+    Literal,
+    TypeAlias,
+    TypeVar,
+    Union,
+    cast,
+    get_args,
+    get_origin,
+)
+
+import huggingface_hub
+import regex as re
+import torch
+from pydantic import TypeAdapter, ValidationError
+from pydantic.fields import FieldInfo
+from typing_extensions import TypeIs, deprecated
+
+import vllm.envs as envs
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.config import (
+    CacheConfig,
+    CompilationConfig,
+    ConfigType,
+    DeviceConfig,
+    ECTransferConfig,
+    EPLBConfig,
+    KVEventsConfig,
+    KVTransferConfig,
+    LoadConfig,
+    LoRAConfig,
+    ModelConfig,
+    MultiModalConfig,
+    ObservabilityConfig,
+    ParallelConfig,
+    PoolerConfig,
+    SchedulerConfig,
+    SpeculativeConfig,
+    StructuredOutputsConfig,
+    VllmConfig,
+    get_attr_docs,
+)
+from vllm.config.cache import (
+    BlockSize,
+    CacheDType,
+    KVOffloadingBackend,
+    MambaDType,
+    PrefixCachingHashAlgo,
+)
+from vllm.config.device import Device
+from vllm.config.model import (
+    ConvertOption,
+    HfOverrides,
+    LogprobsMode,
+    ModelDType,
+    RunnerOption,
+    TaskOption,
+    TokenizerMode,
+)
+from vllm.config.multimodal import MMCacheType, MMEncoderTPMode
+from vllm.config.observability import DetailedTraceModules
+from vllm.config.parallel import DistributedExecutorBackend, ExpertPlacementStrategy
+from vllm.config.scheduler import SchedulerPolicy
+from vllm.config.utils import get_field
+from vllm.logger import init_logger
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.plugins import load_general_plugins
+from vllm.ray.lazy_utils import is_in_ray_actor, is_ray_initialized
+from vllm.transformers_utils.config import (
+    get_model_path,
+    is_interleaved,
+    maybe_override_with_speculators,
+)
+from vllm.transformers_utils.utils import check_gguf_file, is_cloud_storage
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.utils.network_utils import get_ip
+from vllm.v1.sample.logits_processor import LogitsProcessor
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.model_executor.model_loader import LoadFormats
+    from vllm.usage.usage_lib import UsageContext
+    from vllm.v1.executor import Executor
+else:
+    Executor = Any
+    QuantizationMethods = Any
+    LoadFormats = Any
+    UsageContext = Any
+
+logger = init_logger(__name__)
+
+# object is used to allow for special typing forms
+T = TypeVar("T")
+TypeHint: TypeAlias = type[Any] | object
+TypeHintT: TypeAlias = type[T] | object
+
+
+def parse_type(return_type: Callable[[str], T]) -> Callable[[str], T]:
+    def _parse_type(val: str) -> T:
+        try:
+            return return_type(val)
+        except ValueError as e:
+            raise argparse.ArgumentTypeError(
+                f"Value {val} cannot be converted to {return_type}."
+            ) from e
+
+    return _parse_type
+
+
+def optional_type(return_type: Callable[[str], T]) -> Callable[[str], T | None]:
+    def _optional_type(val: str) -> T | None:
+        if val == "" or val == "None":
+            return None
+        return parse_type(return_type)(val)
+
+    return _optional_type
+
+
+def union_dict_and_str(val: str) -> str | dict[str, str] | None:
+    if not re.match(r"(?s)^\s*{.*}\s*$", val):
+        return str(val)
+    return optional_type(json.loads)(val)
+
+
+def is_type(type_hint: TypeHint, type: TypeHintT) -> TypeIs[TypeHintT]:
+    """Check if the type hint is a specific type."""
+    return type_hint is type or get_origin(type_hint) is type
+
+
+def contains_type(type_hints: set[TypeHint], type: TypeHintT) -> bool:
+    """Check if the type hints contain a specific type."""
+    return any(is_type(type_hint, type) for type_hint in type_hints)
+
+
+def get_type(type_hints: set[TypeHint], type: TypeHintT) -> TypeHintT:
+    """Get the specific type from the type hints."""
+    return next((th for th in type_hints if is_type(th, type)), None)
+
+
+def literal_to_kwargs(type_hints: set[TypeHint]) -> dict[str, Any]:
+    """Get the `type` and `choices` from a `Literal` type hint in `type_hints`.
+
+    If `type_hints` also contains `str`, we use `metavar` instead of `choices`.
+    """
+    type_hint = get_type(type_hints, Literal)
+    options = get_args(type_hint)
+    option_type = type(options[0])
+    if not all(isinstance(option, option_type) for option in options):
+        raise ValueError(
+            "All options must be of the same type. "
+            f"Got {options} with types {[type(c) for c in options]}"
+        )
+    kwarg = "metavar" if contains_type(type_hints, str) else "choices"
+    return {"type": option_type, kwarg: sorted(options)}
+
+
+def collection_to_kwargs(type_hints: set[TypeHint], type: TypeHint) -> dict[str, Any]:
+    type_hint = get_type(type_hints, type)
+    types = get_args(type_hint)
+    elem_type = types[0]
+
+    # Handle Ellipsis
+    assert all(t is elem_type for t in types if t is not Ellipsis), (
+        f"All non-Ellipsis elements must be of the same type. Got {types}."
+    )
+
+    # Handle Union types
+    if get_origin(elem_type) in {Union, UnionType}:
+        # Union for Union[X, Y] and UnionType for X | Y
+        assert str in get_args(elem_type), (
+            "If element can have multiple types, one must be 'str' "
+            f"(i.e. 'list[int | str]'). Got {elem_type}."
+        )
+        elem_type = str
+
+    return {
+        "type": elem_type,
+        "nargs": "+" if type is not tuple or Ellipsis in types else len(types),
+    }
+
+
+def is_not_builtin(type_hint: TypeHint) -> bool:
+    """Check if the class is not a built-in type."""
+    return type_hint.__module__ != "builtins"
+
+
+def get_type_hints(type_hint: TypeHint) -> set[TypeHint]:
+    """Extract type hints from Annotated or Union type hints."""
+    type_hints: set[TypeHint] = set()
+    origin = get_origin(type_hint)
+    args = get_args(type_hint)
+
+    if origin is Annotated:
+        type_hints.update(get_type_hints(args[0]))
+    elif origin in {Union, UnionType}:
+        # Union for Union[X, Y] and UnionType for X | Y
+        for arg in args:
+            type_hints.update(get_type_hints(arg))
+    else:
+        type_hints.add(type_hint)
+
+    return type_hints
+
+
+def is_online_quantization(quantization: Any) -> bool:
+    return quantization in ["inc"]
+
+
+NEEDS_HELP = (
+    any("--help" in arg for arg in sys.argv)  # vllm SUBCOMMAND --help
+    or (argv0 := sys.argv[0]).endswith("mkdocs")  # mkdocs SUBCOMMAND
+    or argv0.endswith("mkdocs/__main__.py")  # python -m mkdocs SUBCOMMAND
+)
+
+
+@functools.lru_cache(maxsize=30)
+def _compute_kwargs(cls: ConfigType) -> dict[str, dict[str, Any]]:
+    # Save time only getting attr docs if we're generating help text
+    cls_docs = get_attr_docs(cls) if NEEDS_HELP else {}
+    kwargs = {}
+    for field in fields(cls):
+        # Get the set of possible types for the field
+        type_hints: set[TypeHint] = get_type_hints(field.type)
+
+        # If the field is a dataclass, we can use the model_validate_json
+        generator = (th for th in type_hints if is_dataclass(th))
+        dataclass_cls = next(generator, None)
+
+        # Get the default value of the field
+        if field.default is not MISSING:
+            default = field.default
+            # Handle pydantic.Field defaults
+            if isinstance(default, FieldInfo):
+                default = (
+                    default.default
+                    if default.default_factory is None
+                    else default.default_factory()
+                )
+        elif field.default_factory is not MISSING:
+            default = field.default_factory()
+
+        # Get the help text for the field
+        name = field.name
+        help = cls_docs.get(name, "").strip()
+        # Escape % for argparse
+        help = help.replace("%", "%%")
+
+        # Initialise the kwargs dictionary for the field
+        kwargs[name] = {"default": default, "help": help}
+
+        # Set other kwargs based on the type hints
+        json_tip = (
+            "Should either be a valid JSON string or JSON keys passed individually."
+        )
+        if dataclass_cls is not None:
+
+            def parse_dataclass(val: str, cls=dataclass_cls) -> Any:
+                try:
+                    return TypeAdapter(cls).validate_json(val)
+                except ValidationError as e:
+                    raise argparse.ArgumentTypeError(repr(e)) from e
+
+            kwargs[name]["type"] = parse_dataclass
+            kwargs[name]["help"] += f"\n\n{json_tip}"
+        elif contains_type(type_hints, bool):
+            # Creates --no-<name> and --<name> flags
+            kwargs[name]["action"] = argparse.BooleanOptionalAction
+        elif contains_type(type_hints, Literal):
+            kwargs[name].update(literal_to_kwargs(type_hints))
+        elif contains_type(type_hints, tuple):
+            kwargs[name].update(collection_to_kwargs(type_hints, tuple))
+        elif contains_type(type_hints, list):
+            kwargs[name].update(collection_to_kwargs(type_hints, list))
+        elif contains_type(type_hints, set):
+            kwargs[name].update(collection_to_kwargs(type_hints, set))
+        elif contains_type(type_hints, int):
+            kwargs[name]["type"] = int
+            # Special case for large integers
+            human_readable_ints = {
+                "max_model_len",
+                "max_num_batched_tokens",
+                "kv_cache_memory_bytes",
+            }
+            if name in human_readable_ints:
+                kwargs[name]["type"] = human_readable_int
+                kwargs[name]["help"] += f"\n\n{human_readable_int.__doc__}"
+        elif contains_type(type_hints, float):
+            kwargs[name]["type"] = float
+        elif contains_type(type_hints, dict) and (
+            contains_type(type_hints, str)
+            or any(is_not_builtin(th) for th in type_hints)
+        ):
+            kwargs[name]["type"] = union_dict_and_str
+        elif contains_type(type_hints, dict):
+            kwargs[name]["type"] = parse_type(json.loads)
+            kwargs[name]["help"] += f"\n\n{json_tip}"
+        elif contains_type(type_hints, str) or any(
+            is_not_builtin(th) for th in type_hints
+        ):
+            kwargs[name]["type"] = str
+        else:
+            raise ValueError(f"Unsupported type {type_hints} for argument {name}.")
+
+        # If the type hint was a sequence of literals, use the helper function
+        # to update the type and choices
+        if get_origin(kwargs[name].get("type")) is Literal:
+            kwargs[name].update(literal_to_kwargs({kwargs[name]["type"]}))
+
+        # If None is in type_hints, make the argument optional.
+        # But not if it's a bool, argparse will handle this better.
+        if type(None) in type_hints and not contains_type(type_hints, bool):
+            kwargs[name]["type"] = optional_type(kwargs[name]["type"])
+            if kwargs[name].get("choices"):
+                kwargs[name]["choices"].append("None")
+    return kwargs
+
+
+def get_kwargs(cls: ConfigType) -> dict[str, dict[str, Any]]:
+    """Return argparse kwargs for the given Config dataclass.
+
+    If `--help` or `mkdocs` are not present in the command line command, the
+    attribute documentation will not be included in the help output.
+
+    The heavy computation is cached via functools.lru_cache, and a deep copy
+    is returned so callers can mutate the dictionary without affecting the
+    cached version.
+    """
+    return copy.deepcopy(_compute_kwargs(cls))
+
+
+@dataclass
+class EngineArgs:
+    """Arguments for vLLM engine."""
+
+    model: str = ModelConfig.model
+    served_model_name: str | list[str] | None = ModelConfig.served_model_name
+    tokenizer: str | None = ModelConfig.tokenizer
+    hf_config_path: str | None = ModelConfig.hf_config_path
+    runner: RunnerOption = ModelConfig.runner
+    convert: ConvertOption = ModelConfig.convert
+    task: TaskOption | None = ModelConfig.task
+    skip_tokenizer_init: bool = ModelConfig.skip_tokenizer_init
+    enable_prompt_embeds: bool = ModelConfig.enable_prompt_embeds
+    tokenizer_mode: TokenizerMode = ModelConfig.tokenizer_mode
+    trust_remote_code: bool = ModelConfig.trust_remote_code
+    allowed_local_media_path: str = ModelConfig.allowed_local_media_path
+    allowed_media_domains: list[str] | None = ModelConfig.allowed_media_domains
+    download_dir: str | None = LoadConfig.download_dir
+    safetensors_load_strategy: str = LoadConfig.safetensors_load_strategy
+    load_format: str | LoadFormats = LoadConfig.load_format
+    config_format: str = ModelConfig.config_format
+    dtype: ModelDType = ModelConfig.dtype
+    kv_cache_dtype: CacheDType = CacheConfig.cache_dtype
+    seed: int | None = ModelConfig.seed
+    max_model_len: int | None = ModelConfig.max_model_len
+    cuda_graph_sizes: list[int] | None = CompilationConfig.cudagraph_capture_sizes
+    cudagraph_capture_sizes: list[int] | None = (
+        CompilationConfig.cudagraph_capture_sizes
+    )
+    max_cudagraph_capture_size: int | None = get_field(
+        CompilationConfig, "max_cudagraph_capture_size"
+    )
+    # Note: Specifying a custom executor backend by passing a class
+    # is intended for expert use only. The API may change without
+    # notice.
+    distributed_executor_backend: (
+        str | DistributedExecutorBackend | type[Executor] | None
+    ) = ParallelConfig.distributed_executor_backend
+    # number of P/D disaggregation (or other disaggregation) workers
+    pipeline_parallel_size: int = ParallelConfig.pipeline_parallel_size
+    master_addr: str = ParallelConfig.master_addr
+    master_port: int = ParallelConfig.master_port
+    nnodes: int = ParallelConfig.nnodes
+    node_rank: int = ParallelConfig.node_rank
+    tensor_parallel_size: int = ParallelConfig.tensor_parallel_size
+    decode_context_parallel_size: int = ParallelConfig.decode_context_parallel_size
+    dcp_kv_cache_interleave_size: int = ParallelConfig.dcp_kv_cache_interleave_size
+    data_parallel_size: int = ParallelConfig.data_parallel_size
+    data_parallel_rank: int | None = None
+    data_parallel_start_rank: int | None = None
+    data_parallel_size_local: int | None = None
+    data_parallel_address: str | None = None
+    data_parallel_rpc_port: int | None = None
+    data_parallel_hybrid_lb: bool = False
+    data_parallel_external_lb: bool = False
+    data_parallel_backend: str = ParallelConfig.data_parallel_backend
+    enable_expert_parallel: bool = ParallelConfig.enable_expert_parallel
+    all2all_backend: str | None = ParallelConfig.all2all_backend
+    enable_dbo: bool = ParallelConfig.enable_dbo
+    dbo_decode_token_threshold: int = ParallelConfig.dbo_decode_token_threshold
+    dbo_prefill_token_threshold: int = ParallelConfig.dbo_prefill_token_threshold
+    disable_nccl_for_dp_synchronization: bool = (
+        ParallelConfig.disable_nccl_for_dp_synchronization
+    )
+    eplb_config: EPLBConfig = get_field(ParallelConfig, "eplb_config")
+    enable_eplb: bool = ParallelConfig.enable_eplb
+    expert_placement_strategy: ExpertPlacementStrategy = (
+        ParallelConfig.expert_placement_strategy
+    )
+    _api_process_count: int = ParallelConfig._api_process_count
+    _api_process_rank: int = ParallelConfig._api_process_rank
+    num_redundant_experts: int = EPLBConfig.num_redundant_experts
+    eplb_window_size: int = EPLBConfig.window_size
+    eplb_step_interval: int = EPLBConfig.step_interval
+    eplb_log_balancedness: bool = EPLBConfig.log_balancedness
+    max_parallel_loading_workers: int | None = (
+        ParallelConfig.max_parallel_loading_workers
+    )
+    block_size: BlockSize | None = CacheConfig.block_size
+    enable_prefix_caching: bool | None = CacheConfig.enable_prefix_caching
+    prefix_caching_hash_algo: PrefixCachingHashAlgo = (
+        CacheConfig.prefix_caching_hash_algo
+    )
+    disable_sliding_window: bool = ModelConfig.disable_sliding_window
+    disable_cascade_attn: bool = ModelConfig.disable_cascade_attn
+    swap_space: float = CacheConfig.swap_space
+    cpu_offload_gb: float = CacheConfig.cpu_offload_gb
+    gpu_memory_utilization: float = CacheConfig.gpu_memory_utilization
+    kv_cache_memory_bytes: int | None = CacheConfig.kv_cache_memory_bytes
+    max_num_batched_tokens: int | None = None
+    max_num_partial_prefills: int = SchedulerConfig.max_num_partial_prefills
+    max_long_partial_prefills: int = SchedulerConfig.max_long_partial_prefills
+    long_prefill_token_threshold: int = SchedulerConfig.long_prefill_token_threshold
+    max_num_seqs: int | None = None
+    max_logprobs: int = ModelConfig.max_logprobs
+    logprobs_mode: LogprobsMode = ModelConfig.logprobs_mode
+    disable_log_stats: bool = False
+    aggregate_engine_logging: bool = False
+    revision: str | None = ModelConfig.revision
+    code_revision: str | None = ModelConfig.code_revision
+    hf_token: bool | str | None = ModelConfig.hf_token
+    hf_overrides: HfOverrides = get_field(ModelConfig, "hf_overrides")
+    tokenizer_revision: str | None = ModelConfig.tokenizer_revision
+    quantization: QuantizationMethods | None = ModelConfig.quantization
+    enforce_eager: bool = ModelConfig.enforce_eager
+    disable_custom_all_reduce: bool = ParallelConfig.disable_custom_all_reduce
+    limit_mm_per_prompt: dict[str, int | dict[str, int]] = get_field(
+        MultiModalConfig, "limit_per_prompt"
+    )
+    enable_mm_embeds: bool = MultiModalConfig.enable_mm_embeds
+    interleave_mm_strings: bool = MultiModalConfig.interleave_mm_strings
+    media_io_kwargs: dict[str, dict[str, Any]] = get_field(
+        MultiModalConfig, "media_io_kwargs"
+    )
+    mm_processor_kwargs: dict[str, Any] | None = MultiModalConfig.mm_processor_kwargs
+    disable_mm_preprocessor_cache: bool = False  # DEPRECATED
+    mm_processor_cache_gb: float = MultiModalConfig.mm_processor_cache_gb
+    mm_processor_cache_type: MMCacheType | None = (
+        MultiModalConfig.mm_processor_cache_type
+    )
+    mm_shm_cache_max_object_size_mb: int = (
+        MultiModalConfig.mm_shm_cache_max_object_size_mb
+    )
+    mm_encoder_tp_mode: MMEncoderTPMode = MultiModalConfig.mm_encoder_tp_mode
+    mm_encoder_attn_backend: AttentionBackendEnum | str | None = (
+        MultiModalConfig.mm_encoder_attn_backend
+    )
+    io_processor_plugin: str | None = None
+    skip_mm_profiling: bool = MultiModalConfig.skip_mm_profiling
+    video_pruning_rate: float = MultiModalConfig.video_pruning_rate
+    # LoRA fields
+    enable_lora: bool = False
+    max_loras: int = LoRAConfig.max_loras
+    max_lora_rank: int = LoRAConfig.max_lora_rank
+    default_mm_loras: dict[str, str] | None = LoRAConfig.default_mm_loras
+    fully_sharded_loras: bool = LoRAConfig.fully_sharded_loras
+    max_cpu_loras: int | None = LoRAConfig.max_cpu_loras
+    lora_dtype: str | torch.dtype | None = LoRAConfig.lora_dtype
+    lora_extra_vocab_size: int = LoRAConfig.lora_extra_vocab_size
+
+    ray_workers_use_nsight: bool = ParallelConfig.ray_workers_use_nsight
+    num_gpu_blocks_override: int | None = CacheConfig.num_gpu_blocks_override
+    num_lookahead_slots: int = SchedulerConfig.num_lookahead_slots
+    model_loader_extra_config: dict = get_field(LoadConfig, "model_loader_extra_config")
+    ignore_patterns: str | list[str] = get_field(LoadConfig, "ignore_patterns")
+
+    enable_chunked_prefill: bool | None = None
+    disable_chunked_mm_input: bool = SchedulerConfig.disable_chunked_mm_input
+
+    disable_hybrid_kv_cache_manager: bool = (
+        SchedulerConfig.disable_hybrid_kv_cache_manager
+    )
+
+    structured_outputs_config: StructuredOutputsConfig = get_field(
+        VllmConfig, "structured_outputs_config"
+    )
+    reasoning_parser: str = StructuredOutputsConfig.reasoning_parser
+    reasoning_parser_plugin: str | None = None
+    # Deprecated guided decoding fields
+    guided_decoding_backend: str | None = None
+    guided_decoding_disable_fallback: bool | None = None
+    guided_decoding_disable_any_whitespace: bool | None = None
+    guided_decoding_disable_additional_properties: bool | None = None
+
+    logits_processor_pattern: str | None = ModelConfig.logits_processor_pattern
+
+    speculative_config: dict[str, Any] | None = None
+
+    show_hidden_metrics_for_version: str | None = (
+        ObservabilityConfig.show_hidden_metrics_for_version
+    )
+    otlp_traces_endpoint: str | None = ObservabilityConfig.otlp_traces_endpoint
+    collect_detailed_traces: list[DetailedTraceModules] | None = (
+        ObservabilityConfig.collect_detailed_traces
+    )
+    scheduling_policy: SchedulerPolicy = SchedulerConfig.policy
+    scheduler_cls: str | type[object] | None = SchedulerConfig.scheduler_cls
+
+    pooler_config: PoolerConfig | None = ModelConfig.pooler_config
+    override_pooler_config: dict | PoolerConfig | None = (
+        ModelConfig.override_pooler_config
+    )
+    compilation_config: CompilationConfig = get_field(VllmConfig, "compilation_config")
+    worker_cls: str = ParallelConfig.worker_cls
+    worker_extension_cls: str = ParallelConfig.worker_extension_cls
+
+    kv_transfer_config: KVTransferConfig | None = None
+    kv_events_config: KVEventsConfig | None = None
+
+    ec_transfer_config: ECTransferConfig | None = None
+
+    generation_config: str = ModelConfig.generation_config
+    enable_sleep_mode: bool = ModelConfig.enable_sleep_mode
+    override_generation_config: dict[str, Any] = get_field(
+        ModelConfig, "override_generation_config"
+    )
+    model_impl: str = ModelConfig.model_impl
+    override_attention_dtype: str = ModelConfig.override_attention_dtype
+
+    calculate_kv_scales: bool = CacheConfig.calculate_kv_scales
+    mamba_cache_dtype: MambaDType = CacheConfig.mamba_cache_dtype
+    mamba_ssm_cache_dtype: MambaDType = CacheConfig.mamba_ssm_cache_dtype
+    mamba_block_size: int | None = get_field(CacheConfig, "mamba_block_size")
+
+    additional_config: dict[str, Any] = get_field(VllmConfig, "additional_config")
+
+    use_tqdm_on_load: bool = LoadConfig.use_tqdm_on_load
+    pt_load_map_location: str = LoadConfig.pt_load_map_location
+
+    # DEPRECATED
+    enable_multimodal_encoder_data_parallel: bool = False
+
+    logits_processors: list[str | type[LogitsProcessor]] | None = (
+        ModelConfig.logits_processors
+    )
+    """Custom logitproc types"""
+
+    async_scheduling: bool | None = SchedulerConfig.async_scheduling
+
+    stream_interval: int = SchedulerConfig.stream_interval
+
+    kv_sharing_fast_prefill: bool = CacheConfig.kv_sharing_fast_prefill
+
+    kv_offloading_size: float | None = CacheConfig.kv_offloading_size
+    kv_offloading_backend: KVOffloadingBackend | None = (
+        CacheConfig.kv_offloading_backend
+    )
+    tokens_only: bool = False
+
+    def __post_init__(self):
+        # support `EngineArgs(compilation_config={...})`
+        # without having to manually construct a
+        # CompilationConfig object
+        if isinstance(self.compilation_config, dict):
+            self.compilation_config = CompilationConfig(**self.compilation_config)
+        if isinstance(self.eplb_config, dict):
+            self.eplb_config = EPLBConfig(**self.eplb_config)
+        # Setup plugins
+        from vllm.plugins import load_general_plugins
+
+        load_general_plugins()
+        # when use hf offline,replace model id to local model path
+        if huggingface_hub.constants.HF_HUB_OFFLINE:
+            model_id = self.model
+            self.model = get_model_path(self.model, self.revision)
+            logger.info(
+                "HF_HUB_OFFLINE is True, replace model_id [%s] to model_path [%s]",
+                model_id,
+                self.model,
+            )
+
+    @staticmethod
+    def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+        """Shared CLI arguments for vLLM engine."""
+
+        # Model arguments
+        model_kwargs = get_kwargs(ModelConfig)
+        model_group = parser.add_argument_group(
+            title="ModelConfig",
+            description=ModelConfig.__doc__,
+        )
+        if not ("serve" in sys.argv[1:] and "--help" in sys.argv[1:]):
+            model_group.add_argument("--model", **model_kwargs["model"])
+        model_group.add_argument("--runner", **model_kwargs["runner"])
+        model_group.add_argument("--convert", **model_kwargs["convert"])
+        model_group.add_argument("--task", **model_kwargs["task"], deprecated=True)
+        model_group.add_argument("--tokenizer", **model_kwargs["tokenizer"])
+        model_group.add_argument("--tokenizer-mode", **model_kwargs["tokenizer_mode"])
+        model_group.add_argument(
+            "--trust-remote-code", **model_kwargs["trust_remote_code"]
+        )
+        model_group.add_argument("--dtype", **model_kwargs["dtype"])
+        model_group.add_argument("--seed", **model_kwargs["seed"])
+        model_group.add_argument("--hf-config-path", **model_kwargs["hf_config_path"])
+        model_group.add_argument(
+            "--allowed-local-media-path", **model_kwargs["allowed_local_media_path"]
+        )
+        model_group.add_argument(
+            "--allowed-media-domains", **model_kwargs["allowed_media_domains"]
+        )
+        model_group.add_argument("--revision", **model_kwargs["revision"])
+        model_group.add_argument("--code-revision", **model_kwargs["code_revision"])
+        model_group.add_argument(
+            "--tokenizer-revision", **model_kwargs["tokenizer_revision"]
+        )
+        model_group.add_argument("--max-model-len", **model_kwargs["max_model_len"])
+        model_group.add_argument("--quantization", "-q", **model_kwargs["quantization"])
+        model_group.add_argument("--enforce-eager", **model_kwargs["enforce_eager"])
+        model_group.add_argument("--max-logprobs", **model_kwargs["max_logprobs"])
+        model_group.add_argument("--logprobs-mode", **model_kwargs["logprobs_mode"])
+        model_group.add_argument(
+            "--disable-sliding-window", **model_kwargs["disable_sliding_window"]
+        )
+        model_group.add_argument(
+            "--disable-cascade-attn", **model_kwargs["disable_cascade_attn"]
+        )
+        model_group.add_argument(
+            "--skip-tokenizer-init", **model_kwargs["skip_tokenizer_init"]
+        )
+        model_group.add_argument(
+            "--enable-prompt-embeds", **model_kwargs["enable_prompt_embeds"]
+        )
+        model_group.add_argument(
+            "--served-model-name", **model_kwargs["served_model_name"]
+        )
+        model_group.add_argument("--config-format", **model_kwargs["config_format"])
+        # This one is a special case because it can bool
+        # or str. TODO: Handle this in get_kwargs
+        model_group.add_argument(
+            "--hf-token",
+            type=str,
+            nargs="?",
+            const=True,
+            default=model_kwargs["hf_token"]["default"],
+            help=model_kwargs["hf_token"]["help"],
+        )
+        model_group.add_argument("--hf-overrides", **model_kwargs["hf_overrides"])
+        model_group.add_argument("--pooler-config", **model_kwargs["pooler_config"])
+        model_group.add_argument(
+            "--override-pooler-config",
+            **model_kwargs["override_pooler_config"],
+            deprecated=True,
+        )
+        model_group.add_argument(
+            "--logits-processor-pattern", **model_kwargs["logits_processor_pattern"]
+        )
+        model_group.add_argument(
+            "--generation-config", **model_kwargs["generation_config"]
+        )
+        model_group.add_argument(
+            "--override-generation-config", **model_kwargs["override_generation_config"]
+        )
+        model_group.add_argument(
+            "--enable-sleep-mode", **model_kwargs["enable_sleep_mode"]
+        )
+        model_group.add_argument("--model-impl", **model_kwargs["model_impl"])
+        model_group.add_argument(
+            "--override-attention-dtype", **model_kwargs["override_attention_dtype"]
+        )
+        model_group.add_argument(
+            "--logits-processors", **model_kwargs["logits_processors"]
+        )
+        model_group.add_argument(
+            "--io-processor-plugin", **model_kwargs["io_processor_plugin"]
+        )
+
+        # Model loading arguments
+        load_kwargs = get_kwargs(LoadConfig)
+        load_group = parser.add_argument_group(
+            title="LoadConfig",
+            description=LoadConfig.__doc__,
+        )
+        load_group.add_argument("--load-format", **load_kwargs["load_format"])
+        load_group.add_argument("--download-dir", **load_kwargs["download_dir"])
+        load_group.add_argument(
+            "--safetensors-load-strategy", **load_kwargs["safetensors_load_strategy"]
+        )
+        load_group.add_argument(
+            "--model-loader-extra-config", **load_kwargs["model_loader_extra_config"]
+        )
+        load_group.add_argument("--ignore-patterns", **load_kwargs["ignore_patterns"])
+        load_group.add_argument("--use-tqdm-on-load", **load_kwargs["use_tqdm_on_load"])
+        load_group.add_argument(
+            "--pt-load-map-location", **load_kwargs["pt_load_map_location"]
+        )
+
+        # Structured outputs arguments
+        structured_outputs_kwargs = get_kwargs(StructuredOutputsConfig)
+        structured_outputs_group = parser.add_argument_group(
+            title="StructuredOutputsConfig",
+            description=StructuredOutputsConfig.__doc__,
+        )
+        structured_outputs_group.add_argument(
+            "--reasoning-parser",
+            # Choices need to be validated after parsing to include plugins
+            **structured_outputs_kwargs["reasoning_parser"],
+        )
+        structured_outputs_group.add_argument(
+            "--reasoning-parser-plugin",
+            **structured_outputs_kwargs["reasoning_parser_plugin"],
+        )
+        # Deprecated guided decoding arguments
+        for arg, type in [
+            ("--guided-decoding-backend", str),
+            ("--guided-decoding-disable-fallback", bool),
+            ("--guided-decoding-disable-any-whitespace", bool),
+            ("--guided-decoding-disable-additional-properties", bool),
+        ]:
+            structured_outputs_group.add_argument(
+                arg,
+                type=type,
+                help=(f"[DEPRECATED] {arg} will be removed in v0.12.0."),
+                deprecated=True,
+            )
+
+        # Parallel arguments
+        parallel_kwargs = get_kwargs(ParallelConfig)
+        parallel_group = parser.add_argument_group(
+            title="ParallelConfig",
+            description=ParallelConfig.__doc__,
+        )
+        parallel_group.add_argument(
+            "--distributed-executor-backend",
+            **parallel_kwargs["distributed_executor_backend"],
+        )
+        parallel_group.add_argument(
+            "--pipeline-parallel-size",
+            "-pp",
+            **parallel_kwargs["pipeline_parallel_size"],
+        )
+        parallel_group.add_argument("--master-addr", **parallel_kwargs["master_addr"])
+        parallel_group.add_argument("--master-port", **parallel_kwargs["master_port"])
+        parallel_group.add_argument("--nnodes", "-n", **parallel_kwargs["nnodes"])
+        parallel_group.add_argument("--node-rank", "-r", **parallel_kwargs["node_rank"])
+        parallel_group.add_argument(
+            "--tensor-parallel-size", "-tp", **parallel_kwargs["tensor_parallel_size"]
+        )
+        parallel_group.add_argument(
+            "--decode-context-parallel-size",
+            "-dcp",
+            **parallel_kwargs["decode_context_parallel_size"],
+        )
+        parallel_group.add_argument(
+            "--dcp-kv-cache-interleave-size",
+            **parallel_kwargs["dcp_kv_cache_interleave_size"],
+        )
+        parallel_group.add_argument(
+            "--data-parallel-size", "-dp", **parallel_kwargs["data_parallel_size"]
+        )
+        parallel_group.add_argument(
+            "--data-parallel-rank",
+            "-dpn",
+            type=int,
+            help="Data parallel rank of this instance. "
+            "When set, enables external load balancer mode.",
+        )
+        parallel_group.add_argument(
+            "--data-parallel-start-rank",
+            "-dpr",
+            type=int,
+            help="Starting data parallel rank for secondary nodes.",
+        )
+        parallel_group.add_argument(
+            "--data-parallel-size-local",
+            "-dpl",
+            type=int,
+            help="Number of data parallel replicas to run on this node.",
+        )
+        parallel_group.add_argument(
+            "--data-parallel-address",
+            "-dpa",
+            type=str,
+            help="Address of data parallel cluster head-node.",
+        )
+        parallel_group.add_argument(
+            "--data-parallel-rpc-port",
+            "-dpp",
+            type=int,
+            help="Port for data parallel RPC communication.",
+        )
+        parallel_group.add_argument(
+            "--data-parallel-backend",
+            "-dpb",
+            type=str,
+            default="mp",
+            help='Backend for data parallel, either "mp" or "ray".',
+        )
+        parallel_group.add_argument(
+            "--data-parallel-hybrid-lb",
+            "-dph",
+            **parallel_kwargs["data_parallel_hybrid_lb"],
+        )
+        parallel_group.add_argument(
+            "--data-parallel-external-lb",
+            "-dpe",
+            **parallel_kwargs["data_parallel_external_lb"],
+        )
+        parallel_group.add_argument(
+            "--enable-expert-parallel", **parallel_kwargs["enable_expert_parallel"]
+        )
+        parallel_group.add_argument(
+            "--all2all-backend", **parallel_kwargs["all2all_backend"]
+        )
+        parallel_group.add_argument("--enable-dbo", **parallel_kwargs["enable_dbo"])
+        parallel_group.add_argument(
+            "--dbo-decode-token-threshold",
+            **parallel_kwargs["dbo_decode_token_threshold"],
+        )
+        parallel_group.add_argument(
+            "--dbo-prefill-token-threshold",
+            **parallel_kwargs["dbo_prefill_token_threshold"],
+        )
+        parallel_group.add_argument(
+            "--disable-nccl-for-dp-synchronization",
+            **parallel_kwargs["disable_nccl_for_dp_synchronization"],
+        )
+        parallel_group.add_argument("--enable-eplb", **parallel_kwargs["enable_eplb"])
+        parallel_group.add_argument("--eplb-config", **parallel_kwargs["eplb_config"])
+        parallel_group.add_argument(
+            "--expert-placement-strategy",
+            **parallel_kwargs["expert_placement_strategy"],
+        )
+        parallel_group.add_argument(
+            "--num-redundant-experts",
+            type=int,
+            help="[DEPRECATED] --num-redundant-experts will be removed in v0.12.0.",
+            deprecated=True,
+        )
+        parallel_group.add_argument(
+            "--eplb-window-size",
+            type=int,
+            help="[DEPRECATED] --eplb-window-size will be removed in v0.12.0.",
+            deprecated=True,
+        )
+        parallel_group.add_argument(
+            "--eplb-step-interval",
+            type=int,
+            help="[DEPRECATED] --eplb-step-interval will be removed in v0.12.0.",
+            deprecated=True,
+        )
+        parallel_group.add_argument(
+            "--eplb-log-balancedness",
+            action=argparse.BooleanOptionalAction,
+            help="[DEPRECATED] --eplb-log-balancedness will be removed in v0.12.0.",
+            deprecated=True,
+        )
+
+        parallel_group.add_argument(
+            "--max-parallel-loading-workers",
+            **parallel_kwargs["max_parallel_loading_workers"],
+        )
+        parallel_group.add_argument(
+            "--ray-workers-use-nsight", **parallel_kwargs["ray_workers_use_nsight"]
+        )
+        parallel_group.add_argument(
+            "--disable-custom-all-reduce",
+            **parallel_kwargs["disable_custom_all_reduce"],
+        )
+        parallel_group.add_argument("--worker-cls", **parallel_kwargs["worker_cls"])
+        parallel_group.add_argument(
+            "--worker-extension-cls", **parallel_kwargs["worker_extension_cls"]
+        )
+        parallel_group.add_argument(
+            "--enable-multimodal-encoder-data-parallel",
+            action="store_true",
+            deprecated=True,
+        )
+
+        # KV cache arguments
+        cache_kwargs = get_kwargs(CacheConfig)
+        cache_group = parser.add_argument_group(
+            title="CacheConfig",
+            description=CacheConfig.__doc__,
+        )
+        cache_group.add_argument("--block-size", **cache_kwargs["block_size"])
+        cache_group.add_argument(
+            "--gpu-memory-utilization", **cache_kwargs["gpu_memory_utilization"]
+        )
+        cache_group.add_argument(
+            "--kv-cache-memory-bytes", **cache_kwargs["kv_cache_memory_bytes"]
+        )
+        cache_group.add_argument("--swap-space", **cache_kwargs["swap_space"])
+        cache_group.add_argument("--kv-cache-dtype", **cache_kwargs["cache_dtype"])
+        cache_group.add_argument(
+            "--num-gpu-blocks-override", **cache_kwargs["num_gpu_blocks_override"]
+        )
+        cache_group.add_argument(
+            "--enable-prefix-caching", **cache_kwargs["enable_prefix_caching"]
+        )
+        cache_group.add_argument(
+            "--prefix-caching-hash-algo", **cache_kwargs["prefix_caching_hash_algo"]
+        )
+        cache_group.add_argument("--cpu-offload-gb", **cache_kwargs["cpu_offload_gb"])
+        cache_group.add_argument(
+            "--calculate-kv-scales", **cache_kwargs["calculate_kv_scales"]
+        )
+        cache_group.add_argument(
+            "--kv-sharing-fast-prefill", **cache_kwargs["kv_sharing_fast_prefill"]
+        )
+        cache_group.add_argument(
+            "--mamba-cache-dtype", **cache_kwargs["mamba_cache_dtype"]
+        )
+        cache_group.add_argument(
+            "--mamba-ssm-cache-dtype", **cache_kwargs["mamba_ssm_cache_dtype"]
+        )
+        cache_group.add_argument(
+            "--mamba-block-size", **cache_kwargs["mamba_block_size"]
+        )
+        cache_group.add_argument(
+            "--kv-offloading-size", **cache_kwargs["kv_offloading_size"]
+        )
+        cache_group.add_argument(
+            "--kv-offloading-backend", **cache_kwargs["kv_offloading_backend"]
+        )
+
+        # Multimodal related configs
+        multimodal_kwargs = get_kwargs(MultiModalConfig)
+        multimodal_group = parser.add_argument_group(
+            title="MultiModalConfig",
+            description=MultiModalConfig.__doc__,
+        )
+        multimodal_group.add_argument(
+            "--limit-mm-per-prompt", **multimodal_kwargs["limit_per_prompt"]
+        )
+        multimodal_group.add_argument(
+            "--enable-mm-embeds", **multimodal_kwargs["enable_mm_embeds"]
+        )
+        multimodal_group.add_argument(
+            "--media-io-kwargs", **multimodal_kwargs["media_io_kwargs"]
+        )
+        multimodal_group.add_argument(
+            "--mm-processor-kwargs", **multimodal_kwargs["mm_processor_kwargs"]
+        )
+        multimodal_group.add_argument(
+            "--mm-processor-cache-gb", **multimodal_kwargs["mm_processor_cache_gb"]
+        )
+        multimodal_group.add_argument(
+            "--disable-mm-preprocessor-cache", action="store_true", deprecated=True
+        )
+        multimodal_group.add_argument(
+            "--mm-processor-cache-type", **multimodal_kwargs["mm_processor_cache_type"]
+        )
+        multimodal_group.add_argument(
+            "--mm-shm-cache-max-object-size-mb",
+            **multimodal_kwargs["mm_shm_cache_max_object_size_mb"],
+        )
+        multimodal_group.add_argument(
+            "--mm-encoder-tp-mode", **multimodal_kwargs["mm_encoder_tp_mode"]
+        )
+        multimodal_group.add_argument(
+            "--mm-encoder-attn-backend",
+            **multimodal_kwargs["mm_encoder_attn_backend"],
+        )
+        multimodal_group.add_argument(
+            "--interleave-mm-strings", **multimodal_kwargs["interleave_mm_strings"]
+        )
+        multimodal_group.add_argument(
+            "--skip-mm-profiling", **multimodal_kwargs["skip_mm_profiling"]
+        )
+
+        multimodal_group.add_argument(
+            "--video-pruning-rate", **multimodal_kwargs["video_pruning_rate"]
+        )
+
+        # LoRA related configs
+        lora_kwargs = get_kwargs(LoRAConfig)
+        lora_group = parser.add_argument_group(
+            title="LoRAConfig",
+            description=LoRAConfig.__doc__,
+        )
+        lora_group.add_argument(
+            "--enable-lora",
+            action=argparse.BooleanOptionalAction,
+            help="If True, enable handling of LoRA adapters.",
+        )
+        lora_group.add_argument("--max-loras", **lora_kwargs["max_loras"])
+        lora_group.add_argument("--max-lora-rank", **lora_kwargs["max_lora_rank"])
+        lora_group.add_argument(
+            "--lora-extra-vocab-size", **lora_kwargs["lora_extra_vocab_size"]
+        )
+        lora_group.add_argument(
+            "--lora-dtype",
+            **lora_kwargs["lora_dtype"],
+        )
+        lora_group.add_argument("--max-cpu-loras", **lora_kwargs["max_cpu_loras"])
+        lora_group.add_argument(
+            "--fully-sharded-loras", **lora_kwargs["fully_sharded_loras"]
+        )
+        lora_group.add_argument("--default-mm-loras", **lora_kwargs["default_mm_loras"])
+
+        # Observability arguments
+        observability_kwargs = get_kwargs(ObservabilityConfig)
+        observability_group = parser.add_argument_group(
+            title="ObservabilityConfig",
+            description=ObservabilityConfig.__doc__,
+        )
+        observability_group.add_argument(
+            "--show-hidden-metrics-for-version",
+            **observability_kwargs["show_hidden_metrics_for_version"],
+        )
+        observability_group.add_argument(
+            "--otlp-traces-endpoint", **observability_kwargs["otlp_traces_endpoint"]
+        )
+        # TODO: generalise this special case
+        choices = observability_kwargs["collect_detailed_traces"]["choices"]
+        metavar = f"{{{','.join(choices)}}}"
+        observability_kwargs["collect_detailed_traces"]["metavar"] = metavar
+        observability_kwargs["collect_detailed_traces"]["choices"] += [
+            ",".join(p) for p in permutations(get_args(DetailedTraceModules), r=2)
+        ]
+        observability_group.add_argument(
+            "--collect-detailed-traces",
+            **observability_kwargs["collect_detailed_traces"],
+        )
+
+        # Scheduler arguments
+        scheduler_kwargs = get_kwargs(SchedulerConfig)
+        scheduler_group = parser.add_argument_group(
+            title="SchedulerConfig",
+            description=SchedulerConfig.__doc__,
+        )
+        scheduler_group.add_argument(
+            "--max-num-batched-tokens",
+            **{
+                **scheduler_kwargs["max_num_batched_tokens"],
+                "default": None,
+            },
+        )
+        scheduler_group.add_argument(
+            "--max-num-seqs",
+            **{
+                **scheduler_kwargs["max_num_seqs"],
+                "default": None,
+            },
+        )
+        scheduler_group.add_argument(
+            "--max-num-partial-prefills", **scheduler_kwargs["max_num_partial_prefills"]
+        )
+        scheduler_group.add_argument(
+            "--max-long-partial-prefills",
+            **scheduler_kwargs["max_long_partial_prefills"],
+        )
+        scheduler_group.add_argument(
+            "--long-prefill-token-threshold",
+            **scheduler_kwargs["long_prefill_token_threshold"],
+        )
+        scheduler_group.add_argument(
+            "--num-lookahead-slots", **scheduler_kwargs["num_lookahead_slots"]
+        )
+        # multi-step scheduling has been removed; corresponding arguments
+        # are no longer supported.
+        scheduler_group.add_argument(
+            "--scheduling-policy", **scheduler_kwargs["policy"]
+        )
+        scheduler_group.add_argument(
+            "--enable-chunked-prefill",
+            **{
+                **scheduler_kwargs["enable_chunked_prefill"],
+                "default": None,
+            },
+        )
+        scheduler_group.add_argument(
+            "--disable-chunked-mm-input", **scheduler_kwargs["disable_chunked_mm_input"]
+        )
+        scheduler_group.add_argument(
+            "--scheduler-cls", **scheduler_kwargs["scheduler_cls"]
+        )
+        scheduler_group.add_argument(
+            "--disable-hybrid-kv-cache-manager",
+            **scheduler_kwargs["disable_hybrid_kv_cache_manager"],
+        )
+        scheduler_group.add_argument(
+            "--async-scheduling", **scheduler_kwargs["async_scheduling"]
+        )
+        scheduler_group.add_argument(
+            "--stream-interval", **scheduler_kwargs["stream_interval"]
+        )
+
+        # Compilation arguments
+        compilation_kwargs = get_kwargs(CompilationConfig)
+        compilation_group = parser.add_argument_group(
+            title="CompilationConfig",
+            description=CompilationConfig.__doc__,
+        )
+        compilation_group.add_argument(
+            "--cudagraph-capture-sizes", **compilation_kwargs["cudagraph_capture_sizes"]
+        )
+        compilation_kwargs["cudagraph_capture_sizes"]["help"] = (
+            "--cuda-graph-sizes is deprecated and will be removed in v0.13.0 or v1.0.0,"
+            " whichever is soonest. Please use --cudagraph-capture-sizes instead."
+        )
+        compilation_group.add_argument(
+            "--cuda-graph-sizes",
+            **compilation_kwargs["cudagraph_capture_sizes"],
+            deprecated=True,
+        )
+        compilation_group.add_argument(
+            "--max-cudagraph-capture-size",
+            **compilation_kwargs["max_cudagraph_capture_size"],
+        )
+
+        # vLLM arguments
+        vllm_kwargs = get_kwargs(VllmConfig)
+        vllm_group = parser.add_argument_group(
+            title="VllmConfig",
+            description=VllmConfig.__doc__,
+        )
+        # We construct SpeculativeConfig using fields from other configs in
+        # create_engine_config. So we set the type to a JSON string here to
+        # delay the Pydantic validation that comes with SpeculativeConfig.
+        vllm_kwargs["speculative_config"]["type"] = optional_type(json.loads)
+        vllm_group.add_argument(
+            "--speculative-config", **vllm_kwargs["speculative_config"]
+        )
+        vllm_group.add_argument(
+            "--kv-transfer-config", **vllm_kwargs["kv_transfer_config"]
+        )
+        vllm_group.add_argument("--kv-events-config", **vllm_kwargs["kv_events_config"])
+        vllm_group.add_argument(
+            "--ec-transfer-config", **vllm_kwargs["ec_transfer_config"]
+        )
+        vllm_group.add_argument(
+            "--compilation-config", "-O", **vllm_kwargs["compilation_config"]
+        )
+        vllm_group.add_argument(
+            "--additional-config", **vllm_kwargs["additional_config"]
+        )
+        vllm_group.add_argument(
+            "--structured-outputs-config", **vllm_kwargs["structured_outputs_config"]
+        )
+
+        # Other arguments
+        parser.add_argument(
+            "--disable-log-stats",
+            action="store_true",
+            help="Disable logging statistics.",
+        )
+
+        parser.add_argument(
+            "--aggregate-engine-logging",
+            action="store_true",
+            help="Log aggregate rather than per-engine statistics "
+            "when using data parallelism.",
+        )
+        return parser
+
+    @classmethod
+    def from_cli_args(cls, args: argparse.Namespace):
+        # Get the list of attributes of this dataclass.
+        attrs = [attr.name for attr in dataclasses.fields(cls)]
+        # Set the attributes from the parsed arguments.
+        engine_args = cls(
+            **{attr: getattr(args, attr) for attr in attrs if hasattr(args, attr)}
+        )
+        return engine_args
+
+    def create_model_config(self) -> ModelConfig:
+        # gguf file needs a specific model loader and doesn't use hf_repo
+        if check_gguf_file(self.model):
+            self.quantization = self.load_format = "gguf"
+
+        if self.disable_mm_preprocessor_cache:
+            logger.warning(
+                "`--disable-mm-preprocessor-cache` is deprecated "
+                "and will be removed in v0.13. "
+                "Please use `--mm-processor-cache-gb 0` instead.",
+            )
+
+            self.mm_processor_cache_gb = 0
+        elif envs.VLLM_MM_INPUT_CACHE_GIB != 4:
+            logger.warning(
+                "VLLM_MM_INPUT_CACHE_GIB` is deprecated "
+                "and will be removed in v0.13. "
+                "Please use `--mm-processor-cache-gb %d` instead.",
+                envs.VLLM_MM_INPUT_CACHE_GIB,
+            )
+
+            self.mm_processor_cache_gb = envs.VLLM_MM_INPUT_CACHE_GIB
+
+        if self.enable_multimodal_encoder_data_parallel:
+            logger.warning(
+                "--enable-multimodal-encoder-data-parallel` is deprecated "
+                "and will be removed in v0.13. "
+                "Please use `--mm-encoder-tp-mode data` instead."
+            )
+
+            self.mm_encoder_tp_mode = "data"
+
+        return ModelConfig(
+            model=self.model,
+            hf_config_path=self.hf_config_path,
+            runner=self.runner,
+            convert=self.convert,
+            task=self.task,
+            tokenizer=self.tokenizer,
+            tokenizer_mode=self.tokenizer_mode,
+            trust_remote_code=self.trust_remote_code,
+            allowed_local_media_path=self.allowed_local_media_path,
+            allowed_media_domains=self.allowed_media_domains,
+            dtype=self.dtype,
+            seed=self.seed,
+            revision=self.revision,
+            code_revision=self.code_revision,
+            hf_token=self.hf_token,
+            hf_overrides=self.hf_overrides,
+            tokenizer_revision=self.tokenizer_revision,
+            max_model_len=self.max_model_len,
+            quantization=self.quantization,
+            enforce_eager=self.enforce_eager,
+            max_logprobs=self.max_logprobs,
+            logprobs_mode=self.logprobs_mode,
+            disable_sliding_window=self.disable_sliding_window,
+            disable_cascade_attn=self.disable_cascade_attn,
+            skip_tokenizer_init=self.skip_tokenizer_init,
+            enable_prompt_embeds=self.enable_prompt_embeds,
+            served_model_name=self.served_model_name,
+            limit_mm_per_prompt=self.limit_mm_per_prompt,
+            enable_mm_embeds=self.enable_mm_embeds,
+            interleave_mm_strings=self.interleave_mm_strings,
+            media_io_kwargs=self.media_io_kwargs,
+            skip_mm_profiling=self.skip_mm_profiling,
+            config_format=self.config_format,
+            mm_processor_kwargs=self.mm_processor_kwargs,
+            mm_processor_cache_gb=self.mm_processor_cache_gb,
+            mm_processor_cache_type=self.mm_processor_cache_type,
+            mm_shm_cache_max_object_size_mb=self.mm_shm_cache_max_object_size_mb,
+            mm_encoder_tp_mode=self.mm_encoder_tp_mode,
+            mm_encoder_attn_backend=self.mm_encoder_attn_backend,
+            pooler_config=self.pooler_config,
+            override_pooler_config=self.override_pooler_config,
+            logits_processor_pattern=self.logits_processor_pattern,
+            generation_config=self.generation_config,
+            override_generation_config=self.override_generation_config,
+            enable_sleep_mode=self.enable_sleep_mode,
+            model_impl=self.model_impl,
+            override_attention_dtype=self.override_attention_dtype,
+            logits_processors=self.logits_processors,
+            video_pruning_rate=self.video_pruning_rate,
+            io_processor_plugin=self.io_processor_plugin,
+        )
+
+    def validate_tensorizer_args(self):
+        from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+
+        for key in self.model_loader_extra_config:
+            if key in TensorizerConfig._fields:
+                self.model_loader_extra_config["tensorizer_config"][key] = (
+                    self.model_loader_extra_config[key]
+                )
+
+    def create_load_config(self) -> LoadConfig:
+        if self.quantization == "bitsandbytes":
+            self.load_format = "bitsandbytes"
+
+        if self.load_format == "tensorizer":
+            if hasattr(self.model_loader_extra_config, "to_serializable"):
+                self.model_loader_extra_config = (
+                    self.model_loader_extra_config.to_serializable()
+                )
+            self.model_loader_extra_config["tensorizer_config"] = {}
+            self.model_loader_extra_config["tensorizer_config"]["tensorizer_dir"] = (
+                self.model
+            )
+            self.validate_tensorizer_args()
+
+        return LoadConfig(
+            load_format=self.load_format,
+            download_dir=self.download_dir,
+            safetensors_load_strategy=self.safetensors_load_strategy,
+            device="cpu" if is_online_quantization(self.quantization) else None,
+            model_loader_extra_config=self.model_loader_extra_config,
+            ignore_patterns=self.ignore_patterns,
+            use_tqdm_on_load=self.use_tqdm_on_load,
+            pt_load_map_location=self.pt_load_map_location,
+        )
+
+    def create_speculative_config(
+        self,
+        target_model_config: ModelConfig,
+        target_parallel_config: ParallelConfig,
+    ) -> SpeculativeConfig | None:
+        """Initializes and returns a SpeculativeConfig object based on
+        `speculative_config`.
+
+        This function utilizes `speculative_config` to create a
+        SpeculativeConfig object. The `speculative_config` can either be
+        provided as a JSON string input via CLI arguments or directly as a
+        dictionary from the engine.
+        """
+        if self.speculative_config is None:
+            return None
+
+        # Note(Shangming): These parameters are not obtained from the cli arg
+        # '--speculative-config' and must be passed in when creating the engine
+        # config.
+        self.speculative_config.update(
+            {
+                "target_model_config": target_model_config,
+                "target_parallel_config": target_parallel_config,
+            }
+        )
+        return SpeculativeConfig(**self.speculative_config)
+
+    def create_engine_config(
+        self,
+        usage_context: UsageContext | None = None,
+        headless: bool = False,
+    ) -> VllmConfig:
+        """
+        Create the VllmConfig.
+
+        NOTE: If VllmConfig is incompatible, we raise an error.
+        """
+        current_platform.pre_register_and_update()
+
+        device_config = DeviceConfig(device=cast(Device, current_platform.device_type))
+
+        # Check if the model is a speculator and override model/tokenizer/config
+        # BEFORE creating ModelConfig, so the config is created with the target model
+        # Skip speculator detection for cloud storage models (eg: S3, GCS) since
+        # HuggingFace cannot load configs directly from S3 URLs. S3 models can still
+        # use speculators with explicit --speculative-config.
+        if not is_cloud_storage(self.model):
+            (self.model, self.tokenizer, self.speculative_config) = (
+                maybe_override_with_speculators(
+                    model=self.model,
+                    tokenizer=self.tokenizer,
+                    revision=self.revision,
+                    trust_remote_code=self.trust_remote_code,
+                    vllm_speculative_config=self.speculative_config,
+                )
+            )
+
+        model_config = self.create_model_config()
+        self.model = model_config.model
+        self.tokenizer = model_config.tokenizer
+
+        self._check_feature_supported(model_config)
+
+        # Set default arguments for V1 Engine.
+        self._set_default_args(usage_context, model_config)
+        # Disable chunked prefill and prefix caching for:
+        # POWER (ppc64le)/ARM/s390x/RISCV CPUs in V1
+        if current_platform.is_cpu() and current_platform.get_cpu_architecture() in (
+            CpuArchEnum.POWERPC,
+            CpuArchEnum.S390X,
+            CpuArchEnum.ARM,
+            CpuArchEnum.RISCV,
+        ):
+            logger.info(
+                "Chunked prefill is not supported for ARM and POWER, "
+                "S390X and RISC-V CPUs; "
+                "disabling it for V1 backend."
+            )
+            self.enable_chunked_prefill = False
+            logger.info(
+                "Prefix caching is not supported for ARM and POWER, "
+                "S390X and RISC-V CPUs; "
+                "disabling it for V1 backend."
+            )
+            self.enable_prefix_caching = False
+
+        assert self.enable_chunked_prefill is not None
+
+        sliding_window: int | None = None
+        if not is_interleaved(model_config.hf_text_config):
+            # Only set CacheConfig.sliding_window if the model is all sliding
+            # window. Otherwise CacheConfig.sliding_window will override the
+            # global layers in interleaved sliding window models.
+            sliding_window = model_config.get_sliding_window()
+
+        # Note(hc): In the current implementation of decode context
+        # parallel(DCP), tp_size needs to be divisible by dcp_size,
+        # because the world size does not change by dcp, it simply
+        # reuses the GPUs of TP group, and split one TP group into
+        # tp_size//dcp_size DCP groups.
+        assert self.tensor_parallel_size % self.decode_context_parallel_size == 0, (
+            f"tp_size={self.tensor_parallel_size} must be divisible by"
+            f"dcp_size={self.decode_context_parallel_size}."
+        )
+
+        cache_config = CacheConfig(
+            block_size=self.block_size,
+            gpu_memory_utilization=self.gpu_memory_utilization,
+            kv_cache_memory_bytes=self.kv_cache_memory_bytes,
+            swap_space=self.swap_space,
+            cache_dtype=self.kv_cache_dtype,
+            is_attention_free=model_config.is_attention_free,
+            num_gpu_blocks_override=self.num_gpu_blocks_override,
+            sliding_window=sliding_window,
+            enable_prefix_caching=self.enable_prefix_caching,
+            prefix_caching_hash_algo=self.prefix_caching_hash_algo,
+            cpu_offload_gb=self.cpu_offload_gb,
+            calculate_kv_scales=self.calculate_kv_scales,
+            kv_sharing_fast_prefill=self.kv_sharing_fast_prefill,
+            mamba_cache_dtype=self.mamba_cache_dtype,
+            mamba_ssm_cache_dtype=self.mamba_ssm_cache_dtype,
+            mamba_block_size=self.mamba_block_size,
+            kv_offloading_size=self.kv_offloading_size,
+            kv_offloading_backend=self.kv_offloading_backend,
+        )
+
+        ray_runtime_env = None
+        if is_ray_initialized():
+            # Ray Serve LLM calls `create_engine_config` in the context
+            # of a Ray task, therefore we check is_ray_initialized()
+            # as opposed to is_in_ray_actor().
+            import ray
+
+            ray_runtime_env = ray.get_runtime_context().runtime_env
+            # Avoid logging sensitive environment variables
+            sanitized_env = ray_runtime_env.to_dict() if ray_runtime_env else {}
+            if "env_vars" in sanitized_env:
+                sanitized_env["env_vars"] = {
+                    k: "***" for k in sanitized_env["env_vars"]
+                }
+            logger.info("Using ray runtime env (env vars redacted): %s", sanitized_env)
+
+        # Get the current placement group if Ray is initialized and
+        # we are in a Ray actor. If so, then the placement group will be
+        # passed to spawned processes.
+        placement_group = None
+        if is_in_ray_actor():
+            import ray
+
+            # This call initializes Ray automatically if it is not initialized,
+            # but we should not do this here.
+            placement_group = ray.util.get_current_placement_group()
+
+        assert not headless or not self.data_parallel_hybrid_lb, (
+            "data_parallel_hybrid_lb is not applicable in headless mode"
+        )
+        assert not (self.data_parallel_hybrid_lb and self.data_parallel_external_lb), (
+            "data_parallel_hybrid_lb and data_parallel_external_lb cannot both be True."
+        )
+        assert self.data_parallel_backend == "mp" or self.nnodes == 1, (
+            "nnodes > 1 is only supported with data_parallel_backend=mp"
+        )
+        inferred_data_parallel_rank = 0
+        if self.nnodes > 1:
+            world_size = (
+                self.data_parallel_size
+                * self.pipeline_parallel_size
+                * self.tensor_parallel_size
+            )
+            world_size_within_dp = (
+                self.pipeline_parallel_size * self.tensor_parallel_size
+            )
+            local_world_size = world_size // self.nnodes
+            assert world_size % self.nnodes == 0, (
+                f"world_size={world_size} must be divisible by nnodes={self.nnodes}."
+            )
+            assert self.node_rank < self.nnodes, (
+                f"node_rank={self.node_rank} must be less than nnodes={self.nnodes}."
+            )
+            inferred_data_parallel_rank = (
+                self.node_rank * local_world_size
+            ) // world_size_within_dp
+            if self.data_parallel_size > 1 and self.data_parallel_external_lb:
+                self.data_parallel_rank = inferred_data_parallel_rank
+                logger.info(
+                    "Inferred data_parallel_rank %d from node_rank %d for external lb",
+                    self.data_parallel_rank,
+                    self.node_rank,
+                )
+            elif self.data_parallel_size_local is None:
+                # Infer data parallel size local for internal dplb:
+                self.data_parallel_size_local = max(
+                    local_world_size // world_size_within_dp, 1
+                )
+        data_parallel_external_lb = (
+            self.data_parallel_external_lb or self.data_parallel_rank is not None
+        )
+        # Local DP rank = 1, use pure-external LB.
+        if data_parallel_external_lb:
+            assert self.data_parallel_rank is not None, (
+                "data_parallel_rank or node_rank must be spefified if "
+                "data_parallel_external_lb is enable."
+            )
+            assert self.data_parallel_size_local in (1, None), (
+                "data_parallel_size_local must be 1 or None when data_parallel_rank "
+                "is set"
+            )
+            data_parallel_size_local = 1
+            # Use full external lb if we have local_size of 1.
+            self.data_parallel_hybrid_lb = False
+        elif self.data_parallel_size_local is not None:
+            data_parallel_size_local = self.data_parallel_size_local
+
+            if self.data_parallel_start_rank and not headless:
+                # Infer hybrid LB mode.
+                self.data_parallel_hybrid_lb = True
+
+            if self.data_parallel_hybrid_lb and data_parallel_size_local == 1:
+                # Use full external lb if we have local_size of 1.
+                logger.warning(
+                    "data_parallel_hybrid_lb is not eligible when "
+                    "data_parallel_size_local = 1, autoswitch to "
+                    "data_parallel_external_lb."
+                )
+                data_parallel_external_lb = True
+                self.data_parallel_hybrid_lb = False
+
+            if data_parallel_size_local == self.data_parallel_size:
+                # Disable hybrid LB mode if set for a single node
+                self.data_parallel_hybrid_lb = False
+
+            self.data_parallel_rank = (
+                self.data_parallel_start_rank or inferred_data_parallel_rank
+            )
+            if self.nnodes > 1:
+                logger.info(
+                    "Inferred data_parallel_rank %d from node_rank %d",
+                    self.data_parallel_rank,
+                    self.node_rank,
+                )
+        else:
+            assert not self.data_parallel_hybrid_lb, (
+                "data_parallel_size_local must be set to use data_parallel_hybrid_lb."
+            )
+
+            if self.data_parallel_backend == "ray" and (
+                envs.VLLM_RAY_DP_PACK_STRATEGY == "span"
+            ):
+                # Data parallel size defaults to 1 if DP ranks are spanning
+                # multiple nodes
+                data_parallel_size_local = 1
+            else:
+                # Otherwise local DP size defaults to global DP size if not set
+                data_parallel_size_local = self.data_parallel_size
+
+        # DP address, used in multi-node case for torch distributed group
+        # and ZMQ sockets.
+        if self.data_parallel_address is None:
+            if self.data_parallel_backend == "ray":
+                host_ip = get_ip()
+                logger.info(
+                    "Using host IP %s as ray-based data parallel address", host_ip
+                )
+                data_parallel_address = host_ip
+            else:
+                assert self.data_parallel_backend == "mp", (
+                    "data_parallel_backend can only be ray or mp, got %s",
+                    self.data_parallel_backend,
+                )
+                data_parallel_address = (
+                    self.master_addr or ParallelConfig.data_parallel_master_ip
+                )
+        else:
+            data_parallel_address = self.data_parallel_address
+
+        # This port is only used when there are remote data parallel engines,
+        # otherwise the local IPC transport is used.
+        data_parallel_rpc_port = (
+            self.data_parallel_rpc_port
+            if (self.data_parallel_rpc_port is not None)
+            else ParallelConfig.data_parallel_rpc_port
+        )
+
+        if self.tokens_only and not model_config.skip_tokenizer_init:
+            model_config.skip_tokenizer_init = True
+            logger.info("Skipping tokenizer initialization for tokens-only mode.")
+
+        # Forward the deprecated CLI args to the EPLB config.
+        if self.num_redundant_experts is not None:
+            self.eplb_config.num_redundant_experts = self.num_redundant_experts
+        if self.eplb_window_size is not None:
+            self.eplb_config.window_size = self.eplb_window_size
+        if self.eplb_step_interval is not None:
+            self.eplb_config.step_interval = self.eplb_step_interval
+        if self.eplb_log_balancedness is not None:
+            self.eplb_config.log_balancedness = self.eplb_log_balancedness
+
+        parallel_config = ParallelConfig(
+            pipeline_parallel_size=self.pipeline_parallel_size,
+            tensor_parallel_size=self.tensor_parallel_size,
+            data_parallel_size=self.data_parallel_size,
+            data_parallel_rank=self.data_parallel_rank or 0,
+            data_parallel_external_lb=data_parallel_external_lb,
+            data_parallel_size_local=data_parallel_size_local,
+            master_addr=self.master_addr,
+            master_port=self.master_port,
+            nnodes=self.nnodes,
+            node_rank=self.node_rank,
+            data_parallel_master_ip=data_parallel_address,
+            data_parallel_rpc_port=data_parallel_rpc_port,
+            data_parallel_backend=self.data_parallel_backend,
+            data_parallel_hybrid_lb=self.data_parallel_hybrid_lb,
+            enable_expert_parallel=self.enable_expert_parallel,
+            all2all_backend=self.all2all_backend,
+            enable_dbo=self.enable_dbo,
+            dbo_decode_token_threshold=self.dbo_decode_token_threshold,
+            dbo_prefill_token_threshold=self.dbo_prefill_token_threshold,
+            disable_nccl_for_dp_synchronization=self.disable_nccl_for_dp_synchronization,
+            enable_eplb=self.enable_eplb,
+            eplb_config=self.eplb_config,
+            expert_placement_strategy=self.expert_placement_strategy,
+            max_parallel_loading_workers=self.max_parallel_loading_workers,
+            disable_custom_all_reduce=self.disable_custom_all_reduce,
+            ray_workers_use_nsight=self.ray_workers_use_nsight,
+            ray_runtime_env=ray_runtime_env,
+            placement_group=placement_group,
+            distributed_executor_backend=self.distributed_executor_backend,
+            worker_cls=self.worker_cls,
+            worker_extension_cls=self.worker_extension_cls,
+            decode_context_parallel_size=self.decode_context_parallel_size,
+            dcp_kv_cache_interleave_size=self.dcp_kv_cache_interleave_size,
+            _api_process_count=self._api_process_count,
+            _api_process_rank=self._api_process_rank,
+        )
+
+        speculative_config = self.create_speculative_config(
+            target_model_config=model_config,
+            target_parallel_config=parallel_config,
+        )
+
+        # make sure num_lookahead_slots is set appropriately depending on
+        # whether speculative decoding is enabled
+        num_lookahead_slots = self.num_lookahead_slots
+        if speculative_config is not None:
+            num_lookahead_slots = speculative_config.num_lookahead_slots
+
+        scheduler_config = SchedulerConfig(
+            runner_type=model_config.runner_type,
+            max_num_batched_tokens=self.max_num_batched_tokens,
+            max_num_seqs=self.max_num_seqs,
+            max_model_len=model_config.max_model_len,
+            num_lookahead_slots=num_lookahead_slots,
+            enable_chunked_prefill=self.enable_chunked_prefill,
+            disable_chunked_mm_input=self.disable_chunked_mm_input,
+            is_multimodal_model=model_config.is_multimodal_model,
+            is_encoder_decoder=model_config.is_encoder_decoder,
+            policy=self.scheduling_policy,
+            scheduler_cls=self.scheduler_cls,
+            max_num_partial_prefills=self.max_num_partial_prefills,
+            max_long_partial_prefills=self.max_long_partial_prefills,
+            long_prefill_token_threshold=self.long_prefill_token_threshold,
+            disable_hybrid_kv_cache_manager=self.disable_hybrid_kv_cache_manager,
+            async_scheduling=self.async_scheduling,
+            stream_interval=self.stream_interval,
+        )
+
+        if not model_config.is_multimodal_model and self.default_mm_loras:
+            raise ValueError(
+                "Default modality-specific LoRA(s) were provided for a "
+                "non multimodal model"
+            )
+
+        lora_config = (
+            LoRAConfig(
+                max_lora_rank=self.max_lora_rank,
+                max_loras=self.max_loras,
+                default_mm_loras=self.default_mm_loras,
+                fully_sharded_loras=self.fully_sharded_loras,
+                lora_extra_vocab_size=self.lora_extra_vocab_size,
+                lora_dtype=self.lora_dtype,
+                max_cpu_loras=self.max_cpu_loras
+                if self.max_cpu_loras and self.max_cpu_loras > 0
+                else None,
+            )
+            if self.enable_lora
+            else None
+        )
+
+        if (
+            lora_config is not None
+            and speculative_config is not None
+            and scheduler_config.max_num_batched_tokens
+            < (
+                scheduler_config.max_num_seqs
+                * (speculative_config.num_speculative_tokens + 1)
+            )
+        ):
+            raise ValueError(
+                "Consider increasing max_num_batched_tokens or "
+                "decreasing num_speculative_tokens"
+            )
+
+        # bitsandbytes pre-quantized model need a specific model loader
+        if model_config.quantization == "bitsandbytes":
+            self.quantization = self.load_format = "bitsandbytes"
+
+        load_config = self.create_load_config()
+
+        # Pass reasoning_parser into StructuredOutputsConfig
+        if self.reasoning_parser:
+            self.structured_outputs_config.reasoning_parser = self.reasoning_parser
+
+        if self.reasoning_parser_plugin:
+            self.structured_outputs_config.reasoning_parser_plugin = (
+                self.reasoning_parser_plugin
+            )
+
+        # Forward the deprecated CLI args to the StructuredOutputsConfig
+        so_config = self.structured_outputs_config
+        if self.guided_decoding_backend is not None:
+            so_config.guided_decoding_backend = self.guided_decoding_backend
+        if self.guided_decoding_disable_fallback is not None:
+            so_config.disable_fallback = self.guided_decoding_disable_fallback
+        if self.guided_decoding_disable_any_whitespace is not None:
+            so_config.disable_any_whitespace = (
+                self.guided_decoding_disable_any_whitespace
+            )
+        if self.guided_decoding_disable_additional_properties is not None:
+            so_config.disable_additional_properties = (
+                self.guided_decoding_disable_additional_properties
+            )
+
+        observability_config = ObservabilityConfig(
+            show_hidden_metrics_for_version=self.show_hidden_metrics_for_version,
+            otlp_traces_endpoint=self.otlp_traces_endpoint,
+            collect_detailed_traces=self.collect_detailed_traces,
+        )
+
+        # Compilation config overrides
+        compilation_config = copy.deepcopy(self.compilation_config)
+        if self.cuda_graph_sizes is not None:
+            logger.warning(
+                "--cuda-graph-sizes is deprecated and will be removed in v0.13.0 or "
+                "v1.0.0, whichever is soonest. Please use --cudagraph-capture-sizes "
+                "instead."
+            )
+            if compilation_config.cudagraph_capture_sizes is not None:
+                raise ValueError(
+                    "cuda_graph_sizes and compilation_config."
+                    "cudagraph_capture_sizes are mutually exclusive"
+                )
+            compilation_config.cudagraph_capture_sizes = self.cuda_graph_sizes
+        if self.cudagraph_capture_sizes is not None:
+            if compilation_config.cudagraph_capture_sizes is not None:
+                raise ValueError(
+                    "cudagraph_capture_sizes and compilation_config."
+                    "cudagraph_capture_sizes are mutually exclusive"
+                )
+            compilation_config.cudagraph_capture_sizes = self.cudagraph_capture_sizes
+        if self.max_cudagraph_capture_size is not None:
+            if compilation_config.max_cudagraph_capture_size is not None:
+                raise ValueError(
+                    "max_cudagraph_capture_size and compilation_config."
+                    "max_cudagraph_capture_size are mutually exclusive"
+                )
+            compilation_config.max_cudagraph_capture_size = (
+                self.max_cudagraph_capture_size
+            )
+
+        config = VllmConfig(
+            model_config=model_config,
+            cache_config=cache_config,
+            parallel_config=parallel_config,
+            scheduler_config=scheduler_config,
+            device_config=device_config,
+            lora_config=lora_config,
+            speculative_config=speculative_config,
+            load_config=load_config,
+            structured_outputs_config=self.structured_outputs_config,
+            observability_config=observability_config,
+            compilation_config=compilation_config,
+            kv_transfer_config=self.kv_transfer_config,
+            kv_events_config=self.kv_events_config,
+            ec_transfer_config=self.ec_transfer_config,
+            additional_config=self.additional_config,
+        )
+
+        return config
+
+    def _check_feature_supported(self, model_config: ModelConfig):
+        """Raise an error if the feature is not supported."""
+        if self.logits_processor_pattern != EngineArgs.logits_processor_pattern:
+            _raise_unsupported_error(feature_name="--logits-processor-pattern")
+
+        # No Concurrent Partial Prefills so far.
+        if (
+            self.max_num_partial_prefills != SchedulerConfig.max_num_partial_prefills
+            or self.max_long_partial_prefills
+            != SchedulerConfig.max_long_partial_prefills
+        ):
+            _raise_unsupported_error(feature_name="Concurrent Partial Prefill")
+
+        # N-gram, Medusa, and Eagle are supported for speculative decoding.
+        if self.speculative_config is not None:
+            # speculative_config could still be a dict at this point
+            if isinstance(self.speculative_config, dict):
+                method = self.speculative_config.get("method", None)
+            else:
+                method = self.speculative_config.method
+
+            if method == "draft_model":
+                raise NotImplementedError(
+                    "Draft model speculative decoding is not supported yet. "
+                    "Please consider using other speculative decoding methods "
+                    "such as ngram, medusa, eagle, or mtp."
+                )
+
+        if self.pipeline_parallel_size > 1:
+            supports_pp = getattr(
+                self.distributed_executor_backend, "supports_pp", False
+            )
+            if not supports_pp and self.distributed_executor_backend not in (
+                ParallelConfig.distributed_executor_backend,
+                "ray",
+                "mp",
+                "external_launcher",
+            ):
+                name = (
+                    "Pipeline Parallelism without Ray distributed "
+                    "executor or multiprocessing executor or external "
+                    "launcher"
+                )
+                _raise_unsupported_error(feature_name=name)
+
+    @classmethod
+    def get_chunked_prefill_prefix_caching_defaults(
+        cls,
+        model_config: ModelConfig,
+    ) -> tuple[bool, bool]:
+        if model_config.runner_type != "pooling":
+            default_chunked_prefill = True
+
+            # Disable prefix caching default for hybrid models
+            # since the feature is still experimental.
+            default_prefix_caching = not model_config.is_hybrid
+        else:
+            assert model_config.pooler_config is not None
+
+            pooling_type = model_config.pooler_config.pooling_type
+            incremental_prefill_supported = (
+                pooling_type is not None
+                and pooling_type.lower() == "last"
+                and getattr(model_config.hf_config, "is_causal", True)
+            )
+
+            default_chunked_prefill = incremental_prefill_supported
+            default_prefix_caching = incremental_prefill_supported
+
+        return default_chunked_prefill, default_prefix_caching
+
+    @classmethod
+    def get_batch_defaults(
+        cls,
+        world_size: int,
+    ) -> tuple[dict[UsageContext | None, int], dict[UsageContext | None, int]]:
+        from vllm.usage.usage_lib import UsageContext
+
+        default_max_num_batched_tokens: dict[UsageContext | None, int]
+        default_max_num_seqs: dict[UsageContext | None, int]
+
+        # When no user override, set the default values based on the usage
+        # context.
+        # Use different default values for different hardware.
+
+        # Try to query the device name on the current platform. If it fails,
+        # it may be because the platform that imports vLLM is not the same
+        # as the platform that vLLM is running on (e.g. the case of scaling
+        # vLLM with Ray) and has no GPUs. In this case we use the default
+        # values for non-H100/H200 GPUs.
+        try:
+            device_memory = current_platform.get_device_total_memory()
+            device_name = current_platform.get_device_name().lower()
+        except Exception:
+            # This is only used to set default_max_num_batched_tokens
+            device_memory = 0
+
+        # NOTE(Kuntai): Setting large `max_num_batched_tokens` for A100 reduces
+        # throughput, see PR #17885 for more details.
+        # So here we do an extra device name check to prevent such regression.
+        if device_memory >= 70 * GiB_bytes and "a100" not in device_name:
+            # For GPUs like H100 and MI300x, use larger default values.
+            default_max_num_batched_tokens = {
+                UsageContext.LLM_CLASS: 16384,
+                UsageContext.OPENAI_API_SERVER: 8192,
+            }
+            default_max_num_seqs = {
+                UsageContext.LLM_CLASS: 1024,
+                UsageContext.OPENAI_API_SERVER: 1024,
+            }
+        else:
+            # TODO(woosuk): Tune the default values for other hardware.
+            default_max_num_batched_tokens = {
+                UsageContext.LLM_CLASS: 8192,
+                UsageContext.OPENAI_API_SERVER: 2048,
+            }
+            default_max_num_seqs = {
+                UsageContext.LLM_CLASS: 256,
+                UsageContext.OPENAI_API_SERVER: 256,
+            }
+
+        # tpu specific default values.
+        if current_platform.is_tpu():
+            chip_name = current_platform.get_device_name()
+
+            if chip_name == "V6E":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 2048,
+                    UsageContext.OPENAI_API_SERVER: 1024,
+                }
+            elif chip_name == "V5E":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 1024,
+                    UsageContext.OPENAI_API_SERVER: 512,
+                }
+            elif chip_name == "V5P":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 512,
+                    UsageContext.OPENAI_API_SERVER: 256,
+                }
+
+        # cpu specific default values.
+        if current_platform.is_cpu():
+            default_max_num_batched_tokens = {
+                UsageContext.LLM_CLASS: 4096 * world_size,
+                UsageContext.OPENAI_API_SERVER: 2048 * world_size,
+            }
+            default_max_num_seqs = {
+                UsageContext.LLM_CLASS: 256 * world_size,
+                UsageContext.OPENAI_API_SERVER: 128 * world_size,
+            }
+
+        return default_max_num_batched_tokens, default_max_num_seqs
+
+    def _set_default_args(
+        self, usage_context: UsageContext, model_config: ModelConfig
+    ) -> None:
+        """Set Default Arguments for V1 Engine."""
+        (
+            default_chunked_prefill,
+            default_prefix_caching,
+        ) = self.get_chunked_prefill_prefix_caching_defaults(model_config)
+
+        if self.enable_chunked_prefill is None:
+            self.enable_chunked_prefill = default_chunked_prefill
+
+            logger.debug(
+                "%s chunked prefill by default",
+                "Enabling" if default_chunked_prefill else "Disabling",
+            )
+        elif (
+            model_config.runner_type == "pooling"
+            and self.enable_chunked_prefill
+            and not default_chunked_prefill
+        ):
+            logger.warning(
+                "This model does not officially support chunked prefill. "
+                "Enabling this manually may cause the engine to crash "
+                "or produce incorrect outputs.",
+            )
+
+        if self.enable_prefix_caching is None:
+            self.enable_prefix_caching = default_prefix_caching
+
+            logger.debug(
+                "%s prefix caching by default",
+                "Enabling" if default_prefix_caching else "Disabling",
+            )
+        elif (
+            model_config.runner_type == "pooling"
+            and self.enable_prefix_caching
+            and not default_prefix_caching
+        ):
+            logger.warning(
+                "This model does not officially support prefix caching. "
+                "Enabling this manually may cause the engine to crash "
+                "or produce incorrect outputs.",
+            )
+
+        world_size = self.pipeline_parallel_size * self.tensor_parallel_size
+        (
+            default_max_num_batched_tokens,
+            default_max_num_seqs,
+        ) = self.get_batch_defaults(world_size)
+
+        orig_max_num_batched_tokens = self.max_num_batched_tokens
+        orig_max_num_seqs = self.max_num_seqs
+
+        if self.max_num_batched_tokens is None:
+            self.max_num_batched_tokens = default_max_num_batched_tokens.get(
+                usage_context,
+                SchedulerConfig.DEFAULT_MAX_NUM_BATCHED_TOKENS,
+            )
+
+        if self.max_num_seqs is None:
+            self.max_num_seqs = default_max_num_seqs.get(
+                usage_context,
+                SchedulerConfig.DEFAULT_MAX_NUM_SEQS,
+            )
+
+        if orig_max_num_batched_tokens is None:
+            if not self.enable_chunked_prefill:
+                # If max_model_len is too short, use the default for higher throughput.
+                self.max_num_batched_tokens = max(
+                    model_config.max_model_len,
+                    self.max_num_batched_tokens,
+                )
+
+            # When using default settings,
+            # Ensure max_num_batched_tokens does not exceed model limit.
+            # Some models (e.g., Whisper) have embeddings tied to max length.
+            self.max_num_batched_tokens = min(
+                self.max_num_seqs * model_config.max_model_len,
+                self.max_num_batched_tokens,
+            )
+
+            logger.debug(
+                "Defaulting max_num_batched_tokens to %d for %s usage context.",
+                self.max_num_batched_tokens,
+                usage_context.value if usage_context else None,
+            )
+
+        if orig_max_num_seqs is None:
+            assert self.max_num_batched_tokens is not None  # For type checking
+            self.max_num_seqs = min(self.max_num_seqs, self.max_num_batched_tokens)
+
+            logger.debug(
+                "Defaulting max_num_seqs to %d for %s usage context.",
+                self.max_num_seqs,
+                usage_context.value if usage_context else None,
+            )
+
+
+@dataclass
+class AsyncEngineArgs(EngineArgs):
+    """Arguments for asynchronous vLLM engine."""
+
+    enable_log_requests: bool = False
+
+    @property
+    @deprecated(
+        "`disable_log_requests` is deprecated and has been replaced with "
+        "`enable_log_requests`. This will be removed in v0.12.0. Please use "
+        "`enable_log_requests` instead."
+    )
+    def disable_log_requests(self) -> bool:
+        return not self.enable_log_requests
+
+    @disable_log_requests.setter
+    @deprecated(
+        "`disable_log_requests` is deprecated and has been replaced with "
+        "`enable_log_requests`. This will be removed in v0.12.0. Please use "
+        "`enable_log_requests` instead."
+    )
+    def disable_log_requests(self, value: bool):
+        self.enable_log_requests = not value
+
+    @staticmethod
+    def add_cli_args(
+        parser: FlexibleArgumentParser, async_args_only: bool = False
+    ) -> FlexibleArgumentParser:
+        # Initialize plugin to update the parser, for example, The plugin may
+        # add a new kind of quantization method to --quantization argument or
+        # a new device to --device argument.
+        load_general_plugins()
+        if not async_args_only:
+            parser = EngineArgs.add_cli_args(parser)
+        parser.add_argument(
+            "--enable-log-requests",
+            action=argparse.BooleanOptionalAction,
+            default=AsyncEngineArgs.enable_log_requests,
+            help="Enable logging requests.",
+        )
+        parser.add_argument(
+            "--disable-log-requests",
+            action=argparse.BooleanOptionalAction,
+            default=not AsyncEngineArgs.enable_log_requests,
+            help="[DEPRECATED] Disable logging requests.",
+            deprecated=True,
+        )
+        current_platform.pre_register_and_update(parser)
+        return parser
+
+
+def _raise_unsupported_error(feature_name: str):
+    msg = (
+        f"{feature_name} is not supported. We recommend to "
+        f"remove {feature_name} from your config."
+    )
+    raise NotImplementedError(msg)
+
+
+def human_readable_int(value):
+    """Parse human-readable integers like '1k', '2M', etc.
+    Including decimal values with decimal multipliers.
+
+    Examples:
+    - '1k' -> 1,000
+    - '1K' -> 1,024
+    - '25.6k' -> 25,600
+    """
+    value = value.strip()
+    match = re.fullmatch(r"(\d+(?:\.\d+)?)([kKmMgGtT])", value)
+    if match:
+        decimal_multiplier = {
+            "k": 10**3,
+            "m": 10**6,
+            "g": 10**9,
+        }
+        binary_multiplier = {
+            "K": 2**10,
+            "M": 2**20,
+            "G": 2**30,
+        }
+
+        number, suffix = match.groups()
+        if suffix in decimal_multiplier:
+            mult = decimal_multiplier[suffix]
+            return int(float(number) * mult)
+        elif suffix in binary_multiplier:
+            mult = binary_multiplier[suffix]
+            # Do not allow decimals with binary multipliers
+            try:
+                return int(number) * mult
+            except ValueError as e:
+                raise argparse.ArgumentTypeError(
+                    "Decimals are not allowed "
+                    f"with binary suffixes like {suffix}. Did you mean to use "
+                    f"{number}{suffix.lower()} instead?"
+                ) from e
+
+    # Regular plain number.
+    return int(value)
diff --git a/engine/async_llm_engine.py b/engine/async_llm_engine.py
new file mode 100644
index 0000000..ede0277
--- /dev/null
+++ b/engine/async_llm_engine.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.v1.engine.async_llm import AsyncLLM
+
+AsyncLLMEngine = AsyncLLM  # type: ignore
diff --git a/engine/llm_engine.py b/engine/llm_engine.py
new file mode 100644
index 0000000..a0fe38e
--- /dev/null
+++ b/engine/llm_engine.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.v1.engine.llm_engine import LLMEngine as V1LLMEngine
+
+LLMEngine = V1LLMEngine  # type: ignore
diff --git a/engine/protocol.py b/engine/protocol.py
new file mode 100644
index 0000000..462d2c4
--- /dev/null
+++ b/engine/protocol.py
@@ -0,0 +1,170 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+from abc import ABC, abstractmethod
+from collections.abc import AsyncGenerator, Iterable, Mapping
+from typing import Any
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.outputs import PoolingRequestOutput, RequestOutput
+from vllm.plugins.io_processors import IOProcessor
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.tasks import SupportedTask
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.engine.processor import Processor
+
+logger = init_logger(__name__)
+
+
+class Device(enum.Enum):
+    GPU = enum.auto()
+    CPU = enum.auto()
+
+
+class EngineClient(ABC):
+    """Protocol class for Clients to Engine"""
+
+    vllm_config: VllmConfig
+    model_config: ModelConfig
+    processor: Processor
+    io_processor: IOProcessor | None
+
+    @property
+    @abstractmethod
+    def is_running(self) -> bool: ...
+
+    @property
+    @abstractmethod
+    def is_stopped(self) -> bool: ...
+
+    @property
+    @abstractmethod
+    def errored(self) -> bool: ...
+
+    @property
+    @abstractmethod
+    def dead_error(self) -> BaseException: ...
+
+    @abstractmethod
+    def generate(
+        self,
+        prompt: EngineCoreRequest | PromptType,
+        sampling_params: SamplingParams,
+        request_id: str,
+        *,
+        prompt_text: str | None = None,
+        lora_request: LoRARequest | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        data_parallel_rank: int | None = None,
+    ) -> AsyncGenerator[RequestOutput, None]:
+        """Generate outputs for a request."""
+        ...
+
+    @abstractmethod
+    def encode(
+        self,
+        prompt: PromptType,
+        pooling_params: PoolingParams,
+        request_id: str,
+        lora_request: LoRARequest | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        truncate_prompt_tokens: int | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+    ) -> AsyncGenerator[PoolingRequestOutput, None]:
+        """Generate outputs for a request from a pooling model."""
+        ...
+
+    @abstractmethod
+    async def abort(self, request_id: str | Iterable[str]) -> None:
+        """Abort a request.
+
+        Args:
+            request_id: The unique id of the request,
+                        or an iterable of such ids.
+        """
+        ...
+
+    @abstractmethod
+    async def get_tokenizer(self) -> AnyTokenizer:
+        """Get the tokenizer"""
+        ...
+
+    @abstractmethod
+    async def is_tracing_enabled(self) -> bool: ...
+
+    @abstractmethod
+    async def do_log_stats(self) -> None: ...
+
+    @abstractmethod
+    async def check_health(self) -> None:
+        """Raise if unhealthy"""
+        ...
+
+    @abstractmethod
+    async def start_profile(self) -> None:
+        """Start profiling the engine"""
+        ...
+
+    @abstractmethod
+    async def stop_profile(self) -> None:
+        """Stop profiling the engine"""
+        ...
+
+    @abstractmethod
+    async def reset_mm_cache(self) -> None:
+        """Reset the multi-modal cache"""
+        ...
+
+    @abstractmethod
+    async def reset_prefix_cache(self) -> None:
+        """Reset the prefix cache"""
+        ...
+
+    @abstractmethod
+    async def sleep(self, level: int = 1) -> None:
+        """Sleep the engine"""
+        ...
+
+    @abstractmethod
+    async def wake_up(self, tags: list[str] | None = None) -> None:
+        """Wake up the engine"""
+        ...
+
+    @abstractmethod
+    async def is_sleeping(self) -> bool:
+        """Check whether the engine is sleeping"""
+        ...
+
+    @abstractmethod
+    async def add_lora(self, lora_request: LoRARequest) -> bool:
+        """Load a new LoRA adapter into the engine for future requests."""
+        ...
+
+    async def scale_elastic_ep(
+        self, new_data_parallel_size: int, drain_timeout: int = 300
+    ) -> None:
+        """Scale the engine"""
+        raise NotImplementedError
+
+    async def collective_rpc(
+        self,
+        method: str,
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+    ):
+        """Perform a collective RPC call to the given path."""
+        raise NotImplementedError
+
+    async def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        """Get supported tasks"""
+        raise NotImplementedError
diff --git a/entrypoints/__init__.py b/entrypoints/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/entrypoints/__pycache__/__init__.cpython-312.pyc b/entrypoints/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..96c90f0ca1c5a307eeb7ceb0b06d1d3b6f89c57d
GIT binary patch
literal 161
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIp~+<7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#v9l@wJL<Y(rU6zj*wXXa&=#K-Fu
iRNmsS$<0qG%}KQ@Vg(w=2*kx8#z$sGM#ds$APWF24kt(e

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/api_server.cpython-312.pyc b/entrypoints/__pycache__/api_server.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c2de9c52172f35d92b0c4d86570977aaef7c782e
GIT binary patch
literal 8173
zcma($TWlLwc6S~m#h0iDB~cH{BTKSG#iDFSw)|FPS@JrTWyiARhG{VwaYhp5;bUip
zmZeev6MHw#CfK#HZKPlqh!+S@FX8}3(T{xQ@l&)vWavW7tb}G!7w!Jhk&AWmQS{t9
zGbAHB-3-8c&pr3t*LmG@5C7Hcbs_j<_MPZzBSQay8`kGEfvrO<LaRtbVI)!_EmL8N
z)O468H4|o_W@I*I3)?76!^-xUBkUlsO|FVL!%hO*Wmn7{cE>zn4{1AOZ>&089rJ~K
zv6^rV!O?PUtS($f;3~O3<`4S`?35c~jp0TDyX2-=ARHjDTW*fEgj)#gky~SJ;Wh$$
z<sGs1a65sk<()Au%n{fpcf@vucM-To?u>PXy9it>cgJ>zcN4fy?uqq=gA}5X)F#${
zL>Zh2_d(nJk;xX}1(6o^Xww$E7GATUaxMC;v0{Vdo2A9Zo2)fH9I6=0m&aI;*i;%D
zkUV5OD>he*-z&9<Ez&-*)$Fy4Z56%y#T}9jM!9EMvHd0+e$k1<Lj<=|Y82^Z2STLR
zE^;?*;lbzhc1TXKL8ND^#9csfKsqRPUhPHbHl_H14_&2m3`s)^KecvUuEj3tut?wU
z{)jPf6#4<W-GJB1<19$*`4MA#f8-j$A4%7T>BJZA@A(LH9)CZ$>wYmL4v2g2@B53C
z`=z76ucH#PaNU@*vMkB?#UHWeAlco4A3=E#D2FQf2RraDELW~<z|xSlgD{rk%Ci(D
zIS<1e)I#Q23cw$bhOK$5nnFwT5*<7&Tm<uRO`g9rc7(e$A62=L3uic0Qm#n~2d$JU
ziCiKsFLAR8g%hP%BCcwRphe?z&?n4ETw<0RQJ3P8vG`mxF1dub$f?m-QkJ-+q`;t<
z5RXXQj1-T|#{}i78sg4qc;<Kls<<Y_MOXn(o>UTIDxyUbalC5CHU12454R|BiWEu2
zVlWJ-@GcT5g*%^=;v;7`=t#oWW?*gO1R>WIi4zp~$!dbEIG4a<v;-$aB2rT0E?iW(
zSVD}>E)hItz-&~O_Hb|jL6uyQc_9vmeEpg%#|EUhrYt3422CAEz>-3AKuAV;bFJjk
z>u?}dlLRs3`V*GJWRTLGlR`{VlR`v-Mm6EoX(=uN3lj=pn34EWkk%dJf~o=Mb;m{N
zrzuI*f{gBYdFuS+MHmY#m-MO<R6C_9k`ROaS}2&uS0RHDWlk+EHZgI|kPKj4WT*VR
zrX`_OyBO8x`3M$|ECbsTaX`AG@u<ejiMcrmZ?Aev08zqH7X(F!;aNSGvD8NsAi3)r
z9-x546EQxOii*%|9G9i*SOTz#6i7*ffv_s{z~UO8lB2OG8OHOVVJa-j^UJN6yP*p1
zhRSSRb_~o*f~?K!c16-sN<31j;n;cIfZx_GD9(aASVfw79e@L+?$egKPoa;QMJmWF
zdw)V^<0A7?<Z9?o{|w`P52sKyK})H8Bq4&F6nwY-9&JI1zB@Uf#gYTbXtG}ulsQT3
zzn&U8eCX<sG$2Q329itKd?G&ZjCzz05K1oTcH;<2J4^^Z8maYA{5N`<K~L<+<G;&1
zba!Rhu5VTB*535`sAcECoS`L>?obSsh?EWnM3|5qTn4~6cp5EKQUD%*mVdYb?D$(?
z*L(CT^K+XGtxy_f9{JK#8Ud?lqqUuK3Jsxmo8f0SSSWPEGNuko#O7p)SS>bUZ5~@F
zQQ?rw#ld%}jN#PzL`oLH8E^uJwVO-KEJzWJ!<tBj&L(6zv4~A^HY&-YdW1~Tk9|Wd
zsU0CS28?YO+ywC)cu|vGpim)m4EQN9lOx>XyaWWWwFGCN%uT8(SyMUKGk79vOoC9F
zYZE%vGypD%EkM#hX}R7h30%VWP2+XbL25!&R)fZT*#5yj7I~8+VCd|EnuzO8-jZ&R
zR(1m0b&pBHi_wUtVo7kEvIF;2S)@ugG(+%H2cRI@Q>;TR9Urv4-}amK_4=O7#71q)
z+OY>$9@ZXTcOTEP$BPW|_dYGSkAJ5IV9cBTLFzqfFS`o$N7R1yzHN~DM{1B#x}a0(
zfFfe*0DuVD;74?<1+Z^<{y!}fVLmbjt<cZcL%6pYOT$)}vhIn_C`zLbsb5kntcF)4
zpQW`cHqCC~GW5&nO{&~pup(fK0O~ZIX45t+rul_OWHk~&V-n3{5sGM*ZidDzeakaT
ziME@b6?>XdYBZlkL8G+Y+JkknDTuLG98UDMXFqxoU}8<IX-!q>sujn(9<UO}K@{)q
zL|TnC*Fv2ImFq5~_$Z_`SQycM-(js2p<hK)Xc1j!UPX&k+F_hK?O1>p!1fQgO_%zy
zh_`*G(65{kdJg3JH?;_@IDtRTg_dnZ(8Qs~9s1pR7R7B5ngaS2=OS8htvJQ1v@1%j
zxHYVd<V(A)otjS7HL2STqtxw&g^eqCuMu+qsjwL9L65fn7l6N~3}t%TR>4ZfWF@G>
zLgh#kUZK*Ic~rDesitN>9F?v(Dh*DJUNFPN%IV5SU13(>iIisGc&r8ixA84hSx~u7
zv(}LzGzav8yWD3%px&kle9XQ_tx^<vHxB9$HQ7loqJwD3xP{nBoyFIuPPvwCDQ&j@
zP|&XQz(l$uk<yYWO;!4!rR>5eo0y6vRoxB&6uzA7dbQ;$3|eEL-Dv0@JTGs~qBC%1
z>a~hQT%F}}5{in20j`<jGKP<-HpB*gicl_hShP~;n4E|}^mHQheUfpQLH!vNPl+S?
zs_Vd?k<EGZcBs(Mx!%y1Yv{W*UZ`)*)^}$;-B1>W&#ez%{&M(ozI8e`eEGrj+W6h+
ze|YV8ujSkJW`{4|n#i_J1O3{uY+diI(T)11)gyO~tVMo3eD_kWKDb`DFITtkK~KK!
z$V1POq8nEF?i)L5yFxv7pzed;s(WE4H<*#*)X&+Gqx3JRkwN=A3_!o!3Am3NM-JLQ
zWA*{~*&qej&ki~Oj&6ax6zm5KZnpvy^yy48kyNnpD%fr@-*H?^oUek_Nw>``X_Bg7
zzoI(?9QsBRdiAIgM@izCq9ha&K@iC(d+=05oLI4f-m<eb`f)s<`>bn*C)bRsyDT9`
zMP(3EcxIz<K{h3;;2S`}hgSCCVm~fkghKT~K_qJyFA)JNotOX@M=?<!9NduG*WTuJ
z?~a^z$J%_}+mjhDl-u`gd2c8)zR}o~YaG0rh9Yx*qqgnWJ2Edna@S_vJF@H!C^rJ_
zANbz)-LpUNecF-_Ok~-HqTOyg`eEpw8a`nkwB~jl{~rYH$2F*`dc(*4u07weFYnu*
zt=eC-BYz+>QKVU0kSGx4>;naA4Zb~5WB`7e>pJlCk-Ki)-H~&5e1j-kaKqPhcl4pJ
z_sgnYAh89%gE>5bth+PIc0x(E&*i)voTOrpg`v^)p|f8Ooz2%z<c7}Po4!51HvPeC
z@4uG!_d@&IFY6~V6WRI+7<2nr*2QH;H{4BYOy1p=W!t`0!@#o}C#h3z>T?@?vI%|e
zU{5yCpS!7(_4dy_42FFy#@ACAZlEySNa&k(o;=Kaevrmv4^bFC+zs#-?Tw=c*e?c~
z0M=OuE7k7>ci6iz@Y^~B#p)0EL#^Zk%h`!CZVIB>Nr*R`N+O|wQbGL82uTS0mE$m{
zianJXUpQw{QCZ}nQ#lD(0eAbM$ROZtL-Xq7oynV{H_vUjt1~YvZP1~+AX?`Qv-n=T
zfUV;O{I>oDitWL88d>gfg)ZOz&vVcfluVj>0~~q0>o2%xrhLmUlx}(0g!$d4tjI%f
zXw?=Lu7}bcZQ&5&OHoCdHt#nY$8lcr+Jy&#@$hjGW-0g{(7m$|o$?Vm%410?cmsM3
z!5K_4&~X0(>)?&YPmNui9=oU<#0VRHcu2a}q=ZS}85CrRl$24RP)0DByJ9BtNWkW8
z#)ss^hQ&7ll=JXYu?&sZMHO=UZ=ZT+AT#=;3f1pguN%nK4Lo4;bq6wMvFS8s-5rk^
z<g9<>ZC&^7$$9q_JWU^_*LzOndQLoH=xSHdfo$$4)o5pTX7sHyZ=89^wid7|d`m8o
zH%B@~I^mg^x)zNjlsJENktlOXHDM!|-|xV0>q}5NQ!Aipd<$63w|yd|m9A||ZV)S#
zsGd6pqRtB1(q(SNa4^0sSClU41H5&NIL>+%RcMkKZ(@&1zBB`|A~wd723b82ccSO%
z5@4Sb`vDf)*S1e9MRyC&iQ`~Q%eDc~1S~elZ69FqJ9FCySZ*5%nj-UCSDMDr_cNSe
z)9iK}<c#oJ@bBPP3qL1$53-ZXE!QB+P?<O~pY~k0x?F`7;s`)Nm(Hq*$W^@#5+{%#
z;8j(IfMXV7j(MG(PpF#CCKHOLJ0bhP%hEMT*6XxrOoCvBzbZ*dUXY{LBzUUBxU13<
zPSfZf+=xhuR?!j&Le;%iAAWwR!CKvJq&0Ll8lO$*o@v-L4~95(=KQ3BB|;2{n5BY+
zu3W&yE4a9bizz5{R*GL!^)@p0Czmc=;4hsyH+KH=CI0N#*ad!M;>`4zav4)k<KhY~
z{tAkqt-_+uVJtCguR5R7#KdBp*97&dil0B^-Zm`TrKI9!a!J8HJ`F!L3x$<Au({tl
z`^MR9&7S-6L-yzf>%z_3uC-GS*^WnS_05S#HGwt%+H$_8Z{5|0Z?*Eh{ivm@P~|Q%
z-d6k9-r7Rz&h^&)xz_y!Z|$#Mefw3bs%u;g-3e{r-ebAeV+DU;-QSh-cNH3%*Bf@{
z8g`d~#+LQQ-dtnv<0hE07(njk$ISr!8F?G*nRCT<<PNN}O*yuy*p1vTJT2M*{}j-+
zz<25p9O}&x*Juy*nTHzfU_bMoWTEjzEj8N7eo^Pda4R+1&3@5l$8aZw%WhoiRXiUP
zqBxCY@9)QIgkRa(QW6p;qBJYOBOiBQ&5FJRPwi!Ie?KTjzo|jX)kf3Op;BAu$0&6<
zfb$olBOGo;XQL7D)<%jj$SBy)Dl<@k{z`Ik+27x9=r&ow(ruRtsXmF<l$12SeBh#?
z@!ZtZ1ZQT^aE2mI5EYA%G^7e?Dx80WY@l5rsZp|=5`i_BedV3^V+~(^>57@@Fm92`
zE#rhMjwquFBwKq`NMER$2>B}xSb_7ODOu`KgUjyzejG3K<9K0t*vv_Cr4Yi{C|oso
zx*2Ic3Q1T25+jhjnSo@f2$U(38HU&3^(8zTSX{qh$~IA&NzEz4u=C)E?%;Vb5#f0S
zM>xhihk>o=*jqpZ3>iawG3dSs<bxnV1X&$5B+NvN0Nf7Jg%pv3%|&<2Lgo~*Z3=$V
zDA@7qwI(VAu7xB|RRxFMModn^cBh$eyrwFDjYl+?Z5-)`U<*7PLspI3z3qE_INayU
z@sDxYH=87->~KgHQjqVK6yiwq#%KDC`SC@fyGf_vniQOX(ES9n?L|PIBxV;0MM6eE
z0zy=b(1MIICMGWzV^;)$&qUa29t@`+^``QGkh%nUYe?dfV`E>adq}V8$Q7KZQ1Cx!
z%B#4*&dZ2j7|4i{v?g}m@I>r}9-YNWEaT0ALrTN1Vh@ImH4a%co`;M95wq?QL<m03
zWU<b`6gni`AvepD%YcDoyY3tvyLgG8JU=;RkXxaa?lKMq!&Ty6;lZ1VEBGNtB2_a$
zI%X*N3FR&5px~#z0|5%WA1Lav-A=JvHHh;40lEKxT$`wU6ZLJP#{WWH|Bg=Q(CPm~
zflah;6Af*my_;xo6LoH)flbuEiFR$GW1A=h$Ui#$*@pdj=ZhKpAMM^7(F{{?dNX#&
z?b5cln%-!-)tsm5i!@Dj-=6;lLAAvo+D{NqT$m>CM&Q;9d8)BUJE;?Er;7-xdsW}y
z3X?VwJor=^X4ysUxZ71kP(8Rps!s#o;1(t{x{EJUEakg>rih@r+p~o$$P@<qAKPjv
zU%^#hWT5`Krv0uzSJPd@NQedP-Yo})`p}URkC_%KKnQW&G4P-(*Kx2&kgr@K_18A%
zmJK?KM-c0|wVY>~zw&nGz1{HeVqJ!xU#q&SJ~)+Sn;x=<E0NdMdk*D#4t)w4Z|FK*
z?(*G>d@@LoFO`tlK<_>E6JwT<61GqkSX1wv$_~8(8BSZ^3GmPkN3gk#l?zqv1z&5S
zrlH_HRdf;p8xVLZ2$~Dtny+f=Z;!5?yK^pIv#a1e{{xgTNll@~U+_*omtf6%Z}gKU
zvg?t8H+YL*_Xcy`;Jw{>?>_PhU3a(T+--Sxd*;;FtS@sK-_dtmYlHb3?%&vs;xJ-c
Hh_e14^%~;K

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/chat_utils.cpython-312.pyc b/entrypoints/__pycache__/chat_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c44691afaea6ddfa1a9d4764146f28dbc3779508
GIT binary patch
literal 63079
zcmeFa33y!Bbtd=<wJ$&wfWi(Cg@pt_0^kO5UjzbNzy+j9NVXu^r6S$~S!5MJy((~l
z0GpC!2e6e0w4D%2ln6?c7;GtRC~;5VB=e2zPI}boo}MZe6qH^t^C4f<=}z~2(~v;7
zm!9sP|J=7$u|QI?opgU+9*JA`-R<4woO91T_uO;;RervU!xOQ5J-qwha@^n0i~1BO
zp4Im}9Cw?0g5x>f6yf^iUsJz{z327k;Wsa0j#~OHQER`|MDgZ`Eo$$#M;-l+sI%Y6
z!YmP2)ZOondip)l{Qi6vW{ng?z5U*(uiqCf>@Q?twn$O5xWAbB?Gb;pq`xFu+Fu$i
z>o1Fz_m@X2`YWQ9{go`<6shX3V)dw2eruH9b;@t8@*7Zo>!S4oc_uE}(BH^Pa75Ne
zH}r3aHuX0}oBNxiE&VOgjr|*=oBB6JTl-sC8Yj}U^|v#>3;xahTbSP+*&5x}zm54l
zk?qlr{to8Pk31IL(Z7@V3nIIsyZd)Dzc;ccy0?FCbYK6z=>GowEX)@<5Ixv`F#34^
z<I&FkP8L=eITY>c?}~Q!ceD4R$l>Ub{v*s^961_2)_;uo{gIyN@&4n?UlKVHJ=uSf
z`AZ|GqP_jS(bN5>qi6chu&}boXQF5O&qmMnpJVUkk-q2?{ZBA|MdZooXZt_P{FRZ<
zMW5<_D%#)Q&)%ydPe-5We}?(1BcG3cq5lgeE{_wA3&FQcGKBO$%h&Mh_*y>jnz=ue
z#~tPPx|cY<Ug+i<-fn!$qNF;{V%8&OLsrZHi)lhkb5;z`Vp<ThF)K!3F`E$6niVt1
zV%iYXF6@2FtbF|f3*C&+Em`R=vY4%i*_IU(W-;3l(~%W(iN!pIm>pR$ms!kC#O%t7
zi3sh&z^I+$gl6UrGPi}f7nvJoF3;Rc%)QLqD03s^_O}V;!VtfEADYF!v<F|>oAsq(
zVT&-#^6X@JHnTkYv^@Kf=Rj7TD?%B6umYv_KL_9A%qQ}lLe-_em3z?WUi$aOH`&i0
z5~6&UFfwT4yI->OU;V^+4=ec{{1N28=H&R_{#0d{sLiY<4*uv%*8c1Ku}{{DK?~o5
z8r=9K`3Cd&<H$4m3G<vlp6B_KtmV0T`o}qXnzazMJcZojz(pV5`}S!S8(C>*1Q9(T
zVk|!MlI1O>i2g6KIJtk$3MEJp<>j(${5h2MC6skjctMC_6!QoIw0QQWmGdITrcXF1
zJkEOh3E@~qNl&7rFB{^ib@DeqE4+mAqe6*XI(<Qj$t=Uge-34Q#ZcR|bM^^O@p5i)
z(8WK6d|yR>=-=!Yp5vbuo<mPOW9W%rGNf3$Y|3ja-@|_%<xc=VzQFKf68%-d>vZsI
z3?rWfc7+6sP%3<lQfc(>>n!#>Vh4n;3oo-cl{)=0i{lX|AkHnvW~BHPmSPYoE(jKl
zs=dNOFCsK7yrP9pvCvBhy=(}*g*F!pjFu>)p2tVfo^S9CeDpO_b}T<6jAV@K@JqJ-
zZxXZ#-&A3(|67lk_X_g<D*qfC{g>p?=S4t6l-fvN!T7{bmtR{mO<b<cpo1Sly4$En
zp-?God@BzH;OU=MLU=9YRVAcZ3;A^=q(uw)4JG8F7V?@B6463_6CwMBCbi8|rb|Rf
zv!4FfS*n4Dq?%!=1|O2@4VJ3oA*p^Fm_*nVmHU&?`)$m<KyLr<Fsgr*D$8F3EL_Lm
z4g8Jb?|J-<;cpy&U&P;+@OKk`FW~RR*WCSYvXVVQ+Xa*GJ97E5i@E2^ti+duHjEq5
z3N_xse+47+yZl%Ce~<qq;QWM;FSN1oofN*#e+}a&kKs$g6$%~n@LxyzZ}U{r%fc&$
z6u+aur;Gn(q?ko-&{%KKM&ynX(yE306aH6(%{+bQ6;Qs+@3{CWl=2pT3-HFi%y;o7
zP|t55^lcWpnbnf02w^*wKrK^J3#aAU2xpX9nOW^!{5O&R_a7m@TP=a|-B-%DP|81L
z`1-5p`(G2P0AF9o0xrBF^x6AEHH?3U=o#jq+bHc1&^tci4^-&s|3lEjF5$Z}t|85|
zfe!vNQ1ai&qSdb&X*B=q4DSq78&vi;FsuGAhFq_yef3CGmHJtkeFh8o-$af72xavf
zdQzv}Ytv@AgqMVQ1(tpb<$RCVYJzsYj*vg*-{fal&%A*;|H%zg%kTajbz^T!o@DMk
z)Fl;!&d1_nXdoUH;unYc7PDmU8Xg&n3!>!ag~8BBB+iEi;*ymYo*NMm?d-f33dcj|
zBZB1U3PmEauLl{(hXme%(7;834_*<6uLxrNhUAQhBS97@*{_7ecsLYkF-ev)q4>oX
z8)`9hL$V(gh6FJ@AlXlbsicVH?7MMA=!}FzG09HeCqtrS83@JVEq1A)>tZP0H5|PX
z5#r(Dq0U$=9E*pB;-`dIEObFQ6B0ww>_lC|Xwy&}aq*t0mZ&+iBx9nXD<kpF5k5RD
z7q@=RlxKy(kyt1qC#zpGS)Xv7zK)t@rBQ0#H#{7n{*=?K%PfZ?jjcofWu-7wot1zT
zm6>H^<#+XHEkxR~vqJ33@K8)(p?VJ?%C2OD*UBOY2o8l}!l_|ih)6Dcc`$sTn}Ed4
z28|D0!5AV{@flI*6GP!4f$tl>EDVK50aax=0*_!^rGhi!@Bl_|SUeTJ9v%XKI?e*-
z!lJ;-(7@9-Pz#GNbTx)wH>-gBd3p^Gh2z1<@P!NbxJfEHH*)35uo#b>0tknZ6i|mM
zoqFPAU(c!2-JK_cXAd9kIoEggDXB<L(jAJ2SW^sPPdw4n%|4wcm7hA?-P0NDI^ElQ
zxU28<S-p&cQvx3jp)y0lKzx`gP<ug$2L}MD!MFfW4aJ4vAjbE6Xy9`23c<cf@++u9
zDS<9>>(Ouza6<1f-zk7Ma6${YgT{)XA$~X-92p7oD99aC8XLTPZPdN5p`qtg=h4Fr
z4F}ju=M&vMr`4Ayd%6$P3p&FZCQOj5Ap&#BdNs@o!vjVlt8i!B>N<qp<^+yp9{qVw
zaDrK|Fluh)O*9+c$U|`shAvN>Jt>(-#7OTQo8$-vheA;y7?fPWV04%tiICqD3_dp!
zipViyGqOu&G*I#egQ20J;dqFUIu;Dx;Z~_KKRvWL9=)>pO881!JS3v4+OCi6+`a4a
zPGNH-e17wl8=zZ5o3BP9(ak_`@y3<m@K8Lqnf3fgJRFI&U%4S3Ktasuf@if5&R4j!
zvv8_mvL<CIUCGO{I>e)Dnj`2@YaA7c<nE0QBz#bBpm%J%iTX$Bqde9}<`&BXsFH!!
zIN5*%(TS2J4%*k-Vi!B9a)-#F7O-BE8+DjosX^iqa#$mdk?*AH9EWE$00&L>mQ6d7
z-nx{fZrN2dwR3uJvbZVfYED_2)0QSVGv&)@w<5pbRzHWB>~^EAW}W|1I0Y-uTI}Qm
zn_%bJ+DYjNGxY?*&00ze>l;&xRcgtkR|bm4$j;&Dd4Z2H;?^s980ZEC7AE$hP|3n@
z!I9ll-7Jm==@4005xnK>ug_2fIrJB!UPgZvl}uZv&&@PUf9}<SWYLCMf3m18WocW<
zvsfJ~F3w$yK0J^t-k5Z4N?A6c57VyvDa+)>l*PZ2XI6oVO3dg|GXm&&M8tZMFcXL+
z9z>pA@o~7>qx~d>krN_M4>=4JC@A-*e<4uJYAR1*PDW1%irM(A1;ni4YXUKWoJh_^
z@|-4zHH(6BH;Zt@2&BBJAH?dC1HoC3pnxgZMH_E^+oCay_8V3(CXO>bCmG<4Hn;+K
zIs*u3XCbm17(Raq#J-)yN=_LfuY@CgARlER@q8FWTf7k@42}gs`G>Cwd~ZuOfJ*jY
zkRKih2E{tmPlnM3_#_VqrVt4Zu<12>xSyu9<P764Rs-iN+($&kRvetK<dx?qpHEpT
zKPax5;}?qezHn0RG)kYl)3zbz{!Zib*lNnkGpt1?sqZq*<^gA$yGCO1;b?BmRr-&C
z!{~HpAQmQ;O$=NW#283?V0bVPzbFK*5LX0WC>|Idirff<1_p#H@mL^49Ufra+U{bV
zeE52ZO4!3*o@XwNOug3i^?L$rfWQ(8@#ZG*p&~}$d}J7GMYO4<9itOuiCNxp=Jtxu
zp!MQ8IQP?8T8XfJmIsE2N%l}Mgd^uV{$llTXeewL3LobypKhG|Qp&O}Ct09OKf`!f
za*W5O2aLx#*8Qx1<RSU1PcbB5WWq!8pb%=yz~6T<91GyT!i5NY;QWoi=_|reXHTH>
zOiybd6u~4ta^Yei9H(@c<O6{Dktil?fq$gI#kVlH^%vvuE3rMBHw!W(v=0nNH?sk4
zzjWn7y>V1kge3YyV|&MzJu|SeWh2VSPuBEF10#|%i9c;v?HJY~&R0CuH#wTJROB31
z%9MLp2{;~xW?-c((!+;QXBS3qf9he>_>6}PftGHqAz%sGqgS?P41stG?G*)bvO4zy
zg^}|c_=^?8G2jgA+yzU8OtdIf?%sSPqV?&JM4!g~9(q@sC)es-mH@rmk=eUXp=TIq
z=j`Gz#gg-F{Auv3kfjI0FJ;Qz<1~u*!>?dv%pIl&g}JlSe5&{@g2TW7+IV^Dp!u~<
zCRLyvLznf%yw3H7qNB;q0E-Uj@$j;Re1MTKdDhS;44FE`vD6M=eG~`<&ST*$goYjh
z-*Ku#c<2HRKu>^8Msh$Pbbfdw&St65Q0$r@*0<`j&H$zrfk&P`aYQhL(}YhYX{8#-
zlH^cBC7YaIVUC<RsS{&XH4-IRs5v>A*UK0gk(_z_#kRsBgmQpd`8jXdRBSSuvQ(ul
zwaXsgmrtfGEi(7NCt189>1s-WZM9U(=*9}FM*iFo@FHR!0RpUoU2qUoFa|=01}h+g
zK>(HjR^F<_+7wuE3NFf{h1->IJ*9&}z@0gzK(2|-DB>91a(IX&QnA1QV^IPkAOW+~
z5F1TmSd37GS*l&KP!h=wj*CP^l7&{NSZc)4>5yMVz&h}fOM8n+PEiQOhKB$+E$&Ae
zz6dSksdGirIuI+#$)b!`D2$x{3xBa^;e3Vrz_N$NYx^XY9%X6ErsaI!R7awGN3wWl
zGJj{vvNLVju<XkJa*w<$@o>eZ)0SIUgH)$2JC}XsiHf~R-@f^H($|%;bfqoFmc2#l
z1ZLSSk30J=@sSzhZbbk+tG@@wIPTd30F0+fX|d$P=8r{Q6lyS_Fp-9IRt*x=oET?i
z#2tc@L4wL~st}^5RAEC8kzpebuu%*eK|CfCBq%T;K8F_ciXvPwPEL%R5pu4=kqWi3
zB#xWLzr~e3rkU6%UZc!?<g7WGHz<~z|Bk;HeF$sH`-XC|f4XrxKGQW@Jag>TFD5J7
zllko_OMBX~ewo&v+DK|k%d}<VLx**_ta7^V7MPT}wB@io##9l=X)K|U_^@OHC<1aN
z8>F;Dp>Ru{IEH9(91b8KOApC@H6#)WNH$T3kBCFiQqUg@yk`8Zz6|F!7dNR<V_aNI
zcZpJEJ(p}*0eDrnF~q<amuscQn=Yg8ubV`#i9-sevXfcL7)x=E38H!>OJq32AHf{s
z3dh1jBpV(;D=vkHE`_#9R%%>Kvh-5Z%meZ33>47*FQQ2COK@V;fIvVzh99XQ7>)(e
z6G56~Vli<7fi-AtYzI6yxg~qyRO4&5*FCR#7Ry_b<t+>LjcIT3E7vElPw#-F<*s+n
z4FB!$8{xT~$qjoFjy=n69~%wHd|9|LKwYRlT9>|w;(u;k8j3sB53JR7YWJgqdrTQa
zc?p_N+0R3USJj#_WHXds!3Ho#sh50)42pLwkB0qRMvWfw^`iSrQNJ!WeWIR_LCt@E
zd1|e&my*|e1eE{FNF%;P&R5{jUPc_77*Pf(45%bC<d%{ZR0(2k>(x+X1jvO{p*W<T
z7IN>Hb?6f(QA&&e14~;O2E7D>luiZ0Zy*-xTU_j$@MHmDYqGp`!QS?vr*gXE_1&-T
zp1F|nw13Ry<!@N>QP8eecfI-Kx1V|AnZ@-xlk0b;e7in2BXZg2zwNl?xLt6oV5TAI
zTfbtrI9>NVoTEsGZ>8uZZ_PCSdid4wY+1^?^{)5G9REk*cf#*(PwqI9a2!z~JOj9C
zCSmlV6v*{+1Ma3Z=mj@o0x*{WnBDj;dvd27GmYh`n~0wX&~kvV254o!u&+J<xx~Xp
z8k`HAeg@R}ge@A&6Z7LGde3L|a+xtk?X`2<9aC?MCmWk=N5T>8CdqhIrqbeJF(^cY
zD3F2?Wy#VfU^@Fc$`xrolC0+<;Q>J;G?CHp7JL~vCH@-4kpuNbF7~hBxyjvgWq|vp
zWcj8Adn=Li8<RI?ED3KT@W|&{Xn8#C@x9VB*)w%*#=L6I+vr;1@_;S2jO@y6u;kq^
z6aV&&H*U-|&2LY64<;N3KQvAn3Q~P{W7^?)#WCsl)`r`yw^|pA8k0qh_sn_QZ79~)
zlwHJMZ+q<JgVP-|WwQ+_cYDI}xj#MdUSs0SXH$DWhZlK<0Y5t&&zQ9d3mfpa`e$hL
z3C;ve9OK4JgL%JZx^2oJ{iX}1w~&UO@jQ&@dt-T*2!FGlx0LsBGw@6077c0Q+H9X|
zUe7g?t6%NrK98w(+%jg#H3^Md5uO7Z#%=LJ_48x4F|!I?G1JS<agsBzXUzJLdgUPd
zT1k1wxfe}imNDz4Qnft&SMAB%v18`TI{|E_mxs`s#NcK<xpS#KV&Y!@nuWtym|p(h
zZ*Vub-#1?~iQhsIE%~AyKiFL#hIDi=E;$CnLp+I`4bzg1w#hFHNj7;CO`dNU5_}nX
z#jlb>Jh5a8T>(ePLl*ifg%Lv}`9y&>FnMBxh$W0k-mDPG6=LNFX)D(pxfqko;>B2u
z>V;{H9(gLO4bldGknvzhOI2drm5R~g?;-~@eYx28;Q9C5k8g6zu7WB1MB80U88D%|
zX8OYPQ>n71gvI}Xt1?}=aj|k+vT|FhvSY%#T)FP`wpZKUwtdHQ$FtbHH`%=RFDv&=
z98VWjFBUZ<iy9`n;Jv;1*5-+>4}q4k+0*ZP_brvx%{07u_1j}_j4d|pN;d6UDBGRz
z?M{^KPL~E|8ou59MsuQc<6Ymz6&vR-yS?kyuIVqOirdrv#zp_8q<_<F*LRNHIrhH)
zv6T|8YX3bu=dSumj7Imx&d0g}rtk0SwBqLn2WsK|^L2S}2NcXg8jd3jVK{kJ!$~70
z=S?c)b#t$nUdbCUU*HDvK97!l1~ciniLmol-pfu4H*RKcTrNC~6LZO)T>N(~+*F|s
zcqk}%n1k<Tc$i}@90%?p=MkbFaj*LAF)L<UWpw~7@ELLSAvJseV;55~(sn5a-l`Z0
z>=7*7%NH!b98!QEFpuYro31e|0wX6m0M(>D5(7s^Fetu8j?UJZj|_uZBj6Q(i(+!1
zj)F3hDJWx2p<1MlHjc>f@D+w5PUfTXBscTQczHj@1ae@ERxo2Uzk~WfDV>Y`9y|<X
zKCJJ2xA8sKLj5_+AQiR`>d)OeKGivO?Q8Z#{kau0XD$7RLpXLYODb-kx^?Q!4c~5k
zqjj-<Te5!JU;4LCIMV)V3ZHPMOV`~VzBN4I{+qJqiK8@^VIF(myN8fw)7w|SGj?Ze
zar5KJ&5tjXbtZhBiLy@Qm~k%#wj={v5~W-2`nG)FEBVODmAAkt>G;X28z25jjCg<-
zeTR0NzTr8v-S%6Z<?w!gXJ;OMGO&XP$OEuLhthu_+!*}SxN-D;+yJgCb1bl<@b4Kr
z27w(H*T4=YHvwW0q-7z7I7?x7$ax4}i2sBV$@7T<z#3wRZ&Tdwlk-pE+>Zsh<_$$q
zL--LD{{Y#BvykA>yB!Pl$AALmK!IaA3LGO8C;<wTe?k;!(okT2_xs+%pBxFAH6$ok
zk-!U(zePy!o1GOp5=i+>fkjmv%D@St<pd|I)M>Y&PNB~iIG1tXGsdY{GHx0(<&?<~
zmSsJ9u5&=ZxI>L@<iv7tirQRoDPN7ze*wqJ3}@n=0=>P)T{l0)U84o_Xv1Mq92NuD
zE(${d?A~EV7E-9dagxmh)Yd}BFaP48tUSe3c%(8&<tVKXWKtYWrAl%`87wRg57Abl
zWW`o;Opu(1uhR}PwwNWGtPdtR1vLnQo<BrQr2@GirC2^g=Hm-Ok0^*;1X7G7YAyb+
z$a0gQ>oj?|l{~A}zf`edvEo3o;=ufPs^Zi{LE2lh=xs@QTNb^Wlitm9`6=&#gyX=E
zm)w3V8<5^nu;?gHIv|fdu;4iOfwy?Yir}BdXnuTg^EU1e)^!$}zh7j6`*#6^L65*5
z4PB2xZ%(o+%9t7;PzMvkZ2$xv4D`Vx_TXmTnCTpWi9%dBE>1bwg9%v~D)raI-7sOm
zi7jCd2HebsF)srMaQ^HeKw#EO95W5%Jq1aQ1_+j3CTV0c$I)g3NYDrpKy;q#BmIDE
zxL^YT`6P`EVZ4-oE<Svv2eT*>_KL(bihoSbpTKD`v#}Q6g<o>Y1CG(mSO`j`L0*VM
zk3*IF1_y`5XeciJIWkSskcZ&G+R(!l*3HzUe4B6fr0u?hy*%wLohVqbIIQJM4$ne<
z>+Dmh{GAJqT`L9H_y6&|e9lwxF=w)tf8Z@sK%mS30$mG^Zj|t~0s?}vpT>xFx#i!$
z{hkxU|4yw236kydHHeR5+Q1_n8+4LvtUeBh)^Ilqf!WGHB1n65Onkwu4?nLB`irI;
z=%rq0B4#Km%AXv40vZ$s{l%sL5H~Xj`i4}wroaGG-3y!-0>co!i(#GzexoM?QCWF0
z5LY!o+e!5pYJ8IGNs@%Iu~(2%{1>Qr1}4^sLTos4RR}7@WGYmOv~2$^8lx@n04*Jy
zqa<Mu%pCdl@i&eqHXlwk9!WHwT`DMF$us4zUp1S(SgD(xE-*eGMGWiIDkcU|NXBxR
zaDd_0G`>OId<g;B4>~>v(H+bq%+s0LtDNZ6-^Q3u9K%VC^yV&I$2lF_;u^y}XwLoh
zw>3s$+-zXK&3aCi4HwrN*bFlOLurdxF=oD$gXz9*8n?XQ9<vzRLYp>YmUB4wnjLzB
zrVfoM2PIh#s-Z2Lb1i{+5+r1IG2VI0+g6o1B5L&VPK}n>NSQrf)1M6vL}F55T*R(l
zP!yuW(7PRg#Gg@u(XB^9m_&F$V}SMu0-e|j(e#c31nt@+#GrS5tnZFVa$xodhKB}+
zTk<6jt$%}9u96O~_<y2mQbq90+0$Kz&z*xpaM!WUzF^<sQ)f<g_8mSab|79{PtFE%
zn#lPw9Lat$g#D?wC=)1+Y>}S*`H>4PR`Fj`Qi4dy$+U!n*e;NqS}R$;7?E+q;yS?Q
zE#Q`}O`L@=X=L~=Aq;sK!W3047B(ddn`WyQTaG4MjwXD^7=c^xw<YauOWx+$illdY
z!m)kDQfhTA`J2<8l0{E_(o_GTuVKm8wB%a{QE^oPP^xy*;<|mwb^Gpl9VM;_=RH4{
zUp95)&GrS))+Jxrv~%X*f^U1ee$!(8?qvP$MB(nKnuPDj^7h9UJnLt|NzayaaUkId
zKyRvb%Yvn5I-G=Bs@wbHdxe~*<YUf?&pQfU@l1Nso`YH~(j^rucFtMypE<~@SIkKC
z(-^_+Tb=6<RdGM4+SKJV|8s{4F6s0RM`D^-n#iSw;d3&En_ggZCFV?@aW>TjNyI|Q
zX`Dn4v>6p;DGv!dfqx1fG3Lpl#wi#;UuDlFZEr>m0i@@lT#dalgp-P*@;$<UA&ZIu
zag7B7&gKw`<q`(x#%|!4Qg0Hxz0js}0hcs!uAxS@+%;9p0IutzUQNA{dJv*^y$?uK
zlJ)TRhm}lav^aWOOyUQ~n-i}!efivYEhdl=l*1+KS(4U<RH{t|vf{de=A$Q0f>;n+
zl0_jDeSU>h1VS-VE)WIixD7RtHlq*#+eYUf;13)-5;!(;zJ0W%Pe}tkxCa*q!5-nM
zR7fbDF%=sao%fMKyi3k@O6w%XS=Jf-D+(k!0$n%|ui!9kgBB6p%PdTCF`~obRmwv=
zGV5BI23d&OWs{q7b#hjDb(Mb?{|33!L}q>r56Fy9o|n_!>V%^jVl+qo&GDu3UGo+1
zo=la0W+FfBE>E}{74)~+t**4Ue9^lx>D@TH|6OasyD{aZoh6x-eq=gu&&PQ-rHgA9
zi(8V#EsMn+$>NSQh*a%k$=b*6S<N2X&2C~DJPEtbnGvT@x2)2*du$iX#Z_#Y?MRhx
znaE%9fUQed%I`Tjr+3j&k#tm~Jv-+s7I&Xc?mmsBCWw$jPQv*5>7q^CTbnv7%-=6J
z!Ocy4h+)mx6U)>0YV;{}P@kNAah+`dxd6#AgXAb=X52CalN93?0|B$>Y=nxOV&0f#
z$Yb28;`83t<mHg-S#Mf+3*>k<AgfMbptWHj5-hgG){FhiOn{+T6PxeB2no1C5ys~O
zSKmcLAtj?3&@d|!w20m0ER#cwHxlUu>QkXF8`30~%+-_1m*kZhd5EcH7XE%I!g_E7
zGC!GtP1&sfe?$%JAcQgOKmdI270|v;%fh;?3)_z;YECTJPcBt$#|)INY)TiEr7PCo
zb6TriSlNN~uMQ*}<@W#rrHRrFZ<`m~tsj{=XT^v4wKMtijSKk)F<V)^zz8I8*FX^A
zEF@`!p8%^WVX1`txS(<7_`G8wzmt+`5%Qjn=R)|ZFr=<g{sZc#ffW4uits9408$jj
zo?J5(Pn(|#y~n=1iO-|$32`0GV9Zx;$WN?B)&pLRO3>yc+LXX@!qPh$?`BIXVzi*(
zok=tmsSVLgEVGCc!=j;SeXOZH@YL`KEhGX^-VQw5)<*f-RGQMJ<ZF}jJxdvtrG|j7
zgk$aE^Qd14_E$J6Cw4^`2oHu)g@=?BSRZ>9;)w77w3A~2K0G)G3O*DM42r{~l};p_
zmWL=vsj*zwp25KIh!`MU8Z;w3pd=%`b`%pH8W<KuWNQszO9qGKAnO>4;TVS)AblH}
zN<x97;W#D)B#(^<f!HuUhW@yQr04?ZYKv$d6sGqCRHf$&;rK;NAP`xw<4$czK?e}z
zvrnv)*ybVO8jd~<Lo*SJU!p6JS%daVcC6EwrkaAO{|}->0-wyqa2*|>%bXpukz)m!
zng}^g!Nb<YR`)NRc;N&Hr?bbj>?i}xwAuj94*%5EyY`xy*164h>pO{cE0`>Ridz0*
z6PU$((9NnJdL6{HaSew|340BL@BxL2VRO>Jp7r7d3$Q$B0uhK}X_dKKPZV&>@^+p^
z1FiaM7xXc2%nI730qU3)%mYLa1TdgV#ARazs&xtcL;*x<X^YK3h*%1Z8p+*9d<<j3
zl?|@ON1`wvBiBLd#4dQ`2~zH@w6`kZsQR#UZ`x6kcI2lWh3S$yke4#s&C{Sm)(sS1
zQkO1o`k~UzjB2p1Yq5xXP@K4z99oo#XW>YB!M*|fYLCiWu2TDc3Eirm>!YJGd>$0}
z%z|~$GQka+c*{$kemcWtC51lTW;i(w6+MKy1UIp7h_f5wJjmgAiF-@=WPd*1ord=U
zyt@qVUX<lFy!&t}yO_@x3i$$|i1(11DDM@D6`xi0!4`rKr<(n!M~NJVdKBW+b15uT
z`1vA3jmjsWKGt7>VK0#?*x^;}R49Z;QJhj8xGadH-*wSYvbR_uN=e$l9fl%6Lueb2
z@@Oc)2yj58<Ipi#%~%+UjbPMe{3VJpG=g(!A}b3rtVb$`A4UOmE`kJ=D&1sk9E#>y
zQ4j@&qa)D(PE`kh`q3-O(IW=GjL*xM3bdsSVfn9`jFZ767TLcHg02n_5&tnRs7wV|
z%!8*0D%b*Hp|(iLC4z`+3l5&6fs(<2T!XNIa2XFu)#S(zDOCkh2o)ZoRIP?LIC)3h
zC0TJ81$%2ag38VX2c>*EfvO#-!iiLk*B7a)WCr9K`BvdbMQmFk7Ce80@`b?2+&~ze
zG0X_VVGT=6hz#n3AUT5&L11e;7>p4u13=wmd*324!=v?ULSMUDRhV|-V$UG)kD=P-
z$e*->vsiFcF4we7Sn!*!Y?!dT?ESF5?d^f@cKm7HeBbw+?;K3DA4=AD{aJUazK2rP
zE-BIGdH#E@<o2#adsni)`_KAP^~WbH?>lN4#Sm}eD;bhS8Yvq2)k-*PiM-A!y=)SH
zf>d`*;(x_YjIzo^kafoBhP7L29El-nEdddB`n|=A-a2SaCLDG0WS{^JVmXdFlU40m
zcy7aT4y>+mQPa4I>~RqQ=i1s(Wzg7$)>vkp8P)-s09NOQKqt(-BH;sM@cFd*QfeHD
zL8~-ChmG6i5aGHo02V-0UTJX!@hA3|W#NtJM;T1TUu>h&%&e<eyyVo%%$S2k3o?&3
zJhby7F{)s!8O7e@{;lKCU;FE38W-!gC+oMT{2dd{C2#S!x)&;-q0l-TPI-4F9J}uC
zQ|e#Vr|s~pHQc%6n<@z8F%Xc-mGg~YAD}58jM8CvSwcqhxDhmL)VghJw{ES1Zct;X
zHw|F2=-rd_l2Yw2u3;r=edH$L%stM(#l-AZIjB{eAKt2rQee6&N0W9Yy*m?*oeyXd
zA&Zfmt7BmjX%w^TCb^?gEPF1H9R9}W`nBt5NcIBNj7arO?n7^V!cl*JZ3t=@<eX%+
z0rufH`^mNHcrc!-Z83{3bgASUfL=Z%xVqevn6>+w=t14JBo8D!hIC({M%JP@1)^$`
z-r7a)mZW#foPTlaq2$&>DQ{Q8(Z$+M3L@$>Kw2PCcJfMNR;l3@{IMSCM$LgsYi!8q
zGIlJ{DLs2~_sSTvBB0VR-aLx5SekP=m3XvCP$?2Wq^4$A;pL=|@;5HI^<1h?-y2*@
zYx@Ctjk|wbPN}4(sHc7p^)>1BB^G^DVw?}A&_E|o=ee?ZDOv@xCFTfLTUfNod=WeR
zB_CQ~5;?69oDUliE)GX%9VVZDpaMo>LTeyAh+H?6gJSH1IH1fnk-`4aw9l4hSgMAw
zwZ$t7#+V>p1>Xj_Unnp#6b4Hez#4BTP76=0^w{}k?c)sh<pZ-+J`R4%<_je5?*K3y
z4zAcmfz=QSbi$DMUl1t5OelB}=!}PX!UJ%YGG8LTPO<+VIW%8L#Z2n2H!q0hVeLW_
zvsi!xbaX;KEhrU)$?}WN)i||6W7&%tGa5Tuvo^^<G;F|eu~+aJtYRv;%KF8MmSjcC
zY|Gr)RK>1|f+c_1v}Lh;bFzH%oFiGjJLTUq|Cyx!z=U(z;gRKMi;mW$qjmNR^G_`}
zj<V3&q@#Amk#w{yI<_PoK*t5g4rs?NI&wvTX?W#}lV4o)ZcTc(&Na{X$g;u*P%Iz1
zVy(F@h7Hj$)ao9FnJP|>V@W!ehuu9d<o5LI*7*!x!+{sUtFYJ&Si-WsKkUnC_=?>H
z)QBG5a=9DBWGus~#zE;+$qPvhv$~>u*+I)<#=ofHHufzFw<+Q502QR_R6`24E8*-I
zl_E=*7mu`L{AmX>!E+%XhOWtHy%|O^aAjg}20`q|H!WF|DN-y(D}K7|G@aom(YK=G
z!|>)}2(paln@Gssv?tKSj%+L7-!!f-SRs98P~V42$iV#<<SRkJSlkjYgAB`7Z?MOA
zA2Ti$84H$~b(IHKmggQ+HmDZypqav$4p!?_6>%toFM2oJ^=?QPm!*qKCLBxEff@f|
z-L7Qau2l8z1jNDaqC{y^(%m%Mn>cVf*?M}Zs5((|E>+Z*@boRaD-t#BNq2j?Zrj{}
zWZj{JXWf#wC{esV<=rq_c-OmesWgzNdm>f(WWx7kI<R%FJsIenI5zd!q^CwJnZlcr
zfjyr#+*>x`y&pda2HE_T&0oAIs~JP2TiiPg^I4E+$tU;O-u-=(alSfdlQNDt+O#(L
z$Vm9l(8;R`&rzVQ0N8TwP99sRNL86db!j%e@ST=Qv6Eos5IJ4su=D+!$oCjIwEB`9
zm>`%{GI_m5lb+6<GfFBFgDMg~$2bs~0F$XHwgfzf9a~x+%Bw}_z;NOgdaWZLF#xo~
z4XqSq2{<4C+Jaah{WnB0F8FbIDfmN5O3oJuv<Pv2{1OiAl2sXx-Fm__^YjWwzw^)h
zkp05wfDN)UleK>O^2bmrsb4j#0oYElmC(u0-P0Y3z_w)7_K!KdPy#s^qBvW@N65QZ
z%e0p=v9MiQ*e)%sK?`eOg;U;clTsjgnV9<{XNmQwX}PFo#Y!He^cGHaOomtN?A5{H
zkZJeir4^P80zX&&M0~Px)y-nti>>8}bz9~-lIwP^a(G$U$l3fKQv>Nc{(IzOAj*1a
z06nEW1f%q<Zh&KyUcssmJ1`0<kQq`S3y;kT{90jB!6udHM!pOZ9|l*w87p8ap8i%p
z@ic)<*^f%Rb4(MOK>Z=pgtlzWF-_=Y7^exdM)n^(O{_5;@R%T!X@Z^M#&pBZ*0O2B
z*{e?zVl_cM0k23WBH4P`K+7!#T7DlHcY+4Xvxrp4glids7GDM(k3eOMaErJmhCY&8
zq0ZomLZfv#N4DLN<WC66NN#%*7O)KT+h2-h@~5QVwOi)aC2Jo~c&ZuwZb*3>XP&$3
zZO)+IbzA4^l64&uJyREwo^?9?2JzpStlRr(!@cF$W4fP!Ymi%xre^FXY8s&G@(LD;
z^j^!LquJz~5wy_;J+%RQ+A|1vf_j;D3L&+kGfydRYr@egBXJYp<9-V)n~_-DPM||n
zQ#?YiN69%x4(!d#&L303#IU>s#mizVX3))ZjmerFL^vw$Z8TZi<Xn_t0Liq6I)t82
zMky*gV>gBdayB>zxghlXGJWGe<Ll~?s$6Sfm9qqQNg5thudFB6YFQQ0;xGl8#*TcL
z$1N9V6=*>i<o&co`$7?p4r#<dFLunP5+EFZD9fEj=T~zb1JM--4JGZfaE4qi{d=l!
z%=#<n6rOt?Bk*f^x6NO*T1lwPjDpZH422u^Vh2&?nY9gOUegl+&n(9h&upgQAGaHH
z+3ae4c&oxQ>t$%I2G4BQc;h_U5>dWPJTT+KY1fm5e+pu_lY2Qrhp<{e6ak{#+LTe-
zk%9RyVsK%4kv0_AB2Kc02;Rs7V=N*FS0vj7=vqLCsMAb`ypG#K2(gtMwxZhupJc^8
z<8Vw~-LaF5#6c0Eq({ahLa@;dYXh~BQoc{9hRYh{V<h(x%XIZR;&5vl7HfATYj-Tx
z?n~D0`^(w`lc&Lo3Te>O!+%v?Gi3pDoG5Nc`zvmrymfNM|Gt02vh07e?AtYO)XYAY
zs@wX$f7^<at5|o>#ckd7M+NT`K+$8%k;RQi5}umri+4RuD_$;e5R8wf_)+-je{g!d
zQpasNYWgX&X7u7AN7ruC4_v0MowgsiJKOM*o5y$*N?n~bbdNx;o3pa4NwZgtG<(x*
zH_me>99wmoE$$$2%OcFXD2$v1BVn!vVQzSA-jZzCx60w=-aeCcn_Lp51@+P&0#bTb
zzlfNOEyxnK?P$ifqnU>l5p3<jN+0b2!C*DEANyfg6ZS={f<raRO&gE>upGme@(wjE
z@6>!iZ<tnhy<}AhX}?==VSBNZccT<4$!aiP$-Z=7ZjT|iN6DQp<X@sKlB`Fr>wP5@
z7)mH$b@ggB%&sf8G_|^Vm9G`Tgmvz^6&X?&vXYC}EZJ{JTf{a*iy>qy6Psx~Z=xk@
zFv7<Xm9>G0-ImM^MEyj8uGyzjXl(lt`^Fx1gU%}c2=8oBCU3vd&YR>98YFZOVGWBo
zk%#SgCdOiGD5A3&`)Q32SQBbHYCk4GU5BihJ8Do6+tF$IGk@x_BeW+b?>RBzD!C06
z$=FuKj3zG+J_nCc3NOn-aS%FBti}9J70r6a*esTFp4Jrdary%P<V{SoRKYA2_w+p#
zgg$ZC;bW&yb{{@_E_kZ*jMznkMnXVEFe1+hBzl&-kW?ExGK+ck1tGRG#*el>un)6R
zo6!R?+ROr*SGj%eSh8~eg!cn?DUQT1de$dB>t}|Oo*j#x{YlUM`OEKnjzho0Q^p8E
zZW`E%vNE~VT%D%^lgh#7$)<N$H)QR`NTswLkRc0YfRw%MltD<_bLVkTYm4R9dW)yJ
z7oisIZ%cXG6OMM7xbcXTHv<SX)Cc46Kw*m5fE4O>pjJeTiclwRz#vIbWP_F2VwB9f
z8xp!vgt&o#gK^R%&dY$`PgF6=&Dxe(u_D9w6e-?l`-5QU{`6kzSK=I*1`+KsDcJYS
z&s1T`ouk5DV+C-GY;@D3))tA&P}NnXs*q~vRXz1HRh4q*sH!sP%%b9>3_43#lQHOI
z3Y{eUEb7w_ejfqRIn*+9@C%i`)ITxW_6WVHC$FQ*enx}Pr+%hhq}(|wsq`YVocJic
z$PzYX^dhF6n<%_jrp5kj=^}{}#f{X8Zt~$mGQ}7eQz1D{uNI2Hjbsopl2b>oXUKPs
z9GZ^AC&~9YayF5J>((;FgluLe=SMVw(P=b@34fU9Bzaq@8S=r|Dx7D+@4MUI^M8NO
zD)X<nOxDe_mf3T2jk8bP@vcH#xS8a5ev;$W&zzg>c%y%XWQcRI`M!5XnfJXuO{xgP
z)reymRvb`g{m5>$)-RV<On1)|&kW3zzuKED-8kEqEZw?dMGO)uf<8)z9Ik?oo$xU+
z9-Wh{hqTb<Uw*v%BeU6BpRQQ<dey5{Gx21_rWF>jeaF22ojuII?9BhzibP6Y_#ij@
z6!l*2JS=~#YW=JwS=B0ksAK1R<2#s*Q0&k4A%k#|#%2HmsXZhPpl7uMF&Uh#iNuq<
z*`QcwAx=%OL0oAysH)ka`euXGOfyq^gB?Z1M|o{ftF!hynR=X4a6tXep>o13b?!Xi
ze*4`lk6Z9uq9sSxv&Of;_x9&AMLe|**|h;*+h4#+_6k_c=d3ZQ==o4eq1KY@QozIZ
z7czdd2>hsDd<<PD+3D~tbn+C&)W}ZJE+tSEL>URQ7*k6&W16MemU9a{=XScfMltji
zl!$1@fISc(;4%bNrxe?H`D#qA&F;8Qi!D-p`Y&`>O}T7WAhc9ZrTTO&S1{HdHS`8|
z2j@7wvVuu?SUH#p4&(FaBz;rkPQK1~Lpe_EWYVgT3Zta)$kZH^BP5a?+sf>i+EyeG
zUnFNECG|gf^5m&t)@>O2SD;-tpk9S>$11b${Zx-<$ze5O+&qb_!0u!)^Z{M+mdWI(
z>Tzut``BgV%w*=5%WI()m!GZ<yngD{Q;XF*lGQsFtB)nCk3nRyR9Tm(-=28v$a|Jl
z<*5nphZ_$qZakXYcyvkSTGQ2=((79n*B?%<Kb)>_S*$;ptUn0F+fA+s%P&7@x9n4D
zPGL_gNS#4Ff1k{i0!JIy>IjUGrpLG!ov}(F#gtfH8J`@N&!8t9Ee~Q(spA<6&A>yt
zDq_{6%OuCN<NZTG0cQG%rn;=>l1d5<;n=ap`ba|>AZyMOa4@f=YpnpV^W;qj><-fk
zLUIoZ@qvpnUo3Yb+lZqn7)jV#k;g|FTOiBiXjznXdWlWUM!9w-uo)P}gVe=`P~c7O
zgFRhSmfPN2-bLT0q;Jz~&w_8qd;SUQa%tu5=&k4?_I*p6X6<t&^OjWU{s}izTBu1n
zV6<rF`S%^$*Wk&C)UeUm0W!CiX2OG{!x#f|F73ydQIkL$wHHkW-2;=Z1F818_!J0_
zM$Yu%Q^gW6L}YozI$#cyA)-1(Ds3T&G{%!QkF%ajxio#W4XbbFz1#rfMYeG&fy;H~
zIOo~JJec>=A<3T6B8_NjE!y=7YNqwmxZ@Mm2Qp<1vh8E0n>C*#H&5E91Os@+>GUHB
zyt5wO{3W~EB9ap*W{j-kI0<?Or*3xBxtA!;J*x+3VAvHFklUisHd)h%9hzZlgTS-K
z9kyrLK>>y;IC9A5f)b|mdf$BDlZzw`3gzyVzd$AB16@pMgM`vDmX;W>R8CB)BL;l!
zrko6EoifsDt4*lJM%5X}bXhW8m2Aq_n0&*jDWb$khlVB)_Q>LH;<ZONu0=Zyc&)VH
zFnT>^MkXjQkv*hE|N5kV{i1(w(!V$5-wzW=bQZDYuD1n>9BJPP*!wFkfW5!`0(Q!4
zD)MIcg1ZH5a81i%b$hb9eW7{_4i}ad{B`w~Tivj_^c(~rg+)^xw-4SrxLCX^S-fk$
zFjWkb%zM+-TUM-Ge(^^fl7n@wswMMfi<O&_m78XJ=a0PGovQ4aIPsyo1YhY|a5tyR
zt6%rN>Rl|~pDf=$A4!#;nCMB%M$fcdJ@3X-l_w`oEW67R?%M3w?spqgl}8av>Qn~G
z^pn*p)PX60eZOQwcZrSNijlE+)aH!y==4uQr9kx!=fu`B6-aY~5xT`N#svHen<aGu
zFRKCRcXo)3wp$c9kU@YJS))yl0s>gxKTG3JGAN9{jVr6lAmkPE-Ko;fwFvor0syUx
zX5=pVAAVY;jj60@l}Qb<dtI4UHJOFH&7W&prM2zDrd9TdLG-(L8L8z-k)#b7;6_7A
z1ab8nYF}=91eIFiq)}4#!y8On;Ap#9bn-ah{u{70KW6?7?l&>@3|Ya-SlP*0nuh4h
zS&z|r9jukwU}u{255yvTPqN8}14rEyw1+it^QdF*c^v)Q(a{QK?_Z)cw(!R`IAc*X
z@d`{Q(gkcm$|-qdzg!x-KqFfzlgSK5TOI=4y0|5RrmQ}VuixZ8vOyA?u4sI{_SM?i
z(z&8kMF)%{R&99w;Hw8`cR^#bYS+Zc54;uWbuF{4v+L%rzw4SGOH`k{<s|Y}cgwk4
zUOmynPHB*`^o$dSqP<%ZjxF*K-Y3b?(BZf7dB$Z{qieIem0ojpw+Tm@m7)B^d?xmq
z4fE+*d?t=S8z~MJP%S2rNtE`XQdxMxL_}G5aYw-mO$sF+yUT?aB;<J*Ua(J$VZ36r
z;|6xK`;?L0oC_y>n-+YJC(eELld_!OqV^PL%dkjcLf(RDA>Sq>lGh{M<YSU6HmQGF
z@f9uP*=oL(+C<ya5MQn2d91EP;IS1Bzw?bhq@R^)MVoD-tlqYfBtT5xZR1Bai?u@)
zTEVLdt>AsHZxxzu9oQl!DOH8FV+|=4VhmC$dLt>-s*`-XxK7hy(?@2MlPQ{_097;v
zKO{!0R{VbCf%D+%6mW-3M^I#eb!%D^K+%gTfP$YDhu@C^4=C<O)H)fps3!+7DB7bg
zuKrQZ#4)LwjU5I3WOAm*2|Srt;wJjFH@E4hf0Qv9WlZ8T)MsRDROI1kYwDXa<3&R8
z(e+u%2bl|NRf_Wxk%XU7inH_&F2xZCsVg|@3jAdpe{6YRHyC9&x6l>h1uBSb+3_fd
z$u2V3A#E<5LG=IV5*wL!SHv}i#)V*rbe*zh(ffopFdafS(_#q-Q<1qQQ<|Davz1&j
z;mokm`&IPsY8Sc<GwR{qslMC6TfxPW9m$d%b2k=BIum`Ln{Z`Ia4P5fQl*F1V*F{P
znlU<>1n11(y96hftteGegA-<&9B0g=AJta59`O{|<s8x(H9sUh)>mv<k{&BG4nKjU
zM%O`9Bt7<VD#3E844s(ujA>eZupMQrxwdJc)x7o5r7OC;5)z%<-*u>*CLM)`F~yvz
zAnqq5$HUIU<xu~*R3pb5U1%Iy47{il^{zF>%YNuOI@PurWIMKT>orb{;<GJ2nKc_C
zIzfhRW&Oat@JY5KBe<YP$R&mmuTTOPEUJ*{8_09y?aHi0wJS>iBR<E99h8d|>1#ya
z#5g%4<S?wHO>sr`f**MbVB(j}52Sqt)Kp|Jzd@4$&9t9J26OO;>3<vg-cag5?}SYj
zmHgZUGWo@eo*JCInI43Rx`&8iJVi>{@PemV5x!_){DP+;lf)Fv+untc`0)KC<|nH)
znkc4aLwEgyL@^5(0i*6rPR$tw+8}r_iA4|;(^Qi6=qO_1h6;11$pU}ch0A)@5awqu
z#oSrh@CxBi#!^h4Kx`s`xA+P<Q{-fUt+M*kls?2;lqlDP!6ZVhj|`O%3w@73^0TNK
z6jW^7j{Sf1g?GM?dhGCo?E|+zt&MB=eT=pCcK;~b=St`OsnP@YkFq@1|IaN!60f7b
z)n&3W&CBwO2Tk*u5J?q$tU1jyS<<6S^X#L4ju8`onIM3%QU9|El*H$$>ZA}WehE%)
zu}}M>fUqw6`B&5>FKS)#Kf8cNd<jj-f;T2JfsO9_*-G)N)Qv>!*c>HKPfQH+C?Lhk
z{VO5@XBZKH?95jINq&CeE2k$<FM8UNp0;^s!qc|kIka3@vH}~V1vqJ!B|m=fMqqBK
z%q|))T1kn&7^%$TR6aRhrq*dv88=B~_N;LDosa*JesG>!5yE_WsZ8~nQW?Y;q%!m-
zOJ&G+K#|J0vZXQ<ph{)nXJQomepLPdF^ViC`eafWhc4uSSCu)z`(EFVIQ+;YhB}dU
zq_sy|q>*Hew0|aHHU5T)*e3azG~AA;vU_6HWX`*jR3<!Q6IW9d#wM<@R83n&EA??6
z_rd7;DvCKT$C#;Gv-_m7v#}Qaxcj8W<mTcNv^sfp_MEp);vQ$-_M6%<c32gsR+C+O
z_UI<2_0o~U{+ou@v^Yi|I~xke=#Ez9UU(S5gEa*hUdS-ZOxF`ZFBZnQm{o-K-qAL)
z06}+;N66e?W@@rqio3=IW{_354kIW(H9tS@${01E0k<80?3mcEn$$yFpGTjPvD!%-
zQIhY+df7$yV`%p-i6o`HW0vyTw@9V|*&;KQrRuXt&V3gIn5w@b9vE%WOgK>ewEGL%
z_c4Pxu><W|QkaY6*!3tsW>>i+iub+ap4~dtIbE~h-|&w6C#x2G;>!hvrqPDJwcD*&
zw`d-1Y6+-4Mt#v1315b_i}SeEIHOnUM(fFLAv?|=V0F#vNIJUT;*^&dw8xJvS?Wz3
z!^aJ60?vgW86Fwp<rCrE6mNz(4Yo#+oPEeE$Mhlwij{vz3EanfdXIOK#q6`^n9=uV
z<t2nvn!B&W-vhw^E%nap$PVS7WxGFNuTDD(K6DmOoqDrl!Pz`lv$*wea_ixRtw)y%
zY7>Fese&^J#~C@n_628Cy0m)2{h_ZoMcoQ#!MAV8Up`%v@;5E|+mrtG1^<>0vCmud
z*j#ij2;IoTrd@Cgah}>t+rH*}80_atw$h&N{(D87xBRt^nfz2$d!ll4V)JJb<!4g`
z=Ms){GJ*J8R8;(Ta5Q)$oF&eg;AHh8-ZUyfN;owcI1N#P{Af7s){j}}2lHMuP2y?=
zT<@UDgh6#w%zljB-j<6mS21}YkH<kh@b=2rOem{?+X{KsHCVBFiZkKg4dwn07;~p3
zAA4ZR`Yg2Gj5O%}`kG#Zbk-<@P)_$?8J>d*`FRVYB-);wPC;N6M)}g1`NcdVJ>hL{
zYf2Gx$pk4RebG$D=;`+wZg^7e9&z-J?#sYEf_EUNY}->dLkeR<JWPO+;Z7K_U=~2b
z@fhL5h#>wtYM_lH^#P6Hr=}a?YbZ|9tX8C_uOno1159XT8)(i!B}zaAj8vj%@15so
z>!!9&=Pwkmzw`W0#2G5A`T-Q8dGtUFjNlJnjs=J&1VVv9Aaa0+giIg8uz{*s%Ri5c
z9bmXr;M)Ud*{#=f?Ky$BktT?5;-iv<65=v#^rd7!eNIOF-$9H_4T^I#P_?p2s3MsL
zC6gfjE)`{t#x5{M_*nxB_cj$p&VMCZ@O@+fEr99<UHwpvBa44+FI<AgMD)$R1^33K
zqN=p7SJ&A9li{l&Bh;26YnN#$zi_H;AwMwFnJ)I<-f?TkH+TKW%oWrv<_GTP2mZ^4
z?xK%5FQwDUOM42JiG<+LcZ&KP&VqOEa#8#2`0OyWLJl-6H#E*P;8KsmCgK)-_gq|Y
z&Gfl%Zk~BA;c14-h_7L0|9szq_t5)}L;q!^mWuyrjP~Jw*WFpl&G|ZA=I?V(c)#zm
zb{5;e?=_RZn7O6SLtD+?ukExSYBm30g9$G`Xtl!Cz!JT}(fq*3OEo-3;Q$$mHd>~~
zbv*JAnxslxa6WJmmXq%XK80K}GG@G+LpIjDjBl(bSR^STmddzTW5Z1JUDty9M8a}{
zQ9-FV$5|X0<A=%SSjL`<R`D0JE3Rz><H&QJqHvZ+N^fJ_RZyyz-DsM*0=aT+B<qxt
z)KK;z6)BwYdAax-T@Ip~0F+EF+?wqaU?z#KnZc#exMxwaTpA7!;q28Ppv%QSgd>^5
z{B_B~?j@y`5X7=Ihg2OTWvVc46&GO(_$qpt+D-<`V8c`V6Xb299z2drOxRFbJ3aE3
zCF>`h6XuCNT!4@$-f-8wAzjf5t^0~?ixoSP6+7mhOI7TiI6T$xwd0tNN;d$maV6>Q
z$=y>=q};G0T_tyYk^WV(2n7YKSZ=v>8nwuTm0Vq^P8yI4n_sagR}s3wCSfQrG-w6g
z8*t0~vJIDs<y#;lhgP4)7DB&|E{4^_PXv$Zv@>oSD&$SMbVl_d8MoowyM4@xFWtbG
z9FRgguIF8s&vDywO>$$JTz3@G<^l5n8-B`1z{2NU#*`)Q)hD%FT90%JU9Bag(%J-g
zNn>wOl=48S#AZmVN!Foe;>c!^$LyDi)qMKznBxL$pvm<cMNg^I9?tJS51`H6L-sM-
z1=A=BQB$8&bpz4+*I-P2bZ^&i^gJ#ikPWCY6>r5>T8v#@pjcLuBO;-p3nSQn39wD7
zcJZGPh|}ag`i(RCsXAD+9)ZO*Vj2aUSch5iy1-#(30F6S+jKwpH3bGEp$n9a564J7
zkq<NvDAwE9Ji7-5xm)D>!J?s|5t#9~0UO$(0kWCRwuRW6V#O`iKI-csd56*($~@{}
ztSD-an;4o#JDV~xkP%;51yZpU2dmpK>pKv~myEqb+BmY=-}V-lNH8neSp8xQW5szw
zd7QpSAINsLtvIUyo8RvvrT7;tIgp$#Qg!MyLi|(e%0DKD<mpn8kutKfVv^fH93(&P
zJ)--tjK>*cvV`+~)ki772+iOKnYhwbHx1>9e~z#2CSv1*2gIhFtE@|xZCotdnk?J8
zP_})+aVS}~eIouRee<TT70&lf6eh~H-*p_q1X^iJSV}*_bqSSArP~tQkGyA1mG(}$
zNva*b6`sM{h6y($AWbc}9^tRbS|;4fj>_r1DM!=n-o;J(lAHF;Kb_jtlXUbTXxUve
zeL3mgIQyBq?)D{5(JLn>Pp;&d3-^JJ6*k;++n`-p0L@4WPvG)}rx!fCN&T{D-SqR*
zQ847KTZk*)V&KYMoU>-p(U5dB%sf4FD$#M|-RF}X=aP-*-goq^tmn!%uCyv7GEvep
z`}FLoWXbN7dr!i$=O?R2O`NmK#AHRU`noo_Bu`M^O^j=^D@IkHU3cLnlVYmamy2?;
z!y*cU4COIgIBKDBxsxZkgMILvVaBqUmKf}8;kpemP7tE(C`*ogkx=wJA37lZ8yYwo
zK~i$Q$-P!J)0e8)xLDDitZ1LTIu~E4*vCl!&%e^dE=2HA+?nDD_FW7QT{cu&{MV?L
zp~kG9%z433*=J@OQ#G3xYqlqAw$B}Z*RoJ^_!m@J@jcW>{0nl{tl5i(nmrFyw%RR=
zwH?XYj=3knpVc1v1=WnYk(ax%GI&;qUBSfwLW~iy9@_POq)z=ZRh>3PZ*mKPJ@Xx@
zz~hU7?qs0*-KP_0pIiuh_5qdu9I|~9zzu6_!<>MP^`koF$vhJ^PCO{L&=Y+0Hob&4
ztv0eYy%xc6tlP4<4)(!1=AM4HKDF-f;<}#Xx}NveCqDDU!n!9P(7vAqF==pUb008X
zBv<_~Ou6&1M;er`paE=6hC!*@KG&V9+r3z~KUuebe&{`Zp-z?w{9^F(8M)5h;F+G2
zkKW^7r3x!_WO$ZOt=qo1ZYM0V&AZ?2TUdAe0e$?7h9R~`q`^=p>Bm0O5d0EaB>p8~
zJ?#PgV*0ud#REPHgA8XMy>1f*@PGlw##CVEVqkAFuy_8{dmRgbGrzbhlVRDxkyt2#
zY8Qa!F#jX<=cEBbdV!PGTNbN3lGPn^Pl0$>KZtn$q9KI#vUDo*Bm~8e1|eU|fDqhi
z{4WVwXkLTX5!*SVd09O|&lpZduH_>#gl9}ETO=qDm&u`;NcpEu1<yc`dH5`|&hdXB
zA_Mxgoq;Fu{Y>hs-}R)@QRPPSoVx;K_Fhc~>2&TiMs4>zT}B5LAd)?@M=e7<flzJt
z0CxYnaQR)Q@i-MNl?)fkLW=-qYMasUjca_}%4>@t-p1~0DKRXYG_@Y3BKYAAYCl+`
zn+I{b3$EG2!fVR(!Uz^sSmleybZMY|nilm^m?~O$=33G77DIno4Siv~zu%!9k<*MC
z?=Y5u`oLxoB#cnyLA^E@>Q$t+=@IJXG?ZyWSvUudGF|tT>Hh>}x(sFFij^@tD-+U@
ztp3vu$QkPC7<1(8KewSwr=kCxIs4C<vkYVZ;i{K0CmZ41u<KFT=ojh?J*$i|ZWYlW
zSog^moD6Mo@t!dkYkU5EZ7<K!pYAbt&U)t?+U_y5-IKHJo}6VE+wS4>$2?T8c$HcU
zzCdlSaYru~reYsZ&*jx~0Uv!-W=mn{yC6F*5<D^DPFBg~+iKWqP`S!xK(?9-L9ZAO
z(D@X0IU$L;X^TfOfZmBqefO}Es5DBtC(wx%`#_v7vWnvl1X_;MzMHYQ*1$DfQH8Hw
z!L6&Xf{qonZ1NeRWg)^VWuFzGtTtpQzB3RXflc8+GkqsWwP;m~Wr6@v(5uqMD#H>%
z0*$1Km36r}%|iQy_EvlpB)kc~jC==2#7I+%Zg{;-EqssMP1rJ2x<tuNxnU5VnDM|9
zXHOz4>j`;xQm@LB+V#bI0zLAUrLnan;!sxa%z8F1dz5z;s7#6+qzyB<TFeG<uY6#c
z2V_V#Tsj8XJG-H3^pM_;b~(I>@+(pkh(~DGj`lx?MY^UeGz9bX;Yft;RSRDjf)s>r
zXEUXIXpY!h!xTod*J$%8S<H|zTqG&c#R#l}+ee#w<Zai7r>qzmx;!*|ZAc$5wVzuG
z44R7UTvRvJ>2GN={bTa|Cvu4Hi38+>$oUL87sv^dLlPF8Ri$|rx8kaBBln<)ILRZA
zJ)%M|v`C$*H(xzvr9=|53De=a+6-<kp<I$jRxVMJQBN`Zri2pOBa3(&C<|;gu?;50
z@Hw4eB{ZPJvWSg~|1T>0E13Rc{h($LzSQFmK%5YNna8z}9ve0faBUh#J{wn9a@%ps
zF<m<2Px&_BK3=!?m0gp&rjAT^r`&ZnyFauSPPM#tZoytR6aMc0<c7!J?R)o`r6Qcj
zN)~Mdn^v@C!cG$5l4<u{cf+jZJB~Y!x$^lPspdoP4&H4(NfMXd$=<ZD51+=4CUzw%
zrkfJ%;vKv=3UR&pba%44HSI2)ZcMt@EmhSn1Wvrym#R8DaWY-rxLDqtEN`Bzn&VUD
zFk`#qt(b1Xev5Y_>Rz*f3^2^DpYx}xcT73c#p`CAiQ<-or$sI8!>ZaP->&&aNR_G!
zCQc$x#rmugGjdf-_a)tREZ6S&4n0?O^J3MeWEGv2?M_v7qGrW)Gy4+7n-iYR>bHJg
zHJ1nARLWhSfW)e9{hR#T+rMj`-Sx&0`k-zv?6}kQrS%<&;*Nx;<LCSJ4-3i@6<w)<
z?u4V8v{1uu7B9Hh<63hqH0|~$O1CE5TN4)9dLwpi7-P#g)aMAmtptNHTz4B)t$s+Z
zYhvh1kf^%8D?k%1Z6vcDBpwiJWLEWQkC;MrH-O~&xu!lX-bP9%pI;A|y<Oj=9)r{x
z8#orj#id|Du$fZ=CX9reS&uHuhb+9wf(;+BKv!?UUV;^dQ4}`e0^KmIF`99$BwYiZ
zF}2#=DC1zi9;639?izF9Ynr@%%r)kO!YcI<o^dz!F3h>C6hNmNJt(KisH;1(uDFa4
zM?^nDS|%aJ;L(tYM97%*9m|w!<o_3xf@~#2)cXK}!>A1@Nr*SdVU(1S*yEI+WWY>(
z-Qtly^PebSg&eI0?9=QRKKqQQ6Iu{CD3Y@sFOe1Z&yg`kW@t2$2#-t^>mF9gnD`^)
z{*OcxzlRb)6MY=6t=g9?2&4+?ZysItRWACPlfLGZZ{y9Lzwwn!SeE=9urx@Qua?!N
zYq!Ee3*9yTF>X&SNqdTks!i{H-?M(DkSi?x$d8L#aZUNGf9~3X?_k3Fc*5~GEWUip
z|E+;r71Kvkp2nMp(={6wYxXB=_NQtN;{MeS>@`cJJJO!|nZt=q`$22UT$66lL@4&@
zV(t$;wKIKldlx(h6Yj?omdDxBUHl>1qHSmrBx;HtUj?KX@n|fU8W^lX18QlZ$R4n>
zD32ay^_kh%&{<wE^p#`Qo8|h_E!Pb`ID3FQfK)hzA_vs0c{B1>7_dXZ87%U2e1L5Y
z5!Um^Y`pa~u$FWQFcy2ccD!JaRmD2&&DmdY>#Ah>X^wGNVWzVeyqzr^w~tw0s5I0-
zH;$zF<d&1G*9xbAO~6!B&V4f{zNWOq#PN=C$Iy@PJtx|_-teW|Z8hb@UE6&n{u`9&
zVlCK@7BuE6H?A$MbXuwVbW^igt+Jw3M3S-|>;z`F>Sffy&Fb(d?a~$udcmN&#xgzV
zsq-i^|GqLweSkfBT|oy;xlXTu9%h%h3uPAESLRy%U#EUc|IMnW7xgTNH>mNvkB;vf
z6$k;b7QS%I5eDt21OD+wHLbjxip4eE8DA6{16rLSZjIJQw7JH#Ua%O#eN7?aQLhSO
z3>%umL+!-Z>vJSA-F@PS(8`tr*iIk8t|7Q<wk|^QkcgeiurPpvaehBQ%Lse|+&E)J
zV=7b5a#N{SkQF>O&A%*nScqZS(Jo*G^L#xmgX;GL>Zz3aR_(XFy?va@WQFLd*ca-@
zTX8QbU3^Ttv5_0?fzw!_iPxZ1X=LQt&Ze?JV8vhql&5{z^EU!AtBUJXT3N;ACa8-E
z`9>{TVZ@Z%v#@4l*Ef?cgmOzMTLBuE4f>98OkV8tj-EJoIeg^`tsspF!Je>tpaad+
zcH9z#JE5`uqZOq9MTr}M&4H02nvQ7KSY1oBLj{8|Iv-+GWqBOQ@>m$ARMIz;<Ij<g
ziSPEnhZ&ZqfPYK5^c4}Q;mDG`r^vSt&S>!yhII^EBku{Ya&eyi%ap2{9OCVzT1Wu<
zf_+b&IeaeIcRG0PM9-OE@9Eyd!LHN2eTRGdvR5~3?NdkD>3mA|f%|h5mSrWfk;0C^
z0Y^Y<A2#P0rtQC@Ft+}213uLih`cN+K%A5>FN>6=iR2;RQ<KG@$zhzu*(5IBqaw-i
zVQPx~1RhM&)pR3z<7?&xrf~(0%8GqBFj;XZX(_$gGjR<Zy`yl!zddQ+K5w7*YIi@I
z@;5KD$s5x)E`IiKKL4`am+*Hc?VU@dm9K4|v8PI#C)^*nOVZW#vnOCHC*j$(T)YnK
zHRfPwxENPKX}ddNFM}r5RL9qEOjux-;^wim-8XgOuDv$BV}D{t&uf;~o_PJ~SD&73
zS}5Q4UVMV?Q(kn`B^`A$ZSt*R#g&tev=cWrZA&`08LPljG6Ol6XFC=gThdC(siC{h
z#`NyT6T44-tMOa0*ZSUUcr!NB{OT8yWt(O{yHNBP_TMJ#EO%ql(Kz$jS$@H>UCVv>
zuCwluJ`=s`Y*;F*dhPhEJyo`4!ox~ryW1z{8W$WpKUs+%;zp&$o%7DQ=M(kHLIPX)
zo>Hi&xqMT&PNZ@LCJ<~m<gnwIX`!HL){!jOy25UlwsF0tvnJ+eY>s4C*0)lDy1<pK
zl?+$_KI)?_A^afuWGqO&h5=Gq?h-&K`+=NI31vpWa;4DJh_0Jrh3o)ku2kCf5p+oP
zrkO6v7+PmwNvv_LmMXgd#-3`+9w_Qq-`1qp7fj<;gCrbsU(z6xnV2#2+m5#sW{nsh
zEO5TTl#;-7uxYQ?$na~eb3!UhOiAe&d^F>~P^hyJYM7dO%)z^e2H}E_E`uyoYk{t8
zgp}-ZjfbYPP<cbu8WT~b>(c5B=eQH{Q>vu{HS$m`QND+ALVhW0++8#DDMBgD{XL7t
z+}APkEEXl?QwcAB3rjaUCgOr#!y@M@Vnotll8H4@8F8FmSK*VKxJ?<l<{_xsj35xI
z6T`z1k(PC03=TAG7$w!IF;#~xEhJyCQ_aifd{JIV(UOQXFHnvg3>}~UMjvI%p#M%j
zrmCYa!>ERm4bv+WYb2Na8-#kQ<f17FI(?+7O3GpSGDuzoRXt!4Bszc{=ZUT!#3!M}
zie*gk)Q-u6H@njXC9hnbygc2KDrmfUH0>+9?Y`xnK9TY@-}RlGJ^Gy!cTOaBok+Ew
zgmlPWaPv#)BLAd)35xJXAr}ITDSm8z$9wjL;xmb&&rH~t^4lS4N;|x1M^V~eKXVb9
z?&+#FDB2X*ZXQ|nab-0VE=ZZC_TGiC2lqENr7E^f9EVn|uX=hk>1~<4G+&);Kayxa
zyR>QZoNInxa?3Gj^Gvy>_hEUqj2nr(jY}Kb-;T}oq&6NvFzlN(Ep6LD_dix(6}7!+
z%9W^Uzw0AY#05oDPk!wSOBJAwsfsq3AoAACR3^Qf(rr8E3zBU|k^Ml@w{h8BIQ7}P
z?&>!yXOGSuxpVqY&%IyQnXYS|Eq$YQ;`r3nyO<O<q2?>?oTupKDR~k0Z45!~owxrR
zF+_=gsTYB%IN2f7B&Y#mHw&=pfvTU0>5~>3Wc|2?hC#Q+x~g;oIo6{L7K<_g+_=~$
zkGD|jT;dR3(_z1E8aIp8I@P(P?Y|+b^60mHsb%t3hCh#mVJcAmiV|`F%9gPHc!O)P
zDL7?9Wo1-x42}#j_7X@WUVsMcP&|ecbPQFPNP#d1%B->BA<0V0zcDaW)Q2)UcnK4T
zpUApHpd@%@I2MNn9hlu1u6vHfAS{oG1^DhQ0_PWz<tDf4;r!JT_GQ5Ik;&83&!;>a
z)4u8%`(1#BuX1|l%)VsRmhU#c@7oFEtuvm5^0q0<^1Aw&J;`<Li|e)}*KM2In_71;
zQG9S}C!D2@U4L}^o#XS@QXNO9x~D6X{>GW7@A|hcckD2}e&psV+CR$2r{x`Wja;Hm
z)X`@At&%~x+Z?6`i*cxRO;4JJFsKj>kJ}8Sjw~NQ*OfOB$Xqv(p?$1~j9)<E^zht>
z3Gt<C#pg0PtQ+>lgks4l12b%tzI+<DFcHVb9<1`wB6{#eOjNlvSyg!)VsotI)!0EC
zo`5ARaSUa_92Sv5+*;I5fI!rWnedfL42qptGbpOX;`b>P0fBt0R~=sOIAm}NqB!wi
zlS9;1@)*}yGS&SK3y+PQ*Wig=L9NnLnVJ?eYMUWvkBKGt;_njJy@v8ZMg837tv63D
z6>gXrn|mr%c<|=&zrmH4=B2W2X^%Gzp}VJY*|%;6f~Acgb9se5rnEn>=--y~Z<}vS
z_z!$+rm$r-Y|(!#=|6VQ>nwLocvea|XUU?YD(R@2KKZ_*Wu=1im4h9&R!+ArSfJNf
zHeI<`u{l|>IaRTBZqMTO<H_yEQ`=7_+$R&3lm7^i7$E&oLGIxIDf%$P07G^*Rs%z^
zkU%X5(1}He$N@c7IiM#fTe*mdWytgAIiP6M?8*6-RAKl3U{IuYqpXxl@2f<rjaOn`
zG~phlJi(I7NX#V?+Gahx8EJEw@XaBZ!;MUIy{7Yq71wL}G&ZYGw%abb=<FlTOF*<C
z*;v2Jw%j!dDScX#kgnh*LqclGY03g5f}UIy7n5&J?RegF0V*?ZYqmw1{m~rz3;NA-
zm=km@{~Vo^i+YaXPQD9}JH4gM1(-jqxpovV!zgV43vBHjEgA|%g*{Lc*L$n4#U#0T
z+*2DI5(Eflq++Obt6dpX_Ibhc{s0{z*+6=QP*k!-Ab}YgmV7dVgIUG}b2QmY?g4fa
zrVzh4%!@A}kN6eJ=<Gu9A)G$FEL(?>^Q%{eR}o?b;7FG9!~6}&LWM{!R@8aQbf0;G
zc@#QYnhgc*tUCXJu<9}r;L4!FlBq#5v6?DuTrAv_EZj6<OM6Rjr*hJ}A<?`q(X{`)
zj)ZqZ%6n$Q!tS3VOOr4cnDXv`@V}($_A|GhSuEL<EWvGMbM<rQ=NnTc2f@2~D;B+t
zNpIuKlZJaId%@OsQj-sn(**}>htP$X+z-@9$##a=cae39*g(yumWW5lIZDnkaw;f-
zoPS46*@B>#xU{Ey;=s-B6^qr{Hhn}kI=>|elfE1R=AQhcXWn^c@v#%h$4=a%0J$(K
zB7-~C5a4f7CJ+Fw{Nw`voLnWiSbbZ-ke^tctS1*0xR3|7gIFRw#1rRY91JVNJi`}q
z(TPI2B%`Z?JRK7P*qeL%aG=VK<4Dn<3`|l!?syf$SJYP*gr34s45T9lKqsJ;>@i3w
z&ktXhYI>s4kvPc!&&eSIe|YF>SR5WAcxQtonUP=e;Bey=5>bf5kr*3Q$r6QHg;X&Z
z9^!*gz7Pf?A;@ooS3_c$3MAh559woOVd$z<z+jhGrDIY)Fbd~2;sT|QWiiAxv@13o
zxvHoDXh|<$1KS-FcVgT>CeR@^2=X%<=PrDueX@PgwIk`;k@lCTODmWBjc*Qq`_dbi
z7B^r^e}AI*z>1x7?}YgRx9w&ZmSUw9x1YN8)bx0&r0r(!lE3oyiCZTY{kxO?-Sh1!
zf6vWRX?Ho!UdT*_aRl&Tnd>F~$Vg>#0hzvx&&8vv)N7p61tYxaCE6X*Xr}(@T)?DG
z`u86I2597EUO{I;QQPsi`dv8xe`(hm+s2ih?~t6~o5PnVi4ra9WlIVr*^+EWmZO-m
zto2)V;?1K$S5YK6RxC@|q4SVnZ<TC+$Us^vLAFa{w}=+q7D^jzoC1q_(FdFWT?Eaa
z8Pf|<bX+S)w<u7c7@7=rv)dp2&K;7X6gg>8LOOHqojdn2bI-Z=o^$TGrG5FQ3O#kb
zoD#OKYT0Ut*s4L_@Wd8Wbk_8;pm;zjTQs=fC*ZLSegZH&TF#@(Wvr9aTsohzgXw_p
zV?$uZ`9%D&kz<FRescJ+!HkCjr-mOta^}eJ$@p<Yx?xiOoMy(tiyL-d^3B3Me8bPV
zvm<23WlV}oJrBJXHY{6g9d?1|B#z*fasL9~Ru$4`zV?N9+UdHw=gOW>y_GB8dd*wE
z;%(Qw?eD#^(s@AZJh0L^taT2n@~Ny@aGe&g>Co=DD*cJH>TCa!4+gKtL-8u1)vENN
zuV?HDm>!LCuVl?ADieUZV`_F|6*G41u$}{*Pe7u=t4nVrq5Kn?i!so~8-;wzwv}Y+
zzp=&2A(U^THV&d-u2M#e<ftY`Z`b#%)F0OB52xfK^N0V<8O&1S*L>A0z9y|W9^Lk}
z=R`#3m`FxBq9_@x`(xe=g<MpO%uIuQ6!(sAkb6>p;R{UCjsFl*&vDZ^?0|<ts*&8l
zZ6*6G62u&yfMh^~JhH%#v5Yid5;v>4u=!FNGo7Qu7i#(Pl*pU^K!h}&Z2CcoYk5yB
z@^}RYC%k2PW19uW7+BhtCPHP~EN$z{%3|H1cC}uz(fK}?>>OI=(EFhdG<`jZUzM&p
z3+@A9j=>e#(q$)9dyc}sUFnh&ZUJS!Rn&PIYG!_@f$6gJN^uJ#VzGr0k`2z8Z5L<G
zPfSnFP0aNeyZqL_!zPCn2In<4@hcPGeQ6>A8^$5@D=(%pGp`U6FCLO(1$|D;Cb&_V
z(u>!p#HkNA6*onHEo-OlrtG6G>oV52R8NI^i!wyH$m=!a14kxU7BM+psDnaI_A=sG
z3M+IBNXAnnYlDz+=K0vz#ETbs9(?!U1B@<ezqYogk#&%W;~pxArLvb*?O1lGq3-$N
zRckmM?NqylR=SR9UB^;gC$#7Z)rP-XK-eIqT?1*kQS~(GX2HE3Tkm8C9AelVSr7AX
zhj(N*_(=0Y{8MLWadxG$N2~0)KKgO<ubiha^4T3}Uo)5nyb3WS%;Thm-W%|`@vZq2
z7z{&uQxy--pIi%6B_GiOEzA8{p!ddz=084vEFIak64|Ro_TG;4-gchUBE4^(Sv;K-
zZk)dP(5**KEW{VSdu33K^xkrwR4pgJykCjjzs!Z0YZz(*wDD*417XWY7S}+X^pQ^l
zR04PfC7Q)s=RzSTuDSmPC?6hSJVB1c%T1JU*!FyxiNm_y0@k}_bch}<V#!gQS6S`M
zL__2j)H#l$LQn>16s8uIOV*zXe+o4<JZ+Rl9(da5ylg95l9UXaP~E~07WdQ={IEs2
z#68xv0qe$7#dMc!uVd%dW!v{`8+>FazeXN&SK|q8SF4OpCrG&it{i>2r=zDQ79F2B
zI|>o_CSrqT9QLhKGt<vcC{a#d6XUUHVkSCUJdy;mLb9feLc_knoln8pPm!z@?v{pI
zw4x;1u{<+9(Sc(ixag=vT0@wr(RWl<QC-d%l*0(l9f(gy`99p}%ow+i<r?;9am-bz
zA<trOF*&;60}|<=H`Iqu{2^%gobvq_0z@&KA1J?|AU9C`d%|dV!R(Y*jMs(Nj#r2a
zyM9TD{sSN*7f5ovNbEnu$J*lTl1#`LB|-VzkhD0KD`!xLZlc=1Lv|R_{H$sx6oTnc
zW7-o)SJXqDT7~VoLEXb_RjRcPrh&T2<ZjHFEkvUhyCV<RWZh{v!w79pM;h~1OQkeF
zth;<-OInUC%&y2WO^)eI@;cJh&1rvSI^3472xskxz|2$LmUR-wB)j9c`5<hq?lVbj
z0p;4|6<d{N18+D9Q&N<J;{dCF97vx2Q7Gk!E{&?T9lzJzNc%g!Gw!`m+{`{S+v9!a
z4_$5XJ?0Phh`>wah~{yb04GN;-jXqdPO%FZ7}2#$BsMP5zWhnpGZDdH`|g7Y4AzH`
z*jj!JKdfIRF51cg0t;g(q%!%hOd(eys}k8roNT1;Nw1Xo)8!;8t#3=&%0g*f{Ev40
zpUWz_v9TIw&0`!3!Dt&DdkS0oFU(9IdX+{8te7}8z`lVC@u@e?4Qx#mFixk(vA&__
z|2Jge$W(89sAHm7YC?H}=;RZWXAGVmhyo@Qs*vFThSL&}%qB9zgppGaukJbpapK`w
za$3Q}gB1k91+AJvDW&R^JJnL2Mped%T>b`+&9g5&OpFV88xtFF(vB#BZ0Hn7Y0crK
z<0d8DQL%{(EFgo52*@BS0)@s(uE<&mBU1V;$j@D))^@4RZaOuy1=O~w$D^#RNaWNv
zkw_Hv{Xwve{k3yIH2=JUT){Y8KtBw%4KVXZOa#6`d_eDo*nRGG0HPJz5(d4+UQEtN
z8O42LjGK!JuB|7aWs)x_z%H3z3ziKbC5l^DNEK;;?D6I>7+n_LfKP!-WL+g1z0=U_
zmb6e{-=t<zDnQU&|61hUzn}<``*UU0rX_Wlyr!H(C!JAdM@Zv~>Dbg%Vq^>}`e*Qk
z-=HrH1r5G%+Tol(ct@^TFsGfKg_p1NB_B#To72^`?^Ir^T&hh~cR<PLl9!LFv4OX{
z-@ceUnyTD!JJ9m6pt+7*If!+(w^qkDljn_1uUM(UNeiryHaJVMpe+8f_wbiZHVyP*
z73}c2B*47~7!sW&14FYir4n^P`q3<&zo3lu{N#nnk@H=1j-qZZ(UB4M&3TCDk3q!H
zPK|9>@D1twBbqd0r35wJ2+0Z+dS?Z{Q3W$w--Xfh6YFniWO7^?#X~=!_tSw)@P4eG
z#nxNanzXMbc_i7lG`ehFdP$YrRa-kcw?Fz*=U=#!f27Kts;$#l?YvEe3nZtJFm{g5
zTsV2M^&bp(ytKYkTvRLb=yPKVy%B!YEhLRIQ&VJo2C)tIm|>jkPJJ{Zm)+~2$7p(^
z(CR~>Wwg;iYIi~*-l&k+RiTMa#!4QkrY4_LNZgc>@KrEqE2O|uNGPq)Bv0`Z2oMMo
z_+x;K<AurT7e>3lqp+Q`fOGkes}PvRIf{vlyAZ-O8w@MsDFln+rtRf(hmMynPEI8{
zHVn=qJT4;|m%tYHl%G>|eB>5ubh3lGm63%~L3JgAQKgaq?Mzdu34{rd?WTei9u^|Q
zcr<?GAo>TGJ+?~GD?VuKE;$9WIsA`aP{{XqCc0J96NY}4C(9i8N<EDBU>GRmT$Fh6
zT`TZgR60wVB2W<7q-8=IvcUw$@MECV(M^wWbL8Bpf}v$riBe?HsM=v8u283p89UaM
zdb)3WadsRg9+P8A1A<B;fhM})D*psZGsSNwu!C;;j1DofE-_R<lklBNH!UwuO<gcf
zEOipv0de5j$>;e=HyI;lYUX*&S(O+i5A!s}(F_x>PK><-*3-d*38kG9$VP&aZxw~e
zOX(y)GT}_cru#;JQFc*+E=sVSCn#@^(S0^{sf5x^iR&MfxS)53x0#-=O;?&!E4!%%
z#I`aHo+<CF%EJ_4)Y<6RoXZ&Zdg+Nc0Y2j;n?t3ag2xG*Ch!D-rwBYlV3fcZf#(TK
z5;#v_kia1VFA|sq$kb71K2s2=7P|5fRvM!hhxsf99?2e<!cbsXPJ(=uY07bdz*_|V
zjKE(Kc%Q)E0%UB(Vw8WRxPK<_34t?oSLAySl@vv!3A{q!a{~WKKqqjYKpVY+9ARGo
zWTctrUI4Q*G~-+^*+L0+6F5NNuLy8wbsrG6Mo*HnFJlA7CxoR5{40Ua2xJJT0O)9=
zQ<E^%ofvs>7K)o`<yUm;Qv#n8ND=rYfqy6PUj%+ffc8@uCYxqr(-s0;U&^)eq$uZl
zPGu*sjQvni%x)++NJ_07BQQXKOE&oOht?nPZ-#-FrdE9P<wMLSH3{6*fLdOfn&?*+
zkq%X1iQj|0LtY@z{7aDUFwY(4yvG{vv2KlZ-($TR>owqAR&|dJtgwO4nfng&-C_Pa
zEO3Vf@34w{tY2mQzcJYa6TI&VrYwOk{3Za2113Br+-3XtA5!nt*xq~W+Zy}!ZzLvk
z{hC$WWsUp~Wj(2}C-1SNciCfi*}y$^{4Q&_%i2G)2N$18*|*Kp?mJIS+8xFp=6n&8
z%Bu4oi(p%rT@t@wKq%C*+<Id-g<A3+w_v+&zgh7G1Coz^T}nyVzc8C;xa9pF!L~em
z6FCCOH^|7N^(Jxzl5esLVIu@2Uxfrlh^O=mk!AZ0lm-MIjl|Zp)C!TT*tRBhWJMD{
z>fPFwwVK5?%xJ8!tlc8Uu!OUAW}PDLx|p>qiv?L1){54hS=lP?gb)aEJ{#ivgaz!t
zg3Rj3RyZK92{CI+w$drKz*tnk7Q-AGYRX3|g?&r2H_!ke`W_}Wr={&wksWJNm?~03
z$uZr4{sPIpL7a(|Y+XhZ3DbA7#x}KWP-{4(vO2u-ZOv*kq&yF+EUZfw!IuoZQ+us;
zrMgY4Zo{lw@LhkLUvAKuUxH8fIFV-iJF#mq<KRp9twx$Lez|GpmyazuiqsphcPDH0
z2~P`YhxcmiN^HeZqd8DLidu7fb&(L%!Qo!GcqOd!q<D9dBWLG#S^~nJ<?Zjs-i@ua
z^=WN=Izz<Gu^e6WogN{yyyyM>@9sC8T;=dVLwW<nmOWC4m4x8ZL9C*M;PTM>$KO4^
z5{qlG_{~8rb~s0|SwAy57rSmF2a`{zN(W$|iz{`>7OGbjRV#WQ)vCe?X{Jh^N^fxp
zUL;Kh-`uC0fv<Udx`-<tlk5vUul+&JN}(`|JenL_s#r=a4=&AW^}DWj-w1xNPlbz`
z+Wu7S0d#cTBnlSYTaWzY2DN#=ChynH2(9@ex`=C8jubj9#DwaylnAXA>LCJ0YL|D>
zviNwiaq+1)J({y_342Mm>sGo4x0u^>Ct<E)E!`CQjt~)QO05CD2CKxc<{{z^^2fB@
zN|=!wVaP3-a}x$8Y;x+Rpx`KF2Yk)HOBZp)!=c^xt-$C_8tL?os<N_yKcH;f!Q+80
z-AWiX&(`X8!d%oQH(?&Cg-qBUCWq9}qnhWyymM7_Eu8uOAI_Wd($j*_uw;gH_+vkL
zCeJ98f7Mhew5zqdub<UwAIXEP+Vee8p-Zjbccb^_6I$PKt^P!wAtpa0bm8g7Ji{gb
zf^bF<dem*bc}7Tn+Vm`i8~gK&5PirTM2h96>w$OMu3tp=&4B{X2zn2zirlw02nU69
zpfcI`=DsD17Jz7%V$eErY0pvgIHMEUDVT*`W7`gO$G%jgk7(7!a}kB(n{uI;LM|L#
z&xHrQR-ras9Z8NY^&}^+)#+vm@7jHR>;w4N2filSaw4vJ)lQ*rLqde<tC+9!>LPHI
zQ615(gi#SWJFqPLD$Ak8aTVR#^C(_>MQ!qo+IT!waYAMO)nH9>P;EGx3LaCLZ`D_o
z461d5Dc_-a&#J#V*`!7fr~F6e<yB;HQH}Jc<VWXSpUGjhhR_vx_?A38?^^xFh|eM|
zYU_biB)$?keJgSrFDo66ELm`NVB^wLKk;bcj_YA9+;`)g79N^+Elj4^5CrM&M^?Ru
zR{aC3fhSjePpk$XU-ca&Byeg~J_ICN=@Ly?uL_=pi)o8BZE>ldnCfm{zNEVQGz-X8
z5c{)cv)7cvSYpzf&?mam4)AV5)<nlb_o7R6)@ouTCsLF?Z8A4vkgL;O4MH3&(oJ0;
zF045NDoo;>-MUCY`j&0fBY--nb2vHbqPOqnD7w5ubwo6ATTbQ?M}?z;An~#ZS;OXV
zkq~?+Ja6ZygPwPC6ol(v9Mr_BoSVW~tb6gLder*CQ~-m7chyrtpLAc!(>L$brI_GP
zyWwIN*EMge4u0cD9V<GCyZBKA^0gD@Sg#hijUW8QC+uAsR9p9JO^@gdftyV^y67zt
z;e?R(_|-tW=IPMQ6y%JL5aey}8lW~R#?E7ryEAREsrFjU5=mRYgUhaP0xZ_yXi3SG
zbMn*&z}x=6MYvUnReLng4$ab1EO2u{`9Z-Zv@gE=!@0NSRw^I5RrydJGp2Su<N&)4
zgmM@ps<UC%vP<1{GPPq^Wld-v@j#CtE%#o3{N4Wh7{#OlV+5wRvHIq$y;c|&%Gf;x
z!S8jE5adu(mrN`jOul-pL$~rM8w+pK`BVHeEHo}87Fu5WPR_~i_IC&nK9`0Wgx35a
zwX#j~KctHYAx9XG)1YRh5X3WE4JLNFXE0vEJWTfMGGSg~2R_1{6Pl?ca2Z_JN*`E6
zsH_YMJ*W)22PwE;cM^u4>R4!e?dhDGLZ<{tkeAP>U5B*xAsWTytX~v%CKE9G5sZ^@
F{|CtbCv^Y-

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/constants.cpython-312.pyc b/entrypoints/__pycache__/constants.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bdeb03a53cf9934414472444167f1f213615557e
GIT binary patch
literal 320
zcmX@j%ge<81UW3-nf{Cn439w^7y$CY;Ijabn$D2I5XF$f7{!>v6vb4@tjSWP!4;g5
zSd^Ngker`aT#}eqQml}cU!+jx<KwH4npaX(S&*Lz6x8F&WMFV$c*y`X&rg&27JGbr
zN`7*D{4G@vL&JDq$B1}OKWBg603X*7*Lc@3SHF<>V9zMmco$bU$55Y;TQV?Z9<Giq
zu0iq6{-Ho6P}!9XpFwW?<)~khTcBT%S)f~zSd^YxqFYgFZfTKio~oadnWSG(S(1^T
zr(c$nldF&9GJUwi^$IF)aoFVMr<CTT+7)pEO$2$qSOQ3VU}j`w{K&?{$nt@QLDS#@
QgX#@=rHc$QMeIOH03D-QJpcdz

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/context.cpython-312.pyc b/entrypoints/__pycache__/context.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..721ee19ed9c250784e8c07566ff957c6f28106d5
GIT binary patch
literal 27255
zcmd^o32+?OnO^tYgBi@=7~I$3#*n~(mq-evNrE6Lk`h7juvWsZG#+A_<dA~_+&v(L
zF<{FwcMZz4C2eApitPxBRTj9?X1QJ`k#p3FR@phWDupIM&up8Hxmi24j*|)`(6Oy-
zHu?V7#~f&ovb|f`syuRDzkdDh<G<g-pOu!DaBvCR=i<}HIqom%MR!guu<~`D<F0Zs
zF2*Og5%tNB@a)|(Vqs6~h!syu!Zv0fv5z@M96Y77CipSuh?9kF3D=l=#64CrQo`Qt
z3D1~!#LL2tMCq7s#5d+2@sE{_l#P{-l#f-6RIqQ(MCDjuB*4P1MAcaJNcC9FNX=O7
zNG*$VC+f!PN9tL)B+)R|IMT?%o<!4F^GGw#32xDWws;dQW5JOi&sjLZdTy`Y$=p+D
zdlUU6H_{#}jrn5!SlL&sBOS4Fp)*z?be^`wDlgeax-8ryTr6;ji&ed8(b9LbxN5}J
z2=+IvT5M0OR`AE_1j{*$Y_UU$>jZxtqE9<w^(c2eE29BrGzvXN8NDpF39-$2v3)GI
z1+hV)&qy1d;zO-Jp^An>7R5TacS!L?Pe~~;I+_|2QfJ3wAztwfN>j<v{m;fzCsNVT
z^GH~F@~Ox7M}`jWAA0oA@FR--qsjPq5-F`mMkhjc#W6UEtfJyPB1ls7jG)+#k0%7h
zb0Q@Q(J>T~!plkF+0@W@G9@Ha$Y~Rj7o?C?@tzS<5g|D`9*ZZ>DDCuy)*x5(R6>YM
zL`6vuBd5p3NK}&IQYxBEDOIA7jA^l><6{#EA*Hs)c5-|?fwD{Jc|s5`2qNA}j|(54
z6r|MA$<)LoRb4uih@%lF&{pJADlQ7AB9aglN6$tkMBzeQxTut&Jwhao#)^o7uee9i
z^k_VZBCU$^lsJA74O1KwQ|Ne7ti^yT?i8wxB%@=3;y|WJF*&L&78-BPfger#$`yE5
zxoIwir|K^7;+7bHPFoauEIo5+&e`+h)$p5Il)flu_>{gOvC*cvFJpU6^Izt^YSU9Z
z&*w^<=4ff1;6k?Hw52zg4(y$bCsKX!WRN-%q>co;)9br~$?;S$CY(m+V?lf!i%v{n
zvckc^3(<Ij=80vH27)1*QXM&Y^yp)e;lU&O5sI*Nb7b&w#ddByo>Xk-g(*oXc_Nya
z6!weaxEQjC4QPbokLqPbsB%f7Z4(TBu)9AsHqk#3pXf_PMJ$fKXD7Eky#4$(p+6Bn
z)vu0z|Aj<itRFKfPEDYal+;gih1C|Gm{J-dXf7+0%?v{7OKNID5IaywH-6Gdc+YWJ
zXW3G1Sayc9_06w_UI{IA3}iZX%N@HHI|di)_s;t7_-eDhwz-Gr)-Q8>IG7FgFSKk}
zw(_N$R;*Tk$uehkm)vu4-nO}r?CD*w^{${?Zj?OTY2bic=|#*{PT&Yg0zmR3RyU{q
zi#cMJOZ<o}X1&CX*kd;MjwyS{i7kXRbwo&s@lh!~coKW|yo8}YFC>G}WQ<M1Xf%<)
zTw$dqq#(9UFdCFFSC}G<3HE~&rM(iQ#Tg#WUs2R9wmNsRc1`osTtsg(H;uIvG1l_5
z6>oY!xM>^SjFmgZUFV0d+Z1m+iOq(gM&l%<be!!y{k3v5I(k-!VSnYNsbIUOAR!=&
zO%f8P#r0^3NCPJJkr#$1QR9Q;#CC)fR|LhyQ;|qIkT*(UJ$4Iaq3M2(TlR5Hp;_CK
zt1jELj-K_|_O0{`X4|&R+HSjA#7-nE*t<oe6Dt@U_GXL@doxCdz2!#760)Y7j|-BJ
z!hB2;c+qDmDO^-%MWnpL;yU=(d9fc4iOSZxX%{JTx;(#+ENTxWY=ie4cek-g>t3_g
zy$-E=?Q3+;08L30aFt6Lotfs&8C}6A%^}vNhjUNFQaMEqv96*hyuPXB2k_z3>xKaD
zQ$jF`F`1YOj-L*u&c?B@u|~V~_02|03Ww|>?N_q}A#TEl{GqZ@Y3Z{3k)oJKDA{Is
z&v8HU*Jr(D8E=#9ZDN6D+1tzl9kREB1=?kA`-<CMhP`cfm#~E~9I~-FD)O*Du?7if
zMj}c{Br-N0n*;`nDBeiq<CD>Z_Qe^A#KuP>5pe_cgW4fJ1n)Y>%4Ta>?IQJaBYtdB
zFL8fvdvw{wRo7(kzp*LX(756$u|M>Ft=-<S;&a;7rm>u($YeN=7Fzj_2;{(xV2$yD
zEoO;XL9y5_*>prQV#gPM%$^tHK#WCj3NA*6SYnR6Z*KOj<g_K`%!~DCIlNj9SKhZ$
zd~*xFm^JO>xL65jACFKL^9tocnNV@sLOEEgN@AsXxhj#%AM@qK1g5N^GNlsqgaOnL
zCZMl4R2U*QqO9T3;^j+wafMdjRc?wCLkNfi@UC0fRueyhu!eh7xKava2XZ5#7MgA~
zsWDuTgy^^x0#4Y7F0TqoK4c@r-Nm(6XhrA2#&p+xnvj?736v!cl4lCdK7%hSUU-jk
zJR6HYv|i+M<FRTtxe2o{)R}HFYk={21Z7HYcz?zHf(^kh*>FE^vGD~U6)9ANvwAXC
zRbHJGfG$oEc@j^m_?zkj<XAobVe_=lpt?1N<5y^jSdPT$kXf~+MCqx5S``nQ9}tdM
zv`UEp0vp6Gu((npsx)dO9#h<7qbk87twPWbn6&G5brBz?S|26vG4hVUlZwz~1w)ov
za~K^gnJ=u>=}uE|1XtJuFPCxd(qD=P@Ln*zw9i;`g9xZ=EQeNNe2yNab$8t|oUS@?
zc6>4sW5nhukSmy9Ar`*QE0x3JsY68NkAcJ!VvKBDwL<)(2_c%CoB$!udXsK9o1>yc
z6KI-L0gv_MN50mDwucve0}HMJZOwXpXqpO0LRI2cq!hQ2x1Bs%w_<?2J>(6+Q)~(F
zC?c`T;(qpi3dF2<kb+iFrfm6$mGqhBL$M;UVvEH`Qz9Wr@p1A#N*=)^wsBRAKt!2H
z-ZA{7d+;uCS$pNOg}0Z^9RV?FFTD|apB^h#&Jkeo%MOIzrxZnTYOcWCnb(@kvarwd
zwlzP^rRIlTn==3Gw3ptkYMJYhtGbr$ctIPg+LxUaa&c9)%WevlaDm!u)@vuOxnAD2
z?4cMhSK@oW6d|pp6j!0Oeg}(t5B=Do4hRi{;z~rNRAfv#qwqojj5kP`B_xADg3qnG
zX=BxaFS2~qI%7%EDrIik@|IO!lQY&7%?@)ZgQPJdV?f+6(TJW}eZFPWnf@7Ds#O05
zI@x-L&nwTTf5|;jURmx<54~mA$)z(q2qs5*poHjNm1>ee`UeGKrGjHB^Buf+77W2T
z31mKFpM$5t3}7p<OzAGRf7loB1uCZp&T5i27s`@?hff?G9tfuQhl7t}OG!cy1pK53
z7VoUe=CPd_%*%pr7ov%HjOA1r5pgOQJp*Q$wy%wl@^y=16G<dsBQgm5fg`F(3`SLn
zfZ`T~(f9=M<%)CkY&4k^5+S$v+ZY3phEODoA`;Y5Y{X!SXX%{=UvUqfIC1F2$-&{1
zVjS-v5uc`S1n?C%8yQ+B;u(r$u&W3Zwnj!7{TZPlQzZ@&Et@)^k~oIEllVyqc#MPa
zZ2V^BjbndOeZz&#_wX<e-wof&*?nLD{q@(TmVBY-9=TIm`IW${b+6RT*JeUH<j{_#
z(w)y8_>s$>t*pydHNJG{PIdj&<jcuypfMBZkOLj}+#oZTtxm6FnRD75D(*(5hSS&E
z%I_g6N6^K1aEU}DftUm5$VfQwjuycI;tV9)h!bI#;MPbokZU6)EXI=~(nh=>%}Nc@
z%m>oU57Mkm@C)U|q}fP?N|23IGD58MM4TWrU@pye0U{vUhql?uldQop2tIO*<%egT
zSV{u9%$=c9j7<ur(=yD+@sLCDFvy^iYf5=?atuNp2#E|{ltmS=nQAJHC)GIC0A<9o
zz>>f=(HYk=MgxH_i9l9HTzD}aVpM&)x?nU69`p*DE)kakNkc;mv1GN`);4-J7eDWI
zbW(il-5|c-b~UMxuMv3*DOv;C1;MgGrc}U}=0P_;WelATn<P)3tjK_jkPp#LV{V!^
zgKp3Al7;8aa5}WaL>Mp<IZU9MnuFv~5fJ@a+1#_d8LTU)oltX;i!m1A9HHGJSKO{N
zz{aR0VlbamT*x|{URN+R!SQ5bDkx1(OpJ?weg%TUu)3f;qKJx=k~qXDBz_zfRGi;R
zvDSo;RLb(#7YH~>l<-X?cp;`Jl~Y}95(x+)4q-`(DSbvmq#FuaSIAd<2}Ma%D6O7W
zwtDXP>#lXZ-nZo6aHpbiq3O_K#o-0-;XADzb5CSCcgmeRZ*}f{$FkTuq^+^;OzXpP
z>%+HNcfEZ~jdFQ2uI5{==GWWjPQQ_SEqUXZ+_f#!H7Iut-s*bfo#Tsb2W8j6@41>)
zK$OqN(4J=dnq;5(GJ|~LPCSl};tBFr^>_%e>7Z$k^Vpbwj8rSMsGj5Q<Pm6Udki@R
zzLR6^p_LBijt^Oe52$n$?YTV30Hep!9fdWUa}BRiPJ%NSbbnxVrBvZ(@LLJOdk~eI
zHyFh&+K=q%n!*+t9M$VoK?OWUrsj{rFGb?=3cxM3hz-MsoR;F2Fb1c+uqCFf%^Rpl
z{1kbe<Q*ojkmvYS*%$FB%3z~S<c%uuVkB|#Dp}2w`~l_6@g%;#1)k(Svqcnox~XuC
zidc(3q2YL*JjRFr7DAywF$b}MzV9J#h`guBBVIuyRGH%<L}ICnSO=9d`W^akf6if?
zl92Z~{G{K7cZqx7;<C4|1RVB5{7M<<>SYISubQ{5fPbi>@Qyjg9MC)awnHWPwRaHb
zzb=ixLNxxp3WJoVc8%g^ID@)*oZ+*abexHltb&bED<m1W>5}o7U2sBT?t~x<f~FA{
z-mNN~qs6)zt&>Ytf_IOaOYkC>2k)g2NkPyBTFILyWbz}f3~>-ejg-@OgMNZ23KS5<
z=t3?(Vk%>0LIA43DvesI5ZrmW985J>{eUz9lv5L{5^7^kCL*gA>Yy;RK}}dM*n|eP
z<kPNL9nv*Epe#}uHpLoa4R|(BIYUi~?_g9M8&6JYgqq^gcm_#q!yJqf;Lsg~>9^9w
zrlOFvU{ss|eVKZ|zzuPt&5V+A2>ng1<b294#~$T<HHd^10VC#etQ&G01PY@G^(6yV
z58ns|Fvs3VzLk43STXj^AXHK<daArO7;G4$G>vvJB8EUQbL@?{dFB{_!H9;Fp@8BB
ziO6)J(0)L37MIRy<Rlwu#ivTKG--tdNq~@2ysFTHeUe0K0u+o)11hHJg^{id_~~V<
zqy|wLD!p-ml2sG!nukI)>XiwHmB8qv2zU;1IG>EYNcl?RQsi`81Yb?xlz<i<KOY%C
zt@kEmRYgp*R3)t$iDue>)&$YgHHC}Jpnu<{<S)Vl2UWt=gR;Hi%ZB=h5~<I&gz4Fs
z-91RphC5xMuL%^Y`%(47i`6@j)<cBNlV4-Hja3A*K|pJSbGECSa<|`eaGe{zc7(#M
zcQ-#o&!%h>BcJNC9X&)`x0<7Mw)Q`U){?6B9G=C_OfwSWFK}Y@G!eH%h7`G&MI%a$
zy)p$MG|19j6rs4H$!KB<T5hETYHec3qvF(0XqREsY1|aQK6x64EYf@z^B_uNWO5<~
zg-XPXhe@w5o}K$7zJ=nYUU(4Xdi*c$xV$6d>5@HN3+wjDo_$O~(s|3<IbSY&*L~01
z3HH~!pI7Mt5~Q1m;AvFY$ZkQGiD5At*%(h?-fVm!vLR}WxxC$KK$~gHKJMv0j+=ps
z(o7q5&VU_yDI7O#2!42)X#;}fQs_1D+?9SCr7<8$E=>+Xu~PiGFM6mbg#lso@941s
zOLB3j&4k%GSCdPjhxAtJj2UZ(Sza34BB$qNc?@<gm*`x5F06-UZ1<f#VpfYB;IjdB
z(XZyB&v-r8x;k#!FkawEW%F^Q2$hS|c!)FP(Lk!(!wF7o6i`?EM~H&vUt8I*;5Z#;
z$_wJYCYgasz5X#KFjEheGh^RG1`Hjl=0*H{D*YkyHj~HT-sdRv0zAb5X$Q1JkU8~J
z94&gKEMK@l%%0-X`98&?eS<(sDyDSzAalC0Xm=K<mNG~oeGeXE0bkwq%C7lVxuG}H
zuvKo@y5Oq4V}Q!<*Y?aF#QuEo(aVo!ye+b~WzMza4c#SeXP@ltyY1~?c5-zgNM+rn
z8CQ?&>Y1-za&5>GL)b05y5}8Bu72pRGOi}s)s%5{$gYmLlbOz4a_6p0=aAevwAi_S
z$#sBbXq8>9YPKa86<O18_591{Gu7+l>UFc8yG`w{KJ&^m^Mi6zIMcLKZrVvuxE?uQ
z^j-F;6<j-i+qF)G!v<_bKWSexXt4_cf)+CnBA7u8Gt-%AOKvA<sy<ko(6otj@N`VZ
z0M*wJQHaTg5R+~-pN%}+`cukC8wyiW-8k#{FufxBhV|;7-UkMLx;kHcW7cQAcQck`
zP0RwwNU)W;a|Q*a$3Ux^59MeSiESuyIf)v>U<UP+OE#@zFat)QBx6tK(uuAZnS~hb
zNd6(xnLxaloyLwqYm@eviJzveX0hoKg5&25$}HCs`T|G=UH5s6wm9^FQF4$ui`m$i
z)oR`r^LD(c;Vsx5TF@S%5KLh6v`wQB&}!AK)t(%s3n)yyevzB8PuoA;&FV4vI&IhL
zG3I#MZr<;Rf$OGt$W)xsS1^npW%Pw+dc=Tc5VElpbYGB(GP5Jn7HDucIB}NL2r%n7
zBfxx)86bsAN{GcLcXCxq4T=k}{lGV7B!sd^hO5>ng^>vcBC5Tjstlo$Him;kWK^T(
zE6Aa>NwX?3>fVGL(ZuLv0@M;&n!xH!1<+bWEZf*5w9b7*5*OG|Nk%D~!$EaGB<M!S
zut^&j)n>&=wgt^rO}1#P1Xgwu_=6d`kXD7Y1J+qm-r%fmQWW|YJu#|^O1S~hsYA8v
z8rdK03o?l~qxXxx7;Vd?$VXneF0%0!1<a_#^hBzZJQ$6|(1cS$>Y@OZ6V)IEdtg}?
zCq`yU9Z+PMK%WFDlsD;v;+ed5)8wi34zT4=Acv(vC&Nq9R^`tr76$Cw#@KQ)`k`t8
z(pw5kP?0EFsud+c$*h&74iaJM@PVKFAGowMESy217c^~G;d;mo{6MfX7VObSoGsFi
zbjEsV(O-y<PfDtBTVa%17UDwT;0YlGTLx0V1vi94KJgRSzbcpKNQ|F31N#6wQ$nc(
z$a?xJk@pYCBML>ehkKbqVe*)~8Kf^1gn7hBHJMVWyk3E|U8&Jd#_Lt(k}>3_&aYBN
z97KU)gy23+moA?BD&EuUiqND^TWJ758)F71{s+=a!{BMa1GaJAij1dC_OvZ{!go4B
zfn-8^<j|hQ&OzDRcDJ)@!P|DnTk+y!mmgcGJG$h39NOef2l-iB#zhpzk}J%p50YOm
zv~8DN+i$y?kpwi3r|FibDcjmLyYIHQ`EFw{)3{M?+<2o+ZhUC=2zbx(s!Ul(E(>MK
zw#sE&vlT6wie9;*_dP3L-glSY`s9kf_w1JPFj$(>HrP0nb<TbKmcQptS@l)#%id*+
zrRrhQZLiA)YBPa8Inb9049J0jY@jt02+M&m3-rr@{(F8`c?Fc&p>+#oos9nKzUA#+
zSieX1?z!#l&hB`8c3;NZDSJDYyxUP^V_T+Sv)r&5<XqO%u;A%tTvppHZ`(rGR@uAt
zwzn<2^D#ZoZSTX&cFx<gnsg#`!-$MK2#_8eq?0MLB|dE)4@L?^KTvbNmfUK_*1o9;
zf(WI|Sgte@iv;v$kO*ji<_z+ITE?6?(m`$m0qQA%;C14|U;(Es(1%;1Qy&^7snq_5
zz(@rN0d|P3&=8V_#Q;tUV8a8EQbFqAX&|&9pd?_DZo#gVmxH=MPdZ{zweP8DA%a3?
z;5!5Q0TJaJ1xq@@MN`SB8^~0HR}56=u*{((&^OuK6F`F9qR^{aU;<qdAV+qxBo=_%
zG|XlUfofDh-~eSL$CG^zC}$k{v*5*e>MZMe!HE3k*uiL(*2;VYVT{pnW|&`ud|;Y0
z5FDNyJ0*xjrxdh{5CxlkZ4k9VF$&c5&MHGnVmg&8WimO&Jd*qbCZjn9v0mj%b(=yB
zJhG`&%5%#>GdYxqtfvtc+o^EUhowVn0NmBgY(Ms<L}n2T-gb2_xZ1Lw@)vi#uq)fS
z{*7l|e`cYq^={d^w?-E>4P`bRkvAP#3=hj?_`eQ-rE3cyQfYa{tHK`@X0@quA3&^(
zck?ap=7nv?Wbd)t-pyHmXu%ayL6HU$P%+0*n1Lb^BCI7%JE0n5!sPh{q$-waF}{11
zU{RNX9zqSwmJwnqf8~pxy!^=pO=WJb8vDk5+M&vxW_SQaK$T(#Ad0h0ll-&1xDB!r
zi`k)!n89~KCEc-RDuW+Gs`52c8L|%mI{UErbu{P$mv;IjEYg5}0AZnaG9?V2mI)}%
zB3>y0nF*~n?Y8Th)b?q_Gs~GmUiToP)15_Y%3L9Ogw|6O>A~+-)?EF_%O9DmkSjZ8
zUCe@|OAd6+y0iY;IopE2<9*InR+9BrWxPSz8=R|O^!C2bSxPtId&b````hOZF8cf4
zw<7AU5%t)jf8(;#rrBB-%pYxp&)~Om3yn~ftw0}$D0Y(N434#!e|zx!etP~v^D2U`
zGUKt$ky*@2JT9bv+Isp7PQ85s`{7HLtJdGM+o`4I>&TdUR-dQ1mnhSeQ;jht*{@Nb
zT}R}sK7;Se)w@Q0jtBKGWk^F~PQ8xj`EA^lPvLh6ze+L!4Y}0yEq)U<ic}_B-{L=`
z5b?0-is5mUry#5ZoHPl^n=7~C#ea@OIJ$+8`gtxQX2mPHX!XDlAntfV!6_6ZG&T>5
z6kDmXe*v#>hwMj8y0&PCu>4fi6SOJ*Cz3D)eHI{S=7pJTW!3DVwfBf8u;2;icEaH$
ze?RmRnWjy0(<Vk#cFTe8dAA(cbmQQP)zVz?bIwv*vCLUOO**)WhD>><T;4f%cB$Mf
zpGyvGys`a0`4UUzn^}Di$xRRC>hs8fEjP{<<%15zU$;=#x9AHmxWdadXvZ&>U55XG
zv=v={ez0Yzo4?u054GBEwrxZB+jaa<yY1Wc6n?jyAL_KdTTw>gcAorB@(cDi;RuE&
z2xI13lwjSNz+!zRX_y1DJyO%D%V85j`4%7aCEZapf2L*)=V&e|IqXgR5P81w^lMKq
z`azCwW{6GkGX6-@+lf_FBSF;y)hSWF3{W+rJNE-rW@5{n`3%qHlpWJ~mZLf#5$k}Y
z%oG}iZI&shF`=x@6dE}+rUEcn#TtS>Gf|!xc5^91fnh4#vYe~N$P_shT$zcm^a-A^
zC42v_O2!Bp>fc<$aKg>7;VmA+8OOBaSL?@&Geuy9xoIb?d9lRE&A3wSY6#~%JM_@G
zE<Kcc0zsI}+FK5NCCs=}AwBi9d)fs%<6L>`^e?$5%A-A2<lb_=NhlVM?2NZ@FY#CE
z+qsk>R5eoqbwJ%YV^1}y`G`lGw(G4LwLAq>H)H>#{e<?s$Y121wLZmNB;fyb9q1FN
zSNO1a4Npc*iyx!VDe?q(*K5Qt;GtL{ZW5;`mYSrL&{<(fmmr>FG>u}HCKB<KNUK!o
zc;d0gj;Kdb$)Gv1|M>Bv$0LIuJ$dxV;K@Tnk>mSM9)AjlQeoez*c0PXSnZvmlB1N_
zPg(Xc#SpWWX7<0#pufl#StRO1HPkszAtJP|m#C!vzo7_5aIpifHdstcs!=iy2UDZz
z&<8!~ymOv)GEFp*`>Iok{%;{J-BJX;it*eSL9T=F)N>gQrrD{JU3Hp@CBEe9x#OvN
zDe?NgB~K_@*O{r?AlGfU5m>C-nyK8n;N5D_aG5}_9O#`tu?Q^E3Y0MGzT@#{JX>yg
zwk%t$r3d&sQ1PT+PS5pZ+BV5;n{I5B+aAia4ajW+i#0o5w!s8CP<wUY<$-HwGtFVS
zIXwSyxp`xzd8^#Kb+K~W?7nPGd#0vOuIZbPza3bt*_A2ZHS5S$HC%n><!9ywae5$A
zwO+1TKU;FAqG@hmsUke<yi;EDm6NYN^~zK8PiFdd%YD0-%J<AVe&nsp)-+}7g4f)4
zaA-IDN;q2^%+&VCwLLJUF7?5bn$GSyVN~6~1-5-~j}9MXD!b*%Zk%9XJ=y+t?K>M6
zYxdtR+yB4lEbjsS1L&|Sc7Gr}j$wa(kULPy-?Z@i8*MkOn<%`scYh1_?Y2P+Uf%8C
z4|r_vb`EaG%XeBT54fz~+2lE3wSMO#JcW1J5&vDQ9pUe~YzUhpitl0C{(d0}*tVDg
z9Tgdz^I~X<T%3onh(Bl0db!WAx3TI#VHG%qZpI9_tz8em4dG|zrtLUvfw3bu<H#Y2
zl%ZQO1=T!&utre;I1~I~ZrVBRIK!jg#8(x$yb?_`+W^G{p!3Q<0e~B40M0qg$XEr(
zQE_Pj)tUou5DT292nKoxcrZW~@-uiR-lPZv-ihBfQbs96B<b4Vh!sXK2?R2eJQ(0e
zvBRV&Iwt-H%KvBNvD&E}66xRyA<w@=j5*}VBc*3C1JWW=t^s+@F1fnz4|(o-D_%ON
zo`9G;2EtbbK+9H3dC9CD^loj31}@INZNDG5_>md7SSsH->i`j38qh(70V6b+Q4A`o
z04hM@G9b{2egOy!g$M|Mh`njuLg8&7Uu`$H4~FsbZZ{8KJdBk0Gl8YiWn|$ljF-0C
zdGU*&Zt<bmLHzo=SkutrnNz<Pc!|GKkw+lr$O;fB(>B;4`Jp>xyqTFOHi>HoW}H~-
z?&6w>S2eSOK})RDPW>hkeb=qp&#q~gd5fp*J5d#CH0LZ0;xgABy$;yjeAWirk0}r(
zS2oeEVh2^RwA+xF@ptSh2gP|-h+>mTN+q;ZxFIA;_n0si4|+DmgERK}`9Q@#F$t4A
zH31#OWXJAs;)rb)lbKYnsZg)@V0T9>P}Q`n*kM<F*Jx5Y!W^rt2UeRc&(X&D1Egge
z=RF_itzk^r#-*l>FS)aojdS}l9oyuNZMQ17-3jh^`_N+Wz)OejZXbN-DS7+wH8-xA
zsO`<vZn;&vW#QzL&{b45VzaE<k_kN`haSn+wr6Vl<=Xxm?zactxwu$+6pY=vYA})=
z)h|7Ugj@IWFYU_&3{Eo}XjZis^Qlb#kla6XJFxG)Dz14G8Ftky`;hMgsRqq`KDf7u
z|JtA({>>hKZ-e7zXfwj*xNYzMdnU-TO5Rd}UKBaAb(yo8(AX4{wHq^bUX1OwzcWTj
z-ODE0e0`t%+KkeNDEUJ%N(JM*CZn`wZAFZdAuIZg86}s2?f-TdC3hjV2cy*c8#784
zjZtDx6Go{dIuGKZL<clOBmy&pS4=Dx4(@+;LKuZX0lPk99E$m%IGH5fPn6kb2&X4;
zIn4Ozc|kPFVagaXH>De761d_g2*3$NP&AR#?U0Ga`03N}(Kz%^g>?omvP0X^RFDpf
z=2TIF-V(BNNF>HDl4?oS*XQgN`j}pc1S;&Zp@E?AtT1Y{jC$Hf2ThBVH5C7ef>abk
zu5ENI);91M%us$CJk`^9*ZKt|I~6^d654vrb6y-5&&T3o+ran)U62z^=q0Gu(&(mm
zp1OcE7~yeoYOR8BtyNwj<EPFcc|V=-Msx5jE{-S3vKL2Y#W-D^B&}7DCSqbYisY53
zc1-)ohHb3^Qt>eXnykFMP;;RbT0AWa2|R8xwq_G1aZ^EFcC~7XT&vz0V{n<kc3AvV
zz*xrDD}1ns_GPTS_zorbckm>F$ZQswr}Dl33UTQ+GrreYg-mSwO~Rv3!cz&*u42~r
z{E}<k{Rz-DSzlGJ|Mup^!0vZ=Ik5NtQ&#vGW&%|3ffmLJhd~7o+VJviSMUCf+_$%Y
z7jEI--O3+mvc0<vyl@NuosE?T>aE|kc@9)rzw75ITxLi7cdP6auBY4u(qH1AUc_(Z
z0=&<1pS7wKG97Gw!J0e7Zzc(zwa#)lrenF}x@>wg(LU}?lu7OjAi!hRd};tT#a2+2
zcE+pO(mg{sP7k<=RZg~5fOaD39MpI0m`EhbuI-2vw4DULWSFypld&3QpKCELdLyon
zIUNs4Pd~s85ocM<tPu755Dk0uGR=7LoT&Cqw20h89JB2<IA=AM{Fo)q>E#;Kyj9gr
zv0D-$ywksv1vaC?eeJlMNa8P|!%v}PidO}DY#edWwq*ziff;R0PN+&79cGa&L8qkC
z+d2OB4YWnEk<uPlCXKQy`d~zbH>ThO0goHs6c-)Vh1?8>Y4<-nDllNpSYhyAj2Nfx
zszf-Bx=<5vCrG}?KE1OToM?%(=7o1A#vxggc7@Gy|7R30okJB2(A=qPx|Vor-%{m9
zvJ3LO?8ycmx-p&E_PD(5@q6H1E5LMC2QyVYa#hb;b+@ZFXY0E%^&8~+4GSChzO#3+
z{*g@Jk%hn`Keuw#TNbJ|FT1(GrsWc@>LC9MJ?^ii4XEz<!IHt<{7rB5;AZR1HhyrU
z<7T^!!rd%>BTwPY_Q9Rbo7<g8S+F|oC}1;wE2QWBqD7Z8Jq@|X3~%8sTP|CvOT})Q
zox;%9&zJbCJovB%;=^(r7|)n5T>EDUZ@^6tq;308D2H)Tn&HB8&oNl8xOb9$#<LUR
zuJpzaI|W9TpVGL8Q1UNS2+vu4zQ1VfduiW$R<6904AZyEo!j3Ikac?5?mutr`z5RW
zGc9fWFx}V4_`LYI;(%%2S=iN)JXyEN`1c4aj`J6pfR<X%vVJTW+@m6)k0L7FeE%l@
zklME$34h7j_rAm7KFHrI<NVbxCNC%NS<qZ&hSqnhv2VqWw`Hr{U-EMfmp!~s-Ukv1
z)GqZs%>OaJ&Grq)!@T%ghzPY59~pfTvFh1RS{Ce}L*5-UghRz4^1e#m2zg{MqPSqh
zg8L3rQ>uFGDf&RGL6ssAP!OHukzif?7I`H2$=y^V{tms807Jc_h7hyqMKzzL59Bc&
z>ZdU*m$+q1tvz(NqI%hmC)m#V=4+#`)U7!2_Wl;Def@Gtg?&BUVuQzx*a|(Cdo1?#
z^MUy@*PEd7w6A}A%L+Y~UAyc@_#1u896jIJx5A#wdr-l;8%T-AJDXSNvAl(I_~<5^
z=4-G+z+(mX;;0eJ4qTT;r(N+_uBfp0>!)22T<+oRTXLseVg6EQFUdBx&h_8eve33o
zZrr|XrI>w>vgciQ>Fk-yO)GZ9EpM$}m6T#ADV|1BgqJr|*!T0fL$vgUaiN=XSWvwx
zhXqMot>2Zi;$cxep;h%z4Aq0DQ4hlRp5V*$o8f3qM)5P8Ca>gHW)byS=v(!}w!o!4
zu&!$a$8B*%h#i;}$8B{CI^u}gaNyPwv*YM2T`U4if5EODxK(5I%SAlMNk?+MD22jw
z5Vw>{6np?Zz}T#&l1ttZ|11m!N6KL1;!$c&=%#3eTW%FdBSG`Z3-G?k=PQdZ<LKAt
z(Ya|J2T?7r^IrhiV#ietB%HhVLhlrgD(J(JhgkEz5`t%rl|)-beWN3%v@4jyQ9jG?
z$&ee0s7Y)#^@cwYpK?c(L~69+GVZ%ouQ7tPt@sb|As-@%Kc<xK2rwaTzKujQXc|<Z
zsd~>yaE+ldPF$`KSlW$(egSQ^tMsx{cGX_%fRWZ**DY5_zl0?3gk^2Vmwh;DS(>eF
zWRLt4lI%2J!7QNk4{g{b{xK4pn{}<(4c)%$uThcs4a!f#Sa!;4jcZW;29vy&g_&3m
znhLV0Vpni3&-C0TCfUdYIf$_sj7XT*(uy{t*dWJk0-mK4Hw2xFoSDoi|J>4*7Ixl{
zR!xz6aI3{5sI#mn8(#mOoH8V>Xpz%59M64<E{icF!nqUL=uxmJ6JB*11z+1%f29*Z
z1tplxL&xfTda38Jro<EGHJ|HVoewELWDNza3a&0mZ^7FAigEQu?^W7dJs%lh@PttT
zic39yF2wTAOcJ9deuX?D57hGnuTtpu$$N-Aq8L^B;=fTSP2LOSy+j@%4RH=${xLem
z3P>i=77Oa;s(bK~?pzB_6`XFwrR$v3f~^iyRn>~W<CaIgg|%1q_Rc@C<lO?|7-p+S
zUpvYUbmJ1OtGiy_HP;FY#7t#)sWLn}RCwsodfVFp;dMYg%4i&Hr1C3X-2K9CX3E+s
zds{Q!9@*P7AIOCE%Avig{CqKVXvupx&)Rjp>|MX)?PJFxL$WKh<XWGtZ6H8-$K#t#
zk>Tm0r+F@rY27B{zh~ROZht%Wr{}+QKC|n%yzBVlz=>O)6V$-r%flHjRhumf5Z{m~
z>yXPjUOzD(_@n0Q&5NL9w`6u4lkvav*h1%tg|d@BgOwzRM$UUuJzrgL=N;iL8ugU{
zj9xx2%mIlQf4&F9>pTp0Pv2(G!^l-tvyxe>8Dni`?VmEhpBcELTEt3}X0ipIbK+2-
zCI6728S84MK+b_gsF<x9NTq{%9~QhBN@B1u1X8W)!9xHUqn*Isj$tONN_U+kk)&n?
zE~(d2LM9N^uhQ1=5))`CZsTHlW}O@Is9WVU=0hAM&qLlh^3Ia?Q+RYgJY8YWjxDSE
zkTzMtF=8uSZU~m@yd=JdZxV5F*jD<+8p11XvofcZ^qZp?<E!?go_5zIWTI=2D_+|A
zxlde+-txCBxDG9}9$JL&Z^`-sFCDuapS9BV@V_{4dEmv}mv?_9_G<i<_$^QO{LmjA
zxqf7!cQD)7Jv(&e2(xp%JfoTN4lVj|o5J@iYu4I=wRdY9uN{BIHEa8P>1rEsv`$^Z
zk0Y=a1~*%xd2$qEVWJ4l(Q?%718wRdaXUMGClbG<c=tc~`2L}j5!@bl{A4k4qEz7I
zlq$!D<d-gL6;o@E`0BJhG~&Sh7;ze^Ph9>)#vhdZ!Pg(nbnKMz-@kLgwR81Q&`ze`
z$}qgOh5~D!hOEe$nWO8w{em$NR*^w;wh&vT)Hn%9=$iJzKeG_QUxc8;h^vOB7F{*g
zyq1ccFiUS(YdNl!V?7N~GdiIT(ahzUIolhhua#zkN9Ewr#o)08|FH$vvDIT_LmoCp
ze}e#{|BaEj42AjUv03zf&w!bkfk8MKr%bck<1luVzsQ~6hRxZF!@CA`pG%<U)Dbe7
z>*F$y8b;VXxKyZza@XMGuA9h%V+It;)oDr^7Q->v>EZei26!0g3OU99iXv1?ST@Uq
z)fE>GB|<F@62L(G+9^TBuR<bRudFTt#lg;kCY2KWr3CHh3j;vne@96Y?J)+0G(Lnx
z2kE}G=H1l7HcXRF>?oKL7>YFnU+I?Xw=LE`JnO$(UP)$PHM1pIU(>bIvab^uvFUo#
zE#KCxw_3fZ{o45aX}S5KC77$hXe4_1(b)sbcFy0NmweH;6_U3=<F&)zs|2VrCkc80
z<;np6)T`}qqXbzo=Uwl+fnNU$c}(UqOCho<68Dft6Q)X9m@MT3di~$zF_{aEic+fa
zZleOs%p;IbvH>KXNfRvn6{RQdeMCyr2>jv_chBO4kOY_Ct|`5!wfjg|f(Hpp@L1mB
zvA62N5(G(Dg2!?rZ~w>~WF&adtzO6Z`3`zH4q1cG-l9r5e$FBI9(in&vF3#O#lNJc
zeV@GVz*C%bBo#mqCYYy2McR1k?Z<?Z6bBvnO`Z{HX)r00(g0agG8zw)orDyIv{pR;
z9A@%C7v=G(DI#ap>!{S*UD=p=s1yRu%(h9f(ckt^O*)$?7>4dl|1%$9Eq7!xg}-*e
zSZkHjX2V~#Dmkm3BwR|P={MMh(8b(L>ZN#D5*2q!Y~qy?T+9urFx^qh48IjOEKna~
zhjrD(^9D7Wz?mwc>!1)Z2<+x&@!wL2t)(#vjgv>)fQ@<4h0ls>r~3B;c8O(J9JFX8
zT8pqx<oOi`$NRs}m4Bb}e4q3EkZb<|*ZD)P`^Vh+A99CpbBBM-RsGyz<1O!T@P1ap
z@!db*HvfR@`U`8>4{SYm-Sx9I8F#(xuD`Z@(cST!1J^H?b!2_PY<c5*PFuZYfvaBj
zIr+Z%%`lwg`))v@hR4qXO?=6F9K3sb_*Q<$wf1`)9?J*$O5Tz6RV`cTS>K$g56ks9
zH;cEscK2-er=MQ2BYdwn#P3)Lbl<~YeAsdCN&Z<IU$RiubC09Iy$kNcJl}FH`7@55
HY$^U<_o5pB

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/dynamic_lora.cpython-312.pyc b/entrypoints/__pycache__/dynamic_lora.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d3186e47631e7ffcc337eafaba942cfac1eae9f3
GIT binary patch
literal 2943
zcmeHJU2GIp6u$Gjvwv;3yKQ$3KSdDOV0Yz5+EOSqVh9L@v_Wuq*bF<vcFO#DXIgAs
zlKK-Rkp~hJdGW!h4-jg?gAbaRnD}I(4{f$dn@J5AACwofuq7IvJa=|x+d_$&_~;~i
z?z#7#bMDXgowN6ccszpO)7THxBLYIdkWTP1zEZmi%5@|onbMF>i8MuYT4QupWOYvD
zbYA4WF-8mNf+*-=G3@nOEuu%os2&qzUZ2zAdXw0sH;c`Bi`e3g@mfM}6<a+$q$Tx~
zn4%Dkl$6qTi>mKHY?lRvy+F(1cUiGxg33njk%_@9<Aw)L9UU^q90j|f!-}OCvh9Y3
zl-I`;+sV>y?AY+h!6C)AOv6@OA<$rk*G*Z`Y`1M((o|V;l)|WO8U^gTGH(23j7=PP
zxb4SHNj`244GhSV1<Uzsxare|w&qNha+4=vLjy;L6+EsQr4!zQFdS74)hTFZsRX;`
zvA6r8e^l?lA&}(qYlmU<I&vCwqqH}_O30K<%go30G#gx38I5wQOuUZFIV7(4IRJJ2
z3w%n{G=IyFE{7bC6vRRnoS1KlF0cfETYfiaFH<Y_*A&<;w{k>|s?^`^F7_{W*Ahg3
zY<KZBc1M@dFv>O!PKM8$@<h&%bY)WTR2vt82Vu>`Qh^NnswFui08-p%Lct!9EM>AS
zKfW_hfCk*aUaFG->|(OVI>jie3Q*7Ya-&$f6p*R75;Yd~{vrHozk_%MQLFGRQvn{A
z=`uYUBw%n{Xv-+Dcn6a3O|bZgzRtYIap*GRG*B-y4j(uLsN%d64#vvNXf)85+W=9R
zZD77UJGut8(^L?B7&(c+R;J6$G_yR@jjo>hg1JQ9WC!8GLq*eY6vJ_&wj()XcA*G)
zaqoL@&eHf9XmEz;VN5vcCZ4!+H=^3A0lr32!Gx!n9Mz3@`CO34bj#%wlDaNSB4a}O
zn=Ec4mhHqcG$I+Y2B{}tzcAPYluq~_9nL$tmA6!@%aL$Nak}0Z>+bEj*sbI>^?cr%
za7IicKdxzd9!`KKEK@ZcJ1<WFf7GH!jhr=s*Fm_+Zmg748!AO%<#fSIcRROVGmDaD
z_vfBCUkaS<5fHzjKc~=A3)-H$aj~*(-<8lprgJ{CYc{j%c6TMyH=pdgA}mJRu8n*i
zpNr-elN%S(o%87(v*{g`bk|os-}ZmqKi@Yv+c&tx(5a>>qT@|V0%}Qr^3v_}T=Tve
zVP7?lQu`m(NIJdUIq)L&DK)U0{cIosDkf-7rb#jsED1}xo%1>G<;r9S$%iqo^sUN>
z|G8f0I!?p=1td<caZz|Z7%cM_Zy?=`M065CSc^A-XmAs6Aw%0hO!odWYOS&Ab0p$2
zx!NBi*PhwTp4(?CnFI651OElN`X6DkVm9n1ZK<T_(nUxIlDe{l;g5QK;~ZWV1OyB6
zleJ9S!6Y{^sa%+pEKF*gyRqTupYbtQOzKyb!Og^jWTSU)HmRqO<=#!Y>l!iE$WQz{
zm?q(8e+Oa;Epq93ZtpC&_ikp(LT2-Qj_HUjF&xiVV~CHvf9|bwGl}irgys&NuJpV*
z(|u;@T!lMZr3J2UE_<+wp#8D*fHXA*@vl*}IB{)){!$9@nR%{fmg~72>zK*xt}-+U
z&BA=d54|94`m$rLcd)Ya<jf1Fst_SjLo^uh5w34Bk*zYM?K${>w6ze-)S|?{1-jKV
zinUIisKF^vHtp`HSIH5$Sa^{@=`|clHCBR>YXIej8!Fxo?r!LU1lU<BCihs!#X}?E
zkLMco)GNszhuvpMwal%kmN^q1MUt9>Km{9KMo_CsrS~9qJD+B4Vbd{-rdH1wj|l{0
zck9y}NN94z`ZEv5iE-33u0Omm`8#ukf>+K81()}S3Gg=&?t-Sy6JbAu7}Jz~+zVsm
zDP|u6QDrEKddMT{7<C8bXHotR+Vd+q{s+xc^nC>4VFXb}sGrd0pTntZXDi_iQvldj
Ns`W-@2|?qn@E2_>)L#Gq

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/harmony_utils.cpython-312.pyc b/entrypoints/__pycache__/harmony_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..123f2a7cbe0f1ef5fcbe23a7d541d643a2103e4d
GIT binary patch
literal 19789
zcmdUXYj9iFnb^H}zh4AM00c?!B@%q=LA|UOB}x<}inK+^t{8g}iWj0l10ZuRC|NQX
z)1I^ot-T|%aU*K&jG1m`Le<)a>14W0r|l}~w#hc#4lY3j$TfGWOx<?V-DzP<X*QX5
z+V4B}0gwjm?ypX-&4Y8#{mwbxd42DrpIWUZ3Z9te?dXTY6!jnRMSd!z%+oz;in>Q#
zrWlH$W7L@VOOMg;u8OJR>M?a(Gp3=jTpiQKbz?e`*TnR3!<Zp%95cpEW2U%y%pA9j
zS;#kS%o?|i+2Zywd)zVRh&#ueq+Azs#Vf|#B(INo;+12SByWgS#l2(RxNpoC_mBDG
z)nnE1z*rz&GgcF?9jlGkjn&12W5Ia+Sbe-<tRdbw));RZYa(@xP`75RndD87uN&J%
z^5$4eymhRV<SnsKylt#4-aghI?-=VKW!6|{ylbqBrXsadzavjd@fS+JTzr#rP<mC)
z7k?Ss`|7bh3_ZU0I>p%kkRIC?>5c670YKyc<2VApj8iUQT#<v<G)%?UG-HPt_t&Vg
z!$xZBe@rjqiR@?S+j^*18PPE|Y)N{rQoeYVoKMO5m0Y!w3q%e=pEcK9OwHG{W6v?Q
zk+w)BwtY>-)BzSpuy<xZQ>+n;9F0^)+7PCsXKX{q)I%G`m<DJa-!)7lv~ZkhinKG$
zP|FyxD78fRUGV(`z#fg%U|Y~<3zYORt&t8=+Du9{ObAL(GHo&(`F2YB)(+qLnT|*e
zDK$!^oltt3>52rmly*bunUdNnrUyy}pd<)=?}q$YW=}*NA#IaV4YL<Y2ccA>l%A7k
zPx(D~O)d4i51`NAqC*FM3FD!LLn^^An2fOFS7Q;uFdF&FY$P!e3DJUnD2m0gkXG<s
zjBqp42`+MGHZhTmPA4u+PsdJ;$6|s@{xUL~oS98RLvg{gwd_KK<Hjc=+d(fyUP~51
zFGj|>=|nU!i7kXQf~k-6b0(T#1e=&2nTaHx$A&E8`)FjGowzRe<lbc5UW!~5Kj9co
zO(&9(L=v(Z#5rUYbbYhQ>(i`YJ#~FNk%+_q;#zc4u)yz)2+NJ*@B~MH<VGYmJriN2
z284>U<7|97aqDzqVwwRwhsWa)K`)QZuHb+A+O=smDQGTE!*n`ElWb%>j#K;mILk$#
z*U?)Xj8JaXjI$uW*b&422sgn-X9yOa*z`CPzAknghGii=hiJAE77l*A<VVm%5;wSz
zTJXY%pt1N&EF!NF2i=axg(`WD1{1JIB}?UyKX4au;W?ZrGdrGOrsLt+*(d|8YOY5o
zuM4_(go)0^1$Aut<}skRlwh2IsU43dU{DS~EE0~wOtUj=1X96uGjcV|kp&7v(T!;2
zrr^AA>iO`=%Y#Fg28Y9!Mn;B41yd4698TVviEx4rYR<BW2^t!gAM6PKo_0ZUk4jNf
zrC%keq)N(AA4*>>)F@2P?I}|bo>SK&6R&c?=(S+-dL%d*y%9+SvD+Z&HaN~kf)le`
zaym{*IZ~%J+7;;vjwf!3kke3;h3eypAdDe+bv7D<Eg-^&NCiAZQI4Cv%0-fF2=IZ`
zX@egQF$(_nbayg7(>)WN=}eBZlaXZSYqJLq9enjbq&pV9+C6g%He{mvMl2TZhP}$(
znwf^V<htdBpG`(%T-VGk!Et?@3ya8xaR?mS4b2Z=KX|t1se*}e_;dCK-rlg$xG!t(
z&6s;Ln%<}Ik($6new2wFf|7ewQZA?FeM$UAo}@<3P3h!Z@mHSg@sir3)B}1LPOtMb
zo0hGCnyd#B!G5;y;)RjnE8&6XFNH@&M;}mZ4}Qco7A!D3%1&qZL(vHQaY0DtsgL#E
zj6S#-*uAmmbZ*aOe$VA>;Khu=w`mS!Gy&3zV2i_EjD@2N%w#kPa|Q=cq%7fxcr;BM
zEJ8BOj3*;P#Z`9tCY;MKQ*!KF;(}}`^C-K0OR*)I;F9btp;esVyctbi-?Bgx20&bX
zfE|gu`7dF|!lWyEc}m&AGAKoTC}rmiDe6sU$}puZev@-4Wyb@Q?#+WqWtpZ*`<1}i
zR%nHYQ*wRrcg~nHvig+qJz&u(-FwtG)d~2WGwsl)NnUv9lYY|+P}Z&O;ak!sm!)Xj
znk98q^PNeD{B=sn$t4suB@1@NB4swFa0hLB7?skx3b3i#_8DGNMF>MmO=c63+V-T>
zN;`&>W=AMZ36yq6C~XOpp1TNm`L}fkuXAQbJ!eVc(IC%Mt(+_Vrp!~p;+vf7r|w!O
zRFl+%>J?bgIcv(Avb=f#>CHRFlyy<{jzt6C=Bx@9Ho%}!u3h|1*%SyvvRN*l+9l_T
zzsXiPKZS&C+mkYUDDB}nd&)ivebc1>n^Z_MEYPOghUP1s&GF7=MlelG$K!A~$Jtw<
zN)~5DP$z&rRFK27_4KkhAwuhmLqiv2Y7v&H$LN*OOQ$b{2Zu*5UA%ni(%{JOC<`+{
z2_DkWXO6w&;_1H8k>SDNf$-@wXGShw5)4QJl2PE}>csR-!2l=u8hH(f=eR^52$#?d
z6ZuN$uV9-Hg@`ba2aqCI7a{;8=PR>OHWHRTa)Rx~cr3~k-^H<RtBXus@LXeo^|By5
zgn<iVvnak0PA}-hA%`4foa{k>XAfa=7?bBPK~bGOipeoZ1Uq+&3&*)hxgFrtvn&e@
z7U`n}=3aSYksS#3XkrV#0zDy^5KJ7TpqE<Z@bDswEqz2X?m{vSU?A#*<D&e>UIFMA
z;g5R*2;V&Q%uQ7_<tkhF%9d<pXnrKG_hj_-d4DM9Kg#=$t|hYm3u${^Uy;$*eY-!`
z^ul`63;F7{T=gNo`cTH;{YCHTjJ+;n3ofgck1Tibmfb%&QczPyPeDfknAk`x>pzc;
zRAuyyr0L_l|M;dQkg4h9EnQF5s%lf(4iyZpjNbRLrzYpw#d~(;JZ-$EE$ivXd3t$I
z@9I?6)0Z~oE1PqbC;7^gj}B)mhY?|aM!$=+x{vqo%k-Yj`UkNyUq;_tQaq6LpT*)p
zM&DXee2$>@b8{f?Yt8u%@V*0STi(AbZQt}X<UD(M&)&RuSI*nJ?(NN5hIw!A!tOQa
z+I05Nh2MK2<L%`w!+?IJDQzkp?-W5{)8@(9+Id_1!~XA{e{g=SE^8Z{AIO_s^TWUS
z)JR!JXwCu)@uv-@)7^$Y?bJXjXmCSs5x$V&pe*ooKde_NyGl_dBA0aR*-J@<L6wsh
zKy)j^lFG589Uu|mZO;yn3hOC?KcqjDq?%Fc3-K(&BB7`9{eMAUA=NNS&<WHP%%viR
zX$IwT6qUJ<K`=!*lq1GL?_%o!Yc_z%Nk|04HA&-QU&gXmFhOM><jXPm5#>wq%vDYR
z%}YjzWC%jawP+%WY5+S9aBm?j2gy9Osdp|kZFqY&^t(6hwW6??cY5yCEY{?ljl8ol
z?+tuly>HEVck|xe`Ks!BbBlAis&2lj`<Y(jFcm0`(e%tjS*mm9THainw>s}$xpO7&
z_U7D8yt^r1QFZV5;&Fhr=m1u$6Xh~3A(#`=b^%N%3Z)gY!G5%DgMF?%qyl-U{_{ms
z&Y4n88A%^ok`j4I1+q(OlA2Se=zi*zbHGD2DNVWU$j~<^mVU>z!&lX-z!zCpN?lG0
zN-44eO}(=>X_t{<)a6?P2~6`%MGAR~)=()m8%n8x+iN6l53<&rCh3%0D)s<8->#wN
zv@i};ISDFNlt@%bMT(k2rnBuyqFPCwaxx3ZQqmgE=~6m{(`$g!YeDp9QA}W4FhL<g
zP{$``*e^rwHqrHn(iOaI3nr$ML2h<t26W{J6SA>xtbse8uza>3a*{Z`MZ(sg(kAG}
zXTTN!qQr~ivDwIJmYrtFE|+8o`N&8*5)P4l9upjxVC+Br;_0E0=TBb@=|xs~6^rdm
z<i-|OY1`He9yh_irLa^L-~_$Y0*7+G#1h4m=|OG?Uqy?8!VsqcZUO$dzk&o9qJgSv
z$yK)Tm2KI|4&*P$`W|X>t(VtZFB8u39PfW_ZAfA>mW<w;KXEc``^fD}_vh^ucW>Rf
zRiLyrwofRn!&Y!nPR|oK*uF*I($u=MHSeg+IhuJ#^D^_;(f)B|aQW~G^WEr!=*pMY
zY?=CjY~|UE<7}ah^7uaqQWpO&4h;Z@X|w(O(7>vD!?9~Q`Pk91Rtr4V+ESq412CSt
zu3T*&U)z^=v;l0LEj{u~N7*YC?lb&gcx@zW8&bHB9qMs-@PFiVoeF3Ky(Hmm;XE4n
zP6z{>%PpLz9AWr;QUFI@+ODG%y9b(sExK((XfBV!UZB|-_*zO&9k^<<s2s`?3=+`q
zBNS>6KuOK6oVk@Zw?1@#*Z07;I*>IV$!Ly<^v=RcCNtbrf(?xzVY!IgLI#m9lF^=k
zaeon?<s86^6iy2@rAJX0QHi5&&>X0Z3{kxpkwpDIyb}xH91u`OgChXqr((2(fN2@s
zoQl!UX%Z^N00agIviPLbMWs@nN!FiKh-*2LnNp=RDfMk=K&~;TP4p5nrjy7R9QQe0
zQc)ZMUdIr-DAszYsF*<1DuJl!0k+s<8J-J0>Wh8BsLW(k&XjgaA(hgA;D@m&N{=?B
z9R;(JG*ebm>mR^7u~^R;7;4U#RMgQFE!P8<0n}~IR5DMdB$6=l$e4gK=1!T)k=T?0
zdxGyxDbt*hrV>c%jq|o7E(>`Wd&&T+xT3heMVHKgUxq6Fe!dc!49bvG4RWsd%Q#ZT
zsixw)oFn~9rw8W5iO9)go7*~bE;4g{#hsNz7C@e&TFq3DQLD~TTSikx-YUTt`N_5?
zrDoiSi@0NUz{o=|x>_=8fBSyGd$E1YW%pB+yf1K8rrNimi<rWxWxUu{>6#Mg&N9%x
z()K`N#fs!%{Ll_L)urvcMN8_o4w!KDFnbMP1-(SH1Pv;agt!ShQ6m$K3NN~C8!Rzk
z9X1IRC<0)Ten7J+Y{fXvaZ!{^lY$lm%JG=sRyg1U*#E=R#Ox1b9ABc$ZU69e5c5H)
z`{1?d*#rYA8~m+FuF7=@I;o;j(bIp4G>66QCRk;_Fg689u#>ZBGT_)ggh5GI&`g0<
z@3#AL;#JVy6Tv7Nwuy9cI2fv8!vuthP9z1BXi{Ki<1>O9RQwY1UyV?eWi@V2u!u$g
zQNI@qK)*p)k1#AUFZNALu4DBoQhl8G6t<}BNO(kvhKL;+w0MiCt7DObVC)+m9UQ&X
zH+)I3Nd}9F=u8wwDVq^R)t^|$LuNLK&CO!+8YalB1T!ub+Sji|Ujs>tn`BYH77P+k
z<p`RBm8^}-dj#uNR%C`6CHlK4u(&}z;UWsZ0@FUsF8c=nx(0vT7_1VJS1gqav2XWp
zm_zxh##~hwU)7bZ>PcJjdh5c=yuN<<<<(t$^P#mX>&<8K_UffGyuC54$-8QoZt<>A
zTAw%D7Y?qQs|yCoT?ZnJzx~enC;mYC{HEEnF!?^WVQ$=X`Essq-qpRTS$*}<0Kfly
z)-`nJ)Gy9o%vO#5*?~vn@0(YuSHH4W`Mq0w=)}*weLp#nKAWi;CG~oESI??@^|h?)
zMEVqV_S`z?D=tsY)xf(NmJeiI?dem6gOtTSf39$VGF2{I<Bc_$`UC6610`4<I-0g_
z)-*3Cepb_)zVNZbzjSn??c`&}sl2;B=MM4i(8^0$_r52=&IRkw9iD=fs@-3(Q5Iju
z9NcsTGIfX6TGo7-np0U<f5y^JwDV5h*12hM-92~b+`Gwpw-#?LpIe#Bb@%bzeVMM4
znTAtYOMl+tUGnmlhNoJ!-IP`rYDGk=WJH&%*Nq)TJU8vGg#&M=mcFuX4`vL(j6GOt
z2S7<|;8EWX&ON%p9~sWtMxa55*q~i$ux{Phv%S*LPpbJNm$SAP)9Sp<nX}dMw%Vms
z*481t2YE2T9A1g7?dJjU&QqEC{;ch^^s$k*H7=jY+S;Kv9qH|vnzH*c)!nO>wHNuG
z{!I7jj1K??GKPWQe0r4fUZRP3_`}`4v(=g{QXxtJL{4h^zmbz%<>e%XeyH%&IdmwY
zu)ghK6cua^WT~<cied-S6fMb6|0JbiSBXlg0{P%OsHlOOSFU|sbPFFX3!`U>CRH79
zm2&MEi!iUz9GF}|cGG_W$5ZSWQ|08Sq7-ESgK;_8Ns-OK{BJ0yXfkHvL@3TO!YK-8
zajHwCFfhuOHQO6xJ_zdb15}1VR-+kFO8e#xE3<Xp%CDZS%)A*(WI1C|1(u}?*2@^C
zkY8+j82i^ia_d(d6f(vjHx?z<z_v>8nnXJfd8UF=rsOACT%~gInmog@Y-W_P{Nfdx
zq*2~2yPHa81+Xt_0LG*u8_NB#wi5Zy_|PGbdXk<qB|<nKcg>Qd4;K76a|yJ$Y~Rk}
ziWFM|=|2e4zX|FW=dzqUNT*CPX1FVHjFLoT28qZud<neTmdI-pu~~3aC#Jz=jXYHH
zJ|lPJ*snqX`(;c}x?o?&<aaS4631JZOJg#I2{PX;qzM(Wz3}%GVa`)DsBtOkmBTP}
zx@02hGG^1(6kSf8V-$}WLlZ&Py#pK#-Y;nze1pD6!$CQsp>C=FNPUwAO&29WBFK>e
zfi02<M(iCZ7Sy2Lg4<fv)gx#i&?C-aGr^!J02q%<MiP<NX4qr5cZ;$B5dpxWqIh;C
z0k7*wY#OGJJJzLCF~i>B&<XLE)Zc(ln$pzTei3L~=-;fUSz<t3s0e}G;rfH?t2eS;
z#~$rk?>bx1g0147VbQQux$Me0ntmQ={0(6PZ}m}qDw>^>#}V=rN5K9bmVSWAR*jzh
z`&jn-n0y_RcQKiSM9{=Qm<7=h{OjypEG-IY3;6mrCV0x(cOVH_K$L=z3e@05sq33i
zDrn%96Es9L)u5y*ZW*#$zJYadd$9K~L2-<j+DjxXX@+Y*e_GiGQ1!oI^`|hKXlw8+
zT>rLa!`%F&qB>Wxi?7(V+MlV|m903GHasy`+&yyV$dWE=uAA=%M(gt53oHhfVp(VV
z{JFf|oPK>>@4tULUmHwoK62NBs0BvagNp~3&aJ4j7460MGs`El6)o@%Hekbj!*cb?
z)vR~-y7$29#q^*ei+x}7$F}d;9vQQ)b0AkK^3;*6t4Dfo;$2P4w^y51D>Kapv#vu@
zaSQKiS<z)(-SBR4+&zEi{F3^yB~Wluo;t8sIoxS8U~jObZ@l%@yuIpf>P~72QL?w7
z*yz94vDmS6Yo#IU>Rfm2U3I1PqM(@EFgHQHD&M`y#mP^k{q|G~`|c^Fsj{U9o>_=d
zs+`c3T)CEM01wOlH9c6c?56)>s=U*&kjk2xU{e|`(5%y)o=sy05Q^Q2Egf3Enze=I
z2hfn-^8Vfpech(JZuzARcW0)e>yF_Q9d(i(q_Y)+Kdf5od-weE3*Wi?t;;L>SNCL_
z_y5d&;89iDkf|8lG&ysoR^HUQ;$C?zYdSa&Gh$Eo&JX?OQ!V8_CrUv-b~T=LfRPLx
ziV&Rh8JbgKJqN)9g%#K_+aESlz8r*<9|DC^6$3s}s-iJXrYh_R*ppG`+4f8swiUoD
z7?jjWMa?efG9d<liY-uO#1KO9=y#q6npZ{yDSGpP+FdO%&lE)t5WHY?&jUuNkpI8I
z{=^R0D|UFm{-TC@=U;(f0}M+vPMU-&RL`Q*vz(}O$+kyMRB7E91lKnx#iCu1BI|Ub
z`YCcX=N1qQLt|fnwPA5<5GqJWOGwB5BPb9I5*g>%oA_#xUWo@9<Bdqnn}UR3R!V>d
z;=GE4O=KD&&^yIw7==mfG??#0)p}$TKZXqO2p!eYHGej*x8?M^*1@S-Rhz5YzfrY6
zJ@B#Jx74!HcwobRFkiRpgRkEIYOZb%U$<w$0>Mt6`i-XET+<Q0>BzeK2q>W&EeCTg
zC;66>>s2S8xC42I_nv*xzN~-jX#Kdc?@>#(@m$6c{HSs7!ufn-SFW*_Z|u!A9_AYl
zFAPC@zUGbAL%G%yeCvsI?}>bM%SQW=T>BZm{mgpxnJ3<0-W|9%vN*DQ{;|8~6A#t2
zuTV#M4;1!M7We!JvHP;CFrY2x6qFTFZJCEmsd=}YF}uV=MHd~FA3{xh%85=XI;ot*
za>iKs9D|~wl6RSoMVls=SuoZ>*#P^otO23}7%+LmQYz7qVX)pnfgD#z+$e;{f;@r4
z6)dIDf-yP$Y9s;1AdW-&1Up3Xf=EqoYwe!_%qiRoy^sM$S5cR%=;SLpSFUF(4$Kd2
zIs#v}<s5yyqc3l8zsuZ9EGB?ZJ9YDeuxl)yjK(caJnr8u6OV+55Xc@qPJDSHSZ)zO
z<bpsF7Q$;rDT%D&B5r$dLKo;aJwP6z{q0Xthg_gpby0o=EEED+tRu_MjE3}VE?UMJ
zg<QOa<h@K?Mu+CXIkk~0IvC4^Re_F$(J9*=xo316GDbpp>yuS75Mu%jR<S<HrC`rA
zgZ3tgooI<<tPgGS`<yQEJJ6P0YD>|Xc5KVBtu5z6S4mq3p)F!JW}AyP?vzHd0Plp~
z_BK5aE9D3Pz|U4Pzf~#KR$FROGh@8TdU?$95ky$<RrnbH!|D&ET`{KzQr{>;7JtDf
z0s9&snvi%{zb5g$G-U#0rY@IXU0`GVxVl9Rim54&)g;B#CPQ+|<yV`jdl;1Gb`n&F
zhxH#yz9bChD?5f#9sG>Qs&*Jh1C9fByEUbHliT4`G|Dr=UImDD8QbD7(<DPMB(ffY
z6U**;m>1A6U|v46Lg1BAZ0bAA!mgBw?An%;k!cn44@1gKn0J^7vy2%q?&H!-sNPKP
zFw!;|nrqkrqFsT&aD{R-q(g>a|3BItC1<O1``OxI=X8-1@CMLY%Z{tvK~}q4-YMl*
z7S2F7?CKunWI|YE*<Gy!M#5TlX{h9Gxm{-WXLl4i^N5)YRPtMvfB2X^5BDnj$+p9O
zQbI39>QFLo`^wMLRyx&K5@b82_#TU>HBqb&EQ0#-GlgxTaE$*khWFKTnk&?T`W^L6
z>NWKh3XBK6w+Bop+&zz;fZ%vg5;+yW4n(L=Loq7U!Rc#3(VY{Ny$nHOQRpHq5ZlV|
zZw*qYbr<`00m<8)gJO_jFfkjy3eok@hU~TgXHHN8mb)W<q1!ETopTV#36cAgTn9Lt
zW+$&FAy%J(&Xa63!hi!vEoebuVs8oRSvDr<XU3BdX_dHblTi?FCfwFTG$c389%laq
zU_?wL;36ZJ7D6hq3=Jr^Epj!u50YU2B@_up%!X&+HVQyu2{E-4A;DM1uz!M(8q9*A
zgfAtKUfFRa4|JTwkRJ{T>YH2`FINz8E5Zo&lB*PGbAa%ARg{4k7*YWcPL3yMInn87
z7zY>KE%4Y0YL*MLUqb|Jiia&sJbNn9AcP}(pk@CJg6O%~cpTz!MSBr3U;G5o?ZX6Z
zUjp6r%l{3JphXPA?BByO^|gs`NGn>&-b6@jQnZDTR&`<+y`Yzd$nJvgw=3j<vk}SP
zbvVerf$f>aJtShO5&e&5xS}%+1B5s>d5E#;$r*O~Dp+8^4ihG7i!=_=@Iu^U1bxKk
zwo~p8EID}H2X=>#{l|zYu>perQFgnD_X0R{#<7bCKqlfk=F*S|TD*<JiFny@2lhws
z-isK1grN+gEecJytQiy3Y}p1(CLsYIsfYoKLYxq|D8+|dl<y~$UIo%}GqGq=^fjXG
zlQlpRvP(*uG*RS?u^-`QL{*UYspvKJp@S4$cyOOY^3uwpKKo;YF5OqyQt3t^??o>x
ziC;8I*Mea0S><CMMnKWj^%&bU5{D!fav1D}^rPh2;#-u)AZZ`$Ujg`eke0Z=29X^U
zLIY*6|L#}c{Ay0`=k@-jSJ(9+D08^d#wVTK^Fw(@RnAe*JL=~L^Lhub4=np~^}T#O
z#Ogk-@7pxn(l_tEapw)Nhb`}3H#eadu4X9fx{$G4$h&;^x)-~b>%l~o))!1xqiwUg
z?t{bk4=+!CC-$vawt8=Rs1QKa!rQuTZr$|M=e>2ymRzuh5B989tu<tWM>BQDGL^?4
zU4I54xVAfIKohZ5Ep@G10lG0?S+f+&)pqf<T`RMzSF^Q;GBt-Y?&lu0mw~R!dz+T8
z@ZRp7YUMrE5K4)ifDx;rCR2A{&A9q{(V6Jqn|He3{nFQ8Ss2OKA^6gluc*yC8=e`p
zB(&KA0ns@_HE*b18rd*(6wazBi#MaGDh#M7lk;xfow}uS>qb<#@4fNv8|i_~nmu`s
z_x<YkYL@Joiq^c>pZ5emcK76Knm%~>{>z!36EFx*WkId+xj<p|2A)-zYHjJ^LM3JO
z<t%l)rEb~w*wS6_QQnq9zueoawA|ZJ*4UaiyEEqC@|9fkA#@LSY%~w#1I-_d+#gvv
zl@0W)y7<7p^o4wN!w1LTKfa*f479v=VZpc=JeaR-{vdWgmalDG9$bDd6X=H6>AY`O
z-WOQ9vUEOE)%wh=t9LC}!Taj0$vGN%N8|E^$BsRP3M$ZEU}$OVFVL`D8EZq{;>lTp
zyd}8o-LSOf?cSWd5nR;EgB$j);@kNRd(RUEm-_wC+xuU7@0F#IOjSodP@DHPeeB(r
zuW$WM;9G&rzJ8b=pC9I@rV{2S5QO<@a4pzieiV#`A3OHK`~XI0B#fT5lcn9WdT6yh
zQ*$iqI-ao{&l??NeFoNzjrj^s+E831e@EUExcBnn%h<oCA@8ff^|qzY7c7+3b9dy<
z$kO@8meztD7U7wL^0YyK@4K&lJ-!gm*qgzKk#~CU)h^cNoK3tF_6%$oKg^uRls3Z5
zDH~>R!>|i=Y}_xB+qPrnrSFCxgfksSGrnV4+wqLy_}@Icpa#pWICY;=W}^+pU2%A=
z<xe_(0O5idQV0=)yWsS~R;}vESMU2ouL;=R9xB)Y_O~1=r9a$LcOgXmd8l>RqyG19
z8d5<=?BnbfjUFi>kO%7NKLtv$lSa=Gy&WVdNk0X6<tdss%NYfWT0hiAg1hYj11tSz
z1xRy9-M2lA5*sGk4WI?ZhgSrZV)6DBHFZW^4Ceh%0z}yiBw0;~X|t^C$!H(yO0+rZ
zp<a<W!8Rdz`pRKJqR-fa#V}yNwuq#X100MDM&oJ3BG9&qmH~5lyi;n>D=mzbu|2da
z*nl|}u|a!E$T7_Rb7+qJGfe(1CMcz_KgHzVVe;pgpg_PPOJRS8$<HxC7afGk!!1}*
zG$PE96`&LxHFo)8izGyXO-j1yLc*WC*Z{hP1gBCiGk$gx%Zm+^aA}cyKf%gHF05t$
z8Vf$b<UeCV@cgfk<4~C<3{SFni9Q}S5{G-TaAz2A5rH836rg^JybkOF!0Ym6XU<%|
zZm!SUooOS)&WJqkeddG2{lvPyLoD{z=Da<;w<n|V<nbD0Qzmpc7dp*{PCuI32)#gn
zo?zV?USG59U)Q&9`ntBT26tuN8Ti=Ik@wZ*eBHdSJG1``5G$t(h?NHqt=kL4%5O>&
zVpWHiYYcUHqdjM=<BfI85ERq4S=pL*R^^;6yt4&agA=Ha4@ggyDQyP!w2jVqf(sX*
zOCTZcAW|5+flwHTOZKN<&lvo9vvq!u81E)vMwAE7Eji_TAX92EmCwf%e%<!S-((Y~
zirgI)>fvJV40tWUAjuIkrV`H<7UgG-MYE%5LF|H@&`fSFePONt0kFTqHAG7)y639i
zK9(~-$D5zanvZ5QM?X6(JVazzXCYHMtfK!#9>nL9DY(ockv2F^aKVHok}P<8(NIT*
zU9`|{A6=t3I#3D7rF76>@K*ZPnPLA1+W8HR%>x-6TlM=x?+t(7{l~T6tKBf4$Y@T8
z^YsJxyoEk1Lp%pxN{1*93|&-Uxq&&uxS4Y6xW&2SDRqsg2wtGfvC|Xa_W+d&`zL2n
zFeoNxoMAYD;`#H7=T8=wL1UFgV2=Ht0QkRfkj;>RL0WsV);;rQK62Lpqczy>+V0pE
zUVCf^0`v0JJ~2DzFNjMDRg?#9He^ZvA(WPmx73Ue<1E98AljM+dMa7pO0TF&Ji-q3
zbV^T3W=;b!$=bw1*_vu%M+t$&RE2w?91oMen3M*U3|N56_oz)=ffj)u`5|T-a$@Yb
zp3#=Q@}h&-4}%o@0k&TfB~*r&?u-XSebkW4tBU0jFw_4n$D)OZa&1a|4I+l5NDu==
zg6M|N5JLj7K(HAYI(q^VxCer}f%q~+&F{bCD^dSanEN&Y8B6w?tg4bo085l3H%*Az
zCF<N(5-Y3Rx&(bmzJm@m1f%#Bvg|jYWe!;j;To8TJJ%`hT+kSklJdr?VUKBGCvh79
z4$+sOa<r}($)?S_yr|O5pU+o#!DFH~rJu{{tCn`J>jO{R{+zpwceep&@doZ#H;tC`
zm$F9R(hKXx+9%+*rWc1rfR)|6yEEtB!@Kt&EU=p{-rIG@`o!C~d}{e3C_`y$9xA97
zN8r2Ldv9=Y@CWg1?a&Y6tK1Uz!Rz;5U)fE(bJ@B*YjM7IDC@p}E!F3|A>JEWspq{N
z;-xZZ$n0K-FTb2I@6Kp;qsP1Mg6Q%7kv@3JVh9<A#petVxZ%(cI{;%AwQ&2ybSxGT
zFWh&HU!7p_0J2DV1RY!s0xrwqp%N<5LNgxiBLB)mm#naIqDqYim#EYtTgTHN>@8nG
zsTx*-l8XizQO`#aizNmC)cA$2FKVc`8;JUhnlk$YYgX@26R*y(4ur6Y5VC(&j9)<s
znt1fYTU1E3#fTV`)<j-FSc4y5Npwp9b2XU!5hmY-M9|>BKOtVY4q~<o?;T736oot_
zpuNdySOD>sVi4=rV_g%eK>nQyA~Fe@vx5U?1>J?y{ezb;2<oAcm)J81y%&=ZR#D@>
zl<_v^>|uzTR;)bXu%Nk$<LyRJ^huJ7!{mM!`-k{CjR}XzA7JtT6Z9twYOqPN=uRZo
z1R`d!$fpV8AV*x#CTHPaM<HivJ8Lu?fk5%uSmYR62`3Hyr?`I&$E~2IX&SC((T<NO
z^M9ba{(|!VTBD;?zoH=dwM|Q_o>Gwf%A$fqN70?XR@vYKB`3ea+^=dW`nkWL_WdWy
z^J|rcRzZvk6q+cy5riXaKvY8Wwwj!+iMKW7&3^G}B`8X6RfckaR_F0$DCegZO&z>D
z7xpf2iw7aLg;o^+gZ;}D%cI}&!qqQ&{|bZX?EloEp=%(%w_#WQM1Q`fKEJCi-yF)f
zcI4|CL3{qh8KNul?y9Ax#d8HU<eya5WNLf)%Kd9@zVc{63q^pL)4jkfnhJV+1NE(D
zDS6*tFyb4y$^%QxeN(}VZx$+0x9q-uxM0OM8&y%cq*-h$*zwH)Hi80n2k|{R>(dI%
z{T<p&>oWC+*82JS6Hh64f!O9?Q~vO=Pqg)bn9D=zt0DgcqP8^|xP9vA=FL5;`*`z#
z0>S`x(3&1|XJLVkE=?3D_*tHOia!OzUfP~_g$io;ed6|JeC?U8Q@rmK@9r;Xp-ifd
zxftC;J0ZIKrSDmvQjjfNqw8pQ-da;o!|xNVF=MLbwRKOm@K)%jwX|osf2HbM7jU{g
ztIXQo??rLSJq5=cO?#K&Y8?KqFqyrl`K~ih$y?!sriHd;8uk<@_+3qAjtuh$MxNqJ
z;S!*KY$dsR>cK6<{aC?3(|vTN^C-Uc(FKEscCECo?tRb+k#w{xb7Tk?-c_(w(0d?8
pYDs-(uAqke6Rjz|cfoz<@B+7VY4P^*zKpqr*S0>>!Z#wi{2$FjqOSk|

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/launcher.cpython-312.pyc b/entrypoints/__pycache__/launcher.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4fac713aa87544f9526b41e451eb51718984b39
GIT binary patch
literal 7957
zcmai3Z*UvOb>G9^!yf`52$JF-ktdOi1d9YjIhL(Iw#5-aiIPaUBrPZC#Mcw<NFH^#
zL-!7%$bw@!R%$YFt9a5x@=T_dXFRnsay#}+XX1Qln|`v#{ZJy52gsG4s1tXl{RWrH
zBzF6uZ})HjDAUzR*nPYEcK7Y>+xLEN`7cdPegvQ5`homjJ3_xD1^e?=iS5e_LN}3!
zL`FerD`(OSEj!W<$Q_C^>q@&A(&kj$Sx?$SX-4s;y-?>;*sL$@%lgy)Y#<$=ZEhu)
zZAv#$+M|TB;dGeNUL}%kPB&+x=_oC;N=r7Dj#1jDv}W7VZIt#a?b$u)J(Lb89of!w
zXSOTd#UKZg+NAEgAT#;Wdwoc37lV>dY?2%cE~~aN6`5r(LSjhj5yO&amK7t{-RWMj
zS@JHNYUHzMF)D>;U1H01S9;$gcw)e_pU(VsW3`IRtVe7EzP=?UzURNl6q9kr^q-xX
zd2ZSejJysd=ZLx#cbeWYK{rO88#ldE(x2uf-7wiHNzZAjE&-EEQm+!`U`m~nRq3=M
zOR5ofnB8ZGhxv(-Z}DeSBcrJ){`AG?CujK4)Y!=L7iP=>yLEi>^u>wiE~I8seCkpP
zIHt$bDVq(3jZ9BpI4xmgN}9!zJ}+UY3&^T$@QOA!M~m&VvMTa9tYsu!=kvO(&ha@7
z6CuKuP@|F{rZCp9*<w|kkyHr_hGbPbg<Q^b>00KB8I@GwvLf-iuJG8J(hTLV${7u-
z{FOxk&*>Rw!{HDm{sH{94L3rsMqX`xHF_Q~ptMGfX`zw7S}QWPnlPw<c2kZ~^qn&Z
zt+)(O5$h|sM2G0STODo1y`#m|(Bdh$Uv?BctITWrA0dUi;1N9w_I0x-g1q3i<+JBw
z&}-u^RB$c?8rZ6&=!MxGR$;~aH9Tws4_olAdW@hw67*rA9IBOBquHhxqBd2}3uu;+
zL6*0fzhqW?1#iK}Q)5Cn3M`arG8TLb9rb=Tb+<||s9~N?yS1JdeD*G^_>H}GeE}8x
z_G)2-Ub}vQv#EM+&$JRK1Qz=0^)_V;*i^v}dhiXqRL>U<)@hrvXSb#MesuTI3;u;e
zcAt7)V6d~m%rPn>I^V6Wur^kt;Lt(O)T73b-3N9tVbk>-Y7f^-HU+guY`UI9?KkTs
zn|jxOw`vx@-z+w-Mb?_vqO(pha6PyZ6r081b=OK0tn5jfzn&XU+4RD3o2uu9puIzI
zyB^j5WWAqFHTL(R^~fvWT>cF1-A`OMoqz6j!~J%kLX&;A>(Pa0?Vk1AZe`FkdJ?_X
z)rX88yLC77-jDE0AgxnuA_}__GEUpvg^+zVE8#-;<tG~Mbjs$b=VGW3Dul)GuD3e8
z05;{}&z97l#Xb|z?HcQ@HY{TI0J;4O<2B|QVUL_~d>cJ_mln}A=eN-!)AvYToAYm-
zi%dMa{11K(KJZ%D-~_JftT?dg9Q6g<^OpG@<Q8RPp40O=;vBeH4Re{iZfIGXfy-#>
ztUO0Y({hFk4lV)XTKqaUZx}gl9z2PJIYrLOhR$7;1#TYPTvoWo%W6i;<`l`0c<Cy*
zKwg)ZB~DO9I-bpC_2)BMUNsW5Ww~|asvs-G>u^}h8<NfmSUPTcvyw5diTb4J$_d8&
za@!PXJkAa1gWQDGL<-A}LC)N355KDrX3TDGoE`kAm$*F1(Bm#MKpY;d-;l0>d%q$r
z@nlldmjTynk=~3ziA?Qyfgnb|1%BHKBtLfEMC)jwihrP@_SuTSpmoP1+8Nxu&g`ac
z^)Z&v68af43GUsK5!8&NfbTZ693Yi|F5#;Z<_$pyS5B8i<gYq%37buef{~dQwK>Y7
z!<|N}tE*q0N*dW*GAHMTK#ArgW9VA`$zxAlc~VL$^5tZ12@XO{UR9KA5)KwG<uq9}
z^rRx>)eIn#L~h9p>GGT^DEvGexFX@@{Zta3=uG0IqGbd{e<rb$X9gzMlaTyj72RiB
zN^ED5?Yzf!m)X`5+g)V4@3B3<4(u%ldrHB+VzBR%;6TNRf<4=0TfcG&KZ43_;!!R5
zv4qIwz#LTk4B^Kh!^Dwb;$h5?n9pXHczr%^h}xpMyRbWX{uuh{1StF`5x2|+ztD;4
z{;tCX2$0;T<tOQ_8qhgehkGZ9+~p;%ipfAtx$0(#)+L0il7*c*?jO)ihFji04Wbx;
z+c+Xm?Fthx%2`L6Ag7HbBahX|_<-rLz@O=o)maT1=)Ez$aCCxUVAHh#CuBNvS`G(5
zN=(p!>8-*z({q~MbG(N%5o>F@6ipCK&otE@vyB%-v9>$*k?N*b(3jMVteFv*hsSwU
zB}h}zw452pU<u%)rFeBEqit>-gp$lAiQ;2ELjkhsw$?>X%yfdLS~n0b-mI)hX3*B%
zhLXUO%cz@CD%}osGd-4S!4k&Lj8D#(UdU%sQxkX}89#KIUK2&KKrkji%k%=6B?~aU
znXIS)ayMC9A>u8V;4e&|7be#m$4C!1-DccIDj;M-4IAjOOee@;Z6RzZ?EL}4bciH_
zkeJ@8I^aH1)lU)ve{?bfvEYs0sZ*ycUG>uu=|#d*z}Q84WWerxNj3378*&F;J^%9g
zjmUv}u7l;~*v-zr>RfYgMLTW{-0rwDx)~i_^KOOPewe>Cdt2NLA6j$W4@B3Vy(QjK
z%E8!YZ0JT{J+KiQyd%Ch`t$Mk$3K|c{N~sv?3qd!MY}68H1K$-|7fxQXqi25C${Z$
z40twN`zjvP{aC4MsMs~Mkr@4@xY>1n!?g!$*?|r3;MT#34R)aH?b`76ZS|hmV7otS
zirsi|{l#0Si%myvKLg3?*!@FiSI3CR`;U^mx9swhbzGm=s`8F)HubHJZMiycJ$~DB
z&voFlK(rL-D+c;D0|Tq0_hWlXvHoJL|LyO*cl3kD|LNE-j+IVK6;DiU4oq*xW>zQ4
z(Y8`_e=)lM_R)7vzIF1S`#*^N!t>GS?US2*f3z8$T0Q?ciz53!cOqZYXH9#{dwSmV
zzu_;pc9mKW6k89J+qz3_@nT!N9P2E_4isYt9{AiLf5nU3?Z0nxyT7p=V%$xzV7IU2
z>MFXremeH%#2XWLp1J2bUUspyy2&>t?@Zovov64X?%r~!qr`S>upPe+@7)adR=Sa|
z%`$bLusxMt<m>!`E^=Qnu<yT7z`d^=-g|4d7#>)2ZAIgE`ZuG=HE%f(-3at-1*116
z*C)%7bLB{^9BD5{T5hthv$xvc?0utmv*WSN$RQB8DfA$Sd|~T^pSs5$D~DTeytMw(
zW|%9o+<n{7lG(dpy8o$kHcIrr`bAK-@0}Sq_Z0KtA@|u3`tUGwHt70r*iYya%~1bQ
zkOBIm(8#mrIOoSr%(*`Fafmd0+{=&}&Pi(eqUWA)e*A<J>M<G9^jOA#=yB~M_Vg9_
zZO=nuS#gnBarlr?^Qa4r{MC*H$K7f>z*Gl?sSX>alAzT3AZTIgp!l`N0FpLS_~cyv
zM+!swxEHFfkt5!dGv)<@0~-hST!n(fT^2G|=D-4|;vffJFLMQKN3|z`QW6QTIcn<c
z9@ZKY+@vIl;13LqGq6lzcFs05)&BA<;3Q7EmXRpx0{kQE0E57hOdDWVvoMqW;BYX`
z%~`R#hAsRwXDu*xYBKJ`Bp3kGsz_4Kj2RM!uEZ?Mvpkhg5`l*t0G=j{u}c>&Oz<y^
z%$z<udhrZDGd_{xrzt1^Q$)=Vewr|ogkWL)C?wSERD!6x7jAsnAKD7F-pH<JH@XjR
zhK5V*@CG})#dhDibo<ghcCg|`fpD1}{!%A~{=3~rn7?KYyWWf*VRjrnIaY#2wsVl&
zgri!3{Ne8!gW=H%+ICTbAX;%4)mRFl1<%8MLH0nwfmx9$Ail=8<RJgzPQeWtM9*Sc
zk~mS;0T=58{sP>^5~r#3!0P^4;Hs{)>YQm;0(JD`$>bb>?EK{fcz6Iy8BLUuRpw;F
zz{%m^!;jN$<3zjQq%(ppaf=e<s;U8wUle46>Ye3LYAQoTqCGE583BL>SA|?$7Qj3=
zD`QA4pg=S(qiDcF^cOsoDrE?&r@e{J(uuM4re!J9%w*hcdaJr(`eogA^O%J#HG8ST
zoKK~m<3}!xUrO;8C;8MQcwF*gH8OJ+ocO$!S43XACL23cEmZaX)uDGP*(DeolVlZs
zIth1IQ6+-fx^KSt`isA6efrK=Y4GXd;L{ripI)8Z3WQ66<gWtB_b1DH_pNz8VLJg9
zK5?4a2qZ0xM`HCI>P6Ins@LBE@hSrfwkt|EYKnEYYEiz1ucknc;H#;j%_lMj*+=@#
zI@Xw3Ms!>c+Q|Ole8sWkjJt$5Oh=E5Y(95sm>VH5jL;ckvA|H&EC+;6s#raJo%YdG
zWr;Hu!SpQUB>gy-q9AO?^B?VF)z{t$6MouzH*U~XEP#EY0GB9M4h&jViEP^>9gNfd
zRtT5iW{8Gc77`*q1-e44XXzcM=cJ50D`&WaM0OYuq7@BGv_F<I8pJa+HXP!l#9V>{
zTS<9{btFcUnq4r_vYN{qHsA(>8Q-yl+QLY;o#NN+ItM5k2C)I}*R23Xm{YXNf<ia0
zCNM{?ZG*to`ClL_os)Gi#zb(qjHe(nPt=ago=qpWwR&$=Ib*NidS<4L(3_KBi{Q@V
z>NYHKS|*dnR1o4*tndN0NTn{vy3@p_*~V!WUb2OpoG@fTozoPJnkgf1Xjm4MB()^4
zcSCen^(5T^Vkok3Ae;!ng{<hr9L{Ttb)~Znkj^b?_)2xz;}5wsa{gcqA?k<o6^Vxw
zzUtiQd^PtrNcO8?8W@6ZF;%`n4xYI))M5$>_(*XHY_V$45d`kY;ltDw=ivck3gUPP
z!{diUIK;ZrWZ|`3n1d$@*j<=Ng~%TqdtQYl5F|cL$Nzstp!PE>3E(IwTp-Mrxuzp5
z%8Eio7GQ(3f+0f`47ag%Pzi2a1-%deP=Ij6l#>DM2%Qempqvzyki($hgFfF>jj4q?
zEU8Uz^<M2TfW%<^2!7i?f#k<b^@Y9$tJWQ0=xWA~S|^(9_AbAhZ+*7`S{b$1bb~~l
z);PrZKlHs@gKg6^RF6C1L8FdM$X_`Kn9A$$DkDm9FZB;rSoRDIg~^j6CVv~i#Il>M
z5cQ>|CPyyt)2XRT@aLA))YQc(a6vq2b?`hLy6SdTt<b6i;GH37;l0X6UiM{NKDK)Z
zTz|^=+OB^C^XUYJ{lSXQSmfJVZs{nublyDi`iW9Yf3c;%)N-WQa^!bzr_cYuk0N{C
zK3D1=E%uMz3#T^N)E7GO8?TIbMttzd<2IYWBAywXvLsIt>xaX@jw2)?9bwHhc%?8;
zgbHiXe^Lc>#|R%u{(>|S7zpnfl_SXGE4e$1?#`c{+;kr-yV+{#*-iJMTIpU_V$+?h
zI6Uq#=I`4dAd+u8k>@Z;21yeC+(Rm<AC5C)@qUU(@fb`4u`zvZGhM_OS*PX!uLSl6
z6aB<b5GHTcLScg3>3ZlPn=bPDWPy+vArls!NI*z!Xc<kxMD5JZYE$iv3hWzPF#%qy
z=o<)q4KeKj>Rj;Jfayy_fDT|iuHYsz<Q`g+H^A~GR0%vOzQWUz^@`9zo39Sr^3={s
zuOExa^1Ld5p7A(IhIC!lKwuKgWAcn|VQh+l=;1u{SjC>qYGPiIp1}lylRK;bD<l;s
z!!X+{V#5E1n&AJZsOwYI_FEMC4N4SI;y+O9r)cQ+4kzRI9WWjF6!m?IPW}d+`*&aL
zhu_-t^{jdT!*c_ldoM9eZ`l{AI0<pzAGtBKK6I<U=<lhxNezU!9eXR3tHPr8&TSv9
z#SR}cbldw*=&eu%0r^32n`D(eerEse_IG;T>Zu?gKj_{jS*3G7GsfKZRuIYGYyWxA
Q`_NA4UyeSYIn|i|19Tt8=>Px#

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/llm.cpython-312.pyc b/entrypoints/__pycache__/llm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..de54cb05206ab7f0fb5d3aaf0198db0554a0fb10
GIT binary patch
literal 67802
zcmeFa3v?XUc_vu>0MO`epd0TuP<W$3ph56W@Fnm~i2^B-qHRzz&_p%B2D{Nvb%PY)
zhAlsmK(;cX;&=?L<uyIlZs;TK3A1rdm~1wqB+iU-l0DNcKt{WUvxhn1nTgN7AXA=+
zva_@M{rA?bss<XOlyS0~Sr>`wdffW&>%aH@@B8N^C2k2v)cLi@@3-2dzoHv)IQ5H1
zSL~AXO-YdyTT~jQUwhORvya+ij!}n=?j2EQtYEYtRybN1D;h0g&umfGsEd759CMGl
z*)wO<6Z4LG*>yp*Bvv|F%B~BezL<a1A1fOzWA{bT@>s=aMXYkPGFCNO6{{YtX3t&G
znpo{<ZLDszE>=HUA8QzGV9$%Ajj^WDCU)(PHpf~<TVnF49BUnIjkS%o#o9;P**j0P
zBi1?E$*#T8u2}bIcdTc$Cl(kD#Ck`2V_QbI#QH}2*!z-be=Il}j17zq#I}xZjSY?t
z#<q=ai)|m>&fb?scf@v%?u_jk-No*G(cQ5<qkCd|NB72tMu%eiM)$?`kM3vh{Lurk
zgQEx8by@UK?1|AQ*mZeyICgmSFuSgZ9*G?tJ<6^tqsL;$M~}x&jGl;{96cF3HF_%c
z<mi*^T~+j{*y+*J?7BMobZlgFgk9G}&&1A-o{c>-`b_NH=sEVRHhMmGVe|sKu8Te!
zyEu9=_NmcN#XddyY4)r>`kC11=qS5xh+c|4H~L)c`O)XuePi^qv9ZxHcHI;mkA+4<
z?7BI6IW{pm!LD1PN-R7Ywn^avwGe$RM<-)bqf<7?E`^^6UwO;MF=#Y`d%w~eF1*wB
z7I2A<(P_JMLQ>klA}Jllv#U33fzF@M>ydz6a~%mqqoK>uu;w}+eqk;=GZ79rw2}*-
zIeTpE$jM_zo;o#hLURny+|Zm8p+quZ(|i|0(TEaCM&dKaR5h;Rku&*%5(BWJ3pZxN
z7elJ%R>HGtcp{VxD*>lgemES8oezi9i7TgO63Gzq(ER4JGjqw=xui9fD2diQp@sou
zED=|eW0wIXF?Kb4V{CG6W`gnu?6M>A*lZ-qigP4BGZ~rEyl3O_Xjs+nYR)IsxryYQ
z8di8l3H?P$Brz75i6qA+BjKn*6|;bPI<ABR1zHKxUJI+qGqaSP<~cce2DfTN2`4l+
zrHLM;Dr??zb2BqxRZmuOA$~PH6PXXI42(^4ADfwq%!G&4sYIYqt3Prjl%%|(VS@T}
zIFSfVh0li6P)uu~cNfBVhiW79WOycdJg&w<q6pQY+1cogu`82f6G%Ch)RSrr{CO;r
zNUEXex|bERAvF=^4`V#Lgw~;k6Y=OZ{jmTvHo-F;n`F77xK-yT;;JYMN}1#(tz?g%
zo{J_UsAVY1pO)kM1gbigh{Vt<Y9x6>s~@|@F$PZw6j~kqJr)hmB($0dv;zu~7)w%{
zjU~~VV-Y2x`KQ83J^8GPG)bUWoe2niIs^1V^C74CuvQt3PmRssP6<zjP^PgEwRM5!
zJ{n4f&N2X+oBy&7^PP{(OribbGveii@QX?P+ROSc!S8?=RaBN)1_afM&BkZYD+#>t
zF#JK*Q(+ngp40Jj!{=xev4K+Y%v@+D8JTCrd^()G5?8254M(D(L?SX7;pNxU>w}>B
zSnP6GQBb(t=aq!h8=jV|OGI6=J`u|0pO{ls6nTuWiux7LN_2p%+Y%V^mI2A1X=ORk
zpNh;VTIu-^P!n0`pP|k=oC~4ERY37#rZBKy^FPhe(R@-#O*s*oxDr-)kJBhYalFsc
z7+?thB6W392!k^j#!P}y8U>WG_#~1Q9f{9jOwbo)d`ukyLh0qi!{XDYpXSeT<2xOn
ziX^EUCxBpVqAEl;sF4ZHK6Z|v>Burclc6{c=@*Zlz@q(4DJ+fJ6lv71*hU?S9slU;
z#J>Vu6|#E=t{h5{;!=v)8-8y+yWeP3JYlEe4HqaS;X<Vp*N*ujNm6{_BE=teDP{O8
z$J2^%aoAahBIxfc!)~Q2>`|)2Uj0dp@olYfRfkj@UVXSkX~172{+a-@8GkKdSJ=sN
z<7wn@sh+wu><c@?{z<zf$F^{p{<ht?>aeB@ms?<U8aa1`-PTl;CR|}j*-bSISB9%7
zFM4jtvj+=TKygeSRC>QsI9ja)!Znk2Wy@EbqqSJn>XbgQ$f4zGSW2hT{}tz3dRL9s
zE7z1DQa9ksMtnJd>!xB!xvp$weKYumL)jK?4!4AxMefS>a3k&;jeFiUJJ43LvNPPu
z+k};W7fRkn>B4Q6`s~J2x1|mN+_%&Hq*vMVm7>v(4LRn8GwD?JqO_gLP`Fvy6>ihp
zejjT~r?qD$3zhvy*;OpjKjlT`0NRtv+HEQ8LG(MX$)RwM(qrur{W+Dho0Ze8Jn@x+
z(SR}>mczZ%7xl)p{7l&dY{mS_sT@Wr`cT$<t+EYI`@=z_f9X5DPAtzt<p{nW(Ccsm
zZIqk-Xn5-;kkK>BF$3EO?x5b<$5D%I9HKZY^U4XN*iI?%t6$L_>%o)8$T=0>p*#u5
zPvP%0(pkm>rPkZ*Y3p<SS-!DDrRry;Dpy8Os-2=d)?ejwA6YiS%i@oTmjYY<KI_AA
zx>h-Z`s`w3%At=chjR9fg7sJ)-pyM0neZNru02MJbDTV9^xwxHXXnFv^%lR7rx&Qj
zhgggIm1i;P_F=s9F@Nz5=lZfKADw^xGUvy0%6C7@*Q<OAbJhVp*H7n}Y4X+elje1h
z<>gjBgS-y?1J;qZtydXEzE21&R#I#pzJxY#^06N7H%9z(d7nPE<@G+^ytRk*UVa{U
zcz9h&K1+Ghd;A`uUxtHYd7u9LN-~a;9L?#A&xVfy>yL>Ngpcdx$oKT;RgO|6guXd}
z74R}<)|2?1!0##iD)@a;Sx~}ZH`c^Sl=dmCh*P3fc#GrB6}&mE0Hc)%Yh$}IjW3^O
z7=85(`}$F&kMN_p>t}cm)ir0#=fnG5Nbxb&QqTfkC5n2DfcN$5xG^KHux7?l!ZXS&
z=J6M>Zc<rT{+1PVH|Cl^xF>wpI&1Ki60lW#{|sS~@_DxMZVtgY=~fbGp>t@D<Qq06
zU#)01Xb%sGF@W;Tq3q{xI09eL93V+U4{Ic8ct*yh4EkH13WHe$TQD;vC&6|k<Vi3W
z@>Jwnct+-YMnVqFC~`ulw&hu34#OaP6G69I#&O|FBq2`_BOym-CZcm-Nac{scqpQ%
z`*0Ht%}mXKsFq{Ir^-FEac~`%qc>!Qi1NtgIWXr8R%k-SD>+829C%Xs#Mx&P0YE?j
za4E;avAB9ePRxcT!ZL&famLoOdPIm8kA;;8m{kS}%zY9i=?Ps8$xmIB8KEBt$|qRO
zLh|KMa^i{{pL|>;`xvmKSx3FW0NT=C$t!x@`s6wAoKq+<8Y3BwMk7d{<hkKF0~QN|
zU!I91Vys@_Nw8lLN~G5=7Mej*#qdOLVB*z>*q7AYtO<wE>S1{X9U-F+XG2L=m5_XL
zZVKG})NyK`3u<U4K`a)!ihmU}fEc~=i2)g3<^eWFW#bTyWGv^P+!mTk#@poUk!Tbx
z6qc#MCLzQz@x&+_RWdRuhpvUdwL==jyT2_FjbGORgre6&HxdRMdSk*d%aynqnKd~(
zCSVzoPff~T*a4K@qK_iU2qXfWF(z~{3l5~qDU$*gU6-W<<zp|-h9{CTlP2gWq>Bw8
zF<|{V0@j>iCLcvPpx79rCSc+Rv&1MF*h>{y4nfldZ%le5^G7m0l6%6zsbC);r<VQ>
z$k(rgXL7Pp;@4-Q@er}_tik!{qrqg>#Q1=Q({-@IG^nCuY$S~lVhzc|^oC#zpFM?=
zFqs0dKaT4VM1YiDj>Leo2?H4QArSK#q*HNyN>L(^!X+UTz{p9U@gkFvup(c+!Ah10
zs}N?%lM#&h#Ek?bKxU&5EH=krnhD8?FeC^N<;ZFzaWyEPzY?E|Dsp@VlgVW;4>N=@
z3fh%=8E|sDFg$ZDqQ+-vY+?2yz;uY3^ExZ>SST`+V3?8!C;K>T_D+8G+-X!C!Y<?$
zjZ>?}aU034HwS<TXNF1yWLFp(usN+CT|lixQYT9ZAX<Y^0L=|~Su`AFawL6Z&Or#H
z5@OO+Ncqv|p^1C_)XD22%i$N%LL`mCV8gV)L9<z#Kx5W1E3S};i{}F&D&}n5GT6p+
zCSMOnrmkRBAfyRF(0PqXkP<=p2$$nTZ}16H<bECfH#a*A8L2!z3EWF=-!|T-Uk>iV
zB>@`0%wFL>NaJyw<_5gNx2T-aEd-JZGR}%QE{Br(Qo)8PUTmD;y0H*3!D~=H31kLJ
z<(3Z9iWMSZ3E=QgWT2O&$S904S@FjxE;<f46;jM5e8D1D<1LA`5z;l@@8~W)0iW^s
z0My&`<FsL0==uw7eRA8>Y?6Md@!BS5_q1UWzyzd52$Mt6fLR`DG&CtqKCD3}BPym3
z$hao1@~T@4OafL&sjW@Rn<S?Xc%k)1q7lkEjg0~{nUNFL|2Zs2c~D2q?bDff(r6VR
z6{<uiEqWPEhKUwSIV86Xn2DM3$((XgPNFG|7i#!gBmv~-eWA}Y6FS`ie4uywC_**R
zGJKSR9>8h|f`FFPT%5tM2u<<lG^K@rF0oi7DMu_=U`(f&yYuF6B#=L%3`QlW6RqVT
za_X^VNQA?RUTa)Y9gW3}HzX>EsY#yUGm1{ephh&A2<py6q^a3CECNJsjbSzsD<sc=
z=*76)b2*&69tN4Xm387^K%b=q9g~dbR0xuFn&k7(FF<W`a^ZL`Xf_OGOhI8a2N>2}
zNVfS11<{FxNT(^pS2Bs>S-Fx|=0KQ2vL8q026lGm&e_Q;YJ6_$3T9<<<{%=3(zCp1
zc1XtK@)eY&Pe%90LN|asgt_s#WPg0JKc{>;Dc5u6%+moGTADaf%hauOT)oD{&Z2!U
z-vFUHB%h}eW1>eDj*wJZ#sFtjFUBNG5|j^vV&+PPTpVTODN2a-iaMT=9yGA7MWZo>
z;xxlTaRWJj6bof!W)h&OZdb42HS#jbM&)BocNr~8>#Cd|5iHGwHXs5M?QtDC2IQXu
z4Akr#%ao5rzTAs!1*%Yv!Tjx#1B|WIM9iwdBTNweQ!3VKn!uB4JW7ps1*BkX4g*>5
z0m%3np{Q)6j!1nHf+~)$lbmedtg<5@$k1S+WKMDNcBI@xbeN1;uAllLAV;QVP~Kd8
z%b$+{JaIiVJI1&ieMA##^qhzsW@GG#$q5M*L8lWchJXV2lru;s!cnI(3Tiz~LYlU?
z3e^~pB0;p7PAKZU6OqF}5<&7A#UpsEl6V_Yv7AH61f|HhF^yQ5L>WyC{!fKkiW+c6
z9%Rc0dNK!`$b%2*D<O<k0rtQkXoDN^IflrI&}5hjONdT987jUtx1#7OUJX!b0t6QB
z1gGP4;sm`8yt%kFD4#(c)a#K1mP;DniP-v*=~K;y@&1uRd;+s)e3GafWo+v5V>(gq
zJer5~Z%~1p)}dZlM?0|o1T~xFqf1PJM4mFXSquP%MLEDkQxd`;>nm~4&l@tp984`t
z#1ZHRAOeuCpIC5Oj&s04#|t(Sy-VdMlIsRtT@R@WupnWX_QErGJ`o-ZgHuq4<WF4z
zp+ra#2i4Br$n1?tz%oR+z?e0i8q3KT1TYc%@{wnc4$GJbX0NdMUS|$D8El#Hsl#~&
z)RMV41B&T*C`veBCHvL^UROGTcjd-qDBw+4dXdH^z<R`EV?ZSk1j^h5i0tzaebKlP
z$0br*5=DN5(O}PCqPaTAsjT3-cV-6AwKGzJV-&lj2Gqy?$qN_Gg6F`91D!GlGE^0e
zE%lAgLlOm-I~lQd9;b#TBHYTM^9+Q<gU_Kd)ZH`d5p?_t7d%Wt@X$XIjeskJ9AaGV
zp;?6ww(-vo1TCq?EkrA7g~gfMGBCa?1n!1eRfN<VeQbIsmJCzL6i7_)Zd7ORRyv*m
zKJI}`ISp)KjR^wiTt4w&8sSzZY#GPAK=&NP+$^x0q0HkT8Si5;(#CV8?$}jeJw!D!
z1U4U8PCk~wtQemf@CZGqv#i`A4Y@v<bN!6ZHowFCB^r)>w!RUpV2sS<_~j(p6Ln^C
zi1A?%2WLekg7ge^f^wRr88?xS%60)$f+3laja~y;G8+cLLBzE&R|yv3a+oG$piM5Q
z<1}BqNMc2dJF4^9E0O-~{TFrmef)E6AXUd85S&f44aqweEG3y`Ry8{N0*nz-9Eil?
zGyOV=BvUHNnfJbEAMrS+$=T!@WNj>ulNo`q*@38%0b$l42ijuc&<yx6Ea+G#uqYp3
z(?-BjG|?nu>&kfP=&`fsjvX1kaO~*w^0SzF$8!>xtR-8ia|$QWo)$6Fn2AkxY_wt|
z(Ad7l$Jw>5!NG08txWtf7~C4%noBBPzY+nx2c#iri8v?})$A4`iF5-dqj8Txia_%T
z7iiKlj;^u}P&TZHAtEV3PQgh6iVws<!z=}UkFQYF;Iyn*a+Kq+Y>MeKmJT!*9LayI
z69Y0OipEM=PR>EVXa&kUe~z&%76k0=-8fhY2QQ7A_EF>dq-;KUUYE!cIcQ2`IcdcO
z;3NZw$VK53idFtYOFQwjjQA$owxCQS0Fo;_HR?$`5^$Ep$b9X(G@Q6GGhx`0=tWxh
z&=9{{q!XHxi2jk|n)DMg%bWV2{(_GG_0Uhq%u^++yg;K?NRv5CTZ+(3z=@<*Y;dYt
zsd35Vx>`jZd8$^nL1d}bVm{3)Nz|&un;c1-R+&%yr4=x-kLI-sEHszkueEZsbjC9$
z@xWSje&Skln^d({noFQ*B{{^2R=4RwuDQe#ta+`=mR6BxCD2N8#<*6Ue{#_3pajwF
z0>{8jl59{Pep*#t9z!d)ptwj{Mr$s<H0Jq)R>0;p^(^)HGjuvfr}K2WK&NNvMAjDS
zr|9%)I(>#tqjb7Nr|0POJe@vEr!hK>(<wx!%XFHclR~F3ohIotMW-utiqL7APFHc#
z3i-GL=7nJhIWwV~hf0lj>BXN1e~;8cW`Jx<HD9x-1&Te@tl0MBh2p>yN$tnIgY<(7
zElJ(vRFYCHNdZd|2BvClvH;20F%6jOk5tQB`u7Bp<=|vF^jhFHD@>o8bcwGG=ryps
zDvZJmdO@~HfWXo%v=+l0HYF=tBT}mMP1`>~EfgogPF25Tk4OvEsm3o}x4>^qR&Rh@
zouulqBiSIXQjMatciiG?p?&634y=u(JZQpVWon#m5)jQ_VZU@#dbQ)#&Iw0Eny^1#
zD@o6xO&2;AI+HCTZ4yuUkunT<RY$5L)%kV%EA>uk!m-e~&_VS^*-BE4IJ?afh<p~>
zQ}thb#!~Y7Jnefh*(&m4C9nU_EV(S8J+|asD0%%t7fNoFz$kfF5*k!~q?)JO#kKjX
zcoeU|5u=~FH%VJ!r07X?E8eR|F;IF^Jxb}-9!W~HCp!h)=`L|){)#dse90>DRPm*{
zza=UDZ#x9!FWHg-<1MgKDNEVDZd1xrcAP6x4xB4fPMoV!1vpoy3URJU72#Z)a^YN;
zD#p1!<;J-o<-xfz<;A%vRf2PKsubszln-Y)<;S@-)qrzbsto7$R5{KasS2DsQ<XS(
zrK)i5PF3UFld8cvkgCPGH&uu8mQ)wceW`Yw`%_I{$LL|W6i99nbw~w7&1_P#Up$=-
ziYxOs6-aIschlR%mHB%oDEcWSjn#|iNr$*fNz*&TwfQS@$2Z2<Ozsu$MW5iUG0v1?
z+%=07`Jqk=Yfq63zXH}mZ_+OwPY;VL^H&*2^@^HcChA3Q2HtLx8}MxXfv?)cvrWD_
zF5a8J_{taqn|yWBOf9bPRfo8~QQR&iOT}G>q;6Sgv(&djyfJ^3qEu_D?Jd2ZfCVP@
zyHai6lD=&>`l#(ocBOcs?elHdZP%q29iNe|+a~NbeU`e8S<bu;49@$>ECRF;Uy$Q!
zP%9Ip09MyAl8YrSXzuHA^=eohn}{Z~axBn71fs9RoVbFm^HUeOib^mO^Ouf8r_D)2
zo#2wYH-6vEh+N`n*8>3OHVq|eP(BLwcu4Mq9*+4v(B*vhsTr=0&I=M$0cm5QA{c?W
zv6Bb`t(-W^T&<%zf>zcVQE6e9F~%h+P)}YCO+f#xXl1Yy39B>E5=TQYeFt|iUxRk*
z*$C~x{BJ=1nIK`PPz$2=L}!zcL^Ry5(<-2L$vT8Y)+A?xm=MhR*(j6h3qlwQuP6*9
zAbBU_5aUbAv|lJr1wTo`t8SgQObqChHw*wErXtFFAg83k*&E$KHHv!wJP9R6_Iz?`
z$sm+qc<u=^R}JPrpp~#DA`Bz5llhACT+2$x1ao%?9Xb==mjaz+q)tjo=GfvSg|6nA
zh{orX*~r9Ic-9msbFtZk<|H;stFg+QEO@9Us4<9=&<cU}VBxd^ro_<P7fJELa87f8
z(@|+!QY$HC0c_-B36(~xT22ofkiDzB>8cQh^Pp-~nqgHeYm$159{ZW7!BR=}33^P1
z^J7O&51&7;xgir9;|Vmco{(7@sYfWKPnQ~_RhTKhRwG<4gg%QQcPyb*kgdNV`yFFV
zra6HSam}~>v6m6ef~qby$Z5?RiJQcAV2cKJBRctWN1RWNGr1JD8bi~lFVKm)5sehO
zu2*J^^|~#rHEd)bFgkRsv0c?{*R+N_Jc*ISHKss60r`j41elvo73zyrjGH(mX!Rxm
z(#JghcHclUHajpIne9(P{t-_0zc{yh@1Co>!voRC<$>87kZ#Tl5dIE8AgJD$jRPAK
z10+M8y`j0rn6=N?*t{3W6cl%VNCjzkO43Wx8XW4pEw?5!p1y2vaPfG$qATO=e&DHD
z+LiINX6ssRc{6qWi%)(~DEaG`df!x5d|U2!Z(Hr&lj+`buYS4v=*_~Lsf@qlfv4pb
zJ_+2J&U(w!72O$c&z+7B9QFbC&kCiIVcUb|j&$eVO!Ls<nKiqo<WsgE4;;!2oO^o!
zr<;Z8nk^ZB-&(EYtxbDcvJFj(ryqEl(w@M5UtPMs@6N=EZ`=Lgq5E|`>A=3_y8Q&W
zJmcSjVwE?h8-qV^u9WRWg7>Auf%3INsdM*g$No&m{*{h{9~3xis{gX%;Oj@1hL>Kr
z-_WxX7`ivS(r|FCK&q=>8hqWE?Kt>TO7y-19|P!`Um6&;;o@QMzUAHnX=;y-v}Y?T
z%l02!Sn&<r4<0kJI=I?#B-3$ZrQ?{M)iFy}PrTi_(s0z0)v*m(o#a^!FZUinR;W>B
z&CP4yoPTXT-L~tVZMkM>xnkd<E87$NP51ZR>Fv)f_nb?+Iv;o|Z@%!=)7i?w^v;v-
zR-U|H*|A!=B~!U&rLzBFd1JObaJ%Pr{hH+1F>J%RY}oe5QBYC3CKZ&Feo!jawEk3T
zsd4|fyk^aT-@mM=TPwit`-M_f<6042xuhC-t(dOdQe*F$hpxO*>yEV&x+;}gwyyc;
z$}e>tTq~oia;bgKS_NHIN^QH=s_3d(s;FJ7p{rV{zH6<HuIi=g=Cua8YLw({YfW_3
zER|QUwa}F;bquYw(p4M5Yp1IYskUvcldig`EZua~BQ^A_1?Z|*>VCquwuLVH2y{PP
z1u44$y4p&G9;B;n^vQO*+CiD@q^n(0_hH-GZo1qf$@|v!($x@Zmo2S){{U_lJs-eP
zwYX{N(uym9-f8Gqt>2NU-;u3t|H1y%?WZ!^PXQYn+>6dve0bf|daLp`TE5$|+&H-C
zTyfPsZ0Y*e4Z3Q~9z0CH9S`c8zccXqz-s-0O#Ol7`a_Gp`>xVgJuiFGm4VxbR$TkC
zEkX9dgGTu~XI?+E+PEjvxQ7AD)-`>n<@J`;x^0=dZOE`Ro15f4SKZ%yFy@dd+kYw*
zV~pMRSAWy{ns?1^t2$zPP}!cXtooq1psf4@KM)|@{^UD@@3f~|N0zJ4q@TT*_Fw!z
z*DC0<|M;jE!{Nh6jW{QWJpH3)&r`dkKR(oSy1(>?jZLSwm;U*#;?up3KR?uUy3_F&
zodvjtXRLXU1cIp2N4s$PrUZJ}d}mxu>vXH}02hMNKQDdX247h9t9YiB(5hv~xxQ~x
ze;rQ~l%K4A8)x;qIL(*Q6ql0{4!Kf-NaB~ItgqtLFTDJPRbOAm*SG8ord`2Dcp=U2
z8;1_n1kN<1A5XZvJ!lAR2ohC>Rr$Zg1*&YzTV+EuL!a<t+7Qi%ClK)11mUihr)+4x
zJVKi>OyK;uAtgQHI%RzM_^$%?5v`EfSSWBREgl0Q4^8FR7_A#*0E8<y7DF|eAQL*)
z7hG~iEE+n8x`91NP_<;<8CpqBgYs_4c{EMkvJYQi`Eg6$s#Q;O#?!p&>CSk%S3TP@
zo^5ycta$ckdj=PezIx{6Gw*pjANK6O_nGCM6UGDed-y&-$`J+ocR@KYjMB8xrU0TJ
z(=ei6e+V?SNjD_*7TyM&>aXDk0##7!>KKHe%$|hfZz<XQB+ZBa3@NSXdk6RP<%GVu
z2}vxJXv0h3ugm*t>C2_7uFj0BbH&w7_r8~XtFEq$tLr^i&&Kv3tYY~1$GF(6Jzi=-
zovHKI9r<ul)EO+Rks4nc*XD)Vk~G?En#kvMhhl?BFz=Tn;y5pvUyD4?1Kmc{dB6!2
zsK1II^);Nd8XE3OWO8yWm(W!SyR;HUSCcj+4kk@q*XmjW`&jo)&iy_y-y$ZHO(^LX
zscT4-jIQzcIPRuB1KBMDt6TPGw(MWsav`(j!t$1ji$_<yJv_;~p6>e<t*aFS8Tx<b
zZpZ4jkqrJ<oJo7n-1jvt`&!bj7S@v&;J51n$2Ue^{F*lk;}mGnnZ>c@npGpvXv2%U
z2sAm|uoIx&b*}`S&R2g6B@3$mJ<jTH<1|5tKnML&*D%EBMIAOnjD^BfVLrrIC`uJ6
zwyR)gRF5fBRt!1AmuxBfOMY~&fdG^(KSXCP*zvwtJT-qY(K&_mX2FRx9`l{JLK=I@
zk#eRA?l|7kCr&nSOGFCuH|4nF6w~N}3-AotikW7*%)Ay?DOZvhH+G2f009d^-@`0?
zg8PY(+XJ%-5g`L$-3@l0o-w0l;ZC6|%81&xsK-bnWtyQ~CKn7HV2;BHQ~4(#tssLW
zx8N9<VwqVa>Jl30ry&X<B^tfD3?n2mnL}}4b2b5;GV~~9+f8al*u20^f@6&V5TD28
zkS>al$+MeDAjoQkEc}>F0fZOapx06%sP`@Y7*sqRGPlamZ*-dka<mD`pMm)jNj4a4
zWT}U@prWlWm8dQ?D{CRE#t>E{@};w^9uzx3*9Pk5<d)|~9j(xq*&K{(A%lV@^)fU~
ztl?OLF&m#SOab-sm^xvCux^;?_DmZ+f;cWfK4G{O#b-#9yP-IS)v%E62%Wvi2`y#1
z8Hq}WUziR-8_hM&qWhScme4d)01EOhKo@e0B;Lrml_F?4kO%`{1qNJVxDX@93ucK%
zk5Di?hYSKX^<0O&p;CHJG9==qn+?I~fvh5co;TPJx5)>*d?gYSAG3iG2000sG?L<*
zW<>gG3TtHom|;=di*|t-6U>u=^2{zu_Y)as5lUdikO-np$=jueK=q+Au(A^d41ruL
z0fNY@fHJXm<k3%9>pZp)<IE}o#zZsmoD!2Lki)UqOi@<Wd45Qy&=tbykh+j?ghqpI
zhlEuP{fw&4+{o=vu|9}l$X5#*W7L7d!Z820REjg?M8Z&Kf;AvBaTGx11m-Gbjv189
z!X#t@X0!?6Z(^Ao&M~#-y7^(4V-!j<evYqZJjTYjF3@Fe3uKc+<|-&`4r-a^S0uIJ
zfm+DSfYpkjWn9HnDJ&~Cn}&037O1|@GEcQ}9c|$S0P(ASXZkYXaY9C*8;HEgpic}+
zR6eJWBr~T88^{t3PleDrLYNC12n%1K7khG!qTuj(5eN<!o*ZZ-Xd>StHeI4UV(=uw
z2tY56^SN%^EQ*N(noBg*{1-SG!(1D~Jxm78T!ai+Uk*aS*p$iqAWpvk^F_*)I%2%P
zpPNSr%nOeTbfluNPpEZ5;yqjo`O_e%wI5&|)e2dQB^X^|k|p5eh)@Z*IW_0uxiAwW
z^~-pn-lcElF(TBE3oMP2H((CTe5NMgpv8%zgf*HCT6-*{D1ul@Xr3`Z)n%vZ*9e}U
zX$N57CTtAUom7Zo&dyMA)!(5L70oOwE28@Qc%~KUwh0NMVF-cP!8y_2#Un0k6MgUn
zq7;7<kHPIAI#q4sYE4h3rf1Qct!`Vb4rZ!@i=M2fda3taPsjc8#x=XWtmBcxNunBO
zN$Hwb@;0PBZ4a8;R+|rInh!2FKLH6^A%n9&Q?vixr{0b(*PLJUK5%(gUELY529*uj
zineT3Q?{-X=QWR1-1C7{SnP&etD<JLye(7ScKc+yyluIB=VB2U<5i!W@yV;c!HjS4
zZucJ?SoWPtyH0VA!hwQ|gQ`pSkLEvuaLh+E=Hsds94W^aJ3y4>;cWBq3~Fi0L4VV3
zQ5^I4C40&auE8JyQ#MnLCJ4BMBW0ViE!Zrn?0Hi8QuZlZ(jW>=Zh9WX<_w6>1!s~(
z`|Pk1tS}fTc(riCF+~Og;MthLKmo{TY1&ZAiSJ+nQIIOkUl*awd(Hkz2QwllTqrm%
z)N{DLuJfB7&RTj%^ebfa9yTN}1;NOZ52*@h9GISn4IgH|6xIBKrvaBrUnJDep=2tt
zzM2C|yXKgW%xcXTLp&H2*HMwkAIt`EvGh@($TD6Sqd|P8Rw~#n4jBWVeWiKv+#IpQ
z9OMj}{{au?J7}_c++hC`8cu(K<QPs6V>Wy<{#tysdN5NxxLSQ6Q+;631DQfeZQ9$C
z1+rIkWGXsVEB3rwvFFGBhFhLhd4ERUpO%k4sAxfwhrYU{?l<?W`1-On%{L>9Cq8gV
zmCZ}hJ118vcCI<3()z`bH_qRx`POsqdIJy2n%0V>;+hX?r9j{96L&wm(sT5Kk|IBe
zMFYnm#O=6Qxa7rfD=Ay`4rIIoS$}ob-<b6`tor*P-Tqk-jb}Hd{V9F6CKVOCKYS$N
zGC_mjkG<W8cNeOEhD-H_I89K8h{NFK|1BST4z=52G-AtR@>2r|l+GXtAoOcWmR__a
zp!AJMFWMHI2|j`hrY+^n$Dj!Y?k$voj=T(-<Kuj}P>?Fn^E5|ofq<*nnfXVpIX?5T
zX)uB+5ThF`AZCD6!L%_pc?sz(N{zATNEI@3sUlNRo-)isrfbY^#8s-$EE7o|z((5D
zu9SV+F#ZuKF{WLNEv|Y@sSTEtm)T<0RG4z5ip2OQhI2&ov%$+3zcJF*GQITt!>2`H
z0I@6zSK<jqL&75rBnU{oDUkAv7$GX;I&%>gwwNHq4W5q=QpQfs!QpTUj2WyT;h?L7
zhp+NJS=K|AfjESBfR&736g^D}%vDP#F!vEjkbnykC~UmyNd&CrVf4QVoz%A6<Q~N%
z`^wp{GXLhV$R9b94{yi{f#pZlLRbaB7c0I<Nm3!wawp|eM|o?Yl1%fz4-WT;M}S(A
zB44nlIWSOiQAHNRk5$kTNsiT%H(H>S&z@fZBB;NNljeY|PjiA)Oh8i#Ej7aYF&lpM
zPbtY4DM=9w<cY@B9JBFRt&l<~!eFxi;oQP6YJ3*Qmk7G2ZbfoIny{IHO|>*VXhoQb
z8A|*sx+@Wwz$CX?xpB)XMh@&iCP727XK>KZL%{q?0Gn@PGx0~x|NoBWVMH{=JPc(}
zS?m3Zrlm=!2P?K@TROip|N4BocmHzBfp=Suyj`BIJaY2{PWq%<Q=j!#yn6cO(_b5T
z<gnMe|DC(~<-T-H_i9aFrlxPXCb;Y#fX1x23fd^lpKPYS?<rkOEqfZ5UU=6dKlGNr
zI`Z<!n%!B}jtRA_3DYp9R=-p!V^UvpNp+p8wLO{Ip5@x!#gc4O|Ls_&X@A;Pf4`wM
z-L`GHVf$*s-b};Zd;QA|C*K*&G@MSmYN7D*)@FSTtG@1xuRFbE-@Cqjq(3QrtrRp_
z)fw9d4rf_8vSXP%^q~@US#M+3+x)1=Nwc}L*v)7rt&mGfv?7>she0dC0vVE$3F~A`
z^F1S_4&q`n8C*X7h>(B1r7sScCTyWU11N)UIL7?m$%sTgclHQlgMq$G0L0C8;EH4<
z-YCN1WruYPi>bj`M*f{H0Aj)fo(EzAkO{oOX>V{0q%|JgA&j|Ma0xI)G++}nD#6c^
zOiC}31*oNTI*GtyRS=`WJ<0*l%#%qvIOhb{*@^Hh$*yE@0ElNnQeUH{0@gSgD}b5P
zT~qMAnOw{T;w2nYzyhJvNHb1-IKBZK)n}ZW^1_M#0&!-!85pw~u}XSF>efp+z;s+0
zlAjK}7>UirWO_guWA=#8AeIIi?0N{Y2$BF8u?>Rqxe$Ez&>}g&sIr&FFL3l@Rw}UJ
zf1c1l&n763ljvz2Z3?e74wz;iIFrJBCAv<aKvf@-&mxK_Z&ai8SgAO3${deG1%;?k
zG&=nXKZB=q9@=bV)a)Z*7!~^{i2|C)A~wJ>k-!3}2i#!NJl^sa+}bDxIK>2M2+je&
zcEfXl%jJM_6!QZGWy>BbEoDj0wjy|IuHcB{c~YL6WuAil2=fWy7lEFe(W8tKI0lI(
zag%!&O3%`XIQ+558$3Lw&Q5@nX6m*dW5Q51I{j-p#c)c{%)*+Q^Pv9*w_Kf+3!)K<
zo<s{?f^^<5`760Xv_IqPzdd<(>R$5gi_1RDgs1r|<|KJpehudy!1!d7)>}Ho$fm0=
z<HqdOIgCG9L=T3=A4Nw2iIL+$1vv<WDsWqbT$cBw+1lKGo|bbOVZ7)0AfeP;=!IAx
zMux4et-yD-{2I@w@h(st7xGbLaL7a93W;6-fcghvRJeO5973<fBMQ=z**;~<oO*LW
zg;bT|@?fBHj}9FXnWL^gG-ysE2UI3p<*+E<m{~6>Q!I3q;)sBhV`)(+mWVKioS%76
z3*7J`B|}%KJV3ck=D&;QhM#UVN-7Y|qlYPmC1g}6b^mAduvMw6KEQ){ACU!?)cXmc
zh@b{SRT~J^oALGD-m&c4ns#m7C`2$;z8~ScZ%U70V%kg{lgWx(o*8;4T_a^MFeaM=
zjg;++{+xUam84)FR38Zk^1&sxAEE_A6Q$TK0t7?VZnd=ik}cqv-*<vJW`j)DwU3NO
z1=27T9_9fA|4krhF%L-u>AXebFh6vfNNJIl$>8-B4#Y7b`9>K$iI+(eIA1S}UvubL
z7SIM9yTRvkTJ+240!CqK#iT`H3x%4(!+?WNHjLOLiCDsc6A+S3Fc1xpM2=#Ak0n?L
zaf7p`Fv|&@eEi5XrwDZ-0Q!>j0YqHYH=}Q!T=De(p#5%idE1d6Cf?coC#iS0orgdy
z>pu-Dk;Gwk(0D|o!9wiKq1(|vcxt8nWVTYidGO66w~M}aI#aPV?cMsYv?g7@;|CY+
z^)2r_k=}7KU3+S|^vSgANrsB*J!GksVeaP4%)|{uGDZ}W2|`P85JyV&eY6dTf_cuK
zPsa^z(w<M&1qG=+ue=MKV?J5eLNT5j2q}sHPSd@K0u*vAfwl`Cq%rts^IL=C^(KAd
zY05k87uV)*%5A_ZNjcTJRKXW(Oyy@j$(5<<MI?L&)U*XJc`S|~#*kPjP@JZVj8c%S
z7r7!7U*T7r3#CcZEubh>NCQoArCfK41qZy~o01m%ro&CjW7hnr^!!y_##Xja4rihY
z#hogLOOz{BuCNfmDLi40OdjL8ho&k#_ps+)_PpA3Y%xoiDmPlC9PqqMW>7g(i8gE(
zwJ?8?qJ&bsrLS=dl_~#pr}<u7CA-B{s&dknDpPDq=^OS`1=&1^Z*9^mF{fm4Q}N|%
zTgW{KKXDwDZrYz81h!PA{HZGZD<COFJ)Emd7?3H5lGUJ(J1h<)HHu$BXz4rUZ|UsB
z!sB|sLcoIbq6WF!p8r3Pd#&kyk{n<K!%3<93S7O88uFJZ!yQe)Sg2Ecn0EWc7fIBF
zANibAl&V~K0*d%$@|k)IG$M7_k*Y^qSJzAUbt$&`jpb;tv~rz*r})VANQI2-mEX2t
zVI3sBjT3ez=Y_-C0;sA~sp*oIYRu;<GiirBw-)kT`$FSC;j-bTg=UOi7*ec1QcWoz
zIr!bFF?yxNl7B<0T3{z@|2{qrn7mnDXkBQ-sA;$KzMN_`(?9>WC~-%sF4e(sx--?H
zUv;IrrirXucPKteH$AlOF>YV7z0&<jzv0jpx>McL2R1?!vlhnof1{7>o`rzvGMDO{
zCT@A%k?NVUQP1OTo>Hc|jki12eaOFgBG1#n^x=(9^*oMle1n{iZ+v>E_APx)S?Epm
z<ez;Rel@3x6OF01>605_<eNp{;G~ac;N>?`?T=0K8&2t!|A;x|DFHv#o+?r5?$nDp
zWMNBci(*R^VtllXb%|6rZLbVCF}`2<DbDs+b~q*ARbR@F-uY$VP}?RYJ|n(2f06RE
zc_*&ST3AY!w-wfvwm;R+OS=$E1yPzd8iQ!xX9Q&P7h^FG#)zC#jbj0kmUJztzI<(&
zd{(4M1@AP7Z^bYAV3EGmH8dFA*WpecvV*#D69G@h3Eg4{oII#MSmaP3CL+{{fWkxC
zgT=z13~z2#W2(<}au04#CgI3p0DwXaA%qc&V8nzoL_Qit;RQlSO2~C6h9_jBmcTUh
zmg{M`<$$Gp{J9?ORzRU&E1CIsw^%R@J}l9280$^O9$;|bTmcT62hBp=H?jTLK-Tek
z#B_;@9`Oy8Hxg1rQ69(BWWYuBz@c&T93r_t@>`N|%^`jP2+6R;qGM$K{8>v`DOIim
z7&ENkxL}k>P^9GBMsa-zQF3a0Tys*#s58LJ90OPoP!g#>9^JwT+g6d;Fs{}g5hy|N
z1{k{j_@XcW^OQ}oGr#S;=CSN6oqVuD#8=Fd+%)D?oG|;eaT8Cb+~8Pj+E}Qh*W=Ff
zG~Hq=p+bhH3Cjy27Qm(cTl{Dh?5$8tasiW-Yc=*N;!s3FW)@0qIKP`1TDsEtnBaaE
z#Wis-sBdz#$%ns!)=NBxBEb4{@W|U2{^g}Vx|H7f3@IH+o!*i0b)<b;vqJ}0ht6b%
z&ZPbA>5g3)|LzC$mWh{r+p`CTR}Va!Iq)odyEo$>x?j<fso0fn+ev5dF2=C@g!+jo
zeaIpdPH1Se%h>1$IL+G)77i4>jAB<qPGD)MzorjKWq{UVeBA#=4+z}6=dd~RXa%f}
zfbK-V>IuyW`BYMK(;0jHgred3uU`QETTxKvrdTvA;Cu&*8<@~R3`!CkHmN}6Gz*C&
z9+9aZi4+r8z~QQp>L_#IU=dv`8K0dc%m&(XNi9rHAb(Thm>g-0sNqSHeL?=oow53(
zP)J3MQUr4lpX#(7e~)O1e@e13+0^skc7W)4t?>V;?VC2t+~rPKZ~u3W>o)ZkK7==D
z0ii<T`*zJ9+^V@m-Z>amyr1kkUYu1AaxOP7@)&9Uknn`m|9>t0%}Y|c_T=yRZl7GL
z{Z8|@n}5&uVS+}@m#S-RIklmOtTxASVblg>7;G2xl^@iOE#CkZtCC*7hTQtuIn)0$
zfK~rJPS$#<AL7BssnH)%jfin$H3Cl_sQ&T(r|!Dma4ent&dBQ{tF>Ex@63mfSj}2m
zZ9n<HaeUvg&Y&hxsQ!dX!7!3=6TX=Uain9niNhD*{ON!qO)ElZ6VjuhkBW^|6rP7}
z*8JBa3cM5kcY+9JM1t!li!?Zfkjq*rH&q-%RHjfgc|-jxO7&ej`6#IuX^i=Y>E_fl
zz5G);k-4x+^9?g6SN{cFk$_1n#41jH!-bHAK~k)G>0to`gzyk8rfVmyx=;kp#k6AD
zG6@m&;3DmYf?^H|U6>y65&63W@t@O)wZt#c6>FIPL_mr*w1-x#TfT)A^<7F#eTmY*
z4H@ppg$hL1D3y~OW7QJ83Jh3mG)VHnv;8f)dPpbmHj>$Js)KHwIB6x;bv?m+Jhal>
z9pBXd1rW4y%K#8grp3m{p&5&-X4y=n6+>mI$2}>rPX5r8>bK0@MDrOC;A{=!XwA)L
z7QX$IZA>eM>WJ?>M;g?GRxQ$#XF9f}!`uUtFNLoXdQJ%)RH-PEeqYF~xwHbFwS&I<
z8&)*~=uG&!o|`SAd37~7dqUw`NY%hPP;=>}R7i)*X6iAhdNh~#Uh{HIF9*hYUi0gZ
zjGiT=Mi@yp6(xw77WBx+{N*A#kELI@+}85oGc<^AV~j#>3y-<R)vB&cRo9|BTh(A(
z;%RkHrn(2lX_lvT@I4D=>Vk`<4`9evyDw9_@80Qmx|eIuEtWi}tX-|_%2akOSN1Fx
z->=)9g=>$uE#qy=dg~t*IO^StrSK*6R;FtM>Drz5g%a0R*873O!DM^2O^YWVcpB5N
zgp=EEo%o(N?QL3f78UPa89YMfGQ0o63wxR3-7vvv?#otHFV(;H*}JxTpMwKlvm5$d
z*u@PDE*3w;$4}qg{Udo_#@o1f^5*1&+WN&)Szqg|iy7aR?ABfB-KR2JpS)QN*V2r?
zKkMtbU6}C&v)lKkv0iUKOD_g8{;d!6FYebhy%D{Ae7SD>&BCnQmG0h~k%wL@c_0T?
z<*gZc>)q;muFT-@vV8bv$pfl%Bl5lPZ_8G;t~uat_n<Y9ZEAhL2$v9G*2wRZ58lrl
zq_b|4TK9htl$zRZwZ3`&cFp&mOK(5A+IVd7bhf$sw)bu-ef(3I-JeP~e|quE!@B0B
z`Q^Ia#V3F4tGVCQnyqZU_58h>cb=u%m)~^5`LL`;sH=A~ZS@Cksan2iyT5Dbeq~LD
zmY?O?lkc=GS3V7q>hAKJ#biiWcXQ&6qxUPDRx5ill|Aq4Q#uj^svk-As%jV`HkH3G
zIcv&qIskCkcFYE7OOB-@OXrqcx7u%oZe70By<FLgPlj#fX@3`4QPteM@%4kZo_V*T
z>&KOKDB9o-X!ARRz=LXd<MuBdecvI~@44q(t~+oqxq9eq=Fr)9YoEz>^uJFj&}@Tn
z#qGaYvh?}2atR)jO|LhhIkO$RvQ2H-)`7KRslNM>R8U`jv+#pbX<%EnviJ6x|G?aW
zD|=r%ee>C+Be!}`z23fbW!HVQ@6OxpKWYjt*|ObR@0NWxwdBpVcHg#rw{EHMK|||z
z4!(Zyc59}gZ?$1(hW-yj(ccsNjn9Ag^LIn=bYATq&U6pI-J0n>x^yzTcle(-|6cQt
z_MXbfJ8!veZ@ItaKz7US)h!1zTMoY6^LBk^%Tw9@y{r9)GyR9(zVh~HrvFTK@WATe
zlbOLMvs?GCZataVdNSKJxZ1Th)3x_~hi!1^!Or2;o#!$;&t>-<UETBP%$`qw;B)o0
z-Eu*((%FBvcy;UX%+}-Yb{zk4->wH8eXAfRJ9e#h9LRJWxOe5fjuQ`Z?%r>ghMu&o
zRY}bQAMBAjdb72?cT3-K0#Q1uZ=Oc0bZxu4<?c|r^We>s|8(T1Cv5Ph{^=1LkY%kw
zYC3LPo3u+6Rf|Rcy0&%kWY$}`>TS+=n^(P^8E@yUE59-G-I*2d&igH$S%2-Szb)f$
zyIuM=L6=L@-bR40@4da{_E5TR*W#0ZRoiycnQiP`ZS2c5_T9elo0q<SX}NLlP3Jd?
zVPIF+{s5*Ru;o~3*m8GzrD6Cz@8PuysjiLmNi~b5AO3XM4s>AlaqoB=&Q^Lgmr%HB
zCAr&eHs;)tO(d2@Y$Zy5FiFH*gH^C@lMBlLofpumDOqG@E{rWlDUyc{oTy@2vMY08
z^0jM%)_8G{=$?eJkIrFIeXKsK#ndsGCVQ5vLIIY<ZuDo0ycddREK$5R`^HQUV^>7m
z`6y#NreerrPP^c-=(y};sG4%8Ja=qw5r>Im!KzlUlP^}P@Q&ROR+gkn@|o+UiiE+T
zAX9B5QYuXqLx{5os6LBftq;O}cghPNFQO!IJcl-3@Gn5vZ!z6-=ZP5Rvj_~`lQzYf
z@<nW^5*9nDVy4YBw^O{x!JqOd1#dX?_mwGkzQ|gsN~Q2lkr1LTR9J+u6?a^sHW0y=
zeX$@_ma0;U8Mj=HyK>wyHAKpVI~VSl@*!0^-OB4_J*TP!EHEcug;=Q+>hhA%e+7cf
zEf#-6n8fKNrs#$>3~j{$OeP|kZA`&UQ4qaU#D}qL0HS|M5hKCEnVWOK=#BeKkc9~`
zcX6Clwm}kCT3Zc=&V?z|F<7~A%6nXtgF9xBr$b^wjWFG(@H;W=Jxoc<M_F`0N;7_e
z*hziQ*TiN%BAn?&431pa3B8t~Nf6t-eTYpa+8edRGx)Bsmf}J7QB$Ldsi|{XE++`B
z?qg=84%nEbHT-`EiF(E!*^;`0PCIb|zXCH3>pY}xrN<6VQG2aj#=soM7v(flF)s(q
zM~tGxzP2i3=Se=Im04{<=jLF>XAzl{sfUq9Ev6C>uc9{4>AQ4#jZQM1$W~D+<WYWA
z(von+Fv&{QW;zjrrxp?n#{OVqb16{Gc?l{%uj)3s%B`=8Ey1|}NAnX4gxKF=M&(Qd
zD}+`9qM5ciRyIu1xtk>GyaIP2amEr;33V@J@E(eXbs#pzYfnw1xeW$FWxPfLx*17~
zn%rMbA^XtB_=Z9jvs~vZNEo#4p&!#u;@6NT)YRKZO?~A}=ZdHEVN3g)NAFaw1W#rH
zr!pN+zH@T9<yp{tpmSO~-@LHWdo<H|?Clqq<+JG)NQD}6N#krygYW^l-*%jt5te1)
zB<!t%$HoVq!gi3dEeO#txHDVdoo(BlZQq+MuR-93LA+>!M@Vt=s;eX8qJS#zb{@KS
zZpHP)gRY*%qQ9!_SUd{iYv8ag>#t<C=XKeZUHEdKG~?Z}czUV()*etxh~yGj>D;;E
z+jYPFV79X9eTTE7{6SOeS^<8seAo27UxcfSU;e-=HSa*okmhpGquJJe{0AA^%*fb2
zkg-H}!tS!8f3<ykrhPj|(z|3g-?0OfV+Tk<8KtRiOK(52Qgw9k_yb>c+Siut-$4Oi
z0vUhr17A(r*PadTq6fW*xbnc)mIfid^$0y6+FU0OmUg}8ZCg8Uld3w`F4`Drz)eet
z^%e&$Wo#+_EH0RR5;|`E0Ru|%y(q$DT&yo^w1neW@M5{7@7EnEFLyaMmpDwzj!+s@
zfH4ag(=s>fAd5VjMf1(frX|t^%&{A0Zjuu7X#uiinySb(mpFP7e!;{;*Bw|VEH+1A
z0z`h0xsf#{cTT>flRLsamhjtnB&;a`UpzBv1K^Ork$nm(Vo^;ntMi<#n}p7R?AW-S
zBz?>5Q?NA|vs&U-=iI;#22N%s++y$yBq+nD$h^*y(MBDJAo>tg-0&f^&YsNLDkPj>
zt#2$~#Wc{*)h5<d)a*1LAW#FQYZjgvcIBADX!#PEn=98kNO}SS60$^Q=C<hFuo4V+
zv%cv@mPC|xlP96IWeFZyjqT&Di%~wAbFtB^qGX2l0*36|h>=!hwh_CLlU1uDT!1$K
zVs+v!Kzs`rW^zkUH*qfhXh_tizi=)Vz4VXIxj2U*;y7v$R+vi&)oA7uQPW7sPg4SY
zwsH6XNlDs|nT>g7aJ+z*LO6;|0R*<PDbmP8M0!U?7F8RyXHLo1Q5L+QoE0Rh6^<d~
zDlEpWJ}mQ26>VIbs&Bcdf5@uD$1?YP<%u@dP{t04EVTcSJl^)HE11l=G3TMS@eL!b
zUv7(&oI3KDyu`F*gn);8POjZ3N3R4Fk}yuC`s%YR`EJK7w#Eh;T1t88b8TcUh^+?N
zXxX7%*Vr%abIQN){J6Q45um&bHgn;pEj2)AE3_k|SZ%<AV_D-A`G%H2iJ3*D-aom`
zN}aWlW4B}^67W@!@%2VeM`ku=M(AnbotV-|H~nQYVZz~%3?VL5T=3OC5}F~Ty`0N2
zPz&%-1>}=Ip0_bra4GDs0<MXg#IjogeVvQH!d!mXaAnXf=&3vTYRVT-`fOvJ^p?$S
zIZ(_x#fvDWA_KOlGtVFzhkOSQo|R==3(gX*^K}=6#%N+XbZo*wkppOCvN=FR`ZrbV
zMmZnH`JLks&#)lyn{s}FaLMKT49W!^X`0LCi4CxESr51vfA%r>8}<JJl?cr$gl3XT
zdYnLsg+KZoJh1qWGtTfM*(Ju}BuHmNjcOd6Q*lxk&%20xqpKGj;7KkbDWvyDA*X{&
zcUPvoiyXeeE(DGl97DEsXI9?6Rwh+IQd(T$UM%8P+6yl)zyT}UxP|+OLzL=of+&@I
zm<n_sra*yKjad9Mw6CyGn{!swtQK@OVowl6Ue%TH`nDB9%Tp?n=>Gr5sku(j=_F1@
zSRxWEkx&galO7#~$cM}q;A>e3+ft<CN6HYjz@$5`0RseH#d&RS-6=PGN?~h<phX5e
z#qj+662wFhdKt#!@E_NC0$6oItVf4>K`BVtU}1VzDP(rHc?4(H(kh14B`a;7)cGuT
zA->bg$GDMvUy<H&-2p+F(KgU|d(^L?ee!(!lKn{uLD0*@=PA2s>uc2W5QK6i79pEq
zVh=H0AGoAai1%s)1oJn4j?*N=Tz8~OMIFU2#9cv%yGj=9GeeeMu$vaSM(J1$K0#ha
z=>Z#j+)Hj#$SCX$5sr$y^c&X|6SvrOq0WLYBu>qf3PI-GIYH*D1f-OaJK7F{6|`OH
zv|*JhQbEXDm?{=Egk7xzww1LIx|WU^7Td4LXdfxB^|1}yDTTxGyrqju0YS=V$(C~7
z@ro8-AXA?%vjpO5Iv}ph-;^)eEAB)o7a%xQp9YLgu`K_)X_6<cJ5v5TX7K+q(>ggB
z6bT85l+sk0X&(&hX`kX37K~F81hi#BJUxX7aw$J}^zzV$m{^9vrXZFHpQ>o_B--st
zL{T96#PUviqi=A>pd?Jt=N3~jXTGg0+b_a-{i6@(mAg1`9zh_ACBzRAKl)>~9g_&!
zWgv$@lJ$J{Mp(J@7}B!<f4_)xH7saI8lcpS)aE*Qw|Sf^3;8i*Yyii`w`h3^aIS;Q
zZF*g1##8_XDJ-@nBDYp(9&%|JSn85J+J;Wov(lwDCQI}<689`G{l}tob26n2L1E`k
zVUHnoH%?z8Ia_xT2LG291}jt#(oOUZLj+<(SRgvWu5qHLxgpoM+p@<31*s$ZXe<FN
zP@sr6r3*}%ppj64668R)So2z8)Bb4vEIMNtTiAn}o0&@RZOwQpde{>T1_NMoP%10P
z18wY+HpVD&7%W0>WKy^g!^{X<U0J~C?{91hQ6#Ve)ddBJu7&7sv`4Q6AbY@}(Fo$D
zP{XvZsWlmYvT3etJn`_tk;xlO_Q4^s7kt|`qgHzExh=6N1f~t^zXoejG#@-^)kqit
zzCHqm-lmA2%17Y*H4_sy4Uwj&<zdY>jgO|M+AKU;4v-)WxyiHm!u)qe;_|68XAS0i
zHadq*Lzx%?vV4fS#1<g1isedI!aXGpV?xN1*%Zd4%Q|h-jZl5bE7u~hc8FuwTZ(iz
z77K;Pth+XJ1I5>E!)NRnLW9E^A~Oi><DY>7n{U+1&$f-=p387I(8r5r3x40p*jVOc
zX|jpx@8MghHTCTzxV4@7G#+YYY-3A!FhCQ?`ZvMslfittb(sN$Kw$=wXTcUR9jNBw
z2E}0|P{)JBF}>#R1D+)i%hw5f3D$6|usSHs1L?kye{d}+IXtPubRrF>)?fyPQ-!Gr
zzMxot2^JlT?ckslLdy;$Rv9n*2lVy-NT;vS=@02dX2`@GL;tBuRA?VJ7<9rTHk3@N
zfpUvk<|(Qe1I5fTnWeVDAZx{JyAfD5s$6|b)zm7iJ*ji&W>h;xJgF7c!4rL@<aN;s
z*e|y~q_{ERs0f9pmFXo$kMN#KB+8Mepm5AzCYoS6;(50@e*TnX6W1{BLN@Vfo44eQ
z4cfrs@->;e?ZTaR=`+ja-L$2GsRUgY2ruxir(F+(*P0UuucagHYPj#Ix;gbma>dhe
zyZY|#OkgP6)+OxjDU4m(*K;3cOm;`rVcPMarW`^InBDm$xns3uYo=xEYRkb)%fWls
zms?J7V<i-%x;s<dy;{9JQ@uUC@2Pb4_T}o+izoil(`>{LOEc$UoUsYSQt(dyif>Q$
ziNk4s&;6#3Tc7<=(~g_RvXy<SmD@9w+p}aE8OYQIR%?%CYLC4gUamd;GY2f`&=$=*
zVFB1S^jhh|hR$0vKe)2ea479Rl&(3HZS7ob-Ii(Hw%R(9X&uQ{w!xgPtsKE;T#~;z
z?dyEl8vI_%%~IN$Be~kLJ%j(A?P#ZT%f5R@SNEUI>_3~{_e}bkbLpn@%jFl+-U|<_
z8kau%qpH5eV_9z*#oJkGyp>w<?s(wqM5Mp$z_FVJ?_tx8VyU{Hl*%QR@PVy{XozA5
zLMnt<Ya3$+G8<4{(V<N35QIuARRI*c&b?Sd;dELah!AW>^JUQu@?b_DT$K-I<b&C!
zUNlPUA*hR6VLR3Y`@*u$H_vDMfow}_wz2<ySAQ1PqA;sNXWF}~$#ks;wv;fAL#I02
zm2eAp!;G?4s%%YrWu_B`DTX<o*zlr3Wkj+dE}5h|Ox8qiHg}Z)|L-w3K{Gv{nM6l7
zh5`WN5W#s;1&R%(OS&-^h0=!4Xp!zS3faj*ktyZK=lgAX?80lbj(Lq186IXu@Gx_R
zo<lVZs_=yHFoQ{tL1f7Kl1S6JHN1dHq5gt{{RIbWPU!6F7aZ*0d!%M#)IN?uJSNzM
zPtGE)p9DUBm}G$u*yxP1pC2<y!6G0*?N7QdGkh?j2=cHtL`A^r5MhJ4E)6O=uK8v3
z1$cV8M<ikWEuW{xDL`<Z$(pGM@aiU}R!-y<5}8D9QCcx~-wVMT$Yr6U@<I6}O7CR*
zvC)h#>c&Zz5FpOe9&15X(@U686LUxf%H;{{iB++LeSU%&{PzSIHDW6}iZ#eVfk?<%
z0Si^tH$AU;NRtBlEGS<Z0u*q!PF^dK${OLOQ087Nz@A7)ZKrIAsQX7d@9kLecdh!j
z!m;3P<$L~JZ|}^oK)WBl>pR6lIQ>rJaHSKrfs7E`xNy;eMJfumaNWhl&wt@!%a*>d
zQHV|~TZNWotMD<)mJuw|Shfm{Wvh@aTc63hY%!h`uEfO4GRe;`)~gF7UEnc&gv^>y
z^&k5N3crwe!nf=1?kAti$Nj?!tRJ^r9ihFW3>nV<D{GcZ2)E{^a!d1bUb{p#SiYR=
zX6sE>u5FmE)yr6Ma>8ckPV_1*S1S1eCuo}2S1Z0)g=w*3dpL@`U!nEt1*F4zwI7zr
zOBYs~1~d5Y8Pu1n6Pqnp=33Q`Xw|e<6|%L;FP*ZDV67VYvx2vsEB-C3{+${B&b!Kc
z{(bKhWPBrO*9g|C5w=$SpmDgu$#^Q#kE1LmPqh^{A7OoqsLjw<+OgEw1&74!X}^GV
z&7h48jz*U>e#EM<(N<KSH}&E1i%C?_J>nNucQ8zbXz~B2+oR+N!~VZDiJs+U`{c7H
ztqgx>rI0`jtu$B44ho!2Q6wc%O+h7zCm|Cik{q7=zfLcIK&Lz;ICI?N;JGam{G~~C
zz-5N~`uAxjgJlWLWJ451@^deLj;LzBfd!~)kk@qqP}Tkh7A&8|&1aGxga?6z;@F`6
zyKTa-+5t2}#)C~aHlL5MnHYr{VNPs_LT8<oV1MLN9H#uowB|s3wPI`%Mua#!%r^?f
zUUOUC6u*Vs=}??3+7sN}EN|W7Ek(auC^nq~AxVOF!W|>d8?!hvoC7&TI_GomOL>xp
zRfb`&;Z1o#%$Hb*`4ZE~FW<&!DZ?hiAm&R9V!i~#eBp>1A`GxHa3-QK5jHIidh8PJ
z@KnTDEp(WEu?;L7<Lv&FQnu46SB$RiqGxR3EajMXjvhpiu{uqsJUFM7a;=__U~B%|
zdt|@<$u`7bXNoV&8cfk2#K5p(uz!qIg7kO@kOFPld?iul>z_U#to|Wj0IMsdT|>Wn
z>9;OnXXKj~Up}Mri(nRsWh8!a7k1~Bigv+49?s5tj@#Z2{YCpblYhP?z55~}lV^7y
z`{BepU4L@*?O1yE1w44@DNXxYmOb*V;decq*_MGHw5N9+U*2{i!(`eI%i6QmE$P7C
z^pW#$$}M*<7D9+zR<-JH&G=ha{o6ABZFhIA>^rmUKf74)<Kg4Wz7u~`b+2;8-?8cs
zX8gh1$@ly_-mc2{PNZEYu;icM`%@G&9_~O$9#UG-m}9@2jJbJ?jm;tiFIY#8Es1vG
zhrm_HTn$S+YZ%ugSqQSjGT!X^sIpt$8g_kbRKdFIC9frbt94UA+T@UoF4rB1zULC9
zu}NkOO><n4MUr7ZR*d+QZi`i&Yr1?LK-^-6aSMB;9GI0NZ4OLpOij#DqBI!8UW{VC
z%M99sMg8+Gl)y)+gvA*2IALYBKu=0xbM_TIg%5Ew2|PRC`Q(G+tBuVsI<wE<z_~V6
zK1~jT>kg$*G3+3*TS$ev3++Zeg6j^WMJlZ>vSN-~s8WhjRdB|wH0|18uSuhR-I1yk
z-`J#?vQ5$$!Uov8dGbOjH=(@p%glbRb6rNbg`;sXDAFQWQ0kb-?B}}kq%1&eQhhdG
zsD^!8&&D*<TQ)vRRVQh6V~6O+g&K;U`D(3YKCU$*XHF9dz3xcWioA{axK^K!9SbE3
z-s^miAp1fs=4SWE{MPd{H|1x1NG0$z{BUT854Pfy^B9|`5e0=lgSys97897<Uqd<6
z1WmPM3CX5$X1gnB1@aYumNuc)Q3Mm%4#4_bkEkPFsU!3yQv=s=cq|U_L4y2cI<eWG
zDP!T=r#r7w2VheRgt_7hO2qL|$qbQ);UUvSHA6`XCZf<ltJJfI=7YdDA>lPjI$d=$
z{j6nSsk1CBW<~QXEZljuB9{qA{9rUBSu=AtReN$!vnRJ{9%erX?Quj+XtozLo1!)%
zkye7O6C*Ris9L3cWO-0xx7mJN<^4-kN5&4)(9K<nEO(r)sv4V6<M3o<OP#qi)v={1
z-z%vA>(jqN?reQBcO`oW{c2>Tb#TSAjg*T`XO_#)roCse<SbtM+P<aMcRdXV2=m6o
zt*&of%~S>8)aj{9ds^=|_1-O7Y1*?m^1xNS>T1fknwF-ZZFKFp-`w`*flTw@a`Sem
zZyy8^7QEr1t2OJbUG;Wlyj|&@gXt$|oho+2S+t_&*XOZ6*>ZWuV$s9k;N7l!T`R%i
zmFmNp;P7{k-#UETzGPoI{A(|!gTsrSO!eWvs%&}r=;H9=3-?<FvQ2?(O)dSeZ_jq@
zh9|8Ix7S9zU4Z_#ZGh`n;f(tBh2_>K)4nGcKaW$ku6wnvKU3GgTsLsD@P5;dyPsWd
zI(pNc?LPeWlj*KAHw#z%?OA{Osvi!jy|;J0=im0gxI4Jw9}+IA2j24r*4m{id95o~
znaWJ_>pG!m{U~KBJa%&y=-n&(&o29)SuFU=$1Tv04oNjfY#;vgpyWSkOOQwG9|ud1
zZ!7#46^+ODIGK?>mSc&gH(EmJ`q6*F`Byx@;{BD9&6eq}Vn_OXLB>AD4#0Ugb^EH<
zT%s4fh|J*lic4{t;eo~Umb0&Lfq42Q8%kr4wWxu9sGTMmixfn(tvj%I8Jj98e2XUQ
z&c()*&Xl@k>psS<Sk%5+0{D3r_QdOoJ83N9W<(0}84cfgkThmEY`UAYFM7}lp09Wp
zTnHiTGEM(&61z8y#}R1TYeK_!CHSrc-xZtDEa0+Wn5HLTYR->IyI62kefztV4a<&O
zUv|)*3vT2ERztKi78fr_2pb3*gAjn5z~f+J(>$2b+dmd;dk$=ySz4p4)iCxZSBr9l
zxoZ`5F@F`qfndQlQ(-Bmr40;NV%tA!ZH)FYQc;d}mZSYKIofk_w6u%?%RyTRF4&Xp
zqQqntAl}-fP4Kt|1O+W(>yDR8Orrv9Mh3j00|xHWG_8>9j?Gd}AkZ5^PrD5w0apQE
z=+^+wkhE<u0%S5bNQvNWhBZtc-%reTALF>`$w9JLbejv&_<nAQ$6d*YIq1s?oIy_*
zsDm(PG`=G}2M?(sT*=1=<^F^6Aa>2=S0mgma)h3aSX|~#apx{dgy;AgR>Nc$H_rJJ
z_}b0T#@E7M6wck)tQO|}*so{A^u470aP(blA}aUSHi2x@fxzrv)YB-h-YVqI38e<x
z8u;>DB+9lU)7{2}{)Wgc05xE+<rrJ$QnWrYwd0!8E6}Yn;jX;-?%+B^)7cZ+RIxue
zt9<P5urIh#E?B*?{lWGA&|?qiuHVe*l;R68-$U#}#H<ZbX0g|g0p>h{f?`86?9Ge-
zGCXtviv>zs*6G0m7%ucgVxcLrH4P^xf&p1KpG8yBUT+38c$uqlSTs`L7Au0WW`iN-
zak5slfaZk<&>6OGinZN&>lv=efM?lwoxy|GF=BhdloX}l=!3pPDhtAH6gP8x8zR3@
zIEBg~5rlwe2ftS%j)2~Mx#Nao);J^ApQegDO}n(6C96Y>f$LWy*u{oo^`NV1iz7LV
z)*&lU490wbtZhLh3vzdSUI^y8|55vS8_h289eL>^3WI@gz#Iycgw=f;m!Yyw1y<1H
zV2&hshQcNQkEtaYj`D_0#`EUIl$?4?>Q&6?US6g3+rMuBb&0k`4RTxvo@FY43t&{9
zXLFj>xHaGY?;D`ysG~*8(C;tQng7MAGif}6kNV`2c-?CSGYDg)Ke_3R`V_db`8gU1
z48lL8O**lg#sL<AM<OO}`x`bR7BM926j}LY`!$;$Y1o|;X;>wRI_y~f1Aa7Hl3DTS
z8wkC`)tMjS&3vO#Lo@8Q5jpt=v8O~h{|yhFTzVoic>Ff_yd~cXB4`gD=h2hDTv}#>
z7j_86R+)}8!RFEYVvqk!TP5b6VHz+AMeKM`bCVrAv}xfeH(+O?l=)yzQP{?D2<~v1
z)HFm9nBT|;4#<N+^)xDx)BeP;Rp9T@I8NWN<pdX$%m9Fbv{aiY<U5F1OPD~#{<1CK
zu0y#SR^31x?0{oLE21?9E(P<wtmx}jqmA+FsT$CLGieUR6l2mH%}W~^!02j%0+OS1
zs9sET!UIlo6wrLI`k%PUHZWxyzVqPI4B<_5SeNEk2`LUEqrX8oE^NfvyrjH&bfqG2
zJ92MFCV1$6eaD*JR@ahk*|OTQC)2Vg-Mn|rVXNB*v#o||m~Al&?13k2>52f;A2GLv
zoF*p~3v2Sf{&-FPwBF=aj?&=U;8yNn9ny|Y&?$F-H4c*>HU-NmL(r-?2>svE2jqe@
zQ-fHB)V&p!?}*uFhvhpbeYao{TjQM$CF$3bOLGYSP0rvc@Dhl{&th)R53nBBX*8W$
z0)>}r@kgCb-Gs@J2c;w55NuJKiv_BmdYvlGL&%W?lx;1BsMzp;u(PIT(!?CBaC5Sa
z93JMI^2`tB>u(V*d=XHA3zofSYXY|~W@@(IZ|=!9Qjpu0dc-KNqrkxReYdY=>UL&Z
zdskZrGp&R78|60}Z(mz(WYK^dpCohp`qv97WgFrI*KN6vP;S$AyOvw`-s{P<9$6~9
zU(>L3{OhSV6PcRcw7(Y-%d$01H%mAweGT;uRC4hqd1-LT=1p8_4lq%gA3L#I<ZzI;
zei~nB#aAZv-P?JPzCWQ)Nr=oHPTJ^-wd||Zo@|i)GCk{{(=X98l`__qV;?QPWX1Yb
z`sOB`7U{&qyHrZv7weQ>PdxDipRlhXEjN~ABXpP=zZ&YjzlHShIh$mP4?nIiM?(v@
zu3YqCXWwNuyW_m#Il+uq>}3Zmo*$)BN!_Y9fGybX`)iiGtF^&QZSb!5UTE3>#M{H~
z`j0&%LFLoS<s)hD2n;i;>MU`nAJC4z1Mm6<)||y9)%UAA@0ZuVaVS&11z~q<`W}{d
zy<cFj>He7mFW;}0N*b4ruXx*k>_t!Gcg<N+(){M3pGo-npqb+4b-lU$j`P-*6<_c{
zy}VR=v+ytbw=Y-i`2NM)w%4X_m3<?2`{Ls9bkz>pS^i_Eg~)aC4Q0jCe!KYY#Z1pW
z2w1;4`r7EN;^nH|myh2ssaYy~)3H+0k*#jL`RT>uB%=L9>0NENcHQ2!;@Sr1kyTI6
zyPh8A*V3P<=+FA=*f#apslE%*e6#*$gbjS;bCF|(3udmB5~6xn^kgb}9+UFJpB|E`
zcYgR&FV0K``6mZ`Cw4l2*ylSj<jk34Nh?gG#UqmVZzg@r7l=<t;%r#1)LZx%)5urx
zqm}Te@0hVBBhj$>&+v>!g2cBgRKG#UTgGM+79Czsw@OG%0zGWv;qt!fd)c?@>dd%0
z-*a`dA^rDUXfJJoLB3jf%lu6$v!9pQOs3^2G6jNs&(-x0QRH$8k4H{z*eCeKu?ceA
z+tAprQ^BjL;2RVFn>@wu&A58sbM>*}YXxkZ55rXleZw$?Vas#4Vc0@FyY4VC19CCK
zuXV>XGG2eAY=~&A!vaRx5z?_66qj4@cV{6yBJP*#YlwqQM8n}(9$8m^sBg<j3nV&{
zVkf~7^M>$cUne#qiz_hh`ZrT^;P63hk<bdkduJ#n8Q+PBg$TPG#`-FNT0+|@b8KrT
zDi|vc?L;4mD}9hWU||NYejQuJj?K-oP*W^NL`gI1v{87$8l3a*93FcRluxt$RtEJ<
zm=KLTM&sBKm-1%P5(BJgvg_f<)D;MRNZf-Rn<ilB!%|<p1_=g`g}0qfWRjD$c(DNz
zs18(TDxL&6y1p=YHx-X_BAS(%T8gqn)p5B2*4*s6enea&_JoD0WHpgPQxL82;_(N1
zRW<-4dEe#G#8nXSfD3U9?ZeBZZibt#xoa<)N)3}xX(m25Wy-Wfdzs%d^nwF37h&cU
zK~#U6r7t!VOSCo@xrq*vtsO$$CfYlvBQ^j-$9x1F0fX3q4Slq212B$NkLfdNODdl^
z)~Js*?rE+>CgA}M4uvBiab!G-G5eY|8;Q)21Vbl$EfSxDe3Im=8;WJL43g6Doe75(
z^0dY#M0^+Mgr#Q*Sc1ffrtk~)Zxok%1Z*zNczhiyV3ozH#BAc|ea;>`Z{UGWMA1z0
zfM&x^OiQ4lxW=$0<7!!fYE-O7q(!}T3^9M-bM^8G5?cAGME?142#`L>YHHOt-2f9E
zT0!xQcKQ_UJe}Js<aeXvAhl^wCMg{C+9g))=ef*{Em>5(=M7j~LcBrr_L1`v)f2H^
zXDk~i>r!=kL&HT4V?K?OMBj=!d?*@Oi;>2d76^99K3yNKvi>>3i$IKgF%-q##Sk?j
z;wyx>dE$JG_q6FqLm?5bUgPUuTVUK069ym!bYQ$$!gY}<sZ{zrEtUi1$!BXWIVC`>
zqCG%yiZ>Gw6FeGxL+$iogDjaUf=^~fsu4jZ73p~j1pW4U1pN*nsE2w`Px<c&MJbRr
zP_!0GZB8T+n%;80=jvoQsh+_5{In7o?|l-K6w5eRQd_76h2cI2a!5|hgl4gDvS_@a
zDQy2Y#WXp<EHyHLd5BQ+EKXrG&zv<%(<WXE<4?0M&+A}G&jT6~do!XJW+AtrC52F1
z-|L45iZWW1`VW&Nb<!s)%*ckAE6fE~A0OyGCL{`73n6SL<V2<r{o)`C!_WKKG70JQ
zuZOnU*4ttOLH1qhRJL=wC6yC`js!fBsbed1c5Ywx^`&)k40!TeNTU8WbuiIjbkMJ1
zMexVC%MnZ2OtF+{*tby&Z5sHQv(Q4J8EOq0XENVqhaujovwUU9SW<<0SU-<QpJOtJ
zy7MFDd<;bATYB0&5RKd*FDdw9z)}vwK0*Jg!D?ujDnw{FXTH>UUhr+>TZH5@%bBm{
z(5%nkZxXuu=V5dP_i;0QQPPkBiIz&(Ua3qPmJoTj{Vp1#K4ix$y)ccVV2cj5$rAR@
zFrrjpemGNL+BGZ`Gm8ON&Yl=91Pyc-OI9O8(Vi&t8@d^y2RnzDCHI;bB1*1q1^sSl
z>O~1*r030NZm1YR4>x&l*mel`%(O3G06uHE^7TLgg6y&F!)Kt&x6~mYR*`#)NQ=OH
zD*PzLz2Y{*^ua{aJ>6>7QCyjZ*9eRFUz1?HT}rlzxBpLJR~p>bb)DY>0b(JDjo=Cp
z3jyvVD1w_-QW7a@hZBiOoHPkbiIOForj-ZEwpcn=8h3`CdM0Gj)?n&5P~(Z=iDtsK
zX+yV}Mn9Uw)9DX9iwU1G=9roIM}9sE&bVoQwBI=o3m3%UNEdf|_uYHnx#ym9?m6d%
zA^L$EL5t+UOoj8g#otm|0Y&W&jNb;SBveGdYI{z6PI$iT^TKmtyEQi7Hvw#?-IWJ4
zbe%X4IGfi<dChA`VQ(b7NThRQ{?I2pl)q&SyDF%)+_qYLwC;~Q+BWZKXJQ^lzK}7(
zBT?IYReOmB?Bp01SUS%&fgsz)G-#Ix9s!iGE19=)cV7|;gLH0>B<*MPfS!V{Q*eX=
zBBL^v@w2fL7bYKzUHE*aLi2+%3EpBlW1>x(aI<#LpZOZ3_;mH=wTx#n?`~xhZg%-x
z6g)}ph6)ndWvr9r6gbyk&Et&u)bm%b@hvGiLB`Y-oSf(DwA*(WSFBOz7#;r;#b`ho
zE1e<aCm^GX-^%E4cc*y{m*!4hhx68q6K{k%X08gUX-X|LH6*f?K25Q|Lo7}%MQKml
z@u!LXeu9E|9}xt_(b1@O3?%NLtt5lCAd|17D>9yVqwI}|#9ypebZ*u9mToSd{;;+o
zG4!p4MJxGkx&GRX^@`T}qpRgVIKOuE-7XUNr5i6jbX`tcFH?n?H_ohAbpI%{I`c3(
z`e5PR=w;MU9OogQCEIHqgi_^niCl&MjnS0pdly%~_-^<FOASS*TX6@LhSR}bJbvS!
zyI1|HAf6DzYMIU%E(#QJsYPRJ^4a^(uX_(Jx2!$8cJp1=>BW=e*`?{V*<aebKO`?K
z$K>F#CEefJRHIOJMudYDTlJ#uy^5;$!(FMz*TaJ=rk{*0o_){Rkcg(k1MAMg#gkjD
z?P*iJs&|>)?>Dw2rPsf-Y+e$V26xD(>5ja9+1;<y`Mzsev7|!-59<ck%71Ek+masr
z?8AefgCZo3Dar+3(?(-NZj31IhWCS=sqr73Sx0}y6TRO&`(W_H+F-KlN2c{!oNowC
zk<`>b__ykt-|Om6Jf58T_Mfc<VN>Aifk{E`ehz2ThNDe(w51xL*uU)&e4YREkymik
zKN8B!?)U5g=pMdmU$$>Jx^d-3Ix@2EIIg&=7Ek{{HKM}*@<H5xmY?hx?-hRDYd-BO
z`}tx2>H4x?)Ef{lF1Z4c0I(^Vs*`Rks6g?qc!%y|MQZO~p6<g|@k(y1D0@M_!%jwD
zVypPVj*Ydjd838%xfTrMcjas1E9M2=*DUa+iqpz?Io;$z$0KIpuDy7SGL2kp$z{8|
zxE2VC{4@CtZNczV13(__YHckTs71VK_>)`I3$NT-(4$_wRF9DV;-7jRY?^-lt|h-r
z!L!^1qRB~+;B}m2PkZ%0h)s__brTnrP6yg<M!>c)J5f|20#1gnF`#;!>443}r5}t}
zKl7QhV+FJesb7)mjLlc?JSSqc58|)pgY+(HJ#YoGGj0GGIpG*P_=maJUtz8^JZvWX
z^Ckt1eF+)otz-Y2DiIRLEkC3UgMC0dMr7>umnhh8BAY_)yni>Y+J}iBBV=VmP0+nA
z!HSzELomwO@<ld${j#tBSH8iQW4JJKns7lFSN+(V-}g2rr(b_;d2H##(pR8cynJWN
z+nx3fDE`)T&vDs*T=5@J0&Ux6x_}SMHW0>=350Pv8R~{3?lsfuJaEuS@d(1;Q5-~u
zd^m_~^Z^G2!@wJ>H{|fh!vLLQ1WqZT{?*6j(D2$<<j@H@boRrR14_%0wKHpn@$|Sj
zg0T5GS@pIyp^;$IcB|0Xr5=EYe)*{4Zce+qm0Ewg^`KmPP^oQ8)ycI{x%Tjf4Pm9B
zXVsLVo*c$)K4Seq@kDfcMDP!3j2v$WU&rKJr9F}UNRI1&BX?<06sfUV0;LcO%O
zHUB)G$p0;rl{$xpN+Y$6KPJrzM8B3t;gf}RSj;P^M3%$vv6#0aCdK51^6NTqkGlEj
zXL9O*;0j4D3-~0}q@0jeQw(B>1OVm~Yve~D%Hge*b@`cKD3@CCQi;#V<}ojtwb?h3
zm$BuVn$()gyCNw}q2>gyuvO<wCNu^vzaPhGxcSAbsqx$CK!Ez2YgfCJYER~i1jIM+
zEHiICz2p^*6zUxt)<)UdxMA(YWlsQWoSDhicE#%d$f$=0FDqT6>09w_)DOz_gNn6=
zZ=Q0I(~>|RtSzx;Gz?+SpnF=OFAt|<{%G1BO`D<&9#<g?DEt*Tz+WM2HwTzUlYC<z
zkTAd{_lcnaU1$T;D@L*RFaK=*7oW7WiK8(O0>xVi*@Vf&cOI6|6E9`v#g{+<i9`RH
z9BAwE+O+^hxZ8q4g!DapbSOCN1`Bc|NW}3Z>8Al>MKB79j%PD^+zdV^VG9$ae<g6?
z!>NiL#8SIOqv)9aVv4Q^A#3ymnTTkF*}qVXKrv3E$wNsXcck?e3bf;)owV4u2{8T|
z)j^8cgvKZiuf2z4Q~hGa(x(&R`_*-?xf9bHzNqYr;x1bpTP|9*BGHWqj4MtuJh%Wg
z1P=g)3ZZ8dMv3J;7TMIfXiL|10w(ejppa|=-UI+O<Q`xEQtCpgT`-3~5=;O$7miCo
z4QZ(5ZFH(2BSPN=8Wdxdzd=aUfpij|8ku|lKItG3O4dbyDjep3VHLr!7QpL;GBB*z
z|EI-i-E`Tse%kQ&dKd+0zsBzvik4q5=)uMsa2Ehd8T9sc2I*23w?D|$TN0(QKQf9E
zSS<e(*%^-sOX8P+4)_Lx0z+SXJy?3@g5k+hzW)nMF2Ghqz2+U3h~^Uh{lB+^$u~bq
z!o59zg~exq<z3yLLL~2MiX-K_+9^>l-_C-C>@eqHXGs*<i~1))J?;IQHWLjsk6D7H
zvvICqTR3fb3FZl<db!_lgx^4Wz@K`96>2%S_LHDs!OFjYf(89#VRq3%aBmMGgeVwE
zkX0haQKHUtMSj%y8u}*-Y<sb_7ujMJ-|6=#Z!YHNV|l0$0THiMu+?I|Xvgm-L7}9>
zlVey>4)l>WuswgpH_Wx?i{P=)`jP-Y{JFzZpg&t|-uWqQGXm+Tp}hFSybJt%Bmk$#
z$mG56aDX}O`Lam#`n(gn>{Ia`D0ORG^Wng}F_+b@r%QF`re>H=&s0v|nVow2=G954
z!Q-M`IOC1a;Zzxx;WH5RUYjmp3+f`#6Mguf9Y;{mLj=gYuv2s<mOA>)e~+A|qGy+;
zA|#wYLyKUU$=^5e$H-x|MQADA+I4vId(_i()FyE@1v@*k;wx&Z6%-eLNjR9`m-QCG
zuSR|E4PRJ|zfqPPee>eIiyMLH+q1uy{(u^+Cb(;ygb}OoKih?1*S1=c&dQJNazP#9
zC2E$45Lj@E&+kxz$e51KOg(*NdTMw+$TV`vLFB6Zmc~GK(RYRWmsg!X_Wq-Hy?dB3
zIm9gghl2KMZFBRGOqrw*w`cQic?;By^nLV0latimn2MLGlF`TKaOoa-XkdYe#uyCH
zAn3bjc96eCEK>mv1B&>Qbmx_1q5A(p!BGSmaW-RwN&=Xd8*C05zb3s)eazj+!$On$
zRQrciTYu}yl$7&*%kT(NiwsudWYG%nB)_*>8X6kcZspzJN=?+le^CqNcp!djI%A}o
zi2RXzd)O_oCVAfhGC!udeH+c(705-ZTk-h6JF+se;Te}b;}1P&7BB1(FjRS=Q>9e5
zDZVDf)18`HElYha-GA!A)H`JlKKIV)bo~VG_jKD9$FM(-oDdg{N?rY8rBdIpXj5#i
zZ#?tzGaI%6**5S?+fd<MJ+i0gp{Ez`YG}cg_Eq(-j(lrGaeH2kEyt3B>+X(Bt^a*b
zbMpHAr`J74KMaJD<8Q|9#U2Lw5+{^U`$p)n96Fp1ji<fi2o-NTz@%oQ_l(?o=3)2Q
zcTULN7iI6o#6_h!x;n8ja7rFH_28yF@F}_ZQwdb>xPKMb%tw97@Yqjh|7{kMov05U
zV0(PXZS*B#;G<dxR_8W`PRm25-!aQWm*kd9iPKw6{i~l{8(qBs7UqQ5sdPqH`%>Mj
z&q2pCc$^#!HwIt308a;v!S9}5IiC{06Wj6zwCHOw8vEeNVDgI?w}R{oD;HjmsojF7
zRW%6qs^UET$~Ls!PanqW_{O=H&%JU1R;dn1wZNCH+egx-5p5mlq*=gNOw&UGsW?w5
z(2V1;c4JJsfYiizEEa<)_C#!FT2E=Lq8LG_E~YuWo{-)|GGmz}W9Qp5*Cr<+Eu8$y
z?Wq~yNJ<$eC*kjVa+2vxi8fn_Zkds2*Uadz!1;@I<u9*)I@ghUsl-4U8*>tE@|x}-
zfKQN|6u2lLbx_vIl*TFcIt9llxJLnYV?lb0g8LM(cyyIw9Tey(AcVzBTslB8Ub#P}
z*uPWo3kuF40Or4a3qsRPitA=)Gvya~oYEH6=%#=$p7a|E4pBhZN9v&^=b@OFf>BDI
zqJZ`-=^zD1Dd?x5oC;`@(6qs$6eE>z=>`RZlq6M2DM&Haob03+ZP5~`H?o?TM0!`+
zi9VgyOLQVC-J^g+p%Td$q%n#yeNR-l=KPz!zDDVOhhpdR!Iu$<pTl5Y61H_;5)CGG
zyi5qRD8W`ZLRQ)$O1NEVYE{}gl<1%mZdSZaO5c#;4=L^409d81Q}H$`fuQ0GDIGmZ
zONY|gqYNBUx_gzu!&oJ*8l~%i61${~pL;YaKA|%l+OoS;14YQ=N26-ys6}x3)e4SU
z1$S-2y?j`$<fKigZ&B?WbwK2(IyveRyaBa}qi!M8qE>UX2EvWx=*pc`zwGZ(YdNn@
z@HeUT9Blx-uX;G@6>2+DV{**_wUN_4p{gdKU+z%-oD2w!fn<2)oEqe0lVEo(jlKM&
z8scPF2)3xr9BmP*8`M^gwh8q<wVk6KP&ZXOIoc(J+thB3MqoOgs9Nqw%*n2h+QWGV
zgxaPg`q8HLayp73CPT@1vTfzdscE?}s`hbyzfc!WPD86#9pLn!5bRFP$+$ahh|>r0
znp9cpa>{gXSg{15IT~)-ve=+G8n&y4xXQ2qBssA%ua0o?xX5En##5uo=kG;i?}2pR
znCu;UFeiJ@t0(wVsV7CubFwTsof?r_j>v%{vghd9oa`A@wQs48iI_O`lvaCO6fCyv
zX)STdAR2lS3t0g_+vP&JBkj2O&=6B~M#C8~xd0bQ_+8UK;@@nUP!31zT$Xj|4DG7P
zU<jnXj62^90UZBc6hAGh#*?DqoCxjN1O3X#sM6g2$j&)iPEX=Savm(B?2M`gtrm2o
z+fr?-!*a(-x&GvX3Az4ku>pLCI?VE1vR$t4l3iVDh4zqDfd2FmI9gA2$~6OPdb#GP
zTB#M0bMdA4a(iMLw*RX3Vr*v?+v3x**_(B0wa)0843<6pK@QfzzJ{|#DmWwd;Q@f9
z0l!o&2MtC_ngowO5l@aLo?nRoq#Js&X3D-L;tFr2rcP<=+OF^!E{a=@s-+vKcrx)E
z`Yt=LUr;u!K3Yj$)yPScV0Wu#j*@HGrOS!X(&Njvq+510tK1L-Fc{F4m+P{XT<y46
zVdzboQcXW>f2%#^S-q0-%Yj3xfZVm|2hq20WGSjP*bL{zt(u0tQ)i%j#sNz+$uGz?
zJ+kwFYUE54z38dLm~0Ek=3v&$nQg*xaZFU|eKfMl+d4z-7P?t{)IeEi&lyyW95wBq
zR@KZU7JM$Xf}>W!>rc8@fKNDS!<*AKpKSJL?VRzfL1=DQ&cq0JwRUNU3m9y>dQwCO
zTs7(1UfC5@(BHYVJ0jbAWXl1puc}_vKsE4{>O6^w<$2Z2NsG`rE~*tAx00~6lA|_!
zGu6&f2(H{qV~MK7)kNKLOty!xu<aeHlM7vfKa}iCl_d|Z%wmE2`qV1Ucke?C+&^5G
zh>p$3W>2=3>zylui^Pkf($hzXINVlZV4h1NVD1wKMl~=nETM4ft8&M%TtEE4E!Uq?
z&0IpWyLSa~0TxgWfGas|%g>FSlMbF6C&yhhH&q;U)7(^Zw5Igj)N&zE`JTC{=lq6!
zbHhVay)-wxJR7;*tWG!w_mQe`LT3m9k3^z0O+Y2QWj(5*>|Kj@^$W6dL^W{ra_mDX
z(`uvKHX_%JJP6Bm<AsKTz|Hq8Y6Vxc?w_1WF0hq=Ry&tC3e)D~v}@mhxNks&1iMYL
zIh3vDia2!A266Tx#_`DB0|dEi1ge3u@F{a$G;^}l_u~R<i9uF!Ny*N02_eC>Ei9Xx
zvrf*y`57>@)}zWU!()4UL|N$3J`gf<fu%$jD!8O1cIFaoO}ESDj;x(Cu8X_o#Tnj*
zm5~Do$bUFWmHKX!PXx%`4{xUee6@YM1-%J!#lmN*qV#9;y<uqEcKWdMZB_XROXJuU
z_>6GzVY#|FWtFS@;n0*2HcH4N+TIf2Z<G{!&dE|;=K}7#Uasp>?VK*zWiHv-XU;gc
zr_&?(PE#b;>1A_bEFBz_y+g8NNHuba*6H0PW-cjqnv<nE%>_F;&FPYz=8~PA=8Tvw
z_uYA>c}3f{9R6e*=$ED=vg1g4_>%0n#7mkE>79XnMT8t|0EQfB(9*R52KGTKtz0^U
z0C4aG)5;~^c>7_3)-IW;6o7)(t}Q#G7Y%LMa?#LALHBmK+t8Wl%L@3}?y?$M5@X4#
zm9uEv+m#iNR=pNOcVdDl!>oX)+J<Ge1uCfen8Cek(dW<>vT2BZ#o}5TmMu-#w49+W
zOD%{(XB|o^s+Nw)pcRc}&L-7JwH^D1>7;y&%AfcPxu!Gqlw5OY4fN`9wTcSdc%VoX
zQAc<~%GOfst761Zv(?a;)UR}?2E_4BZ7a?iDfQ=Ky`gW*U8@@Ki?TZOf?|Lmf3guy
z{!}w1ckC&Y#HXlH?Gyvzv8U~z)AKZJ+I~Pb_hy|`I4pqesH@+u@E97HzQQlhhSsu?
zk{};)yOo)ez=}00)h9BjGFwTpqr#zMkIH%t$3-wZfR(;ged>_hG$4BhRL<TqS1vxC
z2I*;w%I3b03{+KPvxviLpOGrSfx(pY8CX_aonuYjsVi4Cu9WywI0n6Q3tB=F1km6R
zDKJv-0+pGdZ-4bhWOi11k6JO^x-$)fjGI>_$l*yO2rZfjx#G}7SWc~_Nu2P&2$5bT
z(HRCa$+&!p+znj0Hudym{2H0RN>(akCYBWOBoZxWD!3NRAFkhgLSwy)oH$ASGPOG@
zM93W&^gwA;61f-3ICqwk2KJ0517Pl+d484)ut=bq>*j=%Q_>TYx94ucIJtq^@#M<p
zq&v5sfs>Co-zuG}QRKE8QCA{QIT9(%NdW{I@4iRb95DB6km@l%9imv60+Mh`EeJ9-
z`<~VML=tMLjcRD~qaCPfEItbwm`!K#00|0m)1cLgKs620K01NRJ&j8Qo`7v-Pq8K`
zqQMr4ZEILck!j_g@C@Q}Ub{-)I5IPJ=b99cK;{A%nAfJAWhhpzt%<Ya5{ngB%D_Sg
z7I=_sA!FlexA4J8QW=+qD6>k-+~shX<rWz?mq3jUUTNS+R8z6jL?4IoBnw+I7Oq5&
z_~I<+$ON?v7!JkhE$FZ|^^u|%zhm_DFa;yj1MNMx<M6Z+;Sm1nu1LqJNP`3Z2mrSH
z3d()U6V$><s^;Q%=BwR?$&w_EQh_$&XM1spBFVy8E|RI|+J(#r)<sTME}f!>{P}Vo
z`n8C5=|ld28yYAih|0kVTFEIj<NHm)R}QP1v#3n^8mdVoTGC`KyX7wsc58C9Vd)Q8
z+W05LKR^IMp(tieg6RA}h<qS)%0lOF1lOiey(xq@g@zA=-jDSLQ3t+Q)O~Et$9`uO
z#Qu+U<)ZF)0tGff?EYA1L=}MoM=>Udm&M%``!|KqrqI4AoZg+^wJCIeAWX=@#HP^n
zu}&}Qwgm*gvj`$Oc4Sj%*%VNxXHz)x>oUitzWdi^_tN7J&Az+kzcyGGClY<@2LD~%
R$K~f5#N*;4fqxh?{y&ji2W|iW

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/logger.cpython-312.pyc b/entrypoints/__pycache__/logger.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f7f5b460fee6c1392d3f4799d584b45aaca1baa0
GIT binary patch
literal 2680
zcmaJ@O>7%Q6rNr0uGil6Ptw%+qm3JrwuUB#R-*hAL{QZt5hB#~fXrdF@lH~Q{V}tf
zs<B+Dm3j!`KzpI(W^SNddPJOhMB?I5A<Rk@MTG+=7Sald6YtHglN1CK`OW*uytnhc
zZ)W$KTrNvs*wRPMUo(U}L}M_dMA>eEa*J5R5^UlKbwNN~w8gpzbIMLRQeEOc$(9|Z
zu5ewp(~eqKxvtn5CtJ@tT3r)}NT@{hO(D)+&xzzLvC`LxrEZFeFTXBUGryuy6+-nq
z{a}r{4Y~-1)^wYJVS6hpl%cucotr<0aX$bv_m1b;O?TxTlbMcR6~p2i)O5~MlQk~J
zzA%5@bXvRr(}*j^vXB_tUxRXsP*N8x0-F?Q$`adY0-LqOWyzAR!-g%H%9aAZIFhCc
zO^w64#8zo~wV34FGbPas&Co1nq#Dl~=g3lhPo2D_L7iNN;GZ?j>*-K0NApiq%I`cw
zfflSH{O~FB*3fmiUIZZbg}DTw1rA%NIp$@A(6Fhy7%GegYs_sV{UA7FA5!q!9tLrX
zbc7BuK#RvZGzD70G%x{T$*1-*H+)=HF8}pfEpS@3R<ku5m~4dxvzOOSzVzbzCuz-Y
zF4bD=!9~xlU9xSbM%{p|x4fns__esFbFKAIH4NTmqg{I9!RH44A*kacZ?BU6<lznJ
zJ9TUuED~l}Oa-H9g-VNgPAdqD@oWU%`_zSiALbGdb(ScYN{h24)NPNMMv|ccz1bP4
zb2z>N1>hj7JE2|WO1hK2mhXty<PIE*PI`h|5j!ccQi+uc5_%J|D(|ivXqEsl!-|e{
zP47sn%D}%nyTHcHWTim%WP^kI&tZv>P3|b0$sra9v@NyRUQ7@z&-i7F24>UtUoOXZ
zyj-4P#}a)PE%5p~-Waj6f6;7F49vBUpQ8=hyhN>X0vvcDAxAV`x))WxrYdu`gi74;
zP`2pO+Da(%tfAC&m%XaW@~|U@^ke%_jG)+$qJ&};1rpF#L6noh@BoKdq;}J7tp$F2
zEZOb?Xa3x71oQb<L0l!#Fd3cvzI1r2ba+GSYo(qx-7oC#6%O^sr@DG~vNt|^LwQh`
z>J^^tS5Dknxbt4GGT$qfe^&D!>mTZoDCUkt3dxQ3_2It$RKN0EuX1YR?eF!eZ}q9W
zPd_TCne3wxk|}(weW>;I*ZX>j|L54_jGW0bBy*Vd)&hLsuox@5_=mY=I1K(pAg1Yi
zZm2hX!w<l4;GRS5?7)12tOy7v>nEW6FIh+bMb><PEBWZ81~>G8zLs!B?Z`~&C``0O
zAY<x^8VueMWOeU>Npe^ckWh_Dy_pc26H#6aNqe|_bY~;LMc7BRy??K-0q57I0j;(d
z&Qg~$GvGAyTb}Dv;2AP4h6{KF)cq%PG5?-`4_#F$=AUFYp*~*O>?sh{%pT4iMDG-e
zGKxbercog0LM?u7Alb6#<KY_+upBc`L!KoaZIAz(f=TEFSn2y9{)2<1USYaFaj1K&
z`$})3b|W2g@aM{r-q9EDRbKk?*q5*LDrbR-4@zSj+7H_3564e#P0aOPy|D2Xk`w3_
zi9+s$2S_+z=RRboKK>X9$!P}{!kIJGA-r&1)1ihDW(~vftTh{T-7r2_Gwmdjf=im=
z3oT5+?%51#a^S&>HB>H8*Y_Ah<}qwDLoP79sn`J&NUBg;f_F1J0_qopSLawUyvDh}
z-2QJMt`m4_`AFCQ{K9ALh=6*>+QunT%5wI>$Y><P3@2`A<c4)K8>P`w$>h{+|I=#M
z+M0MK%AhMt#tz)--0XmB^qELQmrjPJx(Bw3bG_&1w~F(3Pj409jB*&slhNt!>8;Yy
zsDNgXWb@lYs4WU)rrJL+-7ii4UO1T4hZ*V*?~l@`LG4QS#HX{LKMm+d8FWGI$=erh
zwj&KK9WIzChgzN#M<PtaD?AzkEye<2s20LP!?SJL2%13gIdiGOp<}ZU3^jaX;td90
zJ`9gtIFxvpIhS0%9P@A=_qXCtAtSzvd0)a29`Tbeph1Xti#P8mq>WDmZ_9IN;{6oU
zT0IqW<28oN#qR{a1|mucg78=+!puXW|3WJFN%cON{gKT7lo`44?!C;xtID6sX+g;T
JK~VC9e*+G}rk?-+

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/renderer.cpython-312.pyc b/entrypoints/__pycache__/renderer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5bcc90371a19b419f21beaab2ff9b6a911cba943
GIT binary patch
literal 15816
zcmd6OS#TRyx?VTX*Z~40!F_9Lp$LkER%@jfYO^KVl&&SuLN6eQZc30rfYS|1A_mHp
zJf4`!of}KJH6tl^QlrV8s>mg!;)hg<^N_@vmzh*v08=-_bmY36+)7pMLsHOC6MOuW
z??0y-04Zq3Q^`YG;=x(}bNZZr|4;wtK)@^DNlAZ^{N({b_<Jf?kHgHYx<x^_DJX&>
zri2OpD^7?g+fud}`-FW)nvg`Qx2GI4&Iu>WODWfkdjdn*IM0NK{dy<7_;sXwGyVxb
zYjdUoGYu0BEbmGMXF?N=Ebm6XX`-3sJ;;YAT3FtjYMp7DXq#!DXlG?#s$-^eqLbzQ
zsjivsiEdG_393^G+;6ytmD6JrUKW(#2Z9p1XX7>Z_>VBr!`d3r)}-3+*?ILuFRN`v
zZCLHC)b`Dbk(Pg;F5?lKVIMnm*l37P=~*qF$j+$Qa~UNf8XhH{jVDrZU8llWI-SYJ
zvnsVXjwRI;Wqhw^6g71?lb%kVMbUqBW=d7`Q(9(bHjA?NjCv_sDf!Q2-c!?7tIcRR
zt7c=ftZyuV5t+1_&gw?vY+TdTm=?ciHq!L|vGhC}p3JEl%I#zNd^+)ZGNEOr;@QNx
zO4}JUI;XWvPE9Awonb!}9QYB6Hw9IobDyxi30#=4E4B$qbttx+OQ8L>kD`wUSTW(M
zsg=xH$Anw;RQftAeZ8u$QtL8n-4p(rz8<sIs|FOG1$kOh{2xdY4fD20!0^AJrWIA=
z8=Bk6f9JG#HknDw*^HdXq_bKkC7;V&l=;r-a$Hl9SFvlV5*;_ZGx1BYl$t)9J!iCL
zwYhWxhh}YamYu*EqbaT^F@07|B;%<VuQa@gc;cKI)8nb^F(aH-agZ@ZWsS)kTY=%9
zq2tD3(RmwAP0h|}>4b@hY@4xx0-@gOkCEII^1^vmy*9aQ%iFGq^J3nn*xnly1WlYr
z4f24b`SarWT8QRQj1kUDYvEAovORCV+LpKF?e87I=%y^KfIW&mZ~JSTBIWH!9sj~%
zk<j~?_p}gk<_>%#o=O78RXLtk<a9=xK{=<&ll6CPQpOg?K^>|V9oJ}yxwiT}pU-WS
z6LF#!c}kVfYAWW?<m|b4TCN_>^SPm@d@7~Jbye2Yl$yxOaaqR_Qq-598=bn2B}F5W
z7RH1|fX4Gfz!7WBROiKO%&A8;Eu%#wLjtU6tsM<)1nZ*HzR7sLdTCpBW_H_ba&{ye
z*Fb(Fm*)2F-}l~Lbz3SqwQY7Dl%L*qA(fih22#}KXERAq<Ti~VC0=`W-sriYYRT#O
zSp7H84b>uW^bhtO!J_nkgyf2_(!Y7Rf3(;?T5$K4eEkJqq}1HD;_JWjXP@~7O3h))
zj(z6aT-v;2dGm|K%`X=G8&+C6ZpLoJ7Q7{2O95jBMi+CR4IF>e)Lm*GDl|t5O<T)?
zINVoi?zuiv=sRAvi;b^}t9E;HLs_r~8p>WFG*EDFUd0N8NYHS{VriUiEM|CPw8e8N
z%KKxn@65$hW{WEpQ!<HIjBmUhn_~oHF?Q07Ky)<GIcY6O3~4HpNolQ=wS%>4ZPenX
zqz}o*f+kbGmy#wcp+5R$B;OZ)BaN=~^j|q~-F{uU;a!sY%Qn%mzw8u-q6Mk**5Nyw
zZl73^M#?suV`tedY}s0nT5n0WvbTLp(ojiyb?xAiv}a{-q#(85+H@y;dn*Q(q*uyP
zvtwWp`-GogZ7iHR^Ph&EP@b=h7PW?l`cXm8>M2O04{Nw6@lf!~CdIBwN`;e7OAErZ
zs5m|dOgL4S;#9#mRd)vfFh1*1y)}8WWYs7xa8v5<r<!S};`u<TNV))^fn6xxAKU&!
zsEosd_cj1>LuD>rTbWS}()!rEZt!MjW!{j7q(bvk;{$4=>V>3kQX1|DEjBZ4BM4j~
zC?VBt=IEV*ChW!!923n8!X<Gc42Bdo{D;5{I030z{Fh)cUZPs6m6;rtr!$&7mrhP6
zRYgvwXXmmc1rn;RC(~yc7vrRgQq;@Fo;jz=7DTWa?Scw{f&cZP06Mr-mc)#n;k;32
zU}~knu$-ViS#@SMMa&axnu%w#m~)sdVP-CsO@e^pDRYV7drAt;3=(K2LyQjP6yC}b
z`%%_-oJ|d`k=5mM$+PE1QtAaYC6AptE^F#{=2RW^gC}Rz^w{wcJv$EoCr+Onk6<1E
zWowj=AHmzD6$Y+mCDY)+a~fVA%vhOc`v?)4Ow$t5`W)01@LF@vURCGOO@}_BC#RCB
zWHzbl2N=K+`EVvp%fs7WVtbE)ItgYzxlW5r<2>Yx$?Q2gn^`b(Q_k`}d_PCzvDw+w
z{Mwyl3pclumW7FQ&Q{FHU!jdu<(k)GIDkD#&cx5EI`)4~NoIy+HJgY=<csIjv>eAg
z$wYiArJ6uqkEhYs)E;UD4GBT6H^>*bV8oV~gHCCg3rU5rP=yfFN!j2!$&{MCsA3vA
zqEvhyZ%be*TdVO|$C*GfJSG~cTEY(6upY|O-|7oUekk4)vQ~?5&7K$j5~`a;f})TY
z^FpkmA3*L4u?nnt;bU<eGSH#VVc&_PC)3F+crp`*!+;7o+Jm2Jh2e?C7-_{~mXy50
zS@L%D%eB-}WYmK9CYp5O;a^@6o_GaM!!=jY-Tu(sS?V5KkRG}_N*x;(q`z!nY!vz|
zS8+3%rOz5poGvsdjrc&q)a;?!lX@=*-^1T3NsU(p5j?iK8Sjh#+I~@ti19b@#_V8-
zJFLM-B4ASSIOXY_F!*VVaLhkbql3$tsq@e~bQA9h+L?1nUFH^m98V-vhTeqh>mk!I
z<HeLY!uEJ&HL0YIzSHtsleH5~zVj9-6;Y0^QL-zdwe9a%E2+RCMwbQe;%l#2;FxyS
zBt}{;Jx^`#0r@28Iy22_mUrUmh&%~FJb6Gq&Dl>46>|o(t~0&OTNv>Uh8!X@gI=v>
z5O%J11m!UW8wHj`qs)n*pO3JEfikCnemI+W_UH<TH8a<TvThL^wGNnEpZEwc%`zcS
zBKv{3@iT3Rr(S7Ljh>ATbHp+&0Y>E}v#{8Eq~?^~V3xtUgJLgrlyTiPhkrokl_rL=
zeKJqA7B%09Cv}SvTf1IWeGkaTr%ido1ro3lhEX!jcp0Iux!hE8CJCOcUP{2ifyGpL
z-H%11c|4On4zZ@rK>bw}u2b7N%h(Bu)OI1!iQixWj7=B;E^$rL&ULO~7;D<zrLhf2
z{s-e52ZZ2;g1i6stE8O2@A8Nr+ccWP2$%@1GFw`MGo#8QXzH)WBf0>#@@lm_VjJII
z(C;>E$`o{qJ-bIBv|!nRanqa%u!C3!)C<l*Dsa|t6244}a^*R$gH#j?u61B$pkEDU
zjAd~UabgmTM&-$;$aj(s%c|y^FbSE5AyZtM(BWeg2_%IfVmgx^fi{wzj}j70WgvR#
z>@zrMoFai^t+I*8tWbF;kT+2S6I%pBCNzyel**G;?3$Fp7BxaZAWUWG*WyLw0(pvi
zLSsm#6R9~xt>T~gT3ADjzculkHK#K*p9QlWBwQvo3;w97ndu18cs34EN3T&?9D$=J
zo6!>IM)ddv>_iss7mUX2uuJFgGNcQd=U6@ZwMznUoZ$br{N&9vw3N4=<|@M`Q#o4W
zk$UHyr$xdV*0UC+Yfk!W@E(SC7TQ*2{UpOItKLNCrw*w;x+*GBrDmN_)uq5N7&wZv
zOin)qY%QZB&`&cv?KyA~OB-UWjra`bZ<e=!Gr0COObo`ZVxnhm^RszfO*b-T^&k??
z_FfWAzNhV@37NG_91U(e+gX)a%L!V5^*E6suDAMMkbG$S(Eco^Qaz`U?#o(!Klu6X
znVQ!7qGHPuT=ppTEZOAjfyHWHuua2h^nw4fl=WHlc`<9*zJld<)mro75#b|8!gf|j
z*xrHn`Le?%<fVMY(R9Q11HXi}%Z}4v+Gwe);H-EW^&)G#C`25&mtM=nIWIF+Z}ksy
zW)Sc?RL#Bk?aUnKlDe9eCr7~2N$DTq{lFf{F*`}5&+W!_7#TGjtjk)Jl-{2<rx|~%
zn{Z4&v_T=Y6jq_$mRC3Yd}WIX41cm7D|eo`>#Y+1&Et^n+pG<?j!O}1W~>}Tb);gq
zdft~T2lr($ODM-49G;aG&W9@5O2(Q`I|$Ds`8?J=HKPez*F80@q_eMkYFfz#S@%ra
zF9^ErgaD7Ec)n|0BZ`*QbD7%7ZdvzO?TUl>J_pc?tdez);<WbXYrugwmapiVbk&&`
zuSq_HJvs&KXTJqDFWz@mAlk0kuR36**%UW9x0z?vGfqx;w}r`uJuy3nD1-l^3X?vo
z$1>^EJY31~*;pzA=QQ~DKM)6CF4c(06duM0B8`TFNiRc6fjkUbGGn+7kqkV3(s0kt
zbKS-8OzqjtIi=xL)C<XkYIu`SM)YhPrnuoe!-SsUP_py0s^OXjtn99xhI@+TcI+{$
zka1@-@OY<n)vznc8N;PRO;>ZO(Zq#Bttg2&v=^~v!^uUe5#R)7s)20zjJN5;e;|dg
zaI4a2$2-Rr#vZNx;p{XwwuYOsUYvGKb{id~-Ad^%M4ttM&_VxSNMM#eYU#W=abx09
zsOhHnhWE$&mb*rZT_bnZMde}F;ib@#QcwS*o((^F`}W&+H!t;Uf8vr_8y1eim<{*d
zn*N#kuTnovJ#5~!==_iVpZgz$T5bkz1n8&XMuS-@yQJe{!(&0(4|l2rcd8(T$*0=d
zO<vihmVt$1rC`fPxof$<$lr>87VIl^^!=pwcJEzrsblE6v((meGj}8RSNS{N`K)cQ
z5E?AB4VHqN3&9=eSLokcknw+Cp=1Ab=cDfE;x`_4A6a<46znJjH<zOOt_N<VilMEg
zX1U;(nUx)JaTi0Fvpp-`!B0i&rlWE&^-22%^4jZEAu&zQ$<=!%{)oQ$*?pUGbiz7u
zF<G9Rv=siPr;jGr_eaj|Cj>}G^7|`7xj_hpmxFRKC@%+}`z-hzd8|W!wraPLW7>wD
zbca3t_m7qZ{5;(A%KxU{C&Plj_4>@u&OG!D{d#PCsrlrCo<&D7Jbd@fzYXvDw5Qm7
zvfw}Yo6z9ho~6*<LU3Qfz3=zGbqL{8B71=czTnt^q(!lWk8R`Qkrs`}S=&I#MoKnO
z!hF+Yp=jj%&`1nxU<iWtHYJ-WA^vF5L#+{~?WNYYC}A5+%s`{9(<mOJy@SLEn68$D
zno7lDAB)-!)aoQnUg9p7t<;s0!_@FDTE6^1cx($g+~q-dy&t<=j*Tm={bdJ!;Rg@P
zcQzH92YyG@<tD)yF59{t8_>|*cPD%&@zajmFWx=#$;OYrUF_Pk7+zF9-SzY2&-;p9
zuasTX&n-0els%O53f_i7gIx6V|JH}{s=WehlyYw2wD?W2w0qxgJ$+vb{;zfyyH1u}
z)Y&bx_uR_fIePoM#kQflXNqk*$_$8?CihVfKcBp?@wsBdb4Aad-v&@?E`i!#5rt#o
z39;0_`LSoSWB*E9cLiSAfeO5D|IpoyAI~j{_rF^hI#84kE-FR&P}xO|ZlMJp{~IUD
zG`8kNzwn{VD2Hu$0vld=0%mU23ASA8=4bBjZpEhBnWJAMH#xccRY`T4?rv5$?W{Qd
z{~x&hCjyFye}B5OpRaGdv!B;K)7d`}QUY+%v(SXnpn4VFpWODW4xxx3!nKWX={Ko<
zwgUvKwx@sEtu&%fGXn8$rMUv5+9#}rO}H)SVa?#5_A9Lz*McBJPt7XoL8y*vtH5%r
z1fd;4g;s=4a3V?vptaGd0b*}mh*db9YgXb_x&Wu01t&TXoai%}4#QWUQb}BM(_YoM
zTUR5;su7M;K%U2vDMlZgMeu8lCQs~yY4V4VS?A`JxSJQw-HQ4LS1+8uRadWqU~;Xi
zmoYO~Fxvo)^DBkc5nQ(p2x`)tsvcjBx^dQH%4WIN<J<N0YgYWezrsj;6A}p6Ck>Y0
z_g43v`G@WurA_<D_uF53>Bxfgx9)CET+FoEMKeC->!tnp9{yGrk$gzDjl?~^*KFsB
zDXx32)m67GMeLtQ*Ca(`!F1Ror-cREg0LV><7UGL?y5>&wLp$kl}mdyWPY9`z`7@I
z|EE}{V*f7A?nkzp_J8bf0RCR#2NLr}OSxZGJZ3y302irgoN&vL+!Ex@rC1NgA2W7i
zg>-7{>^I@zgHHmOWVsv3`~@aiK$0_nO|A?$_?e#%Dqd7Rt#W&bN6Ea<x7b6o;s!%J
znW6z!@Lom;ca9u<Y`Ilu2h%?*-gw#tl3#RotH+T1(9TaMFT4X){<3(@UhkBkGTW|6
z_XW!k`H^^26onsjO2Rz%-rFKJW@R(&a2$GaLoC5A2$(8M#9`Q?+YP^|`!QpU4`66a
z8j7h?Ua@pa&*)h-tzMedUdZjLgS~6)_o^0I8T8)>BpKshG7G&dxEj5W{X+jy@w&h4
z69SFP{=TBWuN3Nr(pK8?eAy)g<S$6)d+eoNzh{Ay@AdX0_TpfnZBA??Mhq7_OepTo
zvvKlQS>#xu3#j;U{XM;^EKkalvZ)V{PLV@^!@?Vj??l(U(h{woG>@<N`dft!gUkI#
zi~UDGRhEx^vv};AOa0&C7Yoe$1T724e<$HBpWrQb7Iq$fC?8o3puFIC(j>I@+<f=O
zyLa9!v}|1tZY{XC7J^&9(n;_6{#e6Ur}&^*9BY>zgdNCh`%(S0hn7?xM%gmx*u<Lp
z*zyNy`m&T?L(^yBVaVIA4(A=`D_#xEWInhaL-VeC5Fo<^n0j<=VW`DHD71Ffkrx#^
z=OTG{EdbNE4j_u)(sr2IP!8w;Z?M(!hRe=ptgm8*VkW=_2Wev*#F6`#6^i92%t9=t
zpPJJF3yqS$8X*wkBXi`}Wy(D{t4)5RN9D0>1=RnAmzm%(@A5k4Fm4E--U{kQoK<W$
zoN)8vnheu)xd}no3$uigEgMtuurXve+#HKl#RxE$yvYD`osN++Fq!Mcq)g|w{xLeJ
z@wxp^4AAc*`4cE&<<OA@_lmE*;M-L4hd(-b?PLjdN@z<lw51g8FKpbuxM%s`YsG`F
z!BS~#dSWM=&nx(Q(7!OafANja245^ScP*S;>D{p0yS>=Ez0|v{)Z9^a2z@(N1$&?O
z3&GyuT?jxW^)!AIycWC_c<3Hj3AQZ+%K@}-8hd|i=b;Ai!EW)8UwZIdJMw1KIF?j6
zlUNfvCK<|fiap4{GibYF%fq*pw^dz6Rhjo5%ovTgL(hO?L+peki`a4-c`&}_(iPlf
zJWNsv)e)<<!?PMO!$EVHkTWfsAIHVLrERg9`23U_qp*ABk`z>?+)$n4dq&?NxQ4zP
zP+=^(1^)(i9jd$F@5a@rpPjzj@i*^&=G#?jrka&td!ciCp#%SS6oNYo?wwricn_o3
zC|?zpw7tTT>TS{6c$v%6Wd{-Q)q@~^dbxE^9!#j-O+2V;wt7B4)Yefe?wKqM>_ez!
zA2>XT&0LT1NPl4FI-bG$>v{IfS+afE^S%i7^fLbZ#G<&W>DFipqi3zWj^VE93|D&@
ziZ-JUr+>Q21%J;P>2CH0uV7ciG(ua8N6?v7RRhDxIiC?SH37~eKm~>vdzwWgF*w&>
z569NbkK4t9{%_EiJLCPrmeIx6mIjU&-5VF2g^+xwf5q2T@NI!n+1b0?aj@8NuoRL@
zq1NS4e=*cw3JuicQMnafm{p&%v*8OE%5Yye!4yJ*zp3EsDRuNLckC&4?7@hdK^#D&
z7>ZOX*8zYGW|7hIW`O*%+=TQirggtR=04OaKJbc%nxqH5QRIK&5)Xx?U$}jg4~s|*
ziNf>jejeZ9R=jM26glgm{P*y;`mG8j0MC(M|J*YxKnr!nbUhlly65ZnttYN=sm*Q)
zRxJd7ZpB|-U0r2e5W`oR5m<nqHZQFa$YL!;U3R6zRxiZ?(e1oPY!eS?Z(UEUz8>AV
z&ex?ba01bS#RU3ZP|PMK)Lpra%soW+Y1xGd9(7>a;5jXm&dlkldE8bGC>gjjFT!3-
zAl7*d?q9k(c?MjTehqJxC$lq+xQuX&u8ps=^0@P_frqgHi^VJrJ9-)p2Ht3~2$9i|
zZVFq&!`4NV8*y_{{pXmM;}7!&(lR(bPt$^2W~5vvmSzfRQ%ZjqHFc%5HM2>`oM8Y<
z_Y*PxTa4mTx=HBjTkhOd?A*1~`5c6zo2lMCMSst-f4Jx$F8KE`iA;pJ9NJzCZC?)U
zE{1l068ltr7<z4`x$WkG8wdVsbm0i7mr0FZcW=FWq;T|`54*p$-1@C+FaM@{D<G6M
zK3D4MD|PL7;&JqVa2;(83on~q$w)C6Dfye1{WR^Z+}#78WFhWDUN|N_-g2|h_HFUY
zvV;*9MGhYt5+6jxLj%%-ZDHhpVHXb#O23dcQhrcG%C5cEr@()QcejkHdK5^CrbP{x
z;R7P6q(y+Eb)-^-DqMM2UG=yUe0vJ(iN5Qp&QKDdJUbDQGU<ikcn8C8d+xwVc4rXx
zwdcvmq-#|S+1d3g^A@5!HJ3~wuE&)LE7Tsv9W{;V4^?52$5x>B5`Hw|P87;u!QT(5
z!9>mK7>1g}+W4hn8m$q2)<Mf0s&m`_sAO0t$0i6jXE4;l&6bYk@b+SO`zIZR(KnXD
zrx!dcjV%k#U;Fw>r10%6_U>Kk-M?_M)HSr+wWHXz<CDlz*XVM~=)$p;VDoa2VODEj
zsjZ*>Lof6Qp`lg5LAd1rZaIY3=f7fc;`a}Zb%_679BY&QLnm@;EOI({`dh^(Gtd6K
z0O7K$T+ge^xY?%!ru70?mFLPcqQyXuS^;AAzv8b3GvT!|1;}MFy|;e<x{S4ETwc7=
zSsx<EpzaFtHZlyTHCA~C(te@QZhsj;VDh;z*TPdC6@FJoKZm;kaE!pc63uNNH&tG8
z-pTO`aGFs3n0an$7&v&CdEFS+4`Ceh{;>cHcdSv^Rr@{?OHr<L(&^wVMVTRaZc9D1
zti#^FL)iGwFdUx>KriWx7CWO0!IH1DK%WO}psxYK?Kj77j4yafzTihMTzdgu1R$<b
z=sCI6bgJM#wc-md`!*F}s`!Q<_3rs(eyMlt8aGu4bC-J$7JCma9$)G`1`H1N7J>th
zHXK;ozqH}#^<Zi5vFp-uh*XxlNOqU{qU7l7rhe{Tu5S|oCTfjx5)TYfuOmZ-$<;_b
zeLHVsk=w2;^<|F&uJhM0sq6Jdy}kB3mRiRi<iCZ2knu3&?RkgdU<e|iglh?kla*k4
zM_jp0hdE|gK}f~CF2jVj`H5CEw}oE^rH_8L;96+>QgUW)hFv#;__8k4;bs)Rcj00+
zD!&3@j*H8~@_c4avu<t6=Wx#`_kwx#!0Kv#`~n=rB~o_V)4aJtmn?DjldB9fxZO^d
zo1@STE@O+hFs2O$hFzqJZc2y*fRfDGuJTF7BB`%wV_S0HjOvj9=O#9>+1y|~bTsv6
zzGzcz_&(ty%?%3;>TWBr?PrO*k-tfQf=^J!D4^H0e{pEB8y}z?6GtA6fNS1+w=g`4
z^7DtpG7RWL_!32;fFI0gxS=|>E*^i_erzGYKV~Tn?Ou5O7KHwmlCP0;>49OC2aEoV
zrC@i#@-5Sa!iab*Vjo9DuXBAwk1$XpgT|1QWFo6E!env1L27xMlFgKmYm04P-54H8
zBqL<rufnOHVwagUvNyCXl#tq^k&s~|t<gqmla$1f)JFFbR7uG%so^XbFrs_Va)zRi
zB#(U_$5D|5_b3Am#*FTjU99XD`ZnGfE$ld6*m%6yd!poRcx)H@g1_^y*4B2%Foyi`
zxF7Z7aX-pc<9@3?Dj%o@`eaA@*8pe+`lxfgKp)lfKp*AS2l`e6RC`49ICjBSx|O)y
zQMOZl^u<p%{rm*WuXq9riEACJ4%C-hdmI~9S_cY|gT>Z^Wd}-FA)<&b%DIL9O?Q-^
zddnUv;l;XFeUy8l&*5EZXe>MMi|%GH5TQwL%@8Vig`WO9yKlcrK}j#xYW74h(hJ=X
z;DVGJ7lo0Xj{_|L+T3=_eq(>xfqV^MDpl7)C9eg_M<qX<<C)v<l?jFkm~zo3M_*y!
zg;fE+<*2Y>0P#-TQF!bNJ9;WpAzw2Um8#)QDq*j~^sQ8xM$vwEe-S{AvuMJ+h^&!L
zqrHN}u*ato8u48g=r(+nuU%DLBUX;P9rLsBF7hz;3F>%^s&Vr~iKnyp^wdQ~AG_Jk
zEe;kzH$v<0x@%;`@whnMdeTTHXk=$GvNIZM`y)(&&veM#(wGCipEcsc+_X;d4tx?4
zo69CsdXzCF64so^TUkHe#Em1C=VZ@Fd@I3ZL>Qr*ObLB_X1GWB=WZ`({~Se<BKj;6
zd@v`9t8PII{#U{Ccf!Wch5pZl?!OmM^nWgN{&%W*@pIuI(!UdqeJ&h8{;^ZA`L1tz
xD7JlJ8x#l10uscsZS7?$KKX_?W)t^c-}OYG-zTp~Z`j42Tiw4C=$EbN{{a3HoXh|K

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/responses_utils.cpython-312.pyc b/entrypoints/__pycache__/responses_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b4e4220b871ce59a5961bdf6b1d75cb1f5992f59
GIT binary patch
literal 2616
zcmahLTWAzl^v+{nlg&P29-C;)y2j9@$*!-W5h>Vc)tZMiQgopV<IYVoI<vFfxtkh|
z;730y6;voB(t;KWtt20Q^`l???~hMhrY#7yAN?sSNfG+hb7pteO{?_6-h1wO&w1Vb
zsl8nxuuS=L<A(?#zv0DSfd;Vl1prG#C%Rw~ODG7ISP(6#API;QP1y<*f*vfHAuC)6
zd$4RqETy1$aKLP{qJ^jj2hDaXR)|^gLLBZP8rQ=#HY4kiPvt^FS7?$dy<iWp9dr{y
zKx+e9ryiwUfbD{NJKVb$V%hi~=weoKw~x(fe9X4WCgp}*I^;Np!?hBhppK)>(vup~
zEH|@}sX;qs+vb>NnsuJ78+nk}sv|47;rA=0A{qfW^&xf2cFCbW&Q}IB8DTtWY2L|-
zZr?`Dty<k4U(fMUxx%L^9QNa!TCQy19%PhPSg9!B*ESZWO@iOrFkqJmZ_*YC7k#Fc
z2E@j=pG-(15Bc;(axUz{uTI|P!$6Pv@T(KBu~#=AS`~e3y0j{<pl`5dh1GzMpC%xg
ztm9jEJ-E{FUJsprix4)<H~Dlu{05nbFY^Yv;?q~#d|%N1G|5IM-H7HF2qZ=>X%+<(
zo2^*1#2q(0<7ZfMMMGyD;EXHtg)&8MW}DPiI3!msLfJU16Um*vjE7WhFNGikY;Le|
z3n9O1=vj$%p-iY~mpE8-qfKo{Rb0hzj1tywkuuB`!(cKQw>}h1_~nLmi)F?VNW;*&
z(k$f+lbsb9=FY*;rvE;g=T<piHp(L$K9us23zdDN`_J#AdDA$XFE8*pyOf_dO)C!$
zv4yg2KqT_4QQnSP;fCqt$_wreaN6OlQsin8dQP?K9j1O_@Hw^l9c&v|?MCxAVY@=s
zgCyK>WAJfm=i|_>=keXu<d)}&-PNAWON%!bf9W5o_HVm==GK{NX6W18*SYn8w6(hy
zCVhkJ?V)5xO^T#q>w#!OsgY<zsr3;hc0F}9bz|sJr1yURo`;b=&*LN2WKXp-wRG&}
zvE|c`I)|#g{kK!MQg^bCdWY9TGRn#ztB`2o%84~_insxE*V)ij7-O%i{sf@4t5#3~
z)@5Ol93~%AfW$@dT(i^aRNQsJtKm_gqPBl69`q5f>%4hL*R}kjaIV>bJ~tt+*XLKc
zK(3v5qugt}Y>}Il$)W&#Azs|4q+uPoz?oL$PMXirG=?aRrSGI?m~DBuS!14-Jc^U^
zBwWcVma{=ua-jCSc8EHZ%~PhD+F5Eccvy(L{iE^m3H9j7Q|i?8v^sre`qYsL_0-hV
zxH>U*QXN0^-jVTXSJHHBkL@T>?=jCdO98^c#DIS+jnocWce7q|b*{I8up54k1{)Mz
zm~0vN@|`Om{G90eOs=-Yua90GT@E~K>xbG(bUuxzAH>t&9DX`D{$OzYVSK!r=v#{2
zj4ku013MoK?0k~g^(@+bee&w$^4{B{w?>~tchr(3*<I@((eC?l7t4SZ&$A6BgkE|j
zgxv?PCKQY=ekDSHrHkKt;Tp3`5F4J>(le&U>mhcEbJWrfcyvs{r3`*j=0G~*50=bu
zI)jr6ak*R$uR3*#%qZhy)PgPJV@Ek<4j?Z9>*dRyTIgu|{|q#ZZIJXPU{>@}>%n(%
zx_CM9rb|5|!!Q}}yXqNvH9EMh7Mm}#qt4jO(m2aObjIN4V7*)+wFF6ShW>pKkfOmF
zkpe+4yp!1;H))q?Ni%X@j&nG4TIL~6I(PIx93ESX+2)vPPAJt26T^07TTw~(1|?1R
zy#efQemyaV>KHzuu8hO8Ug>EBb1ic;*N`qVo7+W@z{i_mk9%{{l}-4!!iG?d1OUT2
zc4gft*2Ba`kkhNSG*ZF`EnBac^j)?eu9yL57Pgus2*S&-EQl`%Y=0>tY(XL%{FMy<
zPP$%-k|5Tiy+Wd@Y^zCdJ_`)21>mghj|tt&`klSE&eaHj-%a1!bocZcg0+ky1n==0
Nf#XMc9S_fue*peXj5z=R

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/score_utils.cpython-312.pyc b/entrypoints/__pycache__/score_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8dbced7985487b6b01e1aaf1ff615932ba93a496
GIT binary patch
literal 8667
zcmbtZTWlNGnVunscT%FL8+G-_k}T5~%94}#5+_+(vK^(do5XU`Wz%ID&d8$8i+pC7
zSXy$S1X)0Cf~`;#h?=HYJroOdod++_-TE<)1@>haW-DgkU{$R9&^HEh5MZD7`_J$u
zS6M8u1M<v&&iT)OZvTD$JrM8;c+%1bsn3Q5;lHR-f7)umZrCOW9|_k5MNq`FkP%~I
z#ul?>>@mAYZML+Oal{-Pwx^vLSIm`h$K1Rwr9ByM%*$a%+L!Ui{Fy*3kZFsxW!huy
znP4oK>4<e?La`9Xai%*nU9m0>yVBj6o>&iu-Ra&;I2PuxC*7CnkM(odn;ysv#s)J(
zv7yXxY*-Z3HZ`!~5`@?R)uzgd?;JK^6D|vi|9wFTsBWe0)AoCkwX@iW5>$uOVZv8B
z)Prh&A3Bs!1L~|p3vQ+BeJM7obfaaAu<$-WZ$7qXzt#mw>BX3Fj2Tl8)bQ$1SoLD=
zL8VhYgx)bVtn?Aaf}LnCc$I#PoKOZDBL`JKa64*PPGt!FhZUkStd1!M@b6T|uu2*2
z5#Bzcb}5}o--1&)h_)lVjb<EGkAkYWVB>q;Z*A6^x-5(ZzcPmL$CPpG@i-sTsUFAP
z4xu%=+!vYnGgd4_?56#EcG>jIFE6R*)2W1JO38$#M?^C?lhaaJ^;#;EN+(!KUyj&J
z_iO6ye2S@xH9(n7B?;AcC8wzAnOt@ubtB?3`z|Cj^-4air_i2A&*^Gro+XmERAxqI
z78CkRF0+(Y^;9m4A-bB?Ur8{1E|a*SUd+6uDjKSZj5+$hqgqG@zY}R*y+d?CsC)mV
z_~R|Jn{s?9!8A3V#QNeHRnxGVc+y%Pb<sBc^SN7UR(pkE{Z#MO@=HrOrfYF6nPX}k
z`&>#VbQN8p=A5$$JyAQSu2*uobSis;PEpnL@8|WUypAjI;|e(K)C$h1^A)Dzym0nP
zv$1!d#!I*;v-=v&-Le(F=_Fll{jt}8-NOJr5>z23DniT##URG)s-!wpCou^9RhMET
z(Ob4hB(sZ?ZtjFrPTUg(!7JlAFKbI`GL=YU)ryQWN@P@BWwH)dk{5DJrc=Rg<qWYx
zhFC$aov4=+m|s+7rY5vpR+HaZT$Ytwc0xx>UQ^{C&*U{dm)U#0SFC&C>-e#(fDw~=
zdig9THWiima%DZC-O_5bvMN@lW10z;ORE#|LP||5@?lKCCKH;L()2`DpVXE$TwMf+
z34KDt0xTYvQ(2kV0gJBltH!6Aj>>b{WIC_V<_P0BKZu1?(wYFf$>lK*HoHK3q3JX^
z@m4Oc(_&IgUdpqj9C|QA?T|R(lTmqoF{R1)CFBgQ6~~ywXa$Hk*@Z+><%^Va+4Qok
z-XR)vbbQ&gS75drJf~^8YG-~m;x^s!cow%5kDK0j95<3r6YP)2Z|4)~T8}FpS8~aC
zoI$S%rj*7Zu`q${@pvMe&FKk}TrD2|jj)Sm;lF1l^~}=bQfleAo?tgr{rH{ysWYc<
zol+;$skbJVmi5J4cJl3XIx`7TXUj`DY(|@;eXH@jo=R)crDfI+O1u~Wpbeq;d*N%F
z%i*qugtne_#TYnI>X|A9rpwZFMH*qFb^J?^HiwQ?rA?1c^2ue$rIIFzPnk7f+H^8i
z&$Dc@E({nikPW5!?iP6ZBSA-LJ&Jg*1{du&grcN3Mis<@?H=qZJ+s1({#6j(M6Kv3
zI&DJ1UU1y3*(eLcDsMVlYZhE^{$DZcvlU%fiCg#7X%%3>72#fOWp~7)=Uscjb3-h;
zu?p@T)G=!_x>o>T-hKM0r|2z6Hv@aeP)%>Iw}Ec34maPw6cjtC?%VS#d%;!kVqB<+
zUxzSepH^ClB7N$(=dkeV_aF)%{!S7K(lsICyvpbTO#f0siSsLurxa6+&qo}lmxLFp
zm0DboH|ST*3@&kv-N4n%j%+>?PbQL!;1NziGu;cRY)V5z#LMWuO#4b|iA4#L6sU01
z1=ddJI%AX6=1eRtsab_}p~8++aRNoe#|{xZK?P}B)5-aq)!v%v0AqqJ`D@zrE+taT
zvL2=j+aZm@j`DHVvNRtmq-<*s8>7w;EEC!0xYjVv>^XGM%Cv11tHNWi&^El0C<o-#
zOO?pc)k}}U0~?n&-}poL_+9^+V=ez>_rS)*f4uUGE8Bz7(qQzy<9C6732dLZP&#p;
z+A-3fKAxgHLVZq9A}-2=TmIBWQ4*IqV!uU2|T*RyMvcRG5uJ0?mU6I&>z?qA$~
z>ZKBX9WSjpcie414crYp^vjju(e2@AX*g;OO>W)3-@QF`zBF~-IB~%kn5l#hRz@Z&
z2Pd`<o+%wX^Wft4xoai-4qmJD4L$Zb18v{f-5zhXQ|OCU4+;Lz>J={arjxD%XK1~r
zlQn6?wk>Jq68$kMtrA@j>YP-xHRZg}BIgC0BHo(Cy#))lg8kMhK)$BjE4KRh_n-k3
z`z_q=o_?vN-@Z@3quIYqJp5-;Fe}IAvS3j;t!8iNiyADYrps@svYLXOVDi-2sbeUv
z$}px^&suE1GI5^pVftYOU=HBs$ZA^6K({uA-$=c!W>=2=1tJ_77@vKy;oRA=3e)>~
zBAr(+GL~Zzi9L@svKLU84s;UV(ra2HB}W`-v15PyZ8!nA6)+^%>M7b(9H<(*1k5Y=
zYcUjHOScdRt~)>Y-s;7N{&ox4arxJ7zqh=8eM9}(-#ly!8-16{Z7&+`7b`CRy7=A-
zZ@N%!n=#xotxYwos$Fo0EY9%5q^W6g+u(>^P0}js55b%<{tdt$#=vDaRBWrFhq7t3
zJDQ9D1JG=DDx%()MX`bko8D0OaJTL6OGOt<gR9VBfTEk%oppvNdJ67>2g<jh+UtuJ
zgnKn`!4AbIU1bBPvj~c0!&ad}y0R1hT?NHQLP2;}ZsBo3Z%9aeLoBG*^egmxqZcw#
zgRcoXS%3a0VnKk8xBbdqU+{Zk#C~<<$oI(!fpfsUAj?xG&!y%RtI9F?EwJ{DoGzPU
z6z-%q1)W76S5h_Y7{_P{Yz9R{<QvmyPc@$Mf_d_A5P-Kb2Hz5{xy4%~{LypiTr!c?
zo{u)M7BN<P3dO2W@r4ZE@UPEq-T1Bc#ptsSJ9|H|Z@f|N95?*qk3xgSfw|vL{Jzh4
z?V2$(Uk+V2{MR}AL>!DlXS1so3Rv^iyeCFhkiAU(zC=15&t&4X5*UkyjIhguLi*qI
zqFb+pJf0c_NKXTtW+W4)yJncC8ql;x)|o`hdMp78K6wD_I<VfvU(2C@Sowv}#Af0C
zUza;xSbgbHaBTDStynpDdUdW9u1b>Qb@7vzx1K5uPF4k~{B~xSzrXei!Tya%xqWQ)
z#V_0YYS50abNvS!E87R2E**HfeBhMfJ7q|xEZ^%SCT6do*rR{lXy9VDg1g)!W-WYH
z=Q0*(av^cqrwz}lC=|q-4Gsj&+EW(?=<tTH6a>=8iv3fmo*yXM3w8#vzJ{KgWI&&I
z8dM~`;qO4GYZ9e6NcU^eW?$0-(mU#;Ag&~FPds(Xby`opE!waf-SvS=Lk+wq{{QDu
zTolAXRk*L35}5|5b&29J_6FK7q2_&uC6?j};&#mp@u&i}<ZUizkYkOV2j0pdF4|;X
zc<6TAirrEOlJ*EVcf;WFd=F!|XfQfXGmu132V20ImN9Y+%^nB@V&kN`m`f`vTpm5g
z5Mi?m)G1}LQd0tb_(?D&aNsPp;9w0dGd)Cs^Z+wGmN+n=aTy>z!o`J43%iOcFLVIf
zZ&7f&;|{HlePaK@HTbZ7>i*lG&3@57w<hfb`?rIKOTokC;1Lp*6BW0=;_j$)hARW|
zV~?Z5xjOfCn}C+~u;C8x3?14Ydag9|TzTjPL+XF*6g+;zf3WNx-Msy|`|v|w+lTtk
zXN|te?Y?J9eb1EpPM5pRl-tjiea}9){kiY29+7oBUv9f#xGy~Nwf|f)x{q#mPnWu<
z%iT|vgHM-z&)mOV@|`iHGnSNHqrJ?d*b}!%Xy8)zPXInb7>`^Y@_R+(^<Y};ExwM_
zl&~g;vk`FbKGM}1+Y}uI$EvR>WlD?oFF0Ty8uF(|1!2FK;+Mj&T70I6!*XAKBbos?
z(iD7>rA})rqnA~9FvzIDn2`4Xm&Qt?$O~}W5e5TsMZOMmz>_Tqae0%RV97<WOcGI@
zdRC4&O_^fMs6|-4qbBp<v062qOMvT`LZ?YVhZ&+ZSPH&A9cMYy-%2*(v~+so7B~gd
z!RIi23wam<ONDD>^IKJR7vh8T@{?2C1lG^+*M5XzRrtm)I9~Xpzi;DM**~#*@u6#Y
zBmaeKywWqU-4iYKM7Qod2$y><tobUw9$2)8uw6qJ%Apy<KT~P%H{AV?yj@1`sR#b;
z)326JziOO%&FH>X_Rbs9yyXx%t<~*O(Zo2MdB`JcVICW29$O3Z*jt#Vas4b*u<y@2
zb!8_adqnx8m4cT}<P{_?axAmwzM2V>Od^|F$|Gw=IR$vMJX^#4N7;&iqE@cxYED<J
zL=VwyWJ$8fj2!2RMb1IXaWYXpEmuw~i9KG0Bdg-wa{Zmioal6QNo1625g@R*0l(Ei
z<t_!u8ck{GmJD@L@oW6GV<>QoJ^SCHJFx8@DY-{B5B-NbLSE`2>ry)T#!@SMvGH5)
zAZel{8}1lL5-;%^y7QzFwHF|42wG@Sc-{mSr5=hdt^$zWFCu*p72s~UMNiX}D|qU6
z#Cn?o42q6|vz|yOdNE!sco)PJ%;&Gge-Mkl?6doeIFkui@z8k1{)w%Q598f1tkz1Y
zEcg_O%u{_0MQ^s9MpDRc&8m15N5PvyfMw0wG>G-FpEk^8(O>Z0Y?x!BZ#{~uP9G_e
zz`Kq@px{?rl+)B31{*u}*PRd%zB#a5z;Y87(iQ#%8%(IzQdpdYA~tS7kzs<R;!%|8
zv4WhGqVX=cusko&#xFNcHWxVv<Q}*MC3TlbbB~c7#3XPV$%A`>Eg7i?Gk}C2rl=(*
z5ap^#s6a+rHSJJaoc$tgO>dKBiB!`KZD=dgRr69U&L?(eDLzHb@8nz1%mAWK$|hK?
zi~&U>Png)g`P5v|rsAxj)AdnMrGfPz4UgM|(UTQ-8~=5|mhO5Sqt23aVD-hd#SPbY
zsJw?gN4CyA2!D3E-1G99@5}JW=Fw94qA@j#@@}Bw>E8B?e(o9lV|b)0*!sMcj=s$w
zd~GLaYL>s(0#&EbD{uE4D)k)NEZ+ZNY2rLo=UpE)AJ`0+dLo=|Dg4sr-x}eUjA!Nm
zt_2=-$@h<c<||FV{6*K5)hj#w6WjeqOZ`WUW9Q2K&l&FL*4hl$OO+$1*8&D;yC)t=
zy&L|`%ooyAJ1%tfSB{;euEQmF1X_9{VED!jY232jbdq}lHIiE{+5Ze+uX|kQ+M=k4
zaBm5VKTSzSx)F{kPdD0&QbAH|JP8qmwAybWaD!Xf&>~1u*4$a7D-eZpOgG1z1tuKi
zqWIxq-h;X(ei+?<EK+VFMV>43UgCt;cn(#D_Dqq&mU9bSUoWH>(h*aXrl4dy0)J#P
z>YbE8=7UoUGP1`=Q0KFXrK4Bo=P6@reKCNvz(yeVaR*-&bjsW3C>4^BHA?9rXe5I8
zK9bWwBAw2?1C+OxpXi6rs#%(!9NCE7axgtA@_l3-)Vg0uH)DGEy5kswG%;iGjCR8m
zQ>LpfynFphvzNXD!0D_RjE0P}cR_3if9*C3NPt)9=vu#84vwzQRVC4L61v~vN9Lnf
z-fa6r&*WY2nz(ifLF#(qC+9Ziw#1LGz_KGi4N-tv33P3UKY4Q_wKei_rV{SEJBOC_
z+aLU}1*aMidQVh?g1_64x;U#vCQT=nP3c4897c@B<7?9mFDSVf&1S8vW`~6phaN-h
zOh%XI`56UnrjL72R{DgIgJ%x#mX^GIl)iUZX?sSYD)Uj{r-D>IkD#qsnfv_~MN7|E
zDs22ay)-S__{yPKURsZZ+xUD01WM>KQskzech+*eJP&J*@FoP_S&du{e08aPV5nJK
zTrve-tcQwTD(J%o8=<0~3YiMZq*~$3B|!MNkjK|bOJDQQg0wVO!bl7wj$)($O*_`k
z8G-9}OZ>;E!+j3AAKzJ?XFo-igi`B*uvYD&D1Pe{#KWHp6MquM|5KRylQ8<N%`Mu#
z6;OOl#Wx{A9REs~`$~BFE8+OJHi_C%RNDl{VdKcPl5`EcCHAZ@?+P~2_Sowa4{n^<
zy7-L%pgK4phAQm`jq!7(_H$J`YCC}rBXp<~n5a5XgJx_C)#@&)y9KA$@D7(82X;MF
zKj#<c#EL(--g$R!Lo$Y@OW~6xKiHYtcmAS%*Fo*o;coGC#oum(CQAN^svWhRM$Lg5
zrtKWAx(IR$!NIDBAg|!`t({!A8{HFIW2Nq>;ft0Wle<3ZJ24=ht#|`QaJ=Llr+u8=
z2}WoKXF<vtTAwXB!n@eO+3LA=@w!+E4OQ&~?6h@M9RvWaJydmZ5PS6OdN?@NE*_~N
zAKCGT3HJz5^zH)nNOf#NJjA>4-f17GI`Bq!|L{g~^W?_jFR%w{p@e2_uO6y<n{^-6
m{npO>hHtRs7}^a`+q@VOySHZVcm8IsDgb;i`j}pvYyJm7PNDMv

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/ssl.cpython-312.pyc b/entrypoints/__pycache__/ssl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9e45a1d4ed88efc79d0d8dd81f04e7daa7fca913
GIT binary patch
literal 4121
zcmb^!TWlN0aqr2;ogS7cKVj+gvO_td?D!?AbR0jDIJV1=*nu6Q7JI%sN|cX}?wu@?
zr3xc8S}PH1D?lT+Kb4ENj^P${fdVy(e%MBV2I!BJ$Pjx~iWF(l_K%KIxJiFHyT_Mp
z21$!9$=TW2-I?8)*_q+*8yfrwn#sSBxC+>ZWKeE=30ctrnMFF%852cG&zek<jj{~E
zIg?BBQJ&(wDI~?HnDj(FbS#+Oq%Z1Y5Q_|-;lIha9HSD8UPQWh5$T?rY>6gknV|O{
zWDp55j`yHyn(7(T0Nj84__2fOlx>{1gRCPS992^zh9jyIs;!N}yp%{K?3kGz88NWt
za&w_n8myRr%pwCt868Dgor!WjL_WH#a|W;ThM==K4??<7!NdyY(b>3P_g)mDqV6+1
zhSv~ASfH`%fvZktdEI}JkNWfmU4q`9WrK}QGdZ+@?U#)>Hmp$t=T7cdG*h)K#U52{
zC7Fgpr?I8LIz@wpiFiU&Z9|DCOv6&tl<rrcVZ%(TI@x0+m5EU!MX;=*Q5}Tnl87T&
zmKoDr4LRPkMmCmF?NP@^*t)1kQ(Z*FhCPl`nov>==|uQ(@LTy4*yr1zs5~=;Vq}K4
zJPV_e<q*nqFe=#$Mm&tjUfOiV_EvD#rk+K{I;W$!cnQTBoxdng3Oa&aL@I4lXsp7o
zOhX7C1A5s5t7L?qvzyApvF0*X?P1sI>Zpv>mr-BB2%8tmURn0o+Vg&aTMBSXk>0YR
z1CUj@arsnm%iaIuZR+qEVe(>~b5~A~MOhRSBaY}gkK-erM!f<z!ilt6BM`+CHLm;?
zz;~HhWJB+^v5L9N6fiJTRuqG#*t%wufnMj(7JCG}#=u;~ajIO$%I~*IBHZh6sV}pv
z42E2sjpW*2rjIF+8hPT;fl3mopy-Hh6mj@ODxStfK9&JE9K0~6i9E#^eN=S)4Gt3r
z#H+{(-ZIR%MRcPm7e4(`zn#qVXA+q{Tg4-W-FJR`&)~q>Jx0HoIMbiW+N0@I|2fl4
z_8Tc1XEW(U%C`DJNGOwaTE{awM1mN7)#M3NX}N*NBT6V1qmeHb3Y%$7HLYhub$52a
zp{#uX{&fK@%Pp6WP92?JH@GMd6;`jE-TUU=xf9oie>glZ@0ee`qaZh5K0I}JN$y^d
zyUE10;aewub@~^l@5={QfW@P3Las~Q<Sjt{A8t}{hdM?c^AY)vw$CtpDO!~czv)rK
zAA~?$4Y*cNz~l}%KtKZltpJ=>YVC6dPQ<g2Tp%_l(kTnCg}JhsG06Z<L#@))+_wMH
zOlm*j_zZwr^Xyra2Z(vXZ-(dP_AB9vU3wSf-nV!DJbWX3Umn04VOvn52d;XndkGTZ
z!EbHstfq;w>Q1(5opn5_l}%}hv?FQQAl^o)a?D*zlaRBjW}`|M1U+~i@WmvkJT7np
zp|t_9Ad{l6lI#Wfi>k<5_SD?^&(sc4zx5#iP(!g11==t1)84{51-gd9`cCK?3v1h;
zlZztfJH-5Sa}kmLH^<%n&WV50anX;upSr{^dX<9Ibb0UVd#|4O!SMHom$!tLwhS$7
z87edfmYO>jnmY=u>t|2ToSr*$J#sBFAJ{R!>&Obnu4-A~_@^2#9a@yTi;bLb@JCe6
z;4i6|!P`{IAPDK)OoX%%A>r4<%RNso^$aZZ3{=?9?Ytho7M=^;>U*#GIbggQc;1&g
ziyV^IQM)-@d_1MqMpL4<Z^Cb-8yxs3VjvZNUfj(y)hK6Il6s!`4tfUdfI{u-!2d07
zmiv|<ph>8D^4uYG8a(bR5bY=VN#S$&b9ugAyoCf=IyWip@@$^3rc4G+Z|BkUzCCDq
zs0&pKf^LMBNwG#=o#?Lf)fC2{SK<7V;y1);!|f-S33Q%&6-_X^QI`D~H^BsjT<|2R
z0+r;rX(uwKTRthI{DB&Zc=#wzr_$q=nGNN-9{0U!5k~!eNa?X6xlJ!XS}YY<if-73
zW*a)0Qu+Yo_C3KQuEGXgvDLFAv#1)06AF9@&vK!rJdbf26D~oqCfblF=kO^tX*j;;
z&ud18>~#c#EG|7YN1&I%o5@m-o4T!<yu%puxw)^+eQvl5*5)=ne$Y_u+a7`?))auh
zllS%)Z{uZYN}3N0-rlw7-M_r4Ywnfr4L?L)U(1y(Mb^{M^2gw|g+R}h7p}gv9M~{>
zbmr*1vhU8C-)+3R@twqC;M5-iYp;rPzWagR2LkHdUKC*GCm;J!VADs4YiL<+UNbAt
z$c4Zw^CwR|B#-O?0`Tu52a}&ZkWkyxpIC?CG_SQEXlAbQ2O8NQGy4_sCmdim7@*zU
zxxbUW+fLBC3Io);oxTH-aChsP1EO$`5rBSA6o7J1BDhw{0KgJ~hnDKwUjqWwEgB=#
z#~SXaPp?<*+$`;d|2Ry(wo<NNv33III+g4f;9M!mvJCt?VsnAxb~>Zbs7!o~dTl5Y
z<gfxKg2GNsX@-frVGv|!ptgt}N<o;nU~{hZ3AZ5R7h#$8WdIk@2U63L)b*~^1u4fZ
z1D52i3-Z=Qxv#KgD~*c~^OmHJccl)xq;o;;T#|zea&S@JTIdP7VNO7Dr<<O*NF)+u
zX^j~PN)F@#;_$JU<B!FXX?+}u(3m5~VqY6q&C-k~7Sq#OEQX2Na617#1dyPENtB~5
zj<*4J15qh7&tOs^P(c17SUCU}(F2whypT|o?gD(<Iv+^gLgNRm?L`6lqKH<nxysM<
z7CmI-Mc~JQnW3VOjQpsj^@=^Sp-6TVW#n&MX&~4!MiN@yK6UHdZR=L@&WZWmFD>*P
zDIy@gW3Q0z;|(66*F6?FQLq7bK<6}RY14#oLh6W+dPZ}vLy8T0PsdLUOO5JYl7<I~
zl!+m?F2y86;Ozv^l7-%P7a5X5pp<LFu2P@HgFqwpw|W5-Ifh|YyohOfA9cTvHvA3s
c{1tWm*%!ES>OEiE1@WP{kLmpg0ieA81K;X^umAu6

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/tool.cpython-312.pyc b/entrypoints/__pycache__/tool.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..76904f565115dfa5b0231e03da351e6baaee1ed0
GIT binary patch
literal 6851
zcmd^DU2I&(b)NgXcmGK(MRF;vbSdg@X>w^%w&g?=l_f>VvSL~hSvT5;E>^sk)KdGG
zxtEr>B@IIs3N~?3s}Gd`BY+ANX$`5U(WgGNfGEEN>C0|Jf$IwzQP2iy`b3K?B0CT5
zIdkvbT~dUR=Cy;}Gjr#E&dfRAH}h}7ppQVvi9gDA?IPsg@xu+0li2tdNZcVB(YPE*
zVa(^aJfGt8LQ3H9TgZudDJA9Ql+3=xoF}iOl)N|P&HGZmyg%h<`BE;B52k_~(IqNF
zJ2@B1hf`sW@I(*lE%!Nl#8j*1N$t{<TO<|X$vL8VZxPL>^Y;a(yp84hAvd76)pK{V
z+#uwJnsVFcxp??D*l;|~TS9VV)Cy&;7$(h3nR(s3TGSvrIC=TvSbFr0vC#|X$In5n
z!hBq`<m4QbQ_J&~ZWx&v-4ZVqbGqf9)Nh!h#e%69%s6NHvxTgg&J|~7bPAslD0x?>
zM#jt*3#`@+vn;)wcsX%m%AUS0JrLn~HvS6)XqN-6l03Ia^86wP+TuW~LS9_t^U@+{
z*$X;a;55<I(V__7!b0O)T97cu4B6ci;?}&z6GA)8pqsBLjXEELZWknwz8_0&eNDc}
z&&xezfgB_h_NuAnmO2YOl(#L)P34{i`D5~9zPTq&UX<UHuXESQ4dF7m&c*%Zl23&&
zdR3pgre>#A^Qx}Sl+6C3VW?U76$~?z%jue$DQIfeG*r|k=n@Mvrkc|;hN&`rCRj)3
zr`1By>{DqbYv|BOJ)bWXsX0bzk=ivVXn?>jw_VIkU4wlbFPdkIa|Ml6u{=)yP$6`_
z@NOoT)!wm3v^@0$OfU@-EcZBFs7IWfBRDM>zcKH`c=@o?Pkrie+_Hrkb-G9!4Zp3H
z{Z1$9@F}&t3wxsa59YE|*ZR~ebEaAjZP7>~u2{RWY<0Qpl?0sLjFvGo6t|p)L0GLN
zwn7*y;jD_bU|}m3`kNGEMcz6;o<4VRGX3_%MEaevOB3hc9*=t(T{X1}m#)pEo$k`G
z63gF|VR5>FM;W&i!q-CsX1+8~%9i?JVl%qge`D^%w_d+?LLY!B50vJ?pb7);=5qM~
zupT;JDrO6&F<=&pxkPE+>SXHAn0ngLOxigPbPtTt27luxAl@gx^${t_{aXCix+qJR
zxX-(~@5LW?^(}=zZ;#zAK5kDe`PTzPiQN9<mDtOVcOUz?=h#{(S_?&2y80{8#5&;y
zBDKiAkNWSvw=QtOfek?j`_^UB(zfmqylv|OQ3ju{`$<53MmXsL2aPLTryqyD^H8fO
zZ`S-#%)Z33_l`U~_OPeYb@p-S+)pPf%J+T;Jwn;nMh8swuUe8`vh3ZR92A!Kg_Hfl
za=!%WEv}&MXb(e!J47cbP9rH^7tkqaf-X*rns`gR52YAV(!3OxEpZZ*W_hO25#2Cp
z07@*G>gF6ROyPld1ExQK{|45$KsXp-p8SJwo%@6v{{+oKH1ymw-3O%x)>T#71(D^0
z-Ahy5n9G^vFpiaIWb|WYFNpsn&)+9cmB3eq2wyjOksF7pDd}_}lh@N}%a=~)i`rZc
z(}8sQ2XmR6T|%)wl~Ei-aR9^y{0SSJ#xRAV5B^3Eh+Cv4Mb>#v3RaGug8h?%4|{ME
zf*S&n+rGpCdem*TMZGu@hK<)jG}NncfG+|nSQD9wrCVZ3(q;C=YjTsqJ@Xzky*Dy6
zUo6az(BgGNr>K%C2eDZHxQzmia}{#Yqc4y&D?njl2@A9CeB2C(wYtw-<Q6z1rU_fx
zqMBHkMV)U84NTx*W4*-myA|96185=v*2;O$BG1yE9AGn|3L*v|0QbOm-#Idih$8%g
z^uX_WahOTHN3$`Ls5?p{)&g!DoJkKc(O_8sq&TuD{-0K*0Jb@E;>cxS8H?h3;=B_#
z;Yo0O((;deKbcNmJfFTWcKK|%uj$M6&V~*MaRoOH{V+IMEo)@10Ls|dz*(&m;8=5d
z)7}D>`^Ii$M!=)$1+6^f`s(feUM<mLNvFAa_2?lZzVj%Sa9zIwrY0N3IXb0Vo=hp5
zzNXK^7@jN60G-a*Dmp`eldPEqEGp|-JZO3J0-LSH7Y$1WJJbvBTC&YKtibgQEx@wU
z#ln=%9Hq6_nQQ|4G7<(`Tbiw3rxdN%I`~ah63(P(0;<y8SU=#jPGgsrH(Qu4vH{~V
zMf0@$`i)H5Sr!|?Zi~mn3cGEcZVfy}2p6ue0f)g@RJy$9MI%eNg~y?laSz1%q}H)#
zN&GOd*4}w1dpmnC$UOe%;jY>qb?MB9-(3srS`F;42KHCf@s+^awZN`*(d&(@1rDwR
z4u26i`$gc~mn~$^p}!yd=aVa4=KwbL_J3Mj*?V?LTv4KHN@!K-tSX(A=<z4YE6+D0
zq-D=DB6%a*yRWs3S1x{UQ{aQ4O_>BEzgzc1E!*?|Yx@XC9&z50W5Od}Y@|<k)F(lj
zIa=ne>3&$s7FUg);RE<@{0xNcs_VQEEZ1~_0+`?e?^=h!ze#R_*O;x_CNy?}CZPTo
zg&DA(1v0C+`HgtCZrhE#1;MrBL2?`{?oYvY{k3pM_%lf&i_(HPTj!EZZR*^RBOmTL
zK|XAMjVy>0HqeOUu9=0L?RALpZ~g~D+yl4|j3Cj(2of%=C1D85mj$y0S_tRcQt~z#
zH|V#q$OG0l1v!?SDV4xZKe3Oat!36&$pK+Z=ZzVw1&?mJIA@mTScYK<kiGpdGCV5B
zb~uL({Cg9IHfBID{QE*V`5)ov-6QvgSHgo8Wv~(+tVOz3BR$nf&%Kdq<j9gz+Y_rO
zowaCeHQHN^_O3<;tI@$vUtft1{g!av_(wgpz~0qBPc_hUZ}dsvC@=_b{COoh^fbJ`
zqU`@_qZh`yndFi^+_E4hRessSCHKk8ihyZ<1oQWCm{tWyZ-FHMBO8{`mhS+qpM`jP
zm~~ujbN&RO-S8dfZB6@`_F!M8vooJ?%;*j5+olV29FpaIJ7}$`*(B645EOtjgd?kA
zwHj7e!+q6oUq$I-=sg}+=pm>;52HAOVi*OUZMHF%V!K;&o{h+OgN^%0S}5v?i9tvh
zuYtHlp7Fb-SJxAYq%!6J@xz`C0?~RKkwZu+`tMF4mFPz*5ke}_Z+D5kO~Jn&&_FS4
z;G|xp5<n;b<TO!}bO|^cP>7VQd)ODRd721?GOxtFR;#0}i;NXd!r|PqadkfNPi(NQ
zd;)MDtkMomI1g+l2lsNkK?06*ZV6yGl5`drGS@u;LuOtB@6g0md~V&HEM1ctzQ;jk
z{ym-{GsI2EERRpRX76h(@of3b?~9~UMNJ1FG<8}6UaQk)+=g?4aA3oodl_@!&c0=&
zwIU!lP1q5GEs6(_!5PJ)K~I2y+YD1bs}L91xwh+}>oicwE=;kbSnhgZ*XjV3!WMr7
zq7G17VCT&*cagn^KOR~VpD3NrH(MF1$UC9RJGGY9O-TS$Q5dQOq1M;Ta{j#KF!_l$
z*)IHJEZHh7w@Q%Qa%ym&KY;&64UE&qkeyB5;22x1pP~l3G_kz;Ie{LX@PKpCp}{mY
z{y`lxX5f_q`Q`)9eFv`=IlvztW`Q@5ZDAJgt=j^eTXZZCn(#+-@JCqSXYo3_Ei^Ez
z34eG^!A+cnm#yu=DXBBmM!Dv_2KNXXRSU;~#kRX;4vY0|v6W7@bQZ6u+k)o*{aCEo
z=mjr5+rm~}jaRpLa2%+kNZ~oE++KpW1@q{UH}qVt*r#4E(wx?PB#z~HF|?FSA(NXo
zvH+3xNw-8athfY_>AY_-uq~KynY@}Q6m+0>RG-S0vH-|dz$r|d^T2WuCd#2LL;22@
z-x}R+sp$08=}Z>iam->9n{`O?H<@<1d*|+&DRJ1gemtHOPdvqok>yQJOq`#XOoHP<
z7e?PfaTdin6n}!^G6>5%c4JB};R{{E5zv!R5|@|*usjaSuta1C^a8eI{s50O_=7re
zbssEtatm(REVMD!KrpsY3rGHP;fD*zN%;tH()QR|N9=E3`Mcr28D8laT#Fv8^p31V
zM=PCYYMlpaT?cBho=v~p5n4L89wKe+OJ{1a?$ua-HP*ixd$k&S_0yS^*f6k&VE0E;
zwU)L!{@eb$qfc5?eAnoHUWpAqjda}QZlAbw`u6F2$EuM-tC8Mnq_>hd{qxA_O5k)g
za{BpNxbqqDyy%Gl99w&zf-mxj;ER0B7lonT*PAWG8+J+Z&=cj<SH=V^@MdVVm%E*8
z8R;g=-C}Z>Up~YohvenM0;b~;%pc+~J$wMtk5mroKkD|5whE7WW1|7#Gmiv0p9Lhy
z`K&bx>Hmj(nSKXU36F835YZ%xGbqMTY&+6#K;F&-cJGTY)!?rP5Pv9tjaQ@b)#$Nm
z^w_6ISE47sk-wgF_$&P`47dfR(7_}0Z2aM@l&Jz~Cw&{l3tZG?@D1w0=t0_Muz!I~
znyBdhYIy%@_@!$2rHb;BLq)wiQqgG~vCc>7Mf_y5IDjdD4(AE$5~fg~$1%{kAQcTs
zN1v%3((wA=H}KIun~(O@`KV2fS#R+U`U>=A37IQX6g9|R(kvO=GrR#%^iOPdRtR1t
z3Yl#Bs{LwZyGiCS(N{7DY5Cc`%YH|ocoVeG9OAUS_SZ1gjsnrmewIU4%%-x9d|S$p
z{nj^3^H2qM*ub@eBjUIXnQ*>eke*+VL%$}c9+OkQB0awpT7D%C{nFd^(f1#F_q{Ja
uZI4w*<e9viYukJoyw}q4O#;zo;2_t3w{4R^v^mbb#`WD5|C>O>l>NVOkTzQY

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/tool_server.cpython-312.pyc b/entrypoints/__pycache__/tool_server.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..375f93dcd08f3dc49af2763c25404d861f119df8
GIT binary patch
literal 10188
zcma)CYj7Lab-s&z0$2bf0g~byBq2%=MN%>qk)ri5A9^~X6-!AhPBJirT}q$<kl6)A
zlL0%btZC`78Z(obh-sUe?Jucz5>J0QowTW_b|y2K=>VcKfVc8Qo_Z$jpAIC-wXEhx
z&$){Q2?%y_$-R5;x#vE1@44rE=PZ8hayba382486ttLYL6DwBY3x$nGP`E)9qA)QM
zXC|1qZNkQ2-4<ix+yocrCwN+CV?tb<5aZH>MC)A49(PPQ;?4;tt@ANC?wWAL-4pJ(
zXTn2iLaZuYJyFdN8&Rv(ns*s<)(NjFY68q5#(eSGiCW;5)VfKVV!y^s)GH2ko8nZr
zO>&A1^#(gJ|CCzA1@%T7IZhP!HKKS_=3TZhViToS0kv9fDpH#%wFao(E!38IU$E}K
zv18C?u)`yxhC6&gPio;vGOi{sO)Efd8ZJ<V_4!0(bUKk#Ur(M6C&Cw1&G3ei7%_=)
zlL&oW=gyxw8X7%ubo9lO<Hup-#5_<v=ccD)W2zp}qBF_pbi(i=VLTjH^_g%)g`p>-
z7lW)(b0Vz8rxWud+Vq^RYRF_%7ieeZVOa@E;xG>~hBKOoCPT65i?AT5dcGRflh~xc
ztm?C|q~U-uE~{E-R*OXnubsXs3Gz4K+V~rwzDO9{d<HffHh+<UjbIcuW{b0nAOtp&
zvZcs-oV9KH$Qz78z6-DXhqfE+pYc3dWPyiCvEL(G+So!Hm*S@Ebk36O-9qgR5HdOz
zSK#M?-&w*+D__Vjr1+FDX^YrEkl^oKo7wjbsMB!^>tM(iaul9|A!o?|xqb<*Z^3m8
zu03$I!sY2CdkGzpgQun|9Uwf>nK^hr=i%)!B*DJUo+oqgW}aCE_MvlNABN16lF{h;
z%14_g=4d}*=a?WruHi%7Vhq=4EUG4wXH{JX5dwlk*VRyj5@GjQ*yW&Lu<^)@=7k=H
z8%n)qb1!gewMcZJ$V9`j=z?lEVjwS}BnnJW)T*GFb~G79I1Fkyt{b9mPH1>HyM{Cn
z-06g_8s5z@ibP$6q5NigI@*_v&-BeiXL^!h?V_6Od3|=^z~E~GYF{jRp>Ku?b>HP!
zEZzstrp?bxM-xfC4;K|OrMGux-l(Os6r?$vP|QVZewe2QF8v+I{);@hLO$Z!KjMN9
z1!DIuFJz^T-$)&+7eAD0m*=ulTSjVI9e5Dv&Ia~p0{hnkgW1->wA7S)mg4D12L{rf
zfzLqe_@QT7YWs{O_D&e_uGH})C$&9!&^q`e2UlJMmM3{^eezqW&79_`#SI<ce_iVM
zz5YvB<JHDd7xUN52rvAYh0>~HWRU%PW<-?UWuf#_-$*ro+s2I8rQ2*hmK&K7r*ykX
z#BzrWEVp}^5tnqkkHd1m3}f6r!i;!?H6lQHO=N(+W@mtZ%}H|?rFa-@trkW)?Q8YS
zNTYjgn~3E$5&65E*t(Y)*~hItN5>fyMjhhXVP=$(*N%u#z9WdhV+eZWk{S;if~F>C
zwZt<@1vT*ooC>N?Qsgqx*c7OfLtsg0O@f-O0hq2J-3D~H1J`z_u}B{yZ!;0wML4eC
z_7Jkjq!@)my28IU0OHA8_3zuRS94_11{^T5!W{%290Nua=!pGL6R_vhR>cQ(OqM!<
z+1R(a2ph%ustNfPoU}!DkxQ}3f=z)@i>mJjw(DMwM4){US1*`zo`t@sUKW`-vqanH
zNKhO%_+&I0Qw>p3C&Q?Z`EX+XrAdQJ&d;a@mza&k49AQ%J)>&LsH%gV;G;<uj+`^8
zMdKm!T?cus9hPj^u~SHiMqn5$>IU<g!CcnSh|{B{wLwYiwlb{gX~?dS2cmnqD<f{p
z$u-LZOE2Zbs^w!Dv2o?{YBbZfC*3xP4F}S4ORm6}cazq@>hZq}ZSY*R<Kvdy%l4dS
z+e%%=<6k{?*Rw0n6Ib2x<T~_d*$oxDJ5PWy?;wqBOTyCSH{Hdlyvvs}V#|YFd){x(
z>^hv?HI~^mc5m0Q$E?lo_;A;;zYVOmuYPT5`1*HO_P+He8M!6B>)0b~gJDt`sW~qY
zx#r60&mYyp_@8f7L5q&|;T_-be(rXC-SG25Wg)x^OgBIzrr=(l#>lsuQMk5jGBX8w
zx;$AnFU5okc7=dN;J$FwqUZw9g3(b6(v)JR(BhUQw73>X(QGLOM7jmU3q_iQio7YX
zOPc}~WXFx_Xd)7uRn$;45dz_f&m_+Ud5{TI<8=EG7R<~h&zeV71f3gBCN;wuP9&zG
z2(|-7t-4fkqj++34183-pGuR_Ix`Ix0%nPT4KS5%NZEuj+92@arO!Zih2$kt-I1-@
zaj$B}5_i9;Yc-kOF_76Yu--Jd#QjFv23oRuCkR(<SJu~k*Vhf=)h2xG>s}hW@2pwg
zm-TjLyq)RogC7L$IgdO7xpL)v-4Br|&DGxHn({IM3E`SQf8+uh75#to4+ppi%w9|=
z9+)<+LUx0wWCG0cgiU1?M&%Tn$^)ikuW^<Rm=KCBqQWh}ra?QurCm~4J5lVkw*VuE
zs$Jz&Zj$OTvj>doP@Sl4CM89>#uvwy=eeN6aGZm^IZL4!9AmU>2|#{Y2k=LVf&~>!
zRD+@{-XQZ#(6(^GVcJo@|7EIj{pYk<)gPVoCoidf9Lpco{rc?8%(RwNmEHbh;h3)a
zr=eAwi|T4`vHSQfa?56Lx*D6*o`>=Et@|up3Y*)zK!K^b)?SPFBC?}2!wx%OQ#PPT
z#{b~b=ZkX}mR?-)77_AKPHXg8E=Dh_3G<2Y?QAamWa+bl3~zm2(-8T`rxRPcjBAHr
zh1y}rN*>b(XMsxbRv}(!+uWYsN(?XKFonmL;qkR$ARxA;I4l%Z4Dpg0R#Z)olq-?)
z-P}`rC8GeYlBz%KFAP(B54fkB4{tunElxXv4}|-sjbU~aG970_=`hc#Goj7_WTJ~&
zsN3>PTj&$mt?(#rVwdTo++xOqE<*}YsSJe-M<^7ZR%T-=l;u$9JG0>!?no%4;e-YY
zz|i0>z%sQLpst~Rsf}U_ht^3$gQTIp(@tPUcLLv-X`hC$gxM*$^dCTWjpTT5-p28+
z)lM)Yyz6G*5#BafBKRmBjy;xmXo}<s+|v6`{%S0<|I8z-6!@S7nnmzEICJhHEAVoz
zp*c_QyL!y~;K2{h{!8Zvul(HoD_>^tG$lT;2UgE!?7>Go^q>Phv_Xl!7P`s^EU=iU
zCk?fYOOS197KOP+CRoq`pc7EDOz;ZT52!^ZghE+>vZzX+Nt{RlUzbztC7MK}x<^nP
zTl9xxUJS~H>-6ZE&HXH~ceo=|$j0fCV0ch=F|a;Suu_{=3%!nHQPl*9=3>aE^#eOp
z07(kDYMUdb_W`zsdL9cWz>h#JgC{SV(39a<OjUaQXJTp?RE;*9@V^T1-fHp#_p5M@
z{j<<mvhdy@tJT9Y4d=-?s;i@#Hmw;AmrR%UnR5w7%9MKSQ*w+!RH@?|TBs|Xz@n?z
z1K}AcESq58_8)Q`$k49cXoR|+Ja&?*CJ-_Ew)-_Lc^gyRzQM9yH$V;Fw!Fx?z)V5g
zQypdaD(5EOs|&EyJ1Wt5E@*uNu8lmrSJQ_EJ70K@KrbeRvEJ^YjqXa3r*w}}wlT8I
zeA|r>6yP%ZR{&>!%r3H9a0F|ORP>t*-YW&J+#;VW`r0Yp;svT@5&_Ik$;E{g3sW#>
zc>+#!2+LB6pF)4DECGxb3ZNapz@m^uPm`vpI;*sKPYD(06Q;Ip@>nI{ZM4dpcZf!y
z%tHdqG(<6z@E&i`7R8hZxUVSfCMV`8vC_;G##d~CQSf|~rOS-gm;wi&Qrj2LaQ%Oh
zfH}=Hh1k3-f!k7f4XpKC3`hq$JzK_UFB=4^ikR%QsFmNs)OM?V^KJnaOJ=M%3dSo2
zaNg$%7*v=eG%6vD8_ezn@lrB5Gt}3&!1Y0Z0peF28VbX?#lC}s6V`y31oH^z{}q^1
zJCE6OkS!cQwdUWh`@=D?hswNPeH}s)dawWF#l*B0O<eRVvoo=11WhFxMzEF`(1IQd
zJ4=o}Xdf%Aq4?*b$xD=79|F#x*Wh&+B&nT)DGd(7Bsz^8Q1nX8mlY^GnE*6`OEhFu
zblPl$qGh^P4Ud+=f-yDM-;Y(njJ+A+Tv$uMat$sDLl_)lYlC}Do!5hssl@Ow6~G@|
z03Hmj1+!Mnz_}%c3m-8w379?vN|fp!3;dZT-V;{L&_^LOvd~iU5_-#;r(sb2Jg6HQ
z8p-)uv%Wya2NrML7hJOEg568pJ*g`f=vv~g+wXgumqv5Grj^l^udH(En(a%Y_Yb|C
zKKqUJL*L8}d^02OOUrHP_I;mpypSF~x8Ct}sD9Gim#f{Gt?kd$_GfDcGqr=c=Duw6
z!A$c(u*L2Bvi<{i{RcK&Vtvg+nY0hBaG-l@16kjWjBiJ-rTv}rKRTZa?92xCWdi$h
zojbCf{h7}G{}s8~IslsOLl3d%W6{~-UOJuMMn;&In5D6-yelK`x_KzueJBI}^5LAP
zIqPZ9c-n9Je%5fSA>(;2x2J!ZyJ7#neWfScxI5Fh`)*awCslPf+~0TSd@tpE?O9(}
z#@Che)x%uXHTfRmYk9n%*gbDM-*o2W{rBanWnZ?sFH_x@t=^ZZ-nU-8e_bB<lxOXZ
zd_Ng{h55fnZdlsqI-a$wLr3>BzhI8`3jZ|BLvhV^=;&Ve+L4hxQ2DpLNTSHC#C)K7
zLM66=+YgQ^IDM5|)yv@iX(xdt$WZZp2GdduR&EC^;EwQ0_d<4sp#MIWZ63-r52Zar
zX=#XJoRTHsa_EvkiQ|$gE@%ol%2KLm;jG2l%(KP<oPKu2qtJb!qf~M$;qD&-pN>uy
zuHKvV^kh6eS<l{#XYc#Lb<e@HbdWy7_$DGQ!QW`US$NGG{|+ahEXd7m339`i4R}=K
zE=!dH(VLID2*@sFi!xwt*gvfX<&A)#ETxJD8|DynPZDBUW>O%M1qL3%fR@U=%0L($
zg4rqYJ<(FXTLS7<uw4Q!E+thAw%b$oDTrc~Crh~(K|>+f4r{Xig!>_TgQ4GPzBGJZ
zA+QaCV0{8G&BXOH5G)^qs~4`Ok}!A0p!xM~6KDc=M+x^I4vI@AG}RD{Xg<gm<kx!&
zzE4k7c`8u5vg2vZ4hy&zU1UI&RQDc*UO_trq-N9`;Rg+UYu~~Wo<>8Mol(H{7}AUC
zJcX+o%45(`$sOB_ozn>nkEVWSR)z3M!8z0*Dnv8{0XjMomS!)wZ`4^@Xed1uTRgWP
zVZVQcjOy}FC1UUTNa}guu6aB9X7ug&oAH&C>+Y^4HrEuqIh1bPzvRg|YtqivoZOU^
zJ2G;|>cBm@`$JF7{hG#=Z>*kNeLmg$Lb_>qy=EjWk9;iGt@PjYWaYu%$b%mo|4?pN
z8OX|=8M$+H?m<mMwkD9N39Q$2W#z84+?A_oc<c0MB5?(P2O{0B1JE%eLp)sWeDXl<
zdV=x6z!PXR$9M{HAJ+k>51M?x*Z&S4<mzzi=yv9|pBdRJ+-_&F9B_<Q(GYh(gt%EO
zKj#}cz^@6+$XBE_(T?RRC(zfLn2`Ztt(n8J-wA!!x|vZox3*irazBIguQ13zK+6Y&
zQKx<F2s3JP-ytHD?}#Gs+;KC&f2T?q?GW$OF{2Igoq7?=ts>A(#p~2g!D=-Of@ojG
z?CY4F#_S?yFJOi`O%pJC39}QJm3h8jLmFlZT>2%*u8~JJiQk>~b?}b&*$o1>{0WBP
zpI`0VAaKhI41efm1j~oOI}sYFZ(GebQr{Nu=-cAG%(s1nM095x9@?N}y0bWS1g>I2
zDa5of1KG3gEI73gC{xjy70i&>gjlFcickoYiQv}SRR?uzkynDtt~ym7!fa-M%;YR}
zYvp+X+*<dT8lT34YKEIi{Mw><#1nplP)`ZhO4Gb)5^pgSn1N-);E0ZHl^F`5JG4+=
zI()C?9R3WM5zK*E>Dsx({e{Cch1lOp7$SKCu8onR?MN2eEq%H*fLx^6Qno4H8fNou
zwHI}8@v|d1jVL!|N%K%dP{ArG40Tv+U(gG_hE%d;iVb@utt}^&td+uU+Na8+e3^Bz
z?3iV{3N}Hb?gBS%h!@On+J<0$^IHg(?$4JYc)R9=)obXw8q#I>cuAGAs3yV}AQWN3
z^H-7M0%j=W8Xhw6H&8MRxiB>iF&IvBelwcQLOW<;6JA4P9X_Yy=S6Fd1%K%xd!OO>
z2N*z4K}PlR{rcc~efN@lzi!8RU2w^nb2nt&9T|7Wx;v1S0%<9bbJk~_ZFik*xxk*K
zvA0jXd1`q+Be&<Aby;WYUC`H^y#?~?8QFhda+{EJ;1|9RlwVH$eCn6eKc8Md{L=b?
zGoP|HK%-7#-~Lob@8astkv0ZCCbn?z4);URj23o4O9{#=o~%C-cxp));aL#(0#Khh
zVixZFXK2(Bi4<_>JEwkhD(&e?OI;>nD_IZ+e7Fr8tB`#O5@s}J9&ob4ytWe-<l78i
zRdU3w^L7?{*q-T8;lyqB*bJh;*GWKWKQ4yHt};PxT)PbG)aD>taD6@TT4H*x5VnRd
zb?DTZ0ns9p;rK>4HmjQG;V`ss4P{ZgvCvs2WR<}1ZS09E9A2r@w=#yWG~?{bdF!!i
zzw2zj@9oNZdo$kNb?=_EyeH?XTiJQn)j`QU8E?<Jw=XUCeNxlBvUv0S%@@-xgX=Z$
z(eHq19ma6wh>1!tG-@)6p{Jl=1-U9a1`rnUZ0?ByUv2^4+P31`%KcIdLMp(a4C2sv
zGrRzy#~4txIAj3W=xar9Ryz(^Y24ccPK{-+a0_z!HFiOlhMv&8MC97y>#GQcasaBP
z-ke%#$hbT2Nu8h5`L6EmFW>=JMLd8izyt*ti8Vn1YTG{s8ED9d*-zop@w_22VEEu8
z!2yt98^iCw&^X*~1`rJF$O{rbgt2hAS+Vd9tmJ(bO5phbMG1IElz{hVPy!GOC;>{Q
z9N;p>gPgV>?i#u)8fp+)3bq<-_(DX(!)ksCa1?(21i$1k!~S@#3;{k*Lo7r?BT7F6
z7;gB)od`!mg-|aIrI>-2TKwfl@0MSF^kNKTQ{8LmRT)moWyV@G3|5+3@G7?1Aym>!
zKZu*lrNGROJQRs_V+nVkhVv=@qOZCPof*<W^P9(EZ3&ps*6V)`S)OGW<}-mXf!~tj
zza`s$M~?iCoX(KbACb<F?Y`w#*6poVgpb)O_|-{Xa4>^6M>h!E@{M&&%?g(%a9j0l
z;4S~0hiS>x@65Asf56vm@Nj<|sAuG5?_&bD$NP>mOylyY#{}<>&)GVe!1BbW1a5S1
F{vQ=Q^9ld}

literal 0
HcmV?d00001

diff --git a/entrypoints/__pycache__/utils.cpython-312.pyc b/entrypoints/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e16bfef622952897f7dc0fa8e7b135529269951d
GIT binary patch
literal 12679
zcmb_?dvF{1ecvvyc!LB;0t89%u_PsuIFTSFk$RnU67@Ri^t7Zq+h{yE2)iUf;X&^%
zMUe&@-D6^^QG2>3v2=+OE3Id$n{&o$nrSX+{*dc`uG5(gAkqfB)=kvuWhVX)I;u_V
z=}i0i{uT>>67PDM>0+?^dwhTI@B91vuMG`u4o^z>-Q?eoa@_x*jQOw{WY)(m9CwG4
zIEhbjQRB-;d6u_CE$nNJTJg1{gtRSc;|a!^vZozU2TKbnXWA8Yv9vAaPJ5yrmbRz7
z>4s=Sx-r_w@{W`*?T`A?P0=Qnccz-tEzuU1cBKO8U^K|m?o?|!6b-SoC)Jj2kG7{f
zq8;fi(JidZo9aw=MY~wKA=RDkiT0$$sF?1J_Oi0ZRA0J3+RxIy)YkO2=r)%2rv}o4
z(Lt7ON)4sM(J)Ilr(Q~Lk8bBV3ny=rhd<(tEsBmvEzyV+kUdgR;->_u^<5!4Duv$V
zqGMD#Ws%xYvO{V|$xf*Q?_DlVibz}Jaj6r3e#yacQkOg-@0MLtmUeVoDGQplQ%<S-
zU0ZYyYZH)rWRbP$LA@wXNPwGiOT8Fnuhb{o<RH~z+<uholeWsemHxKL`vLp1ykFjL
zj5B4I1^{zF8k7&p{cPkRHjmxU&7)Ea_%PsKkzSG=@@_T<WA@wSkTfi}p!eOzSeWq$
zAP+6_;n82wMx6`uy6ap#Evs|!gp7=EA+F8fYn{w2;^Vj|e|uh5wXj9^zIN&Sxr+eI
zW>i^kx}+&`Je|x;n?(R=JQ7b_omR5*8R>Fdy{h{*=2dj)Ih&Q_)X{8aDmjg;`*>zL
znUN=zX{z)ZxudD1oYBHoy*ZVQOR>aET#IRPdM*{$WW7z1)okjT9GjVXuBOYZNheiJ
ziKjMJqkCUEepQaemFd`ATv25OBLt74^P^exEo;earm|YS>BXW3W5MU=2#zM(cqV&s
z604a{$(23xBr{1ZmdZ{~qi<gKC*~Ce3yIOhr?N_#%FY^dyPUl$XOc?{uJuGpzMj02
zqFtCzqrn9>ySNpod?KreQ}d~mm_ob#V%>8sl}d}>QRlBD($caxGBP8l<_^YFDK|BV
zi>jQUiT=Nv)SU<QK9q>7@<<X#oKcfn@|qm3bU2lYPjBcAz?;q?9lt)3rb8Y{$r*GQ
z6EUF?F`h`sbDAuL-N&*Cw#@ho6P(esId%W&sFY2p5$Ze=Pr7x7V&I@|S7dEo$s{Ty
z&IsLx_dEEn525rl$AcNVxEwcI55oXC?xV{09T4(&tQ_|}%N^_Q*lgS~pW`Kiz^zw@
zI8M2$q1JfNlVGN6-&uPtZKfnavVBx(r<~GUX8Av%2m420=JY7xuiol9KWhpDqcM9+
zj-?RCB`h)8ANDNrw{Gp>Ze9N~>jEEkE^WWa_EHs-Q(|0{l4>HG$pB|WumUwcEsIH2
zROEyV43N(0g0?s(FZt+vA~jfji=2rAZ)2dPYqA2&2epFo5?8?%PUtQ5#c5enk_q)!
zbS_~#ohj>EcTCG#T+<ZY8lRifZ7MRd?wE<IRH*b2v_<K_M|V_arqU*f;%^R)YU#Pr
zx#Zl429lPwk?Zq&_U*m8M;=WjuZ+$uYBSl)C?U}(NJ?3p%O*3LIy$c<Q)*;xQ4bPD
z$(a}kGge!Yg7fDh_^Ua*{+|2C8{89jW2vp@2fhz{t8L+8b9lv3@-*Mxee+Phd-RcK
z^qG_Mhf4m?9nbroqQAG`@6Gogez@(K)#7jbthxQ};19Ncu)Wx^z0k2eKXPQP`RE4N
zqJQF%f8yh&f`9+d{1YW_Q#r_ae5K~_Z&W`f@OJP>Gk=Fa;ur2t?n80|>JzfjfBgtv
z-v#1pRivM-AQCF7&rQyhjVs&~FY)g>O@bf-xP*O<w*%LY$%(8I*FduxSfdDzl3h@N
zBH-$pEY8F;Qc6Z$R=gsMiFhU<r&6*cURe|qjBC4ziPZL!cxA-R3NOz9rKGH^im^;q
zi;4593=Ct^C6ZL@&Onxi#f6z<V#a_5u(*&_u8IpuZHD!fPD+@>LR^s};;9TyF)m@U
z=zS_{%vPI`#W^65tYpL~C7WigfLaQ;ye3Cp5MAbYYBD{a(&8C8JFlh|#rQ%zsi|T%
zBWep-QG-NNN05_Qch~`{#+YEY8Iee%Zrvss4Wo`GCyQCU*uF{V3VF69w#5rZhYRtH
zh81V9sISj}a}v;0Qc*QFGLo63IwPyYb-iK9)g!3v@}!94lf}5I&Zn8E60=ii0Z35b
zOjaVgW}{N~SF+NgQC~d@oG?y11=%hwvUOgOF&D~4M0SE`59t!0+Asz-gJdh)jHx(w
zdM;_AN@cj2_%&mhmA-L45W&XQY&H!LYZe2|ElSvyWI|*Th4nuVgd!v}@TrQenAd!U
z%?k|)x8#&6FJRAQoB`MzkSGZ`3O0wG!Q|PoDA@%%Wn-m4bupPqWJ#$p&yR45D517L
zz|0i5qb8=Z*{eo%J^y4=t8l8yk(@Hlk_0R88WY00-h2TE-!wQb2{?nEXwV9|(U~Vz
z*7bq{J_$r(i&3@g9McS-OJL44)f(yHoUlen@(O*>5)9={%wCxVt2g?iO(D|2f*3>G
zq$6X$6ID)v1T<Oh2l%gNz;ph9Hw15u|KzH?M&hp?gFv(8AaqHS%?PHjUAEN3>}EpN
z!rgS{xFnb3f5`tU{-X+STeg0AD~)Exo}9&OV}6%~y0%UeuJ+AYbHcPmtMbmx1nZBi
zrjUjj!PTn~zlC<owq<+HevJE8Gt!QnW458zyO}b%F3;Tx2pq<=UE>sg&N}NeA!=U}
z_7b<qL3r<C!dp0}hyc+&N_-(!;h<10J%)A^1BzwBPTdOaOLxT8#Y`fZ)jbK2uqMZd
zi7^?c3&g#2--%NfFI|ouJ%9GXnd6s_AJgpyLm^#D1uqP{bOF*;)$LcoZ>Lp56niUp
z$-2{<Dm;kkb4HOsd`x%D$r%aw1oeTefoiL%`AkA31&PR*o*T*_Eyz(p?xj9r^|AVH
zBL`C1L_DRw5~;wvjt1(V<MoeBNI$c4-M#k$fAr1!O@H{U+gopc`(F<}us>KXj2&Nb
zd=~01hF&U!Ui$FB$ASFzlMh=9+fS~BPOW$!clH-MM+=>!Yh%YBPOpxgTkSlbcea1l
zz3m674^pLu_WYLNym#bp_7q>fSa|s&WO|SLA2>_9`)0$6urj@F=YpLp$4XxRd#7)n
z{+DOVR^-ce&f9i(yx{36we%EQ1_~_$t1Ux$?@-CtQf@-q->5(i?w!d4M<)269O94c
z68<wcj`W8X-9<a2WwR+&x6wLP=sqt4SUEteCA@r7G`6bgg&k53qxvAh(OyDtc{aw`
zecz3}6}$agtG2#%i_aEVw{rIWGNsCWoVVr1xpjbYn=2J>pym!~(ggC{vzdAUJ#-UI
z8D^)UhgOMd5sHR^z+tP>kB*hC^kSMG&(KRHQm?EtD9ONFGK%VzOywvbXkuy?UN^Xs
z;Q8+9w@w#@U_l5Lh43RGeE(|&A@Xw}tV{x8^A#RJ&HoRz>D&g+NTvbfjQ6k|CTGm?
zn;9e$U*ku09Me+en9L~2z?)<8oMlVSa>Julm3ql)^0v46dd@ey33uC!o7EdFsvjH|
zeA?u=&-1rSoL1##Im=fbp=#8qTO`L<Zx^fM<6m_wpkO0*|G7u9EMeX-g{nQe;49j6
zrPhi;Xw_QGPI6W)V5YTJGc{!~PegeJ&fR8~*S<GG+7>gXb($&2qzWPAtTAu3)QY{W
z8*#J#v~CmH>_O?<eB{|)6SDT*Yz91J&sP|iY%lgy$6eHjSdFsEcUiD-Ibl|;Wa~a(
zFvq?+kV<lz{{mRz56?aShW|4=@O0CipB;D(7+KOFuwLPxus6c<C-l{E_Y3jRV1-pY
zr2XH+-R5uon7t47a~c_a?AgjG+cD#>OlMzp%(uA(?z;7x+yZYn0?sMhF&<MWmiE;t
z6wEYBDo{m9pMX1wEPUv^WNK9`d{S5q2Y{pycAj8NTp<Jx2Xre;a%BW*-Tg*9H7_4m
zl&qrAxz}<1ZImT!(p|@|lYa>IqV7(rq_vW5snA|2#LRT}m8x%1A>Dz=0EJv1x-%}p
z??5VsKmt@5r|Jp3!uDF4ty6cJI<RhI_MCDCU@Gx!(nBhW2otwUY_Ty|2Z{_;B$awW
z1<A6eSgxUhJZbH`GyDGRy{^C6^|AJ!_C5UeUmtuRJowt5J3f(CTQ9A6o_JdGp6<uZ
zohAS2b*rVNvCLT-8kzgx_IK|5_WQqG3=J1T!}-YRPhMa1UHV0P*Ig~&9=Ug|&>kta
zMDpGUlpKF(Bka*N-?7r(eJiKmJAd<h(c4?__O5v+o;X|H^WF3nom~ZISJAoSk#om`
zuN9oTf9Bj#wg|4~Uv%}}8_##`yuZ89wX+!7xpMNEoAb8bp7~+t+UViDIJxFIQu2k0
zzP^I5FYkNl@xb`n#A~0NULE+xZReW5AKHVzZN>Mjmuv34d(u#${-S5CX|m*REBgBj
z{{EtWxZodN8#(gu^qT)dx!Zv6s)z4hYdVY-wGY9qa@$t&ci*<%X?(x26zD7l1`C0~
zVqmxs7%p3drsgNXu3~Vg5F9E7M+(7_&uu7!o)zjTwuTF>;bQApp>^zY2bH?HrdH}^
zt!Mnf)iwW-(!h3O%5c+Q%4HkZ&{o^4qIcqvm)tMj{XfID`9gr0<hj7;ugiX}ZP#xe
z``SL|EUxB~H}pk~$Y)~%$p2Pf0Y1Dl*>kFq|4AQzvPt+!|Kt!dKlOS}hPa=G_>%$Q
zr)>hIJCE%~#U}wCnNLFFr##mG;<2JcA^i<HA0g$7I-igE*J=o<oCjD2f0Z~MG``2S
zMyBswUbS_sTf(+B()YHMDOG-hX9}O84gtLSSdpUt`VwA<B=K6cYBM$O8n1*kXg0<(
zTjgbD38Exby9@Cd>zDT?@ub-<;ujXq>78$!IdeAl_45}`AHNto`}&#7r!HJPe>8UX
z_~n!5k1dT}g7b!~(=US}$J8KV84H;~I1}j`7IaHi)g5x?T2cXbu^aw*-6qLb=BGd8
z*p3)Vbpu>jF~C99)aK`uZ(wSFg1@>0uNz!h<eURPy7=ShhtYy#&tqrfd)}MgeDK7Y
z^VQPCfm@dM+&A6%7SP&GAenP7>sN1pH$29C7csKOS~Ud>iVU$ixTWS0)}T0ms<*Ij
za>+2E3{xvXr(!;|&+L@ukbqjwzcmayn!gI^tXOi)g`MM=-q>8T!X-<N|0A41j>B8{
zV_QvE%vs)YOSYUvveW+Oc%&Rg>JntmTQ<pAtAl6Ib?#UH2hURX=F=Ci5rY?pmU_b^
z6Q-G|NnR89#Wt)TAj9E^cp)Xj7cvZ?k|K|DTvXHGujCywb_YU0R1qABT-M#SBHc}W
zVHc;hnG<1Nc@;B<3Gq#QlqkLa8D1)F5*WF0pzSftEGaR=x7u}#x>nu<+<%}3zl#?R
z*UdS*^Nw)I(|hmYBhO%I+s?eV?+J2eA9;2V({3Ki?|3yocCyUzr}&+vorfOuAUVk&
zEL$y2udG`IV(3CcW7*4jd-9%_N@L@BZ_hn%!8=kKJ7FfNwl6RAmK`S4gjt2bP+_2r
zH<_86M<|IcRu4(?R2;^5OpPN@1rnh6RXnXGs&t4okW6G4@*k0?_XQK4z=EJUJlA>E
z3%!EhjJB7B98P};GIiNjvoSUccGP?;%l2BRL$bWf<!m`2XNP9yF~+NZ*Q}K(;aD{s
zV`3%n3_Ku6hYTNFB_LNJkPQYLDHyx(U*C$C;d#n&--41re(bm4U-}+g=J2k#1@INp
zaz5nGDPIRHB9xZMm~I79RDuWwnz#;3%NhClobt+2FSM2zO~D|{n#`|)l+cmdj~DYh
zlsT8r{#399+$%@vY<(+-p7}VJ_o)R%zgFph-fr|G&ROddN(s|~$bMCz5psIa9272g
zI`#@vu)-0koB%-BVPH9_;!2!eSLj6@=*=c>)CSO-D7~RCmG}q9f*xbdjpmrfU<xTS
z{|$eY5^x@PIm9kP`M!N0kFPcze$@2F!&i&P-Y6V<<Hl>H_JRAIh4zWO(E7M-sMz*O
zq3xBAbE|D<@<Q-4PvcYC5=iHUo|3n<<n1bX`-|Sef_Lz~chx)b)P;>%w*h1w+hoW7
z+3W@jCarD5Ig?h#F!~lw{0{8WWxmGSa$L<%SG7zMHLR^!!ylm=dQ3cn-?0{)vuuW^
z(^Xir&6oM{;Ozq<GVh-i6eMUqV?6LxSSaS)uI|C!^0!(yuLTFT692t5AaI$#+OW#1
zMPT-%{E6078)255NzXk$s(DLoTF|VVty-^U3C+-4Ay#n|6lC8pKl^5us5y^iM;)v!
z_vNt8oFnI~?7;-m{O0g%501ktYTImGHS1`zTIyZdvUyALIaA*mPt7W?aU=LnI?X+q
zt=hI`2{an;6m!))=_)q5Heq98UHLZPmX5uSsKVS_RzZMUgrAhfw?zt?M#Qu82;m@D
zR=s6G@$lNU2j-zCTPLy<$Ye7k6?&##)cxW%HSAYTVF-mNL7{_J$c?TG*APF^-7Jbi
zR~q0kOyZ7&YVa0vEwGvC9!S4<B87O63@7eXQcg*#E@W`yLw8-q{0y^<ys5g7%uHp&
zE@m?6e#|9i@)p*=osC6-T4h>yRH}6E1{fO~0N&=x%?EH=%%CE@i0u;PF)mc&L;)yd
zhzM>RO?exDpW&}|z#9k;U#LAV1Yj;Wn{RLZzH80V_qa)1>)o^3yKl8=|BC%_r+BZm
z*t@gPyYs=$)!yB!oqLL%2Me7Cf8KfM=9!hFw?idg>-PumZM|<@?HFG54L=?lg>{x#
z9onDwi}zX{`L{i_ab1Ub7((vA?PK46Y0b6maj5sc@MHIf?zPY^IE#Z~F*sNV4&E1j
z9voRY{<xzT-Px#qwPV-HY03{ju>Ga`-y{F>%IT7?<L=c}U$`{Nh6w(<jz8^q<R31(
zxYh{N4R2e~(^c?v{jj6hyQ9#%18PQTXuLSIzkn%uJMVt|k$2l?jiHkFB8)|!8^)r`
z4P(*9Je_&}Kz?ZN&xC!3y3mOGF1U;n%Nmzc^o~kg9s!|*979YiH807rd5Y^Nz)PzS
z;S}Sr6|Is}MmBf&LTj*))<FKp>%4-SUiF^K%^bfbUs<;1EII3x1$rg)kYy|NVC3Nj
zK7kuJ4I8GX3s>O&)>{##gRVc1IIJ=482ka68WxmyFlFUkdi@SwdYjq$`36k%)*+cX
zlbugV8}~x_7wCcmeyOBC-r$}By;@6c1I4!SLfiPGwu||_7grie{bR5Jx4Qr0a>?6K
z^zJBlci=>JyYo(wj<G%8u`}=4nHP4#{lDuh|B0LrjiQyOty*CmQWH@T?no$cG6-;M
zNY(u&X{6JvLfvpW<n~~vL(?QzJob)P_HOP=Hl^G#?mg>!Lc%%?k0(W;Ou1BdUWjr*
zLR9eJeG5gQ5Vs=P#oZ8cHaa1)0&+I;n;N+UPCo&NW$OaD?_r`YU{1P#Ao~n5WaKF%
zXrSAWKCRrMTJMInI<aUd<JzL`V&&9ShkM`9Y%3c8#a5e9YyOyuvJ!x`l)$}|4ZElO
z9tLTk(_2CUD!iQwY`byh7mg4Vv7x=i!GndtgKL9_o_XxO?x${U=r9k*#BJx@@G}?J
zu%#62Dh0d$m(2>5-AR>Y59jKB$^p3C$a%Z+o~@-VV=HISt+y>NgmAiu2X)f%ube4)
zLMZz6dI-=A)9!{2+4W|2!W*xvH9&>O1-F=SJ3{vwwji(-_un>Hc%<zRa<5~nD_U*6
z9#BV5*0-(#2M9BsdrTa7-gA$*XEkB~{e(thkBI|HW1U81t<xT?%tP!k;d27+jsi1&
zWcf%i%9d@=_pMCw_G%<_*t1zA6ILiV!E9BVF=3&XRaOH2!u+APzFCQKLdG_1*i4x6
zu8N^7E6QDT0WTg!%ardSy|nT={D#va31VDDkwj`Mn)e1tl)6u8WS>gOsVPL^aod9K
zhT#6gR5Fo_<7z-Xyg0Z`9jsh=pqRQM&p}8p!k%3eVZOo(niUa;2Zv3Q@D?R`T8Tr}
z!gh^7hEg0tZy+7JHen{lDO8})E-0iXDopS?;A5l!K9krWq2H&PKcE+_OK+{*Ykck|
zr1Ak(`k%iB`2z6-P2$<GmkPzGM53NQM#6}py1DML{MeDzuA_OOqvYs<J^Z9&u-GwC
z=$KgT*i#JbS#f>l3Eobw_3l{n?EGxoky7_Kf}#VBu$9XLhGqM#hZFafI{Hi9eWlip
zQWvPrCIX-nROJ`*{revI_C5A9A6?mE37+9WV8QLBfLII+6aoXFR(SD1fXqrB<$`-F
zH=%kb5Apw&pFAl1aIynQWeU>{A66pxDD(6p_nUGFFZhF%X+v2d)It~<Oa*ts6hd0v
z4y}y#nkYhdR4%J1L=$>bB^NQB#A==YIY5^rjQc~+d!pUc*u(BC8icJ7$>>2=V$gpC
zQ;M;>X9|&t9;mOw0cqJpHl<K}P2W<fs@_?Pu!A!i6J8mZLpY?f8<>&0`)!ddV(#%|
zggjZqjhM#x#bDKu$%;@~=oO%T2VR&%rC*8zkOP9TF_rQB%E}G5nnFf~-pHDp*Ire_
z%I#x?2p(iqq8eF&XlIx4suZFsL>+oN12pQ)ldS9=Q+=JW80oLEm_a@5%pZ8^^&>~m
z9*bR=ym$%D!{ZlDojLz1yXc@CMxREo;5?<iK|@$^y+{|NWJ1%e(4Ck!h?&4l?^M1^
zFgExA;gllbs|$2Dh6x--H_V%0SgnIp?L1&e^jDORkp)q4>O;KCR-WhAogDA`CD;5*
z&i_l!^(oi=DcANX*ZOzdmcQi={w;U-@3{U?x#3T_k$<oVyyYo}*Z*{L{K1XcBmAcX
zxBXM@(5Kvi|LzLh{>G}S`v&Z6t8EWN6W>wxd->-3p)!ZhgUjpm`MmojzNH++Bu4M;
zS?BQi+&RLxeEufi47b%7w{!PXM;qT)YH2N7@qN<Sb8qVhua#{`gD5+??<Vf;x;yhh
z_x-I1L6iv;lG5&48GkFf?xNi87T(TU<NKtcFTZVfp<#E~h8)_XR|ln>Tz6mDMJYEL
zuX`vp+|KX6yLf+pp=V;9L%O`z&F?A&dhZ=81cu61%A9zOeV^FeE918VEBgz!)^!^y
z${l{btrXgF_go>gy=<k-p`#Cve$w*r<X`>s{DsSfLzh|U6Ps%#Qn0nJ+W=A?=)pSM
mI`66<xbIyqw1vx76g+9^DckU+$#$0=lrq=%%!M2~;r|O?@igfG

literal 0
HcmV?d00001

diff --git a/entrypoints/anthropic/__init__.py b/entrypoints/anthropic/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/entrypoints/anthropic/__pycache__/__init__.cpython-312.pyc b/entrypoints/anthropic/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aef74ea14f5b19bf1645604fa3d0b5d32847543a
GIT binary patch
literal 171
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFhwr7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#v9l@wJL<Y(rU6zeDEm1Gp<7i1>u
s$H!;pWtPOp>lIYq;;_lhPbtkwwJTx;8qEmA#URE<W=2NFB4!{902y8@NdN!<

literal 0
HcmV?d00001

diff --git a/entrypoints/anthropic/__pycache__/protocol.cpython-312.pyc b/entrypoints/anthropic/__pycache__/protocol.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3767c745a7eb8d512ff81e241225a8315c469e8b
GIT binary patch
literal 7151
zcma)BTW=f36<(6Fyx%Fwx>=?y*%D=2if!3WY{#kMTOHd<8aqu&wAs+yu}zz|%&r`h
zZ~-B90VzdMx-Vhc6mZa@jp3L4fc}62eIY?Vu!{m!k%zW#Hl)6^FFj{wxx9#pLtxL&
zoVo1GnRC8#&hRgRfLDTFmi#>Pr?4b_jg{6<HVd13ZIbk<q)JIiwW;>3Eop<dBWuq&
zl8zinlAN5BZP-S#&YUah%DIznn`D>HORD@pQk~TG#3ANNdN|hwTz3c8%efxldONs2
z&h-J;-@)~BZUDH!4sL*RL%<DpaD$v10dBN|8{*s;a0fcLVa^={?obCe!nr$uJKVvI
za_$IlM?1K&l07k2o_njLrt*3w9nTe1n$_ah3oO2r*Ke{y5tvJFU5FQ1K`*2W*?*%@
zmJ<%cv6L?vu1gu6vQ*Y^zgg5Xg?uWTup6G&QyRUD6B(iF8Jbm<JE?3&P3Z-eHjjtD
zO!-Qid!hQNL?t*QDQSNPP9^D}gvzS@B((6714|{6kd2_VuCt64Sb37a;+oD@()tRc
z+t+Roy;P)zD@Qdgb%QP^oQ7Lb@~IqE6vL}1u;-O5mi>zI;YuoNwzw2UEu?|%fVqv3
zqNMWqf}X-{YKrn$+Qd!#_l*TTS6nD&iU;%*yFv8>cUO+R^78FtbRnC$wookTHw*cN
zJK1b*f#!8qDi$(%U0VQQ3)wET<T_t0F%L}0i4O`|2*}T*zmk0$-oX6}%|Q6UB^GP-
z=r72Zpt)C&sy)d?IRb6esd7P57nHbgxk!h)Mfx_?im*poo)e;FX8l`bEK@uUhL*XU
za5FzHG=L<C1oy(*7{O8m3EyoLOMF)YSQ=^(<ZGiqPy&k^JEvFAtj$zr>fX@?nQr<<
zo{|wU3`g`A#xk_@3ZtJ^sU+#7L?vYx2uN0C)HL9^I(SY~`&=E`_YUe(dB@elZJLj-
zU?rZ(gWcq~h8X@#zPO?*IyP%Yps=F1tINh%I+eajl{BNgx6;*lhiHU0wX31OSPchg
zl#u8+teovc(j!(pdxiubZ2<_1b#fy**dT+=*ieHEHRli2$gW4RNBS2a;zP~3`5GCk
zUU{_mS@J2F7qZ6DU9z^&wh1lUWv$wA1jv*t9hb9fo1ER$1M29#&ih)eT;edoN82M@
z=E(rETK(K6FVJ@ukJ$>SOGBMKa9w!b);wObXP8DTo)39oAbw-eGLX}Sybgx^dbW_h
zT^=@T@oQLx<ByvVlOTXO^sa8mnH(sF;noX<tg@m}!^cZtQ7c(p7z>+(uNY3Pu)@;R
zuxC_*AOOKoR3O8Z7GE^n8BO6fmWcMXuC`&}gbW;`#P;CSM9rjihG5GOXxR*sStJP{
z2FYds-{yGn8Z5I{cjDL+$!>VGDiGA2-5cIWEqb!<eYHVeZSEKY^PH-X^|=Na+nAnR
zJ-2qI604*u!|Th{t9AcmgUoIWj;y}E=2%nLy$v$bJ)}7`vwC)IvEry)skqlqRnOFY
z@dlY`9z3#oe(g$Su}VM_r>gIL7Ocl+>VcUrr|W_F2079kkFS1zO|4vAzx|ZNg_7b@
zyOb1nj=#;9fxJjbDL8)WZm9>TF5yZbgU<+CN^n^?l5)f>w1E-4AAw_Lh9{+IAXmV7
zgRnxDa#=4YJTEvpero$+om}F*M}daRkQ{_Z!}GwS7~@B=r|#X`AbY`0R2FN)2kNnT
z5RqlMIH<o+Zb8d-p|pIj>fqSuFtL#f0|Z2<Ti9z0FYOZbsPYqtx$sB5s`G*LL{zMI
z(pPdMTt>hW<5keMatLW$rPnk047ygXp38<$rCOS0cu>*8QVk$8mrC2sdGUoxkLSB7
zz+N{OAW8RZy4CNAS<-xZ3$P%>Xf5_*2oLYs?${W>)IBKUdEc{LkrHINJSlKld^nz4
z(e(H=8c)U1qA=QFC2qrpvvBPeP3sU9c{5rjkLRAIY#+>Icz>A6u2AksAKMK_I;$DB
zI~uMi9%tzDj6pLxq9)jjua&2|<TT&6(`zuE!}+ST<&?ss)ydDVJ`L^uTXej(^Lvfx
zQq8~A^hK(X_1Bui@wKJ3>+2Vqq41iUTS~&;R~fkqatD0`X6Ks_-~n(c8NPHDG&@Hj
ztWnu1?9k(C7LkVptxY=%1a)*o#4r=PS1$rC=nuig>~2PfDq8h)<?cf;<@i73fy(<0
zdAccwpW9_QvgweVoa}i{pek$|=k2e?N1<iA8o$^90lYhnSeK|z-z;R(v^>NWQ&c+i
z6V8~VR`i15NJ0Ed5Y9~;M_ldiqC0{f4!&H(J#t%u(G1B2c(h$WP;PN<+Yt850)lp6
z=2J2zB!VOQOXNMUh3yh)88+fvr*o$67S^e9(nGyq;y%+Q%ck)Qmn<j!FqYt0wbddV
zvpX4}L5n9`ubd3QOimhZA*$6b9Il*<(5S`Z4i~;3qXQPt&mFUz9E4ehy1p7PTXs;l
z)jMeNhC5~rArAm*M76hUo{p;FJ^(ewdy$S_kcMr8vGJ0eh#JF|&X`U>dz*f^LN&cS
zVYS3tO+15QqTP^rj%B!W!i#8zH<!9=28zqb)>DuxrHr7a7mA98qX12`a}Xow5EJI$
zUD9-#gII#*ijaL_)?)@1X|B75jB2UjtEk)-uVNQ&B4*;V83*zy;2mHi=!^JuVk1XF
z`!cvX%;(}6EsopBFseSbvE$I6odD8>XF&_9_(sb!mONVGFeTN-G~V$8oM;%xs`MPd
zEW%OjrAG8%&3~|sTK%^nGDv`L+igf1Sm$P}L;u*uH{)1lh`!~qw$v?TFBUX#LU$;;
z3O%;(EY{wcbz<fH-(h=J?;E(salXfAPRSpr*giSR_j$Y#JyG+YXzw$z^9AV4qXZri
zOyFYQK!P4efb~TzT|#mI$z>#QB<Ls&`FggH(%GBHKm=iLA>q*d11!Cb1o57shhgs^
zc^63!Xq`hI5*)An4+w(R?1nFR|BYraT8mB9gVUI>g=6>MZ0?=o!P?=fqw?~4zN*)Q
zQw=iLoY}X!Tsc#XJ-qOU)CZvZzUJsI9ziayUu=+F&0{B^cDgcM+p)hMJy7=__=?p1
ziw$z38J`A!GFTmWIF28gKeT$W7MXse*CYEdg_+&YgUUeNH}Pno?%UHK`<uh#z&l(S
zSU=t%<IT|ts2!;+uAgj>3G_hkHsqb$135Z8(8MzW)#qNxIav8|L*Biu!_;%^AOIPq
z(I1dMhL&DHHj{G)2R1tgTBis(p#=g_wZ#)zsU4uX%@crZPkI5mIhb3$MOI{o?5W+G
z12Ww9csp{~Gc>EG$~*as-<t@8$>eW<nTtyRZ5d)(FD5ez006*JSj0rPv_f8RL|#7$
zyEFX76w@=Qtb(nNiQ%SsRRMU)GxTakpbOF16!LtW2e<|!*ayJ*hOh)L7CQVWeoo{#
zKfzK8$p=V!G&G4kBn5ahJQ&o_nT=PM@Is*$JyiD|{z|QTK^>Ml{41m}&0SNgmnu_L
z@(_}msb^lv6L=;|a=7UZ)xu}%?sI=0sJkz3I_z=)OnGw8>gCE|(8S|U$+XY}{Azzq
z_%*cjY69Fg^vjlI)C@S^Rz3{bvX!5<@?kIaS-e(0?56>X*Uo}N7Vq2h-2n^Ju5g!g
z_73E{<&dbLc2Hy_+(y83VhV)3OmA0(s`%Tjg`yENGg*aa%jSq4rWhCP?Fpkv5x&cI
zfHXw7WsF#BY`Ybqvdjm)3|Y(-=$Z?&YL(vQ^B6L}wRvGWjk7UK99R|!*Qgwp;z;sH
zI0Eyv@k=e#HGbXFtBt4*{0{V|P|$QBW^f#NW_Nia&mA70b5ruj&SwMC(c_T&zE>MM
zSPvX(kXJ;C+)j-T9bLU#i_LzySdT3<$k85P<N0*Eb4T?lnGx!VYw53^e}I<l>e-4M
zc}nO~Ib?OjjBqusb}1`dw|GtE<%-I$-h_I3__YpiRXt{ODPlhlM3=<kiP+D><H}Y)
z5%mQhNXbyilL)cfu-Ni0OBZ@WE>k1+LNBfs0;~>V^$-%g0%7NYEVK8q*ai|j#I9fi
zRlotyCLTG&OcJKfy+19X+H~y2f9-tp7G|nFzb9rLU>oLcMV-HqervxcDOTT-RFV>o
zWrO6j8%pM1Fn7WsE^<)oAOp$dC|)~gG<)5cQY=aIT7{x;OSr3d1#2N5dMOb2=#YM9
z^m5`GCz$W)`UpO+VRW%7HAAsqe)P#lpoE`a`Tf8jN4^;O-Po6Uee!T)=VERANNwoo
z+L>RRf98<FJGk;C!Y>GJ+Gx*DseL2TeLlj-?!X#)Ee+Lz>&CBem1Q7kX^9QD@BaDb
zu33JYoTz&tZkTOO?&sBgb?*d*2m!d*f=eczabX|>=>8p{AA^t%Q-d3<O=6di346m8
zB?iPzxCUjz3I9qUrlGb7&xRUixQph0G0ce#JPPBe!tch>q6F|PV2OupOIX6VLts-H
zOML&`zR+-=gcF2+I!>_?bg{vsp(lFgu-R-7aoY}lE&2W~CF)Y*pVGpXlh`7aA8kqS
z+6ofeXqA^ow}MXF0`lRt74_RDs~5H;cx_D(;Fqxf!d5T{V}TE^t=+^nUQHl>d@DF^
oi&UWxytYpHY<qAXcx{bGZL`%^wj_9M&4q2p9(n#F!HWy-|0_S5^#A|>

literal 0
HcmV?d00001

diff --git a/entrypoints/anthropic/__pycache__/serving_messages.cpython-312.pyc b/entrypoints/anthropic/__pycache__/serving_messages.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e4830054cd01a9f571658e7e75f56b63804a7a2e
GIT binary patch
literal 15848
zcmcJ0Yit`ydSLVY){CMfQWRgJL{jgkCE1c~S(4wDEk9;%xjRd6)NPv@J~Yji9}2ZQ
zyF0mPa@t)vxr=3F7S=8n7#mhF+DU+MkO1pEfHQD+IJT%s_jI&(I%ERe{yEUG=5~|Z
z0ryoko1{3@%+6&}kgBVzzWVB`ufD4K9?kz`GU*9OQRTmj{ND=%@ptG&N~&DpWsQs=
z?h_;tBuE)4kII5F{FDdf_^Ajg;HiizW2&G^hG3LYbxae~;Ib;Jjp>3qTvkW*F+<RR
z%bKV$W(t~O6~T&FWw0_<6|9O?2diT>!J3#kXvQ$wXl=|AwBWKXS{JJi*5k51+7Pn_
ztub5B7HbSP#_U0RtSQ(Oa|9hRXV8gZ3{h9i9dzTeG3tpm2b*PtoS@`$r=<xNo>a>d
zm?KKTR?<ZI$O_7LT}f8Htql6*#3_QTdYd4tDfbga4k~b09;jJt9gj0N>BM|w)^&kO
zCc`(Vq-*@r8CQ~`Z$;uaTsOmUGD^|EM4hGsGNEETc{e_Lii%Tom`Tu3qZp6hg@@)c
z_2vSVWT0rAir<LDsflQWiZcO?V9Ad$k%%);cOsgYeFIQQLr+psCS3GBMbimdXvnuq
zl;wsHtYun~^NDzp5^D2JR~VWK$EI$<ctxnMp(z55&WW30<|-ANkA@j4N7l&%9SbuT
z=b1<%4j`u7aOV>@ZcsGL!-M)vB%lw4K&HbnioBXgL?>=0BD2(`FddEwmi;gi#dW3C
zIdbj$>qVL`Q@PfL{jF%Mq&SQTvnUT}5<7~dCxQ0ri}O@`{LB?`6%iV!H1DgtkRYjO
zQc#j%;Ju1Me43SuvVn87caW^Stc48rjw~hnLxPm22*?#bQe7be%IQT7?swR=sL>-l
zP>}2OkBNYswn8u323Zmzb-DiOayJv3@1Bp$cQRr62E}yVSr{4_eq)I0jz(VZp1;f7
zOvJlyMWeB9poG3VpNPbnWOrDSk?x#ChGID}?V7(U)ZV7U^C2{H=yrs;8N$@i4j8Z<
zja(1eTLf>aUA?w?YHfIZa{bVw+O(l7t?YUUO~fq9q=X1Y>E-`|>~~<s6al9MfldfG
z9pohXSHi!XRK2Sv)s&LdP%2VOsYxBBA(e|7f*|$qCYB78mNZg2*okV`i8`_}-%<r{
z)s*gf!!mJQM%KJt5!91r%0SjqM%b?w*smrXLE6bWsH>+ca`<W~jN!T*kx5md(Wq*a
zUssb2Z>xeeq?IxQjw--m101#RUep6xirxUG5nwFK#2s0%4py?MXtU*HM%r_W?We^f
zz;!)AyYjnh|7k&sdp~(nfI~tp*l3DbpyMGX@dg!7hQdj)6pD~Zp$c|oG7*QfB{UzV
zVNr!@Djt44N`=A;OacHw#svd<NbUAq`#cR>kCBj)6cdgBs4dqD)Xh?%NPITBKvJOv
zw9N$*g%6_8EIx?@bxag_6P?>&AvzJIgo+&Xp(x(yf@v1EONhyx4T62&YiL$H!a^_}
z92RslEC=mHSqsWqQRYLLAF^2`WGLz2zXJa8e!2{W{~)_hFz^)9JEj!zeb{d)SxTN#
zq?9RDN}bZAv?*OmpE9J38?q-x5fbhKB#BCpK}CuP<@f7dBA}iQ80i3j(QPP08-VUW
zStrW6Q1-dR3R)^ohS0hR`dIi*j?aP?FU3NV3Md3+l1a=9>L{?4xhd#z%WOCrO+uS0
zxiAllsSUvzM3_)Ws6@aaakWFS@O+>G`cu*C{~{W7Ay~|CG8qab5kFnU=`FemO>zjb
zMR#6MOT@WLqOT9Yl9wR+^;^WAi_lfPqhYlTyv@g(ttf8{pgb_e`^NdEPTtYYH#Cc{
zSu3Hl?hz)PKI<SXPQK2=+q^F{N|%0F`H|L6I{~Rsoj<sM1^8kV)Z(t#cgP~u1q($G
zMC3kkgIJQMWOGnin&=e<!QoUMf{}!cc#;zf+L@Bi!4XlK&{1A)3{w8CTv8%rMEnY=
zSW=XSoFrZYfm%|glyllr>~IV!-vH@P%2v$Kj%HYrpv8s6yj<I&3GgabdX&V0w8KGM
zOeav7+Z@HiOcJZ|*Fa5LQjw~ZY7PlYNs7pp)I~g1%~h2Ez-t+vRs*&&kSVwlMxn>5
zEdI~1iW>OWmWKq&WUsydMckv?%ku};R8w|M(OQ(@HK{4))yh$TDz{=<v|{uawAOr<
z3v}-RW9mqK`5tqY&tf4Bq(YL+h>SGuqw9AMpv#2mx(%&$pT&4bmUO{^SiwkFH^DSY
zP;*H2C`nIp?~;uFA@L(QSqZr9C4le>xaELb!JyrY)0`_;D0)C&Ptj|xDE5sI(l}(*
zyK=JnUB!|vr7gF1DV+o<1KC)qI)E27cvr~*!d+gXNi*iw$pdyy?SWjxGlkYNa!p$p
z$%rD#LrAp8!GIzy?<%BsJeOPL`+Pa9OZo%kPf6CL^mrBbNjY%n12{jlv<j|JHCd1L
zWlBT0Gw6!ODW#F9BpWc#>Qfrhio}St;T)e}v@u_+M77c$j{`mVvNEMj%2(wp!{xc2
zQcEKNKjbUtlmvs+1DxRGf?ZddKn0M^wUyQ)<=}u?bjg<_fJGO6NrKv*k}7zGT67nd
zq>aWWxpQL401yKu&G1Thmak74LixSNpvxGixnZePc!HAK6p=~%fqv-z#tAT^MJq{f
zX-Nk_A@v@o_z%j%&6PXhoOqqJq;nsJ*q6ZI%3*Nt!*KpfV5r3y`k7<W4CanYrNWb}
zBs~Y<EOSo5N!naENsB3i8^{QFP82XprMKiM!xgmdW!m6oKL>Y{DP=5oQZZ8!j`EbJ
zOy$l}s68q5D?Fk0bm2`Zk=}O|#WRwmLq@DzfIV#}D;JvmtC}(bAKVf~G}l1OVlNo^
zw<ww^GGTI-Br<G3m3J`-muMj8Dg<@%ZW7FZfLu^wLqU_%{b_XO3rdE%!_a6c>En<+
z1}Nq(sKDc>Q5A_H14M@(p#?fBC?LZ|G1$fvs1sr(jdq@(LOOIv&|Y7N&tl&Lpo)WY
zLC}GrybuF(7%ABD2q|_%T+3NVV8|>)89@o^ISs>u(G*Z%k_2O3IR~o?6S!!)3hgej
z%V8Hi2xxwZTt>7UWr(JLR#0IZNzh7GHr)&Lf(01_vw6=)&NiU?QJVo-O2`|uKvRMW
z>HPEJ;|;;I&m6ltEhv$VCn&=4yMh*}#Sxk!=`(2L98=KTU<#;8FpyMomX2U|jGzZ&
z5m>@dbTZIFA4To@NHP*nGU50vB`A^%EvUou;PuFH2`vMC8D;q;f(1=1fR!jH!2Ljj
zm=l5moD9IYNQ@H4RL+5IDyYbX*nAQeF+RV*2nw)w=xT&%24$Eb71+2*BF!F#PtsRW
z%Qcj}0vQa1oli7US_JK_a5Mrw3a~WA>QDmDNiuV1vHOTdm#<KP*&oXH0Dgi!Od}Tz
z{dELj#59GHvp1<&I8Z^4pq3-3r7{7N4@dI;5y2#iZ%DM81=Z`=>!ye$ZwPt`7Rn~c
zq6H2!Nh}tEE-yVo6)uWW14i*3;0LT69Y^C%L-tua%!TbR!HY~~wBterQwR+F+{ihj
zXmRXdL+v-{j+mXC1jFYoBC91Do0coHYQosW8Jf2Y%{!IWw5^@9^|7|TKbhFB9OkQ>
zTvaPu)yg-ur28hgzOyX+)t>uQA+N51{_f^g6W`RuH4Sbz4X#e{_4fOV_ZHV*$<()R
zsy@{Jv7T>ed1QIt_SnWY^gl3VRfOXZj92Xvv2JRgy~g^kY*$^~HG4U8=SSww<q5v6
zXS4Z3|IhsCz>(#%K+;<C!}bU5KTU2|w)6h>_YIE?tNOK(OjQeD8X5rt`Uh9_yG^c#
zU;ok9i)h#qY4`xqz%_KR4IP`;pHcsD?l0!p&Y6!IF7sB$L)!z}`t2=i*XH1dqaTds
z0eAiVd{_VGwGY4Xvu|*NQ|#c>v+K`a&kW9_J1@UbDViLgDpXcm)=1c#7{%h2wHJtK
z_P^)<v46{RdQ<f$vw!aWdEie2f7YHkbTU17D&2LO_jc|2JKxto)^GWTH(%fB?0rA@
zIQUfcbHkq+wua9<qcfdn0eQgjLZfN1t?9B=gteJ#2(S%-M}fa-7?9{)+O`hxjgE)I
z4~ExoZ8diC_IA$R$J+aLJNo#6kq=M*?DPlI&*Zzlj`x;+vb3ildir5{V?P_)?jGL_
zw7)Q@-Jbug&^9@;4aCsshp`W0KUJ(xy?5cq7q(q}&ug*@qNx)m)6~Y<dsur9!rFBt
zJ$gQU<U+b*8Yo2FRnYyMjBo^A1Z706gYO<$J-e1-Ydc=3iCXtgy=`qQQy+LVvsK@<
zIrglY?VosdlI=hD{MJ_gHNI!;X_)Of{;ZDeIlZP|AK7Z?-0d05l|HsMe_U(dH8yfa
z4{P+SAO0I-S9VHH)OPKimJ^j;zNVS039vN*-s0u!{ak%NTi?%n`Z>>0)^n7v_Hfm`
zY;`Z+5a1dH*@nRaywq{8T34xGR%Gk)a?e}aIBPF!?OmQ&IlJTT;@m^5d+4e2xi>w0
zG2_0pJh5$b>>BKx!Ot4}X+sb1@GMV!{~~X4aHcla)W(^*SyT7sp)J!0@9>su8r(7s
z^A3NxCe&-kah!8pWE~fG?XA4qmku1}0w>wPNiJ}X4V+86&I8}8YhEf;&I+LMVzz>)
zHZQAqM3RR!c+!S8-dwkQmalE$YTLJK+m|PKWAzWuzjJ=4%Fk5|u~kF6uC`sT|GhIm
zKEt<nbL~gi_9J{-7uR-#Z94+4m=@a$mBv!{QlYD^`BY&rRe&5=I<hvxSoy<a?;J}T
zJa}R&7x`N2vSLNYSJo`+MaPXsa@QE>@NLO=Gn@Clz=4D8q3^-}OD$ZS=Li}2Z3?cu
zxnf8FLaE?Im{W^2#kr*6(B2{};0-EG*lS}bttE&jxhl!FmJump4!kI(DV5i>mlQ=K
z{p-;SuFSdLl-|lxYQZj1q~y|^z6X~0Zvmx$AiuBpw<;BQo)~l?<CIb|d7p&@Ps>xv
zE5tq+bcN!Shp7fWp$I`qN-3ok0Ueo`Lxx{TDux&$R!;ws;<hZHT>J~Y<c*Yk=VBx+
z5{pE`G*U0~cbyLh*}C-k9#<&Jb(3M{lZU&z$;523D}QHpf!YNTk?!z(q+3$T^4*Y2
zp1Dbh<IGdDk?WD!Fj67ATvu;K#7JHY#-B}!U{Wx}C1FB6yYlE3?U$)pDsqb=3jn$8
z;A%-O+9z@<bU{-tv`z<1;29P@=*CEL3j6fQlMu(#pjz<v3#!Sf6W30Gc169ua6_mR
zRUM>ig^<=o-vu@cb+h0xW~dN$x)(G~`ZZ{zkynXEi!Ibk69`>j0NpvKDu5E)kZTC#
zRIPkVKqcx*iwMVWAskvf2FyUv-H_s$Nwm4~GKxw}WsV$axJ7?{4ND!%C6NCe5GDT_
zvj2%a%y2x{a0Ul!aJ+l_;nIVpZA0gdu?C%KY3tC_dT!(rJ8~&Aa(UZ$g*Vr8=26x>
z`t;R|d1_g^W2ip3X9G7f!;Z{kMy_lduktnrXB%W~gPS*>88Wu>T<!T~-6saiYUHO)
z+lFr5Y)>2QpP1^`blc4%+or>Kq;A&Sy{XHX52uZXcPq_YWd~c?@#t%r%AvG&C|gZf
zF3A2VX@-e>_r&0&T=thkvPnYum&4;ac%gp>>i0Rc(ZPj|l$R$Uhl3Fr7&w8siR_G$
zbOV{8dB=63k;%KQp<P?3mrCVaod-acaSlT~B}dDK{7G(f?07HZCMFf=1Ssbk6W!dj
z797m-Q2xM<p8`6*93FMfv7p(9r}<0c5uLaiQdf+J$-82~S^IgEm2t4nHAws}Jn7G;
z>o>##&O*b6QCfu?G8||)m}}**=ABFh+Q5174dhranzIfZkY(f!YRfoN=JKwk0#3#)
zmFGNCsqj1ikGB9Jm7e5w!iFg?aVogtR5xU~kjFQ{y#ZHVC@-%mIXEsVropk0Gy24E
zs$fbiFkqMFjPQUGTe8^1#|EmP!og3`sz(+&-Gj0Llp)&{TX@*<fL#^XnL(d`hQ~_L
zzkm#5Yz@=bp%gIF=n@wP!3HqWE$Ht<CYbhxWQFR&c`Zc`HKK8w6inA4ESS8Riw6pZ
zqTnEn_PU_S9kJp>kaL1Y&H#}R5<#e<i7=U@&q6t%77ufD{GhlR@`8vRZ=o7<{`Leq
zAdrk>lt}dwFK97N_%^&R_8fSeODBHG1@n*4EBPj@B}5IiL`^$i+3>^EJ1M@lj<0FF
z-+ixpr^dxMwLT0z2ysn^*`~w1!}l=pAi+6~v5sSVDuuaXPp7TXFRQaPgweto?5x4Q
zHp3d6oS~C7bZ*vd8HRXw`|`<;j1JyZ$C(_g$+7k(YjWq*^5HGh5#HT-Fu>@R=@`ZU
zYW|*@FnM@O<F47xnZ2ypyFSC3eViE``kZ-a%RB^{ah;R1w6d1g^*32dfV1?nmR`;>
zvSk_BwbbwFR7iW)^yrs0K(Vcvv$nC;wnt!JbaK`~);h>pk8fL#FQ3`*4Dk>RHQVox
z-W%mD4$k6ZEk4fD!CE?Y>TLJt?#-=RId?zn?&sWNta~g|cNDNUSEP+jFg{JS>4x@n
zeFtmoc;{5MlCX`-(0J};^-9HVrDfTK)$@IK4U$U*Z0?t>5cm=markmVwj?JZgh<Ml
zln}sFrDT0XKYaOx)kkGceN?B^bNQPIu;db%SN&F%5cE=$Dw41f<y877xgK*!Unogr
z-sQiffdGOApY8*N8;#U%<O4nsB-GC3?~Vc@_ySF~p_k6bB^`t2ic?BQYNh%=Qi4J(
zgD{mrDy`gN@~VHiTc{BDfS`(;o++ZrSfnoN%Y^~quGY`x)o6(xf`Ah(XGCmNNR%x>
zun%rjL;1OFR7$5|$;|RMLViB~jmfL%FnXE$NWw(QF`qw9spzi4tWrv{YNI+&l@Z+9
zWx0JIMO9K?i6Srw%G^A2`OrmyFDXSXh*%@hxMV6&Mw$zu#gu8IR)Q(qH!$BaHx3OU
zuX6QsW$qlfW##3e55&@1pkFE>EE^Vy4;yvTYC~Y?%dW3k!Xj}KLUsSO{JN6(OQ&)H
zvhOs0*&a&@2)!vjw^x~f+gzEz+IRjcrAm$#RuSZ@p6Ql2MK+Mu4VyGa2%+Wn#s3GV
z>Ln}^r{G*ueHAkxt$3fHkmbt0dDsi`NH%>HBNcJN@h{+ny_6F``7gidRLDtBxm88l
zP)U;Z9-JYQaJ|b{6)Uzc&4Ds_MJkpmQWfRS)9?HQ&Z@zEYw#7HRrvl>l1{8)D))_4
zEVZuk^g%5OPn9G%Im*_T3lYP~K}3iRx1{lY^*bW|jeWB!mSInMIuE4(P{~B$716)Z
zEXm)-S1ZNJmGcGKNiQ=ZjZe0at%aL(!zYcuRGF&$lDC&v>YG1B@|wb`a%E+RfPDE7
zahGT&n8VWeUV^^9RK?^2@N@ZawFCj5N%*BbBO?x)1v4(er>Z3Ae}#D|@){5>eGPQI
zrK)dL-OW93%We~Q6kj85%dnd+FntwUMkg0l_=DwNA_Y#6=@->spS(Cd^_pNTIFJ(a
z0U0)lAOdWn?&Q8Kg|EyR!6?1P6LD&>Lj3kw#Guy;rUDL#sX;vR91J4bC&+@5f}Q^!
zm1Xq1h=Lk$RH0AfLpVwY-YXbfjv|mGbw@PIaIiIx8NS_S!qEBm5$4}Th!hwMdDoyt
zw9m|?NP(IXqYt{RBNP*m6+(exsIa6vMhstlLJTk@4qw!l{t3cz31#TepnrhyRf)k$
z<lW2l5W~EJ5ycuK;V5?e!N=$Ld;bcE#Zq(}YVrG`{Y)IkL0yQuQjng`IVdF_K8A4?
zJ@{*QS0paEEnTAb&z1N7bp_ml9%981;Y1&b!`G?|M3%vH#7`R8-1K)*hCBc?@^%U4
z{h?UVM~T$%B2)MVdcB7-^mz*%Mj7%}(Rmx0{vmo@McMD6472GtDj};^w8aZ{?paia
z6jVVsb!V2sVPbj-zk|T#-oFX&f$AaySbseN^9V&C5RV5DN)`?akzgq!3=}CSQ8z)0
zc#M3ef)QKhk}-~aUxG0~N5Fv#KG}u%8}PLPegHQi)Q`)e5Ms-_0xum{`MF;($f#sB
zpb+iuqFgk=e;b+>d%ws8|BNdaeg#7$J7D8t*J@Tv$#pHfwFv@7cGvO+-qQ>gCGQQS
zjqd;9@coLoCO37ilHlvSf9&3|^`Vc<?Yy&jeSH1I+MS2rdho4`vzv1sVx5OJnT&IE
z^)z4aTpxyT>y8i1?Cw2<+;3YmLI}~-!8wnxP84T)dNr#cT%#`uxy!bu1RLAgzd7*K
zk#U^PG@RxgJ=+aEpZF#?->a<eRo?D>DdKpcCG4#`-eJCFV8=hs`}*Je_K&~KcXaV>
zhq$&;wrzAzqYQZVRGJpY+7!e~+q&1z^38s(d6;b;e#WGmhcnIR*Cuy7K<U#^#&aQK
zzW~@_c)N2g#X0*~XMd(~;Hhk@apYs?z)t5l-!{ev#=z;&<yqH5fZN~4`Nmn_c>2=S
zv~N7)ySA>}X+8XOAU%F9)A~xr^$L!m9c9~&a&0HrwiCRobIUcf32`)eyJPJfjMOrM
zsBay3*0|kz0iL_Qe$F?t<r@Kp^d04TC)nNzu6JgucV;)xR@~TsjO&|Z`zE=*SGM|I
zfyO<P#^>4781Q5p2yftX=lQYSyW8mF8oSxX?oAon*vB;<XB&^F8_)9{!(7L4w&OU&
zWjiLgjv2ONX6*vN!;;zk`+5wsjl=nVA2$#0_(w5^j_&lG;ye4FdSJ2pTlX~TfM;C=
zK}mln=Nn~xqt6G@zR`^DQl49{WLjU%xL)OlN7JssU1z(<`^|9>BF;I=I!8I@B<q}f
zF5hyV{n+J4Yu*ZsI}8lt1B39#1;*F_iW>)xOOerOHZTn<g?J(fzyUl-k6q4qu4L?2
zV3M#T4)?m9a}Toa!Obx19_HLfS@%)SeTH?P$uymPKC|64&HD#9|0wGpeLBPXk8%Df
z)<4DhFR}hh>6y!{|H|4K-syjsdXP#xhY(+Sr}(aMzH=Pt>1$m-3zE}uh-;r>+o$+L
zhhe2VPRc;`J6hK#Vf^-EyuTyebpi=VD^$0%0_Vq0$kN^s-aGWPm-UXOy+fbu<Mj~V
zKJfnN<I&yr0j_;)t9=ZRb`5cz$JoweT<7Fg=j3i@FW=PzLV^~=fET3UH(3zYH3&2X
z#&QeWHq3V(D<0+0F>de_J9vs4oY@+jfl<H()eb}G@DR0MI0W$g6W9bz-W^8=@9yQj
zCxA&#+n!3@TDLk4LSt{^8b{d1k>|>E<4C6Q!s_IXt?Lo9`D(^CmZ=@%Z5<!gc4XgB
zqEqP~A4Gn=7grKh)_)+hx)ulsaYj39w5OZKw~Z%untFMQeW%WwZae(f6VGLTb#lAz
z9E|3uSe}L@sr7K?Ue?_EOqn+KqCnB)PEG4N^XSz~&0xj|UkZ3Rqc?5z{&Th(aQ~m=
zt8mzUS9Y~p_O|}AllX!1a+Cb`WS4E~-&a8C56)LX<$v~1^}%DyCWET2CK)O_P?s&I
z?rMc%%Rg?vs#9z$RZz99Q$f{sg#yX}*>s>D{qzHUwFW=^(1${Bc`m?jdP0IR6nb+Z
z9L=?8LLmrmhC(#*#?r{0L!;}AM)6-7`Tqsw>)^4)KjNVEs1jWtI5bEjO^rqtwdjz>
z!N6toiXwtEa_7?MLJ>^4--ygo5E%@Cj)XMZBy#s17q1;R0!0}z+>^(k<=1Z$A1epp
z8;Xuz-sRyvKHk&HclPn^J^#?;QR#Q<o3ko-f?!vBvl>*=5)F-69V!_KYwIH=e2|kh
zq1Os%Si5>}F<Xh=stDgnS+*J#YlxOW){IKEM57~XL8Usv?#kAqQUg(ET^qO;%v#Z#
zjqtT+8&Sy)y*@=WWKYXZ$yH|F4M#01?CKmZRj82tH%fqhp=nSJ?^Xx0DtH2&bxmu`
zy>DhwEzqiOSW~QBUDL5TPrBtOt2_FviPcTN)S=b^zp8H63?1PK9revGHK=q|7Llu3
zcFpef=5=O0z?wU<DpZ3&3fO+7L3OlK;%K0a{y8d>DEl_bW+4+QXA{vVg+FeD(Dv)I
zco_vXd@l)cVOohmG}ptRpUp?`G7Ginhk#w;&$qfD%D^N50~Q*gIoFi`jbKr%JP(PL
zE3AnjZAz3Rth-@N4{2vY<7e>Tc<=%PzbX?&vHmj<VtgA*tKj-ftN3YKf!r!IG?rg1
zp-8I~zvRQBi(*=W_aG$jK_~kCEslfJ$OS62ei10vSCe>Cp@=qf9tY#;KS#qN9a7wB
zSi!|R00qFrl|#-;K|3n$*`xG-fmhfRMDlx(Wfd}+?1hn#b^aY;_*<glZwbRMh_+u4
zb$?GZ{yow8E4fxC{}ln*3zU6YLcenIq>sh@!Qle;?Gay_TBu{zt@a7O2SOPy8A
fWZi4YECG*4{V&mDPy3o$){=Jid`h4KCi4FQ&fpLn

literal 0
HcmV?d00001

diff --git a/entrypoints/anthropic/protocol.py b/entrypoints/anthropic/protocol.py
new file mode 100644
index 0000000..626ca74
--- /dev/null
+++ b/entrypoints/anthropic/protocol.py
@@ -0,0 +1,162 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Pydantic models for Anthropic API protocol"""
+
+import time
+from typing import Any, Literal, Optional
+
+from pydantic import BaseModel, field_validator
+
+
+class AnthropicError(BaseModel):
+    """Error structure for Anthropic API"""
+
+    type: str
+    message: str
+
+
+class AnthropicErrorResponse(BaseModel):
+    """Error response structure for Anthropic API"""
+
+    type: Literal["error"] = "error"
+    error: AnthropicError
+
+
+class AnthropicUsage(BaseModel):
+    """Token usage information"""
+
+    input_tokens: int
+    output_tokens: int
+    cache_creation_input_tokens: int | None = None
+    cache_read_input_tokens: int | None = None
+
+
+class AnthropicContentBlock(BaseModel):
+    """Content block in message"""
+
+    type: Literal["text", "image", "tool_use", "tool_result"]
+    text: str | None = None
+    # For image content
+    source: dict[str, Any] | None = None
+    # For tool use/result
+    id: str | None = None
+    name: str | None = None
+    input: dict[str, Any] | None = None
+    content: str | list[dict[str, Any]] | None = None
+    is_error: bool | None = None
+
+
+class AnthropicMessage(BaseModel):
+    """Message structure"""
+
+    role: Literal["user", "assistant"]
+    content: str | list[AnthropicContentBlock]
+
+
+class AnthropicTool(BaseModel):
+    """Tool definition"""
+
+    name: str
+    description: str | None = None
+    input_schema: dict[str, Any]
+
+    @field_validator("input_schema")
+    @classmethod
+    def validate_input_schema(cls, v):
+        if not isinstance(v, dict):
+            raise ValueError("input_schema must be a dictionary")
+        if "type" not in v:
+            v["type"] = "object"  # Default to object type
+        return v
+
+
+class AnthropicToolChoice(BaseModel):
+    """Tool Choice definition"""
+
+    type: Literal["auto", "any", "tool"]
+    name: str | None = None
+
+
+class AnthropicMessagesRequest(BaseModel):
+    """Anthropic Messages API request"""
+
+    model: str
+    messages: list[AnthropicMessage]
+    max_tokens: int
+    metadata: dict[str, Any] | None = None
+    stop_sequences: list[str] | None = None
+    stream: bool | None = False
+    system: str | list[AnthropicContentBlock] | None = None
+    temperature: float | None = None
+    tool_choice: AnthropicToolChoice | None = None
+    tools: list[AnthropicTool] | None = None
+    top_k: int | None = None
+    top_p: float | None = None
+
+    @field_validator("model")
+    @classmethod
+    def validate_model(cls, v):
+        if not v:
+            raise ValueError("Model is required")
+        return v
+
+    @field_validator("max_tokens")
+    @classmethod
+    def validate_max_tokens(cls, v):
+        if v <= 0:
+            raise ValueError("max_tokens must be positive")
+        return v
+
+
+class AnthropicDelta(BaseModel):
+    """Delta for streaming responses"""
+
+    type: Literal["text_delta", "input_json_delta"] | None = None
+    text: str | None = None
+    partial_json: str | None = None
+
+    # Message delta
+    stop_reason: (
+        Literal["end_turn", "max_tokens", "stop_sequence", "tool_use"] | None
+    ) = None
+    stop_sequence: str | None = None
+
+
+class AnthropicStreamEvent(BaseModel):
+    """Streaming event"""
+
+    type: Literal[
+        "message_start",
+        "message_delta",
+        "message_stop",
+        "content_block_start",
+        "content_block_delta",
+        "content_block_stop",
+        "ping",
+        "error",
+    ]
+    message: Optional["AnthropicMessagesResponse"] = None
+    delta: AnthropicDelta | None = None
+    content_block: AnthropicContentBlock | None = None
+    index: int | None = None
+    error: AnthropicError | None = None
+    usage: AnthropicUsage | None = None
+
+
+class AnthropicMessagesResponse(BaseModel):
+    """Anthropic Messages API response"""
+
+    id: str
+    type: Literal["message"] = "message"
+    role: Literal["assistant"] = "assistant"
+    content: list[AnthropicContentBlock]
+    model: str
+    stop_reason: (
+        Literal["end_turn", "max_tokens", "stop_sequence", "tool_use"] | None
+    ) = None
+    stop_sequence: str | None = None
+    usage: AnthropicUsage | None = None
+
+    def model_post_init(self, __context):
+        if not self.id:
+            self.id = f"msg_{int(time.time() * 1000)}"
diff --git a/entrypoints/anthropic/serving_messages.py b/entrypoints/anthropic/serving_messages.py
new file mode 100644
index 0000000..340dabf
--- /dev/null
+++ b/entrypoints/anthropic/serving_messages.py
@@ -0,0 +1,460 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from
+# https://github.com/vllm/vllm/entrypoints/openai/serving_chat.py
+
+"""Anthropic Messages API serving handler"""
+
+import json
+import logging
+import time
+from collections.abc import AsyncGenerator
+from typing import Any
+
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.anthropic.protocol import (
+    AnthropicContentBlock,
+    AnthropicDelta,
+    AnthropicError,
+    AnthropicMessagesRequest,
+    AnthropicMessagesResponse,
+    AnthropicStreamEvent,
+    AnthropicUsage,
+)
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionNamedToolChoiceParam,
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+    ChatCompletionStreamResponse,
+    ChatCompletionToolsParam,
+    ErrorResponse,
+    StreamOptions,
+)
+from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+
+logger = logging.getLogger(__name__)
+
+
+def wrap_data_with_event(data: str, event: str):
+    return f"event: {event}\ndata: {data}\n\n"
+
+
+class AnthropicServingMessages(OpenAIServingChat):
+    """Handler for Anthropic Messages API requests"""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        response_role: str,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        return_tokens_as_token_ids: bool = False,
+        reasoning_parser: str = "",
+        enable_auto_tools: bool = False,
+        tool_parser: str | None = None,
+        enable_prompt_tokens_details: bool = False,
+        enable_force_include_usage: bool = False,
+    ):
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            response_role=response_role,
+            request_logger=request_logger,
+            chat_template=chat_template,
+            chat_template_content_format=chat_template_content_format,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            reasoning_parser=reasoning_parser,
+            enable_auto_tools=enable_auto_tools,
+            tool_parser=tool_parser,
+            enable_prompt_tokens_details=enable_prompt_tokens_details,
+            enable_force_include_usage=enable_force_include_usage,
+        )
+        self.stop_reason_map = {
+            "stop": "end_turn",
+            "length": "max_tokens",
+            "tool_calls": "tool_use",
+        }
+
+    def _convert_anthropic_to_openai_request(
+        self, anthropic_request: AnthropicMessagesRequest
+    ) -> ChatCompletionRequest:
+        """Convert Anthropic message format to OpenAI format"""
+        openai_messages = []
+
+        # Add system message if provided
+        if anthropic_request.system:
+            if isinstance(anthropic_request.system, str):
+                openai_messages.append(
+                    {"role": "system", "content": anthropic_request.system}
+                )
+            else:
+                system_prompt = ""
+                for block in anthropic_request.system:
+                    if block.type == "text" and block.text:
+                        system_prompt += block.text
+                openai_messages.append({"role": "system", "content": system_prompt})
+
+        for msg in anthropic_request.messages:
+            openai_msg: dict[str, Any] = {"role": msg.role}  # type: ignore
+            if isinstance(msg.content, str):
+                openai_msg["content"] = msg.content
+            else:
+                # Handle complex content blocks
+                content_parts: list[dict[str, Any]] = []
+                tool_calls: list[dict[str, Any]] = []
+
+                for block in msg.content:
+                    if block.type == "text" and block.text:
+                        content_parts.append({"type": "text", "text": block.text})
+                    elif block.type == "image" and block.source:
+                        content_parts.append(
+                            {
+                                "type": "image_url",
+                                "image_url": {"url": block.source.get("data", "")},
+                            }
+                        )
+                    elif block.type == "tool_use":
+                        # Convert tool use to function call format
+                        tool_call = {
+                            "id": block.id or f"call_{int(time.time())}",
+                            "type": "function",
+                            "function": {
+                                "name": block.name or "",
+                                "arguments": json.dumps(block.input or {}),
+                            },
+                        }
+                        tool_calls.append(tool_call)
+                    elif block.type == "tool_result":
+                        if msg.role == "user":
+                            openai_messages.append(
+                                {
+                                    "role": "tool",
+                                    "tool_call_id": block.id or "",
+                                    "content": str(block.content)
+                                    if block.content
+                                    else "",
+                                }
+                            )
+                        else:
+                            # Assistant tool result becomes regular text
+                            tool_result_text = (
+                                str(block.content) if block.content else ""
+                            )
+                            content_parts.append(
+                                {
+                                    "type": "text",
+                                    "text": f"Tool result: {tool_result_text}",
+                                }
+                            )
+
+                # Add tool calls to the message if any
+                if tool_calls:
+                    openai_msg["tool_calls"] = tool_calls  # type: ignore
+
+                # Add content parts if any
+                if content_parts:
+                    if len(content_parts) == 1 and content_parts[0]["type"] == "text":
+                        openai_msg["content"] = content_parts[0]["text"]
+                    else:
+                        openai_msg["content"] = content_parts  # type: ignore
+                elif not tool_calls:
+                    continue
+
+            openai_messages.append(openai_msg)
+
+        req = ChatCompletionRequest(
+            model=anthropic_request.model,
+            messages=openai_messages,
+            max_tokens=anthropic_request.max_tokens,
+            max_completion_tokens=anthropic_request.max_tokens,
+            stop=anthropic_request.stop_sequences,
+            temperature=anthropic_request.temperature,
+            top_p=anthropic_request.top_p,
+            top_k=anthropic_request.top_k,
+        )
+
+        if anthropic_request.stream:
+            req.stream = anthropic_request.stream
+            req.stream_options = StreamOptions.validate({"include_usage": True})
+
+        if anthropic_request.tool_choice is None:
+            req.tool_choice = None
+        elif anthropic_request.tool_choice.type == "auto":
+            req.tool_choice = "auto"
+        elif anthropic_request.tool_choice.type == "any":
+            req.tool_choice = "required"
+        elif anthropic_request.tool_choice.type == "tool":
+            req.tool_choice = ChatCompletionNamedToolChoiceParam.model_validate(
+                {
+                    "type": "function",
+                    "function": {"name": anthropic_request.tool_choice.name},
+                }
+            )
+
+        tools = []
+        if anthropic_request.tools is None:
+            return req
+        for tool in anthropic_request.tools:
+            tools.append(
+                ChatCompletionToolsParam.model_validate(
+                    {
+                        "type": "function",
+                        "function": {
+                            "name": tool.name,
+                            "description": tool.description,
+                            "parameters": tool.input_schema,
+                        },
+                    }
+                )
+            )
+        if req.tool_choice is None:
+            req.tool_choice = "auto"
+        req.tools = tools
+        return req
+
+    async def create_messages(
+        self,
+        request: AnthropicMessagesRequest,
+        raw_request: Request | None = None,
+    ) -> AsyncGenerator[str, None] | AnthropicMessagesResponse | ErrorResponse:
+        """
+        Messages API similar to Anthropic's API.
+
+        See https://docs.anthropic.com/en/api/messages
+        for the API specification. This API mimics the Anthropic messages API.
+        """
+        if logger.isEnabledFor(logging.DEBUG):
+            logger.debug("Received messages request %s", request.model_dump_json())
+        chat_req = self._convert_anthropic_to_openai_request(request)
+        if logger.isEnabledFor(logging.DEBUG):
+            logger.debug("Convert to OpenAI request %s", chat_req.model_dump_json())
+        generator = await self.create_chat_completion(chat_req, raw_request)
+
+        if isinstance(generator, ErrorResponse):
+            return generator
+
+        elif isinstance(generator, ChatCompletionResponse):
+            return self.messages_full_converter(generator)
+
+        return self.message_stream_converter(generator)
+
+    def messages_full_converter(
+        self,
+        generator: ChatCompletionResponse,
+    ) -> AnthropicMessagesResponse:
+        result = AnthropicMessagesResponse(
+            id=generator.id,
+            content=[],
+            model=generator.model,
+            usage=AnthropicUsage(
+                input_tokens=generator.usage.prompt_tokens,
+                output_tokens=generator.usage.completion_tokens,
+            ),
+        )
+        if generator.choices[0].finish_reason == "stop":
+            result.stop_reason = "end_turn"
+        elif generator.choices[0].finish_reason == "length":
+            result.stop_reason = "max_tokens"
+        elif generator.choices[0].finish_reason == "tool_calls":
+            result.stop_reason = "tool_use"
+
+        content: list[AnthropicContentBlock] = [
+            AnthropicContentBlock(
+                type="text",
+                text=generator.choices[0].message.content
+                if generator.choices[0].message.content
+                else "",
+            )
+        ]
+
+        for tool_call in generator.choices[0].message.tool_calls:
+            anthropic_tool_call = AnthropicContentBlock(
+                type="tool_use",
+                id=tool_call.id,
+                name=tool_call.function.name,
+                input=json.loads(tool_call.function.arguments),
+            )
+            content += [anthropic_tool_call]
+
+        result.content = content
+
+        return result
+
+    async def message_stream_converter(
+        self,
+        generator: AsyncGenerator[str, None],
+    ) -> AsyncGenerator[str, None]:
+        try:
+            first_item = True
+            finish_reason = None
+            content_block_index = 0
+            content_block_started = False
+
+            async for item in generator:
+                if item.startswith("data:"):
+                    data_str = item[5:].strip().rstrip("\n")
+                    if data_str == "[DONE]":
+                        stop_message = AnthropicStreamEvent(
+                            type="message_stop",
+                        )
+                        data = stop_message.model_dump_json(
+                            exclude_unset=True, exclude_none=True
+                        )
+                        yield wrap_data_with_event(data, "message_stop")
+                        yield "data: [DONE]\n\n"
+                    else:
+                        origin_chunk = ChatCompletionStreamResponse.model_validate_json(
+                            data_str
+                        )
+
+                        if first_item:
+                            chunk = AnthropicStreamEvent(
+                                type="message_start",
+                                message=AnthropicMessagesResponse(
+                                    id=origin_chunk.id,
+                                    content=[],
+                                    model=origin_chunk.model,
+                                ),
+                            )
+                            first_item = False
+                            data = chunk.model_dump_json(exclude_unset=True)
+                            yield wrap_data_with_event(data, "message_start")
+                            continue
+
+                        # last chunk including usage info
+                        if len(origin_chunk.choices) == 0:
+                            if content_block_started:
+                                stop_chunk = AnthropicStreamEvent(
+                                    index=content_block_index,
+                                    type="content_block_stop",
+                                )
+                                data = stop_chunk.model_dump_json(exclude_unset=True)
+                                yield wrap_data_with_event(data, "content_block_stop")
+                            stop_reason = self.stop_reason_map.get(
+                                finish_reason or "stop"
+                            )
+                            chunk = AnthropicStreamEvent(
+                                type="message_delta",
+                                delta=AnthropicDelta(stop_reason=stop_reason),
+                                usage=AnthropicUsage(
+                                    input_tokens=origin_chunk.usage.prompt_tokens
+                                    if origin_chunk.usage
+                                    else 0,
+                                    output_tokens=origin_chunk.usage.completion_tokens
+                                    if origin_chunk.usage
+                                    else 0,
+                                ),
+                            )
+                            data = chunk.model_dump_json(exclude_unset=True)
+                            yield wrap_data_with_event(data, "message_delta")
+                            continue
+
+                        if origin_chunk.choices[0].finish_reason is not None:
+                            finish_reason = origin_chunk.choices[0].finish_reason
+                            continue
+
+                        # content
+                        if origin_chunk.choices[0].delta.content is not None:
+                            if not content_block_started:
+                                chunk = AnthropicStreamEvent(
+                                    index=content_block_index,
+                                    type="content_block_start",
+                                    content_block=AnthropicContentBlock(
+                                        type="text", text=""
+                                    ),
+                                )
+                                data = chunk.model_dump_json(exclude_unset=True)
+                                yield wrap_data_with_event(data, "content_block_start")
+                                content_block_started = True
+
+                            if origin_chunk.choices[0].delta.content == "":
+                                continue
+                            chunk = AnthropicStreamEvent(
+                                index=content_block_index,
+                                type="content_block_delta",
+                                delta=AnthropicDelta(
+                                    type="text_delta",
+                                    text=origin_chunk.choices[0].delta.content,
+                                ),
+                            )
+                            data = chunk.model_dump_json(exclude_unset=True)
+                            yield wrap_data_with_event(data, "content_block_delta")
+                            continue
+
+                        # tool calls
+                        elif len(origin_chunk.choices[0].delta.tool_calls) > 0:
+                            tool_call = origin_chunk.choices[0].delta.tool_calls[0]
+                            if tool_call.id is not None:
+                                if content_block_started:
+                                    stop_chunk = AnthropicStreamEvent(
+                                        index=content_block_index,
+                                        type="content_block_stop",
+                                    )
+                                    data = stop_chunk.model_dump_json(
+                                        exclude_unset=True
+                                    )
+                                    yield wrap_data_with_event(
+                                        data, "content_block_stop"
+                                    )
+                                    content_block_started = False
+                                    content_block_index += 1
+
+                                chunk = AnthropicStreamEvent(
+                                    index=content_block_index,
+                                    type="content_block_start",
+                                    content_block=AnthropicContentBlock(
+                                        type="tool_use",
+                                        id=tool_call.id,
+                                        name=tool_call.function.name
+                                        if tool_call.function
+                                        else None,
+                                        input={},
+                                    ),
+                                )
+                                data = chunk.model_dump_json(exclude_unset=True)
+                                yield wrap_data_with_event(data, "content_block_start")
+                                content_block_started = True
+
+                            else:
+                                chunk = AnthropicStreamEvent(
+                                    index=content_block_index,
+                                    type="content_block_delta",
+                                    delta=AnthropicDelta(
+                                        type="input_json_delta",
+                                        partial_json=tool_call.function.arguments
+                                        if tool_call.function
+                                        else None,
+                                    ),
+                                )
+                                data = chunk.model_dump_json(exclude_unset=True)
+                                yield wrap_data_with_event(data, "content_block_delta")
+                            continue
+                else:
+                    error_response = AnthropicStreamEvent(
+                        type="error",
+                        error=AnthropicError(
+                            type="internal_error",
+                            message="Invalid data format received",
+                        ),
+                    )
+                    data = error_response.model_dump_json(exclude_unset=True)
+                    yield wrap_data_with_event(data, "error")
+                    yield "data: [DONE]\n\n"
+
+        except Exception as e:
+            logger.exception("Error in message stream converter.")
+            error_response = AnthropicStreamEvent(
+                type="error",
+                error=AnthropicError(type="internal_error", message=str(e)),
+            )
+            data = error_response.model_dump_json(exclude_unset=True)
+            yield wrap_data_with_event(data, "error")
+            yield "data: [DONE]\n\n"
diff --git a/entrypoints/api_server.py b/entrypoints/api_server.py
new file mode 100644
index 0000000..154cdeb
--- /dev/null
+++ b/entrypoints/api_server.py
@@ -0,0 +1,184 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+NOTE: This API server is used only for demonstrating usage of AsyncEngine
+and simple performance benchmarks. It is not intended for production use.
+For production use, we recommend using our OpenAI compatible server.
+We are also not going to accept PRs modifying this file, please
+change `vllm/entrypoints/openai/api_server.py` instead.
+"""
+
+import asyncio
+import json
+import ssl
+from argparse import Namespace
+from collections.abc import AsyncGenerator
+from typing import Any
+
+from fastapi import FastAPI, Request
+from fastapi.responses import JSONResponse, Response, StreamingResponse
+
+import vllm.envs as envs
+from vllm.engine.arg_utils import AsyncEngineArgs
+from vllm.engine.async_llm_engine import AsyncLLMEngine
+from vllm.entrypoints.launcher import serve_http
+from vllm.entrypoints.utils import with_cancellation
+from vllm.logger import init_logger
+from vllm.sampling_params import SamplingParams
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils import random_uuid
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.system_utils import set_ulimit
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger("vllm.entrypoints.api_server")
+
+app = FastAPI()
+engine = None
+
+
+@app.get("/health")
+async def health() -> Response:
+    """Health check."""
+    return Response(status_code=200)
+
+
+@app.post("/generate")
+async def generate(request: Request) -> Response:
+    """Generate completion for the request.
+
+    The request should be a JSON object with the following fields:
+    - prompt: the prompt to use for the generation.
+    - stream: whether to stream the results or not.
+    - other fields: the sampling parameters (See `SamplingParams` for details).
+    """
+    request_dict = await request.json()
+    return await _generate(request_dict, raw_request=request)
+
+
+@with_cancellation
+async def _generate(request_dict: dict, raw_request: Request) -> Response:
+    prompt = request_dict.pop("prompt")
+    stream = request_dict.pop("stream", False)
+    sampling_params = SamplingParams(**request_dict)
+    request_id = random_uuid()
+
+    assert engine is not None
+    results_generator = engine.generate(prompt, sampling_params, request_id)
+
+    # Streaming case
+    async def stream_results() -> AsyncGenerator[bytes, None]:
+        async for request_output in results_generator:
+            prompt = request_output.prompt
+            assert prompt is not None
+            text_outputs = [prompt + output.text for output in request_output.outputs]
+            ret = {"text": text_outputs}
+            yield (json.dumps(ret) + "\n").encode("utf-8")
+
+    if stream:
+        return StreamingResponse(stream_results())
+
+    # Non-streaming case
+    final_output = None
+    try:
+        async for request_output in results_generator:
+            final_output = request_output
+    except asyncio.CancelledError:
+        return Response(status_code=499)
+
+    assert final_output is not None
+    prompt = final_output.prompt
+    assert prompt is not None
+    text_outputs = [prompt + output.text for output in final_output.outputs]
+    ret = {"text": text_outputs}
+    return JSONResponse(ret)
+
+
+def build_app(args: Namespace) -> FastAPI:
+    global app
+
+    app.root_path = args.root_path
+    return app
+
+
+async def init_app(
+    args: Namespace,
+    llm_engine: AsyncLLMEngine | None = None,
+) -> FastAPI:
+    app = build_app(args)
+
+    global engine
+
+    engine_args = AsyncEngineArgs.from_cli_args(args)
+    engine = (
+        llm_engine
+        if llm_engine is not None
+        else AsyncLLMEngine.from_engine_args(
+            engine_args, usage_context=UsageContext.API_SERVER
+        )
+    )
+    app.state.engine_client = engine
+    return app
+
+
+async def run_server(
+    args: Namespace, llm_engine: AsyncLLMEngine | None = None, **uvicorn_kwargs: Any
+) -> None:
+    logger.info("vLLM API server version %s", VLLM_VERSION)
+    logger.info("args: %s", args)
+
+    set_ulimit()
+
+    app = await init_app(args, llm_engine)
+    assert engine is not None
+
+    shutdown_task = await serve_http(
+        app,
+        sock=None,
+        enable_ssl_refresh=args.enable_ssl_refresh,
+        host=args.host,
+        port=args.port,
+        log_level=args.log_level,
+        timeout_keep_alive=envs.VLLM_HTTP_TIMEOUT_KEEP_ALIVE,
+        ssl_keyfile=args.ssl_keyfile,
+        ssl_certfile=args.ssl_certfile,
+        ssl_ca_certs=args.ssl_ca_certs,
+        ssl_cert_reqs=args.ssl_cert_reqs,
+        **uvicorn_kwargs,
+    )
+
+    await shutdown_task
+
+
+if __name__ == "__main__":
+    parser = FlexibleArgumentParser()
+    parser.add_argument("--host", type=str, default=None)
+    parser.add_argument("--port", type=parser.check_port, default=8000)
+    parser.add_argument("--ssl-keyfile", type=str, default=None)
+    parser.add_argument("--ssl-certfile", type=str, default=None)
+    parser.add_argument(
+        "--ssl-ca-certs", type=str, default=None, help="The CA certificates file"
+    )
+    parser.add_argument(
+        "--enable-ssl-refresh",
+        action="store_true",
+        default=False,
+        help="Refresh SSL Context when SSL certificate files change",
+    )
+    parser.add_argument(
+        "--ssl-cert-reqs",
+        type=int,
+        default=int(ssl.CERT_NONE),
+        help="Whether client certificate is required (see stdlib ssl module's)",
+    )
+    parser.add_argument(
+        "--root-path",
+        type=str,
+        default=None,
+        help="FastAPI root_path when app is behind a path based routing proxy",
+    )
+    parser.add_argument("--log-level", type=str, default="debug")
+    parser = AsyncEngineArgs.add_cli_args(parser)
+    args = parser.parse_args()
+
+    asyncio.run(run_server(args))
diff --git a/entrypoints/chat_utils.py b/entrypoints/chat_utils.py
new file mode 100644
index 0000000..3b722c2
--- /dev/null
+++ b/entrypoints/chat_utils.py
@@ -0,0 +1,1690 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import inspect
+import json
+from abc import ABC, abstractmethod
+from collections import Counter, defaultdict, deque
+from collections.abc import Awaitable, Callable, Iterable
+from functools import cached_property, lru_cache, partial
+from pathlib import Path
+from typing import Any, Generic, Literal, TypeAlias, TypeVar, cast
+
+import jinja2
+import jinja2.ext
+import jinja2.meta
+import jinja2.nodes
+import jinja2.parser
+import jinja2.sandbox
+import transformers.utils.chat_template_utils as hf_chat_utils
+from openai.types.chat import (
+    ChatCompletionAssistantMessageParam,
+    ChatCompletionContentPartImageParam,
+    ChatCompletionContentPartInputAudioParam,
+    ChatCompletionContentPartRefusalParam,
+    ChatCompletionContentPartTextParam,
+    ChatCompletionMessageToolCallParam,
+    ChatCompletionToolMessageParam,
+)
+from openai.types.chat import (
+    ChatCompletionContentPartParam as OpenAIChatCompletionContentPartParam,
+)
+from openai.types.chat import (
+    ChatCompletionMessageParam as OpenAIChatCompletionMessageParam,
+)
+from openai.types.chat.chat_completion_content_part_input_audio_param import InputAudio
+from openai.types.responses import ResponseInputImageParam
+from openai_harmony import Message as OpenAIHarmonyMessage
+from PIL import Image
+from pydantic import BaseModel, ConfigDict, TypeAdapter
+from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast, ProcessorMixin
+
+# pydantic needs the TypedDict from typing_extensions
+from typing_extensions import Required, TypedDict
+
+from vllm import envs
+from vllm.config import ModelConfig
+from vllm.logger import init_logger
+from vllm.model_executor.models import SupportsMultiModal
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalDataDict, MultiModalUUIDDict
+from vllm.multimodal.utils import MEDIA_CONNECTOR_REGISTRY, MediaConnector
+from vllm.transformers_utils.chat_templates import get_chat_template_fallback_path
+from vllm.transformers_utils.processor import cached_get_processor
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.utils import random_uuid
+from vllm.utils.func_utils import supports_kw
+
+logger = init_logger(__name__)
+
+MODALITY_PLACEHOLDERS_MAP = {
+    "image": "<##IMAGE##>",
+    "audio": "<##AUDIO##>",
+    "video": "<##VIDEO##>",
+}
+
+
+class AudioURL(TypedDict, total=False):
+    url: Required[str]
+    """
+    Either a URL of the audio or a data URL with base64 encoded audio data.
+    """
+
+
+class ChatCompletionContentPartAudioParam(TypedDict, total=False):
+    audio_url: Required[AudioURL]
+
+    type: Required[Literal["audio_url"]]
+    """The type of the content part."""
+
+
+class ChatCompletionContentPartImageEmbedsParam(TypedDict, total=False):
+    image_embeds: str | dict[str, str] | None
+    """
+    The image embeddings. It can be either:
+    - A single base64 string.
+    - A dictionary where each value is a base64 string.
+    """
+    type: Required[Literal["image_embeds"]]
+    """The type of the content part."""
+    uuid: str | None
+    """
+    User-provided UUID of a media. User must guarantee that it is properly
+    generated and unique for different medias.
+    """
+
+
+class VideoURL(TypedDict, total=False):
+    url: Required[str]
+    """
+    Either a URL of the video or a data URL with base64 encoded video data.
+    """
+
+
+class ChatCompletionContentPartVideoParam(TypedDict, total=False):
+    video_url: Required[VideoURL]
+
+    type: Required[Literal["video_url"]]
+    """The type of the content part."""
+
+
+class PILImage(BaseModel):
+    """
+    A PIL.Image.Image object.
+    """
+
+    image_pil: Image.Image
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+
+
+class CustomChatCompletionContentPILImageParam(TypedDict, total=False):
+    """A simpler version of the param that only accepts a PIL image.
+
+    Example:
+    {
+        "image_pil": ImageAsset('cherry_blossom').pil_image
+    }
+    """
+
+    image_pil: PILImage | None
+    uuid: str | None
+    """
+    User-provided UUID of a media. User must guarantee that it is properly
+    generated and unique for different medias.
+    """
+
+
+class CustomChatCompletionContentSimpleImageParam(TypedDict, total=False):
+    """A simpler version of the param that only accepts a plain image_url.
+    This is supported by OpenAI API, although it is not documented.
+
+    Example:
+    {
+        "image_url": "https://example.com/image.jpg"
+    }
+    """
+
+    image_url: str | None
+    uuid: str | None
+    """
+    User-provided UUID of a media. User must guarantee that it is properly
+    generated and unique for different medias.
+    """
+
+
+class CustomChatCompletionContentSimpleAudioParam(TypedDict, total=False):
+    """A simpler version of the param that only accepts a plain audio_url.
+
+    Example:
+    {
+        "audio_url": "https://example.com/audio.mp3"
+    }
+    """
+
+    audio_url: str | None
+
+
+class CustomChatCompletionContentSimpleVideoParam(TypedDict, total=False):
+    """A simpler version of the param that only accepts a plain audio_url.
+
+    Example:
+    {
+        "video_url": "https://example.com/video.mp4"
+    }
+    """
+
+    video_url: str | None
+    uuid: str | None
+    """
+    User-provided UUID of a media. User must guarantee that it is properly
+    generated and unique for different medias.
+    """
+
+
+class CustomThinkCompletionContentParam(TypedDict, total=False):
+    """A Think Completion Content Param that accepts a plain text and a boolean.
+
+    Example:
+    {
+        "thinking": "I am thinking about the answer",
+        "closed": True,
+        "type": "thinking"
+    }
+    """
+
+    thinking: Required[str]
+    """The thinking content."""
+
+    closed: bool
+    """Whether the thinking is closed."""
+
+    type: Required[Literal["thinking"]]
+    """The thinking type."""
+
+
+ChatCompletionContentPartParam: TypeAlias = (
+    OpenAIChatCompletionContentPartParam
+    | ChatCompletionContentPartAudioParam
+    | ChatCompletionContentPartInputAudioParam
+    | ChatCompletionContentPartVideoParam
+    | ChatCompletionContentPartRefusalParam
+    | CustomChatCompletionContentPILImageParam
+    | CustomChatCompletionContentSimpleImageParam
+    | ChatCompletionContentPartImageEmbedsParam
+    | CustomChatCompletionContentSimpleAudioParam
+    | CustomChatCompletionContentSimpleVideoParam
+    | str
+    | CustomThinkCompletionContentParam
+)
+
+
+class CustomChatCompletionMessageParam(TypedDict, total=False):
+    """Enables custom roles in the Chat Completion API."""
+
+    role: Required[str]
+    """The role of the message's author."""
+
+    content: str | list[ChatCompletionContentPartParam]
+    """The contents of the message."""
+
+    name: str
+    """An optional name for the participant.
+
+    Provides the model information to differentiate between participants of the
+    same role.
+    """
+
+    tool_call_id: str | None
+    """Tool call that this message is responding to."""
+
+    tool_calls: Iterable[ChatCompletionMessageToolCallParam] | None
+    """The tool calls generated by the model, such as function calls."""
+
+    reasoning: str | None
+    """The reasoning content for interleaved thinking."""
+
+
+ChatCompletionMessageParam: TypeAlias = (
+    OpenAIChatCompletionMessageParam
+    | CustomChatCompletionMessageParam
+    | OpenAIHarmonyMessage
+)
+
+
+# TODO: Make fields ReadOnly once mypy supports it
+class ConversationMessage(TypedDict, total=False):
+    role: Required[str]
+    """The role of the message's author."""
+
+    content: str | None | list[dict[str, str]]
+    """The contents of the message"""
+
+    tool_call_id: str | None
+    """Tool call that this message is responding to."""
+
+    name: str | None
+    """The name of the function to call"""
+
+    tool_calls: Iterable[ChatCompletionMessageToolCallParam] | None
+    """The tool calls generated by the model, such as function calls."""
+
+    reasoning: str | None
+    """The reasoning content for interleaved thinking."""
+
+    reasoning_content: str | None
+    """Deprecated: The reasoning content for interleaved thinking."""
+
+
+# Passed in by user
+ChatTemplateContentFormatOption = Literal["auto", "string", "openai"]
+
+# Used internally
+_ChatTemplateContentFormat = Literal["string", "openai"]
+
+
+def _is_var_access(node: jinja2.nodes.Node, varname: str) -> bool:
+    if isinstance(node, jinja2.nodes.Name):
+        return node.ctx == "load" and node.name == varname
+
+    return False
+
+
+def _is_attr_access(node: jinja2.nodes.Node, varname: str, key: str) -> bool:
+    if isinstance(node, jinja2.nodes.Getitem):
+        return (
+            _is_var_access(node.node, varname)
+            and isinstance(node.arg, jinja2.nodes.Const)
+            and node.arg.value == key
+        )
+
+    if isinstance(node, jinja2.nodes.Getattr):
+        return _is_var_access(node.node, varname) and node.attr == key
+
+    return False
+
+
+def _is_var_or_elems_access(
+    node: jinja2.nodes.Node,
+    varname: str,
+    key: str | None = None,
+) -> bool:
+    if isinstance(node, jinja2.nodes.Filter):
+        return node.node is not None and _is_var_or_elems_access(
+            node.node, varname, key
+        )
+    if isinstance(node, jinja2.nodes.Test):
+        return _is_var_or_elems_access(node.node, varname, key)
+
+    if isinstance(node, jinja2.nodes.Getitem) and isinstance(
+        node.arg, jinja2.nodes.Slice
+    ):
+        return _is_var_or_elems_access(node.node, varname, key)
+
+    return _is_attr_access(node, varname, key) if key else _is_var_access(node, varname)
+
+
+def _iter_nodes_assign_var_or_elems(root: jinja2.nodes.Node, varname: str):
+    # Global variable that is implicitly defined at the root
+    yield root, varname
+
+    # Iterative BFS
+    related_varnames = deque([varname])
+    while related_varnames:
+        related_varname = related_varnames.popleft()
+
+        for assign_ast in root.find_all(jinja2.nodes.Assign):
+            lhs = assign_ast.target
+            rhs = assign_ast.node
+
+            if _is_var_or_elems_access(rhs, related_varname):
+                assert isinstance(lhs, jinja2.nodes.Name)
+                yield assign_ast, lhs.name
+
+                # Avoid infinite looping for self-assignment
+                if lhs.name != related_varname:
+                    related_varnames.append(lhs.name)
+
+
+# NOTE: The proper way to handle this is to build a CFG so that we can handle
+# the scope in which each variable is defined, but that is too complicated
+def _iter_nodes_assign_messages_item(root: jinja2.nodes.Node):
+    messages_varnames = [
+        varname for _, varname in _iter_nodes_assign_var_or_elems(root, "messages")
+    ]
+
+    # Search for {%- for message in messages -%} loops
+    for loop_ast in root.find_all(jinja2.nodes.For):
+        loop_iter = loop_ast.iter
+        loop_target = loop_ast.target
+
+        for varname in messages_varnames:
+            if _is_var_or_elems_access(loop_iter, varname):
+                assert isinstance(loop_target, jinja2.nodes.Name)
+                yield loop_ast, loop_target.name
+                break
+
+
+def _iter_nodes_assign_content_item(root: jinja2.nodes.Node):
+    message_varnames = [
+        varname for _, varname in _iter_nodes_assign_messages_item(root)
+    ]
+
+    # Search for {%- for content in message['content'] -%} loops
+    for loop_ast in root.find_all(jinja2.nodes.For):
+        loop_iter = loop_ast.iter
+        loop_target = loop_ast.target
+
+        for varname in message_varnames:
+            if _is_var_or_elems_access(loop_iter, varname, "content"):
+                assert isinstance(loop_target, jinja2.nodes.Name)
+                yield loop_ast, loop_target.name
+                break
+
+
+def _try_extract_ast(chat_template: str) -> jinja2.nodes.Template | None:
+    try:
+        jinja_compiled = hf_chat_utils._compile_jinja_template(chat_template)
+        return jinja_compiled.environment.parse(chat_template)
+    except Exception:
+        logger.exception("Error when compiling Jinja template")
+        return None
+
+
+@lru_cache(maxsize=32)
+def _detect_content_format(
+    chat_template: str,
+    *,
+    default: _ChatTemplateContentFormat,
+) -> _ChatTemplateContentFormat:
+    jinja_ast = _try_extract_ast(chat_template)
+    if jinja_ast is None:
+        return default
+
+    try:
+        next(_iter_nodes_assign_content_item(jinja_ast))
+    except StopIteration:
+        return "string"
+    except Exception:
+        logger.exception("Error when parsing AST of Jinja template")
+        return default
+    else:
+        return "openai"
+
+
+def resolve_mistral_chat_template(
+    chat_template: str | None,
+    **kwargs: Any,
+) -> str | None:
+    if chat_template is not None or kwargs.get("chat_template_kwargs") is not None:
+        raise ValueError(
+            "'chat_template' or 'chat_template_kwargs' cannot be overridden "
+            "for mistral tokenizer."
+        )
+
+    return None
+
+
+_PROCESSOR_CHAT_TEMPLATES = dict[tuple[str, bool], str | None]()
+"""
+Used in `_try_get_processor_chat_template` to avoid calling
+`cached_get_processor` again if the processor fails to be loaded.
+
+This is needed because `lru_cache` does not cache when an exception happens.
+"""
+
+
+def _try_get_processor_chat_template(
+    tokenizer: PreTrainedTokenizer | PreTrainedTokenizerFast,
+    model_config: ModelConfig,
+) -> str | None:
+    cache_key = (tokenizer.name_or_path, model_config.trust_remote_code)
+    if cache_key in _PROCESSOR_CHAT_TEMPLATES:
+        return _PROCESSOR_CHAT_TEMPLATES[cache_key]
+
+    try:
+        processor = cached_get_processor(
+            tokenizer.name_or_path,
+            processor_cls=(
+                PreTrainedTokenizer,
+                PreTrainedTokenizerFast,
+                ProcessorMixin,
+            ),
+            trust_remote_code=model_config.trust_remote_code,
+        )
+        if (
+            isinstance(processor, ProcessorMixin)
+            and hasattr(processor, "chat_template")
+            and (chat_template := processor.chat_template) is not None
+        ):
+            _PROCESSOR_CHAT_TEMPLATES[cache_key] = chat_template
+            return chat_template
+    except Exception:
+        logger.debug(
+            "Failed to load AutoProcessor chat template for %s",
+            tokenizer.name_or_path,
+            exc_info=True,
+        )
+
+    _PROCESSOR_CHAT_TEMPLATES[cache_key] = None
+    return None
+
+
+def resolve_hf_chat_template(
+    tokenizer: PreTrainedTokenizer | PreTrainedTokenizerFast,
+    chat_template: str | None,
+    tools: list[dict[str, Any]] | None,
+    *,
+    model_config: ModelConfig,
+) -> str | None:
+    # 1st priority: The given chat template
+    if chat_template is not None:
+        return chat_template
+
+    # 2nd priority: AutoProcessor chat template, unless tool calling is enabled
+    if tools is None:
+        chat_template = _try_get_processor_chat_template(tokenizer, model_config)
+        if chat_template is not None:
+            return chat_template
+
+    # 3rd priority: AutoTokenizer chat template
+    try:
+        return tokenizer.get_chat_template(chat_template, tools=tools)
+    except Exception:
+        logger.debug(
+            "Failed to load AutoTokenizer chat template for %s",
+            tokenizer.name_or_path,
+            exc_info=True,
+        )
+
+    # 4th priority: Predefined fallbacks
+    path = get_chat_template_fallback_path(
+        model_type=model_config.hf_config.model_type,
+        tokenizer_name_or_path=model_config.tokenizer,
+    )
+    if path is not None:
+        logger.info_once(
+            "Loading chat template fallback for %s as there isn't one "
+            "defined on HF Hub.",
+            tokenizer.name_or_path,
+        )
+        chat_template = load_chat_template(path)
+    else:
+        logger.debug_once(
+            "There is no chat template fallback for %s", tokenizer.name_or_path
+        )
+
+    return chat_template
+
+
+def _resolve_chat_template_content_format(
+    chat_template: str | None,
+    tools: list[dict[str, Any]] | None,
+    tokenizer: AnyTokenizer,
+    *,
+    model_config: ModelConfig,
+) -> _ChatTemplateContentFormat:
+    if isinstance(tokenizer, (PreTrainedTokenizer, PreTrainedTokenizerFast)):
+        hf_chat_template = resolve_hf_chat_template(
+            tokenizer,
+            chat_template=chat_template,
+            tools=tools,
+            model_config=model_config,
+        )
+    else:
+        hf_chat_template = None
+
+    jinja_text = (
+        hf_chat_template
+        if isinstance(hf_chat_template, str)
+        else load_chat_template(chat_template, is_literal=True)
+    )
+
+    detected_format = (
+        "string"
+        if jinja_text is None
+        else _detect_content_format(jinja_text, default="string")
+    )
+
+    return detected_format
+
+
+@lru_cache
+def _log_chat_template_content_format(
+    chat_template: str | None,
+    given_format: ChatTemplateContentFormatOption,
+    detected_format: ChatTemplateContentFormatOption,
+):
+    logger.info(
+        "Detected the chat template content format to be '%s'. "
+        "You can set `--chat-template-content-format` to override this.",
+        detected_format,
+    )
+
+    if given_format != "auto" and given_format != detected_format:
+        logger.warning(
+            "You specified `--chat-template-content-format %s` "
+            "which is different from the detected format '%s'. "
+            "If our automatic detection is incorrect, please consider "
+            "opening a GitHub issue so that we can improve it: "
+            "https://github.com/vllm-project/vllm/issues/new/choose",
+            given_format,
+            detected_format,
+        )
+
+
+def resolve_chat_template_content_format(
+    chat_template: str | None,
+    tools: list[dict[str, Any]] | None,
+    given_format: ChatTemplateContentFormatOption,
+    tokenizer: AnyTokenizer,
+    *,
+    model_config: ModelConfig,
+) -> _ChatTemplateContentFormat:
+    if given_format != "auto":
+        return given_format
+
+    detected_format = _resolve_chat_template_content_format(
+        chat_template,
+        tools,
+        tokenizer,
+        model_config=model_config,
+    )
+
+    _log_chat_template_content_format(
+        chat_template,
+        given_format=given_format,
+        detected_format=detected_format,
+    )
+
+    return detected_format
+
+
+ModalityStr = Literal["image", "audio", "video", "image_embeds"]
+_T = TypeVar("_T")
+
+
+class BaseMultiModalItemTracker(ABC, Generic[_T]):
+    """
+    Tracks multi-modal items in a given request and ensures that the number
+    of multi-modal items in a given request does not exceed the configured
+    maximum per prompt.
+    """
+
+    def __init__(self, model_config: ModelConfig, tokenizer: AnyTokenizer):
+        super().__init__()
+
+        self._model_config = model_config
+        self._tokenizer = tokenizer
+
+        self._items_by_modality = defaultdict[str, list[_T | None]](list)
+        self._uuids_by_modality = defaultdict[str, list[str | None]](list)
+
+    @property
+    def model_config(self) -> ModelConfig:
+        return self._model_config
+
+    @cached_property
+    def model_cls(self) -> type[SupportsMultiModal]:
+        from vllm.model_executor.model_loader import get_model_cls
+
+        model_cls = get_model_cls(self.model_config)
+        return cast(type[SupportsMultiModal], model_cls)
+
+    @property
+    def allowed_local_media_path(self):
+        return self._model_config.allowed_local_media_path
+
+    @property
+    def allowed_media_domains(self):
+        return self._model_config.allowed_media_domains
+
+    @property
+    def mm_registry(self):
+        return MULTIMODAL_REGISTRY
+
+    @cached_property
+    def mm_processor(self):
+        return self.mm_registry.create_processor(self.model_config)
+
+    def add(
+        self,
+        modality: ModalityStr,
+        item: _T | None,
+        uuid: str | None = None,
+    ) -> str | None:
+        """
+        Add a multi-modal item to the current prompt and returns the
+        placeholder string to use, if any.
+
+        An optional uuid can be added which serves as a unique identifier of the
+        media.
+        """
+        input_modality = modality.replace("_embeds", "")
+        num_items = len(self._items_by_modality[modality]) + 1
+
+        self.mm_processor.validate_num_items(input_modality, num_items)
+
+        self._items_by_modality[modality].append(item)
+        self._uuids_by_modality[modality].append(uuid)
+
+        return self.model_cls.get_placeholder_str(modality, num_items)
+
+    def all_mm_uuids(self) -> MultiModalUUIDDict | None:
+        if not self._items_by_modality:
+            return None
+        mm_uuids = {}
+        uuids_by_modality = dict(self._uuids_by_modality)
+        if "image" in uuids_by_modality and "image_embeds" in uuids_by_modality:
+            raise ValueError("Mixing raw image and embedding inputs is not allowed")
+
+        if "image_embeds" in uuids_by_modality:
+            image_embeds_uuids = uuids_by_modality["image_embeds"]
+            if len(image_embeds_uuids) > 1:
+                raise ValueError("Only one message can have {'type': 'image_embeds'}")
+            mm_uuids["image"] = uuids_by_modality["image_embeds"]
+        if "image" in uuids_by_modality:
+            mm_uuids["image"] = uuids_by_modality["image"]  # UUIDs of images
+        if "audio" in uuids_by_modality:
+            mm_uuids["audio"] = uuids_by_modality["audio"]  # UUIDs of audios
+        if "video" in uuids_by_modality:
+            mm_uuids["video"] = uuids_by_modality["video"]  # UUIDs of videos
+        return mm_uuids
+
+    @abstractmethod
+    def create_parser(self) -> "BaseMultiModalContentParser":
+        raise NotImplementedError
+
+
+class MultiModalItemTracker(BaseMultiModalItemTracker[object]):
+    def all_mm_data(self) -> MultiModalDataDict | None:
+        if not self._items_by_modality:
+            return None
+        mm_inputs = {}
+        items_by_modality = dict(self._items_by_modality)
+        if "image" in items_by_modality and "image_embeds" in items_by_modality:
+            raise ValueError("Mixing raw image and embedding inputs is not allowed")
+
+        if "image_embeds" in items_by_modality:
+            image_embeds_lst = items_by_modality["image_embeds"]
+            if len(image_embeds_lst) > 1:
+                raise ValueError("Only one message can have {'type': 'image_embeds'}")
+            mm_inputs["image"] = image_embeds_lst[0]
+        if "image" in items_by_modality:
+            mm_inputs["image"] = items_by_modality["image"]  # A list of images
+        if "audio" in items_by_modality:
+            mm_inputs["audio"] = items_by_modality["audio"]  # A list of audios
+        if "video" in items_by_modality:
+            mm_inputs["video"] = items_by_modality["video"]  # A list of videos
+        return mm_inputs
+
+    def create_parser(self) -> "BaseMultiModalContentParser":
+        return MultiModalContentParser(self)
+
+
+class AsyncMultiModalItemTracker(BaseMultiModalItemTracker[Awaitable[object]]):
+    async def all_mm_data(self) -> MultiModalDataDict | None:
+        if not self._items_by_modality:
+            return None
+        mm_inputs = {}
+        items_by_modality = {}
+        for modality, items in self._items_by_modality.items():
+            coros = []
+            for item in items:
+                if item is not None:
+                    coros.append(item)
+                else:
+                    coros.append(asyncio.sleep(0))
+            items_by_modality[modality] = await asyncio.gather(*coros)
+
+        if "image" in items_by_modality and "image_embeds" in items_by_modality:
+            raise ValueError("Mixing raw image and embedding inputs is not allowed")
+
+        if "image_embeds" in items_by_modality:
+            image_embeds_lst = items_by_modality["image_embeds"]
+            if len(image_embeds_lst) > 1:
+                raise ValueError("Only one message can have {'type': 'image_embeds'}")
+            mm_inputs["image"] = image_embeds_lst[0]
+        if "image" in items_by_modality:
+            mm_inputs["image"] = items_by_modality["image"]  # A list of images
+        if "audio" in items_by_modality:
+            mm_inputs["audio"] = items_by_modality["audio"]  # A list of audios
+        if "video" in items_by_modality:
+            mm_inputs["video"] = items_by_modality["video"]  # A list of videos
+        return mm_inputs
+
+    def create_parser(self) -> "BaseMultiModalContentParser":
+        return AsyncMultiModalContentParser(self)
+
+
+class BaseMultiModalContentParser(ABC):
+    def __init__(self) -> None:
+        super().__init__()
+
+        # stores model placeholders list with corresponding
+        # general MM placeholder:
+        # {
+        #   "<##IMAGE##>": ["<image>", "<image>", "<image>"],
+        #   "<##AUDIO##>": ["<audio>", "<audio>"]
+        # }
+        self._placeholder_storage: dict[str, list] = defaultdict(list)
+
+    def _add_placeholder(self, modality: ModalityStr, placeholder: str | None):
+        mod_placeholder = MODALITY_PLACEHOLDERS_MAP[modality]
+        if placeholder:
+            self._placeholder_storage[mod_placeholder].append(placeholder)
+
+    def mm_placeholder_storage(self) -> dict[str, list]:
+        return dict(self._placeholder_storage)
+
+    @abstractmethod
+    def parse_image(self, image_url: str | None, uuid: str | None = None) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def parse_image_embeds(
+        self,
+        image_embeds: str | dict[str, str] | None,
+        uuid: str | None = None,
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def parse_image_pil(
+        self, image_pil: Image.Image | None, uuid: str | None = None
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def parse_audio(self, audio_url: str | None, uuid: str | None = None) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def parse_input_audio(
+        self, input_audio: InputAudio | None, uuid: str | None = None
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def parse_video(self, video_url: str | None, uuid: str | None = None) -> None:
+        raise NotImplementedError
+
+
+class MultiModalContentParser(BaseMultiModalContentParser):
+    def __init__(self, tracker: MultiModalItemTracker) -> None:
+        super().__init__()
+
+        self._tracker = tracker
+        multimodal_config = self._tracker.model_config.multimodal_config
+        media_io_kwargs = getattr(multimodal_config, "media_io_kwargs", None)
+
+        self._connector: MediaConnector = MEDIA_CONNECTOR_REGISTRY.load(
+            envs.VLLM_MEDIA_CONNECTOR,
+            media_io_kwargs=media_io_kwargs,
+            allowed_local_media_path=tracker.allowed_local_media_path,
+            allowed_media_domains=tracker.allowed_media_domains,
+        )
+
+    @property
+    def model_config(self) -> ModelConfig:
+        return self._tracker.model_config
+
+    def parse_image(self, image_url: str | None, uuid: str | None = None) -> None:
+        image = self._connector.fetch_image(image_url) if image_url else None
+
+        placeholder = self._tracker.add("image", image, uuid)
+        self._add_placeholder("image", placeholder)
+
+    def parse_image_embeds(
+        self,
+        image_embeds: str | dict[str, str] | None,
+        uuid: str | None = None,
+    ) -> None:
+        mm_config = self.model_config.get_multimodal_config()
+        if not mm_config.enable_mm_embeds:
+            raise ValueError(
+                "You must set `--enable-mm-embeds` to input `image_embeds`"
+            )
+
+        if isinstance(image_embeds, dict):
+            embeds = {
+                k: self._connector.fetch_image_embedding(v)
+                for k, v in image_embeds.items()
+            }
+            placeholder = self._tracker.add("image_embeds", embeds, uuid)
+
+        if isinstance(image_embeds, str):
+            embedding = self._connector.fetch_image_embedding(image_embeds)
+            placeholder = self._tracker.add("image_embeds", embedding, uuid)
+
+        if image_embeds is None:
+            placeholder = self._tracker.add("image_embeds", None, uuid)
+
+        self._add_placeholder("image", placeholder)
+
+    def parse_image_pil(
+        self, image_pil: Image.Image | None, uuid: str | None = None
+    ) -> None:
+        placeholder = self._tracker.add("image", image_pil, uuid)
+        self._add_placeholder("image", placeholder)
+
+    def parse_audio(self, audio_url: str | None, uuid: str | None = None) -> None:
+        audio = self._connector.fetch_audio(audio_url) if audio_url else None
+
+        placeholder = self._tracker.add("audio", audio, uuid)
+        self._add_placeholder("audio", placeholder)
+
+    def parse_input_audio(
+        self, input_audio: InputAudio | None, uuid: str | None = None
+    ) -> None:
+        if input_audio:
+            audio_data = input_audio.get("data", "")
+            audio_format = input_audio.get("format", "")
+            if audio_data:
+                audio_url = f"data:audio/{audio_format};base64,{audio_data}"
+            else:
+                # If a UUID is provided, audio data may be empty.
+                audio_url = None
+        else:
+            audio_url = None
+
+        return self.parse_audio(audio_url, uuid)
+
+    def parse_video(self, video_url: str | None, uuid: str | None = None) -> None:
+        video = self._connector.fetch_video(video_url=video_url) if video_url else None
+
+        placeholder = self._tracker.add("video", video, uuid)
+        self._add_placeholder("video", placeholder)
+
+
+class AsyncMultiModalContentParser(BaseMultiModalContentParser):
+    def __init__(self, tracker: AsyncMultiModalItemTracker) -> None:
+        super().__init__()
+
+        self._tracker = tracker
+        multimodal_config = self._tracker.model_config.multimodal_config
+        media_io_kwargs = getattr(multimodal_config, "media_io_kwargs", None)
+        self._connector: MediaConnector = MEDIA_CONNECTOR_REGISTRY.load(
+            envs.VLLM_MEDIA_CONNECTOR,
+            media_io_kwargs=media_io_kwargs,
+            allowed_local_media_path=tracker.allowed_local_media_path,
+            allowed_media_domains=tracker.allowed_media_domains,
+        )
+
+    @property
+    def model_config(self) -> ModelConfig:
+        return self._tracker.model_config
+
+    def parse_image(self, image_url: str | None, uuid: str | None = None) -> None:
+        image_coro = self._connector.fetch_image_async(image_url) if image_url else None
+
+        placeholder = self._tracker.add("image", image_coro, uuid)
+        self._add_placeholder("image", placeholder)
+
+    def parse_image_embeds(
+        self,
+        image_embeds: str | dict[str, str] | None,
+        uuid: str | None = None,
+    ) -> None:
+        mm_config = self.model_config.get_multimodal_config()
+        if not mm_config.enable_mm_embeds:
+            raise ValueError(
+                "You must set `--enable-mm-embeds` to input `image_embeds`"
+            )
+
+        future: asyncio.Future[str | dict[str, str] | None] = asyncio.Future()
+
+        if isinstance(image_embeds, dict):
+            embeds = {
+                k: self._connector.fetch_image_embedding(v)
+                for k, v in image_embeds.items()
+            }
+            future.set_result(embeds)
+
+        if isinstance(image_embeds, str):
+            embedding = self._connector.fetch_image_embedding(image_embeds)
+            future.set_result(embedding)
+
+        if image_embeds is None:
+            future.set_result(None)
+
+        placeholder = self._tracker.add("image_embeds", future, uuid)
+        self._add_placeholder("image", placeholder)
+
+    def parse_image_pil(
+        self, image_pil: Image.Image | None, uuid: str | None = None
+    ) -> None:
+        future: asyncio.Future[Image.Image | None] = asyncio.Future()
+        if image_pil:
+            future.set_result(image_pil)
+        else:
+            future.set_result(None)
+
+        placeholder = self._tracker.add("image", future, uuid)
+        self._add_placeholder("image", placeholder)
+
+    def parse_audio(self, audio_url: str | None, uuid: str | None = None) -> None:
+        audio_coro = self._connector.fetch_audio_async(audio_url) if audio_url else None
+
+        placeholder = self._tracker.add("audio", audio_coro, uuid)
+        self._add_placeholder("audio", placeholder)
+
+    def parse_input_audio(
+        self, input_audio: InputAudio | None, uuid: str | None = None
+    ) -> None:
+        if input_audio:
+            audio_data = input_audio.get("data", "")
+            audio_format = input_audio.get("format", "")
+            if audio_data:
+                audio_url = f"data:audio/{audio_format};base64,{audio_data}"
+            else:
+                # If a UUID is provided, audio data may be empty.
+                audio_url = None
+        else:
+            audio_url = None
+
+        return self.parse_audio(audio_url, uuid)
+
+    def parse_video(self, video_url: str | None, uuid: str | None = None) -> None:
+        video = (
+            self._connector.fetch_video_async(video_url=video_url)
+            if video_url
+            else None
+        )
+
+        placeholder = self._tracker.add("video", video, uuid)
+        self._add_placeholder("video", placeholder)
+
+
+def validate_chat_template(chat_template: Path | str | None):
+    """Raises if the provided chat template appears invalid."""
+    if chat_template is None:
+        return
+
+    elif isinstance(chat_template, Path) and not chat_template.exists():
+        raise FileNotFoundError("the supplied chat template path doesn't exist")
+
+    elif isinstance(chat_template, str):
+        JINJA_CHARS = "{}\n"
+        if (
+            not any(c in chat_template for c in JINJA_CHARS)
+            and not Path(chat_template).exists()
+        ):
+            raise ValueError(
+                f"The supplied chat template string ({chat_template}) "
+                f"appears path-like, but doesn't exist!"
+            )
+
+    else:
+        raise TypeError(f"{type(chat_template)} is not a valid chat template type")
+
+
+def _load_chat_template(
+    chat_template: Path | str | None,
+    *,
+    is_literal: bool = False,
+) -> str | None:
+    if chat_template is None:
+        return None
+
+    if is_literal:
+        if isinstance(chat_template, Path):
+            raise TypeError(
+                "chat_template is expected to be read directly from its value"
+            )
+
+        return chat_template
+
+    try:
+        with open(chat_template) as f:
+            return f.read()
+    except OSError as e:
+        if isinstance(chat_template, Path):
+            raise
+
+        JINJA_CHARS = "{}\n"
+        if not any(c in chat_template for c in JINJA_CHARS):
+            msg = (
+                f"The supplied chat template ({chat_template}) "
+                f"looks like a file path, but it failed to be "
+                f"opened. Reason: {e}"
+            )
+            raise ValueError(msg) from e
+
+        # If opening a file fails, set chat template to be args to
+        # ensure we decode so our escape are interpreted correctly
+        return _load_chat_template(chat_template, is_literal=True)
+
+
+_cached_load_chat_template = lru_cache(_load_chat_template)
+
+
+def load_chat_template(
+    chat_template: Path | str | None,
+    *,
+    is_literal: bool = False,
+) -> str | None:
+    return _cached_load_chat_template(chat_template, is_literal=is_literal)
+
+
+def _get_interleaved_text_prompt(
+    placeholder_storage: dict[str, list], texts: list[str]
+) -> str:
+    for idx, elem in enumerate(texts):
+        if elem in placeholder_storage:
+            texts[idx] = placeholder_storage[elem].pop(0)
+
+    return "\n".join(texts)
+
+
+# TODO: Let user specify how to insert multimodal tokens into prompt
+# (similar to chat template)
+def _get_full_multimodal_text_prompt(
+    placeholder_storage: dict[str, list],
+    texts: list[str],
+    interleave_strings: bool,
+) -> str:
+    """Combine multimodal prompts for a multimodal language model."""
+
+    # flatten storage to make it looks like
+    # {
+    #   "<|image|>": 2,
+    #   "<|audio|>": 1
+    # }
+    placeholder_counts = Counter(
+        [v for elem in placeholder_storage.values() for v in elem]
+    )
+
+    if interleave_strings:
+        text_prompt = _get_interleaved_text_prompt(placeholder_storage, texts)
+    else:
+        text_prompt = "\n".join(texts)
+
+    # Pass interleaved text further in case the user used image placeholders
+    # himself, but forgot to disable the 'interleave_strings' flag
+
+    # Look through the text prompt to check for missing placeholders
+    missing_placeholders: list[str] = []
+    for placeholder in placeholder_counts:
+        # For any existing placeholder in the text prompt, we leave it as is
+        placeholder_counts[placeholder] -= text_prompt.count(placeholder)
+
+        if placeholder_counts[placeholder] < 0:
+            logger.error(
+                "Placeholder count is negative! "
+                "Ensure that the 'interleave_strings' flag is disabled "
+                "(current value: %s) "
+                "when manually placing image placeholders.",
+                interleave_strings,
+            )
+            logger.debug("Input prompt: %s", text_prompt)
+            raise ValueError(
+                f"Found more '{placeholder}' placeholders in input prompt than "
+                "actual multimodal data items."
+            )
+
+        missing_placeholders.extend([placeholder] * placeholder_counts[placeholder])
+
+    # NOTE: Default behaviour: we always add missing placeholders
+    # at the front of the prompt, if interleave_strings=False
+    return "\n".join(missing_placeholders + [text_prompt])
+
+
+# No need to validate using Pydantic again
+_TextParser = partial(cast, ChatCompletionContentPartTextParam)
+_ImageEmbedsParser = partial(cast, ChatCompletionContentPartImageEmbedsParam)
+_InputAudioParser = partial(cast, ChatCompletionContentPartInputAudioParam)
+_RefusalParser = partial(cast, ChatCompletionContentPartRefusalParam)
+_PILImageParser = partial(cast, CustomChatCompletionContentPILImageParam)
+_ThinkParser = partial(cast, CustomThinkCompletionContentParam)
+# Need to validate url objects
+_ImageParser = TypeAdapter(ChatCompletionContentPartImageParam).validate_python
+_AudioParser = TypeAdapter(ChatCompletionContentPartAudioParam).validate_python
+_VideoParser = TypeAdapter(ChatCompletionContentPartVideoParam).validate_python
+
+_ResponsesInputImageParser = TypeAdapter(ResponseInputImageParam).validate_python
+_ContentPart: TypeAlias = str | dict[str, str] | InputAudio | PILImage
+
+# Define a mapping from part types to their corresponding parsing functions.
+MM_PARSER_MAP: dict[
+    str,
+    Callable[[ChatCompletionContentPartParam], _ContentPart],
+] = {
+    "text": lambda part: _TextParser(part).get("text", None),
+    "thinking": lambda part: _ThinkParser(part).get("thinking", None),
+    "input_text": lambda part: _TextParser(part).get("text", None),
+    "input_image": lambda part: _ResponsesInputImageParser(part).get("image_url", None),
+    "image_url": lambda part: _ImageParser(part).get("image_url", {}).get("url", None),
+    "image_embeds": lambda part: _ImageEmbedsParser(part).get("image_embeds", None),
+    "image_pil": lambda part: _PILImageParser(part).get("image_pil", None),
+    "audio_url": lambda part: _AudioParser(part).get("audio_url", {}).get("url", None),
+    "input_audio": lambda part: _InputAudioParser(part).get("input_audio", None),
+    "refusal": lambda part: _RefusalParser(part).get("refusal", None),
+    "video_url": lambda part: _VideoParser(part).get("video_url", {}).get("url", None),
+}
+
+
+def _parse_chat_message_content_mm_part(
+    part: ChatCompletionContentPartParam,
+) -> tuple[str, _ContentPart]:
+    """
+    Parses a given multi-modal content part based on its type.
+
+    Args:
+        part: A dict containing the content part, with a potential 'type' field.
+
+    Returns:
+        A tuple (part_type, content) where:
+        - part_type: Type of the part (e.g., 'text', 'image_url').
+        - content: Parsed content (e.g., text, image URL).
+
+    Raises:
+        ValueError: If the 'type' field is missing and no direct URL is found.
+    """
+    assert isinstance(
+        part, dict
+    )  # This is needed to avoid mypy errors: part.get() from str
+    part_type = part.get("type", None)
+    uuid = part.get("uuid", None)
+
+    if isinstance(part_type, str) and part_type in MM_PARSER_MAP and uuid is None:  # noqa: E501
+        content = MM_PARSER_MAP[part_type](part)
+
+        # Special case for 'image_url.detail'
+        # We only support 'auto', which is the default
+        if part_type == "image_url" and part.get("detail", "auto") != "auto":
+            logger.warning(
+                "'image_url.detail' is currently not supported and will be ignored."
+            )
+
+        return part_type, content
+
+    # Handle missing 'type' but provided direct URL fields.
+    # 'type' is required field by pydantic
+    if part_type is None or uuid is not None:
+        if "image_url" in part:
+            image_params = cast(CustomChatCompletionContentSimpleImageParam, part)
+            image_url = image_params.get("image_url", None)
+            if isinstance(image_url, dict):
+                # Can potentially happen if user provides a uuid
+                # with url as a dict of {"url": url}
+                image_url = image_url.get("url", None)
+            return "image_url", image_url
+        if "image_pil" in part:
+            # "image_pil" could be None if UUID is provided.
+            image_params = cast(  # type: ignore
+                CustomChatCompletionContentPILImageParam, part
+            )
+            image_pil = image_params.get("image_pil", None)
+            return "image_pil", image_pil
+        if "image_embeds" in part:
+            # "image_embeds" could be None if UUID is provided.
+            image_params = cast(  # type: ignore
+                ChatCompletionContentPartImageEmbedsParam, part
+            )
+            image_embeds = image_params.get("image_embeds", None)
+            return "image_embeds", image_embeds
+        if "audio_url" in part:
+            audio_params = cast(CustomChatCompletionContentSimpleAudioParam, part)
+            audio_url = audio_params.get("audio_url", None)
+            if isinstance(audio_url, dict):
+                # Can potentially happen if user provides a uuid
+                # with url as a dict of {"url": url}
+                audio_url = audio_url.get("url", None)
+            return "audio_url", audio_url
+        if part.get("input_audio") is not None:
+            input_audio_params = cast(dict[str, str], part)
+            return "input_audio", input_audio_params
+        if "video_url" in part:
+            video_params = cast(CustomChatCompletionContentSimpleVideoParam, part)
+            video_url = video_params.get("video_url", None)
+            if isinstance(video_url, dict):
+                # Can potentially happen if user provides a uuid
+                # with url as a dict of {"url": url}
+                video_url = video_url.get("url", None)
+            return "video_url", video_url
+        # Raise an error if no 'type' or direct URL is found.
+        raise ValueError("Missing 'type' field in multimodal part.")
+
+    if not isinstance(part_type, str):
+        raise ValueError("Invalid 'type' field in multimodal part.")
+    return part_type, "unknown part_type content"
+
+
+PART_TYPES_TO_SKIP_NONE_CONTENT = (
+    "text",
+    "refusal",
+)
+
+
+def _parse_chat_message_content_parts(
+    role: str,
+    parts: Iterable[ChatCompletionContentPartParam],
+    mm_tracker: BaseMultiModalItemTracker,
+    *,
+    wrap_dicts: bool,
+    interleave_strings: bool,
+) -> list[ConversationMessage]:
+    content = list[_ContentPart]()
+
+    mm_parser = mm_tracker.create_parser()
+
+    for part in parts:
+        parse_res = _parse_chat_message_content_part(
+            part,
+            mm_parser,
+            wrap_dicts=wrap_dicts,
+            interleave_strings=interleave_strings,
+        )
+        if parse_res:
+            content.append(parse_res)
+
+    if wrap_dicts:
+        # Parsing wraps images and texts as interleaved dictionaries
+        return [ConversationMessage(role=role, content=content)]  # type: ignore
+    texts = cast(list[str], content)
+    mm_placeholder_storage = mm_parser.mm_placeholder_storage()
+    if mm_placeholder_storage:
+        text_prompt = _get_full_multimodal_text_prompt(
+            mm_placeholder_storage, texts, interleave_strings
+        )
+    else:
+        text_prompt = "\n".join(texts)
+
+    return [ConversationMessage(role=role, content=text_prompt)]
+
+
+def _parse_chat_message_content_part(
+    part: ChatCompletionContentPartParam,
+    mm_parser: BaseMultiModalContentParser,
+    *,
+    wrap_dicts: bool,
+    interleave_strings: bool,
+) -> _ContentPart | None:
+    """Parses a single part of a conversation. If wrap_dicts is True,
+    structured dictionary pieces for texts and images will be
+    wrapped in dictionaries, i.e., {"type": "text", "text", ...} and
+    {"type": "image"}, respectively. Otherwise multimodal data will be
+    handled by mm_parser, and texts will be returned as strings to be joined
+    with multimodal placeholders.
+    """
+    if isinstance(part, str):  # Handle plain text parts
+        return part
+    # Handle structured dictionary parts
+    part_type, content = _parse_chat_message_content_mm_part(part)
+    # if part_type is text/refusal/image_url/audio_url/video_url/input_audio but
+    # content is None, log a warning and skip
+    if part_type in PART_TYPES_TO_SKIP_NONE_CONTENT and content is None:
+        logger.warning(
+            "Skipping multimodal part '%s' (type: '%s') "
+            "with empty / unparsable content.",
+            part,
+            part_type,
+        )
+        return None
+
+    if part_type in ("text", "input_text", "refusal", "thinking"):
+        str_content = cast(str, content)
+        if wrap_dicts:
+            return {"type": "text", "text": str_content}
+        else:
+            return str_content
+
+    # For media items, if a user has provided one, use it. Otherwise, insert
+    # a placeholder empty uuid.
+    uuid = part.get("uuid", None)
+    if uuid is not None:
+        uuid = str(uuid)
+
+    modality = None
+    if part_type == "image_pil":
+        image_content = cast(Image.Image, content) if content is not None else None
+        mm_parser.parse_image_pil(image_content, uuid)
+        modality = "image"
+    elif part_type in ("image_url", "input_image"):
+        str_content = cast(str, content)
+        mm_parser.parse_image(str_content, uuid)
+        modality = "image"
+    elif part_type == "image_embeds":
+        content = cast(str | dict[str, str], content) if content is not None else None
+        mm_parser.parse_image_embeds(content, uuid)
+        modality = "image"
+    elif part_type == "audio_url":
+        str_content = cast(str, content)
+        mm_parser.parse_audio(str_content, uuid)
+        modality = "audio"
+    elif part_type == "input_audio":
+        dict_content = cast(InputAudio, content)
+        mm_parser.parse_input_audio(dict_content, uuid)
+        modality = "audio"
+    elif part_type == "video_url":
+        str_content = cast(str, content)
+        mm_parser.parse_video(str_content, uuid)
+        modality = "video"
+    else:
+        raise NotImplementedError(f"Unknown part type: {part_type}")
+
+    return (
+        {"type": modality}
+        if wrap_dicts
+        else (MODALITY_PLACEHOLDERS_MAP[modality] if interleave_strings else None)
+    )
+
+
+# No need to validate using Pydantic again
+_AssistantParser = partial(cast, ChatCompletionAssistantMessageParam)
+_ToolParser = partial(cast, ChatCompletionToolMessageParam)
+
+
+def _parse_chat_message_content(
+    message: ChatCompletionMessageParam,
+    mm_tracker: BaseMultiModalItemTracker,
+    content_format: _ChatTemplateContentFormat,
+    interleave_strings: bool,
+) -> list[ConversationMessage]:
+    role = message["role"]
+    content = message.get("content")
+    reasoning = message.get("reasoning") or message.get("reasoning_content")
+    if content is None:
+        content = []
+    elif isinstance(content, str):
+        content = [ChatCompletionContentPartTextParam(type="text", text=content)]
+    result = _parse_chat_message_content_parts(
+        role,
+        content,  # type: ignore
+        mm_tracker,
+        wrap_dicts=(content_format == "openai"),
+        interleave_strings=interleave_strings,
+    )
+
+    for result_msg in result:
+        if role == "assistant":
+            parsed_msg = _AssistantParser(message)
+
+            # The 'tool_calls' is not None check ensures compatibility.
+            # It's needed only if downstream code doesn't strictly
+            # follow the OpenAI spec.
+            if "tool_calls" in parsed_msg and parsed_msg["tool_calls"] is not None:
+                result_msg["tool_calls"] = list(parsed_msg["tool_calls"])
+            # Include reasoning if present for interleaved thinking.
+            if reasoning is not None:
+                result_msg["reasoning"] = cast(str, reasoning)
+                result_msg["reasoning_content"] = cast(
+                    str, reasoning
+                )  # keep compatibility
+        elif role == "tool":
+            parsed_msg = _ToolParser(message)
+            if "tool_call_id" in parsed_msg:
+                result_msg["tool_call_id"] = parsed_msg["tool_call_id"]
+
+        if "name" in message and isinstance(message["name"], str):
+            result_msg["name"] = message["name"]
+
+    return result
+
+
+def _postprocess_messages(messages: list[ConversationMessage]) -> None:
+    # per the Transformers docs & maintainers, tool call arguments in
+    # assistant-role messages with tool_calls need to be dicts not JSON str -
+    # this is how tool-use chat templates will expect them moving forwards
+    # so, for messages that have tool_calls, parse the string (which we get
+    # from openAI format) to dict
+    for message in messages:
+        if (
+            message["role"] == "assistant"
+            and "tool_calls" in message
+            and isinstance(message["tool_calls"], list)
+        ):
+            for item in message["tool_calls"]:
+                # if arguments is None or empty string, set to {}
+                if content := item["function"].get("arguments"):
+                    item["function"]["arguments"] = json.loads(content)
+                else:
+                    item["function"]["arguments"] = {}
+
+
+def parse_chat_messages(
+    messages: list[ChatCompletionMessageParam],
+    model_config: ModelConfig,
+    tokenizer: AnyTokenizer,
+    content_format: _ChatTemplateContentFormat,
+) -> tuple[
+    list[ConversationMessage],
+    MultiModalDataDict | None,
+    MultiModalUUIDDict | None,
+]:
+    conversation: list[ConversationMessage] = []
+    mm_tracker = MultiModalItemTracker(model_config, tokenizer)
+
+    for msg in messages:
+        sub_messages = _parse_chat_message_content(
+            msg,
+            mm_tracker,
+            content_format,
+            interleave_strings=(
+                content_format == "string"
+                and model_config.multimodal_config is not None
+                and model_config.multimodal_config.interleave_mm_strings
+            ),
+        )
+
+        conversation.extend(sub_messages)
+
+    _postprocess_messages(conversation)
+
+    return conversation, mm_tracker.all_mm_data(), mm_tracker.all_mm_uuids()
+
+
+def parse_chat_messages_futures(
+    messages: list[ChatCompletionMessageParam],
+    model_config: ModelConfig,
+    tokenizer: AnyTokenizer,
+    content_format: _ChatTemplateContentFormat,
+) -> tuple[
+    list[ConversationMessage],
+    Awaitable[MultiModalDataDict | None],
+    MultiModalUUIDDict | None,
+]:
+    conversation: list[ConversationMessage] = []
+    mm_tracker = AsyncMultiModalItemTracker(model_config, tokenizer)
+
+    for msg in messages:
+        sub_messages = _parse_chat_message_content(
+            msg,
+            mm_tracker,
+            content_format,
+            interleave_strings=(
+                content_format == "string"
+                and model_config.multimodal_config is not None
+                and model_config.multimodal_config.interleave_mm_strings
+            ),
+        )
+
+        conversation.extend(sub_messages)
+
+    _postprocess_messages(conversation)
+
+    return conversation, mm_tracker.all_mm_data(), mm_tracker.all_mm_uuids()
+
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.56.2/src/transformers/utils/chat_template_utils.py#L398-L412
+# only preserve the parse function used to resolve chat template kwargs
+class AssistantTracker(jinja2.ext.Extension):
+    tags = {"generation"}
+
+    def parse(self, parser: jinja2.parser.Parser) -> jinja2.nodes.CallBlock:
+        lineno = next(parser.stream).lineno
+        body = parser.parse_statements(["name:endgeneration"], drop_needle=True)
+        call = self.call_method("_generation_support")
+        call_block = jinja2.nodes.CallBlock(call, [], [], body)
+        return call_block.set_lineno(lineno)
+
+
+def _resolve_chat_template_kwargs(
+    chat_template: str,
+):
+    env = jinja2.sandbox.ImmutableSandboxedEnvironment(
+        trim_blocks=True,
+        lstrip_blocks=True,
+        extensions=[AssistantTracker, jinja2.ext.loopcontrols],
+    )
+    parsed_content = env.parse(chat_template)
+    template_vars = jinja2.meta.find_undeclared_variables(parsed_content)
+    return template_vars
+
+
+_cached_resolve_chat_template_kwargs = lru_cache(_resolve_chat_template_kwargs)
+
+
+@lru_cache
+def _get_hf_base_chat_template_params() -> frozenset[str]:
+    # Get standard parameters from HuggingFace's base tokenizer class.
+    # This dynamically extracts parameters from PreTrainedTokenizer's
+    # apply_chat_template method, ensuring compatibility with tokenizers
+    # that use **kwargs to receive standard parameters.
+
+    # Read signature from HF's base class - the single source of truth
+    base_sig = inspect.signature(PreTrainedTokenizer.apply_chat_template)
+    # Exclude VAR_KEYWORD (**kwargs) and VAR_POSITIONAL (*args) placeholders
+    return frozenset(
+        p.name
+        for p in base_sig.parameters.values()
+        if p.kind
+        not in (inspect.Parameter.VAR_KEYWORD, inspect.Parameter.VAR_POSITIONAL)
+    )
+
+
+def resolve_chat_template_kwargs(
+    tokenizer: PreTrainedTokenizer | PreTrainedTokenizerFast,
+    chat_template: str,
+    chat_template_kwargs: dict[str, Any],
+    raise_on_unexpected: bool = True,
+) -> dict[str, Any]:
+    # We exclude chat_template from kwargs here, because
+    # chat template has been already resolved at this stage
+    unexpected_vars = {"chat_template", "tokenize"}
+    if raise_on_unexpected and (
+        unexpected_in_kwargs := unexpected_vars & chat_template_kwargs.keys()
+    ):
+        raise ValueError(
+            "Found unexpected chat template kwargs from request: "
+            f"{unexpected_in_kwargs}"
+        )
+
+    fn_kw = {
+        k
+        for k in chat_template_kwargs
+        if supports_kw(tokenizer.apply_chat_template, k, allow_var_kwargs=False)
+    }
+    template_vars = _cached_resolve_chat_template_kwargs(chat_template)
+
+    # Allow standard HF parameters even if tokenizer uses **kwargs to receive them
+    hf_base_params = _get_hf_base_chat_template_params()
+
+    accept_vars = (fn_kw | template_vars | hf_base_params) - unexpected_vars
+    return {k: v for k, v in chat_template_kwargs.items() if k in accept_vars}
+
+
+def apply_hf_chat_template(
+    tokenizer: PreTrainedTokenizer | PreTrainedTokenizerFast,
+    conversation: list[ConversationMessage],
+    chat_template: str | None,
+    tools: list[dict[str, Any]] | None,
+    *,
+    model_config: ModelConfig,
+    **kwargs: Any,
+) -> str:
+    hf_chat_template = resolve_hf_chat_template(
+        tokenizer,
+        chat_template=chat_template,
+        tools=tools,
+        model_config=model_config,
+    )
+
+    if hf_chat_template is None:
+        raise ValueError(
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        )
+
+    resolved_kwargs = resolve_chat_template_kwargs(
+        tokenizer=tokenizer,
+        chat_template=hf_chat_template,
+        chat_template_kwargs=kwargs,
+    )
+
+    try:
+        return tokenizer.apply_chat_template(
+            conversation=conversation,  # type: ignore[arg-type]
+            tools=tools,  # type: ignore[arg-type]
+            chat_template=hf_chat_template,
+            tokenize=False,
+            **resolved_kwargs,
+        )
+
+    # External library exceptions can sometimes occur despite the framework's
+    # internal exception management capabilities.
+    except Exception as e:
+        # Log and report any library-related exceptions for further
+        # investigation.
+        logger.exception(
+            "An error occurred in `transformers` while applying chat template"
+        )
+        raise ValueError(str(e)) from e
+
+
+def apply_mistral_chat_template(
+    tokenizer: MistralTokenizer,
+    messages: list[ChatCompletionMessageParam],
+    chat_template: str | None,
+    tools: list[dict[str, Any]] | None,
+    **kwargs: Any,
+) -> list[int]:
+    from mistral_common.exceptions import MistralCommonException
+
+    # The return value of resolve_mistral_chat_template is always None,
+    # and we won't use it.
+    resolve_mistral_chat_template(
+        chat_template=chat_template,
+        **kwargs,
+    )
+
+    try:
+        return tokenizer.apply_chat_template(
+            messages=messages,
+            tools=tools,
+            **kwargs,
+        )
+    # mistral-common uses assert statements to stop processing of input
+    # if input does not comply with the expected format.
+    # We convert those assertion errors to ValueErrors so they can be
+    # properly caught in the preprocessing_input step
+    except (AssertionError, MistralCommonException) as e:
+        raise ValueError(str(e)) from e
+
+    # External library exceptions can sometimes occur despite the framework's
+    # internal exception management capabilities.
+    except Exception as e:
+        # Log and report any library-related exceptions for further
+        # investigation.
+        logger.exception(
+            "An error occurred in `mistral_common` while applying chat template"
+        )
+        raise ValueError(str(e)) from e
+
+
+def get_history_tool_calls_cnt(conversation: list[ConversationMessage]):
+    idx = 0
+    for msg in conversation:
+        if msg["role"] == "assistant":
+            tool_calls = msg.get("tool_calls")
+            idx += len(list(tool_calls)) if tool_calls is not None else 0  # noqa
+    return idx
+
+
+def make_tool_call_id(id_type: str = "random", func_name=None, idx=None):
+    if id_type == "kimi_k2":
+        return f"functions.{func_name}:{idx}"
+    else:
+        # by default return random
+        return f"chatcmpl-tool-{random_uuid()}"
diff --git a/entrypoints/cli/__init__.py b/entrypoints/cli/__init__.py
new file mode 100644
index 0000000..9dff682
--- /dev/null
+++ b/entrypoints/cli/__init__.py
@@ -0,0 +1,13 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.entrypoints.cli.benchmark.latency import BenchmarkLatencySubcommand
+from vllm.entrypoints.cli.benchmark.serve import BenchmarkServingSubcommand
+from vllm.entrypoints.cli.benchmark.sweep import BenchmarkSweepSubcommand
+from vllm.entrypoints.cli.benchmark.throughput import BenchmarkThroughputSubcommand
+
+__all__: list[str] = [
+    "BenchmarkLatencySubcommand",
+    "BenchmarkServingSubcommand",
+    "BenchmarkSweepSubcommand",
+    "BenchmarkThroughputSubcommand",
+]
diff --git a/entrypoints/cli/__pycache__/__init__.cpython-312.pyc b/entrypoints/cli/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..397524130c65a489ab7ed675a1e147bef4d2850d
GIT binary patch
literal 638
zcmah^Jxjze7*6_eJ-<*yL<KiF=y2_*f;fl>qTEtlx`f^}T*D=4Nz>DAj*36P-Ob<P
zKPcSf<R&T(P9{~4yXjuYn<u<ap7(j4mzL&%Dr()669a%3{rE5Q4}5eKcmS6m1~H_7
z!4N`?4QenmG;3^9i`k)FV~aMJ6FLy|L2N(5u!-mJ{HD^t3vuH>-KFC;U$wXktF0r<
zdkKrg;5?EFmO;_&rHn;9o|*<&3<>W~O*h7WgDZ@)soC~;c9Dp*=qFhrCkU3%>4c@5
zty@F2%0Vci6rqm0Sha?fG7obp$}A;Z=3b8yulw)TqrY}*ooZ(WIals+y=^vCN2xtk
z?hI8qPFC9&j?Q3FlFQ1>rKpxw9L`f2Ns{s$p(pU67~uQZmn`!$lC@<d`dGHFi{1Ub
z!7lbG>H1kIla%{<w?7fzSMhy>2qzLDFDt9&0ZZe8;zO~jM4>u)OSLx>Lip7HumeZn
dYy?h6Ab7Xzb>qglUAyhwZGHk98e&CJe*ge1!p#5x

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/collect_env.cpython-312.pyc b/entrypoints/cli/__pycache__/collect_env.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c6ece6f09f2734eae8d42e9bc091dd3cd037eb49
GIT binary patch
literal 1690
zcmah}%}*pn6tC(py5|Fi2?~rs+hs_0R_VE5c1>0zL1Z_(l8x-ezVtR-1vGZ|wADRi
zXQBxQZeEBN{1Y_zpLhX{0n3k&7!Tei4yQf&s(S_ovx!BhdSCNCe($~hp<FH?IDzt&
z|A~UopMn`4bwKpL2I2@2L~wxY{KYl~UJ9g8wiPU7a-fEqtzks*?)cEf^~=V<MhW!L
zunml&5=FaH*V-Xv8xmSWL_I)6quQ~Y%k3f=qa~`%0=p#<{XntH9o#Vf7V7l|=1S=L
z5xnJ<#}7B!n_epn-H3qT)sF)D+}{l7GTUy4G)kYiETPQH{pR;onOndgA&Nw4wnVTk
z6UkPnN@S|NtR$ikbxR@IfpR?XXX}utwp$%_pVLI41+W#V7dvXh;8QEDAfR5l8tq+Y
z+_j$WQ1h9Ws}^ar_smSL>M^%k%uK;x@A2c0O(@lRQ5-Slip#bWt}&XnS+wrqkt`&j
z1(^LAxQ<YIr5k3B5dbQ6?+mgs{Ro1EZtAxp)7@;f(=0F~<g->JfV2eel|gt16i(g)
zW<Z2Q_%~myHPbL|#(un*LTWT!eBQqM?!C|M(q`aqHsemZ(~6pVK@c{<A?w5~KT4CP
z7x>K)zgFDgvKNx>%pkWLh*_X{MMM;1ypJw5WX%4o*ZROAUI6Uktl^0#5Evc}hzyOl
zfjB~6;N2@ch9(Gxok;K}f3F<FVu-VW8tOXJf$BCkprX_qr0GZ7<_I*S;91>@C~#;g
zTH27gvO|NI7YR)~=EnkLuC^0*n*yc<mk=k<x*>5Tp}`ibK+Hr`V4AE94<Em(%<&^X
z?asdxo0~>8;p8@4`>3a(O6_c-emYS<FU_7$-ansNIj`1x2C6Ldky<JAkZKgz1Q<6;
zTz8zv4XNYsg5!iO(hdY&a-7fGZZOb{ISy%gAXbEcmy#4_#|tU6m~b7spH;+-b<ifU
z>rp1Y5q#3wXm92_nJjw(2qxB%O~dsa$`Z&5W@ADst_+GtKpdc7lzSJ&nf(th)XAPC
zsjnU0KC9MGp$r7fw^RR!r!OO|nrVBwt`^Q~x6W!yr?sV?4BUnB#-$2x9w!SS#^}b^
z;eR)08^c^+*oHjEH$|cXxV%w1%xBgjHV?7|_)kRP`{=il`BUlENpb!}na_b9XRm{X
zYiTEjf#TWRSR;$T#K^Leu&IfevPPE1f~B$GhcsbgSb6#Br%zU$l?SUUj~=eC@!8D2
zo%%sy4SV5aYz8+UU%v5q%qrnZ;3sL8Hv4Z;_wy-upS=aa#O@>y;Ofa3<Gzk?<yTbx
z3%&C@TDp*pGkN+)dHN6KgNwO^v$>_yxup}OcBxfy;hXm^5j?#+7}pQ$hhLsn7cLRd
H865utS4*t;

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/main.cpython-312.pyc b/entrypoints/cli/__pycache__/main.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..41270a8db5c6a609ae5bec7ade729c3d1281e202
GIT binary patch
literal 3560
zcmbtX&2JmW6`v({mqYH7qCPB9woGiLNS3UMEE3mpkTkU|S&l1N7A&iE<vNQMcO)&f
zOER-dCL%~fMN(8w4cI-!0SY9C9#Y7M9Q!A<=%HRq0oj#<CTM%ejjq*8Pn}t6xr!we
z2r>u0x9@9y^WK{e{v{fX05Wv;H`?#R0Q`e~cq6#aJikGh4}l66fy$@>ommXHG`JWf
zG^n!%x5zOd01$`xEvD(U7*g5y!6HPw%B>9pfFaStt^JS;SP!fRM)>l3H&&4}F>^&i
zISa2B@><R^rTnr~nwhy8iOl9LBw4G9B`LZtEf=jKMv{?Ni#jqTqi9;v5|VVKtm*5L
zo>x?)O7Cdas+N-sMaxC3yrh)!nkr=wwunGN$_m1gW)$+6xMHNN5kcx}3Tk$QaRe==
zS+bsAAy%1vq%MKvmuBNR&$*dkRG@<@%?8k!eHz%O!F|fQG@x?^UuBF?HNa5&pbm|2
zHOPPp$aWo^qRD5wkB}t}%f5y8@$cl_ci20dJS_Vbc%<*--GA77g{!gwPzm_GWes{(
z){w_#Ne{j_yk1q=wMo*U`2Sn0Y%dA0-_5_UPJ7X^V;<*IwY3l2s)zI*BT*%Lq{3xi
z_N_cF`$LcOska(@igXRsPZ)hwp6;;<?`bNWOaZy$0Gii4nNQWQw^BDkP>ocW?2mlC
z$Em_2(X)IM-3m12)lemr{jq1`Q#Gcxsd4MPC&^y)IG<)O`Mk%e?X5XFw%DeWWG0lo
z>{<9!?NqxS9cv+h8mNXV>?F874?s0iiDa+%wjSr@rz%tgV);6;6f0tO+SB{A0zD+z
ztG?9Zh|jFY`}9$_=R+`yl`yfI^R*sFCI$E2V8OiwmadGTeQ~r<Mk~=QJz!rLm2e5*
zB#D2dmKHwyvlm>*XC>;RvwrUBD^az_%OUO{5pQ`KpC0sFr<ia1I*;=(lhYfFBxW&f
zkdc7X`%`jQ%kv8tC$3J)a~H19U%D<|n!7S{?XnZi=$edjCD}w)u|SU4?kOF;t1ap1
z0$wQ^<j|i}u!->3^ww~=C6vpomaU7FNSVB0C^=P9k%clAQor9k@lnpCw?L+dF>#j)
zx?(Nou_0-ul*?PvLe4CpjJB*Hb<R_@?g15*v<$gX)(c3|a?6NBAfE{1JSNz}UM!Q|
z1rvp$7odFMKvaK5ADBsQoea5lRwOdj#N2}9d6HR73n^-<4C#$VZ@RL0%PcPKFYY#(
ziKm~2N)jok$jo4^U}^cB!=r*muA*{atW*w<jg=5KsW{{@Y)RJ*;>0T%YLDAU2B(}b
z3081ZN>mV|w~HD^s>71V7MZJE)y#rIu*%EDT+{CuEn?akpy5&nZs8OuUCJ$pq2RR?
zy-*$LNTW<%*GYwFot+a$TI35Tr)W;{NF^@j<Ryy9Iew&`v_}a!-G_8VOVdqEE@Xgt
z+C9Clg)2=dc*V_v+%yVNy>MW0PLQn5;rDTI%_+jI)jF)ZT;br#!amNRj&e@WTsIw-
zOjL6C=99tURJ2rF!Ep+SKC7JgewWH#XE`y=l#70gIvp-(Pi>|$g(4QHD@*z_@9?y>
z70VG7Rh7wH?v`=F%@>TWEjiFYmZB<_;@01ZQM*<Pm<}Y3CDT`p6KhGE-y+$OvWk|K
zqHdWa9R_KVoMIp+(o7tg%)}iO2`nkPMy5bcXjL&4%fguU3^ByywI;73y)Y7MF1l3=
z+{`#V5UyUET$s5u?<S<VG``uOPNW5iB$5Cyod|{7eBU`Rhu)E?6rXkTK>?XD!b;y5
z|2?0!j6%Ag6~;&sR**IJZgKq8b8F)$P4bg2tXr%3T$*M%eW3nnQvNipajLM6>6^m+
zp@lQs$*HyhcG=V}JG#pb?Xn}g?BL(oYhSSE8$1X{YcOHML=E=Yu&)LOY&cMd;x~o;
zHtatn9J1k14UXDy^pI-UhQo)1)V?9`o&3i1vpC>7-oLiT11Q{k<^H+5=iaM6c>75x
z@w@qtZ+>+16Xl~@pI&})@|CABc3-?JHUdoaGP4&9h9m!hAUyD;&{Y!#ZDFt`oUw&7
zJHpv7#Is+GoY^|Ld1Xf&dMb9@pT0X?kI(M~1JT$s2x2eQyOQ;`;aXeTZcBf5=W$zl
zyKQQZ3&!}3sRjg`P-A;+wufM@!_InJ;%U6M7Vo#?{k8aMJAV4pv)l2P8)3jD_5jE6
z4H0xCYVAXI`_O0HAEzI;4{f)<x$%>_5Z##E?f%|oq~3Y5);VN%4sCZ1Z^GTq6Pput
zv8^U1Z87<<ye*!tiQ~37{-=Szp8E5t$Kv>oc)fm7+MImQ`C;O>i4SI<aiFWO!GWIs
zMg)i*HKETI`nHAS#$-Jt{QAx>?>y|XLnjH^%^UaMy8D(}xIr5ZexmNc(SL?wo7UrF
z!#kl7w+2ZYCLda#!<W8<u^Q~PVejYg#B<UaWGBcn?HO4f2|FQKR`VHIb~;*{G1c0O
zKcF2&pPr83?(gRLfazZd8iejMS;q85>h|3q04DEGfG1r2>&*@D2Bt3-dM}!<lAlJ9
zVVGxpkQsd*0nG7T5cwAv_$u7>;O2HXxxxRNe~syDR2aaDo8>3L-oLT%S5u83V2`_@
F{|Dn&S@8e>

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/openai.cpython-312.pyc b/entrypoints/cli/__pycache__/openai.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..07583ccb9d795f6f92bfdc17d57ddb146ab65137
GIT binary patch
literal 9687
zcmd5?X>1%vcCMc3p6R(bhd2~3Ssj}?C~1b2MN6_QTh>8Rv_y(Fxq?N<8IRaaa;Ujn
z-9w49B$m4nu#~NhC?J63*ugSLkVvotcz=cY5yTM|L6H36M9gyB)&>mX{gEF5CZ>J_
z`jfm@-8~0Ak~asCEpT2{SG_vA>eYMSd(FT1`P>9jlK(KV@*E-mf)7>_&BEqkj*vS<
zCNh^KV@A%6aqQVPW@EX1%nrFN$)|)dfkPg9(vfnGIa!%ciYeEai<O0>JLMVka6}QP
z6ZjlSZ^}33<4D@8km+`7@=8ADlbzSem|qs5U8>YuCE29}m5}0`u(d$d1TVX<^JCkf
zHZ)<AJy32m%U&plWuFp~xxAAQxdBRk#VNaFZbFm;(Ap#i6(4Z>V3ZI%Z?}<tB5%7+
z<VMBwsoj`yteMq@p|+{2wgvjNDjv25o4g%*x6N{$&Hsv>hB`UjH+pHfH+K4L@9A>`
zL;X<UxR6!SCkLR^dU`6ZozA4PNkvO!(u0bs#wV5GIE|;U<LUDQBe~1tnN%vCmZ74l
zFR5HhTuv${>0~aYq&47F6*_J#&!9YHxZcg*2LfluT_^KIgL5>}v{k6ewQ_mdRxXwc
zbL3OAmizU`!BuQY)#J>PPTSCU^<=o@ZSdQS0=ZK?Q8kx2q|AM4z7R*)P!yRuZMt2Z
zRdpWrNMjF)NnMzLy;M|em!v1By0lcbE1Sqhv^bqqw8*vGk(ZBNIihqW6PLTPv)WW9
z-8GX;rn+Er>1;NWNNZ}>crwwIfg_72qS;x!K}}4i<H^_*oJmrl`GYa4OeR!Kp|RQ)
zHF`Xm8ILE`*P^uzO|Tf%2V{Xf5<R!X8{$&%C!S5HAf0yIVKD2Ck%9h!p;6rl`RK^#
za3@Fo*b(1cq76XxmZwfl8=*an>=7Uf<Qp3&G(L6^!Smz69}fQB?mLm&k>%&s`0hu%
z+pLM+jxI<4kv~WSI5ZFYqv{T-XgQi5FN+T}l?CiQsI5M!PoWVLN9IU9L7L~FzK&pA
z<5USm%VG2;WZF_cRt4nKo~j44D08yS63uy=h8xP#oNbQ#%wBG>!>qVlTN3rvub=1B
zhvw|lxCvX*G|K0eWWDpeFegmoo^MGqk7{8WPkc+7=QV6%Nfze#kI5g{DpEbi&)Fwz
zBc#(Yq&Hj`?j1Tg5IZ?M5Ifg<Nf&wthet1gfIH*aMC^((tBaT8suIi5B)bQB-}lr+
zdQwVdWF>h_>hv*T(CygX3iIi<jH)}8^h|<g(z+e40mW0%-K;|_4fjQNurl1GBuKW-
z%W*BP+Y+)aWGP&UP6tKVqHRdnkUryn#Nevn&5>}tKzt^iNX9{3#f;HZJYtC@Lw*A>
z7)+t@aV;^UU|+fyICj8KT>=8vgWs{n@7(ZjyLIixwS}|AhS06#jpRQx^nY^sr_&!z
z|1|wkdNuOu%GHO@^)K{4YHVFT^7-3qjjt^XZa6(Z{=tuaPz<-+iQSIfaBsBjU2p3u
zv~{hw^%UBA9=07`6`PCUUF+d}h48+62MgiIdbqm~?p}0%&AS!{@9w+XzUtn+#_!qi
zgqP-5Jsqoj2fG<HcL86BDciq+0xDaS@iXMz3xv$u=4|zpt;~#7-TPq&xvO(ORPJWy
z99O?B4^ltRX<*chRG$lOiv2U*GGiRM`6f>)eJmM<d&`ZG`@)b;m>i9w4pq`{=o87D
zI@QVR&he>CVq8&m0VE3~!a1IS^Mmu=1+zoDL)EAfPw9?KPRr&rT^OIrrLWK~XjSpW
z@aT<`55<@u#m2$@#f)CG2RIn(MJOzgqR+q3_f>HFqEHNk@Az)}?#2rNX+5yJ5ZDcM
zp1`eFKYX?54J|2mQnynD?+c54kG#R9T}-vTbx-?+x2NPHq2|YKBDk;j7d^p+!DpP{
z2QX>X2_F2Pp5Ov^b0?mbc`^bF%hH_vTc>acPNCdhdkS<Pbn3KIw1zsbDc7t$rm!$V
zUqo^U$zdQ{_O{vD+cK`OcK8S|AHxpkfz<4<zwy@mjrqH87W_Nc{T&5=$0A?!_zRvk
z++g{}kg>NNcTX+Lzwqv_zpuIvtgoh|V0xI@R00k|BaGuMu@b&ByER9d1(_uCpre1-
z2(nvkXH0GxZj@~Mq)Inx<*{UYMPs^%t7<o8!D^WYO<H$c#~fcfF5K68md9-^yOK|r
zZB3;P&s^p|b6U4-UeM57vou#(jpHe+5$7DWtGPM#LX}PIAk@y0OMrH+l56%$<SN(c
z8iM=AHvGO#=V=D8NH@&(WZ!U70dpY1y;P_amjL}BsFWr$RMMst39p=K8%CelUXye_
z2N?3cT^E>^)<v^}%0x|f#Z?t-KpeEbs5|0Wz(F#*@4Apk<0Th+FZA_NnxQ(6L+c*E
zt0tZW05J{<0oH+cyVFUJLdJ{(eHlu+7xc%BLe)5eU){&Xi<#3`1YJe#hN=S+(;oCJ
z4uhl@e(IkA0bzdW$in%evvJia6~)GNv8^DsEx)}IDYTzm69+)4ueuMf@kfg8hLX+h
z3O#E7t>uo7&n*s?9K;ni*)Oj63hjMsV*f^P`<=GiZR^3kh2Y-xU{@j7RSdN+&#jy(
z*-5B-lh{J;MF-%iP{(rL!{Gi!M`g};RxTFW&#Z~PrR~Jy{|{gaG=D=lSLjP`uw;k)
zi5i3z|B2_6k38_XPPNz{G;=_8N7g{|)t8`bU_OB^cMw=rw?Z8znbXQ3S++4%kJ=Uz
zgJSi12vt4669eP$T|JyNJ;d4`090H<c_9)3jFE4i(zNWct}X_Cr!uN`>}Yp)ch}6p
z{1IrDG80S;X)c{clw$Zo5p;q;3;--hZ}pChPUMmj;2jAh69fc=lh<amitdz^iFhsv
zh-6AhX7k=igvo3KF-!j4QIKx-Ea9^RVl7LFv}C9wsUnsKBy$)^%doXfB&cfM3G9HF
z#~4UuivSFtjOJaD2;i*<;H~^DE)5FoP8l!2R*JSUDh*8Flrsrgkq^M|2~~oAjQwgN
z3GWXtbd@GFg-vZWWiD&+L>d;XP0>tlatf|5!)NH_Ni%VpKpdq;!6bX*vK#|+&KyAS
zcr<#Sql0kR)t*5phFtIG6gnHrWbt~b6wT@-<jVko3&XqD`RxUMdr|a1@&$^4eMMg%
zXm+9bF%bku$qUYc#n8kU8cRIqJ5us677<uNRV>>oEN^l(Jl>FHcwydhvJBtm0#w~0
z3c<Jn#1uG)C)mb#MUd@^qaJXVd07B2-Ep0_Oy-yf+)l+M^NI^v#HtoI_~wp!@Z03Y
zh=F%j==A8G(}pXKu6BM8iqd<i&fb&MvIkyPp)=>t4@%&iM-5HHurNaWp&D>lHgm&p
zJF6Wf@Py4f`P<Mk&jD1d?=acHG=lj8)5uR-`&HgRy!T*oYD^=HgBoK?q7zT)kFHT2
z{w-tvZ_OePW>NS~vsnKP9b3)fEYVPVvLrjLedNISgZVEzXtHRv%sZd@?#|!j_hjb3
z>`>M<|MV5u1$rFG>p({7Ni3d0@*0v8Ksr6lr7{dJT1#DcKbIK4VhHX4vb})>?K89L
zv=2-DKsrUk$&;`G&9yPeIV@E`C?ZJ}VG}dYmW9^s<0(1suewrEtU%rfi2efkdPn4*
z{BXyig4nv~Ug|40x34$vD>Uz0^c7!zWzoCgX$F_8=xtv2?ksqB-fLb-6{PcP-oXuz
z|JJb&j#XNkR?hs@8-MXeLF!-gp4|wy-FfHsJL};Ch46v(@S#HZP_aq6cl-+;%yv@`
znC+&9#XhjeO?&S-9)`OX`ziyqebH2q&aQa}0P%h;`c@l`t%<LI!wG1?*Yrr*wJiUU
zXUPX>!PjCgs%d4gAic5XJ@<byEuaPeHbe`J?SK}1O<xAWfEIjBPt*`>+k+Q9XIjY5
zTU=*$*?-=_0c9$`M&BSzVzBy0P^hnO7#=9YXJ9iEAPCd`gI4)Af~eO+kR4ThoU-_t
z>r+!l;Vgg%-1$8xWf}FPWSJ|qtU^(@qDe+|8_oM85d+Fb3}Zc%e-AaVQD+%&FxHn9
z3G5nLNyBinQNZQMCIMs~Ff2aeTqE89wiG5&bJ=W$Le8+VIhY!y7vSBW*dp&gaYiES
zPUz0T-jR`${k{29BLH#%I%60G0Er18;;LjaNU&(Ah2RCV;Z#wxU|?YZfUnaMh99H%
z?Q|F>(48qogE$DKZ^08dbZCU>2$E4G-vd%@x0!JVmkABLns2VYKxojdmXER9+dviw
zNQ|rP?%_4@`J&ih;Mk&f$D?3lv9THKb?^k(VpscPBD&mQuU&qNB~bK+8P|?t=%UHv
z0G<XCXj=3cK|nXyJ_D4hHNo04D#f<}RLa#yr65T)vIIf8GES{$&*sWb9!QTc#B@~t
zrG6z1AtHcFmdIGng*20h8~blU$qHbM=C@%K*XZ(&34q>(Gr?2PJ+h*X(*%P>x{yQf
z2;#18++gEvDQ+#j3<Qy<sw5{^jNL$4cp1uiuA#g`5Xwquc`KmL#JaZaXV6bY2WWwS
z774Yl2X_~OyFuF&gJ+A)7mA@h=vMF9Bm(m-yd==J?%z}J?*Uci?^+eR*qPk->0*q<
z=wdP59mB|44gzd3-5UeA7f&Mcg(qh$CTGT>z_W0k7aTY(F%Gggm63H3gp0kX?ivDi
zH5(sS=sU17iYkP?w;qg*<Sq|0heSOI@wrTzUV+B@gssAG!`Ln%$-z(6fLteE@&`8{
z(sE`)2$pQm32$&qd)Gr9g-}O{;M2XvZ&<!*Ck{}pSXFwRW94l^)9Q{xC4%|Up>HrZ
zxu8_q=MuV$t<SHw_7qxsN_KeKaP537KyEAumoW~%a<cH!ZwkKjqlW{Zc@)SQ#@ugU
zOtbdcI8zr*??o|e@-x8Z0@&C3%D)UYIgFftV#BCQy*MQG*RKb#X-BjHtz~0T-fn;p
zHUbfpI&iXHR7G~meEo3}0BZl3`&|y=;~s1DIo^VE_`RnR>90h2OaNGpxX2Ex$Gq_0
zUYGD)Yq)tBVlx42b#=g*I0V5{dI~s<Ac{K`zZTOnSClk_L=1D1muliPri}r+W}Wmg
z2H@xn4ASW`P~7)%z%e8h<c2Z5t;o#`&r8_E0xga!SJ9vti}4z97GuV(F?ps3^4qou
zE26gtFq-;zK)!|EK%F&7#irJO7wo9IN+R(FZk_nxMDc|^e|q8%Pb~H=9WQt#3%Z4)
zOBdI}dkWz_>)~ht|IU3b|M~RKrdPw~zUYG|j5T&FUtIGZu%KA?ns~4b#ddZqkAD39
zB`?m}wRNb$&y%a+!7nBX;lau<CEv54)n6a?oH|Gz9CV#})&Af(2lN@xY60HA{_Xnp
zpcQ<VGQreS`N6%_%C|^%$j;BiEx^i^-~S9?Wh#^kxWXt&{942izx>OC@oR}xE+wUN
zsml-`#BdA~OvF@^maWZV3k%{yU<1Mk>2U>O4-C>U8%p1WjiA2+M0X6obpbv|<zKH4
znre`eDcfL8%+aeM6MYYc>*OmCNw)*Ss*97Djmo!gmC|a6^c4)IBG7sYL~2Fw6FgsX
zGIYcP@^RNgNA1PnNPTp~Ai@6!ESiOv%3mnMBK$aDDGiMCNcb^OmSBqkjY^a7Wvv_n
zdlq2YZU81rddi@QDtIb(It3ZMh6HgDO#o4=p%8-y`RBGCNi7EYH|&MZ=@tysgh(}7
z5|KE_wgaUwLqZ;ggqleJK1%E_`1jxId+0y3DjqUSeiGM#>ahxvumvLdOZc%s7ebPk
z;3J+1Nt%R61(Co50usnfqyeQ;H$x+S6OCYwXasVT2TG;q{X$O_8i6N<Mj$uVf-9&&
zBe+xe+uR4FT7g(Gtjb3Xt7Z~E|8hfc>)wVw#@5%qEueyw%y1{Y4lMr(KjtjLcT?~7
z4+lRv@v!Z{swc9_N7$-5+o_5p;rCUFK@{o+qB|h63Vsg7<-wOb_J0n>2jQUc5XI1|
z8b$a`5mo7}C@N9>?q~joL=^lIgNvf((pwlqPD>=!sD(9S?2#c%z2Rid|F5v`(-iTe
zE@(LbNyeSu3l&CSg4sBX_ZzyQvLDZ59lrY(Inc%91~7h&-h@_wL_~cA1Uzbv+Y|{G
z_=>o`BEGMP`<F!e6>0e;Ir=No^UwCcKk=_`?AW!wqo=T=XO(aL#vyPomI8im*WIJ*
zZIMD-q(tE1^Ia?Um5VE$!i#4%@wwC?a-roHHVI^<CLs6hW;w|9ad+)^<&WGYg5}Tc
zM!s^<$p4n#Wc8)JEnH}I=SwAm`LW?m%pV`^<+$#p$YX-}<6+wgu4gIrm_SxKW8=8!
RQpeJKA++l;figSe{{m5}U}69O

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/run_batch.cpython-312.pyc b/entrypoints/cli/__pycache__/run_batch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eba8f8416dcd8ac61f685c0525fa9aa2ede25cb1
GIT binary patch
literal 3012
zcmahLOH3TewR*azr{~9K%(6BZXcJI8>o7Q**<E|>-2_<dotPaXz^i1mQoEThplAD+
z>TYKlfrKJotVl6AIY;M|4?ZMPq}+1IX`>th3(2tMbwm{JA-72&mz?sddp>4Ca!XxR
zuimSA|M%+8>2w0YX9z#m|0p5!PX;u<Xk&5s2Ut8p8qzoemBN`TaRD4D@xd&V1eha6
z)D%l1$7pyXW=bU~SPMqnOq3EF!a}9Dd3}2(F`$ncDKlM4bI3|zR5{<qHdm!|1mOhk
z+~UHWQdb1sM4EUXX)!Er@r~VXO~M&0o&#_xqQ&nEr8BEsHt{cpE@nBJo|-Al`-^4U
zG*wH3jdLH)%zU8C-<h2H;5}t_Vs3tVPMMx9%-p^S$fR!Ro?_U`%a{Pzd&9t==!*uP
zAj`gqEpJvOE+*xWcR04pwgm7agb_1UDWY*;sz^z|QH{r9rQ^jT;aU^4=#l^m30n<h
zNn)y1GN;kv1kg&LUUD^>jnmAWZ%wLRd8Mse_2R+`mhTeZ8e3$TyRzHTTVAq>d=C_t
z!5q12yhTI>l`OkdB-rzbRV+7*9Y`R;$jp5B6WE1-;K1R?<kmS3c|udhO02nR&l>MR
zaD`tb2)HKH*h?RW8KenKM{h+!>`S>s*HD{w4V`9V@-|2<8j=}bkG%B0SW^NHMbKIV
zZtOWJC+waQ(odweB-Sf0u}-|r$769De3icDsy%}g9O&5aNpt4VD#|8`gqaCqR4`TD
zs*VKC4g4-U#4cmk)vaZDVzwaP!^G8XOCEKpaL+Kzs>EFWHo$PY+x1l9DJ!1mC=l5|
zTkV@Awu!wJ?7K3|L@&ECwp7RhEgPYNV-pXeM$<^O{}f71cSF(+dVz7vLDrB}$JQ;+
z&DjoIq~{>|lt5IH0v)Ir<{K4sYssc@-DE5beUVDQUe#1jrLl$*v?G*6X$VHULD`0|
zO4-mEGnQ(klU>aF#Go<NUA4-(O?hCO<w=}jI$9zq%zVKam&Lj)%m14m_e^Kp(Va1{
z%`*1JKJnkWdgbG{@HhxH?yPz%wl&Ul8-GE!ao|4Qx;5vlQod|z)!w-id76WL=4|&z
zFl?YNrJ3ha$HU}<<bLY)-xX^48$0<MwR~|WU;OmmZvMj~J`ztHi74L5Xg0t5SlE+B
z>j{+VswD?MOAbCuU3;F&JiPVb*7n)_Uh0j{Qv;9lzqtDItG~(r{>pE!{4I68g??i%
z_2zRaxaX(E$NAl!i+`1}had%_38)oLP~6;dBmdYwYSn;W1Mor(fNWahD$Uv#kcI=~
z2RrkXPvcp&dm?T%>c%=BWEkI!>2=;?ehI$QD#q!zK51p_8n3jtuJQ9IE4A{Y(^Nmk
z3OG^;^{ajZTq3tJ#dJJZhRz`Wkmw$k33h!0c05~N(hZ!e-aSd}2dTvp?(4368$x=b
zFb4g_Q9afwSkC1V^S;BP*p&^ttQs;@-}e_5W@X)Sd~e+LJ(vOpZm#+c3ndvsCoJ3Y
zm@XHJvv(G971y>5dCZn?-&uG89y4tX8}jvFdN<2cVFeowO={RJ6W#G3*J;#u)nyF%
zEwUb9YS|d+2IG=p7-#~Lw_yw_SgMH$^9mKAN0_QdMeOL1ky(KXE;g2k+&b6=LWYUk
zIPS88kTNnEU^jHMf=FR~w0Z$-H+j5C<&KkFhGVV*!v^{<g!m2apntU1e|e|>@_wr8
zVc|hxzx&&Df$M&!E}}DYT)h*W|K=f*&L_5|v;WSZ^Ov?SUEA%y4$v3F*J{I)JHwNo
zj{GJ2r|jPF0&MO{L;IaW+tLsj0v_2El@x_3tSB_0C}2R}VC$5k{J>X@1}3H`nq5{D
za*^qjf&%I3WmaQsjk3}igb|Gw;U3pf%a{x@x^89OUkslI?nIe6fv|`qV=(**1^fde
z5!M-l;T2f8w_v!BJ{Mj;NcL{LcM$EaN6tiF+q_uIjO=7a>Ii^e_WXxUhddH90k-~H
zS5)5b8?N=`clz>m9-xEx&`}iTkWavZ_1$9+6_(aPJ3kAHN62fn`sVXvnS;dP;L#My
z_$H9G<)#vZQQ%f`1rSs4yR6b~pf6H`yD51)d0|_)5Zbwie2blBMUG}#<viD{=7hCX
zDtfC9v?$tlqDw#}%>fd-go#UgPZ0Q?Zn$C4CIe*HKnN>GG`;Zs*=c3!{pqP&h2l+m
zE+7a_<eJV?!V8#xXvf5{rya?`CSfnIzz9?@bk_?sCSSD&OF)R9cgZABGh@0R!BFQp
zjyseP*Yy;2JVoc8qV$(2{|sG!hQ4;d$7}qnpYgB$UHHzyz-VnCzcY~E7W)1X@7es`
kZhUY<JQ6Q)^3Mj25KQ%t;HKftk<Im;%;*t<bzt591KwWg9RL6T

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/serve.cpython-312.pyc b/entrypoints/cli/__pycache__/serve.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..67092f74264f3888d08836cfdb91929e59abc98b
GIT binary patch
literal 9913
zcmb_iYit`=cAg=J<nSR<qTcV(%NA{mvTP+zypFMoB|D03S+-<v!en<saYoY6!$)R@
zvL%p>5(K-BchPu(7V%=Ys9Nj~?b<+HpeXid3KZP}{X<#`$eqeqE!KY)=nu74n_~a8
z=iHegDMs1tk6v4M?(^K&x#xW6T>eX4ori)TGvAj&0~GaJ%vix;CSH7(rl`*-ff8t$
ziWpxyLX*5LVk2LB#7@3U!Vz)M*v2M16RwDhr0p`Ba7Ww;PsEe(M!ckqk$s7}NL|7o
z@sqqm4kYR$^(5_-8xp}tkfdF5W1=b2MAEF>oM?%(khEKFO|(VYNZKQ}Cpsb>iOxtT
z$$RClM0cc{q<wNvqBqi;;36E!*U5c}{zyMb`{jYeU}TV_1M*PfNaP4f*ULu}!;#@c
zC=#M68zlzCV~=1DFhq_E4UrQz>JlXcKc<96(e=n~){F>EVpw#wLw3<7G=I!QMuirU
zioa*nSI1D_3iV@upuP?2Pq`_f1O7UN_KzKr)2no->vu?ICPeFX7p_dtWfo$oL?W6L
zLU!GwWRkopDl4L*H&oL6os@DLihQc5WzuGYkWCLHqPImpsx0y8r~=*ej+Lk^2~kZn
z3IwAmwoqZX_FGr3T;=C(zJB5ABtJWGV{YmOKQ%jj<=Q2v^h!xd<K@)SlBht|cT<fn
zi5F5yO}wi?zU87U-jx<)aY9+jB*dgPOGd<wOQObWu{57iB$!j3AjVP(P624CdIL<E
zPb;aIsH(gsX|f1i{8Py#DGAgSaTcneS2L!KQY^U|O~UAk-Y7>i$=EUv6h&Snop2%S
z)Lk)_(NZ|khN~G_lW>Hp!fs=u5>^!s4owoGwk&2;7_W6=c6yHNGY$vU)`&fKqOc8%
zDFwz%q-9Z)Qb`_ii&06=C}Q*^@X!@9DK5&%saRCzuBFA~#PkTZk7~F@91!P>Q{=Ri
zk>X(MJr$BFw<1NkH|FPO!`!5}7=?+d*!KDzF*%CS>5-G+mtW_kMJ}1*5-CBHIZ5Tz
zv>1~XB~b`_Jab}Hi7j&rt6WBvl1pc~_eMsRMLGT2IXJaNY3Y)Z%B0V~hg8M8X&H8q
zOQmr+D)v#u7^b;lF}xH$;W4{j#et0OCpfe0qJm5S?CIgSo2pnICMwH>xVoIW!$F3N
zuD~8eas7*ObV=o+8kb7O#IPq;eQnAT={}TxMu`+kA&@{cNFQ5-5gmeEbjJPFU5vEA
z2#!TYaDL1@GAkqOA8G4?`{x!|px1O5J<$vF+|b6i>IixC0AYyAeOw!!Uxww9gM5!u
z%lDK6?%;rtxD_~44z6%mcaTOpgBMMADsW4c<V?&IH)LpBHVT;+Ao*a~TDdL@BKeWc
zn4Z#|rQ&AVC^6y>8xAkeQhd2Jv~X7UG16)P%Gs}$3%1+PQ}JnDt1e4f;*q9Ssjuxd
zNqW^C-b)Ku<?(teRrzX-R=P4)^_U_1jP53^&TG-7-{B6yskoM-YE;t{r3do5gVgKn
zvKSR)xVCzIG%c9|5pHZIsp&qHo8|f@%n>=jS6b@M%!-^!rFA>hDhv)pE1mFBaZv8}
z6Qf!pJ(`x%BO08jsEypsoO$(?+h@d4Sy~uPuWHMw<mielCq_XKDy!*~l+@JGm@JJF
zJ_x5*b$cu!tTonfR2T|JahN5D)~S6b<!gK}{;+e~JG43YH{qX!^T#Gj?cIOb^P`@7
zlRtQK*BkiswfnC<oGf;Y6}rZrOg!y+X~)<0u;~k5&u*Zx7#J)B1~=Y+8W`TGAKaM#
zqW&0AY-s(=^Fz;1&Ta@>oyWhZKk)*FqGDw>fef-CVZ{ze9AHJd`Z#_@gNjm+cR*e;
zswgiSTZE)IP8o)e&RY6rt*v&cR?T^6ry@XEr*_!>jqxwoVdWV1^}vlX)RuZ+dgYt)
zb7=J$m8Ik5y8;DfIQ%|nc$6dv^kbW))N?k?WtC@b))JxAZI#Axel_9n5gyyE{#hGe
zzHeFE92H__);Qz|Q{KN*=Hzd4@0f!3+pv>fK~!UkL?p59$e@-5E#^e=k`O{J-4hiA
zOPw>xXhPJzlT&jSZcNY4PhXo+a3u;(Tz7&PN<=l?DW)Y*wIRDQf_2DW2owNAm}FEu
zY|c6|e|g(^)c9*XwFh^weggWcGZ3v)drqpYzu0=B(0ZcetN(QRlj)y+BmeSSdv>aA
z<OOAG^W5|8vsByBjqFzI_&wiF&zWM+`9jb6&xKz~{~&Gm%--{Dvz?_tXP)gOED);G
zS)Ru=^1SZhdDyXxjA<Xwzn_W9W{r#Ig;b2^m6wdAX`p3esLE4<&cgj9Or*PKfR37u
z#sI!RJ0*;b8~C}*f`L@j38L^6A6A})=w}p}1Yu+a0UwEwHB|wkkEvfVr*^%;^~qgF
z!=BCO7<n*U3=S58gL@QYHk<wfKQHW*Ge~Opx@bq};akP-(L(p=9tD{vlP~bI=X5)|
zN*(>hj`2dr_?{hdyYAk72YihQkg>a9$Qb;U170(7OWPn(eM>Fvw?xlT$_c21TS`b=
zfOKU^It%<nj#!z3imULaqE>}#=<D3_b?3c3d8Wr`kD~8@w!%#!gWrc6^*uk_LMjeL
zwLze7Pr{g94cn3+l<(I^bmcZ4rkUd9+h_HqU=-_i<!G&ZC*wGqnvk=BTqtXsN@dn2
z*dH^NKF!&o)ghYbz>FQ%m><zudpua7Wu<aVmN^VS<Q!Rt;Jgh|^Z-3qg`U9P_uum`
z(f~5poKtJHD8^f?ROPFc%i?(AH6iP?)<jePXF4d~YeF?0SQT<zO@I~QnMMSs;6ZaP
z2j(BN?5}AC*&Lf?e@qEps2%)j?T@Lyu;<*`5vwMSx3VS(zN{<jw&XOd?6}n+YZutZ
zb=I15o~$R1(yb=IS^KTsCa8sp<F&5|Fi$3avZfHSIj?rwD$TN4Z+SG|ADML^>&W`5
zW{q-*1np%j6@SG_Rld;cQ2vUeG^z=L6L%o%(_XVG;;2Y#Lbjrf==e8lDk1Bm9@jrI
z?^&+SO=auiC?slvB~W1h|L|!wRQ4Jup;V~}6-ukr!2ct)JJenK+teL86r53dVa&B~
z1<M(zkBdc<M>TFi1nsMFQj)U(AhDh1LGRWPRST_&MXMk`ubl-`If_~m%okDSmsb}Q
zN#NxLG_{f`jf<w!vJ@jGO)W_U<@4H02MMUs8k)Um6ecn%na+9c<X5J1@c`Zd2}>a|
zesK|^Kc_*|!`BG$vRt)FD6kelO5)%UXzCN2$_lpowu-F%h+d@tNv}2D5M!dWA`0A)
zz^T$wGAf7X!NuS-OnluThzpq|-7~kUYGPvQuB2flHq0b+$D)GBBd9KCG$C~-$t&Xf
z84(%^CYV?^@Soox%rArcLKc;^!D{RsK1a4fJs&>UY8hs(BB%ZLI`y3Of9m_hmv26{
zd2yRP{i{G<sc$In>)8o*<$Yay4ywMNs3?F)UY-ZHh>G?&uhVDO(uNrhrmta$4X+HT
zp{jGYY=5wR4QIg#?vA7_lNNBgg2(~VQox4bhE&6(OMyKd79>?uq=gKul|!!rHdsPa
zIt+6NBvOExz#U*XWY8Dkl#(*|GS;qFrUM&}e8E|a#TlN9VVGVm8~uSfg+p%LZP*|D
zVp0#1%`}}Lrm5pqp<V+eFNk;b2BSfBkr(kOvOKs0be~ZVRtgv`dIKJrx=j2>#y04F
zYoqv>90k+L4V=OQIZa*j&jBN7xYfuF;n09G0OzNBZbjvcIHf2lMQ3m<JusoJCS!&p
z2RucpUbhHt7a%ARCzRsFZVlIFr)DOmd2o~P;Dfp~bwh88fo}zTM#fHAQ*J$Yy~_7f
z4_I4kwQM`svT_j(mX6B0Yi|0|{M3!Bx)T!9GxK^Q@&K<ylec-~3n|G9Y2Amb2%CJS
z%;Idli6}6>!XvkoGwGC~DbrZZNJ#+V=wHyAjJ-E_1JEpC6}@H=CN(Low;Y_al8*6&
zEE?BJ14am4^Z?$e^1di=D{K0}3KSF|x*I)l#@RIh8>8GpC!BGHx+e~1D!(Wxs-`<)
za!M6L0b<eVUXwa{FO*9-@LL!O7~RC^8brE}cn{&Q=D-fondKDFX+SZ{lZ`Yllg?UP
zq%&kS5$x+XM*ue``t=kvC{%=RV3t&cZyI16(S(B0b!_GZVF!|;<nk6>T?JRy!}p)M
zxE+66zI}Sj|7M<j6O7)*)?)BTA$X)194`dNpUiIs&#qtIY2u1arwUD{)~}X=-NoRk
zLhw|nWnfbPi>2{2SS*ds^~-xK#WogQ$DX>55t=u*{I~M#t=*QsV#`>eWo-RgseQQE
zK2d0&$TKawuJ(u5pSpTT)7dTm^*nohw;h0V%f8d$=-&5J4)6D_et7lIj(isWVR$3F
z&5Z3Z9<yZRha($3+sw&bR|^bSa2?wOQsHOpIWVm1dy9c%g}||UOsRL^;o`=`MyhyZ
zqHts)KlFOO>q4Gw-vLSK{lvRxqwB8HyS}!PuY2F^aC>0PrlE~@J|Eg{eB&NlV(W|S
zP=OuVoX@jE+w7?l>)-Wu6uqYk-c#$7B}|SLykqN=J8c6SlbeHEZKHXn`8iDT@`sm!
zxO-@q?I^MBK-=Nmucum$?*zGG@MIx)veY?JYU(XEjTV|li%qW=nqDt;bV5m~xueu^
ze5bXy*cvLdhBl9HwZ2@!{X1P~Ih_xl-f#4@IM-+P+89S~iESyeeFe5}n;k&e4=c(y
z4Q{hTq@t_9c74J2{P(_{at98t`@M?Rz%PgD-{_?Nx%23>&3?Gy@*b$puQOW|+nW@C
z{X<=CIXX)lW{qmJqQO-*3H<2M&@n+m1?E&a7Rsi}yTGqGTh6Yb>x6{E+zWBM<u#$o
z{9&?mmf_283&9S#GCi$qq<oE8!o<s_MrDYs0}Lb6m6CJ9Dvfn@YGrdHeu%*UrcJj+
zL#Q&9G{j*f#5prj^#L=(8p(CI@!&)A!FibBkaK6<@iGvt5CtQ^9UrdbtyInn<!H9o
zgq$zyRoz*i>dJcHM4_i~q5_qx)5^v~)(IvEo24HyM)#MfcY$+q{#+neuc0r61g&g7
zWNle{7MxPq`uHiUw(^D2@k-80WdllmHV{8!<ttx{lak;Af9!l@o^Y<AJYxpdPzP)9
zYOh+o1h+(G8-7avDV?i>H#+!NfrHt)^^Onf4>Kq}Xb@cIfW+Z+DrQEu?gRe^fyZpc
zyg?{G2A<J7Hkx`HASX@zVBCb`o*4pz2`2yD|3Cm&1nQ5qX`(A8u3WkHE&j&Mnfd9f
zQ~Z@{HzxR-vy&6^(=(S4uOq?+z@AY7X%S@h6;OYk8w;^|y$OPdPYYgRlDc08kR~RH
zN=7Fzqo!iFO<e}?)$|9edO%91Gn&;*1aEOFqa7?kovo>SCJjmzp3)2`q<j|^0dP22
zH6u%P<)BLU#!@Lokdjfrg31MK+)FG90*jPpC{UajeFq~RqxT@vgTx1IqDm9PH5@2I
zI6^>@62)E%*ozU9E2_@@u`N};jXe+uC@My1Mi@F=ft22U5H-N7o~VFL0M?EY!<Hyh
zbViV3n%;qkqiX3Upuu?~+=UHPb(gV|s@{&E!`Q@hW&sXnxx9<$(a?JU0Fw8kuW5vm
zDikyhFMx+v8CX?5#F>4B(H)E`*yJ6|zKf9nk?s=G1j!+WHP;0t@`CO&F(b(--@~>|
z2Y|G7toN|WZJs}HN_%A*yxE4oeFqVeiaS*WTFj&YU521e!RW8yPu&I~2*@SS_-XEb
zF3)u3y<Mfw-eTv;Lgz^U7Tyj36T}S%&Nx5?4;!AkI(ATPAAR0=bd%ZY94Rnu>oX4~
zp9fnG0XU_h@%78wOn+(c2!8vX9|Cwj@6HELZ3VBbU$zGLiB{~LeA+t+7^dX=)(g8W
z;Mt>W03=wdrKi|@w9tHX)4SC?zCJ^={aB%CEMGsiK3xro{M|+W$%6mn`lV9yV6pjp
zq4_*CZ|pBNo-H(<UBB`xZ~Kql-Tc-s=%2rvXI{;FU)_E6H2_J^-CZTN@xgaC-hL9;
zx7$3<-?-1@Jv|%V&9|Qq4)1iIDRqWQ4bAw!?P#fMsMvL)&~>8JeWchOE_8=~6X*cw
z)<070yIAPExZU^0ZbS2avv<goXZ!XB@hv5K|J+~s|MtZ5zE=u;H}l_^$Jp2N<roaL
z_cFzH<XwHczUHEDyx;>*EamRc_rFqLUj+o&^HQPvdj8BT#%u=^I0g{!v>t~|_%9dZ
zaDF*OBNYmw->ay+|FLtT<>H|Ip9UQlM_e&eeLy)yp%_O)=f&Sc1R%tImsUY|N)-4b
z?T5W)2%wBDA)a$oc~k8b(2*@GU#lhfYsvt@QY27T_NyKSJG3(FAW96B*&+k#gh6#;
zsci71F(Jp=%TwjIEn*&nl_{-A0{G>t-?t6fU|Gtd8rFS=g=tu&L_g^6@@xAHyl~h-
zVkijybvu~a3Oc0~)c49!j1XmooK-g;ozr@qNz}Au{h1XBeiM*1ucZ0jp%`PTD0+=s
zX<W)rkuFC627fAAH1L?gQqBEOn~rYW0PCQUD>e=m8V5JN^W^$g<C*m<c>XO9ZvXT&
zyk!iGZ!<6LFbyAHLzMjHhi~q%?GMA7gHM<zi2{4;^FM*;KkYV$)9|IA0P-Q5(gmNH
z(75tV_$rGSktL!+(A~tyM5(TPAM+h%zWkIJhSi3()wHN807fXi|0@kr@SB6EROJRE
zub5=>i00ABQ&hO>c`|HvDVyTRJLGv!Z}|%Oj3&vd@ytYg2w}r%q@Yh;Zz9c!J1uND
z)!<dsu<YB7D(oG$US@cM7{YeFt*SmLYREihHS(q2T2-wQzm!=^c!aP_BWbcS21~=A
zkc9D<A%>l7Osi633`^{2qTA}rJxza*VKfia7Kh8f8sRNd)-dmlV}b$T?MabhY8Vuv
z`HK>w^7T54lrc1_KLypB@(qm8TcDtWn7r2L3}P7aG^0#l;UGpteGqm<P*MGubIy1i
zJFom5RDfEc)L%ffXQyfU1xwNO|4P;U7XN#nQEktt@h@!*ZToi$qAxuZ{WkrKI`@nk
zct(wo#K~V%lh3H|uc^z=sG(=n#4~F0*VOgjxSJllwdL+vckVIH0JHAh4{~(ZgTy`s
zpS_DPQtyMo2f0FU2;Q~m-aU2(OYRz0-wO(JdkeNpH0^wNx7a&Y=pB1OVQ%l1jT$|@
RXRo83yAJoh1HNQs{|hu$q`&|G

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/__pycache__/types.cpython-312.pyc b/entrypoints/cli/__pycache__/types.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..983c2768cd79d0eb31e511aab6bd8799c82f02a5
GIT binary patch
literal 1431
zcma)6&2Jk;6rb5$e-b+%tx~WsEKwt{M7=_a)FM@g5JHKXT9w*Lu$R?lXVPrCU!7T3
zwNDX*6BooK{0T(4@PBYg;9wXeWC<?Zthy2sC*Iq&Bl`p+`S;$N_vU@Cf2`H21WsUl
z?Z2xN@&^jjV@#OwJ}@VQ5k>=I=akx%)5EF7^aW5+0y{0xL&G*Gi556H%p%N~0Bai>
zxkH$KOqg+|<vP3AqpiYUD0Es>t$q^l=l)*6H^t*_$fNYWD<l_QZk%IbB8<NU=7ex!
zQ$}p<5oBuX+~5VK-3ARWGM$$WmnPOTgc+=`Z?NLAaW=WNEB|3zIyUSoD}%q)8AlVA
z8GHf!Rlug!E3~Srwza$Spu6YAVdzGzzy6Ucx#<P2l;(acOwgL{q(1WiECMcMTN#lX
za%F%<s-oa&S416;&V++e5&Vr`1vnw;rH;|F3I7E>)jIvRF*t_f(v$~rH(;h8CIQEW
zn(2Wr&5)-DF*~K|N+(WtraI2Hg@{FqiV{SS=+pdX(@Mj{O8n$T3aRn*#`EsY_isJ9
z$*sWOvyvV-imYcr5L)0}^pe<*QfYaCZ>7D2%XZRJx)-wk@?2BeaJ7O#>HtUN&-z>E
zYj=OH@1B=;$8bZu$$lW8ovd(Ny%W+SE!sIHElnAc2m5)lXm6UL21J#gxq;8zl=oNX
zgHG>ph!Xechz!dMVi6xzWp^*hwoT3j|6g4fxbET=fR-k(E^!q=&L&mA^zZnQpY~s$
zPi<b?z}L9CN91LZEUsNPC(E@}S7pb+b#WY3b(}C}-2nLo$9dXygNdf(I4t(yT9>I%
zi;m+)QJlJ|A4d|6CGuXr3aSjl&B|Am4mg&H>v4g@5mx}zvI9Gne~fa|Ll*)YBe0WV
z83CJ^wO?RkGr(cUCjeiOUkz(mt$n#OEG&;STDV8Qd1tV4{bJ?%h@kZS)fX8Z>!i4n
z8;putq4wQpgQj)Sv_=GkA3h!<8I^T-@k?WE(Ac<WY>adihm|*97LdvFz!X{~@dgl8
zggx}5$Ex=5^ZVP*)~DNBcXv8>)N8o2?QZG^vOTTc$;7NORo|TZ3(BjSuT+(9=dJ%h
ztV1OHUgUcKBb`z@E)%-+8>tQT%0R#NlYZ@Y<HKQdebC&vXl|SvjlYXa^d5ad5VNHJ
E1pwe!UH||9

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__init__.py b/entrypoints/cli/benchmark/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/entrypoints/cli/benchmark/__pycache__/__init__.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..29c6246829e232ec2d09d10908498874c144effe
GIT binary patch
literal 175
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV`RSMB7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#v9l@wJL<Y(rU6zeDFWa=lS<|Sw3
wCKhGu$H!;pWtPOp>lIYq;;_lhPbtkwwJTx;8qWyC#URE<W=2NFB4!{90NFk)mjD0&

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/base.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..559b63957ee02f89827e5163da41f6584d9b1c4e
GIT binary patch
literal 1239
zcmaJ=Id2m|6rMf2c8s0FAP_-9i{&C)WVb;Ijv}N4Aryox#33O!oAu5Fo9xBR8pW;<
zgo=hPl!%Hbe}Ml$L#l|aA|VPo6NiS1_jZjjMVMmVIq&%1n@{C(k-+iP*PZt=AzxAW
zb8;hQXaciKD4~)^nn-0&^5v#15t-Z~RM{a^W%9m~`8SoGWaPf1&@iN=eB;jg{cg(*
zecuVFoB3q-IKei^yM&RZL`hSA2#J~sQ(2D6D_~(7RapMX?Bvsorz*{Ds#M!i_eaL&
z6f4p^c%MJjyD;Hh>g9~7<iZ*Y+_vxVt-pn?IfC`A2W_UefYV*i5ke0)bun&5=$j$e
zH=cQ(ueUJ3hMA~s=0%AXIb1NFXq?4e9yDA)c6=n@5UJrbT)QM58(v6;)UT~ls>hHO
zP}3d$xa+eZ7J3|}$}FzACnaYaVZ81~9z#2$H#rZvAt#FK37&_L0#oYxuiIAaM^@B{
z7GsFU;>GRmQvKT260^Kc%Zhq&I}9vr!Gbuv7lj>2XSrU-N?SrqECj%edP&Kl)CQ9c
zkwm|C3TWn}R~bve4SP;bG%{2DT(~j>i6kn<a1o0?=l{4g?{$L|f^k`9v8a#ED#ThI
zOQ^)?%Q{XExPLJmEuuO0=UAU1aojI~Rp=bc1}uHrzjRucV65PSQFGH-b9@GLMmZ_i
zcHsETwv(c5`yuUm$d_#UY1i>amb`7#&;_+3VxG*{wi5(l?8Kcg5THGiuAI+cLNqBr
z8|m<qX=pZW=x(}W9JeSb34G^{oTnO)T11Y^IF`6a(yG#?IDWbGDgYxM!S#xKQR_#=
z^2_z3-0VP>bJceXht>K)wLTyqe5A)nh6>T<QtO~Vw8}u%a@98rhn3nvr8XcSd^mTE
z1pO*M(3&O1e1^*Bfh6;|XXeD7nXpV|+>4mt_#?97E+dC9W>YAvWbj?*I_Pjb;v!rF
ZMUteUMx@zq<m!nwCsp72KM9cZ>2EUjJ_G;&

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/latency.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/latency.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aa78eb819efeded15a62ab851f1531ec9c736a8d
GIT binary patch
literal 1264
zcmaJ=&1=*^6rai0Zns;lyG5aBiCVBLbaN@zf(S~%ix$D+As}fsGwrTTvgu4#+~T2!
z9t07*_3BaSKj8o1MGvA52!eumtFB%=`CbyYi=YFUc^|(w^M3EWyquV*5Llt{sPkAO
z<P$1?mRSgc%OLC#Mi>o=i>DUSNOQGFcXf)o9vYG9nv`hd8ezsRVJ0{C^*r9S`m|wv
zMP;R-sjAPI7la+p7aLL;k>80MRGqlW<Deb+V)It76?CJ>kJ(jU@*uw>--ijMpzje*
zT*`>6G3x3}a}B1uCbyWuOLr$n!*ZFK%vv{CY1h~<obDK}uri>J{}Vkng0A+hMnz2z
z6TR-IkaPbq-|h3OZEmlHxqZ!+LniimSJ-R!!Z5O1$aAf!N(F3tVR)gPLU>`eyX&@Z
z%TBxza=YcHK^rZCZ}qrLWm8#+FC-Vr5<KmRcqM@54Hp(3zri$YdnBcQJP+u8Ayd*P
z&*@5o3Isx1^dOXC3}lHn+4ip+P8uan(n;o1=oC-q@Anp$E^aPzC+xJGq@T9Cv4fNx
z9;c$8bUSe>9cZkRQN&g{1({~j&z{*nH{^Q#@8UH_$KojFfrGh2K9{GS+<sF&IRK3)
z1BWIU@&VJoxsp+?q6%1GYvc#chs0}aaRhc?AF=J3|6~XLI>umyFsbUp)yEZqc{V0g
z+4EvQ;-04}o)>jlFGRWOd0Ra{EIcL8W8DDE1{##n=3%17gV2{U;!sPb%D^q_sycE-
zZ1f^1>&>jmS?yF+rheK93h>wp+#(Y{;GzaeJSSN$85vOmL$+n@yaU=Ud2cLy9G}`*
zem8z)XZfQ!d7x4A)YG}QXO>={Svnw~ykOt)80f@0mU#~>V%1QpKbd=5n|)oIMO^*a
z6yoZLt9?Un{xUw=C<&Z6bppqtIUEDoEao61lC?mc%^)L_(}c-63~9FD-xv75=WJ$B
w!fNO3DqqU0d|8|Z8}?D2g6%-3lnyLHC%=#jAIP;IR+ZLYoxb>!z?p^r2A$eMxBvhE

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/main.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/main.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..088ebc2169e9e1681ada7ceb8014a29b1606b14d
GIT binary patch
literal 2913
zcmai0Uu+vi8lUz4@!DDE(zL{GY^S~?Ewz-`5=0G%0L?#g;nG}0dM7Y&%f>rNHtgDF
zc3lz6k@C=oA`q0Pq(ad0M5|OfPWN*6bUY&6i+#Y^HwP#ZcMrT-Bv1Enx^H&vI86<V
z<e6{2?>FCm^ZgtDEffkO7^d*HG44m`JGN;Ju}K_!1jG)~k<OVY<E>nVgT2r6S$u})
z7>_pvOU#HaEtrz!&-ginxs9Hdy7o%^fEUex70d)Vlv6O;=xa+`R3_*{b4Zu2Bi)b1
zJ>KJI6kWz4ES`n!s!tDG7c$+OTr&7Q6E7w?8lJ+r?7F3q*O!Yc*}P?GIekjAF^EFb
z3-fIzFwXvNVd09p{M)JND>LfS<O|EQFQ~Ii^9#S317Y8DCVtacG4Ui>D_S_`ENR5X
zB<tDX%||YJ7xp^{Bj%QjPv<hc?#l=|pAoU73)tVu4Z5gHtAg&oF6=dRW&%HhmEpQU
zJplSTI7}C@0{Vi032jQrE_%9yD@qryuH(dOE6ho+CF~;?C06q!;ehBGxFi9NN>R}T
zmHJ$cOCQ6hsGyNGn@R*bMUq?0a>x9_V#R(37hu{!Wwdcz+60!-UX#nAO>~c2yvNZ~
zx?vYIC%dk$7IRt0$mfzAVHs*OXyU)mryZ-1E*OPT2fmJ-(Kn0ZPd@SbI8K|!O1iM=
ztmkv-Yo=+XAzoy&kT-IUoz9v@+O?l$McUGgT&l21`K+avI%P`=1Y!0~mb%+$Ush`J
zKvf>tb-t2^4}gcVJ~kg4?qvmF?7&q>2#9+q>7#;;%~j8Sb|R4=OeK}CX{MoT4lc!}
z9!}O&OBw~N%`$8o)n$eBvZFzWSi#Lh`vD`mK<FBA5k3SS=Q?|Q<D}tm45Gs<KQVL;
z_#Mz6K-GW9-{)KPxaBMRHlTBy9J-*3_ocn2hArL+v=AF^$7$`nwN(H!=+!?Wv?Y}J
zj`j<kEGi3~?C;F|iCg*MMCbd;ABy(_drcp0iDhwv1^C2()7>Xnu)QB_=QtovJ&Y)e
zZG>~WCEqyHqT1_^#^XmVhd6b$w3kJd<%m1p`ICUkzGakD7E2<lmP9F>m~bmZbv6t5
znZ(Qa0xLfIRY>A49ot!AxC|;5ZEX!-rNK5DATq&k6b*uPDgfA_T%r^_rh})#IyMW0
z^=#75Cgv(=u@dV)mY!5-P}6nQOKd9SGz*h+0HNKC-A;MJQk-_HjFmMt+s3x4QpLuO
zs^e9yXgW4wKBfvg2W79a9z|FUQ3)EHr8!i>1;fm*B_;9*un8-4s(80)e!s`twLeS!
zU?ixsX^0VRfdq#W?(hn``$(i3Im0OpPIV~n2QdSn!u}sj+o&O-$Y3ozQVoyPm7e$J
z-<q#SVz&dg0`)UzcZY8$ZzXr5mEor<y%P;Tii{p0AricyG=eC0u@=2ljb8dp_<W)g
zz4S%&#flvHcQ{oGKV1z!{g3doH|FZGky>oL8XK?ogm;wpmHH#Gombv}r5+o)y>M%x
z9*OVjw~brI?#p+%yN~{1<le~Lflo`7zNtn4#h*ApV!Zptm4<>s{Wax6Rk`rz@L!{U
ziB^;gUn;Y8<#bI+RF%Y?_?Jrh>!FF-&~$ZZy52wFnS5vR&e|vD$L5{iSHfe5yl)s(
zeWfHCr%~iG*NC8=SVfMy-7VQoWmRR-ho}Zs)ynHdlhKN*zERZ7ro^wRdOoYFWDwlu
z<%wcDnqy=w3=e=#Wr(^POBz@NW$>b8v6~l!y_)otx?EgY@|x(R`^XR$NHWSMR(P&4
zZbXU9wrpZ)Wg9SENB<Na+wbb#o~d^YZO`nBry4#^Jb&|It#`QEJKR99xqIdZwjA(C
z>UE_Ji4#M+FV^DeYCO##p-*QH*wT>t#8|z5u+~3T?H_CKu-gxuI}~B{tZ)rrm79g%
z(O`|rZTAr%c93)QytW$Y8n^7dL-2mODjvKSm02RQ93|tRf&FY&liTQP<=hv_FDqSx
z6=Bc|$}h;{AfXa;1|zpdhgic%9eZ9=P-iK(WZ3hXT7mysUY+)LM6w2B6V^>>-$Q_+
zW0=i)4PAX{X;z*7)$H`I=NISbSr_ZdQ?2l-9-IY_c27R=FU`F)6->kSZg?WDRG#pX
z>ltzxPBZt}3otc!j^hqw#P$3Oh5m!)zCmN(pox7xP~*dY=fmF$m-pl6Yw@vae5@k$
fA4)@9Y<Kh!!O~cOlS4O$Z*En4&mSV7UGM!L`Jbye

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/serve.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/serve.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3d7093f9adad341e6f1605e762f77b595568e4ba
GIT binary patch
literal 1244
zcmaJ=&1=*^6rai0Zns;lyMBP!618CW&<%*91rZdX2cZZp9s-i4nQ1pR$;L^xxYa`s
zJqRLr>(!&uf5892i#>=sAQTkDTXpr~$@eDP?IP$v-n{R5zxQ6=jEz+YoXB_@KGF#J
zjKaY&`%LdTFx!L?MkC_ltwl7}TrJjJouaHqMr^t!B^sF{%-AB#<mQfE#Jg6PHmq+b
z%r`Vy^%?VmDD-@>nn@$}!=ypwshd0rTCp$I7COs8JC6N?-Sjga6gdhyC@2Scn{eV%
zMqG_iS7(}QFx@q|#SC7$KRz5*@XTb^ior@-#!lbpj_?XAgZIgQdXEfwSG!iDB2OO{
z%Efw^tRB|8F}>L0_EH9VzGP<u9QI0E*h}kC6x+*)a;Ygz<+L$9NM`2{+D@V{;WpYJ
zF{nhlv)W2Kc~e@cFF-FX!Sjwt<^vek;9#Ti>zxL&O>%l*c}#cuJSAQ7iq1EvKt~vZ
z9z>ZK0Y1Y_w*C9IlgFu(hUrWWli~Ty!_Jl2t7})d6NSr8+Ra<-#6b`aPjb;s+hLMt
z4h+&!pm21KLe)&W>XD5L19S_2x2ie31V^z7T*FQBrF{JP-FM|PJ&=era7BUv8c_Wk
zDH%p8s^AM)jpD*>$S{p9jsOMhG258@Pjz6gV+{5Oi>f|Zd{z-yXJbs3JumTN?s>A}
zd2yR{BIK){_n_lPeM`ynSUUi<feLA~c$CV~Ao8;;=Fmwd%YaSIR35n@Ry#2?^^O{`
z>Yc1+xu1tY-+5#nvSg_ra8ZLIUJ+G`0wYSGP(%&$9!Oi{qj7O>w6=Nc!|3JBTYKjC
zzDCW77t`<0&F-F?-6tTtW<T)i>BKswtos(RYRJ`}Prt8C?bfEyum18l`qj~|_8qOo
z%lK%cByiv430#WiU<tCO+5!bb4M3h(4ntehgsnLYXfDHlF7V$juuLL{y)K4TzE<@3
nx;P6uoMJWsWM8M0_AEljzmiLz$lOn>O6zaWUj0SjR^fjDpmICl

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/sweep.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/sweep.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9294b4d7f182cc3d2537abf429514685eed1d2b4
GIT binary patch
literal 1234
zcmZ`&&1=*^6rai0esrsKSNx)C)C%20H{d~Akb)w35Eeo45Rf#@jPBYb8z)(H7Y{x3
zAc)XguO2P^2mBwr=s~Ijf}kMYR#z{cd~dRD*FyuDc^|)-yx;r1yqTUZ6L>=7dAq9-
z@&%oLk2x}i%V2B~Mi>o=i@O%mNOQGFcXf)s9vYG9nv`hdI$_2JVJ0_s^!&VQ^=RGt
zj!v_#$%@aI7lduk7xz<XM1DK2Q+f0%kAqg^i?v(b)u0nae$1}=DG%~H@^xHL2L2Y|
z#HEb58l$exG}mCdYjTSjyzpRV@>p&&lUer+R@g9hMoG8C%d80KBm1ID6X;6Ms+Z-l
zy+R*zp6pfIpTFJW_DYJ;6+0cXu<vz*z49mwBYPD&t~8{nKz)0BmBRRT;tN0G85gz!
zG^7QQlnZGIo^?gs3_zmsgYCt4cmkF!lF@&er*vmzQ_>^bv{|PDfzW(C2vbo4JH?x9
z`_Bz0ixMYkCkq+q!Lx-Y-AhZ0YnQkawpX2`m$f>vgT*^M&O|TiwBsywKt4y2LBX87
z*rcaE(my|Db?g5IH712Wh&ABot&^|C!<%>B7iWjy5ozF91Y<4`+Mg$x<S8nE1*S&6
z;RK|3jV%tq3d|$cpWU}M$ky-#_6AF;JiGm(EU?P@v@CjF48nMxEPGzmVcihziswD-
z`r#;3@I2NDAZ%bj8Z90saw-V@GzCdp9VUywOz9~PToL!X5j6Csl2`RjR?^JR+QA51
zYQimP;s;z*p@?mwYEe`~0Rn1KLf!>$gM2hDe4eVVU;8k%uzu~cIWy3xdGh7_?%Abx
zXO{*9oY(9pZbO||hg5c85vz(;ZF7FNI`^(Rhq&6S!-%UPuKEMB`Iqsd^@6}zlgDu&
z8sh;-8~FslR46J+0(nk>CZ?tV`MpDpRrtFF{?R#~Q)pqobGeF_^FA+&GY~@^)040a
dbV}*aB6Q{(S^Pw<|FSBy_V)C}-voAb{4YG)Hwyp&

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/__pycache__/throughput.cpython-312.pyc b/entrypoints/cli/benchmark/__pycache__/throughput.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dade87e59b522e37931ae08ff528e5e183c59691
GIT binary patch
literal 1272
zcmaJ>&ubGw6rR~%`O#EsQY;iJ+gh*@n!O0MC<RNQw@|QnSdi^@XVR?Q-K?`4F~LI*
zJqRlF)~iQL{{jC8FZLkS0imEE-lEZqC+F>^n_TKZX5O3k&CL7W_crgx$BRe|PkHIS
zk`Vd|&iPOWMt?;Zhln78J!HZvdDxds$(KzTgD-oEubL`G5?V(@*+)dB>am=jH?<C~
zYCpiKS0!Gu39%f{wQRN%amBaYpo;m_Dh-^bZ?oM8?QN&!`*uK9?T9+*9qF7U6bt_l
zQDkC*Oo?DqCX%TT*;J`U6q<WHF?uYuiAuDFLUQ}c@gQgxXp!Uv`s#(~!U($5(W*s0
zlO?*@WUcm2Gi=Ahl)H<YO{#CjS!hd-GCq2v#q_PGp6Bb^z;>&~i$i4hW_GjQYBW4I
zpt>70C=*bs4{<fFg*J;Q;~JxJn+0`82$u~gI{f<6Vmd@IK94-d#{(Oq4m!g1DrNu_
zlE{u1v4XH8xJlRlZWys28lf95#zG|;FFtE8E#KK)qK4;g8(}AIwgLl)7&M4kCv3Sv
z92r7XBOwMd8Y3Bpo#dtNt&HJjR-j?+YNL&D8M1-a+(X~;lLrq!=CAdIhqwZ5<7BMF
z*2Rp`C}UO<SixCI7wC`(uF=^gF^d}bq&xfn1O=o5$DmY@SLwy(>mq|xtK&RxS%K|S
z%i=}L@>`_sfnBn!CvDpsL~@ozT8`LOV1p}7>V<sF@$4w_sVFMpc|k9cmtVTicG|wE
z??$3_QbAsdVmo%70k}{Xw?v`sP*xU69HAtagb&M!jbuu6eI&en^jTRt8=Kl&`!sfY
zZ|zK-=t)?ed9!djw|p|U+(W{7M}EQ5myvcQiS{(4mBFeUES#3-Ps;OvtGt~ATm^9D
zpAb!7hDWP82Cc`Zp+9O_KSZ@*LnK@hA^431HPS^j(M7{kwQcbqz~H-230(&Z3Z9CV
rzn2zzh0TgRP&1klQ%}Yi_ceqkzN6(YX#KZV!j%v6cmE)<CddB)60=CR

literal 0
HcmV?d00001

diff --git a/entrypoints/cli/benchmark/base.py b/entrypoints/cli/benchmark/base.py
new file mode 100644
index 0000000..d854382
--- /dev/null
+++ b/entrypoints/cli/benchmark/base.py
@@ -0,0 +1,25 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.entrypoints.cli.types import CLISubcommand
+
+
+class BenchmarkSubcommandBase(CLISubcommand):
+    """The base class of subcommands for `vllm bench`."""
+
+    help: str
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> None:
+        """Add the CLI arguments to the parser."""
+        raise NotImplementedError
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        """Run the benchmark.
+
+        Args:
+            args: The arguments to the command.
+        """
+        raise NotImplementedError
diff --git a/entrypoints/cli/benchmark/latency.py b/entrypoints/cli/benchmark/latency.py
new file mode 100644
index 0000000..60f2b03
--- /dev/null
+++ b/entrypoints/cli/benchmark/latency.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.benchmarks.latency import add_cli_args, main
+from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
+
+
+class BenchmarkLatencySubcommand(BenchmarkSubcommandBase):
+    """The `latency` subcommand for `vllm bench`."""
+
+    name = "latency"
+    help = "Benchmark the latency of a single batch of requests."
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> None:
+        add_cli_args(parser)
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        main(args)
diff --git a/entrypoints/cli/benchmark/main.py b/entrypoints/cli/benchmark/main.py
new file mode 100644
index 0000000..2ff9857
--- /dev/null
+++ b/entrypoints/cli/benchmark/main.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import typing
+
+from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
+from vllm.entrypoints.cli.types import CLISubcommand
+from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+
+if typing.TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = argparse.ArgumentParser
+
+
+class BenchmarkSubcommand(CLISubcommand):
+    """The `bench` subcommand for the vLLM CLI."""
+
+    name = "bench"
+    help = "vLLM bench subcommand."
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        args.dispatch_function(args)
+
+    def validate(self, args: argparse.Namespace) -> None:
+        pass
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        bench_parser = subparsers.add_parser(
+            self.name,
+            description=self.help,
+            usage=f"vllm {self.name} <bench_type> [options]",
+        )
+        bench_subparsers = bench_parser.add_subparsers(required=True, dest="bench_type")
+
+        for cmd_cls in BenchmarkSubcommandBase.__subclasses__():
+            cmd_subparser = bench_subparsers.add_parser(
+                cmd_cls.name,
+                help=cmd_cls.help,
+                description=cmd_cls.help,
+                usage=f"vllm {self.name} {cmd_cls.name} [options]",
+            )
+            cmd_subparser.set_defaults(dispatch_function=cmd_cls.cmd)
+            cmd_cls.add_cli_args(cmd_subparser)
+            cmd_subparser.epilog = VLLM_SUBCMD_PARSER_EPILOG.format(
+                subcmd=f"{self.name} {cmd_cls.name}"
+            )
+        return bench_parser
+
+
+def cmd_init() -> list[CLISubcommand]:
+    return [BenchmarkSubcommand()]
diff --git a/entrypoints/cli/benchmark/serve.py b/entrypoints/cli/benchmark/serve.py
new file mode 100644
index 0000000..6616305
--- /dev/null
+++ b/entrypoints/cli/benchmark/serve.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.benchmarks.serve import add_cli_args, main
+from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
+
+
+class BenchmarkServingSubcommand(BenchmarkSubcommandBase):
+    """The `serve` subcommand for `vllm bench`."""
+
+    name = "serve"
+    help = "Benchmark the online serving throughput."
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> None:
+        add_cli_args(parser)
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        main(args)
diff --git a/entrypoints/cli/benchmark/sweep.py b/entrypoints/cli/benchmark/sweep.py
new file mode 100644
index 0000000..c385207
--- /dev/null
+++ b/entrypoints/cli/benchmark/sweep.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.benchmarks.sweep.cli import add_cli_args, main
+from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
+
+
+class BenchmarkSweepSubcommand(BenchmarkSubcommandBase):
+    """The `sweep` subcommand for `vllm bench`."""
+
+    name = "sweep"
+    help = "Benchmark for a parameter sweep."
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> None:
+        add_cli_args(parser)
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        main(args)
diff --git a/entrypoints/cli/benchmark/throughput.py b/entrypoints/cli/benchmark/throughput.py
new file mode 100644
index 0000000..2097f9e
--- /dev/null
+++ b/entrypoints/cli/benchmark/throughput.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+
+from vllm.benchmarks.throughput import add_cli_args, main
+from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
+
+
+class BenchmarkThroughputSubcommand(BenchmarkSubcommandBase):
+    """The `throughput` subcommand for `vllm bench`."""
+
+    name = "throughput"
+    help = "Benchmark offline inference throughput."
+
+    @classmethod
+    def add_cli_args(cls, parser: argparse.ArgumentParser) -> None:
+        add_cli_args(parser)
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        main(args)
diff --git a/entrypoints/cli/collect_env.py b/entrypoints/cli/collect_env.py
new file mode 100644
index 0000000..ad943a6
--- /dev/null
+++ b/entrypoints/cli/collect_env.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import typing
+
+from vllm.collect_env import main as collect_env_main
+from vllm.entrypoints.cli.types import CLISubcommand
+
+if typing.TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = argparse.ArgumentParser
+
+
+class CollectEnvSubcommand(CLISubcommand):
+    """The `collect-env` subcommand for the vLLM CLI."""
+
+    name = "collect-env"
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        """Collect information about the environment."""
+        collect_env_main()
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        return subparsers.add_parser(
+            "collect-env",
+            help="Start collecting environment information.",
+            description="Start collecting environment information.",
+            usage="vllm collect-env",
+        )
+
+
+def cmd_init() -> list[CLISubcommand]:
+    return [CollectEnvSubcommand()]
diff --git a/entrypoints/cli/main.py b/entrypoints/cli/main.py
new file mode 100644
index 0000000..a3e73eb
--- /dev/null
+++ b/entrypoints/cli/main.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""The CLI entrypoints of vLLM
+
+Note that all future modules must be lazily loaded within main
+to avoid certain eager import breakage."""
+
+import importlib.metadata
+import sys
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def main():
+    import vllm.entrypoints.cli.benchmark.main
+    import vllm.entrypoints.cli.collect_env
+    import vllm.entrypoints.cli.openai
+    import vllm.entrypoints.cli.run_batch
+    import vllm.entrypoints.cli.serve
+    from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG, cli_env_setup
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+
+    CMD_MODULES = [
+        vllm.entrypoints.cli.openai,
+        vllm.entrypoints.cli.serve,
+        vllm.entrypoints.cli.benchmark.main,
+        vllm.entrypoints.cli.collect_env,
+        vllm.entrypoints.cli.run_batch,
+    ]
+
+    cli_env_setup()
+
+    # For 'vllm bench *': use CPU instead of UnspecifiedPlatform by default
+    if len(sys.argv) > 1 and sys.argv[1] == "bench":
+        logger.debug(
+            "Bench command detected, must ensure current platform is not "
+            "UnspecifiedPlatform to avoid device type inference error"
+        )
+        from vllm import platforms
+
+        if platforms.current_platform.is_unspecified():
+            from vllm.platforms.cpu import CpuPlatform
+
+            platforms.current_platform = CpuPlatform()
+            logger.info(
+                "Unspecified platform detected, switching to CPU Platform instead."
+            )
+
+    parser = FlexibleArgumentParser(
+        description="vLLM CLI",
+        epilog=VLLM_SUBCMD_PARSER_EPILOG.format(subcmd="[subcommand]"),
+    )
+    parser.add_argument(
+        "-v",
+        "--version",
+        action="version",
+        version=importlib.metadata.version("vllm"),
+    )
+    subparsers = parser.add_subparsers(required=False, dest="subparser")
+    cmds = {}
+    for cmd_module in CMD_MODULES:
+        new_cmds = cmd_module.cmd_init()
+        for cmd in new_cmds:
+            cmd.subparser_init(subparsers).set_defaults(dispatch_function=cmd.cmd)
+            cmds[cmd.name] = cmd
+    args = parser.parse_args()
+    if args.subparser in cmds:
+        cmds[args.subparser].validate(args)
+
+    if hasattr(args, "dispatch_function"):
+        args.dispatch_function(args)
+    else:
+        parser.print_help()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/entrypoints/cli/openai.py b/entrypoints/cli/openai.py
new file mode 100644
index 0000000..fb49be3
--- /dev/null
+++ b/entrypoints/cli/openai.py
@@ -0,0 +1,256 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import os
+import signal
+import sys
+from typing import TYPE_CHECKING
+
+from openai import OpenAI
+from openai.types.chat import ChatCompletionMessageParam
+
+from vllm.entrypoints.cli.types import CLISubcommand
+
+if TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = argparse.ArgumentParser
+
+
+def _register_signal_handlers():
+    def signal_handler(sig, frame):
+        sys.exit(0)
+
+    signal.signal(signal.SIGINT, signal_handler)
+    signal.signal(signal.SIGTSTP, signal_handler)
+
+
+def _interactive_cli(args: argparse.Namespace) -> tuple[str, OpenAI]:
+    _register_signal_handlers()
+
+    base_url = args.url
+    api_key = args.api_key or os.environ.get("OPENAI_API_KEY", "EMPTY")
+    openai_client = OpenAI(api_key=api_key, base_url=base_url)
+
+    if args.model_name:
+        model_name = args.model_name
+    else:
+        available_models = openai_client.models.list()
+        model_name = available_models.data[0].id
+
+    print(f"Using model: {model_name}")
+
+    return model_name, openai_client
+
+
+def _print_chat_stream(stream) -> str:
+    output = ""
+    for chunk in stream:
+        delta = chunk.choices[0].delta
+        if delta.content:
+            output += delta.content
+            print(delta.content, end="", flush=True)
+    print()
+    return output
+
+
+def _print_completion_stream(stream) -> str:
+    output = ""
+    for chunk in stream:
+        text = chunk.choices[0].text
+        if text is not None:
+            output += text
+            print(text, end="", flush=True)
+    print()
+    return output
+
+
+def chat(system_prompt: str | None, model_name: str, client: OpenAI) -> None:
+    conversation: list[ChatCompletionMessageParam] = []
+    if system_prompt is not None:
+        conversation.append({"role": "system", "content": system_prompt})
+
+    print("Please enter a message for the chat model:")
+    while True:
+        try:
+            input_message = input("> ")
+        except EOFError:
+            break
+        conversation.append({"role": "user", "content": input_message})
+
+        stream = client.chat.completions.create(
+            model=model_name, messages=conversation, stream=True
+        )
+        output = _print_chat_stream(stream)
+        conversation.append({"role": "assistant", "content": output})
+
+
+def _add_query_options(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+    parser.add_argument(
+        "--url",
+        type=str,
+        default="http://localhost:8000/v1",
+        help="url of the running OpenAI-Compatible RESTful API server",
+    )
+    parser.add_argument(
+        "--model-name",
+        type=str,
+        default=None,
+        help=(
+            "The model name used in prompt completion, default to "
+            "the first model in list models API call."
+        ),
+    )
+    parser.add_argument(
+        "--api-key",
+        type=str,
+        default=None,
+        help=(
+            "API key for OpenAI services. If provided, this api key "
+            "will overwrite the api key obtained through environment variables."
+        ),
+    )
+    return parser
+
+
+class ChatCommand(CLISubcommand):
+    """The `chat` subcommand for the vLLM CLI."""
+
+    name = "chat"
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        model_name, client = _interactive_cli(args)
+        system_prompt = args.system_prompt
+        conversation: list[ChatCompletionMessageParam] = []
+
+        if system_prompt is not None:
+            conversation.append({"role": "system", "content": system_prompt})
+
+        if args.quick:
+            conversation.append({"role": "user", "content": args.quick})
+
+            stream = client.chat.completions.create(
+                model=model_name, messages=conversation, stream=True
+            )
+            output = _print_chat_stream(stream)
+            conversation.append({"role": "assistant", "content": output})
+            return
+
+        print("Please enter a message for the chat model:")
+        while True:
+            try:
+                input_message = input("> ")
+            except EOFError:
+                break
+            conversation.append({"role": "user", "content": input_message})
+
+            stream = client.chat.completions.create(
+                model=model_name, messages=conversation, stream=True
+            )
+            output = _print_chat_stream(stream)
+            conversation.append({"role": "assistant", "content": output})
+
+    @staticmethod
+    def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+        """Add CLI arguments for the chat command."""
+        _add_query_options(parser)
+        parser.add_argument(
+            "--system-prompt",
+            type=str,
+            default=None,
+            help=(
+                "The system prompt to be added to the chat template, "
+                "used for models that support system prompts."
+            ),
+        )
+        parser.add_argument(
+            "-q",
+            "--quick",
+            type=str,
+            metavar="MESSAGE",
+            help=("Send a single prompt as MESSAGE and print the response, then exit."),
+        )
+        return parser
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        parser = subparsers.add_parser(
+            "chat",
+            help="Generate chat completions via the running API server.",
+            description="Generate chat completions via the running API server.",
+            usage="vllm chat [options]",
+        )
+        return ChatCommand.add_cli_args(parser)
+
+
+class CompleteCommand(CLISubcommand):
+    """The `complete` subcommand for the vLLM CLI."""
+
+    name = "complete"
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        model_name, client = _interactive_cli(args)
+
+        kwargs = {
+            "model": model_name,
+            "stream": True,
+        }
+        if args.max_tokens:
+            kwargs["max_tokens"] = args.max_tokens
+
+        if args.quick:
+            stream = client.completions.create(prompt=args.quick, **kwargs)
+            _print_completion_stream(stream)
+            return
+
+        print("Please enter prompt to complete:")
+        while True:
+            try:
+                input_prompt = input("> ")
+            except EOFError:
+                break
+            stream = client.completions.create(prompt=input_prompt, **kwargs)
+            _print_completion_stream(stream)
+
+    @staticmethod
+    def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+        """Add CLI arguments for the complete command."""
+        _add_query_options(parser)
+        parser.add_argument(
+            "--max-tokens",
+            type=int,
+            help="Maximum number of tokens to generate per output sequence.",
+        )
+        parser.add_argument(
+            "-q",
+            "--quick",
+            type=str,
+            metavar="PROMPT",
+            help="Send a single prompt and print the completion output, then exit.",
+        )
+        return parser
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        parser = subparsers.add_parser(
+            "complete",
+            help=(
+                "Generate text completions based on the given prompt "
+                "via the running API server."
+            ),
+            description=(
+                "Generate text completions based on the given prompt "
+                "via the running API server."
+            ),
+            usage="vllm complete [options]",
+        )
+        return CompleteCommand.add_cli_args(parser)
+
+
+def cmd_init() -> list[CLISubcommand]:
+    return [ChatCommand(), CompleteCommand()]
diff --git a/entrypoints/cli/run_batch.py b/entrypoints/cli/run_batch.py
new file mode 100644
index 0000000..64d1bec
--- /dev/null
+++ b/entrypoints/cli/run_batch.py
@@ -0,0 +1,68 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import asyncio
+import importlib.metadata
+import typing
+
+from vllm.entrypoints.cli.types import CLISubcommand
+from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.logger import init_logger
+
+if typing.TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = argparse.ArgumentParser
+
+logger = init_logger(__name__)
+
+
+class RunBatchSubcommand(CLISubcommand):
+    """The `run-batch` subcommand for vLLM CLI."""
+
+    name = "run-batch"
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        from vllm.entrypoints.openai.run_batch import main as run_batch_main
+
+        logger.info(
+            "vLLM batch processing API version %s", importlib.metadata.version("vllm")
+        )
+        logger.info("args: %s", args)
+
+        # Start the Prometheus metrics server.
+        # LLMEngine uses the Prometheus client
+        # to publish metrics at the /metrics endpoint.
+        if args.enable_metrics:
+            from prometheus_client import start_http_server
+
+            logger.info("Prometheus metrics enabled")
+            start_http_server(port=args.port, addr=args.url)
+        else:
+            logger.info("Prometheus metrics disabled")
+
+        asyncio.run(run_batch_main(args))
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        from vllm.entrypoints.openai.run_batch import make_arg_parser
+
+        run_batch_parser = subparsers.add_parser(
+            self.name,
+            help="Run batch prompts and write results to file.",
+            description=(
+                "Run batch prompts using vLLM's OpenAI-compatible API.\n"
+                "Supports local or HTTP input/output files."
+            ),
+            usage="vllm run-batch -i INPUT.jsonl -o OUTPUT.jsonl --model <model>",
+        )
+        run_batch_parser = make_arg_parser(run_batch_parser)
+        run_batch_parser.epilog = VLLM_SUBCMD_PARSER_EPILOG.format(subcmd=self.name)
+        return run_batch_parser
+
+
+def cmd_init() -> list[CLISubcommand]:
+    return [RunBatchSubcommand()]
diff --git a/entrypoints/cli/serve.py b/entrypoints/cli/serve.py
new file mode 100644
index 0000000..96608f3
--- /dev/null
+++ b/entrypoints/cli/serve.py
@@ -0,0 +1,249 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import signal
+
+import uvloop
+
+import vllm
+import vllm.envs as envs
+from vllm.entrypoints.cli.types import CLISubcommand
+from vllm.entrypoints.openai.api_server import (
+    run_server,
+    run_server_worker,
+    setup_server,
+)
+from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
+from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.logger import init_logger
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.network_utils import get_tcp_uri
+from vllm.utils.system_utils import decorate_logs, set_process_title
+from vllm.v1.engine.core import EngineCoreProc
+from vllm.v1.engine.utils import CoreEngineProcManager, launch_core_engines
+from vllm.v1.executor import Executor
+from vllm.v1.executor.multiproc_executor import MultiprocExecutor
+from vllm.v1.metrics.prometheus import setup_multiprocess_prometheus
+from vllm.v1.utils import APIServerProcessManager, wait_for_completion_or_failure
+
+logger = init_logger(__name__)
+
+DESCRIPTION = """Launch a local OpenAI-compatible API server to serve LLM
+completions via HTTP. Defaults to Qwen/Qwen3-0.6B if no model is specified.
+
+Search by using: `--help=<ConfigGroup>` to explore options by section (e.g.,
+--help=ModelConfig, --help=Frontend)
+  Use `--help=all` to show all available flags at once.
+"""
+
+
+class ServeSubcommand(CLISubcommand):
+    """The `serve` subcommand for the vLLM CLI."""
+
+    name = "serve"
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        # If model is specified in CLI (as positional arg), it takes precedence
+        if hasattr(args, "model_tag") and args.model_tag is not None:
+            args.model = args.model_tag
+
+        if args.headless or args.api_server_count < 1:
+            run_headless(args)
+        else:
+            if args.api_server_count > 1:
+                run_multi_api_server(args)
+            else:
+                # Single API server (this process).
+                uvloop.run(run_server(args))
+
+    def validate(self, args: argparse.Namespace) -> None:
+        validate_parsed_serve_args(args)
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        serve_parser = subparsers.add_parser(
+            self.name, description=DESCRIPTION, usage="vllm serve [model_tag] [options]"
+        )
+
+        serve_parser = make_arg_parser(serve_parser)
+        serve_parser.epilog = VLLM_SUBCMD_PARSER_EPILOG.format(subcmd=self.name)
+        return serve_parser
+
+
+def cmd_init() -> list[CLISubcommand]:
+    return [ServeSubcommand()]
+
+
+def run_headless(args: argparse.Namespace):
+    if args.api_server_count > 1:
+        raise ValueError("api_server_count can't be set in headless mode")
+
+    # Create the EngineConfig.
+    engine_args = vllm.AsyncEngineArgs.from_cli_args(args)
+    usage_context = UsageContext.OPENAI_API_SERVER
+    vllm_config = engine_args.create_engine_config(
+        usage_context=usage_context, headless=True
+    )
+
+    if engine_args.data_parallel_hybrid_lb:
+        raise ValueError("data_parallel_hybrid_lb is not applicable in headless mode")
+
+    parallel_config = vllm_config.parallel_config
+    local_engine_count = parallel_config.data_parallel_size_local
+
+    if local_engine_count <= 0:
+        raise ValueError("data_parallel_size_local must be > 0 in headless mode")
+
+    shutdown_requested = False
+
+    # Catch SIGTERM and SIGINT to allow graceful shutdown.
+    def signal_handler(signum, frame):
+        nonlocal shutdown_requested
+        logger.debug("Received %d signal.", signum)
+        if not shutdown_requested:
+            shutdown_requested = True
+            raise SystemExit
+
+    signal.signal(signal.SIGTERM, signal_handler)
+    signal.signal(signal.SIGINT, signal_handler)
+
+    if parallel_config.node_rank_within_dp > 0:
+        from vllm.version import __version__ as VLLM_VERSION
+
+        # Run headless workers (for multi-node PP/TP).
+        host = parallel_config.master_addr
+        head_node_address = f"{host}:{parallel_config.master_port}"
+        logger.info(
+            "Launching vLLM (v%s) headless multiproc executor, "
+            "with head node address %s for torch.distributed process group.",
+            VLLM_VERSION,
+            head_node_address,
+        )
+
+        executor = MultiprocExecutor(vllm_config, monitor_workers=False)
+        executor.start_worker_monitor(inline=True)
+        return
+
+    host = parallel_config.data_parallel_master_ip
+    port = parallel_config.data_parallel_rpc_port
+    handshake_address = get_tcp_uri(host, port)
+
+    logger.info(
+        "Launching %d data parallel engine(s) in headless mode, "
+        "with head node address %s.",
+        local_engine_count,
+        handshake_address,
+    )
+
+    # Create the engines.
+    engine_manager = CoreEngineProcManager(
+        target_fn=EngineCoreProc.run_engine_core,
+        local_engine_count=local_engine_count,
+        start_index=vllm_config.parallel_config.data_parallel_rank,
+        local_start_index=0,
+        vllm_config=vllm_config,
+        local_client=False,
+        handshake_address=handshake_address,
+        executor_class=Executor.get_class(vllm_config),
+        log_stats=not engine_args.disable_log_stats,
+    )
+
+    try:
+        engine_manager.join_first()
+    finally:
+        logger.info("Shutting down.")
+        engine_manager.close()
+
+
+def run_multi_api_server(args: argparse.Namespace):
+    assert not args.headless
+    num_api_servers: int = args.api_server_count
+    assert num_api_servers > 0
+
+    if num_api_servers > 1:
+        setup_multiprocess_prometheus()
+
+    listen_address, sock = setup_server(args)
+
+    engine_args = vllm.AsyncEngineArgs.from_cli_args(args)
+    engine_args._api_process_count = num_api_servers
+    engine_args._api_process_rank = -1
+
+    usage_context = UsageContext.OPENAI_API_SERVER
+    vllm_config = engine_args.create_engine_config(usage_context=usage_context)
+
+    if num_api_servers > 1 and envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
+        raise ValueError(
+            "VLLM_ALLOW_RUNTIME_LORA_UPDATING cannot be used with api_server_count > 1"
+        )
+
+    executor_class = Executor.get_class(vllm_config)
+    log_stats = not engine_args.disable_log_stats
+
+    parallel_config = vllm_config.parallel_config
+    dp_rank = parallel_config.data_parallel_rank
+    external_dp_lb = parallel_config.data_parallel_external_lb
+    hybrid_dp_lb = parallel_config.data_parallel_hybrid_lb
+    assert external_dp_lb or hybrid_dp_lb or dp_rank == 0
+
+    api_server_manager: APIServerProcessManager | None = None
+
+    with launch_core_engines(
+        vllm_config, executor_class, log_stats, num_api_servers
+    ) as (local_engine_manager, coordinator, addresses):
+        # Construct common args for the APIServerProcessManager up-front.
+        api_server_manager_kwargs = dict(
+            target_server_fn=run_api_server_worker_proc,
+            listen_address=listen_address,
+            sock=sock,
+            args=args,
+            num_servers=num_api_servers,
+            input_addresses=addresses.inputs,
+            output_addresses=addresses.outputs,
+            stats_update_address=coordinator.get_stats_publish_address()
+            if coordinator
+            else None,
+        )
+
+        # For dp ranks > 0 in external/hybrid DP LB modes, we must delay the
+        # start of the API servers until the local engine is started
+        # (after the launcher context manager exits),
+        # since we get the front-end stats update address from the coordinator
+        # via the handshake with the local engine.
+        if dp_rank == 0 or not (external_dp_lb or hybrid_dp_lb):
+            # Start API servers using the manager.
+            api_server_manager = APIServerProcessManager(**api_server_manager_kwargs)
+
+    # Start API servers now if they weren't already started.
+    if api_server_manager is None:
+        api_server_manager_kwargs["stats_update_address"] = (
+            addresses.frontend_stats_publish_address
+        )
+        api_server_manager = APIServerProcessManager(**api_server_manager_kwargs)
+
+    # Wait for API servers
+    wait_for_completion_or_failure(
+        api_server_manager=api_server_manager,
+        engine_manager=local_engine_manager,
+        coordinator=coordinator,
+    )
+
+
+def run_api_server_worker_proc(
+    listen_address, sock, args, client_config=None, **uvicorn_kwargs
+) -> None:
+    """Entrypoint for individual API server worker processes."""
+    client_config = client_config or {}
+    server_index = client_config.get("client_index", 0)
+
+    # Set process title and add process-specific prefix to stdout and stderr.
+    set_process_title("APIServer", str(server_index))
+    decorate_logs()
+
+    uvloop.run(
+        run_server_worker(listen_address, sock, args, client_config, **uvicorn_kwargs)
+    )
diff --git a/entrypoints/cli/types.py b/entrypoints/cli/types.py
new file mode 100644
index 0000000..f22b844
--- /dev/null
+++ b/entrypoints/cli/types.py
@@ -0,0 +1,29 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import typing
+
+if typing.TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = argparse.ArgumentParser
+
+
+class CLISubcommand:
+    """Base class for CLI argument handlers."""
+
+    name: str
+
+    @staticmethod
+    def cmd(args: argparse.Namespace) -> None:
+        raise NotImplementedError("Subclasses should implement this method")
+
+    def validate(self, args: argparse.Namespace) -> None:
+        # No validation by default
+        pass
+
+    def subparser_init(
+        self, subparsers: argparse._SubParsersAction
+    ) -> FlexibleArgumentParser:
+        raise NotImplementedError("Subclasses should implement this method")
diff --git a/entrypoints/constants.py b/entrypoints/constants.py
new file mode 100644
index 0000000..b5bcccc
--- /dev/null
+++ b/entrypoints/constants.py
@@ -0,0 +1,10 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Shared constants for vLLM entrypoints.
+"""
+
+# HTTP header limits for h11 parser
+# These constants help mitigate header abuse attacks
+H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT = 4194304  # 4 MB
+H11_MAX_HEADER_COUNT_DEFAULT = 256
diff --git a/entrypoints/context.py b/entrypoints/context.py
new file mode 100644
index 0000000..7a41c66
--- /dev/null
+++ b/entrypoints/context.py
@@ -0,0 +1,572 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import contextlib
+import json
+import logging
+from abc import ABC, abstractmethod
+from contextlib import AsyncExitStack
+from typing import TYPE_CHECKING, Union
+
+from openai.types.responses.tool import Mcp
+from openai_harmony import Author, Message, Role, StreamState, TextContent
+
+from vllm import envs
+from vllm.entrypoints.harmony_utils import (
+    get_encoding,
+    get_streamable_parser_for_assistant,
+    render_for_completion,
+)
+from vllm.entrypoints.tool import Tool
+from vllm.entrypoints.tool_server import ToolServer
+from vllm.outputs import RequestOutput
+
+if TYPE_CHECKING:
+    from mcp.client import ClientSession
+
+logger = logging.getLogger(__name__)
+
+# This is currently needed as the tool type doesn't 1:1 match the
+# tool namespace, which is what is used to look up the
+# connection to the tool server
+_TOOL_NAME_TO_TYPE_MAP = {
+    "browser": "web_search_preview",
+    "python": "code_interpreter",
+    "container": "container",
+}
+
+
+def _map_tool_name_to_tool_type(tool_name: str) -> str:
+    if tool_name not in _TOOL_NAME_TO_TYPE_MAP:
+        available_tools = ", ".join(_TOOL_NAME_TO_TYPE_MAP.keys())
+        raise ValueError(
+            f"Built-in tool name '{tool_name}' not defined in mapping. "
+            f"Available tools: {available_tools}"
+        )
+    return _TOOL_NAME_TO_TYPE_MAP[tool_name]
+
+
+class TurnMetrics:
+    """Tracks token and toolcall details for a single conversation turn."""
+
+    def __init__(
+        self,
+        input_tokens=0,
+        output_tokens=0,
+        cached_input_tokens=0,
+        tool_output_tokens=0,
+    ):
+        self.input_tokens = input_tokens
+        self.output_tokens = output_tokens
+        self.cached_input_tokens = cached_input_tokens
+        self.tool_output_tokens = tool_output_tokens
+
+    def reset(self):
+        """Reset counters for a new turn."""
+        self.input_tokens = 0
+        self.output_tokens = 0
+        self.cached_input_tokens = 0
+        self.tool_output_tokens = 0
+
+    def copy(self):
+        """Create a copy of this turn's token counts."""
+        return TurnMetrics(
+            self.input_tokens,
+            self.output_tokens,
+            self.cached_input_tokens,
+            self.tool_output_tokens,
+        )
+
+
+class ConversationContext(ABC):
+    @abstractmethod
+    def append_output(self, output: RequestOutput) -> None:
+        pass
+
+    @abstractmethod
+    def append_tool_output(self, output) -> None:
+        pass
+
+    @abstractmethod
+    async def call_tool(self) -> list[Message]:
+        pass
+
+    @abstractmethod
+    def need_builtin_tool_call(self) -> bool:
+        pass
+
+    @abstractmethod
+    def render_for_completion(self) -> list[int]:
+        pass
+
+    @abstractmethod
+    async def init_tool_sessions(
+        self,
+        tool_server: ToolServer | None,
+        exit_stack: AsyncExitStack,
+        request_id: str,
+        mcp_tools: dict[str, Mcp],
+    ) -> None:
+        pass
+
+    @abstractmethod
+    async def cleanup_session(self) -> None:
+        raise NotImplementedError("Should not be called.")
+
+
+def _create_json_parse_error_messages(
+    last_msg: Message, e: json.JSONDecodeError
+) -> list[Message]:
+    """
+    Creates an error message when json parse failed.
+    """
+    error_msg = (
+        f"Error parsing tool arguments as JSON: {str(e)}. "
+        "Please ensure the tool call arguments are valid JSON and try again."
+    )
+    content = TextContent(text=error_msg)
+    author = Author(role=Role.TOOL, name=last_msg.recipient)
+    return [
+        Message(
+            author=author,
+            content=[content],
+            recipient=Role.ASSISTANT,
+            channel=last_msg.channel,
+        )
+    ]
+
+
+class SimpleContext(ConversationContext):
+    def __init__(self):
+        self.last_output = None
+        self.num_prompt_tokens = 0
+        self.num_output_tokens = 0
+        self.num_cached_tokens = 0
+        # todo num_reasoning_tokens is not implemented yet.
+        self.num_reasoning_tokens = 0
+        # not implemented yet for SimpleContext
+        self.all_turn_metrics = []
+
+    def append_output(self, output) -> None:
+        self.last_output = output
+        if not isinstance(output, RequestOutput):
+            raise ValueError("SimpleContext only supports RequestOutput.")
+        self.num_prompt_tokens = len(output.prompt_token_ids or [])
+        self.num_cached_tokens = output.num_cached_tokens or 0
+        self.num_output_tokens += len(output.outputs[0].token_ids or [])
+
+    def append_tool_output(self, output) -> None:
+        raise NotImplementedError("Should not be called.")
+
+    def need_builtin_tool_call(self) -> bool:
+        return False
+
+    async def call_tool(self) -> list[Message]:
+        raise NotImplementedError("Should not be called.")
+
+    def render_for_completion(self) -> list[int]:
+        raise NotImplementedError("Should not be called.")
+
+    async def init_tool_sessions(
+        self,
+        tool_server: ToolServer | None,
+        exit_stack: AsyncExitStack,
+        request_id: str,
+        mcp_tools: dict[str, Mcp],
+    ) -> None:
+        pass
+
+    async def cleanup_session(self) -> None:
+        raise NotImplementedError("Should not be called.")
+
+
+class HarmonyContext(ConversationContext):
+    def __init__(
+        self,
+        messages: list,
+        available_tools: list[str],
+    ):
+        self._messages = messages
+        self.finish_reason: str | None = None
+        self.available_tools = available_tools
+        self._tool_sessions: dict[str, ClientSession | Tool] = {}
+        self.called_tools: set[str] = set()
+
+        self.parser = get_streamable_parser_for_assistant()
+        self.num_init_messages = len(messages)
+        self.num_prompt_tokens = 0
+        self.num_output_tokens = 0
+        self.num_cached_tokens = 0
+        self.num_reasoning_tokens = 0
+        self.num_tool_output_tokens = 0
+
+        # Turn tracking - replaces multiple individual tracking variables
+        self.current_turn_metrics = TurnMetrics()
+        # Track metrics for all turns
+        self.all_turn_metrics: list[TurnMetrics] = []
+        self.is_first_turn = True
+        self.first_tok_of_message = True  # For streaming support
+
+    def _update_num_reasoning_tokens(self):
+        # Count all analysis and commentary channels as reasoning tokens
+        if self.parser.current_channel in {"analysis", "commentary"}:
+            self.num_reasoning_tokens += 1
+
+    def append_output(self, output: RequestOutput) -> None:
+        output_token_ids = output.outputs[0].token_ids
+        self.parser = get_streamable_parser_for_assistant()
+        for token_id in output_token_ids:
+            self.parser.process(token_id)
+            # Check if the current token is part of reasoning content
+            self._update_num_reasoning_tokens()
+        self._update_prefill_token_usage(output)
+        self._update_decode_token_usage(output)
+        # Append current turn to all turn list for next turn's calculations
+        self.all_turn_metrics.append(self.current_turn_metrics.copy())
+        self.current_turn_metrics.reset()
+        # append_output is called only once before tool calling
+        # in non-streaming case
+        # so we can append all the parser messages to _messages
+        output_msgs = self.parser.messages
+        # The responses finish reason is set in the last message
+        self.finish_reason = output.outputs[0].finish_reason
+        self._messages.extend(output_msgs)
+
+    def append_tool_output(self, output: list[Message]) -> None:
+        output_msgs = output
+        self._messages.extend(output_msgs)
+
+    def _update_prefill_token_usage(self, output: RequestOutput) -> None:
+        """Update token usage statistics for the prefill phase of generation.
+
+        The prefill phase processes the input prompt tokens. This method:
+        1. Counts the prompt tokens for this turn
+        2. Calculates tool output tokens for multi-turn conversations
+        3. Updates cached token counts
+        4. Tracks state for next turn calculations
+
+        Tool output tokens are calculated as:
+        current_prompt_tokens - last_turn_prompt_tokens -
+        last_turn_output_tokens
+        This represents tokens added between turns (typically tool responses).
+
+        Args:
+            output: The RequestOutput containing prompt token information
+        """
+        if output.prompt_token_ids is not None:
+            this_turn_input_tokens = len(output.prompt_token_ids)
+        else:
+            this_turn_input_tokens = 0
+            logger.error("RequestOutput appended contains no prompt_token_ids.")
+
+        # Update current turn input tokens
+        self.current_turn_metrics.input_tokens = this_turn_input_tokens
+        self.num_prompt_tokens += this_turn_input_tokens
+
+        # Calculate tool tokens (except on first turn)
+        if self.is_first_turn:
+            self.is_first_turn = False
+        else:
+            previous_turn = self.all_turn_metrics[-1]
+            # start counting tool after first turn
+            # tool tokens = this turn prefill - last turn prefill -
+            # last turn decode
+            this_turn_tool_tokens = (
+                self.current_turn_metrics.input_tokens
+                - previous_turn.input_tokens
+                - previous_turn.output_tokens
+            )
+
+            # Handle negative tool token counts (shouldn't happen in normal
+            # cases)
+            if this_turn_tool_tokens < 0:
+                logger.error(
+                    "Negative tool output tokens calculated: %d "
+                    "(current_input=%d, previous_input=%d, "
+                    "previous_output=%d). Setting to 0.",
+                    this_turn_tool_tokens,
+                    self.current_turn_metrics.input_tokens,
+                    previous_turn.input_tokens,
+                    previous_turn.output_tokens,
+                )
+                this_turn_tool_tokens = 0
+
+            self.num_tool_output_tokens += this_turn_tool_tokens
+            self.current_turn_metrics.tool_output_tokens = this_turn_tool_tokens
+
+        # Update cached tokens
+        num_cached_token = output.num_cached_tokens
+        if num_cached_token is not None:
+            self.num_cached_tokens += num_cached_token
+            self.current_turn_metrics.cached_input_tokens = num_cached_token
+
+    def _update_decode_token_usage(self, output: RequestOutput) -> int:
+        """Update token usage statistics for the decode phase of generation.
+
+        The decode phase processes the generated output tokens. This method:
+        1. Counts output tokens from all completion outputs
+        2. Updates the total output token count
+        3. Tracks tokens generated in the current turn
+
+        In streaming mode, this is called for each token generated.
+        In non-streaming mode, this is called once with all output tokens.
+
+        Args:
+            output: The RequestOutput containing generated token information
+
+        Returns:
+            int: Number of output tokens processed in this call
+        """
+        updated_output_token_count = 0
+        if output.outputs:
+            for completion_output in output.outputs:
+                # only keep last round
+                updated_output_token_count += len(completion_output.token_ids)
+            self.num_output_tokens += updated_output_token_count
+            self.current_turn_metrics.output_tokens += updated_output_token_count
+        return updated_output_token_count
+
+    @property
+    def messages(self) -> list:
+        return self._messages
+
+    def need_builtin_tool_call(self) -> bool:
+        last_msg = self.messages[-1]
+        recipient = last_msg.recipient
+        return recipient is not None and (
+            recipient.startswith("browser.")
+            or recipient.startswith("python")
+            or recipient.startswith("container.")
+        )
+
+    async def call_tool(self) -> list[Message]:
+        if not self.messages:
+            return []
+        last_msg = self.messages[-1]
+        recipient = last_msg.recipient
+        if recipient is not None:
+            if recipient.startswith("browser."):
+                return await self.call_search_tool(
+                    self._tool_sessions["browser"], last_msg
+                )
+            elif recipient.startswith("python"):
+                return await self.call_python_tool(
+                    self._tool_sessions["python"], last_msg
+                )
+            elif recipient.startswith("container."):
+                return await self.call_container_tool(
+                    self._tool_sessions["container"], last_msg
+                )
+        raise ValueError("No tool call found")
+
+    def render_for_completion(self) -> list[int]:
+        return render_for_completion(self.messages)
+
+    async def call_search_tool(
+        self, tool_session: Union["ClientSession", Tool], last_msg: Message
+    ) -> list[Message]:
+        self.called_tools.add("browser")
+        if isinstance(tool_session, Tool):
+            return await tool_session.get_result(self)
+        tool_name = last_msg.recipient.split(".")[1]
+        if envs.VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY:
+            try:
+                args = json.loads(last_msg.content[0].text)
+            except json.JSONDecodeError as e:
+                return _create_json_parse_error_messages(last_msg, e)
+        else:
+            args = json.loads(last_msg.content[0].text)
+        result = await tool_session.call_tool(tool_name, args)
+        result_str = result.content[0].text
+        content = TextContent(text=result_str)
+        author = Author(role=Role.TOOL, name=last_msg.recipient)
+        return [
+            Message(
+                author=author,
+                content=[content],
+                recipient=Role.ASSISTANT,
+                channel=last_msg.channel,
+            )
+        ]
+
+    async def call_python_tool(
+        self, tool_session: Union["ClientSession", Tool], last_msg: Message
+    ) -> list[Message]:
+        self.called_tools.add("python")
+        if isinstance(tool_session, Tool):
+            return await tool_session.get_result(self)
+        param = {
+            "code": last_msg.content[0].text,
+        }
+        result = await tool_session.call_tool("python", param)
+        result_str = result.content[0].text
+
+        content = TextContent(text=result_str)
+        author = Author(role=Role.TOOL, name="python")
+
+        return [
+            Message(
+                author=author,
+                content=[content],
+                channel=last_msg.channel,
+                recipient=Role.ASSISTANT,
+            )
+        ]
+
+    async def init_tool_sessions(
+        self,
+        tool_server: ToolServer | None,
+        exit_stack: AsyncExitStack,
+        request_id: str,
+        mcp_tools: dict[str, Mcp],
+    ):
+        if tool_server:
+            for tool_name in self.available_tools:
+                if tool_name not in self._tool_sessions:
+                    tool_type = _map_tool_name_to_tool_type(tool_name)
+                    headers = (
+                        mcp_tools[tool_type].headers if tool_type in mcp_tools else None
+                    )
+                    tool_session = await exit_stack.enter_async_context(
+                        tool_server.new_session(tool_name, request_id, headers)
+                    )
+                    self._tool_sessions[tool_name] = tool_session
+                    exit_stack.push_async_exit(self.cleanup_session)
+
+    async def call_container_tool(
+        self, tool_session: Union["ClientSession", Tool], last_msg: Message
+    ) -> list[Message]:
+        """
+        Call container tool. Expect this to be run in a stateful docker
+        with command line terminal.
+        The official container tool would at least
+        expect the following format:
+        - for tool name: exec
+            - args:
+                {
+                    "cmd":List[str] "command to execute",
+                    "workdir":optional[str] "current working directory",
+                    "env":optional[object/dict] "environment variables",
+                    "session_name":optional[str] "session name",
+                    "timeout":optional[int] "timeout in seconds",
+                    "user":optional[str] "user name",
+                }
+        """
+        self.called_tools.add("container")
+        if isinstance(tool_session, Tool):
+            return await tool_session.get_result(self)
+        tool_name = last_msg.recipient.split(".")[1].split(" ")[0]
+        if envs.VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY:
+            try:
+                args = json.loads(last_msg.content[0].text)
+            except json.JSONDecodeError as e:
+                return _create_json_parse_error_messages(last_msg, e)
+        else:
+            args = json.loads(last_msg.content[0].text)
+        result = await tool_session.call_tool(tool_name, args)
+        result_str = result.content[0].text
+        content = TextContent(text=result_str)
+        author = Author(role=Role.TOOL, name=last_msg.recipient)
+        return [
+            Message(
+                author=author,
+                content=[content],
+                recipient=Role.ASSISTANT,
+                channel=last_msg.channel,
+            )
+        ]
+
+    async def cleanup_session(self, *args, **kwargs) -> None:
+        """Can be used as coro to used in __aexit__"""
+
+        async def cleanup_tool_session(tool_session):
+            if not isinstance(tool_session, Tool):
+                logger.info(
+                    "Cleaning up tool session for %s", tool_session._client_info
+                )
+                with contextlib.suppress(Exception):
+                    await tool_session.call_tool("cleanup_session", {})
+
+        await asyncio.gather(
+            *(
+                cleanup_tool_session(self._tool_sessions[tool])
+                for tool in self.called_tools
+            )
+        )
+
+
+class StreamingHarmonyContext(HarmonyContext):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.last_output = None
+
+        self.parser = get_streamable_parser_for_assistant()
+        self.encoding = get_encoding()
+        self.last_tok = None
+        self.first_tok_of_message = True
+
+    @property
+    def messages(self) -> list:
+        return self._messages
+
+    def append_output(self, output: RequestOutput) -> None:
+        # append_output is called for each output token in streaming case,
+        # so we only want to add the prompt tokens once for each message.
+        if self.first_tok_of_message:
+            self._update_prefill_token_usage(output)
+        # Reset self.first_tok_of_message if needed:
+        # if the current token is the last one of the current message
+        # (finished=True), then the next token processed will mark the
+        # beginning of a new message
+        self.first_tok_of_message = output.finished
+        for tok in output.outputs[0].token_ids:
+            self.parser.process(tok)
+        self._update_decode_token_usage(output)
+
+        # For streaming, update previous turn when message is complete
+        if output.finished:
+            self.all_turn_metrics.append(self.current_turn_metrics.copy())
+            self.current_turn_metrics.reset()
+        # Check if the current token is part of reasoning content
+        self._update_num_reasoning_tokens()
+        self.last_tok = tok
+        if len(self._messages) - self.num_init_messages < len(self.parser.messages):
+            self._messages.extend(
+                self.parser.messages[len(self._messages) - self.num_init_messages :]
+            )
+
+    def append_tool_output(self, output: list[Message]) -> None:
+        # Handle the case of tool output in direct message format
+        assert len(output) == 1, "Tool output should be a single message"
+        msg = output[0]
+        # Sometimes the recipient is not set for tool messages,
+        # so we set it to "assistant"
+        if msg.author.role == Role.TOOL and msg.recipient is None:
+            msg.recipient = "assistant"
+        toks = self.encoding.render(msg)
+        for tok in toks:
+            self.parser.process(tok)
+        self.last_tok = toks[-1]
+        # TODO: add tool_output messages to self._messages
+
+    def is_expecting_start(self) -> bool:
+        return self.parser.state == StreamState.EXPECT_START
+
+    def is_assistant_action_turn(self) -> bool:
+        return self.last_tok in self.encoding.stop_tokens_for_assistant_actions()
+
+    def render_for_completion(self) -> list[int]:
+        # now this list of tokens as next turn's starting tokens
+        # `<|start|>assistant`,
+        # we need to process them in parser.
+        rendered_tokens = super().render_for_completion()
+
+        last_n = -1
+        to_process = []
+        while rendered_tokens[last_n] != self.last_tok:
+            to_process.append(rendered_tokens[last_n])
+            last_n -= 1
+        for tok in reversed(to_process):
+            self.parser.process(tok)
+
+        return rendered_tokens
diff --git a/entrypoints/dynamic_lora.py b/entrypoints/dynamic_lora.py
new file mode 100644
index 0000000..cc0f437
--- /dev/null
+++ b/entrypoints/dynamic_lora.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+from fastapi import APIRouter, Depends, Request
+from fastapi.responses import JSONResponse, Response
+
+from vllm.entrypoints.openai.api_server import models, validate_json_request
+from vllm.entrypoints.openai.protocol import (
+    ErrorResponse,
+    LoadLoRAAdapterRequest,
+    UnloadLoRAAdapterRequest,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def register_dynamic_lora_routes(router: APIRouter):
+    @sagemaker_standards.register_load_adapter_handler(
+        request_shape={
+            "lora_name": "body.name",
+            "lora_path": "body.src",
+        },
+    )
+    @router.post("/v1/load_lora_adapter", dependencies=[Depends(validate_json_request)])
+    async def load_lora_adapter(request: LoadLoRAAdapterRequest, raw_request: Request):
+        handler: OpenAIServingModels = models(raw_request)
+        response = await handler.load_lora_adapter(request)
+        if isinstance(response, ErrorResponse):
+            return JSONResponse(
+                content=response.model_dump(), status_code=response.error.code
+            )
+
+        return Response(status_code=200, content=response)
+
+    @sagemaker_standards.register_unload_adapter_handler(
+        request_shape={
+            "lora_name": "path_params.adapter_name",
+        }
+    )
+    @router.post(
+        "/v1/unload_lora_adapter", dependencies=[Depends(validate_json_request)]
+    )
+    async def unload_lora_adapter(
+        request: UnloadLoRAAdapterRequest, raw_request: Request
+    ):
+        handler: OpenAIServingModels = models(raw_request)
+        response = await handler.unload_lora_adapter(request)
+        if isinstance(response, ErrorResponse):
+            return JSONResponse(
+                content=response.model_dump(), status_code=response.error.code
+            )
+
+        return Response(status_code=200, content=response)
+
+    return router
diff --git a/entrypoints/harmony_utils.py b/entrypoints/harmony_utils.py
new file mode 100644
index 0000000..47a2523
--- /dev/null
+++ b/entrypoints/harmony_utils.py
@@ -0,0 +1,535 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import datetime
+import json
+from collections.abc import Iterable, Sequence
+from typing import Literal
+
+from openai.types.responses import (
+    ResponseFunctionToolCall,
+    ResponseOutputItem,
+    ResponseOutputMessage,
+    ResponseOutputText,
+    ResponseReasoningItem,
+)
+from openai.types.responses.response_function_web_search import (
+    ActionFind,
+    ActionOpenPage,
+    ActionSearch,
+    ResponseFunctionWebSearch,
+)
+from openai.types.responses.response_reasoning_item import (
+    Content as ResponseReasoningTextContent,
+)
+from openai.types.responses.tool import Tool
+from openai_harmony import (
+    Author,
+    ChannelConfig,
+    Conversation,
+    DeveloperContent,
+    HarmonyEncodingName,
+    Message,
+    ReasoningEffort,
+    Role,
+    StreamableParser,
+    SystemContent,
+    TextContent,
+    ToolDescription,
+    load_harmony_encoding,
+)
+from openai_harmony import Message as OpenAIHarmonyMessage
+from openai_harmony import Role as OpenAIHarmonyRole
+
+from vllm import envs
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionToolsParam,
+    ResponseInputOutputItem,
+    ResponsesRequest,
+)
+from vllm.utils import random_uuid
+
+REASONING_EFFORT = {
+    "high": ReasoningEffort.HIGH,
+    "medium": ReasoningEffort.MEDIUM,
+    "low": ReasoningEffort.LOW,
+}
+
+_harmony_encoding = None
+
+# Builtin tools that should be included in the system message when
+# they are available and requested by the user.
+# Tool args are provided by MCP tool descriptions. Output
+# of the tools are stringified.
+MCP_BUILTIN_TOOLS: set[str] = {
+    "web_search_preview",
+    "code_interpreter",
+    "container",
+}
+
+
+def has_custom_tools(tool_types: set[str]) -> bool:
+    """
+    Checks if the given tool types are custom tools
+    (i.e. any tool other than MCP buildin tools)
+    """
+    return not tool_types.issubset(MCP_BUILTIN_TOOLS)
+
+
+def get_encoding():
+    global _harmony_encoding
+    if _harmony_encoding is None:
+        _harmony_encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)
+    return _harmony_encoding
+
+
+def get_system_message(
+    model_identity: str | None = None,
+    reasoning_effort: Literal["high", "medium", "low"] | None = None,
+    start_date: str | None = None,
+    browser_description: str | None = None,
+    python_description: str | None = None,
+    container_description: str | None = None,
+    instructions: str | None = None,
+    with_custom_tools: bool = False,
+) -> Message:
+    sys_msg_content = SystemContent.new()
+    if model_identity is not None:
+        sys_msg_content = sys_msg_content.with_model_identity(model_identity)
+    if instructions is not None and envs.VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS:
+        current_identity = sys_msg_content.model_identity
+        new_identity = (
+            f"{current_identity}\n{instructions}" if current_identity else instructions
+        )
+        sys_msg_content = sys_msg_content.with_model_identity(new_identity)
+    if reasoning_effort is not None:
+        sys_msg_content = sys_msg_content.with_reasoning_effort(
+            REASONING_EFFORT[reasoning_effort]
+        )
+    if start_date is None:
+        # NOTE(woosuk): This brings non-determinism in vLLM. Be careful.
+        start_date = datetime.datetime.now().strftime("%Y-%m-%d")
+    sys_msg_content = sys_msg_content.with_conversation_start_date(start_date)
+    if browser_description is not None:
+        sys_msg_content = sys_msg_content.with_tools(browser_description)
+    if python_description is not None:
+        sys_msg_content = sys_msg_content.with_tools(python_description)
+    if container_description is not None:
+        sys_msg_content = sys_msg_content.with_tools(container_description)
+    if not with_custom_tools:
+        channel_config = sys_msg_content.channel_config
+        invalid_channel = "commentary"
+        new_config = ChannelConfig.require_channels(
+            [c for c in channel_config.valid_channels if c != invalid_channel]
+        )
+        sys_msg_content = sys_msg_content.with_channel_config(new_config)
+    sys_msg = Message.from_role_and_content(Role.SYSTEM, sys_msg_content)
+    return sys_msg
+
+
+def create_tool_definition(tool: ChatCompletionToolsParam | Tool):
+    if isinstance(tool, ChatCompletionToolsParam):
+        return ToolDescription.new(
+            name=tool.function.name,
+            description=tool.function.description,
+            parameters=tool.function.parameters,
+        )
+    return ToolDescription.new(
+        name=tool.name,
+        description=tool.description,
+        parameters=tool.parameters,
+    )
+
+
+def get_developer_message(
+    instructions: str | None = None,
+    tools: list[Tool | ChatCompletionToolsParam] | None = None,
+) -> Message:
+    dev_msg_content = DeveloperContent.new()
+    if instructions is not None and not envs.VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS:
+        dev_msg_content = dev_msg_content.with_instructions(instructions)
+    if tools is not None:
+        function_tools: list[Tool | ChatCompletionToolsParam] = []
+        for tool in tools:
+            if tool.type in (
+                "web_search_preview",
+                "code_interpreter",
+                "container",
+                "mcp",
+            ):
+                # These are built-in tools that are added to the system message.
+                # Adding in MCP for now until we support MCP tools executed
+                # server side
+                pass
+
+            elif tool.type == "function":
+                function_tools.append(tool)
+            else:
+                raise ValueError(f"tool type {tool.type} not supported")
+        if function_tools:
+            function_tool_descriptions = [
+                create_tool_definition(tool) for tool in function_tools
+            ]
+            dev_msg_content = dev_msg_content.with_function_tools(
+                function_tool_descriptions
+            )
+    dev_msg = Message.from_role_and_content(Role.DEVELOPER, dev_msg_content)
+    return dev_msg
+
+
+def get_user_message(content: str) -> Message:
+    return Message.from_role_and_content(Role.USER, content)
+
+
+def parse_response_input(
+    response_msg: ResponseInputOutputItem,
+    prev_responses: list[ResponseOutputItem | ResponseReasoningItem],
+) -> Message:
+    if not isinstance(response_msg, dict):
+        response_msg = response_msg.model_dump()
+    if "type" not in response_msg or response_msg["type"] == "message":
+        role = response_msg["role"]
+        content = response_msg["content"]
+        if role == "system":
+            # User is trying to set a system message. Change it to:
+            # <|start|>developer<|message|># Instructions
+            # {instructions}<|end|>
+            role = "developer"
+            text_prefix = "Instructions:\n"
+        else:
+            text_prefix = ""
+        if isinstance(content, str):
+            msg = Message.from_role_and_content(role, text_prefix + content)
+        else:
+            contents = [TextContent(text=text_prefix + c["text"]) for c in content]
+            msg = Message.from_role_and_contents(role, contents)
+        if role == "assistant":
+            msg = msg.with_channel("final")
+    elif response_msg["type"] == "function_call_output":
+        call_id = response_msg["call_id"]
+        call_response: ResponseFunctionToolCall | None = None
+        for prev_response in reversed(prev_responses):
+            if (
+                isinstance(prev_response, ResponseFunctionToolCall)
+                and prev_response.call_id == call_id
+            ):
+                call_response = prev_response
+                break
+        if call_response is None:
+            raise ValueError(f"No call message found for {call_id}")
+        msg = Message.from_author_and_content(
+            Author.new(Role.TOOL, f"functions.{call_response.name}"),
+            response_msg["output"],
+        )
+    elif response_msg["type"] == "reasoning":
+        content = response_msg["content"]
+        assert len(content) == 1
+        msg = Message.from_role_and_content(Role.ASSISTANT, content[0]["text"])
+    elif response_msg["type"] == "function_call":
+        msg = Message.from_role_and_content(Role.ASSISTANT, response_msg["arguments"])
+        msg = msg.with_channel("commentary")
+        msg = msg.with_recipient(f"functions.{response_msg['name']}")
+        msg = msg.with_content_type("json")
+    else:
+        raise ValueError(f"Unknown input type: {response_msg['type']}")
+    return msg
+
+
+def parse_input_to_harmony_message(chat_msg) -> list[Message]:
+    if not isinstance(chat_msg, dict):
+        # Handle Pydantic models
+        chat_msg = chat_msg.model_dump(exclude_none=True)
+
+    role = chat_msg.get("role")
+
+    # Assistant message with tool calls
+    tool_calls = chat_msg.get("tool_calls")
+    if role == "assistant" and tool_calls:
+        msgs: list[Message] = []
+        for call in tool_calls:
+            func = call.get("function", {})
+            name = func.get("name", "")
+            arguments = func.get("arguments", "") or ""
+            msg = Message.from_role_and_content(Role.ASSISTANT, arguments)
+            msg = msg.with_channel("commentary")
+            msg = msg.with_recipient(f"functions.{name}")
+            msg = msg.with_content_type("json")
+            msgs.append(msg)
+        return msgs
+
+    # Tool role message (tool output)
+    if role == "tool":
+        name = chat_msg.get("name", "")
+        content = chat_msg.get("content", "") or ""
+        if isinstance(content, list):
+            # Handle array format for tool message content
+            # by concatenating all text parts.
+            content = "".join(
+                item.get("text", "")
+                for item in content
+                if isinstance(item, dict) and item.get("type") == "text"
+            )
+
+        msg = Message.from_author_and_content(
+            Author.new(Role.TOOL, f"functions.{name}"), content
+        ).with_channel("commentary")
+        return [msg]
+
+    # Default: user/assistant/system messages with content
+    content = chat_msg.get("content", "")
+    if isinstance(content, str):
+        contents = [TextContent(text=content)]
+    else:
+        # TODO: Support refusal.
+        contents = [TextContent(text=c.get("text", "")) for c in content]
+    msg = Message.from_role_and_contents(role, contents)
+    return [msg]
+
+
+def construct_harmony_previous_input_messages(
+    request: ResponsesRequest,
+) -> list[OpenAIHarmonyMessage]:
+    messages: list[OpenAIHarmonyMessage] = []
+    if request.previous_input_messages:
+        for message in request.previous_input_messages:
+            # Handle both OpenAIHarmonyMessage objects and dictionary inputs
+            if isinstance(message, OpenAIHarmonyMessage):
+                message_role = message.author.role
+                # To match OpenAI, instructions, reasoning and tools are
+                # always taken from the most recent Responses API request
+                # not carried over from previous requests
+                if (
+                    message_role == OpenAIHarmonyRole.SYSTEM
+                    or message_role == OpenAIHarmonyRole.DEVELOPER
+                ):
+                    continue
+                messages.append(message)
+            else:
+                harmony_messages = parse_input_to_harmony_message(message)
+                for harmony_msg in harmony_messages:
+                    message_role = harmony_msg.author.role
+                    # To match OpenAI, instructions, reasoning and tools are
+                    # always taken from the most recent Responses API request
+                    # not carried over from previous requests
+                    if (
+                        message_role == OpenAIHarmonyRole.SYSTEM
+                        or message_role == OpenAIHarmonyRole.DEVELOPER
+                    ):
+                        continue
+                    messages.append(harmony_msg)
+    return messages
+
+
+def render_for_completion(messages: list[Message]) -> list[int]:
+    conversation = Conversation.from_messages(messages)
+    token_ids = get_encoding().render_conversation_for_completion(
+        conversation, Role.ASSISTANT
+    )
+    return token_ids
+
+
+def parse_output_message(message: Message) -> list[ResponseOutputItem]:
+    """
+    Parse a Harmony message into a list of output response items.
+    """
+    if message.author.role != "assistant":
+        # This is a message from a tool to the assistant (e.g., search result).
+        # Don't include it in the final output for now. This aligns with
+        # OpenAI's behavior on models like o4-mini.
+        return []
+
+    output_items: list[ResponseOutputItem] = []
+    recipient = message.recipient
+    if recipient is not None and recipient.startswith("browser."):
+        if len(message.content) != 1:
+            raise ValueError("Invalid number of contents in browser message")
+        content = message.content[0]
+        # We do not need to check the VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY
+        # env variable since if it is not set, we are certain the json is valid
+        # The use of Actions for web search will be removed entirely in
+        # the future, so this is only necessary temporarily
+        try:
+            browser_call = json.loads(content.text)
+        except json.JSONDecodeError:
+            # If the content is not valid JSON, then it was
+            # caught and retried by vLLM, which means we
+            # need to make note of that so the user is aware
+            json_retry_output_message = (
+                f"Invalid JSON args, caught and retried: {content.text}"
+            )
+            browser_call = {
+                "query": json_retry_output_message,
+                "url": json_retry_output_message,
+                "pattern": json_retry_output_message,
+            }
+        # TODO: translate to url properly!
+        if recipient == "browser.search":
+            action = ActionSearch(
+                query=f"cursor:{browser_call.get('query', '')}", type="search"
+            )
+        elif recipient == "browser.open":
+            action = ActionOpenPage(
+                url=f"cursor:{browser_call.get('url', '')}", type="open_page"
+            )
+        elif recipient == "browser.find":
+            action = ActionFind(
+                pattern=browser_call["pattern"],
+                url=f"cursor:{browser_call.get('url', '')}",
+                type="find",
+            )
+        else:
+            raise ValueError(f"Unknown browser action: {recipient}")
+        web_search_item = ResponseFunctionWebSearch(
+            id=f"ws_{random_uuid()}",
+            action=action,
+            status="completed",
+            type="web_search_call",
+        )
+        output_items.append(web_search_item)
+    elif message.channel == "analysis":
+        for content in message.content:
+            reasoning_item = ResponseReasoningItem(
+                id=f"rs_{random_uuid()}",
+                summary=[],
+                type="reasoning",
+                content=[
+                    ResponseReasoningTextContent(
+                        text=content.text, type="reasoning_text"
+                    )
+                ],
+                status=None,
+            )
+            output_items.append(reasoning_item)
+    elif message.channel == "commentary":
+        if recipient is not None and recipient.startswith("functions."):
+            function_name = recipient.split(".")[-1]
+            for content in message.content:
+                random_id = random_uuid()
+                response_item = ResponseFunctionToolCall(
+                    arguments=content.text,
+                    call_id=f"call_{random_id}",
+                    type="function_call",
+                    name=function_name,
+                    id=f"fc_{random_id}",
+                )
+                output_items.append(response_item)
+        elif recipient is not None and (
+            recipient.startswith("python")
+            or recipient.startswith("browser")
+            or recipient.startswith("container")
+        ):
+            for content in message.content:
+                reasoning_item = ResponseReasoningItem(
+                    id=f"rs_{random_uuid()}",
+                    summary=[],
+                    type="reasoning",
+                    content=[
+                        ResponseReasoningTextContent(
+                            text=content.text, type="reasoning_text"
+                        )
+                    ],
+                    status=None,
+                )
+                output_items.append(reasoning_item)
+        else:
+            raise ValueError(f"Unknown recipient: {recipient}")
+    elif message.channel == "final":
+        contents = []
+        for content in message.content:
+            output_text = ResponseOutputText(
+                text=content.text,
+                annotations=[],  # TODO
+                type="output_text",
+                logprobs=None,  # TODO
+            )
+            contents.append(output_text)
+        text_item = ResponseOutputMessage(
+            id=f"msg_{random_uuid()}",
+            content=contents,
+            role=message.author.role,
+            status="completed",
+            type="message",
+        )
+        output_items.append(text_item)
+    else:
+        raise ValueError(f"Unknown channel: {message.channel}")
+    return output_items
+
+
+def parse_remaining_state(parser: StreamableParser) -> list[ResponseOutputItem]:
+    if not parser.current_content:
+        return []
+    if parser.current_role != Role.ASSISTANT:
+        return []
+    current_recipient = parser.current_recipient
+    if current_recipient is not None and current_recipient.startswith("browser."):
+        return []
+
+    if parser.current_channel == "analysis":
+        reasoning_item = ResponseReasoningItem(
+            id=f"rs_{random_uuid()}",
+            summary=[],
+            type="reasoning",
+            content=[
+                ResponseReasoningTextContent(
+                    text=parser.current_content, type="reasoning_text"
+                )
+            ],
+            status=None,
+        )
+        return [reasoning_item]
+    elif parser.current_channel == "final":
+        output_text = ResponseOutputText(
+            text=parser.current_content,
+            annotations=[],  # TODO
+            type="output_text",
+            logprobs=None,  # TODO
+        )
+        text_item = ResponseOutputMessage(
+            id=f"msg_{random_uuid()}",
+            content=[output_text],
+            role="assistant",
+            # if the parser still has messages (ie if the generator got cut
+            # abruptly), this should be incomplete
+            status="incomplete",
+            type="message",
+        )
+        return [text_item]
+    return []
+
+
+def get_stop_tokens_for_assistant_actions() -> list[int]:
+    return get_encoding().stop_tokens_for_assistant_actions()
+
+
+def get_streamable_parser_for_assistant() -> StreamableParser:
+    return StreamableParser(get_encoding(), role=Role.ASSISTANT)
+
+
+def parse_output_into_messages(token_ids: Iterable[int]) -> StreamableParser:
+    parser = get_streamable_parser_for_assistant()
+    for token_id in token_ids:
+        parser.process(token_id)
+    return parser
+
+
+def parse_chat_output(
+    token_ids: Sequence[int],
+) -> tuple[str | None, str | None, bool]:
+    parser = parse_output_into_messages(token_ids)
+    output_msgs = parser.messages
+    is_tool_call = False  # TODO: update this when tool call is supported
+    if len(output_msgs) == 0:
+        # The generation has stopped during reasoning.
+        reasoning = parser.current_content
+        final_content = None
+    elif len(output_msgs) == 1:
+        # The generation has stopped during final message.
+        reasoning = output_msgs[0].content[0].text
+        final_content = parser.current_content
+    else:
+        reasoning_msg = output_msgs[:-1]
+        final_msg = output_msgs[-1]
+        reasoning = "\n".join([msg.content[0].text for msg in reasoning_msg])
+        final_content = final_msg.content[0].text
+    return reasoning, final_content, is_tool_call
diff --git a/entrypoints/launcher.py b/entrypoints/launcher.py
new file mode 100644
index 0000000..cabf95e
--- /dev/null
+++ b/entrypoints/launcher.py
@@ -0,0 +1,175 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import signal
+import socket
+from http import HTTPStatus
+from typing import Any
+
+import uvicorn
+from fastapi import FastAPI, Request, Response
+
+from vllm import envs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.constants import (
+    H11_MAX_HEADER_COUNT_DEFAULT,
+    H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT,
+)
+from vllm.entrypoints.ssl import SSLCertRefresher
+from vllm.logger import init_logger
+from vllm.utils.network_utils import find_process_using_port
+from vllm.v1.engine.exceptions import EngineDeadError, EngineGenerateError
+
+logger = init_logger(__name__)
+
+
+async def serve_http(
+    app: FastAPI,
+    sock: socket.socket | None,
+    enable_ssl_refresh: bool = False,
+    **uvicorn_kwargs: Any,
+):
+    """
+    Start a FastAPI app using Uvicorn, with support for custom Uvicorn config
+    options.  Supports http header limits via h11_max_incomplete_event_size and
+    h11_max_header_count.
+    """
+    logger.info("Available routes are:")
+    for route in app.routes:
+        methods = getattr(route, "methods", None)
+        path = getattr(route, "path", None)
+
+        if methods is None or path is None:
+            continue
+
+        logger.info("Route: %s, Methods: %s", path, ", ".join(methods))
+
+    # Extract header limit options if present
+    h11_max_incomplete_event_size = uvicorn_kwargs.pop(
+        "h11_max_incomplete_event_size", None
+    )
+    h11_max_header_count = uvicorn_kwargs.pop("h11_max_header_count", None)
+
+    # Set safe defaults if not provided
+    if h11_max_incomplete_event_size is None:
+        h11_max_incomplete_event_size = H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT
+    if h11_max_header_count is None:
+        h11_max_header_count = H11_MAX_HEADER_COUNT_DEFAULT
+
+    config = uvicorn.Config(app, **uvicorn_kwargs)
+    # Set header limits
+    config.h11_max_incomplete_event_size = h11_max_incomplete_event_size
+    config.h11_max_header_count = h11_max_header_count
+    config.load()
+    server = uvicorn.Server(config)
+    _add_shutdown_handlers(app, server)
+
+    loop = asyncio.get_running_loop()
+
+    watchdog_task = loop.create_task(watchdog_loop(server, app.state.engine_client))
+    server_task = loop.create_task(server.serve(sockets=[sock] if sock else None))
+
+    ssl_cert_refresher = (
+        None
+        if not enable_ssl_refresh
+        else SSLCertRefresher(
+            ssl_context=config.ssl,
+            key_path=config.ssl_keyfile,
+            cert_path=config.ssl_certfile,
+            ca_path=config.ssl_ca_certs,
+        )
+    )
+
+    def signal_handler() -> None:
+        # prevents the uvicorn signal handler to exit early
+        server_task.cancel()
+        watchdog_task.cancel()
+        if ssl_cert_refresher:
+            ssl_cert_refresher.stop()
+
+    async def dummy_shutdown() -> None:
+        pass
+
+    loop.add_signal_handler(signal.SIGINT, signal_handler)
+    loop.add_signal_handler(signal.SIGTERM, signal_handler)
+
+    try:
+        await server_task
+        return dummy_shutdown()
+    except asyncio.CancelledError:
+        port = uvicorn_kwargs["port"]
+        process = find_process_using_port(port)
+        if process is not None:
+            logger.warning(
+                "port %s is used by process %s launched with command:\n%s",
+                port,
+                process,
+                " ".join(process.cmdline()),
+            )
+        logger.info("Shutting down FastAPI HTTP server.")
+        return server.shutdown()
+    finally:
+        watchdog_task.cancel()
+
+
+async def watchdog_loop(server: uvicorn.Server, engine: EngineClient):
+    """
+    # Watchdog task that runs in the background, checking
+    # for error state in the engine. Needed to trigger shutdown
+    # if an exception arises is StreamingResponse() generator.
+    """
+    VLLM_WATCHDOG_TIME_S = 5.0
+    while True:
+        await asyncio.sleep(VLLM_WATCHDOG_TIME_S)
+        terminate_if_errored(server, engine)
+
+
+def terminate_if_errored(server: uvicorn.Server, engine: EngineClient):
+    """
+    See discussions here on shutting down a uvicorn server
+    https://github.com/encode/uvicorn/discussions/1103
+    In this case we cannot await the server shutdown here
+    because handler must first return to close the connection
+    for this request.
+    """
+    engine_errored = engine.errored and not engine.is_running
+    if not envs.VLLM_KEEP_ALIVE_ON_ENGINE_DEATH and engine_errored:
+        server.should_exit = True
+
+
+def _add_shutdown_handlers(app: FastAPI, server: uvicorn.Server) -> None:
+    """
+    VLLM V1 AsyncLLM catches exceptions and returns
+    only two types: EngineGenerateError and EngineDeadError.
+
+    EngineGenerateError is raised by the per request generate()
+    method. This error could be request specific (and therefore
+    recoverable - e.g. if there is an error in input processing).
+
+    EngineDeadError is raised by the background output_handler
+    method. This error is global and therefore not recoverable.
+
+    We register these @app.exception_handlers to return nice
+    responses to the end user if they occur and shut down if needed.
+    See https://fastapi.tiangolo.com/tutorial/handling-errors/
+    for more details on how exception handlers work.
+
+    If an exception is encountered in a StreamingResponse
+    generator, the exception is not raised, since we already sent
+    a 200 status. Rather, we send an error message as the next chunk.
+    Since the exception is not raised, this means that the server
+    will not automatically shut down. Instead, we use the watchdog
+    background task for check for errored state.
+    """
+
+    @app.exception_handler(RuntimeError)
+    @app.exception_handler(EngineDeadError)
+    @app.exception_handler(EngineGenerateError)
+    async def runtime_exception_handler(request: Request, __):
+        terminate_if_errored(
+            server=server,
+            engine=request.app.state.engine_client,
+        )
+
+        return Response(status_code=HTTPStatus.INTERNAL_SERVER_ERROR)
diff --git a/entrypoints/llm.py b/entrypoints/llm.py
new file mode 100644
index 0000000..b0786bd
--- /dev/null
+++ b/entrypoints/llm.py
@@ -0,0 +1,1768 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+from collections.abc import Callable, Sequence
+from typing import TYPE_CHECKING, Any, cast
+
+import cloudpickle
+import torch.nn as nn
+from pydantic import ValidationError
+from tqdm.auto import tqdm
+from typing_extensions import TypeVar, deprecated
+
+from vllm.beam_search import (
+    BeamSearchInstance,
+    BeamSearchOutput,
+    BeamSearchSequence,
+    create_sort_beams_key_function,
+)
+from vllm.config import (
+    CompilationConfig,
+    PoolerConfig,
+    StructuredOutputsConfig,
+    is_init_field,
+)
+from vllm.config.compilation import CompilationMode
+from vllm.config.model import (
+    ConvertOption,
+    HfOverrides,
+    ModelDType,
+    RunnerOption,
+    TokenizerMode,
+)
+from vllm.engine.arg_utils import EngineArgs
+from vllm.entrypoints.chat_utils import (
+    ChatCompletionMessageParam,
+    ChatTemplateContentFormatOption,
+    apply_hf_chat_template,
+    apply_mistral_chat_template,
+    parse_chat_messages,
+    resolve_chat_template_content_format,
+)
+from vllm.entrypoints.score_utils import (
+    ScoreContentPartParam,
+    ScoreMultiModalParam,
+    _cosine_similarity,
+    _validate_score_input_lens,
+    compress_token_type_ids,
+    get_score_prompt,
+)
+from vllm.entrypoints.utils import _validate_truncation_size, log_non_default_args
+from vllm.inputs import (
+    DataPrompt,
+    PromptType,
+    SingletonPrompt,
+    TextPrompt,
+    TokensPrompt,
+)
+from vllm.inputs.parse import get_prompt_components
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.outputs import (
+    ClassificationRequestOutput,
+    EmbeddingRequestOutput,
+    PoolingRequestOutput,
+    RequestOutput,
+    ScoringRequestOutput,
+)
+from vllm.platforms import current_platform
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import BeamSearchParams, RequestOutputKind, SamplingParams
+from vllm.tasks import PoolingTask
+from vllm.transformers_utils.tokenizer import (
+    AnyTokenizer,
+    MistralTokenizer,
+    get_cached_tokenizer,
+)
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils.collection_utils import as_iter, is_list_of
+from vllm.utils.counter import Counter
+from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.engine.llm_engine import LLMEngine
+from vllm.v1.sample.logits_processor import LogitsProcessor
+
+if TYPE_CHECKING:
+    from vllm.v1.metrics.reader import Metric
+
+logger = init_logger(__name__)
+
+_R = TypeVar("_R", default=Any)
+
+
+class LLM:
+    """An LLM for generating texts from given prompts and sampling parameters.
+
+    This class includes a tokenizer, a language model (possibly distributed
+    across multiple GPUs), and GPU memory space allocated for intermediate
+    states (aka KV cache). Given a batch of prompts and sampling parameters,
+    this class generates texts from the model, using an intelligent batching
+    mechanism and efficient memory management.
+
+    Args:
+        model: The name or path of a HuggingFace Transformers model.
+        tokenizer: The name or path of a HuggingFace Transformers tokenizer.
+        tokenizer_mode: The tokenizer mode. "auto" will use the fast tokenizer
+            if available, and "slow" will always use the slow tokenizer.
+        skip_tokenizer_init: If true, skip initialization of tokenizer and
+            detokenizer. Expect valid prompt_token_ids and None for prompt
+            from the input.
+        trust_remote_code: Trust remote code (e.g., from HuggingFace) when
+            downloading the model and tokenizer.
+        allowed_local_media_path: Allowing API requests to read local images
+            or videos from directories specified by the server file system.
+            This is a security risk. Should only be enabled in trusted
+            environments.
+        allowed_media_domains: If set, only media URLs that belong to this
+            domain can be used for multi-modal inputs.
+        tensor_parallel_size: The number of GPUs to use for distributed
+            execution with tensor parallelism.
+        dtype: The data type for the model weights and activations. Currently,
+            we support `float32`, `float16`, and `bfloat16`. If `auto`, we use
+            the `dtype` attribute of the Transformers model's config. However,
+            if the `dtype` in the config is `float32`, we will use `float16` instead.
+        quantization: The method used to quantize the model weights. Currently,
+            we support "awq", "gptq", and "fp8" (experimental).
+            If None, we first check the `quantization_config` attribute in the
+            model config file. If that is None, we assume the model weights are
+            not quantized and use `dtype` to determine the data type of
+            the weights.
+        revision: The specific model version to use. It can be a branch name,
+            a tag name, or a commit id.
+        tokenizer_revision: The specific tokenizer version to use. It can be a
+            branch name, a tag name, or a commit id.
+        seed: The seed to initialize the random number generator for sampling.
+        gpu_memory_utilization: The ratio (between 0 and 1) of GPU memory to
+            reserve for the model weights, activations, and KV cache. Higher
+            values will increase the KV cache size and thus improve the model's
+            throughput. However, if the value is too high, it may cause out-of-
+            memory (OOM) errors.
+        kv_cache_memory_bytes: Size of KV Cache per GPU in bytes. By default,
+            this is set to None and vllm can automatically infer the kv cache
+            size based on gpu_memory_utilization. However, users may want to
+            manually specify the kv cache memory size. kv_cache_memory_bytes
+            allows more fine-grain control of how much memory gets used when
+            compared with using gpu_memory_utilization. Note that
+            kv_cache_memory_bytes (when not-None) ignores
+            gpu_memory_utilization
+        swap_space: The size (GiB) of CPU memory per GPU to use as swap space.
+            This can be used for temporarily storing the states of the requests
+            when their `best_of` sampling parameters are larger than 1. If all
+            requests will have `best_of=1`, you can safely set this to 0.
+            Noting that `best_of` is only supported in V0. Otherwise, too small
+            values may cause out-of-memory (OOM) errors.
+        cpu_offload_gb: The size (GiB) of CPU memory to use for offloading
+            the model weights. This virtually increases the GPU memory space
+            you can use to hold the model weights, at the cost of CPU-GPU data
+            transfer for every forward pass.
+        enforce_eager: Whether to enforce eager execution. If True, we will
+            disable CUDA graph and always execute the model in eager mode.
+            If False, we will use CUDA graph and eager execution in hybrid.
+        disable_custom_all_reduce: See
+            [ParallelConfig][vllm.config.ParallelConfig].
+        hf_token: The token to use as HTTP bearer authorization for remote files
+            . If `True`, will use the token generated when running
+            `huggingface-cli login` (stored in `~/.huggingface`).
+        hf_overrides: If a dictionary, contains arguments to be forwarded to the
+            HuggingFace config. If a callable, it is called to update the
+            HuggingFace config.
+        mm_processor_kwargs: Arguments to be forwarded to the model's processor
+            for multi-modal data, e.g., image processor. Overrides for the
+            multi-modal processor obtained from `AutoProcessor.from_pretrained`.
+            The available overrides depend on the model that is being run.
+            For example, for Phi-3-Vision: `{"num_crops": 4}`.
+        pooler_config: Initialize non-default pooling config for the pooling
+            model. e.g. `PoolerConfig(pooling_type="mean", normalize=False)`.
+        override_pooler_config: [DEPRECATED] Use `pooler_config` instead. This
+            argument is deprecated and will be removed in v0.12.0 or v1.0.0,
+            whichever is sooner.
+        compilation_config: Either an integer or a dictionary. If it is an
+            integer, it is used as the mode of compilation optimization. If it
+            is a dictionary, it can specify the full compilation configuration.
+        **kwargs: Arguments for [`EngineArgs`][vllm.EngineArgs].
+
+    Note:
+        This class is intended to be used for offline inference. For online
+        serving, use the [AsyncLLMEngine][vllm.AsyncLLMEngine] class instead.
+    """
+
+    def __init__(
+        self,
+        model: str,
+        *,
+        runner: RunnerOption = "auto",
+        convert: ConvertOption = "auto",
+        tokenizer: str | None = None,
+        tokenizer_mode: TokenizerMode = "auto",
+        skip_tokenizer_init: bool = False,
+        trust_remote_code: bool = False,
+        allowed_local_media_path: str = "",
+        allowed_media_domains: list[str] | None = None,
+        tensor_parallel_size: int = 1,
+        dtype: ModelDType = "auto",
+        quantization: QuantizationMethods | None = None,
+        revision: str | None = None,
+        tokenizer_revision: str | None = None,
+        seed: int | None = None,
+        gpu_memory_utilization: float = 0.9,
+        swap_space: float = 4,
+        cpu_offload_gb: float = 0,
+        enforce_eager: bool = False,
+        disable_custom_all_reduce: bool = False,
+        hf_token: bool | str | None = None,
+        hf_overrides: HfOverrides | None = None,
+        mm_processor_kwargs: dict[str, Any] | None = None,
+        pooler_config: PoolerConfig | None = None,
+        override_pooler_config: PoolerConfig | None = None,
+        structured_outputs_config: dict[str, Any]
+        | StructuredOutputsConfig
+        | None = None,
+        kv_cache_memory_bytes: int | None = None,
+        compilation_config: int | dict[str, Any] | CompilationConfig | None = None,
+        logits_processors: list[str | type[LogitsProcessor]] | None = None,
+        **kwargs: Any,
+    ) -> None:
+        """LLM constructor."""
+
+        if "disable_log_stats" not in kwargs:
+            kwargs["disable_log_stats"] = True
+
+        if "worker_cls" in kwargs:
+            worker_cls = kwargs["worker_cls"]
+            # if the worker_cls is not qualified string name,
+            # we serialize it using cloudpickle to avoid pickling issues
+            if isinstance(worker_cls, type):
+                kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
+
+        if "kv_transfer_config" in kwargs and isinstance(
+            kwargs["kv_transfer_config"], dict
+        ):
+            from vllm.config.kv_transfer import KVTransferConfig
+
+            raw_config_dict = kwargs["kv_transfer_config"]
+            try:
+                kwargs["kv_transfer_config"] = KVTransferConfig(**raw_config_dict)
+            except ValidationError as e:
+                logger.error(
+                    "Failed to convert 'kv_transfer_config' dict to "
+                    "KVTransferConfig object. Dict: %s. Error: %s",
+                    raw_config_dict,
+                    e,
+                )
+                # Consider re-raising a more specific vLLM error or ValueError
+                # to provide better context to the user.
+                raise ValueError(f"Invalid 'kv_transfer_config' provided: {e}") from e
+
+        if hf_overrides is None:
+            hf_overrides = {}
+
+        if compilation_config is not None:
+            if isinstance(compilation_config, int):
+                compilation_config_instance = CompilationConfig(
+                    mode=CompilationMode(compilation_config)
+                )
+            elif isinstance(compilation_config, dict):
+                compilation_config_instance = CompilationConfig(
+                    **{
+                        k: v
+                        for k, v in compilation_config.items()
+                        if is_init_field(CompilationConfig, k)
+                    }
+                )
+            else:
+                compilation_config_instance = compilation_config
+        else:
+            compilation_config_instance = CompilationConfig()
+
+        if structured_outputs_config is not None:
+            if isinstance(structured_outputs_config, dict):
+                structured_outputs_instance = StructuredOutputsConfig(
+                    **{
+                        k: v
+                        for k, v in structured_outputs_config.items()
+                        if is_init_field(StructuredOutputsConfig, k)
+                    }
+                )
+            else:
+                structured_outputs_instance = structured_outputs_config
+        else:
+            structured_outputs_instance = StructuredOutputsConfig()
+
+        # warn about single-process data parallel usage.
+        _dp_size = int(kwargs.get("data_parallel_size", 1))
+        _distributed_executor_backend = kwargs.get("distributed_executor_backend")
+        if (
+            _dp_size > 1
+            and not _distributed_executor_backend == "external_launcher"
+            and not current_platform.is_tpu()
+        ):
+            raise ValueError(
+                f"LLM(data_parallel_size={_dp_size}) is not supported for single-"
+                "process usage and may hang. Please use "
+                "the explicit multi-process data-parallel example at "
+                "'examples/offline_inference/data_parallel.py'."
+            )
+
+        engine_args = EngineArgs(
+            model=model,
+            runner=runner,
+            convert=convert,
+            tokenizer=tokenizer,
+            tokenizer_mode=tokenizer_mode,
+            skip_tokenizer_init=skip_tokenizer_init,
+            trust_remote_code=trust_remote_code,
+            allowed_local_media_path=allowed_local_media_path,
+            allowed_media_domains=allowed_media_domains,
+            tensor_parallel_size=tensor_parallel_size,
+            dtype=dtype,
+            quantization=quantization,
+            revision=revision,
+            tokenizer_revision=tokenizer_revision,
+            seed=seed,
+            gpu_memory_utilization=gpu_memory_utilization,
+            kv_cache_memory_bytes=kv_cache_memory_bytes,
+            swap_space=swap_space,
+            cpu_offload_gb=cpu_offload_gb,
+            enforce_eager=enforce_eager,
+            disable_custom_all_reduce=disable_custom_all_reduce,
+            hf_token=hf_token,
+            hf_overrides=hf_overrides,
+            mm_processor_kwargs=mm_processor_kwargs,
+            pooler_config=pooler_config,
+            override_pooler_config=override_pooler_config,
+            structured_outputs_config=structured_outputs_instance,
+            compilation_config=compilation_config_instance,
+            logits_processors=logits_processors,
+            **kwargs,
+        )
+
+        log_non_default_args(engine_args)
+
+        # Create the Engine (autoselects V0 vs V1)
+        self.llm_engine = LLMEngine.from_engine_args(
+            engine_args=engine_args, usage_context=UsageContext.LLM_CLASS
+        )
+        self.engine_class = type(self.llm_engine)
+
+        self.request_counter = Counter()
+        self.default_sampling_params: dict[str, Any] | None = None
+
+        supported_tasks = self.llm_engine.get_supported_tasks()
+        logger.info("Supported tasks: %s", supported_tasks)
+        self.supported_tasks = supported_tasks
+
+        self.model_config = self.llm_engine.model_config
+        self.processor = self.llm_engine.processor
+        self.io_processor = self.llm_engine.io_processor
+
+    def get_tokenizer(self) -> AnyTokenizer:
+        return self.llm_engine.get_tokenizer()
+
+    @deprecated("`set_tokenizer` is deprecated and will be removed in v0.13.")
+    def set_tokenizer(self, tokenizer: AnyTokenizer) -> None:
+        # While CachedTokenizer is dynamic, have no choice but
+        # compare class name. Misjudgment will arise from
+        # user-defined tokenizer started with 'Cached'
+        if tokenizer.__class__.__name__.startswith("Cached"):
+            self.llm_engine.tokenizer = tokenizer
+        else:
+            self.llm_engine.tokenizer = get_cached_tokenizer(tokenizer)
+
+    def reset_mm_cache(self) -> None:
+        self.processor.clear_mm_cache()
+        self.llm_engine.reset_mm_cache()
+
+    def get_default_sampling_params(self) -> SamplingParams:
+        if self.default_sampling_params is None:
+            self.default_sampling_params = self.model_config.get_diff_sampling_param()
+        if self.default_sampling_params:
+            return SamplingParams.from_optional(**self.default_sampling_params)
+        return SamplingParams()
+
+    def generate(
+        self,
+        prompts: PromptType | Sequence[PromptType],
+        sampling_params: SamplingParams | Sequence[SamplingParams] | None = None,
+        *,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+        priority: list[int] | None = None,
+    ) -> list[RequestOutput]:
+        """Generates the completions for the input prompts.
+
+        This class automatically batches the given prompts, considering
+        the memory constraint. For the best performance, put all of your prompts
+        into a single list and pass it to this method.
+
+        Args:
+            prompts: The prompts to the LLM. You may pass a sequence of prompts
+                for batch inference. See [PromptType][vllm.inputs.PromptType]
+                for more details about the format of each prompt.
+            sampling_params: The sampling parameters for text generation. If
+                None, we use the default sampling parameters.
+                When it is a single value, it is applied to every prompt.
+                When it is a list, the list must have the same length as the
+                prompts and it is paired one by one with the prompt.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            priority: The priority of the requests, if any.
+                Only applicable when priority scheduling policy is enabled.
+
+        Returns:
+            A list of `RequestOutput` objects containing the
+            generated completions in the same order as the input prompts.
+
+        Note:
+            Using `prompts` and `prompt_token_ids` as keyword parameters is
+            considered legacy and may be deprecated in the future. You should
+            instead pass them via the `inputs` parameter.
+        """
+        model_config = self.model_config
+        runner_type = model_config.runner_type
+        if runner_type != "generate":
+            raise ValueError(
+                "LLM.generate() is only supported for generative models. "
+                "Try passing `--runner generate` to use the model as a "
+                "generative model."
+            )
+
+        if sampling_params is None:
+            # Use default sampling params.
+            sampling_params = self.get_default_sampling_params()
+
+        # Add any modality specific loras to the corresponding prompts
+        lora_request = self._get_modality_specific_lora_reqs(prompts, lora_request)
+
+        self._validate_and_add_requests(
+            prompts=prompts,
+            params=sampling_params,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+            priority=priority,
+        )
+
+        outputs = self._run_engine(use_tqdm=use_tqdm)
+        return self.engine_class.validate_outputs(outputs, RequestOutput)
+
+    def _get_modality_specific_lora_reqs(
+        self,
+        prompts: PromptType | Sequence[PromptType],
+        lora_request: list[LoRARequest] | LoRARequest | None,
+    ):
+        # Grab the lora config off the vllm config on the engine,
+        # since this is the same for both v0 & v1.
+        lora_config = self.llm_engine.vllm_config.lora_config
+
+        # If there's no lora config / default_mm_loras, or the model
+        # isn't multimodal, leave the lora as is.
+        if (
+            lora_config is None
+            or not self.model_config.is_multimodal_model
+            or (lora_config and lora_config.default_mm_loras is None)
+        ):
+            return lora_request
+
+        if not isinstance(prompts, Sequence):
+            prompts = [prompts]
+
+        optional_loras = (
+            [lora_request] * len(prompts)
+            if not isinstance(lora_request, Sequence)
+            else lora_request
+        )
+
+        return [
+            self._resolve_single_prompt_mm_lora(
+                prompt,
+                opt_lora_req,
+                lora_config.default_mm_loras,
+            )
+            for prompt, opt_lora_req in zip(prompts, optional_loras)
+        ]
+
+    def _resolve_single_prompt_mm_lora(
+        self,
+        prompt: PromptType,
+        lora_request: LoRARequest | None,
+        default_mm_loras: dict[str, str] | None,
+    ):
+        if (
+            not default_mm_loras
+            or not isinstance(prompt, dict)
+            or not (mm_data := prompt.get("multi_modal_data") or {})
+        ):
+            return lora_request
+
+        intersection = set(
+            mm_data.keys()  # type: ignore
+        ).intersection(default_mm_loras.keys())
+        if not intersection:
+            return lora_request
+        if len(intersection) > 1:
+            # TODO: Would be nice to be able to have multiple loras per prompt
+            logger.warning(
+                "Multiple modality specific loras were registered and would be"
+                " used by a single prompt consuming several modalities; "
+                " currently we only support one lora per request; as such,"
+                " lora(s) registered with modalities: %s"
+                " will be skipped",
+                intersection,
+            )
+            return lora_request
+
+        # Build the LoRA request; the ID of the default mm lora is the
+        # index of the modality name sorted alphabetically + 1.
+        modality_name = intersection.pop()
+        modality_lora_path = default_mm_loras[modality_name]
+        modality_lora_id = sorted(default_mm_loras).index(modality_name) + 1
+
+        # If we have a collision, warn if there is a collision,
+        # but always send the explicitly provided request.
+        if lora_request:
+            if lora_request.lora_int_id != modality_lora_id:
+                logger.warning(
+                    "A modality with a registered lora and a lora_request "
+                    "with a different ID were provided; falling back to the "
+                    "lora_request as we only apply one LoRARequest per prompt"
+                )
+            return lora_request
+
+        return LoRARequest(
+            modality_name,
+            modality_lora_id,
+            modality_lora_path,
+        )
+
+    def collective_rpc(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        """
+        Execute an RPC call on all workers.
+
+        Args:
+            method: Name of the worker method to execute, or a callable that
+                is serialized and sent to all workers to execute.
+
+                If the method is a callable, it should accept an additional
+                `self` argument, in addition to the arguments passed in `args`
+                and `kwargs`. The `self` argument will be the worker object.
+            timeout: Maximum time in seconds to wait for execution. Raises a
+                [`TimeoutError`][] on timeout. `None` means wait indefinitely.
+            args: Positional arguments to pass to the worker method.
+            kwargs: Keyword arguments to pass to the worker method.
+
+        Returns:
+            A list containing the results from each worker.
+
+        Note:
+            It is recommended to use this API to only pass control messages,
+            and set up data-plane communication to pass data.
+        """
+
+        return self.llm_engine.collective_rpc(method, timeout, args, kwargs)
+
+    def apply_model(self, func: Callable[[nn.Module], _R]) -> list[_R]:
+        """
+        Run a function directly on the model inside each worker,
+        returning the result for each of them.
+
+        !!! warning
+            To reduce the overhead of data transfer, avoid returning large
+            arrays or tensors from this method. If you must return them,
+            make sure you move them to CPU first to avoid taking up additional
+            VRAM!
+        """
+        return self.llm_engine.apply_model(func)
+
+    def _get_beam_search_lora_requests(
+        self,
+        lora_request: list[LoRARequest] | LoRARequest | None,
+        prompts: list[TokensPrompt | TextPrompt],
+    ) -> list[LoRARequest | None]:
+        """Get the optional lora request corresponding to each prompt."""
+        if isinstance(lora_request, Sequence) and len(lora_request) != len(prompts):
+            raise ValueError(
+                "Lora request list should be the same length as the prompts"
+            )
+
+        if lora_request is None or isinstance(lora_request, LoRARequest):
+            return [lora_request] * len(prompts)
+
+        raise TypeError(f"Invalid lora_request type {type(lora_request)}")
+
+    def beam_search(
+        self,
+        prompts: list[TokensPrompt | TextPrompt],
+        params: BeamSearchParams,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+        use_tqdm: bool = False,
+        concurrency_limit: int | None = None,
+    ) -> list[BeamSearchOutput]:
+        """
+        Generate sequences using beam search.
+
+        Args:
+            prompts: A list of prompts. Each prompt can be a string or a list
+                of token IDs.
+            params: The beam search parameters.
+            lora_request: LoRA request to use for generation, if any.
+            use_tqdm: Whether to use tqdm to display the progress bar.
+            concurrency_limit: The maximum number of concurrent requests.
+                If None, the number of concurrent requests is unlimited.
+        """
+        # TODO: how does beam search work together with length penalty,
+        # frequency, penalty, and stopping criteria, etc.?
+        beam_width = params.beam_width
+        max_tokens = params.max_tokens
+        temperature = params.temperature
+        ignore_eos = params.ignore_eos
+        length_penalty = params.length_penalty
+
+        lora_requests = self._get_beam_search_lora_requests(lora_request, prompts)
+
+        tokenizer = self.get_tokenizer()
+        sort_beams_key = create_sort_beams_key_function(
+            tokenizer.eos_token_id,
+            length_penalty,
+        )
+
+        if use_tqdm and concurrency_limit is not None:
+            logger.warning(
+                "Progress bar is not supported when using concurrency_limit. "
+                "Disabling progress bar."
+            )
+            use_tqdm = False
+
+        if concurrency_limit is None:
+            concurrency_limit = len(prompts)
+
+        def create_tokens_prompt_from_beam(beam: BeamSearchSequence) -> TokensPrompt:
+            token_prompt_kwargs: TokensPrompt = {"prompt_token_ids": beam.tokens}
+            if beam.multi_modal_data is not None:
+                token_prompt_kwargs["multi_modal_data"] = beam.multi_modal_data
+
+            if beam.mm_processor_kwargs is not None:
+                token_prompt_kwargs["mm_processor_kwargs"] = beam.mm_processor_kwargs
+            return TokensPrompt(**token_prompt_kwargs)
+
+        # generate 2 * beam_width candidates at each step
+        # following the huggingface transformers implementation
+        # at https://github.com/huggingface/transformers/blob/e15687fffe5c9d20598a19aeab721ae0a7580f8a/src/transformers/generation/beam_search.py#L534 # noqa
+        beam_search_params = SamplingParams(
+            logprobs=2 * beam_width, max_tokens=1, temperature=temperature
+        )
+        instances: list[BeamSearchInstance] = []
+
+        for lora_req, prompt in zip(lora_requests, prompts):
+            # Add multimodal processor kwargs & data
+            mm_kwargs = {}
+            if "multi_modal_data" in prompt:
+                mm_kwargs["multi_modal_data"] = prompt["multi_modal_data"]
+            if "mm_processor_kwargs" in prompt:
+                mm_kwargs["mm_processor_kwargs"] = prompt["mm_processor_kwargs"]
+
+            if "prompt_token_ids" in prompt:
+                prompt = cast(TokensPrompt, prompt)  # Needed for mypy
+                prompt_tokens = prompt["prompt_token_ids"]
+            else:
+                prompt_tokens = tokenizer.encode(prompt["prompt"])
+
+            instances.append(
+                BeamSearchInstance(
+                    prompt_tokens,
+                    lora_request=lora_req,
+                    logprobs=None,
+                    **mm_kwargs,
+                ),
+            )
+
+        for prompt_start in range(0, len(prompts), concurrency_limit):
+            instances_batch = instances[prompt_start : prompt_start + concurrency_limit]
+
+            token_iter = range(max_tokens)
+            if use_tqdm:
+                token_iter = tqdm(
+                    token_iter, desc="Beam search", unit="token", unit_scale=False
+                )
+                logger.warning(
+                    "The progress bar shows the upper bound on token steps and "
+                    "may finish early due to stopping conditions. It does not "
+                    "reflect instance-level progress."
+                )
+            for _ in token_iter:
+                all_beams: list[BeamSearchSequence] = list(
+                    sum((instance.beams for instance in instances_batch), [])
+                )
+                pos = [0] + list(
+                    itertools.accumulate(
+                        len(instance.beams) for instance in instances_batch
+                    )
+                )
+                instance_start_and_end: list[tuple[int, int]] = list(
+                    zip(pos[:-1], pos[1:])
+                )
+
+                if len(all_beams) == 0:
+                    break
+
+                # create corresponding batch entries for prompt & optional lora
+                prompts_batch, lora_req_batch = zip(
+                    *[
+                        (create_tokens_prompt_from_beam(beam), beam.lora_request)
+                        for beam in all_beams
+                    ]
+                )
+
+                # only runs for one step
+                # we don't need to use tqdm here
+                output = self.generate(
+                    prompts_batch,
+                    sampling_params=beam_search_params,
+                    use_tqdm=False,
+                    lora_request=lora_req_batch,
+                )
+
+                for (start, end), instance in zip(
+                    instance_start_and_end, instances_batch
+                ):
+                    instance_new_beams = []
+                    for i in range(start, end):
+                        current_beam = all_beams[i]
+                        result = output[i]
+
+                        if result.outputs[0].logprobs is not None:
+                            # if `result.outputs[0].logprobs` is None, it means
+                            # the sequence is completed because of the
+                            # max-model-len or abortion. we don't need to add
+                            # it to the new beams.
+                            logprobs = result.outputs[0].logprobs[0]
+                            for token_id, logprob_obj in logprobs.items():
+                                new_beam = BeamSearchSequence(
+                                    tokens=current_beam.tokens + [token_id],
+                                    logprobs=current_beam.logprobs + [logprobs],
+                                    lora_request=current_beam.lora_request,
+                                    cum_logprob=current_beam.cum_logprob
+                                    + logprob_obj.logprob,
+                                    multi_modal_data=current_beam.multi_modal_data,
+                                    mm_processor_kwargs=current_beam.mm_processor_kwargs,
+                                )
+
+                                if (
+                                    token_id == tokenizer.eos_token_id
+                                    and not ignore_eos
+                                ):
+                                    instance.completed.append(new_beam)
+                                else:
+                                    instance_new_beams.append(new_beam)
+                    sorted_beams = sorted(
+                        instance_new_beams, key=sort_beams_key, reverse=True
+                    )
+                    instance.beams = sorted_beams[:beam_width]
+
+        outputs = []
+        for instance in instances:
+            instance.completed.extend(instance.beams)
+            sorted_completed = sorted(
+                instance.completed, key=sort_beams_key, reverse=True
+            )
+            best_beams = sorted_completed[:beam_width]
+
+            for beam in best_beams:
+                beam.text = tokenizer.decode(beam.tokens)
+            outputs.append(BeamSearchOutput(sequences=best_beams))
+
+        return outputs
+
+    def preprocess_chat(
+        self,
+        messages: list[ChatCompletionMessageParam]
+        | list[list[ChatCompletionMessageParam]],
+        chat_template: str | None = None,
+        chat_template_content_format: ChatTemplateContentFormatOption = "auto",
+        add_generation_prompt: bool = True,
+        continue_final_message: bool = False,
+        tools: list[dict[str, Any]] | None = None,
+        chat_template_kwargs: dict[str, Any] | None = None,
+        mm_processor_kwargs: dict[str, Any] | None = None,
+    ) -> list[TokensPrompt]:
+        """
+        Generate prompt for a chat conversation. The pre-processed
+        prompt can then be used as input for the other LLM methods.
+
+        Refer to `chat` for a complete description of the arguments.
+        Returns:
+            A list of `TokensPrompts` objects containing the tokenized
+            prompt after chat template interpolation, and the
+            pre-processed multi-modal inputs.
+        """
+        list_of_messages: list[list[ChatCompletionMessageParam]]
+
+        # Handle multi and single conversations
+        if is_list_of(messages, list):
+            # messages is list[list[...]]
+            list_of_messages = cast(list[list[ChatCompletionMessageParam]], messages)
+        else:
+            # messages is list[...]
+            list_of_messages = [cast(list[ChatCompletionMessageParam], messages)]
+
+        tokenizer = self.get_tokenizer()
+        model_config = self.model_config
+        resolved_content_format = resolve_chat_template_content_format(
+            chat_template,
+            tools,
+            chat_template_content_format,
+            tokenizer,
+            model_config=model_config,
+        )
+
+        _chat_template_kwargs: dict[str, Any] = dict(
+            chat_template=chat_template,
+            add_generation_prompt=add_generation_prompt,
+            continue_final_message=continue_final_message,
+            tools=tools,
+        )
+        _chat_template_kwargs.update(chat_template_kwargs or {})
+
+        prompts: list[TokensPrompt] = []
+
+        for msgs in list_of_messages:
+            # NOTE: _parse_chat_message_content_parts() currently doesn't
+            # handle mm_processor_kwargs, since there is no implementation in
+            # the chat message parsing for it.
+            conversation, mm_data, mm_uuids = parse_chat_messages(
+                msgs,
+                model_config,
+                tokenizer,
+                content_format=resolved_content_format,
+            )
+
+            if isinstance(tokenizer, MistralTokenizer):
+                prompt_token_ids = apply_mistral_chat_template(
+                    tokenizer,
+                    messages=msgs,
+                    **_chat_template_kwargs,
+                )
+            else:
+                prompt_str = apply_hf_chat_template(
+                    tokenizer=tokenizer,
+                    conversation=conversation,
+                    model_config=model_config,
+                    **_chat_template_kwargs,
+                )
+                # Special tokens are already included in chat templates so
+                # should not be added by the tokenizer in this case.
+                prompt_token_ids = tokenizer.encode(
+                    prompt_str, add_special_tokens=False
+                )
+
+            prompt = TokensPrompt(prompt_token_ids=prompt_token_ids)
+
+            if mm_data is not None:
+                prompt["multi_modal_data"] = mm_data
+
+            if mm_uuids is not None:
+                prompt["multi_modal_uuids"] = mm_uuids
+
+            if mm_processor_kwargs is not None:
+                prompt["mm_processor_kwargs"] = mm_processor_kwargs
+
+            prompts.append(prompt)
+
+        return prompts
+
+    def chat(
+        self,
+        messages: list[ChatCompletionMessageParam]
+        | list[list[ChatCompletionMessageParam]],
+        sampling_params: SamplingParams | list[SamplingParams] | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        lora_request: LoRARequest | None = None,
+        chat_template: str | None = None,
+        chat_template_content_format: ChatTemplateContentFormatOption = "auto",
+        add_generation_prompt: bool = True,
+        continue_final_message: bool = False,
+        tools: list[dict[str, Any]] | None = None,
+        chat_template_kwargs: dict[str, Any] | None = None,
+        mm_processor_kwargs: dict[str, Any] | None = None,
+    ) -> list[RequestOutput]:
+        """
+        Generate responses for a chat conversation.
+
+        The chat conversation is converted into a text prompt using the
+        tokenizer and calls the [generate][vllm.LLM.generate] method to generate
+        the responses.
+
+        Multi-modal inputs can be passed in the same way you would pass them
+        to the OpenAI API.
+
+        Args:
+            messages: A list of conversations or a single conversation.
+
+                - Each conversation is represented as a list of messages.
+                - Each message is a dictionary with 'role' and 'content' keys.
+
+            sampling_params: The sampling parameters for text generation.
+                If None, we use the default sampling parameters. When it
+                is a single value, it is applied to every prompt. When it
+                is a list, the list must have the same length as the
+                prompts and it is paired one by one with the prompt.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            chat_template: The template to use for structuring the chat.
+                If not provided, the model's default chat template will be used.
+            chat_template_content_format: The format to render message content.
+
+                - "string" will render the content as a string.
+                  Example: `"Who are you?"`
+                - "openai" will render the content as a list of dictionaries,
+                  similar to OpenAI schema.
+                  Example: `[{"type": "text", "text": "Who are you?"}]`
+
+            add_generation_prompt: If True, adds a generation template
+                to each message.
+            continue_final_message: If True, continues the final message in
+                the conversation instead of starting a new one. Cannot be
+                `True` if `add_generation_prompt` is also `True`.
+            chat_template_kwargs: Additional kwargs to pass to the chat
+                template.
+            mm_processor_kwargs: Multimodal processor kwarg overrides for this
+                chat request. Only used for offline requests.
+
+        Returns:
+            A list of `RequestOutput` objects containing the generated
+            responses in the same order as the input messages.
+        """
+
+        prompts = self.preprocess_chat(
+            messages=messages,
+            chat_template=chat_template,
+            chat_template_content_format=chat_template_content_format,
+            add_generation_prompt=add_generation_prompt,
+            continue_final_message=continue_final_message,
+            tools=tools,
+            chat_template_kwargs=chat_template_kwargs,
+            mm_processor_kwargs=mm_processor_kwargs,
+        )
+
+        return self.generate(
+            prompts,
+            sampling_params=sampling_params,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+        )
+
+    def encode(
+        self,
+        prompts: PromptType | Sequence[PromptType] | DataPrompt,
+        pooling_params: PoolingParams | Sequence[PoolingParams] | None = None,
+        *,
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+        pooling_task: PoolingTask | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+    ) -> list[PoolingRequestOutput]:
+        """Apply pooling to the hidden states corresponding to the input
+        prompts.
+
+        This class automatically batches the given prompts, considering
+        the memory constraint. For the best performance, put all of your prompts
+        into a single list and pass it to this method.
+
+        Args:
+            prompts: The prompts to the LLM. You may pass a sequence of prompts
+                for batch inference. See [PromptType][vllm.inputs.PromptType]
+                for more details about the format of each prompt.
+            pooling_params: The pooling parameters for pooling. If None, we
+                use the default pooling parameters.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            pooling_task: Override the pooling task to use.
+            tokenization_kwargs: overrides tokenization_kwargs set in
+                pooling_params
+
+        Returns:
+            A list of `PoolingRequestOutput` objects containing the
+            pooled hidden states in the same order as the input prompts.
+
+        Note:
+            Using `prompts` and `prompt_token_ids` as keyword parameters is
+            considered legacy and may be deprecated in the future. You should
+            instead pass them via the `inputs` parameter.
+        """
+
+        error_str = (
+            "pooling_task required for `LLM.encode`\n"
+            "Please use one of the more specific methods or set the "
+            "pooling_task when using `LLM.encode`:\n"
+            "  - For embeddings, use `LLM.embed(...)` "
+            'or `pooling_task="embed"`.\n'
+            "  - For classification logits, use `LLM.classify(...)` "
+            'or `pooling_task="classify"`.\n'
+            "  - For similarity scores, use `LLM.score(...)`.\n"
+            "  - For rewards, use `LLM.reward(...)` "
+            'or `pooling_task="token_classify"`\n'
+            "  - For token classification, "
+            'use `pooling_task="token_classify"`\n'
+            '  - For multi-vector retrieval, use `pooling_task="token_embed"`'
+        )
+
+        if pooling_task is None:
+            raise ValueError(error_str)
+
+        model_config = self.model_config
+        runner_type = model_config.runner_type
+        if runner_type != "pooling":
+            raise ValueError(
+                "LLM.encode() is only supported for pooling models. "
+                "Try passing `--runner pooling` to use the model as a "
+                "pooling model."
+            )
+
+        io_processor_prompt = False
+        if isinstance(prompts, dict) and "data" in prompts:
+            io_processor_prompt = True
+            if self.io_processor is None:
+                raise ValueError(
+                    "No IOProcessor plugin installed. Please refer "
+                    "to the documentation and to the "
+                    "'prithvi_geospatial_mae_io_processor' "
+                    "offline inference example for more details."
+                )
+
+            # Validate the request data is valid for the loaded plugin
+            validated_prompt = self.io_processor.parse_request(prompts)
+
+            # obtain the actual model prompts from the pre-processor
+            prompts = self.io_processor.pre_process(prompt=validated_prompt)
+
+        if io_processor_prompt:
+            assert self.io_processor is not None
+            if is_list_of(pooling_params, PoolingParams):
+                validated_pooling_params: list[PoolingParams] = []
+                for param in as_iter(pooling_params):
+                    validated_pooling_params.append(
+                        self.io_processor.validate_or_generate_params(param)
+                    )
+                pooling_params = validated_pooling_params
+            else:
+                assert not isinstance(pooling_params, Sequence)
+                pooling_params = self.io_processor.validate_or_generate_params(
+                    pooling_params
+                )
+        else:
+            if pooling_params is None:
+                # Use default pooling params.
+                pooling_params = PoolingParams()
+
+        if pooling_task not in self.supported_tasks:
+            raise ValueError(f"pooling_task must be one of {self.supported_tasks}.")
+
+        for param in as_iter(pooling_params):
+            param.verify(pooling_task, model_config)
+            # for backwards compatibility
+            if truncate_prompt_tokens is not None:
+                param.truncate_prompt_tokens = truncate_prompt_tokens
+
+        self._validate_and_add_requests(
+            prompts=prompts,
+            params=pooling_params,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+        )
+
+        outputs = self._run_engine(use_tqdm=use_tqdm)
+
+        model_outputs = self.engine_class.validate_outputs(
+            outputs, PoolingRequestOutput
+        )
+
+        if io_processor_prompt:
+            # get the post-processed model outputs
+            assert self.io_processor is not None
+            processed_outputs = self.io_processor.post_process(
+                model_output=model_outputs
+            )
+
+            return [
+                PoolingRequestOutput[Any](
+                    request_id="",
+                    outputs=processed_outputs,
+                    num_cached_tokens=getattr(
+                        processed_outputs, "num_cached_tokens", 0
+                    ),
+                    prompt_token_ids=[],
+                    finished=True,
+                )
+            ]
+        else:
+            return model_outputs
+
+    def embed(
+        self,
+        prompts: PromptType | Sequence[PromptType],
+        *,
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | Sequence[PoolingParams] | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[EmbeddingRequestOutput]:
+        """
+        Generate an embedding vector for each prompt.
+
+        This class automatically batches the given prompts, considering
+        the memory constraint. For the best performance, put all of your prompts
+        into a single list and pass it to this method.
+
+        Args:
+            prompts: The prompts to the LLM. You may pass a sequence of prompts
+                for batch inference. See [PromptType][vllm.inputs.PromptType]
+                for more details about the format of each prompt.
+            pooling_params: The pooling parameters for pooling. If None, we
+                use the default pooling parameters.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+
+        Returns:
+            A list of `EmbeddingRequestOutput` objects containing the
+            embedding vectors in the same order as the input prompts.
+        """
+        if "embed" not in self.supported_tasks:
+            raise ValueError(
+                "Embedding API is not supported by this model. "
+                "Try converting the model using `--convert embed`."
+            )
+
+        items = self.encode(
+            prompts,
+            truncate_prompt_tokens=truncate_prompt_tokens,
+            use_tqdm=use_tqdm,
+            pooling_params=pooling_params,
+            lora_request=lora_request,
+            pooling_task="embed",
+        )
+
+        return [EmbeddingRequestOutput.from_base(item) for item in items]
+
+    def classify(
+        self,
+        prompts: PromptType | Sequence[PromptType],
+        *,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | Sequence[PoolingParams] | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[ClassificationRequestOutput]:
+        """
+        Generate class logits for each prompt.
+
+        This class automatically batches the given prompts, considering
+        the memory constraint. For the best performance, put all of your prompts
+        into a single list and pass it to this method.
+
+        Args:
+            prompts: The prompts to the LLM. You may pass a sequence of prompts
+                for batch inference. See [PromptType][vllm.inputs.PromptType]
+                for more details about the format of each prompt.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            pooling_params: The pooling parameters for pooling. If None, we
+                use the default pooling parameters.
+        Returns:
+            A list of `ClassificationRequestOutput` objects containing the
+            embedding vectors in the same order as the input prompts.
+        """
+        if "classify" not in self.supported_tasks:
+            raise ValueError(
+                "Classification API is not supported by this model. "
+                "Try converting the model using `--convert classify`."
+            )
+
+        items = self.encode(
+            prompts,
+            use_tqdm=use_tqdm,
+            pooling_params=pooling_params,
+            lora_request=lora_request,
+            pooling_task="classify",
+        )
+
+        return [ClassificationRequestOutput.from_base(item) for item in items]
+
+    def reward(
+        self,
+        prompts: PromptType | Sequence[PromptType],
+        /,
+        *,
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | Sequence[PoolingParams] | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[PoolingRequestOutput]:
+        """
+        Generate rewards for each prompt.
+
+        Args:
+            prompts: The prompts to the LLM. You may pass a sequence of prompts
+                for batch inference. See [PromptType][vllm.inputs.PromptType]
+                for more details about the format of each prompt.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            pooling_params: The pooling parameters for pooling. If None, we
+                use the default pooling parameters.
+        Returns:
+            A list of `PoolingRequestOutput` objects containing the
+            pooled hidden states in the same order as the input prompts.
+        """
+
+        return self.encode(
+            prompts,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+            pooling_params=pooling_params,
+            truncate_prompt_tokens=truncate_prompt_tokens,
+            pooling_task="token_classify",
+        )
+
+    def _embedding_score(
+        self,
+        tokenizer: AnyTokenizer,
+        text_1: list[str | TextPrompt | TokensPrompt],
+        text_2: list[str | TextPrompt | TokensPrompt],
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[ScoringRequestOutput]:
+        encoded_output: list[PoolingRequestOutput] = self.encode(
+            text_1 + text_2,
+            truncate_prompt_tokens=truncate_prompt_tokens,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+            pooling_params=pooling_params,
+            pooling_task="embed",
+        )
+
+        encoded_output_1: list[PoolingRequestOutput] = encoded_output[0 : len(text_1)]
+        encoded_output_2: list[PoolingRequestOutput] = encoded_output[len(text_1) :]
+
+        if len(encoded_output_1) == 1:
+            encoded_output_1 = encoded_output_1 * len(encoded_output_2)
+
+        scores = _cosine_similarity(
+            tokenizer=tokenizer, embed_1=encoded_output_1, embed_2=encoded_output_2
+        )
+
+        items = self.engine_class.validate_outputs(scores, PoolingRequestOutput)
+        return [ScoringRequestOutput.from_base(item) for item in items]
+
+    def _cross_encoding_score(
+        self,
+        tokenizer: AnyTokenizer,
+        data_1: list[str] | list[ScoreContentPartParam],
+        data_2: list[str] | list[ScoreContentPartParam],
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[ScoringRequestOutput]:
+        model_config = self.model_config
+
+        if isinstance(tokenizer, MistralTokenizer):
+            raise ValueError("Score API is not supported for Mistral tokenizer")
+
+        if len(data_1) == 1:
+            data_1 = data_1 * len(data_2)
+
+        if pooling_params is None:
+            pooling_params = PoolingParams(task="score")
+
+        pooling_params.verify("score", model_config)
+        pooling_params_list = list[PoolingParams]()
+
+        tokenization_kwargs: dict[str, Any] = {}
+
+        _validate_truncation_size(
+            model_config.max_model_len, truncate_prompt_tokens, tokenization_kwargs
+        )
+
+        prompts = list[PromptType]()
+
+        input_pairs = [(t1, t2) for t1, t2 in zip(data_1, data_2)]
+
+        for q, d in input_pairs:
+            _, engine_prompt = get_score_prompt(
+                model_config=model_config,
+                data_1=q,
+                data_2=d,
+                tokenizer=tokenizer,
+                tokenization_kwargs=tokenization_kwargs,
+            )
+
+            if token_type_ids := engine_prompt.pop("token_type_ids", None):
+                params = pooling_params.clone()
+                compressed = compress_token_type_ids(token_type_ids)
+                params.extra_kwargs = {"compressed_token_type_ids": compressed}
+                pooling_params_list.append(params)
+            else:
+                pooling_params_list.append(pooling_params)
+
+            prompts.append(engine_prompt)
+
+        self._validate_and_add_requests(
+            prompts=prompts,
+            params=pooling_params_list,
+            use_tqdm=use_tqdm,
+            lora_request=lora_request,
+        )
+
+        outputs = self._run_engine(use_tqdm=use_tqdm)
+        items = self.engine_class.validate_outputs(outputs, PoolingRequestOutput)
+
+        return [ScoringRequestOutput.from_base(item) for item in items]
+
+    def score(
+        self,
+        data_1: SingletonPrompt | Sequence[SingletonPrompt] | ScoreMultiModalParam,
+        data_2: SingletonPrompt | Sequence[SingletonPrompt] | ScoreMultiModalParam,
+        /,
+        *,
+        truncate_prompt_tokens: int | None = None,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        pooling_params: PoolingParams | None = None,
+        lora_request: list[LoRARequest] | LoRARequest | None = None,
+    ) -> list[ScoringRequestOutput]:
+        """Generate similarity scores for all pairs `<text,text_pair>` or
+          `<multi-modal data, multi-modal data pair>`.
+
+        The inputs can be `1 -> 1`, `1 -> N` or `N -> N`.
+        In the `1 - N` case the `data_1` input will be replicated `N`
+        times to pair with the `data_2` inputs.
+        The input pairs are used to build a list of prompts for the
+        cross encoder model. This class automatically batches the prompts,
+        considering the memory constraint. For the best performance, put all
+        of your inputs into a single list and pass it to this method.
+
+        Supports both text and multi-modal data (images, etc.) when used with
+        appropriate multi-modal models. For multi-modal inputs, ensure the
+        prompt structure matches the model's expected input format.
+
+        Args:
+            data_1: Can be a single prompt, a list of prompts or
+                `ScoreMultiModalParam`, which can contain either text or
+                multi-modal data. When a list, it must have the same length as
+                the `data_2` list.
+            data_2: The data to pair with the query to form the input to
+                the LLM. Can be text or multi-modal data. See [PromptType]
+                [vllm.inputs.PromptType] for more details about the format of
+                each prompt.
+            use_tqdm: If `True`, shows a tqdm progress bar.
+                If a callable (e.g., `functools.partial(tqdm, leave=False)`),
+                it is used to create the progress bar.
+                If `False`, no progress bar is created.
+            lora_request: LoRA request to use for generation, if any.
+            pooling_params: The pooling parameters for pooling. If None, we
+                use the default pooling parameters.
+        Returns:
+            A list of `ScoringRequestOutput` objects containing the
+            generated scores in the same order as the input prompts.
+        """
+        model_config = self.model_config
+        runner_type = model_config.runner_type
+        if runner_type != "pooling":
+            raise ValueError(
+                "LLM.score() is only supported for pooling models. "
+                "Try passing `--runner pooling` to use the model as a "
+                "pooling model."
+            )
+
+        supported_tasks = self.supported_tasks
+        if all(t not in supported_tasks for t in ("embed", "classify")):
+            raise ValueError(
+                "Score API is not supported by this model. "
+                "Try converting the model using "
+                "`--convert embed` or `--convert classify`."
+            )
+
+        if (
+            model_config.is_cross_encoder
+            and getattr(model_config.hf_config, "num_labels", 0) != 1
+        ):
+            raise ValueError("Score API is only enabled for num_labels == 1.")
+
+        # the tokenizer for models such as
+        # "cross-encoder/ms-marco-MiniLM-L-6-v2" doesn't support passing
+        # lists of tokens to the `text` and `text_pair` kwargs
+        tokenizer = self.get_tokenizer()
+
+        if not model_config.is_multimodal_model:
+
+            def check_data_type(
+                data: SingletonPrompt
+                | Sequence[SingletonPrompt]
+                | ScoreMultiModalParam,
+            ):
+                if isinstance(data, dict) and "content" in data:
+                    raise ValueError(
+                        "ScoreMultiModalParam is not supported "
+                        f"for {model_config.architecture}"
+                    )
+
+            check_data_type(data_1)
+            check_data_type(data_2)
+
+            def ensure_str(prompt: SingletonPrompt):
+                if isinstance(prompt, dict):
+                    if "multi_modal_data" in prompt:
+                        raise ValueError(
+                            "Multi-modal prompt is not supported for scoring"
+                        )
+                    elif "prompt_token_ids" in prompt:
+                        prompt = tokenizer.decode(
+                            cast(TokensPrompt, prompt)["prompt_token_ids"]
+                        )
+                    elif "prompt" in prompt:
+                        prompt = cast(TextPrompt, prompt)["prompt"]
+                assert type(prompt) is str
+                return prompt
+
+            if isinstance(data_1, (str, dict)):
+                # Convert a single prompt to a list.
+                data_1 = [data_1]  # type: ignore[list-item]
+
+            data_1 = [ensure_str(t) for t in data_1]
+
+            if isinstance(data_2, (str, dict)):
+                # Convert a single prompt to a list.
+                data_2 = [data_2]  # type: ignore[list-item]
+
+            data_2 = [ensure_str(t) for t in data_2]
+
+        if isinstance(data_1, dict) and "content" in data_1:
+            data_1 = data_1.get("content")  # type: ignore[assignment]
+        elif isinstance(data_1, str):
+            data_1 = [data_1]
+
+        if isinstance(data_2, dict) and "content" in data_2:
+            data_2 = data_2.get("content")  # type: ignore[assignment]
+        elif isinstance(data_2, str):
+            data_2 = [data_2]
+
+        _validate_score_input_lens(data_1, data_2)  # type: ignore[arg-type]
+
+        if model_config.is_cross_encoder:
+            return self._cross_encoding_score(
+                tokenizer,
+                data_1,  # type: ignore[arg-type]
+                data_2,  # type: ignore[arg-type]
+                truncate_prompt_tokens,
+                use_tqdm,
+                pooling_params,
+                lora_request,
+            )
+        else:
+            return self._embedding_score(
+                tokenizer,
+                data_1,  # type: ignore[arg-type]
+                data_2,  # type: ignore[arg-type]
+                truncate_prompt_tokens,
+                use_tqdm,
+                pooling_params,
+                lora_request,
+            )
+
+    def start_profile(self) -> None:
+        self.llm_engine.start_profile()
+
+    def stop_profile(self) -> None:
+        self.llm_engine.stop_profile()
+
+    def reset_prefix_cache(self) -> None:
+        self.llm_engine.reset_prefix_cache()
+
+    def sleep(self, level: int = 1):
+        """
+        Put the engine to sleep. The engine should not process any requests.
+        The caller should guarantee that no requests are being processed
+        during the sleep period, before `wake_up` is called.
+
+        Args:
+            level: The sleep level. Level 1 sleep will offload the model
+                weights and discard the kv cache. The content of kv cache
+                is forgotten. Level 1 sleep is good for sleeping and waking
+                up the engine to run the same model again. The model weights
+                are backed up in CPU memory. Please make sure there's enough
+                CPU memory to store the model weights. Level 2 sleep will
+                discard both the model weights and the kv cache. The content
+                of both the model weights and kv cache is forgotten. Level 2
+                sleep is good for sleeping and waking up the engine to run a
+                different model or update the model, where previous model
+                weights are not needed. It reduces CPU memory pressure.
+        """
+        self.reset_prefix_cache()
+        self.llm_engine.sleep(level=level)
+
+    def wake_up(self, tags: list[str] | None = None):
+        """
+        Wake up the engine from sleep mode. See the [sleep][vllm.LLM.sleep]
+        method for more details.
+
+        Args:
+            tags: An optional list of tags to reallocate the engine memory
+                for specific memory allocations. Values must be in
+                `("weights", "kv_cache")`. If None, all memory is reallocated.
+                wake_up should be called with all tags (or None) before the
+                engine is used again.
+        """
+        self.llm_engine.wake_up(tags)
+
+    def get_metrics(self) -> list["Metric"]:
+        """Return a snapshot of aggregated metrics from Prometheus.
+
+        Returns:
+            A `MetricSnapshot` instance capturing the current state
+            of all aggregated metrics from Prometheus.
+
+        Note:
+            This method is only available with the V1 LLM engine.
+        """
+        return self.llm_engine.get_metrics()
+
+    def _validate_and_add_requests(
+        self,
+        prompts: PromptType | Sequence[PromptType] | DataPrompt,
+        params: SamplingParams
+        | Sequence[SamplingParams]
+        | PoolingParams
+        | Sequence[PoolingParams],
+        *,
+        use_tqdm: bool | Callable[..., tqdm] = True,
+        lora_request: Sequence[LoRARequest] | LoRARequest | None,
+        priority: list[int] | None = None,
+    ) -> None:
+        if isinstance(prompts, (str, dict)):
+            # Convert a single prompt to a list.
+            prompts = [prompts]  # type: ignore[list-item]
+
+        num_requests = len(prompts)
+        if isinstance(params, Sequence) and len(params) != num_requests:
+            raise ValueError("The lengths of prompts and params must be the same.")
+        if isinstance(lora_request, Sequence) and len(lora_request) != num_requests:
+            raise ValueError(
+                "The lengths of prompts and lora_request must be the same."
+            )
+        if priority is not None and len(priority) != num_requests:
+            raise ValueError(
+                "The lengths of prompts "
+                f"({num_requests}) and priority ({len(priority)}) "
+                "must be the same."
+            )
+
+        for sp in params if isinstance(params, Sequence) else (params,):
+            if isinstance(sp, SamplingParams):
+                # We only care about the final output
+                sp.output_kind = RequestOutputKind.FINAL_ONLY
+
+        # Add requests to the engine.
+        it = prompts
+        if use_tqdm:
+            tqdm_func = use_tqdm if callable(use_tqdm) else tqdm
+            it = tqdm_func(it, desc="Adding requests")
+
+        added_request_ids: list[str] = []
+
+        try:
+            for i, prompt in enumerate(it):
+                if isinstance(prompt, dict):
+                    self._validate_mm_data_and_uuids(
+                        prompt.get("multi_modal_data"), prompt.get("multi_modal_uuids")
+                    )
+                request_id = self._add_request(
+                    prompt,
+                    params[i] if isinstance(params, Sequence) else params,
+                    lora_request=lora_request[i]
+                    if isinstance(lora_request, Sequence)
+                    else lora_request,
+                    priority=priority[i] if priority else 0,
+                )
+                added_request_ids.append(request_id)
+        except Exception as e:
+            if added_request_ids:
+                self.llm_engine.abort_request(added_request_ids)
+            raise e
+
+    def _validate_mm_data_and_uuids(
+        self,
+        multi_modal_data: Any | None,  # MultiModalDataDict
+        multi_modal_uuids: Any | None,  # MultiModalUUIDDict
+    ):
+        """
+        Validate that if any multi-modal data is skipped (i.e. None),
+        then its corresponding UUID must be set.
+        """
+        if multi_modal_data is None:
+            return
+
+        for modality, data in multi_modal_data.items():
+            if isinstance(data, list):
+                for i, d in enumerate(data):
+                    if d is None:
+                        if (
+                            multi_modal_uuids is None
+                            or modality not in multi_modal_uuids
+                            or multi_modal_uuids[  # noqa: E501
+                                modality
+                            ]
+                            is None
+                        ):
+                            raise ValueError(
+                                f"Multi-modal data for {modality} is None "
+                                f"but UUID is not provided"
+                            )
+                        else:
+                            if (
+                                len(multi_modal_uuids[modality]) <= i
+                                or multi_modal_uuids[modality][i] is None
+                            ):
+                                raise ValueError(
+                                    f"Multi-modal data for {modality} is None "
+                                    f"but UUID is not provided"
+                                )
+            else:
+                if data is None and (
+                    multi_modal_uuids is None
+                    or modality not in multi_modal_uuids
+                    or multi_modal_uuids[modality] is None
+                ):
+                    raise ValueError(
+                        f"Multi-modal data for {modality} is None"
+                        f" but UUID is not provided"
+                    )
+
+    def _process_inputs(
+        self,
+        request_id: str,
+        engine_prompt: PromptType,
+        params: SamplingParams | PoolingParams,
+        *,
+        lora_request: LoRARequest | None,
+        priority: int,
+    ) -> tuple[EngineCoreRequest, dict[str, Any]]:
+        """Use the Processor to process inputs for LLMEngine."""
+        tokenization_kwargs: dict[str, Any] = {}
+        _validate_truncation_size(
+            self.model_config.max_model_len,
+            params.truncate_prompt_tokens,
+            tokenization_kwargs,
+        )
+
+        engine_request = self.processor.process_inputs(
+            request_id,
+            engine_prompt,
+            params,
+            lora_request=lora_request,
+            tokenization_kwargs=tokenization_kwargs,
+            priority=priority,
+        )
+        return engine_request, tokenization_kwargs
+
+    def _add_request(
+        self,
+        prompt: PromptType,
+        params: SamplingParams | PoolingParams,
+        lora_request: LoRARequest | None = None,
+        priority: int = 0,
+    ) -> str:
+        prompt_text, _, _ = get_prompt_components(prompt)
+        request_id = str(next(self.request_counter))
+
+        engine_request, tokenization_kwargs = self._process_inputs(
+            request_id,
+            prompt,
+            params,
+            lora_request=lora_request,
+            priority=priority,
+        )
+
+        self.llm_engine.add_request(
+            request_id,
+            engine_request,
+            params,
+            lora_request=lora_request,
+            tokenization_kwargs=tokenization_kwargs,
+            priority=priority,
+            prompt_text=prompt_text,
+        )
+        return request_id
+
+    def _run_engine(
+        self, *, use_tqdm: bool | Callable[..., tqdm] = True
+    ) -> list[RequestOutput | PoolingRequestOutput]:
+        # Initialize tqdm.
+        if use_tqdm:
+            num_requests = self.llm_engine.get_num_unfinished_requests()
+            tqdm_func = use_tqdm if callable(use_tqdm) else tqdm
+            pbar = tqdm_func(
+                total=num_requests,
+                desc="Processed prompts",
+                dynamic_ncols=True,
+                postfix=(f"est. speed input: {0:.2f} toks/s, output: {0:.2f} toks/s"),
+            )
+
+        # Run the engine.
+        outputs: list[RequestOutput | PoolingRequestOutput] = []
+        total_in_toks = 0
+        total_out_toks = 0
+        while self.llm_engine.has_unfinished_requests():
+            step_outputs = self.llm_engine.step()
+            for output in step_outputs:
+                if output.finished:
+                    outputs.append(output)
+                    if use_tqdm:
+                        if isinstance(output, RequestOutput):
+                            # Calculate tokens only for RequestOutput
+                            n = len(output.outputs)
+                            assert output.prompt_token_ids is not None
+                            total_in_toks += len(output.prompt_token_ids) * n
+                            in_spd = total_in_toks / pbar.format_dict["elapsed"]
+                            total_out_toks += sum(
+                                len(stp.token_ids) for stp in output.outputs
+                            )
+                            out_spd = total_out_toks / pbar.format_dict["elapsed"]
+                            pbar.postfix = (
+                                f"est. speed input: {in_spd:.2f} toks/s, "
+                                f"output: {out_spd:.2f} toks/s"
+                            )
+                            pbar.update(n)
+                        else:
+                            pbar.update(1)
+                        if pbar.n == num_requests:
+                            pbar.refresh()
+
+        if use_tqdm:
+            pbar.close()
+        # Sort the outputs by request ID.
+        # This is necessary because some requests may be finished earlier than
+        # its previous requests.
+        return sorted(outputs, key=lambda x: int(x.request_id))
diff --git a/entrypoints/logger.py b/entrypoints/logger.py
new file mode 100644
index 0000000..678a7b3
--- /dev/null
+++ b/entrypoints/logger.py
@@ -0,0 +1,84 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import BeamSearchParams, SamplingParams
+
+logger = init_logger(__name__)
+
+
+class RequestLogger:
+    def __init__(self, *, max_log_len: int | None) -> None:
+        self.max_log_len = max_log_len
+
+    def log_inputs(
+        self,
+        request_id: str,
+        prompt: str | None,
+        prompt_token_ids: list[int] | None,
+        prompt_embeds: torch.Tensor | None,
+        params: SamplingParams | PoolingParams | BeamSearchParams | None,
+        lora_request: LoRARequest | None,
+    ) -> None:
+        max_log_len = self.max_log_len
+        if max_log_len is not None:
+            if prompt is not None:
+                prompt = prompt[:max_log_len]
+
+            if prompt_token_ids is not None:
+                prompt_token_ids = prompt_token_ids[:max_log_len]
+
+        logger.debug(
+            "Request %s details: prompt: %r, "
+            "prompt_token_ids: %s, "
+            "prompt_embeds shape: %s.",
+            request_id,
+            prompt,
+            prompt_token_ids,
+            prompt_embeds.shape if prompt_embeds is not None else None,
+        )
+
+        logger.info(
+            "Received request %s: params: %s, lora_request: %s.",
+            request_id,
+            params,
+            lora_request,
+        )
+
+    def log_outputs(
+        self,
+        request_id: str,
+        outputs: str,
+        output_token_ids: Sequence[int] | None,
+        finish_reason: str | None = None,
+        is_streaming: bool = False,
+        delta: bool = False,
+    ) -> None:
+        max_log_len = self.max_log_len
+        if max_log_len is not None:
+            if outputs is not None:
+                outputs = outputs[:max_log_len]
+
+            if output_token_ids is not None:
+                # Convert to list and apply truncation
+                output_token_ids = list(output_token_ids)[:max_log_len]
+
+        stream_info = ""
+        if is_streaming:
+            stream_info = " (streaming delta)" if delta else " (streaming complete)"
+
+        logger.info(
+            "Generated response %s%s: output: %r, "
+            "output_token_ids: %s, finish_reason: %s",
+            request_id,
+            stream_info,
+            outputs,
+            output_token_ids,
+            finish_reason,
+        )
diff --git a/entrypoints/openai/__init__.py b/entrypoints/openai/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/entrypoints/openai/__pycache__/__init__.cpython-312.pyc b/entrypoints/openai/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1325b804ade59c6bb5ce65a48f349c7d0908e20e
GIT binary patch
literal 168
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVx$BqY7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#v9l@wJL<Y(rU6zk^~q~;}N>c_`t
p=4F<|$LkeT-r}&y%}*)KNwq6t1)9qU#Kj=SM`lJw#v*1Q3jllNDf$2a

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/api_server.cpython-312.pyc b/entrypoints/openai/__pycache__/api_server.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..85e6bde2a661442e76a9317a65b33b021ff20c79
GIT binary patch
literal 90943
zcmeFa31C#$eJ_0P%$;4*Xc_GSMo55$MM7+1vB5$TAPfQ{yiMXvgzg0fW+ZZF1ZXTA
zjGaWpPK>jG8>hyJo8Xu<%39K-tueTDlP)ui(ov?gkA8Jto3DM}Qv!XqabDl|`=7hb
zj7FG16FaZHpgZTDef{s}oF5eyIypQc;fY{TBhURKeP~ai>bUwTFUOta?&U;I<U^ca
z`Q`mQ`!@Ma?APo!vtPk4uwRSc!hWq`o8QJOY3zPG^K<we?APgcvR{|q#eNI?1?;!b
zUx;5*s3`3AyIERus5o5WFA10WOT%UUvarYRVg5p>JY3<gU~WsOGF;`aVs2}wI$Yzg
z3D^2-!*%{T=EsL-glGC^scx^|%gU<v*R$W*{s#8j=x@ZYEi@-Q*FQHr&p$8R<ZlZ5
z{J!vf|NQU*|AO#B|3a3BJ+vs?>~CgnN2n#d*uR*$ouSt7691C$QvcHMGXFB>=L&hl
z%l*rlyCAe8+~#j%?!wT@@GAc*<}M1Y4zKaA3E$zrBYda-&hT3QTITN#tqb4fzl*tx
zL+#=9{`KJwe@D2}-x==mcZE0jH?Xjh(8lm4|0d?<L*3!c{>{u?8oE2Y#lMBQ%R*bj
zJ^mi%_Jp>DxBIs<cX{ZZ@DBfuaIe2Nywkrke6Rmr=3f!IFMPlMe&((WJrI7-{~&W$
zh5X_7`QOLf)uH!?AM!sG{(%1j?7Jou2!GK3LFTRv^@Vr&cZK`?{bA8Bh9$og-tFHV
z-s9gB-s|5R4*G-Peg1vn{r>&okUta-`@`V@|3G-qKNvpXKM?+q|3hKfFNY)kNI2?`
zhKKw^;e-Bz;Y0pI;luvJ;bH%9IOdOqAND^S9`TQakNA&-AMrmD{;>bU;iLYe;Ya<C
zvU=2oj)fodKgQfMLXU?(;{OP9&kTJu{4xK>n0r=eG<@8DoVmTBkB6V|Kf&Dfp(n$i
z@P8uwN&hF=_w3M9;S>H7%-s-rI{YdBr<l7j^y%<t{GVa&Iib&nKj;4(bI%Q(44?9!
zV(xjNXTrbZ|DEvX{hw#wO`&JQU+{l{xqYGE4L|39E_~X5I{du<dFD4i^u_R({9g*c
z;C~_fd;Z@Gf7$=#@K^j_37_$wVc`oxFNVMB|0;7Y480US>p#ofi$Y%u|GxkCnY%gk
z_3)T~jJaDv-w1!x|4rsz9Qs!H+x~AecWdZ7;qUst%iK#se-J+BKNtR<|9k9vY3L8b
z-}ir?xtE205dI_oA2Ijx&>x5Y#Q!qSNd+hPeaAGgVf;$3h%4^Er-_rkDz?4ED<S?1
z;!6KT_`Uj)8rA=&(yJ1OJU(fp)m+tZAfHu~k5nP9mYQ~(#5Io#dfL~d3TX^!Kc%HG
zenlSt?s(QL-YL1owbGclPWqw9$7~!Y-X;A=`U|Ocw~6vs{o18cX*+%Ic8cpCx9TPQ
z<qb;cP)q2Pdh`<BDeta~y#GqvAT30THa;%+{~CQVS1&bg;x=;PrpGz4TUz>(S!tC&
zq4vOL#J?ooEiDw=r6+a^;ud@-)$dQ@dn>-j)$dO!?SpR*e1EL^-jDBX`2HL9`!PM%
zcKD`L-;e3O_rP~T^*y2c?tt%4RNv#eZ!dh)s_$oX-<|ONTh;d?y6?U4y*wrEeenG|
z)%SC#>HYZrd-eNw@cjV3|C{>#d3-;J?<?x}c6|Hs{SWH*DZQ-s!T0}>;+QReX3P@J
zCB9!;diJ50Ov*Qn3;K2`^7=r=Y<qp$)B$aNQ>hry4`!tLDNFU2T1m#Q*oQHnC;hdS
zb`LLAp>}^|#L!&ujcab>SKK8H1eG+G3}4Olj%miVn8xorruiEquI9Q?nxJsDUz@$s
z8T8EvoAH7u8vUcs`G1|ZpQPWWehQj%+Pqh7^X@!t{vYC=$2tH1H|@OItIZ7+QUr}W
z{Qq;>RQvQ)`yc1@{+$#<Qi=4i$g6O#9bbQ;ePO1Du|9r2?HCN?9fQ}kSz!E5Gam-U
z13@mxtMm0eI>)EX*F);qeaPr{y+5x`+yAoG{|?T<i3u@+ekO<#m98n!NF35|(QdnV
z@NtWt=f6$c|A(|ZwcIdbhmBhK|JSrBhu^i4>%9f&q^0>)pcB$$kDT-ZV9ic->|#bQ
zY5lDI`rnwg*B*Y?dhIs|)ARJ&F16Q2ZqRFQPTOlo{*(6FZnf7Qxk0bJHEpkbIB&1r
z3XJ?!Rt@G^(3FX**s9sDw&dsyT5^5bmOT0%YDq+G$*~)><n3u&@>p(5&OWYDhte6=
zQ=*#xM{bb+FQ?7_qq+ItGVOQ!V?M05<YPBz$^V|VC8O`bmK?u9Oa6V@mVBIz!EchL
z`FDeE(p=NfPX?|3tB$vD_KB>SOO(jnQjPQo#?7Z;LWL#-P4VRPJ$HilbJO<SC;n6P
z9rfGMsr{y|pHJSf@Azr^?y2|C3K~+|a^i+<F-_Z+r{5cG!3@`0@~NpU!Av$!+k#KO
z=UVWYye$x<%_mIzm;_&g9m=o#wsZj@ngl;1Q2eaMMern-t4FM&j9}F%ZP8+(pX{uk
z@<~iSr^Nz~bBSh+coM6lPCP|YG~~Wu3T%1C;B=6)W7-k;9W7@z7fs^ljrJp*bJ}#z
z=A`>VRyx<T>3%mS-E&##3Z_kWIw#%pS?LN{x_mwN#hi3s%1T!>ZFw)`r2D<Bbna=>
zeL3%pzIi;iOZw3*^X;a6-l;R}*MQ@6Ig>hPzLM29CDZoJnVdd-F)LlERErr`CV8ZV
zkj_1!$`YB}82%o~bAp%35N5)=mPwDbuySdal#<@uZQ5;;c1sh|Tg<gzN=w(7OO!54
zzhtgq>2Ia~&0Is$-yuJwK$?j36X|Vo?XjVx3iwyz5As2&O#P*@%T>J1N~Q84E&nP>
z%Mn)5$vwqA#Xn{07xr-driW&7-1{NlJfgh$BPO=~-BU+rgwy(DgdbtGdD`@(SK#`E
zBc>z#5#;T!p0+<hYUGh=-uztqEtC^6ZeWnjJ3%~a%pVQ@X}{>V8V0jhOzm^IjKS<x
zQ$xhBX`{h&1G8BA)l*~1rPHSWeIxyJrAG><&3EOrBmH$PUv<Te87)UkXHJ{$8#(E|
znU!vq_$`u3GCfVZ^doh}3F5aO7m%x$=|#Q+y~uYpnijtG%=ZuAdoIIww%Bok?`vRT
z-$U3RW`s40-$&l<(qDk${Q=8)4vY6ki1)`C@#czuf|XP$wnI)Th%d94^RoQTGruOL
zWon0hN)TURK0fh+v|YR?tyMyh-Y&k%LgtHqN-G!|sB5|;*0rx<>X;(0KVvBth_9hf
z+NJ4Y{W*)ZQ2gQJv^E!sKVrYlVp9AI7SaL?J&wPm_?M4c5MwdQZx#P)e-p>ay;!eb
z(q<^53ce}+_1U;KMu@!xF&;vSC7FKo4eDXf)LLtKA>}fp`~YGu(^9hh8<B3`)O03-
zSuL5dja0+@FyC+DbqI8b^Zoc|ltqt^Pdj@0!cycwU%%uN(nal&;eq~*(tsrQMF-_{
zA^Yx*s-KSbLw&($->#69ws-V}LgYdgWqp*Ye{diw9gc?k2Kx3$GQ6FecJAEX8|{k@
zMSSM8qkUjt5Fe75Hn$H9r)^t;lx@goL(ul_9fL#oOxrr81JZyPN!vE`MWXOe3mXRI
zaJrE4>N?yn9f$@82hx^%h9ntz?2tY*Bt@bqtU`6(*B1(keH5unmItXCMIGCA^llA`
zkl!EblO<H8U~})bo*iiP;6MZ|(Oo6IQCaE>2M6|OUPxXT?%OW~`XYORfxZI=D8KH3
zNK_sQO9N=lp!_1AE@v%?N`c@&Ai5V>hzAA-L+DQPy*sv~ZJXdB$&qx?)*;q++P8)J
zhWgL4b#Q1P>a(P6?Y$ej+YcN_+qO!P2)dD4*e?YSN@+`P|KI^BE%c&ykffk55|QL+
zU_d&k^!0tAP`G1oV0Um2LfvfGx(4<H2c&j+PlOUEUmc+!>di)a097445bS6Dl&)yc
z`qnxiU8Vc0Rf?z`ovzLkqI4;WGm`a6@<H^dmKtGB)cl|n*c**fcNVJoZ5iA{)5er`
zD;+NH2^{E?5j9<NP#IH6@el(_`aY#$MPVr_2m2#|y{wyk-gJ4#-o9uDY#>4s%>%8z
z6}jH(_?LHt(3!#A!G1PvjOaPuYV?w+IhSU7Y0)~R=-_^67-N!_V`-+B8m*!$yh{>A
zbkO?YsD!>%{fl*fEp<tTj~dCrhOT>H_h7n^IrZdjbqVWb7aJaG;<D~-+vUN2%(FpR
zPv_Z=i94k-MXIk>6}SGa=7lko`v&%F;YHe~))*~+eeRTG_^6QzFu`TLzJ=<S8dx)B
zWg1=O-kH<S#fFEP+_Mwai}cGu20gTDmgo4YkxQ9(C~Gp5W%(%)F?UP00a&$nt5clj
z7d*?g&#d`_fXeLH`UFK#MOKhL(g-Qc3c>OyT;CUwwhoF?XnS9DZ@MfiocYso_hfmi
z<29uqeH5r5wc4!XDU0f?EYv<_y^;}|c}GyKn(Ww_{hh9w8m4qFGAh}L8MmD+^sOr9
zFsF+;rSKpHP@Mn)3b%G_&-ip2Zl5(>*dGc8q=AC~3(=tiX?JL_PYm=Cs1Ni5N2NWX
z!99V2!GVA%?d}^2MFRvl(&Yz~$sg#)s0E@Dpap<&+M{`g2Iam$cu*V)Ns)BPp<r|`
zavSKEfb<BcpysaNKrk9W<_fk00_uwl4q)+QwdO_i?DlQjwsiMw4D4+0y}K7F3+^S@
z4ropI65kaYLek+Na4BFl!z)S-2r1evOHxb<?CB@)M&PnM7zr?V7ziFXxFXOeiZYfk
z%?nY&0zw<8N)ZCG(ZEnB7!FbiZUy>x0z@)E0k6tEh=A4teD0NoA^}<269irxMvyBI
zK(9y8%s?Prl@TY5?h8^61;n5nn|%;Cry1x(9zHM_9Ee7m2eBObg3Wygf(ne5V|74R
zEN~GG%OVw4FWL>9-WN?51>~Ut>aswzFS0+9HUq=<tENtj#1Zf|gX_Bb0(?JazMJD=
zOzGf8xI7dPw@)=cVJX#@yl<MglylDWar3BoH_V<Mw;$o7HZ5?UU2_?~CT@h+2sMq&
zI%10I!lZn{qY;x9ljlZE`|>c38R?6SvNV^GdH_bFD6LEnQ5`&~%ek)!pEIB2sf<TG
zD5qSDW&CP2r}!h>2f1PWw}DcXyi=+}+#&9;`9bawkN8NheSOV*i1(R#`i+t>c=-4<
z{;vKmUZ3T)0gUQ{oNv&g`rz!dW@e_iwT^fUjeQvTf6jE${85VqQ{y<d&ygp->NPd~
zlbvnclQZyVqpH8i_YeujXxZRk+7by#(t)%9$P!6c-nV7T*1(o+8w0&N+jsT`x_fqZ
z?YOUfOS(WDr1chvfRrPkStv20D*%{;g%P1<9=+b(5)B_{IS@RsC<@pkMHd|&YFo8(
zf1A`23hrt-FdW@GIM70isU>4EwJ3|J#aK+u2Zqzm0G3WaTjR01P;fU<?gPztga!fX
zB5RwC&=V**au;52{xkRHQEsB5=5kH_bBmr?bXG_;btalRlQmr_PgmU2HBmD!RkJKn
zvn*M&BIQ{T_pF$-aFw+ao~}11JS(n8>XFG~P3?vJOMJUSI9mzVc{AVc63z=&a=UoE
zeJ*quk+W%s-W~EskWxO1SK8GNsu-Y&mbv^e`IrH@(j|BW#K8dtQt#^P-=DV10R04g
zD3VnHxjsQ2!KeH&@)KAdly!uriP!7BOa3SY*tPDEsqG)92;aj?Y5$~9ZK;@W6+N};
z_^Om^<|Wt6iTR7Z?t9Ufn%|z7-#)tanqV$$yXNFPwW+eXiL$xR$G$X@EL%3(dAXn_
zRWLJAF!NM&yr6NSpg2`9J5ezEg|(@Mm5GLxKQ35xrL1za^O~J=RF2!LCQX84=H-Ht
zEAFzmd)7p;=cMat*JleStz2R8@$N|nSL~g%GxwYH;mL|*M(EpW@Gm24Q2WRDj$-~J
z>kB#@+$*J)^{w11m8ImKZ-)OX&FtM;-eEOgu$tk2!69@MnlBWR|BL2y;SeF3fXbPr
zy<#vzEL&i=Ot@!24CnwII0Rsr;Zn>&N&!wHEfA`d$vRY~MJ#^?FB+lfkUXHnX<Fh0
zEg78N0T`?-@*6L45wi(t@Q5bHNCz_(y$*Yo7%Y}qi_ddWeUaxA--{V=HX~+%k(cHY
zg*|#LkgE=n_vM4WY9holfK$GDS~BXXL+E`TtxV(B5EC8|M$B^ah<RV75vsXFt7y{%
zDkDNbZ^bmR?V=+iwywe$F&!<B&d~A%Muadk_tEMN%t9-kJtG2%Fh|U1oiC}aUWOT&
z4R()MMl8TNCc-%)`={05G2p3e06okB*wzrhZQxot7LI&@uK>W?I13ly4?#@vAV4_}
ztfb%=hE-fW={g32@87oL?yenyt@m!(*}Z+owvNEouAQ5<b*7yFi~A#tT8!2A5+Ud{
ze7r=yc@N0aqG0&Ipd5|Fsu<~Vuoct`@yN{#=m!9SV>KJ}jJ%AX^!6)+x>TPoP@p<i
z2iWzW(frlDf&-#-SSA8Qei|=dN!m0RNm~Kzfj`n#g-T3YL}}O19&orC9i=Y2Vj|W6
zKEcovIW{P!E6B%a0SGmT2q^g(Dzr!%hzx<eRf#9rN1laP)M3Iq3Vmxv(dkl%EP_Pj
z5u2w}J6)3HM{HYK*acFXt?=~xT|>bT$Y&DhfT*U<QE?dojj-lLaKUGlKTGY+0S_)U
z6-7x~m5&IaaX@N33aqZ4wix+qh<XNp5zGOO;jU}NoZb1c;YWw#B`rzY;;}84Y<FF=
zat`-X1;-2G<txYSt1jCsQ}(8Wz3EKdxP1ltYEIaj<BK=PTkamWZ@FwQP1)-c_WE&q
z!)1GslCX8$z64;qY<8-&B~jWkCL~LjAHDl0HqV4_Mas82;ah!f?Q5+`-_}vrxP9(K
z)ACf)szlSObIq^SC!4mA=bS6Hd2w6I<poHbT6}L}@x93f_r>i^ue(=G*vlp=8YX<*
zc)#JW6kGp|!)wyXIg2NXJWmw7QHaks$nWR$dUKM!nTO%~%g845#IcUn&UyTWrF>_R
z^};eUx!bIrrREEFy5PQO=R1pqiw-Nfi+OsNT00wU7pwTr+JcMKHgbDy@ZTU4<(CDw
ziDG4N`wBW+f!lx%G_!M_5&o<WD*>-ea(Pszw)a_bBI7d?3X5h@2${pe5ep!M<%ku~
z&J}fOX-0I&KEMaLBW6H09d2oHkY5HIJYt(Bj$Jfsu;+*!w5=r{mCaxpmk-9H<)uc6
znhU=9ptpI%Hex^PcuD0B&?@Uu(`N1%KVr=X$2FQ8M5u+qL<aMSXdSU?&~wBpmmoFi
zp>iHAHK3wp7?ASG8KAsxBDO)PGbrkez3QYj*ujV~Zx>tM9gI?4=#>B?C3!WAK#>-C
zg9D3H(BT~->cEQ#UM5)tF{~u^b_QjsKN=d&NR|oQ)Py;Sc5Lr(vIILAB@tm6EA{XW
z%HAFjgx=t8=F8|tFrwbweZi0<HnU_to&lZM>ib%~!H5?;Cx{wxp?B9%)VpUe>Rq%*
zC3F^PgwCSON}(yu3{-<&w`*1Fk$(rBE`Oe0&*J5?r(J|3R8oi)m@ZR_Vidouh@K<q
zs=hsYz&sOqtAaj)_C!sUX!Mp&5~qt*6r%F&QbZ}1l~|besARI5k3xmX&!IYL8w47}
zDW|7JUGmo{o*)MMqiOSj!2{`H2C*|6@eOL-H|g~)idzKH0nkhsjqK~+3rTon?@&}6
zJT%~QFi?>L+T}4y$x3l32m<|M)IUOG8O<E_FgP!Nl~T~_FYsqT^vT&=+00bwl0@l}
zmuJLFmn2KK9liS>Z1V^-7acE(SN4wEcm7mpy;48tX!p;p+`?6#={z-K+%xaouA^Hg
z%Dkzv#za};=?{$ElPqgHx@D@*q)=w5pYYVBJc|;ZMH5vGU~(qB3sT;73GcdzIg3+s
zx)XD{CuaImGuI?$u9=uIf1-L0{!f;0<;_<)N4ay<F<HeGSI6CraeE`)6GfG&qPdBp
zxyhm?pc(-AD@B!0xc|ZBnJ6e%7=#}ecqh$VK{@DphwrVQ+u@uN_RB~sdg567oQ`Jx
zd{cW-M+NuF3ckZ5ywc`?`vT`dzy%La?uzn`1?CG2%<xIO<i0}?(J*a?4#ANVM|9a^
z_`6DjqeF1GbDw=gr{_G_fMwDkW<Dsc!JQ-g2){2MwF}68)}rMgS_yO=F^!l++x|8T
ze4#;qi}pP{prwjgj`72s0+D*I7clN*Ai5|z4E+X|=GU-ANNY3PcQ|q&6pXUP8Y_ly
zD5MJMTlPWJ7F&HU=%52c(Mh6rt0V^dygQM}YVWpz(6D!2Zv1%!EFcjaJS2%P@}Nyf
zK@=gLUr`-I<S(QCX$wV=!OpUx3HJNU@*h)(R@DHjsxwR_GIxaf7SmoKZpw9i1=Ug;
zHTg$~!=nQtyWmimax4PIY^KWQC(7oZS$l3tvTSXttTR#8nJn9YiCr=yRnm|sX*k_6
zRv#~ENR})cyC+f7c69TEtt4JP?-G_wQR9SXd%WzPYi5(%ImwwEPE103(_4(@I@a!K
zui*Ppp#Esc{c0n;PI3}Qdy)Mn$(&En<+lt&q?0b)uFDBEk#P?sul7J-0LnuM37r8|
zRtk4PAn>7~zK|MH0u-W&7!}x;F6-C^@k!6lz|IG^cLlbz@9gT`DgO|)d6BzH)l@*o
zUy_Snh16$65<JdLl*~?*tVooscyzNou7zhU2O>0SFs@=dF<NIZp~h5>>I-2Hb}xPr
zQ~T^qErNUtz+mF?NuEYHL!@_BCr!XY>I9A`7;Go%p)-%#k^(bUg4VDnA8{gDwIwxT
z3OKcxAX)P0!}AdqnL^27o6jDb&s34%m9#<gsv=u&bkN)9Rh6<{EUjjr^}4-94ZUt_
z!5Ruh_g=TO5T6pWK-@L32N6_3^7Voig*$_eboU^pREc!BKQtstVqkCI093QkkJ>d6
zG!`eJCZ?VR_W|vk{5NPD(Eero#40|Z72C9K`yB_M1zFoX-`CjVE0hl-T&|(l6L_Va
zL0wgg<$n0UAnL&8RXs%^Xq7g}P_hz>2l68Aq|8VXE**xLgEZ1$VbE66xtbLj6x9Ga
zVO8g-#GwhLul~X?afigmkycXvCxn&I45q3b<-oTT&r7<Sj&8bEz*)+EVY1aaCyTk#
znrmfFi}ei;XLCN<|CsdD=Hr`BM4s68+=gd1oL)NK)_rQjc->|sF0VN?|Ap|m2gc`a
zNP0FN-3l-7?B`<7#NzYUCuemW-8wGRO$fG+ZGLofN+?eV<tM^F78==NN!#+_52`!;
zU9G|^bHNx>yO)zcj6gu-f~cZuV=9mrdHJ8=&19S^<P&y5Hzofoe6h1%S+qyF*IkvT
zY)O|lE_hizveql2DaEgc<K(X(*xyHpFXz!Jst(mCg45-S7?tTGFe3>}Nuh}RF9^%5
zxmET5pYUIbO0n*M*wj_})SBaKQm(p$t1jhQl5j1F3rpUGW>n=gLt7qGTjDT+2%6%k
zglQVHJmFd%7nZ*Zjj8F=Yz>TIfq(*{%Bjt<!#G6=c>}FkGi__y60Wwm(Dp90rYvV@
zNTE1oehJL?Z8TvWnh>GIHf44#PPi7wg~jhe6RLBYpzEfmG{mWj!@!ft|BhC4Oxv6l
z3D=6au;N{4PDM_04k$(qQ`%zF0*EZzIBi3gCR|J7!qRu4A-Stw(u_r>G{s>A324aO
z_>-?;cz!dLe(^>SH$rwDQx~>{`O9|HbQ{%n@;6pn4V5$eFe7KKFmgjT2Aa~(b~Suh
zcA?U}_{+bRS0`Mn<HG9SO!v!H>cA-|O=d<pGSSaCgyvoA;o6)Y&ZHr7D=q)OGz;j3
z<8h|x+LZ~{%DAxdH`BFQbEPh~C7D((xlKtIMzexT(V)Pzjarp(t%?h)-i1ch<ZF~-
z<T9m6F4iP9upEscT26lRU0Jz`b~$I#E1skr-ZO1i&ri7K$A$UtLRS|N3q(XHTLM!-
zqI-{Gcndu_(b*BX8jaXLZ9^6$TnpmD0@e^YMT78ncx92-L?l0kzpJP5nreJu(D?bJ
zLoXo>J&;-R*)r>>F7X#lU~ExCdU{E_SKPowi3w*<BPZhsvW(b*5xd{?AW~%6j#y%a
zn-~}Ag*38%e{;{zUPCtE23=%Y02`%#5br;G1I582fCd>78Hz}@QQ$pg(x1wQSP~|%
z$s+L8IQ2+9NL_k2;xQ@Aq*bu^E*I6Fx|>9MMavUK%acWIDSKPo-gentdAeiVP2xUC
zRU9kddfip?3yw#8HQ*8j;9HgJ@$E(Y<8@29(|oJ&yn87(MjqebmvY}KZ+Dr`+fDd9
z?}YJ$`Mk>vw>*Jb<R3AT66I>rMINlZu6IEM^~uK!<ujcLlBh!;Ehd38_n>!~-V{>p
zK9Y-p8z$ob7zxWHMNrsYhAYc5BI*oo&I(lQ%JM~=hk}Qx=bMnLqS*6t1y!eKjM@Ic
z^$k~QaeHEMyP`#ld+!@}-5(e3e~a0899z`F#~dvx;(#qQW7Z%<C=i*oxHQlo1cgED
zPJd?aki?SB{?+i!?Mqm2sXcMT1YMCS-wGHZJ1;dy-F!&Z+#E4Sb=#^Db5s|&Xz}Hi
zsIJL@zN!{=$$7N(h0wa3AbjT2(HnxQUM{P2ua;gfz2;_1H&!I_Y|!#Cv~r}0$GRTI
zy4G24tm|b*1j9xyYS+@`v&h(|TP<j@xD0EH5kVUVXc*PL9uba_jhpa@aEOoU))+S^
zHILrz_DaoyOG3|!CV2*COWG<*Q7EGDIR~H2PsY)YoUfD-EorxA=cJk>r^|W<qupeQ
zPTK_}#rRStk)BN2lC-;L+s;7u*6mxmwn8A<)tR<Hc044d&9KBwJB<Af<;>u$r+rJH
z7j|bbfauz>W7`hMx1g5;Y=m8^+)kO&EKEDu@(74S;R9(46LO~of}HYpiZTzc7cES5
zqe!)FssJwSP|*+eeehC*Ks<z6no!%Wtv>lqwD(E;MTlZo)^Qc*u06FTSv2qH#!10p
zDVeCLPt~+0YFfwUom-Qv*_iTd9CcjtaQ4y@zGojAw=KBrhJD$Ll&2}-X-azLpL6_)
z`+M%x$}NeNTOh|SR^-@_Z8<$By2od=j5`)1#p&);<H|(i%4Fl}arc_Iea-7a@rmjm
z3$>FCT=^#ct;?>Nzu?T462S7yRkKr7OA=K}QdKJxRVy!+y?oDw3ML`H;x3-Fm>eZ<
zBlm*xtoRf&Rkb!zwf17<wbly<v*S;ik@YVlooMv2g3en0sq*z+?gf7ROyTzgxL#~u
z4$oI+@^HW6b#zvlU-7kcRGBYS6~KL=v8A)je6h>|_r)qRV#Zu8m`mz3$q%)h|F=Lb
zUG)7Q2(@&m@hd^Cx-6)r+mRVC2wEx~FJwU>UAV47Azg$Y)wh7>vnj|Yv^TV3M!5!L
z&nz_y3R!yOi<o@!0<1lG5xp`YPl*b7j7f#90}#INhBk|te9NTCl9y0A5^x$oNM1&t
zt@OeftDFHy<Q4Qu0z`Qwz3!k42z<z^@R<uBoJPrVJHo$CaY$OOfQX7r5Mfh6#L`5~
z(y@)_-j}TDPI<ZkB4FurYapU^+_B__AYv9*zL`Ko6_IauLTh%mcdX>4`_60{FIs-C
zHEzG-?aMCDErSDdK5$^p00$hvL1hPLzQ7f9;$6_vvBrF1jRo$DoVnA?XVHKJdd>K|
zD&mzblV=)R3d18eyn_vnPMJf^q|@X$UeRJ~89l-eTZgSaTWoE|;D8vUtqstS4to_<
zj3hH73=K@lFbUZ`2zv{~q@QdwRNIT@^i0(>LXXQ7J+O#S;%<n!b^1+aK@9n1HJiw_
zPvh?@&6+9Xn!c+#AEBm^QaY=m+JwW9UuRYFtFX0{8H<uPw00UnBG)2y9x^81`45Js
zuNP)enO`8IHZ!7Ih&64LqRg^TmiB_v!wx?v*p%&JN-xv?2n<GZk6cS@kJh`-t`Hfe
zFzr(~L~JfoJCjlBY`q$5SYNq5lY;4Cxf_AyVT7nG6|c)($T+q>+&8=n_JnK;2(r|x
zl0Arqo%z%nBx$)z$XHqKR<5q;j4N5YELFQPQM)l&+np-!9^G)cY}Q28%v6;xQRPck
zEqJ|b#;M&egvZO4fxDW~@Z6SXwxsG7CF&MkvsgSuFo`QHf;DtS^)-k7Y33?6^VcIp
z6ds$=zL0;8Z=WxmZg;`igKdpA)T}QG;z?28$xNj$mmxMfftf2(gEM;|J@@7sFLxv1
zUsK{X<Oa2tt!OkFFJC@3G;X`|br>Vo9IuIc<|G|+Crx%o(YNRQg2T^MGv}Q5bMlz9
zarU*0SC2Vc4z{)^3a6|EARyz%@OPECt?3s4v&K+i03zy-HkEZwMOy@>j74C|r^eP&
z8n}<~@-x|FHT5WnMvzH4mM)L%9Xu51I|wqE*^;Y@GkpR=Vn)Ui@@jNd+NOjCvJ52T
zyAi}*|Bbqnw&Sx&^Lmlz#QTy(^+z{effc@|HQ{MZdX}b&mLA=B*;RSkmhvu1c$Xx-
z%f^}F3RA|t?0UqF<i}>UoA~GXc24*rx#XX~uOEN<L%qd%b_pCx&x(9h4-Vp32E#01
zgv-Yz+f+@q(iz}AnLRRS@!sxjJ&f>%g49fr&?rt-h!(KU(o)`okbj~k6Enz~e8uJY
zOepSbINCuiG>^L)<3gj#^p;ohGU>arrU=1EX0Uk_4y7R@+!AhSj)(?uk7~i55g7Tv
zFjAc`M@%BjH$M+EL_jpvPm4*vB7au5DL^dS7c69w2@^%047{IQ4j8t01^9S2HSDof
zKpSXYl;H`Te^87Cz{6lSwRaF$;vl%62(X8@x3`N7vjN<Cu#<x<er!Vn`v+ii7PGNf
ztGzLs6C1euR(sK(R<f%eh{jA#C)O{iXka`|8eGQR1jxPyVhZXda5_{-+R1)Y3mwHx
zxoLYv)Nz?XW_?s|SY1;k0r3LZP#s_iBC;PD{tx^`9zc(<fr2$xRs9>B)lxkwT`sRX
zb?@m7XS$Q+D@L8z+2O7@vG2tDPgk9plbXLSF@N35(fIsz$@yF2zOAqAj2G-6(NP)2
ztELSig~;U1r-$E)5YvCmyq5onaEIwQzuNk7^Bty7ELzL|A%BPI2d1@rtdQV@q0S|i
z^Lh#G8Ej$oT%^=JKl4!f4$K3#1k`3sd7bFZX9k8jks&r>!V;Q?InR4eSR!cH`#+HF
z&@FT_*^cNOtt$+%iD*5mZ`@$O^f3rfbTNs_M7XqcQJuEPM^WTsER5}c8BB!EXidvR
z*n6%w?SvUGTSQ)QP>OhQDuY)wqx0@it!^S-9KArYKvnym!*s}`oza9KKSU#ZWlZ|U
zOh3})niVVA*MX=|_f;3G-kL{bdOn14DFz{<<CY9&<ZhHIlNy~Z)_fd^ybG0Nuj{mw
z{|#{!+62;ys#C6HQRC5#6SktGAHM7^J8^f??M=B?B-|?|JZrIDi`%YpnjB)%YEk)>
zC5f6PV{PZ|PS$Knc{YJxDY#XBW%0P9H7~#7s=Hjg=u9wKyfWVP03;9vR@n4etdq4|
zc{lMdx4@&ULCcT%I&J*f@(vq!p65F(!g-TGZfpBG_+PN___$zmbPDDR#VsA{%oo;K
z;JzrB5gMz_0z)kiYXcYvibr6Wsu^kp#dHzd!$KO4zTI@1hgF48MA&E#K@NtBD{c&-
zgc0F3Ae4}g%mIX=%}hEj)Cna`q-)6#s#@Mbq-(jMNY`@HB3<2lHVaBwqF$}TG$<x#
ziga&Sx`Dx`fl@jY6K!YhTK>~ODXXzn<F=rbPF0-M;qr);iFvJ$SP$`8q7Fxo{17c(
z+=)VTyGU+{UfHq_28QGhQlt#{Blp20U5Z_bau9e@2SERk@WyA8i7ZnnU88!8=7kxf
z0`cTK5G6wM-K#u`VJm4SWqQrT0*DB3C}64RR|QLUlC)NPQ`Jio)k`M|Dko}v6J^!l
zGisJy<%AmN8=T;Aj@lKuYtyq^$8GbO+!a>w^AetUNsn*r@E<(#jYm>#n-guDbLFm^
z#%F4B*G;L$wnSrFvT@b8dv)Bt`mzF~_9lzl;+^+r0I7Nu_!c(N-ilyVg;EawY$Z0b
zVux{u4Lghla@zr=9Q*|v&vv*vI<ecew55|bU*s)tU$mML8k>CsDAl6uBhF7LUBn1X
zVYYO7h|Jk<0}kb7w+yxG6bSTgD3$c}2xxJWDl5ZMnL&+*-V?NqH3MqoKnh>6L7yn_
zp;(y`|1r?PXUPBu1O(*0^kVCu<WFq*E32P2*U9v1r`1o!$ZYk$UR3!jktB8^Noei2
zCaPP<79^{&ZD1|dIwMGawY3fvtUcvjn(!`7dY6wgo4v_$&a>`zh>Z>}f7Y|!%bn*)
zL2{la4as>+do}!Z6-mboT}5Jn`@#$}LSqF?Hlo^mW-VAEks0A|LMI$Dd3e!eNJDY-
zoB44Zx0oUKFcvh}*`p1H?$Xc$=QH7F`&%$t^c)dz?uW@Bw|nW_4D&vnh*x6K`-ZHL
zC0eh=9I+TO2n`L(c2<gxqOmA5<ImR8>hYIhpW`ge*Z37(XA3mV>JeLpmO^J%GU67F
z=*$Z2HOyMbi0y2VmIvxFPxrTo?z6>O4HyUr0|e+y4A`3w9kFJVsc&M?a-bcZBUUYk
z%rc|8E;rx4%X}Lf44@U&wd|rTW52sWdg#QCu@@;{-|6x&r&dF<R)IzuqzZ((>^FyG
zDd|zx{O8cZEQt*X-bwy=_3!b@6y|4iGk3EF95DaLq@|G~J^6O-7|L{mcZXC+pRCj5
zqz|EzGrb`vA{krGqj!<cbN0e2hZN<#SS~VIx?zI=iJ;*{x^t#6hX{KiGLje2i^-?;
z*ov_UQ#6qr8)P5B(6rmI6<79aVetc=Dm$&JG<!5iZnBuoSgXoxYS!b1=z6*&BEjQ(
zk@->Xa?Rq)rQV7187DvR^aoPqO^NcRi7M}NMb8was+tp3&DSjEvZ8BdORaO%4TxJ@
zr-v>`R4o__q?T_>EZ>$~PJ6OcUA7|lop%G)TRR|+IB!Py#_E{fj-+NejaluTgVO|Y
z;*umoTcb2x4pScw(2LBQc0zbopl-3D!>^>+Ed97XY?V_?>UDOXGGubi42s&5p$L3~
zhU;JH)yKvpr#=cJ&$g*LP^NN5BQtQw&@CF{&bWI+SJ6!Qo~9SE^Ozz3Ol~Ga{tz{X
z;ZrtONY2NQYFZ!~J3`_VhFbAbuq#PDWqRFDqe*+f7<Qekaaf#Z@0{fD^Mm(ef2YNH
z4GPK16Aveg8Z;?DF-f0`>r=&TiQ={i&z+D0l&pjlpu{<9!5-A&rZbkLyE$%eo)ii!
z&ip10HHJLkC+>M?97*?*xP8g%jxsW1SUK)kHQ}yGxf>GhhB2J{(vWno7!~yM2v(dE
z#_e~KRG@R*?Tg!eue<6_KNw%rGw#|J7q(3<P^}yw0&rTKNS3l!CG1u4>b7$w<MuU3
z$jlxLGlt8a`IjpiC#rpy>t>ziKfeL<wz3rSw!G*KCxns5_dOB1=C&6*{|%Z7=i8GO
z<oe6VW_0SYcD~EXpBKuB`mSb_cnzb(XSVwgpi|;qW>Dhob350XFRtYAadDLe!57zB
z;C|I?hCAjVd`_DmT8xbYku1Ef3j}sz%v6y!zYn#@ee#K`4VxsKC_|tD5AZ(a$sPl{
zlNcL>yrJ{gDS~_$Jln33;dx!-ujTy?cwR8D(TETwVJ~~MTEad|$J!&pzIrX(_|-rx
zLT4MknrmO9<}!Yby|}>EIxa-%bG0~n>5VsAdeo<-H8u-Ez@YXu${|?Jo)KY+IN@<n
z1-g9%6M9;V4UM;h=|^<>C_|iJVd4bKBbFT83~|DF)G*d^1Mu5{DeCRe_q{LyC<DU=
zCjmr8B6#^vkyi$wtWZ3@4Bxb`tEY4OHW+K+tg!Y@I-F)lcSmnv!?qn;+jj;wb+vcG
zc56%f`mQbV+mwp|Q!7-MN=pUG3GMLG+mey4pdyyhiy-TZRs*u8%e5VhFpGs{7#%eO
zos0r&bugQIY>OPD=F<yTZg3H@PFBGyH=`+4*OI7fN!2Y))GfViZyj55)ohw!jSJN<
zw1R*Y)?u?WNSh;X?V48Jx-wC-@?7Q13z9WGDNhgNtxf~JGEv4mnvmI56SC#wjukm6
zE_-Ij8&)Pgs{j@WOPd`|5?##51iAHG`L<h>y55N{Ki2N(Y~s%sly@|7=j-{7xx)F`
z0=eg|=MZpVE{~53O^(hv<_oPYonG@ruLbUlbIb^Z#RP#)eJV@?HGhbq_`eEjW<bR}
zLeQ2B8&zRn9$qE`YU)rAL!mzVnlzX3n*}v9OP{aB(V(5&c(bKP7inpyftoFP_<IOy
zMrrFbdu{-$bxfwk1p`7Fnw-br%5Di(&%Y6@Hr9krEgN83K1@)GG*pUcxXOUfGTEQA
zZHpO@SF@ZmR+@YlMKi2)UF!kMcXZuzFCA3C4CM?nx@8pg#;PhZa4^8I{4i2Xfvk^E
zHuO42kd;hLZW6LqpQ=q3&6x(W-jxeknaG%obEjC|-Li46YI&Dw&U-VE)o0k_Wti*|
zca^GImZ)0xgWi`*zJDJWD7W)=O?JD{|A53@4bwnk1n7{s%d11;0=O?OZ0V{szgla7
z`&F+QF=IspmG#}0(*Wg|4wQ)*QJxG^^w%O&evfTc$doFV>wRF(1JX0~S~uJ%ktub~
z(A1fuv$gznK;4|Fli!yI5kUN8&W8+wJp6UQujR{e(B`XRF_63laMw*N)ol`g@Sc!_
z+k0ZZ8^BNfeDQo#E|UY`>>b$Ak>L!s_8LU*578gKN||(4830sM?CXo-wushsC_^UV
zi4m=IHla8yKT0K1>C@UD%a2hMdi{5Tpd@i(5cFEzJE+yxO@WcWIc@)CMKGWcr(S^2
zlRZ!OOq9<$U7f05ny6nI_bi*J^rk8oBq|qNvk63{3ZPPPa!84?@nPO=TLr8ktAI7k
zDqt0}3V_?Xere|#{=zCA0T<RdI#<FHprv!E`QlOwxmTJI8nd^kyXW&W^SGe%H?CFt
zZG(UY+}f?5K$NBBzcpy63kEWvp&`1@3-uT@%meipG$hGg&XWZV4N^828vfCH1scx1
z0W?%EN61G>HWEx>u;&<DzABj~4})nhQkiz`9EqhAtkaDd!q1y9XxfM_mOJUyMK5OB
z^tfLBjbYzMDIUE_fTJR_;ZR^7WSkWz_9u&GPeUKxkqi5DOQ*$&n#E(4=fHVyNO?Bg
z3g@kC-g?13-r5<T)iv(eK!VNO9b75^TsrPpcG-O^0B{ahzVQ|rbj9GHiw6Mg<QV{5
zM*xuA*7d94e_<VukBhv6<eScx&Q&DeB==e~La`xLI|~8_Q~A*6`2pd-Bjh)2Uhvxn
z2z5YpYouU<2AvG^%Zy#C@4nHcwI{ad1^}od>!O(H;1IT$x-gY8ppUlMRGWskMRu(u
zphH+9uPNmyl}xWT0x&;CGzGxebCoDLqP>n>0K@DS^6n13UD4hY*rM+ah3O>Q9r~-A
zPF_`DM8}<g5$o?H7_oj0!3c6&+n2-tl{Gv*Ub)lJu^LD4w{$EwUs!G-_i8gjW7ZaS
z%FTa4hH3V*|GJsP-vY?ccmv45?qa$DK(J>6gaVZuQBGF69b#nb4WYpkR4l!A5HxsQ
zhXx=wJg}rL@=il;tezGcG$(4B&m21EO4f9yJe{{rZajNr+_5Mhp`inVYOcKN)(8gq
zI9d#>5An~`MJ=Ec9>d?&58|bwd$^P*pW@QE03-8&l)Q#R>NYNBW+SLuvSN?z9E4>6
z4tvJA)7X3i<&{2J=$KnF>c{nYQQCb&2Ly<HvgqB$ZY!htw9tD<^6u@!u0y(PMf3)-
zfoIVBL8W0IZ1!#s;W8`9J9Gdd0LeQ%I3#<O!&|+5xaU!(`|3i&&DiSo99k%UmtHg<
zpdr(h_gQ=FG*rbpE^x3_{v=}4rmzSx4;ry*aeb`k(Vj^Y@7Tg$!*+Ws^f9F~PwhGV
zaI$1+iXFlhcP+hswE$_3&1vSp!Y>rgSep4*6%9(?kQf|n$vSiiH}c%zRFKX2SX6zR
z=@i3HJ>;FY$iQUAiaO>z`RvOyZG~<Ks_oe`vu!r6oGkD;V#b{uoF<IY(`hE`LWbO3
zFy#3<h1HT_7bV=t_6b^N@6^)w>7q6x%+SC>G-eo(3el;IXwA)*o+autm{(!Swwljj
zL)u7=?b)&;7UNi5<NT0(d-3zxm_;kKwq<B8bTg-s>9oucy4{G%+nIS9*tCMT484U%
zF2y3rp!bB`bVe;qU;0G-r1-4qep>|K4m4V^z_BXEH*6)7@lD#vmR5kofo!jxV%SPE
z+{+%t7)#sslU1dN{8{AiQCjIXICPO*9XoAl8ay$TYUHYBog8_3BvsjzsBB7B&QF!h
zKe~C+q)F;lBx+WS#a?cE4LfrlNO>N(m7O`7rg+)7V|iW-l5LDr&y_BC^NQzzTe6b9
zs;DHaolr^G`Hoq_d51vmqKb|N?tCNPQ7@dIBaqwI-iCk+&>c5$7aAN;5nou?(phW1
zSZiVGVlzTx6*=HfIiPJC)kI#Xr`y6zfqHt#O+Y>F*9!IMEGEn&dj1RQy_cZgf*Vk<
z4C<-#aXLaa3+9z)!94kC`ur4L=~9)rW#C0Ug79`o+?|+58obkq7R3POGgRobRxs(Z
zsWpkn&mhg$rhvJcQwx$sbEg4w?Ni9%cK~yAN#B_N<;vF}mb)+Ix$kzs+>&v}(whf!
z_uUehlRt+}iP^A)nXZ}oFDCfEm|*Qtx2)ZM?;sviE|c~)G5*Fk9T0(dtdN$iA)I&M
zYEJbC+}nW@gsP_(jD4QUq}MpD{VZ0vTs_Pp?;hhRB#th5Uy!I-aAxBe&O~ZYdD?G-
z6@Fyg(VTaMYp14x6<&WktS~#qB+uIZjq}3anZgT4vBh1f8O@hmhL}Qc$Q09cs&uCe
z*kUl&A5;O@P4mUxCY<_*YiMvb2H92Oeyc(6=HNhIdv`{qd@A>xE>LfF3JlUQer!U0
z0uw5Wf2M0@mG%(x{JRLgM)Pek=B7eYdpL_LB~&Ja%1M*SapyI&0PeYfE3G}%cKYsQ
z$>J0{T0ZVtd|iGDsp$xsCHdg8K6Yd~Iz?@f?>NjU(h2plh?{8168SXhVndn6i742u
zny1nc#_|_e^Pl1?g-=_m`Pln<yE^XO(Y^CQ@BQsNdT_h;YHufY`-TP&&`FE>8CAIO
zN0zixs_MNv_d+&;Gg*d0q8CRmdUrv_5ut$|pes+rp?*4Zsa{T_@wf|>U4p8b#^SV5
zfsWot3v}p67A_-3=rR0Vr9BI(DdtUIP@Qi-56)=8tu*SzsIClScKsBNfm-7%iG1ek
zxPr+X)kP3s&@o%+!9h1><MtWsh1bofdzA~Bu!nLC@#HUJVB|01MeU};BGUHVI2eqs
z=v5BDu^H#WDk(_CiHm}UMQqp!_TPuA!D#y95?L1=L>W+SIabce5fldVc`AcS(@&tK
z<Hd4LYAI$X=&0w(Qn>t8B&(x2^L`{{vmduAHZ*^w<@uJ>?6$=0w$$v7#O#hy*Oh|m
z33uIT>m~PGtd_c2ryd@!UGREIL#m`DQPMKzdU@`6?|pQqWXb)LHcO>*)WtUQoW6V9
zy*O@Ptlgkg+dhMjmC-pYICcy7aPAHsR_;s7+U7+a%qGF7;J6(D;7e#8J^2nW$dDG9
zvTs&3_BDuR47ZvG6B!mWk)b8_DW}4%duiJbP9GyEs5HmRu77LB#e1485z@i_Az8*s
z!dY<QAQLCDqn6cs`Sh$ZGaxV<8S1CIMt2V>hsaSmSX)#S!C_?>l}r4nGO=n_l_<oC
z*;Q%Q&ONI`OR&3^#EfZy4gW{TiQWCVqoJJs>_z+twO-v2^fkC;dd;U9a|Z$xcv(Q#
zhq{it;+~dq`(oqt=QW8USgPNdvfmk}tvFeyKd-%hl{Ug1Theahzs<K>gzuEV1v71>
zGTJqIzh%?nS$!;xX~AwwT!dxc7rKqPF(sE<m>@Ha2{I+S=6th6K1(A`lSKYLy-1cP
z=gtZiLa$}h&5C8?_T|Q`XiF5eC5u+2?5pCqYc_jUtiCS)K8hq&A6*!qHTo75!GOZI
z;kY4YP~kJ8=}+e6d|Brh8iHt>9$9x7fB@nW)QcYNR~MV8I2)P=UBEmY*yzE1c!XEe
ze5-O2AzP8wbOEj+l!pV*G4zF%i}RFDe-!1V&DfjBdLFwt*+#x^peC6FjZD$lYb}ky
zHhd|N+{%^IrHY#p#Z9T=g^A*YXYL>CPZqBpwHSlZoG5BO8yQ>vQY=}tI%TH=DX_()
zxJo~$-NrfAT#wK;;$!XR_A36og>SDA&Ra|1hS}PozWq{QD0`q#31y%N^Z)7trFAf!
z%(sVQ_nFiA)qIrlWluh6E}9HG4Ge`ti)$PYkr%b=!<uI}^*w6S52q0A+Y^a-sTZK%
zVW3&LZdAD?n?l)k&{_<c%m&*ge+zDQv|=cT6MdM@M_*=iGb!uPtO5US?tq`8?C7<T
z27DLV$_D(3yC&tHmvGNZxmyzMmN9G6-8L#rxZEd}e0=qlvdYm;+8)UOwYoi0Kd66k
zqG<7$Ct0*2WnU4uub46i+O#=P(Y}B`U&Xikg!9!UaN~@DU?jj+D-ciCg4O52=TO1l
z02a@>A06{Wp93^Ea9Y1^P{%NNDZ}JKPpnbF#fSFdvT*f`R&@*s1rr!T!_uydRw_iB
zf=Dw!<R8+g(B=(op^`_|LS-@N)l1_>#<^_VUe`utHSIjD^PO3ctXq+)Tc4;~pRDUl
zRdkNJi1&PG?CyBuUE}WdxSgb3m0dWxQ^lbU!l5?dJ7w)Syv2=uPN5KP62?KO0r^0G
z)}RoSV^DNLSJ**0miL<K3<62%T1_oR7ntgc1No^B&P7Di=waJK=NJb@7}RsV-Szp7
zxyMlvx)mp`fzDr^We=yR;&6?2{y5g45r<A`%vW!lUT>?R>dF8dc@A8F;?SD!)VL7~
z&VW(@RW3-uRok|s1%|D?=s4@tO77+Ma7XMTwodM$4d_3|h~v?U4Aq$<N+yi#G1QP5
zcCMu(_I)$77{>32en~7&n_QGXPR7<%J+@XWq}n889GM}yM(kKf`cW9PkWTPVI-xSu
z3*Co#mHS`=RCDG5BDXLfcsghE3npV$jF{L4RnsFTV}mLL`QK*Cy0GVZ+2-DDJzi0w
z!}`7KK!ep@wy!B|g*pD-K{4jt8jP^3xaTPzxYBk2G6i-mu$NiNe-;f%TlYhzuqTqX
zMT21p*I43=%s--){wMUJ81f&JO9%0EH6%M3SOF6yjPpyosXCpkHtZyV49nIJQ*yQw
z>dTZHqsfc1mvGt=9m2f_3IWD8NS&jq2@Hk&lu|LHSO$EY3YEajUFpyqrM5;zS-oGT
z06G&w-hfxci7YgRM%(`X3Wd_^K>}6}!l6(Vg4IzzQQerT_9d!)$?65EvIV1^lMs(o
zoUD4f>Qqy*q+!%L;VKzjd%1Mh<+{14x+RIaC8@fViMo{&m9#;$45tyBaT;*}S3B#u
zre~T?uQ;<LS<?(uRX^t|RnJ$QX&PIftZzdu-o~%kpSPc>PI{M)+AdekIlVtg*ATQP
zs@icn*Xg!zmyboiRr~UN0EgA<d7Lj$jf1*OWzJC>P6#b18(nv~toDp~yli2-VBy3}
z@2LH6D`t#tm~fYmKJr4%nGN6G`GaL+TgL0#CyJ|1x}SERw*I(y-WA3Dg8B4@FS&kP
zybw1~SI&g-L@~|}7_-N<bGs&2ah`?OaonMD1i>$`nV>vRgR2*wx#vtrymGP9ZY$?0
zpR}0^%io?fBf<4aFKT-|(uMv%#&^x<A1~`{<WBOP^};Cuu4mU*!t<4-d{>k3%Ch!F
z__$clBj93VSr_)Uw)xmzDhu4N&JhqAD}mWbUkFEdzz!0kgFp@ut%Luww+H_75X+*@
zDFgiHzv0?~D|S`z0Dx^iT4<mM5a>4Jc<*Bw*c<o3(DY=FmRh!qm__@3?6AbW*u)sH
z2YEQA$wSDShmbc9XJ#Ivt1mB7IAQ_XwCu}|8gxrM9R&y{%^$T`I8df^e2r4u0<mz!
zjAMa|zF-dObg1a=!>Kp`WZ$_7pjws*REfngYCa8kT#sBmS`7e}E3<Ma7E4A1)Ts0e
zbg-j3Qkgj!$2cOb4{3F@l<xpXu?+il)m$<SvqX<ro<Dz0mC?XaKWJYJq*wF=PXGqR
z%DM;GmEc|m-_@=53lNg77?2Jzy9&lgfdUEzA~@7NT`0<Z!GVAZzJGQY&5zB_AD5VF
z!T>>85|xY6Tc?Q_9*RUs;@RiLMaVenAJ$)VhRhyGjx}YK=bb+0PIj_S%-KsTRwTi8
ztinr%A!Ka^0ihIvuys#xK#FV#o}#udW--0Haa=g!i$iqIy^gV1sa~~}UUp`vH)e;J
z2%=Xp5-ZM3OH4`d8f96K>Fq0G$Vxts5CuUojKmPmx2cQE0uj^|^l%1zQ4m%!1!RI9
zMhT}2b}C3y!Ffz|#5f*0g2t!X#u%9DPpRBLqk^o8h1`^_y+5QF^m>?(63O=!q*P(H
z?BFNLy{Ym!iSjwga<D-2Mg^RAKXdkT4?OcgeD2!hjCFCLX2Mf-a?{hBP6f{NCp}A!
zZoOig5x30&KRi)Y8*kjiw#c%3->=!Zf{J*>!n6J3xTbi;miYF2F0Hsni%91*su#qw
zh$q4?^p3lHXC6A&cWKc&Emn^ai{ZMsP<gqq26y`u&O5qc(o|w;oG9|7ismGW=EUdT
zaW0%J+LE$wiQBh;+P_j<eaatiS{t9YF23&Gcr8$zsSqdN)4sKt+^oigy>{|`9tY__
zne0xvW+hy+=rWESJPJQ!jxXyTFWQVc$L;q3(~$r5$z_~lEB_Y6vIV%e1J*uDHDMv>
zDW52xePY|`m5AxVbpZmJX6K4aCLIFZ?V}t)X|mkS>!<6?JA*@V7O<kmdd7=7UMq>)
zH{;M7iu5+pvikip@=+``pfwNBT8A5Gt)mcV4X$U`o8kG2x4dID_sVj<W2NxQ3J=^D
zoaBF@kVl*g?lLj}pIy|k*nDBJg&Bjh(3L#JT<z#`nlGA5JIl=%%L~X|-`Hg_ziP3-
z{VMV)<X$Zlx=PHimQX5~^$-I$W%6e6MntzW-e@5lD#MByraU+vPX%Qp`PV39Rnl+j
zNtfr%AFLn|W%8fXyv>!I{S|rA>pL`=36v`ApsO-oy?A^{SG;ON(zP)zY<%k~Rqa@*
zhff!G_uRLwqkSjN$q(#&aC=uTwQOLw1o3jeM5asHwTD?+6&>w!XhUwx4B6K07%VXp
z%RFR3UMpOUlYF;N=qy*pmJC6oUd^qctXteY*r4SD5+(QC@)*$XyT647#+A)Gp+%VH
z+;VLO0lCn{nbR2wWLO%Nvdc9y%moUVazeTK<o1pV?m%xU`}bC1q2%6^WY_8{ClPvy
zmeIc;0b54bYB=}IQ`oRKe;Sja&Rmlr-E83YE$B4^NbS_$+`W1^r;%Y-%`F<zN7P+4
zYiU=_TDGg^4z{ZXZfpCBj<x(Nckl>!Wvzp5NwT$ctT10#VPQ8WnGqU$|IR_Vf3J7D
zJV+L?xGyK7X?XJ}o3eDi+j_P<s4IOzh<QoV9|Fs*YmVz<@9Vg?v;EhVc~J{HA{}}}
zR`)DeZpJiVu>1#b{HBGEAa+rz^5osGpzEFy(-2eUDjVl0%Eq3Urx(V;s$x$WCa7y-
zCHk1LZji)gLkOX&`3&h~x-hG+@~d)wObCfyJb0?eMl?V{NSb_dzJm1C%UxF_idH0x
zR;KJL<Mx%hWO?4Wy(v?xW8oaDbX{K^$ti1u@62tlqZ>IQ(LpG){}YVf-~kdMlUW2?
zWVxe<;CC3kg3PYUKX?-~c=WR0%;06;%&QG>p21srUH%(nns$c<_s~TzutEq>BeGVT
z6;p*)+|@W<Cm~Oc@WVLJH{-k(U2nFWR5=uvJ^3s)40@y=iXZx?VPqbc95-;S$o-Is
z=N<$*O<PkBn;+y3@xZK93-*9Htp{_eW7>SGAG-b*?5SE4$_+{;NE3(EUqh<sGxfw4
zZ%}wH@LP1VFJ60a;}~^@cegwk_EL|4r&_H@8sYL;(*j)vu1Nm`N~G*4VC>I#QB9aE
z{e(J}->qx`pqfAir`Z3axBEm~BCK_}{P&1jOapr#q8;Ua;;NZ&mra^%7SH9vk`pcC
zg|kohT`sFUx$5avr|$Xm9dDSqqJ~uA>`R5S-+rC$xeyQ$qg-^nXrf^4%kKC+JHVXa
z_zNieJa2>0w|K5ce8~DEt~K0=@)q;&Io5Drx2&{%+q{N5hrjPT+UJ<h3zh9&^LeiY
z?tVnp9}R|GeE?o3If?W0BIk$Yjo&PqBpe_uStKj%W)TI^vfC<J9~b;K(I(kNL2}@L
zX*<51qC;|tPN_h2Nrmt)5-pTsw_PkisC(GrD@<3l4?#&oHZkl%x2-`@3`r2rN`2eW
zKTZ;1ZXbe;QhV>lZf{r*RrYlC8EJ7-i_{0Kr%QW>m0Pm0NLePq-HMq7QVhz$7%R-X
zUP3{#LKS(X!_eNrAZkGLLSE1pBIhvnhs}Pt??5oHUm89#yV=R|B14b}b1kBWxj=oP
zmdMT<Jv0cbfCwrC;q#%rK~yTEo-m+ddj9=Ef)J}&T54o#Gcd8_-L!M(cCRA5rfA!?
z6I;-0n1n1*qG_!>&==jyuBjQAhg)h0r6_7junpcOsd-Pcw?(<w+oxo~tdi1Jg$$HG
zhr#IS*H<pSXnoQ5)i2|PRgV=FfJ=EsOr6|Q=6=&2Y~_Dw8R>-HVbz=Ss&#cv>m>{@
zJvZ9;^|a~96#~kG0Fnz}u_(_le0b)22&%cB>z1MD?nNsheHcM_+P1eZvNsgmh5J?Z
z_AObyB5egHMK)SiF}O#H;1VnvP^AxWC!P?ILc0}nt$$#vH=1K(We?z<zhE>Fh}BOw
zS(~*eK3dRpJkL>XqO4+6c+&opZTG?){m&1+R{w0<b8DYjd#3*DO)oZ$wI%1TN!H$x
zs_jVBcKo=u>$QW4n)^nDPq^Q@RC6CAil1E7UL?qWioCKIKOHcWCV+;BPRq}IjO~-e
z00MO5otJFU6@2f<upcoW5sp9(n{O|RraBab{cXTX$k8yo%clZ_Bvm(_Fls0226g)2
z=TYBjWgW4KCaBoBe3w2!tyYT~L&0X8n7U6t8{H^z#5$s%Y951}^oZ@r83H$A!*Sf!
zo^&A%s16S{q<L@Jx{Cn?`5)1(J}0{%G3}teqU`oh`OlEG{5rzqpVI5U)9at;_0M>v
zZII33W)&PiO~>T{8U&On=X1zEqewKG=^6qDdZ7XJh*9NcYik6$>#&sO18EC09!Wdd
zPk`oh+QlYq07sGb?@c?E4+@A7v?eIR9tGbN;QqGY?qOw~$L35sb2FnYqS^a2^1|$$
zv+yhLd;Wc6vyyY5ou2&@H!e@9x>CD5Rl6=xyY6LkvbGb4E00=F@F$i-HT2XS$M1Mz
z?WqSYx#l3=>*aNHHu&kTuWWgK%UC6DMoE^hPL;PO%G;CW9iz@G6}6+TiJF<uwLIH0
zx*2z~JlmG4ZB5j+j?F)}50_yk3c8Qq4PLHxK9oMiwQ+k5J0Lu5!3J5n6Hk`<CCF!K
z=?;kf;1TtQKm-F|qzR+dA@U4KnGW(1JHE^c%3?MsW%-rl0D8CvNh2eAX@zBiNVO<2
zOY>o9EJk=7{)4jVx!L_*#+?b+nW?Xu%$$x`v7Yj*6w$7gCC^7|$aWy-!7T!6Z6eji
zN)a8RGsv?$5L6M^5gYDRuuW-uUNeH+SiZs@cC7u2FoxY5jUGrl4oSNrgZ=w)#}Fx2
z(>4{4r5*C%Agn}zwdC`tD2~8?8{siC@D)4nK3#C{fVMg$G03(zEkX>e9|G;lb)}>h
zPYaYux<Hm_hqhv7DbJ(;CqsjgLqU{r9Z41Y4ZE`bs5JSP^!nfQGNbWn`;Z(`szj@k
zsZggLot_2~04p4N2PB|GSxd|4TgVK{$W?rz;`p6$@A8Ce`ML6Qhrc)LweCx+?!~-@
z+<N8HD^GQuZadSNENhJyv`%=cPj)}ueQH0Hr=I3f$K|q$Q}>RSHKfX#5@k)PvgL`g
z<zvBQ*<GXd%ca$)E#swgM{QSJWhvLpglp!hp>fxoGh(WFU7~s2%eL|6O_wVhU?4US
zU)UAzy>Gno{?Sc8DXYyY&|UV_;p2x-Sxy}~BP896;`T*sq2WH5zoNeQYkCm_khTQ^
z;$VLuAkQYRi`02cKm9M{qJEcOq!;V(Ipk`j*IarL!jhfnX*o%*ae94}URNkBy=G8<
z?Sj|i+|Nx8i+!@fWVxR|wUMrNyPrR^bFAUT2Nm}@T-`)|lXkbI_B0~kXH2+CKa;Zy
zEX}8+Ne(|}_OPFGJK4|6!T9!_=LfG*h*CTi+K=+|N2hkz!Yd!OD+-`#aWS+X%U-gA
z&b5hl(7I;HAqpx@>mZ7ESnxU1o(Fa)HV56JLC?ni+)2>c@L=>P%yj2r0|Y3)2NtP`
z7IlkW1t-u|pc+-H+?mC)0LRkj#g;J<T*}Z;P+aD1+AAIQc^L*#Es(Vwf)Sz&`$DuU
zdYGlgS^?D5?T%GSa-nw+m5>hw=~x5&QH{Xc9t?_5OKH?*P|TnrRq7Grsz2mrz?blF
zF7-Ifv7HZC^0bn16aqtt<jyjvq6rn7k*@=F8fzz}%T*dNmB#vnT^ZHv#ho855Xt*7
z^T#aNs6oB~Dmb2j3JiJ|z*#4qK5oGU;yMxnV&HZQqn1%Kt`fICUI4ZD^gvYKc>r?6
zrT|g-|Io6)T{_AwA*`FTICHdKxd;3T9G^8QlCTlnOsgO|hT67e^63iFGtAzP@W;*h
zQJR6q@}Vw`EXzmkY5Y9MO+G*2m#H{5amUdsFQK9IK&5WYHrF4vLS1fQvNBujFq^gt
zY2)>FKue2xPl(^UduV{|NFkkRcnB9;EAti;{J`J<Cb6=L6i!V`PwZVESTFo!tvF;6
zj2e6vMQ1oIRz?`DS<ADTVHZZn(S62p-=SDRW<EV&LS~^&3f(Bs@=ROUB2AmINadd*
z43fM6nw~D!GF3^yNZP5cG+Z5-c58066%1o(((<E66(Y|={SY8rhy72?%n3<jYo=K~
z3U)H?ddZjg0|blvP|G(JH7u-TDo-3d{^9uSwoC4|%MGn#d(H(DD>jWcbjORm6Eha3
zW-Lz3SUfiKqUX<Q&evS1OSRvVXul^pW5)^SM6owjJTFl^?@ZA-=Xi0)Pf9CJ9QyR4
zRKcuE1+x_M)5qEy+MD_FbNTj#!ufetxFJMgsGcE}2I?+rUff+vE2IW5O{4rl?_COB
zAzU*p2vPdrerhF2Hr~oX(Gw83<X~k8RBC6Rv5do<$vr7J9Nur+a8ruId#>|;(a&TB
z<SiN&jW^wqbkp7l29aKL<)Bg7MU|e7a%F;Z@*HyA1g0#cWc1of^}Y+K2vZ8clm)z{
zk`N_+&HxYMXVO|~Sxa~jKZFPILwFEBIv#{uftZx#uMrQH^rE*RfH81h>?&K#h6fN0
zwh%IVUC2um8I7XEg7m}KW235hNjSqY0FN~!Ly^_zUA}m!w^x!62Kyy1Xh-edb>J)&
z2q07JQw&B_*$vy`7B=KafCZr-WHp3TLm@@}qAn#x76g3BuIFau0wvP^9g_UQx>(t{
zqgNN=o<6TuQ^1L+bo=O1cGJ)o<24ma)=cSM9Yqdfp2#JXl#yFEgBhR2tjffSjLp9R
zUd&{X3_ZGBZQu~mEDB&UEXH*x?20(p_2w{G)8oes+^ge9Qg}0FA=X9`Grjw#%ohEe
zrl>sZ?b`#3AukR_kmP20CM`b3SE#^-Df27P1AxtpF3IjOg(*Ovatw`RfSJ5wpum_B
zTB{<`=pg3QhD)y5c_7Tc!7^pm>y-^xJhkx|WEN6g3jSb*_nN~}RW!Qk=LMXnE|YA(
zG7Z@-*HPExP}y{is!Xo~nXtnO*ioDZb`&c#G=2zn;D=xbestIYw=$<F%e1q9FYc#j
zCR$lE3Q<F5{9XMNVx5HEfK1s!T$n$?hfPNyy8}&>$Fjh%H;0(13H9y=HKEbw$WD6<
z+JWrS^I4nAFXs1GsHA<gUpD8-CuEX8`X7-CL<sNHT8l!pK}dJw*5cOZyscf5-(PKQ
zaZXe5DOdlhDSEkKvI^HlZ269cf|jO-r>hIOgPgn(G%3>%$m=ziQlBFh(Kcd1jF}^F
z5!IS^E*PQ>rxs7NQ*63y5PfRNn@YEMmr;i3FycRm`fKKgK38mU*I^u$(huA-2qQo6
zLrm!d_#FkS6ea+#V-PmSo0;(-w)@s~0AqFNS8VjM_&Zc=ldhUJ#5%ZZA9irW%KMSN
z*|<%knPs1L)9&evn~l=8{=I`hYLT=>ltPf~vt#DJNPz1+`oQN(dk<n0aWkqe4<8tW
zrDCL+v{QY-W+18PAgs;h23q=!^!hTAq>C7+3@}?uf`juYq={a7-f8;*b%%1=eIIZ)
zOc$ZBV5WW`!|Exno+);Kqa~m_6-0}3U-V8fJgsUgNC?1Sr>YIB4WPNy|D=GV{tr<9
z2UuUoi&4%~1g+MixktH4p~5ov4HGUPg3Vn)#ZzmKuZ2yzt06vb?IqXRiMo}kx{Zmt
zjjuVAb-klov8OrZZoK4fJToKZTbuB$J@=u6uRZ14nDA{(`L<p1ZJVfUOjRySRKkus
zQQ4BJT%M?0o~pbvQF&*)_|A#K%BMbX`~#;pB@5@oeXB1OuAZ2^IyJjHF}wS<`N`S$
z#tUXmxM!!_^DnvQ$6MB?S~e$IHow-IXxW--*>S05#{^E_s$7z&Tr$?mvR$31Tpcf7
zJz2^X6uo(^ge&l*Tn!0V!!J0SW$qQ1=ae(ynteJp=DRfS4m#T2ktm;krZrK%h>Y4R
zPR&iYy{GRxv+?;rYR<~UoR#OQ$LDlRRL(fH=jjih9!^xYUMg;#D5*SI^K{Lr4dW#Z
z6tw&4M=ll5d2_;5I9Y;1u1CD+{A2BFJLYh&@a?nlb74-q(1oj^7gXT=ss*>%nX|}1
z!gTcHRsKEB`I-6;3O%dDmai%ru|qUsQ`LVqrv9^&ctj+1pcCIN7G@G%a2E_ad<AJ|
zZ*P~fgF=q2-Z8j~EO3dKljKFcv?jY4<)v=<keN7S>iUc{XQ3X<9R>Ax;W!Dzlc~bm
z15ix7m+}mg@<>@uCdmDVcEjk7B=^dMRK6jvAc7!s(=?Ipu`;9TI@R_2G-t_v92mc%
z3d$cB?NAVYY_DY~Gi_0(H_0HfR65k%3|kWZrYaMzJYs_VU4GHCE_ooW*x|f~DUO(9
z5Eu8G0+cU%up3DbNftp%G3Nm+{%Zb^eE5hoz8b&(e$*H$BhDyi8pV$;hDPlCqHJAk
zF5e5tZ5K^7c?H^<6ape~tLR{O(*s<V$82A8iY~*hljjC}BUX8y1N0;Ctd7Twt}sO9
zP&(z$v0%g|7CxI{>vMx1<)8fOh(Oj2hHMD<(ZXY2n1aDHY}7#YfodxEL2NTwF+6!$
zi|H$hEmPKuw+~DcNH03T6f;q=F(=uE!Wns?G@^q$6xKz-T|G>tmFAuD=TTCcFN|5q
zGJUo8XEY;X*7tR8>*;!k2|dz+h&xg7MmX$UdokhVJ2BEemty>2RW@OzOYa>Bl4dn?
z7t}JulV76}tTGmB@BrP|%t3X-+&`rN3z<Shm`ytFGiCI48>RXZ%1Jv|y8?&~y)9e+
zv?&U;u~TixU#6W)c|`ODO05(m606KupqT;Rq($mP4oA6vw3kf^f}>)hYQ}Q~&lH@#
zKUuYCv>V4|I0~O~ecW|oIAQmG!ZlG+HfjYuj<dVPll!0EpD3!QT}-a$T`6yC!rMC5
zc#cncS0@T)jCP)A{LBI(@Yg)O=2SFU);QWpwEBmSfB4klad*>1E$$gTZ927*^uWp5
z1t;tikjEdsR5owIQ*(0b(_67^YDIkZk{^4P{-k^c&TlNQpP18fdgoXC&-=&h$vLY|
zIVY-SK3Dim;hBTyVu`t%$E)t1tkf%Zsi=O^%N19Q7QT6{l`Ee83(n-IxKdXB@ot!L
zJ1X9uY~t#?soIuAZ3}|R>;Iw3i-7X_>yZYG%129Z+1@Lyb30by$~_m^6vB)f?^W(j
z7tZ(R@n#*L1-S^i(BD-ub<VuK*|7M5WRs71^HN)Ec-ho##!0k<^)cDlbYLTlZ_o^i
zpv#>@F2rgwhBqhd5{)n^%Z_rdyXT)-jca7F0b1c&h|=lF--NqZ6GnKs4xkY3+$W#N
z)MzHmmiYg_xG#Zk>p1Ux4|upi@V>wcBzRvU#Y>`2ikB!+q%O;r6PJ-iS{5yl$^&#U
zR7@*wO(kwkHAziv;)ZU#H61&R{A=1W+wNAelg4d#TRegeV1)Xa-gVmDZMTIaI*!wB
zcmLnK3j`s{Zj$y%oEgl0&o|#S7x^l~gu7#SSOY47RUk~de3aA=pm{Ac(P<T^O{E&e
z-t8lfW5dHLR5Xzl)65wEA5s$uLpH^|<46lTQ-D*GoJApLx#TRLJO8G01E{CYbk^oI
zr=vDtn~<1}nnc_KXg~FR-1jmnN*@N)Fj3O0s7O(OKDCY5bCmP5UOiZaQ9!41yIYZM
z%t;!_I02n8Y7SbPi(=ZGD8i4Z@uaw7id#ueedhd?^E3WXcD0mU9ZaqXSZi3TtCAAp
z-stR(m>#|e1|FG;wSauYUK$ie&*~%BUNQ#Ah`UQ~Wbt6UOjS6Hq)&2h30=1ZgQ+-b
zEi`4#l|?yN^Ig|7UfOeqoY9@U!PGWiO7yF?>rF(yYKvNpriQsDh)kLq=0VYd6}1~o
zwR6W;5nL<JR4OZyq(aw2B)z(3-qNPcmfml}@f81*Ktv7gnvE;Aj)+l@Ob{yg&kNJS
zG(T;6#5inx(t62AhavuqY8-WxV~_NEu-yr|%A_kga}TOdAJ&Db$~>{5AMAD5yW{Ux
zgu3>K3gm}#jLt1wzT^{21c%33{3PKFn(%k$GRE=CMw#|;#SCVUKL8xUT|om0?)f|*
zlHcN=<$3OkCGiATn@K7ukorqV4HlVU1EZlB8B|e@wA8_IAL)*wSXvH7#KUxm|6(88
zc)C%`o8dKl{L}47l>h^x4g;u0g4n2Y66-7i!=}f&Ff(m<PM8}uxpBvyK+%^3@Mda4
zl?hn|0MlGCsca3zXGxrv_ef(!3T+_e6ax439|=gws55vvn1Bf#LJ+qi`bpv=W6OVH
z^O^~~?K9dG(3X9>x?yZ96KiFl#<#6(_|iv8IySEE8nH>MEb@w8yO<-!Q()d?%$lT~
z1CR#;I=WC{5pq}ZEjZ#N-Arnx5r+(n93MZ6YxaJ`gf1>0n0lDhx2VG)Qz}6wRo?1H
zhKEk#hJDOGE>3J@OrLtg)gIC5FzeF%Ep0D1(XlcS=8l=m@=kYyPiD4Ja^_F(4X0&)
zelI|htm05+9qx+rBf-q(>7M_QTQp+=`^{|D)opV<i|N(j!m3c=W~p%VLfH-Tcj|(L
zyJvdC8AYLt8Yu%>6yL=AX_@ZX)~gTAJrc~UUGdh3yq%J_GwAJ}>3=KR`)*$0>|`*n
zcHY03*A%X4TQDtT1ZuY5NRw(hXZyqXwab7;9M>G-{QJZCmErsfJi?aizMa8k=B?Ve
z+#)Tk0;19gup;1A9q0DkN=Ab|U}yB_I`Vey;J;hc;ej<#t9B0C?_#G5qq~7&GG>Mh
zR9PaK<bP_!4_rIW9T^3D{GymolTzM6Y2(xeLmz(e5JnR?4JI*9BP*x5pIrBmaRi1;
zTKbg7vr{H5MY8WQmg0kmy+Wh5110}#iu<v!<=wRWFV;?BtkS3U{zUMY@@{qUTw#;c
z)D>*%2^RED?Oqbx%Yyx>y-(~7q-_75@y5R3&Vz3Xht{9k0y1TL{Tv*GPF2ahi8eQF
z3yBeLOSD0))vt3=h-0_T!3ly!$zQ_s+BK9eDHjFpl46?3quqXNe5_8J^%^!!-q|P8
z;s(0RcWI&^&Ts3(PznhpN(A?Bzcc_X4clp8v=uDwz)yftY+WkA|1g_4Yv8FoHfE>|
z-5uofN5fBv4<U;r9HmTNpHNMLsRj6<Iben=LfQ3Fc6~6rVcMz5LR8MzzG-dy>9V7M
zWHVbd|E3>Wn@K9OMN!~VRm;6n*pX!Xu9Jtk1_YyBpABXh^92-_gutelq4OHZ9P|1u
z@)iDNnh^Ld@nb1^yqFl;4HcaE+I@c%yK?*|R@~zRh#6$M_n)$ywi5oHzy=)`te%Cy
z{o)CNQ})x2OSribSdl0Wuo`rL#(fE6a-;6JX!tqF4{5A$F%Kqapa-Z6e4?itba_DZ
zc}aqNxzW;uzU2vhL7#~K!1|{^0;~=-@!=fjCqY#9seLwV_1CL@!!|u!Mw)4hnY7^~
z%CA99dzbvQaO4NXo0cCSq|uFPTHU_D`%<y+^*Ph5hpDa;fS8^!D}3OX&4h^oL<1At
z+BU|mZN9)?vWVGt8HZLir%4Mm&tL`8$7n)yD~bEW%)8{$u0~W_e%Eo|x;|!13%9GG
zx-B-{V^t)rDYHXQsk(+;YK-AzeSE<YloB%rR*b<;HHB^i9-T$6LSxWqr|zq|hEs>r
z)IMX_H~S@rzgrFU_o}YZ-KtBsCpGOvlMXeHOHTh@HO6Sa>eB5=O*fF3mUtxe7|<^C
zD>1nZ=((saJ+7F8{ed6-(7w}SBj+#p52(374TTL#Ei#_dcBjj{!1)iU;iGgli~IDe
zI$(Zo^hjJVeu5swj~-p`Kb)zJW!9Rp%#In$q)Gk|@On%t0ctL)a&TTn9E>6ZVFR$3
z0)I7r+{aut=%N5KB|OC$6bIY~SrcRZ;|DuD!xzUue>%>Dl86jd?m0U~_%d>XCju0n
zhe=fgh}nc$h*28~`4NOG+Iv5OB&ST!;v@Ou$O%ZkjEF-@(Ks)~V?!boBaPsNph&J3
z?mKp3<TSL|iE5w_NdnWv`1v7lvqP(eFOn+%1P}Z$@b@PnM5D%#Wm>eKDpS*Y0K6l{
zkqgJy+->Qg`Xc`B{0)qF;dcGN!*D4FA);xYE|-9C$|>$s2Qv{NHE{|YxXMKk%BoOd
z`XG#^9YR3gCg8kQx7xepscB<T6b=XjFButMn0%SqgmT0&GMJJ<tJr};#hql-k}uJT
zMS8|LVm|Yz2yr7>D?uxKz(GabDn5#x6@4p;^pX@XX$mSWix}EKemg#LhKPHREEt2x
zl{iuL@Y$26hKIlqqu)#tN8N<u!FLdO%Ce-cyyY~~w(&LlHTyD1SjHEVpHB{EHiR<U
zq|CN(X3n!iSBG#lNO!Fo&B^v@<Ejg)mu5S^HgIhqm|wf#{nHKK*|3zn2MQ-trNSFJ
z8u>Ldf`BGABOXS};%7w6(l+=JE`R8EWz<w3vei-1#*s7|eMmepdD19CtIwo?F~nF&
zX&Gor(DL&fq-Dl{G`J+_n3kBiC&XY)w2Qf3lSC{CAD#kpPo0I@wio-76UZtFh#+cv
z?~%8r-$<E_rUCIEXbuq~FlHLsWGvbD(T<o2$>!qY6#X%ZPJA>Xn~3I^iD<!$V_1DV
zX5_dC)g8d(6D>|Wg+wY7pEgVL6*4u=(Die5LxQ>bVF@~E#y*33$ul-BbLRLLE1`cZ
zGiNsaYwm0AujB_a%ORKIa6Qw0rTyux*Y?b}FJv#)><s66W^Hq+bM14rfvgQzdRL%r
ztoL1I#us6>hcauV%$iW<Mk#Zn_VezO{ZFbx?fa$n{Y%ND$VHj%yXtmr;BgAPgWj09
z)Y)+#3H`Nux@oJYZJ$I_)w@yb#xIjfNg|M#<&HtHaP0W0vrvu)#!gLxk*rUN#14r(
zq#O^V=IGowWA4U50)_!aw|l+FxU2prdTPz`BY2Q4zfYoy^75n8Tj#^k)MBX*w2{CW
z62*TTH3`BdZdleqsVLGSP9DIIPH_Hu@Mmk~#!R}D9|Y54qz&~2r{l%c1wCmP(h5Z#
zsOE8BLYgLMt{OxH3gs}v0RplWeA)Ma1vMpUfIki3OEHVC7@d;_)DZKVJ~><$!qMw4
zhbX!M#2bh!W6wOq6taPlNtCPf7T`aKwCCT(L>?!y)p?;HOty}kKI6Z*{SpLbj?!8r
zL<ls4<8&AQjI#Y*GV~iXp)J@Q7$`FubWq<&$YqQuDufwf0&R3kuuHc1=M=?BYH`$?
zw2wAsEL!?xN{y35oYh)Q6eU=wu@O#Se0<+R9&BO0Qvl*cumC(68>V-M+jn8DEVl0t
z<sS&<ADBP?AMOWHBd6h~;rs(XmGTdKu$X^fdS4*_z;apppETb{3T_z)mJLqtUUHVK
z<atARHBw%UOzpbvx?u?Bbx!w(^C|*0`=q>m)BU#~fK$AjlJ%_Psw0r!vXs&ax?e{A
z^x!QU9#vch&$9J;-BQX<64Zh3s*y{ro!_^V(hic{^xy}+7S#E&b5||@8~g_0nKU?_
zH?#;}7n;m3@{RU+W0U!1p+)!>kAPSCCiCy}EyA}uHsM!<uV*+@UF}&6H|m6^-m{Om
zAebI9jlUgYAfWfsJIM9W1$*q_agq3L7{9lV>4sc`V4x|_7V9^(#Yz~X55pB<`SOef
zUsdCCHwCTQWT)ji_46r&HR&4TpdC<yphi<r|G3Yeu6pQO&S<9Ur`tNxUEL0FnI%#Y
z`<U_`^a*`TBi~uzyyTxS6Vbdtg8zBdoMIznYECtHk7?iINil)0kbo_H>%^z+@=B7;
z4jN|<2=N|_|LJjvmaAiqEq`3o(}E5B*qU@*CjqFR0Mrg9uVLb$5ij~5rE>(^#@RD#
zWgG^?KS77cT2vjn2!U^+OjD&A<GWs;Y96I#5UMj?(VPwy=$cTc(9h!M$@o<m5fhur
zO!)<{d;f*}pQH@8k}*MG0m1jw8}i=bT08Y8iWBTEYolDD{pGvJM3!c7nv-(F1(l(K
zI;o&e-e_h7U2EyKpt}*+^<;M-xnw!ZyX>hBd0Hh;Ysj-z@@x&~?E)S<I}LQZ)U;JQ
zmy{t>U0+C=e+&!&A<s_9v-3t?(6evJIS`|!G+KaN>jS8A2&Gp@=@ro2kd&JscL-6W
zUN;8vn&m>wTuv_Zil*k0UeTo7fA$e><TBrx4%KVBNcGw-QoRP(S34Tv`C1YW_iIqG
zmSTLZq^i?leBEJ!`}GtfLaXW`8N-+sxH=9!0yUx}08iIZkyahMeTtXiig=Fn_wO6(
z=<grAf9T+S1Bd(ebr1Cq9_$#pZ+{mwlnwOCXU88>+=6xdhq3oZ@nJezc4HtT#p@z!
z7s-10mMIdj5pgNti+sBjnRKT3w^WpiNZ<N4DbmW1B(u9FC@sq6Qyig8G+*_?sd*?@
z&PeJya8g!`NL!4UK{;C#g%1&@+#UP-hW2(JWul6aT=@d7Zod$>QKfg7fCl5Vj+C%;
zUERCx>qYnV4&jzQbg28_k?w;-2fGjLhen6)h+S_Famqjn!7uhwciB#!K7)l%3Jj8D
z=MWe-&*E)U3$EB_z(Wd$kDUgQbU4PT55XX#o)!^1I5*FZFs98&y4KY=vjG6&onv3b
z_AsPyafBZ`qeztd@VL^ci;$@u_xYhQ^2^i{lVq?#q`?tSlksWlVIx#wFi=%IPkvt@
zKZjgHCPoXa2jg@d0v-cgJ8~1Cd~*^JeJ<om>skNgm2J~jviKFm%c5mVa1%J`ERK-H
zvuN=wyE4N$`E&m3{_j1?)G%H#u3EX|tgl{Ja#c<n-=%o9i<VkNDGIb8CT+(v$u>LK
z>urPlJJ!+{jx1Sge=O{MM=1E}BTGWrieL!|S(1?TrE^O{At{m^xH>S^`Q*NLh141E
zl8~iEShi+`v)rMqYALH4a_b>?gXC_|ebk_+gEM8Xa%Ph`n!=fFA(LA&xxczCXsU`D
ztfsvX4Ua;X&tCr9r*AX+j*&B0%R$i$Ex}S=W6-oQYDj^O$5$8^{y~0e>%rUL!#~JV
zk|sGUTF!YZUaWn-cCn=U+s&b-E|8W2&@ouj9ZVgNO1fvgf8qU2FMdj?0|Cpx)HxVo
zt0QD}OIG(%UeiJk1nZZqoh#IHWs8=wm_T~=1)z_~DtFLQcIA>##k#nD(NeE<u_37p
zZ)q{cTzk?pg;xq^%|TmH)R1h;f5mc}gN6FqJ<KCo!e!?@JN~8dX?xgP7xFes-sbCv
z7K(%3t>CkocFcTYIo<u$&7r)FQr^bvP>!(!dujSU$T~aHp4o9_$LyvhM`_rZ9C8*)
z&cfLXZ#pZNu>~hpN=cRTIZH_!!_JcF&SwU$49vC$oh5Ud-gMT21{Y2%n;V_`WT5dt
zAm!j4qk&XaL+@rZmCG()&EXt{A$x^nub4Lm?X^>KUt}*@vR7=*XL7FO1k$`gTWQpg
zVXJ%P#BB~1HK>evL~A)`^3<LWZiAGVHpsI_xV~R#*;^rezg&RH&Ny)zGk%SZ72-Vn
z9RBY75K;*8T?)V%JmNoqScXJE$rDM5{eh04kOU~P6Fm3{65fTx>=+&cLn4$IkYCu9
z=(}VZgZ3uyZwfK^e^7ERnPX64=EOD7wY=kwmnT3C2kurx$)WoL`;aaH;OC?`1WCwo
zfUJqR-EoOPKo#M!?nY|WRUIdyKMfmoMIithiS<M-(=bYxsJIVxH;xv@dE%#vqFGnE
z4ej%+kFUtNwD`Shm|Fi!c7K`bH);2msBZN(=`-vBI524+tx!XBTg@ZB7T|&1nz$Zf
zy}wFLucp3aNA5MMuWl#KL7gQD%A{FiM}KLwFFmg(vJ(4`YBVuD?ihcPyW~h5|KsQ5
zZ&Y(edlFE>)=)_3w#Pn<yJgaeci|LN9Ok1wQ}|JhvZcnywPLgGR$XcjukS0!&RD^X
z{gi);8kbf{qI@S!lQgF^+Ljt0^ijiT0-6?lcj|Fe7kqcAZrz@=!@o=at-3~gRF`fe
z=5GC$>Voec)vep`O+;Zbj3%HIftE_Z0=_Y59z#D@%D<p-Ozxu>b$ZWT`^b=x67*p`
zmw+yWT7R7Wd_b+IZX<_8z5MUr$JUpXJy+@DI<?M9A9wj5Qhn~)$ELgX&&Qb;iDrQ9
zW#x2GYPUhHi~pGFf?x?ZY3*8v))%+<kE?O+T661%uA#&;AyGXYFI(lZlzM8r$*_~H
z=63&yd)DRS&&fnJNs8;SX0_a5mr|3*RG+){$}guT+RiBViBA|#W;OEq$3H@i67LWx
zDj$r}?;7`j-}e#ny!-C?(MMkEZ|qMRKLVaypgp|afBqxXB4Nw0q7v+$ucWEmB}#j>
zy<aQwGr!~#wS7?8A3o!M{GKI#{5@DJMa`R?X*=~_s_Wl!UwtM0Wx(t7DZRgw{eYqL
z#h{;{diH(D+Pd3Wl3+EXb%}S-#AoP}YU#TDN=Dqy)TxFc?`hSo+nB}LsXq+9n<0&_
zMANtk-Uhr7WqSH0W}aqd9ZccrpD^<{LuF<SfN{Wa`q%}=dk4N-dMB6R1MIR8DrxV6
z4Bgo?gz5m6(tphN7<*U`LPt>P1rjzx5T-l~$~K`t@bU*G@kKyh0CR$jZtyW3;gBPA
zsW?iI7Vut&BAMz3ErbOABl%2FRsE?l_bM+JN8GZ=l%f!F=$KD-0kZ>s1_j##on+(i
z9tS@IbnuN+Wk7@xl^<{c$x8ZMj^XiRU|QASd?h&uY#__1B@B=Fp?cOAaVw#q&>bIv
zib+Ph8#+rEn@E}xMzj*3cg~!JPC=%xml011mvj6vh&X&5C=&4nGX5isNS<E=@j$~(
zt!cLSyA<t3isl6djOc`Ni-t&(1#?1jibRfwz$-Z-&QtVnkU=*NkzN-Pze&dL!GM|s
zRy4~~52v6tqzHnNoA7ssK!5eF`w-R<@!jjF_j3xj{?jg%vz+OQ66t8b%rVqAh|j>e
zhON`Kl{Cd)I3sSKC}!$8!MH&E0#4wqOl`Sud%YH=41k0$3t2EUaKP2^YSDbgwEs(&
zmXb?fE&4$GYg}=m-#6K(PRJoPA>;a2{Fd7Oh-u{X!z06LH)tcE#}FOJQnXUO200t*
z95IbNj4>Y6uOQZ~9Y}qw5)A{mmi5kOxv~+U!HJ~HlL>tBm}R8wAJ65;j6OZ`Thgg)
zvI3jR))XyCv65=~Dmq7`E0Opd)$>7e(GnDYpNuOoBIzWI6W>EREs;<dY%WHea^_&j
zhBjsKCCYD@0$Wf}Bvl?Ps4Y?m_RyP4xhE5jm#r;jIXT!$motf^439i=?CdH35S|ex
zf1gNzjQBg0_b15p50r<TH%$V(lO;zZ_?0aV)~Au|_yw)Z`A7;Yno&QMwVewLDPBB>
z@?oHu<t0d42Q}$#%R;<OrQJtW(It1pad6kLnRA_L`!kAiKN<g*;u)c2So|dY1bvtj
z>GD8QpWr_ymz`X{LM{ur2=^f-lj|6{z^MroEx9ttMc}dc6EZ$U#+RuyaB*W>P#P_F
zEII~?s7d(#F>F<0IbvWZVPj24f{gvW4p$^?-CXg>Gw-)4>*vY%HjGFX$i3sI&Y_>y
z?l^4Z|1(9SaboQLI^Gv9g{ZT3^@=}0+^-Y<_W}%=Y-8urJ)yK3DXnH|FT++ANc752
zRk)xyRL~^hztz2hcY#K)jm~}&NKF=}Xwg!%oLhb!n9)wDsdFi}>xye7w_w@@(r-6^
zKQO6=9P?XUM;5xCPMU3=@A}rBm-hV7+7{@dx93cmz!K(|@$gMv<y7~QkgZ{T16d7I
z-A@jNbG+oAxsqQM%HJmCZwuz{2xaY<8q_%Y%jO<m658JNZVFqSGR}2&-~5(PO(&!$
zP<E*q@7fib@q!TwK@3Z_WXYawU9=Q0SG5JJHq#5CxwADde0GV6F9woZ!>-(rt44Cw
z1YLC@Yn^1R3)_-Hw%kP<k(0hS4wb4Dqe^mB&6kF%+okIEpleIWx<#^XS;=xwJ3!%f
zW``Ul&^Qoq)T5QQjF7cRvKED`4U5)>m89gTg<78Sk)nYDmQgt`geo^nm74=w_6F1Y
zr~2P5X$fa}!?{)A%wllCc+J#FMJU*j60(;`_Og(@O|rKI?VCfw=76v{S_+L0vv}*M
za<!PV6@~F8y)!lBtdN`);k>FaknB};p{hMn)t+!gO{k(rs^|$9mV^r1rNVYl1421<
zQcfMlg3W|2Qo)u`LBCYcpCDC{H&oOr6}5&T1DoF<<u|-nkPO6i3Fk_SmT@Ngl28(b
z@)ET+Wt`2urZyyFNr>n8YE{;TDtAkjyA#x}p*hs>fYk7SUQwE_AG4Olsi<W+)v}7!
zvH%i=S}oH#n`cce(Pvset?xOl>B&}Pnn9UnvrN6K&A??#bS?&69ZQam)od=QIGj=t
zPRR_V)JQ2cVb6weQC+yOIb7EmsvD5%2Ew%sq1t|_wja{aAy2d9X?`!&2E=*}Wm~|q
z_27jnXZp;z<S1K3RX=oiwSK&7B}=09u?;VbZ+Prvxp!_A5Qk36n0Xumv-1_#hotJR
z)g%tG;BhlhtBuWsE^|@aQd!%IRx`M&U3}P@8MY>ctX|0q<r`(;tlDr{Rj8~-D(eZC
zR)$Kuq|z=n{<Tt0?P{{Mimiw;%sXe^EIOucHJP({?^dcdnD05vC_aUXPiMuKV@|~6
zQ2g<8D5b$s)?NW;Tbsk(X1g}I)-S?)&F%MclhA}hYC<t<LTR*Jt3YOguGh*^$3S1z
z+G3`u*C2TsF!hjm7G<8xGS5LtSO9Ek(jHV6_7qQbzbO=aaNB35ojrxi-pPLuHDeF{
z0OM+_hnur){Q#59)c#MtlQ;k`cjO<f;=fy1cr;V^?$#E#Uu)!#x`o#^ZioBz2L5P)
z@Oop10YARi#2@tt-)r6s_xJ1gqh8_r^}90h;|(K!v|M;YIFOAWZx!%ldYI{DW;vM=
z0l<&A268r`e1e|ud>-dBB<tanzeE%vNcm8F_Nk&_Dn4FJiAjqSHU2|dlpueJs8F$R
zdLnjeow7p`w25?o#+0wzpw;rojtO<e`pa%;1fyQSM?7*rSMCX@OL4iU%O%B{I=hj~
zqgN#iFmM{GuFa2tPyf_KnO*xUNCeHlW?AcX#M03-)Hl$5SftiPtje#}h~v;;=iZ@1
zhYxml?1QFiXo`oH?C~>rlHkx_{}2UsAC5Q=4T4SJzC+y|U0nzDU;76S9*zi*i5tcR
z;thhT{t^aspd$+(b&>{AWq|)4_n;vK-cvMj{}8cf=pOW0#GT@nlhR4i(Nxc}C4ctt
zT=BL0m+)*NR0$PbEt)pJ3zhEMu56n#zj7p0w?nGivE<k})fE=3PYpgX_@$muMwygR
z_QJVPMY~kdzR<BGY`<4n-xGb)!%q&bIFhIK$`bBoRA|kd7f>-a=YIo^SZxxC=4H&h
zK|b+cOep0V_kpIVq@jCgB020e;||FVQWW$TNCP&d{|bu@@O=Y)4~Tz_U*Zyl7({B2
z_$G`s7uDRgqj7fZ<b@$+NZvx+=V(aidW<2FJN*Uoi>~Kg-#!v*>6Kb~mmIt0j#oM`
ztaad;z9S4Y>$?Z#{X$>UC?oz;=}$}&CPDv*n?aFIuvbj-=XkM3rx=rRr9|<-A`dC~
zM5|S2)khrRIg`3efdNnxr%1HJX*D*W#02|9BHA%z(2Qa^vF@YR#WA(U6Bi#+LrugZ
zzJ?be^^Qj)Cfp~L_iE|N2)=8m4VABq?VgEbPbH8j&^^r5$$iEX;cF+1o=a7FA`MBT
zCBpUpI7SHg9f;uoc_T~XfMe!QX+GV65wY$axyTrL#C_y9hUnsV$wfC&%t_+diKMa%
zwS0$W74k*0WiPEv1u^Ag>Ef8{a@6}cL_kiedk4LfF0P=EuhTS@Pz<JNPE{ypvy`(r
zn6o7yWHJUF@1n&^cY$qE<+ecg5vlUXvMVd>s+`Y|m9PaWcSJdUCtnyYEdJV~*B%X2
zYzh``4ivO6ltOGaX(w)DMtXh~>^itt6t#p3yQIRdU|~-{$XlWFzg^0259RNb^7jU;
z_@4taY<CArHcR%+a#4Y*&4J2xl(I!HWP7l1N1$Nm4S@>ji75n^A4fagfcp9M;?^|t
z*;;Cbx#sL8-?$I2h-xcH-BrLpfbNpNH9HBH=mZtpVjg`+7(-np!v?1Np(tjpBv=br
zA+#IBeQF*!$GAkRC9W0;PD?chtrpsOnMiw8;!@N+V%c)zdMGEZ;`k|M#qeWrqX}ZD
z`9dPP0wpKl*nng!r1QY#!6o9`cm!HW{l#j@&{eMNpMZ|Ms;{~SAs4)6^(09ol&N8f
zB!~T_T4=fI(rvIRV_DJ1MkGO-#Png3(oGOT48^1&WRiab5(kePWG!sOQ8QX8=NW5W
z;6*1ZqdL}Cc3-miHJb0Fwi}Ch&uh|z{m=58aSYNBO5a&8S%+<t7SS+l2MvVwP{*Vd
zrgPGa8kzMPK~LGiBeMF)SP?}$k9ERVOKixVvu8ZMlPAXTxTGR}2K^ljXz|ELqn!{%
z@EE>Gnwc3OQ$OK82kz7ukw*`(?mm)iDf9g=TA55};&^N$$(Pu_*XgIyA4s|krA-5P
zOlL%d)=%P?1~{II?e^hu@JjYU6`&}dJ>!RT&U=^=vC4~FasxE^xl+bnt!$h+4ti}Y
ziMCNX>7bj+RW#=WDo1^EW5PtBL3@P%M1+56!qQOB{xN}^2=ALPwr|)F;oDy_$PX`6
zWygqd45Dfx-B==NG1Q5nGpEi%DwAotkWZL2g`YGgQUnqtYpE7$GCE`;*-DD|NbF3A
z7|%kD8v!wR_XVt@#6T+gMFKR%bClXFH$GxH)Yp5s``|v(o^pzwQlrQ9B2M~od_?rK
z7ZeF%!%4_^PYH&K*k~pU(Zxvo8~W{{;}Mh!@_`O+83evfA!d?D@tum;s1kI<`4c{f
z6gxiRKOx~C&|rKDeK*B{lhovpHF4Cwa%xG~vMl7xW`HY{p%M!hErl;M&G|zW+og)_
zLGO+m#f#p~WovH8S}R#==MRVKx}>_UC2Kc}PKV(u#`&&L?QW@dcd)YWjgH02eaqIu
zkhN8^wqEy#+73x=hnB2|-xUCR6XwYd6yQ@AE?-zq#*z80oR@Nf$s4Z-E19{^9=&?>
zH;3j*=7wK9`TWU1MgyLON%qe51(WNi1*&!Oll^y~f2v+?!M-Q<eX0D}`m6PG^-Dq{
zYD1ZZ^E`7IFXlX-GiMLv)=axdjjDULIp8P?05@mjvWl+Qp%rR4oSGR*EtXP?7gO8j
zhC}6TQhD37dD**ZA!EtAedgG#FmrD9z}3Asx)!_cd!ujK28DLdpL^bTePf`g_4@IJ
zs)f889XEz=90}z1PrJg7T(yk#M=V`ezkt6xG|S@UIrYVfV}h12`}AXiZFhJQF6PpU
z7n>%zM~o-IDD(nEa==(+h<j4Ppgk#JoG3bYmg#B-{`=HO-T845GR-mjN`1rzj_pH?
zsyBek)>)L#CQKw%JPS1<EMQ1ZrUGBCvrs`lE{+X7hQ|v5GyN3vOTG&bbij7AUxNcr
zJZL$H1Z2EJbFdX54AV`6m^M>`dG~H!1)k)|tCNJBsezfUWqaQ20Mv?=O7^~mdKe+0
zZ&B#`8Dl!VT+_mTlW!7!&)mYVdG>@@O<6DRM<o>UTSBos9R7MgCyb#Uh{L=Bf@lbb
zL>B;D)lqc(r{+Od=|mt(TrEBXh|y}{P|HXpPn)<Dy%xI65n_G_z(XoapTHkfZW)Q^
zB1Res^9~QIV65qD<~|28!q|BS*4Rurj93_AO4ekObYC3BnpzaRT4zb9`b3if)@HaO
zv4xeQ0X>P7p8%9Fk9yR)==Nxd?p9rifElblWrm=n3N_}W<q=$<(R&HN4)`VjIN(c{
z-MA0F^>JSK3EzhGzD~}sF<6Z@uMbBmT2FBwd^g2;;U|1GwjDhbzBJ5nAACPDW6H4k
zt4Wi>nw?0Mtb<}(`lrsB&%qr#V|ZwHdfd8xbb+SmjH?iSzN~mbl^gcA8K{+GrWJc#
zEB-3!X<b$V*8gv@8nkgHKr#AbyH9VDAKOLjW+<Y)M=7d~C&uJqS-X$MY@i-_Z>$&p
zJ5~mOE8=31NvD9LzJxkY6dzLGzmA9L%7!8GM$hdgvF%gigdku+9C-vs|D)n9+FaSu
zZ=<YFK|=NvUiCaqZ*vgG3BaI}r$<1v1*|c0W(bfdAjS76(NAC~fX6Wgdq5+F3WgBh
zgfCL?Xk#N@SiC?C8L~q2ks&65JLCf`J(8gY%i=_67F5Gkm56^&xkC^DZx*0^;{PGn
zKafEOocNFAq6dH31Hs}q$*+%olCTS-crrPG7?AEdqC}Db%K*Iq<`;$VJWmN}O^8OU
z#+ZIcRgWLNKisOoml~w^k1Xt!&!m*-#n~Ye^cuYHFvOg?_e1=v??|`aU804GvXWsV
z!wv(gtWN>U0eDS2=VZu@23P!l)F=bR{Z;xo2?M?S=vn{p_<3-e5UY<3esn0ZkI{j}
zf1y-l{2d*M%jg}I_)FB$Um6IuYUa|4=Q2XYEmCnyFtv4RPuP+guoQ$V8mC<|lajUc
zU1;vLIziTa-(*ZNzsJD<slcASY^|U7FIk(HUD>n37seri<jS9YXuk7XeJ}N0_Xk~D
zL)NVU>(+PWr?|t;4WQA4oMn=;EaYsFoGl?|ujK3vJKZ3Z%4m-&h_^(IX+`#x)XcC(
z<4DbXHuq{SfHP*1tWm9$Rf{SBFOt_T<+TU0+m|W!PN`@oqcv4ZIhEnuf>3U?lv}Mk
zNN}lEa@U5d>qFK3Qgwg0xGYrME)}=mDn_B8NhKHD^1}5#mzHavPI|upO?{uWw}&^H
zGQ+OCkQJ|S=B-$r&)Bcnf880~$0G`(pKODPR6mVUqMx!<%(zAAe-?!#pe_FcE#W`=
zp2ZBfysLS4IsaNK-`ik*t<6a8_Qu|J<LfniZ<G1;+Rk+R__G~+Z>#wSoB;O^1P3Dh
zAeryoB>W&nAa|x|cPjS-H@`bs_(7gP?xHmEZ{jIFvWB^dC!conZl~o9j^Ax`zQJ3_
zZMDGvjbt9F-bhW`?KQsPrAp9akEiim3?6%|X4}&s9#-h+tLwym0M-%+QF<W8cNm%?
zWA;3#FpfBeM|{Vj@|q;(ajWdXZudL1%Kwh0HgQT;l3EOL3NHB#*<YuCXUO<E1w4;{
zi2F47T%a~veQBs3EIp6OFsFEpQa(q<EsB4KQZjtBmAKp3Jt`A^5i4L&87GNVh<yaF
zLEwFNs+O<**u%#~f=NY!;N;gCvEb+}7gBtGfdmgl0=;Ba5VTP7VDv?L?OwE#H-TIt
z5pp6mGM^9Kx`^qG(xca)9ta#bvZ!IbCVq(PoT@!Y{32DGaEW3KRn`QQC!R)ohq5%E
zJ$Gt+{7l56NU4f+R~B7lB$Gi<nk=qKu&qcKs7RU;w_X$M^vQCZ*=m3;Y6&foqED6|
zO;tlxWd%N2a|wZFA|YKw0>>i7#Jo2GT}x+un&>R#Fu@yi8Y+%R!>8z`$PZAX2n37d
zp!teUN>W{@u@U*i0*Y8jMiChv7?D&xwk*hbLM$f#WZfUV4|T;Ql*CI$DH&yC5MC*g
zDvu7ms6l!^FvcPQXc3ztcYDq!@AnS&TRBMxV2flbF@Pl)smGKVf*|QBpIAj<8L?sL
z1Nli2g6JY%B}jjH<k%QqTOB`h^0@x^NDX3&1nP-|U=j(ui`0BbLYm<;i%#PV$4v1t
zcBV+~x)i65;nhDpRmqM)Ah_cnLBRnC7Es2@cK0Vzj-NU?#I9)sNs3KWx6*YvDbJ~Z
zI};42c*^!9<fRGT6su^cTgXL#rr1UX0hc0)`iKNjiX^@x5)dhFBZB}(aR(VY$><<s
z7a5&obdk|bMh_XiWb7uRkBmKJ>?Nb0jD2JbkTFQceliY_agdBdWE_TZ_x7kAO}tt%
zuUh@xnyy79)e|QlIeDBt2g6v?BGvayq&)}2*xe#k_e#K6DoM{7<ARHn-!uLg&0Fy(
zwf3Ho*;eI~`5K8~Fj8@^?9YI@LzVd?#lC0d^-bg<ieGlG+(~YGgt7KTYVQ?SVdRuM
zpLhW8-CUN$#~1-4b@$94kI8E1mdslCFqLxGB@u%^^vRgT{B>opILfg#jNBNPr}zlv
zo3$>oyziW#XpfR{l8jL@9wXxvjEKB_Da-pb`M6j<8fub(+7UbRl-YOBP%L>PV{Fy+
z%p9T<?$Z<`?=Gxx+Wy#ysqBFwg{QN;<nR+v*vEE9ABE(^gp7^&>As@``zcu7mgI!K
zi$GhRRzevn>6~8nxkkL;#J1m<!|ObSyIBbcSGFG7S(S50yg(70as(L#E?$I}NO<5#
z+F^hKV38FscAdmS={TS+Mv{kyj*X3t6Json2R!5aHHv<bq8ou06+c563WouiGi4Bw
z)WQAT108)aiVNiTofjw>Q<VQra(#o0za)bcJ&6B}Tz^Z(-;?o=WZWU+eKP)ujDI16
zr^o^s#2+nlN+*%)e^V&2NQ;?du-ii}xqg=dipf<$#&6LE%oL6_;%CG*FnD;VXYjs(
zF0q+{8_3v3Mh6+}qP3S?2go1-dBiZdS0q((;<w2-K?do^5s4Q@oFL<~WPFZ{Un66h
zj4zP!8!#dn_YLenIM~^J=upS5{_de}sLD8eRQxi9UnAoyWc)T6b1)(q?5d@xfavNz
zGPG~7t6Tg-v?}5_jMKei_}CeuG`vVDzCp$}$@pVx_7h|*(9i!w#%nMl$p^a++y@X;
zy|{^gK|y~-L5_p6Vj#*k;>0rzy8(-V1G#4`V(%UsW>1CnjEMnC@I5kKr&O7J14jls
zq2gn3VCV=gfYA0ac<>ODuZU!`%HwzE?jba~r>`G+EV}v*iqBEX*wD`Vx;oS-;+vFt
zm<)FDT_INz4cwoTtB_m`WNaiuQ$!VWBmN-;5OskO8yEtXp-knQ;$KncnPnh1VwaaL
zJJP>Q0YKW0RT=4hc==Ua0-+)fVqjP3O%W?z&XwOyBM`Zvp+V+Gwr<5q0c9K8#bfYC
zO*!942FHPZ%=5S^^2tBqTtDJcnCbWtmvxid@FUK~ekT2h!+%6@+~f-1<_3b?z)i0D
zCYSd%S1obXKj!*=#O1IEX^8nYcR0iymbk+=xt5#U#<#g%iR-<|)!gK^-sIZe=5`0U
z-8VV!+uW`<xn0QT$6U@$uH+`yc$2Gp-(cbmcQ_dDIXV6Sf0JuKz}wsdH@O|}8;W_u
z``kT^I~3(Ts3hk*k$(S8s%-yFZYLgEgTIyI```_a9XGjyvEH5h+uT8kJNUlALgm1C
zFNNbvS;b)1vHI8F<l5inwy~ydzsWVPxJyFrmPL0<kZS?^wLLSCxjATSpE9r1?g?;J
z@03=2y?e?vW1Q)Iw*NQ#rIg|zSA`3%Av0=l^I5Y{B>@YX7ZeXL4#H*Syc<F#I~PlK
zhMPBqYc||=c=*h)Jw0lKjno;QsD)fsuA*lC@biyFZS)IV%Q>^g*+a9|tJ~+gr1Z)t
zB?C#soIbNvGI?$%;ipm*1@u6X^_sHkHnOrB`QmV@Cu)SPltnHoD{3QGf^x_^rX2iK
z%AtTqc{6XHzyA&g>sA_PPya&RlzG+6^KG*^s~oJT)y<d9oWFyvD2uim_~Mxg@Tl{}
zv#0T>2o=clO*6gVf8d(}9y~MxJ8I?m)|vC<*BbC{Ug(m%J1L-*0yfP+w+O62Njv#%
zBELq;6IP&b14s>ptrXBm0d2Du3TO+IZdn+XN_SBJYQ*!+Gxt+KbD+3oL6C~KQb02W
z+_l`MnKnw%G<#{@FBRz(-6Gd#3tpODD3waKQ%+kbC$&{`N!JB%8IwP2+2&bR+0B9S
z9ptx};<nGS%-aJM9pu+eew${qslZKvvTfwY8d@XAtC^c5uNsP0JIh*9J72JnAyu)c
zwHQx>^(psd_jKRfqf_o6zaeTc^HsCxIau?Rx5=VGY+(L)<xh#;8{{*f^@M+bpKpU6
z6xhm8lM_tuh?aLbFDxX#m6jWDZwRI}1X3GUtZ5-@;UduqOBb!BbLX!o1<JRF$v1z|
znjf;3ELuzE?w>y$DBa3@D;KSmA#44jwf=hcLS3L?H}j=fAuEN=w_V>CsNNN|nUc+5
z?KdRd;cNy27{3kaQ9~x5KRX!ZU@cVKCW~sAekYS+WZ`GDL91ozFSeFZi=frViqg<)
zs82edk7*a>U@t(`3M{!o=@cacKX2D2@vf*x?c)9*pBps@eCz!EP^rbYQfxQ#06VWT
z410on_AP^fFQdSmD7m6`JD(d)E(jEES||+^ZkLjGM2+xTF{RIR&SuQ?Nv6U(CU`{M
zTKm)E+W$<_=fU!ww`k3qJsGIpwjc(ob_EJLS?~W`<Cl1(vUqc#v^mPbzJb{UD|V>x
zGrCb}aKKp=<f}1jOUlFUqFc5i-W*QNh#Fz9q~=6Tu(4S|>uKrLJy8q&vT{kOGtF1_
z-ln*eZB5ib{x}%qIT}c64D!%Ml*YHs8}W`f-$v5~7Da|8BDkW}T2H0@D|;%?&=V-{
zT{qPO^<9C|?saoL(7r#=a3E1<h53}Ip^D$n2fSON(5$_me*?88o2r`{({DNC8GS%)
zW>|3lE35vo7wKK=?WTHHgHetgZ(t3Oy{_KmNe7^^gJk}@SG$O+UDg`q$Z-RUk?eKV
zCQp4<g@uf`df#p5TertWO-60^uwZLQ!S2C^y^zljCly4Eurb+hn_$P(B9-E1z%RN>
zA9L3)yb`&5{#<>OgSBw}Hd*Vc0Ke!aW%#B)@scIb&>gJo2~_k><pufOVLpvD1{-j|
zyNPYjH;|FCJu4F!Q@M|in%8d9&R=+2GSC)hl!LW^Z3ou6w!jba66#d^sE64{A5t^l
zJhzq3+GaWuV6CeG{G#mCWyfhDj?j<4Iae%ND<Dv}Xsx?$Sttl>koTeWwPeSri5;Wr
zvBkzJ7gIZo?bXN}-r7K2$9J1wZw=J-N!~rTnQu(J={&oYMNzeB5Ek<P{VJZ6709l7
zsrlvBKz5^)v{7kA$L^0-@uXk)tiwq^`;ZI<WNTo6GVy5<-y&E5y4TcMm-36OK@_)|
z#<`>@?lp}Iy?CUVZ=|71zr#vS!%u>ql&$v{TrxmyDj61)3@f%|{KQ!;SVPAApfNv;
zXQKu#4?xGEtr0p7p>NR6x$9?hLb-K|xpniS!Q9PIYq$cIwg)diIO7VMig4`r@csNP
zlf%>)&diS*VXtI+=CbDtrQ%KBDf{D!KyinZz3VnbK*46uEdyKtg3QjRK5_XIfz<M#
zsRG?&s+z}Aghi1mZ;=NUpc<(pX!6RDDzr$YYa`9%1Wka`%%-Y2j4v$8DDM_|U@w<5
znsEnB`B8%naoTQkuqaN!E%Jbn7vgBmG8j#}___19@rdFsI&`Ss<V1(8ty7_C%RK4?
zi(;WpaK#=4*>Te-W*a#%=bs(=5a4bdz`YJ&VZiyibH9!+owwZPU@@rsRt8+rPpPL<
zAgL_Kmt%<e-8_M~WTWbaid)PJH_7C*CmiAA?AdInsNZ%S`V`v&Ic-w%rYD@?q|B?I
znd=Q?)y|(>FupVv$l59;ZF|CwDP+!@J&e0xAiq5zYzdpPX5BcukuD%?3Y#)#Z2@mn
zAiFsrw1iFW*$3tx59G^1sWaWPTLbBp0ih}k9<?Lajs`L+0zzdNaPx`T&jvE<1Hy)A
zvUQL*NL<R*(yM2$ed49ESDoJ(#l1wT?h6$3N!fd(w7qvYD{r{%<~Hu)-@~(ThIbk}
zAj&-Ll(On(J~Ou)O!;P4$dtQi%AKvnl$)=)ej!k`b5ZCBH+I~i1QJKrb#)Qu-+kPE
z`LH?L{xh(Z(@lzOf{n?hfl~G?x=`K9Ax|8Yw1A6(#v&}>kdVD7WYZEZe~&F;jEy~H
zDh`^8*M`aqTweT?cCI<(-2o<4THb7BB1s7@K3JJpP_Sr%dvB2kp&Qupohd@LavaP!
zB~FPP$7Sa;<_^s_KmTBqgY$aVLi4M8SIPOlyN<7?30nXDr}%t+`)v*e$scFuOI-T<
z=6ni;5#654yXLzH>~UQ`v`W_dn>O;bw>cQmQNEf#%)fd#%8|V=yvpq8gFtw+yyU0T
z9jF6nP32pnX?qNO@=RZpBYUo5mD$k;g;6745>79Q8p*NZNQs)rfj!NU5ydN=a8l>3
z+L-e}i=9uob{0+Y&OLDLacWe`_0~Vy_UbljR7%us<WuH4A#1{?%=dh2-%I;e$$7__
z%-ipjR`H(I2Y3s=hsQ><p($!?<ug}IwpA1CTO!X1&gqFoW9}_t)O>RAtt4+aV<)uH
zy39}X0I}sNxOOC%RQg2ETaMI_BY)A6A9NHx(e;*4c+I~gl&%P_sh+3yT;B8fiEE|7
e<f1nP55!dk_Xn$=c4J~QW%}=Xyd50|>;DHw*Rrkv

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/cli_args.cpython-312.pyc b/entrypoints/openai/__pycache__/cli_args.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..759ac59c8a1ae673bf8974eb6ffac21d81f736ee
GIT binary patch
literal 10785
zcmcIKTW}o5akF=O?*r}t9A1Y97cYVUaR5nxr1%mE5g<j10A&)Q%#)PW@^%3nxcAWP
z9!bD}g>vXBu&heJJc>{`F2iM23`MHg{zyemRjQoWl~Psmai^1w^O~&CN&MkI$Ye?>
z=O^8>w~Hf0`SFphy58xT-kzSGnV#;R``4-}KY>T(zn1*d1BCo1BG%(B7amP>gxn)C
zi4&QV9V!>+*xM0zu(vbrgtt@WQ?9s+LmFOnr#x{FE4x&0$`|*svRn110`UMVJJevR
zDqh9P9<@3ZiicR)tA<lG@tRa^yq4iUwJsHjM^g3idWQSehE!v`G1U}rVt7DpPDSHU
zRt~Bysn&QaD_5y)srGm~D_5(#QbJtdh=VBYO2>OJ9(>}R4sw>rq1!|bE8N@}v$hhx
z=QOc+w-QnUjJgJ>Yu|I2_3xF5t#`afu2Td#q6pKxTz{L7@0J^Y^JFDYvpnsP8=-v<
zqjktlQ0|*|^ffR1nSW|FsR`3bRS^=Iv@RvnnxM}jl1fQwSx}Q{MUd!BE~TV(Ak0wK
zeB;7}iC)crF{`9U&&7Z^E9uE=z(iB%4TTO0=X3%1URSd4P74y$XC*4>AS!l+Y~)OW
zF@+B^X@53Hvl&g%2K~Q6kth2&!+TkIBd4Sj3Y1;bNkx^R;JJ|06)LGv^vRMgB~(e%
z0C9u#)5)1WhY=dp=F^Gs^bANoN@p~qDwD-7BvsVsvkFk`Iz21tQ%WkUf<UKX)G)L&
z8Jd#xi;U7}xFM-Y;I4=XpcM5oDSX=c{Qmvo#ON2r=f_9K#xIGdFTON6C60}s8GY%(
zl+k0go|`;<apJ`b<5T0}_?2;>xO^@?Zjphs)fY0CMkg|IPE}r%^jWB>naX6;7bOb%
zn~>7dj6$I@kW43aQO(SlXu}y*xrJJWVKLR2^oh#(W*ZDD9?b%{M-&3vhr}H|B70<q
z;+*qV5}Re&3H8=@70oiQxD}7$Zic!A4}q=5pi6O^rD?D1zU_*8=ea(w5ylaj@{A@>
z-IInJW*mlN_|j5J(XvuPG2EcooMKOjsOdDBo=LbWdPPBSA3SP>Rez5xI+q<YWXY+Q
zcM*Xay}Ta?v33Rx=r#|Tvv%B9IQY`F=o}-jy+O#5d(kaBZV<}7<&~X_ZYYh&JiIx&
zZ_zym1Kjz@PK(p4(BqP4$-C&9^X;S}L=RYXi=IWVC6o0nN8UQ+BYKrZGgobuw%?0x
zi+aho%}w?u$)fKa?oYTS|I>S3^jqISFB(tudW+|xW0A}?SlIS^(Pdc~j?9xTq6e+E
zxv*8*es>ev$dN^Eu5P=|D#@-z_t(ic9NQ9HC2#$m&Rgy9ZU0i>bH0VS_&O{}y=?Jd
zRs$9v;K^HMj$DP4U@7qBz+3-ezHf3j$t~wqa+B-xO)j*K-^wZpU6BQIVF`LhxCZtL
z%$BD2IVKHaa3>6IU}4X>G~3g{`O6n4(fq(>XI3Z{Q!`YGrPyB7jtUE17A3Pdrp5aV
zkyD5X?~=Zt;ZJH{F?9*7l;MQcZ1|?Y#*9;%p@vJ#s!82&OIfgzGR0{(_&F_;He6~(
zk~JfQ!i*`2jBI_Oun#?&qDwk3<7EYg5j1#BQKxAH7*L#Git|bvk)IEx7jd)(4~8*i
z@VMCw9?bD<xlv9gpb_Z|PSJ3>g^K4lXNUAub|{<7#&j_AiXOX_JACAs>xY#gHF<3)
zJFm}X(nB{?H8liQlFnx{NjL|FGB6}5Ih0V7B7CI{X6FsBC?+IT6~%?-owi`mYT6CG
zYXR8G%VevX1Z!8GE!8)!oVg#UU!DG|#K(co`?W3k)}zJRWBK5*hy4R9zMn^;D`TZl
z-ReRi)KLmIl|r?v@|`cOX&c>dzgcSQ_-6d=_=fZA;$8nLzbco)&6{DN5EkBP{~rH6
zx!7^+C*k8;ysxI=zR>+0|F`@bBSm4~>bd(ZeT9}o8|MJ5j+G*9o00B9q<ekpCz1ZG
zdQ#u=xRdz8tG>07ZytI3$a?Z8-hKb`xQaBjZZ_^MH17R1;cBM1QY3os!rcq`t`|NW
z`|wb{<I+zfm+v<Uzb4L_hH_gedg255gDXEA{;~Gq{vX}=;cUL?;-^kWeZwaN!2fPJ
zf%G?8J1FI!diFoJ&+*UuddC8;A2oXsb_io`*N@#UD8I{1_W4l3IJu%|_(joNuuu+)
z;u|?hEw^}KHkjEps-HY04Bw<>g(-GOap%$f2wDL=f*+y#5a3p4pa%-tivVtutsv>?
z`y|lr+W#=zv>EO#gnPGKfNi-+q;<2dr%>0k<w4v_Y9gz%YuepZA>6et7sCBpKCJhX
zrk1s-y9<wz2R&kSk${5zSQh-zzkzJqN7qYm@PN<fi1Ug|cHj{N2axkPd<KUaANMF;
zz+GkB5%*P4xy!YlxL*m#UOdQv)>p3e$Ad~0-~k)2W_ZxV!FvnIRkz9e)s{7ihm{(|
zRpt_^pb9@hRa-$-Q$bbx1XW!HRb5#EM?7NH+9QqFZS~OBfW6yo^>$lh#i$#~wT<y6
zr5VQ8RL1@BC>vjM8IQ(W6g<pZY%Z-8Tw3kgwu;&|ySBZew!K{IkMCkV>@soCpjQ#*
zp0j7zF4!9FWV0vOT)Qf`cGz4(a_1Ae>$bE6(s$W?_prXZZG1Pwdu+Uy;k#{o55s$H
zypQ2~%D5xmUm;6hxwb#Pm+5S;O*K$KHDJ~%vAI|6q1uJ`Pz7bo{(hh0wdZrNT<eeT
zXR-|0_yLCRv+-eu@3-+0h99u;gA5<G@k0zBF>&Q^{28YAgJt|k{3yc@mGRiz4O?ux
z5I@d%9JYC$VE8lTZ=RKpC@1Bk%1MYtj@{<%808ei8OM#_8Or=@8LX1FFk;!J?SSI5
zk;HWQ3oE3UH2B$!rYBGB!gDm6p}OJB!70io)6<zgx8ahNYq=SE5(G9pHzk?|&yu1I
zGrS3!)RS;H87`fo8(NdQkxXQ08eMBqRc<Ki86zquH3@uc(Q1<t2}RS8#HfLDEpt;$
zP(_AAFe$0p6NU?2Q#7ZK(7A@tm7C!%lXt=U;QE<yH32hvXkiWSaaBrPlci@D>MPYU
zXjR9N7skWO<cH25<e0gHXdomj(^5{=#c3&_XXv~UVqz(>n4w9Cc76|`=<~q!X)@9C
z(C|6pyo%qvfB=WE-D^q#-$4HV>h+I4r`K6Uk`<~M9x0m?uPgILkhwr*2hON^B4RUm
zDW_+Q)+Z`O40K^0Mbiy5T6CJzbdh4T3GXLp4IhM;;9W^+-Ke4v#bnZ&BGQbi7y(UF
zQ2-2RjUXZkh3XZU#40qS7F;D<SV%&ZY2Y$zR9W=ct!DUWCZmh!v^{-c;bOQ)X2@ki
zA#d^r&)^@!HxM1*g8D(HIg9>OQkGQ(_K9LdsiNm#H|Uw`N?H>o%`AyY*j<9PEv)S*
zreFysvowRd1GbpaTppgKzoaZ$bJSRF!bt$08Boz|CJ7s`OSzR$bF#uJHSy-Gg1y`A
zVmgynjIddQKBXB+Qat>OT2^h=h*>oUE8hsPIy3iRgm71z=>U;UM<6BLDsT0)5wQm(
z!L-5}f;@y~w3a1>aiy{l@tc~E!4FTWn$cp-AWLolD@hj7l3d5}N6U?{ni7hbOq&DC
zX%NF3?d3McFS(#lXrIoA5DqXu+FlwcaVDo{bGl}<%|eO+B?eX?jH*By0!$RFR}DBA
z5v$o$G7K~aYm<$cMGp{DgJ7r;Hkp~UI?o~p!)?xT!VaWCnP{+><ywOP7cCbg+(?RB
z;xKu&$ZZF6)`7j`&~YuY=V`fwMThKUE((vw!tbPI&XoN7(Xu>*No)7wIYFRoaxu#$
z6_mHb=<N{K8U=jAoWXL>c0g{|GZ#_z10G<bVfZ#5yPioddn_DM3T~?`gA6k$oymbY
zm3mECbwsxV>NyPSc0AVMY010fl&j`2-rMmk+6js!Uanr`A*2p{!wG$cnbgergfsvm
zJ07`qdv52VI~oCfzs^cyKmx@v*Y;ToOGZep>?MRHNZd;vST(LWj4yUPas*N=9Xl!k
zmFwjOt0zn*OmmR(@L<XV5*jg{EP~1FYn-I8JP90ueh5&->tM8IG&%uQ29GH{dJ&5B
z3y8bYtnD(E-Ed4oB8p<SRKglh`2?jch;d(97+4Y@6N#~tK$RJ=^9mgCn6Qk+(4xdl
zD-$!V44q*-;MkLHNYwCJXE&q;U3yZ-BLU)d@HJQxalsLb8JuWvvA!Ck9s}q>h2<m%
zK|(R7gI%GwP_knPIuUds!2FUKq2UsNz#XKbAuNWl2<L?*CnOUf7&mGqS;iooWdy|;
zn#pAikBDXsqC*!Z1vDdANn?1Z0;x~Pt9s3x0*YaTYy)rV*QjL)6Voi4deDqOxqyi~
zquTz$?9_>;vCB-vpkcAH3@ofPMX>S(3(c1DMlpMU(pgRa0$*x>0Y++>{L(w}i)i;d
zuNI>RRzi>c<j~Q-kAFYD63RFA6}<f$hYH>U_YWTVz3NIq$ScGO!NHB2`QYK-hCTL@
z;Zxj?oy7xVE1|XOg12|WUGNUwAF)wy!Ha?K@G)o)7Q8*{v)I0G*g~fZ-dHJ6yP8>7
z3k}1Cz;G$NYdu&9$2Mm2;X|e2gBD@3;NADwP1-v@?i}9iJYDEKUF;k$ww=j)qos!C
zd$V_E^SkyJ8xE`l9#)4}TUM*`ZRhjB7q*<l*OYJSFL?Jt2E%&@g6^oW*?geTe4td@
zdcUcAvuU8vG_d6&(cwqL8TGGJL;T&+zZo4WM2CJF-GAr&%IVemQm}Vrax>Ul2=;Dt
zZe0HEEAPJYLEQ(5V(hv6!0G&+u|jb2Lsv043Ej0EfboVKR;o-_bd(OmB+(HB2NB#s
zfCir}Tq7ikQaYW192RUpO%&+~Xfm9TIHJ!Y(HH`Z_USk_@Yi6g(KCpnkHR)K{VJC1
zeN8VRio2Sn(dZPGt{}j4F?|`qRRrid(^n8Muk|%3L0(Q%4d3bUOH<<H#mRBXJWCO2
z&?wMr2+-}KG6Ds`Gy>f2bQVDpfWa&28=BE{1#UjX3m4CxJvVt4(*KiZ&Ycxs9G!Ze
z&LQP>1S*0Qf;55*f-C~aLKBLKU`i2SE{<vdj0od;dHm89xKkJ#zamat92=)Pw&$=t
z2!}dEFs8>%@f4wdj-VC65d<uC!%PW+v+&cp;bi|R`NU0JCm%MpERU^pt@3yJi+oFo
zkCeg@tSCZ>ZzwfHmrt+Mt>|~6MLt^MFT!m5La=^Z4XZax-cz4A9Zl{>#Ni4-gR7&|
zJCNtw*ZCqpP~v+^?Ol1kepN5>T_wKtXC1r0zw~j(`0~ZoskN@VSBw03iI4svwI!i@
z`RvNnYS*2sYmq`#TaoYHa&WG?hx<mBFRXU2ez{P)dm~b)jTQNkEr-+91IxdoXL(|E
zcr9}GXqj4gICehI3;E8`B7c6%!Mi3o*aCfnd4AV=q{zp%91d3(3?|AxgpW%6`BHo5
z@(ZhVtNLBgLT3pEx2p?!>{{dRg3@4cv7HrNrCr^5zF`eC0Sr$5thsgV@;6_5`?X^8
zUX-WE?=A5!lv;)5b1T~F)SZPQFF-#(Ywh@c|HrK-md``R^736@kw1YF9t8pS#4N?4
zfPEm~;BcPrUYCpf0aQZA!`*xHeA^l*8(2@2y8H4xq}7UiAGY>B+;=d~_in%d4<g?3
zu&X!EM^+PSV|V9@d@pKif&+E!>OiTTAP#oZ2Hn6&w}+0EVW{lt-RwMB=sXE?d3kN*
zZoJ5!Eb(JcstNnq|FC0so^M*~F7mr^z^G<n9k9U?f2xFIGL;Ss>xrdvth9Gup6^^A
zEAso0&&b1Vb(-Vpo6Pea>!8R<#LsaLh2z)}EZgH)ao}OAu-SUB(0UM;8;lzJYifg`
zfC}1hxL#1IyLQXb?`p`m4Q~;AKQsAjd_QtR%O}`kZXmXI&=;ea`*^}jhLoe}C5Pcy
zf-5O92k)Ja%xzyw$>0UQ&%cM(3?8^ZdHNSF*$uaH-uHdKlhQ8-w*56ZC|5yJ5)J5Y
z;~tX3@7Gwq6<6ttql>ZQStPcvS>ZW9)x)o#WZqe=v<K92nksm^i&w{|FPyV)j0MwS
z5ONy$RoCWOyP4_{MqfN<rFQ&&^c7x4Crq6eGHFIOtEk}G3FRz<keL=<uXGw-7w~%e
z^&OYJufq)xV`jNY0)&sYG#a>e;NwX$a)aw_$eTldN*Y`zxSNJx4m(Z>v)}~|3V1Qj
zSV=cB5DCMLxD1!=Ik?kFu!D{De_c_s=7qWCfeGMa;<YUvedtL-Br7m)YmhNBe2}S7
z;3`_0F}RZp&rE^BSd9QRczwl!SYeNKXDuYB1r6@Fl5icxJk#<$cb}8a!yM8D0FW31
zT`l-yF^maSh|3MX1{op<uW3#>vvBEBE{&pCt*paA;j#i<V=x~}v!TIlI!+hpL{Xo-
zoo6>?DPRbLV-fKnbpIvnei6YsfQ8yv45I0n8H2+=0w5|~;A4`O_!VxJg`Vd#H&NyD
z74t5Xvj_@kFeA`h8riZ@ZL{^pfEV8EFT8aLCk_{vsT;^0La;7K_`d~cXMZdh6eb{*
zV_pGX9i6x!+)V1TY&A`1FolOxT>ko~FstiX?dZ@DCIAMRgAO-ZN_q(Y6`<)uCfgh?
z47dSf<1+8MX7v>O{eX?S&rQFE8o-E${v`rtM%dYmE-;XxNzqURg6Ri`Qqpw=8Cgk<
zZ$sN-B>FA@b}!}%Z1Rl-zOm%3yI&P9Ro9fN&TjdLtLZUux!iCUvrP~wg<4ACda#Do
zaMQv_+(1%YLDE|CRwJ7*uo>A3Je3Aaq@(&Qhey8I$>SiYj&4@%E>!Jazfr6jTt0KZ
zs&%ufuTa&uvAbBcfBDSAK+W=mnM>kfG};pu6D=QjALJ1Z>>jDOyoVfvWs_(a>>>ts
zJ096_{V-^fn|E$s>I0>nci1L>uWW~zg++bucxWShhaTdNM+<CU$IJF*^H(^awsQg7
zpU@_#4{zgE=?N|_OO~&I-1E*p_rkMZ$R!ikg~Y6qxNhdT&3$fea8wyAOt^)nQc?pG
zL6i8`nv8(SC0M3|hEK~~Gp#4wBxB-fa^X0;SUw8TshL-bVPegURL#U17|=IzNyso-
z0W99gmZR8(qdUKbtW&I<b*lWZ%o|(FIXw+-A3d{@hL_UxuVMT&fM5y%^Ou>c40(Ce
z#Wm{6X)jD`*(^Bv4iHpsg(!<K@ozS4oU*vR$>`qzZ3|4VhTiis`7clPioW{F$DWRL
z`8(-vr9bd|wEHA1YzUuREo&p2EwMsN>|=fq+!k+e)6?~lr)y(ub71tNfzkWbjrpc4
z#p;*y-j_?Bz^14DBTxIfzS(>7qu!IOajIDTQr`O#1Uh?8ad}TWTh$5Z*M4v<v-ON_
zcIA4Ox%cfqKrE4pzcbjUB;+rglM6kulu*tA*q7*o<|X<dCL!6#@h?9-*hKgjlj-As
z8+yaUzqt%BU(K?Wl{##IO9@+p)Fz>S3!nC*{xC#XCifc#VD~?EIvU-}7eQ&kmbH_`
z063F-*<kzn%^2<w5SzJ(dr&e$39y>*{|Y?I2Bm8Wc4-V*4(oqcipC-~!wp#&ShFmq
zGa}h}8Pes+#9$>I?q0)JR>2L8zKwW*;ijRb=w;E{2yiE}Jc!Zq8J)50yqP^=p&u?p
zBl=k~kQkHpni*ta%w_EU3{`moQ28J}-l;2)l|d6=bblUkMfO=U^D^crV6DTyv?$sM
zqnUloq{M6wo4#_&hsAEgNaQxZFx=+<rObPGc6{Kp(`OLiE?`r+BhrH_BoG$<J@zd9
zM<78nsQm+gEhooupSXFBe-tEK_~#_>bK-wMx*w3X2PFDS(*H}+^nkSgJ2~~K!^t^5
z^#b^BFX5i!9+2lAkgf;h_%D2s)h`x(?aS`R?p@se)m!)8y!+;30>!N{$O?N)oc~kD
ztb=RVA_&2ab_5W3w|G{2#nsK#=35VJ5quw>c!ck*NiN7;;nu&n*>kwibNCTKY^$B;
O2J*t8#{}MN8U7#PlJl(q

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/orca_metrics.cpython-312.pyc b/entrypoints/openai/__pycache__/orca_metrics.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a3094023994c6489b43145523bb7081393b9832d
GIT binary patch
literal 4734
zcmeHLO>7j|5$>Mp?)kM1_Q2XkW*^HMdkmhzHpZ;^3&B9ZfHz<gFhS#X_nUE>neIvV
z8-qt<$&n(3C`b_H0MTX@OX1*%9E^mrjua_Uw6|PlFe|JMQ9#)oavRoMHmB5k-R&Q6
zL=HJcdD8UztFEf|s_Lui`BP0zn1hxTexiN4ndAOOCteG>gXIMn+~ZVkgj0Fdm*q!z
z=>1t=&OhSk>6(xga^i@{#$r~=1x5n7;7E|?d>j^W=ppZL8VRcsj;H|~#WgsBYtz0a
z*q}c(i2bk<aaL4cF~D(YNe%r_7^#E3x9HP8H4J;37{86)71RjqZ=UkSqs77SC8A|D
zGKJCwT_KvGTZoLy1Suw#2}VN~jvqr<SM!FZ6O=V%6`441m;^d257ZcqV_C(fl?eZX
zp5%O-w*%+od|uNtFpOxrMp9WLlfh=(XN#xgLI&Hh3?``@CZ?uXDNC30*0@3JT5lz7
zm^qo)HM*R`sz+x_CME?_SA0~A+o*y3@LT={tlr~F+=P3b9s%tix)YV3<jrkl<^2h9
zEtNA?eMItBAG(x0H|5v3X`d>T_yO*Y|Bj%*T=89N=eX|y&9r}7AR+IqlAkcQp>vOe
z*|26`AW@HYW#3=&mxQ1BZg&Wr0^Fwk8b2+*<22%RkZ)d8rHML^-)g_AX@+Xr`5$ZA
z_zq2jYM|u*1e~%Ye8PPy{M2_l>FMmb@-#SSNrGKp30(0ID5WRfah3=>%QiJiAkdsP
zQSXgb`;zF%Sj&BlMYpWddLy-_<n!*C=Sseda38#T%Qx1I<Fzsm&J;$_jx+bS9RGJc
z95H`HZC*HZ(s1Z>owf~WIz$deRvs%_TEi-G+?cVGbrs2~Y9Xay5hI7(mk===rk;~0
z7&QwzPpHEMsn}9XEl(q~AB_`|xB8Pw)ljTN#xOEjoKTD$ofmRgCrLHgb-Zh8>|AbO
z@XYD&WX-Xmvtv^?#tR>57p@rlOf7q%QyK2vJ2Xs&P7Yg1tZL*ak;e{`#NJg6@}>d$
zd9pGZ883`6F^aCFlQ&f>IhHlXk~vw^*-Vv*oHR^DPEPi)9^zhBQx0Av7`HIv{;_OA
zWD@|5em3v)?jz+Mw%sCTydMq2b-F7?nq97QDX6_|_{8Pmwmqor%*CPeZE@$?I@jMN
zYCo%4<mzxCpT$>!;U1I*eaN+Iz?tqK%9Czd=mwn4)q(M_m|E0mU{TFPieWl%rvj=W
z)hLW*F`AUK1q`sqXfH5qS~<@UGnAaY>LMYN4?0}C){l-MRbxmin^TTt_f*&M6p|g$
z|IWv#N{(EhWH++LR}csQ{hZ@4t=!AYn>elAMD%59BkHM+;B^2C%g#LlP74IzB(^YN
z8G7;9cV$xtzWr#l)f)8-qFG2c2(k)!nhn6)UH51DypbEun>1aT5qK1Rdr+}<o!o@Y
zA1;d2ps2WI!`Lz@U=~GcYgF9ogr>SSG*PP+kJw_?xPeVua<YvbxZ&t+OU^aeVa?KX
zi^#fyZ9m+VEi#9IV?uIcGHg*T<nop+XnNX+2TaJc9Mj#F92?mYCvsEt1h&XbVMnOX
zyKZjR>oU<Maf*gb%8g;lhJp&Te-0)|E}zV6`A#C6kOn(%7WzIqaJ>&Fv)WiPKSjn3
zJvo`p=8_P{<`m1jR?^60UDlkSa<L<kpR((nES+KsIKs^BAZ!!-tb>pWXSixR7u@<R
zu&ol<wiswBxAs;7z0ZTScWQrJyA&OI9<6^Z`a|JrklPe{QByZ_@<s5ym%Dmii$Zf4
z`pTvc?ndrkdS2IbfA<6HY2EI};f3DMTc7UzR#oI`8t-qZM7J;P>iLS2SN&3hG&5MO
zUn_8S>ytp+Qp=8CUitZzR}#1T0C29Uec91hiS4>OIJ@O}L(Bc^zv+3}kbHb*q3}6=
zy6-G-ZrCxqZMJ6a+jE7v%#%&~mpb}DLQU<mU)mln2b-(4TxWN=d!XEPqTF%vmQ=3W
z^(5E^X9zbw3$;{2EsLS|XZJq|#h3PUJ^t{sjz=8}R~Nfam%GlCI|dnfCD`_*5dP8N
z4+hJd+UIsX6}nzTHqV^<dbtM<^7V2Igjv*Gf7>|_3;r?EJ<uFhV7k(%MOoeP6%6ii
z8E%@Df2#i%zG<GU)F58vF%6k;fV(zIYlRX&LEn6%mHZRJ8%r>K=yIACO2Q0(dk3L%
zS%WIWD?wMP42!?r4SAO8{YE1--a<+6c#@T>0c2B$d82uBX`eUZx!Yp`)L0j}xFFYn
zYGLZp$Bk?jD}<&t07)nkz1)^IA<=yd4-6n$uo(O}C7gvUSY`M-j&qEQiykym-E}m&
z4kboWmSQ##pwYLzzCAwb0`c3q<-DQe4MCbRyvj1by7cf?c7QzLoXN=z>>y5F@KON1
z2fN|=WJ-~hahxhxat5dJ*i`J8UdRD7d>=9eu~Ii=jnKN-S8Svq-oL>c#U{41;cFq2
z)~2=}V8a&Z?U=MiGHDrWOHgtHc$y7#B}O03@Q8~Jd^JP%b?uNMhJzQbo$P=&keq=X
zVsJwFTa-0D95P#AWbdGL`#Q6vsFhQz+|4-9ora%Pga^RSRxYu3=3G_cTKkt;555xp
zA4p|k`|BWAw{x-f!<kcmu5Y>}EyWVgV%?Qk_x%3P4n8`#7(03^1g}K5R3hlX$h`D>
z@r%|YOVOrhQB;Yd2RmoAUnL&5E=Yff{w})MeWJYM<QLIX)d<(nT#a(krn1nu4AMDe
zB@kgk!;6LNJ{ZtX1&g2BC{%f}5}qZl#CxS9IK5AP1l7Ld^#8T;&`G)HoNpl{n;41>
z7ErW+d?SJikiRl$^qodnjfOSVf#qfH|5uU_yzW=)29+eU@BdOccRuc8QOPO;7_SsH
z7X7~ULVM-o+btvZz@7>}>wS34aIX*-ZC<Kt_%hbJ80(uk_dL>aU!Th@Mh=yQLuLoi
z#Ov)qDg|F4sgzSo)wzyL|5HfFV~R=R%8pQYOE@K(Nn_I9%2p=35-tuUAhzHS1qN#l
z;003*bbv9<Sq$QAfugr9GWd4zjut-7L8<P)=9pFvZUqnJ47HHON6cQ>qNrfqgGbfR
z^ZYBx#|z6rj*tF@+xd5H=U=%aFGI1rmls3ZXQZmMpRZqvy;t?qzJ1T!rTLx(alXIO
zd8E>Ql&!uHqqi>J-FfSBMcjHnRuNm4MWC&kd?Vj9w{KpYR~CBbCn|f7Rd#=KnS;gZ
g{uqCFwx`NLH`fRJ{PPDYyALgp%I@Q@=^|77Ux!&H_5c6?

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/protocol.cpython-312.pyc b/entrypoints/openai/__pycache__/protocol.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..be009e63c2936b83ae5c1240d972270add4f04c6
GIT binary patch
literal 108493
zcmeFa33yytbthh{w$f6PO8ZvY7fa<$-gjHxZP{(Bw}NiDtoLloR!Qbn$%|T|-E;$T
zr=ew*SY}D9LlbN;!2}WvG@&6tnq)|-ED==~p2Q@bg#43#M#eoE;>=9ucg}rVl}ha<
z6Xwf&-#lBl?mPFqyD#USd(OFkoRgDf!873awf=_hTP=S@FWQr?dhWI4SS*(<4_hRQ
zWF4^h#jn+G#k+057PR~AR)X0F96_hw8BFu11=IcM!3=*!Fw>tI%<^XiU49qiSO>EG
zIUG-}KNr7_fxMvG?+)hs^Euo(P!KHid)S{gP!ufom#{y5pfp(KFAJ9Y%YzmEieRO`
zGFauW3Re58gEjt|px5sW*7|FMb^f|wy}v%#;BN>v`Wu5y{-$8Fzd6|AZwa>gTZ3)>
zw%{WFqF}qfo#V|wyd8cY`!nHR>|etEEcloDm$Bb9usqo5U%~$DftA5k{?+Wy8CVls
z>tD<M+<|q$_5Stj&l}hf-00sJ+~nUB-0a_MwPaH5xDn$P{}#q580ZRa_iqpG@bBRF
z!hxN^UH)C{_YCX~?(y#l?)C5G_o9J)!TtXI!ES$d@PPk7@Sy)-@FD+0!9)H-!NdN;
z!5)84@L~VMj9WbLNbphrqru1gkMVoSz~e!`-yeLJ|6TlEI`Hn`6aFXIUpDY$u-D(q
z{_=q%!GJ%&{)&O4!9IUqQ1VMb*)Io=`HwNYa^QIIg#QHls|NamC;ca_7Mn$WLO%5c
ztLQ2I0lep)jB6dp_yzQ~@uvCo?}luaoffJ3Ig3;y@Be~bg!@l3)C*{>d|HRThoN<V
z)|;RTLmL2XG(kfQZ348}1PwE^1<+O#beN%SfG#pY&oHzd&<+#yEJJ;OE;i-&97C4?
zy3~Ywo}tSCU2cMoFtiiU6(;CY3|$H6Did^6eo7u4!D#f4$yxGyrPb?EL5#Tum}^a#
zPs>jWO!+CszrgtGbo}+e-(bRjhGW?X=q3~NeGJ_U=oS<7S%z)}bejqK97DSR-EM-u
zpP@Sd-D#?y56B;s$K?-D&dN{%|3zt+d{MH}yR=&#SABbcl}6#>{aBi`_c@3EdAU|@
zB23xKCHpll**?8w`;k_+DF-ib4h{f%&;<PuLmvY4kO}%>h8_mA#{_+mp$`N4hzU9&
zzbH>|4lZ#H9@TU37%(4~U)1~QNBDa`pzo3=bm&JhLR`|j^`8GR#(Dx+Ps*p|4EbYJ
z@-H~x;PHQ)LwgZ=Bt_`2%O8<H%60N_&e3JgQ9#epQGC~D%KIe8CIKp&pjQ}r4AA4I
zw)zA^PXO9)f_{>rCjmWWf_{pj1Aqoi@qU`2gMbd1pufS;(}2Fm1bvC23ZNkqbc&&2
zK!;7xml=8n(6c7!Z!+{8pyy4{&oFcZ(5Fn$R~R}9=$HxmS%$tB(5Fq%-(u(mK%X%|
zKgZDb0s5>7dX=Hi0s4Lu^cq7y0O$uz(9bh;9MFp<=oc9JJfOd3f?k)uAYbPe{vx;V
z3wjHG2$&x>Vg5FM|019hCg_(KdI`{vn4mWp`cXhXW`cg1p&tkI*G(<_I}E)H=%fkv
zD-68?=qF6LUuEbg0sWK-_jeikX+VF&1pPgRz69u${CoNs`5HrC2J|;gxHlR489-k#
zLBGz>&jR{eCg?X9`Z++anxNlg=ruq;Z-Tzc&@TXb-30v>L%#^<Z=0aM&(JRcdcy?$
zHbcJ*=<k@IuQBv1fPU2k{SHHa7tr4`LBA_~?KzA852TxLzsDF~2gWx{7~f~;HvxUs
z1pNU+zXj;;o1lNl&~F3!n(WhSwS%GG0rb1_5*@mjp??7A_vB?dbg8^pUdl5|2fOv`
zHn3aGZVkK5?6$D`hwT1<-AZ=L*j>bKJG*V{ma|*MZUwpi*STMRpZc}@A^8%AOtO20
z!+*%(KhXRAA0of6n@apgT#6q8`bQ?{A2ali0sT)V=zn79j{yA>6ZA(6{Zl|ACg`8Y
zKa&51bMU8}gQ%W^Tfm$)VMh4-89;w*f<_toXMoO{ptl$r1N03Obef@YK!0KyO*0I=
z4d{P1L4Pb~N`KC4=$~=E{zA{!9bo>{6zeR1|CfONl?fVS=$nB4wF&wLL;nWQzcoSQ
z4E-6Pe`kXJgrWZ*pnq?I-e%}O0Q&!%p#Pbn{|M-RF+u;Fp>u%VH9`M^p+5)oo(Xz~
zp>F~DUro@TGW4GS{ck4dUo!L;fc~=y`d19S59q&`>hVp6{&ztChY9-E4E>*g{;LW4
zH|MSO7I|xfMag0sI3M)<HlpVrw@f%+`1`Y#bN0tAXRR$35W{~*t9N&+HJ-Jrr|00|
za3DM!YE6%4ZW$aL!iy}$?OO)V$1}DK1VW)l0!lo6r#vVt{eAKDef?os2@J$Dd(NMh
zw+!?LLh*F+0;|;)&!PCXpTnvi?jIVAXFYs+U??E%=pT@gSmCx4f$+AW;OPOGLbnV{
z{X>)oHC2FGJ@M8<a_IEXU`XCJB+0u6k=SWPhPy2=FhHO#c_19venuV)$6FqRIy5K?
z%(st}GbBp_we4*p-930v89J`Wp^(6Be_LEN>-~er1$LEzjbaUk4+fO*7D>_)u1pc!
zrI(;o3*9k1*hjV3Gc+_nbrLVuLUs?H9uDsg%RxjO2*wLE_<`ZD8W7jhFkq$}RLuXv
z$Uv?Zh$;x44#$hM_d{|ZG&G1(Qqu97dEg%TT-elT)u|Emg6iprUKy{~@E?_r9+m@2
z-wDwZ5*n=`B~o&8rH)EOs<jgOqh6tES5+GbAs#K6ZHi2zgxeMH5)Gb|B7)Ml4RK?W
zcRxB#;5dzhg5z?ycQ_>X2GEvg0@R*>x(=dEk&&K2=v1pcp0z!ARF=AEaK&@C5B3d7
z2-`8F1Os7&4NCoi!9m1G(P`;ZT_eF`{l@_{x(t6~3bV!YcOyPgg<Wzu&_580XK{}@
zG1T8jIdsq)26V=L1WSQ%AfBl=bZcfjb88?Z@5gW)h-ZleyZZaWap#VHc|eN0cy5pa
zr!fTLd5;7J`Vj-lxLr|(lz6TI*gbe`DDFN+AN7VXzW{TDJ`s>J;zN9r7o?<mbpSF}
zo;aDPbt}4lelT!K?hT^^y?q!Wz5NnCC_3CXq+nLj$DY9TFnIs)K)4^}2@Eil8l!)(
zKioSobo{ui;5B{U(DBpC(9vtwc#hgkj2UWm#NAuvKu~le0gLA!lHW5dhr(i*?d>0w
z;<<+dsBg5Oic)eotPJ;shZR{8SRoOB1YAmBP#OyM4i6*a=v|5&8X7nw_YNIB*?aVS
z?|X&=1A~E}+((nR_NY7w%e@nTT(-y-;(qyU4`UxL+a>FDo4%uSNOr$dPLtE+4Bo}s
ziGCm-)@+AZr{yfkc|A@00{g-A=PX}PQ__C@+2`%88S%UWr{%#dyN&MPM1>EXMJb%<
zi%Ot7?h=hjIS$1gXO+Nd1Ujfe`?O3`)M@ym_j{9ApFWs=85tk7jas!#jM>8~6USm1
zwSq&UKG>1)6S9rk4_ihpC)KT~7EZs<r(aCJAcs**@n}VOJ{|ZO8r1kb=`#G9Py43J
z^292O<=sei%rWM?n0^wh$K+?!q2=0Y3Fm2{qfQA;qLHxYtYc{*>kG{b#GqHc)$+m`
zhvg!2+N+m2oUg?>o_@?K*`CW7wRRZ|q}G$t94^rCP8MlC<5#keT2Gc3@0w35>BaOB
zuwJ$LwOXitTOHkTG%yzZKD{;Y9kttX{M~DU^Kt85kQkTI7EhpV$E>5)i?%b?U$<Vi
zqAXbs%X!Ne?PsmmtlifvnB;7}C2{L1<sp0+qG-I{3-@;}4hK&!KHY!1BOFjLQ+Avi
zUbSZRsa5jgf&Qb5PoEE;7#duBW?&$=7^|pq{`64)U^ujR2puudzZiowJk&Qd;5&Uj
zp1J-w$d+@bm5n2-lKQEym&SH4_t9SNp`qSh-}-?eOc<e!KK;Wn${5wsFMekE#RW?w
zciFX`tJd-NOuA<B>aX?ubBOxev$^@!k<C3PWbd&d>irnyUJ<AFtgOghP%t56)!RSl
z4FgFLlY{r@FhIu#F)K-Hy^W#P?08mxsDCgN4h;6mafgH%l`AH056R(pwwMD&ym2SU
zuwW=|4@gox9d#54hZVemXiF1wRy_S|K%r$h?l>i%4`Ha<`!LHpcrH&rff;51Gi@4j
zhN&-}Wen1|ll{sgD41v$8X{itY*yZlm$)ZY?Ts|NlR6&2_n~jVL2cemvlNs~dOlh;
zo_0I0Y_j1M$4p*htgvi+f2_Fd^3bKBaaYV$9C1~@Szh(Y#__$e#+KQ}7172OvyJPb
zjqCobaYNKyJCQZHJ?5^soOda2Dr?5Q=yqlO)b^{ZZgfpou89<`nOG4mTod!uTt0B=
zz|{61d)nsGElnHeGAuQ1<J(?1@K%~7J8zm=70!%n+3oCt7rQTZ$J~cvZqMb+OPL>a
zO`eLnTi<fpb8_*OyLde39&&GK&5399_R_4@+Z)g7?M3Sh50F2*SD&GKdzBSH)tau4
zS7xqLg{C{@2nE_hXt})JUaaOsdt;eIPgH0kj=TDZ{tn9M@RBk_Up!9EX>zC?l>M3`
z!xQR)^M1=u3#+Df&J?y^*f*DE@h!WsccOH%ezNaM%T&*m#nJq>X~)u^Iz5w3GtSzW
z(|y<GaTedRThj8$sk`gIt4M(2?!%w{(D0<^-ex%FB}TT(4#`S6W}l6GyvW!kUR)5$
z3kwz<hvcMCEFEd_OeP1I1W3o)K%`OJ5eBt`Ip#Ezuny2Xa%;Ns9(<xG<b=o>Cg%(}
zqj2JO4FBYcIZvVFydQs|8ur9;+|TZdW#v4(J62kGVf*;<3D3o~(~e4jp4%<TOkbof
zb16bnm-)O6(^w9dMI*zo_7SDi-RexvI_HbC{x~8uwd4hQCFceFg=oaR-x70qW*i=Y
zL_w)@b{iq)oQVbhIg5G8m$BeWc5WAkKb_yW9T+z)0XIX=1a3OxX85yY7v3`YEz6(H
zZ!YyMhu^YQ%v^rUQN!~1EmsY5^IIOjx&8T^em=hy_zPsGRKTp1G^tR<FJycVy`3*;
zEsE!XGLr`m%1W?56v6<RR}s`T?^SX|NLGVT(3Y}KT0U*V;$`a|$>K@$G-B#db^|}D
z-^4T44+MforNG9K(xf!8Hi(c*_$)-L{sqg`ldo2Mv+8DEw0#%15(t|-Nj?_9jM{q)
zr2UX`K5pxm;%-j0my#6)h^K*;ll#I61)-IM3qs|-Y%z)vCMZ8Abs9i}V1-t_8qIOo
zqC5uBHJkEY{9r`&2j!$<Dl{q<F5yQJdXMOq3zn}IezoUokAL~`ue@t!=@u?yJiSkB
zes;tQnbhkQ@4fQi@%}-%C!Q;yA(h<K-mxkX{TzyW)NtO*^@23Uh6B3~0X@?%pN;1W
z|1m_@8y@C0%-R;u9#W162Kz^Nio_IgTp1cZ4Kh8{dlakoDXes@p5)=S5`|F4$uZ`P
z=jruDa;Sck2{>`bQS22IYFXtY<WLPLA0y}E<Xk3alAJ5#Bn{nX2}TY@75WgI_gmh`
zEsQqon#tXLVe7bk+Oa!U&~RbL__k?B!yARA(bg?9g<CJ|96vnm*c$UTMjR!Ro@qy8
ztfJ;Z_e9sUqsHW`ZHhQbCmW_6O|g=S3wtIU(~gQ*b$!H9G!dS5)W=FIF6^7ACt%{F
zR$7IbAM;0*m_I0gefZNKyXw1l10M7IVa(=|4I2fT+j-`|T#+U@FjqLWo`#tu1EFa=
zYSaChjGMu4nV323QYMdUhm@tlTqc;9MKUp`WaxN2mry!#jwzK~IY-VbLoSgP&oAdQ
zTXW-?JU+Jt6p0%+?&LA1Q0pd?^WS$=DKtGNcK{wu1$ut;nc_DI_rv7yiv0odQOAor
zh<J@>44oa6CG6<B;|^tLC>&42sz-dSoM7M_(G%G54#;4l8S_S~JGqA^^=t0%M(3WQ
zBwr?n^YR%^e4rl`$14PUmYk&C{3(Kw^Ai3-{cx}lWw@T*87n9gUASys7xt82*fria
z?I@=%+BIH3;kXDgqas#TMPE!bT--D5sET<TF6^IJKIyrHMYrLNmX4d!Ov^Uv(G$H<
zcjJs>o2VvAJD~;b0MK)9BOG&2m8^dBPOKkHad5v$zi!uiX9l*oncQ!jg8n$~B&vhk
zX&=?WXAvKF7=@eWBwo8)vyy9==L@5nxrX^m!snVwuENhz06Cw>pGJHXl#1FbeWSAW
zM#D_yDpXX%`1y;AXB?|U!Rd?C1+PQM{DO<~XRY|>tsp}@f;rbSbV?q4m<TGOuDatn
zeSy9c=xSkthg#E;i%9ttv*8)?CH07F1S985_zSt=php;uIpb&$`6rar`9Fk^`T5s!
zj%G~bW)uX971Ig`MxHvHf?Sjwevl<Pj3=D)4q{mAg@k+s238K17%(T*g2uDMpr{Ab
zx9)hp%JKpQp<xsye9$WiUfBFj@I}OKs-fSeSE>$$W>2o1<XXE<0pxrIe<A8MsI{_k
z8Ui#>O3TEwT^4J={9iN?n(VnWLTkX94G~9Kq+;=nhG@mg8OH`uw-iz8x@|{@xo(rD
z?=;D#PQqNfAXXj3u4L|%My~2CzASZT3WixXvE>F)dBfC=uuLBtdOJe=tH=eHHn|#p
zhXTl<Egx^BQ4Q|GXAi_$J0cFxME_Jnw76-;(ILu7m<i>i>6@N=gK*xaoc6?W@?vF^
z99TxEW8mS%$}VRfv(c2GV~fShMue^oW8xPzl@Tx91J?FojGbUWt1OiP>!6(<m|Kz@
z>Qnl~X-8U!F|XO;=_(b-o9MXfBx30mf$=m<JlNQ`W+x9qV~V+n3@SX&yh^@aa-8IR
zi=0o8lQcwsk6`3{8-Jl~a8S#<)2Xfl8BjP8zEnQ#sKb7{ZSjrpYpZ8k_Yrk4(Koq#
z;>4wDv_XE;v}0eayc&~K*F@*Vy)%w#(IOOU>J~YOkkl=L+Q+0U*{?hF+9!UaUCv0V
zecps{j}>FuhA~~ZPd*;#JAYVZj|K*M0>|UdqcW(=ZsqGpQ=zUDFG4*s|C9!J;J8-3
zc6m^0&0M%{xmv$Nu^82wRGCzV3OTRiFVq1CmFdcTb`PqrbIog>*B_f%{s;!?WapH9
z>hM&?m5o=sq7_S~9goB^v!4??0scOr+U$sjo_VVnv1h4EV$$PvjCM!rI}cgBr>pP0
zi{@3VHbo^R_0ZhJ3R0dz8u2U*2$DMk9g(=(q3+g<<O-t=sMuojQpZ)o9W<$~zDIcE
zMDQ1CfI}TGKT=Q^%>q$c4<<^as0I9!X-8`;w_sxV#r_#biRfAMS?VfkK}cfHnpZ_C
zQHoW-8Lvp_D~Z*hd>?U%vZo#6bCB-&>z`3t9%e~p{2|3a&Y$5gR0t=jjM;h5?G;5L
ztavq!PTwX+sf)Y}U%p+DC1%<u@>9S?amMxYGBGiM2yleK)l?@PvCUL?9-$7<&EEMl
zxlsd*N`pRmj`<P6$hm{RP&J(QTkcR(uZ(7`ns%&;EnjtEZzR7JgCT#3PSnr`@qE-s
zVzZ>K1R9*?N)QB|IxjnQ1_r1F9VXaGHV}3>sB@gd9N@V))B~!gf3R<0SdzsOwj*8)
z{#&?zaCm4qq^@e<w1#o+o!t4Skqt4;o*~~1IZ1uu7Qx8*d;Do6UTq^*_s+?NOY3MM
zZ(AI3luvd|bzZ?_x>)oN`XY7F_aMYv^rU4xX?erWEcJvcW(XVlMS*ru+$Ccn?<c;Z
z@--yVt<ds<O$Bk-=wLnccGD#<MYH%|;pvh_g+k68{z62Kq+EMqE$vL}AD*nAc<fT{
zl!s~lc2O_%dFpyeCU4X(A!baK^2dG=XDjOw2S$V=UYd9^NC%nXY%QK~Og%j3388y_
z%hM21jIqE)OKSNy2!)(~!k<Rac-uhDH&3)hv#O>YZLwVMjKeERMwqEfR*I0+EzTUp
zio{ZMqp>8dNkv0mo5x)=NQk6N-$q&rIsbycP&yoLBaQ7zA*nN&T>YkQX{A%d#Ce&k
zzb-|_jicp*)a{fw5?rVaIIm|k1koBv#rX>gCFfu9r?o*YuQ8^Um~pg;HXzK@#XE|S
z)NR1L4~(%gVCaOQ*r3>GGlGgpPa<Yg9-jJLXwCF^IgXF}!y#<X!0ZYQDL94}D=`kY
zGqeL;@Bwh%6^f^w!qE-=V!=AvFDVC*hqt2_{|ez^Gt0}@oAlaC&I)qE<Rn$#PYFg&
zniUne4j%M}-27+v$Es?1UmCjDIw3`~Ks46I8d{hrES%_@D81M{*%QsKop!X)F~hEz
z!j5P5iAtu}Fso<<gjCRJoJq;bAe}Mcn0v5KCB%VevCtT^<L}<*kpVg@R9+snDlZ+k
zjM+vlIAi^FoE(}@eC_j3d=;Gd4!TC|sZM;y9L8yHsuSK(E6!-u{DkttF3J);65yXi
zdw*KzBD~L<X$j|uP@FvLC%a=#gFicJ54$xCEmoxg=hsf;u0RVhe$QD$Hml{hr5|Ui
zCp`vS^NH|&%PZCoTgRNEwp6FIqdFH3r>c_<oR!n*x8gFDMbGQ|tmiHDmT;~XKSabz
z#?nlfqSW@$G%(8buSV0}XOk>rY41%tYt@9uTAke^1)?kCP*d&8-sTax+1nrT;{3|X
ztXo;~9zBnvPQW15aYj~r-ovu&?dSj#7^9#=|FlExBVNHg_M+Pl2kE2~J>MI|!6=SQ
z;f2HtmM`B(S+loqXm~*4l#bFtDho#7^mOC{bozQk#NVsOA39=0sb(-VeERf|0^yxs
zNft3opF}kacJp7t7q=-gc$0x}--&n@1Yd?_J}FZ6Qdp)gDaV6R;ekxUH=Y(ajpJ+y
zE7admbbm{*{CTB|XX+(YI5BrJO57^*bgv%YiqqR7l0Hht3@P`J2$Y;~`UHm$XEO>e
z9gkI3M>5KOQdU2{`*wrx>iJjeXBswMI{(`4*{(;TU5||Kx?NawdG)2$lRKv#n<@0&
zF80QXTdtN~&6=~=mbb$xYQJZ9loZTa9Qg%vS<alY+x2U2uAZ*%inzURWm(+ildUt2
zn`ZJhzfr$DR#biY$xBb(Dr%il=IpkHf>_7O*^Uj-jt#duw!Kzxmq7Ro2b($7v)K*N
z?1o6=iXUgMoNKg{H_SCz+_jMm?;Dwgw{uJ9Y_^;Rq@0J0I5M;5vMkx|U%XXo@l^fX
zVn-(Qd`6b-eSOR8%Ojox_w2Tkf;%Opb52`+*}u%$fp$Mc%k+2LuC2>#-(8lut-$%+
zbp_jUoPUtxgx@Uq1ra+#s4ii(q2-pIdkSVe^J<flycLvPhUB1?=NQvDiNr3}o^&~j
zLRA)-#=>xcMJAX%PWAlG2JU)}4ilVtn;-mi9VSlpZ2mmit-}Pj-iC8JBR;{c&&Fw;
zL3)d`KAXSLgeOk?Y<`biq{k=D{cQeXxkQJ#*CYQ@zP}XQ{{kutC^&KYm+dbzrNL)_
zsHbuhtcbt0`77i~J-%WURwY;Kuo5+m8rh53OX&@aiCQ`RdYR56u0vhctLc|Beuclm
zR6mt!yp5)`su))7Z$jQ{=vzHSuZrDls*zfPQMytc1a|AMH)tz_zXdJnlp6JLo78l@
zSr2WM+Yr7efyQu3Ejo6E)M~<R#~F!JYSTk)(jrr6hbcepI*wK9FyZ)^1?!_w&_0V%
zFH2+=hfgTsVh&#-Es>Uf%I04R#la2IGSt^{xlPo9)G056O4N$yoc`tTJC50;l~9lB
zL=CKvR$X7M)w~4NFzw{hzj9vaT2tt%d7<k}p{wVGt~Z6Q0rj;p?$$P+A(ivFqdT5;
zG|+d7&JZ!nrj1mQqye~`s?4seu;8F?h(%{ZBaOs49!8*$Clp{c)Yl&*4(YHmFj9I9
zg3b_RBq>!90ahp+28TwfQ~?KHKMCpf@+ZcJ_batv5pyr?;C+~(F})uRjZ|P?D@1I4
z@?akXp0IlL(q@(pi_+CyE+m2|>UcH@5D{k#D`qGTNyu}(TBOYVkLMCdmyHA)2)jU*
z@KipHw(p4-(#~*T0EbT|Bo9QG&h*pH86{%zZ19M2U?pUMGxZFDf*lSIVP^u3TZ{5d
zL>PA*8<5Y%ogoNT$?=TSO8=13A3h(?CdvRuzrEpp$RRmHI4qZ$If^}e+y&t#oO(el
zU6GYPp;%lZGc2CU$2D;$K|+G>4@UoKTG6<^DCBhS>3D|J9|{~DkR=?2b9UUwQ#=cm
zGuX!jMce@qTqR+y#tbd!(n@$PgB~=fJgv71VS;Nm96?iE^rn&{5C`mK$=yyr84S=e
zOH}0r%T(ia*B5f8o{oCOG0^=l6D4CX;^7@2Sz~W_NKjO2kk7mO7)z6pgsZH0p~WUB
zFvyB|`@`+tfY&5O>OI>(FyIBrL;`WBS6T9Tdx$>kmxyvhJs^P-7!Aiyc+p)rVvt@C
zUV|u_M(TMXG=}UDF;AjwT2Jtyem{t^Fk?ZX<Bt12NR>0oAu!+-n;FXfX$UikV#wZI
zJG5Ab6pDblir`EX27?9x*DJoh{{^ZPt?zh;M9I~f@U}qY4mA*z1A`$i2HyaBl$Ryk
zAQZ69tMcO4dY82Nyx>Hc;(;`tg0cn%y-P$5DS`fwjB<KefXCY}5@I4&0zrx+S)-y+
zX+~7U-G=}e67(tQXx*P4go73eotFFhkM+w^JJ%_O(Xsw>UOtc0+aweipawqMA3mWX
z4V~$SUVs+^84+^TVfYbUjGSRtg_(=;J>)$OA>$BLBo4jMmV@3P$uW0Ow+2alre7Hv
zByu`LjV*gA9dGCaQ_w^`vy^c=eIAA^3er1<h`fP5+M*J5yj+pcW(o#q2;B*7KQM&c
z$b;NVkUHWR9z=;qP>}|jw?+0H_qBUFmwWq8U=l%`3L=7}_{z=>bR<+CssU2iqUVq}
zI~8Ktik04@{b4jtH#QIn^!b^6`}S*lgGZM5;#pjAy;P8qagsPkPY!v{o`8fLN{l@N
zZ9x#F+DX+}HRKJTl28z%<A^!TE7+qx@3vv&X)ru+-a9l1$H)UVAA>`K9mZP0^>F-j
zxMK))M94mGycB|`D84Z@YU##H^l4Mf`&t0e^LXYqwb~RHI*O79Ctje*4v86>&T8W&
z8cdU?>80s87*c+Q@B3)F(w<Cs=>1+6T-s98`E>Gg0YblH_Q7I9q$o8W1h3WY@tA$o
zrfo=RbDnCu4Pj=-g&J&BHB#4<EVk4sg{%eVNKeH9tSr-KsuwXk7mS&5LyUx^N8%Gc
zJ!aZKr^=VU#UD$<Ha8t{WhX_1*JsY9hM&|o)5bT?9DV1wV;Q3vCv~QQ5r^bB)q?I&
zkI)p1gJ(*@MH+5u3`1;YEPb$ifi%)M4Of`Nn)#8^HL~n|)-cg~{G2S;e8%sngP0m9
zXO#ideA)u3WFwr;2a=vah`*1fA<UZ;fLEnBT&F=#HfTQMcQpNa#uwC9JZv%HHW@gY
zFA=vjv)eSpa3}`afaM@Sz=XtU2-FeigjV@e#4u9HhqYp2(3l$fe1QG9F<i4u!!$!9
zK9oip$u5=Tf>fFmFA($?X?m!nSO}78{~d|N?ZN&*jxlb>o;+UK+qHeimWTKC^d8=_
z|KPse-8*{^ZaK7N|6!gVm=IF_2;YhGtaNdr+^g)Os0uN8?k0^Mn((2TL;|SFP72AP
zX}x!d&qbiPR}P6e?PNsFrk?p+nv0-5Xi;|1m(H&3`+By-vv%z6-m<UvK=;1Kq59(p
z$pgofIzp-^r<okRR=E618({G~jX>xXESwO{P%0zB>lLhsg76S#bD<cc&TJ#PnwCbb
z`{pBk3<-oj0Ox{*clNWc+Ni5G;%beRExNep&9chLp4qD9(W>Q<6+5TPc8%}3Q@7?;
z-KLv|A{iuHH(RkNTCpgSy=Z)I#MK!qUpia9B3iy8=B}Cy&(^Gu)~vtzM6_lv7y=c!
z<9oqwC@#P3zvPc(*NktExLRVKMYEp8QP1L-8<KmoWh<j)D{q{QmTkfZMY-eK@d2VN
z>x`ClMpkT}F55Al3s7}kB%?g$%6oCm#WfL^cdF-ekH7r5kY|rHZi!Xbz0`lDf415e
zt@e!{xZ|#wbvH!a4Oeq+xmUzI^|PKuQO}}?XVsgH>tkgtvt>)7WlP?&+nNfZ?mEO?
zP&=F77|n0IT6HUb<?Z6uNZYRI;@uJVZb-Pht7r2TMe`QLO6y|<C9#s)SetLQZFjV7
z_e|T~iJsY_rdvf#k%u0RRkYq&wD?QwKEH0pT|4V;j=G!g)GU3gFv|@lN>*mpTe+4E
z-PYOlk44u%mJq-!-~^Qr2ilrfqtoy#xEfi{TOYI%g()U}v>E-JRY5<MX!h5FOuuI=
zko2{W__m#p`%Y;DoJJ|C{T?efZ|p$Oh%JL}hw=-=(P~%z89#!BM+e{6tV$>KH2hga
zk5!h!KeA{ZWxw#C`W{8F91&cw+(F~7zqmf)s)-erzL{M-5xzWnY4nwz>Fl<jTdX;o
zVs77!hOf1Mxjo|EIOnuyW^uj7(~im*L9%ifktA@@^-4a55LB}DBxN+|k#rp@=tx<?
zB~Fb6aSg44LoTCHB%L4pK4|iwYMtH6e?tmNCX(tISz@A$`aqmA`9yRfZ74vO4SJ98
z&h7|JrPz7NAoXF`$fEoM;())OqM~MmB^;U@#H>)LD*DO2M)V`Pj;B5?q`>+SRrWGO
zh04w=eDU1HbCcPuQ&Ix$5fzX=<(bKAx?NBisX8!Sa4?d65Fz6((T7#42Qi5L%Y9e~
z9xhOEdi6eIt~OoYPOUb3w_-)!MpR<mOB-C;*UejElyy`+Fw~S-C3$*b1+_ooo!14E
zFn&x?(4s2(-Rg_0Cw5J{sxU`#(Kk&OY>s4aUZCiD&k|x+4=j4U(PKufg0!1Ia22N(
zh90JqWKvR9T|-q>Q&nv|NR%!eQG1&Wy1yBFoKTqd9syAMgB_^HFerAhQ^I}?)x(=7
z-!+HmX$C)@`rQ1QEyd2Q?-bZI_~o5Nue#ii=vw1?k6Q@!CsfzeON_eSH%;qN$8GSp
zJEyXv6&=?@Gw$U#J73GbwQm2L1(h-PL97;qx!{mPu?TatCsh|D@|L^cpCg3_k8lv^
zwr9-5z0GKaa2n#`=a@|!={Q5fm^QVYEvysN8crx1Ct$R6^E0Zq)|d^ab=Vx>v<?#!
zPTVM;0>=^7Nog$>Wyz=`<?N)#C)t@St<0oTu{<p<<JZu7l$<y@bI|FSMz-P%Y+LHD
zj1xQHJdATPY=DHU0F@l4V)~||0YY}ra<ul@9>)@*op=F5C&Yo#3XM+v#4gpjoH1XL
z#$>8;m~-^F<%O5Dlv>jQPoa^~>A_df1QnQz=%o!d*m(g3J8|stvBA{_za|mT176rR
zFoM(_ZOE6U5n9aU!A=t7XUKc-ycB>8Odl8!gEUgWW5aeAA*5f7%{&tEk_Hy@60oO6
zV&EwXT}C5HEm6cWFu?2w!LGnAn{tZnHV*E<pTxl*aTVSsyLv7Ky$xmouXJ8@DnoYK
zv5J7Hii|Lf2D;Fi7O4!#$HZZwRx&+C<^qt8jo_=`JPpN#hB>BO!Q0XH;zqfY`{-?g
zw$4dtfD!)=sK|?=VEa9<ecq;o?cM=7aE3S?Si+6^Hwwr{^Efu-RZ*X-An<q|tPMWZ
z7p67@LC?qf|47*^CTBG{wD`xJl6-XdI26wG6&1>)%xh+a&pec#*gDvPFf{I9{ZWz^
z;Etjm3?`JC=y9l{9v^AadYe8Ero{VengstVVgyZIKos+1mmZruK3&u_o(09pZ0K=T
zy;6R4&#Q&6$~UuTYPZJ<u_zODT0YtKiZqkAXwK%ysk~iPJJmK_)iFUwb`@3Qc|Y+~
zk9QgBp;sHe)N-xm#>(lowKs=uwe6p?W#lhq`nWCXX`5NJExKs$YZ9Cvd-fq4`QBM~
zQ`Frw75=fieXh(>R5Mp;DQg*bj6ZrYhZnzJyw%Ewg0`H>J0%q#apCkYr}AIkDzKC`
z{~T(OOW*XAU*30V-<-`_w)QQ%y{H(4DQcMYP;ys0|ID*wE(cimL-i>6w_ICWE#K)Z
z-@4ZJ-B#DuRrc?$w354a@wRs7A1t!MW#z2awaGGPOjCUVQ3$C^CPRq=74k1E*z*>>
zk^m3y9fdUd|Df0ZNe&S`%)wVkC`PfMF__{|D(DsR1{Q^gP=yY6nRpZXJQrS}@e3<0
zVX?pLAf#+UT0*{+<mAxnQu6Tzk(gCV0Xc=_e1!rk$j7~tWl)F(%B#3iLq0E@xJRf5
z?+Pfvp~3U}(Hn7YqI6I=?NgPN<RkK$m0y(&<l98fHgfin^Elzrj)MEE@=xR=2lg&4
zA(+L17z>utng*6M3tw_U0(Gw3l9_{scV@>jvSZnWb2exG;=A^AEV`EToV>gCOdJk-
zEUvt}MOm47_w3ou9DI_UH{ppCcSQ4jQI~Jp;fvMOlf3?<;}R5G>LC(ilG$&G)iy$J
zYa0arpy$#^su8=!PfU6)4nfZ)Nh_;)5i5I5Ij&SpI~K+0723IYMYM~Aq>V0N6RT^w
zuzURcWM?$5hSb0I9YPkGBjvlI1-qvmhe*3-`*<g`Yanh|6)UgNM7K$Q40+f)Q3PF^
zO3FhM#M2^Km6Kr>%595PQz&G68r~?ax+=|-F6W3Gqz$_~R^v5F>LrQr?c*yT5x#!f
zQ5{>c2{oG@DQ%0o7hRR2?q$=CO^G@`kdZE_e4}*LoWqv0%lcM&dPy2SvEQ?#JJasE
zEz4FxA~;sG9qQD}(zq%n`=*vpp14wdwIN#OyJxWj4dbgk=FX=mx+sdGG*U0pqNpaJ
z;yH&iXZ>60S=Ai-gmfwEo+S&PmRgz?#oR^o=@NX|gfuEACH{1-)Uw;U-x_gLO!h?T
zR^IeP>o!EIHooSGR&9suJ4SVBMJ(TQ*J=0CS95O5lFqy7K4;dQ%9=SRe$lh)nyxxt
zu9zbz@Uu$qWs>iRHQkwYwTn{8x?5mLE1GPXan|3pIh`I-s%}7+b9(OP8Uc1a0KU6f
zMnJkA0G~OkW;Nih4L&gfsNeVDPk%JZ?cM}@W;p{A+9R$WPKa4bQb>>Lr`AHMO{myt
z@&hbZ3p~>Qg%(xPDYTF{NKYYMkO}F6JUwQXB*6JBWD6wM^=yq6gk*t%qe&4Im|#MR
zAP<rS2A+@@a6q!akV?o`PpgaMVm-|Qf{8Tcl9M!tB|U)BT$%J-FVrk^K-R!WmE{kP
zTOeyd>I*ClNKzMiYC;wv-Ct>v8CX~r!RD_q<(?%HP{&>qtV}IYEmEtaHq%qmq!a4p
z2C0Huvq7q)UzP%Ckg9ZlV?qwA)fk)bT`FmXT7NUk4%9JTI;0W|>5zK$+g3SU&qsp_
zYctgn%P>gk{zV*9lZw%9!e~}uW=RB=WkC6Trt-HkUK`{ONH$^-y`lD(pf*?oRL=!V
zF(AdIoMH!mmF|Zm0=^P544MAravt7<#6qpVlf#xUX03k(zb)lAn}4OeO3vdxv+Vlv
zFJLX9C#lbOs<^97rCOoF*38S_N(!MEW&8D2T8#d+S|38bR3o_<8|l)T>udF~v5s@5
zn#4tDt+d`0x}HNfXtCqlji%5I9J<LAy4e)EkwdrWp*Cr&DRdL^Mq^!-YE9^S+f3hd
znZDU<>KEHhI6F)@TR7IONwvAtguTmzy)7m7ZWHz%6Ly!pUGEWlO*s2ZI6F`#7mtyh
z3FBhF3BTKfzsppn116k<CY;?`JL;)FWWqdT!rWtu?XU@_$Aq)jg!8Zo=MfXmJ`;{=
z(wAq|$4of;O*oJ1@nlMV6HYgeiFfIt?}kj$6W5>Ad*1=nmQ(80!)?+L)7J;(hx8H$
zOgKkPIEPI0N1q8tGT|IH;m9VOV<wy)Q)!Nya88(T9!}X?`c2p;P1ui!{w?QmZxFia
znA6Sg+8mnHTTfApQXBt+8mct#DX0HY#O9QO90L7xX%Gs8L-J#geL4+!r^h9Ny+<p9
z8tOlmAt?xb7iNZcOQGvwZDx?4kcJJZCG8;1|6~e07#7yTwO>C>L(PltYzn+1De%sv
zzzd|nJD&pYXbQZM6nK4*!g?xRl&BbRNGPF_{1NX2LfyQ5`CFQM>51nbW48TZ-+5Th
zfGR44hO)r0hgG(tFhI3KX~9Iz;y=7A8R;^P<A|v$$vAt5oDX*Gkc&7LID_rCDmOxi
z^HhNalLP1REVPtme9i}4@uHL;{T;0paqD2*jl^K$3F1s@R+SY9f+nc#xE!}Z@Cm18
zu&U{x<44|j#c>iz>PqUlT*!2SM!T)J1H4U{#g^h3R1N(&J>+c}6uj(^cZsJ#AEbXc
z7<ZiLKYk+a)+Mld<zwJ9gnQ!o+997FBzA_hXN#vFg>|~#p=0qpaO!)HQbvT>nh>5k
z1(D_cLC8=QD6s1tW>Fr!WVIAQE-Vuq51-J1eC%1SCCR6(C?J>(>X9e75p3zIR~~|~
z4~kqUqsI$Fr}|I#vY3pnsvWNioeqFqfsBRE$})6kNs2}f{=0w0gQJ;uQAUbYc`npE
zi@|8|632s7!L=hE)v5>>AjawM2dMQjj|QaPvqOp$8VNvPhYl%(tj?f(7BWTLH+4}R
zG&9L%)8U3DtpgKHVI2<)Xt2%BgOA0sGGGi57Y!$z5Vsi`kbO!yH?G`wV(9*d6H-$J
zvxoyHa;~Qd6JLV$L{UMo1`;mn;ejT@1zs4*x2Vi=K6`=qP68?o0xmciSS02gY((ng
zf#jNe@ggMDYh**M&!6J{2ohvsX?~0=h?j}#;pjE7GI7F7gDpfwraU6EtU+$njj(>k
z-ytF}AHlt+x&)68l}Tb}uwUlge&DdksVcQ3q^>w2l6iyzpDZ$?wGG7CbTKYy^g&(;
z+%_Bzp!qO{)H(vEa_DTxdwyt`_>pyJN62ap)Fp@oaZ1f0U9gQ=cKu<92eEA~mUp6a
zEwyyqs$^Y<#EXukth^&WUF%SWl{wO<S95*;@AcMKJGWYBAw=cfdf;$t>K>r>4&u}f
zou(!{OVy1E75#)2FXr`=9js459hKS|;#~9kk~a*SnIW)r!MjDIh>XRvsP~G&r{#|u
zm^y+kNJbKesMKSyoCg^&R0cvRepPg-)fX?I+DRP50TLeA;w57wl%8N5V|4L6%1tN@
z^|3MtMTQb;T}{ZR^^?4rI=n;=!O-jHdH_?Kx+7)((3YLv76^lZaSo1aM_~B4kdDyA
zATin?cE-IMv1vzghA5@b6`^RT#;A@p1r^TCi2%6fgF{|SxnMN=ypLj(%UD^E2#Hf7
z(=tw#ATcNkVydzL7nsH&jIWY~BX1pM*#WtZ<;&_w{<qFccKdwsOzrc~{a3em_w)~*
z3>aBO4Pdx)N9Ftpt~=Stf~X_L7|mypilq7=S-dlyzRu2etznX92$COV89&SrJYHyM
zqPc0%@Sz*J9&!3HxRT};p7lfr;rT_cL39CFapG|ZD<r59h&GFZ&-+KWm}Erd^E3lf
z^`f;CB}KIlP_>vWa14%mR)twjT_I(+k9!i5RE0^EGW0xVSl(|j=Yf^(xGMES21ykZ
z2(d)V{YyuV!z3$~5Rwt%BW;6BQ0Ez~mnw2_=nUoxOuJ{6_?9m7Eg|v5GfRC-d`tLD
z14oHCAEBWV8p1RcLiag{qXIN0i^(1lNuVxpfUX&e)x?L8^k66~2P9wIWy;b0k81f-
z<m2+WUvUQ2G#;44Y&D0BfB)lJ7O?_C`ukU$M=g;DW->?3r1;?eWi6M-v8V<E%C9(^
zdMXdhXRex0^^1|;(0hk4gYhfQsMZy=#2%Diw!U!xLt1UZ<S!esX0Z;8=3iNE#pt8;
zfJK@yfhm|i*yxQfUZU1va&GQ_QOhTe9C7$YBq+|nSc&ylmQyj<QziJIx{a5q<(U7m
zQb{u$oxvn9h)K4^j=y_C^*ohogK9i*VV#ERZJ5NjfwC4h{MAjIuGoMJB`o(`NaKR#
zm35!lFts@1T_)JoxF*e_l#)Z|ML&HRK4bNlLH}VgBt>WzmiMx?Xj;B_!^daLLU9_T
z3+7QQbD}HKrj9Ks5=k@U#VIe&vsvy)lPbhIn1D`;xOdOt1KsL}OnU;PZL+-0nmTr~
z*b=HD{O2`tC^3_~#Ddnr(kL?MWt**wRr8NRZeEkU^fuE1*UW2tv(Ri%69M66kOHTN
zLYndfN!^1C&=yBQ5Ba=A&dKLUZc<+Beagu3T5ogkylRTpxBvXUM5XiQb~OWQz3*Du
z?p^i--ql=CEWCqgMid~GhUMn5F`x2Z&{X%QKp!#fMrsVAx|+3J6`~aTI6m{&$v5B;
zQH(Z1tqC%OwgaF-yv^G7Ywc5-Z>-taHL#A7pq+>kC3${oENm1ob+D2Fi7r6;2kS64
z1C%9Syj;lpt6RU`K*-qR{gk)_<^l-P7gQ!RB?L{WZdye_yt}*5L1^<9B1(tISY2fX
zWEa%3yt@afVAwKKk09EURVZ|`V<cBh%eopZNC;9XpzRk`LB9fex9`O8;3?5Hv^vl`
zfJQpwmJ6+FQE!5f<nN44A1J?L!vjpQ@aaD+Bw<gdi2hGR+aP!jG%SLF(@CX(RtBUa
z5hMgWL>u~ujX>HxM)fIGG-62{>;8(pkMuAtiGiwbHdWOj${}f69mnMu$C>BC+FekF
zi5HwY(<^9DXwUI?*k_x_E_GTqN6B037IkOPs`et*?m+*C@hlP#f#OTMkTRs5E+oRB
zxq{Y#pbKbUP|aCnVzKuejW=kcouX2>$l<f=e)5qtk~n>4G3KA4t0(AF&~X~imLzVm
zkOb>9B<qgw<Oj0u(6c}o&ACaBt}Q_)<w*}qwd#UeMqrXogTo|{1%W1{ql+;a-#}JB
zrA`B&DYO@0I8jZP&Acm*YE^bE4Z4!VAUfMGK}C$ky$7{GWq^D^IItmwI~~<pW?>dS
z+24-*D2%RSqCH5cR>Z`0uYVY#DlrSBK=RwfoYMNwqST8}O5}31VQ2)=LMjDk(-oJG
zT{;#iZW-@-amVvJt_H@fzqB~`Td)G|jg^#=95v#5`qI-RS4~3YzG#IHXZo|vJEF}y
z-pWZQvFUV8inmlOWhUJ=mA2?}7;T2DIMrTvfe&%fR;EDBtM(xKN$Q_T59`~QV^qUa
z=-Z^|XR5wU>X;YM{z>YaPUM-!PSS&z)1b+dI%XOvsq$<mhP-w-F-E#0Df&5LPG2x)
z8Uv|f<^yp(=5%1`B8x`G5p%|ZF;h8H#q3PTa|W<djJC1N(aZ~_2y+{$X+GAU(S;5*
zC`2qXfv*c68t@ChVQBJ%iL~P<tZVOx!wh^|sf8K8fL0rCnh#K~<~M!;tux*<AD|7I
z-}nWz$#~OzxKl*!b7NVfStnaHxbdqUX>?g$biJ6}XYYr=`xBri`N9p?SoUc41?vl$
zqps2HkJ?_yaahK(#sCd3(qb6R(vDQ5^iy4!WZYpAXyQj|gxF{niH+hi4ZR;Br#=nC
z_#Mj`&3Pt{uvGP(XT+)HHzCHHXTCL>lS=eJ%3u-K0%?Jk?4_>5&)}yPh#`w(Xh&$L
zhHLze<&NfFu<fxx<~%o5c<S=>l7tvPgMkH7b#bbPMsvpUM)M$Gyhi(CG%vhX^M~my
zj2}b5I3#kDcXE>!X8cN-5DCFTK+l*vyh`{imXn(`pYc2D)-V?+L!pL?@U5EP_~kK`
z0zPQ%w~XcE8}yarN6AYKAI%qLsKX?+#?Q%Jn$P&9-X`TDhCK#M^L^ARQQZ5qcjFf!
zZiI9j5Y2}W%I87t-S|Za4EVscjXL4Nj1OGLXgXZyXa?K@e0Rve*L(;mL`aYJZu}y|
zgOEoIh~`5`5kel*-i_adW-ZeC!&k+lnQ%++t>5@Y^C6^k)C#u@;qTU<#xFw35%Qz~
z(R>K0K*$m8-S|aFrD0zmIFb>j`5?@$(r3V~0?sil#P~%>H9}4p5Y2~>8ib@+pfT$V
zXjmr)HJ|Z2m}d$namJ(vF?$hnin#|NwFps?KENwN>JSo68B&jsGbuwFM)QSsFSXK#
zArjvQQPDp8SoWCftfjT7dqL6}Ry3P1c*zI?c#ZKi!8yZSG=gImFG#_b_&%~APHail
zvWK-VnMH()6EbkK72hnRTp{9+Ny6jgdz_rZ<ltU#=w^{ar;XzLcbI%kUov4jM6ajG
zc@H_Xe`V@aA!Y|j?^~FYtMriXEIDW3#Ivw<Py)TQTM+Wt>qWT@IyTkjfzv)mk+4`S
zDLo1iSQghMQdS`qMP;0v=gE12oC$KcDvkmLr@8W=LK6rd8MF8~YodzUp*j}&Xx}50
zAJP}%5{q7GICvUz-*7|9CkTxzjzwvg(Ca&`Lax1}in~XNCDmRQMY@9maP2&#iOET<
z$JPQ9WltO)p&@#Td<$0Kn-t@_s9e@Fq6%Im2vtx#6FYg>_63VaxrRtWL>2M&Ai+^+
z%3$%~k(LE_1{yy|-9xm~wg7h1EZ7$0TI!o;>()f;)<m-LzdGXD8mnDBTf075yFTV_
zfVk<byCdrEi1@Zf-P`Ut?RB}pf&gfx_gAk-`b%q`{*oVLSg>;`_eINn<9RVxdBjyW
z75?1$-#ia})Y<CA(dxzH2e5C-cF(%%qOQ7#tL=7C*{AA16`E|h^kl54Y__N|TGSXT
zE}t!Kjutm#Lo{2`8ZBvs-1BVdqG;)&80xluOSFCqM5t$LmPKopVPjOBJH7(~wk^KT
zjlMkk%6n&ucE0@HE8)raOx51Z|9aI#U^4%bH1*!`9nqqlxAO`nR{q*klMg-r^zF7S
z(YC#>?SM1kn1OC;d38e0n~+hoRbEpxuPKt}1NwB^HpZlYnn+$-tgvpjusK@Te09UE
z!qu_08z;JiUhR)Pt6~u9FKUezwO)PVR?*s6-O^de2iI+w*c+>8ic~C%c$UG9E#El1
zd{1=w9^=C$`iBviDJ$9#YwVoph9+&KV#TX%vC^hDD>vM(Tm^N`vhuf_Y3qvTAnr>}
zWidKl?c!PQny7cpYn>7AnrZK@iQTt1Z27kT>;Bg>r#BqZ5}EO=y|a4#xAVS{H`VjG
z-rwwf{m^(86p7I!w_J617B8P&yd%1J$M~K|$)ad>`|Z3cq3-*0ORYN#R+nEq_WZFq
zJN$P%rI+`8WZ#?<epCrsxN6z0s%3NO^o|>`>SwDvZ&i2BW#S!T$=+piF7jnt${OZ!
z$d_v=ES<|EpPPL7<SQUwA$*XcFDSlT_K~u=B6=&<-b(1Lln0CNR)ue_jNZ#FP&DrN
ze21oee6!~la}@}<TWP6kpQ|F2YD;P5<)=UL^jr<Wy_V9txmtqPY4Cb_Yp~Qd&U#nh
z@~)n1r1vI7JlnSKR@=V0X1u@EVyWrm5lmVjk(SL+nXbv5Yb8{lrKKHv^;^w5<`&cY
z5=%qNZ2iVt^&97w(t9U*(~D0%|I}M{OIh1&>Ec_Zi{H$zo6Uz>K*ulURuRf-i??C6
zX63D#m2+$8eXW+ab@aBL_zi;}8JycdZySvY-bC-4ttis1lGZ5{eT$VKmfFm$f4;ZV
zYAN1j4bgt|2iB~EYtw#^?S!kWp=tCmpb0v_!~&qddq?0rSVK^$TtJso*TYND{?(0S
z2sPGgj&7xwvO#OX{gsEA4GKvPHa5jdWtsx8IQTVmfQetap$D=xM|=xtxR$6oQBcB6
zkc=AXNIj=7fc|Mz#y#5eF~29<{UQ`!Bc6sCSL0RbODC?KxN&aAx0y9yAD%9FB$E9I
z^n_DsUh4I_5k-A)y@FL>duH8(>Q*Tlg`PESOhYhBq8j@!s|`D~Z4T<2FhQOwZpOs+
z2-ZC*SNur&4UyC`Cy~eG$1v)FyxEaA+{UKHXGhA(@nx7&rtlWdBYlJ1F4$`_wXYI-
zjlKyNy{6UGtuU>`6a-P+ibDNo)e#}fqRVKJwNAnF51fI*9kcs2C2~^-y1#V(hlWzH
zI6Z-226KstZQQZcCqx8&N67kzc6M>Zq)D9mBRV@6S<5*XCQUeR;`i-ra1>=Y8ZzQi
zg<(jHO!V|thoO@vs)49QzBiJn7$#ogxk9s8%i2go>OP-{^;z_W(05Rs+||7eFP*z`
zF4D4Qx@K)8d+qpvh-;^&@}4o1S3C9e&HP)<P@0Q8bokcB!(;%{v!6{~LIoM7Il<Me
znaaPFR|mwpTg~f%5UK5%E`B)TemGX?eQDQ~T~kj^S9V6SJID7$Tw7v!6_bHmc{Nk}
zZfw2P0Fx6ye`vb+P{e)cj=OTocFSEiHE`phTTLrpbNpe(cQRftpV{2QsgmL|83a{R
zO{w_oK(VN^-}^^6AGDjVLrZo2D=9MbKp?6+>EUZv)qUOt)dYgzhCXjM)X>N6;wn|i
z-em~bqM_&^wQ39r8VKegm^fHPcnt<)syyIIJ#DWkWt_1l#G?-)b+}}8^CqQFO`Wqq
z^|2g(_mBzm6{{u49WGc+H31lx=Sr4g?E=;^?E+SDNt~7SPOsS&+La3`ybRN?dNHvk
zZ=wp$Xcx2!dix1{F|zaR`e}-YV7_-SjML)eYgWIHw!TOFKyl6LoW<_R`f1UU3G1BQ
zlG8Ms-5Skqy;?h+-F~BMCVTZ8MN9tq9@WURRbDGH&zq#rpt_V-$f2W)`%gZO12Ekr
z1qn$(%En6udFaSi93VsV3fjtacx7Z&llbwrG?NGpotg3ux0z;=X0gj{ZuJQj$s<S!
zMnmXFv6B;kGt!-qw0gEpId})DA`!N0*v?0vM~A{Ee3(Fp^T8%FxVdm;=x`9`4f+X6
z?1#9M>s5IbscRF<W-+l;iz&k>pWdeY$w=qFr2)T56VGRn@GmY{=mOQ^3F%XNW?ap&
zf?`<Ofsqqlb6c)9OuH6GT&q~o_YQO>TQ@`-HbydPZ@UYj>BlXM-INEqd-nXSaVJ^w
z$)8yI{2DCJP`AxrbI)!k0||8Vsuncqd8zbD=~Ty!;_0&0u<X0VnswLWD9?f=;le8V
zsLAvZrnHok3o)U2a(Nxo0$F(+wPHvXFR+g4l#zlfC^YK<{0-<J&7y_6mh<!?!X{ul
zMhl&=KH~#>4yj<>2cwSoycZUlN>uw9QX2Bq7}h5fEiS{3gEpar3QTlCx`qck<{4%?
z<{DheWM-}}A!g3eeA^F7g<&OJ%eS`TOM(@h1y-YOQ9-h8fCYua7RfbcONgKC7|+kS
z@);=`$E0eBQ%z!0j+P!QOc-_Hm>*Xt-&6~^Y{xxs)MmD5{yt)^I#8>*Cd_=s(c2hP
zutRcF`@q7xk)AV!MT=Zh-RMh!S}W$f6pT927W49=)hFy{<Ri7T(KIQC(iN$XI++5q
zzK|ysj$vvUw36+L1S-p;)r`7q6m^S9iS!4=Y((?Yi0@G{!=uwLLj%2H5<3F&g{PVX
z+QkPA2xBIz-L0Bk5VRD{l>Chr1q`oms`VZq0SA)UAz=g9WNr7>k@i9ze#sha9nG9|
zntTl;TtVaM7S((_WinH6WY0D-4GD`4eCOC&?~$kK$QVW4T5p|ZaDd{}{SaEIqhtvI
zVlO&;Z0yJmzG7meCPn@=v?EAh!~?-D*eIfGYh|kS^7R@cE4QD6;4_J|L&yX+=Z{cQ
z0$q<H#m7dPsXjoOJtGHtAPGWAn#5|7b77bnW!v#A8Bfx@_|lNY;e3aVz$zUxD*pk!
zM=TYrh))x=@_FhE#E%4$v0fCh5zfA_dJm2&lMbN?a9~M60+*r2@eNGJsTZd3Mc24l
zh?*DruNI<Q@rX6XE!G&WL~go~rng&F47{JvI#Pl;7z8XP__8TS)YWj+^QF>jr8k;q
zTET?DIsHUcG`ogaP-T-{Q8Jr$wIkZN`sR*XjazwPQG;&jLD9ypJ9)*EQWT`DbamCs
z!AR3OGj&Rou4iIDf+KAkqj?*@Hv;~^#1m0>{VP4-4(zh#Vok%@e(|cC4w!*ky*ILI
zABffc)<(ERjj$=NS+n<8@{9PxsgYamrMErRli{hISH`YOGoIzQJtdQl$w#l`OnaKH
z*52|gy3^E-t1c;-n5T5IWMV&fWfQKsEUa@x<kXQ^LHT6E<XE)4<9c`|uQOIvH<1Oo
zf~g#c70gyFi&iYVv39y*<3z^olG>@3>s>P?OK+Dq#LCy)Y`IxJXR&r!+hT2-BCVU}
z?AEfaRxE@SU^EGf6`t~`(r95T@Uci%ER0v%dbK#}T{4kFX>@$GaHeF%tA#h8m|nB@
z_4nLbb5KpM<7N%g+ims5eA^-&U6kIA#PndrqvTWjC%RC`$vx4M=BsJZlEpVROqXnq
zHMUM>!SDd?VXta~u77Er$W&QpLWWbX+_Y-*%6$Z$2k*)k+_&oUeF7n#g4;1l<7b5C
z(fz6x2yO6)F7qBCkv&pJN!0AXCKfd20{S2r_Fm$GEXV{ALusBC&O%I(1<+eS9N$}s
zDoS92w9mLYU|+7~%Po<0hh~-?R>`d8?|@<=Vw>xoPO~0d@6Y@@+5=OzP!nt=C)p|*
zTLvLhf2l-LMb*qV>$QyPW^-cQO#GXzb+t;#mRxw+-GKOoC6`Z=j}L_S3~N7?gHKI(
zj%FRkPY?<pA-$J;)NVpJ>JdWbV;nvNTS2c8gvPUa_Z@(7(B0iT4k(KNg(1<vIn((V
zGg_EYcZ(u((T6Pg#<am31j{B^2KoMi9GPB^k@K(gN=kwXAHSU-pCK@Jie3lE;WM}(
z`BEJq@p&8d8o~0QQ#Ntl#^+@;pcEcj?<L>U<UB*pv*ZxjB@D{6(JP;geSmx<@{oL*
z_I-kVm_qqnEuDN{AsC%r#ohZ7MPNh9#|hywIV9C6&dm7qtb<;+)0b1^<8w4NNwc0{
zXUX{;3iuj1WYkglBXWL3&Ngx$Clor(75n3Z1S7|d1unD{t0o(#$t#Q$c0_a8s7&IG
z-A%1zRAzWGd})+!OKkJ86`RA8jT8Q;+dI_>Yn)_>rm_~+P^5{Ti>Ib>Ia7kQmN%;E
z$To`2>S=q+=`h<yaX8bk!qSziWs}RNJXc`pr9I{;y0GO!XuRi{k!eR!tPwVCJQMPy
zbZG$BJH?iCUN{gbYP#x)7IjQJI^QUPN!6*7pBsF6@Mih9tG`}7Q?d&;MX6Uk?~2to
zinocwmohId#!8*#C0jU&R%sS3hMk=KQ(aL{%d}&0l98H3OEb7k5XNmH?v|*FZWMIk
zdd*chFUicC%dt4!v5dTlw2OJTX>y|JBCPpXGs|%mA>Y4t*J;bF22J4VxSMXz?7(6V
z(>|FFGVPP*%tI7gtlMD(#xrp|QoSNtOm<+3H%vRaaNecfsZQ2ZTToLl?JDf_v||x7
z%36V7T-3gE{4lKI_{k~`TI9e)54A>OgC>@UZ2c5ZIuT_y+4`xZyWU}VrY6?hO1HjG
z7GBy7`p1Kt-dkhM?GZ=y6s~$l(v{Q=rX7{B;u5l?Gwmor#c}S)v`?Ea;;5bKq>iz5
z2VFS0d#dl+iW^(6ua7jXidL?^*%__eH0{_y#)J+`9G>jFge*7lXShIqa@(cz=vXDx
zvEHcg-tf#+tc1;>@Wi%@=cgSju{y(CESb}><}7|IJ*^-O)zEOyk_JmVI5cgc&IU_6
zMX<C}51To-5mhtN)6mMFIdb;EfKO%v0&x}MJxeA&^jN%&YG5hC$k<Ntq(ckyE$2ub
zIn4<3rEz9ZH<NvnrI)&+dG%8u>)JHr+9pP}=hVNIo>7}dcPrEN;`b~WNT<NEd^HDK
zb5<em%aKkg$g9xQw#jo>d{;Z8<%_kFyhE!*Yhj?(6Z33@@uIbq>qsfx(p<Vyvs%Q_
zP=#zIt3}Jww3~M)`=j~Iuy2$P`$obH64d}#-8RDXrfC+JwD9J3HJt4qHB-qtC+(Nk
zz=Bg@y@piRtRiivNb1rw8&vbc_oWVBv_$=W89rZx0#!^N#%+~;?fZ^pYWP9=z5@tV
zsJ)&mBO1cnS!p68P|K(;7BT`g=SZh!%O*2WMG+8)4bc+RPc~Yv+_IRC?C9$aNO>_Z
zFc_x7FT1pq8{0VCk+TWCq!Hns2?-ZypVB(U+uDdKwk%zV&tsmwXvn4b7~Kygub+JE
zN-n0m(hkv{S(b;ak61Y!Yt9<<pogqvY|4Q_R6k|E(mEwa%V7lT#`2qmUtV)_IJ&$m
z>f0VI-ySL29(C_{9rs)A=l+GG&zibeNjYpw#qtZt!jvmbw@ZbQH0O3Zvts2{b9VY&
zy`F#XWR~4?;(e}R$O;Qoo{~8yc`)_VlL@M}xpaQbfJLggO!j7xIVu-<?;eHGDPe;u
z=5*h+IfU(~d|`{qfmfX9nh^>T5%7AqB>|x_5dp7v*C!zCwkBfG``t%u2{>tqD0sc=
zPC!tNUx|F)b>LO3rnH9kVOiCmOx1VqAHm2o8@j?pQ80BSS=qpcdO0XybX95wu~zV_
z`sj_Z#69!4abAPyU)yQj$Jd#-=1Gf@uXvQ4d|S8%OJh7?3`>KFtG29U3=7vP<*4RF
zw9rg7X16J3ap{%|rm>9FvKcQ2mu_Xi)QB*Ol@6m=IeLEhYAqPy@JLp<=w!QEFQy+r
zeWq8{d)=)YyP^xYw0z}LdN8+y3%F2E^J|1nYoYYzFm<ARQ>d1OF5}W*Y%~isS7mAo
zVJOS$uQuhrSpBxf1QVBbSz#2*Xh&fv%jvIWlPkhRmepTp%DFI(W%bvaVyaMMr|Z15
zoQdnas{D;?3W-f)p}b96uh8*o_**ATW08>;ulm-)Z?*hZ=Wpd!spq!_e;bDhLs$(k
zghk&qahTQLE_cWo+)B;YTQsI!QlDs5aeedh!k2oXHW!=9yGX@eA}<C0(s_MXyX4Cw
zHQ<sjpT;PLfh@`wo5T{mMp|MDT`qU(HL#RYP;r)-a8}4Gb)4lUoK6$YD)b*=WM?&-
zT+(Wv&1I=^t~BAVF}3w7Q=F?!IBT^Ysi(figt^v)xy}@uW=0F+17@_0dRTA5(Tr&k
z&PEf?1{02EQj2gln{YOoaJK0Ase@rHBdtx`PqyiyT`;+{{rV2QO*ZqzYnnkUN@17j
z>n-wDy~MlqIIPkh6Ap}K={S2$IQvXET_&9UCY){)&URC2G}Bj<pMxfx9XzA$OzOQ4
znPNO-!rsN$4mpG8+8lC|zC27{N>%)?4(7~yU|MN68>wPbSh!&BsFaPK{|L+}aX*qC
zmG{8N(qp(_Zm%BtxR&z-ynQgY<Okk<^to>7UDw~OjXn8*^h63XMF&&hJ(&XUp%i$%
zDew-Zz&nxx?{EsdKnlE`^VZhBc>X-?TVXg!SbL>C`woRS*@tKY%1j65HxR4g@7$<u
z!CRn1QWI~%Pp^i6t<FHem2AVuaAlQ=hrqmnRBVA-iX#<ofDYdkk}&Nt$>x#>h!P@)
zc?HZNASsb}jw%%*2an29=>C2(&jFU1w}qJBnoSWHrbskP!go(S&}@n@z@re?VdS;L
z{Xqzs@I_jEWURxm2}MexP~p_o9Ce<%(9Xm;2)Ocejx6qx@QEXkr<&=wf;4DNcgQr4
zwL`ZyAwb;Qk{F;J&<f3Z3d5m^@f~TNHhag|T!eOktxrhHK1Wr^jFR`0j~OK&B;PnW
z7s+{^oL?j71vn#{=Ig_%_hGR0iep1$D@PnPsG<P4#tm|~UXgL1!aSD`QGCpJd69g~
zeW@fLv0xJDHEMol9{z9WotMw+^}5da*T7~{K0+xo^QDA*rQ|Rh=%eIgN#>7{kJ&%J
zPCn)V>FTY@B*936`u?NuKsy!9r7GJFzGIzKA*B6DN{4w(_2l~*>L#_?>1~97(`vh5
zgNn)mm!15Z)lUm>DHgHWk{;M;)o%eY-=R%b^PxgO?82mnl}vSIDkBisB*2*TTz6;+
zVB#hbo`hUf4?K5#8a|v;Jw^bAwv&%}a?E4oxg|)jm*6BRi!$48q<MZnNvRfUN9jYP
z5+RPB>LJ)1YifyP*F%(fo{H$51#b+x5q$0NbouV_y>I5#{L(6+%F8H4YVFU*P}OLB
zJ2yUQM<!Jyy+W*yZe2^QQAy23?AN5{|7n4mD@0tftWjbM-2wL>Pz#in@uUa0B7wt?
zR!^ZdB=L=JV_CT8&IOF(q)+ks%nwq-PwM)l#y8NcY{3w;OBrLX!O#B^-wDB!_65Eu
zH&W1itnVo_2(we(MrY~G)o=&p1>#Lr0wKDxFZCC!`{@qXXfcoGguR+y>no~WW6sHX
zEyVbhGH|0SMm9ZTx#33PgI;5k<}-drb2Ut8km@ame6<-kn(xBL487B^zN-%}(ZU5~
zjc+S8i17=JSxYLj*MQQYO40);9YQ5NfUZsg;T1ZZBu<5gbVE<B6MnO+>BvH-*ZpFC
zl1{H1+L!sP)9W71S9N;x#sCe|5gI?Ed0HKzA9tbWxx<^ZFxKhKQ+0ZaG$?YqS@Rpe
ztf80!&N`r^Be~VU)qJc2ngTvrpz46q;>6F%9h%Sh)pbC388FQUeLd0v-J`u5zX%~6
z(0v9(^C2W3A>G=$@r#fL>wq3K@HHR4D@2T`wL?h<v`51<e(??IfRZj&(u0s<gglZ2
z#w$WfMziPwGU$Vr;*B&tA4`c>&YGg6)k!j`Ne{lPM9907z<5OnX>g|25v>jfv@d{j
zRP!6Z37Vj!)hQWanhz;>5pqm>H-6D0PiSwc^g*HTX@n1Gn8q(+u0_l##ymnut8>u6
z)qDsctxh6&lOBXLj25KS>dYT=zr9u`3u3YQp-DSa`5b05Ro_#nCVmD0g=K9&OTOPC
zhqVuxbfZ1!1JpK|oNFdLCIM-0C=QBGlaF;bna*Rvo%e@Hx|_URB%MH^ues)z)7PZE
zu-FFknfg<xL7{HRyC;^m{UO0<;t|rt*U9&Ng7H?XmwbGx4?1$*nKbW(sFw-xD;oX(
zRt-(AD6XEQnz=`j8r8!acAA2cl{2ZLS_^-9z07zC8L5TQ7q-l5vI`q8Q0<PHHo2nm
zxO#q@D(X$j2<dbxU!+%Rr%)kYz4IT1#<Eb}Y)DDFCn;{0qQXP(18EDwJ=>CP5bks~
z^8eI0Q>byi6uc4~KX9k6>2s|wx8ADjy5aa*-k0-UTN+)`h1*c?RMm=WNoQR(QCCgG
zwFpWhvw8J6Yn{z&iRQIj-G3`@4TQFE&1fvYNL(^Ho8K1AZ@U`2mA{VlM3+UYm(5mh
zj8<=)aK%dMA|<|v+XpvR@0+b(8?9eE;rKCZ<|KX|@ol`7zY&+`%+{`m)~=Yyjg>S;
zN|t{0WXw}H)36Dmc&k(;5sR&~0L@#qXtr`iv~tDGaHMj@bY<5>=Iy4o&z*ev<c+fF
zrgfy~Sr4oSsj61`-ifyAzn_xoze#b^Yf{{VUsv3OA4N12H|gE1xQTaFag%&Pag%&P
zag%&Pag%&PaT7k1;wHTriktLiR@|iba=O{;iH|%nS3z%;n!aNd-tJag+O}9Pjl354
z#as=ALT6KGaMn_29cgyf6Wpw`N$+NzO?q!J6f;}#{#IK`9nM9BYS!7L_Xp@~63S|m
z&L+JZI-B&i-q6zAK<^t3CCyFrZt;?iX1=bX`NQ_CgH35aT;+tjfQlw2E5ZMIA3UVX
zw1A=kEM;i>i+OrV#6RQb9qTF4!o-iH3#Y4s;%WcK^ox{l(DeUJn*ON(Uhf4l-9Les
zk!|y*dm*!@@j_u}SMVi6FxQ`2Z|EXQseFqP`F(P}O%78OufYe+9A+SWhoJv}B$e;N
zm#84al3XK8e%Y+Nk5-`oqWndIgyk=<@`8);7E*axNPC59lK$@f49>!xN!v92hu2JX
z>zb)%jTo~&Dl|&y8h1J!5VzLZP;%BGReqOXzef(ybR!K%G!;ris{yw0*`TJT61tFD
zCPkoi4k6jjvVJ4pg*u0p)W@hZynrlmU-*^kVU||DlyN0vs(iY%J(Ar%zANHdbMwUO
z`QI2|jpl9B1znMBNWZ_mM)Q$()NdXvJDs47k|aB=+@LmDN6tK{T@s@lX`NrI3utt|
zLSy_Z6ccTB5|rQdne`vvQIWt#PpvAgi-XgJw$PRYZ#7hct6ue4chq!|t~N)5<K_g%
zjnuST!2NKb8;dW!318aht15{b%*{3&wZSUX$i|$b4kc&Q3E_0uJ`+!>S=>sM5`z;L
zW_3n3ZWo4h#R(c6Atjup=?c$)s#mr`R9(MC*@rzIPnf&`;@!<>k+|5z(EN#TU57**
zH*(_IRU5bioo{1~=ZT}cUJVc;4w081p8w;udQ+?UgUGyge~0*XWcl0lkA*(EP6Kfq
zY4JdWF^bYlrIRhw`Ss&z5Y6O~Q!`z<bUf!yxp%5-(s!%;k?a1OY2UL?cXZwAc=+|=
z$l-^7SP45Q<;_<+Bjt;KZn0Hl-G+MO*elX>_M%(aJHKkbv448W*4F~jB|D+Dky#26
z$?S?NPh<EcUg*5g<gNEu+R{IG^8P<6NZ&TU$`=x%|9u*h5p7JeE^+I_$&&Df=sO*>
zhz`RYipAWSOK^^&VEOmM<l9dUpH}k*+t{W*Mgc4YPmD<=O0SE^xkXNjb8CeK-)AY*
zMGko5s#N<4^7WH*lAKfI@WIkM6=-MH1FuEY`;{H!uoye@5+am8<`M9=pBW0oV*RD$
z)|F|B^yB1QCdUv}N4=}OgboVWPOnqsOC_()QtDr$P?~a;pOKSFRQ<;kK+Z;V&(Lop
z4Hi}B3r3euc<5fx%GkD@e8Fhp#oZ8>?3t>+^7xg!Xm<0}`e=5?4abecU(SqXuesS3
z&E7oi*h%+>nk1x4t4MGdF)gC2O5dTNJA|xp?dL?-#gil@T~$NU&ver#z2)SR==!sJ
zlBCvu6;kS`g&pJDaLp<%cddF`ne}8T@v6H23*^E{fILYOJW*C0`^%*(Ab`9A_t-nH
ztcw<sPCy~+1k{jiED{bchj^?m$StJ9S;m$`cn^^D@X|Cxn?Mud{l8J1I#%=ugoe$s
z*5bn2|FE*umH(Tv)Ww#!m8C9yr?S+mU`dU;3Q1D0nlDHlDOwbDw_goM-OJyZ)O0al
z&s(SpN8=ZK5$$?jdc*a+<@Yklw~R0|PiS(~<N>ZGN6oJ!N6k0;G8!~xNS2yH?)D_g
zQs*WLG2`{FH$jLwI}rh|uxMo#wtk>A_5+hxNKTq2@II^u`a^34J@-i6>OpeSGNhzg
zMmkON{jciY1U|0oybryz0+;~?z+kZN3$YLjcS;l`Qrt-`kStQNP1~YC%#eZv0@NK)
zGGWT5P1&K`#0FhAf*hx%Uz!&xW?RMe%Tt!tZk+dPTF34TfjmNEIi~WG*VM`T6*R_?
zqbz;@|99>-cLpFN*_JXSzI*RE=bn4k?|kPw-(pIYCX|eH(3S{>45{x<WE>Z#!FUSD
zlLvCqMV2I@l8g2n4V$ugNLOT}D~0@R5v1NCI4iZRpSUCgP3OUpcsO2qwalctkCwx!
zsv!+6Ih4mM9I=&<6Ai>G`5lRkLfW$GYRq~&D$<rBjV$pvv2wg!1*e*(w5muVOPacP
zy(3L5QH?K%#IeLS#+w|mHHlipHcLHQp3{!jL1wQt)3A@SZ1kv=M`9VmdvBt^LjHhw
zrmF)aJ*LFWGNCwpj48YJN-t06a-AgL$;c7?Ro*rb2pJ-q<DZ=*R_F3{u|%@|0z+?E
zk*qiGf<*$z@`>Qx1V!n_;WSF*&4l)6-QhFh%+%>KQ}6+|H*sQwz8WBpCz`XF66>8z
zkvOj3wDHY<_kIfS#VKY-6<gCMmf4hcE)q%6E#pnG{&E~{m$q(hGgC7M$oIi>7bOmr
z*ZQ{8XK@fR0q-7T@H+tq6!85uHVI!;M{)%PMS^Zb{DHy8f@Di|;N$T9rk_0qw-cw~
zo*)6gO;XikQsPW-Vq|LU>BO5~lUl$r&KMld!SmoMtD@e1r!{$-6$#nJ9mNo|endXP
zrQ#`Wj`^m7P7!dF$*qy=hfr=EUB9ayQ+?quTx<@5%_k>>{~u?-A^=R|?8PgtQ2lm9
zan@*t*@8+4hMk5%15P!=F~z_NV>>Uk7e!m@Mt<kD*UFp3&gG7D=ME?ficbKr$tNyN
zWQ+V{8v6||0Dbkh*d+Zr3oiSkzh-r4*j$&2Rq;{k$#zmo!ZO`u_f*7Kk#}SR=t~4V
zPS*d1cLTh8lXoBF9oZ;~5BpaPBlxfAt|X6G3lRR{@)_Ur+n_AC_j1*Xhc1009qztT
zl@4REetFMJXVc-^=lr)XbPs~oeRR%0xX|2g6Y6x3;Lx00Sw-<?P&5OVBPidlwwcf`
z3$eqX+n^Ck<;M8)A2U_<NWs>VN);WtR;uhZnDi-Mth3@on--Repuo2j3j{){71?%$
z*W4zc;Z?7>%de-lWWTwdmKIn~%My`97^_kFD%R6-*Lqr!sC2BSj4gMpXHki*FxFGZ
z;KwT+u~m+;h<1>a0Wu|yG+ZzJi5l1HE;>R+>S{;o+JdP?Q%F+R#_JrZ>qMVLG=e0y
z0jquE)h27TrzVrJ8XMngalGA-sI*pl(fE-xZSi(T8t644hYqX$o$)S5Y;&Rov7+^Z
zcU$A#S9`vS5y2ls)q4xb@VCeNKoxX=Dp;F|+1LiFm*Gmwpa<TEY!o|0@PLg1au@&o
z`dKEF#ebT2&k_h;IM2IJ5`2o_0zo}NBf-y@NN6rpHH$ph3(UDJd7%GKmQT>wP2T;8
zKoDA%cRwZ&thSAJhtbqIEMcxWvhF;Fn_Dy3Zq4Oh$wG+!$1Fo(F86m3HSJhX>@FT!
z#%jk1o8`OAQ5fC0v3@_N)l~lpzy7xbuGLbOkLm7$-I}*DKFNywomr8-&eg1W6!+6z
zYo4rwg%&;;>ay_3P?u3I16<gKY%Dd(SFtQ|W-IFs?688X<UcTiAcT4)e-}5O)?BLo
zk*H<W;l@vADWrBi6z>aY*GE@Wp#M4R#J_h|Wf&H4?z8jNjh8B{Wt*LusjvpKfqHWm
za+4Ze`XUC%trl`1{~(q|AM_iDSn)dwMPqAmk?paOCg@1xR4taRv5}_OktXEGr$n}u
zAuJ$aEFj@b-GhpJ&EHhQRM$xI$v1Z-Cr?blG>md|cbw`|aIic|4{dN-r`*kQuY|v2
zBcs@ZU>|}_j_F-ic`Gk6GI?{CBZ=wf_N`@@3E5e^`M)`~fh>d_C0iNsqX-9oC@srm
z?FXT}r2IUOC|8SPC(iPqOF7arUOEePr6fG;IW)%1{o{7Y9QK>I|3o4>j^q|jS-7*E
zS`X8AcqWqDGC4b(Vsx{tH0mgaw7L3W*J6wUGlbW-vcqv44QeJqfnAR=Ce^OT@7~{p
z@KN|y+lz0xqi{aC3`SqO+z=Yd!|J~P?6)+8oL1WJyw*5)B|g`<DO(cYz9(SpdtNGa
zuK|9PR_|lE<Zwuib%G2Nv<`J?9Q6~tiDq?gTYQWlc$!5zg-n2uTRXAS=%4kcLrru3
zPFOP$8xKc7_BRD_7I6dz2_JHj{V)LWenf)ir%{KgOJOro*){QctG8wYfliv$*bB2M
z_bzDxkp7XNN&55q|Ku=6)a-7X8X4B5D*|lO1~#_z0=RQ94@FQyz^-_&41T?oB`PB*
zNThV-*D-%Ee}yDUgn7trxSV&c&2f}r1T#!aD^4mcgEF2Yh5P;r2IHz$3$7Ig#^73k
zZG@~6C0e2c_iD3OL_-sJQsyK|j*@K}h?|Vjplc&XV-q%GG#JlijH+#(Fh=8GiXM$(
z1*ytJ4?Xap>A5y{1A<CwFM0Ie;|vut>IvLsf~UvNz|E){GWT<|2+3v>>N0`~Q0qB^
zhj|O;tig?wH)N`cm~M#o@au&;Iltifo&0TdTrz|_1Y`ZPPo#=lqzfSr{S<T736cb^
zqiVrMQfnbWW9)kyVcAsbYWXZR%z)tEutd}NqML$zJyw6YeLmL3BTv|MT7=b>Vw^*S
zOD`O_QP)PyHs^1%xh$`eIq}vR7g0~3RSjYmCT9e*Klod^58zfKxP;90VBGhdR(KTK
zV;G~XC{vZwS&9WZEbOYBB5-+QF_uW?IERHThf`=_H3yA3oy@^Qi7fY={xrg-n+g=i
z+MCX!hnC8b?7a5%J-_e&M#=A#{9br|^Ip|#pFu<>Gzw<~Afb+pOo{pJzL0x32`5ej
zXzazUg=4@TPA+8A$XJ5^#u2gspTP*pVWlm4y@6uz$ZDI?1AFId_L0jr=ihfD6uxj^
z(d!Eos}eGgOvFHeg$P^jj`&;Ji|Ko-j>cJ#*nu(5fQrP9gTbv@CQjMN@f<D2Ai%N#
zyAuKUeKb&=iwk5Dz2I^Q=L%)#PY|6y5pkt95noskUx`I(mnT9%d}RiYhIvJBs$}K`
z#AgxWro9}dsc@tLm&;0Ho*gkw)RCsjk)}!r@fgr(3<JD6Q+gN%brU%VG!vxG{;>_l
zb)ynjOcG@Z7gty@f-MX1V{}=Ka~I+__rE=Q*?oSJzm{Xfsd={>H_mxin2>dt#dZ>>
zMtdvb)T=5<vf(A4gCt#^5N&ZbVLmD^f$5N?Hk2=y__WB)fRE&+&t$V#yJw^e!T&mP
z((fja&LHMdb5k(C^oY$$kcD8iv}rr4tP}hhC-NJ}*p2EJN-Jh4MdN$^fmF-Jbm_)9
z|Hgu0D;o5J;MuCo)`hg?x9Cx=seM^0Ii!hrM`0>CWLW?6da4^?YSKw1!_?$b#BWl`
zY>6BsZ=s(DSA%~1iC_-OG0aj~p@M9HWQyYftVI@@fzd9a1oOB#oG2AkRJ;oIICkyv
zFqB$RZvKvvwGMMeE>vV9o8ou`>~cGGg?!g!mou+QM{H#xYM~jEUCuOBjx<${G$xar
zX{sG*VvaPz8jsfk6;%Tj)n&>aO2A9|lexGk@YI=vepc+P=5z*YC@U@}zzZ5O@D3~1
zuq;omHA)uGnw<QtWiy8PDZ<m|wJT3K*2(}q?o7O6<fnIWTIKCRe#)3j@8(x}2nrIN
zt+{p2+aceMM$mitIyV)4HMc-QcO#K5m`JeBAYT*$!Ny7N1QV@gegqZln>X>XJWLdh
zq$<~>!)s`&wY-W}KU0nC(&g)5o%Pkqny;LluiOALtefWi8*XuQ_fG>Eu`zPSKgT|Q
zVk`Srw2-nSXiZ>|fWeIMXCi7??42BiEtrX^Vg0+vG7~-psfDp)rzYbg<9)^Mp}-_c
zfmA5O4eYC(40Fx7^^73c$xduT3Up%bq3Zh0=kHBbQYx=<aNfUJO+LO-xT-u1c2+eZ
zCKE}}Bmy|j^U58_J|*IF*54P%l$zr{i7I6R@Sy{buf=hrzL|18F`jsOWMUMq+eilu
z!-k7%e<j0OYAO|youjL!n^;qVy{u`Ks%ba^8P5n9I!z1J4fFm6RXL_ATsazhC|tR-
z-acO@tSa(wa^z$}|F=jx+!t8BsICIu&H@tL!vd1~hpvcL&-<%YsTftbRBY11rIN;1
zP0q%bF=fhM;aQfqvw^;#ImR9`1W5FY$WnH#nSi)l$P_`g1ih0S&L3;`MntM07)M&$
zRlz%0L4sjcuvt~G7~6{l>4tF4oWEwFta4@`UDi79H#U+?pHpitCHyU21#s3H%QS`>
z*qFv%;3#UG2-YJNq{gHT@=_EdMM>O862M4jF8H}Qg^(_6q%fK7xhZgJ4(3TXQDQ9Q
z&OC+La@L29YSiYW!*Dn_Bgd2aXHdXQScv(_6DMH(e>f9S%w|*n2PFRFlaSC78}5A(
z_ka@QE{(pE4Qx+^yZI<nVHfYDn<CsG2<hqSoE=O;@Gv{)I12S?4feiY-aOxYJERt3
zGozR4A&Bv6-_R>l^L=}TYgr9T-%aUQH_ThZ;lh>peBCBfhI`Jx>D7(5{gHou<NYu`
z+(lE+m#dYh1{&f`N7v2!?^olRA1&O&l(BdAa3NF@_tE~U>O*rxBa93$=>vqBJ%*l+
z2d`Rw(!l)kB?9bwE2UzD`5;qRn((o|tr&GQ;sd!>3WCjN5o}gJTPbB1i4s)g<q_sQ
z#W*O<)Y;>}oN;>|pBx)a=$qLMMBc-qa0U-4V-sV^$06A@0&ih&e(4Auw1DQJM=^?-
znI{u%V{ncGrYl^M;Yfk^bO&|{XE1WQ0f{rdHPFUmhqf{0=*1DQzCvF#$S^s13f|1*
z1Veom2R5VQXDBx(GHg(lOvuOik$n#wR%avXFel8<7^TgWsBt_NPl|3`rovFHv4Z<5
z-GkX4y)s-yLqmq<UN(#j_5Hj%Kp=zuj5VTnquKO>jBt(ZJq#oGFvs=_NCwO*I44wg
z;Seq1A52AP0Y4%Z@Y}jfOW)v>y-HK#kQwrpZGxQn8fA1ld8vN(NV>9J#C70kxU<K!
zYCgL;UEWFy=sR{(IA08cADBItZlLUO!=`lg=9j0^)!XO%yBBCJpLV4;T^hUGm9FWY
z_YbNG!IBo95PyoIJ0}DYTHJ%3iKSq66ap#aoN=f@e3qw#iop`JrU52F&Kumzz<r>s
z%Y0WR0Z>_~AiQAQI2FXuFOCZmjE7{;6pSka!XcO;2G`gKlbs7V#X)6ISV|be9;U+D
z@d&3l5j7B{`JS*v&W8G;P9$kgj-1x;p=$hFYLeE7dq~czpUJ9&S1zwG3Z?_2m;;0Q
zA;h~!#itQA-IzZUtv$yiM$1weQen@L`1-y7{{EMDrU&+@J|fnZMKV(^sN0@P`ezZ9
zQ(&%GQeZZ*lmGEk<~y!bm#0t{{c|j|oJV|~cjQ@Qij=pmB#vn~k%|E_(d60WRN@r<
z&VY_Njk!LhZ^xi~v*zAMj$rqfJb}Ya%XnqdFnakSUd`ux%aj#r!X^{gLdrLYltbpc
z%w?IVEP@UjsG80dUfF%InI*2NeGk(SOmJ%REFH^Mq$=IDXFjs`{O*fjVeVb%y93M8
zfmCcwx)f{G9j{i^rTccxSM8<>5oe;Hg0jj~bZxo}eDMB-!|%tU)st#Cn2sL$qrK_q
zgLD4(!$bv5x%+10FG5AAZy_9;^T)t16-AU(#~rXIQOMYPR`Ujes?k}@yn%rdYfD!E
zob&oUve4x&fwHh+`3h%R@+Zw<@u^&R5z_^C?_*C1LsAg9;Avv<e1c}RYk*`S<3?5k
z*T^`+?-6{QBZGtQr;7Ar8a11o_?yD19o;z#!Mwj)bv?_G)Ahs${N;&%tOBJINt-l{
z8<~?Uo{!9N%;!Yr3Mt!G<j4=V5V#<9AmTD7m7==$ouOm>KK976n7G{@RJmWX@bMRj
z!(eRLz+n~&)`uDPuA$vq7yOIMAYc7K6nt2xhdRNp`BPz8?CC<BGT4ct70z@`1$au(
zbb?Eq3h%?PD}W@Uozz35Xv4DTaecaM19&w!9K5o3zJ;tCh;66Cjr0BuYMApIg@?IX
z`V!hv7$G_8eOR_?aSub|UToBY*5(uxiyEpzPZ<0H;Sy9k<f+sd-`<g_5uunfB?(gj
zM#jPLOC`$_ma_WDVkEeu5U=1U8;syfY_K+IFttiVMO%}an&4;cd;VjyhtuV4^Zqtf
zf4)+<{^yW~6T|;Jra3ksL3NscHjGV2WnTN`6_r?Nbz~LVJH7&0Wh*3^IK!I7Us-Mz
zOK-euvv`FP|JriX_X#wYOx)qVGWU2}?aY;-CWMY_(mu*DNN|~BaF2|^Jjy0orzUM(
z;Yk~cq{_R}A>qG<WAlE);|X)k>wA14pHE3bM5bdvO;$`))9;B7n+rbKJfs?HfbBjz
zl}MUBpYb1`jGxv25&6GaH*)&)xFK@4ZW7*4rv|Z+O^lq%gy7zFY~&a<tcG98V`s|P
z5KZ`}k&R+yoL~dF8f}ze1TUe{mKu>3i+(6_@eDP?s}~}b7w%uES<j>GdH;GfXPLTi
zV+`YU=bW{vvOJt+U@d7X<6iBD3@m0hQk8Xd?#5w7r<Js&U@$rOAJ#uyppH*4jNspK
zU<|1`3JDu+RHLDhRh}YxN{1R}<CnL*_+&cNcV$mH1g^_ERc&TaxZ3XlR8{V3q`ZRq
zQ0rSFDjYUV2iT}9ASzSD)f}uAn)+={`a;CUyNjllE$=HVZ-EV-45W98q-4kyLQ<zV
z776|jj>SDP7T*q%>PUw=L3&_QWg#i%n%D36z&k`zF=J@upeQ}gdJseD3EmO44C^O(
z>q0P3F^u3pvb`VYlWeFNRJgS3k?Sh4h?Cl>G~^ZBSRx=tAd1S#XT{rFC!5MCMBpS@
zaDqQ%zty0K=H@6`uW(5HLb&3&`&8wauyEzx1Gu6rr=jwS>EnoLl0I0TQ=~t}_E>gn
zQj_xu3q^dJL*TuKB9<xbcUan=6@rlQR0u&l&4wlTuN-K5WT3qr1ksibwbKKp13@s?
zobC=Fcm9@0C^)AaPF6w3SSPF25u_~F%KCt*A?XoeS;!<OLUI39%d(+MJj2wL%(Fcp
z?-j>Ou7)gjXQ>D)3h!THOXFpZSc-qxLbYI&Lc_4)YNhoy{ksL?(K}Hsd7Hu<cHR}R
zaA4XKFoiinBFtf@sdS_<^&FX|){#%tkw$q#tA9>AT7}c+hD__8@sVWGQk1ZF={X`G
zI?w;zVi=-Yg<jHhF&7}r9|}7eCIzTlmD7PtD)Utxvlim(n!=aM&eh&q6xW))KjeJ)
z0(p&sz+sNf>DHxyfZTgSMr6aS>X#=q;>A(2Luw@E-l-H4U9%-bWJQt9jP#}wT4q~`
z9)$>^2GMUymOsS1HyP_%Hm4auFh?}-_vmM=H@V(y4K?uO^Kd8Iu(CKvu7Cn~u*-{}
zRjjD<y^<HvpSkE7n<HoVTlniw(SobMU&@|}jk#=z*jr<+JS}fvmvB56b1B?pVlKv(
zI&en0U@lWoO-aStSf|2)Z*!$$?KBWq19q!&;nrOFSUWX@(h8&&Nm(g-3?giH>S_^`
zGx1%R0&LLiuD9@Njo?+&$_h*0=y<!<fe*!}qkI7#032!R9BIVUqmic7k*3~}MtON`
z2VQLeUhT-#yC$+zV@9T=sA%V^V~c&3_o_~I$Fdc&aPB^$qJMfgw}1JX<zd^8<YL>#
z)nMDZxI`|Ca;Gh9yIN)BRUqV#6Co3npu9<XcFRM^4xQt-h>qW$ZgGvaqHb|)wf?p%
zej0+y@9N6He#unl4!T0B7NnK<TiOlaTrg}-71?zL52~Q>m!y=#BnYqtarT}=>{$%<
z;Y?tB<alB{6MzWE@nj|pw{*uwnKqGJX&1UOoBaX@A;B02VLK{e?n1*6Wfrn}0c1ho
zdB{uDz_Yc*8{j)ROQ+Qm?|}_zO>P^SoTa?-vdp*KnUaT9A`J~a<Q4c>E-KypsD*i-
zLJOO+3}e3^{=Kr7Kan0dph#c)Ano1dZQZI4l!^SA?O<gr7TUpH<RB$D%|W_H2C3{|
z56njnDhY#w3#;J6x2HoLbN&wJ4wkv*4GVlgTj~H<W<ql(D?3;m#rrd*`_D{3v3_!5
z&&c?={(s`NOv#9TQUrw|)A4--xM}fUVuc9KvO=XufmtVlQ039*hSiW@bm5X6bd?NL
zPp%{+5AzIpOOeBa)SY6BtCIrIWsuh6epcj8i;sXmD`mGwVTOgK&z#}DuzUHGoyZO*
zxJY2jlrX)LDUtfQ_8&8>Gr`AM=N_b$6VO!Gmifq5)rngd+SWo3vS(&(I@CPpU%L>o
z1%mlz;pSj@oE=q&)gXf1Hv2(Uo`T(#dlTbRBhDTimM+vkhwtSJIkR^iHD)4r-+qB%
z1kbUaEmF_i-O@r+8$=Y6Ge@4EwvH|NLgDHiU2XNyr|e~m8zBcCw%Re80AglVtl0#?
zOqn!+IS7VTuUZ2@4tMhh!LnU1n^k#R8p1UQzR1QQ_$(V|n`)fudUpTC`126zsbA>n
zw}!xFX!>_i7)Xv*`UWW@*a|_th%Kncyb8A)$G3A>I2YuEl1VmZG3E$`^h{Y*bx`Dk
zP<+$Ak51{ZS&@jFt#fEXS!~2?&y-GK-oS4KW_==_3GqoDlEaYbnuLJn#8hA28Tgk_
zDrF8q5WP%_7uhH>ja;qu%Zwnn#MbJP*18d;j5e&BR#wk^;8JAH-vT?Ru%m34VxIRa
z{bzZtaKrq+%QlRhsrhoL6@&#L;b>AY(l`iXgPCDMyC96i%M4TOIWNU{tuRv+6r0+s
zmhT4``-~(iIB<bfm7JsZXr<$eN|@JsH0lVG4Y6n_SBc?J(9ZnDBepp%sBL=t$}{0T
z*woz*LyJ%c$oTci@x-vs_NFlX35eB?XTmVVI5{O2NRpYr2xM$0^?juG1sl$?3%q#D
zR4PGSni4d67pYG`3|ASbGKwJOz&nbG){7e$s4D2&72Y7Ncg|@LmGn&S+%tLlY@78R
z+J>|q%#VtA@bQt+C!ZP7<04;-q8}d{ADcQm^paPKs$XWIUFuDl&c|V;ay)U&Hs@l<
z2s>&tz0T2GL#ue<s~DI|)u^SI<A?vLmanv2^v@T!KsMuISQfIrJVi}=#gLKzt1Rum
z1jtk<L!7&;4$=P=gX>i=i)OPvci9~!tBtHmGN+`=WMZ-3RAUes=)cYnxu)2!FpS_=
zImP}Zl9?-Uu6gs^r~Y-+$7#R3H(l8aMXH6Njpz5J!d;gkiGxG#jgTvb`0|~=R8<gm
z9DKFC`{k+m_B(Or?N@X5PRw6uejAGb)&9GBX`?$id*sseoWFO$KlFMaHrq2F=(y?i
zDSN}6a;Inm7P#=_z8f_tjP+!4TS7icFga1ei5FM=cSA}af<8g)d~zDw(3HqP)el+_
zC-IJU{ujRW%}kM@A2BQ@^7EDC?Vi5Mc9vr>5h0L{lBL4cAHT_T1YfgJo<jfCO~7#v
zQ%$I)17c5`mBmUCed<uH!q*D7%7d;}Q6vJzw59&SzvrDvHG!f6C-17|@C14aC6@My
zS|2=EADRocQgV+%{=+)Oyc8Ot&PQLKfgFhsGSOoMc5B&#S(HVjQCto6Z`n`;udtzb
z!YOt=F%s{cshjPb9euI)@{t$U!G{~g#nx~6W_*7Az0?Cq)efYi&?386H5#)h+-SYX
z(>avPMzfm?vQ3H%_CWEfrf_2@bem5}$<&u&AT@cK4dANc%d8^7H(145sp7&NJ80=A
z6<wDuTmSOrblGk5{vE0&Oj)=l9B9s(<d6b35s<IM5}=8LxJekOHO(hVD<#~~TQN!t
zxscL|Nb+NwP?BlNZ69-c=#<x;Mmd$ziT)^2mk90dXDf)5Zk~XXOdx4FL1Ut+A&n+4
z%5bvYR+<{F7XBLZCioUx_^@hWC5l})=dUAP1Ib0a79n1{(bjFNWpv-@>cv>AnlUvo
zfVXILJy#FI62IkFa(ag%`TQ+)psLQ^;dbV|tx*vVLA59hv#Ft69SWHlrZ$DJ+>x>h
zDML9irtY{e9)j+8)MALoXoxjY?b6B+_Bw=tW9}Jdj-Z@Y^`S-icT27YtSW=60W5zD
z?TpsK!`9+zq%m^z&vG2e8J@L;oGxePL!*`g)Vn7ge5)$Vu?mHb<sU?~97-8VBVs%2
zDjH7*dG`>39IJ}*MV>;qpz@385eIq~!4P~@(_J#eG9O*a7lo9o_$fWW3|tfX>nsgH
z3fU*WjTDBMv6EA>YF&(>bQ$%;SFekK`M-0I=dEg8kwjX*1u9;vQsH3j@`gMrsx4gx
za3T`5U|Bm}S*j358pu4cmt8QzV06L?Q(GKbx3R-yiz6EjY;qh%C@{4RB`w1g1&~*n
z(*#8vrW{R`sG|{_I)yW(vfnoLB*Xfb*=4dC+T^Oe_4o>7iI@vp*XorjuWo~({~Gi9
z*95M;fl$WN>z(CV4e|d&j4}OxXMUXeedTUOk<`p4YFu@ciD47$+{o+8lIg$0Sb{&}
zxE{mjK&I#F$mde%HjAYob^U60|0{dvyLSmm{*iPAB;R(eNOAMqg-6}nCN8KUYZDi0
z6J3b7Fv*U5jaVT&KwK1OItpXyJe8nKAWnXlL1e6+zL55R>-5F%v)c$@%Er`sP}F?5
zcFtexrZ4Dv>He8bv$0EXN7aQrk(<7NhvUM^J^V)D?)kdR5L@fv=SN-0mqHE|AMibL
zReV4ll;=?ga-5I#KH{brb5(NkYU@KqZ@KF0zs(+5R&r-e?l8*zqP67zJ?DL)CBNFW
z<iiT~nTaRgy@h{u)%izOXZhvdQVkNl=DrFymU~MJyi5q8Amp4wC<xaQ{tfmJ!QXMt
zJSnIy@33Rteu#)dow7e&Ixy$oUs&~k>Xg_aZJG0L$<r6YrtrqH+RyxY-uOa6Al3)q
zTw?8=lwvPfygs$C3ZGC}a<XF7_SuW=bGs<Aj_PBld3s`!vpG2HKcFPT_C6?Ir$`Xf
z(<qfnWbb(jF&DnYrX>iLpe}uQ3#*92L@Q#Rd4I2>ZuxHEh9O_q*)Z=VG$WdXjX8~-
zJG1kuv?^R8vi(zfa&(0=(XJJ~YT=VI^hO~e-sviE-zSph0C~5u$*Ss7&bq7undDPT
zZwZgcNVf5a3x)h=j&p)ilqUIp8RvNtzk|CK3h7Iif<?4@c@(lKUAB47zc~+uSSpA7
zQr-~4N42F7yJm%rE-*j9eRCL1peB<#r8I2h<fSNfq)<qNR&%0<Cg4Qsh*)RYo0u9I
z8&B%LiO(vdF4bd<Jtl0+<gwEU{n*qQeIipcIsyj`ad-G|{&|hfVzKGfKW6iOhrreD
z-)0y=HQQbB<QA%UUh`_tz$-`Qdv>S%_3*LidvP0Eym#=G_<Zl4l)qtC{O-*A4a)}1
zqHu#wxEj>t$tgaZ+T1|iM6fR!5T`T_>#eXwZ>f?AxtW&&mgub%LUx`l0&!XOfH>;P
zZDSM>414={LN#$FD#u{TlDpBoswZl4!tAbS%zwd(EO7XoViVh)lIEk`GuQYyN8sw2
z|Hd$aM)u6zC_6BJQ!};4N2y8L(kg}p;CD2ySLXbCULD-{&CT<J2UGsm%dyL&U#Xw>
zA5;qhvn<?G{DyNuu!lYdzQJ>pFzG7{ZNn6lgh}t54Z>UzZ2c+q6ESF&DRqwLOw9R&
zgB=<DnX;Ug&Q#|-nyC!aSSwiZlEEzP=4#77VOtV(ur1qETSlv?+}8kNWI&Dhg~p*d
z|B%yo7GKHP#ac!=)E3H?H9x0KA+7p-)wt8WJS1}(CXIWnxC-om!H;$S%#HV99>Jlo
z?w=js=bc^?qW9{<FsmcZ>XL0EZAl!BjVIbpspCV5&lEx2Fg`Xq1*>9@B0n+Ylqq_A
zBsnrQrR(2AX*1<82$vW?7C&?9^sy&kGN{j!@tsPZq+wXgF<H|5&M_l*{Ren;EnD;s
zBs;HVi?!nDOy?J;=8KvZ%A*%Uua&^2=*-xBNgEzN|FP#k_RpS86*qz7Qc-oiydz!S
zF<0J|D(;eTnbXWXVDRD3Al}ZwN6<NKul9M*sP`ls>wE;}Ri1Sia5-mL@4Dpu#d1GV
zJnK0Ose;3}^T^XP8k(!y-CSY|55|tn=1NL};XaSltk0YAvkmk=MK!6aqO}=5+M;<)
zk<|YT32tLs^hsM__jvoAFU9A=n_h}vPR^G$&yM~{X~&g#I=m_6-}lWJz~5dAZxZ8_
zzYuNl=gi0&WWnDOIUmj$3GBB5pIKu4IaYdrO>yF(HtIn+?N*jc4Py`SAWpks*Ij9y
z8W!DyV%Wh9lk;sZd`c%g9){f>xZ|ov@en3vAK?13(s)*Oe4>bnkTH^|!kuuH6EWNg
z7a6ImjnpEvEoq{Xn(qnkSV}FbDJWqL&h5?8h>J{w(Ve9krfiJ{kJcsXtuS$uiF6H#
zMk`EIR8aPM<Le^E4M$qRcq6}#)Nq_-r4|8hgta=pE)F!2LyM7vxaUHewnV%2o)Xv&
z9_?_Hu-(YN6Ls(6yH@HBBW6urOebT|quudNIQLp(;*EH>gE`kD@f|twJ&yR^L|=)<
zfAOJsZ(?n{FVP=gi*og&PGx4V#o<gWZq*>(kz10utIY9%xOO5IAABxgVxpr1!20Vl
zl_u7=G`MqyG-tES=qB8}fVpX-PBSBAeo3z;qxcX~xfjGwBW$`M?=u!nz7w;r5KW#_
z4hw;^d4Gmhl~yR{-7IG_X0}?7TW~j=iNaW#I(MMBgQ5xlj*ak-1eEO06zis$MKa?v
zLA6Ng|BDI2Y_w8>G6L}{{{|!ep5Pw{G)8y`glTKrZ3-qKN^&MC_T$7@pkB#TQ39dY
zslt<qsD;}={mD$Zu|}H#dN)#G*(iDD@x;V2T9X@Pf15w6|J_PjHtsf*wBX)>xD*Du
zH?st<<31BOHU=rCBs0N+r+*mNOudbST}7Gh&mSbqCO(1QFhpGcyuAH#*Iao|s<=lj
zNpG(L`u}9#E&}8hxXvy^Zd*>TU8%geX~#KumiPfOuqhG*Bg)CCOnGtyCd()nqnw7q
zGJ>q=6C<Y*nNrg=z!ZG;>VJtBM?(PS&suGHFoe0OJsUa)$5BuA;wz>0JdJy8>4IlN
zUJxkpmN7_Tobx<^_uRjK?uiG^`2mCHLV!g`Wgee8k|L%UF)V@WhnSLcKETkq0AToB
zF<|Mr62LON0Y;PihnUDY?-S0N8A%XRj&~@u>iQw30x=O+Fdh+8iQFm*#zgT>v|x-E
z@5BnmRN)<SVRt0JcVdX)v~c|pQ;nDgS1=wCQ-c_yQr8bLwTNkP1>+Ghb?1VB^@wjP
z7~g=hcNC0i#5-LDW10}tT`;EkT+u)Gd=4~NU+ZutWTQ7hNk9}qwGmUYn?!>8e<#RA
zdiwuh*k2L+HNncrt`MG+qsbrg-S4893cm?z6U9WqZy!WNUrb-ecu`HX%dqnIdWfKw
z{iu9T4j`=WK`3>MU-=uB=M93N5d1BH)Km&8g|h3+W=V$e8c?74Qz)?Xgg$u+B5{HO
zrd#r{h%^2)Fh}w$C^6*T8bF+;iW?Tfl`|i{7H)s7ePim5`{&z-Q>85+Tq~-6q%~E9
z7Rqa`m$zRlZ(sD`>Gj&q#Q?6*n{3;-ScE$WaW=GHuOGZtKe$-J=a5#@e7$<jwdysC
zVWuqAs+t$eco)%P4U6TxtI(R(E>`j`sx=QRR^e_jrnUE8Z`*#YZTn(1pKG-G-s^Rn
zuGMW?tmSi^R^N8LuK!wH|6)C#8?>s17Y4sDxY)?2CatRDdbH<Sv}duI&n;SA>-E~c
zYqfogt$c3NT8FN;+<vX)_QiHScW6zW*BdunYuvEd$>%PuqwjkAUDw+0T3o~DZY|dM
z!j3QOSnT0buU6Y~y{6|{P0wN<pV!)T?#J`Z0oH7gF+*Ck{)MJ5G%c><(|WC;?|S`)
zYxNrzH}H9*U8+rd-fX7cf~T8XwW_+s+Ze7jna(17!^6XUgR5cP%jDsPRLvk6$Mz83
z$OuvlO3q!5FNtlGDz3=4k?o^zAaD)lMurKwu!(oA1Tw4#c_)HiGFWAQEfY$H?OlwO
z`O1x<{v!_W9}_&o$G;&sK=2O?<Lr~gOvbeS=L{p*!SQ+<ZVYh%hiS%FYZ`OC&1||2
zypU8~-<7@Ty7hDZ+vs-fzM0Nh|0VDVJ9$QT@Z#gMvF9gwMkm5T9Rp+~&fJqOh27Nw
zIJ!txcBV@qx!tu;4>|tkg-Y_k7AhO({EgHm@;{IBJ?IrxT(}RX{;=V=P}@L_<MuVM
zX}o8)>(V{6R^QW~@<WpCvj0VVx1Xnh`!5c|=4&ae5cDcDe`hUQuhDvCDss+$XrWXx
z>xL>pD%3PPC3a2Lx@u8To2pxzt`Jj`9o>*8ybD={#cXWOvGQW6NHoAfT&jLkI!4p6
zF)<yxa}UKFQVpBa)mvWir>pM-p9qsQSd*&hd3o!6;EtPKPoQ_nrv<k!^6q9x;<{h%
zo)2uZ;_i?*Y~q8Ji&3qoA6kA3dk);J9twnRRJJb$a7AQ8?_v?}inZ#x#S-3ywAzNn
zFz-qs2%f6$NmukPmhm~FRkkjc^R7axXh!YJI~ObY7}e^VQ_Z)f>u!H#bGmNlVif~p
zT0={!<@R*_wpaG1>+fFVhk-Ie%|EKe9ZO$%(~CPbrZ|#DF~Y2$Nz*MIMUZoEZF9Te
z?abnL;hw59!tug=(Byd;;j**FeNo&L&sPWB#gLw}@bN=pg&DNjgCqLXUYJte_cR3U
zGi8QMHfUQ~t}hy+@zk++rqm#3Rj?oQ9LYN(dD^mv3f=L9KHX$)28L{YCQ}Z@k-t)d
z$+w3kIO1v4TLgPDP3D4O74Qh00~w;A3R}1)=l|m5B>2~yoSf$1NeZ`k!N28387GJT
zzzxM%^WSqL1X1Gd1%L02Y7x!z58Mdhd~ba^M0<cpsk(^yy-QsL*BOdcX|({mXjeR*
zh)W;o+_UN)0xyA&zz;Cpyj=T_@MYBjdVtAYO<2q@g5P}yO}HT)68}6VPnY?PT0<N+
zc$VLi+HTph1okMW>jAwJsr0`@2MohU=Tm&p36cbYiDk67svs{Bq)>$=QsNi|5!?7a
zqek&({d~sVtx7`@Q<X*!;T?C=Ni@MczN?3sf}0?nL2v7OYgYcAL=!CJevd(!26Y~Z
zS#6FXi}8`E-VGVW#|_=vLp;ve4O@0OMKpIjOB2Y<iH35IN5tNMVz<+xi<}_=2^nq~
z!Tu?VgArz1rw3z)5;~ChI^l;Lm*3>Am{+*y6{C)M1)Tnr@IGlM9!E}t*h#{e`|&3d
zqf>2@%I^Dd)(JM<QJc0CW8;aTkm8m;aAe;dZF|n>I&j)JoZe0V(8T*=>z>}Qj?xwD
zY=O$;V=x6DKRpT4(DZzpJahW=qz+xBA;~IJGI|Dv-~|Z=PbH=vpNwaGXY_HgvjrXE
z@e%lVq+nSlAbxQ(esTpyF%GOB@A<bh0YVpQEZ!%qDElVvsmH^!zH`tKl1*;4&AWdh
zV5c+hoGc2w<CAw<rY!FLl(iZCD!$6!6C~GNzua7&poMVPFK+qX)T^f=X5_6)R4}iA
zSr+7FZDMbgm!nSB_SVejR(0wN4(l<r{dBBQ$4^HXYS~*&P6yYCNwVppb-K8Qf+hz0
zN~Z&^Ohhp+(92_S_%zgSV~huADpPKT9Xov%17spoi~*H=W^C$lac?G`h4gY1qtCCl
zS~a-WYYA95;kR=Wr8ZDe<@28ABacB#?idE!bXVToz$t!W^hq%?X{IUzmm&G9C>1tS
z#agWHg>9F%%|4v2>b&R!eVK~(UJLiWR@HmG>b7*%ZLb98s&=GGcSuafwQ$F4RW0+a
z>*lJ~U$445U3K?2tLLf?q)O?~<nwnvf9GuRJho(2t=FrD(p5uO&dgP9NtJFfBTMG_
ze%tk`b?K^gFC*uzsnV^ll{d^cuAeL4aJ_t2x_s9+*UXh4OckpGzu`P3j!e<9V{nsm
z?3hEomrbT`XEO_p&RL*uBWPlTYXPWa7{MD{!`_c%pVn@QZ%`0$RTqZQB%lTE#RUq&
z2SE*n+i*+?Va1t8E<-_R?Lwep(HjmN@?1_XYP`NY^dq?n^+wQt)6Z~)-}$9ce8l?U
zS$@lS1qFH(!C66+f;>&tAvxzz((Yl=hA_=|snbiU5mg%9Z(Gp&AAf|8W#FQMTvF(?
z#S_9M7#6gY*SLB+O6NH474e=phOWpsi)mJ|Y$h&k+zs2xcL|y~z7FBLpVn^FHc+Mz
zn+-H%W$eNOAd5@N7R$6i$pVztLX9_lo|2{;q1u}PZ%G{+yZ&a8ucRKWA1=RH;x8%B
z`htNn)s)P8R5hN0c$S}W(q<D1%dSH~L-)#9gRlabji`>_{q$JloI?-DQT+5S!ST0T
zU=;D&2F1TN=qbXl2-g~QFsE2WQ51Pts096!D0;pfiDo2ljBIIB8PBd!+{ttVLu~8;
z<i$}8ccy5$5_q`9g@gHqp}z}K79pkOG%;a$SK{lVss$DF8xPB@>z2f}8lYU$Wq@KO
zN4ttoQVbRT#G;%np$!Kcun!mfsu>Hx2rDmTVxMx_^&;>vHl47Q4h<?~SUD5+0J|D?
z)I<S*wqf?ax&IKBc>PRbplxJ4Nd-<yoX8?BA`*tzm?Ts;vC4B|h*KA+dUBmtN#Lzz
zi29~{QwdQVOG3~pU%!q>)6qLy`6w1@zQns8_KB;X)-a6VZuZmtNCt8<*9ur^`GtF5
z7srr`eot9LwkX&Zq;!OTNec#oU_W*DFH}_DC_R!b3Uni;8lHvXmp+!I^K>;anExoU
zwtiMeehN*LPoP<iZ(^Dpvs&m*cu>jdPLO2iY*U{YWLi#lLMY$LQMyxdfaerPm&02m
za*z{OBeu*DTPCq`>MF5dc{^g^Ez-*0)a6lrAnhSlj*~xsqS9qpOHO8u9IG5TMhm7k
z%?T>skapfU2TsK5(YRJAOe0&>FezAP(in-FI7|qd#Hx8cS}P_6tE|BdqB3__)9BR^
z{Vbr;YoYO@{dzYCj*O^}G3Fe>vjj5U&hze*1ngn`0zo|iy&Fz<?rIw!ODf`*I`cBr
zg(_(~HF6gIlE%k})LGj$zC)^X)R>zxgz#xah(3lJ5Tc$Zkj(vqIEWFdlaF2~h2^40
z58HlU;+B@@r#$DtVb}kdW!O$|CxBB{LH`Z{ruz#tok7){On_e?s^rI%pQSHgmg(PR
zUff*u)w#EYt_l3>NTib!pk$iZ@`|%44KHmj%`Gi0jeLxW1tGJgRU^L2FdoS&@`HtT
zqk%s5Cc$B%fn7+EhXx$Br(W;qF&r>e!vRw#<~*d>#PQP2ie<3D60rgJVRYS8z3BIs
z-Q&p?m2}}%2)iw5C5ViPT|kMfL!5<VRNRV&sG_SiL={<`A*y0+^ET9Qq56(&z_&R_
z_2N`TZ#qmKXn6gS=0kD8zpI|@oey+^;JWDzDy8g7(pOzK{diQUk8PSMH%Evuu}0As
z)(;8fmq%~e+yuE(xG<0_6baf38`gy2#{z2G750Y}$)$gbo&Rh2puP(;3TH=Cl$2D<
zNuG&!o24ZKaR^0KtBY$98Ds>(WsaV;$Q`3cIKhg2rMw@L#S3jvD!m`RR5H6aT>&o*
z>M&Sd9#!q2ATpER5;^Q|b%g*%6H6{qH!Rq>_>2|LCu|DMJgL8{uIpJ>g5O|Wd48BT
zQ&e>=GKPsqRc#c+v;1zsvB^XszslZ`8W{aY8l$icp^eB^C%DRjasP~hm6kte=yfw@
z)cCMm@GQTjAza)oj5P@|iT07S_yYkkN-QEqf~w7trPBn8$)%b8h|r<tBWRilNLx&R
zkE19V)I?|CiLsMs6ke3{V84!G>j@qQO<b6D)@kAbDTgRCC+YNId|rP504~0amO(1o
zJS*S>Q%Kb<d}E5hRy=d{=w`HpPVh1tt{!Pgs`>)OnBuXP%LnGG2F~BNP+d3guTyiH
zX-ARF`r%oAOC7j4o3hXp78_AD_f3w(@0)yR*RJ@;Y3#v`5t=C(pVUW=iClrYJv}n@
zc;WuO4PVs>ewW2IY(|wwFAPH*(6kxF=ux9^a>29wmUwnlxTNTMZ1EgjFSes(b7y)d
zrLsod!xQ5L>!9C`k0=j1nXps`3@NbQ^QWBMBSNU&iTBjr&ecKN8A0$3$CP7DEfI98
zoljkYaVW#-4HH8klTtHsq?Yj|!RIf1I-wt*OeRDKGvj-DYARDDW<$*Jx_?qX1xB3F
zMshLvP)nZ!)+pRykN^{ZIhIC?ah`!t2(eqCGIvB}6rRgL>!ED?L2i)e9zwesvBi#9
zxQRln$O#&;p_3YP$WR)28*ZYYMJ9d$IdYL!qy$l>2z1FRtgnllpoCUBLWNpIO3<5D
z%1X|0p-H{*=+!FgOI4II#J_483N?fVHEY`VQ8I;I$Pe1J7MVh$<TZ|Z)g@r=H7=5b
z(th=zPR)EomQX?)64h2{J<BDbjgGV;XK3W_O*B2haqapcl&`veR~x^ILBb!T5bdvs
zWFo#&1Gz)HL?W9g-)?t=iiufC+u;ZmxkZGw$-nk^O}yjFfuo&hJ%7B@s6&6e3*TIm
zh^gAeyAxd}g7Kc`0!P=N<-6m(SNqKIk?4u9EkL#R;)G!!6U$MjF_DO$yLz=J%@mK1
zOq@JJ-^YK!$so#WTtn2{*n+$1dI~Oq0R!pelhCg@Gd`k^O^qdzANok2SAPTzr2ifO
z1$LjA)Z>|=Wa1=!UT12Td2hcSLbjP0wy5wTg9A7^DosFYjV70xjZm%(V-sg4!Ss;`
zP#_~yN&R~)nrxoG#5}?fuC^-h5aYrGB7rx?JCgPKQG$;U942^@;DZG11e_`Qukdb=
zpo5^3;4cv|YK#HgY8tu5d|vvx%=L2~aIwATy<^(5kTrjTDO|sgdY<*4Zv`LRnTwGo
z?!i0eKG*S{;*XoN>RCThna355RLD87Y|boAp`5+M09MWcq_TMDcGk!_xNOe8WpWlp
z94qG_QUMdYf5^FL*_>I=LS+_LMpn*6NL4_P3^^Asn=|WKDCa;<YZOnFo8>Jec6QEx
zj&-;A@@861I~O<?JjZes5Ij3qjPM#et$Byg0wQO6#T3a!`4ti`n<#h0x0osID{^hK
zpUgYpRO37Z!eB+i1t$n+1f-*6?ub~GOcvKHa?PDSPLY@RVx@X<fB`avTrbLeJAm@&
z>zTx!h%yI>3-tYr-N?I51f1JYtr8Jbdp=6Zq>KeVkOVVaYcqdJnq@1pneHis0*8P%
zTr!(G(Mn0mTZ(0}n%;|{8{v*rc<n-WZ>qEtoZY6j>y7>C#{N`k|HXS#;mr#T8?HBO
zNjJa{1;i$<x89j<z4Miiq+9P@@_8F07w^R@H4QHuy>v8H+IkVzzIqp8{numb(y?_5
z6}7Xm>-AgH^;=(lCSAW1FH}b^?)y2sPz-ZB*E_bQJGP}t@xLV%-o4O%`}Oua)9rUI
zRCHlWd%a>XT``y%+MTZ0vlQ@kM35>Q(kfc6m-na3`xoju7i!xVDyv_pzf`{vtu_9)
zbX;%QoNn2?(7Iuvx&3<c#&q+>8|77>|JY|gmi1}%Yp>U>yH>aE&nr8wR}Q8t2Vsff
zg-=}iM7A+Pp{s}?bfp(&=8#z-Soepx`2~+tZ2WmoVa)nfbR&OL*1R_{h~DTpWwWqf
zA#5ciu0ch8%0qtQN$<1XWxfcF4)Y7o`lhVY#fzR35V3u(_?&mI%~vzZrk9=bCBrt>
ziI<qA{*>o=3T}pm^*yNf^yYmZJ&luKIQs74y4}Mq(D6jui16ldR{W%SRy@!KyM%2$
zSU`J*url)~BokEP?D|1G=!Xb6-}a9hg^*Sv2}=pHr6U0U!gH_Y0U>)%`v?TioO(Xb
z7hJ~9!8xQ^b+ZD$?0LcC(SEVrubuV$8{adYm%RIjVQTP8$X+LwfOPp$+-JPWNjY{*
zqFk7}=hdwJ2p*>Q7o4@$@nepjuPK8GU4%)n29rC6?j&FBqo?&9)0ot<>H5iEYCk!z
zr6N0jYx|XlesOAM?+XVn9h`mWa`jxS=X!bXZ*BkEC61K~YkEEUZ=s0Tj68~GDX!WX
z5{c?8XeRdX@PiLMuxH=l!@G9hx9`}#;UkBRd{9p?{;vUEGR{6p5b)qih@8pOAYRz?
z>J0QT^9;0Q<tj~YdK>L9NlZ40ucOA<pjKKl6My0HOOMY!Jy+9x)i)m=crDucT2uG+
zrtRsb?F+T{gN0QUS=4-G5r~P^4W-r%r)nO!80I9eyHq#ZdwJhn<=TtE*TRuGwjaQJ
zc;|l!z7}mtH9tHTeI!--2<EzBy;1)FKHS&m=38>nR%T3XKFVGWN7>n7v}ihMP5o|$
z9Uu^n5@)D1n;Ja!DCP<ws&r~Yct0QS;cJD~hcsjR39b>?3(%8%lvPO9Em@<uXgHXm
zA7G}g{pN0l5&RLToMZ=(1Wf7Szz-^ou|+Zl(2n)ZU<z(h7SWq1v{x)k2t*-AXZAk-
z1WsfZy#cTgA`m{k?47qfxtgH^8(yiI@4x%}1F33QjJ#X2MdDqa{hozL-^&}}x_Xxf
z+|kC_BbR$pYqzI6?o2n|wM5U=i@_kiR-rYvK>%{^%;x9sm9Oz^Eu{6q19IJL*X7uY
z5M>-(*swL_Z@;|xO4nB)q`39<t=olf>nYoYQ=Hp^iWdiwO5clpmlNrR{#12;x?<qU
zRJvl59PZ#W6vCdy?i!Y|7kLhiVm7ow?XJEbF=&(iMQ}f*K&@z#EhrFVA6piU!@it`
zq5vE0^0-n#D!Q&2^?c$tCcZN9O2ao=ey3%=_8_eOc0w`~vYrPQ{5?0i;p)43=FIHW
zrE_%k?caQZ@}M=d0my@vQXUjCa%*5TGd7dJ>C?Cv&D?|rY3+b8DGb#wR7L@BhJ!q!
zYMPCk^?Sf`*mKhdk;a9NHH&h+d+#@={!>`)Z<N$7QRedIW1bvtZ)q;K7mtcF#6dHP
zF>U?uEWf1zT%7C!bpot51LU`GV~EYQabhXXb!&5QgXsGTw<1#<H<)K43C9f?c2jY%
z!1A<rKZabDtl`tVE5y${iX!R+pCno#F$=b#%j|ZU<#vt<N0G+*;aPr5UAQ<aXtTZ`
z!D&f+3iGQvr(!1aMae!>;(53)=*BNLt4PZ0ny`<e6gt6YSO*H^pbla_-QT(p?wI!*
z20@u*RFzjjJj-usJub_Zo-(S^K}Jo4zaw2#nNySZV|%Rs0dmR&u$$GV^nJ*G_@%tc
z2sV=rk!rar^B7*z34RfkS>lcXl_`l_xM#t?_J)W^Q`EEU!XeBGHR_mnRO(>>Jj-wC
zv$!l<Evr+U)iUl4W|efDDTd2t2r34Kgc~d?xfipRc$cg!gINV*1E&23b%svaxLk(C
zVZ})h(F53Be){Aw!+vb0l45N-^sHeB=9qAbRl`OmK-iy7Bt{?Sf!gtmKbc58sgIz-
zYGwE?Dy&X6URvQaLpng(UREJj2PBvq!3*qwlgJSrP#nH+V8P#iLnPPDMW7DC>_Gl%
zMF^F%iw1AR>S4895G7=>aR`EbT4VIvI`#U3|8AoLyKmS>BmRx5H~HmJ={^JCS$<28
z<FagTItMB5O(vvYvF_{fZtejQSX6#k91FT^{z?yHa2I8oat60KO&?J_RQ*FJmM%*?
z+k7}vY_Nr3Gn;Ip0>TOQ9G>92()7~SlYEq6@9K$Dj3D?=oY(i@JLm~<7>uc4UX6Kv
zW8+pVzVTF5Pdd_jWpg?LONCn({P*4%Sg(%n+SB2V%SUjAH|Jl!;J-^XHZvbZzSa-V
z^2-z1vGG|UZm;lq(U>ClWb!f9X$hI-t<sd^auRGd<YA#44Rfz9yGHsS0u8#!lBZBM
zo!}Z;L;t^+f``ZwRJabL$ejZQyu}qX+?5<xTsfCE^xEZ(V2;*1Wi1R1cT9bV&dAaQ
zV{{y1c$Voe@2zO-OpFlKJK9CHhuJ!L6+*plZO+UzL9~*4;f`g$X(>Cu$_BpQYT(bX
zl`jHJS5DCYk?O~H+x*Zf>hV3+<8v&%43y9FPUv%G$W)lYTyWo^@gW(QqN;S2UvN!g
z?*4Rw1x{im&zNU?sDFntKGc&g1v$K9dE-MH(q$CRw@!ZcUEDSUE9;Hc(GR~giegwl
zZh!e(`Z6eg=WMWNv~c!0md%-KAWw{9oO#+VM+IG4i=f07Ibu08{AxbPi3D7(B*KL_
zfe7Wg?)qIVu}&mt1;Q+gES^SwVaL~C7Xn`si6tpN?K_z7m}fv<SR1xOMScls%a6t!
zCmwPJB%w8qP&oxc%34R5NGrul<5goG+JnH?<-`Z?HpQz^;u_e9kP^ge6Ad`esKa?i
zBU-5`UVpX0WF91%<BbK*Gg@$-(VU4o=B9C)AxsiOz;3xC495w8eMlf{6ZeejJi@^u
z!HB>0VE~!(cv)Mb;y-1KejbMbHuI_w>)v2eV^iw>fi=t>xa*fA=uWEG^@Fu7gMkJ^
zIuSFn5EI;)vd^cO%#Z<>&A81_Cd(Kyi4tmai)GhsbA}7>gK<*394j~(K(X5RbFh5Z
z<d2d94Br8?NRlY8Aj9`YW9wUE_rm^8K_;n-4Vtc7mn|tG+q0-7lr7bwor)!zEi(fZ
zE-uUqWp~J+<L-dGP&mQ#8hlAKuKO4FL92nI89(qP`KJ7YFBw>oFUfY5U)(y0Hu#b_
zL$LWU?*cbbe*pE+A0&7mKmq3AT?P8z;<MQdIcy!01$c%BFfR1N%>D?0a07jc5tu-W
z2#-&HgkNTFv^{1Hy|1AIrq{0i)4MtTb|DL}>A)NM=`h|}-5X<0dpF~4E5ke}u7l@R
zh({*u0GX|_A+iu=L5`eo&_ueh5F3q+<6iimVe=Ba&V~N~QmlrJb~E_aIA*ux9KBxO
zlFzJ);kd`mt6Pk?nO$JuA<)HVQ@gzt`D|c2mDJ2UwdnI&%qH^fLYiVW#SCT>uO_nz
z_rh$#6>9IRkt}4(j-scnAD-oRE3vYwoH1<3mB}Wqpl`Z!$X6#A=78qnV=-3@*HVle
zH9jsEJj?IxvQ^3*CA63-YL~x{1<{WKx`*4x8AfoJ6MU3ULiI9e)F_Z#@GQUg9(Tk^
z{y2Ff`U%$NB*7n`==$Tl8zU&h`OtZ2=5C$y3?q1yt@9+Gq;(iHYBY#k@GQTdH@Bg|
z(dXtSa2Z~MF8l*>4e~W03Naa^?!sh{G2+^vd<yyK1Q$8Jm0Hj;Ooo;l>o+SV!y5RU
zyAn%B24M(w0m|5Ghsb1@DNl#nF2im>4^17KJO<`HYP70c45CY0qKyaVjzo6N9=OG(
z_?@w?AB7qVXn5fz(0-?}%Ql#Du#Z*(rm<<Q&1A`Ohi<Uskiuz&PIl+8GY+{i>n-t~
zhIHI@m^qo65WaXYUUoHNm8Qb+HPeZ>FJ1w^C3c!hu`p-qHZX@OM{E=}=>mzEAv<P%
zPj(Wpbyl4zKcIx>O{v|SremX^IW+^v@jPGszG_^51x6v|jB0r+XLYU*Slj+Db838n
zE167<THe(W{Ci|BE_cA@I+1{;nx0513p3nJ8~Y1-ZyQ+$0DT{@C`ZRmj3wd&qS^pX
z=83V7Lazb3j&0A3jgRwy7ry3r=u7QNBhlp3V^D856oPmRjQ42F0Qy>OuqFu~Z;+lv
z@JSe@N+J?0(y1hrhTFu{;vmd|>CgavdQ6|3pnz6#sErC?{7zf)@yRpeaefvIjQHfK
z0lq$^j-6@8rfp<&l$jns+qMaA<Y?>w5@1kSf~MH`B*b?U6O(67qM&j%eP#kBqtVNe
z<FN18n;1GdG|;wrQyUbLb-G8?k<mypv32txtSUgI56zIL-L!Gb*0$qgQ+-29+^dD{
z%-+?TcvnO)OYkB<zRNfvaim-92`>yqp=myYA)<_+2)9GF9OQ-R>?8de@8o;(6@EY+
zHIgQF<IU%o6~UK?9r!9NrqndPTDNi0?=3qBC5EC}o}>9h{ed<%Vl#W5KTBsx{vjM1
z=8zc+{`EJiJ83ipH#tgHHyT<Uhj|O|CpSEEKitX1=uYm{<_<Zw3zRixi$X2(xtaK-
z(2^E{9zu;)-LOzm$>Qu~ajJtPY)oy84O{W*LhN1~0&l><7qqr!4`1$_{lJS6ps%{Y
zEL9oQaAze)Q9tX4XZfvQ%%dPH)KBd?ixnY=3hBrkQT|9xCWYcOd%<b0v1g<rM;uPD
z^88;Nz$nT0KPvq$XDWrfQt+LE4zDhvk~+b+*}b=;z94Qyb74hSSIXMV6nk1M&RAZp
znAND!ZgR13{V(J3o#1-G^hIbya9W+Xlk0(nwFUpnDgyiueiA1Xen&-rEfI0PhZRB{
z%LJj?SmEw~oH{TU)axA~-Fo*IEUfz{D`H*6sT7|_f({xioRH^UW?7sdoh(_%{zZn$
zZq!F`OF_3upG9?bf;kQgn(ny8tcP+`v^QObvxUAJJ9gi~;nC~j+-Oykl4a=o?@Czr
zmr#t1|M97*(@IVy2+ewER_GjJsutu~>Ew5+Ghd3#=_J_oUt_EN5O?(0sE<CLDLOHN
zBg)fbI<{u8L&%t($<v96k+C7_>nFk7rn4>pC}F_%VS*kRjwxrT6o1mMU{GZGZvBdB
z&6w;Z{WthhP0mYLNulxzm-Ra3Gj(#Q^hyGXV(L`{6ui`{32F#x2`FBvbLi`2r0QZy
ztBH5b1T6#*Z_@NOf_8!qf=+-;lX4$w5}AfJuW6K~i%A+>Ng(5cwOU!NS;GX)xd{$U
zJg85eL|u}SCNosHjxZ;rY73F35h%5w_m0spk>1V11<}`;h<fuFR?<_G6KC}v#tftT
zGSR2U$4|k3nyAE_hT0@FxO-WakVH(4B%e&`eGI6TfHPAteLtkkVjhzReJwNVCm0|Y
zWa99lQ#2E@kLuw15JOsTQFvv`Z#|PXE|Zit+{NZurYa{z64inMpN;(bCT384`fPjz
zlHjBIW`=Dcka>I??}(3;p@chlCl(ZV+LURO8iK~r&x*YhHC~Nc-o>;#n5-!;nV7{e
z((PoryO}O5>2UT8F?oF#L(0q$o-!wOVv9_bgt6t>Zy=FIP9^odjEPB%OW;)BhbVnN
zfpAO?GNtM()f@LPz}Z)0(i2AM?&XVOH0T7=1;%KOCF3VCrVBIYekM3eaGu}-!Iues
zgWx5Cs{~&o_-%r35d0y*e<Aob!P5laAxIIBz|sG2f>#M%BlrQq>jXk!3Bfgo5veaR
zEKBe=1T-$9{|Uig5&Q!I&5Gzgf+#_ZpoReF0+^x%?F4HH))Q<ZxSik*f*k~V2<{;`
zLhuN|QG!Pas2Z$4L2!!TDFSNgDoYU4y!$x8CkZYPTqO7<f*FD@5PXr~mkEA_;5P}x
z6Y0ym`x?R53B<vSxb67{AHPNLp9#KAAolUaVBZh;NL#zg)D!J+iDfE1f@v;BRK&=K
z7^DzG38IBBI=Fg2lTe>h6b(hGPZZQd-Ago~lpx)1CJ}*{M|t-cft;wz!MPmEk$oym
zIAP%ke?-^-vf~xPR>&V&>|C^Orua_iWS<#N?9hJ`xu83>WOcEoE&4nj4_Mot((h^E
z?`w@e(B5}ldtX|6-~XdUzo(V{KpXtA*X!~AIH-9Z_PpV(_ITgW^1%|remr0#e8gkC
zV?1yF3vI*qwT?HuevkL22Cx|Mc^>h6-@omRkmk9^^L=gL2im4Lydh=|@MD5E>NKSJ
zfp+BkTIct*_U~(hZ+HV9FI10_0OdvC_SZ{dGar~MX*nOfQC4^H;m?2Q`47!j|Eq=<
z8|KQo&WEzWW>3w`SXRR&d$-5$iOiH|@%czL;_+0^Jdo9J$rhJ-T4pA*8ZOzEV$WU=
z6Y-j@@p^9O11{N+$FpX3C*N3;E%tkMsGN3WBVNzYEIxrtHWc)<&VC}R;gXF8JY}=%
zU^T&0maXu4>aHLkT(YHJPsL?~;{t(_KzFKlPujm{(WiM@FPA_d(BsX9eE94!Cchp0
z%0N}BdVSizKDFsc+JA%zqchu#gkH~j)&dv4G&tMJmj?Nbc9sJdmOH}l;gT)(dit**
z4KCS8z%z8Yp5+_DHYZj$>!YE-y4%xL+frJ^VzAXyu~0$oM@7$~j}IGR2l2Po%KeQ%
z$;Hl3esCt14pc7%5V;7i&w<7i1j+pyQ(Nv&`|oEt>t^eXaz5<y#AZ++UbClzPZoP(
zvnV&O*$-D93gWRmtMQusK<Qnc&}9@7m+al%6CO{9&CcuMLq4r_TWb3Q>6Qmj#+kl3
z?SX8t))Pv#Zp&)8W;gSp9@`*XZ*JBCr5E>HxbM6ti`ul#wqEIZx&5WJSq%@_y`HeA
zcy`^D+g{%A(j8e14={!rXil|mNc%UWHt$dS_p=J+GiIOkdqOiP2QJwUdj{};^5c?y
z)Z_JRnfV|abqhP8aRz0<C0pvj*z04%*KokJu}5*qM*N;(4||H&Y@{5+=Mz~Cmuy#=
zC&&m~vTYTfp38Uxmuz>?vr!GJjoGLVU5iiSk}VB-s@ZP1Fnq%-(&LgX^?BBF=;0!1
zIJm7eJFPU8eAnlxRB0YC(riNOBRwwJanA?P>X(s<*Ts)|wLn*@duQ6elTA}IbJplx
zKZ=23<C2ZANGOJU&g-dSli?x_bMX`W92$nBvqX)~Qom=2Es0AuQi3Uf#=|9B7sY^C
zm(_5|uJw63Rh2ulNPnLv)rC~N;WXaK&*73S4xz>HIb5<0<!DKS<C5(vMOFyMCEHTu
z>EQ&xB^xWo1VA`0*&3gxPfgH1w#G(I7+lz@d!?^<<;M?s*s#2E0@bkSxcsOh<XQ8h
z20x^Ivyl;w*z&B#YxX{0rRSiB9m#8Upb~Ggd3ntacsy;XX4D1OY%w1iw>TbJw#x&~
z83OeS!Dg5)3bfn^Ho<gJpcyAnMV&BR6zBv~qNoF=ivk@;Sk!eh90+s)u^_fAh}ei$
z)P1uYmRvB&i`Lw%EDo%J6fnZ7N)Q%fSak?tHCoYzo3-J<23Qa-T7R>?G_W4FgNyoa
zHkJkY7n`)AwKtn1fwh<<xN9xPU7J?4?q+*MU>&Rk7j3%PSsB;_`@nd2O%(59fHck?
zTGC>`^+Q^qA=NaH_77Y+m-cUe<y6{#Z|(@{WW%D(c+KADi2!xt372d~xu=GM3zuwH
zg(t|-h)cHnfCorpT~_0D5p+b$ZK-YdrJL_NUp`Ymr`?wg`aQiwIk*r<*Dym|hz~26
zAuieCB2PU>7B1NshUx4FjnV4GggeXojcCe_zEt1C>GnrbTGh-4=d?$%!82ZbduLYT
zHLC}_p32!trmo~Tx5sL+r<Y&FC0o<u*~B++$sR%dc5vk3lI_6A<AA_LjXb;{BX5lL
zLpgcP9`$*Fz}E2_t=SMV<dnAZMJhXAJTTv`Ay1GiA1>MBo`9!^b;BiFf!3Qj`(rlZ
uPZr1G9<3M_tUX+4{ST-750e^r#Pep7`?Wu44T3Doc*934eVGam;QtTvMMVt&

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/run_batch.cpython-312.pyc b/entrypoints/openai/__pycache__/run_batch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e8b9934325ea595434e0e5c6c57073bd2485d196
GIT binary patch
literal 21409
zcmcJ1Yj7J^c4jxwcmpIzf+WBvNa_WO1oeJUl4XhyN!I(}$I#<oAa+v%4Ulv<s0ReD
zHJ;gxoKa$VCmTyUnX;ym-AHSttW;)eT$Rm~W!V~K_eTJcGr;sv8>KQ;o7vi}qAhu?
zQRc^f=XN&$Ql#ZfcALcQ)Aycx?xXKL_ndRj?f>TSI5}K#;XASazMJFzfgX&@t^*Ig
zZsxdmIFS?iI5()>`9U7frno6#9yIe5XO0UA%b+D;9kjA%A#O|92ki{D#2pFepp(IT
z+%@Q8wA_Pk+^um>qHM5?rP<=;iSog62HWG_M8#l5qH?g3Jv-u63E!ZP!OnPfqGqs$
z!LE31!awLw1O@|%y1}|c{a}5fVXz_5IM|qI8f;254>mJAcRZMA8Ej#&C*GQ98*F26
zS$s)i>EP1DvcYBSxjeo+v0`uqgT3)kqJ6NP!4>h9iH^Yz23N*A6XC%ygRA0QiB*HE
z80?F$POKSR%X219YM0i%$7?+}xL&N5Rt=lPnr{n(8^qdgbAua2|KKJQx04eC-{!=+
z_e?tGX0cxC78|7QVL@yJ_7<@T&&|?SDG&gP*dX%5RxyZ_ZDI>jTJdX>o?-EJaS7tL
zGYZ8VOMyYT?BX({J}WMl{Nf6VlLDX=LR`<hxOT+t5LZf87T+OlX1I2-6Y;%b7`5*c
zyCk2uN;2#9S&fu_dPW=903MLmiECe7!Ey52=!uQ*=>utSr?h_LZT+F-Ca#m#8a=>s
zi{Px6c9!7m9Qn5;1awedwMgC##+zVorcBy7@`q36M(iIw8GC(WvDDFuMd)vuL!TSD
z^dueh!vI>Kj|k(=b7%N7d}#BpD8v2`uR8We6Ou9>9g;#O)zNb*8cRlx#U<6=8;!>a
z0*-Un(W3{CB%{d*1yA-PNjWxpeD?vs6-qKHCnG14$?=FH$tNWlkwWq{F#&4jJ<6HU
zq5je1u~Df<KCY;qvGHVVY&05=B+rZ!VYimp8;?n&Nj!TFORr5xN^<Ym@#7$6S1Wcz
zlS3!;*xjS!6G^qQH0r=alHv?BWqfQ@k@}*^s9Mu|BAV<SON_@QD)TVfNNH+Cf8v-V
zifBL~%F{2)V{+lK?64$9M_(;GdyWi^$&&F%jXp3gjrQz5g7$(8m4nEdIgy1z&<&m)
zQAOG}CQ9*x(c}rWY7Qccr(X5w<XB-8;fjsMl99O96QF-siYjBHDDYrZMpy5Pjz+1E
zfQZ_PV~NPbL`<ZL48*0=F}yf*`9uQ!s^Jr2B!U;Dpf@5B)jH0|4C&*8jUO9Aa9-{~
z5ZvJ%F3pXUrZN<81YR_W=A_O)@GM-nyl2r8`Ni^BMcbS__OFn~QBnpcI<LFl6P{9v
zJE_-$<BEBWkuQ40vQipJYAw4)jCIF|z&*_w`6d@@Q+blDWRwZ3ino;ZB0X0jR*F^E
zeeY2p<65-0s*AN3YsA{GK-phXmw;IJ6>`+0E)8Pi^`@uxYBR$O&c!^!g<AHfOr5cm
zyR$P!6SH$T7MG5uet7hR6dcDu501&f2{|52js>GZ1>-g@1sP(H5W~UV30cPIjGqZA
z6XWA!a#9J#$A+SDmdq$99YiAudc<FX<MLQ?Y-lVVT)`fZM0X_=4(=XC5zimq8;mJI
zWn3DH4aX$0gXN^Mg35`piMSX%CIzD>qcO(Sf+u6qAhEUJ&i<p}kXg0MU_CKe62ZQ}
zoK)e26dy+e$5Nio&N0SjSPN6vzpQ~8;y<&6r=(-^+eAI5{0kd)@cE<Rl($g%WMaHi
zjLE5eRDS@{P;yK@L$5~xAhF&msXlsZn4%}f<6}``m%&()km+^kXy|eDoZN<?tlC6r
zI64te%1iK+D(~!+b%xt1k6|@&L=`25wPG}xdX~zk$lxee9wI4A$q9Kh7#j|LgI)so
ze>f_Nk>k=R7%?&L2wr_+Jh|<tJRyA}OfMu6J>3b`*cq2bQ@^t>dOA2d0k$p&$A)Q`
z05>>vA}U9RlHhkVi1f(aeLA9o=24r*v63Yv5d#y0?|9hh?9-aj9ejQ?9!tcKMqMb4
z(n{Ewkg)O%DXNq8SR{$+qyqgcEqD;cO6Z&kC8(o;^;=N`)L-iqOJ^tEYRa}M%>Gh)
zX~gP1`eg2)wwwl6jE!Q7j7pM7)f^7atqL3QQZf`ySvxyv62+cvM*ly55TMZ~c#Z6>
z{maW}D)fZbpPk9ESEW&<Q<RdJR?0wX17@Nkv2jB0sza}>-u)2`J))yir%xzY#Apyf
zbmQcu6tDr*P$&ttACkafhT;>V)XDHugY%2glQnX|vC*J}h3*Un78^~$6?hyCo;ra*
zNy<_*5zzz@g}QHaELmh4p^#N|)8LEhi>GQv4%tN&BW|xH4#i`Hpr~eyo@=}uM2bR7
zW$^K?F3hv8@z{7L1f%0pvh(!B#?6~v-6(a%W5>G2&m>Qbjdq=k#}i%Pee#*{F;Gyt
z#vo8cV_ovZXyh0PJmK*(YI!31szk*^w3S-!LILem(n%C`j>`+qoKTw;YV&q?-d>Zh
zsGjk7XHBNE^|LO{;(y55E!Npe&f+S;sx4w|SOlvMRPtWmtcfpcoOLilRuC#HArzSL
z)cx_=DNl3WTc7tF(6KBQ>%%gxtTE>aWj&#*%ceZ5&kfu!R<hP0Y$|Kfv)Ja<u<pv%
z%!Wg=W>%^RiPn-*%US*aRcy^774sTJERM1wUtXX0R_8ta#cI#GONv>hAy6?JN{aDv
z?#grf9-#ZVAqtGk41j(Q_9A$POBMtsk-u&#iV#V{VOLSG7%2!VMjFQ%iVK!k^ZwM5
zlY95>3u^LWC&{wlhTua%Hb#ONEntvg66{1t8Iog6xW-&+0zEcbR3{rcY^=(ih}8zE
z943UdMsS)ES`eJ$W;|_~RWD3?UOYE2<Ep!~VanB-b9H82ol~x^jL;>o0#+(=mWrF~
z4xSyCFgHh&n8Mv_!>fiTmj-o#8>}iFJUbd0P9!J0&L+o_5cvrXzI;}SN5>UOoZNa=
zmJ(6OxTD7>JA!Ay=p}~oigQl?8e--H8u{;V5=Ul$L6gWsDKv{Fgo0>BXb}a;3T4m&
zWzcrU8nUTArYC^u9mi6n9K~YrDymy}KOjf6*}Dre+9IFkB7n3@gxD7;V4vYaru{Ny
zAg&HZh8C%o$oR3Sd<_bZBE^SG`c}0^B20RZq#75hMc7FG*C42P5nwvk)SeeExbm&b
z&I`ZqWIa8nvQ$x4S$cUSo1f-K0L{NdKIOp>H5D7es{Si#Nr;y>;wEoKP+D7uGI0z`
z9j$du3s$#~{wC$r>uYzv<@!C>#n-ZS{~x%XtZ$)n4<irLC2*gA$@P$w=SSjsgjzc9
zGNuMJSo~e%_lHdKCg7;niE$C5=gDRbVa7oFTeMk)^a~)P(5%60aFxH+{d?VcxA(2*
z-h3|SZp^wHf9h@qPjc6=Mygg#T$%H7NP%E4=N|!p3n0|45o7!s5x9TZym#ZZDli#6
zg+f7fDUvn1N94&2GRY?$MjE=<X~4xhDRH8Z=G|P<ZNx$;vuZHLexVHHFEcQTcW@}H
zHX~Fs*4dQjFxU}^RE#<Oig+8=Qj0cIgbC=fsz7{0btP!h<9(gP6tamig_#?im`M?=
z^$94`cFHCXod92h%qYi>P2e4>Wif?Ks#r80OX1m$)ipwjx=bx)BO4m-j-JDjfdhy4
z^&Dk`17oBcsj5p8n<8YHQ0ScmgNzHR0!`smV8LNeNf&{uoIr4n`=z%!=WWS)TXNo2
zS?{VT@0yHz&0Y74Ka_GCc4jy1%xyTB-EeSf!{N*eFJ?Eqh#}+fJ+yK)b@|GgcUHc=
zGGBp3I+*td^8U7q2WDzpA9`#xPE2~|te5lp-b%fh%Gd*JknKkwfQOKP3{~A3i6q9v
zi8#UTNaVGNXk1H?x1eJ3GZgHgfOW(XK-V}%Mq~8rDT#t_<EJz-;4_oSvivhUZwY*6
zHCckQcDJSOqWF-*P0LC6s*Civ$e0{~+$#4X=7~Z7Ekr(OMThQzHoLgRz*q>CibXWz
z!cr-}R$MAa1W=!M8N+-X_bn_0XEEvi$n=i+-&iad@@amgFldX}iVJQ@9<!duls1hN
zCQ31nQOdWV*|RbP4S&c4O&@=Th3;E;X6ZUT9-Ma(484{-cZ5s2jFQr@VqX^wYU{a4
zbJ{!t{yqOP>NB4@QQOE}cpbmv_#MKp7r%9F+-i>14L$frtnM2*3wZu16VH7OZ;Ize
z&8N*@<4%!HeSUi=534QZA#OW|8f)o%YG*i&8ex`}V#NQs`4k_r?0;+{jlH|8>#?1w
z?gUvTlEa;wu!!2F(V;O?G_iI=!Gc*)ITeGw%odG}5w_~l%!Eg<nnR~j&6xkt)uq!2
zNq$xZNcLh#kY7UYsWwGNL##5c^1})ZrXVhD-a806Le>E}hJ<(VQ+|x#AGt?Z1Z<T#
zTVvMNcquk*TXA(yu46~GW5<Wx(;fR~s_Jr8E3#E9a#iiqRqa=g-#GQ7vwv~+!!5au
z2c|b3$Q*ewA833xa5?b3`drnLFU;JggFKQl8xJ4@{<Br>;0a}w7gt`j{nWGSMo+%V
z_s)j5H+**!aLZO_J*#GIoNwhLWO$UXTJi{71QZ@+s@flc4F0nl4?NaLY2j2=`{OS_
zadpPC>Nm>Ypb2km=_}{|n%}X_`eQSon|w`g*nG2=-?80(({CoY-q&lh-0b3edHc;(
zW`ftcDSkWOYqo#H34lKm+{pWpm+!S$KdPuCxXs&VHh;9%MKCbK=36|Eytm8@w(y9*
zWwZ7M9Jf4tuea=0nT_CT8(}t3u3O9b-ge>E3M;{3YaeI3wT|!I=)SeyM(|b};y*T9
z`rNjU?F6eX&Cmb^2;;!R7M6$>r3{rWth8t`PDEyKjT03Gam+DTEU%jls~cvSDb4qB
zuYeOynv2{9Gw(|T^0cWqPkHV_v%onx(L#U5?8Qv6JTd+)+Pq-n-<taOP8xtO$}lT1
zjoh%2C}akRmYBc746&s3-9fUNFtZv^Pc2A6%QUB#v}|##qGTCiNxJcd70Kvm*;M|N
z{B`u6{0agRX=!TghcY4JS+y`b2~<+DVn@V@#CT)`#%N47lHTN3DWFAC<;UjDGcPLx
zW^7pYwCSb*?<#%@ty^rmJ@j$Tvh%NAT6?wjr;gP(4*jB{>3q+OyW(O?uCgs#*)~<V
z^lHz~+~H5nTxBz+iE~ZPu{!Hm{TqdLsNN{=aq@4sJ!AgQ4gf#4^w?}S%{G9lQ|~~m
zUaA`+Vw9FLYM1I5hP8%)Ls&ry7x85_j(lJi+Bg#VNi%*zaXg8pG!%~%P>na=$6e%K
zS&q?Uad5@)w9x8RlBx?@g|Y##wLn)nAd2Y_TeYmEtIVV|ZIV+Z0v<2gjJjZS+tSvN
z!U|KQpXSoG>vjXLgsMef3+-w9NI?`V<`W&SLTivi$#Nr3bS{kfJx+8XrNY1~-i`I^
zd))U0qg`+CqLu!P8ezTCTB+9u`<rvpv1W;jwv1n}W%{Z;`PEzI{{PxCy*~3>R%m%a
zinz#MXcxFMR;=ZZ@cUc*-qcrN>seZ#t@O_3ufi8DFT4t0*rdgS%J1UWGlvrE?I$Q5
zD&*KT2YW$T;=)Ttxygc}u!NI`CLL)@+WaawwY)J|X^e)EY6B|XMGr6?Y2iIuq;Ww3
zs?{K<OMU|?-hrvl4oGNPj}&T#anevSR?E^BjLY(5y^%ZZF!Cba`~AW^OFP~$eGSwm
z9skOK{{NpEbc#Qv%QlRMSET;8lX&>^%ql*IXKOs1Y~l=~$a^#<tQ&hZb2{VxY-=Jp
zrlFUzr|w`s1Rq$l5d<lLNb4DOTduJZ5Qa`i$I!?X_**w^j%c>n(jv(4NqL_}M;<`8
z$=eXb{t=uK7KELEVREu1V+jdu+^?GCV|W&b`mgRFG1WW(V=yd0#Y$5R!%l4jxjUG0
zIS=cb19*56n<$lFAAEuwAp}=MVXz=W|56b<Kx_vWhIfVR$=$)FN*HCpzDf!y%*;zg
zn5BotMnxqY4lhz<kz%UyNs1~T4wb1E=$qJd{RWyTM-dn@=~1mSw8hd)JJME2u-GnF
z9sQ?=BxabChbV(p+t5`l674xdxTP)f*qCZj;*vBjw*x2Slu7-UCnz{cnOxZJh`{V1
z$0S9yU<r<%K~Amx@-U%|5gN9z^i6JFQb^^ek*Zyq(Cg9$QG_~B{tgg+grD*dQ;Ds^
zuohSO&h5GH_MGegWtIO@#ic!0TP{Oz?Kp3nH7#)jAi4URbG04W+Kw3j{?4qw^G4sa
zfAbe+lfUe94#E8j|Ie!$W&(|u;#d2o1FLTw&9}Ax*_Iz{xtjV=xUwbJ)<50Wf5)G1
zUjFXumtVipcDH%`%(5<6TbFm`yEeZ6`nA_H;q9{=|17^czk2hJ8vmm4FPk%~dS)%A
zrM>(Ev#`8%mJ?c9zp!vi26#||I8e7H6IhM92baHl_VU@Q-5>0|bT-$#d%Ah|otN_U
zZSQWsy#4CX-TKuttt(MZ+sgdPweN4gwms9n1?6n*%y+JT|CMX6ycfxIY(p_E+fhne
z6G~}pLMg%Lc+mQy9!>j#+V|^E9h|Ro)(-H|tdlD7DAU&e2sOcfwypoMQK83Fqvw#?
zy!#O-;6K~E`|&Ihdc-KP;8UXcPY>HUZ{Rb|?Fi({YcAE_EnhO@t$D}&wma`Tp7+(~
zebsqi;Gx4(QTfo#)i%A8csp^Wf2yWE=WW01ZU1FWbG~N%jpH}ImU-sj^r54f=U<pQ
z^kU}VOPQCxmhlZfFq>*C@7Ma#wu->#7OrCDKh0L4sNX0{@Z#U_@3QmX3l9WLHywPx
z$$rymCfHLxAXsiT`1>1eH`np~g8SxrGr^lS_uCyGt#$$aXe-}ub$+x>0DOxN0{>PE
z-yd?`YBdwQbaQ{F?c*jF;EzLm|4RGE?E=AJ7wCVynIAA&KkgO?envnQJ~8otKM{CP
z`^3sZyS2a0^GO-sUs3r<xsBi&8>Kc{`j@#rX|;peCo6dhJFWfOU7xJw`!{$$S!W}7
ziw*I&8O_^*b)d#^+sO}j%5J-C1XtQn*6n~}m&J0sb^R{R@{?MAXPx~g{#Js!t*Fl(
z&VtlC7BgVAOlRiU+KFK2bdJnO7Kd-)_uvKa$FFDwseGCh<RUNkrA_DlQ_&A#A>BkQ
ztb$lC3ziQ<)`Bg;&~k(lSy5O>HZ=02&5%2F%}Ud97Pdz~YSY(Wlw8on7ObNU_Ll<1
z;<^lJ)cj?V;z$+xblzpuazP2gZq!J0Tz49}9;5?vsf`Fan)%Bm3(+Oo(<ad^dajol
zUM-NREl+7>dD=2kH?O*QENMB}-PpA-W|}u}3w16?gHI`Y@g82VPViKDvVRI?!6=MB
zqb{t!zWn{dqF2OD7F)?J(4vA3?2H+5=pFpV@!R@@)~ws6kXFm2uF9wn!;Ohmn({nH
z$<+ieCIvw{G6XDAs0+dvi8;C*vqX~ywl0-v3iW)dnkY3V_Nyz@b6JL#@3-^1VC{x5
zMe>?Pwb(Fu5MxSy8NvP(Gc1t6qaiU3KOrT^$>Z3>@Gu09Q9`EInW}xh;MP%sy;NZ~
zfB}ekBzMRO1Zo9wz0yvIq^x1m{^KEwDv(7${vE<Iqjm5qlcnL<X^1~4F?KrDPVZ}8
zok(mOlcT6siNDWM<>-P9n1d23muX*1euK&rVx!nEAhsuuQ}7y#R3zzDCfdjnJzHr1
zU|h8_+ajDAscaf4Y9+ZnibsvA3{advR&|-|6Co?JB5H;W+8u)HB69(X=shVTj#)eu
z(&I~IET?AhphD#DA?<(Rr;s0=CSv(Gd)0!r#h-TU&$|K{SIdmM@~u5@?#cMOr`=m-
z8kT(Tx%2yeQQdlxpYc{-jOJ>VXKR*E)r4+%e&&4!*1?*#`|d!_-IR4VU3zWWUCh4v
z#+GUK_L<5?+NJk4=De+0Z|jtI3515Mw|&ank@K$2de`3AIpy7&uWNp26RIHM2%fS}
zDZo~KWnHeKBU{mtulDBy!Mv|EU)!FqZT{S4tt`Wqd1Vy|DXzC&nTB0=TK;y~-z=N<
z9-66HcICA{JNbi?S0|@xw&lFrGTv<kwDmX6PJ4T2YFe(Wy!zVvC$F9S&^KK(kn;{?
zyaQiU6IBkuLqF#zf6MizE92Ynfos~{H&fPh>Fm{gQ)S&bdw15}JsU#(9?dp!70*1n
z?;Utl%=&n?j&p2ztk9%*qt}UXe9O%bR13E}%>;LJ57e7KUd9j9T0dUC9`Gj(5IU@%
zGztW_gn@IroF7;&-1b@tuH_MbJHWzv%fJ%b?Vug;s!jJRQ5{T(k0g}ibIg$>dP5lC
z9*}qMT%UlV0mxX)U=lGw9MBbCWGGz4B|T|3A{XAtTbL?Lo;vGJ^DtiOCBXP;!rmQ>
z@fLDJ>3r;BH#WgLubEVrrnp34i<eZV-qJ`+ye6oon5a62CgA*(K!p4zDkYQXgV{p1
zA(@!J{2wWxEn=BwhU(hU(-%41f9U!CBS&FP{9{V^J|(zIS&Bm4g;}JjDFNpBqV=s&
z0d4xp*ML`z$)xN9aE^mQ;#-#YRQ}<X?{2%;m2tJ^D+8L%aHgVl#^0LrhqL~0KCt9Z
zU;dL<t{lkJu6t-PS2}0yT)F>Yx!q?yw-;i%+n*6?*|yi5*GL^k&3n*_;7O};aeX_&
z(JCcB3p8*}sv@=>3oV_q-Po)-^^npRS+IdLEJ!X_$V#GFN3EQD>6I6+#-?1GGQy@`
zGXv`z9+=0g$VCjyH6k$=>&WoL=nxch-P3`()VOFwvZj!(r!~a{7XoaU85kvZLy#(L
zei<8VbByK5!iY`Mi)L4GoEF_thYQ<V@|I*_YfI#dqTrmFz>m<_nRg`%!XTMm7tUE6
z?IKq)+J(`0adxE5NuNR5m>cqe{};6ysWIpl?+Y2O7Oj0j?1l(loU6j9r^IjtgX#5x
zp?6Zi)@4E5Dwb;WCY*}}wmEo@iBR_aGVO86R}jF3ML0Glo{|5AV*ZqZA0S9AKdk%9
zB{0XCUmQGU6*%~i2}N_93(|Ujjb~FBtMU8DraEKr?giHv9g<|S{mNwOlWF|Q)Y}X4
z26~~4cc=m}8a8Rz9(KqgU#B!Seg2#v#%9=t0d3E)rB=6Qkh`4DALPG88jj6y%C7*h
zdGo20s|j7LeZS#a!&LQ#T=|A`yMAe_$lJX$j^^o>H9y?<@iQ6wVekXH^`V{fw_|($
z56^yg^5R&gd|AGxQCnzds+Z-f8?Wy9FRs7x+;~0HzVo5kR8t1Ow5nR{-us<zx*vKu
zr|;sfKTb?LI%aA^i&AM=^6vi2`*RIl*@mus<BIF`?=@a6&(v>11whcwRn>zbF@iqM
zzdG-($~5mnVSeX%H&QL`oKT$=s;A-Z=c)y}n%%~EH$GNqvb<5#yNSQV_ihj__cj51
zVw0XY!2{~S(zR$I&lF?qU@LvW6=|d}(?LwXPV<u{d084;YA1QQrKo7ao5}<OE4)k=
zQaHgp@v`Uwj!-nhzQL1o4_2pCU2GH%A~6w8ocg&37%S=E18j!n!4*R%#uS)7v5gZv
z8&vs@lsPyF=S{f*B-L`-@xstJj+;a--2sf=i6M9yOQNxXhy`wRICfn17U=7Kma2V^
zbf%wK=Y$csXTmpJV9uVktUe&C*GI=!<PT8h+!ahiC6~5>OQ+_9_t!u@NW*j-0Q~Km
z*5#V|vQ2$cO#>OB{(eI+*U+79=*~6l$u{iC*zxa2n0MA?S~q8%n`g>u@?|SBq0N~U
z-7sElY05XXynEvEiOlk6rkb{A8lU}8m^JgB0a(h+<<42o>~KOvbaf+e?B&@Kr+W0&
z0#2;tg8Eme$ed-*g$TA*T!qx38#ESNC%)-fc>S0(jZ%s(dw^QuI*ze|l)}nUNZ{n!
zqO=2yg1l42xLz1Bljc!4S-`wu>f_!LhD^s%|5vaRh)p`GJG;{GY+9%W@X6Hc^|t9k
zy#U1?e3V;g+Y6g)+(==|%b;8I(0pQbv?U8G*Fwe%(VQ;uZWv7pn;=+)Eo{Z2S&D1Y
zE?UyIlbk$IG*ke`j`l3H5n_h>h81ZG7#~JxF3h`t*)%T-kBALE8H=^Xp~a5EO=Qvm
z!wA*On`|?1S-n^dt~(543Bz?_ix9Y{dASa4U0T4mjx00a;vFUzw_&gmJ<NNJj4;Tr
zn9?q}EEzIzwenz?(ff*(<xZ|N(%;j8NzYT>MLAmBVdN^_jj_RV$GOR}WS5b$2)53_
z=8uGt)kePJ-Kg2f+G3mmiC%*jVk6n~3f|9TdAj_|s8G7XU#Ly4H)xD(FreZ+U2f2w
z^rpQdn~Et0Bvw#w%U@4BzUfXoM!Jpo;+^$yMY`f#W4df)TQS~%lG_a^?G-DpR~bEM
zlnf){$Ras=3OOs%-n7Sfr^TFU&q%L<Q@k5J3Ciy*(kdTo)hlTyTIC$+E9NyI)~d>M
z<yUG|^@6SX=~G)(`P;P$TaV_2+ciR4Z}Tp(#^^8kchYXO*FCap9ts{=d#ln_=b9F&
zb?IBIU8udN)&52D7T;slZ{6bbKcmI|CtCd6A}#i%eP5}?fkj&Ulc%=W_glC4^F?Tv
zzKObpdj%3x{rAla*4cESMc^=RNIRZ)8S`d62abHeNE|t6K*f8y><=IS%yn#>tj0Qn
zKVyD_#t|b2xZ_a+F5X|SM*IuKX9F_kd7*@&Q5fquIZ#dtr{L6h(R|@Ogr*DEU<PI`
z3#E>Q7oIIRC^Rwsrh(2fvwc!*utsn!3@Z3#l&Ly3pCz&Yr>c%<Ck<(HI;y;?&_*$g
z5<ez9?=hUxB|lp@I1#d<y5q1?>Yld>xf`?NXfP8-Cz50EZ7wrx6Z)2}2S?755wbAG
zA^E8da~?_DOhVq$eVm!hs5a<c$=YeEdB>yFIz5%0fP(8YI{_78C!nx>OsAMp_uHtu
z{1Xc9P%G?1aXM)?d`5NRL|g<%9i_O!OulRrALa?lkn$gf_am8QnGr@4qp@cm4y(K~
z<?A}Rx{E5`r8~&O+fqq&9fkRsbx%+nlk{U#T6YF}fovT8Amm`r!QJu=DyWQTvAR-m
zN-FdvR0?ONS^ku@OQCbusij|%MLR4_#ieXrGCQ{YrTE&(ZiX+A=|A-!f~TSij*UrT
zI9MDU(x|8%%<2v<)E6Brw%95>v#R2*)gc%@B1yr;PI*PgWBOTn9P<j|?HUJQF)SG!
zgNlAwTM36caL}Gk*Ngf9B}27pVQ)jN(uWC+dwoPIG8tOr4=Es_QFUwMT330h$a7vl
zbPJMfDlnV6{9VdHPIWTbGgOb^P!OT>nlgC{uz@T84MG2vf?C3}fgs!wWYuwESl6p$
z5=fcXIqU;;Jh<p<EB`ynV^PNAv7}56Lu!>)J*Hog(nPxps+rvOYKEY0A%@MR;&8;l
z%5k{-iZXFEru#E5c-5<;7v2qd6^oi5v0G1LU9399G4vKYK0u62{x;RadK?oUW;wFk
z7o1O-C7<>HLN$z2FpWvAeBym5+FT^2BY#A}U7}Jxub<Uw?W`Xg0c5*lO;^;adC}Bh
z)juz?*et*P(hUos))dftf<9}mB9keFbY0Cs1g1h#hQZ?u9!6cxj4o<9>+2KvrT|`f
zWO!8dvSK5pF^p(wOodi~(kOUXYlSHa4JKx|c_J{Jv5kX|@~1$3nH1!2LQB-POzfQ9
zt!<fPY@vK(ORjNk7XS9T`%SIyj$9tO^z{s2n=5B)zH4iq2`sy@F1NNfyS8^a(D!E9
z{XpaSvQMpCKmQ`MVw2zc^S&28=)2&#wC-x(`_El_?q~LmnZ6gGAX}<u;f!I0vBlSt
ztLn^Fb)MUsZwTcYwq+Z(O*L%K)oed^U`BBM?w)V%$#|Dud3{>g_|VEVuFBW6<pZI7
zbpTr^jn<41m|cRyLYJDet`!e!IY(XI9mu;|aH2@trODTa@^wx55UfCG%9d>7mR#fB
zY~$X1s52LOE*p9-zkFqG`9OC0z~@y?=<j}bi_g~MNaXA)&RunJEbChOu$*%=>tqdT
z*p>mZmyoMCOC#-s06Ak{`WeSNcJMREx;N)*&-&W0?){);%DweNKI?{G4dK>s9^b{+
zv+iZt_8kvhoTH{d`*WKBs&1lM&ROc<saxJQRkq~Z&O%4DqZ<!gJ1{M5g;i|Z_Ke`0
zX<l*F_kQ!W=Beh*xxnU}|Jkhn*(v{yoPSr=zw3@K=ih(ceZRIXR~yRKhNfy)o_GHo
zhcey1Uskr|DmP{;H-6xrs_ci)5iH+TZ*6&VOQvqsUDql+`j%&^*5F-LU>B?VuDAPs
zbpY=2o(6d0c$>*?=MCn(%d_6)GrqNXe{;U|2+V8MH4n{jok1%q0{7hwId@yu-S($@
zZj^smduRF7lEc&PBQUoWj(X)izPDa}^W{uK$6ZecmD!Q0+DK)Fa^B5%y_@wi8>!4-
zrhNGmW$s(N%*?81KU{ui<J6KP)9#~%LVxCN)(g#fTC$#&D=VfwE2-pArfMCPye#Kk
zbJx4(sU`0&mi+0w)_%p3L(^KDOG@s#>+RA@ZlX4~WXe}O(dI8Lx#z=;cXm!KIXdlr
zzO>DScQNDbA}^=lk}EI%*~>q8`N}>xU#;mx(A@dZVyme9KW2xgZ1xos7dXJrLYQ$@
zyw&h#!|ylE)U~`Dz8uc9cW3Ih<a}GsJK%if^kY)GsxKbRRWHp}FTHZ+#**Bc{_L9m
zDd#{=7|03(zy9o$Koi}`)jrGrdKRADb=|m`xazHs7=iOmkJ0;<o&00v1lZ9VJ>El=
z{LRXygByjLt6BhmRKXwIDtuJgC*a|B4S#UEaJzPQ6(0V!z2=Z$&T#x8lQqK&1Y0@~
zpIOZx@(P(XE`qo72(u<0sae5t$YaYo?1-6Tx21jUZ{hdgAp*?`N5>fAT!NqE;Xuse
z^H=y3)+8k6qRq8<)QLVjl!g@-djz!iGw))bY|(8fC5NJl`#dB*uq$mYx_1;L_M)@M
z9G!q2I09AUKo%Vxg6tk5HxB$9x+5{i9GDr6`EJK^jtl9h3nA7Aj!nekIFhgJnrVAo
zn)MQi?&rznvzMgn)5!sBZFrc3tjXIr8-!0?uoH$6*osL4hX{qwRKy^1577xBcHF3y
zM71zkL-hmsVQt|J7ezJs0s2GrF+^5CSStpn`ek}WGFf)<ZJ&ev`+Iid6ynj|U6I4j
z@892lm@R2IDM5x-Mn%IXrDNV%34zW-%a4&@gOQS%h}jBwPuP1;Sp7?({!-tx(DL_~
zemL=8)0(T<kgeH}4~4(530~{x90Dv}&f1x>+Do1*$*HoAoV_Ds@A$%n6zuGKt=QT3
zTFGtE(fMeWV&RE6C+#;1X>4z-?%BluCEwF%{h=AqkGwr?=9@OYr`dYbE)eW?AsQ!&
zdRl~=ek;MvJjJ*01h-jx*4u7|_?`~;&2}5Xt8Iv<1C7+cNJKx^uIV1d7eQiqP?ve3
zn5FDwbte@qRfkjD^FFSje_2ALy)63f1++3zlvDK!VCn-v4DDl5p8O7)s1k8)KY``}
zgr2c@Tw)*VP{Pq;Lo(T@W!iAUhhT8{Oxw&h#dL?0Z%`^J*=hyquU9RiTh#58NS0Hz
zS|3;R0jw~6$zdXi&t$L<Nw7~!=;KK<$cI6RecwiQQ{LJq#-yfZGSOaT%Edw>wm^gg
zYi;X|%+e(rb5-={qkwGC>XIkQ(Z{|aT9P=ZsRN;>p%&y*O)XgVG<;3=Whx5OI@G04
z%fSRsrdz1YZy~IAN<B5DjO8xu&uDu=P8O+kJZ+b%fno%`6YUELS~{7=RX0o5$D!QJ
zqF%sv7$Pt9A3n1Cz<&8CqBM1h48+=Z6b=zY)>!7j&5jhR0_{REcOu$u9gAyjNu*n7
z+nq(-g?I;J6KwKpoPty_wM-ZD^)JfEzad1GQq0&`l3%39RTP9N&b}2Lietjh$mAk{
ze@+R3kzhxN=O5TPzWf(l`8}@b@3^jeT>U++_8+*iUvTbw^jQ5rxM%Nio%guaUzi-c
z=?f0Q0}4L(aX2P;kK6lq-1GOi?f1Ag;N0U{?{Qo2aqIrx;k)?Kl%we!KGm^@=PNS}
zYaVa}eD-ydiC+cZit^X^bFMF}e!lKg4#DgOE8lRX3XVQ}!_}$>bepYo^IiE0->jML
zOGBCVt=Xm9*wcNB<ADXSvrTLGz?HUH4!0Xe*zLok>~=?dK#{W}{4#zEBSQBg5qdgs
zc-D+NBZm9zVcyOA^PVOu!k=FmX7~G+S}Mvv+hpc9vqZX6BJL~^_gQxvas*mt&A8tO
z1q<#F70Oy?Z3NjltN(!m&}VyjJMWyWiJADFe7*{w4`9%JXVt8QLC9ovKCo%<OBNU3
zdGTuxINW9%IKh2Bb=MsDxvTm+ThI033o4q%vEc*vw9t>QzR=@ECtC|pBI!nTcWrff
zdzt1mwQAbF`sen*rR2M3E}yxYeE;;d(?7Fsx^E<}p0=;KFO;9#No3v@E*|}^^QS`n
LY$GRVC%^wMqtHkV

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_chat.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_chat.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..196ce68ccef596b4f7d139c4e970e7a935a45145
GIT binary patch
literal 47992
zcmdSC3wT@CbtZc7A_)Q{KoTTD5(Gd3Bmocr-*1W%Me0FOlC6jBn6|@96OcrT1eF8G
zwqzi(liaD2stuJkG2JBBbkk1gTDf5+X`?ossgj$fPVUTC9FR7SQO@@<t?$?A{qBRd
zl!u*m=KgCR8~~)C#A!S8eHRk<*=L{q-fOSD_S$Q${lAx#6m$43sDE?rT&IHjJ9?3S
znzZMxQps^IaRDx%Sm36lr(#OM-j!2IJe3QoMfH?=Q8T4c(03Ky3#JO0U%gPYsGZU>
zzha?ys+gtIP3hQEKUIRKW}$S^FlAtI3KoouWmDzMU${`QXqqxHf6+qaV%1dDV)az@
zqIt@^STj|_!nF&vi*-|Vi<T+NV*OP8qIJr;Xq&Pv+NbP`4O0y)PVqwHqGQUz{JI6_
zV$)R9V)In<V#`#^qHD^v=$>*fdZs*!ty8Uw-YM^*Z_2mmpYkuZO|>nyPqi<0Om!@F
zPIWGJO?54HPjxT$O!X}GPW7_<^b389{Zsvm15*R+y<}l<acF9Y`AZju7xzu=V}8TJ
z$m0H~{mgG%IIuW6HM)3k>L7bBTNqm$pE|_+<qL-wk4zn5{)&a8ixX25%x_vawm3O8
zxp;i)ID4;LII(zg>g3`>QxCECs)dIaPfeX#JUw-qy;m=sSv)&+cJYy^M;0HQdX$Bk
z7am*u$ka!ezh>d_#i^+&1*hbKM}kkhu8>B1>PaPcgbUPuiVM^Q`(Ib3L!Y{$a9jR?
zUQW7|snXH#mC)>wU?|AXM3(qe345Q2NUv^1s_0DcW0!-W*&zIy!*ijT1$YWiQ(!nk
z-V?!ac;-BP)*lL;p9=-Y7UqJXh+Cbqja`_DoDD8sT9}Ch$Cg471Rq}F7iS_5U5d;t
zg;Es=d?v_;XXq`RPpbBOFfx5%E{xh-nT{+iElkhOEG&elXG4)x+2YK_U^Z}iF5oUq
zRZ@aL@R{Jk(xo6jy(rZu)kML_<r3mw42Htf=a%^CnQ$06&x9h=GqY4^IOUL{@xhtJ
znWq<m)0bxWFml-yIaSUgT?t2mi<$h(Sj_2Jv~hara^%wGNXjY&&4uuSQl~G>@QX{K
zE14vfd@vM9XFj`xehE??&~qi}{ye^P{(O*km!~SJ>&7xs5dJW~^mM8!Z*VwOpFcd^
z=c&fspHI##1_Ni&vtt*Q=4OKr&+s#gdrM4LXm5$9gW*f)wP4D!J4-oS%5iUj^4BvF
z>gIHuJvm6<<d`WP<u8Lo*?4dvGIRKHh>h78z#*k)L2`r=_Qsk-A4?AL{1TtZ%Y?pL
zyc9W0VDJdR>O|<=QmQ)LL^;}tU}PpR6PZaBW%AKxVq>P1Jaj1-8l5;3<e!-foljNH
zF3c=mn!d!co?ciw58u;ajAg~Hcqf(u!37E~rd-k004}^4P5=z~nFYBhnu!Esi!;xq
z!8K(HUs$@l5SX3|%`RLH1g9^{vy8PPEVT()>E=Rn5vl+|4(20Zg{p!ajadMCNCHq9
z&ZJk0au5S@COE^-USMDlPL-ZPvlh@o=^b(OqoFIT%(<&UK4r|*9KA^)ZdIywapua?
z!D%#YZe{^t*%=y6RYiD=8xTM?5YslCs(uDh(ci&oUcx0b^JW&Qs|shr(+lVyc$+e@
z(7?G!nEHDb6MTt>m*NM3slu}oYLi??`sMBmSnGZRt6h+z6%MPL0{<je#r*WH{!(#3
z6I2BXg6cqFP!lK$76epR3pp;J#hc_S4i*M<!J>d3e<cVl#nXU4V<tu!-pcV;fj<-e
zDg&x>jn}zzia^z;N~g41E-(<N4i*Q@L0vk}%AlT7pHtSLy1^1EF<46Oxq?8=r!-Rr
z7QZs6Ij05&S5Fy(Wr0E9aZR8ySdK8ur!=pp8#+~iZ}s?MWnWD}O|VGH7kSw}rOw2w
zWc8p}cKk_gqjU|ZabvJNQ!`VrO7ds&(FYu;Q#GrTGiVOhP^|+^NZX9RmSAnLj)k~_
zmVi50k2>bG?wm2;K?|(EM(R?jN071=DQy97&>k!gHb|`s_%d~+^8D1_s6ivu;9PN_
z4JjO24s9I@v<IERa#k}Re7SkB)@SP6k;$<Wxk)`!8EiVI4|Jj3%~bPq%0M@AZVB|r
zy%XpSx=?Zvdbtl@-04{T@O!Rv&nc!_&v5SHRM{?kKxpl73QKQsstz+F9La$HEG;Bh
zVAyJzs^x=`%X}z}46trVJ~nlXz@p)$5awulwMvx*Lu~Pyxr|jO0z`v#E%=;-H`wd+
zvloJt8Lg%a=}(82Lcx@dg<v9K>ZUB|OfbcOE#;B}K#Oz8uQvS^3*&5XH&RNKr@vv2
zrkBES%0Mqc!oygEXJ#*^N`j0!n4V?iL8@SpVa8MmpI%a?`K5(ms#L}XNDhRSD%ssF
zmR+yYvl3B3t2L+!{s16=A0_7?Ib-CElXHli!{i(x=O{T7a8d<QH_xi^LcbFHVG?pg
zEZtp&`+3DnTm&!D@6+W`?zccpM-@?JR2?mf8gD6HPZQS)E~<)h(?B}XFRH;C<->l_
z0=&tkaM41%$wWC9HQ=ov6O)@SmHpZ0yfN#SeMnW5_0Lzx{_HcVy`_}NLBwVo1o|2+
z#+y!#7v<(@ChYk|_0i&6s@K!)L44{P_KWK9mZ@X31aF4Sw^F=i>WZ8*@#GjBH}A;$
zWuJ_skh)wBLu#k&&p!DB56HDS8%OrV%A#cf^+gwkTN%)V6w$I+Sp;v=Z@yLbWuJk9
zXj%SpWda)GoWE7xY%a2I-Y@&I&p;uoPf>tiz$}M{3Ij#C@BhLwv{VN2%Zw}X>y*pN
zKKZc#AR%8bKcnCc=c%Q6Mj%i;j4U4Xjf$M_$(AAeB7L$?9%~sgv56swvdG^9RP*}G
z8-258-sqc6e!IfC^(WmL{ul!INpen*!%zUtZ%`1RxpyPW=@6&}B7Jgj9}8pnBBdrA
zn$j@rbk+Yz7+BUG2%ej{yb!Sy^09~0^pRbnSM2A2F6~X>LHwl(FU~E_O<(K;UYQ96
zmKIZm=YdI=!XT@%I}yU+hu!v+CVUzDl~mC*uqi0GY5q9X{UkXLk#m5Yqi|AsRvW^0
z=jP6*%I+hDQkBz0Jnn6277M0~EJ99;C6qW$MP%?|s+w{M%$++oEjLmkvQpLQ9@rBe
zPL-XPc8=J_$ki)IV{Y{vQQ6uH=j0E?QY#`?E(KF%(ozIs9lbHlf^?U|L3ziNDhNJ@
z-C}?zypk$IM_pRtLH#|=FFi{mlF~CDwo;T&swNX*7K;kH6GY)9V0QGb?$VXW1yqjW
zxhqoYaB$&V4!E!`XE3v;-+#STB)oJPt71w!jnxfX%<1VcA!GY}zZX83Y>O;jYP&Rd
z$rqX7(cQl1F82-eU+fFEEzCXLCRMiWnT3VLHf)ypE0>ngm~b05wxOB1HmuUL_h5TY
z|D`MZ6DZ_r?S1rxUxp}ZSU3rGz|UXc?zuQ^>8A^YBC}ZAB39Ihb#Ad`RJ642=s0c7
zJ+44oykq37t=H9?MYUqRM|yTWL{GQadYGOrv9X(;ww(g5u{qh$DKvB@8^(o(aSF8}
zw4o_!9~A6^Vq@oyifb6U%PAX*>0|v)5$76U(Zo7ivaVgIYZvQX@!=DQXX!vZ3yWt)
zCf$!IC}R7z_b5HxqKD<*BDS<9Tl$5T{$$I;Ld(M&EvM<TQ`8xfx|W2lMXanzRyGTj
z&B@Asp|bz_VbR{a)|{}n-+XNS-1Wm-`tr|CetJ?g9uSRHqS2HzdIh8RUZJ|Abf=ip
z8<RSVptB@(&4R8usp}AQ9qW%LbR%Mu|N8iw`o`@h-}UiLJgNF#q0XDE>lNyHlXas)
z-RPaig}Ree8#Aj-T|!qU8f>ePWXqU<|AsMfbZl8Il^FN!6O1Dw3e>v<y({h>5cGpd
z{ivWH-7@xU82j$2l&DfE*VsZiT1AVUo;BzhPaFA~(Sz63Zx)&FVtlz&VVY!0>G+vv
zWpZ*hLwO(yt-+tf-`xW`j+^8Z*c1VK11|Rdq6!%&e-bRh=aI)3lrO3NjYh-8R8iH7
z=17LRna@x!**pTuXog-OYUm7=lA&v|@#c%Ne%Z%YJs@s|W|3oZ+$R)T$~i-iWWPie
z0o5(FOtZw)h(&GR^P4Z*6M)yKT5fp^bX(q9=b^9Ul`PX+s&sFG+M74sUrMYnQZ0u@
z3nH1-U#>CV5UI<2&y0nFi)2>A><A$=vkvBlMiujRIgji!pkY+U5bD*K4V8VoGFte8
z@0ZstT#vMQsDUuiOD%Fv*=L|Y?oq&jVm?E4Wn;Wp_kg-e6cVW7c~3UB?BlU{j}?Vl
z^5;3ueO5cGJkQN4p8_2j(?+%PJ~?IfDUaJt<qeaXixnYW{<i%GgtukW$v%|bF8i}j
zgyx~KkVAJij_kWtB-4{@W?|;A*^;4=<amHg1@;b#`TlH(?8{$^=M-T*qfztKkeeTr
zQ)i#ZhX}eoKZK6#3BoJ(Jc{`PdBXFzy%4bv-XHsx_I14!x_9P037iuvj_G3hP$hcq
z(EVw%u%3+@&?D|6dEzQj{-gJY%k%Av+?SQH(#Yd-jA-et5*cb^hNzM+!`@6eKP7+9
zKBxV%A0<!A{_HcF*>}Z^=eby!mW#~DU!!`tjB##R@zg5Efm6@L%3~GCYgUexePX}G
zm>6;@)^1a*GDbZV$i|a>FBHxZm7Iaa$a(n-;$M*c*=JM{xhTIyD*~lN!OLakFX5Kq
zb+wctR)rp3kW*)$d_BUKvhT7lN_aj`o#hdURfmos<;Uds*(XcMXWwPte0F;-2hr+~
zuMEHz{bJRTXC)uo#XKkbv(IR?Tpu=*p3i=febG{RRHD^U^(~{^ABeAf0ZhhFBkB;7
zV`ra$rjKXeWS`vIduKz;oP(3ABQIp)r`KV&YJO4<%|4?Qs2|m<Os-d~CNzZ_{m<Dr
zvJWvUC~nk@e*ZUeX!d!l{Ppx2zPEM^YHMS4$T#0A|LJTVvM*YTl1d+3R@4-&15c&m
zb*+>lRue6o|4lh{_8F~_drW~DbmJ>(u={dgxJ>>UFwv?PRvrV*5G{KW6i>{8R{nN2
zC)vkWqZK#hx9k(x*Mb^rz%eO^8eS*f5PoM+9^(Iw^p@-9kH5F)&TxI)viim?=9*`f
z3anQ#?XwiByzxl~7db5F89AEq(I%JuBD8B^zxk80FZ(>Fc5?jwSV<18b}IW-_63UN
zK4K7_XZ?<re3AC$CG)4{G}$Ncrb<pft9%@^VyxujC1=vlXBE$K~go>ibdiW>pu
znsZx)8aiX(8|9-LBEKb<6V2e_4_DTWul@Hf<7=vC74FKbKQ5Mcc4Nd5$R4xUM<1TB
zhrt6_nBnb_CA+jWYY9`hzc`cXOfYD_5Q$t054N=tyO-FPerb>A$GKozU}-koHgjpt
z#|O^^ab`FhY$Mh~+bnkYkzghpB(p~@1f@bR1!w2Z&EcR0TXDbrEDlgv_#!GZ8)ng@
z%4AaKsk%S&@#NJCc7|qub}n+k&NlAgZ=3}`CA-&_c>;@zIDO)0!u(kb+|@@LiGk9H
z)-Nr9VL}ItcG{rKfzNCA`6N!UkK*_!iZ2}n>=JyHLckU9Njz!l!>5Dxa4?cm6T=#3
zP2lISqi5;hHN!7AQ3qw%=hGLT#qK)HSSW67mZy@coCyTL3Sp<+#Iuli-Ki>KB+rE|
z2dB@`33ukewwNjej>v2zoYG=cE-zwN9_Fv0p^Sl&DyRIy)b~gwoikr`N<B9hvV#Ya
zKCdD!l2n$Roeqan3j0+p)p-^Se;@j_SZ>!`AZ5&D!4ta(hv_ABG$?UU7J?x@j4Gt`
z(n&Mk&qprsL|=ffRUq-DQhFK`c{_*<3ZzW=7pU@|B8L_Ow~9SdB{+=)U;jdI1_#vP
zRM91VZi%0ZTyYn$@BD92g6nX=QAwW<fJKw4U~Qhe%D^t&>#1@&MrE9%g@xe4G+1F5
z|A97}?qexEhAlXIQECWJv`$LH4ha}fCRND%!9c1wfQm@R2dN62iqi2SF{f}sdx=i`
z7_%>x<|q+EFI7UH)3re^L^!63=fEtY<NnzoPn0!JL^MA@4w1p>;|~b}rPBhUj&QWg
z=2`mmLO!2JX$Tm?>_9;-IdFOLQmT47b4a-h2qmy%uyTO1H3HgXcwo?*DoV>Lge8XG
zRm9?n*5HY7;E7I1)uQnbd60pFrelUlR{ZG9!sQ@?wv_fP*lLnjfBG_jc`^M~Fh3WX
zpXp4M$buN@_&6R4N>UiawVEO3+cc{9^b9<5X>$PyTAHXP8gyhNn8M+cH2-k)DxH^C
zvyr)f%v0K62onZ!CBak`i<5>Npg0H-u$e?K%hLvp{{)qx0w|{pRF|i5E{y|aI+#vX
z;!rE+UE)cGQ{@QW&8H0WPf{-Cy$n*MhyZFrJZ*FMrznn&PRzk6gro*?Vzt{n0}9hq
zfv3$|N|#f9${?RYr_)RGq9~14f~kU;OW@Z9QYswrrwZVpEh)x41}jvS`oO6eg`;Fy
z^v24dCnv_a%V3XYzPs!B5LKUMK2J1n$^baW@tQQF!0wc0>gVW_cK1x+qZFtn08Z(F
z>oP(&DT6$m(%67eoj#_M-xWa#2L3G-OQcw;I8!BHvAN8-o|J$msxPIO#tg}dG8py_
z6Je8-Hj_`L&~#<^&(L>3S{PjSY!8Hq3nH()d7nJ(8-UHF`Mak-ue$E%l;)553UUem
zUmA}4FT^?BF*CMihhXnmZ`rU9CTj<;8$?}gT-Qu2#p9no9<TAQ8#eU^#EQnazA?>A
ztQU0kNnKMy*Cdu#CCi;cxieYbCX~0u^=&)q;|lG#f^kB-gt{)#SiRm&jL>dkgqB`E
z4sL0!^_9Ap>ykBXLQUJcexqjJ^<&%C#-z1fu(l_yBZ75g!+IcTK5%_vyVjbl^$4||
z>yz&oYF6BvO+A~2-g`w{S?gNgrm<_w*u47erm=0y*s@l*X>120vCNz_Is~I*^_hgx
zC)U)Xm;{QMjCW6NnHyIJHvJ=;=KZ4Ck~F&#W*4dhZ*_-I-La!oRGw1YRjJJ7JDjSl
z9IZ80e>V2%Slr-5Gjg*vnUkjBglTxYzTsx^_VCzWocOa78}-Nj^u+r3O5l~HmzUnO
zw%tClTpX`Iwp~%3tZ*bM9NXY4H;xF6Bci7x>De!M_KWWJr2CNIJ|wnxC)*zu+8^F2
z<Q)6&a%xBUvH``L9PtXjSm%kGJa_|lwzf^EZ4*s(qNyHk(&Q9OPO;IQZ0r*n`x1>O
zZg(e#P6$IM#Ezb1$7!MCG%M?f;5j0;b|zaVgw_es<`%6@No$*6ZOc}`-YT~ElP#k{
z%jixGSJ!@*E2%608COzS{;pPCRxX<CqRH{Lsd2}{ffa4)5=>p|M>b5uIbTJ5E#(a6
z6?M|=6U@G~i?{ov+H9Cl#;YHS>mLRjXe%&!mag0Ln{^ZMBJ<n2DzRhq`eagHFX-zx
z^?r;XK%ss>s2{l9x>0{PUQ~;qQN@_zdhw2OQlahLa{AUnNhdhX_GQKLKGEq)I`<3C
z{dWxUhffIyPH#BR2*!qG-O8y|1?&7ap`tBb(I<BGERS!R+TW>f6=^8Cg~o2t;@E0%
zu09p-IwUk5-e@=?dfSuUqk{M7J*~!CzDx%P=;sPgqQWCK`;yILLi3miFd9!f4+zc!
zcU8)ks+$i1h|qh@2ZZJW_{d<(EtuU&^FhIUkiB*b=I*<N>XxeIhwc?~m4htMFPQzJ
zx#gZlRau4cEvrl#?P!%~vZAwBM+Fnu;U2NUx1;6C8t!o#fMhvmcEqba@2W5i+crni
z)+^Y0*Pl=J9TWPFZP+H0HIsm$GV47(XR@v=ZMN;-tT-Urok@GUU~d;~UeVzbZGN$-
z1DQ79a6;2ib#nsaHmW$JNFF#V95~Bb(1dy+lGxlOHn@@v9YRCLP6;ACqPWWyjw-5t
z#uW}#38uc~lW}JsYDK3bor1kHX&(~oL!!Bv(xWSOXCXS<MDKpFb>B_}*D!pSD{iP-
zo&XXmt4kUiFlejpw~XF*A5wBnBlkX{<ct-|gTHxgwIN|}#ETqpgG02sgrd5*mJST`
z6`vjX%!o*{t6!+-#{?D8b;eru-y#}o@Osx!WGda^ig4y&(rbGeHW(Iah94BUw)AIQ
zCdH8gu5Rf49Vb^as`$lwBb;?ov17%A_~4!g75>u1A4I?PXtHNQ=$VKcj=jezf%Ski
zlX{Dwx5VqmHudAIaz3HLw_dicTJKmt_3bCV@x=Oxxc}fr#n_wrv0v<HDAfl$yn?Ge
zu6Tc^3Z44FJuhdhrTlss^iuj;v+E77pWCSDc~jrR67_zt<3dH>zgPYt;{Ic}88qrA
zDj&5fUQ(P<saHme;r*^-RClI~`<`EMra=9@wu8lZ`Tl?cU%o%s5C30wR-e(Tf1n*z
z;pMON^x>~cMn~}SL!IJGsrrX{EBQU6W%%-=;qj`o!`xq&E6(;7{B^}>DPH0Yin9X+
z@y1atUWC?uL`yhpAMtaE5yc~3bz;8?{tcxP;Tr`C<h7wKAh*nMwoA3q-F?=t+H@)4
z-*jsbXVb4Cf0v5<y$a;HIl$au?IUj0o0^(OoT@ji3i8`1{+mt>`P~%%O|JrFz3JCJ
zTBmxmujbJz)mugd{BM;}%(tpE<gcTcvuXAdmPrmm$7yjH;<MslNik2Mdwx7IXmeAg
zzq6x(G%GPTNkBnN$N-a$gA|qO<Ujm3{8DO?5yF;*QOfM>_KS%2nleing{cs`T_OaS
zWH6%wWGaW!Uv0Uc4xr7$eG#7rK!k}neSs5o<w>0@p>r{4Z4xS);`%1hP?a>;1f26J
z1%qStuwZD77q#-lqf9BnyH4PU^GJVp$KgN#UjeQ^H_km}21iN_ewc!t&J;vd0p-;a
zgsE;2mrTjHSBe`Z7LJo6gx9Ls$(mbr^-N~B4vE;=%OqsY_W84ydGHJ(_5~7&wlAHt
zhajmP4A`H>4)0<x62=bHK4U*W_e?Nk2N8;`X?EYwQ}^*V;Jn5`t|AUks*pGnbm(3<
zyRgJg-!&}jlo~z8he0MuM48m*r8uN#<xI0kSJOO@Gt$xZ7<Rn=-7#LEUZ(9BC@rA(
z^6Q$vF;!k47Y!B5&wl2bXslc*yIFiwBbHUJRR4}G^A60+)&pbZb-mQ(*fT;(7(4*%
zOG~iTdS-6vGQ{Tax(i-2L-8$?nJe5iPha-@vWE>ZFm)NjQ$@#$7`k2zhbF2CutDN=
zQ6=OCY3P*jF_EK~I%L3i>ENxHeWxMJ`OacuW6ERTqnh-<`;ev}J@8#%&Z(m6bILOu
z4ZGxX7ea8K-;bIePAQ&egT;m|rHG{zUVNfs8$JmKn|G1?Z^KEI>>8I;$>mEVeH(z}
zJbDegddMx{4FbJODaCA<7`hUPEe&fqI3o+#LrKwDuU>WDKacK@^;<N&zl+=;f?(uo
zJV|rEVD7(NzhORdy##0LLQ&)OlI7?BrmXJzsAw=QkA3Dj(OAD)CKwx+OGIny+Q&fe
z-qeX@<;%05GvEJdS+{MltSS<Q2Kn2~5-fbC$`#e`^oyn%(O_A*7&o}%Medz?uH3R?
z;f(cihy*zL^o)@}r|Mi<&YTGaVJ}Q_m|#hiFkTSpB7h_F+-xq#o4D0%c7FjbP@wWf
z4Te^l(`raFu>k~!8eJj%@}a_<6QhD?!Hd=i$-b~3PKu4PUp|-MOCy={=xFAoHK4i(
z1QRX_sADKMRtPymR(8ZBr=JH1?)?F<6mq@{#OXY=AfO=>94n4$!$wHO6+fd0LqwXM
z{C)XH)!}bOC_4Mi*UG-^6Vh$U?0NURCHqD8WzIu&Q60|Rbn}_hZ8-)BWxt;8!w`hG
zWBOmwF8!W%>0?DvEw4?tLW4FIOKlA3V(LhPTn?71M%kZzMvDUl6g#T9rO(v0BtpCq
z_KReA=+TmhTMo^n(&J<?y#VGNIqlVAw68RKvUXm9Q>Aok|Jfs{LW^-;evyz&SH8Mt
zYYI43eV97pOex)t{58ylJMiP>j^O6i8E?ju_uQx`^Eu<ec|jfI9neG4FQ4p3AamkM
zN>Q<b$LZ|h59N~xclk+%GOxNqOA&i8v~>CW1#p*1F^HJVjNOcd5#D2G9y)2i0&WVm
z@-Y7&;ez>0EXHESS!EgrSF8M<#_Vh3;FDpG%kObBZ2S-Z6|~CP*Ho!OS+-3}IECSp
zlnTfL1k2x3wpuW$C6;okNX9zg)GEPu+oA88Ij9Rg2fht>d#`~-oWVe0<Uld__u#lI
zQx&L6gjmq?kP9dN7|C;M7M5n9XrZ26;!*buzb~9BIWe<9M-IUNwKdI!4FsRQe4Zyn
zol=wX1^-8sKU+%vmI9T?q#(_ZD;R(1?CA01Db0C)>GCBWs~*RnCx@mG-$;%fj=NN%
z%igAdzaxjOM(>dC|A3QHEj>M-Dv_4$G%J+<K7FVH8-6Z)AxQcj@;XkutFjEHCcZr3
zVp_PM1_CZ=WcC98|59RorkjX$UWy=TA(LHcL34sG0HH!W<8)Sx?TKRwF!UK~4kXXj
z-usuh50mbzn783003gsbMow>z>ujsT>zxTl4|Xf@8f>%~7f7krR&SLzCCgid^47KE
z8|4Gn$0)wx`p}o=*D7uWHmzNM-gP_to&GyBe>N;OdB9yFX|NMJ4`bg~AGdbL4c+mg
z?t3ScoO>|oIxe`5V`sN=0y}PZsi1GVJ{mVPVc*^0Ts`<|VO(GTE>=bl#NXoJY#7_t
zhvP>+B6NLZ+wG4Vo3R02F4=iTk(=|oVFhRQztiaas{2*9Xzo}a{(kvi)qJ-G1vsjf
zCz0L2xMEe8v@`Bl!=}Cajq>G*Ek}3KaYS$&5zP&&`w-Vzb@TZ0#LCCsEk$nY-uU6i
zgwDrAZ`-=^wIgw}d)wCm<_%J@J$SER?-d)n)(;DfL!!kE0X=8c@^LT(nmXRGxJ5_X
zmU~ci58mz-+y~#7gRq>Z@m>Mf;#qTi<-&T|s|#XN+r5&)dh3o#>#V(}(lu2rpV&FP
zt6BG2xu)Kv^QhoFN_-0HucoS-Czg+`Du~t9xOzHK-LmECe#h?H@{NF;@OO%x!{B!K
zo53?^^{>so?pi<fn)jZesG)I3RqV3fQ|aBcD<wPj+}_*KaBkm92?&(TQ2qQKh*6^>
zX=o7)ElESCVCYO54hV(=w3n^U@Dtg_xV-8&$7u6g{Xw`4Q2bk!hYPqL6pS1xQvFq-
z0xthUgi735V*2v`o}BNHL(JOQTs*2rfC}(<_upA%3BW8h63Gz0`REc^Rw}a=6=CJo
z29%%-6!~yEq#slvUH)$|T|j+a5!GGArXi*eXfpm1P%Ndu+9dOpOIe}X^y8Z&L}RgE
zR43O2vR=lttQXoBGe&fB9J$Vr?<!S8`X*+~DXTokUlAeX#eS$U;fg)KJd{^M{+RRS
zdy?WcuMD6m1V!tZDQeO~Nr*3F=kNKbvW)y+tTLy@Rp=q?8u$LBEd#I5kss8^{REjB
zY)N9(fx=9Go1>Ls+LGs?!}yBxTqa&kPRX@7{yNr%8YTsiFAtIxByRnlACqJQ1n&Jo
z8V<loznBGiR`Mi0<B>vgT_*3+nj0edvlMWq=C)8lAlnWb#>{_zx|luEA%{loD6><3
z%Rc3rG0M0h)`<EkJGm~<7)(A^otF4?L>>9${9YW$>OJI-kr|~@eDBYeEBjtFM@x6*
zktdFv2iroHMvIpf`~-5NUG<(Hn_>I*1mZPkqwCB+*PeO?qtg_jeJA@xn<AqbzcWyH
zt5ohOm;vCjbZo3SGM0&_ifSQ2*o;vE&traE4$nTpD9YQ9p!Ye@!)e?QYl$}U6_F!y
zx@c)Y4cWainJ$mEOgl5*TIMHZfA$$rLas@suC365v68gQmsMX=L*iMX;BGvJ4Yy+c
zcs7OX<9{zu7;{B6yeCkBt-6W!1kZ51L-x-<B*)A?1C?@FQ77Z{=;hdf3Q7-|O~?ST
zd|mwf1N#5TU()}sTUBxiAFlUrRm*y7{{#B+qiPt2z<S}Be>mGGvJWzl#ZO@`8*@k9
z`DBe^O;KC4iFzsKfvy?z@roNHJA78oBm3k(ig4mY?)klV8oB3*|3cw0E?}0|3rLA^
z^N;UIidUqa${U&|M~36_)ByFu2=4ves>zH)E5oU+s6oCJaOPTBx);1r@BByi=7Zkx
z0e<}XYYKK%Gh(zM<;?vlqir(mU@h_^&eQkDks*{}82=3yW`{SQjAg9-0k!K0=~1_H
z_vef{`@<Fa>m4qH79tz*uoAnu%3rc-9f_J>kmUSo(ob``zdEBeX<t{gGwQ#JD#W^@
zU3^WnD>5h7Cx7{Jzpyktp~?>%Kh~3f6oHp5*V+TM3<s3v;7@;c{>FNjHKD?2d!UZR
zvI1`A<yvN+;QwT?um6@st|?NhL;nTz1wG$EF7+&z|9q{3|C?yX{9-l-*%z?NY55<4
zO6a@hohLbiJwHIu0rXpcw1586o=<p{N(n1&RNy;*|95<`=l}A{YlL*e(Y`ceweQA3
zHFwPy?O@!DF|_9L{Ursgfs77HK*g}eK(?o{a=(!)a$0%r2W*jyoNsgh>zQ3%&!T;|
z8e}<I@H`sj{)+WN3&GDj^5q}x%gN1u%OR(^<&<;XlM~T|y-|$Xi=eHql}DR~Q9+C$
z3tv`+{%h0(=<xuq^3hx0yjGW<C;#g;OFp^dYh7{;!e5SB(lf*|e@*U%?DJaZwQgX6
zu4_FHm=p3E+#AhX(ubWRnfkc%ulUO<{!{r&$RA(M59uyI6AAr6Js9of8=}4QFJ#*%
z`}oTI;jwOT!g{9<$nntk2Y^|-@f?0Y?-yQ^@rs{fLQ-8?rOY|-mW8bxXoxo5YLek0
zHW+HjiT}&t(-igRz-LnyK4XJuJIbfFXW=qBxEtCKry>nu%8&pIlV|4>XeP`7n6qXu
zYZjx*?aj0`HuPb~J@$ZJe6b?~!`}QO%-i$BcK+BhJn%T8$v{K?+4Fd&<g+Lt&z!)z
zfjM!F=EQJ@27LhhBSxC8TvqaqoU;Grkf;d#f<dAp^s{JpY#*TUlQNWMpQ!6T%-^AC
z^{p0}wqSdgUKuWcWfc5dfc{TqQ^`Jj`C<Mq0X1RMd>R7FiWk2gtxjX<>KxcoguW83
zM2<w$<iT1DwmcFpx|YUC*J{)6b<*?KfGQaSehXM5&lpO0?Y=S0yW8Lo|8p=8-<mVp
z!=M3rd3$~w!<+Jl@5Md9{)A8R;@K>m@jE%?TIN43k7f3mjr*@stJ_qo&>u&KV<XV$
zkm$1#)B%3NJNViOou{sA-7){Q9>nqF)8WV&kCCY2mP^*HpjD9njr=gkKc9uJ&}Hxm
z2BT^C`ITklr{MRNJNbZe_ve&5kRO`)hWxlAr=5B0ki{n<eGbOnMG^iIy4Qx<<k>HP
zqTWLfV^s(Krttw514T@}P+2AxzCEXWjtN|VMg~`GRyC`nI7ETVUvl^m`P-7le7n;3
zzF-C=aRXWH`MscAF1YdEvTc?rF+c#9S4Zdb2w&cl310b61LF4QpHX~C{_xoTkpBT=
z-54m$r`Z#5e+qO#KAbtu$u*ZTKWej|AIV?a`On|q0-V6^|FD=Ye_z6|mGYKHh9&Id
z^7nXGF8?Ol8*K%xlb;Xsq4zqBGt(-sG_mGoMd)v_+dmNX@I5*3;+g-#{q2_f3j!11
z1tHA=-u$7{sOZELrK@A3z>{#%-!I=^23qNsX)LTbmZ%4A4dNfn;r-?v*Yt{)hp!u<
z4I%r<IrC5b^K+a3Jvq1RGi#+LQ-U|AXMWB4<|{$&d-TJX<#Ol$7ulD60<-2Bxoe}0
z8py}%^3HK`odcR%KG`1|Lr$yNd}Uvh<rEvgc2I%>zTnz;fV*~3$JKHO9h?7(95eew
zj6&@5(&rYjLs=Y>rJ%2k=Ip=@Wp`lnf0)fj_F?Y$<^Fik4(-~3u$ic4YB%)dO^{K@
zi+TAX+P$$@sz6)paHux_Tm+{x?;Hh0x5p0eou}6hBlf?Q>zjT4tIXaG8E?dzvCe_V
zMtDCz*LDxzuukUB#E#^0W1~l)GkJt2$-gE~cDeXQm6}`D-S~^N#-#CC4iW}-xi=ss
za3oeAX_VjRGqM?SNUj74J9o**Y-D3(B_g8rGEB(N*ltd-ia5mqJ$S~<2R%qGR{!z(
zE9qxe4-&QX$|ZcLT4ppK|3}smdYbwh=X$wl1Aig%nq1$kw)(Fg<JeKm2@)LG^W!U`
z2EHuvH90tHxYa55>9wQNkICVCVGb6k)Yp#Q>dL_9M06rQHy<;&JA-MCfuDbDH$Ojb
zdnR|m>?B}zau3WFPJcwM8(Q|;vOoLepFns%n&hDeaPh&l14rA89%;(K=VrM#F5(=F
z*AS&f7$j5_=#gg_+SB`GRqS~F@*Y4{9LH%uA7}$jE^TmQOwEN(?t#gJzjEgE%XR$M
zf=PM4pp|UiWakT;Q;@?}a922{b31VIY9-0%l6q{~Y_5Oy!sXD#vswAa!#r`_nUv3K
z3Z|p^frBZ#k-#f7f+UlPlBf@FXPQ5xD|@woRM!UWSCz%ZS4$=T6XOq^JoFUat(go+
zOys__5VrhJC=-&gk|9F3nn~oOG?Gwd5p>L;7WFhlZX|&gh?r0{AeZ?rB`bjZOK>)V
z<V;~H01s1`4fABnf`1VXq=+EPnq!a=GBBAgNNb#u#7iWje+pgF6500SWti%X@Gu9$
zF*znyS@aDBK)RRez#Hi!4xu?7hPpXc@CVi7a{)WaNlA8%?Q%2RnzUjW3D!`lmokQL
zncP9D8VY}D3y`Q=_G_wK5~IwuW0}%0UE5UA3^Z=9z$`N=uFVWnsu;~AZQB|C%GF|7
zI4bOy#Gd{i)Es@y8gQ3du|v*#<lLiA3ML7J(P2UC<4+NuDk3>>67fOn-=^4qM~+C&
zJLHg5lDlxvr&M{45E2B&SmSdfk>nslTK<@X$|w%g)SE@8W`1<W-G#rqv>B4^Fg=CE
zHm1Njo{5(A@c#Va`Q$Wsvfq$Rn(^g}`vo?)Zj7kY^XoMQi4?PbA`vQR5i9-eDP?4K
zmpHw4m^AjDyTp%NJ#@cZ6iv@xrr+ovURZ*}R(Qmp$);BgF{vIDDCya8>Tc_gJqK40
zijJnQ4*mYndgr%?zA=>SI-2M@3Q?K{$5(Z)Le!||O?%JVo`df*8RbumDo53d*9!O-
zkPSrDnVsWs$|!lH3Bm>gCh19GI-C{m;!6+&KwvOJe!i3(ipbZJ!@2@y%^@RrnGXVX
zXXoYsq<VRFkw!ZI6Dn6t*8MQ6^JJCMG0T4vV6%K7$yYKv1FcOMzGDK2X>^cpDyB4&
z*=HqRO*LwVbG33fBcCSscM#~SC@s!7k}ALd`&CZ{k<mEWvp9rQ0HB9z&nRR1-H$^^
z5ysZlq(q!jgm|VDt$`Xh46+*0TqY&Rf1Z4d%w=%H1R9&B(?+YMOsAQ;a>ghv6HJ6u
zog^!$r}PKOxkAn><jj)u`*2dWv}R_uDUz})bV8W{a{f;!>LH4%J(N*phLuHX%=8k|
zY!35&ibPTZ43{#I#*`WM6ksKgPwW0?K_pd1*lX9w@PAEdNsvVnZ6whZ(o4;n=4G%&
zR3zVnu}K*u4SmuJXR??nbr2{$rGkD5@1+rB5W?UL0<BOrpU%}lmGP_uexp=a2G8)Y
zF>r|t>!%8_9*_;}R5@%7(v)L{_0w|v23bN9!yF0)7chz>usFo>l1+){U|A@2!>}Ta
z6aPhugB3_h2UIK<s0qU$ctn!x1Y<}N?o1gmmogbmlfHAEEE<^&&J3Tl2o+Hm(2SAR
zzX~~l+y+`!EOKB*Ff(_~ve|i*ayUWNRnNmfVoFE4-15|C*cziMOLflhe99}srKBqj
z;n!&_jSN=UEJR$0;-;sgBt@zwQCckI7)cm0&%`CO66|sSDu7Jy!F~s<3#?F$I%z~z
z;meEsVS05^1uJ(g-WVjwnzB){Gr=Y|w8+mbxld$unD`%3@)yYY96A4<obQlB8$c*<
zqkl<rgU!z}Mg~nwl!RnS({OH%2Vl%WU4z+WNa+}0OQZ#4g=LXi3Y9QWs(crH0>yi}
zY=OS-sy=^!#_#)734?sMfh25<E|LSNW8@Ko+C=G|_Zn$rBqP-Fx-N-EOBPur5@?#R
z23wR<mG@l+!R~@6&9s9c92FqVjBJ>^3a6@Jq63{JgP62P6Ht_8!4%L70N^Ebbcfof
zCPFYRN}O&YKSJYMB2OYVb}6&`O8LWr2&o)NUsOO<jNszGM;YqU?PB?A*r271YyvNa
zVbN2X#GnY-0>%&<TaHqta=)gfx>>U^@zRr%5ihACHjKbUDCRO*1d!%%3B6>aGKvRR
zr=-aqC;3#=rebFGK@v7sp*lq6VM;Ke_Y75&o=+*`xzKLS7~V%2F(R{xa!U(z%S|fF
z;D6lVfiVgO7!st$N1&LNRwyFF4<K7%NrfO=lI(_b_GOT@>;-ng7iS<8PS#IJ?7MU~
z!19$;vMy&<rOI+%&?DF@pz6%Ji!|%lKvc4saUVeqd3^vAgDXNa_J7SE6F=u~BipN;
zzdjXJ2pTf{U(3=Y(>)VsuKQB=D+4bNd~s-_y5+iFbPUFeYQ$RWbpynfEe`q=uk+rV
zS#SBa`y1}-I?-ldnO&WPUVFT#PP95!9$S50sPBXZxoD}Uq!v55WK)%_n7*@r{LT}b
z`%gha+E)7Z{!_ObU{K&qV^4hlDd?$}Savvsqofw^>SJrq3r&M0qF!rTsa_otYW&wr
z-_cbrpHEh~g(~-E>xoU>Nzv7obPWlvp`>eEaE&Kj69WG0o3>qEs8mAwx(rh8?)NxF
z3G5?~k=8-MIC#5n!w6Am7^>aTa}L*P_1cio&>M$sRH|o#pleu#saF4%bL4h(!+BiL
zH*7nhq1k|n)zz<<R&_#6>-Exii#WYyC6cstCv4r@&92q6Ym-7#A8Ndf>YrcN3C%-s
zy+dqhUM*Z}73@7ww%=}YlSv1)PFn$u#H7KQfSChFOVZIVIG|oupD_-A+BpaAaw=ze
z+-Tpa(rYW;hGHl*;JXvf?rk!KKxPP5AKx&w?WmLk<=ZCPyBg(y{idGe^P5(lS<?x&
zu4O&s|7#m0s}I*pw>l4t`r4K8q-9933}FnqiiM)K>m~8(ww<Dn7HgZ|uJ`?nds<uK
zU!D~!s*)8gLPblwqHD|5x;B>d9uT|-He91|Q<GR-o2>2<s=MOVu<GExb!NRH*>OVX
zII-b7DZuc6+5H|FQV?CON!LEXwGT-MeC)}(9-*#h{rpDV$nrRB5?CFpLvPi$tthsd
zkBW_stwt!xyG54=+W8JE8q(|$J$^{Vx74oa?p1LO`^b<2<occMVpIF-39-?OY@Mx1
z$56sC1ORG)&V6^n-i>a)SD|aDUD3R2ffbA`PnYQ5FLri`z7fd(w^~;YeQ6RyZ*Rij
z3AXM#-Emv@hVAHz8YX^MBdh1u#^ctGO>@T%ZeFss?;MBLg6*Z~=c3|~iMZMIV~b0)
zyVst)-6+8Ju6>_q_pY6Wra#IS?A_~+ZrF$Ks1x?_?Y5!Y2Zgr%ceFy=u|(U$Z#*5h
zcz;~iy4B=a8+xm$Z&k77e^~UiZh3m+`ybl$JS_S;#Liym1++D;>Yy3mKBN#^I>gpt
z(c3Tj`qxf~p6+|P0(ax82C5Iv;jPXgvG<5LI3)HQM!UM2R}cLGwaev8whRj`!*6uQ
zTZT7U9$r<8F8^9&?cDl!ym?^LKCt8Cn)`SBm}bilZCe{&x%lOa%ZEj?^%ecg`sGov
z(ZBYwSKF2+x2xT24T);6Xtr-xTa(o-P-9p-A^}3&dt9_Ny>jj4YjN9P-26y<_>m2`
zwm}BY`vk{6vDuq!?iHGQMR(iRZLitH<~Ff=DA|2f=sqg8^(Na+32mofF4{SAmn(4A
zzFY)Yb-GrHwyW!;qC|K9?J~hVv{EX%`;zVn!94+QQ_D&*nv-<(Z@T(dj*1pf($Xnd
zI@kL*EyJRvdCi~nObVXKgy+;7ykI%?@-fUM_W&W4o@Dd5&^*4P6J5PY*HOWB^yQN6
zrq-`M@#+&R#ZW$}Z^8J(Y6EOMi}tSd(S*Ghp*0Qf7IS9TT6ePbK%(`4X!FHw199^J
zT+!AOw~fZlqi~Vu`o{#<z)Fee8@n?q_zuU-9<il+{VMExtmuDS=M&oxe*ZD41V9U>
z-(iLIT~66y6)ZkXhK~N*1<C%SLjTc?_KCQ~C-no+uvpi;){>~}*z)$@sonG*|Gg71
zb-i{hQQs@tnv=Hvgsp$8efZAR&Gys3U$Wia4ad^5Hk`2Zy>0i2c3;xoFWCEUTQ=>7
z(F>l|m182hqGe>WWn@*g?QHq#<g1hG!yC^1n6F<idA)=^UMoqu4hXITcPwwZPHsE>
z>kY3y^y)F#qj2rVINAN{^$FXE=p9IU_Y2<rcl2+}Y<M4zpE@mg&#Y=uop)S4TWtq6
z+75~xLt8zE#hwvya2WHt*N=JKwGWfp?SZOGdoxsBIvQUsdAF8p^h)WV8$&4u$DxeV
z>%XVbP|QM#sil}ZRa{5UYRR_EE7<zQ;RA6yI)1}Gu<dRCy%T?1)42^iW9dj(Iz(sB
z`b@&vFFL!E&O?IpkZA8jmQ93NoZWH9{<vj7+-;h<#|8Uw(TODOqSG%rdy!UjdVp>P
zXZPKbLQ>1&>ODJF4v}pK1lxfvd&^n@fKYJtqikerX9mj&0d3fUq2wZ+ElFp;;Ozei
z3T{Nf{ljq>{%HWBc-zsw{#3H(Sfc0HcGm&$C4{b{tH;rx)e~<y2e!L<e*ZXz3uZ*v
z0wekcZ%+xnBdf(?TgR$?+eU4}z<2J4O3@p&o4&KaB<SC+##aqcZt6Oq*lOwDXn|@|
z7b1wh!=!PfQTdxuhgQ-w>S|myz=+7cQ3dNj!9MVgw}0E&h2_NCcu%GFSyxU#gTA9@
z<>Xq&2Eeh#o~-c-HQx2&jhew-vmguk8E_X{NAENUt>ZwKTdkezy~(aIp=)e|1)x>+
z4HzQ9(h;}7mP~q-><$Tei!>gif_?OkBYE&q;ozg2_Q$rn`Y<EbW&}$+Gnn3<sB4c8
z9DAc9F>vC+<Ci;frp(C2M^C+JJ1zDN<rxU^{((SkyL&MdFgMe+as+Q=c4b1aPl%oS
z#g2ZlZ9p8F6g!UqlQkTJrIvz*Mp%leKcrYW5l?r*dnT>{K-H0SVwMd{9>F<$`xGqb
zB%KEZ`hRlU-UDoBAB@|3#P0sp(lx+z$9pi`<XH<O{bL*cG12CU+j`^XUbv#IEp8i%
zn}^_v2(%rHn-9VjZS8T}aNIl$_r8wD$Mv#=t?R?}m_4(c-Ve<*jdnw`*gcN^%z^2>
zUHK-1>DA+aDR~ZIBsO=A#5PSErbg%L2Yzg7rZv42=-1gHPnG=HzDncMwtt1J0y&3n
zcO<a<>>G{S`)(`f`hfP%)e^C%FK+J?eFK<5onxzpZEs)FdsgtC75zg96<d46u0!}D
zwgV5g?HD*8+1)9kY4C12XZNkwCp#t*9TVxnN!UAnT;tv~B(AQc>tVr#CB08{_t47S
zHcE7dw=?M-7Q7hvR%GiwMcI;eAF{Q$*PcrH4kdhKj*2E)!r}vn!2(x}KT+csUHwVd
zS;2J{ii;ws4okCW@rxFpXlYDZyn@9G)a0&xxdeo}yXW@Qrt2tjE#hk2YvW1pXu>-x
zl8G;W!s_2OUvpP2Z~sc^>c?O>N$frpH)G*Xfb0R<@n;t~bMxxQHq7p|DZ$)_C%#s?
z))X5i4@~4VCp!-cod*G(f@usvpgzn^agYpk4avGTp{^}n*Y~!?3DolXN#K(LX86mW
zsP?aSC%X<Ox(<Wd!-`qw!W|Bn(`-Q*6}+P_V~z79>w6OQJ)+nD^&_txd6)RP+n&Cp
z=U~Ef@U8}LFxth2M~{BQMk8ry6D(~KaZAIA6$oo;RdQfL7?{}TI41hLlm3H({~*y>
z%^s{}^~3i#QtgC=Cy+O-LUn7ry6YWAi;9hHVv`T#C+aLynD+pUE*a~Cj3P3#thlB2
z_jIsW<m&|4`*vOPR(sd_WU~9T(0zKN{Y?DP$AtFBfV)6QID04q=jx<1=Qr$QcV-gy
zBil{Q?-p|Pjp(|j=9NPzkFetj!Eyp?_u4a9IO?tM0quCV+uA`uzGL_7#UM0ewvf9<
z)zAn+0@kK7i#{;QP|`jw*vFIhlY;%^=EG+&cO6!!xOVsD%O~kPEjUkO@^v@H?d>2!
zeH~vv_S!Mg-kP+J2=<ZNmj(NwGy-(Ct(PMv7DuSGc7bkXYeqTO+MDzo7d*$`ctr4=
zS(yZ`T5kZ_5&Z-4!Q=7a<ME;6asP=`9VHt|`VI=dgLj7F51)>oePqM;=*mez%R5+$
z{asrf2gP0@13Eo_@9BQcbH};n+3*}eNrV~-X`RwC2x#Q${i2<q7plX9XC&iWAmida
zlW&YBdQNWp23|gi;s*97`;RC3kFOR;Yfb$0M`&ShC5_(+1-2mau=g_(b5L*%BGoS&
z{|X&#PIhXsP=elD>wpoqcP#y4T@#QkHU?sY7pTYT0@+?)wR{Lu-V7k$e@7vBfwA3N
zpou+0ge2U9@qH%+_es$4$WZeo9l*hYIYc*`+>XTS+BfRPm&Y;jSG!l6*VOS^-<u}i
zd#8+?&GY_yV;XFme|``5w;C<)aT;w!j!~?GoBA<kW~fi7==*ck?a}WPY*g%rMI2M@
zO7}|hsybfYv;pfw<<1Sg6X|}jqeBM2xCg@~HGA{gx2cz`fBjl{eXvtYd&>9Y^}ctH
zS3skA%h?il4Phya8ymK)Ezr&uoBPCu&UnvZp@DWXw(?~i)(LELE4mXE-NL}Jt^VVP
z14tNvp7^Gz2VmYbst~Ii#5ym-j8?JMDb_YYRl5mW<_6kJ^dueQf@2(p=hn|+l%0ow
zc$LzI8dSY4jwRIEzOIf};g*yhKtPi#T`PUVR{MYmQ+<tnV!c1!aagFQT6L7h^_ES&
z50=}&NiZ}g49&DD7)i8_yi;RcdH$`M*5y&mbBkwf=39>S&_?H>g#Qpqu4!2XT6J&R
zy5l`Z-zXD$U>NcE8%N{ykHBtRr4=nD`+hBgsYSB#NA}|EZqe-%n+It_Y;^!vRd)Y`
zD};@r60X+!{yi%j9ksUkovit@iB0{nUp3N6J(-&N#f}z9KLCgs8a9jU?}vW`{?R8!
zn_|_9@3xd(Zcu->|DX>q-*0wbZsz{d=y_&<`^!Q4`~y4gmf(KSsD93%{6VwgIeozo
zT2$osoWzwb+@@bo?ob`vH>>}rVmyA*ph3EyG;5#fRsE!G-!mPmpL!|eryUxE{Ipj^
z{sHZCTGh{#`<_#)ezu>!{#>m=$j`O(_2+s8O8B{9tP9!wqf&vOe^hB>rK*3__s6uV
ze^OI|f6{6Y@=v8&_;=~5(-Ffb@pt!FxqM3cFVI!T9Uu?T*e#A0$Fw)}ecX-0UM}<q
z<RNezDgE+E)Ix5@#3UcIa;)q#kkQp9Yv^ZkER`UYGlm<?=JTY=kr>SAw97IU%&IyU
z(|ueAtLp5Tm5zvNCE0k$Sd$KSKHUw;D3v|}MxpeJYUG?_C6Ja>G3)Ely4?HA(E~2U
z-6^KM-#M7RTGl*;6BuX`8|JI-{~j|U+?*%84DBe#8Fij-xYJLO&uY+%-O)0pp_#eF
zlxb+vf!v;7)QEfg^5*eCopVh_X0-x6!m-;o?0d4sE2KqL5r-Te&Di95QiVRCTR7+j
z3_9!C^9xH_{@i@?o)36^aT4Q}NA@hM#~!PWR?oZdPYFv*3fz!Tn2~)fkCx}tl#f+L
zd~#~YHJPH7h)2hvdw$ToPeXmo94g(L2KTg}mGr|+6djTe65)n?dh(E2s)&}qSc-DG
z<(Szg?q4hp)gWbWHca+G5;AW%Bq4S9(l5u$KGEZY**Dq8S4Q^9ex%C-oAMlBGRyjm
zR9Q__Kfhm2nSJiLWg?0(JCOY<`}of@D+r_Vd-lm7?_l;__GPUs#cD%GfOp2_FTfT<
zF<tidhxrNlOZFKkm0R&3Z1myq3dvCB!7a7<<m=Fz$Fnt%ebCx4$TD|K!w9qC0ds-o
zz9~c&K1})Zf{hC!yGi6BIrr?7-GD@Q-8`HPlYI!yGru5ps*z%_dRZ_V&SX*)L^4|2
za_#wo$fNT2kS6jG*&ic27I{hq#O5tGJdjh4BA?E9<ViVix$H36rkIjLv(G>|({nZc
zvN;J^`~RFjHUD^ITFxtf3>k{DHM$IYPf^Q@r8zehW%P>EmgSg+_3j!0BUxaH#hSLn
zq64n5D!FKV)QWpta4JVX*kLJw%%LVNw`+Zt?mMyO;vTf*x%~Cy9}tfIapBx?4y&N;
z!_=B;`P2c_&K|Ypo9$HR$SkWa9E@+Cbv0_wr}G{yxn+{^WYm7EQXW~k^_Zt6fhwjs
zUvdLF%(?xC-m^tbkgCpN;d>A02SfhwfSL7!AvagT_qn(`^dqD_C$}y8<iGfUJZmUV
zScu6BnJ>KXfLRgAKP&hPQA>cktbnx}NWMH6x-kDOeB0i3?1C->L08UwUDiPDtvb2C
z0cB;s9Lhq6qm{7+=#3e3YLT(cA;CCg`w?ePEgE+9rXvSK&t-d4_60Jt2Cdz*3g_k%
zt%FqsKcFLTFQd2Y5Bes-K4L%|2KY43ni|m22*w&e)T-V1|NGThb7N9X{g_7plK;&>
zK@8SeV6UYfR#&VfvX-{j!u)wH5ZL6o8!ctCi|n<q*nxUVpSFg9d~@)<BNCD!K!!-(
z9I)rR%Pi0UT{1@=y)j2r4=mM=k#j~JQD;6|3i+r#xjrPl4(aly{3)j^<@(*|L~m*H
z-JF)zx}A|@=8q-!POKT<pONEcpRiffoHN7n#*y=2c(FNak0H>AzInjT<32sRmK+_Q
z=4eY4e@uekA>(6M>fz?2*_z2dz6E7`Tz<<w`MSu9@>~8G&<{$lYEjqpXeO>JS~#7d
z^&-EK30J}1ks31muE?h|VcPl6$o}jzlWTt3R*%|5vaw|!QL^|#0>yiNuq;p{1;MgT
zUfl)kY(9oB%X<>y6<-1biMX8*mS$p3%pgyGn92u@xJ&IrLvG9y`t}22=h?0BuVS@t
z{qXTImzGd}Yvgz2Hb$-UzbpH*&p@+0V_|Wm_E*Mk$%)+&ZOunb<S!>5^#HvN*8^gI
zAzMS)huH2fXYQ(novM$)wvs0wj)}I)5Eb(VTBBa1^g@5c6ZN2t|2HUcANsLV&Nutq
zHE&JXaM>s4dJ&RHuzHnursmI?FlWA98ETRj3iE1ns-m7K)jZ#tXABsjZ&)DJl-&$C
z13c$GBk7R%ajDtZ0*TPt19M@Br-hiXnWQy>#z2}G6B`2IO!%9`b9oCnO!Bgxe6&Y|
zoP3z#QY5G#{3r5bolXnDk!&mM)8`50J1Bu9BAzOgt(|5i&PjMwD!G_^I*P4eMIA<!
zSdpwEOwMi$#iR^ONKX<A#J%HTzEMiELsj}esUk{ALxKemhLG#a@?c`Ptme;B0@@QX
z4FFjY;4T8LetehMxGZi?H>d5soXGC8&qC%9DkG3^4f2a~p`d;493;{q3u>2S!s#Nn
zv}kWI;J2S<Le!Awv(G>T9oN6j@Bwy5QjTo8Uy>^Pk5o14(v+fjmp%pYCc5x<m$rZz
zeF`mRJoG679Kl;!(?JJK2L;n4Qu4>pO(*#TKBB2E>g;Q9ay1=z4+5@^{c7pF-JOs}
z!$A#T43lw3rr{9xJ|c{ty?tiw%zD+=o`CoLFp>SAFqA2FwTl8-yAH#XX&0IkQ)D@z
zpmqpo_x$A9nQnKTtl`18ph;-&A0fU3yXm$+_usAUrPOvi%1di^C>_Obw~wx#yD_$0
zAl>1T)Hew2qv=ktH7NKBREF=Oniff*%M_Cyp*l0|BuU0TEt8y)mVXi7Q{@+*nTA2%
zP#8BRrf&#iMwTUMZiOqQa9>q=?N>{lkOYt+L>eBnrxZ`|tyJC#zK_c8hm$It3111#
z&Ml=%$LQ)f5?N)_fG2#+f0>*=A?G|fdUBYWfR{30xFaLq&qExI<3}mV1#-a9=J-hp
zW10))_lvqq5O1S+Y=T<I_Z}Qc7C9qA%jDo0&KRZahA7$}lS4E}UX6+}xv-4bGn)x1
zt7I=aD=`oGb|{?5BFQ}A8cE}$k9=NoXujnrfDo#XAghFYe^1U!<oq@{V^qO$a{h^4
z&ysJMoEPbJKl$ipR-X8wJVCr9X6_{4Q}p4Z<kZoto1D+n>les5O0Os2qzW(0gmK3k
zpVeXFA3+Sa|HDev^V5i)(n<otB)Lr!jlV+$Fvz<|uMDlzgki&+(nDA~qW~ufx-;Qq
zCeSY_6J=M1?^9MZ>QdV;Q!Z?*K1Dtn>oh_q@n)cNT*tt>@riD~lT{g5D9QCN;yTJq
za7qV-6nVH(bx_MdD_}i4t(}oGu>7->VSyxxp3*byC9gz5`eY(;=(HvfQ;Z<{=#pj&
zROckko0Lx0tpY%$sxsApAa{6{pOZ9ia(aX50x%izFi~{Bo+z~>Ed8fQceVZ3MaOEe
z0K;uq4H*8(BP#9jU)S!a3$?vWidIo#hY+pBc2m2fg8%12z3=Dm&<!t5f}siW$XdvD
z(mhIa)leMbJr&~#{rHvvN3Or>5~3m;{o!`Bc##wCc5nan!e1e_yiJnEZo%MQYuPY#
zURR4%wq#Yyn^i5>N#+w*vI%C_^$AF9yt4o0{nw9+^$pigZnMj15|BAQBFV4Co#SFP
zuEA=H8;`|1j%~oLZeusjkw~wIQ``oh=<Sk(L+O>SHk%MyCLkAO>4jL7rTivIcv|es
zMXW-$4TEjVHE`R#0m*G+)3SD@Z*^28G1K-$HIB}m%M;QyZbAiaWW!l3t`F-J8avkq
zHX8RqHnpie*)%3J;byQ}(T+3ZR-C0akK>3}-CVVN5@)J5U((twSi6^xY+2oC6rxZ>
zM@P~zEI7#gwyo;sk$a^$LC<`pv*)ViBM^IlSXHh474OS9U3Q4|B)(kV8n^V`9!U;8
znizT%B3?C2rnwPfE{Qq_VRKezvc4lx-?3fq*d{U3PF&5k-7}o*Ig#i&@ufl%IiUN%
zAXXed^Vq#Q13Tol<L<ndN^h2~JilpdecNbeT|-jgJIcbc5wWFJlH`TubJ5qG^i2r9
z35c`0_CYk<g}cC<KgU71*$JR28`(0|N>btRrem9?$;{Y%YxZ`-H_vU<?Ms^W(M48e
zBOjo5ntPK?M}(#$5CeE=^5*1PHCoVolupQ-%jvQd3<uh5wq=In<^%*Qm$lR@tuMDO
z7jD~el3b5C5MOURBs3lp%{H;tK`sqdztGq(iD974fC0y0<Xzx^8F}0FV=IOCa6a!}
zo7)_i*mNBGykYZUlEZ-fKV*w=6z)lwJnK$~79~0lZsAU~XOp&0!PdFi{phCYF?I<b
z9hR>RCQLo=)Hbbk-yV45{ATT=pDTp;7rTovVRUSn%q!KB#Nvj@x7l$<FrC@1ZirX=
za5g{x&9*zEiOxfD<Dq!<p{?2`TvJ9sYq7q4<kW`k^mnh`DSy>)yZkNt@OQ7i4<R)`
zOI<ngFXhT>l4Z_BnRBf==^hr`!*_}k?qiT*iW?yopEvuzX=q)Z5KZo+sa-I&zin>W
zf@p}#n{<r`E?i95^>zPikPaLG>_LVUBSZG)YhY?#i_?A+SLs<hC7Aqz$-Pqz5!riY
zuCAGCYq5&9Zq%98>}DZkn5ycNm97M2vmm0)gmQZm-U+lV(?5ts{qs`E=Ssv%3nB}M
zd^l0rxqd#`J0bK=#CuPPq+3A!&pghA$%!g8wXFx@&cTH9^q+_C41VVt$@%U-4Ka(i
zE9!G6*SmVIrQ@y+(%g{QYw1{3-qUjRO`^LMM)ZHGQPo=^oYvCuK7?UlN?)s^`L|=|
z93Ghd2N>J_plkKnuM9(0$N_;6--<3L>sB^1F<p&ZS@lbLs5vN=l_aKGRt{-b2uRB?
zuuN@i9e$5fx0Yrukfiz1l>;||spmZvg0^YOxC9e=K`?a!ft0u~_3Qe?D$7d?Hx~$&
zYZ`uB;m2&ZwE{K~y`m*i(E?blLjSoFmG14zIwp<h7cBnmj($l-@OO`_9F_$1Hch@a
zBKN9G>PoLqLVCEw^x2c2KDjdVmcC_Yv4E>~?ObBF>J5KpSRC31@sb}KEl>klwX8jj
z+y4Yp2QGnJEyp}hSF>uv)V@BRF!gUcaNB|4=vto;93u(G_?<@RiD3DN*LrS^ZyGuv
zh5yxoR|f>PMcD8@vf+3H5&o{WVYz_Bv3kEf@{N&X*M!hDk?4Bpjnjhd;blF97MBYM
z8NF$229l{G0Z(I%v~<J`J@KL*xLX$6sy1mKgjnT<Wr*qan36i5p!3Cb1ERkE4=Pq4
zmoUpl!%;zh6gXnb)(A0oN3qyGkZd1Kw2wk&%ux(XV=s;uSs-{*Rx8%Fiq=lC#uN9A
z3N@n`?6TtP8bF@jnACX_I`4W-vg3H7<M@_m1Tdep4hU8fx^6AKerOYYSw!M@Mdr;S
z_d6AC(NIHoXO^QU>%{WvElbC`JJ~rYbWUzqj&J*WlK#U9|KVkA(&$MTJ#UO}+gwT8
zkYF3SSE(}<UoXO)PE>5;hOTinl581-6!jMCIIDeGCsx$FG;(t!S>aBgq(;|Q{jd5Z
zY<F`~tgL(Kqc=aAtn?=;{oB4a+(IE*ov(ym4kfL9o7TP+<yKweYUfvnUL9I5c(bnW
z&yQdhzcTsq<XRo1{PxkMoAq5u%Ya}RU^?rs4kaC3802_k_xkAi)8D@Mjf=_NNuhT#
z-gEp7NVlG3vVpj|%+?RY)a?1{<F7s*Z#%Tnba?qBWc$`3x-@#HEZ#V_Jo&d3*6o(o
zIBqVju74?dGx`U!Ywo0HNbn48G!G}Lhs9P%G7Sr@!?z#(izol|Nul*vvh}RcdKU8A
zOxtLWa8j%29$@+%g93>tp_!71(odO)QX9d}0SKd+uN&SE(>~%8_JBk26=e_ihw3in
zYl@D7KT>rmzozctzM<$+epAuIeM^A|f9yP1sQPY=65j9D6_MXjb5N=J?y!RV`!opu
zo>Bw<_X>~b@bbfo`iTzZ58Em24?DESdNe;A^dD>2{K%z%|3~gZg#V~rL;jxe2E6=r
zmGPk#<6k$A+wiifF`cb7Zq^*9x@`|u!ToXBXe}Op>mBXGL!!BvVs%Yg5&eF<6SL`)
zVKkECO7TZrgu6I~q08XlN<ZwbDSXdwFaH_mo|?}V%&N}gJoBlG9LG+ZHL-%I5;k0L
z2N?0l!r8mPrXrcL!SO2GlQ~{-Bb8)<uRyY047+gZTWa}i@Hs`SFamm3`pI$Ui{+5)
zGoX<<lo8sIv0t=s9;at}e}Mv6I?mj_Aaf70r&KsoTU5gqV5}gfIfGUz(*9>TckxM{
zab|8HPj*=n_*KLvqwOE}!f*U<cRtWuj-2!L^G_fUMh^;@27lPCqMOvQu}BrBckn6A
z(^sGhiaq}tQsUMl+Tie2<d<&d4g^VKKW#1{rNYh9{I`)O+fO1}rq7SmA*9HHfW)_3
zr+D9^tQ42{Kfz0wnBwv#M7j#73|k($2PkW=<f`NT&BlF^P7;5E_$j#A&c)R<t}@iJ
z(b&0Z?gF)FEQW?mP4`VT?%(Zr+h|!WTYWOo(6RpHozsb)BlqgKlE!Vw4cB)I_1&Vm
zW~Jd}b>`6^wvGc!SbK2wthH)~(^Ntf6@+h%Wo2|_=H>BMj=y{ydjoUlR#ojv&nv?(
z53d#8)~*b1)E(TY8vALb4tKelQTTgQjUCRQEq?zl2QM?3@#WF>gJlI0r-Cs!Y0!4v
zXP223BY@wRIPlyHqM8?#Q4Q{O;pWley+6QZX0~J{$iRIE=Yq`%x=~IUEh3H_?g1!%
zu`F6VpP38U+@hKL-ClS&TF7HIM73Y!zO0PtV5w4-cgAE=K+3Kluaq4m5~N>Lmopo5
zd1r$vpuUxvJDJ%~AkQW_1bp{U6gT6s_UIu!WR%OuJ|SWEtLnqeS7hVMKAaV4G4BiI
zSs$s)e#yr@4;0F^i<aQ-9Yv@vr<ElizLgkRYR;Y?TB**hO;%<jr!Ve7rh)h~>=!Kn
z_5eiD4_CJqU#%Zw_6pJ$f%?LcD+|GlNg*)hrMv2(ygtZ(lV&TS3;tVhz^<ej%ikvF
z-%)^C3Sg6;g)%O^nLd?DY&OCmjM<bbkg$ft6(gBLiT(8Fh)gQ#IT(fiGb-Ra<glFo
z1Nn$)D_>xiJrH0l_{^k%4tv_blgxhMGx&yoo(d|%&8wGop%&JHRB<|-(4e0A(=~d~
zePxW3nD6G=yaq(h5o$Vx3gG^+a&|8`Xe}ZR8{-BaXyX#wHtx|bYZuDeK|^aBL6KXU
zRv&+>uI<y4*GI2EM+&m1UNwLe6b<&c!4>!JgL(?IJnpzQypwV7nYSyvpz79&R<Fh_
zoi`6{Tbd;5dF>+`mfqz<+eUlR*diEPw*J4$t}V8S><k~<Oni@>I2V%yXB<1ul|aay
zWCL4vVY@8sb~md<TM5_1CYa5Qu@gv2tFF`skSZ-aRLWMBYMz>^E0s#Elt-k#(5<xf
zG^~;uBGSvg4>2fxs`~x^_>u&tr6cRif39<8{Qu|j|L1%M17cs`iLWWu_sfxcBlpb@
ztf`UJz}u_7v)KGlUGu_3=XIA0-;w1T>Y>3qHtZK(YaCD;2ktm_7lLgueX6gIchm&e
z8=BV}`m#_6)M5DV52oH;3-+tQ{uT48d=i5)xij6^Lz}w%|MWMfCf7nkYG`Ps<zX9k
z)2@cbR{bAhC&*g!u-ZJ#n{#>!1%~RL*L$d5)u>mqXgK=(eGH32>8{a7t`lj?2|h7&
z*LkvNBK0AJ0%E`OkFit(HU)?nrQUNP4jhHJ1A8LiMI4mL7>wW#-Frn1^CV!#2&wLD
z`7Z6lWE@~E3vwP>gHAVO)DyDD<Y7#5P(gXi%)|^14#rV_bR^;x93l*bW1&1!N9J+Q
zk^~)eJ(7TlX8Lk`0-#9IE?XhxM=^P3dU62?U}3{kqf}}<A%FX{JcsiL4?}G~A4fON
z<tOBb5|e>W)+t9gAoq+yX~<Z7N~hdJC=yM2N?m^`BSmaFatYdblrfEBQT5z8&n<MQ
z<Ib00xDoksJT@5x8eB9!PS_L3f%hp<a?xOgisKdY-xduLnaR$h9b)zNoA4;7$oVNb
zU%}aBMjFN+vp7&<DDf&NN%u&GUq_LU;VPPkp1XZ+OPHMfjEW$uZh6ZD-zH%sgj9EE
zOM(x)&*~J_9Z3B!?e5d8lGVmM%SayzDX(`OOiesTU3Zpj3A+Zs#!|c*HSjVn7|izN
z*J~VCf?vVQuyWm`WnfUYgQsaEw&y||nyu1t`p_6DFj4t$DM}59k*oRt&vliIJ9{qr
z0>8$$qKi%@U;I;nJx*PTjei2h16#B8^Ew#(%FG;CP8UGH4#`E>A)S{CCxF6B%Jw3&
zjgjo&$1)X}1q9PLF}r;I3eN2&Y0wKG`!88hcS-|E0^{5is)pE{n6W$)-V+2cclc=W
zndkL!yg75=62wP`LSz1BPA4Np(ZB*THxIZ?_!!Jr3F0G&imtQ&2*Hb^`}0135=K%g
zeiGeOQAA?;Es4PIP%1{)HQ2%f?sj_C9J1<=v7yS*xh2fbvpPx$OMr>IED$Un5_w4?
zd|PHFp-c0vxm#6t>z0)RaNc+>U>OHacWl`?)Ui8s&E2cId$*h%S6(V^%{{8RM;}C?
zY0p;MX~b>MN!_lVf+l<{YY$k~FswF0iV(Q>QuKq2O7<3d+>VK4>AnG*M)r{rEX4f6
zkRM#)7<%K?!T`BgkDI1Ek7EgAaSB;dX1^#Lyo;03OP97|!3t_c(~CV9rV6lh;yiWZ
z)xwsQVv-#PCKtA`6zlgBABLaBL2|J+Wl0*u@r6NY;f;P^Mjc9QLiv;y*p>*tX^tKk
zK`EHPl;Pky9HMyH1j(1s4G<Pw4p%fByA1hGW;~aand|88cACS0Ai0pdf<+TMOk|k~
z2FDwp13VzXaABbY=Filv;PxqQK)@uBz;GfmnQU_^#3#xmIrM>)FG=dS6Z$=Q>60>m
zn-V9ArWHyRoJ{4L(-T;XF~*I{dkiG1e1*LE>2e~UF=I|FB*Fy#WRAw>nXmvyDoGUA
zNBIMizC3$YevaV9&Juz?75O9v8|1Y)LV4ns%|TiHk;M8NWJAwp5p5k%;OScjNkfNo
z+HqPtTiUw+;^|IXy3?-iCzZkVL$KELsn}gC2iF?|>%Qh+Onp9ezc=k0fI{74yJg1a
zIBUgcuG_99Gq%V<OX+D{p7_nwucjVVj=<z*aTnsyCIB13+xiG*w71qBRiC|k``t$k
z$5#ed8{YWZ!5aYEV5Wf@(z{v@JSFcFZ##CuKJuQsMQ6)9JZttts{K&f-nQP}z1BXW
zwvXI8x74XRS~gv^Q0S%)b}UaVhtsZ+v}Hu^eRIn%9@FQ30;kP*{(M_!#uC=Cw89x%
zI1KE-xye{KoN<K1*MNLQ_*>zyLK+{Xog7|uK%B1F$azRS@Li(n$f4#%q4q_$l?RCW
zk{nu{K(h>h!HrMFz=%<OvBMgLOUXF^>MDPygnn`uqmPCKN)I_~v!@n9=_jX|oE37&
zC<~ah_;^yGok6UxQE2Lvah(B7s1hIlfc|?dpy0Wbz7&E+M9MKrPW=P(PR1G5&E2%p
zA{++y&mum7XmL{SN=7L?Iqy)!*LcN${g}o?hmWmy!0y<z-qf<*I|L)vx*ie$+E4RV
z^LqvfC^!L4B7(Yspk`(gmWz7L%A`Xa#NJ%h+o?I(kMoJ^m&WccYA*J=MayY}R>5>7
z^tGCY$tuy@rd2apBkFxxEt6iDO0|Pb*5SZlt)9sSQFCyq_wL8qA@=%2ONZ9Tq)esw
znZ#~rzZPIJ2rL1O>#l`_t^7p`hhi+&((%mvu}SLRtbnec2)t6wp{3;AiyDVRlx*H5
z)6&?IRkb#yF}bl0uS}`dvso*rzENh9I@5>0r3u_0Bw&w}Iw5yumCuYesd_1(3EWmr
zZP6`jLbyiZP$LmlE48N*n!s(Phi?!19(o=|A0AXseXvErxg4OhQM}hP=S73mw^>`K
zNkpKkwScj@dsQ>D*CMLDnw3c#;5jrqlRzTSKR##1tkCAVb#p1Ix|&jNU=pfY+p;cB
zc+&KJyX5B&K?F*#Z(Vk(b^V%|{d)0CVyCWGvoq-swe{)xF16-}=H!5KQ6+0GCf%a`
zm{!4L<<8HT^>El??OT%M<p&b6^MUNwAIPNsKqhxSkOTAwGO0h1Nj#9w1Xry`vK|f?
zv(-qp&B~fPiKR1lZmN|*O+vtqZ%951Ro+Szz&2VnJ5dfWOu9UvT7y|9`HzbuJpe>_
z<{Xkv8a6#msUE<CX%hLUv`{L#+;iW&JfemMS9;aZ3AN^=X69JEbS7=0sX3LrSEt$8
z>j0~!dOts_aiR1l$ypc2%p1xjTl%&4vjTTbMg<^!si<1pp09s}Uo%s^z^Ua~uKUq|
z^cp_vwuHOhP?DUtT~vNX&BFz92H|8}<1<)>HJ-%E!$eo)(zxEvaVsTJ>+n}fRF+(r
zC3snydnhS#w&7$XB{mVeq5PX@^JPG$MrPyOSZ2y+W-)_|hjaasLKBjVQ}4>o0bw;V
z5zAD~PfkvC#kd#k!W1?+gQ{?woT<-6C6$F)z>p>rfFwtUIfof|LT{nD-K0r`LSv|m
z@1+cRa7R54_u{0a*I{<Kqpu`yu|KbUsR*c`fXk~;w~&!viq+q+SaH&->+LbC#7N_(
z_a3CbQ!ob0!QJ|Z;$>(uQGRlo$l-1!NECMkA);E~WJ3Er8-t;F!fn*Qq0&k@+FmIK
zgXt!?@5==DE1nl1<smvdsNBI<N!m3Phc<*!)3Llt&(Dk7GBqz{*Z-ZvRPio)fSXgq
zr)THzpA(Lxa)jdkOiXC!xZIy|lu|qMA>f`%3GOU24i3vf*6JN1^|m=~OGE&2PoE6c
ziog`oOQrWwyr1*w>l|m4sh9$^QDV0)o;}7F!3f+<4^ZN!|Cu<U3{ufU<Q%6gI!o(C
z7DX<{(!-RZkqe#g?&3<uy6~p)WP)&F36pq6QD~^Ftm0EB<3y1>^I}_FysuFimJxlZ
zGpamCI{ZZ9J{+vOG8nQJVQ@VbcKn`-p$##xA-w+(&c~wev8db-^&6t+8*zBsC>e|}
zju?#F4htLs=NUOKDuv<Lw$VdjC7f1axM0{2r#Hm#h8TM)&TNPi8zQhF{7=Q;Q}Oy!
s@y@pK0F?#jg-sZaZiw&v&02Nm!m8Exqq65^->Wmcw&Z*v=+1BSAF>GQc>n+a

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_classification.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_classification.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3bca706346a7b18ae754d8d0fa329277cc732398
GIT binary patch
literal 9202
zcma)CX>c6Jb?(`j+55n;I2Xs_Ai%{*f&^(&v_%L!#Y+(>IbJK?TJ8+M1^4pIfCQk0
z!m?-wjOCcD*dbkVDs&Z7p^8XFNu?6ypXkUXsZy!J22gft0wzqEsY?E>1gJzS`H}Z}
zrgs4lj?=_;zkdDte%<fuH~a^m&rKktgzqOi!-V`2Gc1S}u@>YAxlJS@aVe7Kq8x{`
zEoDpdQJ&I#N{9-;<5ObP4yllGq@7VGEfZ6&v^(miv_0iXd!t@TJ5s*1KkBEnGZjcz
zMXS=)(du+fv?g5}txX4`!E{};E?pn3Pd7vxsGKX+m~M(TrJJM8=}<I8dG1t8x;5HL
zX-}#x-5zbHv^Nz_cSJiV?Mrp0yP{p`?r1m7`%^p8J<%SH*ofRA_dbC6VTkUuk>f-P
zTqjbM-28yIxDm>&25yZUDRcW~`AF@5p-6-?+$Szvc<H<r*QQm-35mF>odv@2vi$97
zS=E5_9?eW9GxB&UDQ7U>K7J{#U69kcR9utCvl$K8$FfQ~uAR$i$!rEhd{*t#*~v*+
zi8zfqtTUd4Ix>n_#YWS3Dz2)@iDV*<Y!qTe?OTeTsavyI;7DAHLpPh+V{O%MWvjVt
zMwJcUQANorFUwZe^@<vwluu?RvJu{B-dyLrtXwfCJEIxCb2&LPb`p8X%%tJnSO~MP
z-Bf%gE6FKbTkp$qMv@g+v5Dj)<UPquQj4X`C9)a8%^jYb)^gLD5qv3|O+hEtR7@_e
zu*H8VuEf)7!rX5&E-QZq^0$dhqMSscwpWPEOWd4;5Lu9HhoDRrf#NA;2TDLn5@m;E
zmz}2MgdjPt3sINFb<0ky4_qg3J(5fIf~*hnZpiy*xroQ8-8_vm$(dy4tl>+**2XkT
zX^fUl*;v9<qSyr0A|s?J)2bFzObv`}k~R2*He=WoS({ce37a`%8v7xB6Mk#|BoK0n
za4>bvIvs>)Wyw7Ez@q0l7s-<;klq@mV3J$I1B>w{+$FEW`T8UNHvc_QBzZ1YZXwT2
z(K~5#-FchlW1PHA!*SBU#-V(ax6Si;eyWO<RML4tt7W-7+*}gRPVu}5W3OXnl@!{k
zujCj7+(t%M(!97Rl-slC?TRgLKaXn?s>m>E!&<g5UY=)jfSEfPx02?C?ME}isXmTu
znwcnZY$O|cYGZ9}lC?_?Cd>MlcnMc9%;YQSqVs_@vaLJ!8tme{1O7SlPT0k2R%e#m
zv|rtf&-zmS2KLL9cTM%Ml1e)7&buYo6{2*&Dn=@NMoDh1kI_>DjH;xI9@fiwvSAc%
zZHURRas_%)os+148%7Sj?q-sebo<?5wqxG2VZ}#StxAttnb!n`cmd?yY!vg}yk}~Z
z)v2U;FN|b=CC{k5i}kwbWo>NTmuF_Q-8%aI|LeG)+~nT+WIuW9OZe^TBHCBjXtaZ6
z3hzD|roP6gN;<)J6Xn3XPdm(bQ{#-Pq>`V_jl(mv&8W3KOgislvMf#5z5zGOyzdR)
zc`LojT_rR8H^^1)&-trdBrunEhpq6El1<2}8cu97cj06POon<etYt6DndF=t*5ny&
zAgsu0Hg!b~$EA2qlNEKK+)g|rg>#CWiz{+Cjdp5K&B+P0$5vZIWzn+=9>!x}8SA#c
zn1h?{>Dc9~ab;4al@z=%lvaogAwI2TBjN^5U0jl4lX6B@C<KV*6tMJ~QI9qunVFVj
z6Uj_G6-&c(!8jW=C{70nOgc|BVmoV)xz3X~`EXVVTcT<>4OS$4QHB|2uOuZ|LYu2n
zqyrX5k|Q>w+UzZsRjhth!wwyTeV*$&nYj{AC8e!vY)w9_&F18}ZVDh^t>`M6n*zof
zdxS|?YZ&QN&_XD9Obwq*!Bi|k(Ujqvl))@o+oc$;3hA&qGTccunSo(v60(BU#c;9-
z8V;x(*EGdwh|#eE9@}g!&2{d=T2(MZ8ODWrLxmI<4hk)u(u)FqYh>owRmFo$k*btY
zmr!JETt>VEhS>y63S6MX@Vqc~B=+*r-+JZf`3r`SN~(a5U_;S<BixY{gI8gQJ~PYq
zHyFD(olHrV5F!9rbi@5>JT)!TMKxR(V1-T6K9$T&#YYSuL!B1e#7>4wo=M0i^z<8o
zDyJrtb~-YqsM(8ChL@_R#ZmB*q`GPF03{4Arr;%J)FjF<lfe&Ie^jiPg!s}~o|D(o
z9CLj*Sw*wXj;EP^`O2`C&JE|1xj_xif~*bBOz%JNmCO6(;Z*YCaBfz+l+6rZNu|=m
zfS{GxTsE1})Zr{(%Xo5FHNhn)%0`4dl$$j?8+LMT3rwbPYiNT&KMYIF0OI*i^7I;6
zuOflkmD<7k>au^&0$;Kn=Un^r&YoiD-a_ZzV&@Bm&KH(Dj}%*uER4T(=5cfDpY;Ev
zf8o@VK+~Q6mEOZEfib<k@1|D|^%g_B3ZY#$ovTBmdazLs?$(1%YYt(!W~r*b<R%TF
zV*N;=enjuvSL{1d=sTiEMvIXb3y~M~U8hP8(y(WZ2n{ti`A^*>*r12nZoXLZl2CiG
zdAQI#yc%p=X&QRhyBz$g9&EUM=GGZK*z&lsyVy8VXdL;Ba7~A~)llc%z4zPS>s}5$
z|77>*YUBRZ#`e3yQqPh1Czcz}tcm<ceaT7scj@rgyQkQDtk8R`)Jj6T)<_^!^92di
z)qLs_s%!LM9sTPpb&{UFH~E#S&eC2IY+T<>YFh4`T8W%ksXnRi*tJyEskaUnTSp76
zqc`1pZR_3ULT$eeV-AfLLZf=)q1Eo8V)wy9_ra1#TK26GzNNlI_`3RaCkeLQnOf{#
zsU7}1w;t)gIldC?ftru8@?aq}ct7zM>37o0p+m5s?OpfA7rPhLcOpMK_il8#{V=R|
z|DIz1SfPJR?-`*T?k$A&E{z^v4xNCm243KxuK}16-vcX(;}634OCHkLQf$~=Xn?&r
zuo~_whW8c1`=CPO2*@|qz}Tv5O0RRI^(gnN(k@t!r=`OjwDGI;Mp7O6>B)OnioMSj
zdY@Yg9QusdT>DnNHAQbr!P~ObI=<pPqSrPQYX=LpgNuoGJ046d*N%ST9sTc;2$KJ!
z-Uq$=PW8!N?nkXBeB>{=6L#UR#`=N$c`FCppSO+eg3Jeg?u1MDAP_*h4GTVKAG1N`
z7af@SMQ0Pz&r$l&SQ}(MZ01gQgbzb5q`R@;!yRFuKN6At$j%|{qOpg@zP6Ly{73ym
zC)@dtn>e69ZWclE<8~40ZXW1O&j`E~@m^cI28ZT1KOrW`yba7YzX3v(p97j5+Mxk~
z)2{(x>@gx}c;V8J7Z@lwLVo8VA+LeVyf|;K0K%#ABZAd|_U+p}AXrQDj=W>4rXtO#
zd8bx>L}(3+yX|Aa$=YJ+yh|%T6aes)p9QQHLZ-?9zQU7iNy6a!R7Zu+s0u`!cWY?6
zXvm9sciyS(DCf(gS>zvBD?abZ+osT#Z3%e~8!-Sg`_#@Y#gGLU%Wr7g%jD<a;Wp2|
z_4fkN@FJxl4-XA^HnDy4X@lhwZmJB^8ISJ!u1bzkpbceM&3GVd%lj6^2i6PzJc-!n
zrrpe{jAt`fWJNQ9S~yGn11ey>a6D{2oHcnHv|^g-awAuh+9iZ17vmR`sic;a)i8p<
zRQw`1DJp1B!RZ;!q%=ZHA_5`-NuDu8nm0sjLNz>@>9lE~WPo9Y&oYW8E;GDZR;!>i
z(Xb^Y!(k!`$q*^tGz4l_#c2e0k>(0eQVzfX6nwK90TTfN>WE#8Yl%x>@1a}7i?V_m
zYq%x=Zb2D%bR5>QC>OAR2ZL(ZGC9Kz_BS1$QE<r(FYTE@4%ej#M)F{z6)&xrk~2^#
z2c}pusy5ClmXuTlAL<GoLBq`;229OsO)aJ+)3V_<d&$Jpa>TD3!5S2lh)M8*s75ue
z+{T7gqhZTD0j0@_%d!O1kY-?#6bHj9Ku0Dfm_;OJ&NKkvPD&;~17dWal=C<`0sB&t
z*!OD?ZG%yivnUrRgE3QE=DN0V;tXvOn#UIV!Nc+ltkC-g7DT<Jb;;TEq_gLqwlZ+I
z&^z}2p5pkch4ELHJHNi<Y=6?$yR`H9e{MT`<Ltut&8F4Ra4~eC5IXQ)q<HXD;ozy|
z(CLNKkAvZ2u%{60Svb1d)^V@%&mupI+&{Y9IkMcgXW`sxFmwl?%3z^ou-LM{(6ax%
z=J#J-4xT6mPZxrx^{VzY-d5*dIEv=CN3U<v>qGFj+R}bkeEY?9ml*Uf94YyUujYrR
zZ=AjpT=BN)?K_L@2MX;6mb@*xxAk7_(vH#Pj(r6${I!;LkoGZdeJ81I)|>nFroMHN
zuXZnp>uyrjqX%k!_{NPl0Id{*-GyMcUQ>5_=+=;4U9Z<Ptb6QL?h>)P+-tCAL>Y!?
zlg+{NPHj#Uh>bP}ZdL1^fr4^?yQ6Gl%1pE`WqVWME|%RYaGTi9!t>1y2O$RfJ*izX
z>cP{N0pF{<SrzGnAR;Je84MrFo5~Eelv&`J<u+5RaW*QBG90Gbq<j_Vxt;%~2I0fN
zI(3U!9epC#$Z8;@18{7J6dEFWS6{Jftk4C3v&Y<%b%%hfD7f6p6%daE3}-Bc$14^y
z+%X*CbP8#2EcWf`c*-nMo&!<P?^ryOfy)S;%xWw~Up<C!5nQVZy4REdM&~fXQ>{#6
zgg!gE0(3&}5ZbFbL$rDdM(6=j@qB%k=(Y8Cg0~JX3$1$R*s?IDckEaec9evdIC0-&
zUsFj$qGTuThC9K6t98vm^O9{)bkkx;u{3;lu;3bAb71ycoG7}N2F6MR()UyAn3$u$
zz7y~(2j&7=`w_5yZ-duY;-Wmd4JGjJO5#ri@YjM*R~99wY?o~4%mFX1!=k{yD|uv>
z<b|J4vQ1PikO@xmU-w7dQb6{=rv<O%lYO$EdV%e<wEDU?8i3CWRZvoGl?b$?7D{Rs
z$P5>)1>Fl8b(X(;vt}4hcAK45x?%9gK<~=_0`rL$fOnqt^n`bC;<AE{Gs8}GQZ@YS
z3N~MZTPiEpK~@Pvl)w{)0Z$vA6nf%b1>(mXoH<C%aKo7=KLD9L2iBO+JKzLarw!19
zkSDS7i3ChSVysm_7Lc<f37Ms*O`t<nz6&iY-@^z;6A=wjozB6-7!;U(1Bh)Ibi`#I
zEu80u%A1#kwq>|tru~h@R79=}D_k=b^#-u!+O}QyA=dZbf{co1_9<NC^~B}B;V3v8
z_2yo^wn+~~^p^gTi@2IV`&@3gF5CJSgcWDAK5zolh~9r}LHNYE)6`463k;7Ezsg?E
z<wb`Ay6A60y0!$-k2%vv4_6$PZ3$E5WvvuEut@NgZ|k*x8~kQaf*y@6A#Y=V?rrkN
zJowacsc5h^Sy;5OO`aDu^s>-!1Ge-BfZg*Vs}H_PLcRYs)BAs(fKO4N{yF}v!3~1)
z;u<L5$0&sn&Mx9GcM%yzHPhFmgzxl;<P7*`5WKK81BgL=Malw-+b;n=OUcm05o~Uo
z)+w$~ejiFzoV%$4rUDoN%W=cb*xZiom0^q6KVoB-A$m&P2JoP-Z@&G_Ti-0!^%v^;
zm+J->+&Vli8;1&wLrV?A_rLvau(<nJVfV53UtivRereZ*rMg!Z+)w;F^<YSE?9v-L
z;15i0z`ek)`$>K1*4J-+>+bk+-OgfQ=aO^hQefwoD!xwM9BUct;U2bgW8K2Tun07r
z-6m^UKD$q#!j`iO=hHm9Y{TH=3!Zlx;NuI{rGeph_~c<bPvAq4ZK|vkOa|^oRH(8#
zRQRkm+z3z`T*_Wn29Dxxs-OYJsiYdar3rjEu|7?)l)8W6t?>pA?q8Z#+`nMA6+Aa^
zEl`!Hk6GK5GrtYSz<&!L0Tp~^P*Y~u;h~V6m{la?phH_hUpzI2;C!WuM8T+kOABXE
zifR%r8fubtk^CWK=LWXdo$W{SuTVqHK!n$dlQg&gq@mEX|2=-W>Cl3I)l+vfb1%K(
z*{j!fEO|Rh0uO#DZ*$SxQSf%$?Yl1(hn_DCJ-^~T3_hHywk2ol({%@_Y6jmA2yX9q
z;GyVC72VADTE=YTq0Kcm%s=!rjrH*lyE&x$M2I6n<#muz@)#kARsH}Y)C?tvkrSim
zFv8=c{4Pd#k(!7A7sf;hxWmdVjBsBSeB&#)PT>AD@8pD>O2uLk&RkL4@WbY{{2dg<
z=&#|YegM(a>qKwtToUR^Rb)p*KXFzc*sX_md{!G2k8_V3x=JDv01&FXOAbo9NmI{#
zq0l%`^3c4OG=}b6xHVVu(X5~J9^*;@N>`DdzEU+MYe;iji8cy8BDeqZI?5dgh>^$D
zJtYxR=%c>1<Uq>F;K=7L%y#<3w#UBSk_f2@WLgWZo-Z7b{ggmtngE<uq~8!OX<E*7
z5Zl334o-3NZFd-o4G|tcxmo2R(vAuE9|!SVQo)5ag6Iw%GCk2l@I2D83BYK$H%7=R
zDtk(Ys7H5NOQuv4&^0_GVL<}iQ6v0Jsp)C0bb}WFb+J?5H+>13drm<i-EMsO89l$Q
zCDroTn&UUs0&g`6GJkV56VOm4G@732gSnnfRPLeW*8K2;ui>Q}_Ws3(vH5(irTi@i
zohmCm1}~r>;z_EI$~B}AUsFvroQF(Y{WaxJfrl!r<{&EZ9LIg`BwWiQ((p^-`xjF4
zh=l%w3_c>qACcW(*j$|L3j)y^MqdO4&h{yR=yNyWj&qO5$RpDAZ)E%t8T@xw@aAtX
iyV|bV*X^flocqq;I>B`PHDN#3w$w8GIf0ap=zjsG<Jz<U

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_completion.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_completion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e3aa3ef46e1b1ebb2da45b2a2fea234427e04aa3
GIT binary patch
literal 22040
zcmc(HdvIIVdFQ=&5-$QEKms7%BnS|Efp3b`lM?lo=!ay-rk!Fb;!*+yfb<1uOY%i4
zH)%_|PC}*Inre~>o#~F5Slu$a*^N5wY@JQ|n8_rAOUlOeU3tQ8-JSM7IAX@JJG<TQ
zI~NxqDJV%ho#~Z$?sv}l&ikD2e&_d{gCCkqdJ3MD>UWd>hoz{$Ly!EZ%fy2WO;K-9
z2`WLSs43}9Pto94q!el8lrpWFQqdT$1iyMpLuge>o35LxBQ%}TP3a(BozkZbQw9>I
zNg30oDHEZ!srs~e%1r3GlqGGQvZfoR8q&5YTiQNlPd83Arkkdk(vB%d+BxM+yQW;}
z=BZ}FuS>bpo+(e-JLM&Qeae^iPx%RLNCnctsUV?^sg`u>RBJjk6(W99sx2L!3a2Ae
zk#zf1I|-{#MbjNq9fUTgI@4WKU4*uzy3;*VJ%qNVV(H$g-gMtoAMrP&`qKkb1BAAv
z2Gc`RLxi@chSMWcBZO{D?MshNjnb5YVmg?yx1m4rncA<QPEv`c&r=Bp<9S<I4n1(4
zjynGlJ(E#|SU;Y<o|!qxWEgfjH_wVD;y;~}yir=LyTH7#$Yf?1pj9)|*&MvJPhuD$
zjmI;WlNsh%D#>Ip%2bXzH-Gsu!$$RD!?F4FLW;>H=Q9xYI6HqSD_W~zW%iwHPcqqs
z`An7(ojcj2uwz%|lQWFydpPDoj%B9P<@g;brSM9grsFI-&sMy4s8D(#cX9qIlX)sT
zeVI9(nVlCM<yy&X=b7AeVmdc1>MA_Yb*9G_n9TU;3k>^WGILpMoJmcm7vc*f!+2``
zGEkSY&?UBAeCOvAObUaIPcoSV!ycQ@%qB16NL*%e@$~eycn&L*746w8^NXoOJeiqE
zEhd=wB33V|6phEzmzYFWs<>z*RhNC1WH!!_=yE-v978gb%wc_SJYei#6tHGM%47A|
zVs2qE2UV~fg)Y3nOtUjr9-n5X(^;|p0<<Xw&6E6C?eWZYQfBf7$*(cZu$P(mG)|*<
zvOI6FecI`4Je4Gqr0vD&R1!Ln!D=LPS*+X)lg-YvKw?1*q|44o6I61W%AN-cFq?k|
z<O4&YOqfz6=<+|sS5*lmqfDq6RYJ|E6Pg=Zib`l1O`;C|bnvHVG_&<f)GVDae7=54
ztD_RF2_sXNFfqC^cRizL3<=Gw!Ue@KM$CaRp*yQdm_M(csweyw#>`k4D~2Oq!pbx-
zHpb30O6f>g1LOl?2|K(S;oZbE!K!m4c9k$|PdGoXnsO#wkYgiBhxOT+wwlg3Ye_T%
zw@XJs%|i({)6CdO8V^uzDBmNMFSUilc*`aG;O&PVkou&a@y^yK0?-~`r4NF@A;<cm
zwJi`ESfZ}cQ^5;Vv`uvEnzYsBb|R`0n^`8e$Y#nD6^34-;>ko-^e~y}ODRTP2GU%P
zCtv|3Q(3XO96LMD&M>=YwrGaA5od69#<RKUnX96SA)+NdLu8AnNt2Z$*0YlEDNpH1
zwjIWVjiS?mPA51sWno9*M+SzCLjQwjU@HAS{RWi-kMz8%<ESqH4@YwfPRXe_?H&5<
z@`s70IBHHMb5`GTnkp?*92J*Kq&PMBD(N1Phe1wReZO5MA$6q$P6IxyKY1W8qfA%d
z?D!+fuvB?uDqqLdB@|bo$5=%|nW4G5d|j?Vj-6|isp>nS;_7ObD}PXE>N@<3swbmr
zwhI!n-RSh7Lq-P2LsU&K=H^8;8NwTbPh~-(1QN{b^kOO(n5ldq0@<>(2@t7}4a|Zt
z4YXy);4f+r)!D@bh864LFmphp#YH2@FFr#=sAzpixR6;PI#94ClC!gMIeSUyh>mg%
z_Jn82JQA&!rH>+fxa1NvPy$F%QI&+R1bo|6Std1Gv(dY!qo~QwFT#u$b#a)@)7fl1
zo<+qdAU`)heIk}iFT@s-3*EVCkf*usYl|bJ`>u{Ku~hO>Y~gzD%6umFVk(u6!FQIu
zzA&H6<g&4O_ySEQV_E4F1l5#3wLJ^h*#RiwM&J?axJT|p9IY(Qy`SHtwwowj{i|BO
z&M7oU1e;56M}^3^;OQ(GD4lDY(&+T12C5}o4EFQE{$g-~4^Awp?$!CWx=!I6xI2rH
zeSBnJG4ePcd3-bSBnF3s4#E}@4CbOCvSEk_jjm#2m~RXh8~5>z`<6}!f$&;*BhY*6
zGwZWUC+-^?zI680vx4P>U}+L8_M)YWw{-nXt1{J>w3M;^0aTX~wPisd8rbQV;<860
z38#t#KvrBepM$>#mrU?6X*)~N@IirDT~?HkMSeJ1R-Zlx3hB$Rs{cUohVr-7YAUbf
zl&^r4xPU1YGJo}5OIEN=kKnDW@M`+sq&a%7uIiVmSFDgn4SA7J$Tfu;(KRK57sBi1
ze5&t9=BV72V-5N7%D*&6RW-*1$i+EZwH7i3l9!&d%f9OS?Q$P~h5DKzugW>(m>hoT
z$TR1Zsp?ynqH?);b<Qova;iI;O1OqouvU<-iaC!QUwy~TGOfeW4$8jjyE;$uTHt7@
z#>muMNT#Z9R+*slb(t1OQELW8s+=+<x2G~2mF3xpQW>Spo`<Wev{1+C<~sL8gBN-m
z#q^%1_Dq2?VtW|DTW$Ltt^5^usD64#J6<DgW!C16m#Mr-N9B&mT%2C6`vkR2f3`qT
z&qFWe>+@#F>$uESeRF1+|9M!ac}w1!Z-D-_an@Iixsx&<XO+3~wv3%?*cI2XBTkb$
zC8vS4NX?y*ebx6(Z4%}~yiE?totG)#pOoq98}tfW?VRrD-Y)A1c{}v|<JB}W#o}7K
zAp5Fs&R#o5dA;NtGbbVCQ`HnQMN-z9sZYxs)%PRHfPTg&-<W$=qF^>qb5k;1eRGX+
zeL#;=eT7Qsxq4X1$~;QM&sO<lifiJ`TqEdT2Dx7#o#G~_`((AmWxnbgR_=eO`eaHT
z&xhutBR3=S<PsHXR;Ez7hxt@qm3eb6DaUY)xjC7Z<B42P%c0dbv_VB$VU$~ucV?!b
z#q(7jnUY(~IbgIF<k0H-j_K|4S7L8l$f|JVn<3v?QY2f=L#8+v)T)WoKB_Fv!ZmZo
zJN0ktq!f84XPR4-Q&-=dQ|@0HR_N=SD%hIjUXtTE(-*0{8)|h;4ynH9UarzI#cAc-
z@}3>*wIT)bxB@ttyZXLHv-@Cn&~v|D4U?$^y$G9_tc%3oltZiU+Nn?@hFk$Ig7_M1
z(MaWeoR7sG|6DaMnSxcW=iD&zYR<!XL0{I~G0Q!90knwAH0QkmyNbLYz9#N|YCzU3
zRFW(&OSu3S;QU<u0m%0Ch7oF6_4<Br6|a9x+;6o~xn8-%5XFw>4Y_{VKQ|;()pw%u
zC4g4d)F5&rGB;<CM?!wjD4vB{<_*7Yz!u>9B|5iH=Kpspf9&76d>k6`%pH=c>igfP
zPhO&~DW9cYqRAYA0fqTu-7`}{dBeZW`0pr-e*O93onLOhJZ~nb&qCjnXLOJY-c+2S
z;A<MJrE|POzwUsQQ;!NANZj9&`?C67hg~Y2v2f<O-;v|0?}SAzlMBXWxQKfFh>F@F
z>6c{w+-ow0rEz{)lIKwu`+^)-eRD0as-+bT>-lZ?I^dIU%{&FY`$fq|QFF^ORei%e
zus>?WB`UfIuCEKbSM<O6IMtS(Y!}x$_j}d)%9N~WzSfp#$o)q-G&d|$30i`iW)(|q
z0IAtNZ_I}j6c>`y!7ilr0`<qrm*}W{`UTipRY9Y`_~WMo*<?DInq~vJ`SPALlEv^I
zy<Xl0UtpNPm0WHiI~I#Aq^5I#5~X{jEp88NZDWb~nQUx&A=%9`vkZ%vbga7L&BkT`
z0M0R$+#q!zcZHG4USMXDv&orhgrR!^7q28q*?~0FX(mh9q<wN=ccph!Zt}5<$HxN4
z7Fj4bm%1K!i3ud;1DW|;08ojAc{WFKnVnCi=3hc|V-_m2$TDM<`d}-&fq8Z|c`eY6
zHA_urE-wP88<3DK%yOoZzntstLU!dQ<rS@jP2LEWvxnwk%^u2)N!*AWpSdz00EWd(
zxd<i^cqy5?5&%#Zpzwf%ANSlClKd4U8`F?XfeZQ(K)#yE)H8rVbOZjYmvOpe0#Ivf
zIX6J}Bq}SK%0W_rqDF#oZiEOzA4q1PLJY7VP>dZaaYHy@)mcCxO^B6C08om_ut#8?
zibfI}2mj^V6&62lBHazZwnoB}L}O~6otB{j$U`G#%1!_$dlsE@;6#<=C7N>VG{BTs
zm}$W2vtr!>o1ABpx$994iDyyaXCDJcG?bf?W3J^y8v#9&H^^j*UwsMioUGV@_5*@D
zrBX~P&Q52pLa!Jyi|I;#=*sB;V6w=42go?FJg~UYxM7pbEP+Ha3!Rl=W^zn|Jqj@u
z)fQ-ib=p8Ne9!@&-=`(CBSF7Pffla#n(~iTe?Y%MgW;$`U6)p^YVuPJ)^aTHsY0*+
zv|gg0n|N&U_-FO{Z&GM6V9U0d_*@oDG>D(vWbs=lHqK68WdOKEBTT%EoXxX0PCW{K
zk{0Vu#Ogq5er7tAJ=9Y(r-M*d7I*4D{|7{>1gCE$zcRmevC!1NY3Uc5+V5G~Kgr^j
z>T?zw9X%@=<1<&7nXA$aAsC&gCFnAf5cLTdQVDAYXpXE%Fy9dIQAVKUc8V$nmJ53V
zn`kZ%GJt?Uff>sZzcig?<mm+PH<?GG5}-Lzl}mzQ1ff-cEps53Slp0_Hn8wqzr;Wf
z<>D}~3uyOX2T4r!YH~pW($TU)AWqSQeAQ`TBI!T?!F+^S;*=;EYoE?Qn~3p;%ofoe
zzqFVH15%l*jFRe~o=z<?WR0<-Sg?+{Hp48SU=)=wexmN;^#v&&OjL^*YzN^MHFL?#
z+;qQay2!v1hbBqE4pOOyr#EB_vm5P*jMzkY%Ke8jdp-kFG%G4$rHZ!6`P^v)F4GXk
zB&4e0+GP>nVR2I~nirv?FX7zE67!VUn490}mk?c8W)Qp^<;{xDy|^$i=b+;=Ebil3
zRGmcwiaF?Wlr3TdsqOB?uPsXf7WZUqGdhSXiTWf6Cm3M(7_k8iFzl?Q8OH_%SUGD+
zTGW--2P0~x7XZOcu&tP1H_1<uXc@4H!PF$nNz`5fTWfrNR-`kcyZXg@XtlApK13zV
z8Bv9nH`b5-Hd&U;6Eh!7ryZ*fCP&%W3g$Yn;3en9`eWD_kW$h}h-RrqiA6AO;;Ltr
zkZUx|?uQqVx-7yxqM0G48)?x21}m)vqqM3Lak3n62}q*zA||P;%;fsAsYjY2S&?Sg
zCy_&6kt7h7tXPC3HuiC3v6N>OStV$KB8!zhO_J|0r<(Up3$xrWNwBfzm^2aRqOMY+
zC|9b?$38)dgAN0u1<a7L#hm?Z2xbwdVNppH&9lkOGzfSm3(_Gsb464FDe5YrqN74e
z43eAzsRZ32jRpHW=Jp&o*)TY$IQ-J*h$M!s56RUV(O+2v<EJe99!zja#+E!(u&o&A
z;{$!`k<GwZv3YFCEEt*#hOl63DHvNyddg@i8oa#0TQsz77}|t}reZ^gZwM6|Vthla
zV2qVCl+pI3L$4kxK&;JCv~}~g?n2KKo3<wl#wWK74PQF&+JTjmMNc2^=__~+?%?^%
zrtO)6@fqML8d`WmOTo~yK2jVw#Sfe+3|y=*3YL=(lnQ%&iBf=dppJ5SS1uO4{k*q-
zeg8Y!;*lr$BTsI6FBCi%3yn`L>F+z5zdHE!(c7b6*}v(CEEzv^_urkn=RRGibG~nA
z68grM&K8Yc-srt&>?x^Sx?#cXFS-YK_rUteP4|JNb6aLx(H!8-fuebE!#pT>0=INq
zU=nE=<XZ-dEl2s5qnj-gMbE^tPH?!3jwtVlu0=N;gG;BjT04ua6MXB0&=P&C=gl6$
z*H-im@V)`U*vmV5*BzUVQ800Yj?)h)RjB@BO699xnk<DWUrW(D%6muec5Zr46zZCx
zW5?-Z^pd`$c#hT$-w$=KWs0GLyd|(qFCW~pJB#)hZ;!2;HtmN#Qc~7~%Z7rtdo2$=
z6bLOF1zT&u7Q5dXE<{E)Tld{MCp5Mc8hapMHNV+9bnD!Q&D{li_ZALWjJL%Kwh>`q
zXnEqEz4t?Jry#di@U#lSZlSBU*ma8UI<>7+`x=(@B@1PD7i}FIwhkfOT?`-N!^Z??
z%j!fibc7Ebf#HfY-Fgga66q<1kMQ9m5Ggo4MQ4<EMvKm)yz?mW4)V^y2U=C6Y5B2j
zJ=Hiy0(*F8kKl}KtCfvSFag88tLN6~_29a#&@!}a-a=zh0D3{Nw+i;4;O>C>m2{Lf
zxJ{|84Pd=;wiX;6&?AkmEq`m#Kg|1w*IzD<oZ&~#Z2Hd@U1y>Dt-kFBnEQY9{CCdr
zZAaee-V8jxY`SmruFT(y9lmEfA_PLkKrbKY75rU7Yq#L<5!(8olwjWjN*!#vb-Gj!
zqjQ`t9=XULxd^otoNef~^$FntA=q9F_VK~Kk_nief`QhK(@h^!+Wk$uePnsE5E_AM
z;>zpi1O3Ioem<~YaE3`Pd$SNiF`?_Q(0Q<Aqk;z>Q2Jog^68S3vbu|wAa4n-M&Gk^
zeKfD2+74}BQ&671^^Su3Ak6ixM%Nq9-FmLr*vU6`uASR#9EGLP<XY+3Y>F-!N=C|L
z|I*~ElRt$;)g@S+Z}@NdS0@VA_6_T)wUd8x`kSZkI{w1{r+ygopDKZ63&z{t$=f>%
zmQLtDo%y4B%Gf~G=m2jU5G)SC;uBz0EX{(&gRUncG{fBKgNoY+q2joJ^{{}OseK35
zXYanu51&~wmlQ$W@cV(@k15&|y*0Z$y<!vE+Lz6%^oFISw5X=s`#&k2pegTh`je6d
zmdd9vPb|$)YgiG+hN98K8$AW@v3tgeioCcpvmShVcGEWWu5sv}?wg(e5@z?mgt@V3
zZspCbzj~6A8mj$i=>|<TpM&=JU_yMl-6gk&EJc)_yBbhVbApBr`lJx(-PTaSj<wi(
zfw5ag5Co%wBT#U36)aug!fLU5i?&uC|91+Z{`EdSG_-sk(s;Vo&fjy7!Lo39x4a!i
zZx8S7S-ZCB-3O!D=zG^5Dp{%E{%sEx>AW-e9TVSq=pFNB`0;|Vbqj^uIPVx2ED<u!
z@(5d8FyIf&b<X-%PyHO$lf_XqxAEq-pHj5$I9(Z!LeH^H+r)-(;=b8M`sx=p)JQ%j
zuN@LRp`vGy_Y7`&hL_HlR0>n{JH8(%-?{jXj_*73Gnlr~kLoCUbko*RFm`O29ZTj<
zvbbOQT;o)XUZJ0`scs)T1mq8#<Ju=Y)L;7PCz@1$85lQ%=dWV)6E4+X^{S8_v;o&&
z*G<Hp>Z5)*LO<21`Qg6tHt_t&OFz}4`H^p22c92Cjyiy^a9Ht7fZ}P@(;)?~rk@UK
zc#RTiogTw&H1P0EG~~;>i0jck)vn~*dY*JCH*7S}8+JADY`Ba_xAk0bDK|;@CJEmp
z;hSwe7hTGGB>Wx;zvpTK{(G^Wr&^WoLcQ9R@A@#GcU#p+w=0qEq@kkk_7JyE_q0#>
z?wIRom-0Ou4fJ~?pZ8p9q<zT$UXX^GzZYtOnisX>PIw7^Yye2VXZw}!s}w-Luc<@2
z-t}y^^8E;nbUPOOezzLw{)0fX2qv*#M~CdQzl>B>YeH3!Y>sC1K*<m8oRqkUodf8t
zY_O**b{Lrp-o!*?0H|w6m`vvN2?c=fdIaA&ErH+-4}};L$~`<L!Xxq5CjgpEsPYyl
zp@y*~Z_Pp8(!-&l9<-;uj|?>uP_!X$10#Tv7y&49ykMshz@Bg98fzT_0JB-++|K?f
z7m{~y7PcPZ@QA~n2kNbadN<ZO0ssac=gn3yy^|AVc~{OVC+1vl<F+0i0ADEpUtP6~
z_6fDj1vxdnQlD#-(m+2q$uV3#XFmYJP=g9QD|1m4n0OVRg{=gbv6^cc^1)b1#_a|q
z$-7|`JTL;d@7nW}0cN_E8J}I?Oq|;VDY93&rV6KTPZr>XwrWV9NN{z{lFA3Cw44(R
zQ%ztHa^(G)5zYzq4?LVBskiqs^v5@7;AnZ6;~R9|2k{OtS1D-fGDY}85A#*y^L{AT
z14pu;RoJtc6Sd2R`qeBE>fAh6qXfuT?k5}ca;^T+?k<`0X6ra#R>K*~{Y$_850J7(
z-mmQA{5Q2{;AEx@6cgim<l%O5J}`gP%mYkn2B{o~2UFeN=T4n$D$NHnFl+Mx<iDo4
zM$UEan42|6N}jJbOn7i`MnUE*w5w+N8sk_qee+z$-de&u4nqIeIDC<B$yJV75Tk=8
z*C(e2!=e`qgF!Gz;0mZUHjTM~3U|$Mmur}T6SQ#fplr;zOyAMJt&&paTR9sWz!i(D
zB_EQ<HQ$y)e1tq)h-<??oY`QeM;HJet~HK82zkJ;Fe=m4cS3o`DAyn#PMEkb0Fm_s
zh*TgD2_`Fz3f<R;`Rcd9u!PtGdARyY%E*q;YJTlI>KEbKIr!UMzkC#=G7jmUhqZBL
z)|xvk2XkgH+Lk3B7mWuh;SFrp-qC?o8@*$Z4~phHxQ^QGPN?o!W$B;qgqC;iZaEj_
zbn&2EQf3rPOB1pW%t+n&E~xuSIi&i|A-X{xu1l`7{LXhnIo*|Vl-R>y%BAvMzuuLp
zlin}UvMDdoAj83B5ZE^PkJt$;e(O$Llz>F)Q^!OyLBM|rLkh?cXjCIgs5LqJYs}3r
zRLljU1F`K2=2VSf3HD>dBb-S9N)R#!Y-=_Ps8vJxVDXL<#Zj%OP6FO}4G>iX*X!h>
zMHApC$?O$CTBZS&5)D}_UGlKEu?gP-2QYp`G9hZqFcgc+3Vh@iLH3)<iVcFGM{qG=
z2f9`cf=1=An&ePELf`<GO6T$6ib9V443_i^INyY*nQ4H(0PB)?)$DgL^1q>j<+A@B
z98oQu<5#eMhCZX5TLutO_E`vuwz02bOuYpD#pek$n`LobN(Y=t<7SY@ie0>`P%>Zy
z2V{R26W~b<Q7er?mi-e9`a^UsVK`VBs^_=~bheIh*l+B&k-;5*2u`YuuXMQgzaZ~_
zMaPT|9yVn0Bf#3w`5)*kg9FI&Vp=+*ZAEY6PS7q}IUa72pfS=zfSAHf4BhbxIPEXj
zMd}x@2<?ID*#*cs+Oq?f{1x?1$qG}R6Ji5conB1NFT$aAoS6VnXGL2j3_H9$G4xkp
znxb_8pgS@UyV}Hl58DY~APdl~bS(l9cJ>_%HSN06Av$F*AoRIpW)aIKT_EbqStb+L
z*f$}iG_P^!3HHgZU~U>|blEr1)4a11IHU;oO2dp+j}+LT$TBjQX`HFj+J#)IV~eBD
zR>oFT&s<r|TxIWK=%1p4*d*GyaAoW)F)KQxz=zfm``4Jnx^sX@rsA$KM=JvR`^c$6
zGTQ^>FNHpLF%TG(eGSsx7<eS`Sve;C5QKglgkSbM@KGdICO}d=tq2wt++DY(*CXGJ
zejCsc!RKGOu(}_1$m?$2djP;V!5>(eSv|}9V(Xo}5AYSY(BxkJ%*xArW5?Qac)(dN
zczr9!Ry%o5ccIP&pdq@=z9sXPD^PUBcvozx{(k=n!PvY4*x`QOvma2h0X<(ATQU_K
zu~J=Jp$oqs9sL*%D49lX%`eZbwhFD`V(SRsI#K{&rKPRdGQ=YU_P4ecp}n)%evofJ
zSg^MV;m+m9wtT^_&)uF|HV8If!4}57{}>-S^egQB0{~^&Lx>d)juiHt+8jI$d9Kd!
z_CA0U{4HO<`n9XeC%_u_b>nU0>W%fYeB?0iJiI&(u@m$ux?u0wa<>%S-MqWI;2tg5
zp(_ED@V&u(nOi%v{=&D;3;tNazrWzz53Yc$0~_uEp`&Z%tl;k`_=gM5VQ@(dX0mSG
zaQAOT2UpGrJ%?5v6FSFkp93tkV`%-w@4o!)m-*<?l`|!UGUh{UNeS<*V5AJUslm4b
zu%oieC$#i!w2Z7j2^?L%t(Nw;VsFNz05t@xoC9of_yk>W_6zM@EBe*GKQuuZ;jXuy
zd-J&!z0lEH>=@%a##YQir2DPkc=I<_j0mfCtOfrtzwRjZo!;m>EsUNnc!mKPT{*M*
z!tL`P0WQ<|erP}ljohU-LSvAfw{6SeD>@>)BT{e-2>#B3f281ivM~DOCb<3)p*2!$
zJ;t{l6T(A6bVwN7UmTp^2PcGZOz1uOP9NWUT!;-9V^8q0Cjd$eO(2pOYQ9|u=wYaR
zrEbd}UVUNH9=&s6z3IE|Z@V|U5Aybd5FpqiYxJhQ1AwG(vHvLFe{{3w7;irYK|-jb
z7~02&_AQ?mTG}N{d-?2#o<YIgCIq?!U;BriF(C{vWK4+m2|fFTt`VW{EVQOQR*W3p
zh#cNlQf*ypCyHGM_^t!@LI<~^-P?^uudk%64>oV>Y~H5j;~%wC&R(H?^lk^=etg9Q
z2<AI9-*vR$jNXT~b&Lo-hlS{HVe||iJ+lq?Z}W=!tB6UqLFGpI(CFW&3!%}?&?HpS
z)3SPSHMVXqG!MUPAO7iSCFSoZ_2C-%q!1n5=9Cmb+~JYUmVE`I|9&`H=s36;J_NAU
zeSf>)>l0c=1#fR*;0*7@k^=PwqX!BC5ZT<jVeaLJPTU`bo*39xD#jXMnccGt1FU56
z-VYrR96`a;E;NS(k56ds*fwa|fFlUYB{U?X{E_uUNhyK(iV&uUj&k`6Fyno_>#9Q2
z(57Vwg8Ig3DED1s_s>5>JW{C(6AWyGw~hR{^6vPbX*O+#mnH;z^UB~#cvV$sXe%1q
z3dXj7DrtfDQ<!_^;Jv!QC)uY#?EU6=+vEWKy>`X<LF#)Qs<R`C@Ac4U2Q}Y|DUt3!
zgAqR*q`~vUk?{lI`OyFkDSkAlo9s~j=wRz)oASp2HH7@QO${MG?$80vu0qx`b>PSk
ze(G@x@Zbj^E#H9cYrYQ73F_ca4@#y1{)`+=&T;>5*ie`_6ZlPYa_SxLd_7k$ZOwD#
zEd^{UOto%PR8(9u#Mb~?0PHZ;0#8USz6iCj!kJ<Hj-tzC85mI10#VrOkOtej=K;V#
z0p(dLX=~)0pz&NOtL5tR4V)RyrCaj$%pz<a>S3#IowMx861)HjG(dR>e(iZ~DxpVh
za2DEJF40<(i@+C9f|-<1BOfRM>H($O_Y?qL0$JEIq1ttWn$;{5&)e6^4bHXKY{@Hw
zoQ(hi%3Xkf<Kg;n4RCrMZ)ntL2ZTBwPH{(7*_1UBAfT~&`y=O-`Kxy%0Ay-}+Sk}r
zLuf$eufA)~OQ=iD8N$`$hWin*jk#7iUnr}_T##ow*|e+QF0VZR0_*1R+`^ux3cJDC
zL;a4n{=&Qw^2qDqB=;>9#p!mWs%*OnhYmRY9?n%(KpRd6=QiPwY_&Bq6aZi(RSTYB
zqnweAaK>7Y2<y(_xd-yp=72jUxFdy!bHppN1WvMR<CPh}(X5$+i@~@_n(HUbyBs(x
zU4=35o~IfhB?o7y0!MJ^RX0g?z3dt!WxojyTxk3j(l}4au9dxm)PKgPI%zYtjsd&1
zWtQmYWRpfxe-~N)9MfoOZ3xLGNo=_KVjK>fWU_Fuv3!;#>Xy{~ModrgJdf1>M5nTc
zW517HQVyvFsm~8E3?vW5!thFaz^XDYZO?uSBgh^tiWF{ESlpShe}xX}>g-R@L0CEJ
zl=f7s7;prg33R@U4uSD6BJ~tHxWi?C42}qbu5u2nvLz;YiuG^<G8eC$f?&Uai7J~~
zX=k&EVWe3_%*`O<2(TrSwx$MYzZNGu2Ha<6aWd@M3heMmyMiwO$Bl!J+7-yhLFA%p
z9+QEeSfH}s1Lr1HvQq;?OIpF>MP1$x8ofvG25~pw@`5t&YF|1nc*9GRg1^1!ALad{
z@QoLU*&WVBphE2%SU+7HJkJlF-}Fr`JqGsBVsi)I+_7{PlxKIS*xdPUbLX-Kv}NfO
zLBTOpund7K*qYxs@MX|IAR@Nmhza5L6@%ao7u@{?dq239Bx_G>IC_N8;EGO&46hi4
zaNljiR_IJ2JX{E!x!Y76J<Wrj8alJ0BU*YV@9r#s_T3q~eQv9@ztDQ9;5h`Y&>DT~
z@SBG#eo(MMhYt2i>T@vimj6wEsjNBcsYw6&iSM5M_E|oB7)lF-B~$tG>2fa1=Rmc5
ztMkpy<+EG1X2~82-66OmP;|jQSs0q!1Q)7-_W8rS|FF=~iKcUKdq;}BNBG_&LT7)m
z^E}^q9xkQ^j)3B;2{he01?LXnY{RJ!eZ%*gy(^c$(j~Y;g13!mvcr7KFkCW~jOs$D
z8_!CBcG@*i?3&o<n&6%7e-i>#Z1`Yt=={de`LAkMHB!CrIr|D1KC|sG`5TrEa3ltd
z;q|xbS6;qn>D;n}?kHtlcM~>TmV+CXPzlV8?yk~{G-dMrk*&}+v>6=cjl&y8Z|SUp
zYL0GCDky8S(A+8b`UO`<p?jQnjf3)O)i0?*do)>##_kPc_xort_Z2O@8<yS=I}QoH
zuA=V{?>hvlXlMP>@q5My=zZP&V9SSlx9=O8VK~;Ud~l!`Ji!M~6pX(6=AdA93HE@{
z;1TR@p}`^e`?gJ5i@ro@b$S+&&mHoOh_*k*FqCgIT5#kCrHB&#9*luYR6Q-Kd+?`&
zKRsR#;WThHR+GVt26Cz$@4Rt`YFD{nOVqMoD_<5cff}gbOenzNx}W*xIZicKv8+|I
z+JOgK;G?2WD9N=lRK;{?Dct*Tl}iHfS*)wYQN2csAI@LKk@-Gc@schqptVo8w><br
zSph{?!DT8{1zWe|3^E^l>QSWbdBB<mA_X5%vi_Cr;3`)cAJvW>V_=>`xNgrQt7G!#
zc7pnn=}Wd5Ws;gveD+{voNVwz38t&h!$cW)L=V^!8XQN?CVh~1_r{LCDD(Z|9{D}R
z>xWffm&x1mCb?!bwZmRnQ4h-Mb_1uaHHuutVo6gOP#$XXXcJmea|0?iHA}0^r@R4_
zqG?cy@GD9lxL#L>N)ad(uqDFh0`weRuKP=%VBF|9Mh+QQ@bds(Qjk7Kdv6{PU1ah`
z1zsPE(qv^`#*A<N&iCJ8-vZ(v{}~<txeYsE^m>9&R?s|ABO#VVkBRCf&EQ2yENT+W
z4E(4Di`qc>)T<Oy#;`>t9H11nWyl?XcsM4RC73d+ha^$Eq!^IzG*Oa>5FzS7MUseS
zL>6~euYm**<go(g>nmY!tXiV07K5_JP;M2R7<QF^8s}kifrNtANvr_;TeCR^PgU>8
zOidz1eK`gIP&nwnvo_dYz`u~iEz%ApqC!gA1Zr82#u$GAa{dD95Fdd~OLT~EI~=O)
z8$i7w&;mH&7yydSEm!jr9%i((6wKXlD#zsCvNjg2y}Y#-k5{$8F(*&k>a#_6?A5bN
z<4e~7n^}9}O>@EM70iKxxm|Dui_UiVsI56So&C$|_icdPMAqt7ZxlTJ%g47Y&E@l9
zZE$Q}u(T8{QQi_=3*EEC;LuLd65%b8HPyS8?kzk9#C!KG>$mWLUW|9f1iMeL!xzOX
zM2^6jH&-v5d2=-^tGA6*FtmE67#ik7!*{itfg{VNM-|k4&$1727Hd!{YTHhA3={??
ziU7n6oY@>WcQ1N=+h%BN`lx~Gn51u?UKw9`QE>OKPj9$KN@h5uRIUoZKYh1PBML-b
zZ9?o+rAp1%N&b}=SEp}ZFZz3Ve=nS3g)>eDwQE0=4f*~Qi`Z70tPR^f%3@nSylHM-
zePIK-&*Cpy!n_4eM~=N~*}o-wSAS!j<s)Nve~pivy=OUh-y2wM{L0j8lchLKd3v`m
z(J)|mPS4#f*t~)(3g;p5Ypd4jKY0*^va<Mv`u^y+;)KH}TJUi4&ig96ezF4B7y0Ji
z2ZH=q1-$n@U=J>TH+IHI=LHh<4ag&}+;Kid3H&u+69_GDE_dbvp;(7KPY!hf@<4oz
zO>gBAZH*1Bu_96LDCBKAY`c`wwkxU@_1GiQ-5s$h$1Y~zzSf>!5)vDx6Nz{huX9z5
za-yD?z~J0}DhK-x27Vk1ElRkg%a?GXI`$M)TG}?@7LxtH==?u){uvxmb!mP+MT}x(
zLlsr+up)hm4EE|^k&NM|t-vsZVjiV}BoNZzyV3Qi?M1E27=MA1fPrKn3G|@57X5v^
zzi<6B#i5h@(8-OVbAJQ=^RThFZ*~igPNB7<*gDR)jtl;<w56yh`uBrvtC!zOy_wnw
zU${F`+<$@Jf1xmPVKaCUfJvN#@Y5|s<BQVpt8db`CE9{NrGqyO;HPx-al9$B2*2C}
zKdTduzpyx+l44k#8*CFgsO_*c2rlx|GAt@JEY4_hBY>FS$bON<v1k7iI<KRH#{;Ar
z6WCv(I=2XSJy>iuxuC$dAcYVQG25_TKqm7^JYS!jk$-#+>_N$y9E(5=`Sh?qK#B|{
zcDraQ|F8~TT!_cvQwjPCMeZj_2jkfY@}tv*5o6HtKmR-h>ULM3(A_U|_6mWvpV|WI
z`YlImNeyq<3s^%XEmC^Q6<$;E&aRRHy?{eUOD3f1;WT8)jFbh#tVlIb&Ay*uMx`?}
zM1Q2sDb>y`YfDLu1mxP}UCG`0wGs&j39omqC|547=y+XAp>2fMjoj_#btfO_2zN?*
zU7-$=)JQ;Tmv`m)wR0elc_*9`CxLa8yM0Z)HnV=P&~t=uALpBomUJWr&P+Q?20|Js
zM{~(U$a)Ml6VgI8xk^?-Hc<9J$wo*!<?b&v60&J${T?_-*o*3UTCLxLnxuJGSBdzb
zW(}<+Ek;0_Ab%Yp^;oKbkVXtO5fThafs&b!7A(q2$OcO9d0-=C1~BtBp`+&`^EoWZ
z*0KtRh$AI6`k*97cr~#$u&!M@z=!wU9fWNr-*lv;C9!o>OIt}tNI2~pC>aQ8q<q1W
ziIDY_H@G@@`)rBi4Fd<IT1m_$1=Zg5k=6($;&8zm%5wWwRku4z7>a|{^sx>oY3qcO
zDSD9oB2KJXa76PAT>gYRd0^+w_Do-zk(LF{c~*^%7FG`E7S|WRb}d~a%3?C@EWjaf
ztCcJz(T>0I)FWMo=>gMfZXR+aYfyBQqbfiD)C1}h{2Ucomtx?d*m?5fP}NLOoJ)%q
zw;&QWgd$ur-IGO2ARw|7QL7chkIGa2!6~VpEGkMY;#9vp1-VR=CGtdcJ(RtCA&9JO
zvFV}s#T@*KoOCS=^>oofIHYS^Jp>AB#;OpB<3R=kVJP>L7eh>P2z2hHERiUpk%WQT
ziPyiRTT{|F?71_<1~B&^W)mbyB*+e~DZ@3sIH_Du`MU$df^x0g1}RGVjYO#ptr+Ph
znMje<$s=V%a5~XXI9}}QAvIxe#CQFEqI88#i86T<>qf-f6jEe+e+WydJ0MB+LoED+
zDFy$jENcHHB~8;0>L}X$zbL~`sL>Cokq;=x-%+LyDEHq}-5*eWA1e&B;$y1fI4SxW
z`UC332UP!0sFOdTPV?0152)4;sNe@w_$So(2h`XH)V>d>*ay@Tf2*@EKeMUx-PCMr
Q;(A)YlKvTmZ&I)S57QMXI{*Lx

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_embedding.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_embedding.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..73399d2706ee6748f1868feef2b7e88e84f8fa7d
GIT binary patch
literal 24167
zcmdUXX>?oHdEk540b(PGjo1k81Q(DLB~hfPg_20gk|N2Hyuq<i2zZo00VMPAsD%by
zr*_9w>a^0dspvWx%N?IFeXLI8PI{u8$xLJ?UOMT5C(;G_MxJs`+;gV$XJAViJ5FZ#
zzWWw{G~}c|=EuAP-1pu6zPo()+wT3T#bTo1No#&Dl}S<5&(I@3S_!zjNK@2RDoG{j
zG!@0SDotlpQB_7ARnzEKr!^UERGZO7bs2qBPr~T5A!>j)P1=|-MNK43o36>2qh<o@
z(w2-hYR%Z9HsaT(?U~wWErAW`x=ekvp1{VmBjb!Z32aKcGVZ85<B57Q4bg^-H|ov!
zqP~nj>dyqCflM$OB<X6>jhRq1lxd1KWtyYSnU-h^2{)%(Gi}i}0$bAUnT}`&fvxGz
zOgP#_U|YI7(-Z9>usz+Ii9{orzGz>jKiZ!ehz^kO+VrN(V04hcb?MESEzvCmu1{~x
z3`K_s>_~6R3`d7EBhit}_UQJ^Xmm8QBf5j8R20+0?0f_I6rboW6}6vAI-jGGE~e=X
zwG_IWgt{Tr!|YZ<$1c+0hJV5&N5U$>I+ndSo!HMzGi;ojVFmqH;<K}<>C<7gpdOpP
zC}<~A)A6*RNyM{Um=^TMnXk<;1T-9Hva>VOSq4fm$Fo_6<zmy!IffMsGvKnRBm)`D
z<I|^8)6Cv<ikZd&8uy-wb0?Y1Y&y;{duOIO2%eZ>GjZ<dESH*@h9nlLj>9vjPcv-T
zAh^aer<i0CTD9jQ$7JPt1&0!jg-W>uZ#i@Zs$sBHInJ)c$sx5BA>!u<&MyS*i*s?o
zGS0FytWvr0p=|s#^T71vOjuKq<pjf?6Tj;MCs>ZoGSg!ZU>G!BFt3ZWpJXm@Cuhzw
z)7fJzv=n=%eqDyI%p{p~7CZ4cGo55u=&s4sY4mT%R+E}eaj~@6Uz&>klD_ij95*`$
z%{ewRlZJ*!UWeq}kZ7G3heJwsEY8L=*cxYsVNWx$I8K~ciW4UeMwk+3=BCfa(kYl9
zTERrRao@>{vy5OJpH9r+0E$Bmans3Ee0rM6W(5a>aZGGhY+URVj<Mj}5IRFXAtBCe
z(X~pRyOXdCo(JT@P*FNbMOBN`B%P$6Gep&lCaGeyNj0NOYUcG6HK|EzpVPb{WsK^R
zI>rF8MhMqGr-_=B^finb(=$3Lm!Tq;1#(y?RY@b{umNlb*aUDb)K!<PVd|4+#tPvM
z#>u#nnn_gy)QA5`L(&52+(|3MSurGOV?2<ueo{x;Y=6!iZIDW=g_K@WVjbg4)-(R3
zg9$Jm#v_&|eoxX#YH~6`#)U1FYnwDDU68*~`5xu_Nj>i8%t{}G?vut-k)~;px<E&p
zPf+0o7)p6DekFAwHJy-95b07x_BQz66~OrxeU;*r*h`um^-T>$<>(ZZQ@u+6K21|O
zY6?O&K2y4lAr!Ts=8SS^PJMx90sZIHQ)Jtb!^O9Z5_42cDJQ39gOFODFBKWsy6WMO
z8+ucGF2d%t-v2s%1hA4eJ2#8SE*2xJFD95XxL#ukvPuOD&S!>|y_!?t6&jf7_^C7#
zBMXH|#%9@>1grr>4n8Puc82A$)gmpK_=OmQ9Un_G)3CTSStdOxXyWYYte`u49^dRH
zXs=+5#S&@2#<5ryM<WE!GoK&p<1({-v#Hr$4pK5)?}fRc;caJ!n7(xCRNw4H?##?|
z-??-;(+Aj?y*N9Qn&z^7Gl0C}sXjpLh`q$>aScaiFS7km_Pl%jREWquu?-@#v*3L8
z40Xp~xuoX}o~72jA$+a<wjsRc@fSQ{-V-i(hIr4=qUD~B>gg|<8*ZD&mokOmI3FCp
zt5)@x7B#De&W}x$J#Z~hXd1oUG+I(q7H`4a!J9h(G+I6|cuP8}&Q;Qjp1V*dC8!hJ
z1wqF$+#EZ7B%#7E>B0H(Ed1|216$-FiUyofo}rwQGDp85!3(qzXQ@oY$mPI0M^~Gt
z%Iu?K%FKrRRp#lGrJ^til-K05Fyo$r7XGpNs`_7OwbX(N%D{EC;mN7w`e1$3%8}Ju
z#?{I3^0%?yfl{4vX!%_|e@<0Be9BeMDMR;3>5=2h?+bJmS28_SB@RNp<&-jXpR)aO
zeEFTE?~^uIP9sCtRc{zXcw^sx6~<vfv!Kb*F}s}lBI2GF*;jtwr@q#53K@c)?~vj0
zyLx_kjIXQZk=xkD^=%uXF4HgghNu@}@VB*4T&G+E*Cj)fs#b~}UeIzqa>!Jl43*zW
zja)au)dS@i8R7<ID5sUv%I}2gF_^~-+NZTAr1yFHJas|+7<HchGxd2otUWRTn9Py@
z+AYRO6rtc>=SA#^6k=?Wkcfgao=nD0i^M9Bb%;NKa1vaYEHypH#3qqijb#9*0&ynP
zVe;%OlSn}zM@TIoR%^vvu^Cp%4=7Yb+Vic1#tWsUL$fSXM$X{FdLSIgsBGBF;^x4*
z!4c|XnfS$13^a<1#gp+_AcwMoo)xKN!JM99<1yK1VF)b@2pWlD!Gd{6t5Wl@kyuC>
zETQzkYf8bkkmcgj35La)C)lC2a+_d}h;xEL`pzu78{0F6&K`93fg@O@+QhbJ1&dg;
z+-F+yF@hs@YA%&dLK~67ly@uB!}0VSLpnn+A_XUcI+4T_jLd}uL&$Z(nP3^9<YNpH
z$54tyL#wkK8`iNy*qR;K8e{oG4azstF@a{XxKHCg6$-K2F=<W3ht8L&c|vYPD&qD-
z;%p8mjQ@rk%{>!kt6#0}Ty9yhMi$j2RlvBl*w|8N9O4^?ZmNG&^Mjg|#(j%>SIz#l
zU~?hZ&j<Sp!JT|?=SpyQ!Lxhufuh@2aEEz!csab{-n@9=BU{5#%gfy_cCU79U$u>v
zOq8#&;O*nReMN`+>Y*!#ijIH;6&#(sqqErD_FDHV-G%1ueDn6(&BtzL3%ic-yN(qH
zHWvmS<Od!scJ+R@`}OWZ*CD>^P_ete*wOXcQ?EQ#=osfa#!I!7um3J(^woVz8J%?>
z8#T3cMTe98+^dfEQiyVRN=B+@bD?{T?;b0*hhIDU%GpBu5Z^vjgr@m6^S;eDPJI9I
zHy>Z|jg_=i&mQ_NrS5_9)a`Yb)vNaAk^#%;qZ-EOUzF@n%V#AQ#Qg#~uh#eN2lBS|
zPbigf>m74l!R+VF{(J!XYhSV6U8wKn>wB*!ZZy3yxl+I71M`+&mb8%aSJ?|N3cpi3
zv6KFz9pi)4Teb9fkLInqJ?Qy~jUMmQ{KRfSI6y<1p9II$;CZKs9v{%W(`-bz8zbK7
zp%LyQ?f`KIZ4=wo@2VmbTh;IO(+Ce}A?3SUwFqxl1I!+P%Gd4ixKjhhrtbbJI9GA+
zRwz&ikRI6IrBGH47)mwmg>=g9FQ=k_<|VsRRVsBs#VHgb*&C((qnw-22vv6e>$J>@
z13j%e0*tl^sXL(SPIG4j7st*`CvZhcSV}}&WJ!m0LNJy+GcyP4buL?tie$G!{Q{vD
zMPd|6WpQt0<LDq>2&=_aiCxG37C2e#FM08?C%`k`vXQW>f+NzH^(){!L#@@=3N;bF
zCbE2fwPvW;5V&-3tszio=;j-`Z#RrBbA`S!zHe;t;72xJ(cM&R=_<60@hxM;#`Z$v
zFyA<QPp`3?N|eTEVn?CG>LWS<WA;4#yykiB^SbBt)hRbl1KG)g+|{M(G@3Nh-_S#R
zl~Jokt$jm#pR{JFx{B8~H1|nch5z`5ZjoNpENT~Zi~30|@~jIg5`uo<UBR!u1pMpS
zPUvhcKpKQty$X0JnOZzSLAX{4SC_-fG~p#>cc!U}R9JT;QPE%uCuu$W?{0!F{+9MC
zb(&fLIo$$XCXO%F$V+A)^~6Dn`YLqdf(pn^oIK>osW^p9&Z#dMFBvYGfUJ@Rq)fa3
zDW$GPIxlEp5h_fcTq-Q0N+N{jYUG$Q!7&e{^aB0DVGYG8M0E~`zv~*AU|P^|3i*6V
zKcx_Ia#=7{^iv9fye`yH_Q_C=%IU6a-;ll*7P0OKi*pKAvW-YBkXw=nmKu?1OL8a$
zF~J@yNj-oJfekpxT!6h)=BFXdvTo4}W^RU4D3{l@f-031^x}q_6trZ83z{Sfr?hiO
z@Puoixam2N&j12pvFR+5e1g5Q*jOqF1P@60pf!RT5d@O(EKUHyB#|nRMleei#kf=k
z+AiXg>3D_-o1yJMuw{i>sB1l*64a?Ae3M9q0W~0KFeS@j4J<lH46vusnMCIdID%VA
z9y=B15@&$AVG?JVWENK!U?zN?!AGPI>Lt<8WO@cD$5Zhvvvu?Q_WPkMksyhTre_lI
zbarQ?O6KRFn(Uu}17t*TU~qA~7;4I!10OYa=X>`4UGu&x*30V4kKJ+i6up5v!NH=Z
zsn|JGZ0#$y^xiXS8(sIb22b5(O{tD*?JczI;9GX&?V&Zh^Q!rZdFdo<yG47`t0(f|
z;gz-#-VVQ}l8<T`r|$(RXRsLTD+VI>v}&hyaUAwxM_aMpb#>>JokfqY;OXQ&okdr}
z)#)qKMW?su^4+V^Ijkj0XR(T?5?ZZ1NJx=&{5=4^rKv=bm-LskmvrT=hp;uUY8F(N
zG}X2~2vtz2Qa%NticqB-3TsW3RDD~!PDn$QSL#$1B$-po_@s;(U?pjAJG9A?KvCwG
z6{ic%6gC46EE5o>BrhWQ%K^#F#lw0wjIrm@L3)I}hz>4!K{J(|nHIFkxy)=fY+#?o
zh<S9#Y{ZeTn3AN9--fWP0UUYSiL=fuO&lVgoZtM<oNgr7t5`B_#4yk9G;Jw{hKl}<
zqOT3Mzh*0M4leGy+_vN_St+-d47e{?@OAUP?qY-g<=~6Kq9;&n2!33n^H>)T+_O@S
zuA;NyPD9{j?~C4R2UZ$-VG`loP)l<|(2^A*=)@%=Xh|c&M#8-a8WhvAP0$*_wqgAd
zvPxW^WTldB!A$}>P@(AAXCQ!m9-Z~enJstVZ-qj;;SoE~rf?eKlAI5Ic^~2!X1@u}
zuLyD9((x*{+OwPQ7`ruC*!wWQ_u-Z1NAiZoHJPR!=ex!iZ3+!O%r_4&))bpsU-P}<
zD>M!9O+$;OPc=a!^bk0o?xt%2Y^Th=rPH@-+Ljw{9=ILe_xJVfEA^dub7#@wzox%!
z>G=El#y{MdH#dD`_AE7iU=E9`4)#gqK^S+zyAf~*$*Dw@fof|E<~u#VYd^z<xHC+M
z;Mb09h?$&Z5?tyWgv2kTGIN<w7MV$414AN-7=o=OL<EQ^iwmn*<jYyy(8Dwto-DRV
z;-&nAsYLp6b|#xbRY+Nmm!0q4I0DF#-Y4;YghI2pr2xHWt1s9>ye(9)MR;2zZ-{&e
z*#^YIIx$<0E(_Yq<l3Z4-m4|yE>#WFkRBV|i@QT8H7RxilSJ-ZlA?x0>Ns?Y2?2qe
zBwfXwNo7OQz7`2<*snl?*jjXu4q&%{1D#0b^#OphxRpz+D0>Rv`QDAa^ra;D+gL^?
zI52B<l*N7d{A$zo)g2G!L&sOlCqAKQ%RtfYDA@aXdw)r*mPlT~Hp8YsQ3kucxK|4%
zY0rlJG*O9kEl@OKvAf@cVHRbWK(6Tk1=C3LF6gWCJTg_dU?`Jp6$G0;XOIU#M$ACy
z0m34Lo^iocT{iU+sBv>zaMd~EOVoF?3pEvTdJ_;}(n47<C$$Tf@|KXZ<V@Ffa*YdC
zXfuA-h9_5(v*y%La}~<@x?UzNiEOG0NjHUC;f5z?hVp8vmzdLViZm2bRFP{Y4N0TS
zyInWEA&ts{EvK8puHW$FZ1UIB)C>Pc14QEqipafc<_C_6Gd2_tq3l1+$O5K0^j4YI
z5kf)D8+ye_(fhf+mtcTiSn^0)3DoN<K_^C%0OBPIJN5yLH_Wmrm|@&SLaDy47DFu@
z8&5E?GfW(0KUwxqAZ6IX{sFw$EIMuI;I1mviE7-F73xYBrL!Qc0hthJKu|D73T1J@
z3p#PP6!d^m;vC0{Tgn_nh3yr4$Q4X$mG}EuvBBSlK=xl^j7bvp&45fz6d)1ewN64&
z6{t)win>RnKFuO1GR}fs^i>eH^<v06@tCZ;<Ul7YIM!zoyH%)DR%p3ZIPH*3sC>lT
z&V%b1v67<Bky<d{u@RlzC*fa0*;z1U5XD<STppkg(u<~|qb1+Em3Is+8bS8~lB~c^
zKCp8ousd(?e$>%_$LzX%G2gs-#k}Qzs#TpP-rTbIz~vkWep=dJi@XxaHx1nI-0ZsP
zzxBxbkG+2=-}q?W><2{EvgKBKwfRKe+z6$5{fh_hv<w2Te&g^xwW`&cH-|v{WvLaV
zLPdM1Xm2gL+lqluA<)YQdO<8@3EZQ!7Hi2)HMbX<2KlDJLemJ}G*Yy;6zxIGA}1~e
zyYDoFuGQnlygYTYX{BMbWTBe3-=*};P*V^-)#5Ig1H3tq5B7gx9w_al;Y&&&0I+-W
zhK64diQ(_;b?x=gf{{!;GA&FZh(nmrK<CMi9ssgI3(%SCwUQMY6ipc~!WO0E=M>yq
z-lEta+=o?F<Vu8@RajNIArz%xVI7oEg)IKM4cKnP;8o%l4Aa)6io{mIhYO&`UN9y#
zfT=Y(!`XeXgaT#$KWD6p4FT)tG{DMY@4zGDtKXra3>_(BD5qsT9B%vMnR3fe`JL2Z
zYPk%Wny#$ZRIT2mJ_mWK)ypY(6!5g_y0Ryopg2Vrbg2e3$-^jJ1G$@8t`|rH<NVH}
zlHo~+n+Zw!)GFANkOhp)cFVLuHZmWSNv?7vnNt$wHSdz+iCW?UCx_oSi8O{x!969?
zX))ya7eWy66yhr>@Ei)(7odG;_Ynylm^qIoGd-b;Gjno7fNpt;#K(ZWmXo4R0?9<N
zJxBtU+gMhJL_){X3^2q{RB{d|M$92mjWd(w{E_*;{{O7SA^c#XJFhaH5nvi?Dmq=T
zZ|rb+_ka$aKl%V}R&uwr0mTi<3=lRTy<Lq;4z*=_Lg!QIG?J86YM*bGXN62+mxm@R
zRm1)<te3EjJqNFi1Sry&;-0$|p#(Z7!4Y(#42gXhJ(?6)8j&rRMNOSxi@{7v0r$&@
zn{U`$CSln>!!rIYI)9F7K@(JIb-)5yN3l21c@v`@Qb~k4AZnaU_B1Nuz?f&9je?})
zfmn6~GFFOba03*@GwfeL)E9ZX^{xG1m>s2!zzG8<>+~!c|M1A75%wY2zD}=(Mpj3U
z<r^PdtvS9HXetDD^MT#B+$(_x7LUO0g!{`LzG=@&(>~lSbQF-&wkF=zl(+S+1$SPq
zDYkSJTDI`;vxgwMai}5)Br_$Qs`e<2wggQjtGc!yp)l-Q_J+K#`?jt7jw@7jbQT<a
zyrU1LJmKMDb2pe6I6*t3ak}oRb?!Qlz|_{293)TgZCmf(*EfCS@S;+vq@o)})<8t$
z>H4`*>vX~A`Pzz}%>~bP-m|^fdAQiStJvNL<u!~#c@17D&*y^jAgP^lv@ValZ(OZE
zo;M$d-mp6_o#$=s*UsNC-W*x6P2>#|Uu3m#uOj;!4oaoar;^o@X>DMy(2Nqqqvt@s
z!D;{o&HgzW@TYoym%>`bWr`HgS3I=QQZ3YZCZ3g2h#E}XfWsn{st7R&g31DKg&Y^i
zDN_kfX0)#2_*XDmf-9EFf)e<Gq!7(YT+n>mxQwPH^<ULw2Vf>;d!bC3=Q{UoZpGXR
zx-3hiXm7qYnYZ_Rq6W{Jz46+)yuG)imvs$-tdy0A=U1Q<7Aa7{EQY}H0x|7677RD%
zXW@VMzk?&PV8Ac{yzv3Xh(`A4J8EFis3{zz4G(ODu!%u#9K;PzS$a-b9EA`mC#xzi
z$MSU5O9U22Axa=c6(S?42Bp8$PS~KOIwi(MH$S$QXnSEwC^RtHOygDg7}Q=T<7_2^
z9ueqXb_u?KFdKv!VP66-i13ilVE+|5$gvPMf_)jGYv>?r4vB^kCNkvzfRHj;EQ%)t
zTbas7!^BJ$Nk54;7s>L*m?+hbiF}tVyjH$uKC*GbeR=w0IP*{lMs(0XxdxkFe)7d9
z^ZuUYvE}sglX>sxqHWD!E*Lyu1XVQqz|N^y-vko9LPMBu2m|44YyiU9XhH-e;jx0P
zlecwZO0yTU$cc;Ijyq2O(utQJfAR6<t{d?c=Qbdm?O`CCQGKR2nk3SAY+!7VUZ+Jf
zKoiN7-2@ZuTl8;c`vg-~QRzT_>4Aw;Wh%<FBiJgbvThFRBhMuZP;0<fmvydSy+RY~
zCY5O2bOO~)YOu4aIw79{xyE!4v_w(h$R!i~YLzKmO}!(xPN`eAtkOWq)#L;flzfF$
zK+C!0+GTvog8btI1+CXslK}v3rK(vm$+?N`Q?p!V`Ta~S<ZCSZWhkkL%}=0i8~O7M
zkHTT-xehrBdbUa(a-V>l=Z_>gk72<GrJ^i-!;>@0so7&?rC`~f2;vc&!?R%G5D}9n
zXG&_2pqKOJ^n|DAgF29g+3)~8Z^~(rdy!RZUl^?#P#vPQbHkHUl#?K7ISr)`Zb$%L
zDBbvLN(b4{)Rrna&2syp^gjkABjO<P<kY_p<;MK7{~}FnucnCG2bNb#3|L#Wk}aUh
zm~u^We&C`2o!}$Ci47IKpnDo*N5C1vyKF-R)?MF#{}WITZv5o=e^HNUt2N*8oAFkW
zBZ8J}{Ga<pkuWJA+4Tqu4no=PJvN`zG5VA+t0h+0J{5utDE0W~uq5JJl;>1;w)
zsA1#h6>F+GBHCUj!4mY6C=2Kb32$$ZEg>nw0y+Zf8rZJX<V8_>j`TMBC_0a!a}1q7
zK!=FIeuxnApCbK!9Uu^JT>!(hB>Of7&!N+b!FJGj&ZW6>qXpx*Y%3MEmbWjVrow=O
z{Zq`3M2EPcJ%P}xSR9>Vai0_FzDOF$f~|_~F)FY~pQD&S+Wo|rM4`V6;q%QKH@YwO
zcN#ahAS~?9L<=kPdJ8KZ1qM^DVcs=-v*kzKKj>a@O)S=Y3`DE%PDAiTH{SrpNGlD)
zh5F&Vc^Jh<Hn2%D)|U+Z#;rh>gALWLE4%XbT_3BdTIU)XFm2*}n{Et#f7hG43WEpv
z!GkNlLj~s{AeAlNl9|Z5w()^&H|tjdI~I@J0rRZL_1;z6HjqT+?QJEU+5*z1V8PzT
z+uN?4MzfRMeBbU>`xr>S?4Ys`d4w>r^BUmY1NlwIR@@Kf?GLUswN<hdAGP)_Ckm0>
zd}R0EwT=N3ahblnV-1a<B7A*hd11AF2hiqSk=4k~Tb7mZk-Ve*j@z5}_2wauZ*0ZA
zCqMqkZTBN<16v9MNBDswMSo+yY4FCAx1PwKd<bltH+es$R6X9jrxW_2p+z)@&UcNh
z0)yZ|mIWA?<_W%e0?f;n0?XE$mRnzgY%O5Pr3%ztM!{dLuV8NiP4czy2lk#)8`ZXl
zzSl{$4&Us`w~V8eTL>ClI!#lKkzbTtl<P44`8@~a2%-XFMCpO=wcLpRyY?0L@CWwc
zUzXGm^?4}-E&Hrwg^GT0uMQX-Vi88Z{(dH4{~qSkvt!f&H~p5Hp6J!QrO_c=vvq$5
z^)^jU^lRQ$wIkd~L-^ZW{)s{A$2vcR{J0rIe%vy)1w8L~=>09acN!u9zpJPBx9Q$B
zv?AQ2f<#~ghVY<qe@OlAXv2P=`aLHN@Ov%|gumy-g5L9KF(gDn+A#fl9mWF=^?Usd
z2W;y1jWodTo3xPfeVZ0xhZ^AOgc2$;ep5n;5HD3Ic(RQn4Z7h;Du&x+8;6=UKCoq*
zHinhA1wv$bIEDDR<OU)ufSVj>)1@tB<K_u9(bY(!`?gV0-khLPK%l`NjG(KPu!$O!
zNji;4(h;SRc0rfaf@-Ahi{Eh$OqAJQR*$P@lAcsH#s$5R;@onHIekuFmF&{Xy^u7_
zL*hyzWWfMJPxU#PZBNokW77D~XoX@#l{8|BNz=E%mMLc#1sLBLwqWFxEk38?LJ&kA
znLNsdfjp@;BWk!7Ic=E?n8H0}!vox;GJ6s#ngY>inb6Zsq2_VJlQhe<vu^m>Dk-MA
zHe><sf@%7<er?H?Ut4ld)shGA(+k$hUZ~bmd0c<Po+*!oiHpcBnd+CJ@>~9nY#XPL
zrc;~B@iLUFEN8PET7F-*$t8gxUN?mjy$#PZ_4oO9yZmj^s1C~+tCu6EUZ}~LrqFJB
z!&C9S)!QlIiCoP*FnJ5+oH1F8Gx!-DC`kdvSv_q*=z{73Il`7RqorL!olub(Z%o!H
zF*O@v>g5<%e-(Kyt6p&ZGuGRESAEifEmeBJP{ERfAc8!wiX@f<Sqf}1)cz2V=BgK-
zC+<lgoRO#_PnlFFM<aB=m}wUbk6~($d}!fI(re}PFHFd(w<23>;mV^}RmP)ygO%GM
zw<TwlL-zrmd;;dMgtI92P8rY0;|1zx7zyl;1$)l+^}ndVKemcF@FjDeeW@akz0Bfr
zJLMKtsJ?zTXHOal8~04kmb1@;JZYhp8<SJ!YOg!x)-Tk-eo<vtlrSZ(gS~RT@;g^A
z=g-2fRuxyeat4sBxxb_Ab<&EFW;8`{`{eSVG-(zjJ*1Bu73`KV*??g=N3ITb0`GO7
z%y=$1bC#+7av9}!PWd)q1^?zgt@C5+HsWYhw4DPUp?bMh=P%4!Y@OVGxmReI6EB$W
zQ+J?R-N3Szd**=rHQYf33ds;2AtgPc;B{bc+vV7cG^~IlvX8KuuIlaJ9+Xq%TyneR
zx5U!Ao^}zI7T#r+mav+^`TwzZCY=T&s1S$`L-Et6S>`n8IYPuX6f|4NU}a4*V{<;m
zol$gsifPn3tDuNUNj)LkPC)`mSP0r3ILC>)mTYKd8qP;EN}Zq)0ZpBfIRghhGjLWX
zlwmS6>_yNAfz541iN>;_sdMQ#zR59pC_5p33z{I2h65iAr`^-(i{*?**mt16z?1_~
zz<lsHNmwCaUC%j#u!dr9p>q|Sf5M>^&5t#L`8<<4eTD<2O?ECLTMvt2LXBwDkeHc+
zBcA6W)BN!G1vnZ7sYA!aqu0m9MvKS8%VuVffN=D9_OmB+8rXRDYgj2tyyqJpnwAu;
zkW4h#458w4Bm@V-wZ!gueyb!&7nPczDF`Lt>^GDHW?DyPpuejR8~b-yO97oCIREs2
z;DJuUy60_sMeUTVrkMAlqLp;i7qk^b)<8b_WLPVTnK>v!&`b8Eq8W1{4pzrW>6DmY
z0F%g676RtmCqQHY-v%1x@>C>!nI-KOzb!QHmxc}7FbSP38lOqA;c$hdgGd*Mu;CPb
z8?H!Er)P!ZS7hRgX3*?kV+;-zoHd?Jr#LXKhOtXw=t&GUJ%FkSax_a+DmG!LhS-|J
zv1GK>j>SMG63-G7od1j&m5~#)aNR@VjG#LSifFj_K?mXteCvtP=-?)?*Un*yDsD#5
zvhiuSjbRbX2%+;sbcj%dNI!lLz0K&nfX?5b^B6c`Pg&@}{w)Lub<%8*dlQX&oM2K1
z*GGskSv*FDYaGqdi8KYRdf-4W!h#lrLSSkn+6R@(041laDT)z`c%3xw>y$O2Bp^)`
zYRbmz+45AAjbW9<LcJ_P5~m9(oxMW7M6n1`X13sxQ_HFdF&Fy;cE|`gSr0fe^4jp0
z<TL*TQp^X&<?oR+U+d<^pTn}xeh!<fB%1N87tMe@Hk^L5)qRP~17rwzoNWj1-ElMV
zqq9FayW%~#c<8^@2k!)$UwniQ4Bk}d1A{Ap(Smz4Zy#O5!diG+OWxM4h!66cj<2{+
z<n1Rwy0c>!C}WG``@vRrt*5Whv-@_>?oX*Bw8h1{IxkOMYcJOOujvY*0X{TvyMAEJ
z-(2wb^8Vg}e~|YN-q^e1-*$Ptq|!M1@3eI;JD2Ca`_$`C-Q2d)x9`^1_`U;t_<@zS
zgG(lm19_VB;qAP8`x=}Y@98ae_Y}MO3tij!uI+`cF}`c;R(PfB@cR$)T}MAQYDYlI
z(zQIod$xjIb@S#M2l=L5mk)xSy}$k1<Z5Kks&6kjC5Xq6Ky}-=^`pj?YZEW!3XPlj
z#?ATQ7C7b>7`m(0guI`iwia}>p2nqfFF*a_)63^p-CNhfecuhf9xQ}M`S9qARy1sK
zy%u~Wc*D2aumk$It6z*B<HKVwTG#MEB34xl4*gJb^Wh&o`GY4{wjC~Pdx+omP=4s)
zy#Eo9^I%mfsLFtioc<p3{q&n@Xy=`9<h%aY{Y8J*_u9VS`(`g#W_5X&tRUR-1Pks6
z?~df%;*m#Ega2ejQD7<7bj?+0+Qv6+TL}zbo>&VH6~ZHYc;qL}_X2MP^5Kz{@X`G7
zNBQuhAkJEIH(i4Q2lDRWwJrOXOxJea_H2T$X=u5&bH%eMzx4p`IRL<#Be?YRiX(EP
zop)@5cM<#xD~{e9wY+1~2aaCI5@@;KIDbUOnSH(CUq88If{z{EamUlMJPEBHcI6%6
z<*pUSmeP!h^6UT!7EYwk@0qDU$8}TQHwYc%>|bl^d&vaj<Lv+Cy$Mx0igxxF+xq^*
z1OhE*|L3I>DynykE}c?QC+Uaj#iMt;fu)3a0CdGWuz2XBV9T{b;J<7t)(1dN$JY<8
zfwWGXDQhjg%hPb8<MLrR?IA(f5p8)-{~Z{f-1i>({#W1p>Z*T_=u7-?%MJ7u{hiAL
zxBWekwtMKNA8gZ?Z19bJqqiDYBM;_1-53!mbdB;|qc@{`*MTJ)nTI2M<H*fjtBr?<
z5d)qjDK-z>=(^$0?|391dK5aR6=Zm-KoAOxY+Bv4=ho4c-jhXt<YToef^!|hH%-vR
zj)5CJe8(;{HfS9xM*50vVK_Rn2~tEr)7a2i@I-h|B;PmwfoGy(R_?nMy>&S6f3Q4t
zpq;KzzGWNl+y<tH1xFX}=(^+auLcJ4g9qOC@`EQ=JP(1Xq0<Eu(H|=Kw(!0!Meo)d
z^Ec9Y&t53V@50e?l^B|89JmKU<(7^+cE=w*vD!AwJBQ&w%*~^as>O;@%SI@~;rZ+%
zn+F7yfWoSuJXJ%~ud*({fzQ?+-$sASf80R5Ndxrf{Q$kyOdkqs-fB@J+>XI-bzq9O
z)d;_>u_Nrz91g19_RxoVbZ<AP5%xzQ{Kqw+Lw%|rcaL>|=bbvt@J{_6GkD%>M9+Jn
zu>g49-+`X@cka=H=chXBVZG|74i~~bG?ewzzS_eY?O##Yg1=JJ2x|zeuRZM3{*_0C
z;a(bH-=6K@`CAv3_qXmb3wZLa=*hS30GMw^m~UwX__iM5+XmzDE$Z8~4afV{x4USB
zyR{hJuSIx^8sKmX`!m=>1XC;qMrm_!;RxJL5{rFpE}j;N0&;%`i?#qP()&as!aj*m
zEjoU5PM}kd4$3FlZ=$n?4pEE@B1GsHH$sFEAT)p)y-0|#s3#HiDSv?wAsD`c5K6jO
zWDG@u;cbLaC&A*z2j}3$8%z>RIvtC>PK&!Hj5W2J=<rz-DG_G~fb3sF%xBM0_f!_G
zsT8Di){?4OyLHXdP}0I1X0OS;<lv2gPxRoutCka#4$w7PQ@&@SM8W%gFvWpa$xEX5
z(Aq9i00LNoZ|PCq*tTrpjaxp^W1v(Hi9euHY5SHFcPV(43|g(}rsFOJuab3>*1KkD
zE@|NnrFgqadW6hi?o_fMWTi~j#p!%t;Kt^BV2HPF<Bh|2Z5VTget_2Qry-Zav!uQ<
zT+)kv1Lie~u!%Bxe_kWP536)q(+$mC3SK3<S8F2m!W&BPK)nbVsD}2E5g`+9VcBbY
zmoD(`&gIR#yRTG(;bu5^RI(rhE%Pi{@|~l+XY^(=@7co}_ujQ(%r??PdugeQ5x^c2
z`}m$7{Zi+UsDmn!epV%=N1!r2`bqkGDg=pf6B*kCjIHwEq{Qd$Pr#|X=_yG^)kz?B
zlIm}(k{Y<lNDH?;>EN~}J-H3Z!008&2=_dh7$e-yWK5cq`bj&v2g&lBHEJ?aNeA4>
zR0DT0K@7=fW-N>qA?02sOVq~LleJ7OQ-cczZg{GbQfNp?brrWI)nhtx2NWr7QcO_~
zcRM-AJxWfnwQ>rsbys~U#Gar5$}>3uhunN{5<JVv>P~XwL;0Ev8(Q6qcP@aHP2wyu
zml1Tt1T`yIW#Uu3ui*&08`>=14?)3lVQF+wx|6`wiVxa(pj8L@?>-C;v6F_k_*^o8
zf&tQqHn%xF93;f`3l9jsz=k5G5`B;Yj`7CiQsK-4_@tB+o;-&0?i$io7DU$+3pf9X
ztpUai<*p)L+Ktc{I@nq`u!akLW3Kgy#7`phHDW87u9gUD6n@P&R_}1-)}j=ALl!yk
z&%lbzMH#K+-XgHMDb_a>ec__NyTVw<N(H;|ej;yi@F>2+#qNnk%?E}~aRw8f?mZ|=
z>0p2<1N@(b|J^$HELpb%5)_Qv@Km!EdqYaIpoTn3r<OAkYqP2nv-@38Aj_7Bh1xpX
zFk+R4#xdq{`7#8ds9E0dfVCP<Ab8+f8M_F<xoVgI-)zHa@dkV|KA@LUuQ&ezBL)qT
z{AlJ^6k&?8AVOou9sujI4A>2@$b^fd2nXdLyh5;Zf?+~uIBqsO($|M~3!*$HBHmyX
zNz7#Wk~4{HUwk&z%QBM;TtJdw`e31nw+d$aL}LM^a+F7)=`^VtuaB8b!Icak4T^+_
z-86=0ph<}=NhUTaw64iz=?;<Az+EWHoDff^B41x#mq)@TaYbB&V4+rCzbU*TjG0Vb
zfZJd26sLj>Qb|#eK{nsrSQJ?=xP}DX8IYT$8QEH{TD>^U#eEf!oU~fRwE|`Z(uFQ^
z?||h;<t>KFS4K7_{B2x7zYpb!JSl3Oy;mQ<@_517%{#kSoV|-Ca&oYZx3%T1?bqT(
zJV)5d+gh(ZexswXX&=97-->NKZ=FC*^Z~TcHP!>CW@{}vd__+SUL65HZ?NF);k`Y@
zaBm@ekPjccXVKeCi)v6-yL?w3x$@+-y(`X6u%XKvI`g*9&$Fn2e0FTd9zFdwMeosS
z-lnwx6Jgsr)vtp8K7tGz@E<G%5&y~481DZ-oJk(I`aqicWpORog{g>Ln5vqQCYXg*
zy%kJekbqSoH;7x6<wwM=xbSUqt>t&cIS)l7F1J&<g-QLi8pN%j#(f%YUXoQ5fQ{Lo
zKrw(}3G)3<0E>boCqh3(X8;|PHkHj|09O-)OeWDQ81)1?1o>j0Ao7(EFP1ppd!PAJ
z-9+aloJG@+57DrR@;0I+30&X<r-T-*cWRuMr(eyi)@%kNN{}>^G-_ZH%y1`M6K`(1
z*0BtC<Bam%qpRi}K=0Utc|+i{dwMuF^y|2Z&$9uj@>Tzsih4_B9P3lRRnsumrGBfG
zMz~80?z*{x-$_t8Xo?h6UKX>1;zQXHA*J+`PZi1I%pQah#U;4msh+>uZ6)_fY1&XA
zc%dd`HkD(`R|23>!Pm*G<rMUO31-|kn{eNk=M$iB@oqZBdQ(B)<SrYhjJoiKsxrL-
zN9roPG3mxaX?y<)G)F{_xNivV^3jHMxkPMffet5hfjDQ8X#tW#nUHV=2RXt3!ra7J
zK$o02FLAppPfN@+-+aGmiH1<(**zSlEXs-{DVqV0CnT<(y>fQ7WoWf#TM;jk8sUQ@
z%3Vym`1W1Jw$9fcf93H)+c@7gUhL^F^c?1U4ucg_BOGzlG+Gyr0tIew%-gz(?)JRB
z{f^Un<q_W5xm*u8vS91Y8+zd+gN(O^_R#cOBlOrV&0E{G0J9PNVi#fX*k1t5evS^#
zLl(!E^`V0!DDqyQex+E#t@R^>$dE-sL}cyALN{XGGBenMu>==jKe4|==U3p6bLA2b
z_P;R@ok{GX&j0`(tmp~mHBLAc(YvV_YWt+#0W8d#yQQQ>0I2@j){>rpCSXODHN2;%
zR73nA)AKEzyfR<15U-W$n4n8G0^6zfu2L-l>nLxqL<)r}OxB+}N$4i3qx)lEaKdY~
zO(iY7p(0mciM#S7vOQry1HisL!5iT;26{#Q#i9)YgO~Sq@s{qA7JMR465x&P_w?YE
zSQv~5nza$a48pt2xqPYz@5dB4BEg4U5#Gc8F1!SrB&h{@AsdOGO0Y-{6Mh$j>=*HJ
zWfsu~i+hHs7WhZZrk{i>mVrVcqa)Nxz6glD$t}xS!iEdAVhJ%~ewf87SX}F5_~0ZD
z+~El~oZyYi5tzf=3^awz3c)8uDc5^O$l99YQt2#<b3|}|A%)02khvs;z7RV@t_Lkw
zgBz20q@KtS$V4OJ0|!QsiRQw3+V5AAa?vPhKe=9yMPa!pqCg45ug@zoKx7RF4PU58
zzIcuZI0QS1CkN`X5!4y5xCgM`!HQ}~oYVn93^9`sNoB;MVF?>T2e6|k#}MjC3R(Uy
z9cISGB)CWn>FbDiZL-+!tr#hej2Ky-IWaLs8>SFPMoa;ngqInLvF%uQ2RfbTgwg3j
z=V$038z%}&aCW{<i8B>VMFhjBC>Pqvw!+$nAC+AK2k0)EzN@2X^FL67|3J0yRLjpO
z^M{o0L#q8BsLlUK^?pe0|BxE^RAr=9a7!Jng8S+Ka%d3(=jUdM-cNr>ZTgVf^&!>r
zsj4y}@*%YiqCQpWARz_L$9Br(y!_~jG5Cz`o-S>mw_bkY9)<6FPu4z2(~+eoe@@|>
HwEX`9*HWN|

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_engine.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_engine.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..04a2fcb58801653548a383e1bcbb1ea0c00bec1b
GIT binary patch
literal 49057
zcmb@v349#ac_&!a2hivn=*E3DZZwF41OeU`2;K)s@zBvaS|GYWHi!o3>V`-{4Vj{3
z8?qG(j1!BBr3kWQn_4kzI-5-B#IqyOcC2K7``a!8cDHM=vvi`J#JjUQpuohE;+@(5
z_v+|_Em`@^6p7cbUcIZ{``-7y>wWdVI2=|E*SP6x;XnRsj{AGM(XJvjvXU@!+{@fa
zF2sfSaW0_z@&TUR8v+LQYYZ6KuPI={uVLIADF_rq3Il}^OTZE-3KT`G0V_{sjpMe6
zJz!^X)3_tz3^-ZbJno9P1MWz1pg2+zD2aFio`^T#WzYEW(m*N77L1og$^+#rt#G^|
zQW>a>R0XOc)q(0rO`wLQTgGc6b%8n-FB-3p_yRtj6AWWJwHHhOhOB2F<2bPpHQUg7
zW1x}eCJNYHy>f@ReY`2s9B5Yi(GqD5w6eHkye-lmXpi^<es=F1?})4ltYUH3cxR+5
z&=u(pbVqsuJ(1Oc)sZ!UHId#xZ)9y?Ez9E`?~C*Y`dPeqd|hOHU_FbMjBki+3~Y>S
z3T%pO4s4EW32cdM4Q!2U3v7#Q4{VR@2<(Uq1O_5I13M#wfx*bGz^=&d!0yPNz@Et7
zz~0Edz`n@-!2ZaAz=6oYz`@9&z@f<Dz~RVHU?_4Va3pdxa5VBj;DN}oz_G~j!12h5
zz=_Doz{$vifd?ZG1s;k#9C(=Z!!!O!BoGL&xOe=~$YX)WB98|iXZNM!Peg)&VC2cb
zlab-TFiR^NKNT4XjIen5cqk$S1QxGAd^B*H#Vg0pM8bh^WGpZiIU6|3(yGSCBauLa
z#jD3BB9np1$hp8dc3(68g@_msS-f^U8i@sBk*UBGyRRF6Dsnz>K5`*&A#yQrk)_p-
zPe+~(Jk8?1@pxn=FcWzu@C>_e82@7AQs7eL*}${xzH$6=<hj6ek>>-?N4^yJ5=(0u
z|8nFjfv-en1GDVDdHjXQR|8*V@s{zgMP3ZN82P=x??t{I_<H1}z)LK>b$l*zC2)ns
z+s1!C@{PbZc+S8H5#bNs;T2d5{GqTz*g0Lual$SZ9%12D7Cykj6BGu%DR_jJL+x8o
zOxPq0vM0w`xP?8x%AWh#^9O~8S=uWst%Id~Q@F}<zrw<!EIiD@gA@k-h~-_y@(u`_
z*^@mie29f7SvbVP?JPXT!b21WzQsy+QfULXmkV`0&xN{$#&?YBTfWLtdyu+1BlR`m
zkA>GO>5b-DU9Yn6HCE#rtj0A|W2jenBeYiV39nM#QB$bzc~juqdg^OxYClrn#OQiM
z>x4hLzWyD9+V)$l?G0#qqfn{$=sPTR6H+&4q<)vBZb9l+;XA^2g-W4Bc#G<Pr$DXk
zd&2jGZIlwY#`11M-t9=+&2nk)`?m0%IezS<QYJHeN4){w`QGo$aqV~Jc>8zdV13+y
zJ`U*P@lI%`a4y8tC}ULB7)Esv<9Gcc@89)n>f?~#EIS9H7biyc3KN1j9Getn%i!?%
z`0%N5LALCVA&p{%hlkId3s0PuEysl~ObHVsf}fX5PMi^i;n2~^$?@G6gpnx}Myhq+
zi4#YU$A)85QB-amn7D`<$A_cQ2Zu$ukTnw?k&8}TJSPl{hlitbAw}^JWebl{?a`Ru
zBp2-*jtYk-L&CUh9h{sP4WHf>9*N23Jz-%yB->c=(C|5Qkjm{tKLjy~XaPOhAN3o4
zO|$fCI|8J#=0a2hZc0v|$Af1k!z03;sfm$TcyhvTkV|$7!;#~{usCu?dq=r$1TPp9
zg3(Da7CeRL(coF(VsKO|#mn~H6Q{!y!r*vVn27lc<*LCm!?8giuyKLvJuF0{!>5I#
z!{Ts6uBT@w1Uy5Xc&8YO?3olJ!?7dhD6{NA;!}8y;f$hk8Ag8mV(`ppa0JDJF}1v0
zt)xf7(U>?qp8N3JuoxAT#E8;|D7qb+5{0PTj9_y7DfO{dVQ@t0QE-%X3FDO29oF9q
zG<*(qk`7ItK8?}$$&K0XJTx2;Lg^t^-n}$Ck6MLXmYW<sH#rd%<VprH;nDC28w<*%
z6{*j8q>r_hp)@;#mRy#btTt7go-HkFNoJCkZI=+6JS$9urv)vWcX#BJ5DH;gWcIHr
zoqAu_-1;-Ej^d0IwWXrnqBtq;pBSB#9V~iGP@mW}aHSP0muPppgwgOsm_d+BUB-GJ
z-RT6il9K&Lj*62b0E$Ub>xGNfFy2FN33DtCPn^}ByR`>VEyaF(WKz^yaj17{6P^?5
zNM(*orJi{IuxO98W@PUPG#?!i!)#$_jh5!5YH!4nv8b?y)T{)(N6rZo1N)B);!}7t
zhDm@GWGg`?U@|I*a&bC-cz6QqRP-BVJ0YH9!UXUMvSfjRnr2s?VnqNep{2^;Q^Vuo
z5Fv_~2-Ltj5{v>;@X(6Ej+~1TR>GZ~y=hcQLt}0wM({Q{0dx?ROHT{2;5k+XD^gEx
z3`c{)g>&QKk#H;s{0qb=21A1Kt7J#@HiCoTxUw(}av_!|o}H4NN;B#$p-J1J$zucB
zU;+6Zo*IvZF-XJXyM|-K4Ao|&ojkdJ7ek)tae8eWnTnm8ipgFbco^<hQ#CB1+@eK?
znvLNDnhDo2VK_QDfyq&)qbw&un-hcVPUB{!xa>SW3_Plo1zN^XmJ$9M4o^fe3Bw~o
z@Qku0$fd#sN&x1}O0K~uu_V+H427e#&4q&JhehfTdS}PRrGcd=yALa9R!^ZJ1c-(v
zBf+Vua0nY#1=~gshet5r!?BSwdRDn+WO965Ko3SSt-)d1ZG)%v?baF@J}W4xa%n^m
zPpdb<Fm1lrQ)#-anEr8eAvigTyJB_I$ykA<>1jC>KC3TG7p=g|1kdqvf<T=+fnm|s
zl@;%*#ceFEtgI0t5wuGsdbpK#q`b@t95H|a!%0ps3Z@XxNJ_I%Km-!*4Rn9eh;eaK
zOPOFV7bx&5yOrNyjIc#89EuKM1GNN$6WBn4LD?D%MkYg3;}o|CgI|~$9#@|jvE|9G
zU~qV1ViJS~mVFd?Of*2UF+34_n_Hn?e{#4d7CF~*E_|*lHjHtNbzPWRzj4Fa^+L~h
z_*Boii?K746FpCX{pi8c6EB{dMA>N1B=E*?xCaP=5C;|;ZSdXaE{Y=RWWl!(i54UH
z5|^^Oo;#Q-tGc@ON_f#!FV1Lr@{e679%ql;m<35Wmta=L^P++95!)eDlp#CRF%xL(
z!GINrQz$GxMZtLlvKbIFat36OFaZQFUZe+c3Ruscq1YuYm`5Z^6cXOUQ}ObaD_ite
zxP(-Fr&q9t7^SoVQ2-S&0X8pvnGhxLSlNW&WiF;ai*qrRJ_l{B#xC$8$pQE{_Y{Y?
z32_7B{BiDW<B%9b4dSy1-Ug};N3on^!=N^0QwX%%+dS(-l<N11^e%EK7DfyJrT|e?
z#hl`cc=kQ~MOPuX#C>2XnOpa2--5;WA!jJ+NZIS=TNC#74~@9FW3QfHm$3Vn3r*$%
zHcJ0p-i^<AH|{tmegz#7XDRp^^(*5Q+=SZMbZWi-I&yrUa^>rNEA@UfVeh2gx1#q~
zpGw$U(!G~0>QX)dOkqAXIW-Z=4~q|@g-los@d4v$E?^SWRU9%fMy)Vpq_vDE7NJP6
z()!k)nCJ<ZF<Z!dy+CJn?SR`t8Q7fd2LK)-Hn5ZqhcARDrXR8TaIv@#q^3_)viShm
zYQ9dE;|#DXA$WR#4HQ4ZIgrt`+I@KBQ`V&~Jb^u^o0S-nU20|OKt^S!l1sZk@is4)
z4~wV5*bBsq!5B8>Xb`m2<ar_FcjPXm!eB5oIT8$t-@sdnV5B(lc?#H?`U8qhBallJ
zY@CVWL_!X-9q3B{WzOh?+(r2NRGxyr#9x%g@k`uYgVAhRwsPw?UOF=O@YRS^+IcM|
zm9AYdZAh)#aA|06SE6#2<fTL}CH~4&dn2^y+5GGwWpz_^S#u4+9lKVjqq%b(GAMH`
z6bhJGn(I-6GP~L@n}4e^|1`^j{kln?Wrtwb%26r78ZxWU;0zU9FVyq701XzoTqEsN
zdK9y$fWwn)>N3GW*?WBI4vCBkJVb~>BX|&nD2Ns9Irc{e4j_St$9-()RdYl&sBkMK
z(t9qTz!efkhfz&%6r{nVcu{t-3WCTQRJL#N5AjxhcMed9FC$fal>)+eK(|w1^~9$s
zAwa<+6fg)Wp%@Lk_&Nmy65=Zq#3@LlW7<tb3Lt>xqG1FYBsjSu$Fi9-m!>Rbb5mE3
z&vzwy_ehO<6197z^1bhS6Xk~`%TVHhlal4+iqT+p+%4b+`F(t<qUN5_Fvu4Gj80tb
zN_1?Ks<ug`+gCV)x!|sa^VVg74Yi#GHiXaVTKOXcnP8LN>H$1J6DlGwDIfwsGKCmQ
zU@;9GETMwuxeR~+5<xx-0SjsYQ0cW4sc8<usi#>f4Z!CL*+TZ~4s90+xB*s9*-qrW
z!b@L>$%X3jA0pc9Jm!)iAla&{Ln0nztA-)M*;rBE!l=2-Ei6XU%&swgE7MZ2si{#7
z+Odi8Lw*B;2iX)0gPw~cOM13t%a-xs$f?lqw&~K$zISWMze4t?3&ADs&qjXK{O|lf
z^#9eW#dUj>Dqh0_*{(<>LP4ruwvSJW!}_}xF=7g=hsYW}0ZP^j1R4YR3G$YPAbJke
zaa8;!YVsH7LibBZRiO7Ricvqr3luP5rngl<{W`@+@Fo5U1q3~x4&dLWrxg4Gf6)+v
zFLBFG&RMo#Dor)EUOG5eezosP-GZq#<@P*xgayB>sFk|+ELQBjbZD+=!L&EkwhFOT
z^CqdJdBL=5xqxf!xU_#Zel;Yy8W&7{2GyzB`joHvp4sRv&`=^Zn+4n2bgtx*Vzm7c
zA<K}SSs`GB0+3>C`-8;HB$w*Udgjy($&QgM$xKbwZLVCUFn7#<fG#S7%+N+1-DU%g
zc!Sa?_z-{5G6bO5e9e~*&#k@cy|QV+)SPM@STqeNKtdU_-nkwLbgdkMeDf<=D_VJL
z!CZ;Qw4Mq4Lq_~Fy=n-Vg~CvQU<nlpMIj4~O9*Q>WEHHV)>&?p580k~25d!KXe4CE
zI4L<C$l=7+;5f|-PIV(;PeuzuuIJ4GSICXLS`K$s4pXQY(#hgbC{%*q64We&Jc1|W
zMTt^Ke9MGVwH2pOCX|OPO6gH+s2nv{genAw{=5>h&Pvo$6{-@d(OwPit8rh8c-^QW
zRD*bZs8;adzCkI49Cb)-R8yOT2DT}hLiI>(zAx2>)D|_hOi**{eKLg_@VxcD78;S-
zrlz**Ei@t3e_!5aq;}kw+Je+op;n=Dj5eH{3vbqj(Q3z^U+AQF8?}TwFgo3zyM!4f
zR-r@>Ms9W1=yamxHEOCl6Bx5Dr1oO2M%j~YHvihwf=~}?TC0}nQ{W6`R-;TmOZA|q
zG;eEIxpkP!UOZdRo~;!&2pb79vu1W3`bWBfO)O8po@X6uaticxJ)Ukxk5023RQm=H
zwQ5}qj?=AeME|yA<=rG~&Cbnwpp+;R*6A~B4Q)o*ZJ{k_SAqSl!giFb&V=dEHuhc`
zgjqt{(YGB%T;{*f8T4~N(GRgV-GROivQ`K5x_1h@LW8Jl7yfqRc}7btr_zHx>Jzil
zhm0rr`nEUUI#p+a+So(og}uT)_PasYPrsu^7FLD!;q4EwwYeW_v{X1Kw6n2IuhIj;
zA&iIG7j=vd3L7y?yM@D<Z=kMYXXp?{XNblo6lOIa7WReq3;RPu!okoH;YbDsKs}?*
z&{6c^C~(9+!Nb~i3J(Cf9zZR}Sovf66TN?em*rH(E8SNo=G7WHj*`biCxjE|<9&Tc
z%_s5vr0^j6Cxjjp9#Y@wA$^vdS`66k;pfd7c@TJ5crYWs6Jx;IM~#m>Z_;x;qSjm`
z>=Xj5mjt_nQ3H8r>QSvVHliDZM`>o1nzbkD$l61XW%TAT*3M|?apCdM6X*-I5@c{{
z#uz-Ak@JbruvQb=u%f@GFap6@aPEO8k8}Pp*^wn?og%V<QS<}8=ox5Dd=S+rOq>9*
z3P#NroAe1#a$M9HzrVZmO4PT1m#<yuKHcqW1ScG7?DRE`kjf}Lda=>Zs*6tgE>2GQ
zMusPRkQ#=^FZyD___*)yF1;E%6K3T{K->68!sgR=Y2Q;(U$)f0`|mEj#_E%c(}W<n
zLrBms>;bJ*rARk4X~Hms3z~3Bc9Fyobk(F7givDStn5&k%Mqshkqa1^37%7{8Tlbn
z9uofz#zg!J1S1;pLBA&a(eKI)$O8V52hE8a<$9qY&ix*EHw`d&E)H=?P^UlR5SRqD
zy12LzcT^j@;wIc_d><EcXz3yTx<R8-k%PEdcEyM<QDQ{nu`AAvIkkBD_qtIdzEPf;
zjnK0&hdY~=D{jUeNtD=ydQ^p~mO{T{Rhf569HsQ0eoCpDyruMheo85#rgAQ{MRYB@
zP%2N3F`xQ4;|HbO+U-ToZyNeFiEtodu|<Y21kX>3XBGXUMbK2C#j-g%bq+cNh%}j8
zJ}BNq5%Gr<{3QhpFi8F<dlWb$x*cMEMVBg`p*#)rxH0${%05kYtV))31|WD2nhpkc
za*--rfp*s(o+N3AqW@w1sO+FOP<W(qVFIEXQ&boq&D&XmV!0?7WUDh6j1m};ILGI^
z#N=_}yGWQW%fboW+UuJ!Vo{=YKf1)-E8&WqFBD3aibYG+o!X9B6aALe%$i=b-Kp!O
z+v-%uF8Xa-YU+QtVX=wb_?CLNEZN&`G$(rxNWBNZ=B~9;rk-UBcY=SAr+8zkzMFn)
z?o`&kUj0gSva(yMM9PcKRE_WTgRdM+*7Qj=eUzm#PfBe=vbI~Q?M~Kik!rWhntpDn
zVsy3aj$uH95JEvT%vdS87?NV>4T8haePaeE$D`tx@P7I_N1US-z}9&uUjJnXK4*+^
zgJ_8Jmke>^@r+eJrmtu!rd%O?&GOh3<9x_?wjDsR32>{gcr7nhR=(AynQ^7FaUorb
zBbKJI&X~T6(^*4i4QKEfxFjETi1S)bydU1HiHqs$rI`~;XG}4VR&S^v&VP#w6~1QF
z%EV2V4Hy~IGp6(WdG3Po5$-(iw@kP06=J^F83CKd<hV~6dB}L8*hU})qzA;&b`MRz
z(nwR#sN@@As(s&?;i&JFAYj8_lN9nnP=lgA=nPOHI5yw;GvRTH3RE@3fDqQPDIP&Q
z>Qm6VZ<47Xeb{8MO+?Wj5?YdG4x-3Y;qh>cb}~|AMLT_A)EUOMbV~4rPftKS6Y7>N
zik=}nGVP5BvEeS*Rz!w-4pG>(w!3$F8;c_5Q}z#EWcVWOnp3AwQ|GW-Mo=x&F#5Er
z)c2%rPOoP=;!VD;F6BMDXe7GmJ-XC^p#3O}zOzy){BCNSu5Y6O7&*fR3WK5ymMENt
z8U?z~kl!j7C|j6p3PT&MAPY0=rEJ9(D8{1a!?81Rp{g|#_hEu%7b!5=Fe>vU7wx_<
zA}9t9%nXC|*KZbohTP)cQ1G`@u0YMs3sKs>7*bJW{BB6@vZ|b}%Rw+X&zlI*{5dMQ
z!~rdol+70W(&bAu_a&OQq&$_ghnFnQmuxTCmJJ5S#(PFnk#*VbC@M|4>gPAzc6AYM
z8I*bllfC<;-u=nm6H@Pql)IHsjq_dsS6u$G^NKU&J%NPc5+szhB}>;yrRx&w_b!y~
zo81G^hP!Om@zFg8=dS#aGZ&REl~gYq_+nqmw>nY3W|`xA8<$bIam8rzIMG9I>2i_D
zQTi{-Mr8gZT7jOwKHweb=icit+UYUAx6QrNX}sk$BQBRJzy_Ks6BCW-v;oTM7-tqY
z4C4UXMEQ$+QHE+JpEN6D4IAQyONIm7Wt52<*lO1C4O`8|m`*`JeZzmt5He=0W+Pk8
z#%GKftJyTYN?XnPD}2_HF4J>mzUbEJicf`CllVAZSoRV$<Q5he@JL)l;5R9dm!gE9
zQ^3Sh^m+tys#=MGTy7=PO?luhH`5LRKH9ngd{!0snp2+gWrL~cVScG}RkC!4RJtQE
z@Zdt}L$iATkO@x<G&qu{1yU^qa?A{Jc*<W=ov80m)b}Oo)+N>rC2Ec=lpIYw_)x<B
z5Wt0Ud=e$P?JJc{+?z!Myz#nwi}6QhM6$G4w6#2kzZC+BgB%aAz!rjd?v-y7${<7Y
zZ#z0Dq-)d4JO_*4r_uU14KEwNY&N6ii`;tdMf0BkG{kGjkLmaceq`qeu(KG9M1mv3
zBWDCgeGn-PjH@U5c{X(!$}{mlpzL%__OxUdIzsc&jcor&bVtf!f64iRGihm&EG?id
zQqGd3(<eE7NoSAb>{)QGNm|z2wygPt$zU&U7%=dE$q#U*zbZhCX&=S!Qg;bk!R|mL
zLFkB1ZsUf?X(LwSN;5WIb)=2?Mta5^H|AS}GX+T37aM9*ubD!m=h@(AEJ(L#xzfKg
zMM&4l^o(>XW?m=JGtzBwTfU8b#vZp{vZdLCkiOAh=HvD;ooUFZ$q_5n?$RhlEQpcd
zl3kbi7_qACit{m@A<!5Mu`tfhI8Spkt`Illp6HA7W3^iT^lzFtnsI(g4k$FWI%iy;
zl1C?oX5474IHpNUxwuOsPi9JD4O+W#N4!X{(-Ujb(nIFBc^Z%a;>H4P2dy|<Gu~K>
z65~)`$a0#CyW_=i)Ab_F*7P(#Q;Ih&i?!+b3bb~2adU>pA4DzXF~9z_bQkwh#fafF
zH)42v6P{JXR_V_w#z?H4bHyvh2>x>}q^{0M!tHgd)^j}Xz5n^B;fmqKEhe-*Q}K1~
zF#!5Z<xCa&UmZ7qq_f5PwK5t8_!jq?ai%7=UQ5q-lgfCNHj?Q#e*95RskfHZUN=)8
zuR+cBcrB~R7u%@SG={g&y<%In6hQelEuQ`z8%W2sSiCOojr-#D&@QR#PV0^KJJS%a
z9vjs1r+?!OS`MCj@o^KE(YIacTv{w%{dFMWY<!5hY*gnGSahZ_-Wamb(!eMenYfvz
znMRClb9(gRrCN)C4gPV=5F4f1nU;7{yp~GNw8mS<_GoRUf0cU2_N7y_*d_kOe{~t9
zwwbng+t@*^p7gIa_q({qfuLCr+h_do_PB$wFC+27=y1F&--u?c7OUuvx8#NA_S5_{
z8k?|v%JY_dZy9e>N}<f5bWgQd+&?y?#nZpkO2`>^Tz9>r;&^TJG2avM=HKxKpV@o#
zBhOr9^fJ%t``7jz`SY#(mb@$9tzo2$cf4Z)l)cyw$bLW@m3VX96Dq!5qTz{|j(A6i
zi<_&snbJAKi;tK%%<OS3cltLCxnL#JwUy=6wkp0#t*tZO3HSkY%~Svv<-uzq55c<%
zQzd{Ycm90wl8^_z>zZ(V>T`~sV>dgQ?ynY$cWL7huL!QvQeQlbF?mG0gFw!iu|_+!
z5?I}}z}47=fU86LTCIoy$0-+j1pJ<RAvGV2<{bsR9eN+HMVWl?R5A8gZtWcRtR1=Y
zq)+f6FP=Pce~Ig*@2FHBFw-dTzj3BwrZ!ZJJ&n6wra{i1n7+xs%oB|_V&K^xaURqj
zpkhkBZ#=I&VWrP=L<RcGho-kaqR4iM3!MUsPNw$0D6_=}j|vw4$>`bexeOT@$<v-B
zp8SM31-Tpg%PhxacZBR%Ntgwbcv$2P|C$&h@ka<?N@oE(3)$DHC`<w%@?w&*sB9w(
zcrvwwalA;`{RMJ?_H1M-LiV&&O8k4O>Q@M456Dzqh!#8x{`a&(3i^$T1smlO|B<rt
zUDE|!^gdmnUawP%DH@wR2mbdzQXW?4KTxuRjJTs`RL(`VQ7-icR(|QsREJ0<SXWph
zq~$l_U;-IH(D?!3*Z&n4xOWJsV`oU9M<#M|30`K3%%oxZufCJ4*b9*HrECsEK7T>!
z(f>{L|0e`!`nwdTA(jg#nZ<8ZwkUlSLdvMSFcvV;(khMmSIbs<<>2{nD0W8tfXZ4G
zfk;r8jEes!B{-Gd1<BfSJa$p83QvrTPla&Uf?gZ~5C~0!N`s6;V3r25^}*rsDS?R)
zWIO6oCK3G?38l!Mp~={OI(!j<MW+yA`NS9Sgell%BUnS(h=#>#N()j@Mdi$}<vlIP
z#_8}m@hYXV@z!UNO`IrD&LUxA3RWF3_Ld8oDQ|dEwyDQNV#Cq1;%O>Qf?nC8nlK4+
z0mQe^e#ix<haqhe#ebqaH1!yCKwp&2r(CE_N&%fW5s)3T#)_$i-gl{3fP#l9NKaC?
z!qT#Jz^3c}pyv!yKB5@SfcP;5H1y&p6#NSXKcRq`aQuIW$u@N&30!gk8PZSX_(LeD
z%$)4ZJ{BXFusK(jE%EH&kK`iAsFag4auEs5a4ZHd#=}~dGHd3ns?8N(LbYX4Y_MQm
zg%OR)FyLaAJeX$n0Uwr&0j}Yv!XcOitLA;Qz7<oLv>_l$&<JA%peC8WAQvbgB^ONy
z=hcqcN2Wv(@WO7%z?JOFl<Bdsmqxp?O`V+J<f$>)u1t_x-mTuH-w)6aTWxy7D1#)%
zf0A_J^IwV_!j>_l)0Nq5ZpNeIJb2uHF{wN*1W;u)$<kJ-v~|{+Dy_~JMTW9=sjPk0
zma42*1?0|D%c^9{9;szd!qRxhTk-PHm7&?9l(#nNZIirhh}ygfTg_5QP0D=)_GXY>
zaRvtouxeYAHN8?z@2vd;Ti3PGMO*(;3CT3>Svh;z+~}(#i?+s8m2dW7s=gs%uSwN6
zN%opMRle6dUg?;Bc%iDBp0vC^{mOKrW6RA`3-tpmmzJ_nzZLg)`Zp#l)%VJ{n)*b2
z&qDR;gr(wx%Jnzx?@laKo}6`lP`fHsT6VSS$`h&bid03@y+Tu+HDRf`XXhOCsq(f|
zO>L^OI@Pcy)x17c>%ZqHMBj}?rPkS^WiMA+K3nubaoOB-vbb?}V5zg`u9s`*Sn*g(
zO74~*cGYyx#Z|6Kb*=gSqi;WopJdlgscUCybzgGzK56wnv{qRKflp;^vcfM__&;<M
zmX<BMQSvU;v23(=IVHP)_VCqh%Qe*6?o?yve9g57u0Q?G%(clx{WiSf2Yp+Y+@86^
z^V=5Oz5i@9^gAW@>N#HWtWJ1a<}Z-d)4D|Sx*MZ6AGkS~XxuU9S}LzgmUl?y9ZTNT
zF#AhZbVwB)$%?g7#oAO&SE{BvRkJGPU$b1qRralL=E|xSBl@*sEUGA(GvT$1%U-r$
zv0pv$b9du%E!w;1<5u;4zx(a(n=Ofs9m(b$iRK*(r2|s)j;mjo8@|eaBZP$6J&DqR
zI~7&4`<I$JuRW4%T7Shg$Iop6D9!V)RL&LL@l?LN?aH?K2FcT$^mIw|e<RKCGp{^z
zZCI*bovhy|)o;AnAk}Y~+m~9i@h|FrQ1^>915!oTRm=RURCUvQ{C4%)A09~6v?Oaf
zrJBwqU+=Hl29}Ln=Z55}ZPKc3@3y~Nb$ivpJO2Kpe~aYblIq&1%*eZE-VI1yM^dY|
zC=-)vU6X9xD79|9Yvk8#y3@M>Pwo{LH8lQ{(N<fxT*ZJ_Z6dX5eY$pO)xrBJU9&a0
z=76;3z^B#TKalJ{CiNdnZP=CE@UXPu;d?F%wPdZW`>>wt-N`T8xaJM_AS0}4ocG_T
zd*8cQJv4hLRna{E==@lsV$E0gFCR8=B~8mm4O~%4(oz8p+11KLOVd(ygI)lDpDJyc
zKRZ92DD9oK{=K(uc2~;fdFkmFp1#`q!WZW|Z@apGFs*985-t5VP9-WgUMWZ?BwE%b
zD%Z~yq$(Pc741?*`?a!#iq*5besBM>gDb7S=jL2Bsq%)Dr|w=A*SPB1rp1PJ_bMHw
z&bt*{<N7Q6=N`avDCdeBQqZtfzETP6yky&Yscn6#uJQG=ubfSEY)W)&PSkBlRaK{I
z8(x3>mB;UtS0~H;Qn^1--j8W)YD+fu-EQo=Q`rDRwxn;h<XipE9&2&Qav56qklMmB
zDXU7=0*HP0+Pp67J<eNX{rE${K+6du*fPNX%k9#Ek5|Tc<o-Ci8#~zLU7g3={7<^K
zKd{yM)2^L9+`RALj~NQycNS3GYd>Z#c;DBD_}`T7>A_FJG~hpGbxK`jxVde%A!Hk3
zmPFl*s*U(t*@Ga{Iut?%q8M{7($?n_;a%r7rU|AKhUqU_we5fe<HJ7f&>3vnl~WH;
zCdJMu`YCY|TOG5WP&Q#vF>a;`PDY{HiJlpT%Erei66kr<Og>TpGli8finEkBqdIai
zT@b|TE9kjGSb3FmNqSMHJw}cLl!ImaF=8-n{h3xIN^h<S%pI!0Tsa~)U7fvEWj!S6
zXtWh&p#`>b?nb~+va&;}>`0Z>ry5$44V$Hg%|NGa>oN!3jAGOHCh})Z33fbXN}Pyf
z8c$s2{roUIN+@P1G(bD2!s8ekoEcE8J22EwW**^tl8q2qmP~}$8K7>fJ~J5Hkna?%
zO`s$Mjld2Cl2VQin~50PGn41l0}3!h7okXGrxb*cUI8;}>C~nqeSATop`go9PC59y
zeY@4xX)-6L#?w`VHG&qs0L#OG0@O%&#0RocoIEFnL5)(U(8+N6Kn0y{$e3(i{4W?O
zZ31aLvnJ3RJVnC<j)PuOJ+v_0m@|)g@;GTaNzRPvEaO~_2}=W;vaH!M;yL}Tkh=L_
zqkBlpk7r0FRTZP9$gb=sSa8~djNdprmPQIJKR<m&pOa(k2$Qd!K!Rx-{D2PMlLK@z
zFV6wKCw=S`jXJ`5EvLapK?$v`wTz)Qia$mt#Q#dcC;}`aebvaWoP`#paRHPn1fQ2J
zm7Fa1O#^ATa`IHuH0(fCOzl)%pRDSWs``>u8>FfYH!Bya24`I<TUEl=xKy|9#>IuY
zf!QOezQNgDNqehgZ=Js=+1I38bqPzIV(VZWiCxH=L0at3;cvx`K+$Vl<Qe~Nn0{6t
z6C6dRQx$9(=;wK`NG8vA`;JeYVrC=2R;1#d1g9zjr|D$@!0PJpJ&D$z^tG!tVCo_8
zPH4i_^VW#QM!Nm!As=EE({HQTsh7xM>aaGdHZt+TQX#9CTrxW2Q7et14ds}s2*jJ)
z`*9RhHFw!y;<HAB=8XPUnh`K~CVZ50r8OlC-Cxq*R2wC58tk~ck1Z=fOpj642r0`R
z#sg<2(?|iMrD8KeO__*5uN9mM%>L7ZG+j0|q2m&uH4WXth^bWNU@;{yZ_{cJ`*H`;
zrDF-D=hL;Hf*_Q~t7$+<>jR*q(M-DhlFOgy*ty^uOjri*#}hQz49Y}AbUkIBvCUrn
zz1&(&u5MKHjAVpDGN<FDZM3W-Z70oF&XqYs3M>yzHw@9psuOdOyiH)Jm|Y<bk_tGH
zCP3O!6x41+IPKAO$^>|_HGOhPwrDjmFv2QVmw5rh`@*z0d-#;pO*Co)=&AySR**q2
zKXK)W`N4(K_F3z%>e_$9@kKRr?I}<7SC5bqxaOm)W28IQ$M^7pYbaqE`Z!vHS}uFn
z^WQYJ82*TFD)^SM#qh`G_57QBi{U#Z>$8EH2H%LbSC;S^pFQ~bsGfIFiY}-)_)L}W
z1%AdLn&SpdIEbmxk+@QV!t{jZ$zPbxr^V9wbK9FS#-MstuDCI#t3WkX6Z&Gz=!<T5
zsFlg=%YAj5GU_(vt=p7Qw{B<nx#~7&)NRgNw>hKk;&h!_EIlS#zKcA-{}%pU#NU(n
z>r+woX2oL*$OcB(F!2fzGU^dbp9bDOwgS{+cMMrYyNCQmIFJn`{m5CxY*2g?J&=pj
zZV*&?jo1&6P{eQjl*7YtEyyHna;mo(n9G9JP>#p5b9dqfl!4TdZJ2C5nHf@&ooN&f
z1QnB=={nfGO{)eEqXlS=R-3xs#7(Glx;%Ta=}UMIt+!vGgtp#j_gp1at-3b&{ey2G
zT&UWR^lnJlHq7=TNR^a-?O@7Vk@R**-i~W)7rZ?QTMs?zVUO<AHzn(Pr23v4#)bO6
zWM$v1bIDdZH}O_v(bktL@h#YWEX#VSe*H~k*^;c>k|#@zFIm$g)le-peaW)ESsT@I
z_N}dpwl%4e+68;<9kN_#l$?$8YZshtFlAV7;z~Du1QA44|3{F?RBffOy#Eu0F{&Tz
z<lo>2n@!(dkJx*a{9vo;y{az6Zx!-`?WS867VqZ=J50CM^&tJntvrS8EbO2#YYWtQ
zqNgx&Sv(P+4?Be5EkNUbh?INQM^?=FxTLeY05rvTmS@$cRsP4JWbhk@<TBOehM)=o
zRjK~8kUyOa>84<v7xkTn;STKFumC{&Wm&*>`;Ib8!A__k$Zvyh*cXkEc_1?D{ylu;
z-=iCc!U{o*4aZ_4TLj`?V=$C0L8bW!gvEUbvgkZ<2LWV#4nQ&^KXN0YuAe6eFo^-X
z#4R<nU-Nvw`t52m0y=tPq2VM*HQ;<lQ^MX2>$Gd$q<^#I-+bG>`HrVtk-5OWt#~VJ
z%)F4(nIP)|v*pdd<<i!;^8DwVM-7igX^!$>^2|Ac$pzja_sTc3@2HtTDq&WOVNXlE
zt7_&3IqLN4W9mV1;%j`NNsy7GE`o{mIXY*c=4O_hAeG1%8*>92(DdBUPAwj!;6A#h
zET|GdIgK{w%uwE3<1|fVYXA<&!nw=mqAx#v<>^H8`bF0U7=9^}k#g^Z$dsl+5t+J~
zxF+f9lw6$)uI_}T`~In+t?4=Zt=vKj%7zSU00S8U=i_!R!Gw0A6O%&InRDeYk#G6k
zw~ePMs=P}wz3ITjH@)%Z+Z+vX({buMu@E`eB?6{A+hry&rEQS%*P-<sTH`OPx>hr+
zsrY<0O0Xy~#?8#4q!2Ba=5z<Q@xpik4pZ=BM8D=-I0kQ0l5jMG8>`59jN36%Fy&mV
zK3F#8s}Y2XZsCL+bvZ?G8#0FqGz1F!BHH0_!TQTE)}X{Q!?;Bo4OlA7LRa0SJ&hZ_
zjyVXHX!ndnz}^vS)ly*K*$nHkyz`M^y;G#Mp#6>*9wGDgqGyVZtG{XUPeyiFrhAWr
zY#^U5S#$^S;lQG5TK4Jw?x9a=6bB1Lo<Pf}Ec@Z7hQrKBo%m~X8;qZ>@q)p%7@ibi
zm(7&9ZyOb@t0T+(kN5!4fWK6H3x(wp#&c&q2j)=R2Z@IXUoZ_Kkuc&PP{0t0ksf@P
z%G*fs32h}DQ7BqqMg3Qxx@p=^8Q-LGg%k@@>{SXDD7b*YZ_OZgH1+|G4MfuGfbhve
zgklvXYG;p>F%fGitw^Vc6q8n>d>IYI0w!M&2as{PAqT6eY<C7#cAiigTym-;k&|<{
z;E15evuyDft;4qCEq{6YmF)>n$6X^=TzUrtQ+2OY-Fsv0Uu^%u_T<_F(%J(H)d!QM
z2bT*uN7b^Ot7}ZwZjfp>-1IEeZk-)ka#ddKzTQO$vb-hXZn@(sNxB*&S3|<(Pm!c}
zja0rS(R*~E{DFk~fe)Iyu8kzScSzkke$hN2xqVPJY)!SafA5Jmo`6~Rje#4(H;yM7
zH_o~4fCqB>kR#=7N_iVn)&5jNbFyKL)Ichb;)Z*i86svUhcg~E-BL|=vZi0E>8G6D
zMk=CZPBr!{)i%!`|K6i-JbI(!=I}!84oJpp*R61cwIy>!%OzZKb<*7+xgnJQxw~_@
zjceJ--|OI-H{R?>H0_=pTm+d1o8Lj6D?7x0d~XlWEP4$^>-63E`pAujcSaXH{Xe(&
z|I4x&kA53{95Z&=xVxVJ^159;+>iKOU8aBAir9NiJQCk)u0i}3NAX+y&Q-YiNhjU>
zq>HC`Ptoog<4-nJ?k+d}w3tWyrzK`Q{b{+G;x$xn76nHrgl#YHVxpDp<x{s7LeF`&
zl`QnE(*i(Xs5<x3(8LV3sndMiK*o|_)A@Wxt!z8U*Pec2gl!}$63lFgi2@Y<)1-(3
znE9Cr=C<Jb;><n8izVQM9P5Cj;>M>GS~Fi;x?w2VGQyO{oMEVk+F&+U5H~A^dJ}lY
z3|`D+;DWaJ^ohKSJdi7`MRqadit~N>Ml*d{FRq(_YNMti*MesX7;?pL4stb5uO3tw
zscbJOitIvR^KwzENXF6Ab;oi%sxZPz$FS2Kdw^>p1cAs&#V{lbr@Eqw<QyknRNU+@
z%)pQwDpxSw>v;7HbXS;x?rbopP)YZw;wXjTHzOKQuo!UxDi%{v*iPzmj>&g64@nei
z^gpAV%FtC5txJ72f~l&#I+CngE!C}Fs9H075FFao(fOyPy589%3^g@LuBL=*RR(H0
zworaN;XZ!H*Oc`2-S+iCCgbp58HJA21I#q%n&)prrD{atM+sjalg`Y2QF68FRiwN-
zKoC}xfFLX`f%}TJJNbpilRxOWw)WlQ?*+fT_6I#5FE*YeOi~Y=@zDpaiVq?7S*H_}
z+4uueAmEP|@y?g|!8-o=nw{O;JjLEvkJx(^6n(GKPVpAgz(&J+etuwm!FwG>ig#Hl
zeLYX{jird+a#H?VE)&H)g*$zwTh%5C>z$O+#h!K-4OSa(t*;y`Gyd4kBmU!JGfMrq
z%uMlWBjU1a=Ws}++jo;_Q7%-yk;)cu^~?biSvrxkSWF?zTvW0O@4<02^RzBkK0xqk
zN&|5)!$V7EX_TQ$<0~FRO*6m(SevG2OJh23na^}yD+6cX-i)038dhq~tUdE|Tudip
zp$EhnzcKwBT)JFZ6PP}g%QzpX3Z4Xf!(Ihkj%=baf!!Fk5zb$voaHn|FTwyzxG(~W
z11>^~7~OJ;&LiWLCmh(}{OAZ7@=z2bJ91WJgi9Y9m(7g()ub!bkT^`iDQc3{NzIC0
z+}<ZbA)+Vu08Cz~@!!(wBLhbWeeImxowU{8w$(4y`d)wRmB+sI#0x{S`>;xiQ?Bxa
zt7*wynRGWv?xvr+TRxz8i{x%ubhj<JU}sW2zxPJ_yVc2oW75E}#ggMVaYaf&gQ^tF
z4=m@<a;7*U9|H>Xt8Z56Nl~UNJvE=jrfO(;#zZ`g-!KF^GkZM2ewxN`EKoLwrXuH}
zjA+zc5mAbE0xr9hY@sq_{+4?Ru3jB%Jc3;jF~-@#`suE0s_u7WmuZ$Zu~~wF42*p?
zUD=evWHEJ6s-pf{`@1&i=^brw8s%{QgR|m=v9FD<6q>x&S#nY4u9$V*&#=;<K8L@R
zb*NpTC~%~L<U9bL+zUHDa^+syz>54uVioh`Ky7)}c|Ixvdpl~0S+q9t9fuKL%HN9k
z+^4jYS6-a2pW2(`n*2k)Z4^&rU<qUTq^u@eVf{|y5o1he*Yq4~fmyuTo27sAF_$r&
zLCtseevFg^ITth22ks(C-330nnz6a{Ihk+^3M%g$fxR}oW(*lKTK3&v8f>&mcQG~1
z*BO&&9{R*~0zzqa&eZqhC&f>ug+0OroK5YP9kBA;LyisEo+3^FxctSCF2j)`D-~3Q
zLa<N$-_R;MaW6YG<3MsS9+geP#8Xk(_u!#Jhl2x$4jp+Yc<kiRiT#In2M--NHV`~{
zbl1R%{X=_YI|vcxESriejNnPClOa{Y%ObvVz=<UIkZn5$b_I{^e&FQp<0r(kluSrd
zE*d&=BDm+s$)R1^*~2#}w=;YFl7-<g>E9V)MG#I@k3#ZnM>W$`+3Pz~0RIoPnEx*n
zQ3xIgf9qzQcWkbttx2*q&F}r*;WrL1+Im4dq--TGZGB<u)m_Rtc;bE}TR$FrKx==^
zZD@hr<u5ya-;rwV_}<w!&L&&8Nv+#%p8t0<Kb%=;J)HC%P81)Wt48nvSh!VhJ-z5!
z3zFsoch%L+*By)Qbt!Ls(%T|=TNDBL^|564E~$H0vipG4ec-nDz@3K9Ip-Z$?S~u;
zJm$TMwMVL~VZQBqU2k;F*C$pFB)mIQrOitfjme5msiG4sWaE|<&eW*bgDjVF4MRBf
z=)vn=-dV7#lD}o)ca@uN743B4CX2(NQ6vakv0wl{O--92z%rz135^B-hw{1c%@{#J
z&ZX4@p;RMLAaPSZEEG39#YOoSOR%Q%;TN3~fiR~T!ki4upkbL1&(^FPHRRC@X}y5d
z96n{IH^Z5^AYv1NBz%;_F0fo7>y_b&i$3^6gkghE^^fRd2KCII-bX7S+RcpVNd=^c
zO;mbL@uevnaa>bzaDne};FKhzH(&+K)*f@fXB-ZNM2;RB&oMLjpJBih1(GAXF1O~Q
z5ytkcX?Xah9?&L3OG8zq)+iPetk>{}t$20RicELpEE;Axkw32qkP<zQ${F24cAPy@
zMbC}Gg^CTcj-~3lZ}r3Oj?7{YUOAZbc1hl@q_<D<_Wi=UZgv+FuD|rm3(w5g!uT%b
z_9flTlDl~xhLs&;Q@8$}m$SPPuKER=Z+_smttI7YN_yHPPuqgW5AU-u-(%aUT&d!&
z=zZ^!<yC?Pfk8IDOGA*Im*WQH=Gi~<?Vi{vn?8T;{H;}@OW>3ZVkv6U>1!maSH?Pn
za{gK7{Q^1jteO1vYmm<NMw?bE+kv#3j9+C3(#pUn49<n8FjnGI2tWbr8-qxYDt?WE
z3l#hom1N>+@kOMj{e^0fm4%?O_rRp(6zMf#n4^4_B6^>g?fxv)1ai-#L1wgL_vA;-
zFK@oGIqB(?Je}7b`u^i@KQ4JTC+wTSGTK{UZ<(yyF4b*+w{W3uA53~+!sF^lmA59`
zt$Fc3{1pIiZ=OH@y_q*=<|h;VdlHp<7o7VNmVNh=b2<YygdxbJsWo&mlYubdoP^hi
zlPJgrCZM5F%DKog<Jqz_TLsCtPN1d5B%=ncF1Sjex*&jge3%euMoCjl*Cc4UfkeG<
zNMK^<v@$bqh&i{7k+~qdGD>vC;jo;*7j1N*4fuSFn^_GcUC)C~<H$kz$7mDExzf&6
zLd>h827*A{Jtpo&FfGg;tzh~cn4yVb9N1xUZ}KcM30w^R3sMzwW2It4W@?Dj2|n_G
z9raC}vohp|U}_>39``*Nd~&nzyui*)G5bJ>Y4AxA`1LpkM<>Vvx40QdoDN0lH84{`
z4by}1BccnRGJs1H1=s5tWsBMye6EE|A5pIuqSZpIqH<`;Dn3W?Llj)0-~|kfa_q)@
z>S7GyoUc;CGzDMAb9hIB1OJ%DjJ`?fvwC6Tis0x}X$t=N@#-Y(Q(j#miY_C|v@Z{S
z&)P;-(-OOmqRiT~srAj4S;q&ivbpo~)<p<(JiY`;YO9i-Cdtz@Yf0HW30w86)7RSn
z?D&sbZX8;yA5ilAeR=)tULteWzqRY<Za+>%%$MKxwl8_>uAYbWT>Y9q>-)KP!=2_;
z*Y+<qubVrRDzBZdxn16ss%TLT1YGO9@s!lDE!nY4>e%(}@r924?>9&thkjmh_^z32
zS&vPk!UwssyEb8|QMQ5-Y?Z<2Ibj4-sH(NITn*^*+rP$0e5SpQE;WVp<8$u`&#wFY
zdGq0WX#CTQ*o}ph2h(RD5*?$Hm!k|@fr5C!C656IOd(4#fn!j2v|O%grf_0IydY#g
zi|1m!mLG@l^Ex|#0!>9tdFt_IlqOHspPDmXnAc$fkOotq<wG2N+yeIjv~%NPT+b7b
zMQ_2MUr~|4n`~$j^v-!Q!iBq{J<NFEZC?B)tqpql6Oa+njciR@BPa(N6`NuRiq=qG
zGTJ5w=*l-ju$1t%5@wSsn_2ZDQ%wCe<tk#zD|QOdmA2wxiJESTtxtBq>`zca=?&OI
z#kN5%RGJBif6O|jR7a=Cm}Rhrur!jbJ_z4Pu&96qg>JQhynt~<i<T?O_#N5z(-J4+
zW`+B4a%8`=R;pTiWB)?cwpkaMNfamTwUWIyY44QmoeBGf6e)^Gf0J~t#u=NWyH9fW
z-3Y!bEV>WfDXo6_u`7>#<B8clAHeLQJkfjL{ap(U55VH$j;$eK^ZycOYTRXsRa+sD
zs&)Q`Gn6}D*o#)2&GW;z9c{m2k5f(ksp@+CPgZwH)m`_B%#_tkS?@vt)rlIkENjva
zXZJ!oRa&F4P&jc_T0LvM<MJe3B!Qmad+m{%R>gL5xeKkr+6NVWwCqIqNpu~C;PSwx
z!3O@lEs)2W-rL%Q_$?nlSZlh~;H5asd+K4{(~9_yYk3OmDU_{>{GK2nORA;|bpBt|
zt)Q3~W>~ps$In=(U~MkJwb_h$qK5WUwh)V%kxw2X)W*@NW#lcOWv$)Cjh7%am?@a(
zz_O*bbFO$AkriU`<s&k6hh_IIY(fQjP!ObkW~f^-mt;9xil!m9^w^q{If(1@^`fjV
z2SNYq2>cdNXJW)RDU~e|GWucbL41Q^v{<4<>1eBg?P7969^fXEayr?nu7;kRJ?{R+
zlU;x;jiTQ|OKd$ry4UE>1H`F{#uxUd98C;laWlUw*}P6_UYBUX{|$+XjW6uKQ_+}c
z-jry<|ILYtEwlUYumgZNMfbviJ4AV|m+IEvELy1B3Cgp+J6Yc^)%V{BFVycyR_>TR
zkRNW%T-AW;wCM6c<v>6GUNt|k*7ROY1>))P$^t{;cWHuFehW~_Bt+x7e>@O|>J*aw
zW=tnMW4ewoADNjZAk&25Xo0rJh-2hUGoSpP*{BVrYYg$}nnH$jT_Ho*NSeodgknA?
zIU(K0=1f7X9B<67(5LhQJPx!O2(d>ZEPPG>>Oz)-9W2W07VVwjaWHe7s<bv@x)d;`
z8=s8oy%8N54tqYUKA%>f)}B}mZmv;FP5(lwh)=-cS#vr~i(xN!WVplOLq!>Artnke
z<T0$Wn$I<ARyJz3*K}k7S4M@;?n2FlM4x`focCtbZ;uyZ)E)VA<B5~C;$penpPCEK
zfRMN3HHXG1eAe9gJwu?I>C<cEFpGJ}RZmAud-c;1nwA!y&X{gHK}Uv|RJ4uGU0eu9
zrXmVUaUteY4<RAPv`;z767BZw1MPvc8J*1Gu4;)0?eBD@nghqv7{|gkd8PoKZr4mE
zp%)HKjVK(AS~)Q_5a+Vo-7wT)Gz1+3VyDuloAS1sKE*^{9H+M_#r3R;edh0IOk<#;
z-P7yZ(*7RWeDL4M?$z_!7$%jvZX>%;xGwaK)90c#`KECy>+_CZtu{Jj%mi1(Id9;~
zdIMkkw9&WChoH+hZSZ&dy-XyguuSBYNnAq#*%XRfDCnTTPXW<u%E=<efBlwj>9B-2
zK*0_QdMIc^fbWUH&BcAMskj56-7IV8BGQd*Rhm->Xy#?>By){{F@h9NkFy%?-^|!<
zc;Ar_-Kv#=z*lK=x`n2|kJ-7>imOH6z#;Q{5N4F6?4A$Y%}ef%C3nq|yLQRlv*h+K
z(=qLPW~<$bqq^?Ot9=SN1wV}+czyG2OWw7K{@qL7u0+pvd;@87$($9UxZ1YYhh7=F
z-gl$$ovn#YM;B@ym@8T;^QFqRGW9z<hFaE<=s1un_syM6G;F%L@#ZS{W!%GWT{as_
zx2+h><xtGSRtSCcHecKHe$k@mSi*ix>*tcAb+LW(;?|*r{RqA{VYlKzR=xr{_<nk^
zz7J>N?^ODdmFuL+b+;=I-E2#4IwWm6^umD;Dt+_i*E(;S7Am*S9)PK~z4WR{Ilq0|
z)<K8tOExlPKY0dBl(Z&V_oqBHbJWecR`jyC6}_Y*_-2^)I?-Ih)-WHw(IK^Nxfx4t
ze?Z#)!0pxt*kS#BDNpTOXQFOzc721azN^7&foq3u8gK4OZW)rc3?()nNtKk&h36if
zH^41rar26?fSM`5G~f)6Z+`mS{fq2)iNdAYHPVsn-}3XP<ABA_<WHHN95z8FC|}i`
zo7wRg*f|o-02TXa=8>NCK89Tr07chj<w%-o`lv3t7=WcV9iS9_`q?Mt6ee>4s~z9N
z=}qLDAeXDk`=|&@uSR?YO$<#pE2o2)?Mv3-AhjY^H4X^XDkvp`!(q^muT9Y*Lq*7_
z9&&gS{Z=T(@6!rod|ne`xdIQlCV!numG?=ywKvl^EY`k~cahfMQ8cSCOkQRVw@s?q
zh838ym!=$*vqLF3DlOt_x5Hwt*7_T+pr~rD73zF%)mINMJ8<_A0I$}1&k1p2qH_C!
zb4S9mLp^U)-p9XUYB#*bw-)@dvEA^7xsU%Y-)^{O@55IhGodA#1ujh52>Nd27J8<F
z3rYQskwh+o>oDK{O*ydv+iO04foOXY8|YvKu0R1Q)gPsHQ0B!x)R2##U^T$?Ifjg`
zPc47K1l0=I_zwKp75-uR0UdfiFAy?89e_0p2-Oc+5#IpTKbr@qj}7T82gKI8&`ta{
z0n>L8WJ%Z<XYxPka7LBo!kPF3Jf2>a!*t{YCl#Fkf#8V<Ck9U|Uaq`(b`P0&w!YQ0
z2$Lr|%(6qO*^%;Ar>YxLb#1A(jRaf+JX})LmJnB5l4+T_Q>xiXdFvtHZiD)-b`Tj&
zl+i>PO|X~ppp9h{%7OVs;wRAtG=I5!pq{_M4^$WYpdPXJ-26ao!F$Cvir4Z8$$PHi
zNha$PJ+e3JR(0qkS3|x6H!gXLWU(g%8}zqw0s)jU#%L?tdwZY?X@uAdqnUf9&mBJd
zISeb=K^O4{sAT%tLGoKo4y))J(nPMD0}%-7j7f6Uo_69qX$=0LS@*ltL^y*Uj&)_0
zWTz*DShw$(FbbzzbUI!+2FB`waGBm7$y88pvK#Qm&NY)}TT_$#IpX5Kq2MnN<Q#P@
zPYaZ?MtQm=2f}nZAuAh){UADkcfZ8lwR7%ODLXvKbp6WRobt9Oy`A(myx@X&Yr?yq
z%#th8Ctr5(`HsFQqG=jS@lO%Rr6gljts03CRM3<1G1>6Mln_)t3#W>dA##H)wjz#}
zi|}zkxPqdO_S!Q1U5_|WuXYhec@BRop8!7eEl_)!@jK&4Z)adbEDUcsfVWhvHsj1V
z`EG;{Qh1z$>6p4%GUGPaj2qrdbsUCT3UG!2;znREt(KB_NnRO<73`RS$HyGBjTEez
z0kRm=jAvqNEG?Qfq}g1Z!K;I~l*=awjT`WdC>Y&_`FP1&{MY&WBr=`}SNcpxs0{Dq
ziaSCDuNsy7GoHBnzB1mpEyPXH*EM1Do^~k@SyZ9cBRq34)-sQIOvrK;o=9g(<E7%3
zjQ8SW`YDgJ$qIdeMXNLF2o=FctA45@UZ#!IWghQuOA8|Md8&=`@T-cYLDvk3olC75
zZF|xTx87Re0r*nYgyUcc8<etOO+6v|X+HfOyqWTe;m@v1ti$XyY30+u%-YQpw_kT^
zP;}o|mrtzC@W<&%pAgCFrz>wi4P(Tv<Xmx&HVSc1<~w9~uq_X{NwapnSj!3TkKSj^
z@X%TjDj{AdUW~h9+<Dj?pU*Sov*hcyGpBJXTM_b7sVulD)!v4QD)RWtWVPi<M{T97
z53aZe#B0TAeiR=*fWJfj#Yq-E3|inVMhlb=!HSav@;Gbn)U;Y~sSiaR1d9wE{UzW-
z{3`_X319k>#J{Du4Tye3I5UY;=pw^ipa5tOXSy-+^~VTKMb@uiA;syxY?{Ca#ix&+
zKvhr;;@jr5Sxipg!#TQf6yx0o3A+y}p4o`Y^9>x`PaN_w^$5I@pl%J(ZYUz&q}MP^
zR~}`@ap1v(cxL+K!La(VpXnCnvyr%djcNe#t(@B-$Bj^Dg|Xi-LlW_Spw}kadV2kR
z6$)^F1G-(Sm%26Vqpv(OO(_XIeGphPM|J2IlPUa)#-^B&QK}b6`aE}3@x^Fm&OU-s
z_#0&YBK#GKXPYJz5=lnIRFrbT)H(W?yFyEaD48fy(MJJOZ~lb(+(x(LZJ7C0k)6Y#
zu?%W~DLxg({7)(O7-f8#0wy-TN-^>eDgF(f`YSU8$c#c`3RHcU5_Q-Re?*lLWGMUX
z|4cE)F)(dUxoWHy0@Kfwv_S>N#2+J{?1b$Csegl`Q{?LsI$h=C<@o44jLC+fe^KcQ
zjR4ZWWTftjg=z(IiQ=I~am){{1mG$gBhk|$qbvhxEJ}-5lXTzrtBAhc*ljhh9IONP
zeb*u9xtC~xx4<GOd`l|_hiB#OQh7W4&Nc2y*(*~dL}(`#rn2Rpt)L0+-|E4l^d9C@
zc5ljFK~JiCp>654N|x?f``pC*89ZOppQ>t0HLg!JZA^jhE~`h`H7HvPzPhL`X=#=$
z&54$cw_CQ~Jho`r!FY8z!b{b5yfC!nD8E{?*tB-h(U)pEFyEJKIv_P2NVzNT8coek
zxVKt1;}^7vr~PgrVxVE`oG%PPu29zp7OKvfs%nBaI{d#|h&$Acj75me4x#nRwq!}`
zY#~G%b^aTsL~S3wUtMQivU}$CUVVJQzUsF9@QuRc>OpDs;JZ&rs}I9sx2T#dL+X}1
zwO3CswryG5ene_JvgkRwY~oAT;CZnZvWoJKYfTGf-3fR1FJXG;UnuKLmTi{GHov<!
zQMP%Z?9l99MbuBVOk5vX^z<%sM#vdBW508SVhK+#s)2K^@|K&$H;qgY_QGLUmpCh~
zI<FfS9i8~HXR>inY8-??A%-L6u7kP@RDaVhqWYUi7gp;;5jQ?ZtG5AD<CJ?p&P6CK
z6tEV2$?`U-yzQEEp?rO+p$GDoTIcNHd+@cl3R3_zoK(9F9jLU<Ixx<5DDdl2tJlvS
zPE<kJ*L8<9`t|TJM+se$z59->Bx!4vY^@1cM6TVGTstJK9ioRll700DwvxH^R}U@P
z{MSw^C(aVxhf*DDk{w&5jxDo?ucFGfJFe=h6N%cc8;)yVOt`isEZdfk7%;6LLqz3i
z`*?XB-t3d;2CRU~I}Lj`^S4a=-nFJ%=1Pj!@q5?dAjQsp-2Bwb@7-wnY3a^--27}E
zPvJ%iMOs7b_#Zo|sB;@e)JZz5=kT}kDguS340AJu860w66+a9ERcaB%^ee7=st3jN
zxj!JJSjv;QoOEZPQdO!Gr%^5O!co}kuwBnEy$1fXnD`gCUHRk`?G->Lbfbt^lruyF
zBo=`!E>6@d=QTZ<0u{~0E}e%|j&7R8LwE;88p;%HKfx{eh+s9VhcTfE{~6`_E(L5v
z^;4qhu@!&8aHIMyH*KS%LDtchg05V|98ka2+V2x|W<UNqA*(Z}MnP6(T+bS~uUxV;
zFf02y314w9Ncy%)zO9Mv#{j<g3JuxqzFzlAogyt{$P6g01jsDqTT3Xaw07CWRjps)
zELGN7Cs~WsCF*+<uHJ;D_hZJ#Ummay*m*HQ@8pUOgHKE!p;t|JF2qK3gDZ58;x^#a
zl>h>rMM3%8D^21ucB5#<I%AC&&fo*E02~6$oQnYon2@ya1t4b0C#FfCBE-igK1~dR
zvwL7@pmPB`qw4f>308K}&oKj!WT++c9o3%YwY+tpUJ!1KSt^P<@!?yrU&OB9gAuMg
zj)mON=4G;YYTa?SMzG>7bw4dH`al96#$PR55SjBGaMy@ue4mGM6z2>gZnYfjZ2?ru
zr&QK+W_+w7zh*J66VKF_e23e$I`Lr(UCS6Rxo+0p0Y-Wy?A(Taav<HW3?`^V%Rg-e
zacv6f#&uxQ3Mg%+5X7*XA%nsp@hB}{wuX-(rml3ho<(xl$5x{FGm8BP&G}t&88fKF
zx+3q=q{jeF3w~RCkn%7w#4jm!6S>6##AJu!Xj%0eEtgFQ`06!z*NVZJG-J}~+g@-*
zOm2zkUM^8fu!pK|U`UCW6Fd-48QK%YF*MV^aMbDt)JIPShM`5Lpc$EB|DFP}JY#Pt
z7pQK+*_)Etob13Ub$rE1JFU(JCPjq^BZ-ev@C4;k=z7%^Hc`3E_FczL>4<`-$RL_|
z*Ad`<J9Z}P^`rNRi9aLn+l0Z$W>&*sbZUCNRI~o3bD?IhWT~9B!4W9FHt(Bt;5#}D
zuhqb@Z^~UoyM1{ph#GA8j#|j}Ks(sE+NReJymDaviwiZ_ol_gOBsUzAHXLHvYg6ue
zB7^Eyr9d({xQ&NFB@}K1l~A}Aesg<f@#&);AiT;xO-Z6UxkW=L>8@HXEUF~xsjdSR
zq-xsW<oB+NlH8o9@@_F=v-|IsadmCK0r^rlHv+0eIczpRvgq!(Q&#&2j^!S-_0e)W
zo_}=p5zt)T>ZE6l<XN-mS$oG_3fiKfJ?UE``PMA>*22OlQMDF+i|roOh2GPP_O&3{
zd~M14E%0l*z&!dc)pRFz99^t=054qIH9K_2-=#Qe`O!#X=dp!t$0h&q*&~bg);s0R
z^IsrRcHiAF&$&DwM+Y&}u#nibiYz2{`e7l_h4`%^)6Oo#EeFnj7u<3hDPBx@Zmr@e
z-qnKmk4yN$Qqzw;0~NT*e;|US|5=6<d>*N~JwxWi1C0X|=z<A>y5D2bXQbj39Jt&S
z<j@4s%-Hh?5=3ebqC>VFGodp!8*H!)V#WU*6;J27S|L;F`&RycB9LrGQRZre`IZhX
z+M1R;P4GJH=}*}EKX5hAKe*uPOjtS<{ZxUXc*#;V(B42h*2-5AuyY~!&Al!WM$W&p
z=~gFfCxnv`e4Ht-1Im26onmkV(g`~n236h5=%Wc3K!zj1<Nqak!^TCnrkzV@>RLw6
z{38Y}?e!u<t^O>E=F!a(&b-g}VY=>rqLF<NMPZ5#Z6Z!>)=9Rygsl|>$erGG$=<_K
z@8S1H7kW=hmY&&y1QdZ?cP#d#rCPF7CoQd#1v$Ze0S(j;C+4XH*@A^!)b>wYq2|T)
zB>IpAk2DF-;ctZ)Vx9OvJom~+U}&3IE*U_F)<jz-?0z=niq^E>8m&(CJ7sOObt&H|
zGqY_*F2Nx)I&#YnU@9M$6o=7U@kt6!A;9c0FsGLl{}Y02&rc_ilGkjR9pnwFen+g3
z*fPgm3huRV&F#sieyOQH*|bk;+PBbjAX$3=&dq;it6lQIMsdNjCShOm0aU<ki_jk1
z+ZXK}u)kU^=IRc@+KLRQF4qlM`FVc8VtS(;G4U;=$%U%*ch;-`6qM!h1R`{}1kzzE
zq^;<=a%rOkStf_inDVgC&&zY<1AjWOp-J4BU(9t!r|5H=Brei45MkzQ07?nP5`NgH
zj0!%mIZDg}bA>!@f4J+IqOs`OAHtvu=$ps}ohSn!8+t+U|Dg%UKsK@)pAd-ZF1BFt
zc%RfE=XnK9MIY*7hcrA@w@W%+ee_$8&laX^(7D&8JXJvJuBxP~QF1jVU9C9eKmW{)
z^9!!+3CninP=!8ls6`)KLXL!cfM>{GH12Y*d_bQ;D`Oz3EWYZfiube8F}zNwxP{~3
zb;8JVk8l^$Usp9k;HD2eiG`T!Ecytl4<Exg`xzrYH0^!3i%N9SM;@p|7nK0g*GFFw
zb^R7Eq|O68VIm7V*PJ;S<&3~%LMg4TAZ5HyIYhg`{n?smYKG7XrUsmUIh&61JD$3v
zr&aQ_COsXJ2LghD1<y{+v>zrA%O<$LU-FdAUHAsRE8zPGno4r5Q1MGVf**y7Poj2I
z`KGm-`yY!o8Gp!cGRiJS9-@o%>E96uXMZ14nzf}+5w@kA!vtsUtm%D~L}L2NAwzru
zg`5iqgVTF!-W)NVvC&o$J_l@4KGq3h-<DG$ZZkAXd27t)kBe<hG*h@V?8(Ds7Y7(&
za!4Hhr}Y1c-`RhiNznTb!@K{c{=1caW`_Sg-wC$N?Z70LwO*#R2Ski3SIn!$*et6H
zeoSYsw5P--Y2yjsWacr-o^!<u;B2N)bv6Sj5@b6BS?q$<GeKI;m1fEE9p*+E-J~;J
zFl0<0rT`hD&NbZGY+_&c(@jZpX5A=W#qRpe{Iiea7Z|B1G4Xj|`_j`z99VO>{Lx1M
z@}jY}bf2^sTy(%{17D*8S(P?jg}A}`?8&%w3~l6I;{N<&87g|7Ly3;u{B+h!TZ>w6
zz${zyX^rU6E)F%C#>lWP=hEs36*3qxWUdf=$4pr%>WWca1QnjAk7N6^ih!DHW{P5s
z+WlCI7EAxa^P37$=ws1kSlyGCwX_2uzjf$s15`fv7&gARBc4{(((pdazWf~81GSSK
zHsz4|!vbg|9F|S=mFVd@c7PsoI7sEvAJ}G|BcKcF7Qcg5MLJzHqBhUEM7zye{H=T$
zfkw1FzL8X$X%YbnI2EK=88yfU7N3$+-@DS~uj}eq<uhY1Zidl~>V#bUCv<TLdk~$1
zzz3?PCUDAkazgxPdWGL0fKisAdo|fMLW9q~@J;>Gj-(WAAx8MZIdR+c_8hwehV|3J
zgJ_UW=V=O-?k(e!s4TjzTdyEYo6;`St&nb9L2JofE7!XHYSFzSuCyVAkLA?%NVPr5
z+CHhaFV(mTU&4?Y`;v{@q{eN(f%#z>#O$SIkm9#)|CpV2zPx>a=b@}(>=eD9$TU#Q
z)`#$i;#iKoX)E3SmfqPzG3dG>XV5Jx$hU|HvujSAq~II^9Q~j#H8GEwvi%sHDU1k;
zUxojb3KzkhjQaKN68b6>j)!NAg>0wcgzp|A1462K1RGqoL&8=WM;y=jZHoUprrP>j
z>emW2PkX5B)MiSV6R`lZBK{Y8%ye77pguVDIfLkRbdtGfPfI=2bKrFu+9;*2tcjZL
z{MSrtFU{c>&=v5RZb)Tc9hWLsEmU^RI^jS8tkG>--CLVTLogt94=fIzTx@y}bYQ~M
zny|MbykoCQ+8ZQ$11wqR@uib~sj)xVxJhc<^zP|J_YkDLkcSj-<<&UuGY;2qI766l
zwI(dB%V&AcS(<eCZaaK$1(<B1Ub5FOHVmRns}*Iu)xV<^f+9un^8Wcn_d{82K?a`D
z)+1_LlEXKD;I^YX^9`0No8LOI2&G5M)`iM#$;v}g<)QZ<qVFsnNNFzzdz{wQE4Bid
zV*$Qbr{VkcCti7Csj>BY9dC5t>p)!tQrAG@=*h*#2mhHtHvoI}T`G3ZXu&v?DC4jr
zvu}5|a*mo`x*Jl(70Kdeskr%C!R_Mi8*Rzn-BR!FMDO9{0+XZSmvvp&!V7g9=4>SR
z@h59HOSPL*)s2bj?kj~icEXDdoEFx>cZ89t)8LyGr=$JXCX(IzZ+Gv%<E~RAKzC`0
zLfq5Zmu%T~yJZ_*sTF2s=pZ=ZYJak7wN$lwuJD(hs;lQ;pLu2GTVK4<c)Pw2XRqh>
zqFBa=nxT=r`q11=!rcrP7uuwL{NV#UD*NbOBj@!&f#;}La+fJ?3KI<ji|(DNvhuk?
z@&V`o?MYkpPnx#wvswPyVcF;A-gg)6>o>k%S-x+z@%`0i#6|F8aM4Mtr$qS%0FXKs
zCG_E7XLMZ=>R}Wqqe@TVhAh)WGx1;Wd#X@ylqcuHw;}T~BcS*U`52P)ZqEE5P3vD2
z+ysp4P`+FjQhLX9-$2oN{}r=W8`fEl(U{^}BCBv-o;fSWMOw6^k%y@mL>P6c(z>e`
zu8t*`g9WDb^GP;e!qy2uPkP!VPkRE&Vpm1dRWG^f=Pe8PG=as>I5zP+s3waircq=g
zNk;j^6GLGCuVCA9MhRbRRK3zboWS@^c0@yykWuTIOe^zDaGyVc``z7qg+_q<$X?=p
z>4FTVT>UCk($y}x+OJhDxcU;7KK6!?HSIxjUqa>~MZm#>N;u&!Jh5j87oH6%=emc*
zDdZ8KqToCQe@+3h8H$a=MT*r>u!n*c1o*fgb_MZWx;IfULcv}Nk`z2f!M~^AKTvR(
zf+r|ANdb+r7@)vUaK4{nofNZD>>vf*bURA1H5B_c#rj!5x92EEZsf(S6l|gZ*aaeW
zdT^Lx0~G9}fE0b=48_QzQH)YBNonMBM{x`B62+dQ;4%g5v<0)SW&1HR>L5E?cKSj5
zQ;K04IA%txoO%Btr9~)>*^AHwiL}hcc?#+&Af``zo&u7DiHlSsNHHRV#IqDIRYx<$
z{v$nQVpWoyD%ud@KSYu(;p2qxrxzYkz84~r<VXC^l<h+bh}dQ%l4!-M`~M5Ow%{g@
zE4;s?)vsR{%er5DlWk#)F~S$1*qEzb0>n*9ahlLcLI{RHhTHs7C@@Kf>9kYYp{?kX
zn7)WUnQ1%Yhd$6Zcly$o&gchHYm{-VPNwfGWX65$cg`;i3C&awXV30AXD|Bq-+#~9
z%P~(-lsx!w532=ELAk|-(lckVJaP)g+`oZNe~CC?TWbGA`~=9vlK+KAi2wXlD2H><
zQ*p(L*UQekpJB9>9(eH@9<63JJq>osz4b)Dk_hqj3T2f}7}o9w7F=|>kB_2$u?Yt~
z2y4T~_8AGOec}!6gw}9&$apo=U!K43Rg51##$nwE6{m{1@=zr_Y#G}YU6!$<DZ#8J
z12SIk=~EIRiu8t=Z+j&?Y8hjTbCxmD)In-?JLDKXKEwDHU3N%s9cu`Z5Xi)mN@vuA
zJ7bl>s8=L#MiMR)6|<wx-ef6IE>x0REn~PDV5SeGA-&~K7w4_blS%-8_-T^@75B-$
zdMK(SLaJ1}sS}nqWKU)EDDm{DxJO3ofs~R6i6>EtT1Hn>r)bn8XS5b^Mk8vh_?cy7
ziHdmCE8n!qguG1Vcrq>rSr{P^lO<pI5?ll>&f%P=WlT18B8>QDwEV6T2o^6b&0D*U
zH3?UphTP852<>`xS;jz9r)Ydk?qV83n`YOUqUW`)77^jgM2gO60v^BmhL`(xTYbA5
zMjM_0{XYo78i^~NFpr356w%OQyosiduz{}%`ed^8$0l2XNNEWY2EjnnM_9Up%IHw&
zB~-@7|4Y%y7#e*{2?R@fD#zclrr&B(MC}k;M;dxW9@SWs5Xfc+6{n#bJcxp2bTkbn
z4JBmP!jKXO9!4IX_;a#Js2Urj$46xof(+19ol%?{LJJwixuss^V-%e$-3%}~r^TMj
z5(3#+sua0<ROuWg`EnM<E@f~W%}qCbjOLDL)GMe|#vmF^mYjDdly1j8)X@zax8-ac
zeh0FH4PQtew516l;f&H5#r~mmX{H>xcl7QRWpI*RcSh~HGdjZgBxIN?fv}YeVIJIf
zQFfN+7sl^jxF56<Bg&v;J0rsA1*^a{VYZUYS;qEefD*^Tct?8r%5(Q_DhV7J_Vky>
z7o6qY_bx9KtnP88Q!?h5L&_kGI*$D!`6#+eY~EVkJX{^yRmHZiU6a-6*Q))4jgIS@
z++Po6D*fYDXk1B(wkpdgwq+$MxRp9QrVLK-ieyJ=?(R+H<EUS3KCGz#<5&aCsvx8A
z|G7zp7!A{Ni<Zum$4lq$bz9NF1zaArT}7A}r6=PmohbL0-nrL?TcH;4NOLO2#P};s
zOmKQq#JfwMmM$-RT<P9z#U>ukSg`{t#Wc9J>{Z+-xKZ>5s~&$Pkg>4&#M55vvOGPU
z&|`Trbn|o{_NsZ^%`TQKI8$=G9!)5T5Pw0kPw9kVDC{YBS?xJxP}ILM90n-bCXzj+
ze0jQb9c!3qSz@~iQaV;&<0?d07}cl*(O1j)h3WG3`?*SR#4<*k5h7wV7>55+EYu#<
z<Q6WS5EP#pP&%XNFL<Ji!o>+jVMhHTj8!H^+cs(x<Tw@G<owiOhc36(+q=qM3)gW;
zM36Jy6P>Vd1j7Qg7a@{E-8L8AZyJAEjjq5sY5T#Y8LRz>!kbRx(Z=V1qUfw`%>ZFT
z7&7ajq>?mrqLffEQan>kT1L8rZ%=Pi=OI<N!}UG;8%~crpjBg?rNZ6!l^w~AF3vpo
z*pAc<|Lwxh(@*h5IDq2}5K<08;kcDhzf3N?y;ykgK8@MQCFj!oU%XEVZLtEw(+8&?
zJ*eTE(d6c8sJD`xutF2cNzr-)DiR^6X(wK9MzIa4uRK-GEe=)srmWQ7C6|?&Q3lhz
z0%rpYchib<qh<$h7mBmExgFm|OfmZxT@QvT!5x;d^J#!2T2*1;SqD|dE3#V}hEEPb
zxl>Mr^>B>7i$kab4KajaYazb7gwgQ*6vOvWD<euvJLS%WGyFGUva$2w9M<&ZPJ80c
zGn94APQGHYqFEHr-tPe6MHgI3N;YhqFPr2&`B+N9b>7;?G}-yu@41Z+ynW!s>f--0
zZM|58d2zajt)beTPTWZ4IJJ>8UEz0U3im*v2Dp~&rfVCl8Xr-iw|@55C9Guqgl1}_
zB-P|OTnbr061Ax2$8s%}zdqyxDC8{Lj@g&&<*9wJirAY#VwlHWy83(py~UX~lbGuL
zl9YsZs5DwM@gypGx9$1w%jD+U{;ChFC_S`YwtHx~d(`S4{YUpWjspg}mV=wD;HE#s
z7Owri>v3>bb<0Sx?eq45h7>(Ja7ZgPh~D7usJPO$e(^`sMa^JC(>cN(ph)vPwJO+h
z)kOQvbEiK%V^8^AMCX|^&v|J^443s+F1NgM=j>g}c@vXPXc*@Ug{$_hn{M2hh1FPF
zJz%|rEaYZ@0IfBcKPCbF+-b~<uU_B@F?>Yam_H3u*BO)64oup0Wrhim)vT5TrwLEx
zg|j(YbAk=)lQXnqI&ab}8_sFCKwPwpd$97<2s1|Me%g<ZC>yEFBqhbKkbC<JIlk5_
zha7AdS|(ZTYR0vT7cb@L9#Zor{VnYrf61*k`=)1C^|fe=_aofdm_r{ZT)}_HYFDkJ
zMJkv#*n4R{$D6r7!R26i^M$U#YDNa-n!N<jlX2%CKrQ*IJZ&C_t&fzATH+NldecW|
zO<U8;yh3fYc%zO3R1m8jWVW{tv6DI8+)7}Wz%~Lo0%Tz~M+l4(7$ZQYW^)GtR`J;W
z`7MfKX+)SXJ43}Iu!q1D0oJlePdE1yI6&YafkOnQ3Cs}qHb8CQn_7USzH79~&zgDO
zJWR~lZ(?Q(rM*6ww>8}(#GiVF|G5)cTdzGv)p(sa<F9bq4{(-<cF(XkvT&EQb!J-m
zWPPy~V(AuxT@BU`ze^m)DGMKSv>x5}C?)Vbg@zRP8X?v>BG{SH4RGkOd?b(+^IDJv
zUfd;TexF3%CJ{fA>@8|}lLi;_Bmq+6YY`@X&5H@?;<YxW;67{ErRf!B!@zq)vHSbi
zHn7@80#b`x1-3R~*n2NdBb_&3)OtBv5HIKH`~%*~Q~YP<Hjbm%7KwSv$;-_4pM91R
z>?dIh*iKe$;yKEnhH3LWfeXZIzk4?Ci$TpUjn90vns{v#?>W7@wkrP#W$<?b7YVQl
zh3x~EDSCy#RRU~kxJB3tQ^R$N{)E6C0>2{gYXZL^@LK}E1E{5^zj8mw3H0W()2$bK
zkr)Epv2nbWy^pe1&))|=8e@M<e?)wqDKNri&pz{jLkJ91BL4xtHCQUwG;H|Sf?o*V
z7sAW1eN`O)TpV8!qbs6gRqXv-?EO;s8Q=F<>{}7TD<WHWx|f|1%NZ&D@R76opRUZm
zU0a{I9Gc^qM`)>4@#c!yw(js~j&%XhAn+_Kv<c+8?&ziD{|lPL@(i;|?KN#xys;|g
zEHSqtrdGt}6|sLE?p%>Cz%#GVva3|vE$a>^vPKQw)GYA^s<0{!t%`#$c-O)E9c@MQ
ztvjUVz!?UJ`-L`+M*Yi(7T<Ynbl-C0iwb*%I{|0&&`aH!hIGhYB<j(I?qt10A7~gZ
zIe>|c9%=ZbjNr4WXBq*w%;0o}7BAkw_HNAq3yMrv-D%3GqwY>oMrq0@Lm4q^dojhe
zKn8ugD!Y$ay~ipdQat%s9ILxhRd<YJ<1fo5NH&4lm7bzXq^J^cszjWM_T7ddLPyb2
z9LTP^J4w8&j<%p^(yjGQ67MAO1c@hJ5=R@ls10;v25k-MXlpz1g*@Ox=Kk9!o5HI(
z*3u3wQ@pVz5UhDM;1g>C0dnnxK6r1UoWHlfvTd)`v3JRDb<Exh+`jQx%qq9k+~sXJ
zF{8N`4_EfQZta+*#=BKJK<PauEL>Z>Xl<Y7^hP^Qf)ppqKX~FBx#d}N8`@Oq<eEUR
zmJ9&DuqF_!W#XE<>PlB#9aUGL>hj$_V!2{#22#}+_L5eH_FG*CDk8n+c4&vR(rjhR
zgw;7owLhexsaj%LWFLv_6ERQ~{$-JVB+^erXH}$^#o!|`_(Tj<MQmC0KN9^<#HMxk
m>tStYLl9K&X8l@6H3rj`6&q4cMCvk9oVR3pO(Mc?;C}(sFibH3

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_models.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_models.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ed11729ec0336becbd1ef5cc0aeb6bd453c2148e
GIT binary patch
literal 13786
zcmb_DTW}QDmAB{p)QmJ5X(UFY)(bIu@{oij1G0n=CV;>K+wmmc$)Ik*$fFshy9G!d
zr3jD>u5~K-BZ0gs)b3VFE<3f<?#Fs-vsHk>c2$1V7TKBVm20)nN`AHmgcor3W6!zW
zJu?zRaJKfA=JvU-b8p{1?|b!Yx7$G=B}{)7ztBO*zhOa7b`4l-V+grIIKnXrGR;I7
z24O?OFl~$&DQrxbrp*yEg-r>|v^8R-usLCywnyv~wj><W&WLl`6>&|wBkt+4NZGU}
z;+ghFywl~8a@xn5sF?Oed=$1NDyRJsKZWgys_E)T^>iQ-pk+s*X1X>~%Mb(Mef*~P
zV11Y(LEda2`w8c~NI2Jf2DSD*^+6(aTB{pc%bsWr(UBf#^XhGpdaj(ePQ9QZD0)m9
zxC*|3^TDr@w{m{oHEH9jE}A2abJgL%@33c>QA~$Y6K}xN$?=o1*@VQ!CnPA^xtJ82
zNW?@D3XT_#A3u6bib=Cra_vi=j3@cMi8!B>!dAt;PY_bVf#hULaZ_-d7iUsQkyok?
zrDEKn)cDX47n_lIVVwWwEH6rm{cwuo6MJI<r-6s!Q0t+!M|oj7E{gF~QVG1AOq4``
z%Z(@FQZ$h|d6E~fh_h(u!v@8r7R6NJG%qNX#ieonBupmE!65gLl$wrD>`l!kVQ~{h
zTStsqVXYB>D}*Nzh9eQf%Y--bCXU$!wG=WSG-nK(6!&mU<kdHbNv9N3GB(XCj%j?+
z=nT}1h0TgB8pY~pRB=S3&@`Js*cFX_b2gUHT8ywb#S@LjlF1b8IP8NMjlN6Pa6w-j
z?v|!!x@Y1uol;CV$xEGQXLt5L_r^}XI}tz8Ju@erN+r8bClb@$@M(m(nN&O}iQTCg
zJ{gO5i@b0;o;-;Y^9iwQW=`+}PMU23Ky*R&9kS|hUpSEU`Ys+3LV9!Qt?7g2XKf8<
zjF@>NXPmdfhM72%wq0hW48I9%7i_^%*d3t?kSQj*QHtjTY^AzPx?f?75WuC>U{;G6
zu2%?R)`VFdW^}dn2sP*#0wNC3UyHt5<K}ZmE+4zv^G@WhX|p;EJFa_48&qIg`vS7>
z7QH6NM2wt)Gyas}Oz=Wx-ppHYU7Q6VD}@aBvXhoeWRl^m7t10x&UTSR?3|r<082V9
znj%iFigWTVj`oCl_oRt)0b`Z{?14UR=;O5$=vBs-a~|HE?^(gSRqUJ>`um{062|DY
zCaxSt`spaBRYw8t3aCX~v~RxF2es888r*=v#aB?gCe9DFflK5p6R9~y!qtlJ2vE<^
zfnzH1z!wABng8o!r(y!nvGJrR#gY>|E2Y>|sRYNO)L>&LQnL~(o#I(!U+9M4lci+0
zMGUjCB*(^7fgpA{94w?4p)SFTbc_Ild2xW&ce355w{@!oTU3E)f%k=2RKru$HcMs3
zldWSYx#$=`2UI62Zl21q=mZsHinoaBkPby*Gkn(xT@s-9w!ja|YgHh&f52QJ5){<*
zmN`wnXC_1!<P1qOX%f}MJ0WQUlyqDqZG@6Z9~&o7g0X6n+&aWD@8PVFpdDyRO((IW
z(<hO9di_+T4i%pIYDUQGTM1b(rOA}H(5gdI)jCvo7U4zS+mO;GeP#NSA#ZOt5eXTS
zCJDKdCcOu&+N0OOI`VI?*AX(s7GNEMQTY`=WfY3&4GBh->s3z~)vUJ{o-nFHFTto1
zJ*JQ(HY6C8{|0j;Y#0;pqlYUMvp72g+6RO_)m2fU73zg8kSRW38!0}aQfZzZDRl~}
zjuZt%s(5H!oQqDVN=hlyI;pBn6mY>xHK>9p%r=t}B%X^3yw<8%Vl%+KoZ`X`dbNOC
zFCZ-{73;9UawgtT>@z}Yf)~Y<pt$0xXi<ssA*>`h89%AGr(<U|8J*yhVT)oC`NU-5
z9Vz#0oPa7tdlXm>42x(~M215CXU_>#a<@ZyK3GEHbm^P84SI<G1lgl=<Utv+m%U|`
zZGpSC+SR(YOD1?`*{%4jTW#vbC!6ivN$XeYI~HGBuBVm3)$Ki4xoM@bFVi?CH;(;d
z<IyEoDC_cOT=lZ6KI7UfyEd<Qn={^RvUl6k_K{`pzR!&YcUjIznqFca*htUducYN2
zBZ#JcwWcmp(=OMvXKH%on%+yMx686YHWTcUgI$^6^K$Tc>{e5<uC5_d*Cp3=W$Jdx
zb-ON^eq*bpI%z^<eRx$uP&izG-&!Bk9wZDXBp^_1*^tgLb0Bs~wSWjX10sNt3POk}
z#e`{Q3ct#R^u9s2Hy1#VP3cy5Q7;g1%oMfLiz)$p->8qg0Jiy?F#8V;SB!sZHj@Qo
zLDZ#<QkgzZ?=LcMN2CH98>jNjsrLktQA+4(J9nNjkvV23dAskI#xqRVG(UvqsK~|=
z30CDl7L5>8OsEgK9F!6v8;`|BP)6}dP*rp6WGtRQ{f0_s3~Wm~<r&lv8i+&<^;V5@
zsYw!c3gD>_0XIZI0i_x^<xglX+FNnNMO~E&xVMVql~`hyr`EJ$=Fz@Ztkb}hv6Fn*
zBs_;*Ot=nIX`l<WsTHSI62Xuck<IayC~GO@R0tKx9dW*;6r(-S?J%GbzX#cGk>_$2
z0!-p;lATRU&i1UUB3l{ARCe60?6@?tvT0kkHuUrGkHU-6U(LNc_rPcfmR&joLmFB#
zY@f{bWdqIExlG?z<i4)}BQ@+?BZh{uhs3a{?9#yp7UHeF+Wwadzwz|0RI%4KWg522
z4cjvf19HQ_a@F%o-skU?6MtvU2Hn39Q7fGv3JupVH(6%5+H$j@65+l^$Q6sgOS3|9
zBCmd-Gj0dc{@M$WeHWE?p2IFNV5%_}Z9v(@BcLCqk-SpZRT&sYhOu=Fiimf>Z*3Q3
zKVWngeI11O0t1WzwHwo0hBrVL{E)fAfbR4IsS+g9cNs8LD6xc%ilJ+(Vy048_au<k
zM4U_)nTmbaNj}M+oe}oT_mupeVzgk`bnOBWA4`aPy7Hr52V^1|(2wZ%U8*=D_m5pS
zU+%p!@Xo-s+TZxvq5PN<(}kKK1B7k_uApixY@n1Vj3El#IQAPVt-0gHlg>9hb6sCY
z3}~nWg{^ohmMe~YP?_l;`?P-yz-7;oC7bGvXcnAC?(04;&QCw@Q2;<ZGT(NU-uGiD
zI!k<JjzR0alt{$S9or1lGES*VHB&*e3aJ?(9+NcFmc?(way%+raI@G{lA5!z(;z=$
zC*p~?G?$k!XaZ~cnoUj8epD2tgd$tHAdrs61i%eGs%91=S9gLy5@G{XgpI2<1K^2C
zEa+z`7EiJ<imJ$sD&W)JL$$G0WZ-oUu*bn<r*EOHsbIIWurf60C*y)BvD!N&^fyOg
zSir8@KSp6UY$v4?m7FzV8HZYxSX9A8sb@Y^ibPa<0~Zv<L7k9+0P+%7V9D8(_0?y5
zVc8d6a)q-VU&hlcdz!DkBzsyjo(|d5v1IFbQjelIz5u_q`_Is$Bjo$cgyAHaFuV@J
z_Dg6@Qc7zA0p<;Lm{m)XQ-^f({3P=}^B&44NbeZl9x#yw1BeYWg)aGqG?h1^3k^CR
zShZ1GHLx}4S7Zp9(#BGTKh&1csZd)&s|v2t^~nINQ=g{j$r+x;P9@*pSoHqj87-I=
zjA=tD$E4tTFhs&BXi6L2&$}eY;Hxq4TVT%Ukns!^u3_{1p<|~~XEqYB*af5?2aTVc
zNX&AYA6i8G)MHH~3hb+SuMqYz#5rLnEI}~|sg$HRz~a}!S1KErgqNXJcm=yyX25BN
zxXi0i0B_WU&T`nTvIx=y<r9icK#xp7M^HejS1hN|91tl>DGn;bX;4YE9xVJ>351S-
z)DkwU)`6oS^cAOOxI?^66h;sqpaAE20xLwcEl~z&c7k7o4T|PDT#FXXhf6VN$*ykz
zKJg)Bs=ZK2>YFm59iN7Fta)tJj(cUKzUQ*zft$Fivc9@2gYOJxLyeixRynja>#xuF
z+hl*+O0a!7*txW+>%Z-0Fu7eYB<CUa${Ya<xn=_9cA!lTv}FR@<iNJOfgNi;N0sAV
z1*z$|Y<f^mQCDBt^Uj{EzvfExo#?8sI^%2o)Yl3|M<AG~ZvV8pebry1PPVvB_IGCd
z+hzau!n|%P%<BbwIUlk6as<%ls$c~fTdi!Xy*hB$wt2-9xcbIjPur5M?eYC~SlHwH
z70~T5Ri@`Xdv`ML?B3gHx>*(i@MgzQ<KFG256i+(5ca_C&`+0-E<goA51$IB4q#i&
zf+%S@0Be-gU}+=rLl3zCvC3jY8)6Y;Dj#3KsnnFt#}~jfS4S8%)7+FcecP8dO&B-~
zqZ8dEzX0X+m_eJCbQl&O9#Ts9O(CIgNQF4Zf~D9cNL$ioa6B|2wqQ*gzKz1BgaAw%
zbkj_LUTJF~K4QmrFCpZnF!s42rL8)a{C=3!{eT^`0-nYV1E82TqQxgQ>n&60<Znov
z72-W+{XO7tz?L@tgmCtsfv|q|{(=MZukiad{QeGp`<sY_!BU!<iNGz`IOBp{%13FY
z(2m-W795;OLL-l+v`v4{(?qD?%<D#D7<EHha7Yb$RVgfKd)o27MSs5u!)rh>3$}0B
zO1>SaIn@E&30^Hjj%j_*fUrJme2ttzhi##WY$KG`us5Yi>@6~9K(N0CqZqK3)!x*#
zbBz5CZTYZjbD$Rl(hWl2Q4r4fc@)oZjMI!H>Ql{o$5MI>lAVOm3a7ZoQqm|ww8Ohb
zVJ{A}f$tTS=4N=siLTSE2;mQopYJ>bUKa#5ll&Rght%Sb1FHGd+9I}guxJ&r2!2t0
zY<2=eDyp@XpSX42-wFjpB&r=IXA_CJu5hJlJE23Nu+fQA{KOj&o7oWa)SW*1hC&zi
zHG%>YFkB|Qgjo}2NRNsQW}(3*IIKB4!O!5af`D$m;v60tiH`4k>E(ULj?=KZVjnwl
zJUV*h<*^aPKOyj7-$tneit!_QtfQ$U_3TA4#o^!w++FlZ3xZA6R33Gp`U2pRsUO2W
zn~cLb5Plpq1{DU*Nz{(G(ZVUH6H!V~rKDzRbZ8JNOFOMkY|eKONg9YkcUt|yOl6B)
z*>cGa?kKpdzBbv{w%DKX^)CB*v&~yF%?IS>1D~`mH;-pR<Cl(PJ)tE}Tef=hLo2E5
zgKn~~H|HQVY$gzv1K~>tvY<!;9de)}6WA&Twq7q^4(zyeU}e+hY;Du^nj7(g^Xsh#
zOp8*cdr0mcy3u{Ndpz5{=d$arw<BkBx+}6(wVA3da@Ceh)i$|m+x3p+s=<tRaLGHE
z3y{wKOCuRqNOpy;&dILuimT%L2j4oF^$y;s`Q!jh0b0sJsyY{6TRgb5^U#v-@WUZS
zUGJy9-bdNc_#;qxm3@zLEGd71dA#Ba-Y0gLv##s1V<ogD6Y7yeJ(rzXU(5Tx#h2cz
zl6~FThOL*sveMX*Y3!35`z{~+_v((7VEr}bC!>pz8()Jt0~HU5p}gYZw){lD&ou(l
zFLF&d73`I|UH>C~0$<@gJ6g&7IWuCm{Dl#qU-<V88vmXdv08p*1?Z;H1(i2F%!u7`
z(`!c9KjeXiTP>jxx8Xx0Gvc&-Xfh#eYlr#|ci?~z2bq1lEw_mU;M-OP>TlZ_gq;lZ
zyzRE{8!+Fl8nW)|HQ%XYpl~N-f=+iDaqyikX5Ti;oo*a_r`L?F14eA!jVSI6T1LyQ
zADNj^o9iQs6=Am(>eo4&c~$-Of*(;@Rb#ZQgtM8Z*75&~sy3#LpsK%=DuK0>i0!2f
zyNQ(dQ%WmnP_Wutfci3|4WPb^Us`=7K%~D6zrFBt{*j{HG&Wy9&QGUKgOH>y@{^KQ
zh@)JnZe<0n-+EzcDH5iQnlLSKNR$_+XmAVP#7uxpi?*qfje4{q)NY8a`AXoMZ!Kjp
zm+1IQ#P?IkzPzY9C^sMcWdCyW@l5FWQ$&@El>0N@M%mkVt$)eesR@pyK>r8*cU}9k
z{ti`Sj4k<&JS@*MGDwW$n#5QF`BB8mxEJTy;SONsVGpn}K)>)0R|6{#mjf#U1gs2|
zz{<luWMzc?Td;mN*59%-!+y&xhXvts2-q2K`51)#G_SS{hpo5jm|@m+D`Z8u#R{$K
zm@Xd#e*|m!L-sMas!S=S6N6IT3g#HjAmy2%l%)!RYt8bcHZIJ$F#$VaKw(1yo2sp7
z9#iQk6fltaXK<4I<=3Fb2g8=J`R&6gv@EEVgV7N%A|RfmmeJ^FWv6E$N^^o|Aw+dL
z4)#Tt;ysWAA2QCp47UIdBxhzNVG`E;MFoa@5K)m)QrpU&ieZ=>ls`8IX!s-zeghgf
ziKje(MwKvw8E&DF#0>f7T`kCi4$itD4@L+|$0wg<-uwfiIuDu39ya2w&Un~QJ?x@2
zv!(yjE&VILE!n`KY)$)0aC0WOT@G%4U^P{i<%kKCV;OPzGR~mv3|=#3*zGd>Ik)48
z+K$CnGo5?n&OJ*VgE_*yz|=xsQ@dJ>$8JVE=z^9JZ{=fpTy=ivxuJol5auc@^A8aw
z5THg<aA5!m5X@UOm6FR}iU9L+TgODmX$A<eFwY+*KuggYN)U7L8Z-j5j?E7g(_WJ2
z;ZOw*NQ&qUi>jz&W9!6rm+&Sml+vD%257#bm7SnhU2r(H#JdC@8gxo4L1aP-Q7k~V
zj>OI)y1r6E_t`>!8IjFGwvosvaUFj)agAh}`(*fY_B}ydOM@>h1;(>ATPS^Qm4jQ0
z=+jk1R~<uL3}vr%QV)-VF2HZ?KjD+==L)3)ZfP37rY6O@V>b0BLMeF&l8Swbc|vi4
z{|3h*;GJu#A3U-Rm}x9MPsFfFEtMi?dT>~RTuT}pd4GPv2;ME;TPP6<g(J-$LzvT?
zHkXbGKzu`AxqkGh$2Tl#%Q@z4mNNlvW7_h6j2BpRKRSQ3S%?={p0=|nI}0BCR6c~M
z?;VH+Gu$09m-6GMf`wi>q-!bo&K5QB`RuP|B59MbO={9{K!kz;jbsCjWG{+kY}VTg
z&-Werd|!q-ie_-q8C)=fyJ&_j1<X41$IY;lTxQ-DX?_6A%m0Gk4fw&tQa+LaQIeet
z)}lSnM>F&}Vb3jp%$`G}NTYg;M{vx7^;=e0$BQboE|&2fSj{V%(aXH~^mqnS6wfG&
zao|@BNfJLj0~e`MVA;|e9UFuxI}4}ACyRpF`V9~LS`|9aL&C|TQzNX&+YJNk7+4S8
zU?3!=_+*?H)}2M^SF0R22GbL#Mp%h9xqkcv2j*0QQ*#7e@{NIwJSrTy4^OqnwU`3C
zrDtnT7?0eO`L`9|v?+<I1xyreF@-~>k{Gs93|e1$)lATo3VQ->q$N{H^-5X+&6sck
zXkhgCd>5<)Z;Qg!G_a+##TPpqG?Jt3c#AkcJPOBp&>KDuc2<=f27B~x1-IVj*cJ%+
zwBYH2Fo$0X&S@pRUFe#pcOdmwV_WB&TiG*Uc&U4c3x-QSaHkILfueF$*VH9&uwbe{
z=iTepH}7G&6r5dPcm6Eiaix0HFJKsnT4w^@*c1+9hT$RsBlSWzWQt3p92z5{H(}L_
zJPGWP_l1N3EMlNhz3rM0B`MZ3F(C<WxX~s=O&zwWu_0<WqQnvK)|}#|uc=?)Q*1iz
z(wLBdx>!VIf!`UE8UZ>7HS=sK9bfzczs13K^TD60C*nP;5V{{xujj~~u59(DOm$eU
z4lhF1vp(K~XBXXas5=wtl|#MYYn6=pWP=Tt4nrUY?(zh??*_Xs+p;a4nU(>$W#EIs
zPYx`%yppMZ<+5wlS1<e8A=q^JaJKuo%ZK37M9x(1Z^$2jWJ3LNsQ-hG<<S02VE<BJ
zfA+bNt0wiVW3gWj^sWR#KX?AfnGGJw23xYhX8nrMPC2*}tcsdi2vM;RlxlytL-pw}
zYE?<<w%+R@-a3fntk!N>tXXs}?Ra%5@YU72t`)XTy_xaAX$e$3JgfzeVAz8{VMw4e
z8){!Xu=xD-)KYLXTh~Fm_sDDyOa|Sfg;>*L@E0G$5efS$^9Zcvnit{G0&95upoav*
z_leElfQv8tQCZHw)b*@BvHWbX4%Sdp`#B75_<gP%27Hn0#emWVPxL-~-Sd_Ew=q9t
zM(vg>Mu2`?w?An7TNgk#jm)Uaa?@l+*gjMZ^|x4N)MLBVU_p3`9rNv>QNQU!FEd(h
z`>=cv;M-mU)ZeZ^6t_dnsLyh{9#PzGZiM<f7OcNh!R!xM?)b3&PM{v^cVhiVMrMDl
z<s*{?VHbnBhk@3Q${E1?k&o8+?fd=Kk3t>$z1EK%xRQ^(W~lktZ$vnNeLk+GdC;=I
z%ldI6v%kglag!C{HY>CW2jR8DwHq!%E7oX~OHD+h0!F0ZN)WO=o@}UhpxY7JPg_o;
zQVBIGOyk4!0yW;-pofOSHxNSepWZ$aFwiQLVK#>uTAKoz*TOl-6t{MNZ-P%GqEWc5
zf?`1gb|WvST-pMlfEj9c(E}}yE|Pl&i`kZ|CB6OkowerOtJO_8GdzK7Hq~EUkZU`0
zRxCP5^`@(P<f^vC;}8t}9J}6s&TZb63o+)S%wo?P!RI}T!`yl8&FjbI)_ypgGk4xN
zwuX;fAYg7^d~J=uBiBd9m~rNwakF`h$yRsfRN#fZH@KS)wXkZhy6Thd!8J4X$sJ|N
z0C%>!J7+|o(2AuTTWPMOXyA!Wm9o8V%?yQHhYwp|6g&$pP{_6IF;^_^%@KH9KX{{4
z?m6-hVfE5E-6kr{_u__~#OxGiFGBXj$)FJ`*G3^LzPMCy^U`?V*ih>B3S2F~v5?>_
z4Zjj3xY1%9gX0pMSTWJ_4HF)0z{ebhDriBsL$G19nVvmUjicQ>(u6T}%`giCR<Q{H
zxRU80u9}sy>TA};Qy+XSvwKY5J$AS32t<utmK-sdE%epL!cB@bCe9@%;wkkas&gWh
zNbnQ%-yP`vRQP|CnD!4SaPDo!g_urB(u{g)QHlTK(52qr?t&nPl!Eap53pKO{@)+E
zQuN;+3f=In)c2zlk4FtE7q}5ZvR9lGiF(2z;CZ7`uGI)J@K5P~vCxASrJ}fAy>=^<
zBc2KzrMAvWarl1=?FKKs*Q>HIRjdVWrSy=*v6MUM_SRt$4O#VKm2H=LS#ghW1?uo)
zihl!H&d4y#=QfC6d`6l+BMqOCP5(hU9~x|o;UR(S9%i3c5T^Mv68>j0^cm^+7klO9
zuP)m|=Pba12IoVAfq~<7$kvQd%+aEQHW-=K9Dz)00O+CXTSlhh9>F{}Y9s#5S^X&C
kp4G}&vTkqA2+!5B@|+o-FhfN!hb=i9vG^X?0irMUzhOv6fdBvi

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_pooling.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_pooling.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8cdb1b3506198aa0a8d978924126f3c4e9911c2d
GIT binary patch
literal 13003
zcmch7dvF`cd1nvaZ-96ZPm&<O7f2B#B|h}lQY&d+TCOZgyI$B10%3*{xOmVrL#;#u
zvFz+w)Sd2*x+`btvK=dl>rPuza;l2!ZgZ8YIOR)a%U5wQBDI*ElghfvUe(=ySd)9}
zU8hp{x(5xA6xT_mayJCKzyA9D_4j?#{p<PfcDn_^lh^&L+#l^l=x=a>KKcf+@hXGR
z+lWOhlSe5vW>O4EYf>7BHF<48m(msVDLsSpwRuCqm@*bjDHBOEd2`APd|lpBu%@hp
zr_b98_LQB_hP<QTOgRZ{%)1J0sWw8J^6r8s<sq~=?=ARJzCwGdz2Hyz3xQOi5KILN
zp;V|4PK67RRHV?6>L_%kI!Sp;zN-*TMG0-qcNb!*7@=+Xc%diNLuh-xx6qgBBeWym
zUl>RY5Zakf6b4g+gm&eJ3VTv}3d5;kl5Wc<3nQr!Lc8;$g|XCFVQ*@0VP9%rVLUZn
zm`F`9NQ1ZmZt^b34L_+V4SEi-p0^O|<)U}B4etJ{Ov3knaAGE*Q5@64)nfKJuE_Bj
zvBWE;S?;TgTrtZ*p8iy>n8_=;Y(@|hjAA^Cvjp)SMzLiCf#bz=k-N<CkYzhryqGI;
z&*pPn5f|-x_EJVX#}yXx8IgOoR1|@Is>ByE;wuYcu2h5~_C{-`OBXLf8y3ZWlIKhO
zSx#6e6$MUlzwpW#zLezz0W(R*if0?IQP6v)RLbXy7mr^RIiXd(!Nmii)dQ4Qf`M^(
z95lz#$f0RxGu`OKvx9LWBW4uyc_DL=d!aa2!t;4$fh$hGFw60mVKBh(Y-7A!V!6Bk
zY};9`$Z|XgWiE${1=E)^`5X&!N{jqrF`L2TN(;Fq4l=E|VoprwRS_`?ooZv4uPllS
ziy|zPwK2ML8Q~4ZKD)TEP~t_7#Yt$ySK#=ITsngnI-L{Mg%%Qe#d5N6fn!gcySl(B
zj+4b~iG`7?%LI8vHkT<DLH>#t^Z|ySUQh*{zJMjI_;zqhWHeb-%hb@*NNl_h#C0%c
z4q*cZ<7MDa^F0l#<+QAh)3JI^&ly<5oF)h*StDm;O-n|g%$%t~SvWIm<t(fX{_U)3
z&b^H07}oKYBV{!sHq1IX8|&gAht#uk4$g@w&PBpD9L^cowzu>tH|yp+oR{?Ef%d(e
zkM%*^&b70C&d&z80E_FBnsY8T_?9jeg!V(g4bSP=5Tql^=n9kSm_><*;@!5;jiopR
z%MykK6~r{JYHvCVs+blVMxi)iRnr_+`LrNrvaoI(v7vO97?ENq5RFls0$t9u2<s^%
z6$fol)r%R$zP;thwq!c1nqPX3*dN~y0_F!GPz*dLF7m}}!!aNOF!4W5Z?F)2n|T|F
z5UbA(a~b_>aL#3>tSRftrhCj?otnd-vbK!U8d|cfhZJoUl?{+;l!V$wNKqG$uA+oy
zCZXdKP?aCV!5$po;Ux@;9;VKLOG>AS8Kn6koH>kxBo6RYz;WmVE<d-W2~vu*v%RP~
zYjYYT4DKtP7VtYLN}p?=&5VeJg^`8a!myYDgAs?XEKVKR|Hc$IlFwZjS-2`*DiudA
z=ktXT@Miqgg;K643L_;j`%G>G+#$AmY9q;ot315e&{D^4%8{fq8iOLjNeF&<4Q&RH
z*>S@tnF4aCU-ks$a6*m@)y>Ep+(de_rS3q{k!9VwDI#|a;y5Jldj-b{dFa%#?xAU5
z0~$h#v7sJ{mCw9Mm9M$TxCoy2Z^Qq_k8B9NgcvZ)GMaC^HE;p?lo|Ri`E7U$e+`!O
zcQkKnzoplsingr%hNi5Y#WkA?PwOEx-(2Dr?{0&v=vWQZ0)yQ7lr^-!@1pN(DtggO
zONdrV&6Ax2O{p<$nbxitL^~}}W<&?2?>0tSF`DtX+bF*kw`N>1K?!#&hf?!iO0{BM
z%Q6*nF$Oi-TU<)bV^6c=p(Ad}Rojp&7}<PyM`1{o&CR)4#15KYW?1N%zS+Og26ek=
zUMpsGwC*h0R#)GuTd|7Wv<9>iqjW1STbt6emW}*%DAm)-rPMX6h^>-5tbz9XO=kDf
z^VsfpJX==4_BpkNc2t36*;dxyGtv=0B~|+teXxtzH;{*x=Of$lv2!7hINGGJF_ULb
zOKYt#yryiw$W-jbzuQuu5yxp+T9W^FFq0|DZN+6~et#=PDc~NYbSs7y4!2U2x@V%R
zzs(|#(fn2nZrcnkKhxq+YWGoGVFVjEcC_mV(fn~*yA`u$7WZ(X#i7(a%UzR7?_8NL
zgHNeA;Ll$C@-`WsqIH`xoG4r7U!dGp3_ZTsN>K{N{W7InaZ9)EHMM!?h+riCEjnxy
zU!nC|wXt_<>Gnlbae+TE@&};TU2NhTu5B}W${Puq7t!Zh$d_pEt(f|bN?Xwdv;Rsf
zhf=K)kpCN$+lsH9WgRfq-)wOxbs2##b5z{Lms#hpDdB_?hgsLJDdB<=Ly*6lKf-=$
zm%hJ?Soim}RIc!5*>&s{ciFvr{mTrGJ@9TlddhBS-Mf1|(yzYNFRW$Te3nY26_b8<
zc_UB_Wsu0x(q%hs?*#hFTL^s_-aHjg#aq@xZ@#hzG)P<V!FVpx8m+kOD|^dru)%8I
zvcb|^gH1De!{k~eDOJ|Y&r`Y;(-AzS;qB1xZttl=t1hL;NPJ~exgA!cNV%=}p8qc1
zGQv~wmtFH;Rq3r^*-yv8pqt;)Au|#MnqPMP8&nB^<;=i{cCnmmzs@oiX)CR`9Duh#
zfUZY#-gM6r+`X6iH(M=GsvM-FhIi)Hy+qS5wY>bChW4mhvUs)GN>d9eA(pwwltW9f
zFRFw=!vcHJKDwvUsqg-Vjzr3la=7fl&i<x*3a#jFzDq(UgxZ@IA=KRbJ_%ooBe9S6
zC7x+gXDKy*j#907PTPa{0~M$ED&@_;PN`PRHb+k00lV0gI6_O8om5sd&T3wVxmBFM
z<(zHAZ!&M9E85r5o6OcR!$^86*w6ekwhxkFZVLZjdKsKTHy=$R@oQ8Pa8yL)@Ciiy
zFO^3_FDkU0_*+ft8l~_iu^gtFROtYz;63_|r`!RDD+3(An0fFjJ0IYFYbOs{W#*Tk
z=H6}Wzbl>P&RGQV`j@oK{7p)=Vpu8f=V<~PqVvS-4))U2$^RGY`-j>$nM8Q$4=nWH
zHp_9*OQN_S92^<JcoRP7Ce>3}GFvK)u%)apl3B<N^V}TAV`yuH!?*_qJA{!e&jIw(
zYz!(##Y<dt`pgSaVS&r$=5i_`lZ>9bloJTQkSpY}0x6~*?xF-o!R_JvWV5lEB|U~r
zh7}8&D{w^tfE{6}w?#*x!R#UrV-oXMqs5XKZJza&_68UPs0$Bp6#xgNH=v27AIy}Z
zTTrm*LVgjDw`i^iAVNORvB~I}JeLu;D4A_kERk`73>IMoA_148nIcOw`WN_|c<FL3
zeUU2(3y_`3rwbV_oh#vfRrIYtTAG^!gpGq<8WN0hS27qwi(+{dN<0^3IWd#V3rT=I
z4C;s#3&kmNY(lH}Xlffep?J3?({H>9M{j|g>`x{1t+T%3%djjAlE9Q0AZzr|j?s-=
zagj^UVXQJ;0K5t?ImL~OlLZ8(DmoZhTSJzBxu}$&7@z?F;+7)ki%sE!><Hcn^NxxD
zjzyPx2sR1xk1p^WRK<e9%dNHoe8AxZ#Y#F#6YWwQYJy-5xw)$#6|z!G5sIQ=G$&dB
zfGB!_i<UsT(3`>}m-HC6i!SwI?bxOhd!jk<=?cR{;u$_u5ENU!#AoP{KcVGc0s~g;
zBA>}}=}TM&U`IhQ!HSn)(XT>18^M^;DssmkfzsKnC;;ru;Uxt)0e&@8oZu_4ldmvv
z@<fZw?=WvO@K(3z0La01`3^Jl4j?*;CON8@)dk@}Qux#zjq(!^Ddxj?5w9%pN0%md
zg+^3^Y~m<~^QCMiFC0xa>-{Y>BjD}J|Hi0EwSDGKO80{+SMTW7{d@kT^r@hOtZzD8
z%#ufiqoZt2fJH8HS%5?n&nY$l;<)S^X)<>LIw=-a4#iA?Q(Wl_U_Mlc=^U$Q0q0S4
zBABpZ$-%ONrGXRS@jhPhfVEt`z=39p=?t4$0CW|WL2XXeEX5<dky}u85I|j?U|9sM
zQtY@EQ4^e@*hwqk4Pc!hX@uO2DDsN0ArciV1c4HOoDbpt?S;%0btdUNS5$0U?N+h8
zn#nJ6M0FMWLWXZm3tIy5ELf3MWSGZtQ?vqfs8<1AGmbJmpSj9oq(t$zkm_wlt6J$X
zC_?NOB-k<%0(vT@hFJ<KZiml~Jl;qvc6GMYn)Sqx6mR;%VlL0Z8emai023?}RsiGF
zW{g&=Q!>owiu0Mhik)6GG}tOEs+hSeS&rN`DB&i=4wm0=A~1c`Xxc>Zbq!>@!O~&d
zBxs{zfC~<6zGkin9u)3KIK_$qd00kb^KP<e+fB?!ZOx!U<UBr#Du&DgK!q%i_d1Gu
zp#;cq!;`2Bptw~#1dV{1H|`y@cvZFF*?9x5rpxDGfg+fUQGeR1MQ72h?IitUSW*Rl
z6)W*gX_ko60;8c2zmePy<VuR;S*+anO+uuZ=;E;l;4yf?W2{1Pas;zhZ3qx#9`7TG
z?@(;2qOxgXEB>6Y?KMJ8O7%+SmfoAF%JYYC2QIo;EL96f0~x12n@KAS*kWTLOJH#h
zI`zf^+GrXtq{8Hy;JVs`;-tdMvG_)$z@NrFo0}~vE|B43UZlzb7h?uh&WaWEpfNB(
zaW<VCcnvXoNzp<*#lM5AIvkEwV5aK23Rnr~2Ig~O)n7Wc`@^O9Kf-BZltlO*C=BtC
zbvNqntwqPA=-B=KwdlcG=-{$bwuY+KKG_qi+G0<9!MDG3>q|A?kmMU$^9?Usp7<lH
z=V~2$rH;M#53O|^t45xw`lgpHkNlzUjsM`lcMg2_(3-!0+4f;<&z;xSC!b%7y-+oE
z)iuvC=1Do+RSWNv!u#$&w-!FUeENygQ*%ZoXSC)Vf8ZRKBhg#tC$YX-Y+Q<s*J8(|
z*zvX4iCW~uidpuDYyO1fPuxkY`Nx-^|IpdK^5$*Z9d^yRuj)KTvd1L<nCv~Yq16Q3
zb);!?Z<<iw@SWGHlQY#b=hk}9!-O979+h3*nky!`V%465P`1wj?2k;y1;Dz$=IN0<
zJyp-1N1>j&MjJfEY-si2_Bzu0+5u$m8K}j_rTBO)eq4$l|MApX{H3ZZ`lNrT*1uos
z-(Ty0QR;tD4iCL+scX@|OUwq+47fi*nwWdVv1veo*zM$x2G;$D{&Y$9#(p?^ulGm6
zYR{pMwVG!bcin*cC#t;@w`M+U3$H%6-aED4wqM55I4Z@C%7bII!DG_kF*z|>OPrJv
zC*{%c+UOZ+^i17|;>R|SF794&)-A{zuX>Vlc(CdngcL|TG$MsYWN%pZc0gG3_DJ3y
zIhLr!rli=^gV@XOj@J&oEFF4T9-F9*ot4JU!bpZjW%%_cYyHzw|8(7l!lN6=8iu)8
zeeRFUx;D4$^}+80Z)`J!+z~w9BkOHP<^GXc{}HMGh}<{)9}B-%AS*sDg~#u|wiZ58
z*Q0@>8%T>~qK&z4IW{fG-(8I#`)|4*zxEURyI-$%zp~bTrs_IVx1r~m7nx;CU31Jl
z`GK>KEbxHjAE^4r|1<>iSnn9w)M^f@3k|CcOKw0Qt?s>2_ug9fjMP1|)_vxd<4N~G
zt^1(VeQ>S&@QMS<xcvXNe4|`-#$`|R_K8~0ehGe_{c?Qt)@j+-d&gT#9FgGXJ0i#T
zVOGa&Z>@Vmf}d|fjt|{B{RFG=gcP2TLzDN#+SE(Z)JxUL)9+1J12dpd5l|NmsEY|j
z`+rdWPI<-l#2LN~Ix{7~&pFl7)%Nh}>D8lk#0>V!SceWt{fDZ3hu@v9YZ>3M4XqaI
zv9`@!w`lDLWmjj-)hoGrZ|CoysEwbL#!s%hPJxQ|ChrvA?>Qp5qASeG5xIBd_UZe~
z{qFmoYHVV~`2=fw6f$LRT=sV3o1^YwxH)R;hMOa3+KmG7s(<h!E%F7Qbj533lTz2@
z{jb%gUX-R@T<dzN7JLa5tgRDPq@%kQNlKAqEixfRCU9fk7;d$DSdNXz9X+*<VX0%d
zZbu!H8_3w<UNJ-KZQ+`$TXJ>ZPCRt&`Dh>NJ-T@qMaJ$AR>McCrojKS#<rN<Xw^1a
z^^6j&*&~Jb)WXN4@G-e#SPu7s@<g5ii_%6Mpgrx5<x?PGZ$P!!nrBM#OucJZ^Bk+%
zj(zA1uJ*6@99}<qrW*gky7O$+bhhd|`=~v*np|s7EL)*wB)Zyn`;Zh$E<5WQALv+g
z^b^F`6SwA8GOHfBcVNYNn|a`h)xV%e;X|L+qp0H~^J#q)Z28mr09e7N^$_UrXPY*d
z;`d(o;pN8iIS>B=Y0Q(4Z0?#ZBH1F<j%U|xC&(O!CC~7^?EUV$b8DW7hqj4d)%8&F
zSDU99<n8<gbbhd@8b6BP&-`)Un*YE<*MVPwHrNk-1|tZaW<CRRbA?D3Pq4e%z0J?+
zE|3t65GM4?YIGEQkJm5Z?eJRr%(`c$YMZHgW<Km2yf?l+dO{jH`Qxvz^}SZL#h+j|
zdsOm+lkAsWA=wonp}*$pmoNv2xa5ix0=v)+rzzlAe!kv`T!CfhFE{OAUNvX0<m`p{
zm`^gzc~_Iqu6a&8u$_414E{r-|6AcU95ue_dp!VWh*_s@bvh2@pC6t!&UT`oXqj2J
z?kBpvn4V-H<0n(oQ;_(JBs1&N{l&=i0Z9Di0M7Z##Izd{?;T=h1G@JPPn#g|QynuK
z*8Nl;!F0C<O8vCw_`vxg^j9`q<*)3Afc}{Y(?7FB&h1A(>zj50>#rx6^8<#zo}AV|
zqPqV8<V$1Bt6`nAciIGr2ZuCY)S?GRbgxD=YYg*hr(sQ_#kAf6{52<TaLvs?uWLRM
z21pntVQ1&L3GLe9<hfDp`XB@J`j8&VuaD|6J)y<)e)IWW?L#JbKB|2fVlW-n!B8G{
z;g%mp^_bI3I78-F1KNk<!B;)n_w5YO?>lg7?|bx^4(Kr5$-vm&k4|^P;A94iLDu%X
z?$gTsgie?+Jr;c3rTxId0R4d#H}Qc>k7*ws5dXWdl^~lt9)m*aUJpY|{B;~)SSj1M
z*#QzEj49z$;|4B$ow=^LuD!0iuD@=$ZhRXpYnKhn`eoxXv#eXz%o$ncEmOrrxRhsL
zHNZ39(6ib%24EAT2TF%2-l#!k6UEhL5%Bd*zPZI0o9EXXO+=r;pBWftvM{9PgD;Ui
z@W1hYA^0{74lZ#pRLN{<z)E2)fbijpiNLd(idMuEBu`l*Hm|wM+8gE@rW=-f8VcIq
zYhDyqbY<;4-oNj7D)61eym<!`lI7-wEkJIJXr(2}%_%JbBwb-{p4M#xr_0PeT@yew
zh)!DXhW&=|23)3=4fphS8zY7<R}3>eKA8hfuzf}001pQ-mb;?p;IpI*B<<?9xdEgo
zHn9X?QzP|`UeUlI+1S|oD|+=@{U4xZMZbu_n1qR6f)ww=0frJ3*Vgvnh%NA6$9dnx
z0Y2ID_>Mi{fMLMiTu|CtTW&f8ZH~Rd&q66hNA~Z3glqjF4v3x-?Ig3pDynL6^PD2!
zlY3*+eNBDTy|$<EMbliq1Yhc47+`XI>D;axZhC(B{KHqWiCpZ`Y8cd1_&y8+5Da-_
zZ26=d?XKE7K8y|BdFB1s;aiRs?aJ$q{DX3+<54gv2fF2fDY<7vjt_5|^`Z7ny(!>c
z(ZQRyXSfzWBE^s39jeRsw(XW}_1wBECcC<SI9p8|SnE9~x!~7b52N^z%}(U&lsn-y
zp4`-HeU9amus4HuyQf1A^vLZ|*%y-A!<$xv*HK3XyMv#E5pFXZti;4@t^o0E1AHFT
zvNz)m{S5<r6x1*ea<dCcTG4=E=x&(sXG8GGmwuZ8p_T#dW+3I}ZD7loKyh_5fG0ZX
z5l>wLq2-bIcVKX!wYm!>_A166L_lUhk9B+;GI$pRif&#g6%{?ZSXdAe7XClujQ@lK
zqC@`$Q!Pc>O^2`p!8){6e{7AFCh*D9%l}-8Lz+8;H3lm@Xw0MT2{}3<NBUvMv}x4E
z9Fnbb`NT@^st=AYe%Su?%fYxD=#Yb*A6X6f-M#5R-T~Pcd=%{XLFhZ7+t05Bhd~AK
zI%^y2tmui_D+X2X`Ab*^CI~=0`!M|vzY6$2#^wGi1nQ?%zo|YA=#T#wkg+uNPm~IL
znTrJQ!szd=p-;S>X2&lO1fM*^w3!_rAqeVy$QE9`_`uqGr|aG4A0$qE;OSfQ3{-6c
zvORL!_`u%(fv4-=AFbNDKePo_yB^vSs(ND=NFVGQvHEVLAlRzh;HS5iYm|qJ6%3l~
zcz}z|WXIDo3{YVB=1mKrBS3cm?_3lw5#WPA4pl%&@kJ1S0S6ckQMsBH3bPeW<x5av
zDY2_acf-)mV<8Sg9nc|Xm~2Gxaa)cL*5cDrd|K}6t92cax(<L=xh!?0Gh2v|czm~*
z=)_;*VT?4LRxD|ZIxglhZA+)Wx|qqUIXpHDJ^+ED7Z>4*fbYZ%8xAhw0Kd(!X_oTj
z134bM6CUpyh|}lsON*E&53e}H|2_`h!T|=o_%Gt18wXJw#BhMsilB+A<giEpN>xAd
z!$?*-onUzUNsa)sN6!#f&-dX<IKW@{2+u;!FW*9SFB;w}M|*$aYu7)=Jn_ftdQ8B1
zvaP3XB%}p}x>hT9vem9JDY&<8B}^L%_TAA*fjxCQNjp#=yn61|Qr$_CF4TXDskaf@
zjrs=b9zuFisIyLbs<$JH<6}SJPNM#ykBq0Z`oNR6uDTu*(0_Z!s(9-+>VyyH8cVPm
zPD<uvb?l^MKKY(qGN0ctlcHw~#~J<LlVC@+bFUQKSJ&etG~f%=jf6BIf2eLIqy=-W
zgtVd1K;2GA2WpSjorH8DUst`2kZ#iFh-4nw@DRrH8ol09-E#s^6TRiV$R{{bbp=Z`
zae%*pCHyW9@b$9d%$5LD%;Jxmg=FSJmdAFcV$KFYBLSo2vGoy{ljm^_;~ac;4)=CM
zIg~cFP@1~}-;$G?G#>Aq6fgcDGpPcEN!V71CFqDKA)vl$R`XlUB!R6LMYyL@)zJS`
z2^Bjg>Z(Ma$}N#^JzL!n6~()WEozIQa#bCPX5*cVy7R#s8>R2_+N9r)sx#sJ|ER)b
zt0kz`7JRDZCaj7*iqig6zAA_i&a{%u#^l48V<Q~;ZY7Abg|IN9D)1dphFEr^UD8%k
z{lr{tm%!YrfYnTxA--KybECLEF=S%H<i(7)hWwx5K*Rwt(Jx>MZ$s1_n(46Wb&m4y
z0}tD?a2WzPJTuIO2{F$9fvoWRIU4^t>iipIe~iM9(cu3=!;jH(kI~pC8Y`m#c&ib7
z96-!8^BA3ajP^c8haaQ(V>JA8H1-(n|3qV8G#?`fK5`+8Z{>??=FV$|O~bs7v8*2X
K7~z<V>+b=bRo|Ha

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_responses.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_responses.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8774dd9b60c0ffa7cfae99d34a4d908f157c7185
GIT binary patch
literal 61788
zcmce<34B}Ec`tY`R)PQskN^pQ-~#RhS8)?XYNe=sx24!I9G9jENFqg$$^~RuH0an)
z`a&maOusIco1|7!&qS`(iMmYVrhPA#lyp2z-Yc$12Um#R8)e2bZC~G;A06pEFU|aB
z{@=L^K<H9(-n6|E56(UNJ<E5#^KIwHPG>QPXWI1D$<c>+?*E_{^)V}+JAYu{xL3I-
z7v-n9i2Tb(c=m3H7}&2dV#Kdu+7vfO%sizrPFv#Eh&5gmDT>=7ws>)*n1!3B?QuuM
z!TjcFXWSWaGQVZIB<_m1nBO|>j+aJCnV+97i<F_fqG?au8}YI*+jM!nB2p3eMSO98
z#2*ht0`ba7Wjq)O#;YP#@#;u*ye3i;uZ`5kLy=ItE>ah-kJQH-A`S7zNMpPy(iCrw
zG{;*aE%DY!YdjnY$J-)p@%Bi2yd%;P?~HWDyCPlj?nrlhU1VLnC(^^}EuQX;_eJ{R
z{gHn5Zl4~Aua68ezhinsd?+%^{Lbl(@lBCU%wICSIld*bh5236TjSdz+u|dU5%%t$
z-X0%~jK+6FcEoo^cE)!_cCql%>D}=?kv;Lfk-hPKk$v&~k^S)lkpuCAk%RF=kwfvr
zk;CyLkt6YkA{aCDP1*Fr@uQKW%<q{#7XM7-Gx0|vkHjC1JR1LO<g@X|B9Fx*kx2aU
z$m8+PMLrjQBJxE1*CM|bAB&8|pNu>iACHX3pNc%i@_VNz;?YQy`OBwc@#B%>%wI8m
zB7QP*GCmoZj88?TSeS46RD3!z&HVo9czh-@%lv`q)A7$oKF|D>(*pV|!Tdq^laVCz
zS52RZKOK3R`KzbT#-E8i6F(O@$KGqE=i<*so@M^p=~R3^GS71cF82A@b8qqTtc-lY
z!0qOup)YaKx>)orqZ0c3IX+zf_w;fo%xBHf*yqp0!lrD=NaEbg#O~NkOc+nj3Rx$6
z-<woki$=$%r^la~j%ACEQjVF47;?**c0MziJenMzIE4_?#O&#F_$}UZ?AQ?mCeI|O
zmR*xG<J0h1AEwNSWVk9DemIsmJv)<#jm}16duLG5X(0xeDx#nrvFYUa&ZlED$!zO`
zlFrV=<dpX>G=6#-HALm4ZTBg3@5~Wl_Jj~iB;>Rm_f4xbeRAf6oVsz1)W>FLr|IjC
zj0@xOY;`UbK7J;N(Bw!osy44mCwhnWoh@qYt}`<e$;sInDtAOUaVCzE5_w(MeE)=6
zf&RjDYGbp3!k9;6PaTbo3lk@^Wop#nGs)9ul9(*<tk&*aSl(9!@6D0>sPfg32hsiG
zCt`)Q9E&}Z%xXy=j*TZ~XVCSm@>;b7Etpd0bw`bU0<9ZL)OdO7W-HY9f^xL_S-6(H
zK~1jpkvyAMO+0OStV&ck<@Ae^J6@Y<Rf4jH#*QoVVC-z{sj-ASJOM2>iC!3s(t;X`
z(TWNivepB$Cr%5qPi0FL&#~FlijUUm=q#I*<W<H2UQ=x5X<E*XoiisUXJVt%lX6*=
zqbJ9cqqFQQF&C8#@-(ldxMMNIjVH0xS*g2bh4^^#@M)U306iWAKOGYi<7^^R5{z)k
zo^c^QJ9Ca@!MpS5B$cne`i>@r*mxX0u{vG2I2)b-R7nbFCX!<(<ub+qS)QJpJ(C!l
zoWVRDi_0@Bku5(FqkefhHa&YfCaB@rCJIg@XHSnMXHUgu5@W|_g|YEOVlt5&pGl65
zvlW-fma$~#5}5W{RyT#6N#qsgJ~^Hkn>d5w;wWx*I+69B9v2d^v01igw4CK~s1S>f
zPtt@&1JGk?Vr?kd7i7zY*i00aP{Ss)j>phA6#$E&JP{MZC0PfX{pwnB?i7SsL7k=9
zvc1$F$Jj^ih$Y7-(K?U3a90QVlw#GK2az~Bo*d6D5M}sP@a0ugj$)WJn2Ta$m|r;C
z?_IbB;PBpsO9^tY!>yK_P+FQT%?pt$rOuIkpJ9NdQkz3+I5Nu#s3#Afj?IkhJsK09
z#%LhGvnt>qwy5bu*qCj~O}7b5b#*+)&Q2yzvH>5P0Bp{7AQ>ikQVtT7dJ=fe8$dSG
zur#t|SONm(nVdR#?sSaST`>V=Y7j;it56;y>{Rj7Nxa)JZIWZt^1$;#7&|;dOOB4y
zx>1%kmEz8=RC%ZY4dhh#PW0+{Jdvg4g#~m*h(+Zz2|0qQ9ho`DYMz{9&9DpOGf~X#
zGiN5F6Ecn=yS2*8okJ#$`!dku7)K~E&|yAGe@6V{m4Bvh*rMi`F=~mKqSlx>YMirj
zKxktY#b=9Iqs6hJs2w2={5rLml9)|N<3hL_f2H^<!=EQ=JYKWF9p|IoFO@`!qvbJs
z)Dv^asgIkY6<;z%oKat_WL2mip)MO2-N9l4F}G5>CsrCOLy3j}J}c&-_Qf3J9=Aj*
zzhsVhS^8iMwX(KX#mW&=jnXPs$DrmKg!))$ZOk7H#R5oKhp<Ym-uhTD+7PRX`Kh)j
zrE0_%qs(YitUB5ptI=BJklS*+EZTxr)J9ulp;%3<PHty3jFgni6RVFkP+7-|qHU<D
zk=4{5Yl_vd8d_t`xpuQ$@>fv47M8C#+JW+0e}#PEsYA*P$oo;s>O@&>tOvSc?OF>v
zloocQg`N27F4k^2)D&HZ&~B}Vay?CLT*q=+qCF_Lhn3rl8PFH&jaeuL<@Djp`%yyw
z>d{~|^eMRq5I;ci#|_c-@UK_=gYXZsnm1q+hVptpZ%$wghf({6=;|~Z(GImQm9fg7
zNo)ocMK_^_A(j&}R2flIbTdMS)lkfvEqLFE7CX?st?+MR-=fVGxgPetdNXEQY;&ya
z1RpC?=EkZSecT%zL5W-bNlV<061Qq2_G#Ox_Evu1mPJR=x7!xDXZXm-Q7*hQTd@in
zt8hE9D~n@|EnA7B#2H}*;FIm&*nydEY%-e2y0Ih4IOEu9+K7d0X>5j$He=&w0FC86
z+D<=ey!?Wc0KC~MB{7gEz+JV5sIq%jDzVs@Ct^T1CZ^9sV?YQPBCEs!L@S$rBI}};
z7;Vb5-%p&%I%5pC8k=CqRn`(``%Jb(kPl7@e9t=BUIWa7;Z@nHRj=4l7@kGw0d^B%
z3`;<GlALjJo+5`pwGbsIM$U0^PQb}p<gS}g&WoG_fdF$Hz2A8U?r-z2a!I_%&r9wU
z_Zy&tr1+E}WlUL8C71cP6uJn{rA#Sq473sXNtyAcmdmA_c*EA9#Bo!0)t~!KSuY#Z
z^DI(Z)R>eVZ`3OGq#SrF(%!hKGS#2^ohr}yRo`2R2f4MnQ`}UA8lU?Wwjo@vRDUjw
z>YI0^Tv6kxR&=N#YMS9wu6b9oQjMLeR(-kOs5#}*uU9>_^IWn<O+OV<eYszJL8<zN
zlIm4|?pG+!YeQ2mT=hjQYCmJt^uM)PO`H3j!dDhPQ7e5rTBP+j%4;i3h2HsWUW+>K
zjgJ=PS`@YE_s`S3;5tF=)fuy>Z4(MzD~`bARQJ8LCVSK{b#~-hkt)JhQAYNl<N?*6
z`%T$WMVE`;Qsz9;2i3SJ&DkpTZIXIOn+wU!YWUO^)tCEKTY?-RHI(JATlJ=mI*V&i
z<5I=Q*Qmao<HC+ZVY6@&0m39XQ{*rZLF*qF9u60)0p!@scs!Oh5qQj+89<ur`b+}Y
zVkjCrK7M9886xl#N)V<=p#ZBuB16XkAwx}xVf@X_J^9Fi0|&=;9vazxVCUGwJC7bY
zeCX)TqhljS_KqDrcKG3)PlhHFAsIkMyF$lK;w?UYE;KQY!&GQI6pzJcg>#|l*!Zas
zYMzLN&c;GBIJpTSoS0^xj^Rf}-IaQiCu1R;xrA6()_MYPdNz@mJFsh32;rp@FCA3C
z<cS%i2z7SK6?f7Xb`s?8oH#i<iAsRlhQ_DQj-ON87NXb?+SHXT$(;~sUjY{F&f7Ft
zpD}p5E8LVdC(hu2nJpT_mH;GuOgKfIK1~im-fa08of`}LU542jkj^?--xG8{K6xVR
zqb$+M<HyI;j;H+!lqH`sDh1(*Z0QM^yoY1AT8KqHFJw)VGuSL>6=rK6Fj85EvX8Ou
z%{tDG3+%i)i&4qiP99f_E|yzMhnK7!J*J+<vsNWX)`C+G&auKE^#g59SvTv4yl!Nh
zRkk7ajJ%OjOk(Wp$rx?z*r4TM8k+$HhPFs~2GG%6h-IzgMA4j_&6*C(Vq^8Jj>blc
zKwCUP2W?7jXOt1;#r+ia;uFH`nVINVay)S=!S>5=Y1Wj8O&>2@Jh{RA)ppv%>=|GQ
zS=$(Pdyp5##u5a?Lj}+CpB(8<#!q*jo;=-|92YR^ozI*Z9NKVdFxEXi`BeAmbIFsl
zGu=;5Psh7Kj}gwDo}B~{up1<eneoYPLR+vXF}alW(RKQq@HFa~tJO!Ly3|RUK%&I^
zpeBFxJa@N|vz5GL6^r~*WsBqqNWrkwG9p#Auh=<T;4Wve6|cCtn)U_La#5w!cbI;|
zQhh)D*4_>^W<tYaXjrQ6T`_WX8}D$2x?+l|Ua@eUdwDr^+Yb6|ky_d_EgQs^4VjiB
zV#|@GmWL_0QL?)-_Ldv=7O6atDQ_0bn=|Db#PSUbyQEO_rRE!<b+0^n<@my`TaL1q
z_rJ7Xa&ME|6_VSVad(LBj=NTqv*d0CS6!E>+9p<Qqap*W$f_ImD&)yHYDGuwiosA?
zeb<PzD-NzIlnHi-!H!IDy%=1d366-tk#`;wgNG=ypJfi-um`EaLoXd#G4Q2bca27t
z)g8K+%(RS(`0pB(Mn)G+ax>DMn??5)$>Gj8T17`|Iy@vghBJ;4(J^w%J+R~+ylXU|
z01H>&N0rpv4%TLZ>%`zXsk$}2=^#3<st27{#X8TAbp1n=Zrw@|w|Oi1g0~vlzO(6D
zn|^-_y@ghax!pYV@A;CI63*#bF>^L28jtkDn<z!~?O^kQ>AfQV9Sk<7VV^Q`JE382
zh$EbiaJM^u3FlSXSMgi;By-puj`p-ws=MbYU_io1)UbAnuY)6|Un*iu-!#t~5UXI8
z`Sk*OG9)$3aH=RjPWE56sCd*-?wmDTG}i}`bm-~v=}FMA01Oj=>LJ=N7;#N~QGg}3
zjFU0iM%?)rKSBJtz%k^J@%4}#i4AJzMDk>4E*JvHip8QR8foI=&y2~?5b>coUsvb|
zb~0>ips$?4HX~>5%9c;guvTHQGB$~PGI-ONEy59Dj6qVXLcGk{i9QID<^&E1*wC}i
zRh49os3}`M!KiP_0YilV0x>kR_U$7(un|A>nVm<Eg^j|?2orvbBAoJZL?x2ahyo%B
z|C-_gV@j{Z0H_sKkxW#bTelW8Su4j+QDEXlIL~vKj#v`*YSCW(hUelF>Asy})2^ku
z-8byJS4@1V_m<ap!I^H}Ao_=vyu)eF#ubj=)G2lLWIDHsom<l#+Ym6qx2~9trL9;b
z&Pps_uRr7I6g{0%V4dV|x>ePjsp=K0dRMHRx9bjP@|LV{w9bn;w^#U0`Z%l7>-y9F
zc>uz-roGUc;-|E!kFu0UMcjn?HKr~oVGo$P#@y6J9W-(Uk1&j~>5x|NB)X8kq#zKl
z_i2miS89t}r);WI=a_V#I?bQHPN1%qL&B@5cCHI(3l_~&iO@Lkx0zWWpJz^=o)ti8
z4iVv1#qvUI)g^=rl<7Y(tnz8#q3WWI&c+h?xkFDfTwwDt;Y{pFhWugm3Nc_tvCutf
zX<_Hk1XdFe*I5OLrFD-5ejL<qP*H(yCSpkj3&2B}6lQ0LQ3nttOcLcG^dRhbbI+3@
z!g@l}<6!ihBqW=vXWt^zCA#Jg9G;mz7Xl^}nmrzRat)S;{8hPF6(#_lJqcucCiE20
z=2)^TTr7MMeU`19B&Lasd?^eIwd;l7Ljnd%gx4vlnf0CU1@af?IwtE|qbXo*sBD?M
zR)h^QDEc;vNzneIf}T(g^e9kG&84t)<^~@Kf%G%}9aZ&1H~>Tz28d`|zi7>bwu_<d
z%b^{T$Cn36_S^@QI6N<J{>tWy-b`KZjk?||XETF)Zw&6u&%a_amABk=aMdjeIPx%X
zR7~Kg7~rUab9gfLwj1`gOJ_6P`)_pbUzOXy2L|5PK$(r@HB(-*jCUxY3`F^}>L#L5
za`1(WnnMG7=a)_*%6~bupW^}6Ug99GaL<$C)!qAxkfC@M0Pc4TuNwcA+04xwQ^ptk
zNew^H-Iw{4Q9TEPreHiuwP-Y(TxGdh=1nQn3x<@5rPSHSb-`Z+O4UoN0}@~4*8qtg
zl%WI864t08#pltPbb;HvIc0v~C`$0=zDf1<b6*6@BfsZ(>IEHY#gs-@Q1gOzVOINp
z-U1mG{8Rh$i;yW=UFsJs&(l|E)CRp$j-rHli;Y^KQ6BQrX`?-FMGB4HluI#Hm-DN>
zlvQhE5pwB`M1z_(_p5G<+PpF<^U8)Y8guDXpWs7yi~5%P1=Z1__Q~fkKj(|*?emVA
zTBIiaSHVN6Q#N%&Ev!42KSzzhe9@uDT+WS4Ny;FUrr=I(E2s>wV_JWm;O0T6ns=}9
zb&Ck!ac}+?zN8;Mwfo+*Ir<&i<DS}kzZ7f^>eQ!Ot~S1FmaC=smCDtqdux`frC6)n
z7mO+QeCbSCa=-euDYrTsqc);KCJg(y7kTu2sf|k>)KWRrR6Dpu{)w-0+~)wv=F8@3
z1szsX<$hBhHT}Fd<$b}F@=h3djzOs-xm2nzuQi@%asC--4(Qu_Ip)++HEr%URgSuk
z<=$1FI=km9QikWT>SyYa?ol;1_lp_$+1#7zQ`=oQ*XL<H>8-P7v@W9N&ix9`<P+)}
z=!vCTtNb&*BoRH>QxH>}99Lu1^*--My-%s3x!)JQjPQxvyXwPgRraO%K&oOYs)px&
zpLZpRY{?$AmQ=-9uNtPGYrZm7IYrdZf=4Yu*qRDVohpdLtA1%yM93?6@I5*!Ozk)Q
za>mxHg&_B=>d*b^LnH7)%4n9QJgJJ5KV?O#)44pVFXg*ze@lVR^TCu$4??7ZYH#yc
z7w5lb;;?G=YbChU*r+47wo<OoVT9(ZP^;cyBakY_x8&GGYGL3P=|NUTvFE3VJXP>4
z^1?&Ob82AnS=Bc+r}}cg>L{x1ov%*LtFcqhslMEAivL0dX#3SCxTrJAT`qY`!BXaH
z(DqNctEVWf&c2?inR-4~lj@`Ie9(@L9@1Nh8<SsDOPTtT>dXD26<^N1sXpv{6{)H(
z`0<rC>{iw4Oo+Pl$KmVTHw~BF>TI2_of&>$tuLu{<$mu|t8T9p)~erkUkRmXfB#CZ
z9@Y0!h|QncsozjTa=!~9h=LfRrC-Y1Ro3X?AWA24NWr7uQ|cT$%B5=Xr$1%{ZC@!U
z4zFz9X``afx}#WiNKYh*f=54nA#6X&4RVX-^GnPfVs2>z*TXTK(F7cx;aY<r=q32G
z*vB5j2>|Qee7^n}<73=e9yv_s|BAU^ZQzn^Y9o>zny*Xqty6td8pKsYI4;?*`j49%
zIbrL(Gw;MeME`;(YE*lZ?f63l(RfWci58f0P7U81huNd$pD;W|xUTa#C&PL1dzL@T
zY2Rl&|6=}^p>2)xPV~7>jmd;sQ_88fPW^pAEr#<>^df)$Z$Cxv^XETOTX+6{N85f&
zt@WRyZGUJy%ZJMj&3TwKpiD4fgc5M-cFi@)p_4NpOU6KCnSit;<LWVi2bo5i$nqg@
z3X4@b<zzH#eM*=;OVSh;nIVz2krV=C89`2@bE5D&aKc5xAL1t`&LC4hWx}ItH6JUH
zwK6#d2!A@JXN7U~Jew^#Elkb|lgV>gCke@cu@oDJFl6HI3025iKsh}Vi@s^jDhw#b
zymZJ%e{gdq!OFDAq>QXZrlDrdvVewFp%388Oq6Rv!97qc$6@7g9{k-Q81vf(oS6+%
z@D)CKWWbkj22^3`QSMFt5QrRKL&mJ}^z3Pf5b|SLyGqOeA%+n^5;)Cpq355M>8?ea
zrlEfj9p5rHv<8u*khIaY2@J0B>BJUz<g7oz*Ca?@;iKod3yqn|Zn3gEQ`sk0_FdWk
zj(53o7o&oP_h%hotHmZx$rNiLMGZAGny~OD{EYdPwX%R%G+P`+=gS0U;eViLqW=h&
z$oVQc3vjYVFs;DjjE|p+fmfG=TnaJPSP@wdg3mog^khiZM#oP>nm!>jroT^FofOW5
zcSzn)Axg<5sgsXMS}LNxS?8*_Z1E%G(`RBkNx&v+I|f#y>~%bRW`<^h{AQV&oS7Q$
z%{o;%WjWY$Xg0Z*geQqs2f<dk5Tffd$z?|WV$3_@QG=&T_?|qyK?)<;UANl8xFRmg
zxQN*zk_aaDW!5r&8ce#V@J;$sTWkj6`_R6K3E!fUzCnRykVq<67Q!5hkU6FK^FM1<
z76Q#{5dPx=!C!#@v(QJ*lW?+Sh*Ly6RVgIlF^Xt`m@08n!2*>Nj8B92d4kxv2*E;5
zCS*oy1;GW-UA2TUVv?R9hIoF)Y?aC*h{?jRPo0^ZPEN|4+l25xQ=LX+5zfOW{EzGv
zm1IpcFan{SSqF&_XzSj9r9oIm)~-x;;>>1i#)LC7V>x=Gnw(mPKFIpkh?iGj>3B3c
z76s9iN$FB4*(P-<Ch|*_OH;oHvk4+*3PV+?DKE~Si#vV>y{hp_vbLS-^a<DH2%W+o
z&}X?~Ob$$5e2~J*R>&(uVW1G#o~0m8RP1Sdr^4<A@O7>V5&jg#32gb;w55|RQaL(V
zmpU(H=$puvC_-oII}b2UEh^R;4&j0P;TxNVEPU2A{xn3!ndls2%xC#Y8Is%OhRdxj
zQ^gU8K_v_134crt{4;X?gq$bgWQ*nLLz6OV(<-J#lz@myt`CL3pwva`=VQKL8VEl^
zV4@DrlVDce@7X3pRCgi3oNM`%kkvwP^xuKu`0?KnC|xPz>Y6g49x>E&rDZ8JoT(gM
za7p&cw7r=)!v|hEkPdWRaV<NxNuK(&qh3Plx?N)3u6NEZ)g4Y3)kyZbw7paEgwu{N
zxKS!2EMsrFVQ-SkDl%n_Vp(IRtXnMWPCL49+spE4%wX$Q*Dvfoe-NbWs)kH(Pz(;H
zi8~!kgH`SeW_;cFzvSzdhzZ{(hWaw0K`}I#-mqsWw0F_@p^@{iLyFt3s<f+-W#|!o
zJ?Y-<OTN*xd-QfyXyM?Bslv8{mxvkNCkFej>|P3PS~wsDs$UPj7R&^?#X$EJ$5LSP
z!ak{{K2x(!tXY?-*&^0#S*qEV@o!t$d)wv7xN2{>YHx!p=j{`{DC6xXmc08vFmk2C
zi$xc@-`oNw;3&VF&ul*?Za*e@gBPB-wD*qDFv^#G$Qd@5iS8jvcWKMrDz2*U?Gu?T
zN5m~hmV*!BYj4^sq@Iz5{TWBK=%`+HbfGgC-@EvBOE|4C`WaE*lnJd9L+jF^O%iL8
z=&H@QT18jurNFYQPjc5~+^wRU-rRkKDg4W>-dqa*vb(o1MR3_QkV_F<b`RVpsfC~@
zk48=RONZb0RHS{aOP=thhi-Vf(vGgQr%S2{EgW7kthcSd)!2DyCesKZfzTqqxS93l
zCb4D{`l@FCqFwUTq&;m?u=$3!`F2w{(=;eH4gO_=<gH8B_lw>Ebl1kR4>&_}S=wEX
z{%mN=)Nc~&H%Z>+OQuZg4zYCyk~EYpy1*axH>7=S=>PJ-?b?P+?Rv3x{gr1kgZsq6
zeM`0bGlBi!l$O?Dei0+J;fAL{^3}Zh+`oSAR{hZ1t?wLOsz3Ic_5J#FSNv~pU8>&?
ze@*+>XBT(hCT2;i=xI%R`k5%lCb4DH+m9`^>`r?zznU|?A<;LK_Kn=yd~9j+BNtrD
z{$Z(ZU8ZhStQ%e2C;93!zP+Mv@3L?I?W&GU)u>oCDuudbW=tmZkQjQ1O=TL!J7!~b
z4fwr*){K8x^barl_u|7y#$&TswOOid&eZmZwLMZp@0A|0VL+<ymKyt{ss^d9Q>t#v
zRCkKiod{eh<*K*b;cV4qi?$UnR~pQ?>qK|m#qdwv9UsJau4&8N8J=@{7Kgw3g^P7J
zTn*`>hP10es%aIAf@xcTxJHceBlQd|>>y!~3xk<pr-=WKF05B@wwLVHw}Lg_NWOmV
zwR2y8b}87taNw4&HRBr)eV8#m$z3Z2o22Tn<O@i?TB)M)uB*sjvakox#b1?M!+je`
zlB7X&H(cEFo&De1FS^&M3mC)g_PzYvSDw4&tI7D<L|>akYi&^U4od!7$=@RRTbZX`
z^4Bqc<DF7lc?CYWs^Q{breOd*l&)W&4h-J)Is9d>n6S|NwRuIY6TRT1Kd`6`-`V)B
zjTbx9fpx5$Mbk<R7i@UF{k8Um{Zh}s!j6oiPIS~=Y)9uXNtk-kQGd(5OBQ`mzk)%c
z5z#mDPKyi?mVBQ{yFVj&f(wTU1aA4t7RDIs6+Kv#tOMO4=Bbq20m&V@<0>M)SP}SQ
zUb}5QfK?{2UJR^XD{*DXhn$vU+`<Jne!S8T*!XeU*Zr|P0yli!pP;(}BmBoJB>+jE
z+%4vuzFUs+TMj=HAqt6(&@D(2*)8tkUvNc$nRg*|<H<OxL`PM+dUV;5<0W1xy<)u5
zbLFA$J^n|JUpbiW+P>r&ea|uak1M5=?~|1$d9LyR|H<85n0b}I;0(6)Y-N!|!{v!9
zb#EPC@(jG^82HB(Gon6O>CkEFX&xW+@!c}c9ry*uqYqR*=IR2Bi27yXOW4-FRQ~uT
z{x$y54%6>$uY&j5dj8RF%e6rx`G>0>9WY+6u)}}7j(@b*biF=6{!Jsc&z5pOGV`Cc
zn|@^34F6vl`OlV^{>oHDe#dAVQvI)kt&eTt{<@Zj|F1(M0lfTph<|LO<;TN2e0WKh
zZg(T<MjapNvfQYr3U4%3M*596wo-*l#eAg4v}E5w`7_SS#~oazg@3#lK+Q=0b_0cX
zv)Eqd4p=^0WX){kAKl`}Y_h^H8H<ocvh!$^RKncS*2gv&rJ?@E`iwU_dH8R3nUUsZ
zpPBp{s1Y|e@@U=7Ew)IzF>4J(nvK~IPyRYenQb<czuiRs9;!FnZ+YBm%?|UC&5rCw
zEBrq*P`y7Z=F!fdIc$#)8GlwDc)Z{Evo4<e-Bixc`px7Yq8fz{fy4+O!I_{Vr~267
zA;RCC=P*t((-y=gH8$_}g&@K;#%wMk$`jF6AVKr|a+L&v5#$on%sTxtcW^J8Ck!XJ
z3Bwa$FwUEk3V{>^8S@mitl%jmz`kNQUu{D9V3q2N`9pa?Js{6pkOs`@!Ux1eQZIl)
zfgYh5p*jp)gq9VS!*Nh4P};AN&J?ybV*y&{i{@>p38d2FU|JKaXTmUVJ`1wi`7%a2
zF&+Ya0A~j1t`;*f)ac|yG9l|#oI-s}uos%BW*IA%)kkDeRe^}J!b5OW@<jAZ{50gM
z<Wm+YtrqC0x=DLgA;aKc4s{OVpX3CHA*sP+x4uoG+T0QBm?l7tamo}vrkEd+^9ecs
z2q#etCx<07lvqe3Y_4$)EO^zi`X2}deh<lI4A{Z8zn3<r?I8)$3rv#o;`$qo@TF*`
z>yaB>kK7JazqAh<RCVL)2Y>e<cJ0cNpI3z!ciaW`xB2a3KN$P-v8Bz2-g6(8s=^Ra
zboy2}Bmpu^s7H_J0cQR7<|WVGg(9hMFw?h3?AwEiBuBaA@B(3wutoY?MeJ{tHJQo|
zv9d!7cV@!-#PGfq7uUa+zrz*v7X!R^6^lh}3;e>?3x}|=y8RbwFLk9|8`4D^KK?~5
z)#yNyPZGo&e{pF0X8tci+t-_}21lImUu)&JZ!}#Cd*ELsQbDVUh&6Y90tXUex~mea
z4+Kxao)dqJYKkooOVAZ;#Ej3a3S-`y)5x6jrlhv|Ql`tfa5Gv#LtOB@K;(X%@RT`f
z+Jv-NVWty&%6x*SnIASE5{Q#DH^L-~T1Yy+g$ckba@QoXpOd=+!B9Pug&@{1lNA;1
z>@d&Bf7#-RaU5?!(U?w#EdtD%aKcYfL$-O%`7e_W6zYyZ%=m2CPNpJtjOlhAVN^-M
zgQ8Gk!Af8=pXiS4SehUqQF+qK6aH`TKG*YUCj6>aSOHxV#8ATF59c+A>(q$$nv2ah
z?5(%Tnk4s8;Mg9Z9<n4aP2nw~XUp4X-*ql|9$6^56$H+_6dcC6<(9uKz3ITR|KNg?
z;gGTjWZE8<+Ili=o5Z$F3kNTBh>n)qE?>H`EgfjT6u&f<c5O-*ZDQ0qc6`nj$6$d2
zR0vQnR_z(|y=>2bO&Dd*fMpTo!A#KEB~;S3vRm-yXg=$t!;WB@Fig^pP>US_f;)P<
zO4Ps@h5UIB;;A(SPs;S0hVymU8O$ibptqA?W$4XUBU<GsC=9O<m{In&Ldec@=Tt~;
zVvxL8f#i%foi)ZMPKT|G4ky6y4na;*TX4v-bz`7$#HO=lOm~9;`~=a&K^J2LJx23e
zHTf7(qXOj!rBs*=r89zGqHqcV@Kd3a5JjGgu_Q3wAQ!#1K<!#NDrsI4(Un1EV4e=w
z!r7PSUz*3^<6`Lzd%ff+yS;Akd(J<0VuqF%-(0u(lIb1q{}Q+wcsI5*a+EN0IzL}X
zijIaWPMoW3Wthd~#h9C}icCqXSklT6cEV;aOkHY`r|8?0D9r`%YOodK>}f0h_!m}|
z3Eoc_N#@1Y?M3__c(?PWAGqLLE$PJj)s6gii|OhnJNz;|2v(6~sud$XF*47D2Hx;l
zF8s0STm?S1f&vviU!9xMIpC@{Webs#`J$vIO|Hh>E3Y+gvyrU3hVY;b$^-Ch(vc=I
z$&ySY@z%@rfeXdtw9JZpQ}Ov?pb;H}O5o47o|`!bZV$dke)J|gI6%!zCr<|{ifS@j
z#EY7Me8@dgVptHe)E;sCNNOdi@##_W`gv%j>7iT6QngJfy9yN4Uxn{wf6o5tY6NPD
zv^fskgIhUM{$QTjj8W#8MGf-~)Bw)?d<niq2jLUGoy_SXnvxajm#HYHEG2}z0W~J~
zn=+|i4ZTi&sxlX&`XKymnyOOYa=%e%zv@ZRRidr>IrP&<IpiooTqswz>YH~b8&rQP
zC!b+FwF6735qTQb*xYZ_#0~<+s2P%Szq>{n3rq9Ws1<1zSjt~t)rZY$c?ErF($ff?
zFHMy`&m^((T3f286RP%gw1{mSEKf=|Wz<N6HD88N>r~s4`^DNUgJd9~Wq8&cIeW5O
zP625QP0|SHSm~6;*H+`P+q2e0jp+0I*`)PEZeAVN&^Bdene@2h^Ry{y9P(T}kTEk&
zt<SxyK1hz4rZ%W=x!?JU<VN)kGC*GXn?pdJ6eH!-kz>Rr?o*C+fC=-yly7RAT2k&8
zhc~y0o52B)9fW*m={V&3)Fp1um8AOgON7>}GG57@YD!40xIcAGyVP8{U;Uasb%}d&
zC8<9B5+PfqARd<;s`mT5KPNjibwJIZ`z7=qI`AdXiZ6oxw<G1h?0iev?;!2Q>zU6G
zzJ~dJBv*#&Q}(R_SdX+1t0{87Q=iHCRUf3?9#Q?dUv)K-v>c8Om3k6}(DtT-O&}G}
zuT8&XI&3_67f1z;au41ID3!bukdL8tC6H~9ty6`flL;KHXJQlJ;F3rJ@pIvo(LRf;
zu9Yo@ih~l9HIF|9JrX1xhd%4{G?IP~jh)-3D7~sj9M#TGf(}6wX9O5zN;35eIJq+s
zG)Gib6!7_-?DPX>DLc84wij8WlHbP202SG+$X2XMrG<mo09Kf)n5`56_As<y6~zoC
ztYX!xmOmT3H?0;4{V_*=YqHK&g=8Jc*(9-p<%WCnlfr(MY&fcXRTeckY|WMwP&8ah
zLX{uMIF$_D6aEriE&LmD{w<tvr|@^=|9f%>M-r+DMSKaqY{{rPK8!CfE2D^%=5NU%
zJQ2eR!4({fFp!K3o^4gB7z*c9X~-n(Xh5r&3^u7^1pc*#n^9A;rC`-F%w3xX*$N7}
zw~J-ozVkSc_QXl>Y-s=)H$H2J&M)-RnH8|CRsKz6gZF77J1ffvY1ROlU8{}?3sSyF
z87LOCYC2`T)Xc(pBoKHK2vTR=Bn7~1r$A^yn4Cxm?R13kD5d0&yf8|+I%r5*$=Oe@
z|A`zX2=Z0(Es*nLa{hrF8rpC$@0k9_6v_~Pc4qoMy%Oy+cLWgFIqHWL_Dgcu>{v(j
z^^n764D5^Il!ZRV9K`~K+yL{+ogu)=C?|in!c``D1vZlf7#)RN8pWIFo7t=rh{2n6
zF>R)(#$``{@R>(3%hAphpG;Bs1rp75uR&2zK?kgStr7}oqjTHOvG>W;G-v?%)Argz
zcG3HuI<VoEJq;J<Rt!bXVep7D75!pG|CLAIKJm`nQpLj=_rq!T!#8WYKjiq*z=b;S
ze^#I&)cDbD_ro8NdUD_+v9|l8_dS&vPgwMX!4q)q<?~p+yO(@>ME9N#oya7!{BVf$
z)`0oo9KKDgWa13}X~UKAKWSd_4K2HeK7{g;lJXzH5pfQG@}Wx(L3aFK@-%$1QpMGG
zE?7VUTqps3j(Fq55+%iHPxXZpZ#=i`S)X>SPkYug#qRB5`Sy1Pm&*4;uN#L>SN9E9
zw^Y}fsp}Ezz?D9DWp}3kpxA#fU3X})M5+&G>U+id-YcLA9uWHur27t~>kluwq^6Ec
z)2P@q3WobFSJ~qFuReR>p|5;FqE9E@<fT0~z@4lPzp_gzuga9SiREpVPTVLTfSUCy
zyKV=XUa`E-8aKb}8Av+@(w+e@zB2xH(ciuRb*`#3*qcz__O#yeR4ks$_*%t#c)Gzx
zS$q7_Lt?Od;lORuS|1S02d<oWJN52kOXZI)>|!iC`4ewdgeC7II7s{G$X!~7C~vi_
zbe8rEr5!_XrKV<l&ik&wg_buC{^^!<!}ev@Xu4=L4Ha{+{;LMWssUnl6WeoxSPQad
z)ji=G#oCPsf8Sj#1=^&_F1YE=5iu}wtFBL~>Au}Nl<D1fqjw)#(o%M_ci*MP#T^-M
z(~`GI?A`Y<SadDawBZpxGxX4np@)#Hwe055Lsz_%tYgXBAr3u6$y&?q+KcK-z<X*~
zFVzi54MVs4hBJNpZ}jb#^Yrb%)K7Vum%Pnl-+nm{iXPg=XEq$UvEc}kb(Y=SaO8@K
zlC>{++r<q>C|PIOU8k*~<ZjScTD)MsyN>fV$wXpC5)P7Of~t0+3J03VPyzmz`R;m(
zy~PVfD}I$xs|rReLolMgIa5C%)(>RrheYCS|DgTP+n4HhExK+)V8hdPX*ScfL+sk|
zuKh;WQE6~1HK#@Nwp=RuuKi8B=<WZ|CW}yjQ3!gV+rQxY&|Vnw$-*-Wu8$LY09sz`
zI^y83@FUfhKQhAir~K$T<DXTGG#Rcs_>o%6Ri}mg9@9vJ>8g((sVlnbH<CYSpzvxQ
zd9K#-<geo?yn*=}shF!xjiW*HH5>V_6+4jfS_Qv7V7cbAkiWW!Vw(b^73OPOc=B&G
zA?0-=rM&LqN6ReN-IVfrg&DEegGP$2u~SHxAMG$*Z)36REISO=>+AW^A;<MWEBUwV
zYC)pEZu0CK^8WRP3iy9q;@Mwc@#DIB_<v&b9Ps&nQbFNA>F^xnDu1$d#EF-G@8A!)
zEdSnVB7f<K`*6SUZ|bPJzv<u)cbopE(@Oq+%Mq*fZ-)89n;n0%(F%XsP>k?wk*bMG
z=*elajD-#Hsl+N0DA7#lRB`73dj3@onn0!;y$Coq#T7hnDeo%wyMue;*A)#RGt(2Y
z%v*u88%})=dxsH}8R#pfta{|n7aaQGGo>k`E=9?5LZj!*7vYqWPyJF_m9(qPO%)|I
ziV*72s5)vqFl=5uo##<=il#id6sivf8I6}sYHIb%q35Rbj~c>r=f7-XUmUi~ZFra&
zS(8m1U<5i(h14;SZU2ypvKB%-GLTHig>zkmp>fZD`T9Gbn9n4ScWxlfd)P6Xh`q_f
zCJYI|kzq}6&tSYQYgJ0fnx8tCgc;0Y;XfdE*36K$tTP%T0|?57p0&uY!Yw2b+9;h7
zQfI;uw!<@-H498vBSY9GBO$vHBhad3SVz_fltBQM4Dw~Hc1YvGXph<g6IrHB(4c7B
zzbs5v0(|21DK%YUu4xSnV0E%@(!T#)lm<RR3Fj(ZFy3kbYv6k|e^j&7GxF1x?I6Q0
zjEJrV$UU`6F8AVr8!m`Al&@4m7G<G$rJVCt$vZjrCs1ok0~vSo4R`bH@|sL}lUUw#
z@tKQLOXWR~<8hV(GCAEZ?|W(AEq5KZ;agR;7mH+BC`heU4d1G)xsZJQ+1H-EH2C(=
zg=d#)cP>@#g3*-Hvj1wdK!l={YaQhw$Uzm$))HjNLb8J~p^;JXE!u+n1N0)eVTR|e
z`)DE}ik=tw{N<-ktGqCcE5-;wl-H2Ui{)$15qWcp!&stUSC%L(PD6@WeZ&$fN?941
z$d<CLu|Rdh*Ic01yaigU&->0>pv8F$)TX;YH3jLs1zN1TKuu9I%$Q)t(4+QS$|QJk
z?AFLpaxA&{a#PB9*{Uw!87M(sE>ejUYJM!|Z(=!{!RxafnhR)aH4bydWC;N9^yx{g
zuDM}#HNfBkOk$}CyK=!S%gJ#V;-Xa#k!37>W(!5wN2_Z;IRt}+gK!}KuC2MSNjOa5
zv_^%8$f2mPU1rA6S{GoppA(Le!`5|}!ahT<EYBn4dz2i~L_@}xDgFrxV5^%QCs=i#
zr7&9E!eitxsNj@8LHQ!#aYQ5t#A+*CwLbtBJ&sMun06w_E%!A|pRASR&uHcU61A|E
z@AgBOEM2rM-L!29uB(AC)}gOH2U94Y{r&12t}bANwqnV#2Pl!PIE{DkV+dLV8!tZg
z(_r^Y`xizQo{=hQE`0u#QwzI+^IhB{R&_#b)53XiXy_6lXy_Rx2vL)9x8HELKL|qj
z6bRwWga*XWz?HL0Ra<o-#0SM(RV&~NgsT{GjJmIMyc<SUfsVVJAy5g7t|oNXV<$M`
zWN@Tv9b}a>FtQ4E5QB$p)^uWHwpQ?4_%N~=_|z~n333-bq<{}nrsZYpgptXp%p%N^
zgA;lyKV{M7M_Q(c%uw(ktqu<oHCh$oDG1Q>*1Y=kIFnZ0`mB2OK|V!U=O8wAn~2<M
z1#e&3iV^mCgc;|p^A=4y#Y#k3kY`!wSuSik^rlH~31H!Aiw#D9G{3y&tiqGDE?V*Z
z0$XIO<JpD^4W6~u7i<olNMsGuC$fg*bb>lkT}1LO8B$k}B1^BHhjR;QO$#2%LRu?h
zmevz(6Y@^#$&_@6B^^>ltyEr3ZlDPVVOQrJ&g?2)Fn&<a`6?ls=q~=C0=`AV-Ez*^
zoN+)}vs0?@zk2eOlajyk_2Soxv1!)Uy*~T9vv+Lfnz9dyxZ17@hPzg-yes3~Dtfm<
zaQF3-ubsSN_+IfJ75_KzR4cILYP&w5)c?(DBhf=t@C&MHg>w*Rv<NXD-?1Se;X`}B
zzG1uHa@Etj-Q&GxE{6Y_#|&2(#W<|OV+ka&r4hxXU(*axALCW(Et;HY2(jvQ@Jg`X
zbtZX=&rL=Z_nj#Lr_G|D9-FVOF(Tn}2-m?-g(KjnV3QV%DTrOo6s0VJ1^Rs!X!)7H
zNijvx#MaF@rST`xGs**eUWfaKt<a#S#fwml6R4H|oY@k!VB1uL73hAIc^m$U(Xy7L
z#vhCpC5axy9u++y?Nw+H+mh94Ov(~124_H7%qO4)md70+i>45rD0~3k&=-gc6~<sw
z*R|{lu7QGpu@SOk46MRTvPsRKvZ7Tb=$jTbB=@VfUFbvEwB!q(HG7V5>w*XE=BGLe
z0`Yp;r2^_1>H)X<2L5}unmSsl-=C=>^jaBAxqB~{t6w=^3^dS@vcYbIW2#3jA@`fJ
z8Gy4{@tUcMb4XCiE<Bd91E4z<fW8?3-I?rD%Zyg&w=U{iBitYLKu1-Fw}((2&fevK
zI^O`?x0=B11&7$7r;VB_$!oQPxFb1@T5$8LfF3KGBCOl$$SmaK1<*I<7cn05=I6{g
z&OF;h4D(KGA(e;b8W?FE8lMpCQWy_p+Z94FAqJ3foa=&Q*SFD6!mq)Zb3Cpk91dmq
zCw4(9<_{?rmp*~CoKKvlgM+Yvf*mk1B?ES7nbL(sxTYj)6cS@un^qbrjB2b89Kzl-
zFicGdpa2-N{Rh;MwI<HQ<2YWjKt*>H<}m*a;*f+jlA(g1M;>9Ea<~||Uj8DO;7nxg
zY70??@D!D8V)bP0<1^4(l#K<l@)>HGHIezytWCQbM5v{*e^;)N8YNI=S(7k39g_*y
z)Znb~_{3P&OxHq;Wu4m1E%c85lD~yTLf?(j%Q@en7TaL|Q@-OTTrE6F6)cgHA}0d}
zrp%R#BeedKJL)*4n4%PRpt=gzAt4VALzQVLgc?fqIHl6A@p)M7ce?3jRJJP)ojcZP
zIL?v{R<s)=ZPL^Or;V;MV!bPisS+#{-XMpe7P;eg6@@W$p7ufE9dc6C2GCl#uuDcV
z*r3r~DDwoKq(p=^3vmi#1Bq+1m^!gKJBTa*L%H$|FJtUYmeFO+lqVvNu1dR=DIoVY
zae)$qgQ{qY@+*_}H=?4s-n9<)Otn=*Xq0KhNEH7S;6L#dIKWLHC<`-(p&RzlioxXc
zOARfVh7DrFhPMMt4N$fsbDj0QvL=k=u9CG-E)4>kuHOL}RzrP>=%`uP`^s5h)gY(u
zl`85p6)j>#%ffEp9aMBZq`b)T=<tn}VX3leVgF56g;dk@iv4D3r4;J8^w_2SS3aMv
z8Ctae+yy-e7)K>tl8n1sba&^}WvW`Frk+gGMzLw5RNtkj5Y;tHm9;BQu5{g9&I$r`
z83$s13AhIfj+=Jxt?FK>-2aW>*Q+nMKo$r7B$bEW_pZA#ncnrtviH#yqajd+M*6Fu
z*iuunK=QZHI;t5FYet~!MMxT4QXcCUYx*UaUajg7t2$s^wst!{-BJt5-QYs;;_eS1
z*5<hd3Ey%Mw`-*GdYGLhEfrEKTJ~*313_r__KMzK*7OZx{RU|JWa`$7b?c@2cE%VO
z5}SsA5SI7d<;+0YO7JCj10}(dh5dJHU|<z|h;Ouiz4JnC+7p%njTfBw6v<aFmDk+0
zTdGPH4j_l8e8Kv2djKS7rtY(4+0k~>?o(ekEjwCo+RH!ia`hc|JjJyoAC$qjxc6=;
zSBfI5zVZ0ipSW;1?dy<g8s6Cd`v)&>O;`0vfmUdCNrC#;YhJ67YFaWiJz`DIe{)i2
zyODjx!#S&9B(9c>#5ujJ-mS}ycCbknN<O-K#=v<)#H#V%a#v*BA*hh0>vk=>cS{w%
zMJuU^IQ_r;#pevjpP+UAwbDIi?ytH=40}3F@0x9U+Klg(`1Ujz-)%C(zsd$CAwvxL
z{P*xMA}Y+H5iluyU=~hSS~O)OAtq31u<DtlXFkP9DI`z6SrfU+ZFc8tOkAF<v#u1g
znwrjo*!B&2M(J`U)vy5?j&i~^R1c`To&d_n@H6-$Y$V?%IIw2GHau0llem;wNB;U|
zSwUt@oX8e4jxJmEg@T?!KY@>}zdHC>#g>j>6cUqY0$@oI*W16~SjFHW?pA~7X-GE?
zq#M^Sc?K6oC5K;@$6pThUpcxI8hXz`gaGe`yB4mZ{nFrfx4gM!seE{$7}Hftd$E{J
zt6;h)$Y_15#N7$2V3VO9FpW(H8gv8}K0*zs+?2B5iINq*f-riG8or?s|7dVtcosOR
zhRx(MU|<#OJQv1sjLZj;m+sj{n^07)-Z=+Tb33M{Igemx&dEut7<__1?*-A%onNo)
zNB$7<Th{nuD6Z(8OjdvK`Fay~eg~#`j;hb=om+BpW@@{H&>Hoc(9_;~Tf4emvdpNT
zPFb*4{nB%%p_~msbqRv7hy_a}Lx}+92-qcQAU>R>WybdHr{T+*U^qbtJ4yBg7$B5i
zm`wF8v{*I@z)&bc2xK;YALRxJQHmg19ryqwL?a7*kYJQbpZGQ<`;Z)3)nqdSD)Y2R
zRUD6&se+!d6?+f8LU5t{wWYAvQrJ03Yn0>wuttly^&6nGLK>j8H|(|0R(bjGONVb)
zHL|_7Pps|x02YhO?i$H@r<-#G()LC$+FyO{mFF(TGtKKo{PztmK-q<5ys&54(S%Jj
z)S0R6TdwU}v=f*5)N=c__dFv~LszC@{c^+l3s%V=dfoM!>vn6O)ZY8uO>b^OE!8#u
z)o2b>Lf^M>5CpqW|J_Q?QL%X9)%Yv%H;yht<v_0E;v;Wcf8hLcr&zUX*|8f?hWMG#
z$q9sBcYedUXp-FiS6#2TmP0$=i7tiqzvn(c#J*-IC@i>S#y}|(q*-<2os5BzNd0Q=
z9Q8SaB^Mbi(T58{g?_l6j5nPy=S_ex#;0*r5Q(nn!;mO<hDUsGt$5wDlLnpUaY5NX
zOAQ*Fg1t}kKT8cc%azu=?bL(~vqitBpiZa@h4pUh$*DBaI1t4|Kku(prq(B{OzS^M
znOZNfGWAtS3}Ck?`wY>c0LiR}vSqpJHRVesV`qi`iQtQyn2L}HQ|^KV6Z5+W7Oubv
zTk-|>V#gs9n9O<<Ye^83OH2rp%%DuROtze~Dy*E&RLqJ}ez5R00)@W`2U;t17y{pv
z6)Y>H{EX@*QQ@ptHlKszPF_VUx5@!!fRaiQev6z7R2b}mFsmM_NhhE3Uigt&w-%u^
z5~uKU34*hFY|@rIEiXmTZcN@9Rx3TuZCMLX$^qT`<$r}h@H9RIAlSlf*qRyKb7OE1
z>Ez4TIrQBK_Pra0{?%<q=;A)uU?8*^YWO$~5!!soly-Og0v9n1+*X4!?y%?%UkWd|
z`vE*{KAhy7wHMpcjt<J&e{a_Q!mO=J?mo&IqOAT4!)ZqoWgWaX>tJEl_9gdv${K*W
zxd%o9IzIqkr~YD8-XPM=+W~<~%jLFb+ykO};L7B(dmAK<K(Y3=UrJ`Ww~F0c)7|^;
zO?YzIy;VurNG2jSh^-satvl{bcxu_b9SLs-LYY9P80dts(A_4Fr+C4-(h9=^3nll#
z6psLlQ!qut^Iy(m_UaxMR2%}58rm@-PYZ)oh;=AipqrYJO2Ic7CZ<Q_&cEf#EcE6v
zYxSXkZVSPB!hS^$Xs!AfXP!;mlrc#}1@`1v)^ot}=8ZGIz}M*DlfY7SDA^3hEy~kA
z&}<n((QXG8@Ap%<Y>=h0C5fye*J(@oRlnM9MK8gor_ZA3hx`^O^Tjz@wr;IvvS>>e
zd8+*mj1d%I=oA&D?5rJ*ymmO&Y=>j*b^zyYOWEg(d2WUWMp=|9j#@~&foa7!^WT5n
zuo?CN(SiZApd_!}k~Qls(XE$Bw4>gpRFUp!B98`pevq(ST{^xtHn_VjHx~R<NF9sZ
zZ?azXtK%ay>(8q^s=jVX>e^9%f!`2zZ+M|1sZswiw}``6@TfWFT{GZfFpZf|K@z;8
zcekQ<-D|Y2UCjZl4VU^YYRRkm!JV@vsis4Zcf&5N-m2BCI^$e1qMR#=m=!(RvK-{l
zg8cjc7f;sAgn$2@0+{H2wrCu3!RK&$bJ!<5Orb2pF!{bsS=o7m$nx^8is_So{P-rl
z(#a$1m3O5*@}<%TWfCI@%_l(|hI*(O7vbX0Wp-S7nacfJ$~i<1eUp5I0cU{|XgY*T
z^GKZ9IYr)s*>3zTs?v(fsoAN;rk-CC5PKuJaXQMBu|QeY8SfyeKO+k-6|1SoCJFbL
z08Lhr>Bhz^yhJ5CSQ43#0fA|abV*w`vDOM`po$cP;6>iK%@5w5SBw0wB4T`>cIR3Q
z4?7^O>!kw{1fE0hL%VtRcMraKa49gnu<urA-IdCv(5AGb`Zh^AZx<`J!*okJ&~}N0
zQ+*|j=IJb_1J#Ay%Z|pIuF$PYSyXsHtQ&ay(H}hV=TAUfG+4H11r|^mpkvEL>#`d<
ztlnim?8+?p_lb^uFYUpO3`<reua#V!&$JAR`0wAau=g&GJ{}UoxX9md)k%=Gc=)x=
zi$%A5br)NgJGL$RM$+yPm@$Gy8ky>H@hl8FN#XXixA|6e{TqE3&;9<ED<d$fb47T&
z_ovlcF7Q%Q*QL*Y>vI>1Z`Fn`wJopTw_LkF?cblS-4EkGvcaG$zNO#>si!wx)pfI~
z4&=|8t!Q3rPr7IHopG^ece-b9x@8|(Qu33{rz@WaeN(I-PWw0hthW1tkqT~D?jBvP
z-I4b1NZ0O=f;F#id~M^UwxuAbs!cLg_0rMzsz@p<ME6E1UATAI(F~f9-jQ&*s^ik5
z-+kiECzh%<E;}|spqrfu1Dv}$?P|SM+i>w<rg4MVxM8Vw=oQE9+PX!D6l(d7^9?6F
z>T$9E%IDtMv=lnB?0yJnjJM{(^m50J_dGi#Z%7fRb-d>tfVqacE}Vp^0vVy8Wvo85
z?Z1q_J2jX>vI1}pnRrV{1++my0>A<T;!*f$>3}Yz%*W|cDIIbWj+}HjEqFHJ9S2NY
zp<tkcB{sjpC&j~lg5lfzA6jq;qwx*?Ydo=IbrgX~yi+6e<Vs29Z5tppX^2BEh1!0A
z!gi<-H$#Q^2-tuc5&<^gj(J;BLm%{{!x#xp=lfJp%#Ov{rj@HZkL07NORC^~-oi}o
z+Mct`6rqpsn`0|J=u1f5_d#h?^Svp{3t!8zT~n4M5ro*IwqBUmA3ZSfb+5HpQ+Y0=
z6rA@n)sXk1cvBiH8HkTvRufIxryB1~88zU-QY(lD_AzaI9;^m;?o%kiol{ic&cV(B
zsldHyIy4vBu3cgX1}?i$EOdN)5-M#W(o1W?m6bBXvVk@PiyRg92()};B`fpJr-_~S
z8x-(|<a|I5?U%6J3H6{m^qL|kL(cD!!*)H|FNG0${VF*N<ouW%#*KC4wm#e{DnMw+
zate1s;#awZF-on?x@Tf%$CO(caZ~5`G}FuxOw?L43zwOJKca$RCW}ju;8p&{C3Ein
z3qt1x*4ne~Yd!S;L0=?DtWY+o;NXV0{)KPBek)l2`sUX*e|;;?kkY!1>CFez-MAGn
zQ{=}5i5GmCK)Z<lMIA7>1*HRn&DJ3K2QQd1erzp+Z(Gy;hu&$t;eY7eX3_u9!rq&;
ztuUV8Y*~y+ZkV2{7v1$22bSGo$sNkL8%1~Hd+ugp-?V)6+PRMaqsf|=!8Xh+j>(3_
zw!Y)bj2sn5jxIZnY5F{xqRwyZVMfA+KOtyeopF$rviBVIAEg~t+RG=m?H(u{y|M4o
zGk;mV+_?L8Wu0tE2R7U8qbninNx-UK+Si+Q_risdOGPHRXTRv#FLe$q9$xmgsX7vx
zDZ5Xw|1|C4QRl~rix{96H|=urKk#q2a94e%?Iy$3Aiv#Uxmsl;e{BQ8uNipwubE&r
zg1ctsM_agS7Tc)Dc+E9DT4KCzGb7}Bi5Vf+Jx20Zl%mM%EoGxa#_K~p@c*!l-_dFL
zVY`X^-2*$<8-LVjhyO?2{LWs}kJeepzuvN|$oivA{LZb8A8oe6|5qj(!dEfGw2jDt
z?MdE<lq~^YQuy4vC1}P;)LU;%c_&0u4wP#E?f4o1jZ9@}fFxJ%y;dw3K-b{}Oz8l5
z=*?ro(?eUA0?w>c+8I)gBUb}w)-g@wQ3sr14XO7=kr|eAWJv4T0?Cyf50+ff?*p}u
z*caM!ZBu=D+!T%Kr+uG^ZCQ|jIe)cK5(aJj2L2)s)<0H3FM(a*PtkQ@r|=6@UkDu;
z0R6NeQjxO!HkI=>$`t;b9MViIgn6`$t1wT7cmFp+=DL10cozhwl=x4`s95we*@mU+
z;S0wy)x%=-@Y{pw>SOO5yHS1Y-ABagV;SGEg+0LHfGnPT!?|ql(t{Rca<)LT>Q{yq
zq)}z%9NoZ!{h#4KzUA`&_d>oBC}e$v;y#iAkm&3FWr8e~zsT<}@m~sT4|3mxqLk_P
zOz?fX17TN7_|bODRhN<cWdoz##%oqP{MX9((N5DfkA?gJ9?7o-ZKJKmYmLLB4N#Uc
zBm8=U86nqOP2}&S8m@O+cJS8g1N`U)$MyAA@^7{xoS7{q!`b5kEMuP-8$S*L@+x*K
zk-&_AGItJP>=mOoWG@WCg%5Cxk{s?!I39^4s*{~r87s_!_Y}LPm5B}-i8qf+h72?K
zjT(u}LcDascY&>H#JF4`Ib0NY7y(80;MzB|m7Y^*xX?{@`xr3@;N%ZYzr(-EgA|}0
z^HbI+bQ@FxQdBlPLUyMtXn_+gu-vC?A{m(USP^Q=G*GKp_yg8_9Lw6w%mi2u&6R&<
z=G4sW*_`Pz9HNIq@`VN8!xt#RWM|}5pOmTR<Sx}-KopVzzd;E_I1uW>y{>|+^KAv`
zeLR^IvZk}+lS!2?$&i(QOY8Xi<opF3c9p9@hX10mXJ8~iHYOmy3V(?N_sUWWE2wR5
z(;91BZRC9on6IN1PXZnCipOg9U5I9Cx<vf9cik$hO4s&ZA<LxI+n36qM>~4EwL_*4
zza11?cZx+#3-)w*6Vxr!!Jb#fuRQlIFAnZquuJ}i1?TOOGKsJYGVO}9InLjn&>IaG
zPc7B=-YDxul8XmLfA6AMstEq3{g$Wl!obC5P}e>E=?w>Ncn(Nj2q(d26)>SiCl<e!
zd8w?Igl`%$Wi4V^%Tif5<6vg9eVoffQZa3xup16u+-}|8#9u4+kXy}fZ!le}vA{3<
z9N)W2u9_z87x8ze1pTZmFWtqp#-54^Uij!OlpNg`+({fEbN4~8TUl1^kY6x8Uy22;
zEvH=hxl%yWGYVw;Mq5Vtsd8omkq+94nDC#)U-yIevh!PIOB!r1yM{6$Ir&xm<YDkX
zp;wxIh@!(d17QN2(bT(ak4g}%V4IRG`Hy7-TLM7YHRYMaTzJjNTbOh&&D0lAqC8W*
z%qnDi#?!v!fu1ka(#hCy#@8kKx-LDt<lDHg2R4zt9Y}zA=kTWOLCx^(rBh2DuwI6L
zZZBnFn?=uNAl;I?21Y5#TrgeVt?;~kDC48Fr~M-og#V(a{g;UmwBp6m?PmTr`H>FG
zZyDixwQ6LY@lWjV{ab#d%k+aT_^x*G<gT-9H(0N(=SPMdR|l=+-(p4hJ*Xs`fWL;R
z^e-|24S?}<AMt%Bn66>3RnwHn%6c>sx*9afV=rn%9XbfvYE{!uQx90-hB3?m`FYUt
zL9H4xs^$SDNN4xTEvIMrd6Q6$o#ejs7TN{1{X{|CdF~64BBMVnu)oIN*YNi_{O$S_
zi|rBZ%Aclu3XUF152{Wjc1;b1*F)T+7JQKckmy<`YL!YgQT98W_}@mSWbL?y1Im3T
zuu~-D8<m@2PlfJLmd)OT#zTp7xM&y`70;eYXm&ljkpDI0XClr5kqzb=^N0*|5raZn
z2%Q~=Ssc|wOW2_cMTi(66Aivbjk3t;8R<djMd3Np!YWw9>~q)|{Thf9?m!o;NL&bW
z+;VAo5NFK`9#}JT37;f*Q-dO9cmp0POnBZG-bgUd>8jOE-dEa}d|N)mJ>vv}05>29
z1Ow>ZuXW=v?W#=IZxme{wZu|22(zP*u<`fa;f($=vY?^ntK@3i7WSM!{9#amXCc-W
zvS5+%bcmjgOOG$XI)r^_p&t%xGrqk4rTw@H!eDeh!oxtwtHq0CypgD>WPf0#Qw3=R
z)>eVGPga^?_x@vS#W~v`kMMbtq`Th@z6bN`B<8bX=284F6Mu$5d$Dv!CxGE-4S*qh
zuXc?#8?Txj@LnzDM?;pYWoGjG>M4AP!mr`zUT?W(q3~;VE5fgp*~wqck2YeT?t%Zh
z+dR6NyI#(ZZZuu5Fp<BK(q9kZ0MB2qXKo{Nn=PXotk*mE(Qe1}PAmEQt(0aXPq{XS
zceELQ*i23PVVEa>8~Im3V50s4vH`<}vzFFj6gRaKJ{>iF)0k7a(4#Lyjh;%wBU{jY
z6~4K$hn34(WUIK7(NN2rqlH~P&hA3$VmFjSBafXAiLRWr9Xfn$Y}et>9NK|Jr){+P
zS7Hma70-37v5(4jgbHq3O3~ErMYiWTc6UWsbcLmIXv(!-3SM$v`CQt&{g%Hz<L?mt
z9XNTp+wO2C(p@vzWUcQBtP1TRkjgr47d-dtxCeBY#yv)dnUo9O-&%DOd#iGVOqh&q
z5tPy_Y;}c>0OL-uOUu>U+jrsGtJssIwxafWf*B+R&66%+|1@{4BQL2j<F0nPqg}pw
zT|K0+nEad9?-@IGA379cXw(waV<8z0s+GrtSr%gVU}>KrU+got{=Q?mX1*`dsCJ^B
z)uXy%GM0AWm>y`z_`5`Z7nJyEKy5UjHf2DwO*m&jnTM{pg6Ub1U12P13^t;kf;lp%
zdIKtwVWf$CRtK>M*^#sY*r$xLMEUt*{Ml7ooY;hssPKVMw*EciIf|1LC6o~Vnd~g$
z7nU;em?tW|tSooTO_k*|p481xk!~o{W9&T7pKnd+#^@n4;7M=&^r@rlC=I)gPGJ``
zy>yTtSo<qUdGrtzI&AC5z&4-@F(rk)iM221(TM>NQkYuv-kFL#;{v*M=iO)RU9)|3
z6faq`B^2vQdC^~)lsobJNsrpvoZN_>wxxPZR|y8t>+|YS8ii&s+-y0v541F`DSJ*j
zC0dknknSaHNMbF}le5UEmaUQ=X7tO_bTLzos3YoRrIn~UhijL{+Epjl35uwT+67yV
z#W_o-QFjy)6)?Y0s<o|59i76qLAu4mh#tjJFQhC=g^yFEQD(wIuUB69Pw1^iweH;S
z3;!`{(9`yemVb#$mG0o~>Gg8<6=Ai6Xa)L!zN0u*e%ZHHTWQVbk3h0r&7Ufd`k~XP
zprX*=tfbMo98`OAzJk?95Q{z0Dpp&?1A1B0xK&2~zjMS=cBPN)|NXP{pKH_^#M4~?
zFEp__yR|;6MxPb4xu%=`a?M)fHj`Xq)|_ND^k_BI=GCAx%RrCsQ`6>t)w#tqib<5F
z;L(R<2-VSx#U&iPp2geCA$27&vnF-wbslT4CRp?(m7anp<yCXw{#)bue%#h-Jil%|
z)(CE!4&Ha=O|P-S>i;QMSPmNeORY1IT~&CaGvY5SuJP3kYkakj%_x$2Vo$VDfhxWe
zT*`5|>A~ZcgQ6*46!^g9W)-=f_p`FMYGt>eYzKo`{>!av&HcO{)u0DK`;=dUQeidk
ze1O$Z2&DpRLn-2I$?W%V+aZ~T{A*|*w4mh+8Ygj<9wQr4S%*sGWpB7c6*|vy43p`S
z6O#EWQj^Y>YN@p#my$&dc#~(kET3q%Qg-F(sCD6zOW3h}1E{F1Is4b}!9WO8F8&9!
zP&iFdbR1VgVg7P8E|}AKBO<l%uPOcSQclw2c~jQFmdnej_)vMD1XW@*DCSH#m{f<8
zN{a|NR@*_^JOYXHFxBceEplo9kpliVI9V%c>7YA6AXf^K>E$LWj|uu6TXj02-G|`Q
zoda-G!WvURTtolt1+tNVw1tn%upoUVd2E@=Ao`oc?%y<I4PEQ9hSTx<gIU(Li7bsi
zb6VIkw{I<!9^@CgS$QlmNhXPN8t}5jLn80~UbU=`f!ZXR(L9+h!I?TMeqKLxVY?Kp
zetpwxo6^BP($fjP?)awTX8q8|caWTWvA&W2q)HnDO)H#Dwl2E(RPE{asi(E>7XD9q
zWn+S??>J$W9MW#bShH!vl(-lHN1H&O1hjhcCm&VvNwpSL*aVvT;GwWWS@o=D8ghX(
z=@fkTPHS2>U2F|7J^eSW_b-6Wsei%gA^aV+pDv`%pBKV^M!-MijELa~zG_B<%YI%n
zaKV6E1Yb?Pk|Or0nJf3bdf>MY+^iY+Soklf|6j5fvi~Bz@Rh<|XwCJ)+$(cwU#Hv)
z`+j?$)(iK}Re46yg2<msY#!#;0<&L0(-Nc_wm8_dC8(7*MOFC30A2nPW7C^W>Rhq^
z7Zs*V|J9&VwwO$iIUEw6#9C%j$ns6jLkN{^83gY!_>co7aub<(hi#PqZ{a}a@(h5e
zncRMPH>jkz8gfXKPN1WkP)!c4@vLcTc5+4t(fb#uR>Hys+B}7Na^4{4I7P6&VRqI?
zKul;Lhv?Pe%AB}Y-bF8eLh;`x=Oc2m<opFWH>lQfb<0ybQwH{4HCP2OjAiOlLzOK;
z?yY5NRE7$3AD<K;GA(bJ2~aw+KB6A8T~-cMO_67f6Uk?oq&8WWq)l0gQ4Nr2CN5r}
zg2}8mOin9p6lg5j)|j9!W&AH)N2Ugahys7VEnsd<b65|^_%dx2e}`2eZxmHrU46Q!
zTB;3^MPOKkaN#Cjl3XK0%w&v0qWfR_MeutcTdLg(u`rl#Sa3?MZRw&)DTrKtX+5k7
z*WL_-KjfY@*tRS-knQG)H#RSOdeV-bw5LaMmA(9hm%fm8HACW8dC9n%m+&5_dcF3w
z+Du@b7+80uR1EYjT5jSp*~b1%;}Nm(h}7ICHT7P3gzmu<o3=>}VY)w5YTqoiZF>9Z
z%+|vq{<j^LTDxTKGb}tbJp_{w)~1SA4#K{0Q;!sC{*L`ycF1}+RV<RxyV9DA72gSd
zD=4}<7M&8L>5eP9wC?q|7x$*GQSw&Z^tIe-4qtBkZrht}Z*?p+4=x^-e2w5D-tcwZ
ztQoykwLxkck=FG}og=rJhNUp>vRyBAbV=<S?%K@F^>=N>)irmFj@rt*P}{Bipo**A
z!53yij&Lt!mGjvxl+RB2oVAsAI48>&+{WMX4@h-eC{=hfT~OP$m8>y0^-4`GEU+C_
z*4Ny1qM|#-l3>Lht^{T)YB(6Jen|9orM+QXv<sQ=4;&n5x&H1e2GQS_@oyIWo74Wi
zlD{eA?-c!=Y5x#-o6W7?dGuS4exP6vcg(;dK;&(%SUdz{eylMt*u0gRA-AV(t5ny0
z*J-7?ZB(~>XKW``OFdKF`abm)+B<MpzK+*iR|%Q*P`eatlS1`(%k8Xizg&2qRJTbf
z8O7S5l6=Q#rDCn+6(6|eH2qTDW;xBRy7joc7jpAb(>lyYsihw#IM5X~JLPjyJ}0`O
ziYpIa8WFvnX>V)csNSsH`v1RwZ+ERrd)se&LK#n+=xKwoa#rl1RJV;9iawG@uD)9~
zBAx56yGnmmG{|Pg)8%s3F6A3nWgQgj2O<65*q&+FDK_j}ZrF|4PPdEi6hk|uuKrBd
z7O`uK)Y<plu{X!0u0g41L#Ah^*s~MXOzL*=FlSO%5BZ4Z*1NT()IlEVAP+jIl`Cz&
z1aXSCw7coHyCvi965U;w=6~wmymHn|EBfPfApDDG%$%b^ay4HRL|0qJ)i1jG)2?k&
zUBh>L-|}I`Fzf;|CR~OYQ(v}Nf*Ir6bPJ|dsyE__W*VTTA*p$zRNamaD6hbT@gb=V
z2260Pvep0^)Ij6=ehf48HF_{>U?<XOuCBnWf$14vGYq?6*02ivtb%T-dV^9rinhUM
z3nq=POg2R0=E}mC%EZ!+OliMZ+Mh1nhFSL=>$j|EF~bDV;#O*LUD={jX>mALAT_rQ
z--r)@X&NfIm>OM-MpxuF+6Tie0A|fJrL87^*`i4)Yn@a*M2$lSC|_T9->-+&mq0x_
z;I_XCR&nsvxVT;Y>QWmk7*+$(t@&SFSNPSB@m$#mzjBbrkbTUE|1Yk4*v9{{>0sFK
zXZ*ot%lC}%eSbZ|uJ-I7z|X&H<`MGm!aG8ESw+w%-2q0>|IZ-p=MnS`Am|%$xt0l+
zYned&)g#5b{=d?$2DYv1IzLLHC{p5&MT(;SMTrzeN}?=Tv8+Ga`mt=we~FzmZQ4Xt
zM8}aT%kHCGG@6XXP0=Q8fy&!jD+9JAz=|l1u&Qf;x@a~yYcgcOhVog?_{vJCvTWE-
zv5t;n*x3qf-#L%(k(M59IU}U=&b#m4bMHO(=iPVDx#!U0NBPa!(}Es#^Dng(Z`YH*
zt6N3$IpU+(lr!?iXQ7%~hCZ2HZ);xf^o6>eqa23>-9{WJ(>dp$mo~L|@0fGwZO>o&
zv3|Io#y~_9XJ8xYU-i?aYnP7AM;dqVrUTkR`C(JTp{EZJ$svt8J>wp8FpCFn8er`=
zB?3^nqHchvk0VCRpOkvUl0FNfwj*g9Mhao#FvanU#ax&4wyhO9iG_2;OEz`;Zga`z
z4bvx3B3g!S`bF$tXvE^`<r!_;=0QsyabN>JwIzMgIpb9`h!oE`vH62ddu%T`wJmBF
zmz@@|{EN7-B~GQcJZQc!T$rUDI0wI$gB$df4J>E&O?O?6y0UY0`n4?l^e{gc(#Jw0
zWe-|2@T*+gj@v9ksQ6^u;*G(|Y#W1I`zDQJRT{_cA*Rsd*o?NRhgPkQ)XbGo55TrE
z*39(F&d)6KNmxmj2{HQ|&JufPW;_LtDDCn6EGbB2zv=h<AI({#V-YXr<~seccoC-)
zAT-l9;Uo3bCY$RHL6>h^HMgW@XbV&ARErbwb4!!RE1-pyMPP}Uw`*w=3csbmJx2kZ
zlI35d5!4j1hW^a0!)fFb%+_NtqkJt3PxV?snPtA0C52uqd>gIs)F)_#%=w2zm%gQt
zIxF6z_ubtFnn)wkq_u%IKjK(^#*B9#{`YD8Z%)lY+vYyrG%eZMcKY2coYdoem}aDC
z*#o3dTI;)6Qs}f+q?KpAi)gds+-5r;XyokExYUMuLx{BF-?y|&t$p@(;}O%ZrS4E#
zYw01i#W%kPIsTv)e|M^Nx7{X7o$5@snKF2FK&6|$s&8=2S^tw>nPlN>rYcB^gqn-C
z?vl5kR$F%olf&r}so1>X(%(X9MCZxmVKq+r8rh?k1S_xa<9(*12?~mTqW?s9E!UMn
z@sfVJG{+)ZY-KHnLq+bHBWn3{oj^X|>P{^U9B}T4baQX6m^q>4@UV)duaRzu&U$FI
zxYVnyf85g|()V%tri}C_)9F+!vNy61jzJ$&@6*@Fei;5pt*B`2x74rRU35<mfc^l}
zZ_S|psdQ=;iwvNAgH*n4=QE_OI^5H?na^mH4$SSi`@~D+!Nzx*k58yH)7Qu_W=1#0
z`$2Wo-e<f&siut_+SYg<)#4xCR{Sw7{>ZlCZ(4`Xd{#@Z)U0qjHPau9m)7;eb;oF{
z+K0t=^vBbspX!I}j?Xl;Kjm3-T&vZQ)U5e{BW&qtwz-q(pVsIf+ZNZ)Xz`D4EB@wI
zy6c?-z7(tU(%0<Yf{}KtEDE>thRQNuXMa!U%olvilqHqUn>R}FYqlR>x2?7BYNj?k
zXN%-r5X3WhlS46WQtvxorz9D(wMLI;Yft*Sc+P__<D$q3{nY_hR=%Z&)wlk|vTWbN
z`s?qxvh4E)c=SW=WfN-aV$RX8na(<xzWO7NES=2Oe?fg6DlP@zTHURxDV#d4Xa&$L
z&L-T46>ql|)hc;3JnPp)w`w4p{2tXzk+T?Cm0__B?`uRZE$Cvo*Q^0yUnWokfa7p1
zI?EdU_b4XImv0ibM&LC9X>l|O;Kd|?-xByQfLT3Jw<d=Z|C{1{j{s>NK!(R<NNXP4
zrbl-Od`#evsT!o<Ag%*EDqbM;R|H6bLVTaVKN0wVzy^Vj2&@9k>PfsaR3AP>9F=Ej
zPO+r%3q*r>mayQIA!+84Rr?>HFys>rru-ls+hlE!TSPpMC@Rh0Q1m>C2W1n@gdi-+
zcN2AD>}*JDSY2}Aj58vzgU_tumSo{2m3cOJZwe5MMNTVHdK}=;As}*9|AGorkg_!x
zhP7B6p&WlUVT3ZW_#BkqIiUkxG?91iJUqgg2||tJ%;{MZB!AI!VmHo?Fp`R$$h{y=
zCGsGhizH0vaR~FYIIXrebPpky1eh&V&wi@?x^^0FtKhi6o?+#YOv9_SXP)Mdv6)(h
zg+7e|o04QQZ?-OLETyVA`FoEz+DX&dMvabcgQeIF5q1`CTdCGf_a=gZr)*eKsqT|w
z`V_4A9Qp(L-ZiwP(qP0akw-C)aqe*qTHY$lw@f9h4q{BJez5Y7qL)JbAo!3X1@8d$
zL@_)^K+6Wcz3J>U>*p(8!@f>^{9}p&7ZT$W=O;+!YvBk{vQ8_ysc@{q!h@fzAh6#9
zMY{buC1+tbOT}yHDSd4yQgKbN&EoPzF`MI3#ndb`PG|yY)i#)>!KD>PBoVP9Yp)~h
z5CQsl7wHWzItW0iT1a?MNzK8;sM7h^m{;1=CuH>SDxEM+og0Hw4cdiC6!mj2J*5mK
zn{r30NDpJ!uql>=MF||nAmPKyB3XD4X+KhIAmAflBS5>+qMbkqz$cOCi~mb3h1DcM
zGyo*rB!yS~mb28JRn!udsH`Hazq^AlTg5y|YSl#dlrF=61`Xas@!jbtiqg)PPyqM|
zg|>tyu7?I8PQqbMj>3N=o1ZbkF$a^eX&xfjg~Ybx`Cd()uh}M@fwI$C>YHq>COW(4
ze#&6kQvNkICZk4td214VIE+&z`ZZoi^t}zSf@(R?94qj#nErge*_{&8->C1t;p~YO
z^~9V#>-OTf-7new@7V*g!?$RFS<{%qCkMkZM}yqj0n4Z4(l~kriZjZ=S{$-n99wa=
z%D%vBBd?CceVvl8^J<Rd>zO~MNX&8WHdflbUeOq@XqPJ5;}v~UMc>t__bQIa&0X>4
zL8*E0?ZJ18R)!vn4Lu%f{`A7JU)CL5tsRzw56j`6cz93>4_@n+!o%_K5h;8`4nol0
zBexxpJ9a~m=B<MmvA!B&#H#9#TtfQ@%&2w9q0V?{pA_16%^-ya;-Q05=pYHq8#^Jd
zC#ij?W$6oVoLwA^HTKDY_K$X$+pA$x4GtOV4;fZ#d*t8{s8b%n9!S<G4^w^hEx}Y(
z4f$(%AYK-h%EHT`>t(&Gb$exRSaBc$b8FtNxOcAvX*~-r>&q8RFce2J@@BY}c;zsx
zaLYAe+1CI$b*Oy726q*#7|<>I2dQ+dP#}i~QP{Y@Tk>~bZIk?casPniA3$YEH^5A~
z0cPk1xH6I=ol-YS+MFe3rwsiGB?td5REwyYNJ9a_`^;(uu9tPK2D(r!-I_IqAmD5)
zUnqirlMCOLrmJ6aSiM8>AU>rWEmVFB%J05gCn8<`w)>W!6bm%%iI%R#<8sq(aCD3Q
zM6wn}`o2B;(rnz`ykc)&ca>flxjYhgg`pO)9Juc4l06mV$Sv;akUSkRPw)E`ZF1W~
zF;7@--udH-A5|^eW1;;Eb{&lmE&Hs>8&EqyAK3vz1~E?yQ-F)^fm8#aw&B55e<$^3
zaEDrj)E!U*YY}nDMqILiOVx_b!&ZF&|7)RFL-D$OQr*6Fe*j&WB>IIF?ps13B>Lq-
zi6^73q3f>RPhQvT+ASNT-Ga<ERkTO;58YkSeyU}#3&MP=qN*Ij$#0e`Rb*`m=#@ZK
z0t2Qlqkhn#K$oEULBmARn1D)0X8oG4yY|YZ<;t`~Zs?bvxL&$Xc9&h5ygV6qw@dE!
z<!7(E_x>{7zHL8l`ccbrO)S)})4qr0;C}95Epl5Y`U2_oSWVQwHn$FsfMMDHh*sb9
z$b!}iS}>)x(l2|DrZihn$;|4Z=ThAYNE-th2GA>TIOFyv$=>vyy#;2v#(y&T!^!yW
z!_w}<EA1oiKC;q&T&}Hu&GM=xUb{=G-L*U*)ppKX*KrQn<&)@dr|hYWdm1HAW8Bjw
zdD@nP?|IPvQ1oe)=&wh^<DPEG(|xu3J<ssEuPyHD!NmRM;5Ez7PQ-eT#eByxiC1~&
zhga(wsJksb8E+YoS_ZDQNi7HBEhAFP$V%OjdDsB+Ef!oa-MQ-Ri+e{T?}+RT%5^P^
zXQaB_X!5%9m-C@oR32DtxL&42Ix2x1-sbhX;9}DcT3>Iy+IVeXC3G+rJQS-vjQNF=
zSnf)4Nb(+%y#d+Rx@?ww-C2@C6$-h1gn2a>YZ|!Lcda!RJh@VRD&{%0-l)#{4Sn+`
zSVN~HLzM_ce_ZlDzV2t8qCiU)Z6fG$u^Lpb>^-QpC)%8vaI>aTkL*2=HI7T6bI&-b
zzLVC9TJ_>pp%t(l`I5R5rc)@JQU57I|AFQgd>m0vh;8i&jW;q{A9g`E_k=w+JVWo3
zP81Y-@Pbx#&U9XJo4PH07%^XlWbbh;T^7DzETm~?iIZ991G2xD6}`5;6`}34PMTls
zc)buSpf$IVYbRFN!3vyOcU`euw!|GFXg4iR-Eefv>Pukf4RA-h!Jvt|dL&oR)uaFD
zI=t>|U4BS%?vZzO5)Z4re>VB@WW2gts_uSs*VVa|o};mz<FV=!^9NV`eR7pgu4*QA
zwz>dLe^_7n{a9_MTn8^6^d=_lHoRSf%}Yn#IJUSi*3h%1?~w+b)`76ffT~-HnXG7+
zIako^h(_@qPILbjPa2O{X-W67R2KX=+J$BKSFGb5hHvMMx99w!VZ0T`?}1$z?L*+Y
z+f6X+2YkO|pd6PES`B#oL3<AHaWhh@KN65Asy|o^f8CKfCsFWaL$nI!Ca`8!e(CeJ
zdR{l)NX1e&b}tr04Bx=1$MnhENNyT`ChtYZGlodsSBqe#)THL1(%5Qe2PcckqPU>9
z!3PB&T_Yo~2A>DBoVg11twuYLN=Gzwv2eNwPw1Ox)9+$o`V6h!7A!j@Ho{va{FcJU
zWxgto)-%4U)-<&}NZ+3Pi<syX>ylY5waQJX?c|WjEZ!I-If)Y6a^Kj6Tq?LqhGqPG
z_!KRGXUtUFXPl|dyOR4gqY?ft=d5Z@-?GDi$zS3ByZE>5#uoBd>FlpCsclZHr6BWR
zb2%uPO|4Zrx3nS<^B;-;-{te$odR;Rb8V_rIuR>sW6xf99iuNqkBxc}J+do!e}gNT
zmimIW)CsLO>C5yi3Ub%M2vS=hMfi<90N*iO$ruZB<jx+Wg?^&xB^YBH)yBz7FcU#)
zY~MgAtQq7US9UIbf~diqgz4F_C|LyKKx|cU*0iOj91?k+^}<>IefINNz7*9B6xC(s
zC>;(G$7arn=>tRCI??|fjJzmq72J7VfQ<l0>HLLQb?Xf~)NDKFjW-;Axu{~{i?9^>
z;tAR5dGRP)V^;P(e~MJI4z(m<#W%BZyiDC><9)(>)NIzJ#mm@E)PyvkM4JMF6JUcz
zq%r|z9<;)-2Ru}={{zHGl$<_$e&#vsiNHWjy85#Z|35gUOYs-Pp+e-Sd~?I+M%l+v
z>K9+h$uq#Z!_R<<Z=sIxR{3v)|2u(W1V|JizCZx8s33-^0tEz)P}qMEAbVpXiM7Rp
z1U@7{lKH#r!v7_O8Y$*IPfLhyL`lFzJRc`GEhZcj(-SijIGLa_KVebq=tjn{m)wDp
zBy7sj1vLV9NnOM5`;}gK6GfSAdte^FKur7zig!odx$yX|mv;VnbgAP9U9We&(X$fh
ze6eV~yaHxr@(RpltIn2WF0TJ<4cs!~iZ6Z_49eEuaMr&vi$yP-UfQvCuDNcnf!-{P
zf4Ms(cgOPMSI=CVU2&g`J5I(NC)s`EfK)kf*}P7kB>Sbx{&_Pj=hn8xYx<-bnEWc0
z9W^kzE>{I{Rtl?I7|X%>qSkiXA=t}an*8PzjAdA>@RoM&S;h89Srb0#;duoM*B!+h
zx%o~Td{SEJ>z<wm<T7lJ=skA`P+eCtbJQ{d!**pb><jmvvg4tToEE?BwoqvG&QId2
zpwxQ<K0t9^$K|^Nn?XBH8SW%|@$e43KKgARmgiYXvEJ7huir1#?^o#l(&1l00VofZ
zbX5?A_x0n9gxLq`=4#kA19<T`b`+?%&|+@k;x=un&h7pjWDRaBe=E-V-$lQPc7LHi
z??8v)Et6r$nEzHmF5!j#12wsC?KBLT^51G3FyiLtyYq$$^M2lK7%~_9yeF6Ny(Wae
zZ8RXk+a?3yW&^_C=EQF!@vi*0+bR+Mj<pbR-tia?ROG!=mQQ$1{(&~rJAT7~#-eu`
zOoX?X5H9`=jgf&w!6<LkjgBTPqoZffMK0h7<!GX4bo7fC#-?ZsZ*){75t&FbeUXHy
zeELZwfo3A_X-HATQxy0m0wpxU`U!iLzzBiY3DArr(vVk%HILo`icI<eVvN8q2(%I4
zLC@p;({zg+J6K{Tz>@<F@I+o@VtgiHJvBy0K98O|gAx0*_$eY7qKKa(3<E|GNl!uy
z68JoYH4?^$tR5$f76D=pJ!mJagRoY@$YY&IqfJ~Sz}_ufg#9Ny{Vjncfp;nF9|-(C
z-AaVz6ULJiPggYF6V_3<MaJgy_-VK*9>tt@8KG>^CN(QONr@QHgKvVyov#XT?b?h(
zIdxbq!vd@vY>`{q<))o-eWP6K|Ij;TFb393>yt)8=(LV6X<`(XY8n>v$nsDj-xmp<
ziiJln&nB&WYZC&)hNPWwj4O0<MzN5tPC6NN36-_U5=PyEyKJH3@)OBYzV!(1+E;v1
zNkg)X@5_ZiQ?i25N+MOoXthw~P1Z143!kt_E^4w)u-I<ZbLeoc!|0N$T9b5LH@g>H
zlDTTbh?}IZ5>HA4$y{91PjHhQFd(y=rtw_k?)4qsq>&I*+g-IVbNQ(xhhwmtOJms7
z=!lheN(FmlOU2DxgSm3uQhL*vWA<zma-tDaxv`6B;0h9+;9>_X*(NC%pWm+94KrbT
zb{P9O7Ov@78z#DKuo*4<3|BlW_9sn*6$mBu8)m}VF~8h&e$im`a5O>?ue>p7VzfZ0
zXpA-XNaejrGY43RMj@j(edI}68MUD>NjszX!fj9PV6<2$EngVAJeg$rI1^$ae;$%K
zv{Ay(pUEvXI@gP_{k(82RvMIwLrEh-kbh};(nJ_lGHE8vf>w#yY9w>*Mj_qzQn?H3
zkltCbFnGByX#|dxPVXxnFcq3K(XEo4FdSS_ib6>+sak9=o_VQi!%BB24NR*HoKk54
z&!k1S3N6CYwCIj##cYANtyRLGdFO_eLU)fFjHS#`La0V45~B(oMwL3%N@gz_oT827
z78xtochn?}xFQiz=Eo+wuM>84-ZTYLErly$XkCJC3phceWDaha>Hef4U@YZMO4r`~
z$y~Y~e<XJDvA=tkZ`P?hBM?#h)h<9tCS|@?NY_bbbQ=yB&Z*@7y<x;P+3QT*;F{bi
zG=y%V`9kaHA861JsFhVNL|(Q~qlT!Mo|vb787@oqNan5$v~MWcUV?g2d|Wf)(_I0)
zoz2f&E=-!~u1GMu)8oYxE8DgFXsoPDvUJnX>DjPSq;PqP8m^$G^*f9lPjZjZXjyh9
z1zfIHZO|oYvmgjKE=kYXJYz989U(|fgMrc1V7MBQ8V98E!K9f(l@Y<HG9nmNMg*hE
zh+vdPMAFHqOW3(bwgzHFjj_;BtZ3+FZq80ivV@<NZ{kn|hdyN<G#TAoGD1=%V{}W&
zI8-Saqe{sbRZ7OFQZh!Bk};a4Wc+MP$vE_LHl9VEHW+POJVH{%V{}XLI8-Sfqe}4@
zRf@-`Qanb}QwiT<D#`3Zw@WBg`DUQEQ}B{vRI--V;Ji%#9bS2f!trxcQzSh;HyvfK
z7ZBX0L&9TEk1H>KewFk4kzUTEl>r&~muIFXo>pG^W(v)Fc4p?h2oW6&S;EsPq<$iO
zJcu_a#Pke&HjSO1;1xx}eGY=yv57D{L=CG;@F>fB6^SbgTUiFYgJ={JpwCf0P|Z?U
zMTE_QYnI#cnt)}>^pUQd<fhMS<zP1pmTT$OOQ4Pb%dvfg`3W=-2oRvvMxsf-j9O_`
z;Vm&jS*g$xCK0}0vb6aJmd!R%h9qiF*p!r`DG{jHOiySTlgRth)YMtAg~+=I4WFJq
zGckQSjMdZ3IW!nA^b!@RM>FDc=W$|vCK`tDeP;B+%*0ewSsn4(&$Bg}(wfR5ju%wB
zC~MX*sNND=mC!15>1>6#n?NT4+AL5!esvSpL!g&HAA!99iP9|;r_P;$NS@cIiP|ks
zQ~cEGx}PZZ6Br;cNPt(F^zkST6F5lV5P`!4csa{U*Q0bxAE=3jZ27<+^Osm)%`6s=
zZ!0p^->1Q3T59XmK<nSBws@FI@d$yFl%R4;QCRj)1p!xRk)CjH6m}^V4f7}Lqm-PM
z?TJEumf|5PDJQII2(7N8;$9l_w4P2B@q?7hGm%!(ss0qD^*GfUx&UKmqav^0KSR&G
zoMZ-`-J)=rbM~|tRVoplA;UWpvnU~b3M4EXPw5k%MS$2vxy}*BtK&^u7zMq`C(B-u
z?Czr)Li9HP$y|fMuu&iw?7tEUmA^Hi>es@t72(*L;9nC;)`W^R!SjJ&1#&y5%8+wg
zxEI*qr@eyVl;KuRjv?n(zF_G27b4SgJ0};Z3yg*wyzzh)6%sKO-0}#9_S-pj3cCy3
zsui#@SQCbCV-q9?Cu~8~A{aW>gnes5{hH9eCN!=I!Cwo9)`adgq3(UNYyQ(K=IZD3
SKg!3JvTfnXTLN8qZvH<XHb~z9

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_score.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_score.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..46da65531f47830c1be3cdd989536ec3ad70a137
GIT binary patch
literal 17783
zcmch9d2k!ondfWVN8<(o0whR)Hz<)14^f9D*%T?+k|idw94A4>h9RISLBc_IgO<dA
zj^en+kVg|!xlETmHOx-7h8}Bbl-;c@ZS67f5y!P#TLp-6fa+B$oLWuQ&eqlz9Lnos
z_K*F(*WCa~!H%bDYFotXcYg2n>-WCz`+e_g{TGYHMBqwm{v@TJBILhgLb<eZWaBVH
z$SWjCl1!RJr8^U4AgxNPGU}*0qls!5%vYzi8C_II<C?TSV~84PT$?s#Oi>e!>(b^7
z8)a!+pSEPIQESE)wPoy4d&UuUWSmiF#uasC+);O?CEAklL_HaA)Jy9d(ybX^)JNmS
zv_I1pZKH8hx;+z!1~MJdj!b8?GZTykGoffG(-rNa<>qvErYG7%<7~P&(--ZdaZ9>C
zGY}o1acer98H^6nxGlXSvopFgGZY=7X?uD&6NyGLyP~^j+L0c~j7CQ@W6?2&s0cT}
zjlT(VgjaO8iabn`&KF41#rfV;%efPmn6UdFFfkKWiPlNsQa150m*x0)KF5ptlkvH^
zRQ61m5!I8~OK{Ua#yvC733-UJN3v&9S#Bzw;<A{w$VDe|XU=eZ*d$tx@O+Mcj1%T^
zS%DL+j{()}`RQC@J_9YVKBnbXN^!k9s}u|K>AYx`QePM1XE>2PmB{g&($FHO<Zc{W
zlGE{gTr|>V$Fj3I9OhT%xa{PyQyl-S^kl9r87Ff|E-i$0Vhg1+mCNQ~uwRYy_={&m
zH_bi?V@g5Qcv{MJ#u7OJCL<=KGO2W&PvtL({@AnebSfFoLoSXtmdeh}=VNIuD~R4i
zE;Gk-f)LB+&U4vV{?Z(jCk4@dhRe&<=Xj`t6YFab%JcKtL_D9$Wud194&TD#NI>|i
zQrVo!rl1q)9WbK#MDDRk<(;WS_g8bdG(5JP^OgBL3`u&X?YXcVSa|1@Jaom2_LC_g
z&&SjC9H?Q+#LsiFIIbG8CByM&<U}l$mzI!_kQSO0y5+>iPgR7x2z!?!xL>2HB$HIV
z&Lq{GI;r6_NiC;M>K62bB=wvwX-Mj3O+_-xB#kdvqk1F3f61<-i8Cb4oRKs6fNYYj
z$1I$gV`*zEXG+>Q3uof2vnpCkqH5=CGJPrS;OtPxw55&#=sB<r=R{hwPS`uzs4Ll^
zj{R???gA=q+OxYJGjJ^s_eiv7*<{NLny7cnGq{wI!`+QN$`s@$+mhSp{h#;QJn(F-
zFst3b9h81eI1bLYZ8V#6EgZ|4X*rI@%lYM5-9C40vK8pJQTotkOU-t9esxJ7)CtIS
z%v<Vo)a&@6PG_<W#z@~y68mlEg2@2f4P5)IDcJ$@8`@R_OFQe&B|T9PS{b+wcq1Wb
z(N!cDnP~SZ67CT#GH;+eT{sGx%m(`@#vwP03Hf;9ylCMl?~5fU^AmL$$~8nQFL6hC
z|IP6I@HRyq&*kU&Y(nO_z?ccq!4K0LJ0bW9^9sqsUAnGl3*=8h#ub=?s-P}tt}}0H
zq!NZ)B4O1`Si=uM1|P;?5CiN6cB599pM#BRhykksCJ+NIrV+UGY_sa3F$SZL0|$x;
zIG7+_mp?lZ$!F#wbE&zZd>nRje(2)-o_%}I@8Kfp)al6FrTp1kHu7vborwTf<S)(T
zQrWx^$pK4^ry_#HQzia2Ja>s72Eq%TEz>!y3=YeLZU{cPOzzo<(RxK+Hndj#{Z*H*
z+7_<1@2J5p@qI+JM$-mVBchS=O3I7$dG2Cfh>eJHWK`74Q!kp7caTboF1dxoG0$Is
zM-oIfo#W#%rMd-JT7rw6<>E<>7ZOJ7NxsZ*|33USF2nr4sC%*fQNjSv!nd*j*^9<A
zWYLtD<tx6gbNFVrT?KMZetVk>;GN2KUuwUiyT}MChNQ?#x;*SS={jdnVvT!IS8ShE
zB~>pN3dU*jrd;p?7-W)s2UgQhRj;W3SgR$A<~)v_UIlZ(sPr{Wp4>;sA3@KH?4kum
zW>IQ2?gdSOO{$R#6)cLDuxKrq&e<Aulvv)O#0u7=2HRZMD*A?UXUNqDGz4bKR?wVt
zDfJt7<tY~JMpCe!YiX1yv7`=0>QPdSyYf^F$#*Kb1(VV*JnK{PvpN@D1?_7fOA5}{
z$e*bf-9Rs-v}oK5?t-!4q)%=y=&u_ZyRKks_VhrdtI=ACo$FO%jeEgWumg2{!2om6
z*T`35*Nt!D7KBR~J<QtE8j{ByPOpOP2V}7YX3>)*XPEqsdVc+R7l30ddJ8S1WK3BN
zYH2ml_w8J4EwmQA1?K^1deymyEHPJGx=FrOq0~e8o<#>dQ=5|0xaR{(yx>qqsN55(
zZ$W>Hj^`Yw<ogBY0=cOE7P-LeAy*%oz<2M1pFcmOP)V9LJ%LK0q`XgfbM5dfP8==1
zjf>1;+hx^p@;p=UHGL0l3I&+84w$uiKh1jCl;>62eTkm^U#jQEd+{l>ljiflta)p}
zx2b2pQcB;NFCS5626(=&;J?n+cb=!<IYs_jeSryEX5L^#19y>2%!6v4sIwhtii>9q
zejB?W_=!qpQ{+k5-iwTiTu~R8StdoUsD94;fcYu&3Ih{m(||BR!f!A$Z;-G?R1NPE
znLNK2NQhR2(@LtHfE)~@!)1O1ON|H407AGp#~)f4*~Z(s%xNx}1XWU&0SD5#L_94V
z8m>3_8c+~$J$>>&kn@);C*CsO9J!KR{#w~OQR>?Lfpy|7^QW}O@4GyVXq2>OsvAoh
zv8*yfPMG13;()ZYTag)hLnZ3wP)!&3eNga*n%?;RSjjNQr*f#6^T>Js0p~BQ=5g9Y
zJ#CNDM2d`tTX~dBC`n=X=~zs3Nxh=*i7D?u)KkSbl@oPm;`y^6dDRQ4InmZo*Xh_r
z9e^k<o8)0t6VZ{+#pWa>JSGiQ)IH1bso6^+OSK3<64}|*8PW7aJU!1*2qm^8cn)!d
zq=Eo$kPwv`^l{P1WdTnCUgJbF>Kziy5U9)-bzC+9stJDry5@VZe>LC_Q47EeFq#)K
z!T}yvADsw(9AmpNn808U2Dl(LO(Wn7L@`wUidI<-l3t8}4+mfbCMg+HvP_T#!j^(K
zQ==_Z1qm*{N~x}B!evE)ryyFl%@M<iOscMS$qj4`QICKlBif~oVs%2IZ8nvSr*QzW
z)A4-btZ1q)Q9)EgwrGY7>2Y8IY)XuZYAE5S;PL5tMg1rke42*agNLMzVUN{`OY483
z<BRvlK_vbvtjAC3W~h0Hw_`<L_VgFc>qC*E^^UK*%C=P4jxyV^>aK(*%i+m;YL(wq
zwAKuybM#ino*R#q3~hJ1!hbpZv*A0qnbs^PYHC%t>0_b_m`VoUJp<_<EDb(z^V`4a
zJ62}9ipQ5t)nHF0I9?8pSMA<q|H`9f->w^j8){X^T4Do0+0s^FLuEE}$KGBVez5e=
zW98vfx9yLAq*ht1H8bfy&eYuG5#~5kG*x}Uif^>+8(s5_!>BZB<3yG9OU+mMSH~+m
z4wQEsxXm7fafAj}hkp~?S7zIblf}hqXvYe>I=LEOJyq%$DSl<0wO817D6HB$tM<0#
z$!pfCx3?MygC1xJ+#_1(+e$3n3L7Z1fvVkIv3Hg2T@`z{Y!6r6p{l#9>h7+FhN@kW
zYM`eQ7%B&bY8K)c+#q^~^CPtp2(*yU{(FO@edNYqsqJ9N&|1@xJ^PBb^?e6#>fUwz
z@~O4S$IE*kFPi?Yedou7F$S;oErpg&Rogp@$CsXY>16E;1JnB1y*^_1{~pRGsxEKE
zHB@#DT~FKyy*az)+Wi5$`yXp+DEh2+2nc*qYTpT+jO{L(tE1yZ^IeB$>6zENm(RSm
z^EZzE;$*e0cP0Mn!IFDmX{zMfU1E1bSY_cc@vSclAF$muEpZOO{5icp7MAz?sPOYs
ztNy=;{l>BTOShhY)~v1goi%gY@-w&0!K%Oax_b4|wSm25|K8%Gcl|r7p3c>_o9AJ5
zwV8@GSOfOXlA+^MAq7kHg-PophnTmV%#nW0Tdv6tNW4ATeq@lmV?C^g#IIU3N844u
z@-avKx?lO#7!Q~+f6#c;tNzuP@2FG#9?L-dJ&P9d-*aj)?p0&l&p`e6+7EX@Lezn|
zBo6yfx{oGgwFt&Q2&%@Q<dTiQf&kQTat`j>uSH!R>(Hy917%i=>N=>~veA$#L;6Jn
zw3c&}+IR=?Ye-T<K|!yGU<MWY&Et?8e9zWAA1J6%$wGB+Rt11kGZWVG-+~<eSqv^<
zfMQ4DtW<!xG8tr;2`~r&#FTIfpgh{hk5#{p!6gX7Mu}Zh{@kF_pp0!q^XxoGEs0C=
zX~+=}*VMU|#H}1qfs=cc*;VH@cD232t4Jyb!DUjjlh*c%ccAPYD6)5ZcUOJA2;AV$
z(^(CU-81X@Ol3n?(Y*8|>{_FxVrVZL+Lynvk|~WJE%!bAe%o!s*Q;h{#oSjm_m#|}
z)v^7Rv6=GNOz~vNA1SlD)@}aflO<cYWC-)4(B~FxhR^eT_-&j8-Q-2)MGfGy4oUF=
zU2{7!tLvCaM%Knun{b<Yi#DceETAh)9yK3&DLNu=ZeX-zo$m9@78Hl0qZckdrR6kv
z+59q_P@f?Q)ss+zE=BVq3kZ#!Rb5kEHEYPCWf5{Vp*M1lRcJNtuz0PFloGpM@9CwE
z1~NP6RLUFoVn<N}Sdy95BsG8~EnkQwtpzJ+<X~Z-<Fzf?3&v(Btzc7T5jKpeX$^a$
z#?>&zgpMnkbEt%DyXu(G37F7%&bO@?l1Z?UoWq^5?Na6%Fkv0xZNY@E$<N`2=Ri!T
zE4V2pYyo=R+lWE3&;po{+T;pOz=Zlun9$w~>4B}1C}RNJ;^BK?{AiuocGaKIy9wiY
zl=)d~O&SZWDW>3!)$wpvRd52nBj?aywCy@q#}ADHK%9UEkqN;ZBQDr>T{kJ1bJ16D
zG<{!n3<GfC&j42;yP;RX0cg}uk!T%;G-jD%nzn-fbC9TevAxh<Xe+ppNnUj(!19q$
zgFV80flySsA5dwX-BMKQf~T${P<aS&+l2aE%FHQu8I`)8b5T?Z_bsUO=maUW!F~)R
zRCG6jXju#t0+*Sqx<UYUqEQ2TbTM!WLKq#yE=U;6Jj0)ao)<>8o5F+HTs{cax49gj
z=aRwM93M>ZIYAhr`ZwSq9-np#XhZuB&gjM=2!5iegEp{{)1AgFst~$e(Ol7iMUW||
zt`kLw$q>#15RRePPz4g^^CZFy{}6N#*7K8a6IJ;U_>GG8O{|@w7^yu~_Hk4KN?Q;Z
zm*Jw~f}e(rg^6tff<9zSdC1QNeg73HA_|j0Uk$8%)(`EZbMV^HrNhgr4{gK|s<wAm
zJNl~w4^-O%@b|G<=Wx~t1Rq+VqKpXr0S2s`c$&gL0_6B(5Xfk?afaek4p#t%P(V^I
z;va?jVL$&gHZ!H*#0Jc{*#yU<A%~A*@Hhs@3Ha||fN+(641-e`Jb}SCF!&}0C~Wy}
zWAH~9Jc$8Vod9Lc<>o|fBAo+3gX~LW0qua*Q4;NvJvN55>%c7Bxe13g#5sMd&2U&9
z`$$q=;1fvhISjsw9m+UuE}r5A(cO644QR$MU}e+}__Nr;ljLUOaIUotp7N+>@#itf
zVDLN!DF{SUW1dB09dhwmtbj@a{|wer=jQYLWrzuAr9%Mq^yi?cU{J<UEwN_nYN7i}
zEWR7q(f0vS{iA}Y`UZ-&DuSuIW^3`;KY3s|bj#dUZE1TwvC{Y2`EpCRc=WEhWhr$#
zG;-TKddJyb3Ve0V`Lz=Jwe^k>1z_DB9=XwXv+wrs<ZaL4^6=!(j;<VDRV}NQ5C8CD
zX?U_|E_)8&ZR@Qfgy{m1wfcBv=tz0!2&mKT0K!^9{q7t3%cp+!)c;W_OMk-wv6|Z4
z2T08vgi7rjezN1iGTT>tbU9FE0fHf=l?QIKkp`j~`heX9aA3!SHIod$)<Xl8(Ef60
z|61q(XzVfq>#DHfG8<m)zcF4Jn=X${-)4{e6A@VF3Ip(}>K)n+!MY-q&}ca{S{j@B
z<>PCi<0aei;&TvGLwhQrgXPe{wa|l0);odm8&9nTrk70B$np1&mxjNwWc|RtV?DHI
z$+`}zW9wkKb+FPpQf?io+5ygWAnXf-s~tNiqzspRVE}KwQ2=i~Yw=jkS%-ehsSntJ
z+HOR0d$%IF2d9{uPrRFe=>jnOFk||Vs15;|`OrWDLx|>jWi%J+DSl;n@)q0i>Bgff
z;+<k@EWCox?(O<gsO|&<ln~Z^s3XD1n(gqb-(6PU=>A3IhwA0;mTiYihQpuUvK{_Z
zco7!kA5S_S8D-w`S|9Gvz12IZg~Z!~%)>pJw|7jcAo0#{`@{X@UDFgMe$8qg@u_}o
zXCCqDe(g|W+>OnD-EVxvt^V~c-y=5l`$h)h@0*a)`!+4c-D-?`8L0ohkLGvi9~siT
z->1QF&;X^PnU7yk4n4NODiaKnYSQP_geX$zTwSh1seFMZE9WkvMIQFp_Ny7BQZ$|W
z&M5Q^J-VQV^IxI>u0=x%H28c&hbHH6jN2}-r5lwNpmAz1tCA$!1>*vv=k}|hZKf|P
zPjlbMOhCoHodzMzG-=^*zOJDan7l`6rRacyeN(yW{&K!6U)OGvs?X`SiJl8O>n7~6
zsShUKzI_b5rofzG7MW~lOTGKX$~yqi)=yFtDxhmO-aE62f~sjxD(FeIrKe_3?I@`J
zKu@Yo`a9@8%6!6`ZvJjifN#6_5Y%mU8lzWERzbJd6-?JPZ=x;+*Y=fg3VUm!y@OT_
zW5TmpnS%E7DNvpEA`OS(JY)y_SgNz>W<-zd&cVr0UD8&Bh2CxMCBc-?M8OpGU@1oD
zl(0dvCp-&}Aek2?FxEtCP-^~RJ8#$xChtuA(rFHisrgtu8J`1>4%w<~!7Rnp3tmEy
zjOX(_k4HzMB@@3GlPuY2YIf50TMk)8y?okA^(WDl5@H$jr-4Rbs-;c&7m$=DnM&lT
zS|+k_K5-Uoya_l-=cu+Ns-auH73<l7!X}LYtmH4_1k6JaHcM(%v$<KqO8YQCjhFu+
z22=q?O;s>M01B{jNj4KU1`aq>%>|u)!M{x**;Hl&Rw?`~1d<ve8A~E%Z{&u4&AYeA
zuKPPG{+(t2&WeA3*}s3yf1u(%P&D2R4Xk=gqsQN$UJHE<r1|>rE;R2NLR7OrgJ3B*
zQQG?`=oLm&jV1QBlCA4QHL*C>y=@imaM?S&`khMTa5-{#%{x_bOx5(n=)sEaiY-{S
z1uM4kTek5#tY_)j*Ymg8p6jL?6aQiS_P|4To$XcUo|~G=-ecvx$0~cDDDQouwC5Wo
z`!_+9x~w$<re8E7dX{EiPuw<lRXy!X-@J14j>WsI`?=<}r59AHSEARVE5@~!K}n_h
zaup3-D-){|w+*A~W?RMFUN*N^%tN=#Lseg(;u|ab#;X4AsyBdtt({;jt@iAZ)P$OY
z_{TSh(Qo~j7~L>JwC}bOm{{L%**A>MT07|9ea#}<o5dK?a`01V?VM&ltqlXYPin0Y
zekME&%i#IQ(J|&1%+avsUrn+Qed`c&bf@O62d6cVcu&n7jcDG}1To&j939cT*Q>?&
zP6opW4M#AnJAeR5YR#l#cP|LiFBH4XCPBq)Ip$Xv)ZYU(1P~WR2Z-<O7cfp)WTU`X
z)a2_n&xY`AX4_PRw$gf03x*hSt}c=r{eZ}5CY+h3W-A65rb+>^z-*<bk&mgta%)rQ
z7IgW#09IH(uPW#$Lv|^(8h6>!OU?m!-hO?Nfk`pvoC4Fs)i>Zbz4=JInSlum5^gGl
zniwP+f)dRSr%1j-84ERI=wSw%wAv)-^vZlIcWTC97WL2R;T_X^!;C?Nh-TpjCWS*$
zcctLuSC0i{C&XYr7d!>>0pK|od>oGa1h7lMQK2B&CW7+Wps7KD<AP`N`8i>KBqE&V
z`228|%SV#Agb<knuP1Q51PyYQ<B?!w3&X9Gm|4(Kcs}%*OL7biCR31+%>w7<l3|C)
z#u8__#CeI$i*`7b6Obx(Dg_TnQ4J17q6UNk$NxD@pQxkfgm5B2@1s;O@VF4gpwbEe
zCOwkON%jXk?4#$S)Ikbd6wx;;mW=~N1oEPF3L$?w%_WbZN0)@(DfUMY4<Zt+X_7ev
zC4^`Lc>-2>Y1rV(MFp$KN=LF_VZfnMxQjqpKvhC{BeKkp4{zzbY?m3E%TA%pu-9dV
zn}m8R!I5%s<VOEma6bqN0J3I($=p|Ub(Pqzb#GufS?L%ncZ}V5bgko|Qed*wa=2)^
z<MqEj{^$E%-S^r9Yu^4MThp|_F;&k%rDu1!XE&Vqy<&xvwfe1U_rq!1hFRAOd{ozI
zEq>*m6=2YE<odzewtZD^U&-FLj)z=(%dWljXb$Sb8J+tT^EGqD-dDEwt=R`Qj9O&D
zct+Pt+8+3%W(QKA-U|}Dw_@up+j{Y^><CjoEh`OAt+}RevD0^KzTXp-ae{Vn|2di#
zivBM>gnGVZ+7GS^Q;cSLAH?2r?wryR;KWmE;KVHuf7{JK{@X1(ApQ<fLHr#xgK=%o
zv{(I3nC9#-V0_Fs?Nq<ZG7x{)qJ^68I<*-0sv+K-O<(>0$fkj**3TVaImy=|SOJ?c
z>!kWT*yeb)d1-cF6Oz*A>&&{&R?Yc3Vk*?Vx3ZSaxsq>}!ju+uR2bBmwK6_DK5K@X
z;0W%E8NYth2=)2;c}0DMssgY-V4iiPwW&uvh?J(@Va-kr6tM;)(kWtyvi>z-{YQZH
z*OAt_I*MxaRcHOpFj9TyWY!;4+ELbz$Bj)|<-3(y1%ooX%3WsthUW~F^}~G|>(|Af
z2UbyMypn%BW&g-hlfhgzcpQ8mCXe+Cz$www9t$4`rZRJB4ju4?Ao#2V1>lQyA}Bn7
z|8o2+_(To|r#T^YCac)9!5ba?C{L%-;6oF<kjkG8=4NMyfX0w;7Mx7$MDmh%%T5qO
zD0uQ`0lmOqJP78(42%j*uE{trS;?i5fijJQ6Sj&X?qVFr8kC%D8w01_oIo&N?@|$3
zXJAzGr-z}VND7>2vZ>j0?m~o*pP~2D>D=i^CZ5V-P6T~erQRi31pcaZdeoyPHxGi6
z`u7UKc|m><W$?rGx-$#ldWzFKL>-IxAHh52e+EI=$^Q$C{{;l15u_;n>_HH<`P^JA
zD<hmV`qV#-)u^=7f*j;8N%AdpzkHL&yG6k9Z(wU`qW&w4QFC-doNYcYrho@GfrJhJ
z24gocXoxSAtcv&wO7aVa4k8twaKXD3@YD;wgOcl!y5ws8gOaObIbZ1<FL#dL`1V@o
zWU1qDsbva$N!)D}cW>F<TQq{lgx&k{;*~{kSFi<ZfN<O|pM2>gAP{%Qa_YMKwrlvF
znmF7`$9`<R+tRx1TiI9k4Xw2dgU!%rt+_qhM4siErE2$q)cexnZeQ88PZ4)pWgR8d
z0umD?o(?459xCy=sKo2~=aG1*OFZ9lM1vA<hh}+lCq&=Yc1=ad+x^Vckml`y7K|Tc
zF#pg_h`%$ag7`Z_48|ipM;P_HF3fqi#engEZ~B1x-3bQcd$gE;Knw9-F=~iQ3*b5~
z1zb&uI!u5B9t0t@*w_j0_Z9T!)PgFi+jM?j2Pkk(JS(4Gfr~}s9KD$|Yj8ZU^<f|M
z0?UfAndfseka4|k6<RbE49x(?q8TiI&E!<wYZg>_UE{30V15&x5w8W1iHo|c;9QWe
z!wmo#y2cqhoYL3jk!%an7Fe()$#VyeAKDqp5zsL|l}&ON`R@T`NLi#K8`;_;viV#d
z>>kvfB80V~3bbIotX+y)s=b0G1ixd_&g17#VA7xmO+lb08fW3dAF4$24ovGMWmuqn
zQSV6U%<5?<<WaQp2&}>uNy(-Ap4y4(?;geqo^;^K2Rv}ASqfD1<VEOEai{|o7{4C?
z&qdU@MGdx-di;;jg@9T`os(chI!0WD?1ka2eB^#cM|I`8BL6q=Rs>v_;C5mqgFB1b
zYI^`&+wOMsuiAdovG>YMacaqTr!7)x+gEPecQd@!HeEb%*VR+?fICW8#WPs;3|2h5
z%AQ^Kv}(7tI1T<y!EmK>U%7K%iEUqJ9WS4_a$?zio9(EwfuFldy}Q>!6J-|u0^l;%
zx$j;parmo#IGPv)3Jz0Id(TAR)WYVgx`S0Poj5#Irx%=F>?U9dMiX^d;p+@`i@_Zc
z0^LxzlntdrZ1*`E>ZkICGQc*$R`hDRp^VDng^v;%8_KXrxzaRI|7@ESJx#%Y)@ayR
z@;1miHkZnu1xR%?N*!?aXyT00Oc8{S1LP-wjj3z)F+gJj!p1Z<L-XJ+qtAQgX&?nw
z83o<2`m4(t*wD>XzoZU6d_<>yP~-6e`r1u&>Q8eX%6U)^!2v_-2NsY=n<l;JCf99p
zh1Y`%g*;E!%?(RJm|d7MDGMJy9|Y&#Jk_+Moe4@)5alN7V}Q@&!N;g*eN4uz^_CLr
zU;ql^$uTMw@Ewww+DTDgiKoGN`QJjWXizi@5srk@+_MO7B_O=T-2g|5tPBnrKi_-q
z6yYC)V(_c}&-5lT7X@r6YXXJ?>3HUJGJa@b@(*p`ZJNq(!x3C2@xOttfN110SsAHx
zkKgJZr<>++V36wb+$H>=2c}NoW?(coaWoqK-@%Rl_YhzqdK3#hvYN21!4UcXgmsYj
zNS1<MU<|wA{}zMqVekY7=yyjIFZe_XoHlqC)3}iD=Z#dss_$jKgf-v7;B5@v!Qfp8
z@H;OY6eaz6?C)Pg#f8W}arTf=2>%OO0{`=n{%}z*@xMD?%>P<K!2j;L0u6o1Kd}0(
z8^Rk;ec(HAx25}r@n*QZYx<X`%Dax;ZaH2J?v$K@E5ZHc;C^6c9&7O^y4<>7p1Cr!
zJaL=ts&)?4x#s<x(g&Qf)<KN+m)R?9**AVOS!8b;rmAN9kH?lS{pipwGmI#(Ji9!<
zlq)`b*GBm#Fi&^e9cQ2fUc%0U_l#O(q43QYT@7LN%*>3mCVS8uAFVjxjc<zK9+*#K
zoQ=hvnUANX5*`^Jk5)h)*{rBJ4Pb<RhQ^05lP(A9tAXZy9(4o$H4IQ{^JuT*H5edR
zqgpsUMBq`<gWf(5XoPz4OTHm5V<is;=&wW-cq(1_zs4k8Q2z#FKgR&&9*=Kdw8$Uc
zp$!VY(PQ{skW06j<o>|-VO0!<u;2>t%uilG!58ZLy~Uz6t$V>C816M4arD&m7&8%H
z->RnEy0d1+Bnw9H8dilyChJEwjO`>7`>Uf9@b{rB%4j>+U7a;8Mu3ddvy`~ztLbSH
z+>E89ktR*V*}2kQb_~_bG|iHh)|!Pzt)!!CrF%tK8F=-n)nqv^TC>r7JMng{OqV?a
ztK(%)q~@TRPSV=BEUZi|Uj&a)DDXyVbR6JFZnBoFU1ekUN~UZa+i0QHFREI!gX@kC
zscS7HV4Ut?O^-3drjBby%rOBJD0z02?K^5_OtX!&1=BDOwxY0fq6CK^#?Xch^A2p9
zktZ4L6ho(k#&Bv|mQGzWE>D+04`|<0w(qIwr6NO<BBNBaX|ALUX|kkvli89AwojLo
z+ibq1lKUo1%08|p{X0Ii9A>oEb-SAme(IX7)HPAIPt>%S-FT`-fu0t?JMUPr;7c~r
zv<Y9bnMPRxJ2rpqsT!qB7u4prWuuj5RM@w^Pdl;h2-LK2hrZ-?m<w;r<XsMwjeQ$N
zOg_etBg`@8L-nY3qU!Cb(fio`n~(qE5RI=Jy~{&oWB-O0D%8$0Az1akK&b=1GZ?FB
zAqC`NgnEn_h}T~;VoVw}##rcX!-BD+Oz)PqkdoVC%z#vk7&8%f>$3XVzEbB{*)>)(
zV;-EExoQ@S!SZSS*ak64ufx3=-Xme|e+hBXmdJrUIf38h3&Zi#2_E$v%1OX(eF^^u
z1<GJV{cIcz2y-dQFhn<gM>{NiLNg4QAfE#=l!J+0xv2h$?XdJkzr@vo_mxT?;5LXL
zjF-e7<#Uu5QK5(uPGWnA11M&out4nlJeq?1QLi*k9(9O6T$!R4fihyT{XWW)c0Zp_
zr3K1bB_@hm9X-#b9&<eEDWd1Two)t9%0xRYq~8<?!w8V1FRaWoTb?gGa1kAH4j&(u
zp$293B1`iX#6)?15bK9%KAc%+l@pT~?RL0+<}FE+F03pKQ7WgNlu}*Ehp-1~@M~C2
zCl81+_lGch6oU~gGaQhl*&+UaLK1{M5i$_KM<fihp(Bj#zY+8A$k=a*=kH0|-;<%=
zl97*9W<~{$V{-6OD`6&?-;$#rtMr%!!AEw&9Q-W_|CV$^_&YN7J96T8Wcu%n?xk<8
W89OfP?&*%}8Pn3qj|krBaQ+`ieVjA^

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_tokenization.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_tokenization.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..684ebf0618f946e4b2fa594bb69c7cd0f8058f7a
GIT binary patch
literal 9533
zcmcgyeQ;A(cE9iG>07caOR{XsHo`U-;ZLv=2nG{lurUcH1)5Ei>}Z7EGsx(}dG8sp
zD{pB+yULU{WVS6%lTJt{GwT#Ob!XZs+v!XL>F%c4PR9?!Nc##?x0}vvXZnW{lObP!
z^ql+jBrHt#k4}3*_nmw0_r2$y^SkHzXHKV$KuB=E8}Di&<QJIGgRw}gehb89!V{iJ
zkR%gk7^K+*n>2(CNiNLMv>{;(8-dRyOi6RtOnJtHC20*?DQ!yFlJ>Bj(&mIC=?pt5
zZAnxmU13+UI$WJ}huz7Va81$^_9VSwZ_*d`(K6OVZPFk1Q`(lOOV)?$DQ!<QBm?09
zr5%aJWK+0_(#}M4azl6nLs%j-3Bjw3Hk0s1mW&d<>H^_ig8!<a$ZZiA%C82#`zot(
zuWBC>Zk;iNYW@>bAx5?GQ8^k*L?tQ2s)nJ|jA|T-r=p2*$TJ@mUYQmo8A!*0)X8{C
z7*5266s9)}pNh)Ih2&HsDhtEulnm^Vw3v*_N2cU>It4|X#oEuNPo5OSkXd!_7v%J5
zAr+q$idkyS!z^hkostCAc|a7?;!&ZP^c*kN!5;N`E}f|}s>_UGJ)h1I$5In%y*V7$
zktrcHG<Hl7&%{$Ff#F%hIGpB%gamBIQ6a?(B1~=~j>YWpR9ucEwAny5tW~LtSaEIX
z$6ZXU{uvP82RRc+nBhs7<r(<LzQghc!N79@#~TGBZ<;j|!kYzCk+KM8-YQsl8~p6N
zX`(tyCK%pvp(<?Uoq~<8670NPa0pJUH(}yk7r1a0<hY7C)uo(j$Z<p2nj(kg-N5nC
zR_uazg5zr-?aPvLOt|(K33=4|H7ik^T@?3o1f(M%i_?-E5jCNR#9%)na!~|S7c5Lf
zz@3XoAW)}Or$8kp5~Cucnv!%~)hfNZwvgkhb8S0~Ym$+eCR&jRDqCV5tf*KIk!lhJ
zd0I@xiXu<&Xq(`N>DA{U`a|Y2k>RU_*DV?Hdr&6BWY~-$W4^{*<+L1zWVj586b}iM
zFhWXim1IniDwZT<hJ@Jh5GOW3RWX23BStu&kWn>C(^G<|S|SlDDG?FW4-uO&!f}VJ
zDklkviOSk*OKG#SMqu6GOhzJ-6{-e{;r!RfdgSC(&s2P>OOA>s1-a|o^p2-?p57t!
zB;qG}re@?*=~T~|L?YP(2U47wO2<>O)RP8@kH&i>P2?l8cB1IUc2CWSEzrem%VYPx
zTc6MdC@1ZK=*#ouel4+9y>3=4b@_(&yr(`N2<00)3RYsRzfX)-TcL_HcVxNSmWF)a
z5&VYo9V1!pj%CX#G(c2yQ4UnQ7(J`YRB1P{hy#AF!EbdC_U#$Mz(LB8$)e)J0(!_W
zx;lIf)c9|}-u)4K+3-6?BbhT~48H~YeGC*m)Gh6*UK4hk)$6`Z{)C<5tk{QcCd$P?
zZuD|<ARm(`X%%4-H>x7&Dz`K)LvdUnRg?CL!jR0EO1+q6r=Fi-<SL!kmAUxK3^Q4+
zbIafJEKgGH>*wt!Z&+gNNfKkfTSLg4C1aWNlxymgKIS*si(U@O&ROQHFj}9UU;aWb
zwdIsf0T-pcB0vjxXez=rRySGYor02hA}Ru$TNAX5hp8fDtm}{C93wg4Y?F1zNG5|7
z%|H^`!IMxCfZJBVf+TR)n<X>3`O&i13|A>6L2)k1XHgDb28o=r!9RPdKVzN@Jz5v~
z*}4vwOm?lqEy?ILPM4F)9_Q>Q$(%D|-%q|f1btV*`s`h&B`#CNgC@LYE^En$<grSA
zTCbz`BQY04yd_h0h5*%_aZV2FCCXoD(}Jo}mvM$%9Ohs}=3Fq#{pE5xCAu@F$x%I3
z{$`wd3v(`cOy_5u8JGM_Ii;6@89u9X%in8OeP+kV4swaT=!clO_|Gwxp)!9KxEB@p
z{c$UiyY+f<Z;9HjQ<MEVRsK#G+K9M!&LKak^Cq9tsq&XM>SLsGI#ABhsf^=o!kaRV
z$=y1q`~`hw(Cf$87jYdO-*bSbqu;a4S#r+sB00<ax#27mvW<Uj1g)Ry3K>+NZh_ZW
zTGhKI8999x?2DusF0*Qr)9FNnkH=)GY}Hg>l;<NSg_IytQxcgH)5$4Wtwp09PfZJv
z2}F{Sq##LAfPkGac(n%WNK-;A4ms2iA@Fo-RU?2NG)huU&<X&r*)|FXgYi^wN)#Y7
z2CV^ZgA{fK{HbYKQkmcftZJHyiqWK`IudCys@oK`y4W`DEE4CX5T}~7o^f6PNCB~k
zl4^{lr&F@(Oh(T|C|HRkgjA?qbpX;4Vy88pS{*qNl?1(UXioJ+lF^wH0xX0aiSp4Y
zSr8>^<5efJXb%8+Mb$}*h!j;q(iVq#09H!H1QB(;3OkfeNUBZioS#lkss6~BXd(^}
zU04gZv`xSTr8@+pDlZN#salGwE@=P+MOf^?2t`<RYNOD1%%m-m>W!S3jwg7S9U@-@
zU$6tJ?fGb8TA<sYT94066-m=%JT)2Jt~&K=fL6k!0Xx+yoQnzcE};5iqJUG-;Gw7^
zdjvVrX;{pNYDZiRu!-&^hjONxgmZAI;8nK<^t5%<cFG3>J0plPZYJ=HVkEk7W(L?a
z5sy-+T5QGnwqvvfvs_yL+HOLts!cx$abCoes#?pNWhw0whub2ezEzosT2+L#+KPeT
z396Nj8wXPYy;`n_hh9P}tphmyD{jK(T*Y<Kdz}qE9)ndBeF9rX<@-wnV+9-8xG5Lh
zrUbVwwl4>F<r;QnU3q)Ml6`aD)3W4fS@Ac{AI~*ySDLmj4lFnAU21%K$v2d>6}YX|
z{Y*ZvAs6UV0)304%Yoh5XIGkAa?QO;b8oJBP-z}qZhksf_jGnF?+@hsA;lkB2rc{j
zvj;zQ)z7!zZhi8$Ye&IE>NZ@Sdvk8d-}#w=`07`7?)`h`-#VA;M}Fj7<mTJn?Rl%`
zPD96ar&2#sFcWtGhTPhoYZ+8p2J>6D<+kosw(iY`dUK%zO6Wkow?EhWoYMOo6m8wR
zO1RdVOD?G4ZC&zo=L1`pyjvj!qi*O?8hY~HK;GK~an9SOc-!(DLiv_Zu4RYPvg20E
z;p_dmfy2tc;rzBIa@&q7+m6!iMwP9j`Ht<mjxnWUtlV#VcdmU%X&);1NT7F>*aI~W
zh}~E7nU!<b<h?%l|8s9kp^<Fq&9(1Q+V|u)cl|K+UWzVYzY^$Q{LXS<Pr*pG46YKx
z7N~4!sku~Ds3yUdto2`-I<klJj_RDFQE@cps~hGIFSdR7a=}2HP4@}wth#R@!0fu_
zz2oX$>O1gp)2+Ve^VRja>Y!2`ywbGPGo)<Xcc*%|;3UnR&}eN#)|R)|<m_#?>}~n_
zmR$W#rGDr2`sMoJ?4eIx8}gpUyno}}8sDY(54!UW&AEn7rJ?h_)mUvSP>lYY3<(T;
zRj48LL(DgySCNKMrqBTM{j$&i1OE!f;|{zt_Wqe%`+(9uu;kkPIblIw?mB9;IV?2|
z-*)WJd;B?1m*VMKbT1kfw=MqK-@NpfFD)Kk>fX2P8NTBf{-$8WTHi`<gV4U}JJiHn
zW)609^Nm3Lb@#zN<VGuVa2t1{ZHR%y%}xG;{oKvnJAwYFpMf$TJu$Q$5<hNd4nD>G
zcnfCyB*+{b;C`}^LwZvu6#8imhp~UC4n7}m!<IhoH(@+L={?Pd8Vvs!=s)B$eBxq&
z{-oLnB|q^Qk!~;mz2^3T2>&(st!ClI@&9%E0Ic$VclXfmM31|BaDc+_&Q%d84rFz-
zM3D+A+KN!b=j+th5q=4Y>f<nH%)9~d;G9L)T_z-B0qk15;~_G;_&)qzf?qwwF~)Hb
z;joC9OFRfsh|xY)5h0R@ms4>NBYH(gXe%DYXeUH!W62m74WDLlB2j536%+A37P3|t
z4e<r6{USzaA;d65s-uV~sNM%Vj%EuyA?M^Zm-V2g<lRNh&6k{CvmL)u&6f+GhYqD%
z5dH5I{R-;t9>w3YXkPa3%sN(dZ2+c1Y1p;gusi47owcr5963uJUg{mS^X7M}-l|%V
zKkNhzg|~VZZuJ%dwxMZIX&THsJb8x?;y1=$A73?d&9(=GtFvVtpqXo1u53|!9a-C_
zu8j)~w_W{9mi|Hq=$bD<Yx(wkS#UtfuO&2Mulj~r&<Fc=bMr$sAaArV`v$oitwRP#
z+}z9z6YgevEz*Mw#2*oiV-I@)zzwFI)Vk71rMGxsSBCXG0Q!9w<ddPk1O1N9$fdIg
z(!K7TU%&nQPj~-0Rz}I9fj7j#<M2N7`wW%sKDb+yP7K@_+Tj*VCf7M#Jp0fIDWQJ!
zSm<Yk-T;_6!}qAK1HTnF0B&~6s2~Sp0GdVNl#r6*XM~^*JVb!enuiTsecj`;%_Grx
zLf|1k2oScS*skCQcuq<O3;<x!LrXoa6q>4LfMp2dL_|NT^?;5A#pf_>0Kg4yG>XsY
ziQ;Jg5y+F!*@iGlJ3TdPAT*rUiS%se<B!jyrQg9eQITus$6~a;$mG|@H+Mb3EA<Qe
zbDe`q=istuZ_YESct)2!W7++8JzEq{??OLBOO9SJ@L({%x^E)Y^`8?4ThvY9Qt$Xb
zNlV9$|Ln}ir<S_Ev+Q}{j^l-I3I;6nt%R4{SDAe_=0ekupS;Hm`M5vb4%7`VGH>`8
zr2W=?X2XqO<384KV>g5J9wX%5WQ{=IG#h}9mAsYEprQC%MT`$V&(hfdeg1Gc$i)Dj
z&ys#cZze-;1R+*LUyx4Iok8R*VGG605b>@(+x_^}U+?ztLu>?_K2Pqt0t;tzJ!4AG
z*lpLLCCecZoh2bZdQ4N%B;EsT5xiziCy;hTBCkwG6Izalr(6WL6%o<TCMGemK%{af
z5T3VS8ogv98g6<O5b<b<Con?y3)S!9Nu*FF#WY5A&NwZ&oM|4{n2<<BBCslLz?E>N
zo~Dv0`msDl=!25}3!*PC5P(iy+w;LqpL@K<QD(*8S}-C3aM;~eFjLY->NhWNN?m8c
zPSXxj7nnc(=4`=9lU1aBgekZvT}?J`Ex0LJLmHY3w9$f>*s8wpQEulLW3;Wfg9RfJ
z&`WJo!AwaDu>qV^tf5saO+U{z7@t^iw-k)<Efz!y$~Dd>6>G<;6_Y!y#uu3tYx9*R
z#oE1U#8jb{F+RgA94Qd|e&~2WzjUkU^kXpdQozHCVHHnt`Jv<2iC}=|4F+v8JaMr2
zQ~_xNrs3hkBp3zr1dFzRg5{0y2w{1IYXYv7H(wxO+YB4Bh?7v5THkT)?u)+YHD&+>
z6_3Iyio)Yu#k#VG*A8a3^(cKp2+F4()`Z%ncUp64bi=!kk6znLs<L=11_{AKLM24g
zRpMz#&#rxT>Mp9mMJ$RS=R8?)d2+6h;tDOhI+iRQbYa&_1SOqLWIIUT!{=E>E)8HM
z^p)3H@Wsa^9c_X46Fgb*lCN!!0d0USR|MVwb#Un*0JdAd47a8XS<l)%<R53s_HO-g
z>iTCrw3%UeBT5O>#M4|6MA!O!sAZzHz^;bOvwP9fl{O4)9=b7#I~wHUq7ai4Gr<XP
zAXV&r`otvUbr+xdG#A*oYCDsTMNfb;D<P=%qyWz@l9q6l`p|R-l}wP;V=!#h47MmL
z%c2Gu4O40K<|L!1g~+6o2A7i{f(I-<8$AK7ax!>T#8;r2)WM)WbRQNZVbG26Pv
z+;*=koqvTjFF<sjeCqc7!O404-PBvDh2-_)%eDJ%)gJut#Ik!VYXZe!b-iJG-F9jB
z74L1!=DekfruJNEyKQM-ar<)aF2&uoFtO}@B5S(awq?Ql7tJ3uFSqT?wGAn4Ls`?3
zE2vmD=IySWz3G;{DZhDZZu3rM^UmzZrM-%yHSh9eotlUjg$%|-2r6zW;=L6j4jakn
z;wU=SH(<xe!@x{NeNRKFULVv$BT*6bvk%W8>>Gv{Krwg-0fqiDjBJht=*5C?m7rR=
za;5~he!yO=hbIxkoMDcw7)1%jl}524!$415@xcWQ%^W;4uG@a;!UIn(KKkUs9fPBI
z48{k}XxiIZjfMxRv+x8tJ2b30z=F}#OfZ#Bbsai(WW4KPkqT;}EFpwj!`EP5w`zt{
zfsgj^E^j^+m8hh?29p+tFrpG{jKk}$B%TL`$|d6PcK}8zm#P68SDDi)b4KN883f9R
z*@}t~Ys_w{5YzQV|0Wcbz7G)ys=ek?-@Ns<y(RCdy*%*dz>=f+uG2qnc<1<SXG?x~
z<fl*Fc<LVpZhMa082C~D^=;RqmxeCMIe(wx?^_&N_CKk3pZsv(mgmTl<4C#Q&xc2r
zJ)<}JuJ>QspY!%A-rhy;9Vplb&~C{wy5gzL9{Ot4O1#f8U;VphR6+sxyT*M^(~aJ`
zeI71k*N&wKY*E4pAHq~uBoa-f(r~~5FvBaYhDUJKL{!Yw6o`0Q>FSAbq!8?AP=eYr
zj8G&cyrlj%n1#SH7l4`1d*9r(%rzA_*4R1kosV7Vn?Lnd^D2R4!QwF1UXd4u7d;CH
z-}~Mwf#hnV)#%sS#uh_us=f3V9fBm{DFbi!%oMoHwV~l&iO(Y2JP`%=^HiKdCe@3t
z#@(8Cvl}kBaykaM3QdL@C}x!&l)LF$!L%GtNE!(9KT<;T0#mT21|P{y(+BBtH#Qs;
zF1-fY&>gO!IlK&McZki8Yeaw5)`l*kl~sRbVePLGD4<m9A8A?l{Zf3W+G&1qLSAfs
zBjw0qG$rAA0*8NuE(Vx;?eAMeDkhrfjN=q2dZhclRu)vtZVm7bit|to@uq}!0B#Hn
z^M#2pE&ocIenFh~NZ>z6*F7?Nk8FFuS{U{Lf#@@gzNjJ05Oa@=+#}oXk=A=;*S}f4
smtI)5HlH`$HyvV`XP7I_`-BpOFh^MX19k)BFA#`U4Uqf{lT?KM8{gswvH$=8

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_tokens.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_tokens.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d25024040592d10e8c9bb7f8ce4b37b8e7f77df5
GIT binary patch
literal 10031
zcmcIqeQ+Dcb>GAH$AJI=5CjN<Jbr@Ur$|xamu!)iWJwlD*^!)y;iM>pJ4&GN!Q34!
zi9Kdy$4TIcI+mu>N}i+>dM1C!BXy$w(T+OPOd7WnyXikTQ4P))X{t`unWi(HflaEm
z)Be%7dv_qk(D7eg343pM-@e^@`*z=N-|?S39v6a?vwS~`5(xbpE*QzG6B{lHq3ei6
zER{n^?MWpmD4TMoyg6y6aGe=wOVUbcOU{<JC+&o`<{Wuv(n)Ar&Xsp3-GsL1=)5QC
z$=4<8^4_F3?@Rjf^~w6YKk3g0l7W0M8O%2%8}gxKi10gdjrnjgoR1_Ur0mQ!<)g_c
zp<TJ=d@R{QXm_qP&m<W_)48^Md$OI-o?J)1GucV#x?ESjJK0TWZ!VtiN%m04ggAyv
z+=6$-DcNg6M-l6L6S4JN_?B6(?Yl%J{J+74`2?lb%?OtYnWJ2R<I`f1hZ@Hz?wiY8
zA;SS}{|crB5lH$-;cT|R9m-|70xo;>rrF}zvmBprsSStDrNu+V{8Ek+v&90`zsMKQ
zsG(h}1vR#N{h?w(gaK5~5uPvdU*UwMVnN_kuRcRgA64~jRp>0Coi&Hf6|)&m4Z<|?
zOXBI`d9LuXkUq;DFDw+*MqQ9G!W<{2*|eBeoi(0>N%fpu;tDgzPjUQf*}_@1A(Knz
zmr_eaU@BKU3)C3_lo5D}Z?4F4Ib2PXK?Q9BP<CevSrPZc8UyWuj<5tE4Q-xW7MGT>
zdh1TXNI4kv#WbJJV`28RkjiBRF{7=cme=crjsFDVdtl-m!e*T`u~gE`nri>dKeVzI
z&ca$bD{JFytbN6f5bNOVtP_4N__^UnbM^&a2`x~p=gqpL!-?1^TgN$BFXz&G_&7I5
z<Gu?vw*F0P(nH$)Tpj0S?F*&|%z_PYJ~jxy2Ckm<aWv;9{4^VS(~|TPnT=e43liQi
zPz_v=3+a8yyhuxg3)aSLTyU^WFj}~TE>g+JDU@hdJ^G?(DqfiaCBK$sIf2nCnB()z
zfoF}v$(K(v3(JKJHq3M`D_&y6BJ<kp>>M-m;_<=f6IL~_P~<aQs!&X^oQO>&yTYkW
zJSQ&mg%qg}Qm_DoN@ZC=^};fyIBcXTK}=`PtIb>?eI~~l)}i+SY3XcEQ2lx<?o}j<
zET|riY^hX+>?zfjCw8OO@!F=-4P~B>fmZnzoVDVN!C4z*8GTD58x&wo5H4?&Ap2A5
zIuhZjrMH|C`eQf>B}y_$X2~kqZd14Pqme?AT|z07!7DkSWXMI51xl7$n}rXF<gmpx
ziyotX>&cpo!-qnb;9tT#pRn@nz`%FltP^LoH(7b{G}g2*P%PvwG5GD7tiWiBV*454
ze0FIGb^udbku+XEMi99r29}G-7Ba;=X3!NT3?}TVRajo)c-4_gk<FIcQWw#qYSXr#
zYRSSe0LPX^;BpH)r}#x0SDh(Xt+XJdQUX>4W2DQ!of{JKOG8W9r2#R`pXJ1Xi_2pZ
z<LAe?p<MRN(9$LGT(L0pS}vC#g5!<9v{cL%L}921=Sw;}BxnbWZfJu`m-skHUkN>B
z<AcU4^+22O3S^&MMw?;etb5BYJHl(L3e&Ch>{mwTmBe_}iJXy5WN}VbU1;DqRkGZ7
zB$W11{A^V^_Twk>k-Oyq?SK2kTPLcBiu67~l&7z1Ms({22uG@2*Q@I0(-%@k!KQ7B
zn(<*)2mHPbzm1DvEGG~J2a$vpbw7j|j3iNpfqWZ0?jM1n{h8^y`MXvtS~W}N*TZ7X
z5El*KZFGevOG)NiItLi8`4k=n8~={9i088-@u4r^tr_%Ihd1B|T?NzM&BP^&HQlbw
zf^gMs^)#qO<6t%_;3-**cVC6W7^DZbHR>d6P--#wyY<Ff{{a2DY1Jk+8XT~dtu?83
z$;8*gb~Y`BjrOf)s<vH4Y~3WmSa>t;NVjb@i4Ndkb~Horbt{V`2Wvk7w1_u0NuU{r
zF;6}UJ@IbekzV)iUJue7SQ_Zv>4bx7v3o~HD6YCdXV~_4Bp#fY<VrOd)xb4i&|6Q*
z22yu<TgfF^Zo6*jha6ay>9UDMg?5lKwAI_7K(~7gdh2QEt7g+?-KO0jWjFiWyVcjA
z;NW$^94(R?<~eHAZar_iZ|RbVhMbp8FQ7LlkpIjUk3qpf?*v&^$!;9;J7;zZjiIa5
zmA@TBS59{zalg^C6VB*W8l+AbHCs<{%Ah6Mcw^(4F};G<j{X*XN`GFUE})C%SI`9t
z#+dm39^)^}7pMe1zY-v@k-3l+&k=``W4eUX0G=Y?6_$#;D1dukNH6EaR6Y;>l}`&R
zzOx$m<pwmDJpk-3!v$wqDER=S0fOA-{C#;4kxhZiO6O7pHo7wD%sDP4q;ul)032;g
z1h%O(9>X{~6J~xKRH%AHJ`Gso9G7M}UQiuNe748~C`q)cbPA+o&SS}3j>pEXS_#M?
z9!j+nnqyTL3!OFip$1a<^rbUg3Y<;~Fzk{DLW#RoT|`W(kj`_eFLfp@aK=;s!tmG#
zc^?@95R3>c##`qNFznYrzviYj7^^yong|AREO2Q6NSvVB&!vU5DDphEB-JbE;5DVG
zLG!#YXVMiTD>nu=;GqHR0yZL3e_AQ_ns$uk;U}?Z*H_cIWsa;ez;PbN=X4YX)6nh;
zW<liDD0Zowf!r3Bb2%8qxa4^FUi|KZIK!J<^%A}6x(EM8)`_3S?L<q5Fp~k-G;6@x
z60jlF#PY{5Ki)Vh#R>ShHP8Wh^8L7l-afCDrl%eJ_O@x@7BDXR5A5c_iMMrCm|>Y2
zz7t<(CM!*oC9mRcD!aR}2cLawwj3F}<GoK$D}nYh-46V;ui}o$?pVd$b<f?U_(K(c
zr|j>n_=jZwP?;Wj)EF(%N@KLrI3za?-LWg(z2N)9do~ai?k~|*8wxdDfA!j{m4-gK
zq3`DGdc#D?^{64Pgqthj0XaNy^Zebh%G8`ZHMbs~FE^g7nyJuBRLQkzL(O~dF5ZtG
zFFV2?xkJkEOzA|0j>&ZFK0UbUK#{(?M=J;B<O6f}!}BGN;`UeEQP~|WyW`59(b8PG
zsb8iC9=rWl$8OBtcPDP1tqe}fgVW`~S*3Tl(tAMeJy4pv0Zeh2<uPiOf`O{0M(2K|
zrK{4iPj1;)I;nUA6>t2WH?9nfT=m}f^*#cH(9JU4d?TsEIxDe3IX0+t?p1pCSMA6X
z+eBv1IH;|AxZE}V&S@pqR*8+uvC%uPR`wl}_Z?f09skr!9ejZ*&B35dXQg#mZXK?)
zPRgy5iZ7=4S`}ZD5=$s8eM*F>L=ti&QS~5ZY6IDsx-#8dZMMM#10Cf6);{D)Bvy$`
z$dL)f*I14uZcg4=QGCpX)zsAfDKZ7ytH|VOug;iIbn5eJlEPzu4sg%c^a-M{q{d2M
zKn@Jt&fICcwXh!8_s{gc|A94d?*DDI4!VC1>+t2g|0}!=hW19ou}SJWbu?hPao7Rm
zKeWv-N5kkB6m>LY`Gsi+(<9BtT<C*3>X^gwf!B;_zX@1B2vN}bLD+fBYW|=tatxV2
zn4~a0Wrfxckrn6<t!7L+DCqT}%Xw_f{9zz+Y{dLwKZWT5!Z~8a^cd#kPs5zForkvp
zkGEfDyC21v?c4C%_%5JC4R4Ayv?-dQg`~wAnlx$<x}}qb=UTOa-?D?x)e*oJCm;^E
z0!yY5wAa9@7TvEqCFiRB3Jspkz8@7{2Jcpz-EP<uylN1T1zL1(m#)!l4H07>dJ2iO
z!9#p8#yq?961@hO<TBpGc<R2`^(`0i#qiwn#gbja4QJ7+n>B%_w=ZH3up=Et-}ouK
zy+`sa`gb%zakUQWcfqKuUdgdrJ>MgFFWX;$_?n@6f?H}Bc54KwPWl2Fw=G8eYSmW&
ze75Qnag=~0m`#&GZ#^X+)HiRH4T`6CuP;!nRmAsel7MHIH#am42wAt5)q2Uji0|S%
zl2mW-!n)JjF!Jw}y8=#QmA>*b3tY-~L(kgUZIiYumof6HAEb2em>3ja4@>^1WbDFY
z$RIQFix5}UlH`|Y{9A$IZF_A^0$`=srS3?49A<#s-j2ja#TvHWo#VE{n1K{X)owFV
zK(eN4>n`py#6nO*L(TzltX5}V#9(Vjs!6pkVmPrQ-FDu>VH8NKL3ks4A=#1m64XDt
zqY{d|B)MVNT!5YpV4WeUVK<w6O6$AqJ7ad|;oRaoKr_4W>@FEAWjBk3nS=!D%G~a=
zUYz;eH<8S&OTzQtW$&<V)_t2c?jaPqatSOocnT5p?E&<yMTZ$SD`bj=0+$gvmd9uC
zO5@=y%M^+tqs6`$Kz{(EAa-izk3hRhi^U}j2}z~eSXj>MQ8GYq+Zrqa6cZNJnk}&0
zMb%O3;aPxak8lp)ZCWT6h|Gjp^=ME{M}cZRgp2g(v{41)iU8p?<PT8aLts2>RM=Hh
zmR0Q<&SX_9!P8JCk!3-(F5`Hz>eYv-&BlNJwG_bFg0R5xIs{hH^9dVqX{z0b|M@gR
z8w>+#{u@LWSph<d@FqC6rCQ-4Af^*-su==CszuD^IRZ3sJQyPP*`iu^C=Jp2T#jQ2
zEap#w5PlwKFXC(wXIRPn*CA6IQ#xwa-npi99!D|wS8;}C!Q&%UwWXIJK*g%&99Q7+
zrBn^WmjSq&z-#Te6Y)6W!84er9xvZhisZ4oQX97S!8b82H0p!3gEb(!gew6=_Aqwl
z12{X2vvWAZhb)O7s&3G;5kpNhZiDi>pazxJ*Di$>r#iKv0J&>AG-K*zESZB$4dRI#
z_YK1cRGYR;x}id0OJ_u*Zp|FDdmwrDr{0raz@i<s>xoTc=g&j6fSuq|w}h<%xi9c9
z0mDk-i?0c(r>{2O$3p+nxHWA0Q8@a;(H~8`Gx39|^~N~h{ocWnlYr<Mxp$`Ity%z-
zeiR${6heQ@)r`{Idd&$K(!+cv#|A!o><v}CU9z_eBhDjK4RV$T53L6d-=hyd@J7BI
zi~<ael)as0M<?Wu_KcM5N-I-#G%KOjN+^Cm6fZrmgj*`%9y#1oI<7?9esu7igQZzO
z*}hgC!Z&u58;8oi7s|sgtV7;7q(oaQ(J?tXrnJPBwgIJos?vX0?mrArzIl8DS(^RV
z990@MGglptoAxN7=Igm@IVIBeC=jUx;`ah^xazdRU18*2%ZM_t_d!$JT6d*=L~b8h
zZ`!-*wnq1rPE_lVC;0aKTk|)j?$dFFW`2C=rmfO5F87SDcTUJO{Aa2|sIjLy0&iIH
zCS-4-?A=#(?1TJ4bL*P3!c5A{<a+Z|*%49P!HRo8b`O-@6AB&sabWG0O4m`j>*#vh
zF_}JArelvmO+6Dz|FjYxSDFStHd8%An^trEo|3idAlJG6d+z=_k;?Gwz2Vu%z0bnC
zS6U|ImWfR>)i+f-0<#3A4UE8T2!g$j109Mtq68Vm->d|qiofwe^YEQSW#oiBa$>!C
zR%z|2v`)#bQ=48#&{c9&Lu8Ehd+zo%u@axW7oYrfQ`=SBqmFpl$0&iw^#j)q{J3K+
zTj?H?yT{hs$L|HkmH3`Yd|ZYJhg*I`zeD3mcmGTG(7Rbsa6{K8HWci96bx5_aXA>T
z1oz6py-LS`!n7-i38lNg(mg46Pbyu#N=pY^mKsK%AbUfo8bHzZYA5oAOWx0gG??@o
z{U<2uC#D$+{iWrg>943~Y=3P&X!;uqRQ!}WX!;oi#Lp20Oh2bOp9`3O-etmc+=1z#
z$a8h(_Z<|_?>ntf|9+hn(}APULgAPGA;`4@@@p^@{|aQ8?Uw-z1o4$(<5v{^hz!u#
zvUS<m3TT7-{}7?C!`@r9!li<eY$R9<;aJIv-SetLa=h*bh+Mm#K&76fTFBLjE;mb-
z-Gbku4ox7CY`<Om&SF3YaK_URLbQ>QoL??Mbk@dpF5>Idjs##GJ8nqZ-qo>NK->WJ
z#!L>Qx2<oxGUl@=WBSIPnnqlbnNL7S(oDcj=e7%secN1Itc5_C-#a4+dFyk#X1X$B
zf$w0eu2n05a$U2=Oh6~Uv>>q-iibe2-Do=nv!nE$7f`~n5<5hKNsRU-cR&y?<+vJ5
z8C<DFy(R%ASc&h%z6o9a-rxV-Z@?~4!o+_E9;#hO0f209ng1Tnuwg+zJD?)`bvxly
zogDZY{LP(H%@DZb1<Z!uS~cg>7fCNbIU<)Acn5C6%aw3z&W<?qnyson19zl!@hX*7
z9b}3)%tvNbk3X6L(Ab8hTzVCJfm5j^!3_g2TS@aiJXEf9J?(wI06+W}unJz#1O%(<
z&<u452W1{dJJ(+MRdndB6Q!BbML6)+95+_V!QRplh3UWf(z{+b_7pEu_V$$fpQ-fE
z$o(@)uzABw4YVk2UEqiYx*z$NiZ3qv;tztucdhq>(@)G){c{u?bS*<SFUqm;tFG-V
zaF9G;I@VsObncfs_usXzGt-+c)HhllJyIDxA&;I|ADz43JHP3)cQ<|PKz%2vcRSbG
z)?WIkb-%*2l{=^IF;kmv6dO^x`yTZ4-JH3Ze(&&4X5X8=8(;5v?!T?(SPKjd-9Et*
zHtnv4=o7QMzPZ|fn)hrDB42lT@Y(y`gJs9T&o=_VBH+lt`wjaJbp;dDe4+_|nZyCv
zR7!QFaGZA;z8R+=@SFPPayqBC*i$LCm`SC0+?mIBZ65D_)pDj-%#m+{JPs4^R-6&E
zgqM&1D$ejG;KMj0@DE=h2#V1Eh9a9W{=S1RK$B`=vl)@cIE2_3kC$Ba=$|<;tW2d6
z6yFE60ygt$%`ougfX7)EZa4ugpS_7bvK*=U5FF-xdlaS%;%-Vu&nFEbYu}^Bj;a-&
zpt<_asvT1<6zRTck;DB}H!jksrM>FGR2}L{RK1w;p{AB<J*NC9-d7D^Du`ljPq4`9
zeyID{ew?!Ie^k#@t(XAuq1X-a+8<O&JvdEQ(~UXVnb>fW=C7Lmkg|peJ0^fVnz$Le
zYbhrV$W6~w?WEFy8p2g4Azhes6Ou;Jk*bG~b;yOoby%#IRLq*u(B6-ojCGoN6lh=D
zD+9W);t~wd*uBQy+<V7<^MKqves@&vJ}8H#t9H`rK<!;?;=4^%(iJq~Vm@`_7Jk6c
zZla%G!gLWb)te~-$R~fpAPlC@WVDsWo{GPL+wBW!h~qD1iB+gU{H=LV`wN3X0Hk6O
zx)Xa+8}+8zXXrsVLEukPG#g`nr&aq%y(Oe}Adv%$C#FZtkys+RM_{~9zAcbzf!h5=
zGI7KkZaFD!o;-H71o(e>4{{X~$lg$WM7;JjVGw_g;qk{n{xH^xo3!aK7{WCkqXx8c
zMj)oI(xgtmn33J1D{$wR4D6lMDB)ff;SW0ow-zNuD#*o&{}ViZ56<u=c@JqzibEl)
z<AAp5pXJ|!BHmNN8OY$Uqo@rVqP)LG?uV%NAsYL46nz2}gAdX0rzSUL`V`f&FrvOj
wJw(qxL<b+Dj)$o2A?kjJhT#9dI)higw(e}XY}>S*GgH&l)ww5#5M&Pj2U|&yNB{r;

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/serving_transcription.cpython-312.pyc b/entrypoints/openai/__pycache__/serving_transcription.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9e574e6fd4e42fb9503eb6b92b7447f9a56ea785
GIT binary patch
literal 5567
zcmds5>u(g-6~D9Z*_U6t_WFUnfO%|yT?`?{G>;NW%p*VqR$Gk}jm9(A_Jo<8<<2a@
zu2azjwM3;-zBEv&ANr}naZ>T2Rrw$Kg;guD9f3sEL~6fnYY;S_dd{6$d)K`3A*rH{
zy=Trn_ug~wJ?D4NIlF&KrQ!r0BlL6qLY9!fW25<meP-nrFjt92G{GRIAPEBU0V7}r
zr6A{nM#v0HVa|t)h#8floDUl@Q<OwAF2&7+lrWQ0(o9JyGcBdf4ynWJlse5Wsmtt^
zy7~Bs(PL($4CkXp*6fvfIUh6n%$$_tylC{B1JZy%0)*!1;IiQDQW^@7NutFs5iLP`
zmxI1^1D7U2nre{_&!-C=|HL5$!A&2u=gaCOEmNjA76VE2G(A_PwgYVPaCufQ(?f<%
z%h*o&U2j^mvy>I$Zt5^&7CTMtidD9$+voQ;1t+MZXo{n_nJK1}ZI$U2N4LuUC^x%K
z>TB8fMDZDiQN=toXXz?+2it~tUCl+^Zr*7qtxNT^$^3;zo*-;nroUxC`yybBo>LWC
zK6vyDW#{$s><LSwh7ICwUtFP7otv_z=moS~LNDu%Y<PBCGvukNQ>i+t=Pr+?{l?1g
zf%zFAj}l4Hh!oHSDX0bbU+~vKEkr|Fn1;0ojcCz@C?Q&mMl}&WaT=XTUM4ewmbjFb
zVp@`l;QzRmrU|WsCTWVMwdhQsAN1oq+JST?rgdHlNu7LT7wv*k-OW)rQtO6UJ+w#5
z&<tp4(J_<MvM@7ynOqR0-ZP}o>khP;h8wZz`-PDsN?9|gop)Lxk!K$0?BW|sL3e;r
zr^?E*W1XdCTUKn3lXcB@JHUuCMcB!<qo`-y0a{k34JyxAOr^43R*kAg<*KdBQa438
zfMt~<*o~OnOK#d<&3DL2mV*;AJSH0eqWbrTgrFh92iq%qfc#RpN*s85&xg@P@(YL)
zi^5`HF}N7ggvIb;<kP@1*b^Ut%#%X!q#JJ@b($_k*&y_=AtW1+;L@(>DE3*|nXk~b
zT`UFMuw4a-8<XK!03UfN=7wx)%sffQ+C*2B;lPS*%d#B<?RoFH_~lf|F)O8tUfJa+
zY?eB^E>y=S_MaW6B}1PsRpy;Jt6Vy77-k8sJDaaqdfBl{7QkH5OSXq|xp@|TlZ%yk
zHVR8DY<{}Oi_P8VVW7Pe$fJwoeujwY52LkMu0F7>-qT+nEY!ChtoLrJ5A6V^(Lu!i
z2P7uOS71DG<4RT2Et$uXsP8;C!IXF9W+UQ3Mn#u3A9TY9@L8Dwava=ol`N8X{E*ok
zgm2G*PM|4+QLTD>@u$MFpA<fT1n?sO#m9lG!Jmf1<O~@nS3;i!-xUhM1-A|F`GapA
z&D*-E8w$%iR^GGIHXG%|c-;3*{tTu0ImfBk2TG+1gf0NHS@bMlR4uclS*l%9D*7%)
zXDFj(m6o_kN-9J}hqf)bsuYyuojK}lp+Z%CMpt=MEas=?biReW30qU)GQu!#YwPYM
z-)3`{OJVi`7=!IVf}X^i<ONd?ac-Z@!?ZlxOenHR0an_{LeTA%z0JxtkBxArWe1`o
z!yN1mx8Vw|Hb(n3HA^A36&Gz^-bOFs=Gb=Bk@5AnsahyK1Da2o@FJ+PUjy<F1Zty`
z^bXw4?yhBb*ZVfsGlTWq<~xJC>!aImk51M`CmRXUJGMe1z43=6(iv}%h=`;!{^d#%
zbiBWPO!!17g_gr(g4+qksv6GPsoZ!o5a}BB^1O={^Ri~AkNPU4W=NZ|twum)^Fgx(
z0kSLSfq6c<7ek9-O<2RYvx;yCSQsYYc`vdU*+ce1fy2=q^w9lYbTRr_=wsokAdo8^
zfb{rF5ZFAlpIqo^vvyIPtCr6$#W+OVtfAWuT+#MZv;D9Xn?P~^h}*^I$ky~bRCRa|
zbca@9<pV+GdEW<F))%f0;?WKemR|?0$6&+~xGFjZw#Wg+p*)V#b-NN*A?$|v23upP
z2RODD<}FM-17B^nd2Bb|gX#83AWfuY`)_9^YMBXy*`_^+w+*}Se|Ybm!m&G>UTJiZ
z?12>`X5*K|e`UzfmWM<Tb02M~clTX6-UtH!=vNc}S;6G;{^*48+t7I66JcLuIXE8p
zU35bDgD@WWV_-rk^kGUVD<+j?H!jPN6|0ayWj86y=c<a~_e5nG!j3F6jC!mK3F6NU
zO<R`1!@e7yo_DCtFh?@P6Tiz0)1?~(Cozn`Y#%m52nCkGHiFF!&lr~Ca0|LAKVPZT
zFd)eZY#WTQF;0J%Uu@Qk(~w}sv_A*(=o0yBr~sF9=U6?zrM_eLzq`7_@q2xn8)0}i
zBBX1y5k)Re`nO&W)p9!<32Y|GmO>+iT$&6FH#(5(1la?e-q@ZF$Lj+ljUc{Xc-4EK
znBwny;_z>VZv<~l-4JUV57fj1H{Y&_$5z5Hw2|)#=k9fFX@uboYY&cG`|)-2=G3j?
z!P>~{wShy8D0ak1HrEi5i<7}UjRbN@GMI0qkV}(z?ppBL)HSgtZhF`OB35V~TLotI
z`F|)7bC2H{uU=o+&{iIL!j|HY^?@DMl|SEf`6lvP3|pZrkE?G&vIR(MM7Zc7bri%4
z8=rQ%)l%qfoc)|qXyf`)$iqW>24uTH)3>1L`O6em^S-<OcO{Rv;MY;`tZluxs*aVw
zxKOz;Ed3eYJ9nsw1)h)B6)B9D4j2d5YLf2O62n_$VaHSP@%Z3#pzV3pNRd|~hijvU
zpI(iym+%ZvNOa%Enxd=4%3ejmUWV<1Cl2B%I*@cCc^ydWEzEnj@cSTM*!NT`w`hMX
zC;tRBex;l|cBgRU&Zh5twVccjgWf_Pdjno<63G!HN0GFrS9T0#7)RJ~Bq=0_DGorM
zTiKh~<hk_+$elp4npzp|o}mfYDI{+JX-%f5QHVssj?aPcWV-E}O{On<$@KVXKba0e
zid1jBcwMiJ?5~OYZ@y9!kF+LJNaUCmzvg6$$39sYaXVDYFreCmTWlAVY1J!PqB9Eo
zq)^ehx!nwY6E1o`AQUUiax9p{o#poVU8`S`i{39gUVW5*tk>dSq1Tjf*I^mtRZdvR
zuT`d=$1&Qh0o~pDG@Z?_<=!tFyh?k<;Px+G-LQt6;F|sY_n;)nB^Li_%Jy)DuyrH;
zAS}c<fR>1tlD1=S>}9Wve3fa?#Ny3H3_?{Z2oEAe*zpA!{DSPdOU51s5<=i1X_5yy
xB1{T*$>F<X^Ifv_Z(`=7AO2Y!z8JY5IUwY2ZQOgG!2AA!fUS|S2iW54{ulMF=0X4f

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/__pycache__/speech_to_text.cpython-312.pyc b/entrypoints/openai/__pycache__/speech_to_text.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bb91f2d35893d1103a32b20c0a60753723c3dfe8
GIT binary patch
literal 15387
zcmb_@X>c3Ync!>O_YEF6NB|^ALA)jEqApXS4oae=Sn`ELh9Pv50)>O>Zdwupcs!10
zhni^0)J|qat(_IUJG-Gvnu>mHX=;y2;)yNWTU%&RS+v_yEwkgP+WdnerR;dJwfnu-
zXz(zc>~75y_4*y(``-Os@53ins|i8KXuh9*VGlxok26ZpRufO=DTJ=0=Mar(Dud$k
zmx@y)uZpY4R~=WwSC!FZwQ+4$7uQi3PMy(b4RHfWYcj^HDQ?P|<L0a-Zpm8XR#Hx7
zY;illYBP?kGw!UGxw7uKo1}FaPu3gvlC(b4kZp`NlC&Yylx>bTXMJ&B)*tt01MxsM
z7!PJ!;w{<McxyHk4`svga5fT;5O`yzE!!S%&qm`>k~d{KvYqixk~U{HWMlCdNn0`-
zvt98nlD1~Lvpw-1lD1`fvwiVClD231vjgz~3K`|q*c9Ky1en$tJwow8#>{M?ox5Q9
zREV+AE@tqy`<6;x&G=R*>teRuf;Gh<zFmb5A=>jMqP<M}Ep@eY$7QMwF`L^FYo;)k
z0oqY(vFRmrb=yUBN&OPKNW~g{g_|6YsU+JlcR80j#N-$@$>&+gus@l}B+q7;7$w<L
z$<#T9PE4`+DTd`Q$25}uSeggOjAT50d5Rg%q?4Sa$I0iDtfWaLIUd^SpJgsgGbCv_
zkef*7nEjbFlfzZkYSpp)#00~}Op;}U$?(ZBhU1bGjAT8)vU&DdhMUUgI7Vu$LMsJh
z44<Tvd{XkBW|KKC#ipnDbUvq4OX0f3r+Ai0X7``Vr&EmNUjrgn)!MsBWhS`>X=|Or
zH7J``0jxu4d=5`*G&i1yrM8}!VsgWyrx^CtbZ$a&pPFKr)Vb67)66A)WyRcUpvLkv
zli^_DOefiVc8bSK4LNf<m*x{0c@Zhedun=WD$nxVn#rwN?i17e)HGgy=gCYm#hlA$
zXodyc(-}t6XVPccJeQO_YX?-_1L`z1)1J*w=jfDt&g9rr%{=)44&|T1Rc8>s+;Fie
zxYQ~d|5wqPcQmw?(a<_ZOY0dOZNP_}HZpqJ#29FEGa#WYkh3!Saoa2!r)b-owz!co
z(RR2H7F<8Bq8)E)ZdJRBTWKd_gX>`j2nXY2To{INkE;l*j&{GPiF-&rhVw99xFTkz
zf%MeCG}4Vs6Vpr^s_>*0U}{)hipR+Ka6E3In*g7m^w|u(H8BCDEy3smTz)1<2N*XU
zgc-Gv(pKn^q~P0%OUSH4kPG1)e8aU;`|6&@U33`wi@^BXCJ$Gqyy`<om?(_aS-%$J
z9M{opfT4qKuMa~<0YeAD5*;_todDZ8i!M>|4X03SgXF57zEwwa=H$L4$AnUuB*%ru
z^K6JCl|6jEhli6J!nA?h7%r4apJzh+>Z=(_=4ew00x6YmR_{T{qyU{|fT;LbhM#70
z2|j<G$#ID!C#Mo=nv;xtk~^Q^;n+)dIPVDt6Nm)ICsXGoACtqBDglE^F^P08m6@iQ
z#I#IF7(#dwDMEQ9U6x!V$;Qg0sd{&gvmLNzY$rr96&r;Qbcn|fBW2hPxGn}!s!CxI
z=5BB-5Y9h23kUx%sq2V`j2x~Q3h2)Pra%=`1$9AF(A}nPRXHMs3TRTJK(2fzF}`&{
zIqU_LsI@3)Ay>r(J)lX;x<-(lw12&<ey;_s!dn2VL1|UcL(Zt=c;$+t$p)ot<qMFt
z5kMa`94ioPnD;5U$)J*2`O>QT?Ua#G=ra6^sgK9B>_%wDcHyWSM`YLV_RMTO@hZb!
zWYav5)DX>#C#N%fC<UZ4!(b{N;*yZWbyG<;nGIb`^XG;_Q7&eewA?hDT*;7tlLN#w
zAz8>7Nu=_*@$`h$IKl7<Iz2v~P*5ZY3aPQ$%er!ooFd6sMUvs9W{g3;EO4L`__8R-
zO-YWerpW=5G)(SQPHKJr*s-z1*zk*q;paw1PbBsq8$FpgIC|{BsnPg>#MnN`n@wIy
zB&X?gJ~5uoFkE_uNo3DTI++tlnl$D#MoGglnen=7hEMv+xt5FxxFB$^6A2D)JHDtm
zy#Cc#AD^A-n@Ugh@JSZt(Q|2f+m7w$w=sRdE&8S|^XKxpzE?AuY#;D-_VQFdo#VMa
zAO*Q(x^L~Ad#5h5{dlYVU#Bg-%Hj_K0Qc`8`to)3v;i4ySM-9RN%VD!?q<;+6FY~+
zKv%_#jLlDx&S<JQ(1z}E=XRlUd%5$Z(0OvH^VwO=14Fym9GTTzwJrNvZuZ{jE&KKf
zzI~#_QMLpHOK|@36Sc~30swo(fVvJ)xJl>d(O5Y;Dnv(dF0yR4m(88`&7BV|uD6a}
zIVw61iw;lO(JeT-f1_1fZ51`LY<L1AMUqaYTdAs4hRYDXuY@|h0*UJ&`+{_fvQ&}6
z5*g5ix->wM(uyj+Mh*DdjpB*44d@Ui@CB7}KY(DXkF!`r#GD=<w%XZ?>7)?eonE<w
zxx}QVLAtAEGx;R2e|8_VWCw7B_g>OqBFhFaIyH;sP#J*i44x633l^k(#Nv{fK%LF3
zb^jtjaQJ$@j{d>0@0XtNLVG!~S%_?2@(j)zAKKkN7<tg#D|q_uG%wkAmJB=Dy#Orf
ztHfC{$wwTEdNtAu00=L{_u&7N=V3rc5d{kj3yN#jg-JZ%b)i7jBfqt!S3|vST@%Q%
z(f_9&>R?cM$bocJ)bKU(3L9BHI5ah5CM3PK(JSLPKLTSg^H!yVuC;oD;%nr7(xKF^
zd{^*qK}9X^R%#||WL+tNzJa;aBl43?D=<pxwpuxW-+{AN)D`uhhQU9jltQcesxbhi
zH9~)+`y>5rjRIW+mRYxFd=S@#OBCA-Z1kI2w5$V%EMC2$v0&uX1>FRd^Fd$XuR|4d
ze4A2Q&?~!A8=+|e70m_H2s(2Huvxz0JVX@?E8hZ!t;;$mF#}r{Kwv<V_|mKka4t8l
zD}ro6b6b0>N-T=jf_bv14vbZq3x%$NBvCLIK<+(-+Ry;vsEaBJy##j%>OPg#!oOC7
zYN$J&M#urwdMtS<ot@5xFrx`!P7`7-r5J{0=w6^VDvkw}hPuoihJIsuNlUJ*Wa4;*
z$q~{b88XS-#55>DGJCAaU!YThIwP5ZF)9$TMnYO7=c~y~8ty(*t6`5pC+u;EBz1<#
zu{&_e^n5Zi%@BoAQl;~fe&1!D;YLret+-Z$i5$BXC(VR`GYODV8OcJ}`m`*uN*+*l
z^B1ceHFa(}cOGkIjukEo;^S0;lPti;Gaw|$lT-t<le`$wgseA%pn;WSn2=0QF_)Ee
z)hX(dQ@|GKm`x_C2cV8Uh@+KB>CWPzC)iP3j2Bcg(8>^Pbbd|eIx<Yqx@Gj7q$LIH
zcc2+(g9zyKsz6A#<b&Zc&>#hR_BxSdrl$@i|7P$6?&eh>T>lfZ>WT$<ny&A;wx{gg
zEVwt{IaD4T5e7$=+y`b2z+xSZWqahlJpw$_>U`_?mE&bgw_xdBe4*U)jL`GU1IzHT
z(_7IaqvxpwS?sej-`_j`f?#f6;LDxELg(;(^YBAgpcEWha_uZxc7ATPzZJg{pEo_Q
zwk^E+RENBQ>&LDgTWDAu`SFSOPL#V33EhVtcn)7VFgrZUexXOU_NOM~@t575g1d7u
zd`I=by?NHKY;nAG;>wA#rC+f0{~A%&U819De(>hr8+*(CodWzhc2=~=*!b9hf?adr
zYwkOma{sW<Km3#M-<`VWdjEx`{;^q|=<>|!KlA!$4^(uh!FT=TYcH3*I|T0zvB59;
zTQNE@7%m5Ug<!AP92RAfL~QN2`Pz-w#6V}ojv9uZAVY&~_F%<@tRB2T^ILymiBy_V
zL!jb=<(oH@?4gn&^u=bFOUc^yI}RW2H}-iB#;Bh)^c@VU-`DPMg3Jd&?ZFQH2N6A_
zB{Q46m{52r+&Ed2mnA)^kt601<>-Pkm1RJhqkB`Uc^BqVgwy_4P&sOxcD0}b06460
zneTzH^IhP(|3Y<L{m-;o;0y)bAFB$wQ<z6r4Owy<Ij+Zz*@ka`T|Krck~cufs;73)
zs#hu233z~~t`D?Yp@?KuH3en`?rlVCplyw_uGAE2ZQn*eR2TKUQ>iQHffiTS2Kbp8
zdWU$@rPQx{6EzNR#H-S{Qlq3+))V*^n#2;{x&W#rbz7%!r`oEk<y9v<*;F*sRMATM
zh^%W4*~#{=mlbWWnwV~_3k4gDq7GM5`Y+m{9xG<+0;rOzNvx}_3k7?@c-wGGBNqcV
z2fq52Bc+-^Db*R^%|!>`t9M%Z)**sy!2#IxfX}GlyQaF@ra?t3U{OtCrDI)SEg*zz
zVFj(w&QLHb%K0fU$rh}ytB#;IDB4tX7OcSSV=x+5!L<o(R!+92da~UGXTd$WX&rLN
z$`-9jEFrH8Ga$hgomV@63)fZMY0G(7Wp*cR<+mwKdCccXm>g14D_<CW^~@<>+V+mB
z=;3!OFgzC5Nq|{vV9cJ|c4gm`Z_!)uo<iT;=6215ytc(QG)G;1LgJlmXhqQn<MWQ9
zg|A6(lbB$w3v^A!B1Vxq_mqc|AculQnVs@Ysa}HpC|X{#oT`2=Qi@?a1u{)aRdieg
z8E4Iy+KJruPuLTgxo#_71uyjVj56NIeM)NO3v1%}rkT>t)$@X#s7cJw>YsenM8b2;
zJVz{gGTs0GH|b$1Lot?t1k{V46ExV$A!#PLd~Rmj{%Mv4^FZcuD4&A}>@C<x9jY-T
zu-j#meCQS2=9Lgw7GJ^bUXiFCU}7f4QkSN|G*^?FX4;9w7fR<sD<TcC?-2P5%E8dh
z!ANw(S_7h6CeJ1nZWyE39PEpPh}ujHek_(~pa;+tKm+9%F#pido&_lwNm^n|gjP5=
z<CdQ>LUft~s2r2x89EjL;SgR)Qs-sun^;{WJuy=<v}B^0BrO{)CHuOGOWqVbOn{h6
zfMJL-pOyt>N8&74U6pZzDU`)535-@emSP>s;=mrtFCy+lHhK9h18g0nR602Y=1Y#H
zp$Ypf9AWw)8L<FQUQ8r4NCC2dZpFf`ths||ExAA-Uu*E<*v+`H8JkSOREC$A2%D0j
zD*ZB&PL?SoeV)8CaAdjIIBuqa9X<yyLrgkD%nU5P*^)kqU!6c`x9v~nQcNbp&}3U<
z4YH6-<YThu41lxaIGVr>?ebd53l8QNHiN4!;|Omodlmzk6yX^pcZ!j`nKZ}a<ptB=
zir6E$6gwVX0NL~`+1F1UOV#pGfF)mtK$V|jFW~-c<LO*7Q`<let9+|O@Ks4!8gEEc
zH-4?5Y$jGu60ZyTedvK}0%1#*!aXP)Er$k#(7>I}rO;5>H#BP(&AyVkLv%+<AW)hR
z*ucy|!5l1`qxa2G(bZ6PwF|EHva3&U^_47r%Vt;E91+Zs(#9ddJS4gs%kCb*-6J|i
z!D!~ORgem7Uk211ylJ~(D>Zg5Tv+s!V|#?yp1a>&iXAO&I9BqG&6+;<Z@N4Az&~0t
zG<|Ar5C?{5kIKfk2bSK7#$?<IqH)>3S@46hu;kx0du$mDc^eK18xDz0t)f2)f_LmN
z^#rM7wl9#n%_dk{XAjNAK|nr5y+D-=!HOzi+zJDUbd<xJgz%<v_!%MmOv%zBwnWP<
z+l7|xq9d{}Qf_}nXnzKV-fEjY0pM0=*%A;e0ny=Gb~IkMU9*Xe9bzyBHbrX?Y>HOf
z;}+D~@x*S3+8)~=HFvOLMNV(o5fL1bvZG6Ibcr6H=xGx@En>K*VnojF-yp5i1v*e`
z2MF`lNCiP-klQWpxAy$mo=@EyMMq<)x%ZB#wCmWt$<@o)1nc15P;w8JEQ1h>Ztv{K
zXYD&mj?kx}{x1;a?3<5>o~HSIH;>#nvT)(XSUJ!uz@Ml0+6b&rbO<X~p0{4R^4db+
zzP$$&kYMNMt&zVP{LzkgcPz%2+O{vX?s%-%G`r@spaMlY{wn!i%iYuWyboe0mcl3J
zY;Ynxa5BPAwYACzv3*P7{d2ZucNi)v7gWf<^S70L*n_VCg~Ru2q%v*=tEjw=rQrSt
zmXX>qxt+QbzBRt&-tr5}mVc~h0rGdh?uOO)@~KN{x~v?jufu*-@xhdTdq33w<<k(+
z8l!?e3aXj$09EUv)VqJlJ#ybN^3dK)#`1d*{*D7d0KMTo8l|pNhfSLKeJ)7;tgG{|
z1HJE}4qG+vyY)EjQ$hLr!C~*H5B=Syj#01X=S?a||J>IE6+ho>J>ozgAk7i0<^v6N
z#ANtDtHx==@CK;(u%7~;4+okceb0z7-Lq1F^`65x>Qdip?j5zNKhjf>{>Y$(+K;SS
zoOY>k+N*_bKJpol=+z&!H6Kx_KiWm%^ll9Ku}TZ+kM$VxV-p2ker#1kFCRPFk4DrV
z58}Q)-fF<<J<Ugh>Q5ReNPp6V+kO(%;&cSJW&aG*uNsY%996?=)wlrk(MhZaiTv3~
zU}xl=EvA}ru4d~5V8*Sy*b)BGOA4ic!n5E(4!^MjBgBvFRZY`dEvx~Nr-l?(EtP=N
zYLNDy{CiLcWHpno3bhFFK;Pt0Pa(Kfty9D&P?zc&c#9?w7O^^njd69<$V(Jw0pX0Q
zr%Hlh&B``GT}^FMMg*&Bsb3CeURBWs>V#?pgu^qS3V@1aCrSh&>an6kI0}w>Z+L$^
zwqn+;4^f*jo>3jc?_|x?yE0m0;H_u)t!toEJW4K6MJKBTGp3WMFP1eUt795gMn<c#
zGQ$yd3g%D;lBTd`TXgY$WsC*aWKC&M$`ArWarHbD-39Zi{#}!G%)JUM8Lb&GhE^~s
zsn<=Q4CxE*RVuqD*D9CQZvmwdrS-}eRPgHgEP9|dDEtLo!C3H2PzBR%y`orxdSzo9
z_^8qj*3yjs&p-jF!Bq?eZ=$wm1@B}`fnNF2#@i-kcEtwTTxbA8h2@9pzt(`cg`%(;
zG61TjmEHM=`YJZAjCKOl??U5k>#gd&C^i+E>h}))+iD76GxXoQw*NoWYeAFnDzl*-
zFlwO7_<fhCQGZI*sOz9c)eHup{EQWSe6P}G62DWe3p6%8)KS8faT1kl%eqF8T~V+L
zK4ndn@4B^B<57aTiHg40d{@uN-xYO}s8de)4esEt@IeK|MGv|GFMB&_!Fh*I!gJa@
zR7qA46Vu!|kQ0-j=73q6&rek|F)f&|X-OxOVL(9?0~!*9pn{Q?Na!)OWR=anioohz
zdFob*EPS2^X;hYIvGa}<#D3W`0(`3Y86AFB8w$;+Os1HQeH%u`zJsG5;^<%D=q8S^
zWD9E0zk!crQ8484Ic6qEM0KozMY)hn<3m+d0G=3UY%>0DkDNGu;0*K;s44<{I?KqY
z@%ffKRqn9XZ6l~K5?I4@ZaP2B$^IPJ<AdiU$LiT*{}A>h9xJxDNFJ>E<fgM#YrZ^x
z@&X_m<=?=N_#I7_=Zyq_;JASc|0RyF<Sxtfc3CB&r?XQDtd&X*S;!{}A*ey)dC7P{
zQKyJ{#eNqzCZ_*ZMQA5n5wz3wDqaCVWByeS0&Dp+dkv%d=Q#Qc9Q^<y$x=NO3A~V!
zNgiJ=35)tJu6E+7uU;NbvaVg*CMAmx=<3B~{~RMw1D}>GvVc%khjg+&Ct1lk21Bvz
zrDv|PdA!kV3b)nZq-0*TM3Qq=2IK;GT3Ne<r12GK%wZM~`sN_(Ordqp7K+4CJ9smj
z>uFDGHLR~SdW!pB1ObHTQBQrS$^Xva%^f#(yuEX&v2)fU!VANhYiDLn%Yk6Y&@7U8
zxhYU?+9ot@yWjM}-EHNaF9<tdn6*CEAxChbu^c{lKYS2BczDW|f%}$$WoH9^;RshO
z&r!yXhq90#9{2+FJA3EbmK%NL#x9|;tJJvdVRzphb-8~;=pR|?K2U0kiCuj^-t*p`
za@TR8>$n)`UZj7Ve=mQRFYi4m>^%wkM7IyrvVd=X7x`c<p!ZHd2<$EedY;-)pmm<R
z`Q01eUGjG=Ubye?FM0Y){(dnSy7}!J-(GayczN#N=k5J>8~)b+H~t6h2j<2^PxQ8X
z@%eJkZlP!Q66kiGJta?cxiP2=aq}-b_T39U=y>6V8K&F0pAsW|;>P~+#y!HuJ>rJm
z@`fQ{!_ZT`rqefXer!R(O`y?<t^H!CTMTzESjCnNPtCeu!`y+#F4WZjumf7}6npoI
zv7yrL<3jAX+*JFH8I-C(xa{v2{QY-%81<5WWNt(ZL>2}YIu<o0U(YW*Jr!`ghz>oT
zq+sD6wseY-&0@zkF}$g?<)9Eg2&h_Jb9fZdA+a$m`n$!z1~Jeg`r1Wb^r=-Jb(I`p
za3pEpQf?a&+D61k$DPx#aqR~{{ZzF>Z3tGhxwX{VS8D0MqbW6PS#oTFSEqp?v8509
z7VIqz>=T0fpsN8}$r5;A>8Ug!d-#DNR5`DL{r&Cz@W7W(UsfRpXe=6I$LA~B)2_Sp
z-{$@%_rNkn6r62>d)t3h-yQxBx+VAC*%8n*=LhFI7BnSSv}}o%EYW|g7y-fWxaZ--
zzA@ZB+D!el(*RF}Kkd^T+O7HNX6n$8;irRYoZfa|H&lE$r~{x6hbSoeaJL#t?jhr7
zgZiFvSUu`ge`L`@^+!%E6n)g7hBW&epkCu{fu#a0p*;D|z}mpo0{d%0c73QPozG}N
zx>J8+i>mp5H73$R15fQ*kk#So2&C&e(mG8XHqXP2Wq$xLYAi?nUPv(Du>OK}5^Eak
zLV=<|W~0%csAOkQMFznB*##{;5GnXIGa&!NgHO$TT&wv#V^pLN;^2VU&bk1;K=1^i
zNPwWd{GKruj9(vP!T5i*O4QXK;JL&!vXt_x{|%uxrkDBRi!dh1lLrsFOma#l(h1oD
z3WmmWNpJ@Oj|bok*>p~Fg2!2ou0BN*f3KKnm9Y*V9?2vtlh|26vM6YAj!oifDlJ(!
z23W>9%+6UJyanVOJdcAoL|)isPcp1;t#Aa{?dT;an`y02<ZEy96L3<w{{@inHVv<`
z;f28;?R|G|xoy7yf8PDGCb2QHaQa7ycN4PDm(Vy0RNm=^=Uj_*mJ)6Dxs7F4L~unG
zHVLkd`?e0z?wA__JBzOz9uUF<cOpV~%YFNnWk<tx>ox2A<f3~q`QF*ZMxkZkfn$^C
z@K!v?(J*TTi%=jqKXYTx;xWO$efHSH=D_^77JN5eUX05G_U>7sXLzZ3-|P{18ZP_#
z1z-Oi-`(%r8(Q)`KYJ8LZ*{*lc4cgS<HD)M@Z!<Mo>Fw1;M@MdvO{$EXNN0(1S4BL
z*d<#>B|!R?-Ko?UldnofveF>tTmqvs>>ngjt8ZWJj(-J<26vozuKKW}66EDj?|xTr
zX<cu&diS=dFX-jxwG{^_np$<EYI<Hlk8c~e;Z${_5p<>pZl3`junh1|k8eDT51e{v
z)r<iiGwa+f#Wp~zF+|Y>T8<Xe434_m2{=?32izW0QG2xyv?h3>j%kv;aC8pB5fAa_
zn9y1H`9g@C#Sotdk7qbwAtD-u&R#YtCo_}JV}B9(1qHlhz><w$F~FlFM7&OUa7XT~
zK@YPN+)yotalrlzg@&;=X9yGq4w`;@pgVN>%o?ED{tbmr;Y$N@H_coM<;O$v<$>pv
z33z>3)26!7L!kpOoj(BoEb+ZwH?mQs53&wq`ozJOtVpdZ@`&;)SXYE?^AMKz0%iFg
zBqVT=8JE3p0zf<x*iB~Qa+P>ogb{($4WSZRaJB~DAS}hhQvs9A#mq8M`4~#rPjK{K
za2-6%Ok_c+0=c(_PO@B>PBY**!;|CfT&YROU9cbEraCzz>EuChn2IYq2w$1Fybpyl
z?e&PudaCytrZE2+z=6Vekh@_ny`V3-Hq7clG5{}-7q7jDiA)nvl|bm`i5n-%fx|-J
zFcu!clf&L!GIT@y(Ah9|;hnbmiMP8;u_3`XRN6K6-<-#1he6;3D&Z_ew+i8{CGWP`
zgJMHqK6x!&_C^J7bjjPfxLNS_Lb2UDZ(6cP#MaQljvK`}ix_OXW&&%r>jVYDlOs?v
z_z4+^#juMr))T<R*_6OfJ@Bg!?CzXMT$oN~sx|sVg3hNB2^KF8i;Xj^1tLjvHlNS1
zm`V^QUKaQ|B5!5HQ<P|4EVl2!PeiZ}lceRR!Sx#4ui(vv^^uBkaK+-~w<t{4$qNvR
zX%LIAIE!^57CSDnb2tj(2)}i)P8@k~ggq%(Y(HTC6GW0KHznzFbdqJ0mx*%8V&1^w
zJ(R3fk7oR+lt{qK-EJu5V9(Gq@=mv7P#pE+if%Z)U%rVRt0=7p-Wa+E#O)(uC@OaK
z|JohV+LjyJDq8pgHFmaF^f+Zg%^-maP2CkU&VqOut5|W$2A)PG|DfRBQnBN_1NmAi
zPMmT9%x^Hd%3%uWycLy3yK8>16xt&Aw}M=#-StGR6jv-8wc%yxOABA<)$6P1ams*9
z_E~=Jh+uDB@RsZyg0b_75m&rOO;Fmc%bw<n7AK&ID_YT$qyaSqD@KxpK?mo*bwgh<
zldJ_rHZHa;zIHeDlfk=bq3>{M<6$8@TCtK^8#0+^U!LE;;F%v4tk6}*Vo)${ePSoI
z&#Es_)gj^pbQo%1IDTjMPufeH4+`yvgx13qJ*hDuZ&Srck|yNeR56pJ1^Gi2D@lTi
z(pG946a2?3c2eL#on57_V?xK6XtI^;y@ILlv6|}auQ*Ay2f8Y??-g2~A=MiMQw*v@
z8!KK?-God{^XmE2^G3lKdD2YE#?@YJgXjy~+<0SSg`_ucCEsPEb@uFAlUF7MWAhU&
z09AS$wSk3ae-wW=UO|w&yPtgSwUJNh+2_8%rQ}MH;}aWV{{$bUXL0mB9Q|8};5T!5
zc+E`V-yU$i$+Ic>jN{WT8ONt{DITs9M{bd%1BYv1AM)kWV+_Eos?OM2(B{E!{(s<h
z`f>PKU2-bT;@cw`iC;JVxd4kDMI=u(kAG&@3;I8whY^rlEHzfEY7Y9n^6v!Xn=Lzt
zuX5k-%@g<i6(pFm$~TkTM+eT5OG)k{wphy7liW;fI*~fQ)?*bXC;#XT7y%w9iyfb2
zvhfF75IYA)D3atL=;b%)USdEX6vj-7t8>HF1j$EAWE06+=XZ|KEy+Rvl;>(pbE>N~
z&8IV5Z#s)T6%r)FVneg+RB9e2<;4EQhHxW$B9YAHz~DwU9LQ%F1AmI6Ask^s^B$5<
z4fe*747+3kyodb~vY0M$cOa^$DT)FPLfJn<#?O!${{A}}e1xJ9FQLJ|N3KW6{|~6?
z5$bt_2EI_4Db*LK7BwO2dFl~5_y~1ALT!)Gu1Bcj5!zDGsHv{cG%lbXZQDyjV?t!C
zggkTUB{cS_#yq>f)Y$bv)BQU2OQUD*#U*3Q>$<1#J3T5eAN&o%-!Cg}WN^bX9M$!y
mt#!e;WZU@0Aw1HquQ+@JerDC|+kt+z!@A$7e&0Yr{C@xei{SeJ

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/api_server.py b/entrypoints/openai/api_server.py
new file mode 100644
index 0000000..3cf66fc
--- /dev/null
+++ b/entrypoints/openai/api_server.py
@@ -0,0 +1,2096 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import hashlib
+import importlib
+import inspect
+import json
+import multiprocessing
+import multiprocessing.forkserver as forkserver
+import os
+import secrets
+import signal
+import socket
+import tempfile
+import uuid
+from argparse import Namespace
+from collections.abc import AsyncGenerator, AsyncIterator, Awaitable, Callable
+from contextlib import asynccontextmanager
+from http import HTTPStatus
+from typing import Annotated, Any, Literal
+
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+import prometheus_client
+import pydantic
+import regex as re
+import uvloop
+from fastapi import APIRouter, Depends, FastAPI, Form, HTTPException, Query, Request
+from fastapi.exceptions import RequestValidationError
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import JSONResponse, Response, StreamingResponse
+from prometheus_client import make_asgi_app
+from prometheus_fastapi_instrumentator import Instrumentator
+from starlette.concurrency import iterate_in_threadpool
+from starlette.datastructures import URL, Headers, MutableHeaders, State
+from starlette.routing import Mount
+from starlette.types import ASGIApp, Message, Receive, Scope, Send
+from typing_extensions import assert_never
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.engine.arg_utils import AsyncEngineArgs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.anthropic.protocol import (
+    AnthropicError,
+    AnthropicErrorResponse,
+    AnthropicMessagesRequest,
+    AnthropicMessagesResponse,
+)
+from vllm.entrypoints.anthropic.serving_messages import AnthropicServingMessages
+from vllm.entrypoints.launcher import serve_http
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
+from vllm.entrypoints.openai.orca_metrics import metrics_header
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+    ClassificationRequest,
+    ClassificationResponse,
+    CompletionRequest,
+    CompletionResponse,
+    DetokenizeRequest,
+    DetokenizeResponse,
+    EmbeddingBytesResponse,
+    EmbeddingRequest,
+    EmbeddingResponse,
+    ErrorInfo,
+    ErrorResponse,
+    GenerateRequest,
+    GenerateResponse,
+    IOProcessorResponse,
+    PoolingBytesResponse,
+    PoolingRequest,
+    PoolingResponse,
+    RerankRequest,
+    RerankResponse,
+    ResponsesRequest,
+    ResponsesResponse,
+    ScoreRequest,
+    ScoreResponse,
+    StreamingResponsesResponse,
+    TokenizeRequest,
+    TokenizeResponse,
+    TranscriptionRequest,
+    TranscriptionResponse,
+    TranslationRequest,
+    TranslationResponse,
+)
+from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
+from vllm.entrypoints.openai.serving_classification import ServingClassification
+from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
+from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
+from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_models import (
+    BaseModelPath,
+    OpenAIServingModels,
+)
+from vllm.entrypoints.openai.serving_pooling import OpenAIServingPooling
+from vllm.entrypoints.openai.serving_responses import OpenAIServingResponses
+from vllm.entrypoints.openai.serving_score import ServingScores
+from vllm.entrypoints.openai.serving_tokenization import OpenAIServingTokenization
+from vllm.entrypoints.openai.serving_tokens import ServingTokens
+from vllm.entrypoints.openai.serving_transcription import (
+    OpenAIServingTranscription,
+    OpenAIServingTranslation,
+)
+from vllm.entrypoints.openai.tool_parsers import ToolParserManager
+from vllm.entrypoints.tool_server import DemoToolServer, MCPToolServer, ToolServer
+from vllm.entrypoints.utils import (
+    cli_env_setup,
+    load_aware_call,
+    log_non_default_args,
+    process_chat_template,
+    process_lora_modules,
+    with_cancellation,
+)
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParserManager
+from vllm.tasks import POOLING_TASKS
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.gc_utils import freeze_gc_heap
+from vllm.utils.network_utils import is_valid_ipv6_address
+from vllm.utils.system_utils import decorate_logs, set_ulimit
+from vllm.v1.engine.exceptions import EngineDeadError
+from vllm.v1.metrics.prometheus import get_prometheus_registry
+from vllm.version import __version__ as VLLM_VERSION
+
+prometheus_multiproc_dir: tempfile.TemporaryDirectory
+
+# Cannot use __name__ (https://github.com/vllm-project/vllm/pull/4765)
+logger = init_logger("vllm.entrypoints.openai.api_server")
+
+ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL = "endpoint-load-metrics-format"
+
+_running_tasks: set[asyncio.Task] = set()
+
+
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    try:
+        if app.state.log_stats:
+            engine_client: EngineClient = app.state.engine_client
+
+            async def _force_log():
+                while True:
+                    await asyncio.sleep(envs.VLLM_LOG_STATS_INTERVAL)
+                    await engine_client.do_log_stats()
+
+            task = asyncio.create_task(_force_log())
+            _running_tasks.add(task)
+            task.add_done_callback(_running_tasks.remove)
+        else:
+            task = None
+
+        # Mark the startup heap as static so that it's ignored by GC.
+        # Reduces pause times of oldest generation collections.
+        freeze_gc_heap()
+        try:
+            yield
+        finally:
+            if task is not None:
+                task.cancel()
+    finally:
+        # Ensure app state including engine ref is gc'd
+        del app.state
+
+
+@asynccontextmanager
+async def build_async_engine_client(
+    args: Namespace,
+    *,
+    usage_context: UsageContext = UsageContext.OPENAI_API_SERVER,
+    disable_frontend_multiprocessing: bool | None = None,
+    client_config: dict[str, Any] | None = None,
+) -> AsyncIterator[EngineClient]:
+    if os.getenv("VLLM_WORKER_MULTIPROC_METHOD") == "forkserver":
+        # The executor is expected to be mp.
+        # Pre-import heavy modules in the forkserver process
+        logger.debug("Setup forkserver with pre-imports")
+        multiprocessing.set_start_method("forkserver")
+        multiprocessing.set_forkserver_preload(["vllm.v1.engine.async_llm"])
+        forkserver.ensure_running()
+        logger.debug("Forkserver setup complete!")
+
+    # Context manager to handle engine_client lifecycle
+    # Ensures everything is shutdown and cleaned up on error/exit
+    engine_args = AsyncEngineArgs.from_cli_args(args)
+    if client_config:
+        engine_args._api_process_count = client_config.get("client_count", 1)
+        engine_args._api_process_rank = client_config.get("client_index", 0)
+
+    if disable_frontend_multiprocessing is None:
+        disable_frontend_multiprocessing = bool(args.disable_frontend_multiprocessing)
+
+    async with build_async_engine_client_from_engine_args(
+        engine_args,
+        usage_context=usage_context,
+        disable_frontend_multiprocessing=disable_frontend_multiprocessing,
+        client_config=client_config,
+    ) as engine:
+        yield engine
+
+
+@asynccontextmanager
+async def build_async_engine_client_from_engine_args(
+    engine_args: AsyncEngineArgs,
+    *,
+    usage_context: UsageContext = UsageContext.OPENAI_API_SERVER,
+    disable_frontend_multiprocessing: bool = False,
+    client_config: dict[str, Any] | None = None,
+) -> AsyncIterator[EngineClient]:
+    """
+    Create EngineClient, either:
+        - in-process using the AsyncLLMEngine Directly
+        - multiprocess using AsyncLLMEngine RPC
+
+    Returns the Client or None if the creation failed.
+    """
+
+    # Create the EngineConfig (determines if we can use V1).
+    vllm_config = engine_args.create_engine_config(usage_context=usage_context)
+
+    if disable_frontend_multiprocessing:
+        logger.warning("V1 is enabled, but got --disable-frontend-multiprocessing.")
+
+    from vllm.v1.engine.async_llm import AsyncLLM
+
+    async_llm: AsyncLLM | None = None
+
+    # Don't mutate the input client_config
+    client_config = dict(client_config) if client_config else {}
+    client_count = client_config.pop("client_count", 1)
+    client_index = client_config.pop("client_index", 0)
+
+    try:
+        async_llm = AsyncLLM.from_vllm_config(
+            vllm_config=vllm_config,
+            usage_context=usage_context,
+            enable_log_requests=engine_args.enable_log_requests,
+            aggregate_engine_logging=engine_args.aggregate_engine_logging,
+            disable_log_stats=engine_args.disable_log_stats,
+            client_addresses=client_config,
+            client_count=client_count,
+            client_index=client_index,
+        )
+
+        # Don't keep the dummy data in memory
+        assert async_llm is not None
+        await async_llm.reset_mm_cache()
+
+        yield async_llm
+    finally:
+        if async_llm:
+            async_llm.shutdown()
+
+
+async def validate_json_request(raw_request: Request):
+    content_type = raw_request.headers.get("content-type", "").lower()
+    media_type = content_type.split(";", maxsplit=1)[0]
+    if media_type != "application/json":
+        raise RequestValidationError(
+            errors=["Unsupported Media Type: Only 'application/json' is allowed"]
+        )
+
+
+router = APIRouter()
+
+
+class PrometheusResponse(Response):
+    media_type = prometheus_client.CONTENT_TYPE_LATEST
+
+
+def mount_metrics(app: FastAPI):
+    """Mount prometheus metrics to a FastAPI app."""
+
+    registry = get_prometheus_registry()
+
+    # `response_class=PrometheusResponse` is needed to return an HTTP response
+    # with header "Content-Type: text/plain; version=0.0.4; charset=utf-8"
+    # instead of the default "application/json" which is incorrect.
+    # See https://github.com/trallnag/prometheus-fastapi-instrumentator/issues/163#issue-1296092364
+    Instrumentator(
+        excluded_handlers=[
+            "/metrics",
+            "/health",
+            "/load",
+            "/ping",
+            "/version",
+            "/server_info",
+        ],
+        registry=registry,
+    ).add().instrument(app).expose(app, response_class=PrometheusResponse)
+
+    # Add prometheus asgi middleware to route /metrics requests
+    metrics_route = Mount("/metrics", make_asgi_app(registry=registry))
+
+    # Workaround for 307 Redirect for /metrics
+    metrics_route.path_regex = re.compile("^/metrics(?P<path>.*)$")
+    app.routes.append(metrics_route)
+
+
+def base(request: Request) -> OpenAIServing:
+    # Reuse the existing instance
+    return tokenization(request)
+
+
+def models(request: Request) -> OpenAIServingModels:
+    return request.app.state.openai_serving_models
+
+
+def responses(request: Request) -> OpenAIServingResponses | None:
+    return request.app.state.openai_serving_responses
+
+
+def messages(request: Request) -> AnthropicServingMessages:
+    return request.app.state.anthropic_serving_messages
+
+
+def chat(request: Request) -> OpenAIServingChat | None:
+    return request.app.state.openai_serving_chat
+
+
+def completion(request: Request) -> OpenAIServingCompletion | None:
+    return request.app.state.openai_serving_completion
+
+
+def pooling(request: Request) -> OpenAIServingPooling | None:
+    return request.app.state.openai_serving_pooling
+
+
+def embedding(request: Request) -> OpenAIServingEmbedding | None:
+    return request.app.state.openai_serving_embedding
+
+
+def score(request: Request) -> ServingScores | None:
+    return request.app.state.openai_serving_scores
+
+
+def classify(request: Request) -> ServingClassification | None:
+    return request.app.state.openai_serving_classification
+
+
+def rerank(request: Request) -> ServingScores | None:
+    return request.app.state.openai_serving_scores
+
+
+def tokenization(request: Request) -> OpenAIServingTokenization:
+    return request.app.state.openai_serving_tokenization
+
+
+def transcription(request: Request) -> OpenAIServingTranscription:
+    return request.app.state.openai_serving_transcription
+
+
+def translation(request: Request) -> OpenAIServingTranslation:
+    return request.app.state.openai_serving_translation
+
+
+def engine_client(request: Request) -> EngineClient:
+    return request.app.state.engine_client
+
+
+def generate_tokens(request: Request) -> ServingTokens | None:
+    return request.app.state.serving_tokens
+
+
+@router.get("/health", response_class=Response)
+async def health(raw_request: Request) -> Response:
+    """Health check."""
+    try:
+        await engine_client(raw_request).check_health()
+        return Response(status_code=200)
+    except EngineDeadError:
+        return Response(status_code=503)
+
+
+@router.get("/load")
+async def get_server_load_metrics(request: Request):
+    # This endpoint returns the current server load metrics.
+    # It tracks requests utilizing the GPU from the following routes:
+    # - /v1/chat/completions
+    # - /v1/completions
+    # - /v1/audio/transcriptions
+    # - /v1/audio/translations
+    # - /v1/embeddings
+    # - /pooling
+    # - /classify
+    # - /score
+    # - /v1/score
+    # - /rerank
+    # - /v1/rerank
+    # - /v2/rerank
+    return JSONResponse(content={"server_load": request.app.state.server_load_metrics})
+
+
+@router.post(
+    "/tokenize",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_IMPLEMENTED.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+async def tokenize(request: TokenizeRequest, raw_request: Request):
+    handler = tokenization(raw_request)
+
+    try:
+        generator = await handler.create_tokenize(request, raw_request)
+    except NotImplementedError as e:
+        raise HTTPException(
+            status_code=HTTPStatus.NOT_IMPLEMENTED.value, detail=str(e)
+        ) from e
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, TokenizeResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
+@router.post(
+    "/detokenize",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+async def detokenize(request: DetokenizeRequest, raw_request: Request):
+    handler = tokenization(raw_request)
+
+    try:
+        generator = await handler.create_detokenize(request, raw_request)
+    except OverflowError as e:
+        raise RequestValidationError(errors=[str(e)]) from e
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, DetokenizeResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
+def maybe_register_tokenizer_info_endpoint(args):
+    """Conditionally register the tokenizer info endpoint if enabled."""
+    if getattr(args, "enable_tokenizer_info_endpoint", False):
+
+        @router.get("/tokenizer_info")
+        async def get_tokenizer_info(raw_request: Request):
+            """Get comprehensive tokenizer information."""
+            result = await tokenization(raw_request).get_tokenizer_info()
+            return JSONResponse(
+                content=result.model_dump(),
+                status_code=result.error.code
+                if isinstance(result, ErrorResponse)
+                else 200,
+            )
+
+
+@router.get("/v1/models")
+async def show_available_models(raw_request: Request):
+    handler = models(raw_request)
+
+    models_ = await handler.show_available_models()
+    return JSONResponse(content=models_.model_dump())
+
+
+@router.get("/version")
+async def show_version():
+    ver = {"version": VLLM_VERSION}
+    return JSONResponse(content=ver)
+
+
+async def _convert_stream_to_sse_events(
+    generator: AsyncGenerator[StreamingResponsesResponse, None],
+) -> AsyncGenerator[str, None]:
+    """Convert the generator to a stream of events in SSE format"""
+    async for event in generator:
+        event_type = getattr(event, "type", "unknown")
+        # https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#event_stream_format
+        event_data = (
+            f"event: {event_type}\ndata: {event.model_dump_json(indent=None)}\n\n"
+        )
+        yield event_data
+
+
+@router.post(
+    "/v1/responses",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+async def create_responses(request: ResponsesRequest, raw_request: Request):
+    handler = responses(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Responses API"
+        )
+    try:
+        generator = await handler.create_responses(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, ResponsesResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    return StreamingResponse(
+        content=_convert_stream_to_sse_events(generator), media_type="text/event-stream"
+    )
+
+
+@router.get("/v1/responses/{response_id}")
+async def retrieve_responses(
+    response_id: str,
+    raw_request: Request,
+    starting_after: int | None = None,
+    stream: bool | None = False,
+):
+    handler = responses(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Responses API"
+        )
+
+    try:
+        response = await handler.retrieve_responses(
+            response_id,
+            starting_after=starting_after,
+            stream=stream,
+        )
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(response, ErrorResponse):
+        return JSONResponse(
+            content=response.model_dump(), status_code=response.error.code
+        )
+    elif isinstance(response, ResponsesResponse):
+        return JSONResponse(content=response.model_dump())
+    return StreamingResponse(
+        content=_convert_stream_to_sse_events(response), media_type="text/event-stream"
+    )
+
+
+@router.post("/v1/responses/{response_id}/cancel")
+async def cancel_responses(response_id: str, raw_request: Request):
+    handler = responses(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Responses API"
+        )
+
+    try:
+        response = await handler.cancel_responses(response_id)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(response, ErrorResponse):
+        return JSONResponse(
+            content=response.model_dump(), status_code=response.error.code
+        )
+    return JSONResponse(content=response.model_dump())
+
+
+@router.post(
+    "/v1/messages",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": AnthropicErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": AnthropicErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": AnthropicErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_messages(request: AnthropicMessagesRequest, raw_request: Request):
+    def translate_error_response(response: ErrorResponse) -> JSONResponse:
+        anthropic_error = AnthropicErrorResponse(
+            error=AnthropicError(
+                type=response.error.type,
+                message=response.error.message,
+            )
+        )
+        return JSONResponse(
+            status_code=response.error.code, content=anthropic_error.model_dump()
+        )
+
+    handler = messages(raw_request)
+    if handler is None:
+        error = base(raw_request).create_error_response(
+            message="The model does not support Messages API"
+        )
+        return translate_error_response(error)
+
+    try:
+        generator = await handler.create_messages(request, raw_request)
+    except Exception as e:
+        logger.exception("Error in create_messages: %s", e)
+        return JSONResponse(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
+            content=AnthropicErrorResponse(
+                error=AnthropicError(
+                    type="internal_error",
+                    message=str(e),
+                )
+            ).model_dump(),
+        )
+
+    if isinstance(generator, ErrorResponse):
+        return translate_error_response(generator)
+
+    elif isinstance(generator, AnthropicMessagesResponse):
+        resp = generator.model_dump(exclude_none=True)
+        logger.debug("Anthropic Messages Response: %s", resp)
+        return JSONResponse(content=resp)
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+@router.post(
+    "/v1/chat/completions",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_chat_completion(request: ChatCompletionRequest, raw_request: Request):
+    metrics_header_format = raw_request.headers.get(
+        ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL, ""
+    )
+    handler = chat(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Chat Completions API"
+        )
+    try:
+        generator = await handler.create_chat_completion(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, ChatCompletionResponse):
+        return JSONResponse(
+            content=generator.model_dump(),
+            headers=metrics_header(metrics_header_format),
+        )
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+@router.post(
+    "/v1/completions",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_completion(request: CompletionRequest, raw_request: Request):
+    metrics_header_format = raw_request.headers.get(
+        ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL, ""
+    )
+    handler = completion(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Completions API"
+        )
+
+    try:
+        generator = await handler.create_completion(request, raw_request)
+    except OverflowError as e:
+        raise HTTPException(
+            status_code=HTTPStatus.BAD_REQUEST.value, detail=str(e)
+        ) from e
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, CompletionResponse):
+        return JSONResponse(
+            content=generator.model_dump(),
+            headers=metrics_header(metrics_header_format),
+        )
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+@router.post(
+    "/v1/embeddings",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_embedding(
+    request: EmbeddingRequest,
+    raw_request: Request,
+):
+    handler = embedding(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Embeddings API"
+        )
+
+    try:
+        generator = await handler.create_embedding(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, EmbeddingResponse):
+        return JSONResponse(content=generator.model_dump())
+    elif isinstance(generator, EmbeddingBytesResponse):
+        return StreamingResponse(
+            content=generator.body,
+            headers={"metadata": generator.metadata},
+            media_type=generator.media_type,
+        )
+
+    assert_never(generator)
+
+
+@router.post(
+    "/pooling",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_pooling(request: PoolingRequest, raw_request: Request):
+    handler = pooling(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Pooling API"
+        )
+    try:
+        generator = await handler.create_pooling(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, (PoolingResponse, IOProcessorResponse)):
+        return JSONResponse(content=generator.model_dump())
+    elif isinstance(generator, PoolingBytesResponse):
+        return StreamingResponse(
+            content=generator.body,
+            headers={"metadata": generator.metadata},
+            media_type=generator.media_type,
+        )
+
+    assert_never(generator)
+
+
+@router.post("/classify", dependencies=[Depends(validate_json_request)])
+@with_cancellation
+@load_aware_call
+async def create_classify(request: ClassificationRequest, raw_request: Request):
+    handler = classify(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Classification API"
+        )
+
+    try:
+        generator = await handler.create_classify(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, ClassificationResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
+@router.post(
+    "/score",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_score(request: ScoreRequest, raw_request: Request):
+    handler = score(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Score API"
+        )
+
+    try:
+        generator = await handler.create_score(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, ScoreResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
+@router.post(
+    "/v1/score",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_score_v1(request: ScoreRequest, raw_request: Request):
+    logger.warning(
+        "To indicate that Score API is not part of standard OpenAI API, we "
+        "have moved it to `/score`. Please update your client accordingly."
+    )
+
+    return await create_score(request, raw_request)
+
+
+@router.post(
+    "/v1/audio/transcriptions",
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.UNPROCESSABLE_ENTITY.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_transcriptions(
+    raw_request: Request, request: Annotated[TranscriptionRequest, Form()]
+):
+    handler = transcription(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Transcriptions API"
+        )
+
+    audio_data = await request.file.read()
+    try:
+        generator = await handler.create_transcription(audio_data, request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, TranscriptionResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+@router.post(
+    "/v1/audio/translations",
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.UNPROCESSABLE_ENTITY.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_translations(
+    request: Annotated[TranslationRequest, Form()], raw_request: Request
+):
+    handler = translation(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Translations API"
+        )
+
+    audio_data = await request.file.read()
+    try:
+        generator = await handler.create_translation(audio_data, request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, TranslationResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+@router.post(
+    "/rerank",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def do_rerank(request: RerankRequest, raw_request: Request):
+    handler = rerank(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Rerank (Score) API"
+        )
+    try:
+        generator = await handler.do_rerank(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+    elif isinstance(generator, RerankResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
+@router.post(
+    "/v1/rerank",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+async def do_rerank_v1(request: RerankRequest, raw_request: Request):
+    logger.warning_once(
+        "To indicate that the rerank API is not part of the standard OpenAI"
+        " API, we have located it at `/rerank`. Please update your client "
+        "accordingly. (Note: Conforms to JinaAI rerank API)"
+    )
+
+    return await do_rerank(request, raw_request)
+
+
+@router.post(
+    "/v2/rerank",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+async def do_rerank_v2(request: RerankRequest, raw_request: Request):
+    return await do_rerank(request, raw_request)
+
+
+if envs.VLLM_SERVER_DEV_MODE:
+    logger.warning(
+        "SECURITY WARNING: Development endpoints are enabled! "
+        "This should NOT be used in production!"
+    )
+
+    PydanticVllmConfig = pydantic.TypeAdapter(VllmConfig)
+
+    @router.get("/server_info")
+    async def show_server_info(
+        raw_request: Request,
+        config_format: Annotated[Literal["text", "json"], Query()] = "text",
+    ):
+        vllm_config: VllmConfig = raw_request.app.state.vllm_config
+        server_info = {
+            "vllm_config": str(vllm_config)
+            if config_format == "text"
+            else PydanticVllmConfig.dump_python(vllm_config, mode="json", fallback=str)
+            # fallback=str is needed to handle e.g. torch.dtype
+        }
+        return JSONResponse(content=server_info)
+
+    @router.post("/reset_prefix_cache")
+    async def reset_prefix_cache(raw_request: Request):
+        """
+        Reset the prefix cache. Note that we currently do not check if the
+        prefix cache is successfully reset in the API server.
+        """
+        logger.info("Resetting prefix cache...")
+        await engine_client(raw_request).reset_prefix_cache()
+        return Response(status_code=200)
+
+    @router.post("/reset_mm_cache")
+    async def reset_mm_cache(raw_request: Request):
+        """
+        Reset the multi-modal cache. Note that we currently do not check if the
+        multi-modal cache is successfully reset in the API server.
+        """
+        logger.info("Resetting multi-modal cache...")
+        await engine_client(raw_request).reset_mm_cache()
+        return Response(status_code=200)
+
+    @router.post("/sleep")
+    async def sleep(raw_request: Request):
+        # get POST params
+        level = raw_request.query_params.get("level", "1")
+        await engine_client(raw_request).sleep(int(level))
+        # FIXME: in v0 with frontend multiprocessing, the sleep command
+        # is sent but does not finish yet when we return a response.
+        return Response(status_code=200)
+
+    @router.post("/wake_up")
+    async def wake_up(raw_request: Request):
+        tags = raw_request.query_params.getlist("tags")
+        if tags == []:
+            # set to None to wake up all tags if no tags are provided
+            tags = None
+        logger.info("wake up the engine with tags: %s", tags)
+        await engine_client(raw_request).wake_up(tags)
+        # FIXME: in v0 with frontend multiprocessing, the wake-up command
+        # is sent but does not finish yet when we return a response.
+        return Response(status_code=200)
+
+    @router.get("/is_sleeping")
+    async def is_sleeping(raw_request: Request):
+        logger.info("check whether the engine is sleeping")
+        is_sleeping = await engine_client(raw_request).is_sleeping()
+        return JSONResponse(content={"is_sleeping": is_sleeping})
+
+    @router.post("/collective_rpc")
+    async def collective_rpc(raw_request: Request):
+        try:
+            body = await raw_request.json()
+        except json.JSONDecodeError as e:
+            raise HTTPException(
+                status_code=HTTPStatus.BAD_REQUEST.value,
+                detail=f"JSON decode error: {e}",
+            ) from e
+        method = body.get("method")
+        if method is None:
+            raise HTTPException(
+                status_code=HTTPStatus.BAD_REQUEST.value,
+                detail="Missing 'method' in request body",
+            )
+        # For security reason, only serialized string args/kwargs are passed.
+        # User-defined `method` is responsible for deserialization if needed.
+        args: list[str] = body.get("args", [])
+        kwargs: dict[str, str] = body.get("kwargs", {})
+        timeout: float | None = body.get("timeout")
+        results = await engine_client(raw_request).collective_rpc(
+            method=method, timeout=timeout, args=tuple(args), kwargs=kwargs
+        )
+        if results is None:
+            return Response(status_code=200)
+        response: list[Any] = []
+        for result in results:
+            if result is None or isinstance(result, (dict, list)):
+                response.append(result)
+            else:
+                response.append(str(result))
+        return JSONResponse(content={"results": response})
+
+
+@router.post(
+    "/scale_elastic_ep",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"model": dict},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.REQUEST_TIMEOUT.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+async def scale_elastic_ep(raw_request: Request):
+    try:
+        body = await raw_request.json()
+    except json.JSONDecodeError as e:
+        raise HTTPException(status_code=400, detail="Invalid JSON format") from e  # noqa: B904
+
+    new_data_parallel_size = body.get("new_data_parallel_size")
+    drain_timeout = body.get("drain_timeout", 120)  # Default 2 minutes
+
+    if new_data_parallel_size is None:
+        raise HTTPException(
+            status_code=400, detail="new_data_parallel_size is required"
+        )
+
+    if not isinstance(new_data_parallel_size, int) or new_data_parallel_size <= 0:
+        raise HTTPException(
+            status_code=400, detail="new_data_parallel_size must be a positive integer"
+        )
+
+    if not isinstance(drain_timeout, int) or drain_timeout <= 0:
+        raise HTTPException(
+            status_code=400, detail="drain_timeout must be a positive integer"
+        )
+
+    # Set scaling flag to prevent new requests
+    global _scaling_elastic_ep
+    _scaling_elastic_ep = True
+    client = engine_client(raw_request)
+    try:
+        await client.scale_elastic_ep(new_data_parallel_size, drain_timeout)
+        return JSONResponse(
+            {
+                "message": f"Scaled to {new_data_parallel_size} data parallel engines",
+            }
+        )
+    except TimeoutError as e:
+        raise HTTPException(
+            status_code=408,
+            detail="Scale failed due to request drain timeout "
+            f"after {drain_timeout} seconds",
+        ) from e
+    except Exception as e:
+        logger.error("Scale failed: %s", e)
+        raise HTTPException(status_code=500, detail="Scale failed") from e
+    finally:
+        _scaling_elastic_ep = False
+
+
+@router.post("/is_scaling_elastic_ep")
+async def is_scaling_elastic_ep(raw_request: Request):
+    return JSONResponse({"is_scaling_elastic_ep": _scaling_elastic_ep})
+
+
+# TODO: RequestType = TypeForm[BaseModel] when recognized by type checkers
+# (requires typing_extensions >= 4.13)
+RequestType = Any
+GetHandlerFn = Callable[[Request], OpenAIServing | None]
+EndpointFn = Callable[[RequestType, Request], Awaitable[Any]]
+
+# NOTE: Items defined earlier take higher priority
+INVOCATION_TYPES: list[tuple[RequestType, tuple[GetHandlerFn, EndpointFn]]] = [
+    (ChatCompletionRequest, (chat, create_chat_completion)),
+    (CompletionRequest, (completion, create_completion)),
+    (EmbeddingRequest, (embedding, create_embedding)),
+    (ClassificationRequest, (classify, create_classify)),
+    (ScoreRequest, (score, create_score)),
+    (RerankRequest, (rerank, do_rerank)),
+    (PoolingRequest, (pooling, create_pooling)),
+]
+
+# NOTE: Construct the TypeAdapters only once
+INVOCATION_VALIDATORS = [
+    (pydantic.TypeAdapter(request_type), (get_handler, endpoint))
+    for request_type, (get_handler, endpoint) in INVOCATION_TYPES
+]
+
+
+@router.post(
+    "/inference/v1/generate",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def generate(request: GenerateRequest, raw_request: Request):
+    handler = generate_tokens(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support generate tokens API"
+        )
+    try:
+        generator = await handler.serve_tokens(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, GenerateResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
+if envs.VLLM_TORCH_PROFILER_DIR:
+    logger.warning_once(
+        "Torch Profiler is enabled in the API server. This should ONLY be "
+        "used for local development!"
+    )
+elif envs.VLLM_TORCH_CUDA_PROFILE:
+    logger.warning_once(
+        "CUDA Profiler is enabled in the API server. This should ONLY be "
+        "used for local development!"
+    )
+if envs.VLLM_TORCH_PROFILER_DIR or envs.VLLM_TORCH_CUDA_PROFILE:
+
+    @router.post("/start_profile")
+    async def start_profile(raw_request: Request):
+        logger.info("Starting profiler...")
+        await engine_client(raw_request).start_profile()
+        logger.info("Profiler started.")
+        return Response(status_code=200)
+
+    @router.post("/stop_profile")
+    async def stop_profile(raw_request: Request):
+        logger.info("Stopping profiler...")
+        await engine_client(raw_request).stop_profile()
+        logger.info("Profiler stopped.")
+        return Response(status_code=200)
+
+
+def load_log_config(log_config_file: str | None) -> dict | None:
+    if not log_config_file:
+        return None
+    try:
+        with open(log_config_file) as f:
+            return json.load(f)
+    except Exception as e:
+        logger.warning(
+            "Failed to load log config from file %s: error %s", log_config_file, e
+        )
+        return None
+
+
+class AuthenticationMiddleware:
+    """
+    Pure ASGI middleware that authenticates each request by checking
+    if the Authorization Bearer token exists and equals anyof "{api_key}".
+
+    Notes
+    -----
+    There are two cases in which authentication is skipped:
+        1. The HTTP method is OPTIONS.
+        2. The request path doesn't start with /v1 (e.g. /health).
+    """
+
+    def __init__(self, app: ASGIApp, tokens: list[str]) -> None:
+        self.app = app
+        self.api_tokens = [hashlib.sha256(t.encode("utf-8")).digest() for t in tokens]
+
+    def verify_token(self, headers: Headers) -> bool:
+        authorization_header_value = headers.get("Authorization")
+        if not authorization_header_value:
+            return False
+
+        scheme, _, param = authorization_header_value.partition(" ")
+        if scheme.lower() != "bearer":
+            return False
+
+        param_hash = hashlib.sha256(param.encode("utf-8")).digest()
+
+        token_match = False
+        for token_hash in self.api_tokens:
+            token_match |= secrets.compare_digest(param_hash, token_hash)
+
+        return token_match
+
+    def __call__(self, scope: Scope, receive: Receive, send: Send) -> Awaitable[None]:
+        if scope["type"] not in ("http", "websocket") or scope["method"] == "OPTIONS":
+            # scope["type"] can be "lifespan" or "startup" for example,
+            # in which case we don't need to do anything
+            return self.app(scope, receive, send)
+        root_path = scope.get("root_path", "")
+        url_path = URL(scope=scope).path.removeprefix(root_path)
+        headers = Headers(scope=scope)
+        # Type narrow to satisfy mypy.
+        if url_path.startswith("/v1") and not self.verify_token(headers):
+            response = JSONResponse(content={"error": "Unauthorized"}, status_code=401)
+            return response(scope, receive, send)
+        return self.app(scope, receive, send)
+
+
+class XRequestIdMiddleware:
+    """
+    Middleware the set's the X-Request-Id header for each response
+    to a random uuid4 (hex) value if the header isn't already
+    present in the request, otherwise use the provided request id.
+    """
+
+    def __init__(self, app: ASGIApp) -> None:
+        self.app = app
+
+    def __call__(self, scope: Scope, receive: Receive, send: Send) -> Awaitable[None]:
+        if scope["type"] not in ("http", "websocket"):
+            return self.app(scope, receive, send)
+
+        # Extract the request headers.
+        request_headers = Headers(scope=scope)
+
+        async def send_with_request_id(message: Message) -> None:
+            """
+            Custom send function to mutate the response headers
+            and append X-Request-Id to it.
+            """
+            if message["type"] == "http.response.start":
+                response_headers = MutableHeaders(raw=message["headers"])
+                request_id = request_headers.get("X-Request-Id", uuid.uuid4().hex)
+                response_headers.append("X-Request-Id", request_id)
+            await send(message)
+
+        return self.app(scope, receive, send_with_request_id)
+
+
+# Global variable to track scaling state
+_scaling_elastic_ep = False
+
+
+class ScalingMiddleware:
+    """
+    Middleware that checks if the model is currently scaling and
+    returns a 503 Service Unavailable response if it is.
+
+    This middleware applies to all HTTP requests and prevents
+    processing when the model is in a scaling state.
+    """
+
+    def __init__(self, app: ASGIApp) -> None:
+        self.app = app
+
+    def __call__(self, scope: Scope, receive: Receive, send: Send) -> Awaitable[None]:
+        if scope["type"] != "http":
+            return self.app(scope, receive, send)
+
+        # Check global scaling state
+        global _scaling_elastic_ep
+        if _scaling_elastic_ep:
+            # Return 503 Service Unavailable response
+            response = JSONResponse(
+                content={
+                    "error": "The model is currently scaling. Please try again later."
+                },
+                status_code=503,
+            )
+            return response(scope, receive, send)
+
+        return self.app(scope, receive, send)
+
+
+def _extract_content_from_chunk(chunk_data: dict) -> str:
+    """Extract content from a streaming response chunk."""
+    try:
+        from vllm.entrypoints.openai.protocol import (
+            ChatCompletionStreamResponse,
+            CompletionStreamResponse,
+        )
+
+        # Try using Completion types for type-safe parsing
+        if chunk_data.get("object") == "chat.completion.chunk":
+            chat_response = ChatCompletionStreamResponse.model_validate(chunk_data)
+            if chat_response.choices and chat_response.choices[0].delta.content:
+                return chat_response.choices[0].delta.content
+        elif chunk_data.get("object") == "text_completion":
+            completion_response = CompletionStreamResponse.model_validate(chunk_data)
+            if completion_response.choices and completion_response.choices[0].text:
+                return completion_response.choices[0].text
+    except pydantic.ValidationError:
+        # Fallback to manual parsing
+        if "choices" in chunk_data and chunk_data["choices"]:
+            choice = chunk_data["choices"][0]
+            if "delta" in choice and choice["delta"].get("content"):
+                return choice["delta"]["content"]
+            elif choice.get("text"):
+                return choice["text"]
+    return ""
+
+
+class SSEDecoder:
+    """Robust Server-Sent Events decoder for streaming responses."""
+
+    def __init__(self):
+        self.buffer = ""
+        self.content_buffer = []
+
+    def decode_chunk(self, chunk: bytes) -> list[dict]:
+        """Decode a chunk of SSE data and return parsed events."""
+        import json
+
+        try:
+            chunk_str = chunk.decode("utf-8")
+        except UnicodeDecodeError:
+            # Skip malformed chunks
+            return []
+
+        self.buffer += chunk_str
+        events = []
+
+        # Process complete lines
+        while "\n" in self.buffer:
+            line, self.buffer = self.buffer.split("\n", 1)
+            line = line.rstrip("\r")  # Handle CRLF
+
+            if line.startswith("data: "):
+                data_str = line[6:].strip()
+                if data_str == "[DONE]":
+                    events.append({"type": "done"})
+                elif data_str:
+                    try:
+                        event_data = json.loads(data_str)
+                        events.append({"type": "data", "data": event_data})
+                    except json.JSONDecodeError:
+                        # Skip malformed JSON
+                        continue
+
+        return events
+
+    def extract_content(self, event_data: dict) -> str:
+        """Extract content from event data."""
+        return _extract_content_from_chunk(event_data)
+
+    def add_content(self, content: str) -> None:
+        """Add content to the buffer."""
+        if content:
+            self.content_buffer.append(content)
+
+    def get_complete_content(self) -> str:
+        """Get the complete buffered content."""
+        return "".join(self.content_buffer)
+
+
+def _log_streaming_response(response, response_body: list) -> None:
+    """Log streaming response with robust SSE parsing."""
+    from starlette.concurrency import iterate_in_threadpool
+
+    sse_decoder = SSEDecoder()
+    chunk_count = 0
+
+    def buffered_iterator():
+        nonlocal chunk_count
+
+        for chunk in response_body:
+            chunk_count += 1
+            yield chunk
+
+            # Parse SSE events from chunk
+            events = sse_decoder.decode_chunk(chunk)
+
+            for event in events:
+                if event["type"] == "data":
+                    content = sse_decoder.extract_content(event["data"])
+                    sse_decoder.add_content(content)
+                elif event["type"] == "done":
+                    # Log complete content when done
+                    full_content = sse_decoder.get_complete_content()
+                    if full_content:
+                        # Truncate if too long
+                        if len(full_content) > 2048:
+                            full_content = full_content[:2048] + ""
+                            "...[truncated]"
+                        logger.info(
+                            "response_body={streaming_complete: content=%r, chunks=%d}",
+                            full_content,
+                            chunk_count,
+                        )
+                    else:
+                        logger.info(
+                            "response_body={streaming_complete: no_content, chunks=%d}",
+                            chunk_count,
+                        )
+                    return
+
+    response.body_iterator = iterate_in_threadpool(buffered_iterator())
+    logger.info("response_body={streaming_started: chunks=%d}", len(response_body))
+
+
+def _log_non_streaming_response(response_body: list) -> None:
+    """Log non-streaming response."""
+    try:
+        decoded_body = response_body[0].decode()
+        logger.info("response_body={%s}", decoded_body)
+    except UnicodeDecodeError:
+        logger.info("response_body={<binary_data>}")
+
+
+def build_app(args: Namespace) -> FastAPI:
+    if args.disable_fastapi_docs:
+        app = FastAPI(
+            openapi_url=None, docs_url=None, redoc_url=None, lifespan=lifespan
+        )
+    else:
+        app = FastAPI(lifespan=lifespan)
+
+    if envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
+        logger.warning(
+            "LoRA dynamic loading & unloading is enabled in the API server. "
+            "This should ONLY be used for local development!"
+        )
+        from vllm.entrypoints.dynamic_lora import register_dynamic_lora_routes
+
+        register_dynamic_lora_routes(router)
+
+    from vllm.entrypoints.sagemaker.routes import register_sagemaker_routes
+
+    register_sagemaker_routes(router)
+
+    app.include_router(router)
+    app.root_path = args.root_path
+
+    mount_metrics(app)
+
+    app.add_middleware(
+        CORSMiddleware,
+        allow_origins=args.allowed_origins,
+        allow_credentials=args.allow_credentials,
+        allow_methods=args.allowed_methods,
+        allow_headers=args.allowed_headers,
+    )
+
+    @app.exception_handler(HTTPException)
+    async def http_exception_handler(_: Request, exc: HTTPException):
+        err = ErrorResponse(
+            error=ErrorInfo(
+                message=exc.detail,
+                type=HTTPStatus(exc.status_code).phrase,
+                code=exc.status_code,
+            )
+        )
+        return JSONResponse(err.model_dump(), status_code=exc.status_code)
+
+    @app.exception_handler(RequestValidationError)
+    async def validation_exception_handler(_: Request, exc: RequestValidationError):
+        exc_str = str(exc)
+        errors_str = str(exc.errors())
+
+        if exc.errors() and errors_str and errors_str != exc_str:
+            message = f"{exc_str} {errors_str}"
+        else:
+            message = exc_str
+
+        err = ErrorResponse(
+            error=ErrorInfo(
+                message=message,
+                type=HTTPStatus.BAD_REQUEST.phrase,
+                code=HTTPStatus.BAD_REQUEST,
+            )
+        )
+        return JSONResponse(err.model_dump(), status_code=HTTPStatus.BAD_REQUEST)
+
+    # Ensure --api-key option from CLI takes precedence over VLLM_API_KEY
+    if tokens := [key for key in (args.api_key or [envs.VLLM_API_KEY]) if key]:
+        app.add_middleware(AuthenticationMiddleware, tokens=tokens)
+
+    if args.enable_request_id_headers:
+        app.add_middleware(XRequestIdMiddleware)
+
+    # Add scaling middleware to check for scaling state
+    app.add_middleware(ScalingMiddleware)
+
+    if envs.VLLM_DEBUG_LOG_API_SERVER_RESPONSE:
+        logger.warning(
+            "CAUTION: Enabling log response in the API Server. "
+            "This can include sensitive information and should be "
+            "avoided in production."
+        )
+
+        @app.middleware("http")
+        async def log_response(request: Request, call_next):
+            response = await call_next(request)
+            response_body = [section async for section in response.body_iterator]
+            response.body_iterator = iterate_in_threadpool(iter(response_body))
+            # Check if this is a streaming response by looking at content-type
+            content_type = response.headers.get("content-type", "")
+            is_streaming = content_type == "text/event-stream; charset=utf-8"
+
+            # Log response body based on type
+            if not response_body:
+                logger.info("response_body={<empty>}")
+            elif is_streaming:
+                _log_streaming_response(response, response_body)
+            else:
+                _log_non_streaming_response(response_body)
+            return response
+
+    for middleware in args.middleware:
+        module_path, object_name = middleware.rsplit(".", 1)
+        imported = getattr(importlib.import_module(module_path), object_name)
+        if inspect.isclass(imported):
+            app.add_middleware(imported)  # type: ignore[arg-type]
+        elif inspect.iscoroutinefunction(imported):
+            app.middleware("http")(imported)
+        else:
+            raise ValueError(
+                f"Invalid middleware {middleware}. Must be a function or a class."
+            )
+
+    app = sagemaker_standards.bootstrap(app)
+    # Optional endpoints
+    if args.tokens_only:
+
+        @app.post("/abort_requests")
+        async def abort_requests(raw_request: Request):
+            """
+            Abort one or more requests. To be used in a
+            Disaggregated Everything setup.
+            """
+            try:
+                body = await raw_request.json()
+            except json.JSONDecodeError as e:
+                raise HTTPException(
+                    status_code=HTTPStatus.BAD_REQUEST.value,
+                    detail=f"JSON decode error: {e}",
+                ) from e
+            request_ids = body.get("request_ids")
+            if request_ids is None:
+                raise HTTPException(
+                    status_code=HTTPStatus.BAD_REQUEST.value,
+                    detail="Missing 'request_ids' in request body",
+                )
+            # Abort requests in background
+            asyncio.create_task(engine_client(raw_request).abort(request_ids))
+            return Response(status_code=200)
+
+    return app
+
+
+async def init_app_state(
+    engine_client: EngineClient,
+    state: State,
+    args: Namespace,
+) -> None:
+    vllm_config = engine_client.vllm_config
+
+    if args.served_model_name is not None:
+        served_model_names = args.served_model_name
+    else:
+        served_model_names = [args.model]
+
+    if args.enable_log_requests:
+        request_logger = RequestLogger(max_log_len=args.max_log_len)
+    else:
+        request_logger = None
+
+    base_model_paths = [
+        BaseModelPath(name=name, model_path=args.model) for name in served_model_names
+    ]
+
+    state.engine_client = engine_client
+    state.log_stats = not args.disable_log_stats
+    state.vllm_config = vllm_config
+
+    supported_tasks = await engine_client.get_supported_tasks()
+    logger.info("Supported tasks: %s", supported_tasks)
+
+    resolved_chat_template = await process_chat_template(
+        args.chat_template, engine_client, vllm_config.model_config
+    )
+
+    if args.tool_server == "demo":
+        tool_server: ToolServer | None = DemoToolServer()
+        assert isinstance(tool_server, DemoToolServer)
+        await tool_server.init_and_validate()
+    elif args.tool_server:
+        tool_server = MCPToolServer()
+        await tool_server.add_tool_server(args.tool_server)
+    else:
+        tool_server = None
+
+    # Merge default_mm_loras into the static lora_modules
+    default_mm_loras = (
+        vllm_config.lora_config.default_mm_loras
+        if vllm_config.lora_config is not None
+        else {}
+    )
+
+    default_mm_loras = (
+        vllm_config.lora_config.default_mm_loras
+        if vllm_config.lora_config is not None
+        else {}
+    )
+    lora_modules = process_lora_modules(args.lora_modules, default_mm_loras)
+
+    state.openai_serving_models = OpenAIServingModels(
+        engine_client=engine_client,
+        base_model_paths=base_model_paths,
+        lora_modules=lora_modules,
+    )
+    await state.openai_serving_models.init_static_loras()
+    state.openai_serving_responses = (
+        OpenAIServingResponses(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            enable_auto_tools=args.enable_auto_tool_choice,
+            tool_parser=args.tool_call_parser,
+            tool_server=tool_server,
+            reasoning_parser=args.structured_outputs_config.reasoning_parser,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+            enable_log_outputs=args.enable_log_outputs,
+            log_error_stack=args.log_error_stack,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+    state.openai_serving_chat = (
+        OpenAIServingChat(
+            engine_client,
+            state.openai_serving_models,
+            args.response_role,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            trust_request_chat_template=args.trust_request_chat_template,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            enable_auto_tools=args.enable_auto_tool_choice,
+            exclude_tools_when_tool_choice_none=args.exclude_tools_when_tool_choice_none,
+            tool_parser=args.tool_call_parser,
+            reasoning_parser=args.structured_outputs_config.reasoning_parser,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+            enable_log_outputs=args.enable_log_outputs,
+            log_error_stack=args.log_error_stack,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+    state.openai_serving_completion = (
+        OpenAIServingCompletion(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+            log_error_stack=args.log_error_stack,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+    state.openai_serving_pooling = (
+        (
+            OpenAIServingPooling(
+                engine_client,
+                state.openai_serving_models,
+                supported_tasks=supported_tasks,
+                request_logger=request_logger,
+                chat_template=resolved_chat_template,
+                chat_template_content_format=args.chat_template_content_format,
+                trust_request_chat_template=args.trust_request_chat_template,
+                log_error_stack=args.log_error_stack,
+            )
+        )
+        if any(task in POOLING_TASKS for task in supported_tasks)
+        else None
+    )
+    state.openai_serving_embedding = (
+        OpenAIServingEmbedding(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            trust_request_chat_template=args.trust_request_chat_template,
+            log_error_stack=args.log_error_stack,
+        )
+        if "embed" in supported_tasks
+        else None
+    )
+    state.openai_serving_classification = (
+        ServingClassification(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            trust_request_chat_template=args.trust_request_chat_template,
+            log_error_stack=args.log_error_stack,
+        )
+        if "classify" in supported_tasks
+        else None
+    )
+    state.openai_serving_scores = (
+        ServingScores(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            log_error_stack=args.log_error_stack,
+        )
+        if ("embed" in supported_tasks or "score" in supported_tasks)
+        else None
+    )
+    state.openai_serving_tokenization = OpenAIServingTokenization(
+        engine_client,
+        state.openai_serving_models,
+        request_logger=request_logger,
+        chat_template=resolved_chat_template,
+        chat_template_content_format=args.chat_template_content_format,
+        trust_request_chat_template=args.trust_request_chat_template,
+        log_error_stack=args.log_error_stack,
+    )
+    state.openai_serving_transcription = (
+        OpenAIServingTranscription(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            log_error_stack=args.log_error_stack,
+            enable_force_include_usage=args.enable_force_include_usage,
+        )
+        if "transcription" in supported_tasks
+        else None
+    )
+    state.openai_serving_translation = (
+        OpenAIServingTranslation(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            log_error_stack=args.log_error_stack,
+            enable_force_include_usage=args.enable_force_include_usage,
+        )
+        if "transcription" in supported_tasks
+        else None
+    )
+    state.anthropic_serving_messages = (
+        AnthropicServingMessages(
+            engine_client,
+            state.openai_serving_models,
+            args.response_role,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            enable_auto_tools=args.enable_auto_tool_choice,
+            tool_parser=args.tool_call_parser,
+            reasoning_parser=args.structured_outputs_config.reasoning_parser,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+    state.serving_tokens = (
+        ServingTokens(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            log_error_stack=args.log_error_stack,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_log_outputs=args.enable_log_outputs,
+            force_no_detokenize=args.tokens_only,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+
+    state.enable_server_load_tracking = args.enable_server_load_tracking
+    state.server_load_metrics = 0
+
+
+def create_server_socket(addr: tuple[str, int]) -> socket.socket:
+    family = socket.AF_INET
+    if is_valid_ipv6_address(addr[0]):
+        family = socket.AF_INET6
+
+    sock = socket.socket(family=family, type=socket.SOCK_STREAM)
+    sock.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
+    sock.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEPORT, 1)
+    sock.bind(addr)
+
+    return sock
+
+
+def create_server_unix_socket(path: str) -> socket.socket:
+    sock = socket.socket(family=socket.AF_UNIX, type=socket.SOCK_STREAM)
+    sock.bind(path)
+    return sock
+
+
+def validate_api_server_args(args):
+    valid_tool_parses = ToolParserManager.list_registered()
+    if args.enable_auto_tool_choice and args.tool_call_parser not in valid_tool_parses:
+        raise KeyError(
+            f"invalid tool call parser: {args.tool_call_parser} "
+            f"(chose from {{ {','.join(valid_tool_parses)} }})"
+        )
+
+    valid_reasoning_parsers = ReasoningParserManager.list_registered()
+    if (
+        reasoning_parser := args.structured_outputs_config.reasoning_parser
+    ) and reasoning_parser not in valid_reasoning_parsers:
+        raise KeyError(
+            f"invalid reasoning parser: {reasoning_parser} "
+            f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
+        )
+
+
+def setup_server(args):
+    """Validate API server args, set up signal handler, create socket
+    ready to serve."""
+
+    logger.info("vLLM API server version %s", VLLM_VERSION)
+    log_non_default_args(args)
+
+    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
+        ToolParserManager.import_tool_parser(args.tool_parser_plugin)
+
+    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
+        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)
+
+    validate_api_server_args(args)
+
+    # workaround to make sure that we bind the port before the engine is set up.
+    # This avoids race conditions with ray.
+    # see https://github.com/vllm-project/vllm/issues/8204
+    if args.uds:
+        sock = create_server_unix_socket(args.uds)
+    else:
+        sock_addr = (args.host or "", args.port)
+        sock = create_server_socket(sock_addr)
+
+    # workaround to avoid footguns where uvicorn drops requests with too
+    # many concurrent requests active
+    set_ulimit()
+
+    def signal_handler(*_) -> None:
+        # Interrupt server on sigterm while initializing
+        raise KeyboardInterrupt("terminated")
+
+    signal.signal(signal.SIGTERM, signal_handler)
+
+    if args.uds:
+        listen_address = f"unix:{args.uds}"
+    else:
+        addr, port = sock_addr
+        is_ssl = args.ssl_keyfile and args.ssl_certfile
+        host_part = f"[{addr}]" if is_valid_ipv6_address(addr) else addr or "0.0.0.0"
+        listen_address = f"http{'s' if is_ssl else ''}://{host_part}:{port}"
+    return listen_address, sock
+
+
+async def run_server(args, **uvicorn_kwargs) -> None:
+    """Run a single-worker API server."""
+
+    # Add process-specific prefix to stdout and stderr.
+    decorate_logs("APIServer")
+
+    listen_address, sock = setup_server(args)
+    await run_server_worker(listen_address, sock, args, **uvicorn_kwargs)
+
+
+async def run_server_worker(
+    listen_address, sock, args, client_config=None, **uvicorn_kwargs
+) -> None:
+    """Run a single API server worker."""
+
+    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
+        ToolParserManager.import_tool_parser(args.tool_parser_plugin)
+
+    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
+        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)
+
+    # Load logging config for uvicorn if specified
+    log_config = load_log_config(args.log_config_file)
+    if log_config is not None:
+        uvicorn_kwargs["log_config"] = log_config
+
+    async with build_async_engine_client(
+        args,
+        client_config=client_config,
+    ) as engine_client:
+        maybe_register_tokenizer_info_endpoint(args)
+        app = build_app(args)
+
+        await init_app_state(engine_client, app.state, args)
+
+        logger.info(
+            "Starting vLLM API server %d on %s",
+            engine_client.vllm_config.parallel_config._api_process_rank,
+            listen_address,
+        )
+        shutdown_task = await serve_http(
+            app,
+            sock=sock,
+            enable_ssl_refresh=args.enable_ssl_refresh,
+            host=args.host,
+            port=args.port,
+            log_level=args.uvicorn_log_level,
+            # NOTE: When the 'disable_uvicorn_access_log' value is True,
+            # no access log will be output.
+            access_log=not args.disable_uvicorn_access_log,
+            timeout_keep_alive=envs.VLLM_HTTP_TIMEOUT_KEEP_ALIVE,
+            ssl_keyfile=args.ssl_keyfile,
+            ssl_certfile=args.ssl_certfile,
+            ssl_ca_certs=args.ssl_ca_certs,
+            ssl_cert_reqs=args.ssl_cert_reqs,
+            h11_max_incomplete_event_size=args.h11_max_incomplete_event_size,
+            h11_max_header_count=args.h11_max_header_count,
+            **uvicorn_kwargs,
+        )
+
+    # NB: Await server shutdown only after the backend context is exited
+    try:
+        await shutdown_task
+    finally:
+        sock.close()
+
+
+if __name__ == "__main__":
+    # NOTE(simon):
+    # This section should be in sync with vllm/entrypoints/cli/main.py for CLI
+    # entrypoints.
+    cli_env_setup()
+    parser = FlexibleArgumentParser(
+        description="vLLM OpenAI-Compatible RESTful API server."
+    )
+    parser = make_arg_parser(parser)
+    args = parser.parse_args()
+    validate_parsed_serve_args(args)
+
+    uvloop.run(run_server(args))
diff --git a/entrypoints/openai/cli_args.py b/entrypoints/openai/cli_args.py
new file mode 100644
index 0000000..946362c
--- /dev/null
+++ b/entrypoints/openai/cli_args.py
@@ -0,0 +1,302 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file contains the command line arguments for the vLLM's
+OpenAI-compatible server. It is kept in a separate file for documentation
+purposes.
+"""
+
+import argparse
+import json
+import ssl
+from collections.abc import Sequence
+from dataclasses import field
+from typing import Literal
+
+from pydantic.dataclasses import dataclass
+
+import vllm.envs as envs
+from vllm.config import config
+from vllm.engine.arg_utils import AsyncEngineArgs, optional_type
+from vllm.entrypoints.chat_utils import (
+    ChatTemplateContentFormatOption,
+    validate_chat_template,
+)
+from vllm.entrypoints.constants import (
+    H11_MAX_HEADER_COUNT_DEFAULT,
+    H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT,
+)
+from vllm.entrypoints.openai.serving_models import LoRAModulePath
+from vllm.entrypoints.openai.tool_parsers import ToolParserManager
+from vllm.logger import init_logger
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+
+logger = init_logger(__name__)
+
+
+class LoRAParserAction(argparse.Action):
+    def __call__(
+        self,
+        parser: argparse.ArgumentParser,
+        namespace: argparse.Namespace,
+        values: str | Sequence[str] | None,
+        option_string: str | None = None,
+    ):
+        if values is None:
+            values = []
+        if isinstance(values, str):
+            raise TypeError("Expected values to be a list")
+
+        lora_list: list[LoRAModulePath] = []
+        for item in values:
+            if item in [None, ""]:  # Skip if item is None or empty string
+                continue
+            if "=" in item and "," not in item:  # Old format: name=path
+                name, path = item.split("=")
+                lora_list.append(LoRAModulePath(name, path))
+            else:  # Assume JSON format
+                try:
+                    lora_dict = json.loads(item)
+                    lora = LoRAModulePath(**lora_dict)
+                    lora_list.append(lora)
+                except json.JSONDecodeError:
+                    parser.error(f"Invalid JSON format for --lora-modules: {item}")
+                except TypeError as e:
+                    parser.error(
+                        f"Invalid fields for --lora-modules: {item} - {str(e)}"
+                    )
+        setattr(namespace, self.dest, lora_list)
+
+
+@config
+@dataclass
+class FrontendArgs:
+    """Arguments for the OpenAI-compatible frontend server."""
+
+    host: str | None = None
+    """Host name."""
+    port: int = 8000
+    """Port number."""
+    uds: str | None = None
+    """Unix domain socket path. If set, host and port arguments are ignored."""
+    uvicorn_log_level: Literal[
+        "debug", "info", "warning", "error", "critical", "trace"
+    ] = "info"
+    """Log level for uvicorn."""
+    disable_uvicorn_access_log: bool = False
+    """Disable uvicorn access log."""
+    allow_credentials: bool = False
+    """Allow credentials."""
+    allowed_origins: list[str] = field(default_factory=lambda: ["*"])
+    """Allowed origins."""
+    allowed_methods: list[str] = field(default_factory=lambda: ["*"])
+    """Allowed methods."""
+    allowed_headers: list[str] = field(default_factory=lambda: ["*"])
+    """Allowed headers."""
+    api_key: list[str] | None = None
+    """If provided, the server will require one of these keys to be presented in
+    the header."""
+    lora_modules: list[LoRAModulePath] | None = None
+    """LoRA modules configurations in either 'name=path' format or JSON format
+    or JSON list format. Example (old format): `'name=path'` Example (new
+    format): `{\"name\": \"name\", \"path\": \"lora_path\",
+    \"base_model_name\": \"id\"}`"""
+    chat_template: str | None = None
+    """The file path to the chat template, or the template in single-line form
+    for the specified model."""
+    chat_template_content_format: ChatTemplateContentFormatOption = "auto"
+    """The format to render message content within a chat template.
+
+    * "string" will render the content as a string. Example: `"Hello World"`
+    * "openai" will render the content as a list of dictionaries, similar to
+      OpenAI schema. Example: `[{"type": "text", "text": "Hello world!"}]`"""
+    trust_request_chat_template: bool = False
+    """Whether to trust the chat template provided in the request. If False,
+    the server will always use the chat template specified by `--chat-template`
+    or the ones from tokenizer."""
+    response_role: str = "assistant"
+    """The role name to return if `request.add_generation_prompt=true`."""
+    ssl_keyfile: str | None = None
+    """The file path to the SSL key file."""
+    ssl_certfile: str | None = None
+    """The file path to the SSL cert file."""
+    ssl_ca_certs: str | None = None
+    """The CA certificates file."""
+    enable_ssl_refresh: bool = False
+    """Refresh SSL Context when SSL certificate files change"""
+    ssl_cert_reqs: int = int(ssl.CERT_NONE)
+    """Whether client certificate is required (see stdlib ssl module's)."""
+    root_path: str | None = None
+    """FastAPI root_path when app is behind a path based routing proxy."""
+    middleware: list[str] = field(default_factory=lambda: [])
+    """Additional ASGI middleware to apply to the app. We accept multiple
+    --middleware arguments. The value should be an import path. If a function
+    is provided, vLLM will add it to the server using
+    `@app.middleware('http')`. If a class is provided, vLLM will
+    add it to the server using `app.add_middleware()`."""
+    return_tokens_as_token_ids: bool = False
+    """When `--max-logprobs` is specified, represents single tokens as
+    strings of the form 'token_id:{token_id}' so that tokens that are not
+    JSON-encodable can be identified."""
+    disable_frontend_multiprocessing: bool = False
+    """If specified, will run the OpenAI frontend server in the same process as
+    the model serving engine."""
+    enable_request_id_headers: bool = False
+    """If specified, API server will add X-Request-Id header to responses."""
+    enable_auto_tool_choice: bool = False
+    """Enable auto tool choice for supported models. Use `--tool-call-parser`
+    to specify which parser to use."""
+    exclude_tools_when_tool_choice_none: bool = False
+    """If specified, exclude tool definitions in prompts when
+    tool_choice='none'."""
+    tool_call_parser: str | None = None
+    """Select the tool call parser depending on the model that you're using.
+    This is used to parse the model-generated tool call into OpenAI API format.
+    Required for `--enable-auto-tool-choice`. You can choose any option from
+    the built-in parsers or register a plugin via `--tool-parser-plugin`."""
+    tool_parser_plugin: str = ""
+    """Special the tool parser plugin write to parse the model-generated tool
+    into OpenAI API format, the name register in this plugin can be used in
+    `--tool-call-parser`."""
+    tool_server: str | None = None
+    """Comma-separated list of host:port pairs (IPv4, IPv6, or hostname).
+    Examples: 127.0.0.1:8000, [::1]:8000, localhost:1234. Or `demo` for demo
+    purpose."""
+    log_config_file: str | None = envs.VLLM_LOGGING_CONFIG_PATH
+    """Path to logging config JSON file for both vllm and uvicorn"""
+    max_log_len: int | None = None
+    """Max number of prompt characters or prompt ID numbers being printed in
+    log. The default of None means unlimited."""
+    disable_fastapi_docs: bool = False
+    """Disable FastAPI's OpenAPI schema, Swagger UI, and ReDoc endpoint."""
+    enable_prompt_tokens_details: bool = False
+    """If set to True, enable prompt_tokens_details in usage."""
+    enable_server_load_tracking: bool = False
+    """If set to True, enable tracking server_load_metrics in the app state."""
+    enable_force_include_usage: bool = False
+    """If set to True, including usage on every request."""
+    enable_tokenizer_info_endpoint: bool = False
+    """Enable the /get_tokenizer_info endpoint. May expose chat
+    templates and other tokenizer configuration."""
+    enable_log_outputs: bool = False
+    """If True, log model outputs (generations).
+    Requires --enable-log-requests."""
+    h11_max_incomplete_event_size: int = H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT
+    """Maximum size (bytes) of an incomplete HTTP event (header or body) for
+    h11 parser. Helps mitigate header abuse. Default: 4194304 (4 MB)."""
+    h11_max_header_count: int = H11_MAX_HEADER_COUNT_DEFAULT
+    """Maximum number of HTTP headers allowed in a request for h11 parser.
+    Helps mitigate header abuse. Default: 256."""
+    log_error_stack: bool = envs.VLLM_SERVER_DEV_MODE
+    """If set to True, log the stack trace of error responses"""
+    tokens_only: bool = False
+    """
+    If set to True, only enable the Tokens In<>Out endpoint. 
+    This is intended for use in a Disaggregated Everything setup.
+    """
+
+    @staticmethod
+    def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+        from vllm.engine.arg_utils import get_kwargs
+
+        frontend_kwargs = get_kwargs(FrontendArgs)
+
+        # Special case: allowed_origins, allowed_methods, allowed_headers all
+        # need json.loads type
+        # Should also remove nargs
+        frontend_kwargs["allowed_origins"]["type"] = json.loads
+        frontend_kwargs["allowed_methods"]["type"] = json.loads
+        frontend_kwargs["allowed_headers"]["type"] = json.loads
+        del frontend_kwargs["allowed_origins"]["nargs"]
+        del frontend_kwargs["allowed_methods"]["nargs"]
+        del frontend_kwargs["allowed_headers"]["nargs"]
+
+        # Special case: LoRA modules need custom parser action and
+        # optional_type(str)
+        frontend_kwargs["lora_modules"]["type"] = optional_type(str)
+        frontend_kwargs["lora_modules"]["action"] = LoRAParserAction
+
+        # Special case: Middleware needs to append action
+        frontend_kwargs["middleware"]["action"] = "append"
+        frontend_kwargs["middleware"]["type"] = str
+        if "nargs" in frontend_kwargs["middleware"]:
+            del frontend_kwargs["middleware"]["nargs"]
+        frontend_kwargs["middleware"]["default"] = []
+
+        # Special case: Tool call parser shows built-in options.
+        valid_tool_parsers = list(ToolParserManager.list_registered())
+        parsers_str = ",".join(valid_tool_parsers)
+        frontend_kwargs["tool_call_parser"]["metavar"] = (
+            f"{{{parsers_str}}} or name registered in --tool-parser-plugin"
+        )
+
+        frontend_group = parser.add_argument_group(
+            title="Frontend",
+            description=FrontendArgs.__doc__,
+        )
+
+        for key, value in frontend_kwargs.items():
+            frontend_group.add_argument(f"--{key.replace('_', '-')}", **value)
+
+        return parser
+
+
+def make_arg_parser(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+    """Create the CLI argument parser used by the OpenAI API server.
+
+    We rely on the helper methods of `FrontendArgs` and `AsyncEngineArgs` to
+    register all arguments instead of manually enumerating them here. This
+    avoids code duplication and keeps the argument definitions in one place.
+    """
+    parser.add_argument(
+        "model_tag",
+        type=str,
+        nargs="?",
+        help="The model tag to serve (optional if specified in config)",
+    )
+    parser.add_argument(
+        "--headless",
+        action="store_true",
+        default=False,
+        help="Run in headless mode. See multi-node data parallel "
+        "documentation for more details.",
+    )
+    parser.add_argument(
+        "--api-server-count",
+        "-asc",
+        type=int,
+        default=1,
+        help="How many API server processes to run.",
+    )
+    parser.add_argument(
+        "--config",
+        help="Read CLI options from a config file. "
+        "Must be a YAML with the following options: "
+        "https://docs.vllm.ai/en/latest/configuration/serve_args.html",
+    )
+    parser = FrontendArgs.add_cli_args(parser)
+    parser = AsyncEngineArgs.add_cli_args(parser)
+
+    return parser
+
+
+def validate_parsed_serve_args(args: argparse.Namespace):
+    """Quick checks for model serve args that raise prior to loading."""
+    if hasattr(args, "subparser") and args.subparser != "serve":
+        return
+
+    # Ensure that the chat template is valid; raises if it likely isn't
+    validate_chat_template(args.chat_template)
+
+    # Enable auto tool needs a tool call parser to be valid
+    if args.enable_auto_tool_choice and not args.tool_call_parser:
+        raise TypeError("Error: --enable-auto-tool-choice requires --tool-call-parser")
+    if args.enable_log_outputs and not args.enable_log_requests:
+        raise TypeError("Error: --enable-log-outputs requires --enable-log-requests")
+
+
+def create_parser_for_docs() -> FlexibleArgumentParser:
+    parser_for_docs = FlexibleArgumentParser(
+        prog="-m vllm.entrypoints.openai.api_server"
+    )
+    return make_arg_parser(parser_for_docs)
diff --git a/entrypoints/openai/orca_metrics.py b/entrypoints/openai/orca_metrics.py
new file mode 100644
index 0000000..3808262
--- /dev/null
+++ b/entrypoints/openai/orca_metrics.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Utility functions that create ORCA endpoint load report response headers.
+"""
+
+import json
+from collections.abc import Mapping
+
+from vllm.logger import init_logger
+from vllm.v1.metrics.reader import Gauge, get_metrics_snapshot
+
+logger = init_logger(__name__)
+
+
+def create_orca_header(
+    metrics_format: str, named_metrics: list[tuple[str, float]]
+) -> Mapping[str, str] | None:
+    """
+    Creates ORCA headers named 'endpoint-load-metrics' in the specified format
+    and adds custom metrics to named_metrics.
+    ORCA headers format description: https://docs.google.com/document/d/1C1ybMmDKJIVlrbOLbywhu9iRYo4rilR-cT50OTtOFTs/edit?tab=t.0
+    ORCA proto https://github.com/cncf/xds/blob/main/xds/data/orca/v3/orca_load_report.proto
+
+    Parameters:
+    - metrics_format (str): The format of the header ('TEXT', 'JSON').
+    - named_metrics (List[Tuple[str, float]]): List of tuples with metric names
+    and their corresponding double values.
+
+    Returns:
+    - Optional[Mapping[str,str]]: A dictionary with header key as
+    'endpoint-load-metrics' and values as the ORCA header strings with
+    format prefix and data in  with named_metrics in.
+    """
+
+    if metrics_format.lower() not in ["text", "json"]:
+        logger.warning(
+            "Warning: `%s` format is not supported in the ORCA response header",
+            format,
+        )
+        return None
+
+    header = {}
+    orca_report = {
+        "named_metrics": {
+            metric_name: value
+            for metric_name, value in named_metrics
+            if isinstance(metric_name, str) and isinstance(value, float)
+        }
+    }
+    # output example:
+    # endpoint-load-metrics: TEXT named_metrics.kv_cache_utilization=0.4
+    if metrics_format.lower() == "text":
+        native_http_header = ", ".join(
+            [
+                f"named_metrics.{metric_name}={value}"
+                for metric_name, value in named_metrics
+                if isinstance(metric_name, str) and isinstance(value, float)
+            ]
+        )
+        header["endpoint-load-metrics"] = f"TEXT {native_http_header}"
+
+    # output example:
+    # endpoint-load-metrics: JSON “named_metrics”: {“custom-metric-util”: 0.4}
+    elif metrics_format.lower() == "json":
+        header["endpoint-load-metrics"] = f"JSON {json.dumps(orca_report)}"
+
+    logger.info("Created ORCA header %s", header)
+
+    return header
+
+
+def get_named_metrics_from_prometheus() -> list[tuple[str, float]]:
+    """
+    Collects current metrics from Prometheus and returns some of them
+    in the form of the `named_metrics` list for `create_orca_header()`.
+
+    Parameters:
+    - None
+
+    Returns:
+    - list[tuple[str, float]]: List of tuples of metric names and their values.
+    """
+    named_metrics: list[tuple[str, float]] = []
+    # Map from prometheus metric names to ORCA named metrics.
+    prometheus_to_orca_metrics = {
+        "vllm:kv_cache_usage_perc": "kv_cache_usage_perc",
+        "vllm:num_requests_waiting": "num_requests_waiting",
+    }
+    metrics = get_metrics_snapshot()
+    for metric in metrics:
+        orca_name = prometheus_to_orca_metrics.get(metric.name)
+        # If this metric is mapped into ORCA, then add it to the report.
+        # Note: Only Gauge metrics are currently supported.
+        if orca_name is not None and isinstance(metric, Gauge):
+            named_metrics.append((str(orca_name), float(metric.value)))
+    return named_metrics
+
+
+def metrics_header(metrics_format: str) -> Mapping[str, str] | None:
+    """
+    Creates ORCA headers named 'endpoint-load-metrics' in the specified format.
+    Metrics are collected from Prometheus using `get_named_metrics_from_prometheus()`.
+
+    ORCA headers format description: https://docs.google.com/document/d/1C1ybMmDKJIVlrbOLbywhu9iRYo4rilR-cT50OTtOFTs/edit?tab=t.0
+    ORCA proto https://github.com/cncf/xds/blob/main/xds/data/orca/v3/orca_load_report.proto
+
+    Parameters:
+    - metrics_format (str): The format of the header ('TEXT', 'JSON').
+
+    Returns:
+    - Optional[Mapping[str,str]]: A dictionary with header key as
+    'endpoint-load-metrics' and values as the ORCA header strings with
+    format prefix and data in  with named_metrics in.
+    """
+    if not metrics_format:
+        return None
+    # Get named metrics from prometheus.
+    named_metrics = get_named_metrics_from_prometheus()
+    return create_orca_header(metrics_format, named_metrics)
diff --git a/entrypoints/openai/protocol.py b/entrypoints/openai/protocol.py
new file mode 100644
index 0000000..65bd15b
--- /dev/null
+++ b/entrypoints/openai/protocol.py
@@ -0,0 +1,3299 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/lm-sys/FastChat/blob/168ccc29d3f7edc50823016105c024fe2282732a/fastchat/protocol/openai_api_protocol.py
+import json
+import time
+from http import HTTPStatus
+from typing import Annotated, Any, ClassVar, Generic, Literal, TypeAlias, TypeVar
+
+import regex as re
+import torch
+from fastapi import HTTPException, UploadFile
+from openai.types.chat.chat_completion_audio import (
+    ChatCompletionAudio as OpenAIChatCompletionAudio,
+)
+from openai.types.chat.chat_completion_message import Annotation as OpenAIAnnotation
+from openai.types.responses import (
+    ResponseCodeInterpreterCallCodeDeltaEvent,
+    ResponseCodeInterpreterCallCodeDoneEvent,
+    ResponseCodeInterpreterCallCompletedEvent,
+    ResponseCodeInterpreterCallInProgressEvent,
+    ResponseCodeInterpreterCallInterpretingEvent,
+    ResponseContentPartAddedEvent,
+    ResponseContentPartDoneEvent,
+    ResponseFunctionToolCall,
+    ResponseInputItemParam,
+    ResponseOutputItem,
+    ResponseOutputItemAddedEvent,
+    ResponseOutputItemDoneEvent,
+    ResponsePrompt,
+    ResponseReasoningItem,
+    ResponseReasoningTextDeltaEvent,
+    ResponseReasoningTextDoneEvent,
+    ResponseStatus,
+    ResponseWebSearchCallCompletedEvent,
+    ResponseWebSearchCallInProgressEvent,
+    ResponseWebSearchCallSearchingEvent,
+)
+from openai.types.responses import (
+    ResponseCompletedEvent as OpenAIResponseCompletedEvent,
+)
+from openai.types.responses import ResponseCreatedEvent as OpenAIResponseCreatedEvent
+from openai.types.responses import (
+    ResponseInProgressEvent as OpenAIResponseInProgressEvent,
+)
+from openai.types.responses.response_reasoning_item import (
+    Content as ResponseReasoningTextContent,
+)
+from openai_harmony import Message as OpenAIHarmonyMessage
+
+from vllm.config.pooler import get_use_activation
+from vllm.tasks import PoolingTask
+from vllm.utils.serial_utils import (
+    EmbedDType,
+    EncodingFormat,
+    Endianness,
+)
+
+# Backward compatibility for OpenAI client versions
+try:  # For older openai versions (< 1.100.0)
+    from openai.types.responses import ResponseTextConfig
+except ImportError:  # For newer openai versions (>= 1.100.0)
+    from openai.types.responses import ResponseFormatTextConfig as ResponseTextConfig
+
+
+from openai.types.responses.response import IncompleteDetails, ToolChoice
+from openai.types.responses.tool import Tool
+from openai.types.shared import Metadata, Reasoning
+from pydantic import (
+    BaseModel,
+    ConfigDict,
+    Field,
+    TypeAdapter,
+    ValidationError,
+    ValidationInfo,
+    field_serializer,
+    field_validator,
+    model_validator,
+)
+
+from vllm.entrypoints.chat_utils import ChatCompletionMessageParam, make_tool_call_id
+from vllm.entrypoints.score_utils import ScoreContentPartParam, ScoreMultiModalParam
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import (
+    BeamSearchParams,
+    RequestOutputKind,
+    SamplingParams,
+    StructuredOutputsParams,
+)
+from vllm.utils import random_uuid
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+logger = init_logger(__name__)
+
+_LONG_INFO = torch.iinfo(torch.long)
+
+
+class OpenAIBaseModel(BaseModel):
+    # OpenAI API does allow extra fields
+    model_config = ConfigDict(extra="allow")
+
+    # Cache class field names
+    field_names: ClassVar[set[str] | None] = None
+
+    @model_validator(mode="wrap")
+    @classmethod
+    def __log_extra_fields__(cls, data, handler):
+        result = handler(data)
+        if not isinstance(data, dict):
+            return result
+        field_names = cls.field_names
+        if field_names is None:
+            # Get all class field names and their potential aliases
+            field_names = set()
+            for field_name, field in cls.model_fields.items():
+                field_names.add(field_name)
+                if alias := getattr(field, "alias", None):
+                    field_names.add(alias)
+            cls.field_names = field_names
+
+        # Compare against both field names and aliases
+        if any(k not in field_names for k in data):
+            logger.warning(
+                "The following fields were present in the request but ignored: %s",
+                data.keys() - field_names,
+            )
+        return result
+
+
+class ErrorInfo(OpenAIBaseModel):
+    message: str
+    type: str
+    param: str | None = None
+    code: int
+
+
+class ErrorResponse(OpenAIBaseModel):
+    error: ErrorInfo
+
+
+class ModelPermission(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"modelperm-{random_uuid()}")
+    object: str = "model_permission"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    allow_create_engine: bool = False
+    allow_sampling: bool = True
+    allow_logprobs: bool = True
+    allow_search_indices: bool = False
+    allow_view: bool = True
+    allow_fine_tuning: bool = False
+    organization: str = "*"
+    group: str | None = None
+    is_blocking: bool = False
+
+
+class ModelCard(OpenAIBaseModel):
+    id: str
+    object: str = "model"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    owned_by: str = "vllm"
+    root: str | None = None
+    parent: str | None = None
+    max_model_len: int | None = None
+    permission: list[ModelPermission] = Field(default_factory=list)
+
+
+class ModelList(OpenAIBaseModel):
+    object: str = "list"
+    data: list[ModelCard] = Field(default_factory=list)
+
+
+class PromptTokenUsageInfo(OpenAIBaseModel):
+    cached_tokens: int | None = None
+
+
+class UsageInfo(OpenAIBaseModel):
+    prompt_tokens: int = 0
+    total_tokens: int = 0
+    completion_tokens: int | None = 0
+    prompt_tokens_details: PromptTokenUsageInfo | None = None
+
+
+class RequestResponseMetadata(BaseModel):
+    request_id: str
+    final_usage_info: UsageInfo | None = None
+
+
+class JsonSchemaResponseFormat(OpenAIBaseModel):
+    name: str
+    description: str | None = None
+    # schema is the field in openai but that causes conflicts with pydantic so
+    # instead use json_schema with an alias
+    json_schema: dict[str, Any] | None = Field(default=None, alias="schema")
+    strict: bool | None = None
+
+
+class LegacyStructuralTag(OpenAIBaseModel):
+    begin: str
+    # schema is the field, but that causes conflicts with pydantic so
+    # instead use structural_tag_schema with an alias
+    structural_tag_schema: dict[str, Any] | None = Field(default=None, alias="schema")
+    end: str
+
+
+class LegacyStructuralTagResponseFormat(OpenAIBaseModel):
+    type: Literal["structural_tag"]
+    structures: list[LegacyStructuralTag]
+    triggers: list[str]
+
+
+class StructuralTagResponseFormat(OpenAIBaseModel):
+    type: Literal["structural_tag"]
+    format: Any
+
+
+AnyStructuralTagResponseFormat: TypeAlias = (
+    LegacyStructuralTagResponseFormat | StructuralTagResponseFormat
+)
+
+
+class ResponseFormat(OpenAIBaseModel):
+    # type must be "json_schema", "json_object", or "text"
+    type: Literal["text", "json_object", "json_schema"]
+    json_schema: JsonSchemaResponseFormat | None = None
+
+
+AnyResponseFormat: TypeAlias = (
+    ResponseFormat | StructuralTagResponseFormat | LegacyStructuralTagResponseFormat
+)
+
+
+class StreamOptions(OpenAIBaseModel):
+    include_usage: bool | None = True
+    continuous_usage_stats: bool | None = False
+
+
+class FunctionDefinition(OpenAIBaseModel):
+    name: str
+    description: str | None = None
+    parameters: dict[str, Any] | None = None
+
+
+class ChatCompletionToolsParam(OpenAIBaseModel):
+    type: Literal["function"] = "function"
+    function: FunctionDefinition
+
+
+class ChatCompletionNamedFunction(OpenAIBaseModel):
+    name: str
+
+
+class ChatCompletionNamedToolChoiceParam(OpenAIBaseModel):
+    function: ChatCompletionNamedFunction
+    type: Literal["function"] = "function"
+
+
+# extra="forbid" is a workaround to have kwargs as a field,
+# see https://github.com/pydantic/pydantic/issues/3125
+class LogitsProcessorConstructor(BaseModel):
+    qualname: str
+    args: list[Any] | None = None
+    kwargs: dict[str, Any] | None = None
+
+    model_config = ConfigDict(extra="forbid")
+
+
+LogitsProcessors = list[str | LogitsProcessorConstructor]
+
+
+def get_logits_processors(
+    processors: LogitsProcessors | None, pattern: str | None
+) -> list[Any] | None:
+    if processors and pattern:
+        logits_processors = []
+        for processor in processors:
+            qualname = processor if isinstance(processor, str) else processor.qualname
+            if not re.match(pattern, qualname):
+                raise ValueError(
+                    f"Logits processor '{qualname}' is not allowed by this "
+                    "server. See --logits-processor-pattern engine argument "
+                    "for more information."
+                )
+            try:
+                logits_processor = resolve_obj_by_qualname(qualname)
+            except Exception as e:
+                raise ValueError(
+                    f"Logits processor '{qualname}' could not be resolved: {e}"
+                ) from e
+            if isinstance(processor, LogitsProcessorConstructor):
+                logits_processor = logits_processor(
+                    *processor.args or [], **processor.kwargs or {}
+                )
+            logits_processors.append(logits_processor)
+        return logits_processors
+    elif processors:
+        raise ValueError(
+            "The `logits_processors` argument is not supported by this "
+            "server. See --logits-processor-pattern engine argument "
+            "for more information."
+        )
+    return None
+
+
+ResponseInputOutputItem: TypeAlias = (
+    ResponseInputItemParam | ResponseReasoningItem | ResponseFunctionToolCall
+)
+
+
+class ResponsesRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/responses/create
+    background: bool | None = False
+    include: (
+        list[
+            Literal[
+                "code_interpreter_call.outputs",
+                "computer_call_output.output.image_url",
+                "file_search_call.results",
+                "message.input_image.image_url",
+                "message.output_text.logprobs",
+                "reasoning.encrypted_content",
+            ],
+        ]
+        | None
+    ) = None
+    input: str | list[ResponseInputOutputItem]
+    instructions: str | None = None
+    max_output_tokens: int | None = None
+    max_tool_calls: int | None = None
+    metadata: Metadata | None = None
+    model: str | None = None
+    parallel_tool_calls: bool | None = True
+    previous_response_id: str | None = None
+    prompt: ResponsePrompt | None = None
+    reasoning: Reasoning | None = None
+    service_tier: Literal["auto", "default", "flex", "scale", "priority"] = "auto"
+    store: bool | None = True
+    stream: bool | None = False
+    temperature: float | None = None
+    text: ResponseTextConfig | None = None
+    tool_choice: ToolChoice = "auto"
+    tools: list[Tool] = Field(default_factory=list)
+    top_logprobs: int | None = 0
+    top_p: float | None = None
+    truncation: Literal["auto", "disabled"] | None = "disabled"
+    user: str | None = None
+
+    # --8<-- [start:responses-extra-params]
+    request_id: str = Field(
+        default_factory=lambda: f"resp_{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    cache_salt: str | None = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit). Not supported by vLLM engine V0."
+        ),
+    )
+
+    enable_response_messages: bool = Field(
+        default=False,
+        description=(
+            "Dictates whether or not to return messages as part of the "
+            "response object. Currently only supported for"
+            "non-background and gpt-oss only. "
+        ),
+    )
+    # similar to input_messages / output_messages in ResponsesResponse
+    # we take in previous_input_messages (ie in harmony format)
+    # this cannot be used in conjunction with previous_response_id
+    # TODO: consider supporting non harmony messages as well
+    previous_input_messages: list[OpenAIHarmonyMessage | dict] | None = None
+    # --8<-- [end:responses-extra-params]
+
+    _DEFAULT_SAMPLING_PARAMS = {
+        "temperature": 1.0,
+        "top_p": 1.0,
+    }
+
+    def to_sampling_params(
+        self,
+        default_max_tokens: int,
+        default_sampling_params: dict | None = None,
+    ) -> SamplingParams:
+        if self.max_output_tokens is None:
+            max_tokens = default_max_tokens
+        else:
+            max_tokens = min(self.max_output_tokens, default_max_tokens)
+
+        default_sampling_params = default_sampling_params or {}
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+        if (top_p := self.top_p) is None:
+            top_p = default_sampling_params.get(
+                "top_p", self._DEFAULT_SAMPLING_PARAMS["top_p"]
+            )
+        stop_token_ids = default_sampling_params.get("stop_token_ids")
+
+        # Structured output
+        structured_outputs = None
+        if self.text is not None and self.text.format is not None:
+            response_format = self.text.format
+            if (
+                response_format.type == "json_schema"
+                and response_format.schema_ is not None
+            ):
+                structured_outputs = StructuredOutputsParams(
+                    json=response_format.schema_
+                )
+            elif response_format.type == "json_object":
+                raise NotImplementedError("json_object is not supported")
+
+        # TODO: add more parameters
+        return SamplingParams.from_optional(
+            temperature=temperature,
+            top_p=top_p,
+            max_tokens=max_tokens,
+            logprobs=self.top_logprobs if self.is_include_output_logprobs() else None,
+            stop_token_ids=stop_token_ids,
+            output_kind=(
+                RequestOutputKind.DELTA if self.stream else RequestOutputKind.FINAL_ONLY
+            ),
+            structured_outputs=structured_outputs,
+        )
+
+    def is_include_output_logprobs(self) -> bool:
+        """Check if the request includes output logprobs."""
+        if self.include is None:
+            return False
+        return (
+            isinstance(self.include, list)
+            and "message.output_text.logprobs" in self.include
+        )
+
+    @model_validator(mode="before")
+    def validate_background(cls, data):
+        if not data.get("background"):
+            return data
+        if not data.get("store", True):
+            raise ValueError("background can only be used when `store` is true")
+        return data
+
+    @model_validator(mode="before")
+    def validate_prompt(cls, data):
+        if data.get("prompt") is not None:
+            raise ValueError("prompt template is not supported")
+        return data
+
+    @model_validator(mode="before")
+    def check_cache_salt_support(cls, data):
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
+        return data
+
+    @model_validator(mode="before")
+    def function_call_parsing(cls, data):
+        """Parse function_call dictionaries into ResponseFunctionToolCall objects.
+        This ensures Pydantic can properly resolve union types in the input field.
+        Function calls provided as dicts are converted to ResponseFunctionToolCall
+        objects before validation, while invalid structures are left for Pydantic
+        to reject with appropriate error messages.
+        """
+
+        input_data = data.get("input")
+
+        # Early return for None, strings, or bytes
+        # (strings are iterable but shouldn't be processed)
+        if input_data is None or isinstance(input_data, (str, bytes)):
+            return data
+
+        # Convert iterators (like ValidatorIterator) to list
+        if not isinstance(input_data, list):
+            try:
+                input_data = list(input_data)
+            except TypeError:
+                # Not iterable, leave as-is for Pydantic to handle
+                return data
+
+        processed_input = []
+        for item in input_data:
+            if isinstance(item, dict) and item.get("type") == "function_call":
+                try:
+                    processed_input.append(ResponseFunctionToolCall(**item))
+                except ValidationError:
+                    # Let Pydantic handle validation for malformed function calls
+                    logger.debug(
+                        "Failed to parse function_call to ResponseFunctionToolCall, "
+                        "leaving for Pydantic validation"
+                    )
+                    processed_input.append(item)
+            else:
+                processed_input.append(item)
+
+        data["input"] = processed_input
+        return data
+
+
+class ChatCompletionRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/chat/create
+    messages: list[ChatCompletionMessageParam]
+    model: str | None = None
+    frequency_penalty: float | None = 0.0
+    logit_bias: dict[str, float] | None = None
+    logprobs: bool | None = False
+    top_logprobs: int | None = 0
+    max_tokens: int | None = Field(
+        default=None,
+        deprecated="max_tokens is deprecated in favor of "
+        "the max_completion_tokens field",
+    )
+    max_completion_tokens: int | None = None
+    n: int | None = 1
+    presence_penalty: float | None = 0.0
+    response_format: AnyResponseFormat | None = None
+    seed: int | None = Field(None, ge=_LONG_INFO.min, le=_LONG_INFO.max)
+    stop: str | list[str] | None = []
+    stream: bool | None = False
+    stream_options: StreamOptions | None = None
+    temperature: float | None = None
+    top_p: float | None = None
+    tools: list[ChatCompletionToolsParam] | None = None
+    tool_choice: (
+        Literal["none"]
+        | Literal["auto"]
+        | Literal["required"]
+        | ChatCompletionNamedToolChoiceParam
+        | None
+    ) = "none"
+    reasoning_effort: Literal["low", "medium", "high"] | None = None
+    include_reasoning: bool = True
+
+    # NOTE this will be ignored by vLLM -- the model determines the behavior
+    parallel_tool_calls: bool | None = False
+    user: str | None = None
+
+    # --8<-- [start:chat-completion-sampling-params]
+    best_of: int | None = None
+    use_beam_search: bool = False
+    top_k: int | None = None
+    min_p: float | None = None
+    repetition_penalty: float | None = None
+    length_penalty: float = 1.0
+    stop_token_ids: list[int] | None = []
+    include_stop_str_in_output: bool = False
+    ignore_eos: bool = False
+    min_tokens: int = 0
+    skip_special_tokens: bool = True
+    spaces_between_special_tokens: bool = True
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+    prompt_logprobs: int | None = None
+    allowed_token_ids: list[int] | None = None
+    bad_words: list[str] = Field(default_factory=list)
+    # --8<-- [end:chat-completion-sampling-params]
+
+    # --8<-- [start:chat-completion-extra-params]
+    echo: bool = Field(
+        default=False,
+        description=(
+            "If true, the new message will be prepended with the last message "
+            "if they belong to the same role."
+        ),
+    )
+    add_generation_prompt: bool = Field(
+        default=True,
+        description=(
+            "If true, the generation prompt will be added to the chat template. "
+            "This is a parameter used by chat template in tokenizer config of the "
+            "model."
+        ),
+    )
+    continue_final_message: bool = Field(
+        default=False,
+        description=(
+            "If this is set, the chat will be formatted so that the final "
+            "message in the chat is open-ended, without any EOS tokens. The "
+            "model will continue this message rather than starting a new one. "
+            'This allows you to "prefill" part of the model\'s response for it. '
+            "Cannot be used at the same time as `add_generation_prompt`."
+        ),
+    )
+    add_special_tokens: bool = Field(
+        default=False,
+        description=(
+            "If true, special tokens (e.g. BOS) will be added to the prompt "
+            "on top of what is added by the chat template. "
+            "For most models, the chat template takes care of adding the "
+            "special tokens so this should be set to false (as is the "
+            "default)."
+        ),
+    )
+    documents: list[dict[str, str]] | None = Field(
+        default=None,
+        description=(
+            "A list of dicts representing documents that will be accessible to "
+            "the model if it is performing RAG (retrieval-augmented generation)."
+            " If the template does not support RAG, this argument will have no "
+            "effect. We recommend that each document should be a dict containing "
+            '"title" and "text" keys.'
+        ),
+    )
+    chat_template: str | None = Field(
+        default=None,
+        description=(
+            "A Jinja template to use for this conversion. "
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        ),
+    )
+    chat_template_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=(
+            "Additional keyword args to pass to the template renderer. "
+            "Will be accessible by the chat template."
+        ),
+    )
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+    structured_outputs: StructuredOutputsParams | None = Field(
+        default=None,
+        description="Additional kwargs for structured outputs",
+    )
+    guided_json: str | dict | BaseModel | None = Field(
+        default=None,
+        description=(
+            "`guided_json` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `json` to `structured_outputs` instead."
+        ),
+    )
+    guided_regex: str | None = Field(
+        default=None,
+        description=(
+            "`guided_regex` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `regex` to `structured_outputs` instead."
+        ),
+    )
+    guided_choice: list[str] | None = Field(
+        default=None,
+        description=(
+            "`guided_choice` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `choice` to `structured_outputs` instead."
+        ),
+    )
+    guided_grammar: str | None = Field(
+        default=None,
+        description=(
+            "`guided_grammar` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `grammar` to `structured_outputs` instead."
+        ),
+    )
+    structural_tag: str | None = Field(
+        default=None,
+        description=(
+            "`structural_tag` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `structural_tag` to `structured_outputs` instead."
+        ),
+    )
+    guided_decoding_backend: str | None = Field(
+        default=None,
+        description=(
+            "`guided_decoding_backend` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please remove it from your request."
+        ),
+    )
+    guided_whitespace_pattern: str | None = Field(
+        default=None,
+        description=(
+            "`guided_whitespace_pattern` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `whitespace_pattern` to `structured_outputs` instead."
+        ),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    logits_processors: LogitsProcessors | None = Field(
+        default=None,
+        description=(
+            "A list of either qualified names of logits processors, or "
+            "constructor objects, to apply when sampling. A constructor is "
+            "a JSON object with a required 'qualname' field specifying the "
+            "qualified name of the processor class/factory, and optional "
+            "'args' and 'kwargs' fields containing positional and keyword "
+            "arguments. For example: {'qualname': "
+            "'my_module.MyLogitsProcessor', 'args': [1, 2], 'kwargs': "
+            "{'param': 'value'}}."
+        ),
+    )
+    return_tokens_as_token_ids: bool | None = Field(
+        default=None,
+        description=(
+            "If specified with 'logprobs', tokens are represented "
+            " as strings of the form 'token_id:{token_id}' so that tokens "
+            "that are not JSON-encodable can be identified."
+        ),
+    )
+    return_token_ids: bool | None = Field(
+        default=None,
+        description=(
+            "If specified, the result will include token IDs alongside the "
+            "generated text. In streaming mode, prompt_token_ids is included "
+            "only in the first chunk, and token_ids contains the delta tokens "
+            "for each chunk. This is useful for debugging or when you "
+            "need to map generated text back to input tokens."
+        ),
+    )
+    cache_salt: str | None = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit). Not supported by vLLM engine V0."
+        ),
+    )
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
+
+    vllm_xargs: dict[str, str | int | float | list[str | int | float]] | None = Field(
+        default=None,
+        description=(
+            "Additional request parameters with (list of) string or "
+            "numeric values, used by custom extensions."
+        ),
+    )
+
+    # --8<-- [end:chat-completion-extra-params]
+
+    # Default sampling parameters for chat completion requests
+    _DEFAULT_SAMPLING_PARAMS: dict = {
+        "repetition_penalty": 1.0,
+        "temperature": 1.0,
+        "top_p": 1.0,
+        "top_k": 0,
+        "min_p": 0.0,
+    }
+
+    def to_beam_search_params(
+        self, max_tokens: int, default_sampling_params: dict
+    ) -> BeamSearchParams:
+        n = self.n if self.n is not None else 1
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+
+        return BeamSearchParams(
+            beam_width=n,
+            max_tokens=max_tokens,
+            ignore_eos=self.ignore_eos,
+            temperature=temperature,
+            length_penalty=self.length_penalty,
+            include_stop_str_in_output=self.include_stop_str_in_output,
+        )
+
+    def to_sampling_params(
+        self,
+        max_tokens: int,
+        logits_processor_pattern: str | None,
+        default_sampling_params: dict,
+    ) -> SamplingParams:
+        # Default parameters
+        if (repetition_penalty := self.repetition_penalty) is None:
+            repetition_penalty = default_sampling_params.get(
+                "repetition_penalty",
+                self._DEFAULT_SAMPLING_PARAMS["repetition_penalty"],
+            )
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+        if (top_p := self.top_p) is None:
+            top_p = default_sampling_params.get(
+                "top_p", self._DEFAULT_SAMPLING_PARAMS["top_p"]
+            )
+        if (top_k := self.top_k) is None:
+            top_k = default_sampling_params.get(
+                "top_k", self._DEFAULT_SAMPLING_PARAMS["top_k"]
+            )
+        if (min_p := self.min_p) is None:
+            min_p = default_sampling_params.get(
+                "min_p", self._DEFAULT_SAMPLING_PARAMS["min_p"]
+            )
+
+        prompt_logprobs = self.prompt_logprobs
+        if prompt_logprobs is None and self.echo:
+            prompt_logprobs = self.top_logprobs
+
+        # Forward deprecated guided_* parameters to structured_outputs
+        if self.structured_outputs is None:
+            kwargs = dict[str, Any](
+                json=self.guided_json,
+                regex=self.guided_regex,
+                choice=self.guided_choice,
+                grammar=self.guided_grammar,
+                whitespace_pattern=self.guided_whitespace_pattern,
+                structural_tag=self.structural_tag,
+            )
+            kwargs = {k: v for k, v in kwargs.items() if v is not None}
+            if len(kwargs) > 0:
+                self.structured_outputs = StructuredOutputsParams(**kwargs)
+
+        response_format = self.response_format
+        if response_format is not None:
+            # If structured outputs wasn't already enabled,
+            # we must enable it for these features to work
+            if self.structured_outputs is None:
+                self.structured_outputs = StructuredOutputsParams()
+
+            # Set structured output params for response format
+            if response_format is not None:
+                if response_format.type == "json_object":
+                    self.structured_outputs.json_object = True
+                elif response_format.type == "json_schema":
+                    json_schema = response_format.json_schema
+                    assert json_schema is not None
+                    self.structured_outputs.json = json_schema.json_schema
+                elif response_format.type == "structural_tag":
+                    structural_tag = response_format
+                    assert structural_tag is not None and isinstance(
+                        structural_tag,
+                        (
+                            LegacyStructuralTagResponseFormat,
+                            StructuralTagResponseFormat,
+                        ),
+                    )
+                    s_tag_obj = structural_tag.model_dump(by_alias=True)
+                    self.structured_outputs.structural_tag = json.dumps(s_tag_obj)
+
+        extra_args: dict[str, Any] = self.vllm_xargs if self.vllm_xargs else {}
+        if self.kv_transfer_params:
+            # Pass in kv_transfer_params via extra_args
+            extra_args["kv_transfer_params"] = self.kv_transfer_params
+        return SamplingParams.from_optional(
+            n=self.n,
+            best_of=self.best_of,
+            presence_penalty=self.presence_penalty,
+            frequency_penalty=self.frequency_penalty,
+            repetition_penalty=repetition_penalty,
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            min_p=min_p,
+            seed=self.seed,
+            stop=self.stop,
+            stop_token_ids=self.stop_token_ids,
+            logprobs=self.top_logprobs if self.logprobs else None,
+            prompt_logprobs=prompt_logprobs,
+            ignore_eos=self.ignore_eos,
+            max_tokens=max_tokens,
+            min_tokens=self.min_tokens,
+            skip_special_tokens=self.skip_special_tokens,
+            spaces_between_special_tokens=self.spaces_between_special_tokens,
+            logits_processors=get_logits_processors(
+                self.logits_processors, logits_processor_pattern
+            ),
+            include_stop_str_in_output=self.include_stop_str_in_output,
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            output_kind=RequestOutputKind.DELTA
+            if self.stream
+            else RequestOutputKind.FINAL_ONLY,
+            structured_outputs=self.structured_outputs,
+            logit_bias=self.logit_bias,
+            bad_words=self.bad_words,
+            allowed_token_ids=self.allowed_token_ids,
+            extra_args=extra_args or None,
+        )
+
+    @model_validator(mode="before")
+    @classmethod
+    def validate_stream_options(cls, data):
+        if data.get("stream_options") and not data.get("stream"):
+            raise ValueError("Stream options can only be defined when `stream=True`.")
+
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_logprobs(cls, data):
+        if (prompt_logprobs := data.get("prompt_logprobs")) is not None:
+            if data.get("stream") and (prompt_logprobs > 0 or prompt_logprobs == -1):
+                raise ValueError(
+                    "`prompt_logprobs` are not available when `stream=True`."
+                )
+
+            if prompt_logprobs < 0 and prompt_logprobs != -1:
+                raise ValueError("`prompt_logprobs` must be a positive value or -1.")
+        if (top_logprobs := data.get("top_logprobs")) is not None:
+            if top_logprobs < 0 and top_logprobs != -1:
+                raise ValueError("`top_logprobs` must be a positive value or -1.")
+
+            if (top_logprobs == -1 or top_logprobs > 0) and not data.get("logprobs"):
+                raise ValueError(
+                    "when using `top_logprobs`, `logprobs` must be set to true."
+                )
+
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_structured_outputs_count(cls, data):
+        if isinstance(data, ValueError):
+            raise data
+
+        if data.get("structured_outputs", None) is None:
+            return data
+
+        structured_outputs_kwargs = data["structured_outputs"]
+        count = sum(
+            structured_outputs_kwargs.get(k) is not None
+            for k in ("json", "regex", "choice")
+        )
+        # you can only use one kind of constraints for structured outputs
+        if count > 1:
+            raise ValueError(
+                "You can only use one kind of constraints for structured "
+                "outputs ('json', 'regex' or 'choice')."
+            )
+        # you can only either use structured outputs or tools, not both
+        if count > 1 and data.get("tool_choice", "none") not in (
+            "none",
+            "auto",
+            "required",
+        ):
+            raise ValueError(
+                "You can only either use constraints for structured outputs "
+                "or tools, not both."
+            )
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_tool_usage(cls, data):
+        # if "tool_choice" is not specified but tools are provided,
+        # default to "auto" tool_choice
+        if "tool_choice" not in data and data.get("tools"):
+            data["tool_choice"] = "auto"
+
+        # if "tool_choice" is "none" -- no validation is needed for tools
+        if "tool_choice" in data and data["tool_choice"] == "none":
+            return data
+
+        # if "tool_choice" is specified -- validation
+        if "tool_choice" in data and data["tool_choice"] is not None:
+            # ensure that if "tool choice" is specified, tools are present
+            if "tools" not in data or data["tools"] is None:
+                raise ValueError("When using `tool_choice`, `tools` must be set.")
+
+            # make sure that tool choice is either a named tool
+            # OR that it's set to "auto" or "required"
+            if data["tool_choice"] not in ["auto", "required"] and not isinstance(
+                data["tool_choice"], dict
+            ):
+                raise ValueError(
+                    f"Invalid value for `tool_choice`: {data['tool_choice']}! "
+                    'Only named tools, "none", "auto" or "required" '
+                    "are supported."
+                )
+
+            # if tool_choice is "required" but the "tools" list is empty,
+            # override the data to behave like "none" to align with
+            # OpenAI’s behavior.
+            if (
+                data["tool_choice"] == "required"
+                and isinstance(data["tools"], list)
+                and len(data["tools"]) == 0
+            ):
+                data["tool_choice"] = "none"
+                del data["tools"]
+                return data
+
+            # ensure that if "tool_choice" is specified as an object,
+            # it matches a valid tool
+            correct_usage_message = (
+                'Correct usage: `{"type": "function",'
+                ' "function": {"name": "my_function"}}`'
+            )
+            if isinstance(data["tool_choice"], dict):
+                valid_tool = False
+                function = data["tool_choice"].get("function")
+                if not isinstance(function, dict):
+                    raise ValueError(
+                        f"Invalid value for `function`: `{function}` in "
+                        f"`tool_choice`! {correct_usage_message}"
+                    )
+                if "name" not in function:
+                    raise ValueError(
+                        f"Expected field `name` in `function` in "
+                        f"`tool_choice`! {correct_usage_message}"
+                    )
+                function_name = function["name"]
+                if not isinstance(function_name, str) or len(function_name) == 0:
+                    raise ValueError(
+                        f"Invalid `name` in `function`: `{function_name}`"
+                        f" in `tool_choice`! {correct_usage_message}"
+                    )
+                for tool in data["tools"]:
+                    if tool["function"]["name"] == function_name:
+                        valid_tool = True
+                        break
+                if not valid_tool:
+                    raise ValueError(
+                        "The tool specified in `tool_choice` does not match any"
+                        " of the specified `tools`"
+                    )
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_generation_prompt(cls, data):
+        if data.get("continue_final_message") and data.get("add_generation_prompt"):
+            raise ValueError(
+                "Cannot set both `continue_final_message` and "
+                "`add_generation_prompt` to True."
+            )
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_cache_salt_support(cls, data):
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
+        return data
+
+
+class CompletionRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/completions/create
+    model: str | None = None
+    prompt: list[int] | list[list[int]] | str | list[str] | None = None
+    best_of: int | None = None
+    echo: bool | None = False
+    frequency_penalty: float | None = 0.0
+    logit_bias: dict[str, float] | None = None
+    logprobs: int | None = None
+    max_tokens: int | None = 16
+    n: int = 1
+    presence_penalty: float | None = 0.0
+    seed: int | None = Field(None, ge=_LONG_INFO.min, le=_LONG_INFO.max)
+    stop: str | list[str] | None = []
+    stream: bool | None = False
+    stream_options: StreamOptions | None = None
+    suffix: str | None = None
+    temperature: float | None = None
+    top_p: float | None = None
+    user: str | None = None
+
+    # --8<-- [start:completion-sampling-params]
+    use_beam_search: bool = False
+    top_k: int | None = None
+    min_p: float | None = None
+    repetition_penalty: float | None = None
+    length_penalty: float = 1.0
+    stop_token_ids: list[int] | None = []
+    include_stop_str_in_output: bool = False
+    ignore_eos: bool = False
+    min_tokens: int = 0
+    skip_special_tokens: bool = True
+    spaces_between_special_tokens: bool = True
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+    allowed_token_ids: list[int] | None = None
+    prompt_logprobs: int | None = None
+    # --8<-- [end:completion-sampling-params]
+
+    # --8<-- [start:completion-extra-params]
+    prompt_embeds: bytes | list[bytes] | None = None
+    add_special_tokens: bool = Field(
+        default=True,
+        description=(
+            "If true (the default), special tokens (e.g. BOS) will be added to "
+            "the prompt."
+        ),
+    )
+    response_format: AnyResponseFormat | None = Field(
+        default=None,
+        description=(
+            "Similar to chat completion, this parameter specifies the format "
+            "of output. Only {'type': 'json_object'}, {'type': 'json_schema'}"
+            ", {'type': 'structural_tag'}, or {'type': 'text' } is supported."
+        ),
+    )
+    structured_outputs: StructuredOutputsParams | None = Field(
+        default=None,
+        description="Additional kwargs for structured outputs",
+    )
+    guided_json: str | dict | BaseModel | None = Field(
+        default=None,
+        description=(
+            "`guided_json` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `json` to `structured_outputs` instead."
+        ),
+    )
+    guided_regex: str | None = Field(
+        default=None,
+        description=(
+            "`guided_regex` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `regex` to `structured_outputs` instead."
+        ),
+    )
+    guided_choice: list[str] | None = Field(
+        default=None,
+        description=(
+            "`guided_choice` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `choice` to `structured_outputs` instead."
+        ),
+    )
+    guided_grammar: str | None = Field(
+        default=None,
+        description=(
+            "`guided_grammar` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `grammar` to `structured_outputs` instead."
+        ),
+    )
+    structural_tag: str | None = Field(
+        default=None,
+        description=("If specified, the output will follow the structural tag schema."),
+    )
+    guided_decoding_backend: str | None = Field(
+        default=None,
+        description=(
+            "`guided_decoding_backend` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please remove it from your request."
+        ),
+    )
+    guided_whitespace_pattern: str | None = Field(
+        default=None,
+        description=(
+            "`guided_whitespace_pattern` is deprecated. "
+            "This will be removed in v0.12.0 or v1.0.0, whichever is soonest. "
+            "Please pass `whitespace_pattern` to `structured_outputs` instead."
+        ),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    logits_processors: LogitsProcessors | None = Field(
+        default=None,
+        description=(
+            "A list of either qualified names of logits processors, or "
+            "constructor objects, to apply when sampling. A constructor is "
+            "a JSON object with a required 'qualname' field specifying the "
+            "qualified name of the processor class/factory, and optional "
+            "'args' and 'kwargs' fields containing positional and keyword "
+            "arguments. For example: {'qualname': "
+            "'my_module.MyLogitsProcessor', 'args': [1, 2], 'kwargs': "
+            "{'param': 'value'}}."
+        ),
+    )
+
+    return_tokens_as_token_ids: bool | None = Field(
+        default=None,
+        description=(
+            "If specified with 'logprobs', tokens are represented "
+            " as strings of the form 'token_id:{token_id}' so that tokens "
+            "that are not JSON-encodable can be identified."
+        ),
+    )
+    return_token_ids: bool | None = Field(
+        default=None,
+        description=(
+            "If specified, the result will include token IDs alongside the "
+            "generated text. In streaming mode, prompt_token_ids is included "
+            "only in the first chunk, and token_ids contains the delta tokens "
+            "for each chunk. This is useful for debugging or when you "
+            "need to map generated text back to input tokens."
+        ),
+    )
+
+    cache_salt: str | None = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit). Not supported by vLLM engine V0."
+        ),
+    )
+
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
+
+    vllm_xargs: dict[str, str | int | float] | None = Field(
+        default=None,
+        description=(
+            "Additional request parameters with string or "
+            "numeric values, used by custom extensions."
+        ),
+    )
+
+    # --8<-- [end:completion-extra-params]
+
+    # Default sampling parameters for completion requests
+    _DEFAULT_SAMPLING_PARAMS: dict = {
+        "repetition_penalty": 1.0,
+        "temperature": 1.0,
+        "top_p": 1.0,
+        "top_k": 0,
+        "min_p": 0.0,
+    }
+
+    def to_beam_search_params(
+        self,
+        max_tokens: int,
+        default_sampling_params: dict | None = None,
+    ) -> BeamSearchParams:
+        if default_sampling_params is None:
+            default_sampling_params = {}
+        n = self.n if self.n is not None else 1
+
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get("temperature", 1.0)
+
+        return BeamSearchParams(
+            beam_width=n,
+            max_tokens=max_tokens,
+            ignore_eos=self.ignore_eos,
+            temperature=temperature,
+            length_penalty=self.length_penalty,
+            include_stop_str_in_output=self.include_stop_str_in_output,
+        )
+
+    def to_sampling_params(
+        self,
+        max_tokens: int,
+        logits_processor_pattern: str | None,
+        default_sampling_params: dict | None = None,
+    ) -> SamplingParams:
+        if default_sampling_params is None:
+            default_sampling_params = {}
+
+        # Default parameters
+        if (repetition_penalty := self.repetition_penalty) is None:
+            repetition_penalty = default_sampling_params.get(
+                "repetition_penalty",
+                self._DEFAULT_SAMPLING_PARAMS["repetition_penalty"],
+            )
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+        if (top_p := self.top_p) is None:
+            top_p = default_sampling_params.get(
+                "top_p", self._DEFAULT_SAMPLING_PARAMS["top_p"]
+            )
+        if (top_k := self.top_k) is None:
+            top_k = default_sampling_params.get(
+                "top_k", self._DEFAULT_SAMPLING_PARAMS["top_k"]
+            )
+        if (min_p := self.min_p) is None:
+            min_p = default_sampling_params.get(
+                "min_p", self._DEFAULT_SAMPLING_PARAMS["min_p"]
+            )
+
+        prompt_logprobs = self.prompt_logprobs
+        if prompt_logprobs is None and self.echo:
+            prompt_logprobs = self.logprobs
+
+        echo_without_generation = self.echo and self.max_tokens == 0
+
+        guided_json_object = None
+        if self.response_format is not None:
+            if self.response_format.type == "json_object":
+                guided_json_object = True
+            elif self.response_format.type == "json_schema":
+                json_schema = self.response_format.json_schema
+                assert json_schema is not None
+                self.guided_json = json_schema.json_schema
+            elif self.response_format.type == "structural_tag":
+                structural_tag = self.response_format
+                assert structural_tag is not None and isinstance(
+                    structural_tag, StructuralTagResponseFormat
+                )
+                s_tag_obj = structural_tag.model_dump(by_alias=True)
+                self.structural_tag = json.dumps(s_tag_obj)
+
+        # Forward deprecated guided_* parameters to structured_outputs
+        if self.structured_outputs is None:
+            kwargs = dict[str, Any](
+                json=self.guided_json,
+                json_object=guided_json_object,
+                regex=self.guided_regex,
+                choice=self.guided_choice,
+                grammar=self.guided_grammar,
+                whitespace_pattern=self.guided_whitespace_pattern,
+            )
+            kwargs = {k: v for k, v in kwargs.items() if v is not None}
+            if len(kwargs) > 0:
+                self.structured_outputs = StructuredOutputsParams(**kwargs)
+
+        extra_args: dict[str, Any] = self.vllm_xargs if self.vllm_xargs else {}
+        if self.kv_transfer_params:
+            # Pass in kv_transfer_params via extra_args
+            extra_args["kv_transfer_params"] = self.kv_transfer_params
+        return SamplingParams.from_optional(
+            n=self.n,
+            best_of=self.best_of,
+            presence_penalty=self.presence_penalty,
+            frequency_penalty=self.frequency_penalty,
+            repetition_penalty=repetition_penalty,
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            min_p=min_p,
+            seed=self.seed,
+            stop=self.stop,
+            stop_token_ids=self.stop_token_ids,
+            logprobs=self.logprobs,
+            ignore_eos=self.ignore_eos,
+            max_tokens=max_tokens if not echo_without_generation else 1,
+            min_tokens=self.min_tokens,
+            prompt_logprobs=prompt_logprobs,
+            skip_special_tokens=self.skip_special_tokens,
+            spaces_between_special_tokens=self.spaces_between_special_tokens,
+            include_stop_str_in_output=self.include_stop_str_in_output,
+            logits_processors=get_logits_processors(
+                self.logits_processors, logits_processor_pattern
+            ),
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            output_kind=RequestOutputKind.DELTA
+            if self.stream
+            else RequestOutputKind.FINAL_ONLY,
+            structured_outputs=self.structured_outputs,
+            logit_bias=self.logit_bias,
+            allowed_token_ids=self.allowed_token_ids,
+            extra_args=extra_args or None,
+        )
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_structured_outputs_count(cls, data):
+        if data.get("structured_outputs", None) is None:
+            return data
+
+        structured_outputs_kwargs = data["structured_outputs"]
+        count = sum(
+            structured_outputs_kwargs.get(k) is not None
+            for k in ("json", "regex", "choice")
+        )
+        if count > 1:
+            raise ValueError(
+                "You can only use one kind of constraints for structured "
+                "outputs ('json', 'regex' or 'choice')."
+            )
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_logprobs(cls, data):
+        if (prompt_logprobs := data.get("prompt_logprobs")) is not None:
+            if data.get("stream") and (prompt_logprobs > 0 or prompt_logprobs == -1):
+                raise ValueError(
+                    "`prompt_logprobs` are not available when `stream=True`."
+                )
+
+            if prompt_logprobs < 0 and prompt_logprobs != -1:
+                raise ValueError("`prompt_logprobs` must be a positive value or -1.")
+        if (logprobs := data.get("logprobs")) is not None and logprobs < 0:
+            raise ValueError("`logprobs` must be a positive value.")
+
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def validate_stream_options(cls, data):
+        if data.get("stream_options") and not data.get("stream"):
+            raise ValueError("Stream options can only be defined when `stream=True`.")
+
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def validate_prompt_and_prompt_embeds(cls, data):
+        prompt = data.get("prompt")
+        prompt_embeds = data.get("prompt_embeds")
+
+        prompt_is_empty = prompt is None or (isinstance(prompt, str) and prompt == "")
+        embeds_is_empty = prompt_embeds is None or (
+            isinstance(prompt_embeds, list) and len(prompt_embeds) == 0
+        )
+
+        if prompt_is_empty and embeds_is_empty:
+            raise ValueError(
+                "Either prompt or prompt_embeds must be provided and non-empty."
+            )
+
+        return data
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_cache_salt_support(cls, data):
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
+        return data
+
+
+class EmbeddingCompletionRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/embeddings
+    model: str | None = None
+    input: list[int] | list[list[int]] | str | list[str]
+    encoding_format: EncodingFormat = "float"
+    dimensions: int | None = None
+    user: str | None = None
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+
+    # --8<-- [start:embedding-extra-params]
+    add_special_tokens: bool = Field(
+        default=True,
+        description=(
+            "If true (the default), special tokens (e.g. BOS) will be added to "
+            "the prompt."
+        ),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    normalize: bool | None = Field(
+        default=None,
+        description="Whether to normalize the embeddings outputs. Default is True.",
+    )
+    embed_dtype: EmbedDType = Field(
+        default="float32",
+        description=(
+            "What dtype to use for encoding. Default to using float32 for base64 "
+            "encoding to match the OpenAI python client behavior. "
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+    endianness: Endianness = Field(
+        default="native",
+        description=(
+            "What endianness to use for encoding. Default to using native for "
+            "base64 encoding to match the OpenAI python client behavior."
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+    # --8<-- [end:embedding-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+        )
+
+
+class EmbeddingChatRequest(OpenAIBaseModel):
+    model: str | None = None
+    messages: list[ChatCompletionMessageParam]
+
+    encoding_format: EncodingFormat = "float"
+    dimensions: int | None = None
+    user: str | None = None
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+
+    # --8<-- [start:chat-embedding-extra-params]
+    add_generation_prompt: bool = Field(
+        default=False,
+        description=(
+            "If true, the generation prompt will be added to the chat template. "
+            "This is a parameter used by chat template in tokenizer config of the "
+            "model."
+        ),
+    )
+
+    add_special_tokens: bool = Field(
+        default=False,
+        description=(
+            "If true, special tokens (e.g. BOS) will be added to the prompt "
+            "on top of what is added by the chat template. "
+            "For most models, the chat template takes care of adding the "
+            "special tokens so this should be set to false (as is the "
+            "default)."
+        ),
+    )
+    chat_template: str | None = Field(
+        default=None,
+        description=(
+            "A Jinja template to use for this conversion. "
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        ),
+    )
+    chat_template_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=(
+            "Additional keyword args to pass to the template renderer. "
+            "Will be accessible by the chat template."
+        ),
+    )
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    normalize: bool | None = Field(
+        default=None,
+        description="Whether to normalize the embeddings outputs. Default is True.",
+    )
+    embed_dtype: EmbedDType = Field(
+        default="float32",
+        description=(
+            "What dtype to use for encoding. Default to using float32 for base64 "
+            "encoding to match the OpenAI python client behavior. "
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+    endianness: Endianness = Field(
+        default="native",
+        description=(
+            "What endianness to use for encoding. Default to using native for "
+            "base64 encoding to match the OpenAI python client behavior."
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+    # --8<-- [end:chat-embedding-extra-params]
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_generation_prompt(cls, data):
+        if data.get("continue_final_message") and data.get("add_generation_prompt"):
+            raise ValueError(
+                "Cannot set both `continue_final_message` and "
+                "`add_generation_prompt` to True."
+            )
+        return data
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+        )
+
+
+EmbeddingRequest: TypeAlias = EmbeddingCompletionRequest | EmbeddingChatRequest
+
+
+class PoolingCompletionRequest(EmbeddingCompletionRequest):
+    task: PoolingTask | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "If it is a classify or token_classify task, the default is True; "
+        "for other tasks, this value should be None.",
+    )
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+            use_activation=get_use_activation(self),
+        )
+
+
+class PoolingChatRequest(EmbeddingChatRequest):
+    task: PoolingTask | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "If it is a classify or token_classify task, the default is True; "
+        "for other tasks, this value should be None.",
+    )
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+            use_activation=get_use_activation(self),
+        )
+
+
+T = TypeVar("T")
+
+
+class IOProcessorRequest(OpenAIBaseModel, Generic[T]):
+    model: str | None = None
+
+    priority: int = Field(default=0)
+    """
+    The priority of the request (lower means earlier handling;
+    default: 0). Any priority other than 0 will raise an error
+    if the served model does not use priority scheduling.
+    """
+    data: T
+
+    task: PoolingTask = "plugin"
+    encoding_format: EncodingFormat = "float"
+    embed_dtype: EmbedDType = Field(
+        default="float32",
+        description=(
+            "What dtype to use for encoding. Default to using float32 for base64 "
+            "encoding to match the OpenAI python client behavior. "
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+    endianness: Endianness = Field(
+        default="native",
+        description=(
+            "What endianness to use for encoding. Default to using native for "
+            "base64 encoding to match the OpenAI python client behavior."
+            "This parameter will affect base64 and binary_response."
+        ),
+    )
+
+    def to_pooling_params(self):
+        return PoolingParams()
+
+
+class IOProcessorResponse(OpenAIBaseModel, Generic[T]):
+    request_id: str | None = None
+    """
+    The request_id associated with this response
+    """
+    created_at: int = Field(default_factory=lambda: int(time.time()))
+
+    data: T
+    """
+    When using plugins IOProcessor plugins, the actual output is generated
+    by the plugin itself. Hence, we use a generic type for the response data
+    """
+
+
+PoolingRequest: TypeAlias = (
+    PoolingCompletionRequest | PoolingChatRequest | IOProcessorRequest
+)
+
+
+class ScoreRequest(OpenAIBaseModel):
+    model: str | None = None
+    text_1: list[str] | str | ScoreMultiModalParam
+    text_2: list[str] | str | ScoreMultiModalParam
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+
+    # --8<-- [start:score-extra-params]
+
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
+    # --8<-- [end:score-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            use_activation=get_use_activation(self),
+        )
+
+
+class RerankRequest(OpenAIBaseModel):
+    model: str | None = None
+    query: str | ScoreMultiModalParam
+    documents: list[str] | ScoreMultiModalParam
+    top_n: int = Field(default_factory=lambda: 0)
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+
+    # --8<-- [start:rerank-extra-params]
+
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
+    # --8<-- [end:rerank-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            use_activation=get_use_activation(self),
+        )
+
+
+class RerankDocument(BaseModel):
+    text: str | None = None
+    multi_modal: ScoreContentPartParam | None = None
+
+
+class RerankResult(BaseModel):
+    index: int
+    document: RerankDocument
+    relevance_score: float
+
+
+class RerankUsage(BaseModel):
+    total_tokens: int
+
+
+class RerankResponse(OpenAIBaseModel):
+    id: str
+    model: str
+    usage: RerankUsage
+    results: list[RerankResult]
+
+
+class CompletionLogProbs(OpenAIBaseModel):
+    text_offset: list[int] = Field(default_factory=list)
+    token_logprobs: list[float | None] = Field(default_factory=list)
+    tokens: list[str] = Field(default_factory=list)
+    top_logprobs: list[dict[str, float] | None] = Field(default_factory=list)
+
+
+class CompletionResponseChoice(OpenAIBaseModel):
+    index: int
+    text: str
+    logprobs: CompletionLogProbs | None = None
+    finish_reason: str | None = None
+    stop_reason: int | str | None = Field(
+        default=None,
+        description=(
+            "The stop string or token id that caused the completion "
+            "to stop, None if the completion finished for some other reason "
+            "including encountering the EOS token"
+        ),
+    )
+    token_ids: list[int] | None = None  # For response
+    prompt_logprobs: list[dict[int, Logprob] | None] | None = None
+    prompt_token_ids: list[int] | None = None  # For prompt
+
+
+class CompletionResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"cmpl-{random_uuid()}")
+    object: Literal["text_completion"] = "text_completion"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[CompletionResponseChoice]
+    service_tier: Literal["auto", "default", "flex", "scale", "priority"] | None = None
+    system_fingerprint: str | None = None
+    usage: UsageInfo
+
+    # vLLM-specific fields that are not in OpenAI spec
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None, description="KVTransfer parameters."
+    )
+
+
+class CompletionResponseStreamChoice(OpenAIBaseModel):
+    index: int
+    text: str
+    logprobs: CompletionLogProbs | None = None
+    finish_reason: str | None = None
+    stop_reason: int | str | None = Field(
+        default=None,
+        description=(
+            "The stop string or token id that caused the completion "
+            "to stop, None if the completion finished for some other reason "
+            "including encountering the EOS token"
+        ),
+    )
+    # not part of the OpenAI spec but for tracing the tokens
+    # prompt tokens is put into choice to align with CompletionResponseChoice
+    prompt_token_ids: list[int] | None = None
+    token_ids: list[int] | None = None
+
+
+class CompletionStreamResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"cmpl-{random_uuid()}")
+    object: str = "text_completion"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[CompletionResponseStreamChoice]
+    usage: UsageInfo | None = Field(default=None)
+
+
+class EmbeddingResponseData(OpenAIBaseModel):
+    index: int
+    object: str = "embedding"
+    embedding: list[float] | str
+
+
+class EmbeddingResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"embd-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[EmbeddingResponseData]
+    usage: UsageInfo
+
+
+class EmbeddingBytesResponse(OpenAIBaseModel):
+    body: list[bytes]
+    metadata: str
+    media_type: str = "application/octet-stream"
+
+
+class PoolingResponseData(OpenAIBaseModel):
+    index: int
+    object: str = "pooling"
+    data: list[list[float]] | list[float] | str
+
+
+class PoolingResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"pool-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[PoolingResponseData]
+    usage: UsageInfo
+
+
+class PoolingBytesResponse(OpenAIBaseModel):
+    body: list[bytes]
+    metadata: str
+    media_type: str = "application/octet-stream"
+
+
+class ScoreResponseData(OpenAIBaseModel):
+    index: int
+    object: str = "score"
+    score: float
+
+
+class ScoreResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"embd-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[ScoreResponseData]
+    usage: UsageInfo
+
+
+class ClassificationCompletionRequest(OpenAIBaseModel):
+    model: str | None = None
+    input: list[str] | str
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+    user: str | None = None
+
+    # --8<-- [start:classification-extra-params]
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    add_special_tokens: bool = Field(
+        default=True,
+        description=(
+            "If true (the default), special tokens (e.g. BOS) will be added to "
+            "the prompt."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
+    # --8<-- [end:classification-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            use_activation=get_use_activation(self),
+        )
+
+
+class ClassificationChatRequest(OpenAIBaseModel):
+    model: str | None = None
+    messages: list[ChatCompletionMessageParam]
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+    user: str | None = None
+
+    # --8<-- [start:chat-classification-extra-params]
+    add_generation_prompt: bool = Field(
+        default=False,
+        description=(
+            "If true, the generation prompt will be added to the chat template. "
+            "This is a parameter used by chat template in tokenizer config of the "
+            "model."
+        ),
+    )
+
+    add_special_tokens: bool = Field(
+        default=False,
+        description=(
+            "If true, special tokens (e.g. BOS) will be added to the prompt "
+            "on top of what is added by the chat template. "
+            "For most models, the chat template takes care of adding the "
+            "special tokens so this should be set to false (as is the "
+            "default)."
+        ),
+    )
+
+    chat_template: str | None = Field(
+        default=None,
+        description=(
+            "A Jinja template to use for this conversion. "
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        ),
+    )
+
+    chat_template_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=(
+            "Additional keyword args to pass to the template renderer. "
+            "Will be accessible by the chat template."
+        ),
+    )
+
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
+    # --8<-- [end:chat-classification-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            use_activation=get_use_activation(self),
+        )
+
+
+ClassificationRequest: TypeAlias = (
+    ClassificationCompletionRequest | ClassificationChatRequest
+)
+
+
+class ClassificationData(OpenAIBaseModel):
+    index: int
+    label: str | None
+    probs: list[float]
+    num_classes: int
+
+
+class ClassificationResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"classify-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[ClassificationData]
+    usage: UsageInfo
+
+
+class FunctionCall(OpenAIBaseModel):
+    name: str
+    arguments: str
+
+
+class ToolCall(OpenAIBaseModel):
+    id: str = Field(default_factory=make_tool_call_id)
+    type: Literal["function"] = "function"
+    function: FunctionCall
+
+
+class DeltaFunctionCall(BaseModel):
+    name: str | None = None
+    arguments: str | None = None
+
+
+# a tool call delta where everything is optional
+class DeltaToolCall(OpenAIBaseModel):
+    id: str | None = None
+    type: Literal["function"] | None = None
+    index: int
+    function: DeltaFunctionCall | None = None
+
+
+class ExtractedToolCallInformation(BaseModel):
+    # indicate if tools were called
+    tools_called: bool
+
+    # extracted tool calls
+    tool_calls: list[ToolCall]
+
+    # content - per OpenAI spec, content AND tool calls can be returned rarely
+    # But some models will do this intentionally
+    content: str | None = None
+
+
+class ChatMessage(OpenAIBaseModel):
+    role: str
+    content: str | None = None
+    refusal: str | None = None
+    annotations: OpenAIAnnotation | None = None
+    audio: OpenAIChatCompletionAudio | None = None
+    function_call: FunctionCall | None = None
+    tool_calls: list[ToolCall] = Field(default_factory=list)
+
+    # vLLM-specific fields that are not in OpenAI spec
+    reasoning: str | None = None
+    reasoning_content: str | None = None
+    """Deprecated: use `reasoning` instead."""
+
+    @model_validator(mode="after")
+    def handle_deprecated_reasoning_content(self):
+        """Copy reasoning to reasoning_content for backward compatibility."""
+        self.reasoning_content = self.reasoning
+        return self
+
+
+class ChatCompletionLogProb(OpenAIBaseModel):
+    token: str
+    logprob: float = -9999.0
+    bytes: list[int] | None = None
+
+
+class ChatCompletionLogProbsContent(ChatCompletionLogProb):
+    # Workaround: redefine fields name cache so that it's not
+    # shared with the super class.
+    field_names: ClassVar[set[str] | None] = None
+    top_logprobs: list[ChatCompletionLogProb] = Field(default_factory=list)
+
+
+class ChatCompletionLogProbs(OpenAIBaseModel):
+    content: list[ChatCompletionLogProbsContent] | None = None
+
+
+class ChatCompletionResponseChoice(OpenAIBaseModel):
+    index: int
+    message: ChatMessage
+    logprobs: ChatCompletionLogProbs | None = None
+    # per OpenAI spec this is the default
+    finish_reason: str | None = "stop"
+    # not part of the OpenAI spec but included in vLLM for legacy reasons
+    stop_reason: int | str | None = None
+    # not part of the OpenAI spec but is useful for tracing the tokens
+    # in agent scenarios
+    token_ids: list[int] | None = None
+
+
+class ChatCompletionResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"chatcmpl-{random_uuid()}")
+    object: Literal["chat.completion"] = "chat.completion"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[ChatCompletionResponseChoice]
+    service_tier: Literal["auto", "default", "flex", "scale", "priority"] | None = None
+    system_fingerprint: str | None = None
+    usage: UsageInfo
+
+    # vLLM-specific fields that are not in OpenAI spec
+    prompt_logprobs: list[dict[int, Logprob] | None] | None = None
+    prompt_token_ids: list[int] | None = None
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None, description="KVTransfer parameters."
+    )
+
+
+class DeltaMessage(OpenAIBaseModel):
+    role: str | None = None
+    content: str | None = None
+    reasoning: str | None = None
+    reasoning_content: str | None = None
+    """Deprecated: use `reasoning` instead."""
+    tool_calls: list[DeltaToolCall] = Field(default_factory=list)
+
+    @model_validator(mode="after")
+    def handle_deprecated_reasoning_content(self):
+        """Copy reasoning to reasoning_content for backward compatibility."""
+        self.reasoning_content = self.reasoning
+        return self
+
+
+class ChatCompletionResponseStreamChoice(OpenAIBaseModel):
+    index: int
+    delta: DeltaMessage
+    logprobs: ChatCompletionLogProbs | None = None
+    finish_reason: str | None = None
+    stop_reason: int | str | None = None
+    # not part of the OpenAI spec but for tracing the tokens
+    token_ids: list[int] | None = None
+
+
+class ChatCompletionStreamResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"chatcmpl-{random_uuid()}")
+    object: Literal["chat.completion.chunk"] = "chat.completion.chunk"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[ChatCompletionResponseStreamChoice]
+    usage: UsageInfo | None = Field(default=None)
+    # not part of the OpenAI spec but for tracing the tokens
+    prompt_token_ids: list[int] | None = None
+
+
+class TranscriptionResponseStreamChoice(OpenAIBaseModel):
+    delta: DeltaMessage
+    finish_reason: str | None = None
+    stop_reason: int | str | None = None
+
+
+class TranscriptionStreamResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"trsc-{random_uuid()}")
+    object: Literal["transcription.chunk"] = "transcription.chunk"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[TranscriptionResponseStreamChoice]
+    usage: UsageInfo | None = Field(default=None)
+
+
+class InputTokensDetails(OpenAIBaseModel):
+    cached_tokens: int
+    input_tokens_per_turn: list[int] = Field(default_factory=list)
+    cached_tokens_per_turn: list[int] = Field(default_factory=list)
+
+
+class OutputTokensDetails(OpenAIBaseModel):
+    reasoning_tokens: int = 0
+    tool_output_tokens: int = 0
+    output_tokens_per_turn: list[int] = Field(default_factory=list)
+    tool_output_tokens_per_turn: list[int] = Field(default_factory=list)
+
+
+class ResponseUsage(OpenAIBaseModel):
+    input_tokens: int
+    input_tokens_details: InputTokensDetails
+    output_tokens: int
+    output_tokens_details: OutputTokensDetails
+    total_tokens: int
+
+
+def serialize_message(msg):
+    """
+    Serializes a single message
+    """
+    if isinstance(msg, dict):
+        return msg
+    elif hasattr(msg, "to_dict"):
+        return msg.to_dict()
+    else:
+        # fallback to pyandic dump
+        return msg.model_dump_json()
+
+
+def serialize_messages(msgs):
+    """
+    Serializes multiple messages
+    """
+    return [serialize_message(msg) for msg in msgs] if msgs else None
+
+
+class ResponsesResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"resp_{random_uuid()}")
+    created_at: int = Field(default_factory=lambda: int(time.time()))
+    # error: Optional[ResponseError] = None
+    incomplete_details: IncompleteDetails | None = None
+    instructions: str | None = None
+    metadata: Metadata | None = None
+    model: str
+    object: Literal["response"] = "response"
+    output: list[ResponseOutputItem]
+    parallel_tool_calls: bool
+    temperature: float
+    tool_choice: ToolChoice
+    tools: list[Tool]
+    top_p: float
+    background: bool
+    max_output_tokens: int
+    max_tool_calls: int | None = None
+    previous_response_id: str | None = None
+    prompt: ResponsePrompt | None = None
+    reasoning: Reasoning | None = None
+    service_tier: Literal["auto", "default", "flex", "scale", "priority"]
+    status: ResponseStatus
+    text: ResponseTextConfig | None = None
+    top_logprobs: int | None = None
+    truncation: Literal["auto", "disabled"]
+    usage: ResponseUsage | None = None
+    user: str | None = None
+
+    # --8<-- [start:responses-extra-params]
+    # These are populated when enable_response_messages is set to True
+    # NOTE: custom serialization is needed
+    # see serialize_input_messages and serialize_output_messages
+    input_messages: list[ChatCompletionMessageParam] | None = None
+    output_messages: list[ChatCompletionMessageParam] | None = None
+    # --8<-- [end:responses-extra-params]
+
+    # NOTE: openAI harmony doesn't serialize TextContent properly,
+    # TODO: this fixes for TextContent, but need to verify for tools etc
+    # https://github.com/openai/harmony/issues/78
+    @field_serializer("output_messages", when_used="json")
+    def serialize_output_messages(self, msgs, _info):
+        return serialize_messages(msgs)
+
+    # NOTE: openAI harmony doesn't serialize TextContent properly, this fixes it
+    # https://github.com/openai/harmony/issues/78
+    @field_serializer("input_messages", when_used="json")
+    def serialize_input_messages(self, msgs, _info):
+        return serialize_messages(msgs)
+
+    @classmethod
+    def from_request(
+        cls,
+        request: ResponsesRequest,
+        sampling_params: SamplingParams,
+        model_name: str,
+        created_time: int,
+        output: list[ResponseOutputItem],
+        status: ResponseStatus,
+        usage: ResponseUsage | None = None,
+        input_messages: list[ChatCompletionMessageParam] | None = None,
+        output_messages: list[ChatCompletionMessageParam] | None = None,
+    ) -> "ResponsesResponse":
+        incomplete_details: IncompleteDetails | None = None
+        if status == "incomplete":
+            incomplete_details = IncompleteDetails(reason="max_output_tokens")
+        # TODO: implement the other reason for incomplete_details,
+        # which is content_filter
+        # incomplete_details = IncompleteDetails(reason='content_filter')
+        return cls(
+            id=request.request_id,
+            created_at=created_time,
+            incomplete_details=incomplete_details,
+            instructions=request.instructions,
+            metadata=request.metadata,
+            model=model_name,
+            output=output,
+            input_messages=input_messages,
+            output_messages=output_messages,
+            parallel_tool_calls=request.parallel_tool_calls,
+            temperature=sampling_params.temperature,
+            tool_choice=request.tool_choice,
+            tools=request.tools,
+            top_p=sampling_params.top_p,
+            background=request.background,
+            max_output_tokens=sampling_params.max_tokens,
+            max_tool_calls=request.max_tool_calls,
+            previous_response_id=request.previous_response_id,
+            prompt=request.prompt,
+            reasoning=request.reasoning,
+            service_tier=request.service_tier,
+            status=status,
+            text=request.text,
+            top_logprobs=sampling_params.logprobs,
+            truncation=request.truncation,
+            user=request.user,
+            usage=usage,
+        )
+
+
+# TODO: this code can be removed once
+# https://github.com/openai/openai-python/issues/2634 has been resolved
+class ResponseReasoningPartDoneEvent(OpenAIBaseModel):
+    content_index: int
+    """The index of the content part that is done."""
+
+    item_id: str
+    """The ID of the output item that the content part was added to."""
+
+    output_index: int
+    """The index of the output item that the content part was added to."""
+
+    part: ResponseReasoningTextContent
+    """The content part that is done."""
+
+    sequence_number: int
+    """The sequence number of this event."""
+
+    type: Literal["response.reasoning_part.done"]
+    """The type of the event. Always `response.reasoning_part.done`."""
+
+
+# TODO: this code can be removed once
+# https://github.com/openai/openai-python/issues/2634 has been resolved
+class ResponseReasoningPartAddedEvent(OpenAIBaseModel):
+    content_index: int
+    """The index of the content part that is done."""
+
+    item_id: str
+    """The ID of the output item that the content part was added to."""
+
+    output_index: int
+    """The index of the output item that the content part was added to."""
+
+    part: ResponseReasoningTextContent
+    """The content part that is done."""
+
+    sequence_number: int
+    """The sequence number of this event."""
+
+    type: Literal["response.reasoning_part.added"]
+    """The type of the event. Always `response.reasoning_part.added`."""
+
+
+# vLLM Streaming Events
+# Note: we override the response type with the vLLM ResponsesResponse type
+class ResponseCompletedEvent(OpenAIResponseCompletedEvent):
+    response: ResponsesResponse  # type: ignore[override]
+
+
+class ResponseCreatedEvent(OpenAIResponseCreatedEvent):
+    response: ResponsesResponse  # type: ignore[override]
+
+
+class ResponseInProgressEvent(OpenAIResponseInProgressEvent):
+    response: ResponsesResponse  # type: ignore[override]
+
+
+StreamingResponsesResponse: TypeAlias = (
+    ResponseCreatedEvent
+    | ResponseInProgressEvent
+    | ResponseCompletedEvent
+    | ResponseOutputItemAddedEvent
+    | ResponseOutputItemDoneEvent
+    | ResponseContentPartAddedEvent
+    | ResponseContentPartDoneEvent
+    | ResponseReasoningTextDeltaEvent
+    | ResponseReasoningTextDoneEvent
+    | ResponseReasoningPartAddedEvent
+    | ResponseReasoningPartDoneEvent
+    | ResponseCodeInterpreterCallInProgressEvent
+    | ResponseCodeInterpreterCallCodeDeltaEvent
+    | ResponseWebSearchCallInProgressEvent
+    | ResponseWebSearchCallSearchingEvent
+    | ResponseWebSearchCallCompletedEvent
+    | ResponseCodeInterpreterCallCodeDoneEvent
+    | ResponseCodeInterpreterCallInterpretingEvent
+    | ResponseCodeInterpreterCallCompletedEvent
+)
+
+BatchRequestInputBody: TypeAlias = (
+    ChatCompletionRequest | EmbeddingRequest | ScoreRequest | RerankRequest
+)
+
+
+class BatchRequestInput(OpenAIBaseModel):
+    """
+    The per-line object of the batch input file.
+
+    NOTE: Currently only the `/v1/chat/completions` endpoint is supported.
+    """
+
+    # A developer-provided per-request id that will be used to match outputs to
+    # inputs. Must be unique for each request in a batch.
+    custom_id: str
+
+    # The HTTP method to be used for the request. Currently only POST is
+    # supported.
+    method: str
+
+    # The OpenAI API relative URL to be used for the request. Currently
+    # /v1/chat/completions is supported.
+    url: str
+
+    # The parameters of the request.
+    body: BatchRequestInputBody
+
+    @field_validator("body", mode="plain")
+    @classmethod
+    def check_type_for_url(cls, value: Any, info: ValidationInfo):
+        # Use url to disambiguate models
+        url: str = info.data["url"]
+        if url == "/v1/chat/completions":
+            return ChatCompletionRequest.model_validate(value)
+        if url == "/v1/embeddings":
+            return TypeAdapter(EmbeddingRequest).validate_python(value)
+        if url.endswith("/score"):
+            return ScoreRequest.model_validate(value)
+        if url.endswith("/rerank"):
+            return RerankRequest.model_validate(value)
+        return TypeAdapter(BatchRequestInputBody).validate_python(value)
+
+
+class BatchResponseData(OpenAIBaseModel):
+    # HTTP status code of the response.
+    status_code: int = 200
+
+    # An unique identifier for the API request.
+    request_id: str
+
+    # The body of the response.
+    body: (
+        ChatCompletionResponse
+        | EmbeddingResponse
+        | ScoreResponse
+        | RerankResponse
+        | None
+    ) = None
+
+
+class BatchRequestOutput(OpenAIBaseModel):
+    """
+    The per-line object of the batch output and error files
+    """
+
+    id: str
+
+    # A developer-provided per-request id that will be used to match outputs to
+    # inputs.
+    custom_id: str
+
+    response: BatchResponseData | None
+
+    # For requests that failed with a non-HTTP error, this will contain more
+    # information on the cause of the failure.
+    error: Any | None
+
+
+class TokenizeCompletionRequest(OpenAIBaseModel):
+    model: str | None = None
+    prompt: str
+
+    add_special_tokens: bool = Field(
+        default=True,
+        description=(
+            "If true (the default), special tokens (e.g. BOS) will be added to "
+            "the prompt."
+        ),
+    )
+    return_token_strs: bool | None = Field(
+        default=False,
+        description=(
+            "If true, also return the token strings corresponding to the token ids."
+        ),
+    )
+
+
+class TokenizeChatRequest(OpenAIBaseModel):
+    model: str | None = None
+    messages: list[ChatCompletionMessageParam]
+
+    add_generation_prompt: bool = Field(
+        default=True,
+        description=(
+            "If true, the generation prompt will be added to the chat template. "
+            "This is a parameter used by chat template in tokenizer config of the "
+            "model."
+        ),
+    )
+    return_token_strs: bool | None = Field(
+        default=False,
+        description=(
+            "If true, also return the token strings corresponding to the token ids."
+        ),
+    )
+    continue_final_message: bool = Field(
+        default=False,
+        description=(
+            "If this is set, the chat will be formatted so that the final "
+            "message in the chat is open-ended, without any EOS tokens. The "
+            "model will continue this message rather than starting a new one. "
+            'This allows you to "prefill" part of the model\'s response for it. '
+            "Cannot be used at the same time as `add_generation_prompt`."
+        ),
+    )
+    add_special_tokens: bool = Field(
+        default=False,
+        description=(
+            "If true, special tokens (e.g. BOS) will be added to the prompt "
+            "on top of what is added by the chat template. "
+            "For most models, the chat template takes care of adding the "
+            "special tokens so this should be set to false (as is the "
+            "default)."
+        ),
+    )
+    chat_template: str | None = Field(
+        default=None,
+        description=(
+            "A Jinja template to use for this conversion. "
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        ),
+    )
+    chat_template_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=(
+            "Additional keyword args to pass to the template renderer. "
+            "Will be accessible by the chat template."
+        ),
+    )
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+    tools: list[ChatCompletionToolsParam] | None = Field(
+        default=None,
+        description=("A list of tools the model may call."),
+    )
+
+    @model_validator(mode="before")
+    @classmethod
+    def check_generation_prompt(cls, data):
+        if data.get("continue_final_message") and data.get("add_generation_prompt"):
+            raise ValueError(
+                "Cannot set both `continue_final_message` and "
+                "`add_generation_prompt` to True."
+            )
+        return data
+
+
+TokenizeRequest: TypeAlias = TokenizeCompletionRequest | TokenizeChatRequest
+
+
+class TokenizeResponse(OpenAIBaseModel):
+    count: int
+    max_model_len: int
+    tokens: list[int]
+    token_strs: list[str] | None = None
+
+
+class DetokenizeRequest(OpenAIBaseModel):
+    model: str | None = None
+    tokens: list[int]
+
+
+class DetokenizeResponse(OpenAIBaseModel):
+    prompt: str
+
+
+class TokenizerInfoResponse(OpenAIBaseModel):
+    """
+    Response containing tokenizer configuration
+    equivalent to tokenizer_config.json
+    """
+
+    model_config = ConfigDict(extra="allow")
+    tokenizer_class: str
+
+
+class LoadLoRAAdapterRequest(BaseModel):
+    lora_name: str
+    lora_path: str
+
+
+class UnloadLoRAAdapterRequest(BaseModel):
+    lora_name: str
+    lora_int_id: int | None = Field(default=None)
+
+
+## Protocols for Audio
+AudioResponseFormat: TypeAlias = Literal["json", "text", "srt", "verbose_json", "vtt"]
+
+
+class TranscriptionRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/audio/createTranscription
+
+    file: UploadFile
+    """
+    The audio file object (not file name) to transcribe, in one of these
+    formats: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, or webm.
+    """
+
+    model: str | None = None
+    """ID of the model to use.
+    """
+
+    language: str | None = None
+    """The language of the input audio.
+
+    Supplying the input language in
+    [ISO-639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) format
+    will improve accuracy and latency.
+    """
+
+    prompt: str = Field(default="")
+    """An optional text to guide the model's style or continue a previous audio
+    segment.
+
+    The [prompt](https://platform.openai.com/docs/guides/speech-to-text#prompting)
+    should match the audio language.
+    """
+
+    response_format: AudioResponseFormat = Field(default="json")
+    """
+    The format of the output, in one of these options: `json`, `text`, `srt`,
+    `verbose_json`, or `vtt`.
+    """
+
+    ## TODO (varun) : Support if set to 0, certain thresholds are met !!
+
+    timestamp_granularities: list[Literal["word", "segment"]] = Field(
+        alias="timestamp_granularities[]", default=[]
+    )
+    """The timestamp granularities to populate for this transcription.
+
+    `response_format` must be set `verbose_json` to use timestamp granularities.
+    Either or both of these options are supported: `word`, or `segment`. Note:
+    There is no additional latency for segment timestamps, but generating word
+    timestamps incurs additional latency.
+    """
+
+    stream: bool | None = False
+    """When set, it will enable output to be streamed in a similar fashion
+    as the Chat Completion endpoint.
+    """
+    # --8<-- [start:transcription-extra-params]
+    # Flattened stream option to simplify form data.
+    stream_include_usage: bool | None = False
+    stream_continuous_usage_stats: bool | None = False
+
+    vllm_xargs: dict[str, str | int | float] | None = Field(
+        default=None,
+        description=(
+            "Additional request parameters with string or "
+            "numeric values, used by custom extensions."
+        ),
+    )
+    # --8<-- [end:transcription-extra-params]
+
+    to_language: str | None = None
+    """The language of the output audio we transcribe to.
+
+    Please note that this is not currently used by supported models at this
+    time, but it is a placeholder for future use, matching translation api.
+    """
+
+    # --8<-- [start:transcription-sampling-params]
+    temperature: float = Field(default=0.0)
+    """The sampling temperature, between 0 and 1.
+
+    Higher values like 0.8 will make the output more random, while lower values
+    like 0.2 will make it more focused / deterministic. If set to 0, the model
+    will use [log probability](https://en.wikipedia.org/wiki/Log_probability)
+    to automatically increase the temperature until certain thresholds are hit.
+    """
+
+    top_p: float | None = None
+    """Enables nucleus (top-p) sampling, where tokens are selected from the
+    smallest possible set whose cumulative probability exceeds `p`.
+    """
+
+    top_k: int | None = None
+    """Limits sampling to the `k` most probable tokens at each step."""
+
+    min_p: float | None = None
+    """Filters out tokens with a probability lower than `min_p`, ensuring a
+    minimum likelihood threshold during sampling.
+    """
+
+    seed: int | None = Field(None, ge=_LONG_INFO.min, le=_LONG_INFO.max)
+    """The seed to use for sampling."""
+
+    frequency_penalty: float | None = 0.0
+    """The frequency penalty to use for sampling."""
+
+    repetition_penalty: float | None = None
+    """The repetition penalty to use for sampling."""
+
+    presence_penalty: float | None = 0.0
+    """The presence penalty to use for sampling."""
+    # --8<-- [end:transcription-sampling-params]
+
+    # Default sampling parameters for transcription requests.
+    _DEFAULT_SAMPLING_PARAMS: dict = {
+        "repetition_penalty": 1.0,
+        "temperature": 1.0,
+        "top_p": 1.0,
+        "top_k": 0,
+        "min_p": 0.0,
+    }
+
+    def to_sampling_params(
+        self, default_max_tokens: int, default_sampling_params: dict | None = None
+    ) -> SamplingParams:
+        max_tokens = default_max_tokens
+
+        if default_sampling_params is None:
+            default_sampling_params = {}
+
+        # Default parameters
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+        if (top_p := self.top_p) is None:
+            top_p = default_sampling_params.get(
+                "top_p", self._DEFAULT_SAMPLING_PARAMS["top_p"]
+            )
+        if (top_k := self.top_k) is None:
+            top_k = default_sampling_params.get(
+                "top_k", self._DEFAULT_SAMPLING_PARAMS["top_k"]
+            )
+        if (min_p := self.min_p) is None:
+            min_p = default_sampling_params.get(
+                "min_p", self._DEFAULT_SAMPLING_PARAMS["min_p"]
+            )
+
+        if (repetition_penalty := self.repetition_penalty) is None:
+            repetition_penalty = default_sampling_params.get(
+                "repetition_penalty",
+                self._DEFAULT_SAMPLING_PARAMS["repetition_penalty"],
+            )
+
+        return SamplingParams.from_optional(
+            temperature=temperature,
+            max_tokens=max_tokens,
+            seed=self.seed,
+            top_p=top_p,
+            top_k=top_k,
+            min_p=min_p,
+            frequency_penalty=self.frequency_penalty,
+            repetition_penalty=repetition_penalty,
+            presence_penalty=self.presence_penalty,
+            output_kind=RequestOutputKind.DELTA
+            if self.stream
+            else RequestOutputKind.FINAL_ONLY,
+            extra_args=self.vllm_xargs,
+        )
+
+    @model_validator(mode="before")
+    @classmethod
+    def validate_transcription_request(cls, data):
+        if isinstance(data.get("file"), str):
+            raise HTTPException(
+                status_code=HTTPStatus.UNPROCESSABLE_ENTITY,
+                detail="Expected 'file' to be a file-like object, not 'str'.",
+            )
+
+        stream_opts = ["stream_include_usage", "stream_continuous_usage_stats"]
+        stream = data.get("stream", False)
+        if any(bool(data.get(so, False)) for so in stream_opts) and not stream:
+            raise ValueError("Stream options can only be defined when `stream=True`.")
+
+        return data
+
+
+# Transcription response objects
+class TranscriptionUsageAudio(OpenAIBaseModel):
+    type: Literal["duration"] = "duration"
+    seconds: int
+
+
+class TranscriptionResponse(OpenAIBaseModel):
+    text: str
+    """The transcribed text."""
+    usage: TranscriptionUsageAudio
+
+
+class TranscriptionWord(OpenAIBaseModel):
+    end: float
+    """End time of the word in seconds."""
+
+    start: float
+    """Start time of the word in seconds."""
+
+    word: str
+    """The text content of the word."""
+
+
+class TranscriptionSegment(OpenAIBaseModel):
+    id: int
+    """Unique identifier of the segment."""
+
+    avg_logprob: float
+    """Average logprob of the segment.
+
+    If the value is lower than -1, consider the logprobs failed.
+    """
+
+    compression_ratio: float
+    """Compression ratio of the segment.
+
+    If the value is greater than 2.4, consider the compression failed.
+    """
+
+    end: float
+    """End time of the segment in seconds."""
+
+    no_speech_prob: float
+    """Probability of no speech in the segment.
+
+    If the value is higher than 1.0 and the `avg_logprob` is below -1, consider
+    this segment silent.
+    """
+
+    seek: int
+    """Seek offset of the segment."""
+
+    start: float
+    """Start time of the segment in seconds."""
+
+    temperature: float
+    """Temperature parameter used for generating the segment."""
+
+    text: str
+    """Text content of the segment."""
+
+    tokens: list[int]
+    """Array of token IDs for the text content."""
+
+
+class TranscriptionResponseVerbose(OpenAIBaseModel):
+    duration: str
+    """The duration of the input audio."""
+
+    language: str
+    """The language of the input audio."""
+
+    text: str
+    """The transcribed text."""
+
+    segments: list[TranscriptionSegment] | None = None
+    """Segments of the transcribed text and their corresponding details."""
+
+    words: list[TranscriptionWord] | None = None
+    """Extracted words and their corresponding timestamps."""
+
+
+class TranslationResponseStreamChoice(OpenAIBaseModel):
+    delta: DeltaMessage
+    finish_reason: str | None = None
+    stop_reason: int | str | None = None
+
+
+class TranslationStreamResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"trsl-{random_uuid()}")
+    object: Literal["translation.chunk"] = "translation.chunk"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    choices: list[TranslationResponseStreamChoice]
+    usage: UsageInfo | None = Field(default=None)
+
+
+class TranslationRequest(OpenAIBaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/audio/createTranslation
+
+    file: UploadFile
+    """
+    The audio file object (not file name) to translate, in one of these
+    formats: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, or webm.
+    """
+
+    model: str | None = None
+    """ID of the model to use.
+    """
+
+    prompt: str = Field(default="")
+    """An optional text to guide the model's style or continue a previous audio
+    segment.
+
+    The [prompt](https://platform.openai.com/docs/guides/speech-to-text#prompting)
+    should match the audio language.
+    """
+
+    response_format: AudioResponseFormat = Field(default="json")
+    """
+    The format of the output, in one of these options: `json`, `text`, `srt`,
+    `verbose_json`, or `vtt`.
+    """
+
+    # TODO support additional sampling parameters
+    # --8<-- [start:translation-sampling-params]
+    seed: int | None = Field(None, ge=_LONG_INFO.min, le=_LONG_INFO.max)
+    """The seed to use for sampling."""
+
+    temperature: float = Field(default=0.0)
+    """The sampling temperature, between 0 and 1.
+
+    Higher values like 0.8 will make the output more random, while lower values
+    like 0.2 will make it more focused / deterministic. If set to 0, the model
+    will use [log probability](https://en.wikipedia.org/wiki/Log_probability)
+    to automatically increase the temperature until certain thresholds are hit.
+    """
+    # --8<-- [end:translation-sampling-params]
+
+    # --8<-- [start:translation-extra-params]
+    language: str | None = None
+    """The language of the input audio we translate from.
+
+    Supplying the input language in
+    [ISO-639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) format
+    will improve accuracy.
+    """
+
+    to_language: str | None = None
+    """The language of the input audio we translate to.
+
+    Please note that this is not supported by all models, refer to the specific
+    model documentation for more details.
+    For instance, Whisper only supports `to_language=en`.
+    """
+
+    stream: bool | None = False
+    """Custom field not present in the original OpenAI definition. When set,
+    it will enable output to be streamed in a similar fashion as the Chat
+    Completion endpoint.
+    """
+    # Flattened stream option to simplify form data.
+    stream_include_usage: bool | None = False
+    stream_continuous_usage_stats: bool | None = False
+    # --8<-- [end:translation-extra-params]
+
+    # Default sampling parameters for translation requests.
+    _DEFAULT_SAMPLING_PARAMS: dict = {
+        "temperature": 0,
+    }
+
+    def to_sampling_params(
+        self, default_max_tokens: int, default_sampling_params: dict | None = None
+    ) -> SamplingParams:
+        max_tokens = default_max_tokens
+
+        if default_sampling_params is None:
+            default_sampling_params = {}
+        # Default parameters
+        if (temperature := self.temperature) is None:
+            temperature = default_sampling_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+
+        return SamplingParams.from_optional(
+            temperature=temperature,
+            max_tokens=max_tokens,
+            seed=self.seed,
+            output_kind=RequestOutputKind.DELTA
+            if self.stream
+            else RequestOutputKind.FINAL_ONLY,
+        )
+
+    @model_validator(mode="before")
+    @classmethod
+    def validate_stream_options(cls, data):
+        stream_opts = ["stream_include_usage", "stream_continuous_usage_stats"]
+        stream = data.get("stream", False)
+        if any(bool(data.get(so, False)) for so in stream_opts) and not stream:
+            raise ValueError("Stream options can only be defined when `stream=True`.")
+
+        return data
+
+
+# Translation response objects
+class TranslationResponse(OpenAIBaseModel):
+    text: str
+    """The translated text."""
+
+
+class TranslationWord(OpenAIBaseModel):
+    end: float
+    """End time of the word in seconds."""
+
+    start: float
+    """Start time of the word in seconds."""
+
+    word: str
+    """The text content of the word."""
+
+
+class TranslationSegment(OpenAIBaseModel):
+    id: int
+    """Unique identifier of the segment."""
+
+    avg_logprob: float
+    """Average logprob of the segment.
+
+    If the value is lower than -1, consider the logprobs failed.
+    """
+
+    compression_ratio: float
+    """Compression ratio of the segment.
+
+    If the value is greater than 2.4, consider the compression failed.
+    """
+
+    end: float
+    """End time of the segment in seconds."""
+
+    no_speech_prob: float
+    """Probability of no speech in the segment.
+
+    If the value is higher than 1.0 and the `avg_logprob` is below -1, consider
+    this segment silent.
+    """
+
+    seek: int
+    """Seek offset of the segment."""
+
+    start: float
+    """Start time of the segment in seconds."""
+
+    temperature: float
+    """Temperature parameter used for generating the segment."""
+
+    text: str
+    """Text content of the segment."""
+
+    tokens: list[int]
+    """Array of token IDs for the text content."""
+
+
+class TranslationResponseVerbose(OpenAIBaseModel):
+    duration: str
+    """The duration of the input audio."""
+
+    language: str
+    """The language of the input audio."""
+
+    text: str
+    """The translated text."""
+
+    segments: list[TranslationSegment] | None = None
+    """Segments of the translated text and their corresponding details."""
+
+    words: list[TranslationWord] | None = None
+    """Extracted words and their corresponding timestamps."""
+
+
+####### Tokens IN <> Tokens OUT #######
+class GenerateRequest(BaseModel):
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    token_ids: list[int]
+    """The token ids to generate text from."""
+
+    # features: MultiModalFeatureSpec
+    # TODO (NickLucche): implement once Renderer work is completed
+    features: str | None = None
+    """The processed MM inputs for the model."""
+
+    sampling_params: SamplingParams
+    """The sampling parameters for the model."""
+
+    model: str | None = None
+
+    stream: bool | None = False
+    stream_options: StreamOptions | None = None
+    cache_salt: str | None = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit)."
+        ),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
+
+
+class GenerateResponseChoice(BaseModel):
+    index: int
+    logprobs: ChatCompletionLogProbs | None = None
+    # per OpenAI spec this is the default
+    finish_reason: str | None = "stop"
+    token_ids: list[int] | None = None
+
+
+class GenerateResponse(BaseModel):
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    choices: list[GenerateResponseChoice]
+
+    prompt_logprobs: list[dict[int, Logprob] | None] | None = None
+
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
diff --git a/entrypoints/openai/run_batch.py b/entrypoints/openai/run_batch.py
new file mode 100644
index 0000000..4b9dba0
--- /dev/null
+++ b/entrypoints/openai/run_batch.py
@@ -0,0 +1,547 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import tempfile
+from argparse import Namespace
+from collections.abc import Awaitable, Callable
+from http import HTTPStatus
+from io import StringIO
+
+import aiohttp
+import torch
+from prometheus_client import start_http_server
+from tqdm import tqdm
+
+from vllm.engine.arg_utils import AsyncEngineArgs, optional_type
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    BatchRequestInput,
+    BatchRequestOutput,
+    BatchResponseData,
+    ChatCompletionResponse,
+    EmbeddingResponse,
+    ErrorResponse,
+    RerankResponse,
+    ScoreResponse,
+)
+from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
+from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
+from vllm.entrypoints.openai.serving_models import BaseModelPath, OpenAIServingModels
+from vllm.entrypoints.openai.serving_score import ServingScores
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParserManager
+from vllm.utils import random_uuid
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger(__name__)
+
+
+def make_arg_parser(parser: FlexibleArgumentParser):
+    parser.add_argument(
+        "-i",
+        "--input-file",
+        required=True,
+        type=str,
+        help="The path or url to a single input file. Currently supports local file "
+        "paths, or the http protocol (http or https). If a URL is specified, "
+        "the file should be available via HTTP GET.",
+    )
+    parser.add_argument(
+        "-o",
+        "--output-file",
+        required=True,
+        type=str,
+        help="The path or url to a single output file. Currently supports "
+        "local file paths, or web (http or https) urls. If a URL is specified,"
+        " the file should be available via HTTP PUT.",
+    )
+    parser.add_argument(
+        "--output-tmp-dir",
+        type=str,
+        default=None,
+        help="The directory to store the output file before uploading it "
+        "to the output URL.",
+    )
+    parser.add_argument(
+        "--response-role",
+        type=optional_type(str),
+        default="assistant",
+        help="The role name to return if `request.add_generation_prompt=True`.",
+    )
+
+    parser = AsyncEngineArgs.add_cli_args(parser)
+
+    parser.add_argument(
+        "--max-log-len",
+        type=int,
+        default=None,
+        help="Max number of prompt characters or prompt "
+        "ID numbers being printed in log."
+        "\n\nDefault: Unlimited",
+    )
+
+    parser.add_argument(
+        "--enable-metrics", action="store_true", help="Enable Prometheus metrics"
+    )
+    parser.add_argument(
+        "--url",
+        type=str,
+        default="0.0.0.0",
+        help="URL to the Prometheus metrics server "
+        "(only needed if enable-metrics is set).",
+    )
+    parser.add_argument(
+        "--port",
+        type=int,
+        default=8000,
+        help="Port number for the Prometheus metrics server "
+        "(only needed if enable-metrics is set).",
+    )
+    parser.add_argument(
+        "--enable-prompt-tokens-details",
+        action="store_true",
+        default=False,
+        help="If set to True, enable prompt_tokens_details in usage.",
+    )
+    parser.add_argument(
+        "--enable-force-include-usage",
+        action="store_true",
+        default=False,
+        help="If set to True, include usage on every request "
+        "(even when stream_options is not specified)",
+    )
+
+    return parser
+
+
+def parse_args():
+    parser = FlexibleArgumentParser(description="vLLM OpenAI-Compatible batch runner.")
+    return make_arg_parser(parser).parse_args()
+
+
+# explicitly use pure text format, with a newline at the end
+# this makes it impossible to see the animation in the progress bar
+# but will avoid messing up with ray or multiprocessing, which wraps
+# each line of output with some prefix.
+_BAR_FORMAT = "{desc}: {percentage:3.0f}% Completed | {n_fmt}/{total_fmt} [{elapsed}<{remaining}, {rate_fmt}]\n"  # noqa: E501
+
+
+class BatchProgressTracker:
+    def __init__(self):
+        self._total = 0
+        self._pbar: tqdm | None = None
+
+    def submitted(self):
+        self._total += 1
+
+    def completed(self):
+        if self._pbar:
+            self._pbar.update()
+
+    def pbar(self) -> tqdm:
+        enable_tqdm = (
+            not torch.distributed.is_initialized() or torch.distributed.get_rank() == 0
+        )
+        self._pbar = tqdm(
+            total=self._total,
+            unit="req",
+            desc="Running batch",
+            mininterval=5,
+            disable=not enable_tqdm,
+            bar_format=_BAR_FORMAT,
+        )
+        return self._pbar
+
+
+async def read_file(path_or_url: str) -> str:
+    if path_or_url.startswith("http://") or path_or_url.startswith("https://"):
+        async with aiohttp.ClientSession() as session, session.get(path_or_url) as resp:
+            return await resp.text()
+    else:
+        with open(path_or_url, encoding="utf-8") as f:
+            return f.read()
+
+
+async def write_local_file(
+    output_path: str, batch_outputs: list[BatchRequestOutput]
+) -> None:
+    """
+    Write the responses to a local file.
+    output_path: The path to write the responses to.
+    batch_outputs: The list of batch outputs to write.
+    """
+    # We should make this async, but as long as run_batch runs as a
+    # standalone program, blocking the event loop won't affect performance.
+    with open(output_path, "w", encoding="utf-8") as f:
+        for o in batch_outputs:
+            print(o.model_dump_json(), file=f)
+
+
+async def upload_data(output_url: str, data_or_file: str, from_file: bool) -> None:
+    """
+    Upload a local file to a URL.
+    output_url: The URL to upload the file to.
+    data_or_file: Either the data to upload or the path to the file to upload.
+    from_file: If True, data_or_file is the path to the file to upload.
+    """
+    # Timeout is a common issue when uploading large files.
+    # We retry max_retries times before giving up.
+    max_retries = 5
+    # Number of seconds to wait before retrying.
+    delay = 5
+
+    for attempt in range(1, max_retries + 1):
+        try:
+            # We increase the timeout to 1000 seconds to allow
+            # for large files (default is 300).
+            async with aiohttp.ClientSession(
+                timeout=aiohttp.ClientTimeout(total=1000)
+            ) as session:
+                if from_file:
+                    with open(data_or_file, "rb") as file:
+                        async with session.put(output_url, data=file) as response:
+                            if response.status != 200:
+                                raise Exception(
+                                    f"Failed to upload file.\n"
+                                    f"Status: {response.status}\n"
+                                    f"Response: {response.text()}"
+                                )
+                else:
+                    async with session.put(output_url, data=data_or_file) as response:
+                        if response.status != 200:
+                            raise Exception(
+                                f"Failed to upload data.\n"
+                                f"Status: {response.status}\n"
+                                f"Response: {response.text()}"
+                            )
+
+        except Exception as e:
+            if attempt < max_retries:
+                logger.error(
+                    "Failed to upload data (attempt %d). Error message: %s.\nRetrying in %d seconds...",  # noqa: E501
+                    attempt,
+                    e,
+                    delay,
+                )
+                await asyncio.sleep(delay)
+            else:
+                raise Exception(
+                    f"Failed to upload data (attempt {attempt}). Error message: {str(e)}."  # noqa: E501
+                ) from e
+
+
+async def write_file(
+    path_or_url: str, batch_outputs: list[BatchRequestOutput], output_tmp_dir: str
+) -> None:
+    """
+    Write batch_outputs to a file or upload to a URL.
+    path_or_url: The path or URL to write batch_outputs to.
+    batch_outputs: The list of batch outputs to write.
+    output_tmp_dir: The directory to store the output file before uploading it
+    to the output URL.
+    """
+    if path_or_url.startswith("http://") or path_or_url.startswith("https://"):
+        if output_tmp_dir is None:
+            logger.info("Writing outputs to memory buffer")
+            output_buffer = StringIO()
+            for o in batch_outputs:
+                print(o.model_dump_json(), file=output_buffer)
+            output_buffer.seek(0)
+            logger.info("Uploading outputs to %s", path_or_url)
+            await upload_data(
+                path_or_url,
+                output_buffer.read().strip().encode("utf-8"),
+                from_file=False,
+            )
+        else:
+            # Write responses to a temporary file and then upload it to the URL.
+            with tempfile.NamedTemporaryFile(
+                mode="w",
+                encoding="utf-8",
+                dir=output_tmp_dir,
+                prefix="tmp_batch_output_",
+                suffix=".jsonl",
+            ) as f:
+                logger.info("Writing outputs to temporary local file %s", f.name)
+                await write_local_file(f.name, batch_outputs)
+                logger.info("Uploading outputs to %s", path_or_url)
+                await upload_data(path_or_url, f.name, from_file=True)
+    else:
+        logger.info("Writing outputs to local file %s", path_or_url)
+        await write_local_file(path_or_url, batch_outputs)
+
+
+def make_error_request_output(
+    request: BatchRequestInput, error_msg: str
+) -> BatchRequestOutput:
+    batch_output = BatchRequestOutput(
+        id=f"vllm-{random_uuid()}",
+        custom_id=request.custom_id,
+        response=BatchResponseData(
+            status_code=HTTPStatus.BAD_REQUEST,
+            request_id=f"vllm-batch-{random_uuid()}",
+        ),
+        error=error_msg,
+    )
+    return batch_output
+
+
+async def make_async_error_request_output(
+    request: BatchRequestInput, error_msg: str
+) -> BatchRequestOutput:
+    return make_error_request_output(request, error_msg)
+
+
+async def run_request(
+    serving_engine_func: Callable,
+    request: BatchRequestInput,
+    tracker: BatchProgressTracker,
+) -> BatchRequestOutput:
+    response = await serving_engine_func(request.body)
+
+    if isinstance(
+        response,
+        (ChatCompletionResponse, EmbeddingResponse, ScoreResponse, RerankResponse),
+    ):
+        batch_output = BatchRequestOutput(
+            id=f"vllm-{random_uuid()}",
+            custom_id=request.custom_id,
+            response=BatchResponseData(
+                body=response, request_id=f"vllm-batch-{random_uuid()}"
+            ),
+            error=None,
+        )
+    elif isinstance(response, ErrorResponse):
+        batch_output = BatchRequestOutput(
+            id=f"vllm-{random_uuid()}",
+            custom_id=request.custom_id,
+            response=BatchResponseData(
+                status_code=response.error.code,
+                request_id=f"vllm-batch-{random_uuid()}",
+            ),
+            error=response,
+        )
+    else:
+        batch_output = make_error_request_output(
+            request, error_msg="Request must not be sent in stream mode"
+        )
+
+    tracker.completed()
+    return batch_output
+
+
+def validate_run_batch_args(args):
+    valid_reasoning_parsers = ReasoningParserManager.list_registered()
+    if (
+        reasoning_parser := args.structured_outputs_config.reasoning_parser
+    ) and reasoning_parser not in valid_reasoning_parsers:
+        raise KeyError(
+            f"invalid reasoning parser: {reasoning_parser} "
+            f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
+        )
+
+
+async def run_batch(
+    engine_client: EngineClient,
+    args: Namespace,
+) -> None:
+    if args.served_model_name is not None:
+        served_model_names = args.served_model_name
+    else:
+        served_model_names = [args.model]
+
+    if args.enable_log_requests:
+        request_logger = RequestLogger(max_log_len=args.max_log_len)
+    else:
+        request_logger = None
+
+    base_model_paths = [
+        BaseModelPath(name=name, model_path=args.model) for name in served_model_names
+    ]
+
+    model_config = engine_client.model_config
+    supported_tasks = await engine_client.get_supported_tasks()
+    logger.info("Supported tasks: %s", supported_tasks)
+
+    # Create the openai serving objects.
+    openai_serving_models = OpenAIServingModels(
+        engine_client=engine_client,
+        base_model_paths=base_model_paths,
+        lora_modules=None,
+    )
+
+    openai_serving_chat = (
+        OpenAIServingChat(
+            engine_client,
+            openai_serving_models,
+            args.response_role,
+            request_logger=request_logger,
+            chat_template=None,
+            chat_template_content_format="auto",
+            reasoning_parser=args.structured_outputs_config.reasoning_parser,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
+
+    openai_serving_embedding = (
+        OpenAIServingEmbedding(
+            engine_client,
+            openai_serving_models,
+            request_logger=request_logger,
+            chat_template=None,
+            chat_template_content_format="auto",
+        )
+        if "embed" in supported_tasks
+        else None
+    )
+
+    enable_serving_reranking = (
+        "classify" in supported_tasks
+        and getattr(model_config.hf_config, "num_labels", 0) == 1
+    )
+
+    openai_serving_scores = (
+        ServingScores(
+            engine_client,
+            openai_serving_models,
+            request_logger=request_logger,
+        )
+        if ("embed" in supported_tasks or enable_serving_reranking)
+        else None
+    )
+
+    tracker = BatchProgressTracker()
+    logger.info("Reading batch from %s...", args.input_file)
+
+    # Submit all requests in the file to the engine "concurrently".
+    response_futures: list[Awaitable[BatchRequestOutput]] = []
+    for request_json in (await read_file(args.input_file)).strip().split("\n"):
+        # Skip empty lines.
+        request_json = request_json.strip()
+        if not request_json:
+            continue
+
+        request = BatchRequestInput.model_validate_json(request_json)
+
+        # Determine the type of request and run it.
+        if request.url == "/v1/chat/completions":
+            chat_handler_fn = (
+                openai_serving_chat.create_chat_completion
+                if openai_serving_chat is not None
+                else None
+            )
+            if chat_handler_fn is None:
+                response_futures.append(
+                    make_async_error_request_output(
+                        request,
+                        error_msg="The model does not support Chat Completions API",
+                    )
+                )
+                continue
+
+            response_futures.append(run_request(chat_handler_fn, request, tracker))
+            tracker.submitted()
+        elif request.url == "/v1/embeddings":
+            embed_handler_fn = (
+                openai_serving_embedding.create_embedding
+                if openai_serving_embedding is not None
+                else None
+            )
+            if embed_handler_fn is None:
+                response_futures.append(
+                    make_async_error_request_output(
+                        request,
+                        error_msg="The model does not support Embeddings API",
+                    )
+                )
+                continue
+
+            response_futures.append(run_request(embed_handler_fn, request, tracker))
+            tracker.submitted()
+        elif request.url.endswith("/score"):
+            score_handler_fn = (
+                openai_serving_scores.create_score
+                if openai_serving_scores is not None
+                else None
+            )
+            if score_handler_fn is None:
+                response_futures.append(
+                    make_async_error_request_output(
+                        request,
+                        error_msg="The model does not support Scores API",
+                    )
+                )
+                continue
+
+            response_futures.append(run_request(score_handler_fn, request, tracker))
+            tracker.submitted()
+        elif request.url.endswith("/rerank"):
+            rerank_handler_fn = (
+                openai_serving_scores.do_rerank
+                if openai_serving_scores is not None
+                else None
+            )
+            if rerank_handler_fn is None:
+                response_futures.append(
+                    make_async_error_request_output(
+                        request,
+                        error_msg="The model does not support Rerank API",
+                    )
+                )
+                continue
+
+            response_futures.append(run_request(rerank_handler_fn, request, tracker))
+            tracker.submitted()
+        else:
+            response_futures.append(
+                make_async_error_request_output(
+                    request,
+                    error_msg=f"URL {request.url} was used. "
+                    "Supported endpoints: /v1/chat/completions, /v1/embeddings,"
+                    " /score, /rerank ."
+                    "See vllm/entrypoints/openai/api_server.py for supported "
+                    "score/rerank versions.",
+                )
+            )
+
+    with tracker.pbar():
+        responses = await asyncio.gather(*response_futures)
+
+    await write_file(args.output_file, responses, args.output_tmp_dir)
+
+
+async def main(args: Namespace):
+    from vllm.entrypoints.openai.api_server import build_async_engine_client
+    from vllm.usage.usage_lib import UsageContext
+
+    validate_run_batch_args(args)
+
+    async with build_async_engine_client(
+        args,
+        usage_context=UsageContext.OPENAI_BATCH_RUNNER,
+        disable_frontend_multiprocessing=False,
+    ) as engine_client:
+        await run_batch(engine_client, args)
+
+
+if __name__ == "__main__":
+    args = parse_args()
+
+    logger.info("vLLM batch processing API version %s", VLLM_VERSION)
+    logger.info("args: %s", args)
+
+    # Start the Prometheus metrics server. LLMEngine uses the Prometheus client
+    # to publish metrics at the /metrics endpoint.
+    if args.enable_metrics:
+        logger.info("Prometheus metrics enabled")
+        start_http_server(port=args.port, addr=args.url)
+    else:
+        logger.info("Prometheus metrics disabled")
+
+    asyncio.run(main(args))
diff --git a/entrypoints/openai/serving_chat.py b/entrypoints/openai/serving_chat.py
new file mode 100644
index 0000000..59e1c8d
--- /dev/null
+++ b/entrypoints/openai/serving_chat.py
@@ -0,0 +1,1772 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import json
+import time
+from collections.abc import AsyncGenerator, AsyncIterator
+from collections.abc import Sequence as GenericSequence
+from typing import Final
+
+import jinja2
+import partial_json_parser
+import regex as re
+from fastapi import Request
+from openai_harmony import Message as OpenAIMessage
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import (
+    ChatTemplateContentFormatOption,
+    ConversationMessage,
+    get_history_tool_calls_cnt,
+    make_tool_call_id,
+)
+from vllm.entrypoints.harmony_utils import (
+    get_developer_message,
+    get_stop_tokens_for_assistant_actions,
+    get_streamable_parser_for_assistant,
+    get_system_message,
+    parse_chat_output,
+    parse_input_to_harmony_message,
+    render_for_completion,
+)
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionLogProb,
+    ChatCompletionLogProbs,
+    ChatCompletionLogProbsContent,
+    ChatCompletionNamedToolChoiceParam,
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+    ChatCompletionResponseChoice,
+    ChatCompletionResponseStreamChoice,
+    ChatCompletionStreamResponse,
+    ChatMessage,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ErrorResponse,
+    PromptTokenUsageInfo,
+    RequestResponseMetadata,
+    ToolCall,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing, clamp_prompt_logprobs
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.openai.tool_parsers import ToolParser
+from vllm.entrypoints.openai.tool_parsers.mistral_tool_parser import MistralToolCall
+from vllm.entrypoints.utils import get_max_tokens, should_include_usage
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob
+from vllm.outputs import CompletionOutput, RequestOutput
+from vllm.sampling_params import BeamSearchParams, SamplingParams
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.transformers_utils.tokenizers import (
+    maybe_serialize_tool_calls,
+    truncate_tool_call_ids,
+    validate_request_params,
+)
+from vllm.utils.collection_utils import as_list
+from vllm.v1.sample.logits_processor import validate_logits_processors_parameters
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingChat(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        response_role: str,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        trust_request_chat_template: bool = False,
+        return_tokens_as_token_ids: bool = False,
+        reasoning_parser: str = "",
+        enable_auto_tools: bool = False,
+        exclude_tools_when_tool_choice_none: bool = False,
+        tool_parser: str | None = None,
+        enable_prompt_tokens_details: bool = False,
+        enable_force_include_usage: bool = False,
+        enable_log_outputs: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            log_error_stack=log_error_stack,
+        )
+
+        self.response_role = response_role
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+        self.enable_log_outputs = enable_log_outputs
+
+        # set up logits processors
+        self.logits_processors = self.model_config.logits_processors
+
+        # set up reasoning parser
+        self.reasoning_parser = self._get_reasoning_parser(
+            reasoning_parser_name=reasoning_parser
+        )
+        # set up tool use
+        self.enable_auto_tools: bool = enable_auto_tools
+        self.tool_parser = self._get_tool_parser(
+            tool_parser_name=tool_parser, enable_auto_tools=enable_auto_tools
+        )
+        self.exclude_tools_when_tool_choice_none = exclude_tools_when_tool_choice_none
+
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.enable_force_include_usage = enable_force_include_usage
+        self.default_sampling_params = self.model_config.get_diff_sampling_param()
+        if self.default_sampling_params:
+            source = self.model_config.generation_config
+            source = "model" if source == "auto" else source
+            logger.info(
+                "Using default chat sampling params from %s: %s",
+                source,
+                self.default_sampling_params,
+            )
+        if self.model_config.hf_config.model_type == "kimi_k2":
+            self.tool_call_id_type = "kimi_k2"
+        else:
+            self.tool_call_id_type = "random"
+
+        self.use_harmony = self.model_config.hf_config.model_type == "gpt_oss"
+        if self.use_harmony:
+            if "stop_token_ids" not in self.default_sampling_params:
+                self.default_sampling_params["stop_token_ids"] = []
+            self.default_sampling_params["stop_token_ids"].extend(
+                get_stop_tokens_for_assistant_actions()
+            )
+
+        # NOTE(woosuk): While OpenAI's chat completion API supports browsing
+        # for some models, currently vLLM doesn't support it. Please use the
+        # Responses API instead.
+        self.supports_browsing = False
+        self.browser_tool = None
+        # NOTE(woosuk): Chat completion API does not support code interpreter.
+        # Please use the Responses API instead.
+        self.supports_code_interpreter = False
+        self.python_tool = None
+
+    async def create_chat_completion(
+        self,
+        request: ChatCompletionRequest,
+        raw_request: Request | None = None,
+    ) -> AsyncGenerator[str, None] | ChatCompletionResponse | ErrorResponse:
+        """
+        Chat Completion API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/chat/create
+        for the API specification. This API mimics the OpenAI
+        Chat Completion API.
+        """
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            logger.error("Error with model %s", error_check_ret)
+            return error_check_ret
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        try:
+            lora_request = self._maybe_get_adapters(
+                request, supports_default_mm_loras=True
+            )
+
+            model_name = self.models.model_name(lora_request)
+
+            tokenizer = await self.engine_client.get_tokenizer()
+
+            tool_parser = self.tool_parser
+
+            if isinstance(tokenizer, MistralTokenizer):
+                # because of issues with pydantic we need to potentially
+                # re-serialize the tool_calls field of the request
+                # for more info: see comment in `maybe_serialize_tool_calls`
+                maybe_serialize_tool_calls(request)
+                truncate_tool_call_ids(request)
+                validate_request_params(request)
+
+            if (
+                request.tool_choice == "auto"
+                and not (self.enable_auto_tools and tool_parser is not None)
+                and not isinstance(tokenizer, MistralTokenizer)
+                and not self.use_harmony
+            ):
+                # for hf tokenizers, "auto" tools requires
+                # --enable-auto-tool-choice and --tool-call-parser
+                return self.create_error_response(
+                    '"auto" tool choice requires '
+                    "--enable-auto-tool-choice and --tool-call-parser to be set"
+                )
+
+            if request.tools is None or (
+                request.tool_choice == "none"
+                and self.exclude_tools_when_tool_choice_none
+            ):
+                tool_dicts = None
+            else:
+                tool_dicts = [tool.model_dump() for tool in request.tools]
+
+            if not self.use_harmony:
+                # Common case.
+                error_check_ret = self._validate_chat_template(
+                    request_chat_template=request.chat_template,
+                    chat_template_kwargs=request.chat_template_kwargs,
+                    trust_request_chat_template=self.trust_request_chat_template,
+                )
+                if error_check_ret is not None:
+                    return error_check_ret
+                (
+                    conversation,
+                    request_prompts,
+                    engine_prompts,
+                ) = await self._preprocess_chat(
+                    request,
+                    tokenizer,
+                    request.messages,
+                    chat_template=request.chat_template or self.chat_template,
+                    chat_template_content_format=self.chat_template_content_format,
+                    add_generation_prompt=request.add_generation_prompt,
+                    continue_final_message=request.continue_final_message,
+                    tool_dicts=tool_dicts,
+                    documents=request.documents,
+                    chat_template_kwargs=request.chat_template_kwargs,
+                    tool_parser=tool_parser,
+                    add_special_tokens=request.add_special_tokens,
+                )
+            else:
+                # For GPT-OSS.
+                (
+                    conversation,
+                    request_prompts,
+                    engine_prompts,
+                ) = self._make_request_with_harmony(request)
+        except (ValueError, TypeError, RuntimeError, jinja2.TemplateError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(f"{e} {e.__cause__}")
+
+        request_id = (
+            f"chatcmpl-{self._base_request_id(raw_request, request.request_id)}"
+        )
+
+        request_metadata = RequestResponseMetadata(request_id=request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        # Extract data_parallel_rank from header (router can inject it)
+        data_parallel_rank = self._get_data_parallel_rank(raw_request)
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[RequestOutput, None]] = []
+        try:
+            for i, engine_prompt in enumerate(engine_prompts):
+                prompt_text, _, _ = self._get_prompt_components(request_prompts[i])
+
+                if self.default_sampling_params is None:
+                    self.default_sampling_params = {}
+
+                max_tokens = get_max_tokens(
+                    max_model_len=self.max_model_len,
+                    request=request,
+                    input_length=len(engine_prompt["prompt_token_ids"]),
+                    default_sampling_params=self.default_sampling_params,
+                )
+
+                sampling_params: SamplingParams | BeamSearchParams
+                if request.use_beam_search:
+                    sampling_params = request.to_beam_search_params(
+                        max_tokens, self.default_sampling_params
+                    )
+                else:
+                    sampling_params = request.to_sampling_params(
+                        max_tokens,
+                        self.model_config.logits_processor_pattern,
+                        self.default_sampling_params,
+                    )
+                    validate_logits_processors_parameters(
+                        self.logits_processors,
+                        sampling_params,
+                    )
+
+                self._log_inputs(
+                    request_id,
+                    request_prompts[i],
+                    params=sampling_params,
+                    lora_request=lora_request,
+                )
+
+                trace_headers = (
+                    None
+                    if raw_request is None
+                    else await self._get_trace_headers(raw_request.headers)
+                )
+
+                if isinstance(sampling_params, BeamSearchParams):
+                    generator = self.beam_search(
+                        prompt=engine_prompt,
+                        request_id=request_id,
+                        params=sampling_params,
+                        lora_request=lora_request,
+                    )
+                else:
+                    engine_request, tokenization_kwargs = await self._process_inputs(
+                        request_id,
+                        engine_prompt,
+                        sampling_params,
+                        lora_request=lora_request,
+                        trace_headers=trace_headers,
+                        priority=request.priority,
+                    )
+
+                    generator = self.engine_client.generate(
+                        engine_request,
+                        sampling_params,
+                        request_id,
+                        lora_request=lora_request,
+                        trace_headers=trace_headers,
+                        priority=request.priority,
+                        prompt_text=prompt_text,
+                        tokenization_kwargs=tokenization_kwargs,
+                        data_parallel_rank=data_parallel_rank,
+                    )
+
+                generators.append(generator)
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        assert len(generators) == 1
+        (result_generator,) = generators
+
+        # Streaming response
+        if request.stream:
+            return self.chat_completion_stream_generator(
+                request,
+                result_generator,
+                request_id,
+                model_name,
+                conversation,
+                tokenizer,
+                request_metadata,
+            )
+
+        try:
+            return await self.chat_completion_full_generator(
+                request,
+                result_generator,
+                request_id,
+                model_name,
+                conversation,
+                tokenizer,
+                request_metadata,
+            )
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    def get_chat_request_role(self, request: ChatCompletionRequest) -> str:
+        if request.add_generation_prompt:
+            return self.response_role
+        return request.messages[-1]["role"]
+
+    @staticmethod
+    def _bracket_level(s: str, opening="{", closing="}") -> int:
+        """
+        Calculate the current level of nested brackets in a given string.
+        """
+        level = 0
+        for char in s:
+            if char == opening:
+                level += 1
+            elif char == closing:
+                level -= 1
+        return level
+
+    @staticmethod
+    def _filter_delta_text(delta_text: str, previous_text: str) -> tuple[str, bool]:
+        # remove last '},' of the tool definition stemming from the
+        # "name"/"parameters" outer object or closing ']' of the tool list
+        # count occurrences of opening and closing curly braces and
+        # once level 0 is reached stop outputting text
+        # if 0 is reached while parsing the delta_text we know the current
+        # tool will finish in this current iteration
+        bracket_level = OpenAIServingChat._bracket_level(previous_text)
+        updated_delta, passed_zero = "", False
+        for c in delta_text:
+            if c == "{":
+                bracket_level += 1
+                passed_zero = bracket_level == 0
+            elif c == "}":
+                bracket_level -= 1
+                passed_zero = bracket_level == 0
+
+            if bracket_level != 0:
+                updated_delta += c
+            else:
+                # if a comma is reached at level 0 we can stop
+                if c == ",":
+                    break
+        return updated_delta, passed_zero
+
+    def extract_tool_call_required_streaming(
+        self,
+        previous_text: str,
+        current_text: str | None,
+        delta_text: str,
+        function_name_returned: bool,
+        tool_call_idx: int | None = None,
+    ) -> tuple[DeltaMessage | None, bool]:
+        if current_text is None or current_text == "":
+            # if the current text is empty, we cannot parse it
+            return None, function_name_returned
+        try:
+            obj = partial_json_parser.loads(current_text)
+        except partial_json_parser.core.exceptions.MalformedJSON:
+            logger.debug("not enough tokens to parse into JSON yet")
+            obj = None
+
+        # check if the current text is a valid array
+        # containing a partial tool calling object
+        # if not repeat
+        if obj is None or not isinstance(obj, list) or not len(obj) > 0:
+            function_name_returned = False
+            delta_message = None
+        else:
+            _, finishes_previous_tool = OpenAIServingChat._filter_delta_text(
+                delta_text, previous_text
+            )
+            # take the last tool call from the generated list
+            current_tool_call = obj[-1]
+
+            # once parameters have been generated the name is complete as well
+            if not finishes_previous_tool and (
+                "name" not in current_tool_call or "parameters" not in current_tool_call
+            ):
+                function_name_returned = False
+                delta_message = None
+            else:
+                if not function_name_returned:
+                    # get partly generated arguments from the latest tool call
+                    param_match = re.search(
+                        r'.*"parameters":\s*(.*)', current_text, re.DOTALL
+                    )
+                    arguments = param_match.group(1) if param_match else ""
+                    arguments, _ = OpenAIServingChat._filter_delta_text(
+                        arguments, previous_text
+                    )
+
+                    # if this iteration finishes a previous tool call but a
+                    # new incomplete tool is already generated, take the
+                    # previous from the list
+                    if finishes_previous_tool and "parameters" not in current_tool_call:
+                        current_tool_call = obj[-2]
+
+                    function_name_returned = True
+                    tool_call_id = make_tool_call_id(
+                        id_type=self.tool_call_id_type,
+                        func_name=current_tool_call["name"],
+                        idx=tool_call_idx,
+                    )
+                    delta_message = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                id=tool_call_id,
+                                function=DeltaFunctionCall(
+                                    name=current_tool_call["name"], arguments=arguments
+                                ),
+                                index=len(obj) - 1,
+                                type="function",
+                            )
+                        ]
+                    )
+
+                else:
+                    delta_text, _ = OpenAIServingChat._filter_delta_text(
+                        delta_text, previous_text
+                    )
+
+                    if delta_text != "":
+                        delta_message = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    function=DeltaFunctionCall(
+                                        # OpenAI API returns None
+                                        # instead of name every time
+                                        name=None,
+                                        arguments=delta_text,
+                                    ),
+                                    index=len(obj) - 1,
+                                )
+                            ]
+                        )
+                    else:
+                        delta_message = None
+
+        return delta_message, function_name_returned
+
+    async def chat_completion_stream_generator(
+        self,
+        request: ChatCompletionRequest,
+        result_generator: AsyncIterator[RequestOutput],
+        request_id: str,
+        model_name: str,
+        conversation: list[ConversationMessage],
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+    ) -> AsyncGenerator[str, None]:
+        created_time = int(time.time())
+        chunk_object_type: Final = "chat.completion.chunk"
+        first_iteration = True
+
+        # Send response for each token for each request.n (index)
+        num_choices = 1 if request.n is None else request.n
+        previous_num_tokens = [0] * num_choices
+        finish_reason_sent = [False] * num_choices
+        num_prompt_tokens = 0
+        num_cached_tokens = None
+        if self.use_harmony:
+            harmony_parsers = [
+                get_streamable_parser_for_assistant() for _ in range(num_choices)
+            ]
+            harmony_tools_streamed = [False] * num_choices
+        tools_streamed = [False] * num_choices
+
+        if isinstance(request.tool_choice, ChatCompletionNamedToolChoiceParam):
+            tool_choice_function_name = request.tool_choice.function.name
+        else:
+            tool_choice_function_name = None
+
+        # Determine whether tools are in use with "auto" tool choice
+        tool_choice_auto = (
+            not tool_choice_function_name
+            and self._should_stream_with_auto_tool_parsing(request)
+        )
+
+        all_previous_token_ids: list[list[int]] | None
+        function_name_returned = [False] * num_choices
+        if self.tool_call_id_type == "kimi_k2":
+            history_tool_call_cnt = get_history_tool_calls_cnt(conversation)
+        else:
+            history_tool_call_cnt = 0
+
+        # Always track previous_texts for comprehensive output logging
+        previous_texts = [""] * num_choices
+
+        # Only one of these will be used, thus previous_texts and
+        # all_previous_token_ids will not be used twice in the same iteration.
+        if tool_choice_auto or self.reasoning_parser:
+            # These are only required in "auto" tool choice case
+            all_previous_token_ids = [[]] * num_choices
+            # For reasoning parser and tool call all enabled
+            added_content_delta_arr = [False] * num_choices
+            reasoning_end_arr = [False] * num_choices
+        else:
+            all_previous_token_ids = None
+
+        try:
+            if self.reasoning_parser:
+                reasoning_parser = self.reasoning_parser(
+                    tokenizer,
+                    chat_template_kwargs=request.chat_template_kwargs,  # type: ignore
+                )
+        except RuntimeError as e:
+            logger.exception("Error in reasoning parser creation.")
+            data = self.create_streaming_error_response(str(e))
+            yield f"data: {data}\n\n"
+            yield "data: [DONE]\n\n"
+            return
+        # Prepare the tool parser if it's needed
+        try:
+            if tool_choice_auto and self.tool_parser:
+                tool_parsers: list[ToolParser | None] = [
+                    self.tool_parser(tokenizer)
+                ] * num_choices
+            else:
+                tool_parsers = [None] * num_choices
+        except Exception as e:
+            logger.exception("Error in tool parser creation.")
+            data = self.create_streaming_error_response(str(e))
+            yield f"data: {data}\n\n"
+            yield "data: [DONE]\n\n"
+            return
+
+        stream_options = request.stream_options
+        include_usage, include_continuous_usage = should_include_usage(
+            stream_options, self.enable_force_include_usage
+        )
+
+        try:
+            async for res in result_generator:
+                if res.prompt_token_ids is not None:
+                    num_prompt_tokens = len(res.prompt_token_ids)
+                    if res.encoder_prompt_token_ids is not None:
+                        num_prompt_tokens += len(res.encoder_prompt_token_ids)
+
+                # We need to do it here, because if there are exceptions in
+                # the result_generator, it needs to be sent as the FIRST
+                # response (by the try...catch).
+                if first_iteration:
+                    num_cached_tokens = res.num_cached_tokens
+                    # Send first response for each request.n (index) with
+                    # the role
+                    role = self.get_chat_request_role(request)
+
+                    # NOTE num_choices defaults to 1 so this usually executes
+                    # once per request
+                    for i in range(num_choices):
+                        choice_data = ChatCompletionResponseStreamChoice(
+                            index=i,
+                            delta=DeltaMessage(
+                                role=role,
+                                content="",
+                            ),
+                            logprobs=None,
+                            finish_reason=None,
+                        )
+
+                        # return prompt_token_ids at the first chunk ever
+                        chunk = ChatCompletionStreamResponse(
+                            id=request_id,
+                            object=chunk_object_type,
+                            created=created_time,
+                            choices=[choice_data],
+                            model=model_name,
+                            prompt_token_ids=(
+                                res.prompt_token_ids
+                                if request.return_token_ids
+                                else None
+                            ),
+                        )
+
+                        # if continuous usage stats are requested, add it
+                        if include_continuous_usage:
+                            chunk.usage = UsageInfo(
+                                prompt_tokens=num_prompt_tokens,
+                                completion_tokens=0,
+                                total_tokens=num_prompt_tokens,
+                            )
+
+                        data = chunk.model_dump_json(exclude_unset=True)
+                        yield f"data: {data}\n\n"
+
+                    # Send response to echo the input portion of the
+                    # last message
+                    if request.echo:
+                        last_msg_content: str | list[dict[str, str]] = ""
+                        if (
+                            conversation
+                            and "content" in conversation[-1]
+                            and conversation[-1].get("role") == role
+                        ):
+                            last_msg_content = conversation[-1]["content"] or ""
+
+                        if last_msg_content:
+                            for i in range(num_choices):
+                                choice_data = ChatCompletionResponseStreamChoice(
+                                    index=i,
+                                    delta=DeltaMessage(content=last_msg_content),
+                                    logprobs=None,
+                                    finish_reason=None,
+                                )
+                                chunk = ChatCompletionStreamResponse(
+                                    id=request_id,
+                                    object=chunk_object_type,
+                                    created=created_time,
+                                    choices=[choice_data],
+                                    model=model_name,
+                                )
+                                if include_continuous_usage:
+                                    chunk.usage = UsageInfo(
+                                        prompt_tokens=num_prompt_tokens,
+                                        completion_tokens=0,
+                                        total_tokens=num_prompt_tokens,
+                                    )
+
+                                data = chunk.model_dump_json(exclude_unset=True)
+                                yield f"data: {data}\n\n"
+                    first_iteration = False
+
+                for output in res.outputs:
+                    i = output.index
+                    tool_parser = tool_parsers[i]
+
+                    if finish_reason_sent[i]:
+                        continue
+
+                    if request.logprobs and request.top_logprobs is not None:
+                        assert output.logprobs is not None, "Did not output logprobs"
+                        logprobs = self._create_chat_logprobs(
+                            token_ids=output.token_ids,
+                            top_logprobs=output.logprobs,
+                            tokenizer=tokenizer,
+                            num_output_top_logprobs=request.top_logprobs,
+                            return_as_token_id=request.return_tokens_as_token_ids,
+                        )
+                    else:
+                        logprobs = None
+
+                    if self.use_harmony:
+                        harmony_parser = harmony_parsers[i]
+                        prev_recipient = harmony_parser.current_recipient
+                        delta_text = ""
+                        for token_id in output.token_ids:
+                            harmony_parser.process(token_id)
+                            delta_text += harmony_parser.last_content_delta or ""
+                        cur_channel = harmony_parser.current_channel
+                        cur_recipient = harmony_parser.current_recipient
+                    else:
+                        delta_text = output.text
+
+                    if (
+                        not delta_text
+                        and not output.token_ids
+                        and not previous_num_tokens[i]
+                    ):
+                        # Chunked prefill case, don't return empty chunks
+                        continue
+
+                    delta_message: DeltaMessage | None
+
+                    # just update previous_texts and previous_token_ids
+                    if tool_choice_auto or self.reasoning_parser:
+                        assert previous_texts is not None
+                        assert all_previous_token_ids is not None
+                        previous_text = previous_texts[i]
+                        previous_token_ids = all_previous_token_ids[i]
+                        current_text = previous_text + delta_text
+                        # avoid the None + list error.
+                        if previous_token_ids:
+                            current_token_ids = previous_token_ids + as_list(
+                                output.token_ids
+                            )
+                        else:
+                            current_token_ids = as_list(output.token_ids)
+
+                    if self.use_harmony:
+                        if cur_channel == "final":
+                            delta_message = DeltaMessage(content=delta_text)
+                        elif cur_channel == "analysis":
+                            if request.include_reasoning:
+                                delta_message = DeltaMessage(reasoning=delta_text)
+                            else:
+                                delta_message = None
+                        elif (
+                            cur_channel == "commentary"
+                            and cur_recipient
+                            and cur_recipient.startswith("functions.")
+                        ):
+                            # Count completed tool calls to determine index
+                            base_index = 0
+                            for msg in harmony_parser.messages:
+                                if (
+                                    msg.channel == "commentary"
+                                    and msg.recipient
+                                    and msg.recipient.startswith("functions.")
+                                ):
+                                    base_index += 1
+
+                            if prev_recipient != cur_recipient:
+                                tool_name = cur_recipient.split("functions.", 1)[1]
+                                delta_message = DeltaMessage(
+                                    tool_calls=[
+                                        DeltaToolCall(
+                                            id=make_tool_call_id(),
+                                            type="function",
+                                            function=DeltaFunctionCall(
+                                                name=tool_name,
+                                                arguments="",
+                                            ),
+                                            index=base_index,
+                                        )
+                                    ]
+                                )
+                            elif delta_text:
+                                delta_message = DeltaMessage(
+                                    tool_calls=[
+                                        DeltaToolCall(
+                                            index=base_index,
+                                            function=DeltaFunctionCall(
+                                                arguments=delta_text
+                                            ),
+                                        )
+                                    ]
+                                )
+                            else:
+                                delta_message = None
+
+                            if delta_message is not None:
+                                harmony_tools_streamed[i] = True
+                        else:
+                            delta_message = None
+                    # handle streaming deltas for tools with named tool_choice
+                    elif tool_choice_function_name:
+                        if (
+                            self.reasoning_parser
+                            and not reasoning_end_arr[i]
+                            and not reasoning_parser.is_reasoning_end(
+                                previous_token_ids
+                            )
+                        ):
+                            assert reasoning_parser is not None
+                            delta_message = (
+                                reasoning_parser.extract_reasoning_streaming(
+                                    previous_text,
+                                    current_text,
+                                    delta_text,
+                                    previous_token_ids,
+                                    current_token_ids,
+                                    output.token_ids,
+                                )
+                            )
+                            # When encountering think end id in delta_token_ids
+                            # or think end id in prompt_token_ids
+                            # i.e {"enable_thinking": False},
+                            # set reasoning status to end.
+                            # Only keep 'content', remove 'reasoning'.
+                            if reasoning_parser.is_reasoning_end(
+                                as_list(output.token_ids)
+                            ) or (
+                                res.prompt_token_ids
+                                and reasoning_parser.is_reasoning_end(
+                                    res.prompt_token_ids
+                                )
+                            ):
+                                reasoning_end_arr[i] = True
+                                if delta_message and delta_message.content:
+                                    # This need to be added to next `delta_text`
+                                    current_text = delta_message.content
+                                    delta_message.content = None
+                                else:
+                                    current_text = ""
+                        else:
+                            # Just to add remaining `content`
+                            if self.reasoning_parser:
+                                delta_text = previous_text + delta_text
+                                current_text = ""
+
+                            if function_name_returned[i]:
+                                delta_tool_call = DeltaToolCall(
+                                    function=DeltaFunctionCall(arguments=delta_text),
+                                    index=i,
+                                )
+                            else:
+                                delta_tool_call = DeltaToolCall(
+                                    id=make_tool_call_id(),
+                                    type="function",
+                                    function=DeltaFunctionCall(
+                                        name=tool_choice_function_name,
+                                        arguments=delta_text,
+                                    ),
+                                    index=i,
+                                )
+                                function_name_returned[i] = True
+
+                            delta_message = DeltaMessage(
+                                tool_calls=[
+                                    delta_tool_call,
+                                ]
+                            )
+                            tools_streamed[i] = True
+
+                    elif request.tool_choice == "required":
+                        assert previous_texts is not None
+                        previous_text = previous_texts[i]
+                        current_text = previous_text + delta_text
+                        fn_name_returned = function_name_returned[i]
+                        output_token_ids = as_list(output.token_ids)
+
+                        if (
+                            self.reasoning_parser is not None
+                            and not reasoning_end_arr[i]
+                            and res.prompt_token_ids
+                            and reasoning_parser.is_reasoning_end(res.prompt_token_ids)
+                        ):
+                            reasoning_end_arr[i] = True
+
+                        if self.reasoning_parser and not reasoning_end_arr[i]:
+                            delta_message = (
+                                reasoning_parser.extract_reasoning_streaming(
+                                    previous_text,
+                                    current_text,
+                                    delta_text,
+                                    previous_token_ids,
+                                    current_token_ids,
+                                    output_token_ids,
+                                )
+                            )
+                            if reasoning_parser.is_reasoning_end(output_token_ids):
+                                reasoning_end_arr[i] = True
+                                if delta_message and delta_message.content:
+                                    current_text = delta_message.content
+                                    delta_message.content = None
+                                else:
+                                    # reasoning ended
+                                    current_text = ""
+
+                        else:
+                            # either finished reasoning or no reasoning at all
+                            content = current_text
+
+                            delta_message, function_name_returned[i] = (
+                                self.extract_tool_call_required_streaming(
+                                    previous_text=previous_text,
+                                    current_text=content,
+                                    delta_text=delta_text,
+                                    function_name_returned=fn_name_returned,
+                                    tool_call_idx=history_tool_call_cnt,
+                                )
+                            )
+                            if (
+                                delta_message
+                                and delta_message.tool_calls
+                                and delta_message.tool_calls[0].id is not None
+                            ):
+                                history_tool_call_cnt += 1
+                                tools_streamed[i] = True
+
+                    # handle streaming deltas for tools with "auto" tool choice
+                    # and reasoning parser
+                    elif tool_choice_auto and self.reasoning_parser:
+                        assert tool_parser is not None
+                        assert reasoning_parser is not None
+                        assert added_content_delta_arr is not None
+                        assert reasoning_end_arr is not None
+                        output_token_ids = as_list(output.token_ids)
+                        if not reasoning_end_arr[i]:
+                            delta_message = (
+                                reasoning_parser.extract_reasoning_streaming(
+                                    previous_text,
+                                    current_text,
+                                    delta_text,
+                                    previous_token_ids,
+                                    current_token_ids,
+                                    output_token_ids,
+                                )
+                            )
+                            # When encountering think end id in prompt_token_ids
+                            # i.e {"enable_thinking": False},
+                            # set reasoning status to end.
+                            # Remove the text and token ids related
+                            # to 'reasoning'.
+                            if (
+                                res.prompt_token_ids
+                                and reasoning_parser.is_reasoning_end(
+                                    res.prompt_token_ids
+                                )
+                            ):
+                                reasoning_end_arr[i] = True
+                                current_token_ids = output_token_ids
+                                if delta_message and delta_message.content:
+                                    current_text = delta_message.content
+                                    delta_message.content = None
+                                else:
+                                    current_text = ""
+                            # When encountering think end id in delta_token_ids,
+                            # set reasoning status to end.
+                            # Remove the text and token ids related
+                            # to 'reasoning'.
+                            if reasoning_parser.is_reasoning_end(output_token_ids):
+                                reasoning_end_arr[i] = True
+                                current_token_ids = (
+                                    reasoning_parser.extract_content_ids(
+                                        output_token_ids
+                                    )
+                                )
+                                if delta_message and delta_message.content:
+                                    current_text = delta_message.content
+                                    delta_message.content = None
+                                else:
+                                    current_text = ""
+
+                        # handle tool calls only after reasoning is done,
+                        else:
+                            delta_token_ids = output_token_ids
+                            # First time to tool call,
+                            # add the remaining text and token ids
+                            # to delta from previous
+                            if not added_content_delta_arr[i]:
+                                added_content_delta_arr[i] = True
+                                previous_text = ""
+                                previous_token_ids = []
+                                delta_text = current_text
+                                delta_token_ids = current_token_ids
+
+                            delta_message = tool_parser.extract_tool_calls_streaming(
+                                previous_text=previous_text,
+                                current_text=current_text,
+                                delta_text=delta_text,
+                                previous_token_ids=previous_token_ids,
+                                current_token_ids=current_token_ids,
+                                delta_token_ids=delta_token_ids,
+                                request=request,
+                            )
+                            if delta_message and delta_message.tool_calls:
+                                tools_streamed[i] = True
+                    # when only tool calls
+                    elif tool_choice_auto:
+                        assert tool_parser is not None
+                        delta_message = tool_parser.extract_tool_calls_streaming(
+                            previous_text=previous_text,
+                            current_text=current_text,
+                            delta_text=delta_text,
+                            previous_token_ids=previous_token_ids,
+                            current_token_ids=current_token_ids,
+                            delta_token_ids=output.token_ids,
+                            request=request,
+                        )
+                        if delta_message and delta_message.tool_calls:
+                            tools_streamed[i] = True
+
+                    # when only reasoning
+                    elif self.reasoning_parser:
+                        delta_message = reasoning_parser.extract_reasoning_streaming(
+                            previous_text,
+                            current_text,
+                            delta_text,
+                            previous_token_ids,
+                            current_token_ids,
+                            output.token_ids,
+                        )
+                    # handle streaming just a content delta
+                    else:
+                        delta_message = DeltaMessage(content=delta_text)
+
+                    # update the previous values for the next iteration
+                    if (
+                        tool_choice_auto or self.reasoning_parser
+                    ) and not self.use_harmony:
+                        assert previous_texts is not None
+                        assert all_previous_token_ids is not None
+                        previous_texts[i] = current_text
+                        all_previous_token_ids[i] = current_token_ids
+                    else:
+                        # Update for comprehensive logging even in simple case
+                        assert previous_texts is not None
+                        previous_texts[i] += delta_text
+
+                    # set the previous values for the next iteration
+                    previous_num_tokens[i] += len(output.token_ids)
+
+                    # if the message delta is None (e.g. because it was a
+                    # "control token" for tool calls or the parser otherwise
+                    # wasn't ready to send a token, then
+                    #   get the next token without streaming a chunk
+                    if delta_message is None:
+                        if output.finish_reason is None:
+                            continue
+                        else:
+                            delta_message = DeltaMessage()
+
+                    # Log streaming delta if output logging is enabled
+                    if self.enable_log_outputs and self.request_logger:
+                        delta_content = ""
+                        if delta_message.content:
+                            delta_content = delta_message.content
+                        elif delta_message.tool_calls:
+                            delta_content = "".join(
+                                tc.function.arguments
+                                for tc in delta_message.tool_calls
+                                if tc.function and tc.function.arguments
+                            )
+
+                        if delta_content:
+                            self.request_logger.log_outputs(
+                                request_id=request_id,
+                                outputs=delta_content,
+                                output_token_ids=as_list(output.token_ids),
+                                finish_reason=output.finish_reason,
+                                is_streaming=True,
+                                delta=True,
+                            )
+
+                    if output.finish_reason is None:
+                        # Send token-by-token response for each request.n
+                        choice_data = ChatCompletionResponseStreamChoice(
+                            index=i,
+                            delta=delta_message,
+                            logprobs=logprobs,
+                            finish_reason=None,
+                            token_ids=(
+                                as_list(output.token_ids)
+                                if request.return_token_ids
+                                else None
+                            ),
+                        )
+
+                    # if the model is finished generating
+                    else:
+                        # check to make sure we haven't "forgotten" to stream
+                        #   any tokens that were generated but previously
+                        #   matched by partial json parsing
+                        # only happens if we are NOT using structured outputs
+                        auto_tools_called = False
+                        if tool_parser:
+                            auto_tools_called = len(tool_parser.prev_tool_call_arr) > 0
+                            index = (
+                                len(tool_parser.prev_tool_call_arr) - 1
+                                if auto_tools_called
+                                else 0
+                            )
+                        else:
+                            index = 0
+
+                        if (
+                            self._should_check_for_unstreamed_tool_arg_tokens(
+                                delta_message, output
+                            )
+                            and tool_parser
+                        ):
+                            latest_delta_len = 0
+                            if (
+                                isinstance(
+                                    delta_message.tool_calls[0].function,
+                                    DeltaFunctionCall,
+                                )
+                            ) and isinstance(
+                                delta_message.tool_calls[0].function.arguments, str
+                            ):
+                                latest_delta_len = len(
+                                    delta_message.tool_calls[0].function.arguments
+                                )
+
+                            # get the expected call based on partial JSON
+                            # parsing which "autocompletes" the JSON
+                            expected_call = json.dumps(
+                                tool_parser.prev_tool_call_arr[index].get(
+                                    "arguments", {}
+                                ),
+                                ensure_ascii=False,
+                            )
+
+                            # get what we've streamed so far for arguments
+                            # for the current tool
+                            actual_call = tool_parser.streamed_args_for_tool[index]
+                            if latest_delta_len > 0:
+                                actual_call = actual_call[:-latest_delta_len]
+
+                            # check to see if there's anything left to stream
+                            remaining_call = expected_call.replace(actual_call, "", 1)
+                            # set that as a delta message
+                            delta_message = DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=index,
+                                        function=DeltaFunctionCall(
+                                            arguments=remaining_call
+                                        ).model_dump(exclude_none=True),
+                                    )
+                                ]
+                            )
+
+                        # Send the finish response for each request.n only once
+                        # In OpenAI's API, when a tool is called, the
+                        # finish_reason is:
+                        # "tool_calls" for "auto" or "required" tool calls,
+                        # and "stop" for named tool calls.
+                        if (
+                            auto_tools_called
+                            or (tools_streamed[i] and not tool_choice_function_name)
+                            or (self.use_harmony and harmony_tools_streamed[i])
+                        ):
+                            finish_reason_ = "tool_calls"
+                        else:
+                            finish_reason_ = (
+                                output.finish_reason if output.finish_reason else "stop"
+                            )
+                        choice_data = ChatCompletionResponseStreamChoice(
+                            index=i,
+                            delta=delta_message,
+                            logprobs=logprobs,
+                            finish_reason=finish_reason_,
+                            stop_reason=output.stop_reason,
+                            token_ids=(
+                                as_list(output.token_ids)
+                                if request.return_token_ids
+                                else None
+                            ),
+                        )
+
+                        finish_reason_sent[i] = True
+
+                    chunk = ChatCompletionStreamResponse(
+                        id=request_id,
+                        object=chunk_object_type,
+                        created=created_time,
+                        choices=[choice_data],
+                        model=model_name,
+                    )
+
+                    # handle usage stats if requested & if continuous
+                    if include_continuous_usage:
+                        completion_tokens = previous_num_tokens[i]
+                        chunk.usage = UsageInfo(
+                            prompt_tokens=num_prompt_tokens,
+                            completion_tokens=completion_tokens,
+                            total_tokens=num_prompt_tokens + completion_tokens,
+                        )
+
+                    data = chunk.model_dump_json(exclude_unset=True)
+                    yield f"data: {data}\n\n"
+
+            # once the final token is handled, if stream_options.include_usage
+            # is sent, send the usage
+            if include_usage:
+                completion_tokens = sum(previous_num_tokens)
+                final_usage = UsageInfo(
+                    prompt_tokens=num_prompt_tokens,
+                    completion_tokens=completion_tokens,
+                    total_tokens=num_prompt_tokens + completion_tokens,
+                )
+                if self.enable_prompt_tokens_details and num_cached_tokens:
+                    final_usage.prompt_tokens_details = PromptTokenUsageInfo(
+                        cached_tokens=num_cached_tokens
+                    )
+
+                final_usage_chunk = ChatCompletionStreamResponse(
+                    id=request_id,
+                    object=chunk_object_type,
+                    created=created_time,
+                    choices=[],
+                    model=model_name,
+                    usage=final_usage,
+                )
+                final_usage_data = final_usage_chunk.model_dump_json(
+                    exclude_unset=True, exclude_none=True
+                )
+                yield f"data: {final_usage_data}\n\n"
+
+            # report to FastAPI middleware aggregate usage across all choices
+            num_completion_tokens = sum(previous_num_tokens)
+            request_metadata.final_usage_info = UsageInfo(
+                prompt_tokens=num_prompt_tokens,
+                completion_tokens=num_completion_tokens,
+                total_tokens=num_prompt_tokens + num_completion_tokens,
+            )
+
+            # Log complete streaming response if output logging is enabled
+            if self.enable_log_outputs and self.request_logger:
+                # Log the complete response for each choice
+                for i in range(num_choices):
+                    full_text = (
+                        previous_texts[i]
+                        if previous_texts and i < len(previous_texts)
+                        else f"<streaming_complete: {previous_num_tokens[i]} tokens>"
+                    )
+                    self.request_logger.log_outputs(
+                        request_id=request_id,
+                        outputs=full_text,
+                        output_token_ids=None,  # Consider also logging all token IDs
+                        finish_reason="streaming_complete",
+                        is_streaming=True,
+                        delta=False,
+                    )
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            logger.exception("Error in chat completion stream generator.")
+            data = self.create_streaming_error_response(str(e))
+            yield f"data: {data}\n\n"
+        # Send the final done message after all response.n are finished
+        yield "data: [DONE]\n\n"
+
+    async def chat_completion_full_generator(
+        self,
+        request: ChatCompletionRequest,
+        result_generator: AsyncIterator[RequestOutput],
+        request_id: str,
+        model_name: str,
+        conversation: list[ConversationMessage],
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+    ) -> ErrorResponse | ChatCompletionResponse:
+        created_time = int(time.time())
+        final_res: RequestOutput | None = None
+
+        try:
+            async for res in result_generator:
+                final_res = res
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        assert final_res is not None
+
+        choices: list[ChatCompletionResponseChoice] = []
+        if self.tool_call_id_type == "kimi_k2":
+            history_tool_call_cnt = get_history_tool_calls_cnt(conversation)
+        else:
+            history_tool_call_cnt = 0
+
+        role = self.get_chat_request_role(request)
+        for output in final_res.outputs:
+            token_ids = output.token_ids
+            out_logprobs = output.logprobs
+            tool_call_info = None
+
+            if request.logprobs and request.top_logprobs is not None:
+                assert out_logprobs is not None, "Did not output logprobs"
+                logprobs = self._create_chat_logprobs(
+                    token_ids=token_ids,
+                    top_logprobs=out_logprobs,
+                    num_output_top_logprobs=request.top_logprobs,
+                    tokenizer=tokenizer,
+                    return_as_token_id=request.return_tokens_as_token_ids,
+                )
+            else:
+                logprobs = None
+
+            if self.use_harmony:
+                reasoning, content, _ = parse_chat_output(token_ids)
+                if not request.include_reasoning:
+                    reasoning = None
+
+                if self.tool_parser is not None:
+                    tool_parser = self.tool_parser(tokenizer)
+                    # NOTE: We use token_ids for openai tool parser
+                    tool_call_info = tool_parser.extract_tool_calls(
+                        "",
+                        request=request,
+                        token_ids=token_ids,  # type: ignore
+                    )
+                    content = tool_call_info.content
+                    message = ChatMessage(
+                        role=role,
+                        reasoning=reasoning,
+                        content=content,
+                        tool_calls=tool_call_info.tool_calls,
+                    )
+                else:
+                    message = ChatMessage(
+                        role=role,
+                        reasoning=reasoning,
+                        content=content,
+                    )
+
+                choice_data = ChatCompletionResponseChoice(
+                    index=output.index,
+                    message=message,
+                    logprobs=logprobs,
+                    finish_reason=(
+                        "tool_calls"
+                        if (tool_call_info is not None and tool_call_info.tools_called)
+                        else output.finish_reason
+                        if output.finish_reason
+                        else "stop"
+                    ),
+                    stop_reason=output.stop_reason,
+                    token_ids=(
+                        as_list(output.token_ids) if request.return_token_ids else None
+                    ),
+                )
+                choices.append(choice_data)
+                continue
+
+            if self.reasoning_parser:
+                try:
+                    reasoning_parser = self.reasoning_parser(
+                        tokenizer,
+                        chat_template_kwargs=request.chat_template_kwargs,  # type: ignore
+                    )
+                except RuntimeError as e:
+                    logger.exception("Error in reasoning parser creation.")
+                    return self.create_error_response(str(e))
+                # If the reasoning parser is enabled,
+                # tool calls are extracted exclusively from the content.
+                reasoning, content = reasoning_parser.extract_reasoning(
+                    output.text, request=request
+                )
+                if not request.include_reasoning:
+                    reasoning = None
+            else:
+                reasoning = None
+                content = output.text
+
+            auto_tools_called = False
+            # if auto tools are not enabled, and a named tool choice using
+            #   outlines is not being used
+            tool_calls, content = self._parse_tool_calls_from_content(
+                request=request,
+                tokenizer=tokenizer,
+                content=content,
+                enable_auto_tools=self.enable_auto_tools,
+                tool_parser_cls=self.tool_parser,
+            )
+            tool_call_class = (
+                MistralToolCall if isinstance(tokenizer, MistralTokenizer) else ToolCall
+            )
+            if (not self.enable_auto_tools or not self.tool_parser) and (
+                not isinstance(request.tool_choice, ChatCompletionNamedToolChoiceParam)
+                and request.tool_choice != "required"
+            ):
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
+
+            # if the request uses tools and specified a tool choice
+            elif (
+                request.tool_choice
+                and type(request.tool_choice) is ChatCompletionNamedToolChoiceParam
+            ):
+                assert tool_calls is not None and len(tool_calls) > 0
+                message = ChatMessage(
+                    role=role,
+                    reasoning=reasoning,
+                    content="",
+                    tool_calls=[tool_call_class(function=tc) for tc in tool_calls],
+                )
+
+            elif request.tool_choice and request.tool_choice == "required":
+                tool_call_class_items = []
+                assert tool_calls is not None and len(tool_calls) > 0
+                for tool_call in tool_calls:
+                    tool_call_class_items.append(
+                        tool_call_class(
+                            id=make_tool_call_id(
+                                id_type=self.tool_call_id_type,
+                                func_name=tool_call.name,
+                                idx=history_tool_call_cnt,
+                            ),
+                            function=tool_call,
+                        )
+                    )
+                    history_tool_call_cnt += 1
+                message = ChatMessage(
+                    role=role,
+                    content="",
+                    tool_calls=tool_call_class_items,
+                    reasoning=reasoning,
+                )
+
+            # if the request doesn't use tool choice
+            # OR specifies to not use a tool
+            elif not request.tool_choice or request.tool_choice == "none":
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
+
+            # handle when there are tools and tool choice is auto
+            elif (
+                request.tools
+                and (request.tool_choice == "auto" or request.tool_choice is None)
+                and self.enable_auto_tools
+                and self.tool_parser
+            ):
+                # In the OpenAI API the finish_reason is "tools_called"
+                # if the tool choice is auto and the model produced a tool
+                # call. The same is not true for named function calls
+                auto_tools_called = tool_calls is not None and len(tool_calls) > 0
+                if tool_calls:
+                    message = ChatMessage(
+                        role=role,
+                        reasoning=reasoning,
+                        content=content,
+                        tool_calls=[
+                            ToolCall(
+                                function=tc,
+                                type="function",
+                            )
+                            for tc in tool_calls
+                        ],
+                    )
+
+                else:
+                    # FOR NOW make it a chat message; we will have to detect
+                    # the type to make it later.
+                    ret_content = content
+
+                    # try to use content return from tool parser first,
+                    # tool parser may do some modify for the content.
+                    if content and len(content) > 0:
+                        ret_content = content
+                    message = ChatMessage(
+                        role=role,
+                        reasoning=reasoning,
+                        content=ret_content,
+                    )
+
+            # undetermined case that is still important to handle
+            else:
+                logger.error(
+                    "Error in chat_completion_full_generator - cannot determine"
+                    " if tools should be extracted. Returning a standard chat "
+                    "completion."
+                )
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
+            # In OpenAI's API, when a tool is called, the finish_reason is:
+            # "tool_calls" for "auto" or "required" tool calls,
+            # and "stop" for named tool calls.
+            is_finish_reason_tool_calls = auto_tools_called or (
+                request.tool_choice
+                and request.tool_choice == "required"
+                and output.finish_reason == "stop"
+            )
+
+            choice_data = ChatCompletionResponseChoice(
+                index=output.index,
+                message=message,
+                logprobs=logprobs,
+                finish_reason="tool_calls"
+                if is_finish_reason_tool_calls
+                else output.finish_reason
+                if output.finish_reason
+                else "stop",
+                stop_reason=output.stop_reason,
+                token_ids=(
+                    as_list(output.token_ids) if request.return_token_ids else None
+                ),
+            )
+
+            choices.append(choice_data)
+
+        if request.echo:
+            last_msg_content: str | list[dict[str, str]] = ""
+            if (
+                conversation
+                and "content" in conversation[-1]
+                and conversation[-1].get("role") == role
+            ):
+                last_msg_content = conversation[-1]["content"] or ""
+            if isinstance(last_msg_content, list):
+                last_msg_content = "\n".join(msg["text"] for msg in last_msg_content)
+
+            for choice in choices:
+                full_message = last_msg_content + (choice.message.content or "")
+                choice.message.content = full_message
+
+        assert final_res.prompt_token_ids is not None
+        num_prompt_tokens = len(final_res.prompt_token_ids)
+        if final_res.encoder_prompt_token_ids is not None:
+            num_prompt_tokens += len(final_res.encoder_prompt_token_ids)
+        num_generated_tokens = sum(
+            len(output.token_ids) for output in final_res.outputs
+        )
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            completion_tokens=num_generated_tokens,
+            total_tokens=num_prompt_tokens + num_generated_tokens,
+        )
+        if self.enable_prompt_tokens_details and final_res.num_cached_tokens:
+            usage.prompt_tokens_details = PromptTokenUsageInfo(
+                cached_tokens=final_res.num_cached_tokens
+            )
+
+        request_metadata.final_usage_info = usage
+
+        response = ChatCompletionResponse(
+            id=request_id,
+            created=created_time,
+            model=model_name,
+            choices=choices,
+            usage=usage,
+            prompt_logprobs=clamp_prompt_logprobs(final_res.prompt_logprobs),
+            prompt_token_ids=(
+                final_res.prompt_token_ids if request.return_token_ids else None
+            ),
+            kv_transfer_params=final_res.kv_transfer_params,
+        )
+
+        # Log complete response if output logging is enabled
+        if self.enable_log_outputs and self.request_logger:
+            for choice in choices:
+                output_text = ""
+                if choice.message.content:
+                    output_text = choice.message.content
+                elif choice.message.tool_calls:
+                    # For tool calls, log the function name and arguments
+                    tool_call_descriptions = []
+                    for tc in choice.message.tool_calls:
+                        if hasattr(tc.function, "name") and hasattr(
+                            tc.function, "arguments"
+                        ):
+                            tool_call_descriptions.append(
+                                f"{tc.function.name}({tc.function.arguments})"
+                            )
+                    tool_calls_str = ", ".join(tool_call_descriptions)
+                    output_text = f"[tool_calls: {tool_calls_str}]"
+
+                if output_text:
+                    # Get the corresponding output token IDs
+                    output_token_ids = None
+                    if choice.index < len(final_res.outputs):
+                        output_token_ids = final_res.outputs[choice.index].token_ids
+
+                    self.request_logger.log_outputs(
+                        request_id=request_id,
+                        outputs=output_text,
+                        output_token_ids=output_token_ids,
+                        finish_reason=choice.finish_reason,
+                        is_streaming=False,
+                        delta=False,
+                    )
+
+        return response
+
+    def _get_top_logprobs(
+        self,
+        logprobs: dict[int, Logprob],
+        top_logprobs: int | None,
+        tokenizer: AnyTokenizer,
+        should_return_as_token_id: bool,
+    ) -> list[ChatCompletionLogProb]:
+        return [
+            ChatCompletionLogProb(
+                token=(
+                    token := self._get_decoded_token(
+                        p[1],
+                        p[0],
+                        tokenizer,
+                        return_as_token_id=should_return_as_token_id,
+                    )
+                ),
+                logprob=max(p[1].logprob, -9999.0),
+                bytes=list(token.encode("utf-8", errors="replace")),
+            )
+            for i, p in enumerate(logprobs.items())
+            if (top_logprobs and i < top_logprobs or top_logprobs == -1)
+        ]
+
+    def _create_chat_logprobs(
+        self,
+        token_ids: GenericSequence[int],
+        top_logprobs: GenericSequence[dict[int, Logprob] | None],
+        tokenizer: AnyTokenizer,
+        num_output_top_logprobs: int | None = None,
+        return_as_token_id: bool | None = None,
+    ) -> ChatCompletionLogProbs:
+        """Create OpenAI-style logprobs."""
+        logprobs_content: list[ChatCompletionLogProbsContent] = []
+
+        should_return_as_token_id = (
+            return_as_token_id
+            if return_as_token_id is not None
+            else self.return_tokens_as_token_ids
+        )
+        for i, token_id in enumerate(token_ids):
+            step_top_logprobs = top_logprobs[i]
+            if step_top_logprobs is None or step_top_logprobs.get(token_id) is None:
+                if should_return_as_token_id:
+                    token = f"token_id:{token_id}"
+                else:
+                    token = tokenizer.decode(token_id)
+
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(
+                        token=token,
+                        bytes=list(token.encode("utf-8", errors="replace")),
+                    )
+                )
+            else:
+                step_token = step_top_logprobs[token_id]
+                step_decoded = step_token.decoded_token
+
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(
+                        token=self._get_decoded_token(
+                            step_token,
+                            token_id,
+                            tokenizer,
+                            should_return_as_token_id,
+                        ),
+                        logprob=max(step_token.logprob, -9999.0),
+                        bytes=(
+                            None
+                            if step_decoded is None
+                            else list(step_decoded.encode("utf-8", errors="replace"))
+                        ),
+                        top_logprobs=self._get_top_logprobs(
+                            step_top_logprobs,
+                            num_output_top_logprobs,
+                            tokenizer,
+                            should_return_as_token_id,
+                        ),
+                    )
+                )
+
+        return ChatCompletionLogProbs(content=logprobs_content)
+
+    def _should_stream_with_auto_tool_parsing(self, request: ChatCompletionRequest):
+        """
+        Utility function to check if streamed tokens should go through the tool
+        call parser that was configured.
+
+        We only want to do this IF user-provided tools are set, a tool parser
+        is configured, "auto" tool choice is enabled, and the request's tool
+        choice field indicates that "auto" tool choice should be used.
+        """
+        return (
+            request.tools
+            and self.tool_parser
+            and self.enable_auto_tools
+            and request.tool_choice in ["auto", None]
+        )
+
+    def _should_check_for_unstreamed_tool_arg_tokens(
+        self,
+        delta_message: DeltaMessage | None,
+        output: CompletionOutput,
+    ) -> bool:
+        """
+        Check to see if we should check for unstreamed tool arguments tokens.
+        This is only applicable when auto tool parsing is enabled, the delta
+        is a tool call with arguments.
+        """
+
+        return bool(
+            # if there is a delta message that includes tool calls which
+            # include a function that has arguments
+            output.finish_reason is not None
+            and self.enable_auto_tools
+            and self.tool_parser
+            and delta_message
+            and delta_message.tool_calls
+            and delta_message.tool_calls[0]
+            and delta_message.tool_calls[0].function
+            and delta_message.tool_calls[0].function.arguments is not None
+        )
+
+    def _make_request_with_harmony(
+        self,
+        request: ChatCompletionRequest,
+    ):
+        messages: list[OpenAIMessage] = []
+
+        # Add system message.
+        # NOTE: In Chat Completion API, browsing is enabled by default
+        # if the model supports it. TODO: Support browsing.
+        assert not self.supports_browsing
+        assert not self.supports_code_interpreter
+        sys_msg = get_system_message(
+            reasoning_effort=request.reasoning_effort,
+            browser_description=None,
+            python_description=None,
+            with_custom_tools=request.tools is not None,
+        )
+        messages.append(sys_msg)
+
+        # Add developer message.
+        dev_msg = get_developer_message(tools=request.tools)
+        messages.append(dev_msg)
+
+        # Add user message.
+        for chat_msg in request.messages:
+            messages.extend(parse_input_to_harmony_message(chat_msg))
+
+        # Render prompt token ids.
+        prompt_token_ids = render_for_completion(messages)
+        engine_prompt = EngineTokensPrompt(prompt_token_ids=prompt_token_ids)
+
+        # Add cache_salt if provided in the request
+        if request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
+        return messages, [prompt_token_ids], [engine_prompt]
diff --git a/entrypoints/openai/serving_classification.py b/entrypoints/openai/serving_classification.py
new file mode 100644
index 0000000..167ee15
--- /dev/null
+++ b/entrypoints/openai/serving_classification.py
@@ -0,0 +1,235 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from http import HTTPStatus
+from typing import cast
+
+import jinja2
+import numpy as np
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ClassificationChatRequest,
+    ClassificationCompletionRequest,
+    ClassificationData,
+    ClassificationRequest,
+    ClassificationResponse,
+    ErrorResponse,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import (
+    ClassificationServeContext,
+    OpenAIServing,
+    ServeContext,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.renderer import RenderConfig
+from vllm.logger import init_logger
+from vllm.outputs import ClassificationOutput, PoolingRequestOutput
+from vllm.pooling_params import PoolingParams
+
+logger = init_logger(__name__)
+
+
+class ClassificationMixin(OpenAIServing):
+    chat_template: str | None
+    chat_template_content_format: ChatTemplateContentFormatOption
+    trust_request_chat_template: bool
+
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """
+        Process classification inputs: tokenize text, resolve adapters,
+        and prepare model-specific inputs.
+        """
+        ctx = cast(ClassificationServeContext, ctx)
+        try:
+            ctx.tokenizer = await self.engine_client.get_tokenizer()
+
+            request_obj = ctx.request
+
+            if isinstance(request_obj, ClassificationChatRequest):
+                chat_request = request_obj
+                messages = chat_request.messages
+                trust_request_chat_template = getattr(
+                    self,
+                    "trust_request_chat_template",
+                    False,
+                )
+                ret = self._validate_chat_template(
+                    request_chat_template=chat_request.chat_template,
+                    chat_template_kwargs=chat_request.chat_template_kwargs,
+                    trust_request_chat_template=trust_request_chat_template,
+                )
+                if ret:
+                    return ret
+
+                (
+                    _,
+                    _,
+                    engine_prompts,
+                ) = await self._preprocess_chat(
+                    cast(ChatCompletionRequest, chat_request),
+                    ctx.tokenizer,
+                    messages,
+                    chat_template=(
+                        chat_request.chat_template
+                        or getattr(self, "chat_template", None)
+                    ),
+                    chat_template_content_format=cast(
+                        ChatTemplateContentFormatOption,
+                        getattr(self, "chat_template_content_format", "auto"),
+                    ),
+                    add_generation_prompt=False,
+                    continue_final_message=False,
+                    add_special_tokens=chat_request.add_special_tokens,
+                )
+                ctx.engine_prompts = engine_prompts
+
+            elif isinstance(request_obj, ClassificationCompletionRequest):
+                completion_request = request_obj
+                input_data = completion_request.input
+                if input_data in (None, ""):
+                    return self.create_error_response(
+                        "Input or messages must be provided",
+                        status_code=HTTPStatus.BAD_REQUEST,
+                    )
+                if isinstance(input_data, list) and not input_data:
+                    ctx.engine_prompts = []
+                    return None
+
+                renderer = self._get_renderer(ctx.tokenizer)
+                prompt_input = cast(str | list[str], input_data)
+                ctx.engine_prompts = await renderer.render_prompt(
+                    prompt_or_prompts=prompt_input,
+                    config=self._build_render_config(completion_request),
+                )
+            else:
+                return self.create_error_response(
+                    "Invalid classification request type",
+                    status_code=HTTPStatus.BAD_REQUEST,
+                )
+
+            return None
+
+        except (ValueError, TypeError, jinja2.TemplateError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+    def _build_response(
+        self,
+        ctx: ServeContext,
+    ) -> ClassificationResponse | ErrorResponse:
+        """
+        Convert model outputs to a formatted classification response
+        with probabilities and labels.
+        """
+        ctx = cast(ClassificationServeContext, ctx)
+        items: list[ClassificationData] = []
+        num_prompt_tokens = 0
+
+        final_res_batch_checked = cast(list[PoolingRequestOutput], ctx.final_res_batch)
+
+        for idx, final_res in enumerate(final_res_batch_checked):
+            classify_res = ClassificationOutput.from_base(final_res.outputs)
+
+            probs = classify_res.probs
+            predicted_index = int(np.argmax(probs))
+            label = getattr(self.model_config.hf_config, "id2label", {}).get(
+                predicted_index
+            )
+
+            item = ClassificationData(
+                index=idx,
+                label=label,
+                probs=probs,
+                num_classes=len(probs),
+            )
+
+            items.append(item)
+            prompt_token_ids = final_res.prompt_token_ids
+            num_prompt_tokens += len(prompt_token_ids)
+
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            total_tokens=num_prompt_tokens,
+        )
+
+        return ClassificationResponse(
+            id=ctx.request_id,
+            created=ctx.created_time,
+            model=ctx.model_name,
+            data=items,
+            usage=usage,
+        )
+
+    def _build_render_config(self, request: ClassificationRequest) -> RenderConfig:
+        return RenderConfig(
+            max_length=self.max_model_len,
+            truncate_prompt_tokens=request.truncate_prompt_tokens,
+            add_special_tokens=request.add_special_tokens,
+        )
+
+
+class ServingClassification(ClassificationMixin):
+    request_id_prefix = "classify"
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None = None,
+        chat_template_content_format: ChatTemplateContentFormatOption = "auto",
+        trust_request_chat_template: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            log_error_stack=log_error_stack,
+        )
+
+        self.chat_template = chat_template
+        self.chat_template_content_format = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+
+    async def create_classify(
+        self,
+        request: ClassificationRequest,
+        raw_request: Request,
+    ) -> ClassificationResponse | ErrorResponse:
+        model_name = self.models.model_name()
+        request_id = f"{self.request_id_prefix}-{self._base_request_id(raw_request)}"
+
+        ctx = ClassificationServeContext(
+            request=request,
+            raw_request=raw_request,
+            model_name=model_name,
+            request_id=request_id,
+        )
+
+        return await super().handle(ctx)  # type: ignore
+
+    def _create_pooling_params(
+        self,
+        ctx: ClassificationServeContext,
+    ) -> PoolingParams | ErrorResponse:
+        pooling_params = super()._create_pooling_params(ctx)
+        if isinstance(pooling_params, ErrorResponse):
+            return pooling_params
+
+        try:
+            pooling_params.verify("classify", self.model_config)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        return pooling_params
diff --git a/entrypoints/openai/serving_completion.py b/entrypoints/openai/serving_completion.py
new file mode 100644
index 0000000..a114b77
--- /dev/null
+++ b/entrypoints/openai/serving_completion.py
@@ -0,0 +1,715 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import time
+from collections.abc import AsyncGenerator, AsyncIterator
+from collections.abc import Sequence as GenericSequence
+from typing import cast
+
+import jinja2
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    CompletionLogProbs,
+    CompletionRequest,
+    CompletionResponse,
+    CompletionResponseChoice,
+    CompletionResponseStreamChoice,
+    CompletionStreamResponse,
+    ErrorResponse,
+    PromptTokenUsageInfo,
+    RequestResponseMetadata,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing, clamp_prompt_logprobs
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.renderer import RenderConfig
+from vllm.entrypoints.utils import get_max_tokens, should_include_usage
+from vllm.inputs.data import EmbedsPrompt, TokensPrompt, is_embeds_prompt
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob
+from vllm.outputs import RequestOutput
+from vllm.sampling_params import BeamSearchParams, SamplingParams
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.async_utils import merge_async_iterators
+from vllm.utils.collection_utils import as_list
+from vllm.v1.sample.logits_processor import validate_logits_processors_parameters
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingCompletion(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        return_tokens_as_token_ids: bool = False,
+        enable_prompt_tokens_details: bool = False,
+        enable_force_include_usage: bool = False,
+        log_error_stack: bool = False,
+    ):
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            log_error_stack=log_error_stack,
+        )
+
+        # set up logits processors
+        self.logits_processors = self.model_config.logits_processors
+
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.default_sampling_params = self.model_config.get_diff_sampling_param()
+        self.enable_force_include_usage = enable_force_include_usage
+        if self.default_sampling_params:
+            source = self.model_config.generation_config
+            source = "model" if source == "auto" else source
+            logger.info(
+                "Using default completion sampling params from %s: %s",
+                source,
+                self.default_sampling_params,
+            )
+
+    async def create_completion(
+        self,
+        request: CompletionRequest,
+        raw_request: Request | None = None,
+    ) -> AsyncGenerator[str, None] | CompletionResponse | ErrorResponse:
+        """Completion API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/completions/create
+        for the API specification. This API mimics the OpenAI Completion API.
+
+        NOTE: Currently we do not support the following feature:
+            - suffix (the language models we currently support do not support
+            suffix)
+        """
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        # Return error for unsupported features.
+        if request.suffix is not None:
+            return self.create_error_response("suffix is not currently supported")
+
+        if request.echo and request.prompt_embeds is not None:
+            return self.create_error_response("Echo is unsupported with prompt embeds.")
+
+        if request.prompt_logprobs is not None and request.prompt_embeds is not None:
+            return self.create_error_response(
+                "prompt_logprobs is not compatible with prompt embeds."
+            )
+
+        request_id = f"cmpl-{self._base_request_id(raw_request, request.request_id)}"
+        created_time = int(time.time())
+
+        request_metadata = RequestResponseMetadata(request_id=request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        try:
+            lora_request = self._maybe_get_adapters(request)
+
+            if self.model_config.skip_tokenizer_init:
+                tokenizer = None
+            else:
+                tokenizer = await self.engine_client.get_tokenizer()
+            renderer = self._get_renderer(tokenizer)
+
+            engine_prompts = await renderer.render_prompt_and_embeds(
+                prompt_or_prompts=request.prompt,
+                prompt_embeds=request.prompt_embeds,
+                config=self._build_render_config(request),
+            )
+        except ValueError as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+        except TypeError as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+        except RuntimeError as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+        except jinja2.TemplateError as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+        # Extract data_parallel_rank from header (router can inject it)
+        data_parallel_rank = self._get_data_parallel_rank(raw_request)
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[RequestOutput, None]] = []
+        try:
+            for i, engine_prompt in enumerate(engine_prompts):
+                prompt_text, prompt_token_ids, prompt_embeds = (
+                    self._get_prompt_components(engine_prompt)
+                )
+
+                input_length = None
+                if prompt_token_ids is not None:
+                    input_length = len(prompt_token_ids)
+                elif prompt_embeds is not None:
+                    input_length = len(prompt_embeds)
+                else:
+                    raise NotImplementedError
+
+                if self.default_sampling_params is None:
+                    self.default_sampling_params = {}
+
+                max_tokens = get_max_tokens(
+                    max_model_len=self.max_model_len,
+                    request=request,
+                    input_length=input_length,
+                    default_sampling_params=self.default_sampling_params,
+                )
+
+                sampling_params: SamplingParams | BeamSearchParams
+                if request.use_beam_search:
+                    sampling_params = request.to_beam_search_params(
+                        max_tokens, self.default_sampling_params
+                    )
+                else:
+                    sampling_params = request.to_sampling_params(
+                        max_tokens,
+                        self.model_config.logits_processor_pattern,
+                        self.default_sampling_params,
+                    )
+                    validate_logits_processors_parameters(
+                        self.logits_processors,
+                        sampling_params,
+                    )
+
+                request_id_item = f"{request_id}-{i}"
+
+                self._log_inputs(
+                    request_id_item,
+                    engine_prompt,
+                    params=sampling_params,
+                    lora_request=lora_request,
+                )
+
+                trace_headers = (
+                    None
+                    if raw_request is None
+                    else await self._get_trace_headers(raw_request.headers)
+                )
+
+                # Mypy inconsistently requires this second cast in different
+                # environments. It shouldn't be necessary (redundant from above)
+                # but pre-commit in CI fails without it.
+                engine_prompt = cast(EmbedsPrompt | TokensPrompt, engine_prompt)
+                if isinstance(sampling_params, BeamSearchParams):
+                    generator = self.beam_search(
+                        prompt=engine_prompt,
+                        request_id=request_id,
+                        params=sampling_params,
+                        lora_request=lora_request,
+                    )
+                else:
+                    engine_request, tokenization_kwargs = await self._process_inputs(
+                        request_id_item,
+                        engine_prompt,
+                        sampling_params,
+                        lora_request=lora_request,
+                        trace_headers=trace_headers,
+                        priority=request.priority,
+                    )
+
+                    generator = self.engine_client.generate(
+                        engine_request,
+                        sampling_params,
+                        request_id_item,
+                        lora_request=lora_request,
+                        trace_headers=trace_headers,
+                        priority=request.priority,
+                        prompt_text=prompt_text,
+                        tokenization_kwargs=tokenization_kwargs,
+                        data_parallel_rank=data_parallel_rank,
+                    )
+
+                generators.append(generator)
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        result_generator = merge_async_iterators(*generators)
+
+        model_name = self.models.model_name(lora_request)
+        num_prompts = len(engine_prompts)
+
+        # Similar to the OpenAI API, when n != best_of, we do not stream the
+        # results. Noting that best_of is only supported in V0. In addition,
+        # we do not stream the results when use beam search.
+        stream = (
+            request.stream
+            and (request.best_of is None or request.n == request.best_of)
+            and not request.use_beam_search
+        )
+
+        # Streaming response
+        if stream:
+            return self.completion_stream_generator(
+                request,
+                engine_prompts,
+                result_generator,
+                request_id,
+                created_time,
+                model_name,
+                num_prompts=num_prompts,
+                tokenizer=tokenizer,
+                request_metadata=request_metadata,
+            )
+
+        # Non-streaming response
+        final_res_batch: list[RequestOutput | None] = [None] * num_prompts
+        try:
+            async for i, res in result_generator:
+                final_res_batch[i] = res
+
+            for i, final_res in enumerate(final_res_batch):
+                assert final_res is not None
+
+                # The output should contain the input text
+                # We did not pass it into vLLM engine to avoid being redundant
+                # with the inputs token IDs
+                if final_res.prompt is None:
+                    engine_prompt = engine_prompts[i]
+                    final_res.prompt = (
+                        None
+                        if is_embeds_prompt(engine_prompt)
+                        else engine_prompt.get("prompt")
+                    )
+
+            final_res_batch_checked = cast(list[RequestOutput], final_res_batch)
+
+            response = self.request_output_to_completion_response(
+                final_res_batch_checked,
+                request,
+                request_id,
+                created_time,
+                model_name,
+                tokenizer,
+                request_metadata,
+            )
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        # When user requests streaming but we don't stream, we still need to
+        # return a streaming response with a single event.
+        if request.stream:
+            response_json = response.model_dump_json()
+
+            async def fake_stream_generator() -> AsyncGenerator[str, None]:
+                yield f"data: {response_json}\n\n"
+                yield "data: [DONE]\n\n"
+
+            return fake_stream_generator()
+
+        return response
+
+    async def completion_stream_generator(
+        self,
+        request: CompletionRequest,
+        engine_prompts: list[TokensPrompt | EmbedsPrompt],
+        result_generator: AsyncIterator[tuple[int, RequestOutput]],
+        request_id: str,
+        created_time: int,
+        model_name: str,
+        num_prompts: int,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+    ) -> AsyncGenerator[str, None]:
+        num_choices = 1 if request.n is None else request.n
+        previous_text_lens = [0] * num_choices * num_prompts
+        previous_num_tokens = [0] * num_choices * num_prompts
+        has_echoed = [False] * num_choices * num_prompts
+        num_prompt_tokens = [0] * num_prompts
+        num_cached_tokens = None
+        first_iteration = True
+
+        stream_options = request.stream_options
+        include_usage, include_continuous_usage = should_include_usage(
+            stream_options, self.enable_force_include_usage
+        )
+
+        try:
+            async for prompt_idx, res in result_generator:
+                prompt_token_ids = res.prompt_token_ids
+                prompt_logprobs = res.prompt_logprobs
+
+                if first_iteration:
+                    num_cached_tokens = res.num_cached_tokens
+                    first_iteration = False
+
+                prompt_text = res.prompt
+                if prompt_text is None:
+                    engine_prompt = engine_prompts[prompt_idx]
+                    prompt_text = (
+                        None
+                        if is_embeds_prompt(engine_prompt)
+                        else engine_prompt.get("prompt")
+                    )
+
+                # Prompt details are excluded from later streamed outputs
+                if prompt_token_ids is not None:
+                    num_prompt_tokens[prompt_idx] = len(prompt_token_ids)
+
+                delta_token_ids: GenericSequence[int]
+                out_logprobs: GenericSequence[dict[int, Logprob] | None] | None
+
+                for output in res.outputs:
+                    i = output.index + prompt_idx * num_choices
+
+                    # Useful when request.return_token_ids is True
+                    # Returning prompt token IDs shares the same logic
+                    # with the echo implementation.
+                    prompt_token_ids_to_return: list[int] | None = None
+
+                    assert request.max_tokens is not None
+                    if request.echo and not has_echoed[i]:
+                        assert prompt_token_ids is not None
+                        if request.return_token_ids:
+                            prompt_text = ""
+                        assert prompt_text is not None
+                        if request.max_tokens == 0:
+                            # only return the prompt
+                            delta_text = prompt_text
+                            delta_token_ids = prompt_token_ids
+                            out_logprobs = prompt_logprobs
+                        else:
+                            # echo the prompt and first token
+                            delta_text = prompt_text + output.text
+                            delta_token_ids = [
+                                *prompt_token_ids,
+                                *output.token_ids,
+                            ]
+                            out_logprobs = [
+                                *(prompt_logprobs or []),
+                                *(output.logprobs or []),
+                            ]
+                        prompt_token_ids_to_return = prompt_token_ids
+                        has_echoed[i] = True
+                    else:
+                        # return just the delta
+                        delta_text = output.text
+                        delta_token_ids = output.token_ids
+                        out_logprobs = output.logprobs
+
+                        # has_echoed[i] is reused here to indicate whether
+                        # we have already returned the prompt token IDs.
+                        if not has_echoed[i] and request.return_token_ids:
+                            prompt_token_ids_to_return = prompt_token_ids
+                            has_echoed[i] = True
+
+                        if (
+                            not delta_text
+                            and not delta_token_ids
+                            and not previous_num_tokens[i]
+                        ):
+                            # Chunked prefill case, don't return empty chunks
+                            continue
+
+                    if request.logprobs is not None:
+                        assert out_logprobs is not None, "Did not output logprobs"
+                        logprobs = self._create_completion_logprobs(
+                            token_ids=delta_token_ids,
+                            top_logprobs=out_logprobs,
+                            num_output_top_logprobs=request.logprobs,
+                            tokenizer=tokenizer,
+                            initial_text_offset=previous_text_lens[i],
+                            return_as_token_id=request.return_tokens_as_token_ids,
+                        )
+                    else:
+                        logprobs = None
+
+                    previous_text_lens[i] += len(output.text)
+                    previous_num_tokens[i] += len(output.token_ids)
+                    finish_reason = output.finish_reason
+                    stop_reason = output.stop_reason
+
+                    chunk = CompletionStreamResponse(
+                        id=request_id,
+                        created=created_time,
+                        model=model_name,
+                        choices=[
+                            CompletionResponseStreamChoice(
+                                index=i,
+                                text=delta_text,
+                                logprobs=logprobs,
+                                finish_reason=finish_reason,
+                                stop_reason=stop_reason,
+                                prompt_token_ids=prompt_token_ids_to_return,
+                                token_ids=(
+                                    as_list(output.token_ids)
+                                    if request.return_token_ids
+                                    else None
+                                ),
+                            )
+                        ],
+                    )
+                    if include_continuous_usage:
+                        prompt_tokens = num_prompt_tokens[prompt_idx]
+                        completion_tokens = previous_num_tokens[i]
+                        chunk.usage = UsageInfo(
+                            prompt_tokens=prompt_tokens,
+                            completion_tokens=completion_tokens,
+                            total_tokens=prompt_tokens + completion_tokens,
+                        )
+
+                    response_json = chunk.model_dump_json(exclude_unset=False)
+                    yield f"data: {response_json}\n\n"
+
+            total_prompt_tokens = sum(num_prompt_tokens)
+            total_completion_tokens = sum(previous_num_tokens)
+            final_usage_info = UsageInfo(
+                prompt_tokens=total_prompt_tokens,
+                completion_tokens=total_completion_tokens,
+                total_tokens=total_prompt_tokens + total_completion_tokens,
+            )
+
+            if self.enable_prompt_tokens_details and num_cached_tokens:
+                final_usage_info.prompt_tokens_details = PromptTokenUsageInfo(
+                    cached_tokens=num_cached_tokens
+                )
+
+            if include_usage:
+                final_usage_chunk = CompletionStreamResponse(
+                    id=request_id,
+                    created=created_time,
+                    model=model_name,
+                    choices=[],
+                    usage=final_usage_info,
+                )
+                final_usage_data = final_usage_chunk.model_dump_json(
+                    exclude_unset=False, exclude_none=True
+                )
+                yield f"data: {final_usage_data}\n\n"
+
+            # report to FastAPI middleware aggregate usage across all choices
+            request_metadata.final_usage_info = final_usage_info
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            data = self.create_streaming_error_response(str(e))
+            yield f"data: {data}\n\n"
+        yield "data: [DONE]\n\n"
+
+    def request_output_to_completion_response(
+        self,
+        final_res_batch: list[RequestOutput],
+        request: CompletionRequest,
+        request_id: str,
+        created_time: int,
+        model_name: str,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+    ) -> CompletionResponse:
+        choices: list[CompletionResponseChoice] = []
+        num_prompt_tokens = 0
+        num_generated_tokens = 0
+        kv_transfer_params = None
+        last_final_res = None
+        for final_res in final_res_batch:
+            last_final_res = final_res
+            prompt_token_ids = final_res.prompt_token_ids
+            assert prompt_token_ids is not None
+            prompt_logprobs = clamp_prompt_logprobs(final_res.prompt_logprobs)
+            prompt_text = final_res.prompt
+
+            token_ids: GenericSequence[int]
+            out_logprobs: GenericSequence[dict[int, Logprob] | None] | None
+
+            for output in final_res.outputs:
+                assert request.max_tokens is not None
+                if request.echo:
+                    if request.return_token_ids:
+                        prompt_text = ""
+                    assert prompt_text is not None
+                    if request.max_tokens == 0:
+                        token_ids = prompt_token_ids
+                        out_logprobs = prompt_logprobs
+                        output_text = prompt_text
+                    else:
+                        token_ids = [*prompt_token_ids, *output.token_ids]
+
+                        if request.logprobs is None:
+                            out_logprobs = None
+                        else:
+                            assert prompt_logprobs is not None
+                            assert output.logprobs is not None
+                            out_logprobs = [
+                                *prompt_logprobs,
+                                *output.logprobs,
+                            ]
+
+                        output_text = prompt_text + output.text
+                else:
+                    token_ids = output.token_ids
+                    out_logprobs = output.logprobs
+                    output_text = output.text
+
+                if request.logprobs is not None:
+                    assert out_logprobs is not None, "Did not output logprobs"
+                    logprobs = self._create_completion_logprobs(
+                        token_ids=token_ids,
+                        top_logprobs=out_logprobs,
+                        tokenizer=tokenizer,
+                        num_output_top_logprobs=request.logprobs,
+                        return_as_token_id=request.return_tokens_as_token_ids,
+                    )
+                else:
+                    logprobs = None
+
+                choice_data = CompletionResponseChoice(
+                    index=len(choices),
+                    text=output_text,
+                    logprobs=logprobs,
+                    finish_reason=output.finish_reason,
+                    stop_reason=output.stop_reason,
+                    prompt_logprobs=final_res.prompt_logprobs,
+                    prompt_token_ids=(
+                        prompt_token_ids if request.return_token_ids else None
+                    ),
+                    token_ids=(
+                        as_list(output.token_ids) if request.return_token_ids else None
+                    ),
+                )
+                choices.append(choice_data)
+
+                num_generated_tokens += len(output.token_ids)
+
+            num_prompt_tokens += len(prompt_token_ids)
+
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            completion_tokens=num_generated_tokens,
+            total_tokens=num_prompt_tokens + num_generated_tokens,
+        )
+
+        if (
+            self.enable_prompt_tokens_details
+            and last_final_res
+            and last_final_res.num_cached_tokens
+        ):
+            usage.prompt_tokens_details = PromptTokenUsageInfo(
+                cached_tokens=last_final_res.num_cached_tokens
+            )
+
+        request_metadata.final_usage_info = usage
+        if final_res_batch:
+            kv_transfer_params = final_res_batch[0].kv_transfer_params
+        return CompletionResponse(
+            id=request_id,
+            created=created_time,
+            model=model_name,
+            choices=choices,
+            usage=usage,
+            kv_transfer_params=kv_transfer_params,
+        )
+
+    def _create_completion_logprobs(
+        self,
+        token_ids: GenericSequence[int],
+        top_logprobs: GenericSequence[dict[int, Logprob] | None],
+        num_output_top_logprobs: int,
+        tokenizer: AnyTokenizer,
+        initial_text_offset: int = 0,
+        return_as_token_id: bool | None = None,
+    ) -> CompletionLogProbs:
+        """Create logprobs for OpenAI Completion API."""
+        out_text_offset: list[int] = []
+        out_token_logprobs: list[float | None] = []
+        out_tokens: list[str] = []
+        out_top_logprobs: list[dict[str, float] | None] = []
+
+        last_token_len = 0
+
+        should_return_as_token_id = (
+            return_as_token_id
+            if return_as_token_id is not None
+            else self.return_tokens_as_token_ids
+        )
+        for i, token_id in enumerate(token_ids):
+            step_top_logprobs = top_logprobs[i]
+            if step_top_logprobs is None:
+                token = tokenizer.decode(token_id)
+                if should_return_as_token_id:
+                    token = f"token_id:{token_id}"
+
+                out_tokens.append(token)
+                out_token_logprobs.append(None)
+                out_top_logprobs.append(None)
+            else:
+                step_token = step_top_logprobs[token_id]
+
+                token = self._get_decoded_token(
+                    step_token,
+                    token_id,
+                    tokenizer,
+                    return_as_token_id=should_return_as_token_id,
+                )
+                token_logprob = max(step_token.logprob, -9999.0)
+
+                out_tokens.append(token)
+                out_token_logprobs.append(token_logprob)
+
+                # makes sure to add the top num_output_top_logprobs + 1
+                # logprobs, as defined in the openai API
+                # (cf. https://github.com/openai/openai-openapi/blob/
+                # 893ba52242dbd5387a97b96444ee1c742cfce9bd/openapi.yaml#L7153)
+                out_top_logprobs.append(
+                    {
+                        # Convert float("-inf") to the
+                        # JSON-serializable float that OpenAI uses
+                        self._get_decoded_token(
+                            top_lp[1],
+                            top_lp[0],
+                            tokenizer,
+                            return_as_token_id=should_return_as_token_id,
+                        ): max(top_lp[1].logprob, -9999.0)
+                        for i, top_lp in enumerate(step_top_logprobs.items())
+                        if num_output_top_logprobs >= i
+                    }
+                )
+
+            if len(out_text_offset) == 0:
+                out_text_offset.append(initial_text_offset)
+            else:
+                out_text_offset.append(out_text_offset[-1] + last_token_len)
+            last_token_len = len(token)
+
+        return CompletionLogProbs(
+            text_offset=out_text_offset,
+            token_logprobs=out_token_logprobs,
+            tokens=out_tokens,
+            top_logprobs=out_top_logprobs,
+        )
+
+    def _build_render_config(
+        self,
+        request: CompletionRequest,
+        max_input_length: int | None = None,
+    ) -> RenderConfig:
+        max_input_tokens_len = self.max_model_len - (request.max_tokens or 0)
+        return RenderConfig(
+            max_length=max_input_tokens_len,
+            truncate_prompt_tokens=request.truncate_prompt_tokens,
+            add_special_tokens=request.add_special_tokens,
+            cache_salt=request.cache_salt,
+            needs_detokenization=bool(request.echo and not request.return_token_ids),
+        )
diff --git a/entrypoints/openai/serving_embedding.py b/entrypoints/openai/serving_embedding.py
new file mode 100644
index 0000000..51f6106
--- /dev/null
+++ b/entrypoints/openai/serving_embedding.py
@@ -0,0 +1,695 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+from collections.abc import AsyncGenerator, Mapping
+from typing import Any, Final, cast
+
+import torch
+from fastapi import Request
+from fastapi.responses import Response
+from typing_extensions import assert_never, override
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    EmbeddingBytesResponse,
+    EmbeddingChatRequest,
+    EmbeddingCompletionRequest,
+    EmbeddingRequest,
+    EmbeddingResponse,
+    EmbeddingResponseData,
+    ErrorResponse,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import (
+    EmbeddingServeContext,
+    OpenAIServing,
+    ServeContext,
+    TextTokensPrompt,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.renderer import RenderConfig
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.logger import init_logger
+from vllm.outputs import (
+    EmbeddingRequestOutput,
+    PoolingOutput,
+    PoolingRequestOutput,
+    RequestOutput,
+)
+from vllm.pooling_params import PoolingParams
+from vllm.utils.async_utils import merge_async_iterators
+from vllm.utils.collection_utils import chunk_list
+from vllm.utils.serial_utils import (
+    EmbedDType,
+    EncodingFormat,
+    Endianness,
+    encode_pooling_bytes,
+    encode_pooling_output,
+)
+
+logger = init_logger(__name__)
+
+
+class EmbeddingMixin(OpenAIServing):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        pooler_config = self.model_config.pooler_config
+
+        # Avoid repeated attribute lookups
+        self.supports_chunked_processing = bool(
+            pooler_config and pooler_config.enable_chunked_processing
+        )
+        self.max_embed_len = (
+            pooler_config.max_embed_len
+            if pooler_config and pooler_config.max_embed_len
+            else None
+        )
+
+    @override
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        ctx = cast(EmbeddingServeContext, ctx)
+        try:
+            ctx.lora_request = self._maybe_get_adapters(ctx.request)
+
+            tokenizer = await self.engine_client.get_tokenizer()
+            renderer = self._get_renderer(tokenizer)
+
+            if isinstance(ctx.request, EmbeddingChatRequest):
+                (
+                    _,
+                    _,
+                    ctx.engine_prompts,
+                ) = await self._preprocess_chat(
+                    ctx.request,
+                    tokenizer,
+                    ctx.request.messages,
+                    chat_template=ctx.request.chat_template or ctx.chat_template,
+                    chat_template_content_format=ctx.chat_template_content_format,
+                    add_generation_prompt=ctx.request.add_generation_prompt,
+                    continue_final_message=False,
+                    add_special_tokens=ctx.request.add_special_tokens,
+                )
+            else:
+                ctx.engine_prompts = await renderer.render_prompt(
+                    prompt_or_prompts=ctx.request.input,
+                    config=self._build_render_config(ctx.request),
+                )
+            return None
+        except (ValueError, TypeError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+    def _build_render_config(self, request: EmbeddingCompletionRequest) -> RenderConfig:
+        # Set max_length based on chunked processing capability
+        if self._should_use_chunked_processing(request):
+            max_length = None
+        else:
+            max_length = self.max_embed_len or self.max_model_len
+
+        return RenderConfig(
+            max_length=max_length,
+            truncate_prompt_tokens=request.truncate_prompt_tokens,
+            add_special_tokens=request.add_special_tokens,
+        )
+
+    @override
+    def _build_response(
+        self,
+        ctx: ServeContext,
+    ) -> EmbeddingResponse | Response | ErrorResponse:
+        final_res_batch_checked = cast(list[PoolingRequestOutput], ctx.final_res_batch)
+
+        encoding_format: EncodingFormat = ctx.request.encoding_format
+        embed_dtype: EmbedDType = ctx.request.embed_dtype
+        endianness: Endianness = ctx.request.endianness
+
+        def encode_float_base64():
+            items: list[EmbeddingResponseData] = []
+            num_prompt_tokens = 0
+
+            for idx, final_res in enumerate(final_res_batch_checked):
+                item = EmbeddingResponseData(
+                    index=idx,
+                    embedding=encode_pooling_output(
+                        final_res,
+                        encoding_format=encoding_format,
+                        embed_dtype=embed_dtype,
+                        endianness=endianness,
+                    ),
+                )
+                prompt_token_ids = final_res.prompt_token_ids
+
+                items.append(item)
+                num_prompt_tokens += len(prompt_token_ids)
+
+            usage = UsageInfo(
+                prompt_tokens=num_prompt_tokens,
+                total_tokens=num_prompt_tokens,
+            )
+
+            return EmbeddingResponse(
+                id=ctx.request_id,
+                created=ctx.created_time,
+                model=ctx.model_name,
+                data=items,
+                usage=usage,
+            )
+
+        def encode_bytes():
+            body, items, usage = encode_pooling_bytes(
+                pooling_outputs=final_res_batch_checked,
+                embed_dtype=embed_dtype,
+                endianness=endianness,
+            )
+
+            metadata = {
+                "id": ctx.request_id,
+                "created": ctx.created_time,
+                "model": ctx.model_name,
+                "data": items,
+                "usage": usage,
+            }
+            return EmbeddingBytesResponse(
+                body=body,
+                metadata=json.dumps(metadata),
+            )
+
+        if encoding_format == "float" or encoding_format == "base64":
+            return encode_float_base64()
+        elif encoding_format == "bytes":
+            return encode_bytes()
+        else:
+            assert_never(encoding_format)
+
+    def _get_max_position_embeddings(self) -> int:
+        """Get the model's effective maximum sequence length for chunking."""
+        return self.model_config.max_model_len
+
+    def _should_use_chunked_processing(self, request) -> bool:
+        """Check if chunked processing should be used for this request."""
+        return (
+            isinstance(request, (EmbeddingCompletionRequest, EmbeddingChatRequest))
+            and self.supports_chunked_processing
+        )
+
+    async def _process_chunked_request(
+        self,
+        ctx: EmbeddingServeContext,
+        original_prompt: TextTokensPrompt,
+        pooling_params,
+        trace_headers,
+        prompt_idx: int,
+    ) -> list[AsyncGenerator[PoolingRequestOutput, None]]:
+        """Process a single prompt using chunked processing."""
+        generators: list[AsyncGenerator[PoolingRequestOutput, None]] = []
+        token_ids = original_prompt["prompt_token_ids"]
+
+        # Split into chunks using max_position_embeddings
+        max_pos_embeddings = self._get_max_position_embeddings()
+        # Process all chunks for MEAN aggregation
+        for chunk_idx, chunk_tokens in enumerate(
+            chunk_list(token_ids, max_pos_embeddings)
+        ):
+            # Create a request ID for this chunk
+            chunk_request_id = f"{ctx.request_id}-prompt-{prompt_idx}-chunk-{chunk_idx}"
+
+            # Create engine prompt for this chunk
+            chunk_engine_prompt = EngineTokensPrompt(prompt_token_ids=chunk_tokens)
+
+            # Create chunk request prompt for logging
+            chunk_text = ""
+            chunk_request_prompt = TextTokensPrompt(
+                prompt=chunk_text, prompt_token_ids=chunk_tokens
+            )
+
+            # Log the chunk
+            self._log_inputs(
+                chunk_request_id,
+                chunk_request_prompt,
+                params=pooling_params,
+                lora_request=ctx.lora_request,
+            )
+
+            # Create generator for this chunk and wrap it to return indices
+            original_generator = self.engine_client.encode(
+                chunk_engine_prompt,
+                pooling_params,
+                chunk_request_id,
+                lora_request=ctx.lora_request,
+                trace_headers=trace_headers,
+                priority=getattr(ctx.request, "priority", 0),
+            )
+
+            generators.append(original_generator)
+
+        return generators
+
+    def _validate_input(
+        self,
+        request,
+        input_ids: list[int],
+        input_text: str,
+    ) -> TextTokensPrompt:
+        """Override to support chunked processing for embedding requests."""
+        token_num = len(input_ids)
+
+        # Note: EmbeddingRequest doesn't have max_tokens
+        if isinstance(request, (EmbeddingCompletionRequest, EmbeddingChatRequest)):
+            # Check if chunked processing is enabled for pooling models
+            enable_chunked = self._should_use_chunked_processing(request)
+
+            # Use max_position_embeddings for chunked processing decisions
+            max_pos_embeddings = self._get_max_position_embeddings()
+
+            # Determine the effective max length for validation
+            if self.max_embed_len is not None:
+                # Use max_embed_len for validation instead of max_model_len
+                length_type = "maximum embedding input length"
+                max_length_value = self.max_embed_len
+            else:
+                # Fall back to max_model_len validation (original behavior)
+                length_type = "maximum context length"
+                max_length_value = self.max_model_len
+
+            validation_error_msg = (
+                "This model's {length_type} is {max_length_value} tokens. "
+                "However, you requested {token_num} tokens in the input for "
+                "embedding generation. Please reduce the length of the input."
+            )
+
+            chunked_processing_error_msg = (
+                "This model's {length_type} is {max_length_value} tokens. "
+                "However, you requested {token_num} tokens in the input for "
+                "embedding generation. Please reduce the length of the input "
+                "or enable chunked processing."
+            )
+
+            # Check if input exceeds max length
+            if token_num > max_length_value:
+                raise ValueError(
+                    validation_error_msg.format(
+                        length_type=length_type,
+                        max_length_value=max_length_value,
+                        token_num=token_num,
+                    )
+                )
+
+            # Check for chunked processing
+            # when exceeding max_position_embeddings
+            if token_num > max_pos_embeddings:
+                if enable_chunked:
+                    # Allow long inputs when chunked processing is enabled
+                    logger.info(
+                        "Input length %s exceeds max_position_embeddings "
+                        "%s, will use chunked processing",
+                        token_num,
+                        max_pos_embeddings,
+                    )
+                else:
+                    raise ValueError(
+                        chunked_processing_error_msg.format(
+                            length_type="maximum position embeddings length",
+                            max_length_value=max_pos_embeddings,
+                            token_num=token_num,
+                        )
+                    )
+
+            return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)
+
+        # For other request types, use the parent's implementation
+        return super()._validate_input(request, input_ids, input_text)
+
+    def _is_text_tokens_prompt(self, prompt) -> bool:
+        """Check if a prompt is a TextTokensPrompt (has prompt_token_ids)."""
+        return (
+            isinstance(prompt, dict)
+            and "prompt_token_ids" in prompt
+            and "prompt_embeds" not in prompt
+        )
+
+    async def _create_single_prompt_generator(
+        self,
+        ctx: EmbeddingServeContext,
+        engine_prompt: EngineTokensPrompt,
+        pooling_params: PoolingParams,
+        trace_headers: Mapping[str, str] | None,
+        prompt_index: int,
+    ) -> AsyncGenerator[RequestOutput | PoolingRequestOutput, None]:
+        """Create a generator for a single prompt using standard processing."""
+        request_id_item = f"{ctx.request_id}-{prompt_index}"
+
+        self._log_inputs(
+            request_id_item,
+            engine_prompt,
+            params=pooling_params,
+            lora_request=ctx.lora_request,
+        )
+
+        # Return the original generator without wrapping
+        return self.engine_client.encode(
+            engine_prompt,
+            pooling_params,
+            request_id_item,
+            lora_request=ctx.lora_request,
+            trace_headers=trace_headers,
+            priority=getattr(ctx.request, "priority", 0),
+        )
+
+    @override
+    async def _prepare_generators(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """Override to support chunked processing."""
+        ctx = cast(EmbeddingServeContext, ctx)
+
+        # Check if we should use chunked processing
+        use_chunked = self._should_use_chunked_processing(ctx.request)
+
+        # If no chunked processing needed, delegate to parent class
+        if not use_chunked:
+            return await super()._prepare_generators(ctx)
+
+        # Custom logic for chunked processing
+        generators: list[
+            AsyncGenerator[RequestOutput | PoolingRequestOutput, None]
+        ] = []
+
+        try:
+            trace_headers = (
+                None
+                if ctx.raw_request is None
+                else await self._get_trace_headers(ctx.raw_request.headers)
+            )
+
+            pooling_params = self._create_pooling_params(ctx)
+            if isinstance(pooling_params, ErrorResponse):
+                return pooling_params
+
+            # Verify and set the task for pooling params
+            try:
+                pooling_params.verify("embed", self.model_config)
+            except ValueError as e:
+                return self.create_error_response(str(e))
+
+            if ctx.engine_prompts is None:
+                return self.create_error_response("Engine prompts not available")
+
+            max_pos_embeddings = self._get_max_position_embeddings()
+
+            for i, engine_prompt in enumerate(ctx.engine_prompts):
+                # Check if this specific prompt needs chunked processing
+                if self._is_text_tokens_prompt(engine_prompt):
+                    # Cast to TextTokensPrompt since we've verified
+                    # prompt_token_ids
+                    text_tokens_prompt = cast(TextTokensPrompt, engine_prompt)
+                    if len(text_tokens_prompt["prompt_token_ids"]) > max_pos_embeddings:
+                        # Use chunked processing for this prompt
+                        chunk_generators = await self._process_chunked_request(
+                            ctx, text_tokens_prompt, pooling_params, trace_headers, i
+                        )
+                        generators.extend(chunk_generators)
+                        continue
+
+                # Normal processing for short prompts or non-token prompts
+                generator = await self._create_single_prompt_generator(
+                    ctx, engine_prompt, pooling_params, trace_headers, i
+                )
+                generators.append(generator)
+
+            ctx.result_generator = merge_async_iterators(*generators)
+
+            return None
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    @override
+    async def _collect_batch(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """Collect and aggregate batch results
+        with support for chunked processing.
+
+        For chunked requests, performs online aggregation to
+        minimize memory usage.
+        For regular requests, collects results normally.
+        """
+        ctx = cast(EmbeddingServeContext, ctx)
+        try:
+            if ctx.engine_prompts is None:
+                return self.create_error_response("Engine prompts not available")
+
+            # Check if we used chunked processing
+            use_chunked = self._should_use_chunked_processing(ctx.request)
+
+            if not use_chunked:
+                return await super()._collect_batch(ctx=ctx)
+
+            if ctx.result_generator is None:
+                return self.create_error_response("Result generator not available")
+
+            # Online aggregation for chunked requests to
+            # minimize memory usage
+            # Track aggregation state for each prompt
+            prompt_aggregators: dict[int, dict[str, Any]] = {}
+            short_prompts_results: dict[int, PoolingRequestOutput] = {}
+
+            async for result_idx, result in ctx.result_generator:
+                if "-chunk-" in result.request_id:
+                    # Extract prompt_idx from chunked request_id
+                    parts = result.request_id.split("-")
+                    try:
+                        prompt_idx = int(parts[parts.index("prompt") + 1])
+                    except (ValueError, IndexError):
+                        # Fallback: extract from result_idx if parsing fails
+                        prompt_idx = result_idx
+
+                    # Initialize aggregator for this prompt if needed
+                    if prompt_idx not in prompt_aggregators:
+                        prompt_aggregators[prompt_idx] = {
+                            "weighted_sum": None,
+                            "total_weight": 0,
+                            "chunk_count": 0,
+                            "request_id": result.request_id.split("-chunk-")[0],
+                        }
+
+                    aggregator = prompt_aggregators[prompt_idx]
+
+                    # MEAN pooling with online weighted averaging
+                    # Ensure result is PoolingRequestOutput
+                    # for embedding processing
+                    if not isinstance(result, PoolingRequestOutput):
+                        return self.create_error_response(
+                            f"Expected PoolingRequestOutput for "
+                            f"chunked embedding, got "
+                            f"{type(result).__name__}"
+                        )
+
+                    # Handle both PoolingOutput and
+                    # EmbeddingOutput types
+                    if hasattr(result.outputs, "data"):
+                        # PoolingOutput case
+                        embedding_data = result.outputs.data
+                    elif hasattr(result.outputs, "embedding"):
+                        # EmbeddingOutput case -
+                        # convert embedding list to tensor
+                        embedding_data = result.outputs.embedding
+                    else:
+                        return self.create_error_response(
+                            f"Unsupported output type: {type(result.outputs).__name__}"
+                        )
+
+                    if not isinstance(embedding_data, torch.Tensor):
+                        embedding_data = torch.tensor(
+                            embedding_data, dtype=torch.float32
+                        )
+
+                    if result.prompt_token_ids is None:
+                        return self.create_error_response(
+                            "prompt_token_ids cannot be None for chunked processing"
+                        )
+                    weight = len(result.prompt_token_ids)
+
+                    weighted_embedding = embedding_data.to(dtype=torch.float32) * weight
+
+                    if aggregator["weighted_sum"] is None:
+                        # First chunk
+                        aggregator["weighted_sum"] = weighted_embedding
+                    else:
+                        # Accumulate
+                        aggregator["weighted_sum"] += weighted_embedding
+
+                    aggregator["total_weight"] += weight
+                    aggregator["chunk_count"] += 1
+                else:
+                    # Non-chunked result - extract prompt_idx from request_id
+                    parts = result.request_id.split("-")
+                    try:
+                        # Last part should be prompt index
+                        prompt_idx = int(parts[-1])
+                    except (ValueError, IndexError):
+                        prompt_idx = result_idx  # Fallback to result_idx
+
+                    short_prompts_results[prompt_idx] = cast(
+                        PoolingRequestOutput, result
+                    )
+
+            # Finalize aggregated results
+            final_res_batch: list[PoolingRequestOutput | EmbeddingRequestOutput] = []
+            num_prompts = len(ctx.engine_prompts)
+
+            for prompt_idx in range(num_prompts):
+                if prompt_idx in prompt_aggregators:
+                    # Finalize MEAN aggregation for this chunked prompt
+                    aggregator = prompt_aggregators[prompt_idx]
+
+                    weighted_sum = aggregator["weighted_sum"]
+                    total_weight = aggregator["total_weight"]
+
+                    if (
+                        weighted_sum is not None
+                        and isinstance(weighted_sum, torch.Tensor)
+                        and isinstance(total_weight, (int, float))
+                        and total_weight > 0
+                    ):
+                        # Compute final mean embedding
+                        final_embedding = weighted_sum / total_weight
+
+                        # Create a PoolingRequestOutput
+                        # for the aggregated result
+                        pooling_output_data = PoolingOutput(data=final_embedding)
+
+                        # Get original prompt token IDs for this prompt
+                        original_prompt = ctx.engine_prompts[prompt_idx]
+                        if not self._is_text_tokens_prompt(original_prompt):
+                            return self.create_error_response(
+                                f"Chunked prompt {prompt_idx} is not a TextTokensPrompt"
+                            )
+
+                        original_token_ids = cast(TextTokensPrompt, original_prompt)[
+                            "prompt_token_ids"
+                        ]
+
+                        pooling_request_output = PoolingRequestOutput(
+                            request_id=aggregator["request_id"],
+                            prompt_token_ids=original_token_ids,
+                            outputs=pooling_output_data,
+                            num_cached_tokens=0,
+                            finished=True,
+                        )
+
+                        final_res_batch.append(pooling_request_output)
+                    else:
+                        return self.create_error_response(
+                            f"Failed to aggregate chunks for prompt {prompt_idx}"
+                        )
+                elif prompt_idx in short_prompts_results:
+                    final_res_batch.append(
+                        cast(PoolingRequestOutput, short_prompts_results[prompt_idx])
+                    )
+                else:
+                    return self.create_error_response(
+                        f"Result not found for prompt {prompt_idx}"
+                    )
+
+            ctx.final_res_batch = cast(
+                list[RequestOutput | PoolingRequestOutput], final_res_batch
+            )
+
+            return None
+
+        except Exception as e:
+            return self.create_error_response(str(e))
+
+
+class OpenAIServingEmbedding(EmbeddingMixin):
+    request_id_prefix = "embd"
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        trust_request_chat_template: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            log_error_stack=log_error_stack,
+        )
+
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+
+    async def create_embedding(
+        self,
+        request: EmbeddingRequest,
+        raw_request: Request | None = None,
+    ) -> EmbeddingResponse | ErrorResponse:
+        """
+        Embedding API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/embeddings/create
+        for the API specification. This API mimics the OpenAI Embedding API.
+        """
+        model_name = self.models.model_name()
+        request_id = (
+            f"{self.request_id_prefix}-"
+            f"{self._base_request_id(raw_request, request.request_id)}"
+        )
+
+        ctx = EmbeddingServeContext(
+            request=request,
+            raw_request=raw_request,
+            model_name=model_name,
+            request_id=request_id,
+            chat_template=self.chat_template,
+            chat_template_content_format=self.chat_template_content_format,
+        )
+
+        return await super().handle(ctx)  # type: ignore
+
+    @override
+    def _create_pooling_params(
+        self,
+        ctx: ServeContext[EmbeddingRequest],
+    ) -> PoolingParams | ErrorResponse:
+        pooling_params = super()._create_pooling_params(ctx)
+        if isinstance(pooling_params, ErrorResponse):
+            return pooling_params
+
+        try:
+            pooling_params.verify("embed", self.model_config)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        return pooling_params
+
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        if isinstance(ctx.request, EmbeddingChatRequest):
+            error_check_ret = self._validate_chat_template(
+                request_chat_template=ctx.request.chat_template,
+                chat_template_kwargs=ctx.request.chat_template_kwargs,
+                trust_request_chat_template=self.trust_request_chat_template,
+            )
+            if error_check_ret is not None:
+                return error_check_ret
+        return await super()._preprocess(ctx)
diff --git a/entrypoints/openai/serving_engine.py b/entrypoints/openai/serving_engine.py
new file mode 100644
index 0000000..c50b0c4
--- /dev/null
+++ b/entrypoints/openai/serving_engine.py
@@ -0,0 +1,1433 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import json
+import sys
+import time
+import traceback
+from collections.abc import AsyncGenerator, Callable, Iterable, Mapping, Sequence
+from concurrent.futures import ThreadPoolExecutor
+from http import HTTPStatus
+from typing import Any, ClassVar, Generic, TypeAlias, TypeVar
+
+import torch
+from fastapi import Request
+from pydantic import BaseModel, ConfigDict, Field, TypeAdapter
+from starlette.datastructures import Headers
+from typing_extensions import TypeIs
+
+if sys.version_info >= (3, 12):
+    from typing import TypedDict
+else:
+    from typing_extensions import TypedDict
+
+from openai.types.responses import (
+    ToolChoiceFunction,
+)
+
+import vllm.envs as envs
+from vllm.beam_search import BeamSearchSequence, create_sort_beams_key_function
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import (
+    ChatCompletionMessageParam,
+    ChatTemplateContentFormatOption,
+    ConversationMessage,
+    apply_hf_chat_template,
+    apply_mistral_chat_template,
+    parse_chat_messages_futures,
+    resolve_chat_template_content_format,
+)
+from vllm.entrypoints.context import ConversationContext
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionNamedToolChoiceParam,
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+    ClassificationChatRequest,
+    ClassificationCompletionRequest,
+    ClassificationRequest,
+    ClassificationResponse,
+    CompletionRequest,
+    CompletionResponse,
+    DetokenizeRequest,
+    EmbeddingChatRequest,
+    EmbeddingCompletionRequest,
+    EmbeddingRequest,
+    EmbeddingResponse,
+    ErrorInfo,
+    ErrorResponse,
+    FunctionCall,
+    FunctionDefinition,
+    GenerateRequest,
+    GenerateResponse,
+    IOProcessorRequest,
+    PoolingResponse,
+    RerankRequest,
+    ResponsesRequest,
+    ScoreRequest,
+    ScoreResponse,
+    TokenizeChatRequest,
+    TokenizeCompletionRequest,
+    TokenizeResponse,
+    TranscriptionRequest,
+    TranscriptionResponse,
+    TranslationRequest,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.openai.tool_parsers import ToolParser, ToolParserManager
+from vllm.entrypoints.renderer import BaseRenderer, CompletionRenderer, RenderConfig
+from vllm.entrypoints.utils import _validate_truncation_size
+from vllm.inputs.data import PromptType
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.inputs.parse import (
+    PromptComponents,
+    get_prompt_components,
+    is_explicit_encoder_decoder_prompt,
+)
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob, PromptLogprobs
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import (  # noqa: F401 - Required to resolve Pydantic error in RequestProcessingMixin
+    MultiModalDataDict,
+    MultiModalUUIDDict,
+)
+from vllm.outputs import CompletionOutput, PoolingRequestOutput, RequestOutput
+from vllm.pooling_params import PoolingParams
+from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.sampling_params import BeamSearchParams, SamplingParams
+from vllm.tracing import (
+    contains_trace_headers,
+    extract_trace_headers,
+    log_tracing_disabled_warning,
+)
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.utils import random_uuid
+from vllm.utils.async_utils import (
+    AsyncMicrobatchTokenizer,
+    collect_from_async_generator,
+    make_async,
+    merge_async_iterators,
+)
+from vllm.utils.collection_utils import is_list_of
+from vllm.v1.engine import EngineCoreRequest
+
+logger = init_logger(__name__)
+
+CompletionLikeRequest: TypeAlias = (
+    CompletionRequest
+    | DetokenizeRequest
+    | EmbeddingCompletionRequest
+    | RerankRequest
+    | ClassificationCompletionRequest
+    | ScoreRequest
+    | TokenizeCompletionRequest
+)
+
+ChatLikeRequest: TypeAlias = (
+    ChatCompletionRequest
+    | EmbeddingChatRequest
+    | TokenizeChatRequest
+    | ClassificationChatRequest
+)
+SpeechToTextRequest: TypeAlias = TranscriptionRequest | TranslationRequest
+AnyRequest: TypeAlias = (
+    CompletionLikeRequest
+    | ChatLikeRequest
+    | SpeechToTextRequest
+    | ResponsesRequest
+    | IOProcessorRequest
+    | GenerateRequest
+)
+
+AnyResponse: TypeAlias = (
+    CompletionResponse
+    | ChatCompletionResponse
+    | EmbeddingResponse
+    | TranscriptionResponse
+    | TokenizeResponse
+    | PoolingResponse
+    | ClassificationResponse
+    | ScoreResponse
+    | GenerateResponse
+)
+
+
+class TextTokensPrompt(TypedDict):
+    prompt: str
+    prompt_token_ids: list[int]
+
+
+class EmbedsPrompt(TypedDict):
+    prompt_embeds: torch.Tensor
+
+
+RequestPrompt: TypeAlias = list[int] | str | TextTokensPrompt | EmbedsPrompt
+
+
+def is_text_tokens_prompt(prompt: RequestPrompt) -> TypeIs[TextTokensPrompt]:
+    return (
+        isinstance(prompt, dict)
+        and "prompt_token_ids" in prompt
+        and "prompt_embeds" not in prompt
+    )
+
+
+def is_embeds_prompt(prompt: RequestPrompt) -> TypeIs[EmbedsPrompt]:
+    return (
+        isinstance(prompt, dict)
+        and "prompt_token_ids" not in prompt
+        and "prompt_embeds" in prompt
+    )
+
+
+RequestT = TypeVar("RequestT", bound=AnyRequest)
+
+
+class RequestProcessingMixin(BaseModel):
+    """
+    Mixin for request processing,
+    handling prompt preparation and engine input.
+    """
+
+    request_prompts: Sequence[RequestPrompt] | None = []
+    engine_prompts: list[EngineTokensPrompt] | None = []
+
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+
+
+class ResponseGenerationMixin(BaseModel):
+    """
+    Mixin for response generation,
+    managing result generators and final batch results.
+    """
+
+    result_generator: (
+        AsyncGenerator[tuple[int, RequestOutput | PoolingRequestOutput], None] | None
+    ) = None
+    final_res_batch: list[RequestOutput | PoolingRequestOutput] = Field(
+        default_factory=list
+    )
+
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+
+
+class ServeContext(
+    RequestProcessingMixin,
+    ResponseGenerationMixin,
+    BaseModel,
+    Generic[RequestT],
+):
+    # Shared across all requests
+    request: RequestT
+    raw_request: Request | None = None
+    model_name: str
+    request_id: str
+    created_time: int = Field(default_factory=lambda: int(time.time()))
+    lora_request: LoRARequest | None = None
+
+    # Shared across most requests
+    tokenizer: AnyTokenizer | None = None
+
+    # `protected_namespaces` resolves Pydantic v2's warning
+    # on conflict with protected namespace "model_"
+    model_config = ConfigDict(
+        protected_namespaces=(),
+        arbitrary_types_allowed=True,
+    )
+
+
+ClassificationServeContext = ServeContext[ClassificationRequest]
+
+
+class EmbeddingServeContext(ServeContext[EmbeddingRequest]):
+    chat_template: str | None = None
+    chat_template_content_format: ChatTemplateContentFormatOption
+
+
+# Used to resolve the Pydantic error related to
+# forward reference of MultiModalDataDict in TokensPrompt
+RequestProcessingMixin.model_rebuild()
+ServeContext.model_rebuild()
+ClassificationServeContext.model_rebuild()
+EmbeddingServeContext.model_rebuild()
+
+
+class OpenAIServing:
+    request_id_prefix: ClassVar[str] = """
+    A short string prepended to every request’s ID (e.g. "embd", "classify")
+    so you can easily tell “this ID came from Embedding vs Classification.”
+    """
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        return_tokens_as_token_ids: bool = False,
+        log_error_stack: bool = False,
+    ):
+        super().__init__()
+
+        self.engine_client = engine_client
+
+        self.models = models
+
+        self.request_logger = request_logger
+        self.return_tokens_as_token_ids = return_tokens_as_token_ids
+        self._tokenizer_executor = ThreadPoolExecutor(max_workers=1)
+        self._apply_mistral_chat_template_async = make_async(
+            apply_mistral_chat_template, executor=self._tokenizer_executor
+        )
+
+        self._async_tokenizer_pool: dict[AnyTokenizer, AsyncMicrobatchTokenizer] = {}
+        self.log_error_stack = log_error_stack
+
+        self.processor = self.models.processor
+        self.io_processor = self.models.io_processor
+        self.model_config = self.models.model_config
+        self.max_model_len = self.model_config.max_model_len
+
+    def _get_tool_parser(
+        self, tool_parser_name: str | None = None, enable_auto_tools: bool = False
+    ) -> Callable[[AnyTokenizer], ToolParser] | None:
+        """Get the tool parser based on the name."""
+        parser = None
+        if not enable_auto_tools or tool_parser_name is None:
+            return parser
+        logger.info(
+            '"auto" tool choice has been enabled please note that while'
+            " the parallel_tool_calls client option is preset for "
+            "compatibility reasons, it will be ignored."
+        )
+
+        try:
+            if tool_parser_name == "pythonic" and self.model_config.model.startswith(
+                "meta-llama/Llama-3.2"
+            ):
+                logger.warning(
+                    "Llama3.2 models may struggle to emit valid pythonic tool calls"
+                )
+            parser = ToolParserManager.get_tool_parser(tool_parser_name)
+        except Exception as e:
+            raise TypeError(
+                "Error: --enable-auto-tool-choice requires "
+                f"tool_parser:'{tool_parser_name}' which has not "
+                "been registered"
+            ) from e
+        return parser
+
+    def _get_reasoning_parser(
+        self,
+        reasoning_parser_name: str,
+    ) -> Callable[[AnyTokenizer], ReasoningParser] | None:
+        """Get the reasoning parser based on the name."""
+        parser = None
+        if not reasoning_parser_name:
+            return None
+        try:
+            parser = ReasoningParserManager.get_reasoning_parser(reasoning_parser_name)
+            assert parser is not None
+        except Exception as e:
+            raise TypeError(f"{reasoning_parser_name=} has not been registered") from e
+        return parser
+
+    async def reset_mm_cache(self) -> None:
+        self.processor.clear_mm_cache()
+        await self.engine_client.reset_mm_cache()
+
+    async def beam_search(
+        self,
+        prompt: PromptType,
+        request_id: str,
+        params: BeamSearchParams,
+        lora_request: LoRARequest | None = None,
+    ) -> AsyncGenerator[RequestOutput, None]:
+        beam_width = params.beam_width
+        max_tokens = params.max_tokens
+        ignore_eos = params.ignore_eos
+        temperature = params.temperature
+        length_penalty = params.length_penalty
+        include_stop_str_in_output = params.include_stop_str_in_output
+
+        processor = self.processor
+        tokenizer = processor.tokenizer
+        if tokenizer is None:
+            raise ValueError(
+                "You cannot use beam search when `skip_tokenizer_init` is True"
+            )
+
+        eos_token_id: int = tokenizer.eos_token_id  # type: ignore
+
+        if is_explicit_encoder_decoder_prompt(prompt):
+            raise NotImplementedError
+
+        prompt_text: str | None
+        prompt_token_ids: list[int]
+        multi_modal_data: MultiModalDataDict | None
+        if isinstance(prompt, str):
+            prompt_text = prompt
+            prompt_token_ids = []
+            multi_modal_data = None
+        else:
+            prompt_text = prompt.get("prompt")  # type: ignore
+            prompt_token_ids = prompt.get("prompt_token_ids", [])  # type: ignore
+            multi_modal_data = prompt.get("multi_modal_data")  # type: ignore
+
+        mm_processor_kwargs: dict[str, Any] | None = None
+
+        # This is a workaround to fix multimodal beam search; this is a
+        # bandaid fix for 2 small problems:
+        # 1. Multi_modal_data on the processed_inputs currently resolves to
+        #    `None`.
+        # 2. preprocessing above expands the multimodal placeholders. However,
+        #    this happens again in generation, so the double expansion causes
+        #    a mismatch.
+        # TODO - would be ideal to handle this more gracefully.
+
+        tokenized_length = len(prompt_token_ids)
+
+        sort_beams_key = create_sort_beams_key_function(eos_token_id, length_penalty)
+
+        beam_search_params = SamplingParams(
+            logprobs=2 * beam_width,
+            max_tokens=1,
+            temperature=temperature,
+        )
+        all_beams = [
+            BeamSearchSequence(
+                tokens=prompt_token_ids,
+                cum_logprob=0,
+                logprobs=[],
+                multi_modal_data=multi_modal_data,
+                mm_processor_kwargs=mm_processor_kwargs,
+                lora_request=lora_request,
+            )
+        ]
+        completed = []
+
+        for _ in range(max_tokens):
+            prompts_batch, lora_req_batch = zip(
+                *[
+                    (
+                        EngineTokensPrompt(
+                            prompt_token_ids=beam.tokens,
+                            multi_modal_data=beam.multi_modal_data,
+                            mm_processor_kwargs=beam.mm_processor_kwargs,
+                        ),
+                        beam.lora_request,
+                    )
+                    for beam in all_beams
+                ]
+            )
+
+            tasks = []
+            request_id_batch = f"{request_id}-{random_uuid()}"
+
+            for i, (individual_prompt, lora_req) in enumerate(
+                zip(prompts_batch, lora_req_batch)
+            ):
+                request_id_item = f"{request_id_batch}-beam-{i}"
+                task = asyncio.create_task(
+                    collect_from_async_generator(
+                        self.engine_client.generate(
+                            individual_prompt,
+                            beam_search_params,
+                            request_id_item,
+                            lora_request=lora_req,
+                        )
+                    )
+                )
+                tasks.append(task)
+
+            output = [x[0] for x in await asyncio.gather(*tasks)]
+
+            new_beams = []
+            for i, current_beam in enumerate(all_beams):
+                result = output[i]
+
+                if result.outputs[0].logprobs is not None:
+                    logprobs = result.outputs[0].logprobs[0]
+                    for token_id, logprob_obj in logprobs.items():
+                        if token_id == eos_token_id and not ignore_eos:
+                            completed.append(
+                                BeamSearchSequence(
+                                    tokens=current_beam.tokens + [token_id]
+                                    if include_stop_str_in_output
+                                    else current_beam.tokens,
+                                    logprobs=current_beam.logprobs + [logprobs],
+                                    cum_logprob=current_beam.cum_logprob
+                                    + logprob_obj.logprob,
+                                    finish_reason="stop",
+                                    stop_reason=eos_token_id,
+                                )
+                            )
+                        else:
+                            new_beams.append(
+                                BeamSearchSequence(
+                                    tokens=current_beam.tokens + [token_id],
+                                    logprobs=current_beam.logprobs + [logprobs],
+                                    lora_request=current_beam.lora_request,
+                                    cum_logprob=current_beam.cum_logprob
+                                    + logprob_obj.logprob,
+                                    multi_modal_data=current_beam.multi_modal_data,
+                                    mm_processor_kwargs=current_beam.mm_processor_kwargs,
+                                )
+                            )
+
+            sorted_beams = sorted(new_beams, key=sort_beams_key, reverse=True)
+            all_beams = sorted_beams[:beam_width]
+
+        completed.extend(all_beams)
+        sorted_completed = sorted(completed, key=sort_beams_key, reverse=True)
+        best_beams = sorted_completed[:beam_width]
+
+        for beam in best_beams:
+            if beam.tokens[-1] == eos_token_id and not ignore_eos:
+                # Skip the eos token in the text.
+                tokens = beam.tokens[tokenized_length:-1]
+            else:
+                tokens = beam.tokens[tokenized_length:]
+            beam.text = tokenizer.decode(tokens)
+
+        yield RequestOutput(
+            request_id=request_id,
+            prompt=prompt_text,
+            outputs=[
+                CompletionOutput(
+                    text=beam.text,  # type: ignore
+                    cumulative_logprob=beam.cum_logprob,
+                    token_ids=beam.tokens[tokenized_length:],
+                    index=i,
+                    logprobs=beam.logprobs,
+                    finish_reason=beam.finish_reason
+                    if beam.finish_reason is not None
+                    else "length",
+                    stop_reason=beam.stop_reason,
+                )
+                for (i, beam) in enumerate(best_beams)
+            ],
+            finished=True,
+            prompt_token_ids=prompt_token_ids,
+            prompt_logprobs=None,
+        )
+
+    def _get_renderer(self, tokenizer: AnyTokenizer | None) -> BaseRenderer:
+        """
+        Get a Renderer instance with the provided tokenizer.
+        Uses shared async tokenizer pool for efficiency.
+        """
+        return CompletionRenderer(
+            model_config=self.model_config,
+            tokenizer=tokenizer,
+            async_tokenizer_pool=self._async_tokenizer_pool,
+        )
+
+    def _build_render_config(
+        self,
+        request: Any,
+    ) -> RenderConfig:
+        """
+        Build and return a `RenderConfig` for an endpoint.
+
+        Used by the renderer to control how prompts are prepared
+        (e.g., tokenization and length handling). Endpoints should
+        implement this with logic appropriate to their request type.
+        """
+        raise NotImplementedError
+
+    def _get_async_tokenizer(self, tokenizer) -> AsyncMicrobatchTokenizer:
+        """
+        Return (and cache) an `AsyncMicrobatchTokenizer` bound to the
+        given tokenizer.
+        """
+        async_tokenizer = self._async_tokenizer_pool.get(tokenizer)
+        if async_tokenizer is None:
+            async_tokenizer = AsyncMicrobatchTokenizer(tokenizer)
+            self._async_tokenizer_pool[tokenizer] = async_tokenizer
+        return async_tokenizer
+
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """
+        Default preprocessing hook. Subclasses may override
+        to prepare `ctx` (classification, embedding, etc.).
+        """
+        return None
+
+    def _build_response(
+        self,
+        ctx: ServeContext,
+    ) -> AnyResponse | ErrorResponse:
+        """
+        Default response builder. Subclass may override this method
+        to return the appropriate response object.
+        """
+        return self.create_error_response("unimplemented endpoint")
+
+    async def handle(
+        self,
+        ctx: ServeContext,
+    ) -> AnyResponse | ErrorResponse:
+        generation: AsyncGenerator[AnyResponse | ErrorResponse, None]
+        generation = self._pipeline(ctx)
+
+        async for response in generation:
+            return response
+
+        return self.create_error_response("No response yielded from pipeline")
+
+    async def _pipeline(
+        self,
+        ctx: ServeContext,
+    ) -> AsyncGenerator[AnyResponse | ErrorResponse, None]:
+        """Execute the request processing pipeline yielding responses."""
+        if error := await self._check_model(ctx.request):
+            yield error
+        if error := self._validate_request(ctx):
+            yield error
+
+        preprocess_ret = await self._preprocess(ctx)
+        if isinstance(preprocess_ret, ErrorResponse):
+            yield preprocess_ret
+
+        generators_ret = await self._prepare_generators(ctx)
+        if isinstance(generators_ret, ErrorResponse):
+            yield generators_ret
+
+        collect_ret = await self._collect_batch(ctx)
+        if isinstance(collect_ret, ErrorResponse):
+            yield collect_ret
+
+        yield self._build_response(ctx)
+
+    def _validate_request(self, ctx: ServeContext) -> ErrorResponse | None:
+        truncate_prompt_tokens = getattr(ctx.request, "truncate_prompt_tokens", None)
+
+        if (
+            truncate_prompt_tokens is not None
+            and truncate_prompt_tokens > self.max_model_len
+        ):
+            return self.create_error_response(
+                "truncate_prompt_tokens value is "
+                "greater than max_model_len."
+                " Please, select a smaller truncation size."
+            )
+        return None
+
+    def _create_pooling_params(
+        self,
+        ctx: ServeContext,
+    ) -> PoolingParams | ErrorResponse:
+        if not hasattr(ctx.request, "to_pooling_params"):
+            return self.create_error_response(
+                "Request type does not support pooling parameters"
+            )
+
+        return ctx.request.to_pooling_params()
+
+    async def _prepare_generators(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """Schedule the request and get the result generator."""
+        generators: list[
+            AsyncGenerator[RequestOutput | PoolingRequestOutput, None]
+        ] = []
+
+        try:
+            trace_headers = (
+                None
+                if ctx.raw_request is None
+                else await self._get_trace_headers(ctx.raw_request.headers)
+            )
+
+            pooling_params = self._create_pooling_params(ctx)
+            if isinstance(pooling_params, ErrorResponse):
+                return pooling_params
+
+            if ctx.engine_prompts is None:
+                return self.create_error_response("Engine prompts not available")
+
+            for i, engine_prompt in enumerate(ctx.engine_prompts):
+                request_id_item = f"{ctx.request_id}-{i}"
+
+                self._log_inputs(
+                    request_id_item,
+                    engine_prompt,
+                    params=pooling_params,
+                    lora_request=ctx.lora_request,
+                )
+
+                generator = self.engine_client.encode(
+                    engine_prompt,
+                    pooling_params,
+                    request_id_item,
+                    lora_request=ctx.lora_request,
+                    trace_headers=trace_headers,
+                    priority=getattr(ctx.request, "priority", 0),
+                )
+
+                generators.append(generator)
+
+            ctx.result_generator = merge_async_iterators(*generators)
+
+            return None
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    async def _collect_batch(
+        self,
+        ctx: ServeContext,
+    ) -> ErrorResponse | None:
+        """Collect batch results from the result generator."""
+        try:
+            if ctx.engine_prompts is None:
+                return self.create_error_response("Engine prompts not available")
+
+            num_prompts = len(ctx.engine_prompts)
+            final_res_batch: list[RequestOutput | PoolingRequestOutput | None]
+            final_res_batch = [None] * num_prompts
+
+            if ctx.result_generator is None:
+                return self.create_error_response("Result generator not available")
+
+            async for i, res in ctx.result_generator:
+                final_res_batch[i] = res
+
+            if None in final_res_batch:
+                return self.create_error_response(
+                    "Failed to generate results for all prompts"
+                )
+
+            ctx.final_res_batch = [res for res in final_res_batch if res is not None]
+
+            return None
+
+        except Exception as e:
+            return self.create_error_response(str(e))
+
+    def create_error_response(
+        self,
+        message: str,
+        err_type: str = "BadRequestError",
+        status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
+    ) -> ErrorResponse:
+        if self.log_error_stack:
+            exc_type, _, _ = sys.exc_info()
+            if exc_type is not None:
+                traceback.print_exc()
+            else:
+                traceback.print_stack()
+        return ErrorResponse(
+            error=ErrorInfo(message=message, type=err_type, code=status_code.value)
+        )
+
+    def create_streaming_error_response(
+        self,
+        message: str,
+        err_type: str = "BadRequestError",
+        status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
+    ) -> str:
+        json_str = json.dumps(
+            self.create_error_response(
+                message=message, err_type=err_type, status_code=status_code
+            ).model_dump()
+        )
+        return json_str
+
+    async def _check_model(
+        self,
+        request: AnyRequest,
+    ) -> ErrorResponse | None:
+        error_response = None
+
+        if self._is_model_supported(request.model):
+            return None
+        if request.model in self.models.lora_requests:
+            return None
+        if (
+            envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING
+            and request.model
+            and (load_result := await self.models.resolve_lora(request.model))
+        ):
+            if isinstance(load_result, LoRARequest):
+                return None
+            if (
+                isinstance(load_result, ErrorResponse)
+                and load_result.error.code == HTTPStatus.BAD_REQUEST.value
+            ):
+                error_response = load_result
+
+        return error_response or self.create_error_response(
+            message=f"The model `{request.model}` does not exist.",
+            err_type="NotFoundError",
+            status_code=HTTPStatus.NOT_FOUND,
+        )
+
+    def _get_active_default_mm_loras(self, request: AnyRequest) -> LoRARequest | None:
+        """Determine if there are any active default multimodal loras."""
+        # TODO: Currently this is only enabled for chat completions
+        # to be better aligned with only being enabled for .generate
+        # when run offline. It would be nice to support additional
+        # tasks types in the future.
+        message_types = self._get_message_types(request)
+        default_mm_loras = set()
+
+        for lora in self.models.lora_requests.values():
+            # Best effort match for default multimodal lora adapters;
+            # There is probably a better way to do this, but currently
+            # this matches against the set of 'types' in any content lists
+            # up until '_', e.g., to match audio_url -> audio
+            if lora.lora_name in message_types:
+                default_mm_loras.add(lora)
+
+        # Currently only support default modality specific loras if
+        # we have exactly one lora matched on the request.
+        if len(default_mm_loras) == 1:
+            return default_mm_loras.pop()
+        return None
+
+    def _maybe_get_adapters(
+        self,
+        request: AnyRequest,
+        supports_default_mm_loras: bool = False,
+    ) -> LoRARequest | None:
+        if request.model in self.models.lora_requests:
+            return self.models.lora_requests[request.model]
+
+        # Currently only support default modality specific loras
+        # if we have exactly one lora matched on the request.
+        if supports_default_mm_loras:
+            default_mm_lora = self._get_active_default_mm_loras(request)
+            if default_mm_lora is not None:
+                return default_mm_lora
+
+        if self._is_model_supported(request.model):
+            return None
+
+        # if _check_model has been called earlier, this will be unreachable
+        raise ValueError(f"The model `{request.model}` does not exist.")
+
+    def _get_message_types(self, request: AnyRequest) -> set[str]:
+        """Retrieve the set of types from message content dicts up
+        until `_`; we use this to match potential multimodal data
+        with default per modality loras.
+        """
+        message_types: set[str] = set()
+
+        if not hasattr(request, "messages"):
+            return message_types
+
+        messages = request.messages
+        if messages is None or isinstance(messages, (str, bytes)):
+            return message_types
+
+        for message in messages:
+            if (
+                isinstance(message, dict)
+                and "content" in message
+                and isinstance(message["content"], list)
+            ):
+                for content_dict in message["content"]:
+                    if "type" in content_dict:
+                        message_types.add(content_dict["type"].split("_")[0])
+        return message_types
+
+    async def _normalize_prompt_text_to_input(
+        self,
+        request: AnyRequest,
+        prompt: str,
+        tokenizer: AnyTokenizer,
+        add_special_tokens: bool,
+    ) -> TextTokensPrompt:
+        async_tokenizer = self._get_async_tokenizer(tokenizer)
+
+        if (
+            self.model_config.encoder_config is not None
+            and self.model_config.encoder_config.get("do_lower_case", False)
+        ):
+            prompt = prompt.lower()
+
+        truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens", None)
+
+        if truncate_prompt_tokens is None:
+            encoded = await async_tokenizer(
+                prompt, add_special_tokens=add_special_tokens
+            )
+        elif truncate_prompt_tokens < 0:
+            # Negative means we cap at the model's max length
+            encoded = await async_tokenizer(
+                prompt,
+                add_special_tokens=add_special_tokens,
+                truncation=True,
+                max_length=self.max_model_len,
+            )
+        else:
+            encoded = await async_tokenizer(
+                prompt,
+                add_special_tokens=add_special_tokens,
+                truncation=True,
+                max_length=truncate_prompt_tokens,
+            )
+
+        input_ids = encoded.input_ids
+        input_text = prompt
+
+        return self._validate_input(request, input_ids, input_text)
+
+    async def _normalize_prompt_tokens_to_input(
+        self,
+        request: AnyRequest,
+        prompt_ids: list[int],
+        tokenizer: AnyTokenizer | None,
+    ) -> TextTokensPrompt:
+        truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens", None)
+
+        if truncate_prompt_tokens is None:
+            input_ids = prompt_ids
+        elif truncate_prompt_tokens < 0:
+            input_ids = prompt_ids[-self.max_model_len :]
+        else:
+            input_ids = prompt_ids[-truncate_prompt_tokens:]
+
+        if tokenizer is None:
+            input_text = ""
+        else:
+            async_tokenizer = self._get_async_tokenizer(tokenizer)
+            input_text = await async_tokenizer.decode(input_ids)
+
+        return self._validate_input(request, input_ids, input_text)
+
+    def _validate_input(
+        self,
+        request: AnyRequest,
+        input_ids: list[int],
+        input_text: str,
+    ) -> TextTokensPrompt:
+        token_num = len(input_ids)
+
+        # Note: EmbeddingRequest, ClassificationRequest,
+        # and ScoreRequest doesn't have max_tokens
+        if isinstance(
+            request,
+            (
+                EmbeddingChatRequest,
+                EmbeddingCompletionRequest,
+                ScoreRequest,
+                RerankRequest,
+                ClassificationCompletionRequest,
+                ClassificationChatRequest,
+            ),
+        ):
+            # Note: input length can be up to the entire model context length
+            # since these requests don't generate tokens.
+            if token_num > self.max_model_len:
+                operations: dict[type[AnyRequest], str] = {
+                    ScoreRequest: "score",
+                    ClassificationCompletionRequest: "classification",
+                    ClassificationChatRequest: "classification",
+                }
+                operation = operations.get(type(request), "embedding generation")
+                raise ValueError(
+                    f"This model's maximum context length is "
+                    f"{self.max_model_len} tokens. However, you requested "
+                    f"{token_num} tokens in the input for {operation}. "
+                    f"Please reduce the length of the input."
+                )
+            return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)
+
+        # Note: TokenizeRequest and DetokenizeRequest doesn't have max_tokens
+        # and does not require model context length validation
+        if isinstance(
+            request,
+            (TokenizeCompletionRequest, TokenizeChatRequest, DetokenizeRequest),
+        ):
+            return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)
+
+        # chat completion endpoint supports max_completion_tokens
+        if isinstance(request, ChatCompletionRequest):
+            # TODO(#9845): remove max_tokens when field dropped from OpenAI API
+            max_tokens = request.max_completion_tokens or request.max_tokens
+        else:
+            max_tokens = getattr(request, "max_tokens", None)
+
+        # Note: input length can be up to model context length - 1 for
+        # completion-like requests.
+        if token_num >= self.max_model_len:
+            raise ValueError(
+                f"This model's maximum context length is "
+                f"{self.max_model_len} tokens. However, your request has "
+                f"{token_num} input tokens. Please reduce the length of "
+                "the input messages."
+            )
+
+        if max_tokens is not None and token_num + max_tokens > self.max_model_len:
+            raise ValueError(
+                "'max_tokens' or 'max_completion_tokens' is too large: "
+                f"{max_tokens}. This model's maximum context length is "
+                f"{self.max_model_len} tokens and your request has "
+                f"{token_num} input tokens ({max_tokens} > {self.max_model_len}"
+                f" - {token_num})."
+            )
+
+        return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)
+
+    async def _tokenize_prompt_input_async(
+        self,
+        request: AnyRequest,
+        tokenizer: AnyTokenizer,
+        prompt_input: str | list[int],
+        add_special_tokens: bool = True,
+    ) -> TextTokensPrompt:
+        """
+        A simpler implementation that tokenizes a single prompt input.
+        """
+        async for result in self._tokenize_prompt_inputs_async(
+            request,
+            tokenizer,
+            [prompt_input],
+            add_special_tokens=add_special_tokens,
+        ):
+            return result
+        raise ValueError("No results yielded from tokenization")
+
+    async def _tokenize_prompt_inputs_async(
+        self,
+        request: AnyRequest,
+        tokenizer: AnyTokenizer,
+        prompt_inputs: Iterable[str | list[int]],
+        add_special_tokens: bool = True,
+    ) -> AsyncGenerator[TextTokensPrompt, None]:
+        """
+        A simpler implementation that tokenizes multiple prompt inputs.
+        """
+        for prompt in prompt_inputs:
+            if isinstance(prompt, str):
+                yield await self._normalize_prompt_text_to_input(
+                    request,
+                    prompt=prompt,
+                    tokenizer=tokenizer,
+                    add_special_tokens=add_special_tokens,
+                )
+            else:
+                yield await self._normalize_prompt_tokens_to_input(
+                    request,
+                    prompt_ids=prompt,
+                    tokenizer=tokenizer,
+                )
+
+    def _validate_chat_template(
+        self,
+        request_chat_template: str | None,
+        chat_template_kwargs: dict[str, Any] | None,
+        trust_request_chat_template: bool,
+    ) -> ErrorResponse | None:
+        if not trust_request_chat_template and (
+            request_chat_template is not None
+            or (
+                chat_template_kwargs
+                and chat_template_kwargs.get("chat_template") is not None
+            )
+        ):
+            return self.create_error_response(
+                "Chat template is passed with request, but "
+                "--trust-request-chat-template is not set. "
+                "Refused request with untrusted chat template."
+            )
+        return None
+
+    async def _preprocess_chat(
+        self,
+        request: ChatLikeRequest | ResponsesRequest,
+        tokenizer: AnyTokenizer,
+        messages: list[ChatCompletionMessageParam],
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        add_generation_prompt: bool = True,
+        continue_final_message: bool = False,
+        tool_dicts: list[dict[str, Any]] | None = None,
+        documents: list[dict[str, str]] | None = None,
+        chat_template_kwargs: dict[str, Any] | None = None,
+        tool_parser: Callable[[AnyTokenizer], ToolParser] | None = None,
+        add_special_tokens: bool = False,
+    ) -> tuple[
+        list[ConversationMessage],
+        Sequence[RequestPrompt],
+        list[EngineTokensPrompt],
+    ]:
+        model_config = self.model_config
+
+        resolved_content_format = resolve_chat_template_content_format(
+            chat_template,
+            tool_dicts,
+            chat_template_content_format,
+            tokenizer,
+            model_config=model_config,
+        )
+        conversation, mm_data_future, mm_uuids = parse_chat_messages_futures(
+            messages,
+            model_config,
+            tokenizer,
+            content_format=resolved_content_format,
+        )
+
+        _chat_template_kwargs: dict[str, Any] = dict(
+            chat_template=chat_template,
+            add_generation_prompt=add_generation_prompt,
+            continue_final_message=continue_final_message,
+            tools=tool_dicts,
+            documents=documents,
+        )
+        _chat_template_kwargs.update(chat_template_kwargs or {})
+
+        request_prompt: str | list[int]
+
+        if tokenizer is None:
+            request_prompt = "placeholder"
+        elif isinstance(tokenizer, MistralTokenizer):
+            request_prompt = await self._apply_mistral_chat_template_async(
+                tokenizer,
+                messages=messages,
+                **_chat_template_kwargs,
+            )
+        else:
+            request_prompt = apply_hf_chat_template(
+                tokenizer=tokenizer,
+                conversation=conversation,
+                model_config=model_config,
+                **_chat_template_kwargs,
+            )
+
+        mm_data = await mm_data_future
+
+        # tool parsing is done only if a tool_parser has been set and if
+        # tool_choice is not "none" (if tool_choice is "none" but a tool_parser
+        # is set, we want to prevent parsing a tool_call hallucinated by the LLM
+        should_parse_tools = tool_parser is not None and (
+            hasattr(request, "tool_choice") and request.tool_choice != "none"
+        )
+
+        if should_parse_tools:
+            if not isinstance(request, ChatCompletionRequest | ResponsesRequest):
+                msg = (
+                    "Tool usage is only supported for Chat Completions API "
+                    "or Responses API requests."
+                )
+                raise NotImplementedError(msg)
+            request = tool_parser(tokenizer).adjust_request(request=request)  # type: ignore
+
+        if tokenizer is None:
+            assert isinstance(request_prompt, str), (
+                "Prompt has to be a string",
+                "when the tokenizer is not initialised",
+            )
+            prompt_inputs = TextTokensPrompt(
+                prompt=request_prompt, prompt_token_ids=[1]
+            )
+        elif isinstance(request_prompt, str):
+            prompt_inputs = await self._tokenize_prompt_input_async(
+                request,
+                tokenizer,
+                request_prompt,
+                add_special_tokens=add_special_tokens,
+            )
+        else:
+            # For MistralTokenizer
+            assert is_list_of(request_prompt, int), (
+                "Prompt has to be either a string or a list of token ids"
+            )
+            prompt_inputs = TextTokensPrompt(
+                prompt=tokenizer.decode(request_prompt),
+                prompt_token_ids=request_prompt,
+            )
+
+        engine_prompt = EngineTokensPrompt(
+            prompt_token_ids=prompt_inputs["prompt_token_ids"]
+        )
+        if mm_data is not None:
+            engine_prompt["multi_modal_data"] = mm_data
+
+        if mm_uuids is not None:
+            engine_prompt["multi_modal_uuids"] = mm_uuids
+
+        if request.mm_processor_kwargs is not None:
+            engine_prompt["mm_processor_kwargs"] = request.mm_processor_kwargs
+
+        if hasattr(request, "cache_salt") and request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
+        return conversation, [request_prompt], [engine_prompt]
+
+    async def _process_inputs(
+        self,
+        request_id: str,
+        engine_prompt: PromptType,
+        params: SamplingParams | PoolingParams,
+        *,
+        lora_request: LoRARequest | None,
+        trace_headers: Mapping[str, str] | None,
+        priority: int,
+    ) -> tuple[EngineCoreRequest, dict[str, Any]]:
+        """Use the Processor to process inputs for AsyncLLM."""
+        tokenization_kwargs: dict[str, Any] = {}
+        _validate_truncation_size(
+            self.max_model_len, params.truncate_prompt_tokens, tokenization_kwargs
+        )
+
+        engine_request = self.processor.process_inputs(
+            request_id,
+            engine_prompt,
+            params,
+            lora_request=lora_request,
+            tokenization_kwargs=tokenization_kwargs,
+            trace_headers=trace_headers,
+            priority=priority,
+        )
+        return engine_request, tokenization_kwargs
+
+    async def _generate_with_builtin_tools(
+        self,
+        request_id: str,
+        request_prompt: RequestPrompt,
+        engine_prompt: EngineTokensPrompt,
+        sampling_params: SamplingParams,
+        context: ConversationContext,
+        lora_request: LoRARequest | None = None,
+        priority: int = 0,
+        **kwargs,
+    ):
+        prompt_text, _, _ = self._get_prompt_components(request_prompt)
+        orig_priority = priority
+        while True:
+            self._log_inputs(
+                request_id,
+                request_prompt,
+                params=sampling_params,
+                lora_request=lora_request,
+            )
+            trace_headers = kwargs.get("trace_headers")
+            engine_request, tokenization_kwargs = await self._process_inputs(
+                request_id,
+                engine_prompt,
+                sampling_params,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+                priority=priority,
+            )
+
+            generator = self.engine_client.generate(
+                engine_request,
+                sampling_params,
+                request_id,
+                lora_request=lora_request,
+                priority=priority,
+                prompt_text=prompt_text,
+                tokenization_kwargs=tokenization_kwargs,
+                **kwargs,
+            )
+
+            async for res in generator:
+                context.append_output(res)
+                # NOTE(woosuk): The stop condition is handled by the engine.
+                yield context
+
+            if not context.need_builtin_tool_call():
+                # The model did not ask for a tool call, so we're done.
+                break
+
+            # Call the tool and update the context with the result.
+            tool_output = await context.call_tool()
+            context.append_tool_output(tool_output)
+
+            # TODO: uncomment this and enable tool output streaming
+            # yield context
+
+            # Create inputs for the next turn.
+            # Render the next prompt token ids.
+            prompt_token_ids = context.render_for_completion()
+            engine_prompt = EngineTokensPrompt(prompt_token_ids=prompt_token_ids)
+            request_prompt = prompt_token_ids
+            # Update the sampling params.
+            sampling_params.max_tokens = self.max_model_len - len(prompt_token_ids)
+            # OPTIMIZATION
+            priority = orig_priority - 1
+
+    def _get_prompt_components(
+        self,
+        prompt: RequestPrompt | PromptType,
+    ) -> PromptComponents:
+        if isinstance(prompt, list):
+            return PromptComponents(token_ids=prompt)
+
+        return get_prompt_components(prompt)  # type: ignore[arg-type]
+
+    def _log_inputs(
+        self,
+        request_id: str,
+        inputs: RequestPrompt | PromptType,
+        params: SamplingParams | PoolingParams | BeamSearchParams | None,
+        lora_request: LoRARequest | None,
+    ) -> None:
+        if self.request_logger is None:
+            return
+
+        prompt, prompt_token_ids, prompt_embeds = self._get_prompt_components(inputs)
+
+        self.request_logger.log_inputs(
+            request_id,
+            prompt,
+            prompt_token_ids,
+            prompt_embeds,
+            params=params,
+            lora_request=lora_request,
+        )
+
+    async def _get_trace_headers(
+        self,
+        headers: Headers,
+    ) -> Mapping[str, str] | None:
+        is_tracing_enabled = await self.engine_client.is_tracing_enabled()
+
+        if is_tracing_enabled:
+            return extract_trace_headers(headers)
+
+        if contains_trace_headers(headers):
+            log_tracing_disabled_warning()
+
+        return None
+
+    @staticmethod
+    def _base_request_id(
+        raw_request: Request | None, default: str | None = None
+    ) -> str | None:
+        """Pulls the request id to use from a header, if provided"""
+        default = default or random_uuid()
+        if raw_request is None:
+            return default
+
+        return raw_request.headers.get("X-Request-Id", default)
+
+    @staticmethod
+    def _get_data_parallel_rank(raw_request: Request | None) -> int | None:
+        """Pulls the data parallel rank from a header, if provided"""
+        if raw_request is None:
+            return None
+
+        rank_str = raw_request.headers.get("X-data-parallel-rank")
+        if rank_str is None:
+            return None
+
+        try:
+            return int(rank_str)
+        except ValueError:
+            return None
+
+    @staticmethod
+    def _parse_tool_calls_from_content(
+        request: ResponsesRequest | ChatCompletionRequest,
+        tokenizer: AnyTokenizer,
+        enable_auto_tools: bool,
+        tool_parser_cls: Callable[[AnyTokenizer], ToolParser] | None,
+        content: str | None = None,
+    ) -> tuple[list[FunctionCall] | None, str | None]:
+        function_calls = list[FunctionCall]()
+        if request.tool_choice and isinstance(request.tool_choice, ToolChoiceFunction):
+            assert content is not None
+            # Forced Function Call
+            function_calls.append(
+                FunctionCall(name=request.tool_choice.name, arguments=content)
+            )
+            content = None  # Clear content since tool is called.
+        elif request.tool_choice and isinstance(
+            request.tool_choice, ChatCompletionNamedToolChoiceParam
+        ):
+            assert content is not None
+            # Forced Function Call
+            function_calls.append(
+                FunctionCall(name=request.tool_choice.function.name, arguments=content)
+            )
+            content = None  # Clear content since tool is called.
+        elif request.tool_choice == "required":
+            assert content is not None
+            tool_calls = TypeAdapter(list[FunctionDefinition]).validate_json(content)
+            function_calls.extend(
+                [
+                    FunctionCall(
+                        name=tool_call.name,
+                        arguments=json.dumps(tool_call.parameters, ensure_ascii=False),
+                    )
+                    for tool_call in tool_calls
+                ]
+            )
+            content = None  # Clear content since tool is called.
+        elif (
+            tool_parser_cls
+            and enable_auto_tools
+            and (request.tool_choice == "auto" or request.tool_choice is None)
+        ):
+            # Automatic Tool Call Parsing
+            try:
+                tool_parser = tool_parser_cls(tokenizer)
+            except RuntimeError as e:
+                logger.exception("Error in tool parser creation.")
+                raise e
+            tool_call_info = tool_parser.extract_tool_calls(
+                content if content is not None else "",
+                request=request,  # type: ignore
+            )
+            if tool_call_info is not None and tool_call_info.tools_called:
+                # extract_tool_calls() returns a list of tool calls.
+                function_calls.extend(
+                    FunctionCall(
+                        name=tool_call.function.name,
+                        arguments=tool_call.function.arguments,
+                    )
+                    for tool_call in tool_call_info.tool_calls
+                )
+                content = tool_call_info.content
+                if content and content.strip() == "":
+                    content = None
+            else:
+                # No tool calls.
+                return None, content
+
+        return function_calls, content
+
+    @staticmethod
+    def _get_decoded_token(
+        logprob: Logprob,
+        token_id: int,
+        tokenizer: AnyTokenizer,
+        return_as_token_id: bool = False,
+    ) -> str:
+        if return_as_token_id:
+            return f"token_id:{token_id}"
+
+        if logprob.decoded_token is not None:
+            return logprob.decoded_token
+        return tokenizer.decode(token_id)
+
+    def _is_model_supported(self, model_name: str | None) -> bool:
+        if not model_name:
+            return True
+        return self.models.is_base_model(model_name)
+
+
+def clamp_prompt_logprobs(
+    prompt_logprobs: PromptLogprobs | None,
+) -> PromptLogprobs | None:
+    if prompt_logprobs is None:
+        return prompt_logprobs
+
+    for logprob_dict in prompt_logprobs:
+        if logprob_dict is None:
+            continue
+        for logprob_values in logprob_dict.values():
+            if logprob_values.logprob == float("-inf"):
+                logprob_values.logprob = -9999.0
+    return prompt_logprobs
diff --git a/entrypoints/openai/serving_models.py b/entrypoints/openai/serving_models.py
new file mode 100644
index 0000000..24b9587
--- /dev/null
+++ b/entrypoints/openai/serving_models.py
@@ -0,0 +1,304 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from asyncio import Lock
+from collections import defaultdict
+from dataclasses import dataclass
+from http import HTTPStatus
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.openai.protocol import (
+    ErrorInfo,
+    ErrorResponse,
+    LoadLoRAAdapterRequest,
+    ModelCard,
+    ModelList,
+    ModelPermission,
+    UnloadLoRAAdapterRequest,
+)
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.lora.resolver import LoRAResolver, LoRAResolverRegistry
+from vllm.utils.counter import AtomicCounter
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class BaseModelPath:
+    name: str
+    model_path: str
+
+
+@dataclass
+class LoRAModulePath:
+    name: str
+    path: str
+    base_model_name: str | None = None
+
+
+class OpenAIServingModels:
+    """Shared instance to hold data about the loaded base model(s) and adapters.
+
+    Handles the routes:
+    - /v1/models
+    - /v1/load_lora_adapter
+    - /v1/unload_lora_adapter
+    """
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        base_model_paths: list[BaseModelPath],
+        *,
+        lora_modules: list[LoRAModulePath] | None = None,
+    ):
+        super().__init__()
+
+        self.engine_client = engine_client
+        self.base_model_paths = base_model_paths
+
+        self.static_lora_modules = lora_modules
+        self.lora_requests: dict[str, LoRARequest] = {}
+        self.lora_id_counter = AtomicCounter(0)
+
+        self.lora_resolvers: list[LoRAResolver] = []
+        for lora_resolver_name in LoRAResolverRegistry.get_supported_resolvers():
+            self.lora_resolvers.append(
+                LoRAResolverRegistry.get_resolver(lora_resolver_name)
+            )
+        self.lora_resolver_lock: dict[str, Lock] = defaultdict(Lock)
+
+        self.processor = self.engine_client.processor
+        self.io_processor = self.engine_client.io_processor
+        self.model_config = self.engine_client.model_config
+        self.max_model_len = self.model_config.max_model_len
+
+    async def init_static_loras(self):
+        """Loads all static LoRA modules.
+        Raises if any fail to load"""
+        if self.static_lora_modules is None:
+            return
+        for lora in self.static_lora_modules:
+            load_request = LoadLoRAAdapterRequest(
+                lora_path=lora.path, lora_name=lora.name
+            )
+            load_result = await self.load_lora_adapter(
+                request=load_request, base_model_name=lora.base_model_name
+            )
+            if isinstance(load_result, ErrorResponse):
+                raise ValueError(load_result.error.message)
+
+    def is_base_model(self, model_name) -> bool:
+        return any(model.name == model_name for model in self.base_model_paths)
+
+    def model_name(self, lora_request: LoRARequest | None = None) -> str:
+        """Returns the appropriate model name depending on the availability
+        and support of the LoRA or base model.
+        Parameters:
+        - lora: LoRARequest that contain a base_model_name.
+        Returns:
+        - str: The name of the base model or the first available model path.
+        """
+        if lora_request is not None:
+            return lora_request.lora_name
+        return self.base_model_paths[0].name
+
+    async def show_available_models(self) -> ModelList:
+        """Show available models. This includes the base model and all
+        adapters"""
+        model_cards = [
+            ModelCard(
+                id=base_model.name,
+                max_model_len=self.max_model_len,
+                root=base_model.model_path,
+                permission=[ModelPermission()],
+            )
+            for base_model in self.base_model_paths
+        ]
+        lora_cards = [
+            ModelCard(
+                id=lora.lora_name,
+                root=lora.local_path,
+                parent=lora.base_model_name
+                if lora.base_model_name
+                else self.base_model_paths[0].name,
+                permission=[ModelPermission()],
+            )
+            for lora in self.lora_requests.values()
+        ]
+        model_cards.extend(lora_cards)
+        return ModelList(data=model_cards)
+
+    async def load_lora_adapter(
+        self, request: LoadLoRAAdapterRequest, base_model_name: str | None = None
+    ) -> ErrorResponse | str:
+        lora_name = request.lora_name
+
+        # Ensure atomicity based on the lora name
+        async with self.lora_resolver_lock[lora_name]:
+            error_check_ret = await self._check_load_lora_adapter_request(request)
+            if error_check_ret is not None:
+                return error_check_ret
+
+            lora_path = request.lora_path
+            unique_id = self.lora_id_counter.inc(1)
+            lora_request = LoRARequest(
+                lora_name=lora_name, lora_int_id=unique_id, lora_path=lora_path
+            )
+            if base_model_name is not None and self.is_base_model(base_model_name):
+                lora_request.base_model_name = base_model_name
+
+            # Validate that the adapter can be loaded into the engine
+            # This will also pre-load it for incoming requests
+            try:
+                await self.engine_client.add_lora(lora_request)
+            except Exception as e:
+                error_type = "BadRequestError"
+                status_code = HTTPStatus.BAD_REQUEST
+                if "No adapter found" in str(e):
+                    error_type = "NotFoundError"
+                    status_code = HTTPStatus.NOT_FOUND
+
+                return create_error_response(
+                    message=str(e), err_type=error_type, status_code=status_code
+                )
+
+            self.lora_requests[lora_name] = lora_request
+            logger.info(
+                "Loaded new LoRA adapter: name '%s', path '%s'", lora_name, lora_path
+            )
+            return f"Success: LoRA adapter '{lora_name}' added successfully."
+
+    async def unload_lora_adapter(
+        self, request: UnloadLoRAAdapterRequest
+    ) -> ErrorResponse | str:
+        lora_name = request.lora_name
+
+        # Ensure atomicity based on the lora name
+        async with self.lora_resolver_lock[lora_name]:
+            error_check_ret = await self._check_unload_lora_adapter_request(request)
+            if error_check_ret is not None:
+                return error_check_ret
+
+            # Safe to delete now since we hold the lock
+            del self.lora_requests[lora_name]
+            logger.info("Removed LoRA adapter: name '%s'", lora_name)
+            return f"Success: LoRA adapter '{lora_name}' removed successfully."
+
+    async def _check_load_lora_adapter_request(
+        self, request: LoadLoRAAdapterRequest
+    ) -> ErrorResponse | None:
+        # Check if both 'lora_name' and 'lora_path' are provided
+        if not request.lora_name or not request.lora_path:
+            return create_error_response(
+                message="Both 'lora_name' and 'lora_path' must be provided.",
+                err_type="InvalidUserInput",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+
+        # Check if the lora adapter with the given name already exists
+        if request.lora_name in self.lora_requests:
+            return create_error_response(
+                message=f"The lora adapter '{request.lora_name}' has already been "
+                "loaded.",
+                err_type="InvalidUserInput",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+
+        return None
+
+    async def _check_unload_lora_adapter_request(
+        self, request: UnloadLoRAAdapterRequest
+    ) -> ErrorResponse | None:
+        # Check if 'lora_name' is not provided return an error
+        if not request.lora_name:
+            return create_error_response(
+                message="'lora_name' needs to be provided to unload a LoRA adapter.",
+                err_type="InvalidUserInput",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+
+        # Check if the lora adapter with the given name exists
+        if request.lora_name not in self.lora_requests:
+            return create_error_response(
+                message=f"The lora adapter '{request.lora_name}' cannot be found.",
+                err_type="NotFoundError",
+                status_code=HTTPStatus.NOT_FOUND,
+            )
+
+        return None
+
+    async def resolve_lora(self, lora_name: str) -> LoRARequest | ErrorResponse:
+        """Attempt to resolve a LoRA adapter using available resolvers.
+
+        Args:
+            lora_name: Name/identifier of the LoRA adapter
+
+        Returns:
+            LoRARequest if found and loaded successfully.
+            ErrorResponse (404) if no resolver finds the adapter.
+            ErrorResponse (400) if adapter(s) are found but none load.
+        """
+        async with self.lora_resolver_lock[lora_name]:
+            # First check if this LoRA is already loaded
+            if lora_name in self.lora_requests:
+                return self.lora_requests[lora_name]
+
+            base_model_name = self.model_config.model
+            unique_id = self.lora_id_counter.inc(1)
+            found_adapter = False
+
+            # Try to resolve using available resolvers
+            for resolver in self.lora_resolvers:
+                lora_request = await resolver.resolve_lora(base_model_name, lora_name)
+
+                if lora_request is not None:
+                    found_adapter = True
+                    lora_request.lora_int_id = unique_id
+
+                    try:
+                        await self.engine_client.add_lora(lora_request)
+                        self.lora_requests[lora_name] = lora_request
+                        logger.info(
+                            "Resolved and loaded LoRA adapter '%s' using %s",
+                            lora_name,
+                            resolver.__class__.__name__,
+                        )
+                        return lora_request
+                    except BaseException as e:
+                        logger.warning(
+                            "Failed to load LoRA '%s' resolved by %s: %s. "
+                            "Trying next resolver.",
+                            lora_name,
+                            resolver.__class__.__name__,
+                            e,
+                        )
+                        continue
+
+            if found_adapter:
+                # An adapter was found, but all attempts to load it failed.
+                return create_error_response(
+                    message=(
+                        f"LoRA adapter '{lora_name}' was found but could not be loaded."
+                    ),
+                    err_type="BadRequestError",
+                    status_code=HTTPStatus.BAD_REQUEST,
+                )
+            else:
+                # No adapter was found
+                return create_error_response(
+                    message=f"LoRA adapter {lora_name} does not exist",
+                    err_type="NotFoundError",
+                    status_code=HTTPStatus.NOT_FOUND,
+                )
+
+
+def create_error_response(
+    message: str,
+    err_type: str = "BadRequestError",
+    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
+) -> ErrorResponse:
+    return ErrorResponse(
+        error=ErrorInfo(message=message, type=err_type, code=status_code.value)
+    )
diff --git a/entrypoints/openai/serving_pooling.py b/entrypoints/openai/serving_pooling.py
new file mode 100644
index 0000000..ee4c5c8
--- /dev/null
+++ b/entrypoints/openai/serving_pooling.py
@@ -0,0 +1,346 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import json
+import time
+from collections.abc import AsyncGenerator, Sequence
+from typing import Final, cast
+
+import jinja2
+from fastapi import Request
+from typing_extensions import assert_never
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ErrorResponse,
+    IOProcessorRequest,
+    IOProcessorResponse,
+    PoolingBytesResponse,
+    PoolingChatRequest,
+    PoolingCompletionRequest,
+    PoolingRequest,
+    PoolingResponse,
+    PoolingResponseData,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.renderer import RenderConfig
+from vllm.entrypoints.utils import _validate_truncation_size
+from vllm.logger import init_logger
+from vllm.outputs import PoolingRequestOutput
+from vllm.tasks import PoolingTask, SupportedTask
+from vllm.utils.async_utils import merge_async_iterators
+from vllm.utils.serial_utils import (
+    EmbedDType,
+    EncodingFormat,
+    Endianness,
+    encode_pooling_bytes,
+    encode_pooling_output,
+)
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingPooling(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        supported_tasks: tuple[SupportedTask, ...],
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        trust_request_chat_template: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            log_error_stack=log_error_stack,
+        )
+
+        self.supported_tasks = supported_tasks
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+
+    async def create_pooling(
+        self,
+        request: PoolingRequest,
+        raw_request: Request | None = None,
+    ) -> PoolingResponse | IOProcessorResponse | PoolingBytesResponse | ErrorResponse:
+        """
+        See https://platform.openai.com/docs/api-reference/embeddings/create
+        for the API specification. This API mimics the OpenAI Embedding API.
+        """
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        model_name = self.models.model_name()
+
+        request_id = f"pool-{self._base_request_id(raw_request)}"
+        created_time = int(time.time())
+
+        is_io_processor_request = isinstance(request, IOProcessorRequest)
+        try:
+            lora_request = self._maybe_get_adapters(request)
+
+            if self.model_config.skip_tokenizer_init:
+                tokenizer = None
+            else:
+                tokenizer = await self.engine_client.get_tokenizer()
+            renderer = self._get_renderer(tokenizer)
+
+            if getattr(request, "dimensions", None) is not None:
+                return self.create_error_response(
+                    "dimensions is currently not supported"
+                )
+
+            truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens", None)
+            truncate_prompt_tokens = _validate_truncation_size(
+                self.max_model_len, truncate_prompt_tokens
+            )
+
+            if is_io_processor_request:
+                if self.io_processor is None:
+                    raise ValueError(
+                        "No IOProcessor plugin installed. Please refer "
+                        "to the documentation and to the "
+                        "'prithvi_geospatial_mae_io_processor' "
+                        "offline inference example for more details."
+                    )
+
+                validated_prompt = self.io_processor.parse_request(request)
+
+                engine_prompts = await self.io_processor.pre_process_async(
+                    prompt=validated_prompt, request_id=request_id
+                )
+                if not isinstance(engine_prompts, Sequence) or isinstance(
+                    engine_prompts, (str, bytes, bytearray)
+                ):
+                    engine_prompts = [engine_prompts]
+
+            elif isinstance(request, PoolingChatRequest):
+                error_check_ret = self._validate_chat_template(
+                    request_chat_template=request.chat_template,
+                    chat_template_kwargs=request.chat_template_kwargs,
+                    trust_request_chat_template=self.trust_request_chat_template,
+                )
+                if error_check_ret is not None:
+                    return error_check_ret
+                (
+                    _,
+                    _,
+                    engine_prompts,
+                ) = await self._preprocess_chat(
+                    request,
+                    tokenizer,
+                    request.messages,
+                    chat_template=request.chat_template or self.chat_template,
+                    chat_template_content_format=self.chat_template_content_format,
+                    # In pooling requests, we are not generating tokens,
+                    # so there is no need to append extra tokens to the input
+                    add_generation_prompt=False,
+                    continue_final_message=False,
+                    add_special_tokens=request.add_special_tokens,
+                )
+            elif isinstance(request, PoolingCompletionRequest):
+                engine_prompts = await renderer.render_prompt(
+                    prompt_or_prompts=request.input,
+                    config=self._build_render_config(request),
+                )
+            else:
+                raise ValueError(f"Unsupported request of type {type(request)}")
+        except (ValueError, TypeError, jinja2.TemplateError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[PoolingRequestOutput, None]] = []
+        try:
+            if is_io_processor_request:
+                assert self.io_processor is not None and isinstance(
+                    request, IOProcessorRequest
+                )
+                pooling_params = self.io_processor.validate_or_generate_params()
+            else:
+                pooling_params = request.to_pooling_params()
+
+            pooling_task: PoolingTask
+            if request.task is None:
+                if "token_embed" in self.supported_tasks:
+                    pooling_task = "token_embed"
+                elif "token_classify" in self.supported_tasks:
+                    pooling_task = "token_classify"
+                elif "plugin" in self.supported_tasks:
+                    pooling_task = "plugin"
+                else:
+                    return self.create_error_response(
+                        f"pooling_task must be one of {self.supported_tasks}."
+                    )
+            else:
+                pooling_task = request.task
+
+            if pooling_task not in self.supported_tasks:
+                return self.create_error_response(
+                    f"Task {pooling_task} is not supported, it"
+                    f" must be one of {self.supported_tasks}."
+                )
+
+            try:
+                pooling_params.verify(pooling_task, self.model_config)
+            except ValueError as e:
+                return self.create_error_response(str(e))
+
+            for i, engine_prompt in enumerate(engine_prompts):
+                request_id_item = f"{request_id}-{i}"
+
+                self._log_inputs(
+                    request_id_item,
+                    engine_prompt,
+                    params=pooling_params,
+                    lora_request=lora_request,
+                )
+
+                trace_headers = (
+                    None
+                    if raw_request is None
+                    else await self._get_trace_headers(raw_request.headers)
+                )
+
+                generator = self.engine_client.encode(
+                    engine_prompt,
+                    pooling_params,
+                    request_id_item,
+                    lora_request=lora_request,
+                    trace_headers=trace_headers,
+                    priority=request.priority,
+                )
+
+                generators.append(generator)
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        result_generator = merge_async_iterators(*generators)
+
+        if is_io_processor_request:
+            assert self.io_processor is not None
+            output = await self.io_processor.post_process_async(
+                model_output=result_generator,
+                request_id=request_id,
+            )
+            return self.io_processor.output_to_response(output)
+
+        assert isinstance(request, (PoolingCompletionRequest, PoolingChatRequest))
+        num_prompts = len(engine_prompts)
+
+        # Non-streaming response
+        final_res_batch: list[PoolingRequestOutput | None]
+        final_res_batch = [None] * num_prompts
+        try:
+            async for i, res in result_generator:
+                final_res_batch[i] = res
+
+            assert all(final_res is not None for final_res in final_res_batch)
+
+            final_res_batch_checked = cast(list[PoolingRequestOutput], final_res_batch)
+
+            response = self.request_output_to_pooling_response(
+                final_res_batch_checked,
+                request_id,
+                created_time,
+                model_name,
+                request.encoding_format,
+                request.embed_dtype,
+                request.endianness,
+            )
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        return response
+
+    def request_output_to_pooling_response(
+        self,
+        final_res_batch: list[PoolingRequestOutput],
+        request_id: str,
+        created_time: int,
+        model_name: str,
+        encoding_format: EncodingFormat,
+        embed_dtype: EmbedDType,
+        endianness: Endianness,
+    ) -> PoolingResponse | PoolingBytesResponse:
+        def encode_float_base64():
+            items: list[PoolingResponseData] = []
+            num_prompt_tokens = 0
+
+            for idx, final_res in enumerate(final_res_batch):
+                item = PoolingResponseData(
+                    index=idx,
+                    data=encode_pooling_output(
+                        final_res,
+                        encoding_format=encoding_format,
+                        embed_dtype=embed_dtype,
+                        endianness=endianness,
+                    ),
+                )
+                prompt_token_ids = final_res.prompt_token_ids
+
+                items.append(item)
+                num_prompt_tokens += len(prompt_token_ids)
+
+            usage = UsageInfo(
+                prompt_tokens=num_prompt_tokens,
+                total_tokens=num_prompt_tokens,
+            )
+
+            return PoolingResponse(
+                id=request_id,
+                created=created_time,
+                model=model_name,
+                data=items,
+                usage=usage,
+            )
+
+        def encode_bytes():
+            body, items, usage = encode_pooling_bytes(
+                pooling_outputs=final_res_batch,
+                embed_dtype=embed_dtype,
+                endianness=endianness,
+            )
+
+            metadata = {
+                "id": request_id,
+                "created": created_time,
+                "model": model_name,
+                "data": items,
+                "usage": usage,
+            }
+            return PoolingBytesResponse(
+                body=body,
+                metadata=json.dumps(metadata),
+            )
+
+        if encoding_format == "float" or encoding_format == "base64":
+            return encode_float_base64()
+        elif encoding_format == "bytes":
+            return encode_bytes()
+        else:
+            assert_never(encoding_format)
+
+    def _build_render_config(self, request: PoolingCompletionRequest) -> RenderConfig:
+        return RenderConfig(
+            max_length=self.max_model_len,
+            truncate_prompt_tokens=request.truncate_prompt_tokens,
+            add_special_tokens=request.add_special_tokens,
+        )
diff --git a/entrypoints/openai/serving_responses.py b/entrypoints/openai/serving_responses.py
new file mode 100644
index 0000000..06efb43
--- /dev/null
+++ b/entrypoints/openai/serving_responses.py
@@ -0,0 +1,2021 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import json
+import time
+import uuid
+from collections import deque
+from collections.abc import AsyncGenerator, AsyncIterator, Callable, Sequence
+from contextlib import AsyncExitStack
+from copy import copy
+from http import HTTPStatus
+from typing import Final
+
+import jinja2
+from fastapi import Request
+from openai.types.responses import (
+    ResponseCodeInterpreterCallCodeDeltaEvent,
+    ResponseCodeInterpreterCallCodeDoneEvent,
+    ResponseCodeInterpreterCallCompletedEvent,
+    ResponseCodeInterpreterCallInProgressEvent,
+    ResponseCodeInterpreterCallInterpretingEvent,
+    ResponseCodeInterpreterToolCallParam,
+    ResponseContentPartAddedEvent,
+    ResponseContentPartDoneEvent,
+    ResponseFunctionCallArgumentsDeltaEvent,
+    ResponseFunctionCallArgumentsDoneEvent,
+    ResponseFunctionToolCall,
+    ResponseFunctionWebSearch,
+    ResponseOutputItem,
+    ResponseOutputItemAddedEvent,
+    ResponseOutputItemDoneEvent,
+    ResponseOutputMessage,
+    ResponseOutputText,
+    ResponseReasoningItem,
+    ResponseReasoningTextDeltaEvent,
+    ResponseReasoningTextDoneEvent,
+    ResponseStatus,
+    ResponseTextDeltaEvent,
+    ResponseTextDoneEvent,
+    ResponseWebSearchCallCompletedEvent,
+    ResponseWebSearchCallInProgressEvent,
+    ResponseWebSearchCallSearchingEvent,
+    response_function_web_search,
+    response_text_delta_event,
+)
+from openai.types.responses.response_output_text import Logprob, LogprobTopLogprob
+from openai.types.responses.response_reasoning_item import (
+    Content as ResponseReasoningTextContent,
+)
+from openai_harmony import Message as OpenAIHarmonyMessage
+
+from vllm import envs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import (
+    ChatCompletionMessageParam,
+    ChatTemplateContentFormatOption,
+)
+from vllm.entrypoints.context import (
+    ConversationContext,
+    HarmonyContext,
+    SimpleContext,
+    StreamingHarmonyContext,
+)
+from vllm.entrypoints.harmony_utils import (
+    construct_harmony_previous_input_messages,
+    get_developer_message,
+    get_stop_tokens_for_assistant_actions,
+    get_system_message,
+    get_user_message,
+    has_custom_tools,
+    parse_output_message,
+    parse_remaining_state,
+    parse_response_input,
+    render_for_completion,
+)
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    DeltaMessage,
+    ErrorResponse,
+    InputTokensDetails,
+    OutputTokensDetails,
+    RequestResponseMetadata,
+    ResponseCompletedEvent,
+    ResponseCreatedEvent,
+    ResponseInProgressEvent,
+    ResponseReasoningPartAddedEvent,
+    ResponseReasoningPartDoneEvent,
+    ResponsesRequest,
+    ResponsesResponse,
+    ResponseUsage,
+    StreamingResponsesResponse,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.responses_utils import (
+    construct_chat_message_with_tool_call,
+    convert_tool_responses_to_completions_format,
+    extract_tool_types,
+)
+from vllm.entrypoints.tool_server import ToolServer
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob as SampleLogprob
+from vllm.logprobs import SampleLogprobs
+from vllm.outputs import CompletionOutput
+from vllm.sampling_params import SamplingParams, StructuredOutputsParams
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import random_uuid
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingResponses(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        return_tokens_as_token_ids: bool = False,
+        reasoning_parser: str = "",
+        enable_auto_tools: bool = False,
+        tool_parser: str | None = None,
+        tool_server: ToolServer | None = None,
+        enable_prompt_tokens_details: bool = False,
+        enable_force_include_usage: bool = False,
+        enable_log_outputs: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            log_error_stack=log_error_stack,
+        )
+
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+        self.enable_log_outputs = enable_log_outputs
+
+        self.reasoning_parser = self._get_reasoning_parser(
+            reasoning_parser_name=reasoning_parser
+        )
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.enable_force_include_usage = enable_force_include_usage
+        self.default_sampling_params = self.model_config.get_diff_sampling_param()
+        if self.default_sampling_params:
+            source = self.model_config.generation_config
+            source = "model" if source == "auto" else source
+            logger.info(
+                "Using default chat sampling params from %s: %s",
+                source,
+                self.default_sampling_params,
+            )
+
+        # If False (default), the "store" option is (silently) ignored and the
+        # response is not stored. If True, the response is stored in memory.
+        # NOTE(woosuk): This may not be intuitive for users, as the default
+        # behavior in OpenAI's Responses API is to store the response, but
+        # vLLM's default behavior is not.
+        self.enable_store = envs.VLLM_ENABLE_RESPONSES_API_STORE
+        if self.enable_store:
+            logger.warning_once(
+                "`VLLM_ENABLE_RESPONSES_API_STORE` is enabled. This may "
+                "cause a memory leak since we never remove responses from "
+                "the store."
+            )
+
+        self.use_harmony = self.model_config.hf_config.model_type == "gpt_oss"
+        if self.use_harmony:
+            logger.warning(
+                "For gpt-oss, we ignore --enable-auto-tool-choice "
+                "and always enable tool use."
+            )
+            # OpenAI models have two EOS-like tokens: <|return|> and <|call|>.
+            # We need to add them to the stop token ids.
+            if "stop_token_ids" not in self.default_sampling_params:
+                self.default_sampling_params["stop_token_ids"] = []
+            self.default_sampling_params["stop_token_ids"].extend(
+                get_stop_tokens_for_assistant_actions()
+            )
+        self.enable_auto_tools = enable_auto_tools
+        # set up tool use
+        self.tool_parser = self._get_tool_parser(
+            tool_parser_name=tool_parser, enable_auto_tools=enable_auto_tools
+        )
+        self.exclude_tools_when_tool_choice_none = False
+        # HACK(woosuk): This is a hack. We should use a better store.
+        # FIXME: If enable_store=True, this may cause a memory leak since we
+        # never remove responses from the store.
+        self.response_store: dict[str, ResponsesResponse] = {}
+        self.response_store_lock = asyncio.Lock()
+
+        # HACK(woosuk): This is a hack. We should use a better store.
+        # FIXME: If enable_store=True, this may cause a memory leak since we
+        # never remove messages from the store.
+        self.msg_store: dict[str, list[ChatCompletionMessageParam]] = {}
+
+        # HACK(wuhang): This is a hack. We should use a better store.
+        # FIXME: If enable_store=True, this may cause a memory leak since we
+        # never remove events from the store.
+        self.event_store: dict[
+            str, tuple[deque[StreamingResponsesResponse], asyncio.Event]
+        ] = {}
+
+        self.background_tasks: dict[str, asyncio.Task] = {}
+
+        self.tool_server = tool_server
+
+    def _validate_generator_input(
+        self, engine_prompt: EngineTokensPrompt
+    ) -> ErrorResponse | None:
+        """Add validations to the input to the generator here."""
+        if self.max_model_len <= len(engine_prompt["prompt_token_ids"]):
+            error_message = (
+                "The engine prompt length"
+                f" {len(engine_prompt['prompt_token_ids'])} "
+                f"exceeds the max_model_len {self.max_model_len}. "
+                "Please reduce prompt."
+            )
+            return self.create_error_response(
+                err_type="invalid_request_error",
+                message=error_message,
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+        return None
+
+    def _validate_create_responses_input(
+        self, request: ResponsesRequest
+    ) -> ErrorResponse | None:
+        if self.use_harmony and request.is_include_output_logprobs():
+            return self.create_error_response(
+                err_type="invalid_request_error",
+                message="logprobs are not supported with gpt-oss models",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+        if request.store and not self.enable_store and request.background:
+            return self.create_error_response(
+                err_type="invalid_request_error",
+                message=(
+                    "This vLLM engine does not support `store=True` and "
+                    "therefore does not support the background mode. To "
+                    "enable these features, set the environment variable "
+                    "`VLLM_ENABLE_RESPONSES_API_STORE=1` when launching "
+                    "the vLLM server."
+                ),
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+        if request.previous_input_messages and request.previous_response_id:
+            return self.create_error_response(
+                err_type="invalid_request_error",
+                message="Only one of `previous_input_messages` and "
+                "`previous_response_id` can be set.",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+        return None
+
+    async def create_responses(
+        self,
+        request: ResponsesRequest,
+        raw_request: Request | None = None,
+    ) -> (
+        AsyncGenerator[StreamingResponsesResponse, None]
+        | ResponsesResponse
+        | ErrorResponse
+    ):
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            logger.error("Error with model %s", error_check_ret)
+            return error_check_ret
+        maybe_validation_error = self._validate_create_responses_input(request)
+        if maybe_validation_error is not None:
+            return maybe_validation_error
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        if request.store and not self.enable_store:
+            # Disable the store option.
+            # NOTE(woosuk): Although returning an error is possible, we opted
+            # to implicitly disable store and process the request anyway, as
+            # we assume most users do not intend to actually store the response
+            # (i.e., their request's `store=True` just because it's the default
+            # value).
+            request.store = False
+
+        # Handle the previous response ID.
+        prev_response_id = request.previous_response_id
+        if prev_response_id is not None:
+            async with self.response_store_lock:
+                prev_response = self.response_store.get(prev_response_id)
+            if prev_response is None:
+                return self._make_not_found_error(prev_response_id)
+        else:
+            prev_response = None
+
+        try:
+            lora_request = self._maybe_get_adapters(request)
+            model_name = self.models.model_name(lora_request)
+            tokenizer = await self.engine_client.get_tokenizer()
+
+            if self.use_harmony:
+                messages, request_prompts, engine_prompts = (
+                    self._make_request_with_harmony(request, prev_response)
+                )
+            else:
+                messages, request_prompts, engine_prompts = await self._make_request(
+                    request, prev_response, tokenizer
+                )
+
+        except (
+            ValueError,
+            TypeError,
+            RuntimeError,
+            jinja2.TemplateError,
+            NotImplementedError,
+        ) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(f"{e} {e.__cause__}")
+
+        request_metadata = RequestResponseMetadata(request_id=request.request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[ConversationContext, None]] = []
+
+        builtin_tool_list: list[str] = []
+        if self.use_harmony and self.tool_server is not None:
+            if self.tool_server.has_tool("browser"):
+                builtin_tool_list.append("browser")
+            if self.tool_server.has_tool("python"):
+                builtin_tool_list.append("python")
+            if self.tool_server.has_tool("container"):
+                builtin_tool_list.append("container")
+
+        if self.tool_server is not None:
+            available_tools = builtin_tool_list
+        else:
+            assert len(builtin_tool_list) == 0
+            available_tools = []
+        try:
+            for i, engine_prompt in enumerate(engine_prompts):
+                maybe_error = self._validate_generator_input(engine_prompt)
+                if maybe_error is not None:
+                    return maybe_error
+
+                default_max_tokens = self.max_model_len - len(
+                    engine_prompt["prompt_token_ids"]
+                )
+
+                sampling_params = request.to_sampling_params(
+                    default_max_tokens, self.default_sampling_params
+                )
+
+                trace_headers = (
+                    None
+                    if raw_request is None
+                    else await self._get_trace_headers(raw_request.headers)
+                )
+
+                context: ConversationContext
+                if self.use_harmony:
+                    if request.stream:
+                        context = StreamingHarmonyContext(messages, available_tools)
+                    else:
+                        context = HarmonyContext(messages, available_tools)
+                else:
+                    context = SimpleContext()
+
+                if self.reasoning_parser is not None:
+                    reasoning_parser = self.reasoning_parser(tokenizer)
+                    if sampling_params.structured_outputs is None:
+                        sampling_params.structured_outputs = StructuredOutputsParams()
+                    struct_out = sampling_params.structured_outputs
+                    if struct_out.all_non_structural_tag_constraints_none():
+                        sampling_params.structured_outputs.structural_tag = (
+                            reasoning_parser.prepare_structured_tag(
+                                sampling_params.structured_outputs.structural_tag,
+                                self.tool_server,
+                            )
+                        )
+                generator = self._generate_with_builtin_tools(
+                    request_id=request.request_id,
+                    request_prompt=request_prompts[i],
+                    engine_prompt=engine_prompt,
+                    sampling_params=sampling_params,
+                    context=context,
+                    lora_request=lora_request,
+                    priority=request.priority,
+                    trace_headers=trace_headers,
+                )
+                generators.append(generator)
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        assert len(generators) == 1
+        (result_generator,) = generators
+
+        # Store the input messages.
+        if request.store:
+            self.msg_store[request.request_id] = messages
+
+        if request.background:
+            created_time = int(time.time())
+            response = ResponsesResponse.from_request(
+                request,
+                sampling_params,
+                model_name=model_name,
+                created_time=created_time,
+                output=[],
+                status="queued",
+                usage=None,
+            )
+            async with self.response_store_lock:
+                self.response_store[response.id] = response
+
+            # Run the request in the background.
+            if request.stream:
+                task = asyncio.create_task(
+                    self._run_background_request_stream(
+                        request,
+                        sampling_params,
+                        result_generator,
+                        context,
+                        model_name,
+                        tokenizer,
+                        request_metadata,
+                        created_time,
+                    ),
+                    name=f"create_{request.request_id}",
+                )
+            else:
+                task = asyncio.create_task(
+                    self._run_background_request(
+                        request,
+                        sampling_params,
+                        result_generator,
+                        context,
+                        model_name,
+                        tokenizer,
+                        request_metadata,
+                        created_time,
+                    ),
+                    name=f"create_{response.id}",
+                )
+
+            # For cleanup.
+            response_id = response.id
+            self.background_tasks[response_id] = task
+            task.add_done_callback(
+                lambda _: self.background_tasks.pop(response_id, None)
+            )
+
+            if request.stream:
+                return self.responses_background_stream_generator(request.request_id)
+            return response
+
+        if request.stream:
+            return self.responses_stream_generator(
+                request,
+                sampling_params,
+                result_generator,
+                context,
+                model_name,
+                tokenizer,
+                request_metadata,
+            )
+
+        try:
+            return await self.responses_full_generator(
+                request,
+                sampling_params,
+                result_generator,
+                context,
+                model_name,
+                tokenizer,
+                request_metadata,
+            )
+        except Exception as e:
+            return self.create_error_response(str(e))
+
+    async def _make_request(
+        self,
+        request: ResponsesRequest,
+        prev_response: ResponsesResponse | None,
+        tokenizer: AnyTokenizer,
+    ):
+        if request.tools is None or (
+            request.tool_choice == "none" and self.exclude_tools_when_tool_choice_none
+        ):
+            tool_dicts = None
+        else:
+            tool_dicts = [
+                convert_tool_responses_to_completions_format(tool.model_dump())
+                for tool in request.tools
+            ]
+        # Construct the input messages.
+        messages = self._construct_input_messages(request, prev_response)
+        _, request_prompts, engine_prompts = await self._preprocess_chat(
+            request,
+            tokenizer,
+            messages,
+            tool_dicts=tool_dicts,
+            tool_parser=self.tool_parser,
+            chat_template=self.chat_template,
+            chat_template_content_format=self.chat_template_content_format,
+        )
+        return messages, request_prompts, engine_prompts
+
+    def _make_request_with_harmony(
+        self,
+        request: ResponsesRequest,
+        prev_response: ResponsesResponse | None,
+    ):
+        if request.tool_choice != "auto":
+            raise NotImplementedError(
+                "Only 'auto' tool_choice is supported in response API with Harmony"
+            )
+        messages = self._construct_input_messages_with_harmony(request, prev_response)
+        prompt_token_ids = render_for_completion(messages)
+        engine_prompt = EngineTokensPrompt(prompt_token_ids=prompt_token_ids)
+
+        # Add cache_salt if provided in the request
+        if request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
+        return messages, [prompt_token_ids], [engine_prompt]
+
+    async def _initialize_tool_sessions(
+        self,
+        request: ResponsesRequest,
+        context: ConversationContext,
+        exit_stack: AsyncExitStack,
+    ):
+        # we should only initialize the tool session if the request needs tools
+        if len(request.tools) == 0:
+            return
+        mcp_tools = {
+            tool.server_label: tool for tool in request.tools if tool.type == "mcp"
+        }
+        await context.init_tool_sessions(
+            self.tool_server, exit_stack, request.request_id, mcp_tools
+        )
+
+    async def responses_full_generator(
+        self,
+        request: ResponsesRequest,
+        sampling_params: SamplingParams,
+        result_generator: AsyncIterator[ConversationContext],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+        created_time: int | None = None,
+    ) -> ErrorResponse | ResponsesResponse:
+        if created_time is None:
+            created_time = int(time.time())
+
+        async with AsyncExitStack() as exit_stack:
+            try:
+                await self._initialize_tool_sessions(request, context, exit_stack)
+                async for _ in result_generator:
+                    pass
+            except asyncio.CancelledError:
+                return self.create_error_response("Client disconnected")
+            except ValueError as e:
+                # TODO: Use a vllm-specific Validation Error
+                return self.create_error_response(str(e))
+
+        # NOTE: Implementation of stauts is still WIP, but for now
+        # we guarantee that if the status is not "completed", it is accurate.
+        # "completed" is implemented as the "catch-all" for now.
+        status: ResponseStatus = "completed"
+
+        input_messages = None
+        output_messages = None
+        if self.use_harmony:
+            assert isinstance(context, HarmonyContext)
+            output = self._make_response_output_items_with_harmony(context)
+            if request.enable_response_messages:
+                input_messages = context.messages[: context.num_init_messages]
+                output_messages = context.messages[context.num_init_messages :]
+            num_tool_output_tokens = context.num_tool_output_tokens
+            if len(output) > 0:
+                if context.finish_reason == "length":
+                    status = "incomplete"
+                elif context.finish_reason == "abort":
+                    status = "cancelled"
+            else:
+                status = "incomplete"
+        else:
+            assert isinstance(context, SimpleContext)
+            final_res = context.last_output
+            assert final_res is not None
+            assert len(final_res.outputs) == 1
+            final_output = final_res.outputs[0]
+
+            output = self._make_response_output_items(request, final_output, tokenizer)
+
+            # TODO: context for non-gptoss models doesn't use messages
+            # so we can't get them out yet
+            if request.enable_response_messages:
+                raise NotImplementedError(
+                    "enable_response_messages is currently only supported for gpt-oss"
+                )
+            # Calculate usage.
+            assert final_res.prompt_token_ids is not None
+            num_tool_output_tokens = 0
+
+        assert isinstance(context, (SimpleContext, HarmonyContext))
+        num_prompt_tokens = context.num_prompt_tokens
+        num_generated_tokens = context.num_output_tokens
+        num_cached_tokens = context.num_cached_tokens
+        num_reasoning_tokens = context.num_reasoning_tokens
+
+        usage = ResponseUsage(
+            input_tokens=num_prompt_tokens,
+            output_tokens=num_generated_tokens,
+            total_tokens=num_prompt_tokens + num_generated_tokens,
+            input_tokens_details=InputTokensDetails(
+                cached_tokens=num_cached_tokens,
+                input_tokens_per_turn=[
+                    turn.input_tokens for turn in context.all_turn_metrics
+                ],
+                cached_tokens_per_turn=[
+                    turn.cached_input_tokens for turn in context.all_turn_metrics
+                ],
+            ),
+            output_tokens_details=OutputTokensDetails(
+                reasoning_tokens=num_reasoning_tokens,
+                tool_output_tokens=num_tool_output_tokens,
+                output_tokens_per_turn=[
+                    turn.output_tokens for turn in context.all_turn_metrics
+                ],
+                tool_output_tokens_per_turn=[
+                    turn.tool_output_tokens for turn in context.all_turn_metrics
+                ],
+            ),
+        )
+        response = ResponsesResponse.from_request(
+            request,
+            sampling_params,
+            input_messages=input_messages,
+            output_messages=output_messages,
+            model_name=model_name,
+            created_time=created_time,
+            output=output,
+            status=status,
+            usage=usage,
+        )
+
+        if request.store:
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(response.id)
+                # If the response is already cancelled, don't update it.
+                if stored_response is None or stored_response.status != "cancelled":
+                    self.response_store[response.id] = response
+        return response
+
+    def _topk_logprobs(
+        self,
+        logprobs: dict[int, SampleLogprob],
+        top_logprobs: int,
+        tokenizer: AnyTokenizer,
+    ) -> list[LogprobTopLogprob]:
+        """Returns the top-k logprobs from the logprobs dictionary."""
+        out = []
+        for i, (token_id, _logprob) in enumerate(logprobs.items()):
+            if i >= top_logprobs:
+                break
+            text = (
+                _logprob.decoded_token
+                if _logprob.decoded_token is not None
+                else tokenizer.decode([token_id])
+            )
+            out.append(
+                LogprobTopLogprob(
+                    token=text,
+                    logprob=max(_logprob.logprob, -9999.0),
+                    bytes=list(text.encode("utf-8", errors="replace")),
+                )
+            )
+        return out
+
+    def _create_response_logprobs(
+        self,
+        token_ids: Sequence[int],
+        logprobs: SampleLogprobs | None,
+        tokenizer: AnyTokenizer,
+        top_logprobs: int | None = None,
+    ) -> list[Logprob]:
+        assert logprobs is not None, "logprobs must be provided"
+        assert len(token_ids) == len(logprobs), (
+            "token_ids and logprobs.token_ids must have the same length"
+        )
+        out = []
+        for i, token_id in enumerate(token_ids):
+            logprob = logprobs[i]
+            token_logprob = logprob[token_id]
+            text = (
+                token_logprob.decoded_token
+                if token_logprob.decoded_token is not None
+                else tokenizer.decode([token_id])
+            )
+            out.append(
+                Logprob(
+                    token=text,
+                    logprob=max(token_logprob.logprob, -9999.0),
+                    bytes=list(text.encode("utf-8", errors="replace")),
+                    top_logprobs=(
+                        self._topk_logprobs(
+                            logprob, top_logprobs=top_logprobs, tokenizer=tokenizer
+                        )
+                        if top_logprobs
+                        else []
+                    ),
+                )
+            )
+        return out
+
+    def _create_stream_response_logprobs(
+        self,
+        token_ids: Sequence[int],
+        logprobs: SampleLogprobs | None,
+        tokenizer: AnyTokenizer,
+        top_logprobs: int | None = None,
+    ) -> list[response_text_delta_event.Logprob]:
+        lgs = self._create_response_logprobs(
+            token_ids=token_ids,
+            logprobs=logprobs,
+            tokenizer=tokenizer,
+            top_logprobs=top_logprobs,
+        )
+        return [
+            response_text_delta_event.Logprob(
+                token=lg.token,
+                logprob=lg.logprob,
+                top_logprobs=[
+                    response_text_delta_event.LogprobTopLogprob(
+                        token=tl.token, logprob=tl.logprob
+                    )
+                    for tl in lg.top_logprobs
+                ],
+            )
+            for lg in lgs
+        ]
+
+    def _make_response_output_items(
+        self,
+        request: ResponsesRequest,
+        final_output: CompletionOutput,
+        tokenizer: AnyTokenizer,
+    ) -> list[ResponseOutputItem]:
+        if self.reasoning_parser:
+            try:
+                reasoning_parser = self.reasoning_parser(tokenizer)
+            except RuntimeError as e:
+                logger.exception("Error in reasoning parser creation.")
+                raise e
+
+            reasoning, content = reasoning_parser.extract_reasoning(
+                final_output.text, request=request
+            )
+        else:
+            reasoning = None
+            content = final_output.text
+
+        # Log complete response if output logging is enabled
+        if self.enable_log_outputs and self.request_logger:
+            output_text = ""
+            if content:
+                output_text = content
+            elif reasoning:
+                output_text = f"[reasoning: {reasoning}]"
+
+            if output_text:
+                self.request_logger.log_outputs(
+                    request_id=request.request_id,
+                    outputs=output_text,
+                    output_token_ids=final_output.token_ids,
+                    finish_reason=final_output.finish_reason,
+                    is_streaming=False,
+                    delta=False,
+                )
+
+        reasoning_item = None
+        message_item = None
+        if reasoning:
+            reasoning_item = ResponseReasoningItem(
+                id=f"rs_{random_uuid()}",
+                summary=[],
+                type="reasoning",
+                content=[
+                    ResponseReasoningTextContent(text=reasoning, type="reasoning_text")
+                ],
+                status=None,  # NOTE: Only the last output item has status.
+            )
+        tool_calls, content = self._parse_tool_calls_from_content(
+            request=request,
+            tokenizer=tokenizer,
+            content=content,
+            enable_auto_tools=self.enable_auto_tools,
+            tool_parser_cls=self.tool_parser,
+        )
+        if content:
+            output_text = ResponseOutputText(
+                text=content,
+                annotations=[],  # TODO
+                type="output_text",
+                logprobs=(
+                    self._create_response_logprobs(
+                        token_ids=final_output.token_ids,
+                        logprobs=final_output.logprobs,
+                        tokenizer=tokenizer,
+                        top_logprobs=request.top_logprobs,
+                    )
+                    if request.is_include_output_logprobs()
+                    else None
+                ),
+            )
+            message_item = ResponseOutputMessage(
+                id=f"msg_{random_uuid()}",
+                content=[output_text],
+                role="assistant",
+                status="completed",
+                type="message",
+            )
+        outputs = []
+
+        if reasoning_item:
+            outputs.append(reasoning_item)
+        if message_item:
+            outputs.append(message_item)
+        if tool_calls:
+            tool_call_items = [
+                ResponseFunctionToolCall(
+                    id=f"fc_{random_uuid()}",
+                    call_id=f"call_{random_uuid()}",
+                    type="function_call",
+                    status="completed",
+                    name=tool_call.name,
+                    arguments=tool_call.arguments,
+                )
+                for tool_call in tool_calls
+            ]
+            outputs.extend(tool_call_items)
+        return outputs
+
+    def _make_response_output_items_with_harmony(
+        self,
+        context: HarmonyContext,
+    ) -> list[ResponseOutputItem]:
+        output_items: list[ResponseOutputItem] = []
+        num_init_messages = context.num_init_messages
+        for msg in context.messages[num_init_messages:]:
+            output_items.extend(parse_output_message(msg))
+        # Handle the generation stopped in the middle (if any).
+        last_items = parse_remaining_state(context.parser)
+        if last_items:
+            output_items.extend(last_items)
+        return output_items
+
+    def _construct_input_messages(
+        self,
+        request: ResponsesRequest,
+        prev_response: ResponsesResponse | None = None,
+    ) -> list[ChatCompletionMessageParam]:
+        messages: list[ChatCompletionMessageParam] = []
+        if request.instructions:
+            messages.append(
+                {
+                    "role": "system",
+                    "content": request.instructions,
+                }
+            )
+
+        # Prepend the conversation history.
+        if prev_response is not None:
+            # Add the previous messages.
+            prev_msg = self.msg_store[prev_response.id]
+            messages.extend(prev_msg)
+
+            # Add the previous output.
+            for output_item in prev_response.output:
+                # NOTE: We skip the reasoning output.
+                if isinstance(output_item, ResponseOutputMessage):
+                    for content in output_item.content:
+                        messages.append(
+                            {
+                                "role": "assistant",
+                                "content": content.text,
+                            }
+                        )
+
+        # Append the new input.
+        # Responses API supports simple text inputs without chat format.
+        if isinstance(request.input, str):
+            messages.append({"role": "user", "content": request.input})
+        else:
+            for item in request.input:
+                messages.append(construct_chat_message_with_tool_call(item))
+        return messages
+
+    def _construct_harmony_system_input_message(
+        self, request: ResponsesRequest, with_custom_tools: bool, tool_types: set[str]
+    ) -> OpenAIHarmonyMessage:
+        reasoning_effort = request.reasoning.effort if request.reasoning else None
+        enable_browser = (
+            "web_search_preview" in tool_types
+            and self.tool_server is not None
+            and self.tool_server.has_tool("browser")
+        )
+        enable_code_interpreter = (
+            "code_interpreter" in tool_types
+            and self.tool_server is not None
+            and self.tool_server.has_tool("python")
+        )
+        enable_container = (
+            "container" in tool_types
+            and self.tool_server is not None
+            and self.tool_server.has_tool("container")
+        )
+        sys_msg = get_system_message(
+            reasoning_effort=reasoning_effort,
+            browser_description=(
+                self.tool_server.get_tool_description("browser")
+                if enable_browser and self.tool_server is not None
+                else None
+            ),
+            python_description=(
+                self.tool_server.get_tool_description("python")
+                if enable_code_interpreter and self.tool_server is not None
+                else None
+            ),
+            container_description=(
+                self.tool_server.get_tool_description("container")
+                if enable_container and self.tool_server is not None
+                else None
+            ),
+            instructions=request.instructions,
+            with_custom_tools=with_custom_tools,
+        )
+        return sys_msg
+
+    def _construct_input_messages_with_harmony(
+        self,
+        request: ResponsesRequest,
+        prev_response: ResponsesResponse | None,
+    ) -> list[OpenAIHarmonyMessage]:
+        messages: list[OpenAIHarmonyMessage] = []
+        if prev_response is None:
+            # New conversation.
+            tool_types = extract_tool_types(request.tools)
+            with_custom_tools = has_custom_tools(tool_types)
+
+            sys_msg = self._construct_harmony_system_input_message(
+                request, with_custom_tools, tool_types
+            )
+            messages.append(sys_msg)
+            if with_custom_tools:
+                dev_msg = get_developer_message(
+                    instructions=request.instructions, tools=request.tools
+                )
+                messages.append(dev_msg)
+            messages += construct_harmony_previous_input_messages(request)
+
+        else:
+            # Continue the previous conversation.
+            # FIXME(woosuk): Currently, request params like reasoning and
+            # instructions are ignored.
+            prev_msgs = self.msg_store[prev_response.id]
+            # Remove the previous chain-of-thoughts if there is a new "final"
+            # message. Note that this also removes these messages from the
+            # msg_store.
+            if len(prev_msgs) > 0:
+                last_msg = prev_msgs[-1]
+                assert isinstance(last_msg, OpenAIHarmonyMessage)
+                if last_msg.channel == "final":
+                    prev_final_msg_idx = -1
+                    for i in range(len(prev_msgs) - 2, -1, -1):
+                        prev_msg_i = prev_msgs[i]
+                        assert isinstance(prev_msg_i, OpenAIHarmonyMessage)
+                        if prev_msg_i.channel == "final":
+                            prev_final_msg_idx = i
+                            break
+                    recent_turn_msgs = prev_msgs[prev_final_msg_idx + 1 :]
+                    del prev_msgs[prev_final_msg_idx + 1 :]
+                    for msg in recent_turn_msgs:
+                        assert isinstance(msg, OpenAIHarmonyMessage)
+                        if msg.channel != "analysis":
+                            prev_msgs.append(msg)
+            messages.extend(prev_msgs)
+        # Append the new input.
+        # Responses API supports simple text inputs without chat format.
+        if isinstance(request.input, str):
+            messages.append(get_user_message(request.input))
+        else:
+            if prev_response is not None:
+                prev_outputs = copy(prev_response.output)
+            else:
+                prev_outputs = []
+            for response_msg in request.input:
+                messages.append(parse_response_input(response_msg, prev_outputs))
+                # User passes in a tool call request and its output. We need
+                # to add the tool call request to prev_outputs so that the
+                # parse_response_input can find the tool call request when
+                # parsing the tool call output.
+                if isinstance(response_msg, ResponseFunctionToolCall):
+                    prev_outputs.append(response_msg)
+        return messages
+
+    async def _run_background_request_stream(
+        self,
+        request: ResponsesRequest,
+        *args,
+        **kwargs,
+    ):
+        event_deque: deque[StreamingResponsesResponse] = deque()
+        new_event_signal = asyncio.Event()
+        self.event_store[request.request_id] = (event_deque, new_event_signal)
+        response = None
+        try:
+            generator = self.responses_stream_generator(request, *args, **kwargs)
+            async for event in generator:
+                event_deque.append(event)
+                new_event_signal.set()  # Signal new event available
+        except Exception as e:
+            logger.exception("Background request failed for %s", request.request_id)
+            response = self.create_error_response(str(e))
+        finally:
+            new_event_signal.set()
+
+        if response is not None and isinstance(response, ErrorResponse):
+            # If the request has failed, update the status to "failed".
+            response_id = request.request_id
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(response_id)
+                assert stored_response is not None
+                if stored_response.status not in ("completed", "cancelled"):
+                    stored_response.status = "failed"
+
+    async def _run_background_request(
+        self,
+        request: ResponsesRequest,
+        *args,
+        **kwargs,
+    ):
+        try:
+            response = await self.responses_full_generator(request, *args, **kwargs)
+        except Exception as e:
+            logger.exception("Background request failed for %s", request.request_id)
+            response = self.create_error_response(str(e))
+
+        if isinstance(response, ErrorResponse):
+            # If the request has failed, update the status to "failed".
+            response_id = request.request_id
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(response_id)
+                assert stored_response is not None
+                if stored_response.status not in ("completed", "cancelled"):
+                    stored_response.status = "failed"
+
+    async def responses_background_stream_generator(
+        self,
+        response_id: str,
+        starting_after: int | None = None,
+    ) -> AsyncGenerator[StreamingResponsesResponse, None]:
+        if response_id not in self.event_store:
+            raise ValueError(f"Unknown response_id: {response_id}")
+
+        event_deque, new_event_signal = self.event_store[response_id]
+        start_index = 0 if starting_after is None else starting_after + 1
+        current_index = start_index
+
+        while True:
+            new_event_signal.clear()
+
+            # Yield existing events from start_index
+            while current_index < len(event_deque):
+                event = event_deque[current_index]
+                yield event
+                if getattr(event, "type", "unknown") == "response.completed":
+                    return
+                current_index += 1
+
+            await new_event_signal.wait()
+
+    async def retrieve_responses(
+        self,
+        response_id: str,
+        starting_after: int | None,
+        stream: bool | None,
+    ) -> (
+        ErrorResponse
+        | ResponsesResponse
+        | AsyncGenerator[StreamingResponsesResponse, None]
+    ):
+        async with self.response_store_lock:
+            response = self.response_store.get(response_id)
+
+        if response is None:
+            return self._make_not_found_error(response_id)
+
+        if stream:
+            return self.responses_background_stream_generator(
+                response_id,
+                starting_after,
+            )
+        return response
+
+    async def cancel_responses(
+        self,
+        response_id: str,
+    ) -> ErrorResponse | ResponsesResponse:
+        async with self.response_store_lock:
+            response = self.response_store.get(response_id)
+            if response is None:
+                return self._make_not_found_error(response_id)
+
+            prev_status = response.status
+            if prev_status not in ("queued", "in_progress"):
+                return self.create_error_response(
+                    err_type="invalid_request_error",
+                    message="Cannot cancel a synchronous response.",
+                )
+
+            # Update the status to "cancelled".
+            response.status = "cancelled"
+
+        # Abort the request.
+        if task := self.background_tasks.get(response_id):
+            task.cancel()
+            try:
+                await task
+            except asyncio.CancelledError:
+                logger.exception("Background task for %s was cancelled", response_id)
+        return response
+
+    def _make_not_found_error(self, response_id: str) -> ErrorResponse:
+        return self.create_error_response(
+            err_type="invalid_request_error",
+            message=f"Response with id '{response_id}' not found.",
+            status_code=HTTPStatus.NOT_FOUND,
+        )
+
+    def _make_store_not_supported_error(self) -> ErrorResponse:
+        return self.create_error_response(
+            err_type="invalid_request_error",
+            message=(
+                "`store=True` (default) is not supported. Please set "
+                "`store=False` in Responses API or set "
+                "`VLLM_ENABLE_RESPONSES_API_STORE=1` in the env var when "
+                "starting the vLLM server."
+            ),
+            status_code=HTTPStatus.BAD_REQUEST,
+        )
+
+    async def _process_simple_streaming_events(
+        self,
+        request: ResponsesRequest,
+        sampling_params: SamplingParams,
+        result_generator: AsyncIterator[ConversationContext | None],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+        created_time: int,
+        _increment_sequence_number_and_return: Callable[
+            [StreamingResponsesResponse], StreamingResponsesResponse
+        ],
+    ) -> AsyncGenerator[StreamingResponsesResponse, None]:
+        current_content_index = 0
+        current_output_index = 0
+        current_item_id = ""
+        reasoning_parser = None
+        if self.reasoning_parser:
+            reasoning_parser = self.reasoning_parser(tokenizer)
+        previous_text = ""
+        previous_token_ids: list[int] = []
+        first_delta_sent = False
+        previous_delta_messages: list[DeltaMessage] = []
+        async for ctx in result_generator:
+            assert isinstance(ctx, SimpleContext)
+            if ctx.last_output is None:
+                continue
+            if ctx.last_output.outputs:
+                output = ctx.last_output.outputs[0]
+                if reasoning_parser:
+                    delta_message = reasoning_parser.extract_reasoning_streaming(
+                        previous_text=previous_text,
+                        current_text=previous_text + output.text,
+                        delta_text=output.text,
+                        previous_token_ids=previous_token_ids,
+                        current_token_ids=previous_token_ids + output.token_ids,
+                        delta_token_ids=output.token_ids,
+                    )
+                else:
+                    delta_message = DeltaMessage(
+                        content=output.text,
+                    )
+                previous_text += output.text
+                previous_token_ids += output.token_ids
+                if not delta_message:
+                    continue
+                if not first_delta_sent:
+                    current_item_id = str(uuid.uuid4())
+                    if delta_message.reasoning:
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseReasoningItem(
+                                    type="reasoning",
+                                    id=current_item_id,
+                                    summary=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                    else:
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseOutputMessage(
+                                    id=current_item_id,
+                                    type="message",
+                                    role="assistant",
+                                    content=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                    yield _increment_sequence_number_and_return(
+                        ResponseContentPartAddedEvent(
+                            type="response.content_part.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            content_index=current_content_index,
+                            part=ResponseOutputText(
+                                type="output_text",
+                                text="",
+                                annotations=[],
+                                logprobs=[],
+                            ),
+                        )
+                    )
+                    current_content_index += 1
+                    first_delta_sent = True
+                # todo(kebe7jun) tool call support
+
+                # check delta message and previous delta message are
+                # same as content or reasoning content
+                if (
+                    previous_delta_messages
+                    and previous_delta_messages[-1].reasoning is not None
+                    and delta_message.content is not None
+                ):
+                    # from reasoning to normal content, send done
+                    # event for reasoning
+                    reason_content = "".join(
+                        pm.reasoning
+                        for pm in previous_delta_messages
+                        if pm.reasoning is not None
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseReasoningTextDoneEvent(
+                            type="response.reasoning_text.done",
+                            item_id=current_item_id,
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            content_index=current_content_index,
+                            text=reason_content,
+                        )
+                    )
+                    current_content_index = 0
+                    reasoning_item = ResponseReasoningItem(
+                        type="reasoning",
+                        content=[
+                            ResponseReasoningTextContent(
+                                text=reason_content,
+                                type="reasoning_text",
+                            ),
+                        ],
+                        status="completed",
+                        id=current_item_id,
+                        summary=[],
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemDoneEvent(
+                            type="response.output_item.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=reasoning_item,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemAddedEvent(
+                            type="response.output_item.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=ResponseOutputMessage(
+                                id=current_item_id,
+                                type="message",
+                                role="assistant",
+                                content=[],
+                                status="in_progress",
+                            ),
+                        )
+                    )
+                    current_output_index += 1
+                    current_item_id = str(uuid.uuid4())
+                    yield _increment_sequence_number_and_return(
+                        ResponseContentPartAddedEvent(
+                            type="response.content_part.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            content_index=current_content_index,
+                            part=ResponseOutputText(
+                                type="output_text",
+                                text="",
+                                annotations=[],
+                                logprobs=[],
+                            ),
+                        )
+                    )
+                    current_content_index += 1
+                    # reset previous delta messages
+                    previous_delta_messages = []
+
+                if delta_message.reasoning is not None:
+                    yield _increment_sequence_number_and_return(
+                        ResponseReasoningTextDeltaEvent(
+                            type="response.reasoning_text.delta",
+                            sequence_number=-1,
+                            content_index=current_content_index,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            delta=delta_message.reasoning,
+                        )
+                    )
+                elif delta_message.content is not None:
+                    yield _increment_sequence_number_and_return(
+                        ResponseTextDeltaEvent(
+                            type="response.output_text.delta",
+                            sequence_number=-1,
+                            content_index=current_content_index,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            delta=delta_message.content,
+                            logprobs=(
+                                self._create_stream_response_logprobs(
+                                    token_ids=output.token_ids,
+                                    logprobs=output.logprobs,
+                                    tokenizer=tokenizer,
+                                    top_logprobs=request.top_logprobs,
+                                )
+                                if request.is_include_output_logprobs()
+                                else []
+                            ),
+                        )
+                    )
+                current_content_index += 1
+
+                previous_delta_messages.append(delta_message)
+        if previous_delta_messages:
+            if previous_delta_messages[-1].reasoning is not None:
+                reason_content = "".join(
+                    pm.reasoning
+                    for pm in previous_delta_messages
+                    if pm.reasoning is not None
+                )
+                yield _increment_sequence_number_and_return(
+                    ResponseReasoningTextDoneEvent(
+                        type="response.reasoning_text.done",
+                        item_id=current_item_id,
+                        sequence_number=-1,
+                        output_index=current_output_index,
+                        content_index=current_content_index,
+                        text=reason_content,
+                    )
+                )
+                current_content_index += 1
+                reasoning_item = ResponseReasoningItem(
+                    type="reasoning",
+                    content=[
+                        ResponseReasoningTextContent(
+                            text=reason_content,
+                            type="reasoning_text",
+                        ),
+                    ],
+                    status="completed",
+                    id=current_item_id,
+                    summary=[],
+                )
+                yield _increment_sequence_number_and_return(
+                    ResponseOutputItemDoneEvent(
+                        type="response.output_item.done",
+                        sequence_number=-1,
+                        output_index=current_output_index,
+                        item=reasoning_item,
+                    )
+                )
+            elif previous_delta_messages[-1].content is not None:
+                final_content = "".join(
+                    pm.content
+                    for pm in previous_delta_messages
+                    if pm.content is not None
+                )
+                yield _increment_sequence_number_and_return(
+                    ResponseTextDoneEvent(
+                        type="response.output_text.done",
+                        sequence_number=-1,
+                        output_index=current_output_index,
+                        content_index=current_content_index,
+                        text=final_content,
+                        logprobs=[],
+                        item_id=current_item_id,
+                    )
+                )
+                current_content_index += 1
+                part = ResponseOutputText(
+                    text=final_content,
+                    type="output_text",
+                    annotations=[],
+                )
+                yield _increment_sequence_number_and_return(
+                    ResponseContentPartDoneEvent(
+                        type="response.content_part.done",
+                        sequence_number=-1,
+                        item_id=current_item_id,
+                        output_index=current_output_index,
+                        content_index=current_content_index,
+                        part=part,
+                    )
+                )
+                current_content_index += 1
+                item = ResponseOutputMessage(
+                    type="message",
+                    role="assistant",
+                    content=[
+                        part,
+                    ],
+                    status="completed",
+                    id=current_item_id,
+                    summary=[],
+                )
+                yield _increment_sequence_number_and_return(
+                    ResponseOutputItemDoneEvent(
+                        type="response.output_item.done",
+                        sequence_number=-1,
+                        output_index=current_output_index,
+                        item=item,
+                    )
+                )
+
+    async def _process_harmony_streaming_events(
+        self,
+        request: ResponsesRequest,
+        sampling_params: SamplingParams,
+        result_generator: AsyncIterator[ConversationContext | None],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+        created_time: int,
+        _increment_sequence_number_and_return: Callable[
+            [StreamingResponsesResponse], StreamingResponsesResponse
+        ],
+    ) -> AsyncGenerator[StreamingResponsesResponse, None]:
+        current_content_index = -1
+        current_output_index = 0
+        current_item_id: str = ""
+        sent_output_item_added = False
+        is_first_function_call_delta = False
+        async for ctx in result_generator:
+            assert isinstance(ctx, StreamingHarmonyContext)
+
+            if ctx.is_expecting_start():
+                current_output_index += 1
+                sent_output_item_added = False
+                is_first_function_call_delta = False
+                if len(ctx.parser.messages) > 0:
+                    previous_item = ctx.parser.messages[-1]
+                    if previous_item.recipient is not None:
+                        # Deal with tool call
+                        if previous_item.recipient.startswith("functions."):
+                            function_name = previous_item.recipient[len("functions.") :]
+                            yield _increment_sequence_number_and_return(
+                                ResponseFunctionCallArgumentsDoneEvent(
+                                    type="response.function_call_arguments.done",
+                                    arguments=previous_item.content[0].text,
+                                    name=function_name,
+                                    item_id=current_item_id,
+                                    output_index=current_output_index,
+                                    sequence_number=-1,
+                                )
+                            )
+                            function_call_item = ResponseFunctionToolCall(
+                                type="function_call",
+                                arguments=previous_item.content[0].text,
+                                name=function_name,
+                                item_id=current_item_id,
+                                output_index=current_output_index,
+                                sequence_number=-1,
+                                call_id=f"fc_{random_uuid()}",
+                                status="completed",
+                            )
+                            yield _increment_sequence_number_and_return(
+                                ResponseOutputItemDoneEvent(
+                                    type="response.output_item.done",
+                                    sequence_number=-1,
+                                    output_index=current_output_index,
+                                    item=function_call_item,
+                                )
+                            )
+                    elif previous_item.channel == "analysis":
+                        content = ResponseReasoningTextContent(
+                            text=previous_item.content[0].text,
+                            type="reasoning_text",
+                        )
+                        reasoning_item = ResponseReasoningItem(
+                            type="reasoning",
+                            content=[content],
+                            status="completed",
+                            id=current_item_id,
+                            summary=[],
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseReasoningTextDoneEvent(
+                                type="response.reasoning_text.done",
+                                item_id=current_item_id,
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                text=previous_item.content[0].text,
+                            )
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseReasoningPartDoneEvent(
+                                type="response.reasoning_part.done",
+                                sequence_number=-1,
+                                item_id=current_item_id,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                part=content,
+                            )
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemDoneEvent(
+                                type="response.output_item.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=reasoning_item,
+                            )
+                        )
+                    elif previous_item.channel == "final":
+                        text_content = ResponseOutputText(
+                            type="output_text",
+                            text=previous_item.content[0].text,
+                            annotations=[],
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseTextDoneEvent(
+                                type="response.output_text.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                text=previous_item.content[0].text,
+                                logprobs=[],
+                                item_id=current_item_id,
+                            )
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseContentPartDoneEvent(
+                                type="response.content_part.done",
+                                sequence_number=-1,
+                                item_id=current_item_id,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                part=text_content,
+                            )
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemDoneEvent(
+                                type="response.output_item.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseOutputMessage(
+                                    id=current_item_id,
+                                    type="message",
+                                    role="assistant",
+                                    content=[text_content],
+                                    status="completed",
+                                ),
+                            )
+                        )
+
+            # stream the output of a harmony message
+            if ctx.parser.last_content_delta:
+                if (
+                    ctx.parser.current_channel == "final"
+                    and ctx.parser.current_recipient is None
+                ):
+                    if not sent_output_item_added:
+                        sent_output_item_added = True
+                        current_item_id = f"msg_{random_uuid()}"
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseOutputMessage(
+                                    id=current_item_id,
+                                    type="message",
+                                    role="assistant",
+                                    content=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                        current_content_index += 1
+                        yield _increment_sequence_number_and_return(
+                            ResponseContentPartAddedEvent(
+                                type="response.content_part.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item_id=current_item_id,
+                                content_index=current_content_index,
+                                part=ResponseOutputText(
+                                    type="output_text",
+                                    text="",
+                                    annotations=[],
+                                    logprobs=[],
+                                ),
+                            )
+                        )
+                    yield _increment_sequence_number_and_return(
+                        ResponseTextDeltaEvent(
+                            type="response.output_text.delta",
+                            sequence_number=-1,
+                            content_index=current_content_index,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            delta=ctx.parser.last_content_delta,
+                            # TODO, use logprobs from ctx.last_request_output
+                            logprobs=[],
+                        )
+                    )
+                elif (
+                    ctx.parser.current_channel == "analysis"
+                    and ctx.parser.current_recipient is None
+                ):
+                    if not sent_output_item_added:
+                        sent_output_item_added = True
+                        current_item_id = f"msg_{random_uuid()}"
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseReasoningItem(
+                                    type="reasoning",
+                                    id=current_item_id,
+                                    summary=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                        current_content_index += 1
+                        yield _increment_sequence_number_and_return(
+                            ResponseReasoningPartAddedEvent(
+                                type="response.reasoning_part.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item_id=current_item_id,
+                                content_index=current_content_index,
+                                part=ResponseReasoningTextContent(
+                                    text="",
+                                    type="reasoning_text",
+                                ),
+                            )
+                        )
+                    yield _increment_sequence_number_and_return(
+                        ResponseReasoningTextDeltaEvent(
+                            type="response.reasoning_text.delta",
+                            item_id=current_item_id,
+                            output_index=current_output_index,
+                            content_index=current_content_index,
+                            delta=ctx.parser.last_content_delta,
+                            sequence_number=-1,
+                        )
+                    )
+                # built-in tools will be triggered on the analysis channel
+                # However, occasionally built-in tools will
+                # still be output to commentary.
+                elif (
+                    ctx.parser.current_channel == "commentary"
+                    or ctx.parser.current_channel == "analysis"
+                ) and ctx.parser.current_recipient == "python":
+                    if not sent_output_item_added:
+                        sent_output_item_added = True
+                        current_item_id = f"tool_{random_uuid()}"
+                        yield _increment_sequence_number_and_return(
+                            ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=ResponseCodeInterpreterToolCallParam(
+                                    type="code_interpreter_call",
+                                    id=current_item_id,
+                                    code=None,
+                                    container_id="auto",
+                                    outputs=None,
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                        yield _increment_sequence_number_and_return(
+                            ResponseCodeInterpreterCallInProgressEvent(
+                                type="response.code_interpreter_call.in_progress",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item_id=current_item_id,
+                            )
+                        )
+                    yield _increment_sequence_number_and_return(
+                        ResponseCodeInterpreterCallCodeDeltaEvent(
+                            type="response.code_interpreter_call_code.delta",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            delta=ctx.parser.last_content_delta,
+                        )
+                    )
+
+            # stream tool call outputs
+            if ctx.is_assistant_action_turn() and len(ctx.parser.messages) > 0:
+                previous_item = ctx.parser.messages[-1]
+                if (
+                    self.tool_server is not None
+                    and self.tool_server.has_tool("browser")
+                    and previous_item.recipient is not None
+                    and previous_item.recipient.startswith("browser.")
+                ):
+                    function_name = previous_item.recipient[len("browser.") :]
+                    action = None
+                    parsed_args = json.loads(previous_item.content[0].text)
+                    if function_name == "search":
+                        action = response_function_web_search.ActionSearch(
+                            type="search",
+                            query=parsed_args["query"],
+                        )
+                    elif function_name == "open":
+                        action = response_function_web_search.ActionOpenPage(
+                            type="open_page",
+                            # TODO: translate to url
+                            url=f"cursor:{parsed_args.get('cursor', '')}",
+                        )
+                    elif function_name == "find":
+                        action = response_function_web_search.ActionFind(
+                            type="find",
+                            pattern=parsed_args["pattern"],
+                            # TODO: translate to url
+                            url=f"cursor:{parsed_args.get('cursor', '')}",
+                        )
+                    else:
+                        raise ValueError(f"Unknown function name: {function_name}")
+
+                    current_item_id = f"tool_{random_uuid()}"
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemAddedEvent(
+                            type="response.output_item.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=response_function_web_search.ResponseFunctionWebSearch(
+                                # TODO: generate a unique id for web search call
+                                type="web_search_call",
+                                id=current_item_id,
+                                action=action,
+                                status="in_progress",
+                            ),
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseWebSearchCallInProgressEvent(
+                            type="response.web_search_call.in_progress",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseWebSearchCallSearchingEvent(
+                            type="response.web_search_call.searching",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+
+                    # enqueue
+                    yield _increment_sequence_number_and_return(
+                        ResponseWebSearchCallCompletedEvent(
+                            type="response.web_search_call.completed",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemDoneEvent(
+                            type="response.output_item.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=ResponseFunctionWebSearch(
+                                type="web_search_call",
+                                id=current_item_id,
+                                action=action,
+                                status="completed",
+                            ),
+                        )
+                    )
+
+                if (
+                    self.tool_server is not None
+                    and self.tool_server.has_tool("python")
+                    and previous_item.recipient is not None
+                    and previous_item.recipient.startswith("python")
+                ):
+                    yield _increment_sequence_number_and_return(
+                        ResponseCodeInterpreterCallCodeDoneEvent(
+                            type="response.code_interpreter_call_code.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            code=previous_item.content[0].text,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseCodeInterpreterCallInterpretingEvent(
+                            type="response.code_interpreter_call.interpreting",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseCodeInterpreterCallCompletedEvent(
+                            type="response.code_interpreter_call.completed",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemDoneEvent(
+                            type="response.output_item.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=ResponseCodeInterpreterToolCallParam(
+                                type="code_interpreter_call",
+                                id=current_item_id,
+                                code=previous_item.content[0].text,
+                                container_id="auto",
+                                # TODO: add outputs here
+                                outputs=[],
+                                status="completed",
+                            ),
+                        )
+                    )
+            # developer tools will be triggered on the commentary channel
+            # and recipient starts with "functions.TOOL_NAME"
+            if (
+                ctx.parser.current_channel == "commentary"
+                and ctx.parser.current_recipient
+                and ctx.parser.current_recipient.startswith("functions.")
+            ):
+                if is_first_function_call_delta is False:
+                    is_first_function_call_delta = True
+                    fc_name = ctx.parser.current_recipient[len("functions.") :]
+                    tool_call_item = ResponseFunctionToolCall(
+                        name=fc_name,
+                        type="function_call",
+                        id=current_item_id,
+                        call_id=f"call_{random_uuid()}",
+                        arguments="",
+                        status="in_progress",
+                    )
+                    current_item_id = f"fc_{random_uuid()}"
+                    yield _increment_sequence_number_and_return(
+                        ResponseOutputItemAddedEvent(
+                            type="response.output_item.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=tool_call_item,
+                        )
+                    )
+                else:
+                    yield _increment_sequence_number_and_return(
+                        ResponseFunctionCallArgumentsDeltaEvent(
+                            item_id=current_item_id,
+                            delta=ctx.parser.last_content_delta,
+                            output_index=current_output_index,
+                            sequence_number=-1,
+                            type="response.function_call_arguments.delta",
+                        )
+                    )
+
+    async def responses_stream_generator(
+        self,
+        request: ResponsesRequest,
+        sampling_params: SamplingParams,
+        result_generator: AsyncIterator[ConversationContext | None],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: AnyTokenizer,
+        request_metadata: RequestResponseMetadata,
+        created_time: int | None = None,
+    ) -> AsyncGenerator[StreamingResponsesResponse, None]:
+        # TODO:
+        # 1. Handle disconnect
+
+        created_time = created_time or int(time.time())
+
+        sequence_number = 0
+
+        def _increment_sequence_number_and_return(
+            event: StreamingResponsesResponse,
+        ) -> StreamingResponsesResponse:
+            nonlocal sequence_number
+            # Set sequence_number if the event has this attribute
+            if hasattr(event, "sequence_number"):
+                event.sequence_number = sequence_number
+            sequence_number += 1
+            return event
+
+        async with AsyncExitStack() as exit_stack:
+            processer = None
+            if self.use_harmony:
+                # TODO: in streaming, we noticed this bug:
+                # https://github.com/vllm-project/vllm/issues/25697
+                await self._initialize_tool_sessions(request, context, exit_stack)
+                processer = self._process_harmony_streaming_events
+            else:
+                processer = self._process_simple_streaming_events
+            # TODO Hanchen make sampling params to include the structural tag
+
+            initial_response = ResponsesResponse.from_request(
+                request,
+                sampling_params,
+                model_name=model_name,
+                created_time=created_time,
+                output=[],
+                status="in_progress",
+                usage=None,
+            ).model_dump()
+            yield _increment_sequence_number_and_return(
+                ResponseCreatedEvent(
+                    type="response.created",
+                    sequence_number=-1,
+                    response=initial_response,
+                )
+            )
+            yield _increment_sequence_number_and_return(
+                ResponseInProgressEvent(
+                    type="response.in_progress",
+                    sequence_number=-1,
+                    response=initial_response,
+                )
+            )
+
+            async for event_data in processer(
+                request,
+                sampling_params,
+                result_generator,
+                context,
+                model_name,
+                tokenizer,
+                request_metadata,
+                created_time,
+                _increment_sequence_number_and_return,
+            ):
+                yield event_data
+
+            async def empty_async_generator():
+                # A hack to trick Python to think this is a generator but
+                # in fact it immediately returns.
+                if False:
+                    yield
+
+            final_response = await self.responses_full_generator(
+                request,
+                sampling_params,
+                empty_async_generator(),
+                context,
+                model_name,
+                tokenizer,
+                request_metadata,
+                created_time=created_time,
+            )
+            yield _increment_sequence_number_and_return(
+                ResponseCompletedEvent(
+                    type="response.completed",
+                    sequence_number=-1,
+                    response=final_response,
+                )
+            )
diff --git a/entrypoints/openai/serving_score.py b/entrypoints/openai/serving_score.py
new file mode 100644
index 0000000..9cbfc97
--- /dev/null
+++ b/entrypoints/openai/serving_score.py
@@ -0,0 +1,503 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import time
+from collections.abc import AsyncGenerator, Mapping
+from typing import Any
+
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ErrorResponse,
+    RerankDocument,
+    RerankRequest,
+    RerankResponse,
+    RerankResult,
+    RerankUsage,
+    ScoreRequest,
+    ScoreResponse,
+    ScoreResponseData,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.score_utils import (
+    ScoreContentPartParam,
+    ScoreMultiModalParam,
+    _cosine_similarity,
+    _validate_score_input_lens,
+    compress_token_type_ids,
+    get_score_prompt,
+)
+from vllm.entrypoints.utils import _validate_truncation_size
+from vllm.inputs.data import TokensPrompt
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.outputs import PoolingRequestOutput, ScoringRequestOutput
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.utils.async_utils import make_async, merge_async_iterators
+
+logger = init_logger(__name__)
+
+
+class ServingScores(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            log_error_stack=log_error_stack,
+        )
+
+    async def _embedding_score(
+        self,
+        tokenizer: AnyTokenizer,
+        texts_1: list[str],
+        texts_2: list[str],
+        request: RerankRequest | ScoreRequest,
+        request_id: str,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        lora_request: LoRARequest | None | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+    ) -> list[PoolingRequestOutput] | ErrorResponse:
+        input_texts = texts_1 + texts_2
+
+        engine_prompts: list[TokensPrompt] = []
+        tokenize_async = make_async(
+            tokenizer.__call__, executor=self._tokenizer_executor
+        )
+
+        tokenization_kwargs = tokenization_kwargs or {}
+        tokenized_prompts = await asyncio.gather(
+            *(tokenize_async(t, **tokenization_kwargs) for t in input_texts)
+        )
+
+        for tok_result, input_text in zip(tokenized_prompts, input_texts):
+            text_token_prompt = self._validate_input(
+                request, tok_result["input_ids"], input_text
+            )
+
+            engine_prompts.append(
+                TokensPrompt(prompt_token_ids=text_token_prompt["prompt_token_ids"])
+            )
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[PoolingRequestOutput, None]] = []
+        pooling_params = request.to_pooling_params()
+
+        try:
+            pooling_params.verify("embed", self.model_config)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        for i, engine_prompt in enumerate(engine_prompts):
+            request_id_item = f"{request_id}-{i}"
+
+            self._log_inputs(
+                request_id_item,
+                input_texts[i],
+                params=pooling_params,
+                lora_request=lora_request,
+            )
+
+            generators.append(
+                self.engine_client.encode(
+                    engine_prompt,
+                    pooling_params,
+                    request_id_item,
+                    lora_request=lora_request,
+                    trace_headers=trace_headers,
+                    priority=request.priority,
+                )
+            )
+
+        result_generator = merge_async_iterators(*generators)
+
+        # Non-streaming response
+        final_res_batch: list[PoolingRequestOutput] = []
+
+        embeddings: list[PoolingRequestOutput | None] = [None] * len(engine_prompts)
+
+        async for i, res in result_generator:
+            embeddings[i] = res
+
+        emb_texts_1: list[PoolingRequestOutput] = []
+        emb_texts_2: list[PoolingRequestOutput] = []
+
+        for i in range(0, len(texts_1)):
+            assert (emb := embeddings[i]) is not None
+            emb_texts_1.append(emb)
+
+        for i in range(len(texts_1), len(embeddings)):
+            assert (emb := embeddings[i]) is not None
+            emb_texts_2.append(emb)
+
+        if len(emb_texts_1) == 1:
+            emb_texts_1 = emb_texts_1 * len(emb_texts_2)
+
+        final_res_batch = _cosine_similarity(
+            tokenizer=tokenizer, embed_1=emb_texts_1, embed_2=emb_texts_2
+        )
+
+        return final_res_batch
+
+    def _preprocess_score(
+        self,
+        request: RerankRequest | ScoreRequest,
+        tokenizer: AnyTokenizer,
+        tokenization_kwargs: dict[str, Any],
+        data_1: str | ScoreContentPartParam,
+        data_2: str | ScoreContentPartParam,
+    ) -> tuple[str, TokensPrompt]:
+        model_config = self.model_config
+
+        full_prompt, engine_prompt = get_score_prompt(
+            model_config=model_config,
+            data_1=data_1,
+            data_2=data_2,
+            tokenizer=tokenizer,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+        self._validate_input(request, engine_prompt["prompt_token_ids"], full_prompt)
+        if request.mm_processor_kwargs is not None:
+            engine_prompt["mm_processor_kwargs"] = request.mm_processor_kwargs
+
+        return full_prompt, engine_prompt
+
+    async def _cross_encoding_score(
+        self,
+        tokenizer: AnyTokenizer,
+        data_1: list[str] | list[ScoreContentPartParam],
+        data_2: list[str] | list[ScoreContentPartParam],
+        request: RerankRequest | ScoreRequest,
+        request_id: str,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        lora_request: LoRARequest | None | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+    ) -> list[PoolingRequestOutput] | ErrorResponse:
+        request_prompts: list[str] = []
+        engine_prompts: list[TokensPrompt] = []
+
+        if len(data_1) == 1:
+            data_1 = data_1 * len(data_2)
+
+        if isinstance(tokenizer, MistralTokenizer):
+            raise ValueError("MistralTokenizer not supported for cross-encoding")
+
+        tokenization_kwargs = tokenization_kwargs or {}
+
+        input_pairs = [(t1, t2) for t1, t2 in zip(data_1, data_2)]
+
+        preprocess_async = make_async(
+            self._preprocess_score, executor=self._tokenizer_executor
+        )
+
+        preprocessed_prompts = await asyncio.gather(
+            *(
+                preprocess_async(
+                    request=request,
+                    tokenizer=tokenizer,
+                    tokenization_kwargs=tokenization_kwargs,
+                    data_1=t1,
+                    data_2=t2,
+                )
+                for t1, t2 in input_pairs
+            )
+        )
+
+        for full_prompt, engine_prompt in preprocessed_prompts:
+            request_prompts.append(full_prompt)
+            engine_prompts.append(engine_prompt)
+
+        # Schedule the request and get the result generator.
+        generators: list[AsyncGenerator[PoolingRequestOutput, None]] = []
+
+        default_pooling_params = request.to_pooling_params()
+
+        try:
+            default_pooling_params.verify("score", self.model_config)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        for i, engine_prompt in enumerate(engine_prompts):
+            request_id_item = f"{request_id}-{i}"
+
+            self._log_inputs(
+                request_id_item,
+                request_prompts[i],
+                params=default_pooling_params,
+                lora_request=lora_request,
+            )
+
+            if token_type_ids := engine_prompt.pop("token_type_ids", None):
+                pooling_params = default_pooling_params.clone()
+                compressed = compress_token_type_ids(token_type_ids)
+                pooling_params.extra_kwargs = {"compressed_token_type_ids": compressed}
+            else:
+                pooling_params = default_pooling_params
+
+            generator = self.engine_client.encode(
+                engine_prompt,
+                pooling_params,
+                request_id_item,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+                priority=request.priority,
+            )
+
+            generators.append(generator)
+
+        result_generator = merge_async_iterators(*generators)
+
+        # Non-streaming response
+        final_res_batch: list[PoolingRequestOutput | None] = [None] * len(
+            engine_prompts
+        )
+
+        async for i, res in result_generator:
+            final_res_batch[i] = res
+
+        return [out for out in final_res_batch if out is not None]
+
+    async def _run_scoring(
+        self,
+        data_1: list[str] | str | ScoreMultiModalParam,
+        data_2: list[str] | str | ScoreMultiModalParam,
+        request: ScoreRequest | RerankRequest,
+        request_id: str,
+        raw_request: Request | None = None,
+    ) -> list[PoolingRequestOutput] | ErrorResponse:
+        lora_request = self._maybe_get_adapters(request)
+
+        tokenizer = await self.engine_client.get_tokenizer()
+
+        truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens", None)
+
+        tokenization_kwargs: dict[str, Any] = {}
+        _validate_truncation_size(
+            self.max_model_len, truncate_prompt_tokens, tokenization_kwargs
+        )
+
+        trace_headers = (
+            None
+            if raw_request is None
+            else await self._get_trace_headers(raw_request.headers)
+        )
+
+        if not self.model_config.is_multimodal_model and (
+            isinstance(data_1, dict) or isinstance(data_2, dict)
+        ):
+            raise ValueError(
+                f"MultiModalParam is not supported for {self.model_config.architecture}"  # noqa: E501
+            )
+
+        if isinstance(data_1, str):
+            data_1 = [data_1]
+        elif isinstance(data_1, dict):
+            data_1 = data_1.get("content")  # type: ignore[assignment]
+
+        if isinstance(data_2, str):
+            data_2 = [data_2]
+        elif isinstance(data_2, dict):
+            data_2 = data_2.get("content")  # type: ignore[assignment]
+
+        _validate_score_input_lens(data_1, data_2)  # type: ignore[arg-type]
+
+        if self.model_config.is_cross_encoder:
+            return await self._cross_encoding_score(
+                tokenizer=tokenizer,
+                data_1=data_1,  # type: ignore[arg-type]
+                data_2=data_2,  # type: ignore[arg-type]
+                request=request,
+                request_id=request_id,
+                tokenization_kwargs=tokenization_kwargs,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+            )
+
+        else:
+            return await self._embedding_score(
+                tokenizer=tokenizer,
+                texts_1=data_1,  # type: ignore[arg-type]
+                texts_2=data_2,  # type: ignore[arg-type]
+                request=request,
+                request_id=request_id,
+                tokenization_kwargs=tokenization_kwargs,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+            )
+
+    async def create_score(
+        self,
+        request: ScoreRequest,
+        raw_request: Request | None = None,
+    ) -> ScoreResponse | ErrorResponse:
+        """
+        Score API similar to Sentence Transformers cross encoder
+
+        See https://sbert.net/docs/package_reference/cross_encoder
+        """
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        request_id = f"score-{self._base_request_id(raw_request)}"
+        created_time = int(time.time())
+
+        try:
+            final_res_batch = await self._run_scoring(
+                request.text_1,
+                request.text_2,
+                request,
+                request_id,
+                raw_request,
+            )
+            if isinstance(final_res_batch, ErrorResponse):
+                return final_res_batch
+
+            return self.request_output_to_score_response(
+                final_res_batch,
+                request_id,
+                created_time,
+                self.models.model_name(),
+            )
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    async def do_rerank(
+        self, request: RerankRequest, raw_request: Request | None = None
+    ) -> RerankResponse | ErrorResponse:
+        """
+        Rerank API based on JinaAI's rerank API; implements the same
+        API interface. Designed for compatibility with off-the-shelf
+        tooling, since this is a common standard for reranking APIs
+
+        See example client implementations at
+        https://github.com/infiniflow/ragflow/blob/main/rag/llm/rerank_model.py
+        numerous clients use this standard.
+        """
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        request_id = f"rerank-{self._base_request_id(raw_request)}"
+        documents = request.documents
+        top_n = (
+            request.top_n
+            if request.top_n > 0
+            else (
+                len(documents)
+                if isinstance(documents, list)
+                else len(documents["content"])
+            )
+        )
+
+        try:
+            final_res_batch = await self._run_scoring(
+                request.query,
+                documents,
+                request,
+                request_id,
+                raw_request,
+            )
+            if isinstance(final_res_batch, ErrorResponse):
+                return final_res_batch
+
+            return self.request_output_to_rerank_response(
+                final_res_batch,
+                request_id,
+                self.models.model_name(),
+                documents,
+                top_n,
+            )
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    def request_output_to_score_response(
+        self,
+        final_res_batch: list[PoolingRequestOutput],
+        request_id: str,
+        created_time: int,
+        model_name: str,
+    ) -> ScoreResponse:
+        items: list[ScoreResponseData] = []
+        num_prompt_tokens = 0
+
+        for idx, final_res in enumerate(final_res_batch):
+            classify_res = ScoringRequestOutput.from_base(final_res)
+
+            item = ScoreResponseData(
+                index=idx,
+                score=classify_res.outputs.score,
+            )
+            prompt_token_ids = final_res.prompt_token_ids
+
+            items.append(item)
+            num_prompt_tokens += len(prompt_token_ids)
+
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            total_tokens=num_prompt_tokens,
+        )
+
+        return ScoreResponse(
+            id=request_id,
+            created=created_time,
+            model=model_name,
+            data=items,
+            usage=usage,
+        )
+
+    def request_output_to_rerank_response(
+        self,
+        final_res_batch: list[PoolingRequestOutput],
+        request_id: str,
+        model_name: str,
+        documents: list[str] | ScoreMultiModalParam,
+        top_n: int,
+    ) -> RerankResponse:
+        """
+        Convert the output of do_rank to a RerankResponse
+        """
+        results: list[RerankResult] = []
+        num_prompt_tokens = 0
+        for idx, final_res in enumerate(final_res_batch):
+            classify_res = ScoringRequestOutput.from_base(final_res)
+
+            result = RerankResult(
+                index=idx,
+                document=RerankDocument(text=documents[idx])
+                if isinstance(documents, list)
+                else RerankDocument(multi_modal=documents["content"][idx]),
+                relevance_score=classify_res.outputs.score,
+            )
+            results.append(result)
+            prompt_token_ids = final_res.prompt_token_ids
+            num_prompt_tokens += len(prompt_token_ids)
+
+        # sort by relevance, then return the top n if set
+        results.sort(key=lambda x: x.relevance_score, reverse=True)
+        if top_n < len(documents):
+            results = results[:top_n]
+
+        return RerankResponse(
+            id=request_id,
+            model=model_name,
+            results=results,
+            usage=RerankUsage(total_tokens=num_prompt_tokens),
+        )
diff --git a/entrypoints/openai/serving_tokenization.py b/entrypoints/openai/serving_tokenization.py
new file mode 100644
index 0000000..39aae0c
--- /dev/null
+++ b/entrypoints/openai/serving_tokenization.py
@@ -0,0 +1,203 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from typing import Any, Final
+
+import jinja2
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    DetokenizeRequest,
+    DetokenizeResponse,
+    ErrorResponse,
+    TokenizeChatRequest,
+    TokenizeRequest,
+    TokenizeResponse,
+    TokenizerInfoResponse,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.renderer import RenderConfig
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingTokenization(OpenAIServing):
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        chat_template: str | None,
+        chat_template_content_format: ChatTemplateContentFormatOption,
+        trust_request_chat_template: bool = False,
+        log_error_stack: bool = False,
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            log_error_stack=log_error_stack,
+        )
+
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+
+    async def create_tokenize(
+        self,
+        request: TokenizeRequest,
+        raw_request: Request,
+    ) -> TokenizeResponse | ErrorResponse:
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        request_id = f"tokn-{self._base_request_id(raw_request)}"
+
+        try:
+            lora_request = self._maybe_get_adapters(request)
+
+            tokenizer = await self.engine_client.get_tokenizer()
+            renderer = self._get_renderer(tokenizer)
+
+            if isinstance(request, TokenizeChatRequest):
+                tool_dicts = (
+                    None
+                    if request.tools is None
+                    else [tool.model_dump() for tool in request.tools]
+                )
+                error_check_ret = self._validate_chat_template(
+                    request_chat_template=request.chat_template,
+                    chat_template_kwargs=request.chat_template_kwargs,
+                    trust_request_chat_template=self.trust_request_chat_template,
+                )
+                if error_check_ret is not None:
+                    return error_check_ret
+                (
+                    _,
+                    _,
+                    engine_prompts,
+                ) = await self._preprocess_chat(
+                    request,
+                    tokenizer,
+                    request.messages,
+                    tool_dicts=tool_dicts,
+                    chat_template=request.chat_template or self.chat_template,
+                    chat_template_content_format=self.chat_template_content_format,
+                    add_generation_prompt=request.add_generation_prompt,
+                    continue_final_message=request.continue_final_message,
+                    chat_template_kwargs=request.chat_template_kwargs,
+                    add_special_tokens=request.add_special_tokens,
+                )
+            else:
+                engine_prompts = await renderer.render_prompt(
+                    prompt_or_prompts=request.prompt,
+                    config=self._build_render_config(request),
+                )
+        except (ValueError, TypeError, jinja2.TemplateError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(f"{e} {e.__cause__}")
+
+        input_ids: list[int] = []
+        for engine_prompt in engine_prompts:
+            self._log_inputs(
+                request_id, engine_prompt, params=None, lora_request=lora_request
+            )
+
+            if isinstance(engine_prompt, dict) and "prompt_token_ids" in engine_prompt:
+                input_ids.extend(engine_prompt["prompt_token_ids"])
+
+        token_strs = None
+        if request.return_token_strs:
+            token_strs = tokenizer.convert_ids_to_tokens(input_ids)
+
+        return TokenizeResponse(
+            tokens=input_ids,
+            token_strs=token_strs,
+            count=len(input_ids),
+            max_model_len=self.max_model_len,
+        )
+
+    async def create_detokenize(
+        self,
+        request: DetokenizeRequest,
+        raw_request: Request,
+    ) -> DetokenizeResponse | ErrorResponse:
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        request_id = f"tokn-{self._base_request_id(raw_request)}"
+
+        lora_request = self._maybe_get_adapters(request)
+
+        tokenizer = await self.engine_client.get_tokenizer()
+
+        self._log_inputs(
+            request_id, request.tokens, params=None, lora_request=lora_request
+        )
+
+        prompt_input = await self._tokenize_prompt_input_async(
+            request,
+            tokenizer,
+            request.tokens,
+        )
+        input_text = prompt_input["prompt"]
+
+        return DetokenizeResponse(prompt=input_text)
+
+    async def get_tokenizer_info(
+        self,
+    ) -> TokenizerInfoResponse | ErrorResponse:
+        """Get comprehensive tokenizer information."""
+        try:
+            tokenizer = await self.engine_client.get_tokenizer()
+            info = TokenizerInfo(tokenizer, self.chat_template).to_dict()
+            return TokenizerInfoResponse(**info)
+        except Exception as e:
+            return self.create_error_response(f"Failed to get tokenizer info: {str(e)}")
+
+    def _build_render_config(self, request: TokenizeRequest) -> RenderConfig:
+        return RenderConfig(add_special_tokens=request.add_special_tokens)
+
+
+@dataclass
+class TokenizerInfo:
+    tokenizer: AnyTokenizer
+    chat_template: str | None
+
+    def to_dict(self) -> dict[str, Any]:
+        """Return the tokenizer configuration."""
+        return self._get_tokenizer_config()
+
+    def _get_tokenizer_config(self) -> dict[str, Any]:
+        """Get tokenizer configuration directly from the tokenizer object."""
+        config = dict(getattr(self.tokenizer, "init_kwargs", None) or {})
+
+        # Remove file path fields
+        config.pop("vocab_file", None)
+        config.pop("merges_file", None)
+
+        config = self._make_json_serializable(config)
+        config["tokenizer_class"] = type(self.tokenizer).__name__
+        if self.chat_template:
+            config["chat_template"] = self.chat_template
+        return config
+
+    def _make_json_serializable(self, obj):
+        """Convert any non-JSON-serializable objects to serializable format."""
+        if hasattr(obj, "content"):
+            return obj.content
+        elif isinstance(obj, dict):
+            return {k: self._make_json_serializable(v) for k, v in obj.items()}
+        elif isinstance(obj, list):
+            return [self._make_json_serializable(item) for item in obj]
+        else:
+            return obj
diff --git a/entrypoints/openai/serving_tokens.py b/entrypoints/openai/serving_tokens.py
new file mode 100644
index 0000000..69a526b
--- /dev/null
+++ b/entrypoints/openai/serving_tokens.py
@@ -0,0 +1,269 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import time
+from collections.abc import AsyncGenerator
+from collections.abc import Sequence as GenericSequence
+
+from fastapi import Request
+
+# yapf: disable
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionLogProb,
+    ChatCompletionLogProbs,
+    ChatCompletionLogProbsContent,
+    ErrorResponse,
+    GenerateRequest,
+    GenerateResponse,
+    GenerateResponseChoice,
+    PromptTokenUsageInfo,
+    RequestResponseMetadata,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing, clamp_prompt_logprobs
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob
+from vllm.outputs import RequestOutput
+from vllm.sampling_params import SamplingParams
+from vllm.utils.collection_utils import as_list
+
+logger = init_logger(__name__)
+
+
+class ServingTokens(OpenAIServing):
+    """Provides Tokens IN <> Tokens OUT functionality to vLLM API."""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        force_no_detokenize: bool = False,
+        return_tokens_as_token_ids: bool = False,
+        log_error_stack: bool = False,
+        enable_prompt_tokens_details: bool = False,
+        enable_log_outputs: bool = False,
+    ):
+        super().__init__(engine_client=engine_client,
+                         models=models,
+                         request_logger=request_logger,
+                         return_tokens_as_token_ids=return_tokens_as_token_ids,
+                         log_error_stack=log_error_stack)
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.enable_log_outputs = enable_log_outputs
+        self.force_no_detokenize = force_no_detokenize
+        if force_no_detokenize:
+            logger.info("Tokens-only mode is enabled, skipping detokenization "
+            "step for incoming requests.")
+
+    async def serve_tokens(
+        self,
+        request: GenerateRequest,
+        raw_request: Request | None = None
+    ) -> GenerateResponse | ErrorResponse:
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            logger.error("Error with model %s", error_check_ret)
+            return error_check_ret
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        lora_request = None
+        lora_request = self._maybe_get_adapters(request,
+            supports_default_mm_loras=True)
+
+        model_name = self.models.model_name(lora_request)
+
+        request_id = "generate-tokens-" \
+                     f"{self._base_request_id(raw_request, request.request_id)}"
+
+        request_metadata = RequestResponseMetadata(request_id=request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        # TODO(NickLucche): Change to EngineCoreRequest once Renderer work is
+        # completed
+        engine_prompt = EngineTokensPrompt(prompt_token_ids=request.token_ids)
+        if request.features is not None:
+            engine_prompt["multi_modal_data"] = None
+
+        if hasattr(request, "cache_salt") and request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
+        # Schedule the request and get the result generator.
+        result_generator: AsyncGenerator[RequestOutput, None] | None = None
+        try:
+            sampling_params = request.sampling_params
+            if self.force_no_detokenize:
+                sampling_params.detokenize = False
+
+            self._log_inputs(request_id,
+                             request.token_ids,
+                             params=sampling_params,
+                             lora_request=lora_request)
+
+            trace_headers = (None if raw_request is None else await
+                             self._get_trace_headers(raw_request.headers))
+
+            result_generator = self.engine_client.generate(
+                engine_prompt,
+                sampling_params,
+                request_id,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+                priority=request.priority,
+            )
+
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        # TODO(NickLucche): Implement streaming response
+
+        try:
+            assert result_generator is not None
+            return await self.serve_tokens_full_generator(
+                request, result_generator, request_id, model_name,
+                request_metadata)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+    async def serve_tokens_full_generator(
+        self,
+        request: GenerateRequest,
+        result_generator: AsyncGenerator[RequestOutput, None],
+        request_id: str,
+        model_name: str,
+        request_metadata: RequestResponseMetadata,
+    ) -> ErrorResponse | GenerateResponse:
+
+        created_time = int(time.time())
+        final_res: RequestOutput | None = None
+        sampling_params: SamplingParams = request.sampling_params
+
+        try:
+            async for res in result_generator:
+                final_res = res
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        assert final_res is not None
+
+        choices: list[GenerateResponseChoice] = []
+        num_generated_tokens = 0
+        for output in final_res.outputs:
+            token_ids = output.token_ids
+            out_logprobs = output.logprobs
+
+            # This is top_logprobs in completions API
+            if sampling_params.logprobs:
+                assert out_logprobs is not None, "Did not output logprobs"
+                logprobs = self._create_tokens_logprobs(
+                    token_ids=token_ids,
+                    top_logprobs=out_logprobs,
+                    num_output_top_logprobs=sampling_params.logprobs,
+                )
+            else:
+                logprobs = None
+
+            choice_data = GenerateResponseChoice(
+                index=output.index,
+                logprobs=logprobs,
+                finish_reason=output.finish_reason
+                if output.finish_reason else "stop",
+                token_ids=as_list(output.token_ids))
+
+            choices.append(choice_data)
+            num_generated_tokens += len(output.token_ids)
+
+        assert final_res.prompt_token_ids is not None
+        num_prompt_tokens = len(final_res.prompt_token_ids)
+        if final_res.encoder_prompt_token_ids is not None:
+            num_prompt_tokens += len(final_res.encoder_prompt_token_ids)
+
+        usage = UsageInfo(prompt_tokens=num_prompt_tokens,
+                          completion_tokens=num_generated_tokens,
+                          total_tokens=num_prompt_tokens +
+                          num_generated_tokens)
+        if self.enable_prompt_tokens_details and final_res.num_cached_tokens:
+            # This info is not available at the /coordinator level
+            usage.prompt_tokens_details = PromptTokenUsageInfo(
+                cached_tokens=final_res.num_cached_tokens)
+
+        request_metadata.final_usage_info = usage
+
+        response = GenerateResponse(
+            id=request_id,
+            created=created_time,
+            model=model_name,
+            choices=choices,
+            usage=usage,
+            prompt_logprobs=clamp_prompt_logprobs(final_res.prompt_logprobs),
+            kv_transfer_params=final_res.kv_transfer_params,
+        )
+
+        # Log complete response if output logging is enabled
+        if self.enable_log_outputs and self.request_logger:
+            for choice in choices:
+                # Get the corresponding output token IDs
+                output_token_ids = None
+                if choice.index < len(final_res.outputs):
+                    output_token_ids = final_res.outputs[
+                        choice.index].token_ids
+
+                if output_token_ids:
+                    # Log token_ids only.
+                    self.request_logger.log_outputs(
+                        request_id=request_id,
+                        outputs="", 
+                        output_token_ids=output_token_ids,
+                        finish_reason=choice.finish_reason,
+                        is_streaming=False,
+                        delta=False,
+                    )
+
+        return response
+
+    def _create_tokens_logprobs(
+        self,
+        token_ids: GenericSequence[int],
+        top_logprobs: GenericSequence[dict[int, Logprob] | None],
+        num_output_top_logprobs: int | None = None,
+    ) -> ChatCompletionLogProbs:
+        """Create OpenAI-style logprobs."""
+        logprobs_content: list[ChatCompletionLogProbsContent] = []
+
+        for i, token_id in enumerate(token_ids):
+            token = f"token_id:{token_id}"
+            step_top_logprobs = top_logprobs[i]
+            if step_top_logprobs is None or step_top_logprobs.get(
+                    token_id) is None:
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(token=token, ))
+            else:
+                step_token = step_top_logprobs[token_id]
+
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(
+                        token=token,
+                        logprob=max(step_token.logprob, -9999.0),
+                        top_logprobs=[
+                            ChatCompletionLogProb(
+                                token=token,
+                                logprob=max(p[1].logprob, -9999.0),
+                            ) for i, p in enumerate(step_top_logprobs.items())
+                            if num_output_top_logprobs
+                            and i < num_output_top_logprobs
+                        ]))
+
+        return ChatCompletionLogProbs(content=logprobs_content)
diff --git a/entrypoints/openai/serving_transcription.py b/entrypoints/openai/serving_transcription.py
new file mode 100644
index 0000000..33da703
--- /dev/null
+++ b/entrypoints/openai/serving_transcription.py
@@ -0,0 +1,148 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import AsyncGenerator
+
+from fastapi import Request
+
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ErrorResponse,
+    RequestResponseMetadata,
+    TranscriptionRequest,
+    TranscriptionResponse,
+    TranscriptionResponseStreamChoice,
+    TranscriptionStreamResponse,
+    TranslationRequest,
+    TranslationResponse,
+    TranslationResponseStreamChoice,
+    TranslationStreamResponse,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.openai.speech_to_text import OpenAISpeechToText
+from vllm.logger import init_logger
+from vllm.outputs import RequestOutput
+
+logger = init_logger(__name__)
+
+
+class OpenAIServingTranscription(OpenAISpeechToText):
+    """Handles transcription requests."""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        return_tokens_as_token_ids: bool = False,
+        log_error_stack: bool = False,
+        enable_force_include_usage: bool = False,
+    ):
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            task_type="transcribe",
+            log_error_stack=log_error_stack,
+            enable_force_include_usage=enable_force_include_usage,
+        )
+
+    async def create_transcription(
+        self, audio_data: bytes, request: TranscriptionRequest, raw_request: Request
+    ) -> TranscriptionResponse | AsyncGenerator[str, None] | ErrorResponse:
+        """Transcription API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/audio/createTranscription
+        for the API specification. This API mimics the OpenAI transcription API.
+        """
+        return await self._create_speech_to_text(
+            audio_data=audio_data,
+            request=request,
+            raw_request=raw_request,
+            response_class=TranscriptionResponse,
+            stream_generator_method=self.transcription_stream_generator,
+        )
+
+    async def transcription_stream_generator(
+        self,
+        request: TranscriptionRequest,
+        result_generator: list[AsyncGenerator[RequestOutput, None]],
+        request_id: str,
+        request_metadata: RequestResponseMetadata,
+        audio_duration_s: float,
+    ) -> AsyncGenerator[str, None]:
+        generator = self._speech_to_text_stream_generator(
+            request=request,
+            list_result_generator=result_generator,
+            request_id=request_id,
+            request_metadata=request_metadata,
+            audio_duration_s=audio_duration_s,
+            chunk_object_type="transcription.chunk",
+            response_stream_choice_class=TranscriptionResponseStreamChoice,
+            stream_response_class=TranscriptionStreamResponse,
+        )
+        async for chunk in generator:
+            yield chunk
+
+
+class OpenAIServingTranslation(OpenAISpeechToText):
+    """Handles translation requests."""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        return_tokens_as_token_ids: bool = False,
+        log_error_stack: bool = False,
+        enable_force_include_usage: bool = False,
+    ):
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            task_type="translate",
+            log_error_stack=log_error_stack,
+            enable_force_include_usage=enable_force_include_usage,
+        )
+
+    async def create_translation(
+        self, audio_data: bytes, request: TranslationRequest, raw_request: Request
+    ) -> TranslationResponse | AsyncGenerator[str, None] | ErrorResponse:
+        """Translation API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/audio/createTranslation
+        for the API specification. This API mimics the OpenAI translation API.
+        """
+        return await self._create_speech_to_text(
+            audio_data=audio_data,
+            request=request,
+            raw_request=raw_request,
+            response_class=TranslationResponse,
+            stream_generator_method=self.translation_stream_generator,
+        )
+
+    async def translation_stream_generator(
+        self,
+        request: TranslationRequest,
+        result_generator: list[AsyncGenerator[RequestOutput, None]],
+        request_id: str,
+        request_metadata: RequestResponseMetadata,
+        audio_duration_s: float,
+    ) -> AsyncGenerator[str, None]:
+        generator = self._speech_to_text_stream_generator(
+            request=request,
+            list_result_generator=result_generator,
+            request_id=request_id,
+            request_metadata=request_metadata,
+            audio_duration_s=audio_duration_s,
+            chunk_object_type="translation.chunk",
+            response_stream_choice_class=TranslationResponseStreamChoice,
+            stream_response_class=TranslationStreamResponse,
+        )
+        async for chunk in generator:
+            yield chunk
diff --git a/entrypoints/openai/speech_to_text.py b/entrypoints/openai/speech_to_text.py
new file mode 100644
index 0000000..b9b9b1a
--- /dev/null
+++ b/entrypoints/openai/speech_to_text.py
@@ -0,0 +1,405 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import io
+import math
+import time
+from collections.abc import AsyncGenerator, Callable
+from functools import cached_property
+from typing import Literal, TypeAlias, TypeVar, cast
+
+import numpy as np
+from fastapi import Request
+
+import vllm.envs as envs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    DeltaMessage,
+    ErrorResponse,
+    RequestResponseMetadata,
+    TranscriptionResponse,
+    TranscriptionResponseStreamChoice,
+    TranscriptionStreamResponse,
+    TranslationResponse,
+    TranslationResponseStreamChoice,
+    TranslationStreamResponse,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing, SpeechToTextRequest
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.model_executor.models import SupportsTranscription
+from vllm.outputs import RequestOutput
+from vllm.utils.import_utils import PlaceholderModule
+
+try:
+    import librosa
+except ImportError:
+    librosa = PlaceholderModule("librosa")  # type: ignore[assignment]
+
+SpeechToTextResponse: TypeAlias = TranscriptionResponse | TranslationResponse
+T = TypeVar("T", bound=SpeechToTextResponse)
+
+logger = init_logger(__name__)
+
+
+class OpenAISpeechToText(OpenAIServing):
+    """Base class for speech-to-text operations like transcription and
+    translation."""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        return_tokens_as_token_ids: bool = False,
+        task_type: Literal["transcribe", "translate"] = "transcribe",
+        log_error_stack: bool = False,
+        enable_force_include_usage: bool = False,
+    ):
+        super().__init__(
+            engine_client=engine_client,
+            models=models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=return_tokens_as_token_ids,
+            log_error_stack=log_error_stack,
+        )
+
+        self.default_sampling_params = self.model_config.get_diff_sampling_param()
+        self.task_type = task_type
+
+        self.asr_config = self.model_cls.get_speech_to_text_config(
+            self.model_config, task_type
+        )
+
+        self.enable_force_include_usage = enable_force_include_usage
+
+        self.max_audio_filesize_mb = envs.VLLM_MAX_AUDIO_CLIP_FILESIZE_MB
+
+        if self.default_sampling_params:
+            logger.info(
+                "Overwriting default completion sampling param with: %s",
+                self.default_sampling_params,
+            )
+
+    @cached_property
+    def model_cls(self) -> type[SupportsTranscription]:
+        from vllm.model_executor.model_loader import get_model_cls
+
+        model_cls = get_model_cls(self.model_config)
+        return cast(type[SupportsTranscription], model_cls)
+
+    async def _preprocess_speech_to_text(
+        self,
+        request: SpeechToTextRequest,
+        audio_data: bytes,
+    ) -> tuple[list[PromptType], float]:
+        # Validate request
+        language = self.model_cls.validate_language(request.language)
+        # Skip to_language validation to avoid extra logging for Whisper.
+        to_language = (
+            self.model_cls.validate_language(request.to_language)
+            if request.to_language
+            else None
+        )
+
+        if len(audio_data) / 1024**2 > self.max_audio_filesize_mb:
+            raise ValueError("Maximum file size exceeded.")
+
+        with io.BytesIO(audio_data) as bytes_:
+            # NOTE resample to model SR here for efficiency. This is also a
+            # pre-requisite for chunking, as it assumes Whisper SR.
+            y, sr = librosa.load(bytes_, sr=self.asr_config.sample_rate)
+
+        duration = librosa.get_duration(y=y, sr=sr)
+        do_split_audio = (
+            self.asr_config.allow_audio_chunking
+            and duration > self.asr_config.max_audio_clip_s
+        )
+        chunks = [y] if not do_split_audio else self._split_audio(y, int(sr))
+        prompts = []
+        for chunk in chunks:
+            # The model has control over the construction, as long as it
+            # returns a valid PromptType.
+            prompt = self.model_cls.get_generation_prompt(
+                audio=chunk,
+                stt_config=self.asr_config,
+                model_config=self.model_config,
+                language=language,
+                task_type=self.task_type,
+                request_prompt=request.prompt,
+                to_language=to_language,
+            )
+            prompts.append(prompt)
+        return prompts, duration
+
+    async def _create_speech_to_text(
+        self,
+        audio_data: bytes,
+        request: SpeechToTextRequest,
+        raw_request: Request,
+        response_class: type[T],
+        stream_generator_method: Callable[..., AsyncGenerator[str, None]],
+    ) -> T | AsyncGenerator[str, None] | ErrorResponse:
+        """Base method for speech-to-text operations like transcription and
+        translation."""
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            return error_check_ret
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        if request.response_format not in ["text", "json"]:
+            return self.create_error_response(
+                "Currently only support response_format `text` or `json`"
+            )
+
+        request_id = f"{self.task_type}-{self._base_request_id(raw_request)}"
+
+        request_metadata = RequestResponseMetadata(request_id=request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        try:
+            lora_request = self._maybe_get_adapters(request)
+
+            prompts, duration_s = await self._preprocess_speech_to_text(
+                request=request,
+                audio_data=audio_data,
+            )
+
+        except ValueError as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+        list_result_generator: list[AsyncGenerator[RequestOutput, None]] | None = None
+        try:
+            # Unlike most decoder-only models, whisper generation length is not
+            # constrained by the size of the input audio, which is mapped to a
+            # fixed-size log-mel-spectogram.
+            default_max_tokens = self.model_config.max_model_len
+            sampling_params = request.to_sampling_params(
+                default_max_tokens, self.default_sampling_params
+            )
+
+            self._log_inputs(
+                request_id,
+                # It will not display special tokens like <|startoftranscript|>
+                request.prompt,
+                params=sampling_params,
+                lora_request=lora_request,
+            )
+
+            list_result_generator = [
+                self.engine_client.generate(
+                    prompt,
+                    sampling_params,
+                    request_id,
+                    lora_request=lora_request,
+                )
+                for prompt in prompts
+            ]
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+        if request.stream:
+            return stream_generator_method(
+                request, list_result_generator, request_id, request_metadata, duration_s
+            )
+        # Non-streaming response.
+        try:
+            assert list_result_generator is not None
+            text = ""
+            for result_generator in list_result_generator:
+                async for op in result_generator:
+                    text += op.outputs[0].text
+
+            if self.task_type == "transcribe":
+                # add usage in TranscriptionResponse.
+                usage = {
+                    "type": "duration",
+                    # rounded up as per openAI specs
+                    "seconds": int(math.ceil(duration_s)),
+                }
+                final_response = cast(T, response_class(text=text, usage=usage))
+            else:
+                # no usage in response for translation task
+                final_response = cast(T, response_class(text=text))  # type: ignore[call-arg]
+
+            return final_response
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    async def _speech_to_text_stream_generator(
+        self,
+        request: SpeechToTextRequest,
+        list_result_generator: list[AsyncGenerator[RequestOutput, None]],
+        request_id: str,
+        request_metadata: RequestResponseMetadata,
+        audio_duration_s: float,
+        chunk_object_type: Literal["translation.chunk", "transcription.chunk"],
+        response_stream_choice_class: type[TranscriptionResponseStreamChoice]
+        | type[TranslationResponseStreamChoice],
+        stream_response_class: type[TranscriptionStreamResponse]
+        | type[TranslationStreamResponse],
+    ) -> AsyncGenerator[str, None]:
+        created_time = int(time.time())
+        model_name = request.model
+
+        completion_tokens = 0
+        num_prompt_tokens = 0
+
+        include_usage = self.enable_force_include_usage or request.stream_include_usage
+        include_continuous_usage = (
+            request.stream_continuous_usage_stats
+            if include_usage and request.stream_continuous_usage_stats
+            else False
+        )
+
+        try:
+            for result_generator in list_result_generator:
+                async for res in result_generator:
+                    # On first result.
+                    if res.prompt_token_ids is not None:
+                        num_prompt_tokens = len(res.prompt_token_ids)
+                        if audio_tokens := self.model_cls.get_num_audio_tokens(
+                            audio_duration_s, self.asr_config, self.model_config
+                        ):
+                            num_prompt_tokens += audio_tokens
+
+                    # We need to do it here, because if there are exceptions in
+                    # the result_generator, it needs to be sent as the FIRST
+                    # response (by the try...catch).
+
+                    # Just one output (n=1) supported.
+                    assert len(res.outputs) == 1
+                    output = res.outputs[0]
+
+                    delta_message = DeltaMessage(content=output.text)
+                    completion_tokens += len(output.token_ids)
+
+                    if output.finish_reason is None:
+                        # Still generating, send delta update.
+                        choice_data = response_stream_choice_class(delta=delta_message)
+                    else:
+                        # Model is finished generating.
+                        choice_data = response_stream_choice_class(
+                            delta=delta_message,
+                            finish_reason=output.finish_reason,
+                            stop_reason=output.stop_reason,
+                        )
+
+                    chunk = stream_response_class(
+                        id=request_id,
+                        object=chunk_object_type,
+                        created=created_time,
+                        choices=[choice_data],
+                        model=model_name,
+                    )
+
+                    # handle usage stats if requested & if continuous
+                    if include_continuous_usage:
+                        chunk.usage = UsageInfo(
+                            prompt_tokens=num_prompt_tokens,
+                            completion_tokens=completion_tokens,
+                            total_tokens=num_prompt_tokens + completion_tokens,
+                        )
+
+                    data = chunk.model_dump_json(exclude_unset=True)
+                    yield f"data: {data}\n\n"
+
+            # Once the final token is handled, if stream_options.include_usage
+            # is sent, send the usage.
+            if include_usage:
+                final_usage = UsageInfo(
+                    prompt_tokens=num_prompt_tokens,
+                    completion_tokens=completion_tokens,
+                    total_tokens=num_prompt_tokens + completion_tokens,
+                )
+
+                final_usage_chunk = stream_response_class(
+                    id=request_id,
+                    object=chunk_object_type,
+                    created=created_time,
+                    choices=[],
+                    model=model_name,
+                    usage=final_usage,
+                )
+                final_usage_data = final_usage_chunk.model_dump_json(
+                    exclude_unset=True, exclude_none=True
+                )
+                yield f"data: {final_usage_data}\n\n"
+
+            # report to FastAPI middleware aggregate usage across all choices
+            request_metadata.final_usage_info = UsageInfo(
+                prompt_tokens=num_prompt_tokens,
+                completion_tokens=completion_tokens,
+                total_tokens=num_prompt_tokens + completion_tokens,
+            )
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            logger.exception("Error in %s stream generator.", self.task_type)
+            data = self.create_streaming_error_response(str(e))
+            yield f"data: {data}\n\n"
+        # Send the final done message after all response.n are finished
+        yield "data: [DONE]\n\n"
+
+    def _split_audio(
+        self, audio_data: np.ndarray, sample_rate: int
+    ) -> list[np.ndarray]:
+        chunk_size = sample_rate * self.asr_config.max_audio_clip_s
+        overlap_size = sample_rate * self.asr_config.overlap_chunk_second
+        chunks = []
+        i = 0
+        while i < audio_data.shape[-1]:
+            if i + chunk_size >= audio_data.shape[-1]:
+                # handle last chunk
+                chunks.append(audio_data[..., i:])
+                break
+
+            # Find the best split point in the overlap region
+            search_start = i + chunk_size - overlap_size
+            search_end = min(i + chunk_size, audio_data.shape[-1])
+            split_point = self._find_split_point(audio_data, search_start, search_end)
+
+            # Extract chunk up to the split point
+            chunks.append(audio_data[..., i:split_point])
+            i = split_point
+        return chunks
+
+    def _find_split_point(self, wav: np.ndarray, start_idx: int, end_idx: int) -> int:
+        """Find the best point to split audio by
+        looking for silence or low amplitude.
+        Args:
+            wav: Audio tensor [1, T]
+            start_idx: Start index of search region
+            end_idx: End index of search region
+        Returns:
+            Index of best splitting point
+        """
+        segment = wav[start_idx:end_idx]
+
+        # Calculate RMS energy in small windows
+        min_energy = math.inf
+        quietest_idx = 0
+        min_energy_window = self.asr_config.min_energy_split_window_size
+        assert min_energy_window is not None
+        for i in range(0, len(segment) - min_energy_window, min_energy_window):
+            window = segment[i : i + min_energy_window]
+            energy = (window**2).mean() ** 0.5
+            if energy < min_energy:
+                quietest_idx = i + start_idx
+                min_energy = energy
+        return quietest_idx
diff --git a/entrypoints/openai/tool_parsers/__init__.py b/entrypoints/openai/tool_parsers/__init__.py
new file mode 100644
index 0000000..89e439d
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/__init__.py
@@ -0,0 +1,142 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+    ToolParserManager,
+)
+
+__all__ = ["ToolParser", "ToolParserManager"]
+
+
+"""
+Register a lazy module mapping.
+
+Example:
+    ToolParserManager.register_lazy_module(
+        name="kimi_k2",
+        module_path="vllm.entrypoints.openai.tool_parsers.kimi_k2_parser",
+        class_name="KimiK2ToolParser",
+    )
+"""
+
+
+_TOOL_PARSERS_TO_REGISTER = {
+    "deepseek_v3": (  # name
+        "deepseekv3_tool_parser",  # filename
+        "DeepSeekV3ToolParser",  # class_name
+    ),
+    "deepseek_v31": (
+        "deepseekv31_tool_parser",
+        "DeepSeekV31ToolParser",
+    ),
+    "ernie45": (
+        "ernie45_tool_parser",
+        "Ernie45ToolParser",
+    ),
+    "glm45": (
+        "glm4_moe_tool_parser",
+        "Glm4MoeModelToolParser",
+    ),
+    "granite-20b-fc": (
+        "granite_20b_fc_tool_parser",
+        "Granite20bFCToolParser",
+    ),
+    "granite": (
+        "granite_tool_parser",
+        "GraniteToolParser",
+    ),
+    "hermes": (
+        "hermes_tool_parser",
+        "Hermes2ProToolParser",
+    ),
+    "hunyuan_a13b": (
+        "hunyuan_a13b_tool_parser",
+        "HunyuanA13BToolParser",
+    ),
+    "internlm": (
+        "internlm2_tool_parser",
+        "Internlm2ToolParser",
+    ),
+    "jamba": (
+        "jamba_tool_parser",
+        "JambaToolParser",
+    ),
+    "kimi_k2": (
+        "kimi_k2_tool_parser",
+        "KimiK2ToolParser",
+    ),
+    "llama3_json": (
+        "llama_tool_parser",
+        "Llama3JsonToolParser",
+    ),
+    "llama4_json": (
+        "llama_tool_parser",
+        "Llama3JsonToolParser",
+    ),
+    "llama4_pythonic": (
+        "llama4_pythonic_tool_parser",
+        "Llama4PythonicToolParser",
+    ),
+    "longcat": (
+        "longcat_tool_parser",
+        "LongcatFlashToolParser",
+    ),
+    "minimax_m2": (
+        "minimax_m2_tool_parser",
+        "MinimaxM2ToolParser",
+    ),
+    "minimax": (
+        "minimax_tool_parser",
+        "MinimaxToolParser",
+    ),
+    "mistral": (
+        "mistral_tool_parser",
+        "MistralToolParser",
+    ),
+    "olmo3": (
+        "olmo3_tool_parser",
+        "Olmo3PythonicToolParser",
+    ),
+    "openai": (
+        "openai_tool_parser",
+        "OpenAIToolParser",
+    ),
+    "phi4_mini_json": (
+        "phi4mini_tool_parser",
+        "Phi4MiniJsonToolParser",
+    ),
+    "pythonic": (
+        "pythonic_tool_parser",
+        "PythonicToolParser",
+    ),
+    "qwen3_coder": (
+        "qwen3coder_tool_parser",
+        "Qwen3CoderToolParser",
+    ),
+    "qwen3_xml": (
+        "qwen3xml_tool_parser",
+        "Qwen3XMLToolParser",
+    ),
+    "seed_oss": (
+        "seed_oss_tool_parser",
+        "SeedOssToolParser",
+    ),
+    "step3": (
+        "step3_tool_parser",
+        "Step3ToolParser",
+    ),
+    "xlam": (
+        "xlam_tool_parser",
+        "xLAMToolParser",
+    ),
+}
+
+
+def register_lazy_tool_parsers():
+    for name, (file_name, class_name) in _TOOL_PARSERS_TO_REGISTER.items():
+        module_path = f"vllm.entrypoints.openai.tool_parsers.{file_name}"
+        ToolParserManager.register_lazy_module(name, module_path, class_name)
+
+
+register_lazy_tool_parsers()
diff --git a/entrypoints/openai/tool_parsers/__pycache__/__init__.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c4c1ffbc3dfc51bd54f3386c3e57060319b045bd
GIT binary patch
literal 2762
zcma)7O>7%Q6rNps*Bje$;-5H9(n4vQg44!s?4VM9DkW)}UpFC+5K3At8_(9+WOr?L
zHzf|K)B}e|ATAt=1RRk-y>LQ3aNy1*Ih0nb-Z*h{+XE6O-ptzZPT;^ud3o=f?|bv+
z&3N{=?(Q&xp$9+Leu*OV2MO8(Vme;_4F4V=j4-DogInVaevRi4=5e6PuLZi0hHwxI
zUvXH(A+Qqe0vpB=uu<F%Himn^_To6$1WtlY;Xbfw+z&Q`2fz;EA+V>YJ&j)h|5bbj
z>}&We*mL+i*kODDzmDI)Sv-O-;!AiG=Wzbp@b}zW5MTZbtqD9*g@>)OIn)@-7XBnr
zmUqLewVJ-HShi}p@s3|oOr@$?RsdL55R4nas#>>Ibz8n$1YNov-Yv=wq>$@gj?{Ia
zm4Ws_v6Ib>w%H&a19g8phLDl>b>w3{eMq%TO&xy|q{)`c$l}x9yiX!jb%P30#F34f
z$|%w^fR<`%sfJa(BioBrEydIvb+mAKWAsi1794CLG9dDu%84u<8>Vhdb+WjjmWI^Z
zmOH*K#b-R7Pa<xrmZ939NO&HzP->RW7M87=PZQnTF&jIIDJx^e4NzwMF{AIB^_UZ5
z#YtZRNi!Yjr*43_uk9BYWpb`XDfo24mSSuuAc|9m5%kQHIUhN+tr?oUT>yHr<uZca
z1(;v(r;q5mVkkv<%dVMZ5gIa@)FNff1HreFryHj_w}-06<$A-}teF})%ApewlQKh7
zjxV?9zO*5|W>zbTLpIQI8D)CWo4=te_NGr4HZ)T+lwH{%drx;FMx88qtdhS2p%$4e
z+15G!3)B*IR`Zy)V<|e5K3>u&$S~tI-KeoY-2Np3{d@P2H&LsrrlK)vdzS#4m}9c0
z>YLg)sg_};mjNZ^vWEqEQ|+T+_=*3lA^q_us#&bSuhnAMsrLy!MR2wj%HK8EW+W*4
z!_p$lg=Y=RHQQz~$Ke&jOSa8W<F=#L*~ayh3B<5^cj0z2$zr>U6D1!f?7|7tb8!WF
z7Ov<u*^QAV%Cw8*`nyuQNp6I0Nv1t;ySxB4=t}MKU4d5T2Fdaj^1!!;2o8D5U+#f<
zfSfjtwg`G+v_BNr(e3jH-Qp3t=UMI^kGXyB8}uE2FW?Am*%rxuV(g>+z&`)5m7POh
zTnM5Dd~a^<4d2yuBd3~<)u`9t$+2_Z#&b^RdfT~d&>fIhmzEag<%yN@^hy~5d1ZQL
zuDm+E;tKFU8@BgdN?B?ZItkZ8SN0n4&f^_j1$od^4At$rqv@(l-Eakdp0?*lJQ{qo
zoK2g2-p;`Ido}ME^?Y5ck2;D~Rh`k@ohw)0+P<RZb!{W>okO0KpZArY_sY-v%g@U)
z+;>NobM=Nh$QJ15S+`*61NgJAfw_;KWhb9xXOFV8zh~!<q~U|$QEd32@%6~l%zKZt
zN9%{_xr4|vY2b;JJCbrgI6tlbI`UX5Jr~f(0{0R!pqp9Iz52fztZb0mS8@Ee)c3Uy
z$+DvBvTUtFR$Atd$huAZbug~<uGhe8mI5IMfA*JPn*omF{*nS5-wdN@=5XNBVR-a@
zs3~@F!DhzbPV-NL@g@qS#Abj*z!H)W_leC2jT1<SLEI}glQbSgLKNbd*c_tqStRs9
z+%GoI(Rk#Tf04!oBy_`kkJv2I`0eBT@6dRXLqZP_;$m}(qsTlUttA#bWCf5`5oHfq
z10(?|D0|&QHabYfL$&}(11BRkw>`w_<gq<u4-m5bq}cq_Lnis-wWfHl9-i!8B3qWo
sJ|wbPi4-i6^`$`KIHZ(r@kN>T@(>NY_$UzIZgS6~h#Pv0PSNxF2kfnoQvd(}

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/abstract_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/abstract_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2c5639b88c195b355d192f7f38c5379a919b21cf
GIT binary patch
literal 11487
zcmb7KTW}lKdEUj1xRC(CJ4H$>QX&P31a-4z$&npdl%tD9+aet|a8h`QT~eTMVRo02
zh(L+raVJ#UX{l*aQIlqZbTm_W<Og-eGu2Z^ZqiPs?E?@pLu4yY)QKOOr^2G0r0GNZ
z{bw%#DN1#BfU{@M`Okm;J?Fol{g=i@KZh&r`jgZzcXHgX=)t;NW@W8{$_-B9BtFf>
zjXNLb@$5)DGS0X&<BGd@YImmH8Bg59>aKJ{#vAvtx;yR5_~ZUeARfpB<H1a0yfM=h
zZ(@C(bSM*!hgrQL-JFTUBdqRCw`5x5t*q`#w`JPn?X2!kcVs%_ova>6cV)Wc-8|>u
z<cPfG4sTE#?{RQn;-uiaoYZ*7VYc<MwkEWN?6$4*d^G%P0vL-rbnkI7ofaq4vhE$1
zzdk2tlX8^TLrF1tUX~KGN^VwGw0Si3os-qsTvnA|&M6sDn~*PSr^jC%8wXrQJf6!=
zrKY29z3upUQ9GW?%%){6mCK$Zl&Yo&N9D98o|RQqoR;;T6PGnbOlq<;k;|otfK%Bi
zh808fur-ltjgD9?G^sfiuXj(&T4F}cWfLl+Au*-oG6@YBRgfD<Wm8%rotvJP6+Cu~
zYsy?wn^R=z)j4f;PE%hK6){7Q!DHF^iQEM_o60j#e@acHQ>vE8O`$iO%FN~z%|JdY
zYUh*2(i&y6`LI?*<pw8n#36Bq#K)bILv~F$B<H)XxLfu}F1bPW%DyQ_7a-B@e%E!!
z931yc9ytJrz?4gB0DMsL%3iarampk4(AFgR(H6izh<~FTl6{0pYO-q~yJlbuOW}M2
z<_b&A7~eb}jz)ApEjZp>m6iOWU%+*2Qe}G~)Ov(uT2xg*!%hn7`P^Ju60$i>n3RP%
zRh9%PrN~JwJs%TZQ*swmk}NSqCaa`mRS>h1kdd|XIZ3q;Sc6kp1}w=+>LPHlnPfG_
z8g-v$Z9~#zV75Y3cjCWx8pRE6nk#S#)<K2D<H-~OJUQ@Wk7bZFl3fLYw8Wd6=c3NB
zU;huTm%+A?Sw+6ccqfqrJ0?U$feg$kik#Jq=9HwjuWQJP89AY%UvI|>%6O76Y+6l#
zli3hGl*vhQ8g+}e9J))D(^E<-=uwGELHPaKBU)y5WHvQBtYNgQ4PTx+bojXohvboT
zYI0<D9;=ugxtLC8Mlh8!KbuQsHFX41nH5tb#O#S#ww>yTXzrvzuhANto!7mI1e1kC
zzNNOuF{^QqXxWY8Dp!f^U2v^<w>{i3K=+=?&_25NSN0uX_lMhdEx3N}?O6jfr+X9`
z;*?F=YmY{Ir=G>b4eZklfo`~F>>a6fSfVh_y~jf<DO=E``$)hq=91!MlvjGtqS9P~
z(o3Cg){zg_y%KBLOK>C^SGlT}3%9O@`pcpI)zEM`G`t)dDS1bfZ8W|?F;vq!PJ_4@
zoHmM?KtI13{i>tDk8_&+7J#z33ggXd^Re&qmKwg|C^){I)o4a`6?n~S)h!rB&;oXw
zSt;-dkJVNHB{M<msdi7;Sl8hXTM#z>nAT#qnHAvoTWwm0RfAkXl}Rqi{l4dp+i1ny
z#K;@2giQ~vQnVp|hRHUmnsH6kQb|)Y80v*76fGx+(#)Kyp-mRdeG$OGkSR@8Ozl7z
zV6Os<=ac7isidsC=|R=oj5Y{vDm$G}Ogp6q>Wo8PuxyB6SQ@$sG)^Fa$G8co0T&6i
z?lJ6%?$YLGWj!FtYEntfk~u?{rlgWuv{BiG_g3g#6_OwwMkAF~H4)}hq19KKs5Js`
z)9NI0hS||wM3q8otkC9S78o^!_Eh&6q(z;K+ZDJboZeRV5_J}ixDN|r$U>8`e0Xza
zZS!3dww8~r?;^QWzlXw*j*dUS^2b*yE!_)a4}>F?&TXrmd&-@A?jHKPqknt!Q>SCQ
zzvS(O6a}}J0z(f%T}y*2{m-q04nG(kT^@dUv0){=yXxT%oa7f9R>Ql?;oU3Y5fkjd
zO6cH&ZTptD9awDmZt%gt$x7GW%9g#Au7Qg1Qf14wPXnI8$YR5d;Pv22xW5|a!W|1u
zhGYf}wP~zZ(iSriO?CROb)vYzX}0Q-_&a9(9X{$1hw$(;t}~4qY!ZxnTFyYT!WI!j
z&{n`P0Xx)qLlwxeu<?mP(r|BNfe|`9EoWs#Bn-qH*=fU=5xc%Y=9186bJ=0TNDyX=
zK~>?>d0CN#OR{iYyeKp72PrVG24)+uHups_#hf)5W8jqq*dNItmW@uPQ$SE7z?8U2
zIVnQYgp@W2gA6H@)9}P<VEGp<FQATb%%w1_3CV~GDpk`HkhAqmxBWd{ZyC#Jr)sNt
zLQ!&x#mI-SU5uO6b!;1Xe2RSUQz<wHL@FtrtK6rpT&S-SJiF#}g#1;`;qx2Z(@2&)
zm77x&Bv*RSw%PRLhdtIrqlcM%1CR`KA|<JMvkh%Gh0GyV!&uT*)1c$?a^%H&jyz>5
ziglXs|H+d!OAv3u;Sy3=n=LK=dY<tfZ9Moai`~mgr0D878%;JQn?Ym3No+K<G6aNS
zHuRcBuEkAYC#I~yuO?Rs!!|O~<mO@m6V_K9ky2Ar>X0xwrwL+O%`t{e)%<=zoP@}O
zRCt|WG#it(pXqtfgV$h=jl_IRlYby&yHpwTAv$6D7My1f&!75Syq&P${>faf9LA1E
zy@qoB0_w_9Dqf)CMJm2X#W5;Kb*scEqz33R6m`$z9ABF_KloJMuK~VI$W1BeV^Z+u
z1}T8253i4Ts0rPlNI+4|rR79I4<-^{pA*w&PeURh<&uen5&}kLD-~qhb(aJir#rDE
zx)biEvV(e<RU`YM_^5cE3i5jtdQIgxiuX7sg6vflax7ROprZaOig&qB94@!F8f<V!
zi$iN1Zq*3qX{$P%?!AlJ((z);(#h-Je8k~#&1rR1{oU@4(!ldoj_zN4V~y_B=Ynp3
zrDt2!N%!3^vin2d&NVllt354l|HF>%svCFMC)66K=H=Qtt3Imvx!#?{@tbF>0eT8@
zJv)lWZyv2S(o+-H-B;|t*;@_KQ<#ekR-367;r#7OuClM^(-u4$FG}y2#NWQi=+m|K
zmyq{bIQRyll(;j+#a%K&K?($oAdpJgCpn0h(CcTt0YG@HFwul?5`-K?i0F~r_IQ`%
zsS6?-H|a+(X?fQ1COPQie4NxO`78_wDLn`pJv0l2ijtR=0XZzWCGQkM&3E1Q_+}G-
zBWP$MIv7N#Zia|41LkNWN}qtaHoGyK{XTMwMb|WM)r@suVXRjQ*HP07YTVWg2&WO^
z+LX4TFJe;Yl3MC|+ULE|cD=bKXJ^GM5)w-OADO;5P9c_<hE|(K{IAS2{aFL9nLPNh
z&^0kX8#O*ROBn)a%u6|DxYZ-3_8AsV5O!f#Dud`S1-l!ya5D_T#gr(#ZOkSsrj)*I
z4}L|=&p!=5jsA6m^q^K35b8k&V1|dv9&EBApja32ki3%-TU$aw5zpo^+eJ<ZZQfJh
ziF?M4k#^*bCiB9`W{jkHHe3bUX+tzc+J#++=lSm=j{kx44rGWfxOC3^FU(aD;K#$u
zlHo3i=Gwr8k_0$ec-s_=gteS#tlK)4XfQX7^zo@FW`B&u5mM^oqlfGnVdpNT(rGe>
zMluMfDaB#r$b?*0m`W*#Uc_W_om+KIOsO!9XXJV24GF0!<~>d2=CV?q^VLXX8fHxq
z2J^weI;f~i8N(7NucFYKk<JpOMBT3HUJE%QBWE(LvRyV)3x>%FQ4n3n7WwV9RWZ3g
zwgKcFOs0Mr1%iYK7Yr{RSZ(Pq;}__!w6q)b;%K=gS_(!V20|OVca>Xq-ELiOiIsw}
zkDJ<;dW%|d>h>$8j>F4MM@rr!On0thLfU-BgndkHK8?}73KqNKxZ?EH1>l>8-wum?
zuDEK<Rd5xYR`7ept&t&PSHZ2>L9f-XHfxP`zY{FU7aWW+T^8nd_<|d>T1wvn#=XFk
z!Y;VSxqeQw!|olhu~$4=!~&dYvud@w<b()13Z6S;T5<8*JDlXY;`yfM5`T%i?EDIM
ziI2MTd*EtA=P)+37#;#)iU6?*c+_C-Sl$KaP{?m3E~h-6ST7gq+@v8I`TZ{=w!kR(
zeFm2kws}0(G3QQokOf1+PW1@>W6^-YnLc9#GFEz{Q8o3F-T>YbH8>Iokgd6xTcG<U
z5M49DU@WftPFzmPW|VEDZFQe)HANegajXVoZ#`hTGn9?h{fvC(>*!8&=zin16Oaa-
zmsR2|5_nvOWAZv0^8Jqs!DGVp7XVb>Ljf`HaQy?Tef!IO`|lns_dQqkZd(W}#;cC7
zFY+L=Wi=8lN20g)EJvPQIR2nZD7F-5mb>;XoPN;KyEOCu?v<8j9<*<(bZlQt7k3oD
zQOuMMyk2TO2dAwgg3zTo0{jDe7mlw6d&<F{rHOK|uhP<63ikf)L8$W)*MLca5u>vb
z9<791E8#7baPy}=cViRWm&V9{S3>~$y-IQMcaKGm4RRk2`d(^sez>>mC7<&jd~Vdo
zbdRxa_WH48hZ}KZQcjxehVdLnxd<kXvrHUoVK#D9wuZOGq(ifHyTsRtnyuZx&;7s_
zMu?2#Y7m*D`XGu;N@88hb`>0&oky}}Qd|YcG=IgF-Kvql%C1e}oCOD<0(ErN*^+{5
zl>6Fg%;qjQ)k92xZ2`5gavZEy6r#OJPr*(04q{BsAG-=}s0CNSvspF_?_NJQS=UW*
zlDhcQS6tk@1H!%Q9P>ZmIII&@#^{hu)0IF1K0jjYsF0!L8O)O<VM1=IPRNazYZ{_I
zmLD=kFnOsB)082Bjy&Fi*YmX@GNxm>tQ^aClg<#+$ZkvP3@bu3i2heVwBhH+sWwc-
zC>49DI7J1$tYN_@bXQKGutYgY4H6YH3Z1e(6r&JR8fHvykS~KKS$a%{^)OOh<f7S5
zQ@(E#f!+W^qOATs3M3DZZ|YtexV3vFGz|HzM2`Jr$Nh^x9=gA^6n+h2+0q2Dglr-8
z)lmv;t#k`N9Jx8NaOUGc+v0^=2UY@um7c++qt{+}(AcpQxHZ1g7_Dp>xc17&ku9a3
z)60=FrQn%gwF(QPzi8=PnkbI1?tG?<U+*)O?%vhz-R17xw-1)P_bxU(Xx|Er&|Vrm
zc7Jg7rHS%O6QyHsl(v0&x&6&j_|3}BJvF89vtZvRKCW%M5qkU~EgYSKtdm@lS|+&z
zsKA?Z6r58y5t+f$#>+5KI0|%#gAjAu*{S0_rvEJt6K7{xZp#Kdaap8vkLBx<f)(nR
z&hjnnO<-<|fo+$K#26(AwChLvE~GN4#D)ERHP_4PH<^Pp{?R@<4T+JfZk~q3jMI=9
znJVivBxd3=pEp5Svl~bI&S2s*`)e$;0lbz?7{f^f`C{<PY<r~Gd!dpRC6W!-t97$?
z&kxk5dD<HN6Hr;_7@b^y>~_Ai{m6oI)!SM2b}qI4%)8a_qi9O&vK99~qvbo?cli1o
zDOBa>SKhY5-k`jl-)_Ig&DegEH8Ff0=QXJI_Z@eL{c!PU8OPbUMl`Xj=3$Wnm0VBi
znQ|>~3p_g^4PJ2-TsTDVh|x`1)a1=Nl~@-C>_QGp6eKyBLvj`wp*rXP4LXHh&$wTF
z%C4A9YqMvK9cZr&wY-socGd7j*Uv;_VzD}EURBlu)J8tWA0{Qn?dW(eBiDdyROPob
zn{KOjQJ92e$YQo;2#}dgVi)T4uQN9}qX=kQcc4eyMTTzeK8o)-o^+&lg$$d`T>v#N
zm~`7YxaO(tc+I3=^T4D#vz^yG-)^b-<D0@duXz9o<4z+APMC2}1`Yw=O*yW)XKWAN
znjKu}VurQNg`>!EPU%BW)WfXMriO}1c7u`uSWT#PH#12(pRI{}%_3dBYRI}jVRKsk
zncAj2VFzPhNaI*Dt-cVe4f{{bs!pT$9Zq7qdw&?a8Cy70>FW7m&&{5N(;wsXWydY&
zN@z!=t9QwB-Cb#JD>ZMwHFLN119fHK`ATQcb@#)r{-xle`&Vt<i~PgE{dZ5723}lr
zu7-tjSSU9C4CgFvu6+xvT5HF`X{J7~8f2_>7jcMEGvg^*0^0bfyY|-1P#b*nb#$q;
zwQs)-b~YnTTiqG_xml#S0c3^H&~pD5Z1N7W$vbbgu7n0)lS^A){E6%S8$S-*yHe^o
zyBrxS1;^kf2P36GZzUL74GQI;aNBcl^r!ApP*@3$Ra&|h&Q?7kU&mjK-s&#*3{^SQ
zKWP16ro8XiZ>V1F!we;Fm!UYJQS8eOK>r#|^-8nul$YBq%$%W-8!jskWrd0BaBSlD
zejXf@0kiNyA@cbbkp{u(J2RXrxqCRE5oF3XAq7Io2{RP57Mulkb|k09aM<Zl5kbll
z^1R5XP?kY=U6AKh!@lus+v^Y9L+qQF8otf8cLRt6Ypjw4Vs|}Uxc$4yrGCTxS?wMv
zcaJQ0?^|x)|H1gZmes?j%7;&_9v&+n9$P;A+VV56m)l=o4xKA`&#~Ro1GDM5=~Ncx
z9ADtnYZ}|;{Rig3*4dk}nLgSq4fTJF*kprii7RVMB$fob;y_lywvBW+Z|OOnn|C4;
zU~4F30`UD-EyS6z0~(ur`jmw**!J`*z+q<qT={3M3;=zUqYO*(R4Qx7{76WpWg}7-
zmB|#6nn-5S(!~^7yL^8w)~8$nWi8=*3xjp>eQYf1)g3uicd;<rtInoV>_p8wDdN--
z{+dD`KPhif@l`6mh5~kFoa*ybNGLX(_?gK8t>&racRa2wABSonP9k>~oaE&?x^7Hg
zpI&VrD7O#XQvT-Bk1nka9x4wWx))d;99?cdabGOApIiu39d2LK0|eA>-QM%_;Il?B
z?W86<n11H&H}0SLjgx$RCwhLbQgY@)K6tE&`>;tkwhs|Bk22~Qo51Hn6Jya1!*Ea_
zqr6PTm#APlx|38pMFoq5NPFs`L_*9W>0%^|aneF22A?g=!E@FF%ylq6lu{;WAmt`>
z7fF$#&@)rR7pO*Tpr}+_rs7*voS|YH74$`na@Hy?qN0|uVt<4a7Y|Nc!rZ<CS6^A&
zv8XPM7D+XhI)=)T;bqtU%E&&m<3zE)s1|qKe6`fEryLntcI|uU4p$vb?&pgKsvK^&
z58m~c_dNfI>U2EQ%sQ(AtF^cz#qlbK+wF<FyUW8zA5q-|L#?`-z`WeZfl7P#C%$g?
z(8F-+VjOm<>c#^UdwbW?!J_l#;p>T_R&Lu<ZJ=iQfTv2(II{6KJqn;^;-t3c*wg`#
z=B#qK-Roz!pMqXImB!zEM0axlYSnHU;Nf-+fr!fP*eAX{?(T<8&5NT;E!R(7%N1Sa
zrX5u`8Ucif8>r^xn%fwm#e?PWV3me2Visn~zOJQ{Md|jD^1!pDormtV-kX6AEA2d0
z?m1odoqiMms5v<eit~(IhkKkax{BjJ@;&0HZbDEMbJ42$+)cN!mbl%Wctke_@(HyY
zyG<J%-KJ26R`~`Be5sa8r}0f5JCqP7lLoht@22~v=CVl=H`O@Wd%=p8kbF~P)=6=#
zMqjVt>rQq=zV72n9IoOEPvbik;Ykq~z5&#7AjUW>BwJ@37LwvKzINIDq@i^xL5<C6
zDG*E<AU(ha7zsh8ky=_=i%QWaB2o(Q@Exb|z0G#k1$CEI={@l6P=cXCXlQ<e$BsJn
zEey`+s;!*?%W@WaM;(Nzjtruh(i^4sVM>pr+>pHW(x`jCU?|lWls^LqIU6d)iB%`h
z^J`v?Z~iyV_e(DJ5x4U*mxFiw*6ZONpK(+)ar`;{Bd-552iiaLaQyQhar-~w4*t8Z
ib@30DeOs@3e(M?MdH*LImA_3p-g59wk2oqBfBY{Z(||hw

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/deepseekv31_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/deepseekv31_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..95af2039e946145ff42227737e791d502e267483
GIT binary patch
literal 12457
zcmc&aTWlNIb;GClk~k76iIPZ)lBfqIin1P-ZP}J3OSacuTYgBkcZDrjnlq9q^Oc$5
z+Ga<IH`t(FBt_^Ht!<#_YTE!ScMYsQ^5M1!V5I$6pe@P~l@52RHfrM{$XB(o7Fpz@
z?YT3Y8Cs@SyU9lhY3}pfd+s^so_p>&_aCaOEg1ab`tQcxn82`~qk{Z1lrqnM0Gaz3
zff1TGme9;=G$^l)Yv*;4>f-u@VcsCt>Ep&k)qGXLG;d0n=gkSryd`0sw<c`!wnX)O
zwb;iHuSwYF?PA^-#}l>lwPL<1UYBspJ2aRUBWp?LM;dAN`FbsO3L{MKVuYErf21qb
zHr&<*EWbpBfJQLQlHbUX$tXDkh1x{q1{r2jsdzXViO0h+B2XpNPhF2NQ>jEcPBO7n
z@)GJ#GeYe&8D}CVGs!5bor3OyO{_Xc(sX2z6spD291JElx=-9<s7RC{3AyTYav?<}
zA_!cty)ckT?gBVjQ2s)MqDcx$)>tyegyX5jMX_j`Ox~VL-5`^(EJ;PB^-15_QsMb6
z$owI&fW+oC1U9cFG^B1pdly^K5ZZTb^Lj!@8VEgUBn)KLf{`%3tDiR!RZwSwe>41B
zNHb|^f>8*olCvo}3DQbbXR9!50Viqz-gXzerJ1ju#R7JrewrlHvm|-r%J87N62Z(U
zSZhm|q6D!B{XgG<+CS0U#~4&A{@&BF*dKvdu^O4Zz<Ldfg%$Wk3`!*?1GdmVte2t1
zHd!b^@Sx2ow-I_M0rt|5FhI$ql#Ea^%O$2>&Mh^_IW;A!WXu4@CfDx)V=9BG{)#Z>
zGME|}hQ*e=a$ZeoE7K;I2#XB&ZJ^syyIilPOPy+7&OuLQEpi=($s@r^9dhm08dJer
zhJIm8r(FBB#>8bPH7&za;oa97vrZjL&XtX+NCAx5CAX{TJ2t5AQOk1fj+GgZ^Mq9%
z@7tQ&Sim-O@|XV$zl<9?9Qp4b{}}_@|3Clq9i)$FNUxELu_RQFXPPT_Ad`gH-12hs
z3*cx+?;0Q4W$2p~Tb0Rsj$JsiP*Q#2WF$e3hkB0%%7&xKG{WMAei3RhlOU4}y}L77
zTiM)`F!u|9r3t>y_<>CKS05#NdG0#tOQZ-g?o;%VFOi`c-!;;gj?gqoK!cBgUaAiB
zMN>(dp)ye>Mfr#f6-zFvRiM*D*{ibd>%TG_8WcfcG^EL)V<t}ck}1X)PemgP3B#x2
zK12u~%|s|>02m?RLi=J#ab^Xxwt!18(3vzz38rvZJP^V{Lo`ECKwRncLKF+rP!#IY
z6!~`9krtsS!Tv(u7$G#kI!FK^!oVXs49AiPAv7SY#G{Z7i)cYL95#ZptR4_8)z&Mu
zFLZXO)oNcYMG93>I8<YCQn0H%C~}d!C3q!#%Fs@yD0EJSrS_JW+QkJ+jdqcd5>Dt?
z6f9RF@eFx_qEeJ#cpJ!lP0%fpjL@V^`@-tr)E64dniQl_gG*^BUn6Q!X%&6}!geW>
zWMT<v{(w%<(`0;sLdUaU4u_+0kgjl;M#q-Vcjq_J0Va_iNXOFsAO(PA|E<h{LkDjh
zAP3^HYXj-q%=J`q;O%%k0RqBMx6`Q@?5BZLnoLGw10rscfYAd4oVzrfyKfH<N_3PO
zLh0KS(u7&BESxVK%pqBzkouvof+6+A9c<H7{azJkay@9;Fm-GN2k+`3Er#}?w6*B(
zLaBS(h*jIS4Vbwa8n;bY@Qg<47dU~^wyoY%C~YtHOrg~GthMd^?8EG~7OOs`eXi5`
zEU4POW5NaoKVEvYRJ2`y+5xe)4{C#<kH;R36>XzX8x(7MU>4lT+dJ0n9h-ITZLOwu
z__<E!sM*GJ)iu!A8~V8UQS-;%N8TrT{@^TkaJCSbL$h=hyZb)Oevtj}n;(30jo?Sm
zbED@A-4{@kf2$|>vE`BF<C;e`YYczjB6r|oq3056>MVBkez^3((uc_pl52DP{&U>^
zbA_%M)YO4iU(4HiIa_buHdM4bczYjb@5|eVpVfI0X8X%9Ghq10bD%FK*d$p^Wten^
z5vr(?ZE2)PCPO8oiZKIyk*zJ7Mt=oNxeun!5*lIGkJY@bp=uZfj?jSNqj{{AZQohU
zj35=WNCjU~3?Q{mHMN#?i`cTB)lFl+7s9Y*18aB-%&ukQauuszQp_V2lCjEpLdPg(
z4Qphp9_v3U8ElUYa!x(~HQ4v|=>cB?{+I0X2x?k+%`$W|wrna}xslbgCaQ`xm9L(_
z%1a#>qnHeSjOx;0jB?yBDdvJYziQw?&sWkos(lli#cpD^bZ=reH38GiN!ax^v^Qx{
zm6C*DQM3q+v|y4!n%X2Er~$2@NBT@KD<>wZVs3-RKLFUwWrLzJLk9yXT`JJogT|Cj
zkOeB0@KGe4h69QW1*{Y@6)40e$_F2zY9W>+(1pbqNrUDfD8wxa37DWqO@jHvttgom
zFD6Fmt|6F7xhi0$f~fyK^ch4zP8oCQ*2HAsszg)!QIi4gH__`twbDaem|8^V4K)fq
zX@s6n{!t)hm{3<*oq7(?*`CU3>*bzj(V+hWpF7yL4YT3AwTrWMt;RX)*rsEk=xJZ2
zo*dcHX`P@hw4g35-s-w-3)U0lyAN~ShxzU)u6yd~*+TclJnrA}wB{`T>KV+PC=MUw
zocnU;R*n{(Uf$WsIXgF9zG7S7X6InBbLdF|hV1h07z|C#pX;jX8$cs^hqfEAmhOD_
z)m1ki7~=wCPe%B|SGdDh3W2Nn<~MRxn~lT8w$5T};M4BVgHt<IdRN^xrmw97t+M}+
zTKr<ihB-aI!t~X3n|K3{`#9W}Z#%z%Ul0fAS{r)8!t}1XUtwARHbB4M&@LdspHCh=
z-hutZZA9OW;8dON?`k#h6{?YS5KCp~Fas16Y>HukN*1t(n26LOnh{b*WC6f|M+>z|
zZ>7p!0+B0bqRLGQ&`?y^I&ALpyWNtqnV?tc2X{N2tRP^!$<<iJzFO9(_N}boSOciW
zwmrtt$;t#~R1_ks1EmE@7yV{2R#!>k!JKGyyMBbC;$8t$;bx`6EbBm7>tCS=6~(1a
zDdV_odL@*i-YP(uS;KEJm*tgEUpAMOz?N<BU(H%r>kYUeQ6sFmlp6qAD)&DXPgeI8
z_-B-9@Fo0v)#w=YH+x8ja=+JLtd`Yf0lDQGwq~hO#Zu0}8qmhu^^>t9Oz8IY3b+bu
zSK!Pd9J<==`h8R?FWW#qE93LKjjQ{u#+BCT*@Y|=6?`QLm<9>B2eM$gfpXttT4e~>
z*QK3DSj4tgR{M(e?Md%tTT)+=JG&@*;H6sf$up@bVabBY64i#4Jw{l;&mnu%kOAda
zd&{{cbm83fgS}kBeoqaCJO#d8;80YxT27OEU)(K-Lfs;*(7tK^UFd<R0OQi~F3f4D
zF4oGLZ@h(JkoN&j6}%VkxXSobv4^~B!YuCXhCTLGwcKBW-A2@{FlS}zh`XWhWvUT1
z@`%egi^EE^EY2XKMf_#J3}W#m#RDVPgU`?|!!04hX4j9v<<_Kz#g}oSR@6!0wSm1c
zysI-5iCVe;GV}zawze7SM6H4EL6JHZS2+)BuOM%gDRN7DON*$&;-U=eqS_-+QqM95
zS!Lp{GCYF}OsO4z?2z$aIwaSsDdBuvFSkE#kg;9VJZ_Y0zvQf}uvg2@y*jq;73XCI
z9aavft`n|3b&p*#R?BwQK8rDjW$YF0<6v#ndq4?9q+P$IW4kJ#$lBz!Ejw8!<z<~q
zlP~v@M;EV1^~()xJ?kKv&=hO~<Z4hZIRmpEe;Ia<SsU3#s)cR*vRRkw)%n1eEzh^t
z9&DCZR@#FVyu&oXI_@B8cPv%fb4~IH%P!VMog<v(I#cD$UJ^*OFehZX$doLTO4nnz
zJkOp|>G?=6jr5{a!U}A6oNV<wH7Zu+Hl8Fcpc^Hrk&&rvd3r1FBU$o5@2h87Ma?F!
zrt&y9;OYh(uLxP`#EB`Md9YC`LRFsUD`?WDSMXicwat5IwN|#Nj4oeJS0CG~_GO!C
zH`_$-HGW(9jRElw&bASNZDE_JrZU`4DN`#MqFv?#3Mh(@jchaZ2F!Xzm6E+=w@gl(
ze^>1Z($@^U`pTML)G9v)oc|V9``65Ad1<UpJ^5scQXj(DO*cT-Q-4t=pNbABt5bHh
zXnlQ`ZC-j^9$8I+uO&N&%CgOspa~4zGc9F2sC47&DCggAMfH~d7piMTT~X0~E2Bll
z-6+!yY)-g8iq=vK>-ai57xDdDaJp57siY%V<y_Z@kl+SG&JytlZZOviw(5DgMNJ96
zjI{=P6D&5x)zvwZtx<gjW4=y0>)7QG5G$K!AeN$dtHh83?ORA?l0;iTBYJ}bEIV+D
zOp+8t$B}Cb+z}|Yg8XD{KKe#1omM<v$gK^9P_|8Rs;Lfm<RVisqEM)kLhi?3B5^&L
zZJI@~7Bo~U>5KT1<V^`LKzty=Fk}LJV4`Qu7mcUrvLH>+cP+y}_(oj@g-oQZA;T>6
z9~5db$ygM^Nnw(XM$%+f+rFHgI0=y&`nrO51OhzbnteoUVF4mM5yp2tBE^KRkz^9$
zKvGP`cbjAo*?=@?jyZS*U;}4dJOkq=Q%Mqhg9dQgk+($WAoM~eUO+1*A~C6h2sL~L
zf=y&Hm07$FSc4Bo?v7dmdg>x1)EImOZHy4xvcWm(c4_@$@W5Ac_^7M)-Hb8UeW#}p
ztDDd|L|Q^*OYvNa40lErBQXe;i4+EuX|c9-R$(OKZzt{RM<i81v$OPdF-!(QxL6{c
zqUqSRIAQ|O>1|T&hg_W`<4eSdeiT3psRAOA5aAR_Lg)lCp{#Wg=pd3DaPE^FsSrsi
zt@Apt1?Erz6*&zBdMIQP3I>9_mRY3Gb&o<mBILGD$0Jcva<ih#xnO|!9>iw?s828Y
zpery0?b7iWL%C7jNWmPjv|x-&sV)v2L1r<9V#*Xck14dZDRh~qP;6PyK~KR5Z&g6D
z1S3I8Da0KS?@g#1deR_Rq?iJcNu&im5sNZZ8)`$wreIv8QkgVOA?uDp#*ttk#kiOy
z2Ac>%eDDxPu!x~P8nKodM;#~N6L3pj-;<~U9iY@}=!1?K>J0jzV?lBU*Q+5%DQGAX
zLvX0oC_pAvIzgl)_ilODI;B?aS*vdEQZNvl>L52^xny3*z>^)(j|nUS&m~&@!h%qR
z#(*d*c+inov&?H*ifsx_sv}c=`6IfmNgBOVfhx%xFJ_U$TJXLMAO;{yP}CIALZ}hf
zt4Om@jTWUAORiF-f<|H?`@butl26<XYe3J4%6#GwiA0(LBse?tRlVaX%q^If{s{>3
z9c;&mneE@Vy=TkUcdleNOhcQd8mZX3dVa%nWXo#jtpUy&$PXUptj9NPb>Bbx-r0Q9
z{tescrlWP$vf&uc+lGtvt$ckqSKqy==X<8Oo~fso3iYq?^%uDM3q^3m+d4U0=L!XJ
zyavl%%eL_kbY>TLx;qc>{v(|KND*Rsct3~tLx;|qysZt|I`;GJV_duHIB&n2x3v~K
zM)-~~u4Akm#19}o0BIlQ+YWMV2cJ0kLv!4rxkB6Jyv<wm`SUhUv8DCySqKo;cIJD=
z*732Tvpe5+blnL)eHZTxa?aq|8O}NW3~#t^yJyRLW;XEin~fc-XEquS<naSrD7@Fr
z*}GTAIQxEZ#Y?>=Ht@-!y9X-W`*Y?kr|16pd*@fCdH*=)A1^qMJ=Jo~sh`z1-@E)^
zgl`$<T80btBWo8w(`o7t{-VC+-jzRoW4j8gZHFj?w}<!ibDsWHf)AbKLMIEJQ=e!!
z&l%oxk@H+EcxH1Jh!*gz16=FCnx5bH8n^GYLhI>I+PT(qeCr(7I#+1DlCw!m>^`)P
zA1XR~@_iHQ&WUG^hTOLbj_%dAbw^*ZXN2z=<9bBGUgi#8F7#X}x|%=JX#))q*#P)J
zf8N<ybo+8Awpu%2L?c#P&*T1e+`p>f@W4-Te=#(i({JE?A`|*JypP9+IDBYrXagTr
zXmjw1pC6my#%BHnKfepB;N-e<67heK_m6V^Q6=i?zm%W7%=xe6@wQ@X#}7)Y=@}~^
zhIQq8j~1Lqw;YYUqnC5^<{d*nilRv_a$^?@qnGkmuC9+>-E=nJKYQ<NzU|V6a~8N>
zY;55hLtJBMmEi}bIQVOv<{Mw*8ejXQrO<derxzTJfQsAq!{LXAw{=*P=Y8u#>&mHu
zE6BTsIoEK0WO~DOV$0J8oT_gEPPyDGV_aiDAXo&Zc?UQzFr?t!pF34->0G(Kax>pD
zu;%AlMsw38WFQ*cv~SDhhPV!dhb%A*?;PNqA|I!@ebWW!iBFuI^Bkm`E#1%D0SG(u
zU1MC=*k)kt>D)%(3?I161uho{_XCE#S2WKtZErh7oIKubU6sFiM`w07Y-45^ycu(~
z^Nj(nF|g|Ad#AbH>8IBUji+;Zpu>Ik9*cw%ZMi2<JDJmOy8LU}C$PZDoT1q0&e@*%
z{C{bL{qm{ZR}AjsgXg*6c|LfV3tlcdJ7IhF*X8lRXGYA~U+kOa`(EezUN7{W<D5OY
z(+_SJ_Z<S!Sy|wqb^kcZ-dJ}I0d<=^yz3z6I>@`mIoEjp*oA`YBCMo-7)El97X8P0
z|7p&Dy5N8Pfw?$xH17(mc5$x3;-SMR+qdo-edhAMZ+mFVcOKYq9R$*YM8U>&gw`FQ
zqQjqe1QDx)NBQ6+7o2?BRS2HWRe$R66^DQe8_t1UWG!|MY<7$kI!1xM#lR>;(0bc{
z(H{Ju_lbX{x6poUr@9J}){IDNMWnTgq;>m%d3ami-h;%zpKl!4fkm{fHg7mbU^%sj
zw=NHC83WerMH^eL*s);M4x~AY`1n&jKQYHm%)zA9H4xsz9k~%npbPdsSxDFIQ{v|8
z=J0MF4{>;CmD<3EVAbAs-ZR2^M$mJF(;WOE6*0qkW{P+V@W)$ocLoUV3Gwbh&ONx+
zS8$KtJ@-u3+aqhq4ciGtjSsAOHf+ZbJKG+4m7P2O)UtuUUUa#CVED|0HFSLN%~BJ{
zasAO9oem<6Cg7>qT-OTCF8?!EXR*DDZy)8_M>ji1i@gWLsOT@eJr9@GhzCmr@8KOY
zL`XqieGMS5O?5fLwi7#{xunVIc^oN`)oDIB!38JQ@kzi4#vOm=^ghTw9tQpuU7f4m
zb=QGSSIdKQ1y}Fm*)?yWe`4J=0WG|1ALrV)=G|~jY;_I)XzEE#VdPYP<aEC4OzwPX
z3$A$9EE~?l&)hw`wpTF(E85L|bJ@=FG~`YIrl&PmG`Z;)_wBm##1_(%Kn?L#3TN;5
zA-y`n_Z{c@ju#-79O1f8t=mr(CoZBzB4(lk@(2fi_)#RnO>ig~ME$CAIzNDpl`V(s
z?%6M%*<BFXHM@Xgyv@zo+<DKL4cqIVg3dBP^>666;4J@%<9JWlfc^cEQ+7!H(Kgux
z$v<@+w?gvILz6~G@`sK)At}_<ps#1L6_SndTKN7H*P*ZTv;&fV?{UNTX9jP$OZT%*
z4SWMN=*5|6>VySLI1H9%CQgRKf-M~WMkW%MS}63kQ+#AZ&7&N8b}PL;K#n~M-TVa|
zyjv2jXX+*@R+nBvMM*H>!f=P_hguq4(k4W+heDwk@q^53`hEC(@h-Nl4H;@yf}dlM
zZ2!Kd*HE|B(6nuU6okI6d%FtdOqiwXxf$i&(9Gx!uC2!AZ3D_cAIMgTSrb<8+BS<>
z3+CxunSFR}+bR}qnA^WH_3-F+wOFjdn%h@89(uOzVi8Bv)QZ_U%+l~c&zar7cAzqa
z!V4nCfkt?6mx{+p@u4^!id>6IG%$$o)hP68S7<?Rx<X}dx<XO75QZ~MEKW;?y6>eP
z(yOmfno2P#m_VX4x&laq6>kLSRfYJnLww^Q9D3CtqHSAxItCbmMXA`BQZ0o-)q+)o
zm!5=B=v|M{Ce}drB#mCPlN2o>9a5evO5%XbO!59C(&P~)(MNpdVLBqo(Kz)T=!BR~
zPs3+hr_pFWH({F2pJR3Zg&q2})}+z?8iUVg=<|7<7CuHy<Nr5o>_5!T+#3b6_l|ML
Rc*CG^Jvj3@hEj2s{{sWkN$CIp

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/deepseekv3_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/deepseekv3_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a2ac9593974e539c40ac3ba4b5322613154a28bb
GIT binary patch
literal 12551
zcmc&aTWlNIb;GClk~k76X(W*pB~cGb6lq(sY|FM*vSfSh*z!ZNcB5><r8Og&GGCn;
z?%M1q@dk_5izJAgqO}baU2Pj+WvqeKM?TyX0gSXCTeL+vqSE0`)kbYx1o^5q)*_4i
zwCB!nW@wpSZ8j)MNOPa(-gD16_uO;Ox&KgIZNuP~Fn%Zg<53Lz1u7^%Qz`TG2avgo
zkr=5<U`gGqPKWaPgnrflsUcxZnr2N>oiSlfR?Su=Ewh%Sb=I1+&DxUoS$onk>qu75
zR!e<MiJGKy)+y!92|QUlTPx+O5_L(}tV@UKF{+kwf1s0RpRLzpr!ms<Hbz=0=Ld#T
zZNp7{(Do}-2<k-36!iyLDm6z<LZLPpyG}*fbUG28izO1#I2o)G>&LIf*zt5Slc3mm
zI&~TKXIQazf=aNlQ`yuUsvU>!qC=`WPcckvffB2w(liVvHF{3oVCmQ#OOZ;|nbdrm
zPR0<p=y+xzi_!&fvZ4IN7|l>Ll<e_ToQ)>Z3ky=wF_yYHoxV<`;yH?*lh-GIYfFWv
zHz4!Jzyb=J)sfh&p43r>dHro{UPtQRcFY<{17#wOl$kV9Rr6-j{I+q{LRLYY1^%t@
zZ=<Y~tqDdU?P|`U=441aS)HrGuz8%U0eHu4?1pZ(dI}3VMfU_nWu_?V`pkf~5Yfu2
zNb5_8q6BdW{XgA-+CSCZ#aL7;{oc`Y*!MuHIGw^>;Jl8*qAL6X2Bi{@0a@rDH7d|j
zn<A4SchF{5+DIdm0D1XGnxJG+OJ*opl@eR8<Q5y0oR*SR3T6P~Q0n)9v6R77e?b^)
z8BC1=!(od)C9kE7oo!P}q)mbQHqdRcU8&d7#ZE1+<e;az7Nriul#yViE~WN&8dJqv
zfqrI8w^I8%jfpEzT3Uvu%Ddlb%sOo>C0914Dg`iRm(s4KZ#kg8M=LA2TXr_0<Vm|S
z-nVr(v7lq})UW;repwH6IQHK^`EwR_|9}43TSy%-kY1%0;wh*e$u?K+K&42jx#juh
zXTZ^h-Zeh7E6{f;wyKl&ymavxdox3ggnNT!gD_ME&5c^;OL{SyiY29Puccmp{q;pA
zoq8?xOnZ!8$R?>2%b>BOPGtk4RhMD)4Z!OEXzH(h1LppEFnjRJPLaDZeU0)b(<GJf
ztIExv%rdP1D&^0_7=|LD!Ouc3O%eL%(kX_evvX{k_LEsUo?6hV;9Lmjt|<Dme`Y`e
zgt5?B0Nt_)(w|DR{zQ5%#!@hNI^jnY^D}IWW+T8$8571IPf7Etc(nxy(Zpmk6fIh!
zQRzsDiVbsFng&kD=O5x*l!2mHm!YXQ$_~XCO^eQF`o>AI0aif)2pI*2GEq3#BnYtq
zVI>`=OjJS(s^Pd2-DUNFXsNbdt$n7mORLuU>S;=>nuB9Go}fgh)`O-Ns2ieB#-|MJ
zOqxa~ZB%Y=d9Gbru-xdB*eK(K4pz}N6H8>NlQf;CMbjHV?yI6<fnvobb=qfE2X=$l
zSk|N>jT#8Gp?r;~MWa>p83@PaY>JI1<@tjK(a2DVc^Vz?qBR<wOMq-eqYOIv{Qg_N
zy&7SYnMfv{=?5tQB>Qh<4;?vt{SXyN#IHs&H`#0HROF3BA_)S*(l;~dIBdR1Izy#m
z@rZ<*EMQE8gp-?rllzSUnT&FMICGOmx-{oiB(wZv4=dt?^cV9A7-FB@!Zt0{?^N*?
z;$G8+rDH3!|F#j*Vt5})TZ@4%lzO(!ShaK8gjuVhaod80&g$fT!ILO$+v+`y()MD{
zI7<CbTHD^u-Op|7vFe!qsX_0zp=!^L1&i$eaPh%n(UFAOh*aALwW08b!w-gwjtQs@
zNwqyN3+@)29qZ1H%{tGvUROKt)L?McY-5J%8ffedf7tw>`9t3W-y@@Nc#1zfRR~U_
zS-OhdeedVq%f0{2_rAGC3PTt8p$moXi>N8E)f4*A_Q3XG&4ZdXRycHtKXj?ka~U;t
z7Q1@iUwm)z{nUG@wQ1qtdH&$}Lf0f}>OiZn6&$_1qc`t3P;|NkXCLqE%R2|2)cFu*
zePx)LFnsVS&=(UOvZSW7Y$nT!RdmTVHPaNErBidNH3WT;tuEPC4}mFn!B$#CBkcNd
zx;J!m4XeVDI<TB{5A}-eJcU^iq-s}b;ESpSrPXP++LB=bTQYKn3GC}|@-3M-(`zut
zl6k3W$-)^IRSQdlW$j9yGqb8?#8q*YhlUSIHs3>|l2gu59roS*M!=Ya|3#-Vf|gcZ
zwF2FYEm_OfZsLrbm9FBf<?AQ0@=^!Js#Zq;qq}q%t6B_;s>PwrPnwmvpyvyzJg5IE
zHif;3-7tI=ds7#znmh%&-huWeBdJn~6m6;&VUQL~v9OtgdeMlqm}pfGRaAuzYSE$`
z$kVxyq{q;iK*=`}bm*Yr<ilg0PAB~|#bn@QqQXHtjSLMMaftTAN35EUr$}_$F~>5X
zG)NjTibm2U8c~yIJ$Yk}%1E~wvwTqzt&~y~w9z5de;@knM?h``Gx^HJX5pU2(C8c%
zO>jAyyM`_caE3_Bs8%~m3)PC~)S-s}h(Vb6)gK*31J#vQsvQSRuDhc8dcNa1G$;mp
z<`%Z?z#O<>@8a!Us|nsdyy=P*z3r>?qhmV;y&Keq9@K`-S6#Pl!+JtO_ffw4sL(ym
zcaJ|lSLnW!#{*m5)@9qjdiO7%ERKxx?xV|R?k%k*i*BFb?&RH_n}omE*1Orczu0-;
zQ4$92^6i*RP0gPgs_Gj+H~J22H()K@`R-R%JwkAp4-P*X6pqgDM`sGbSMtrTE>~?f
z4iwuui><+ryTkWR?^GFyx^2u@TL=2(;1R9(*^UEqdw-1?tLrxL1_Af;xIf=^VFSM?
z4bZiA;1LJY6Lr7F^Z;yve!pc1pu}H{jhqNzKlPf?HxL?k8UD6T2Vb!oSqbrUmWi@J
zL(!oc2&iNOtB8%sEs{AQcSM!|9DIyetM*o_oFx#YVscKslmQy5G818wmtPYX)lCJx
zN<X+JswxAvol=ce?5pR@ic-<NK-F<3P?BwXjAJO<=&EYu44|?=l+bSq;|!G)AE+p_
zx?Mlgq+s;|m<pFP4Q9yzYTNh%g{UepZAt}4NjX<mqpF&#0A=M&Ut%uX3!y%5E<1@W
zIpDvVvvKz8aM_{<Icq5w0a~h8NexfV@CEo+uBczczZZ>;(LdfpI#gEy$e5lp<N&#)
z8m?xsQNvQn!5YxU+x1g8L|V{A?gela)~>=?B{+0T-1YmQR9<p`d{)Ni_Z!#nrN))l
z>D`4a6jgj>377y0xC63axsGz*Wm^>p*w>|<N7|&eR!;wd_3cUTB}d9wk~^m)d*JU{
z^eZ!IDQU}r=`yE}s(XyIgUdwm%_02~(0VJm#cn01rLdPv*zc*qkki4hK`J>#f9SAf
zUFuzFw;&32OSD4!rv3M!2ciOu%P6~WSx0wqcFubJH4NsX{eV*iN61@58GkDFP*zP^
zrM=y-$G)mo`s=Wph`JT#tV|tgH}omA(o(WU8F2~ca9D|+!&zj(NWU!DL>#^dChhJY
z=~Unrk(IOSN8(CrO2^?#I9V&{Bya%1-Wb@`8H!}B(tinhf^l2h40V#$!1tg?9fxb2
zhqYIbx5^Z`p}(O=RN-(*h7EK2V^CsMUC1I6P5M=aXAi0E_(PY1|Kbs)R!d3u!+NFt
zVS|G0g6?6XQu{e)Wre+3cJ9@2buTzCE9kItIBlJ90jhgQC|E5yIp-9{9#ybcwU3K)
z(BA_}AR_JhExxp?0*ahNS=*AEbJMMydvWafUdrgwWvPCtVX2X8;9O)AnuKeFTn);l
zF2TGfo`>FJUV<ZNA4h!dyl~N4f_b%B!9A|by4PN8R#sTrixnKs49U4}A*pvQR@!?_
z$_PtMToZksbeHQ+jYE4$BH6;8RH&m+v`jji9(t5{_LNTV2S$0MXQdNX;JD@Hs^6;7
zuqwCpWT^oiDNB!nOl1qyS9w1v5(xTVJJTv^IAt}J$GHyoIl2YfD(J>aCr?~;_Dl9~
z1*ppNd;yKx`~tpfI=5vH?bgaQm(k_(>FVcNw7y&m<Kdc_<~_!5E5A7){=peH2(T?&
zGu>1Mds>}Z&5-R1A5e%=f^6hk=vQIZ8BI#|lHD>nZTWq*C`cdT`xia|B;E28!1-@r
zwSUc?QI^ITv=dOFDE&T+-FzK%KK++v^4X%$psY^S3z8M~9j;~ZE6T`P3VbcuJ9Lg~
zsRT`8;I8qM@u1SpucMrQUyACU{}-z3C0$X`jw_=@#XYRh4Qx-iM@m*x3+Jl5-z)E2
z#P@H(DOVY$l8)fi^Ia!Ff?Eu^O{5>V#fWEY)(c9DmXZMlYaRAgu-sJFSLbA|M)MsE
z`#YJOYnNj{s%)Nw$cpO1l0poOe?FZ}k!?Yp<QEdLT;w#BqG*V>BYzjTB~YXV`OVt=
z%=LICqq@P6pBoC{T$}1-(;V{1Z>C{Hqv$7%+>yUR;(99AG=*X>XsC3`AM>ZEH)Xs4
z@koqisU$eYBzK#CE|F%+f;J)l)hr9)9Bmo&VHh!I%ChtQhsBy~Dn19nr6|SB#WGY*
z-@cR^Jq3{)=9-Fk3<5sVn*C&aejXw|G1h-ACdY`bQdA1!LUN48f0JSn*?=@?j%j#T
z-~bO@A`9cE(kTkOh9>ajQ8(yeXog<M)C=mRL?R}QY`Yvj3Be~SmCi0)1FXT9qjX2D
zK_h(`5*pciqCQSaZMo1ieY3QFDVpFfIexTN``?VS*ZgND5UZQeIwV>`q)YW_N(^_$
z7GiM-ok<i1lo_eEbxLI<;%_J8??)t6L32~gH7RTcA-Q-mlV+Is)dXS!(CH0I>xcZG
z6zfmM$$k`23u^)*lMvw)OF<|FGU1$k0q7u+9B}TFy{iyeDXsGwum$GO0982+2YYB_
z8j2>8x|&^}(Y238_BC?kXA-eFO7^{?OS))+cpt=Tf~Zd~`k<>Y1o1M7I7@p_-b}+B
z@r-Cr$f+R#96{zWjl$G4I*)0zwdqFmLE&oA06j%BynX@663rwfrx1liytklk=#_+M
zlcNk|HklEPWPFaL+fW-aIYsjVoz7+$8d-NVGLA$OCB?~Xao9u<@`I-}qD>0@F^IMF
z2<kWrpP*NE1*5Z*ei?nx2}7SnA9NznNQKBg;(9FvDF+cHVu&uS8U@VcN;im<?B^}-
zTBp`(J!`e?T?!6@lO5zHs+6qrS$G5_`7?n<;K4+zpPv`2&=?SP1>ZXIZkBm3OR-L|
zNpol_Z;2#dHh8wjVO1rUw(P8zut5H6(f2%*6qQs!ClF|jv}jeN#cH%NtyuD#suc{9
z6V)AFDI>ecJ+Kn=JgLk@4)IB(FF=lS`@f*GTm!iQ(=vY#(tHcsabs5J_Z{yz^7Wl7
zxed#KO-qej>|MREVL7&CcMA3(Zx818pWy8$HXU`}KljeLeAB@V$Izy$b=9`v8pt~a
ziuJ8ReK%j<y=oMC#`&J{$CnHBFAMb-`TC1R@XI?oc}M384dJ~8+ilyn`40_N0^Hu6
zhlIc}K5(oEp+3By$NQl}XHDMG25lV&h4x{-UGt*1zmj*f7CQ!oj$yuIxEv$^AbtR8
z9}wCO^KFM8xrHOs{E_KG+m*b-SM&$+4sWrg_4YZ48`gH_dxqEX;i9`c-*<f7eZ1%<
z1b2vcht|&W?vW>W!(GQ6N8UTRfnV5c>{va!(Re72AKF4uzi!^yy*kW04}xD_?lroB
zj}<*VQ0Y0iY~6Bu?_RibVP!%HjPQYxg8QY%dfq+$^ZMpHSMCi8EdzYZK%stc?b0U(
zUH#!-*0<c5`IA?-tFYR32uk>R1aCj@?O!E@@F_lgs^C5Sk&gGC6}*>t@1=rwYS{*%
z1EDp-w?@{C!oHXJeJ>YU&wSL*x1JYTr}@_DLhH=3LtbL{k#+n?(cP2p8(nvgK5;cH
zf2-i?UTs@<^%Z*tg`Q!)M<VPM{^*rL&rFeM{=}dUHb9sI;Dh~ncW2S#Up~3j+5sb)
zvD$h853J*XRUMB9e})H&;elo22Hqzzp^wM=1pEMxA6PrEfe)#)Is7Of3{UdIlmCKW
z*o9SSY~4ME_`hEW4Do>>H5ePXoS(YF2WIkkTd}p{2c^~Y3>Of?y7Ilp3-04vu13Mt
z%e#8>t^+@sLz7(Mhc6X|F6U=nSs!|3)7^ac+?{jzw#ystDd2jsu|;SM^NrzER)~!A
z@YgsYG``F?zWh;3q4CPHQFJu|Djxq22ksx;HegNOckTD>E2j%YNFWAyVjw>_u|b^N
z^0on|>YIR5glA=#Z|nyIi@-Erg!chM3ciEOr;9C}E7w-u%(q0=0({HR@<a(42og8#
z+af#=<bha`4Tcfi5#BBFaf07BQE;F9$j!UYL%P}0{lpW5XtdBZ%y$iM28SO{Zv@W@
z!7F_5N^$=|z_52l_Y~9jwnO;I>)SR|1)6sZR!_q=W`)6<F``{)4DyY^)qv1D!S_x)
zzFKHJvup%9+~w|YNI21!djz#(%f?M2u%>?m3mjWE6&pRvjwk-WUzuUQeC+fWL;Hl#
z1wM2^2wmYrSBmaV*q;4$c|7=u8FTj+hb{<1GyKp@Vdz!fJpkddo2$X%z9S$!EAu?G
z9~?p1>+9|VK;I^>Kpf_Y!vZnF6C?STE*6MOu$KA(7>gJxM$QY7X+APth|KUr=$>`u
zNOACZo(QgX@x=b(k)tTvw@wT_A$;#T?mP0Ghc<}AzyS~}*uSpux+`3C1@f*C;&|w|
z5E|n{V~@KEp)<?XAG`d;1Hg<8cVriJi=C0pj=@655RkbT9D=A?Z~HIXL+|xI3as=N
z+F#nKu0j;HA`06Ph3yiBJ$~RJ-j;XvAZZBX8zVcglD5_64fi0dsTQ%A@WRe9Va-0Y
zzm<v|8&>T?3bcriJT?lW)BNZ(Oj=z7AwS%;JSfX`!P%$C>bi4W+GE{3-Ywu^9uKe5
z8~6cOwXa?94)WeX^jP5x4}VBgO!D5zBHjXQ^3~j)1gd+(f@eSP*}v9T@QmC(|3p#W
zgKMb`$4OP2N7lR>j+YQu+aCDT4LtJLwt;`8NO*o=`ow}YbiDV?QWJ=C{qY@x0iur<
zV64<!*9y%<;0e)LZ0{1<hxqoP&Ca1>?;$Bt`b%HW{lzu%-eSRbbjJ!&QxIE!1Bh)?
z-Lh%hjh)n8)-4+a9O;tP2_ZDfhep@&F~A7M9eLvR-OD{30R9z;&Q;$!acGlhxp%%m
z^gf(g^A-9>*NIVR5r};}v2V?{L5yy74g6^QQB7g+bbjzmzU%Drh0;!3@vhl6+((~y
zdUoxyVi;DmoBh_Z4d!iFJ_(qf(aq?VC!XED>+X|VNL>Ooq&F+Pv*U-%>Y&hfg6}&~
zfCzJp?>@cmJY5{UgcgaIiO$JmJpAFukq9@z*<_N`tj6hl1f4EhF5>pN&z?95i1u0u
z;F#d>@D5Mjdv?R|m5)JnnV|Z&%xiF@|I~G&2Oh-!-Lcb7NdD0=)&$8vb)B$7^3Mmx
z%#h@doFE`6)YYJG+gK|kKhxKuuiJpW#2FVP{~q$d_vcn$wAb+Spboyl8uS`XvUsAR
zEgA)@Gn=5IQPB~N{y{dDkXvZ<bX0nQM1KwC(5qhgdBQ1_LtX&U0B@QkOPWSzh*({E
zB{fHZITwZdOh42z=)yKC89y`%&qyC+YBTS`=d-u5ZGG5Ovl99ggJk=4U9YKbtD$Mz
z1Str8UH5hs%2_a5*HbIXy{elunux8&=4}(oKp)6fNm&b4Pi$MItPS&au1wuOzipR_
z4$Ko+8NYvgyILyNV9o6-9rwN4PN|5aX=<fx9cF8|XXLG(-?&hjMj;0Y<6t8^#!Dv>
zl=KXp3CFI^$uuxYZ`o+{C|GPk@4doh@4dova5;=-*?5AHjduTYJ>(Z*;S8N-(=dTd
zXLKEq2`k+Wq*oy*S}i>S5s$oR5Xr<XJu3qY!LC#-O}Umv;cL+@!OL$(X!PbsY?ErB
zdx}AC<tdtxkq)a*8D(*}iEu!7DTyWzFquBm+YiezS&l~NKZ16|bOzbc+XkIZ_o)Tb
zb^ZdY`!DRsZ}b+O{x=wWK0%*P>-6w3W4ge<VZ;AnbuYhKu=;M9cg)vKI^y2&rx;45
GS^gJs<ZPn=

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/ernie45_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/ernie45_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5fe6a8547100401f6665f605e5c1716ac34170ce
GIT binary patch
literal 9347
zcmbU{TWlLwc6azDHKZttl4)78NKv9hS*9Xcj%-Dit(TqHvGcI<Six(S=8R;@6sgRN
zVoRmAK^wGklXPV)c5MSiEdd3jATHJgTEGPgG(h`Npg$bb3(iipfQt>#=8wBpkaU0A
zb7nX*ltO3Y9f<edbM8Iop8J^d8vTdc?IQ4`Egz-+F-XX-5zroMx$*R`pmCcpgrU-8
z8f#OUnm0|GC>3X(wgAqYw$9t8ZS(eN`@Cb?G4Gsq&by{v^EJ~o^Yk>WjJ2fQ^PXvs
z(zd2+=e^TjrEN>s&HJW(6fqIj%hrEJsWVUeP2>z=>>m=w!FoP3m$3~?RMhz;0vDo`
z?6}Cjx5#FaY}76{j9*O%<JtLzG%KXCnK!YA7v#DLHZ3GhFJ_X69Z#gwGOeJ_vpk=e
zWo5SlO=YubrL%eRhQK9~0?TNqS28nMZa#tJGQEqDLmL93xUl_tg5y~Zpqf-BCB)O&
z*;xgoM>9)P*=uYjwaju!bt!6DR|cNmfW}|IPP1g1V#u_Kp;+^bX_d@SjOjxfcG=8Y
z84GJ;tgL;;#@IfzOgk7m;2iLC!q3GzS=WBx!qn(3T5qY8HH>@NPRNXx@c=!&N^Vfo
z?u#T^E7whOnG`#4)L4b=6m*GAWht?;zz<L3=@yhfrEU`evC4DPlp~+O&B;;PDZ&X;
zITF|DX9+;%vjj<Dd>r{HkJ6{zJGfKOXVdx^3qT;b`Y=|296DqJ$f-kifRuZUm>ik&
zX+1^_BWg5=aR5YXkZ?e2%{6N+qh_2!lLpNl)LKUUS$Unn(W_xWf;O#f)O?N5p+SsG
z+pRx^y_$<?c%z<+8f~owBXy}Y93dJfkf1@sJ{M1qMrG6$JR3FabMe&oLZjX#=ROVl
zTs*6sYK5GEKZvJaqcZ9Wp7?4h&vVJCOQKQlTDyLmfM>TcLTdrGM{653U}FZPwPx{s
z(QhwP1CV}$m*}W_Iq3?PALUgK3RhE^YpKj^a6Zeh>7c6PhV(&+D@oUIuQF)F<#G)R
zpx)w1P@f|%hMmDK1ECY0{__9eS$1fI%dTOL<rlIUo*h}P8SbqF4EkldlH0Ov_=OuU
zjE*eFD(1YzcXyq9eRz(~W=1akajg5~rIje)cG0~xb(JkIM%P@y`9)p`USWd^37%(}
zppb=ivq3}41(P70z%3?)EEi-JIouE(1sXplgQ01Wt^DEw%gK&-Tv6<CxiPuOacoA2
zE6d0v=Giz8pzK@V*!NW=ZdN?OadPdhu_;Dwgc(^NVW4}KkHgk06mqSy-ElU<01Vbb
z_G=p!=Y<4^lOfipV~vpw`gZObT5q6@v5h*C-!<5sVXvoC8MZu)iDPAZ5)5i8&C0fk
z*QQ2aeHBF1jy=w?v+NDIR=GYZ30gPV^>!k?$WC%xmXodTXOoF5vU!$;o!PUvIBdi|
zeI*s^!;S{MLl+y-0b}+(1jd?-?L!Lht~Du`1;t3K5(9#l?eQy%Gc#bQ&9a4O(=!|@
zEZG^4C)03i;&C1gRxtR%@8Z3}{6g<SYT+=P2CV7ujm5#^$F2>sz3J4I-i0OMYBtmR
zemXth3s-?#TF9m{0^gfmU^9u7`o5@h^S!KUZ9xclt5jrcVTnVXz1;LIQykN-9lp{0
z5_m}8d_Z<w#Ob+d7af5+`yV^PQsmI81?$)gShq^8A*`FFz9TBWHLAkVqgaQe&H=1j
zrH+2A+oW(G)<G%KU5uO(Bc~7wOKsg)H+|6>y0?6HS)xz;Gxsk`|FrbfYzn%tr@7=H
zUVpJR{HQj(?Q1TXsJbIh&E|SfiJ0A<l8b~pH@i2wH)9*I2mWH;q}VrEXgiIRty1Tq
z&E<{d%^z+2=mArF@ip<q*9x7lV^_P>5#5~LnBKg+arwbSap0UdaIVntDt5I=T|GZ{
zed_wT=TpxEp*Z-4IQT}P>rL$H0MR$+Hs&@n8<_`F#iQrNqvs2e3)mHwg6*5G4cDe;
z!?Pt6dq>6I(L!(xyIP*m-Xa|q>9B;2E|Kn18WE9>l<by}vdWecO#)4;mQU!XZ~{c8
z)k~jU6c!c*+0K=HO&iAwi(DqDJ2)^FjWohf-v;O4Haa8#?0s_7`xNI9bUKCtXNbCQ
z(%jyQ#EF!;t7Op6=}wV>Gu*Eg^DJ4h<jfP~hl_-)SOwipn$umR3OcK1?pACSBdfR>
zIon*VL8rACbBbs#5JTO!Xzdky&N8Pty4ql<g?bHOtb*aLROfAD>>9tE{k}tM-*;*)
zO?HZWeBA=O$G~q+cP_M<6qnEd^p-~5MCNouuXhr|MO$%HoKj8Bl5=qOoTKuj7*Yv^
ziQzJ~6D~p#K{v~Dt;P&mi=j11VB|CJL(=pEa*<poH_SgE*Qu!c!fDW5G%6EbvC%9e
zyL43v3JxrqfY!+gYHM*GT0F!kG@IcUIX0f)lc|*Km??)yvIVUfhiCJti8~1uHw;D8
zBwK_fFoGih$dqepxku6Q!Bi&5sv#5FPMkG}mM=KNW#@yM8jnT29Ilo_ubpd07WSD`
zhQV;mf>vF&rn3pq#a3o<eu3w@aD*+f0IHMW@Tzinb7c$C$Tkk_XKF!qPToke3rbvO
zQ$sD;$!e&mlj}peqgcF%#1*y>XN;#)z-9=0Jo;Y66<I1^CY2OqhhnB-H1`q==TQ{R
zmkM%6kb|$h1*$^F_4CW^-`3;b9(5WSo&t^j0RbHY8mJ~B)<m|_V$INYeXrEgw#7Xh
z-Z7i}pioVyP=jutqN0by$WSpdCPv0SA1*{*&wIm9T3Xj!{~0;Hc41pppAS5Rj*|ej
zh85i%h!g|eVxW8LrH7_M;H7`>0Jg!#wU<ja($HG;cZmLu?Lbfp9op{blRAzRI|jv$
z!H2fbO@)qesk?v2YK|P-vD)@GePwnuG?r>e=TPY&InXKjC)U!%#!j)ZbIVff8W+39
z3yl*cv+02EzkPvQkvsmM^pvcmF0f-GfdMJhA+<(-*%`ZYX2)&`_)5f5=K~Rr9yh>m
zc4*>n`7N=yecRr~qBkgdgZa>FkG-#N?>i!eA`ki>=0Ny>@3+JR#8w#hJ03mlzZtI|
zKTiI&--hM!o{28=zjabj%5HSaQrSg5F2EVcwC<511P(2v2-F_Me^Upduci10b^2%>
zRa+*}5EqhqI0|CuI^P3V1%vvV5NKD``{rdgAxTplh}7q1Rr|2w$T{Y8ZJ>=Mz_*%B
z&@{-3Gv{QeYw#|uQQRfQbd&6wM-Q$IevJ9r1iUUL#<b!9-ql7Z{J0LoJ}4;)%ZHAf
zWrBQGW~E8M)q&i4s9iCSVQFAxD=wI;s+D=4aPv7=Ra;|laKVV`d-ENE=Soe^m8&r<
z5J>PHqnAN+hBT2CoJ+S<#(IES4~-41whJqCj)rp>gq<D8xxg;b$SD&8sw&}O&IYRv
z{(<x8+>MpxESenU(;drM7z&LX%&!NahSV^7Uj?;o4|O<aW6Wi0-I5v9c-!FAfA5(I
zXbqGn=K>4ry06c35q7!~5`yJ{WG<|=jG6)Kt9bwvdFES!7H7|+t!u@dbE~JbX5v<0
zPo9128yGXZL;78tg&mCRK8ynCDFkB&fn#LP)BtL;SD)`1oC`NnopSEbx4D7eRZg3N
z*Pu&Oon9OH9WzrOkL==t)_BkJJ-DF!RVb^;&zLlRd*rV|uZ{d}`Jwml9+3geIpFPc
z?^@e;+zfo{n@CRgJ6AjgWzJJA38TpdZyLS_jTLtnosm5c<Iu)aWQkPgsJ?3}wYl24
z{ypRX&JBDUCxD(&pSfdN%c!5hXUG_#wKUln=U;>6sCI{|p8z_G-+vb1QRR%E&ACEv
zc;;}bJ&$lwLsaJhlAY2<7&TzW3`lDUlUnN;>#4H)&lp){e~rlHzUwoKI@2t5zedw$
zD_+HGsHTnRve%$%qMYOTZZ+DnN^c<Ny$J6Hcnf>+_`WzHCOV_-gi$jU7P#V6evdYX
zScSvftrA~wm@iM3HJ8E}SA-7rQ#{(AQs)Sz#LPbgowh>dsGFv0UKGA-Kcj9_5cxG&
z;7$5FGsHv`d>`U4PYRKdDfWWwP;zJB&naPnmeNtZcjxddn_+J(a3jm3-^Xc(tQqF-
zAl``$ry;|Y=0{>Wi$8}s`4AM}{12vSz-{mM{BmsS!PPa#orz*|pV-{@3vZt|Hub+e
zp8B8dZ>BiBd>}4H7t3z&HWgnqcp})rFNaPiApfRhF3ZtFFp*g@;w(PKokD7hY=zhe
z5^^S3;wWI0KrL!gm?~k;m$=c<cJ2l2d>M-tEYJm!%@~MTm9UEIMuaV`0+>;j&1uLw
zS~(29xMrk56U6mmfji9M9p%nJ0pS~aWpS3nZzCMW-W+-g9Nr%84J`0IknPtKkp9Zd
zDiW#@<^*=)>!!q-s?3<#;4WjKEC;^~aj!rTty3erHxY3WizzJL!s2Z#-oZi%`5f9_
z%1$+3m||`y%qw!JdWY=QqE#h@2t#E%W*@QPFYi61Z1q@?$1h~%q&O}dVhA3y9Dk(8
zhUJEO$(qY7Di|2|XgT(L_fCL$c)0A!4f7MH`^WTO(sx{<qwNz~s^52e_}1{ML-IG@
zK7Z@{dV8^LSZo_E_)n}lr5gVo(?=(z11+l)AHVvfwjNS<Vr_Um@u;>FkZTS}M{$p8
zqxX|fiF$t_<Ja%mA*Nmr1Z&Oh_eSoHY_%5-^sYG|1Guks^^8JzNUS}y^(SKOh}0Ci
z7rPtV@)w$7Yj&xlXY<m=r3dZB{&QkK=JN91HW-p`8~6wQ;Xv`FDe<ML!r)tC+gtgz
zck)f|uGyc2yEjj4oWP{v%VOWlh43qRZ&0cauXB&;qtd~Sd}J`+Iha3q?A95nuAx|W
zNUXz|>qexiggDoceE3MdX<*F`foPpS?~fF`om-(t-b0c<vd)SA?k%Pm8yDfvKmLWc
ze(kk_w|)J+N8YZj_`^5E!zVu<D2~4?j=%fp@VifTE$@r^*1sRzvOlh$%+r&fThw~n
z;rTIrlU|FjUw!Q8m3&RN58pbxZYc(jiNRw9-|<zuRO4H_^3jRiJ1%v0tyvy>+okRv
ztUDo}i}j&xU&9(xY&<MB9xnJ|xRa;F{?m_qrzJ?gdOJmLXVDuIy|FFsvA2K6OzIn}
z3@`Xjf1&c}6C3*qzJ5%+o)up_`^a}z;d4mz9x8hKMQ{Iu{>R=Ibv}EB7kp>o7PNO2
z!$V?tNb&~q`^WAK{_Vvre=#~LMn?-BW8#6aym$Qbci`T%d-8N}2lB-A`TEXceZN@W
zU#LCu;Jrt+#~{4F?YZU2w~jsbj!XLvNP(VWU{DMUKBUCJ(CRBs0wFbNQ4I8of!^(w
z(7oxq(_7AB*O1sXRP34%yCw=PlfSW=Pk2@*)I9F`M6vyt2!Hf($UoOL6}@eux2@>y
z5xqSnGjZ1y=}wVWauvg3*RV*Rfcwx8Ql=gd0|Q_9L(;*v;=z9LV83*r{oe51VW}l@
z@ABQt+o66b)Ljf65kp6cp<`m`m=x(PMvjS*V`?e}awKg{J5EfGm|e}j9jm*+vpQL7
zRwfNTqJ!(BBHi%|Iw&0oub;V}#A7@w_Ma`p&WY{k^6lsI2QJ`yDb)v7UwyK#b=|q{
z%I|~3{>L<2pgTi%Udj6+Mc-l3cX*2__>QdFw`&i4dVT%O<J!@@WAx#KT65@_L_PSq
zO8GJsmtFBVq^uXyY&<U0@%Vd-iL~0oLH>a#-yLK#Cb-ZfsYyCTU!y&i&F~pR)$v&b
z-Q^D>Nfy3u#ldW$W6Gm(Ii+Yi4pYNQfyRU1g5sMGNy*e@ZCda7ia=GGqI#^pCyo0{
zR;b}7`8rE>Y&nQ4^3;i~OVnk`Iz~O&*Hp49Ef@uDyV`b;hCs=wwq2y9WBuaY^Q9UU
zra?QckKa8}a;vb1G_|dV@3xd`RoIKO)v0YCaW&qth|cD(>lK8uaf;~CMh<Nfe7no0
z)2#BpBYX_LiE_%0Se0*ITnI-5@q<sS;)732{ooT@;Icv%$kjbn%$H&)6}#pDQYELU
zWH;sG&tjrjnDSR6m>-S^{x_xavk`~s6}d*CSCgO|rc&gPf`Q=~9zX4}93Nj4QfWS>
ze;ZYgegOqR+pR47Q%F%@8+|a@F|6L15pD%QJYfDb6eTl7QBNI&qJKr&e@%Q}TO5?>
tYXZe@u=vVng2G0q_Fs{q|8n}*-Yqx}eqh_NT{lr<)E(DXL}@7V{6A{n6+!?2

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/glm4_moe_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/glm4_moe_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d94baffa37b87ec031221cbd831dc28be599c9e
GIT binary patch
literal 9266
zcmbt4TWlNGm3R0i#g|A*qA1ED^`<OSmh4!vBfo8_Rcvh%yLoV(aB0p+Ce4R(XB684
zg*A!*RT>A8Q7mks3s@<Nje;1c3KXapD6r{IcZ)4hjj08hiHh~2!2<bXBL@lcvwO~v
zGo%zcNp~;A`#9&^bKmDR`gfbnLLjAdZzZ^PLjH^mCFv`b?SF#G9l{cpNs&moWFic-
zH7QM68__Zd)24K3eMB$UnUo=71eh*mN}D6*v?XFmH$)oJ)`&H2i`dfkh&}CyIMU9D
zQ>NFa8q=<bORgJI?zAW3k?Y1(Q@T0Q%n%LXJY35MOnF8TuZBz#*7OEp&7A84Z3WtT
zg9%wa#m01qkxUo3*XFrQoP)adWadW5BsHDB5))2m({m|KNMtk5BLOc+-kso!*=&k`
zHb!G<sqqY#5@HkcnK;s)j-^tPRR*2scs@4ENjABKJ!GW+>~(?0;sVDipzmj9vNRpT
z?vix}Ba=b`^Rr+bhU7U4t%gJ<Aw*Nz*;%=1g~?ycUga{01&+qcYc1!EmB#jUsQd_y
zh$DC`5e>_5+8NCfnPFJX8`g-9)pB}P#~D~XXPhyxhBtH(6Ke#R34UhySvWIiX$3B9
zgIcqywQ|n}*0x|IWX8$bp}%#BTxTM-3nb)_nkQ4~gXgo{`7Fz&s!Nf~f;w$YWvW={
z;D=|nEdcZ%m^(y3sGQ!^<jC7_?{bWC)^HD)9Eqy^X9=__Cl1pE`Y7^~lZ;btE!;@J
z85A6=gBDD`oN^>-RqE9eC`?LAa4WT>N2ygyRxh}eR<c>CRm%@5^97FTIN!q2@SQo@
zlySa=qwza)v@0B8U-l^VYRNYUL8Zl-l#}@(oJ+D(fmh39PqnVp>hHJ033f@{?Z1kr
zI&WnhLTY%b=f;|0geHaN1_@cFCqDfjNDB?)0=&Fv9A5UZ1?%`wP0Lq<3J)CLf$OQk
z_5bawmol#mgf3<J!vmomWTWFTIvc&p-8crQ<A76|m-qo0^?EEd&($K!fQ27iyut<2
z_?iOh6AGl~c_DC_3(UoMo?`(K5P+)s+ye1zh8O63T*%S@J5Ljt*(wO+Pgo+MW=YS_
z&v8^TMWeEmiAv4!c}lsA5S7=SiKV$H4^7E6N4eL_K-`{aj8e(5gEqlR%`hMbU06WR
z@==g=au2CV-N+~}#3(Wc0VcVtU@pT}fXyn9-$AUQoMeoHv`(Zr$#CXxE}lGhPIAnE
zFqY3NO1W9?y3{BGSWbu~QWcP02H{?pNgVP{mPbPwDp_8@eLqWSmP-29v+>wvNjuAd
zB2Z^iJCP`^vx-qCj&Ni2^8CyUh-s~)<GIufMX4Z}qtSQ@PAMAYQBnm0H^2J3At60C
zG?$p$2ipN-?YllddU)*WC^wW!TppUcAzaC3hF(vl(nGNK^u}B^krDWz>>QVgCCayQ
zPF4^6&@9N>XgbTu8yzh}!*e%i3yieTQC|{=mDBD3BK}LrzPw4cOtv?TqRD%=b<@;U
z?A^Ph!!o=d%Z_445KDh?_&^!nGlFGjv1=I1z@y%QLhlK&_k@i7q$7B5VP#=sVDb;H
zKeqn9HQ#Xo;r^{)*L%KqeMRfRUtRun;+KhSt)|n0m_3gT1o|Xbl11ypA2fe7|K1F^
z4jI>0G7zVy;OKhj=-P7mOB$x}z_wQFwwH+3W-nPtXx}d^?^}Lhf8V|?6h@yDN1x00
zKaX5{ioFBxCErcHmw7j{ezEY>dGV?9`QB-Hip7@JCEeTBZCE>ztmPY#ofqcj1<6P&
zhJb-`!aU8yRrLb2D86N7^*hMH2x6+riq+KAwW!R>Nl+D%tWgPSO;#tUs%XZ<>fg{U
zYFR@~f1RMJo*5l$1Ux9Lq->lie9L8075`OuRb4LX1yv{}75kt{2u2goR%Xf&Gnple
zhMfKkc?B-Tq7g<^)mpVvQWc$5Sk9;j+C@{&l*G%oE3syk!u$jZi%MaEk-fVZK(p>z
ztGyZ$WYL;yfZ4x7$R$|SqHWQhvnAWU&gp{+Xwi|ge<R+hAvtZ%oO9$fNq-$amAk>4
zfKHclsw;4Q%f2@NN2g+{G9>5BS#yqY7~mGzFF8XJU*@h<qjar8mx9ch1y#W&dlhK4
z%vqH=-M1+xec!Is6dXfteWio*7eY$UoI$~{j;m(~p@TWFC38%2uR>8R;j{*;Ev2UP
z_mRa$VMu|p&YU6Fc)w9u`vp>ibAidm)Z)5`uwUufO=vGeYWDSjf~l6QTNxE7t7Gos
z8`r!{E|6>Fy7pyqjR|?C(KH3UkJ?T$p{9^)dIa)x1laG80ccX9fwFx99FRLCr@6`8
zU~(F`cQ@hAX>-~nAa|#vDi5ld9J$&L0+_kg{)9fN<f!(!sbL6=R)35-^hwpot@2<s
z38LJ9diWgk&3IPJs{KJO=~x}EBMvjW0M>j}awQw8V=6UPpHutdN<xO|3CS`?LAOyM
z!SRw#xG@I`9xMs4SQgyVVAsGg1n@-IKwl5v7Y-RD6Y6x?i_*zQWdX$p1Oi8S3R5AH
zq3kb7#%nQ}0Y)J`JqU366lRBzLWgY2r;Q`>c&Y(RG>m9RG=cU9P9lo<g;P(^rCiy^
zE9+l0jrj0*3XF&pe=NL<#|dD}{{*s|1oW1(X=$<8;{Vv&zN{;{TkagaeYD{25#2p&
zt$FuIv8C<K;_byk%aGVIw9zv9QAhV9um7HH#a8g{7rpxn-h-m|;QFNxNAli@|7`WI
zxbMESO7pD)<@yV&7olD<lBRYT%HO?uU2GeA=ou=xN$Z}+9%6I9GyUfDM%(`N(57{~
z==M^4EnxnjDHN|b)&MEHXYy^o3ynJ{BUEhtJFUFH3j|)TdL!ZWLSW!!lF=#e4mhcI
zGpTAjc}zKjdr}$cYn*h*DOdZ3ndy*T(j|HDtM#dDjO8Ws+3Rs`PQD}B7`XM;R06I?
zEEVNojUk4fhCz57pmN~WD9eGvortBtC|o%He>v?M1{ab04<Li1)@W@_TX38Uw-;7>
z@-6)v&i*gA-2Tr9V{7`z=_zTU{HkP-seFZ&KCz{5O`mTGZ#cs$UD4@*Ls~jl(jzgC
zD(#1!7IMejrTrPxrG3vcPJUxPY1aPM#6Z5_thH#41bX;SaiyQ43|jD^fCDcia1`K!
z0c^pJ$SwLb5WKIUsE8ypVCK_cfAS#>Jq!>TOOeM#FmSE1bd+sxj+HFfk{di)=@|j~
zO)LZ^zzi=tCzWSXe$4nx0{k2o5BVf5JTgg_N<e`ok)*o}oG9KK+KFxBOd`VqJw1jk
zJ<DC5pQWh&Kt^ye8owgxXK8kRj&{p<e6n-p7jB5nfx*mDwAm<%B6?OPVdv9xyrfNm
z2ckpf6n$KZwiTU30yC%FoREv6Vxy>o=rCrdFq?u*azPj;eg#~e>dNV}h|tRjP$_Y^
zQRs(AMySeS3M;UyyriFtB`E9^Zay0qBrTkWd?U*sXq78)F!VWK%A*}7OQ#)KSyZ{c
zE`k<9-}(OHk@Noz*8_!;%iOxv;wx#P{G_?Hq=ynrbB}iuWR81y{fy`yD;W`JB6iod
z8EU0|i@EjZ+7f}{zIGdnl9%l1EVK`c?Zbuk!(#j42ZQ<c$qkcl%VdAY`lfZGsc+4{
zX*yKWberwP*0!aok6ZUH>x=$C!9ODUM+*MKqW|!Np1l9WvbpH%x;L~kv=+?!2A7Sy
zT3&y_yI1t?EqD)z-UI8CdG9#z@%fjHA9wcMo?1SAx2d=%crUS%`03T<$>N@_dskPk
z{xrQj`BB@z+UWY^gBSnhm4AL^v+bFWI>T$%@|~l1jaweyopZO(Z3K@#xb|<xP0zE%
zzVPzo-N}cZ?vjmk^_T3Vv8~_?iq7Dc$6svk+Y0V02K#??=GRldoO*CAe{k|Kcs0Jq
zdVN##=UQW<>o0A@H~9Dvak`g}y!H31jSn52MPKhm--~PhLg<JXI`ZIP;prE|r(ej2
zUfl4#v~1jJIZzDttPgxR3!J>J645le@DTPF+dJ3jgK>a*!1>YG>|Z`^A<ov%h|X-^
zvbqXZzi9Puv>)HJp4f5^)lz?k)FnO8eZ`|J|83~>@rhybyWzpffc9TI7|10XI{1m~
zJRcR{K1o*9x5t(RVh=*BjFBS&WkU4g!SCgzMwMCxIVxQgz;wJ;#;bnR3_N<Up&)u#
z&uYqP7r?)XYoajeaspdZsn(RT*HN*>Yrw!aiIQYjQuNBAIcH`Wv|VVo96D6#pr7iW
zsXz!J%9gN()hwC>vjWeV?&}neV9lZ&kyAZy1*{*FVtIkpZ%Wpmv+A=cysCk$MN7^C
za~>sRSwk0}FwgRun&gnDI)WSyRnI_fscR5apAI-WtD`D4WqtL>yXu1-JXXJFJzo&4
z%Zg?PEB*gJGIQ(L4lZ?kR%N_znSY(0_2$oN6n?wrU#Gu9`3)n(`~i!>fn6zQ0*}kG
zV{PAXGZvt?kANqR8XD4KLru?yB%IOiq|6QOHNJu7n!5`he|9HU^$5XkC%L*DSuHLD
zyl`v1z;QCLn<pVvPd14Pd{=q`pE`c7x)$R<!bgC5cewrupsDlSM*$vn&iKikYotU&
z683m^5>#)xJ`b2#9nTt|=%egP0vafCdct}F6?9GU1j;)5dtbd*_e~#EWa=z)->lv?
zn=HfYNli;dhO3e&XZq`IHH-I})aU^C&ICNnyWusvjW5USBejw_)G$pwuy%?PM>b=@
z3qa#)!3Nq()@`y8yb%1l)f&s(s9LUkn4X7jA)TZL>k)#^ngm-lkil3+rm`(apFz4-
zil<B=C`Bm7kSIPyijr8iY3U1C!v{z4@ldqw=_Sk}m?bbn!;&7y49zv!K9`MII)Tk;
z%;Z5)pi_#OY_Ow$6|$FYSX7(zDrPCn(wJp1%VLIiM=~k<AeqZy`UHDjGGc@qE1rs(
zxx?hGL{8A4N822X1Rh1y4lA|dVEMmprlNxl-wV*uKk%Im)@r9E7>WN4h&wP{J;ZE#
z$NFRIU5jYyeA|i+_4w`aB~#JkzjOZf`PJ@1=eXE8p7$JGG8Y>>cQrpgUTkY$I&<q>
z(cy;ZvgqhqjXiYq0dU#0<?dKBZMugytiu(Xbve3vWz#fNbouV=yS;B!R|t%Wfw8>n
z@RG6E;99=?*3l{(`p^+7_Vq98Hl5wYfk7<$Adrsb-Yr+tGFxcgCpPcPyTa?;g^>wy
zWa6P~0vx=8vrlyP6`Wzw8D68C&XLDj;%=@(o_9@rQsy%(HV@}rBkOG8(3E&+>Y-~&
z=CfCH?kzY+MCZu*$fom<%4ZjO-Zcfm_3r*c*AcPnNYUxtXgzgz^ye4WJcZCnF?2HD
zb4qMGwc$Md;foNC@3wDP17P?&-5c({f_p@CkK`Q()?a(*7~66--?87eZ*-j6be@LD
zMbSH0@Q#Y!(Fcs^J+k!uN8Vt;J0N-o3f>{nJG9jvycb!CteFe_N5uXkh5j>Q|CxOI
z*}v$uN9{{z3f3;s+O>M7&^;!?pY<?AFdBUYXQ$}wEI0>6=U_=oY>fqLpJ?q{(-r#1
zMfkHG1tYmBC=ZRHkxx9qBDf)YM#McM#kTHy<16FE_TGE1uDrSx94Q6|3c&+n@IWCr
zCI-ify+eiGF|l{7(0fYkJ@r_x1q<G6YHBWNEq>Qyy{*Z<bhhM|2Ms*523Ajs)}H^c
z28wN6tCRQRc#Kox$W%W3jM)9mM)&!RwrTlhp~wEHrDN5+YT0OkFDkdJTaLEX@2y4F
z5*yuPn~uX9ro(dJC1l4>aOfjOqmm^GA9UFH6xOZL=xg(_R2f4Z_*5~tPM^mNLsn(K
zRTdH`UnMPkDJsjB8`!i}zCFb`_+}RcfwvE!a@ga9>^#y&<bfGF!Tir4`|=G4S@`t6
z)xpmR6s56e7`^=wdV^Sj3*+i58Re>pSbDe3ay6nk!RU`X0^d=O6`+EuQLdUulec7+
zs}|DUvwC6We5pZhS}`zndgW-zCO7TG*SXrY(q3}NO(zc2C|6y?(tKAZn*Cq6u`O?z
zJn4{+eh(KQJNAxvHkIP!upl3fU5-<ELktkT0|6sP6ePX;36NrRT?*j$wQ$Y%wQ%|S
zS{Q<nLKb+H_ZKx9ML}BLRawHKjbDx^pdTY0eiA1+G*J0c2Qva`2mcLH`=yS8cSEEG
zxqmrgNl|=CK^X$%86N*(1j3rpc_9IzMfLk{`7SKrL@+QS@5cM2yfa~BVHz)AqGR+&
z&_sKipMngcO$@VbB22@_q~TAb`%k3#&&2hG&dg}OAdqci_PIv`nSn5XKJs5?&+<!o
W^PZcA$A+YaIdV7hIl)pM>wf{KpZxv+

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/granite_20b_fc_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/granite_20b_fc_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f0003070477bfabe29ae6b74cbd38a617dc9d8b8
GIT binary patch
literal 9334
zcmd5iTWlLwc6ay?-w%ltNlBD6dQcK6OLFwKV##(a%dulAc4X&4BumhokxZHo?aVNi
zg`trGDWYIgEWK!987Qzax_}kfz^dH<Re=Hx7Q2Cq6sRbwOJ=G7Zr8<P|L9n5(&VS-
z&TvRtkz?;ifsVy{&wZVH?>Xn5d(OH3++@-t_@b(xgvoA%evb?Cr!E4Iwg9++C`1ua
z<j1)pO2ia?1%Y8@6vdQ&r3e#Im0u<HQ~RqRS4A~3tzRp)siV4>-me$os;D7m^c!O)
zzbR(+n`0KgC1&+oW7YoZSdG6%?4ya=Vs^h>gtgJyn8WXgIsML<%kPTS`Rl}bU9>*d
z;BOFNebgOm^fwYnf#?Rh=?)>S-ruZ1ClO_MA5liyen(lXC9e`*(;snR#!Cp=S^CFG
zIv%0{Hk_V)b!L(dB`BJKqWV}gnz#Z$bu4(94seM?G!P0#qk%Bx)d;o6F9o^diP%Dv
z=E8~iYZwj73DuKylnYKJ;~`vo9J&iev1*!T+2A}an8ea~KqfZ2Pb_jwFvQW6Ty-iw
zmtbN+JX|n7fk-QNfi>wdd^X6iuvC>`3MJxfGDZj3g<yylYUaXmDiBJ<Vu^TQfuZNZ
zi-I-G;u^eMIuKz2dCfwQ;ljbFSPDcFL5jsh2*<-5l;-C}A{dXwubxj_rsLrynh8lH
zl+x;A;SmqO2OuRh@)H#DD=5ORq!hGjPO*&U2uk_B(XXadbQPthHB=R?ovWfW@2mVe
zN(*&5`03$ip!Kw&4ln_)WXM#4q>)C-yre;B&PrKeylELN5`Ob6@>&JQNhS!(ruz?G
zoH|~n%+j}d5<Xl(V$PAUV;~p_1SYvlG&wJg>VaWBb48Zne&P5$83QSZlHoW<$0?c;
z@!(-emL{)+xl7`BdNGIz%Jy-hY=A%nI2vk#K;j~9KpmJ1^+v++NKix~cj(oN#S1J=
zkykF!ak8g}jt4JB>7HPcOY~rjJ)uj9aEOK$sRS$QDej=W@}9Ynh$zU=B;F!Rb7EQ0
zaV54XimbvJJ_h*rXc>~fB5oiKa_Rd}!K1%`qt6p}ibn{J7r~=IX*`c2D!F$#haSbl
zg%GEc>m#CikxNoeDP+trrb=$RioD91CCg!%1>z~2SgP4m@iyy&bEjsL3p68W0|8M`
z1A^{i0?3Z{Dp*B6upG#Bu|~nrf(DCyI7$l^iA_MI07K8yi(aLmV(I7{<Ajw6x<DWl
z4YF(?z~bGI<a^)F^>ML<zJ>5Y51^c<xt_)3$f428BXnOhe6ergDt9Rn?|U~IjrGxS
zj=8#!0C8da5(~h{up|=_yV$-WzXFmtNV-I7>s`3Y)WdvB%_sMj;a+*8eb9*=g5;a`
z(2myhp(dkst<-I6+wRx-mQ^2_^JM#N^DXnTYFpd5)7<j&rJGBez9ZS@qsyv))4CtQ
zKqMGNsSYHP+(MEQG)z%xRWUS|Wa6O`7oo2SexjUEklsMRd5mGt#}n@ojF~HqqlkHs
zp1TTJ+0G(PzDm%Y;@Ff@hd4OK(g%38GF;9hhB7QeWvP^9D5c_za%;pQL*<-Oa<Y;_
zyh<K*rzp(?nnx)$XOsJvdrYEtD1_dIeyOUIhSx-D<v!)Sv>Pp7MX8pcVZXU90}jT)
ztK>dd!9}pN?fGPEaZsQs9j}hyj(a{{8EM#41x23VwY;t#$-AS}c&J<=&_{DB^b9Ih
zRjgbsk1SJ(S5Km!>O+co6jHnc@|V(cjq*Au4c9Egyq?nHxw#g(CekWH<s5qHa4(9u
ztC#1vYbZfR8M?0cXhellhLoNMn(#!#Q^p}fAUhp0T+Zbk)T5NKLNZOffj2T5-dHJ}
z6sjzRz^n-=Qu-^X4RKvE#&*Q?rc4zy?3P=~Ic4Te^2!NRG3%c55K_DahEvLP%`{ug
zuMk(zqVg?th45Ntra&VZv66zT8nhHm3Hp-CVzC~>w-L8gKb1(vDbhocxK+B@z+ebn
zqS-%U#m!&|Uvic#izj-rf>zeEf+`-2(Si<i8`ut@x;`cZBMpWGLkEIvC>-`Gm>!I;
z7ZR^RP;pm5^&Wu2`K8_y3<K9;I8M@%0fX<%@^a>wM2uu;b^+`Xn)I+<2jj+=@VRF2
z6(XpjVU}aC^uU6^T!Gu05vnA+Lr_!n#pJx8jDk|v(Q#NE19z&Rgu56n0Ic7Is^9|X
zS)dRTyb_=!qYdjU2CD=?C0aOYDj8c~1r^56;KL*6PArD#1<|%r(|8A7GehE0?Kr_Q
zCMW@!pefQ*sKMxEf{9#V1tKh{#dg6Y-8G3h$)a+_ff!Hr4oIstJ%NJp;@Nz7HiBl&
zkYh8Y{4x082sK5@mMu?q$@`Q`;`?2P0R{Uxh{JoRP=$=voPo?3$TefeFt}su%Qv>J
zF&l?>l?uDLfD|V4t`=G9e-c|(78HFt^Nyo_WiZ#!mucwBHH>B&MmOBqhN-OM<nqZK
zW6e*`e0XNFZs-$sW8_!-wsG=)OWUTg>4Dp`I{!O&?{#gONDtj7J-2nYbbn(=n+jUg
zcW}MsWBQZOM(3}hTfHx(Pp%wWC2pR$K9jR|W$azscHcc!L5Zrp(6_oRXZ2>R-n`v;
zW9Iry-qpVP&gQ@?o31mDl!{u%eTVa*T2Wi~SgES6DcDeB-)<8!*`zh~e{y_t^mKOc
zm2Kmhhc47H`p9XlH$QX$l%C$LMb&lry0)E0Z@$sDHk@hff6&@-+jq;CcYD{mGw$I}
zF91Q>>UT9&O^*Lo>j1wUMi!jN<SZaSRB$6_+h*I;>f1TbaK<yd&i(zhzrB|AOl^vk
z!DMa8H+a5i^Q~xhH7ZP6mB|d`e_^Ox{GYFy0o6CVK4h)?3aNnDGDT0_dtuu+y@xxG
zF?YTzsG;MxEN1H3@%j^^=r@Y769cN>9PR`7w+E_lI-thssBWrH`5DnR<x_svPGH!l
zhEy<tAMkECkz~O{UE~B~D9JEz=B1JzY+WuW!8PTM*r)<;hZU+zy-QV=;t;uFCRBNk
zW7|)(9#jB<jajrO;l3(afE9Hpf;HBjPuAm?p^b5auHUCmq-0%`2bX7Hh^sK)zJ2z^
zCeO$kE9?{H-I6sti>;u_T^1*0tQ_92_(e(<iClwFyyb`6D_XHG*z;M?5>PLt)nR)@
z2R}X7Pi1=k;7(G8io4walqu3MW#A1JI7&PbY5hTkO{Cxr6skwORvsx@MaGng*Y9T)
zaV6V^hmr8lge{}8bs|%kKw=x{>*rkI5AJg5hw<q4TPbg>T+35wL45Q<MVn3@Ln$v$
zf>c^~9Y_SeI`(|n!if`MlrleMG*}l{I-k-CxYGo4X1~_`=aVc@ye1fT@F{(im*0k2
z@A2kH=bq(4kt$h!DGP65{*J>}l=wyPJ+<fKEmYNAjVu!>YsE@Y1RDr@zWrBJX{n~F
zc`ILyWi3_1k@E0Jn+%n6O3T;CGlQ*F@+3IyAc^1pvvDt!+H3BXI2jp`Ys)#M2aB|L
z!tRzV(s|;pNv=)VV2<bB=b~a!f%nSSU`Y)rLyE&timSmAw8a%Tt)O3NWx!L=D&QyA
z$Sb3&prn#Z`>$X>S*OhMx`AG#Jbqu=TK1=1nclqZX<Cq-dx~UP<=Inq-p;)G{2ZgI
zIq)~6Pxg>1xM;syBV&Fh7j1WnbbFGEl)jRpX(CQyZb0sS%3dl?3GT^T;Jj5;aPLo$
ziYKN2PdjhGC2R`p`S#}>p63}Sz83aU!vigzrpuVB^68BC@wH6PGuB)Cgnn?qXvgId
z&_31NA$id})XH*|a`I03^z$`;_RjOmNQFH7zc|(SMhKMrbbMOCmvqT{j^Ieoo-cwO
zqdi}wX-@?d!4Gvk^Zb@>ass`Dt|HmDgf)!G7y-{v%2lBU#^siBPT6^v%$sM<Su3AH
zJSRw!>zeCoF|Y7$9T067U7n?`c!DG8cp^CuQB-U`vXDukSsZUokT?uaUZpwFk7cmC
zEqb6+4A$^Vj(Hefa#=|#JU2InJxoIEbRI(3MtU(6O;U6qo`}=nx2nPYqZdWT6?)-|
zO#t^;bj+~VnuwEe`ikVddML@`#kw8(_TWs#%tFTC>qAh4DG`tC|3cJHa(u~4!8jGA
zN$_duVC)HJ7_V+=eD-p9VFA~NE+yla$skJxv4fn9a%5son!G%==+40t04aH?%?v*8
zk`JpFSI*)nG=rn9f}?Dm!xIJe=>sedNMhqyP#!yTMo`Y4e~rNrG6r8J43-53hsFdO
z1R=|B08&I!P=yi@Hq`?aC0CghOw++AewCmp%o}D9kH@N6uskt!m=cr_CS~yT#$d4$
z9MYa>DgYc~1As&HW*KZRGuV_C^ioI?d+H312*a}kI4WhI7X~tn6?Z>^lcSJ$>m;B3
z6<l!!C(}5Y!O5#QIg1m~nODz6gY&TdQWyoJgEx-yTZo{OeE2Z6C@2#bBZ3B^3gGlC
zRysY!mmhd%NiujRQn;j4WF_|>g2{1CFv;x!ESfl!0j`x$4giQT7qhrYxhE@>%0*OF
z&<?LQ%qiFji#2#TIIstjVg>H+2LK@QP!z?bf#;4Ilm{)~nb+agd=Kr~k<qfuXASPZ
zW>*JqPu!ZwHurBC`X%=_H*z*JayD;tf$u!32WQvrx^HR7SvoS7j#cjVwOiM=EyFvu
z<~9AcZD7+lP%xsV)?DN0R^#Yjs&D9iru#?wpThqT{+FSDJ@n6q?)fqk=a<z5#c74k
zm3KESPv`61%dZp^R+D?j-Mp&8A?~cZFRj}FpWVCucGmq;T6f>k{EN2LXts4=%Q3Ly
z8QCy?`qroZ&C#=)uf37=ym@^lJ-gDGw>RhP9T|Jaj;m|Uy&nG5dv8AT(uGa$>si+u
zu=ZL9ti85r)d>NK^r;=PXDtj-4{|DfDsON6g>Cix?H}FxQMP3;V;|hx+#-cB)@<AM
z9tcS|$>M6Vj)7egjlQ@so*g-L@7UJJblS8+<(m34P5oQefz8<q5cDuL?HZBQmLAVq
zT2{|(SvvC0hFv|Xwx_4F*4EW?S!>7Lfwfe&d;C*X?&$f<(es;cyqP)rX14oHAf?@v
zvvp={oog>_*$(8}hjQ(QGVO;py0h(5>FF<=?K@oueyRUhzdn91x!rYP#kAAhx;mI^
zo5-|HY;d_Fvl;knJD+X7u%gO$4Xsn_^k&!L71IM()6b1JjhmkFjnuYldWSslfb7Zp
zdUL*sjBjG6XCmK!1ZdXV@rRCsw;~(VY9!lnd{?J#X)P!<T}``6T}%Cn8p0=ajXBpq
z#x<}$nHzjLGx&1Wbqb;_50#3#`fb-K2=}yjZmRFQ$@GZ_oxZj4Z0DhkW0}tJv})Vh
zp6?yNd3WAw&sn=O*6y6OKV$7*@87l#?^qo-jMt5ujl&zN+~}Fi=$UQnbl&Ms8v&=I
zK398itM*`?d?7~;WyqoRxhy%JHhp0ucideM+}?bLFV``a=@`p<`gYm|vu(pW-m$!Q
z7`EhV{X^@4TfU9<RbRIC$gWA#*i=yJ+Us|fhDJyFM8SmyM$(hNv-iQGe|DmvM=kxu
zIWA|(m(r%Z%biyLCrs4Pw8G_@$1=@h8-uwQU(LW@^Vw{}x%A{td)MvLw@$C6?hS3X
zpG!~YJ>Hz>aK>|Z<9u%XTn7F;ujM?iXFRXxU2PEb>TslIU{@Y5bajgC8_BedY&l2E
z9J^`yqONnt+w;r%kL%ZGHqX7j?R{g#oNwq_o7rj@!$-n=&y@ANzA}|R(7!&oKD0Ky
zGJW6KzUe&pf5KZ}Gpx9CaCvgu*p|1smd|{%ODmDRGiU40*t&DJ;f!rKXPeB}CclCJ
zm%GHyliSvpzi>7b)KK}|?j@xdBvb2LdxK<B%q(wx6<7w*ORROiD;S{Tw=BLEe%-E`
zCD5<EFAbeLf_~fF1BK5_C+Z>lylct<S?0*$*Cv!(FA@N6jT0E2Py(DKbhAg4S$+5H
zm@+%22H0!CkB#E38W8k>0Nhu}C>;n0#z5f5$zZhDq6q}3L?{qo>@dCfq9-Up12fn^
zmBQYqF@%F+f)dOe@#<z+Tr?G59z!&|Oa{R0Xn|T5JD^8J?anv=6cc=>v9}=k=6&=~
zp;2oKHEQ)SV)ejdg!6)VRBg_?n+r;u`;LhDeVyl#8p;KZ2rAUB`_B4;8Uvv10Mv+}
z7S*~6IuX>PM$hW(&FO+cEE<u!ef9Xw@q$S#no)i0YTM1mf<-J^QB7x|S_Es5-m#*}
z=-gl1aGAlLySQd=i)asksgQst4e`H4u)V>HA(0f~TL9ySzJgkOlV$MRl7Owjy=F--
zwn};vV(^}oY?}uB_S%b0o#NYTZwSA^C%JHxm5d4Udp)Gr+1>>v!6jft5`VBIA~8fX
zOboba#0mK8NI3K~B%)Oz8BKUgz;5`T9F>o|436gszULY*ty(nFL~{q*XQH_#7{u|?
z(+Fe37+b^|m@dwWW*Nguo9->W`AcGm-}WVI4U5pnNa9K>Mxi|{3GxK<=TOAL#$q-U
zlmtOM(jvn6C2Ic?xqpx9{~gtQiTeKw9r{|KB@|yHNFL(kag73sRcb=<2to4LhzJ-l
c_8&TX`pvAa>AkAms;H81t@s}!oQre+FW`-uBLDyZ

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/granite_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/granite_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ddef57a2592983450fa08e2b92c5c7bc930eaada
GIT binary patch
literal 8520
zcmd5hTWlLwc6T^@bNG-*i4^r3iKHY-7G=xU!-_1&YsrZn%ZVe|yJ52>7|uwh%-7Bg
zV@V|wZxNshb{DG@Eh3{WqM!jH!v>-N0jdH;n<5F|K7fj*P%;Ar>+QN&<d2S(CQUxt
zb7wdt?f8*=6zG+B@43%&?m73~^O%1zn~exkO#O@KXb(ca!xbfI%D~;f2jES_Aclyc
zATCugBCZOm2)T_6lF&xR)NxHvBekhx+PE&LlVD9uA2$RIabwUJHw8^`DoDl6L37*^
zw8X7Jt29O%v&HLzbrP(L)yM5Yd)yIp#2bPQ@y1}I)UJ;?<F24ff(@~zxI5@3kP5Lb
zw)q+%QyOehp{EdId<`)sw(c5PZf#v6{M6^Ta>h@H`Wg0TX*LmI0oELg#gdl*sEda$
zvLPXvjD;fMSS%D}{5rAW_=T`=JQ+{LSRtBBJdfw`f><}n#)R;RbRvRVkHc`0lA5Mj
zo)6EnqFJiV!eUZq%haO4g(CvXC`~65b4e~9#?wXWo`v+v5TMD3;pf5}&vJgXXpSTk
zd^*mC_*6K;iuH5R1QUuR<MCu7l;YUA=%Q$g^0)<)%Z3(sSiC+J=7eZCCe=c*WSHS$
zVN)~_6`(dh4=WQQbu6(oo4m*-qRT87k$EQPb>+(43;=%uM}S2^f<ZwQLx9Ltta?th
zg60T@e2off7&WV9G^~!%vidnKqkByqG%$K-Gr-RXKND+YO--;8LscMi1(Ih{jAdDe
z(4392!hG`zS|oy&8RWN#bx(0&Ae*f+W%-tohJ+hvEHoN63%sI%x3qA9rRU`d^ufS>
zI-X?M7$2ZdCImLYu#7Yl4@~nceJLtjkY=!pVaz>#K#&dsNIxX7&=LlImRAcbL=y{P
zX}Z!CFiO>PJj>9RF0cu@zn@KnUy8B);k1zK$7}URE+nH77JB3wP}^Uow!E&iM3`e~
zyb+!iq`GJjDsoYkWq}KPu<`HilaT#6@g@?Wl+){~4EhyZ+zfH8d@10<5E&Gz%x7Rk
zsC+dLT0(yE%(8hrBX1e7XC{_S<CWS396b%6PO+S*4~3+I6A}$CC4n=TG|`AbUf`mM
zc|R$tc{Vo3H3BK3Ary+l!aN@e@faCRU;ZXEAjDGxsc5QS2y^qS(7%`-IXrrCgdK=Q
zUm8d)2^W%yftO>k_yC&_xTRDwnh^MbWD2+$l|>@+j2|d7O}?;lV<5G};ls7;e(L^%
z5>N>5hkm{dvac_rUA_5rT~6;>YueF!ZZ-9+sDEj><?dcl|H^t7Mj(-r&P*to7E)<J
z)N$q8ujN=F%_Slg4#HS7{3Ln216+O+c)w8QJzhvj*UG>`?aXpp1}&(San(|h;6r9;
zt0NVtGQ*&>R7(YamducxK0`8ubQe_@M-bvHf=L<4kn^yE>uTlsoIwU8;2lb7!J<Ib
zGD9kOvuZ(kGf+k?)GK4Il}{h<6dIH^Mk6>CIHOip_zUz`Dh2*yLU1V~7Mc~PS~6Op
zRjE~1P;e1I!6f>%CZd{05!FwJ5Xx$Vc4a)H6FL+)qha)z7d5-=RQjqVj50_ZBd;43
z9M?@1h*F?8RKFZiqpTLNRe5U8Xc<(?(+DWfh$^eOggi)aC|JCR3uJXQyY?wP)snGf
zbP6s4)!?{KZV}ZBpq{h3S9CMw@)B_gEs`&wON8HghQlHei9a|2*OtQ99drlWewGo9
zmCMhII?y`sVhYR6Q;R7U>oA&$Mg$sO&RCQe_R;f6fnIi2G#u??Xgpndka<x*SJslE
zIuVYuq5<wb=rFj}S3&QvpwKur6y_t*s9(kTfgr9IGQUbx3rq0ifI)(0mjhEA2l%21
znw1qPyfsxM^c<Ir(;UmEKtHmykN4Z*!GZ@VB~lz4Prl5`+L3eP<?$&JwK1um!<LVz
zmK3E%(v6}q%10Bt5C-c&RO1bbhN;B}o5Gr!!><R-mDHxFVc3__^CB5z6C8zC#<GUi
zbUek28WvOR*K;knhsGH`Y@%Mmn*tu!bKy%Ng*g)AdC`1No$JCg2$t7FiS-;#9DcmS
z`Z6D?_6oo3{qC#x-BE{NHh&)8rpu_LN9Lvi)s~~$@)Z3WbJOcDu6f@ITnXgOex){W
zWgu_v{f*iF`uSh{q+~#bx;qrIxz<M4k6n3U!*jE_f7d=xZ0+3Ow#N5JmBUg(Dzl}e
zr45$d4&S@(x7{00=R1bBskU8v>vr4z54=0}k=@4jV&j1iyxSuu^Mj|h4?MH&IDMB?
zIqP9^UHu-AW&ic**H3RZ4SsNZd-PQP&@(&K={qjeHG0=cxh;1Z0a~5jYe02P#U{^g
ztH0RVyD^+=9lYJy^=|Lmy~P&)MqjRF_``ERlE=NL)3!DKm&Q<6Uvj|Ak`tMoB?JrY
zwIIj-VrxgS*;jP6?CI2)e6`u~-(R#s@7H@h$ky})Qo~lLdYPb;HxBGj)Aw!pOT6W8
zOBxvX4SxXm`;WcH+9zG;Bg5FFUHvg>1^8pT2Inrrl$HFr!!u<hKT#6^e`3@?E}G$h
zz8p=ac`!B>1(AxRIS#IfTr+~*B7|kQzB&-=UNBO5v92<@(qt`9Q5w!f@DWlHKJ=2V
zdKq*CSPm6U1y+Jec~`Rfj4GpNkQ+Tj_dG&dah=sQGkO86IXOLA$1TI4AArAhN9FYu
zt?>x_kC^pc{9NNb)K|39#TVfcN&KnNpH%f7&XCtD`fvupuJQA5U*c>+MUO7n?(2kV
zqT|v1HN6!bTV2J9mO-jng8{$$M);XPgIDyfBH4^Vk@kzA3bItzT%(UEg_~7fltvtx
zp|ZxrL-)$4=ZPA5SJqetdo*hjDjFP90Dor8b2m~j@ft>xF)`Y4Xw4XTVhM8KUQcyj
z3WWKdwZOitHQ0>GIuD-1=rOj7lL)O6T<=515LmX{#~I5)pMtAeG6n@h)|Rnx?+aKT
zNNFLUK-Ds1V>DGeAzN2NDO%WH9j8DKrU>t}g0((Vm#N2hGHVyS%Djbc1*(>eDPvb;
zTWcW*2bD1o#wLJ`B&Ur1dPRB*U?1L}81;3tLf3VRf@_|*ZdF>dR>1MS_qnKARN=j5
z?8{(jM#zW?pMn~mRiq1Ygcl4vn2OB=rv`;8w(x_oE*!pp2jGR;6k35tkLG9HgZZWG
z8!S!h!)`hsdB|z1SFmRt83&xnX!QkooSYcD@Px9TYh|EDc8==~W$nkxuHjnwCBIj8
zjJlSmt3<;6kX_t!Ctw%a8kzk7`QLlaf7s0e+2F%+UwW{_FrLTU?FM*P>>1O;=X2WX
zJxmN_8o2()(A#j&OV9|j8zrBsPB^L%oq<;6G-aI`r*h9T_MiXs`=5)NGw}c7{^IvL
zge_Jn;X4ApPK#1ssPrf;ARD?0E6~CNd@=BoAQ1SNTdPxU0fAnCIEUi<01ZznYr{H2
zSy#<E$CaLH$uwqMifkT>(^-oXPLk^t*AmvkP}X=~F4_Cy@T=n|IQ)dqp7{KKAT9SK
zz@cIj$@Dygq_73YLm@}DzykvC)XcMI=p|P892;(uyToB-wcLn3v5I>IUfSH;81{xh
z+eui!-CB&q(hM6)Boi#SSQ-c*vWt?B1%o7S11&qj`GJTbI9SO9onSA?ewL4soinV9
zVJvpk{A%tL6tYvKiZaqVimL{}8`(#rFN70JjHSWvVZ-rz{5DM7@{yT~(NqezM=qoj
z7wIrhhp{i0j)99gCnK-URop)yO?I$4Ic!CVMu})1hw)@DZxmC8%?%D)d}3qOMuzw<
zc0@xwjxgb;Pb80>J}r_nv(Ixlav|-9!+sKn%`(vr!KG>dRgN@?>PV7fMI-Q2_6)&w
zn-0ftNS9@>c(`FaAFEB#dJpO-Ba#sJ;;^5<VU;8{%DZEk5QvTs!5WfN$Km)5hfQbE
zD2Ji2V<~FGDF}u!91hGwY!}>ystX7UaGVuS!&;mhgUsI~JD^YEhGRJU5zg=#=O%GB
zg|iOGM1#aa@F*5V&0H)z4_m540r1KYGp@##<-?)_N~8%jE=W0ij=f{>S|Dbf=J3X3
zm%mcw<=`{~3loB9R{BHu$ksT)Qoz6>ZBiM+i<NqL4K4IT=$o5>P4M`2m)ztBWwPts
z@?EDGM=#~Wxg7XDPIPsA1S4I7Q*;^aIZ#9AddK>UdB@<2p=ffh8P<&3CQrc>$e98g
z!h5e=ePzcqvFq}!M?dgvGJlhJKan4t%5_bBn8~|lS57`)%Bxpj-7y`lPD#F>%nzQ(
zb)C3D<z44iPX5-`Qnb4M^7uNHZ|T2j?JruJ*G}fFUErBp`)}LZH;g;>gWJ@>5{242
z3$3F!TSxy)^QPfX4S&b}L-cQ>|2p(<hyUsDjo#eE?24wOdX+G^iY@fYbkW_m@=Qr(
zF}Lh?jTRmBdegdl+p%wh1uwn3K4<f+8rPoM(;|m!&6u})-Vt*4zM?nq#`Nvx?oH!P
z^Ap>SCvLTS*5=;fH^%<@)m+=~s%h8Ry+Lih@L|)9ALowEZugwqah@-B^{qa$u6pCy
zI~L^VC_0-<TGV}LbFy&g=^Xrbo!q8cZ#i5mQ-I56Up<nycC1epyrVhq=+=RpcRX($
zFByS~g1tLu@7_3Y)4s3h9V&Pa=e&ov`tsfrtJ9x4y}Ld8-ZNe`ZXUUj-sw5FX5MY@
zTt8IsOyoQhTSDRJOb-4%v-$ROYwBXp&?d9VZug9@nQyz=-lDEh+rA@P*&WyPF1_zI
z-Cyht6nZCey%W3r6UD)!5MKy%{l07e+Y4LF`a-_z_?|)2(ODvOJ#BlWp~JnVfsjK}
zYr%Ce=Q^nDEAKi95sEvcs>u!Do)Pu*Z5+vWAKp5a>prro-m!U$frGg0E7}|dTVKxB
zSFjD{Y=fJFJGS9nTjQJ58`O5|@RqtTdOA0HddD_hbhfNg5YK6J7aI28Y}j9<4;1L3
z96hu-m#2@cnngRk+tPEp#b4~|Ep(0Ly2gsWfnCp`yk~gVKUVY)!$x{Lf8V+9?cOc#
zdT+k-=$={E+EyYBUiThpYHeJdD!I_Xk=4n6cMJf_I|j?kU(C}#S~dR%EZ^L=CKTGo
za_wVVhYC+Tn}h%M=km>GS0{J9J@1}+`_xAE#?X%U?CNyU=P&ribH4Gd*}{>tIr#TI
zU+|sJ`OX(z9ynoLjjLy1FFrpEbxNWd$$3U@I!CM0xnlmbse9Mo|DOA*d-Kfp+4DR8
zAFo-8%{?1uZZ?nY`bM@aH_Un8`Lz?peS@2aHitH**QRedz1z<H|5tJZin|Z3Ozu#g
zqTRJ}`s=+J5;?jH_CB~91^aN$K3uR*=IoPSK(wf(BE+Y5Y)^j*=UxMi-|n3!rHGTp
z;JQEJBnP01wr4?5W{Y(7zAc$x;5Ynp@C1FdUww8AeKd67xl#0Sw-549C>6APVx4M)
z;-9-t)IqU5I(~M9%pD>C&J7b79w9M2W_W&-yh-*we~`R+Py?{via+&8YBD4mLm^N=
z=@=UdiBu@`vvfFC?$L!pOfnJ*adx0V`t%}_@RV}c6_Y}%95!z`5;Bnl(?!z7+ybte
z%io3~EPQGWfklDC_&hdfo|K+x4hJiw%!51Lg6!+p&>fXdqc7EKG(GG4zC=)zEd3fw
zv8BC4;<ERsRNgZ9?rNZ3`a>e9(ztFp-6ahM;B^5|CxLp@;3^p;(1==n>oZrTOD3sG
zp%(A@@heA4W~pjH?#^}3mDZ9~s@hO}cd1SS>yfc>O`S8ed}YUV4u4pXDE7BW>K!zH
z5~AtSCt^Mjekmd`f;$VtL~PF8Z&U=ZO%X^+k!D`DOq%hhumCnx%Adjl5&T6mEkt9y
zYy!~V86kfx3#7QDkOTr`VPHE#=DuWBfd4FqtEIrTc=%z9NCtpx^57kSY~dqz?I$-5
ze-#pYzt?=3YHY5_MhdpBB#TQlN%Q5fI)|fKVu#cM=n}kSRB^n#=|JUcsC?!w;x!~&
z3!j&(NEU(=BG-@0r*?w-Bj~~>i=Tz8L=psXSC0tlGvxgpa({*f{}UblN~I@MUm?iu
u;OxtK6;!nvLUk8G_9cY~?`LT2w+6@RPx6Mg%i29{kR(9+eTi@>Vf|lcxa2$l

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/hermes_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/hermes_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..551678934020711a36ddc9891afa15aec5a6ce5f
GIT binary patch
literal 15493
zcmc(GYit{7l34R8J|#XyiXtUaqDWB>(v~IJmSvA+$uEuHubEMHkD%Etn>0mgyUDT5
zqi*Md1>#LMSb1`RJwcGw1Ph$z#>pwc0r3S1;?3SA6XcL%i<&g2qsw};o?9%CAF{2@
zKJG_S)y;0w8hSLhheI0D_pI+#RbPEo-&g#vX0w5SFQfhkssDY6Abx@w>C@B_FaI?p
z9uOo!Dl)_z#>$LhK{=;Xh-Iodl~AXi(?G1sXct=MT7)`vMz^4!(+g=$#;{<VGcK6s
zObg~Y^Fr%f>q6UH+k$1zvS6LF3NYG?ZNWZg7t$>m$AWXtDWr9o_666RYr#F|RuD>p
za#9^1E5zB&d6dLSg4BPDAPtoLV^yuR^R6Od{26A>MHIa5GWCrDl}%ER)=XtGx!aJi
zE+lSI@q8|qi6;}8Ogu$KT6pL5%|w1Wx3HL@@~K?*61HRVymf}k<P#?f*(8=u12}II
ziq29Dlej_gW+8V4Iuk0r$M59nL^4m2Qqk$`e2!j7U~}H|N=G^g1m<MG^o0b?P&DL>
zscb4A&*X00fUJ@?O=a(1$=#x|sUk)5ma{1a#>mJeNpb07Xsu;lK7_>I1L{%4oPs3g
zl%#@E%`5K_^9oY=Ez_KuR8g9FC8_?FdQMAfs1{O7walx9`WC3ykvd9KE7#9!0nh3=
z17KQ18sQ(>k|xSXnL1z;(k!Q1<&@Z?nQSYz5X8KNv_SjTd&C{ZT-#+LV&xsDD0+cn
zMlR5~`qFuQURq{SSz8E3TKGo-zx+K2|FPl$k;hWu`?jh?{6k>al0sq(1(BB+m?#lx
zY`f#j>!gB@YopM6^1^n&^0Zm1t;b|T@6G#6x7MMhREdb!*b<PWgq%F?4VYP6FTs(p
zhPXVwP-m3u)KF)Va~jCW^UM3B@^qJ!s>h@@@0D_Czm%%S(%PX%iD`&kdTja1J=&yk
znq!MG=ED*Msgo%8cNNW{(-8@_9s{Jio|96f@{zt_T~4X|uhp+dYE_SS^xH1gK)(Z0
zx*pFE-&H1+H;AP2>p+(!pnNkfOvmaiq*O_HL*}&m%J2Bq&<D1U%WH+ch9u~E{I@V7
z?rh;B4KTiple;h@g)pnz4XKFnTyb=U%2O!${51jPmp8Nj_Dw45FEFX>4S&Kf?tK43
zj-)ate)fOiD;g*Bk~lt6G)=}DazhPO{n3FpB8|1BS1Th$|0I*76Zz!L_+o-QQiE?S
zDqg*ElM=^nnBPKy$@{NU{>22tzyk6)e;%Ofg2|uEWkKi`lKC9%Ckr$#L@ol!9tELo
zOORxoS)`JwL<UY55Z4S(L^^p5Q&<GCt&7J6sUGJIDL@31Pr$Lnw+UDf!BM)?7Qi{L
z6-7U<fr1=O+p(-YS)geun->qRY+`|mGmzzNi!}9a!)cbFX};|h*c8dP!{jMwLdFyH
z4JHmJlF)*8%7~7`glOy>=FQvd#Z;E86)I_pZ%M)lnaWVScINz*sWWHzwmKwD-JtI9
z)&^w9#UjJCM5aI;$EEOEIE;brd`G=q!@zJ9GrX%_B@ZrCXh}+F+gS%_Yzqrd+->Z*
z-de1(UoXthQ#2p}7%!iQ=czmSh?-Y3RAyepu})Y%494r@@ni;=As%PcfPKH;|K6{E
zE0$kaj4h@XhXGYLsQmDq!v2E?ZtbUHnbh^z;@$ksTsHP@CbJL&y3ltQbE#~eiRBil
zY$7Fc^rCRUGqIb(*(VZBEQ>DQrE$j<ea+6rsKh(n0K)uB(13pV9<ix2f4ha%xgU0H
z=z5<Soy#QGKESpQYz$3q7!PlnY~MZe?K9<$^BblM)!s1IyPxgd&-G5Ry;JvQHcbAf
zLwoP3p=C9?2jlK)FodypOG}vBwlsv^43%3tV(<VK_f-4GG4?;}4t%fpL9uE&^zSbH
zhj;$?otG-5-yk&H))GCz-}ijzshVPcWcxQA|EdG(dW5<z=*QyV+IrX9dN*y}Ev3S`
z@1;s*Z`~qP=2oa2h;os`Y~(N(nPDR{Rg;A?g;-PQ@z|D%7&xwYNhk+|jzTcI{vj@W
zhz%d&!pGR~F#$Hnnu3p=0NX!}u>AsTaLYva0-SeZ-8=D8qZ%^&*gLVT10b`NGx=GQ
zpEHG7Q+U<AYWUQ&uj-w6jzGAS{;gJ_<$-nY0cbe@Ef0KI%LC9-nxBC{JbtS4|LTPk
zy8G1&15`11fd8qZ_aveIPv+i}8Z~dIv*0V54(bc||FR#5`~b8XkoS<?`MpaptwLR+
zmQ(|Jm!L1ct{tgBCcD)STx5G)`#KEmhS8DzcYI4qL7S1sE-6cjBEVcmeX9w)SPQ3!
z+~O{tiA^AXgAo;=PO8q)c+}G_2qG#vifKGu={;h>UQCZcz?)?mfV-bTRKwn;N3pKG
zE>}eAh_J=MrdzT(@D=EY`3Qpd2w-co>tT@dOtA20ny9vQJiNmB4zcjpb_kf$+WC;=
zx{k12M;_B`*RgfWv8vs-;@|>ruz@$8DA~aDx_$boKgjtHu>J$f=IY?^vU<bPUv&jn
zimYpI*|PWPV2m4_W(TLAq}jm>wc3uSZFa6LyxtbBetBb8plk`egvk<o3tcmKv^143
z(AnlpiLAIo{RTq5s(vpiN{XhWZHMwE$~dXGwI8U{0xYG7%Pdh6$;zv<xh!=eqM=a%
z;#(7B8cu3BS48VfgG69>qezRJxfGnJcIH-UamP6fJRz{a1aw00gP=zE_XNVzN1&wG
z+my<$4!DR-k&jUP+FbX;tgV05Rk7{8*HSgwzI*uZAAa~2=i9^j_N<*)_f4Sm+;i{b
zhACWaYroe@AB2{?Nj&j$h5TY6pF{?fKGf@ly*~o`1onQ@onKPCtDsx+aywE1_JZP(
zQZj%q6Z+Te!Za9SJHNWsw4^GjK#Nq@^wuEgt?ImNp`>N&q~1dbOh}X_v_?v0)sRwS
znWWK!4jWPvOPVEhNdvuWYrO*sm$Z4=jv+PqHmTo|megVo4P&E9wBrM)7K9=dk93m0
zU)TH}8Kg28e?N@hvZO765ey87s??6JIi95zc!(uk1GbH&mXeN!|3-|HL}RX|AFE~k
zSbLl3CGrkw*dRfNz($pAh%_!_$48o^@d5I+v`#AD0hxQ7xTAW9xUGno&z*><c$2Uv
zgqsbD<PEZzVo-U@=2104G5j;UM&WhywVMstXrLbQdQfZ%3jo7>q~J}U!4_yLo?w!x
zR76Rih8FZJ1aKvx&ff*4_7r5U6o&-W&Y#NqL8Rj42WrPSt{<;g{PT2f!B11nBB;<*
zG-9TEupeY78f`$nWj>W9@nS`tX5fxQlgTAWhQ<?<Mk|=tkcEXshF2pPuRne#NiE`K
z3XR4sucxGZL@(~~W7rTkI`5DcCtma93vjo?@EW*_N#5jbbmDgW6##}ezmlhqV^1d_
zU~nJ6F(H29VPUJSRaD||p-eH{RD^sH@GkcGHV^;~2@?Uzj<Jt5_N{)6H6Glw$Ev=b
zRr>Mdwo2&${YVM=ks)NZZ5bLApJ_Hc{p3s~e6ef^J~t6P<DjL4Y(EZ+J=AQg2xrHG
z+55ArV{6twIPkEra`B(sdF*`rjX!pO>Nr*njDc!r?FGFnWP9F43{1XsnYwJx+adMP
zyzL~MzN#<085phxqO0$+f$?Xdf!|Mmn6CPVS8uWYiBFs`t#H?Ni?+w}e>8e$`<4S*
zZn@wr+ajQ&Eicg-E{CtJdb!918<}`K${o7O9=ckITq}FtT5j2N?W+d*s@;*#!qJB(
zw_DV1+ZLg=+CZ%vJ6O;D>O~ml_p28==<=7_1BAo(f>4`no0fLY;%6=Xa^U=i<$};z
zXl>+i2`1&Xy&#m(kp|#?&ER?d&$_3>#J`VB`_w-OX(9Q8p^51p^?wY-ApOI3Ecv0&
zfMIxOrd{<XP6dR#8Lg>QuD}S^0dJBGDWIZgYKfI-CJ9D~Rfdp@+G@I;RB$dS-}}I{
zknsg6KLN5xkn*?_cYGz4wEve>_5EL$)(vG%^(d+Jt*-$K&y*Bj72XIJyPnsaAE-6b
zT_{JtdT$^-K^-WmP&-^w=H=r*EuSp)g_8g$$!(B&Uk<A*Y3r~c!JC~=N;oM4yYwUD
z8Ag=Pqmt^8TEd`ko+{Gv`Ba~8^HHUCOFB4hnzw3lp2@BBCFN^cHCdtD%JAA&UpAJJ
zB$iC@Z!Q^1MuEDcC4DUwgVi-@TT*=moNA<by&k8p?VX_i?JgA4)_VuLL*%U1QtN9@
z_AkMjs6o7@U6Zv-<B~c&u+wO8?D#&e<(Et))!$0Lpric;{R)~=8f~K;pFCeP&_ljq
ztOL=OyhqBV@wnabWdmPc-%#7+e!7h)g5+Cj6S!{%WXpX>>26`_I}H*>rZ=e<>bil~
zn`?2q(t631Ro8glBJe#tM>M+`C-p^;1xaOG<^tgkRKA4=Y@rUb<4gDLD1a<!l(=SB
ziDrUc{a@^%F6EXL+3(4?3JbVGiQMxy!3Sai`elTEp|@oP9V!`1dOSBE?T0yqzBs4f
zbvMwbDTK6YQYXlj_FeY0S%Oy(ck%RTGG=q^2s<(I#Tk;VQjbg4k`-2>ELrmd5?q0R
zm08onQobIOZBn~txAUY$s?91&)+H-x7384;=B!Gifw|)&trGl_tprb{C7XvJt-@Jo
z-324IlC@5GSbGzGYmSjS$~#KLO35nluqvsXgk1e>%cJ=#e9hbE(YzJwt&i-|{L^5f
z@BB!|Bd1jVs9l=v4aFmuR0{V&s`SB~?O<+A&uiE#N)dL+Ub4TYoxCIKy*9S1uM@0d
z`y;p9qorgKPI43N$sdy1rV%wezLM#Vg24ywj#8V{Itx0_l4BQ&c}flmUV$rYB2O8z
z<aiIc#nJ3Vi}Xo&TXL41^jXpYH)gWTsjqA|3X)y<H>E{M625_|&PUzSIJ;8S|FK%^
z=~b%23QX@gO6K2ft<S1aXIc`l4LB3xUGNrY&WCkeepOl1yq{Zeg3+B&*F>f?lh`Tw
z?n0nqlUB{g`3jP#{WWy2%PQ9{xauj%`)t?qq_^a%<FMpnyrp)=vrGTMMhzV4x2()g
zL)*?$JKfRH_N>HT^_c9FxC$LNgqER_3ncI1Qv0%knRw0G8+bl{Ug|A<K}ywQGSpBH
z4l6sqk}Qi*zLH@KOQ!VIop5kBRV&J$lj_pfq*OhY?$egsB{yv=xzq2|>!cK^m)5-0
zk#*(qzCifWb5g1vmt3UbQNKiyrABNvvxOohRjEUo18^ebK=Ve~(b4RrsoRSUyG6Eb
z5Eo0HQU{zs9<azd8z|Xq?156JG|xs2emA+(AY(fJrY8qTj^E_W>ufypvVU1}(a(T$
z|CgR<piNVmFVPWr*RkZy$0fRzRCTRE!U=t{5yxL<2S~kw<_h{0JqV}amskz88_hvM
zV{(?fw0#$Nf@}e5s&=8~P~)Di%j>@eHC6wgsHtkCW^<|AK#8UjzD|K6SO)@TJ4<k`
zHaiWPkAUp*P0$^hw`q2QfF4l0(NPF3;qG@r;-@q|HSGA(M|TuJHjTHKJ3hEK1}C^(
zsNGo~`yJ4w^I%PhU;2cUs>kV5^|X}wN~3sR9Ywl<hLr-Jiy!o(h23OW^1cI>#CQJS
zH88KPC?U13$K-JHu_DoP#n$>G>V&_KDcW~jya|P#bKuM&Uq*|58UFcPAxj1#3gLRU
z7&}R2DexK*?ycdX4_!O(qCDWox1>e+IvbzrArmbI<XiQ)>|}uV-}U*3?~$m_(kCG}
zAv{eMJ1(P>1@@QA`V;;vbz7Vo%srOK=cxs_*%t23{mD#@q3ZJ<@?S6H{n>_<2p921
zO(8!&e1LB)WK-xG5vQ1BVv#B;dzOkvPk_4#b5ovtB1?+P_LHgkdGK#Z<o!1jBy@_N
zFW{adxrq4hQhCH2U}qMleg#}xOmNGdDM0`D8V9%k8n}w5?g-ca0EOosJP*j%<wfOh
zFBR>AGb6gvNbdl!$bKA*%H|3;ZbAim$Up>6H{kXN=!4|!<@4uo{Gy|fO<d0)25Qw<
zBfdZ&)555yF;dglA)-+q;gu;;m{D=)3VpYRMzQPK6>Y;@Zm04${ikP;X*v)c0!cEY
zUw-}&SjUmLkw8x!fl#n=MkwvREHef2N+07NM#{)di<g<3xdL<s{zR#T#T>(=YAd;!
zc$ccf;hPAR_b;T#VSGM_)|pMD1kNdu1+NlFM2qIH{dNyN(ezAwjTz`EcJ@Ftgh_c^
zp$0sjA~dT1MGL-{U>`6+U`<$Q=tPQ!#nccFWpY!PN|H*wOOd!hUa?d(-T*=gd;;wT
z#rGX>X~FJ*A~%7TfHw7M%0!Mv_R<HC7^)1F6<*)PXBrJjT`$}aUw(90uSvoV%+tL>
znpw=G^1K!%N2eCS`ALXryfUKE{@_*UX{5S*<r3}3vH+H86N}(jL(=FG!>hm>hgU%}
z8f|<U4SVQLWKz^{XngwQ4dTlyJ}2RO_hKf2&&9wZdGy%A$0u+aLl0aU^-o@%%z?*~
zL4II@_o1_i3_9~tq`-}+uktOTQxf=GVcCq}p(Nmo*5JVCp-Bf3P|HvW8Xlgs;vNOJ
zFkCH-1_rOWLFWpK^hE@|jDZIO^d*S+#8)lUDCxh00ovy@idp*W82lCnc)sw?x+9qA
z7A2q<7AX6Np{x=M9k3<Dm#aoln_OClwAMx4Vh%8cUd-q^5tnlM`2zS*V-c^J&m?ZZ
z3!5MYc{TD6--2Cba!GhGM39E(lA8N<!>gO{1lcOgS7uG#jFXbHG^*;nFj2WoARX_3
zJX7=R5*LM|w$-7;Sy@sH;6QNmri6wJl1O^nYZ{9WeqNY9K5jNV_<_$Hdey<MDDM4=
zPk;3${{n_(27o)^5ztGtdpPGF*12cRQ*ln-Gi-zJh-KMaF?D^vcZK9aN7&GjO3xeX
zrZ=h<-#=wmM!DWYZ115;_hh*X{*II_Z&U@R54J7*LZz_w!-JY{pgb`9=<=F_+k2Yb
zd%7|_TOOJ%d*8fww%XahI>C01-8=J4*ZN)4w@qbd-%4>qH?k>Z2UgE-=q8^U+ZvxH
zC6BVP4b%9hy?fQLVc%Ca?b}i()Ot4z*f+uj_p`zMkJa3POYDJ5mEh&FDNyZ+aXn*f
z&)6Etjh|!3&sBQPmrdQ(-Wb<A#`X%u7ufL&mEMbGlfN1m<^ucJz`nH^ZuAU0dZrRM
zTQ+rpBTL!jt9EwZI|EJ?*1mH8#JXjo>Ijzy53f58R~>H7F~mBC)@E79k!P0n2d4X`
zvhUo6<@~0rcXf8dwZClHFS^A5hG6k+WAK<LLLJ?(OjW&z5%1Wt{;9+F;QambD>Gd1
z2pc?7aiAxTWBNx<&;6?pN4d^@Z0Ej;b9C+EbCtq*;HS>c``7-_+gmM!wFh2kyZSlb
zFzXv$CAsJcHhQAsJNb!%_04j=i>&Wr#dmqx0B@gMcZ}_ht*N;^r`SEGD&40)>0!Ii
za@|+h?kkn<Ys)5ZKkEr`fywp2<nJASaQgkzf717#BR`1zS>ey`{+GL-q}gL{-#ad%
zA$)M%a<J;?FApAFcN~3YZ(sgq#U5S_tlI~x{i9s}1lwPKgYCaob$gzxl#zDU(Fg4#
z!(~Tb)$3nA{<OOnM%5BlCua$+TY{?!))M*D60An|p-<6Z6`c1hgREtcvy8Bok+qQx
z%eaic1CN8;#5s22+<&*6-!ZG9sddK`a>iaRIL-#g*Ye!{i|qc3mEfiF<*RJ)8u%Yo
zyL;a^Nkpw6QA6c{!xhKjr*;=-A7JeRW&6k<C2^38?8L>&_@(l-x7Nqs+H`mxoVkCd
z9JsXMxD1?8b#-#CDC>%@=DFB33xBQ|&UK1)o%*D+;<~!5=It(+ir4@BeIFbGFTf7p
z_lzGHS58*kL!5gb>)ux$o!M|7f9eYWHJu$mO}BStf^`kU1gk*Ut{B?|M5}a-EuXA*
z_O0Apxn1sztp(Z6@#UG?WWcepW6x8!7hbaAY1{zaaE=)35NJKa?wP4Lj(_4{9cLll
z><mBiMyjC!E;PZ0CN?7zPp)i4X1T~!HgdJPS8#m1COAI!Y-=>Wt}Rtd(6g=5d)v1N
ze0TQ{?jFt+VO^2cAU80>4$M5cUU8jXRs$X$l<t?1fhXDE<YOqET2^nmgKNsiu)wKh
zP1WTEYO76V?{h8Tj%<U+KtJagW*x)j=o{<NlTSuJac(%yKke`de7$WTtS)h@jFd-@
zZ&*&iqd#modvx6%t=fZS`w*gk=rA`l#STq92~~zpFPlHJ`>P{>nGHv5$5N|(vCZDm
zO7A$Vxf&UVxBG#fpY{xWIPf^QG5|tu+uVZ7)#GxFxLl*KT(2LP#1bgC^&@G5WmgO*
z9$58kI7We-R>Zg42Mf~>o-UlYQ~>ig+tC-cYB};m%^khM9=!sCnp?L`gvGu*Dl%E6
zZBSyI^|on&;lr#Y%vqwWCAvy)SVmy@t{%=e%KApvu5e?gS@^@PeU9~=t6Dn2*|n?n
z-Z@|~UzGFiWxadX1}okp_s%|(<mTvFcEfaBcFc{f`8G^%00|s{kGkaDbmWO)!}4a;
z?R{VKTt~F`e)v1JD&Q^W;cb-)d>nMZyzgsX=m=Z)KmVOA8xa`c{9~+tY;C^cKfG+-
zbbG$1|3F`L1UK8=4^sD2E9Odj6y;UyY5VANjnX*=vvh_y#~|w%tT=`@9qkWJ-#`7*
zsO_*VYo50fj*e<1`iGq#b*^3fxQlg!o<)ZL(DRXJ?QHqN)eUgvfD%c1#@0OL!|06x
zT{^nTefwGaeq@L6K`wlh4Ih2tsf5q`8B=w10fH_lY|p_x*9LAYK&{@f^4M&7e74;4
z=5m{ifa6cTxnX(hnLGH*-B$%M*fY-djBoahR|gIP)k0lA?dty^y+%GvSGo>u>opx7
z*ctwI*cmu?;7pWZD5_RxxS^x$(9w!z>PeinTmdN$xVCkFcw|ehw!)g-=p|F`-m~G@
zTMZAE9l>o2;p~1`e6$aF*4_DVmh%p?-r<TjR&noHn_72|RbkJ$Bdj}8aSyH@W8JZ}
zee3S=&)oe_1A|;(gbj>T0;6k}*RGcX2bX7SIC}VXIDjnszqq0&o{hdUT;E%4-&@t;
zy}-kvw{gRVx?sb9rDe^rmh-SY+!yFv&9?P^pIIH{29L3W$130<lwiXr*V|53k6v6>
za~5RhRW;W?$-<xIFtl=Xz;O!hK!CA2ua{$ZAU?Ib@16PO_C*ch2y^y9);`GD$65P0
zXP;s1GvI1t_R17HxnVi=nX7Zt?s_nJf0DDuSbOYMh<zKDQGnReK(oKvo>3F-zzafQ
z9j=ClDvsb5C@jN&wLPmKEFI8J?}jbHnY^sYTlURvnBM#h1h)o?f6d_4?GNq8`l*A&
zpH7}KL-gMaQymcfdGMGKB6iP|7NYe7qsbAXGSmv`%Au)lh(7gNF^sA(961q!XtU#(
z2crKu>Y~ELkBl>V$o$0V#c*Vj3aXw(6_9?mXD_5b4`BN9UInIu*vaQ%BQ>u2d_+i(
zDKI@Qqz`t@dsKhfp@1-A!C!p{Kh=O=eZ=Ene-tuQJkFcq@oy9o8L@^&FA>4{pUz<l
z?I&7`0bUk~j&gYUOrzHjuL3)nMiYv@k6Cl=cM3@gl<+v1#rV9(;QiB4(YF<Uh(%+7
z<`nY;f?s}%*iuF{p_QSZ6A*2s6&_8`n*AjK(bj<$jjJ3wv_)Wi^y<$s-m;BoY){)e
zwlomKHn)YhS}>&}4562LOx;vWX*BMqF3*+*695Cr79pu4obD~XkTej!zLm=#oZT`C
zSrg$6u1tS$c*`tgTM19kO7920tu`TR!C|aI(nc8CAF5fs_ZN1|3vRT+k|JJOu)*4r
zxl9IrdIZJ^6HQ!C3Yel9SSzm)eu5%eV0e?T)6|Qikr&Mg9)*l(ZFb^MIHC<d;fN;T
zt|VT_r!tIS)bai=K!`u`h%VB(d=4ffk`IkekyL^W3Kx)~N2B1|$RB)NCxXEx8lt!w
zurXw-qh_9(ab-rKz4${R8h?Dq2ZRy;&oY9QN;Bf5qk_dR{JKbBHGD&*-^aj<0W!x&
zgosu2o8xtpBBLImS0IbL#NY)BY*U5erH)XT{(=bpgz)?i!uA)$$mhhtUnq47<u3>b
qo@4NHn-T&op$PtnIP+t@WBKihzUw{hw)R4c!u@dK=LE*WaQ_d4n{&hf

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/hunyuan_a13b_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/hunyuan_a13b_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9225866724d280c79e7e3c16bf029b6c3f49365c
GIT binary patch
literal 15019
zcmdUWdrV_jn&-WKzc2<27-NGm=3xWoSudcdqM$0NM=Fo1>`YT6mWyjBQ^qFunxvqN
zl9|a)Q|a0rvZI+$lZ@hMv}%`9tD$#$HAvgLs%-CQTiX4Di|O&rT_Vxy+Uad+q;*n6
zN#~#4?>m=!ZHOz6)o7);i1Yl;`<(Checw6$Z)IgB3ci@;N70E<iuyH1<WIXFc>Hf6
z@D9aL3>~8;&{xIiIn{)U#;`i3p3_WdNSKakCv=deiRtGI6NWkCgmKO^VVW~fnCC1L
zmbtQtvN`L7mC$Nq<#V<P8wu-T6?2snl_ac>Rn6Ha>?CZ6RnOH-)R3?-Ry*gIaL|;B
zir6D{AJS6qCY&njDT*<@NipV#?L+l`YW*VZxBM0(m;JP8xDt6~Arha8Kv+E*U-aw6
z>aiQ)<XB>EJ{Czv6Y&?2fJ=%M<B?c0d~P8=g{foVSWL8#q-P==7oLfTWh8brk%*B@
z*V$W1HawM#FmlrQ_;iAu3uAH7a-brEOai?yVfeW)%SBj-l}#n$+`?QW#Lb6EC(Y4#
zG#QE|W@bpf1^Rq7aWfK+E|IvI4ab?pTxek-%1lWkmfVW{$m73<zz<>3BGd%UP!lSK
zj;N<qE7Ua2sNS?pXc%=w%V;7xaJ5T%ijw_lRUMR^)-bv^H4}P5rH>eZ(m1VS43K7G
zj6iFGe>41BBIbw%OE6_h$f|^-l4Vj0(>A6Y%3HDQw2HAoxO_ic0bv_c8L>cm6@)7o
zd&ENG8m1cJm83m6O~=$gTGa}5i=MDwq5QRC_0tRS#f5Nuw736EVO~XJQl7FY)&9Jo
zr-6UmCXe5OE%ayfJ5&-=$#+MUqW%SJ`xGs2FPfU6QdCGO&(ILt-()aqpbuev<Rg^w
zp^?hz4&=c+OJ7o6Cu+7*PAm9~I%$(*vvxUD@ITz|4YX~RQ@^D~jXWMGWBHC{v_)mg
zzGE3(Q5maThS5W-<w}g6fw^G}@2MeG8RsJ9H(vhj|AFt^QuA;U4o7GT4j(tter=MQ
zyz)}ulz+IpD0!*I8xPM#ypvpD5dOXG*IxF%)ZzCo4IE4-$w<|SRAF`oPFXz3$>k<*
zL-OSE(xvZJs(tcy`>DZeFW+8%DFuPa+aw6}`2FZCS&9eXSBsTX3oHxGhR6V-aVBz0
zG)Q5F6HT0)#rZ2lEw?ZqVMRkIL|8ybET3m1uSzA!jELn2Yh%Qk0|_`SA*@m?<C1Iy
zVoV6e%^mCoCy`VhtQ-hgQN>0?{S<J<Xe=V?#-F`9dg+o_7mjnUMcAT#gyzG^WQ2{2
zWn?6zSvE2wR+4CBZa%q)?S?R|Mj}bXLkH7M*AvMQ^fDTs5zD3CLJ(5I$q3AwhKt0e
z*(%sMqA?VjiiJ5Y6yosoc|31?#dIg<=DX*k^Ib`3Cz9;CwQ%gj@temY-LdHP?)k;!
zjYPcr)mUt<8zzHYoKHky;ky&_k$5;NZKZj_f4S}(68i{+d;70TBb0K2^NXw#T3c!;
z$zX!=8hL<*`%mC}`3ALPD7&NQ4UV<CZ9{WjM|B2QG}{K3(AXsTtsUq$3+(~)oj}pu
zi=jpcHMfw^o{kE1{<ZVIQ?T^?^vvI!|H=8sYE{65d98Z}s=@RA#J!2l_R*~S45{Oh
z*Z1SV2LZt{26WAYu5r&qwfTQM`@yVWxdy3iB(*tjpz8fAn!Du?Xl@Z4PQmH=RIllQ
z++P}8k6{FqXqihekyt3PkepvgiaIuuTwvpu4{%WAV}yhL18~qE8h&Ve2YBQxmOk{&
zDx9*AQQ)oP)Jy-7qLx)D)vUrb3v?gu2Pc8sy=8pMkW{$mtip{8)WDbNq{3}y4TT&z
z^gtyG2jkSAsHapj)RgKaFSM^tsb>{FDpOOG+&<(g-0$nT)2g>scYPXaS+lH8Dm-q*
zuwn!(Q@?3QX~vbBWZt-}O=(&B?&~Q)<~v3wwXA~~P!OTe2BUE8Sv&)WKDmF(dLxyr
zmNRE-<WRv+>E)JbDy2*5r&UuRx?KSv#2!qmuE0#t@V~5njcTTn4!NX{V%0SD1M2Sf
zYt$|E52)8@zxMKyeK>g|8oxQx9+Y@8iGU2FosNZPxT$@yjMRav-w*$fhr#(X)kTU1
zi6lk61f#)KU8a{+cQh&b<~Rjd&T47ujyk2f2|0gGzeCg1-D(ZBNc|i2YxI5k@_ov$
z6;;6=QI8xW%qB%`G8Bn3q8c47N#bxDd4M;(!FEDOG!D;1;*neP?8wsT(kB?$-#nX`
z0@*H9yzPU-u>>$%ZX~GG@FG;m`N8?}f8jCDQ>uFF$LFs6<nsDc8!xVE*Yt0fZ`r!j
zW0{r@E@o}rAI<%aL&4yW>Rj}1aZdbYtPecVFb(`a3XBuD+k80AHbElWjLr#kjw6ja
z9A6Z*Gi+jE9!JJT=S9sd2lAvgmIwo47|-6Cip-;g={K<fEEdFKT97)YZiw_8uw+~n
zWW7MciH2xAL{gBi$CHQ+5|<``653BAZIfPbs1v|ElJE3sX)<e{Fjq@m-)m~0hN?N(
z2-NRj5)D+1GgsZuSNG?thxzK^jmf{OzOZsusB3uNdC&Q->kdR#`+?^<UGLZ5s~7AY
znaTfB`Cscks{356a#lXpYTedPH4s`I&8w-(s&{JNuKm-xwbA#_-aGs5Q(HD)UIm$X
zEmh{sQ$V|Cp&a#l`%4FGvEKTaQaP+EPk*MP>@LCCntnB--E;<5^+HSF$Jai%wqEg9
zFXviL@GU2@Ekm0&Z(gOTaPQb1?_7BM!e(Rdw!KfN_ip-*Zq^^&vLDSiQ#BXqd^=@x
ztzF$LZ`w38{qD17X!py#2FlU&8AVsPKeoH_YVg0}@SJ_*Y8&(Fey(ziwW)sIW*qC+
z{=AO{SJbnTLNZm%K~ZwU_~S=#M&6-}$aRa)8)V^E;IQPBsh2e=4cDAfvsJ*$itCfe
zL9JteSIOKF_?W_t84bv^>IYgm?+R7Kg-h_*l)|x=wMm7irnE^#=9Fbut}Us^hb4KR
zB1zKJ;r`sBIp9|*y0~96z(tb^mrN<LD`3o<``kvqY$)oJA*o2#a-UcONUDZcX->l!
z&<7sfn5^BOB#JR6QPClv%zNLZ{!+!5lJ#<W3Ti;2;&vDVN%?wfj-t7A$u$&wsEd@8
zd3RhRr#vvrJ$_)3S7zCm(#<v&O3R^?Q7#Ys^pAn#t65hPc@FttKOpNl^vR=>OEP6Q
z+kwZZ7;Ev~D5^zSE1(2k4j6M_&j6+%>mwgvO2yY!v}h%#R6hV@Qt+mH>5NHcMEjby
z2W3eQ;ar|+HZkW3dr(*fH9q1YJlrFRE<vT>f)SejpKsm&`#V4S-#_~ckz$7+eh%bI
z3s%JuMI*w9CL*Mgidp1ROO00xEivI_*c0VE@kG)Sj(b2(4ljxt6naIYqE(1mEFA(K
zzi&VAtJvqDCiZ!7pgmQT5jDw0kngWxDjZ_4PE@fMz{dkW9|Pr|#m=&$=$yfHQ<RIw
z0o}lOA!=e#Fj43vvw)~&BG(sYL}MflIt>dFv#4RBQ%M%j9gB(;i)<Xo7Ut$TQ5T*E
z$rs=<7KyW`F?S4{V*Fq)Vk(YYw9h9HC8FV2k-#sO7bYl#^T9rgwCX5xOVr@NQQ?;L
zwqgYFcq9a=j7YYUqB@t_OM}PPDX&9Y+>e0U0c==CjMm-Go?PeCeCN}@aAiCH8E^5g
zJhfTv|5a7nr@+eVg@%^*6ZaCCn;U%_uVfoWSD)Ic?H8I_*ZVeJ+f%C?m4M$Bl^`TH
zHorf6Z+6pvGTSh+@+?T+_J*~@gXDJAz>clv9n0I6P4~#Q?UYm+gm}T#yyfaor}p$3
ztVB~$nYVznzH;G_yEXm#-?@*yZCq8aUVY^7rUxF_w;e&D)}6k}*ZPH8Z^p;h26yeQ
zM=l>A+<Uj*U0zFU)&_;T<{h_Ra5tq}?@dAvJb{cabDIwg{p{*?<C#4*<!*Za!o3UW
zWac8@c6{4)Vz;R!eUoqM+cWDMYWDPIcjc-v@1QE`bG9bl)|B@D($<;xQw_&I?S!d#
zZz|pP<E{_7{;E6M(6=7mYB;v*Y*^Jls_Ncxd(zH#Lz!22caKmH>Odom%5H^Gl>uT|
zC|liUl-g+Bsp=No-VD1j3^Ql9enzRvta&wLe8n}uqWt0Uv(?mp7&U|YpY>y9;QeiN
z?b&Yi-v()L#WK_|qlpDBl!QeUEsCy+F%xJS$*`0|R8ff#%{HMZ2s#xCwUSi6Uqnur
zDuy9c01)6F4-<e)D&Pp}fl6kY%Z8K+SgFcMl>$S6R1MT{=#yC?>n+roDpE<lxzrNW
zcCdZ6=0ItcT>s5U*yW^u2pWv~<}o;umL&27@&RL2AodEvKOXi&pFBFbPJl|PlnMhq
z+Mgc)4<oBe83EoE6$Z*E#+gC`r4*4uJxYD10<@(}N~$?!W@rK>^dcC}W)-ESP=CrS
zQ<GkoP-Yk{&djm}%46Wrm$IbH&?4>u_?F93WiYNXGE)jjOL^$ROaZ+@ZB1E$+Iodr
zRQYvF$4%b^JPFpL*eeL^6yQeU>mq&4PZMs+;wb!97PUw)_Mq;<y%tU0U;$JqHiQnU
zwqkV%tQ25X0h@3LrG3ICInf!q0mj}~1WpN;1X+C!>@Lyk(O5LO$o@VSZb1h%EYS`M
z5x2mC`3DUsXv_&Oax5w>V!cuevS`UhM65$-dO4Vh#v(MzfawS_{pFH|F^#RvpmPJA
zC_1y~+(ZYVLo|}H!NI)+Sc;t`M^&_t)`)Hr0c)3p5s3v*Ld^2<CPfIDRK!I3K*AjE
zNO>jpeF;unUk8aox0m|9E3g#GWS}K3NFZj<MOAy#P3g(3y>G=Rm}}RJYo<+ebIu&(
z&B09auV26a`nLJhj-w?V{b}<$^EZi~B(i<y_||j3uw)%CuAKjs%_WpO-Wy9>vaYVJ
z@-Csge(gM8-kNEK$fK&pjA^^7f78;xYp~=DUf$qM53d{7O`FX_+lJxY>bhL@0AD?@
zKAEjPvts(#TrE_&H!bc*we@S`IaiQ(1#_-ryzAHoRDU*Gdv3+DQ|(xDWvg3POoF+3
zt>UdyLRGDRl{fK*rgUK2&?SJbRTJQA0-GJD_?puzX41?NzWRt@sa<oXCqW^qF|C*Y
zKrJ;=dqotEwT|>s35xP6whQL%fPDxVC}G3@3IeF76qsfy+f6}VSymNf{gkR;&yiU-
zi>$H8;=Ty>0gx`C73rHrvE$GuTQL?DsggyTgkM(>ve@5)1nDq&AS9Mwxbp1f@yHYy
z!p^d6g7vGVGl1J)w2%|ZNT+k(7%2%jYy$F^I!bT6l85_$Kml$X91v<$T4TjdedGIs
z_Xg9kY<>UArJeG+way2cZP-15qpO-<+S)+LwFSR?R9=-UZ|2LJL7_BOd~C6SLTRk{
ziky@`?Chb|t44L|kF+$n2bKjVhb+s)A#?;@3Mq#_nG*xghAytsY-M2?zomqVaQUxF
zQ!%uJZ3`6pTcE(ra_E~?Onrrn;!ToLvHu-RW(q16sF(t#sToZ{4f}AP1QoVrO;R!F
z74Qy}U~NiMxJCh_Rn(eNsK@9Z7~~mxVEk}@6f^XL0^VsE{S00g6-yyhNZF!zl~l@H
z$C#0sADHV>I7qJD<R0wfYV#9nB($aQl7TBeri`(^r<QA?sdzPB*p%#<bk!%VUpe-Y
zT<s{cnbHDwQhwWI0)dj6wPc-wi`FSn(7KTGcM;X+K27wZtM_Tq61g=MTVNugcp@IT
zuMxH6dW1!D8+#QURF!}pbq#`~EZR-jXE0R_kOOK8fitn11QlH@1ajwe^p<Enn9TkV
z3IZ4t*hPJrz^AC=B4Kvw273xqi0*`2kVV;&MWIqON#;S+rC1lHBC4`4qvHk#xJdxR
zghQALfG3v8s-V<KJwZQE13`HM$(O^rB~T-n#?C{0spknC<cV^?ub~t-M1X6@Y+Xs_
z%3A?yvgWo-Q`X$^$X2yFp0juG_KvKrbDiF@^$K=}l#m(a?ZNdH-hOP?-IQ~8^X~4P
z`zY@|x}M6q$5%}sSGfgWFy|ZKeFN*yXMM+3pAkI42e&_5&LlP)MnJ7{wLfzCh1NEq
zrCVqY?Dz)-|54Br0^Z+vJ3k0)_|k!__tajQ-rbN_8-30_wb@;>dKT1`o`KBt>iD+3
zL+I#4zg-wTgZ*sh?d_nC@%E9OTIbq8uD+YE?_Rg?^(V8nBM+OlYR3eJE9dCs9i5p;
z-Z7YSjPj1r-L78Y#E8&00M{ArhR@ZyI%nQSU8Y~4*EB`M8@;^a<i<_jaY5)iimi4F
z^`6yB!aj<zufa?n;F*d>aUG@?u8Nhj3@4-n&y;wZe3rnp4K(b?H_?{5`T%nr7~~jD
z@u~cOYMH(}@~!2FJbkFgLr>^2p)J{CO0EHnJKr`(rCOx#4kDQQb(hKcK1U8X`^T^x
zY%Mr|z~sa#rw%MD<iO#AakvosMh5m32rmVmaDqyR$0q14hms#$-B~MEeYwh3zOpr)
z;wuNT)*~CHE$bP<V#`@Pyv37t@s?oDa)h@W*==eSy849HcGz!VNKos_te~lvSAM;M
zto6*EtvF|iuk6cO``2f;tfvcAJ9$fI&eG3Y`q#&|Ehi3ErWE<5^)wN;*jv!!sbc6<
z!2LMP2HdjH5+rcO6sW$8Y6<djGXjiTAWwxVDcXgl`xZz=FoLwhAEQRFPH6~a6PNo3
zC{>zPi;#f11;|Tjmg$r_MIfW(#wh@{meHl?cL7og%3~31Yv7hl_k?zdois%g*i?jq
z0{Fvt!8%$1{gk!<(zA-fTNpWG2D|G1CVo&>1npKiby?4tpU@X+z9fj$5QqfI5CRGL
zifq(W$+sQ*?E>q7n`d?aT2U;=avc;ki)Z4{$CS&xgCkh5gqJKYQ|`Ay-yKNlW#~q&
zoItk(w1}4y?!Evakq(jbC>b!{fRwB3A0Wjaq4UqtL1gw@Bzz=D`6Ntbe}v?Sp3>Py
zV-i7Bzd<_NxW@@cW?zMnXn?D{B+)J<J0qej`!A8^Pr%`DiX|wOSpf?vOTABE1u~d^
zT^)w!W)yb@91zMu6{=nHZkb(ab7pp<_kKL<83s#U`uVqCUwL}h=2#od+Q4vDj7J;C
zdB^y}Yg>-zcTb*O)#PkG-sancJ0#nn(AK@G*|zzFhSpWH;A+p*^R6Q~*AVX-+8E8c
zMpli2t0~=)c4xvrHUGP^%<G%ZQ*ae^`YE}Z^aO9~S+D19CwCmaM~)W3+a)x02#u{f
zEk`%bZ?~MwwLH(aJTG+hf~L^=0u8rYtqprdJ%FLw=&1qlt*czs0{A{hU!|2wCwW`n
z`VenB_0Y`QE(yUt>}1DIP2HL==j`O2o!OeM_4=)vVInrP^7hu8y^FVZWv*}Adx22_
zOcxVoYle4gU8@!uR1dHzJf1`cc@EYK*c3cWLz~yChV_7IrzR{)!#YbJu9EgT<*633
zGhk##Q<_qYMrI|7HsdX@nUo^^jst_l>uJ2A2iDjQJAuAyg5D?x82Z2eG32RSintP+
zgbO1NgUs<;sR?7yeg{e&QWmi?YF4>QlluWr6=bHNQkX^ws*<d(=xM<BYz3J{$=;+?
zx8RQehIR>bgDKEL$taX34n^!qRd~9<XbT!uNd~6@J!^lYz`zmo;RB6Ju^Hk+ij<nM
z$Y95IJYj~*lpb1&d-x=30)a&j=TbWP0Y%Z(A2sWedQ|L|ypmIPtUQ`!Js3O8a=DbU
zCge1z*gs7{KK5a@Nv0|Ii~?1}t}Txqb}m|Vxv3Og>WYuCDs?KCy@fjEvm(#&vMFU^
z%84y{2tpPjJeWbSko)xwb)?K-XGas|p^vf2qh}=TwCxZ9MCE?K$iDqd>2QXKUHDs1
zA5wB#DZ?y^lZQU0Lhcv)(f2sZ72l<Y|D?}yMe#`~*h!vnmMi`d&aw{d_9fRSrR;h3
zXK;^FI5|o>L&38uwEjOxeW$(iPkCihW#4CIQf2>WE7Ni4=s=XIR8G%vn0X7a1NQ&_
z;mV*rR_$A!h>2(g`g3(jb$gk;10hK+rO8!15m`Zld=t~rz9dPm_$+{kx=ZTi&f6>s
z!b_H-H^YM>eOsiL{WWYWQoe=G32;O$Jjcg}`j|k}R7I2}H#-G0k|gpXPDs{f<ay-k
zh8Uhi4ZaP77hm&mxg*`t$FX_?+}o2IBd}WqumoC}hz3ZcW6`EOs)bi<(i5;Kk%>hM
zxkr(&UhtuUd<`4rLhzhcdXX%a5y_gErsfmeeko`)gfYp)hDFIs2QI`!r>8l5ydz87
zk}nysI7t6aGB@dqa?5laaGiSt^jTTv2E$c7%G_DcaiOs}*Laj~Jeq4f$v2+dh-Diu
zZdzPodE=&UAm<z8eS=xwFkJKdPVdw;tS#m00;{7!tz+$CwziEF?&ll(*DvvnqYpdy
z#>;}MAMP<c&b*0gYJs<5VEA(N@UEV97w;O`xXrsR3Z7%1s#RdI`UZ*~LIKzH&8=xB
z*Ls|9J)ZTR*toXkeOmDNa-Kfk)0gv{;5{ccyxX3WASNFo%zB^Rb$O)AoXqVkr~pac
zH3t5Uuji4kR|uZi={+MH9Ry=qU*I=^f%}1nzDyt+cxun6ZE4M`^_|{5wXvmP?QGso
zc{(x^8%_6L-fA2otq<^?fz2c5vz`mT2=kt2!55AV<&ItCk6jde$D!-Ty=l$1X8;r&
zpZ_l|<%cL|$KD9#@}xC6&k*k!%6Z0l&-la1tmlPn{goB4kU8JGl6Ga?!EAZ3wCd6r
zkW?hTad_48ac#5U>&f|!@V+C0!@ZV*#|w?ebB!Z><4CsgG%P?%&FVAIyrU(f+Nuo*
zZ3FAC!1IPR%dV?k@N{Ob!OZ16r+Ck)tY`G$r97_37don;`QD4^k*vFKz4ueS+I{p3
zcn=Lp@BUuiOx1bw)>5l!_u*RMBME5Em8<RGYdbQR_}UX25IP5s3O~aaA-gq=()C!T
zf4im|NbB6NIp8LaSR^wp-hOobHg5;(V>eV+T?3n=&h-R}c0vK0qrPE{$u;!w4Lw<B
z@A|bZ=V_uW26#sx=Kxz|@49!}aRfHUA;PTl^e)<HQQ1o0&f5FeIo>`9zHD#p1xxG0
zE8G6_IsaAOe^ux`0vcc7Mb!8L-aU913FcNknp=&;+-j#>O{<r7t6aINHomGYW8ALl
z6FmM0&6((j!Og(nre|pN{KvH(7`D3=236-SHkuCcj;91yCk(3234?0%rhPf@0Ph{h
zHXPZg-)a~a<c*wj9RZbg{W`o-fk7Q2%r=bgqN<Fe&kSW9$2LxYsto>)r}L2qF1e2E
zbb$$X2zGq1^*60OAIxqr>Dg@S80`2aFN~+X0mjqhT+`x?Z-K3X<7wfmTGCV7Re{Xn
z#`&%8v#6d=tT%n|@)o@Kku~$puF<UH%)>AY1bm^pKi56RcaI4!JjOlFHO;o86UJ_{
z6YHA48h?L5toR|(6vC&$3vdA+5-p+7D+}S6l*6Lwi2Oc4R0AV}_s9$I3XQzxVo@NL
zUUEe+gc>hAl!Bij=rMX5odh~)?<Xcp7L64wa!;{r|ECU95qL`$f=2|1vm7cu(o0;n
z5=qf%#0)3oeEBBaAGT^u>CVq7@bb^m4y{*kHRjde?;5Qu-0IakOKbgU`@O-<@)q9M
z`dAA&`GIj-YbA6f5IB`rV_?_V@>q+3{3TVd*1lWo%xl4i34)LwLk6nakvC$<M7dki
zSMEKNH)G5~xqRuddnfZ{7_(ANZ@T%OJ71158&%nsufR|xWvW@z@J83;DvVCkI&H;z
z^J5CUysbrRU*{fE;N>sVChcGbBH-m69<5!dhi#31XZK_D^W$`khA57d1cG4rAc0e7
zz90d~T8fk9caaNU`1wpC7K@Od_i@4S^(kp_bnq+>UOTV=L5Sy(naC~jG+XrGFGzw#
zzaR-pzaR<1yYXZK>XOzP?+J>)9?cx&`5k$UC!TmxB@*UJKSP1ez&3*45=!smq@SR$
zsK|?f?^J#v8I5t$GZQl@AUzah5v#=}k^=R|IsAQMgylknKB)Xij_haAMChcd$VJ${
z#-aQG9kTBRFw})kCpe;ESUMad?7xR7Zc^?tIB+9P(~nIQZTW=qeL~gznyUOlW1v-E
zP~d!u&gYdXaC8)Xmi~ll{)8I*g!2B%XkY#Ptg+z@-Jb5Oj<&B|_?$wYwD*4j66h$e

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/internlm2_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/internlm2_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9252edbc69b27bf1c027fd60a9cc0e17f97c1ddd
GIT binary patch
literal 8009
zcmc&ZTWlLwc6Wwva!BzdiJ~cqk}TSkEXkG~KV-{}*RtZ5<iv7Zhe%7%oRLhLuiP2>
zp$-#&1Sqo)L~@%-#(qTEEwDChbk+XU1q!UU&4-J&yP_$S+<^jku_=lL`oY99lBPdB
zcZNesvK*)T(+l!G&OP_sbI&>V-gEB!i`8mIkP_M-#D3a^(C<h?O}c93>EA+S4zY-(
z5-3DUIzc7r5KSpCO-KVUO+uU0g>*7Zo6si>A%k4kC5%Z^$dojP%t=egl4L?m(i*ZR
zZ6RB-A=Dt_=o9v&Bjk|lhJ-We3c2LEG2u=&h8pF%DbbW{4mDGVMqDH3xkoA7g<5Fz
z8e+}wBi6z>?rEw}?+q%*{GK$%gOp^P;NHn{sVE0^-O)rMeGMv(WaJ7L7SicNI2uVL
z!Z9{zkQ$F&jtIxn$xMP1V(HX5GL9D{#|W1YBBR+<lt7OGy2Qw!F^=aWQ=DX#Tjzn8
z-03@hUBHp3z_BXmWNI>vlMympV%8Bdswlvdnbcp8V4lO!YT*<r;aE!GaFSzV5rGS{
zvB^p3w8T;|A)H80P06^-(bSFe=__0+HqGIvA_XOPR2xrkLFLatksJz9EDF&q#c3w#
zJes6f`h6y(Wi_0R)pEK?tqjuvOwa1yM<D}i;Eb#h{wDaFITL4Y0a_q%wZ_zH3JnWu
zoi-peX=iQkYeNj%0OOP%>!hBw1I(63*Qrp$1PVGN*GaOzR3bT8U%q4#YOA5ED<B0?
zF!?_ngzO_~4hc{y=>u9sKLVo_Db+Z@a3~RlYvXUAAU%#rGpLbtd^W>j$ruLlf+WL|
zF_Y$FL_yH0<+;Qpb^)ej3WuYK2+xPZJek<<zxhpMKuBf=GO<jb5W!QN(04t%@4)^m
z`?!Hb?9xEyhHyEZ8n~KBBnP;ZfNx~dpg?{go#9fE*nmJRE+gxhACNUmR<0PL0`AY;
zz)djKv~Lr^^sD@~0|ws=+1EGGiqZOkp<wjPw=5gG%AS_I_D9yI(1j!eu9~nOb3zuU
zqBUVaZ%vqSXuM3AIZCABT0(Sv!c73zuZNKqOI_KA5H_&1NQG<TL<&@{8JD!Fbc!1d
z>Tn~VO120a&+<Z8WmZRo#7h=gR?*ApSd^1o{FPWH%xAc0ERq0mfvxjF4feoz>?0Ym
zNmWJIOCWy8raLzi;`;fz$jDb9BcgOR&u%L?x8G?lI(Ov_WsCE};qMR6|52%RXQ6fH
z;^^bnp^6dp?##co%xo(+H05o03yj=ct{0&PPEL^ARfHWNr|PK%;96p9<~ji<>$hUk
zs$owcFlCUU84M<p<Y4#kk_k*Pn*@X7;dIb|RR(EUIFcrPDb5qM`~9+5Br9}=YuM8r
zn+a$g$_^OJ?}qFqDqEW8cNZ*eWmnVOzS({Ahl;N4OU(AN)iZyrU~N~y2aB$4OGG{{
zSvrz6gSo4*be0bbaHvU4G>b8?s<g~3IbD^yvyMnK45u<LIcnH7P(yWy3K)+XYXU`x
z+-dS5@n3KV$?~VKQrIWdq%YPa3CBYXDyTOe5;ga07!ycDo7%VL$_UsPQy;}@H;h`l
z*Q)I0jI2(iMI(#62za7yAhne<iKe(|%_^!@R;OzHZJ?Jk=PYa1VOINCg_|Joy2-4Y
zjhF`dFIc^K-8w9B%kx~_tAcVC(XuJm`fnRm=bCI<pn>Ad^K)RkU{j%SyIQN4sg7^&
zU(@TXk5X$5Xc{!1V@yc2<g6wnkdsJGadP->NTO9_?o}n5vu(~V|B+~mle1()VvXv0
za}8nxe)k3TWU6X}SgxGvmL+tnuosLq3)@r-RWm|Rg@_IJEh-1`UKLs|S?0b~?Z0ok
zS3RqzsQV2nG-qcSu$9^=4_uHlVMB@!Yyd!$)v7coG()BSl0`W?l(&GwuII4<O78Uy
zY4bG`%Ta0P950|}t6?}rC$ASBytc~08_?b&I&h27rcM_pSHOnE+Eog~3zd1_BRcUM
zQ2I!K`%Ovl{c5dVicZ#X-&wO6m*`@V=!ze#W2iMzqt3BrpVnZ+D!eG?{_fVWM)U6b
zE|vC6HSbn=U9WkN>?XS2TqoD*>on1e=$^L1ov4Y@hoF`EF-Yt-$a?PoB(cVqU^~{y
zw@DbT$+J;xQrD7e{)6P!{Qo4k=CyKrnN5o}wvotJv`rB=mk3@?@7X6%7ZTiRJ5GG0
z4Jl3>qzx%f+^7v{E5aTMt=S_T8xWw$8dMvj&|Bb{TtnA2Z=q`x@Nihg20DG~=p0ph
z>LuG$r}L5-o9mcsXAFAAr|pMCh`hj!5A)!i3*upLhYZm)gc#t9lM`G*-*`9T91=5$
z>{Kiz9{$Ew>*G?aczAkyDlPcAR609#*{^t=Q21p}-4E`2+J9=|?7061CxA~2zS!@H
zJ0Te-tFdB`!sJvr4@@xJ^=Kl?a$(~72DOqdmSVZ<l2*8p;Uqf7Vse}So>}pFA;{#X
z51kypaP-{CqvPlOeg0SyA{0J$DZvpAE=R6%{+bu(#~jZI{$z~ptHDO^l1Wp17IWbU
zAC1L;nE;uC#s{E~=aT``y~i<5V?V?yvDB18JjKE^ynwk#Qh}uteiA45PY+LkBc36^
z=;dtcia)~pBV_t)Lhz?2VKiXY2UcTP(1)KRlLR{?O@d2d61iaFv`Gzh_YNYX7z>eE
zCJ_^$5O6FbHLdF=A`bIJmE@X|G)K>zku($M&q*%Oh(IEPI1j2<0x3zCNJqed)JD^o
zlguE0E<-GXm#kxv1PRDFmS|7XD{-`>W4TM&DNOECOk6QcJVFdkB$CX@H29ohHk$;N
zl;v?O@uK-K5R$_;Ngv5TjK^Yf^GdQOyXJi%g0ZBNMIdPjk1!d~;uTd8KSwehR~eK{
zHC}@rCB*3=oRG^KlhYXYk*uF&<kFP`Ajt?}st^VnkxVJ>T3B|G!MupWtyi{$q?=4c
zrg(`V@`->U!2+;ktr?usRBbm*giT}u-nnEWj(I(5kgTAVHBINbrmO_1p=OCyUeqzX
z(qAK4ZCh1*`Hh1or<VT(NeN_p>H|q_0X%H_s>x38+$^s7wh<)4;r|-kubZgiMoinn
z+Xc(66<_-TQ}p%aM}9cA;%dKRUUuzXVs=;bh_RO}?FCEwLdRoE7wMvxUA;?8?-N(^
z-0<vh-dMJ5yCXh0@!;grz-YlTT6Q%*ar+lM3oT3T-n^;Y?4NsY_PwQT$BNA(A24}s
ze)4mREie4wz|1?}A1?d+ACKK0yMJs^d+%hy_li2bcG=ap#PmIJG|%~FeShAT*O!&*
zQd@tiZBL<XPqA%p(XsCVRd5XD^%VxSb(UK9KW^Rs7rHsqEz>`6zli;P>|bB`^?`pr
z@TjM7_<UYh(Xy1uQ{K{%KT|Pkt-h7Ofl}Z|A#mg&^N1@3&d*pYHstn{T>Xz-{bhe&
z$-k@M-?bPh`VY)lf8+9(dk0FrM+&`19(ELZkIjrMySK0SwtwymmIFPdz)&GDRPG*F
z>Dp85+Pe}QDhKzjYUrNM|LolHNza3=3q8foBdb<JYg<KQ+Ui}^SX!HAj#oTr_dY^t
zpbQhc2MX?il6!B#y>}7+yL;$~&wuMU1mT^5QpfH>$8H&?x8Ux*Gg8{|Y5{)kqfa$-
zr*p;zYU=1N`3DRB!NuXC|LBbM3qA65-~AJi@2%s%Z3)~xyyEuGotZsT_FMqI8k=B5
zYX@{Sc0yOM@8{mT-o>${*WX+YURZJmo&@%nJ+Ci$ca*$?1@GYEP|<t%Q`f`LKeZRU
zuU9nmwx*f0t3V;RcKKx0{lm|%+N2|^Hjq`D<W;*-V~eudMQv&4NMYwl(S7_;d%=Bi
z*-be5<lU96+kbZIlT&wck6u~c`o_%IN_X&Qp-)1KwnuL+cTdcWf4+6N?CD;37na}M
zG&8np+>Dije=sYp1@{GDsbWSw{iWc+Lh#^&v10I4er&$Czy!+M_AI3HBg;%z+2zTf
z`Fb@?BlotFtGD3lExGm<TzgBdk%DXFOGJZ}*_-B=S!SvAwPpK>-!yNj=m7XXs~H;E
zTfRg(lV^o-mKa}w@h!EUT4qi|^TRVAoGIJS0{2!MsL}1ISOD)Ep4^+CI_U9X^r^dP
z>>&EI=cFAP|90@u_>ksT`zWaY>HtORLmE;a-hFnr=GTK1<PxJC>*=hJ$qLb0=mivO
zj|h|CG|a)PVooE{<e_Y1%EA5-HCG|L!HlShucc8%tv~U|A-pE16Lp*7(ec_7M12-D
zpi^BQRzo~JLIbFfyJ<tJhg{^5A*T~+j|y?JrVUA~Jul?+qMp?e+G|E^5|)elc*6!F
z&}3osrf@?Hsm{1svc~%+wVpHP45AhXM94?bho&e!1&?We42Qq`AhJo=AKxUHpQV53
z)xx-(2_98!^-!KQPLanPv-)8GTu|b8$Vnhel@rWugb=wJ-rr|bNl#HZ^BP)K(JYX+
zK4nZTK&w8z7}m}MPkE?5>%^MJg^e6d0N0ev`85=@jbm~N;XNdieO2mDW&aVA2LRbu
z8^t8ffhTH)Tzb6x?Sf-5i32c+sKL1-4yWSiQL>MBK4`<lZO6pt#@~ZX(oTZ&iO-St
zYb2W>ne6tE&7@Eu#)66dv4vzuAPZU)XJm>1NVI@2l1wK47Stq5)%9j$QK8PbL<us3
zJR!8^Mptfe=ks^+bl|()-M;{O{2}nT;l?&2yDzUT+neXCv(~(hT)ulATL#Ko+CLt;
zJ+u_~UUAE@56<LAW&-8LEpu<rzP;2rSnAwg=-glI94a;*d~meTcsM@_o%5p~pT2$i
zj;83_vE=JtY8=Rqu6Wx%?z!EwaG~hkkw5*!4mbsS*NWXeXPz~e-R*N{XU{I2S?vA0
zfxj7e*!u_<2hSDV6XlM;s!ro@R&>bKnjiVXj@&KtBfsn}Za?wM?gww&agf{P=k52}
zA9feEpD6fFtk`$Jn8m>d!ZQu+aITt>qvfx5ERH-pwcL4j*-ma4uPuKHZW#B@a%)F<
zOZSSuYhmQ4raMP}Vx8Bn8nkX(1!=A1-rKXk-dtr6P;P0vGq@<g@o6_#5N$I5_m{0G
zc#`7Dv(7*6Z5`>?2kqp0i0osBC383ohhr9;#IVGK!|!Ax38e><O(}n&z+@=)lT7w`
zHQ;?=asWyi2#sX-9#4{9*_KkI!&?2E66N5VTNok|vI}`oA$nDLv?se8lZ?E}@DCvS
z`h8TPX`Odr$1?;)#c0qqF9i-(5Gh}M^BF0>bn0~OitQAw^E_$xR&=BSLV&74t{PFJ
zr(%+;X4KlfFmZdVVv(B+@@-u>c6+#Dm76x??Of=(-CAjon|9>fR&mHxCo(t9YYQgd
zQ<vPnsNJeFKWS>I=%9qT0MS5dMr00rWrCXg^erzXxJBM;5bC582~Lhq`ToeIs4Ocy
z3Tu=|M7c43=_heZe_DxIlz?Xo`K;7W;-BhgrT!><u?%O0Sb~?M70Le`hVtR5KZDak
z8W>QNMlKFTL2{rYD@fkwWXDSfUPMIpw3X<JtN`>4JAUoQD+~`mNb31c;}x#u*vBFd
zP{J@wt{168h5-E(FGp&aS610y`!J~3VVW%DG|7n3+(nAi$@7L}Jfs-#Vf-#MiH-5&
zkX1AkMLjhliunv}{T=dth6euw9r%hiQuJ2{vM)&X%t=G0N7NhCXQ=BlH1u1Od*))%
V)OJ(9sz0uw%=10Z5Gm#P{ulK3Rl5KH

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/jamba_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/jamba_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f381ae54832d6452a8f375e1127ad25743c953cf
GIT binary patch
literal 10133
zcmc&aTW}lKb$0<Qo{I+okc3E(Tu^)ne1I}(lN3ejQIWDKlX{Vo6|@Nk!Y(O5crd#Q
zJuslh&3GnClTP4FJC-MXNMEMMnugOaw#`f(CvBBUI^hbO0NK(r@<g3X{$Pu4-1MV8
zcNe>W7%FVqkL-~5dG5XEo^$VcUHr&yw<7qGhOfu}^(BOUjw|X%Rtr!6847PB1~Ehu
zg>kM+5-D9+M<{LjuwL#ngh|NtNn^?sHpzX4q&Z~?TjVmCw5DufTZ#%(DSOzSa)ccz
zXV{r?g<YwJaDxnEOuAE^utzSNlHOEfxKS>flTE4SaI;*tBz>s^;RABnnrun6hFb}w
zLu@naf1gk=4!7yh%ZRbPi5QCYysxjew%;a#_Fv-4*&rdA7uYXn*>sGBGI=tY%-n=R
zLn?ZmjR=`cG7^g>laV+RG)ax8u0@4Ynbb;>72=unMLdodq=soWDMU|a(=pt73cw{w
zZklI#KDx|GcDc3)lgXX_nOg!EjR`EHHqEA&GF&Q(hfCBm6PZ;Iz{!fs=c63Ya!@<K
zDzil5X@TWZEEA6kY=ns~EkUO(o{kHVWM+9;hNVuXZ!c!9v*~zFuDj;rJfM)&+F}Z2
zl(eB*dHM|~d=(hZqA<aru#O>E{gUnuS|S+Tn^f4q=vk66u;h|KZX==1$QW5uwcWgA
zWK3@w!WPC1Z5H^q!oQ8RvbF;-Gq6N0*|m}~BgHs!CWMw;j1$J&@1R>m*s*|uF3EW&
znz|aT5kj&E>b_#SD&9E5M;5dD=~Za`bK-3z;8ywjnl6w26#DaodQ1o;s7D;-QNpM~
z)^fqDmfx?g!r26y+Qw)zeFZ3!M-gp?WtcAlJ5fGH4>fHjxzD2Y8K6(Tg1Chtp{C6*
zU~<V{qD3v$a=_SItEr`LBgP0lO=`WCe;fU!Uht{)gkLSya&?b@gHvtYn=X7k6-+8U
zzd`^st&XhaiG#JWTG|_Xbtb^TT?a|4<y!unIrrFi-JBkEJgnZOmTUPRQ_$X1tE;6q
zY(h{iGiG(ZuMoFU&~i3+Y?>8Ve5>gwz59OA+9{=PUSrdAmXD{G0Zu;6bSlHJ$<x35
zZ}@W5q@W5N{#edFIaFUI4~6=U2XmJeud&LYx_MJsUZAhC^h%WH0S6&N3jkHSDReB8
zhD)D~2^o%NvK&T0YXZR&%AHrR!9!pcEM@>8n`G#8Mxc|K7|0ix7CNy+<Y``ra>5Xs
z#%qCS;puo<UQ*j?AlN98e0GK9By$AB6iB3qWR1htVJOI3$tiCfq-<3(aai(5*2~dk
zmYw0a3@0_kvK+^z1w|64qbWARLsfFGaO{mb@f_ti$@vUyoROMfyDSW0B2jLckAR4k
zM@UUIl1AiBC>TiIx^~!BwN=Nlk|_p4Kb~YI<Mg@3lXG*Ds}7W7m)Tnqc>@S^RnjlB
zf^?v+w{8JYB2sf*m$nA(pe|<9LOiAHJE)foJeyqN@Wqxakw`2FT#ZC{EYfKDjbDFp
zNJy;=t;AObfeEnW;H~V~k@4$e>`*d(b!g?ba4nM_x{*w#fIk9vdnE%(f*;DPu<2-A
zIZ+CO`Jn`srwS#NrqIf54oioeZ<nYIsXXj}UOoUS_VYK;w%PtQlW6wcJ+Ngy_{7#&
zU`kDWVpHGNz~q)~YTNBEyUst=>pYGM(%BsqGa4MeV*t={=rGPZ%3VD;_g9R_?yQi=
zVuwxu8<<eQg5x+3JfS<^wcfXuUEY$bUv%|vItSKf*1Jl>uZqL3ZoV+LNzMP5`^oJe
z-iEaTRy?E)CIM*Y!AH)6fJQ|}G>kme>oFpF8IiuwcUs<S`A++L?Hh*D_<}gTPz)~O
zkv-+!{&#ctbML->|MhjIG<r@PJy+~KkGr}aQ?3%#CsKWz)NtA9DLMN^Cm=KO#NCcp
z=&xIWM6MT~0;P~-;;M#%kz<7{mwrZ3VUFVerwK^*Q&g)&o=6w~aM#B*LA$1OYMl&m
zeGDPa1WJjBXyft(s8an|$&k*Z+0#LiYlab$Bg!N|ghW(iNqkay$)+6GYneD)SPy?a
zz7pYA*jPN8RPF~K)N}nXo*Tl+03_-m<py!f2qd}o-AC!!wPx@rFgoP}<!*kfS9Bj*
zYc9H9xMM2Y+~1t~lc~F}mD&!AZHL!SKWdu*&h{U^^YRweTXr_xad06RDN%|n$z+9<
ztPsN#RX;lvWD5I1b-#@jyxLQj=ZPBx=Mc1U3<2tyc%V~l#sy@-BQ+Y<h9)%iUTdqF
z7K|S2?p3{@Df)z_<m=$|sxnzM<PFp4n`BJ4jAFVk0#Q~;0q;Qm7=ut#$RtDJx$9<j
zRl(}AJjobkV~coTQq}qcvsSXGrMGn77&D+%<0_d4Qx8s)rXp*T?M*oq^A@yfs-vGZ
zZxkBUv3bojVD#6g;Z#t0Fa(venK#u_nL+in7<d*j-70w#9Ylhr(z_7X114L|glSdR
zspSl%;sub;<!Vg#1+;)}qFeeepqt<moIMSamy!>@Z1%H^WUUEotOmf=27!ugK*_vR
zwfNy8ftHahAc?an=;q%eBnlK_mSZDPJ{FG$b=(w;;Eq8O)JX>6Ht57js4PkZog0u<
z9oC*ziymucysE5c=_M|cqB)jd0rky>f)0+xQ{h9zbweVVmf~p!`y7S@5AFk*%tRTU
zqi{bqASIH?rdD{#fWahvl1)pNnOiY-MRqofii;pwShXo=R<1M14dqTt4t1Y0NqEW4
zMQ=uSwb`Gka}#**QAl`f?b6jx76_7C^;>F$&2{dU55Ea>7SA>bO6Ls(_aDTttw*%=
ztR+R;#I|Rs+}63qZA|Xyb>6C`vC?+;<3M*QFe(N{OMzoz;MhjK7?^u_K@6NLICjja
zr|;eH{qVY@*nND{)%l4J^-Vr)rrO<~G(qXEeWwvMww2p@w*!OaKxpj-O!EYWB<?55
z^x)cck)C+i2<!E>@0g68E&oAU8k;I!7+GmX4XqUf6IJ}EwRf}kwKab!I3WfnHeM_p
zy(}KRTnxUp*>a^|+HM{x2fE80!R<r+YcIb~t$+E^q4AB^9_s)8OLt%1F&TXB3Nkdf
zK{YNAuMxF||NOKAX8(Mr4|&@@MFzWj+tpNZ(V~mq44m6?otNkBSs&iW1AadDr$`5r
zkO22<z7MGQS7WFA=zEP5r<x5PI!_{~eBWinX)}pa|G>0O{{t%lsbt4yRy>pCBLZ+l
zqBIK&*Q{W)3Sc_mvTTnjfY_J=gNBzHG-$2KSskJ_oQ-MT5Fm!nv@EC@C_PtD>p)Ob
zwJV+1KhV6d1+=$_&Kqwa&M9buI&V~k1Eafs2#zXP@G!C-7eEDnoJ+u1$zKBBsa;<>
z@Z0<AdL6rlLe+_KaG+PspjvbZ)$6VU`|Sc(Q7z9Ir+H1a>9jo?WR+yGpqhZ*%TLT(
z@|vPpwboJ3TAN80=FYqoFzu|Zq?YhHX(EnRZO<89rTueyK~WS4Zgj8Sz1L%OIam?n
z1mjws17o=UN5I#=&D#=KeD3-f?PRP{d5ZfBp;rY+0Is{gJjIx5$~1w^pj{u}fK8%Z
z-`<$XYFbmst955wz_ykA?LAU>LF=a;XxvF)(`(nq*dAz#@qt}c{>#Jzhsx7c`|pDD
zE!{00#yd~tz(|SdV>+zX(h&YzwWoDB-HUs`C%9GM+iPc@F+t6sBD*&R32Y(m`WTCf
zH>mk`wKEY=OSPPF?oB(D1_a96W%;p(6yTShb6Q;L>Z^{tgF9D~O8aq)X%Mi2mB06^
zc^wxW58Ud^`*P9qewA*|a*?ssQ?#H{cmg?&&5T!<tjqSM4(9DX_r&=e+SG26E3e<{
zZZKY^QKkNBL*B(3^G@D?&rE?x{|(ez^G@zS9aphIvFl@+R65}>usrguyo>t*%=F<t
zch^;acURqY>+E%Un)3~Lx9SYQS#g7r>`q{-Zr7J@P%)}I`C1#6Phco}_F2uB_o$Sq
zH(&QVRdpxG^Lvs5o@eC1kAN5d0$lv3--#FAeW0DsaISG5S{}%I^Nlsm3CC52$?er>
z?rPIMv$W)!{+}Fa`aN-^=^2j5G8yaZh+m@v$UShcv>0+ibF5SdkO3{VvRc|JatyAS
zZ(m7FsyBo{UqH7t_X}`1q0SBS3_df@DYd7TGp)6G_TirPAoT2t!8UmRk^Pikf*po9
z>|x5jUG5MLd9vwDcKMnb-GqRu93TTn4T@(L&Yh)ivx4l?o#ybNk`PRWUA#qjfT6&l
zN@f{0f@3V;^O4|vvA1NW51_DrlxvnlgV@>2r0Fz!Q}Ow_8O2w`dK4hBgb5nBFl5|G
zNF-gHk!O*JUWw?;P0pUZeDdP#$+L^}ARSMwWOzP)HHqW2^tI>>mezby>_V~vor*Jq
zT3gPAokEO3w;a9g=5sx#;~d11YY|-y7$%6Z@f$2N0noX?0vqLG*YH?~tJ3({34+hU
zO%{UN)@~mDa!t!X!`g5RA`k6X{9Oo3DvmB7nq~lHC0eVrRh{2ZZfXG{PAj-Eb}gH}
zPDgn<ino$Y3Up>kAz5u;)op}mHqGMraj;YIma$IfumQ)tf)jl7Ijl7$Jr3sT7Zxu<
zpn4@47dR~YB@ZxKz!5I&QAd=pD2Ibok|CCXaIjVLmU+oOA5G%NJC?ymf;)quNQS+d
zUFNVo!eIlF1B(=Kr*Rj=0#}mJ7|Y=xDu;tY9Ck}2s}jD#zPe<Lu0Wuc;Yi%uhI>hQ
zH_9o%egrp*lUE@LHY@J>dE9UTCl_(DfRja>T*3*qA0=`r8C~Wj3hyThX9S|+oMhL$
zaJgFNvsGU{B?D$0-V!)_Qq9koLmmz}46pH6vV+TqgY8NfL^8vvuKI`1bjWm-oEl)H
zI(Zd{SNgTdt982yFF$hfIB2Ox7Ix)Iput}~4N7oZezSmZKYkH_<CGiNKjcsc4Quf~
zg%bn82jA}CL&utR%QLb`jZ|F7-k^ks*D@kCwe9j0&J|r<Ys4d05P}w7Uxh;Lou#(%
zM{VPOM!s$NmgT$bKgRzq{^OT^a^#0c9`=dH7VnT1-8G%X_qesU)H*1(4z4k!(5x7m
zEw-L{I4riFEwwI+t&4IXJSe(?5byRo9y^?$kUD?Eow*8SwEMRQj+X{z#DSTzm%i5x
z5QFZ5eaDN&k8VsA$7Ua%d^9#+u-|1$?ZaaG@FUmA=E9|l9@*P>C<G`^6`g^57alo#
z%FV4iR@C4v%okmq_bwD&Jr73KR*U^p9~ep}7R3{bo3C9FPh2VXUx9sjeI-w?=;>X1
z;gM&c+&f<CofLZ~H~z5LJ6o9kxVd$^<KSQC-pQ?XZCu*wI92L+RqS}R?59iqG0{JU
zBk*$~{Q2h}a)2=1a@Vk9M1jF4^kBI!RO&k>_8r?EJXRhag^)(5=NCPP?<Y2xdx>Jt
zsT~U$=&a~XhuU}amO#s05~45%+Dg6=(KoU_U3&2q@x@n)zS)P1qVK|%Z}u_W^$z*i
zPZwsM^!BYy6?>0toD_Sf3WhCLS2;9-^M37_q2wACUBm0cTdq-vvAj*aMQyf?s>p7+
z=F83g0#)67=#eK>re7%0FNyR^>q|v?s$l<_hu-!ddg2e3d-_T}6JpOqxqE2);ETnB
zquarWauDyPuk#n31NZwjy6*KAJCE<!O>ONJy``&VM{jFuD$Kxn8yPE1|I|AKNPlal
zVnv-jrNFot7~k-gj?9bj7dTrAToeNr%ia#4U8lR?fRIsOxQfa3BK-#i`{UN`>UoN-
zj}%+S3g(ZSyWaZ}aNt`rKReL#-mz_O%iD8r&6RzZ0VfD$8BtpRx*9v7D>#UsO4jE$
z&tKXKUf%TfRDm}GBkNZ-k6+mGUVPj$UiQsxwhWY7hQ*fQ_3>iM<ahZG#{XeeY?-S-
zn5?OA4mjG_sw{HigCThtXle`A(+86!H1(Tgv5=T7CQKHKOcpO{JW%ouiQb`gL+S9e
zczC+#oq5<HdarDGXFhK1y#M-k*P(aM+&{Cn`tYT#t_y|v?e3rw@OyY^t9zkvR@?DZ
z+1Fk6^+15Fu?em~_c5s7dmTvG-Bg&@klqX&*_hh$&hBEUjPTL_Gs116_c9<1Y;6kw
zv#qH2#XHkm)WNdHcW3VNo$ChV?JarwMNfapGb(yUOP*=bGYug<xaR7Ke0j_D%Fmix
zD<m}j*G}4iTn9cyq{X*Qxl5E^r2Lz0XSS$Uq593aug#TR=Kx!~;}atmNH&1`HIMbv
z_r@j`j-U^Rn=X!_@0$mq{Qc1x17r`6&K`yA(b(j|sJ=KtK)Lu5fy<+MTs|_gIHcbS
z5s(I*_@!5VriGW@NCcEx78FfHq9TzmXQN4_hr{m_@*5+E->l>(B1sRTS&3?&!)-VY
zDCxn};$+=@8&~bschDFMKgfxIaU{PsVax4=^48?RBXNQ?FTW1S=Wn8lu8VZs8~6-C
zR+%GAWb<av(F(%(iA$g1yyEU7-DQ7AMUV5o<8uDk(*2Z#dgTf+t0#Srn_DU*F2Kcr
zqDd~AQKPS7k&D2;?t2UG%vWr3l|ufmd#B!+s@UbK1GRMCJNQmp#VJ=^$lY6Mkc)0)
zZMtg^E&gA5a9w`OlD81-kgW!I)y^c7@UsH2Y4}j|YD}gK7lpk^r2O*C;lP`OZPVQ*
zO9&e)p^O~q=M{UW6~76G>fVGyG5ASSBrC*|ylihs^lv~Yug0MjE+b?B8HH!qXi-=r
z+b}ptDnB>K4-Zn;^Cpq44aK11IsB|8_5E)^Lkfb}^pR}x0Oj3+!>?gdKyHEGGo^Xi
z661JfL!sIa3-F1PI`@U+<zFCh*h}ZIB`0&@J*04D5YJ(rRL=A<?(0y+XOG8LS4B?{
z#8WdOsE<(B&r!?2A@@gU_}|fyU+K(*?pFwsPjK>?8xfNqq4OW1gCC)ZkI?atE#AVF
WqNV)}<BpLv5WYg<GlX+_$^QXamplys

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/kimi_k2_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/kimi_k2_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7ccd0eb912e96a2024bbb7c8dcdf5f38a04622bf
GIT binary patch
literal 18882
zcmc(HTW}j!mRRFO0w73$1W14cKsHG50TKlGmPAUVWKxo;2W5$rY;*0!QtT!LiUc_g
zP?nJ9jArB7m9tJv?bfWMpS8R*Tc*oOnIHS1B$X;v<>e%m6q<m8cCWTVXH+$rkECcz
zuJO!Ia?WjZ10o@DW}F8~?7pva?mdrt?z#7#)_*K7H&gIi)c;xZ)Eq_q95c$#kV`!M
z6G+^l7>dy>QcId?jRw=&MeVc>-nvEol407gR5D$%R61R{WSllGnWjxk=4ta%*>o9c
zt6#J%l~0$Gv|+Jg$vSN%>5@g;Qss1|hSE~3m96?zBlkFM*HR}bru1EkF|y^K>T;!y
z8`^;BmzW7?B;zFegH<**%T5GJrRvcuGl|jVrIkfC5nYa5z^ZscsvKh%6Ei1PW3yN~
zI<vSaSxC`YHXfguXQgtIn_6C8B$b}y*Av{#Y=UK!qVd?=GPg8?;F9GzL`J0vjKz%U
z*Jijl%R#Oz8jB_(i_7!#Bx^YqyD_zVm5oJ{EH^8YB0np0nWsO4#Ge9(S!!CtP}5pQ
z!|LX=x2QP{qkY#ht!H$sfzh)itbr|MOXqa8(0)$O7~a)S8yP$BNk46Zw-MfE#sqE6
zY#Fq-%#|=@P*%=ZpsXDJD&Wt`R<KsYz}VDOrJ9l<ZA?kB6#B3+RRCXki@L6vu9~C*
z4#{>px)eR#lP6d*B~;?HIfC$20)HsDr~gDxQ9se#p%Pe1e(&jd>K}u0@ft<opbQ$G
zim34O6y$PZhk<G#2Uz4EsZ&%_hQq$dkI_L(7<euR{X~pv&Hy=+nk#`EQGF~Sy_czV
zrBG*4b4JLOtGQCfG>_w{P)m%AnUq-7k}{~bsW}Ve6j4)&W~F?gMM>q~OnJhu<QCeL
zRQ~;GjzfU4S}ENJV}-(FfT{T{VXOr(P6dXi7P^#l{v9t%^eQ>VrojC%NOPf2DbK$b
z4&>8H3R=39bpEYif>C>v(%%VZodT7A7vS_NrGQh#uar^L81;d6Ry$A4YTx!z)Edb9
zx28s`^m1LZru(s$*WK2>-=qgjh$T|5^Z^*vv{LqevEK%zkKch3YJpau@^6JYphd0y
zop3hhaVe<+oWO1Q2RIKZ>HPc0Fqakv^LZt8vn+93Ni&rSzCYI70KRJo@82m%1*#@a
z{PKUnPokm}*cA?ERg|JBD(N}QC%~3RW?`*}N8&75I3kzX`DlzEPSzEzWn&D~xeMy{
z0M-_(l;P}!RZ2&dg@tmvzd8I?erWQD-r|Sfinq6oymnX}b0o?P|G^&~e!FAvEv6#?
zwa-D#aPzB6Y%H-Gd@i>_MwABe;kJ>%wh`ZR&}4AXXCM@4AK8N&MhSJvOM8YB`rcy+
zwFi>!m*7oaoVvo&OUn$qNUMtxy|fxn(3e?yWhNeH8K|HW&?>)h(X-33c!FD<O)PUX
zv&uzd^Z6oJ??cJ+xYl)^?jb;c2iJFKvbxC7vE>B4xI8<PU;**+B8~b&#}hMLA`Fa>
zM-iu^G18|xCSRaQGQ?L`SWYrVBE(IINHw#o9EU<7LX6EUv7kP&gjBV{vDf56#169I
zB<pi+ql{Do6tDoopy=Wea8?L}WR1pT(3}cO7BYy)<<+@4=-n#6BTF;aBXRIcq$)+#
zXRpj~5ugzUP)TZYQvl23k~4=OvV4u@<`$RVk=+~^hpK@vYmg1lJGeZOqo5oZlPhf~
zC@p9mxi-T^XJU!C<Sl5Rg5|5L)#~Ruv*(LdAW6%yQt2$XhS5b<Dj7RBb?nR;$(nD;
zvGeS8sb1!z%rnC7m1PdSzKC4!-cwHmC0AOB>dCaBlP8%k%`C36$2o49lML5DO)g8i
zc{U-{s@*=vC7865v!F^HJXX{dR21?m%ETpCL0utGVND^25MN$WkwOs3asgx>U6Mx~
zFi841yEw<87bBJC<Ra-3fWQ=q%r3&5ibUe*h0*Z4`I|^Mv9uCiiLP{l@PX9M>#GM2
z9lUyg4KGG7hgWVSt}MsG*A^F-V0t9D8!O9E5Oa8Wg^kTb!-NWXdd0(6Va`Ra_Q;Zu
z3qvb6ICOWCwY#0qkTQ#K4Udn29slko_1IYcUa4So-L1_So5W!EEj_+NUHEPg{Vn+R
z?37UD)*S<7Du>D)Gu6^TibY=&zH6bnIUtv`w&A-$Y-z`Lz1Z1<Z$GpMp3-2lNempv
zw{P3hE?NRR2HlVu^Fcsc9uO_9P;!Wrv_nb9Q3BK`whdt;`bmTD!{oi>j+QE4)jqaV
zd@%mr_)~+9CIFsiW-8qM*}^9aqJ@2`(}qcD$1@`p41G5E$zW<=D&27r@w9DQ?OAKn
zmbK||m1jq*sqB5K)7dL_C|!BQj*)5)eOC8L-DmZm)IZc`4^9dPC)0r`gliF7J3dZ+
zl>GRIAN_EX$qt+o2F|5hU&AUtjMhVE-6LD>k*5azfcY!;$a<;hbl*wdPTu+9?H}Hs
zPdh^?TWDREvJQP?pvrBcd*o|uiQug}6$Jdqmiq{R_W}5keZh|acpm|8-my@D&d<!B
zm_Mudq+&CXJ#bz)a6a930dY5jG(KMVXyN17N3qSRZ2wuI|7^Nt0;`%(vXxm&yI^Tg
zS$afdONU_XNLhQIRMjJAItn;rplp4={>BGG{`EIz=sAvV|G#m!yn00cZ=EgUTD_!C
zu-6k(3CAW@x!7#Z|As~sh1yScIFBF!+hffdY~0p#yk-sd9Scyl`!`0t?FMhsz#Dk|
zH7c%o-^lA1)Ll-#HE&?Fil@H@o4+;f`(8clh!)g6P`>T&jZ;T(>Ur=`=X9{O(<gso
z#<`5Y(JSoiRT>r(I=3vqItm^TS=yFnxT`EDuWi5?dIpv|Fpkj`T<VrWDvk?;Vevt_
zZFZ5JiNOkmj0^(SRagg<<%ZzhT?lq5pyD~f*@4=rfR01YQ7YxwmBpD^mTQ7spoGH>
z1$P*0%4Ez0qhyjZfC-Gh+&_o@WE{7OghrYhLMT^c7Kx1j8DJ@a3|JEhfyuyLWAlQh
zQAB(b9yckNGEUE}GSN|c%OqCS+$sfaba}GQp^S6r)=AM?bGLQN>J#gHABOLRH(ED)
z(sctcDe4<<m+h2NuEU`8*!)n&dFUn0J@jo8HXnrUY|gu7_uoueLn&kEDU5-dn9ZG{
zU<M9Wa!MM41S%;w?pRKKWMi$iCYxtf!EfjThGfeHHqIu{u>nWtohxjNX0JyR=qaJi
zR<t7|%ZRwq6CfzudU2rX6o=caPc%eGaqK6@bO)@efLGN5f<M{3m*GX4-2^mo?BOQ0
z-QdR=?-4!q_^uTj!FYdRY~aSA`Z+G(BqLMxPatszr;<uF6y$!N=H9u(2(<+{a8UU|
zc&1KTQm0PKgnFQ`pdJ_~*x`^tr)*3#6yfeIRmo*G%RVIfbI4)Bln_0NrHL!iILyJs
zJ1mHRlTWwe=+dH(2rH_JNR|{R{8c#Kk|mb&TchCY&cJaQ4VXA~6<p%{Ts^^6!7!86
zlf;=+JBM~4B{*N>PC_+@rw1G!2XMGw=kN$gDv^)5Bm=`<UY+MoKv|)nt8)TW@S-!4
zV3RF-Bwe%}3M)PW513aLSgEr{pJ4RKCcZUDjJ?=MRG>j@@X4ysLRRahC&r2oEbm!T
z)xj@}okSlbi|nN>uO?Pj6KF@s8R4udO6UhqfQXv-LEJ=5pkVip*Id(Z6$urN(SQ<Y
z9%z+g%1O%f0$aVHo=oL&=Fh;^bP4sWYC%1V%D05+sZ&-34K+`}Dx(AIe^Fjh-hvUY
zm8_NWB}G+Fuc#hlK)DrdQ=+yh#WriWI;m$``EexFvn;-ZF(%MDlOJ#7OCOk&5k4?0
z{7|rJsP|uoRSXU|dCh`)dZj?aX<*ScQ-Q9d)=ULFFXQ#Ri7Vwzg?wkI!dw%TP|v&k
z6xX7m3iyiz?)otnr7vjtLg~(G-=rp~cc|;SH>r0tf%1tH0Ud6xmf^Sn_YEu~ne$#b
z?mS`%n4n3Qy2mEFi^M7%Rm0-g9G5hM#BfTQ5SfLNQE3^_N_yO7NG5e#4t;6C1=lBT
zz#ei62$)I+$u<MGny|d$;k9a=u_JnpTVBF>yaJnDHWVo5Xn^8S(YOFSq|&))jDd#S
zI2N74B13#-F$ylv%nG>Y42L$2!*f$fk8LH>@$0kf3ONxsu}U&vmRI64*!V0qb|_>J
zwnSutx!17D00-)`S75<bjvaucay5e+*@7%`fIAOhaU6)ebmLQAzN>OX=QnQgWYZq&
zvbWJ+BEkVM@x-)PY}v9Fp{!+NQ79XHY!8dx#trV_;b%In13YLgc+lpi@+w$t+k)BF
zA)$3B+d3+=jy^h*Zatr}`JdQo?pSVHQr-ipLuWI#iEVGgy7}+C-RsB2?g7COT0ec?
zyX_BW{r!T!e{(kNAAHy?_>W}$qk@0*(P-NL>gQF0|IGSX(NUjuGz*UA$1YlIXcv7Q
zkDI&2=AMU3FqD@1XQd^zb>HfY)ipaNs=jB(L%Ca1t*>u*vVlP%F!-=9J9J4Hx|9yQ
zo~nCez4WoOSM)WD4S_FPLw8R;E7iNIb|`&i6}Tk*hw|C)o>?e|_Zv!IUiH{kleN);
zjZXQ_Wo)kz1TC9A4|(X`RrL*}1z-cT`%N5IfWLZWaFnM0Rc#4A>EM`E_pd87@RZ7N
zRf;aJ#)-=(S=2)dkb`7~Q<}t#TtkjH<c4@!0Nc~JRH?RBi>x^irC?UIlQ0U@3SzSl
z!qW7ohQfP>V!kyvKm}Gbe<xA2t(GrQ>=`%(I<Sav5mL+x=XFU~@MpF88;pc%>x=vC
zimid#LTZ2*{9OePhPw!LNZqbqytQD|#oP?seH6i2KndQ2;O>R|ijS{2jxq`^hG3;(
zs5-FMd1|3`k(Hu2W`**%Kx%8IHS<~-Z{`M|t$Jgkj0~n|djYMgP0rUdr3yBX4^pMl
z&6^6x$KV|f+A#9t%eW7V_s9LkKK+^U{Q(Atf-(Q*ORiCC7T&@&ForebKG@6!*q$42
z?9x7vWrdJy<uDd>%y#|q4lQ54P-MkZ>N!gSy>;^A%O9xg;3SnVXPzs6p1TS4HszK9
zt}H9w1#TC=-B5Z|M!#0USHwGu%OdXEhX?8{6|C3!@#_l5515PTrRs<i9n`H^*Q~|I
z!2KgK<Iy|b^(&a)Dz=;r$m<!kPy`ZsqIV&KESd3>1r!&X*|y@a`I!y%FV%xWKD|^U
zO8Mvb_`LMNztt}^?WF;F_wOxLWo>&Ql;b5(mG2pTkG`s22=%hQ><qQ$fWK<Kinm{F
z0~<WgSLRZefx4Ex<K%U)8<>K+BG!v*<*OJY!P8hE*<yCA^0`$>)#m5<z7GyHeB!0^
zp*Rf`_s{piZdc@}q43No39MMF;cFHGMR-CjwC^od;28(mffR=;GCCE`NZ>k)V9ph-
zIe6U*#`FE~!p`gWz$?=ke#v-cJ;SyBHfWrU*nsy7EK7bzR!!;}c<l?uu`j>Z95H=P
zyPZVC(Ua-gJ2s{|XT{LNBR_I1q^=&I>3vE~{$1=|pD9-)2l}WsE$V000M;U7$=kJc
zZR{$UlgKNWRlqBposHjzAIJs3JEF|>bq)6u-p*HEeT$+X{Q-;#PYiece(WlcPtg_%
z)w!A9w-4=3r9I3mBj<U6B|*#oQp<h=_s>Pf3#COkOJ>s0F47>&xRlYXxp)_FVUu?y
z@N|{@Rw<6=T?=?3v+KvyDsT(Oc2z-^sZ(lW8s4?$V%)@PHhfQdbqk|K`f@9Mt<~~6
zIBTe_qZl`_R<3;{;o)6*jRU?F(evWmyso{jMUL_=GIw;dT4Whe*A4B9tqaZjjKr(Z
z06MXc-194XJ_4fnC=+;yM}EBPLA}z$!njhJe=~*$4NCn3TH(pO=7CQsoy2h!qpWuy
z${H06MBDe(>O6JNuY_QaPv^(0q+m=%>>$`7*s<Vmt&XpI0bG&wp%5-V4mj(pd(fm}
zbbcQl=AGbSpOwc(QHpQ8=H?yTS3t{zQj>o#;6cc)AMa3jy5`|M+&J%9nB3I_vI=%`
zPUu~$=e@;N62`CKV&v7f$STb=t8K^%x7NUWc{kHSbiM&ntt3?sDHo<<{{U#2+B>3s
zXrXzUdzGhON(-FdtoeA~|3ON8dnsYcRZ431(e5^dGjPC<Go)uP)$t|XeG}r6c=tjv
z``fBuSZjPiix#zomv7{blU=X6I_LFtKWo4QcyED4XnfGF;N90EbbP9p>3ZHG08NgY
z4!-)w75PyV?jqKlsPC}qlJ`EG3<CFxtXs;w1COHce5J^`r%+QI&sDfU;@nVI1hSYf
z6QvY<#3C1gD&Eg;vCcNVK+gG<*uM|2I(gL|?dxfUcz>RUyg%;Yo8oo*;13t>O;CR8
znphvey7?xqwgC3^z1q%n<@uI_bn<@g4e0e!UQ71V)dD^Bf8Ui0w9gN+>f1Zk;u0hl
z>|er|{{>L{&k}DcaJ(+>7bzU&J_g)PR}X-0{dIwUsy4NttV!Vu@$3JL_b>c`f;s;N
zx#lh*xg_r|294)%Yx{W<-G%b|y|~`||Ap&XVk?T;fdXC>ox=*>U^fFNsAR8D$G>2{
zzeMgYfGB1mc-8MDp3VOQ&+kWIP2rB~Ek$48j?4Aj{LkO>D@`b-N8yZydK1<t^&YEt
zB3Y3?n8$mmq<z<^I~JZuUZ28Kcv_Ahge#|6mSrHi5<&%O3?!u6ni=}?jRYGHKvc)#
zYWxabM`5#gJVa07HTKfX4Y;jhq9k|{!U%6bASJX>;z}UsWHq)LU!757Imy=-p{ZY@
z7niI)4)<v!R<keyf!v@a-D7M5!WCgSO4thAU*!-dd&gLad?b)+EyOYml1K*mjtX1D
zJz5-YoaosrtFfy|$MGWJ4gn3hk0Nm?d!h__VUSPJoBWC9G^HVz$Zx};^qPj(yr;cJ
z{iWuP1};L)dSL!P)xia#X5teHZ}mc5+#!JCqVS002@yoq$yZ#a!}Dy6y}rT?Cy)LX
zH(MCRB1aH}4r7GsVthEHVkiT9688Z1@BTaW9bA1;TH5?&*SQV*t<jX-pRxFbu5-VR
z<MRFwD=Ia~x(NuHRl{3JL}y$M;PEBNCo*|P7b?Oc8=FsDA*w*aMo|@(xmj5gqKRU9
zur#xXAKIWMkuYBQmOhjm9)}Rxf>0AsyaWW_=0_EmqizB41`C)cS6ATjDISNuh!TfS
z0`EA`APiZ7>nDux#rs$v9lsh~Ss}%U9)lzx6H5Bj%iDZ-Bq~LIa*$ivU!q}7)=pxm
zD<WBr(KB?6eMcS`%%1Q}BEc@fH7RzyOwTSZ#|uJ*gL~-UE+In0YGSVQpj5FMi_QWc
zB5ZtiW`#{^8`qLYPe8n|Je>$bFz$*3InhjXZVn<uW)k$3896ffGKPuBdLT1~@Pbx8
zkb)sGWHJ=a6i{?fY#arA!eoINySNGih%LuhxQ8~tgk`Uj8)s<r8V)tMOEN(k0-F`y
z%e+RtMcyyR0$Ktj&zlPX&fyk?Lyv)j00t^)n}C37HnzMve+AeD7Dnj{YXf=?-3;yx
zd=Qu^gb7Y@H*)MHF)noO<}j}u^gB_|!|^dRXSK*CA}R>qRxi{EV;nQ{GZ-F21PBC^
zd--I;q^cpPIL&do6E#l-O-{zIkXZ1`5L2_XvJ6Uhc@bp{Vz|cU+sRQh^iq`R#2fig
zUh~wM3PE%bAq#^GCClc45k#Ue<_`I89|C4`bY20eLmzoSb#{gVUHL0~5_~1;U><Tf
z*|`RINTu)0a52Ec;i-unqlNc2Tt7bWYyd9)F#wJ$!L$yB#Nqyh!_QPC0|^P|&~4(H
z@iC1LKUS4+1PnrfWN;VOVB`gf5aQ6Uk)ww2BvjHtBdG+w+XMBMN*GptgIPxXLZ6<)
zi%H2W2kS7aODi0nH%WR}FcKVY@3}w1e91hwyt)$SIxu4Z!w#X=<|xczIm$^g!<$RQ
zQ31HO5$X@&5onR46j&^n!^b>6uHXX=FSmdX+>uMw$_!D1)G+c*Dwh|&Tr{I(FA~it
zRX$&cF^HBcGjJIWh6as_Wa8K*P&kl<REZTzFr*wZuZc+2c!4grCuHOT^6mLzK$9zU
zfY$GATBVleTUO>xTQ0aA0#`t_BTCLRw+i1Gka$;!=Ym^$<oev4REjuYE#VF$X9_Op
zb05k`wfQ^yToFW3LWl<&mr6;e7&cB4B)CIPlF*j=y^tiZUI8!5f#a%1KAw~+2ouy<
zD3v3n`D`v$KrM*lS`6VLH2p{9`I3jc+<Jf`7)DbNQIcO$lbyfQ3jFV&?|4-iiAsOw
zpiEXdCaw8?GGpv{tc0kwZ=A~*4?|RjuO(&l!W$#qYPXEFcc%qo>len_XC;)ydMlB&
z(t?#vm-+6GW&H;Q|G}-YgQDG;wTHLtVF=y0Q*pZj;+v}{HQNqX*3l+7+91jULN?4)
zSKqomV+(H6{w&=s(A}GT+1`^v@5xlp$<Momo-?VQi4=YA)>y{kg<x?EpAHC?z=l8D
zJ|wgcr7efQ)={S6TjeQddn$P3YcpkOxSxPfn61{K$Cj!O&b)UfRoj)Zbc;=`h=dmD
zPJ&EqA^D~+%RKiTSzrH_uU~CHkg*(q&M?A!KyVK{45!@Vx6XWNb#J!?Q?_O#hy>MK
z$k--DfA_ln3!4u(QR$S6do#8^(GyrVi8e>p77%QKjICqa?zuB^dn9A`KX$innlkRe
zlw%NpT>gz$GR|<y7T(T{3<|yUQ}lntuD)#7xvj2q5MNK5p~!1a8Eb(?n{UIB4IJ4D
z98t&IpRo)8q=VitXY9QxOK&d5{h;7J_^>YR9)r&gZkgAQt^WYTh*3oiTV)L*BrHu^
zmZqP@HwJ(DBf&E8g{6tarMC#y7VKk02#jo5M+#(kRF+}8;AmH5SXr%-Nho^Qo*g_T
z44%pip4m8+ab8T>E~YL_$%!5Ptls2;F*F~@`VR~K!-Pqlf~^yXY_3RId{EcapKTlz
z8uM{OjjyLH4PsMYwrNmk8Y~3y0|*TujlEglLBV(Mp(A@}N;ou?_FYU_>P6b0vUo*z
z!>uzQ(8}gi+u)XMP;|7WI*x2Pj)<s@LBSE+JS8}Wp#|jaty}iiRPgAdV_U)Fj~#V)
z&fGo&x?9`6?P>&qt7{-A$<wx}&A5A0j$Tz4CNj2jkDX0O?}3!<0Qu&jRj{^h3<}nM
zwbjv#?U?9kgF;XLx@p_ty>ssNIh-`Zf`2&e7<r@>9HalWy6*PHyM0-Aui)-YSNCn6
z|5~T1KKP4j_w7r6@diX!S2n`Lsc*}AI|Xm&29ph)5JD%?-jkne1n;S=_q^aepY~3!
zn<2m|+YlBS!khYR*Q-L;tLcXE&l`n?v)P6zp<ycBaB1Blv!(UWmhF(}XiIe*-Etg#
zVy{{MQQF?R;oGuzh;4n@wn3qd2;-tKbTQp_Np#hHt<wf-ARY|h1Dz>Hv*@AMk8d|L
z0Y;b!pb-8on}0(C%KwGUFNS(?mUj@rbqKbOtgT0|^=$TJYy&E94nFi}2PcHViT`3d
zw`)|vV_S}6s59MJ|A62hP`|nGUr0?}6#SP`HlNtg^yfKh+6L1o<d#(Xk+kE;HX5RK
z!QP&-_x$ZFc5+@AJf9x8kh=8x*1+pI5vP0?GLFfwoWV^;w)^;2_i+)T-Cf;+t2^WB
z1qFhSOR~<8;0$dfvf)ty{yE38&Q}HJtDn2m&Wr1M$?k*^dg!0^-W%G{QMKL=%kGuk
zKbdv~v#wsj)tl-Y%eanjdwn3l>RJ$>%X5EFaCUy>?!xax#<%*%frnX7Kd45=a{$N@
zLB#c8p&rDSuJ2zzDY~2QU%CHI${pVHgIQW1E6~oaZI_2=Cm^n_%{sz@gGhZ$=o(8q
zj(_eD9B1KOK;L6m{fCx&mQ?e}jO*1xV!=K=@dV&AmTb$Q&@%WqF!*RH6F8L(ToeKq
z#qNF}uKkh*tWkU8GlRifzoRSl*FDpjJT*I%2?78;>MT-OdoJU64Z7adi!z5qr!VUa
z2u@<v$AtE=N0-yi@pV0Z&%@v5aeAPkcnGD(*7c8F{!Q&e;N`J(!&mmUjj3$sv8~Qy
zWGZ(Gj?RoDEIK{wmM66TrzJ4?zqHa~uqzupCj`%BgBOM1MbXg=wx+WxWea=_7PC_f
zypj!!3xV-;;I!aqSwDIAO_6T>xcsB?joCEavkA*mf0iB+=%I(BY5M4+DuEtb9~VRY
zp!W9}!O<ah9m3=s^e*-fWAf^jqX)F1)|+)56kG?hu3^D7oEmv8?K%(atL}w<T?1m^
zWHvA%1SZmf*X~u^b&LB4V%{~0Jx5Y5;FRDBi+v>70y-)l8p6_!E!V&kMXm=ju7jXO
zIja`hvWG;wKV=W1G6#=jgU5v6u}3ZG;P`sESl5xQ3k!9qX?6YUrC-`<u?G|kc)3d(
z#OAQr)DAi!1_mJXvc2&ajlqxFANudNryEC}m6xJAm{1+cP#wxZ9qM3CfKu9gDQg>Q
zy+7p)KLZ~4HtI5tKHx@W4HkRBa2Tk%dNglJ0eoUsZpS5Dv<*MfXOB(^N2j3E@(M7)
zHv4*?Jgw8#4rNYmSx1S9X%%d(SzAc3g*Ld1tp`|8-<b9G3En<3)r9_WVkjpB?}TV`
zgEG`t+?oJ+c|%!Gx8UjC>_~ftZ=HRjI1qiCv5e)oy4Hp_y&200>W=S|dewdnKQd=*
zr$NX6-0-!Ls%iS@hq)^Be2zTR>A>GHf=ZC;ss^Zb`JcF&#m1Iw<ABgO@VI$EY(GH4
zX@61Qc5h*mxx0|AA9`jo)YicqqibM})mE(=b{y1k%>~W6K5Ii$x-pgw9u<N|w`|8?
zM1XhriKG5*@<A_71XuG${g&&%W0(8x*|e+u!Q^Iry7TCk>nPM@U0s5!YqLJ%I=bD`
z`?sSHE7E-@Q+?y9mQ(BJa#Q!dchj743_bC*?J@~s2q@Yuep7)p@Ybv!hmnqJE@{@s
zp0`I^j^o?7S^zh|L9#XpR`fsmvK_Ao9j~MzczH%>J-KB)DIPtKM4~V^^x3w<Lfhdj
z+mUT_s`3I(g>g*<%5BZ6Ph`vaXCoQgQKAp359Ydc=DR0W7sLyjTp-S@#UofeDetL_
z<@A?ezYS3QoA_n$jsHX6D}zf1ss9wF;rX9!Cp+Qw#qhBM@X8LnG7K-NAD@5Mcgzp3
zzpot)!t1M&3Vc={YlGK+8>xin&ntEKtUlEUum5qdK31#ypDqnN;o#v2bTkpL;}_Rt
zYY~ymkqB%rR~OkxM6yI8KY+7FxrW1_JMyV1$3sdokf?P@e;Iae9N9MGKAAg>4?HB3
z<LDVo;gOxBgRff2_L=)@%$DcAl$~W^TNQzWlR+pYpT`^}dkqd_6UoDk75^R{-@Qxi
zXisYl759VRQuyAP)>a$B8<RT}yf!aB?0uwv#5^1k`cFT_lBXfP!T;1!VF>NeVMEn+
zP3?{W-Z0CmT6an@Wu(k4PfeJ*tT|a?aBVy5b_|$+HjpeONh4M5+A)!&nesN@pS*W=
zr;KF54fEe0y?11%oMbDgy2krW_q;n+lC@zsl_Xh3nQQLq1(WAjcFdD+ZU}9GYWQq@
z8NQ4l|Cd5MG;?`Y=9YncJ<Z_;O``GJ;1C?lDc=T%<ZpvRE8KEo8Ng+J<Jo}BU~*Id
z2dna@3FIRM>ClUikWHlg9TfHtdr5VJCzo=tM}sd23B3G86NevyN<LBo&0}$LJjul)
ztBL4hJVdtY_^r3BGC#$EjN^ldG=`}$eBd3gWIQaZ+c38YSv)z6AA`q^PNUI$Yo;{K
zKc}jGr8jD{zoOvrH9o$r(!!&J()j<L8vM%SSbrmJs=rzCtR!yKxYm>3Quroa{BJg-
B;-UZm

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/llama4_pythonic_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/llama4_pythonic_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c52ea0a39dad86a5fcea5e54f58189d274b0da12
GIT binary patch
literal 13678
zcmc(GeQ+B`mR}FPh;M-SAVHB7K@y|{ep;eFsSleXWm^(Oc}3c5)6yakW+;IIL2l1b
zBDr9q_*{3?tuCVOyeBH>DpR?wGF?^@?$xDMn@Vb(+ugdm+#dl%DuCv=RdU^468{IA
zyj$CKmCbuS7yyK!U2m#V=^}f2UcY|*^}74_UJw4pW-}8AG2M5gO?wIXJA6@tC70M7
z;t07*c*1irGO9eeQ4ZcUG0lW_RLdbv8`DkbNA)bt#SEhrK-0yH6Q)s9j%J>)j9OS)
zAG1!_Mr{-JQTv2r)G^^4bxu@{R!+D^T@&t6H{&tHJQLngFH2X%swS#Ot2v?}Lbc%g
z5ZZ%bv_?Z-BE0c!!kdI0A8K>dT1GVk)gpNF)H>cOknvuHr#R+qf__ZL+uzoW?&KZ7
zbG$fLNdu1?c$~oF=PQLqcyAIKg~l;W4KVQBTm>PJ?}Geh-VOO4!OeSx0AIy;ojDFO
zUkw~Bvs}>k2?`zxa<Xw)`1Z6Aj|h;~_Qhx6QT+-PMrb%17x<CMt3o_FC(sjNQ3zJZ
z-u^3Lsef`}DkezL$@qCJD@t<ZfDn_yFHXlJNbL{DVzQNy&I+O!zAVT#_BJv(8Dp7s
zCubxYj!0O6LOK;6o1_zAEG}EO2{NiI&@wZoUkOuDpzvmi#-mawHhKB7KqJaPDRFLo
z$fgzE?-GHawv1|^-x}E+dNnT0ObJ+dpD3NAbdnAQwX!i3iianJP)Ih1LKBnxbPUth
zQ0Uv!;h2*10og?PUtaE(CZ@WlqEnqxm|hm7&Y9_hhYwvnD0Ii7m%68Br7M&1?rX8w
zM7I!^=<L*FG%ktVlT$)G9PO5%2cap}1+hC83r~dig_I)ENT?{YYigD{p*9xPLqgO;
z^ft-pjMS^rxAnRbs2DcCgy{E*`pt8rTF_kGI9qFsCm-<|pyM!=gby_e0oIXLFpg;!
z$QZ}#-nNdK1T(J}EMpqp@V4&5T&Yp3U>)C4A_89d3c<qbc_ZkishFEL3wBr?4v^#=
zGw@c>%1Y2_J8y@72mCt)mtbMKU71h0@+qaHn>RAOck*s1?^z%-+^Bb$1U<5Ekd5mr
zY$l?Sg3`==&+LbQga|09UzrC#sGeUb;+H_b{Zka?KO*>XI{e5e`lE4w*sso$UzBEJ
z0u%MBDEK=&VP-GIgwF7^G}(!TIwMymqadI&_XZ+5b9I$WITJGXyBFTv{bsmxuCH_S
zV*7>bZ5MWLdp*|G)^R~>3$~R~FNneCF9gfveSHCKC;^4HU$`inBz3(<a`VsT6n8fK
z-wZ(XJ?<`%7#X9Rngsa+(98s<?us0lB_D7@u+;S8^prqxWwC`Cf>ovyh1eLyiIq*E
zP$U)>#ZX8@*?#{GS_Myvx<1$VtQqW5h4lcNhzsQN8)U<1yIGMk`j%=Q8=KkckPTFj
zrfEE)ZUw+dFwMGwntGQc$T(6<!Z4w=K>C1_9g%5DVFfFzGRg-zx)X9l6ys-Ym0jCe
z;=C|3*Z$0=f0g+l%CkdsgFJP((~jnpqdBQ|L4PeAn-+$)%>>R0>w*gs&;>3*LXc9z
ztkQJa1g}92Yb<Snw1}nrN|Py0;cwN(BPaoP4rpUTU_tlTSf>oJ6?RD>7Mh%vrluvi
zf+}Z01e>P@6C_x34G?2<$BXA9$HnJWhx!wolrLYP^O_xGo`cf31(pO}%j?w5YM$fu
z^I8+mtf7PrUdORDB?0QoZ;Iu%!3PFaHm{lH=Cui}XqT#0A-w)F^yz^~J>-XpiAbp2
zER@?23(I6)C!waZkkE~zW|aiq%r-y^uTkaC>!n7ODWR8qYI+=Jyd<dYre`G70Ty7R
zB?<j_tNLDe4iI%KSC=vEF6yW4S*30pBAUx2qPb`zWZobJRf!3MD(8;omO}>|^9Ej1
zJW^7-%FEkT-nY1BBH?miAwXysM<iV1ER4I=RN={2sAact;sIF_cq5EGE(8c1d4t^g
zAJ@r@_6>5Ki)c93zUu^P?@%}hf!bTQ$?R5h3QyiqRQofvBBFVN3=_4spmXkJGaf=1
zaxe%^oo$EB7@eH(hy4)+X9<3`(EL;orzYc~(3LO#rSoV)Ig>&nKoKc%eCSJio+QNi
z#BrIt2uP_yicScyQ0ESw7cL7k{@km7GQ##G-hcgy5cdQ8id>1tFBi@|I3OiSpz*G`
zp08DK8h{xbm9QW5`ddWU@2z+miXl8h1ztAe8+#GuipXSKLVSdC!nUbxdo`|f+~PN1
zf#?j(81B~>VU^5tQhpDC)tj49Slv2cED7p-|1o!$<H#+)4vwaOtG&)CJG@plN5yCy
zMh?)gtPKN>)ge0lKqG6qo|8GDc;A#wM=uKq9O?17<ImjT1qIeBCk6u!T}NY+kPwe|
z<;!1!R*DS}{VzPbvP84b{$$V5mA-e(OMBjpym#f^m9%r$4{E>I#2&pBXyrz}>=;2L
zqU^N(iD^;tUlKq;Vo^v<j`_!Oz+1s8a~%xSB4o+6XZxHo?aC`t&?lRj@`%@?(iK@7
z6XLj+PsPG8D2|bH=LSRleS?Fc^Cw?A`MRuUIwI?Y_%%^(d2Mj;Y>2VE(szFNq{0&#
zId%5rxmQO*!zcUC4Gj#-))7VdSgT}%g4gAW>tPy)hRJ$fxHNs4;x<h8K_u%LQj#kG
zS%dabS$AoYpQWe_vThK13{wU6g$^tZ5zzdVaGVFI4ikA99;jdpG0UctGZA5m*%Kx~
zO$IBJQ*jqowi_jSqGDmT0GBg$mko*mARAayczOs}MX<35E?Nk=)Bmf}{cBFvuQET6
zQoje<3|inKR$toEl(IA>oA<9<4rFR~J<ujQj<4;0KDoOuS$kq(5J>6T?o@4e^0^m2
zYFev3xiAO^a?)6r)mTjSr%q4W8Av$;X=hu?*_QG69|Y2EBdNBLtd>-^ZxT(VD{COW
zx@?8EvJPmr#!r338Q5@lXX=|)=)<F1T8+mJ>S(iPjnyXmhSzuZjXQ5FCDyzh3omYX
z>y}=7@6CH}u2kOp*2*_m`8DqmpgL-nTEE}?{_gv`*B$MDuKg61IkV^B4{QIdc2f)K
zEuz_D--2rQWg1(c`lj9Q*Z!N@O}*A%^>JgzQs0)A)O4)$J@$2F8aqBka@I)d8@Fr~
zK3A4hRJyiYq#8PN0;E*~1v>Hh)_&rw`;6$IiB{L`p_@a=+L3kZtN1c_b1>sP`BCB@
zwb%<iu>8|!tswOCEe~<ld`9%FOxjwPveqT*&#YSqf3dy$pRw*&0N<D5QJ9|p&^h2D
z|D~tz@X1Q@lMdHOtNAC#jgbCng#}~RzLO^H&x{<#Ry|ODR@w0)(f;gt4r19hMTKk8
z$!X9qn0(oq$A9={2J9q-l^j=r5%G5@%8PPko;y!+<cg?-h!I+-2GmZ3PMhC{trIp&
z&98@AV*N8XH0qHiS_@Dtp?#oL=?HRuQ(0<HXrw$?0|1lTvUvhPP6MT}wIu;yT#k!+
z5*i-sC<E9ETqsFWeMG>mmYz2zj5oMhk}zI?!(rYuZ<YX@C}BJgE>sFwE~b1*i=^7n
zBw-mxh+PtRJ%eNhp5!5!Rmy{ngjLF0(&K2$lmzuSqICt3$X5U)D{DJ{6_SaT0%YWk
zYOCMko>l&~tq7diBs_9hNZ8b}3OJj$&)Y7Oc}Eer%tNvPvdCQoz{tkZIbWG@0=RBc
zB^91mVXP^4s~Yn|`B5zB0F(+8xYd-}j)e0n?8daVJl8mG*Cm0^&l*P(&Z2tqE$7X1
zaHe3pW;js?emqOUe2trTC0x{-09v_TKpD`Lh^EkkgiF*X%sk<(J4l@4P4jM`*nnbX
znqXt?)+gM&eGXa(x$f~i2re|4cks>+p(PmR-391dzP|}4%1+=|yFbjqnt4ycbA!9}
zmkCF?(MWjIk%ZCkjORfttB^%d_V3H*jCU2d)D&?4)3e$(qnTk|$FDDqjj1-G!3}kh
zyA{-tgo9Rr{O8pA3Qy6@S4K&cyNs4?-oOF=;@!ycz@_$gm?X?1>J500O9QXJIsjT#
zRFXFp?_;wt(+v9C81zT*!2&@4PJsRg)c5hjYO3($-D(TAaiXzY68NIIc>@4w-VpE(
z$=sW?4cNi6fI~siB>Mk`hbfLA#ZDLFUW$F6d-=COykLq@Av^(itPJ*j2gMg--y`L*
zFYU#~;Am1*=1=fsn9~F=e)7M6^{ZdWTu|obWp0<uHOVG$!A?(rAtAyjqK!7!uE1aL
zyehcYuRug_+U43+uy4BNjtyUpPE8?W<jQpXsy{3Ot_E;C9b?EE@nliK9EJlYwO>HT
zad0O^rKWfg(_;|HMzFdRB(0}o(Ks)=LKESuLI`|0Q9kGBWiXe%gk@gF=oChXZ|P}_
z&R{f%5t_dAEJU(Nh(jl77>qI8M&&A{GXfui?u#LCU@{ad8^TlIX67m0Apkf=3vyag
zU~!0{2id3^3(RFMGw4x-fWws1W~_DyBUnC!p2O%xh=N`PJ&z#aRg7N4=$jb5j?o(!
z!A1_STInxf^H7-Qp_vQ;nH8#%F3{;Wu-ti!5NNYmlr79wWNj8@J&dF<BOBwwb!I-w
zm1>H05iTRZRzdsaiV)*N;`G>9bOsFzKv*Ik&kVGeMhb|p`zkIkXz<+r|0~6xfhxuS
z3Hv<&djOtwX-8|y(Yh=GMqV9E?>m#)cP3-q33z+I8L+X(zhYi@_av=7S=~9#<a_F<
zRSG0`9bR|zW*XWb^e3M?vDVR_>^PZhcyZC1L5@Jm5lFV|Uw0e;j%3IAl~}s#g;duI
z$-Zx_b)8Q(3@=(Yn)k29)|&g1R(}Q@i;nh8b#12QaLU@WaC*u7iyXk8Tl2O(6X3h+
zm&U#ydH>4&E9>s=KNkVuA1MO(M-bp2LV#Za(z9l=!~b6GzecFP!~StiU=g8yWnj7Q
zv9mQ(6Ugd`tvX8}4>)V<7tU-ncdU%2n-AS_Eb13$GH&0}zI5&0RPEkJ?!6gL-P5-2
zMcuk{*M_@lQA$_uO;zt*bN8%HKXM<<czkJ3cgoY9_8drg4y@93PcK*+-W~7uFPs15
z+)6lAhq;eDr&jkpoJ;ncLVKv`QyBLaR<!+*r+wwyDbI6{J?$SKKE2$wGQ4u>es}Vf
z^NWrr)w@?lA8J1M)<f}8=ZUAS`yXmktw$Emf&AvZ>88V}ro#`LABt;D{fmwbUwghO
zt9oe3L*qv+f7JknOO0z$4`z+0Cgl!fJPm12Ys%BQJiYGeeCn%z&wkII^6kykHNH1=
zZzx^2FNJ?EJoVM3eLX2(&+5rFU++WV$MGM<)5l*+!JqH7$G+a|^CWQi(?O0nYnS(>
zn|mKM_hvc{K6EA9k0#rWv9bEtv16mUdF4Cn)kl)fBTu{y%LD1ap;X||!#$4zN6{z?
ztejY{?oK+ppH|m?@!13i)A9LM9Aq+6$p;pdYAT&xx1PxxSm!`<ZFU?%U)G{G`MwlS
zg2J!%Ri3UPf1x>{g~w0zuG1dfPpkXA@bZ_P^$`D+r3&MwJ~ur6`am7T|J9?%xTfcf
zL;E*&4&q=HMes-wdsFoH$rYgxKN*3mI1LrhX*4kvjR~@0;M@p!B`BKE6b%h_Z6F)r
z<_4}Dq*+-DcW%m7X%Gc8>SZl#nH1f^imPE5Q)n<LoA)(H$+p~;L_~<iLLoR$@T6k?
z{uh+H2?Qh*qejdC@IXF)n|!L#>Wx_+scu}nba(vDcveG9=QSCl`L^k%3G~0(aN}Io
z%;^Kkro;b0;0d~5uxB-pTJHZ037cA#0E%VsrS&^g`klzovZBobL(8fT`C5>#fzh*u
zgL-?Wt|6<%XWR4a`P9_1sfYJ0<-Wz~eNU@*Wc8Q;p^&U#Nh9(4vL==^llqqB;d^JZ
z7WQf-b<m!B$Fer|Y9~9ImYeU@XC3U-NnE?Kl`QEZ=Bg!K%2fADH@+*kkvJ%_7WQ}Q
zhtxJ#9v+U&GS$J32zN(0D-RGZ`Fid<Y6X0UGglIZpCt=xED0+5rtyN!$a7$Ok#cVT
zvbL8)6<M%n-{Oia#<G$?KI(EwP+K!VZgaOa5p5KZ=ta18VpbLh7BW|^zeSd2-rD^m
z&8>QHuWRQu^V~DXqpGBOcvV|Ko1uj`c_jf_rYW)>HRbBgyY@9ub76Gyo`Sa&*E(z4
zbroxCu9Ki{Xq$rI`bGHj|IXJN)GGLj`4^4-;6(?guLO5wcmXGKSHFsQcZI<Hi1+mH
zO#tj3h~K7#GJy8yAV92xh&gkUuD%}`SNFWryA=Mu`~AB6b!m6kkBnb1G&|Ql5RFI$
z?CH+~SH+`yC45Z)k1kXej`^<&v*KKUd4181T*?dH-yEkHv=zEWe+L@EeCe_dD`QYn
z)}b)PDXN`|PRRz=7g6?<>!Jcd5q-j#-9T|~LnL$8a+kEZTg01~gV7WC7ylbXa0^>e
zx!C-UcsFq;v0f3#I9#`9Z_Xx-z73OmvHxB7d%k<VbyL%Z!<BONJ=Ff#_#cgHuD*3g
z--fFt+4{{j*Xv2^>u@U7)GhVD_wv1$mm}|w-ydK1?b*_6o#u~yd+z8Kxy3!`xwPMY
z>E=u8-r!0j_$E`<j*M^5XUGJA!erhu60@hM!pxq1KlJ^XZ_UyB1K&#Dx-+o+jmOSi
ztG<+@H)-tsg}pJ^^zxehRML3ri%kaz`QkG(aUKz^(5Jt!`1=nUep2n~Kc<s)I1$_Q
z)&wkUV}oP3WMdo88T-JI50XwzmRsEFf&?cI%4MN&0}4(aQch;MPdetgC_357Zbt*;
zVgOta+QM>8XvfjaC<&@@o6tahnGFoBo?ERtQrH%FP2s)}?qzCJfn{$&^V=7g<GGP~
zkiW%+PdM~Lb5*C}%vvZ~F!&V?y$XWihDOI;BJctq8t9~1IQ20nXwO{~pp~OsC+LQ-
z81_-tM0wc=tKs@2<wd5x%3{&NQlvQH)PiifaS^^k((}_3Q({m@zl$`RYBsU2gcRGU
zLKTG*i`In#63}2{R@*0#5Ya6JYs2DQ<nKoBL}6R--S@3q+BQ(}de`hnlEx!|8}FXF
zbL#HkoxvMtGfvlyQyF*l-DB?@Td3G*+`oGHhZ8@TSZf?uFfH!7+kU70k#Q%i0#D;F
zEbff0dZV&_`PhFN`0?o<o&IQc?dUhwE6>A<u^M18=ncwEy$&s|ZK{h~E>qnZX!~6P
z-oN5&HKI;Gs0%D`b}DJ`@|)+b0XBov3Cos*M1J3gtF}7e)iB>!V}b*JZrQ8*4|5WD
z?N!)^Mef!?Deo69_<2F~wcyDCvyy%tS%#dfi$${Xm&8n#@oUR6<z)R%ku0-1HcXb~
z8n*k7ppR_{PVosQv`l^z_^@q?|0x09Y48t%HxgF`?_l}dt$+9HM+HXl#~>H3t#iIc
zs0%!-fBiK^|8K#=R`zoTb;Rc}A9cMXfR{3d&cw=Ra8#-s6n*R*9mu!O#QJqK0bgT6
z*}TuaP({IK3%+|DeDsjV3`IP7`Sbc`aO8b|^M-^zVYmuk^L(W(hTqth{09oqmWo70
z*|y|I1MU>ca}?TQN*EKSd|S$oZl0U!ag@-f3^T#e_WT$sx`UXk-0b96nCN;2hhCi>
z5oU*X!`(;T7hm}F1XlH7JOp4}DfJn^pRGYJ?Y#Mx9jMCaAyuEF)&NzRU!)py)BsRD
zY^0Iu$x*w3>P0H7jQv3O=IBRID-&ki5EJGxz>LAFq2sub$lPxFCVPHI<}R}2+>WzR
zk=->5ykCS*Fsb0b1Ye9^6(o^{fS3LWL~~U|T!7WU3wT8k1(E(U<aif3s*5<_MlCkW
z#0cVXJa*_MjKUCo0&c}$DX!Ox@G5f`WbT;E^~ziab3igC#vU}$%UCLkY}%>GDdlJ}
zP%tl}Q<TR%0rT{c$?3Qx8{rO6fDcyrpoQK;x-Hia{A43?m3|v(y2zC<m0j>nY%~VG
z$Pf?UO>vnS!S5GB04JL<r9!tnCqt;Y3q}uej7@{>%Bbw55@l}*RS`iap<WS{3=ghc
zP|mM0AX1F}5m|m02I>aMc&cuk-Kh32d;a)e+_Ws{7o?2EvG_b(S7)p>X{$eFg{;Tc
z){L!karpP&eB$;mpG^n$rvm%e0tX-VtObs5R0Wf5FRoR+lytuI8@NuaRrM#G{l9^$
zf30dD=^Q|=(MPt1Cyu)1`W2dL+`Gy@YV1W1(w;v&yzE&PR>JqA_ZwCR9yK0%>hV4G
zG^RZ*DNoB|&#otxJC~2Gx>C*i9-33lC*TVGsk2_WMPD9y>}<<+6W^}vUSf6LK63NO
zcaPl|$W&N<Z~kA-FAlF))GUp>ck$lEm7ewbZm_VOo+lNarTS%>s%cw^JgV7~sfPo;
zXL;cL)AvuWh<|!6S-&r7+>vp&q}}Z)cl%2Jn)|s0W5&BH?d?o?J69rW-n|RvjK#e;
z_sG%+0H9P}Lvu2)f0;*Ayz2hb$z;O;xckpE^rRaOry9TywbpPP3I2U)e{ag)3#0CT
zK54AaSQ?VehaOoDfym<KXB+^_7tb%uF6cfsdSM!uno`#KW%na%AmjAhwcW8TMb@27
z#cB9P@oA;|#_0{GZ>j#jJ9jPUPz!o~|47DKwbTryZ=TLg+HXzx?wf@oSud&F4GtBn
zbFnRDsaqOPT6QOOyA>?sQSZuQvmp@{d<Y%jl%me!Qlb(>5dby$kVomq8A^xaGoMvR
zl*86=L}_Ug96|_|N<snbh?>&`pn#4i1&~n4wcv%fE<waY1ym0$04Puzcn+@2^M~d$
zT3PP;TK7Pc$Ix2!x)83#bVcpS13GpAuTSWyuh1Siu8V8d0}{`HfCqZ@ntK?IE7-6N
zLkwlpKY-Q)GX6t&(AyZXp}&e$j$vak9$99AZd6JlVpldvye^?QISMBtKl-mA3L5CY
z$Mp6om2G*CKTf!8gc!ETu`v-HL(2Z8Y+pFN6r-ci3-KW&zzYxl;Cf}*E570zXP;D5
zWgOs{Z%H{?mM6iBo-`gvf-l_%#^|vJ?v>D5@K|#9v83<#g6)Z=VZ%|Eaa7;_&du*+
zDr+;Y>J4ve21I&WQ{L9Jw>{-;&+OO*xVy@}Wip~AYBZVA_h0|+aI$g#TK$1!{h_4e
z@Qs&0H5036tAd!IdiT=)_4cD5&8)Y-0xnf3pf%_X;1IXFvKB}&g%7qW*G1ohj=(3$
zlkg!O`;mp%6}}W<4oukq<`0}26t!N~Q~bh@&S2UK$3$GjA6CE##N4E^34fQ+g`aQH
zK4kId-t)gx=u&>C&;_1UX%ebaT&8Sx(5<G-80s&xm6+8eAAXh)c83Fp5quVi?S&%}
ze)OT-HYrq!8ZTQ|dF8_}iaM@1fd?=(gb}+4V=hJ=euAf%Zu>FkEJptvB3Um@!>>}<
z!9^2DWs2az6kY)_<&cd>l`p%F)Bg-KRCDoTh_YIa<2DV1v-~Zw{G0@SPOAQnxPDHa
z`+MU1rN+o<en}wu6r+D|X&?gDz{e)f;_GXsoi_|y297f=1-A%1wv5vn&bKtTMev!O
z(%ZPx+!Fh&FH11J(zD5)S-+Vxs2Px4IkZXOk=@bHalxhGEWzjUt1CUL+Lc51L#tA%
u<;W%@W(PGjoFTKLKC8uN5PTx|>^-JDUm0f4r+U}oNJ?L`rH4#51pfzl%S5vP

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/llama_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/llama_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ee712fc2f26e36c20e5ece4531a0546e3d7fd03a
GIT binary patch
literal 9198
zcmd5iTWlLwc6azDHKZt!5-Ew2MsHD1+mbEGw&a)W#I__qBs&Q=2|;s4GHJdtGmK?r
zn5NqRRnQcXw=FDx6p?`iBEtrv_NOXPpw1!%Tx@}AM75-66~NndvB)12D@dAtwCB!n
zNLi7cv_OGgoA-I{x%ZxX&bjBD(XXvm3xX8U{YmIZFG9b=4K?ZWm8ZXg$}L1Anus7D
zE;SJ%s_|(ErBCbA%40g89!hP*5H<RY@|Z4Sikf|9xvq~`q9wi(xo(J%QLE1ywfSt(
zQeSD*?z2bBd}YycUwPEwbI35ph%;K@tB~uaNM+RJb4A@gceKh^CHI*l)zKPX4S_U>
zsbM_#2xYgvS`B&$(U$iSUBXn{)8>2YZV+DbOWc_75|U|>c`M1pf(+F4$0CvVb*Q+`
zv&<A52*ntBDt?WLh2|Lcc!0w&WzoPj#?Qy&5q~fciTFdb*C<t-xEkP3#G{D_!-wLr
zix?%xOJ$=>gb$ob#)7!_1b|DV+%?W{TwsQgta57#kjaCdle0V<2=aJUrR#KTI?hG|
zc)CPBgUF<Uz@99)em=l*4C~cO<<p@U?GMJI(Rj?CV43OAtYi;yxCif#@rOCUR-Op3
zd?*l+TmDEqKy!epBoqtr(3+WH*q}l$B`?c2o(fR;V_*RW`3M^MG&BKMu3>c3nt3!$
z(AxJ&xOyF9p!JNAHZZ1X18sa?=QGnL=rhC50>2W*!jx12CYmhNtc98~lca5PMuevA
zbSccY&ZAkvXPZP`yW|{;1fqeyGjNRJ!RNlTP>^s3g)fGJ^8r05pdTf}Q+++NR3JuE
z{ZuqgGZBso#ds!0Gqeno<QVFDh`&nlR~Z=-GaJD4;(B>N=?}sM`*{X>0zknC-at<{
z6blC^wX??}PrJkc!s}O=7}ed)!~$0$Om`s3$Gb6>?%>sUD9FHw(t>Sv=eH?i?2|8p
zinB5%xvO943a|{tF?^3aAeniUDTA8)z2HIzKg{G$4Ilu2LEJ(-?v>LA8Ug(&2(dui
z%L@mAW{`mVh50lAt-Of9y#Tx)<CBvNsj2`FYZx=AV*(K_RqMr4Kw+}jQfsv4zV2Rr
zMOu&VA26BJQQo1}!cMhTENKH@uC~IJYOPqRcmZQ!<r~OrocQv;Af1}C9TpNd_^Tii
zd|*Zx0bVZ;(6paRFhMK@GDSHSZ*K1RJ3o8#ozxp0?MDvgYbm9}+mV94*SU^E@OuG}
zx5I0d^jtE*u#(B|mu1Qi62~%cZ_^wBmX%6_NtR_|z*?BeLbO!*Oh+sbW&9kBOO+hY
zGSH&^0d|J-16RvaB=eOxo(wulGJqBX#+JxJ7e=UI8Oex6KNMjk!|1uGV`F1dslwC1
ze}0ykVP-*V=r|@a%~rtqC9~fjj08B&@8>W>P}F<hztPJ_6TOL0qML{H8NPcqIWRPM
zZGh>Ggs$`|gzbGh5{dT0X4xBwILH>)8&7})gcJc%_?+vNxmr1{($$l=!B%6k*N*KX
z);%iux&VaxIb`3xhc->t4~(M8y;!wjYRZ{V@7{UchN(W=+=@$2wo7g|<qXJLn$sh*
z6@wX2b;rE!LtEC<lJRtjp04GoPv5-z=Gys7Yo4yO=W>>`ex=paS}=;LEeoO=Kc2fi
zmnAQ3lD3ade{lM#UQ5B?znDBvVHZduWi8^5C;3E@myB#)=NnjtPqMLKL6iX23O`ve
z-v<7=1xz2t7<MFqcpGu$AcnZK@rC)c2E>oJuT|f#Nj$$GnnfgGP?kGWQQT8nLHlB?
zW+Z6C=A9To73frzk<tmeaLFzZdKF?6eWVY<euJ7fKv+|HK_A9v-;wU++cz~II&~;z
zNa<%#$|x8{(HjiRG6^P*_|U)?)JoXC0|7Jzle#9XVhk5lM-h_8yeubB9WJ#l=xHNX
zJln9l)v;npn*{yah=u*rCJY_ZLCq{bSepA5Rn^=tDbz@{rtXSBAI|8|wp+9cM%uRh
z7K30j1vM%Cb<~7-EC6z9Mr<pAc#ql+*Q>Q+NtYH^*|x$CJ_%}GLzCz_n$^CBt`lDS
z+;1)Tfy60qX5goe!kR#SFga?PjYp{frP>L~GfA-wmx#wWMtOVi^mDPu4T@1r6^=SH
zd2Ryc;J1{Q-`CJgEDn>PeuLsby~UF;Iux6s;OPv-;JKX5KVulxWHOP6vph$E&bmr*
z02W~sjQFLFCL??Z-e9?hg9i{a20Xtsbp<dp(NHiRft?jMCK2zP0#!!hGl9JW>W!f#
zOF`FhSP{zml=Zws9Fk1adE-pdVO=YkLAxcRa1u_k;Kia~FR|QRLL!+MoQ3fRxL_#c
z)v*0=9qfL{yc$Wz-vCYD2aTzTxvrCNVis%*l|uOF1tKdnE|An~XYu{ASg6<*$Rq>D
z1lZtJNk0R0OTZ(Nh=h13cs7)fbh729myI>a5J-S}rCBUsEPnDNJ)MjuILUl+HpnDo
zlhL49a*~-*yS!$$6;J5ES*JV;%u86%gmL>}9Z4I%5|&802{k6jbL<`rs6ap$hqVO0
zJvp)Mc(6Rr4~k~Tr03?^c2(#<1UwE1xJzJ{yoYk-sI20a?WS$1OSJc_G_88XeJ3{^
zz1iBvWp?%OmR94m<&ef|%UJ+0V{aDi%^7>AXzyGeOWTL$^^Z!OyMmjV%(kq{bL*X(
z?=0>8vv=oTe%yEHZ$|!V<U!L$->G!XOJd)t<r9l1K0bZ>^k1G`>pL|+wpR1fV{hmD
zncsNY7fg>_^;xH9v$FbD_-1&?ov!Ry&}Qw`8GD0hZ`gEtvbAlS4c*y>=B3MbYM!)q
zd=kDBe%u5H5S#Yrv<Ujou2Xv+x3n*N#Fhiu?tNQkeOuj@(cD<Qr6(&YztP&t%5!E^
z>)mQc&OO=MhUM^s=HhYx<Lh4Jd71cb>j1J>eU0>H+a_6_Aw44LS*ty}L5@9nmPTL8
zG%^C*_Z;S{&#cX(X7t%!*QieSE7P$<(D+=Z$GN#{bWr>G00FsV#TH5^p5(yNo#iF6
zV2j|E1#D(Mpp3|-i~@*F53n;hsjL89=qk-mQ9CAr1!E8PguPAqRs1FJ6TFI=aNab9
z{z8Jc4%=iqlB)l>+TCZ-1v8f;`GVmpXzy#(ner=IFk*}7Svz0YV_5cwi(|MJYk2Ya
zw$XwaTEtL_=HQGelNpTflo@^&cy<35=VmL4@7Ied6a$wmRU(vZgD=qF8c>#<<5kxV
zb|RF}s2abmd78ftWr|E$1<Q+HSUeN{S?A!W)kvkWS`rA46?agyC@}mSD6mustrtjm
zaUHY)N`f<<L9|h|6MjwzWZqpMX~SWdBbayFk3eo;vACY_?1_mF=eCWR)j72G+9=SY
zR4@ZY8;f_Q)?_<?2%(hiIkQ0zvc!#TmW8kb_X5F=?KXG!^=LDu4&D>Y+w&Y4?X}lo
z)rW#DjHP@>q7CZVQl&yE``3J%3J}IRdq)yVX-m<fN!hpU6ov6~u_NuiBTS{js%3&*
zD8n3;D(CCe>EQ;oRxD{!C|7w7te=9!^4%)T?yK<-r&5woe&4FD8{Vt-7E7?b3Rcs7
zySmm4alcHRm2$uuKlz-qnpq7#t5A;lH>eG2Fki+X>XmZDG&tWzzak%)=Rl``i&~I5
z+5)YDt-t#YcH?!rT-`U&>&3Li=h}szRT_YFI-aKux#{O{mQ!6l<rJLkxu1SxbOnzM
zB{`|`z3mpA_bXM*KYEL<dwDPD*;}M-+bOz0#3+0lP<ozomTgjkA%#+qw{70X?su{~
zO`qld|Czi2Mr>5>NY7vAM<l)i&QdM_ckOofc%Q7HD4nrhp@QxHk^NRYqaP|^cICAJ
zz*ELUt|S3^RlZ8O1eYrPLir!Q@zZ%^8$bNNkZSxQ_zNBymKN~X3L&WQF8*V<0IgC6
zp>V;cEB1l6=l)UoEqJ;FdJWwucyzFbK@}6=>3#;!A$6o!(r#6<o`Kv=8&?$}x3B1}
zo?v?bp_gE>hE;-PnnM(O0JpF+G}kQ$MW`7j#^gOU?AH}NDcM0R_*ir8u{cjLv3PO@
z;;z_A<e*R@w>UZ*S6smx4F4rI4NtL{(dH^=U{V1GMTe%R4^k}<y_UBy1(7`x+?`00
zX8f^ui~$Et4*_vzR`$>UN_J+@oQs1{7LUENc#MiM*A*wNg;rcUtfT-IOQcuFPC>yA
zK_+QJw2Wu2Q}Od4*rhml)K&0U!Bth_bk8__J#)j8*FuQ|?hIZ{#;#ET@Q$%#4gM_^
zpH@~bPRx5q5c8)P>`Z#=B#XRR4hN_ej}g0IY%R{P5|p$!s;8Ztx+rNQOpL|P3wso2
zICLU8-~x)VerP~oT+#)>OP4GK&ybU><ADhN+`!P-r)N*#sd}2ZlAK{N?@C$-{IMe#
z>oJ_+SBJ$WGK(!{$)d!=un)>&!<wzZ84lvG$8iRR4Dz}a@AE9~7{l2(&L(hn4rk|a
zrnsfkk-!Y>so=ds;FE>#6UFZsl36ASI3Kg@OE6C|f;)^`+g*|TXBx>0-U$w!=AC=B
z$tfR0AovL}R;xPh$2^6P4i1lGRYL@RIYMBQqqr(0Cl%UxR0idX3x~Br-b4ODp}5SR
zA9}*r|Ar_pFv{HCpXfXnrwFhjw*u?{ZgeHGR%OU0k!)HT{bb_K#0J^7B4h?8#DR&2
z+{VD<6G#2BWy8_8M)u`MRM(iP9bB&+{B!*+^DoSQ$NYWhZ$tmI|DT8cap+-(I5IV_
z&uK1d%<inGZhkyl?U_HD)3~i3aKYWp8CQ?!>RIMLefRFW8?KQpEvj%Y>OQvJwrx1u
z9#>W8jHs*{AYIfio0cN!#=iB+zRi|_Rr0}W4}5Eb=hrU2l5TnR=ETC}Vq4Z(pK-Q|
z&elyg_{l4w2i}J>;_*vs-pgtCE8q)PR6-E9qHf7`zi*kpHzYRni_ZRq)6nT|UgAVo
zN4CBLJns7a5Fx0l&U(&1)k3)jZ3F7+T^7X7!;9L*v!c5_>ukt4+eK&lvSY*9ovSHs
zFJ0LO9{Av))#3EO>4(SG2gVnyi*%-LpIEnV-QKr0c?sNkYuy%!?2d)ubZNuVh4s?b
ztg8kh#%0ch@wB~h=|bAx3R_I2JBJ_WGDoMxqf=|Iyeb}jHQo6tP}}LwINC%<+w$IZ
zM_0Caf2MgzY#v(eOgEoe7=Pqy-fZvs)N<FdGW;;P(SB*sx>?`2)Sqb@5t~L<`OJ|?
z5&kz#rRy&(>ay+oSLhXHt^M$#^@+RgWAZk+)-t@B+Hj9=Qe97|?rcX-rej3x7}@L|
z$?iJ>MC@t(ee0e(;Z=GmoNhe<VTgvtoYvT0x1}{VR4?jtPE=K!arcStzLn8T|I1?k
z%W3!Ntj7zn@v7<#_h|^XH?-W=KlV@yC!e%+EDxvKhE|V>ZNm$?4SRF8rw^B%S-VpS
z%Vg~PMEky#eH-=zoA%0E<V|v|_Q0wxGdLy=j&0b-Attjx0?x|nOvRq{ial9sZ-&}0
zQu|k?)70>S^^t?x^t3<mc(bh?nbw11>%nYG?`Bhfy6M2C_h8n00FKnr`1{7LI~}Xd
zOC9OPBU@HuZCy@lZm!<amef`*oXojV-@wA?zdCzi)4w<g%-FCmzs9vRb$r2^b$b@{
z{{{=y)GhLv`h#Nq!PWlEp>rbquRouzxv((0+1&ognLB5eQxErVG+$U4&$f6oEr-RH
z!>d!7;R_=CZ@HLhxh%F^&bpg`?OH1rCg4;pUI2B;*Eb+G4XnEci#K-L`lzaH)7$-N
z_1)@~iM0!tH@vSb+Ojq6%M<H02eFLU9$M2amlscEyY{X0uk2qQUmSnzYF=~g`9HZ^
zxMtXKTmSs%2HBK#xaY^d+hVlH*_Ls1ijK~V<ACTmka3KPj!_(4@)WM~r49Sbk6bl5
zJ#_x()>UmjLgn5Tp*pico`vQ|V;_uV?dRaithTQVAPBh<z1jUecM>$$XM?(nRp_(f
z<3kr*=<|VYX#7LV$!aKmjZRfUA-WD<tkkYM2&k`D5V&5c#r3Mb$x?0FMnLW@#oycH
zuV#M9;`hUol#DQbzeM`|ZzThf{D{%-r{h7tpT&-*{P9WBg63uM7ZfEHdj{9ATPA72
z4q@fj_AT7B=D&>v8TfYQ2MYoF)Eu@>j>=k{bwX9nn()99WZ%7yzS0=<rkvfWx2!b|
zeS@IPbq(s_Q&fFUi_4B9a{1WY@>CD)98XMZ^zO&5>YN@|Kz~8iC|6COU~^`<YC*Lv
zOOv<9b0u<<M4slQ6Ss$RR=H_I)s0I{w`+5ya?_5=+j3=cwH#S07j>f9^Q{B7S+BZf
zZ@v7y!&k{TgwEwZTHtyDSAsGn*q;HIq?f-Jve=)Lu%Wiotmwg3MNeD~KXZz0Lc-rP
z#5mcoU^$uOQVsr8*t6|ZVUPTMJ;{e6oNPQu)DIw(kBL1AHqOUkf68TH%R{*x*$^qg
zO&oWVqvF!g^N`3!g<=Qc1H#?IUtMhfD9PIJ0Xu%ud}Y_Np@Xe0+4z!5<f%&doy8xn
zSr%v5rjohiE>g&j12K~6u)?S#>>oiBGZXg;WH~KC5Km2rAiqG(zeCl(LFHedeP5tG
z|Bi;f)tCs)w+OPYaQ02P2AT#PZbJ5r1rg1^H9HqxO`Gf9Gi(|DKufq64}ODiDKGrr
D>uH|i

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/longcat_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/longcat_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5f1b93a43f98d64564ba56c0c281a54cd26079ea
GIT binary patch
literal 2024
zcmcIl&u<%55Pti^&c<CQ1*at;4s}Qrd#%(KAe7*yDJ`Z@DJqqk1G0pk7VnF*>3Y|^
z-9T&^sfS1;0#rDl!U>K==^xND9J%1Cm7`UWK)`{UTZ3phF>lxFHI;?Lfj#WZoA-S)
z^JeGGeix6&5IlzXp`MK(^fOxo53IeXTL5t#X-MM?RN_GL2459Q0>^BEAyy-$2#0v|
z8q&mFq(z8uAo$c$w9YBf-`L`!!nqT#6Ivzq^OvZ#Zdt}9mD+@YT|R5p*R3nW)Ek7B
zeX9TN`9a-zSbqRn5HEuguW>}!;P=o5r}4XTN!&v_Tq$xHDS~@^%`z)x)j4md_GTEz
z9d-I4_<<Nv&{>#n0j!^K*OAlT+!vbYV<<zDJK%gH9GPn(+~;dNtb!zwGa690ys`!>
zUuuFQ1(q#2&_a38^9mkE0&5d(9S!tQZY4rJ&;Th0dMGvVW@Nx`Kdb-bmsRMo=P|!W
zf^G0S5$K^TqHBDaub?vj)-wpb4>cQls;Q6>XidJ-ul=X|M=23}Fg}j=5oqgppoj8*
zh&UE_uR{);m&bbpni9R(NURus>tP4l8<$nXSZz$K<cC;`L!g;l_KY$N-5d^9&coe#
zQq?qU*GO4c4G0UD$X3SPh`n7S)Ri#SP2IuRJ=V_%+m1>dAL=GTGcmQEk*CBRDO=T=
zZV)$Gd}ICW+L}8aA}Ohm9e2EHX`~mD-CH+G%rcnVsSr633hSEfJ{4~D!+9G~jd<MY
z5HQG9DOKx(jzhM$rHHO*6Jvw2i{naO8NjbQig6jHfQ_-uE=MYry80K+JJnjgrq@nF
z9V)~*xwF0W((;uhk~j3X^R>FOX_@(V4WpVTrbFvBOE(=mZ`FvY>Ul4{nm4!Xe|}cq
zn5)$(y9|vJ!-r5V_#g~qCt#{Pyo&Bg@%@pOH2L||9ck{z?3q3Bj`ZwdW|hg*FDGWd
zY<$r;lrP_t$F5!2ztD{csTkWzc48=-Yb&Q)%IUUJY$?S<`Dj~SXvqt=UhD`c`zqH(
zeAdG*bfPG;*iN5nrBAif=UVA=9(KMZ&)+%**vu;ooAI#o9U0Bcwv&b1$pQphjQx}>
zd?EoT{zO|&wd7P=PPgRrjmaCayYdT%$-;dGVi{#RV;*z)c5)e*Szs>z8*>?$EWf+b
z!lMUAz{#TrF)-L{IDV6xD<;Hm({sg1QHionHq|PDPL5#=owsc;UB>vGZPoC1DEq`-
z_1$>yyO)V!V61R-nw6W)@Rw<lq1Z_CUTh-TY-By$MIHX>NbIY{KM{!g?9~Ok4^u|m
zh}ZU%jRALw^+#@?KXQJ5<OcgAx9R=u{8`|)2W7tsch+M&R5k4l3x0^y#@mi=*ud`n
z1O210B)>*<mL<WmcBK{n<g0W6mh3q847@r5$8lW=afx5in?In!@6l;4_WjIre;|+^
F{cpT-^zQ%w

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/minimax_m2_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/minimax_m2_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..92eb86b16d326562bd9069cfef054d08de1cae2a
GIT binary patch
literal 19625
zcmbV!dr({Fz2MOc^h5#)5D3K43nT&JX=5-Uws|CW3{Gt~4|)?_%#m%d5adWWHa)c6
zZg!Wn*}0_YuJOIQ8`7KI$kWV(?(NQ{Go86^yPe6*?d<3v(sO$1&T^-o&UF96wL9%}
z|JeQgzN2#_i0q_2BfjVFdw<{W`F;Ge&1R<HOX|Nl_uN&A`ZY$B&rk?F{0;<eQ4Gas
zlGL>9Yo;|2*Cw?Kx@nyT({xGwf??V~!kT2obS0$elg0(pv}wUSZC<cUTNbR-)&<+N
zZJ}zqYQa8jC$NU3W1)JwnuIHoH4DyZCka<3T?@6-wHiuGC7g-6?`q`UOxJ6vXDG(_
z2E~{X)!)?>Qr$N-5%X^`G8NHC#tVtpmJ_Mj1cY@bQ#T`(Qtjx~nat?o!csDknOjVq
zM}Txjsvb)uGcyy*saZ@Nok=DoD@mG6q|-B35|WL?E-o%6NoLddjSM?8n@KQA(&^OY
zMRs8Zi%Zr66&V!}=!F@>&(E;w1Pd|CTxu>8PcB}$LZVja;>E>liPYRmf}NE|B)ipx
z$ix2yfqw^!kf3nlr?reGp}VYIqb_S0?Hkr<J)=t)E^8V68~W)A#_$FO(_fJ=kW@WW
z38_ZL2yqihGhMD=%#dbgED*OQER1cXl7b~nSmhApS3$mwu|vKiQ3W}6NUMf42U7!S
zPWW@dUu~i~QPTi@W9rmUy&95BItz6=7&nx6tx-2L)3q0<NQ2~@gn3w)xiQ&WoE^!O
zQD;J17(IG=_`}71SO=m1pt(h5FqM37YB}oP!)E0)$|liJS168(tK}ID#0pyl`U>!I
ztdD$*4r0nyhb;@S3N_CFF_;<oV=5qKRAZG8GpR9bj~pdTA+1}~JcP8WF(brm2VzwR
zVs<r#<s51ZTTu1`95{&8sCg!cIn@}p;8J5)OYMPJof^Y(^=b?u-3Ma0wB(z^_8OHK
zY2Bm5IBI@S2^anE7J?cob6iQCA67y|pD|~Kl-T@;5-R%NEvzE6Pb;aPQKRK^*XaA4
zHCjJ+jeey@n3V}7T=dhH%xNXY*p&VHb=aTtXO#4!KR;OvD<ObX_otFZQA$lPOKnQ(
zpH-*2ua(jV>I^HXQ0J5qF8cq<3hB=m<4Wjjmdphu%v33T{JJJ{QAwSDQ3(}&#tyZ;
zRE#U3`DrCo^p)MAp>9$U$JB~*ctOS~Lm5E0@mWCVBP*`qt}>~%;kndxz%_JgW+Cy^
zifOn@j*qN3hL>hoNX#VILZ)@NOHCS?U~x-I)JjL0#=^1a(~+|6c@DH!fK!_E9d5Fa
zUu<>dix;mZ=!Hclk)%}=NiQs?GxVhdy)=_fCm6_}GXPaYr}XS%DxG1MXETc|%`CHX
zsVl`KAX%}Mi-?3LXKv7wy`&seg;WZlmXi#fTFlVN#o3um0_t8&(m0`XIy1v&x)LdD
z52#j}o=cHt)o%G#BG=EJoun@;&&~oJy}X=E-lXRimKNEJTuq^kP@48dVv-@fyp&)i
zV?0jiVqB_OViVWn>I%kZSXQbnMoIgS4Q)%#Vls3{NtCBGE(1bkm*;LsjzVG)%%RS1
zya3}YrWC>IW|vtuk;=#&!rc;2LsYUKNS|Y*I+*DMWHZp=E9p4!1*C}NnoG-NarWd+
zB^b$id1fvNurSe3S<S)9QcU88WG(b~j>Ifi6EjSLmD{dWz%LhAmpJyTSPL14oaR(O
z<+STF$>oG(kt1^3#<^6S#E~(HD>X`vnc3Oph2<nHK1^)lMn<yErx#P|04yXnn_PsQ
zC)Jb!lgiRkwLBlN=i+RE->QR9I+1}oaHcQ^)+m#Zv}{7EoCWp_rbMb3J9qKq*|U<n
zxVD%DoLd5lUxAsaEzHcJWH)IT&n?XAfdY1NaOCZQT$W^h0q0?yWfxh=a2<B|B}sQB
zktuDnWShltb&I`G_Xeh0&%^r7Efngikhwa^z$7j$Uy)4l_-qo+W;~ADo9vx<L?`Lf
ziR5J#sX2QBoHX(#H2t+dUFym#EOjl-Ep@^XgYI<RSRNQWc5NWhm7KfOwRAIcbura-
zJ(*m9)0bgyE-lWbGU=|xr9^6Gu8Z^!W&loaT0wa6g<g5<$?37Bn=JAID@}On53yb`
z<@|ZEOTPw&`;T9v?ip=wR`N#oM#HW#uovrI)9)Hv_A99N6B-Qq#qbFFv=|<c{SX0Z
z7DFW7EQXJgbSTo<i=n_?dl&jmVox85i%}Byi9SEZ8vrsK!BC5mBKle}?iPEFpzjxB
zq^1@z9K|>-(mpxg8(7o7WmCaJZJ69F`ibA5rpv`z#HU9w-wO?zY=SYs8w0z>(4z_}
z(*BY8j#;!G|Ka(6die)0Kh$X>W`xAN*6;_@?@f!==!d61I(_Ff<h7DKe@VIS@B9BT
z^1Vp0+`f@=xCDD(#~!#>)3mSERQEm9>6}&jl+ISQZ>A!h*x*N1cdE8B!oU~!fiL94
z=ShoVYxINp_vSxHy_ed$C>)vOk4)xUr!Xt9XR!;GFmDOxEZtjULjO6w|6H#B#d|eg
zY@of^z#}tdvj2_sO{-`f*mnJs_Xl2K@Oggl`QPibCi6pBYf7qM6PaZ;HCqs}Fs;aO
zBVz*MpC+T`&a0d?fh3N?@6D^6buo|8GP*|U@2LN*1-@Uu((+6qm0*#k%+SlJIgrFk
zh|B3QAP59ePW={{Q9Lcn%W%#N==MvxtBD(TH0&wJN@Is;b`)HxE`Fs@X$h*GV^*SN
zH+orE2CEE!^EGO(y6)SVTPts`yu%6gZG3%OR+p{G)pz9TI&=0|&KP6I0Peta;gsMp
ze&~i?;dB8j22uGVF?ITg0HRJIiD60d5phJF!b8FdiYhAeM?{sPaDwfrOdP4RD4d|c
zqY5XaTv0f|yrOV|F;zGrOn*^0!PZsb1Xwh>(B%?u9;ffnr)&&h(R2~RO5=GX0JO|U
z6o>$F6q!Vf@KqC2EJ`ww8rBaUixsjoIze<0HL)RdTG2sXmqq53ji3`nryZRRbUM+A
zq0@y9iaoHkk_liZ&O*3k`>@>*f6QJfOR%nD`FFs9z2XO~gV?I68T|$^NU)br^w1c0
zi!CI-Neq#6zvw5}tVIljFrOAZO){Jt$^-UNiqQleHj7OJxiu*1d;TDT19BwAy?aKh
zU~J)yErKz`8$+KM+sNLOj54E=VQ1By2HnMdhJO#Y!MOz@^Srt%A))XoE4HeEe1tyq
zF{+@=Rs)18JQu-=5NZEo>d-3U09*H%I*JemPQ&OJeIs=NdJHJUutFE~FoZv+FSCma
z^lQtDz^K4hLMAsRY5bC=?YB6(-~K=N0F4+hYe_N_x}JW0E^}2f0wpJ*h?Za!7KNBJ
zP8eOlE4DZ=KB(~_#Cye87M+xWd<APjsRnk2({pR&?UB4Qux8w|x&&(rZ*AGs?OKDP
z!!0;`yu-H{*mbmu_IknY=k5N@zFm9U!91vA<K)Jr^^u&_2XJe4d36mk8)qgAPdsyT
zDKT5RP>4XtGSe`Y&st_ia}ACVtGTJ=v`^d)kk9C@Q>+#j0m6C+TTN6(ZMmp{A^8T#
zZ-aal5f$@Sb)2rGoKD#c*9M>`T26PNv{p5j)LH?x*1(o|!p3DPuj5wHGDd){gC1C5
zKFBw(qB<p|RBv>F`g33dR0ijnd>IujU)BaG7Sy1eW>)($^x}2uhVEtRb<Lj*ts?As
z6$LA;QPgAG_zOx!Oe-Cui>d1gkj_*FnkE|z=rWP)W*0#Mng!tvHd;*5r$C^af)iCC
zA2vw`zNAMHA)=KkfhPqfot1PDfOth}dEpX74VROPGX&rgNRo+}l%&T1K<Gh0O-Py^
z1YW!}4-H8Mz|k`|BSy)PTzoyjvX@}!>@jd8(?#e5;oDgT<9d`r5Nw7?OZGDt&P|Oa
zW<g3OAQ8QMtWk5oehI;KFs?K%8x5b#I=DbsAfuOspg0-%O1SJvF9Z1vs4U$ByAck&
z#ql@C-#q@!r#2>bEPl~hzgOEL)Q0%lP`<Wp%`94Ka}B+`rB`&i*UpNz`kbeew{`Ao
zb++bv^^F@x-dV{xe87%YxpSTvZ;S0~^^jBN*%*H(xvmqvzV|O=oqzw*-!87FbB^QR
z@7qfM!!Zbylz^IV9e?}yJ5Oy+=A1n_YY%Bfu8XwdL9S*ql&=rx9N~TQr_=uUC`8q^
zyl=`mqramxwq~)u>08!)9fbbxBkN;xswkIRaJKQzwlaktll7-Gs<*bxr#h$~QH`TI
z>PH?kxIfmoMjNRg*SkiKP(SXd9;I|Yep&<WPjuCz^}3(bY0zz~9qrZqq(_79k=ikv
z?tfY};7Vpy@`nwF0#SPE0Aj@BK@j8n;DQoaMIz-`THx9=ih>CdRvJ+xRgT_qx_Olo
zgBA)OqarQ^y{+o!s8s`}WtTba81>2$MXgqppvMYEue6ueyyf63=GEh@)JaigQJ5Z4
zIFyN&)>f`GV<>6i<YQVWgK$<WGph2LtIVjXXQejQ1nO}>yR3l&(*x>_R{;s8G<pg~
z3<~LaRUut65>@qFOe>NIn4cY}#q=3#RLPl&rhs{r7!G}kjcC=(nPG<7AG3ny&$)sY
zt~{hsS>t(CF<$J5%28Q4>wI%DT?sKJr8LZ+6?h$OBejaKEeb@@KLo2~%m~X^R&AVx
zLz3$+St$c&!L=x}UUtUH6>_1BQ3*3vvUWC@C10^kCB#`do3i4Zk+Yya|E*m;l?f;i
zj6Q?xIr%t!MpZ`7BbR>Y<BW{$!z!h|5AABmp@e|ft6uRwk2(!{hE4-xmrT$FJ?aR3
z2{e<}Vk^d1!(V!J<dycw6pMOg$*5|uWcCR4L21dn#DboL&CDgzD>kLX2&h>jzeRpe
z(wNyVg3rE+5j_&Ri8~s}3hK>eHW8mm&(6)=0a8WOY$j07EH8ixCJlV!3YJ<1CsNDy
zVBv~1NEowM*_Sb5xWX<jFG-bGXVNp73`+o6<Pq8Hm~EbeK><Swwn|CQ%*|%lqnKQI
z8FYRiBC&l4`2sq~QnD|h^BOwH(Xfae*adJv-L$;0l#W!%<c`JkG^U%06aePQ*{hOG
znHO0vXq9<KplFxpuE2-^SxOZo4JQi~;BoAbWROc2G=_4dkWVI~kU^*>p|NR1A4pz{
zpF(J%+B9fS$vT3v7uD~NA+%*6@erkdN(e2eH0s>9UVi)KjW1`<<ZB1k%)hWVAiZ@r
z3GOKGj%J61_Tzl}@$HlO_L02%=`|Y=Nq6I#^%oY$FWt@S`ui@=#@J@`6IZ9`ZhF^t
z+g2#Ikar)y=Wf~5e_(shmgPQi5AQYm-hJivD?;-TzWK=d#JzgoX6uK+-TJPrvv()>
z{xf1*XEw>V9pAA2!qu?vq#C^YZs;A5``QMfwwJH%6>5k0+M(^CpVv;Tjo)i*dN*=A
zk_+~4C1m|lzVVs0=OlZh*z6OUyZGj=EsM~7lJ7ow*O%`e%Qug&n?-L#@OJUut}RX8
z+bejF@!n&3@6ftMbb1A6gm*@=!ChyU=<m$VWG`)Ytv^RHkRE6CyUtF`n9Z^|fA9Kp
zFcIF?b@QIfyV=3JV)xws&EYLGA2|NQi@WYqq8pO4E4+V*cMt9PI<xb<Z*aSn_nlln
z10|y|A##e3oDy9vn~k90iq@=~H->f`t@{zG?itOaZpz^nt3CH>ePXTuUZeNj=<Vp{
z^mbymaqN*nS6B7OP~kA|Qxzt&EXP=7z3k$0W@$MiRTk952S_$@)`Vo=mt`4h9uf|J
zoaVZQttv_sj0SA5nh&)K@<-183I#-*DyN?+hx!i?A~=DoU>Tk_9&Q)NaT&tT=@oPi
zL<|lzkbG)hl|hPi0Mga6R*<^NNF^x{c@;FcTESHS>1qWwLsh_()Ka0erlH<Crl;O|
zNlyW@^2FJI{y2&?D4}_$5-R!%=>myH2cvlwMgw;6vZc%Rtt{cME7q@sfE6jnB9tNM
zjQ&5VssR}B85pgm9MOedDwUV`%3Q5h0;6KMHU^lIs28}(MqpPM-Kw!<7gcaN&RDvO
zK#FTpDgzm;6|CE+k|JL@g2_}W?Exh2V)7l{od+ewh;d~^QEwntCPufktmIJ48U;h3
zd~WD)YBALbGMH>qiNq#AHnS4$msmi-JY&WfiKNla0uov(GsUh#Z-~<E;);jJOLRe#
z0SLONl1)ddS>)7Ml;hccbp8!GN6>j29YSg<W|qJX!4NeYdk&M4D9W_%s}Pd(NYo_L
z_>I}b5?+^KM=;ftP~s7jOufE^#oj^ZKO%r#?Rs1$K8jgPj=_DA!pNkm%X4hHV5Xa6
zZm_qYcp5vc5+a!n)hPNJwP<>!wVb&3X}I5Dm8*mX?N?D&hhPcumQePuc+22Dz`xD@
zEW17YNT+pyZeI(!ePh^EB{q205O)T{Lf`}+I3Wa{<pa-t-1PIn3+whhNDYqg!4V-i
z!3QVqe)Z?U7uU~<bWorNd3sQE2fz3F=9Lc?zO!(54DhY5ZvFJ{fRgz{w_k8acy}Zl
z`NZA-z(R#y((D_k;ES3EHI&PHuf7k=9b3KI9CXHA1D&a^0YihWTCfIqYe29@cxz<W
z+WyPtwsn&T#tBCo?`RVoG2Ri|qay;{%hSCAJ;2igVkjnr2Kdl`5IV_+PChW`YU_Tl
zGeCVh${XIVp}bL{ImS1~vKgW4G~abP-+X3mN*oyfShF*5dOf-M^yU;_*Y|N|?V0;H
zMZWC(-L~Qs{qYePM;d-d=}lGltTlqQiMKZ8num6+#}7^D@5qE20Pas|WQ+gHNqU^3
ze)Mz@+#d%|dBFQA)iK_s`)N!Au4F?a^4#Jw*j`~BC97fvB{4IY(K9o04zV`NfM`+%
zn;w`hRcJNIUMQj@%$5=Z<irS(`fEU;sBmMe%A+3+6=?O4ry>I=S@=p&EndYzwv>E;
z%>M^h!TxtBrK*{fJWyX%0O@<bMDC-?$$j&xR==dAibfSA1(KQ()PaZ;XAaa@Mj}+o
z6yQ$-8B-<1k~W@*gdbZ*l`o4mDebMmT(6oqQ$cNM&D1I|jP^rS;=VxLM1oz0(4?!7
z=suy;0gDLK(Wum4^x5l>t`dS`dV2n`BT~sk5n34$N~TaBUCdEJWF<~;aAmGsE@N1M
zRh`wAToS`8YU(NwtCKpD<ocRQ;7Lr~6C|dtF|qro#Q3rE_yP1es`Rwz!+xY-j?1n)
z+5M*&+}#$X#1kMpIMDh7)6=QI7X9+2lo<ty*uq&#SDCXM+8f$=GzuO1loL4Lb0`C%
z(4sn*#ayLD)&>3SE2b+UrA9_uP_pZbJCD<q_UW-Z2Py8MPiYl&1ZDRPXTA1UaE3KE
z^}zJn7|m*x3Dn{91Ba@CD3mW#Kc`CNt5sYTW0d=zigLDcSN#CGphp8HvFZTcC{wor
zi+gvq>aDZoM^I9WdQDCl6NlOf`qN_}nhX15$64kCa;nZ@)xkLm<E-GcoE@!AtJNtF
zhB-$`Z>ae)^{8WlPGLFdpa0YSTi2umkD2f4>(si2b#m38e~pwj5A^Lx^9>zZttsCE
zW8!L5VZ+HeVJ2X&u>Z_eb2Xe3M&yEitJgS-Bja33FW^M0^8&C>7h#l;auNWNR?-M2
zDB>%`3n~^mFfKJ!DOq|wvD{v`23VU7Lr=<-EW3xP@|RN?OR2C?JiD1ur6<saIvypB
zoU0SXm=ekWlOlgmYFG&ueV||#WgQsnhqmvcr2@Vy8qkv!&RBu6m7zZC26hJOEtA7O
z4e70NU8QcikF0=76+Zv?iX&m{A3Bu2eORsZ{$P(E(|YB>)&Z&vt%Xy=L5{k+iv8#0
zQ?mejTHQk>xn(clDm`7Tg*t;pXeGqeB9?)(c#`x@rI6*%4b<_36L(+-KLHLkh^uvv
zZK2%A>y&w3t>@|sr*$1pYaLe)r_~MEo|-?cjH&2zZb&cesbVUel)Cci<t`<IkgQrM
zRvWkm_9B#}OKX$E2S#7!6e=rm4ftHPmur~EI~j+*a+i%)8@Wbku}qES`+-z}slmhc
z7wvB6XYKA)&%vGYBwi|WUK!y07nM-aXH;wobku|A9H@6wfqFlVGE5Z9E1}0y@20Yt
zPsJ>sqTXfdR#vTqdcUBwTlCj;=_Xi>GUuygS2QVg;SN~WvAS}3<!eE{cwNi>AMP=&
z5Kf?(Yc8qriP(UgKrfshFQNM_Ko47hB5T<na4qF1a?u8}N^>p1qtbBde9+f&G}5Px
z6R2B<GDn=3qp?-s;lW+?L)(7Rc7O}aqow-L$J8pdfVwKc7*yEuJRRV$!=F-qHOK`E
zoX$09t9<z<to&-|v8BpjDz(*CE>yr%Hm+4}KW*SbTq`;MIxe&tOa({|avnOa72+P4
z(K2-+-Ur^kc&#L$wh~MM&r8M!wE!0X1<V!1VRhQLwsKtkfq89X^o&u4g_g@%tja!2
zK->aWPUJSq;nq9l)63yj_MOiU3(8p7I;)XPTv=%@!dMl$K<vknvN-jx75JhLt>PdK
zeFd9xe`yQlYGhPu1g$>Dm2dUZp~@k;8qFk>R4$sitb~;@fK9oci^5tPxF}Ok&U9F|
zDKqX>wBw>V?9j)B0scfuy|^l6;IOtbEe4nd?g=HJ?wTj%GYzDd*tfYu9fK&>#<eSB
zTkXhPQy}J(N~q{_9ZbcCjVg2})K~_a7IYv^22V<vQT`ppG;y79@m9YYOVu#VpAAKH
z4dq%=bPcKu{FhKuF7{c}6saC4+3_A8`9R68*HAA5eRyk6xk?rBu5^vdxAID~)UtwH
z)q)?;kjqy~<%^{nq8FBJ#S<5a(O1%ptZ2WyD(k~hYaP)`2Km*6c8-zt*odYh8d)W+
z`7(r1rw!)cJK)I>m>_9ZSNva^?2TWzcz*ok<mstrUXfqbkcTsh_MTyHVyWxsypGPR
z=wJ)%m(f8kVMXU3qE~bsv_CQ+tKYjZ3zZfuo>fVgOr%P*@u=y7+pYMRghitXi*_lN
zMyDMe)S<{1WE(Mr;;DS47SWu1Up9szq+n!Fa48(GcP+_AXC(40Zf^EAIveP`j7|uh
zNpuiXv#1nhE70+v^ENtZbcitkr-=PqbVks58l4C_t?0anP7^v`N9QZ(kU9F-7<vPp
z*U(u&=ih=8>5?r5?_t7s(D{3G-bd%ZqVwO-c?TS+N}2nD5yXs-CJJGA^@5h@I9>)t
zKw=$<UrN9Oo`mF7Zxq3!r*z@9PF-nYd}%Q~hX#!_TzO-P4~^vaBbZWEYyh;&H}H)s
z*eqm4G#cgQCpGfL1?+`XeZW*7XJ=lQsxyn3nPlOLn*44@F@%tYq?$q_O8>DQrQt#v
zdG-UZb;uQYNsq6T@alhhISKl4+2k)@j+IPu3_Dw}@5_yt*u=sNJRM10DO@lnt;oRS
zssVP@Lhb?-24$8bWUw|F5Xz8gs7irizAz$e$x7y;kjt*)+P#U+H_-VeI>;EoyDRy+
z9*l$3Eji%D%iK&7-t{OcHu5y-GCOmH+|s~9quPKzUqH4LHGSFwRD8O$(*5~tM#U0M
zAi}4AWx}h14;m>)^QK;)hj@Bud!DDC6~UThZR4$NyVi&p>R21wwfY}aP>#lbv3ocB
zg}?|O7`eO12fldU7Zl-2ovVj;^$4y(-Zi-0k#{`<)**k*IzA_H`8QAQI71%>vWyTL
z=VRmf=)}j>JJB;>&lh}sysr=LJP7Vy-rb9Z>h|2h!tIBCp?#EZAI-bR9vHO#aSgHg
z!v%paeCw<CTiUly?Y0c$+yn5O#pT|wq#C_KL+?&Q@AtU-p0+LRuBR{O>VsPtVC(XA
z;wANF2%(M4vt#jWjtRm3onZf7W2?~E!8dkfFAANf_|8-L#?iIsM0?}LMWMN$Z|>i*
z_wNyd)Q+Pq+rv9LK5?{(f$+M1*FlScpzH@D==+N4h5Tp-rnl|Yd!T82a}(aNhap&9
zD>yoNN9R@x?>GTn6r7#BvvaGFcOKvC=*BXUy#uLYs7rKDY(#~|DBl>(!o-a8?c@2z
ziG6tSQ@1_^E8}jx2XivD+cKJSkBZQuk*f6xt~TD)mUl%2S1<4C-Rc+mp5yzT+jX5K
z7P~O-4(H)|%B3B5H*~9szF!~6p4qJ*$T<ce-qJ33yLoT-mP_b4&G($nd(Y&I9uZ&q
z_<4&z*E+ak8HA1kXlGZ>=oPE%YdW#2My&A)H37aRfU`Wz2Zy(3^EIc|Mn!wg`lWB&
z6dkpq)h`?UvVmP|Otjj+-M5|*>bv;*uDr9Gw|1|M?pr9kvtZT4*504ZMNi~gPwrSw
zLX&%*o~@wJdzy!z2YTh+YX}JqQNDpp&I!K#MDEo2e8YvcD$&xgael|r0=COs=twSf
z6t>Kpr(u(c4tjIs`=i@>;n*a9Y%<?J#RsNfJ{zjmPQ$jv<!Z^>TSU84u($E{w(KD6
z1+lsH-B)kFnjI55#`q4r4)Ze|+5T{Or31F_X-&-oO6!GtC@}v`p?61ak7NVcmAq$Y
z-H4ax*>8>Pg?qN5+b`w96FFB19+3$>qkPY3ZtRQso)^}~c3m;Cy-R4H;M*ti?ayLD
zSZr%YKdAU{-^lIR=odV_yr(x`--pk%ruc!Wo%$(ql)89#m*76iyN~XLJB08lK72~-
z>;Y40v-gqC(9rnEK{bW%H$~t%m(cnY-};moXcGbhd|=>SWJrv33XxGhGWszKX3?l0
z7Pqzgk*%`XyRS0^8z1Q`O?CT}rM3?46~VbH9I3p;vxgJavSV+_>V@#&PIyoZl4Ibz
zS0A|V4#7hc!9U3R2k(WB-gWMV#^DA|L*u^AK-WFeRiaV25{$Sma&tGh;|waLp#{9L
z8-RBUSn*SQ_^G=MJK-~X!OjoPy>|}Znw{qRPv?VY<lD*wn0E$pZO8J?V|#_EgVg}|
zk@rS$*PP*d&*THo{cM)ZRyXhNhLt;~se_dZ)~%m~7NdP1dGB~hb|>%d%yIw_t;@Mu
zArH>W`JMVMG19v=oI7zo7rC%ewXb(H_(Zsl6dmQGqaq#K!x<gi2@HZ++7}Y&qda|7
zpoe$p;k{7gp~=wh-FWVSm7?3xOg+JOP5jJBtn6swhPKXVykKDN_CmMAeL~xDxX>lE
zjq`2en|kO$C<3;1tQDbg|DNOFM?WtHyB>g1-VZmUz0uP3g=M{aVK;IbrW}{ifXi6v
zty`af`3`p!_Ey1<bz{8!zN_)p*|*Q;eB-;Wi9L^ReG(dOqH$My;kI~<6OMCDomkg$
zEA@72^P&(M;zL8*qxrfMa5danx8eWRpy+B49ZiBGz&iq)qq~l<=x}~Jjr+En_jKp$
z0h{)$>)@ON2C1QH8*WX$GfB=;kaq>&PiKeou!OE-_gwWG*1Ri(tAC6SV-j?wIg)h=
zkwG4QO+#>Lz}qGhm{C49nvah0-Z8k2))d;jwwcT|^{t!spihw<XJD@-{O(t7e<eGc
zZ|Pls7H$({Z*CcLp~3Yjc*iNkPVli4cfI-8^JEgBoj`2M$or3N_wfE<xX0#;W{+ow
zbG~EiXT*A+P~XAV1L@eU?*$CKrP<PMzPe$?73xy<=2^b~Y(6--J}K4*v)Y~d=w77n
zqn0}@+b&^niXWWHN6u|jiETX}eD%Gr;yFIc51h@nO>S8CJQ3Juo-VN|oISPE6x)j3
z9p33Zx7RUrds2kapWkWj5<8CF#&v=F87=*MOaHcsZ#j9tyKn2vKiJ>HJBHzoJ#01)
z&9-)LdAB-qttU1tqNi2xbn%|9E&Z<Nh!{PxHM_;;qC*>a8}F><Ma_m@a3d1g(hJ?s
z@bGg#i<Lz;tfHqy@bv5e_GN^lXZfRNg`?+pj-D40&y4Wl5g|Ob8y?%#-w(ED$F`!M
z1fPPek8F2rLU@P|4{bBT$V>dlOZo6i_rg&9Kia-$+vYwApWW;1`RJ89uLzyveCPP)
z#QkvZ*3lpK?}ksn5Vt4zj#GOBPi-gpf#<T;Uj!rj4OC=Yv+t!^V;knZCR%9f<D2@n
zIKFB09v#gNt7oG9`Q7s`?9wlabZfRlL6dwG4$HZ{$PpaFBoDvH)W_HP$O{{IF9wjW
ze2AOcvUsPky>Y`12dbm{qoF%PVpIEe2+(3jW6mAMvp@@;cHYyTeQn3n4Nvco;2r0K
z$8&+<?a|zc=W|bgAxEEopre|jKvDv&n~aQbbD@##S)fq4lNWOIMZgh|Z=@QU1$TJI
z9nPKvob!o03{1{_x|5)llYI2#z0Q%3n|C{3gj4ME!zm5}Hm{@`0dWEztpS4d$43c0
zMMvPxLxWF(v#JCCPiZu#e4;&NzD!fUp-q=Nb-(G*fE%e}Pa^+nj>qBF<8m?qkHW3-
z_-o5ENy0kES=4Eh_t|V5Lqw_~QXi4D^q7VMkfcw}foNvII1#W67y`DEVmHyjt0nS_
z86pGjKvc379-_}C;9n5LL3}*{spJLZ3Bu~K4lINYUQbU~0H^xLH>iE>n8sk<?D#!}
z{{C65*3gyJJ*2?<ozZ0o?{}CD?#<bK3cT#>L-h9DEr#Z7V4nhSyN`Hx`yOI!|CDCX
zU=|yj_jTyEMza^+yGFu$rt0;vH(MSWAbtP3rr%JtSJ$v_03WtTP1}AYhK!WC^`Qwv
zNzE05!L?W4xNpD!z(BB)1c3!}@0&=_Of`o#FTiQFkf@bv3T}?xern%FqE%F*e=~5q
zdEZW=4s52H1ZyaB-G-hwHT}VfadJ<UOiZLfmOM|x1fdX;Ou|bg6#HT`muAVNOBHZ$
z9AqOFmr62_|5YI038(SVeyrrteoTI}AA?)znMJ6JC2L3oXR>HSjwVZrSBuD6OM{QA
zgou+MTj9%p=nU))e6U!O%Hjo6kjt<W@;@kGZJ6RCDFB{I<A1S&;_>CoTrwR~|CNWl
zCvo4(B0KJoJCr;rXabdt!}4YxVgENoVcSsYGvL5c&}beSDUJ1)l;u}c@K;pbuc?|p
w=#3ifA1H7hp!540EjSgF2C|3##pGIlDR1(At>RI|Ws}CW5&b=dK56U!1B#dpcK`qY

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/minimax_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/minimax_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..142134e74ea2ea3a5854dcba4bfdda1cc29ff3be
GIT binary patch
literal 30942
zcmd6Q33OZ6dFFdqNNfZ^f+V<rBuJ1HK~fYKEv7_CmbJ@TY)ejT#ts7!kVKk`@&L*f
z114_jHjtxEC_AmGI32@HCZWd47-@4F`m{5Vlbl95?U~{UbO57FhiTpEWTrC%oAQa{
zcFxTA-?spyo+!IBXHK8Q`|iHId;k4j{CP=<g~Kyu`0~iplN|TA6i^<c>{<CkcwXXy
zT#z5*2I;LE<HvP_I-dOcG5xq<(7^osm~pTOafY$tanqoQ#Tm!U<Ca0oxOLDvZX2|X
zmkgGS+XwCAjzPz`bI{516pfXRmkpLNfAN@WynL{n`AuUL<CTMz%x@lZk5>&=@tlqe
zRfeix<E7pW*66r{T+s3y7qo`TUen95wHJB6?Uxid?&q_nlcCQ}g(ikW@ay+XT*Rw%
zJn&R#C^9)YHZ&X<8ygx4`irv_d(Q<Tdnd=wkA)&5lM|0nsc<A)x-T>q2^^T37^c|0
z$ey*asAHjUIB+(UEn%TksEj3g_CFI50>hC|P>DJ`ab{8&4^Z)}ZB<1kB@6mwA^$@G
zAsiAAst!rD42?`gLc(|`I1-42hJqt!&LGh`GBFYv8k;<OmgTi!P^TuJ3QdemhlF8i
z4kWi!4y>Hkaom^i8AIG4ALIsgK|Z8Eql<B8_@M4N+n^z+4;h1oknxNmXnf9q&sd~}
zixDmkn$)lvVH3-537JvGa;7L~MVvKgqddV9)L}>1CWS*3b|7q*>!7d`VTT-chKy)e
zSB<VBr4%Wp!7{Zq7s6%1?qE6IF1#!7E)Q0QD&&^j2v?#P6=!t8D)`;OYDz=c5UfGC
zN(!@H)goLi_lnXz2-nEr+K@9;LA6jn<i6A)-4m=wUm8MnqXY6>7Q8}6%E{)fDCkA*
z23A`m>jB0UESWCmIOQ#mu_)MtoL*M1)YnESALh}AlqSuTW~BInEvU=DX0#RI=HLc|
zDUQBQTc{;e!TRG@eeJ4G`c_Iy&R_@1x61WZ$n6_~orv9_*0_<4LmtH$Q?LuEZ7fwz
zL60{f&L88R;RoAKa{iud=`pO$@xU|r#hf)q)U}CKs6GbxXv40IA@+Cqm$-<UbV(QG
zeg^<3$}1ZkK!88Xodxjux<1Mcsr3XYByW5A5(rVf?1@+v->6OT<=;VLgaJQ_8MWu*
z72j)e8>rEw#085GGAp5b)L*Rh9c9#(?oq~6P)6;2(2N??5d<v=l_-6Pa-$x_pMQs~
zkp?9cv?_Iekw<Q?5}$vM`tp9ohnz)<KmS&0LJ!K6*pF4GI+IFijw`6srNpAnX2qX>
z|Ar0mt@*Ixd$uytruauY6kq-wv?*=y+(rEJmmL4)|HgAopDi1n5`@r1L_!546T#3k
zSyP12!bmWjwS<+V@U(4!MH99N@0u<d*i;zYRG8S-)xO)mDm}U;+5chrK;+!W#8bPJ
zyeu&7YMKa)hnluO5pHj4`_!kKp6u{9O*@(b!r7^D^d!tuvfP2`M^Bv#dB-P%p)s$z
zx4h$1;fVKi$a_8z4u^tB@J5g;zYo2`lM~^HFf|;R6uiMHVPxWLJ_@L*Yg&-^E-Qq3
z2o)jA)L76vF&XiWO%4MGq2kFgFU^BD90>@KO`!>D4A>{^9hqQls(tG69zZ^7=yYKC
zDe4kBKtUkGVT}1~m%lP=3{Ra830cz+P#v(^P}YG=p};tjhtNVKl&w(bnj!@HT4*lo
z%15IQa->cOWs8S_#7D+L*`j?XPVG5*H0#Lc6hde5jmz2eQwx#6*`f1+2ypB~wv=U~
zZ?Gl`Um&bT+0UajDtdbA%o%jtF)}e!SY6h^zKql#!pK?6Cjw(rq5Xm|DP)ZoFpH<N
z`m>=(wkqGPf^lK#Wh?V3>d+{@NW%Hq;->?`1p46DXAR-d*cpMgPS!j$G(3i{KQt63
zkm&V3`{B^0$oTn9=SR+O#KfV^jn7PN>%Z@*ZJ|wLBd0f=zZf|;IkD-&*w{EeV??-k
zeiGzHc+(_?7#NY3xU>wyoA5mdu1h;bitIXnQK&;h(=~Sh{VwHe5*!M<K(2l8EVpDT
zxl}Bgs^+Q}O}?Co^R;BEYBDvRcZ&_(mY8AD<jL8&*3IN=%J_Qe?OkeUd}aFTbjG&p
z$GV@G-!!l2bzV7d5!W(6c^a1*ec!HmwI<p5K&o*s#nh`YyHbt2Sxl~oYiJ~2ZKk1_
z-kxQLEA8;za`=|YJUJa-+P9+DyX-kmUt-VMIRD1iE!Qls+ppOZk@U8Q#cdC#+8&{D
zEt%H#Z;!q@`t6BVClaU9TaJlaj-^_UQ<87l>PTDLL~C2p+MU>!-h4vbd?LB|lS{U;
zuN=R0oEkaGzptkT^xT%m_!Z0zm$gaDWpXNVekzhJ5<-zFVPaUtaL7WCm|@CMctDEt
z&v7%lh)e<ldllwI4tfA7RXixguvlG`&tq9F2!CDonp_UpTtEGR#VbD#38C}C<S<BH
z8SqH`^`5@y6++{a7qA%fkRj|nBTSA1768VvguvNwmqo2>54O{GHAD>*PQiBXBY~$^
zHzGled<BoNIa*UkzK4K*5^$9J`1DBRTw&)}hmq;dPO6<6R%aLUM)OY_Y~}NCUZS}z
zOhp_$L6ugS;Ug+VqV*MmI#4ZqMEz=--@%}KhZ$Ya7}dSZ1&e-Pk8e_Z{Fl`Dw5JfK
z0OPDeI6^J5T;sFGGh>+f4~u1N^Pvg37^?9bvc|K*<kWeg5jnH^@YHF6r~tqdBZJM^
z5|(iYI3ohckaY}?g#r_ypb{Yi7_YFI%6p_4m0$xykwY}M5?Gu*aVK;*udb${!cX5d
zKsW{nwrjl#A3>90qQ;-)GM>g)9=!VCJpc0X*s-O0?<;4np2;{jCCU;{{zcPY`hV)b
zt=Bc!V<)itE9>TllAew8k0o7OleVqG7E~bYfa5o?Nf7R*h!%3BnGkx(zm=SQa8{4l
zeU}kT`#<tv4^pMwaGvGft2COo-L`YivaejYbRlDNrfn^vttDe?%h;-x%F18zU-92I
z8=aOMXEa+_*Ry7Zlp<ggSHTL}y$n_yz%s#F<+ax8Ysf^;3?JpgfC(o#Gq?VlEu_RL
zzmHpg{Wf!gp64FtCJaw=&*&fLo<>WfD&;J-PHukJ2uGseMT7bpz_xq#M)#V$19>j0
z`$)YpQqCFvWA%u?j6Pw{8K(bI1q^#>AAo#1KQ_Xsq2aN~FoC$!VEIEb+{2fV2sST$
zo^=7A`Vl3lx4Ps#03PcKz}V_SUIy&|t3gzGkDNSl+$#wmBIu<$ifP@<%yFRtAHZ(}
z0S2P%eAX};hJ3;}HW>iv>!6bRLc^djCA!4~IwVY0`}NYsIDo=g^KbyPP!L4gn(YBX
z1oJec&eM=IKU&-4E?GZ=`oq`ZJj><Exr+LiPFy*WDsPFI-*!}GT%M%OlQS61rAs#F
zSB_jdGJA2+)+j}Pu*49%=<vPA@#fOEZO)t??+*b3993z%SG0TM<%{;#OjTpt7w?_3
z#}4OohLYALXZcH(E0($bMQ2OK?M*tpA1t}tY1anPwE;Div}QalFPKqRN$ZC>Ye8La
z*;{i?&RLx_RfP$h{$Axq?mMnMdi|R^p4__1J)5~VH&;Ah)Bn)Q!_8Vixkmy+ci+4;
zZrZ%k=Df!y)<t!~&iwWz@*t|)$0?g!*(yRuR5z+f^-#a^1l7$nqmSx?`lkTxgbK6?
z(Z$*)Xi#edS~>}K{3LpbEmAc7J#}%(TZD$lHoz(xA@mH<5F-~t-qky2-CdHOuI*kX
zY?JB*Kf#vSN8Bf@7FJU2>MAr(V6zW@E6s2o<ambap9ITFU^2*E;C_#PiRZb?76W&Y
z|Bn7?-mjZB&R9y!-s9Iezb>om>dx}RVZ!TP88Mm%&W0vJ&zu)_P2YDXVo+8-TMW_$
z$zwpZ<nN%qFm2WULNs);@yHvy5`lPQeEOT4-q`i)Fai88+MRrspAojhpXDvs-4<ZA
zLln}JywV6J4&?n&L?E8wwG)(RmnN3&|MQ_>*2+2o9FN?rVxr9?6z|gL>~zaV8WT}X
z;m^Q%mV39HbJk>BbxB*@a<wmA?H8;4sp^iH{TJ5iuMdkfwp8Ph#rh+enznRJmsry^
zA5PWu#U9K!YUUn({tFpzd)nJ4dixUl7QOwmQ%UCo3t>3R4(z^a2{9H6lHhijzNhk#
zz=Wa2zrlRnjfBf1IqU>&vRZ$E7wi#r7m-jZ%7bW@+ag4Yl0-1Bd9;vURIlu&8N*p_
z#uzp1<DUE$)>~1uD5xh<o?ujb69)JU6gN{GEgrS5sUAUPzlZtDzV&mAs^X)3EkUE&
z7gN-PetZTknWN_QTB3BcR*77Wd`*fkSftd5JZ;FM2&0t@cn4J>8S-og+9xubJ)`A{
zFaM63l^SO(QRApPpQ8Ap79|Jv>1hLZdENk_;fytE#E6b#M7E$QYP-OpH50^YlCLCc
z)v7B(L^OMXmI$%A?1`cV`U(X-t(TJuUdUx;qFDaARS_g!x2e7o#aGbVhYVa)KT7yx
z&7-{%m69_h(UPG3scl#*&j5Nmq9rxly5GzmwF{q#+V8anB0i-XQB^33Io$OzRt2v)
zn*29(L>*Gk@ijIA!Xg|Y`kOuZZ#|7Lh(hR!Cd>vd=$vs*7?}&gb;g<Biv?v>k*9>s
zqSmN$y*UB4TQ|LMe+M0fA&|kUAat}!?s~xsWH5ANk8`v9<!cHdj54iC7NocG+&#pX
zrOLNP&bvaMVcp~0Nlt0QUlwqKLbee6rbkvu6*9q$`CY{(gHD8;Z(^e=eq&tpx`?@u
zdE4%lb!UobQsTbVK2Seo(2T55wL!F~=-QM7i<(=L#g~VnsaYdgW+VV1)oMWm=u?&g
zCRVNc0N7j`N!Y?n`v=5lQRQu6k{&XiS0F^rP^$1r__F-xgip}hKmtO>en~`r)^tYJ
z4MH<#gBWy52n_|o!y_Yp9n;1MK@<ahV2E4<O&+3J37sEjT>5nXo(b<1(Fh?@8G1t`
zCG<`XGr@FFk<(K5B$+E13Q{hTyw+bS?5D~|#3qo2L1>1PEj|M|Hn6^g|BYdADiMgX
zNpQ*tct!>YhbjLN%3l;XPZCYxL5d+YgFwh7YYa|}pATmZR9n_0gf4_24i0AZW01U>
z_k)T%Pn{5mfz6tUs$*e)X#v~(B&9iJu@PhkvWTl(nJ-EA8UZgA3TMlNz|%vkQo_O>
zsz8#;l2kzvK7dIXnLrT(y|Pv&jD%!@#{3y7QL?I<Y)QTc=O@G2(tJ>nZs-v&1W+_g
zIEohPsz;)L%H*jpkaA2n-$?-7nd_@m@o!-@fs?7{Jl=HeHnDcwf-P0MA1nit8McVl
zmgL5rqIKtzYg4AKX<k?ufasze;z%8&g{J#?vpwV6koIj8ecRH$-J)-I^8SZXzK4@G
z?{cFrX{-OM>W#C;O!t;V;15ml{qv1~aA+ZPW6vAsl1{Ki&1qM==xTq<)tT{ZOndr7
zPhZNjCGFWEdUh=AOL_Lp?*A)q%bX$8;3Hw{%h5SQwzeU@@7pI{J(1Y^R`Y!er+)C{
z8&BTsdu!(j@Je<5rLNxBN3V@8l&89O#jP1{Z`#{0dixhT-tr!J*UB}v=FD78SFVPu
z@x+e&Rb$_5Nyb$@_v9^C`~2q?#&2zUFjHQiE^iUbTb8Q4nZ}N#mYz&YZ(^(1vVEz&
z>-F|)?V0ADM2FbC>*k}FhmNM(Mq_LJZKJ8W=6$`TqB3XXnl|S=TpdQ!BYJug&FS8w
zV(-zE=UD7m#^H(UZaJDV&6^XSPK+m;_obVUh|Nb*%||gCzi>6HlaRpJ`)BtrdE4eI
zzU5du{!CL>x~WfW0<oED>Yv-2X=sX{e)(dieQR>tp#|5UhHq^ClZ$UOB-;<ii{JLP
z<Vv{4ZZLwrmaE0f_1-H7mup&Qi{Ei=TB`HLYhE6j|EyToovCffbo9Qy^V-hqyXT5u
zDY;tmvg3BKfj+bWAG(O!!|&(w5g*(>#&gYW(su_FTIbJt+rWa>`Tz0uV?21y_qZan
z9rES0%_G`88RvtTtrGj~BCfo<a2dVFmXR5GKMbG4a(sOce`q)NX3ti*KWr-{cRRU1
zDrr5`V)#*?1O6ZD4dj|0Xvgc%`YPf6#InbQ*UkDOa$8)728wUqrzigop8NyMzq|8r
zm;R?4dANXi*bm27NvMcaW~BHmJa>~&<>f*%K=WEMtW|8QF3Q-}XZSEoM4}XeM(`P4
zC`E`Lm5FmSr#|`8&}FKU*o%6|dM>GW;?eUY*^pFP1)^-ydm;LCfYfZ0P<dg93XWM9
zTT;gD-cytvtZQH*Fm`b|MB<s%l5(|uVJG@4faHQ1i(Yt~0>r`zemDvr_j&lU7E;(q
zY+Ke!e04~ZhpQZ#Vk63{tJp}U+wO#7+ByFLjfDwM0Fv3c%9@u3uMEb`sfzZPC4<oD
zmC<-js<Ja?%{2Ju9~2w5VcmHx8C&IC2gI4TY<uUMU*C9b<ANpCz85MGbIDsK4`bR^
zEfAGg`ypET68|L~<JaI{`)E_fXCV7{@&S%}UYDnqV!9X)0}=i?Q$&?&1a%QrAemRo
zUsA>RK^;+^1u3eWM5W&4g>$E@1r+TAP&Vr!DKPkr(|@LZ(!J+GP=t=0krvJP$k}sD
zXG@w|hM~QaXS|S_sOTQ*$&az5hN<>@&`_s@sgT+MNx2K9@p>IlJHJX=LOd>$mXMg?
zcXg_~1Z>X?e@UmcWiLVPVTILLjjHsQB`UR;Cypd4*LWCg38d!2`aX$QmLJLLF$n^#
zb6F(u?6V9Z3y&gddO&0CjzC#ENotFcz!+2TvZ>V&t$;S?!tJQ$114L6?$2faMfL94
zJy@Kj<uBQ<*ykeghvN^#_s(5RJN<80@0R2(zuC~lGs^JP0e_K1e|b?0ge?;nvqm8>
z0jn_m_{f9+qdMqRB$9|mAbbgqBr5&P{SsN>9@6fvrl?dq>#wQOK{&sbWTn;V@-DHw
zD`7}?9}>F{rCf(&dzTz#w`q9qRM*da_M5(M4$n7#V<ge|>iG9gF1Y^au~gHp#p>NF
zM&x*((>v|&nz$+tq@3kPcql`i6?g7Z;zSr2zYfpccBsH#EKr7FzZ#Hv%>$s_12C;A
zHHq>U0LH_OEZwxGAcAtb1m=lsUGwC@{A>8s^f0yNpQ}rHUx=*hKt|G*kjX)B_#Cr&
zz_yT7{G=)bkRAin7rZj{2sUHgjk%7<@?&h$yZ1;P!GSD4fJI0+A!|4dz##zj$xMNl
zd~7%A@>0K50?NuEX|S>}gF<0zq6E#HR@y>DI<ut*&6Ty`mbD?{s)7`rDY6<wTf=)$
zs<&rIEbkW`{`tYAW7~UBgSRsk{07mnVSankvE@A@qCf&UYtoKp(a{_~nR577R;#^M
zAqoQJYze|%^zKX00MP<~KLpj<B0bGT$&d)P6!h$x2qSt2G62%KANloB((aNL3+-wN
z9iplT9RfdC^O5KV=%N9_c@42#lt&)arYv9N+>G()qsAI6ektvYZWzY6^mmej$m<CR
zlH?Hs^`zB>a*`N9Z(axvYaKGk37ml_UgCH`k_5df<n#jUDk=ZWrOtTId*LHu{|N21
zQCE}&*qQGKgWz%x{px5K^UPqdtj8*5TObdNg-f*f2>=5k6B8?KgrfXLV8B@TZOUO`
zW<Wyd%*ZoB6cJ&<ZW0eDL21tr8;jDtA;1H9%K#8ecWEG@b@JEKo_Q55tl2YlbHePd
zq^)teyh;m#SJce)e0@0Xd->eYDmKjW8L$;)@y5AN&Vu;zrYl>;%GUUFs<L-hpK(>r
zHNDs$cYVA5)%t{Gp>JVxvittG8ux(xhzH~0WNpX%;DUa^0G=~hyK}L8=euUE5{!ic
z?`!6IW1ml&>LiJ}bt3e%GV)a$kf1r+fX{&vA{_7xPta!V6XmC|w1;&=YC@0)S+BVr
zA&cX*>VO#p%op=DklI%}r|^&3@mjhs<fJdX=212q(*mqXqu^a?(!ft@O$Nwjbxcaz
z6g9vH7#%i7^-;r9m^q;;s?XDz_vlm6jB(-=tAk{|RZ+vLlI!(>N^V2#T3|+V&XwK^
zdT2FhzUiB3%m;nlwcls`5)uHD%4ydbh313kZvuX+zPn}*1pe|rQV+qty{UqThh%#t
z6^R#uImyh*D_aQ3DeHo{f=#g9dpz{C0vj1G7i0#PQcL#$cyhOhcVs4CN<C`7CD6u1
zg#Ka)n-g{y#>rvAJ}>zQv<Y8^gG@}NM{=gDU8+>su30mqeL)XHut}zb%)_7^#gGRA
zy)fZ83Eau*KF5$u=g3fQx={nft<KU%Q0+lD462z+(x%#5rrNpBiKh0qV0Bkr8?!T6
z7o!jA8q;;%kcY&MXPTO0`xb2=85#-n*~`-Q##{ErOqC~H)ge}Oq^r8cs_sO2y5~W$
z=fPCf(b!?|n(0cvSm{q!c8Qf;^O5wXgW{%xsmepKgUgPpxd)#ALj2&o@CU~dkKb_L
z+Hxr4>%2a!iio<7&AG1>XG)Rpg}RKd{rX;&Q0_cTNz0`5-z2&=QT$%9d+(xaU#7g8
zbo}*zi8%*X+7NF}H*FE|-??Sho@s5HH7q)P8D~Y#B4;Y*N^0kV>G~eAz9-R^*p{r{
zA=-A(a9gF4iL*C~#jOXETMs9jj<6ZXHF6-4?2RdVW3E}MMk2d0r|P4E+!{oYEntCF
zyqby0F*+X!g+q`uFxFBwsFg(*!24ut3--u+flO1wT}&b^RHBCC*La~GZ@g$#g{g6Q
zQB)2IR3(gXSJ~%k5{sHSAEzbaMuk`+MTO>{WYVe10yKwv3Z-yFKurVGkhyOps85gw
z`>7I35(j^`oMb`9CaP~w@InB`gJ>huY(W@L0vbr%WqW3Iyxy>UlBi3dQAp&+HC<K@
zQi@HQ@UIbFIAs+>0jY9GjfbdWCOw|sps|~@G6rbEx=`n{9AtVW&RIj+*(^GnlP&$C
zb9>6RV<8~gb~8~*+T;;Uo@8CmEmN<AwvEi5eHFqcWX%wE6Fek)(+0jlo=uJp7N7wY
zES;1WlWa1t%n(fG*9Dub6OejI^NHLv%~(Zhy=*Fv3%`#ZL1Drm**D=|#iqE2Xx-gu
ztgp!=YiB)6Q%OJ-YtPPY-4Qd~F=MOb8wO-$Q$;=cxGN8sNH_gyb%+N)%G7CUy!J}x
z6AC6<tyEfqucCK%tUC7)OuawqbZKWjPt!#jaI8ESCc0)fOO{Z{wgJ(#Gv(NoH0_d>
znXEe_n~_y(O%)JGa^8=(b-{O0dG_SZGQeYb8IPsUb7gr>jFD0$B>g2I5M(F0Kp50S
z^%8HSydi8NId5Jlr+gl^REZT)p}^Dx9RXppzwRO@XaSUqDWH`e0bHG!8b1wb0ab>y
z@I7dP!*ue5GBemy&}yd_f`^SgB%OeIOR5XIr$Cu0&|rb)5jRAdNy)0uK*}+|ErR5E
zPDl|NU!zzm$GD$0mOiy?@i15=bwpBlvB{a<r~$ZW0cmHyNQ>wM+QA|!hrD>MSvKm4
ziZuhNik&gbQfcMv^v_D0VtX<U=U4k?r(fJnnj3dxyz$CR{8K4+Po~!M!l7k%)e9zw
zqsn|FjVhDSVj=t|DxU3DTDKo}w-y@H-vwK+#q=8Lre{W9usBsgK$K?-uoH~DDl(Ar
zlN;0r4S9L<YjQ%+_;u9=s8G9~U(|A~{N>JqHq|n6suz|cT5YNpIIHSjTbjS@Wt4s4
zd@B88hyZ+wHn!C<G*RR)p8lE&mi99RxJ+mS1R-!S>^&ENy<Zr|Wk!ZaXg>`H&Ig7^
zA{Qmyhq`y9<^7R2+VRy}45cBQ3qc#qbSi3xq=in#83!0;4S6h0f7Z^njA}fa)r|y?
z`;7vLGo@|A2<)dQNTBG>y+c*5**oP!vi_ebR)(bEPq%7p8jXCHX}5eAl`@d4xm#TB
zIYYXtQ>^No9~7(ZOS$@Erg!Y6v+ZA=j9YHm+o5Vn+v-GE*EP0+DqX7SNY!k_@tV@I
z+xjBt1@)YxOv;?Hx8E+KP}`Ts=SFYYVQF6el@pgv%z+kfl=88Zl)Vk4TGxFFx}19g
z^n9kHPYn;=GPT{gA5}sFMpr~=XmV{@in%<nUxfnHT?Wj`Pk&$ixFo+FmWbRn5SI~e
zM9JZV3WLmK7(xKjD<Ah-|3r$WuI?UCeC>h^vd)EqYHzXhS}`BOIdW)u73v1E#q8t-
ztYc~Nz>P_gr-~t|8U}^KI3vf*hBYZjt&IPM7F9DUWLz0Io3b{stSw#EEtY|)N|kMm
z6+<;JyY0)-q^b7K@2Dd21cR%vrGp%X?1T%@xvDW^@b5<;DrE#rQV!wUQT>boWgy0!
zfmI`{7w=y7!kV&0Bp_u{0^`JeYMPPN+s)EIhBGlL&*EAkWigP{V8(>phNuZ*SThdo
znlEsIJ6O!#F2HA+;585BKBKNO*qU`mi^4XPrF!IAYhVK`=z=ELXBH!^SThadll#2h
zEb*5wp#MCxwXTg83DtM)6^`k@CgUCS3NoXQRQr#ZG{ijphPw6+0D&{Y<}}EZU_cnb
zX$6@&VU|VG=}l~y_2Dlv+@Zq0$F?{MLWG)XW1@&oFT@ajh<C$aKye~f#Q{<;)c#85
zSEuor4oF5=WPCMUBps2RwicX<Jq5Nwh1GtG#6pm^Eo;e-Rg&}Kr~}NPVA}+1rE^)+
zxj>lFOxY6h<xzniUCb7TLuc8sTMMefc9b7wSCU9sqKxv5Xzog_jDJYGauXc3D=Vv@
zKev^{_>A50Ro`szMgQ~T(3Z^Zx%Bj$@A=PXs;Xhy!<<_0tSRGdnJrnabbsA97kt_O
z!g$7AJGbY`({bMm$XORJy=u8?%v9IS1+Kc|d%spM$ITftwchxiuWipX`Qm|BTVT%8
z+CIM};fhbr9n3UrnBOKg^d@F*7K__XFe~dG(c6>QvfxW}E_!$4oYgOCee<TozJ-b#
zr8gdavm&|qpxAa0Hc4})w`<$xpIivu*mASy=4XGpCAsTiapS|8w$8bd<?@QT(klm`
zPxW!`DyhRSj^|pr^6I&s7y4hVQq6$kQ}coN=v(DI%g)l-hp!aP^0^%xC_*+HUmnj5
zKr5tLcr)8QRl;S#cMA_O*tyE&TLoPbNr(+5ZzFt8^-%~hfHZ)uAkXwR1}y-g<kS-W
z=GBbC4uCjg0e7Nmd%(N2bKDakvSy0Ngj*5<3k4wVaw%dNaD$e|y$ZZBdltl!@R%n<
zZ~}5Qs?KM^A2nzhn6EbKmXCJ0SRDY3>x~k^Uc;zWohH?juW|j-I1us=>Q>$_*(@^h
zuHdwibo`R!0v|>EDzjM3G*cEQkj0-;R&9*7X?{iESQQ=kmJXaVP^0d0g$}p}^pZOd
zac#b2APoAJ4zjDQ9v28w6_|_?w1QgpPbl^fIV3oTp(Lo3kU)xLlIG&HFV%D2Z<c`8
zf1r#%paeS`LSA-TiUX07ajUZKg$2s|+mzWbd@g_k^sERVSJ;e58Coe+MA;AkHyMsf
zAd9kU886<M>#qq?{YO*?NL9(zG`~`RwLVqtkJ&Sxw)y(`hNPz-`*PXpNn4vlYg5YF
zoVIQft(y}1MeF8Fc|~mhQZ2+)TYpx&?Mm@1Kf5^t8n*9+9T2F_J$&WJmHnBD>ba9I
zeo79{?$5YAasI{WOhb3Vo#;t?_Pbk>4gI&O`rj?#JoiBcTjfu?H;V3!^TR23Z|qRU
z;ht-JKALg2%~#L2CEa~#cfaWFPq}v_ojaBt-n4`1m-Q(}XWG##I(k!%%}LYdLeT}|
zY*&E}1IEj^$v?*E8TG0GItnOND1Gziukxolo_Ydb2o@0FpBVqhHopP%3egl$;DV0O
zR6c9*a#59+Bj6zbRA_E^l~$O5k{DDFH%i!R&2x|XajHXbvvVw3nj%nBugRPuPGOj$
z7N%Oqg+TO%ZM$7*47Tn4u-ia>t&<-LI3@iK&SzLh)sr7edGO3C@Ej$<-I_<KLFvUB
z3wUF|ijSslP({Y0=zu_v1iWDwU5|h%l^_!s1-2AEDgi`Q-C=O9Hb@(g!7NticJE<D
z#6yw9tI8Yl9^mJcsvc*R5d+gH)vJOdKgo#Nj!#Y?g<L;Li|E3RGeqgB9rEjrAD0#8
z3^-YZe~%fJC@11dvPI!gKo~wJ?55}q<otx3^W-o%_CxX!F!S5;M3!)qV*i+&?~}uF
z5+KW3sIwAcmh9jOvIz&s`7xZZ4UP(?;E^b+>N{nZ@;96A(BPx*kY37}|B2w%`)C1h
zs|KQ{bj2pI0verE#g>?5*;?^+*WBRCP(`)jG}>}SL);=(bX>B;jIl7$Q~Tq-*)POw
z%N5n>iVmctD|*F>-UMV;_s1-6w|2*-(~btw(Gces9ZiW~%y5^S){302sANM1M&Hcp
zI&t(yJ8YC^&D6-_vtLL$TS=f*K6@%Q4KVt_ZCG5@k+sZ*Omlal=KJ;EtxxsrN%ri8
z5i?nGllAsy(X%;m5{AoZ&u-DPo2<8$>TaRBVif)`T!xXqIZ*LHCHKS1-FvI_KXUVM
zR{=Q!3=GKS)&p`XKq00N3=6Sz{6$g(YcWwOD+ueCLLr&Dk!6rb<uwFWM1v{7g#k+=
zK%_A&wMSTO&65YU5OAr~3hJh%wdRoy)V(GH@|og$=4XfP)cmF>7&|6cW_Nzk(Ki4;
zJqf_TBr0je6h`PSJz%K>l(qV2pwx&%>2`#UBCrSZZi<@o2hO6#>*^sYEx;Hox~?9B
z!|^jhW_Zr>IDjUP9zv9o>HnodhC{IXfelVx&86^#w1Mv-CXs}9GF7%$wj-iF_z@uE
z|AoMOADx+%FW{3-yfd)M<U4?d1O_E2D1mlTIWeWBI%fF@4ikctAWulZImIM{?1&D`
zP=^t7jgIs@GdwmG3=QFIR0vYQZ&L2FN)eVBy3)@e!fzG6L-BdI`WF=Z7CG0+VbXXL
z`Dif<v;(ph=?oQ}wo!OjMh23MK5Jrf^^xE+48YP&YS1&#AhY~XUako}KE>n8D%#U|
zkSYPx+M#po`%07_gURZb)|BVpJ-Zi(pDgSppb9G`SD)zWOB_kLcE?Q1R@bcX{4UUU
z3>Y$SYhyzGjMeqk@Z9znzi`XiO3Cipw0n!_-jW!*aVX_JcF7hq&-Som{qALxEp2KR
zP0jJg7EN7CpbhU-8E6SXm&-hJkBMci@rYQ~87t1zHOEY|RiddT)7c%f%-#pp=-j77
zlYe>RHdS(Yha^)pwY}r0eaBgsscFho`!eqOrMj-f;l;XL>AJ&W-Qi4&AF9^+Be=Ln
zS6_MCTwGd~)0?XxR<+XA99H>ij#W^WzBYrht#I!~N~)xc1Y>EI$v8+?04+74?HXuF
zq@_X7MUBq_Viu?iG>x3rz(X84mf;(Nd+Wg5{6XPjwTuK42}YX8$Z3`rJW-SIvi33L
z{DD&8`G`tlQdtG|6Lb|m2RNxhL(HQ5<PU}-S3wULY$bxaNXeOh2N|43Z&a9CkfsvW
zf)k}R$WZ0$0LQ3gXoU3t>;ax5AR_tA*VO~fqoh1t^8`(K$PE}RlhJ_8>Vegh9B`{C
zJOdK{ZsS*50O9*DZTy!17vuNaR+H{`MNcXPygtSLFAGJfohGWi08i!PHINmpl;aY>
zr`0IDP7b5ud3L(=lt3&x<e&^Wg(x*i5q4po{0t4{F%aowm^?xtW=(j4oTKD?gPhg)
zNe~eS#K!D0@`%Z**kTZFN+FAkn=pzn>u1&?-2g)ovUZwzC21YALe4t#S)k+qLJt!S
zm&ac+N3a@!Q7w53q<bQ;)!82*(E0-ffdLOy_KKCgsmjeU>$0_SuJrlcb5G3=-m2e5
zXsW@NZrCX{>|7YT`CzKyF`y9Osea(8xx=_f3OU}<LQlAg0;ioEt?|#@a`Y+4ut%)u
zN%&J00}%9<*TW{Ryd&8;AeQfpnZb+9Ri~^?RPSKAu2-z<P4q9;?OdwcnwY-PpQ<}H
zYkAvMmuYNCH};E-{R{1>#{IKLGWQ>uJyK9nrho73zI1t;Sl%}85zDtOyBpK)cG2BF
z-?!-A#H{Ih#j4)Ls?G1zZg|Jz&$RX|`L}1f?!$q>_NKpY>U_0*p*h~3YTAv9rt0c*
z`r_uA+j_I7GRK*5-f}ybly^69l?|_MXXj9Nh`t>QM^e6nxF#nvaA4Llw?lMpNVeT4
zI{PzQb}M#D@h3!Q@3N~d?P?WWt?}@pt0SWrH!qfVzvK43Q`M4b+PKuRHPgNwU1_cV
z`}(%4qlw_$XsUh(x>8+(u6Qfam8vpy1sJyyU6I5$Hf0f#vTl{_3E=>Sb^k5C^_Pn8
zrhvrp5uOAzOs%DxAv0Ia(}KVYsBrC*$G*=OUn+(re;alWKjDU?nPksvo=Ym+<~igx
zGBuU{azENO<mJVqwENaPXk9~ygB#>jOsB<9TrW~CC4uC*hpEX7TK&RB8X8zu!Ffp4
zz?n*Fp=#=KAI=@<&{hqO-WBJ$l~^(Em@a<K6vgExN;!oOp^Hw)LPtI-$NNpk4=@?(
zDajsjJ7$92(YDGmi#}{0{#FR(|1PhdJOk=xOe1W|>7*GEPdEaKi@y-kJ%ybwpEj#d
zPMZn8MfE=d=bC)lteA`&nT99=O@2^13qTAMfYP&!oR&_VZPSoM;A|F(NK`gSro$Qs
z&i);GvEoO4%7HUot^Mu&k9>DmV%x(0S^ezOSM0Z(UGcv8idT1}oLz4|`Rf&G{Wq&U
zJeUJ7ypk30Q{-!egUbgXUmAftIe&FsfgC1=EPj&&y#EtrcS&8u^{HeDENS4fHc9X!
z4_&_b4;Q79dQRBGT2byem1cw%sSKv?mzaz)I>okn_?q(NJ92%EAo3FG`vAB3(e;@=
z(dwHY5Ul{gRX9cst#rm+6|-gRWtp=2beT^q^TlzXdq8X+SQtx{Js8`Yf&TjR^A}-#
zo3S;dZLOk>AdRgfQ(F&h*tXbFx~<Cvqd%A+mn>DdU;5OQPpNn8#iM`P`-A>B`hTU@
zRa#>EVe3#*leT$9n>XI_?T%MFzOgY;@%`%WR{v3LvT^5Iwq3bm<Xf?D<r{FO&Rqje
zfPFz+OImA3pvoRQ^d3%Md){`}(($<sXjVQwNB0nfE{sf0g_#CFTb2*fb+*L5WlL3v
zrbam!X2i0R^9&b42vx^*9n0iy+(q7)h#jNDgs*)BTLHJAzphGg*bxgYIgM&UBs2m#
ztt**<5Zbh=ep6xnL7Z7a4c4_if)quSJgq9dws$K3kgp*x6=LAP3_95&w6Mb|s&Kj>
zw?#gjqK*^1N8x;!HTtUo6Z8FrIGY<K0o<A=Y6Z55B2DXRBRxzD9Cs<FLmGdPt_M=N
zj(pV$OqKPC_o{;%Rk;<7I`r&_O8s5>Nc|ulNrSUdda>HjtZ?Q~&XaFZ@%=`fc6_vm
z<|BWLd0zdY;91NEH%cII%~S9lY*8CHVan%QlL<kx6OGyw97)$Gt@`REg?(qrkQU84
z)JvUa>}Y3$MjpG0?dZZI$#_NT)%ste4IuuWvyC<hoveAH4y8@D<2%+QBN(+Kj|>TL
zz!pEgftoh1pO2|`x|BRn?^NS!cPrshLdk2MU=c3(l3Sr`kS^vgC^FGO?*Q`WPrFEF
z9+Z8$Zrw|9rkmyK%T+m+B;{lJU?#ny)4Bc{;fqv1&5y*?e1&{3lk*ScyhsjanJc(P
z$4kLO<jj-v3OO`nrY6ZY4&{wGB;71d+k{6T8&s}3&eo|aR9O)*bUK8?g3^zTgtHZD
zG85U!d4%s#6W=B0XXN}fIZW?D(<^)yj^8O^@&8T{gvx~z<opkE{wFy(a-M{fbtng(
zlnZxkg(oY4h6>NdXDj7XJao6Oav46z>8xu~7&$wFJ1QiKMk0&KwFV^+TbOmJrNM9G
zVkI($4m*(|6AJ1}A{acY^wEr7D&Xog4pgp}|Bta~!t^r|%$$af9{EI*FMf2<)T16b
zT5>haTNYh?Nn0O_YZa|HF1cv!&D1xg>wCre-o*A){jS)Fw+9~l>cG5X(RE+a_Gt3q
zN8z#pq~4AXELyt@Yieyzw;mK*58kw-T2G?Qm~D3aZEKZu^7)pnA-+?zb-!h6c)Nc;
zDzz=Twj^yQZf=INObp#lu@UTLs`0_3sh%|=T?DjOwC-JYmZzO<qO)!Oi0Is^a!rX&
zv3wUKs2NAKq=HI08sm@L!V&6y>COXU=YgA@V&^BIUSj1tMQ11I$VAgECzSCxRf^J`
z37c3xz>+&eXUC#*W5Ixk{wYn{{G!dDv~9^yA2y24jfn=)dH)hl0h~xVo9FpkPCpJw
zEz`v96YKZgcp_E*2oY-5`lKY`CDwV5*surJ7tggPTl?9q?Maj8-6GEBMRPbsu;|*E
zwC&6p%FR`o+J<!P7O@rr;pDzgrfMIH9c9O)2E?X;g(p%?N0PRNWk*vyfML?e=pZ>*
z?2eRUW1@_>Z0e>wmSyGgWVE_y+s@8%k&rs$^d#$h(2sIEE+r{{lwU5bNSF4Ar9Fwx
z<ozd8rKfU6UCE>T2e(b^S{;MAs^D6kP05~5vYT}<fby!G8L1zJ34H%qSKFZ;?kDa&
z)p*_PX*lfC|Fn#UtIdvX<-v{?(XlPM<XHP+8vtU0fomS1H97YAqDw_Gvga=rDA_ax
zpE!gbAr68)TFm8jqk;nWabH2N&%&ta$tJLi5JhW|WeTE4ss`z$q@K}T(OqsffVG9K
zyvkn2iogmM-GvpzVfe7_Qqf5cqbp|2vF`E}>0tYe{%LSA)5{hGh8zIT!)zHDR8nmT
z*Vr@4u$jdcT;H?4LQ92WfH%0NPC0&q5O54mUXX_T9xD5XWX5V$cgP@KfEi?=%x|rR
zUNRpd8S`-gT=f4R)>rr&w4|7^7xK6VG<e*5p+60lw*l<B@OLzt|4a_C^x#Ox$=^T@
zk#NG_lS4$>THaMY+R6~#FOi<*$A$k&`TiR@Q8)!>S0!Flcn`7DegBN!o6*&90;R!=
z;?C)+>O0xaUAU6$hAmZgEYEhjYXLH9Jg?MVt<98o%s=ttvY%AHS^d6VS5vlPG}hVQ
zHNeNNlqqw)<i6s5v3hRLEBmkRfBE1oXLC-6MBHXpQiH4A>+H8}Tve?WPl@|j$~_r(
z&8%fv<!W2N)&BZD3yQJp3f^>Vc%afCUuDQv+pxOxF(&e3eB4S54p>D}=I_HC?$om6
zE{IdvuxSXPpw@?CpJXXu{B)#l(#(k#qzkzO6RyJ`Lfb&4Vd;ZiP6{gN=IDz!U>JaW
zCU2#)U$zvK$qejqToXz66XLgM@Y^;-Naabrf9^(B!3cp9nY(7YeV=+|^{On4QezXk
z-FuSlVnuYK?C^UX@7gQt#S2CN<7){Ns7<lmPgL<FrVplrOyZuW^f=5@Ru%@Z&ak80
zHiaO=v6sl&TPuVW)HJ<GV<%v^%otE9T}Y$0(JuHjN@5duINaUEKfi0KzA@gJs^9cI
zUt;u+Hi`9nVka_=`gqMPM+dI@nzdzIP2W5@U-OM2(X}}-eap2c<J*|*I*O|&hQ#ip
zN#C*Aqi=8Mn~f%&I~U5~z`9vFYd|YfdDIp9JYujy3x4868z;VoDWQj9i`53aBp6xq
zpbk}Fnom;dpp^-%3gsp4TqYx1vd_b6hpB{qI;ValWr5O~P)tvy-w}}!hjg(Q`#^Ny
z1j{$SeAZP{-5v3$jnjI~*LJtXDBIDir8Li#%Hx1lYvD-LGV+}&2FW^%!D$Auy_mRF
zOOvh2GS(?&EwQmPo<NvG_B$5kZA5As$}5Yqu(sW_7(a;;Sd5iiecN^4d@$X0NbEY4
zYA2O^5*mKDFWI~`*}N_3z7Hl_YlVcVvYoI8u#$*yXQp<;ylLK@tnG;%U3SzeCtjd8
z!*|CedmZ#ERLnwRC~Fy_pC*|a3*i^3Y(qnzoeGReDFQJy?01jwyD1StVjhoE+!N%`
z8k25gogv>B$@y30e3_iDz{wifm8TN_$=K0XDCryI`~f-NB8Tyx-yt943mJ#VRCvs~
zgs^7Tc#M8VOS01Y3(9FCC(l7LE|+$g@K59rUSuFapihu3k$){}IE0&3hX8kofoEse
zWjsnEEP<SQO1K4}|G{%yPS<L*$2;HW@X9^JyN#B_-W-S5!rm2n<$68F>VzxD;kDpe
zp;vC8+*mU|oa69H46o2D*ZB$FXkV_Z&Kb!AuA^*2u9$gEoTYWe%)IAyR-<LU50({Z
zW%CNXay3q4#XMTXE3t2dUb*H{B%?*V7Rp!Xm1}hw>l5J|hu6Z?jgvQhHy(TA3o8`N
zwKp5<sZP8SeJk`@Im#CqEh|m~3fhW|JLXU3IJ^?4R_K*0D>m+)$4KzXm6aOH5*P_y
z3m6GrxmLGv^E{fuD-oe7*qrON8a?wq>b580qi%b0HSL%JMB$ZaPE0MFyy07T?7LqO
zdk?NqT<$U6W86a3;B`ay6Vscfo31xYSTOm>qcn|Masy4qnoPMnr>A!dZtKB&*=&!6
zXHQ+4p6iR3U&Sq2Euy(~#fX&LA->ya$#@!adU|i{X76Ql#hgJjdsd8y%mw)ays@0+
zVIImvo_sC}<sQ=2VA9b!yl9Mg<?ef!H&!jXYjQ^N-~+;2%)BP90vr<aTDZEF_{pos
za#j|!ah~S*-m5!vB`j#?YMSD{tGG~u1)a18N}0Eevs6mmbg}RmU7gXlfO*I3#_-L3
zZ;q~zH@B-o?mfM!^Yq?@+xzfdHrry6OEoJ-_;X!l^eJ*2UN`#K>t^4tD8#T3TjYKZ
zyAv6|bTm0OhBJkv{OAgt9u{Z=Ws7ikGvK*EI12Yk(U}5C|58gop4Np!t;&z5b-@@v
zGBgz#84I&>qgn4AIi#Og>w@4VGKtnCkU`?-0^K{vCFvq&b|rJR|8A8qU@83^8+8`|
zNj379Vg+K;vh5$Kywqzu6|k}b($CEa#KC17Sq$o*2!js8DTc5#$}aWi{v^m)1gtD{
zQ}-DFd4zmh$k|M_m<A-Mx=X+h`x5rx!UQ{Ur!CK~m^j|{bFTU4T;<<#Wq-%@|4L`#
zb-&`^yi3meWjZ)T9RD!?bI$j3Zu>9H<+G2a%=OO}-Ns=(-ZN);A7;h8^i}^4Fq6$#

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/mistral_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/mistral_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..beaf1270952c73d512a7bb7285ffff341bb50320
GIT binary patch
literal 12635
zcmc&aX>1$Wc{998ks>8h)I~|7Ta-k}w!A)MOSWvurzEd!c@M4~hUSc9$~=^rkq?Gy
zjbej(ku6rcNMRdTG%`|PW!S*FMbIimfNZikoF+v@Q!Tj@E#gI71pAL(Ynw${wEey}
zoFS#v#!31k59FJ7zwdqDd*Aim&ulge1tFsQdU$9*Mg0mhO3>#MPc1Y>-Jn>Cr6ZId
zznTag)%Z0urnM1mROi=`v@W8L8vKT+(QhPqI%4vhNI$dR0$+WkBx?0rNu42Li<bIJ
zN!l2(M;(4gw9H=?E%%p4oqlK3<#$CZ{1s8R-%Z+>B9+l9e-%laBh}Fwe+@}nBDGPE
z-$T+Rk-BKTzdqXFZ=fj+#d$d9F2Ih#-^dv_V**o68tO2`T3@AD8|S{OCDoL_nJwk&
zSv%J<sbd|l>in&wRT;D@=c?3JZC7cp^JDBX?xiKuY3?htTr9*v+8DYJ4~ICxtC4I$
zAruY=BAh64ydW9a@Kjh7ppAYg5{X~N#Gx=3VZBDF;^2j#crYHFfyUu@>=ceCh*H@w
z7ZHPpW@8~NJs6BcBr7Qz;{+i%#Yr}jn~29Fq|!5TMdX7akz<vjqp`_29}Qx6$+~VJ
zlhOp>uweT6ATMw{<f=J&lt4HJfJZqt92B_#8=jnm%93y_ECwR+sVQiyk*q_ps}u2y
zTr8a6c*!vq765>VS`w16D#z+ZdI9n`D30>eEalgnK@w?M`c>+lMkSMu({lz^yBAt=
zMppMKbvHkf-voIrr)Tw?8AxP!Rj1Zit{S~2$*#g6BV`>38W;sB{j?LJ8<dzIl%l5d
z^j8ZYp$vSQ^3vm84ey3BseFoyaXcb~560MdG!SO*P*1VjZv(wzbf$MEJmV9C{1hkp
zuFUS-z3bvmt~U}s-#c?vybzD|UW!Dby<AM>ug=5)zd~<(hKmKmy&_N`FhfWn^hRYg
z28s%MX0A%6y^&z_JR2NLRBc#fk5bbDfCx5-u2J_+WV**w-Qz3W&+|1<0>rbk++=Vz
zA_gX5lf?O}k|xZq!;b;l5&Rs01e|qxI)82;s|HcUm8eq+S<OA|UBoT~g@}MR-MB=3
zY=$zJoWAJQO1f!SHILn3>x@2sWN7@%*vP4)2l;9!B4F~hn5u#((X?@upT~V0v=eZ3
z*QlI{a+JSu`L)a6xcqi<@hdBpThsP!%cgB)RLQ_|;w&Ev6|V=^QMB45wb^QwU2uiw
zflC$Eo>bS#(ib}@3RbHb=Nn;2I2OjR5RAlTqmnkl#k@3Mk6_}|3|StWA|Y@o7zwkm
zeG;`BmswQVjU5pq*QiJKvNsa1CBB|~Xz%`8?ZSa?85g(Swl15x$pXi{C6Xx+hy|lu
zARt)+foPnajbPdu2z+H0pdmH93C1GeNLo0ml06Uz#$s`ia0mfg3z!Z?IoPc%A%mnl
z4||jMV#f_s!V^J`MKdIXLlAw9`k>UAYI%O8^yIYz*R^Tg$w&IKCmOB3@2QqDl;<#&
zvyc?6_ubUyDEKVsKEV%Z@k9eDc_WbXW`}if5jY8X9>cf7EbFL<n~6|y7!q)%RSG95
zF~1{WPv%oVMLSIarLotB0CYT?r{l*ZPzT%95*ETSzzFbm-UUUH@e;6dV5UIRt&lIK
zX>|bTHW`yiz;jdFm4GliGZW`Ueg`xq%@I%6sK=)A`F$%b+ta4!9-3ZU>do|@O!c2!
zKJ#L#|HYhEqc@QChoG$*%JQkF^N{$<BJRo3el4rvbd#Fv)FjPnU$y%6tPXf5@Xtvd
zDKkKsku`Fre7Skjz?wj`Sy(faS>Rs+e=AqQS&_aV4wY1?nvzGfvG#<Kq9z?gG?rec
zuF!rvZ2U5*tY{C*f+W}sgs?CWP`EH55MGST-xv@{Oujv{^8j-cFwD<}MCQ_#p1y7d
zrB00HSki1(;F!x{@d6ph$Gr08Xr48O;?Zb4_T_UO7esMJ=<n?X*?M92d=Hc>>=U?Z
zzO_$o-RsQ{BVOPb?n)5FtsryW5Xj$v$UzCR_I$UV>2Pd1$SB1<7SjEU0I*%Yz{MD!
z4_Np42<HpVig6z@Yo9Frp+?TZqJ8;A=f`A%JjWm|1WqKwNoI9#ht%x~WKg$t2bBIb
zT`a6#(<G_C0%@A0@8&l<FeXL1;^sy+z9EQs@JUdPf>0q6r4I|IQDkfgY|-dbFlqoO
zF9#Op52)j@TF4=fCxNt7$7OX;hi8cdfDHNihA@rnZ9{;Tc=|U4WwkJ7sZu32D5+^i
zNfo}VUPRVQ!gQ08Dtr}Oz=-8aso1WhHpip_1>gCMxedSf+{ju;h#6VLw3-J9JW5^R
zd#yz5QgW<Of#)yitCZI?p4dAckNL*rW5TF=i(xsDL(Nd$y0gI7rkJ353<;O*>FN3S
ze<2)7SYMeqabh%ZaA<V&^tpuT>?>dG>6|-zF45KTO3;@W^7*&;b_aaty1X4{zxv8q
z;q2*io%_ztc{}zEoE17-lHJL(f;VwY0fI09nJX}%_-uq_K;kfwcnHoKgJ%&Bi_9Si
zyubqT#d)UR=ygkaV5XpAf{Y^?Xn@}iC?HH&=FA3JCzW(zP<f^D8J@c&>rcpe0zn>R
zU1*l)LG_Z0!>r_9S3m@$0QHg^_z?%<l7((lz|-SA=^~lW$FVa2CFw5#^yeilsCklA
zEe2^WX?PBd08r(_5l%7;pO^p~N_JdffIvbd1Ca=lZJo4`tfyvUVmQi;@O+#{T}j{~
zll*R2reqETLXn^V0$M;($1vAqHE94ciJCl~5zR7|dlV$?hkD^x5Pf!yS~b~TGp0;c
zH>+1n&5!NXH(N3_J*k?Wl`Z>M>_e;8@;8pZc6_<&g%#_Ipi1>_y{=m^HDp`b@axHT
zlYDc|K-ug$J!Q7RAdso)xUPG>H0xo$dF<A)Z;sy@U)=ug;GMy=rysjjuQoJ(GjS`i
z*!6AxAFux1)pWxU8Ev(sWnm)Ix;xdnd!?j*wXyk~n%gy5$KVe&KQVvb{8X!HD!o4Z
zZ`OK%qp9us@QStmQHecM;z^ZwmP=Yz%j<I*x~%c3R_iRyQCeGRPD@!^Wj)Wx%eIrO
zCv3`4{|4~!EQUHq{}BweDM?SOtPdv12i^_kRwY;Xg1)g6wy+V{DP3T$Ng4#Ic3jfM
z;xX=!*Tka@B$Wo)=~+PxD68AB`SrNJ1gS*cX2b%OoWjNMOhB07Lg8RuffBr0ejJA5
zpU3C~MC-THX(&l3JfUbit)Ki$*zYhzxT(r3-)v8ncPv(>%eP)PK6cdH+@7iJP1W|U
zY#my09LPE<Z`j_l!6)NrPC1$vE<JSka-~$)mg|RCtnFF5`+BKNIIFDa#b?EtSuupW
zTnQ+fF#q&A#5YjBDK$mkBz*}K^n!ZM(jbXwuqg8*orc`BDkBRWHy@2vjhSgx>J|Fj
z%_rxyX3C84sIsuohJRu6@@Z8X7TPAY3J;&tO;L0Dq;8lx*GExvhNOYjp-whugp{77
zOiBG_(mH7r?aGML4kcCiCQZs5tl@3d&Zeo?pVLvXif8mKz^6~@hp9I#A<YyO(wut^
zAhU>-$}Fr=L=Z_xT38ciibh5=Z9{-oW^BdM_biGmzGqNVB}(c|&FedL)LhA&1*llJ
zVGzh}PDORaG7hapyTh6+DM;_6wb1e+SP{H2X)WG4tgSfLOo^)YF|BG11(;eWeg`oz
zR4HDl``y&f)7o5wv&|@JR-m2Jzf8UU)63Kq?aS0<Is}fmkY>(unF0tIWln&m4YWg5
z_nAifX+vO3l@W^#Tylc6g_VaiFN2Y*%;vQx{=<UWJ%+s7X}v5Lm`Oe!Wr85`iC>Fj
z$O&h7PMC?u1g?icH&+<4>Nu0(80!PKijU_&5f7n?f_h4XW4<yQ7de5L0t_3U1*Kal
zLSy3C=@a9`xPZpp>S)p6MUD|>LEpX_pXG~`43O%xQ4sV33>9k^84ip(&^bbpSymag
zQ61$FNMb8tuS9-xtYne7ET|O%N_sR`M4kbh@+fXTMwJ{~06NqsB(pk~WSY$T@%VGt
z7P;shTC#F61TjE-h1gBJ3TjRODksJh-9!~YbtvzWLyX|;va&?*tD@8E<YDhpJhDp(
z#2{jj1GP!y!!!ISDMb7N*peYQ170T<yfFg!1@)15kQF35VsV%YfxS(p<&WcN#Kgz_
zF6r6X=!^gZ&P2i@-+@Kukt-o?2AzxiAjxw|-fNQu&5Jk&N*fu6fjqh-Blsjk7dSyG
zQ?MdyN2sUiNu6ZOYe$j}wJ^!X2QL>CI;jk^>-zG3oa+^chyzUCnfX}ux|A!9%>n@v
zEuUAOKHn;egMJ8v1us(-Wp%tU_}btCXd}K=XK%KyX^~&ryQbB+KpD}1GGd{sS~8Vg
zsmiX!;djUHj4vHXSMJMHj-)C_(v^p=TXVXd=F*(OZ5zxwD>Kg4htAe)eN(1>OR9cL
zrhZqde%F#GU4Ll)@S~2-WmoGj8ar<4vrX-b^zDwD#%x2&!pU1#Zt6fcs_x8GZAn#a
z$+mWXcl-DHztjI7o8EIg<r)1{tEsMeVxyY8Yc9&`d)IQua({2SV?T`cq?790^R&{s
zwe*P_Qc$v1L6tGt>gLrtZ?>*y@lvX8$K$59cRFu(W<9>eiz!e4g9=z(bIqF3Q1AXv
zy}7JB=Yp=eO3GH5qhO?5JyqG9ad)KL9gD7a>+jU3-Mf~`Qtmz14-*76W@}qlo7)yH
ze{1jk#)r*)H;rpX9b!ud*fLQ4gN5v8YkicfD&uTVIom&>47NeQW@BrH*`8vyXPCVy
zX7AG3G;{31))X@~Z(D8Yc<0#dV~ca?mVt+k#+(g0{P!p20Mch`-ISyH6H0F`1<f{N
z^`xwx<+|f5*3rl7N%jdLnGxFkR>0%)ee=-H5t@3R(j6+N-q-aXvgzI*+ym(!_8TDn
z5j|u$WYPZEsDaFn%`~PhCQO%iAEvcGp=gLD8(JUX_^bdfg)3knsCEYCEa1-)gK`Zq
zQ{;wdR)GBgCqiwl7J=WEbWsY%L&X{gs+>eWx(2B))Q>cv9~DW!r1qX_--B+nsY5Jj
zxJ2=GQPqHwhP!!x1FJ!oCl40q=2{N#DDo|AqWZ=fe|LRRttx9_mHA+&5&*}X33M;b
zwBi|4D&hMKZ9q%(D6^Rool2+aO=NY_3_4TZfB-G0fCY<+1wGLg>`4pE$S7kKzBo^e
z4ujtE1-<h){DNB8j`K9XW3$@L=VLVqm=R%uel=gvMvqQT{_m3|)6E4)l@zN|c+Q%%
z@^6c(wlIyJ_6;FvWsUb#98IH#ctZdfIyV$Sc5}#x9%xoEUbI(5pEAbgJ;h$N-U@nT
zeveM0$8|$sOYW(<-aVT#*A#tE)qv(~e+bN1G*>hTchZ^wu^ZBcG-$2G^ei=Ji)k?4
zjCw#PIH}<0QMEhP2sxbs?B)<mgGI10u&OQynwv+domPEfN(pG#_RVpp-~cpM8{q@R
zoF(5~nE8U;;!tosSDGy4UoPm^&!QMxCZYvP!ZaAc8-rqD6;ZbIUb!;cGb!u5o5$sP
z%CaTJSf1C!T9HEVZ3Nux+6cq%+NaMrJN7TYSK)LylG@GA3+rMl6pGB1vF>CUa9~%m
z47`G6(|bM-A?sFfQbWy^B^`nxX%}>4RdnnhAYYrb^VLN=106;i0$Zt!ftTli4?1=$
z>EM43BmMI;&cCDh{KLh56+ls5G}~tTusT_mELW^@*maNt$%K-m99CJr*(#G|3WP<c
zNi9R32lG0gF>g)MsbIF)%6ZmKE!u(3KM`+nuH!8~1KRuqsQRNngf?@oXSB8#Q*y52
z8Mv%Xx{?(I8jAarEk()|ndyGUD4wMI|49+|pNJyvbrd0d9(90#%7KxWf)%cM2R6IS
z*z_)B6CVj!@bKK_8MxFbCxoV6rmm`1I>4}Bp$&}VTQ|-@rKa#@>k8vMW5)VI%i<Zm
z4e%m{SYbTq85EC9E75`eel8ZDow^|3NC@zeZv*kVFD@JKS2>Yb(8M%8#D5vPGZ4Xe
zXe>{_8v-jBm}sR3&^Zd$vK|at?g}xNp%of{iAuPx<wZ1<<1r@2U6$?TR#vvU(XfV=
zXn}im{GY>zKaWv8Mp!A)?GoLT&@{~@_8uL7Vd&J+q45dE$AqIZaX|>9;{o8k5WEDp
zc&Zx#Y;aCwqG51eC}ki24_u@q9B6SPEUf}s@vTCl?NFE(L<I{_ruG2GNQetx;@Ey{
z*La!>@}UdZ7d;&K`i42riI+LJceJz$@JqO-0IP-W*o1WLlD!7-#6)%%0JJd{;FfPS
z<g&aAp(inL8ob0aSQxr68@tE^1@PFwdf=4^6Q7ikSLm2Gjltk&IC4wTB>NoDsmY^D
znD_<w1DHaES<>R|hxYWuDgGj6op2c{qB|NL5BcXV`~|Ghh2n5=Vo@CkVDOIxBd~P1
zhC#=K>|oHd-1*rlehA0M=LY-~M$;IDFv2a(qrJg{f<;Ld*{6(-3w{zyi8ll9Ao=}R
zZ{W%Pk@RFSJem@G1S2%~y_K>H<1!Xp!RRVRC~o+#VwA*)_%`&Dks!Dzta#On7sBMa
z$)<W4NVdqV%U=aaIwTqRRnWMD%b>h_h&&*WO34M5N?pkYRv}(T$&M?@1Uox#LawVI
zh?VSW!$5xUd?P`wR|n7MZAyFc%1c0p?mG8LAtO6dJfC-w1k_EE==ptIDuwp{1hWZG
zL1Fv6bERR?vf}Jpw)Vk|fz=^j04>;4CB5H1xMWXnKk{Jc;r21`Ah@b>Rtj7wb-Nzc
z?fQoPhWRb?ce(F{zZ3rXbN{;gr@J3?rUoaj>vNiz##{w{6HiB`)|aaFEwb;%?!?ly
z154*qwL{lOb0&k$v)a8c(>;>v9?80xg;uzW@|Dlqz>TtN&(c78=TVq)CwLxivYGmA
zsrqdX9evBE&%phYt$xi)Ih^wYX?x?s$%po~Y-R15g(`E+kEI<=3n$Z#wtIcxsOTDa
zPnX$0k=j48{NhWg{V%1vUIN$^m&fAPhtBS7`>ss;-c<YErB~AJN9Tt>s;pgYXeRe)
zElX!s8V+U}j;9)q!=+osvoqz{xunbN8co5^GxmT7fSH<`x-|pU=zGlgvYkDd&cRgY
z;HqyhyKM*faeCT*-L~cS^b)%;oo+k0X4W@0<+R3*`ZcY&vF4^8TszfunX0~2Rp0&L
z%=ROx?MKp8M;}b2s!py{9eu>K+|obtF!Lji+dCHr((SvKhEnYV^STvBOSY#Ezg<~}
zE92-&Il3~AZ7IjL``cC=J60X;8`d|i%XK>xU{@St*-Fp6HNW_tht8fXvo*s!mtvl~
zKbd9*=4~H1nN?56V~;o6)|qMRPqp=DTYFcVw`H0~Qq3dj=EJMr{;U_*)Y<gwrtaIF
zODzkX>85>aHe+3VPHS$dS<{x(x#vf~XV<rLe)!*Ay#V@KBj8eMYRfe4N;U3Ua%Fap
zrQp{%o@qRlYCM&7HQ@DQ`8+zN8n@-)xtL}S%-bH-w&wRu=zd?icIUha{C78ZrJT*#
zhW6!-eTyCM_TK4TYDstQTW;7tf8?XemOEbpD!n!GL3P`m!BtnyjnOwpvsEtu#1(EB
zzpfFgDw?1Qd~`K;YVMCMKYwP$`$D#=_GURe1nP7zyV`(~6}8xLxv}s5OUwICuDDJ;
zs%%(p-<_)5oo#5&w(ZJRjV;%7XKMOVHGTJwq-zF#sD1Cq`?gfg7!1<xo<E_Ek*(VQ
zUN4y*it4<@xJ6|4416A$W<4U)h{!Y(WV)z|>Wr&5<?6k!%WN4=Z5d9xMjkYzTraJ-
zMn0-&y8UOWTkgSgD=jDI$5vat@Az-~@0UI}v(kEceq6=GK(?wiTh#{czX~@TpVmRh
zFZ>x0pw&G;rUJd(xO-_}#dUPUW*`9X`J(}@OSxVEfMGM#HNqCLQ0?3Crnx!mthzq>
z+1h0t<!aA3yHd`sjB`iIxg+BoPC19sUFcDF^Whc8kq;_sb9yNJueF3O?{cgvaycGb
zu^xx)8>6p{W*sL0T3hK8!mvv8=BnQc$AS5Me`o!Kk@|t#eOgcbpxX!O_iILU@OjWM
zJOH16sT*mBPg=isLZ@A!X-KbVX-w<1m^SuJ3}{#O(hz$cJo;PsE{wV%l8k`>8xI8n
zJo>tLH2-*ftHYnh2>mMLzJR}kDJ?{j78Ej`$n&=`Ys<ep2yyU=A^@rrxiv-?%YOL@
z0@}?yMrg(h--YP2SE(l&gWi;Lc=V+U-JeqM$?di2E0^2$<S6{^Kl3SmbM?n*ed!~2
zbxw~7I1%OTIU`A$C`;Q@GfDb2qgs8{qsp3`9uv?Cl17p=Q597=Gf4s&TNh5>8q1ZC
ztd;V#EF8Qwkh76&DOJ<7(0r>dXD3+)PE<yc<&?#JQ<pM(e&fWv{PGZ&<83F(1-u%G
zM<VcY26P^wCwM+2W62=D{*_;{8t{%KHpS!hGLLVs_^&}E>E)*$M=*`b?ncE2-m39j
zPn_JJ2(r3lnz_mb;SorPywj8zd@bCA*Gu`=!q6ID3-`?MaWM{n$+SdWM<y9jeZUh%
z@#r??@kUtM{Y8Ti{RCAOc+v<fgGIorVEKwgF6GfbC3XH@{b$8+L?9ZJR6;t)&vAG(
zfuu%K0^`R7qS5g}fVA&XpC`%N6TPtV2FB|oz6B$qvTecC4vfflLzkOOsai<EyJ*n!
z;IZo<e;2a2H-&2u<+L<SKQ&Rb^+T%VL#pPNRL8HVnqN@mA5z;O`x~8!*8GNo=m|!j
zmTMp~Q1nUqL#p|g)aXZM*ZfOqbNw~LBfID3rIfw(nsv=kLi^?~tWogEd9<`)F$oV)
YXv2HDr}$a3p3u`(H!Yu1_$3hjA9xaDvH$=8

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/olmo3_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/olmo3_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d8c239864d856b4e9c6dd666a121d9a67683e263
GIT binary patch
literal 14943
zcmc(GYfxOtm1f?0zpJPR6faRgfmA$OLQfEq5qdw6Ea-NNmRwP)dx1hlLEn3k1TMy!
z-VP74<q#V87&P{V(Av9AM{9TS#Kc&hKkoKSyFD}eqYBVcx`QLsJD%8e%>Jkr%(}Z{
zB6iQoTeqs9OYNSG*w_rnoA>0&lX){wW`5^n*56sJCITU<`A+2Zy@dP&z9_+*Nv!uU
zgv=6_uuPQn%TK1Cfp=9@HKOiUGe}cMH6z-7Elo2~UB4b^ny6vK*l*0xOe5xgGfiuw
zmJw^eb;Q<h8?pD>M;!f*k)r;h5of=1#MSSjJi4fR#MAGgX??VKq@=%uAu7U^aNc*J
zJsA2+RpbO=4Q~?G$d$dT&QQxK)dW;C=gCqlSPMsn+hv~on6+}+0S#+=Q`5hVwFA$g
z{9HK=JTBmI0FRF?;;P}jhO6eP2UMlNz%rA1LLlD>`L(PI^4*+^^>BW+nDRO@9458|
zIO-;tfcLj3xF^6!hF<RVaV{3-Ag%6-O~9k%0?+mFp-7Bl`$n&EvB)IH9|;LuKreZ^
zheBfa=*U=<6C<Osi&$0=rJ|!;R16&-kA;!i9g0RJ3niW71R*rYNmlySH#!=nnH9%w
zihL+6Vg)kkRBT|B9|>V`$+Ah1L1BTGnJ|4J#0wk`Z{|oWA_k+QgM%C&mODz0Gvh<n
zE$}`|ID*>JuY&JZNv`0_G4AFVhn05;;xV2d<$D5Z$q)?2LL*!-D4Bx6kx_O$ifKzQ
z`1*J#D(AdI)=~avS6ao9vDUH3ShE=72RX6%=J>t?`>*ZeTBDJxtz#47&}gjndNexH
z%Ed%}Vr(=L6NT2%F)kL0w2JTr!7=&?K#PuywgvM@En^eB1L~krB_sqbL~oLm#=v_N
z`lfF!0xE{}&mj7vysu@Mel_T;W|+<}%9D*)70|JBwuE<8G680fnllWjrpW-qYTmT;
z8#xoJ<;(*rR`;gn-At)|3uhTF+ady9Sv_ZFwX6X&(wNW9nm8NG2|Gw~4Cq)3=wcCQ
zvW>ODza9P^oRc$CjV{WjoY|CI(#0C6wmVoCly^^)n@qo_mjv8W$$9L}3$*(q;hd&~
zCO{udJ_tzjg+V)g@&Nci=X_Yo*XDyE=c0m71pW4n@i6{j&W8g-`2}A{pb}!-jVR2E
zW`P3<Ay6ToJlv76PZ0S?Y*1*Sd@l=-bz_K&`I?(y*sn&p=Fqq}+KdvL!$YGHklvhm
zgZ4CM+LIL);yE9-Q{Y4@uNzwD3y+RPK<ofNI+Cq+i}LtFG1fOe#?q#VqrM?{k8)H*
zvoF(l5c;{s=e|^Kf3puXdwc}+*LOV>g*ooK%E8z9V&l<htH_UYtplN`!1*FELF7WL
zZ*;(?bi6Mb5jh@mWl59Yy8POX*Fw#cUCsSh8ZX~yxV&T2YiCPC(`BI{(6E(ySqL1y
z94L_Y<pngL1QgzQ`HEx|m9;FK(Q>M}xN777x*wuHVP=U)$r#;M#mRSJ{>7PhGb;*1
zCdfNX4=f{EVSJ3^an+!UP!LuSjle|*cvN4>7z~D^AwdWR1(fac-QtVk$>WTkq#9R1
zPg@jO`+!TpRp66bWX)i`txp=fbEQuVwR8!PbUY`H^Rck9$^j$6H2n&kj<Y0AhLO4@
z^b)=tNbfL`Jv`3yFu1bzMA!hsZ-X2G#rSAbCFf?A7|Y$9Y<R&8Yxz8H2a2;nbc;N*
zyH@SBNqcQV`2sD~sh&;afMY_xzzGTX0wzv^kdniM+;YAKUIQxHR=y6>0+#a0E#`3m
z|20iKi~?|RgeF$`r!`Lu6><k#=vojQ9T&&OMM=-gn_L)MrvxJ;Xlwr)#Ms&?wU`}`
z;e7qdlwg@SlhdqWjUp)bRFJ}yCa&SD;+kRD)3*jzrD)<XwqQ$8*5xUNRSzrZDUT=4
z3|sSFGfAb?QF2!sRt=J{>PjskQ`)%pi|P=VJMJ&$xTm^PrvYhGTBXg<E=`>I0b#ZO
zRt;(0l+K8nidwQI3@f`@9v%7*RfC3Mx01>|AL*6di#3chQ@XfLu!&VlKC2rfarGm!
z(#yTXNW^L-cNi6GOUTXoDZPlwMnhabT(6{aPu4<rEh}qK<WCvIfRZ0Kh(0Af+@Pd#
zPo>@b8L?TR0v;rB!*Gl8o_ii8%7`ib%D3iyr~O5x?iw?r3py}m6n82T<3>dejF_E{
zn2|N)_mtSC@Ujkt_YEejV(94JAhkrq)r|%};aeCYdX@KKTyeGpHe2H+PFx(f1l9zj
zkeN*kxkT>#(+zS{eTm#qYB$o_cPqu9_WDgSaVgyr*dpZ{fb)g=5msFyy+o-k;G8^Z
zLIi;!gIxhCY(fZhTMoe{O~ElI0}3C{31g!%fs;2wEIwI(a3BMegNQ|hLpxd;4hIgl
zZlV4b*OSjwO+JZvO=7Mb2f(WrBO@FvOFfhOE^>q1O<(5SHyWlZa0YS!j1CXsZk^rL
z0q=;gDaTqS+rCu6aRAt`x5M(+?yD1EZ?m8%fwq@pB@@2MjhFP{(U^!h7l(;1%9}PO
zgs-SR>lYw81N#(iPFG;FnPPGaCQR+@l38$R%;bKbnPnJq$ESg9_&=&|F!FY$mP`==
zfk+6f7)c!hdqjg)#ycuW)$)?WaQVB0WIQ;?p#i`jn(TbhcE-upiM%_~F={y&9fgE&
zs3luG3Lhk({`?Qzr_)5W+xB$l!G*53OmjPb7=AExe`wXQ{U_z0uH#z&hQFTan{4Vs
zKq>DlzL9Z31XSe<0bqg@ASguvWXL($L~Roo24AK<n}?L@TUNaS6_SeQB%Q#8`0$XV
zJ9@sa>+D%cJIIfYj{#Z%a5^SwhQSn(Ou`sIG=#B&WbZqF{%o)tSc4ajojCTYq@~Iu
zX}H*RL8^P@?Adcc%5tIWV(&4TC)juD+_Cd7_XT^8b)WA!+ACT5WVNL2m2|Q}Ch2d4
z_!u-<(z4vu@j)JUT7C~il9r-fNe`wIs3k9Hu8y)3JWgUsa~Apn#t;lh4VaVym}@eG
z4Z;Wyf=Py&M~x%Nc<g4F8>0rJkyDZZlMD{FV`V!~qGyzk3`Sz1C>nKKG_$MoM`>-?
z36eV^<VG4yGdfcwoooY2I@(y4KL7<NTEIChhYV2qytcd;g?yg38|D5_nCqZJ7E;}u
zFjW4=;hZ(zGo~zi7UO??@xx2+Us_kIicHhmk9EXSlq&Z<=(yi8|N0LOt(LbY%UhSr
zcTS&uR#HAYac?43ziYL=Gg;rcQh#{aav@oNc#eH<_lNE8w|{VOy6<lP?f&mxPShVx
zS}uS{uW8zn){(OExr1{p3rwP<VcG&nC}F5btIS5*GlzTC;ZHjJtB!`Gqao$?J@T(M
z^d%em(rQxFxK30>PAKlJNbA)_6+p9Af9xd=|C*~cRavvZCps={s8wzoObx3oZ74C?
z);!+XOZP6##g{!z)5q656?3mVc<ugc3q|+8zVNk0cG=SbRD0=M{f}$k-tln9ioNmA
z)gR-;O6}bD)ABznhc@rFZ4lK?+XmFTJ5^l=_1ElpyZqmkuWQx5;*YAE=DIf2q_k<F
z>xs7|Ro(P4lG6rKS-oM^d!1>bFLG`;NeO(-5s+2_6!?lypPyrh^{dP$8_@oW=R^Zd
zwK(tg-0n$~_pMl7#+S3V&!!y5-i!Y)HGYj2SpMaCJqZ6~!%ZBe&xw|nS+!IoEftB%
zGb@&}zuD3c&uKsCf$=lp6pZ@&^`2uLhW8ITA^yd-=HrC?RYli<<A=!y9_R6P(+ArP
zn10C&@h{2l<NMUV+{<9xu0_h>rV}md51Sc?CF>Z^U5|{8gC2u|NtP@e$2Svby%>^n
zoH<4`hJq1RkczV0S&}_dL?MI?&|D=TECtX@*6Vc?`l^Prz*k{Gmz1)}3KkK$X#fD0
z1+WOf;)Tnqm9o4ot`czvp@GfPSyD!(R8YDQMAl?W+v6&h<dx6nm}z-23!&rLR!te=
zhFi=8K(EWN=S&%=!0k~GN*jL<ls4x<X>;5>Y*)S__f%jUh0<Thk%iJ`<=du=tS)W@
zD6I!5Z4|R`c{mG^bM@o^-jqc|ClU>D%WxL7DKr>20|l~1mSlmfRYVdEajS@CDGh}j
zKMGXiE5t0AW5E#`w+^Fuxg~ra$O`5hBxkeV`Udl&@^@`{kk%&FDiy?SN<YbvcFI0w
z8zfVXJQ#0RIF6DT<_bW1I^IQ7&Ug`+Bn2S;HP8p1xl@AqL6=ffPP?EK?l)V4QcJw(
z8szfjg}H_sw-kd{)}oYUNW3Voo@~om>m=-{*shz5paDm<EpEEbOu6DN-V+B}p|5~4
z0RO|P+!w@Mf;MgfXSuzM#2D5x<pzosD0Zp|Hrj4&+|4>Bp;eIU9?lvmxmL49tWz2N
zDYw|F<P`qicoE8uV_&=9&6vVdp19{0bLYdjqfl?eJ$b$18GcETpL;^te~cH*8QzuS
zQc}SEFE47_P1Q~6R{!$SXrHRXs)HbYhPe~akhp^{2KiaTM5z}s1nY{B2s4Ndj;!+(
z`199E$0N7$y}cxE5>Rj8cw}o}4c7q2<d<YE`77)Mj5IaU%r}&jjT%h*6-i()HG>({
zuDlO-DyiI)&FlL-PIRAa32d>_YBbg+a^_P>kHj1VCleZ-la8(S&t%c(j2|9n1mA=a
zYTN%e<AO)qg{KZVv_TYC6ZY5Si7#(H1Ob0@p%H+v1q_KFgRo78L`Pvmf=8d)<blFA
zgpfJKK|A8}PHJkyNQ6h{gTw@W`@bPb%#_4zmzWyKsQ7vX7$TfnlZ~?J0f!f|&5`jV
zqmNtujGSrNGTGUCEiyKSjNzg2*fnsK`$A~<jz_6ggNQw^U<LuhIggLSvzLGm3=%j;
z5rrEOafnBxA*rKWOfqmWmeM3=a3pk%3xd-y!Ukm*Io}0*{1J@4f)Uyk{27eSVss88
zoP2x_M&~iQfRO{EuR<glxfuAj(T7hRhf=ZpZ5$hf-VlOtGC++2Nf#P}gBupzfMd~6
zm;;LhP5g0Dwnc&zDoF;#cH<)`oZ_rJqawufJnl~XMT|~j)Qiz+hyum3$<mL6*D$(_
z(G`roj!_UJ+*>5K+y&s%4~AG4no8lGNv6u_9G!m|%Y6-_S1~$(5st28#vzd#E=bx4
zx^^W4C=Ipfr6MIozZ1^+ILVGfGsH#NpfEl#5V?sa9bifU0Yt_Y+VYT1ql(X)JGq%K
zx%>ZS{=5NI3YCB;!CXSHzG|;e+Uw^9uoc!^RSTvSS6jl;me%w#M(;CwxtyKYeqhDk
zo~mkm)SY<g$Z}J6qUl(o>iCQ$g&h8*-Jhu2zhXZC9EqkAkAy_q@#WSNiIx+Is*^L8
z-_-6|j4s!9CoH}cII-=Gsgm+k-GQW~X8QD;2@R-i4@&QsrW$syHXKei9A0VYT6SDa
zHgwJV-|PFZ|NZ_CF3-4U%kGu^NkyWeE9tlhhDVug`ZScRsGRGcI}4^)X~Xns#X6c?
z_B6cEI&xLc4g5I#_Rzzj6<6z@3t$~}<XJ}@XdUfG>j*8J^EnGAZ6am92jzc?c2b$`
zqf-A2+DS$J`K~99`c$buttHlyG=V(eEU%nCvsT-*(7#%{|DJtDJ99JT^3LsEE#H+a
z-?il0m2y`+YiOO(tT?u>xr%4R)skJwl3mNLw#D%!*TIzAyXtODx?5M>dz0?Hi~Nea
z{h2@TsC&`$?)k@|WYgiK|L~Ik)%V(dHJs>vHQ}g!>hjY<jZ5yvh1Zkrm!7yAKRR%F
zzG0zv;p)TI#D$A9_NOH~7WyBn-ue1tVX67Zv-&-c)yevfne)(zwYyep4kT+1Jg$8#
zEZ20;*w?&`*+wjCp$(4>@74XP3VNf|Iim$@&|R9uDyvrA^+|XA{P>Ey`I)!!f$hF6
z>D`s8sD99Mzh|{#cM|`;^2}SY>TOGU+ZK;4d)ps#Kac$^wtDE5B>Z__dE#wPcM$)9
zk54khQ9i$WwYGh!wmsFf@3Aw{crek>Nqgxdd)Zn^?ZP)!N;(pbj;Efg`J=1;{Yn4+
z$2*t&2ho=GFC1AZX-zm<!H)m*`8OF-)XRMOycovglMS%1WCPO+cBo=to?fw>$(p6-
z!OphYz&qgfrp;QT_cH;f{ev#cnKJTzQw_wwuzAin48QO@G2VN`45SYj=NXUY16Q{P
zUVas*g!pgt#Takva>3(ocU3_AcMcQAWo>62>i=SAAcpk{%?%zc4IY88qz?w!(Qq)x
zBmO~$;K*1c%JGMgp&KJK;po|yWPqbpI5!g~BsCn0%PTMVtkC5msbK}?!KNg#tLPG@
zV4@ScC-8p&Dao2SR||8|XfO!775d-ksnu8H12*(K^B7fQ27n*($(!V3m0oK|`$$Rk
z%+=Z9d&6lJF<w-q45qur+eVlWCAwSZ(<VmiPt+XvX97=95uGiqg4BHXb0n;*6$0p+
z&bzAJmeg)ThPnlH8W`#pHON<od{va5)^%!asfwz!8lMe^>GPSfZe0uS=|5nuGFtDm
zlCrcG6Cf0ldYUv4k2h_kNfW88oA14UE^Vf-7E%H2x!;+#(pMWPtC_F8UzxVkR|j!!
zPZ!aolbDL<G)ZH{?_BsUUmU<rk<_qN@IFXw^3md+iygiG7l3i#05ogQ$H|xT%kmb$
zr#Nz3Lhp-YVU1gYVm<IN(X3>#4A_pO&_#uUwqw@D&K;Az!Q^b?!jgbmz-Crj1BYVF
zT~$~e0sMRgjxwl~$bj#GDfGR0)^*mS@IBR?N;p(ePpPJu7xqU1OI&FIUkfe7!P^p`
zWvV>uS5>I)?17Hzg*9g_kev8z&4;1piX2@@vFhuD-}!<(4Ye21gHpJxHj}S=LB2kd
zZ<rurZalLGMww$L+M8LMMs<S(Og)=a`v3j0LqIJ9OzP1#bi)}BoIi+gIK3bGNn)<$
zA3E^VUf3Q4hc{mRfon#v-XWeH=L*;Z{{#XA?00&wkZ^YW%&@rgt@gRlk6mw9JgiuC
zwfxNRsca0i9*u;>92U=B+7RT^g`v=OPPvZZyT(o6Nsb1ua7Y@w!y#$uB@X^OP#1p(
zqCWn+5FelPQyT+~hOH9eyh6F&5wPbvfWM6*>L8Ld*d&U$B@I?7JL}bxaQvX7Uo1%O
zLLDI^bp+{>rU!aRQo*$ZHUBLX{B5K%*E4r1GROUYj5!$nclZ~oV9|ox68fT<+P8$+
z_`Udw-k-8N?@rvFNEp0pM%PUD4_yzu_q{8|nl-yK>Fj!}{<+~V4a?516?@m3vo2Bp
zwPok43CpXn9hX+jbw4<H|Kxo5?cs;RE8d+OTD8OUk$2}k%?vZM6J6c5yC-g+Sn&iF
zs==3?v^1r>JD(#HU?`($!$3^#yb4o0cmLG;XWnId`%k<JT`La%{8yhiwl8{<_V$FK
z9V*<!Jukd{{o(b*&eO^5r&DIz-MzQ>&b+c@E>F2iQdY;^S8l&DbA8ELnfH2Q$+`_7
z8nnw+1=8#_iJFtkwo?hisZZCdp;4bcHxWmNV1bVMh1qw^q5G>6=dogqq`@KHG;hG6
zByR;5pg%Wn1%+-kh#KIhq0n-uEF|F8%eq=~j$v@?kwP*H-B+7pBIxja!B%j^4~{8y
zZn=o7htba45){`&Tm|_BmV5*+cj`4Hw~(?bu|yF9N0jKZqM?xM6I{*eM;hgeA8E5G
zosxn(YWkkZ;!`nduH{Wyyj;i&AQ_K%EnG|(=eb}=2uC7tf~ldoXjH<bBaJu#;0aj+
zw#<1M+MTlX`#m7b_U&7ck_<5UZjAD*K<9`&H`QR;@~8zoZn1D2D8Ow?EjvCkCImG6
z_mO5*3|V>`QnqIGiYOdyH1uSwg=RFhrQuYU2;YP^n1E)_3_BaS7lF0P`_Q{$ZdkKb
zCu-W4Z5;_i2cYuVQ}<5Ip1pVW*143!dFvD?@oeW?ozwcY>OG5tKOOnW$a3}3Y2(cH
z*~WW~ONMQr((dZtm|ZDr$y!lms%YCI|9@_Hr(yBZuU=kh=mps8G;L_L7G0WXwL1Cs
zjs^|kO-hZM0mU~r;R9v~c!KlKo{6FuN6D3^nH^p=rH-pv2KG58?DSZ6ONeLBBH%o_
z0(ez)->Qx?yc<ejja$OInRixw4ctlK^WP_CPcPW)$plOaH7oCtUq+TLBkM|@EWPqQ
zRF>gOx67E3^>6ZInKsEXU&nTT55BP>4xVD14{<e>UjyoIm3@(MIMrco=$XcR)-Lbo
zcmC5C_X_ml&q1z1k;_6|;BEh#FVXvd58hVtMOT%kFdr3uOUPYj5zyyfh$DMdghxcf
z@JF-lGt%!m7>BFpP}aIdG`!|6xxiT!T<I!w0+hRo0@tkyb2ya|fD299xb7O@wa>Lh
z_j}u-Q=~v!^l*hKi>z|(&h-YIffeS+wZ#}W#Esdu6z;n$H?PHBVl7ZN_F-eT4`tm!
zd|RmRvolO^zJMcpu}px`VO>+EJglERe}q|m0JjI2S8{ziINMO6$9~Fm#|Bin_mHa1
zP)mU-k1tXU8LA(sZramGb!VupK=mLMX2u?%douJ6)XKPN5;{0;8UXwqDDF9g3yH++
zpnh$M`G)M;ZUW+D*|~^7Z(hLtUIA{L!}Z^*a6$eWCki|Z4E(=GuHrl{z>#q4W{49w
zfgeDQ|9~7Nc^q)A8=atHIN=a_ulXU21~K9=qO=A`Nz7%5>6DmuiD{xY>18Hl4;c9v
z@{S>!dTew|#&bFzjP=MEA4Rg39{?w!qz#Xb$3)2hXVI`pacscM{|K|KnJ)p?AAAu%
zfiz8cD8x%n_z^$^?qCcCSpbc)H`4%a*&qT($%H8dGG;j`e$E_pyOCo6@T`og>6Rr(
zo-I^a1b+kS6;RP|2g?L`BO3uCkC7cWvTs4R+#)G=@vU=fCBAw0_rH1DJguD;Q)c_j
z;iS1HWhq^?_>vaLdSa<hS&L?Rzx~=%mv8>us((+?zh~LM?{V9*|Ik`-AklDqx%foF
zapL!I9a%2!PB^-M4_Ehc@zI3iD01~LS*xDfE9NT~_+<62MRuvW9bI%g|M<YXd!Abe
zJ&Zi8T0FW`z5kip`^;Uv>aI(=>z=r`KP}oe-?`{a*6x06O4c5M8y?RbmGUKz`MxKP
zhIA|OZcpzb7RTL=+a2HOymd6CH~-PpA5P8muINkW`W{@le`TR<rLq+~77q7Qy?d^5
zo==uGEQFUzccv;~r*E4-`u6FErx%1DoljKmP8iBkuDVrMW75^Q(7o(>Y1)wTY+v;>
zCq2yz;bqURX;aGVnweZOR|68*DzB<G;omdQA_iY{{b)2%wHL0Yq^jChs}3Zqz}>f8
zbqEQ*-K)O#q^})%-FFzS&!o&%iQ4^3=KY9}^O~QsgAp)uae87}^O3;=!#G!yv{cT!
zmMs31!#!)gXPpbLIBN3KaCP}vk?Yp!HHUYu^1nK^Pis&M+P>Y9vJ}tNLh0M5GlTZ8
zCVc0$T#>Yg6zu?aw#6~ikTh4!4JXVy5}F+{o^dO8Hlh<j0q<<%`2>#(3!O@Q98zHb
zHraq!o5Gz#6vM+7n$5~33L$UUrqp~5Y(xd%OAhb|s?!9Zg$AxxWC2VrmtL*V#EGy!
zhxwreXjg0ra3fkJW;f0kw6eh6;J5~kIC1HM@JOv3AHy-JCa*nNP)Dzdz+GnEn`;kj
z+4(hV0k=a>QF&VB+CwjFS+Hp9dMMoH??Wy?WJK2d4=}=2Oh)1i1<7El(##y)AeThw
zPM1mk8m4e?WKQfn{!bwa==jH&-aMp|HG2+&11=dLhGlYKKtM;Eyne~c7mtN8dKs55
z6a{A^I^wC6r@icqzjf}ZzBpxv^OCxxy>5PV#SW8cZ^FJe<ptBX^O0*IxE$zA?C4B*
z4^3O2nyc3A6)Ahk-EZ9fMyjYh<t$nA)TcnCr#|VaU-dL5J&mcd?O+!d+ct~_w0jLk
zQyQ*9RsOIyQN3rma&Mw?f5Lv?*2#}e#Nyu26C+gbn%lF|c<{ZOD~)(H3<{`qS{<A?
z*qmuIq^QCN>ScT80elGjP+>G0h2LtyaiP!>x*DbqVMzye5bPQ}YCY^ecokOmJzHR#
zhza;hGT4Er+gUQ=53ySCIwOA!*?pP!><_bA<R50WfM;49h3aG%G#wpuQ_3TT`b&)_
zYCcH^UL=H`ticuq_h+%aut~zN+~k8mnaZQaOJ-VLz9`9~j>|6flbE`Q5!$cRj}6x#
z;jXG|!{H48YH;yyLQ2w#<M1;)x^eMuU=~#bH>U8G4^<Aya8SO-c!>Wc&``~Vk045`
z8HQQc5yt%Y#QbaG|1~N82jcuSdFdaC_jf7-qxv0z=wpoj*{OmESp6Rv-7~K)8@Juk
zZRi-rI2YI;@YpbPs~PXy@CLzW`mC;)InB(`3$ST|>4mm+`b_V#Fghgzk_-FS2|Uu<
zx)~-g*PABzoPT+tZBf0j|6y=ZOxAU*Q)2q8s+7^C$|}=pd<MV+gU|L(`FWw2KA&lw
PGkr;I>4p|EX&3w-y}@^j

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/openai_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/openai_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..038ca0821f678bee4cddcd38457fdbce74c82a3c
GIT binary patch
literal 3796
zcma(UTWk~A_0HHH&y4NF<V7Ba3?v2&!4YNEg=NDo4S~&W39E)m#Va}*JU78%9_G#%
zl58TP3aOz>Rj678TB%Jx+JZo;Dpe|<Ri*Z)Kh369tWmbwRUgv+xlJf^zk1G$CrN>o
zI*QLd_uO;tJ+FK2$sbZFnZRd6KPcTv5%O1@gkP+VtSthvKy;#W1}Wgk8=T1(cn<N1
z5iz5MsE<dDm?;zlACDPvQ!I$4RFF)$Ae)Io!b}#D{+eK<%!WdPkH?KhGhIk?ghp8$
z_7jb5W>cYwBNk7a3r#$sY1;CT3v?;8^5itpr5i+-X~V-vo!U0V<r1IbWF*IV;wZgR
zp;nOso;r8_-63`Gt)anphDS~Vp|h+phpKkPEmvH%WVyC#QpeH8sgsL&t%H{|chEM=
z26aoe^%dO6alPb8YPi~&fX~YeO}b1gx>P@B+s2?~7{k_>%}fnNyyU5hRYVLIJTYW}
zqh-Y3#p4;w5+$qTs)jv2?oX2^tf_PMWonhCDJuqc1#nw^vNjLMHz5#|6gZs}c)f9+
zjBz@5BUy+@L{IAx8r7pTrpKs2;~l`Q^V4yF0u{$ZJ$@rrkaQ7vB>2hjOKk8ZH?Y(O
zhC2yV4)z#J>kT)eg~U9W<O<1AlH2B`&z7lmVtCW2B45`O2Mi7V)_MVapIaa<jKO!4
zpCR9d<eK5auySOIJm5xhyccsSWy(BJh0uU|)Lg`iI@B2RBsX-9C#h=D&>Tlq9Xvr%
z=05v+ziXEJ%cb%`S7YPUJvdo;_2`kyuhM>_bg{oY<zBL_{;P&z_EXDcQ)L?h@ATVX
zfL7{vAuOt&7A&NxTWI<66l;caraPWDI3H@c1D2gMfM;`LRZQKCFNy7UJN_*8tO1RT
zcuCXNsZmclFV5;|71*SfbjK4Ibt}v&Mp2;tC1CVjm;|^$W+HP5w|);Gs2k4v2InG|
z|II`~m(E7V$!ts~vw|DmV=@z+5JJw)F_h5x%O?rB%`xHSd?(3;r-aPLx9k_65I6S;
zv5oyAmmwh-cPlgVQa+u>6rJ$vPbeFVvm!_&|Cfd{_S2WsCmLVm)uW*v>{}p(!Fldu
z4SMY5D_05IFA*1m?tc?4A+|YgS#8^-hS-c4o*s^~lEu%6v(ij#qC4c;9Nk?ZuE*V;
z5dR!&v*G&YxM{5(L9fn8kHm-d>-b0tu}~L|-1-OXy=PNC#B}-cK1gNm*1thl;nshm
z#Lb0kTjCxIcM5W5CN?8HN`%#Tl=Kj{DU_OM53$X$m#|KbxSb(o0`JdrpDu)Fa0LB!
zp4|G;H8L4FPp)yf<jC~d=P#pzx2nXbqxh9V89wPKnx!kc4J6BU6{sv_o4JZhC*6Y=
zHHYd7U|7hZSmzmf>r=d5)ACrof;)LHI^o#Xbl(tTHdAz3wDpoTuDm^Zb_9;G4W$T0
zUKwMy3CBBS+j3~$6GM5ZXHiQtsV6~Es+drE93;6@P~sFg$%~DZEX{x#m&DB+6?db$
zC;Qb0Cyo~{+LjBFxmK@v#CC`AX~LbT?(4+xa(fYjTAmobV{9+dqG+clF<LB@OCaFM
z4%9~1xmI#7dCB^&s;>(sq!-gGX4&y#hOI$8YD5!HqP^5V#}k5=%9H41k(T|JPSDCw
zKy`*Um`VN~PT45Apz|fovZ%qZI^<-A*N0(RG7LHE0^kWj!DX0)Uds1_T35=8n9ewu
z<BY3;4Zb_Tg^q(qDH|W#j>1j#C<Zm#_u6#N^VyMqkx2nzXB;9vM`}ruZ2e;*v)Yuc
zrnR*Q-`r3me5zqxBu#zyhnKf~abBplZl9N{?V0)1-x3Y;SHE-p=Jn-7_u{VQL{D}5
zj)m*ryM8;e+T3>AS$O}>`^(Kei`s|Hd#f#(YS+#mAG>#K@yfm9D_!}euKaDW+T6A<
z@ZEvM(Vt)V$%U2dz*2VLvGJ$uJ2io1x>vdmeAsp1{?*6LD@TWy;IDtUCI}seR`>P&
zLVh6s>Xl!=_RH5EUs^tVdU@Yl_l9c?Bzy3#RBhS0(vn?j$*#65)m;ZxvxlnLeZlre
zma<14XO^?4esg6hJ6zp=cs&-`vvWNrbaXz6h^=k4Ceqfi@ZO#G7Edp?9;o*A-8oY`
zM%wqTA1CR))sD>F!VkOeA6n|@t8U*_ZP~RRkEZ1siAwUb^}R&tUFkl&)P4A0Bnm2K
zcCTdmmNI=+Wn?|V@7M_j<qrK|xF*5kXAahc-yYpJ)W-j=ZU3oA?Dsqe&`XsWy;`y>
zP7v*6vBDVSYcP}H-E_48Z`x$UUci4hw{385kQ(bEA)&bSjl!1_e`{ElpecFjdz#}%
zrVqhoQ!Y}x?G-2$eTu1B70pmEZIM{A6zJow0;)o`yU--$I0m(o<isG~2LNZs5xjxm
zO#~+pd<g+w1P2uhlR3!c%!_HNIxeG{2?tFd{6DgKll`lB1YW&4vfe@(cUO~dKxQ{W
z?089LXn&4ptuQcX{0YN0Gnc~73rm)&da|lQ+fp$QPpaw_us&GvyCE+EdNFJ#82ZzT
zKu6`@clJ8cpzS0K+6lPZ^=_?54Fmc)j^T6Zpx@v0ZD#m*`yhi0KLhaW26@7Bv0ljS
z1O5M$4#(t=+d6777$KpW_SWKviKHcScks@@;wwwdduzy4lZm`%ErHksmjt2howXQ@
zAOu((F_E;k*CfPbvLm}VdhbjvfwLsZ^eztG8>ppl)<8OUFZSHqQES9m8jswDSQC-k
z?nalS%+qF=`Y!Yp&uwRZ32iLeP`~~6#K~(Hi-BhZsId?|76r?^o!ErtA-%&UG=E8B
zrfp5B6}MzKK{;1mV6y#AHD6}7Yr`Rd-+dor4*A8`FT>u^&lB})XuZh=-5_}I@NI2#
z8Md2V!j}(fJ;N5v+vQV$-E#1s9Lk(P)%-?7?&psu*cT_jb~c0xeE|Um_5lgp<X39(
z^&p{+vvaV7Dd4;fpcdgcZcQLu@*~pw5mEk5hMw{Q$3Gzm8h8M(*!xK&{g>$RkDEK@
dzWj;Qa{Ft`(#|<yT^Qmx`S$b^f}?-de*yTn$r%6u

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/phi4mini_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/phi4mini_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f794d464375348253489583ea8fdca7a175e0ea5
GIT binary patch
literal 4282
zcma)9Z)_aJ6`%cgw|BR9KA$gk66|;rJ2>ao=OjSDBtX){0n)_KI<)1$+HQ8o_BngE
z$LwBgpUzc2q^hHW0993zFID(Ns_=nImCCmklzi$JyNOh5Yos9P2m0xVO^Ilw_PyQP
zvk9Pfq@8*5X6DVCdB1t@?Vpp$IDuk`zbyW-jgXJA6BemSto;UvOT;85XORN7yv3FH
z0?#2WSVBoGh(66(QXv97(TbMjg6#7oD^`jZ;yxX*5+$Xel#+#HDOE_7+6rx@bRq4J
zMXmNyrjYSz+3F}|3t5ivgl6fM>s+8op_3<16Ek*!m~oo9E;PAa^IR_RDR#zkoF|Xd
zSE{sZP@sh)<#}kjo@ewl(~D(lp0>}@a<N9)_jCtmw3qa=RC8_H(hS|Qw4#}lye&tk
zb@!-Us#w%5+T|ajK*#lzW7Kl>Q`B+vDe85P&bdrCT$E{BM`7`^<w={BbX?*o$E#%n
zDID<Ra0=`gNBVi4Ig~*!Q7ji-&9bMaC^Lfd1a*6}vvwYcU%>TKQs7Kd;7zU|m^>9t
z!4xOOMKZ~m(gmd;nGqT>qcmy?RGy5O@&&OFGh@Ju!<T?hp>dkn2GY!Ai%PYqV5MS;
zwJ0HzX|oO1Cl|>aS4fSMT-xh=e!BSZDbV(WW0yCMQ2Se4g@OzfFHo)cCsW}j)XH>m
z=;5IftWit0Ni9b$mR(vlsp$__9jeY2-D%aGroIq5r{k47!>(@*uz}`M;OH*ZEK4ux
z`I%yQMpr{-KJG7j!2yA@)3mG(4bifG#-c-d)wPFE%8)T_7Yzy{K@T(>YHA4DJ*=T}
z+6<h?m!vbQ;u#$3`h73vhH&vBjJj1;9y9o+VX#32;<q*f)vvir#Dz8}7x_AQ4PH>4
zyWT`EN2W-fXsz`o2fZeS!6-0a6T{X1%<%oe8-uY(I5tmm;@GGEfpXl7O(M+TpiVC8
zNlvvwnI~(S4=T;eR2V(C3EVnkUYk*6jF#bQ@sf+C*ZCDjSuat|fpM?XaT$f4sp)LW
z(ZHbo5-)bf#>McAa)Kv1)S6^zP|b^JnqldVqiGHvN>$H)`O{&yR2i-mD?={GpzhFI
z_0f^X&OS<qt>T&C%Dg*mmxs?;R%sYEWb+jp@Zk*G6|iD406}0YXBds;+sfBE;N~my
ztP^&s^?oxn^Wi=8!zAZ0RQJx4RXKSvx-4(KyzRE!*O1A`!A0@5+`H2MAhz8r-`$68
zUn4@2Z4HUUl0m0;a8Z0MwFWYXr}$vj?5bO-x?Yq8-oa>D66U1f^KtPHu=ZwD%xs>8
z(x3nixa&<+fcN7U1h-}RnU>XqxmeeQI_I{KG9zz{gjDDm7sR^g^lf1B8+R8r@aZN(
z38n}L<ld1&N#i62=v|Ov#EjI%nPfO`qcx+UoEk7q8S90J3o#`qGYFFVN<9*;S&;sR
zmNB;@TwIsJRU5ZfmyVIwWrLq020!sM>@2$vg!A2=kh<O^OvUXDd3D)LqEp<YsTz)L
zv}UR<pCe3y*(sb|7J+K>ovHXvI@IHx_7>HOPH*zBJ}Z)i7-+O{yB+nInb^49g?K$a
zPWp(8xbe$OHl#M%e!_AK(M|W%wJ{b_X52-k{8DdOB-Dx{FA_7c5dB&7)hj_e%gvHG
z;YBjb84%44enFl^J$8jMV9$1rY|{KbTp0X|WSoRDa@pE5aSR7on&A<>yNa*Y4-bwy
z$?TG<t40uAX%HDyMxBaXc4)q}yp}$NF+&ZW+2iVNr<Q3syO&?ulOKF4_wq!oYs^-C
zHiX)62fJD}kArhke8=d=b!vKX-*sS&a=fTvV<d7t?xj!BJA2$jZO?esFd(*1RxN8@
zrD1SacSE#l#`0i;+QH*`(Sn%c+Cj9tZ#+1n?<AVq=hachY=(yz^W;#PC!(|UV&EF9
zB~Zrk;^5eT<x=KAYM{`vQ)N`s9iv#x@oW$jW#54cj>d!I7TtMp_c>sk&SktvkVANq
zNzYWLJf2Z6;!vF#(_ZA*bEl7-Jjr5sQfZ3W)ru!#(DNkA)=kF~EL!&3PK-Y{c8nTu
z>%O+0L{Vu^fH=Sqx(t00!*mfgsg^2^7aN^3Xa%#JT!MAusEXB2oD!|*E*zxnMIj?H
zrm5q#hX)TbEeu8qYN54^LA`dS&uU+p$IyFw0z_X2mGGezRBQ*1WSW-R2y;#?_bmb8
z>r?lE2<PVjf%9ZtA+fgCm5a*KmVs;Cx8(zOG6Rdz)lBwM?#<lgr?0;J`~80y`Q6B^
z%oB^zkJ>s{mCWlWFP>c5w*R*B&}zr<O3$uq?7c(l0-sGa2%k(f<iS{K<-lW0N>77N
zBr_|$yRQED?TNQ0-raX=_an=_kGv-=_a1yh`J{i(+b7;Sajkx<|Iku;=W4q1lJcgq
zl6~@quypK&TZexHBHJ^c?InW;*Lu@~sn2!*wUphx-b32At#<9X)it=Xt#7p_x6+fp
zc5b=nz$d#Ne0%V%!8^T!OZlgkd!K3u1V+yOrTg(aJNLhPXnE)1m0W&3CiQJ!kH&U%
z{xh0v&osJ0Xrq@TyBY-cSbvb<iFRI_`BOh^-;r883K22ewRqy*`UuHx{cFd-a>u}3
zA|^8}eSff;?YhkU>i8Fu0O}H`{?!m*!oTk-Ao1S%UXtE+mk6=ceV29DzbpX;zI0B2
zIo|K*N4Jvq2aY6;WyuHoMd*BR;D|EXA>QEIp>reKF`5=`4D^mBgqslwI5!g#aBik$
zq_=jB?iX(E<DmAEnEw>*ssnlC9OUn<Ob2^$@Gh<%jQELCFcA|QNQ(fjt=TPBTXRXs
zFz%1Ne$2<ve2GAo#*O`!<mBLC90w+Yz(m+HSUrmso|b(dD||5y3Jc*KV7vS4fYpMm
ztXQ6^J@kL0d}C1=H-ZEo@ZQLhbe3Tp%(Y?8=x2VK7uPg!T~&)}nx|;mD^=ZUjzl%h
zv<*#Tn4S2U7dwa)it~L78$}B5z!M;oV|XAohTUW{H#8{xVre;!VMun+^B(q3$}mmv
zD~#F>{%_v9KtAImlH5oqq`{?KBMk!Wd*<iZG`1g<QY+oP4FTIhKsdB_V!PKQXd5*y
zE@kg@ZEr}>0&IbbA|;b8TN^Q?;-qKy)$uE*8VT$vq`Uv>(JN0hlGsa;?Ypk_UFm7G
zVJ}TG1C4g1G9=!4SzL~Ff6)P5|K5Csb6eQ~P#5xQ+p?(t%je|vGe&R^5%AGqD~6cx
zBu1y`9NUky0{@O>2mcqr+50!@J%E{Tep4o#H}Dsz>J}}>_r0F_wHZOKoUbt3wLyWv
z7XH1Xv-h2~@4LN`Z(F)4p+>y{Uhq#FIMX1_W(w+?@Ye@1hGF{0p2KP{R=)90A%$oP
zper8=Q1m3503KS}L3A_(j^oy3!YLn;{trp#$0YM1+52}g@&zB^_|FMeDITf_;rc&{
aW#9P8t=Nw9k@d&~$7L@UJ}21v+x!=@u5e}m

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/pythonic_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/pythonic_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..56fcc6dcb7757be0b1dda05bf7090c8d4c23a71e
GIT binary patch
literal 13216
zcmc&*eNbE3b-z#2)Atwp0Aaug5ZD3(Yh$l%u)V?H-L==o?&3{$Sv!iX_b|djkoz9C
zA!6!ow~3u~$GA;n+-AnO&CIg1+mvK76Q|Req)FN)(`hRiT;x~M@lMlD^G9d23vG6H
zI!({HPfrq9ZrndQy@T$%_uO;8&pr2d&%OM$!(k=h5{9?p_c{srCyZ#$mJh5AaD?0<
z0ui_b8B)L85C?HxLN}%#(sM}DCk$i!5YNI~!Z>6Cnjv8xvkY1CH0zjc$i~8a!an90
za*R2LoMWyb*O+_AJytPPG3FWajCqH=jK`SpjroWCENn_tj#Uj+aYRSNDlzabv<KZ#
zwT`?%1oN9ju!vjU)#s@-jA{j{P4pM2wSrwFqunY`sV_K0e%K&5-!u$u6<ok`s5Dg#
z1CJMY+`tnQD#QkeH;N5n!?3Oz7zA$GL<ppNAiYWOLb^}%3VtypR5D(7p2I3s0Y~!`
z7Y_U!3myn_ig{4{{G^zSi4fNJCa2(2b&86oX*8Y`h125~#AJM0q=%!D7&a;XzLBWh
zH$FCz5asxI@@32`$x21Pn2@8-PbOnX?TaQ7ik*>8h>{dNFDeceJ3T(0V2QOyF3U6;
zld%GobTm0UPRF8{U9oQ{$gHtI%d8ka6{V6$A!dsw<8mZ1e*U~jW9mSuetv$)njPY|
zh)7UchIG(xo#KtWk`ymbh*){ABp;!4oDPKbia8QVM#scRM6pI9W8=bP0>k!5<nxo!
zgqrdWS;O)_`CO+wHqki|pJ<n(^t>pyU!L5%f8T|@VrL?Lu5)5a9vM$|UQ8s$I>n?+
zrzXbZNm=R~pAeJLc&7|Kh)l39NO|6PEK)-4n3$q&sD^o4At3SKy-BhLGxclq4c)B(
zD!R2#!2423hXrm(4<c(AWs8jQ6g)u(bR3^e?p>WqfCZ!%&BMB@WSA2SZ`y|}qE+BU
z+ptbBzG-+jpKHi2+DEr+DgvT{Nwf*PU<RSIlyVDJ(Fx1K1tqzMje;G-u>yqIDLCQh
zf}dOTh&CqF6@`$e5K?n`1v3+Px8Q~RzN_RiH{>5AVV~kT#RfkfE6U0A-&lj-kPwW4
zU<TE(4}!P_VVcE+6qG@xgA)|yJSGNlCK#g>j3<N9pgNuLSWuFu65<Y4m^2w12}Y&h
z@kDei8tm%W6^tf@d~A2V)DA0SeMJ(5;H42U8EkKd`9GHs+oO~6cso|p9vc~tLzV6M
z7__cE-?~DrQ7Q(p)siT)@}|Fd=JoBbN86`++lS7!ow?L{X8VTd!H(7)XQb9}>t^a1
zDg4}-aGA8HFQ64mz{1<koK-BcrW#^-iD6QJN)Uf*A@F{WyG3M1M(>&~MSdG(ImNx3
zU!WYBBJXemuqt_JazdoI2-%vBz=AYLVq%!0C@7XlB$kLuQY0c_*}>oyS_xlT2i|ne
z<8$7j74s}GNVu3jx<XdXj%%ijIWSlKz}&=El47KyJV}!=O<w>b!7%FpO7$(0BBMy%
z<OT_?0n$61;)+dD3d>ww!EqtXQMP8Wm>_GV;@QZO6vWHZ&1D+>I2-O3k`ufu<dMs}
z;%dscn$lY1`HRuSq&To)^l>Iw<2?|7#&anWfspE^)JD@rh=z5nnY0<g66Ol3jioqk
zPuV)$rzF%Y(7O82Rl@^wtvalBwyq-Mlk&u*teB{}NyM;WnzKNFHT3IHIqdD+jNbBu
zu^uhWm(QQ#WP?`Js8I_QzwhZZH74jMq3o1ia>|;Tgxb!-(7b2V_U1uiA+lG?J?hg!
z#cxq$XAE+cMo$?=16sKF6--QhnFYO8{tPdpv@n<AWt<!4Mr*ZD@vF6)z9iRcR8XNL
z#g7KHc=6j$G)1f}DcV`mPwSI%-7v;<=SfU=)<MXOQEt*oOc}LuZtAYP48SpC6!fJd
zC8NYJC)hOJH@GGun>Bif&<>8sg)L_k>e%cAgO+y#r)x7GY$QC4Jqjo|j=V;$|H~zE
zS^pZj#Km+RYu_aTwYR7ogh1^r8_Eo8DaEf~FRA^BQW4X=Mh1yiTi7xEq7^q1bb0gw
z8^?zIVwjGP1*5^33Xeo}BM4Ganix+?Vn-qS^MGAUa(qmL6*4fr_hs?CcsZDl2ghSf
z59BuuKt!>Tc=CL4TY~*dmPMNEnC^P2jFW(sU?+o>*d1(^K(E?y>yaY37m9*n#Tbi7
ziYYdplo7Jvcr(?oK{Fx@>4M+dDezu`*+A`h7PQ?ACl@p*tjzpu5i(j>qmUu*w7L8$
zcZ=i5^`HT^fIrq>;#7UASFCX<o|NP$08&LC1!!qN!1#_%(RDndaAK*hQY;6~i-_gu
zq3L~P^r@&~OjR>uccqR4iE#)>hdK&5KMU=WaHah#?h!en+wFX~^T0yySFCe8zZSbQ
za(iUOz3rPdAFp9w-UzjDr$5<o8X<zJ-GXD2k{mn-dvq`nhtT+Na5#^GRS+?~gCR`B
z68ZLQoJ}S(1rZ7R71!yLCyz(^dXFEEynN(^Bd;nvlL5sbCND}#^QVs=KM`Rpr+Qx=
zJfiYMP9HsS<m4--BZEi!P7d@BD)!T=bg{Y>qY9A~)1@d)LiGwSi03BHQ(U5SCwL0a
zV25G?FbmQ}6~no4VTwM3NrvOlFPI8|^acR=5&-BCKs$hrVWQ5%2L*^>RmF1Ta!j0H
z5Z)qc!LUi)X|`cy+p$DnTq@29Kw&1%ic!Vfijg%%pnHH-f@2NA1qUv_mp(qJWp}H`
z*$!iQp949CS+<j4bJ|>+)7dP}M{eJWJCt#UR@|)_cWc%cd@r=pdOFj3I;STUZEHkV
z;mH|Epf+dHSJVQ{(eOclxI?Sn&TL)d0=;)&U9a;wL2?|<oVm*4T=fTTy>|1pxzv(>
z$JOUo{k3zSzVrI+*B2^oe|F(Bi^7t>2dJ*<xt6aty}kYJ_GMSwxAh;O++}y}{Z7rd
zYS#1+UMISp&UL7EcebG!s&Cx>cFiBwtnvC_<@*gg=6culq<Y6f?}I=`wqeHyNY0r_
zUBkM=6!7GTslv1FAyv?s!%$ikP@oeZt?wc3+7F2VnrQdj7`Qf&t~tGIe+47QuN}|2
zk9<G%AA0Ns4=n%rVG9)c(YlYgt3M<>%d=vy&Dd+xbuTU3kN<3A_djIaHv!)#(g7Ih
zH{1If$e-(a_xA_M4|+WPHP#<G%n<%zr49Xt-TeXmkE%HIYj~jiD7fQ@OaB*64t&Ki
zLB)&l@ktO9m`BB407e+I0%Vt?YKo`Gh+s4l7bK;kz+E7@@>w)Otgu%>OHsrSVXS=u
zD;zYMZnU7wfSPwg0kTSV8M&ED=>cctxfzDw3n>Nqj5%e#!cCEs`3&gA8Ow}S#u}L$
zEp11hma=Fi&e&wl0zy)@az`~m&ya>eAO)mhmkWDn$}Sg>(I{fzO-|Fqw6=(S1Rjuv
zy&M919BD|lA`%h`xZw@%N%?O$N-&2*#-=lua%eqPF~^K^#&Mp^xJodSQ{(6-v)ozO
z>)BYkXDU)|z~^O9)CCx8%3ZI*^auiI=8A|4as~6ml8;tP%6$P86|E`HHQH2?B_9+_
zT3(K%+$HrCS`J56P`B8w%ba8YtCA&Uy~xdYQXcA00j*pwAP-=tn6B7^lt<!IR<LYY
zw~!<!m}a~{aR9~2B*Dho&8NJAeHvN@sov4%GOcw8PHpyQyfSKL=F0as<;Jp8IM&{G
z^E>*CFXg+!UH_|;tK4X$d?lmd8%3qR$wA(KPL)j=ZQaBQQQ-d1C$;Ue?lQB1J$-3x
zO!YAxs;OD-de}fxE?NoY?|8gs$tt+wB+i}3gA^V)nFIb(E#P|3t@U@1q^uIkO^3!?
z{0jOD{UB8(IR#Ux{+NQ9W{B3o5G`)L%mJcp2SmF|i;v>YxXB3>S_?LC?%l)&QNdH>
zd=0Qy0pEHD6z+96y|x3>{~G|LU;`!;L1rn?qj-#;KKxV=FCxiQjE(^`DFgPdVZo(f
zuctiNqd0JMA9xD+IV$*RUHI(J|Ld2({H4N$6>di1wkcerVgc*l<QM>E3C0bjXSz)V
zdtmfaQC?7mN?<$6H>!x^JEji~UWiXjAY*J~GI;?FN>My5OePqPL|j#pF^_1#J{lC!
zW*M$ktbmiLEM1DrBNVq1#S<BeUJxT-7>Emz31$jo_>T5MDn$fD`_Mz#q9BZf9zpMU
z^l*ouFMy|5#3b~JM&XnZ!ni&mCY4IH3!)H#PD>H6o-quk7^4$l*A(!SKaq$6X!l0&
z{4*)5z%atLUd60|Vv2ZMVf%Io28>clQLEAy(L=ieJ&N9^zzh3T{5XJwljxm7@7K_K
z8NEUDP{$}fwc~(JBT+$srZV_oRjF#YNT)AhzT@cOf@1Th*w|@^wOLa5IGSn{b5gv-
z4oFIc7Ghll3%IDbaPUXOgb<M?hlk^r5n2O0k<d`fVC!a2g|W4d<I|$xPIvw<B^^y{
z(p#{#0JH_XR=eVA$+%kPC4iQz-ueaWvbQU3@5&jDahAYp)1Jk|Qd3{r9?XI<$<>yv
zs>wF*&)6HU9-FiNERS8Mm;9|y#ID}Dx#6$J-X6I-vh3~rwglL<rv$t9Aa>n{*mV>B
z%vs5n;GLS^M-;oo`F?e17Ex?PXukJ>yCqv4%JIZel_QV_oHcb<Us`S2u`smKwC|>C
zmY=<x^#<m4uhi_y)a<(N-Iev#K5FfpH7vWgt$HhG<&~;knW|k&-mb;T``!atUtq=8
znelb5_@2%9o?WENzHR`~{w-hYo45YK$%Sa97E|y0jxO%LH=XV}icr7t10(S@v#f3R
zeQgV$&-k8s;A?w-|FQYjg~5e$cRSOkUY>P5tlGXXbWiurXYWb(+Ydi#*>g{yY3Z3g
z3FSBKT4~&$Y21IW>7KOI*f;B14YU=SvdBYA?wP;e{NsAS<kg;89uT{)I^zvxef2B8
zmW;1uesbB@{wPp)$9dbC3GB+&HryGwJ+M-{JA;3pdK9Q#33O!wU5iJS0^Rq-?<K#R
zTsidV4EzN?{UFetdya(me{h^5?wa}CD^1<^o4T_*_TKZP+YY2#53;d(-?e46s%ha1
z%T+yTch5tA{e1sQXkR9@@7~V)p#yl{2rV35uIfy?J0DfmeEi`U2h;J<dJ@WHr+@$)
z7PM2qv1R*9g|ov+I0QMIID&zkjkg3okx<dxaU3;}KR&Dn{|C=_UVP5*LtURAB7YgE
zL;u-I@c+uu>xIvc8*0&ijtBoIhOVRC`k(CQzz<haw9rsAno+dTDW*t77>~i-jE;(E
zvKX6)Cq%{AfATb(ndyGyLmbYG!-^Tq`e0a=rxZP0!l?Sp2)1<4ZHgXL8bye#9)wR|
zNRJ-sQcA&79C^cYOiUyq5zz9uc}Tb;d`h)Iqy3Mf*N6$Qf0K{iBp>K_-khr?RSmP}
zZjIg?&FP5cWnI>6y<xd#0qL(YUOAbwa(pP=xc}b?d_fY7&YTWH^L-y8VNI_QK&*^`
z6@F`m---;)3;G-|G%p&EuNnF389irwhIeLb>vMYiwm!$ck1Wk=Jj8PX_Zf~4JgVA~
z<1qk*LeRv5X5tUzEG%dxb<OjGw@>73ENUmU(4N}|a}E}Dk}Zw%O}FcEE*5nY&$e6z
z3wnsPa?X&k)c(SYarKr82Sw3??xjHpZ7?L^_~JmX89-;j4FQfPb1Cw4#v^J6h*db;
zXt@cP>z+^+*0{-O0GK9=$1H(^;}0o!)GB-YDIB$g!g22nu4sNOUlLGJmNz-AHT~oU
zcS9G`#{mqU1*0)L=x{T-6j!dlGHx@>r3x+hUETFMFx={AbTix&$D;scwfux=Euc-%
zLY%x!4qB!wIl$@4)m<<e>!9Z1=;$@b`G#t=Wo^5p!Cl=Y5;hEM5D;9y2m=4_ERA8k
z3WAvR%iIU{Sui=ua4WJKs#UlPkHgPx5ipM7#VuSCgZ4m>H7S<CnD?Oo36G@ApqTdb
ze%HLX^DEtR(XV^ouDx5k;_djZ`C|q!r#t)OF}a8cg9SLLS`|m47e%ltLS@lJ@Parc
zO^2A}5lxw!dBFmi=aj;ZV%O-eLqnJ)S218^4DTrhEKD`o>8Ilpijnn2QhepQsNzI~
zh%ja;Eba<;3U@Jo6_>v^`YlXB?{DEJ{T+C4<7TRuZTgCID|IuqYzk#vo*PrwrqbrX
zs>M6o_ciaG!0o`YrE%5e$#{D2>Az?GQ}dFiciGju>S<25d}hh>YTEuP>`B$NbA5MS
zy#3;Q?CsIJqsxJv>%87=eLt}CreT(w-H9eS=ZzPxy|C;LFEoJBEo0x24eb07nE*~$
ztm|fC^_5hZ-MRZafo}ztT;1OcEc7nBL-W7(z`boTka2aV&D}q9Hl!P0Tyh>wn~#3H
z=7K^#{?JO?JrdrP|G*aP+iUz`m8b8ZK{4P&Y>-<ts4~TN3RK!g#Wo76ZnOKJ@36E5
z33e8|En}`|hXOkbDOYB>tNs}-PC$h`L9v|$kUyg@F4vU4thFewq*FRbFQdTlG=06r
zK#FQX&=u`Na4S%-_mq1skkY{|lR@k8dwd~e)IxB*ZyK1cJep)^zGTth(+qkZYR6j@
zyO@+FsThe$v3MLV4Gb(5&m3^aY>=k_3LtCPnYV4@u|&0i8wRi(JOnAaxS*I}iCh||
zg2ZH6T|s(SpA@BlqFqigj7soUg%>8rCZw=|ehFy~?VQ8jlBkCrlU9@gIPf^2A_qKb
zvGdkHLO{ZG3Jb>OpA~M!Z^l7a1nvfwZLO;)jonMmp0v3KpyaKiH;>*re)IU16Ir+C
z%F(R1>ej)p9K32;ZP>GT{ySse99wGWziOG?cB}1X+kNv^SQ@^DpV_=wN7ZUYUAAKD
zd!avReW!KtwI9E-+&T!5&0}5XdAl)3c;2Yq-5T(mv_Ys*88e~23>~;dz%*BS-9t3p
z-cQax%<oq^yl@q`i-6i--@?3`T&l1mz!gv}@amZ1sv*TuALPIqH@SE7aWJC5*<9kT
z?=6~9i<gP8DD(pV)MXj-Wt}Z4t6<1uWtpG4EK9zu-z+K1s*MdR%XSgl{kzb|))Xh$
znNdy8%5MbmcU<TPc>r7kVJDgjF<o%6bnf~${^wDFQT!g1Yu3sYpe`_f{^Th}{~y5o
zMMet>ra0`{h|gd;3j8J~6pUU{#S=IRMk$I0aE|sD+Gk<?I*@{gdyu!>1#!U)zJ<&f
z;G(^NCW_4{8og%tCvX&uT{FfMpE6#6Hyw|)#rP}RQZQ~qTTCfa*|ro$0}TG<If`wu
zq|7Nxp)KV{x4=z#93{aHb>kSe6~<7N9Yky8W~Z>iB+nB#cuhJbm>t0j7ZZ5UVy^hy
z0ao>X+#X<Esr4Db*sMbn>WuZe6R7IwA(hWltAVP{FH)Ha8+b!N^|6sgsxQym2~<B)
zVP)(Ax<60vL8(kx(TJV04g;DDR}LIPMWS%q=_~B}1%*4yg40`0#3gn|3NNiBc&!I7
zrq03R!V97-(IMcabKp%^mT&=z1FPMLD2Wn%9XW0zM^y<2Tp}f=STUk>2)Ax}7QHjz
z{T$4Izf>)xuR>Je&M4eLh3i(h9rQCA6JrlsXcP$ovgs$rC)EALNa5fKu*(c~GiJO~
zcsdNWCWViUPbOu>47Xn*JaH7lHu_b}>d1EoOhnKvI)*euY$Qq*54@s`C%}Xl5dht(
z_AWD6?;?os6f1@_Y**l95H^3c=0lF*NjTgxD%-Ur#lMNF7C|pSy%NeAZen?-?q#0?
zB1P}t;3s_%#_I~n`YNxSSgi`q`@Z_?*KAk$t8&)nntd)~Ys}iKSM0%z9g-f{Te6Od
z*}*Tr{?HqoKd}<plL_rv3hlkuwG=wES{Y8aKEG7?LfZYpui!eoRN0qy_x%d4zNO0k
zw7Va<hVDD+AG&Ji>lSFHVb`K?zo8oqOgn#P|GaNrT!`L{->qNlzu&O$kuUJb*RbMi
z&iI-i__jT)*gAi3(UWP~eb1U{It-V`kKA?Y{qg+i2kzEfCkbrJ?IL#fjh<^gZymhS
zpEcROH1iuXvxCc~>bcW*&fY$|(6wCG2}f|Z@1e;zS2s^H)vXJ$`_((Mb+FlY&G)~3
z?C!Az>5opP>vpHjTe9Bf6>nR{+qTfR<bCF<IqToH;&0FR+ZSR>{#{qCS(|ru`o66J
zz`*A6>YLJ`J@W#>=0)!xji>9Mg<J1zeb-9;{!BfXsg~*wAtAVXCD@$_cEhL#pG%wT
zvbOqk)4uz*eNbd+^Rq6%?Xxdmow{mx-|UBJoNLV3>*l@p?V+sOcgu0pF&A5QH<pIs
z+1jHD@0DY#?!a8#-@CV6HJ}u9eYq!VubgXw+}DofC+&Ytc<c3ImYkndY|jN?*k@Za
zw%WPTv~7FZuw8{TKJAt`F%^+u-AB-ZO_M0IxRmGwcrm~>1&6yKLp+BVjE7yckW>tm
z1K+Sy>1iYEMP(375%Wm8V+0TZT-z40LNV1w*p5e}eMQ(0Ex@D2CMR$yoeY{-bx&xe
zQ%f&?Q-<R6xcBthl^$GO8A{qyz;yz)hfnb|P;3wE+NCw~0NwM)1Ay*%yf+BD7U*r`
z07KmL%TPa{<Qwpz*U@7`&%ijxa59`OSz?iHR&yeHr+<jvIrMOHR8A9y-U2Udq~E~s
z#wk@C1#>-4xMBt$)a3B6gq9;!f2rzg7&D{S1-+2&K>!TtU@opxm%VCAzH;KBsWR&V
z<9c(()jU7G?1IJgY})l~HUOv9gYS74B1_?e>Fo#8fkRgv4{i0UuG*}t>c$tYeIZ*>
zll4@s`dhM4q`xKOZ&~rTW&CZ~E!*HITj^Z4nDMA;wph`8U-z}abi<ydx@XgM`_iuc
zS6=+UO6<OM6R|+`-nl)?Z3n)8dAaQrz<0=?H}XcXmpeT<8-$p^hg;N3pWlIw!28s3
zc<05Q<x3sWb1`P&RE%&Gf?b26)WhzB56~#yBEaJ?8cj<06d!gVW=B;l_>#Q?UmwvP
zWC`Zug_rFe>dW>HFty6#P@QU1WwXO9scgnje%ZN+ouHKcPb!36z`$k%uhy`=uv5an
z38+^^DwU$dD>jy2eb+=$##JjZyE=Liqj-{IhFN&E1TVzYW85wzvV#{Q3x$^_;r|%e
z#zik<5)%Y`{;8TU(MqP652z254$(h@D2loCK6p7j$8l?B!rA_T*nUbvKP8p_L_9ww
z&-^n9{6c5ubiW|reSqG-dvxF#2^V_b;+uVS$+Go|aoxyqmbvgcfzP@*uHyo8Th<AF
zbFcCa?ie@6-k#+Mh8Mcl*f$rnb4D!zf(!fB2z+u|`#3H<H<%;%oquJaYf-<j?`~vK
v&NTO|F=Fnxu9`Dux76kI_zi>61i#$})$gf6_I<>AW>07M>UACx*%16U7sBMc

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/qwen3coder_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/qwen3coder_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..df12d0757efcf4c055e8834deb6501e2d1c8d8e4
GIT binary patch
literal 23599
zcmdsfYj9iFdEmv9c#!}B5HA8GUL*mK1Ye>^$`WOX6lFa~$&zBnOkx@$APF=GG8dpM
z(U-B?^|Vy$PM9=ZQ^|Hs&w6XBR%@nBcbVDjM(L)lclQr2K?gTC><lyYkIhVf(3Y}w
z(%ISlzH@Q!C1p@@(spKNG32@D@tyCyzSsHAx%YomR~sn!Wz@f$u6~uG{tgr3Pg9QE
z|5J#(K_#iAB14S}PsO-`q?O}Jcq%ihY4x~Tfn}<UW?DP0C2>WjYFr0->WqHcFm9MO
zjvJ><<EH8A@#^WC@tSG#xOv(#ZketfuO;xBjCI;JZX<DR#y(v)UPt0p8OOA9+^L|H
zRH`oJdRHOzY}~D+PEtwTYgAI7vc0P+=X!1`qK2PgVl1lQbr(}#o=asXQxI1j%ifIY
z_`0EMiTu#a^lT=TPtRm8AV4n9yY^;ZnwiPu&L`-^G+#TM%H$IxbJ<CRA4+60yoqFu
zrgFK&)f8V%Qdol&dQaTQ(}~G^Dk)~2%3hhFrxRG6H|;^B6G5PV28=_KxfBg4V>+A8
zPh@7UUL{ErbpF!Ji>YjSK1ELoV->>Ma^k)cCg!(csZta!4=jx$rMjYAq^>BE%GXTe
z>ZB^AxuQ&}UsI23lbYA4@v5XYrAbz$bSb?XkR)~URS>FDhAY~n9-xd#1C$%#-;^>C
zSXIh&#gMFqvg%|_#kw^D7QkQzD09*RP%3CagDqT9Cu<?sLUOICS}3ssqz&?HNjpH+
z!M_9kohf^&j`YbT#oSU%sOc!TWJ!9UzH^bfp%`~vq@wk_{ppud*`A@9WQvxjl-K8_
z=~I@c3?FLvN7}jnHiUnmc!SDgF8SS3GSu$@A214$=71g*3^gIuze+)>OnESMm_mHy
zN6JJl0xp3vtyq>+K?){Y_$Ael(n%=|r1Vls3n{{-n3Jr6lu;_fzL=zx4pP-(ilL@_
zVqAW{TaGHIe505<<rib}GpWxvh^eWd7?YpxmS+H3w2HZp!D#r*7;T>sqwzCiw0}m7
zrq7JAPQ(cF+$P55XU>@K5L3x&k$Qd;)@!O$%$J{2J#t)(0i?9DVje|_m|)&LV(zbm
zvqr2XKX>7*7jpsU0WmH=f5Qa%2j#RFd)1g95aY=j5#Mhr@`uFSsUu=cekRR;ZBR~&
zv8gA;nEVv!O+nqHqL#6ddE?<c2+N5{5XOV^ro$b(Qij7<%A)!RfOUw8K}gJ^JWu6Q
z^bxEhr3Psv=XvigoRN6!Xmk(S_@hdhhYQ2=F}WLMWKvI<Jw?&*{PA5qBfycPhj#am
zi5xw$3nWU?^2nl0I6D8iOV?8VX^?ptza;4V({s7J|8mMdo5<x-Nht8=0ZJB%{>hna
zE>F)*=4WVsa*j@CugY1Vt>W_+i7fShe)KG<2AEJk0nl6~>CevO{h67`L_P(mXEJ_V
z4u3A6pz|H6EH(%FD(6pUNvl$?0`t-9XU~rMFV0O)f(E@Zm&x4pr>AFU=)8cY+(uK*
zABYBcO>S;BMf19e38E1vc*o=%O{cQ?39{%}SkZ|bBzfyBow_b$Vn-$tG|ij$z^0SD
z1BRP|DoH55nwtQ<Olt6T5(Q0=0YENvp0~-_Frsp%Mb3mKucUAAR&i}7c0oz>HBpAL
z$vHBZJ)PUtXVP{m$(ybu(i!L^%rlJ4F+rztsXX)y`wokQeaxqLC7t4{Cc%^eSYA7P
z?$WWdXL*<0J1hb#Ck557rf%?NxkSj=1u6|dC~?c6a;M8!2$2a>fyM}LcqWmVOP!$U
z8JgEz2XeT~tFETNqLOj!n$ihe1i3_-2+TKKfYGL>%eb_H@x!arU_SBsiHXS!knzL>
zk^))viKvQK=Tey~G%6t)rDzV7vETpdFE4lGr)N86)3fbBj?kO-8*_aF{V(>VIx^|Y
z9kVy{*JiRE*E5-Epwv8lb9N@3&F4C1W>eWjT976J73Mm=jK;(y8WX}g3HkBan=~qc
zd0!=CBQ6pvYT4ZDV3>XKDz&AnzE#EQT+8lFU1+<lYf%kPF5ZdH#_iS)e0sUA9+JPK
zrCR$j7UUua@#*K9NDUv?asbnfTvInbeNuUhU<h!5Am+OPgTA_?3$eP;rmpFMmWsB%
zXSieFOs#h>y!YIl=kBYNQ3FC^nLqgE{Ox(pbmV*V_iujpCY1R}nRi#cf$w#Hf8e_V
zd+Np7-t*k?aHglXOf_FUb?el9jVeYeHt!fHi@jtHZJ0w_R_~5dQQLE0rLxuRP^#)0
zD2%paZ{Dl9Q?r&Y^*zn@Jzb1kAl>1bWA9A8HT6#Rt?b&RQtv3+J6dcW!=li((Ofb{
zSYxDM>|7fz9XQ7xI9E9E?3T3w8)%gqcwnIP=C2xW897tmy8ZhN-)$%joM#8l|6HZi
z8}7rRP`s8-<>%<^WO+M*d9pEh8WOPSQRJo4Daq&~kR%YzsVT|mlgpCIq{>5mi~2()
z*re+D#*?XRibhG9@Xuw_u;<t%GEWW1c@2?SV?T2N3Z(0~IbaA4h6i}nwbYF}3c44H
za@Zk1janGQ!qqa;T@oanoNuj6k`;lUMVuiBUZu8c9pA{mG5@vs-)BnB7S`Fas#>)c
zoNWb1d%+wp=;CxA!0nkYoD<}@`#*vJ=L-xIhzUPp@=EhZQqmj}0~l+PA4y4bNK&%l
zjK;BSIAaU4;fzMLY&c^|Hk`4ZY&c_?Y&c^|GOyBTwo8UHX<agtZmOc1dCvuuzJ5Wu
zl_fB$xqK>4EQgUXo{E}z>t0=xO{Q+pei$Ebyp~F!_&_a1<NES-BB&&GQJ~2fh|DEI
zj<<=RLf&<hwY*VC2--oH&Q6dt?inXUjJzc=IXO2ymw|4A;!54f^QNiXOjb~Dpkj<9
zHJO<K%Ye7;1}4aIe66f*Xkn8~ABE2EqCh$b>HWy9qRRRLBDe_wkXtZ>Jl)8JqxcMP
z^?rQ1xJHui<(f!-kP9{oaG@rA`nh_q0O#^8s$Z{`s`-i7^Ksq)7Q4m#?O<4_9)Ri}
z=o$zS^Lm^nVS+WNjB;a>5;a2akopK+{}-U&Hz-E=sxnPogy%5zrT<J(3o2PIFsh_N
zG*9W^o_wX0@7SGRNs=U0B5Y3adN-r0EKy#J;Pk(K9Lgn5f}WOtQxcbmIk<H#*ZJaO
zd!UwjpiWbh;7ow=R&Gb)IJun#bzb5wMxB><OT<YVlNv^SouaE4b&~i3gccrCOU<YS
zII%}+DlhTol<4`8yFn$juvst9je^28i&o9Y%MKYoSORm?z=UYyUP)h_19=Qat{;p*
zf5I;^PMlZgZ_cK8otVL^33D0<Tj1^?#~Ws8Fcs*0I+dGmy@aN3OH;1JpUx4JI0-gk
z7R+tQ@CEwvXVSTRJgVobt|fAbe4eH+LAU9P7<>+cXCUAW>0BBN@&q`ncy%&8nWwuj
zyXvI`odvTmsv$anK93ci#uBYC5?(9tYz_(6k3T^})PaV`qoqrRoda_c$2}k0PeFVd
zHVX)IKY-v>YDY(zY8Q`iwz|brKXKGAj%?XH%Li8uZrWm77U!~d#jt5<{Z7@o_WS1V
zn%{S9cAnq1xHxm&S6{yM^72&C99ezly@@*$rS@ZN`>}h^72C(QoDIv@-+blvD{H1r
z=Mk>n_w`epyYbD&+l?i659{t((r(#&%U9k`ZrWPcO!u^G=LlCHSZQPHJ2vbcTXl^q
z+Pmt_x^~F?`sg-R-|<mS?}G+Z{x!F13eMqs=}p~v&Rn~w7Z|@RIR!B)EU6#{Ok@Vj
zGc+lw9~e2R8zKx`kPE^<F(oNAC@KF$Qy@tgj#k`MGD=2uT|qZ6sx<W?XinOhmzZ{H
zH~umPP&`UTE&4GP(9T6FFR3~PO3@*fmzYl^bGjG&N99sru=p;PD(5EESX11WPf4n-
z+%T4vqmLTdf+nj>Y8Et%CaHyXl-NH;Gi8>sh_Pgq*j8?M9|)ZU(X$VPUV;ej17VOL
zYWIOKiV(C(Pvs?XA^Y?89f9Pt$?b<*@^jEJ!0i;rF5_O%GTL2jYQ?_HgHe(+6N*qW
zT3BPbUlI)VD_IM(-1TT`TTn2Hq!p;l^%&Z+F$zLmWg`ozD``j7Kw7H1PUZHSWrx`B
zeP_ZcLeMUl2_!Z0o02?KV$N<)D)#&$1@MpbL++YQ0w1FCvcFOC>RnNWDcT1<%}4W>
z>C<yCseBG*;3evY>N)Bq#XkwV<uhPM+mHOFykbm#=B4q-W4xk*k<~wTWUhzXevW$m
zPb-cpD7GiJM%wT`whi~E+rSkRTZww+`-f(-*Fh<wk4SK{`H7hIUrwO&2^4KQpYx+`
z6*XgS@>*&-0SY$@KA^Grne*seO75!v7_BNp=7<tUOO9ybHh(frrzZ2@SQ2)5=-5Kn
z7nrmdCH;yM?aOP0yr`B=!sPHONP-1`_Hxzr1U-2z0ZAcDW#^`O6*vlDcSgd@O!g}H
zr>=qLir39$bLp#~_UFG)9)>V@GK85ca##153JI8$Y#zKbG?|lK{f9iVVI)1DDR(^1
ztFRB6E18)@UhrCe{#R+uPbz-4reG6Vbs0L8N@RI8MtJSzbT&cXj4EM%XxN2lt|T(K
z)co|X)Ppigf8+(k@q!<0uNMfO7ov~p7lDe?c~~Xrn|9{%6s$0>0XJXbCa;1AJ&p^g
zMoVk{`e*6XWFm_$OyVFVl=o6Pf6b5kqBu-&QgB_$Yw}VW+?(Jm^3MP%(SGnGUz-6S
z@T$%t;R1Qb=NEppcEKP+mI0!_o=*7B6StKAg#?(2nKW3MiOfU_$S4wh;W2X~&~Q9z
z<u#d^mr^vb8)@8a(a&LkGef6vdNc?+%NvMGE{6lAr?9XU3-y<PJBcTcp2f5p=K@i}
zWbo$G7tf6ir_dE9IQvx4Pu{e<qrCCr&1^n#gOo?B1Zx#N0`v<QBrrhZ6%1&U5fjAF
zt|de%Y+)w|)8x?XA!e*-$lB2`!<pI*HXp5Q$5sISEkKyt2K@kLtbsB)OGYni^cIZ`
zE6p3m2xoI{8|#+8$Qq-Zxqg}6FbB3QjyGz)R<om2)`h{7R@cbceGiP<TI)^?Wp6B)
z8o)7D?ObA3PP5LA@7Om@2RVylxou^h^>nkA?hoDG<u9(rSYPkj71np8=pHP&hgtV<
z(LGXfpJm-=i|(;or?=gK#nYUzuHYVJjia2c0q|~{93@kLH3e3hHcb)E>@JzZtU0{$
z%%-_*ztppv=61PkeAC>yqc&8Bww#{jCyLINf~950PSv<d)j_s8xYD~>9bFwSwI65O
zkKgOtY(KN3Gy`xry4qR{A1qh`FkV;mZcm}($ztm<)_LsS(;Lo_9TipAyrWXrT4CfK
zU%?kIx;u8NAid)S+=cpnwz{A5G?hH9tf#f;X<t0UnLUMI4{Pq(HJLt~Oh0FD!1=7M
zg4!0C&y{A@7Acq_P*_`EXy|7x{hZBLvPB?!)v;;o+?(1_8*3d~!RB{jZ^c%>Pz(+%
zo#E=63-;z6yP?{;)etB(#My@U>dVE3CzgybcCuohJUFR@g?w9Iu*E*6bTDLbjTLpn
zifubAG3ix#m0h6?OK_(a;QsMJaKCzoA6e}%<@S|aZLF*9Zu)y3*o{E5&~dxxjj^wd
z0cp8=VZiP%=L&MJ!2hbQs&nk90N@`VIIunA-RBCnKJ2Mg>Z!8sz^)1Wxio=5I6F1~
z{AF$oDE+_s3?oOW9~ylp<J1qM1_=M!;&{qO{dJ`7l$-kNqtTPCs=tXTFpNi^@~GZ-
zD=_pOJmpaRw>kxe?zYo<)qmG1AmnSsoiI6X!&8Vo&JuL8k^Rx8;4G=QKLRI7dDpa{
z0^1W@3m$3#Ty#@d^PwN3W+c}M>^BtPVo}ZmOp<~++BCHQr{I+wBvaCENk+&>HZ{0z
zGT^$=F}g~-oL&9XGjMB#(L-B?yyQ+~bc|l^g)|l;W1Ny4A9AbU&MA+U)-XnJ1!K<<
zw!+@)Ay~LCLtv>&J1fS>7#MJ*yj!;8nJUI`7@B=O3yu+KACc7LZDL=*86%xlPdUU~
z`N_Z~kh@jlUh=L^is{7|xKIpZykhWYI3iwQ_}Tw~AMsv{+)?l*IN_V4Qxl2YWIBCE
zNqiZ+Uh+6Zm4b@{ogGmVuSpZH=<|@Gqlm5wJS9nRtP<TsGnl1=BOyUAq0pw$l|<td
z(_g_-O>%B}HWxJss^zya|7pzE<3SR^&R0w1ihdhG=?LBxLFu4hg*U);oXKl~UsRP&
z-VhWNs;V5eSXMsdA-GapsCja!i5t@y$;V3gVZObx7TO1V2b-|KToQ*$U31Ca%Gz63
zhl=*jMLp+=uEtge3a;M8YR*|-a(1!KuC?}ibw%gNMH5%oymE7`>#c>AR|<7~iw3UF
z34y1f<mqQU{Uy(ntmnylo*#M6f>N=1OV%K34X*SQtu2c~oIA8KymGPNjxL_w^7xjg
zR&A?azT;eV7aDqso&$?#w#}ZBxrsG5tt2<itz1KNHLx07o>?-25QkG7)(rJG%~31}
zt#%h0;!DQurf8{YkZl^|EcMIdtKPK*I2vlMSv<WozhMgQ)KT@LiU%GFd_cAJTXg}h
zE_gTj-qf9`bx+~KvzzhHKTs(hH4iizi(!Y-=naB@#w46B&dlX!=kk-%h7KkTy_-bL
zJOz^nZWs#9mWO{8#fdC>z$r6KeN{E7yb2!9F9E}VFarNA?pc9R%dsrDQ<B8l@-^k_
zHZ_PT@b^j%8(_XNYnNR;AkMBT7SvZM5LIdrGHrlW3l51&!ibuZ+&6O1EB09uTViVp
z>h-u9+ycKw|Epk>RTqg*cT%~adTCcIsv0BP2>N%RKj2<$!I}6v1iUH($KP7m1_5Ky
z;3%M?I)UfDg{3uwec)h$PGqm9a=eD5`5HR$l6)4G<E@yM*bz^-a(EA`d~<`Z*;|yu
z$q_kE;5r*|VD1H*k5pzjban29tcI1!v49j#8$c7g+gW#e$=%Dkd)G2W_t0X^PY<64
zn)MideE9TQ@3Lk&@lD<0iKW2rJhhTqJ@(c$))ZeK1H(t}+@Syp4i!!2#jl{%7}zj|
zxQ5vB^NVBKzQ%&i^AmT=;wjG5P%<^KCSamc^AOuSRBArMHlKO_RI&M)4@}PjCQsxe
z9d+cKqTK4(KCKoG?`jqlzNMj{^ZnxEM(D&ZK6XKvLy5TJIPOvZCFMBYsOGE6M>Kmh
zGm;=-nNNU`_G1}F0sf<!yrhSd3b?tZxT_RBk?5rXW|J5IaF&0&yfdoZo=TBqlPdHu
zJsLNo0)hr7KVe9?b4F|eN$ZL&f#(Qpf+@5#9{Pz|3Ru+-tg0dPQG!48tE5feEyI8}
z4A|;RX9(kJ;eZA1+*P`LRq4Qi(N0MoDY?lh$(JMN?E_gsCnweaMk&rAu>B~oy<$r8
ztL?%_Rr0ZkHNi^Sua=BLib=I}U=gTZ{35KIlBvon7#-pPd#DPm61_|%yVhGH)`fb*
zuu>XE563+E-4v9hcBk-22LzG&B?>%lk|zv2UCrQy0vZs0Qvoq1Ka)~h0J$&4?)B<L
zwPPdTFEEi~KBBSVywe~Fp&Z_z0T&D$&7!uUzY4*88`;3(o*M)p-sKg%Fya-bEA-4X
zIF@p=aC<5hkJi#S2pXxA{`VOCAqL;X0BsW*ox^ax51tg7*CuA+j!9BD{UHZGOIWH#
zJBapRRDa^eWNH=<ri8;EeM(G64YCBL{|GU^jR7%&?qKZSVg2gza0F|JzKsQc3_%Y2
zCrVdwUu`XqZ<o-XZ>cC=KMfc_>H19wz>+ahCQHfaXN~?<6Kg!MW$WO4!Bu+wFerID
z-1$(#oey1$zJ~J!O1@s)7H5jSp~bN+vvp~(Xb!F<Hq0$s&K@q%yw<(WKrNRQYSmgl
zGEuR9xK-k*`DwJTU~d8$T3c7Lw6m7>Lj34G=im5#;QPRGj*Ir~XkbGQw@W-V(3|So
zk}1TRLM2m_HAOc~tv~U#Ea`chm$SPBi>qYsX6@bE;r3GaAR9hd3O~VypWve1rRWoE
z^odgR1RFi^kw)eA{9L7heVK-8h`>hD7cF_)S#SGlvJ`)cjXzcNo?0B`tPLe=h_!-=
zR0<EU;en#{5SU!;ht?At?MH8q-n$4ej^N7R%4osSy?F9NTL<h>S7P6qSyQkLU0i+B
zk3+HLss~kSoGLX;m6q!2m6N~txE)6I$%B5%;{KRY>ua`5){@D~n!E+ynN8E#hi3a@
zGTRz}`(^GRtogrfJ7J)HU{qsh4xP}bf6yI*_+L7Xx4`3vgIWmxN~6Kh&~{=#^;i80
z2>EKfPM4mUgX?Lq_Pj~Fhd@#WxM!G82qom+odAe;=HMb1+#Qghr7Ux~ikLCE+Z00D
zB%10qkcW7Qol)eRx2Q@xwOvxX>J~Kt^e6lnRqihsE&XRuOD*QfPeuz`?rm9W0o3mH
z%Yc>ka<CUIw;?`p4++K}$T~PcmdrfBSV8ZIb;|IkK#Ns4F@w4mxvyeOth;ZW3Ytf(
zgQrXjdf2lH=aD9P7noGum3F5W;XW<2T|o!sY8WN`h+2#i=3W{v;6T~+(2rh$d`Z5`
zg}HD1IwM*zFb2RU=?57fS&6Az@B%=k(xiGGcHNW832EMw8tA(;-$@0eU@IW}NSQRR
zBqi<H(=b;P^3M9#Sjh!r<q<GOqH(K8duZB`-@a?}4qySx>fs;IIF+k`GHGlw1e`@v
z^zoz?Mj+vT1Y{d*f$;iAtBgU6Rjwt{9asq_#<ZJq7}H*QgSBrLami1StEW2TJTV3>
zN-HAf$>-U$9s1cN=Zi5BV^T@1P{mD3<^e{vyHER4V}*GX$GK1qy{bTqOf^|aXbm=m
zHA%&S8LVezr5pa0=aDgs7VUzWF(<2pzGq`h%@kh$d*}zyW!VHata*<tdPLum9~R87
zpRGIs84Dwwaf@SOkh&_28jaHh%f92RuzHL|8fPt2TOOwt&ZsTKS7y!DW1Oj#djl<3
zz$1<y{ewVzR)F$9G)a(LQsgX9g4*z*A7i}^r8LD@_gSL~b;LIJ^z9LF*tZ2+<rb1U
z#wN{#ow37A;9Ze*#>&_jy9XtXBtc;WPdwCpNQ!h0kkZN!K9?wfq@-(8dA!6&e&p3K
z{cAeFD@k&(jG~4m%;I<#>X^D*q%w3R>IBGs8J`$S8j{A{`x}`n^T$LOs40y_%%f0K
z9hOsKEI%a1_GwRf*C@_#(sZ|4^qpQ++?D9NtOuo;7BK?lXz8B;-msh_#&X9XA8de!
zf8^Fr51Dg`UO)R7<<TU~cP-+~->nr#u(#Ly^bCBuKn+ss098Rd15Z2yB_j{_A9ip8
zPn;xJB<)w3egVTHDF2^>L-y&T%ry?iQRbR=3D-D44mkBlEvG7s4Xw)EZpAVP?WmkT
zb^6mdvalZ(*JHuOxagVus0amED)5rHj^Jf@mZH80?Ju|&Jd9`RoLEnOCaoeg<C;1z
z=Zmqa3t~)uqLu)^MaMoh(EI+-Z=s&4uiRJ0jnX`6LsnBzSp}RdNGAx7<Ir8yYkwT|
zE_jKxBgv(`)b^0A<-Lgd)K}K0`^oA`+_;}U^;MEskI<(TaEt4-OP_xJp=pNXk}~%K
z%yjV6B{Fv~J`vZ8KpRU+`edcD%2?3)g&J|jSGk<%<_4xg#t3ka8Vz)Gp%FN#k!WH+
zXed9?k^h_VSJIJ5=`P<wfboOX7$90pvhkQkCV(0c>~O>!1k6E#ImCpfzVzu?N!E#T
z0WSGaQZ2#ud>R%;^8BZB#rg|jCS0~GUWB$P*MG!JEHv#~tAf;&T5V>U%JQh1X%^bg
zX_zLa8P}FpF-;5MY>1SgrdKh|kVamV<h48^l*C|5OM6TvB()OGf{jVW2Ux&@iNjn$
z8f0G!(^AQb-ZQT)@LoQ8^Z*uGZkAgVV~{&8#^oo<1Sm<!IbsZQE9m+giX8a*lCW3&
zXO+2VgG`Do%TF?v3cY3!{t>+sErNw;9<Rud-_#W`CO?^IQghcKN&XmMt-#gg9k(rs
znx;Z;zC|TnOblKOQZKY-tx5Oep~%j*QcL2_R@%M(I+B`ceVnAeh-+R^ve93Fk_sG%
zyG@|UXJBVmnd>Ulktkc(d$s{}wgdKS^8AajoDXDDJ8*`ZX|IHTmqdy)?Mz&dJVcJ{
zhtUC;9w&?1%d%)6985crZyihr^!oo7j>552pka}(|D`yKSO#t4dZYZ9I3T8e9U4zM
zA5Y_q>i<=GW7=u-_*CEoI{avfRk_w~DF!qRdH^h1<w7TsGZk6^%7$G4c+liEc%+>C
ztgS9|F<rZKTc;=i2&Z;4-E`Zpv(`-a<JbBoo;*DxQWTs#!Pje^qn0$UUzhJQmk-8|
z15{K&PEg1p`N$>ub;zP`L9pjtNHt`ju)B}^@&}4DU_9fI>z6=q<7M|su58#wl-)PC
zl$8`Dn)Ux$@rD8p0mEwQrs7XjFDc+g4IUef!4pj^`UC`UyrqnH!mV65StmzC;%m^t
zA-euB-X*><OApQuf5x*NyyPXkY92p~Z}?|&gK-JV-$AEy*!U;^6W?owGna_tr{O1-
zhv9I>?R!&qTespUx+1H?rM3~aZR7*j$dAKM{33@F^sgeVih1SB3*?xM9D+sF^w*$(
zSEkE{Vi$2h3K|czc*V;QTfz(_fqMAZOtC=!E|k*0M}UL#s^B62ysFI~jP{au6KULE
z(dbeX&g4)mlj{xQnH;`ePmbN_dMwgm;K$$$2BR3@29QP{1C6F4{S*dgF~FO4bQ}XR
z04+^!*3!R^IWJ@ICm7tt038ctrRXOy=7IojEN5@hdQ75uN29-k_F?c%44#GnFEzo7
zTlm(nu-3Sb6W$iXIidd)1Ki`%BN#9k;Oi7LYFGNVF!%}v-@xD`1koPh0P)W-<Igep
z4hDaL!GFNuKVtAl5b!n9w*!P*8wPweo}8YFH#qQ`7H=fysKQ-htV0e`CoZSpmAVvP
zyQ{GLB?G&hH8DGrOXD$Tj+{~QHM@%7LY8n~OTMRoDdE<LaQ1|kJcQR+g_raYh_6n-
zC9*{F=0qZygacj+0TMfe0H)nJ<PBPQ*MOXR@`^P5pK#D>xVM(W7sGRN894D0u8Wli
zrx#M#m-0Jgq=47c@CpNbnF8Jf(2=haU|U9Vjk(-MgODJ7uNJTX3>=f);A?;_#VgHZ
z%%qRyQkq<xMq3*`V<FxX7cNNi7WfE9I+20zFC@!3)#P>FD|F&2zTwDMiA|KdGI?z-
z`y#KsnkVfV@S_{$iYD^ej8twiF$?nsvjin#s#-X+D<^Y3(3cnFBjnE-6Qq#$(<jKX
zl$r1Pl?Bu1PzwFAk$hU=BL`*iac~4}YGF++o2Dq&)V4UhX$pP>cV|3s<;K#ua-b9%
zWJ81ZX4uf@J`9A(L2wsq?<&~`So^?wThV?JZsi26OL%^453U^Bur=Kc;X&^SHh!WQ
z8+pHWBX)W_&|V7kuz?=V<t@3oSywk!a%{W8C0C4f#a0iLT8G%yp`vT}BaJe6La}rj
zPIFzsm8ZY{%7=}uYsWVm`wFf;c$d=d+Nq-8@}9eU!`=OD=EM4yHRWb~Pr=>;*U_O)
zpdH^^#{1HEv|hhqtjFW!0~_H3l^TP~M`qXZfl_@pTi?B5?%sxvFIZYOEG?^DtflP(
zOA8l@EU7mwel8Rip5Z7y15$ph4bv^qUSn&ip_6UsT(g(D&aho)iVbJs9-z%xvc*_i
zZ1u$r+rV~b@6zz5y?xtR4;7#-b7aFzu5XtQ=hqrp%af!|J8NrS^RTujw%a<fh3Gb7
zl5)AG4$d{Q94mQZtcOhB3AXh_(E}IGmCcT&F<3!Y^A^n9*k<EU!8HWeB4P6C0wsG3
zYi}vqqryS{+JREf8Mf!lru{5jr!Ki7tSeH4<+!}z>VzJ8{U16*tEV@eeFY0nKAz*p
zS#NwbU+Or;cAP4DPZ!{was0eQkTnJi&3zljKIkZbwze1Gvm7<%MHN?L-E-7G$c6{+
zsfyNNIP8ae43~fBCTFSROn!k1S5=#)HqK=JM$b}SxX4+wb+e}K#i1P|Wwyb41h}r)
z+S`+b*kG~w=!WqqG`a02w+oQySog?c&9*aCaz<EZWYu1Z9%G}&?hO{57vMIi(Yf5c
zVf1mX@XGTm6L4qr)+wM2&eE{r{f-L1j&YVfaJJYv$_7SZF5NYYr{L8GT&l*Rxsfy5
zgcl1|^&93c&e#0r^S7TzjeU%5J67}^|KUZ#AW_yH1p*&YSU;ka4b~+C&Sle^gSQ9a
z8t8nn{?L+c+Xin;e0^}c>(Kh4d)EqG=a4YsTx&<Eb%bplDYia^84<3f6`x`8376@b
zBKOgB*bYbF_Qgi{3ApAFaX?m+V`&t4)*B@}*1@_uO0I*f>)>{ztrR)VMvimsU2rwS
z*YH54aeE$EC~xFL0B(+znvbx}N4QW+Db&Y?`nIBnxM+JRI>bhY-lySCNh}E6Z|;Qm
z4txzeDt*}VKxOngb|@oU@NgkRmU*pctS3Yo-mryn)(6?>;Jqm}dY%gtCJJmhLm#@D
z;L8N1-~byO*lId>&$iig;sM?l*->fyjt8nLyugC*H^AEmu96K=iM62_%nB84p;dJ$
za+Hl6y*IECIlCQdA*>0@)X?(T*CX8i&fr^vYvEG&DYpC6`-h65X9~dQw$KW_VT*F1
zw$<@M|5Js~sim_!YD=AuOcdTu<h+sX#!#uTccZZvOgFfi<Lzd>-6e1ThPQt^&~#s~
zY4I!@;R=qo1z!4S>&4HpoMn5@{-|~It*RBp$^n?_clzJzUmYoide&Yp^_^k+&XoGj
zvwi1_q4Qkp!BXo{w)JSK^%UEBYGs%kyMQ7LFWRgh1KwGGnGK)$aX7l8r`pC8u#TSQ
z$Ihz9x}=3E6@(WEGhxQKvhdn=`j)DJXT1%JXF014_|od&9F1>ezm{FORBAfJHXT|Y
zDmtEAQgJrNa`5W|oZZb?yd_JBwS-oNHZ2j(V*5r8<!C2c-&utF*Osm&6)-G_0xMPL
zeq;3aM+swuS$p{H-0I<COMlVczh!qWn~L@(T+V(rf?2T0z9<sU01JQKLrZ$Dp+(Rq
zLu`Dg7#n6AhC!@)n^s<2$rQXjOZsi-Q*^@?+HQ=z`IXyWS)D94b}v1}#rxLv>#jol
zIPy;`;0?vsbZoGHy^9SVhBsdVvDGJ54;KRcOQ$(!pyX_0oo%a^Hl5udTGte7%9ZDr
zk!_ng-Z}TyIY};rN0&x9XLwb);fz6P?7(}CcN*92rGYVaV5}HDw_L-ubiMP+Td&~f
zdB)hjv0}@)Wz%+jboIhUeFu=v>hTS4d@X+O@J9E!?Y2X=M>!bpg$-W^*Vcb~6j1uZ
zrN%zCv2T5VZ5)1}qq+{Po&Iz4Th&k$Y1_u8i_X|~bLU#aT6>}S$z>zF!&9p7fS3E%
z)SLCaT&#C(a*Zy;4lSR7DrXhXDwfqH7m9;5b*b|t3xBSs2(nVkF}CFx=k=Go2U+jI
z4e#Og;NvJe;#oGqyGJ0VVnb{Uc%g;V?_s??Fu1+AfDu|f%jO4Gs;%?ALw62w-q!Ud
zkSA@Pf-8dL<}cN^vh}U2U*4$igzuV&R9*-jULPtvdA@M;>4N{lN5En+;O$T|UJph|
zRcIPqpDY}|P&jt6;J<_{7z1qh&QN3n_D{!HSNjL92$&5Y`rEl!yc9de#*S^Z55Di)
zY=0JnO&|!uCIVux%I^VT1F{F~Ap2Jres_Ur-d5Jux;l^Ax*_uB%<UPpWk%TeNU`DM
z(n&7Zw)*+itA*gfC7fOyLeEBh&$<e@vi~#}Xe$M}*g)4>s2Di7tmT@!)|%J5z8za@
zD>NTnHg4B9mf?-1{xP<H?EU;^|0RS9tOZwQmW_ZCq+?)!4GgTGVFM?DHcvjiG+ch$
z0rboe3xD=ufCKR#I>LsINEX$GtAFh>X`ySQzKd)sORhNUikDmmHe3g`eF0dIumi-I
zg=%RnH6LZ0kCJz&z#>EP*l_i(b%R>mix8!mW9b}-nMm6^^KZ?sbrjBjZnNc?f;|k2
z(iB@7{>CWR(S=Ob2GVY?PC-=??;<J$-dI5GQH9z=kJ>{|v`47@Ut}JC>I{N8N?2*5
zvF||@Na;6E-#)#PFSQ(HTaLb;+Vo!H{DGC=M=B+BOGgF6Ag$a@U|t{{b%Ob`c7}Bw
z{lL|^)zXUNCZv6U^&Ys_3*(7+wmtRB$9FW!h#wdNz7p2^or~+<V(&<y_o+hU)N=Jt
z>mysCjt|3KT)bPbg}1tna|ef@a(4_SqY2&$tZECwWP}@FGN2Pkgr7Wk1ucb-DMg)+
zcX@YI@cd;C&!RR%#|ARp)Q^0v5dM9)K66y{_k#)uqiz}<OuS)Y0$u`{%cS5_Z>EWf
zFV7`1WMef!o1vI|bxn9(=t)eXU!1;)fffUFz6kqYbT<f_U=zm3uA1D=)nF1Y9Ma#$
z0IwYiufUSs|KCHBuP%RVZZZX%p$YIo;LeA9_~=QpnW1a35(c<!&z*y<$S1E+JIaF^
z!%ExFDR}J6DwLXzRn>h89v|y!HO)KC4vm#_!&Kn2DO!jfXPbuZCE2FaBx_q=eP07b
zJDt}Qnntc3XpBVKI?9owL*>Z%i$Y{uZ@RBRn4L?idX0e#gm=iZy{piDnr%Pxev)m!
zK(e;=wM)ad8t-cWZ0C?w)3B!6q2RHuUcdNV{e6t?M7lLK+Ya}R2A)6%)|Q<rjOi#t
z^L;(Wt|@M4HTG?%XGen(fPrWgiGo4y+R>A!f$}x2Tm%JRBuTIx!Yf0!kL*;FWDVsB
zu7qy;cFZJc!Debn)Jho~%W78d{RbPS$=g6=hNJcLZ{TbbSH@w8;chsSfp@>rcMwlp
zo+L}iYvE;L*oD)$?!1P4tB?+1+>f96i{l0F@@M|y!e{>C@DZQ<4B(;(MG*2Kt{6fG
z#4|&v1h$yMYiRtyewc{sg1qoWV~@ZQ1b4=TJJmuiU5!04lKR4D4QV|1<^v=Lz_U60
zL^OO`Xksp(&gA0K*D?j7N5&A|=|-ZvLkZJ^H!pbIVS!r)=}#aDlt|^!Zv`BuP~6v2
z3gb^G{QFxf{I`_j?<ng(sPzivKTr_d$KdC7B?JHm#fN^Xw=aFZsBd^x`#?KmRM?jf
L{hY!lY3~05@e|Gv

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/qwen3xml_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/qwen3xml_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..081df1b2684e39bb63e6ae983664e820233568e5
GIT binary patch
literal 40883
zcmdVDd30NMejj?Vk=RIpBuIh;NM0@=3GRzlijpjelC@a0Wyxcko(T;TkW7h-d@pEA
zFc^CpH=!qPO-)}ax=Cw#&a^|tPKT4sY1r34s+mqx&3k<<E(rxNqO_bu?P<<=uZK1@
zC)4RUeed)A-30)3Ny$_DH1A6M;r{mhyZ?Uo|12u9b9g4qzdb&<%5i^59`&&(FPn(q
zZgOERY?$Ci<X^*x0e<6zandwmGEkUl!aQjiv9NdZM8Ra?NFjSSOjt*3h__7GCmkaW
z7FICfoGcnCnk*hEo^*}4Cfy_M$&!(h$<mS1$+D5MNzaIfr7N5$pR5?EVDHw6%1Q5t
zm%ZC2swS&Pstufxi+Cfxj}3B5NBl<aNiJ-EhYLGCHY#B?EX;|pqDaNZCMC4?x*=Hn
zSL7KE8Zy@Nk=JG-Q)3aln~qFf$B*-wkRV2cV?rbprQnju(3Qw&bb5MXbSyM6F*+U&
zS~KOxUJXT$O;28(h(yPyr=F!!#AwEwAAA9sL=+dA%#;j8CZeGeGgD)f{um0%I9bry
zh$x0GMKVRqM>$xe|M<125E_d{!fMc|sf*LXWQek7oOuOV)g)-Go!;dhz~>mB8jp@n
zOkcVb5vXhE;f3idk*V=mL>Q9?M0N`m&*neEh~DHP9L@5GF>Dwyg^llUBj&IPt|e@a
z6of62!i(l`!8_&=Yq*g43*fiHZ$q5@qA_g4yCZC8adyNx;CF_dks`zwBeW=n`XWUa
zja8@?@x_RDg<UM3%67x=4wq<Um%?8XE<?S>um|s@;r4L3S`NZ0-m#37g)0%_jd&sj
zkpivcDx@wCS5rvXhxZCfg?B&RE5kMDlQ&!&sftunOXPMTwhpnrhs#6jm9}3j2=hqe
ze?*#kq^SuvX#Hq}zc$>Y`2+CRg`44*!+4b2g0T8<YlPR*6@-HbYY4ZYwT;({f*qOa
z^HHqM$?>U6FPwc!oqT!HV-Y)#=lnR9=J>_&NSGJZv^)~?Q7jLh)-ivTEps{b%+;&Y
zLR8F2J3e)FCfdOgp_&dpG!^EjXQBvXImVQY$CeFkINDyDzX|6i7w0bL#<C<F_p$Oz
z+c?gRYAM17_>?V+DKNsPY*qM7@R^m2T-Xes3Yq{`;49GL3gA;0F?XE{77qW?F-V<d
zoAyx5IoO@`{n9>oQQ3(HV~)XY)pH0Q3`=M-5{(E4e~CPr?+|TzAtFYiquPMt4Im<8
zp@PLsxmG@f3sHa!?6gc-HaIdBRsub0jd@8+wa{$Ja;*h<Nz1aqTH0HNj9H9KToh?+
z`Cq==9i6<|eRce5Ct7nU679S;vv>c#D|;i|6XUORU%eiEb$Y7%^@)ke?#NVBxPEnd
zd@3q-PhX8pg~sKvLLC5vV)turM5g+$O-{%_P!8?7dOc$u9cA!kG}gHNg6vWg1<)$-
zB%HUowAGoiHb~Znq_t_IfIE1^FlT<xo^IPaXHHrh(ye>wmrn<G({FvcWf%R{<;CB%
z@|!gI`U~+@48cwA5-l`J#2&WLvdfMZ+IGv1;<C$*7NNH6#;MHgvZIvRvSSO>s?|r!
z)u#EV6ozprge`1GUYt|&QNAM0N86)V^HH2j^HG^@%|~%1nvYsms`)5ondYOE9@Q6Z
zSKrhvir5M@44b)Ieb4@?DGl6pW6%<-d6qUt4)mZk0<eJ)Y!HEldH6(z3wkpJVM2pq
z#+BU_<5S_twTx?QMi8(NRUDhCm<WmR$tX4w*22rxgxY4A!hX#>984=YW7qbHm?>3r
zvanH>tt>z6_0YsjBvYdkh?Y#f9ua_#GZp#K<KpPWaRJD`QharKW+FTqnFP+IT{#tb
zV`6+Nk|~qn!D}<q(FlvBQruZE^2*G`ixDAH%6fcNm>vU3fF56+76CmX*Ju=`qBJ&2
z!t&9pLIhh+91llEwGL)VSg_nVC1oWG%5N|0cV#$&Do68T2<T<JEJC2_2@sA7p*Kd^
zs0g$LG6e_)OvpGf-!oS!4SWKRC>iPq4R{s2aAG|>zyw`D+DoPUD>!d+01A~=fC-NE
zI-d5vKV8=-|2DVLZ(}+Tq~C^gfcYEJ)qW&*r5l<lxGvoopkF@S*-gJ~>E?F&ZA`ax
z&~H<^v6aQI^9}S{lWt(e*R3o0P`{j`Azja6YSS&OgeI+oR#tJ~0b1Jl_ok?=460R0
z)~dT!pU{MUWNZX9$6lS8x{@gnFkr&em<DnXPb13kW(L6Kw*auB8hCn_yPTU63F%SE
z-C5(i+%>~x4MfSY<i-s#fQ~U^7PO%x4M1hnsT+9K6gSNq1gnkHuQ3i1u$r4SBUS@!
z*;2mwYY5kXS~fgxc%2iTiE2P>j=N|88EK81hcr4s>x(6B5eHC?2IR8k2qg&DKw36D
zY*KR@sNEWv%cj^ir#UaDUZ18>q6QqZC9*z+w)DxeO`i(l1>%|iMSap6uY$Z@*JOL8
zzQv7didk#idY(qLR*lR43WpKSXZ`A1*m|WE+rB5-sD|k0|HP)%VnYg|2(~<NEd}UA
z`@1>FE^cG3(wnirkFvH|g<>({wwuiu;(qm2w@r;g4NCphSLAkW-EJp*;hD|OQP_~3
zkMmq37uAq{6DQQq7Dfq-v*)r;earra3*&_<t8L(3got3a@Yf6H4e#~JZ*Lgh;I5fo
z<lZm@9iasPHaqbp^gKgIgD3i60zY}&34@i4*O0*_&zNE!=;G@1lqj<{RK$f>$3-6h
zqpwDIFv&BaiJXE!$3}#Up|J>}Ls4WNi;TY>5qVa)s5N7HD#E{Vou?mSZYD#>hd-1{
z`KMTspkC}+h9klyaX|A?Gc@o%0EUZohgdAR6X+O%wB*k+@V_O0t^i<wKL#w%8o+2I
zG(+R}`Ad<hh=9g~sl`$1JgcNbE1p^-51GhECa*@XYh%WbU*xBzd6kgjBNLHH&=T2k
z7|tW12`BaAZ}W9HzhgMV85l?RjUJAhHN*{<vkO3byJiq-4O~>?+UAUa_8cIiZt90I
zz~49AG#I$|`pn#Q!ylNiUX1!J`oHsAbY;gDy=VX~)Wf0g8ujod!7udV5c;8EOa1oi
z;lZc|3)CHfvLLW}{1U?4>zpzUli6_y8Z(C3UmD+>9S#;`tSZ5qF^-3YAO<62AIB~N
zaS8cV#s(&DhRtlogtd3elreVoWQ@@<p&m&^njM~ho6%<(+aN8dYgdIsvFCQ6(in9&
zDsNP9pNhyqCTPU2!HH?e5yV4XT4C8YT0Ei%=NJEl`vu53&e~M_SuxkXZ}I4cgA25L
z@61PMKIcq<rw!@Ww(nbRS(ZJi-s2Mfw;uo8MB(>a`<DCu_`nYir20=v{U`rz<67(R
z=N5_qZPwQDecvr#DtJf=9=hG02%g<6q?pg_sNuhf#GU=dk=`S_48ymK8N0@5h#6C8
z>iR8{a0Ur5GU10uMmUS8*qJYJOlS}`Pry+}qPVl-vudufbK&SlC0A4T;n@$)e$Lry
zYVYxln>0)t7^cqecm96orVBm<)z@yC5dT>PGX1wrqWOMf&wfM3hS`w?6~b|Z>2I08
zF`Jl{9|J2t!AlNUd4Bs%9Ojfwd33w2j7_#{yEwf~9yTZ?R<T?f7mp?>4}gOXfkC;H
z&G{lWr;!0E6B~A+899f8mW(-i{c1!GI*A~Grkrh3;WXazwx7JnzM749gDL}L)Rx=U
zjrZh7PcFrzrv0@0PO#nQxaFWNcfzoatq4!5^`O*x@OG)xdW<&Q3EFVM_AQ%~Hr$E)
z4Oer7Hw+8I)bDfpUH&rn)!(Ih&XaQiPR6F~@>tz*L6{c!H^!r{@)sfKd?hq?MU`U?
z@BxvDBOog)RJdw3g~76nX(BQuv`~q=sKi>Z&Wsb+WDui-?p5?D&n;2X!ZYM_Q648_
z`;{a@JB1VFl(8MZHWs<cB=-ffFg{cGMo5?ffskn$os2*{N5X<pSvUeQn+kMQ!bjLc
zWnmd|0->6WLl!cy^g%m=W5OYdC?kQ~cxXZ{3QeDxie`#0;s<gG1@mX@*}5{NuZAGM
zP=ukQV-wS2L=K|?B{{JYW{6~*XwA$-R4y8Dl_V2#i>Xa7g94Es8OPM@h&^KaepMJt
zb1o7a4ZQN8nyYJAZ2DgNN9}91T?wmiodk<DtJa!D@ZoKDtu^aaHL0pWscLYo>d;*A
zUpT5Z3I>ag8`3rPAHMX#ONroMB6u)Sb7<baVdcuJQl3`H)0*(?N_+h&Z@1*_UfwTx
z2On6uw$4pXh1{DyyusU6k?=HsR?GRj)_rv;U*D>)FYV`3{!Yo?xpXDzA4pU1?p5FJ
zZ1Clzf4@#uJ(9O)`IO{6ct6<j<yFLb5tO{arS_zE52{7$d_$6NDD7_CG#UNHb5CJ!
zd-#O24!>?s%GI*!YFQdebvz+;JaPNTYRB>WHNoYkRNrZ-?{u=}%)C8~RBm2!^NZC<
zcgK2r=e#-TZcSI#C*1YGTvSG*<Z4W~x>?E=$=$NFUvlqCmsO_9+NHAgrR!4JKC0E5
zDr;LUYfIzB6OcTC#VbiqA4}FIm9;I6OJ#dkhEjuHTOIsbHqGUvr#HW-Y#ilZuWL-z
zos{ZMradj_AzwQ0L|xvdgu4-f8V|o@PL_2hoSnaTaL&MaYCh)-SPb{v6*r4-6esGQ
zxLu!e53Ra~{`-cBB7P~7R_I6Ev0bM)?x&pXRGaCiwu(~$(@z5yyaVQA3*<?32&E9J
z+q?`1ic?5E!ltk}YzY_qo@Le;H}0ev8REWC$#GxD(w;TVnn62i6g3J{p13J)R%y&x
z!+TX`(3t0;?TG!B#tIx4$3j;lOxYt|jf?>pfLQ>o09~SxrTQOcW~eg*{L{ktrEy|@
z$g7p9%e}}Ih4WL!EX|?Gs|RA{=7}h|m*5sOljxIvLy&160JbzVXAFZG!=a3!A!BF(
znQIx3Mkd8fp%A$`0nROGkzv{-x}9+_xXXGaX3W%=OhH8U61T#Djtq0EM&)n@sg=%y
zTm`=w+qDC{**4d|L-8WvZ;-I1TxnIhq>}x|OVwwNf=c_GW5dnWw90$_PyOBRJ~cNq
z-;5P{bMVICqIvP+T3P42LmMWpribmYIR_IA<`HYfD4(sF?}E0YH3L42qxG}($#PhT
zCpvJ;^RXg5yn+=3ncn|EDvg)PCe<%n&C6Dw5mG_p+a?=ZTS%`dF>*@L<VAuNYcfa8
z@*Z>^$m7VSRo`-COy;=xvL+o=<Fh)#%bJQK8<&;&iFLn1ZcXkdoI>j~rAbct79#V6
z0mSM_Z@Qx8YFhmipJ<YpS!gCNV<&HY;udw3A=@g%m}%qsEA&T`fC@j_wm(DY&mSUI
zljCGtB>WSES7-g|n^1yq9r<9`nr%B$=*R{|C&GEPob2zmCFV%_vSSN)iGNuc70T3`
zD|-wi2jX;k7Pdt-xgyFc{6sSd`Na9LvTH6GJ}FY)XQ4UPoh@xX!7Ol>i7?#qe609c
zJke%bp36i4Zh7M7utA02SOvw{>v_8eHEqd3-Y>HA1tVl||AVjsBzhfcVUXzYkmwPW
z%AU);>Ra|V?AjvHGm=E_y>nsqn<LM2$L8${t;atj6UkZm5=p>RN)s|HUe-iqrD(dS
z<P{K`1N`%^Mj+4=vSn%Iyb%#1JfmWntWMLBY0Wq>EYSXpxirN-PkOF{jMx`O5XH!R
z;W>IEe)+EmSVBBtrep%KY`4t7LZpin81MFinlfn4n1$(yi0~3ZGB!v-#A%}3g{R@a
z5NlM}jaMU6Dwn}<uiAEEIf7NfZYu8U<S_2S2c03)5Hjr^Gb4g(P$tkbo>4`UC|()A
zs)aJGpURVHlE;h%f|>EF89UQ4ip2HEd;;SbuuC{*=p(Z$H2uP_kwXhZW>5%F3j~QW
z^`o*{j>=}lyD%EM2%<q&`x7r93{pDFGfeA8nswo2azb!|R)(=NHksFepe0kN_NS1P
zp`^|9KyRtdo!T+s3bJP$7!Q?g5ylZBTH&axOjav?10k{fJ0Ws)cvNX;9?SNZRB8~&
z5!k$#E3cljtrwT3iUU${;1d&3y+@>uBWtZk*NTraI`XhoclfqB^~Cei6VI>Jy&yUL
zb5G7cpLSKuy|wNx-+02vxvLUZ@5Y-3M)$T#uGXc>q^mdG)=N}zOWN(-DCjRbWq|H5
z)pA5?IdZ#Yt>tvW-2_s+sx#&7le~Rv-d!p0Vaa>=c2Uwhoc48tV~~8i*L-_ZzN3=w
zXyVv~r0=<P;zv3pZ^yD>)!Un{s7_UMtyXk_rfuk24yX1EOM8Zs^-s^AX5?^_<Y`(Q
zNqTzLyL;z{lAewYJ69e|dAcM|*P5p%<vAdE4y>F_dQLMAfy!NaZPnW&`&PXjL^JzS
zm0hcqUHLpjy3&`b>|L$wUA~ao{q*YYr?b&*N$>9a4PD@@(tH#2u=oAJbaPv(c|d9&
zSUD#(A4)g2q#E~1jeFC9?t8(3+vdbG&nAQCAJ{B4wHv0wrs@YaXJf_unT=}3iLp++
z1bTm+ID`SoGm!KQuDd-q9XA{)cfI7UPc-aVu_WDxz+KJTHk@2b*W6Ij*|_nfk#m*l
z%xkjv=*DSf(th!vNTL5vW$FK++o6>Eq~t!y=>JnH{oi<^;$$;-r`dMOWxCT{amsG`
zsojEi;agZxdE`Hlag3BJ26TZTltGW&2Z+ZS-1?~KRot^}t{q4|(YI|bVoA0<YF&ci
zI+2>R(Y8Eqd*cS7B2G$X0wG%-P038;H+!zb+C;CMZ&D2gCkGbA6#MrYv>qZ;1DLNx
z_%{@gADU8;1~0=t{uStk0RFB<!dcw$Fw>%dm;wH{3_D@p#z)9rAy0F&1J1c1%tZLf
zNC<i#rDCeJgFgY$_Lc|*xM;mNaUobB{3iM@5FsV_$sxi>hP4ELgGQN+p@kySq(e#5
zKq-C$PON(;NT!1U`mw0QzlEHDU)5ZZC*`b_oV5$lRNa25Zhz7_0ML|j)l07W#imrl
z0jc3Y(lwYDHYha=CS3>D%e>ewPIt;tCpqd8j+R?buEXbST6H!p6-v(TyUr%?Fo06o
zH0^0*0t@Y%doy9JR?Hh@yB0w9;k<32alymrGqVRoqqjbB1G6juPb`8aiW@E(&vW39
zY5Qz>!dYJ9-y(&!=(5Q`=b2Qhig*{@G%#V+(wO6>u;t2L%tR9?GWo5Jcx&RF1Up$h
z#7))Mz;ROy)yQo_7|I|&i!sxi>}T<6iTb(KTHLJcoyy@Z>ulM#&mdnx*bvR~4BDtv
zGeNoVs8K9bx4l?`vI-x!thjES>Zs(*obJ4+b%H0dDC6v8BVd7539KYA!WOlxIOxoH
zVP1V&o7FTyYsimnklllzqIjsXqFJIbhXCa-3e%H369h0*Sgce?N2jNDf+*UW9^ju*
zk`qv2!Mqp=31hF4URP^@E^KL4Ov58tsK(U69hx5`5wA8UsISLu9foeYL#~;~r{FfK
zT$wP|8Z<0i#ljTcB<D3afA#<3Vbrlu0WU-=M1eBEl`#_)D#I(HO%)<ecpvYX0>y@`
zFdDi<a_x*&dFjhIX~aj#i)Lk<OcJa}(}_SPRXWB<hk_&M72C5D+}oZkexAVJ_u&Bi
zRdA&hsgh=?q<QiBVk}Y8H&^g8S2<wTLe>1?gtKAYQIc}_C5M0Ee9}=5xK&wm^U94Y
zi;at~tyKi)o=n64=8ZQO`<D!Bm2Gn;0VNk2zBRk(U3&IAwd-Zo3oope1=7Cy#n#2W
z319otiz}5<=MxFv6A8}~D9zun*tK|a>9voZO89!0_pe-&`k%a0FZG{E_|7CeXVN9!
zg`?lDK_v^XF1(SbY+0&WeqMsCxpFY!9)#>@;n{E3QtZ^Cb*c9wXQHxm>H5k(sr%UN
zkktKTqVmav`$<4wl99GZWi5%a?)A!=#hRtrAC@hD?T>tk`h%;L2SKAQzPRvK!rQg(
ztxb8EoVO$C-Am2>`f}$FkF6B^(V0ZxiB;bdD2s1W5~KM%M(v0F%dh{@0jcFsqV7<_
zdk87~{9@I@;e@A+b@0Oj9~@W|*L>}BPo-VH1!2`yzg`zuoLr12>UPaL)0L=v*)IhS
zCMpjm+y{}rrg7euuH+YkpNuUBKb``rk^3v-iXv4p!Bi4?=z;(Tqnf@0H`fSmXG$q<
zxKfRE?2KxF2L>$~Py{m3rL$DDlQp%=ilxFPCIYemK$%JMdma|VvjFQ5#u|qpQu_w@
z5&~p;09tUx&H6E9kcSd1di0TKc&|f0hSdjtZ5BWuV9^BOa2<Rw&eEmG3iLv$H>jZ|
zZk@%6oGAl@#f8G>@xsfRtuZ>OJi>pD7wCo`&=1!&oC-XCTK!gJZK?H35(NElJt5II
zzph`0UfQ=yaGXGQTt+qO`0;C=wdt1yYFbB_6}KrSo4GaVh#*B0>^RU0ow#^mR+xxX
zwQ<vBO<bwYFa%~fA}uo1GGk4@H(}<oJ1B03I2Xhbgqa|O=s6F8biO}W7%Is{!DmT*
z2^{>!#Pu9IC0Q{jBVcB*q)^X<J5{b8hE~&jNVNnTBFk{)G*lM7K1}lG0g?g5LX1Hb
z@C-1SitssAX?5wMY1Z_xT!d0H=m=(og?93EN=CO|xwcta4a2gSiQ!!uJXx=7WMU&G
zD+)Sf0T9zMGsz4|lvtE-g5HjkGfU1%a!3M|DF}fDnhL8*-VZ3^B1M!iwJ{wiQO>xC
znPMeKMa3323Brq%yeM*QT#TYu%#c1~RlON2DT84<B#P7|b!t>b<rRd*4)27pS)Ds;
zum1sI?(Z<n{h)$#y5^$qzxnQ)YYyMS?5d;VURj;0mILOgsJ{8qjh7Z{7HbpbJ#+T^
zj^er4Zy#O=tvc$~%W4)vHx4G8Jks^;N?5DXwftQ1{qnlG<7t=Y{n>BLrrouRf$w#G
z)G4{U=Zg`Ta@DQ5>elO<Q}w-f>wD)<tv9vKpZ&9@-3!*VuaS`4Qt<m7w>s8*d(s`d
z7S4X^uiq%-0()Re<P9v<q=JW6gNN6BO(|dJs;_f7nCcsn`i4?{r&jw;r3a3s2A+}z
zo=OdzlLpQ$oK5-rB!6GhzjxgqNcp=~{atB3nBw~+zAwcOO8j7gKe=Alk*eD*)$LBz
zk$fpp_hkCm@x`JPzenQtBzZ#Bt-Yz1{Zh;RRLe1`<=Dc>v_B}9obnH@`Uh`YCI890
z{=u}b>BB?6cPQOE@W-`3s9iYwr~WRCOI2IS%e2W=f9gH(`ChJ}4+d8i{DUC~sr;Wd
z@0uS@SGGQ|nB4Xa&SbNv2M*==Wn^t()`j{=`VS$7U|K5Uwju`wbYSUd&&Qa3dUg<0
z>>%C{pc8=hbUSg14!`sm^=aT%ZW+01u1D0TBN9<_?$AFSq^stV>x*hyFFiCtdgQo4
zJ;pj~dPHhyoa3f!>bL<Uh^}S}n!+NW3uS(?V*%b)<GzIB$m_|Cliz18?7SX{kl7Qb
zGkID+fjDw>TwyDG+Q@}%@M#)Al&+(5%IeFAQ~X`D=O2=cK({4|1^TxU3!-rABlr*w
z@@ea%pIV)jDMQ#!9BJ6`IuTxlVdv`*h>1<m_Y~@mSCN_%semH4NmZ<-nzcdWVrFI9
zp$l>=?`FK0(EF?%q@N>h6L17~)-h#|TY;SILP5BcV%eH;#2unHf1J@Ly|L8vpEQCX
zM092|ZdM2pZI-S>x2xOJGPMuFp`3NdZyjH(ArDre0uN@LaVLa|&dZHD>B`j-bJqo1
zU7Exre+9)&Brk$2L%+Y8ew0qQK>Sz{lk6&Tdq&ejFinkYO3l9tD{vU3PfbsCg4v%6
zhlDUVYdUc)X8Cin6qjubWU)fNafMdH!&D2aB*(l$GZfE~I=UpvGwN}$Y*V#bPF#qU
zYWl8&tuOuBp>MPY55+uMn5+Y9_<C={p;%eY$yP0Cc{VU7tw73a*|ITHATq%P4v!a1
zzj8S;77dy*mXIKXuEUyE5HeO#IY6H=hsVdF8S@0ljEv!>jN#3Up;aLB*O+^2EwSpY
zAq{9!16tp3hzTx&r8$CCAGL-_S7~9(B39bW8KV$^t@F$)0t9)Su#cPpat@HQpPcJ(
zGOkgaepQaMk(Fk~f;k;~HDkFXOwU{m7RfT&?@&@F4)bXQ6-;c^!Os*=D|Ru;aW2~{
z)8Xr*B>2eK#Lz|D4?wT-X~R)gNim9&M@;s+;Fr}>*W>_Zd8bgDP_jX)gaW1_IC;m8
z;AISxA^}Ks(XwAzdi)N8cRXH4r~Z_-GYuG9d>Mdv@!QyoOnmIEnRBKc5CQun&|yO<
z{~pP|C+XO`vO9I)jC9~knhAs@XVU|danKIJ!p}nzkegw*<lmii>{$t<22M)@r&)$Z
z$=Qeu2Xr$$P7U`x6*o`ZIFa!6B>GO>*}djDH)qqrdK3L;?!36>c^;a(s@l2Yb%!hE
z2&_2*Xr8-Dwme%LPP+P;y&chF&<hoCJ-bL9*OBhoPrse(oqhD%mJYVlZ*#i4Uydi+
zy#dKTu(E&6e;l%m>c$1%;!}yr-h{gs@^X^K1f{az(zB~&-ArDR^6g#q?S*v@j0~A}
zZs|g*^OV$iD(OAFUK0QzSzZTCV{^~)Kq7E(et6y6kZ3-d@E-k~Ggj?S`vNInkL2rF
zu2}Q!``m<}^}Ha;-vqm(>YBykL{%4MLeJ_J4<-D)l)Qgk@le7RRMgNifBMtP=Ji1E
z1N+as&7Xq)tl<}jrJ6o8x4CV>{xcs9)t&<j=A^d|M=Dcw2c^1$D^qKAXA|DD%wn&3
z)!n?*CAs(A#mH2`T#|E^D|!OHFX`yN=Ptczy<tsM?OCy{xsT2r`PAi3clUh%jazRl
zzxHuV9?4)QY2upGffo90NSFB&PCrO$x1Z??_ekD7%h%VuN9InYU0$eA8PzHLBP{DY
znv;Y=^tVa7dOJOWp2h%ll0whmfHKaL#F~%eOzxJ$M0_hin|zCca<f5j7z!K4o&7E<
zRFyZ>tUTq-7y@F=JMl#91TbU1&SJlbglpgCV4M2B<6TF}S}j?t7k1yZ*2~1Ub9@SL
zfjBb=RQ3CR2L)``e`a4pqqOCLoryLE5PBIwG1LH8>QLF+mZ0HK&@zUwnF+`0P=*e@
zEtDc$uN4~Iftj$-zhFU#Y%h+=tU42`6R!<PfC90I<yOVyIhYs6n8-K;hqdqrdu6gz
zhV5bKk|+xqWZpjqQ_n=F>9!QITezOp4xo&2fd@y8N^yQ{njImNtsS~F#M;T9(ya~Y
z<Rcfk?TWVG$kl5z<Ip<dToo005kQ>!^m6X~5ijSI4nvnIKJ*Ii)5xk8Lag7aB{mNW
zb`23_JEcDeY9_HG+fUT31|NDkw`bee{n+(s3Aa?Jh3D4DOm483m~ewc5!tulpqbgt
z%O)x96c>b}ZoGeq_uP#KQ~3}kRW?W;rQ`iFQYU5d==ep*AR^&NcxP$FV-#?Xwrm7-
z15bLH2DD+-(ZJAKjpVFZxRP|X0iHU&3EwWsv1`SX+JAm^|M_f!%SmUDC0IDH>S$it
zm1;k{+I~12f8{O;FmWAE7!r<V8T66R2V_+=Du`pbyNEa|@^21d-;zOre1rvxdvL>w
zxOxaXPub~6sXfqkYWtsETA`)Miu*oRQiJB!YGs#LXi#E16M(Qq;T1IDJGDs9rZcPw
z9YqV;T)?2nqCON635sZ3u+|l5S;sk*i(uAvT3>R~X!WoZCD|DD4Z237S_*Lm=yjI2
z0C$|_PU9wFII3B2Mys?Ebk7-MEWk18_b6NtCGwR$&^Z@=VpUs!v$x79!y3`9&K2X*
zcjVvb%8hNu+M$*sLbDon&{%`NC(d7Q#I)3G#Ps;%+!2G~17oBKu$cv`Hp<MW38ura
z1<hVJ61NCHMhmd5wm#xZ;i9+&oPF^>G|d)#`6CYgvEa)X@%%k;-3Y#2ZFS*S(&{f|
zov>NZb~3FRT-M@_)t!_XUE)Axt+rxB1H&0Q7);iV)6rojHohRMks0i6#_S1ka(*4o
zErTq$CWFcoG2@#JF;l|;A2W6E4MC6aBTCju4$%s-g1ML8upkxHbFp%tk!mDZF$xZf
zPAOzhBQeuVh8CE)B8epgf{4sqk(o7SDz#i1Ze|y|$atlj68DfpXAf2FHUV4V$8a)5
zDvFfz5T&Q`aO{>8`(>DV%I(Y)v3KIv#;0)C8%YmU)=cKg{sbYh;7(*A8*SC>k@kZK
z8$u3f21K@de$TfKrJbeVY36}8Y7tgcl5*~roV%BSagMG-)IIdx)At&8tu^i;s+v!?
zF?+WbhFJJjC%<?^at8hs5k)2MkG?y)Fp?~4UAnM5vf6ogosQqMtd_wh5$AUrC3oZE
zndQ=?dsl8Xz*|Qc=d@Sy?_DvkMArO6b7#{*R$X&iA?iPM`R{p~?t25U@k=%Akzj;Z
zA~g&!ZlYhR>rdCW-wW(X2l`fC0Vmj8`@mLMRlQ-d@f8nDj;hjm3y^9_xpIi8{I0uY
z!^gR6HvC+1DQoph$)ey=c=^g&*OA=D(HNxZFxPIWYWH$@<@j3F(Ye#<<{oDAmu?Bt
zZ&SLrpMJaOmKO38&ruDd#hY(^`z@5#)Up^`oLFv5)bE);eb3+eC>ured8Hb?Xlp<(
z$V$-$D@Bu|regj$dO_#Kn3dvlNl$yaZ_oVDT@NvaEp1C}OaA5aiKhMYXCJecn#ZkW
zuUyM1i1Vv4a@|J_G8bVEhoYf8?m?p+{wr`h(GI`_p92nKnQna$b6+1q3uhrYCgVO0
zj%4!+PDmb&F$By)J`aemL3mhT>6|>tawNz}*f%FVosoh?5K4h;lJ?e?2lYT0f_rVW
zc3dZ{Mt$7!==V^?i@^K3hKgdvHq?v8MG1_037gSMC`7}B;HO?jS#)}5%OhThYIreP
zrbZ&Ij?6V&pwJFvnzQ8zTeFl0#>WOKK^ZZeX;8)iw1ZRY8;yuYZDb3>i7^HHL$XZc
zuFXx{AQ~`^e?w;&z0sqDbmuQe%1ozk^k^ANP8#SFqV?(sA$^1Tp8ZwFjLmo<EY)%@
zSNkgFH(vP2`Gp2WcYbru=3F<^zhF^}&%yHA@jsq`go@@3_7fL|g&XKGL-Mx@gzwV(
zDRL&^WC~v=V>bwS-yokkGBq<P^KJqq(I^4oU&9N5EjwJm<ga~{-U=RDK90b!@G|B3
zO>zhovs276E@u=0v3)sM-9tB?(QRvr)K<Qh&8LMzEI+ECW<`P{Yt{+X2W_%E_y59s
zrbrXpQqP4I3UkQ!urcuruANh_b(3#7%Q)mqE=MVS#?BJ4cP5<@iC<8$zHG{yv9kk)
zEKMx16ZWT}WXXPlT`bz*yv_Xuu>DZV)4t|u2YRB@v+b*{b{Npl7qMfm-4HdVn_8C+
zN=^Ib&!+qLkvV@)x{Oyukxfa&_X8(TXjAWU<8oi3X%A8onr~fow=SKP-23n1gs!`S
z9fj_csydg#sjlNv7cl6FxzoT`B-m_UEo)yk|FP=_uG{8h&vBs4g(C|`=daD1k)Xtv
zsC`y)Kg)!7Jvb<EzqajB1i;GBony(sGqCO_>|aRO-&R*T@7VBUvA++}*mQe0$qZY6
zR#r)Egp~R0I;{8Aaaf#{_+1!`ZbgRc@~2z@$rV@(CoxW{<d*MT8e0+)d>>M3hRj7E
zonXj}afP6>cCS>sR~{7!qtb@M!F9!RPa_g%w5tcC>VcKRcTTTWKR<V7y{hTE=a)RG
z;29}+W-ahkA~2k&dK$Dw?;xWs?tA$Ap89lcL#nn<s_k1oC)Ms@C%wBRUw68u<z9W?
ziusN`Sx-kB$}7-$e<?a&UOaakohPEskE0|D&)vmQg{O^NdB@x?hQjrc_x}cDxRvqO
zW#%+?U$m>D0mg94Vmm)Thk`t?gtbR-BV1$QwP5X%HWK{l)}|e0WQ-;|Iynzxcl}xr
z<I#^{qy@1ETb}LEwDA9+98Eo$%_Pv_L!Iy`pz2vO)TdBX&la$QshWB^CwBo1y9*d0
zQ#fUen{iN16GG^z;&Dt)L8!BqEP~fV?=X7KVdcQ$YNCW3u>g0Olv`V#uuUNhYPUqd
z8#ZN;7h`cBMHmp`XneSwcn;!V47@fI#Ohye(#c^Qr22{2Q$_&3BKWf6Bl2lP4=Yt8
zdzeolT$Fs;+G8h3h}YZlWUVt{RmWW>o^s0rL5@u&jArd|Teujc*{!%q96@@*E?XXP
z_^X(Ou<NnV_akOu>g-q2Husm&wk<2f{#C3HCfL$eR(9gD!b}F!WINq|rr!eLxvyjl
zOTM%*)C7yyjbBMiOTUVi0;kBB<Wr0~k$PJmp$p-97={cqNc6Mi32PXH2_N-RXc!Hb
zvV8?`GhFm#j1ziC<nET|G9CBb@_elLg_dk@^mBirnb*MlM;~(Mi*EOBsR~}THd$P}
z<#NXwjHm{qb@7%tA8!FCT3+PlP49)YOC3G2nj97b#J;MtQ}_$vCuqfRR@oyTz5e$I
zJb}xXoRKMU2A3Fz#If;lS;&~rP{_x%6G$F2HZ%x~<v0ePFhtG>oS<LkCm7%HBMN1V
z2ID}O1qfq9Ot?il<D9_tA_9&V)6u|;nOKL6B|I~ERTM@kV^*@L!;Q#tOihX?Fis{(
z*_c%F*XWHMw*K4n_FHg*PMHN^g2w*?0T~CAPAV*hmF`q#_99NEcnmAyZiV%LF|Klv
zUlFAwW{0I?EC}Oagfvxk1&&DMjK-1RMV3WUqhc*PaU+;8RTAj}@)nN*FXu}lacCHV
z#HZhVdf{}^*|M~2d0@5u;BC(x-|CSIX?AdWwK%}YZ4y!@oqIt{D;drtovlkl%V*X)
z4$CRmiUW-O=#i>=KuK5ErmFj->b|)%s6^#@kev=4?^><g1??CK*LqiR`nReH<_#rP
zNC>XTi9^H*H@{(YmZ*o6`&TRb)2%(ryKcEYC|YmrStz>K*qmzYmm2$*&#pBdoqy_H
zOZ)d?AH|kC?mU-lIiK(}J#cbWfk!bgxM4c6`}kvsFmciwP4C$)n?7_6%$skzZnzfh
zlDi!uS_*ARtM?@B-b?<zbbAkDdNj7Chnb{w=5cA4*Q)k|Kg+T&D~{VEYqifXuEkxQ
zs5vLO&i$;iffS6#R@;x^FnCSyQ4&o$b$uZjd@kqIH7*w<d8Q{vo_W{P{@A6RPX;gS
zTpFaK>+MWV+q&Mie{M)#Q<Ad<=fjDk!mZpo(p#`@>$!sLq2<%79f!ahzW>&@-g*oP
zv>pS>#LqblXgSTDpKI%$8@lUkeo*-s%L2s?B?IU3_*%VU(?Lk*Q7HN_|I%s^nXJ=7
z53ag`Oc?+0-B&o<E}v^(Yy)5XcwDA2S$}3{E|U(#D|dTIu9lRmQ*w1CUETL~zSoPG
z=swBWch|XVV=q@+|BDAtn>cShE)6W{xUX!d);s0NmZ!0u(v9tZ@2QPKMEz1Etn%Z)
z5$>6KE>YibuFxbE7~tkzctlhJ@e7-G;E*Xfa2(#YK3NU}@qkWSpKWqc$?QQqc;~Ip
zHn}uD1o1i?;x@T7K`In$rWk)7-$0nT$_zDSfGwj!#j;coFAPHkMGRENA)l>eSU@1f
zQKsxXeKSNk#V#XOf!Rf5N{&y3w}k&0<?tMXK#ASzH3V6enuSM{NEEb!2@c|QM@*1=
zk^jG7m;gCotwcBJlf4rA@J3gv?V!|lPz`BGw|1mj_e-t&)sO(>INv{f>#*#<Yi*V7
z8i;JmlWS;mUy2x#Yk*tCoBS|Stp*xJvLvCCI2Xq+&EVc+9NEo1a)S>y2~@IbC_?Xf
zh9Wj}irI0Bv8El6pqA>#)NhjQq2IU{#Qb;cvP4E(ONgQsNd8TtQ_ymwU?cShcuhJl
zXrMOWtQ3qO5YoAg)Fkhidd{Uj8l|hy*f7WsTc||ETmqu&ut~1rdSTESYdbEhN_ka(
z$&7bpJ17Wk$ERmt6eXK3v-3n5!$C%4{S^(rd?n6tywUZz77^bGiZb!(Eprap@?*qj
zELg@-QKYUDjUm$({|3HT?+(MNsbtmGG41M~&=?OR@7vtZ9PatAEzH~)#hn5R73@UM
zx}$i$>D>dkzU1cV8>bh<#UpE;=DFkdT&457e>=8t?ptpy?p`YSXx~z7wQ+yC(!X%-
z#<h7Du)*K#iE39T3Ii!yjy+<ggbj?4Ob>rXZ*0Oy$3854PW}gQw#)}X(OBQ(%!k$p
zHX*BD&V;<V+Bopgga}0S=52i1U2OaOXLJeMM;GKXF&=e!%L6UdHb{aUlRZfq$gEWp
zwxed}BQ)fNYiALJirjELi^i~a&mxY{_CuqogG^)#EW{r}ye2%$HeOF8iJt59kSujj
z&ZS4T%A$(8L?hX@Zd0!g3d=n)6gNfPYAe<9gs17m5P;Vi0Gk2=Hn2s)jTZ>HnH7iP
za3}+HI{Dv0&orh|Egg54X$Mi&yn45-;RX-wUNlv>s{W3lr{}qxHt4nfIND0BKLT+e
zYav9lnh-Z`(P?kTBin2F)mlpPLU*|1R?a_o639&3c03&n;9m)m;VLlN!$_`!hv|O^
zckD9DR5AYx0uP@lVFk0jjJqoG0L-Hfm1v2nMRtPi^vDW8I(90v?TmjVi7Sj^1lU^&
z(ea1~=9U%*yF4sYh}(n7YEe$la%!1`Cn?!2%3gxw2%&Mt#^RGgR3}q2W=uGkfje~S
zDIw#N%`_(LBSWD{QTPSrB_0`>WMV+1O~%@)AR}VNV{JPDzx=Zw|ABzs8PG@Ib={!I
z-;aGOw&+RKA6TtFkS_D#uBn@+f9Lev&^_D%v1_p+S=M^bUAbUhxSVtcKe@CV{^Q9X
zOy2%lvg@gJw-*HaP1_CI!pIspJY+n3<7~>)EP0xjno?~;Qrpm)XXt(<F6jAi_Ji4_
ziDc!0PkoKBVfnD;1K6?jN>#n{1@~~K_2PHKNoe1kw+p166Y2VvC8t!s8&`Q%)-R4o
zmEAwYEnN+Z1CqDvhi0&&yDLD?^G)(0(t9`oU|$-*(a{tScVK1D?R{(fQ)~XSbo*^J
z9T}(wCs)BQ7JOn(mUk|<p_0B6>Bitvo7A`)yfG^2_@OyjxtkgA(7{wH)0yIXBpxRd
zR=jKc(KY|EY;mZ)q$2IA1YdyD4SP7ZV!gkDnaG3q1nn8be-^_ntFT_@#E-Tkjnv&P
z&To@KBa+0own?GcIfzr+q|k(p;y1QQp;?iNPi>PzQ~rntwn?F>Rm3)kO>O9PGk)#(
zZP+G<CeFioHhqPgX5}G(#5~X8GmyoxKX{gHD_Fx{nVNosT|cN08MMVj_N@@;$LZ8J
znYmB$A@+qwc(pCR9Z;bHa)Ani6Iw3alWKBf0NV25ot8;RU_oR|bj-;-!`z8!+<$Jt
zO;<uRW1Ye0%q~sg!)PYh8DuOMC#FMDe8i%Vu7<?*Tp2UH;8Ge~6DVAV;rKsBX~I7t
z=X>NVkwd^n_<eG|3kO`nZ_<x)2^THUTrNTQB?4j{JHU>IpjH7WVUcPA^eE+uDihVi
zl5;ri!r7xH$<?&@94VzW-`A3^j_rKUCtaP{xRIo*C+o{EMM;^c8IW89>yZ1@4oU8z
zbXiTRtW_#&T>^}PK|rn#JJeH~aMrAs$)6z;{t_+DGb<-<mu<~Il!-CjC8tV|b4<>4
zujf+J>FJ5pIOuu7`v5(&#S5ZE<G0Zg<pIG(d@CMtXqyz-?MnoiUK!c#+ptZF?DoYq
zSh{6s+gEVf@;(QnwvP^;>gLqUxao>5-4xnJ7uryEiQHfMY@1p(8K&oaf<^;+qzw)`
z*_CBRI?$?@hT6rnpXK^MM4Js<w-$C0$%!2DMX^@3CD~8eTr}d+SbS+Ysu7dArujCs
zT_I@cGf-5Xsw05b;a4xWX!~+u#QeV>lkIkRW*U^GskVVV+krWjI~UHe01adjr6H3a
zzXCi|S_pucUns7eotc;zX5diZu;c{;IUsU5!9)%YfOD~zo}o)tmArgQKy2ZsFXn(&
z7J~0UO-)B}B`%~R(Fnfrj9;0oq-dfhl@CWT3_zEd(Ko5O1bnL-mf7Uc%*9^#B6aZ$
zGCyWTxONDZV^Q3(7_?<96VtfISNPkgQr6s1=QH-N(Kk2QCAt~g1)v@FD!fdoLgY|8
z0q^VSogkTP#Z|(Zk!v5eg)Jrx&CXXWf~4GPW7a?beijun0Pn1nFA-aF)Gju!I$B|p
zwO(GADi28Ifwl6MRC%XV-nmxZJ!ell$`e&*CCAxx86a=%y0aqXte2eiivegtvXK3Y
zVT28HVNvP5%Ibv!Yn9M?w18kO_NIy&q@sq!-DD*_lIlDvbsoLFH`#dxDiI`Z?^*V(
zwc|oAy7SB%{G>n8{lr@P5vlUX?Q^S@CrGc-ykRnzl!7R%u1VB%tyOhz6v7X4=3*RZ
z+9wt5OIHU{)$LMs`&xD9+!=Ieu^D(K;cQ)Jef!0O-5~tFYfF^1ea=}>r<;8}VZ&%B
zA6)m;{hXC%=R9>7hm9g6`0o#DzgUJ}ifx#?AG_?hv*gDIYlb?xf912o{fQwk)Molg
z&_Hfy;CO}UUzZ!;GHqBMe#0!v_-zp{M0$RcjCa}Bf7qR;5D)+tRcG%2(__hz!}N(J
z1fWkiR1+JjVI5plsImMi1QaX3NSQM9#eGV&5mbPttV$dMXJA7EZ5mKguS^|h2M^h|
z-sn~WIvR-GLtn*vB;&ZH4)*Ce`Qx@*VAYod0ObaeNRrx?cji{>R#xGALilq`n=Ayo
zfj4aapHaYHki(eDQxs~FK|-2B8Er=t4H_&<DeuCw^G$>5_J7!z^lJnKUO)kW0=Tcp
zmvA&JPOp@%HiJbhUst#KeSGC%;Ksnh^vdyM+0om*x1UXvolH1SVrzM77p6ZElV$z)
zaP%N{BevLm+mft2k#L__uWU}Z<wJk^I+3qqDdgUPr{e5fiz^5&v{i^!Dvz3y*;8mM
zQ;o$SktK#sI7+7d!X9>&2#sUbr`5!)zO?-8NMT`KN)6XDBXbh?v4{CUy(m7i9dqRQ
zH2Q+oP^86?sd};IqkNh`hn1;`uvn`#T8foI>IL?&l$uxyLK$=H9c|4W4~@N=J!Z>3
zC`tSh&@MQo5HEtgqOUG8jZS!ajA`YwhjGPe{tdeL49Rimm))J7bDEfEcc=4_yehH>
zafeT^1&^~*G{8(NB#^E~J}X54P`;kMgWgC6v-Lz%FNKkbgKSXEED*>JM7{@OKfPs5
zA$WL2tSnV4^jmn14W3u`B94Mx0C#l^N2M7lAap(QD)=edBY%Wq@D--whd+UwwEBR7
z*!97<xeI#mRNEn`?GUMZTeNREe>vZ9R=@R(`X1+-&3CN<p$Y8{8is>S^a*=9=`}hE
zJMPiR>F~@1y*o!oU&A*=m6*cOQB3~msL+UP?Az9|kvy$wVS=3N<k&F2!Z+ycH^^bc
zjRhac#+L*B76rUQ&O79ck@F*R7{mG}^hPQ@`5ZJ`1;0;T+EBuOCFkFebB7!fcrngZ
zzyxptvqK?R#|%$y;XY$}Zy<*jJ#*+Vgt&&*y~BNGG+C^l+wGRUpL=<We`5%ObxYT>
zxB+pcrE4X=$$mFpH<ejDOJf@xewN2J>1U&D*kGwzHg9tDyYaHI!Qxvww!z_Nd1#Y<
zHclFj7%T^u&u?(_yYk%a{yUx@4crlLAC?ZD-(-OsCya+I_S=mc9DeTLQ&;%GMf$Iy
z$ff=bj((T>H`(vTMU&Ceu;}09@bj6q($apr>~{1=)tek%H~L;MSoSR<3;ixdmyfNK
zEuXyg>zmBK5jCDNSeh2ZO^$vyzGl2^wCr9i+l1)dvitKFEEdawjbfw4w-8M<4dMoj
z+h(Z_oj}Nj)sCK{T>LCYSB~8-TRHiIUuWJsjWC_~Y1<}6ZFngex{n{6lskXBapi@7
zUMwf;Pn>)1rvpl|W{Y<Ty~WQmKJSR1jb{wi7C&Xh&+@TN`q|jmXQ^8@ZE*OxUB-Uy
zpt106ylSYhw5*^#__>2j_(@!Nev^JTdulE1@_f@&)1uNI6&P+_LlAvgJi?9Oo2(;{
zvPVo8jmr19og=u1I${Z%BL!hgr0`-vxZoZ0h&5b@Ff0CS__IfB5jzQd!w&7uslCZL
z9pR!FP{BoaxET4Jb2!5_QiMB~T$$2yZ$zg074Ra17W!1*mB`e1EF$EI3u!r<@VEJg
zaDK-C9Ee}}c^9z%?*L3@xnyvq8eUTI9`FO@XU`=ln6g-n`Ly(p;ActEq+u4dJWluO
zG?nUuz#mek;aKqXr=B{?pPv~Ui-_VyFnQPc@yV-@Zpl0ukckKuEg<ssK|ADLGZ2Hz
zFokVZW*AV4n|of*UO|M58HG%ROf!KZgk=~$)(3kq5|axrqjecGeI__#8^x^%AyEX7
z@?fK@v=LpEEi}N%|NdknGRAxlPfge8C|#~OIy#TZ5T8V<U%buTvlhKuC|SJ=RY_~(
zy^5Z-iaz?-J)muO@0^*e190XNzm4~;#bhs#cJ5vA{L9*ZUYpwgjI{rmpPP&}S(~15
z0=`BjMrA8E`qbBJI7b^54x^qt>Yb<qwi1RgXWOX?^)4GxSAqfe_G12xD2F}Fr>zZW
z?gN-(H8ST{|3g=LO1zITrt~mcOMcCB^)5olu3nPy=pG#OW+g(G*uATIcfI0{W2G<b
zeq!9#s#g|MjDn74_Z55c8pk|PHkRP#VV#)EI!6(ax)mR(A~>++$vMYh(L2Y0I&@Aj
zWX~@=ejBz)Nw{vy^NFVB1^=duRnClA^iDQ>(~0s4d2V^8Dx)oG5LOLAsV$FMvV08$
z&Uid#`gj4mzk08Jsd{6L4*(Q|O~0qzaSbT=#p*J=w>K|`M$Kotr1nN>-7d6FCzXEd
z)Vy2TrITMxsnlY4Z`U@ntFspM$1BcM*5N{eqT7_Evr={}%lgI2V)rxui!W5S&d9_I
zs8-y|ypDUBRW#1U%{lX?$;rdED?{k5=}}N3XdgZSl<+hP#%29L9k_`Oq<$nU-%T7x
zIHFJBM<A|OR_4A*Z_VV)l5>(Af~eqFsD&~eTt^6oCx?-#1RrFInCcRUv6HJfPH(K7
z-=#O=>T>EMmQSwWEqePpoM55M-8WL%O>i;=^4DkOTPI#b66MR@?2}z$Ap%HPfrnAQ
znNsyO3F<HFt{4mGpuC5Z{T?B|L39<|zn!xc$(MEoC2KHgZC`I_l966>D?@spI!a*z
z{r;JE&nN=F7P@^n>Fi0Dl;8B-@TE!yq>_P^!L^c;a|LNvdCJAFy7+rIwdt!#*EFQP
zwI3FLQ2e0K>;d&?E-J=7bJc!WNY^x`YP#;$bm1DhGJmQpuvQjW3Z~iyrMAIT+mW@l
zBWX{q{N2=hUOrvd`eFQoc)Gsrd$k|c-V5}m16`@WUMa9Q6&REPgXy+@HR}nf?F4TB
z#kCBDxR!yAC04)y)*txr@CSzzzCCo8UBid2f8e^0i{qdc-zU}YTdUc>azv^*NVm+@
zf!FiZE`(FHyQSLQYt?&J+E%NF*tt;pT5ifqSG(OdCeEFg_FhPOpL<~1ntZK#=zet#
zm9Sr`-M@x&mzP(oPqGsFC2xPq3q|+9N?+1@NXx4wT&q5b8L4VWdD|o}?m4C^6;ttc
z$<w}cTJr2&DUdveab`7}YM10y4a&2r9Fk`UWqIpUl|iX8n5yhgR^mQAy0%&JccuLM
zB>z4d3|#C-&00Ra<~_WDOBZUpA3TFE$M)dzzIzy=>faq*dQGaqm$SCaBcsbRMMTY!
zHJ)PbKQ<!>xMD@QEK)vP%nkxDvQJJ(#PR5OSj?1YskI=Nl0^*|9@AtlSpNh~7~S-&
zOg9<Crvcv(xb^v;pq&c85bad>2-?X6Wq*P2ccClOq(0fUZqs&6B9u+3VUsUXjt-5l
zmP5KW`qF|TF|OLCC7O&W+Y;meL>9e|pF=DLJ?hLFNrjD|UI6dtftr6CLpeReBwTNx
z<iklx8?N;D$8nq92Qm?}pdZ6%#yRxe9=GdVqs(YVyB?JX>Pa^o)DuY`*n=?vWZn9x
zZ4R5+s5>4vecZ7l^;EyL9x$+w`iCuf)YD_OO{t5hr`#Mm*jw$5l4CpSNw;-sUQkb8
ztQMl4bm!}`4#guhKYm*M8H+oZIDpY9+mzMx@aVryU$5xdvBbh_#%o3@`|(R<m%^CF
zj6{*3Y@Hd2JO1ZNMXP@s-%YVWoM9c7&2bq~L?_U4&aG)QQm|}i@+f0rpQ?~Q8Rw%y
zTFC*#$)%haz4R7^5iuk%qA6R2a=fe!+g)fUr-PhMa=OUrCWjGCc6Li55qqN0LZL)B
z39We3KRA~0KTHqd{wqag6YG8~0xFx~KVZX)_#7kmHusqaw>)X2Qm5nuk<`5oDvBKd
zYGc<mwS4NTz#R?p7ajwWJFs}^dy^kc;+m?@oVf1jgXwftAXU{aRkdrWdL?%+Y}2ZX
z*WLb<yFqd{EbjW=fsYQP8jnhiN7vlPKC>9BhYakVixS^L=-V!`)H`$IOv=+OdAgVD
zS3Ui7KNLO&m8$Gpt?c_0w>wleE*(u)b|>83^cB1Ud}}I)lp9zpIWbr8IfUD#^A}SU
zEo&7mdej=S{r`xnvgS}i^wrNCN~mA*_bZeT(Ob)Q$$MbsgycPzPd-VNIEZ%`y(W?=
zoAAt<7vHbQBdb2c)y35aR?=$Zm0q&Dpt|;g=-L?M+!b?0vf#d$$+(1aTF({a5St_m
z(nv8V5HBF}9zlvFl1R3*V4JKTVVNRDUN#n)m>3;}p%@dAA%=TG7M}YkCpqua68;V%
ze(?^sVYFN9iyc3Q)Yrb@eZpWVUazRyu+R&wl9r7^_G;zq&6_s%I%GUyuvDy9R&QA7
z1*z~_$X=~nxp%|HUhP~>VDbD1XEz+o>*V}Ri^o1VxKYHs#awm6V&exj8!qN`Q$;20
zwUo10ESM#m|F6r)FUx|d(ZM?5KT@xM28XV=0k1bkhiJsE&?{qXKr#hT7Q+^VX%R9d
z_~dVwES?m*BG;~lqD(85u?R3AxhDKmD#rKv#KdG5s8`|o)oGZUh+Si^hN7c0(Q&{Q
z0=yaip%estLgQU99*$0<74pmw$tvIV!{&peee!HEHjv1>%>M04V$7V{(9kP@Omtyj
zPN+aC!i<CEpP0S`lNf;ry-Ym|LGme)4#q?TQEqvcCXAL>5lK&(U{zM1uw_t1VT96T
z&eA$4>xm8thY*4PocIkm8zzInuvx$v9Dl|+{+w(2bFSjgxwgOLO8*nL|F4ZUgYmC9
zIGg1B++&1;q)0UIGn;4rg*994+Xa7JFj-<~|BNH|!OM-$84VQ+)j#LxmsS7&0Ujo-
AApigX

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/seed_oss_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/seed_oss_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..109336eb724cfdda09bdfef51d960861689b569d
GIT binary patch
literal 23616
zcmd6PYjhjub>QGh;z0l;Kmr5_62yZ9KoS%m67`^{NTR4WWlL(}uuf=*14*DkP#J)>
z#0)pyt#?Z|?uJg2HI>IPy_>D!L|ZdG?uPDmPt+zSRnPY9VhB2zOxSbi6aCoi*&nb)
zH;?|<z4sf;3`m2L?6&6=hy3Py-0yy```z!}``wxUQBz~2;Fr{XIq~~*6!i;CNIzXE
z^59P(@+w7Bv?@uBi%-?Kilo)!YIv%XnrZF0R)uAnq;6V2t|xI-vTD2<^0Z0Av~k=x
zZ5lUCo5#)5HRCnYmT}9pb=*2_8@El@j@J@+U9xW4K5i#*ebO;qKVDDbRmp~F=eScv
zsi}B<-1R+`*t79QHFc7rt6!vOL)`v7O)1xXOBFW$5))%#l~8>t{)O3iYBCOS&C%4Y
zaJ5i>{CX^Nd}jJaGM-7yq%I;rIwQEYXJ4L~Nv5BOF|lc(b|jw6#71XRlL&u2mP`s}
zl65|wPRFjrg&LB=8l<rK#LWy7o6N*%DeH9V>I^d-!|H;08=`6n1o~&hI5e4#GmtVR
zQi;q&a^~7Kk~Bl-FV8$1PbKE!%%nJ0F{~{m9{f*;{5~vIoWkXSrBRJ*X!W?3*2HyJ
z)eF>B6|H^IJg%p8@v5t8TK}RJmZ$1PYTQ6q$E#oxjd4>W;Gm6jRS@dpW-)eEPn!U?
zhBgC~4xp+K>Z+Emfm{p8wZyGZVgpDk<kiwPfUJf8I{3H8>*98T*CEI1<(OF0QEJIX
zH$eUR1?r}1yx|fRb_%tZ;&J*yI<3sjoNXu#c?UBvTN9J88pCt7Lp?jP1VcuiEOlvu
z@KFu_NGT7#tEH%~t6rrtm`i>yX<6zIf$CY6L}4n5rKY5PAc4X2d!@LFx&{yvCCY=E
z)D+_1@dF4M2SAv26hjgqV8X>8t%8({g;qn#AeU(%MRqLa(9qurlU$~Ql#H9!L#jqD
ztAdneTgob@s-es#r5-h2DECRQ%5y5H#HAQO$~~3xVCG7D7uvK-xgQIsJPN7yHk=MA
z_haF7OSP0|SwHKgT)^2b#g*s3HbZ_$NlUR8Oqp&eP8%eA|3;PRk#eW@NHOIJxE?ZV
z^Xf;|e#rdHYszZ(DQ!wIR{c%b`mE-g)VDR6sFXW3AjOpD_ewhoR<TLSeO%nMiL_(>
zw*Il(Xnwpl=$gmI=y^<xmdD1}B4ZquVpB(@nDV5pu)@cbv=o~fkz&eInq?JriwfJu
z=8QvEOGnV*Inz*&lo*D@4LqmfnK*NJ&OFp3r-mUV^2O_k)U(5LH4>X7$x#NEaqbc_
z*a_gU-lxu=^Fm!XehzwN?&+lyv^O=A@g`D}$yqw?-N}5tGmJNpNqZ-gGwDR?nl}@>
z7M;_DqLCwELB-DLNh~lIQF>2u$_Bu0D+&kZqGbar0V`u-cNPNf=gyrw@5OO+OXI-9
zp)?q8awbN{X>TZ)4oAa&L6@Gr5od(zi3xJTP6!PXOgtUWOr$eRJT?tufLJUO7wT>>
z@#iMwV`d`8FoN~+g$w5<jvqaDZsOAAqZcm=^-4L^Vln^^hqO?mz?~Qy5$p<7JVlpa
zY)U4ybTx5PsFN0Tq6|tN`a}uJuH-0SwHaJg?77?rtC*$0I1=fy;SkU`Em$!ZE91xk
zSTJ9WC6YiBlQXlajG%jNW-@j~&|HgyjHL9qtf7enEi@=4a(kFxx1$f3XTAt{6Vve%
z3^T(BY9=n|<LSxRjkr)X31S(vE$BxsT!uL=ZxD+>VvECKU5nootV)AoMp@tFSrkhe
z6;Ng7#3H>YUkTa-NN9p#Vq!8GOQ$C$kUCPZr6wlAIzgL`C$BPfuvvr}f=V1a^xH&|
zIAA8u>;r%_p7dV$z3|&-dNR{DdTu0cbi<Os<aOVi9XzoA*}-^EGI6En#;wftnN-hn
z$>elTJe6T?-Iz(FGU=X~8}U>u(L?Y;XJId<iD)x11Kldijo!G$G~o7iBiV10kD?M`
z<Efnf1)R9Qeu3Jku6e17t9C6lu2=huddg5!sP=Q!{`Kl0AKkN{U9WE4j6@5OVJ<R^
zDIXu|DufPlp@W$6ZU%et>ESyD2rM7$6Vsu6q?~Uj`7L~)AJffzqz9jEd@v%W+kE(J
z<g3kcyPKh|w~TKZ-?F@ES;-UzpX3Ig%!e)_SdedzyfO9q)ElYSQ!AGXd(U%w&*$66
zu*lE*+TV!09(g1BdUVB6=sm&pp2+(~v8Z*^WG$FNoGFwu?O7Qq3|!y_F60J2vr*Sl
zRI6$SA80goOOevlShkE*W7BJf+lJ*p!8gSDhVrh%3pE=Ju2&PUB$l-W?|#m^Ki_a*
z!E`?q!9Maf&%&3M;>%~359iFiZ}<J+!1oV4(5S;k(%UUP<@LQbcYCf3Y(=%wz0!JD
zpEIBQ+q(bN_&1FJ?j_*OTh&y!lVCL;_=~<D9(ZRvsz}#c?l;}M`S4#bKfLwMEvOeE
z_1dAH!TJ@`OD5jDe>L#K=sVHE!6&(cPkyLT8;lQNttmmz#51!@YO*9{VIBo?t|;-I
zfe7evs*GGZRXWEJO!`T(?G)DA@uStW#!Z2Ipa#)gJJ)(Lo{BTTDZMf8Y$^e26dW7C
zc2Oqxo*sz`I*d(>{n7<^!Wuz4I}5vChv9&rxgNjyri$4QMQQAimpKF>@ZxJFq-C5c
zLC=LMka<PO&muxU1TRpVwGCg(ygK*F+#j(8X9wr($ZE26IcHa{p*v@d=BlI25WsDl
zESwOc9{f2(aI!$eftdIs!niznBqdKEjiR}%2oTX+o<Ne4RR9_Vb-j!eTTq056!&)%
z{;{4c9Fo=*;UDYC!v8I8SU=~!h-aD?mqI?*AO@=yCFlO=FaIC>#sn%{Bh*dKG7NAb
zamo`ZI)0PEDHKfC<8X8`6KN<EtlObzp<c?6`7N?c1sh?ugpCSz2~^B`E|#1H?kOh3
zW2QQhnjmRZd?zG~f-N>VIXgX@gnq-Z8NZnk%v0%^lz7g;;bkHzls)1!GXi}sBPPZP
z>57z7@x1>W)=oeGl;iUgj=~4R_-x~wy!dqSt!?;h=7S{P2h2!>^9S+i<(ryCIG1NZ
z`*Mw3%}cnShi@j;8%h4V)h<GRLaj7dqRgTcBIs}*rN<^^f`VS*(i76$2SoS#YO<3d
zOZ?I5j7*AGwF_!c^))Y==QXre(Qj#8SzNEc14oe1fGsB@lkHU_7zecTT2?hB6Q~Rb
zb{9#fnb)ykZeVq8YF@9VSPiR}OR88EtD_BIS_0b;lvgLHc>_qmGKnkrretDP@>scz
z5$bacMa>&oBW*-e0;7{+DJ{edm^W`?O^@iQnKeOA&Crt?g$uGK)~xhV?z@GxOvxIw
z(kI#^K|miYw1JEZVP%baS6GV1mMt(xTGqnWuvIWqrP*c;Yz;D_mtp!dl0k<8jYiRu
z^%+?cox+oU$B#A8mOEBSXSidNW3^HYcy`^GU_fdko02&UD7JAw<Wbn*gS)`x&^Ypv
z<^^?vx&%*Hfd39tTy}WCqN^m-jIV4uRkT{pZz#{NbllJy2{x^IxerK9CO>6-wE9_4
zu%Y}Il*?qUluyarRLNthQk|zC*#oWI18stuRI6aTyR=h*Y(XWL371u8WF9QxWK6*C
z)z48(6|1IoNTy;7kEo?()gqkKBOnV|wV#p+L>Vs{e55v26s}pgYD~~(Zh=%?Eio8D
zOBl3~@L5zB(}M8^10pArNyO80otN?S?g*wkyoof?`DoBeQlL5|Qr^sU@pMmnlZkXD
z8a4=3*JJ5eCc`kl3*BJGF?bpS<fDQy0m>j8H(+@cv~*%J!=N2OsCqueq(ILIYni7o
zt)HApT}@mQ^rTB^=F^awMiM{~T9gPJAUlKVb!~PU4xuzCC0JqZR0VkeaHQiCH>Z>G
z@j*ChbSMcLOfo$jt%T_Yws;o;5R!STV_}|mHZB@|?rvSwZ#Y|)o?Cuy-5K3*G%bxT
zpILYGynS+Y^oJMTxp42(>jRfJ9nHMG@zq1G99oX#?OiJkKWP1at0<G+Ys~jv+-UMG
z?|b9O>ql13tv4No!{ZwU-s695;`T(rGst-c7e_aoZOiR<0_)D6m2-DTxq&l$Yj8Qq
zwf3*M`ZpT=%cFNj)*E{v^BXmrSiR_>n!H;rRE_;BV=s;6noivdubVIP_WFg>;$c!c
zQ^f;TTxjtGHj^1HP2XhsE<@%{cKzQ&?yG3Tlw}+!Dg7j|kXGToVpO+aj{se(m=+c|
z#Iu8t=TwfAN=8$VSX8V=GSj1J^%9kl4;B_mad%|oJtk2zvlnEmQYq}CX!*_&>(Cmk
zDY4~BOk3*x!$vl*O{r--?zFTH+5w3Q_<*(|TbB>G^vEs{RZ?%#{kuTOM_byr3xsSm
zOxNxLVU${7EQYdU12{ox1?R~u?^4?=LG6maMuK3XfFGqP@+-ryV|B`L#p)#ZIS^K8
z3!w@vs}p-s2~O%CZG#!_eK_SIEL{r}=XwO4)v-vM8tG_7N~7&awYZ+NgPaSy&1k(e
z0>%X+MzSKmsR}0IvRNRr4DhWoyjO}T&z<moDuX5k^2<1+*j06aVwzRdBgSajImXYD
zK0Hs|)O?nDUiFW{4JOL%^Y=KoGpOT{-&C^{Q=V5fFsi0Uj;i6KEx&xH;+T9A?#G-j
z=SMN){+4iuU2s;WW|PUenJ4fNq0w|GT2vo(9x9M&FI@788Ze%rU0^w7;**)=Ew8AR
z6XPhHq9EX7l(6V1IX4Bpm>1SF&%(e24e9_|qU}^Y7h@)`#~>+&@zm_JpaD}6XwxK2
z&ZMq^N%Q&)lM$+CQ|ZJtII!n_w=@jWh&Y6qt4de54Jwv`^F0GbHL&BtIWNfo(0|Ay
z3O?!iOsV5hL4$qJT?MmhMl>Nm^>JGBl8TSl6c`Pvu0V(4v6P_2h@iicNX3|2VKvMT
z13IMcDxB=`x#^G9gAz(_=o!TEj2EWn8G`4T@FV&~prXtdah3ElSEgWnnHVJIZhWi`
zz_Nf<{mi8cV_p%-j%J@vfZ7g5LGKKRU5pn@``2gaG^`CSVLA@>_UPRF<Fq&#OQG%l
zO56)_({mu_0ck&%h<TqN=11={F%adF36KP1$%#1hDinTZM^|<sf^eOnOU^tWXNX+K
zT!A@Yp1}ZTgGoXFL<xj`LogC+Y5Ms@<~s8Q%r|}-wSUq0Yq$&oDv2`BW0@A!dBhx}
z(}EQzXe2&4Lzkd6&|Se?-e19V=~gNeyGc;M_PL6!U&G)!21LdzNkK#ut|i1L8X6|Z
z=18OR0MaJ>M0wL*nyGT2xs#tn+^m4;-$G;QpMwtb0#&T0Y)u8Lm$Q2FR^Rf~HES2|
zY}&LoE;n=5Zr<Ly+_z>AZaCbpj=eHgRI3}0fZ4Xu&%4^TO#1qUqJ?t#b2c9sA8VVI
zhO$PkssHWE>$Zcu!@ZQu9^_i~agKfWJ>KQ!>=f5_V6~lVJDT?#D|k+Eo>O_xnS$pD
z&htdxbMY19rYE>)<gJZ4&y$?>N#5xLyqh+6!4~9f!R7e6t&6vN3ic3Z4`mzH?R$1h
zIoIvIN|}4zK2X#eY8y6u!R2T3zP`n?#X7Omd~H*qww<eOU!GmB?Ot&gdPlk5(Yw#D
z_g*NfEl?xWoqaYRI+$|=VbIOpchb53k$leyuIa?R+O?)LMGe&$fuP=7beE=~o@!~!
zwe{sa{l%)Xd}t}xI>glu@h#y(OApu5lW*x=H1YP9T>BtrAC%`;)p$v@>4NF?ZJXic
zs~i{%ZC#so&$4UH9?p&zx{q<)$L{W1?><vh8|&R0qOE$RDc^p0$;7uta;`|RP8@c@
z*T?z#Ru1KTN0h<;dh3=77V<l%bI#}oR27U?T4Pn?ez^-DmM?O#7Qp^t%lFBu^--RV
zJBGIh3jHU!{*$0IK&#MiSIcXb+ZHg5dp@JuZ0_Kj+xh0;-<$M}?xF_D|6$94&7I9T
z_w4ND)5=VJw41+8j{%YY$YUDaOZ~W}<)okbakmM=pXeJ-)lxrcsXtvq{bX;)Nw4Ow
zTU8kPJ5E_N_i9ua*6urP)clP>g<(y{>HV6&8B{?isD^)uA}u*?1eK9Fi3!v@N5NCZ
z98aZZnfOF3J()<nsU}*eV31YDuv%135j<=ryh-Fzs00Z*(cIaO@hZ@EX|R|wFJP(~
z?sY`Ag<3s>YCiLOSfHb4r*EXgR${zneh2eWZ)M^bd>J7OcqK#-3pJARE!tcNTM{*7
zVCAvt3Dk`R9ry-KUKfnyA(}Zg3HqkU$&ja|(YoaIK7(vZ`ibnyg?y@#+B+9{e4aIp
zO-#THgA!cS+YJqOju$C-ygl+EK8lfNR0jV>V{=hMB9ZP=<nYl_Wb8>Xa=*s*K!-5J
zQP`dB1xF|6=*%9^JN7IXcvm<Z$sWkL_Ab=?%-NYepLZTyF!S~8%ePi~U!Pz8Qm%e*
z!N}J;F=#B*_jC3Ah5AEW{h`$}KdnExZ~`uqvc3QDsipd*FMPwbvUj!i`}-Hp@O90F
zIv-c(Tkg--bu1j`L2DjazLaYWFPzzMdzPlM_UsqlbY>fKE&X}-z{1&0tGi$ga@OE7
zy>9IUwvcVh`j%#ZCt!h}vqJrKYZwds*}hy$bkX!)a6fNrS{lzbugt@JOuJ>_%;Mad
z*;jN@4X0FF&6Ldrd}gD*jj#9Jq2HQ%b86L{yZD*)=u=x7b%SL~r?VN0l+Iujb#(JI
zoM_33nc2*Z+010QK?~0!V&gppYe7_T$k_RtLWmtd#b;?=&8kPJuV^OK*TB^DIWQH?
zYgi3Ulxwh9mSSKv1=ldtZ(dQqY}ZorTJR2$uP9ipqz0ALeGRL+rkdAYqrldy1yf)b
zVAZp_O4in0th<%^EUVE{YbxsHs1_{ApP>I$Fv_Y+#JD!8p4U8I77J^}2;X4-5QZDp
zF}?6${s;m=lZ2akJzOflc4g2bCR{D<>2G7Hh3rPSc3@(uYw<L5n`APv=arkOv`~j>
zd5hzHR~lW<N}g$gWqVN?tsC3-uN^MDGCMHL1uJabkAi`zl1g)c5iTqmJ%z?@uCcq&
zxR-0(yOPW|9$&D$H*^Nb)ouLQ(3zFJOS+}lH>wv-EVli@spWX~=<C-xb98kKPEmui
zNC6bwikhtp|0-{4S#Dc1`T3T}(&rb(Ha)GmYWL3@I~Gp!=9Ypv$eCg16xxq-?Z*r4
zXSw#X_fF^AKmD%xGl0n*dcT@Fd_h%eb!?Ybb3<j#!U1n<$yIxP^Fb?g;x`|-AWS2(
zU2Zt$*8UaMaI94;R57BL=C&IVG#-)N@~05)wp&;gm<%i#nf_=M`0T0fs3k)b7zL<G
zMrWu;F=wC*_vDTrDH{SKvFw?r0939aQFxj0sv>3y4sT3=qQQ(o?ib(=2JS83?sZ<5
z0(VZlahcZ|u;&$SD3skhuP<v)-fgs&nD8DxCwka}RV5w*zD@JsL0HKY26q_hDVs8S
zDJB{3fV+5syHu0<vbjToqNpkPPD9E2UMUKOn`+=SXQ6ciYXI{<n7F4Z;gAhe3J%sV
zB^xA^+=^zL%8(U|7_{zNYH59dQ=JD+rQL-BWN$E~ZK)=?!_q$cH1HrbYfQO!#i3M{
zV`Vsi4+BLQ-4vk|lS1ERD=wQDVZ}$l%e0y`!8L@boc3v|JcU;dz&)#;r@(;Zm6`?9
zO*@!wWRpuJZ%<mLE`Z#1uT82yTW)lz8XE-#-%Rd0iKQOybB!|ZOrtjt*d@R@<`i^A
zWZ{bto9iOl9_p#Uy3x^Ev`<K$2UnSyX)w8@Z_K39@o3o2c(6KNpE7M2;6MZ|ih9gz
znEqo7zJ&pi;*f5@a{+7)jG&L*0Dl}>yy1W)qnKAPKx?32IB|0_egj>)#j6cNTuOtG
zxgWvs6k*;#*fLKnQ7W`R|7MdJG{@rz1)J=EC5`z%V`U;+eivikK{OxnH6zFv+%RdB
zQKgdwpQ3bFSDK-+BWo`3(Zl7VPz`vtG>eL=nKIi7CNF35X3d;wV8h<Sdwf}DbqJ&z
z2YA$|Yb-@GRa09q`#7@?t}o1eyv<Rt1vpy(YS;#V#kY2f+SiJ<uxEtZGm>vP@wXZo
z3eJnuD$Dzny4A990TknwNVX>zIhgYtS{UP7J9Aw_*@;~1Vb0tPw;(xlGw%s6j1{#J
zgN66B6+C-6&)$_(-g9DMY{Oc&IE?yqY|YxS;q2$z+E@BkS?H;&4tiQ!_r95m?0=xs
zxGnF62T{M&P_^|1TQ_Ix&P9*hb^f*IFFo(tF7V;OqK>M8lMx_Gqw{lSf59B)%y8$@
z`EyUlqCv1X^A49N<rW-$oTG0u&|L`Z;{y8%fkRy25FhR<gb#7yLxu1OE_~vBou<+K
zp+*PlyN+rJ6&+NtzYrMY0)wmC!v2fg{)_p*rJT79Cd?7e9$m9{zYpDO->ml+>O)+8
zDC;PMhq>@@zWxYkxi!9`kpi!lmfZfa+<~!N_yX5(Vd3O`d(TEo+j8WaGb<{trI&9C
z{>&d)s@kg3;$mrGvGi2$UM2aP5Bgz@zup?AY>gjKT7zZ7TvsqR!(`_?XV=Z=cC7aY
zWW99&_uDjF`%r&*uxqq~`l}8thMoRVpY}%<Kg563cPs>tpET()^yx6{=sMY;`RjTW
zghCB^S0-j=!L1F*PcTa!A|z!50XY*BONbk$2#Btg;6a!cYGr6S%UY@;WlW;1CH-*s
z6H#FV4jg<(g4Lw|jMX!L`VuuI!IV8&JqQioQ5YFOp|ZH+S5f?xj|iDrSF_b1Mgs!|
zS1Fk_0><+Gl`u<nO7N%Qa79UI#}De_Zr|~f>h4-czCTtfN_FtQ1`pYixNlbOYH0Nx
zjRbWG9Fd{z3P*6-!m62v)M8a>8`OOGVXuCv>~#i!u5f@euR?x>yO{KsKgp=^C<c5L
zj(TymUV^t!DwWdOIS{)h)n%_#=%DYi0|>2xlq?j{SO#jC_#-KK^(wc%>saJ^5;o=5
zlL!>>b`G>93#DYW0t&1YOZ%bSb}6Mif$FKW1<FE7o)lv>AP!g2dcZHQKR{N(UPcG3
zrkr{JUal+Qg;VAY$d4##DJJ)(!l+4aj*;HTqXjIxL3W`S&1$B)CEUuhaxIDCLEr|b
zqH@Xx@oC$BfVGle=uogqBJ33Enmc~b;zM>K<A8pmF>1$8!YKN};QhO@N4L-NC!wBs
zGxVy$K48s+uAnt2uS6B-+0qLw?%mN{NLH>P&FnT#SOK#HhvIDtJdNgS!1w@8Q}b3(
zdv<HD()!CTQS(;TN>>rpN0o|z!xkQ1JASNHY8R9b>$W~tz%9WdH<-7+e6I2wDp**H
zR709o7I#~Pc}K&{ylvNUR-hkNcKDjFWot|0)PvuIjVO?HsV0oGwMuWG<qCMD9^$+M
z_16JZ1!ZPY<mV{m?)b5F&rypihGOe>p@|B0q&Bzp?ICd3w|RTz7U*i$E-9b$4%PuP
z0qe}HvURMTb+~~lCr}+AKN#C#DXu)Fod%HdeLmqd3V%l~C@bEXqf%Y+hNa=fYQS6J
zY#)(d8<fU7U(eR3LzST`Q71qil-g3Bw2?NIE2aux$Q+lTpk@UsgWO>WLV0FRNbz0T
zQ{OR3GfbQB)JT37*Hm|8`YuTdZV8j}T+}gt4tQl{QYlFvh5S(^EyaM>tC)VW0`e*P
z_+wN?LtDWq60{op-I1LlxA%INo{8t4+&Vy2kWFAu9DtHjVhiPAX-`DR7-T+DnSKGo
zLn!~BVu$R~M`hPEunnbM^L4Uo8h{Tt4am>WmXAt|vre{(F|$=u=RR5nd|UQOoOiJ<
zW;%00f&y$6_K37TVD<sk_i0c+=NsqUtb6K7sh;wr>m+E_HFZ(Rmts?wrI_+W?hl5f
zo?U97{=ef_xu0w!a%kE<1fdGfr*fy=NA0>YifnikMb0-7iB9G<J1D3LjF)x0Xb7L*
zF%U>f^EKZLqk86}<v_t4lz2Z{!Ztq(YXN-yFX0sSz-f%9@NOKw(jMOJ6!ui&a}PO%
zE8vz!C7r^`9$`IFS>;ioln-P24C|>}PEO$#wnf1Ra1ZMNOx%1c?3q?_=6c~Q@{-fA
zo%L2a4a;2U+gLA1sBPqYl4VA=m2Jbb4)hJg>;ud`g4xgdr|`0I$B%YO<AsYJKMe*#
z*trN>Svq?dg#_3@i3i*ROcWacOhGnSNuJ%-Y7jp6P=&CSXSAeW_RuaUzp|tIkR+pR
z#4v+S9OO53U5Y7BHYkl0MhWeadM+|c?Wrj3{^!F^bV9Gv6DcO^gtFfENzN#?{ZSkN
zeDN#qT{VNUWQ8?FT?weX2K0)LPX`@DbLxN<MLDH{sU+<IDi47c(8z`=;V+}{FdJgS
zA}tfj+zn#`V0sjFhf37F3l26!XdzO$&+xXwL#eBBt?d*CXPbJy^Wk{d$o4w(U2K=a
zOW01i6!&R2;q-fCdO~Z6yk4J(mbz)OBOXmrtma?p>aro`KUH3hf4Vg!JGug80}a8s
z3sxRw75>pw^Kc4ayP2*}w$hJY<6C&8^OQtgC2!nuDLwT$DW*JW2d%$TFG>0;>a*0M
z_T`N1G22wSR7ZI?tRi<1<br+lvgn-iGURW2xkw8cXxMmwt$tl~76d1}v;7>X0`n@k
zOD&1!P$>UEd@SX@q^|Vh4~ldDLG`K%ZsP)4>Xz!iXr5Prx6jjnU<{re@MKUfg<B?d
zbPsrp!o57Xnn|M_R(`|8Fob@tH*YY*b4MTNZUkS^6F(H7yjmio_$~A}-3{n}{lAGf
z4W$V+ycamMGy)e5jh@%4Z&xoj<XxfcNTF+#>l%I6HTtu_q2G{qUVbmsshU%Nah}0j
zE^_AtugQEB;(|I+x`V>GgW3KrW~#mju~#rdO`vw%QqAodC9m--UZXgCuk04(rDusB
zvN9NOrK*NYEO1<cci~m@%)ckC_~x{}gI?d9rpxOK?_<J{Dc+kQuOfaF3~EDgWrm*%
zAa`R7Dw|9-27V0if|fxMok5wLL1CUbjlmfVP$yt6VSv^|CV~MF1;xPXQsVga4Dlsp
zzJ@tp!r%@De}Vz3^JJA7R9qR<Q3Opab&EmEAX9|_>hVkq2H(N}#e8(pf;Wor?PZZp
z$V*H}IpP)HTNoR_0L2u>i@_5ZoX6k=41N!TuVXL<K{zU2`u$hT_yGp17`%hQpJVXf
zFn9w3!6JXkK=c<e;!FSJ0#x!HLC-S;BbS2{SK{DU9v5oK)u`xA3m1nt+22QW;ztO?
zeCC^^0R<9nOKyr+tmKmtm=fJn#A_CGPZ8gx72gsg-+!oyC4s)_TN5!FzMCP~2$0kn
z=o)+=0;@@Pm-xyNxXhC)MnRQeeu!OwH_`Ee6J8pYKHEUt-O@toJtVQaf<bhG!)}${
zTp|U6fr(GY;PV{d+g?q+!+_12h{JBFyGAiVhEXG80T>)EaRL@<$cw>Onb<XaZ%n8v
z6-r1Zug|8Q74+9KWP*%W!S`SE2Zj#fS3krLQjnoSiIl1l@0d!-bQDJV4BWLo{!hG>
zZT{$etHM*}q92b3eGVCp-b8%&-gi+pH@M)~T9*e3{$b8Pe0PTP|IYok0J)~@<s7{Q
z#{tf9V6`jnI0?6|zPd#VTp~Jr%W&BkyyMT(h3E+`dLkbg1xMS+na#HDLR&xA*3Y||
z3$8xS)rXZDHeG>&E5f-V*?~gmajx@t-Zk>RPVGCPT08@{i!R^tlVAPP{npNvW9zMh
zIoBXu={j6+W9e=wH1@4E_I;nd-_)_9UT^BpIr@3K^L_9E^6+rWZ0_L99qZ;WAZhEy
zSE)S^!`tVkHB-~_NFgw=78t11I(R2pT}uOnrarEzZ_V1bi5JivYqpMTFK6p|*Ve)N
zLyOvVo0s<o#AhIk&o(I^+JT!~dxWz`vdKd9Q(W{@WX__TBMM{gse^k@M;#2Lci-a3
zx}$s3*#uRf6{~;E>L-22`{Cs;aprxz)n4)>oa3y$oBoc4k#)1T41B}hnl-N5`*Y_0
zQf_F?8iJ^F6}{5R***mmQ?Pe)c5sm9?1whH_F#v@o7-~vU=QyaU5XUk5zbAP;{?}v
zBJUn8f}di;;uy@Vt9=7jVr;$jc+PbkT+Cq%^=$=52j}R>JHq0%^$Iu#pXK_`t~<_w
z2Xw&|;#{FTEbo;y*B<Crv-iH!pFOkg9L(8pF+JfzbChe2W;2DJ(_GK#eDj$ceB1-S
zzv1IdK5(sGGYvvV!AYIW5IR+|oV6d$z?#N_*~6JVOLU>7k8A16oBQ9MTn!Wsj&TRa
z^7}5VnJ;YC)&Z>;TtJw<z=DalcosCgrH-#_Db)G7I`Gdd1ctf5@Lf&5ZUj6&;mZHY
zAKc<?^}N|xFt>2#mZkK%8P>%5wf@CS!P(0>d-L`_a7$P?UNliwJ9G<a3cLE9$!ur7
zeczgCA9Q!KF|d5O5FFy*ukrALWz*>|I76J1+`Av;!bk58=bab9XVv6f>RU5;cvoQg
z^UD+9(fZP9AWGiWvfTW(20uM=jvF|a-*cX8I}hv7XjwQ7W5Jnd&0AXubp$wTAZu8&
z_VS+g*FJyy^C%A-<+{*A|HqdI;e|Oz7zl4vRR?|%Ep>}VT!-Lm!?%aQFLf^8ba1hH
z)84eie06xU_u%TmyVrBQ7mzZed}mLgbCl~G&3B%{j1b?^iO+!agb#@XLl00e*$jlh
zPhl-^2pl3p4UiRVSUeB>qd83Wdk^R8DY*7=u6^*WmO|(l7dpmw_kt6Hr)5i{Yjkhf
zsOHdp0B(;I+7EN>hk1WT!9U3P2RFh8`EYk3e4Gm(zsG?0MZ^c)Z{M?3Q{`zXY77DQ
zmd4cFP^3)Y3gJTLP}=5sQxhTZz?wZEc{|*l;=)hx0kVJFHk|(Zt{{APq2N2f`3`IZ
z_uaLx2TyFFXGKw?^EPa0s?gP=3W&%-wlt!WYC|))%l&z~KdUW-j&PwPcMq(E&cPlf
zTmfjirQ`9}BhdZE@aw}XfkNMDuJ81{gL(g_bHHNk{$&Q<72y3{+40=|Q#t?X#dAfi
zt=>&03Oy(J=FmHX*^almzuSFJ3#;7WUNXT}ZSJ_=Ie=fhImhii_tVbvuU9RrmIq)~
z-`M~9{_JSp-@o$3!r)nM@N8l532yL-y#I;KP=6sb#D#_mp;0ab+nx%BMc<Rvqp(L-
zzsLp70_I=@D8Fk=wdJDR?T?&5cio~MW=~|1z%s?j*>rjqYhZ?2L$A%;p24GHl#7n$
zTTX({4$kYVhyUm>?w`F}aPO)$A3O=UUf-gbZ*VSZ_y#xc_P-Xr9hH|=lXs6S0!MN$
zUHR%Q-sRyPUXd+jHS3Np-r@XK|5B#VI>5CK<eT<#j=hVxeVt8P7RupVWb^jGa;DHR
z$aM_n?Sq@%uI%MP_hAnHyu*v9d0*$9NnDweT;Iuj^c3eiwRo2IhO?d7uAFyp@$@FN
zn^<#pZ2G&%BKq_GeM{AR-=Wpht54<nMwhhft{xacN8idRu6=0r3taoB;QfwZH2cLY
zn+pyt8Nsur(6onZ+Oy(VZ`#L)`&W*x9Lu&W;Sm__f6Mx&6}@_%;PyX}4?VdAUjqqc
zkF7ODHzNZppI@2IMMjp+!s{Z1)_!>3du3$3^#C6|u<Bp!%SDHmO*nUfLTeA#+OyKT
z);h2m=#aPB`x;enc(c6=j@)23ya3eEiC;@1Z=kHk?y7U`$KS8g1V>b`RvnS|4ccG?
z+=$wu@b*nG@{d3Qv;|0P6u4Y9cda#dfqPMN@4L-i_x(Nh1HF8-Pm~=tdXMq@j>Des
zi-6~QupQne>GEyCo^L5q2H5=|qd2}Y|K)jdymfN+&g|Tp{lI3+PO4fw$@{vpPi3#=
zeEZ<-89apwP5o<4{i_<F>iuW<wyr{3FW1();?KA3ThjCGy({gjz2A?lbmiKQESWZ&
zT1)Vz!u~OC|Jc3E`u@uZ)wbeWo>{^v1~$@m0N;)}%e9>(vWwKn7E#xXw~Z)C9pe0l
z@~)xPCs!HHbqrjh;e4uZ1BdBA=#7J~AIwhW{RdXtR*&WUM;6cVfjw{ASDw!I9?SKP
z<N_xa&u_v;8u{9JzNZ)Ya2Lov<xCTKW%SVMBo{qO7$r;^^2jRWkp|?E2Err#-Ty3;
z@Sf8LWP+qNxYjxdqxQ7DcINgO+*wDsjwAWzPu;D(+s8GJZnpVh)Qv$n$-vp%wFe}F
zm9w1d$h)pR8$f__ug~FbJHz#z$#<N+cl6$sT*s43W<E6V_NCS4{NB;r-cz~I>7|<Y
znnD{Nk6;>rV1B)IK?lbl_@~KlF7eG{@Esm-q-*T>6-Br|l>Ii1R{Nhe9StT9QM@V)
z;V%z)r&=}tr$q%}*va6vzhIo0fR`|4lkkBz!8|eXh1pnA{M;LZ)tM#?@V=LPV@-Tz
zh-jCn$qHKh0tTbUVlxIrsr+M%=`b*2@MjpHm4UqTDC)xh7m`9v=^JyCanLI!K!e{0
zx#XiopCZZuQ;U@_Xu|?MNcX>fk>VRdFI?aq9WR_OYWsA?<*pAYcoeUz)ViLm<^ctd
z52`J?wxaivT4&_j0!0mpbob_9NxIM8qq**jV&0~qc5&pT)(1KSC{AhXbS*2IA_b3C
z?dqj>3=c3`44qKvESn9DMIA<9r_^;6t4Oq(GPXZ3km#8DtX}5;Mq1Qi1fU>VMWP^M
zx{3x8HBz47@}=A7izbpZQ_X?p<F^kNYe>>UxqZw2+n%D8ByHGGEs54q#)c&=XK4PF
z9n<9988R{9Cg$JaBoPJtD8x|9OeW*x^UUdJ?8+pWc|i}ae1Znapyf%>kq`bcT^RS`
zXZND$SzP+;UR3<-UKBotl9>Tq;zE)YCI$pz${_XxvbdmZiAygW*bNiWz=>kaV2^-a
zz)xB9!WDBFywn426ni3mgpjddP8-Pq@KhSV84cfPnV8KalIf`YMNW}0k&HzH1=7l!
zlsG+y5JmNnNZZ5AZy*T-M5WPcQPikZst0CDW%@aVe}6{>{*G$+1y%PetwE*!6$QZq
m3_f(IA<$DQC_ea}!Lj&M-q7-beoKGSq;f17Kcw(Un*0B=L9h@2

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/step3_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/step3_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..66b16c684516e20a503a1bcc25b2a1d28bdf6d38
GIT binary patch
literal 11565
zcmbt4TWlNGl{0+5hY~4?5=n`Ai+W3b$+jfNk^Gb;JC^b&8<(XyBbyQ*>I~`F+7aT9
z086JT!UPR0H(gjk3q)BP8v)x7?*fZ8_5}m`qY+hbJgY9WZGc7hXPMeTitfkmxpz2}
z%+OBSy|ymz<J@!aJ?GqW&$(y*)oL{nkfNF&Mgn~V@f%c8lD1HI@>fu}P0$2QMu~v@
zO9n`&tD>ryI-n*|n>wnAX#-kZCZoE59@;cfL(CX3#!LZI%p5SsECEZ*8nDJ}0b7g;
zP#9JlwZ|#~6}YU6R>m9w2QKTQ&RA8T3YQJh>R3&nh9p!3<6vC(NO@&}S`~4MppEYk
zw27&>r!KVC-5~wu-=fNtpOg&K%nwpbJj_5@eLQ}{ua~OEu7;9hiP%DvNk$U!iwJ;A
zN)_WwG#NUXiic6_SST8mEVyZs;keKhMzZ4COd=7*ot_idlWZuQWN4-7Onf%M#zJVg
zWO)XWK>>kPm{9pbh~*d-YUW5hk_<)@SFYfy1(rCIm}laVMY)>|#py&Wm`X+Hu)IMz
zuP9WWR0B2s9QeZ!h$jIRO$OAoDxjg&0WGZw=x8nQLKiSF8b-_L82uGZz)0&E)2u2@
z%#yU>9ZSGW8yO4G&@!vRZDwe*GB(=6P|#|J+`6bI2&RIe7;08k3scK2a(Pxm+uqUK
zD=a8bNdpvZ$Iy-fw2U8(FSN`W=!$nV0ViDvunzch!e13r#Z+VL)x}axu_WWDDa>rA
zT`=B7*TOitr*>9H*Fjrdnz&8|+|z{LEm6}+W?|nh!51H!e2`FsZvnHw2Q2f2e6a-0
zM14sR3}1?4IB4M(m~dn^6860@d9EiKnP(6rFc%L<A_QR&5w2H8cs0WLt}!eJtXB}Q
ziOVT2+3n+!p(Hb#igx?LDV9sHJ(oiqLqjvmgkq8S6=fm7XpAeIh;xZ(goaU^4^I?g
zucTs3JjwYY@niz64TeP-UrZKEc?l^OFktw<|L&(~ND!|rc$v8pi9^$9s`~4lOq|AD
zHKkp9hE;v7PZ?$3+ru#n2$f_^Dxw=!LBEpJP(XiArXc%}yiFvP9^#gYCw>H)h9{L%
z4JV%DiC}R&4G=*z8Yf)SD771eUp>Vl(35_xq~%fz3@aIeL42lyl3^jiMeu2?#6-Cq
zO@!xzzz-G<t>oC#HVY%Ts|@W|OB#-e&a#z&Q!)mF;b@5Cf<X=~z~{U9hf96Q*h1ez
zWT6MJTw#(u*HecM56vH9`l6A`eG4~|R}=BRYtd+|5BSC2SV#cJxW2>!6AwlD@PxA1
zaeW+;%;27;-h~@1qW7Y!L}+`J4Ru2=*ACh5ZxY)E>n*)taIMsC8Ja~`ZCbNz-Dzr1
zYqksxVsl4Y^Gk#834juko-HUi9m^zBY`i>c<^c4YShGa(<Xn;X2)UftYG~IfwcTHu
zoIgYmtR9#~28-i(5{{;NO47s=aR&ItI$?xl3(<3MT!PACwTLpDWX1#vUrj{9jO5_v
zBMU)%Fhfxw9jHmpuV#_PV7(}-gG^x+>qae&kS*4i67<=*_MuTILu9S2dB0t#>{zSG
zRt}`~qPg<Dk#|Q{Ue9^^1#kcQ$xZJOv9m9IYRl3tQq^f2>w$5S8Lk01`N1S}JvkLF
zTu;zJ5NOv}^dCV11i#ofR}^prCMP8L_X_QZ)*N{QC^x5E#0nVv(rV?nEU6;Il6nu`
za(vM2!K>jl<HRLU7H`5#OWGwJubVUOL0u>+>YP{e+F@v0uG0{_idWC7fP31h#fD)d
zz{yzjNF;s@IN^(jV$4WW$9KQibg9eVH0oDPP5l<_c5$Q#38D``Nro*2hEc<pI{m}=
zP#~N|$Wb`gDwdIS91~*0S0(KgHj!G8^l)HlbVF-FjYbyydbSm&lBij@y@O~aLD19y
zZY(xPI*gN(toT>%XE=~TfR?n^LQyaR;F5z=juRFisVWH290NK7?-dja+UsI#sX&zl
zI}F&kIAk}8rv}39z3ac@-)K4c$egX4NmGxhdePw(oy|F?UvT=@8ne#sv~j1gIj!4v
z)!jASF^QIQqNV1ER$XgKTb~#RkN?(0dOXuAx_x(#-Z}cwNcv=E|GVe%YUtUaTq|uG
zlyAe}!y?J{!n`b)bVRs#@StLVKP-+dkl!YFH9GdC={m`&Na6}HPGrbSArKM}nR4P<
zP8IOvd<X2BT&{o4m@?ui&j(_x<+bHRktQR%$3n-e=FFulCJ04b@tR?8Sh)2|hNM-2
z<qb)jQdSNbtkYFq{CWMJIgPxr?7CFNLulenv>NT4b@GNe#Wqu>gI{HRaD?>uIL*Ka
z4IVL&bSQvxNEMc(B)YnBQf50qkVFzGJ)C%h(yrhJ%NzbFdnAeFcVRB=|6?wsNx$t}
z4`D7Ho~r>UfwXc-QYf)x=FPPJ8o_Ge*MLUEN#3CBVfk~wV??dMqyKs_CK--Z(a&JW
zkjpv^P>KhIg;dux(M${gwzojGzXR<gNcVEhb@g|Mx5zR*Epm_FG$ol9Sh&F1WCW>;
z<c$TSjX>+fuSj~h-5D_4C0#rfy9~ej%W!Kkp}1cKkZcMR%WNnLhW=3?0;rl)H0r0=
zCR8yX&4exub^ujPMUBTvYOpILZ6wLWILQ<NTMsN2a9|`g%*rAgKr(@ii0&G&IV1yE
zJqs*Yf|BVqq{L3JY=V{4urioDnh3#9H1QTV6BhZREGh<kWx_IH#jv69RVEf<4<PL7
zdFBQ?h)No?b4d+*mW&ul5cDKxfv$p<+@mTfusPxWF50S#4PR4|&jL&U8jgi4;wF)|
z5LKSrlkZP%I@?z-W}WTnaglPow{&YMM>Psm<LY;^RIga;z3aW>&D9PFwF8^Aht@A<
zbfUNUZs1N}&9Z(u>ph$?iA^1!bbs9aN$>k-Gh-`N+wRs?=Kl1Sdq8ygM0e}m(L1AS
z&1-DdJ(w96>+0`z-04_7n62x~jEOaMD_1{wTWst4Wd7s%pT$;mE8I`aVy$P@xLNDp
z_O{Cwz%S~4=^ftg>{(;(b*`LT-FIi=D>YF+vf&-x0Z_wF8cHGi*0uM#zYd9ziY@+6
zCO)3{+2o2buOoc^jqVYlVFc8<w{5L@)6=)p*p}B5wGC(?c@t6RUDbW$6?^x6Hvj4T
zz1V|mo4qGKrXL+ZEB(lv?;@H9^4&y5wMbQ^t@%SlRY(3HVXsbGziNOL3f|#Ae5ETC
zIOHq*qnA1{r2i)ebyBPU=OOJ$mHA(^+LM$SZb+877D=QyY|ls*a9dcgX62d*{G?<^
zE?4dXB3mpNp*g9d2wiNV3PY5JumNUQ5_*5YH&Osfw+SP`6XoutB!a<-FKXTSH$mT$
zH;`FUb_`9_5laT>+j|2Ru&|zT7{Svh^b<r983Q=+hWo`ir_uWMuD<}o{Tg(Xxlq~j
z1JLNWlq5xCv;92ys^75R7h+h1`z@^6T{ZTdiu+w&gH=%_lSB2zt6GBlu5g>3E)Q9D
zr!TzsiaS>G2E?;JnfeBr;Eljn)3>0UNtv~jN_%)~+RNKLt18~Ad)wxUH}x(}mHVtX
z7sxT(ZH5=YBB?CTcivpO*5}Gq8CyYF13UCQ{Cjpol(RMz45h0m@yXS2Qi{?J_vkjr
zNzqQ(r42|CIDpqlwgc{AVh(AYl2m>iGH&LIR>$rTTBEFQ$x?o#EVrDRw`54x{#@E2
zudO60nAykQigqu+P)fTOt&}y;+P$=lSK-;q(Nb5yTckU!hmpn8{S0TzP+Hkv`PIyW
z>&%WqUzw3}jU}XlDp<$Jxq}3@=&o)qJ6?f&!OZ0HDB4ZA*~^bY5<+W`C7n?(y8)&Q
zKgw$<Wi|Nbc!AV{{Cxh$uBg1s(t5=f&yd{TK35|nv#=y7YhAMP)`CU`{kdd|Yk8yx
zt)K^O#U2l=whWH4RIn+S3sgYfb4lWhFxZ!(mh3zQ4-y1V@pi>yqYXb*Emgq0^(BL$
z%3Z}eqbQ$$G%e9XS4rY4ly!sD74PSyUjc(T%AFh|ZAx}2Fp9qZi1-UtvPWs<srzOH
z_kGK~!VP+byl+)n@y%c6bd;YHYp`$F0p=WfAp7ij8i%(&bGFKGS6SU6Y@}50Ao~9)
zCkjTPhl7#?e6J`g-?m*(nb#{(n59a-k{wGT-v*~S<WH0&zLM78r<Aj?<oNa+-NQG>
zeY-+~`xOeVXZd!6fOq1`sTqj2=&|DzPyY6QA%PE8c=p9l$Sh*lNxup^Wb84hu%nPI
z+QJYO2t%}}2f0c;ei8%tHQ=JfY34e65P&3AgvQV)z9T<bqTm3=@+m1<;Gr_bGQkiR
zjzj>&SoD%$y6-A8`RiCDy^=c0#91V1ED~`Rz0XS~{A$g;6-i!|>@(-jp9_v1KX-0A
z`0|NUXW%InJ%`Dzp)QJF#3b7upc7N$618iWLwF!UOW1gq-=9&i030`#eF;rP6-O4Z
zS3ffpzpioM4@kPu0=#R}l67|g%*3LXR7sawKmiOEnaV8E0W5m>VK1OQ%^U{-GA*5o
zEpUFP?3KQPdM~1E8f7ymdlhA`p$t7ENcL15+|e+2x(qG*A4W`+AiVOkZy*R=Vs@4T
z-`R>epfDFv9|i#L5G0CGK<RRVz9Cr^9~?g!vfoEI<gp4xBoknPw`SlM2d|68au98S
zLl)RxM_4J#Z-*Xm&{2GFm&P2tBNl=_i`}K(@r$6*BO-^C61d9M1m!3=$3IuEp3C|M
zHmL!z#=X<fwKo3Q<foHs=QkRLH!L3TDecZ2)xJr!Z~K}tWJdF2>vm1^M)&Ym&B%s*
z1VEgwoTGEo(J4BbbB<oY(Yuz+^^FUC<6DjsqSJMI@`K5rPp>(1{!zg{nr%HMIFEfe
zDfWW@yyff?ot_;}cg`~)cm~#6a)YOY!Bbh!>5Nfycve*(9NTeua;_f1)su4#39g}y
z!)J1b&kKjoXAi%!<+}LT)4kKsyxr2iX34f3$c+DZa@*a$(f`tx`}l_Q_)dNA+Tyx#
zqy9+d)b2uRe)gu|9QY7HuIsnlLmSSar#hm#cB9sxt?Il#y)ke+H*i`QIGr6ho9&qp
zswUDW#fH9I!$G0pV76fh=ptI|?@hitx$>G|Y5vjV4%LvOIt8k8ZGWz7ROlMrqK=7n
z=WXi;)}K38XL7AWLhDer@vvY&{GnCs>dR=h>>XmeAN{sGw!46Y-o~7#U-0y=zbtqT
z{*F+2>mTgT9la<Vy$FbM_7=h3@`YM8Z2M1J#jS9r^M{GNmax_p*wZXf&8zGt<^Rh|
z&#+)j=o{N|jPLFoSTG{^N3yM>f^!sDP~*<kbO|+GYwTvtfY{f+qWPt(8xy>H)78CB
z3a$ZY5C;z-PW5fqc~|IM{Q;r=K(_ASgO=QpDdEV}X5EyCSkx!D`f{#=g6rTqyX89a
zR86?+%YbL=rgkp8ni<bIy96glTdw;h0scFWKkO8olaE0d95p#dyWnWgIR*vC;Kn|@
z1$V<Ud(BdQBr9ix!83d5vrnPV3X`?9e4$nCYlUIH{#?U;p<(~}Ozyxb;lQbE!|9Ag
zbTq6EZaP{;U;q1Oc6|No-u3Pc-?7Y@okGW2ORjTR=p4><o)S7wJu+@}UKHI8J6(Ob
zt`kDniHDJF*9F1ek+H7acwEzhy8H(pM*bnOG5xCGdo5#yiGeINgPS#j;^09{Kw!kz
zww-gH7M!OadAFRegFJrj@r!Mpxwa!h+Yzy~Pi)=yi;2IUTtBwaJhtsW^3b~FpL%N4
zdh7FQeM{X_wb4_ZCyZ6qc^6Spm9w`C_VzVRu47n$|MrobeO#~u_Zy$8RTY)+`s4J;
zTb7UH>YKk9d!We;ofU@8X7^7BtrLQC0)*ni%=5Uj)7YA8JRme45M8bCKj-obF8^Bh
z169^_RCF~w(QBHjGiSdr5w51~&fd>DKkZx(JYu#wXI7}~hOW<jJz{5Xu5(oA9Nq32
z6$g*Qx_aB5YPF3`u%C{4*pIIc_ETF2`*9&bkRxLj99Rz~Qptr>GF)^NK%b$Q6Mp!)
z3^{}%%0A)n<TaAD?HWNec?Ckn;IbDmfl*dAK2{zZM9ow%D<o{vsv)pJl#5&Pns1y{
zQ!Xl39$U$*DB`B(b;w{V7gSKp(<S{C^mwIx&OGqQP?{7o2tD6Ggzw+s83Mu*tPNIG
z<_U^7!5+zFCvSSr3}wdb?u6DL0~ek-h`C}=Wp_Qi8RLGLH$Mk=nK8S#F>fs3@>pI(
zA6koJ%j9wj)=;rKw^HJZhC9Y*TcUUygc6o{>L$7T9*imTl*8M=$Sum&5|u>Zc$~_)
z6+A_g_jQUyfqP__LqsV_$>K9cvKS13dF=O#PT~FHQ<K6$2-)mF$il$Z?2&vU1V{9&
zp4ab{ewx@@+XMZza{_^klkjze1zA5F{yc=C*-NlkY&v1vSGIzY&C7ldGQ|@9J}Q&g
zx}AaOMHuy?!wa$3g=i$n&Z35HltoY$MO_AL5>B7EfUQAn_OZx_VG}5uN0}LANR0gz
zvI+QSr~zAg26$JNEj$ebHj)L48h^bZ8Nr5=pQ7c3qb)!@1X-{ULP<h|2K~UJHEJnX
z`(X1y)CTvX@2yY>7gyM8Xs{WFUbr9~3By!{3K(h}k}AcdEB?y1UFFxUwZ*1yw&?x`
zFmjLNkcWw|*mGu|VD_z91oQrFN1y0zT4Ns!gJyNw@`TE2%NvNgwp?wOP>V0y<3jiG
zhXdK#6Sr(>L#9PEQ#o_JV6I=K1#{<f#y7TpV*1#m*ftNztnX#P;7yw{XGDj4C4#Q%
z%3h(eH(S}C*6*~or%hs2L$0b-sA^rM<-06fbu?}Ijk7*I{@78ovOnkU5!^lNGlKiD
zXm{<n8}1&ta|FQ-32j3U8nf=<2d@b3W9f4RBX#whK=mWY)`48>A))oq1I^!C|Hk_8
z2iev$f~6^aCi7<^<$CY!TW@D6-|E>-2=oB3zbEG(6Z~TjC$jzvf~74zxpMT^lxNi~
zG!BXNO}Y9(p?+|E<YCvNx3cxGXUyB)MjQw-KWyFdo`yh>y)I{O6zq-LPS18@&-%!t
zvs;a?18J+Ozf^1BMr|gl8ouZzEY+BBjSw7q+}ydMf2!9Y;%k8TI%43!ZuO~&uy>2K
z^=pIcJfN|gfI~(TzU2HK^vx0Wi-M9V7=$Y?6=i}!$r23yAQg%hdi22{od^em@(IGH
zrg&i3w~-{;rZ1crJ9GS8aOV8PiK%H8sY(1v5Q{zm!QZk-7VvqJkuZElaWz4+V`!K*
znSxIlB@Gf_`Mja$3;EEYdy+kcGVDvDTL&Lr_J>fCtc4Gp!VDaiARKad1%wbOWG~5|
z&!8i~qO2ZuT!Nn8ze9YX(r673vU3e?Xq;kI&&?^Zy6@(B(b;u#QluJho))Xy)@%=`
zN8XL9*KbbcHCnBIwfjo~e)2Yrwq~R4C{P%FUwZXR^b4qTm3bAVZ4|3qc{Tj*7;R}T
zGjnTkW&f&rb$ZnRVY_j`-M>Ng3&w%pX#wPkS{amYYSdQmII8nn_yw+2RAr`Dnlo>_
zZ_DdZi-D+Y&l^$6M3`*paAsfn>aF@GX4G<$oKR_9J2iEAEh@lhDC%+1K)_;*xM(80
zt*g^_Ci7-owGf_`)v-Gxc`L5kh`OfL<~!azg{yWnT?H;y5~k`EjbQXVao~DDvtMi4
zsjkgy;TPrtKs_oM2vgfvMkvXjZXkO5-RwA`JyM$ByC<Si21kpz-q7VRi?}N3K&e3x
znnlc(v@FD-ud^Mf>_gw5_3ruptXKa2tQXwpWCC!>;)ES?EEU*EM=BlbW2~8_!_Pw^
zJJR^uNwgSHltmvGbSK2RS!6j#W;|a0u9Za}VMvX*1;FDR`jQepmJFtn5%_|#_|YI1
zc*%s}aF_gYu#86Q3aAiqJ|$#Ap{rFg49n+jl)Vd8B)i-sWO+47lJL<CS@~~-`By~C
zuZZg35S3qP45aES0<teq_GP6CG95ue_mN)_P5)tZX5Ppe>u>6w>R!>1rp(-z1p39(
F{U5&`K>7dx

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/utils.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a56b69ab7a8af8ad4feb8db15fc8b20d864e3ee0
GIT binary patch
literal 9136
zcmeHMTWlLwdY<77@03VM)Wz3~W!W-gU1G<VB+fdUSaIyEBR7$9vAU^3aYhnl-g0JS
zMG94D(``Xz4VXd}wSqVZjV&52vJVQ<2N%slQWV7kEebMn*348zU2I<R#zZN0lRmWH
ze}<$eS>9&bKK2lE&dh(#`OnPxZ{PX(4|R1O0VO8?BpTc$2*0L>N^zBM);<&k;i{kt
zsu&Z7sI|p}xHu%nZ9_JZo~4)+mxpA2FUIUccF^RQBkmk>#$7`$PPfP0anF#4-#cR7
zxNpeE@13!_c>Pd)+&|>Uvr7x8Zd@KMFzQgfKbD6YHqm^bHL7(OQ(qnD2dzmB;JJa*
zf?D%7ygWEGqNhb|0yU`lz_nGAwdPS<xwjd;ZM@f`Z5x%<7CdiPTeW7jjq_;+hi#zk
zP`7Iy%|GK51kNL%?bHIAZ1GV=qL+Ef>JE(GwPE~DaNY^(ZgrOytni^X059s>jlO&C
z(svK~6ji}$E?Pya=kGv#oYwnrKKu=6&$OMq-+Cj5x(BoOOpBrRFG!UAA)D!ca^QS_
zpB71~+T)BRndx08u#jj<k0z!u%y)V+5iz34#9%TRGaIQsHJ*${v<e+VWul_BKN^cA
zr!cAg)Ogr9m5iri8cppF$2E0*<{yMvIBvFW97El@)nn5SnKu2f>0p{M$r2G8y>huY
z&`P-0eu@g3D9+jp=%iH)>ft3VyjP~y(8LPuy)wsH$*@;usJ66Jq4x<dwh6+loEFkD
z?P^-I+KUGSfw|MR3Vo&yqimO3MImh)5M*A5r0`c*+M}SHjwV!H2`iCgJf2J_DW;7^
zUr`L~jS|%reLT!GRT<HYDNRc###B<#4Hiv|>0L^66vH&8(YRzn>*4IqGgV_sa#RVk
zvB|iWFm&qfKR>8M<EbPw!U?0t!$%H|qhquzI2x2<$xBfctA*)(o*g`U?(E<NWi-hY
z?G=NCA>hQA5>0>*50k`{QI?D=q!66nn3m93*r2zaR#IVRM8mP+2|bw@#)Gc0F2zVH
z<60~Q9*UOGC+Rb+55;FFEIKxBV8}&uaenx4#S$)9VhX-n3&%01OVN|oyhtpmYuztT
zCJhbyVLgrDO)qNr>~KQmeAdYth+vvX8taU)-}stIrp2bq`=a%X^(do|%CIGpVM`<j
zI$v!cWs^~({UN12oNAx#>{2$8pva(xl<t#!-Hn}{oMsA))G8#I628QgVp_tqvv6We
z3)z_uJq+3+m=0@6(}O|77&B&!n_^TaJtUP;zJ0pah^Kl}(NwnqIcrAuE0f0`eBk17
ztv41O=}k==<H<ztrC2Q93k_h?sbmz2(3?zYiEy;nfEATxqW4Z3(U{(onl>Bn{A30N
z7g})X7f{U!rR_p}VD9v4L-3~qi;ZtQe=U-0e`{=|VgKBdt96apL)nR6)$PfMMQ>du
zJbyI%SoY<G$6r5L^fhKj78@3{`SbIqZ~GdG-iEoSN?xJ9z2p&mjdM?}fw{1?0sj&`
z|JMer+GfDD#*BL_X6zLzhHTw&Q{GL6Y&}oFrEV_ol?l3MeO#Ka0Hg2OWc1Fv7`;9@
zN=E<t7`sw2bgoyw%h*X_28?7%SEk0vg}~Oz>uKb9&Of6>4P`vaEk+5)QsdzS90!X=
zln9&;%wA)b!??pREH=N7VJMxj5dOw2fQ|ct{BKBR4QN;+RZXZ&XH*Zz@Ddws!di_r
z(=e`-RdZmiG;4zbmj~}gM>j5AM+F5A{C5hRJG7AaRoy;IiC@l)%pc1>v)Hg`TX^mh
z?~dGKOJa^)KmBh1_5Pb3M~cm@R@dU_!th4b-d|R2Mha!hkx9l(DH&6@)^Y{ga8+0j
zQP3o@qMx(2w5Zb0_NNjto2Z5_Jd{h?Ry#tKRQbK~s9O50xE{zhtRSTk#*C_Nr)}?%
zSWwu$v|P*Kf3bEgf2qp9DJ^fwQ>y(2gjjh%2-(9nd=%H6C!&`&$HH=i;@Yi7M@JDB
z6A?s4OW)&BRgGy|MN!U=2V05^7Zb@T%s`k5U(yf*H^yWHlwJfwOSS$#h~6cLDuZw^
z$vaWV*#W-SRTQFhb73X4Ddm#JbixxrE##fb*daFE&4Gi;A%+s4)D1|Gj~I<I-Qesh
zj<1WtJ@3=CNFoUgQ-(j)c^s^8_Ds7JO-|}c8L(jGvM`_LpsVs-gs}87AOUCKF?~Ea
z86z-O#v;Ha&=uktiA51;YXL-AA%_uoH3noG1u_~Y&D`WJEzqzTN)V3V-$%~7`=ru|
zVV#y2?*HOHQMmhLJ7A=6pXB9CC(}}~a75!ln>$mu&wI#<6{>Jr6Ic+HDbri5V+qT7
zZoBLIvVEBJ2rfN`YEJmNL#S7BaxSt`ckkTk+n&04HEYYL^PyXw9R<&h#nac1<eteL
zdGp*-`%-wtbKm>H<-^Otg6G)WsnxoBsuPP||6Jdy(~~*&<5!FRriH%jNVac&=9Yg?
z!M`WB|L4J_!%M;IUCXxRM_2sE-ZySEE*k~^!x{N=YtC(d)0Ommdhs+l<rV+E8TmFi
z{=jm$4htijZhdmZy4~P-DR7X3T$@03RTu+4#~DF#3u$4Z?E27AEkO3tM$j-Tfg*Bv
zK(m1B)3&W0*?VPvqHwu4B+XppLM6zLNE=fQ=zwnot3&WqD$Yv)@<8rzG3D1L2NqVw
zxWBVLq(^yH*G4B}gv&WILUT%lxK&VkGQm4oJHEhD5t}I!x-%W&6d<4qmDx{yov09O
zt(8qXZnRf)8AQ@LOD_T(6@ohynZF>TaQYH1{RvbEsUE@KF!w~!S3mc7(NkXxv|RNr
zco)y+CYN5mKD`n+l(84Rf$U?ipD6koZhIT&`b(1F4qU09ug^~2bnPm+1+U+dnmd|E
zO&Y`aPSZXb3y<j=ghubhh4%NjxhlA8;^jo`;Sar3Y9m~2+^Yy=6hhl87<5$Rr9)sx
zNDUy!N+P4uh4vDx$naJO70gF!FhPKQQ&~S)Mr;?5@R+szF;;u6d^aUd39m>Ogefs(
z>!0yFPG>7c4IAN*(`?$}++^Bg$*`(h_=t7@X9s<Z(SDd77M>bb`S~0|?E#4a%?hTd
znG(pGgxR=(yT$c5hQEwUe*qQ5X>-`?R|9)*1ww^DXeqS(>`LIohXWsN`<p+?`_JWF
z=YG5D-Tsvz+v|(o*2P2b9DVa>!K<t`?s}s;bE??Xa`oiG$y{iqsq0f;SJ74XA0;=2
zeyb~B{+hB^_?i1rMf$~oM|Vgc2Swa|yj`UG9d_JDYE7>y?S9PsF4C^ZRTQR0$d%^v
z0=Y_}a6y>1Rd-$LA3Ti{m`rC=b{L}=?P^Hm`=`@eRFpre(;1Kw6dFItvWL+5DlQ#|
ze7;+<y?NE;yW*MmWFLe!!;@JXB-)!l^9M^3+HZ9_*uB==CM>!;q@Rf$5{Iv*co+Tt
zbBw+U{jI@+)uhBlXgYfc4vC*swsJWY-DI6<BtCfZ;dk*0ekWeyWpD!qv-Ow#30FqK
z>3RwwCuHMa#7@x8kS$icM_nX|bADVK=EK-Ybo~j9`97*Sq3H2mj%4@zWc2lWfuj$-
z8GL8wn>(-VF1p;Ar{^6R5st#^yK}_byKj4ab7#uXn%v(8&8a4Tev3smqH3e+Co1Tg
zwZY|Abp;d31=Ol%sL&{BH&81T!KiwQD!(qw<SEkiS#)=oHMSagw{@$2MimWzh5Ndv
zc}sY^irZh~o~89!?0t%IJ{+eYN*L2A?I9)PGCff}nn3IUL}s*}DJPJ9Gd=JRXaQJs
zM$XQ3RnkMIdk}N26rfCOU@aUI)L2X7a0Nr~1OrbLQH+?!rH`Njc5n!;#%#wm-%aN}
zn97yu`RT=ucY5FK&HF=nS7_DUl<m8@{qRlq{nR@<KU;<aN8bJ3_3z!<d!n%SMBaZQ
z?>g~$eQSREp}*=_Ha@s_d1t=u<VyV`dDkOcCpKsUSvFm3=TL3bhKk4dA+%x^DZ;dk
z;Y#4d6Gh7UnhnuFN{eHnDqjO#wO_NT4%InkQ(f1f2O)RA=}3-DXb}VIe;VAeeGC~E
z#B)vO@wGyiH9E`M*kc&PPEl381NBLo>SEf<lTl>)u&=adA&GA<ABb!aiAC4xJF0<s
z`!Lcz!+fXp$T)IX!vt_SfsxOo)Td6bH7Be#?aQevO$UE;Zmuu0|FhOz^Up1v`RK92
z-Y4cxmmI?G{mb&wr9$vnal7)RU264|Ttdsv#UJK__kQVh_#7p{VRu;8W~cS^4IAvl
z5`2UI2{%`TD7G>!AUFCVWj$+LSXDXsc1v`qn-ebww>|)p2r4EuYfsxJ2(fJ{6-S4)
zfKWMC$E-8$NQ(&8t#E4&p3HGxM1*7h_2VsaxQ@5*AH>_$W9VyQ+DYRd#tN4^W#RHL
zva}*ZEcbtF?@+Z-eWqcMP!?{Zi6~EfcFy#6;*_Z4co8$Ah!Bb;1soct#-ovOIyz9E
zv1)-mh|eThQ%WUMz*>eD*G<oJ;n<{QRv{NVPu(uUTC^rt08<=hPZ3!rlIcP{Y?&(E
zm6s$h1ij$JLT$}=C<o^_gn>C+`WvVa>m9<u?zuDn9B9tStHJ#_V<p%%@6L#sV@T0u
zkhcpK{moZq=4Tc=bB9;_`!jN}<G{O5UVrj0&lP-1=1g{?=x<$opy1!T<XUbk9C+x)
z#3u*NthOk{md+(tZl)xNhkH;p_pC`$Yhy`}8XBQn?OmAq!Y97nU)Blx4j~cP&{Ap>
ze8IW%cbcyoFUqyczzrn=RWeHG*A+2h8$;6YMYu&IHmcA8iIejEg6*<j#)w&Nz%XA4
z`bfNZS$CWS;+Q=x!Nj=+5SowRe=3?eC4`*)rajD9c$!B(b{4ZMc5M$Qrq7SURJrxL
zkgGjQQe^`e!=APVk|{FUcZi?lYf071)8dx+%s|Zpm;5Hwwu1|^c2L#QbruHC4{+(v
zqk>3XLPJ|I*nB&<^RrWDR+`U#eDubVn=SV(2S05&_R-No^I2GUqvuPfv&k{{gRcWZ
zTldnlE3NnE<=|(|*5W<A8E^K9f@^2d+me@CzWJ(7Xn9iP?~`df>M_0C-$eLdI~%}x
z)eER_rUYJ8SfP&8)torJF=V3ODi!<Iqczg20dAFkc46yaOo=h*ffTVtNe>k0fmFju
zx-&TI<Zq;{0()9|!*;n{Mj8y-U`xxFM0gB}fV{wC*zWKca+?1uI6>HMQ`rO(?)>6E
zt9ehssIN?~e(@!IF{MX0m95@<(=LSW*aga}@>1pAiaq#_-1)v7{2%ShRx50|SI`xi
zpQOD8rFMB)x8ea|x?+veRLxz;PJd6z3H<NXKjYxuxpQWZ<&w$oj?lklsj#kF{~f)=
z1J_GEj9@^>%N|8zN;qjU(p)PZ6A)s9RGp%Vuo>&4iWGqx8WJiabk7~No7)08W6P#p
z{5c*@ZBDIhr$Bud^Bo7fzr&?J0k6dm)2^m$qTuXUvM<#E1AXpm$-ep*r*8TV{9>Z$
zYP#9n`L$&0b-;5sE4P9jg<wa<{n>p-SDIdU-@YV&xc#HPf9(47!RNDmSI;h-T{ITX
zFWWP&eA5d>Z*cKU!P~LgxO4GRE}Hwp{C!X7cRjPxIFR=ZkQa9s{Oz~=-35Pl-qn4_
zs>f?rJx~Z9xE1U!1iLftFCD_R-D`F^==ry{U0He6ziqMOrt-i||AQsFP}gwfsrjdF
z`F0n4yK{2E*HLWS1+u%LBwzw%$eX{*OC2ou58m=0EBKG)UB_-a8?zIiIF(iZy-P<|
z{D<<cL&*Dl^VLBictQN;t41)^8?d1_n)?pOAJ_X)|LuvMzHT|x&K@M$Q3SBg&JN&M
zq+S?d3w8*V*<$@c)<XbS?_rvr!tn)Qj%x-fin(L!5j`Y(Mse7zWG`#~`Rs`#nbwm`
z5pvKO#WYi)Kj(UC{+vTM{W;eI3~3}I;KucjtDc4lR#uM^eLNp$%CV?!m=dy!JRxJ+
zjY)tIMyGjG9-+6PqbfgfQNk}`aPYyAArD7fpBbs&&jlWKE#TmKIG$7|W7<hZ0hc1F
z{sC&7V?}YzC5XO%6}taLX!*6U{WmsAwEa6scs~3a84o32P;6Yhza*f^o#M^XsWo~k
z_4utGG}MEJdeD?Qc8dWbp;?OXW;wD(Po>91pV+iGP!iBAS<Uj`jlJ(*SR+cQ-6_`R
z_Lc-ROB!!(*l$EWy8p)bU;EdHS_<05=A2X#&@9Po)RY2}SeFGaG{hNAZeWd?lFuc6
zUqt>Y-w-NzLM4eFZ`(bY`?GR(U~zBug@yWDun^dn_wFm$_pjNhztrLu9l61LS6^XY
zUrE5jFN15;l-dGf5DCt#oNw(d1bPeJ`$`f>x9#pVJKECzda-qLKS;bEZK-{a7$`Ob
z^R1ymLnz<XUuZzq3^b^E)|bEMcp-4S;C<l6k%IS;k{xvT1BW|v<VQo<j)J}AYbQut
GsQ(3y?!Ef}

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/__pycache__/xlam_tool_parser.cpython-312.pyc b/entrypoints/openai/tool_parsers/__pycache__/xlam_tool_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..20a8c7553a842e263a86ed3d22355c298a9e4cf4
GIT binary patch
literal 15705
zcmdUWZERcDmEe2){uC*Rk|^=(@k=79Z;7%cS(YtZwj5iwQ`^ZTvRsDNqio64N8Y0n
zS$^yUgD%$H^#JMsi_qu{LU*$p1u=G2>;S9XEwFAU)A3+t0X|bLnOAj3ZB-Nn_6K7t
zXpsEaJ@=CDk#c3n*)0~B2k?HLd+xdSo_o%{=N|rp(WoQfi!1*1%-J^x;@2o6e#%nf
z$$y2!y97<pWSp2lu`Eu`$tGkZO3UN&ImLuxPC22RQ%$IF85vhkXrN9J*UsrCbhu0z
z*UuRy40FZ_<6PB5)tqU<G-sYL&s9%U&(%!SU>H@rcFr<k!D)58Zmxc!9;Y?&hB@nm
z6{ofF#<`}6CX$d5vHF<pBeF>4gk46A5wz~x1g(!*K9ZM89XH9K;ddx=E=UTRi?KJC
zV)Ik6pj?oT%-<9==NA(*3-i&qpnPQ>5&%;@7rhaSBo-Fpk*R1r9+{zoYN77<^=RVw
z!rWp!hTtzCG;Bhs9*xBl(UVK_Q>gSffC~m(bT-Da(Q7fmh;x?!8LqUSSWYm}sYHwx
zi(Z<aUSQ^;sJUR+gGeKS08KiSemTmpF$Qw_nfaMSB))L%8qOMEAeR<y#O7yKiq%YX
zo?e)XEG^B@Q^jd0hBc+klkY>~U&4yUhzXJ=CS)`jlTXWT6VoIu`?g_1LCa%GS`kyl
z)G=ivz>4v-4CSU3wDQ{uSYHICifI8-H?5-8P^PCfP^N{S4u1NWA!bA^XoHk8N~vPY
zs+ftcD&aNLCct67O)QfW)fb7NS*ThbA30kdyP!>o<D8NKUhz{v0xkHH{{X?iA>Snu
zVh!;f8Atp%FfvDqj6xFE2#$zI?P(HnC3XQ)0X~B8;SWQK+o0G^wWm&9&e8JkBTO2x
zgjPUKE9J;*(4JQQr5sA}mP0i+iJ<D-@BTM@Cxh}8`x|e(5jZk9%K{%BnPfwO%aiQn
z#VesBL8w@vCNEz)e||i2d}Mt5;^dWbW#Gu+$$8EfTyYO2M6Mk!R}XcTOINBPcYS95
zhEyN?P%hL=Eip`NK2c=)nRz<4ENF0}8JZPztXRbc^@5UJT8uG*CKAC+7!gd1Ozf@l
zc3}n6UTm~bzo%e6Iv0x|l!B2>Ffqu{ktlPG-Ae^q1gY7J8~_=?ismOWwLr%rSK|v)
zHzJGCL?Xt_vw{T=ZD#&jBoVzP77M0gH>j9RL=$N1E7(|knyG^Y5VVoVR6NSEkqC=;
zfTG^{VzM(ax7fKjv)G;h!eWW`<)woI{WlKAI^#1}I~Q*zt}o1Yz7>zpb;2l^n~MuG
z^9i<dVKFuzohi=sBHpQN=W;wcSDcz+Nyp+%#sR&oH0<T;4skYJP{}Sp@cBE$md5xU
zHLtOz8aFlGf{JMCxUJaK*z+!TF>Y=}u{R$Gp|}YkI=fNI1u3r|ryi>mK^;o@3p&C-
zfKu*)25R%xrhJqAQ?;TCs(-4nKY=a@!7vAt8jmb2B^H+wf{KYHmYDfH8x65L-e?-w
zBCyR$vX>xcrR{_;6+e!cl{S)ChBsmfHYwv|%rr;B29(W88>tNWQ7M@yZz7qviC3Vm
ziI~-wp~aNgDk%r7MzORU({d5Vb6YF4M8YJtnl+25a?B}2JS4%%ImNW>B8Zh)OBq5;
zjS^RAf=DVWW~*MTE61D?M3gu)Do(|cckG-B+Kxh7^;c4(E>ly{kF|_nOmQIDp{J6-
zd+r>_VO;8I*%at`^t(tXh&$5?5T(y+HER=lD#x@^q>gF&%8^tEYTyhK&nxf<ioHal
zO2j%VYBR9_VjscG!D>8f6((M26%_lf!r<3kg}rk(C3_v_?*-_Wlf>)9o&L9pW%=vG
z+a%2RqykD-$vd55*$ZG%AS}?v^)=d{)0K)N-y)bQT8(2Jt--OXxDLfJybkMMTn!O-
zP`mQ)bX4hknTahj3sZ3Xp%T|)6qYDdQKC?Z1u9lN|4>s4^9hii6r5D3#RZg{iN*n7
zAx@z~7uz8rynv+;J17;PjxH_1L5y0MrUE5IZDlMKx+sEGsnqh^ibhm_zeAEsAO!NV
zK;9A*NGS<gkoHS+KnfeI5@bwFP_eNnGj*NuBUmLU4<;eV<FR>^W@Z)z<uztuX;Dz1
zUIb-)Aqv{kbo%1?bE7e&o=z~#0>k)FWA!v>RdhO(vrAV&qasx7+cSylK@HOa08A@_
zs*>~<90;eb3+mF~1hZ5jmKd-SENMQWn8S@?tf0YlKq8CIBBgbqm>}w+0TgO!eIk|8
zex>;-jr0t-!+?a9ftY%S*sUR&?C&++ZA^!A-XY#Qv=PrXp1EE1iM}yk@5y-2roWl<
z5AgnhtpCstryhj<+XC-Do2fsStG~q8U&_|MdV4JIYR|cPc~|fHNY-^A=NjT&Ls{2w
z#$Yd~jK<)W+48RLySj|6b<^CIZ*XR)u1rH$#@tn~6ApLIKCo#YxIMmQbG$crcQ74a
zAJ5uGZjTEl+s~=C)l&tTs?NP-wZEskt4sH9THAI!z7Lx3HLuy%nT?^W=Ty#fj`y6)
zdR|Vc^RDJKO~%!=Y3=${Pq^C)YQiyCXd(>OoZi9f9a+6Arw{S^&|2@NzOx|H89PeE
zrG_@mfqa84HJND$X3W7tJz=(|E@e#ajK=->?l(xnV$IdI@U<<E37s*x?F;05Bb&aF
z)$uK_|AWDMgKP23(0JB+c6D56@cujyP66QxM{tYseW1IiTkGGX!ughtbxo$F|7TSH
z=Ud*EocAE_J@}X)9l=kiKtT@i7oTd0VBZrp;Xg(el+e$YyKRJ>%Go-3TPHx)xdkf)
zkag}acg+<Psf`_QTBx(8hImU$-s()Z@z##K)tlycYwxzrm9}SW?T;+&p955RScN)h
z_XYa~@WPL}tfK?Oj}IO`Ii&d5ZXK&9J{}l6IUxVruo8uX){~8@pVXlAPa11ac4~jp
zCPV2C5~Vv;DBVw@aHw{yR{eK1Bns=jr%3rjf`m{|GsUaclypLeUJdZW$B@r~6W=AY
zNaRaL5vVJD<um^zz$N8L1*c%E5)vjF&g7i@zD!hx7m0*))}NKm`64zrx=1P?l(}>$
z;gkvKJTIyawk3gR#NVuRj1WuUmLVNNNaAUFmPr<rEk{<;b&W`>64hdRPEx0EJoqbu
zz@t+qH5D{z5|VlpX<{^>_%&~lEL`7E%rtxjjVewpwk3%>eF=14#viB$_4f!`lV}i2
z#6#Ejh`&<M+621u;g5qpQKphI8eb{*q0d?|`%NVT6%pXVEk7!)^gN8FSaM${(s^Gm
zu4Piosb<kx`>Bu9itS-c?<p!~KY<S4_~TR}3~jgp$1hH`mrFnaQzcMz<T#krRm`MU
ztSQH|F@aPF{y3e8Tcr69IG|$Xk;<j3lDco{E|%iANlERRR*vaJ>0YucRA^9Ynpv2m
zqM&K9(PFPEE~{6#cM1licUf%hh|z*hx-PQJ2++LZx+JM(ijF3t)C^0_FCg7b!F?=x
zlj#8{rWb+wUYdU^8lR!dbWla}1{F<E_+m-<X+eqYDgqf1G}9&1Nl;eC0u;$+XhD&<
z2{+BN2sb(wueh*26;BXwohx_34pM&hT(FioiJ;NWW8l0-Foz%zbTjPCJZN07`Ur~n
z3|MVcMbn9(q+?f?t_j-MJg9vJu7-kwo|#H8=#0sr{llR91Ar~fEwX|tx(HW1nmLHd
zv?rFQV%T&9&84Iqlx|R8*67R_LV_kyut=wzit~wJD$jKUO)Ya8!OCaoWkG=^2^l;}
zb|`_2vFN%Zt~kU+m0nXiQ&r$yaX+Qa{}ALRpkn_8Y^8UIf}vkqwcXa0YdgiaoqA}`
zw!O+5g15&qb-`cOwrn-@=H1QfJsWTD%4OD?0wJre+0_v)?|ZX%XEVXWS?BQW^Sdg-
z;!G{vPi)qPx6JkL8oq1DIEFXPM~bcC&YHJ-AK81;+^$-IkSMBa3I-z7cKh^>qdEPj
zKXV-Xu69+vdTGb%Nr&%SHbDzDIMSE+hG4$Iv*zO)I(95g?~Z?WJmVgFSi5OCo443^
z?7n=XGsUK2>F)P0|Jy6+^O=TlzR|no2<9E`bo1RwAd3pE`POdnp+i5swCOswD~E%_
zd#CT7PAAsR@GbptfY^5X(>Hi`&#qqWtlw4Z9W|@kf|aPY<;-s0>`n)NYHlmE63+hJ
z4#Lv4<)G3{-;1oh$ve98Hn>N-U_h2C7?82*^IZdBZhTBAv{hS%nw-JT8|*L(AIl$%
z{EceUFt%0OnRj^B;P3%6X{q{*kQuAKEGPl|3pNDH@n>F8rT>0J58;n`j;kR0ctCps
zw5Y7@L|Fc}9VAMJl@JO>WEYuPSYjgySX#j#Sy)g`2bcInv{-`;C`CYIIRj%RD^yF+
zQjw|DL@YQrC7H2+Fr?nFy4{3L@h$=P>XHbCa_JLQKvDzBSW>Z4HM9~1A68e|qz>Kt
z-vV17YlfQ#*aC1G*^1%jj?-|90hI;mq@L5vN~*bxvwW`vEJs0U?hhrYZGdWjCX}R-
z0Sc_ka2G040oG_vN2`}eD6fLFewkztm6~EbgQ(PEDh-^0H6$cU1}F_l*k6Q0N`(>x
z8?`9@Sv_sQra>b%4N9YgLyeA+ak_b!rKB+-Su$p&8*q6ZIHNeX$*PKDLe)M>R?Ssa
z8X))3R3*~1N;3WmB~HxlqmIQMX%kYB(8BP-EzCCpAQpFlPxiq}o3O>WdWm3uP1ht%
z2}z01I?E##Q=AF-3aJP9l4j1#{5@x$br<uMA#E1vO;#r)6)o{>O?lPIs+u;@wOmaC
z-OupHRo}OWSZ2{}>Zy;eyI(KX-*5OxQLMg3-nWXS$y&PZ8Zr_~t4W(6S3X!lZdN)>
zmeJFVLy*}szxzQop_vo=f^|W&?0p7C3_IIi?n6w`b#ygtqwRkw?FW*WucPapho`h=
z4n!q_j7SGVt`@9fWj?lWI`$H$XD&Q{RcU9%s@8FJ%pg}c``lH1u0*Qm>Ypz?7-Z?F
z2g`>Fb~1`(Tz%4lxvy57mkNrz#IkY>d}tB*P+WmzL&b_UNTpWJT3Q=F?MgN#UbKhC
zeR^o(ni%q?`lh;~r~Nr-4{vbR8?a}X;peUCzPwTWhrIEB)iZf#_$%8{mE2sSc<>n%
zW7vHuuC$9Hg!p?N7IB?QJ(72x)n_9@m$Y#<xFo<%W3`+OR@S@%I}^<=l88`eUO`ZH
z&R)a^rLh0^-Q#$LI6J~hJ5b2}FKD$tES3kTwk$h1JJ8a=*-*>p@0Fy3c5^nkz<Cnr
z(2hS*5~2%SvWBa9M!$HTIUANnlAbF|Oc?K8iRt)bNX%!@Qk*Y5UV0zNvxmRJ;yBB(
zw9d90poN$)^s*1szC0zpIm6WrO*j7bZ~s&;<ee~<h&GS_lfWYi<`m)@%r6S&80}3u
zE9A_6`p#LF0!bI=0)Fb}T(js-^3*4;sHC5Lv?)m?21GDU(n_Pit5-k@CEXnG1?FY)
zj_w6!-G>Ixkawu(Ylk9F(mt#m{4apF8S~fIo7w+=>$fkTaJFUHGJYMW{VSl|r{q(z
zXYZ2onS%D;ZxMOqE6)@GQN!##Q|y&HOzSgdxKX0eTuI@xpwaa2kuSC48xS2#dR|y-
zdCL4Mjx*`yY!&;)E0*J3AY=YJ2lc4;+2?Bfq_1M!Ab*p7Bz@6Yl(_?EZRv!y?|E4|
z$9?5_d3q16Rh6_dufbUwQ<`k9ICVGABD2F&9~}}~CJ<ZTPh3r=v4YxRv9=s@&2$LO
zhlnBRo3|xK#Cq--{n36Af4SW=*1A%XHlv=BEiV9xcR%}x^X+@KY888Be)Kh@!?SpI
z4~74%r9*4w-rMii0sJQ2IOx_tf^<M9@O{^alOzxGL(W&RBc*a$-9#h<T!6XH`Cfn{
z{#nayF7S0$h70`BR%T4x$>o@ClXg!(%zO*J$@NyqJ9K(~)?WF4l=C;$VBRi2UhLzk
z04DF^`?BT^B^sl@s!igUIJyK#=;AjmmoUlhoU6ceN`!#=j$|-#TFlR$6;tJyZs&q<
zYL%=@a3+&Zrj-^LY)V%rgWn2*DILcZru2@Lew}DoJyCk1MwZv&V>Gg1Q<4`Ee$y@+
z&{x#poP}OoSCo*@U0yL%xM^Kk(O39nG3esBq7~nuFP~dcdC<$VXGQOk-kv={5?hR!
zW&mc;MVdig9E=AAu<kG=5S(18FE#}?u|fEG0++w(xzZZ+V1qfJKsNbH;45eV>vVhx
ze5K|W=3_yHpu|>q<~%}l4h3jR0UpgUgJeI0{5P0RR4Ny=*!K&+j@RL&L}mmmkkd2E
zLe<`4<_0ue@xV;%@5lzFP=}n=>h_^O6l9P^h&h9TafB(n7YYy31LJK&W0r_PC1@5V
zZ=oQ`#8Fe(tt2xC2^bu@=D-WXEJS#`E8|}aZD8^i(0%!vw~|*lNKD?sN$4mTL;*(6
zbOUmMOp4DGGxHT3Q)Z<>D%isGBRcR?#SxT(3nO?4T#vHg$Ho+weGrwSV+8Xu3ci5?
zWVK?D?!zw-MSegx7N!pc11La@&*)KrUMB@z@r55fUohx#i}@22P^e0S91>>0ZLavv
zflgY?0aT#`=TY!mm4n|K^9m|`6$KNhN^>T56TiU-x|fiTU@@(MHxca0z`TYaFQDLc
z2!f&FJIGa3Fogmd1u+y%qu?3}knqEffHUy8LKkh;ma^{w6p0=W6`l(SP<$3)1uM*4
zr2M*qogc7cpinad_Hhxg=q$MB#ieLF$F6xrjI3b5?unvbg%0P6&KO4VsVaiEgBl}-
zXDWC^0&BaVFZzlUN1($*6x&tpC9Twh=&MnBY+G0Ye@F{Zg4|$m2W9s~u~clL7tQzR
zl}IxW7JsnnFPC15Fl{xlxy8gy>{ThDF;|oo39GFrDGg>>AZG*vY%7@1qElrlC-#k8
zWW+ZIm|Sq2EIN%=yg<Nwm&68w#ZEPBgr1q6X5N6c#t$8$r2Xo+_`+p}F(R+&@?wH}
zDE1wNSHP9luYBt&1OFF9!Zd6+c=d7;jsBc9#9KpIYujyOzJDm!e~ItEls8zP$YldM
zUelM+*fY*Pc&IYgr|cPn|1lvqw&zU^siBOi<*^(x+a?G2NSN9mD<OlNBphi&#?)5O
z5?Xh`Oc<MT1|M(mr7va;!N-KjSd}-~bEX#F)UsyGnhrdcL(#TWRFyRye5`~baM!GA
zOpRxZfya831x&uRaK_O2xEf{Qc?z(}s(auS4EnRQJ(fde+u}}7W-Q$W7ooL%+Dw=|
zTeYq=-DYiX#?V_(j3~9?o!X{UIOFbtvh7e?p7P{9KJWq!)T}Bt&AvjF-dOjkis%|6
zc}wfV@q(PFrqCOj@4c0~D{Gxu*WjvQtJaZ<-yhwq?cVMfTpiuCw1P)TwKb*4ID39-
z?%lF9q!c-8CvWY{TDsP|vzG9#26>oN6plQy^yRJgBGfv`TYJ`Hy!8-FpYJgE#kjp6
zG~R1m8``jE-6vO1f70O22YPaWem>B@QJoDON*RGBZ#e7eOR2Z0wjHWHA8O49d%;a+
zt9>}%J_yfi9nHUO?z%U-L8oW4&Bu3*YPY8#*9M%sa=p7Lr3BZWaQ}L9O0j9}%y)L7
zxGjI;Bq9<#VA?Y6BfRz4md%+;l>C#%dDlqRcI-j)k!>swjy3i!-rlut=k3Ee`w8BD
zV!OL9fB0DbKtIf;+w+-R<#58HT_9g2Q==8Y8*lRVkq523{apUQAnLU@@A9P#pX!LV
z<0Nlxd1!z+H(DWYY2`b|b{wwvUcdW#-ZHQ;1U%`iS=GVvSe$u(XU^Zp`}@|TS$}`d
zKg|1wv;L#2=e8UCxrQ#jp=-T%vjOIqN}ofsn|xTsAAEJYIh@kNB-{It)0FFd*$4W2
z`nB<m)+}{0Ya4^YMtf>9+Zeii8gX({>Kp&+Pq$l+WX!%TPxJfC2e<Cs%Jhysv}Idf
z$$DO0HGNX+0T&^J5HU$@{VJWS5ApS(wIRN~KU*`far#ls$-LQ;Gy8b6FFnbddvfLh
z-aN4F59PZL<U?&RS#|ZhauvKN%lAc)tvR_{Q&}^}*B{8%9NY*!su?Y#p5V=0IrBl@
zd~gH!`0!q2Qj=`WC^$dcT)CzWzNsVAd7N(=y?q7^)t0*Y$V8>jtcNz<{6R<7cQkKn
zUaP))WK{zV>Kv(+tR=X2)i;)T`>BVvNA_2s{W0=1xjLG&1b9mTUc`CJaK5z{ZH++Q
z6Iw+*xZBq*^VC3&I>J*&9*|k;*y>BDxH)|zeP!MK*Ju9I+4UnC=ke9C{OB1G)mjs8
z39nz~Eh9Vjz>YnbZ|;VL&wE2#!NCXG&EV-=@D)DzO1`@fm?rcp`Gk;#JiA&ou%2A&
zYXVkx)UTcZVR4CkO`>nj&RY(w-{LLDADrPWFXwv>AVND~0fF1;oU@B}c4eEo*DpV6
zI*Ruw5|BA-H*f7;_iS4GU~ZoR%r+f`q1fH4;}F4AMzbatn#!zi2+iI&iNuH(I`B1r
zFmP`m(|+WE4gB3QX6iBUvM&?p&jp70z;HHj^g(wvFuEOT%~)Et9G>)G&e4$~^EP{0
zpS87ai=J;A2Htz(!42MfAx|BIZQ*l*g!TsuO2X~WQDL46uTS#Su?L5E>U`dJ=u^22
zHb3~kKMNv^A;71h1$+f^p&>prlx;rz!1kzlJdfP<4)DGMIp1O4cX;C}c<#XrJO!9-
z9^a;XIjV=Jde#qRVTFN+F^G2p;hjKVzUS~(-^u*oFvz6?9l!19|8VvJy*8WeIJ2u&
z215n8x~q9tt_^z9N?0sk=X%pd^asvI-Xpm8e%{xg891Buoy%Of$onorB7f*e?$CMu
z(D{5|2xuQ_PLFQ-`eCvI?cX;P&X9z&v+y!WPzxl8YnS)^V;`KkcV^wNaU<(HopqgA
zHEh>9->*$iX5Bs6+MYbswl8x6A$U9R-lKSF!82pzFTPb!7#iJMt)2gI@Wa9N8`;)l
zsqrmWaINi!icQzy2d$egUj%%xDBmERprMYFPGE|zp^Y<q=c%+|%iF#d&vgv*9m5;9
zVEq4hY14aQt1JAUbwAK;3_aBIhc0EiUb*+uPFL^xcrHB3hesb=&Rlpk8~&4Q*K6sQ
zV4e3_Vru{`U_I<8o#gYlZs2W)H*WB@(|KzrXh(bfc9XZb@z>bRre2`R;RcRrbQC52
z+9Yos+&IKrLAv(>y2d6z=AfPd(S{+A7mO$E%Xz}QC!BTmZP*?;N3odb;O!kbdmnG_
zTfYh}CcrUI0cM?}+eiVT&9!zYYdyHp%Ug#b-YMy`KBUQdV7EQ3$+SwO$<#=bX|X1=
z5R^Y<fbm$}xrSE0p>^%0&4vTpzV`c5>%ouaGabVj-;tE|mo^_Th&u!$Lawut`r5d~
z+t1{wE*O!+2_y10r|DdCKi}M+^$cuWe&jio7g;+;4S)>W@N7~@!afBE{<PajFQTEZ
z-OAbzZQKM23Gt4vYsc4}?-<zX2K{&hM${AfZ7BR<=z(u7lnsr+9`HBAh}t|bBEK_r
zqF^C>!4wiEXhcD90b28JHgv2HJkUPseQ6scbJKeCL+2ygK}jTMx=&>7Cm*_DC=lm+
z59WHu_};NRg|>FsnHt@+cfopEte@{*)K<8^%8YftGFu8th`-$BKpvOm$6sInSeJ2~
z0S0b#|H=+r0P&Z*6Ef`HBiDw@?me#IjW;)@GLB=LhT}V>)7DQ7y<Zm80QLp@_i*0)
zv7>?RB7WT0Gu2J}P0MIEWF9si>w@SX^dnY?{?RvLf#`n>j5b5`h$2zw8L5US8?J+J
zQ#aBF(a(sHBM{|@ks63TsXeBr^~BGe7}ftYjp(58pPG)L*1xpl+^<?jw2=FCcP*`v
z?<nMu-cge%t-)!%lWv#q1aZ2JMCo>%?$X9u<U0f2m`DB_I|=FEc$5$ZYtY}m@RcYc
z=px8}d?_A_L<B=5^5#-BUaVn|n=1a7Q}NcQOdwx<2Klux_|B_ADeR*cMJePe1Rihj
zPbwA4qRTLoLS@F%KeMJ{@F&a&+~UE=Pp~8eNAb0QL4UQu0eUB6{|<uBzfBZmcBL-e
z_89?DVQ5h4$=h88ImFxAs@uyc`FE13>uL7xT*lPOYulbEp{B4*4lAoL9Ew9n3UY|I
zwf-kchzmz$tWp`?ZfGhfQ3Ci9l4_hp2it-cCqY{H(--faE$DI9K-hih<981ij5u3G
zG<nkAyN-ehXU#-SOQ9MkYY3g`HisR?d9CO7wWyE@i6aX-u_Gh=r*0u0kKsR=vK`T@
zQ^i?RfrljAfEWb=#}kaE5U%jCYq4bp*#-m~`kz`y#sAbgrr?jPk)^~;oW<q>f%*f8
z;y>9s;BNwn1?ZQ-3x*5|#l^w)1-yRfjRiYP3IoqVf-jcEKffWu;npVI<BFvW@{Sht
zxP8$rlQE+bH!cD2c@}w)#u&Cpbcgg0P|Rq84#O44gIzZ7BBHPr0`bR(L~$~ayN;k4
zDzfY_^C4srC$Y%90)Fu%`9wpIhF=iAe<E6VqUF~_&2NZ--^(<l?Dqr&pQ7Ni8W{vC
kg7p1@82km{`K8vf`dU`&d`GpbI;SDSs}r9QD8@bhA0aLo)Bpeg

literal 0
HcmV?d00001

diff --git a/entrypoints/openai/tool_parsers/abstract_tool_parser.py b/entrypoints/openai/tool_parsers/abstract_tool_parser.py
new file mode 100644
index 0000000..e99e405
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/abstract_tool_parser.py
@@ -0,0 +1,273 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+import os
+from collections.abc import Callable, Sequence
+from functools import cached_property
+
+from openai.types.responses.response_format_text_json_schema_config import (
+    ResponseFormatTextJSONSchemaConfig,
+)
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaMessage,
+    ExtractedToolCallInformation,
+    ResponsesRequest,
+    ResponseTextConfig,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import get_json_schema_from_tools
+from vllm.logger import init_logger
+from vllm.sampling_params import (
+    StructuredOutputsParams,
+)
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.collection_utils import is_list_of
+from vllm.utils.import_utils import import_from_path
+
+logger = init_logger(__name__)
+
+
+class ToolParser:
+    """
+    Abstract ToolParser class that should not be used directly. Provided
+    properties and methods should be used in
+    derived classes.
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        self.prev_tool_call_arr: list[dict] = []
+        # the index of the tool call that is currently being parsed
+        self.current_tool_id: int = -1
+        self.current_tool_name_sent: bool = False
+        self.streamed_args_for_tool: list[str] = []
+
+        self.model_tokenizer = tokenizer
+
+    @cached_property
+    def vocab(self) -> dict[str, int]:
+        # NOTE: Only PreTrainedTokenizerFast is guaranteed to have .vocab
+        # whereas all tokenizers have .get_vocab()
+        return self.model_tokenizer.get_vocab()
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        """
+        Static method that used to adjust the request parameters.
+        """
+        if not request.tools:
+            return request
+        json_schema_from_tool = get_json_schema_from_tools(
+            tool_choice=request.tool_choice, tools=request.tools
+        )
+        # Set structured output params for tool calling
+        if json_schema_from_tool is not None:
+            if isinstance(request, ChatCompletionRequest):
+                request.structured_outputs = StructuredOutputsParams()
+                # tool_choice: "Forced Function" or "required" will override
+                # structured output json settings to make tool calling work correctly
+                request.structured_outputs.json = json_schema_from_tool
+            if isinstance(request, ResponsesRequest):
+                request.text = ResponseTextConfig()
+                request.text.format = ResponseFormatTextJSONSchemaConfig(
+                    name="tool_calling_response",
+                    schema=json_schema_from_tool,
+                    type="json_schema",
+                    description="Response format for tool calling",
+                    strict=True,
+                )
+
+        return request
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Static method that should be implemented for extracting tool calls from
+        a complete model-generated string.
+        Used for non-streaming responses where we have the entire model response
+        available before sending to the client.
+        Static because it's stateless.
+        """
+        raise NotImplementedError(
+            "AbstractToolParser.extract_tool_calls has not been implemented!"
+        )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        """
+        Instance method that should be implemented for extracting tool calls
+        from an incomplete response; for use when handling tool calls and
+        streaming. Has to be an instance method because  it requires state -
+        the current tokens/diffs, but also the information about what has
+        previously been parsed and extracted (see constructor)
+        """
+        raise NotImplementedError(
+            "AbstractToolParser.extract_tool_calls_streaming has not been implemented!"
+        )
+
+
+class ToolParserManager:
+    """
+    Central registry for ToolParser implementations.
+
+    Supports two modes:
+      - Eager (immediate) registration via `register_module`
+      - Lazy registration via `register_lazy_module`
+    """
+
+    tool_parsers: dict[str, type[ToolParser]] = {}
+    lazy_parsers: dict[str, tuple[str, str]] = {}  # name -> (module_path, class_name)
+
+    @classmethod
+    def get_tool_parser(cls, name: str) -> type[ToolParser]:
+        """
+        Retrieve a registered or lazily registered ToolParser class.
+
+        If the parser is lazily registered,
+        it will be imported and cached on first access.
+        Raises KeyError if not found.
+        """
+        if name in cls.tool_parsers:
+            return cls.tool_parsers[name]
+
+        if name in cls.lazy_parsers:
+            return cls._load_lazy_parser(name)
+
+        raise KeyError(f"Tool parser '{name}' not found.")
+
+    @classmethod
+    def _load_lazy_parser(cls, name: str) -> type[ToolParser]:
+        """Import and register a lazily loaded parser."""
+        module_path, class_name = cls.lazy_parsers[name]
+        try:
+            mod = importlib.import_module(module_path)
+            parser_cls = getattr(mod, class_name)
+            if not issubclass(parser_cls, ToolParser):
+                raise TypeError(
+                    f"{class_name} in {module_path} is not a ToolParser subclass."
+                )
+            cls.tool_parsers[name] = parser_cls  # cache
+            return parser_cls
+        except Exception as e:
+            logger.exception(
+                "Failed to import lazy tool parser '%s' from %s: %s",
+                name,
+                module_path,
+                e,
+            )
+            raise
+
+    @classmethod
+    def _register_module(
+        cls,
+        module: type[ToolParser],
+        module_name: str | list[str] | None = None,
+        force: bool = True,
+    ) -> None:
+        """Register a ToolParser class immediately."""
+        if not issubclass(module, ToolParser):
+            raise TypeError(
+                f"module must be subclass of ToolParser, but got {type(module)}"
+            )
+
+        if module_name is None:
+            module_name = module.__name__
+
+        if isinstance(module_name, str):
+            module_names = [module_name]
+        elif is_list_of(module_name, str):
+            module_names = module_name
+        else:
+            raise TypeError("module_name must be str, list[str], or None.")
+
+        for name in module_names:
+            if not force and name in cls.tool_parsers:
+                existed = cls.tool_parsers[name]
+                raise KeyError(f"{name} is already registered at {existed.__module__}")
+            cls.tool_parsers[name] = module
+
+    @classmethod
+    def register_lazy_module(cls, name: str, module_path: str, class_name: str) -> None:
+        """
+        Register a lazy module mapping.
+
+        Example:
+            ToolParserManager.register_lazy_module(
+                name="kimi_k2",
+                module_path="vllm.entrypoints.openai.tool_parsers.kimi_k2_parser",
+                class_name="KimiK2ToolParser",
+            )
+        """
+        cls.lazy_parsers[name] = (module_path, class_name)
+
+    @classmethod
+    def register_module(
+        cls,
+        name: str | list[str] | None = None,
+        force: bool = True,
+        module: type[ToolParser] | None = None,
+    ) -> type[ToolParser] | Callable[[type[ToolParser]], type[ToolParser]]:
+        """
+        Register module immediately or lazily (as a decorator).
+
+        Usage:
+            @ToolParserManager.register_module("kimi_k2")
+            class KimiK2ToolParser(ToolParser):
+                ...
+
+        Or:
+            ToolParserManager.register_module(module=SomeToolParser)
+        """
+        if not isinstance(force, bool):
+            raise TypeError(f"force must be a boolean, but got {type(force)}")
+
+        # Immediate registration
+        if module is not None:
+            cls._register_module(module=module, module_name=name, force=force)
+            return module
+
+        # Decorator usage
+        def _decorator(obj: type[ToolParser]) -> type[ToolParser]:
+            module_path = obj.__module__
+            class_name = obj.__name__
+
+            if isinstance(name, str):
+                names = [name]
+            elif name is not None and is_list_of(name, str):
+                names = name
+            else:
+                names = [class_name]
+
+            for n in names:
+                # Lazy mapping only: do not import now
+                cls.lazy_parsers[n] = (module_path, class_name)
+
+            return obj
+
+        return _decorator
+
+    @classmethod
+    def list_registered(cls) -> list[str]:
+        """Return names of all eagerly and lazily registered tool parsers."""
+        return sorted(set(cls.tool_parsers.keys()) | set(cls.lazy_parsers.keys()))
+
+    @classmethod
+    def import_tool_parser(cls, plugin_path: str) -> None:
+        """Import a user-defined parser file from arbitrary path."""
+
+        module_name = os.path.splitext(os.path.basename(plugin_path))[0]
+        try:
+            import_from_path(module_name, plugin_path)
+        except Exception:
+            logger.exception(
+                "Failed to load module '%s' from %s.", module_name, plugin_path
+            )
diff --git a/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py b/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
new file mode 100644
index 0000000..cbeb879
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
@@ -0,0 +1,390 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import regex as re
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class DeepSeekV31ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+
+        self.tool_calls_start_token: str = "<｜tool▁calls▁begin｜>"
+        self.tool_calls_end_token: str = "<｜tool▁calls▁end｜>"
+
+        self.tool_call_start_token: str = "<｜tool▁call▁begin｜>"
+        self.tool_call_end_token: str = "<｜tool▁call▁end｜>"
+
+        self.tool_call_regex = re.compile(
+            r"<｜tool▁call▁begin｜>(?P<function_name>.*?)<｜tool▁sep｜>(?P<function_arguments>.*?)<｜tool▁call▁end｜>"
+        )
+
+        self.stream_tool_call_portion_regex = re.compile(
+            r"(?P<function_name>.*)<｜tool▁sep｜>(?P<function_arguments>.*)"
+        )
+
+        self.stream_tool_call_name_regex = re.compile(
+            r"(?P<function_name>.*)<｜tool▁sep｜>"
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+        self.tool_calls_start_token_id = self.vocab.get(self.tool_calls_start_token)
+        self.tool_calls_end_token_id = self.vocab.get(self.tool_calls_end_token)
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if (
+            self.tool_calls_start_token_id is None
+            or self.tool_calls_end_token_id is None
+        ):
+            raise RuntimeError(
+                "DeepSeek-V3.1 Tool parser could not locate tool call "
+                "start/end tokens in the tokenizer!"
+            )
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                # there are two possible captures - between tags, or between a
+                # tag and end-of-string so the result of
+                # findall is an array of tuples where one is a function call and
+                # the other is None
+                function_call_tuples = self.tool_call_regex.findall(model_output)
+
+                tool_calls = []
+                for match in function_call_tuples:
+                    function_name, function_args = match
+                    tool_calls.append(
+                        ToolCall(
+                            type="function",
+                            function=FunctionCall(
+                                name=function_name, arguments=function_args
+                            ),
+                        )
+                    )
+
+                content = model_output[: model_output.find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        logger.debug("delta_text: %s", delta_text)
+        logger.debug("delta_token_ids: %s", delta_token_ids)
+        # check to see if we should be streaming a tool call - is there a
+        if self.tool_calls_start_token_id not in current_token_ids:
+            logger.debug("No tool call tokens found!")
+            return DeltaMessage(content=delta_text)
+        delta_text = delta_text.replace(self.tool_calls_start_token, "").replace(
+            self.tool_calls_end_token, ""
+        )
+        try:
+            # figure out where we are in the parsing by counting tool call
+            # start & end tags
+            prev_tool_start_count = previous_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            prev_tool_end_count = previous_token_ids.count(self.tool_call_end_token_id)
+            cur_tool_start_count = current_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            cur_tool_end_count = current_token_ids.count(self.tool_call_end_token_id)
+            tool_call_portion = None
+            text_portion = None
+
+            # case: if we're generating text, OR rounding out a tool call
+            if (
+                cur_tool_start_count == cur_tool_end_count
+                and prev_tool_end_count == cur_tool_end_count
+                and self.tool_call_end_token not in delta_text
+            ):
+                logger.debug("Generating text content! skipping tool parsing.")
+                return DeltaMessage(content=delta_text)
+
+            if self.tool_call_end_token in delta_text:
+                logger.debug("tool_call_end_token in delta_text")
+                full_text = current_text + delta_text
+                tool_call_portion = (
+                    full_text.split(self.tool_call_start_token)[-1]
+                    .split(self.tool_call_end_token)[0]
+                    .rstrip()
+                )
+                delta_text = delta_text.split(self.tool_call_end_token)[0].rstrip()
+                text_portion = delta_text.split(self.tool_call_end_token)[-1].lstrip()
+
+            # case -- we're starting a new tool call
+            if (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count > prev_tool_start_count
+            ):
+                if len(delta_token_ids) > 1:
+                    tool_call_portion = current_text.split(self.tool_call_start_token)[
+                        -1
+                    ]
+                else:
+                    tool_call_portion = None
+                    delta = None
+
+                text_portion = None
+
+                # set cursors and state appropriately
+                self.current_tool_id += 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("Starting on a new tool %s", self.current_tool_id)
+
+            # case -- we're updating an existing tool call
+            elif (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count == prev_tool_start_count
+            ):
+                # get the portion of the text that's the tool call
+                tool_call_portion = current_text.split(self.tool_call_start_token)[-1]
+                text_portion = None
+
+            # case -- the current tool call is being closed.
+            elif (
+                cur_tool_start_count == cur_tool_end_count
+                and cur_tool_end_count >= prev_tool_end_count
+            ):
+                if self.prev_tool_call_arr is None or len(self.prev_tool_call_arr) == 0:
+                    logger.debug("attempting to close tool call, but no tool call")
+                    return None
+                diff = self.prev_tool_call_arr[self.current_tool_id].get("arguments")
+                if diff:
+                    diff = (
+                        diff.encode("utf-8").decode("unicode_escape")
+                        if diff is str
+                        else diff
+                    )
+                    if '"}' not in delta_text:
+                        return None
+                    end_loc = delta_text.rindex('"}')
+                    diff = delta_text[:end_loc] + '"}'
+                    logger.debug(
+                        "Finishing tool and found diff that had not "
+                        "been streamed yet: %s",
+                        diff,
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(arguments=diff).model_dump(
+                                    exclude_none=True
+                                ),
+                            )
+                        ]
+                    )
+
+            # case -- otherwise we're just generating text
+            else:
+                text = delta_text.replace(self.tool_call_start_token, "")
+                text = text.replace(self.tool_call_end_token, "")
+                delta = DeltaMessage(tool_calls=[], content=text)
+                return delta
+
+            current_tool_call = dict()
+            if tool_call_portion:
+                current_tool_call_matches = self.stream_tool_call_portion_regex.match(
+                    tool_call_portion
+                )
+                if current_tool_call_matches:
+                    tool_name, tool_args = current_tool_call_matches.groups()
+                    current_tool_call["name"] = tool_name
+                    current_tool_call["arguments"] = tool_args
+                else:
+                    current_tool_call_name_matches = (
+                        self.stream_tool_call_name_regex.match(tool_call_portion)
+                    )
+                    if current_tool_call_name_matches:
+                        tool_name = current_tool_call_name_matches.groups()
+                        current_tool_call["name"] = tool_name
+                        current_tool_call["arguments"] = ""
+                    else:
+                        logger.debug("Not enough token")
+                        return None
+
+            # case - we haven't sent the tool name yet. If it's available, send
+            #   it. otherwise, wait until it's available.
+            if not self.current_tool_name_sent:
+                if current_tool_call is None:
+                    return None
+                function_name: str | None = current_tool_call.get("name")
+                if function_name:
+                    self.current_tool_name_sent = True
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                else:
+                    return None
+
+            # case -- otherwise, send the tool call delta
+
+            # if the tool call portion is None, send the delta as text
+            if tool_call_portion is None:
+                # if there's text but not tool calls, send that -
+                # otherwise None to skip chunk
+                delta = (
+                    DeltaMessage(content=delta_text)
+                    if text_portion is not None
+                    else None
+                )
+                return delta
+
+            # now, the nitty-gritty of tool calls
+            # now we have the portion to parse as tool call.
+
+            logger.debug(
+                "Trying to parse current tool call with ID %s", self.current_tool_id
+            )
+
+            # if we're starting a new tool call, push an empty object in as
+            #   a placeholder for the arguments
+            if len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+
+            # main logic for tool parsing here - compare prev. partially-parsed
+            #   JSON to the current partially-parsed JSON
+            prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                "arguments"
+            )
+            cur_arguments = current_tool_call.get("arguments")
+
+            logger.debug("diffing old arguments: %s", prev_arguments)
+            logger.debug("against new ones: %s", cur_arguments)
+
+            # case -- no arguments have been created yet. skip sending a delta.
+            if not cur_arguments and not prev_arguments:
+                logger.debug("Skipping text %s - no arguments", delta_text)
+                delta = None
+
+            # case -- prev arguments are defined, but non are now.
+            #   probably impossible, but not a fatal error - just keep going
+            elif not cur_arguments and prev_arguments:
+                logger.error(
+                    "should be impossible to have arguments reset "
+                    "mid-call. skipping streaming anything."
+                )
+                delta = None
+
+            # case -- we now have the first info about arguments available from
+            #   autocompleting the JSON
+            elif cur_arguments and not prev_arguments:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=cur_arguments
+                            ).model_dump(exclude_none=True),
+                        )
+                    ]
+                )
+                self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+
+            # last case -- we have an update to existing arguments.
+            elif cur_arguments and prev_arguments:
+                if (
+                    isinstance(delta_text, str)
+                    and cur_arguments != prev_arguments
+                    and len(cur_arguments) > len(prev_arguments)
+                    and cur_arguments.startswith(prev_arguments)
+                ):
+                    delta_arguments = cur_arguments[len(prev_arguments) :]
+                    logger.debug("got diff %s", delta_text)
+
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=delta_arguments
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+                else:
+                    delta = None
+
+            # handle saving the state for the current tool into
+            # the "prev" list for use in diffing for the next iteration
+            if self.current_tool_id == len(self.prev_tool_call_arr) - 1:
+                self.prev_tool_call_arr[self.current_tool_id] = current_tool_call
+            else:
+                self.prev_tool_call_arr.append(current_tool_call)
+
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            return None  # do not stream a delta. skip this token ID.
diff --git a/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py b/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
new file mode 100644
index 0000000..bf7f6fa
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
@@ -0,0 +1,390 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import regex as re
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class DeepSeekV3ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+
+        self.tool_calls_start_token: str = "<｜tool▁calls▁begin｜>"
+        self.tool_calls_end_token: str = "<｜tool▁calls▁end｜>"
+
+        self.tool_call_start_token: str = "<｜tool▁call▁begin｜>"
+        self.tool_call_end_token: str = "<｜tool▁call▁end｜>"
+
+        self.tool_call_regex = re.compile(
+            r"<｜tool▁call▁begin｜>(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n```json\n(?P<function_arguments>.*)\n```<｜tool▁call▁end｜>"
+        )
+
+        self.stream_tool_call_portion_regex = re.compile(
+            r"(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n```json\n(?P<function_arguments>.*[^\n`])"
+        )
+
+        self.stream_tool_call_name_regex = re.compile(
+            r"(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n"
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+        self.tool_calls_start_token_id = self.vocab.get(self.tool_calls_start_token)
+        self.tool_calls_end_token_id = self.vocab.get(self.tool_calls_end_token)
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if (
+            self.tool_calls_start_token_id is None
+            or self.tool_calls_end_token_id is None
+        ):
+            raise RuntimeError(
+                "DeepSeek-V3 Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer!"
+            )
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                # there are two possible captures - between tags, or between a
+                # tag and end-of-string so the result of
+                # findall is an array of tuples where one is a function call and
+                # the other is None
+                function_call_tuples = self.tool_call_regex.findall(model_output)
+
+                tool_calls = []
+                for match in function_call_tuples:
+                    tool_type, function_name, function_args = match
+                    tool_calls.append(
+                        ToolCall(
+                            type=tool_type,
+                            function=FunctionCall(
+                                name=function_name, arguments=function_args
+                            ),
+                        )
+                    )
+
+                content = model_output[: model_output.find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        logger.debug("delta_text: %s", delta_text)
+        logger.debug("delta_token_ids: %s", delta_token_ids)
+        # check to see if we should be streaming a tool call - is there a
+        if self.tool_calls_start_token_id not in current_token_ids:
+            logger.debug("No tool call tokens found!")
+            return DeltaMessage(content=delta_text)
+        delta_text = delta_text.replace(self.tool_calls_start_token, "").replace(
+            self.tool_calls_end_token, ""
+        )
+        try:
+            # figure out where we are in the parsing by counting tool call
+            # start & end tags
+            prev_tool_start_count = previous_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            prev_tool_end_count = previous_token_ids.count(self.tool_call_end_token_id)
+            cur_tool_start_count = current_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            cur_tool_end_count = current_token_ids.count(self.tool_call_end_token_id)
+            tool_call_portion = None
+            text_portion = None
+
+            # case: if we're generating text, OR rounding out a tool call
+            if (
+                cur_tool_start_count == cur_tool_end_count
+                and prev_tool_end_count == cur_tool_end_count
+                and self.tool_call_end_token not in delta_text
+            ):
+                logger.debug("Generating text content! skipping tool parsing.")
+                return DeltaMessage(content=delta_text)
+
+            if self.tool_call_end_token in delta_text:
+                logger.debug("tool_call_end_token in delta_text")
+                full_text = current_text + delta_text
+                tool_call_portion = (
+                    full_text.split(self.tool_call_start_token)[-1]
+                    .split(self.tool_call_end_token)[0]
+                    .rstrip()
+                )
+                delta_text = delta_text.split(self.tool_call_end_token)[0].rstrip()
+                text_portion = delta_text.split(self.tool_call_end_token)[-1].lstrip()
+
+            # case -- we're starting a new tool call
+            if (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count > prev_tool_start_count
+            ):
+                if len(delta_token_ids) > 1:
+                    tool_call_portion = current_text.split(self.tool_call_start_token)[
+                        -1
+                    ]
+                else:
+                    tool_call_portion = None
+                    delta = None
+
+                text_portion = None
+
+                # set cursors and state appropriately
+                self.current_tool_id += 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("Starting on a new tool %s", self.current_tool_id)
+
+            # case -- we're updating an existing tool call
+            elif (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count == prev_tool_start_count
+            ):
+                # get the portion of the text that's the tool call
+                tool_call_portion = current_text.split(self.tool_call_start_token)[-1]
+                text_portion = None
+
+            # case -- the current tool call is being closed.
+            elif (
+                cur_tool_start_count == cur_tool_end_count
+                and cur_tool_end_count >= prev_tool_end_count
+            ):
+                if self.prev_tool_call_arr is None or len(self.prev_tool_call_arr) == 0:
+                    logger.debug("attempting to close tool call, but no tool call")
+                    return None
+                diff = self.prev_tool_call_arr[self.current_tool_id].get("arguments")
+                if diff:
+                    diff = (
+                        diff.encode("utf-8").decode("unicode_escape")
+                        if diff is str
+                        else diff
+                    )
+                    if '"}' not in delta_text:
+                        return None
+                    end_loc = delta_text.rindex('"}')
+                    diff = delta_text[:end_loc] + '"}'
+                    logger.debug(
+                        "Finishing tool and found diff that had not "
+                        "been streamed yet: %s",
+                        diff,
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(arguments=diff).model_dump(
+                                    exclude_none=True
+                                ),
+                            )
+                        ]
+                    )
+
+            # case -- otherwise we're just generating text
+            else:
+                text = delta_text.replace(self.tool_call_start_token, "")
+                text = text.replace(self.tool_call_end_token, "")
+                delta = DeltaMessage(tool_calls=[], content=text)
+                return delta
+
+            current_tool_call = dict()
+            if tool_call_portion:
+                current_tool_call_matches = self.stream_tool_call_portion_regex.match(
+                    tool_call_portion
+                )
+                if current_tool_call_matches:
+                    tool_type, tool_name, tool_args = current_tool_call_matches.groups()
+                    current_tool_call["name"] = tool_name
+                    current_tool_call["arguments"] = tool_args
+                else:
+                    current_tool_call_name_matches = (
+                        self.stream_tool_call_name_regex.match(tool_call_portion)
+                    )
+                    if current_tool_call_name_matches:
+                        tool_type, tool_name = current_tool_call_name_matches.groups()
+                        current_tool_call["name"] = tool_name
+                        current_tool_call["arguments"] = ""
+                    else:
+                        logger.debug("Not enough token")
+                        return None
+
+            # case - we haven't sent the tool name yet. If it's available, send
+            #   it. otherwise, wait until it's available.
+            if not self.current_tool_name_sent:
+                if current_tool_call is None:
+                    return None
+                function_name: str | None = current_tool_call.get("name")
+                if function_name:
+                    self.current_tool_name_sent = True
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                else:
+                    return None
+
+            # case -- otherwise, send the tool call delta
+
+            # if the tool call portion is None, send the delta as text
+            if tool_call_portion is None:
+                # if there's text but not tool calls, send that -
+                # otherwise None to skip chunk
+                delta = (
+                    DeltaMessage(content=delta_text)
+                    if text_portion is not None
+                    else None
+                )
+                return delta
+
+            # now, the nitty-gritty of tool calls
+            # now we have the portion to parse as tool call.
+
+            logger.debug(
+                "Trying to parse current tool call with ID %s", self.current_tool_id
+            )
+
+            # if we're starting a new tool call, push an empty object in as
+            #   a placeholder for the arguments
+            if len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+
+            # main logic for tool parsing here - compare prev. partially-parsed
+            #   JSON to the current partially-parsed JSON
+            prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                "arguments"
+            )
+            cur_arguments = current_tool_call.get("arguments")
+
+            logger.debug("diffing old arguments: %s", prev_arguments)
+            logger.debug("against new ones: %s", cur_arguments)
+
+            # case -- no arguments have been created yet. skip sending a delta.
+            if not cur_arguments and not prev_arguments:
+                logger.debug("Skipping text %s - no arguments", delta_text)
+                delta = None
+
+            # case -- prev arguments are defined, but non are now.
+            #   probably impossible, but not a fatal error - just keep going
+            elif not cur_arguments and prev_arguments:
+                logger.error(
+                    "should be impossible to have arguments reset "
+                    "mid-call. skipping streaming anything."
+                )
+                delta = None
+
+            # case -- we now have the first info about arguments available from
+            #   autocompleting the JSON
+            elif cur_arguments and not prev_arguments:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=cur_arguments
+                            ).model_dump(exclude_none=True),
+                        )
+                    ]
+                )
+                self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+
+            # last case -- we have an update to existing arguments.
+            elif cur_arguments and prev_arguments:
+                if (
+                    isinstance(delta_text, str)
+                    and cur_arguments != prev_arguments
+                    and len(cur_arguments) > len(prev_arguments)
+                    and cur_arguments.startswith(prev_arguments)
+                ):
+                    delta_arguments = cur_arguments[len(prev_arguments) :]
+                    logger.debug("got diff %s", delta_text)
+
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=delta_arguments
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+                else:
+                    delta = None
+
+            # handle saving the state for the current tool into
+            # the "prev" list for use in diffing for the next iteration
+            if self.current_tool_id == len(self.prev_tool_call_arr) - 1:
+                self.prev_tool_call_arr[self.current_tool_id] = current_tool_call
+            else:
+                self.prev_tool_call_arr.append(current_tool_call)
+
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            return None  # do not stream a delta. skip this token ID.
diff --git a/entrypoints/openai/tool_parsers/ernie45_tool_parser.py b/entrypoints/openai/tool_parsers/ernie45_tool_parser.py
new file mode 100644
index 0000000..8237032
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/ernie45_tool_parser.py
@@ -0,0 +1,210 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class Ernie45ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        """
+        Ernie thinking model format:
+        abc\n</think>\n\n\n<tool_call>\ndef\n</tool_call>\n
+        """
+        super().__init__(tokenizer)
+        self.current_tool_name_sent = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id = -1
+        self.streamed_args_for_tool: list[str] = []
+        self.think_end_token = "</think>"
+        self.response_start_token: str = "<response>"
+        self.response_end_token: str = "</response>"
+        self.tool_call_start_token = "<tool_call>"
+        self.tool_call_end_token = "</tool_call>"
+        self.tool_calls_start_token = self.tool_call_start_token
+        self.newline_token: str = "<0x0A>"
+
+        self.tool_call_regex = re.compile(
+            r"<tool_call>\s*(?P<json>\{.*?\})\s*</tool_call>", re.DOTALL
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+
+        self.think_end_token_id = self.vocab.get(self.think_end_token)
+        self.response_start_token_id = self.vocab.get(self.response_start_token)
+        self.response_end_token_id = self.vocab.get(self.response_end_token)
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+        self.newline_token_id = self.vocab.get(self.newline_token)
+        self.parser_token_ids = [
+            self.think_end_token_id,
+            self.response_start_token_id,
+            self.response_end_token_id,
+        ]
+
+        self._buffer = ""
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                tool_call_json_list = self.tool_call_regex.findall(model_output)
+
+                tool_calls = []
+                for tool_call_json in tool_call_json_list:
+                    tool_call_dict = json.loads(tool_call_json)
+                    args_str = json.dumps(
+                        tool_call_dict.get("arguments", {}), ensure_ascii=False
+                    )
+                    tool_calls.append(
+                        ToolCall(
+                            type="function",
+                            function=FunctionCall(
+                                name=tool_call_dict.get("name", ""),
+                                arguments=args_str,
+                            ),
+                        )
+                    )
+
+                content = model_output[
+                    : model_output.find(self.tool_calls_start_token)
+                ].rstrip("\n")
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        self._buffer += delta_text
+        cur_text = self._buffer
+        start_idx = cur_text.find(self.tool_call_start_token)
+        if start_idx == -1:
+            self._buffer = ""
+            # At least one toolcall has been completed
+            if self.current_tool_id > 0:
+                cur_text = ""
+            if self.current_tool_id == -1 and all(
+                token_id == self.newline_token_id for token_id in previous_token_ids
+            ):
+                cur_text = cur_text.strip("\n")
+
+            # handle <response> </response> when tool_call is not triggered
+            # cur_text === delta_text
+            content = cur_text
+            if self.response_start_token_id in delta_token_ids:
+                content = content.lstrip("\n")
+                response_start_idx = content.find(self.response_start_token)
+                content = content[response_start_idx + len(self.response_start_token) :]
+                # if have </response>, remove it
+                response_end_idx = content.rfind(self.response_end_token)
+                if response_end_idx != -1:
+                    content = content[:response_end_idx]
+            elif self.response_end_token_id in delta_token_ids:
+                response_end_idx = content.rfind(self.response_end_token)
+                content = content[:response_end_idx]
+            # remove \n after </think> or <response> or </response>
+            if (
+                len(previous_token_ids) > 0
+                and previous_token_ids[-1] in self.parser_token_ids
+            ) and (
+                len(delta_token_ids) > 0 and delta_token_ids[0] == self.newline_token_id
+            ):
+                content = content.lstrip("\n")
+
+            return DeltaMessage(content=content if content else None)
+        logger.debug("cur_text = %s", cur_text)
+        end_idx = cur_text.find(self.tool_call_end_token)
+        if end_idx != -1:
+            if self.current_tool_id == -1:
+                self.current_tool_id = 0
+                self.prev_tool_call_arr = []
+                self.streamed_args_for_tool = []
+            while len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+            while len(self.streamed_args_for_tool) <= self.current_tool_id:
+                self.streamed_args_for_tool.append("")
+
+            extracted_tool_calls = self.extract_tool_calls(
+                cur_text[: end_idx + len(self.tool_call_end_token)], request
+            )
+
+            if len(extracted_tool_calls.tool_calls) == 0:
+                logger.warning("Failed to extract any tool calls.")
+                return None
+            tool_call = extracted_tool_calls.tool_calls[0]
+            self.prev_tool_call_arr[self.current_tool_id] = {
+                "name": tool_call.function.name,
+                "arguments": json.loads(tool_call.function.arguments),
+            }
+            self.streamed_args_for_tool[self.current_tool_id] = (
+                tool_call.function.arguments
+            )
+            delta = DeltaMessage(
+                content=extracted_tool_calls.content,
+                tool_calls=[
+                    DeltaToolCall(
+                        index=self.current_tool_id,
+                        id=tool_call.id,
+                        type=tool_call.type,
+                        function=DeltaFunctionCall(
+                            name=tool_call.function.name,
+                            arguments=tool_call.function.arguments,
+                        ),
+                    )
+                ],
+            )
+            self.current_tool_id += 1
+            self._buffer = cur_text[end_idx + len(self.tool_call_end_token) :]
+            return delta
+
+        self._buffer = cur_text[start_idx:]
+        content = cur_text[:start_idx].rstrip("\n")
+        return DeltaMessage(content=content if content else None)
diff --git a/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py b/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
new file mode 100644
index 0000000..120e63b
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
@@ -0,0 +1,200 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ast
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionToolsParam,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class Glm4MoeModelToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        self.current_tool_name_sent = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id = -1
+        self.streamed_args_for_tool: list[str] = []
+        self.tool_call_start_token = "<tool_call>"
+        self.tool_call_end_token = "</tool_call>"
+
+        self.tool_calls_start_token = self.tool_call_start_token
+
+        self.func_call_regex = re.compile(r"<tool_call>.*?</tool_call>", re.DOTALL)
+        self.func_detail_regex = re.compile(
+            r"<tool_call>([^\n]*)\n(.*)</tool_call>", re.DOTALL
+        )
+        self.func_arg_regex = re.compile(
+            r"<arg_key>(.*?)</arg_key>\s*<arg_value>(.*?)</arg_value>", re.DOTALL
+        )
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+        self._buffer = ""
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        def _is_string_type(
+            tool_name: str,
+            arg_name: str,
+            tools: list[ChatCompletionToolsParam] | None,
+        ) -> bool:
+            if tools is None:
+                return False
+            for tool in tools:
+                if tool.function.name == tool_name:
+                    if tool.function.parameters is None:
+                        return False
+                    arg_type = (
+                        tool.function.parameters.get("properties", {})
+                        .get(arg_name, {})
+                        .get("type", None)
+                    )
+                    return arg_type == "string"
+            logger.warning("No tool named '%s'.", tool_name)
+            return False
+
+        def _deserialize(value: str) -> Any:
+            try:
+                return json.loads(value)
+            except Exception:
+                pass
+
+            try:
+                return ast.literal_eval(value)
+            except Exception:
+                pass
+            return value
+
+        matched_tool_calls = self.func_call_regex.findall(model_output)
+        logger.debug("model_output: %s", model_output)
+        try:
+            tool_calls = []
+            for match in matched_tool_calls:
+                tc_detail = self.func_detail_regex.search(match)
+                tc_name = tc_detail.group(1)
+                tc_args = tc_detail.group(2)
+                pairs = self.func_arg_regex.findall(tc_args)
+                arg_dct = {}
+                for key, value in pairs:
+                    arg_key = key.strip()
+                    arg_val = value.strip()
+                    if not _is_string_type(tc_name, arg_key, request.tools):
+                        arg_val = _deserialize(arg_val)
+                    logger.debug("arg_key = %s, arg_val = %s", arg_key, arg_val)
+                    arg_dct[arg_key] = arg_val
+                tool_calls.append(
+                    ToolCall(
+                        type="function",
+                        function=FunctionCall(
+                            name=tc_name, arguments=json.dumps(arg_dct)
+                        ),
+                    )
+                )
+        except Exception:
+            logger.exception("Failed to extract tool call spec")
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+        else:
+            if len(tool_calls) > 0:
+                content = model_output[: model_output.find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True, tool_calls=tool_calls, content=content
+                )
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        self._buffer += delta_text
+        cur_text = self._buffer
+        start_idx = cur_text.find(self.tool_call_start_token)
+        if start_idx == -1:
+            self._buffer = ""
+            if self.current_tool_id > 0:
+                cur_text = ""
+            return DeltaMessage(content=cur_text)
+        logger.debug("cur_text = %s", cur_text)
+        end_idx = cur_text.find(self.tool_call_end_token)
+        if end_idx != -1:
+            if self.current_tool_id == -1:
+                self.current_tool_id = 0
+                self.prev_tool_call_arr = []
+                self.streamed_args_for_tool = []
+            while len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+            while len(self.streamed_args_for_tool) <= self.current_tool_id:
+                self.streamed_args_for_tool.append("")
+
+            extracted_tool_calls = self.extract_tool_calls(
+                cur_text[: end_idx + len(self.tool_call_end_token)], request
+            )
+
+            if len(extracted_tool_calls.tool_calls) == 0:
+                logger.warning("Failed to extract any tool calls.")
+                return None
+            tool_call = extracted_tool_calls.tool_calls[0]
+            self.prev_tool_call_arr[self.current_tool_id] = {
+                "name": tool_call.function.name,
+                "arguments": json.loads(tool_call.function.arguments),
+            }
+            self.streamed_args_for_tool[self.current_tool_id] = (
+                tool_call.function.arguments
+            )
+            delta = DeltaMessage(
+                content=extracted_tool_calls.content,
+                tool_calls=[
+                    DeltaToolCall(
+                        index=self.current_tool_id,
+                        id=tool_call.id,
+                        type=tool_call.type,
+                        function=DeltaFunctionCall(
+                            name=tool_call.function.name,
+                            arguments=tool_call.function.arguments,
+                        ),
+                    )
+                ],
+            )
+            self.current_tool_id += 1
+            self._buffer = cur_text[end_idx + len(self.tool_call_end_token) :]
+            return delta
+
+        self._buffer = cur_text[start_idx:]
+        return DeltaMessage(content=cur_text[:start_idx])
diff --git a/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py b/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
new file mode 100644
index 0000000..ae92174
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
@@ -0,0 +1,273 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+from json import JSONDecoder
+
+import partial_json_parser
+import regex as re
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import (
+    consume_space,
+    find_common_prefix,
+    is_complete_json,
+    partial_json_loads,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class Granite20bFCToolParser(ToolParser):
+    """
+    Tool call parser for the granite-20b-functioncalling model intended
+    for use with the examples/tool_chat_template_granite20b_fc.jinja
+    template.
+
+    Used when --enable-auto-tool-choice --tool-call-parser granite-20-fc
+    are all set
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.bot_token = "<function_call>"
+        self.tool_start_token = self.bot_token
+        self.tool_call_regex = re.compile(r"<function_call>\s*")
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        if self.tool_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        dec = JSONDecoder()
+        try:
+            matches = list(self.tool_call_regex.finditer(model_output))
+            logger.debug("Found %d tool call matches", len(matches))
+
+            raw_function_calls = []
+
+            for i, match in enumerate(matches):
+                # position after the <function_call> tag
+                start_of_json = match.end()
+                # end_index == the start of the next function call
+                # (if exists)
+                next_function_call_start = (
+                    matches[i + 1].start() if i + 1 < len(matches) else None
+                )
+
+                raw_function_calls.append(
+                    dec.raw_decode(
+                        model_output[start_of_json:next_function_call_start]
+                    )[0]
+                )
+
+            logger.debug("Extracted %d tool calls", len(raw_function_calls))
+            tool_calls = [
+                ToolCall(
+                    type="function",
+                    function=FunctionCall(
+                        name=function_call["name"],
+                        # function call args are JSON but as a string
+                        arguments=json.dumps(
+                            function_call["arguments"], ensure_ascii=False
+                        ),
+                    ),
+                )
+                for function_call in raw_function_calls
+            ]
+
+            content = model_output[: model_output.find(self.bot_token)]
+            return ExtractedToolCallInformation(
+                tools_called=True,
+                tool_calls=tool_calls,
+                content=content if content else None,
+            )
+
+        except Exception as e:
+            logger.error("Error in extracting tool call from response %s", e)
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if len(current_text) < len(self.bot_token) and self.bot_token.startswith(
+            current_text
+        ):
+            return None
+
+        if not current_text.startswith(self.bot_token):
+            return DeltaMessage(content=delta_text)
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+        try:
+            tool_call_arr = []
+            is_complete = []
+            try:
+                start_idx = len(self.bot_token)
+                start_idx = consume_space(start_idx, current_text)
+
+                while start_idx < len(current_text):
+                    (obj, end_idx) = partial_json_loads(current_text[start_idx:], flags)
+                    is_complete.append(
+                        is_complete_json(current_text[start_idx : start_idx + end_idx])
+                    )
+                    start_idx += end_idx
+                    start_idx = consume_space(start_idx, current_text)
+                    start_idx += len(self.bot_token)
+                    start_idx = consume_space(start_idx, current_text)
+                    tool_call_arr.append(obj)
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # select as the current tool call the one we're on the state at
+            current_tool_call: dict = (
+                tool_call_arr[self.current_tool_id] if len(tool_call_arr) > 0 else {}
+            )
+
+            # case -- if no tokens have been streamed for the tool, e.g.
+            #   only the array brackets, stream nothing
+            if len(tool_call_arr) == 0:
+                return None
+
+            # case: we are starting a new tool in the array
+            #   -> array has > 0 length AND length has moved past cursor
+            elif (
+                len(tool_call_arr) > 0 and len(tool_call_arr) > self.current_tool_id + 1
+            ):
+                # if we're moving on to a new call, first make sure we
+                # haven't missed anything in the previous one that was
+                # auto-generated due to JSON completions, but wasn't
+                # streamed to the client yet.
+                if self.current_tool_id >= 0:
+                    cur_arguments = current_tool_call.get("arguments")
+                    if cur_arguments:
+                        cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                        sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                        argument_diff = cur_args_json[sent:]
+
+                        logger.debug("got arguments diff: %s", argument_diff)
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+                    else:
+                        delta = None
+                else:
+                    delta = None
+                # re-set stuff pertaining to progress in the current tool
+                self.current_tool_id = len(tool_call_arr) - 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("starting on new tool %d", self.current_tool_id)
+                return delta
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            elif not self.current_tool_name_sent:
+                function_name = current_tool_call.get("name")
+                if function_name:
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+                else:
+                    delta = None
+
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                cur_arguments = current_tool_call.get("arguments")
+                delta = None
+
+                if cur_arguments:
+                    sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                        "arguments"
+                    )
+
+                    argument_diff = None
+                    if is_complete[self.current_tool_id]:
+                        argument_diff = cur_args_json[sent:]
+                    elif prev_arguments:
+                        prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+                        if cur_args_json != prev_args_json:
+                            prefix = find_common_prefix(prev_args_json, cur_args_json)
+                            argument_diff = prefix[sent:]
+
+                    if argument_diff is not None:
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+
+            self.prev_tool_call_arr = tool_call_arr
+            return delta
+
+        except Exception as e:
+            logger.error("Error trying to handle streaming tool call: %s", e)
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
diff --git a/entrypoints/openai/tool_parsers/granite_tool_parser.py b/entrypoints/openai/tool_parsers/granite_tool_parser.py
new file mode 100644
index 0000000..d29c427
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/granite_tool_parser.py
@@ -0,0 +1,253 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import partial_json_parser
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import (
+    consume_space,
+    find_common_prefix,
+    is_complete_json,
+    partial_json_loads,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class GraniteToolParser(ToolParser):
+    """
+    Tool call parser for the granite 3.0 models. Intended
+    for use with the examples/tool_chat_template_granite.jinja
+    template.
+
+    Used when --enable-auto-tool-choice --tool-call-parser granite
+    are all set
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        # for granite 3.0, the token `<|tool_call|>`
+        self.bot_token = "<|tool_call|>"
+        # for granite 3.1, the string `<tool_call>`
+        self.bot_string = "<tool_call>"
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        stripped = (
+            model_output.strip()
+            .removeprefix(self.bot_token)
+            .removeprefix(self.bot_string)
+            .lstrip()
+        )
+        if not stripped or stripped[0] != "[":
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+        try:
+            raw_function_calls = json.loads(stripped)
+            if not isinstance(raw_function_calls, list):
+                raise Exception(
+                    f"Expected dict or list, got {type(raw_function_calls)}"
+                )
+
+            logger.debug("Extracted %d tool calls", len(raw_function_calls))
+            tool_calls = [
+                ToolCall(
+                    type="function",
+                    function=FunctionCall(
+                        name=function_call["name"],
+                        # function call args are JSON but as a string
+                        arguments=json.dumps(
+                            function_call["arguments"], ensure_ascii=False
+                        ),
+                    ),
+                )
+                for function_call in raw_function_calls
+            ]
+
+            return ExtractedToolCallInformation(
+                tools_called=True,
+                tool_calls=tool_calls,
+                content=None,
+            )
+
+        except Exception as e:
+            logger.error("Error in extracting tool call from response %s", e)
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        start_idx = consume_space(0, current_text)
+        if current_text[start_idx:].startswith(self.bot_token):
+            start_idx = consume_space(start_idx + len(self.bot_token), current_text)
+        if current_text[start_idx:].startswith(self.bot_string):
+            start_idx = consume_space(start_idx + len(self.bot_string), current_text)
+        if (
+            not current_text
+            or start_idx >= len(current_text)
+            or current_text[start_idx] != "["
+        ):
+            return DeltaMessage(content=delta_text)
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+        try:
+            tool_call_arr = None
+            is_complete = None
+            try:
+                tool_calls, end_idx = partial_json_loads(
+                    current_text[start_idx:], flags
+                )
+                if type(tool_calls) is list:
+                    tool_call_arr = tool_calls
+                else:
+                    return DeltaMessage(content=delta_text)
+
+                is_complete = [True] * len(tool_calls)
+                if not is_complete_json(current_text[start_idx : start_idx + end_idx]):
+                    is_complete[-1] = False
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # case -- if no tokens have been streamed for the tool, e.g.
+            #   only the array brackets, stream nothing
+            if not tool_call_arr:
+                return None
+
+            # select as the current tool call the one we're on the state at
+            current_tool_call: dict = tool_call_arr[self.current_tool_id]
+
+            delta = None
+            # case: we are starting a new tool in the array
+            #   -> array has > 0 length AND length has moved past cursor
+            if len(tool_call_arr) > self.current_tool_id + 1:
+                # if we're moving on to a new call, first make sure we
+                # haven't missed anything in the previous one that was
+                # auto-generated due to JSON completions, but wasn't
+                # streamed to the client yet.
+                if self.current_tool_id >= 0:
+                    cur_arguments = current_tool_call.get("arguments")
+                    if cur_arguments:
+                        cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                        sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                        argument_diff = cur_args_json[sent:]
+
+                        logger.debug("got arguments diff: %s", argument_diff)
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+
+                # re-set stuff pertaining to progress in the current tool
+                self.current_tool_id = len(tool_call_arr) - 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("starting on new tool %d", self.current_tool_id)
+                return delta
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            elif not self.current_tool_name_sent:
+                function_name = current_tool_call.get("name")
+                if function_name:
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                cur_arguments = current_tool_call.get("arguments")
+
+                if cur_arguments:
+                    sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                        "arguments"
+                    )
+
+                    argument_diff = None
+                    if is_complete[self.current_tool_id]:
+                        argument_diff = cur_args_json[sent:]
+                    elif prev_arguments:
+                        prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+                        if cur_args_json != prev_args_json:
+                            prefix = find_common_prefix(prev_args_json, cur_args_json)
+                            argument_diff = prefix[sent:]
+
+                    if argument_diff is not None:
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+
+            self.prev_tool_call_arr = tool_call_arr
+            return delta
+
+        except Exception as e:
+            logger.error("Error trying to handle streaming tool call: %s", e)
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
diff --git a/entrypoints/openai/tool_parsers/hermes_tool_parser.py b/entrypoints/openai/tool_parsers/hermes_tool_parser.py
new file mode 100644
index 0000000..4336a54
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/hermes_tool_parser.py
@@ -0,0 +1,494 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import partial_json_parser
+import regex as re
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+
+logger = init_logger(__name__)
+
+
+class Hermes2ProToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        if isinstance(self.model_tokenizer, MistralTokenizer):
+            logger.error("Detected Mistral tokenizer when using a Hermes model")
+            self.model_tokenizer = self.model_tokenizer.tokenizer
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+
+        self.tool_call_start_token: str = "<tool_call>"
+        self.tool_call_end_token: str = "</tool_call>"
+
+        self.tool_call_regex = re.compile(
+            r"<tool_call>(.*?)</tool_call>|<tool_call>(.*)", re.DOTALL
+        )
+        self.scratch_pad_regex = re.compile(
+            r"<scratch_pad>(.*?)</scratch_pad>", re.DOTALL
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+        self.tool_call_start_token_ids = self.model_tokenizer.encode(
+            self.tool_call_start_token, add_special_tokens=False
+        )
+        self.tool_call_end_token_ids = self.model_tokenizer.encode(
+            self.tool_call_end_token, add_special_tokens=False
+        )
+
+        self.tool_call_start_token_array = [
+            self.model_tokenizer.decode([token_id])
+            for token_id in self.tool_call_start_token_ids
+        ]
+
+        self.tool_call_end_token_array = [
+            self.model_tokenizer.decode([token_id])
+            for token_id in self.tool_call_end_token_ids
+        ]
+
+        self.buffered_delta_text = ""
+
+    # Very simple idea: when encountering tokens like <, tool, _call, >,
+    # <, /, tool, _call, >, store them in a buffer.
+    # When the last token is encountered, empty the buffer and return it.
+    # If a token appears in an incorrect sequence while storing in the buffer,
+    # return the preceding buffer along with the token.
+    def tool_call_delta_buffer(self, delta_text: str):
+        # If the sequence of tool_call_start or tool_call_end tokens is not yet
+        # complete, fill the buffer with the token and return "".
+        if (
+            delta_text in self.tool_call_start_token_array
+            or delta_text in self.tool_call_end_token_array
+        ):
+            # If delta_text is the last token of tool_call_start_token or
+            # tool_call_end_token, empty the buffer and return
+            # the buffered text + delta_text.
+            if (
+                delta_text == self.tool_call_start_token_array[-1]
+                or delta_text == self.tool_call_end_token_array[-1]
+            ):
+                buffered_text = self.buffered_delta_text
+                self.buffered_delta_text = ""
+                return buffered_text + delta_text
+            else:
+                self.buffered_delta_text = self.buffered_delta_text + delta_text
+                return ""
+        else:
+            if self.buffered_delta_text:
+                buffered_text = self.buffered_delta_text
+                self.buffered_delta_text = ""
+                return buffered_text + delta_text
+            else:
+                return delta_text
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        request = super().adjust_request(request)
+        if request.tools and request.tool_choice != "none":
+            # do not skip special tokens because the tool_call tokens are
+            # marked "special" in some models. Since they are skipped
+            # prior to the call to the tool parser, it breaks tool calling.
+            request.skip_special_tokens = False
+        return request
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_call_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                # there are two possible captures - between tags, or between a
+                # tag and end-of-string so the result of
+                # findall is an array of tuples where one is a function call and
+                # the other is None
+                function_call_tuples = self.tool_call_regex.findall(model_output)
+
+                # load the JSON, and then use it to build the Function and
+                # Tool Call
+                raw_function_calls = [
+                    json.loads(match[0] if match[0] else match[1])
+                    for match in function_call_tuples
+                ]
+                tool_calls = [
+                    ToolCall(
+                        type="function",
+                        function=FunctionCall(
+                            name=function_call["name"],
+                            # function call args are JSON but as a string
+                            arguments=json.dumps(
+                                function_call["arguments"], ensure_ascii=False
+                            ),
+                        ),
+                    )
+                    for function_call in raw_function_calls
+                ]
+
+                content = model_output[: model_output.find(self.tool_call_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # 1. All tokens are parsed based on _text, not token_ids.
+        # 2. All incoming text data is processed by the tool_call_delta_buffer
+        #    function for buffering before being used for parsing.
+
+        delta_text = self.tool_call_delta_buffer(delta_text)
+        # If the last characters of previous_text
+        # match self.buffered_delta_text, remove only the matching part.
+        if (
+            len(previous_text) >= len(self.buffered_delta_text)
+            and previous_text[-len(self.buffered_delta_text) :]
+            == self.buffered_delta_text
+        ):
+            previous_text = previous_text[: -len(self.buffered_delta_text)]
+            current_text = previous_text + delta_text
+
+        logger.debug("delta_text: %s", delta_text)
+        logger.debug("delta_token_ids: %s", delta_token_ids)
+        # check to see if we should be streaming a tool call - is there a
+        if self.tool_call_start_token not in current_text:
+            logger.debug("No tool call tokens found!")
+            return DeltaMessage(content=delta_text)
+
+        try:
+            # figure out where we are in the parsing by counting tool call
+            # start & end tags
+            prev_tool_start_count = previous_text.count(self.tool_call_start_token)
+            prev_tool_end_count = previous_text.count(self.tool_call_end_token)
+            cur_tool_start_count = current_text.count(self.tool_call_start_token)
+            cur_tool_end_count = current_text.count(self.tool_call_end_token)
+            tool_call_portion = None
+            text_portion = None
+
+            # case: if we're generating text, OR rounding out a tool call
+            if (
+                cur_tool_start_count == cur_tool_end_count
+                and prev_tool_end_count == cur_tool_end_count
+                and self.tool_call_end_token not in delta_text
+            ):
+                logger.debug("Generating text content! skipping tool parsing.")
+                return DeltaMessage(content=delta_text)
+
+            if self.tool_call_end_token in delta_text:
+                logger.debug("tool_call_end_token in delta_text")
+                full_text = current_text + delta_text
+                tool_call_portion = (
+                    full_text.split(self.tool_call_start_token)[-1]
+                    .split(self.tool_call_end_token)[0]
+                    .rstrip()
+                )
+                delta_text = delta_text.split(self.tool_call_end_token)[0].rstrip()
+                text_portion = delta_text.split(self.tool_call_end_token)[-1].lstrip()
+
+            # case: if tool open & close tag counts don't match, we're doing
+            # imaginary "else" block here
+            # something with tools with this diff.
+            # flags for partial JSON parting. exported constants from
+            # "Allow" are handled via BIT MASK
+            flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+
+            # case -- we're starting a new tool call
+            if (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count > prev_tool_start_count
+            ):
+                if len(delta_token_ids) > 1:
+                    tool_call_portion = current_text.split(self.tool_call_start_token)[
+                        -1
+                    ]
+                else:
+                    tool_call_portion = None
+                    delta = None
+
+                text_portion = None
+
+                # set cursors and state appropriately
+                self.current_tool_id += 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("Starting on a new tool %s", self.current_tool_id)
+
+            # case -- we're updating an existing tool call
+            elif (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count == prev_tool_start_count
+            ):
+                # get the portion of the text that's the tool call
+                tool_call_portion = current_text.split(self.tool_call_start_token)[-1]
+                text_portion = None
+
+            # case -- the current tool call is being closed.
+            elif (
+                cur_tool_start_count == cur_tool_end_count
+                and cur_tool_end_count >= prev_tool_end_count
+            ):
+                if self.prev_tool_call_arr is None or len(self.prev_tool_call_arr) == 0:
+                    logger.debug("attempting to close tool call, but no tool call")
+                    return None
+                diff = self.prev_tool_call_arr[self.current_tool_id].get("arguments")
+                if diff:
+                    diff = (
+                        diff.encode("utf-8").decode("unicode_escape")
+                        if diff is str
+                        else diff
+                    )
+                    if '"}' not in delta_text:
+                        return None
+                    end_loc = delta_text.rindex('"}')
+                    diff = delta_text[:end_loc] + '"}'
+                    logger.debug(
+                        "Finishing tool and found diff that had not "
+                        "been streamed yet: %s",
+                        diff,
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(arguments=diff).model_dump(
+                                    exclude_none=True
+                                ),
+                            )
+                        ]
+                    )
+
+            # case -- otherwise we're just generating text
+            else:
+                text = delta_text.replace(self.tool_call_start_token, "")
+                text = text.replace(self.tool_call_end_token, "")
+                delta = DeltaMessage(tool_calls=[], content=text)
+                return delta
+
+            try:
+                current_tool_call = (
+                    partial_json_parser.loads(tool_call_portion or "{}", flags)
+                    if tool_call_portion
+                    else None
+                )
+                logger.debug("Parsed tool call %s", current_tool_call)
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+            except json.decoder.JSONDecodeError:
+                logger.debug("unable to parse JSON")
+                return None
+
+            # case - we haven't sent the tool name yet. If it's available, send
+            #   it. otherwise, wait until it's available.
+            if not self.current_tool_name_sent:
+                if current_tool_call is None:
+                    return None
+                function_name: str | None = current_tool_call.get("name")
+                if function_name:
+                    self.current_tool_name_sent = True
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                else:
+                    return None
+            # case -- otherwise, send the tool call delta
+
+            # if the tool call portion is None, send the delta as text
+            if tool_call_portion is None:
+                # if there's text but not tool calls, send that -
+                # otherwise None to skip chunk
+                delta = (
+                    DeltaMessage(content=delta_text)
+                    if text_portion is not None
+                    else None
+                )
+                return delta
+
+            # now, the nitty-gritty of tool calls
+            # now we have the portion to parse as tool call.
+
+            logger.debug(
+                "Trying to parse current tool call with ID %s", self.current_tool_id
+            )
+
+            # if we're starting a new tool call, push an empty object in as
+            #   a placeholder for the arguments
+            if len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+
+            # main logic for tool parsing here - compare prev. partially-parsed
+            #   JSON to the current partially-parsed JSON
+            prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                "arguments"
+            )
+            cur_arguments = current_tool_call.get("arguments")
+
+            logger.debug("diffing old arguments: %s", prev_arguments)
+            logger.debug("against new ones: %s", cur_arguments)
+
+            # case -- no arguments have been created yet. skip sending a delta.
+            if not cur_arguments and not prev_arguments:
+                logger.debug("Skipping text %s - no arguments", delta_text)
+                delta = None
+
+            # case -- prev arguments are defined, but non are now.
+            #   probably impossible, but not a fatal error - just keep going
+            elif not cur_arguments and prev_arguments:
+                logger.error(
+                    "should be impossible to have arguments reset "
+                    "mid-call. skipping streaming anything."
+                )
+                delta = None
+
+            # case -- we now have the first info about arguments available from
+            #   autocompleting the JSON
+            elif cur_arguments and not prev_arguments:
+                # extract the content after {"name": ..., "arguments":
+                #   directly from tool_call_portion as cur_arguments_json,
+                #   since cur_arguments may differ from the original text
+                #   due to partial JSON parsing
+                #   for example, tool_call_portion =
+                #     {"name": "search", "arguments": {"search_request": {"
+                #   but cur_arguments =
+                #     {"search_request": {}}
+                function_name = current_tool_call.get("name")
+                match = re.search(
+                    r'\{"name":\s*"'
+                    + re.escape(function_name)
+                    + r'"\s*,\s*"arguments":\s*(.*)',
+                    tool_call_portion.strip(),
+                    re.DOTALL,
+                )
+                if match:
+                    cur_arguments_json = match.group(1)
+                else:
+                    cur_arguments_json = json.dumps(cur_arguments, ensure_ascii=False)
+
+                logger.debug("finding %s in %s", delta_text, cur_arguments_json)
+
+                # get the location where previous args differ from current.
+                if delta_text not in cur_arguments_json:
+                    return None
+                args_delta_start_loc = cur_arguments_json.rindex(delta_text) + len(
+                    delta_text
+                )
+
+                # use that to find the actual delta
+                arguments_delta = cur_arguments_json[:args_delta_start_loc]
+                logger.debug("First tokens in arguments received: %s", arguments_delta)
+
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=arguments_delta
+                            ).model_dump(exclude_none=True),
+                        )
+                    ]
+                )
+                self.streamed_args_for_tool[self.current_tool_id] += arguments_delta
+
+            # last case -- we have an update to existing arguments.
+            elif cur_arguments and prev_arguments:
+                # judge whether the tool_call_portion is a complete JSON
+                try:
+                    json.loads(tool_call_portion)
+                    is_complete_json = True
+                except Exception:
+                    is_complete_json = False
+
+                # if the delta_text ends with a '}' and tool_call_portion is a
+                #   complete JSON, then the last '}' does not belong to the
+                #   arguments, so we should trim it off
+                if (
+                    isinstance(delta_text, str)
+                    and len(delta_text.rstrip()) >= 1
+                    and delta_text.rstrip()[-1] == "}"
+                    and is_complete_json
+                ):
+                    delta_text = delta_text.rstrip()[:-1]
+
+                logger.debug("got diff %s", delta_text)
+
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(arguments=delta_text).model_dump(
+                                exclude_none=True
+                            ),
+                        )
+                    ]
+                )
+                self.streamed_args_for_tool[self.current_tool_id] += delta_text
+
+            # handle saving the state for the current tool into
+            # the "prev" list for use in diffing for the next iteration
+            if self.current_tool_id == len(self.prev_tool_call_arr) - 1:
+                self.prev_tool_call_arr[self.current_tool_id] = current_tool_call
+            else:
+                self.prev_tool_call_arr.append(current_tool_call)
+
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            return None  # do not stream a delta. skip this token ID.
diff --git a/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py b/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
new file mode 100644
index 0000000..920675c
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
@@ -0,0 +1,420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: E501, SIM102
+
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import consume_space
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import random_uuid
+
+logger = init_logger(__name__)
+
+
+class HunyuanA13BToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        # Initialize state for streaming mode
+        self.prev_tool_calls: list[dict] = []
+        self.current_tool_id = -1
+        self.current_tool_name_sent = False
+        self.streamed_args: list[str] = []  # Track arguments sent for each tool
+
+        # For backward compatibility with tests
+        self.current_tools_sent: list[bool] = []
+
+        # For backward compatibility with serving code
+        self.prev_tool_call_arr = []
+
+        # Regex patterns for preprocessing
+        self.answer_tool_calls_pattern = re.compile(
+            r"<tool_calls>([\s\S]*?)</tool_calls>", re.DOTALL
+        )
+
+        self.tool_name_reg = re.compile(r'"name"\s*:\s*"([^"]+)"')
+
+        self.tool_empty_arg_reg = re.compile(
+            r'"name"\s*:\s*"[^"]+"\s*,\s*"arguments"\s*:\s*\{\s*\}'
+        )
+
+        # TODO: not support nested json object in fc arguments.
+        self.tool_non_empty_arg_reg = re.compile(
+            r'"name"\s*:\s*"[^"]+"\s*,\s*"arguments"\s*:\s*(\{(?:[^{}]|(?:\{[^{}]*\}))*\})'
+        )
+
+        self.bot_string = "<tool_calls>"
+
+        # Define streaming state type to be initialized later
+        self.streaming_state: dict[str, Any] = {
+            "current_tool_index": -1,
+            "tool_ids": [],
+            "sent_tools": [],
+        }
+
+    def preprocess_model_output(
+        self, model_output: str
+    ) -> tuple[str | None, str | None]:
+        # find the location tool call
+        for match in self.answer_tool_calls_pattern.finditer(model_output):
+            start, end = match.span()
+            # check tool_calls whether in side of <think>
+            think_regions = [
+                (m.start(), m.end())
+                for m in re.finditer(
+                    r"<think>(.*?)</think>", model_output, flags=re.DOTALL
+                )
+            ]
+            in_think = any(
+                start > t_start and end < t_end for t_start, t_end in think_regions
+            )
+            if not in_think:
+                content = model_output[:start]
+                tool_calls_content = match.group(1).strip()
+                try:
+                    json.loads(tool_calls_content)
+                    return content, tool_calls_content
+                except Exception:
+                    continue
+        return model_output, None
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract tool calls from a complete model output.
+        """
+        try:
+            # Preprocess the model output
+            content, potential_tool_calls = self.preprocess_model_output(model_output)
+
+            if not potential_tool_calls:
+                # some text should be filtered out for no function call
+                # this text is in a13b's chat template.
+                if content:
+                    content = content.replace("助手：", "", 1)
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=content
+                )
+
+            # Parse the potential tool calls as JSON
+            tool_calls_data = json.loads(potential_tool_calls)
+
+            # Ensure it's an array
+            if not isinstance(tool_calls_data, list):
+                logger.debug("Tool calls data is not an array")
+                return ExtractedToolCallInformation(
+                    tools_called=False,
+                    tool_calls=[],
+                    content=content or model_output,
+                )
+
+            tool_calls: list[ToolCall] = []
+
+            for idx, call in enumerate(tool_calls_data):
+                if (
+                    not isinstance(call, dict)
+                    or "name" not in call
+                    or "arguments" not in call
+                ):
+                    continue
+
+                tool_call = ToolCall(
+                    id=f"call_{random_uuid()}",
+                    type="function",
+                    function=FunctionCall(
+                        name=call["name"],
+                        arguments=(
+                            json.dumps(call["arguments"])
+                            if isinstance(call["arguments"], dict)
+                            else call["arguments"]
+                        ),
+                    ),
+                )
+                tool_calls.append(tool_call)
+
+            if not content or len(content.strip()) == 0:
+                # clear the whitespace content.
+                content = None
+
+            return ExtractedToolCallInformation(
+                tools_called=len(tool_calls) > 0,
+                tool_calls=tool_calls,
+                content=content,
+            )
+
+        except Exception:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        """
+        Extract tool calls for streaming mode.
+        """
+
+        start_idx = consume_space(0, current_text)
+        if current_text[start_idx:].startswith(self.bot_string):
+            start_idx = consume_space(start_idx + len(self.bot_string), current_text)
+        if (
+            not current_text
+            or start_idx >= len(current_text)
+            or current_text[start_idx] != "["
+        ):
+            return DeltaMessage(content=delta_text)
+
+        self._try_parse_json_tools(current_text[start_idx:])
+
+        test_delta = self._handle_test_compatibility(current_text)
+        if test_delta:
+            return test_delta
+
+        name_matches = list(self.tool_name_reg.finditer(current_text))
+        tool_count = len(name_matches)
+        if tool_count == 0:
+            return None
+        self._ensure_state_arrays(tool_count)
+        current_idx = self.streaming_state["current_tool_index"]
+
+        name_delta = self._handle_tool_name_streaming(
+            current_idx, tool_count, name_matches
+        )
+        if name_delta:
+            return name_delta
+
+        args_delta = self._handle_tool_args_streaming(
+            current_text, current_idx, tool_count
+        )
+        if args_delta:
+            return args_delta
+
+        return None
+
+    def _try_parse_json_tools(self, current_text: str):
+        try:
+            parsed_tools = json.loads(current_text)
+            if isinstance(parsed_tools, list):
+                self.prev_tool_call_arr = parsed_tools
+        except json.JSONDecodeError:
+            pass
+
+    def _handle_test_compatibility(self, current_text: str):
+        if len(self.current_tools_sent) > 0:
+            if (
+                len(self.current_tools_sent) == 1
+                and self.current_tools_sent[0] is False
+            ):
+                name_match = self.tool_name_reg.search(current_text)
+                if name_match:
+                    function_name = name_match.group(1)
+                    tool_id = f"chatcmpl-tool-{random_uuid()}"
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=0,
+                                type="function",
+                                id=tool_id,
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tools_sent = [True]
+                    self.current_tool_id = 0
+                    self.streaming_state["current_tool_index"] = 0
+                    if len(self.streaming_state["sent_tools"]) == 0:
+                        self.streaming_state["sent_tools"].append(
+                            {
+                                "sent_name": True,
+                                "sent_arguments_prefix": False,
+                                "sent_arguments": "",
+                            }
+                        )
+                    else:
+                        self.streaming_state["sent_tools"][0]["sent_name"] = True
+                    self.current_tool_name_sent = True
+                    return delta
+        return None
+
+    def _ensure_state_arrays(self, tool_count: int):
+        while len(self.streaming_state["sent_tools"]) < tool_count:
+            self.streaming_state["sent_tools"].append(
+                {
+                    "sent_name": False,
+                    "sent_arguments_prefix": False,
+                    "sent_arguments": "",
+                }
+            )
+        while len(self.streaming_state["tool_ids"]) < tool_count:
+            self.streaming_state["tool_ids"].append(None)
+
+    def _handle_tool_name_streaming(
+        self, current_idx: int, tool_count: int, name_matches
+    ):
+        if current_idx == -1 or current_idx < tool_count - 1:
+            next_idx = current_idx + 1
+            if (
+                next_idx < tool_count
+                and not self.streaming_state["sent_tools"][next_idx]["sent_name"]
+            ):
+                self.streaming_state["current_tool_index"] = next_idx
+                self.current_tool_id = next_idx
+                current_idx = next_idx
+                tool_name = name_matches[current_idx].group(1)
+                tool_id = f"call_{current_idx}_{random_uuid()}"
+                self.streaming_state["tool_ids"][current_idx] = tool_id
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=current_idx,
+                            type="function",
+                            id=tool_id,
+                            function=DeltaFunctionCall(name=tool_name).model_dump(
+                                exclude_none=True
+                            ),
+                        )
+                    ]
+                )
+                self.streaming_state["sent_tools"][current_idx]["sent_name"] = True
+                self.current_tool_name_sent = True
+                while len(self.streamed_args) <= current_idx:
+                    self.streamed_args.append("")
+                return delta
+        return None
+
+    def _handle_tool_args_streaming(
+        self, current_text: str, current_idx: int, tool_count: int
+    ):
+        if current_idx >= 0 and current_idx < tool_count:
+            empty_args_match = self.tool_empty_arg_reg.search(current_text)
+            if empty_args_match and empty_args_match.start() > 0:
+                for i in range(tool_count):
+                    if i == current_idx:
+                        if not self.streaming_state["sent_tools"][current_idx][
+                            "sent_arguments_prefix"
+                        ]:
+                            self.streaming_state["sent_tools"][current_idx][
+                                "sent_arguments_prefix"
+                            ] = True
+                            self.streaming_state["sent_tools"][current_idx][
+                                "sent_arguments"
+                            ] = "{}"
+                            while len(self.streamed_args) <= current_idx:
+                                self.streamed_args.append("")
+                            self.streamed_args[current_idx] += "{}"
+                            delta = DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=current_idx,
+                                        function=DeltaFunctionCall(
+                                            arguments="{}"
+                                        ).model_dump(exclude_none=True),
+                                    )
+                                ]
+                            )
+                            if current_idx < tool_count - 1:
+                                self.streaming_state["current_tool_index"] += 1
+                                self.current_tool_id = self.streaming_state[
+                                    "current_tool_index"
+                                ]
+                            return delta
+
+            args_matches = list(self.tool_non_empty_arg_reg.finditer(current_text))
+            if current_idx < len(args_matches):
+                args_text = args_matches[current_idx].group(1)
+                is_last_tool = current_idx == tool_count - 1
+                if not is_last_tool:
+                    next_tool_pos = current_text.find(
+                        "},{", args_matches[current_idx].start()
+                    )
+                    if next_tool_pos != -1:
+                        args_end_pos = next_tool_pos + 1
+                        args_text = (
+                            current_text[
+                                args_matches[current_idx].start() : args_end_pos
+                            ]
+                            .split('"arguments":')[1]
+                            .strip()
+                        )
+                sent_args = self.streaming_state["sent_tools"][current_idx][
+                    "sent_arguments"
+                ]
+                if not self.streaming_state["sent_tools"][current_idx][
+                    "sent_arguments_prefix"
+                ] and args_text.startswith("{"):
+                    self.streaming_state["sent_tools"][current_idx][
+                        "sent_arguments_prefix"
+                    ] = True
+                    self.streaming_state["sent_tools"][current_idx][
+                        "sent_arguments"
+                    ] = "{"
+                    while len(self.streamed_args) <= current_idx:
+                        self.streamed_args.append("")
+                    self.streamed_args[current_idx] += "{"
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=current_idx,
+                                function=DeltaFunctionCall(arguments="{").model_dump(
+                                    exclude_none=True
+                                ),
+                            )
+                        ]
+                    )
+                    return delta
+
+                if args_text.startswith(sent_args):
+                    args_diff = args_text[len(sent_args) :]
+                    if args_diff:
+                        self.streaming_state["sent_tools"][current_idx][
+                            "sent_arguments"
+                        ] = args_text
+                        while len(self.streamed_args) <= current_idx:
+                            self.streamed_args.append("")
+                        self.streamed_args[current_idx] += args_diff
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=current_idx,
+                                    function=DeltaFunctionCall(
+                                        arguments=args_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        return delta
+
+                if args_text.endswith("}") and args_text == sent_args:
+                    if current_idx < tool_count - 1:
+                        self.streaming_state["current_tool_index"] += 1
+                        self.current_tool_id = self.streaming_state[
+                            "current_tool_index"
+                        ]
+        return None
diff --git a/entrypoints/openai/tool_parsers/internlm2_tool_parser.py b/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
new file mode 100644
index 0000000..1dd327f
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
@@ -0,0 +1,227 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import partial_json_parser
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class Internlm2ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        self.position = 0
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        request = super().adjust_request(request)
+        if request.tools and request.tool_choice != "none":
+            # do not skip special tokens because internlm use the special
+            # tokens to indicate the start and end of the tool calls
+            # information.
+            request.skip_special_tokens = False
+        return request
+
+    def get_arguments(self, obj):
+        if "parameters" in obj:
+            return obj.get("parameters")
+        elif "arguments" in obj:
+            return obj.get("arguments")
+        return None
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if "<|action_start|>" not in current_text:
+            self.position = len(current_text)
+            return DeltaMessage(content=delta_text)
+        # if the tool call is sent, return an empty delta message
+        # to make sure the finish_reason will be sent correctly.
+        if self.current_tool_id > 0:
+            return DeltaMessage(content="")
+
+        last_pos = self.position
+        if "<|action_start|><|plugin|>" not in current_text[last_pos:]:
+            return None
+
+        new_delta = current_text[last_pos:]
+        text, action = new_delta.split("<|action_start|><|plugin|>")
+
+        if len(text) > 0:
+            self.position = self.position + len(text)
+            return DeltaMessage(content=text)
+
+        action = action.strip()
+        action = action.split("<|action_end|>".strip())[0]
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+
+        try:
+            parsable_arr = action
+
+            # tool calls are generated in an object in internlm2
+            # it's not support parallel tool calls
+            try:
+                tool_call_arr: dict = partial_json_parser.loads(parsable_arr, flags)
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            if not self.current_tool_name_sent:
+                function_name = tool_call_arr.get("name")
+                if function_name:
+                    self.current_tool_id = self.current_tool_id + 1
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+                    self.streamed_args_for_tool.append("")
+                else:
+                    delta = None
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                prev_arguments = self.get_arguments(
+                    self.prev_tool_call_arr[self.current_tool_id]
+                )
+                cur_arguments = self.get_arguments(tool_call_arr)
+
+                # not arguments generated
+                if not cur_arguments and not prev_arguments:
+                    delta = None
+                # will never happen
+                elif not cur_arguments and prev_arguments:
+                    logger.error(
+                        "INVARIANT - impossible to have arguments reset mid-arguments"
+                    )
+                    delta = None
+                # first time to get parameters
+                elif cur_arguments and not prev_arguments:
+                    cur_arguments_json = json.dumps(cur_arguments, ensure_ascii=False)
+
+                    arguments_delta = cur_arguments_json[
+                        : cur_arguments_json.index(delta_text) + len(delta_text)
+                    ]
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=arguments_delta
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += arguments_delta
+                # both prev and cur parameters, send the increase parameters
+                elif cur_arguments and prev_arguments:
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+
+                    argument_diff = extract_intermediate_diff(
+                        cur_args_json, prev_args_json
+                    )
+
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=argument_diff
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += argument_diff
+
+            # check to see if the name is defined and has been sent. if so,
+            # stream the name - otherwise keep waiting
+            # finish by setting old and returning None as base case
+            tool_call_arr["arguments"] = self.get_arguments(tool_call_arr)
+            self.prev_tool_call_arr = [tool_call_arr]
+            return delta
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        text = model_output
+        tools = request.tools
+        if "<|action_start|><|plugin|>" in text:
+            text, action = text.split("<|action_start|><|plugin|>")
+            action = action.split("<|action_end|>".strip())[0]
+            action = action[action.find("{") :]
+            action_dict = json.loads(action)
+            name, parameters = (
+                action_dict["name"],
+                json.dumps(
+                    action_dict.get("parameters", action_dict.get("arguments", {})),
+                    ensure_ascii=False,
+                ),
+            )
+
+            if not tools or name not in [t.function.name for t in tools]:
+                ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=text
+                )
+
+            tool_calls = [
+                ToolCall(function=FunctionCall(name=name, arguments=parameters))
+            ]
+            return ExtractedToolCallInformation(
+                tools_called=True,
+                tool_calls=tool_calls,
+                content=text if len(text) > 0 else None,
+            )
+
+        return ExtractedToolCallInformation(
+            tools_called=False, tool_calls=[], content=text
+        )
diff --git a/entrypoints/openai/tool_parsers/jamba_tool_parser.py b/entrypoints/openai/tool_parsers/jamba_tool_parser.py
new file mode 100644
index 0000000..6f53dde
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/jamba_tool_parser.py
@@ -0,0 +1,323 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import partial_json_parser
+import regex as re
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers import ToolParser
+from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.transformers_utils.tokenizers import MistralTokenizer
+
+logger = init_logger(__name__)
+
+
+class JambaToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        if isinstance(self.model_tokenizer, MistralTokenizer):
+            raise ValueError(
+                "Detected a MistralTokenizer tokenizer when using a Jamba model"
+            )
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+
+        self.tool_calls_start_token: str = "<tool_calls>"
+        self.tool_calls_end_token: str = "</tool_calls>"
+
+        self.tool_calls_regex = re.compile(
+            rf"{self.tool_calls_start_token}(.*?){self.tool_calls_end_token}", re.DOTALL
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+        self.tool_calls_start_token_id = self.vocab.get(self.tool_calls_start_token)
+        self.tool_calls_end_token_id = self.vocab.get(self.tool_calls_end_token)
+        if (
+            self.tool_calls_start_token_id is None
+            or self.tool_calls_end_token_id is None
+        ):
+            raise RuntimeError(
+                "Jamba Tool parser could not locate tool calls start/end "
+                "tokens in the tokenizer!"
+            )
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        request = super().adjust_request(request)
+        if request.tools and request.tool_choice != "none":
+            # do not skip special tokens because jamba use the special
+            # tokens to indicate the start and end of the tool calls
+            # information.
+            request.skip_special_tokens = False
+        return request
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                # use a regex to find the tool call between the tags
+                function_calls = self.tool_calls_regex.findall(model_output)[0]
+
+                # load the JSON, and then use it to build the Function and
+                # Tool Call
+                raw_function_calls = json.loads(function_calls)
+                tool_calls = [
+                    ToolCall(
+                        type="function",
+                        function=FunctionCall(
+                            name=function_call["name"],
+                            # function call args are JSON but as a string
+                            arguments=json.dumps(
+                                function_call["arguments"], ensure_ascii=False
+                            ),
+                        ),
+                    )
+                    for function_call in raw_function_calls
+                ]
+
+                content = model_output[: model_output.find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if (len(content) > 0 and content != " ") else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # if the tool call token is not in the tokens generated so far, append
+        # output to contents since it's not a tool
+        if self.tool_calls_start_token not in current_text:
+            return DeltaMessage(content=delta_text)
+
+        # if the tool call token ID IS in the tokens generated so far, that
+        # means we're parsing as tool calls now
+
+        # handle if we detected the start of tool calls token which means
+        # the start of tool calling
+        if (
+            self.tool_calls_start_token_id in delta_token_ids
+            and len(delta_token_ids) == 1
+        ):
+            # if it's the only token, return None, so we don't send a chat
+            # completion and don't send a control token
+            return None
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+        try:
+            # Extract the tool calls between the special tool call tokens
+            parsable_arr = current_text.split(self.tool_calls_start_token)[-1].split(
+                self.tool_calls_end_token
+            )[0]
+
+            # tool calls are generated in an array, so do partial JSON
+            # parsing on the entire array
+            try:
+                tool_call_arr: list[dict] = partial_json_parser.loads(
+                    parsable_arr, flags
+                )
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # select as the current tool call the one we're on the state at
+
+            current_tool_call: dict = (
+                tool_call_arr[self.current_tool_id] if len(tool_call_arr) > 0 else {}
+            )
+
+            # case -- if no tokens have been streamed for the tool, e.g.
+            #   only the array brackets, stream nothing
+            if len(tool_call_arr) == 0:
+                return None
+
+            # case: we are starting a new tool in the array
+            #   -> array has > 0 length AND length has moved past cursor
+            elif (
+                len(tool_call_arr) > 0 and len(tool_call_arr) > self.current_tool_id + 1
+            ):
+                # if we're moving on to a new call, first make sure we
+                # haven't missed anything in the previous one that was
+                # auto-generated due to JSON completions, but wasn't
+                # streamed to the client yet.
+                if self.current_tool_id >= 0:
+                    diff: str | None = current_tool_call.get("arguments")
+
+                    if diff:
+                        diff = json.dumps(diff, ensure_ascii=False).replace(
+                            self.streamed_args_for_tool[self.current_tool_id], ""
+                        )
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += diff
+                    else:
+                        delta = None
+                else:
+                    delta = None
+                # re-set stuff pertaining to progress in the current tool
+                self.current_tool_id = len(tool_call_arr) - 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("starting on new tool %d", self.current_tool_id)
+                return delta
+
+            # case: update an existing tool - this is handled below
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            if not self.current_tool_name_sent:
+                function_name = current_tool_call.get("name")
+                if function_name:
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+                else:
+                    delta = None
+
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                    "arguments"
+                )
+                cur_arguments = current_tool_call.get("arguments")
+
+                new_text = delta_text.replace("'", '"')
+
+                if not cur_arguments and not prev_arguments:
+                    delta = None
+                elif not cur_arguments and prev_arguments:
+                    logger.error(
+                        "INVARIANT - impossible to have arguments reset mid-arguments"
+                    )
+                    delta = None
+                elif cur_arguments and not prev_arguments:
+                    cur_arguments_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    logger.debug("finding %s in %s", new_text, cur_arguments_json)
+
+                    arguments_delta = cur_arguments_json[
+                        : cur_arguments_json.index(new_text) + len(new_text)
+                    ]
+                    logger.debug(
+                        "First tokens in arguments received: %s", arguments_delta
+                    )
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=arguments_delta
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += arguments_delta
+
+                elif cur_arguments and prev_arguments:
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+                    logger.debug(
+                        "Searching for diff between \n%s\n%s",
+                        cur_args_json,
+                        prev_args_json,
+                    )
+
+                    argument_diff = extract_intermediate_diff(
+                        cur_args_json, prev_args_json
+                    )
+                    logger.debug("got arguments diff: %s", argument_diff)
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=argument_diff
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += argument_diff
+                else:
+                    # try parsing it with regular JSON - if it works we're
+                    # at the end, and we need to send the difference between
+                    # tokens streamed so far and the valid JSON
+                    delta = None
+
+            # check to see if the name is defined and has been sent. if so,
+            # stream the name - otherwise keep waiting
+            # finish by setting old and returning None as base case
+            self.prev_tool_call_arr = tool_call_arr
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
diff --git a/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py b/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
new file mode 100644
index 0000000..2b84c60
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
@@ -0,0 +1,590 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# code modified from deepseekv3_tool_parser.py
+
+from collections.abc import Sequence
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class KimiK2ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+
+        # Section-level state management to prevent token leakage
+        self.in_tool_section: bool = False
+        self.token_buffer: str = ""
+        # Buffer size: empirical worst-case for longest marker (~30 chars) * 2
+        # + safety margin for unicode + partial overlap. Prevents unbounded growth.
+        self.buffer_max_size: int = 1024
+        self.section_char_count: int = 0  # Track characters processed in tool section
+        self.max_section_chars: int = 8192  # Force exit if section exceeds this
+        self._buffer_overflow_logged: bool = False  # Log overflow once per session
+
+        # Support both singular and plural variants
+        self.tool_calls_start_token: str = "<|tool_calls_section_begin|>"
+        self.tool_calls_end_token: str = "<|tool_calls_section_end|>"
+        self.tool_calls_start_token_variants: list[str] = [
+            "<|tool_calls_section_begin|>",
+            "<|tool_call_section_begin|>",  # singular variant
+        ]
+        self.tool_calls_end_token_variants: list[str] = [
+            "<|tool_calls_section_end|>",
+            "<|tool_call_section_end|>",  # singular variant
+        ]
+
+        self.tool_call_start_token: str = "<|tool_call_begin|>"
+        self.tool_call_end_token: str = "<|tool_call_end|>"
+
+        self.tool_call_regex = re.compile(
+            r"<\|tool_call_begin\|>\s*(?P<tool_call_id>[^<]+:\d+)\s*<\|tool_call_argument_begin\|>\s*(?P<function_arguments>(?:(?!<\|tool_call_begin\|>).)*?)\s*<\|tool_call_end\|>",
+            re.DOTALL,
+        )
+
+        self.stream_tool_call_portion_regex = re.compile(
+            r"(?P<tool_call_id>.+:\d+)\s*<\|tool_call_argument_begin\|>\s*(?P<function_arguments>.*)"
+        )
+
+        self.stream_tool_call_name_regex = re.compile(r"(?P<tool_call_id>.+:\d+)\s*")
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+        self.tool_calls_start_token_id = self.vocab.get(self.tool_calls_start_token)
+        self.tool_calls_end_token_id = self.vocab.get(self.tool_calls_end_token)
+
+        # Get token IDs for all variants
+        self.tool_calls_start_token_ids: list[int] = [
+            tid
+            for variant in self.tool_calls_start_token_variants
+            if (tid := self.vocab.get(variant)) is not None
+        ]
+        self.tool_calls_end_token_ids: list[int] = [
+            tid
+            for variant in self.tool_calls_end_token_variants
+            if (tid := self.vocab.get(variant)) is not None
+        ]
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if (
+            self.tool_calls_start_token_id is None
+            or self.tool_calls_end_token_id is None
+        ):
+            raise RuntimeError(
+                "Kimi-K2 Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer!"
+            )
+
+    def _check_and_strip_markers(self, text: str) -> tuple[str, bool, bool]:
+        """
+        Check for section begin/end markers in text and strip them.
+        Returns: (cleaned_text, found_section_begin, found_section_end)
+        """
+        found_begin = False
+        found_end = False
+        cleaned = text
+
+        # Check for section begin markers (any variant)
+        for variant in self.tool_calls_start_token_variants:
+            if variant in cleaned:
+                cleaned = cleaned.replace(variant, "")
+                found_begin = True
+
+        # Check for section end markers (any variant)
+        for variant in self.tool_calls_end_token_variants:
+            if variant in cleaned:
+                cleaned = cleaned.replace(variant, "")
+                found_end = True
+
+        return cleaned, found_begin, found_end
+
+    def _reset_section_state(self) -> None:
+        """Reset state when exiting tool section."""
+        self.in_tool_section = False
+        self.token_buffer = ""
+        self.section_char_count = 0
+
+    def reset_streaming_state(self) -> None:
+        """
+        Reset all streaming state. Call this between requests to prevent
+        state leakage when parser instance is reused.
+        """
+        # Reset section state
+        self._reset_section_state()
+
+        # Reset parent class state
+        self.current_tool_name_sent = False
+        self.prev_tool_call_arr = []
+        self.current_tool_id = -1
+        self.streamed_args_for_tool = []
+
+        logger.debug("Streaming state reset")
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        else:
+            try:
+                # there are two possible captures - between tags, or between a
+                # tag and end-of-string so the result of
+                # findall is an array of tuples where one is a function call and
+                # the other is None
+                function_call_tuples = self.tool_call_regex.findall(model_output)
+
+                logger.debug("function_call_tuples: %s", function_call_tuples)
+
+                tool_calls = []
+                for match in function_call_tuples:
+                    function_id, function_args = match
+                    # function_id: functions.get_weather:0 or get_weather:0
+                    function_name = function_id.split(":")[0].split(".")[-1]
+                    tool_calls.append(
+                        ToolCall(
+                            id=function_id,
+                            type="function",
+                            function=FunctionCall(
+                                name=function_name, arguments=function_args
+                            ),
+                        )
+                    )
+
+                content = model_output[: model_output.find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception("Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        logger.debug("delta_text: %s", delta_text)
+        logger.debug("delta_token_ids: %s", delta_token_ids)
+
+        # Flag to defer section exit until after tool parsing completes
+        deferred_section_exit = False
+
+        # Add delta to buffer for split marker detection
+        self.token_buffer += delta_text
+
+        # Enforce buffer size limit to prevent memory issues
+        if len(self.token_buffer) > self.buffer_max_size:
+            if not self._buffer_overflow_logged:
+                logger.warning(
+                    "Token buffer exceeded max size (%d bytes), flushing excess. "
+                    "This may indicate very long markers or unusual tokenization.",
+                    self.buffer_max_size,
+                )
+                self._buffer_overflow_logged = True
+            # Keep only the most recent content that might contain partial markers
+            self.token_buffer = self.token_buffer[-self.buffer_max_size // 2 :]
+
+        # Check buffer for section markers (handles split tokens)
+        buffered_text, found_section_begin, found_section_end = (
+            self._check_and_strip_markers(self.token_buffer)
+        )
+
+        # Track section state transitions
+        if found_section_begin and not self.in_tool_section:
+            logger.debug("Entering tool section")
+            self.in_tool_section = True
+            self.token_buffer = buffered_text  # Use cleaned buffer
+            self.section_char_count = 0  # Reset counter for new section
+        if found_section_end and self.in_tool_section:
+            logger.debug("Detected section end marker")
+            # CRITICAL: Don't exit early if tool_call_end is in this chunk.
+            # Tool parser must emit final arguments/close first to avoid dropping
+            # the final tool update and leaking tokens into reasoning channel.
+            has_tool_end = self.tool_call_end_token_id in delta_token_ids
+            if has_tool_end:
+                # Defer exit until after tool parsing completes
+                deferred_section_exit = True
+                logger.debug("Deferring section exit: tool_call_end in same chunk")
+                self.token_buffer = buffered_text
+            else:
+                # No tool call ending, safe to exit immediately
+                logger.debug("Exiting tool section")
+                remaining = buffered_text
+                self._reset_section_state()
+                # Return remaining text as reasoning content if non-empty
+                if remaining.strip():
+                    return DeltaMessage(content=remaining)
+                # Return empty delta to maintain function contract
+                # (always returns DeltaMessage)
+                return DeltaMessage(content="")
+        else:
+            self.token_buffer = buffered_text
+
+        # Check if any variant of section start token is in current_token_ids
+        has_section_token = any(
+            tid in current_token_ids for tid in self.tool_calls_start_token_ids
+        )
+
+        # Early return: if no section token detected yet, return as reasoning content
+        if not has_section_token and not self.in_tool_section:
+            logger.debug("No tool call tokens found!")
+            # Don't clear buffer - it needs to accumulate partial markers across deltas
+            # Buffer overflow is already protected by lines 215-224
+            return DeltaMessage(content=delta_text)
+
+        # Strip section markers from delta_text for subsequent processing
+        # NOTE: This preprocessing happens BEFORE the regex-based tool call
+        # parsing (from PR #24847) to ensure markers are removed cleanly
+        # before pattern matching. No double-stripping occurs because
+        # section markers and tool call markers are distinct.
+        delta_text, _, _ = self._check_and_strip_markers(delta_text)
+
+        # Error recovery: If in tool section for too long, force exit
+        if self.in_tool_section:
+            self.section_char_count += len(delta_text)
+            if self.section_char_count > self.max_section_chars:
+                logger.warning(
+                    "Tool section exceeded max length (%d chars), forcing exit. "
+                    "This may indicate malformed model output.",
+                    self.max_section_chars,
+                )
+                self._reset_section_state()
+                # Deferred exit already handled by forced exit above
+                # Return remaining content as reasoning (or empty delta if no content)
+                return DeltaMessage(content=delta_text if delta_text.strip() else "")
+
+        try:
+            # figure out where we are in the parsing by counting tool call
+            # start & end tags
+            prev_tool_start_count = previous_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            prev_tool_end_count = previous_token_ids.count(self.tool_call_end_token_id)
+            cur_tool_start_count = current_token_ids.count(
+                self.tool_call_start_token_id
+            )
+            cur_tool_end_count = current_token_ids.count(self.tool_call_end_token_id)
+            tool_call_portion = None
+            text_portion = None
+
+            # case: if we're generating text, OR rounding out a tool call
+            if (
+                cur_tool_start_count == cur_tool_end_count
+                and prev_tool_end_count == cur_tool_end_count
+                and self.tool_call_end_token not in delta_text
+            ):
+                # CRITICAL FIX: Suppress content if in tool section but
+                # no tool calls started
+                if self.in_tool_section and cur_tool_start_count == 0:
+                    logger.debug(
+                        "In tool section but no tool calls started yet. "
+                        "Suppressing: %s",
+                        delta_text,
+                    )
+                    # Return empty delta to maintain iterator contract
+                    return DeltaMessage(content="")
+                logger.debug("Generating text content! skipping tool parsing.")
+                return DeltaMessage(content=delta_text)
+
+            if self.tool_call_end_token in delta_text:
+                logger.debug("tool_call_end_token in delta_text")
+                full_text = current_text + delta_text
+                tool_call_portion = (
+                    full_text.split(self.tool_call_start_token)[-1]
+                    .split(self.tool_call_end_token)[0]
+                    .rstrip()
+                )
+                delta_text = delta_text.split(self.tool_call_end_token)[0].rstrip()
+                text_portion = delta_text.split(self.tool_call_end_token)[-1].lstrip()
+
+            # case -- we're starting a new tool call
+            if (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count > prev_tool_start_count
+            ):
+                if len(delta_token_ids) > 1:
+                    tool_call_portion = current_text.split(self.tool_call_start_token)[
+                        -1
+                    ]
+                else:
+                    tool_call_portion = None
+                    delta = None
+
+                text_portion = None
+
+                # set cursors and state appropriately
+                self.current_tool_id += 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("Starting on a new tool %s", self.current_tool_id)
+
+            # case -- we're updating an existing tool call
+            elif (
+                cur_tool_start_count > cur_tool_end_count
+                and cur_tool_start_count == prev_tool_start_count
+            ):
+                # get the portion of the text that's the tool call
+                tool_call_portion = current_text.split(self.tool_call_start_token)[-1]
+                text_portion = None
+
+            # case -- the current tool call is being closed.
+            elif (
+                cur_tool_start_count == cur_tool_end_count
+                and cur_tool_end_count >= prev_tool_end_count
+            ):
+                if self.prev_tool_call_arr is None or len(self.prev_tool_call_arr) == 0:
+                    logger.debug("attempting to close tool call, but no tool call")
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit and self.in_tool_section:
+                        self._reset_section_state()
+                    return None
+                diff = self.prev_tool_call_arr[self.current_tool_id].get("arguments")
+                if diff:
+                    diff = (
+                        diff.encode("utf-8").decode("unicode_escape")
+                        if diff is str
+                        else diff
+                    )
+                    if '"}' not in delta_text:
+                        # Handle deferred section exit before returning
+                        if deferred_section_exit and self.in_tool_section:
+                            self._reset_section_state()
+                        return None
+                    end_loc = delta_text.rindex('"}')
+                    diff = delta_text[:end_loc] + '"}'
+                    logger.debug(
+                        "Finishing tool and found diff that had not "
+                        "been streamed yet: %s",
+                        diff,
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit and self.in_tool_section:
+                        logger.debug("Completing deferred section exit")
+                        self._reset_section_state()
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(arguments=diff).model_dump(
+                                    exclude_none=True
+                                ),
+                            )
+                        ]
+                    )
+
+            # case -- otherwise we're just generating text
+            else:
+                # Check if we're in tool section - if so, suppress
+                if self.in_tool_section:
+                    logger.debug("In tool section, suppressing text generation")
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit:
+                        self._reset_section_state()
+                    return DeltaMessage(content="")
+                text = delta_text.replace(self.tool_call_start_token, "")
+                text = text.replace(self.tool_call_end_token, "")
+                delta = DeltaMessage(tool_calls=[], content=text)
+                # Handle deferred section exit before returning
+                if deferred_section_exit and self.in_tool_section:
+                    self._reset_section_state()
+                return delta
+
+            current_tool_call = dict()
+            if tool_call_portion:
+                current_tool_call_matches = self.stream_tool_call_portion_regex.match(
+                    tool_call_portion
+                )
+                if current_tool_call_matches:
+                    tool_id, tool_args = current_tool_call_matches.groups()
+                    tool_name = tool_id.split(":")[0].split(".")[-1]
+                    current_tool_call["id"] = tool_id
+                    current_tool_call["name"] = tool_name
+                    current_tool_call["arguments"] = tool_args
+                else:
+                    current_tool_call_name_matches = (
+                        self.stream_tool_call_name_regex.match(tool_call_portion)
+                    )
+                    if current_tool_call_name_matches:
+                        (tool_id_str,) = current_tool_call_name_matches.groups()
+                        tool_name = tool_id_str.split(":")[0].split(".")[-1]
+                        current_tool_call["id"] = tool_id_str
+                        current_tool_call["name"] = tool_name
+                        current_tool_call["arguments"] = ""
+                    else:
+                        logger.debug("Not enough token")
+                        return None
+
+            # case - we haven't sent the tool name yet. If it's available, send
+            #   it. otherwise, wait until it's available.
+            if not self.current_tool_name_sent:
+                if current_tool_call is None:
+                    return None
+                function_name: str | None = current_tool_call.get("name")
+                tool_id = current_tool_call.get("id")
+                if function_name:
+                    self.current_tool_name_sent = True
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=tool_id,
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                else:
+                    return None
+
+            # case -- otherwise, send the tool call delta
+
+            # if the tool call portion is None, send the delta as text
+            if tool_call_portion is None:
+                # if there's text but not tool calls, send that -
+                # otherwise None to skip chunk
+                delta = (
+                    DeltaMessage(content=delta_text)
+                    if text_portion is not None
+                    else None
+                )
+                return delta
+
+            # now, the nitty-gritty of tool calls
+            # now we have the portion to parse as tool call.
+
+            logger.debug(
+                "Trying to parse current tool call with ID %s", self.current_tool_id
+            )
+
+            # if we're starting a new tool call, push an empty object in as
+            #   a placeholder for the arguments
+            if len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+
+            # main logic for tool parsing here - compare prev. partially-parsed
+            #   JSON to the current partially-parsed JSON
+            prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                "arguments"
+            )
+            cur_arguments = current_tool_call.get("arguments")
+
+            logger.debug("diffing old arguments: %s", prev_arguments)
+            logger.debug("against new ones: %s", cur_arguments)
+
+            # case -- no arguments have been created yet. skip sending a delta.
+            if not cur_arguments and not prev_arguments:
+                logger.debug("Skipping text %s - no arguments", delta_text)
+                delta = None
+
+            # case -- prev arguments are defined, but non are now.
+            #   probably impossible, but not a fatal error - just keep going
+            elif not cur_arguments and prev_arguments:
+                logger.error(
+                    "should be impossible to have arguments reset "
+                    "mid-call. skipping streaming anything."
+                )
+                delta = None
+
+            # case -- we now have the first info about arguments available from
+            #   autocompleting the JSON
+            elif cur_arguments and not prev_arguments:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=cur_arguments
+                            ).model_dump(exclude_none=True),
+                        )
+                    ]
+                )
+                self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+
+            # last case -- we have an update to existing arguments.
+            elif cur_arguments and prev_arguments:
+                if (
+                    isinstance(delta_text, str)
+                    and cur_arguments != prev_arguments
+                    and len(cur_arguments) > len(prev_arguments)
+                    and cur_arguments.startswith(prev_arguments)
+                ):
+                    delta_arguments = cur_arguments[len(prev_arguments) :]
+                    logger.debug("got diff %s", delta_text)
+
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=delta_arguments
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] = cur_arguments
+                else:
+                    delta = None
+
+            # handle saving the state for the current tool into
+            # the "prev" list for use in diffing for the next iteration
+            if self.current_tool_id == len(self.prev_tool_call_arr) - 1:
+                self.prev_tool_call_arr[self.current_tool_id] = current_tool_call
+            else:
+                self.prev_tool_call_arr.append(current_tool_call)
+
+            # Handle deferred section exit after tool parsing completes
+            if deferred_section_exit and self.in_tool_section:
+                logger.debug("Completing deferred section exit")
+                self._reset_section_state()
+
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            return None  # do not stream a delta. skip this token ID.
diff --git a/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py b/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
new file mode 100644
index 0000000..1d6de92
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
@@ -0,0 +1,341 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+import vllm.envs as envs
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class _UnexpectedAstError(Exception):
+    pass
+
+
+class Llama4PythonicToolParser(ToolParser):
+    """
+    Toolcall parser for Llama4 that produce tool calls in a pythonic style
+    Use --enable-auto-tool-choice --tool-call-parser llama4_pythonic
+    """
+
+    # TODO(mdepinet): Possible future improvements:
+    #   1. Support text + tools separated by either <|python_tag|> or \n\n
+    #   2. Support tools outside of a list (or separated by a semicolon).
+    #      This depends on item 1 for consistent streaming.
+    # Neither of these are necessary for e.g. ToolACE, but both would help make
+    # Llama3.2 models more reliable.
+
+    TOOL_CALL_REGEX = re.compile(
+        r"\[([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s)?\),\s*)*([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s*)?\)\s*)+\]",
+        re.DOTALL,
+    )
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase):
+        super().__init__(tokenizer)
+
+    # Rename for readability. This is NOT a tool id.
+    @property
+    def current_tool_index(self) -> int:
+        return self.current_tool_id
+
+    @current_tool_index.setter
+    def current_tool_index(self, value: int) -> None:
+        self.current_tool_id = value
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response.
+        """
+
+        # remove <|python_start|> and <|python_end|>
+        # as Llama 4 model sometime will output those tokens
+        if model_output.startswith("<|python_start|>"):
+            model_output = model_output[len("<|python_start|>") :]
+            model_output = model_output.replace("<|python_end|>", "")
+
+        is_tool_call_pattern = False
+        try:
+            is_tool_call_pattern = (
+                self.TOOL_CALL_REGEX.match(
+                    model_output, timeout=envs.VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS
+                )
+                is not None
+            )
+        except TimeoutError:
+            logger.warning("Regex timeout occurred when matching tool call pattern.")
+            logger.debug(
+                "Regex timeout occurred when matching user input: %s", model_output
+            )
+
+        if not is_tool_call_pattern:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            module = ast.parse(model_output)
+            parsed = getattr(module.body[0], "value", None)
+            if isinstance(parsed, ast.List) and all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=[
+                        _handle_single_tool(e)  # type: ignore
+                        for e in parsed.elts
+                    ],
+                    content=None,
+                )
+            else:
+                raise _UnexpectedAstError(
+                    "Tool output must be a list of function calls"
+                )
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            # Treat as regular text
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if not current_text.startswith("[") and not current_text.startswith(
+            "<|python_start|>"
+        ):
+            return DeltaMessage(content=delta_text)
+
+        try:
+            # remove <|python_start|> and <|python_end|>
+            if current_text.startswith("<|python_start|>"):
+                current_text = current_text[len("<|python_start|>") :]
+            if current_text.endswith("<|python_end|>"):
+                current_text = current_text[: current_text.rfind("<|python_end|>")]
+            valid_and_added_text = _make_valid_python(current_text)
+            if valid_and_added_text is None:
+                return None
+            valid_text, added_text = valid_and_added_text
+
+            module = ast.parse(valid_text)
+            parsed = getattr(module.body[0], "value", None)
+            if not isinstance(parsed, ast.List) or not all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                raise _UnexpectedAstError(
+                    "Tool output must be a list of function calls"
+                )
+            tool_calls = [
+                _handle_single_tool(e)  # type: ignore
+                for e in parsed.elts
+            ]
+
+            tool_deltas = []
+            for index, new_call in enumerate(tool_calls):
+                if index < self.current_tool_index:
+                    continue
+
+                self.current_tool_index = index
+                if len(self.streamed_args_for_tool) == index:
+                    self.streamed_args_for_tool.append("")
+
+                new_call_complete = (
+                    index < len(tool_calls) - 1 or ")]" not in added_text
+                )
+                if new_call_complete:
+                    self.current_tool_index += 1
+
+                withheld_suffix = added_text[:-2] if not new_call_complete else ""
+                if not new_call_complete and added_text[-2] == ")":
+                    # Function call is incomplete. Withhold the closing bracket.
+                    withheld_suffix = withheld_suffix + "}"
+                # Strings get single quotes in the model-produced string.
+                # JSON requires double quotes.
+                withheld_suffix = withheld_suffix.replace("'", '"')
+                delta = _compute_tool_delta(
+                    self.streamed_args_for_tool[index], new_call, index, withheld_suffix
+                )
+
+                if delta is not None:
+                    tool_deltas.append(delta)
+                    if (
+                        delta.function is not None
+                        and delta.function.arguments is not None
+                    ):
+                        self.streamed_args_for_tool[index] += delta.function.arguments
+
+            # HACK: serving_chat.py inspects the internal state of tool parsers
+            # when determining its final streaming delta, automatically
+            # adding autocompleted JSON.
+            # These two lines avoid that nonsense while ensuring finish_reason
+            # is set to tool_calls when at least one tool is called.
+            if tool_deltas and not self.prev_tool_call_arr:
+                self.prev_tool_call_arr = [{"arguments": {}}]
+
+            if tool_deltas:
+                return DeltaMessage(tool_calls=tool_deltas)
+            elif not added_text and self.current_tool_id > 0:
+                # Return an empty DeltaMessage once the tool calls are all done
+                # so that finish_reason gets set.
+                return DeltaMessage(content="")
+            else:
+                return None
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
+
+
+def _get_parameter_value(val: ast.expr) -> Any:
+    if isinstance(val, ast.Constant):
+        return val.value
+    elif isinstance(val, ast.Dict):
+        if not all(isinstance(k, ast.Constant) for k in val.keys):
+            raise _UnexpectedAstError("Dict tool call arguments must have literal keys")
+        return {
+            k.value: _get_parameter_value(v)  # type: ignore
+            for k, v in zip(val.keys, val.values)
+        }
+    elif isinstance(val, ast.List):
+        return [_get_parameter_value(v) for v in val.elts]
+    else:
+        raise _UnexpectedAstError("Tool call arguments must be literals")
+
+
+def _handle_single_tool(call: ast.Call) -> ToolCall:
+    if not isinstance(call.func, ast.Name):
+        raise _UnexpectedAstError("Invalid tool call name")
+    function_name = call.func.id
+    arguments = {}
+    for keyword in call.keywords:
+        arguments[keyword.arg] = _get_parameter_value(keyword.value)
+    return ToolCall(
+        type="function",
+        function=FunctionCall(name=function_name, arguments=json.dumps(arguments)),
+    )
+
+
+def _make_valid_python(text: str) -> tuple[str, str] | None:
+    bracket_stack = []
+    for index, char in enumerate(text):
+        if char in {"[", "(", "{"}:
+            bracket_stack.append(char)
+        elif char == "]":
+            if not bracket_stack or bracket_stack.pop() != "[":
+                raise _UnexpectedAstError("Mismatched square brackets")
+        elif char == ")":
+            if not bracket_stack or bracket_stack.pop() != "(":
+                raise _UnexpectedAstError("Mismatched parentheses")
+        elif char == "}":
+            if not bracket_stack or bracket_stack.pop() != "{":
+                raise _UnexpectedAstError("Mismatched curly braces")
+        elif char in {"'", '"'}:
+            if bracket_stack and bracket_stack[-1] == char:
+                if index > 0 and text[index - 1] == "\\":
+                    # Treat an escaped quote as a regular character
+                    pass
+                else:
+                    bracket_stack.pop()
+            elif bracket_stack and bracket_stack[-1] in {"'", '"'}:
+                # Double quote within a single quote string or vice versa.
+                pass
+            else:
+                bracket_stack.append(char)
+
+    text = text.rstrip()
+    if text.endswith("=") or text.endswith(":"):
+        # Since we have no type information for this property/parameter value,
+        # we can't fill in a valid value.
+        return None
+    if bracket_stack and bracket_stack[-1] == "{":
+        trailing_dict_text = text[: text.rfind("{")]
+        num_keys = trailing_dict_text.count(":")
+        num_values = trailing_dict_text.count(",")
+        if num_keys <= num_values:
+            return None  # Incomplete property name within parameter value
+    if bracket_stack and bracket_stack[-1] == "(":
+        trailing_params_text = text[: text.rfind("(")]
+        num_full_param_names = trailing_params_text.count("=")
+        num_full_param_values = trailing_params_text.count(",")
+        if num_full_param_names <= num_full_param_values:
+            return None  # Incomplete parameter name
+    if text.endswith(","):
+        text = text[:-1]
+    if (
+        bracket_stack
+        and bracket_stack[-1] == "["
+        and not text.endswith("[")
+        and not text.endswith(")")
+    ):
+        return None  # Incomplete function name
+
+    added_text = ""
+    for char in reversed(bracket_stack):
+        if char == "[":
+            added_text += "]"
+        elif char == "(":
+            added_text += ")"
+        elif char == "{":
+            added_text += "}"
+        elif char == "'":
+            added_text += "'"
+        elif char == '"':
+            added_text += '"'
+
+    return text + added_text, added_text
+
+
+def _compute_tool_delta(
+    previously_sent_args: str, new_call: ToolCall, index: int, withheld_suffix: str
+) -> DeltaToolCall | None:
+    new_call_args = new_call.function.arguments
+    if withheld_suffix:
+        assert new_call_args.endswith(withheld_suffix)
+        new_call_args = new_call_args[: -len(withheld_suffix)]
+    if not previously_sent_args:
+        return DeltaToolCall(
+            id=new_call.id,
+            type="function",
+            index=index,
+            function=DeltaFunctionCall(
+                name=new_call.function.name,
+                arguments=new_call_args,
+            ),
+        )
+
+    arg_diff = new_call_args[len(previously_sent_args) :]
+    return (
+        DeltaToolCall(
+            id=None, index=index, function=DeltaFunctionCall(arguments=arg_diff)
+        )
+        if arg_diff
+        else None
+    )
diff --git a/entrypoints/openai/tool_parsers/llama_tool_parser.py b/entrypoints/openai/tool_parsers/llama_tool_parser.py
new file mode 100644
index 0000000..02fc9b8
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/llama_tool_parser.py
@@ -0,0 +1,290 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+
+import partial_json_parser
+import regex as re
+from partial_json_parser.core.options import Allow
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import (
+    find_common_prefix,
+    is_complete_json,
+    partial_json_loads,
+)
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class Llama3JsonToolParser(ToolParser):
+    """
+    Tool call parser for Llama 3.x and 4 models intended for use with the
+    examples/tool_chat_template_llama.jinja template.
+
+    Used when --enable-auto-tool-choice --tool-call-parser llama3_json or
+    llama4_json are set.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase):
+        super().__init__(tokenizer)
+
+        # initialize properties used for state when parsing tool calls in
+        # streaming mode
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.current_tool_name_sent: bool = False
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+        self.bot_token = "<|python_tag|>"
+        self.bot_token_id = tokenizer.encode(self.bot_token, add_special_tokens=False)[
+            0
+        ]
+        # Updated regex to match multiple JSONs separated by semicolons
+        # This pattern is more robust and can handle nested JSON objects
+        self.tool_call_regex = re.compile(
+            r"{[^{}]*(?:{[^{}]*}[^{}]*)*}(?:\s*;\s*{[^{}]*(?:{[^{}]*}[^{}]*)*})*",
+            re.DOTALL,
+        )
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response.
+        Only extracts JSON content and ignores any surrounding plain text.
+        Supports both single JSON and multiple JSONs separated by semicolons.
+        """
+        # Quick check before running regex
+        if not (self.bot_token in model_output or "{" in model_output):
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        # Find JSON object(s) in the text using regex
+        match = self.tool_call_regex.search(model_output)
+        if not match:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            json_str = match.group(0)
+            # Split by semicolon and strip whitespace
+            json_objects = [obj.strip() for obj in json_str.split(";")]
+
+            tool_calls: list[ToolCall] = []
+            for json_obj in json_objects:
+                if not json_obj:  # Skip empty strings
+                    continue
+                obj = json.loads(json_obj)
+                tool_calls.append(
+                    ToolCall(
+                        type="function",
+                        function=FunctionCall(
+                            name=obj["name"],
+                            # function call args are JSON but as a string
+                            arguments=json.dumps(
+                                obj["arguments"]
+                                if "arguments" in obj
+                                else obj["parameters"],
+                                ensure_ascii=False,
+                            ),
+                        ),
+                    )
+                )
+
+            return ExtractedToolCallInformation(
+                tools_called=True, tool_calls=tool_calls, content=None
+            )
+
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            # return information to just treat the tool call as regular JSON
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if not (
+            current_text.startswith(self.bot_token) or current_text.startswith("{")
+        ):
+            return DeltaMessage(content=delta_text)
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+        try:
+            tool_call_arr = []
+            is_complete = []
+            try:
+                # depending on the prompt format the Llama model may or may not
+                # prefix the output with the <|python_tag|> token
+                start_idx = (
+                    len(self.bot_token)
+                    if current_text.startswith(self.bot_token)
+                    else 0
+                )
+                while start_idx < len(current_text):
+                    (obj, end_idx) = partial_json_loads(current_text[start_idx:], flags)
+                    is_complete.append(
+                        is_complete_json(current_text[start_idx : start_idx + end_idx])
+                    )
+                    start_idx += end_idx + len("; ")
+                    # depending on the prompt Llama can use
+                    # either arguments or parameters
+                    if "parameters" in obj:
+                        assert "arguments" not in obj, (
+                            "model generated both parameters and arguments"
+                        )
+                        obj["arguments"] = obj["parameters"]
+                    tool_call_arr.append(obj)
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # select as the current tool call the one we're on the state at
+            current_tool_call: dict = (
+                tool_call_arr[self.current_tool_id] if len(tool_call_arr) > 0 else {}
+            )
+
+            # case -- if no tokens have been streamed for the tool, e.g.
+            #   only the array brackets, stream nothing
+            if len(tool_call_arr) == 0:
+                return None
+
+            # case: we are starting a new tool in the array
+            #   -> array has > 0 length AND length has moved past cursor
+            elif (
+                len(tool_call_arr) > 0 and len(tool_call_arr) > self.current_tool_id + 1
+            ):
+                # if we're moving on to a new call, first make sure we
+                # haven't missed anything in the previous one that was
+                # auto-generated due to JSON completions, but wasn't
+                # streamed to the client yet.
+                if self.current_tool_id >= 0:
+                    cur_arguments = current_tool_call.get("arguments")
+                    if cur_arguments:
+                        cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                        sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                        argument_diff = cur_args_json[sent:]
+
+                        logger.debug("got arguments diff: %s", argument_diff)
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+                    else:
+                        delta = None
+                else:
+                    delta = None
+                # re-set stuff pertaining to progress in the current tool
+                self.current_tool_id = len(tool_call_arr) - 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("starting on new tool %d", self.current_tool_id)
+                return delta
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            elif not self.current_tool_name_sent:
+                function_name = current_tool_call.get("name")
+                if function_name:
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=make_tool_call_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+                else:
+                    delta = None
+
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                cur_arguments = current_tool_call.get("arguments")
+                delta = None
+
+                if cur_arguments:
+                    sent = len(self.streamed_args_for_tool[self.current_tool_id])
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                        "arguments"
+                    )
+
+                    argument_diff = None
+                    if is_complete[self.current_tool_id]:
+                        argument_diff = cur_args_json[sent:]
+                    elif prev_arguments:
+                        prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+                        if cur_args_json != prev_args_json:
+                            prefix = find_common_prefix(prev_args_json, cur_args_json)
+                            argument_diff = prefix[sent:]
+
+                    if argument_diff is not None:
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=argument_diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += (
+                            argument_diff
+                        )
+
+            self.prev_tool_call_arr = tool_call_arr
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
diff --git a/entrypoints/openai/tool_parsers/longcat_tool_parser.py b/entrypoints/openai/tool_parsers/longcat_tool_parser.py
new file mode 100644
index 0000000..c6c8ae8
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/longcat_tool_parser.py
@@ -0,0 +1,37 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import regex as re
+
+from vllm.entrypoints.openai.tool_parsers.hermes_tool_parser import Hermes2ProToolParser
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+
+class LongcatFlashToolParser(Hermes2ProToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.tool_call_start_token: str = "<longcat_tool_call>"
+        self.tool_call_end_token: str = "</longcat_tool_call>"
+
+        self.tool_call_regex = re.compile(
+            r"<longcat_tool_call>(.*?)</longcat_tool_call>|<longcat_tool_call>(.*)",
+            re.DOTALL,
+        )
+
+        self.tool_call_start_token_ids = self.model_tokenizer.encode(
+            self.tool_call_start_token, add_special_tokens=False
+        )
+        self.tool_call_end_token_ids = self.model_tokenizer.encode(
+            self.tool_call_end_token, add_special_tokens=False
+        )
+
+        self.tool_call_start_token_array = [
+            self.model_tokenizer.decode([token_id])
+            for token_id in self.tool_call_start_token_ids
+        ]
+
+        self.tool_call_end_token_array = [
+            self.model_tokenizer.decode([token_id])
+            for token_id in self.tool_call_end_token_ids
+        ]
diff --git a/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py b/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
new file mode 100644
index 0000000..5c2258b
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
@@ -0,0 +1,643 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+import uuid
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class MinimaxM2ToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.prev_tool_call_arr: list[dict] = []
+
+        # Sentinel tokens
+        self.tool_call_start_token: str = "<minimax:tool_call>"
+        self.tool_call_end_token: str = "</minimax:tool_call>"
+        self.invoke_start_prefix: str = "<invoke name="
+        self.invoke_end_token: str = "</invoke>"
+        self.parameter_prefix: str = "<parameter name="
+        self.parameter_end_token: str = "</parameter>"
+
+        # Streaming state variables
+        self.current_tool_name_sent: bool = False
+        # Override base class type - we use string IDs for tool calls
+        self.current_tool_id: str | None = None  # type: ignore
+        self.streamed_args_for_tool: list[str] = []
+        self.is_tool_call_started: bool = False
+        self.failed_count: int = 0
+
+        # Initialize streaming state variables
+        self.current_tool_index: int = 0
+        self.invoke_index: int = 0
+        self.header_sent: bool = False
+        self.current_function_name: str | None = None
+        self.current_param_name: str | None = None
+        self.current_param_value: str = ""
+        self.param_count: int = 0
+        self.in_param: bool = False
+        self.in_function: bool = False
+        self.accumulated_text: str = ""
+        self.json_started: bool = False
+        self.json_closed: bool = False
+        self.accumulated_params: dict = {}
+        self.streaming_request: ChatCompletionRequest | None = None
+
+        # Enhanced streaming state - reset for each new message
+        self._reset_streaming_state()
+
+        # Regex patterns for complete parsing
+        self.tool_call_complete_regex = re.compile(
+            r"<minimax:tool_call>(.*?)</minimax:tool_call>", re.DOTALL
+        )
+        self.invoke_complete_regex = re.compile(
+            r"<invoke name=(.*?)</invoke>", re.DOTALL
+        )
+        self.parameter_complete_regex = re.compile(
+            r"<parameter name=(.*?)</parameter>", re.DOTALL
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if self.tool_call_start_token_id is None or self.tool_call_end_token_id is None:
+            raise RuntimeError(
+                "MiniMax M2 Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer!"
+            )
+
+        logger.debug(
+            "vLLM Successfully import tool parser %s !", self.__class__.__name__
+        )
+
+    def _generate_tool_call_id(self) -> str:
+        """Generate a unique tool call ID."""
+        return f"call_{uuid.uuid4().hex[:24]}"
+
+    def _reset_streaming_state(self):
+        """Reset all streaming state."""
+        self.current_tool_index = 0
+        self.invoke_index = 0
+        self.is_tool_call_started = False
+        self.header_sent = False
+        self.current_tool_id = None
+        self.current_function_name = None
+        self.current_param_name = None
+        self.current_param_value = ""
+        self.param_count = 0
+        self.in_param = False
+        self.in_function = False
+        self.accumulated_text = ""
+        self.json_started = False
+        self.json_closed = False
+        # Store accumulated parameters for type conversion
+        self.accumulated_params = {}
+        self.streaming_request = None
+        # Clear previous tool call history to avoid state pollution
+        self.prev_tool_call_arr.clear()
+
+    def _extract_name(self, name_str: str) -> str:
+        """Extract name from quoted string."""
+        name_str = name_str.strip()
+        if (
+            name_str.startswith('"')
+            and name_str.endswith('"')
+            or name_str.startswith("'")
+            and name_str.endswith("'")
+        ):
+            return name_str[1:-1]
+        return name_str
+
+    def _convert_param_value(self, value: str, param_type: str) -> Any:
+        """Convert parameter value to the correct type."""
+        if value.lower() == "null":
+            return None
+
+        param_type = param_type.lower()
+        if param_type in ["string", "str", "text"]:
+            return value
+        elif param_type in ["integer", "int"]:
+            try:
+                return int(value)
+            except (ValueError, TypeError):
+                return value
+        elif param_type in ["number", "float"]:
+            try:
+                val = float(value)
+                return val if val != int(val) else int(val)
+            except (ValueError, TypeError):
+                return value
+        elif param_type in ["boolean", "bool"]:
+            return value.lower() in ["true", "1"]
+        elif param_type in ["object", "array"]:
+            try:
+                return json.loads(value)
+            except json.JSONDecodeError:
+                return value
+        else:
+            # Try JSON parse first, fallback to string
+            try:
+                return json.loads(value)
+            except json.JSONDecodeError:
+                return value
+
+    def _parse_single_invoke(
+        self, invoke_str: str, tools: list | None
+    ) -> ToolCall | None:
+        """Parse a single <invoke> block."""
+        # Extract function name
+        name_match = re.search(r"^([^>]+)", invoke_str)
+        if not name_match:
+            return None
+
+        function_name = self._extract_name(name_match.group(1))
+
+        # Get parameter configuration
+        param_config = {}
+        if tools:
+            for tool in tools:
+                if (
+                    hasattr(tool, "function")
+                    and tool.function.name == function_name
+                    and hasattr(tool.function, "parameters")
+                ):
+                    params = tool.function.parameters
+                    if isinstance(params, dict) and "properties" in params:
+                        param_config = params["properties"]
+                    break
+
+        # Extract parameters
+        param_dict = {}
+        for match in self.parameter_complete_regex.findall(invoke_str):
+            param_match = re.search(r"^([^>]+)>(.*)", match, re.DOTALL)
+            if param_match:
+                param_name = self._extract_name(param_match.group(1))
+                param_value = param_match.group(2).strip()
+                if param_value.startswith("\n"):
+                    param_value = param_value[1:]
+                if param_value.endswith("\n"):
+                    param_value = param_value[:-1]
+
+                # Get parameter type
+                param_type = "string"
+                if (
+                    param_name in param_config
+                    and isinstance(param_config[param_name], dict)
+                    and "type" in param_config[param_name]
+                ):
+                    param_type = param_config[param_name]["type"]
+
+                # Convert value
+                param_dict[param_name] = self._convert_param_value(
+                    param_value, param_type
+                )
+
+        return ToolCall(
+            type="function",
+            function=FunctionCall(
+                name=function_name,
+                arguments=json.dumps(param_dict, ensure_ascii=False),
+            ),
+        )
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        """Extract tool calls from complete model output (non-streaming)."""
+        # Quick check
+        if self.tool_call_start_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            tool_calls = []
+
+            # Find all complete tool_call blocks
+            for tool_call_match in self.tool_call_complete_regex.findall(model_output):
+                # Find all invokes within this tool_call
+                for invoke_match in self.invoke_complete_regex.findall(tool_call_match):
+                    tool_call = self._parse_single_invoke(
+                        invoke_match, request.tools if request else None
+                    )
+                    if tool_call:
+                        tool_calls.append(tool_call)
+
+            if not tool_calls:
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+            # Update prev_tool_call_arr
+            self.prev_tool_call_arr.clear()
+            for tool_call in tool_calls:
+                self.prev_tool_call_arr.append(
+                    {
+                        "name": tool_call.function.name,
+                        "arguments": tool_call.function.arguments,
+                    }
+                )
+
+            # Extract content before first tool call
+            first_tool_idx = model_output.find(self.tool_call_start_token)
+            content = model_output[:first_tool_idx] if first_tool_idx > 0 else None
+
+            return ExtractedToolCallInformation(
+                tools_called=True, tool_calls=tool_calls, content=content
+            )
+
+        except Exception:
+            logger.exception("Error extracting tool calls")
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],  # pylint: disable=unused-argument
+        current_token_ids: Sequence[int],  # pylint: disable=unused-argument
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        """Extract tool calls from streaming model output."""
+
+        # Store request for type conversion
+        if not previous_text or self.tool_call_start_token in delta_text:
+            self._reset_streaming_state()
+            self.streaming_request = request
+
+        # If no delta text, return None unless it's an EOS token after tools
+        if not delta_text:
+            # Check if this is an EOS token after all tool calls are complete
+            if delta_token_ids and self.tool_call_end_token_id not in delta_token_ids:
+                # Count complete tool calls
+                complete_calls = len(
+                    self.tool_call_complete_regex.findall(current_text)
+                )
+
+                # If we have completed tool calls and populated prev_tool_call_arr
+                if complete_calls > 0 and len(self.prev_tool_call_arr) > 0:
+                    # Check if all tool calls are closed
+                    open_calls = current_text.count(
+                        self.tool_call_start_token
+                    ) - current_text.count(self.tool_call_end_token)
+                    if open_calls == 0:
+                        # Return empty delta for finish_reason processing
+                        return DeltaMessage(content="")
+                elif not self.is_tool_call_started and current_text:
+                    # This is a regular content response that's now complete
+                    return DeltaMessage(content="")
+            return None
+
+        # Update accumulated text
+        self.accumulated_text = current_text
+
+        # Check if we need to advance to next tool
+        if self.json_closed and not self.in_function:
+            # Check if this tool call has ended
+            invoke_ends = current_text.count(self.invoke_end_token)
+            if invoke_ends > self.current_tool_index:
+                # This tool has ended, advance to next
+                self.current_tool_index += 1
+                self.header_sent = False
+                self.param_count = 0
+                self.json_started = False
+                self.json_closed = False
+                self.in_function = False  # Now we can safely set this to False
+                self.accumulated_params = {}
+                # Continue processing next tool
+                return None
+
+        # Handle normal content before tool calls
+        if not self.is_tool_call_started:
+            # Check if tool call is starting
+            if (
+                self.tool_call_start_token_id in delta_token_ids
+                or self.tool_call_start_token in delta_text
+            ):
+                self.is_tool_call_started = True
+                # Return any content before the tool call
+                if self.tool_call_start_token in delta_text:
+                    content_before = delta_text[
+                        : delta_text.index(self.tool_call_start_token)
+                    ]
+                    if content_before:
+                        return DeltaMessage(content=content_before)
+                return None
+            else:
+                # Check if we're between tool calls - skip whitespace
+                if (
+                    current_text.rstrip().endswith(self.tool_call_end_token)
+                    and delta_text.strip() == ""
+                ):
+                    # We just ended a tool call, skip whitespace
+                    return None
+                # Normal content, no tool call
+                return DeltaMessage(content=delta_text)
+
+        # Check if we're between tool calls (waiting for next one)
+        invoke_starts_count = current_text.count(self.invoke_start_prefix)
+        if self.current_tool_index >= invoke_starts_count:
+            # We're past all tool calls, shouldn't be here
+            return None
+
+        # Find the current tool call portion
+        invoke_start_positions: list[int] = []
+        idx = 0
+        while True:
+            idx = current_text.find(self.invoke_start_prefix, idx)
+            if idx == -1:
+                break
+            invoke_start_positions.append(idx)
+            idx += len(self.invoke_start_prefix)
+
+        if self.current_tool_index >= len(invoke_start_positions):
+            # No more tool calls to process yet
+            return None
+
+        invoke_start_idx = invoke_start_positions[self.current_tool_index]
+        # Find where this tool call ends (or current position if not ended yet)
+        invoke_end_idx = current_text.find(self.invoke_end_token, invoke_start_idx)
+        if invoke_end_idx == -1:
+            tool_text = current_text[invoke_start_idx:]
+        else:
+            tool_text = current_text[
+                invoke_start_idx : invoke_end_idx + len(self.invoke_end_token)
+            ]
+
+        # Looking for function header
+        if not self.header_sent:
+            if self.invoke_start_prefix in tool_text:
+                func_start = tool_text.find(self.invoke_start_prefix) + len(
+                    self.invoke_start_prefix
+                )
+                # Find the end quote for the function name
+                func_end = tool_text.find(">", func_start)
+
+                if func_end != -1:
+                    # Found complete function name
+                    function_name_raw = tool_text[func_start:func_end]
+                    self.current_function_name = self._extract_name(function_name_raw)
+                    self.current_tool_id = self._generate_tool_call_id()
+                    self.header_sent = True
+                    self.in_function = True
+
+                    # Add to prev_tool_call_arr immediately when we detect a tool call
+                    # Each tool call should be recorded regardless of function name
+                    # Ensure we don't add the same tool call index multiple times
+                    if len(self.prev_tool_call_arr) <= self.current_tool_index:
+                        self.prev_tool_call_arr.append(
+                            {
+                                "name": self.current_function_name,
+                                "arguments": "{}",  # Placeholder, will be updated later
+                            }
+                        )
+
+                    # Send header with function info
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                id=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    name=self.current_function_name, arguments=""
+                                ),
+                                type="function",
+                            )
+                        ]
+                    )
+            return None
+
+        # We've sent header, now handle function body
+        if self.in_function:
+            # Send opening brace if not sent yet
+            if self.in_function and not self.json_started:
+                self.json_started = True
+                return DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_index,
+                            function=DeltaFunctionCall(arguments="{"),
+                        )
+                    ]
+                )
+
+            # Make sure json_started is set if we're processing parameters
+            if not self.json_started:
+                self.json_started = True
+
+            # Check for function end in accumulated text
+            if not self.json_closed and self.invoke_end_token in tool_text:
+                # Count total parameters in the tool text
+                total_param_count = tool_text.count(self.parameter_prefix)
+
+                # Only close JSON if all parameters have been processed
+                if self.param_count >= total_param_count:
+                    # Close JSON
+                    self.json_closed = True
+
+                    # Extract complete tool call
+                    # Find the invoke content
+                    invoke_start = tool_text.find(self.invoke_start_prefix) + len(
+                        self.invoke_start_prefix
+                    )
+                    invoke_content_end = tool_text.find(
+                        self.invoke_end_token, invoke_start
+                    )
+                    if invoke_content_end != -1:
+                        invoke_content = tool_text[invoke_start:invoke_content_end]
+                        # Parse to get the complete arguments
+                        try:
+                            parsed_tool = self._parse_single_invoke(
+                                invoke_content,
+                                self.streaming_request.tools
+                                if self.streaming_request
+                                else None,
+                            )
+                            if parsed_tool and self.current_tool_index < len(
+                                self.prev_tool_call_arr
+                            ):
+                                # Update existing entry in prev_tool_call_arr
+                                args = parsed_tool.function.arguments
+                                self.prev_tool_call_arr[self.current_tool_index][
+                                    "arguments"
+                                ] = args
+                        except Exception:
+                            pass  # Ignore parsing errors during streaming
+
+                    result = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                function=DeltaFunctionCall(arguments="}"),
+                            )
+                        ]
+                    )
+
+                    # Reset state for next tool
+                    self.json_closed = True
+                    self.in_function = False
+                    self.accumulated_params = {}
+
+                    logger.debug("[M2_STREAMING] Tool call completed")
+
+                    return result
+                else:
+                    # Don't close JSON yet, continue processing parameters
+                    return None
+
+            # Look for parameters
+            # Find all parameter starts
+            param_starts = []
+            idx = 0
+            while True:
+                idx = tool_text.find(self.parameter_prefix, idx)
+                if idx == -1:
+                    break
+                param_starts.append(idx)
+                idx += len(self.parameter_prefix)
+
+            # Check if we should start a new parameter
+            if (
+                not self.in_param
+                and self.param_count < len(param_starts)
+                and len(param_starts) > self.param_count
+            ):
+                # Process the next parameter
+                param_idx = param_starts[self.param_count]
+                param_start = param_idx + len(self.parameter_prefix)
+                remaining = tool_text[param_start:]
+
+                if ">" in remaining:
+                    # We have the complete parameter name
+                    name_end = remaining.find(">")
+                    param_name_raw = remaining[:name_end]
+                    self.current_param_name = self._extract_name(param_name_raw)
+
+                    # Find the parameter value
+                    value_start = param_start + name_end + 1
+                    value_text = tool_text[value_start:]
+                    if value_text.startswith("\n"):
+                        value_text = value_text[1:]
+
+                    # Find where this parameter ends
+                    param_end_idx = value_text.find(self.parameter_end_token)
+                    if param_end_idx == -1:
+                        # No closing tag, look for next parameter or function end
+                        next_param_idx = value_text.find(self.parameter_prefix)
+                        func_end_idx = value_text.find(self.invoke_end_token)
+
+                        if next_param_idx != -1 and (
+                            func_end_idx == -1 or next_param_idx < func_end_idx
+                        ):
+                            param_end_idx = next_param_idx
+                        elif func_end_idx != -1:
+                            param_end_idx = func_end_idx
+                        else:
+                            # Neither found, check if tool call is complete
+                            if self.invoke_end_token in tool_text:
+                                # Tool call and parameter is complete
+                                param_end_idx = len(value_text)
+                            else:
+                                # Still streaming, wait for more content
+                                return None
+
+                    if param_end_idx != -1:
+                        # Complete parameter found
+                        param_value = value_text[:param_end_idx]
+                        if param_value.endswith("\n"):
+                            param_value = param_value[:-1]
+
+                        # Store raw value for later processing
+                        self.accumulated_params[self.current_param_name] = param_value
+
+                        # Get parameter configuration for type conversion
+                        param_config = {}
+                        if self.streaming_request and self.streaming_request.tools:
+                            for tool in self.streaming_request.tools:
+                                if (
+                                    hasattr(tool, "function")
+                                    and tool.function.name == self.current_function_name
+                                    and hasattr(tool.function, "parameters")
+                                ):
+                                    params = tool.function.parameters
+                                    if (
+                                        isinstance(params, dict)
+                                        and "properties" in params
+                                    ):
+                                        param_config = params["properties"]
+                                    break
+
+                        # Get parameter type
+                        param_type = "string"
+                        if (
+                            self.current_param_name in param_config
+                            and isinstance(param_config[self.current_param_name], dict)
+                            and "type" in param_config[self.current_param_name]
+                        ):
+                            param_type = param_config[self.current_param_name]["type"]
+
+                        # Convert param value to appropriate type
+                        converted_value = self._convert_param_value(
+                            param_value, param_type
+                        )
+
+                        # Build JSON fragment based on the converted type
+                        # Use json.dumps to properly serialize the value
+                        serialized_value = json.dumps(
+                            converted_value, ensure_ascii=False
+                        )
+
+                        if self.param_count == 0:
+                            json_fragment = (
+                                f'"{self.current_param_name}": {serialized_value}'
+                            )
+                        else:
+                            json_fragment = (
+                                f', "{self.current_param_name}": {serialized_value}'
+                            )
+
+                        self.param_count += 1
+
+                        return DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_index,
+                                    function=DeltaFunctionCall(arguments=json_fragment),
+                                )
+                            ]
+                        )
+
+        return None
diff --git a/entrypoints/openai/tool_parsers/minimax_tool_parser.py b/entrypoints/openai/tool_parsers/minimax_tool_parser.py
new file mode 100644
index 0000000..982518a
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/minimax_tool_parser.py
@@ -0,0 +1,849 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class MinimaxToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        # Initialize streaming state for tracking tool call progress
+        self.streaming_state: dict[str, Any] = {
+            "current_tool_index": -1,  # Index of current tool being processed
+            "tool_ids": [],  # List of tool call IDs
+            "sent_tools": [],  # List of tools that have been sent
+        }
+
+        # Define tool call tokens and patterns
+        self.tool_call_start_token = "<tool_calls>"
+        self.tool_call_end_token = "</tool_calls>"
+        self.tool_call_regex = re.compile(
+            r"<tool_calls>(.*?)</tool_calls>|<tool_calls>(.*)", re.DOTALL
+        )
+        self.thinking_tag_pattern = r"<think>(.*?)</think>"
+        self.tool_name_pattern = re.compile(r'"name":\s*"([^"]+)"')
+        self.tool_args_pattern = re.compile(r'"arguments":\s*')
+
+        # Buffer for handling partial tool calls during streaming
+        self.pending_buffer = ""
+        self.in_thinking_tag = False
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+
+        # Get token IDs for tool call start/end tokens
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if self.tool_call_start_token_id is None or self.tool_call_end_token_id is None:
+            logger.warning(
+                "Minimax Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer. Falling back to string matching."
+            )
+
+    def preprocess_model_output(self, model_output: str) -> str:
+        """
+        Preprocess model output by removing tool calls from thinking tags.
+
+        Args:
+            model_output: Raw model output string
+
+        Returns:
+            Preprocessed model output with tool calls removed from thinking tags
+        """
+
+        def remove_tool_calls_from_think(match):
+            think_content = match.group(1)
+            cleaned_content = re.sub(
+                r"<tool_calls>.*?</tool_calls>", "", think_content, flags=re.DOTALL
+            )
+            return f"<think>{cleaned_content}</think>"
+
+        return re.sub(
+            self.thinking_tag_pattern,
+            remove_tool_calls_from_think,
+            model_output,
+            flags=re.DOTALL,
+        )
+
+    def _clean_duplicate_braces(self, args_text: str) -> str:
+        """
+        Clean duplicate closing braces from arguments text.
+
+        Args:
+            args_text: Raw arguments text
+
+        Returns:
+            Cleaned arguments text with proper JSON formatting
+        """
+        args_text = args_text.strip()
+        if not args_text:
+            return args_text
+
+        try:
+            json.loads(args_text)
+            return args_text
+        except json.JSONDecodeError:
+            pass
+
+        while args_text.endswith("}}"):
+            candidate = args_text[:-1]
+            try:
+                json.loads(candidate)
+                return candidate
+            except json.JSONDecodeError:
+                args_text = candidate
+
+        return args_text
+
+    def _clean_delta_braces(self, delta_text: str) -> str:
+        """
+        Clean delta text by removing excessive closing braces.
+
+        Args:
+            delta_text: Delta text to clean
+
+        Returns:
+            Cleaned delta text
+        """
+        if not delta_text:
+            return delta_text
+
+        delta_stripped = delta_text.strip()
+
+        if delta_stripped and all(c in "}\n\r\t " for c in delta_stripped):
+            brace_count = delta_stripped.count("}")
+            if brace_count > 1:
+                return "}\n" if delta_text.endswith("\n") else "}"
+
+        return delta_text
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract tool calls from model output for non-streaming mode.
+
+        Args:
+            model_output: Complete model output
+            request: Chat completion request
+
+        Returns:
+            ExtractedToolCallInformation containing tool calls and content
+        """
+        processed_output = self.preprocess_model_output(model_output)
+
+        if self.tool_call_start_token not in processed_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            function_call_tuples = self.tool_call_regex.findall(processed_output)
+
+            raw_function_calls = []
+            for match in function_call_tuples:
+                tool_call_content = match[0] if match[0] else match[1]
+                if tool_call_content.strip():
+                    lines = tool_call_content.strip().split("\n")
+                    for line in lines:
+                        line = line.strip()
+                        if line and line.startswith("{") and line.endswith("}"):
+                            try:
+                                parsed_call = json.loads(line)
+                                raw_function_calls.append(parsed_call)
+                            except json.JSONDecodeError:
+                                continue
+
+            tool_calls = []
+            for function_call in raw_function_calls:
+                if "name" in function_call and "arguments" in function_call:
+                    tool_calls.append(
+                        ToolCall(
+                            type="function",
+                            function=FunctionCall(
+                                name=function_call["name"],
+                                arguments=json.dumps(
+                                    function_call["arguments"], ensure_ascii=False
+                                ),
+                            ),
+                        )
+                    )
+
+            processed_pos = processed_output.find(self.tool_call_start_token)
+            if processed_pos != -1:
+                processed_content = processed_output[:processed_pos].strip()
+
+                if processed_content:
+                    lines = processed_content.split("\n")
+                    for line in reversed(lines):
+                        line = line.strip()
+                        if line:
+                            pos = model_output.find(line)
+                            if pos != -1:
+                                content = model_output[: pos + len(line)]
+                                break
+                    else:
+                        content = ""
+                else:
+                    content = ""
+            else:
+                content = model_output
+
+            return ExtractedToolCallInformation(
+                tools_called=len(tool_calls) > 0,
+                tool_calls=tool_calls,
+                content=content.strip() if content.strip() else None,
+            )
+
+        except Exception:
+            logger.exception(
+                "An unexpected error occurred during tool call extraction."
+            )
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def _update_thinking_state(self, text: str) -> None:
+        """
+        Update the thinking tag state based on text content.
+
+        Args:
+            text: Text to analyze for thinking tags
+        """
+        open_count = text.count("<think>")
+        close_count = text.count("</think>")
+        self.in_thinking_tag = open_count > close_count or (
+            open_count == close_count and text.endswith("</think>")
+        )
+
+    def _is_potential_tag_start(self, text: str) -> bool:
+        """
+        Check if text might be the start of a tool call tag.
+
+        Args:
+            text: Text to check
+
+        Returns:
+            True if text could be the start of a tool call tag
+        """
+        for tag in [self.tool_call_start_token, self.tool_call_end_token]:
+            if any(
+                tag.startswith(text[-i:])
+                for i in range(1, min(len(text) + 1, len(tag)))
+            ):
+                return True
+        return False
+
+    def _should_buffer_content(self, delta_text: str) -> bool:
+        """
+        Determine if content should be buffered for later processing.
+
+        Args:
+            delta_text: Delta text to check
+
+        Returns:
+            True if content should be buffered
+        """
+        if self.in_thinking_tag:
+            return False
+        return bool(
+            self.pending_buffer
+            or self.tool_call_start_token in delta_text
+            or self.tool_call_end_token in delta_text
+            or delta_text.startswith("<")
+        )
+
+    def _split_content_for_buffering(self, delta_text: str) -> tuple[str, str]:
+        """
+        Split delta text into safe content and potential tag content.
+
+        Args:
+            delta_text: Delta text to split
+
+        Returns:
+            Tuple of (safe_content, potential_tag_content)
+        """
+        if self.in_thinking_tag:
+            return delta_text, ""
+
+        for tag in [self.tool_call_start_token, self.tool_call_end_token]:
+            for i in range(1, len(tag)):
+                tag_prefix = tag[:i]
+                pos = delta_text.rfind(tag_prefix)
+                if pos != -1 and tag.startswith(delta_text[pos:]):
+                    return delta_text[:pos], delta_text[pos:]
+        return delta_text, ""
+
+    def _process_buffer(self, new_content: str) -> str:
+        """
+        Process buffered content and return output content.
+
+        Args:
+            new_content: New content to add to buffer
+
+        Returns:
+            Processed output content
+        """
+        self.pending_buffer += new_content
+        output_content = ""
+
+        if self.in_thinking_tag:
+            output_content = self.pending_buffer
+            self.pending_buffer = ""
+            return output_content
+
+        while self.pending_buffer:
+            start_pos = self.pending_buffer.find(self.tool_call_start_token)
+            end_pos = self.pending_buffer.find(self.tool_call_end_token)
+
+            if start_pos != -1 and (end_pos == -1 or start_pos < end_pos):
+                tag_pos, tag_len = start_pos, len(self.tool_call_start_token)
+            elif end_pos != -1:
+                tag_pos, tag_len = end_pos, len(self.tool_call_end_token)
+            else:
+                if self._is_potential_tag_start(self.pending_buffer):
+                    break
+                output_content += self.pending_buffer
+                self.pending_buffer = ""
+                break
+
+            output_content += self.pending_buffer[:tag_pos]
+            self.pending_buffer = self.pending_buffer[tag_pos + tag_len :]
+
+        return output_content
+
+    def _reset_streaming_state(self) -> None:
+        """Reset the streaming state to initial values."""
+        self.streaming_state = {
+            "current_tool_index": -1,
+            "tool_ids": [],
+            "sent_tools": [],
+        }
+
+    def _advance_to_next_tool(self) -> None:
+        """Advance to the next tool in the streaming sequence."""
+        self.streaming_state["current_tool_index"] = (
+            int(self.streaming_state["current_tool_index"]) + 1
+        )
+
+    def _set_current_tool_index(self, index: int) -> None:
+        """
+        Set the current tool index.
+
+        Args:
+            index: Tool index to set
+        """
+        self.streaming_state["current_tool_index"] = index
+
+    def _get_current_tool_index(self) -> int:
+        """
+        Get the current tool index.
+
+        Returns:
+            Current tool index
+        """
+        return int(self.streaming_state["current_tool_index"])
+
+    def _get_next_unsent_tool_index(self, tool_count: int) -> int:
+        """
+        Get the index of the next unsent tool.
+
+        Args:
+            tool_count: Total number of tools
+
+        Returns:
+            Index of next unsent tool, or -1 if all tools sent
+        """
+        sent_tools = list(self.streaming_state["sent_tools"])
+        for i in range(tool_count):
+            if i < len(sent_tools):
+                if not sent_tools[i]["sent_name"]:
+                    return i
+            else:
+                return i
+        return -1
+
+    def _ensure_state_arrays(self, tool_count: int) -> None:
+        """
+        Ensure state arrays have sufficient capacity for tool_count tools.
+
+        Args:
+            tool_count: Number of tools to prepare for
+        """
+        sent_tools = list(self.streaming_state["sent_tools"])
+        tool_ids = list(self.streaming_state["tool_ids"])
+
+        while len(sent_tools) < tool_count:
+            sent_tools.append(
+                {
+                    "sent_name": False,
+                    "sent_arguments": "",
+                    "id": make_tool_call_id(),
+                }
+            )
+
+        while len(tool_ids) < tool_count:
+            tool_ids.append(None)
+
+        self.streaming_state["sent_tools"] = sent_tools
+        self.streaming_state["tool_ids"] = tool_ids
+
+    def _detect_tools_in_text(self, text: str) -> int:
+        """
+        Detect the number of tools in text by counting name patterns.
+
+        Args:
+            text: Text to analyze
+
+        Returns:
+            Number of tools detected
+        """
+        matches = self.tool_name_pattern.findall(text)
+        return len(matches)
+
+    def _find_tool_boundaries(self, text: str) -> list[tuple[int, int]]:
+        """
+        Find the boundaries of tool calls in text.
+
+        Args:
+            text: Text to analyze
+
+        Returns:
+            List of (start, end) positions for tool calls
+        """
+        boundaries = []
+        i = 0
+        while i < len(text):
+            if text[i] == "{":
+                start = i
+                depth = 0
+                has_name = False
+                has_arguments = False
+
+                while i < len(text):
+                    if text[i] == "{":
+                        depth += 1
+                    elif text[i] == "}":
+                        depth -= 1
+                        if depth == 0:
+                            end = i + 1
+                            segment = text[start:end]
+                            if '"name"' in segment and '"arguments"' in segment:
+                                boundaries.append((start, end))
+                            break
+
+                    if not has_name and '"name"' in text[start : i + 1]:
+                        has_name = True
+                    if not has_arguments and '"arguments"' in text[start : i + 1]:
+                        has_arguments = True
+
+                    i += 1
+
+                if depth > 0 and has_name:
+                    boundaries.append((start, i))
+            else:
+                i += 1
+        return boundaries
+
+    def _extract_tool_args(self, tool_content: str, args_match: re.Match[str]) -> str:
+        """
+        Extract tool arguments from tool content.
+
+        Args:
+            tool_content: Tool call content
+            args_match: Regex match for arguments pattern
+
+        Returns:
+            Extracted arguments as string
+        """
+        args_start_pos = args_match.end()
+        remaining_content = tool_content[args_start_pos:]
+
+        if remaining_content.strip().startswith("{"):
+            depth = 0
+            for i, char in enumerate(remaining_content):
+                if char == "{":
+                    depth += 1
+                elif char == "}":
+                    depth -= 1
+                    if depth == 0:
+                        return remaining_content[: i + 1]
+        else:
+            args_end = remaining_content.find("}")
+            if args_end > 0:
+                return remaining_content[:args_end].strip()
+
+        return remaining_content.rstrip("}").strip()
+
+    def _get_current_tool_content(
+        self, text: str, tool_index: int
+    ) -> tuple[str | None, str | None]:
+        """
+        Get the content of a specific tool by index.
+
+        Args:
+            text: Text containing tool calls
+            tool_index: Index of tool to extract
+
+        Returns:
+            Tuple of (tool_name, tool_arguments) or (None, None) if not found
+        """
+        boundaries = self._find_tool_boundaries(text)
+
+        if tool_index >= len(boundaries):
+            return None, None
+
+        start, end = boundaries[tool_index]
+        tool_content = text[start:end]
+
+        name_match = self.tool_name_pattern.search(tool_content)
+        name = name_match.group(1) if name_match else None
+
+        args_match = self.tool_args_pattern.search(tool_content)
+        if args_match:
+            try:
+                args_text = self._extract_tool_args(tool_content, args_match)
+                return name, args_text
+            except Exception:
+                remaining_content = tool_content[args_match.end() :]
+                args_text = remaining_content.rstrip("}").strip()
+                return name, args_text
+
+        return name, None
+
+    def _handle_tool_name_streaming(
+        self, tool_content: str, tool_count: int
+    ) -> DeltaMessage | None:
+        """
+        Handle streaming of tool names.
+
+        Args:
+            tool_content: Content containing tool calls
+            tool_count: Total number of tools
+
+        Returns:
+            DeltaMessage with tool name or None if no tool to stream
+        """
+        next_idx = self._get_next_unsent_tool_index(tool_count)
+
+        if next_idx == -1:
+            return None
+
+        boundaries = self._find_tool_boundaries(tool_content)
+        if next_idx >= len(boundaries):
+            return None
+
+        tool_name, _ = self._get_current_tool_content(tool_content, next_idx)
+        if not tool_name:
+            return None
+
+        self._set_current_tool_index(next_idx)
+        sent_tools = list(self.streaming_state["sent_tools"])
+        tool_ids = list(self.streaming_state["tool_ids"])
+
+        tool_id = sent_tools[next_idx]["id"]
+        tool_ids[next_idx] = tool_id
+        sent_tools[next_idx]["sent_name"] = True
+
+        self.streaming_state["sent_tools"] = sent_tools
+        self.streaming_state["tool_ids"] = tool_ids
+
+        return DeltaMessage(
+            tool_calls=[
+                DeltaToolCall(
+                    index=next_idx,
+                    type="function",
+                    id=tool_id,
+                    function=DeltaFunctionCall(name=tool_name).model_dump(
+                        exclude_none=True
+                    ),
+                )
+            ]
+        )
+
+    def _handle_tool_args_streaming(
+        self, tool_content: str, tool_count: int
+    ) -> DeltaMessage | None:
+        """
+        Handle streaming of tool arguments.
+
+        Args:
+            tool_content: Content containing tool calls
+            tool_count: Total number of tools
+
+        Returns:
+            DeltaMessage with tool arguments or None if no arguments to stream
+        """
+        current_idx = self._get_current_tool_index()
+
+        if current_idx < 0 or current_idx >= tool_count:
+            return None
+
+        tool_name, tool_args = self._get_current_tool_content(tool_content, current_idx)
+        if not tool_name or tool_args is None:
+            return None
+
+        sent_tools = list(self.streaming_state["sent_tools"])
+
+        if not sent_tools[current_idx]["sent_name"]:
+            return None
+
+        clean_args = self._clean_duplicate_braces(tool_args)
+        sent_args = sent_tools[current_idx]["sent_arguments"]
+
+        if clean_args != sent_args:
+            if sent_args and clean_args.startswith(sent_args):
+                args_delta = extract_intermediate_diff(clean_args, sent_args)
+                if args_delta:
+                    args_delta = self._clean_delta_braces(args_delta)
+                    sent_tools[current_idx]["sent_arguments"] = clean_args
+                    self.streaming_state["sent_tools"] = sent_tools
+
+                    if clean_args.endswith("}"):
+                        self._advance_to_next_tool()
+
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=current_idx,
+                                function=DeltaFunctionCall(
+                                    arguments=args_delta
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+            elif not sent_args and clean_args:
+                clean_args_delta = self._clean_delta_braces(clean_args)
+                sent_tools[current_idx]["sent_arguments"] = clean_args
+                self.streaming_state["sent_tools"] = sent_tools
+
+                if clean_args.endswith("}"):
+                    self._advance_to_next_tool()
+
+                return DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=current_idx,
+                            function=DeltaFunctionCall(
+                                arguments=clean_args_delta
+                            ).model_dump(exclude_none=True),
+                        )
+                    ]
+                )
+
+        return None
+
+    def _is_end_tool_calls(self, current_text: str) -> bool:
+        if self.tool_call_end_token not in current_text:
+            return False
+
+        end_token_positions = []
+        search_start = 0
+        while True:
+            pos = current_text.find(self.tool_call_end_token, search_start)
+            if pos == -1:
+                break
+            end_token_positions.append(pos)
+            search_start = pos + 1
+
+        think_regions = []
+        for match in re.finditer(
+            self.thinking_tag_pattern, current_text, flags=re.DOTALL
+        ):
+            think_regions.append((match.start(), match.end()))
+
+        for pos in end_token_positions:
+            in_think = any(
+                pos >= t_start and pos < t_end for t_start, t_end in think_regions
+            )
+            if not in_think:
+                return True
+
+        return False
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        self._update_thinking_state(current_text)
+
+        if self.in_thinking_tag:
+            return DeltaMessage(content=delta_text)
+
+        if self._should_buffer_content(delta_text):
+            buffered_output = self._process_buffer(delta_text)
+            return DeltaMessage(content=buffered_output) if buffered_output else None
+
+        if self._is_end_tool_calls(current_text):
+            return DeltaMessage(content=delta_text)
+
+        safe_content, potential_tag = self._split_content_for_buffering(delta_text)
+        if potential_tag:
+            self.pending_buffer += potential_tag
+            return DeltaMessage(content=safe_content) if safe_content else None
+
+        processed_current_text = self.preprocess_model_output(current_text)
+
+        if self.tool_call_start_token not in processed_current_text:
+            if (
+                self.tool_call_end_token in delta_text
+                and self.tool_call_start_token in current_text
+            ):
+                return None
+            if delta_text.strip() == "" and self.tool_call_start_token in current_text:
+                return None
+            if (
+                self._get_current_tool_index() != -1
+                and self.tool_call_end_token in current_text
+            ):
+                self._reset_streaming_state()
+            return DeltaMessage(content=delta_text)
+
+        if (
+            self.tool_call_start_token_id is not None
+            and self.tool_call_start_token_id in delta_token_ids
+            and len(delta_token_ids) == 1
+        ):
+            return None
+
+        original_tool_start = self._find_tool_start_outside_thinking(current_text)
+        if original_tool_start is None:
+            return None
+
+        content_before_tools = self._extract_content_before_tools(
+            current_text, delta_text, original_tool_start
+        )
+        if content_before_tools:
+            return DeltaMessage(content=content_before_tools)
+
+        try:
+            tool_content = self._extract_tool_content(current_text, original_tool_start)
+            current_tools_count = self._detect_tools_in_text(tool_content)
+
+            if current_tools_count == 0:
+                return None
+
+            if self._get_current_tool_index() == -1:
+                self._reset_streaming_state()
+
+            self._ensure_state_arrays(current_tools_count)
+
+            return self._handle_tool_name_streaming(
+                tool_content, current_tools_count
+            ) or self._handle_tool_args_streaming(tool_content, current_tools_count)
+
+        except Exception:
+            logger.exception(
+                "An unexpected error occurred ", "during streaming tool call handling."
+            )
+            return None
+
+    def _find_tool_start_outside_thinking(self, current_text: str) -> int | None:
+        """
+        Find the start position of tool calls outside of thinking tags.
+
+        Args:
+            current_text: Current text to search
+
+        Returns:
+            Position of tool call start or None if not found
+        """
+        search_start = 0
+        while True:
+            pos = current_text.find(self.tool_call_start_token, search_start)
+            if pos == -1:
+                return None
+
+            think_regions = [
+                (m.start(), m.end())
+                for m in re.finditer(
+                    r"<think>(.*?)</think>", current_text, flags=re.DOTALL
+                )
+            ]
+            in_think = any(
+                pos >= t_start and pos < t_end for t_start, t_end in think_regions
+            )
+
+            if not in_think:
+                return pos
+
+            search_start = pos + 1
+
+    def _extract_content_before_tools(
+        self, current_text: str, delta_text: str, tool_start: int
+    ) -> str | None:
+        """
+        Extract content that appears before tool calls.
+
+        Args:
+            current_text: Current text
+            delta_text: Delta text
+            tool_start: Start position of tools
+
+        Returns:
+            Content before tools or None
+        """
+        if tool_start > 0:
+            delta_start_pos = len(current_text) - len(delta_text)
+            if delta_start_pos < tool_start:
+                content_part = delta_text
+                if delta_start_pos + len(delta_text) > tool_start:
+                    content_part = delta_text[: tool_start - delta_start_pos]
+                return content_part if content_part else None
+        return None
+
+    def _extract_tool_content(self, current_text: str, tool_start: int) -> str:
+        """
+        Extract tool content from current text starting at tool_start.
+
+        Args:
+            current_text: Current text
+            tool_start: Start position of tool calls
+
+        Returns:
+            Extracted tool content
+        """
+        tool_content_start = tool_start + len(self.tool_call_start_token)
+        tool_content = current_text[tool_content_start:]
+
+        end_pos = tool_content.find(self.tool_call_end_token)
+        if end_pos != -1:
+            tool_content = tool_content[:end_pos]
+
+        return tool_content
diff --git a/entrypoints/openai/tool_parsers/mistral_tool_parser.py b/entrypoints/openai/tool_parsers/mistral_tool_parser.py
new file mode 100644
index 0000000..8567127
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/mistral_tool_parser.py
@@ -0,0 +1,390 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+from random import choices
+from string import ascii_letters, digits
+
+import partial_json_parser
+import regex as re
+from partial_json_parser.core.options import Allow
+from pydantic import Field
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+
+logger = init_logger(__name__)
+
+ALPHANUMERIC = ascii_letters + digits
+
+
+class MistralToolCall(ToolCall):
+    id: str = Field(default_factory=lambda: MistralToolCall.generate_random_id())
+
+    @staticmethod
+    def generate_random_id():
+        # Mistral Tool Call Ids must be alphanumeric with a length of 9.
+        # https://github.com/mistralai/mistral-common/blob/21ee9f6cee3441e9bb1e6ed2d10173f90bd9b94b/src/mistral_common/protocol/instruct/validator.py#L299
+        return "".join(choices(ALPHANUMERIC, k=9))
+
+    @staticmethod
+    def is_valid_id(id: str) -> bool:
+        return id.isalnum() and len(id) == 9
+
+
+def _is_fn_name_regex_support(model_tokenizer: AnyTokenizer) -> bool:
+    return (
+        isinstance(model_tokenizer, MistralTokenizer) and model_tokenizer.version >= 11
+    )
+
+
+class MistralToolParser(ToolParser):
+    """
+    Tool call parser for Mistral 7B Instruct v0.3, intended for use with
+    - [`mistral_common`](https://github.com/mistralai/mistral-common/)
+    - the examples/tool_chat_template_mistral.jinja template.
+
+    Used when --enable-auto-tool-choice --tool-call-parser mistral are all set
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        if not isinstance(self.model_tokenizer, MistralTokenizer):
+            logger.info("Non-Mistral tokenizer detected when using a Mistral model...")
+
+        # initialize properties used for state when parsing tool calls in
+        # streaming mode
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.current_tool_name_sent: bool = False
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+        self.bot_token = "[TOOL_CALLS]"
+        self.bot_token_id = self.vocab.get(self.bot_token)
+        self.tool_call_regex = re.compile(r"\[{.*}\]", re.DOTALL)
+        if _is_fn_name_regex_support(self.model_tokenizer):
+            self.fn_name_regex = re.compile(
+                r"([a-zA-Z0-9_-]+)(\{[\s\S]*?\})(?=\s*$|,|\s)", re.DOTALL
+            )
+        else:
+            self.fn_name_regex = None
+
+        if self.bot_token_id is None:
+            raise RuntimeError(
+                "Mistral Tool Parser could not locate the tool call token in "
+                "the tokenizer!"
+            )
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        request = super().adjust_request(request)
+        if (
+            not isinstance(self.model_tokenizer, MistralTokenizer)
+            and request.tools
+            and request.tool_choice != "none"
+        ):
+            # Do not skip special tokens when using chat template
+            # with Mistral parser as TOOL_CALL token is needed
+            # for tool detection.
+            # Note: we don't want skip_special_tokens=False
+            # with MistralTokenizer as it is incompatible
+            request.skip_special_tokens = False
+        return request
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response. Requires
+        find-and-replacing single quotes with double quotes for JSON parsing,
+        make sure your tool call arguments don't ever include quotes!
+        """
+
+        # case -- if a tool call token is not present, return a text response
+        if self.bot_token not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        # first remove the BOT token
+        tool_content = model_output.replace(self.bot_token, "").strip()
+
+        try:
+            # we first try to directly load the json as parsing very nested
+            # jsons is difficult
+            try:
+                if self.fn_name_regex:
+                    matches = self.fn_name_regex.findall(tool_content)
+
+                    function_call_arr = []
+                    for match in matches:
+                        fn_name = match[0]
+                        args = match[1]
+
+                        # fn_name is encoded outside serialized json dump
+                        # only arguments are serialized
+                        function_call_arr.append(
+                            {"name": fn_name, "arguments": json.loads(args)}
+                        )
+                else:
+                    function_call_arr = json.loads(tool_content)
+            except json.JSONDecodeError:
+                # use a regex to find the part corresponding to the tool call.
+                # NOTE: This use case should not happen if the model is trained
+                # correctly. It's an easy possible fix so it's included, but
+                # can be brittle for very complex / highly nested tool calls
+                raw_tool_call = self.tool_call_regex.findall(tool_content)[0]
+                function_call_arr = json.loads(raw_tool_call)
+
+            # Tool Call
+            tool_calls: list[MistralToolCall] = [
+                MistralToolCall(
+                    type="function",
+                    function=FunctionCall(
+                        name=raw_function_call["name"],
+                        # function call args are JSON but as a string
+                        arguments=json.dumps(
+                            raw_function_call["arguments"], ensure_ascii=False
+                        ),
+                    ),
+                )
+                for raw_function_call in function_call_arr
+            ]
+
+            # get any content before  the tool call
+            content = model_output.split(self.bot_token)[0]
+            return ExtractedToolCallInformation(
+                tools_called=True,
+                tool_calls=tool_calls,
+                content=content if len(content) > 0 else None,
+            )
+
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            # return information to just treat the tool call as regular JSON
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=tool_content
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # if the tool call token is not in the tokens generated so far, append
+        # output to contents since it's not a tool
+        if self.bot_token not in current_text:
+            return DeltaMessage(content=delta_text)
+
+        # if the tool call token ID IS in the tokens generated so far, that
+        # means we're parsing as tool calls now
+
+        # handle if we detected the BOT token which means the start of tool
+        # calling
+        if self.bot_token_id in delta_token_ids and len(delta_token_ids) == 1:
+            # if it's the only token, return None, so we don't send a chat
+            # completion any don't send a control token
+            return None
+
+        # bit mask flags for partial JSON parsing. If the name hasn't been
+        # sent yet, don't allow sending
+        # an incomplete string since OpenAI only ever (as far as I have
+        # seen) allows sending the entire tool/ function name at once.
+        flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
+        try:
+            # replace BOT token with empty string, and convert single quotes
+            # to double to allow parsing as JSON since mistral uses single
+            # quotes instead of double for tool calls
+            parsable_arr = current_text.split(self.bot_token)[-1]
+
+            # tool calls are generated in an array, so do partial JSON
+            # parsing on the entire array
+            try:
+                tool_call_arr: list[dict] = partial_json_parser.loads(
+                    parsable_arr, flags
+                )
+            except partial_json_parser.core.exceptions.MalformedJSON:
+                logger.debug("not enough tokens to parse into JSON yet")
+                return None
+
+            # select as the current tool call the one we're on the state at
+
+            current_tool_call: dict = (
+                tool_call_arr[self.current_tool_id] if len(tool_call_arr) > 0 else {}
+            )
+
+            # case -- if no tokens have been streamed for the tool, e.g.
+            #   only the array brackets, stream nothing
+            if len(tool_call_arr) == 0:
+                return None
+
+            # case: we are starting a new tool in the array
+            #   -> array has > 0 length AND length has moved past cursor
+            elif (
+                len(tool_call_arr) > 0 and len(tool_call_arr) > self.current_tool_id + 1
+            ):
+                # if we're moving on to a new call, first make sure we
+                # haven't missed anything in the previous one that was
+                # auto-generated due to JSON completions, but wasn't
+                # streamed to the client yet.
+                if self.current_tool_id >= 0:
+                    diff: str | None = current_tool_call.get("arguments")
+
+                    if diff:
+                        diff = json.dumps(diff, ensure_ascii=False).replace(
+                            self.streamed_args_for_tool[self.current_tool_id], ""
+                        )
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=diff
+                                    ).model_dump(exclude_none=True),
+                                )
+                            ]
+                        )
+                        self.streamed_args_for_tool[self.current_tool_id] += diff
+                    else:
+                        delta = None
+                else:
+                    delta = None
+                # re-set stuff pertaining to progress in the current tool
+                self.current_tool_id = len(tool_call_arr) - 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("starting on new tool %d", self.current_tool_id)
+                return delta
+
+            # case: update an existing tool - this is handled below
+
+            # if the current tool name hasn't been sent, send if available
+            # - otherwise send nothing
+            if not self.current_tool_name_sent:
+                function_name = current_tool_call.get("name")
+                if function_name:
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=MistralToolCall.generate_random_id(),
+                                function=DeltaFunctionCall(
+                                    name=function_name
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.current_tool_name_sent = True
+                else:
+                    delta = None
+
+            # now we know we're on the same tool call and we're streaming
+            # arguments
+            else:
+                prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                    "arguments"
+                )
+                cur_arguments = current_tool_call.get("arguments")
+
+                new_text = delta_text.replace("'", '"')
+                if '"}' in new_text:
+                    new_text = new_text[: new_text.rindex('"}')]
+
+                if not cur_arguments and not prev_arguments:
+                    delta = None
+                elif not cur_arguments and prev_arguments:
+                    logger.error(
+                        "INVARIANT - impossible to have arguments reset mid-arguments"
+                    )
+                    delta = None
+                elif cur_arguments and not prev_arguments:
+                    cur_arguments_json = json.dumps(cur_arguments, ensure_ascii=False)[
+                        :-2
+                    ]
+                    logger.debug("finding %s in %s", new_text, cur_arguments_json)
+
+                    if new_text not in cur_arguments_json:
+                        return None
+                    arguments_delta = cur_arguments_json[
+                        : cur_arguments_json.rindex(new_text) + len(new_text)
+                    ]
+                    logger.debug(
+                        "First tokens in arguments received: %s", arguments_delta
+                    )
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=arguments_delta
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += arguments_delta
+
+                elif cur_arguments and prev_arguments:
+                    cur_args_json = json.dumps(cur_arguments, ensure_ascii=False)
+                    prev_args_json = json.dumps(prev_arguments, ensure_ascii=False)
+                    logger.debug(
+                        "Searching for diff between \n%s\n%s",
+                        cur_args_json,
+                        prev_args_json,
+                    )
+
+                    argument_diff = extract_intermediate_diff(
+                        cur_args_json, prev_args_json
+                    )
+                    logger.debug("got arguments diff: %s", argument_diff)
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    arguments=argument_diff
+                                ).model_dump(exclude_none=True),
+                            )
+                        ]
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += argument_diff
+                else:
+                    # try parsing it with regular JSON - if it works we're
+                    # at the end, and we need to send the difference between
+                    # tokens streamed so far and the valid JSON
+                    delta = None
+
+            # check to see if the name is defined and has been sent. if so,
+            # stream the name - otherwise keep waiting
+            # finish by setting old and returning None as base case
+            self.prev_tool_call_arr = tool_call_arr
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
diff --git a/entrypoints/openai/tool_parsers/olmo3_tool_parser.py b/entrypoints/openai/tool_parsers/olmo3_tool_parser.py
new file mode 100644
index 0000000..baff33b
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/olmo3_tool_parser.py
@@ -0,0 +1,366 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+import vllm.envs as envs
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class _UnexpectedAstError(Exception):
+    pass
+
+
+class Olmo3PythonicToolParser(ToolParser):
+    """
+    Tool call parser for Olmo 3 models that produce tool calls as
+    newline-separated pythonic strings.
+    Used when --enable-auto-tool-choice --tool-call-parser pythonic are all set
+    Code copied from pythonic_tool_parser.py and updated to handle
+    - newline separated pythonic tool calls.
+    - argument values being null/true/false instead of Pythonic literals.
+    """
+
+    # TODO(mdepinet): Possible future improvements:
+    #   1. Support text + tools separated by either <|python_tag|> or \n\n
+    #   2. Support tools outside of a list (or separated by a semicolon).
+    #      This depends on item 1 for consistent streaming.
+    # Neither of these are necessary for e.g. ToolACE, but both would help make
+    # Llama3.2 models more reliable.
+
+    TOOL_CALL_REGEX = re.compile(
+        r"\[([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s)?\),\s*)*([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s*)?\)\s*)+\]",
+        re.DOTALL,
+    )
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase):
+        super().__init__(tokenizer)
+
+    # Rename for readability. This is NOT a tool id.
+    @property
+    def current_tool_index(self) -> int:
+        return self.current_tool_id
+
+    @current_tool_index.setter
+    def current_tool_index(self, value: int) -> None:
+        self.current_tool_id = value
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response.
+        """
+        original_model_output = model_output
+        # Remove xml tags.
+        match = re.search(
+            r"<function_calls>(.*?)</function_calls>", model_output, re.DOTALL
+        )
+        if match:
+            model_output = match.group(1).strip()
+        # Make the newline separated function calls into a list.
+        model_output = ", ".join(
+            [line.strip() for line in model_output.splitlines() if line.strip()]
+        )
+        model_output = f"[{model_output}]"
+
+        is_tool_call_pattern = False
+        try:
+            is_tool_call_pattern = (
+                self.TOOL_CALL_REGEX.match(
+                    model_output, timeout=envs.VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS
+                )
+                is not None
+            )
+        except TimeoutError:
+            logger.warning("Regex timeout occurred when matching tool call pattern.")
+            logger.debug(
+                "Regex timeout occurred when matching user input: %s", model_output
+            )
+
+        if not is_tool_call_pattern:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=original_model_output
+            )
+
+        try:
+            module = ast.parse(model_output)
+            parsed = getattr(module.body[0], "value", None)
+            if isinstance(parsed, ast.List) and all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=[
+                        _handle_single_tool(e)  # type: ignore
+                        for e in parsed.elts
+                    ],
+                    content=None,
+                )
+            else:
+                raise _UnexpectedAstError(
+                    "Tool output must be a list of function calls"
+                )
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            # Treat as regular text
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=original_model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # All function calls start with the <function_calls> tag.
+        # But since this is streaming, we may have seen only part of the tag.
+        if not current_text.startswith("<"):
+            return DeltaMessage(content=delta_text)
+
+        try:
+            # Remove xml tags.
+            if current_text.startswith("<function_calls>"):
+                current_text = current_text[len("<function_calls>") :]
+            if current_text.endswith("</function_calls>"):
+                current_text = current_text[: -len("</function_calls>")]
+
+            valid_and_added_text = _make_valid_python(current_text)
+            if valid_and_added_text is None:
+                return None
+            valid_text, added_text = valid_and_added_text
+
+            # Make the newline separated function calls into a list.
+            valid_text = ", ".join(
+                [line.strip() for line in valid_text.splitlines() if line.strip()]
+            )
+            valid_text = f"[{valid_text}]"
+            module = ast.parse(valid_text)
+            parsed = getattr(module.body[0], "value", None)
+            if not isinstance(parsed, ast.List) or not all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                raise _UnexpectedAstError(
+                    "Tool output must be a sequence of newline-separated calls"
+                )
+            tool_calls = [
+                _handle_single_tool(e)  # type: ignore
+                for e in parsed.elts
+            ]
+
+            tool_deltas = []
+            for index, new_call in enumerate(tool_calls):
+                if index < self.current_tool_index:
+                    continue
+
+                self.current_tool_index = index
+                if len(self.streamed_args_for_tool) == index:
+                    self.streamed_args_for_tool.append("")
+
+                new_call_complete = index < len(tool_calls) - 1 or ")" not in added_text
+                if new_call_complete:
+                    self.current_tool_index += 1
+
+                withheld_suffix = added_text[:-1] if not new_call_complete else ""
+                if not new_call_complete and added_text[-1] == ")":
+                    # Function call is incomplete. Withhold the closing bracket.
+                    withheld_suffix = withheld_suffix + "}"
+                # Strings get single quotes in the model-produced string.
+                # JSON requires double quotes.
+                withheld_suffix = withheld_suffix.replace("'", '"')
+                delta = _compute_tool_delta(
+                    self.streamed_args_for_tool[index], new_call, index, withheld_suffix
+                )
+
+                if delta is not None:
+                    tool_deltas.append(delta)
+                    if (
+                        delta.function is not None
+                        and delta.function.arguments is not None
+                    ):
+                        self.streamed_args_for_tool[index] += delta.function.arguments
+
+            # HACK: serving_chat.py inspects the internal state of tool parsers
+            # when determining its final streaming delta, automatically
+            # adding autocompleted JSON.
+            # These two lines avoid that nonsense while ensuring finish_reason
+            # is set to tool_calls when at least one tool is called.
+            if tool_deltas and not self.prev_tool_call_arr:
+                self.prev_tool_call_arr = [{"arguments": {}}]
+
+            if tool_deltas:
+                return DeltaMessage(tool_calls=tool_deltas)
+            elif not added_text and self.current_tool_id > 0:
+                # Return an empty DeltaMessage once the tool calls are all done
+                # so that finish_reason gets set.
+                return DeltaMessage(content="")
+            else:
+                return None
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
+
+
+def _get_parameter_value(val: ast.expr) -> Any:
+    if isinstance(val, ast.Constant):
+        return val.value
+    elif isinstance(val, ast.Dict):
+        if not all(isinstance(k, ast.Constant) for k in val.keys):
+            raise _UnexpectedAstError("Dict tool call arguments must have literal keys")
+        return {
+            k.value: _get_parameter_value(v)  # type: ignore
+            for k, v in zip(val.keys, val.values)
+        }
+    elif isinstance(val, ast.List):
+        return [_get_parameter_value(v) for v in val.elts]
+    # The model may return function calls where the values are null/true/false
+    # because the system prompt has API description in json.
+    elif isinstance(val, ast.Name) and val.id in ["null", "true", "false"]:
+        if val.id == "null":
+            return None
+        elif val.id == "true":
+            return True
+        elif val.id == "false":
+            return False
+    else:
+        raise _UnexpectedAstError("Tool call arguments must be literals")
+
+
+def _handle_single_tool(call: ast.Call) -> ToolCall:
+    if not isinstance(call.func, ast.Name):
+        raise _UnexpectedAstError("Invalid tool call name")
+    function_name = call.func.id
+    arguments = {}
+    for keyword in call.keywords:
+        arguments[keyword.arg] = _get_parameter_value(keyword.value)
+    return ToolCall(
+        type="function",
+        function=FunctionCall(
+            name=function_name, arguments=json.dumps(arguments, ensure_ascii=False)
+        ),
+    )
+
+
+def _make_valid_python(text: str) -> tuple[str, str] | None:
+    bracket_stack = []
+    for index, char in enumerate(text):
+        if char in {"[", "(", "{"}:
+            bracket_stack.append(char)
+        elif char == "]":
+            if not bracket_stack or bracket_stack.pop() != "[":
+                raise _UnexpectedAstError("Mismatched square brackets")
+        elif char == ")":
+            if not bracket_stack or bracket_stack.pop() != "(":
+                raise _UnexpectedAstError("Mismatched parentheses")
+        elif char == "}":
+            if not bracket_stack or bracket_stack.pop() != "{":
+                raise _UnexpectedAstError("Mismatched curly braces")
+        elif char in {"'", '"'}:
+            if bracket_stack and bracket_stack[-1] == char:
+                if index > 0 and text[index - 1] == "\\":
+                    # Treat an escaped quote as a regular character
+                    pass
+                else:
+                    bracket_stack.pop()
+            elif bracket_stack and bracket_stack[-1] in {"'", '"'}:
+                # Double quote within a single quote string or vice versa.
+                pass
+            else:
+                bracket_stack.append(char)
+
+    text = text.rstrip()
+    if text.endswith("=") or text.endswith(":"):
+        # Since we have no type information for this property/parameter value,
+        # we can't fill in a valid value.
+        return None
+    if bracket_stack and bracket_stack[-1] == "{":
+        trailing_dict_text = text[: text.rfind("{")]
+        num_keys = trailing_dict_text.count(":")
+        num_values = trailing_dict_text.count(",")
+        if num_keys <= num_values:
+            return None  # Incomplete property name within parameter value
+    if bracket_stack and bracket_stack[-1] == "(":
+        trailing_params_text = text[: text.rfind("(")]
+        num_full_param_names = trailing_params_text.count("=")
+        num_full_param_values = trailing_params_text.count(",")
+        if num_full_param_names <= num_full_param_values:
+            return None  # Incomplete parameter name
+    if text.endswith(","):
+        text = text[:-1]
+    if (
+        bracket_stack
+        and bracket_stack[-1] == "["
+        and not text.endswith("[")
+        and not text.endswith(")")
+    ):
+        return None  # Incomplete function name
+
+    added_text = ""
+    for char in reversed(bracket_stack):
+        if char == "[":
+            added_text += "]"
+        elif char == "(":
+            added_text += ")"
+        elif char == "{":
+            added_text += "}"
+        elif char == "'":
+            added_text += "'"
+        elif char == '"':
+            added_text += '"'
+
+    return text + added_text, added_text
+
+
+def _compute_tool_delta(
+    previously_sent_args: str, new_call: ToolCall, index: int, withheld_suffix: str
+) -> DeltaToolCall | None:
+    new_call_args = new_call.function.arguments
+    if withheld_suffix:
+        assert new_call_args.endswith(withheld_suffix)
+        new_call_args = new_call_args[: -len(withheld_suffix)]
+    if not previously_sent_args:
+        return DeltaToolCall(
+            id=new_call.id,
+            type="function",
+            index=index,
+            function=DeltaFunctionCall(
+                name=new_call.function.name,
+                arguments=new_call_args,
+            ),
+        )
+
+    arg_diff = new_call_args[len(previously_sent_args) :]
+    return (
+        DeltaToolCall(
+            id=None, index=index, function=DeltaFunctionCall(arguments=arg_diff)
+        )
+        if arg_diff
+        else None
+    )
diff --git a/entrypoints/openai/tool_parsers/openai_tool_parser.py b/entrypoints/openai/tool_parsers/openai_tool_parser.py
new file mode 100644
index 0000000..d1b36a2
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/openai_tool_parser.py
@@ -0,0 +1,97 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+from collections.abc import Sequence
+from typing import TYPE_CHECKING
+
+from vllm.entrypoints.harmony_utils import parse_output_into_messages
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaMessage,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+
+if TYPE_CHECKING:
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
+else:
+    AnyTokenizer = object
+
+logger = init_logger(__name__)
+
+
+class OpenAIToolParser(ToolParser):
+    def __init__(self, tokenizer: "AnyTokenizer"):
+        super().__init__(tokenizer)
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+        token_ids: Sequence[int] | None = None,
+    ) -> ExtractedToolCallInformation:
+        if token_ids is None:
+            raise NotImplementedError(
+                "OpenAIToolParser requires token IDs and does not support text-based extraction."  # noqa: E501
+            )
+
+        parser = parse_output_into_messages(token_ids)
+        tool_calls = []
+        final_content = None
+
+        if len(parser.messages) > 0:
+            for msg in parser.messages:
+                if len(msg.content) < 1:
+                    continue
+                msg_text = msg.content[0].text
+                if msg.recipient and msg.recipient.startswith("functions."):
+                    # If no content-type is given assume JSON, as that's the
+                    # most common case with gpt-oss models.
+                    if not msg.content_type or "json" in msg.content_type:
+                        # load and dump the JSON text to check validity and
+                        # remove any extra newlines or other odd formatting
+                        try:
+                            tool_args = json.dumps(json.loads(msg_text))
+                        except json.JSONDecodeError:
+                            logger.exception(
+                                "Error decoding JSON tool call from response."
+                            )
+                            tool_args = msg_text
+                    else:
+                        tool_args = msg_text
+                    tool_calls.append(
+                        ToolCall(
+                            type="function",
+                            function=FunctionCall(
+                                name=msg.recipient.split("functions.")[1],
+                                arguments=tool_args,
+                            ),
+                        )
+                    )
+                elif msg.channel == "final":
+                    final_content = msg_text
+
+        return ExtractedToolCallInformation(
+            tools_called=len(tool_calls) > 0,
+            tool_calls=tool_calls,
+            content=final_content,
+        )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        raise NotImplementedError(
+            "Not being used, manual parsing in serving_chat.py"  # noqa: E501
+        )
diff --git a/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py b/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
new file mode 100644
index 0000000..acb25ea
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaMessage,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class Phi4MiniJsonToolParser(ToolParser):
+    """
+    Tool call parser for phi-4-mini models intended for use with the
+    examples/tool_chat_template_llama.jinja template.
+
+    Used when --enable-auto-tool-choice --tool-call-parser phi4_mini_json
+    are all set
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase) -> None:
+        super().__init__(tokenizer)
+
+        # initialize properties used for state when parsing tool calls in
+        # streaming mode
+        self.prev_tool_call_arr: list[dict[str, Any]] = []
+        self.current_tool_id: int = -1
+        self.current_tool_name_sent: bool = False
+        self.streamed_args_for_tool: list[
+            str
+        ] = []  # map what has been streamed for each tool so far to a list
+        self.bot_token: str = "functools"
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response.
+        """
+        logger.debug("Model output: %s", model_output)
+
+        pattern = r"functools\[(.*?)\]"
+        matches = re.search(pattern, model_output, re.DOTALL)
+
+        if not matches:
+            logger.debug("No function calls found")
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            function_call_arr: list[dict[str, Any]] = []
+            try:
+                json_content = "[" + matches.group(1) + "]"
+
+                function_call_arr = json.loads(json_content)
+                logger.debug(
+                    "Successfully extracted %d function calls", len(function_call_arr)
+                )
+            except json.JSONDecodeError as e:
+                logger.error(
+                    "Failed to parse function calls from model output. Error: %s",
+                    str(e),
+                )
+
+            tool_calls: list[ToolCall] = [
+                ToolCall(
+                    id=make_tool_call_id(),
+                    type="function",
+                    function=FunctionCall(
+                        name=raw_function_call["name"],
+                        # function call args are JSON but as a string
+                        arguments=json.dumps(
+                            raw_function_call["arguments"]
+                            if "arguments" in raw_function_call
+                            else raw_function_call["parameters"],
+                            ensure_ascii=False,
+                        ),
+                    ),
+                )
+                for raw_function_call in function_call_arr
+            ]
+
+            # get any content before the tool call
+            ret = ExtractedToolCallInformation(
+                tools_called=True, tool_calls=tool_calls, content=None
+            )
+            return ret
+
+        except Exception:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        return None
diff --git a/entrypoints/openai/tool_parsers/pythonic_tool_parser.py b/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
new file mode 100644
index 0000000..abeb923
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
@@ -0,0 +1,332 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ast
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+import vllm.envs as envs
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class _UnexpectedAstError(Exception):
+    pass
+
+
+class PythonicToolParser(ToolParser):
+    """
+    Tool call parser for models that produce tool calls in a pythonic style,
+    such as Llama 3.2 and Llama 4 models.
+
+    Used when --enable-auto-tool-choice --tool-call-parser pythonic are all set
+    """
+
+    # TODO(mdepinet): Possible future improvements:
+    #   1. Support text + tools separated by either <|python_tag|> or \n\n
+    #   2. Support tools outside of a list (or separated by a semicolon).
+    #      This depends on item 1 for consistent streaming.
+    # Neither of these are necessary for e.g. ToolACE, but both would help make
+    # Llama3.2 models more reliable.
+
+    TOOL_CALL_REGEX = re.compile(
+        r"\[([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s)?\),\s*)*([a-zA-Z]+\w*\(([a-zA-Z]+\w*=.*,\s*)*([a-zA-Z]+\w*=.*\s*)?\)\s*)+\]",
+        re.DOTALL,
+    )
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase):
+        super().__init__(tokenizer)
+
+    # Rename for readability. This is NOT a tool id.
+    @property
+    def current_tool_index(self) -> int:
+        return self.current_tool_id
+
+    @current_tool_index.setter
+    def current_tool_index(self, value: int) -> None:
+        self.current_tool_id = value
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract the tool calls from a complete model response.
+        """
+        is_tool_call_pattern = False
+        try:
+            is_tool_call_pattern = (
+                self.TOOL_CALL_REGEX.match(
+                    model_output, timeout=envs.VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS
+                )
+                is not None
+            )
+        except TimeoutError:
+            logger.warning("Regex timeout occurred when matching tool call pattern.")
+            logger.debug(
+                "Regex timeout occurred when matching user input: %s", model_output
+            )
+
+        if not is_tool_call_pattern:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            module = ast.parse(model_output)
+            parsed = getattr(module.body[0], "value", None)
+            if isinstance(parsed, ast.List) and all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=[
+                        _handle_single_tool(e)  # type: ignore
+                        for e in parsed.elts
+                    ],
+                    content=None,
+                )
+            else:
+                raise _UnexpectedAstError(
+                    "Tool output must be a list of function calls"
+                )
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            # Treat as regular text
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if not current_text.startswith("["):
+            return DeltaMessage(content=delta_text)
+
+        try:
+            valid_and_added_text = _make_valid_python(current_text)
+            if valid_and_added_text is None:
+                return None
+            valid_text, added_text = valid_and_added_text
+
+            module = ast.parse(valid_text)
+            parsed = getattr(module.body[0], "value", None)
+            if not isinstance(parsed, ast.List) or not all(
+                isinstance(e, ast.Call) for e in parsed.elts
+            ):
+                raise _UnexpectedAstError(
+                    "Tool output must be a list of function calls"
+                )
+            tool_calls = [
+                _handle_single_tool(e)  # type: ignore
+                for e in parsed.elts
+            ]
+
+            tool_deltas = []
+            for index, new_call in enumerate(tool_calls):
+                if index < self.current_tool_index:
+                    continue
+
+                self.current_tool_index = index
+                if len(self.streamed_args_for_tool) == index:
+                    self.streamed_args_for_tool.append("")
+
+                new_call_complete = (
+                    index < len(tool_calls) - 1 or ")]" not in added_text
+                )
+                if new_call_complete:
+                    self.current_tool_index += 1
+
+                withheld_suffix = added_text[:-2] if not new_call_complete else ""
+                if not new_call_complete and added_text[-2] == ")":
+                    # Function call is incomplete. Withhold the closing bracket.
+                    withheld_suffix = withheld_suffix + "}"
+                # Strings get single quotes in the model-produced string.
+                # JSON requires double quotes.
+                withheld_suffix = withheld_suffix.replace("'", '"')
+                delta = _compute_tool_delta(
+                    self.streamed_args_for_tool[index], new_call, index, withheld_suffix
+                )
+
+                if delta is not None:
+                    tool_deltas.append(delta)
+                    if (
+                        delta.function is not None
+                        and delta.function.arguments is not None
+                    ):
+                        self.streamed_args_for_tool[index] += delta.function.arguments
+
+            # HACK: serving_chat.py inspects the internal state of tool parsers
+            # when determining its final streaming delta, automatically
+            # adding autocompleted JSON.
+            # These two lines avoid that nonsense while ensuring finish_reason
+            # is set to tool_calls when at least one tool is called.
+            if tool_deltas and not self.prev_tool_call_arr:
+                self.prev_tool_call_arr = [{"arguments": {}}]
+
+            if tool_deltas:
+                return DeltaMessage(tool_calls=tool_deltas)
+            elif not added_text and self.current_tool_id > 0:
+                # Return an empty DeltaMessage once the tool calls are all done
+                # so that finish_reason gets set.
+                return DeltaMessage(content="")
+            else:
+                return None
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            logger.debug(
+                "Skipping chunk as a result of tool streaming extraction error"
+            )
+            return None
+
+
+def _get_parameter_value(val: ast.expr) -> Any:
+    if isinstance(val, ast.Constant):
+        return val.value
+    elif isinstance(val, ast.Dict):
+        if not all(isinstance(k, ast.Constant) for k in val.keys):
+            raise _UnexpectedAstError("Dict tool call arguments must have literal keys")
+        return {
+            k.value: _get_parameter_value(v)  # type: ignore
+            for k, v in zip(val.keys, val.values)
+        }
+    elif isinstance(val, ast.List):
+        return [_get_parameter_value(v) for v in val.elts]
+    else:
+        raise _UnexpectedAstError("Tool call arguments must be literals")
+
+
+def _handle_single_tool(call: ast.Call) -> ToolCall:
+    if not isinstance(call.func, ast.Name):
+        raise _UnexpectedAstError("Invalid tool call name")
+    function_name = call.func.id
+    arguments = {}
+    for keyword in call.keywords:
+        arguments[keyword.arg] = _get_parameter_value(keyword.value)
+    return ToolCall(
+        type="function",
+        function=FunctionCall(
+            name=function_name, arguments=json.dumps(arguments, ensure_ascii=False)
+        ),
+    )
+
+
+def _make_valid_python(text: str) -> tuple[str, str] | None:
+    bracket_stack = []
+    for index, char in enumerate(text):
+        if char in {"[", "(", "{"}:
+            bracket_stack.append(char)
+        elif char == "]":
+            if not bracket_stack or bracket_stack.pop() != "[":
+                raise _UnexpectedAstError("Mismatched square brackets")
+        elif char == ")":
+            if not bracket_stack or bracket_stack.pop() != "(":
+                raise _UnexpectedAstError("Mismatched parentheses")
+        elif char == "}":
+            if not bracket_stack or bracket_stack.pop() != "{":
+                raise _UnexpectedAstError("Mismatched curly braces")
+        elif char in {"'", '"'}:
+            if bracket_stack and bracket_stack[-1] == char:
+                if index > 0 and text[index - 1] == "\\":
+                    # Treat an escaped quote as a regular character
+                    pass
+                else:
+                    bracket_stack.pop()
+            elif bracket_stack and bracket_stack[-1] in {"'", '"'}:
+                # Double quote within a single quote string or vice versa.
+                pass
+            else:
+                bracket_stack.append(char)
+
+    text = text.rstrip()
+    if text.endswith("=") or text.endswith(":"):
+        # Since we have no type information for this property/parameter value,
+        # we can't fill in a valid value.
+        return None
+    if bracket_stack and bracket_stack[-1] == "{":
+        trailing_dict_text = text[: text.rfind("{")]
+        num_keys = trailing_dict_text.count(":")
+        num_values = trailing_dict_text.count(",")
+        if num_keys <= num_values:
+            return None  # Incomplete property name within parameter value
+    if bracket_stack and bracket_stack[-1] == "(":
+        trailing_params_text = text[: text.rfind("(")]
+        num_full_param_names = trailing_params_text.count("=")
+        num_full_param_values = trailing_params_text.count(",")
+        if num_full_param_names <= num_full_param_values:
+            return None  # Incomplete parameter name
+    if text.endswith(","):
+        text = text[:-1]
+    if (
+        bracket_stack
+        and bracket_stack[-1] == "["
+        and not text.endswith("[")
+        and not text.endswith(")")
+    ):
+        return None  # Incomplete function name
+
+    added_text = ""
+    for char in reversed(bracket_stack):
+        if char == "[":
+            added_text += "]"
+        elif char == "(":
+            added_text += ")"
+        elif char == "{":
+            added_text += "}"
+        elif char == "'":
+            added_text += "'"
+        elif char == '"':
+            added_text += '"'
+
+    return text + added_text, added_text
+
+
+def _compute_tool_delta(
+    previously_sent_args: str, new_call: ToolCall, index: int, withheld_suffix: str
+) -> DeltaToolCall | None:
+    new_call_args = new_call.function.arguments
+    if withheld_suffix:
+        assert new_call_args.endswith(withheld_suffix)
+        new_call_args = new_call_args[: -len(withheld_suffix)]
+    if not previously_sent_args:
+        return DeltaToolCall(
+            id=new_call.id,
+            type="function",
+            index=index,
+            function=DeltaFunctionCall(
+                name=new_call.function.name,
+                arguments=new_call_args,
+            ),
+        )
+
+    arg_diff = new_call_args[len(previously_sent_args) :]
+    return (
+        DeltaToolCall(
+            id=None, index=index, function=DeltaFunctionCall(arguments=arg_diff)
+        )
+        if arg_diff
+        else None
+    )
diff --git a/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py b/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
new file mode 100644
index 0000000..26261c0
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
@@ -0,0 +1,781 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+import json
+import uuid
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionToolsParam,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class Qwen3CoderToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        # Override base class type - we use string IDs for tool calls
+        self.current_tool_id: str | None = None  # type: ignore
+        self.streamed_args_for_tool: list[str] = []
+
+        # Sentinel tokens for streaming mode
+        self.tool_call_start_token: str = "<tool_call>"
+        self.tool_call_end_token: str = "</tool_call>"
+        self.tool_call_prefix: str = "<function="
+        self.function_end_token: str = "</function>"
+        self.parameter_prefix: str = "<parameter="
+        self.parameter_end_token: str = "</parameter>"
+        self.is_tool_call_started: bool = False
+        self.failed_count: int = 0
+
+        # Enhanced streaming state - reset for each new message
+        self._reset_streaming_state()
+
+        # Regex patterns
+        self.tool_call_complete_regex = re.compile(
+            r"<tool_call>(.*?)</tool_call>", re.DOTALL
+        )
+        self.tool_call_regex = re.compile(
+            r"<tool_call>(.*?)</tool_call>|<tool_call>(.*?)$", re.DOTALL
+        )
+        self.tool_call_function_regex = re.compile(
+            r"<function=(.*?)</function>|<function=(.*)$", re.DOTALL
+        )
+        self.tool_call_parameter_regex = re.compile(
+            r"<parameter=(.*?)(?:</parameter>|(?=<parameter=)|(?=</function>)|$)",
+            re.DOTALL,
+        )
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction."
+            )
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if self.tool_call_start_token_id is None or self.tool_call_end_token_id is None:
+            raise RuntimeError(
+                "Qwen3 XML Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer!"
+            )
+
+        logger.info(
+            "vLLM Successfully import tool parser %s !", self.__class__.__name__
+        )
+
+    def _generate_tool_call_id(self) -> str:
+        """Generate a unique tool call ID."""
+        return f"call_{uuid.uuid4().hex[:24]}"
+
+    def _reset_streaming_state(self):
+        """Reset all streaming state."""
+        self.current_tool_index = 0
+        self.is_tool_call_started = False
+        self.header_sent = False
+        self.current_tool_id = None
+        self.current_function_name = None
+        self.current_param_name = None
+        self.current_param_value = ""
+        self.param_count = 0
+        self.in_param = False
+        self.in_function = False
+        self.accumulated_text = ""
+        self.json_started = False
+        self.json_closed = False
+        # Store accumulated parameters for type conversion
+        self.accumulated_params = {}
+        self.streaming_request = None
+
+    def _get_arguments_config(
+        self, func_name: str, tools: list[ChatCompletionToolsParam] | None
+    ) -> dict:
+        """Extract argument configuration for a function."""
+        if tools is None:
+            return {}
+        for config in tools:
+            if not hasattr(config, "type") or not (
+                hasattr(config, "function") and hasattr(config.function, "name")
+            ):
+                continue
+            if config.type == "function" and config.function.name == func_name:
+                if not hasattr(config.function, "parameters"):
+                    return {}
+                params = config.function.parameters
+                if isinstance(params, dict) and "properties" in params:
+                    return params["properties"]
+                elif isinstance(params, dict):
+                    return params
+                else:
+                    return {}
+        logger.warning("Tool '%s' is not defined in the tools list.", func_name)
+        return {}
+
+    def _convert_param_value(
+        self, param_value: str, param_name: str, param_config: dict, func_name: str
+    ) -> Any:
+        """Convert parameter value based on its type in the schema."""
+        # Handle null value for any type
+        if param_value.lower() == "null":
+            return None
+
+        if param_name not in param_config:
+            if param_config != {}:
+                logger.warning(
+                    "Parsed parameter '%s' is not defined in the tool "
+                    "parameters for tool '%s', directly returning the "
+                    "string value.",
+                    param_name,
+                    func_name,
+                )
+            return param_value
+
+        if (
+            isinstance(param_config[param_name], dict)
+            and "type" in param_config[param_name]
+        ):
+            param_type = str(param_config[param_name]["type"]).strip().lower()
+        else:
+            param_type = "string"
+        if param_type in ["string", "str", "text", "varchar", "char", "enum"]:
+            return param_value
+        elif (
+            param_type.startswith("int")
+            or param_type.startswith("uint")
+            or param_type.startswith("long")
+            or param_type.startswith("short")
+            or param_type.startswith("unsigned")
+        ):
+            try:
+                return int(param_value)
+            except (ValueError, TypeError):
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' is not an "
+                    "integer in tool '%s', degenerating to string.",
+                    param_value,
+                    param_name,
+                    func_name,
+                )
+                return param_value
+        elif param_type.startswith("num") or param_type.startswith("float"):
+            try:
+                float_param_value = float(param_value)
+                return (
+                    float_param_value
+                    if float_param_value - int(float_param_value) != 0
+                    else int(float_param_value)
+                )
+            except (ValueError, TypeError):
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' is not a float "
+                    "in tool '%s', degenerating to string.",
+                    param_value,
+                    param_name,
+                    func_name,
+                )
+                return param_value
+        elif param_type in ["boolean", "bool", "binary"]:
+            param_value = param_value.lower()
+            if param_value not in ["true", "false"]:
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' is not a boolean "
+                    "(`true` or `false`) in tool '%s', degenerating to "
+                    "false.",
+                    param_value,
+                    param_name,
+                    func_name,
+                )
+            return param_value == "true"
+        else:
+            if (
+                param_type in ["object", "array", "arr"]
+                or param_type.startswith("dict")
+                or param_type.startswith("list")
+            ):
+                try:
+                    param_value = json.loads(param_value)
+                    return param_value
+                except (json.JSONDecodeError, TypeError, ValueError):
+                    logger.warning(
+                        "Parsed value '%s' of parameter '%s' cannot be "
+                        "parsed with json.loads in tool '%s', will try "
+                        "other methods to parse it.",
+                        param_value,
+                        param_name,
+                        func_name,
+                    )
+            try:
+                param_value = ast.literal_eval(param_value)  # safer
+            except (ValueError, SyntaxError, TypeError):
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' cannot be "
+                    "converted via Python `ast.literal_eval()` in tool "
+                    "'%s', degenerating to string.",
+                    param_value,
+                    param_name,
+                    func_name,
+                )
+            return param_value
+
+    def _parse_xml_function_call(
+        self, function_call_str: str, tools: list[ChatCompletionToolsParam] | None
+    ) -> ToolCall | None:
+        # Extract function name
+        end_index = function_call_str.index(">")
+        function_name = function_call_str[:end_index]
+        param_config = self._get_arguments_config(function_name, tools)
+        parameters = function_call_str[end_index + 1 :]
+        param_dict = {}
+        for match_text in self.tool_call_parameter_regex.findall(parameters):
+            idx = match_text.index(">")
+            param_name = match_text[:idx]
+            param_value = str(match_text[idx + 1 :])
+            # Remove prefix and trailing \n
+            if param_value.startswith("\n"):
+                param_value = param_value[1:]
+            if param_value.endswith("\n"):
+                param_value = param_value[:-1]
+
+            param_dict[param_name] = self._convert_param_value(
+                param_value, param_name, param_config, function_name
+            )
+        return ToolCall(
+            type="function",
+            function=FunctionCall(
+                name=function_name, arguments=json.dumps(param_dict, ensure_ascii=False)
+            ),
+        )
+
+    def _get_function_calls(self, model_output: str) -> list[str]:
+        # Find all tool calls
+        matched_ranges = self.tool_call_regex.findall(model_output)
+        raw_tool_calls = [
+            match[0] if match[0] else match[1] for match in matched_ranges
+        ]
+
+        # Back-off strategy if no tool_call tags found
+        if len(raw_tool_calls) == 0:
+            raw_tool_calls = [model_output]
+
+        raw_function_calls = []
+        for tool_call in raw_tool_calls:
+            raw_function_calls.extend(self.tool_call_function_regex.findall(tool_call))
+
+        function_calls = [
+            match[0] if match[0] else match[1] for match in raw_function_calls
+        ]
+        return function_calls
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # Quick check to avoid unnecessary processing
+        if self.tool_call_prefix not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        try:
+            function_calls = self._get_function_calls(model_output)
+            if len(function_calls) == 0:
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+            tool_calls = [
+                self._parse_xml_function_call(function_call_str, request.tools)
+                for function_call_str in function_calls
+            ]
+
+            # Populate prev_tool_call_arr for serving layer to set finish_reason
+            self.prev_tool_call_arr.clear()  # Clear previous calls
+            for tool_call in tool_calls:
+                if tool_call:
+                    self.prev_tool_call_arr.append(
+                        {
+                            "name": tool_call.function.name,
+                            "arguments": tool_call.function.arguments,
+                        }
+                    )
+
+            # Extract content before tool calls
+            content_index = model_output.find(self.tool_call_start_token)
+            idx = model_output.find(self.tool_call_prefix)
+            content_index = content_index if content_index >= 0 else idx
+            content = model_output[:content_index]  # .rstrip()
+
+            return ExtractedToolCallInformation(
+                tools_called=(len(tool_calls) > 0),
+                tool_calls=tool_calls,
+                content=content if content else None,
+            )
+
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # Store request for type conversion
+        if not previous_text:
+            self._reset_streaming_state()
+            self.streaming_request = request
+
+        # If no delta text, return None unless it's an EOS token after tools
+        if not delta_text:
+            # Check if this is an EOS token after all tool calls are complete
+            # Check for tool calls in text even if is_tool_call_started
+            # is False (might have been reset after processing all tools)
+            if delta_token_ids and self.tool_call_end_token_id not in delta_token_ids:
+                # Count complete tool calls
+                complete_calls = len(
+                    self.tool_call_complete_regex.findall(current_text)
+                )
+
+                # If we have completed tool calls and populated
+                # prev_tool_call_arr
+                if complete_calls > 0 and len(self.prev_tool_call_arr) > 0:
+                    # Check if all tool calls are closed
+                    open_calls = current_text.count(
+                        self.tool_call_start_token
+                    ) - current_text.count(self.tool_call_end_token)
+                    if open_calls == 0:
+                        # Return empty delta for finish_reason processing
+                        return DeltaMessage(content="")
+                elif not self.is_tool_call_started and current_text:
+                    # This is a regular content response that's now complete
+                    return DeltaMessage(content="")
+            return None
+
+        # Update accumulated text
+        self.accumulated_text = current_text
+
+        # Check if we need to advance to next tool
+        if self.json_closed and not self.in_function:
+            # Check if this tool call has ended
+            tool_ends = current_text.count(self.tool_call_end_token)
+            if tool_ends > self.current_tool_index:
+                # This tool has ended, advance to next
+                self.current_tool_index += 1
+                self.header_sent = False
+                self.param_count = 0
+                self.json_started = False
+                self.json_closed = False
+                self.accumulated_params = {}
+
+                # Check if there are more tool calls
+                tool_starts = current_text.count(self.tool_call_start_token)
+                if self.current_tool_index >= tool_starts:
+                    # No more tool calls
+                    self.is_tool_call_started = False
+                # Continue processing next tool
+                return None
+
+        # Handle normal content before tool calls
+        if not self.is_tool_call_started:
+            # Check if tool call is starting
+            if (
+                self.tool_call_start_token_id in delta_token_ids
+                or self.tool_call_start_token in delta_text
+            ):
+                self.is_tool_call_started = True
+                # Return any content before the tool call
+                if self.tool_call_start_token in delta_text:
+                    content_before = delta_text[
+                        : delta_text.index(self.tool_call_start_token)
+                    ]
+                    if content_before:
+                        return DeltaMessage(content=content_before)
+                return None
+            else:
+                # Check if we're between tool calls - skip whitespace
+                if (
+                    current_text.rstrip().endswith(self.tool_call_end_token)
+                    and delta_text.strip() == ""
+                ):
+                    # We just ended a tool call, skip whitespace
+                    return None
+                # Normal content, no tool call
+                return DeltaMessage(content=delta_text)
+
+        # Check if we're between tool calls (waiting for next one)
+        # Count tool calls we've seen vs processed
+        tool_starts_count = current_text.count(self.tool_call_start_token)
+        if self.current_tool_index >= tool_starts_count:
+            # We're past all tool calls, shouldn't be here
+            return None
+
+        # We're in a tool call, find the current tool call portion
+        # Need to find the correct tool call based on current_tool_index
+        tool_start_positions: list[int] = []
+        idx = 0
+        while True:
+            idx = current_text.find(self.tool_call_start_token, idx)
+            if idx == -1:
+                break
+            tool_start_positions.append(idx)
+            idx += len(self.tool_call_start_token)
+
+        if self.current_tool_index >= len(tool_start_positions):
+            # No more tool calls to process yet
+            return None
+
+        tool_start_idx = tool_start_positions[self.current_tool_index]
+        # Find where this tool call ends (or current position if not ended yet)
+        tool_end_idx = current_text.find(self.tool_call_end_token, tool_start_idx)
+        if tool_end_idx == -1:
+            tool_text = current_text[tool_start_idx:]
+        else:
+            tool_text = current_text[
+                tool_start_idx : tool_end_idx + len(self.tool_call_end_token)
+            ]
+
+        # Looking for function header
+        if not self.header_sent:
+            if self.tool_call_prefix in tool_text:
+                func_start = tool_text.find(self.tool_call_prefix) + len(
+                    self.tool_call_prefix
+                )
+                func_end = tool_text.find(">", func_start)
+
+                if func_end != -1:
+                    # Found complete function name
+                    self.current_function_name = tool_text[func_start:func_end]
+                    self.current_tool_id = self._generate_tool_call_id()
+                    self.header_sent = True
+                    self.in_function = True
+
+                    # IMPORTANT: Add to prev_tool_call_arr immediately when
+                    # we detect a tool call. This ensures
+                    # finish_reason="tool_calls" even if parsing isn't complete
+                    already_added = any(
+                        tool.get("name") == self.current_function_name
+                        for tool in self.prev_tool_call_arr
+                    )
+                    if not already_added:
+                        self.prev_tool_call_arr.append(
+                            {
+                                "name": self.current_function_name,
+                                "arguments": "{}",  # Placeholder, will be updated later
+                            }
+                        )
+
+                    # Send header with function info
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                id=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    name=self.current_function_name, arguments=""
+                                ),
+                                type="function",
+                            )
+                        ]
+                    )
+            return None
+
+        # We've sent header, now handle function body
+        if self.in_function:
+            # Send opening brace if not sent yet
+            if not self.json_started and self.parameter_prefix not in delta_text:
+                self.json_started = True
+                return DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_index,
+                            function=DeltaFunctionCall(arguments="{"),
+                        )
+                    ]
+                )
+
+            # Make sure json_started is set if we're processing parameters
+            if not self.json_started:
+                self.json_started = True
+
+            # Check for function end in accumulated text
+            if not self.json_closed and self.function_end_token in tool_text:
+                # Close JSON
+                self.json_closed = True
+
+                # Extract complete tool call to update
+                # prev_tool_call_arr with final arguments
+                # Find the function content
+                func_start = tool_text.find(self.tool_call_prefix) + len(
+                    self.tool_call_prefix
+                )
+                func_content_end = tool_text.find(self.function_end_token, func_start)
+                if func_content_end != -1:
+                    func_content = tool_text[func_start:func_content_end]
+                    # Parse to get the complete arguments
+                    try:
+                        parsed_tool = self._parse_xml_function_call(
+                            func_content,
+                            self.streaming_request.tools
+                            if self.streaming_request
+                            else None,
+                        )
+                        if parsed_tool:
+                            # Update existing entry in
+                            # prev_tool_call_arr with complete args
+                            for i, tool in enumerate(self.prev_tool_call_arr):
+                                if tool.get("name") == parsed_tool.function.name:
+                                    args = parsed_tool.function.arguments
+                                    self.prev_tool_call_arr[i]["arguments"] = args
+                                    break
+                    except Exception:
+                        pass  # Ignore parsing errors during streaming
+
+                result = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_index,
+                            function=DeltaFunctionCall(arguments="}"),
+                        )
+                    ]
+                )
+
+                # Reset state for next tool
+                self.in_function = False
+                self.json_closed = True
+                self.accumulated_params = {}
+
+                return result
+
+            # Look for parameters
+            # Find all parameter starts
+            param_starts = []
+            idx = 0
+            while True:
+                idx = tool_text.find(self.parameter_prefix, idx)
+                if idx == -1:
+                    break
+                param_starts.append(idx)
+                idx += len(self.parameter_prefix)
+
+            # Check if we should start a new parameter
+            if (
+                not self.in_param
+                and self.param_count < len(param_starts)
+                and len(param_starts) > self.param_count
+            ):
+                # Process the next parameter
+                param_idx = param_starts[self.param_count]
+                param_start = param_idx + len(self.parameter_prefix)
+                remaining = tool_text[param_start:]
+
+                if ">" in remaining:
+                    # We have the complete parameter name
+                    name_end = remaining.find(">")
+                    self.current_param_name = remaining[:name_end]
+
+                    # Find the parameter value
+                    value_start = param_start + name_end + 1
+                    value_text = tool_text[value_start:]
+                    if value_text.startswith("\n"):
+                        value_text = value_text[1:]
+
+                    # Find where this parameter ends
+                    param_end_idx = value_text.find(self.parameter_end_token)
+                    if param_end_idx == -1:
+                        # No closing tag, look for next parameter or
+                        # function end
+                        next_param_idx = value_text.find(self.parameter_prefix)
+                        func_end_idx = value_text.find(self.function_end_token)
+
+                        if next_param_idx != -1 and (
+                            func_end_idx == -1 or next_param_idx < func_end_idx
+                        ):
+                            param_end_idx = next_param_idx
+                        elif func_end_idx != -1:
+                            param_end_idx = func_end_idx
+                        else:
+                            # Neither found, check if tool call is complete
+                            if self.tool_call_end_token in tool_text:
+                                # Tool call is complete, so parameter
+                                # must be complete too. Use all
+                                # remaining text before function end
+                                param_end_idx = len(value_text)
+                            else:
+                                # Still streaming, wait for more content
+                                return None
+
+                    if param_end_idx != -1:
+                        # Complete parameter found
+                        param_value = value_text[:param_end_idx]
+                        if param_value.endswith("\n"):
+                            param_value = param_value[:-1]
+
+                        # Store raw value for later processing
+                        self.accumulated_params[self.current_param_name] = param_value
+
+                        # Get parameter configuration for type conversion
+                        param_config = self._get_arguments_config(
+                            self.current_function_name or "",
+                            self.streaming_request.tools
+                            if self.streaming_request
+                            else None,
+                        )
+
+                        # Convert param value to appropriate type
+                        converted_value = self._convert_param_value(
+                            param_value,
+                            self.current_param_name,
+                            param_config,
+                            self.current_function_name or "",
+                        )
+
+                        # Build JSON fragment based on the converted type
+                        # Use json.dumps to properly serialize the value
+                        serialized_value = json.dumps(
+                            converted_value, ensure_ascii=False
+                        )
+
+                        if self.param_count == 0:
+                            json_fragment = (
+                                f'"{self.current_param_name}": {serialized_value}'
+                            )
+                        else:
+                            json_fragment = (
+                                f', "{self.current_param_name}": {serialized_value}'
+                            )
+
+                        self.param_count += 1
+
+                        return DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_index,
+                                    function=DeltaFunctionCall(arguments=json_fragment),
+                                )
+                            ]
+                        )
+
+            # Continue parameter value - Not used in the current implementation
+            # since we process complete parameters above
+            if self.in_param:
+                if self.parameter_end_token in delta_text:
+                    # End of parameter
+                    end_idx = delta_text.find(self.parameter_end_token)
+                    value_chunk = delta_text[:end_idx]
+
+                    # Skip past > if at start
+                    if not self.current_param_value and ">" in value_chunk:
+                        gt_idx = value_chunk.find(">")
+                        value_chunk = value_chunk[gt_idx + 1 :]
+
+                    if not self.current_param_value and value_chunk.startswith("\n"):
+                        value_chunk = value_chunk[1:]
+
+                    # Store complete value
+                    full_value = self.current_param_value + value_chunk
+                    self.accumulated_params[self.current_param_name] = full_value
+
+                    # Get parameter configuration for type conversion
+                    param_config = self._get_arguments_config(
+                        self.current_function_name or "",
+                        self.streaming_request.tools
+                        if self.streaming_request
+                        else None,
+                    )
+
+                    # Convert the parameter value to the appropriate type
+                    converted_value = self._convert_param_value(
+                        full_value,
+                        self.current_param_name or "",
+                        param_config,
+                        self.current_function_name or "",
+                    )
+
+                    # Serialize the converted value
+                    serialized_value = json.dumps(converted_value, ensure_ascii=False)
+
+                    # Since we've been streaming the quoted version,
+                    # we need to close it properly
+                    # This is complex - for now just complete the value
+                    self.in_param = False
+                    self.current_param_value = ""
+
+                    # Just close the current parameter string
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                function=DeltaFunctionCall(
+                                    arguments='"'
+                                ),  # Close the string quote
+                            )
+                        ]
+                    )
+                else:
+                    # Continue accumulating value
+                    value_chunk = delta_text
+
+                    # Handle first chunk after param name
+                    if not self.current_param_value and ">" in value_chunk:
+                        gt_idx = value_chunk.find(">")
+                        value_chunk = value_chunk[gt_idx + 1 :]
+
+                    if not self.current_param_value and value_chunk.startswith("\n"):
+                        value_chunk = value_chunk[1:]
+
+                    if value_chunk:
+                        # Stream the escaped delta
+                        prev_escaped = (
+                            json.dumps(self.current_param_value, ensure_ascii=False)[
+                                1:-1
+                            ]
+                            if self.current_param_value
+                            else ""
+                        )
+                        self.current_param_value += value_chunk
+                        full_escaped = json.dumps(
+                            self.current_param_value, ensure_ascii=False
+                        )[1:-1]
+                        delta_escaped = full_escaped[len(prev_escaped) :]
+
+                        if delta_escaped:
+                            return DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=self.current_tool_index,
+                                        function=DeltaFunctionCall(
+                                            arguments=delta_escaped
+                                        ),
+                                    )
+                                ]
+                            )
+
+        return None
diff --git a/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py b/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
new file mode 100644
index 0000000..432c419
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
@@ -0,0 +1,1316 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+import json
+from collections.abc import Sequence
+from typing import Any
+from xml.parsers.expat import ParserCreate
+
+import regex as re
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionToolsParam,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class StreamingXMLToolCallParser:
+    """
+    Simplified streaming XML tool call parser
+    Supports streaming input, parsing, and output
+    """
+
+    def __init__(self):
+        self.reset_streaming_state()
+
+        # Tool configuration information
+        self.tools: list[ChatCompletionToolsParam] | None = None
+        self.tool_call_start_token: str = "<tool_call>"
+        self.tool_call_end_token: str = "</tool_call>"
+        self.function_start_token: str = "<function="
+        self.function_end_token: str = "</function>"
+        self.parameter_start_token: str = "<parameter="
+        self.parameter_end_token: str = "</parameter>"
+
+    def reset_streaming_state(self):
+        """Reset streaming parsing state"""
+
+        self.deltas = []
+        # state for streaming
+        self.tool_call_index = 0
+        self.current_call_id = None
+        self.last_completed_call_id = None
+        self.current_function_name = None
+        self.current_function_open = False
+        self.parameters = {}
+        self.current_param_name = None
+        self.current_param_value = ""
+        self.current_param_value_converted = ""
+        self.current_param_is_first = False
+        self.should_emit_end_newline = False
+        self.start_quote_emitted = False
+
+        self.streaming_buffer = ""
+        self.last_processed_pos = 0
+
+        self.text_content_buffer = ""
+
+        # state for preprocessing and deferred parsing
+        self._pre_inside_parameter = False
+        self._pre_param_buffer = ""
+        self._pre_current_param_name = None
+        self.defer_current_parameter = False
+        self.deferred_param_raw_value = ""
+
+        # recreate parser
+        self.parser = ParserCreate()
+        self.setup_parser()
+
+    def parse_single_streaming_chunks(self, xml_chunk: str) -> DeltaMessage:
+        """
+        Parse single streaming XML chunk and return Delta response
+        This is the actual streaming interface that receives chunks
+        one by one and maintains internal state
+
+        Args:
+            xml_chunk: Single XML chunk string
+        Returns:
+            DeltaMessage: Contains delta information generated by this chunk,
+            returns empty response if no complete elements
+        """
+        # Record delta count before processing
+        initial_delta_count = len(self.deltas)
+
+        self.streaming_buffer += xml_chunk
+
+        found_elements = self._process_complete_xml_elements()
+
+        if found_elements:
+            # If complete elements found, check if end events were missed
+            # some tags may not have been triggered
+            try:
+                new_deltas = self.deltas[initial_delta_count:]
+                # If this chunk contains </function>
+                # but didn't generate '}', then complete it
+                if (
+                    self.current_call_id is not None
+                    and self.function_end_token in xml_chunk
+                ):
+                    # - Added '}' (non-empty parameter ending)
+                    # - Added '{}' (empty parameter function)
+                    has_function_close = any(
+                        (
+                            td.tool_calls
+                            and any(
+                                (
+                                    tc.function
+                                    and tc.id == self.current_call_id
+                                    and isinstance(tc.function.arguments, str)
+                                    and (tc.function.arguments in ("}", "{}"))
+                                )
+                                for tc in td.tool_calls
+                            )
+                        )
+                        for td in new_deltas
+                    )
+                    if not has_function_close:
+                        # Close potentially unclosed element
+                        if self.current_param_name:
+                            self._end_element("parameter")
+                        if self.current_function_name:
+                            self._end_element("function")
+                # If this chunk contains </tool_call>
+                # but didn't generate final empty delta, then complete it
+                if (
+                    self.current_call_id is not None
+                    and self.tool_call_end_token in xml_chunk
+                ):
+                    has_toolcall_close = any(
+                        (
+                            td.tool_calls
+                            and any(
+                                (
+                                    tc.type == "function"
+                                    and tc.function
+                                    and tc.function.arguments == ""
+                                    and tc.id == self.current_call_id
+                                )
+                                for tc in td.tool_calls
+                            )
+                        )
+                        for td in new_deltas
+                    )
+                    if not has_toolcall_close:
+                        # Close potentially unclosed element
+                        if self.current_param_name:
+                            self._end_element("parameter")
+                        if self.current_function_name:
+                            self._end_element("function")
+                        self._end_element("tool_call")
+            except Exception as e:
+                logger.warning("Error with fallback parsing: %s", e)
+            # Merge newly generated deltas into single response
+            result_delta = self._merge_new_deltas_to_single_response(
+                initial_delta_count
+            )
+            return result_delta
+        else:
+            # No complete elements, check if there's unoutput text content
+            if self.text_content_buffer and self.tool_call_index == 0:
+                # Has text content but no tool_call yet, output text content
+                text_delta = DeltaMessage(content=self.text_content_buffer)
+                self._emit_delta(text_delta)
+                # Clear buffer to avoid duplicate output
+                self.text_content_buffer = ""
+                return text_delta
+
+            # If this chunk contains end tags but wasn't triggered by parser,
+            # manually complete end events
+            # Only execute when still on the same call as when entered,
+            # to prevent accidentally closing new calls
+            # in multi <tool_call> scenarios
+            if self.current_call_id is not None and (
+                self.function_end_token in xml_chunk
+                or self.tool_call_end_token in xml_chunk
+            ):
+                # Close potentially unclosed element
+                if self.current_param_name:
+                    self._end_element("parameter")
+                if self.function_end_token in xml_chunk and self.current_function_name:
+                    self._end_element("function")
+                if self.tool_call_end_token in xml_chunk:
+                    self._end_element("tool_call")
+                # Return the merged delta result generated by this fallback
+                result_delta = self._merge_new_deltas_to_single_response(
+                    initial_delta_count
+                )
+                return result_delta
+
+            # No complete elements, return empty response
+            return DeltaMessage(content=None)
+
+    def _escape_xml_special_chars(self, text: str) -> str:
+        """
+        Escape XML special characters
+        Args:
+            text: Original text
+        Returns:
+            Escaped text
+        """
+        xml_escapes = {
+            "&": "&amp;",
+            "<": "&lt;",
+            ">": "&gt;",
+            '"': "&quot;",
+            "'": "&apos;",
+        }
+
+        for char, escape in xml_escapes.items():
+            text = text.replace(char, escape)
+
+        return text
+
+    def _process_complete_xml_elements(self) -> bool:
+        """
+        Process complete XML elements in buffer
+
+        Returns:
+            bool: Whether complete elements were found and processed
+        """
+        found_any = False
+
+        while self.last_processed_pos < len(self.streaming_buffer):
+            # Find next complete xml element
+            element, end_pos = self._find_next_complete_element(self.last_processed_pos)
+            if element is None:
+                # No complete element found, wait for more data
+                break
+
+            # Check if this element should be skipped
+            if self._should_skip_element(element):
+                self.last_processed_pos = end_pos
+                continue
+
+            # Found complete XML element, process it
+            try:
+                preprocessed_element = self._preprocess_xml_chunk(element)
+                # Check if this is the first tool_call start
+                if (
+                    (
+                        preprocessed_element.strip().startswith("<tool_call>")
+                        or preprocessed_element.strip().startswith("<function name=")
+                    )
+                    and self.tool_call_index == 0
+                ) and self.text_content_buffer:
+                    # First tool_call starts,
+                    # output previously collected text content first
+                    text_delta = DeltaMessage(content=self.text_content_buffer)
+                    self._emit_delta(text_delta)
+                    # Clear buffer for potential subsequent text content
+                    self.text_content_buffer = ""
+
+                # If a new tool_call starts and
+                # there are already completed tool_calls
+                if (
+                    preprocessed_element.strip().startswith("<tool_call>")
+                    and self.tool_call_index > 0
+                    and self.current_call_id
+                ):
+                    # Reset parser state but preserve generated deltas
+                    if self.current_param_name:
+                        self._end_element("parameter")
+                    if self.current_function_open or self.current_function_name:
+                        self._end_element("function")
+                    # Output final tool_call tail delta
+                    final_delta = DeltaMessage(
+                        role=None,
+                        content=None,
+                        reasoning=None,
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.tool_call_index - 1,
+                                id=self.current_call_id,
+                                type="function",
+                                function=DeltaFunctionCall(name=None, arguments=""),
+                            )
+                        ],
+                    )
+                    self._emit_delta(final_delta)
+                    # Reset XML parser and current call state
+                    self._reset_xml_parser_after_tool_call()
+                # Parse preprocessed element
+                self.parser.Parse(preprocessed_element, False)
+                found_any = True
+
+            except Exception as e:
+                logger.warning("Error when parsing XML elements: %s", e)
+
+            # Update processed position
+            self.last_processed_pos = end_pos
+
+        return found_any
+
+    def _should_skip_element(self, element: str) -> bool:
+        """
+        Determine whether an element should be skipped
+
+        Args:
+            element: Element to evaluate
+
+        Returns:
+            bool: True means should skip, False means should process
+        """
+
+        # If it's a tool_call XML tag, don't skip
+        if (
+            element.startswith(self.tool_call_start_token)
+            or element.startswith(self.function_start_token)
+            or element.startswith(self.parameter_start_token)
+        ):
+            return False
+
+        # If currently not parsing tool calls and not blank,
+        # collect this text instead of skipping
+        # Only process other XML elements after tool_call appears,
+        # otherwise treat as plain text
+        if self.current_call_id is None and element:
+            # Collect text content to buffer
+            self.text_content_buffer += element
+            return True  # Still skip, but content has been collected
+
+        # If currently parsing tool calls,
+        # this might be parameter value, don't skip
+        if self.current_call_id is not None:
+            return False
+
+        # Skip blank content
+        return not element
+
+    def _find_next_complete_element(self, start_pos: int) -> tuple[str | None, int]:
+        """
+        Find next complete XML element from specified position
+
+        Args:
+            start_pos: Position to start searching
+
+        Returns:
+            (Complete element string, element end position),
+            returns (None, start_pos) if no complete element found
+        """
+        buffer = self.streaming_buffer[start_pos:]
+
+        if not buffer:
+            return None, start_pos
+
+        if buffer.startswith("<"):
+            # Need to ensure no new < appears,
+            # find the nearest one between < and >
+            tag_end = buffer.find("<", 1)
+            tag_end2 = buffer.find(">", 1)
+            if tag_end != -1 and tag_end2 != -1:
+                # Next nearest is <
+                if tag_end < tag_end2:
+                    return buffer[:tag_end], start_pos + tag_end
+                # Next nearest is >, means found XML element
+                else:
+                    return buffer[: tag_end2 + 1], start_pos + tag_end2 + 1
+            elif tag_end != -1:
+                return buffer[:tag_end], start_pos + tag_end
+            elif tag_end2 != -1:
+                return buffer[: tag_end2 + 1], start_pos + tag_end2 + 1
+            else:
+                # If currently not parsing tool calls (entering a tool_call),
+                # check if starts with <tool_call> or <function=
+                if self.current_call_id is None:
+                    # Check if might be start of <tool_call>
+                    if buffer == "<tool_call>"[: len(buffer)]:
+                        # Might be start of <tool_call>, wait for more data
+                        return None, start_pos
+                    elif (
+                        buffer.startswith("<function=")
+                        or buffer == "<function="[: len(buffer)]
+                    ):
+                        # Might be start of <function=, wait for more data
+                        # to get the complete function tag
+                        return None, start_pos
+                    else:
+                        # Not start of <tool_call> or <function=, treat as text
+                        return buffer, start_pos + len(buffer)
+                else:
+                    # When parsing tool calls,
+                    # wait for more data to get complete tag
+                    return None, start_pos
+        else:
+            # Find text content (until next < or buffer end)
+            next_tag_pos = buffer.find("<")
+            if next_tag_pos != -1:
+                # Found text content
+                text_content = buffer[:next_tag_pos]
+                return text_content, start_pos + next_tag_pos
+            else:
+                # Buffer end is all text, process
+                # (no longer wait for more data)
+                remaining = buffer
+                return remaining, start_pos + len(remaining)
+
+    def _merge_new_deltas_to_single_response(self, initial_count: int) -> DeltaMessage:
+        """
+        Merge newly generated deltas from this processing
+        into a single DeltaMessage
+
+        Args:
+            initial_count: Delta count before processing
+
+        Returns:
+            Merged DeltaMessage containing all newly generated delta information
+        """
+        if len(self.deltas) <= initial_count:
+            return DeltaMessage(content=None)
+
+        # Get newly generated deltas
+        new_deltas = self.deltas[initial_count:]
+
+        if len(new_deltas) == 1:
+            # Only one new delta, return directly
+            return new_deltas[0]
+
+        # Merge multiple new deltas
+        merged_tool_calls: list[DeltaToolCall] = []
+        merged_content: str = ""
+
+        for delta in new_deltas:
+            if delta.content:
+                merged_content += delta.content
+            if delta.tool_calls:
+                # For tool_calls, we need to intelligently merge arguments
+                for tool_call in delta.tool_calls:
+                    # Find if there's already a tool_call with the same call_id
+                    existing_call = None
+                    for existing in merged_tool_calls:
+                        if existing.id == tool_call.id:
+                            existing_call = existing
+                            break
+
+                    if existing_call and existing_call.function:
+                        # Merge to existing tool_call
+                        if tool_call.function and tool_call.function.name:
+                            existing_call.function.name = tool_call.function.name
+                        if (
+                            tool_call.function
+                            and tool_call.function.arguments is not None
+                        ):
+                            if existing_call.function.arguments is None:
+                                existing_call.function.arguments = ""
+
+                            # For streaming JSON parameters,
+                            # simply concatenate in order
+                            new_args = tool_call.function.arguments
+                            existing_call.function.arguments += new_args
+                        if tool_call.type:
+                            existing_call.type = tool_call.type
+                    else:
+                        # Add new tool_call
+                        merged_tool_calls.append(tool_call)
+
+        return DeltaMessage(
+            content=merged_content if merged_content else None,
+            tool_calls=merged_tool_calls,
+        )
+
+    def _preprocess_xml_chunk(self, chunk: str) -> str:
+        """
+        Preprocess XML chunk, handle non-standard formats,
+        and escape special characters
+
+        Args:
+            chunk: Original XML chunk
+
+        Returns:
+            Processed XML chunk
+        """
+
+        # Check if this is a tool_call related element
+        is_tool_call = False
+        if chunk.startswith(self.tool_call_start_token) or chunk.startswith(
+            self.tool_call_end_token
+        ):
+            is_tool_call = True
+        if chunk.startswith(self.function_start_token) or chunk.startswith(
+            self.function_end_token
+        ):
+            is_tool_call = True
+        if chunk.startswith(self.parameter_start_token) or chunk.startswith(
+            self.parameter_end_token
+        ):
+            is_tool_call = True
+        # Handle <function=name> format -> <function name="name">
+        processed = re.sub(r"<function=([^>]+)>", r'<function name="\1">', chunk)
+        # Handle <parameter=name> format -> <parameter name="name">
+        processed = re.sub(r"<parameter=([^>]+)>", r'<parameter name="\1">', processed)
+
+        original_chunk = chunk
+        # If in parameter value accumulation mode
+        if self._pre_inside_parameter:
+            # Parameter end: output accumulated raw text
+            # safely then return </parameter>
+            if processed.startswith("</parameter>"):
+                body_text = self._pre_param_buffer
+                # Trigger deferred parsing mode
+                # literal_eval+json output in end_element
+                self.defer_current_parameter = True
+                self.deferred_param_raw_value = body_text
+                # Clean up state
+                self._pre_inside_parameter = False
+                self._pre_param_buffer = ""
+                self._pre_current_param_name = None
+                safe_text = self._escape_xml_special_chars(body_text)
+                return f"{safe_text}</parameter>"
+            else:
+                # If this is the first block of content after entering parameter
+                # evaluate if deferred parsing is needed;
+                # If not needed, exit accumulation mode
+                # and pass through directly
+                if self._pre_param_buffer == "":
+                    # Get current parameter type
+                    param_type = (
+                        self._get_param_type(self._pre_current_param_name)
+                        if self._pre_current_param_name
+                        else "string"
+                    )
+                    # Only these types need deferred parsing to
+                    # handle Python literals containing single quotes
+                    is_object_type = param_type in ["object"]
+                    is_complex_type = (
+                        param_type in ["array", "arr", "sequence"]
+                        or param_type.startswith("dict")
+                        or param_type.startswith("list")
+                    )
+
+                    # Only delay when contains container symbols
+                    # and has single quotes and is complex type
+                    has_container_hint = (
+                        ("[" in original_chunk)
+                        or ("{" in original_chunk)
+                        or ("(" in original_chunk)
+                    )
+
+                    # Determine if deferred parsing is needed
+                    need_defer = False
+                    if is_complex_type:
+                        # Complex type, always need deferred parsing
+                        need_defer = True
+                    elif (
+                        is_object_type
+                        and has_container_hint
+                        and ("'" in original_chunk)
+                    ):
+                        # Object type with container symbols
+                        # and single quotes, need deferred parsing
+                        need_defer = True
+
+                    if not need_defer:
+                        # No need for deferred parsing,
+                        # exit parameter mode directly
+                        self._pre_inside_parameter = False
+                        return self._escape_xml_special_chars(original_chunk)
+                self._pre_param_buffer += original_chunk
+                return ""
+
+        # Parameter start: enable accumulation
+        if processed.startswith("<parameter name="):
+            m = re.match(r'<parameter name="([^"]+)">', processed)
+            if m:
+                self._pre_current_param_name = m.group(1)
+            self._pre_inside_parameter = True
+            self._pre_param_buffer = ""
+            return processed
+
+        # If processed doesn't contain special_token, escape processed
+        # This is because XML parsing encounters special characters
+        # and reports errors, so escaping is needed
+        if not is_tool_call:
+            processed = self._escape_xml_special_chars(processed)
+        return processed
+
+    def _emit_delta(self, delta: DeltaMessage):
+        """Emit Delta response (streaming output)"""
+        self.deltas.append(delta)
+
+    def _auto_close_open_parameter_if_needed(self, incoming_tag: str | None = None):
+        """Before starting to process new elements,
+        if there are unclosed tags from before,
+        automatically complete their endings to the parser.
+        - If there are unclosed parameters,
+        it's equivalent to feeding `</parameter>`
+        - When about to start a new function or tool_call,
+        if there are unclosed functions, complete `</function>`.
+        - When about to start a new tool_call,
+        if there are unclosed tool_calls, complete `</tool_call>`.
+        """
+        # First close unclosed parameters
+        if self.current_param_name:
+            self._end_element("parameter")
+
+        # If about to start new function or tool_call,
+        # and there are unclosed functions, close function first
+        if incoming_tag in ("function", "tool_call") and self.current_function_name:
+            self._end_element("function")
+
+        # If about to start new tool_call,
+        # and there are unclosed tool_calls, close tool_call first
+        if incoming_tag == "tool_call" and self.current_call_id:
+            self._end_element("tool_call")
+
+    def _start_element(self, name: str, attrs: dict[str, str]):
+        """Handle XML start element events"""
+
+        if name == "root":
+            return
+
+        if name == "tool_call":
+            # Before opening new tool_call,
+            # automatically complete previous unclosed tags
+            self._auto_close_open_parameter_if_needed("tool_call")
+
+            self.parameters = {}
+            self.current_call_id = make_tool_call_id()
+            self.current_param_is_first = True
+            self.tool_call_index += 1
+        elif name.startswith("function") or (name == "function"):
+            # If missing tool_call, manually complete
+            if not self.current_call_id:
+                self._start_element("tool_call", {})
+            # Before opening new function,
+            # automatically complete previous unclosed tags (parameter/function)
+            self._auto_close_open_parameter_if_needed("function")
+            function_name = self._extract_function_name(name, attrs)
+            self.current_function_name = function_name
+            self.current_function_open = True
+            if function_name:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.tool_call_index - 1,
+                            id=self.current_call_id,
+                            type="function",
+                            function=DeltaFunctionCall(
+                                name=function_name, arguments=""
+                            ),
+                        )
+                    ]
+                )
+                self._emit_delta(delta)
+        elif name.startswith("parameter") or (name == "parameter"):
+            # If previous parameter hasn't ended normally,
+            # complete its end first, then start new parameter
+            self._auto_close_open_parameter_if_needed("parameter")
+            param_name = self._extract_parameter_name(name, attrs)
+            self.current_param_name = param_name
+            self.current_param_value = ""
+            self.current_param_value_converted = ""
+            self.start_quote_emitted = False  # Reset start quote flag
+
+            # Only output parameter name and colon,
+            # don't output quotes
+            # decide after parameter value type is determined
+            if param_name:
+                if not self.parameters:
+                    # First parameter
+                    # start JSON, only output parameter name and colon
+                    json_start = f'{{"{param_name}": '
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.tool_call_index - 1,
+                                id=self.current_call_id,
+                                type="function",
+                                function=DeltaFunctionCall(
+                                    name=None, arguments=json_start
+                                ),
+                            )
+                        ]
+                    )
+                    self._emit_delta(delta)
+                    self.current_param_is_first = True
+                else:
+                    # Subsequent parameters
+                    # add comma and parameter name, no quotes
+                    json_continue = f', "{param_name}": '
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.tool_call_index - 1,
+                                id=self.current_call_id,
+                                type="function",
+                                function=DeltaFunctionCall(
+                                    name=None, arguments=json_continue
+                                ),
+                            )
+                        ]
+                    )
+                    self._emit_delta(delta)
+                    self.current_param_is_first = False
+
+    def _char_data(self, data: str):
+        """Handle XML character data events"""
+        if data and self.current_param_name:
+            # If preprocessing stage determines deferred parsing is needed,
+            # only cache character data, no streaming output
+            if self.defer_current_parameter:
+                original_data = data
+                if self.should_emit_end_newline:
+                    original_data = "\n" + original_data
+                    self.should_emit_end_newline = False
+                if original_data.endswith("\n"):
+                    self.should_emit_end_newline = True
+                    original_data = original_data[:-1]
+                self.current_param_value += original_data
+                return
+
+            param_type = self._get_param_type(self.current_param_name)
+
+            # Check if this is the first time receiving data for this parameter
+            # If this is the first packet of data and starts with \n, remove \n
+            if not self.current_param_value and data.startswith("\n"):
+                data = data[1:]
+
+            # Output start quote for string type (if not already output)
+            if (
+                param_type in ["string", "str", "text", "varchar", "char", "enum"]
+                and not self.start_quote_emitted
+            ):
+                quote_delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.tool_call_index - 1,
+                            id=self.current_call_id,
+                            type="function",
+                            function=DeltaFunctionCall(name=None, arguments='"'),
+                        )
+                    ]
+                )
+                self._emit_delta(quote_delta)
+                self.start_quote_emitted = True
+
+            if not data:
+                return
+
+            original_data = data
+            # Delay output of trailing newline
+            if self.should_emit_end_newline:
+                original_data = "\n" + original_data
+                self.should_emit_end_newline = False
+            if original_data.endswith("\n"):
+                self.should_emit_end_newline = True
+                original_data = original_data[:-1]
+            self.current_param_value += original_data
+
+            # convert parameter value by param_type
+            converted_value = self._convert_param_value(
+                self.current_param_value, param_type
+            )
+            output_data = self._convert_for_json_streaming(converted_value, param_type)
+
+            delta_data = output_data[len(self.current_param_value_converted) :]
+            self.current_param_value_converted = output_data
+
+            delta = DeltaMessage(
+                tool_calls=[
+                    DeltaToolCall(
+                        index=self.tool_call_index - 1,
+                        id=self.current_call_id,
+                        type="function",
+                        function=DeltaFunctionCall(name=None, arguments=delta_data),
+                    )
+                ]
+            )
+            self._emit_delta(delta)
+
+    def _end_element(self, name: str):
+        """Handle XML end element events"""
+
+        if name == "root":
+            return
+
+        # If function or tool_call ends and there are still unclosed parameters,
+        # complete parameter end first
+        if (
+            name.startswith("function") or name == "function" or name == "tool_call"
+        ) and self.current_param_name:
+            self._auto_close_open_parameter_if_needed()
+
+        if (
+            name.startswith("parameter") or name == "parameter"
+        ) and self.current_param_name:
+            # End current parameter
+            param_name = self.current_param_name
+            param_value = self.current_param_value
+
+            # If in deferred parsing mode,
+            # perform overall parsing on raw content
+            # accumulated in preprocessing stage and output once
+            if self.defer_current_parameter:
+                raw_text = (
+                    self.deferred_param_raw_value
+                    if self.deferred_param_raw_value
+                    else param_value
+                )
+                parsed_value = None
+                output_arguments = None
+                try:
+                    # If previously delayed trailing newline,
+                    # add it back before parsing
+                    if self.should_emit_end_newline:
+                        raw_for_parse = raw_text + "\n"
+                    else:
+                        raw_for_parse = raw_text
+                    parsed_value = ast.literal_eval(raw_for_parse)
+                    output_arguments = json.dumps(parsed_value, ensure_ascii=False)
+                except Exception:
+                    # Fallback: output as string as-is
+                    output_arguments = json.dumps(raw_text, ensure_ascii=False)
+                    parsed_value = raw_text
+
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.tool_call_index - 1,
+                            id=self.current_call_id,
+                            type="function",
+                            function=DeltaFunctionCall(
+                                name=None, arguments=output_arguments
+                            ),
+                        )
+                    ]
+                )
+                self._emit_delta(delta)
+
+                # Clean up and store
+                self.should_emit_end_newline = False
+                self.parameters[param_name] = parsed_value
+                self.current_param_name = None
+                self.current_param_value = ""
+                self.current_param_value_converted = ""
+                self.start_quote_emitted = False
+                self.defer_current_parameter = False
+                self.deferred_param_raw_value = ""
+                return
+
+            param_type = self._get_param_type(param_name)
+
+            # convert complete parameter value by param_type
+            converted_value = self._convert_param_value(param_value, param_type)
+
+            # Decide whether to add end quote based on parameter type
+            if param_type in ["string", "str", "text", "varchar", "char", "enum"]:
+                # For empty string parameters, need special handling
+                if not param_value and not self.start_quote_emitted:
+                    # No start quote output,
+                    # directly output complete empty string
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.tool_call_index - 1,
+                                id=self.current_call_id,
+                                type="function",
+                                function=DeltaFunctionCall(name=None, arguments='""'),
+                            )
+                        ]
+                    )
+                    self._emit_delta(delta)
+                else:
+                    # Non-empty parameter value, output end quote
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.tool_call_index - 1,
+                                id=self.current_call_id,
+                                type="function",
+                                function=DeltaFunctionCall(name=None, arguments='"'),
+                            )
+                        ]
+                    )
+                    self._emit_delta(delta)
+
+            self.should_emit_end_newline = False
+            # Store converted value
+            self.parameters[param_name] = converted_value
+            self.current_param_name = None
+            self.current_param_value = ""
+            self.current_param_value_converted = ""
+            self.start_quote_emitted = False
+
+        elif name.startswith("function") or name == "function":
+            # if there are parameters, close JSON object
+            if self.parameters:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.tool_call_index - 1,
+                            id=self.current_call_id,
+                            type="function",
+                            function=DeltaFunctionCall(name=None, arguments="}"),
+                        )
+                    ]
+                )
+                self._emit_delta(delta)
+            # return empty object
+            else:
+                delta = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.tool_call_index - 1,
+                            id=self.current_call_id,
+                            type="function",
+                            function=DeltaFunctionCall(name=None, arguments="{}"),
+                        )
+                    ]
+                )
+                self._emit_delta(delta)
+            self.current_function_open = False
+
+        elif name == "tool_call":
+            # Before ending tool_call,
+            # ensure function is closed to complete missing right brace
+            if self.current_function_open:
+                # If there are still unclosed parameters, close them first
+                if self.current_param_name:
+                    self._end_element("parameter")
+                # Close function, ensure output '}' or '{}'
+                self._end_element("function")
+            # Final Delta
+            delta = DeltaMessage(
+                tool_calls=[
+                    DeltaToolCall(
+                        index=self.tool_call_index - 1,
+                        id=self.current_call_id,
+                        type="function",
+                        function=DeltaFunctionCall(name=None, arguments=""),
+                    )
+                ]
+            )
+            self._emit_delta(delta)
+
+            # Check if there's text content to output (between tool_calls)
+            if self.text_content_buffer.strip():
+                text_delta = DeltaMessage(content=self.text_content_buffer)
+                self._emit_delta(text_delta)
+
+            self._reset_xml_parser_after_tool_call()
+
+    def setup_parser(self):
+        """Set up XML parser event handlers"""
+        self.parser.buffer_text = True
+        self.parser.StartElementHandler = self._start_element
+        self.parser.EndElementHandler = self._end_element
+        self.parser.CharacterDataHandler = self._char_data
+
+    def set_tools(self, tools: list[ChatCompletionToolsParam] | None):
+        """Set tool configuration information"""
+        self.tools = tools
+
+    def _extract_function_name(self, name: str, attrs: dict[str, str]) -> str | None:
+        """Extract function name from various formats"""
+        if attrs and "name" in attrs:
+            return attrs["name"]
+
+        if "=" in name:
+            parts = name.split("=", 1)
+            if len(parts) == 2 and parts[0] == "function":
+                return parts[1]
+
+        return None
+
+    def _extract_parameter_name(self, name: str, attrs: dict[str, str]) -> str | None:
+        """Extract parameter name from various formats"""
+        if attrs and "name" in attrs:
+            return attrs["name"]
+
+        if "=" in name:
+            parts = name.split("=", 1)
+            if len(parts) == 2 and parts[0] == "parameter":
+                return parts[1]
+
+        return None
+
+    def _get_param_type(self, param_name: str) -> str:
+        """Get parameter type based on tool configuration, defaults to string
+        Args:
+            param_name: Parameter name
+
+        Returns:
+            Parameter type
+        """
+        if not self.tools or not self.current_function_name:
+            return "string"
+
+        for tool in self.tools:
+            if not hasattr(tool, "type") or not (
+                hasattr(tool, "function") and hasattr(tool.function, "name")
+            ):
+                continue
+            if (
+                tool.type == "function"
+                and tool.function.name == self.current_function_name
+            ):
+                if not hasattr(tool.function, "parameters"):
+                    return "string"
+                params = tool.function.parameters
+                if isinstance(params, dict) and "properties" in params:
+                    properties = params["properties"]
+                    if param_name in properties and isinstance(
+                        properties[param_name], dict
+                    ):
+                        return self.repair_param_type(
+                            str(properties[param_name].get("type", "string"))
+                        )
+                elif isinstance(params, dict) and param_name in params:
+                    param_config = params[param_name]
+                    if isinstance(param_config, dict):
+                        return self.repair_param_type(
+                            str(param_config.get("type", "string"))
+                        )
+                break
+        return "string"
+
+    def repair_param_type(self, param_type: str) -> str:
+        """Repair unknown parameter types by treating them as string
+        Args:
+            param_type: Parameter type
+
+        Returns:
+            Repaired parameter type
+        """
+        if (
+            param_type in ["string", "str", "text", "varchar", "char", "enum"]
+            or param_type.startswith("int")
+            or param_type.startswith("uint")
+            or param_type.startswith("long")
+            or param_type.startswith("short")
+            or param_type.startswith("unsigned")
+            or param_type.startswith("num")
+            or param_type.startswith("float")
+            or param_type in ["boolean", "bool", "binary"]
+            or (
+                param_type in ["object", "array", "arr", "sequence"]
+                or param_type.startswith("dict")
+                or param_type.startswith("list")
+            )
+        ):
+            return param_type
+        else:
+            return "string"
+
+    def _convert_param_value(self, param_value: str, param_type: str) -> Any:
+        """Convert value based on parameter type
+        Args:
+            param_value: Parameter value
+            param_type: Parameter type
+
+        Returns:
+            Converted value
+        """
+        if param_value.lower() == "null":
+            return None
+
+        param_type = param_type.strip().lower()
+        if param_type in ["string", "str", "text", "varchar", "char", "enum"]:
+            return param_value
+        elif (
+            param_type.startswith("int")
+            or param_type.startswith("uint")
+            or param_type.startswith("long")
+            or param_type.startswith("short")
+            or param_type.startswith("unsigned")
+        ):
+            try:
+                return int(param_value)
+            except (ValueError, TypeError):
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' is not an integer "
+                    "in tool '%s', degenerating to string.",
+                    param_value,
+                )
+            return param_value
+        elif param_type.startswith("num") or param_type.startswith("float"):
+            try:
+                float_param_value: float = float(param_value)
+                return (
+                    float_param_value
+                    if float_param_value - int(float_param_value) != 0
+                    else int(float_param_value)
+                )
+            except (ValueError, TypeError):
+                logger.warning(
+                    "Parsed value '%s' of parameter '%s' is not a float "
+                    "in tool '%s', degenerating to string.",
+                    param_value,
+                )
+            return param_value
+        elif param_type in ["boolean", "bool", "binary"]:
+            param_value = param_value.lower()
+            return param_value == "true"
+        else:
+            return param_value
+
+    def _convert_for_json_streaming(self, converted_value: Any, param_type: str) -> str:
+        """Convert converted_value based on
+        whether it's empty and if type is string
+        Args:
+            converted_value: Converted value
+            param_type: Parameter type
+
+        Returns:
+            Converted string for streaming output
+        """
+        # Check if value is empty, but exclude numeric 0
+        if converted_value is None or converted_value == "":
+            return ""
+
+        if param_type in ["string", "str", "text", "varchar", "char", "enum"]:
+            # String type, remove double quotes
+            return json.dumps(converted_value, ensure_ascii=False)[1:-1]
+        else:
+            # Non-string type, return complete JSON string
+            if not isinstance(converted_value, str):
+                return json.dumps(converted_value, ensure_ascii=False)
+            else:
+                return converted_value
+
+    def _reset_xml_parser_after_tool_call(self):
+        """
+        Each tool_call is treated as a separate XML document,
+        so we need to reset the parser after each tool_call.
+        """
+
+        # recreate XML parser
+        self.parser = ParserCreate()
+        self.setup_parser()
+
+        # Reset current tool_call state
+        if self.current_call_id:
+            self.last_completed_call_id = self.current_call_id
+        self.current_call_id = None
+        self.current_function_name = None
+        self.current_function_open = False
+        self.parameters = {}
+        self.current_param_name = None
+        self.current_param_value = ""
+        self.current_param_value_converted = ""
+        self.current_param_is_first = False
+        self.should_emit_end_newline = False
+        self.start_quote_emitted = False
+        self.text_content_buffer = ""
+
+        # Reset preprocessing and deferred parsing state
+        self._pre_inside_parameter = False
+        self._pre_param_buffer = ""
+        self._pre_current_param_name = None
+        self.defer_current_parameter = False
+        self.deferred_param_raw_value = ""
+
+
+class Qwen3XMLToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        self.parser = StreamingXMLToolCallParser()
+
+        # Add missing attributes for compatibility with serving_chat.py
+        self.prev_tool_call_arr: list[dict] = []
+        self.streamed_args_for_tool: list[str] = []
+
+        logger.info(
+            "vLLM Successfully import tool parser %s !", self.__class__.__name__
+        )
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        self.parser.reset_streaming_state()
+        # Reset tool call tracking arrays for new extraction
+        self.prev_tool_call_arr = []
+        self.streamed_args_for_tool = []
+        if request:
+            self.parser.set_tools(request.tools)
+        result = self.parser.parse_single_streaming_chunks(model_output)
+        if not result.tool_calls:
+            return ExtractedToolCallInformation(
+                tool_calls=[],
+                tools_called=False,
+                content=result.content,
+            )
+        else:
+            tool_calls = []
+            for tool_call in result.tool_calls:
+                if tool_call.function and tool_call.function.name:
+                    tool_calls.append(
+                        ToolCall(
+                            id=tool_call.id,
+                            type=tool_call.type,
+                            function=FunctionCall(
+                                name=tool_call.function.name,
+                                arguments=tool_call.function.arguments,
+                            ),
+                        )
+                    )
+
+                    # Update tool call tracking arrays for compatibility
+                    tool_index = (
+                        tool_call.index
+                        if tool_call.index is not None
+                        else len(self.prev_tool_call_arr) - 1
+                    )
+
+                    # Ensure we have enough entries in our tracking arrays
+                    while len(self.prev_tool_call_arr) <= tool_index:
+                        self.prev_tool_call_arr.append({"name": "", "arguments": ""})
+                    while len(self.streamed_args_for_tool) <= tool_index:
+                        self.streamed_args_for_tool.append("")
+
+                    # Update tool call information
+                    self.prev_tool_call_arr[tool_index]["name"] = (
+                        tool_call.function.name
+                    )
+                    self.prev_tool_call_arr[tool_index]["arguments"] = (
+                        tool_call.function.arguments
+                    )
+
+                    # Update streamed arguments
+                    if tool_call.function.arguments:
+                        self.streamed_args_for_tool[tool_index] = (
+                            tool_call.function.arguments
+                        )
+
+            return ExtractedToolCallInformation(
+                tool_calls=tool_calls,
+                tools_called=len(tool_calls) > 0,
+                content=result.content,
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        if not previous_text:
+            self.parser.reset_streaming_state()
+            # Reset tool call tracking arrays for new streaming session
+            self.prev_tool_call_arr = []
+            self.streamed_args_for_tool = []
+            if request:
+                self.parser.set_tools(request.tools)
+
+        # Model sometimes outputs separately causing delta_text to be empty.
+        # If there were tool_calls before and all current tool_calls have ended,
+        # return an empty tool_call for outer streaming output
+        # to correctly output tool_call field
+        if not delta_text and delta_token_ids:
+            open_calls = current_text.count(
+                self.parser.tool_call_start_token
+            ) - current_text.count(self.parser.tool_call_end_token)
+            if (
+                open_calls == 0
+                and self.parser.tool_call_index > 0
+                or not self.parser.tool_call_index
+                and current_text
+            ):
+                return DeltaMessage(content="")
+            return None
+
+        # Parse the delta text and get the result
+        result = self.parser.parse_single_streaming_chunks(delta_text)
+
+        # Update tool call tracking arrays based on incremental parsing results
+        if result and result.tool_calls:
+            for tool_call in result.tool_calls:
+                if tool_call.function:
+                    tool_index = (
+                        tool_call.index
+                        if tool_call.index is not None
+                        else len(self.prev_tool_call_arr) - 1
+                    )
+
+                    # Ensure we have enough entries in our tracking arrays
+                    while len(self.prev_tool_call_arr) <= tool_index:
+                        self.prev_tool_call_arr.append({"name": "", "arguments": ""})
+                    while len(self.streamed_args_for_tool) <= tool_index:
+                        self.streamed_args_for_tool.append("")
+
+                    # Update tool name if provided
+                    if tool_call.function.name:
+                        self.prev_tool_call_arr[tool_index]["name"] = (
+                            tool_call.function.name
+                        )
+
+                    # Update arguments incrementally
+                    if tool_call.function.arguments is not None:
+                        # Concatenate the incremental arguments
+                        # to the existing streamed arguments
+                        self.prev_tool_call_arr[tool_index]["arguments"] += (
+                            tool_call.function.arguments
+                        )
+                        self.streamed_args_for_tool[tool_index] += (
+                            tool_call.function.arguments
+                        )
+        return result
diff --git a/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py b/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
new file mode 100644
index 0000000..8aed7f0
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
@@ -0,0 +1,744 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from qwen3coder xml parser, All rights reserved.
+# ruff: noqa: E501
+
+import ast
+import json
+import uuid
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionToolsParam,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class SeedOssToolParser(ToolParser):
+    TOOL_CALL_START = "<seed:tool_call>"
+    TOOL_CALL_END = "</seed:tool_call>"
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        # --- streaming state ---
+        self._reset_streaming_state()
+        self.prev_tool_call_arr: list[dict] = []
+
+        self.tool_call_start_token: str = self.TOOL_CALL_START
+        self.tool_call_end_token: str = self.TOOL_CALL_END
+        # Sentinel tokens for streaming mode
+        self.tool_call_prefix: str = "<function="
+        self.function_end_token: str = "</function>"
+        self.parameter_prefix: str = "<parameter="
+        self.parameter_end_token: str = "</parameter>"
+        self.think_start_token: str = "<seed:think>"
+        self.think_end_token: str = "</seed:think>"
+        self.is_tool_call_started: bool = False
+        self.is_thinking_end: bool = False
+        self.failed_count: int = 0
+        self._reset_streaming_state()
+
+        self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+        self.think_end_token_id = self.vocab.get(self.think_end_token)
+
+        if self.tool_call_start_token_id is None or self.tool_call_end_token_id is None:
+            raise RuntimeError(
+                "Seed_Oss XML parser: tokenizer did not include "
+                "<seed:tool_call> or its closing tag."
+            )
+
+        tool_start_re = re.escape(self.tool_call_start_token)
+        tool_end_re = re.escape(self.tool_call_end_token)
+
+        self.tool_call_complete_regex = re.compile(
+            rf"{tool_start_re}(.*?){tool_end_re}", re.DOTALL
+        )
+        self.tool_call_regex = re.compile(
+            rf"{tool_start_re}(.*?){tool_end_re}|{tool_start_re}(.*?)$", re.DOTALL
+        )
+
+        self.tool_call_function_regex = re.compile(
+            r"<function=(.*?)</function>|<function=(.*)$", re.DOTALL
+        )
+        self.tool_call_parameter_regex = re.compile(
+            r"<parameter=(.*?)</parameter>|<parameter=(.*?)$", re.DOTALL
+        )
+
+        logger.info(
+            "vLLM Seed-Oss XML tool parser loaded (%s).", self.__class__.__name__
+        )
+
+    def _generate_tool_call_id(self) -> str:
+        """Generate a unique tool call ID."""
+        return f"call_{uuid.uuid4().hex[:24]}"
+
+    def _reset_streaming_state(self):
+        """Reset all streaming state."""
+        self.current_tool_index = 0
+        self.is_tool_call_started = False
+        self.header_sent = False
+        self.current_tool_id = -1
+        self.current_function_name = None
+        self.current_param_name = None
+        self.current_param_value = ""
+        self.param_count = 0
+        self.in_param = False
+        self.in_function = False
+        self.accumulated_text = ""
+        self.json_started = False
+        self.json_closed = False
+
+    def _parse_xml_function_call(
+        self, function_call_str: str, tools: list[ChatCompletionToolsParam] | None
+    ) -> ToolCall | None:
+        def get_arguments_config(func_name: str) -> dict:
+            if tools is None:
+                return {}
+            for config in tools:
+                if not hasattr(config, "type") or not (
+                    hasattr(config, "function") and hasattr(config.function, "name")
+                ):
+                    continue
+                if config.type == "function" and config.function.name == func_name:
+                    if not hasattr(config.function, "parameters"):
+                        return {}
+                    params = config.function.parameters
+                    if isinstance(params, dict) and "properties" in params:
+                        return params["properties"]
+                    elif isinstance(params, dict):
+                        return params
+                    else:
+                        return {}
+            logger.warning("Tool '%s' is not defined in the tools list.", func_name)
+            return {}
+
+        def convert_param_value(
+            param_value: str, param_name: str, param_config: dict, func_name: str
+        ) -> Any:
+            # Handle null value for any type
+            if param_value.lower() == "null":
+                return None
+
+            if param_name not in param_config:
+                if param_config != {}:
+                    logger.warning(
+                        "Parsed parameter '%s' is not defined in "
+                        "the tool parameters for tool '%s', "
+                        "directly returning the string value.",
+                        param_name,
+                        func_name,
+                    )
+                return param_value
+
+            if (
+                isinstance(param_config[param_name], dict)
+                and "type" in param_config[param_name]
+            ):
+                param_type = str(param_config[param_name]["type"]).strip().lower()
+            else:
+                param_type = "string"
+            if param_type in ["string", "str", "text", "varchar", "char", "enum"]:
+                return param_value
+            elif (
+                param_type.startswith("int")
+                or param_type.startswith("uint")
+                or param_type.startswith("long")
+                or param_type.startswith("short")
+                or param_type.startswith("unsigned")
+            ):
+                try:
+                    param_value = int(param_value)  # type: ignore
+                except (ValueError, TypeError):
+                    logger.warning(
+                        "Parsed value '%s' of parameter '%s' is not an integer in tool "
+                        "'%s', degenerating to string.",
+                        param_value,
+                        param_name,
+                        func_name,
+                    )
+                return param_value
+            elif param_type.startswith("num") or param_type.startswith("float"):
+                try:
+                    float_param_value = float(param_value)
+                    param_value = (
+                        float_param_value  # type: ignore
+                        if float_param_value - int(float_param_value) != 0
+                        else int(float_param_value)  # type: ignore
+                    )
+                except (ValueError, TypeError):
+                    logger.warning(
+                        "Parsed value '%s' of parameter '%s' is not a float in tool "
+                        "'%s', degenerating to string.",
+                        param_value,
+                        param_name,
+                        func_name,
+                    )
+                return param_value
+            elif param_type in ["boolean", "bool", "binary"]:
+                param_value = param_value.lower()
+                if param_value not in ["true", "false"]:
+                    logger.warning(
+                        "Parsed value '%s' of parameter '%s' is not a boolean "
+                        "(`true` of `false`) in tool '%s', degenerating to false.",
+                        param_value,
+                        param_name,
+                        func_name,
+                    )
+                return param_value == "true"
+            else:
+                if param_type == "object" or param_type.startswith("dict"):
+                    try:
+                        param_value = json.loads(param_value)
+                        return param_value
+                    except (ValueError, TypeError, json.JSONDecodeError):
+                        logger.warning(
+                            "Parsed value '%s' of parameter '%s' is not a valid JSON "
+                            "object in tool '%s', will try other methods to parse it.",
+                            param_value,
+                            param_name,
+                            func_name,
+                        )
+                try:
+                    param_value = ast.literal_eval(param_value)
+                except (ValueError, SyntaxError):
+                    logger.warning(
+                        "Parsed value '%s' of parameter '%s' cannot be converted via "
+                        "Python `ast.literal_eval()` in tool '%s', degenerating to string.",
+                        param_value,
+                        param_name,
+                        func_name,
+                    )
+                return param_value
+
+        # Extract function name
+        end_index = function_call_str.index(">")
+        function_name = function_call_str[:end_index]
+        param_config = get_arguments_config(function_name)
+        parameters = function_call_str[end_index + 1 :]
+        param_dict = {}
+        for match in self.tool_call_parameter_regex.findall(parameters):
+            match_text = match[0] if match[0] else match[1]
+            idx = match_text.index(">")
+            param_name = match_text[:idx]
+            param_value = str(match_text[idx + 1 :])
+            # Remove prefix and trailing \n
+            if param_value.startswith("\n"):
+                param_value = param_value[1:]
+            if param_value.endswith("\n"):
+                param_value = param_value[:-1]
+
+            param_dict[param_name] = convert_param_value(
+                param_value, param_name, param_config, function_name
+            )
+        return ToolCall(
+            type="function",
+            function=FunctionCall(
+                name=function_name, arguments=json.dumps(param_dict, ensure_ascii=False)
+            ),
+        )
+
+    def _get_function_calls(self, model_output: str) -> list[str]:
+        # Find all tool calls
+        matched_ranges = self.tool_call_regex.findall(model_output)
+        raw_tool_calls = [
+            match[0] if match[0] else match[1] for match in matched_ranges
+        ]
+
+        # Back-off strategy if no tool_call tags found
+        if len(raw_tool_calls) == 0:
+            raw_tool_calls = [model_output]
+
+        raw_function_calls = []
+        for tool_call in raw_tool_calls:
+            raw_function_calls.extend(self.tool_call_function_regex.findall(tool_call))
+
+        function_calls = [
+            match[0] if match[0] else match[1] for match in raw_function_calls
+        ]
+        return function_calls
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        # Quick check to avoid unnecessary processing
+        if self.tool_call_prefix not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        # Check if both think start and end tokens are present
+        if (
+            self.think_start_token in model_output
+            and self.think_end_token in model_output
+        ):
+            # Find the position of think end token
+            think_end_index = model_output.find(self.think_end_token) + len(
+                self.think_end_token
+            )
+            # Extract content after think end token
+            result_content = model_output[think_end_index:]
+            thinking_content = model_output[:think_end_index]
+        else:
+            thinking_content = ""
+            result_content = model_output
+
+        try:
+            function_calls = self._get_function_calls(result_content)
+            if len(function_calls) == 0:
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=model_output
+                )
+
+            tool_calls = [
+                self._parse_xml_function_call(function_call_str, request.tools)
+                for function_call_str in function_calls
+            ]
+
+            # Populate prev_tool_call_arr for serving layer to set finish_reason
+            self.prev_tool_call_arr.clear()  # Clear previous calls
+            for tool_call in tool_calls:
+                if tool_call:
+                    self.prev_tool_call_arr.append(
+                        {
+                            "name": tool_call.function.name,
+                            "arguments": tool_call.function.arguments,
+                        }
+                    )
+
+            # Extract content before tool calls
+            tool_call_start_index = result_content.find(self.tool_call_start_token)
+            tool_call_start_index = (
+                tool_call_start_index
+                if tool_call_start_index >= 0
+                else result_content.find(self.tool_call_prefix)
+            )
+            content = thinking_content + result_content[:tool_call_start_index]
+
+            return ExtractedToolCallInformation(
+                tools_called=(len(tool_calls) > 0),
+                tool_calls=tool_calls,
+                content=content if content else None,
+            )
+
+        except Exception:
+            logger.exception("Error in extracting tool call from response.")
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # If no delta text, return None unless
+        # it's an EOS token after tool calls
+        if not delta_text:
+            # Check if this is an EOS token after all tool calls are complete
+            # We check for tool calls in the text even if is_tool_call_started
+            # is False because it might have been reset after processing all tools
+            if delta_token_ids and self.tool_call_end_token_id not in delta_token_ids:
+                # Count complete tool calls
+                complete_calls = len(
+                    self.tool_call_complete_regex.findall(current_text)
+                )
+
+                # If we have completed tool calls and populated prev_tool_call_arr
+                if complete_calls > 0 and len(self.prev_tool_call_arr) > 0:
+                    # Check if all tool calls are closed
+                    open_calls = current_text.count(
+                        self.tool_call_start_token
+                    ) - current_text.count(self.tool_call_end_token)
+                    if open_calls == 0:
+                        # Return empty delta message to allow finish_reason processing
+                        return DeltaMessage(content="")
+                elif not self.is_tool_call_started and current_text:
+                    # This is a regular content response that's now complete
+                    return DeltaMessage(content="")
+            return None
+
+        # Check if this is the first call (reset state if needed)
+        if not previous_text:
+            self._reset_streaming_state()
+
+        # Update accumulated text
+        self.accumulated_text = current_text
+
+        # Check if we need to advance to next tool
+        if self.json_closed and not self.in_function:
+            # Check if this tool call has ended
+            tool_ends = current_text.count(self.tool_call_end_token)
+            if tool_ends > self.current_tool_index:
+                # This tool has ended, advance to next
+                self.current_tool_index += 1
+                self.header_sent = False
+                self.param_count = 0
+                self.json_started = False
+                self.json_closed = False
+
+                # Check if there are more tool calls
+                if self.current_tool_index >= current_text.count(
+                    self.tool_call_start_token
+                ):
+                    # No more tool calls
+                    self.is_tool_call_started = False
+                # Continue processing next tool
+                return None
+
+        # Check if end thinking
+        if not self.is_thinking_end and (
+            self.think_end_token_id in delta_token_ids
+            or self.think_end_token in delta_text
+        ):
+            self.is_thinking_end = True
+
+        # If thinking hasn't ended yet, don't process any tool calls
+        if not self.is_thinking_end:
+            return DeltaMessage(content=delta_text)
+
+        # Handle normal content before tool calls
+        if not self.is_tool_call_started:
+            # Check if tool call is starting
+            if (
+                self.tool_call_start_token_id in delta_token_ids
+                or self.tool_call_start_token in delta_text
+            ):
+                self.is_tool_call_started = True
+                # Return any content before the tool call
+                if self.tool_call_start_token in delta_text:
+                    content_before = delta_text[
+                        : delta_text.index(self.tool_call_start_token)
+                    ]
+                    if content_before:
+                        return DeltaMessage(content=content_before)
+                return None
+            else:
+                # Check if we're between tool calls - skip whitespace
+                if (
+                    current_text.rstrip().endswith(self.tool_call_end_token)
+                    and delta_text.strip() == ""
+                ):
+                    # We just ended a tool call, skip whitespace
+                    return None
+                # Normal content, no tool call
+                return DeltaMessage(content=delta_text)
+
+        # Check if we're between tool calls (waiting for next one)
+        # Count tool calls we've seen vs processed
+        tool_starts_count = current_text.count(self.tool_call_start_token)
+        if self.current_tool_index >= tool_starts_count:
+            # We're past all tool calls, shouldn't be here
+            return None
+
+        # We're in a tool call, find the current tool call portion
+        # Need to find the correct tool call based on current_tool_index
+        # Only process tool calls after think_end_token
+        think_end_index = (
+            current_text.find(self.think_end_token) + len(self.think_end_token)
+            if self.think_end_token in current_text
+            else 0
+        )
+        tool_starts: list[int] = []
+        idx = think_end_index
+        while True:
+            idx = current_text.find(self.tool_call_start_token, idx)
+            if idx == -1:
+                break
+            tool_starts.append(idx)
+            idx += len(self.tool_call_start_token)
+
+        if self.current_tool_index >= len(tool_starts):
+            # No more tool calls to process yet
+            return None
+
+        tool_start_idx = tool_starts[self.current_tool_index]
+        # Find where this tool call ends (or current position if not ended yet)
+        tool_end_idx = current_text.find(self.tool_call_end_token, tool_start_idx)
+        if tool_end_idx == -1:
+            tool_text = current_text[tool_start_idx:]
+        else:
+            tool_text = current_text[
+                tool_start_idx : tool_end_idx + len(self.tool_call_end_token)
+            ]
+
+        # Looking for function header
+        if not self.header_sent:
+            if self.tool_call_prefix in tool_text:
+                func_start = tool_text.find(self.tool_call_prefix) + len(
+                    self.tool_call_prefix
+                )
+                func_end = tool_text.find(">", func_start)
+
+                if func_end != -1:
+                    # Found complete function name
+                    self.current_function_name = tool_text[func_start:func_end]
+                    self.current_tool_id = self._generate_tool_call_id()  # type: ignore
+                    self.header_sent = True
+                    self.in_function = True
+
+                    # IMPORTANT: Add to prev_tool_call_arr immediately when we detect a tool call
+                    # This ensures finish_reason="tool_calls" even if parsing isn't complete
+                    already_added = any(
+                        tool.get("name") == self.current_function_name
+                        for tool in self.prev_tool_call_arr
+                    )
+                    if not already_added:
+                        self.prev_tool_call_arr.append(
+                            {
+                                "name": self.current_function_name,
+                                "arguments": "{}",  # Placeholder, will be updated later
+                            }
+                        )
+
+                    # Send header with function info
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                id=self.current_tool_id,
+                                function=DeltaFunctionCall(
+                                    name=self.current_function_name, arguments=""
+                                ),
+                                type="function",
+                            )
+                        ]
+                    )
+            return None
+
+        # We've sent header, now handle function body
+        if self.in_function:
+            # Send opening brace if not sent yet
+            if not self.json_started and self.parameter_prefix not in delta_text:
+                self.json_started = True
+                return DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_index,
+                            function=DeltaFunctionCall(arguments="{"),
+                        )
+                    ]
+                )
+
+            # Make sure json_started is set if we're processing parameters
+            if not self.json_started:
+                self.json_started = True
+
+            # Check for function end in accumulated text
+            if not self.json_closed and self.function_end_token in tool_text:
+                # Close JSON
+                self.json_closed = True
+
+                # Extract the complete tool call to update prev_tool_call_arr with final arguments
+                # Find the function content
+                func_start = tool_text.find(self.tool_call_prefix) + len(
+                    self.tool_call_prefix
+                )
+                func_content_end = tool_text.find(self.function_end_token, func_start)
+                if func_content_end != -1:
+                    func_content = tool_text[func_start:func_content_end]
+                    # Parse to get the complete arguments
+                    try:
+                        parsed_tool = self._parse_xml_function_call(
+                            func_content, request.tools if request else None
+                        )
+                        if parsed_tool:
+                            # Update existing entry in prev_tool_call_arr with complete arguments
+                            for i, tool in enumerate(self.prev_tool_call_arr):
+                                if tool.get("name") == parsed_tool.function.name:
+                                    self.prev_tool_call_arr[i]["arguments"] = (
+                                        parsed_tool.function.arguments
+                                    )
+                                    break
+                    except Exception:
+                        logger.warning(
+                            "Failed to parse tool arguments during streaming.",
+                            exc_info=True,
+                        )
+
+                result = DeltaMessage(
+                    tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_index,
+                            function=DeltaFunctionCall(arguments="}"),
+                        )
+                    ]
+                )
+
+                # Reset state for next tool
+                self.in_function = False
+                self.json_closed = True
+
+                return result
+
+            # Look for parameters
+            # Count how many complete parameters we have processed
+            complete_params = tool_text.count(self.parameter_end_token)
+
+            # Check if we should start a new parameter
+            if not self.in_param and self.param_count < complete_params:
+                # Find the unprocessed parameter
+                # Count parameter starts
+                param_starts = []
+                idx = 0
+                while True:
+                    idx = tool_text.find(self.parameter_prefix, idx)
+                    if idx == -1:
+                        break
+                    param_starts.append(idx)
+                    idx += len(self.parameter_prefix)
+
+                if len(param_starts) > self.param_count:
+                    # Process the next parameter
+                    param_idx = param_starts[self.param_count]
+                    param_start = param_idx + len(self.parameter_prefix)
+                    remaining = tool_text[param_start:]
+
+                    if ">" in remaining:
+                        # We have the complete parameter name
+                        name_end = remaining.find(">")
+                        self.current_param_name = remaining[:name_end]
+
+                        # Find the parameter value
+                        value_start = param_start + name_end + 1
+                        value_text = tool_text[value_start:]
+                        if value_text.startswith("\n"):
+                            value_text = value_text[1:]
+
+                        # Find where this parameter ends
+                        param_end_idx = value_text.find(self.parameter_end_token)
+                        if param_end_idx != -1:
+                            # Complete parameter found
+                            param_value = value_text[:param_end_idx]
+                            if param_value.endswith("\n"):
+                                param_value = param_value[:-1]
+
+                            # Build complete JSON fragment for this parameter
+                            if self.param_count == 0:
+                                json_fragment = (
+                                    '"'
+                                    + self.current_param_name
+                                    + '": "'
+                                    + json.dumps(param_value)[1:-1]
+                                    + '"'
+                                )
+                            else:
+                                json_fragment = (
+                                    ', "'
+                                    + self.current_param_name
+                                    + '": "'
+                                    + json.dumps(param_value)[1:-1]
+                                    + '"'
+                                )
+
+                            self.param_count += 1
+
+                            return DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=self.current_tool_index,
+                                        function=DeltaFunctionCall(
+                                            arguments=json_fragment
+                                        ),
+                                    )
+                                ]
+                            )
+
+            # Continue parameter value
+            if self.in_param:
+                if self.parameter_end_token in delta_text:
+                    # End of parameter
+                    end_idx = delta_text.find(self.parameter_end_token)
+                    value_chunk = delta_text[:end_idx]
+
+                    # Skip past > if at start
+                    if not self.current_param_value and ">" in value_chunk:
+                        gt_idx = value_chunk.find(">")
+                        value_chunk = value_chunk[gt_idx + 1 :]
+
+                    if not self.current_param_value and value_chunk.startswith("\n"):
+                        value_chunk = value_chunk[1:]
+
+                    # Calculate incremental JSON
+                    full_value = self.current_param_value + value_chunk
+                    prev_escaped = (
+                        json.dumps(self.current_param_value)[1:-1]
+                        if self.current_param_value
+                        else ""
+                    )
+                    full_escaped = json.dumps(full_value)[1:-1]
+                    delta_escaped = full_escaped[len(prev_escaped) :]
+
+                    self.in_param = False
+                    self.current_param_value = ""
+
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_index,
+                                function=DeltaFunctionCall(
+                                    arguments=delta_escaped + '"'
+                                ),
+                            )
+                        ]
+                    )
+                else:
+                    # Continue accumulating value
+                    value_chunk = delta_text
+
+                    # Handle first chunk after param name
+                    if not self.current_param_value and ">" in value_chunk:
+                        gt_idx = value_chunk.find(">")
+                        value_chunk = value_chunk[gt_idx + 1 :]
+
+                    if not self.current_param_value and value_chunk.startswith("\n"):
+                        value_chunk = value_chunk[1:]
+
+                    if value_chunk:
+                        # Stream the escaped delta
+                        prev_escaped = (
+                            json.dumps(self.current_param_value)[1:-1]
+                            if self.current_param_value
+                            else ""
+                        )
+                        self.current_param_value += value_chunk
+                        full_escaped = json.dumps(self.current_param_value)[1:-1]
+                        delta_escaped = full_escaped[len(prev_escaped) :]
+
+                        if delta_escaped:
+                            return DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=self.current_tool_index,
+                                        function=DeltaFunctionCall(
+                                            arguments=delta_escaped
+                                        ),
+                                    )
+                                ]
+                            )
+
+        return None
diff --git a/entrypoints/openai/tool_parsers/step3_tool_parser.py b/entrypoints/openai/tool_parsers/step3_tool_parser.py
new file mode 100644
index 0000000..adcb9f4
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/step3_tool_parser.py
@@ -0,0 +1,303 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import json
+from collections.abc import Sequence
+from typing import Any
+
+import regex as re
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import random_uuid
+
+logger = init_logger(__name__)
+
+
+class Step3ToolParser(ToolParser):
+    """
+    Tool parser for a model that uses a specific XML-like format for tool calls.
+    This version uses a robust, stateful, cursor-based streaming parser and
+    consolidates tool arguments into a single message.
+    """
+
+    TOOL_CALLS_BEGIN = "<｜tool_calls_begin｜>"
+    TOOL_CALLS_END = "<｜tool_calls_end｜>"
+    TOOL_CALL_BEGIN = "<｜tool_call_begin｜>"
+    TOOL_CALL_END = "<｜tool_call_end｜>"
+    TOOL_SEP = "<｜tool_sep｜>"
+    SPECIAL_TOKENS = [TOOL_CALLS_BEGIN, TOOL_CALLS_END, TOOL_CALL_BEGIN, TOOL_CALL_END]
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+        self.position = 0
+        # Explicit state flags for robust streaming
+        self.tool_block_started = False
+        self.tool_block_finished = False
+
+    def adjust_request(self, request: ChatCompletionRequest) -> ChatCompletionRequest:
+        request = super().adjust_request(request)
+        if request.tools and request.tool_choice != "none":
+            request.skip_special_tokens = False
+        return request
+
+    @staticmethod
+    def _parse_steptml_invoke(
+        action_text: str,
+    ) -> tuple[str | None, dict[str, str] | None]:
+        func_name_match = re.search(r'<steptml:invoke name="([^"]+)">', action_text)
+        if not func_name_match:
+            return None, None
+        func_name = func_name_match.group(1)
+
+        params: dict[str, str] = {}
+        param_matches = re.findall(
+            r'<steptml:parameter name="([^"]+)">([^<]*)</steptml:parameter>',
+            action_text,
+        )
+        for name, value in param_matches:
+            params[name] = value.strip()
+        return func_name, params
+
+    def _cast_arguments(
+        self,
+        func_name: str,
+        params: dict[str, Any],
+        request: ChatCompletionRequest,
+    ) -> dict[str, Any]:
+        for tool in request.tools or []:
+            if tool.function.name == func_name:
+                schema = tool.function.parameters or {}
+                properties = schema.get("properties", {})
+                for key, value in params.items():
+                    if not isinstance(value, str):
+                        continue
+                    prop = properties.get(key, {})
+                    typ = prop.get("type")
+                    if typ == "string":
+                        params[key] = value.strip()
+                    elif typ == "integer":
+                        with contextlib.suppress(ValueError):
+                            params[key] = int(value)
+                    elif typ == "number":
+                        with contextlib.suppress(ValueError):
+                            params[key] = float(value)
+                    elif typ == "boolean":
+                        lower_val = value.lower()
+                        params[key] = (
+                            lower_val == "true"
+                            if lower_val in ("true", "false")
+                            else value
+                        )
+                    elif typ == "null":
+                        params[key] = None if value.lower() == "null" else value
+                break
+        return params
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> DeltaMessage | None:
+        # The main loop processes the stream from the last known position.
+        while True:
+            if self.position >= len(current_text):
+                return None  # We've processed the entire stream.
+
+            unprocessed_text = current_text[self.position :]
+
+            # STATE: After all tools are done, all subsequent text is content.
+            if self.tool_block_finished:
+                self.position = len(current_text)
+                return DeltaMessage(content=unprocessed_text)
+
+            # STATE: Before the tool block has started.
+            if not self.tool_block_started:
+                if unprocessed_text.startswith(self.TOOL_CALLS_BEGIN):
+                    self.position += len(self.TOOL_CALLS_BEGIN)
+                    self.tool_block_started = True
+                    continue  # Token consumed, re-loop.
+
+                start_pos = unprocessed_text.find(self.TOOL_CALLS_BEGIN)
+                if start_pos == -1:
+                    if (
+                        self.TOOL_CALLS_BEGIN.startswith(unprocessed_text.strip())
+                        and unprocessed_text
+                    ):
+                        return None  # It's a prefix, wait.
+                    self.position = len(current_text)
+                    return DeltaMessage(content=unprocessed_text)
+                else:
+                    content = unprocessed_text[:start_pos]
+                    self.position += len(content)
+                    return DeltaMessage(content=content)
+
+            # STATE: Inside the main tool block.
+            offset = len(unprocessed_text) - len(unprocessed_text.lstrip())
+            unprocessed_text = unprocessed_text.lstrip()
+            self.position += offset
+
+            if unprocessed_text.startswith(self.TOOL_CALLS_END):
+                self.position += len(self.TOOL_CALLS_END)
+                self.tool_block_finished = True
+                self.current_tool_id = -1
+                continue
+
+            # Check if we are between tool calls.
+            tool_finished = self.current_tool_id != -1 and self.prev_tool_call_arr[
+                self.current_tool_id
+            ].get("finished")
+            if self.current_tool_id == -1 or tool_finished:
+                if unprocessed_text.startswith(self.TOOL_CALL_BEGIN):
+                    self.position += len(self.TOOL_CALL_BEGIN)
+                    if self.current_tool_id == -1:
+                        self.current_tool_id = 0
+                    else:
+                        self.current_tool_id += 1
+                    self.current_tool_name_sent = False
+                    while len(self.prev_tool_call_arr) <= self.current_tool_id:
+                        self.prev_tool_call_arr.append({})
+                    self.prev_tool_call_arr[self.current_tool_id]["finished"] = False
+                    continue
+
+                if self.TOOL_CALL_BEGIN.startswith(unprocessed_text):
+                    return None
+
+            # STATE: Parsing an active tool call.
+            if self.current_tool_id != -1 and not self.prev_tool_call_arr[
+                self.current_tool_id
+            ].get("finished", False):
+                end_tool_pos = unprocessed_text.find(self.TOOL_CALL_END)
+                if end_tool_pos == -1:
+                    tool_body = unprocessed_text
+                else:
+                    tool_body = unprocessed_text[:end_tool_pos]
+
+                if end_tool_pos == -1 and self.TOOL_CALL_END.startswith(tool_body):
+                    return None
+
+                function_name, arguments = self._parse_steptml_invoke(tool_body)
+                if not function_name:
+                    return None
+
+                tool_call_arr = {"name": function_name, "parameters": arguments or {}}
+
+                # Send the function name as soon as it's parsed.
+                if not self.current_tool_name_sent:
+                    self.current_tool_name_sent = True
+                    self.prev_tool_call_arr[self.current_tool_id].update(tool_call_arr)
+                    return DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=self.current_tool_id,
+                                type="function",
+                                id=f"chatcmpl-tool-{random_uuid()}",
+                                function=DeltaFunctionCall(name=function_name),
+                            )
+                        ]
+                    )
+
+                # Update our internal state with the latest parsed arguments.
+                self.prev_tool_call_arr[self.current_tool_id].update(  # noqa: E501
+                    tool_call_arr
+                )
+
+                # Only send arguments when the tool call is complete.
+                if end_tool_pos != -1:
+                    self.position += end_tool_pos + len(self.TOOL_CALL_END)
+                    self.prev_tool_call_arr[self.current_tool_id]["finished"] = True
+
+                    final_args = self._cast_arguments(
+                        function_name,
+                        tool_call_arr.get("parameters", {}),  # type: ignore
+                        request,
+                    )
+                    if final_args:
+                        final_args_json = json.dumps(final_args, ensure_ascii=False)
+                        return DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=self.current_tool_id,
+                                    function=DeltaFunctionCall(
+                                        arguments=final_args_json
+                                    ),
+                                )
+                            ]
+                        )
+
+                # If tool is not finished, return None to wait for more tokens.
+                return None
+
+            return None
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+        if self.TOOL_CALLS_BEGIN not in model_output:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        pre_text, rest = model_output.split(self.TOOL_CALLS_BEGIN, 1)
+        if self.TOOL_CALLS_END not in rest:
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+        tool_block, post_text = rest.split(self.TOOL_CALLS_END, 1)
+        content = (pre_text + post_text).strip()
+
+        tool_calls: list[ToolCall] = []
+        call_parts = tool_block.split(self.TOOL_CALL_BEGIN)
+
+        for part in call_parts:
+            if not part or self.TOOL_CALL_END not in part:
+                continue
+
+            call_content = part.split(self.TOOL_CALL_END, 1)[0]
+            if self.TOOL_SEP not in call_content:
+                continue
+
+            type_part, invoke_part = call_content.split(self.TOOL_SEP, 1)
+            if type_part.strip() != "function":
+                continue
+
+            function_name, params_dict = self._parse_steptml_invoke(invoke_part)
+
+            if function_name and params_dict is not None:
+                params_dict = self._cast_arguments(function_name, params_dict, request)
+                params_str = json.dumps(params_dict, ensure_ascii=False)
+                tool_calls.append(
+                    ToolCall(
+                        function=FunctionCall(name=function_name, arguments=params_str)
+                    )
+                )
+        if tool_calls:
+            return ExtractedToolCallInformation(
+                tools_called=True,
+                tool_calls=tool_calls,
+                content=content if content else None,
+            )
+        return ExtractedToolCallInformation(
+            tools_called=False, tool_calls=[], content=model_output
+        )
diff --git a/entrypoints/openai/tool_parsers/utils.py b/entrypoints/openai/tool_parsers/utils.py
new file mode 100644
index 0000000..570eb44
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/utils.py
@@ -0,0 +1,229 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from json import JSONDecodeError, JSONDecoder
+from typing import Any
+
+import partial_json_parser
+from openai.types.responses import (
+    FunctionTool,
+    ToolChoiceFunction,
+)
+from openai.types.responses.tool import Tool
+from partial_json_parser.core.options import Allow
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionNamedToolChoiceParam,
+    ChatCompletionToolsParam,
+)
+
+
+def find_common_prefix(s1: str, s2: str) -> str:
+    """
+    Finds a common prefix that is shared between two strings, if there is one.
+    Order of arguments is NOT important.
+
+    This function is provided as a UTILITY for extracting information from JSON
+    generated by partial_json_parser, to help in ensuring that the right tokens
+    are returned in streaming, so that close-quotes, close-brackets and
+    close-braces are not returned prematurely.
+
+    e.g. find_common_prefix('{"fruit": "ap"}', '{"fruit": "apple"}') ->
+    '{"fruit": "ap'
+    """
+    prefix = ""
+    min_length = min(len(s1), len(s2))
+    for i in range(0, min_length):
+        if s1[i] == s2[i]:
+            prefix += s1[i]
+        else:
+            break
+    return prefix
+
+
+def find_common_suffix(s1: str, s2: str) -> str:
+    """
+    Finds a common suffix shared between two strings, if there is one. Order of
+    arguments is NOT important.
+    Stops when the suffix ends OR it hits an alphanumeric character
+
+    e.g. find_common_suffix('{"fruit": "ap"}', '{"fruit": "apple"}') -> '"}'
+    """
+    suffix = ""
+    min_length = min(len(s1), len(s2))
+    for i in range(1, min_length + 1):
+        if s1[-i] == s2[-i] and not s1[-i].isalnum():
+            suffix = s1[-i] + suffix
+        else:
+            break
+    return suffix
+
+
+def extract_intermediate_diff(curr: str, old: str) -> str:
+    """
+    Given two strings, extract the difference in the middle between two strings
+    that are known to have a common prefix and/or suffix.
+
+    This function is provided as a UTILITY for extracting information from JSON
+    generated by partial_json_parser, to help in ensuring that the right tokens
+    are returned in streaming, so that close-quotes, close-brackets and
+    close-braces are not returned prematurely. The order of arguments IS
+    important - the new version of the partially-parsed JSON must be the first
+    argument, and the secnod argument must be from the previous generation.
+
+    What it returns, is tokens that should be streamed to the client.
+
+    e.g. extract_intermediate_diff('{"fruit": "apple"}', '{"fruit": "ap"}')
+        -> 'ple'
+
+    """
+    suffix = find_common_suffix(curr, old)
+
+    old = old[::-1].replace(suffix[::-1], "", 1)[::-1]
+    prefix = find_common_prefix(curr, old)
+    diff = curr
+    if len(suffix):
+        diff = diff[::-1].replace(suffix[::-1], "", 1)[::-1]
+
+    if len(prefix):
+        # replace the prefix only once in case it's mirrored
+        diff = diff.replace(prefix, "", 1)
+
+    return diff
+
+
+def find_all_indices(string: str, substring: str) -> list[int]:
+    """
+    Find all (starting) indices of a substring in a given string. Useful for
+    tool call extraction
+    """
+    indices = []
+    index = -1
+    while True:
+        index = string.find(substring, index + 1)
+        if index == -1:
+            break
+        indices.append(index)
+    return indices
+
+
+# partial_json_parser doesn't support extra data and
+# JSONDecoder.raw_decode doesn't support partial JSON
+def partial_json_loads(input_str: str, flags: Allow) -> tuple[Any, int]:
+    try:
+        return (partial_json_parser.loads(input_str, flags), len(input_str))
+    except JSONDecodeError as e:
+        if "Extra data" in e.msg:
+            dec = JSONDecoder()
+            return dec.raw_decode(input_str)
+        raise
+
+
+def is_complete_json(input_str: str) -> bool:
+    try:
+        json.loads(input_str)
+        return True
+    except JSONDecodeError:
+        return False
+
+
+def consume_space(i: int, s: str) -> int:
+    while i < len(s) and s[i].isspace():
+        i += 1
+    return i
+
+
+def _extract_tool_info(
+    tool: Tool | ChatCompletionToolsParam,
+) -> tuple[str, dict[str, Any] | None]:
+    if isinstance(tool, FunctionTool):
+        return tool.name, tool.parameters
+    elif isinstance(tool, ChatCompletionToolsParam):
+        return tool.function.name, tool.function.parameters
+    else:
+        raise TypeError(f"Unsupported tool type: {type(tool)}")
+
+
+def _get_tool_schema_from_tool(tool: Tool | ChatCompletionToolsParam) -> dict:
+    name, params = _extract_tool_info(tool)
+    params = params if params else {"type": "object", "properties": {}}
+    return {
+        "properties": {
+            "name": {"type": "string", "enum": [name]},
+            "parameters": params,
+        },
+        "required": ["name", "parameters"],
+    }
+
+
+def _get_tool_schema_defs(
+    tools: list[Tool | ChatCompletionToolsParam],
+) -> dict:
+    all_defs: dict[str, dict[str, Any]] = {}
+    for tool in tools:
+        _, params = _extract_tool_info(tool)
+        if params is None:
+            continue
+        defs = params.pop("$defs", {})
+        for def_name, def_schema in defs.items():
+            if def_name in all_defs and all_defs[def_name] != def_schema:
+                raise ValueError(
+                    f"Tool definition '{def_name}' has multiple schemas, "
+                    "which is not supported."
+                )
+            all_defs[def_name] = def_schema
+    return all_defs
+
+
+def _get_json_schema_from_tools(
+    tools: list[Tool | ChatCompletionToolsParam],
+) -> dict:
+    json_schema = {
+        "type": "array",
+        "minItems": 1,
+        "items": {
+            "type": "object",
+            "anyOf": [_get_tool_schema_from_tool(tool) for tool in tools],
+        },
+    }
+    json_schema_defs = _get_tool_schema_defs(tools)
+    if json_schema_defs:
+        json_schema["$defs"] = json_schema_defs
+    return json_schema
+
+
+def get_json_schema_from_tools(
+    tool_choice: str | ToolChoiceFunction | ChatCompletionNamedToolChoiceParam,
+    tools: list[FunctionTool | ChatCompletionToolsParam] | None,
+) -> str | dict | None:
+    # tool_choice: "none"
+    if tool_choice in ("none", None) or tools is None:
+        return None
+    # tool_choice: Forced Function (Responses)
+    if (not isinstance(tool_choice, str)) and isinstance(
+        tool_choice, ToolChoiceFunction
+    ):
+        tool_name = tool_choice.name
+        tool_map = {tool.name: tool for tool in tools if isinstance(tool, FunctionTool)}
+        if tool_name not in tool_map:
+            raise ValueError(f"Tool '{tool_name}' has not been passed in `tools`.")
+        return tool_map[tool_name].parameters
+    # tool_choice: Forced Function (ChatCompletion)
+    if (not isinstance(tool_choice, str)) and isinstance(
+        tool_choice, ChatCompletionNamedToolChoiceParam
+    ):
+        tool_name = tool_choice.function.name
+        tool_map = {
+            tool.function.name: tool
+            for tool in tools
+            if isinstance(tool, ChatCompletionToolsParam)
+        }
+        if tool_name not in tool_map:
+            raise ValueError(f"Tool '{tool_name}' has not been passed in `tools`.")
+        return tool_map[tool_name].function.parameters
+    # tool_choice: "required"
+    if tool_choice == "required":
+        return _get_json_schema_from_tools(tools)
+    # tool_choice: "auto"
+    return None
diff --git a/entrypoints/openai/tool_parsers/xlam_tool_parser.py b/entrypoints/openai/tool_parsers/xlam_tool_parser.py
new file mode 100644
index 0000000..9d308af
--- /dev/null
+++ b/entrypoints/openai/tool_parsers/xlam_tool_parser.py
@@ -0,0 +1,556 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa
+import json
+from collections.abc import Sequence
+from typing import Any, Optional, Union
+
+import regex as re
+
+from vllm.entrypoints.chat_utils import make_tool_call_id
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+    ExtractedToolCallInformation,
+    FunctionCall,
+    ToolCall,
+)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import random_uuid
+
+logger = init_logger(__name__)
+
+
+class xLAMToolParser(ToolParser):
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        # Initialize state for streaming mode
+        self.prev_tool_calls: list[dict] = []
+        self.current_tool_id = -1
+        self.current_tool_name_sent = False
+        self.streamed_args: list[str] = []  # Track arguments sent for each tool
+
+        # For backward compatibility with tests
+        self.current_tools_sent: list[bool] = []
+
+        # For backward compatibility with serving code
+        self.prev_tool_call_arr = []
+
+        # Regex patterns for preprocessing
+        self.json_code_block_patterns = [
+            r"```(?:json)?\s*([\s\S]*?)```",
+            r"\[TOOL_CALLS\]([\s\S]*?)(?=\n|$)",
+            r"<tool_call>([\s\S]*?)</tool_call>",
+        ]
+        self.thinking_tag_pattern = r"</think>([\s\S]*)"
+
+        # Define streaming state type to be initialized later
+        self.streaming_state: dict[str, Any] = {
+            "current_tool_index": -1,
+            "tool_ids": [],
+            "sent_tools": [],
+        }
+
+    def preprocess_model_output(
+        self, model_output: str
+    ) -> tuple[Optional[str], Optional[str]]:
+        """
+        Preprocess the model output to extract content and potential tool calls.
+        Returns:
+            Tuple of (content, potential_tool_calls_json)
+        """
+        # Check for thinking tag
+        thinking_match = re.search(self.thinking_tag_pattern, model_output)
+        if thinking_match:
+            content = model_output[: thinking_match.start() + len("</think>")].strip()
+            thinking_content = thinking_match.group(1).strip()
+
+            # Try to parse the thinking content as JSON
+            try:
+                json.loads(thinking_content)
+                return content, thinking_content
+            except json.JSONDecodeError:
+                # If can't parse as JSON, look for JSON code blocks
+                for json_pattern in self.json_code_block_patterns:
+                    json_matches = re.findall(json_pattern, thinking_content)
+                    if json_matches:
+                        for json_str in json_matches:
+                            try:
+                                json.loads(json_str)
+                                return content, json_str
+                            except json.JSONDecodeError:
+                                continue
+
+        # Check for JSON code blocks in the entire output
+        for json_pattern in self.json_code_block_patterns:
+            json_matches = re.findall(json_pattern, model_output)
+            if json_matches:
+                for json_str in json_matches:
+                    try:
+                        json.loads(json_str)
+                        # Extract content by removing the JSON code block
+                        content = re.sub(json_pattern, "", model_output).strip()
+                        return content, json_str
+                    except json.JSONDecodeError:
+                        continue
+
+        # If the entire output is a valid JSON array or looks like one, treat it as tool calls
+        if model_output.strip().startswith("["):
+            try:
+                json.loads(model_output)
+                return None, model_output
+            except json.JSONDecodeError:
+                # Even if it's not valid JSON yet, it might be a tool call in progress
+                if (
+                    "{" in model_output
+                    and "name" in model_output
+                    and "arguments" in model_output
+                ):
+                    return None, model_output
+
+        # If no tool calls found, return the original output as content
+        return model_output, None
+
+    def extract_tool_calls(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> ExtractedToolCallInformation:
+        """
+        Extract tool calls from a complete model output.
+        """
+        try:
+            # Preprocess the model output
+            content, potential_tool_calls = self.preprocess_model_output(model_output)
+
+            if not potential_tool_calls:
+                return ExtractedToolCallInformation(
+                    tools_called=False, tool_calls=[], content=content
+                )
+
+            # Parse the potential tool calls as JSON
+            tool_calls_data = json.loads(potential_tool_calls)
+
+            # Ensure it's an array
+            if not isinstance(tool_calls_data, list):
+                logger.debug("Tool calls data is not an array")
+                return ExtractedToolCallInformation(
+                    tools_called=False,
+                    tool_calls=[],
+                    content=content or model_output,
+                )
+
+            tool_calls: list[ToolCall] = []
+
+            for idx, call in enumerate(tool_calls_data):
+                if (
+                    not isinstance(call, dict)
+                    or "name" not in call
+                    or "arguments" not in call
+                ):
+                    logger.debug("Invalid tool call format at index %d", idx)
+                    continue
+
+                tool_call = ToolCall(
+                    id=f"call_{idx}_{random_uuid()}",
+                    type="function",
+                    function=FunctionCall(
+                        name=call["name"],
+                        arguments=(
+                            json.dumps(call["arguments"])
+                            if isinstance(call["arguments"], dict)
+                            else call["arguments"]
+                        ),
+                    ),
+                )
+                tool_calls.append(tool_call)
+
+            return ExtractedToolCallInformation(
+                tools_called=len(tool_calls) > 0,
+                tool_calls=tool_calls,
+                content=content,
+            )
+
+        except Exception as e:
+            logger.exception("Error extracting tool calls: %s", str(e))
+            return ExtractedToolCallInformation(
+                tools_called=False, tool_calls=[], content=model_output
+            )
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> Union[DeltaMessage, None]:
+        """
+        Extract tool calls for streaming mode.
+        """
+        # First, check for a definitive start of a tool call block.
+        # This prevents premature parsing of incomplete output.
+        stripped_text = current_text.strip()
+        preprocessed_content, preprocessed_tool_calls = self.preprocess_model_output(
+            current_text
+        )
+
+        # For JSON code blocks, we need to detect them earlier, even if incomplete
+        has_potential_json_block = (
+            "```json" in current_text
+            or "```\n[" in current_text
+            or "[TOOL_CALLS]" in current_text
+            or "<tool_call>" in current_text
+        )
+
+        is_tool_call_block = (
+            stripped_text.startswith("[")
+            or stripped_text.startswith("<tool_call>")
+            or stripped_text.startswith("[TOOL_CALLS]")
+            or
+            # Check if we have thinking tags with JSON-like content following
+            ("</think>[" in current_text)
+            or
+            # Check if the text contains a JSON array after preprocessing
+            preprocessed_tool_calls is not None
+            or
+            # For JSON code blocks, detect early if we see enough structure
+            (
+                has_potential_json_block
+                and '"name"' in current_text
+                and '"arguments"' in current_text
+            )
+        )
+
+        if not is_tool_call_block:
+            return DeltaMessage(content=delta_text)
+
+        try:
+            # Initialize streaming state if not exists
+            if not hasattr(self, "streaming_state"):
+                self.streaming_state = {
+                    "current_tool_index": -1,
+                    "tool_ids": [],
+                    "sent_tools": [],  # Track complete state of each tool
+                }
+
+            # Try parsing as JSON to check for complete tool calls
+            try:
+                # Use preprocessed tool calls if available
+                tool_calls_text = (
+                    preprocessed_tool_calls if preprocessed_tool_calls else current_text
+                )
+                parsed_tools = json.loads(tool_calls_text)
+                if isinstance(parsed_tools, list):
+                    # Update our tool array for next time
+                    self.prev_tool_call_arr = parsed_tools
+            except json.JSONDecodeError:
+                # Not complete JSON yet, use regex for partial parsing
+                pass
+
+            # Check for test-specific state setup (current_tools_sent)
+            # This handles the case where tests manually set current_tools_sent
+            if (
+                hasattr(self, "current_tools_sent")  # type: ignore
+                and len(self.current_tools_sent) > 0
+            ):
+                # If current_tools_sent is set to [False], it means the test wants us to send the name
+                if (
+                    len(self.current_tools_sent) == 1
+                    and self.current_tools_sent[0] is False
+                ):
+                    # Extract the function name using regex
+                    name_pattern = r'"name"\s*:\s*"([^"]+)"'
+                    name_match = re.search(name_pattern, current_text)
+                    if name_match:
+                        function_name = name_match.group(1)
+
+                        # The test expects us to send just the name first
+                        tool_id = make_tool_call_id()
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=0,
+                                    type="function",
+                                    id=tool_id,
+                                    function=DeltaFunctionCall(
+                                        name=function_name
+                                    ).model_dump(exclude_none=True),  # type: ignore
+                                )
+                            ]
+                        )
+                        # Update state to reflect that we've sent the name
+                        self.current_tools_sent = [True]
+                        self.current_tool_id = 0
+                        self.streaming_state["current_tool_index"] = 0
+                        if len(self.streaming_state["sent_tools"]) == 0:
+                            self.streaming_state["sent_tools"].append(
+                                {
+                                    "sent_name": True,
+                                    "sent_arguments_prefix": False,
+                                    "sent_arguments": "",
+                                }
+                            )
+                        else:
+                            self.streaming_state["sent_tools"][0]["sent_name"] = True
+                        self.current_tool_name_sent = True
+                        return delta
+
+            # Use regex to identify tool calls in the output
+            # Use preprocessed tool calls text for better parsing, but also try to extract from incomplete JSON blocks
+            search_text = (
+                preprocessed_tool_calls if preprocessed_tool_calls else current_text
+            )
+
+            # For JSON code blocks that aren't complete yet, try to extract the JSON content
+            if not preprocessed_tool_calls and has_potential_json_block:
+                # Try to extract the JSON array from within the code block
+                json_match = re.search(
+                    r"```(?:json)?\s*([\s\S]*?)(?:```|$)", current_text
+                )
+                if json_match:
+                    potential_json = json_match.group(1).strip()
+                    # Use this as search text even if it's incomplete
+                    if potential_json.startswith("[") and (
+                        '"name"' in potential_json and '"arguments"' in potential_json
+                    ):
+                        search_text = potential_json
+
+            # Try to find complete tool names first
+            name_pattern = r'"name"\s*:\s*"([^"]+)"'
+            name_matches = list(re.finditer(name_pattern, search_text))
+            tool_count = len(name_matches)
+
+            # If no complete tool names found, check for partial tool names
+            if tool_count == 0:
+                # Check if we're in the middle of parsing a tool name
+                partial_name_pattern = r'"name"\s*:\s*"([^"]*)'
+                partial_matches = list(re.finditer(partial_name_pattern, search_text))
+                if partial_matches:
+                    # We have a partial tool name - not ready to emit yet
+                    return None
+                else:
+                    # No tools found at all
+                    return None
+
+            # Ensure our state arrays are large enough
+            while len(self.streaming_state["sent_tools"]) < tool_count:
+                self.streaming_state["sent_tools"].append(
+                    {
+                        "sent_name": False,
+                        "sent_arguments_prefix": False,
+                        "sent_arguments": "",
+                    }
+                )
+
+            while len(self.streaming_state["tool_ids"]) < tool_count:
+                self.streaming_state["tool_ids"].append(None)
+
+            # Determine if we need to move to a new tool
+            current_idx = self.streaming_state["current_tool_index"]
+
+            # If we haven't processed any tool yet or current tool is complete, move to next
+            if current_idx == -1 or current_idx < tool_count - 1:
+                next_idx = current_idx + 1
+
+                # If tool at next_idx has not been sent yet
+                if (
+                    next_idx < tool_count
+                    and not self.streaming_state["sent_tools"][next_idx]["sent_name"]
+                ):
+                    # Update indexes
+                    self.streaming_state["current_tool_index"] = next_idx
+                    self.current_tool_id = next_idx  # For backward compatibility
+                    current_idx = next_idx
+
+                    # Extract the tool name
+                    tool_name = name_matches[current_idx].group(1)
+
+                    # Generate ID and send tool name
+                    tool_id = f"call_{current_idx}_{random_uuid()}"
+                    self.streaming_state["tool_ids"][current_idx] = tool_id
+
+                    delta = DeltaMessage(
+                        tool_calls=[
+                            DeltaToolCall(
+                                index=current_idx,
+                                type="function",
+                                id=tool_id,
+                                function=DeltaFunctionCall(name=tool_name).model_dump(
+                                    exclude_none=True
+                                ),  # type: ignore
+                            )
+                        ]
+                    )
+                    self.streaming_state["sent_tools"][current_idx]["sent_name"] = True
+                    self.current_tool_name_sent = True  # For backward compatibility
+
+                    # Keep track of streamed args for backward compatibility
+                    while len(self.streamed_args) <= current_idx:
+                        self.streamed_args.append("")
+
+                    return delta
+
+            # Process arguments for the current tool
+            if current_idx >= 0 and current_idx < tool_count:
+                # Support both regular and empty argument objects
+                # First, check for the empty arguments case: "arguments": {}
+                empty_args_pattern = (
+                    r'"name"\s*:\s*"[^"]+"\s*,\s*"arguments"\s*:\s*\{\s*\}'
+                )
+                empty_args_match = re.search(empty_args_pattern, search_text)
+
+                # Check if this tool has empty arguments
+                if empty_args_match and empty_args_match.start() > 0:
+                    # Find which tool this empty arguments belongs to
+                    empty_args_tool_idx = 0
+                    for i in range(tool_count):
+                        if i == current_idx:
+                            # If this is our current tool and it has empty arguments
+                            if not self.streaming_state["sent_tools"][current_idx][
+                                "sent_arguments_prefix"
+                            ]:
+                                # Send empty object
+                                self.streaming_state["sent_tools"][current_idx][
+                                    "sent_arguments_prefix"
+                                ] = True
+                                self.streaming_state["sent_tools"][current_idx][
+                                    "sent_arguments"
+                                ] = "{}"
+
+                                # Update streamed_args for backward compatibility
+                                while len(self.streamed_args) <= current_idx:
+                                    self.streamed_args.append("")
+                                self.streamed_args[current_idx] += "{}"
+
+                                delta = DeltaMessage(
+                                    tool_calls=[
+                                        DeltaToolCall(
+                                            index=current_idx,
+                                            function=DeltaFunctionCall(
+                                                arguments="{}"
+                                            ).model_dump(exclude_none=True),  # type: ignore
+                                        )
+                                    ]
+                                )
+
+                                # Move to next tool if available
+                                if current_idx < tool_count - 1:
+                                    self.streaming_state["current_tool_index"] += 1
+                                    self.current_tool_id = self.streaming_state[
+                                        "current_tool_index"
+                                    ]
+
+                                return delta
+
+                # Extract arguments for current tool using regex for non-empty arguments
+                args_pattern = r'"name"\s*:\s*"[^"]+"\s*,\s*"arguments"\s*:\s*(\{(?:[^{}]|(?:\{[^{}]*\}))*\})'
+                args_matches = list(re.finditer(args_pattern, search_text))
+
+                if current_idx < len(args_matches):
+                    args_text = args_matches[current_idx].group(1)
+
+                    # Handle transition between tools
+                    is_last_tool = current_idx == tool_count - 1
+
+                    # For multiple tools, extract only the arguments for the current tool
+                    if tool_count > 1:
+                        # Parse the entire JSON structure to properly extract arguments for each tool
+                        try:
+                            parsed_tools = json.loads(search_text)
+                            if isinstance(parsed_tools, list) and current_idx < len(
+                                parsed_tools
+                            ):
+                                current_tool = parsed_tools[current_idx]
+                                if isinstance(current_tool.get("arguments"), dict):
+                                    args_text = json.dumps(current_tool["arguments"])
+                                else:
+                                    args_text = str(current_tool.get("arguments", "{}"))
+                        except (json.JSONDecodeError, KeyError, IndexError):
+                            # Fallback to regex-based extraction
+                            pass
+
+                    # If arguments haven't been sent yet
+                    sent_args = self.streaming_state["sent_tools"][current_idx][
+                        "sent_arguments"
+                    ]
+
+                    # If we haven't sent the opening bracket yet
+                    if not self.streaming_state["sent_tools"][current_idx][
+                        "sent_arguments_prefix"
+                    ] and args_text.startswith("{"):
+                        self.streaming_state["sent_tools"][current_idx][
+                            "sent_arguments_prefix"
+                        ] = True
+                        self.streaming_state["sent_tools"][current_idx][
+                            "sent_arguments"
+                        ] = "{"
+
+                        # Update streamed_args for backward compatibility
+                        while len(self.streamed_args) <= current_idx:
+                            self.streamed_args.append("")
+                        self.streamed_args[current_idx] += "{"
+
+                        delta = DeltaMessage(
+                            tool_calls=[
+                                DeltaToolCall(
+                                    index=current_idx,
+                                    function=DeltaFunctionCall(
+                                        arguments="{"
+                                    ).model_dump(exclude_none=True),  # type: ignore
+                                )
+                            ]
+                        )
+                        return delta
+
+                    # If we need to send more arguments
+                    if args_text.startswith(sent_args):
+                        # Calculate what part of arguments we need to send
+                        args_diff = args_text[len(sent_args) :]
+
+                        if args_diff:
+                            # Update our state
+                            self.streaming_state["sent_tools"][current_idx][
+                                "sent_arguments"
+                            ] = args_text
+
+                            # Update streamed_args for backward compatibility
+                            while len(self.streamed_args) <= current_idx:
+                                self.streamed_args.append("")
+                            self.streamed_args[current_idx] += args_diff
+
+                            delta = DeltaMessage(
+                                tool_calls=[
+                                    DeltaToolCall(
+                                        index=current_idx,
+                                        function=DeltaFunctionCall(
+                                            arguments=args_diff
+                                        ).model_dump(exclude_none=True),  # type: ignore
+                                    )
+                                ]
+                            )
+                            return delta
+
+                    # If the tool's arguments are complete, check if we need to move to the next tool
+                    if args_text.endswith("}") and args_text == sent_args:
+                        # This tool is complete, move to the next one in the next iteration
+                        if current_idx < tool_count - 1:
+                            self.streaming_state["current_tool_index"] += 1
+                            self.current_tool_id = self.streaming_state[
+                                "current_tool_index"
+                            ]  # For compatibility
+
+            # If we got here, we couldn't determine what to stream next
+            return None
+
+        except Exception as e:
+            logger.exception(f"Error in streaming tool calls: {e}")
+            # If we encounter an error, just return the delta text as regular content
+            return DeltaMessage(content=delta_text)
diff --git a/entrypoints/renderer.py b/entrypoints/renderer.py
new file mode 100644
index 0000000..3c5a396
--- /dev/null
+++ b/entrypoints/renderer.py
@@ -0,0 +1,409 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import io
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+from typing import Annotated
+
+import pybase64
+import torch
+from pydantic import Field
+
+from vllm.config import ModelConfig
+from vllm.inputs.data import EmbedsPrompt as EngineEmbedsPrompt
+from vllm.inputs.data import TextPrompt as EngineTextPrompt
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.inputs.parse import get_prompt_components, parse_raw_prompts
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.async_utils import AsyncMicrobatchTokenizer
+
+
+@dataclass(frozen=True)
+class RenderConfig:
+    """Configuration to control how prompts are prepared."""
+
+    max_length: int | None = None
+    """Maximum allowable total input token length. If provided,
+    token inputs longer than this raise `ValueError`."""
+
+    truncate_prompt_tokens: int | None = None
+    """Number of tokens to keep. `None` means no truncation.
+    `0` yields an empty list (and skips embeds).
+    `-1` maps to `model_config.max_model_len`."""
+
+    add_special_tokens: bool | None = True
+    """Whether to add model-specific special tokens during tokenization."""
+
+    cache_salt: str | None = None
+    """String to disambiguate prefix cache entries."""
+
+    needs_detokenization: bool | None = False
+    """If True, detokenize IDs back to text for inclusion in outputs."""
+
+    def verify_truncate_prompt_tokens(self, model_config: ModelConfig) -> int | None:
+        """Validate and normalize `truncate_prompt_tokens` parameter."""
+        truncate_prompt_tokens = self.truncate_prompt_tokens
+        if truncate_prompt_tokens is None:
+            return None
+
+        if truncate_prompt_tokens == 0:
+            return 0
+
+        if truncate_prompt_tokens < 0:
+            truncate_prompt_tokens = model_config.max_model_len
+
+        max_length = self.max_length
+        if max_length is not None and truncate_prompt_tokens > max_length:  # type: ignore[operator]
+            raise ValueError(
+                f"{truncate_prompt_tokens=} cannot be greater than "
+                f"{max_length=}. Please select a smaller truncation size."
+            )
+
+        return truncate_prompt_tokens
+
+
+class BaseRenderer(ABC):
+    """
+    Base class for unified input processing and rendering.
+
+    The Renderer serves as a unified input processor that consolidates
+    tokenization, chat template formatting, and multimodal input handling
+    into a single component.
+    It converts high-level API requests (OpenAI-style JSON) into token IDs and
+    multimodal features ready for engine consumption.
+
+    Key responsibilities:
+    - Convert text prompts to token sequences with proper special tokens
+    - Apply chat templates and format conversations
+    - Handle multimodal inputs (images, audio, etc.) when applicable
+    - Manage prompt truncation and length validation
+    - Provide clean separation between API layer and engine core
+    """
+
+    def __init__(
+        self,
+        model_config: ModelConfig,
+        tokenizer: AnyTokenizer | None = None,
+    ):
+        super().__init__()
+        self.model_config = model_config
+        self.tokenizer = tokenizer
+
+    @abstractmethod
+    async def render_prompt(
+        self,
+        *,
+        prompt_or_prompts: str | list[str] | list[int] | list[list[int]],
+        config: RenderConfig,
+    ) -> list[EngineTokensPrompt]:
+        """
+        Convert text or token inputs into engine-ready TokensPrompt objects.
+
+        This method accepts text or token inputs and produces a
+        list of [`TokensPrompt`][vllm.inputs.data.TokensPrompt] objects
+        for the engine.
+
+        Args:
+            prompt_or_prompts: One of:
+                - `str`: Single text prompt.
+                - `list[str]`: Batch of text prompts.
+                - `list[int]`: Single pre-tokenized sequence.
+                - `list[list[int]]`: Batch of pre-tokenized sequences.
+            config: Render configuration controlling how prompts are prepared
+                (e.g., tokenization and length handling).
+
+        Returns:
+            list[EngineTokensPrompt]: Engine-ready token prompts.
+
+        Raises:
+            ValueError: If input formats are invalid or length limits exceeded.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    async def render_prompt_and_embeds(
+        self,
+        *,
+        prompt_or_prompts: str | list[str] | list[int] | list[list[int]] | None = None,
+        prompt_embeds: bytes | list[bytes] | None = None,
+        config: RenderConfig,
+    ) -> list[EngineTokensPrompt | EngineEmbedsPrompt]:
+        """
+        Convert text/token and/or base64-encoded embeddings inputs into
+        engine-ready prompt objects using a unified RenderConfig.
+
+        At least one of `prompt_or_prompts` or `prompt_embeds` must be
+        provided and non-empty. If both are omitted or empty (e.g., empty
+        string and empty list), a `ValueError` is raised.
+
+        Args:
+            prompt_or_prompts: Text or token inputs to include.
+            prompt_embeds: Base64-encoded bytes (or list thereof) containing a
+                torch-saved tensor to be used as prompt embeddings.
+            config: Render configuration controlling how prompts are prepared
+                (e.g., tokenization and length handling).
+
+        Returns:
+            list[Union[EngineTokensPrompt, EngineEmbedsPrompt]]:
+                Engine-ready prompt objects.
+
+        Raises:
+            ValueError: If both `prompt_or_prompts` and `prompt_embeds`
+                are omitted or empty (decoder prompt cannot be empty), or if
+                length limits are exceeded.
+        """
+        raise NotImplementedError
+
+    def load_prompt_embeds(
+        self,
+        prompt_embeds: bytes | list[bytes],
+        truncate_prompt_tokens: Annotated[int, Field(ge=0)] | None = None,
+        cache_salt: str | None = None,
+    ) -> list[EngineEmbedsPrompt]:
+        """Load and validate base64-encoded embeddings into prompt objects."""
+        if not self.model_config.enable_prompt_embeds:
+            raise ValueError(
+                "You must set `--enable-prompt-embeds` to input `prompt_embeds`."
+            )
+
+        def _load_and_validate_embed(embed: bytes) -> EngineEmbedsPrompt:
+            tensor = torch.load(
+                io.BytesIO(pybase64.b64decode(embed, validate=True)),
+                weights_only=True,
+                map_location=torch.device("cpu"),
+            )
+            assert isinstance(tensor, torch.Tensor) and tensor.dtype in (
+                torch.float32,
+                torch.bfloat16,
+                torch.float16,
+            )
+            tensor = tensor.to_dense()
+            if tensor.dim() > 2:
+                tensor = tensor.squeeze(0)
+                assert tensor.dim() == 2
+            if truncate_prompt_tokens is not None:
+                tensor = tensor[-truncate_prompt_tokens:]
+            embeds_prompt = EngineEmbedsPrompt(prompt_embeds=tensor)
+            if cache_salt is not None:
+                embeds_prompt["cache_salt"] = cache_salt
+            return embeds_prompt
+
+        if isinstance(prompt_embeds, list):
+            return [_load_and_validate_embed(embed) for embed in prompt_embeds]
+
+        return [_load_and_validate_embed(prompt_embeds)]
+
+
+class CompletionRenderer(BaseRenderer):
+    def __init__(
+        self,
+        model_config: ModelConfig,
+        tokenizer: AnyTokenizer | None = None,
+        async_tokenizer_pool: dict[AnyTokenizer, AsyncMicrobatchTokenizer]
+        | None = None,
+    ):
+        super().__init__(model_config, tokenizer)
+        self.async_tokenizer_pool = async_tokenizer_pool
+        self.async_tokenizer: AsyncMicrobatchTokenizer | None = None
+
+    async def render_prompt(
+        self,
+        *,
+        prompt_or_prompts: str | list[str] | list[int] | list[list[int]],
+        config: RenderConfig,
+    ) -> list[EngineTokensPrompt]:
+        """Implementation of prompt rendering for completion-style requests.
+
+        Uses async tokenizer pooling for improved performance. See base class
+        for detailed parameter documentation.
+        """
+        truncate_prompt_tokens = config.verify_truncate_prompt_tokens(self.model_config)
+        if truncate_prompt_tokens == 0:
+            return []
+
+        tasks = (
+            self._create_prompt(
+                prompt_input,
+                config=config,
+                truncate_prompt_tokens=truncate_prompt_tokens,
+            )
+            for prompt_input in parse_raw_prompts(prompt_or_prompts)
+        )
+
+        return await asyncio.gather(*tasks)
+
+    async def render_prompt_and_embeds(
+        self,
+        *,
+        prompt_or_prompts: str | list[str] | list[int] | list[list[int]] | None = None,
+        prompt_embeds: bytes | list[bytes] | None = None,
+        config: RenderConfig,
+    ) -> list[EngineTokensPrompt | EngineEmbedsPrompt]:
+        """
+        Render text/token prompts and/or precomputed embedding prompts. At
+        least one of `prompt_or_prompts` or `prompt_embeds` must be provided.
+        """
+        truncate_prompt_tokens = config.verify_truncate_prompt_tokens(self.model_config)
+        if truncate_prompt_tokens == 0:
+            return []
+
+        rendered: list[EngineTokensPrompt | EngineEmbedsPrompt] = []
+
+        if prompt_embeds is not None:
+            rendered.extend(
+                self.load_prompt_embeds(
+                    prompt_embeds, truncate_prompt_tokens, config.cache_salt
+                )
+            )
+        if prompt_or_prompts is None or prompt_or_prompts == "":
+            return rendered
+
+        token_prompts = await self.render_prompt(
+            prompt_or_prompts=prompt_or_prompts,
+            config=config,
+        )
+        rendered.extend(token_prompts)
+
+        return rendered
+
+    def _maybe_apply_truncation(
+        self, token_ids: list[int], truncate_prompt_tokens: int | None
+    ) -> list[int]:
+        """Apply truncation to token sequence."""
+        if truncate_prompt_tokens is None:
+            return token_ids
+        if truncate_prompt_tokens >= len(token_ids):
+            return token_ids
+
+        return token_ids[-truncate_prompt_tokens:]
+
+    async def _create_prompt(
+        self,
+        prompt_input: EngineTextPrompt | EngineTokensPrompt,
+        config: RenderConfig,
+        truncate_prompt_tokens: int | None,
+    ) -> EngineTokensPrompt:
+        prompt, prompt_token_ids, _ = get_prompt_components(prompt_input)
+
+        if prompt_token_ids is not None:
+            # NOTE: detokenization is needed when echo is enabled,
+            # where the input token IDs are decoded back to text.
+            return await self._create_prompt_from_token_ids(
+                prompt_token_ids,
+                config.max_length,
+                truncate_prompt_tokens,
+                config.cache_salt,
+                config.needs_detokenization,
+            )
+
+        if prompt is not None:
+            return await self._create_prompt_from_text(
+                prompt,
+                config.max_length,
+                truncate_prompt_tokens,
+                config.add_special_tokens,
+                config.cache_salt,
+            )
+
+        # TODO: Also handle embeds prompt using this method
+        raise NotImplementedError
+
+    async def _create_prompt_from_text(
+        self,
+        text: str,
+        max_length: int | None,
+        truncate_prompt_tokens: int | None,
+        add_special_tokens: bool | None,
+        cache_salt: str | None,
+    ) -> EngineTokensPrompt:
+        """Tokenize text input asynchronously."""
+        async_tokenizer = self._get_async_tokenizer()
+
+        # Handle encoder-specific preprocessing
+        if (
+            self.model_config.encoder_config is not None
+            and self.model_config.encoder_config.get("do_lower_case", False)
+        ):
+            text = text.lower()
+
+        # Tokenize texts
+        if truncate_prompt_tokens is None:
+            encoded = await async_tokenizer(text, add_special_tokens=add_special_tokens)
+        else:
+            encoded = await async_tokenizer(
+                text,
+                add_special_tokens=add_special_tokens,
+                truncation=True,
+                max_length=truncate_prompt_tokens,
+            )
+
+        return self._create_tokens_prompt(
+            encoded.input_ids, max_length, cache_salt, text
+        )
+
+    async def _create_prompt_from_token_ids(
+        self,
+        token_ids: list[int],
+        max_length: int | None,
+        truncate_prompt_tokens: int | None,
+        cache_salt: str | None,
+        needs_detokenization: bool | None = False,
+    ) -> EngineTokensPrompt:
+        """Optionally detokenize token IDs and build a tokens prompt."""
+        token_ids = self._maybe_apply_truncation(token_ids, truncate_prompt_tokens)
+
+        prompt = None
+        if needs_detokenization:
+            async_tokenizer = self._get_async_tokenizer()
+            prompt = await async_tokenizer.decode(token_ids)
+
+        return self._create_tokens_prompt(
+            token_ids=token_ids,
+            max_length=max_length,
+            cache_salt=cache_salt,
+            prompt=prompt,
+        )
+
+    def _get_async_tokenizer(self) -> AsyncMicrobatchTokenizer:
+        """Get or create async tokenizer using shared pool."""
+        async_tokenizer = self.async_tokenizer
+        if async_tokenizer is not None:
+            return async_tokenizer
+
+        tokenizer = self.tokenizer
+        if self.tokenizer is None:
+            raise ValueError("No tokenizer available for text input processing")
+
+        if self.async_tokenizer_pool is None:
+            async_tokenizer = AsyncMicrobatchTokenizer(tokenizer)
+        else:
+            async_tokenizer = self.async_tokenizer_pool.get(tokenizer)
+            if async_tokenizer is None:
+                async_tokenizer = AsyncMicrobatchTokenizer(tokenizer)
+                self.async_tokenizer_pool[tokenizer] = async_tokenizer
+        self.async_tokenizer = async_tokenizer
+        return async_tokenizer
+
+    def _create_tokens_prompt(
+        self,
+        token_ids: list[int],
+        max_length: int | None = None,
+        cache_salt: str | None = None,
+        prompt: str | None = None,
+    ) -> EngineTokensPrompt:
+        """Create validated EngineTokensPrompt."""
+        if max_length is not None and len(token_ids) > max_length:
+            raise ValueError(
+                f"This model's maximum context length is {max_length} tokens. "
+                f"However, your request has {len(token_ids)} input tokens. "
+                "Please reduce the length of the input messages."
+            )
+
+        tokens_prompt = EngineTokensPrompt(prompt_token_ids=token_ids)
+        if cache_salt is not None:
+            tokens_prompt["cache_salt"] = cache_salt
+        if prompt is not None:
+            tokens_prompt["prompt"] = prompt
+        return tokens_prompt
diff --git a/entrypoints/responses_utils.py b/entrypoints/responses_utils.py
new file mode 100644
index 0000000..d966f58
--- /dev/null
+++ b/entrypoints/responses_utils.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from openai.types.chat import (
+    ChatCompletionAssistantMessageParam,
+    ChatCompletionMessageToolCallParam,
+    ChatCompletionToolMessageParam,
+)
+from openai.types.chat.chat_completion_message_tool_call_param import (
+    Function as FunctionCallTool,
+)
+from openai.types.responses import ResponseFunctionToolCall
+from openai.types.responses.tool import Tool
+
+from vllm import envs
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionMessageParam,
+    ResponseInputOutputItem,
+)
+
+
+def construct_chat_message_with_tool_call(
+    item: ResponseInputOutputItem,
+) -> ChatCompletionMessageParam:
+    if isinstance(item, ResponseFunctionToolCall):
+        # Append the function call as a tool call.
+        return ChatCompletionAssistantMessageParam(
+            role="assistant",
+            tool_calls=[
+                ChatCompletionMessageToolCallParam(
+                    id=item.call_id,
+                    function=FunctionCallTool(
+                        name=item.name,
+                        arguments=item.arguments,
+                    ),
+                    type="function",
+                )
+            ],
+        )
+    elif item.get("type") == "function_call_output":
+        # Append the function call output as a tool message.
+        return ChatCompletionToolMessageParam(
+            role="tool",
+            content=item.get("output"),
+            tool_call_id=item.get("call_id"),
+        )
+    return item  # type: ignore
+
+
+def extract_tool_types(tools: list[Tool]) -> set[str]:
+    """
+    Extracts the tool types from the given tools.
+    """
+    tool_types: set[str] = set()
+    for tool in tools:
+        if tool.type == "mcp":
+            # Allow the MCP Tool type to enable built in tools if the
+            # server_label is allowlisted in
+            # envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS
+            if tool.server_label in envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS:
+                tool_types.add(tool.server_label)
+        else:
+            tool_types.add(tool.type)
+    return tool_types
+
+
+def convert_tool_responses_to_completions_format(tool: dict) -> dict:
+    """
+    Convert a flat tool schema:
+        {"type": "function", "name": "...", "description": "...", "parameters": {...}}
+    into:
+        {"type": "function", "function": {...}}
+    """
+    return {
+        "type": "function",
+        "function": tool,
+    }
diff --git a/entrypoints/sagemaker/__init__.py b/entrypoints/sagemaker/__init__.py
new file mode 100644
index 0000000..c176713
--- /dev/null
+++ b/entrypoints/sagemaker/__init__.py
@@ -0,0 +1,4 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""SageMaker-specific integration for vLLM."""
diff --git a/entrypoints/sagemaker/__pycache__/__init__.cpython-312.pyc b/entrypoints/sagemaker/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cff6e6b9387344dd362a58e8874d6d91d5f16ef2
GIT binary patch
literal 228
zcmXw!F%AJi7=>pLHWGK(l4AWO5^(@Qqti^*?(F(wc4jg=#JYk5D4f7q+(7FBLZ>p5
z@S6X<=6nCUbvkY0BpN5Yxcl(oFZwg@z?m~i$%<68S37o>an9%QmYb;5Ji!c;5T)h0
zi7hG_X3B*7*=*il^yt0CSgI1nuH@};pDEZvgGL?M*yP+shuvT_+zvPhT!XIcMoHKU
yQ2>|LR9ZQ538iZ+d?PT15-nqWUEPCmq0*h;6Vr5P|8D8mJnNLwS3oG3hKpYq20&u~

literal 0
HcmV?d00001

diff --git a/entrypoints/sagemaker/__pycache__/routes.cpython-312.pyc b/entrypoints/sagemaker/__pycache__/routes.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2546e43928d4acca19016b24531be5d8431b902f
GIT binary patch
literal 4235
zcmb7HYit|G5#D?9btEm(l=ZShTXrnkGFj_k*^y&dvDo@4OO))!OoPLPcaq4ENA~Vy
zSt?mLiIEzu0n05=3up_tK+r0%isnau_(y=&t&IfeA2KvRb*mx>+5+v57L28!dGtqT
zk33Q-;yw=G?%dq$?Ck8!H^bk$-A)8giv3RFb)f!8UaW_%5$o50xQ%2aQz;Z9Go7N+
zbd08|JSNS?xEjsJc=*nwY-xMUo_53>X=lutcEw!gcQz%Y-7$CC6Z4qwT*{l?65En)
ziZ!L1W6fz_%xCiX)Yh~=<_FrQ*r#aOevOT_%u_+fUx`VhK?*xhPEL+Z7?Lro2U+YG
z9y=Ay%o>V@Z6iunQDq&wiA3Z|T*(@VjEZeh<?FMGZUkv8oSry88ddacM%5K;w<yr#
zKQ(&s{E6YoQ|Cv;i^FG6jSNqok4|9rB?$!i8AVDNGuVGwN+o2;P{gF3QAMq$m%{Fd
zre!os9p*LDqBvD^Bbi+AW8k;`JUI6@%Aw@uuS5bKnKCTbqZRsYjRsk+`hD~G#j*x(
z$t3L-)tF_*FfW~OWVW%_6f1Mr*t<2sf1mTz6RhP8x24<gSk&Fxxuz*&i^WSeTU29C
zZf(#OCEJV^i%x7_-)eCi^Z&KJy|K=s{`>j_vtqwX?hKwye(kJsHjjqQdQ0xGsK#vh
zbCXn{@ztVa+ls^T-R66OByc|YZY<q-I)^4u&^5Zig|i8D8WP2$)dF3NrzBm+E=`)V
zVirPFF=jROb0JEO`aSrq_rq`oQ4pp^JxFuNGVV19({F(6_vzcr>l_E$4x$_E&zLzX
zNH6RkgUti+872O5C=gNQY$l-^0g@>RO_2jr87(j&O)KZ5mlX}NSrcF@m`Hr+WUs)d
zC&NZM3unk4FeGhSF%Ddr9XxXQ<v}H!O1u=#&KolsHGDahN{1EI(B{nz^so*}(?n_5
z%soAnoyRP3#KK-pnNH{c5Mo_MtjQcrW#UpwKNcc_equr!41Yl%Uqu^E)Y7?hrsVG~
zd%Fwv?t-`bQ=J(5s<)N8MYXWs<yxr)A)HVzgARf-I_A<DSxFI?kxe90)ObSCvBSCt
z9WF(XWGPFG$x6n|=e$qS)%5<~A?>T)cRT?mtV^%o1XI0<JY^6Q&1VGNWNxxIxi~wG
z;`ED<Y+nPtdBz;sJV&D(+qlzL*c_ANrs!MrjTRQ=`8=Cv@?4G|K`#btD{XlW?6D=i
z)((w1M_I9vw}W0TX9vwS@T%Kbi<UUljtRsfq8lu9#2M4R!<Kz{he2+_d~!^(4hI$w
zp(|A0Y19G1+D8*|&g2)Qx#~2wTWfPp%T74wGjL89oYEn)IoA)+kLbK$JXM#hM|*Oo
z#cRwtVTH3a<=sY?^(E&{?y=~`Y~2=oeY(N5sARWAHRcuGI+dAQf9pa<{bRD`*E$1;
z-AD`NX`@~wHi6X_6oF*D1T=KWbdDxISYfQ4bM&jUOy%is(sR@ty24ySa}>F|IK&Q#
zjyVKY{YQWYt5^zMLW|UmE=$88d1FjH;CZ6O#0}fRkuPsXhMqt*Lrvg-(ya$b9hL(b
zHDJsr7B^tbXO+<Cf{#@7fULwJ{Q?T9#LomE3thU|B#4BKd08=}L~3E^gruq&BQTXv
z<$yk$Fr=4KN?=A(<&>hC@KmenfL>R!O58AaRRWnQ&`DuiTG0uNfO=azqZ$N)NIeMp
zF-v*^>?O90n5LLLfkx`FMvxV|o*Nz!qml6ok%>vnK`Sw<Xyhuex87D%(GA<P^RlEG
zi8%INtacoLFQz)|Oy~&}4yMKx%!$MSm^DYcD5_Fg5k<`ChNiiQVt-syNVj781faj#
z_h=+0u+s!9QJzg_F=q;3mUt@YF~Jx*pNu?@DFr)f)@3y80yq|HzQT6swM_7>*)Lk}
zI&P}@P;4x<)mWGkF=b#UvDq|O$4pwE#tc}elO7`Qxkn>dfL)tVb|LgX;Q1zbay$BU
zC@m(eS2}rzf3<CQxh+_13zpjUmwo%Mk9^dO2G3F-acqb4gF|PETY48A#g5*kGs~^N
z^R_PymArck-o6TlJlmG+?+H6s51oM*N9$t*3)ThHGgK7z7KH6fS1L5)Zd+~NUv3{N
zwh!GKDYXwT+CH?S_FZ@OE)SL32Ft#|_k_WU8`gZd747`e2FJ8GKL~_x35$-UgBuL$
z*s~n`dHBt6Vb75}<8SvrYCnE`_~z+vpMDU3cjs@Wio)5|K$vXq`w+p(iXAnbrQSXL
z?$Lth`RmM@r+IOx<aw&>87O)N?!^n9fs*Gr;CnmnocQVJk4H<p`+wE-PVj#4ozVTz
zBky>@K3*9_TYElP^ZLr(uA;XK&gAf~H9xi1`E<Fnx7gWR?mS%VJiOZ0vpl|hqOgrv
z?DJH3wAEj+F>e276$Tdkb3*`Ee7w<&wswL?i@yDj5#?^fTUsj&%%2kZ!=J6QVDcwA
z`A_jG6&awe`9^H$HZ{VrODs@7bOP@uZ4sCKmjY1tg{DX|eSf=22dPL8e}A7zA9^+t
z=6~Hc+zdhwI0{xiu=yf(=0STf!Y~gR4(Nw=qU>R_FB0S)?qLYsO%XcC5<1Mo7;J(L
zAp^<cATh>3Y-3-eMIbpQOB(#0@Ye&5v<X)HYoz7V2;^#{2{uz)+eIi+4m1+VxaGp=
z#D%f3^U=x3h<GkCa%xzdyfhXee>Nr~(b3_v;zT5RF%lIc(dhXo?x=6nh+k_v+)B_)
znVL<BI%EpqftZ$5Kq3t{CDbGUm1uPq2|37Uq)Ka~cxunWpc4Rs#HyxKTYaC#ajST%
zeFfx5U#>Sn##}|Koa<XJyz;{0ww2baFO;}m@*aC7wrE?iUyYTxgKJ!CnF|%UP=%(s
z;2X9If@$UCV=}EXh!2yYmkfOs9(WM1yg)Rr+FRCIwm;g@S8C}m_y_(Zw3LNiMPXN2
z=q?J~%Y(l-SJ?O58sQ!&3J1zUUs33LYx?bcVc?v}?I{X9Wudny^uG1gx6_6GvlScb
zb5?AKZ(2uoo`*=}+sa&jk?S{YJXquombgBX-dE)I-LpO7j#ua%T$Fla?lB@Wv2xfP
z`w2O)?gKrQR`RKGoI*nL)pP6M85G>61z^JLjA3M}$iBadr85vrBtl4GkP<5CIISQG
z)jf?Jby7PHdNk58VB3@gve|^j5|$ZNX5k<~hMQ_10r{#3uA2~EjoV$M6%K7`g+m$m
z7c3=0pbbJryA0S)s*G6?%y!$1R~&fKx~!HlGVx5x3}G`M-bC6-qQS&s`%yUTY)Uz%
zjRTLg?D`-KkmnS&&Lc|r1M2uQI`w<xeIFewp=0l({(rC>MXw_mJ`xZ$RN?!n<~xZE
I1e2-wU*qTf&;S4c

literal 0
HcmV?d00001

diff --git a/entrypoints/sagemaker/routes.py b/entrypoints/sagemaker/routes.py
new file mode 100644
index 0000000..498b729
--- /dev/null
+++ b/entrypoints/sagemaker/routes.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+from http import HTTPStatus
+
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+import pydantic
+from fastapi import APIRouter, Depends, HTTPException, Request
+from fastapi.responses import JSONResponse, Response
+
+from vllm.entrypoints.openai.api_server import (
+    INVOCATION_VALIDATORS,
+    base,
+    health,
+    validate_json_request,
+)
+from vllm.entrypoints.openai.protocol import ErrorResponse
+
+
+def register_sagemaker_routes(router: APIRouter):
+    @router.post("/ping", response_class=Response)
+    @router.get("/ping", response_class=Response)
+    @sagemaker_standards.register_ping_handler
+    async def ping(raw_request: Request) -> Response:
+        """Ping check. Endpoint required for SageMaker"""
+        return await health(raw_request)
+
+    @router.post(
+        "/invocations",
+        dependencies=[Depends(validate_json_request)],
+        responses={
+            HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+            HTTPStatus.UNSUPPORTED_MEDIA_TYPE.value: {"model": ErrorResponse},
+            HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+        },
+    )
+    @sagemaker_standards.register_invocation_handler
+    @sagemaker_standards.stateful_session_manager()
+    @sagemaker_standards.inject_adapter_id(adapter_path="model")
+    async def invocations(raw_request: Request):
+        """For SageMaker, routes requests based on the request type."""
+        try:
+            body = await raw_request.json()
+        except json.JSONDecodeError as e:
+            raise HTTPException(
+                status_code=HTTPStatus.BAD_REQUEST.value,
+                detail=f"JSON decode error: {e}",
+            ) from e
+
+        valid_endpoints = [
+            (validator, endpoint)
+            for validator, (get_handler, endpoint) in INVOCATION_VALIDATORS
+            if get_handler(raw_request) is not None
+        ]
+
+        for request_validator, endpoint in valid_endpoints:
+            try:
+                request = request_validator.validate_python(body)
+            except pydantic.ValidationError:
+                continue
+
+            return await endpoint(request, raw_request)
+
+        type_names = [
+            t.__name__ if isinstance(t := validator._type, type) else str(t)
+            for validator, _ in valid_endpoints
+        ]
+        msg = f"Cannot find suitable handler for request. Expected one of: {type_names}"
+        res = base(raw_request).create_error_response(message=msg)
+        return JSONResponse(content=res.model_dump(), status_code=res.error.code)
+
+    return router
diff --git a/entrypoints/score_utils.py b/entrypoints/score_utils.py
new file mode 100644
index 0000000..309a4c9
--- /dev/null
+++ b/entrypoints/score_utils.py
@@ -0,0 +1,242 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any, TypeAlias, cast
+
+from torch.nn import CosineSimilarity
+from typing_extensions import Required, TypedDict
+
+from vllm.config import ModelConfig
+from vllm.entrypoints.chat_utils import (
+    BaseMultiModalItemTracker,
+    ChatCompletionContentPartImageEmbedsParam,
+    ChatCompletionContentPartImageParam,
+    ChatCompletionContentPartTextParam,
+    MultiModalItemTracker,
+    _ContentPart,
+    _parse_chat_message_content_part,
+)
+from vllm.inputs import TokensPrompt
+from vllm.model_executor.models.interfaces import supports_score_template
+from vllm.multimodal.inputs import MultiModalDataDict
+from vllm.outputs import PoolingRequestOutput
+from vllm.transformers_utils.tokenizer import (
+    AnyTokenizer,
+    PreTrainedTokenizer,
+    PreTrainedTokenizerFast,
+)
+
+ScoreContentPartParam: TypeAlias = (
+    ChatCompletionContentPartImageParam | ChatCompletionContentPartImageEmbedsParam
+)
+
+
+class ScoreMultiModalParam(TypedDict, total=False):
+    """
+    A specialized parameter type for scoring multimodal content
+
+    The reasons why don't reuse `CustomChatCompletionMessageParam` directly:
+    1. Score tasks don't need the 'role' field (user/assistant/system) that's required in chat completions
+    2. Including chat-specific fields would confuse users about their purpose in scoring
+    3. This is a more focused interface that only exposes what's needed for scoring
+    """  # noqa: E501
+
+    content: Required[list[ScoreContentPartParam]]
+    """The multimodal contents"""
+
+
+def _cosine_similarity(
+    tokenizer: PreTrainedTokenizer | PreTrainedTokenizerFast,
+    embed_1: list[PoolingRequestOutput],
+    embed_2: list[PoolingRequestOutput],
+) -> list[PoolingRequestOutput]:
+    scorer = CosineSimilarity(0)
+    scores: list[PoolingRequestOutput] = []
+
+    for emb_1, emb_2 in zip(embed_1, embed_2):
+        pair_score = scorer(emb_1.outputs.data, emb_2.outputs.data)
+
+        padding = []
+        if (pad_token_id := getattr(tokenizer, "pad_token_id", None)) is not None:
+            padding = [pad_token_id]
+
+        tokens = emb_1.prompt_token_ids + padding + emb_2.prompt_token_ids
+
+        scores.append(
+            PoolingRequestOutput(
+                request_id=f"{emb_1.request_id}_{emb_2.request_id}",
+                outputs=pair_score,
+                prompt_token_ids=tokens,
+                num_cached_tokens=emb_1.num_cached_tokens + emb_2.num_cached_tokens,
+                finished=True,
+            )
+        )
+
+    return scores
+
+
+def _validate_score_input_lens(
+    data_1: list[str] | list[ScoreContentPartParam],
+    data_2: list[str] | list[ScoreContentPartParam],
+):
+    len_1 = len(data_1)
+    len_2 = len(data_2)
+
+    if len_1 > 1 and len_1 != len_2:
+        raise ValueError("Input lengths must be either 1:1, 1:N or N:N")
+    if len_1 == 0:
+        raise ValueError("At least one text element must be given")
+    if len_2 == 0:
+        raise ValueError("At least one text_pair element must be given")
+
+
+def parse_score_data(
+    data_1: str | ScoreContentPartParam,
+    data_2: str | ScoreContentPartParam,
+    model_config: ModelConfig,
+    tokenizer: AnyTokenizer,
+) -> tuple[str, str, MultiModalDataDict | None]:
+    mm_tracker = MultiModalItemTracker(model_config, tokenizer)
+
+    content_1 = _parse_score_content(data_1, mm_tracker)
+
+    content_2 = _parse_score_content(data_2, mm_tracker)
+
+    def ensure_str(content: _ContentPart | None) -> str:
+        if content is not None and isinstance(content, str):
+            return cast(str, content)
+        else:
+            raise ValueError(f"Only string content is supported, but got {content}.")
+
+    prompt_1 = ensure_str(content_1)
+    prompt_2 = ensure_str(content_2)
+
+    return prompt_1, prompt_2, mm_tracker.all_mm_data()
+
+
+def _parse_score_content(
+    data: str | ScoreContentPartParam,
+    mm_tracker: BaseMultiModalItemTracker,
+) -> _ContentPart | None:
+    if isinstance(data, str):
+        data = ChatCompletionContentPartTextParam(type="text", text=data)
+
+    mm_parser = mm_tracker.create_parser()
+
+    parse_res = _parse_chat_message_content_part(
+        data,
+        mm_parser,
+        wrap_dicts=False,
+        interleave_strings=False,
+    )
+
+    if parse_res:
+        return parse_res
+
+    mm_placeholder_storage = mm_parser.mm_placeholder_storage()
+
+    if (
+        len(mm_placeholder_storage) != 1
+        or len(next(iter(mm_placeholder_storage.values()))) != 1
+    ):
+        raise ValueError("Only one multi-modal item is supported")
+
+    return next(iter(mm_placeholder_storage.values()))[0]
+
+
+def apply_score_template(
+    model_config: ModelConfig,
+    prompt_1: str,
+    prompt_2: str,
+) -> str:
+    # NOTE(Simon): lazy import to avoid bring in all dependencies (e.g. gguf)
+    from vllm.model_executor.model_loader import get_model_cls
+
+    model = get_model_cls(model_config)
+    if supports_score_template(model):
+        full_prompt = model.get_score_template(prompt_1, prompt_2)
+        if full_prompt is None:
+            raise ValueError("Get empty score template from model")
+        return full_prompt
+
+    raise ValueError(f"Unsupported model architecture: {model_config.architecture}")
+
+
+def post_process_tokens(
+    model_config: ModelConfig,
+    prompt: TokensPrompt,
+) -> None:
+    """
+    Perform architecture-specific manipulations on the input tokens.
+
+    Note:
+        This is an in-place operation.
+    """
+    # NOTE(Simon): lazy import to avoid bring in all dependencies (e.g. gguf)
+    from vllm.model_executor.model_loader import get_model_cls
+
+    model = get_model_cls(model_config)
+    if supports_score_template(model):
+        model.post_process_tokens(prompt)
+
+
+def get_score_prompt(
+    model_config: ModelConfig,
+    tokenizer: AnyTokenizer,
+    tokenization_kwargs: dict[str, Any],
+    data_1: str | ScoreContentPartParam,
+    data_2: str | ScoreContentPartParam,
+) -> tuple[str, TokensPrompt]:
+    prompt_1, prompt_2, mm_data = parse_score_data(
+        data_1,
+        data_2,
+        model_config,
+        tokenizer,
+    )
+    from vllm.model_executor.model_loader import get_model_cls
+
+    model = get_model_cls(model_config)
+    if supports_score_template(model):
+        full_prompt = apply_score_template(model_config, prompt_1, prompt_2)
+        prompt_inputs = tokenizer(full_prompt, **tokenization_kwargs)
+    elif model_config.use_pad_token:
+        # cross_encoder models defaults to using pad_token.
+        prompt_inputs = tokenizer(
+            text=prompt_1, text_pair=prompt_2, **tokenization_kwargs
+        )
+        full_prompt = tokenizer.decode(prompt_inputs["input_ids"])
+    else:
+        # `llm as reranker` models defaults to not using pad_token.
+        full_prompt = prompt_1 + prompt_2
+        prompt_inputs = tokenizer(text=full_prompt, **tokenization_kwargs)
+
+    engine_prompt = TokensPrompt(prompt_token_ids=prompt_inputs["input_ids"])
+
+    if (token_type_ids := prompt_inputs.get("token_type_ids")) is not None:
+        engine_prompt["token_type_ids"] = token_type_ids
+
+    post_process_tokens(model_config, engine_prompt)
+
+    if mm_data is not None:
+        engine_prompt["multi_modal_data"] = mm_data
+    return full_prompt, engine_prompt
+
+
+def compress_token_type_ids(token_type_ids: list[int]) -> int:
+    """
+    Return position of the first 1 or the length of the list
+    if not found.
+    """
+    first_one = len(token_type_ids)
+    err_msg = (
+        "Token type ids are expected to be a sequence"
+        " of zeros followed by a sequence of ones"
+    )
+    for i, type_id in enumerate(token_type_ids):
+        if type_id == 0 and first_one < i:
+            raise ValueError(err_msg)
+        elif type_id == 1 and first_one > i:
+            first_one = i
+        elif type_id > 1:
+            raise ValueError(err_msg)
+
+    return first_one
diff --git a/entrypoints/ssl.py b/entrypoints/ssl.py
new file mode 100644
index 0000000..4d947bc
--- /dev/null
+++ b/entrypoints/ssl.py
@@ -0,0 +1,78 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+from collections.abc import Callable
+from ssl import SSLContext
+
+from watchfiles import Change, awatch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class SSLCertRefresher:
+    """A class that monitors SSL certificate files and
+    reloads them when they change.
+    """
+
+    def __init__(
+        self,
+        ssl_context: SSLContext,
+        key_path: str | None = None,
+        cert_path: str | None = None,
+        ca_path: str | None = None,
+    ) -> None:
+        self.ssl = ssl_context
+        self.key_path = key_path
+        self.cert_path = cert_path
+        self.ca_path = ca_path
+
+        # Setup certification chain watcher
+        def update_ssl_cert_chain(change: Change, file_path: str) -> None:
+            logger.info("Reloading SSL certificate chain")
+            assert self.key_path and self.cert_path
+            self.ssl.load_cert_chain(self.cert_path, self.key_path)
+
+        self.watch_ssl_cert_task = None
+        if self.key_path and self.cert_path:
+            self.watch_ssl_cert_task = asyncio.create_task(
+                self._watch_files(
+                    [self.key_path, self.cert_path], update_ssl_cert_chain
+                )
+            )
+
+        # Setup CA files watcher
+        def update_ssl_ca(change: Change, file_path: str) -> None:
+            logger.info("Reloading SSL CA certificates")
+            assert self.ca_path
+            self.ssl.load_verify_locations(self.ca_path)
+
+        self.watch_ssl_ca_task = None
+        if self.ca_path:
+            self.watch_ssl_ca_task = asyncio.create_task(
+                self._watch_files([self.ca_path], update_ssl_ca)
+            )
+
+    async def _watch_files(self, paths, fun: Callable[[Change, str], None]) -> None:
+        """Watch multiple file paths asynchronously."""
+        logger.info("SSLCertRefresher monitors files: %s", paths)
+        async for changes in awatch(*paths):
+            try:
+                for change, file_path in changes:
+                    logger.info("File change detected: %s - %s", change.name, file_path)
+                    fun(change, file_path)
+            except Exception as e:
+                logger.error(
+                    "SSLCertRefresher failed taking action on file change. Error: %s", e
+                )
+
+    def stop(self) -> None:
+        """Stop watching files."""
+        if self.watch_ssl_cert_task:
+            self.watch_ssl_cert_task.cancel()
+            self.watch_ssl_cert_task = None
+        if self.watch_ssl_ca_task:
+            self.watch_ssl_ca_task.cancel()
+            self.watch_ssl_ca_task = None
diff --git a/entrypoints/tool.py b/entrypoints/tool.py
new file mode 100644
index 0000000..c74ce1e
--- /dev/null
+++ b/entrypoints/tool.py
@@ -0,0 +1,143 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+from openai_harmony import Author, Message, Role, TextContent
+
+from vllm.logger import init_logger
+
+if TYPE_CHECKING:
+    # Avoid circular import.
+    from vllm.entrypoints.context import ConversationContext
+
+logger = init_logger(__name__)
+
+MIN_GPT_OSS_VERSION = "0.0.7"
+
+
+def validate_gpt_oss_install():
+    """
+    Check if the gpt-oss is installed and its version is at least 0.0.7.
+    If not, raise an ImportError.
+    """
+    from importlib.metadata import PackageNotFoundError, version
+
+    from packaging.version import InvalidVersion, Version
+
+    try:
+        pkg_version_str = version("gpt_oss")
+        pkg_version = Version(pkg_version_str)
+    except PackageNotFoundError:
+        raise ImportError("Package 'gpt_oss' is not installed.") from None
+    except InvalidVersion as e:
+        raise ImportError(f"Invalid version string for 'gpt_oss': {e}") from None
+
+    if pkg_version < Version(MIN_GPT_OSS_VERSION):
+        raise ImportError(
+            f"gpt_oss >= {MIN_GPT_OSS_VERSION} is required, "
+            f"but {pkg_version} is installed."
+        ) from None
+
+
+class Tool(ABC):
+    @abstractmethod
+    async def get_result(self, context: "ConversationContext") -> Any:
+        pass
+
+
+class HarmonyBrowserTool(Tool):
+    def __init__(self):
+        self.enabled = True
+        exa_api_key = os.getenv("EXA_API_KEY")
+        if not exa_api_key:
+            self.enabled = False
+            logger.warning_once("EXA_API_KEY is not set, browsing is disabled")
+            return
+
+        try:
+            validate_gpt_oss_install()
+            from gpt_oss.tools.simple_browser import SimpleBrowserTool
+            from gpt_oss.tools.simple_browser.backend import ExaBackend
+        except ImportError as e:
+            self.enabled = False
+            logger.warning_once(
+                "gpt_oss is not installed properly (%s), browsing is disabled", e
+            )
+            return
+
+        browser_backend = ExaBackend(source="web", api_key=exa_api_key)
+        self.browser_tool = SimpleBrowserTool(backend=browser_backend)
+        logger.info_once("Browser tool initialized")
+
+    async def get_result(self, context: "ConversationContext") -> Any:
+        from vllm.entrypoints.context import HarmonyContext
+
+        assert isinstance(context, HarmonyContext)
+        last_msg = context.messages[-1]
+        tool_output_msgs = []
+        async for msg in self.browser_tool.process(last_msg):
+            tool_output_msgs.append(msg)
+        return tool_output_msgs
+
+    @property
+    def tool_config(self) -> Any:
+        return self.browser_tool.tool_config
+
+
+class HarmonyPythonTool(Tool):
+    def __init__(self):
+        self.enabled = True
+
+        try:
+            validate_gpt_oss_install()
+            from gpt_oss.tools.python_docker.docker_tool import PythonTool
+        except ImportError as e:
+            self.enabled = False
+            logger.warning_once(
+                "gpt_oss is not installed properly (%s), code interpreter is disabled",
+                e,
+            )
+            return
+
+        self.python_tool = PythonTool()
+
+    async def validate(self):
+        if not self.enabled:
+            return
+        try:
+            message = Message(
+                author=Author(role=Role.ASSISTANT),
+                content=[TextContent(text="print('Hello, world!')")],
+                channel="analysis",
+                recipient="python",
+                content_type="code",
+            )
+            msgs = []
+            async for msg in self.python_tool.process(message):
+                msgs.append(msg)
+            assert msgs[0].content[0].text == "Hello, world!\n"
+        except Exception as e:
+            self.enabled = False
+            logger.warning_once(
+                "Code interpreter tool failed to initialize (%s), code "
+                "interpreter is disabled",
+                e,
+            )
+            return
+        logger.info_once("Code interpreter tool initialized")
+
+    async def get_result(self, context: "ConversationContext") -> Any:
+        from vllm.entrypoints.context import HarmonyContext
+
+        assert isinstance(context, HarmonyContext)
+        last_msg = context.messages[-1]
+        tool_output_msgs = []
+        async for msg in self.python_tool.process(last_msg):
+            tool_output_msgs.append(msg)
+        return tool_output_msgs
+
+    @property
+    def tool_config(self) -> Any:
+        return self.python_tool.tool_config
diff --git a/entrypoints/tool_server.py b/entrypoints/tool_server.py
new file mode 100644
index 0000000..0d83031
--- /dev/null
+++ b/entrypoints/tool_server.py
@@ -0,0 +1,209 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from contextlib import AbstractAsyncContextManager, asynccontextmanager
+from typing import TYPE_CHECKING, Any
+
+from openai_harmony import ToolDescription, ToolNamespaceConfig
+
+from vllm.entrypoints.tool import HarmonyBrowserTool, HarmonyPythonTool, Tool
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+if TYPE_CHECKING:
+    from mcp.types import ListToolsResult
+
+
+async def list_server_and_tools(server_url: str):
+    from mcp import ClientSession
+    from mcp.client.sse import sse_client
+
+    async with (
+        sse_client(url=server_url) as streams,
+        ClientSession(*streams) as session,
+    ):
+        initialize_response = await session.initialize()
+        list_tools_response = await session.list_tools()
+        return initialize_response, list_tools_response
+
+
+def trim_schema(schema: dict) -> dict:
+    # Turn JSON Schema from MCP generated into Harmony's variant.
+    if "title" in schema:
+        del schema["title"]
+    if "default" in schema and schema["default"] is None:
+        del schema["default"]
+    if "anyOf" in schema:
+        # Turn "anyOf": [{"type": "type-1"}, {"type": "type-2"}]
+        # into "type": ["type-1", "type-2"]
+        # if there's more than 1 types, also remove "null" type as Harmony will
+        # just ignore it
+        types = [
+            type_dict["type"]
+            for type_dict in schema["anyOf"]
+            if type_dict["type"] != "null"
+        ]
+        schema["type"] = types
+        del schema["anyOf"]
+    if "properties" in schema:
+        schema["properties"] = {
+            k: trim_schema(v) for k, v in schema["properties"].items()
+        }
+    return schema
+
+
+def post_process_tools_description(
+    list_tools_result: "ListToolsResult",
+) -> "ListToolsResult":
+    # Adapt the MCP tool result for Harmony
+    for tool in list_tools_result.tools:
+        tool.inputSchema = trim_schema(tool.inputSchema)
+
+    # Some tools schema don't need to be part of the prompt (e.g. simple text
+    # in text out for Python)
+    list_tools_result.tools = [
+        tool
+        for tool in list_tools_result.tools
+        if getattr(tool.annotations, "include_in_prompt", True)
+    ]
+
+    return list_tools_result
+
+
+class ToolServer(ABC):
+    @abstractmethod
+    def has_tool(self, tool_name: str) -> bool:
+        """
+        Return True if the tool is supported, False otherwise.
+        """
+        pass
+
+    @abstractmethod
+    def get_tool_description(self, tool_name: str) -> ToolNamespaceConfig | None:
+        """
+        Return the tool description for the given tool name.
+        If the tool is not supported, return None.
+        """
+        pass
+
+    @abstractmethod
+    def new_session(
+        self, tool_name: str, session_id: str, headers: dict[str, str] | None = None
+    ) -> AbstractAsyncContextManager[Any]:
+        """
+        Create a session for the tool.
+        """
+        ...
+
+
+class MCPToolServer(ToolServer):
+    def __init__(self):
+        try:
+            import mcp  # noqa: F401
+        except ImportError:
+            raise ImportError(
+                "mcp is not installed. Please run `pip install mcp` to use "
+                "MCPToolServer."
+            ) from None
+        self.harmony_tool_descriptions = {}
+
+    async def add_tool_server(self, server_url: str):
+        tool_urls = server_url.split(",")
+        self.harmony_tool_descriptions = {}
+        self.urls: dict[str, str] = {}
+        for url in tool_urls:
+            url = f"http://{url}/sse"
+            initialize_response, list_tools_response = await list_server_and_tools(url)
+
+            list_tools_response = post_process_tools_description(list_tools_response)
+
+            tool_from_mcp = ToolNamespaceConfig(
+                name=initialize_response.serverInfo.name,
+                description=initialize_response.instructions,
+                tools=[
+                    ToolDescription.new(
+                        name=tool.name,
+                        description=tool.description,
+                        parameters=tool.inputSchema,
+                    )
+                    for tool in list_tools_response.tools
+                ],
+            )
+            self.harmony_tool_descriptions[tool_from_mcp.name] = tool_from_mcp
+            if tool_from_mcp.name not in self.urls:
+                self.urls[tool_from_mcp.name] = url
+            else:
+                logger.warning(
+                    "Tool %s already exists. Ignoring duplicate tool server %s",
+                    tool_from_mcp.name,
+                    url,
+                )
+        logger.info(
+            "MCPToolServer initialized with tools: %s",
+            list(self.harmony_tool_descriptions.keys()),
+        )
+
+    def has_tool(self, tool_name: str):
+        return tool_name in self.harmony_tool_descriptions
+
+    def get_tool_description(self, tool_name: str):
+        return self.harmony_tool_descriptions.get(tool_name)
+
+    @asynccontextmanager
+    async def new_session(
+        self, tool_name: str, session_id: str, headers: dict[str, str] | None = None
+    ):
+        from mcp import ClientSession
+        from mcp.client.sse import sse_client
+
+        url = self.urls.get(tool_name)
+        request_headers = {"x-session-id": session_id}
+        if headers is not None:
+            request_headers.update(headers)
+        if not url:
+            raise KeyError(f"Tool '{tool_name}' is not supported")
+        async with (
+            sse_client(url=url, headers=request_headers) as streams,
+            ClientSession(*streams) as session,
+        ):
+            await session.initialize()
+            yield session
+
+
+class DemoToolServer(ToolServer):
+    def __init__(self):
+        self.tools: dict[str, Tool] = {}
+
+    async def init_and_validate(self):
+        browser_tool = HarmonyBrowserTool()
+        python_tool = HarmonyPythonTool()
+        await python_tool.validate()
+        if browser_tool.enabled:
+            self.tools["browser"] = browser_tool
+        if python_tool.enabled:
+            self.tools["python"] = python_tool
+        logger.info(
+            "DemoToolServer initialized with tools: %s", list(self.tools.keys())
+        )
+
+    def has_tool(self, tool_name: str) -> bool:
+        return tool_name in self.tools
+
+    def get_tool_description(self, tool_name: str) -> ToolNamespaceConfig | None:
+        if tool_name not in self.tools:
+            return None
+        if tool_name == "browser":
+            return ToolNamespaceConfig.browser()
+        elif tool_name == "python":
+            return ToolNamespaceConfig.python()
+        else:
+            raise ValueError(f"Unknown tool {tool_name}")
+
+    @asynccontextmanager
+    async def new_session(
+        self, tool_name: str, session_id: str, headers: dict[str, str] | None = None
+    ):
+        if tool_name not in self.tools:
+            raise KeyError(f"Tool '{tool_name}' is not supported")
+        yield self.tools[tool_name]
diff --git a/entrypoints/utils.py b/entrypoints/utils.py
new file mode 100644
index 0000000..088bb67
--- /dev/null
+++ b/entrypoints/utils.py
@@ -0,0 +1,319 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import dataclasses
+import functools
+import os
+from argparse import Namespace
+from pathlib import Path
+from typing import Any
+
+from fastapi import Request
+from fastapi.responses import JSONResponse, StreamingResponse
+from starlette.background import BackgroundTask, BackgroundTasks
+
+from vllm.config import ModelConfig
+from vllm.engine.arg_utils import EngineArgs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import (
+    load_chat_template,
+    resolve_hf_chat_template,
+    resolve_mistral_chat_template,
+)
+from vllm.entrypoints.openai.cli_args import make_arg_parser
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    CompletionRequest,
+    StreamOptions,
+)
+from vllm.entrypoints.openai.serving_models import LoRAModulePath
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.transformers_utils.tokenizers import MistralTokenizer
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+
+logger = init_logger(__name__)
+
+VLLM_SUBCMD_PARSER_EPILOG = (
+    "For full list:            vllm {subcmd} --help=all\n"
+    "For a section:            vllm {subcmd} --help=ModelConfig    (case-insensitive)\n"  # noqa: E501
+    "For a flag:               vllm {subcmd} --help=max-model-len  (_ or - accepted)\n"  # noqa: E501
+    "Documentation:            https://docs.vllm.ai\n"
+)
+
+
+async def listen_for_disconnect(request: Request) -> None:
+    """Returns if a disconnect message is received"""
+    while True:
+        message = await request.receive()
+        if message["type"] == "http.disconnect":
+            # If load tracking is enabled *and* the counter exists, decrement
+            # it. Combines the previous nested checks into a single condition
+            # to satisfy the linter rule.
+            if getattr(
+                request.app.state, "enable_server_load_tracking", False
+            ) and hasattr(request.app.state, "server_load_metrics"):
+                request.app.state.server_load_metrics -= 1
+            break
+
+
+def with_cancellation(handler_func):
+    """Decorator that allows a route handler to be cancelled by client
+    disconnections.
+
+    This does _not_ use request.is_disconnected, which does not work with
+    middleware. Instead this follows the pattern from
+    starlette.StreamingResponse, which simultaneously awaits on two tasks- one
+    to wait for an http disconnect message, and the other to do the work that we
+    want done. When the first task finishes, the other is cancelled.
+
+    A core assumption of this method is that the body of the request has already
+    been read. This is a safe assumption to make for fastapi handlers that have
+    already parsed the body of the request into a pydantic model for us.
+    This decorator is unsafe to use elsewhere, as it will consume and throw away
+    all incoming messages for the request while it looks for a disconnect
+    message.
+
+    In the case where a `StreamingResponse` is returned by the handler, this
+    wrapper will stop listening for disconnects and instead the response object
+    will start listening for disconnects.
+    """
+
+    # Functools.wraps is required for this wrapper to appear to fastapi as a
+    # normal route handler, with the correct request type hinting.
+    @functools.wraps(handler_func)
+    async def wrapper(*args, **kwargs):
+        # The request is either the second positional arg or `raw_request`
+        request = args[1] if len(args) > 1 else kwargs["raw_request"]
+
+        handler_task = asyncio.create_task(handler_func(*args, **kwargs))
+        cancellation_task = asyncio.create_task(listen_for_disconnect(request))
+
+        done, pending = await asyncio.wait(
+            [handler_task, cancellation_task], return_when=asyncio.FIRST_COMPLETED
+        )
+        for task in pending:
+            task.cancel()
+
+        if handler_task in done:
+            return handler_task.result()
+        return None
+
+    return wrapper
+
+
+def decrement_server_load(request: Request):
+    request.app.state.server_load_metrics -= 1
+
+
+def load_aware_call(func):
+    @functools.wraps(func)
+    async def wrapper(*args, **kwargs):
+        raw_request = kwargs.get("raw_request", args[1] if len(args) > 1 else None)
+
+        if raw_request is None:
+            raise ValueError(
+                "raw_request required when server load tracking is enabled"
+            )
+
+        if not getattr(raw_request.app.state, "enable_server_load_tracking", False):
+            return await func(*args, **kwargs)
+
+        # ensure the counter exists
+        if not hasattr(raw_request.app.state, "server_load_metrics"):
+            raw_request.app.state.server_load_metrics = 0
+
+        raw_request.app.state.server_load_metrics += 1
+        try:
+            response = await func(*args, **kwargs)
+        except Exception:
+            raw_request.app.state.server_load_metrics -= 1
+            raise
+
+        if isinstance(response, (JSONResponse, StreamingResponse)):
+            if response.background is None:
+                response.background = BackgroundTask(decrement_server_load, raw_request)
+            elif isinstance(response.background, BackgroundTasks):
+                response.background.add_task(decrement_server_load, raw_request)
+            elif isinstance(response.background, BackgroundTask):
+                # Convert the single BackgroundTask to BackgroundTasks
+                # and chain the decrement_server_load task to it
+                tasks = BackgroundTasks()
+                tasks.add_task(
+                    response.background.func,
+                    *response.background.args,
+                    **response.background.kwargs,
+                )
+                tasks.add_task(decrement_server_load, raw_request)
+                response.background = tasks
+        else:
+            raw_request.app.state.server_load_metrics -= 1
+
+        return response
+
+    return wrapper
+
+
+def cli_env_setup():
+    # The safest multiprocessing method is `spawn`, as the default `fork` method
+    # is not compatible with some accelerators. The default method will be
+    # changing in future versions of Python, so we should use it explicitly when
+    # possible.
+    #
+    # We only set it here in the CLI entrypoint, because changing to `spawn`
+    # could break some existing code using vLLM as a library. `spawn` will cause
+    # unexpected behavior if the code is not protected by
+    # `if __name__ == "__main__":`.
+    #
+    # References:
+    # - https://docs.python.org/3/library/multiprocessing.html#contexts-and-start-methods
+    # - https://pytorch.org/docs/stable/notes/multiprocessing.html#cuda-in-multiprocessing
+    # - https://pytorch.org/docs/stable/multiprocessing.html#sharing-cuda-tensors
+    # - https://docs.habana.ai/en/latest/PyTorch/Getting_Started_with_PyTorch_and_Gaudi/Getting_Started_with_PyTorch.html?highlight=multiprocessing#torch-multiprocessing-for-dataloaders
+    if "VLLM_WORKER_MULTIPROC_METHOD" not in os.environ:
+        logger.debug("Setting VLLM_WORKER_MULTIPROC_METHOD to 'spawn'")
+        os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+
+
+def _validate_truncation_size(
+    max_model_len: int,
+    truncate_prompt_tokens: int | None,
+    tokenization_kwargs: dict[str, Any] | None = None,
+) -> int | None:
+    if truncate_prompt_tokens is not None:
+        if truncate_prompt_tokens <= -1:
+            truncate_prompt_tokens = max_model_len
+
+        if truncate_prompt_tokens > max_model_len:
+            raise ValueError(
+                f"truncate_prompt_tokens value ({truncate_prompt_tokens}) "
+                f"is greater than max_model_len ({max_model_len})."
+                f" Please, select a smaller truncation size."
+            )
+
+        if tokenization_kwargs is not None:
+            tokenization_kwargs["truncation"] = True
+            tokenization_kwargs["max_length"] = truncate_prompt_tokens
+
+    else:
+        if tokenization_kwargs is not None:
+            tokenization_kwargs["truncation"] = False
+
+    return truncate_prompt_tokens
+
+
+def get_max_tokens(
+    max_model_len: int,
+    request: ChatCompletionRequest | CompletionRequest,
+    input_length: int,
+    default_sampling_params: dict,
+) -> int:
+    max_tokens = getattr(request, "max_completion_tokens", None) or request.max_tokens
+    default_max_tokens = max_model_len - input_length
+    max_output_tokens = current_platform.get_max_output_tokens(input_length)
+
+    return min(
+        val
+        for val in (
+            default_max_tokens,
+            max_tokens,
+            max_output_tokens,
+            default_sampling_params.get("max_tokens"),
+        )
+        if val is not None
+    )
+
+
+def log_non_default_args(args: Namespace | EngineArgs):
+    non_default_args = {}
+
+    # Handle Namespace
+    if isinstance(args, Namespace):
+        parser = make_arg_parser(FlexibleArgumentParser())
+        for arg, default in vars(parser.parse_args([])).items():
+            if default != getattr(args, arg):
+                non_default_args[arg] = getattr(args, arg)
+
+    # Handle EngineArgs instance
+    elif isinstance(args, EngineArgs):
+        default_args = EngineArgs(model=args.model)  # Create default instance
+        for field in dataclasses.fields(args):
+            current_val = getattr(args, field.name)
+            default_val = getattr(default_args, field.name)
+            if current_val != default_val:
+                non_default_args[field.name] = current_val
+        if default_args.model != EngineArgs.model:
+            non_default_args["model"] = default_args.model
+    else:
+        raise TypeError(
+            "Unsupported argument type. Must be Namespace or EngineArgs instance."
+        )
+
+    logger.info("non-default args: %s", non_default_args)
+
+
+def should_include_usage(
+    stream_options: StreamOptions | None, enable_force_include_usage: bool
+) -> tuple[bool, bool]:
+    if stream_options:
+        include_usage = stream_options.include_usage or enable_force_include_usage
+        include_continuous_usage = include_usage and bool(
+            stream_options.continuous_usage_stats
+        )
+    else:
+        include_usage, include_continuous_usage = enable_force_include_usage, False
+    return include_usage, include_continuous_usage
+
+
+def process_lora_modules(
+    args_lora_modules: list[LoRAModulePath], default_mm_loras: dict[str, str] | None
+) -> list[LoRAModulePath]:
+    lora_modules = args_lora_modules
+    if default_mm_loras:
+        default_mm_lora_paths = [
+            LoRAModulePath(
+                name=modality,
+                path=lora_path,
+            )
+            for modality, lora_path in default_mm_loras.items()
+        ]
+        if args_lora_modules is None:
+            lora_modules = default_mm_lora_paths
+        else:
+            lora_modules += default_mm_lora_paths
+    return lora_modules
+
+
+async def process_chat_template(
+    args_chat_template: Path | str | None,
+    engine_client: EngineClient,
+    model_config: ModelConfig,
+) -> str | None:
+    resolved_chat_template = load_chat_template(args_chat_template)
+    if resolved_chat_template is not None:
+        # Get the tokenizer to check official template
+        tokenizer = await engine_client.get_tokenizer()
+
+        if isinstance(tokenizer, MistralTokenizer):
+            # The warning is logged in resolve_mistral_chat_template.
+            resolved_chat_template = resolve_mistral_chat_template(
+                chat_template=resolved_chat_template
+            )
+        else:
+            hf_chat_template = resolve_hf_chat_template(
+                tokenizer=tokenizer,
+                chat_template=None,
+                tools=None,
+                model_config=model_config,
+            )
+
+            if hf_chat_template != resolved_chat_template:
+                logger.warning(
+                    "Using supplied chat template: %s\n"
+                    "It is different from official chat template '%s'. "
+                    "This discrepancy may lead to performance degradation.",
+                    resolved_chat_template,
+                    model_config.model,
+                )
+    return resolved_chat_template
diff --git a/env_override.py b/env_override.py
new file mode 100644
index 0000000..14dae28
--- /dev/null
+++ b/env_override.py
@@ -0,0 +1,378 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.utils.torch_utils import is_torch_equal
+
+logger = init_logger(__name__)
+
+# set some common config/environment variables that should be set
+# for all processes created by vllm and all processes
+# that interact with vllm workers.
+# they are executed whenever `import vllm` is called.
+
+# see https://github.com/vllm-project/vllm/pull/15951
+# it avoids unintentional cuda initialization from torch.cuda.is_available()
+os.environ["PYTORCH_NVML_BASED_CUDA_CHECK"] = "1"
+
+# see https://github.com/vllm-project/vllm/issues/10480
+os.environ["TORCHINDUCTOR_COMPILE_THREADS"] = "1"
+# see https://github.com/vllm-project/vllm/issues/10619
+torch._inductor.config.compile_threads = 1
+
+# ===================================================
+# torch 2.9 Inductor PythonWrapperCodegen monkeypatch
+# ===================================================
+# This change monkeypatches memory_plan_reuse in pytorch 2.9.0 to work around
+# a test failure for test_multi_graph_piecewise_compile_outputs_equal.
+# For more context, see https://github.com/pytorch/pytorch/pull/165514.
+
+
+def memory_plan_reuse_patched(self):
+    import torch._inductor.ir as ir
+    from torch._inductor.codegen.wrapper import (
+        EnterSubgraphLine,
+        ExitSubgraphLine,
+        MemoryPlanningLine,
+        MemoryPlanningState,
+        SubgraphPythonWrapperCodegen,
+    )
+    from torch._inductor.virtualized import V
+
+    def get_output_names(graph_outputs) -> list[str]:
+        import itertools
+
+        names = []
+        shape_counter = itertools.count(0)
+        none_counter = itertools.count(0)
+        for node in graph_outputs:
+            if isinstance(node, ir.NoneAsConstantBuffer):
+                names.append(f"{V.graph.name}_none{next(none_counter)}")
+            elif isinstance(node, ir.ShapeAsConstantBuffer):
+                names.append(f"{V.graph.name}_shape{next(shape_counter)}")
+            else:
+                names.append(node.get_name())
+        return names
+
+    if (
+        isinstance(V.graph.wrapper_code, SubgraphPythonWrapperCodegen)
+        and V.graph.wrapper_code.partition_signatures is not None
+    ):
+        out_names = get_output_names(
+            V.graph.wrapper_code.partition_signatures.output_nodes
+        )
+    else:
+        out_names = V.graph.get_output_names()
+
+    while (
+        self.lines
+        and isinstance(self.lines[-1], MemoryPlanningLine)
+        and self.lines[-1].node.name not in out_names  # type: ignore[attr-defined]
+    ):
+        # these lines will be pointless
+        self.lines.pop()
+
+    # codegen allocations in two passes
+    planning_states = [MemoryPlanningState()]
+    past_planning_states = []
+    for i in range(len(self.lines)):
+        line = self.lines[i]
+        if isinstance(line, MemoryPlanningLine):
+            self.lines[i] = line.plan(planning_states[-1])
+        elif isinstance(line, EnterSubgraphLine):
+            planning_states.append(MemoryPlanningState())
+        elif isinstance(line, ExitSubgraphLine):
+            past_planning_states.append(planning_states.pop())
+    past_planning_states.append(planning_states.pop())
+    assert len(planning_states) == 0
+
+
+# ===================================================
+# torch 2.9 Inductor get_graph_partition_signature monkeypatch
+# ===================================================
+# This change monkeypatches get_graph_partition_signature in pytorch 2.9.0 to
+# fix inductor partition + attention-nvfp4 quant fusion, tested in
+# `tests/compile/test_fusions_e2e.py::test_attn_quant`.
+# For more context, see https://github.com/pytorch/pytorch/pull/165815.
+
+
+def get_graph_partition_signature_patched(
+    self, partitions, skip_cudagraphs: list[bool]
+):
+    """
+    Gets signature for each graph partition, including input nodes, output nodes, and
+    whether deallocating an input within graph partition.
+    """
+    from torch._inductor import dependencies
+    from torch._inductor.ir import GraphPartitionSignature, MutationOutput, NoneLayout
+    from torch._inductor.virtualized import V
+    from torch.utils._ordered_set import OrderedSet
+
+    signatures = []
+
+    unmet_output_names = OrderedSet(V.graph.get_output_names())
+    name_to_node = self.get_name_to_nodes()
+
+    def is_none_layout(buf_name: str) -> bool:
+        """
+        Checks if buf_name is NoneLayout. Buffers with NoneLayout is not allocated
+        so graph partition should not take it as inputs or outputs.
+        """
+        buf = self.name_to_buf.get(buf_name, None)
+
+        if buf is None:
+            return False
+
+        if isinstance(buf.node.layout, NoneLayout):
+            if isinstance(buf.node, MutationOutput) and (
+                real_name := self.mutation_real_name.get(buf_name, None)
+            ):
+                return is_none_layout(real_name)
+
+            return True
+
+        return False
+
+    for partition, skip_cudagraph in zip(
+        reversed(partitions), reversed(skip_cudagraphs)
+    ):
+        output_names: OrderedSet[str] = OrderedSet()
+
+        for node in partition:
+            output_names.update(node.outputs_by_name.keys())
+
+        returned_output_names = output_names.intersection(unmet_output_names)
+
+        # all reads/writes are partition inputs except those generated
+        # within the partition and tensor constants
+        read_writes = dependencies.ReadWrites.merge_list(
+            [node.read_writes for node in partition]
+        )
+
+        # WeakDep is fake dependency on unused buffer. It should not appear
+        # in partition_input_names for inputs that are actually read or written.
+        partition_input_names = (
+            OrderedSet(
+                [
+                    x.name
+                    for x in read_writes.reads | read_writes.writes
+                    if not is_none_layout(x.name)
+                ]
+            )
+            - output_names
+        )
+
+        partition_input_names = OrderedSet(
+            self.mutation_real_name.get(name, name) for name in partition_input_names
+        )
+
+        buffer_names_to_free: OrderedSet[str] = OrderedSet()
+        for node in partition:
+            buffer_names_to_free.update(node.last_usage)
+
+        # buffer_names_to_free may contain buffers allocated in previous
+        # graph partitions. These buffers should also be a partition
+        # input.
+        extra_input_names = [
+            name
+            for name in (buffer_names_to_free - output_names)
+            if name in name_to_node
+        ]
+        partition_input_names.update(extra_input_names)
+
+        input_nodes = {
+            name: name_to_node[name]
+            for name in partition_input_names
+            if name in name_to_node
+        }
+        input_deallocation = {
+            name: name in buffer_names_to_free
+            for name in partition_input_names
+            if name in name_to_node
+        }
+
+        # if an input tensor is not freed in the partition function, it should
+        # also be returned as an output. This brings benefits to cudagraph
+        # since the returned output tensor is a cudagraph managed tensor with
+        # a static tensor address.
+        extra_output_names = [
+            name
+            for name in partition_input_names
+            if name in name_to_node and name not in buffer_names_to_free
+        ]
+
+        returned_output_names.update(extra_output_names)
+
+        returned_output_names = OrderedSet(
+            self.mutation_real_name.get(name, name) for name in returned_output_names
+        )
+
+        output_nodes = [
+            name_to_node[name]
+            for name in returned_output_names
+            if not is_none_layout(name)
+        ]
+
+        constant_names = [
+            name for name in partition_input_names if name in V.graph.constants
+        ]
+
+        symbol_inputs = self.get_graph_partition_symbol_inputs(partition, input_nodes)
+
+        partition_signature = GraphPartitionSignature(
+            symbol_inputs,
+            input_nodes,
+            output_nodes,
+            input_deallocation,
+            skip_cudagraph,
+            constant_names,
+        )
+
+        signatures.append(partition_signature)
+
+        unmet_output_names = partition_input_names.union(
+            unmet_output_names - returned_output_names
+        )
+
+    return signatures[::-1]
+
+
+# ========================================
+# torch 2.9 Inductor Scheduler monkeypatch
+# ========================================
+# This change monkeypatches a function in Inductor to work around the following
+# bug: https://github.com/vllm-project/vllm/issues/26678
+#
+# The bug occurs when `use_inductor_graph_partition` is turned on and there
+# exists operators inside of `splitting_ops` that have an in-place mutation. In
+# vllm, this specifically occurs on the operator
+# vllm.unified_attention_with_output. In this case, inductor does not populate
+# the inductor IR's `origin_node` field, causing an assertion error when trying
+# to access the node's `origin_node` field.
+#
+# So, we will monkeypatch torch._inductor.scheduler.Scheduler.should_partition
+# so that it does not access the inductor IR node's `origin_node` field and just
+# returns True if a node is registered as having a custom partition function.
+# This is ok for now since vllm's implementation of the custom partition
+# functions just return True.
+# ========================================
+
+
+def should_partition_patched(self, node, should_log: bool = False) -> bool:
+    # This is a patched version of
+    # torch._inductor.scheduler.Scheduler.should_partition that modifies
+    # the following piece of code so that we always return True:
+    # https://github.com/pytorch/pytorch/blob/ecb53078faf86ca1b33277df33b82985675bb011/torch/_inductor/scheduler.py#L4712-L4724
+    """Return True if we should partition the inductor graph on this node"""
+
+    import torch._inductor.ir as ir
+    from torch._inductor.scheduler import (
+        BaseSchedulerNode,
+        FusedSchedulerNode,
+    )
+    from torch._inductor.utils import (
+        _unstable_customized_partition_wrapper,
+        is_cudagraph_unsafe_op,
+        maybe_log_cudagraph_partition,
+    )
+
+    # Allow users to manually specify if a node should be partitioned
+    # Can only do this for FallbackKernels
+    ir_node = node.node
+    if isinstance(ir_node, torch._inductor.ir.FallbackKernel) and (
+        op := ir_node.op_overload
+    ):
+        op_overload_packet_name = op.name()
+        op_overload_name = (
+            f"{op_overload_packet_name}.{op._overloadname}"
+            if isinstance(op, torch._ops.OpOverload)
+            else op_overload_packet_name
+        )
+        if (
+            op_overload_packet_name
+            in torch._inductor.config.custom_should_partition_ops
+            or op_overload_name in torch._inductor.config.custom_should_partition_ops
+        ):
+            assert isinstance(op, torch._ops.OpOverload)
+            return True
+
+    # When not using cudagraphs, keep all kernels in the `call` function
+    # instead of graph partition functions, since graph partition only brings
+    # benefit to cudagraph
+    if (
+        not torch._inductor.config.triton.cudagraphs
+        and _unstable_customized_partition_wrapper.wrapper is None
+    ):
+        return True
+
+    # avoid duplicating logs when should_partition is called multiple times
+    # on the same node
+    def noop_log(msg: str, node: BaseSchedulerNode | None) -> None:
+        return
+
+    log_partition_reason = maybe_log_cudagraph_partition if should_log else noop_log
+
+    if isinstance(node, FusedSchedulerNode):
+        return any(self.should_partition(snode) for snode in node.snodes)
+
+    assert node.node is not None
+
+    if not node.is_gpu():
+        log_partition_reason("non gpu ops", node=node)
+
+        return True
+
+    if isinstance(node.node, ir.DeviceCopy):
+        log_partition_reason("DeviceCopy ops", node=node)
+        return True
+
+    if isinstance(node.node, ir.Conditional):
+        log_partition_reason("Conditional ops", node=node)
+        return True
+
+    if getattr(node.node, "unbacked_bindings", None):
+        log_partition_reason("unbacked binding ops", node=node)
+        return True
+
+    if is_cudagraph_unsafe_op(node.node):
+        log_partition_reason("CUDAGraph-unsafe custom ops", node=node)
+        return True
+
+    return False
+
+
+def _update_scheduler_patched(self) -> None:
+    # Copied from torch._inductor.graph.GrahLowering._update_scheduler. Patches
+    # this method so that we can patch Scheduler.should_partition with the
+    # function above
+    """
+    (Re)initializes the scheduler member.  When initializing the scheduler, no CUBIN
+    files should be generated (to avoid biasing any benchmarks and pessimizing
+    fusion decisions).
+    """
+    import torch._inductor.config as config
+    from torch._inductor.scheduler import Scheduler
+
+    Scheduler.should_partition = should_partition_patched
+    Scheduler.get_graph_partition_signature = get_graph_partition_signature_patched
+
+    with config.patch("triton.store_cubin", False):
+        self.scheduler = Scheduler(self.operations)
+
+
+if is_torch_equal("2.9.0"):
+    from torch._inductor.codegen.wrapper import PythonWrapperCodegen
+    from torch._inductor.graph import GraphLowering
+    from torch.utils._config_module import _Config, _ConfigEntry
+
+    # `custom_should_partition_ops` is a new config after 2.9.0. So this would
+    # not overwrite any user configs.
+    torch._inductor.config._config["custom_should_partition_ops"] = _ConfigEntry(
+        _Config(default=[])
+    )
+
+    PythonWrapperCodegen.memory_plan_reuse = memory_plan_reuse_patched
+    GraphLowering._update_scheduler = _update_scheduler_patched
diff --git a/envs.py b/envs.py
new file mode 100644
index 0000000..db66d33
--- /dev/null
+++ b/envs.py
@@ -0,0 +1,1729 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+import hashlib
+import json
+import os
+import sys
+import tempfile
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any, Literal
+
+if TYPE_CHECKING:
+    VLLM_HOST_IP: str = ""
+    VLLM_PORT: int | None = None
+    VLLM_RPC_BASE_PATH: str = tempfile.gettempdir()
+    VLLM_USE_MODELSCOPE: bool = False
+    VLLM_RINGBUFFER_WARNING_INTERVAL: int = 60
+    VLLM_NCCL_SO_PATH: str | None = None
+    LD_LIBRARY_PATH: str | None = None
+    VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE: int = 256
+    VLLM_V1_USE_PREFILL_DECODE_ATTENTION: bool = False
+    VLLM_FLASH_ATTN_VERSION: int | None = None
+    LOCAL_RANK: int = 0
+    CUDA_VISIBLE_DEVICES: str | None = None
+    VLLM_ENGINE_ITERATION_TIMEOUT_S: int = 60
+    VLLM_API_KEY: str | None = None
+    VLLM_DEBUG_LOG_API_SERVER_RESPONSE: bool = False
+    S3_ACCESS_KEY_ID: str | None = None
+    S3_SECRET_ACCESS_KEY: str | None = None
+    S3_ENDPOINT_URL: str | None = None
+    VLLM_MODEL_REDIRECT_PATH: str | None = None
+    VLLM_CACHE_ROOT: str = os.path.expanduser("~/.cache/vllm")
+    VLLM_CONFIG_ROOT: str = os.path.expanduser("~/.config/vllm")
+    VLLM_USAGE_STATS_SERVER: str = "https://stats.vllm.ai"
+    VLLM_NO_USAGE_STATS: bool = False
+    VLLM_DISABLE_FLASHINFER_PREFILL: bool = False
+    VLLM_DO_NOT_TRACK: bool = False
+    VLLM_USAGE_SOURCE: str = ""
+    VLLM_CONFIGURE_LOGGING: int = 1
+    VLLM_LOGGING_LEVEL: str = "INFO"
+    VLLM_LOGGING_PREFIX: str = ""
+    VLLM_LOGGING_STREAM: str = "ext://sys.stdout"
+    VLLM_LOGGING_CONFIG_PATH: str | None = None
+    VLLM_LOG_STATS_INTERVAL: float = 10.0
+    VLLM_TRACE_FUNCTION: int = 0
+    VLLM_ATTENTION_BACKEND: str | None = None
+    VLLM_USE_FLASHINFER_SAMPLER: bool | None = None
+    VLLM_PP_LAYER_PARTITION: str | None = None
+    VLLM_CPU_KVCACHE_SPACE: int | None = 0
+    VLLM_CPU_OMP_THREADS_BIND: str = ""
+    VLLM_CPU_NUM_OF_RESERVED_CPU: int | None = None
+    VLLM_CPU_MOE_PREPACK: bool = True
+    VLLM_CPU_SGL_KERNEL: bool = False
+    VLLM_XLA_CACHE_PATH: str = os.path.join(VLLM_CACHE_ROOT, "xla_cache")
+    VLLM_XLA_CHECK_RECOMPILATION: bool = False
+    VLLM_FUSED_MOE_CHUNK_SIZE: int = 64 * 1024
+    VLLM_ENABLE_FUSED_MOE_ACTIVATION_CHUNKING: bool = True
+    VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE: Literal["auto", "nccl", "shm"] = "auto"
+    VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM: bool = False
+    VLLM_USE_RAY_WRAPPED_PP_COMM: bool = True
+    VLLM_XLA_USE_SPMD: bool = False
+    VLLM_WORKER_MULTIPROC_METHOD: Literal["fork", "spawn"] = "fork"
+    VLLM_ASSETS_CACHE: str = os.path.join(VLLM_CACHE_ROOT, "assets")
+    VLLM_ASSETS_CACHE_MODEL_CLEAN: bool = False
+    VLLM_IMAGE_FETCH_TIMEOUT: int = 5
+    VLLM_VIDEO_FETCH_TIMEOUT: int = 30
+    VLLM_AUDIO_FETCH_TIMEOUT: int = 10
+    VLLM_MEDIA_URL_ALLOW_REDIRECTS: bool = True
+    VLLM_MEDIA_LOADING_THREAD_COUNT: int = 8
+    VLLM_MAX_AUDIO_CLIP_FILESIZE_MB: int = 25
+    VLLM_VIDEO_LOADER_BACKEND: str = "opencv"
+    VLLM_MEDIA_CONNECTOR: str = "http"
+    VLLM_MM_INPUT_CACHE_GIB: int = 4
+    VLLM_TARGET_DEVICE: str = "cuda"
+    VLLM_MAIN_CUDA_VERSION: str = "12.8"
+    MAX_JOBS: str | None = None
+    NVCC_THREADS: str | None = None
+    VLLM_USE_PRECOMPILED: bool = False
+    VLLM_DOCKER_BUILD_CONTEXT: bool = False
+    VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL: bool = False
+    VLLM_KEEP_ALIVE_ON_ENGINE_DEATH: bool = False
+    CMAKE_BUILD_TYPE: Literal["Debug", "Release", "RelWithDebInfo"] | None = None
+    VERBOSE: bool = False
+    VLLM_ALLOW_LONG_MAX_MODEL_LEN: bool = False
+    VLLM_RPC_TIMEOUT: int = 10000  # ms
+    VLLM_HTTP_TIMEOUT_KEEP_ALIVE: int = 5  # seconds
+    VLLM_PLUGINS: list[str] | None = None
+    VLLM_LORA_RESOLVER_CACHE_DIR: str | None = None
+    VLLM_TORCH_CUDA_PROFILE: bool = False
+    VLLM_TORCH_PROFILER_DIR: str | None = None
+    VLLM_TORCH_PROFILER_RECORD_SHAPES: bool = False
+    VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY: bool = False
+    VLLM_USE_AOT_COMPILE: bool = False
+    VLLM_USE_BYTECODE_HOOK: bool = False
+    VLLM_FORCE_AOT_LOAD: bool = False
+    VLLM_TORCH_PROFILER_WITH_STACK: bool = True
+    VLLM_TORCH_PROFILER_WITH_FLOPS: bool = False
+    VLLM_USE_TRITON_AWQ: bool = False
+    VLLM_ALLOW_RUNTIME_LORA_UPDATING: bool = False
+    VLLM_SKIP_P2P_CHECK: bool = False
+    VLLM_DISABLED_KERNELS: list[str] = []
+    VLLM_DISABLE_PYNCCL: bool = False
+    VLLM_ROCM_USE_AITER: bool = False
+    VLLM_ROCM_USE_AITER_PAGED_ATTN: bool = False
+    VLLM_ROCM_USE_AITER_LINEAR: bool = True
+    VLLM_ROCM_USE_AITER_MOE: bool = True
+    VLLM_ROCM_USE_AITER_RMSNORM: bool = True
+    VLLM_ROCM_USE_AITER_MLA: bool = True
+    VLLM_ROCM_USE_AITER_MHA: bool = True
+    VLLM_ROCM_USE_AITER_FP4_ASM_GEMM: bool = False
+    VLLM_ROCM_USE_AITER_TRITON_ROPE: bool = False
+    VLLM_ROCM_USE_AITER_FP8BMM: bool = True
+    VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION: bool = False
+    VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS: bool = True
+    VLLM_ROCM_USE_AITER_TRITON_GEMM: bool = True
+    VLLM_ROCM_USE_SKINNY_GEMM: bool = True
+    VLLM_ROCM_FP8_PADDING: bool = True
+    VLLM_ROCM_MOE_PADDING: bool = True
+    VLLM_ROCM_CUSTOM_PAGED_ATTN: bool = True
+    VLLM_ENABLE_V1_MULTIPROCESSING: bool = True
+    VLLM_LOG_BATCHSIZE_INTERVAL: float = -1
+    VLLM_DISABLE_COMPILE_CACHE: bool = False
+    Q_SCALE_CONSTANT: int = 200
+    K_SCALE_CONSTANT: int = 200
+    V_SCALE_CONSTANT: int = 100
+    VLLM_SERVER_DEV_MODE: bool = False
+    VLLM_V1_OUTPUT_PROC_CHUNK_SIZE: int = 128
+    VLLM_MLA_DISABLE: bool = False
+    VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH: int = 32
+    VLLM_RAY_PER_WORKER_GPUS: float = 1.0
+    VLLM_RAY_BUNDLE_INDICES: str = ""
+    VLLM_CUDART_SO_PATH: str | None = None
+    VLLM_DP_RANK: int = 0
+    VLLM_DP_RANK_LOCAL: int = -1
+    VLLM_DP_SIZE: int = 1
+    VLLM_USE_STANDALONE_COMPILE: bool = True
+    VLLM_DP_MASTER_IP: str = ""
+    VLLM_DP_MASTER_PORT: int = 0
+    VLLM_MOE_DP_CHUNK_SIZE: int = 256
+    VLLM_RANDOMIZE_DP_DUMMY_INPUTS: bool = False
+    VLLM_RAY_DP_PACK_STRATEGY: Literal["strict", "fill", "span"] = "strict"
+    VLLM_MARLIN_USE_ATOMIC_ADD: bool = False
+    VLLM_MXFP4_USE_MARLIN: bool | None = None
+    VLLM_V1_USE_OUTLINES_CACHE: bool = False
+    VLLM_TPU_BUCKET_PADDING_GAP: int = 0
+    VLLM_TPU_MOST_MODEL_LEN: int | None = None
+    VLLM_TPU_USING_PATHWAYS: bool = False
+    VLLM_USE_DEEP_GEMM: bool = True
+    VLLM_MOE_USE_DEEP_GEMM: bool = True
+    VLLM_USE_DEEP_GEMM_E8M0: bool = True
+    VLLM_DEEP_GEMM_WARMUP: Literal[
+        "skip",
+        "full",
+        "relax",
+    ] = "relax"
+    VLLM_USE_FUSED_MOE_GROUPED_TOPK: bool = True
+    VLLM_USE_FLASHINFER_MOE_FP16: bool = False
+    VLLM_USE_FLASHINFER_MOE_FP8: bool = False
+    VLLM_USE_FLASHINFER_MOE_FP4: bool = False
+    VLLM_FLASHINFER_MOE_BACKEND: Literal["throughput", "latency"] = "latency"
+    VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE: int = 394 * 1024 * 1024
+    VLLM_XGRAMMAR_CACHE_MB: int = 0
+    VLLM_MSGPACK_ZERO_COPY_THRESHOLD: int = 256
+    VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
+    VLLM_NIXL_SIDE_CHANNEL_HOST: str = "localhost"
+    VLLM_NIXL_SIDE_CHANNEL_PORT: int = 5600
+    VLLM_ALL2ALL_BACKEND: Literal[
+        "naive",
+        "pplx",
+        "deepep_high_throughput",
+        "deepep_low_latency",
+        "allgather_reducescatter",
+        "flashinfer_all2allv",
+    ] = "allgather_reducescatter"
+    VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE: int = 163840
+    VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS: int = 1
+    VLLM_SLEEP_WHEN_IDLE: bool = False
+    VLLM_MQ_MAX_CHUNK_BYTES_MB: int = 16
+    VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS: int = 300
+    VLLM_KV_CACHE_LAYOUT: Literal["NHD", "HND"] | None = None
+    VLLM_COMPUTE_NANS_IN_LOGITS: bool = False
+    VLLM_USE_NVFP4_CT_EMULATIONS: bool = False
+    VLLM_ROCM_QUICK_REDUCE_QUANTIZATION: Literal[
+        "FP", "INT8", "INT6", "INT4", "NONE"
+    ] = "NONE"
+    VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16: bool = True
+    VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB: int | None = None
+    VLLM_NIXL_ABORT_REQUEST_TIMEOUT: int = 480
+    VLLM_USE_CUDNN_PREFILL: bool = False
+    VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL: bool = False
+    VLLM_ENABLE_CUDAGRAPH_GC: bool = False
+    VLLM_LOOPBACK_IP: str = ""
+    VLLM_ALLOW_CHUNKED_LOCAL_ATTN_WITH_HYBRID_KV_CACHE: bool = False
+    VLLM_ENABLE_RESPONSES_API_STORE: bool = False
+    VLLM_USE_TRTLLM_ATTENTION: str | None = None
+    VLLM_NVFP4_GEMM_BACKEND: str | None = None
+    VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION: bool = False
+    VLLM_HAS_FLASHINFER_CUBIN: bool = False
+    VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8: bool = False
+    VLLM_USE_FLASHINFER_MOE_MXFP4_BF16: bool = False
+    VLLM_ROCM_FP8_MFMA_PAGE_ATTN: bool = False
+    VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS: bool = False
+    VLLM_ALLREDUCE_USE_SYMM_MEM: bool = True
+    VLLM_TUNED_CONFIG_FOLDER: str | None = None
+    VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS: set[str] = set()
+    VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS: bool = False
+    VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY: bool = False
+    VLLM_CUSTOM_SCOPES_FOR_PROFILING: bool = False
+    VLLM_NVTX_SCOPES_FOR_PROFILING: bool = False
+    VLLM_KV_EVENTS_USE_INT_BLOCK_HASHES: bool = True
+    VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME: str = "VLLM_OBJECT_STORAGE_SHM_BUFFER"
+    VLLM_DEEPEP_BUFFER_SIZE_MB: int = 1024
+    VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE: bool = False
+    VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL: bool = False
+    VLLM_DBO_COMM_SMS: int = 20
+    VLLM_PATTERN_MATCH_DEBUG: str | None = None
+    VLLM_DEBUG_DUMP_PATH: str | None = None
+    VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE: bool = True
+    VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING: bool = True
+    VLLM_USE_NCCL_SYMM_MEM: bool = False
+    VLLM_NCCL_INCLUDE_PATH: str | None = None
+    VLLM_USE_FBGEMM: bool = False
+    VLLM_GC_DEBUG: str = ""
+    VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = True
+    VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD: int = 256
+    VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
+    VLLM_FLAT_LOGPROBS: bool = False
+    # optional envs we add.
+    VLLM_W8A8_MOE_USE_W4A8: bool = False
+    VLLM_W4A8_FORMAT: str = "TN"
+    VLLM_W4A8_VERSION: int = 2
+    VLLM_MIX_QUANTIZATION_TYPE: str = ""
+    VLLM_MLA_CUSTOMIZE: bool = True
+    VLLM_USE_INT8_MLA: bool = False
+    VLLM_USE_MIX_MHA: bool = False
+    
+    # support Iluvatar IxServer
+    VLLM_SUPPORT_IXSERVER: bool = False
+
+    VLLM_ATTN_OPT_LEVEL: bool = False
+    VLLM_MOE_OPT_LEVEL: int = 0
+    VLLM_LINEAR_OPT_LEVEL: int = 0
+    VLLM_OPT_EXCLUDE_LAYERS: str = ""
+    VLLM_USE_LORA_FUSION: bool = False
+
+def get_default_cache_root():
+    return os.getenv(
+        "XDG_CACHE_HOME",
+        os.path.join(os.path.expanduser("~"), ".cache"),
+    )
+
+
+def get_default_config_root():
+    return os.getenv(
+        "XDG_CONFIG_HOME",
+        os.path.join(os.path.expanduser("~"), ".config"),
+    )
+
+
+def maybe_convert_int(value: str | None) -> int | None:
+    if value is None:
+        return None
+    return int(value)
+
+
+def maybe_convert_bool(value: str | None) -> bool | None:
+    if value is None:
+        return None
+    return bool(int(value))
+
+
+def disable_compile_cache() -> bool:
+    return bool(int(os.getenv("VLLM_DISABLE_COMPILE_CACHE", "0")))
+
+
+def use_aot_compile() -> bool:
+    from vllm.model_executor.layers.batch_invariant import (
+        vllm_is_batch_invariant,
+    )
+    from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+    default_value = (
+        "1"
+        if is_torch_equal_or_newer("2.10.0.dev") and not disable_compile_cache()
+        else "0"
+    )
+
+    return (
+        not vllm_is_batch_invariant()
+        and os.environ.get("VLLM_USE_AOT_COMPILE", default_value) == "1"
+    )
+
+
+def env_with_choices(
+    env_name: str,
+    default: str | None,
+    choices: list[str] | Callable[[], list[str]],
+    case_sensitive: bool = True,
+) -> Callable[[], str | None]:
+    """
+    Create a lambda that validates environment variable against allowed choices
+
+    Args:
+        env_name: Name of the environment variable
+        default: Default value if not set (can be None)
+        choices: List of valid string options or callable that returns list
+        case_sensitive: Whether validation should be case sensitive
+
+    Returns:
+        Lambda function for environment_variables dict
+    """
+
+    def _get_validated_env() -> str | None:
+        value = os.getenv(env_name)
+        if value is None:
+            return default
+
+        # Resolve choices if it's a callable (for lazy loading)
+        actual_choices = choices() if callable(choices) else choices
+
+        if not case_sensitive:
+            check_value = value.lower()
+            check_choices = [choice.lower() for choice in actual_choices]
+        else:
+            check_value = value
+            check_choices = actual_choices
+
+        if check_value not in check_choices:
+            raise ValueError(
+                f"Invalid value '{value}' for {env_name}. "
+                f"Valid options: {actual_choices}."
+            )
+
+        return value
+
+    return _get_validated_env
+
+
+def env_list_with_choices(
+    env_name: str,
+    default: list[str],
+    choices: list[str] | Callable[[], list[str]],
+    case_sensitive: bool = True,
+) -> Callable[[], list[str]]:
+    """
+    Create a lambda that validates environment variable
+    containing comma-separated values against allowed choices
+
+    Args:
+        env_name: Name of the environment variable
+        default: Default list of values if not set
+        choices: List of valid string options or callable that returns list
+        case_sensitive: Whether validation should be case sensitive
+
+    Returns:
+        Lambda function for environment_variables
+        dict that returns list of strings
+    """
+
+    def _get_validated_env_list() -> list[str]:
+        value = os.getenv(env_name)
+        if value is None:
+            return default
+
+        # Split comma-separated values and strip whitespace
+        values = [v.strip() for v in value.split(",") if v.strip()]
+
+        if not values:
+            return default
+
+        # Resolve choices if it's a callable (for lazy loading)
+        actual_choices = choices() if callable(choices) else choices
+
+        # Validate each value
+        for val in values:
+            if not case_sensitive:
+                check_value = val.lower()
+                check_choices = [choice.lower() for choice in actual_choices]
+            else:
+                check_value = val
+                check_choices = actual_choices
+
+            if check_value not in check_choices:
+                raise ValueError(
+                    f"Invalid value '{val}' in {env_name}. "
+                    f"Valid options: {actual_choices}."
+                )
+
+        return values
+
+    return _get_validated_env_list
+
+
+def env_set_with_choices(
+    env_name: str,
+    default: list[str],
+    choices: list[str] | Callable[[], list[str]],
+    case_sensitive: bool = True,
+) -> Callable[[], set[str]]:
+    """
+    Creates a lambda which that validates environment variable
+    containing comma-separated values against allowed choices which
+    returns choices as a set.
+    """
+
+    def _get_validated_env_set() -> set[str]:
+        return set(env_list_with_choices(env_name, default, choices, case_sensitive)())
+
+    return _get_validated_env_set
+
+
+def get_vllm_port() -> int | None:
+    """Get the port from VLLM_PORT environment variable.
+
+    Returns:
+        The port number as an integer if VLLM_PORT is set, None otherwise.
+
+    Raises:
+        ValueError: If VLLM_PORT is a URI, suggest k8s service discovery issue.
+    """
+    if "VLLM_PORT" not in os.environ:
+        return None
+
+    port = os.getenv("VLLM_PORT", "0")
+
+    try:
+        return int(port)
+    except ValueError as err:
+        from urllib.parse import urlparse
+
+        parsed = urlparse(port)
+        if parsed.scheme:
+            raise ValueError(
+                f"VLLM_PORT '{port}' appears to be a URI. "
+                "This may be caused by a Kubernetes service discovery issue,"
+                "check the warning in: https://docs.vllm.ai/en/stable/serving/env_vars.html"
+            ) from None
+        raise ValueError(f"VLLM_PORT '{port}' must be a valid integer") from err
+
+
+# The start-* and end* here are used by the documentation generator
+# to extract the used env vars.
+
+# --8<-- [start:env-vars-definition]
+
+environment_variables: dict[str, Callable[[], Any]] = {
+    # ================== Installation Time Env Vars ==================
+    # Target device of vLLM, supporting [cuda (by default),
+    # rocm, cpu]
+    "VLLM_TARGET_DEVICE": lambda: os.getenv("VLLM_TARGET_DEVICE", "cuda").lower(),
+    # Main CUDA version of vLLM, supporting [12.6, 12.8, 12.9],
+    # 12.8 is the default. This follows PyTorch but can be overridden.
+    "VLLM_MAIN_CUDA_VERSION": lambda: os.getenv("VLLM_MAIN_CUDA_VERSION", "").lower()
+    or "12.8",
+    # Maximum number of compilation jobs to run in parallel.
+    # By default this is the number of CPUs
+    "MAX_JOBS": lambda: os.getenv("MAX_JOBS", None),
+    # Number of threads to use for nvcc
+    # By default this is 1.
+    # If set, `MAX_JOBS` will be reduced to avoid oversubscribing the CPU.
+    "NVCC_THREADS": lambda: os.getenv("NVCC_THREADS", None),
+    # If set, vllm will use precompiled binaries (*.so)
+    "VLLM_USE_PRECOMPILED": lambda: os.environ.get("VLLM_USE_PRECOMPILED", "")
+    .strip()
+    .lower()
+    in ("1", "true")
+    or bool(os.environ.get("VLLM_PRECOMPILED_WHEEL_LOCATION")),
+    # Used to mark that setup.py is running in a Docker build context,
+    # in order to force the use of precompiled binaries.
+    "VLLM_DOCKER_BUILD_CONTEXT": lambda: os.environ.get("VLLM_DOCKER_BUILD_CONTEXT", "")
+    .strip()
+    .lower()
+    in ("1", "true"),
+    # Whether to force using nightly wheel in python build.
+    # This is used for testing the nightly wheel in python build.
+    "VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL": lambda: bool(
+        int(os.getenv("VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL", "0"))
+    ),
+    # CMake build type
+    # If not set, defaults to "Debug" or "RelWithDebInfo"
+    # Available options: "Debug", "Release", "RelWithDebInfo"
+    "CMAKE_BUILD_TYPE": env_with_choices(
+        "CMAKE_BUILD_TYPE", None, ["Debug", "Release", "RelWithDebInfo"]
+    ),
+    # If set, vllm will print verbose logs during installation
+    "VERBOSE": lambda: bool(int(os.getenv("VERBOSE", "0"))),
+    # Root directory for vLLM configuration files
+    # Defaults to `~/.config/vllm` unless `XDG_CONFIG_HOME` is set
+    # Note that this not only affects how vllm finds its configuration files
+    # during runtime, but also affects how vllm installs its configuration
+    # files during **installation**.
+    "VLLM_CONFIG_ROOT": lambda: os.path.expanduser(
+        os.getenv(
+            "VLLM_CONFIG_ROOT",
+            os.path.join(get_default_config_root(), "vllm"),
+        )
+    ),
+    # ================== Runtime Env Vars ==================
+    # Root directory for vLLM cache files
+    # Defaults to `~/.cache/vllm` unless `XDG_CACHE_HOME` is set
+    "VLLM_CACHE_ROOT": lambda: os.path.expanduser(
+        os.getenv(
+            "VLLM_CACHE_ROOT",
+            os.path.join(get_default_cache_root(), "vllm"),
+        )
+    ),
+    # used in distributed environment to determine the ip address
+    # of the current node, when the node has multiple network interfaces.
+    # If you are using multi-node inference, you should set this differently
+    # on each node.
+    "VLLM_HOST_IP": lambda: os.getenv("VLLM_HOST_IP", ""),
+    # used in distributed environment to manually set the communication port
+    # Note: if VLLM_PORT is set, and some code asks for multiple ports, the
+    # VLLM_PORT will be used as the first port, and the rest will be generated
+    # by incrementing the VLLM_PORT value.
+    "VLLM_PORT": get_vllm_port,
+    # path used for ipc when the frontend api server is running in
+    # multi-processing mode to communicate with the backend engine process.
+    "VLLM_RPC_BASE_PATH": lambda: os.getenv(
+        "VLLM_RPC_BASE_PATH", tempfile.gettempdir()
+    ),
+    # If true, will load models from ModelScope instead of Hugging Face Hub.
+    # note that the value is true or false, not numbers
+    "VLLM_USE_MODELSCOPE": lambda: os.environ.get(
+        "VLLM_USE_MODELSCOPE", "False"
+    ).lower()
+    == "true",
+    # Interval in seconds to log a warning message when the ring buffer is full
+    "VLLM_RINGBUFFER_WARNING_INTERVAL": lambda: int(
+        os.environ.get("VLLM_RINGBUFFER_WARNING_INTERVAL", "60")
+    ),
+    # path to cudatoolkit home directory, under which should be bin, include,
+    # and lib directories.
+    "CUDA_HOME": lambda: os.environ.get("CUDA_HOME", None),
+    # Path to the NCCL library file. It is needed because nccl>=2.19 brought
+    # by PyTorch contains a bug: https://github.com/NVIDIA/nccl/issues/1234
+    "VLLM_NCCL_SO_PATH": lambda: os.environ.get("VLLM_NCCL_SO_PATH", None),
+    # when `VLLM_NCCL_SO_PATH` is not set, vllm will try to find the nccl
+    # library file in the locations specified by `LD_LIBRARY_PATH`
+    "LD_LIBRARY_PATH": lambda: os.environ.get("LD_LIBRARY_PATH", None),
+    # flag to control the chunk size (in MB) for sleeping memory allocations under ROCm
+    "VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE": lambda: int(
+        os.environ.get("VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE", "256")
+    ),
+    # Use separate prefill and decode kernels for V1 attention instead of
+    # the unified triton kernel.
+    "VLLM_V1_USE_PREFILL_DECODE_ATTENTION": lambda: (
+        os.getenv("VLLM_V1_USE_PREFILL_DECODE_ATTENTION", "False").lower()
+        in ("true", "1")
+    ),
+    # Force vllm to use a specific flash-attention version (2 or 3), only valid
+    # when using the flash-attention backend.
+    "VLLM_FLASH_ATTN_VERSION": lambda: maybe_convert_int(
+        os.environ.get("VLLM_FLASH_ATTN_VERSION", None)
+    ),
+    # Feature flag to enable/disable Inductor standalone compile.
+    # In torch <= 2.7 we ignore this flag; in torch >= 2.9 this is
+    # enabled by default.
+    "VLLM_USE_STANDALONE_COMPILE": lambda: os.environ.get(
+        "VLLM_USE_STANDALONE_COMPILE", "1"
+    )
+    == "1",
+    # Debug pattern matching inside custom passes.
+    # Should be set to the fx.Node name (e.g. 'getitem_34' or 'scaled_mm_3').
+    "VLLM_PATTERN_MATCH_DEBUG": lambda: os.environ.get(
+        "VLLM_PATTERN_MATCH_DEBUG", None
+    ),
+    # Dump fx graphs to the given directory.
+    # It will override CompilationConfig.debug_dump_path if set.
+    "VLLM_DEBUG_DUMP_PATH": lambda: os.environ.get("VLLM_DEBUG_DUMP_PATH", None),
+    # Feature flag to enable/disable AOT compilation. This will ensure
+    # compilation is done in warmup phase and the compilation will be
+    # reused in subsequent calls.
+    "VLLM_USE_AOT_COMPILE": use_aot_compile,
+    # Feature flag to enable/disable bytecode in
+    # TorchCompileWithNoGuardsWrapper.
+    "VLLM_USE_BYTECODE_HOOK": lambda: bool(
+        int(os.environ.get("VLLM_USE_BYTECODE_HOOK", "1"))
+    ),
+    # Force vllm to always load AOT compiled models from disk. Failure
+    # to load will result in a hard error when this is enabled.
+    # Will be ignored when VLLM_USE_AOT_COMPILE is disabled.
+    "VLLM_FORCE_AOT_LOAD": lambda: os.environ.get("VLLM_FORCE_AOT_LOAD", "0") == "1",
+    # local rank of the process in the distributed setting, used to determine
+    # the GPU device id
+    "LOCAL_RANK": lambda: int(os.environ.get("LOCAL_RANK", "0")),
+    # used to control the visible devices in the distributed setting
+    "CUDA_VISIBLE_DEVICES": lambda: os.environ.get("CUDA_VISIBLE_DEVICES", None),
+    # timeout for each iteration in the engine
+    "VLLM_ENGINE_ITERATION_TIMEOUT_S": lambda: int(
+        os.environ.get("VLLM_ENGINE_ITERATION_TIMEOUT_S", "60")
+    ),
+    # API key for vLLM API server
+    "VLLM_API_KEY": lambda: os.environ.get("VLLM_API_KEY", None),
+    # Whether to log responses from API Server for debugging
+    "VLLM_DEBUG_LOG_API_SERVER_RESPONSE": lambda: os.environ.get(
+        "VLLM_DEBUG_LOG_API_SERVER_RESPONSE", "False"
+    ).lower()
+    == "true",
+    # S3 access information, used for tensorizer to load model from S3
+    "S3_ACCESS_KEY_ID": lambda: os.environ.get("S3_ACCESS_KEY_ID", None),
+    "S3_SECRET_ACCESS_KEY": lambda: os.environ.get("S3_SECRET_ACCESS_KEY", None),
+    "S3_ENDPOINT_URL": lambda: os.environ.get("S3_ENDPOINT_URL", None),
+    # Usage stats collection
+    "VLLM_USAGE_STATS_SERVER": lambda: os.environ.get(
+        "VLLM_USAGE_STATS_SERVER", "https://stats.vllm.ai"
+    ),
+    "VLLM_NO_USAGE_STATS": lambda: os.environ.get("VLLM_NO_USAGE_STATS", "0") == "1",
+    "VLLM_DISABLE_FLASHINFER_PREFILL": lambda: os.environ.get(
+        "VLLM_DISABLE_FLASHINFER_PREFILL", "0"
+    )
+    == "1",
+    "VLLM_DO_NOT_TRACK": lambda: (
+        os.environ.get("VLLM_DO_NOT_TRACK", None)
+        or os.environ.get("DO_NOT_TRACK", None)
+        or "0"
+    )
+    == "1",
+    "VLLM_USAGE_SOURCE": lambda: os.environ.get("VLLM_USAGE_SOURCE", "production"),
+    # Logging configuration
+    # If set to 0, vllm will not configure logging
+    # If set to 1, vllm will configure logging using the default configuration
+    #    or the configuration file specified by VLLM_LOGGING_CONFIG_PATH
+    "VLLM_CONFIGURE_LOGGING": lambda: int(os.getenv("VLLM_CONFIGURE_LOGGING", "1")),
+    "VLLM_LOGGING_CONFIG_PATH": lambda: os.getenv("VLLM_LOGGING_CONFIG_PATH"),
+    # this is used for configuring the default logging level
+    "VLLM_LOGGING_LEVEL": lambda: os.getenv("VLLM_LOGGING_LEVEL", "INFO").upper(),
+    # this is used for configuring the default logging stream
+    "VLLM_LOGGING_STREAM": lambda: os.getenv("VLLM_LOGGING_STREAM", "ext://sys.stdout"),
+    # if set, VLLM_LOGGING_PREFIX will be prepended to all log messages
+    "VLLM_LOGGING_PREFIX": lambda: os.getenv("VLLM_LOGGING_PREFIX", ""),
+    # If set, vllm will log stats at this interval in seconds
+    # If not set, vllm will log stats every 10 seconds.
+    "VLLM_LOG_STATS_INTERVAL": lambda: val
+    if (val := float(os.getenv("VLLM_LOG_STATS_INTERVAL", "10."))) > 0.0
+    else 10.0,
+    # Trace function calls
+    # If set to 1, vllm will trace function calls
+    # Useful for debugging
+    "VLLM_TRACE_FUNCTION": lambda: int(os.getenv("VLLM_TRACE_FUNCTION", "0")),
+    # Backend for attention computation
+    # Example options:
+    # - "TORCH_SDPA": use torch.nn.MultiheadAttention
+    # - "FLASH_ATTN": use FlashAttention
+    # - "XFORMERS": use XFormers
+    # - "FLASHINFER": use flashinfer
+    # - "FLASHMLA": use FlashMLA
+    # - "FLASH_ATTN_MLA": use FlashAttention for MLA
+    # - "FLASHINFER_MLA": use FlashInfer for MLA
+    # - "CUTLASS_MLA": use CUTLASS for MLA
+    # All possible options loaded dynamically from AttentionBackendEnum
+    "VLLM_ATTENTION_BACKEND": env_with_choices(
+        "VLLM_ATTENTION_BACKEND",
+        None,
+        lambda: list(
+            __import__(
+                "vllm.attention.backends.registry", fromlist=["AttentionBackendEnum"]
+            ).AttentionBackendEnum.__members__.keys()
+        ),
+    ),
+    # If set, vllm will use flashinfer sampler
+    "VLLM_USE_FLASHINFER_SAMPLER": lambda: bool(
+        int(os.environ["VLLM_USE_FLASHINFER_SAMPLER"])
+    )
+    if "VLLM_USE_FLASHINFER_SAMPLER" in os.environ
+    else None,
+    # Pipeline stage partition strategy
+    "VLLM_PP_LAYER_PARTITION": lambda: os.getenv("VLLM_PP_LAYER_PARTITION", None),
+    # (CPU backend only) CPU key-value cache space.
+    # default is None and will be set as 4 GB
+    "VLLM_CPU_KVCACHE_SPACE": lambda: int(os.getenv("VLLM_CPU_KVCACHE_SPACE", "0"))
+    if "VLLM_CPU_KVCACHE_SPACE" in os.environ
+    else None,
+    # (CPU backend only) CPU core ids bound by OpenMP threads, e.g., "0-31",
+    # "0,1,2", "0-31,33". CPU cores of different ranks are separated by '|'.
+    "VLLM_CPU_OMP_THREADS_BIND": lambda: os.getenv("VLLM_CPU_OMP_THREADS_BIND", "auto"),
+    # (CPU backend only) CPU cores not used by OMP threads .
+    # Those CPU cores will not be used by OMP threads of a rank.
+    "VLLM_CPU_NUM_OF_RESERVED_CPU": lambda: int(
+        os.getenv("VLLM_CPU_NUM_OF_RESERVED_CPU", "0")
+    )
+    if "VLLM_CPU_NUM_OF_RESERVED_CPU" in os.environ
+    else None,
+    # (CPU backend only) whether to use prepack for MoE layer. This will be
+    # passed to ipex.llm.modules.GatedMLPMOE. On unsupported CPUs, you might
+    # need to set this to "0" (False).
+    "VLLM_CPU_MOE_PREPACK": lambda: bool(int(os.getenv("VLLM_CPU_MOE_PREPACK", "1"))),
+    # (CPU backend only) whether to use SGL kernels, optimized for small batch.
+    "VLLM_CPU_SGL_KERNEL": lambda: bool(int(os.getenv("VLLM_CPU_SGL_KERNEL", "0"))),
+    # If the env var is set, Ray Compiled Graph uses the specified
+    # channel type to communicate between workers belonging to
+    # different pipeline-parallel stages.
+    # Available options:
+    # - "auto": use the default channel type
+    # - "nccl": use NCCL for communication
+    # - "shm": use shared memory and gRPC for communication
+    "VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE": env_with_choices(
+        "VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE", "auto", ["auto", "nccl", "shm"]
+    ),
+    # If the env var is set, it enables GPU communication overlap
+    # (experimental feature) in Ray's Compiled Graph.
+    "VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM": lambda: bool(
+        int(os.getenv("VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM", "0"))
+    ),
+    # If the env var is set, it uses a Ray Communicator wrapping
+    # vLLM's pipeline parallelism communicator to interact with Ray's
+    # Compiled Graph. Otherwise, it uses Ray's NCCL communicator.
+    "VLLM_USE_RAY_WRAPPED_PP_COMM": lambda: bool(
+        int(os.getenv("VLLM_USE_RAY_WRAPPED_PP_COMM", "1"))
+    ),
+    # Use dedicated multiprocess context for workers.
+    # Both spawn and fork work
+    "VLLM_WORKER_MULTIPROC_METHOD": env_with_choices(
+        "VLLM_WORKER_MULTIPROC_METHOD", "fork", ["spawn", "fork"]
+    ),
+    # Path to the cache for storing downloaded assets
+    "VLLM_ASSETS_CACHE": lambda: os.path.expanduser(
+        os.getenv(
+            "VLLM_ASSETS_CACHE",
+            os.path.join(get_default_cache_root(), "vllm", "assets"),
+        )
+    ),
+    # If the env var is set, we will clean model file in
+    # this path $VLLM_ASSETS_CACHE/model_streamer/$model_name
+    "VLLM_ASSETS_CACHE_MODEL_CLEAN": lambda: bool(
+        int(os.getenv("VLLM_ASSETS_CACHE_MODEL_CLEAN", "0"))
+    ),
+    # Timeout for fetching images when serving multimodal models
+    # Default is 5 seconds
+    "VLLM_IMAGE_FETCH_TIMEOUT": lambda: int(os.getenv("VLLM_IMAGE_FETCH_TIMEOUT", "5")),
+    # Timeout for fetching videos when serving multimodal models
+    # Default is 30 seconds
+    "VLLM_VIDEO_FETCH_TIMEOUT": lambda: int(
+        os.getenv("VLLM_VIDEO_FETCH_TIMEOUT", "30")
+    ),
+    # Timeout for fetching audio when serving multimodal models
+    # Default is 10 seconds
+    "VLLM_AUDIO_FETCH_TIMEOUT": lambda: int(
+        os.getenv("VLLM_AUDIO_FETCH_TIMEOUT", "10")
+    ),
+    # Whether to allow HTTP redirects when fetching from media URLs.
+    # Default to True
+    "VLLM_MEDIA_URL_ALLOW_REDIRECTS": lambda: bool(
+        int(os.getenv("VLLM_MEDIA_URL_ALLOW_REDIRECTS", "1"))
+    ),
+    # Max number of workers for the thread pool handling
+    # media bytes loading. Set to 1 to disable parallel processing.
+    # Default is 8
+    "VLLM_MEDIA_LOADING_THREAD_COUNT": lambda: int(
+        os.getenv("VLLM_MEDIA_LOADING_THREAD_COUNT", "8")
+    ),
+    # Maximum filesize in MB for a single audio file when processing
+    # speech-to-text requests. Files larger than this will be rejected.
+    # Default is 25 MB
+    "VLLM_MAX_AUDIO_CLIP_FILESIZE_MB": lambda: int(
+        os.getenv("VLLM_MAX_AUDIO_CLIP_FILESIZE_MB", "25")
+    ),
+    # Backend for Video IO
+    # - "opencv": Default backend that uses OpenCV stream buffered backend.
+    #
+    # Custom backend implementations can be registered
+    # via `@VIDEO_LOADER_REGISTRY.register("my_custom_video_loader")` and
+    # imported at runtime.
+    # If a non-existing backend is used, an AssertionError will be thrown.
+    "VLLM_VIDEO_LOADER_BACKEND": lambda: os.getenv(
+        "VLLM_VIDEO_LOADER_BACKEND", "opencv"
+    ),
+    # Media connector implementation.
+    # - "http": Default connector that supports fetching media via HTTP.
+    #
+    # Custom implementations can be registered
+    # via `@MEDIA_CONNECTOR_REGISTRY.register("my_custom_media_connector")` and
+    # imported at runtime.
+    # If a non-existing backend is used, an AssertionError will be thrown.
+    "VLLM_MEDIA_CONNECTOR": lambda: os.getenv("VLLM_MEDIA_CONNECTOR", "http"),
+    # [DEPRECATED] Cache size (in GiB per process) for multimodal input cache
+    # Default is 4 GiB per API process + 4 GiB per engine core process
+    "VLLM_MM_INPUT_CACHE_GIB": lambda: int(os.getenv("VLLM_MM_INPUT_CACHE_GIB", "4")),
+    # Path to the XLA persistent cache directory.
+    # Only used for XLA devices such as TPUs.
+    "VLLM_XLA_CACHE_PATH": lambda: os.path.expanduser(
+        os.getenv(
+            "VLLM_XLA_CACHE_PATH",
+            os.path.join(get_default_cache_root(), "vllm", "xla_cache"),
+        )
+    ),
+    # If set, assert on XLA recompilation after each execution step.
+    "VLLM_XLA_CHECK_RECOMPILATION": lambda: bool(
+        int(os.getenv("VLLM_XLA_CHECK_RECOMPILATION", "0"))
+    ),
+    # Enable SPMD mode for TPU backend.
+    "VLLM_XLA_USE_SPMD": lambda: bool(int(os.getenv("VLLM_XLA_USE_SPMD", "0"))),
+    "VLLM_FUSED_MOE_CHUNK_SIZE": lambda: int(
+        os.getenv("VLLM_FUSED_MOE_CHUNK_SIZE", "32768")
+    ),
+    # Control whether to use fused MoE activation chunking. Current chunking
+    # logic is incompatible with torch.compile and causes IMA. See issue
+    # https://github.com/vllm-project/vllm/issues/19631.
+    "VLLM_ENABLE_FUSED_MOE_ACTIVATION_CHUNKING": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_FUSED_MOE_ACTIVATION_CHUNKING", "1"))
+    ),
+    # If set, the OpenAI API server will stay alive even after the underlying
+    # AsyncLLMEngine errors and stops serving requests
+    "VLLM_KEEP_ALIVE_ON_ENGINE_DEATH": lambda: bool(
+        int(os.getenv("VLLM_KEEP_ALIVE_ON_ENGINE_DEATH", "0"))
+    ),
+    # If the env var VLLM_ALLOW_LONG_MAX_MODEL_LEN is set, it allows
+    # the user to specify a max sequence length greater than
+    # the max length derived from the model's config.json.
+    # To enable this, set VLLM_ALLOW_LONG_MAX_MODEL_LEN=1.
+    "VLLM_ALLOW_LONG_MAX_MODEL_LEN": lambda: (
+        os.environ.get("VLLM_ALLOW_LONG_MAX_MODEL_LEN", "0").strip().lower()
+        in ("1", "true")
+    ),
+    # If set, forces FP8 Marlin to be used for FP8 quantization regardless
+    # of the hardware support for FP8 compute.
+    "VLLM_TEST_FORCE_FP8_MARLIN": lambda: (
+        os.environ.get("VLLM_TEST_FORCE_FP8_MARLIN", "0").strip().lower()
+        in ("1", "true")
+    ),
+    "VLLM_TEST_FORCE_LOAD_FORMAT": lambda: os.getenv(
+        "VLLM_TEST_FORCE_LOAD_FORMAT", "dummy"
+    ),
+    # Time in ms for the zmq client to wait for a response from the backend
+    # server for simple data operations
+    "VLLM_RPC_TIMEOUT": lambda: int(os.getenv("VLLM_RPC_TIMEOUT", "1000000")),
+    # Timeout in seconds for keeping HTTP connections alive in API server
+    "VLLM_HTTP_TIMEOUT_KEEP_ALIVE": lambda: int(
+        os.environ.get("VLLM_HTTP_TIMEOUT_KEEP_ALIVE", "5")
+    ),
+    # a list of plugin names to load, separated by commas.
+    # if this is not set, it means all plugins will be loaded
+    # if this is set to an empty string, no plugins will be loaded
+    "VLLM_PLUGINS": lambda: None
+    if "VLLM_PLUGINS" not in os.environ
+    else os.environ["VLLM_PLUGINS"].split(","),
+    # a local directory to look in for unrecognized LoRA adapters.
+    # only works if plugins are enabled and
+    # VLLM_ALLOW_RUNTIME_LORA_UPDATING is enabled.
+    "VLLM_LORA_RESOLVER_CACHE_DIR": lambda: os.getenv(
+        "VLLM_LORA_RESOLVER_CACHE_DIR", None
+    ),
+    # Enables torch CUDA profiling if set.
+    # On NVIDIA GPUs, this will start/stop cudaProfilerApi when triggered.
+    "VLLM_TORCH_CUDA_PROFILE": lambda: bool(
+        os.getenv("VLLM_TORCH_CUDA_PROFILE", "0") != "0"
+    ),
+    # Enables torch profiler if set.
+    # Both AsyncLLM's CPU traces as well as workers'
+    # traces (CPU & GPU) will be saved under this directory.
+    # Note that it must be an absolute path.
+    "VLLM_TORCH_PROFILER_DIR": lambda: (
+        None
+        if (val := os.getenv("VLLM_TORCH_PROFILER_DIR")) is None
+        else (
+            val
+            if val.startswith("gs://") and val[5:] and val[5] != "/"
+            else os.path.abspath(os.path.expanduser(val))
+        )
+    ),
+    # Enable torch profiler to record shapes if set
+    # VLLM_TORCH_PROFILER_RECORD_SHAPES=1. If not set, torch profiler will
+    # not record shapes.
+    "VLLM_TORCH_PROFILER_RECORD_SHAPES": lambda: bool(
+        os.getenv("VLLM_TORCH_PROFILER_RECORD_SHAPES", "0") != "0"
+    ),
+    # Enable torch profiler to profile memory if set
+    # VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY=1. If not set, torch profiler
+    # will not profile memory.
+    "VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY": lambda: bool(
+        os.getenv("VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY", "0") != "0"
+    ),
+    # Enable torch profiler to profile stack if set
+    # VLLM_TORCH_PROFILER_WITH_STACK=1. If not set, torch profiler WILL
+    # profile stack by default.
+    "VLLM_TORCH_PROFILER_WITH_STACK": lambda: bool(
+        os.getenv("VLLM_TORCH_PROFILER_WITH_STACK", "1") != "0"
+    ),
+    # Enable torch profiler to profile flops if set
+    # VLLM_TORCH_PROFILER_WITH_FLOPS=1. If not set, torch profiler will
+    # not profile flops.
+    "VLLM_TORCH_PROFILER_WITH_FLOPS": lambda: bool(
+        os.getenv("VLLM_TORCH_PROFILER_WITH_FLOPS", "0") != "0"
+    ),
+    # If set, vLLM will use Triton implementations of AWQ.
+    "VLLM_USE_TRITON_AWQ": lambda: bool(int(os.getenv("VLLM_USE_TRITON_AWQ", "0"))),
+    # If set, allow loading or unloading lora adapters in runtime,
+    "VLLM_ALLOW_RUNTIME_LORA_UPDATING": lambda: (
+        os.environ.get("VLLM_ALLOW_RUNTIME_LORA_UPDATING", "0").strip().lower()
+        in ("1", "true")
+    ),
+    # We assume drivers can report p2p status correctly.
+    # If the program hangs when using custom allreduce,
+    # potantially caused by a bug in the driver (535 series),
+    # if might be helpful to set VLLM_SKIP_P2P_CHECK=0
+    # so that vLLM can verify if p2p is actually working.
+    # See https://github.com/vllm-project/vllm/blob/a9b15c606fea67a072416ea0ea115261a2756058/vllm/distributed/device_communicators/custom_all_reduce_utils.py#L101-L108 for details. # noqa
+    "VLLM_SKIP_P2P_CHECK": lambda: os.getenv("VLLM_SKIP_P2P_CHECK", "1") == "1",
+    # List of quantization kernels that should be disabled, used for testing
+    # and performance comparisons. Currently only affects MPLinearKernel
+    # selection
+    # (kernels: MacheteLinearKernel, MarlinLinearKernel, ExllamaLinearKernel)
+    "VLLM_DISABLED_KERNELS": lambda: []
+    if "VLLM_DISABLED_KERNELS" not in os.environ
+    else os.environ["VLLM_DISABLED_KERNELS"].split(","),
+    # Disable pynccl (using torch.distributed instead)
+    "VLLM_DISABLE_PYNCCL": lambda: (
+        os.getenv("VLLM_DISABLE_PYNCCL", "False").lower() in ("true", "1")
+    ),
+    # Disable aiter ops unless specifically enabled.
+    # Acts as a parent switch to enable the rest of the other operations.
+    "VLLM_ROCM_USE_AITER": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER", "False").lower() in ("true", "1")
+    ),
+    # Whether to use aiter paged attention.
+    # By default is disabled.
+    "VLLM_ROCM_USE_AITER_PAGED_ATTN": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_PAGED_ATTN", "False").lower() in ("true", "1")
+    ),
+    # use aiter linear op if aiter ops are enabled
+    # The following list of related ops
+    # - scaled_mm (per-tensor / rowwise)
+    "VLLM_ROCM_USE_AITER_LINEAR": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_LINEAR", "True").lower() in ("true", "1")
+    ),
+    # Whether to use aiter moe ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_MOE": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_MOE", "True").lower() in ("true", "1")
+    ),
+    # use aiter rms norm op if aiter ops are enabled.
+    "VLLM_ROCM_USE_AITER_RMSNORM": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_RMSNORM", "True").lower() in ("true", "1")
+    ),
+    # Whether to use aiter mla ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_MLA": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_MLA", "True").lower() in ("true", "1")
+    ),
+    # Whether to use aiter mha ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_MHA": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_MHA", "True").lower() in ("true", "1")
+    ),
+    # Whether to use aiter fp4 gemm asm.
+    # By default is disabled.
+    "VLLM_ROCM_USE_AITER_FP4_ASM_GEMM": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_FP4_ASM_GEMM", "False").lower() in ("true", "1")
+    ),
+    # Whether to use aiter rope.
+    # By default is disabled.
+    "VLLM_ROCM_USE_AITER_TRITON_ROPE": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_TRITON_ROPE", "False").lower() in ("true", "1")
+    ),
+    # Whether to use aiter triton fp8 bmm kernel
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_FP8BMM": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_FP8BMM", "True").lower() in ("true", "1")
+    ),
+    # Use AITER triton unified attention for V1 attention
+    "VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION", "False").lower()
+        in ("true", "1")
+    ),
+    # Whether to use aiter fusion shared experts ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS", "True").lower()
+        in ("true", "1")
+    ),
+    # Whether to use aiter triton kernels for gemm ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_TRITON_GEMM": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_TRITON_GEMM", "True").lower() in ("true", "1")
+    ),
+    # use rocm skinny gemms
+    "VLLM_ROCM_USE_SKINNY_GEMM": lambda: (
+        os.getenv("VLLM_ROCM_USE_SKINNY_GEMM", "True").lower() in ("true", "1")
+    ),
+    # Pad the fp8 weights to 256 bytes for ROCm
+    "VLLM_ROCM_FP8_PADDING": lambda: bool(int(os.getenv("VLLM_ROCM_FP8_PADDING", "1"))),
+    # Pad the weights for the moe kernel
+    "VLLM_ROCM_MOE_PADDING": lambda: bool(int(os.getenv("VLLM_ROCM_MOE_PADDING", "1"))),
+    # custom paged attention kernel for MI3* cards
+    "VLLM_ROCM_CUSTOM_PAGED_ATTN": lambda: (
+        os.getenv("VLLM_ROCM_CUSTOM_PAGED_ATTN", "True").lower() in ("true", "1")
+    ),
+    # Custom quick allreduce kernel for MI3* cards
+    # Choice of quantization level: FP, INT8, INT6, INT4 or NONE
+    # Recommended for large models to get allreduce
+    "VLLM_ROCM_QUICK_REDUCE_QUANTIZATION": env_with_choices(
+        "VLLM_ROCM_QUICK_REDUCE_QUANTIZATION",
+        "NONE",
+        ["FP", "INT8", "INT6", "INT4", "NONE"],
+    ),
+    # Custom quick allreduce kernel for MI3* cards
+    # Due to the lack of the bfloat16 asm instruction, bfloat16
+    # kernels are slower than fp16,
+    # If environment variable is set to 1, the input is converted to fp16
+    "VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16": lambda: (
+        os.getenv("VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16", "True").lower()
+        in ("true", "1")
+    ),
+    # Custom quick allreduce kernel for MI3* cards.
+    # Controls the maximum allowed number of data bytes(MB) for custom quick
+    # allreduce communication.
+    # Default: 2048 MB.
+    # Data exceeding this size will use either custom allreduce or RCCL
+    # communication.
+    "VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB": lambda: maybe_convert_int(
+        os.environ.get("VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB", None)
+    ),
+    # Divisor for dynamic query scale factor calculation for FP8 KV Cache
+    "Q_SCALE_CONSTANT": lambda: int(os.getenv("Q_SCALE_CONSTANT", "200")),
+    # Divisor for dynamic key scale factor calculation for FP8 KV Cache
+    "K_SCALE_CONSTANT": lambda: int(os.getenv("K_SCALE_CONSTANT", "200")),
+    # Divisor for dynamic value scale factor calculation for FP8 KV Cache
+    "V_SCALE_CONSTANT": lambda: int(os.getenv("V_SCALE_CONSTANT", "100")),
+    # If set, enable multiprocessing in LLM for the V1 code path.
+    "VLLM_ENABLE_V1_MULTIPROCESSING": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_V1_MULTIPROCESSING", "1"))
+    ),
+    "VLLM_LOG_BATCHSIZE_INTERVAL": lambda: float(
+        os.getenv("VLLM_LOG_BATCHSIZE_INTERVAL", "-1")
+    ),
+    "VLLM_DISABLE_COMPILE_CACHE": disable_compile_cache,
+    # If set, vllm will run in development mode, which will enable
+    # some additional endpoints for developing and debugging,
+    # e.g. `/reset_prefix_cache`
+    "VLLM_SERVER_DEV_MODE": lambda: bool(int(os.getenv("VLLM_SERVER_DEV_MODE", "0"))),
+    # Controls the maximum number of requests to handle in a
+    # single asyncio task when processing per-token outputs in the
+    # V1 AsyncLLM interface. It is applicable when handling a high
+    # concurrency of streaming requests.
+    # Setting this too high can result in a higher variance of
+    # inter-message latencies. Setting it too low can negatively impact
+    # TTFT and overall throughput.
+    "VLLM_V1_OUTPUT_PROC_CHUNK_SIZE": lambda: int(
+        os.getenv("VLLM_V1_OUTPUT_PROC_CHUNK_SIZE", "128")
+    ),
+    # If set, vLLM will disable the MLA attention optimizations.
+    "VLLM_MLA_DISABLE": lambda: bool(int(os.getenv("VLLM_MLA_DISABLE", "0"))),
+    # If set, vLLM will pick up the provided Flash Attention MLA
+    # max number splits for cuda graph decode
+    "VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH": lambda: int(
+        os.getenv("VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH", "32")
+    ),
+    # Number of GPUs per worker in Ray, if it is set to be a fraction,
+    # it allows ray to schedule multiple actors on a single GPU,
+    # so that users can colocate other actors on the same GPUs as vLLM.
+    "VLLM_RAY_PER_WORKER_GPUS": lambda: float(
+        os.getenv("VLLM_RAY_PER_WORKER_GPUS", "1.0")
+    ),
+    # Bundle indices for Ray, if it is set, it can control precisely
+    # which indices are used for the Ray bundle, for every worker.
+    # Format: comma-separated list of integers, e.g. "0,1,2,3"
+    "VLLM_RAY_BUNDLE_INDICES": lambda: os.getenv("VLLM_RAY_BUNDLE_INDICES", ""),
+    # In some system, find_loaded_library() may not work. So we allow users to
+    # specify the path through environment variable VLLM_CUDART_SO_PATH.
+    "VLLM_CUDART_SO_PATH": lambda: os.getenv("VLLM_CUDART_SO_PATH", None),
+    # Rank of the process in the data parallel setting
+    "VLLM_DP_RANK": lambda: int(os.getenv("VLLM_DP_RANK", "0")),
+    # Rank of the process in the data parallel setting.
+    # Defaults to VLLM_DP_RANK when not set.
+    "VLLM_DP_RANK_LOCAL": lambda: int(
+        os.getenv("VLLM_DP_RANK_LOCAL", sys.modules[__name__].VLLM_DP_RANK)
+    ),
+    # World size of the data parallel setting
+    "VLLM_DP_SIZE": lambda: int(os.getenv("VLLM_DP_SIZE", "1")),
+    # IP address of the master node in the data parallel setting
+    "VLLM_DP_MASTER_IP": lambda: os.getenv("VLLM_DP_MASTER_IP", "127.0.0.1"),
+    # Port of the master node in the data parallel setting
+    "VLLM_DP_MASTER_PORT": lambda: int(os.getenv("VLLM_DP_MASTER_PORT", "0")),
+    # In the context of executing MoE models with Data-Parallel, Expert-Parallel
+    # and Batched All-to-All dispatch/combine kernels, VLLM_MOE_DP_CHUNK_SIZE
+    # dictates the quantum of tokens that can be dispatched from a DP
+    # rank. All DP ranks process the activations in VLLM_MOE_DP_CHUNK_SIZE
+    # units.
+    "VLLM_MOE_DP_CHUNK_SIZE": lambda: int(os.getenv("VLLM_MOE_DP_CHUNK_SIZE", "256")),
+    # Randomize inputs during dummy runs when using Data Parallel
+    "VLLM_RANDOMIZE_DP_DUMMY_INPUTS": lambda: os.environ.get(
+        "VLLM_RANDOMIZE_DP_DUMMY_INPUTS", "0"
+    )
+    == "1",
+    # Strategy to pack the data parallel ranks for Ray.
+    # Available options:
+    # - "fill":
+    #   for DP master node, allocate exactly data-parallel-size-local DP ranks,
+    #   for non-master nodes, allocate as many DP ranks as can fit;
+    # - "strict":
+    #   allocate exactly data-parallel-size-local DP ranks to each picked node;
+    # - "span":
+    #   Should be used only when a single DP rank requires multiple nodes.
+    #   allocate one DP rank over as many nodes as required for set world_size;
+    # This environment variable is ignored if data-parallel-backend is not Ray.
+    "VLLM_RAY_DP_PACK_STRATEGY": lambda: os.getenv(
+        "VLLM_RAY_DP_PACK_STRATEGY", "strict"
+    ),
+    # Whether to use S3 path for model loading in CI via RunAI Streamer
+    "VLLM_CI_USE_S3": lambda: os.environ.get("VLLM_CI_USE_S3", "0") == "1",
+    # Use model_redirect to redirect the model name to a local folder.
+    # `model_redirect` can be a json file mapping the model between
+    # repo_id and local folder:
+    # {"meta-llama/Llama-3.2-1B": "/tmp/Llama-3.2-1B"}
+    # or a space separated values table file:
+    # meta-llama/Llama-3.2-1B   /tmp/Llama-3.2-1B
+    "VLLM_MODEL_REDIRECT_PATH": lambda: os.environ.get(
+        "VLLM_MODEL_REDIRECT_PATH", None
+    ),
+    # Whether to use atomicAdd reduce in gptq/awq marlin kernel.
+    "VLLM_MARLIN_USE_ATOMIC_ADD": lambda: os.environ.get(
+        "VLLM_MARLIN_USE_ATOMIC_ADD", "0"
+    )
+    == "1",
+    # Whether to use marlin kernel in mxfp4 quantization method
+    "VLLM_MXFP4_USE_MARLIN": lambda: maybe_convert_bool(
+        os.environ.get("VLLM_MXFP4_USE_MARLIN", None)
+    ),
+    # Whether to turn on the outlines cache for V1
+    # This cache is unbounded and on disk, so it's not safe to use in
+    # an environment with potentially malicious users.
+    "VLLM_V1_USE_OUTLINES_CACHE": lambda: os.environ.get(
+        "VLLM_V1_USE_OUTLINES_CACHE", "0"
+    )
+    == "1",
+    # Gap between padding buckets for the forward pass. So we have
+    # 8, we will run forward pass with [16, 24, 32, ...].
+    "VLLM_TPU_BUCKET_PADDING_GAP": lambda: int(
+        os.environ["VLLM_TPU_BUCKET_PADDING_GAP"]
+    )
+    if "VLLM_TPU_BUCKET_PADDING_GAP" in os.environ
+    else 0,
+    "VLLM_TPU_MOST_MODEL_LEN": lambda: maybe_convert_int(
+        os.environ.get("VLLM_TPU_MOST_MODEL_LEN", None)
+    ),
+    # Whether using Pathways
+    "VLLM_TPU_USING_PATHWAYS": lambda: bool(
+        "proxy" in os.getenv("JAX_PLATFORMS", "").lower()
+    ),
+    # Allow use of DeepGemm kernels for fused moe ops.
+    "VLLM_USE_DEEP_GEMM": lambda: bool(int(os.getenv("VLLM_USE_DEEP_GEMM", "1"))),
+    # Allow use of DeepGemm specifically for MoE fused ops (overrides only MoE).
+    "VLLM_MOE_USE_DEEP_GEMM": lambda: bool(
+        int(os.getenv("VLLM_MOE_USE_DEEP_GEMM", "1"))
+    ),
+    # Whether to use E8M0 scaling when DeepGEMM is used on Blackwell GPUs.
+    "VLLM_USE_DEEP_GEMM_E8M0": lambda: bool(
+        int(os.getenv("VLLM_USE_DEEP_GEMM_E8M0", "1"))
+    ),
+    # DeepGemm JITs the kernels on-demand. The warmup attempts to make DeepGemm
+    # JIT all the required kernels before model execution so there is no
+    # JIT'ing in the hot-path. However, this warmup increases the engine
+    # startup time by a couple of minutes.
+    # Available options:
+    #  - "skip"  : Skip warmup.
+    #  - "full"  : Warmup deepgemm by running all possible gemm shapes the
+    #   engine could encounter.
+    #  - "relax" : Select gemm shapes to run based on some heuristics. The
+    #   heuristic aims to have the same effect as running all possible gemm
+    #   shapes, but provides no guarantees.
+    "VLLM_DEEP_GEMM_WARMUP": env_with_choices(
+        "VLLM_DEEP_GEMM_WARMUP",
+        "relax",
+        [
+            "skip",
+            "full",
+            "relax",
+        ],
+    ),
+    # Whether to use fused grouped_topk used for MoE expert selection.
+    "VLLM_USE_FUSED_MOE_GROUPED_TOPK": lambda: bool(
+        int(os.getenv("VLLM_USE_FUSED_MOE_GROUPED_TOPK", "1"))
+    ),
+    # Allow use of FlashInfer MoE kernels for fused moe ops.
+    "VLLM_USE_FLASHINFER_MOE_FP16": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_FP16", "0"))
+    ),
+    # Allow use of FlashInfer MoE kernels for fused moe ops.
+    "VLLM_USE_FLASHINFER_MOE_FP8": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_FP8", "0"))
+    ),
+    # Allow use of FlashInfer CUTLASS kernels for fused moe ops.
+    "VLLM_USE_FLASHINFER_MOE_FP4": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_FP4", "0"))
+    ),
+    # If set to 1, use the FlashInfer
+    # MXFP8 (activation) x MXFP4 (weight) MoE backend.
+    "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8", "0"))
+    ),
+    # If set to 1, use the FlashInfer CUTLASS backend for
+    # MXFP8 (activation) x MXFP4 (weight) MoE.
+    # This is separate from the TRTLLMGEN path controlled by
+    # VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8.
+    "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS", "0"))
+    ),
+    # If set to 1, use the FlashInfer
+    # BF16 (activation) x MXFP4 (weight) MoE backend.
+    "VLLM_USE_FLASHINFER_MOE_MXFP4_BF16": lambda: bool(
+        int(os.getenv("VLLM_USE_FLASHINFER_MOE_MXFP4_BF16", "0"))
+    ),
+    # Control the cache sized used by the xgrammar compiler. The default
+    # of 512 MB should be enough for roughly 1000 JSON schemas.
+    # It can be changed with this variable if needed for some reason.
+    "VLLM_XGRAMMAR_CACHE_MB": lambda: int(os.getenv("VLLM_XGRAMMAR_CACHE_MB", "512")),
+    # Control the threshold for msgspec to use 'zero copy' for
+    # serialization/deserialization of tensors. Tensors below
+    # this limit will be encoded into the msgpack buffer, and
+    # tensors above will instead be sent via a separate message.
+    # While the sending side still actually copies the tensor
+    # in all cases, on the receiving side, tensors above this
+    # limit will actually be zero-copy decoded.
+    "VLLM_MSGPACK_ZERO_COPY_THRESHOLD": lambda: int(
+        os.getenv("VLLM_MSGPACK_ZERO_COPY_THRESHOLD", "256")
+    ),
+    # If set, allow insecure serialization using pickle.
+    # This is useful for environments where it is deemed safe to use the
+    # insecure method and it is needed for some reason.
+    "VLLM_ALLOW_INSECURE_SERIALIZATION": lambda: bool(
+        int(os.getenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "0"))
+    ),
+    # IP address used for NIXL handshake between remote agents.
+    "VLLM_NIXL_SIDE_CHANNEL_HOST": lambda: os.getenv(
+        "VLLM_NIXL_SIDE_CHANNEL_HOST", "localhost"
+    ),
+    # Port used for NIXL handshake between remote agents.
+    "VLLM_NIXL_SIDE_CHANNEL_PORT": lambda: int(
+        os.getenv("VLLM_NIXL_SIDE_CHANNEL_PORT", "5600")
+    ),
+    # all2all backend for vllm's expert parallel communication
+    # Available options:
+    # - "naive": naive all2all implementation using broadcasts
+    # - "allgather_reducescatter": all2all implementation based on allgather and
+    #  reducescatter
+    # - "pplx": use pplx kernels
+    # - "deepep_high_throughput", use deepep high-throughput kernels
+    # - "deepep_low_latency", use deepep low-latency kernels
+    # - "flashinfer_all2allv", use flashinfer alltoallv kernels for mnnvl
+    "VLLM_ALL2ALL_BACKEND": env_with_choices(
+        "VLLM_ALL2ALL_BACKEND",
+        "allgather_reducescatter",
+        [
+            "naive",
+            "pplx",
+            "deepep_high_throughput",
+            "deepep_low_latency",
+            "allgather_reducescatter",
+            "flashinfer_all2allv",
+        ],
+    ),
+    # Flashinfer MoE backend for vLLM's fused Mixture-of-Experts support.
+    # Both require compute capability 10.0 or above.
+    # Available options:
+    # - "throughput":  [default]
+    #     Uses CUTLASS kernels optimized for high-throughput batch inference.
+    # - "latency":
+    #     Uses TensorRT-LLM kernels optimized for low-latency inference.
+    "VLLM_FLASHINFER_MOE_BACKEND": env_with_choices(
+        "VLLM_FLASHINFER_MOE_BACKEND", "latency", ["throughput", "latency"]
+    ),
+    # Control the workspace buffer size for the FlashInfer backend.
+    "VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE": lambda: int(
+        os.getenv("VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE", str(394 * 1024 * 1024))
+    ),
+    # Control the maximum number of tokens per expert supported by the
+    # NVFP4 MoE CUTLASS Kernel. This value is used to create a buffer for
+    # the blockscale tensor of activations NVFP4 Quantization.
+    # This is used to prevent the kernel from running out of memory.
+    "VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE": lambda: int(
+        os.getenv("VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE", "163840")
+    ),
+    # Specifies the thresholds of the communicated tensor sizes under which
+    # vllm should use flashinfer fused allreduce. The variable should be a
+    # JSON with the following format:
+    #     { <world size>: <max size in mb> }
+    # Unspecified world sizes will fall back to
+    #     { 2: 64, 4: 1, <everything else>: 0.5 }
+    "VLLM_FLASHINFER_ALLREDUCE_FUSION_THRESHOLDS_MB": lambda: json.loads(
+        os.getenv("VLLM_FLASHINFER_ALLREDUCE_FUSION_THRESHOLDS_MB", "{}")
+    ),
+    # MoE routing strategy selector.
+    # See `RoutingSimulator.get_available_strategies()` # for available
+    # strategies.
+    # Cutstom routing strategies can be registered by
+    # RoutingSimulator.register_strategy()
+    # Note: custom strategies may not produce correct model outputs
+    "VLLM_MOE_ROUTING_SIMULATION_STRATEGY": lambda: os.environ.get(
+        "VLLM_MOE_ROUTING_SIMULATION_STRATEGY", ""
+    ).lower(),
+    # Regex timeout for use by the vLLM tool parsing plugins.
+    "VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS": lambda: int(
+        os.getenv("VLLM_TOOL_PARSE_REGEX_TIMEOUT_SECONDS", "1")
+    ),
+    # Reduce CPU usage when vLLM is idle. Enabling this will incur small
+    # latency penalty when a request eventually comes.
+    "VLLM_SLEEP_WHEN_IDLE": lambda: bool(int(os.getenv("VLLM_SLEEP_WHEN_IDLE", "0"))),
+    # Control the max chunk bytes (in MB) for the rpc message queue.
+    # Object larger than this threshold will be broadcast to worker
+    # processes via zmq.
+    "VLLM_MQ_MAX_CHUNK_BYTES_MB": lambda: int(
+        os.getenv("VLLM_MQ_MAX_CHUNK_BYTES_MB", "16")
+    ),
+    # Timeout in seconds for execute_model RPC calls in multiprocessing
+    # executor (only applies when TP > 1).
+    "VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS": lambda: int(
+        os.getenv("VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS", "300")
+    ),
+    # KV Cache layout used throughout vllm.
+    # Some common values are:
+    # - NHD
+    # - HND
+    # Where N=num_blocks, H=num_heads and D=head_size. The default value will
+    # leave the layout choice to the backend. Mind that backends may only
+    # implement and support a subset of all possible layouts.
+    "VLLM_KV_CACHE_LAYOUT": env_with_choices(
+        "VLLM_KV_CACHE_LAYOUT", None, ["NHD", "HND"]
+    ),
+    # Enable checking whether the generated logits contain NaNs,
+    # indicating corrupted output. Useful for debugging low level bugs
+    # or bad hardware but it may add compute overhead.
+    "VLLM_COMPUTE_NANS_IN_LOGITS": lambda: bool(
+        int(os.getenv("VLLM_COMPUTE_NANS_IN_LOGITS", "0"))
+    ),
+    # Controls whether or not emulations are used for NVFP4
+    # generations on machines < 100 for compressed-tensors
+    # models
+    "VLLM_USE_NVFP4_CT_EMULATIONS": lambda: bool(
+        int(os.getenv("VLLM_USE_NVFP4_CT_EMULATIONS", "0"))
+    ),
+    # Time (in seconds) after which the KV cache on the producer side is
+    # automatically cleared if no READ notification is received from the
+    # consumer. This is only applicable when using NixlConnector in a
+    # disaggregated decode-prefill setup.
+    "VLLM_NIXL_ABORT_REQUEST_TIMEOUT": lambda: int(
+        os.getenv("VLLM_NIXL_ABORT_REQUEST_TIMEOUT", "480")
+    ),
+    # Controls whether or not to use cudnn prefill
+    "VLLM_USE_CUDNN_PREFILL": lambda: bool(
+        int(os.getenv("VLLM_USE_CUDNN_PREFILL", "0"))
+    ),
+    # Controls whether to use TRT-LLM ragged DeepSeek prefill
+    "VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL": lambda: bool(
+        int(os.getenv("VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL", "0"))
+    ),
+    # If set to 1/True, use the TRTLLM attention backend in flashinfer.
+    # If set to 0/False, use the default attention backend in flashinfer.
+    # If not set, auto-detect the attention backend in flashinfer.
+    "VLLM_USE_TRTLLM_ATTENTION": lambda: (
+        None
+        if "VLLM_USE_TRTLLM_ATTENTION" not in os.environ
+        else os.environ["VLLM_USE_TRTLLM_ATTENTION"].lower() in ("1", "true")
+    ),
+    # If set to 1, when we use fp8 kv, we do not quantize Q to fp8
+    "VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION": lambda: bool(
+        int(os.getenv("VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION", "0"))
+    ),
+    # If set, it means we pre-downloaded cubin files and flashinfer will
+    # read the cubin files directly.
+    "VLLM_HAS_FLASHINFER_CUBIN": lambda: bool(
+        int(os.getenv("VLLM_HAS_FLASHINFER_CUBIN", "0"))
+    ),
+    # Supported options:
+    # - "flashinfer-cudnn": use flashinfer cudnn GEMM backend
+    # - "flashinfer-trtllm": use flashinfer trtllm GEMM backend
+    # - "flashinfer-cutlass": use flashinfer cutlass GEMM backend
+    # - <none>: automatically pick an available backend
+    "VLLM_NVFP4_GEMM_BACKEND": env_with_choices(
+        "VLLM_NVFP4_GEMM_BACKEND",
+        None,
+        ["flashinfer-cudnn", "flashinfer-trtllm", "flashinfer-cutlass", "cutlass"],
+    ),
+    # Controls garbage collection during CUDA graph capture.
+    # If set to 0 (default), enables GC freezing to speed up capture time.
+    # If set to 1, allows GC to run during capture.
+    "VLLM_ENABLE_CUDAGRAPH_GC": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_CUDAGRAPH_GC", "0"))
+    ),
+    # Used to force set up loopback IP
+    "VLLM_LOOPBACK_IP": lambda: os.getenv("VLLM_LOOPBACK_IP", ""),
+    # Used to set the process name prefix for vLLM processes.
+    # This is useful for debugging and monitoring purposes.
+    # The default value is "VLLM".
+    "VLLM_PROCESS_NAME_PREFIX": lambda: os.getenv("VLLM_PROCESS_NAME_PREFIX", "VLLM"),
+    # Allow chunked local attention with hybrid kv cache manager.
+    # Currently using the Hybrid KV cache manager with chunked local attention
+    # in the Llama4 models (the only models currently using chunked local attn)
+    # causes a latency regression. For this reason, we disable it by default.
+    # This flag is used to allow users to enable it if they want to (to save on
+    # kv-cache memory usage and enable longer contexts)
+    # TODO(lucas): Remove this flag once latency regression is resolved.
+    "VLLM_ALLOW_CHUNKED_LOCAL_ATTN_WITH_HYBRID_KV_CACHE": lambda: bool(
+        int(os.getenv("VLLM_ALLOW_CHUNKED_LOCAL_ATTN_WITH_HYBRID_KV_CACHE", "0"))
+    ),
+    # Enables support for the "store" option in the OpenAI Responses API.
+    # When set to 1, vLLM's OpenAI server will retain the input and output
+    # messages for those requests in memory. By default, this is disabled (0),
+    # and the "store" option is ignored.
+    # NOTE/WARNING:
+    # 1. Messages are kept in memory only (not persisted to disk) and will be
+    #    lost when the vLLM server shuts down.
+    # 2. Enabling this option will cause a memory leak, as stored messages are
+    #    never removed from memory until the server terminates.
+    "VLLM_ENABLE_RESPONSES_API_STORE": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_RESPONSES_API_STORE", "0"))
+    ),
+    # If set, use the fp8 mfma in rocm paged attention.
+    "VLLM_ROCM_FP8_MFMA_PAGE_ATTN": lambda: bool(
+        int(os.getenv("VLLM_ROCM_FP8_MFMA_PAGE_ATTN", "0"))
+    ),
+    # Whether to use pytorch symmetric memory for allreduce
+    "VLLM_ALLREDUCE_USE_SYMM_MEM": lambda: bool(
+        int(os.getenv("VLLM_ALLREDUCE_USE_SYMM_MEM", "1"))
+    ),
+    # Allows vllm to find tuned config under customized folder
+    "VLLM_TUNED_CONFIG_FOLDER": lambda: os.getenv("VLLM_TUNED_CONFIG_FOLDER", None),
+    # Valid values are container,code_interpreter,web_search_preview
+    # ex VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS=container,code_interpreter
+    # If the server_label of your mcp tool is not in this list it will
+    # be completely ignored.
+    "VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS": env_set_with_choices(
+        "VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS",
+        default=[],
+        choices=["container", "code_interpreter", "web_search_preview"],
+    ),
+    # Allows harmony instructions to be injected on system messages
+    "VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS": lambda: bool(
+        int(os.getenv("VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS", "0"))
+    ),
+    # Enable automatic retry when tool call JSON parsing fails
+    # If enabled, returns an error message to the model to retry
+    # If disabled (default), raises an exception and fails the request
+    "VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY": lambda: bool(
+        int(os.getenv("VLLM_TOOL_JSON_ERROR_AUTOMATIC_RETRY", "0"))
+    ),
+    # Add optional custom scopes for profiling, disable to avoid overheads
+    "VLLM_CUSTOM_SCOPES_FOR_PROFILING": lambda: bool(
+        int(os.getenv("VLLM_CUSTOM_SCOPES_FOR_PROFILING", "0"))
+    ),
+    # Add optional nvtx scopes for profiling, disable to avoid overheads
+    "VLLM_NVTX_SCOPES_FOR_PROFILING": lambda: bool(
+        int(os.getenv("VLLM_NVTX_SCOPES_FOR_PROFILING", "0"))
+    ),
+    # Represent block hashes in KV cache events as 64-bit integers instead of
+    # raw bytes. Defaults to True for backward compatibility.
+    "VLLM_KV_EVENTS_USE_INT_BLOCK_HASHES": lambda: bool(
+        int(os.getenv("VLLM_KV_EVENTS_USE_INT_BLOCK_HASHES", "1"))
+    ),
+    # Name of the shared memory buffer used for object storage.
+    # Only effective when mm_config.mm_processor_cache_type == "shm".
+    "VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME": lambda: os.getenv(
+        "VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME", "VLLM_OBJECT_STORAGE_SHM_BUFFER"
+    ),
+    # The size in MB of the buffers (NVL and RDMA) used by DeepEP
+    "VLLM_DEEPEP_BUFFER_SIZE_MB": lambda: int(
+        os.getenv("VLLM_DEEPEP_BUFFER_SIZE_MB", "1024")
+    ),
+    # Force DeepEP to use intranode kernel for inter-node communication in
+    # high throughput mode. This is useful archive higher prefill throuhgput
+    # on system supports multi-node nvlink (e.g GB200).
+    "VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE": lambda: bool(
+        int(os.getenv("VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE", "0"))
+    ),
+    # Allow DeepEP to use MNNVL (multi-node nvlink) for internode_ll kernel,
+    # turn this for better latency on GB200 like system
+    "VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL": lambda: bool(
+        int(os.getenv("VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL", "0"))
+    ),
+    # The number of SMs to allocate for communication kernels when running DBO
+    # the rest of the SMs on the device will be allocated to compute
+    "VLLM_DBO_COMM_SMS": lambda: int(os.getenv("VLLM_DBO_COMM_SMS", "20")),
+    # Enable max_autotune & coordinate_descent_tuning in inductor_config
+    # to compile static shapes passed from compile_sizes in compilation_config
+    # If set to 1, enable max_autotune; By default, this is enabled (1)
+    "VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE", "1"))
+    ),
+    # If set to 1, enable coordinate_descent_tuning;
+    # By default, this is enabled (1)
+    "VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING": lambda: bool(
+        int(os.getenv("VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING", "1"))
+    ),
+    # Flag to enable NCCL symmetric memory allocation and registration
+    "VLLM_USE_NCCL_SYMM_MEM": lambda: bool(
+        int(os.getenv("VLLM_USE_NCCL_SYMM_MEM", "0"))
+    ),
+    # NCCL header path
+    "VLLM_NCCL_INCLUDE_PATH": lambda: os.environ.get("VLLM_NCCL_INCLUDE_PATH", None),
+    # Flag to enable FBGemm kernels on model execution
+    "VLLM_USE_FBGEMM": lambda: bool(int(os.getenv("VLLM_USE_FBGEMM", "0"))),
+    # GC debug config
+    # - VLLM_GC_DEBUG=0: disable GC debugger
+    # - VLLM_GC_DEBUG=1: enable GC debugger with gc.collect elpased times
+    # - VLLM_GC_DEBUG='{"top_objects":5}': enable GC debugger with
+    #                                      top 5 collected objects
+    "VLLM_GC_DEBUG": lambda: os.getenv("VLLM_GC_DEBUG", ""),
+    # Disables parallel execution of shared_experts via separate cuda stream
+    "VLLM_DISABLE_SHARED_EXPERTS_STREAM": lambda: bool(
+        int(os.getenv("VLLM_DISABLE_SHARED_EXPERTS_STREAM", "1"))
+    ),
+    # Limits when we run shared_experts in a separate stream.
+    # We found out that for large batch sizes, the separate stream
+    # execution is not beneficial (most likely because of the input clone)
+    # TODO(alexm-redhat): Tune to be more dynamic based on GPU type
+    "VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD": lambda: int(
+        int(os.getenv("VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD", 256))
+    ),
+    # Format for saving torch.compile cache artifacts
+    # - "binary": saves as binary file
+    #     Safe for multiple vllm serve processes accessing the same torch compile cache.
+    # - "unpacked": saves as directory structure (for inspection/debugging)
+    #     NOT multiprocess safe - race conditions may occur with multiple processes.
+    #     Allows viewing and setting breakpoints in Inductor's code output files.
+    "VLLM_COMPILE_CACHE_SAVE_FORMAT": env_with_choices(
+        "VLLM_COMPILE_CACHE_SAVE_FORMAT", "binary", ["binary", "unpacked"]
+    ),
+    # Flag to enable FlatLogprobs whose GC overhead is significantly smaller than
+    # the original list[dict[int, Logprob]] approach.
+    # After enabled, PromptLogprobs and SampleLogprobs would populated as
+    # FlatLogprobs.
+    "VLLM_FLAT_LOGPROBS": lambda: bool(int(os.getenv("VLLM_FLAT_LOGPROBS", "0"))),
+    
+    # vLLM do not support W4A8 and W8A8, we add it. For MOE, we default use W8A8, If set to true, we use W4A8.
+    
+    "VLLM_W8A8_MOE_USE_W4A8":
+    lambda: os.environ.get("VLLM_W8A8_MOE_USE_W4A8", "0").lower() in 
+    ("1", "true"),
+    
+    # If set to true, we use int8 mla attention for decode stage.
+    
+    "VLLM_USE_INT8_MLA":
+    lambda: os.environ.get("VLLM_USE_INT8_MLA", "0").lower() in
+    ("1", "true"),
+    
+    # If set to true, we use int8 MHA attention for decode stage.
+    
+    "VLLM_ATTN_OPT_LEVEL":
+    lambda: os.environ.get("VLLM_ATTN_OPT_LEVEL", "0").lower() in
+    ("1", "true"),
+    
+    # For W4A8 MOE, we default use TN gemm format, choices: [TN, NN].
+    "VLLM_W4A8_FORMAT":
+    lambda: os.environ.get("VLLM_W4A8_FORMAT", "TN").upper(),
+    
+    "VLLM_W4A8_VERSION":
+    # For W4A8 MOE, we default use version 2, choices: [1, 2].
+    lambda: int(os.environ.get("VLLM_W4A8_VERSION", "2")),
+    
+    # temp param to support compressed-tensor's multi-quantization
+    "VLLM_MIX_QUANTIZATION_TYPE":
+    lambda: os.environ.get("VLLM_MIX_QUANTIZATION_TYPE", "").upper(),
+    
+    # Use Customize mlp impl for faster speed and less gpu memory usage. 
+    "VLLM_MLA_CUSTOMIZE":
+    lambda: os.environ.get("VLLM_MLA_CUSTOMIZE", "1").lower() in
+    ("1", "true"),
+    
+    # support Iluvatar IxServer
+    # Does vLLM support Iluvatar IxServer which is a distributed inference framework.
+    "VLLM_SUPPORT_IXSERVER":
+    lambda: os.environ.get("VLLM_SUPPORT_IXSERVER", "0").lower() in 
+    ("1", "true"),
+
+    "VLLM_MOE_OPT_LEVEL":
+    lambda: int(os.getenv("VLLM_MOE_OPT_LEVEL", "0")),
+
+    "VLLM_LINEAR_OPT_LEVEL":
+    lambda: int(os.getenv("VLLM_LINEAR_OPT_LEVEL", "0")),
+
+    "VLLM_OPT_EXCLUDE_LAYERS":
+    lambda: os.environ.get("VLLM_OPT_EXCLUDE_LAYERS", "").upper(),
+
+    "VLLM_USE_LORA_FUSION":
+    lambda: os.environ.get("VLLM_USE_LORA_FUSION", "0").lower() in
+    ("1", "true"),
+}
+
+# --8<-- [end:env-vars-definition]
+
+
+def __getattr__(name: str):
+    """
+    Gets environment variables lazily.
+
+    NOTE: After enable_envs_cache() invocation (which triggered after service
+    initialization), all environment variables will be cached.
+    """
+    if name in environment_variables:
+        return environment_variables[name]()
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+def enable_envs_cache() -> None:
+    """
+    Enables caching of environment variables. This is useful for performance
+    reasons, as it avoids the need to re-evaluate environment variables on
+    every call.
+
+    NOTE: Currently, it's invoked after service initialization to reduce
+    runtime overhead. This also means that environment variables should NOT
+    be updated after the service is initialized.
+    """
+    # Tag __getattr__ with functools.cache
+    global __getattr__
+    __getattr__ = functools.cache(__getattr__)
+
+    # Cache all environment variables
+    for key in environment_variables:
+        __getattr__(key)
+
+
+def __dir__():
+    return list(environment_variables.keys())
+
+
+def is_set(name: str):
+    """Check if an environment variable is explicitly set."""
+    if name in environment_variables:
+        return name in os.environ
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+def compute_hash() -> str:
+    """
+    WARNING: Whenever a new key is added to this environment
+    variables, ensure that it is included in the factors list if
+    it affects the computation graph. For example, different values
+    of VLLM_PP_LAYER_PARTITION will generate different computation
+    graphs, so it is included in the factors list. The env vars that
+    affect the choice of different kernels or attention backends should
+    also be included in the factors list.
+    """
+
+    # The values of envs may affects the computation graph.
+    # TODO(DefTruth): hash all environment variables?
+    # for key in environment_variables:
+    #     factorize(key)
+    environment_variables_to_hash = [
+        "VLLM_PP_LAYER_PARTITION",
+        "VLLM_MLA_DISABLE",
+        "VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH",
+        "VLLM_USE_TRITON_AWQ",
+        "VLLM_DP_RANK",
+        "VLLM_DP_SIZE",
+        "VLLM_USE_STANDALONE_COMPILE",
+        "VLLM_FUSED_MOE_CHUNK_SIZE",
+        "VLLM_FLASHINFER_MOE_BACKEND",
+        "VLLM_V1_USE_PREFILL_DECODE_ATTENTION",
+        "VLLM_ATTENTION_BACKEND",
+        "VLLM_USE_FLASHINFER_SAMPLER",
+        "VLLM_DISABLED_KERNELS",
+        "VLLM_USE_DEEP_GEMM",
+        "VLLM_MOE_USE_DEEP_GEMM",
+        "VLLM_USE_DEEP_GEMM_E8M0",
+        "VLLM_USE_FUSED_MOE_GROUPED_TOPK",
+        "VLLM_USE_FLASHINFER_MOE_FP16",
+        "VLLM_USE_FLASHINFER_MOE_FP8",
+        "VLLM_USE_FLASHINFER_MOE_FP4",
+        "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8",
+        "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS",
+        "VLLM_USE_FLASHINFER_MOE_MXFP4_BF16",
+        "VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE",
+        "VLLM_USE_CUDNN_PREFILL",
+        "VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL",
+        "VLLM_USE_TRTLLM_ATTENTION",
+        "VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION",
+        "VLLM_ROCM_USE_AITER",
+        "VLLM_ROCM_USE_AITER_PAGED_ATTN",
+        "VLLM_ROCM_USE_AITER_LINEAR",
+        "VLLM_ROCM_USE_AITER_MOE",
+        "VLLM_ROCM_USE_AITER_RMSNORM",
+        "VLLM_ROCM_USE_AITER_MLA",
+        "VLLM_ROCM_USE_AITER_MHA",
+        "VLLM_ROCM_USE_AITER_FP4_ASM_GEMM",
+        "VLLM_ROCM_USE_AITER_TRITON_ROPE",
+        "VLLM_ROCM_USE_AITER_FP8BMM",
+        "VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION",
+        "VLLM_ROCM_USE_AITER_TRITON_GEMM",
+        "VLLM_ROCM_USE_SKINNY_GEMM",
+        "VLLM_ROCM_FP8_PADDING",
+        "VLLM_ROCM_MOE_PADDING",
+        "VLLM_ROCM_CUSTOM_PAGED_ATTN",
+        "VLLM_ROCM_QUICK_REDUCE_QUANTIZATION",
+        "VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16",
+        "VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB",
+        "VLLM_ROCM_FP8_MFMA_PAGE_ATTN",
+        "VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE",
+        "VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING",
+        "VLLM_NVFP4_GEMM_BACKEND",
+        "VLLM_USE_FBGEMM",
+        "VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE",
+        "VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL",
+    ]
+    for key in environment_variables_to_hash:
+        # if this goes out of sync with environment_variables,
+        # it's not a user error, it's a bug
+        assert key in environment_variables, (
+            "Please update environment_variables_to_hash in envs.py"
+        )
+
+    factors = [environment_variables[key]() for key in environment_variables_to_hash]
+
+    ray_noset_env_vars = [
+        # Refer to
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/nvidia_gpu.py#L11
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/amd_gpu.py#L11
+        # https://github.com/ray-project/ray/blob/b97d21dab233c2bd8ed7db749a82a1e594222b5c/python/ray/_private/accelerators/amd_gpu.py#L10
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/npu.py#L12
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/hpu.py#L12
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/neuron.py#L14
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/tpu.py#L38
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/intel_gpu.py#L10
+        # https://github.com/ray-project/ray/blob/c584b1ea97b00793d1def71eaf81537d70efba42/python/ray/_private/accelerators/rbln.py#L10
+        "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES",
+        "RAY_EXPERIMENTAL_NOSET_ROCR_VISIBLE_DEVICES",
+        "RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES",
+        "RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES",
+        "RAY_EXPERIMENTAL_NOSET_HABANA_VISIBLE_MODULES",
+        "RAY_EXPERIMENTAL_NOSET_NEURON_RT_VISIBLE_CORES",
+        "RAY_EXPERIMENTAL_NOSET_TPU_VISIBLE_CHIPS",
+        "RAY_EXPERIMENTAL_NOSET_ONEAPI_DEVICE_SELECTOR",
+        "RAY_EXPERIMENTAL_NOSET_RBLN_RT_VISIBLE_DEVICES",
+    ]
+    factors.extend([os.getenv(var) for var in ray_noset_env_vars])
+
+    hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+
+    return hash_str
diff --git a/forward_context.py b/forward_context.py
new file mode 100644
index 0000000..25fb718
--- /dev/null
+++ b/forward_context.py
@@ -0,0 +1,356 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+from collections import defaultdict
+from contextlib import contextmanager
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, NamedTuple
+
+import torch
+
+import vllm.envs as envs
+from vllm.config import CUDAGraphMode, ParallelConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.worker.dp_utils import coordinate_batch_across_dp
+from vllm.v1.worker.ubatch_utils import UBatchSlices
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+
+logger = init_logger(__name__)
+
+track_batchsize: bool = envs.VLLM_LOG_BATCHSIZE_INTERVAL >= 0
+last_logging_time: float = 0
+forward_start_time: float = 0
+batchsize_logging_interval: float = envs.VLLM_LOG_BATCHSIZE_INTERVAL
+batchsize_forward_time: defaultdict = defaultdict(list)
+
+
+class BatchDescriptor(NamedTuple):
+    """
+    Batch descriptor for cudagraph dispatching. We should keep the num of
+    items as minimal as possible to properly and uniquely describe the padded
+    batch for cudagraph.
+    """
+
+    num_tokens: int
+    uniform_decode: bool = False
+    """
+    False can also be used for an uniform decode batch to dispatch to the 
+    cudagraph supporting non-uniform batches.
+    """
+    has_lora: bool = False
+    """
+    Whether this batch has active LoRA adapters.
+    """
+
+    @property
+    def non_uniform(self) -> "BatchDescriptor":
+        """
+        Return a non-uniform version of current batch descriptor.
+        """
+        return BatchDescriptor(
+            self.num_tokens, uniform_decode=False, has_lora=self.has_lora
+        )
+
+
+def _compute_sp_num_tokens(
+    num_tokens_across_dp_cpu: torch.Tensor, sequence_parallel_size: int
+) -> list[int]:
+    sp_tokens = (
+        num_tokens_across_dp_cpu + sequence_parallel_size - 1
+    ) // sequence_parallel_size
+
+    sp_tokens = sp_tokens.repeat_interleave(sequence_parallel_size)
+    return sp_tokens.tolist()
+
+
+def _compute_chunked_local_num_tokens(
+    num_tokens_across_dp_cpu: torch.Tensor,
+    sequence_parallel_size: int,
+    max_num_tokens: int,
+    chunk_idx: int,
+) -> list[int]:
+    sp_tokens = _compute_sp_num_tokens(num_tokens_across_dp_cpu, sequence_parallel_size)
+    sp_size = len(sp_tokens)
+
+    local_size = [-1] * sp_size
+    for i in range(sp_size):
+        # Take into account sharding if MoE activation is sequence parallel.
+        local_size[i] = min(max_num_tokens, sp_tokens[i] - (max_num_tokens * chunk_idx))
+        if local_size[i] <= 0:
+            local_size[i] = 1  # ensure lockstep even if done
+    return local_size
+
+
+@dataclass
+class DPMetadata:
+    max_tokens_across_dp_cpu: torch.Tensor
+    num_tokens_across_dp_cpu: torch.Tensor
+
+    # NOTE: local_sizes should only be set by the chunked_sizes context manager
+    local_sizes: list[int] | None = None
+
+    @staticmethod
+    def make(
+        parallel_config: ParallelConfig,
+        num_tokens: int,
+        num_tokens_across_dp_cpu: torch.Tensor,
+    ) -> "DPMetadata":
+        assert num_tokens_across_dp_cpu is not None
+        assert parallel_config.data_parallel_size > 1
+        dp_rank = parallel_config.data_parallel_rank
+        batchsize = num_tokens
+
+        # If num_tokens_across_dp is None, it will be computed by all_reduce
+        # Otherwise, num_tokens_across_dp[dp_rank] should be equal to batchsize
+        assert num_tokens_across_dp_cpu[dp_rank] == batchsize, (
+            f"{num_tokens_across_dp_cpu[dp_rank]} {batchsize}"
+        )
+        max_tokens_across_dp_cpu = torch.max(num_tokens_across_dp_cpu)
+        return DPMetadata(max_tokens_across_dp_cpu, num_tokens_across_dp_cpu)
+
+    @contextmanager
+    def chunked_sizes(
+        self, sequence_parallel_size: int, max_chunk_size_per_rank: int, chunk_idx: int
+    ):
+        """
+        Context manager to compute and temporarily set the per-rank local token
+        sizes for a specific chunk during chunked forward execution.
+
+        This is necessary to ensure each DP (data parallel) rank processes its
+        designated portion of tokens in lockstep with others, even when the
+        token counts are uneven or some ranks have completed their input early.
+
+        For chunked execution, we break up the total tokens on each rank into
+        multiple chunks (of at most `max_chunk_size_per_rank`), and for a given
+        `chunk_idx`, this context manager sets `self.local_sizes` to the number
+        of tokens to process in that chunk on each rank.
+
+        `self.local_sizes` is only valid inside the context.
+
+        Args:
+            sequence_parallel_size: When Attn is TP and MoE layers are EP,
+                                    we use SP between the layers to avoid
+                                    redundant ops. We need this value to
+                                    compute the chunked sizes.
+            max_chunk_size_per_rank: The max number of tokens each rank is
+                                     allowed to process in this chunk.
+            chunk_idx: The index of the chunk to compute sizes for.
+        """
+        self.local_sizes = _compute_chunked_local_num_tokens(
+            self.num_tokens_across_dp_cpu,
+            sequence_parallel_size,
+            max_chunk_size_per_rank,
+            chunk_idx,
+        )
+        try:
+            yield self.local_sizes
+        finally:
+            self.local_sizes = None
+
+    @contextmanager
+    def sp_local_sizes(self, sequence_parallel_size: int):
+        """
+        Context mamager for setting self.local_sizes. Same as self.chunked_sizes
+        but without any chunking.
+        """
+        self.local_sizes = _compute_sp_num_tokens(
+            self.num_tokens_across_dp_cpu, sequence_parallel_size
+        )
+        try:
+            yield self.local_sizes
+        finally:
+            self.local_sizes = None
+
+    def get_chunk_sizes_across_dp_rank(self) -> list[int] | None:
+        assert self.local_sizes is not None
+        return self.local_sizes
+
+    # Get the cumulative tokens across sequence parallel ranks.
+    # In this case the input to the MoEs will be distributed w.r.t both
+    # DP and TP rank.
+    # When sp_size==1, this is just the cummulative num tokens across DP.
+    def cu_tokens_across_sp(self, sp_size: int) -> torch.Tensor:
+        num_tokens_across_sp_cpu = (
+            self.num_tokens_across_dp_cpu - 1 + sp_size
+        ) // sp_size
+        num_tokens_across_sp_cpu = num_tokens_across_sp_cpu.repeat_interleave(sp_size)
+        return torch.cumsum(num_tokens_across_sp_cpu, dim=0)
+
+
+@dataclass
+class ForwardContext:
+    # copy from vllm_config.compilation_config.static_forward_context
+    no_compile_layers: dict[str, Any]
+    """
+    Type Dict[str, AttentionMetadata] for v1, map from layer_name of each 
+    attention layer to its attention metadata
+    Type List[Dict[str, AttentionMetadata]] for DBO. List of size two, one
+    for each microbatch.
+    Set dynamically for each forward pass
+    """
+    attn_metadata: dict[str, "AttentionMetadata"] | list[dict[str, "AttentionMetadata"]]
+    # TODO: remove after making all virtual_engines share the same kv cache
+    virtual_engine: int  # set dynamically for each forward pass
+    # set dynamically for each forward pass
+    dp_metadata: DPMetadata | None = None
+    # determine the cudagraph style at runtime to be FULL, PIECEWISE, or NONE.
+    # by default NONE, no cudagraph is used.
+    cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE
+    batch_descriptor: BatchDescriptor | None = None
+
+    ubatch_slices: UBatchSlices | None = None
+
+    def __post_init__(self):
+        assert self.cudagraph_runtime_mode.valid_runtime_modes(), (
+            f"Invalid cudagraph runtime mode: {self.cudagraph_runtime_mode}"
+        )
+
+
+_forward_context: ForwardContext | None = None
+
+
+def get_forward_context() -> ForwardContext:
+    """Get the current forward context."""
+    assert _forward_context is not None, (
+        "Forward context is not set. "
+        "Please use `set_forward_context` to set the forward context."
+    )
+    return _forward_context
+
+
+def is_forward_context_available() -> bool:
+    return _forward_context is not None
+
+
+def create_forward_context(
+    attn_metadata: Any,
+    vllm_config: VllmConfig,
+    virtual_engine: int = 0,
+    dp_metadata: DPMetadata | None = None,
+    cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
+    batch_descriptor: BatchDescriptor | None = None,
+    ubatch_slices: UBatchSlices | None = None,
+):
+    return ForwardContext(
+        no_compile_layers=vllm_config.compilation_config.static_forward_context,
+        virtual_engine=virtual_engine,
+        attn_metadata=attn_metadata,
+        dp_metadata=dp_metadata,
+        cudagraph_runtime_mode=cudagraph_runtime_mode,
+        batch_descriptor=batch_descriptor,
+        ubatch_slices=ubatch_slices,
+    )
+
+
+@contextmanager
+def override_forward_context(forward_context: ForwardContext | None):
+    """A context manager that overrides the current forward context.
+    This is used to override the forward context for a specific
+    forward pass.
+    """
+    global _forward_context
+    prev_context = _forward_context
+    _forward_context = forward_context
+    try:
+        yield
+    finally:
+        _forward_context = prev_context
+
+
+@contextmanager
+def set_forward_context(
+    attn_metadata: Any,
+    vllm_config: VllmConfig,
+    virtual_engine: int = 0,
+    num_tokens: int | None = None,
+    num_tokens_across_dp: torch.Tensor | None = None,
+    cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
+    batch_descriptor: BatchDescriptor | None = None,
+    ubatch_slices: UBatchSlices | None = None,
+):
+    """A context manager that stores the current forward context,
+    can be attention metadata, etc.
+    Here we can inject common logic for every model forward pass.
+    """
+    global forward_start_time
+    need_to_track_batchsize = track_batchsize and attn_metadata is not None
+    if need_to_track_batchsize:
+        forward_start_time = time.perf_counter()
+
+    dp_metadata: DPMetadata | None = None
+    if vllm_config.parallel_config.data_parallel_size > 1 and (
+        attn_metadata is not None or num_tokens is not None
+    ):
+        # If num_tokens_across_dp hasn't already been initialized, then
+        # initialize it here. Both DP padding and Microbatching will be
+        # disabled.
+        if num_tokens_across_dp is None:
+            assert ubatch_slices is None
+            assert num_tokens is not None
+            _, num_tokens_across_dp = coordinate_batch_across_dp(
+                num_tokens_unpadded=num_tokens,
+                parallel_config=vllm_config.parallel_config,
+                allow_microbatching=False,
+                allow_dp_padding=False,
+            )
+            assert num_tokens_across_dp is not None
+        dp_metadata = DPMetadata.make(
+            vllm_config.parallel_config, num_tokens or 0, num_tokens_across_dp
+        )
+
+    # Convenience: if cudagraph is used and num_tokens is given, we can just
+    # create a batch descriptor here if not given (there's no harm since if it
+    # doesn't match in the wrapper it'll fall through).
+    if cudagraph_runtime_mode != CUDAGraphMode.NONE and num_tokens is not None:
+        batch_descriptor = batch_descriptor or BatchDescriptor(num_tokens=num_tokens)
+
+    forward_context = create_forward_context(
+        attn_metadata,
+        vllm_config,
+        virtual_engine,
+        dp_metadata,
+        cudagraph_runtime_mode,
+        batch_descriptor,
+        ubatch_slices,
+    )
+
+    try:
+        with override_forward_context(forward_context):
+            yield
+    finally:
+        global last_logging_time, batchsize_logging_interval
+        if need_to_track_batchsize:
+            batchsize = num_tokens
+            # we use synchronous scheduling right now,
+            # adding a sync point here should not affect
+            # scheduling of the next batch
+            from vllm.platforms import current_platform
+
+            synchronize = current_platform.synchronize
+            if synchronize is not None:
+                synchronize()
+            now = time.perf_counter()
+            # time measurement is in milliseconds
+            batchsize_forward_time[batchsize].append((now - forward_start_time) * 1000)
+            if now - last_logging_time > batchsize_logging_interval:
+                last_logging_time = now
+                forward_stats = []
+                for bs, times in batchsize_forward_time.items():
+                    if len(times) <= 1:
+                        # can be cudagraph / profiling run
+                        continue
+                    medium = torch.quantile(torch.tensor(times), q=0.5).item()
+                    medium = round(medium, 2)
+                    forward_stats.append((bs, len(times), medium))
+                forward_stats.sort(key=lambda x: x[1], reverse=True)
+                if forward_stats:
+                    logger.info(
+                        (
+                            "Batchsize forward time stats "
+                            "(batchsize, count, median_time(ms)): %s"
+                        ),
+                        forward_stats,
+                    )
diff --git a/inputs/__init__.py b/inputs/__init__.py
new file mode 100644
index 0000000..d9aed70
--- /dev/null
+++ b/inputs/__init__.py
@@ -0,0 +1,44 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .data import (
+    DataPrompt,
+    DecoderOnlyInputs,
+    EmbedsInputs,
+    EmbedsPrompt,
+    EncoderDecoderInputs,
+    ExplicitEncoderDecoderPrompt,
+    ProcessorInputs,
+    PromptType,
+    SingletonInputs,
+    SingletonPrompt,
+    TextPrompt,
+    TokenInputs,
+    TokensPrompt,
+    build_explicit_enc_dec_prompt,
+    embeds_inputs,
+    to_enc_dec_tuple_list,
+    token_inputs,
+    zip_enc_dec_prompts,
+)
+
+__all__ = [
+    "DataPrompt",
+    "TextPrompt",
+    "TokensPrompt",
+    "PromptType",
+    "SingletonPrompt",
+    "ExplicitEncoderDecoderPrompt",
+    "TokenInputs",
+    "EmbedsInputs",
+    "EmbedsPrompt",
+    "token_inputs",
+    "embeds_inputs",
+    "DecoderOnlyInputs",
+    "EncoderDecoderInputs",
+    "ProcessorInputs",
+    "SingletonInputs",
+    "build_explicit_enc_dec_prompt",
+    "to_enc_dec_tuple_list",
+    "zip_enc_dec_prompts",
+]
diff --git a/inputs/__pycache__/__init__.cpython-312.pyc b/inputs/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0e0f2a45005cabae9c8b78224a1b155d84d08635
GIT binary patch
literal 794
zcmZXSzmL-}6vv$({goz7n-&Qn7#WImWIWIzrt820NOZE0thTX=b$*GJIH+M`<`1}?
zjlY6Ffd3#X6C2`&lbEm__f97~eBzh)eee4m=SLI;NG<MvVc$K3e(K=3T)Vk?uQrz`
zLz%-7IM@LfyWn9DeC$IH_n?paFu(&C;vtOi2m&0y7>^;uAw)QW37$ZVW0>M8%<v2n
zoH%HYGWV;4=Z&}Ye>uuxnY6+AMsD7g1qj*B&grhmX!$1R&8uA0vTDN>Y-v{AjjVjJ
z%8lGsS<S=ML2$NX@^04F#Ok@DRaKN$9(0LyBWN4HWBHy_S>!f(`@)t7YkH7&KVBCX
z^r#F?P}$U@ZOwQ_sGWq+d`B|6BceNJM9rZH>&|#j7B>o63r-1Vm25+)`yWN~PfXmX
zx<1u1Db)?4GSY}O^wpN3#!zFT(bMQ_%r#~jzQ#afq%qc*Y9ty9h1bhP>u2h2Itx>9
z+sTv~3sY}wO%vm7<}u!8DAU;3n(k%_ZP5-0*>FzCH*}>!^!F^4AX34^iL%{Od2*;v
zpFg`er736IR5bEKk*6OyhqU{0DN$dCNkX2ArX9Y3BC9!lSw2v`^xsuIR`~5Xj&nVn
UJMK05AAg?A$L{Ard0#320ZrH3cK`qY

literal 0
HcmV?d00001

diff --git a/inputs/__pycache__/data.cpython-312.pyc b/inputs/__pycache__/data.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6d7f301211b1275520569958d66eba2bd57bf423
GIT binary patch
literal 8951
zcmb_BTTC2TcDK5!s~<GbJWcax%3v^!dHDSrG8@}q8$TG&z-+SZv74gn0zK0YwyMC!
z!V=NWNS3nFU@4MWX+9WfKXAq$?4PCm$S7ZlB1PScqp+osmeJ-T`ATDY6Ky`CoO5qg
z)8MvOk*3sr`_{SVo_p?j-`oFGS?MS6B&EMj{9_*>zsDEn3D}+8v`EM^@-fkfCL~Ep
zhzbJsT}f9;jEX5KDy7^}cS?@RDNods@<zRETul0+KERWb{!~S@A{B@RQkBulR8_P}
zAXL;VV9cGYP6eaER86!dRU54pNLr?K(I9+l;9Kh=*N7&6PBae<d;?tI6Rl@ZFF<`I
z&;|ze1GJ(9+Q^^*fL4}3578!C|HwlKZD4I9w$Tvv&}OY_2-ffst(u0kAg!bgA$Xsb
zw3^SQXiE{=XhUlO+Ug>-N~@zGm{I?t;Ts9L1bS@@-uMPQ%y>EkJT=h(b<;K)o^~O<
z;>>oK)6RHO7*8S26Pwoz^IA&wau|3$t+mn)+KDu@Hrk|#I2X7-JS}VC&)v}@Y-T&m
zR7z%cv6+Xd@6%hz@BU{Woi3o$0d$Vi!?cS@tcG#d!?^1#;qC~m(N(fW<iLzxHlv%*
zpglCg=p19vqYfRAW)Dj3MWm?nJ|@fF1JHi9gJZN$>!bbluKVc#XjkGAElQ%D0tSao
zd$j@B%OIOONCn!*<aQi-HVyXP5AP+E5LWumB<#q!gO<=oOjzRttZ`gB2~-Y@fnGZ3
z3FL=!$GKv&B<&Q~)5%3Ka^^o!9TCCuj+#_gr;;=xTa^<(xib>Ga((2=&C#)ImUt<>
zXnC&DG}RMv%X2G%m`Tewu{cLBB@?P)NpaOM$0CwdF_tkuqCcHa=v3nf+HfLnS~B8}
z8kPrtf2`^e(W<>YpEMJ<Gn$$lR!x<m1@~a1>A88+D8>5t<I!QniX+F)WBUNveFTta
zgp#PBk*Et|h!7R2MBSRpwgH)XxEz>--I`Q{djZc^sz)2cUBvL)5V;7EY={RTAV;s|
zpP&!TJ9;KHXFdvz$7g9uRi-n#qADf~D06INz>;}q%nGJ(|FIMbAf|x?th!Vx2BUFm
z7#ThG*#lLdF|3+WwE6jjW?25X3glyknlvL7mNynlt0@|bS^gMOn@?gt5R3hEUQOB~
zo>)xF!~rZCrfyZoVrn{_F;z2>NgJ`4j-gqvg2s|G5U}pX_aHRS$u6|yf6fh>sky<q
z#9Y4#Oi{D{;rzJ^=RZ3~2a}1Z!MR0qHj^G)NG4N*38uC|+|R(=qF#%XuxWs=F$2vP
z<hN4icA)xaH@Bpb?Z(5|j?)`vuH(I2<Ituwly`}4Z{AOuyVfSwJJ*f%p0Dq3Xt}P7
zxzKx?(tCNA8-}Y$Q)jmGOzzOxP3dgjB?Bl(YFbyX<bukkq~u*Lw^vtSEw*xbbNO2s
zE@v)Gt#Z+5Jk)DLL|gS9G%AGIaL0^1)Tg=8S#7vuDjw>mURq(BS1ATF9Up;^6tL%b
zi)%Qm`j~mSBYrC|k@<|K4coxN`wa|-5|5}>w6Y+#vY3e@F)$jv4p_FT_`3;Ch`=$u
z9;Jl3(HpTj1Wlw;Z^AzEq&H*J0*xgl6NYJtiL|M=A&}WjEB4TE^e{F>yV2Y6Rl(*k
zHl0p$9y-R)p+Pg~*=}rJJ@quPDYb7&r?vx!R>fSPbyI5HlCEvnx35WS<6rx7^}U-?
z@0N7+2eB1yK4onMdE93!A^`B&y$sEpw(=<}Xc$JZp>MUEMJeL80wbv@syRA5xle~&
zVW_}`ga(>iNI>8~?I{!|X^HfVF<@2NdSx(!>1!<FE2}WKnbG635P89BGWtQK9Z*mN
zwxDA(316cF8dT8Gc3so6p{L-OprE7M!Im;EhLg&Rtp`Tl6x+Ut?ADlDG2!?z3*6!H
z^WsNzPNxP<n}#yO^NzwJi!!UGwIs-AYEc>e0L8__r81YCpGl-aL=uao71+ig{-#t&
zOrCNQ;^xYXnc49HkqiL)IyOo88t5J<lHqNC<<Ca9q^9kf`c0{ROKRt4j)+$EIA|$J
z%}ko_gFBt9Q*&NV#|1!f9!y(kU%MBfc}C3Q*b*^a4$?Pv@1dakq0kkU$O3`B1br9u
zg>mv+9Mg{gy50-TbC=~$7$5^vO~)zo$marM!9el~b44qdFnCljFxNn`($Ocsgs*W7
znq~5D-rAM3U!C6cDzAyl*Si%6uXSewJ+DQ0*$%X<oy`U!d5`3l*~Wj6T?r+-BI86q
z4UFh#usMf(9pIkZzQa8i;9I!wM((Gxfj;EE8@OLx$OgLhxVPlk#EDouGXeF8dnz-Z
z)+~=kr&Y+zmM@-JQ1yhGhUz6YaT2ihnR&7BxC$)3-OM2(u;LBOo@EM%_Fn3v{=H%h
zMp&T%MTBg%jy#-8CgKTmBpuIaR3E17hnti708GZOz*FKLDg+3QJE(DF1&RQg<o;qO
zgg!Pa4(is?LS_`4Wv}E+w^3n8Q&h#F#cgE3&j?J+(jqpZ?ME{D6!6(O8aERQG`ZNP
zq|`-aieeE2PH0k%(NN>@jE>O^q8qHWsAQ%UbC$BPyOReTX!71&tSSb$?+>u5;sDA$
z#bC9T!S~3x*Qo;K4RFH?QCw+OU7)y*VnD5APqBCPK{~m}hHN=Hf<X4!G**H2vqDW_
zEGT6PHMRj`HZz}u*hCf8WF*bZTz`^+IQp1e?Qvuda13gKmP(g)RLF>N(SuY$V{yj(
zqN2jq)R}a~FcWdy7VhYP`t4moA&zr^4>fHI_g%JCPSWqfzsG2zi0sYG8xWLL16H#w
z57p~fNPh-p%<OVcO^i9*z@)tc+odO&s3vXWa)4~T=>$z`1~-|6!IYsuMLQpd0Lvtl
zGH7yv8cJ&3KoQ#;KVUND_Id#29&CcgQDcA+v8whnIc8PuXOLA<k&3d3<~<B$EYbW3
zd#rR~1ry6VtZF)td@dm#HtX;;`k?uO?6~Tn((NS;Et^vFc75~e#M9fG(&6pUk-b_u
z7drh)I?YoOPPhC#bl|aTU-*JZ!k*po;Y(xp1Q42>vKLNItVrEEH$fP)Av}D^5sy{D
zid24ddlW8-Qmm5cpHk6CY-hHhK!NhclCT=(Sq#h1v53E{456~NW!R0qqu4M(mdo9^
zDIJ^Nz}Gkq4X-!-H7iGR{$`Nhmef{SeRh{GZWtYwV3D<WF*Cyp#(xyzE@uAH432sF
zh0Dp^k6lZ`U%8irB^MXvl53nqq(>iKfs+?AT;=X$iO|ZKX36k9Wg2p}l9|Jko0?>n
zxu7QJsWG5m13n@y{W|>YNi!laF+{{YkR@{k7|1>35?&Srm@;B~NWTd~-^15HSuc}9
zfK-K6XR_z7zp5NvzPjzH$$Hwh+9OZoCrdeR>vl!W@@-xX0DAE$n%D$@-pr71n%JjR
z#ks|flQ-d<RL<b+irTig&Jv5;tC|m(oov_6Oi)-i*;VwPGCQn}bo9ixo84_3#pXZZ
zTQs}=Z7{o@oFCk_1<meH*VK#-vi1X7+<2+Qjj(eFms&ZKD;<BA&5Z$%j?EQC2{wlt
z0Glg<^cyIUeFj&_)!<m%9YFYBMCyWuTU_(%!;QzUDo5UBa8}JQFM2SE^ZmquK=CQs
zAeNMG+8|};@sd*;obB-pk5$_c%wPwT`jLILm~CsnX3jSO=_|pmJm3dh`PQx5BWXB?
zP)Dkiy$wJS6SKQTlzWh%pf=)}ol(Q=KBpQOB<<YJOF8<G#^>QUS1iLI_hF%xfP84M
z8lYI}V12@_o$Peg@6>3Fl9S9l_9#}ntiXKR5s3xBYLEm^Uk9?(I1XS_FM#GSBx9E1
zXY8s_w&hr^^4O+yY)k6ju52oO<p~OBmYkWmV6AG%So}<914O9N!N^b_`k&zx0G!k>
z<Leb{@cJU|C>r_%6Dq#%V)S}OmR!rO1bOT#J!D}(ejzxwz7UdKW6#9{G{KHBh3a>q
z*>AgTQ}c<W7IP|S&}=*gf^?1~pTLBZC=nh#;X2FPlJ#_Kg_W$g<-3ZbTZg*v(>hr2
zNC7!doU@cwfrRX`&#Ks?XzbfwC6H&^n}jvk_S*Kgws(3oF+;J(l${<wbtK4Mb~1g=
z*ph2+t~0KWm=(owvLrb0Ve+N;r4$!uAVS^iC*%{zjE}{~l8L;rXGvU={(oF86?3Me
zmZz?t4@#ig$I@eQob2ZWux*udUcPk4CB{u1a04UA&13g|ewN(M9H86)lmUa&j=KbV
zod>WZ=-VR?;AUL?0>sSRGn$xlifvY+I<94F415-@MrWxGp@0>?cw+{&Dw}(E@?F)m
z6D@cs;pd!p;q&Udq(o(FOqMy8OtMp$nlv(a;s8$B?b3TnVp@Uf94>nmh$TGc^sz{S
z=Oac92eHb~7nKKzWD=*d8Xxbp;Y0&qJBT=k7W>>Zpo{`-I0e}MC%^)Xp0jozj1(z8
zO3ckcw0n>+XUm;sY?5}^f@>VKR({vW%05;)p9PpD0wo<CFCy#r5a~WP>}InVDXc16
zK=$3bfqnrM5InpHsskbioY~N)0O`-soBtU)%Ou~*z4^Ov$1hL65MPY1d%u2v<K$-e
zEIKz-MzvkPG+%l83RUFH`Ii;n-hFlY!$PGe=-&yDGam`L;PI94TDVX_DtotrVfcI(
ztpA&duR6anR(qb_&vu>P3|{zyN2;uXumSk5acZ7;eEvc`xg-n=TX0R<lI^}w5M7r9
z{~z4$fV?ANHy0Rsa)0&y`u&1PeBEp5jr6zafAM|{x8X3ji+FkBcFTX<tpSREECc~y
zpmYD-$;+Mc-^)#x;XjP({gKSrce{hqVsQr}F~l7Lo+rdz%<BT+al(?I33w!cUv_+$
zc7dN&fuFe^!(A2gE9ikw!L3zMDeS5k!h0MhvO`u$BsCzc5Jx!;W~QhcbAAr~<v{<^
zrvXJp_25O&GTHHy_JLiu7?8gY_dglSi^SiQZR*MSBJ1yGFW$%<yZIaMt*vnX4x;3V
z2m*Ocple{X{Gui#MTD`)DXTi3Nha|o1IqLPbt<mo#w{6+DsXe5BQC!^M49MNFc95~
z4Kq(H6s;PL3OT}r`&T5x%SM#A4$>kzhDxiEU2m`p26n$--*oUhb(VMWZx~C?OnnO6
z@V`?!aW-DNvfD|WIl>8iWhYF$&C^j9Iy-f;1Lq}t9meJ=Hr?1@wq|ucE7o{ni$$3J
zAvTzr^&eyN7uftIHb23J9b3`Qm|wsd4mH7)aNy40@(#g{;LoV{^%S6khKTX+pwGN0
z2*Q8KMCke*x&E)@`tM2LcVuLfjC?N!|Jwzr@HOVce1J47S*daBP+JymSwrp6FUX4E
zT?rKk{1mPVUGQ?DK;WlvNAU3%_$f4b1O>6+Ctpv(hu1FV+WI#FxwfH~OS!h2%hfBP
zO>#5uY7nISakn6^#=tKGd86@VAa`P97yJ2OdH7C{_-nSLz{&^fv44=j1O2XLc}Fe-
zECiZ`Giw*tXEvr^PH&`h10w|jko-jw>dE$A%{5(J_CFcjBv<n;pCA>Q0>FQyK;S3e
zLBbt7?h2uHi~l>47ooo$tXt8Z`tu0S%S5i(^+2!Cit|7S`{(fkM%j6_Y#zig<=FZs
zx%La$p<B83TUk=Ga$%F)%DW_BrYax|tTLhl`7jAb)`xO!=g@cBZgAn<fPd*gczzNd
z%$^v@wT*D_2!t9z+VK)k)f2k<qm2(<$-~RyZ{^C8H_+?Jvpc}Myj6b)Ih42S53L?~
zdINVR!_Jz+tMRo{tFylduOG>U2J(oS_Y%2dt#i#->&dx~?fMYZL2e5l3Ok-KP^t;7
zc0O&(i_qW3{+jfQ-ds&r-VFdG*|BzH%~-#(_VDY0T<FBc@XNZF@s~}%8q0+)e>;&2
zjpmUGF5=JnyE$gge>~?tvFpQu%YqDxG_+;I7hj(GR(yFr7aq<vjO0ZCZ@Ya@x>m%M
X@zv8$qbt=pzmjtwF1TTYmAL;0Y7w}*

literal 0
HcmV?d00001

diff --git a/inputs/__pycache__/parse.cpython-312.pyc b/inputs/__pycache__/parse.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..019d24eee83fd983dc6b674940bc211908f4912e
GIT binary patch
literal 5339
zcmb^#TWlN0agV$^Qshy5Nz}`>sAojQkrLbSGq4=%kvKJErBV!(XiLz%lf#&=?42A-
zkOLt|0SO5Zx+oACFi;lAhm8b<Ki$6;=tqnG978r`uLSC%%13~Hu%XZ({p!pfUs7Zw
z1#$pqXJ==3XLjec{FBS&An+yl_u{|u5b{s#)IYI?RDaD8@*#PR$VBE6B*}$24slDu
zlC*}cNj}Ucg|Ltm!(!4Fwk7RhI~%tq+LDg2gW-I_nUum3;DRhBT*>xud(s_tCp}?L
z(i`?BePLhHAND6Z!X3%Za3@C;E9GGiTOtq+$abYm=~lXWK%g}nA%OR^;I&?zBDX1=
z(t$l_JL}YCUUt08hkGsLB_ccDC9<U0KDL?~hWi-R1=RKy>LEsT1J%<)J<O<Hp!!;<
zN0dJ05R>gNgGUgC`xQ|M%KjH%8_>ZIlJ$ce9U#X5^u5q`C~lMxsGUF^lmm(fs6&cR
zwy|}5%a+=B7mN?Hy}M!W9z|$KKT=z31Xk$<uF+LnsP79@EyNl2Mdi&EB^6UbqTyQl
z(ZXzG`sLZ_A6%M$$*^6HYYL4f499#lsmMz!nS^4rEv;sh7ZdTQYNGN?Jf<0ZEUId-
znuw#9RKOf@HIj&{S|q*v1(*j3*$rtnc}<bk1)5G~G~>|htxO^wi)*u~SXx%-jKZ4Q
zs2kdtqN-_nDV15#RKsBo;QEGpF`l}fP_%TaHrOQ8raP9DTUrg5meMzrRBhXNL(G`_
zi&W88Xex%n)jzaoyz}bMEojkNV{DyhKrz3MYZ!HDLY=lwKH)yDabM>a_s*>Q38~M_
za#YaTnse(jWy_5*La0-7*2iRPee4}hbJeK_O7ooNu8(Vt9h*|4m8>@;xDEIW`GAXA
zu9KMMC+&pX=32Djn%dm4yzk+G=Qe89Dgi_T^Q&t`hYysX!M9%m&0k*uPLHqa$xg3z
zpN1}teXbw4PlHd}v*R~*Z8>+D`A&W3?|%B`yyiX)$$Aes)uxtQQ_DT4+F3sbS*XkM
z4%`gKPW>%_bu1*#Kj0{`Q?$XgL2$^ZsszEJZ^mUM7}bJE(1Pg{BZ8ZOCwfeSk7(!y
zk+`g`Et!;Has_y=!MvcVQE;iF!6>EC)nIzLMo?QQY&sCqw8_P2W>*b4(dXkSRf|G2
zF|4p8McoY^!+>E;C@I5nHJVsaW+_cmiZ)L1G7M`xrO^(=Sa4y(Aq&&f;FW}uR8iYt
z@V}=gwPa>86VE)OMd@`#d*;^4sWYc<oKhwe@oSTrRqge3YVu|xk(`XPpfQ<=QdODA
ztQua1MQHS`h^f0uhhR-K4z(Bjc7yDS#O}+E-Ww{~j_i1PbE8F1NOzCx_VFE?7wE%(
zw)K~t?VC5>JGVXXsk5)_JER|evEaL?OBZ*Xo!RAkv7&Qur?cnY@ICczD0j8cd31B`
zucyx!{8PUXAM(F=B`1H@@$@4x@1N48sqz!2lskeCM~fY2bpKghI&1RDMdwhNEv<bt
zeRuWl<o%O{&SRT%Ww$STa(m#;nfKn#c|UazmIFb3V73sL(>-%L?w;+@ocC_%qs5{-
z^pBV43td<KDE^keCq0xu>pu4fG2eAX_gvX=_$wB!?L^gTb&3^Y6~wQ<JWM(+a9@Af
zO}ZC2Rf046-EsfS6#x4p{#l-nLBH`~u*9zlaSH;bLc*L(!j{({J<A-PuENU}OmB(+
zm=&>AJ|r0K1-uz~QKJhi8q+=)F?bE5yDgSZX-Z0)hm2&8L{gA@A`!z8i6qnVN&;~y
z5_xkanlMKw24TY;i9}PWv=-Ik>699YumvBGDvS|2h+w1+&H<u&0sM@V9Nz56)<l8t
zF1bAKUZ&5~dA=7VJ*JW^sfgDgEzwcj<tYH5A;p8EAq3+HP#O9(0`whv6akZp=`e|1
z1Q+0^`T&?ZjBZU9_@0uhtH^hm?8x-JDB-Iq(UL<A(ToM(Q4#d){fZnz8iHB)RZ&$_
zk+Hm^ufX?}Ts=j;$J7M5zE4f|6d|I*N|NuW38tm}nw&%$f>#hZfq>l?l8nxpnb*q|
z)7bZv96a!$7gb9D{-2UV<{)ia>Z#}3N)CElwyu+#1d5hM0+ji^E675Pqgj54`#5Yh
z4m=6=$@aY*&D1QnHIrG$G0z+lqI$#l4VM{-Beg3y1?y1^8T2>;mgSxWZ0({M%n!&`
zP0u<STxu~;mZVzmIb^53xF|*$76=SphO(928#6=ZR5Xag-2hZ9<$^437=a9ist9B@
zv*fHL5Q?#E33)XD8>Gy#1ZI!2`$%r~;mM-=tZqMBZu4j7?#&e21}Y+v`nH$z&f&6u
z<o@YLSBw4`U79Jm`g14quFyVW=XN0P>M#3;?gt(PivA0_bfN6<m+Y6TRtv^yiy$&P
zJJ^;cK%{T8rCS{3;kgA?bdxNSkY(Ozhi3p*;x!H7ve=<vy!^(g3_^LY)C%}WeV%NV
z@bwd#f{6<J)I$JRhLr-4C*^{3=u_uKeeCq3IeqM+&R=Aj7@~R4do)7NVBTSBWJ*ih
zWec-I$2!Pw7I<b!wrp91hvz!MHe{VQY&FRYTTL|Py&;ZXK(SgbxkH7wh=z(pfHPuB
zLT7;M26EyNY!J9XyEi+RxAktX-k;0&9|MBRpFNY84wob!Yb%1)<A5yM=BPM`<jDp$
zU(jnI`QR9aQKL0)%3RnAnUZ6VJHgDIKob?4Vn<CIBP^G~NSn+nf-JDi%0b5Tm@#G=
z-dIotrZjb)q8Ax$EM~Lv&#$Fv?DdHycoab~w;r4aMvCqia_mn>IMwtTmXlt>F5V{X
zN5EWmUy7Q;0R*?;r{c9iWbf+RnAsf4@>}B=+y_TDE^TVr>8;i66M1)kfgddmk8RB9
z(m;_PGovRiu*VSKwQL%~zX16*)233(Tc+h@wg{&22ClU4lP&d7b&I>r!TYNbBG((Q
zItZ|so7wk-RT^)#CyY1VI8PXFRR5od^|w2iv27mgmEFU6*xZbZEKHt-Zpdm5v5R3>
zD6~X6JVnC_g|g8Jpyrm5Si>}GMK;BSYc;l6E3sUL;B6d<1K1nj`g2!{?xVW>=;NOL
zU-sVZ)rU_MdY;#9&u_d9pzI#b{j}gdq1#XFI3bt&KL~Gyx9tVjK*`tr;rN|#{qSVL
z_iV}C`N7)O+V*6@J-%z>C5UQ#Evki{GTgCrBB8`sIX4l#7NZyjpz>JFKp>_(bj(^w
zL=5kg+7aN*8D5hM0u<DdDi(y)f%HCn8%(Td@q{|jTt31G>^%Z$Aqr0mmgnJ3Oej97
zsRscTj1(&_voOP=#t@hznf}rAiXmhgLBPs2R_d@S;WW~iAECEW43Dq`{;R?w4f7hx
zj()FC8TJ><()T?5A<V(BrJey;v2q;uACYh)e<!d0g}nMX8UCCc`-*SlEME}-RRsSI
z5Z?PY-cu3#Ik6<Uv%^{SPH5}OwwybDH=dWCx<7nhdpP}I^}%FbI#aO%*JHu8`9@yo
z*?u|q<NTpxdEr=90P^k(XW_ir_%4BF*J0thv#W@ABi_5+gLrQ%UXh5<p$A6u{HPu}
zm*>yv=NIz)Ld8nBKz6kX?3Rk7ofC6Y6#|WZ>T(s^%Al2-=1NkaVnyV!;MAqDyb!7i
z*sVwouDc}lRjklH795*X+e>-pKyFHRf~3c*0+4rmtz0O(wo9O?NKV*cyh5PSpL=l^
ITNY#f2eCwz)c^nh

literal 0
HcmV?d00001

diff --git a/inputs/__pycache__/preprocess.cpython-312.pyc b/inputs/__pycache__/preprocess.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..860402055847d80023c04acc541c657dfaec52d8
GIT binary patch
literal 23443
zcmdUXYiwNCo!`Cl=FE^Ye80)dhe!@Z4n<0$BubWTy)4TX?O3uK(}_nT-b-<$c`)}5
zC6S;KB{0xYnr!55cB6FDmf6h*dhKl#Y=H{fEnsYmVv9wAxum=^87N%_^<p<bKhR63
z*>3xxzyG<f8S>I{vgn5nq{DO1J@4~BzyIU>&;5()YCnfx()G_0-;HzJf2RlI=h7qF
z9X!W<j}tkOPjV@KhUY2nNIFu^8E48h<6_Uwq&wxA@vyin=}q}&d@SxxR;Bzieirv6
z1F7IlFjYNM&7Qr<np9{e#NxhWI8{4So2r|sOV!WRry6D&Sb9~mG1WBF#Nz&BbE;*g
zg~bEO)>PX}8;b{%?Wv9#bW^MrYm%L*u9>b>_e^(6m=RJvGd-!^nch_2Okb*hra!fB
zW?yPxW*{{<Gng8h8A?TFBB|k-;ne<_{j7W_Ig%Qk8BIlJqCDr|B)>HFKE_YKnF9{)
z1x^gV!-=);JM^^irMgJ{FX$n{m%JC_3k!+#wTPqSd_KKYa?Qq-EYgE<MUmueEG^xX
zWIP8hW<)7@I+LDDT%*TCI+2YfGuN)+t)o<b@%5K4zj*PLGta*qd+qECFJ8L*+MA`i
zi;Kx@0_Eb#*Q9F+B`YtXWXGwvB3W-<l{2%FqGaUL@!5GP;wmq7CZ3I-Nz7(TO;-N1
z>De>V?2GAz#jH{aTj_dAS(~rF{^A)bjW(P2XcMo381&`L4Jn;iX5$QBS2F2XA}h(U
zq!hm?Dag}cHN$#&DI3o!zo03O)Rbz`9ZZe<N;<iucOrN;byX6T$|npowU8|}U;va|
zFQw<{ID2~`nV3yvE8ps6Lgpmt+5Os!%S#JVDRc>|mz1)ZwEogc(2M&oOSiLnJix|k
z^o%_y`m1V*^*WZ&<~Eq6S<#=c#Jve6Ch5J5N!lP{qBi!}f;PCOg}AIpF~#VSo<6G)
zo)*^V58Hp~<hXx|T`F-iyvWTsB&W#FIYfu#5}lG;<d?l1C%Pn$=$5?tlLtBcIc|;@
zz3)`d_(YH7MhV|Lu9+&t{aP-hR3Rl$k>W>6up%XZlxn2ZNd8uI38jKa35nH4iqWR=
zJm(T?kRx2hiDP0&s+H=b`Z))cHFK7wA$Ry4_e=xJjdZcjwuI5TN32KgM)Ze9)PQ!H
z5N}4j5%CsQ3okbPfETF^y%d|FW~o(dk=l^jUeO!7_FAP5v#*_VL9y)}?@X82E_I_V
z0X^<OTRp6;PNR*d_PY!H?k($IyVPe}ro8QbsgwFX=M%fpgMAgH2Y!vx0!j~-m9CYB
zo?1GBR(nuxSnQP|Vjuo%l;)B4&w0dt%)p2~0}*MI&G5dmJW(kkMYMTF?g5N_tfKt`
zPi=oc+8;#w<KmDsfq9?6yhqUL!HRmGK8^|0GmLr;Rg`;r`-f3(Kgv!12IWRj?g;vP
zRGTwU=O}u9Ogtb)@pmf6-R5VGU*aO;rCJ6tugVgTLBsdyQZPj<BsR-<NU4h93!!c)
zkV?g5okNuB@L(2-%@S8Ad1NWOD5q!LI(E<>pa=WE{Vha(hyNazrBwF2=U(ByjlA#c
z&pfxnuW&J)|8d-k15Z?*{Z^cKG9(9X#f2xcofVfH&Q=>ajrx!S)T{lLAX!vCzsFBU
zd?mNCxPYPgVn9%E%9uQe{PGY55ekMWs7Fw$!GPH?V+!$=h^ORIq~x4kfl^g0Hk$-z
zj>QxY$_n(m`w!2IWm5}d3yFo%Y+Sx3Wk+u>9yxaO#t~^OnYcQ(u#}z8q{nV1lc_Nc
z+s78nb%`!4$z!N#xoy{iMUAdU@m@KL;P3BppVn|yHTS%#ujR3?ZL?!2=X&gGEw=XN
zT;HlGwhz!_OR@J5{q6qw(F>2eCN{e8^pUSU|LSG-cN-OPv$}jjacd>d<KcUl&Fd_=
zGPoPanky#qhJ5o4tgBsa(4b>_`Pnx!i^6O?oz7&11<aa|1tSzRUZn`P=B2c7MY)k!
zh?%6w7VC<TP=w3!q7-qk1uOaAh$k1Nv$C9#-{a+RbWEZC3-UpPrE1K$Rl{=k?uo3(
zaFU7>9o*%LfzWqO-aDBO^gOBSD2BhV?R3=FY;lh2nk^p}Zurhu?|n7z>y!^6v;Bn0
zc(dn(HDyhLzitvV3g|y;5_xWEk4e8yM7HCnP3?296O$LFGifl6j4Ygb<&wZ=QAmiw
zRcSW9s7P7@?Qoh<S_Ik(iFgu8V#KA*tw)m~OTk-lIgKh~ne?nw3SP}9+MLD`qI?8h
zD4+2#O=x+J<zD+qFVAxhm26KSsF?R)T_M=52D^*l*FJU9#Cy1gmd#K-&3z#>tcHg3
zzTy8bR^aS!xB~JN=0rY@pcIszI_u>*_L}wbJg-pYMDn}mkZ6*&^!D4>OnXuBb(4mX
zQ~xPVSre|Wn?P*5C2`Dv2T(Sk-VPwX-ejMC-DlNf#O^+=J!g4)*?>{*^S2<nM92F&
zyxrkf_`Ca_GD5f2B3dySl+m)q`lvSSSkLmG`Wdr8@XFO}JdqZ%^OB&8?*bT)oVE6^
zlv+q;mLzQCB_W;`bYXu?&uv!3*m+cVjqzs1!h&=rJ-VZe!15{rkRmZhO;=VTXfgr8
z#9}&rGoDDsuO_9anQ8gb4!GH)<0kOTqb415b`L=7Omuqr<zKH>HiojU5~5k1Ej1a+
z5SvXCy_VzW;>jd|<<<D?4Iz^jP5>-VGSqy^F!p$D49uLTh?fZqr8-j4DmAmR-CZ?5
zXUJY&0BAg$mE~tZG2n8<(n@t`jzkbB{krNWDzy6qozJxq>h3Yd5qtc#&;3PIs{91O
zU2dxee6A1@)R0gJ9b69`d}09dmV>W7`l-{&cp)G;5Gn*Z)Idi*(7)y?3>{O4junPZ
zt3#*rLoZbn8n+64+}U3Yh6}+?HP~4Q4ywVyeB}8L4}r~g`SZRuV12MFAJ|t`+)>;4
zsndlv{ao)rp=VO<ncV0(nh$nuhI;b8p4}iu6U0F503r;;$|W15(a(?@+17Sk;2^c|
z*JxYv@z;T5CYfJakY*EeiCNIg5~C0MT{LADxF)3~Ii8h-IJWX!9Of2tOKVaNtAzv|
zvj}Z_@Mc+1w8kWCN?0x!9O%vI5>nJ}7CNgDm4N`pZeGkLh?kc`iCIK%A3!4}=H?_>
zN@s;z@g?QB5Qi)v-7@Nk%N7>IMNtw*gaiZyY~OTNO5+)|$AL|>qvsaWv)M$(8qBRk
zG6`uzfLN#J%~0pX#aUn*YZm*??2`QyDI=J(1r(<(iru*zoNmVDgp^$>n~&$ODm0$B
zHi_{hgiJ*m(dR*1hpW<j{AMB}o2_RE_b`Z*1aVxX5oR+&DnUXeD`*rDGIM4bTCDSn
z*RG*!=i(UC(D`!_;RS8cF%K6Lw=usYe#II3n&k}O&=z3?qHbb#UT;zZca(tOg_%Yc
zO+PaWD^fN~bAj%mYP3qdm`litL0ni8G7V7%%soRh3#!j!sc9xKK66Bf!^kLSZYNS8
zR>oFna;S|mPSC5bPw!3|wi+?}cs_HB?2-npEMycV0gi$CKr1?Pn_Gm=Xc1QiZOI1J
zrQ%Bhx?oTVEhc6$l_|?V3v*pky3M9(mQ6CvgFOvd!@tayIFn7>#7GrtgNA7l%Dj|>
zTBs9&IUHI-`<j(9s?!<ml(jF1^{r|FwpnF_F9&z|1YoEF&HG{+oHJ@Au0hal!n;N|
z%ZGQv`sXP|ZIQYQe1DGTS~?2NBWm-=MsqY5EQZ?ip~1Xw5MeRgkuw#XQmw%(5@dgb
z*ssi%%YIJONB_6KiQuU~>sWEz)q(bI7!ned-0`zOIcsW1E2iWq@;9KPDZUk6<jKUh
z;<y1VME0yWt^vH4k)lghj`#);-<)=`cmUEA;mWSzTwz3{LpFA=a4V6WH-xKEW6NrS
zQrW7L=~@IZS*Sms%`PZYV`JF9^NUxbAk?vW4J76O5@T68o>o9nDM?nwt|l{A#||Ah
zcqBe?_3+j4i6cjk9GsL6Pfo_A+3^W!eDc`%fddmq4j(>rSc;D+@@!>stG8nW_6p1e
z=1_G8!noClnR;ahJVjy5VN+t#mbtz$bQ0vmSQzGGC~~E2*w4$?7E{=lN(H&^n$#)m
zc94sXNFW+QCCj{FZ56xC^Qwk@#A6tsC2>Y!4n!vEi#TO6O2`)wl$=Q^jRX>w<d-No
zjX)vNf>f>90wSM#w9ChB_SWZ}s((cdClFwV4KqpQIko4xjh<6^Uso}-FCQAu`^FJ&
zGI<GdPS3uAa9$P8ZwMFi!Ol-TTy;1f?%4?TuEy7cgT;`rTC0Zo@`KN;ho0H&Ig%HS
z=8wOu3NIt`W=P2U1Sa{EsxkmwIU!1wdlNE@wm1I}5g6i35y-MYSo(}+JT-S8>1Q@p
z20K0Mx*yf=_-Xr8c8l2YqLWZ=g_mnr9CkX9wYy;ubU^%aO_#i2jUZ(CT&WJyM~u;Q
zJgMQS67iN?BAq`uadsusC^e%T*}_VGwo_wSI)m{nE{MQ;gE&a(EqQLhqH#^Bq>ly$
zpN!fP%W;xrVmEFr57>|bq4SP>{}I(HR5#3UKCZ6myR$zycz^!gu8rEBoW~T93xNSO
zFi;4LtAX){Z>|SU!j?2Lo;#PXhX6eE^FTu}SofWa_bxt&JP!76h8lC#+S+<F%rDjN
zXq5&rTaKTm-u~avm8T*xjH`C&yW)6Xr;<BF0W`Nees)xG#|49I?~3bs)sD<~6nW^-
zI>(U1EBy7q?mQ;d@eXdqc|Ev0#|l5kCqNxP;(v<-bmy`qY(BrRpv%c@<p&9B^m9W3
zop`x*aYWE8);ndK*^CV4u#nNDO;%ob@eG(e5QP0o)nW$6s<&|bNHXO)sCGxuOPO>g
zP06d#rF27=bAnPzZdRn^(cVSe8c4lKg=Q!qd!zhi1PZMlYe@sFut8*!epY8^)Y+Nm
zF;#Q}0pO>OYiunv45$qQ8x2Fbs$y4fq3ej+btHfErH!ta^S<`Y*3Lrfu-ZCYXg#L3
z9?RAIJka_eUFbTXb{%-w{o%gHUFVC9?ce*-yI=b4w{zz<L*2QhLa18}b+3BV(8>Jp
zGZgwx?pD1_I!vP{d)bea7RzjGVNlkz8W|K}P|hW?gxXM-kx%3L@+g|bEVF5)e#o^5
zN}kNs>(XqNt=M~-R?V_h2wt@e0$}qusb{%wkNsbs>2J`0LY8>UxrZ5tzxmZC_02yB
z{%GzG<~Qoc^1-pqhL-Y`2({#WEuS%MAEL5yuwEg<nZALP7worf*)-U1T61Dix&A{<
zJ|k}Zr4t!DK>xrrgyB@hWDLk_vsr0_PM4}<<tIjl&ECz9RDj^#`MAPt9TFO6XD_Aj
ztSkYptz#w))`uy>H3~!o_KOCP)YPTVS~N4$7S;151b4Y7p{D!U2eHSY(IN!mmZ;hi
z-Do+GdvO!2xo2GM887slQhQDnVGarRsNtSsTVJuMt<W^8HjQq1x!%+KHs|WC$(?x|
z?Ai)4t4WV)871E1OFm4);vz(#k{2=Xqj;&ld}hFD2+QRZ`eUA?5eU<o5x{T%DT1d0
zx@X0C*OB1vI9EKjz|P}z&52Vq_Xqs@v^DU%<6ZHJ?4<mT&l0vp=R2IW5m$T$LpWpF
zON^8|RV!6WC~Iy@(Y50HJx+B0OVjWQi;5T2;934H6G?Z&b&A|kMgiVX*v%!<pnJzF
zIBHlDZ3U9U{AY{cu#<|U)x~MvEjW)jOHDAlnXM72>dU}znbx9Ig+vhPJftd9azZ*y
z9vv`klT`B($FrsRasz1|mV~v!TQZihd4HGx9?x^%YI5OR=Z~DXcnz%_C4T~EHZbtv
zfJMHHI^opeh#n}p;O8<|LG4v1NGiX*AfH@5Y6DIBXku*A*mOouBs0(hl#@}jBwU_2
zr30<}Egc);P^;hn)98z<;<ql`&;H<2A=slvU;JN+3mLxA*1<0in{yzf7GY_CL6}*o
znQaQv7Z@oFHP<rPDPcJl6_}b0vqCa)LjqG47oqxt1*f46umze$4X7rQ5)!1vlOn;S
zEf`k>%bDj@V>3r#o<KF4X(kF_C+1div(%Ck<~X?y3GyU@h`)@t66cXK6j-YnEZ=i%
zQzl45k?E|i)Tob3!7*2I3D#CNFogtL#+1uAbG<<|W%Ine?{h83|3P)i0|c1(Hl}}%
zs?DPt&11RXW&jq?fnsleKG?lk-(9HRr`GR-L|6>g7yBlQ!ogx==T?Ag7}(}K4gQ=D
z2HM8X2XCnjkz5tjhMxXUXeFOSPd-|D9DNa%)PDaq=jeesweu6OrG0deS$E>mn~z??
zlAq@fA*_YL)kWu;WLE`pwd6vY#970<g+vl$V7|*%sQZNc43jiZKHxtRcK&P+hXQ2?
zW2*CHan%tBih`YJDLP5vm+SD>#2KqS(e;6O<N|@!z6K975tO&@H4qH#J3dn&by!{o
zz)${q$ZFe&i6%mRP-Sd&V4hz;=Vsdmwmad<C{ADK{A3gx6-YL!`E^~P9l}UaxT3v?
z=`W(C>WYM4(8O!%FJE$siPSGhDp;PZ$fRvknC7sfl==7qjFXD=75L1hM}+wV47q8z
zfh|jsXvwcTH^h@!Fz35e_d5t8K24r&&^oJ&pL(CzRx7z6CZ|eX<tvMlv@DgJvkQxI
z50!tL%Ili=S1I8xf=W#*WNsgAl*>Jzv30a8{RCOxM@`r^bpBq@&m|78hYs5u(6<h*
zeobvTlB)($2U`n)PBqZETDu<TEp|i-9ph@p_``U<V|=6IXzt=>prtGWD$94izESr^
zKKKSs8d?VmEfKXPveB|XSN(CQqu4h1aJq2loO<ZohbtS0F5_T2?8io`^6Q!!Tg6JH
zjFyb;mlZ_7!yR&11kK&#m7x9JxeF?TunT`XGH-#Kf9@To?-UOtIA;LfFKry^fd}7;
zlVYS)`?E4E^$c*KCdY3RRb0!?6Q`LY8X&Q`6tXgbQbf3ZYQXwUywu?I+lVm^L8xe|
zD_Yf(?wDw=u2kkZMeF)cP}yDX6CYRGPd3QDNi{TC)Xw?yp?#b6tyrYSp|uXRaWdzJ
zGEI&dg+N3NMAqI|4;(Dkw?3G9u>Zjb)aZP05c%;im9HPj2M076n`WPWXv~tRNC4bR
zqOwej#%_js%iGCRP;9AI{BHAi-10EiN|&s(R4pW#Ymf4#oOGL496Uz~?uzpRmnoll
z(t$Eb%w@E82WxEG9}^4FAFu3Q@vgv2^8~uF;vp$)x)j#2g6TM9%PobOv=C$B0uxRd
z--MQAa!w5uT=IR?!*;lQhhn`5fECQ@#`d~Z;Gfg`-==^O4WWucss`htCe2t#z<Q&6
zCK6~_E)m82K57CI)Nma_q5Xi`exMj^%eRlJ!D#-#X>h&{FufLRUm;rP9#^}^^Al$_
zy3ghV_}7lG2)(#*RBaqBh6VPos}Sy0!@c>wqZ{F4>)~e~y;kf$Qf%!3yKRbs-8R+S
zJNIdrYwFGSPHZ$Dgf84VSZLj^w(ehhd874MK5#5Ig`n6snmc#@gc=kq<Be&bsUW`p
zi2;E4bPF~kE}e|<!u;6~mqE&A9xSXzTz2K3PF!7k608GkRaZIhc*{u8WSooy?OOF1
zL<$o0fdqXZL61p--f5W`KNxW^0qwgO49-Lt@erW^ZitI$G!~~ABeW_zLMsIfa>hYp
z8No67V^l{XgF$tMTbRj!$m`6`EvzC#27^@o2-Pr>Yu>l|MYSoK3qaR@I(@Z&Zu;5^
zb3%Wi`;gjws2FYs{cX89;qW%+6l(Ip4p<fc(bQ)OZig_S3iE;~jFA;jJ5>=KOz3I=
zeb~~R=p^Q3tTfn+QO?E6kq?h85NhQBaVB+@mG!W)%_wVUtbp@5waEa|Yxv}pmG-gH
zJ@%z76%{>Y^*~h9sds0MWqv{?;KE<Y9|<h~jo+Z9v!J&)lo>jDG`;FIDGtZs5buPz
zegyc`qZ5sUr}S!!b0<3XG>)D$;ZV!>*#{?YUAY8>tnAXkl`p?V{-se(GKn%Jct@5m
zquZMDX^yVs(yZs2_*L@iia^Pup|G69LLd)qI@-RP(#o@)Jst7L{gif(g5RNl6dt*Y
z0;0j)Hc+N(do-P6rx~=-5I?i9z9v(Ka4~2vGeW3_^{y=Aw`ueKC0d1LzMrcbTJvnw
zj*(5i_Wr=VlMlYQ9@tl`Z!W+BUq86!SzChh%0~TEJ~&mh%TWwB-CrUT5O{-|YZ$`z
zY=HWtxxxhNSe1}T`dF1re=`bb{KU)DHy4%BTv_xouaj&_-Jmj0!fmSqYprVU!N=i4
zIwPtq_-T-<YP|o(N4^eST{8^N+9H=~Dh}f+#ZedLf_C)wzhx+3@E~o!D}IQl^$<PT
z$*PV40n4T#njGaDysh=tGz*e@K2CKE4)Qs2iySLso)nNWclR=OvyF+;&OB*nh7>h4
zYQQMngdKLun`t<8rfbm}nTvP)L=)%kIJ5P}%N27j?l{szBF>+0a&q}xnVb?Trft2L
zXVxnNhal=ZDUEn#w$W?{%EAXeV<sWQRZYwP0x#v?L+}sJoTaNl%tJ<7d;w?N%%c}x
z?h6^2oI1#dL8p)%huQKMs3KEXTfV?7FuEbG0({_$G`B}3HZ3kmP$o)Vz0s0auPPE?
z+M`UILGGrYhJrx~&QkC?0^D=U!1aBao{90xEeH%1<cE~-`v`Cv1E&a6h~1%#w8pM3
zCX%A*JW&Q5`)z<@ugw3Bz=KBs&L8Be+aFA-IG3GY4@Q3)>MVx49^6#J18YO;;fasQ
zOZ*kfOZ-zm*Vgre8;?g$s9h%>r8inH=4zg_cA6<!wd?eUZ*R0-&ed!NTH$66g~w28
z$+fu<I;@5cKWbeMoq`<OGnOBFUKLIigcnrdg$?1wcdIucEC|!8F#YG*4dL?r>L;C%
zwb6~vqxYua54ZZZ3V*#O0iJq|$G4r%<~m?hZ5?Xr>?w3yP&+Q5^LdEI;R$rPvnF>D
z!py|8xoJ&^{y5ZEZ0N<mPu)&ZZ=HsE+g6DygtW%7vnl6dZ8+Mo3}gPs|8tDVn&|Kw
zAdYJn;^-2&=w`CS4eV<ECXZbmpkdKZEZfy(2x#`A0`sc1GK7Spr(9mbPIqVu-wJ=n
zWl7hf8`6o7Njbb&rT=A@;7~(=o<9hhsv)VAcE+e`15Y4-dmw*%R@`DWlfRuSxWdLv
z0vf*8uu(Qy2Ci$|2O*<$MIYTjCRR3U;$!)l{nwmdV{aqj<=dtVan6FBo$iTbVzs<x
zE|C`sPJM*4x-;V$?e5|ZY09z=BOkJ`jjWi>S)eHY2onWc2h(erT3c$-p~w;@*bPci
zS^gs3L{a85i%AhD!*mxGPGFX2vIUs7M-+QQYm~t%J3-Ko6_}YhL^kLooPp*uN!&G6
zAPg}uXBhl%&~IjqmVZpKcMz1^4CA05QI1HJEr1f8m4dG=rn8BZb{R%PPNqgNk;_|V
z!TCd~n}D>`XzXWQiPAU-!&lb0LSncs@M>0`7WiQ#acK(E$-L4q8m-Xsunn&6k@sVQ
zRk~ULSZ&~{>+etAn|=UP9r$S|QVb8TO#+u5&aa10+MsG()01HH<F;WnIQ)3@v>H4O
z3;DL&S?AArpd$?on{U@HtHJSNZ~!j{U=HYoex(arUs?}DilNBECN*^ANmK8Z!_n9U
zJ2-))tF{iv-PHED?ZCr<jmBfSa~}g&2lC@DslzXCbY9F&Z}y*D??3+`j7vRFI!B9*
zJ;k2M{E-*co(sh`VYOXt8#Vt51Np(Ds&MSnfTyb_Hw|+|SO34B`TopWaHI2ZK6E&@
zjG#Dn?0(II6*WA94uYe6H6I$y`$o5_xtfOi=kC4z;MRKe0Komx#N*DBx#?o(k@e2!
zA5Ee<*g?(gpSro~)(1_G$@0)?)Un(6Wom$b!f@G=>#V&jr^`^yh2>|zGE~DQygjrt
z-5U?Ooq14vhwzMPTZBb-ouccGmq}T6`kiSvz@g;lmipvt$ZO)P(O)1gOkak~^d(54
zcid?C3-*048!^cv>}QRbX@}N`e7{ED8u#d%d0b%j49BK-+%!8VVIr*2m&(yV0(8f(
zVrfj|``keLs&=ZToyL)Gp0@9Sv+Rh@tnjTXIuh$ZtRbzPCTW-N%Vs@>T3Mz6UxuqM
zoZ|66dn+T5lF1}X1|oWQ;8$oU*_L9h^^~p#lE3t9T$Yzi?|3u24)S_EBkbhYxEOB;
zuLdhJ3)$6t6)wq4vo~s_Gh}G`W+5FojUJQde2R2sSs<5mI^rpJ4`yeghKoErkJBRF
zv-;;UN%#kmFOo8g(-t|ADI5K;U@GcH@AU?!$giH6AB+xaqcHm?;7Exa!O87%0P71k
z|2^E8t&C>jVZr$3fzhlnX?rzq78Tf>SI$mZ3ueCQ4A?z$2`3Kvl;#xc#9zXtV?kNG
zsvn>UL&o^aj3wGsMCf{{*&g#KkEfRe(;wX;Eh56>=*%K5Nx~8+^y>h!luQtjrUl(Y
z+*nBF(3)Xaw#;^{S*LL^+mPAWa*D9`q1AdmwR3+y&Ej)b6Px~#n^mx}0+}9dTF;oR
z$FeSHiPI2D`T$j$R!1_byh;ISb)|aTd$PnZI%ANM@*mUdP72;bfa2p6f0F|91fk^B
zYL97>3Tb;ND{In*CZW*Df?{Ld?KZ8qI&ql(&03Yq<2IrSUXl0E&P!Ulyx0Q{qWo{P
z2P@JWJQs|v%{>kr{uqKn`;kXY8%@vUUMNDf>O7)$9w~;K^DRSaIAWS^x{ks@h=~BW
zyA;Vsj;TFU`S8^J>U`*Qv1i}AHO$lKxY~34(Z!9P3-{@&t98bCXgzeOIDWV=KCO;V
zLn&LGhR!xor-q~VYko-Aq2P<uIHop^Jqb5_H?}&r5gs*LZaRRLn`(0Bkgc-DO{2y?
zzqv8~hF;lb&*1$U^yq#K?%5VXqiSe$Ee-88bTRL{sF|9K^JoUxd-xiYu7OYd;9wsX
zk!DNEu>4^xf4`kt8@m(fnAW6S=MGB&4k#I^{Ciq?ED2;&O)Txw^?id%m<val(tp5a
z#WkgWj}mEG@CaLQ2wK6eRU9ElpL7UM!tIZ{qL{9S)rRH_Ijl3UTjESD81fbK5@K5L
z%XrxPsFBGRykXCV1%3~U`}<TUe&GL(_&6R+&>{Y>k7Ja1<*;p5#z<cMOulc{^VXF!
z+Ae#={9uk9&)=2FvLBZ*`p-tVa(@3bc-z(9uh}Vcd<?!oL#voY`9C1o!xA0Tp@;4n
zDLd`a9VWWyQ?B_7>Ch6jAv6P8Z1OJ=nH@$?pa~5#cc5{#8Cpx7?(XB|S|+fATl~48
z?pZjYh9(}K*a$tB_dWL+0{(wSos8u0cjwQ}H%F#}9=ih@<}(O?K_X=QE|vQQn#V>k
zkPr^DpLJ--%$}y<#CQ+WrYWvx_Y$|AR(tSTV5bes$4-}hE<#6kQ#;qDpZsX_SuWoQ
z+PZ5_E%F(3ME(;B7}J`h*oPD_qa<-9!`4{Ikak!Y10VzA3o6T<wySQu{#{z+WmL@0
z4{__2-Igr`#?}L4Kzg_a*B?>q!8e+U;XXQ9fU%!AhJH!_W53RCn5WB2mXT2>i34ir
zz>{G3yWOh;8^MT4IpJ~CLFPM`Zoabzr`t>w#Omwtf_|Dm_>qt|g1Pz(oCtS!{N(SW
zylY1y9>4x=q}$}TQy@jh2bMt{Ux~4+?>29D7$CZqK~b}gvM<H#RocJ1k1KAwg9E)r
zb4TpiACrQuno*-os$Qe1_^!A}kz4L~)g&V(E|vphlo9@AeCEszu?g3|8_)<GF8&OE
zw6E0A)n@YJxq&Zx(HCk;K3RfGmV%fUe{nfhAp=r2o-DcM6Z8ceTUpDAn-B7TLS5FU
zYjnoyFQf8~-BfP9{bM5XKR^{A@-PSKp{7f%>0<7S-Q>9F<wD({$B;kgB&RHFf?k|?
zt!4{@Q|jPUe(+q8T;%tw4f_iXlWN1{qs#e*$&H3nxwGt^IDH7D5FA<$4y`?}21h>%
z4wWSj;-b{r;U6D=@3<PA{0Nt(=w`WAqJKTuzvlk2|2@ANocM@t)zsxQU#$v<UZPRP
zs!t)Z7jCjU;`|b4nG1}gBlyFkoc1FDMtAF#X?fU}gbcxj5-J3jYFajOJ!YPGcCH8&
z8U72+G6~lBQVLz(7*ShCay3Qm1fjn9WBr>xk8!sn1fj&{12yJIzlB=%8tK>DK<{|J
z^JnJ@V9Wt7ZrSd-uh&5kw0&cJ=V^&sqOSs72J#N0%~D_%j?Z+>249$BlUQ<tLZ$4k
z&&||m8O`|<c9Upjj&+*AXVC`x)C`DF4fN&%QARO+YOt>m98-g1kAt|Mhp!rRspOM8
zTpSw7ozW=jqu{<RCl}n$Sg*0n`%&L?<OF?DDjiQru~^9;BUNWHN%3GT_LaqWQhOs4
zpOgs%*u4~)07)hu$v*YOuBVioFvqYP!t(R<;yeQQ=g~(RFVOQe1(zteOo596b_Xd=
zF^PgO1ve<5s~Iv;wmeG#9T#Y4Zp?wJnI4-cxJSW#3Iqz+*&I8%XQ%e;{GKUn9rSjU
z0y>pr`kTzG&+hCZyty^iuAN>n7E6biOw!U=Y#TlP83lhq0Uf2v|CIt20d9+EU(lMB
zlF3*M7Vin9vX2Wr$E19DfU;6BN-rK`<bVGT2hC>x$>OPVp9E^$uk)KtIGCphF;-!<
zU#%b5^0H?*&<t%=u_%tgjy*c0c09Yq$^ei2HNUK8uLO^~>%j_KzT90~VXu4tYTugc
zhr`<(qFZ%4p9OdC+UbY=?_JpD5ZyY%_qw|tUVhZ~lQ*|HM7PfKeeRyk_U={Z_m8b+
z)%N{cZX}>*{+itEz1D3nJx%l6$bnDXA$QYeee(n7gG&#5@19&eqt*{?QKFvv{=wY*
zy{>I9r3`VCQ=fQi-Op}@>$lwai#%Put9`4=>d^P!UK7>Mi7k2!#YJzZik=3%?$*^4
zG?dn@I=>s<Zd2PF{%-Z6zOBH3y9E~Nv4ejXLJT$E7atsaH}P(0%S~@QTwVW`mtsDy
zYv1anwSm>Q)XwpTXVlK4TUC_q-_-}b%KCj6d)@vmsu!%m-?m*#u~+#Hw|}#xf6I-(
zG|HxJFU3xBuke@nPn;q5Aa2=EAGTP0a_Z5+51o&W{v`cjR-Jr_C2m$#vx&q+4YFz3
z^0r}u{4|UJVyt>fv6&z(qtQ9aO?1$hZyr>u2Dhu}`6NvYI%U*|*k(&Fb=bB>Eu&c@
zJ(kx<&+vDpDu>*idM6Rv40mt2DaEFfT1K-<dPJ42+tn1i%<rce9Nco_FG{x#t@Y#X
z(w3JVvG!ftRTR6zb0<&npLmbEqi8DMdsGb{-E!jzMfM$fD60MF5j~<vDEGD1P(C!K
zRvp-`qO|86tivzy?rC1{GK+79+qT?Vs!g|z>}JQc1a!S?yIPCSII1x8W)M04q9^|L
zZ7;<-SbOd6=Z)ql%BF~=*)*o-HQQp(XsUg?nnj<}=DZzKp%DgRtoxK=TOVaCtIn^_
zIpx<YYjD@=l_AC|qZFIUw2WqD^r$T$#YVhtoWdW(5_DrL;^9|yZuh9hS_tN*BNL_2
zEG)#hxrqD7N;H0TmVr6ku$Jh{z#90IkXowMQt%yET-Z=3H}kbB1(@>}+_&&?V8(a!
z6z$t?GM!tOLM)GErqh@dv8Gbvj#p8QClkjiHSK)IWLHJwIm8q+PD4DW)V4FPt`yTC
zh+CC<ScdWsB*e7O8Ze70eW^~n$XU<wX|L#ez*$+6*cBkXt2f7^u-nRsStZIOV(mkY
zE^>R588>3=jxj#Q!I-_0@g>H!7=L4&jxj#Q2L&2R4+Xu{Q#bQd)3nEaN?oU5iUL}+
z_q6Y+X?7{!2~7+*DgP~Ak%py+2)3L&&;QcL@%?|rb^J9q{MTIH&$zz7;!gjJJNYYz
zn|Ew;2!0vl_-B8{P5q2J@H1}mSFRB6_!U<f2pm7n|GcW<{uei@y6$>@<+<+XNB<7D
JH+hYW{x9SS<W~Ry

literal 0
HcmV?d00001

diff --git a/inputs/data.py b/inputs/data.py
new file mode 100644
index 0000000..1f138a7
--- /dev/null
+++ b/inputs/data.py
@@ -0,0 +1,359 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+from typing import TYPE_CHECKING, Any, Generic, Literal, TypeAlias, cast
+
+import torch
+from typing_extensions import NotRequired, TypedDict, TypeIs, TypeVar
+
+if TYPE_CHECKING:
+    from vllm.multimodal.inputs import (
+        MultiModalDataDict,
+        MultiModalInputs,
+        MultiModalUUIDDict,
+    )
+else:
+    MultiModalDataDict = object
+    MultiModalInputs = object
+    MultiModalUUIDDict = object
+
+
+class TextPrompt(TypedDict):
+    """Schema for a text prompt."""
+
+    prompt: str
+    """The input text to be tokenized before passing to the model."""
+
+    multi_modal_data: NotRequired[MultiModalDataDict | None]
+    """
+    Optional multi-modal data to pass to the model,
+    if the model supports it.
+    """
+
+    mm_processor_kwargs: NotRequired[dict[str, Any] | None]
+    """
+    Optional multi-modal processor kwargs to be forwarded to the
+    multimodal input mapper & processor. Note that if multiple modalities
+    have registered mappers etc for the model being considered, we attempt
+    to pass the mm_processor_kwargs to each of them.
+    """
+
+    multi_modal_uuids: NotRequired[MultiModalUUIDDict]
+    """
+    Optional user-specified UUIDs for multimodal items, mapped by modality.
+    Lists must match the number of items per modality and may contain `None`.
+    For `None` entries, the hasher will compute IDs automatically; non-None
+    entries override the default hashes for caching, and MUST be unique per
+    multimodal item.
+    """
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+class TokensPrompt(TypedDict):
+    """Schema for a tokenized prompt."""
+
+    prompt_token_ids: list[int]
+    """A list of token IDs to pass to the model."""
+
+    prompt: NotRequired[str]
+    """The prompt text corresponding to the token IDs, if available."""
+
+    token_type_ids: NotRequired[list[int]]
+    """A list of token type IDs to pass to the cross encoder model."""
+
+    multi_modal_data: NotRequired[MultiModalDataDict | None]
+    """
+    Optional multi-modal data to pass to the model,
+    if the model supports it.
+    """
+
+    mm_processor_kwargs: NotRequired[dict[str, Any] | None]
+    """
+    Optional multi-modal processor kwargs to be forwarded to the
+    multimodal input mapper & processor. Note that if multiple modalities
+    have registered mappers etc for the model being considered, we attempt
+    to pass the mm_processor_kwargs to each of them.
+    """
+
+    multi_modal_uuids: NotRequired[MultiModalUUIDDict]
+    """
+    Optional user-specified UUIDs for multimodal items, mapped by modality.
+    Lists must match the number of items per modality and may contain `None`.
+    For `None` entries, the hasher will compute IDs automatically; non-None
+    entries override the default hashes for caching.
+    """
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+class EmbedsPrompt(TypedDict):
+    """Schema for a prompt provided via token embeddings."""
+
+    prompt_embeds: torch.Tensor
+    """The embeddings of the prompt."""
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+class DataPrompt(TypedDict):
+    """Represents generic inputs handled by IO processor plugins."""
+
+    data: Any
+    """The input data"""
+
+    data_format: str
+    """The input data format"""
+
+
+SingletonPrompt: TypeAlias = str | TextPrompt | TokensPrompt | EmbedsPrompt
+"""
+Set of possible schemas for a single prompt:
+
+- A text prompt ([`str`][] or [`TextPrompt`][vllm.inputs.data.TextPrompt])
+- A tokenized prompt ([`TokensPrompt`][vllm.inputs.data.TokensPrompt])
+- An embeddings prompt ([`EmbedsPrompt`][vllm.inputs.data.EmbedsPrompt])
+
+Note that "singleton" is as opposed to a data structure
+which encapsulates multiple prompts, i.e. of the sort
+which may be utilized for encoder/decoder models when
+the user desires to express both the encoder & decoder
+prompts explicitly, i.e. 
+[`ExplicitEncoderDecoderPrompt`][vllm.inputs.data.ExplicitEncoderDecoderPrompt]
+
+A prompt of type [`SingletonPrompt`][vllm.inputs.data.SingletonPrompt] may be 
+employed as (1) input to a decoder-only model, (2) input to
+the encoder of an encoder/decoder model, in the scenario
+where the decoder-prompt is not specified explicitly, or
+(3) as a member of a larger data structure encapsulating
+more than one prompt, i.e. 
+[`ExplicitEncoderDecoderPrompt`][vllm.inputs.data.ExplicitEncoderDecoderPrompt]
+"""
+
+
+def is_tokens_prompt(prompt: SingletonPrompt) -> TypeIs[TokensPrompt]:
+    return (
+        isinstance(prompt, dict)
+        and "prompt_token_ids" in prompt
+        and "prompt_embeds" not in prompt
+    )
+
+
+def is_embeds_prompt(prompt: SingletonPrompt) -> TypeIs[EmbedsPrompt]:
+    return (
+        isinstance(prompt, dict)
+        and "prompt_token_ids" not in prompt
+        and "prompt_embeds" in prompt
+    )
+
+
+_T1_co = TypeVar(
+    "_T1_co", bound=SingletonPrompt, default=SingletonPrompt, covariant=True
+)
+_T2_co = TypeVar(
+    "_T2_co", bound=SingletonPrompt, default=SingletonPrompt, covariant=True
+)
+
+
+# TODO: Make fields ReadOnly once mypy supports it
+class ExplicitEncoderDecoderPrompt(TypedDict, Generic[_T1_co, _T2_co]):
+    """
+    Represents an encoder/decoder model input prompt,
+    comprising an explicit encoder prompt and a decoder prompt.
+
+    The encoder and decoder prompts, respectively, may be formatted
+    according to any of the
+    [`SingletonPrompt`][vllm.inputs.data.SingletonPrompt] schemas,
+    and are not required to have the same schema.
+
+    Only the encoder prompt may have multi-modal data. mm_processor_kwargs
+    should be at the top-level, and should not be set in the encoder/decoder
+    prompts, since they are agnostic to the encoder/decoder.
+
+    Note that an
+    [`ExplicitEncoderDecoderPrompt`][vllm.inputs.data.ExplicitEncoderDecoderPrompt]
+    may not be used as an input to a decoder-only model,
+    and that the `encoder_prompt` and `decoder_prompt`
+    fields of this data structure themselves must be
+    [`SingletonPrompt`][vllm.inputs.data.SingletonPrompt] instances.
+    """
+
+    encoder_prompt: _T1_co
+
+    decoder_prompt: _T2_co | None
+
+    mm_processor_kwargs: NotRequired[dict[str, Any]]
+
+
+PromptType: TypeAlias = SingletonPrompt | ExplicitEncoderDecoderPrompt
+"""
+Set of possible schemas for an LLM input, including
+both decoder-only and encoder/decoder input types:
+
+- A text prompt ([`str`][] or [`TextPrompt`][vllm.inputs.data.TextPrompt])
+- A tokenized prompt ([`TokensPrompt`][vllm.inputs.data.TokensPrompt])
+- An embeddings prompt ([`EmbedsPrompt`][vllm.inputs.data.EmbedsPrompt])
+- A single data structure containing both an encoder and a decoder prompt
+  ([`ExplicitEncoderDecoderPrompt`][vllm.inputs.data.ExplicitEncoderDecoderPrompt])
+"""
+
+
+class TokenInputs(TypedDict):
+    """Represents token-based inputs."""
+
+    type: Literal["token"]
+    """The type of inputs."""
+
+    prompt_token_ids: list[int]
+    """The token IDs of the prompt."""
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+def token_inputs(
+    prompt_token_ids: list[int],
+    cache_salt: str | None = None,
+) -> TokenInputs:
+    """Construct [`TokenInputs`][vllm.inputs.data.TokenInputs] from optional
+    values."""
+    inputs = TokenInputs(type="token", prompt_token_ids=prompt_token_ids)
+
+    if cache_salt is not None:
+        inputs["cache_salt"] = cache_salt
+
+    return inputs
+
+
+class EmbedsInputs(TypedDict):
+    """Represents embeddings-based inputs."""
+
+    type: Literal["embeds"]
+    """The type of inputs."""
+
+    prompt_embeds: torch.Tensor
+    """The embeddings of the prompt."""
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+def embeds_inputs(
+    prompt_embeds: torch.Tensor,
+    cache_salt: str | None = None,
+) -> EmbedsInputs:
+    """Construct [`EmbedsInputs`][vllm.inputs.data.EmbedsInputs] from optional
+    values."""
+    inputs = EmbedsInputs(type="embeds", prompt_embeds=prompt_embeds)
+
+    if cache_salt is not None:
+        inputs["cache_salt"] = cache_salt
+
+    return inputs
+
+
+DecoderOnlyInputs: TypeAlias = TokenInputs | EmbedsInputs | MultiModalInputs
+"""
+The inputs in [`LLMEngine`][vllm.engine.llm_engine.LLMEngine] before they are
+passed to the model executor.
+This specifies the data required for decoder-only models.
+"""
+
+
+class EncoderDecoderInputs(TypedDict):
+    """
+    The inputs in [`LLMEngine`][vllm.engine.llm_engine.LLMEngine] before they
+    are passed to the model executor.
+
+    This specifies the required data for encoder-decoder models.
+    """
+
+    encoder: TokenInputs | MultiModalInputs
+    """The inputs for the encoder portion."""
+
+    decoder: TokenInputs | MultiModalInputs
+    """The inputs for the decoder portion."""
+
+
+SingletonInputs: TypeAlias = TokenInputs | EmbedsInputs | MultiModalInputs
+"""
+A processed [`SingletonPrompt`][vllm.inputs.data.SingletonPrompt] which can be
+passed to [`Sequence`][collections.abc.Sequence].
+"""
+
+ProcessorInputs: TypeAlias = DecoderOnlyInputs | EncoderDecoderInputs
+"""
+The outputs from [`vllm.inputs.preprocess.InputPreprocessor`][].
+"""
+
+_T1 = TypeVar("_T1", bound=SingletonPrompt, default=SingletonPrompt)
+_T2 = TypeVar("_T2", bound=SingletonPrompt, default=SingletonPrompt)
+
+
+def build_explicit_enc_dec_prompt(
+    encoder_prompt: _T1,
+    decoder_prompt: _T2 | None,
+    mm_processor_kwargs: dict[str, Any] | None = None,
+) -> ExplicitEncoderDecoderPrompt[_T1, _T2]:
+    if mm_processor_kwargs is None:
+        mm_processor_kwargs = {}
+    return ExplicitEncoderDecoderPrompt(
+        encoder_prompt=encoder_prompt,
+        decoder_prompt=decoder_prompt,
+        mm_processor_kwargs=mm_processor_kwargs,
+    )
+
+
+def zip_enc_dec_prompts(
+    enc_prompts: Iterable[_T1],
+    dec_prompts: Iterable[_T2 | None],
+    mm_processor_kwargs: Iterable[dict[str, Any]] | dict[str, Any] | None = None,
+) -> list[ExplicitEncoderDecoderPrompt[_T1, _T2]]:
+    """
+    Zip encoder and decoder prompts together into a list of
+    [`ExplicitEncoderDecoderPrompt`][vllm.inputs.data.ExplicitEncoderDecoderPrompt]
+    instances.
+
+    `mm_processor_kwargs` may also be provided; if a dict is passed, the same
+    dictionary will be used for every encoder/decoder prompt. If an iterable is
+    provided, it will be zipped with the encoder/decoder prompts.
+    """
+    if mm_processor_kwargs is None:
+        mm_processor_kwargs = cast(dict[str, Any], {})
+    if isinstance(mm_processor_kwargs, dict):
+        return [
+            build_explicit_enc_dec_prompt(
+                encoder_prompt,
+                decoder_prompt,
+                cast(dict[str, Any], mm_processor_kwargs),
+            )
+            for (encoder_prompt, decoder_prompt) in zip(enc_prompts, dec_prompts)
+        ]
+    return [
+        build_explicit_enc_dec_prompt(encoder_prompt, decoder_prompt, mm_proc_kwargs)
+        for (encoder_prompt, decoder_prompt, mm_proc_kwargs) in zip(
+            enc_prompts, dec_prompts, mm_processor_kwargs
+        )
+    ]
+
+
+def to_enc_dec_tuple_list(
+    enc_dec_prompts: Iterable[ExplicitEncoderDecoderPrompt[_T1, _T2]],
+) -> list[tuple[_T1, _T2 | None]]:
+    return [
+        (enc_dec_prompt["encoder_prompt"], enc_dec_prompt["decoder_prompt"])
+        for enc_dec_prompt in enc_dec_prompts
+    ]
diff --git a/inputs/parse.py b/inputs/parse.py
new file mode 100644
index 0000000..211551b
--- /dev/null
+++ b/inputs/parse.py
@@ -0,0 +1,137 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Sequence
+from typing import TYPE_CHECKING, Literal, NamedTuple, TypeAlias, TypedDict, cast
+
+from typing_extensions import TypeIs
+
+from vllm.utils.collection_utils import is_list_of
+
+from .data import (
+    EmbedsPrompt,
+    ExplicitEncoderDecoderPrompt,
+    ProcessorInputs,
+    PromptType,
+    SingletonInputs,
+    SingletonPrompt,
+    TextPrompt,
+    TokensPrompt,
+)
+
+if TYPE_CHECKING:
+    import torch
+
+
+def parse_raw_prompts(
+    prompt: str | list[str] | list[int] | list[list[int]],
+) -> Sequence[TextPrompt] | Sequence[TokensPrompt]:
+    if isinstance(prompt, str):
+        # case 1: a string
+        return [TextPrompt(prompt=prompt)]
+
+    if isinstance(prompt, list):
+        if len(prompt) == 0:
+            raise ValueError("please provide at least one prompt")
+
+        if is_list_of(prompt, str):
+            # case 2: array of strings
+            prompt = cast(list[str], prompt)
+            return [TextPrompt(prompt=elem) for elem in prompt]
+        if is_list_of(prompt, int):
+            # case 3: array of tokens
+            prompt = cast(list[int], prompt)
+            return [TokensPrompt(prompt_token_ids=prompt)]
+        if is_list_of(prompt, list):
+            prompt = cast(list[list[int]], prompt)
+            if len(prompt[0]) == 0:
+                raise ValueError("please provide at least one prompt")
+
+            if is_list_of(prompt[0], int):
+                # case 4: array of token arrays
+                return [TokensPrompt(prompt_token_ids=elem) for elem in prompt]
+
+    raise TypeError(
+        "prompt must be a string, array of strings, "
+        "array of tokens, or array of token arrays"
+    )
+
+
+class ParsedStrPrompt(TypedDict):
+    type: Literal["str"]
+    content: str
+
+
+class ParsedTextPrompt(TypedDict):
+    type: Literal["text"]
+    content: TextPrompt
+
+
+class ParsedTokensPrompt(TypedDict):
+    type: Literal["tokens"]
+    content: TokensPrompt
+
+
+class ParsedEmbedsPrompt(TypedDict):
+    type: Literal["embeds"]
+    content: EmbedsPrompt
+
+
+ParsedSingletonPrompt: TypeAlias = (
+    ParsedStrPrompt | ParsedTextPrompt | ParsedTokensPrompt | ParsedEmbedsPrompt
+)
+
+
+def parse_singleton_prompt(prompt: SingletonPrompt) -> ParsedSingletonPrompt:
+    if isinstance(prompt, str):
+        return ParsedStrPrompt(type="str", content=prompt)
+    elif isinstance(prompt, dict):
+        # Type ignores are because mypy does not correctly infer the TypedDicts
+        # Pyright does succeed.
+        if "prompt_embeds" in prompt:
+            return ParsedEmbedsPrompt(type="embeds", content=prompt)  # type: ignore[typeddict-item]
+        elif "prompt_token_ids" in prompt:
+            return ParsedTokensPrompt(type="tokens", content=prompt)  # type: ignore[typeddict-item]
+        elif "prompt" in prompt:
+            return ParsedTextPrompt(type="text", content=prompt)
+    raise TypeError(
+        "inputs must be a string, TextPrompt, TokensPrompt, or EmbedsPrompt"
+    )
+
+
+def is_explicit_encoder_decoder_prompt(
+    prompt: PromptType,
+) -> TypeIs[ExplicitEncoderDecoderPrompt]:
+    return isinstance(prompt, dict) and "encoder_prompt" in prompt
+
+
+def split_enc_dec_inputs(
+    inputs: ProcessorInputs,
+) -> tuple[SingletonInputs | None, SingletonInputs]:
+    if "encoder" in inputs and "decoder" in inputs:
+        # NOTE: This passes pyright but not mypy
+        return (
+            inputs["encoder"],  # type: ignore[typeddict-item]
+            inputs["decoder"],  # type: ignore[typeddict-item]
+        )
+
+    return None, inputs
+
+
+class PromptComponents(NamedTuple):
+    text: str | None = None
+    token_ids: list[int] | None = None
+    embeds: "torch.Tensor | None" = None
+
+
+def get_prompt_components(prompt: PromptType) -> PromptComponents:
+    if isinstance(prompt, str):
+        return PromptComponents(text=prompt)
+
+    if encoder_prompt := prompt.get("encoder_prompt"):
+        return get_prompt_components(encoder_prompt)  # type: ignore[arg-type]
+
+    return PromptComponents(
+        text=prompt.get("prompt"),  # type: ignore[arg-type]
+        token_ids=prompt.get("prompt_token_ids"),  # type: ignore[arg-type]
+        embeds=prompt.get("prompt_embeds"),
+    )
diff --git a/inputs/preprocess.py b/inputs/preprocess.py
new file mode 100644
index 0000000..839c138
--- /dev/null
+++ b/inputs/preprocess.py
@@ -0,0 +1,727 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Mapping
+from typing import Any, cast
+
+from typing_extensions import assert_never
+
+from vllm.config import ModelConfig
+from vllm.logger import init_logger
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalEncDecInputs,
+    MultiModalInputs,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.processing import BaseMultiModalProcessor
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.jsontree import json_iter_leaves
+from vllm.v1.metrics.stats import MultiModalCacheStats
+
+from .data import (
+    DecoderOnlyInputs,
+    EmbedsInputs,
+    EmbedsPrompt,
+    EncoderDecoderInputs,
+    ExplicitEncoderDecoderPrompt,
+    ProcessorInputs,
+    PromptType,
+    SingletonInputs,
+    SingletonPrompt,
+    TextPrompt,
+    TokenInputs,
+    TokensPrompt,
+    embeds_inputs,
+    token_inputs,
+)
+from .parse import is_explicit_encoder_decoder_prompt, parse_singleton_prompt
+
+logger = init_logger(__name__)
+
+
+class InputPreprocessor:
+    def __init__(
+        self,
+        model_config: ModelConfig,
+        tokenizer: AnyTokenizer | None,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        mm_processor_cache: BaseMultiModalProcessorCache | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.model_config = model_config
+        self.tokenizer = tokenizer
+        self.mm_registry = mm_registry
+        self.mm_processor_cache = mm_processor_cache
+
+        self.mm_cache_stats = MultiModalCacheStats() if mm_processor_cache else None
+
+    def get_tokenizer(self) -> AnyTokenizer:
+        if self.tokenizer is None:
+            raise ValueError(
+                "You cannot pass text prompts when `skip_tokenizer_init` is True"
+            )
+
+        return self.tokenizer
+
+    def get_bos_token_id(self) -> int | None:
+        if self.tokenizer is None:
+            logger.warning_once(
+                "Using None for BOS token id because tokenizer is not initialized"
+            )
+            return None
+
+        return self.tokenizer.bos_token_id
+
+    def get_eos_token_id(self) -> int | None:
+        if self.tokenizer is None:
+            logger.warning_once(
+                "Using None for EOS token id because tokenizer is not initialized"
+            )
+            return None
+
+        return self.tokenizer.eos_token_id
+
+    def get_decoder_start_token_id(self) -> int | None:
+        """
+        Obtain the decoder start token id employed by an encoder/decoder
+        model. Returns None for non-encoder/decoder models or if the
+        model config is unavailable.
+        """
+
+        if not self.model_config.is_encoder_decoder:
+            logger.warning_once(
+                "Using None for decoder start token id because "
+                "this is not an encoder/decoder model."
+            )
+            return None
+
+        if self.model_config is None or self.model_config.hf_config is None:
+            logger.warning_once(
+                "Using None for decoder start token id because "
+                "model config is not available."
+            )
+            return None
+
+        dec_start_token_id = getattr(
+            self.model_config.hf_config, "decoder_start_token_id", None
+        )
+        if dec_start_token_id is None:
+            logger.warning_once(
+                "Falling back on <BOS> for decoder start token "
+                "id because decoder start token id is not "
+                "available."
+            )
+            dec_start_token_id = self.get_bos_token_id()
+
+        return dec_start_token_id
+
+    def _get_default_enc_dec_decoder_prompt(self) -> list[int]:
+        """
+        Specifically for encoder/decoder models:
+        generate a default decoder prompt for when
+        the user specifies only the encoder prompt.
+
+        Encoder/decoder models utilize the decoder
+        prompt in different ways; as new models are
+        added, it is intended that this function
+        will be extended to produce differing
+        default decoder prompts, depending on the
+        model variety.
+
+        Absent a special case, the default behavior
+        of this method is to mirror the behavior of
+        the HuggingFace (HF) GenerationMixin for a None
+        decoder prompt, which is to employ a logit processor
+        setting to force the first decoded token to be <BOS>.
+        Here, this behavior is approximated by having the
+        "default" decoder prompt be <BOS>.
+
+        However, it is possible that in the future
+        other models may have different or more
+        complex logic for the default decoder prompt.
+        This motivates having a special helper method
+        for default decoder prompts.
+
+        Returns:
+
+        * prompt_token_ids
+        """
+
+        bos_token_id = self.get_bos_token_id()
+        assert bos_token_id is not None
+        return [bos_token_id]
+
+    def _prepare_decoder_input_ids_for_generation(
+        self,
+        decoder_input_ids: list[int] | None,
+    ) -> list[int]:
+        """
+        Prepares `decoder_input_ids` for generation with encoder-decoder models.
+
+        Based on:
+        https://github.com/huggingface/transformers/blob/4037a2b5b1278736e566aec12e169100275545ea/src/transformers/generation/utils.py
+        specifically,
+        `GenerationMixin._prepare_decoder_input_ids_for_generation()`.
+
+        Arguments:
+
+        * decoder_input_ids: input token ids to preprocess
+
+        Returns:
+
+        * Processed token list
+        """
+
+        decoder_start_token_id = self.get_decoder_start_token_id()
+        assert decoder_start_token_id is not None
+
+        if decoder_input_ids is None:
+            # no decoder prompt input ->
+            # use decoder_start_token_id as decoder_input_ids
+            decoder_input_ids = self._get_default_enc_dec_decoder_prompt()
+
+        if (
+            len(decoder_input_ids) == 0
+            or decoder_input_ids[0] != decoder_start_token_id
+        ):
+            decoder_input_ids = [decoder_start_token_id] + decoder_input_ids
+
+        return decoder_input_ids
+
+    def _get_tokenization_kw(
+        self,
+        overrides: dict[str, Any] | None = None,
+    ) -> dict[str, Any]:
+        kwargs = dict[str, Any]()
+
+        if self.model_config.hf_config.model_type == "whisper":
+            # For Whisper, special tokens should be provided by the user based
+            # on the task and language of their request. Also needed to avoid
+            # appending an EOS token to the prompt which disrupts generation.
+            kwargs["add_special_tokens"] = False
+
+        if overrides:
+            kwargs.update(overrides)
+
+        return kwargs
+
+    def _tokenize_prompt(
+        self,
+        prompt: str,
+        tokenization_kwargs: dict[str, Any] | None = None,
+    ) -> list[int]:
+        """
+        Apply the model's tokenizer to a text prompt, returning the
+        corresponding token IDs.
+        """
+        tokenizer = self.get_tokenizer()
+        tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)
+
+        encoder_config = self.model_config.encoder_config
+
+        if encoder_config and encoder_config.get("do_lower_case", False):
+            prompt = prompt.lower()
+
+        return tokenizer.encode(prompt, **tokenization_kwargs)
+
+    def _get_mm_tokenizer(self) -> AnyTokenizer:
+        # PrithviGeoSpatialMAE needs to be initialized without a tokenizer
+        # while using also multi-modal input
+        if not self.tokenizer:
+            return cast(AnyTokenizer, object())  # Dummy
+
+        tokenizer = self.get_tokenizer()
+        return tokenizer
+
+    def _get_mm_processor(self) -> BaseMultiModalProcessor:
+        if not hasattr(self, "_mm_processor"):
+            tokenizer = self._get_mm_tokenizer()
+
+            self._mm_processor = self.mm_registry.create_processor(
+                self.model_config,
+                tokenizer=tokenizer,
+                cache=self.mm_processor_cache,
+            )
+
+        return self._mm_processor
+
+    def _process_multimodal(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        mm_processor_kwargs: Mapping[str, object] | None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        """
+        Apply the model's multi-modal processor to a multi-modal prompt,
+        returning the corresponding token IDs and metadata.
+        """
+        mm_processor = self._get_mm_processor()
+
+        if mm_processor_kwargs is None:
+            mm_processor_kwargs = {}
+
+        mm_input = mm_processor.apply(
+            prompt,
+            mm_data,
+            hf_processor_mm_kwargs=mm_processor_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+        mm_hashes = mm_input["mm_hashes"]
+
+        # Validate that all mm items have a string as their hash
+        contains_only_strings = all(
+            isinstance(leaf, str) for leaf in json_iter_leaves(mm_hashes)
+        )
+        if not contains_only_strings:
+            raise ValueError(
+                f"mm_hashes must contain only strings, got: {mm_hashes}. "
+                "This is likely due to an incorrect custom implementation of "
+                "MultiModalProcessor.apply method."
+            )
+
+        return mm_input
+
+    def _process_embeds(
+        self,
+        parsed_content: EmbedsPrompt,
+    ) -> EmbedsInputs:
+        if not self.model_config.enable_prompt_embeds:
+            raise ValueError(
+                "You must set `--enable-prompt-embeds` to input `prompt_embeds`."
+            )
+
+        prompt_embeds = parsed_content["prompt_embeds"]
+
+        # prompt_embeds must be (seq_len, hidden_size), but if the user
+        # passes in a batch of size 1, i.e. (1, seq_len, hidden_size),
+        # we can unambiguously process the intent by squeezing the batch
+        # dimension.
+        if prompt_embeds.ndim == 3:
+            prompt_embeds = prompt_embeds.squeeze(dim=0)
+
+        if prompt_embeds.ndim != 2:
+            raise ValueError("prompt_embeds must be of shape (seq_len, hidden_size).")
+
+        # Tensors must be on CPU for serialization between processes
+        # in the MsgpackEncoder. Casting to CPU here ensures that there is no
+        # hidden device transfer in the critical path of generation.
+        prompt_embeds = prompt_embeds.cpu()
+
+        return embeds_inputs(
+            prompt_embeds=prompt_embeds, cache_salt=parsed_content.get("cache_salt")
+        )
+
+    def _truncate_inputs(
+        self, inputs: list[int], tokenization_kwargs: dict[str, Any] | None = None
+    ) -> list[int]:
+        if (
+            not tokenization_kwargs
+            or "truncation" not in tokenization_kwargs
+            or self.tokenizer is None
+        ):
+            return inputs
+
+        max_length = tokenization_kwargs["max_length"]
+
+        if self.tokenizer.truncation_side == "left":
+            return inputs[-max_length:]
+        else:
+            return inputs[:max_length]
+
+    def _process_tokens(
+        self,
+        parsed_content: TokensPrompt,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> TokenInputs | MultiModalInputs:
+        prompt_token_ids = self._truncate_inputs(
+            parsed_content["prompt_token_ids"], tokenization_kwargs
+        )
+
+        inputs: TokenInputs | MultiModalInputs
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = self._process_multimodal(
+                prompt_token_ids,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs") or {},
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+        else:
+            inputs = token_inputs(prompt_token_ids)
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
+
+    def _process_text(
+        self,
+        parsed_content: TextPrompt,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> TokenInputs | MultiModalInputs:
+        prompt_text = parsed_content["prompt"]
+
+        inputs: TokenInputs | MultiModalInputs
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = self._process_multimodal(
+                prompt_text,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs") or {},
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+        else:
+            prompt_token_ids = self._tokenize_prompt(
+                prompt_text,
+                tokenization_kwargs=tokenization_kwargs,
+            )
+            inputs = token_inputs(prompt_token_ids)
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
+
+    def _prompt_to_llm_inputs(
+        self,
+        prompt: SingletonPrompt,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> SingletonInputs:
+        """
+        Extract the singleton inputs from a prompt.
+
+        Arguments:
+
+        * prompt: single encoder or decoder input prompt
+
+        Returns:
+
+        * [`SingletonInputs`][vllm.inputs.data.SingletonInputs] instance
+        """
+        parsed = parse_singleton_prompt(prompt)
+
+        if parsed["type"] == "embeds":
+            return self._process_embeds(parsed["content"])
+        if parsed["type"] == "tokens":
+            return self._process_tokens(
+                parsed["content"],
+                mm_uuids=mm_uuids,
+            )
+        if parsed["type"] == "text":
+            return self._process_text(
+                parsed["content"],
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+        if parsed["type"] == "str":
+            return self._process_text(
+                TextPrompt(prompt=parsed["content"]),
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+
+        assert_never(parsed)
+
+    def _build_enc_dec_llm_inputs(
+        self,
+        encoder_inputs: SingletonInputs,
+        decoder_inputs: SingletonInputs | None,
+    ) -> EncoderDecoderInputs:
+        if (
+            encoder_inputs["type"] == "embeds"
+            or decoder_inputs
+            and decoder_inputs["type"] == "embeds"
+        ):
+            raise ValueError(
+                "Embedding inputs are not supported for encoder-decoder models"
+            )
+
+        # Needed for mypy
+        encoder_inputs = cast(TokenInputs | MultiModalInputs, encoder_inputs)
+        decoder_inputs = cast(TokenInputs | MultiModalInputs | None, decoder_inputs)
+
+        if decoder_inputs is None:
+            if self.model_config.hf_config.model_type == "whisper":
+                # For Whisper models, the text prompt should go to the decoder.
+                # If no explicit encoder/decoder inputs, then copy the prompt
+                # from the encoder to the decoder. The encoder tokens are later
+                # overridden by the audio features.
+                dec_token_ids = encoder_inputs["prompt_token_ids"].copy()
+            else:
+                dec_token_ids = self._prepare_decoder_input_ids_for_generation(None)
+            decoder_inputs = token_inputs(dec_token_ids)
+        else:
+            if "multi_modal_data" in decoder_inputs:
+                raise ValueError(
+                    "Multi-modal decoder inputs of encoder-"
+                    "decoder models are not supported yet"
+                )
+
+            dec_token_ids = self._prepare_decoder_input_ids_for_generation(
+                decoder_inputs["prompt_token_ids"]
+            )
+            decoder_inputs["prompt_token_ids"] = dec_token_ids
+
+        return EncoderDecoderInputs(
+            encoder=encoder_inputs,
+            decoder=decoder_inputs,
+        )
+
+    def _split_enc_dec_mm_inputs(
+        self,
+        inputs: SingletonInputs | MultiModalEncDecInputs,
+        decoder_inputs_to_override: SingletonInputs | None = None,
+    ) -> tuple[SingletonInputs, SingletonInputs]:
+        """
+        For encoder/decoder models only:
+        Separate Encoder/Decoder inputs from a MultiModalEncDecInputs
+        """
+        if (
+            inputs["type"] == "embeds"
+            or decoder_inputs_to_override
+            and decoder_inputs_to_override["type"] == "embeds"
+        ):
+            raise ValueError(
+                "Embedding inputs are not supported for encoder-decoder models"
+            )
+
+        # Needed for mypy
+        inputs = cast(
+            TokenInputs | MultiModalInputs | MultiModalEncDecInputs,
+            inputs,
+        )
+        decoder_inputs_to_override = cast(
+            TokenInputs | MultiModalInputs | None,
+            decoder_inputs_to_override,
+        )
+
+        encoder_inputs: SingletonInputs
+        decoder_inputs: SingletonInputs
+
+        if inputs["type"] == "multimodal":  # Multimodal data inputs
+            if "encoder_prompt_token_ids" not in inputs:
+                raise RuntimeError(
+                    "You should register an encoder-decoder "
+                    "multi-modal processor for encoder-decoder "
+                    "models."
+                )
+            inputs = cast(MultiModalEncDecInputs, inputs)
+
+            encoder_inputs = token_inputs(inputs["encoder_prompt_token_ids"])
+
+            decoder_prompt_inputs = decoder_inputs_to_override or inputs
+            decoder_inputs = MultiModalInputs(
+                type="multimodal",
+                prompt_token_ids=decoder_prompt_inputs["prompt_token_ids"],
+                mm_kwargs=inputs["mm_kwargs"],
+                mm_hashes=inputs["mm_hashes"],
+                mm_placeholders=inputs["mm_placeholders"],
+            )
+            if cache_salt := inputs.get("cache_salt"):
+                decoder_inputs["cache_salt"] = cache_salt
+
+        elif inputs["type"] == "token":  # Text-only inputs
+            encoder_inputs = token_inputs(prompt_token_ids=[])
+            decoder_inputs = decoder_inputs_to_override or inputs
+        else:
+            assert_never(inputs)  # type: ignore[arg-type]
+
+        return encoder_inputs, decoder_inputs
+
+    def _process_encoder_decoder_prompt(
+        self,
+        prompt: PromptType,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> EncoderDecoderInputs:
+        """
+        For encoder/decoder models only:
+        Process an input prompt into an
+        [`EncoderDecoderInputs`][vllm.inputs.data.EncoderDecoderInputs]
+        instance.
+
+        There are two types of input prompts:
+        singleton prompts which carry only the
+        encoder prompt, and explicit encoder/decoder
+        prompts which carry both the encoder and the
+        decoder prompts as member variables.
+
+        This function handles the following scenarios:
+        * Singleton encoder prompt: extract encoder prompt
+          token ids & infer default decoder prompt token ids
+        * Explicit encoder/decoder prompt: extract encoder
+          and decoder prompt token ids
+
+        Note that for Explicit encoder/decoder prompts,
+        each sub-prompt (encoder or decoder prompt) can
+        have any possible singleton type; thus this
+        method relies on helper functions to obtain
+        token ids for the sub-prompts.
+
+        Arguments:
+
+        * prompt: an input prompt
+
+        Returns:
+
+        * [`EncoderDecoderInputs`][vllm.inputs.data.EncoderDecoderInputs]
+          instance
+        """
+        encoder_inputs: SingletonInputs
+        decoder_inputs: SingletonInputs | None
+
+        if is_explicit_encoder_decoder_prompt(prompt):
+            # `cast` is needed for mypy, but not pyright
+            prompt_ = cast(ExplicitEncoderDecoderPrompt, prompt)
+            encoder_inputs = self._prompt_to_llm_inputs(
+                prompt_["encoder_prompt"],
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+            if (decoder_input := prompt_["decoder_prompt"]) is None:
+                decoder_inputs = None
+            else:
+                decoder_inputs = self._prompt_to_llm_inputs(decoder_input)
+            # For multimodal model, override decoder prompt from processor
+            # with explicit decoder prompt.
+            if self.model_config.is_multimodal_model:
+                encoder_inputs, decoder_inputs = self._split_enc_dec_mm_inputs(
+                    encoder_inputs, decoder_inputs
+                )
+        else:
+            # `cast` is needed for mypy, but not pyright
+            inputs = self._prompt_to_llm_inputs(
+                cast(SingletonPrompt, prompt),
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+            if self.model_config.is_multimodal_model:
+                # Encoder-Decoder Multimodal model
+                encoder_inputs, decoder_inputs = self._split_enc_dec_mm_inputs(inputs)
+            else:
+                encoder_inputs = inputs
+                decoder_inputs = None
+
+        return self._build_enc_dec_llm_inputs(encoder_inputs, decoder_inputs)
+
+    def _build_decoder_only_llm_inputs(
+        self,
+        prompt_inputs: DecoderOnlyInputs,
+    ) -> DecoderOnlyInputs:
+        if "prompt_token_ids" in prompt_inputs:
+            prompt_inputs = cast(
+                TokenInputs | MultiModalInputs, prompt_inputs
+            )  # Needed for mypy
+
+        return prompt_inputs
+
+    def _process_decoder_only_prompt(
+        self,
+        prompt: SingletonPrompt,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> DecoderOnlyInputs:
+        """
+        For decoder-only models:
+        Process an input prompt into a
+        [`DecoderOnlyInputs`][vllm.inputs.data.DecoderOnlyInputs] instance.
+
+        Arguments:
+
+        * prompt: input prompt
+
+        Returns:
+
+        * [`DecoderOnlyInputs`][vllm.inputs.data.DecoderOnlyInputs] instance
+        """
+
+        prompt_comps = self._prompt_to_llm_inputs(
+            prompt,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        return self._build_decoder_only_llm_inputs(prompt_comps)
+
+    def _preprocess(
+        self,
+        prompt: PromptType,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> ProcessorInputs:
+        if self.model_config.is_encoder_decoder:
+            # Encoder-decoder model requires special mapping of
+            # input prompts to encoder & decoder.
+            return self._process_encoder_decoder_prompt(
+                prompt,
+                tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+
+        if is_explicit_encoder_decoder_prompt(prompt):
+            raise ValueError(
+                "Cannot pass encoder-decoder prompt to decoder-only models"
+            )
+
+        # Decoder-only operation
+        # `cast` is needed for mypy, but not pyright
+        return self._process_decoder_only_prompt(
+            cast(SingletonPrompt, prompt),
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+    def preprocess(
+        self,
+        prompt: PromptType,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> ProcessorInputs:
+        """Preprocess the input prompt."""
+        res = self._preprocess(
+            prompt,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        if self.mm_processor_cache and self.mm_cache_stats is not None:
+            delta = self.mm_processor_cache.make_stats(delta=True)
+            self.mm_cache_stats.requests += 1
+            self.mm_cache_stats.queries += delta.total
+            self.mm_cache_stats.hits += delta.hits
+
+        return res
+
+    def stat_mm_cache(self) -> MultiModalCacheStats | None:
+        mm_cache_stats = self.mm_cache_stats
+        if mm_cache_stats is None:
+            return None
+
+        self.mm_cache_stats = MultiModalCacheStats()
+
+        return mm_cache_stats
+
+    def clear_mm_cache(self) -> None:
+        if self.mm_processor_cache is not None:
+            self.mm_processor_cache.clear_cache()
+
+        if self.mm_cache_stats is not None:
+            self.mm_cache_stats.reset = True
diff --git a/logger.py b/logger.py
new file mode 100644
index 0000000..9341008
--- /dev/null
+++ b/logger.py
@@ -0,0 +1,267 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Logging configuration for vLLM."""
+
+import datetime
+import json
+import logging
+import os
+import sys
+from collections.abc import Hashable
+from functools import lru_cache, partial
+from logging import Logger
+from logging.config import dictConfig
+from os import path
+from types import MethodType
+from typing import Any, Literal, cast
+
+import vllm.envs as envs
+
+VLLM_CONFIGURE_LOGGING = envs.VLLM_CONFIGURE_LOGGING
+VLLM_LOGGING_CONFIG_PATH = envs.VLLM_LOGGING_CONFIG_PATH
+VLLM_LOGGING_LEVEL = envs.VLLM_LOGGING_LEVEL
+VLLM_LOGGING_PREFIX = envs.VLLM_LOGGING_PREFIX
+VLLM_LOGGING_STREAM = envs.VLLM_LOGGING_STREAM
+
+_FORMAT = (
+    f"{VLLM_LOGGING_PREFIX}%(levelname)s %(asctime)s "
+    "[%(fileinfo)s:%(lineno)d] %(message)s"
+)
+_DATE_FORMAT = "%m-%d %H:%M:%S"
+
+DEFAULT_LOGGING_CONFIG = {
+    "formatters": {
+        "vllm": {
+            "class": "vllm.logging_utils.NewLineFormatter",
+            "datefmt": _DATE_FORMAT,
+            "format": _FORMAT,
+        },
+    },
+    "handlers": {
+        "vllm": {
+            "class": "logging.StreamHandler",
+            "formatter": "vllm",
+            "level": VLLM_LOGGING_LEVEL,
+            "stream": VLLM_LOGGING_STREAM,
+        },
+    },
+    "loggers": {
+        "vllm": {
+            "handlers": ["vllm"],
+            "level": "DEBUG",
+            "propagate": False,
+        },
+    },
+    "version": 1,
+    "disable_existing_loggers": False,
+}
+
+
+@lru_cache
+def _print_debug_once(logger: Logger, msg: str, *args: Hashable) -> None:
+    # Set the stacklevel to 3 to print the original caller's line info
+    logger.debug(msg, *args, stacklevel=3)
+
+
+@lru_cache
+def _print_info_once(logger: Logger, msg: str, *args: Hashable) -> None:
+    # Set the stacklevel to 3 to print the original caller's line info
+    logger.info(msg, *args, stacklevel=3)
+
+
+@lru_cache
+def _print_warning_once(logger: Logger, msg: str, *args: Hashable) -> None:
+    # Set the stacklevel to 3 to print the original caller's line info
+    logger.warning(msg, *args, stacklevel=3)
+
+
+LogScope = Literal["process", "global", "local"]
+
+
+def _should_log_with_scope(scope: LogScope) -> bool:
+    """Decide whether to log based on scope"""
+    if scope == "global":
+        from vllm.distributed.parallel_state import is_global_first_rank
+
+        return is_global_first_rank()
+    if scope == "local":
+        from vllm.distributed.parallel_state import is_local_first_rank
+
+        return is_local_first_rank()
+    # default "process" scope: always log
+    return True
+
+
+class _VllmLogger(Logger):
+    """
+    Note:
+        This class is just to provide type information.
+        We actually patch the methods directly on the [`logging.Logger`][]
+        instance to avoid conflicting with other libraries such as
+        `intel_extension_for_pytorch.utils._logger`.
+    """
+
+    def debug_once(
+        self, msg: str, *args: Hashable, scope: LogScope = "process"
+    ) -> None:
+        """
+        As [`debug`][logging.Logger.debug], but subsequent calls with
+        the same message are silently dropped.
+        """
+        if not _should_log_with_scope(scope):
+            return
+        _print_debug_once(self, msg, *args)
+
+    def info_once(self, msg: str, *args: Hashable, scope: LogScope = "process") -> None:
+        """
+        As [`info`][logging.Logger.info], but subsequent calls with
+        the same message are silently dropped.
+        """
+        if not _should_log_with_scope(scope):
+            return
+        _print_info_once(self, msg, *args)
+
+    def warning_once(
+        self, msg: str, *args: Hashable, scope: LogScope = "process"
+    ) -> None:
+        """
+        As [`warning`][logging.Logger.warning], but subsequent calls with
+        the same message are silently dropped.
+        """
+        if not _should_log_with_scope(scope):
+            return
+        _print_warning_once(self, msg, *args)
+
+
+# Pre-defined methods mapping to avoid repeated dictionary creation
+_METHODS_TO_PATCH = {
+    "debug_once": _VllmLogger.debug_once,
+    "info_once": _VllmLogger.info_once,
+    "warning_once": _VllmLogger.warning_once,
+}
+
+
+def _configure_vllm_root_logger() -> None:
+    logging_config = dict[str, Any]()
+
+    if not VLLM_CONFIGURE_LOGGING and VLLM_LOGGING_CONFIG_PATH:
+        raise RuntimeError(
+            "VLLM_CONFIGURE_LOGGING evaluated to false, but "
+            "VLLM_LOGGING_CONFIG_PATH was given. VLLM_LOGGING_CONFIG_PATH "
+            "implies VLLM_CONFIGURE_LOGGING. Please enable "
+            "VLLM_CONFIGURE_LOGGING or unset VLLM_LOGGING_CONFIG_PATH."
+        )
+
+    if VLLM_CONFIGURE_LOGGING:
+        logging_config = DEFAULT_LOGGING_CONFIG
+
+    if VLLM_LOGGING_CONFIG_PATH:
+        if not path.exists(VLLM_LOGGING_CONFIG_PATH):
+            raise RuntimeError(
+                "Could not load logging config. File does not exist: %s",
+                VLLM_LOGGING_CONFIG_PATH,
+            )
+        with open(VLLM_LOGGING_CONFIG_PATH, encoding="utf-8") as file:
+            custom_config = json.loads(file.read())
+
+        if not isinstance(custom_config, dict):
+            raise ValueError(
+                "Invalid logging config. Expected dict, got %s.",
+                type(custom_config).__name__,
+            )
+        logging_config = custom_config
+
+    for formatter in logging_config.get("formatters", {}).values():
+        # This provides backwards compatibility after #10134.
+        if formatter.get("class") == "vllm.logging.NewLineFormatter":
+            formatter["class"] = "vllm.logging_utils.NewLineFormatter"
+
+    if logging_config:
+        dictConfig(logging_config)
+
+
+def init_logger(name: str) -> _VllmLogger:
+    """The main purpose of this function is to ensure that loggers are
+    retrieved in such a way that we can be sure the root vllm logger has
+    already been configured."""
+
+    logger = logging.getLogger(name)
+
+    for method_name, method in _METHODS_TO_PATCH.items():
+        setattr(logger, method_name, MethodType(method, logger))
+
+    return cast(_VllmLogger, logger)
+
+
+# The root logger is initialized when the module is imported.
+# This is thread-safe as the module is only imported once,
+# guaranteed by the Python GIL.
+_configure_vllm_root_logger()
+
+logger = init_logger(__name__)
+
+
+def _trace_calls(log_path, root_dir, frame, event, arg=None):
+    if event in ["call", "return"]:
+        # Extract the filename, line number, function name, and the code object
+        filename = frame.f_code.co_filename
+        lineno = frame.f_lineno
+        func_name = frame.f_code.co_name
+        if not filename.startswith(root_dir):
+            # only log the functions in the vllm root_dir
+            return
+        # Log every function call or return
+        try:
+            last_frame = frame.f_back
+            if last_frame is not None:
+                last_filename = last_frame.f_code.co_filename
+                last_lineno = last_frame.f_lineno
+                last_func_name = last_frame.f_code.co_name
+            else:
+                # initial frame
+                last_filename = ""
+                last_lineno = 0
+                last_func_name = ""
+            with open(log_path, "a") as f:
+                ts = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S.%f")
+                if event == "call":
+                    f.write(
+                        f"{ts} Call to"
+                        f" {func_name} in {filename}:{lineno}"
+                        f" from {last_func_name} in {last_filename}:"
+                        f"{last_lineno}\n"
+                    )
+                else:
+                    f.write(
+                        f"{ts} Return from"
+                        f" {func_name} in {filename}:{lineno}"
+                        f" to {last_func_name} in {last_filename}:"
+                        f"{last_lineno}\n"
+                    )
+        except NameError:
+            # modules are deleted during shutdown
+            pass
+    return partial(_trace_calls, log_path, root_dir)
+
+
+def enable_trace_function_call(log_file_path: str, root_dir: str | None = None):
+    """
+    Enable tracing of every function call in code under `root_dir`.
+    This is useful for debugging hangs or crashes.
+    `log_file_path` is the path to the log file.
+    `root_dir` is the root directory of the code to trace. If None, it is the
+    vllm root directory.
+
+    Note that this call is thread-level, any threads calling this function
+    will have the trace enabled. Other threads will not be affected.
+    """
+    logger.warning(
+        "VLLM_TRACE_FUNCTION is enabled. It will record every"
+        " function executed by Python. This will slow down the code. It "
+        "is suggested to be used for debugging hang or crashes only."
+    )
+    logger.info("Trace frame log is saved to %s", log_file_path)
+    if root_dir is None:
+        # by default, this is the vllm root directory
+        root_dir = os.path.dirname(os.path.dirname(__file__))
+    sys.settrace(partial(_trace_calls, log_file_path, root_dir))
diff --git a/logging_utils/__init__.py b/logging_utils/__init__.py
new file mode 100644
index 0000000..7202259
--- /dev/null
+++ b/logging_utils/__init__.py
@@ -0,0 +1,10 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.logging_utils.formatter import NewLineFormatter
+from vllm.logging_utils.log_time import logtime
+
+__all__ = [
+    "NewLineFormatter",
+    "logtime",
+]
diff --git a/logging_utils/__pycache__/__init__.cpython-312.pyc b/logging_utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b769d28727ddac41d2f1d5e5be83d0ba0b186fd7
GIT binary patch
literal 339
zcmZutF;2rk5Zv?GaUfWtqaY=Xi}=a_LKGBKQ6AvtWaPt~*t4z68E{F>19$^(;RDDL
z6&0POh=z)FL<%IfSk3It%u4$jMY}+S{*&Hg03QR{miG(RM+BZBhnyi8mNGVA4?V+E
zPMGI@;iY~X#G}u_60>f9sqPoLRF{=CnRCk0EX1mC+9=COV|{ANIOwK#h$f*`q02%x
zPU9-M-nur@?(iQ88RRBx$mv2UGejw0U`-UhFN8C-sC7ManJtu?Jv8%^<J-9ssINrb
zx|^yLL#p_5SV*Z$?W9cVwi}<BDsNDo+X+R|Z(ud0)^o<#*BIF8JBWS+!NHp!^#PxF
JkD=Wm!4J-aU1R_N

literal 0
HcmV?d00001

diff --git a/logging_utils/__pycache__/dump_input.cpython-312.pyc b/logging_utils/__pycache__/dump_input.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97b44bcf0e0cd06435a6d604013cc659af51d552
GIT binary patch
literal 4113
zcmcgvTTm3)89t|bF5PoshM55w1nlLqI9@<Sg5a7hqNpefQMRneW@`$k8<=r!b~o1y
z6;qW|wA?DkxK(0SN*}Z33;VR}8zfd~l9xut$ev(TlHEMyjS{P(KIK2%(=#mUnuk=n
z;6ML4|M}1P&VT;PnLoST4g_D^awU4siO@H+V}ABLvpxsR4J0BF$I*b%;sLDpnE^&`
z*#Q<>CT>Ys2dtRRVdJ)heZa2smN=K-2Y8*g#vKXgfK%sfaaY1UP=XPIB)jCfi;W!z
zyrNwy9b!c8mzDva$V*nyA@QP9a*B8gPz~8c7fAfCmAF9?n8cxyf6>KyLzp<u#N&y>
zspL>}7<$fVGOC8-so`NshOVbSG9rniaY^nQRnwy?43!jy`qe>Ip*rF4m?SIFR5BbU
zHd#_f<zyreR)-9xLoEESJFL`HYC)DkDx=Q;ayQS(HW6pgXJF1*w*R|xEw9Y&6PcKK
z5vCB@42tm^x_S0)zCD7j;;T%A9YGQ1;~Ip13Oi5ZX-1_O^)G`>V*?IWrTC3;rZ_&!
z{)YKPu%HM#%}f{OPqU&W!-AIe74$B1mBLAPiMBW42aHUF8Kwx`fR1?`hHK0x9@w9m
z-hfK9zp`)1EBm&-X<rrgGQJElPx?PZ;x$+QKU=_O?i&l3T(K=+ajIL)(c<Yhd0>S(
zBUWj0#kR204v_;7tSU-O4*Y@#3HaRR4<rtd2%E<djRfbc9dOi{vJ4Vkg}uC>)nH1B
zt?BEV^xOr#H0ZrsoNsd97dO+EH+ZYXj40h--yTsVuk+^5&@2lc{hEkULngZ7y~K8y
zW5pIM<<Vo$Icw=hJW_X?vRISJ72D!k{SZSqAIIYc4>9#UoF4Jxs1B)n%=OfLCO5>?
zBN>wR>%1w#oJIX;98Iui(KrrydkJowVs;5rOou@5&j_9-_#=Wpo^pREC6$!CT^Sin
zONXZTU4kf$MI*r4cZupGj1e3n{9qDtt}LZx!iB?PG@?QR#vs}rsw9r65=|=VU@{^R
zR#9bQp%aKDmWn2cHL6Mpg_Ng3c~F+ZsdF(2wAEBt98IK&B_35&(2`VQRY%itiCCoM
zXo6U}bgJ)YRa0_ggxCzE#HvFjHUlTI>L`hQWKbDYRavH?FP8!#77Cx@O%5g`z-x&q
zDF8(GRS5qf2)krCB@=fa6qTWPYFzJztb_%S1fM5(jBxr{;ZQOSNCm1266p8xNVA$q
zH>acN-Rht`EUCLEM%&sCoNtqw<I!`?=}C1Ym24h^g4aw-Tr@cx9#x}prJ3#?jwYeP
zHKixzAO%Z_pRRrq%ELvpYA?;!eX8W_TUSbb*_LcW_QItpjSH^w{_NpffgE46;@@(k
z{aX9VkGk%M7DM-T=3KptJHM)*e`o&Gr);+Ky6w_LR?b!KnJZncY|(=IAG%u?c0P3V
zuCq+Qafw^AAzvVSJlipITJs1RCu~?5cHB?bUi2?lcP;woJ99Pr=T1GUX<P6wRd+4>
zk7~YS3l}s`x5jlFYW^HwO@Zoa_W}!%d%@-ElZ(L(s==k|lgs`d&G*5BQ<|qw<NChU
z&r+7-w-r?X`yB(fgExaYzHZe62Dvh+aTNxVvfEWRt8)Ci^nBZ9l-rXxCuh$8E;!fn
zWycpCbGzn;7b5qgi_wLTv>yYE(;9brmG@@-+4DKRcE#hnI(>Qi%Fi{f#u$y|_;*&k
z{u{1quE*ZmC2#GrxBikfZ~Cu0kLFy*7R$a0%$Lr07L0x&7i^xx%fWqGMax6?{)MuK
zu48$lKeHkKmaK9;^w?Lw<g3?88}6LCGjS(2hc(YWjoY_oWBKY;xY&+s9W#;Z?`y8w
z7wc`v-G^U1<xtI0{Nf+gCtp0Z>Fjz1av#UfpOv7}%3FstPv|May7mlvz5Su9YK?{N
zONHi)MQdHR!}0raU$@ushpoQuGRM6wzV1rL{ieF^ZH@=6f$j$M$A-!i4EraHff8Fp
zf1wetVm`>iDg8x8JjD@+c2$WKUNNwb4gU3)*Ay@tUtY1oy9)&QPc6Q$@-MVj1bM9R
zzRI8s&M<fL>+4Tcc*>d;1*1vGh<lNO$03`Z1x-4V&vdvqWFZbXgDOp^5Q>CTM$?dd
z6bSjQiHMX|;q^$$_3RUtk`S3vSTe^$th^T>$~48wEkG0s0m5CTrX*#0@NQO;+d+1K
zPTmRRB7$3S1RnEMOMKO>vyb@3Rjy`cOlxeL-<IRL|IH%D_Q!nV65sez;b8u6OZKu~
zSUc?BF(yqjx-p*v1I7eue6hSq%sy>JTr?+?nu5`wEENs9;o10>)tC%hG<1fMx4dOO
z3m28YVtNhqYE*hK{euEk0T*j_QLOO5Ees*iVm<)rWlk20mbG{4y(5q=A$baV#uUUs
zbx;^e$-<evLQl^Jf^ikX_OS*fB#cMZ5y5cY4xvGTTDQm4E;z1WxU#-RA|*<3L7I>v
zkeO3Ssx!6qRSn(MbzzNO9|WV4QBX!L6V#MI9V28THsj|Eu}XSjah(B>;WJ&Q`@8#k
zja=Ub=O%p7;VhdR4hjw}5U{dBV+35!@I9G2m`)A@qa=WUr#X<-`Rkrv^sI14SGm9n
zSMtnmvD(%gHtWGve@NTWvFty1iCg7LuDUL}w6bFlDstTEubq{vF5lIj%RO4~2lJjs
zuH$Pga&3M7tup{=1T?vl$6Un{SD^*l|H5@ZF0mebsnCi#+um7$7AtBx+u6kf7-*<W
zZl$=YDcMem0E9Sc-D@(gLZ<$hA2F;W(}R(qK4)w%Op~Q1{eqf|%aN(~lQL7DkW@Ju
zQJVC7kZGDBE<<Mg5|pWv%ZDgwq~staWt8Z}l?JD7x6jc!u*isH?mf7D__6sz`527R
z9HjgT2%Ht;bq-<QUy&33zCo^kqS_~@?g?srg7!Q?`~S`dvOihoYcAT>Y_+)hPRlxi
zX6*##@Cm%)DqmwM^SAPbH7jMH6qVQC5tqt#tlRZ|xfdVQr$MXFg0?v6nH{?FQ9$w^
DlYpkF

literal 0
HcmV?d00001

diff --git a/logging_utils/__pycache__/formatter.cpython-312.pyc b/logging_utils/__pycache__/formatter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..231ede02288ef7be9b98d5d1bdb7188891c90bee
GIT binary patch
literal 3900
zcmb_f-ES1v6~D8ypEkw@+t|j-G7SWK1>Th%hd3XQVlb{N$D|NwaUVv*&h>ii+1cgZ
z@!DQ34G&0NH$k-{RV>N_t`w<6R2Ax9(5jVMsV`kNlFf)pk(xg6X2nEBc?dmcW@i>V
zj>1E)wD;b*=i{Dx&hMUk_8(164FsC*|3C{g67p~Sa9f}@*_?pMEus=t(8(l@K3&N8
zCVc|VMP1DJC;bBPkx`=hZxA&=$&9VlRpgBKL}#1~E(-DBWBizi3zq*~#hk{G8hM^_
zSe(AbPc{?q{Y$Wbl1V`&lRj0L6jgtTObM#*Mr6{Ni8sQNff88|CW9A9JYcm<(D`xA
zpl7ozqnIXTg%hV#l}mayoz{%Blw)*CTae7GWYBpX7&*=rT}vBMW==P?K3tSClyfCb
zc_QV1&Ng%nnz#8SbiWa95z`|s`HSQx(2GLRR}|et3&ix~XM!HHH&KPzUXUTO$5kXV
zVUO%h*eMgj<TP`aJG&=1vzcahr9R%PO=nu_Ywqkt*TAlbE3-%zN!&MK1<s5NUmT4$
zSOGqlqs$7+vSw(eEHgZUwfEBa_&f6WxzW+FiBWlc<kHBv)i}qg%&4A&h%<B_3QcJ`
zm1Qf$D9`G7Y6Wu&qlRgPSvG6Rs>UFeeopl%OPtD>R!CJ$ijx307j<eyWI3fPoXaxD
zph(cJe|<V>W^&1#mg_SWmZoOk!rW`G56!+tle%^#nOiicvqmzn>zQN?4f33+={z~*
zVkMDVWC-Cx*LD;o++#KYng1NRr`O4&aMMz#67DRwmeZ?qpN0Fr=svjCJy7W$xSy_c
zpD6i13wN$JHm@~yKWOZJ6qP>d{CHw5I#7uYRHK7y(Kjp6H`k)WmFVzVbgU8`E1kLd
z&W1>KMK?h`N%^p^HH3~0yiQm};Hg3#daBR#c&GfTc*B3q2Qcy=<tibBO_?G0t0<^`
zmAF8?CKg3D7$Ig2QUFTPgO>*aSC$YDULGv#G}zmNXnobycFk|JKevmp6Bz5fJ_6Ut
z?|v7BIv|Zb#T{jz=P}#d{g*;;J^S!_y1K3fK)%zZ*GDxl`x<!am11C~yT0nqc9!vU
z20`k8%Ud7Spc*O$)o>Rq72tQT7B8?NaDf~m=5CkwFkzjLH0n{<@r>Sn{>$XUkLJmO
zc$v%#@yG<;C;OgRK}O9vW~4k#umj$dR`_jx105tUj|LI*5Co)J^L7!^1P~>#Ccun<
zXHb2ZwitL&g^awPToZu0&!Yxx>TZY}Vl23y6yVmN2JnN;Z8Y239J=@%y{64XOYK&V
zml~Ws1A8_VeQGET`>A2nh2C_u8v)$UnX8c*59c*SFcf|6iQuJZQ2q`VssR&++b&FJ
znMn;UDH3KU3G<Z%xxsroRE_6!W$}$IQhm~Sn#tzj9nq<x;uF(@DW(S`b(Jzno5DAT
zLvBlKlN$pHZowg2nOvIJVBVAO?>V-GZ<f*=yiwB>jAGoB%z1dO3{`^c=X~fiPj$Xk
zD3#T9CCAYkl+0+V3I|fS)RRagdbS&K4tUtS#_2I>`)>c|o#4o5k9};7OB_9ZOmd*g
zCCvmA`!v4YzL5nblhY~R>UcYmXR<2QWx7C9b7qz$Av%=t<kdOFFtvhWYLM`2IX*Y!
zWP8Z*Qs2ofF5adDT=ab!wurx|A<F#K@85i<6F7q3-ZS5y#1aRN3dg*nq-Lq1@?=I=
zlBsMalQnkO?FB>{wrq5YrMLMVuS+e<NWJf3759ep9t0KEz~T8?bfKuaLY)9pgQ{CY
zdfv`WJLu&mbClW0KtcD4FvK!m#@Z#^s*qv&viul{$C%Y7EMLC=F)kKF2<PK(o;`bJ
z3CXzM^6MIhDgvqvlUt%r4a+~1)r`2vFtM>is3!uYp=@(-e01@=`*6LHPlFk=Kr*Kb
z$G%k}IAuiQEj^o3bbd1N9Ctg2^FKm&ojgg9_O5croddTIRNHz=BkP^}OJfh4+sf_b
ztG7E>FFoiwy54!9tdy^mBg=t0;k^f4@%5Ij^2ODG)l=omm6jvR5sz^t@Nmz*@1!mV
z9yRY>e)WSw`P8p|fn2ow)781V=kH!vEmRKlS6cd4BA=t`O3O>2v~}ODp_QTXShe-Y
zKX)Br9eDIGp4m_`)FPJ9Q1CT1*e;JZI|ZExfn)gSTOp{s0F;d3lV&x#ppfBqVkK%t
zMix>uhlsVpm}PC9_DnOtfmmu-LC2F;s8)qT(U;RTC;}OU{F|cjFxzAEF`CLUmG$69
zSh>RO$k>6j#0*c{(PXyov8IMNV!Lh!ll8+&q2oJ(h;;+U|0+=BZTMb}^nB8`L16g(
zp-mh%CIqsprB>H<#LD^A!u`Q&$581<51TtSeBz$LN3oYyhdwseVuO{~U^RApEjC<<
z4gYEIZzukIq8j_j%IK3Y={{J_-+BM``_=u)<<P@e{BBP*Hc&cy^W5jL!*{Z`v!$~i
zp8H~V>r#5jC||1XK3o#l8~6PB<kHFV`3H>$*V{U7jjfE8r|uZHjcQvTAZc&=t)nYP
z%j)XcyBF{GfBLh^;a97BkC#rbH}5SqJbltdI)Csb5gg-=|L*PIzFm#I^3mvq2uojc
z^ynW3PWO_(^v2Fa#J`3G=&|A#UXF*bV#i29#oi#xkT2)#>V20iL#owll#nc|*%bT}
zz!KW_uhmp5(^FK}WjQW5!N42(LnjJY*fQ);hT|=JdV@UlkACG31b!_1clYao)(rxk
zjY69dj0x4scPoUbgxcN)A&a6e`(H@ptXt9BBA*gR+`h!&w;c0NvSHvyQ}|)%zzc$~
h874yWzewkQNc)rEX+daRo?q+et#tH$Mexhk@;~O*ycYlf

literal 0
HcmV?d00001

diff --git a/logging_utils/__pycache__/log_time.cpython-312.pyc b/logging_utils/__pycache__/log_time.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5c585bf95e48bc50b0a3aef66c4d527741098443
GIT binary patch
literal 1376
zcmah|O>7%Q6rR~1|0PkH#CDv}kP(t)wo+^%0pX{rT2NXJX#|2(E}PBn*x7WwyUeWf
zW7(1qm0}Bta;X}G5F9uJ<-(C8cP_Dl2rNAy!G)WVsRW#Ov)(kQ2zb(dGw;25Ki|%q
zuO}ul2*gp|vo~afeiF*LNbzP!VDkW3XdPMDk{rB_qg7g$EX9)V;&pjn($wa&nKzlY
zV_TFHg9LV+a>q6)alBg1c5B3<rpJuHW0_w>;x+R;ztF@U>Z4&E-~b)q2dIm>xGGur
zZmKP{q_>eKHMcVaWYw#25^PaI_o&$jY|o9V5w99q<2uwL)rM;dcR32X;p`gwocN9b
zP1yn2q%JjrE#g5ccF`Rloi;HvaxMyNX5bsX0dQYBfWHwu_HX~4M;y^Z$FUz+NL{%q
z3m(U@w~bp^@L4lsL$s)Xi|`G<1-LK&Ux~-bBnkBrEo7q>{tUm5+wy<6b{^M~nsD`P
zrI+d~Sh$zi79^jLkB}vSC-H<CRPe|jt1j-P+G;Pko&M(uOKGVs<yc%Q2u3X#D64DD
z%+2^#NGZhS5SN<sMg9s|aSWfsor$?2#qx5MaB6Z*4HaPt$9>AGy6H9CfU+>7>vhj+
zI8@ieab176VK}Z)7n*9(%|=a2hl;^!JWSl#jaHQh1`EOjqrBk+VUmujg$bY0s=XH~
zVpPI}7*$9w*LjT#N@Cgw>2x}OzE%n9e#N)_B}i1G!O~u1`Q?}HEYpf(Z&v*MV9RqW
zJC0MY#N)2RU^-lAx*$;Y_rsLF%M2fgG&L|s)~k+Z8V<i!)@|3NtbC!zN2j3+-URr)
zgMQ8y&a%aRws@K?byvR6%^f~}lDqQhi~Zb{?#+k!`LlefpD&%}wWF1O{<-e0K?-GO
zKX`Q@qnU-ncRtZS)K4xi9ldoFoK>#(E7woTH@=$cUwZw=Tw#zz6ElMhz`fPp>dD*-
zU+jFj`_1^R?`Gz@w}((2hBZt_&&l%~9;%`{t|?4B3N|YsD<B8J#T;$GPh;XKhlvrh
z=Ip;vo)RHNfIm9uVS4)BVsG&<dzyawku;W`AId1RI1szRJi1iqPO<`={2XcWMLqVE
z$RNgSV}p!pCgWOc0jy)fJqZ8>9*s|`g~2mue7bWxN~Pg7O$n2_Zh5AzvpG1%QUXLI
tyDUId9HmWN9Sz+zCZ4Hy-&{~1$Qa{a6B1U2DTJqfKx4lpX7O|s_!kg4QUd@0

literal 0
HcmV?d00001

diff --git a/logging_utils/dump_input.py b/logging_utils/dump_input.py
new file mode 100644
index 0000000..cb289d0
--- /dev/null
+++ b/logging_utils/dump_input.py
@@ -0,0 +1,83 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import enum
+import json
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.metrics.stats import SchedulerStats
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger(__name__)
+
+
+def prepare_object_to_dump(obj) -> str:
+    if isinstance(obj, str):
+        return f"'{obj}'"  # Double quotes
+    elif isinstance(obj, dict):
+        dict_str = ", ".join(
+            {f"{str(k)}: {prepare_object_to_dump(v)}" for k, v in obj.items()}
+        )
+        return f"{{{dict_str}}}"
+    elif isinstance(obj, list):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in obj])}]"
+    elif isinstance(obj, set):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in list(obj)])}]"
+        # return [prepare_object_to_dump(v) for v in list(obj)]
+    elif isinstance(obj, tuple):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in obj])}]"
+    elif isinstance(obj, enum.Enum):
+        return repr(obj)
+    elif isinstance(obj, torch.Tensor):
+        # We only print the 'draft' of the tensor to not expose sensitive data
+        # and to get some metadata in case of CUDA runtime crashed
+        return f"Tensor(shape={obj.shape}, device={obj.device},dtype={obj.dtype})"
+    elif hasattr(obj, "anon_repr"):
+        return obj.anon_repr()
+    elif hasattr(obj, "__dict__"):
+        items = obj.__dict__.items()
+        dict_str = ", ".join(
+            [f"{str(k)}={prepare_object_to_dump(v)}" for k, v in items]
+        )
+        return f"{type(obj).__name__}({dict_str})"
+    else:
+        # Hacky way to make sure we can serialize the object in JSON format
+        try:
+            return json.dumps(obj)
+        except (TypeError, OverflowError):
+            return repr(obj)
+
+
+def dump_engine_exception(
+    config: VllmConfig,
+    scheduler_output: SchedulerOutput,
+    scheduler_stats: SchedulerStats | None,
+):
+    # NOTE: ensure we can log extra info without risking raises
+    # unexpected errors during logging
+    with contextlib.suppress(Exception):
+        _dump_engine_exception(config, scheduler_output, scheduler_stats)
+
+
+def _dump_engine_exception(
+    config: VllmConfig,
+    scheduler_output: SchedulerOutput,
+    scheduler_stats: SchedulerStats | None,
+):
+    logger.error(
+        "Dumping input data for V1 LLM engine (v%s) with config: %s, ",
+        VLLM_VERSION,
+        config,
+    )
+    try:
+        dump_obj = prepare_object_to_dump(scheduler_output)
+        logger.error("Dumping scheduler output for model execution: %s", dump_obj)
+        if scheduler_stats:
+            logger.error("Dumping scheduler stats: %s", scheduler_stats)
+    except Exception:
+        logger.exception("Error preparing object to dump")
diff --git a/logging_utils/formatter.py b/logging_utils/formatter.py
new file mode 100644
index 0000000..02ba308
--- /dev/null
+++ b/logging_utils/formatter.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import logging
+from pathlib import Path
+
+from vllm import envs
+
+
+class NewLineFormatter(logging.Formatter):
+    """Adds logging prefix to newlines to align multi-line messages."""
+
+    def __init__(self, fmt, datefmt=None, style="%"):
+        super().__init__(fmt, datefmt, style)
+
+        self.use_relpath = envs.VLLM_LOGGING_LEVEL == "DEBUG"
+        if self.use_relpath:
+            self.root_dir = Path(__file__).resolve().parent.parent.parent
+
+    def format(self, record):
+        def shrink_path(relpath: Path) -> str:
+            """
+            Shortens a file path for logging display:
+            - Removes leading 'vllm' folder if present.
+            - If path starts with 'v1',
+            keeps the first two and last two levels,
+            collapsing the middle as '...'.
+            - Otherwise, keeps the first and last two levels,
+            collapsing the middle as '...'.
+            - If the path is short, returns it as-is.
+            - Examples:
+            vllm/model_executor/layers/quantization/utils/fp8_utils.py ->
+            model_executor/.../quantization/utils/fp8_utils.py
+            vllm/model_executor/layers/quantization/awq.py ->
+            model_executor/layers/quantization/awq.py
+            vllm/v1/attention/backends/mla/common.py ->
+            v1/attention/backends/mla/common.py
+
+            Args:
+                relpath (Path): The relative path to be shortened.
+            Returns:
+                str: The shortened path string for display.
+            """
+            parts = list(relpath.parts)
+            new_parts = []
+            if parts and parts[0] == "vllm":
+                parts = parts[1:]
+            if parts and parts[0] == "v1":
+                new_parts += parts[:2]
+                parts = parts[2:]
+            elif parts:
+                new_parts += parts[:1]
+                parts = parts[1:]
+            if len(parts) > 2:
+                new_parts += ["..."] + parts[-2:]
+            else:
+                new_parts += parts
+            return "/".join(new_parts)
+
+        if self.use_relpath:
+            abs_path = getattr(record, "pathname", None)
+            if abs_path:
+                try:
+                    relpath = Path(abs_path).resolve().relative_to(self.root_dir)
+                except Exception:
+                    relpath = Path(record.filename)
+            else:
+                relpath = Path(record.filename)
+            record.fileinfo = shrink_path(relpath)
+        else:
+            record.fileinfo = record.filename
+
+        msg = super().format(record)
+        if record.message != "":
+            parts = msg.split(record.message)
+            msg = msg.replace("\n", "\r\n" + parts[0])
+        return msg
diff --git a/logging_utils/log_time.py b/logging_utils/log_time.py
new file mode 100644
index 0000000..9e94f46
--- /dev/null
+++ b/logging_utils/log_time.py
@@ -0,0 +1,34 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Provides a timeslice logging decorator
+"""
+
+import functools
+import time
+
+
+def logtime(logger, msg=None):
+    """
+    Logs the execution time of the decorated function.
+    Always place it beneath other decorators.
+    """
+
+    def _inner(func):
+        @functools.wraps(func)
+        def _wrapper(*args, **kwargs):
+            start = time.perf_counter()
+            result = func(*args, **kwargs)
+            elapsed = time.perf_counter() - start
+
+            prefix = (
+                f"Function '{func.__module__}.{func.__qualname__}'"
+                if msg is None
+                else msg
+            )
+            logger.debug("%s: Elapsed time %.7f secs", prefix, elapsed)
+            return result
+
+        return _wrapper
+
+    return _inner
diff --git a/logits_process.py b/logits_process.py
new file mode 100644
index 0000000..7b6a652
--- /dev/null
+++ b/logits_process.py
@@ -0,0 +1,121 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable, Sequence
+from typing import TypeAlias
+
+import torch
+
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+LogitsProcessor: TypeAlias = (
+    Callable[[list[int], torch.Tensor], torch.Tensor]
+    | Callable[[list[int], list[int], torch.Tensor], torch.Tensor]
+)
+"""LogitsProcessor is a function that takes a list
+of previously generated tokens, the logits tensor
+for the next token and, optionally, prompt tokens as a
+first argument, and returns a modified tensor of logits
+to sample from."""
+
+
+def get_bad_words_logits_processors(
+    bad_words: list[str], tokenizer: AnyTokenizer
+) -> list[LogitsProcessor]:
+    bad_words_ids: list[list[int]] = list()
+
+    for bad_word in bad_words:
+        # To prohibit words both at the beginning
+        # and in the middle of text
+        # (related to add_prefix_space tokenizer parameter)
+        for add_prefix_space in [False, True]:
+            prefix = " " if add_prefix_space else ""
+            prompt = prefix + bad_word.lstrip()
+
+            prompt_token_ids = tokenizer.encode(text=prompt, add_special_tokens=False)
+
+            # If no space at the beginning
+            # or if prefix space produces a new word token
+            if (not add_prefix_space) or (
+                add_prefix_space
+                and prompt_token_ids[0] != bad_words_ids[-1][0]
+                and len(prompt_token_ids) == len(bad_words_ids[-1])
+            ):
+                bad_words_ids.append(prompt_token_ids)
+
+    return [NoBadWordsLogitsProcessor(bad_words_ids=bad_words_ids)]
+
+
+class NoBadWordsLogitsProcessor:
+    _SMALLEST_LOGIT = float("-inf")
+    _NEUTRAL_LOGIT = 0.0
+
+    def __init__(self, bad_words_ids: list[list[int]]):
+        self.bad_words_ids = bad_words_ids
+        self.word_bias: torch.FloatTensor = None
+
+    def __call__(
+        self,
+        past_tokens_ids: Sequence[int],
+        logits: torch.FloatTensor,
+    ) -> torch.Tensor:
+        if self.word_bias is None:
+            self._init_word_bias(logits=logits)
+
+        last_token_bias = torch.zeros_like(logits)
+
+        for bad_word_ids in self.bad_words_ids:
+            if len(bad_word_ids) == 1:  # 1-token words already processed
+                continue
+
+            if len(bad_word_ids) > len(past_tokens_ids) + 1:
+                continue
+
+            prefix_length = len(bad_word_ids) - 1
+            last_token_id = bad_word_ids[-1]
+            actual_prefix = past_tokens_ids[-prefix_length:]
+            expected_prefix = bad_word_ids[:prefix_length]
+
+            assert len(actual_prefix) == len(expected_prefix)
+
+            is_match = tuple(actual_prefix) == tuple(expected_prefix)
+            last_token_bias[last_token_id] += (
+                self._SMALLEST_LOGIT if is_match else self._NEUTRAL_LOGIT
+            )
+
+        logits = logits + self.word_bias + last_token_bias
+
+        return logits
+
+    def _init_word_bias(self, logits: torch.FloatTensor) -> None:
+        # Code based on NoBadWordsLogitsProcessor and SequenceBiasLogitsProcessor  # noqa: E501
+        # from https://github.com/huggingface/transformers/blob/main/src/transformers/generation/logits_process.py
+
+        vocab_size = logits.shape[-1]
+
+        self._check_token_ids_bounds(vocab_size=vocab_size)
+
+        self.word_bias = torch.zeros(
+            (vocab_size,), dtype=torch.float, device=logits.device
+        )
+
+        for bad_word_ids in self.bad_words_ids:
+            if len(bad_word_ids) == 1:
+                bad_word_id = bad_word_ids[-1]
+                self.word_bias[bad_word_id] = self._SMALLEST_LOGIT
+
+    def _check_token_ids_bounds(self, vocab_size: int) -> None:
+        invalid_token_ids = []
+
+        for bad_word_ids in self.bad_words_ids:
+            for token_id in bad_word_ids:
+                if token_id < 0 or token_id >= vocab_size:
+                    invalid_token_ids.append(token_id)
+
+        if len(invalid_token_ids) > 0:
+            raise ValueError(
+                f"The model vocabulary size is {vocab_size},"
+                f" but the following tokens"
+                f" were specified as bad: {invalid_token_ids}."
+                f" All token id values should be integers satisfying:"
+                f" 0 <= token_id < {vocab_size}."
+            )
diff --git a/logprobs.py b/logprobs.py
new file mode 100644
index 0000000..a34398d
--- /dev/null
+++ b/logprobs.py
@@ -0,0 +1,208 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import itertools
+from collections.abc import Iterable, Iterator, MutableSequence
+from dataclasses import dataclass, field
+from typing import overload
+
+import vllm.envs as envs
+
+
+# We use dataclass for now because it is used for
+# openai server output, and msgspec is not serializable.
+# TODO(sang): Fix it.
+@dataclass
+class Logprob:
+    """Infos for supporting OpenAI compatible logprobs and token ranks.
+
+    Attributes:
+        logprob: The logprob of chosen token
+        rank: The vocab rank of chosen token (>=1)
+        decoded_token: The decoded chosen token index
+    """
+
+    logprob: float
+    rank: int | None = None
+    decoded_token: str | None = None
+
+
+LogprobsOnePosition = dict[int, Logprob]
+
+
+@dataclass
+class FlatLogprobs(MutableSequence[LogprobsOnePosition]):
+    """
+    Flat logprobs of a request into multiple primitive type lists.
+
+    Compared to list[dict[int, Logprob]], this data structure reduced GC
+    overhead significantly. As it flattened logprob information for
+    all positions and ranks in to multiple primitive type lists (i.e.
+    logprobs, token_ids, ranks per token_ids, decoded_tokens).
+    So regardless of the sequence length and top_logprobs setup,
+    FlatLogprobs would only introduce a constant amount of objects.
+
+    As each position might contains different amount of ranks,
+    start_indices_per_position would be used to access the logprob ranges
+    for different positions.
+
+    NOTE: To reduce the migration overhead and improve backward compatibility,
+    we support the key Sequence APIs of list, so it could act as
+    list[LogprobsOnePosition]
+    """
+
+    # Start / end indices to indicate the range of logprobs for each position.
+    start_indices: list[int] = field(default_factory=list)
+    end_indices: list[int] = field(default_factory=list)
+
+    # Flatten Logprob information for (each position, rank).
+    # For position <i>, the logprobs are ranged
+    # from self.start_indices[i] to self.end_indices[i] (exclusive).
+    token_ids: list[int] = field(default_factory=list)
+    logprobs: list[float] = field(default_factory=list)
+    ranks: list[int | None] = field(default_factory=list)
+    decoded_tokens: list[str | None] = field(default_factory=list)
+
+    def append(self, logprobs_one_position: LogprobsOnePosition | None) -> None:
+        """Appends the container with logprobs for the next position"""
+        self.start_indices.append(len(self.logprobs))
+        if logprobs_one_position:
+            for token_id, logprob in logprobs_one_position.items():
+                self.token_ids.append(token_id)
+                self.logprobs.append(logprob.logprob)
+                self.ranks.append(logprob.rank)
+                self.decoded_tokens.append(logprob.decoded_token)
+        self.end_indices.append(len(self.logprobs))
+
+    def append_fast(
+        self,
+        token_ids: list[int],
+        logprobs: list[float],
+        ranks: itertools.chain[int],
+        decoded_tokens: Iterable[str | None],
+    ) -> None:
+        """
+        Appends logprobs for the next position without creating
+        the intermediate logprob dictionary.
+        """
+        self.start_indices.append(len(self.logprobs))
+        for token_id, logprob, rank, decoded_token in zip(
+            token_ids, logprobs, ranks, decoded_tokens
+        ):
+            self.token_ids.append(token_id)
+            self.logprobs.append(logprob)
+            self.ranks.append(rank)
+            self.decoded_tokens.append(decoded_token)
+        self.end_indices.append(len(self.logprobs))
+
+    def extend(self, logprobs_multi_positions) -> None:
+        """Extends the container with logprobs for the next multiple positions"""
+        for logprobs_one_position in logprobs_multi_positions:
+            self.append(logprobs_one_position)
+
+    def __len__(self) -> int:
+        """Gets number of positions stored in the container"""
+        return len(self.start_indices)
+
+    @overload
+    def __getitem__(self, position: int) -> LogprobsOnePosition: ...
+
+    @overload
+    def __getitem__(self, s: slice, /) -> "FlatLogprobs": ...
+
+    def __getitem__(self, index: int | slice):
+        """Extracts logprobs of a given position or slice"""
+        if isinstance(index, int):
+            return {
+                self.token_ids[i]: Logprob(
+                    logprob=self.logprobs[i],
+                    rank=self.ranks[i],
+                    decoded_token=self.decoded_tokens[i],
+                )
+                for i in range(self.start_indices[index], self.end_indices[index])
+            }
+        elif isinstance(index, slice):
+            min_index = self.start_indices[index][0]
+            max_index = self.end_indices[index][-1]
+            return FlatLogprobs(
+                # Shift updated start_indices and end_indices to
+                # be 0-indexed
+                start_indices=[i - min_index for i in self.start_indices[index]],
+                end_indices=[i - min_index for i in self.end_indices[index]],
+                token_ids=self.token_ids[min_index:max_index],
+                logprobs=self.logprobs[min_index:max_index],
+                ranks=self.ranks[min_index:max_index],
+                decoded_tokens=self.decoded_tokens[min_index:max_index],
+            )
+        else:
+            raise TypeError(f"Invalid index type: {type(index)}")
+
+    def __setitem__(self, item, value) -> None:
+        raise TypeError("Cannot set logprobs in FlatLogprobs")
+
+    def __delitem__(self, item) -> None:
+        raise TypeError("Cannot delete logprobs from FlatLogprobs")
+
+    def insert(self, item) -> None:
+        raise TypeError("Cannot insert logprobs to FlatLogprobs")
+
+    def __iter__(self) -> Iterator[LogprobsOnePosition]:
+        """
+        Iterates the container and yields LogprobsOnePosition for
+        each position.
+        """
+        for i in range(0, len(self.start_indices)):
+            yield self.__getitem__(i)
+
+
+# {token_id -> logprob} per each sequence group. None if the corresponding
+# sequence group doesn't require prompt logprob.
+PromptLogprobs = FlatLogprobs | list[LogprobsOnePosition | None]
+# {token_id -> logprob} for each sequence group.
+SampleLogprobs = FlatLogprobs | list[LogprobsOnePosition]
+
+
+def create_prompt_logprobs() -> PromptLogprobs:
+    """Creates a container to store prompt logprobs for a request"""
+    logprobs = FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
+    # NOTE: logprob of first prompt token is None.
+    logprobs.append(None)
+    return logprobs
+
+
+def create_sample_logprobs() -> SampleLogprobs:
+    """Creates a container to store decode logprobs for a request"""
+    return FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
+
+
+def append_logprobs_for_next_position(
+    request_logprobs: PromptLogprobs | SampleLogprobs,
+    token_ids: list[int],
+    logprobs: list[float],
+    decoded_tokens: Iterable[str | None],
+    rank: int,
+    num_logprobs: int,
+) -> None:
+    """Appends logprobs for the next position"""
+    if num_logprobs == -1:
+        num_logprobs = len(logprobs)
+    # We do not need a special case for the sampled token
+    # being in the topk, since inserting duplicated data
+    # into a dictionary twice is the same as doing it once.
+    topk_ranks = range(1, num_logprobs + 1)
+    ranks = itertools.chain((rank,), topk_ranks)
+
+    if isinstance(request_logprobs, FlatLogprobs):
+        request_logprobs.append_fast(token_ids, logprobs, ranks, decoded_tokens)
+    else:
+        request_logprobs.append(
+            {
+                token_id: Logprob(
+                    logprob=logprob,
+                    rank=rank,
+                    decoded_token=token,
+                )
+                for token_id, logprob, rank, token in zip(
+                    token_ids, logprobs, ranks, decoded_tokens
+                )
+            }
+        )
diff --git a/lora/__init__.py b/lora/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/lora/__pycache__/__init__.cpython-312.pyc b/lora/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8b5680e2e90c37783dc14c132ff67f7a65c3d618
GIT binary patch
literal 154
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVS?ZVM7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_-7bWV)$7kkcmc+;F6;$5hu*uC&
bDa}c>D`Ewj#0bR2AjU^#Mn=XWW*`dy+Os4e

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/lora_weights.cpython-312.pyc b/lora/__pycache__/lora_weights.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74c10bb3f26dbdf0038da974051ef212edf0b368
GIT binary patch
literal 7808
zcmcIpU2GfImA=E_@Mk#u6-oWtrhZ(TiA~wA?KHI$$F&s4v7@AG2U#l(1{7x`Q6Bze
zW@KA5)i{NLQjP;z*li^Pi?zBhwcr#rurGb+gH!BVU&OemndugA(OqEkMp?>k)2BV>
z&XA%c$}Sezfq3q{=l-92?m6eX`mNW?6ZjPSC+S~A3HdV?Y9D81R<n?qClZkug=Cmv
z8-sb9!e;ElcA94uZkPiet2k(CSDYEwu#47liaWy(^9-?((?oLIAd>UG%^Z2yLwPRX
zxn<9N*5V3NY@GiJ3vtG9otHnHl(Q)r^Ka+%bS|4zhM>T|Gx++2H)JI*t59l9Yhpf~
z6*F=sr%s8<%gMBo98u(yIi^WNR$=v@8QhReh8c+r+azX~brUy{+9g)DOLm!)IQTha
z$Aqu3yP21q+wfi6@NESr!40}3GsjD|(SYQ+!412m4oSFSALeC`#LL{MP4eEb-?ye5
z7V2DI1J_HrK4|N2;QH%r0}b4O9E4qU(p?4Rko4>o@)8+!Nue8DeFZHI{aZjHVfdkR
zBCylFO(YWq{tH|A6Z^LEq*fTGCJzGgXlt0ab;=g+G6Lsve|Pd+a!OX;lhb44x>h)b
zoY)n!6dTQ{v1Cla2C-Bwlh0|g6w8gq^eefTlDiU9li5qLOj1|VS7j|RWOy<;X;P8J
zY%(JocC0mcC8s9Eq>>*`8V)mWr6WdA&Wy;Cl+KQ6qAq8(oN73=R8j$k;ZS9LQq87Z
z4I4w9Mh#xQ2V|ZUnIaME)kPbWK<Uh{$U@1w1B4XqP_lF%N*t8z^_C7O)$SoFI<N04
zl8Jh4trhel6ZP@dxdji_h>jX(3P#viUSfvgPSp(!RI~#sbRepL#ES&gU-bity9~P~
zE2DoyQw@a@v%bH+(ywRo{rPl$zn)abWPShD$(LUK&ZU>+ekDE9pP$mlbJ_mOijwI^
z@lzsN2b{=H87@&wXVbbU7TPy!L!wp{g!#00fLtflFzMP;vj5K2RtdM2?6=&Njy_2I
zm1q|vo?6m<2;1y@;t7>bR62LvJ#pv6y$ip*xOB1Hd9*a}>A5GJJ(#S*m?Tv{H7MXI
z(KFT|17}PoAl>{)%q6%SDxCOvXmOQkb~4R-7QjHIZ0mX=ZPXzcZ^>3Tf<`ctF32%`
zT#nHjF)|g)$m$qqCgoXL8cSz&ya}M;BZ;qY8*v*wOnSCUjM@S$4f!!O4AgMttdW}t
zyH>Ra`y2#vojmdQXOGVuUpV-Mr>oM^S~^>C3A3J?p4<9-ajsZ)^?vH9wBjiU6@N>~
zqk?<cD9!qfISe)1Nwb;sB&HpDoQM4kshER(q0SndHl74`&;j|zeYw-w{G={Q=}e(x
zix$=E`k~iqD-hV3zh(B?%(ch<SlJ(243_=9%dX!4hxISP`cVk5etO+@Kz_^W`P`&l
zTYl%3<*!$M8$0hpvPICqG}RU@$2^&0Kya@wZJo-EPBfXiBumW%RjYdm2GP(ap`gNB
zXR9A8-pTEb_2c&DSKwL4Eivbb+6{w(yr^YrDzAWiRR@*7oJ%D~L=Emqp?izeHa9tj
zTRK3uRCSO8hadM3miq^n`@dfrcr5gkg`UU4-m<XwUa%~@SY>T)zVhDR)0FPs@Z{xD
zT^y&eND5_K`_Qmbdoc`|d5D0D=of6wtOjtKSa67`2zU!yGn;=O!V3IAC>YqpS%Xoj
z0XN#vpo;Y7Ted(PO{Vmm8n+v4O3_R!4o1qf@ER@|4Yp|pJfmtZBc^iM(ezlMYm4j}
zYEMEx?I@7zWF<fXEft{^{$}5rc?%L#a1|jy|8`K$fwFL5)$a=MRpN5<RCwx6Tt*KN
zgOl{Bylglm`EoiX8<8yz7_aaKpNp=B%J;93nI}3LGx`-B_pQ8Xjju8)M4&phrC%+?
znRe-Q?>bTUleJdVH`~T+;FBFi*Jrl-*4a+GpVNyi+MD#^i%zwpp(n0>(<iaup=+~Q
zE6YNVIt`IB)g1^=i|!&{^nAwMx7G`G&@lw(nxBlbY61pS(UckddN}+Q_3hMBa@+d(
zIA^e$uBtey!GW@*#tp6@t2vDZOHy1=F^)5Jr+#SWaP?VLyhJKBMH{0C4U4E_wa?VG
z_LM3oby<`qGnpw<V=eDrcwvj?ZQJ%djII3(kn3bEN}}xx(SLY<aj+bTe-SzTyTst5
z#OV_M@4@JN=UivS8@&DUvan<E-3Lb>POP!E5MOevIY_A0tZiKgFAF;t<p-}nELgQG
zZ6vUJ%}>0c**9n2tOP=p!0t-4v(mbw(z*L<kHhP$21qDcZ6WTCm8f+Mf)Vh2m6mq=
z+u6V7b)wEYEu9DRI|Mc?fU-g*Fz;_0MmrdsilV`bq7|)*h9HU`P9_zr#wm(YE+vZU
z5$I^J;Nw-ifrjIP8KZKeN)BS)2oBqc6|TIR1E;7@HQY4&NG_+SyRi*Abi<QUlA4y0
zAsUlZR6BJ)5<FH=1-O)&;TWK|QhgaK`jDWTp{Ho>0XKqHS^GKMyc^_8`(QOh4jrw;
z`c{HruJ=i#t;#_P_SGM%Ix*)Wz;k1cCvZB#oKW>(NvM^)Sn`ps?z_kD9KY9B?o3qu
z$O3W0In8xdabTE*_pP=-Zgro73qz&DSG6%*-@><_5=d6r8Uv=TRh`<dDzb1Gt0MJY
z5vv!=@r%7r2_#k(<Y3*7Ado{xSKNM%r(1*+dPHMYC+1um7LSdfIp6iv134TgShXRq
z2Xi5^|KLin&l(3(7$@9Xbz;sG73O#pp9gaS2}CeVsd};GL!o)*JdXoC<v>r>kGueh
z^)6nxQ>fyoD5tKcEs&!Vuh<}Go*|xG3V!tuBYyl=1vttdgJIo>l%-GuPIlCA9GVxz
z%(8O=6?@ZXVm;ah@bh!q08*9Rw6%qv0W<qbWR#Kk8(xZ+J+dHsB>~&ec5Xng_6_*i
zC$&g`oQM5#0MIw0>qf*JtaBR?bBJ<Vplz@LM~6!g#t%op(1wlZJ2XJrY@7-&A}2P9
z7!-l28Ah4tREzDE#}cs*FI^VlE>6S~L+dcg@R+a@A*j}XyzmI9fk;_ip31WxPuzpz
zPZ;ocl#OJ@RV1In)y4P%aDyGah(y3=S^XJ|BN|bs<NAIG!7Ptf9|kf5WY(FojR6w*
z0HD>h6ER~m--zgP&UUNC4lSWo18SWjQ@~>={|W>qR+Re;ph>rj)&sl{r%i&rGA-B}
zz%pG7wurkaW?7e>O6%7>4IKtCtl<_#YSTnfL!s5Y&UMpZp>-_mYJQS+T=_$2q)h_(
z3%HdKar<VRWdN3Ky_H7e9`3B{gzHA!?Q0m*z%8pGP(+t-g?slr?m6^D&!JV0?ehJp
z=g{ppt1Jn2E?l^K@y^9Zfp1lM4y|AnB2K6gI=^{pgCdQve;GaLw;LR)h(@h!sxd~y
zjne4He9l^rekA4w=)nM~MLD%tXxfI{4`BDxY>~ar+;SAziF!-~qgh|AA46`n+DY^1
zbJ`C4CK1y#M<W#uG!W*RWi3sD2o>l2Sb!PP-fa3H#<77eg{dyF+xEmbX4CgK_Cy`o
z^gW{|tdOqOCb3p4-dx#d_FB|6?I=3V*R-6y@|;|pD}0RV7J~<?w5H=T71|5U#OTSG
z2H0IO(R_mEYub9oY!ypuv7ua6-WN;j&~hxB9!<*{K>eg{;{C}HGgyd8IpAk=dTcy-
zS%$fAjzoR94Nn=UNEoNBehbK1!ce640o;{orpQp$V1CNXGoS(<J6z{quvZuwrcmD>
zw;8s?0mDue6Gy6H2lw$YIV)eytFIOk+gvZSjEUn4z%xaAHBoPW7e>)Ar1&qqZ_Dk2
zOGg$DKNu(<9{8uer6b?aSEV00gUn6%S*V{epQfCK9j4T2v}4)|yz!f!vf!0#A9BwD
zG5FE6s_8V`RNp}^jgPUH!RAILG&Gsk8JJ<J9T#2be8!IEp^LT#1Z+isL_5m3fk*9w
zk0OI5{tw~y(f~e!6f1!?fJ2CoK7G6DB#{pA?17Hik7hn9*(=f5<LJI}bYIEyr7uXa
zRN%|g=N<`feLndsebK%gJ5ahXE8Y|zNM-MLA5NBqx4t~}#v|d(=SO~Zcwu0<Yadj<
zfAjqZeP!>_heyi7ndelmILMA3FiR2NpSrql4}kHBb}UDB&oTE7mjnHku5PeP5#O4Z
z_wyyTiji%J|K@3sc!!v84B-s@fvt-8v^LoI=ib)u9TPr(q4gB;{l?jPiVOUv&wGjw
zZO}S27}R9_H)I+C+d4FB?v!dKtd@cqdyndBQ`c0a4@4&P)BMdxG~0lt@7}Kds_m)`
zV~ghQ&+Jd1?7+w!hj#c}*UTgq8LYi^5lkt9brco=aSmRf$7F+5<gEGnLp_|0dN_kg
zYYo?ms`j@2s`fPZuQ0AQ4&*xdk6`p4wS~iXkKH-;sCCcpgL_LSLH%ZnGsT6IGaoH>
zf8p<4)PH{MXV)Ga{Miqe_q<}M<=L6D3(O}&3({TXj&kqdom^Si|H)8g=dRMg?75k9
z3&ERjSKTBOhafZ%e&&lFUgXB(t$CCmnMP!ZF<ORl`k72#ku!2um!&~f&8eH;z9?cT
z#J0J1^_RO}!(^-I3}NHG?nl1oyw*KuZR-0l(w3F<0JG4&%}UlE;T~e&50Kz28&n_4
zrs`wJWj(@OFp<=z2TKafw%>N`9q!*?occRliy6w(had}Co`(8(RQ)a_Dn4+jsD<h)
zNRA+R6$qGca7PqDswa^78WIeT)KfqV|7kGiYC2W>C!C6lSKmc~;8Hz_Wc@MVdsswR
zX?U&pD<vz6D8?D}EO6<g>}zHShO1MNT*C?{0FA#OXgmS|)Seet{H>gi!YN20hC;-M
zITu){h2BN`ofpcH-BmZT06Io)zdQefxgRVJlp}k~fq2z}d;pP~`CjDv0IJ`X=Q<bk
za<I3G^8ifZeP0JLcZedgcCMuo?p=IidH;!W-)rUY$tnx1C+_a29HbU(!`x9P;LT7S
zRQ_M^X4u4=VG1hO0JfSBs#G#@ui;PS6!<45{?}7WBu7#z8c#I|#BcyEhp53kk)z1*
z&_|nuiPt0e2ADtxooINSq~P9Yr*)HhTG0}DC8+~o$%wQ_Uw=$IPY<XMr$bdX{h;f(
z8ECw!qMd;=BO0nwm1P*_YZqa@^GDM8XCnN8g#MH4`y+Yfe;gAG!><seYs2hWh6yk4
M*#9-b3?24=0iz#-j{pDw

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/models.cpython-312.pyc b/lora/__pycache__/models.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8ae8660a5de9deb308b76b79fa2f27a50af81ef5
GIT binary patch
literal 39871
zcmch=33OZ6nI`zK5(Gd3BmffJ!JXg&ZlWkri$zJ+zSy#2yBIqRMSwCXkdz-l$z;Hk
z%W)@U#wk;kN{Q}HVydUkm~OjHls<h<=+oU3rP5t-pIHh|qyqSbo+zh0Q<FY3bs$q|
zr(AQU=lkzlu<%h%Ts3_qUfg%z-IxFV+x_4FR8U~$;KIiLZu}p<$#H)}4~i?216y@^
zj=RYPxu7o04N1ScAswFeVg00G$e^P*L)bWJ8Zxo4E^HpkW9cnJ`Rvy^WW}#BY@M_X
z*;pD=*gjb>RKUXKaN(q5$ic#SVdrGgP|;-ZQ1PT|$i?C;VfUnG$TL|oRKlL~!=;nn
zAukJC!)24@L**=N3s+254pmN84OLB64^>ar4Ao5fhJ2H?L$#B2Lv<{TJzPK8Fx0@p
z1>wfYrlF?E=AmZxTo`Vd^bh%2*b#1>Y#VB0VQ08~vSX-YGB6Zi&qd+R$*!R;7A_8V
zPxcJ;=r}zWa)f%{(Mh8=v<uIspi6!3({snUp!-!W=m~X&c8B`L^kqo;jzLb}ALK^%
z1WR7!hW4_QrAX<02P02zXn@6)A+B7F+sEQ65LX%M4-I6Mwx7ML!n^9wKDCYmp?zbz
zU`@z25tGWz^n<?8?qDtc>hM<|DhM`&tP@|&Od*AXjiE!KeN<bp3FSG1&99n<24{8t
zmS0nXbAFv@IWiIsk6a3e5YD?edo}d*2#=tCY6`yf%=Cr9Bhyo3<CpPd8=o4F4u_{N
zUk>qpgIIKUBoaC^G8^Kb8IQg|DMjb8nMf#jcKUHO#zygHN3LESpStYVi%xo!@`T1O
zzYvXxB~OfuUI_(r<Eio|9zS;RL@0a}wdus-%c1D-)tRaB(UIZnJPJf?o@gE8rzeNQ
z)CjR69i~Q(M<c^m`RUP6Br?s5<&-@#bM@*p9}NZZo*x;WoDR-}LlLobJTlCOE{9$k
zj*jq@PI*y&b%c+EhR4RILc`ISDJ9?3$Ye;YmdhT#%G$5w8J?8-Di-mftKpH+5GuVS
zm4{9^FNUVjn(?_1FORBTv_B=aD#Aw4CATp$JUJ7Njw9ztm@=Y?SEr}L7)7cnL~(^@
zDaBcOIvtvgU~~(gc;f7MB!Wb2h{b|uq(P?fXM<=tbKwg|Mn+$t$);XoR)!}-lhgd{
z@W{21akdUb-NjL9^+>*1e%LyPz&8L~LL32<A$?F6G6eM@W5{q>7cxm(WX!n0Vc8m9
zwGWwtcoQ^*@`C2MJdTs!<l&8FfqO|el>Zdxw}_6x;K<czh*ugWT1H1OqT|t7u^<>4
z8I6u#8;N2Hrbgw>$67;S`rGP(_Z{6$F3O_GTQtPDZ<#nQrc<`Fj*IDI+_1boIc}DF
zTXzoY*My<Qvat*gvvobp*CV^%C>kT7@EBi*2Nomd4-b!qM<S8o;fN8DKA-R9Py0Kg
zlUF;hj$iGNmQ2S>GyQw_T<H&WhQ}{;UY(7;Fg?|IEgYWgq?OjmrYsV;I?FesggI|c
zrvpk8+VD2wh4<T+xlK#KVxC~}E_*jDb;+vM1>-$S`4--BqTxztRy1833D1PiWsM89
zkBtkDK=!yyP<)OH>M%<3xL}mH35;8=%N)n3vKFLK#-S6_#q>%Em{0w=xrz%|PuH*n
zeIwG$`o^cCzVYCIuQBL1iDn6Wh^AoZ(#&Nxz<d+x6s^P4Q`m*b8}b|Z7DVyw<aLne
zho=rc-%3&4@aD?54WwE~CuO1K!G^N%b^D?{?&-OGWW%y2X|X3P<$|Srxp%`-v*~az
zUKbp-EA=Zg>yD1NrGuww@LOqR&{iKFM&soDjj(-q_{Eu#u>8h=-tjcFqIvq#L})b1
zW|*%*3~QoTAg`X$P&hn1{I*W&3!OZNq>j{5Qu3%<kpu94`zn{x>rHJdt`vu#+t02=
z)<SolUYiv9&isaAQWk?LusoXL@UvRG8hpFu6AC^ck2Ri^H;STEN3+aUh7W<v{Sws8
z6>!{0#twRlds~0**VIBl3CHm9Gv^Nvo*6!K{=(q!$)j&`QU%ml(MG_Mfzt6He-JTy
z@E0kD_cHg9(Y5rVVD!Fxe$!SSH<q((SxqWOI&xc|qOMG^GQ_}2&=4{LgqT9+P@V)_
zf~KH(%o5Cd)i`7!z=LOim7oRB`5`Mnjd4sL%zxGRj#Mr;WD8nD=1dS2v>~lMXlJnn
z$XkHt!jL1M%lsFtW~Dn=-OdSu1UXJ_k26#pEJ9huA?E}w;v6RdzM$(f%V7XA=thsE
zkcZ_k%e6>xB_Vgn%uaIYxisXFQ`0Dv1ii1C)P9$Q96@ui5P#`^W#6>~%hA>fwH#_a
zjiOZEXZPdtwyzSnl~f0{)ElgN)vUI(bk^*z5%U?6KnEE>qmLeZbmn%jGuOv}XFx1a
z&g@WlcswW?`H`tBqKP6SqL~jxXZWdeqXYmIN6Vcp`7a}IlRy<Wth~chP<Q1hR;&9I
zaASZz^-VhPFSzgNm6pB&K!^OaE0~Mnn8`R&41VL>kE}Qvm>c9TM+Vd<ippyHfbZf9
zAp(oQIe36Z-`F(oiz13r$=%J$O<f(3-cm4-^^%Ri0A&L*<0G)->p1AUE}i_WXiCu`
zqa#5dLzW@|t6B(8uwgDR;=_T0#;``<H}b;tOgQMf6!Kl>LpXz}i6c|Ku6Ez$>8Otm
zP(612VdUkHz*B(sAVsLL3efgRu#TO6#p-OU=N@H>5CD0ZOO<mj--7YAy!(#I<rnWd
ze1L)Z)@0%SwTnM~=DlauPR8xWwhV}h<CU57lp$??vZsH+_${jhW2ifdqXUbrfhh#A
z2Dk}z29+f25aT8?bIGreI&(eAu@gXMa-FhD-qk7iI~|5|U%bGUrEkPHI(>E4H$BE?
zSvn_t*MT(qg5zUjAwI-T$jmu;W;`6m42<w0mStut7~;dTbgD)f1{n$X_32T@*wYD_
zju4GhA(F6jl#MR+&nHcTXc`SqPle_j>4{(wPa_FCGBFDl&gp*rtBYSv+RKtfo||Pi
z%96z;H(PJC-t4^5xn5kK%Hy2XTb$8pO>xG2dE_(4mQV>c@`Q@8k;iYY<6EPYhPj~b
zRhl2=G2>SYEm21ND5r$pk!ybn`x&EeI5(Qv9O`~A{<e0(JI(1>lb&~S+&pj~txEq)
zcT=b1UMn^NU;GQhbsgV`j5rXTp_ihd9j;A}j$9g!0Fwvatq*jGMz#+#M>&80<<L~<
zrK|kGxsLQm=VlM=52L7X<X}KeK8l(m1nU1!LSEvIV?xj4s|`!WgtPIUvk?z}&$iVo
zC0-rdyM6=Pfudn@<R#I}(83514VwE1je)%R&LB8fzH>{yOzHdKDbqjq&AEpLuD~fc
zj@@qfQR@#|6Fo<So+BGQkFPt9t=o^K448TB!D3e`Pgw(^O#(y=a~jRuRJ4`Yf*3$x
zrv;&fr4p#l#4+dUkB6f2DFMJa;=4S4Ei|P7z)Q0X2A;#>KZ1%x18|hL<&E$ZA|jbn
zWKj^9xeTDB#JxbNOX0oD-FLWNpIe-x4Y7P>b=SJ1D{kpx&_>LsdEee!s)hBo8Ug9>
z(OPBKxTiRIWl2y}Zt1gBcV<f+AlgQ+NXQn!__?z5MCQB-Q(j^Sz04&Y-sPijo_ga{
z+|d-bG)XNsj?M%}#5@_0h_<VtvFPv%jLsI#!O*qw(Gbw{C|CiaH8goC6bu6HL`1Jl
z9IH{FeAz3pC><qDenc!wN6D!a0$D7Sk0wSbhxkz&TB<k;0&LX&4*oYhz*E&d95X5#
z90xa+_Dee6s^ik&LjeQxwsCIW9@9S>Xe{ZTe~sgw!wAn8%oj#gkRB_DS(UX$Z@=l8
zcPx5h_G>ym7}U=@V`lzX%<{7S6!(fQny)l_!NX`?OU#l6M?sY?nlFkK@oh14%n~c2
zT}^)znZ1^ai5X+2ca2KzsLRGXW6lX+=ebVpt263Q-c10O<vO(75OXR=Qp~>S*^eYK
z2Y)nH_}ML>^wid2wVyFtMEBbFmG}ul^mE*!TC3zsm-pI#_`TX;RVs_+%QHZ`lQ}j6
zrdKVo{PYYc>xG|;<^9nWrS=K8k|+H;UmVMe6;BZ1o#TQG<-YP9?M9mON2i-Z3+G)?
zg|Oi!Dszg%;{*YO95+#$6M@HAv4p(GTx05*Q2H>O9tm4SzodKZ1?7!a?|!E_QA<Q=
zuN%3TeWHGQo0N5TlzSd?KktsYC+JknaY`zjo^B&ptuaEq4O#?J%&x3W9N2ktT}K$A
z=^J6d{VdS~KH}*iA~+6C(Dc*@FJVzK4kQ{zug+wj^MD)DIp2=JcXaAWkNrj`{i6OF
z&cxR&F`azA7i699JdxixPS4^;)Lr4(fk8!r=ObaT=kYKXNW)%<=SW9@f|zYT&%cR0
zkqUUfl@4_8DWRcn`Ng%OwJUe`p8ReRp8h^Upzmw>Zr!)?+&Y|HU&13#<VqG6qxO!d
z&5Yh5v(h`cU)G)bWu)`tpQvl!M>`m*B6qFyg0Sbw+s0+%ifzN&hOmUHe66rZMpfLR
zArj?z+61C$JQ|ve@Gc4)fhk2reRNv1rkRpFW(`~hHpZij3r+kZjP;28dr35mOo0^!
zOc|$@DLT!MzQ7aa3C8ful(b~Rq5($`|0Km)rmuph3ZzX0AEpG$Cmi7i@q)(&=lJKz
zQwN^^GChuvcZs}F@`B_|lXnE3Xp<(L9si<PdJyx$Se08@!hY4WFd{FKj1v=lUPid_
zgeHp?I#Fq%^TceG=BNZApO!nsR-{<8Z3)g*JYs!bMRAc*9BsdSnR{5xm6R=)eEW+l
zj|(3EUC;52z~k$I;|tbgN9TemS>O8Bfm;XOdQ7m_ESz30*=&3)>8x1(5~#1HLcv~#
zxH4dW&We>r!O@)bcf_4dAGoTL747kgJ#qIQ_?s>5zhJ9<-Fxc&qsZtliMtygm^rUM
z*}X4W*%1#sCR84JV9@uJ|805Y8+9wkZZ|I1t(WgfnYgk}B&=*o_MJ}jJuUP-z25h1
zys~Gru`kg$C^QZx-8Cx}@c@<DRJ>$bx*|C19)N5qOSbp?;N;sU*PedAZ}sGQ`;+p!
z4X0m3>$>`GUlF<vC%R4wT_+P=7lp2i>s?PTJ-*x~xSQ^|JMQn8J6YNlFWnz^?uY-8
zyL6qcb@&_Z3rTNR+`IpNRo%)yp{g@cwOgp#y>u*D(R=&ak77TJ-5LDhAKtAv7Iz<u
zR~$>$^shDjxc$BMJ1@T1Db$=?I<eW+_an;>Es3rpLf4T**Kwiic+y+FQnWI-^5SYs
z+}DdPc9+Oa+;DennK^g$qdW3*cSq{Hj%(;mUC?o!@|$OFocXhJ3rCZ7=j&$|&wlHC
z%D{Q*F}zOK(t(w>w>oZh-1e+H`s0><h9mkd(zZx%2913nmPiYpq#47~_8cZSEn3*B
z503Mq2jmZUqKe=|#t!*cum)9D4FNto{s^{h{VNdc-_U(S{|)OmDl@s1TI9JFhPRkO
zE6m%|Qi0zie;RKq_+0r7Dh5~hx$>*0{k-FI<u|GIJAnxoUFN=788oLk_hb46{eo_x
za={ArC!{gJeQbO*XbI+%P<S3f+^C9i2Fu2|nC;JXf2^B#|Nd<Oc2I~p&2d2$zXq1>
zo*+6U$0_*3ya%|0D`p37Z9_^8Y;#-}^Jrl_ti?shT^uV?us|KRq??L;MlV!+GTkKL
zC_3qhf11WJN+>aN6Dppk!~kmpbNSr@Wd{1V`4ZNO5~U1CSxP3V(&?3u(q~{+fcNvI
zNJS!q92YB9%83=lO84XKYhEK**I@PHpHeI9Y2N4PX@OFDq~>$vE>v>!|CYuH7@sev
z`FNc7M(dT>m^a#>gq5~O3^DIz-MlyE#Yg~!!$_1)5Z5rr1szIlK_^Yfd|9jvxSbBT
zUFBls1aZT1Tzc$)mj;a7VkO@eZBr6yw{}s51rblQLrEJfTGaguE?B&%hwoafgzx@d
zp3)xBg-SwArs9Ow8dFD}*T)K`bg{zu@+b+gn49QQLh0XFdCU~_yj!B+&+|o7h3OWu
z_LYKpEw9{Hbiu;;iqFw5b(F#URjH$iK)M}DXo7faIWDH=p0Akd{~WbDmG<-A&lnA7
z&S+GCk=U2h96ZL1FI%JiO1!e?Fy2P&Cqv8x8odG(9;nDg>$~1}WSZzHuAb`#)o@*}
z<Ng4gL#&_GmkfWvUDx@`NA>`d+L>%&tUVv&&s?1b!#{)TzJrVar=}zxkg{GK0h1Vf
z_o(lMk%+{a4~|4fvLyhThwOmw9Ek$JbCyqCsTkrYE9rgFX|VULxwxe&DF7>tPV(%^
zGPp$ppwmWzAz5S~VE{Ay2;r}gZa}Cp$->$B8E$|kF)0p}aA8mqc|Z^n@SPm<O+mWA
zIC|~Ak(uZ;l>z=}c-9vI*YDEow&sHW7oNT}5(bZb1|k(cyE=)VHQ+nS_*%Z}FM!+5
zSnAXcrD7Uc>PSvjVu20#7$;2O-Dl*I*;pA<DslUBBtP;Hv3{PVZl^1mE0aa!l1fJ)
zGBOsDsmQsa>{pk@r{<j5QCFjL<x`>S!)fXwtAOI1cPK&3lb1pkO-bAxBEhzxFU5Vw
z_zlBOViIM)05XpQ;_A}8H_+923Iu0dGs8TzLt?sX9Itz=G^k%RAk-Ws!i>2EgTyae
zG-_~bbgy+Snze*1iv|TAU<V#vG)$;`DWzPfIi<OTCOQ`ujqFVLgWsXVD>xI(yeDc?
zN(-77O@Qrri$?gCMKk>TOgKLa9f5PA^%At8Bn_lFOMtc(AB|)Uun`3kc-%S!FN0|J
z&>$}AwIxzYS7ma(G>e>v7{U^o3PwnTq;M+?q417G{l#tcAa>Mn23S&g77{BNs!j^t
zF0U93DaEhQn@BA@iS&n<uBPOJ0~c<OF542`cEQ`e`c%T(EgZNYvj8fpb)qit>;DS(
zY2h<3j6+ySyN+a9pH{VJ041h_r9!RoDc`4szDqMvA0HYGfzu!KeY!i~dm<ddxcjb!
z`0=q>3A9NPR0fa~s6rCa@dzLTkIYfOSu{d(M&dZ|5j0&ilV;RZ5FCW7;qj<weVTM?
z9_RUK9wgA$DTPe|SSU->4KtdYe-&@|uhHw`?PJB51dN{p$a?5yIEhgA?lib_ga7FH
zNun*0zl8VqVEWfIy%~EW_WiFe**0tUt(|_qdcF498-+`@<tIU|yM3ThU4f*#^1iET
zr9yDEZ&pB%Crus*&6*OZm{gV^Wmy}|pSSyV+dc2Wq{o-=Gzp%jmB_lMZS}C=>5TWE
zx$8NTbT=j39fG@K^~yc>K&pcC1s+s$&brMKU$UfO<=K@}DNfhfnrwY6?mvW>cw>LO
zVGrW=p3$XD2G3dDmcdk7oZ?JH#h^-^b&LR&<XX`ByU195M?(=zG{n;&HRn9pa8QPr
zj9Dh?uST&s^2d0beb=Y?E9ZEy`8obu<oz*uuamb#-VJycA-uCgV-NhAQFc~|c11cd
zJr$mv^ZJ6*p~zHo6ia9-I)b$**XFl=4!#j%E>?>A>4<2ggIzRE04WfSjA*t>B~uUi
ze@^WqzK>X#js<NEHAW(|!9bfCjmo?vMtx(;M5F;I393WIIy8LcI=vLl<B>6JInkDJ
z$cXv$Fg%SN!2b!=W+l;=R3mC;`%o3zSjVAP7>SNdK{{j%kE0ELO0E1hc|@A=-yv@X
z9*IInf+QFl2|{-gVCj$O)j@dvDt?Z_v~{FS#CUFl^!P|#17jJ8PPP}N215FT5iDjg
zINMl7Qd|*>yBf`i$~h?IK1#_evk%JQtimM5;2YFFniR1pV?HE=M|5OFv7y$DiDn6G
z@^oa1`OqSbN-V-c)-)OuRyY4;DtH-QglIzFm%l9IV#=@lh##5R=aHFx+3<U=<}(1u
z52%WIa9I8UOuvI%W%Zl=Z}h*p|Bd~tmUz$E^@?+Gi+8iC=FMl`c;?OL-gpj7r(MU_
zt4_o%<(o)*{Eg#po_XWUsyE*I_<H5BxTS2fvH7iMZawqXbGM#L+THPz9%8~-<CeOI
zX0E06t?Re0zZJU`yL}>l@WOiYQ*lc}vaMqwFS%<sN=z9`@{8XMe!}4=Mc#uh&R+MS
zz3(Gmm*6`U?>$Mry=t?j_RZ^WTqjVLbk-)EU4pYK-g6Q)`3mFqN&u*uu0-`Iq59N%
z^_hk9AC$BtoxTSKV`<_2lIBE7hfvayGT{jcU3H1#JwoxG2YGm2IR3!O6*R6q^K*O0
zM+J`8pILn7^)D@cDPGyWQP7bp<mwvY_Ug@|%0y9<P}CG}?!U9^UeSs72Y=;kSuNUd
zwk4};-W+>l?E5c(!PnIMR`^!<_U`qjfu-Zi$NuE}0|Qsn{7D{Hd{QSAop@;F3Z3Z+
z0viRL|EA|h{Xgvg(ZL@cj30h#qxT|O$0|%#wIr(gg{uCAbDOTJ<*9dr8?N4DU01xe
zd#Ugj<t<BQq^zoE^Wa*q>{z`dRCX`rCta2ChP`)Pd(&We?4G+XW#cOR58QyJ8?A$2
z+9sT>g0nT=KKRg}Z!5$kmDc{=!1<w*bC=xgztMm5;EjXvx?LNtKJ>Pz{=TOP${+<5
z=xk}_&50WmE7fab@u!~ID0z1A_(#Q+E0*QCxPLHSb$Gq_NZfwpK2&zBo3?`2`xpCP
zKe%`>UcPI?*0)*KkSJ>v%32d;yM(e`@xJrxWlt=g+RU7wJsSmkH_NKuEPtas>1<!y
z9e?5?`cq!GaEjDbTnR^m;J`}T6K^~8-L~&`+?h<eE0W&&qzk$$rAc(T@j$Y=GuiZ5
zvcjM8aL&dp&PMtxwtVX+BRZP1c+rVZBgBmSk4-&i^9}z?zUgdno<EQOBBIVQ=lAkG
zc;E@4<9ERm^M;3m)1$+~JQ1Ayza;Mpd4xww%Ah9^5-rddC){wBKSM8`p*Z6usC4r~
z6tpoF<H-;dhl3InHD6>$A5Yvk2HW|+pim`w450p73elM&otUi@I;406Z6kz>zsh}J
ztV<bPrakvd%Tp%&Vj($-Q+X63EuW<$@iKqh?H3%aseFpGa@N8v8--deChJOXio?(9
zzAgGmxjA!TN^e4Z{l^@BwhT%{s!(t0UO7T4tKIST{cBO7{Rr?1Q+LXuGc~V5mlZ#^
z-COj7ip@nSJ6BqjY-maL?M-&}CVTsny9W?>P`Y1kD}K?|;*zD&<vs#d@sehts3nz0
z@fNPcm&&J*l`C?mY!tF{PS5LKS^UcKMX2+p3Mi@&3S!Hy<<OhqH^OnOFL&E&P;mF8
z9Q4x3)i<pgZ?&e1=&6{i^sN|Ho?5ZIad7phP|=lgQM8+DXjwJf+PfMR>U&cjiYnpC
zkPjGcikh18a#qjBWeCw&6s7bO7t>L&kZbfOODd_4868XpdOohWpf_3X7kg4B3ZR$1
zhLt04%%<|#qtrPTv~%8y<%>7wQU&a>kUHyNL1$KPi&$K-(jympbZ_gDhsBp<^{JG_
zdDTvpvFCEGws9qT%a&qIO;u7StLP2u<pVthrG-apZWMp2qYXrE>mwcMzNGI9sEWNN
zQtX9dE)+wdlA0IF)6!lTvrDSI!F;-15VS&7*BY|PPf+Bg!<F2SU5&M8#1^QrQ1VsN
zf=`NC^Ft1Bza1#iNzW+ViEt5=d5aM)M%a~+&V^?;)N?(-{GbQ<O7L6~EXDPoQmEZ>
zL*8Ins4Q3>tiZcUyekJswv*+rLS5CNiV)t*%Df)B3xWEJp~zf=%Q%&k7j^oOuZoo;
zwXGJ<)wteMCf8Yy=Neq|DVCob@$6&IRCj);HpogIGY6aSrY_j5_Ob=f^+7-7WW8?1
zb3;aN+VI?%k-i<zO-Ne-C1i{SQPF5$2V$G$RK;>##$W)kEwdhfmvpg*@i)$nOpQRV
zb*>+L9VsZ0XVOE&$L_UU1z|=wOGmDrZzLd^fINl5gqOcGJT)^p90|RMYeLG?rI9G;
zsNisP`U>EqXiY2P$)uWumN9g4RMqQ2Csb9?G2lUxMpjxK7;=sb<zDs#*eN-1GPq&n
zksP>$+%S>!%z<Ob4Xb<&rXo!BNbfi;`3E?YP9;V9H?3h3bt$o0l8qQt<L7X)DC_||
zp?0)^P8;TexQ(M-hn!N`o#2KdADu4DMF|6Cj#Qf`)Kp3=)iR-KiDbo+1TV*FX}LhR
zNgg-UtByg2JU~<VQ|T%4s1hKwq#>t5JVx@M%B?EFgXfL8nb@9;)6ztlXxW~Sct77W
zKpxhnywff(qlHAXF_-37KROSz*l<lU+O6c%P93x;+%=2>ZAj*#gm5sYohzeV<w{Dn
zvPl(%Irc;d1#>}CX-}^LZh~-&9H+ohx-Fz#>#!=fnl<?IM}CYWU^{<Yh7rDzsi1mI
zh?L+nbUBGpYE|f;!EFll3`PtvPA&^dyllC!97e7JItY-+Sw>zOpPZTW0lZv-Vmp}R
zcsCOQZ43Cs^o~ZM>dwy)AKN#gHbZF+-LL}yW1uL_&ZW0XRoPH#r%ELlmR;kv%BTgt
zooh_PKdBb>jP!Gi_fI@A)}icXGBQ*Glu|CnFq0x=4t_d=Xr#Blrd>{2|2FEQ)V~OW
zvSL2PP?3?jx^vS$^_Hc|+^1WXxQPHQc8sT}^D(B3SV-K4$w}qLq~FK?6jg|Bx{C?^
z0vPqdVVTtv5uL;AE?_7fV^`Qf#HQzehO80`;XhEQj!Lq!Zbrh>xMpgE903d$a1g`%
zf25ZZFJT;t^|<yqjT<HWUr|PqSo8lgB`D0kY|0l=WQp22NyP_aOP!O{?-^m>X34ZK
zh4Lgr6Z0U-8Hq-D@M7efpBM$6wl(U^x=bo@APc}<j$owZi>2=2QKlxB)d11X`YIo|
zpjZf=vGL^Dcu<$64ypqcp~F#L(HXZh(t5@6CRHzKoWNF&%)x_xcnjCy$Hfb4a$x_0
zal=x3zq^-ytCE#<^jns!Xrf;)uwNvzB`aH`Xy{STFV3$R-*Vh?+;w!uEuC>k=Vnvu
zTjRIJ<6XzzFA};=tv8*1e?(|HPdVyA7Tj)H+x6qe-g`{wIYm)b$?^u2>Da99O4{p^
z-pYj6FF>EjReE#ZjeW_I@<d6KP|}nr=@Lr19_E{Btdy(bVIkK%sJr9-S@}=O*PG5r
zg*!krw%&EL#w}08+n-p6?`Tb0Z3{<VKec!&VfP7kU&8Je?Ebi|b+uNow13oe^v=bf
z4gF+jz3B;71Ze33ANpgxWnH(oeasmOb|b3DyKH>Z`i3>$uxs7fm%`<;0u07OJ6GF%
z+x?^RAC|BC*tk`JCBj;l?860?*X;MZ`{=Qp-B3h*wKM{C7|PeJi`ILV8VTV(iiyjT
zFc5M=e_QSFvXrJZMbOH@ps1efMMD@Yz`sUj{sO#=O9MpR;@$A@oL6NrrPl>}^EFx)
zgtXwws-t*mSHjf}rgFwj%B-d$vD8!&BJX$$K*ha~NOo#t*;W?|2<AZhQ-V9W&1U;Q
zLq%R`vU0ch>(pl2sZ6y$;iwTDH3>(DkiP!;|3{-4T-nytyJ$v+#-7sDH0=7OW@ACG
z`{NcrTM^ogr9*$G5mrW1$5ZvWZ4wI<*vf$CT=llO&wBsI)IdTQrHc}OxcG;0OEqhl
zn8&&?9?ZH4LV$-YR}r|Ygo$h6X(T<I&5$w%^{;Yi86vO`71Ks}vQw6JTCNyO>tpF-
z`j>5Kt^KsDkS_PJy8woHBVj>Wt%>PK-v;lra9|xl?|D;H#hND^N{iCJK~v16h5N@0
ziWUd3D(w`SeT^C978R%KP(l+PC6xYEaJQq}lKy#YKh|UOd>;CwrIP|}2nFk$$IXT%
zJ+DveKE?9VTJB1!B_03o(^P~O1rW1L_|olBLdu*W|Mzxo3$BnNgHqRgzH$dZxs4IC
z%v-g~pCDu)#|86f#*n@t=LH_;0Db0dv3#wzYUv`yY{9&DRSX?kZJ#%10di{4AwdKF
z<^MB7&?-^mJG8-;(T2huO0xgnB{^c&&p8fG<kaZR@6dYaEY26>&y_)W*_2fR?E@?X
z+&w6s=-57YG3XT1%qpp|qqNgGf5&tM+tRr->n;2p(-r-W=^VM~UW?&YMsduNrktT0
zX&I(NjJa6eM5hu?|ALm++;fQ4m>a})rSmEwg=&Xhq5idM)I+@Q90wRiCp#QV)eUup
z0)OG$zOyjrAdvykewy};_>MpE1qk!$(yL6dk--?EvWQXv2?%Lr(03KqHUh`8PBl6&
zsNOBY8`N7J;9f8&rkf|&ZYFCKV|rO-!jYvik$tmcoc~)C6QM$Z0cYIo*tPwnQ%sP^
zN1lcz#6PF=uMuUj>m9fcTTu9`y2Ce4Ee$SRPrAyN9)mJ_v1{r0pV~jDJ1pPbba`~=
z=88crjqxG*;<t3xwhc-Zl3oNgCV;_F>}Rz5C=DV&w2(cGIa?sDeWHlW4Z-orUlRfq
zki_2m5WMIw=i~V0C*g_tA<(@cC~AfHdldN{@)-6<D~P8hz#k*;>*R&uiKWBJtw>4L
zWmp!I^Y2m;QpAyj7IgPPl85pyQe>38!|-tD_=TCNE7COw6K=7CMfh!sw?M6nA#quk
zBBU}zD-UV5^xE%{Xd0S0(J?m8gCwG{8>S(_RT3H#{wBSY$Ua8(O4=H06sz1zC4@vQ
zx=co8X0DQfpb4q=!r=7vsf=eEu^wf09vHfy^epj+n6Km;$&A00j=v<@(uE;W`r(o^
zDm)s*|7Um+I;LeBEc-`N8F8uxaOBlDSNoX@^iOCtKEMJ1nP%neuBBk2q)otoTU*lQ
z-7K$upvMCJsIG1GXrg^kXdm3DJG^B=6jB!yZ58BISQi|Sjo2&Vwz|#Y%6L`xdT~$O
z-jj6IEm{^#3oqiT$AU3osS+$z%a;X9Q_@qG@B{=;VD-A->4$L7!pyBC?R(b-eth7)
z1MfFNOvi2txAeR<e`{XN91<WIu5W&8|E>Lr`aYq)FHzqwUp7gWS0~DM3+20S&)wO#
zUVeVzwCE@YW#z739@}Wzeb3eZ?;ij0`S;G_7D&R~gsU6BG3XBzqYM6yM9Wd3<!I7d
zw{rS+htTjCB*yI831mjNaH3pI0fic`=!v^~;NNfTS~{1k>qyk?66$s(>IQ_mfwgX-
z?!cXj#Nd+x{?|RZbozc>uk<QWcSxu^bf+SI;i-7tq4m0pOQ(~*?u2iT;M<e%9Ta>A
z*S->e;>o!0;JWX^(n&Snd%bH<uJztAtnCr%jwb3(33aC+o?Iohm-^E>$ja(VmQF(!
zRNEt!g$rWtwL$zv*2)Cmk%SMD@smo9+EbLHwq)rf`c>bZsOuN%`V(~r(CW1-@4pzY
zJFrfTh6p+570+H>K!2)gAi^eZlP<3OysC3qhkGY)7Q9iga^-gIt*H%f-%iitw{^F|
z8{Xdgzfbym-rkghtL{n_bFE!Vr#IY9Nq;B%z3(i!>A2xYy35r0%no!5?(YARPbxx?
zfR!ekwSu#DrSa#^meeF}x$H?z=^)9JXdwc9iZdd>D2<m8xCu>pZQNe_*12+`L6>od
zd@(&?;Iq&Vj#5p`HE_Iv^n_=*>zt$|EZy%mNU-+5AQ1z&(A#4?8iHp$#b%vGqH8$A
z`jxWz8@6qJjZ}X_`~NW%i2biO<`*U1-UOt(ZhykvDY!dt=dHW<EIgiU>s&aRu-6K9
zjN@H<%WpRwWgm08{Gt!+&XfVak{tY%)(-A3^7k6nbbAf_ITV^j$kEWU;e8eXMrz7P
z03KDBX+Vl>uxMSyfe8k60M(3~G`RBciIoc93rE*w`9@I$rn{JxHR<@GLrXDwL5<D2
zL2n1^P-Q62Rc#;2jMx8}#;^e;K%0(?MfnAbf3;!5(wXe&Cg?@1nU#jOnr}7VwX|+u
zcIvngzb}&?149P#2)%+!o}V^8!I-;hQxrUCQkI*IlBu@9+|x)lMfd<z8A&@@<v~(<
zHM7Dv@O=S#k%~FB+_%gg3@%twaZr?VotuuHoP;oL5++DOL8kbq7)xLn5^W~MYKRT_
z6!z;}Wp2rVjJJPB!zZy<J}RtD>2(GDTLyyzsul*>R0vd&C3fbytOb>a>ezxJv|=aT
zh4ya6!qQkmh}GZ{z~&Xo$2$vtavWkcD10q>*gN1}kketW^8*Ng?fP^4h>n@7P|^><
zvR)KB7kYFI%VLa{zruTof#qSGkz8va%HYG+X7=iJLkt>KMql9t&oyqF1+8Sip~8-$
zX7FcdHCG6hiiD+2u(T!ZE?fzezyRG1JimB;c?2i09A@t-1$$+}-Xqw1eq%FhS$d&0
z!Y1v{5cqv2O<_pDHm8mWEj1=k7FtsI%xO=W){;n<4ttmSxn^dUF66^ig7lt&RD$l8
zGbxF*=K|;aCI(E%NKR;km-u6B0vQ5*0j<d7kGdq2b;BrDnVrbob~vq(>c7&g>_u_%
ztPo5|SegY(^M=KrtZiH|ueyIw^L7o83gQV@F+fB(SHe;+SnBUt8n^TQi2uZ<;$Opu
z8Q6@wNI^Z};*x`&g5gyoZj5UJW379YLF2n71$2Rbq<j7?nex)l8#1hC7^3QqQaClZ
z0pLYFHl^<LFDwUQ2*}~qRx8q|vS=xm{B#<=G+L;{Yuy@zv{${Yh5G>)U;%`f(m5`u
z-qQ+N7|#wea4k8zCP&P8In94EW$?l@M=_?4s&ZB)QLoHt3La5+wMHy7473hOEk29_
zgA@+pyg8U3gN*}zE@++4!`(wr#L6fW7mvs7CX#E%@?hM|z<7U|_>$b1iF%DzsUtU^
z|CxQyixN4^TrB_h?EOEY?-;ixrQY-}U!1W*%~6%_p{!75K?7EHC)(0^ln^vJR4ypV
zyft}0>Ifr+S(6LHY4TO%)enw|?zMkK+zP+#oJ6q_u-?Z0pyj;P3U4P&D~(+Qnc5Ds
zf+Z=y(<I}(xALTm%q$G}b&`1jYJ|iA5euP|Ot#2mo$t8=+fNq_(PNq+lAYa*IwR#M
zozbBn(_DVR<zKB|cLi2o6kOeLdp84M$IvdP3?G9txP}2u{LozZLg+GBL4@_B4dF_n
z>`1%s+L<$FeWNqD)iD*t%`no{SFoZ8bO2a3YCQ3n!r(Q`KqE=Y-0o|P!1Njp0T{L$
zzdSV!DRUrwNdN+iN!UVy`a0yp*(QYjWs+X!Pthf@fNW?473Fw|3qspn^x$lUf>N#}
z;VM!_2ft-_W=h50nCx3J{y=;eF%P^i!pkJZ`Xr+GFOWw(0^UI$Lm_^KkZ6{b&kKkx
zqgoi|os>!>kKnNAP$cPcLq)GDTgP0H*=3~%kVT^)87E^{3~o5kPT|Y2Kr+}UCR#ud
zu{bL`>?ucZd4?3}C4snDnLB#&3rP*WAZwk8r8^{!5F(ali%4v`4-uz@_h_t46Rp6%
zLi>plGUfNYYrrj&{GNYf*rFd$k_|0y4cr<?)bA7O_r3pxc>TUa{Zopu3rE><)1L=6
z9NkH$_r9w%;pz}vxZ|?n8bAbybf-Jv=oTEf9kby$xC#2T@CFoPb)J*D`|g^Dc}9?`
z&`g!+*+#+LxH7u#Ze8sW+yM|@wT+3|{X*^jMC~D=_Rt;A`}+0T)1-D@)|zy>Z(46y
zp|ri}EKj=e-+S}?4e&WY#We`-1}J({)TtY%5^gGY%VsVr-paEwHRy7fzgRv^);Kx`
z<IeUEe1X-kto!yY6@1|G-LGg_?p!U3w;hkSo``!-k_iat=5lSFKWKfsHPL!lXg!>C
zcY#~dRvdRWKeTYrm6mEk^rpKr>BawQ2;ARvyy0MS_ZGq1LeG$NOG0=w##4gER2MH<
zQ*~^NYVJB}-nHHy*m&%Tjg}`raC#Y1Ns{%Iiq(k?`(E};GWONB4g2o<_L79X4%S6h
zb|va}3-!ByZts6EsOK6k>KL?0FGaS*M+w_eoDl(f-XcsVlkCD-te$cz)VD!f40jZ9
z8tT7iP>@AvjTtgzj4EU&Q=owEWGGaFo{(gNfZxV*b9rYaL!5I>09+B=SOv=I+h!>p
zl$&&yrhU%D>}kS;BV(nqeQRVYEni136fVJ22=i<3vbY3%Jr?&|8l6>0z?^M=p7z1x
z$V?J?EbEQB-VMht*{-H%>B`dc@wyXnJ6)|HvzoiGx^2!sH7-5<ZTrGk1xt0Z0mi4v
zfb!B8?^<f5X*f&`x&%+P<AE?o8<x$08>5sp1HePZRRj9-gmtMiLK!8eg?TD7!=#p*
zGS+FDC*3}x7IR!o#Zvj&w4^s?j;b`BGXH!LO3=bM(<SI$8-P5PAa9OKAGE-r2wNk#
zo8zwOAkTa!W{@nE#qy*hIfk3Ch~Jym@&v{}lyZ(sORf11?GzIwIa%<CmJr7w$7$KA
zAo_QzZikXJFjXx)HE3iQwB<AVqFN;3OLnNym(%2biq<j9ZNODkDnPq#XpG7$@xN*7
zq_MN6wO_R)(O6rsML;;H7G5jarqhz+0l&9G8Z7URc^fRBbbe+{kE%n1N|D#Id4e#~
z94EI-D_1_Pna|UscVxIbZ=3p0zr(KNCfaivMfJ+NkgZ!gB+LaFdb+Be7f6`@NQN_o
zu)$NWl%qXEGB3$NJ4$<=Vue(n<_=<LI&x`@;UjWAat!5sDwU(O9=8ti(qkAam{4_&
z(<x%AlpPfG*Nj}WS9v$FO9`caW2)5>XiL~)#);kOcS<N`A|@{6#=nI0+6aQgI@ckq
z1LLCWbO(KTLAuu)Odn&6NeN_la^`9#YF;?aU(T?*%adSJEKtoK;C}2RlY#PMcmblq
zqrOsPl9c4v|1U0}`z!fFNF*spRuP6<O`duJ^ELGNr<CLu<b6Qi0(qVEf>3bYiI8ZP
z<e-wAvy0x@@J=j~vC-hn<m4=qFDe34QMv*;GK}M&5OC?%t`rG-!g3@-{{L^P<=f;D
zTZgU;k6z)AAn12yhz`_)Sn7<5DDX|xzI^b<XQI?^(K<a7mBV~DwUjvIqFuK3K@8vs
zgt0T1h%Xso(n)?6DI#>XrIBzcBuOWWw)JwZZX3zCEzQ#aw~>$F;VLSGIpxdEE4x;U
z*PZQTajrRykSFR7$hi1@!hHk4oL9fH;oi4dTD#J;(YkM=bU$=H6RtkN1(R+YuEY0%
zTaq+T#kPTHJIYrY5_Nq-UEf_tU$V3%Ub-vp+yx(^(B<MAd*i<DyRL5Fx|Q`SyA$=h
zg!*0a-N!a6j+6bl8VRXQc=rh2Jxn0kDwMY-$`1+Uhdwsw$_917l&TvNRRN(Ykf`bt
zs`?UDFaWo2ZBVE>2(3>~H7-r2OTIn5Q30dL83p&>_4ePds^6)EJkC>tG5W`q(29$h
zmF<a&$AyZ=={BUd7NSvL?ZD*|-VVXru{t7nyAs~rf_Hb)Ta^qPdFZfImi)=lhqykL
znQwdY+q~c%&?-lMu~QuoGFO(|I0`u+ZhbQCU9bhbfhAM2ran<KAk+-3_1!6cZ?91E
z_>vte#!HsX%Ep!O&ntUx9EDQFi<=c~YJXNnq5Qi#h<-exAv-qxku6+03Ng5+ipZ~(
zqxanYl#8p{g;DVa5~V#tY0vFF>!tgbjLGJ<g~wk%y?A=rwr+1o%|ak~Fa<qnr)R+~
zv1nxk0~?9sR3haN9=<`JuEAcE+=32fQFJh3tBD+^RT>qB9>A$S+xjV;kp#21UV@il
zY6P$z_FB}6v~cg>4qtzPNqae8+8WkNx(GfV7K8B;vcxRw+w_8ir6)`2e#4wQ(E429
zD_Ir<<{JQ#3$mivHw1Xt?PM$y(JWaEk`0>hj}eR_a3+&Hk`)d9JYwedZUZx#Y?m}^
zO0}*2eS$t`QHEl*#O$)-K6u@MrGkg~9Bvz*SUiz*HYc0`!5LV4KJE;xJ5Rs=MUX}X
zg{0lxPNaX;icN5|ZROz+7ANZt$QDle2gq`31cmbn@}7n#i6Fl$@h<3)nQQvp+WtLi
zC~;AL%k-+ZI5ZR-g}Nqi4(`_O2c_+@B9iVet5TWFbw-3FBgH^7NgPA`<~sh1+H37m
zgczw>X%fMDEpZy5MGz6tsmNT+aFl!9II6!4N%He9yfZ@ft3`&XhJ0@5U-KA|dR~or
ziksDqf*hx~>-3$4zqBd`)ISy1P%SW<dl+Cy3d2vPAvEHNr%3ldpqMo?`hpK8x=56C
z4W=?+0xLRwJ;b*&W}{jhxB(I)5K3=2kJFcIjzM_H7<WI#F!BE@JTV_UzA2ck!Pm=d
ztSsW8g~F2I8Y@r*Fyfd6Ad`d+&|VP>r4}iyJXq7^Lu2E(o&yG*Sqeu;Zpj8rT9t(B
zWSBHom<W&LSpE;RI!93sSZj6;B1BuoU0VgD<3AXBdnnOyOz1ea-f?2#T(Yb=QPwS#
zb>BXh*mX|8|FUxnr#4+BxIt0+#7~CSc9XTBfZz?RUc2YreP>80ePZ49WZeE_(&7I5
zj}4snNnM1X+E4PmgZNySQ|{i_4CHOZgUu2jQ^(kvH=|47lIyf=D`gPxSjiF@Gfzt2
znY#xCk<;1-F++wJ$e1BoP}gVBaHSlRsG9|YNy|tTY6a7&Tvbw?H^pEG>vgldD<I|q
zd&9(AVAM_$R5R6Qn5i>kFF4s=AohpK(vaFpzQTx-cZV6f!<cCThfrp}IhVnFAF=!`
z@(9^gE)Si;7&0VMVz~{_<4N)uR!Fp^yy>J>gs(JmbN=nHP31*paf~DXnikNvQ3y0F
zoW6v!NpO;BA!i$~z><pP!#BnkY{}9J>7Y%N?iNaS-~P&-!|SET7wk|2vpW`I>$b`j
z-CbL4(q5b_a^Ljc@Gdvv0)O#x>v~b+g85hdM*y|EtsnFsfijbM;n>nsi)WU*@7gPY
zE!aD5$6$518+U^wc{t2}+_iN4{l^^Qqy<;*8a!y^KS2|-))*~Dw#JU42cJjU&BUk3
z%M@23J_Q+SOtTyncGo=S9;*P*@_9@e6Vz$3yI_!BVP8PJXVhG67UclPk!^vf)sGJu
zV0~$dWK|&_2*3j%+001)Y}z1fRAq*xKgXbyj+O$BLoweNV+1M$zxhy{!V{5zuR$Fb
zYgU6%#_z^H#YvFs(t^uKBTgKWg5)?Tv!{*aT0g54nAWt;>!a#b2Q5}vx>qO-dpOrg
z3STi3`U>U-$X?A<S_WQmNkA1IV{Cm!68f2#(9d-4*u_uDVi2ypik#mek(^=F4O{7<
zDF1f|NxHHIh_?6#^mw1VGV+GtiFq;=$0$X<pLXdHiZ@)HzUsG2#{;cowv|O^T2RAa
zXhi*3B~gKlT#b<Ih-p?SA|la&Yl{#cu}DhC-~b~c8L=q3b26}^C7w0WuQIS;KN7?s
zAf54L9QE9hDMl?duOAcCXhc3hjgIa_$04EPkaXH4I!-`@uy7i-Op=cclKG&Pws%Ym
z=abd-3+I2~X<X7VXwoZ`_TD~qN4H*j7>GNW6>1S+*T=o#42Z7MWK-)BBrWv`ceCJb
zUe(=mx5AQ6Nz(&6=dOp?XVX*u-QIXj*Lp?w&pkaT($%o?<Xu-YjH!VLh(jf@_O7!5
z)^JLCfvS;&sNt@oVHF4BaiQb*`?igai^=AmMDu{qJg~Os4s0Wxh&vmSuBuGwQr+&Q
z)0^#w6Ya-^_Ty+GfLI4i+$8Lzh_n1f^m5C>RkSXdlg{#l(<c!0Y!I9cD^IUpyyxt}
znOV{LpqC4rlmsT)5|W=|MgY73ey}MK&UO50ENudFIWA*U4rqU4C8*2z@`?VlO5sbX
z4N(HB%xM8I@WL_U<cQ|b1Y2qfkVH7}&e8@rN6YKEWAdlf=;Nu11Q@s)eHE5)2(oa>
zECv$ZMu(UB;k1!4h-+bUQ2v-Dy_e7@U$eATn*%sW)h)<BNp*Ijk;HQuo5t5HNAY1?
zJS!hYOYc7iF|uSthH#jikEGFlpKIBEl4@(<Z_<_^U;#|b%;DOtBWZIaY`(iT-)ecn
ze?;&fxpR8M{{(xPDDM!;J62y<)32BBTR5F`lqDQ=kr1Lc$8IP<FF7E|lol1qG6x<S
z43J~ON>F*iQ71U+Rvue-^u{f{jI0%{vR*1KPiGyGMzn?<kud}a4bxs@_@)l-_u-w^
zI#a1m%(><Y)kMwkU0UThgjSyZZ393n=*c+R!5e9UU=1H%x0C?l7ZJ|V5G~eFxvk$e
z58D&{Uo-^+YzmS#&+^4YRgZxGHfYRynbww1u=rNWH!STLI$TVJv~@MOVd+geT+)E%
z$pe}-nkrIjL3_b2Ks}Pv8aI+?YU)91#wuDvY+uo=<v5JIx--+S*u6}BhICCcm9l41
zh6bWa_D*<P8nH<4aook^v}A6XYQ(cfzv<kkjf0Y+2Qe%IzO&41gY=!*c8FJ%J2S`T
zN|akR^60WlG?BnXSooy<nsMLduj%nVd3Eqa`vn*j9-ox#f%176evtRXSm(c-yL4<B
z%EKDEu^Df-Xt4xQ2z}vK{w(eOwaY)AcyHqU=D%+JPpuo4FC=ZnuMaE^EV~nBJp%r-
zm9%LqT!<zdErO$E-R57t_=D%)e*Ug)V6(V7Uemu`yeDp#K5SbiSjv{6Ls+LQtE|;T
zdyVbQiwNw5zQ%M{`q9fW%*1EyP0Uu>iq0%)!V=E{<3wx+z8K@g7v&C?OG}k?yUwIW
zs{e-uuMH*R{3j?^CD^J~O7GfQm=ZywU~gQxykQR{Yg-nM-m_POiEEc{NF$@_Xr;3;
zkm1t~AB9v_FzpVEL}m$cQ7Qz}c=x-&C;oX_QwDyRhKVgcf=~RHatEwXQ6H7QsGMQ$
zQ9+ur6X?)81t5{aZ;fE7S+Q<F-&X=p^m!7&wp#&DlICfnU};>LxD74$es$%bA*!Ph
zW24rNKqlK#du)`^Q*N5;CDV9PFHu6K5^Vw56HTknR&Rs3S??{>J0ci}G3Hu2Dw&^M
zcLd@V>FdYZ3w{r4HX4iHT=(c@p6&u`{TGmX`y8=vA<Ga(0|L<DEx)x<`w4NtA|?YA
zw4)P_cEQoUI<)TC6SwS<R4mv=^5>Wv<o_MjUP@jcc?6%?)jP@fNi#kEioAbMULAQ%
zYwZ7^(Emst7-#Zfc!(Yetnqg82uw>m)<ch^XeDX9k(P-xd;2NGL}g4sMl?T9XuM?X
zkP#|uEe9!XjJy}fBQ^{lChq_hN*h=r0sfLg<UNj;k;B+VWUg>9W!!6OzVE0=neYq5
z1%?arC}iPk8&dfcvT`18%0?kO83HVz5QIr3H|;m<TMl}<rqkgY*)B3S7(fwZwU8oU
zwGcmBlGVb@SFOuO=vAxws#VQZvmBvUHR`LHl=-~Q<h~DEd?pGYB}^vfvEU^bM=V<H
zg^HO81_1S@o|Q7Pg4mO?kkQ0mXrRHE;x2k^O%;-1#na5b;@VMWU-4tN(bV*@{e%uS
z1TUhbwpEs+ExzY8Wod)$!CiYE<Ug)6d06cfK<#ADkp&^h$}wWd(qg=<t}Po&a!#LT
zvfjqP;3rjVHF?%tDGon(V44v>DX-0Br6~MR6n;|W6{g<XvndWgcP?(xPimmhv@2O&
zpEA&IPapfepI^3oRLJ*jnGl)snN050r>MW~+sK5URAHXUy|Oojn%!gw5<jV8gUP?T
zkG^E?U)!}sKPf9^L<1-zQn8FWQ|EGY<;ZH;$~mD1gNx^sS!de2f{&o%XLWq7K?odt
zNMUJt(V`l~pXwAuhJ66`8vtNwvxFh`z3~tXr;#Z@+L>d<1&*1hw-1>Y@Ttk6JR&Sa
zI{_x;YK?>=Wa5nMM#tEcHpSJ1V!uP;9<@b_puN5Y?2hSZW9gG)cS+<ElyWcwq6!63
zM-kJsjr<5HRD&!Rp`AbH$!wr%xW}mg%-<5uQLvaNSiH;LczxeJ%WgJWz=V3J>|XMA
zk;h;QvdJ)mffb+x98XY`f$l@n4#vehjwjDSl~9w}*Xwnre)@Vne%4y<9J$l?e#4!8
z!oc}YDCPlq(kxNNtXU#X0l6&#TG_KC8IROLCh?_sGYm@7m)`Nc^H3fPN?No&7c^#P
zvub(OK4gV~LmR#<Z&wW*l6lF3pe<y_n?hWWfGNo#N3Z}TvS*gF5ILRfS<j3|7Ny@a
z1Cqt`3}cB!$m^2BWK7b{){qBl$R&D}^^<$Z&FzE1M25spex}((Qeno2K~R)Wx+C^z
zQ%_lT5LLktZIPT630ok_iiFlazDEk}cX{K$N*&g!<Zy_}u}Td6B9_X|aSA;KJW<V`
zRgyC08Tn8WnBciCqa?K+1>el))!o8Yqjd76@hWx(G76ArL9BO%#{U%I9qnUDn~Z9b
zSy!1Gt#+qbR5x8I?T6=)8=LN7F_&M+wq4R*w6s57+rL(R=Zo<R&$4^bU}yI}1_YMA
z%(lEMQPCq*kUi~QX1A&qZ#(zVTe_PC(vq|c@U|0g?^&v(ZFCgXY`ZRi`lU}!d^WD8
zMKPxFH@^-DClEAtbxL99Lw=<$V0?_+kjCzCaf+@j=GqiuNC1SN7rt<WUaOfE3^ohJ
zYo)=HP^6F2C|<(dE4X{t9lPR|T~f!-QO9M_i6F<(5@Q{wxy}T(S{UAc6JlA%d$63z
zLPCzqBxu2rhb-zT+Cmx|OOxfLP0*v)<Zz=7pJ1U9{l>W((8<2cZ>r)_1hKPZFcaV}
zA=kxY;AV9qYc4rV_#u5+6Y@>WGTSyZ>SF$Nu!BL@hJvzu-X|Rhg!<tE+)mS+K?w(F
zk|$Bt%iKq4N;vrA%kN#j6aCrspIqOtoClRhcEXn%66L)D{@Z#PrB@}`tCoWsc4)Iy
zE}SG@YZ)xqgWM}9O4x}EOxW85J1iXh;P~6eH|)Eh*RpUDAHzl>Y2o}Ws?AzBv}oAE
zNg+T`@ey3B{ZUHE941T&X8bC92XBoT(Q=USKFYOoYUwm9A|XIv749+I!9%!%QWvIM
zvn`s!bu|}gTPzZZX3ygppX@%G$!G?#K&C3E!}zE~RD!UKdbo}`R*(`JNzn{D9W&vm
z7G6RbAQ#+mJ>-~I8K6ZGM414anAZX~LBuXt;}+~)oA_EKs6D#NzU~C;><80tPv3PO
zxUbw`P1rjHd*_C|d$XwIMyXKbUu|A5>RB+eORwphlPkxG6X)<O6tK0R4LE69KO1l=
zgO5*=0|xW-*|AJ$gfhr!u>#VQI;)4FR4}b6BX*&IzmI^#4S*8ScH3;8tXWZrN(k_G
z8e+}#Cup2IP!mwXY{t^yU0a9BPD$8%1$*y?y$`B(kjP5|mf1zx3G}yh0v_Whq0PB2
zy-FE3m(u6B%oKE8m(NEr^mUe!VY*k&Fl+ph!9RAo<iuZA;&~hLMW}&_Ssx;89|4at
zZmplAA*n@H`9dz;vX#~f@leuFGPgDhd=S)T!|+uEKCht(LjH41Nq8W!RMDo4>ni9J
zxtRVH=n~B9zpB5kQ_M~H4d>=OPskPn#zye15qwvTj$7ZHOR*r3KE>(iCawlVh2vA(
z3{!{(e2pd>zW*VOXXlQKO?$d7($LZhk#1s@W~?uE^QZZqy+^V@VaP9q&6#9z^J?D8
zY`p78+<6q(j;rv#t0ZO87nJ@(%77%FGOg5CDyq5f=kGVX<?J{7$h6;(H6t_|Y(_{G
z?vdb}E`m_X9GAHycL1&G%%rns=2DPTSpdO6=PMY#?Thr~-(yhKwf-CpD$#Ak3@xT3
zvQxl+Tc-*TSDH8Mtr^gd$sC&R$tElOCAm}|<1JCAL^IgwP;A<n$Mi3eia$giW9~4{
z665-?Ud~f58B>Xt3s2qSHOWVw-jL^}&ioYRfqeYH_;|`#gzqCbie8^xoK2Y!29txh
zKopX=KopX=KopX=KonBAK)-R&Q<L7*m&G{1bIM{hm969x)1z!PNKB8il-F)5VGI@g
zGH%Xq@+eekG<jB{TO58;b|aV<y|C^D?gTg$_(|E#rqb0>XyKVkQ%+*mjD7-kMVo|T
zu&z;$cBC+58^kgmHcTHQKZ^8O)EY76Z1~%Lr;XFN)8@?t78$BZs;ZHE+YJLw?iC$w
zh=X*7EpOb<k|@5Q;k)Ko9{YkW?u!F~G|jafVFrhN5)SzYgWYqqY(in*T!jK?)XT0+
zXO5r{NlhO)Dw3r(`8ph9bbbd-<vY-3fBt7={W=nfX6chx{Qrh*5kkCW`c1K8;*u2%
z*r6g1KEH^ZK?5?7J_RVY63$+-6#DLS8@ATXLhthKKW|u>`S06Ss^Wo@@v>9vg{R||
z(;v9%!Mk&tlZCFNr#4xGL$V4Q=s+zV6d)Q)(N^@pfzZompz3V*#*L+HY4{KG>(r$;
z;fapX>2MfYe$W_<1V%26@@NG5fE$2x71&4*CV*=gH#<a~E6VtOS3vsS{VJ6;Lmu0@
z&THZDWI(zf9H2fj9<gX+(YR>~!)tsV6)PpA6oK%_Y>1Dr8<mnVH(GXLiJXNJAeC~3
zL1Ok2*)Dq0DKfqb%05{mdNbb5OyO4d@O7TPw#PFY+oB`=dL}xKrSG5~ILRv_ub4dI
z^7C%;fa`K%8_UC(Brweu8pY>9`GEAu#Q1z5{Vgu(`)TDn=7>m4bT5_LxO1uiB#9w@
zYy=7el8J8rBhsQN0Gf*KB~J=OqVEyurH)rn|0*f1G$SlFAQ9136kW!OkfNb}6D2+A
zVJUAl<)t$~qTR^$z67&tDYT!wgXA3|?=Q(?3_Av!{u$PjBsHMD#dbgre_pigm%4P2
z|1Of?KNq13Ffb6M(`{Keo&6VF{)b${hg|vJaK*piyuaY=A9C*hoooJ(tN$f;R^ZP5
zk~{q&*Zv{b|B2qB(|^LjdqCcAiaFg$-7mQlA99C3<c|K5JM|&g_#t=TSNZOxXV>$q
zUpD{BXj?e)wKFg49-1w>z|srLk(I&aYq0G75cvaOguC1?J3clWbQPc2j~aE>2ORmI
zoU<Iy)9ro0k^k^wp<dU&^w`Q?+}(c2A^gyKR;O!=*K|JQD3F@cb6tmY4;&>rZxWxR
z+Pk<nWk8sHnFqf(3aWgmJPKJjaQpKqWaWx0Q#K0Oxq{-?&n%uv70^>5S6UITfT_Lq
R6qSc9Z!UT0LWphp{||o3tUCYz

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/peft_helper.cpython-312.pyc b/lora/__pycache__/peft_helper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2515c13b80a81cd0dc31b1bace5412f3961f91be
GIT binary patch
literal 6076
zcmbt2TWlLwc6Wv|d{Y!9>Sf8&sETdTvP3)HSoZn_M~WYbBW>4?Hz9U07;`SAk%y1m
z8CnrbZjD_Rkhj5F-hNm@y08ossDcD-{+b20*dX1H7X2t0s*pUJpfUOYivG}+iy-+Z
zdhQ(#O)1)+_7Xhz-gD1A_i-NgocYI4$d91t!k=pA+YtI!+Hs0lZ*2Vn8uyWkR8B_;
zyXF!c>+=a7YF>Axg@lk66Jpw(aHl;94@c=-x;O1h_*h%e{pmm=z}li7OotL7)^_VH
z>2M;<As*onZvB9>S4~8)$fFBL_1s3P_XFO>eo)_1qHTeT`TmpkrecESdHvFrE0?A&
zSUy!Tm87m1h9#yntgDurRYr`nJeM^S6Gexn|8n;G=O(h5lr{ssfR@orS<lYQU;^FN
zt2kq1iB`bGCP~&8Wfi+FXl><SqxTU;^db`c8*n)Z7Z$Ln@~2>!wOp*_#-1LE@f17&
zMOC0!IILF{KXf;a>%)FkWOSnHX;65ZC<3_7N%ht_`5JWoCb}S8qo@XU9cy7@!Nypq
zX<it&!n~HoSToNE78<LDDTUhV>?Xylk=sI|O>Mi4674vuw&M=9RYfU5joua-0_((4
zA5weO4(w4o9d2qD(6ZC88D6#fw%C}_rS{-%z<Yty9$2Ag!5izd{NH=!{MCzC&tX#d
zTfYS5oHWb25|g`>$`XmvNJ%E&JW)(7n=uYaMh+*nl$KO<eL+&Oq0MBl%E+lUj4@tU
zXEmeFXI9CmI)+{|8|kK^YoKGm@equpbI`o5>6*D9C1-K+hC%r;PB#^zW%Gtac}rS4
zr{grvnD$=mwJeTUemzSRS<!Q|iq&E&WCojZI;-YkVN1wlGnneFic?BnH!b11rWjLJ
zxK1FOS=mr-;`5e2Z(x}il$YhDZ53KGASEcZvsU*_T~C94!%7C6UdznLDJ5xUiPgtO
z(#kt>E^BD?R5DIq$Epf6hUF&M%#%#AZjp?g3n2Y({TRS~G=oZ95zVoo?SMpz+#IFc
zQB=-Rc@Du$VaG6ZfA37bX(o3C#ax96cGXk~Cg|-;T1ql!F~O2T|Ct3TpE2^eT$Y$1
zX(ovjR^Uw7uth*;7RGK~zWlnB&45<ai4AGT6-(DK+=w&<0vRg|FnTo$x{=A6(gHS}
zdD0|Rq?n7e!!azklFQ+YN;;qu<1N9!ddl))Lb60o8#4xVX_EBKskoWW#dBJ2)RzC~
zJNfYw$8U_|xUOA~=N8P_Y$i_S6sHo5=WxoDZG|7pEm&=GT_dsV9IdeTxrvN@d-xzM
zYn%pf3)Q@+qifN(83=C#20jZ6Yz8|vf_;@>UwQBA>%l3&-#z`a(@oej>%p^|;qJ1x
zdkYw#ZJI$P$u#3XpmCqdmXho!<bqlE<Ot0<?@JTS4()I^4b_{b&%w<(uGm394XXy5
zy7i``H-!MDkiiYxWr5P~vc~RQzCAm}PZeU9vkEmATfOG7HZyA)l1UVedY5_4oRx^d
z98AnhqOh*zwqF{{r)5%EIh#ph(n9e<S}|uqP2MIZ2?2t10*G;>7b=6=phWfpv_dkq
zR#RrLmR#s=mUi>VOLX3A0B#{F$+JH@`+2a<k?+Oz;HAw&hyQx|{pnw;ztMiB{k`x{
z?tgGs&rDYiO)pOVb1?R$J^Hcwo7AsTl|z#ZNe1W+0=7?-RV`^I8}ft^dY4QG{)#=0
zX2Ww7kt2gibeB)^8cOm%3L{kFi~L+O2Vg);k^eLP-H3onE}(GjrYX)d0sI8u=$fS*
zM-ciUa4QLn?=F%xy*7V@@`yxX?Ok+e8x3C+e!;&x3Of-QSJ9-RVFmmfoM2~h_T`+n
z04tQ-MK@_NBMz;~72WTlUpD;NPdMPUi#0gB;EbNT-lU7&8m!OG=qY)No}%j}=*GJN
zXnEnr!mv+Y2}XF(Y!z;~==%%q=in=oJO}?0KX13-R!c&o?Jarc!JAGM4!o`z2GwPP
z-_C0U^mqH?XNOYXmEK1&AECDkZ<Lb8mI#4W+933Ngo@t^*PpEVJF{T93=Hqr4ZL7j
z{%eY!$FEQ~81q}Mq;8P?bPkuYg6svC?PW-eadNg&$676Edyh_^yJ2xRtx!tSA-KaT
z(@BF$mHKwO*k<EPk!+d`7otrj)4<ZG#`rG)x6m^;I`ra4Lm!^3c8$M(a#dO89=KQB
ztK5oj?c`#x+%*o4vu}8#ceK(wy51XqCJMd&$G!1;o+V*P*$lVdUAVLG=NBsBp*3z}
z_(Wy+#IJu)8J>J9qEKYBH(nEwulostIkgtFC-&jdwLjX3pRL5tR^#WYBQIBaUS4c@
z6zKW9t*<<A{*xb<&tEI={Xw<u&2sR~nj4KA+c<c#a`5E(!PD#AS1JcjKYU?zaP<#A
ziF~4ecJBMjk>ztM(elC5i=j&Ql}F(=*u>J00F=E$Uq2l{-N(P)5@6-8x4Kc!RnDL;
z=I7A~x9~TICj#zIW5J1t`_p40K+DGh1_*Fwt*+k}A#|FJP+4yF3G^*+O2a3-2$p#t
znGPQ9X7{^UL6L)3q3$C}LeWJYm<<oEdO^osRL4tVQJibM4UI*RV?!mk%0oT^`AG?K
zlmEjm#5wAvca-Lxfz5e}LW)xbRn)-3=UR6VLznLKB~<d7G(uoyj=l*yO3~|hkCG3v
zDEK+&hn-WAu`)-qg&jq8!!7Kx&*$?qF_S(htP}-jo&VpSiu@n@?4$)=PWndeC`F&M
z&J{F-j)2FS2Y>Vy;^6nL_Kxc<G|zntKVsu!zNtdHqAEEs@4AkS%^BGYp&CJxw=4u%
zvSAXeq~Qt8s@USm^}^_td@_j*BbBd5`<Q4D`WBox(AHLoTEDc<AYH(W3{#F_i_b#r
z&GcTF%W4@yor$%Ft_`c?lcwCH^boNdR`fYy%-)EsWeN2s5Ys<55LF{qs6KvUp3M~K
zNi0E!5P}R+dV$6SmO#%$#_4waBn}lhPQeKZz6-!=Wwu$jIJVVD(?T}h3OAwXYHUa3
zFrDwVNp|&<EzBe8S;!Q?TarT0PG{K|`W~<{{s#bf%ofzw|6qJ&{K2V}Q)|BR(TmmI
zOAsbL4h()S9j-{PmXBVdFt~TKKfclbYNh|xYX9ZM=`VuE|7~FK!TiengW^hYvvqKz
z^>C&2aQVdxTP|K|DF^$WxKZ2Q%~t7&i*IY$JTOvYb^Odm{Bk9J`6=yv8EN~xXYYfa
zm7dij@AWOYzw!X`nIDDP@4j~DwawPE4Zi;^x<W0_f~c*t+_`@}a$xPq_K7akHVi)Y
z#Y^0xyBr>^c*i!wZFfs|O3T-(;TOu@7rq(*)-?p+o3A>7xEwj~jnNHP@TseFl5_oC
zsB<#p`Yk6;`aQo5iIbfkE6^mWZLt#dVJub}X0Z}jP9s`^k$P!(FCND0KF}GXHN*|g
zzP3JeV-ghQ5JWc(KlywP#2&kHdJp1--MPVt>zATq!7OWQL{UwAg&Ux-kh|@^YV&-a
z^qK)@rs|$+L{tur#(&Ow?=>RFpKuGFn75GkJMTIK5;PZwJPeXPJN~xyx}Nh(5OkO{
zla-Vi2*(Xmf{aXu4*)dLZE%4pV3aTpVLPP!PV7Uo_2w**eKL}WlDQ!j1|;}OFasV3
zd=jj!WF-1PGC?x}iyI@<`4{@n*^W!1nLC|C6UIhHI%aXwRLn#Afs{r3R%ja^vWE`9
zS2;w+C^!cIl1u8o$utFh01T=_a3gk*)6&QWbv&c!+l+Vn5TSGL0f02nk2-obq9c{)
zNHsdj^1-{u?i^csZ6i8biH?327;U70n{9o|S07wkxwd?<hPZvv&FFwlRBj(zQ)(_Q
za^#r{YzzXVVC&rzcTOz3KMV9XrkD4gUJssm6o^7_v+DXw??dlePgOcv9{5hR?N~W@
ztmZ<&4whrYxT)A4%PY$?z?5anFW0||KszYQZ|4=gKH`z#b4L=;E)by=mSrUaw`_lC
z0j!{Fh6(YfNeGRw?dzm=!IE@4BNMJ?vpUPuS<VHY4#6Xv_M^arvk&MY>!IHj(-;zR
z)e>m#!(23(qRgm8kgF8XSA-pbNrcdJlmYtU8-rlue}bL}g6M_d&l~vZ`OVh$pH6Q^
zyO-PVU0QYBo308&kNXDK_OJIHxiz_XU}^uIcvU#^Xn6D^b$$5ct?8w!%R~3xT8&mZ
z_Em+GkGuL--&pS&x%KLjP!&cVckEexX}u$M>*AtX6=IL~k9;(-zW;bx=v&5B;rOHY
zcRqe&Jw8zuq}8D{;o-rmFi{hHV$bU2TKmIGTL_v@J4Nvo4mRhG)cA<_!s=uVLACb7
zr?lE~Ir!Rs+VZ3L(I>tEao?Bioi!0^@ScCLZ`FLbr{<wOFB+u1K#kG>wZHRe09ti6
z6!$XMB95;etRbjAjy|K6eS7rcV(sKSy}uy}&H}IkjSsxoV7UgN{?8UI%ShbjLJn-6
zP!U_L^t;KJ?G(nSeKI*&0fx5Ia6)57YlLBF^q|Z59h}U=*Re6XOCM)U#-2Z>EFd6n
z&}9cHU=rRgb<2Co{(^Ldq=1AvcH<%dFc6O03L-A}I~4dG^8E`sQAH=dKzsfj9rywb
meSt1M_C=T8tor(Ix#1@Hz*oG^apN^aAzT_Cc)}3uhW-~UQMdU3

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/request.cpython-312.pyc b/lora/__pycache__/request.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..851f0a1b732dac7a116a862fb4d832ce9164417f
GIT binary patch
literal 4310
zcmb^!O>7g{`Heju8#|7j#Q6ah^7tzlkz}=i*up}!QUG-qycMvl<f=QGc%G99;~DRp
zalkHO(=An@RRydnB~`T&ds?Az*q*w#wx=F?aY!YsQ4f{27jCAZJ@nFk-<z>B2??sY
zeUjgN?|a|--uJ$L|0$hL5*ViZbK_zUAz$O7GvWcTItjo6(TOgZr09R8q7)(Li5|I4
z^eB^N<<6nCuP*EI<JeNn#}uP=DX%=kMWM7tL`di4YC*zV7%56RDMsFh+lo;pvzQ)v
z3+R~wP!u6uF2)5uhN}o+iP`=zLm$?a$MGfLh@+TfvaU4XJ-{O&cqqjbQ@Xfq|23zc
z5T|6oDb0GjoKgbUbDI=1EUTw)lO<mSQtX3uZ)n{Q>r7}p0PAdMonyJ#!@=RuNAC;M
z=>2R+A7H~}S<l^;iz5Il<%m8A@b<crAM#Qc>`QN7VjtC*<7#(6A4v)$K+v+ysYa26
zYPwc+86Qsyf`aWb>dt5`Ool^Crsg=*nXzl8PNx{HIZUU91@x9?n)Pvd4j9>%X;@4g
zcNm{Dtmz}va48(;tYlXz%+leMYg5a1DIBw}BOmS{3V`rUQ#DucF)YVrnog_So-=et
zH8?uMI5o98%yyY-Q;y5El55x&vZ-=5$1FGCTjq8}u+d5-<~Se_tyx;low2#m08zs4
zc7lhSHrG^mnQG{?Qgd8<?X+o6;WOd10g4Q?Hf_LFYidKaUO`=<x@w$*7;plg$}CWG
zNhplYUAS;@T*%~Y6IWSUg?XvatsV(>s+v1f$V*;aXJxHsx?V<5nRZDtRowLYOxv1P
z1-7EyP)%lenJLX-YQ@%>sS4IZF0&l*UappGt87fGx>0gVL1YNW!U&DRZ#5|*@FtlJ
z`CA9nrE3vF_=t;?V(5|0DSu5qi!25FKaqf@6XBhM@a3o7PIe))iO@y>>QPtZC0vRu
z65J{g;0JkX<8THyzvqVJL?ogsH;Jlr&TPRU{tnUOooM|;s*`-8@C={P$c23241N6w
zod&Bm=B~^zdT@hH4pPl^xdHym&=GV79$C^{FurE#^txf1=un(h>^a{dG+M5?HO}Z9
zL;`s6IQ^c<z=k3seC}xLgAi>Z6vm%{704sWOF}%Cu9@KPCP!5^whK{^n3gmP9S?3|
zm8x6M$2mUUOJ3E?8avCm%{gk<OI+8u1!3WMGD2SeWFRjH@`1m_(Kv9O>@c(JpgQQk
z-kfkN)rqQ69dk84&D^mYwG-cd^V$hEVH#5t)j9;2H8E$Jl?fDSg8SKLyju6ts#>)j
z2rkQTRkg7_l$^%bZS94NoFBq8Pg<$W)6~x8)XqiiNow>j{jW7gkA6A%^w{L`vB~Dq
zv&~)SR{GC3d(I2GQ6%Zf-Me`AVmlJ)d*g*d`u4SUzV?rllJ0HylHAC`nNQEO_8fS+
z=lJrT<4^XS`l|oF{L9|9LbADgw|;i3nK;=TJ-L!NdH2>TTu;^o3O-*1$_@Y)&=rwn
z!?+CUg18kb=fkk+YmILQ&`Sns7Sc;&DE#_0{82p83)4LLYi8hSW^_3-+Dwe{oq+mZ
zq~W{ZAjpGJ{*pX0CW%HiED2&x0PQM<nULY$t-GL?UEf#&bfuRiK#yH70b))e?H-(7
zdUrQnU4rce;-Xc=n8nc8Fm%c7rXM}>IJy*0B;Ay-b_lE|7aC>|+nrSVe-7*Q5zVu3
zJ@13*k<4=l58^b0)21p*uGN6`PPB&q4jgt4!Zc6*mdM^q-%Ud}r1KCC>Cx8k2!zA7
zB!mO{e8{$8{dKkc4siJfT809kc1uQ`@B{d)Z^85^!bjla#pW<8Ie0gvB1$+4zSYZ6
z9A`gFuYTE%(L3@ldWG}w!$9pRoI#$oO5r!6XNY*#0SLeGCYG%*CG6u^3UD_hzFm|e
z<gj7f+_V|Kc8HM65QdH4iRzEt!h4YNIdnD906`^zB&nH(Tc;HU`BU^s&@@#wC=H?L
z>>kE)pjpt?P^|bmG+$KYe~jL7DjE^dVmYE)fm<xsC>v0UAhmayU`_HbF`R%wr=g)*
ziQCZgF>4x{I_Qp2VjTIXmo%W4@~`){sj6rWRn<>0dC*4KmY$-j>?6qa{h?Ptu1DPa
zNb5W4iyo5Qv3THN?u*@@?_SBg{v>nt%PYVA@HZd+zV^qD|M2nh@vF_m)t6HN8c!JT
z2mtF0xVia)RDp)jdSKCg)p}dZXwFQ?4q_P+U({lu{O<WJjR4&jRChEn^wO{90aZKH
zTT{Gs%;#IOO_PZx7n<-|X@+X>Wv(Nd3T)@Vs2VqzbEGR!$Kv1`Q+0GOgH!YkIJ1>u
zBc6<RZeA!7s*0On$Xw_ZU`QYP12p9TO!MRgrj`4X3xx-TmCU|oVxKTueuoDvPy$u;
zk}9^SH51_;RYlJacH*k4+a*9pp|AHcswz4e;k6E8p)(gb(Ti7{X{X9cUaV{|Qy2XV
zPk{g&%N9?=<jJTSj<woLz(0s8<8Gbr#%+qzKAh0~JOz{q|7ASIo|*+cd-9ZRn|uQI
z-+<|nUxfVJgb~ki+6F)8-!T1zJWnQLiS`J|4*a;#>dURjxz^zD{CDp-EAnt_@5IA{
zUyOY|_LcnSy{G5jyMKA{*n{GVe7d#&P*Wbf?<`(<&{&ZVZB2K0yeaQkoP2ofSMRRK
z<A0Yku~Y56MCpAVkz#Z;3Q!v%XkmQZ?k;ZkD{zTehYp~2jwsouv7zPI(DO(lHi{gE
z+X%IDO6&t^@m!nW_o2HgzU^#0wtsQo3j!ZM$D&5A<Rf0%u0U%S{AF>V-{D-VtEO>{
z<%8mO5-2_8vde2=9HGs(0poKKJyPN=-#O0kv#^07>tMZTM<q#GO%N&jHR*k!d|#6G
Xx8&4M3qLBf`iEMXfq%vkCHVXYE=LqT

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/resolver.cpython-312.pyc b/lora/__pycache__/resolver.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e4ea91154ccbd75a4f2948057fcfeb70b65e2506
GIT binary patch
literal 3875
zcma)9-ESMm5#RgZmnf3@N@P2AwNb2Cmx?4D7j+^8t!2A4j1(+tr+~qtxgL2->73&o
zvv-tA!VQen1!DBUezTjPsQXkK>eplchrU=<ffxq|bx;&&-{{gn+CFt=mq${v67&Gh
z&F<~a?#}$?H_JceauWm|SO1xFI!nmkun|9rfztmFl-tB6w&IeeQdOF2RaLO9x>{4O
z>O$AtL^D}UHdED<XzOmenW<)ko^U6c*=klHDq$Hmxvfac)tpMs6FYgG*eRxLYlGfA
zON#z9^k=qJ*}E-Yq*?$Qg<)%|Ght-^iQf!0($>zLjq+A42)R`cn=IV$Z9|E)ODu%1
z8QTi2x@!eNlxR52#ZOtsb3)Vg*Vh@x=C}QeYZuwOZ5D*}!GhwI9yI!21?4tjq^j7Y
zs@h6bW4f)fgss6(XGuHJO%c*a!lCrxCR3e+k%}gz@xXUC8Mlst56)Ntqhd$2;d6@L
zsbyQOka5bH92k@)CMY~_Z8*VTtj!vZ#{wE|FzR?PxM9_quplQn-a55Bn>JWj-@wMW
zVX%khE;L&%YcemiLdW+4>NmjLaD`yQZ@V_#04pvN>wt@#x>&>Y>o7+yAxzo+mgoAG
z{me?V!Tl!Pw7BE90~+{kUWZ*Tv(kErUOKq~r}5i14MLw=>ug2Xf*qF(xx=VX1NWFs
z-)64qSxpvYTo@_UBxhlpdzJbCGa@{Ql%K$_KMCSZqClWJ%5SwT#Zay1;p5r>7*ryI
zhJNhjk-MlRy(N~7gE0uf9=`=tx&({}k1$~)_Qf8TQ#^=GeNT82k0MXF$KD_gO=o>0
zl#!F}vuMrrYq6Ioz{H2R^VpqZTU+Dn!K&~g8pdaz16Kh=jN<xb$A-{5kOg24BhSQG
zDo;J~%V?iyZs`6mG$g?GtfAq?E{e$Q+v#^&2t&*LzRVGkfIpDS3=+W}kBj3$zBGl)
zR?sCC-($lCaI20y)Yx9?mgo5)tzn|HJ$rPr%6(#JksdI&!4Wt-2O>aRft~-pUJjeB
za?5EILyNDou=u0)sn=h7=M*cuPOaSP0L6IaP1kLf(L3chYfG(8G&yJhy>P30Se{HK
zb!q(5Jgx`aOa4LreU0=MNhbH7K!^7Gs;(I6C~XSNn`Sg&Vmh>42KuCFzT383j3%^F
zrfK_i)8sfW(trSY1~fj4VhThbeuU4Uz@>!9gA%+3;yQVvCKKu26iLqY)Tu=7;lg51
z!*}^r@qV0{yA|$aUieo6I{O+7dxFFG;n-9il;M*cX#FdojL7nP$o@c=zfrbh{!cKV
zOqOb>Xo#h4^$mCfm1bBHdm5^(U)QS>b^?eM#@U*k0%}b|Usm*KFju!T(4Oq1jEU$u
zbKJ`p*}4Os=m4=7fHSSO8=63sz&D*J6GtlG=!W`WN1zheCLtLA{?|a<CRYibWB+pn
zN9=oI!oNferMq~Zh17Cg;27Kn<3IuNq9O@{lA-dWU?S4rVV%HG_%t*E+zAztisk`u
zX3%c6d>%5}jAsYk;(_NZea`SQntcw$HS)MHd-J^;?|ocY+$k*X7LGkg9}_{0a<OsA
zuj#nCmtpZnAUxxO0-jM0_RS{Y^WmUw6LKZKN5Gu;u@#uB#uZ;7SJi_pT~!bf9o5jf
zzmwqv#u`v`yv0!}Kg)pe7;&mqT7hhlv@b&<m@ghfffg7aSwkL)zey?*bP{(#=?y~5
zgUT!TQW_l1?*4G^=%s){d9_^5EW0y?i4{>dwj2NoaFY*LgDviaA@gXhBkKj*8g65>
z=2B3q7@CAnQr=&p)Rx6PsKU^XNa8P|SOgKXnMBoe49Fp%y2lU3(=!84qOnsTfT!lj
z<l#H#ep&f>WheW}qsf_@l^d0ws!V_5@zl|WQ-_{r61jXYPmB{E=r{8>^0$8c=k$`m
zT78HNFoY~65Oo)nFF=&SUk!&Dhv@kTZlB>0SqG!%3S7nZKXH!69P|<Sg&ynge-56n
zD#%8V)tUwOULq2EEQAMy2V%Fk&i{YV9Ms|=!~j{4(<4wFSUa((4`;-n9Ghb~0ozw@
z-(;O{a_;k0dO;S-(foj7nG`h=&^AaA$)h8i-NIgQAMY+6AI&S#wN1-$ts2}NW5dBJ
zHFOErbi8_`yU5QA;9FqAA!Gx@2c#Yrt7sBAEjH3!JQ%0rW6r~@;4%n+=nO#guKw%%
zukt(D(xaIp4`*JyTfDo_Bg%>8N6Rbs-unI9_uu}wczUOJdbfCHclqpt<L7#sGW{*3
zuW7US9?<~8X)-m3oO!3YQ&@SBUJ)2Ja(oWf;K-`{c@zk>NVlDOC{D=_VJDW_s9>7n
z?jdh@P@@sGoT7Lc#VaVVM$2+4YV-@(MDZ2)1ty4}l247&AH%;G=dNA&AiQ<<&X*p{
zE$tLu-qp|bbTzSbZ}#4$`-l1j)LwcfapLj(kzNAcy(F1k=%r9glZkvkgW7UFQM~t3
zkHG5>D^Kwy*Txkq#&o1vwK~UillO^2-FID97ylGW_z6!CWrzQ#SirI7OCMzMHdK<7
z#PNSqG(G6y7TkNp)lObcga?n|MD&w5ZZvmL0pI7HDE)@K27R3)Az{G`z6%0ErzoGL
ziE``{vhY{3{CD!wC&c&^?k<;iGhe=ze40F><ZhjOO5oL7C2ICF)liB(DAq-|)2P`V
THlJKp$f4ryd})Ww38(xI79jd*

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/utils.cpython-312.pyc b/lora/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0f1391f1182f57356d6e1c0ed159dd630e7e8022
GIT binary patch
literal 10927
zcmb_iTW}lKc|Hp)?jS)B;{CR~3%o#*<qIXbx>2Gf>ta<><Op#Bf!HMp2^Z$<Lc9dD
zDA%p2#vM`9i<n6=r6-vQT_;m{+D?={bkwvDnf3(`=@8z?6FG5b>NnU_#z`L9{{Pus
z0F*#G58WZop0npa|GE5^^Zn=WKPxJn1fCfG&FHUs3Hdb^jHgo1Y!EXcx5<}?NJK71
zg7`MYxVR~3ikpLGPW#RWc~)-;TH$Su+2Zz~J?;oP;?AHm?h3jX9UpVYD}og)Z;4gL
zJwXr4TVqvmZ_vx~wpexC7xb~bJ+>`g6Re5X25aMW!Mb>Tus+@pY=}1o8{<vErg(F(
zIo=X%iMIw@<88sVxDXWL?ZNhVN3bK_8SG>{9I>u=cd(n~ow1&HZ?Ko;U9s(Pf6yQA
z3-)nDGSO-nw>#D!9|#Vx`ij_KJP-`9d}VA$d}nYcM@&TWNxR<Rw6zI7C3Q-*Qlr!=
zHB0T1AT>yJQk&EywMZRO{X}JOxAe61j8xMA<oJ`G6+O?xTda~QE+;e|rK#wZhQ@fY
z`gK0I$3et?(YFQNHfgU|BYDMIX`fgpc|>m323)=6smI)6{p*(C^BPC7L2MM8M1w<V
z>jt1~2FgF$a(pe)ezCQDFI)C*7u#Sy2Uza{v~QQpVh64Uv^Xg3hZ&o&G-ee$q3=Ut
z7kt|%?Z<CyR^3L4t&Uaf0d9x49HG~shIQ-(%3*Ok^y!uML)j1IBcIdqXt8H~OuX0!
zZANA||G>v6sMCIvT5<m3nWLfMV@HQi96$YnYJX``i6#@_n4edxk0um4b2_PvBvT3T
zD5XiNRvsHWmKr^F{`?uO>^(MeAsmZ}VQi&+syi!9CgrG-e5|dXQ%#8kq*Z6Aq|k6Q
zA&JAu#8`A3zBx}O&mJn2T+u{S3B{7*;}Z3IRPW)iES(I`Nc82XGJ%w8^KdejiYLy5
zX*d>>Vkd!FxLDh{RqeTnFcl?{v8WnJ$&z>~d9=W^?qqU2s>o+(G9t-xvdFLFltjmI
zw4c+b|MO`|dv4Q6|M<j(EymyTIRvGQ8n$L3l&valTn}=JMI&Ja)?@SXHJnXOZ80*T
zY*i`S)(go<c+_ZqG(IYcVl**sEHcR2ZY(^LJL?(+49ZwLE-9gSQVL1alM;n&cybcj
zs*U)4G90-giBK)3Vv=ms0T0h(VuMeWM*k;I9h1T$e5rU@ijGex@+n{`QPmp)y#WoQ
z;ZP(NmSss+Ex=idsa8<V6iq~Qr-*h!EbxPEgKSJfa+@fHI+1&wq{(Hhd+d2fFCQUB
z&TzA|R^bie%i!o9e?*f($&nfJ4DYwh9vq&KB3EP~IwmL+lE4NkM3M;wj7S!Y<rHFQ
zBC-%ph{9BuLJbmwlGDHwv)K*3ZlLo%K{%LEntXK|A#+@DW@%0_86$f~&;1Q|o8!ov
zwLF<2KQd2oZ*%BDoKYD@p@b6=i8ezM_+$#~RIR$8u&p5c{@EQ$d~(NRbaGG$gDok8
z)2Zk73|)Cn+7XM6?wFiWCX$IAS7WjG4iw6cloE}}fyo)w@%*@y0Ck}IXWOD6bx;mA
z{lN1v(6gAlKTseTfu7`gNdBArcAjLMBkv|xM&8`JIQE^1byx4Z$=}Ji?yogAbF)KW
z_WCl4k|IUG1_HvDU>@Vb7<vT(>(NUH(fDLcic7H6=-~qAN5C<f!-*Nyrq55cYJN&}
zL=$7lP!g8G&(SU%3#y4g2Ow45rDLa0!KWig(GSTy`N-zXI!EqEKaRf}|HtI2b7ajn
z^1xoXZm-YU>oX1K*6inV9$(H?wE^TrwJ<rWj(B*QX|SxiG(~34RP{Y(D6y!lsBX4s
zA<!A{w-MB5<3SB%y8Sw2K(~$WFu<=q3p!y*TgvHonxsu>bDIAl_YSW$k-0Y;OeAed
z6GMOJtZD1z(!O-wX%5=*@90*;k+d~p;>bC|gC3p({W%S5?3R-$8j(V5t`r7B=yRA1
zLE<;lPI#%_NH`Iq;KjlQq3VlJ2|Su+*;AUy`)%}TZ2Al)n>nd=-37>MrJ=-Hmol!4
zpgo!hontf^*T-`JDo?^sei@Q^@>wOR=~=Kpbotg@-C0+6uAwzo-<cD3=Nh{64&v_l
z4Y9bLpSVeD&$9IG(8B4QyK&te$hre7Gk5#%rPti&bH4Wb?)H2QFv`~ww|D*|MH{68
zB&sbI4^4m{qwP@IBt1KPVAA^!$dq~}kPmmcV8KwSKk!wTm+=MPm#w8GEx!dN_W0NX
zl&;4<L9yWXbPZsdRPiL8rbi{(U^z$VcAx{fdEup2NX8}-5~Fd|s)<##h|0{Qq*_Jk
zYBVCLO}IzM+WsC=lA*B_ICy;nq3G%SR!t2KLcT;7P@z;aIDHw{pj6;ZMS&w00b~%G
zG@t=J2E<|b$rmA+Cyy$Lt0QNx$k{#X_Li)@1u{1)Z-5OqXYI{}f?l(3@6X!%SM7rv
zF00ErKb)^57W+Eil;xY2jxT@X&dD|YP|j63|02@?)up+bP$C?cRA)k((l^0~Zb2{t
zLJD^LLnxp}zg*a*SUpQbuB<I{<*ZcX3_BK0qPekP)yCI3GswM+b(gd=BkY~ymBKEE
z9wTikk+lizouA!>Py~!v2n%v*RGY03O+b;kEnx~^9~5Bb_yM;6fXW3<fBe7jfUBrr
zk~i9^{N-dcp;}}BH;QVLCGgw|^;?)rrpIAG^hHQi>tvXMTUTA$e#916#_2E>&`jQI
zIG4hx=y{-!@pl1|d6Ku2O5b{gkgX7weLtvwtA3?_y>DN(Z{OYF)xLxGeD^vseMeW@
zM^-Cdm><bix2#upW~)1whgYk&uT*EN2j)*a;9UzNizk*F*Z6^)t0u$OXhP?iv@3NV
z#xz-?v;%sLl$te;7}a1S2jbpZ?1s?jV0pMAasWGYzH{I@sJFaui_Sg4rO6z`&}lLY
z-OrIk%^%)sE9ESV5)>}MiTs=iC=1F1-RO^KF(^R^&7u|6Otf7Ar$GZywzIMW%d)*t
zcCz|b(Q?^g@F~7QF-@YqsN{1zDC#CoW1y;qzFY;~THo$3<ZXR|x7LzzLf%Tjg{H~3
ziCFR70t|eO^H+xd4#W$fR+bp3L){RPV*>78g03O~rxR5d(3QNG<*<Z=dp9*fOgILh
zdr(P10LDPhfFK3N1BEu&ZWI8y4z!pF21F?#OS=MEUj@?5+PPN%f2*NRV}Ke#nGP;#
zY%d9e`-MxfaAG_a9^c&Kr2*EB2FHstQc?iOwrg&H8SQ`o*otlAVSkYfCs9K5<Qiy|
z+Q>9Fqt8+67Te=f;4Mr|NU(O4Ev5pik)%+`BoGP<P+&tC)s}JA`@{mO<YTli$`Zs5
z^b{t;kbL|<;K&e1LNszne;-z>Sh=|O9eU!+;n^k}LMkDrCMS~=K&*yYwMF+^RVTo5
zs>tX*Rh#b1R0sMJwsQ0gj^HIoR3}97DTxK};3~g_-_gOTF2*4gO^DL8Y5|w2$f_N8
zAQbT9?y?c;L2XdGLQK0fu^=fO18#Hhlj}f{!Eg2uyZeo6*RN&j`qpgy0B>)mZ=^HL
zJML7kdY)e3-`{m$;nj6dZ`RYh!moJ-@10-ZA9^~L&u2aU8~lf5YV%G~-+cSpt!tUy
zy=!&*ZnfX@&YyVbuDbc+jTaZ?Z@x5tG-q=!oV`A?c<jEddAWPV^p<~R`hLfAcb~ae
z{gXXEv)|u$Cg-cYJ#=em>F9F*%4nu}*Q)QS1$)j@w^Xx4ztyljk!=WMJb{co@K9rw
z+17L4*0a)m$Mm*8^W5?KeaAnaL#Aga+c1>z3}x&?A33)z@rze8Ekl`_J*&>W8Gf(k
z_}#H&xDe*5H5dwGe4?$TrnT~>EdcQx+XDU_GPl7czfR^%q6t!SNjyiMjOS!-#teuZ
zoa{R~R-lKJ!j4`J6N)_08ruZ8Na|1X<=kn}L6<{@qSfec&I0|LA!gtVuIC`;_1nU3
z7!Wi6Ge<|x11MnnEen$ns$-CLN#C^f<+y}kfjPD$jiX<r(s(KsrUC|zaFhd)o2;3&
zoQeRFkOkfS^lkq-V!F%eE86QSd-=OA1%&exU|M6TL<HkLG_yDa+p!spr$s?YvcX~O
zNaLXHo1BB38XJpF8$)_>D98+l1?WR3V$3d;mGmXep==7^QQ$uKZHzL3J4y~D%0m8v
zc;P^S>nsWJ%7p@5gqk^Wk<6H;$h7$)nd1EB(-8KWRTGs|TO=8ujK(C@0$?Ob;b6r!
z3HVBa(*{%_J=(1VuXz=Z1tB^cm!@ZTK$+!2o8?vv;x{+=2Vf;*+zgJw#5)=uxGR|%
zPp!Gza=yCXKJa*NPT!dRlyHuQ_kHzwGrWH<yP?5rHT7i47cl>b3z#<<392<)GX(CN
z10_Ql%R%E311i8_gWd>JOsW}BrfQGM023hx2OxIHg;?P2U~vd$WwaYXUm*ufSfifp
z`$HB-qy1;#AU8oWPab%x7l*z%x9;iAdb+<KS@C}_vFdpyV}FJ@k&)SoSGI2t^d0cO
z;(w*<K-b489F<E$4CKe0Sym{$f;p=U2d9w<)iO?#sY$jY0MR&9(FshFn52->5)Ugt
zXw}sFiD;>Ai)m2w`ftNez68lU`E;Ab((q{|XL<IKlelXaW8WWMb8XLgwtZ-;S&XgO
zIv-S3-*((`WE%TcPOet%S+KnCs>;<g-u}w1uPl52@@wlg{%nnZrE|3=urTtzuX*W0
zrhD(IZ(qi}4^Bwf>^B(;Ms>_PreO_A1#iTsa{yt>iQcG(bCAC#<Q0(KoC!Q?!9M~R
zM9_@9;X%N7y*|wYHK-W?SFRjzh1drr0S}y`)$l|qK+&{WVV74}H&*b5v~w#ym&-)b
zqS@ds@(6*A61TY@<0`DAA2_>_|9^UV^ES*1!*=$7U)Sdgah_%NDJMdz;|byF$&;rB
z1UP~fV(k3aIJ(pwJ%cft<5Rsw1f+ZW)3gAe{0{nc=t!+Vj8WV)Z4eP+)CVVZqR2F!
zwg8!ickql-<<TPbpir$X;HOQStOkSnvEemHo<KWV*r_A0%`N{F=<!5Geisrr9dMHE
z{ohMv_{Lm)%X)o(w!Z)8^@BIu3;e>^BP(g?S{}&^9Jse_wRt3CZ^*ftGp_BwsP`}O
zxvHM^s=jPh-^$bPRqf21NkiWwJ6g@ycV?I3Yp#KuyJOwmlXdqjD?gZhYxYj(_paTc
zSwKMUeIL1MfNXl{%6qQ9t;pVU@5?ulhQOm%;;zb6^{l#jGkmXxLmUi$f_I-NZ%_ZC
z*%M4qd&+G+<<196&;}q62&&45cm>U&ZN)RmvV9b6$QTI$o<+U;g4V8LD<fBI{e^v(
zvBF~Oa|E_#kHPhFm60pH)8vN*j{ts%J4ax9t~TnGZG~KIA%_Rt>>1->t8N6_ZZy7J
zMkRmjDf$FBXN9AKi?HH_jhzqof?H!oc~+8>v8$36y^Tk&N(n8XLHPsRflCD;JPIT!
zMS==Ac?T?}Oz1J^aqV8BpfHGVq7X4E(Xl9?CBR!@;aF;X9HH9?p7VeuOR*ve)xcR)
zfs-Ea31V_8fgqScI*k<XG_**Nebh!ECm`IMNGkeJ(6_vVA=*?_mLMur1O*R+wJ8<H
z#zvzt7y~538snV_TLw5FzX~@`FnnmedDbQKg+Ltq4WJ%9(k?RJ4jZd~FMvm#FYrKI
ziUiuE2LLKY0fWNPwJ-_?UM0(l9c&IhaYpP3!{lRd194SjJAm=#7c8kRnzQUSOCKi;
zP8%DbPn0%@=1H02yf=?o_r%<*2=^e2OopQ3Y%dEI3$jAdVk=$DMJdDmttlz1JkCzF
zL}loahCoSGC*WOJcD$cbt<p3iB-IABjL<WosmmB1?N6jeRj(oJkf9wEcXn#W1ovc$
z=R|ZTB&tK2j!5ht+i#+OhF^S4-k|~y>|+xiYd~in7Q>Su)R3_#aOJ2>(7yr(zk;89
z7ZUL0UBvEuW9s_U8*|s^7B8;Z+H#)yjJ-Z@C3f$+tto43S{h!n35ZdrZcMFv+OwYa
zW&f&YAY&f@XRkMY_4=!e(IVN+Yd5Yf&8&L-8M{Akby*r7v<|Mf9>}&H_?cs^^=!u8
zl&>f5whZ6;+ebCTQTM>!_Q2lwz}}E|Slrf6iNn(HsERn?@L9VvI=p5dhH>48arvO`
z_cA(_pL%N#`^iuJJBORi|JKAoy2-QSQZl6UbI6n;rJ_fprxhLVl=|3dZjPhRmLQ{o
z_eC6ZgxoaW<Rj*B@IGG!@AV1~_{coR!w*h_%b}#=3Gyw|n~gk)FlsoUGvPUY8V}0~
zKELSSUgOG*;2iYI=^UoutXTsOsttoJu=Cj$&L@rVQad~u1Jf$p4h{&ts2CctahuR9
z#8a|@)?2t7ltjQ1c&kTSF=>MYE|S6AqLXUnAwVM0QE;5b@k$p~SL0QtaaE_^bJrT>
z&3D`?7gAl?p-$Ozmsb5+qQGu*bNXHAuL^c+`7a;?p@Yr0cy!Iy_@Mo{yO!1V{TUbh
zwLtpFO?nP;_bjX3BN=zcCsuNldzpJ=Htni>|Hy^xz`>P6E8n<#=<e4SUF%gH*{Y7^
z-S1WPW{zC=6iJ}P@}8`F5KhFm^<~`tkE(^diSzE;Fq?gqd19`p1QY~7rhC=1Gh^TR
zyNx<%#4y#{Er+_T+KtZ(^v~JS!Oadh6pFe=L0t%4#LpHMLuzqL&0`KCz;28+Prw`l
za|fu>ss;WPB{D%#WmGr(<4HmW8N-p3Oc8ObRe0+h&~8Qp=%^_|0@cMnYj?X8Lra|y
zDFWI}JH_3fBAlkU%TwIo*_9PVYoi!$QryC64JNpS(>hFW3#SOsDQ?{q13I;fb;mY4
zP&X-(f<f!u1lW}{UVXFsb+!F-NHsXk(5~80j!s*qqL%iTBhsb^i}Bc{mw+SP{W&eJ
z;{Set8fyQQ6DmM=c5$f+<yx{S%eweFumgLDX?ZBbyg9q-)lfdqF8n;9P&koDY8Ucy
zD5P3XF@0D0(PT2ltWY&a;a`{j1ej60sb!aSbQ*K#u>%V`LuN;kEIOqK*O{MJc`+JM
zn8CbF7!1}fg6z-3FyY>5Km8{l#gIlG0^|e-4;%-8oOAw?^!=LD{(@A0X0mXm4Fbt;
z+=Q$7fcXE5^nO4(KeJYGrq93(OOj8p_?r&G?frlZ{gQn7Lvz&!{D}|vvmfyLKXhzc
z{PL=!b>0dai={Ki3pu_g$G7Bo$V1wk<C}7PZ;tQE@q;<Ok7c&yTRgi>8RA{sy{KfG
z2eWm7tZ&B#@o=Vmmxc2#nf})CEk_<k=Uo<YkluVF8Qk@WtD5uXTopI>+}M*hL;j(s
zI&XnDbY0z?w_(ms8e8)Y%sGj#6V73){dsJbcN44qjf>YWZd73DX~xdOc_4_%o8kSi
zq9t#EH?XSm<!zX=BU1<FN?2hLShZ|aV6Mx?)fNVX`Ocoa8Q)Jo`{U#99%uQ778~o=
z0^i}v{P~02CuTplFXybtvv*tXiYMDP#0n2B&V}8J{KB5BrDnqdRQWG+tuW{6nk9be
z+_xOJcI3@i-n;*<{1ZRRKeRYDEbuLVn5*HoFOU8p`c^bgAbaP?UEjOMH!z#u+0V7D
w`0@l^cYGW8%D)2SyH+~>-v72A$#>o5@1DEYbx;0R|J|=;hfY4iZ%niP4{@vK8vp<R

literal 0
HcmV?d00001

diff --git a/lora/__pycache__/worker_manager.cpython-312.pyc b/lora/__pycache__/worker_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6afe0319975f0042938ef25dafc092b59b5cd3b5
GIT binary patch
literal 12899
zcmdU0Yj7Lab-s%i@mLTb0fGbxlFK(CiQv;D^_Hv`B|D5Q+jY!Nih;082^0v>yGu!A
z!B}yXmY%q^l0Kv~laBf;ROL?CKOOa-o5@T(?Q{lfN?l|lPnD#dX?}DDHkC=@^heLR
ziv>V%Wjm8!y)(FbpXa{LIrn_`Ui_=q>n7mRwy&oW`w00NMhs^!1-AbY0=EcHcqUC2
znK_2RuqAC-w9Z)<ZF4pnx2ElLc1X9S9gB5ybu`VMb}qW+Tr})RyB9rko<(+!UG&a*
z7whNhX?k7Sx9Feq)37t$u-G`)NW-plU@<rsWQc_bE}`ijqxWVmWFcn=@4i8J&pk^i
zt(m5=kmePd?^#Q!Ei2Y&{m(HHWwiQaHX{qy<i$iLaZwPX7R`D*v!c~KpOOVJk)DMj
z?%zwN7f)m}^Qnsv^Q1B<IiAj5#L_m+^?dgH@h@a~A+7n#!7u2<w3g@3zj7jxyd><(
z2_!`!Aqzl9OvH`0p{W;6oql;nNG}0xXbP*H7hYc$BpIUNi-H_a@QEepSv+w;%BGir
z!cs!Ml+;J2`)nz)y#!NpiwI<n;mMrk6<DS@t6-b63l6~+hC)IeZ#jft=RCt(1s87<
z+zX*n?WzxN7g)h7c;_uxi+2e1f|rKsfRYnK^KRaG!#?K|{JiT1xmT(?*B~_VZXqyl
z;XOBO<<ub0LOXk^8Yl%9fYE9l)Nh`*@!lJ@xfZ@&2t(WnaUaB6Y1}Wg(KZ}>1EfXx
z#!}qI2O!?g2ZauynfA6xXy!w!bua=qADVaY&5+;8x0LfS)y9V*mE&8XEcV>Sw?VwC
zifRPn-F*8EGS>qoI)pYlehc3L>AfqVXs6cjYF4}~h;+$yK3M(!t|U&rl#n@n;Ux~s
za*N1B5|_<Dp1@tDL^vtM3o*Bw19$3*Ag*wt&JO!%p;AQPDFunUno6g+3j&wUCU{63
zT+XBgNy4HlTtXDML>jn`U!mmmGSPipBExe6rJaR>qTU&U5>TMDVj63(X*`*hG|v@~
zi8#m(2!-b0g)6C~pfw1K7X+S9WiG~HFw4-k7Oo^MC3a@j>%5PnMv_TK)!L%~qquJ0
zpgf$j=SaMqowGu$B=&^lY!E96JghAPv67%e9<$&qS1Sh=sA?-mX#i>&YVB#Y47sYR
z2(`++hPLXfvP!{)hTUm~BtUJKkqfnhM!52Y66L-=g}#ZrE+9+RIHS!qN6xX(T9XM;
zXvu4&<}45^k0nPKvO?}!W=}_bny;j=j71Z%(_#~NT4OwknvRe2%ZrOEw4CObFa;Pv
zG+2dQOk9g+mKWoa@VcahjM#;QOzX<o%R)xdSSkxfoqE)JSF*{(g}9Vj6*PBM*h879
z#D}g+^F|#X)<L~)Bs61FOIax;r?Q!NnJXnR0G*H4X*Nkn&x?&X989SUOvD-1JXN$L
z&>;jR65J<8hvmhk;ic5lkem>q(V=V0Q~RecPYJ{6)P>=t75P#&GmOGAj6EIJ#o7?1
z*wTvTjK}GY5?^iIr6poU9tSN-cfq?(ihjby)@=`*kwVuPeme@$XYt!#ICT!corTDN
z8ktri(`w|D5;=uw;m2&V$_^^*pvoRq*rP=&ad{s&dx{Ry)~~jXDXn8_>v5&^_*UzQ
zb=%v%0;IN$DQ&cY7AV!+t%hPsD5i#{mC&>rno&YCTcLC7p2q`Y>cBZ=fHvJ*2t}Z}
z=ci6~8#+spWhsRS%4iS#wnxBw4!8<T2b5Nb>5gaqin+zWCXf7QB$5^8@2yvvsC6~|
ziX?z4OG#X5%Py%;k(0Ba7ME$Rz)|)C4JambjY^drE)|qYT*;<*j&8l6q_~s}^_FlS
z=F=-NU~oo6(YVWqeejX6^PD&UzUHqmwa(_N-Mbg7w#-2!(gxmtlV8EQIZ4j|U7sI2
zy@hTFK6G~eTCzd@o52vHIYdET7Bf4h4Dxg}h^219R75SaFW)8NUWitA&z+LuLMCw`
zE%2+6-5smsp1_Kz=&qB;zJM5okY=aCmMp7KNJF(m)$b1=aEr+0Wz4~XEmW6;d~}eC
zU954CT2_yhEJ!s`%8*)Cbvw$MsNHv&dnkh7)+|(6m158j%Yt9esrFwYFmF+Z7=c8w
z9X$@cF7!~?HNU<U>AN*<Mp2jO!Q7|S5K*mb{<1Yzvf#u~NWN>O>_fvETTNNQIR#Fn
zJVhH=?c2RtCYIqDs3*M!-gWZCNm}+6*oH#5T@CM1!g~rm18UC^rRPYYx$V{)-*}_Y
z5>Z<Qm6pLmp!wFpZyYSNcd6|$r9Jk<=WKDWv&BZzHH3WFUhuW4zAnYrm3MaOtf2R{
zWL50o2;3YfN6f-H-vS1K^@5~YXT}?_M&@NrIA+ayk*wKrmXqYmz^ZF@*!ZniV1voo
z7RqZ}X%h?qJMMJ`24G000ZNuP)vA*AN|~IUXD$z-0KGl_*`?n;Wg{~30(Ej_le8HW
zjqjRG_8H}1vo_(wa!H4bY)75xw(o!$GuhaIYKu{?@-=YHT3xPg0o6^716s(&HO}Y@
z^R$)hsHp(aHK&X+LtW0vTX<4#+Xbz38+n!Q0xHrPmvey0RtID0ugQQY52l@2Zx>*_
zY8{l^Q=3LLk;!Pypv5Xw1{yI_8n{Q*IP=-hx!$$iEAhvgJLg_FP*V+}PZ^U5+_`)b
zl+K9!j6s91GpG1%!aF}dRVeNHPFVupWODA8U?-Nxj8=MKM_Kb!wQ7g4P8zwDFVJy7
zjtOUfn|!A%4>`}9z!__vuXwI9^0ZMK+NfLeKpucmJ?|>HW_^vo*6yCw>V#_md1Xm!
z025Bm#wog3Oe{g7W=$?FM_rm{Ntl=8mnb&Yyt-PYW@w7nmAIXkSC#~=MYqE$CLSPU
z3Op(%ofeY8%FK#jOd5u1oKGcXt^TTzx_C*Jz&^vKSG~^z_(4m7niH!X+<YPhd+Y&j
z7HkO}h;#GVWdKm~S&>@}Q5*-Y0rsLcD!{i@fm<Emz-YNh0Y4Zkml7FDFAmlzfd7gy
z%V|t3+96KBlxZPpd1)ytf@M;+xGA0rEhUndA+dz7Xh)%gngfUl8D4W>$Kh*BrzBak
zN`fq+C9k>YgyC6%h#RU_KQCq%fpjvFhM|jMFC>b`XwH>HI>pno3E?6DM!HMlzNXcI
zd7F@BQAC}qHC0gn+dX-CDVxg3nr@IoD4yaqH*J-!3*B<HCYn$?@T!$*I1Lj#o0U)F
ztez6ZtO&<1iS)9dhxK7(5{rW7I(026ETJ{8`D+PAS$zwhf{u!?kq{B&3c8G3mfSU`
z4t+AkvsmyDdN^DW1sUcM3`va<B%C$ay30<t3%xLf3EnURRy%j^<~s_!3PhxRU_XI5
zXqk2e3w=?w?|{;GK<#@`>3cEHcAKOOkLKB~AGeO&bQA*NeEYZ(7%v2)YH&mej^szr
zyzfv(zxXit!eb+CGxQ)h4MlIiwiW0vm)s0J3{Drlq;2#`J?V?S8^{kmyA?gL)q4`C
zKWZ7>+^3GsC}T5QEoaxy{%32i+B&YZju-slf<LJG_bL8;1%E{Kk1PK1?K)dq{rYnN
zM7%93+pn<wcVu;7N*S1Xz)pji+Z0xVQ3bm*tOSSGPd(xWHthM~XWu)y#huNw?T-V^
zYG6PK45)#_O5iYUqYpq!p<|EQF{yM+7Mdf4P^%j1S3>=2XjBP}7NSGn>%7}pXbh>1
z-AZG(+BmH=PJd)&_UwP$-LG~}E8WwDJu!99jIw8@Ffgt|l0xT5F-(F-wuv`bzkafK
zfUthm!zmu_&V<@CuJnwnJ!h4kvmbcQK5C2<8V5ImYV?Q_J(3?hS|rRdW<Tv}j}qun
z1N)W0{(R$s`&~u5rQz_l)fT8P5}UWa=qCQ)y60C<qQu|zF>$$?p0Fg)UTEyR!>Zh*
z!cFEor-0gYd!aq5!t%9`=OYtEE7LH!ZM6as2MIP6>#W|U-+*oB4}VN7uHfUw!1|fr
zKufORClXrwZyxVH(@p-l@8lqSe%S4r>9ziFZ~sh#_5B7G!tb|RW;(6!ciJJW*~CQV
zauTgI!=c4bt+!RM<Zs~thmlkDh5e+uPATVJ=?hjEv%<(oi8?54V%y7Q%icJH75mLg
zE|hI5gCgvcru{N3l{IVTB+xR!0}Exl>$7MfS}@zc%61IeA133vUPlj|%JcJ-ew3}c
zs(x6F{=Y;-wBDj_aTY$Xg@J}PG>4=CgiB>4Igv>U6oiU6lbSu5&SnICOK2zog9^-~
zdQ<bjhGWo)+Nu=a?;{0wr8vc!sK9jHRgd*5xvSi6<+ZcKUjseqZ@{}w3Z7=w)1!EL
zQ1bUH1N*lI4l165g+R+APt#3a4Gk%wp?6mvc=l7AGNOb>)bOMdp4`l-Q(si3zPJ^B
z;jMFz5yQlka7+y!Q^Lonf*Dl&gB!h@Hg)8*GIDy`YH6)sKL;`bTFBS0`1<p{SYgk^
zP1^(iK*1MKeZ7jWSM`l3zLCw=E#INM^N<c@+{Qt9ir)cba0#g>pk)H0U=B^n3k`)z
zF2__B@-8zQwdkwjSxRM$*}rSiXP<{E5~5@S>Rp8JYWwc_t*ZN7tb-dXOzx+R%UMEa
zl2(UC3he!}J4C%az6(H$jt@k>)>Xy==D+2u5ts$+ZjD<g3wtFaXEA00PX$+qI1hPI
zD;x|$XVNRiOi23V1i=0<k_=NNT7t(Zs3@Wy+JTBSy-HF}T@j3$k{L>-ly?^UJ0vy?
z9!#N=Rh<#V8M*x>JQ(vd<~<z+Q2uO}!gi_bGYb36=EaBX5jY29J9UQf8w_Ji@D8>?
z^hw#~rmjKBg2}WRx)KmCbCSGcO<GbUY56jo6|7lvR?(ZYnoV=g`sbFn12(|DYt}0L
zTCt~1HImsG3PlgY6|~A%>+3Q-u;Nh*nrJyQno!zWjUCJoFyM4c&c5m<1aLd(KsaP3
zraIYCVV<{}Yy{A~rBn;hF0BP~RqFsPI(DM`w_9w$dPxfdzcuSs61B~)MrN1c@<HUX
z^Trhk7~%9}OX3DsN29w;aJ*!JgXmJ7GcUZNm*%8&R)#8{SfVjF1^P1dMnrkmtZ5;m
zbG6st6k1ec&o5`>)S_;oiZfWYUKAFy6$Ta)kQlAgl|vQ_Gzix~`-AY7d0g`uR7?D)
zx%J+o+-TlXB3S+@UZNe6kR?%@gVPU`(vYy)wOh;7i01d8nDjI7KujW>8i^^9*j8jD
z?+kzBAiWdYc3a5(lb-RLz90EIigx0S=r-PlPhqDDJ>!t%3V`JkazAks*0;X;^`p06
zR@=vv_A#~nn9_di1JAKXjU9!?*t^o^fqQS{V_-{JjxoW<!4|_VoKk{Q`M~sj3))hL
zDz+3*3`cIC`?hc0TWH<8vG}0%;QBc#x19>xdB^>b-3t=icIa{IKz`4`N^V49Be&-^
z++bThWG6ntBESB)9l9u?3j52@39C)K3ZWe$UDlL8g`D5TC<10T)0E}?f*ydGiJRF$
zRaw7+$}ksFGsDSZW)@Y1EoU{1k2=abI$O`dxG6_d{?z;lRHq31N}Q-!QoLbM;OuE|
zV~6*O<$Q-8-)UD+VrH9Nm6`H=peCVEpe50&dioSkAKKmrmFU5(=wZck7%T~DIqX%!
zdpE#ZIJ910XlPO!`jv)$wP8$Y7~4Fu)$r`PgKGMA#o4YpV~R7j@fCIWm@<6qf%AC5
z*R<}Xy4`%)e-{Hl-}ZD9KwQRoyo5u-P1KM^Of|EqcB+Pd!D_p<{c*)NzIkrTcQo%j
zs*j+0x4~BEUi90Jz}TN~>#iPw7BD)MP8*9W)m}1)U&R5LoL8IF{WlyHUJaIZVtsu^
z73b(f=lJdc*^B|9^4xLV@VV_0V`v7?1HbE*3025Cms4H77rTbDSyGyqXolN&Sm$}H
zgvW~4$s=Fm%?ULys00Spz@!qG+zL!@`S$0X`{}r%eR!dV2NdzR=8l)nX&}tT<F79#
z(xsfbc%08B<8cvHfPR@^qo-HCcs!BGWZ|3z4mKnxfG|Kr<)PW-teCu{pLN;jag|kq
z!<aKzU=Tgz32`45buNinJWpHEY!|ZGw1}sfnkAFb9ABXK@*>W-e#3zW+9GNK%?gJ$
zViKbl(ZjV6Gw9*ILZw>gbmRkFfuOBLN3HKacrGZShcHLN*C$^iA6cySDS*iP4qbo#
zW^cZEKxrJ@vK@r8gS`_UdBgUR$4#9@JAA>!ZwTFDzrhykFy<r??vC}&OLv^#I#P6D
ziktKfZdm_zf6;?6mW11HzxFNPHqt0g5=ZbOi`_oBZG}(~L&bXHs4rR=d+_$jj|qG*
zOHU{|>h0Z+eZhCGy>;!KH{N=qXoono@AhujVTd~p#W(gA34ZTKx9PWd+TyVv-Z)q!
z@VTF)pZEA}j1^lM`{6r~1fLB^f=|(5wIAI$v1z?KQzQ_)FTMBjKdsW>`%nT>itYyc
zGn>}U6aU~W5(wUZc^f~)euq7@F<vC_*__zMPtniVk1-pt=i+xWhz%TLK6Wtni6VFh
zZcBH@zjf^iq#n>01D62TvFvcQ(QV%V@AJF}g4aOK1-uKdab}kl@M_2d?_})o{)L6N
zL0+LA)fsQ&>mbz$sXpE%)I%vh#N7~YSgDJ8w6O6sYL~r|Aiz1hQt{mMw|p=I_r(&t
zZsDLMj=sW*{q}EY+-P1s?Hx_&olTTJp-Bq~3Gb7WLPk!naBv-6{VIpjftNYPdm1h^
zkI!;A`ep)c)5HZZ7$FMhyD51kMs<RI4mkwVxnl=Iok8{g4<N8ZUH-qmogIhK=ohXW
zhPu$h0~LB>Yh1`8K6q*&UCq<OTf9Np0W9_F)}g0zUCiX#^+P1`8hBOLuEuR@<^J_4
z*RIC3?B}?4)o(Kl+&Q~rvCF`70;B@1Q~;KiDqsm0-~cQw2&8LW&Qb!F)-{Wa3`1S6
zd>{q(rJ)&&O!%4s!xFG8+p7R9P3V<?<>#bX3oHQ~n^?BSzFq>B@YZXgd<9$Sbgm3;
z8G^vF3=S<iIBYWmhj>|o*l^_YU_*MdQ-X%#>(Da5IXuP_MfB*Ejegld%ZM_hY7V$b
zfv1}~`m^ik?=P@8UQ6gVGW4cN{1U_|QbA=?4d$XxXV)4~_diGiC+j)^6xS646xZbb
z2{&|;{gJN?QCwJMdlk0#PFi8d3fvH)xJE#6O(hh!^7SLPPpXkoB{Hf;4k?jCA9xN?
z6gTv4ax;1_lOH+^DDFr#h?`J?6Zyb1o97Y4?XQ41*r}U3)L^d??EUv(|N2Ra-zY+R
z`61g4;H+uj*B>`S%XG+J3q9LpqcgID?U9M7j{Bs<_NEN}=_l5V_|4CTW-<yGbx;<K
ztr}+-lsvNvIp$@|UanA)nXEc3F{Li!<s5a!dAVdcN8pCmwDhMvCZzZHCjDP9JCm*g
znVEs7wAEzvtn&Tz^Ld^uGZeI%^`f~##Rz>mH5d<oR(QAbb6@}h7kX6Ms0mMTYenvy
z#-=I$0hAQs6bf$oN}wd0=HczMfoXJ{>%pgiC5S8jArh}XG)Gw!zXF~as_lEaJXWFG
z|HaxGcyP<d61GJ@Dc_h-_a0XE9^Tq}RPliMN8mUl(5D3Y?xeQ@<Lf8!@+V+Gi!EPt
z<GA7*!gKIb%E&2oWL6oO{lGW-sJZJ-ui8DObWc6l|Kfw@^LhXIeDisFN!O?N`&9oy
z#eeXD|L|kDg=^ZQH0@EFCY7eiO?j*7&|9aWSwPW#z2vCkr`LYxl(BPL{^#;9y_)yG
z3g;`{02sqAuj;IV)j4(ej52)Yfpew;tD}wLAK`4>K<{hl{V{sD0J{0|Cm32s?=AHH
z483>IL+RGx#|(y0qw6T+Pcf80uLfIu6VuRp06&Qb53z;KJ`OWH@jRo0i(#d4WXtwk
z(e@ekz1QBe@zQ3Sf;tVt@Abk3p}nWr(FUfsr%2#)-}VGQx;>4}M#GxB^z0DcbyBFM
zIRLT25uQF8JOQG^)SpJj^e3r0a-)x>WBOkPMASE$A0IeCikOJ$r+hljqiB%MA8v(O
zQ>9eZ;|Ki$zoC*>G92hMYQ9SPvYbjw^!lH!lLp5%_@@O5(db;(OtR)Y1f79r21ms2
zLh~qh(u?51T_wZ(!bzC^{~(<|BkX^X?hi@NFD-V)vQ5DI1xuKr4@vYx^2|?M!JA*&
ha&=sH{L-;vVGevm(0_8xeu7~_d2aL<1Os$h{|`fO4f+58

literal 0
HcmV?d00001

diff --git a/lora/layers/__init__.py b/lora/layers/__init__.py
new file mode 100644
index 0000000..8a4f5ff
--- /dev/null
+++ b/lora/layers/__init__.py
@@ -0,0 +1,41 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.lora.layers.base import BaseLayerWithLoRA
+from vllm.lora.layers.column_parallel_linear import (
+    ColumnParallelLinearWithLoRA,
+    ColumnParallelLinearWithShardedLoRA,
+    MergedColumnParallelLinearWithLoRA,
+    MergedColumnParallelLinearWithShardedLoRA,
+    MergedQKVParallelLinearWithLoRA,
+    MergedQKVParallelLinearWithShardedLoRA,
+    QKVParallelLinearWithLoRA,
+    QKVParallelLinearWithShardedLoRA,
+)
+from vllm.lora.layers.fused_moe import FusedMoEWithLoRA
+from vllm.lora.layers.logits_processor import LogitsProcessorWithLoRA
+from vllm.lora.layers.replicated_linear import ReplicatedLinearWithLoRA
+from vllm.lora.layers.row_parallel_linear import (
+    RowParallelLinearWithLoRA,
+    RowParallelLinearWithShardedLoRA,
+)
+from vllm.lora.layers.utils import LoRAMapping
+from vllm.lora.layers.vocal_parallel_embedding import VocabParallelEmbeddingWithLoRA
+
+__all__ = [
+    "BaseLayerWithLoRA",
+    "VocabParallelEmbeddingWithLoRA",
+    "LogitsProcessorWithLoRA",
+    "ColumnParallelLinearWithLoRA",
+    "ColumnParallelLinearWithShardedLoRA",
+    "MergedColumnParallelLinearWithLoRA",
+    "MergedColumnParallelLinearWithShardedLoRA",
+    "MergedQKVParallelLinearWithLoRA",
+    "MergedQKVParallelLinearWithShardedLoRA",
+    "QKVParallelLinearWithLoRA",
+    "QKVParallelLinearWithShardedLoRA",
+    "RowParallelLinearWithLoRA",
+    "RowParallelLinearWithShardedLoRA",
+    "ReplicatedLinearWithLoRA",
+    "LoRAMapping",
+    "FusedMoEWithLoRA",
+]
diff --git a/lora/layers/__pycache__/__init__.cpython-312.pyc b/lora/layers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d22079dd40ffa0bfd4d595fc9649c4360e320335
GIT binary patch
literal 1279
zcma)5O>fgM7`Bssq@QcM&!WM`K%gAfT#z;-g!oY5K!-*_L-Hj`8`DMDb>yTQJ#vOS
zcW(R^{(+^PIB`QvQzcH=-WoP#orsi2uk}8D{rY)cf3H-EKz=0iDOk+`@Ix)8pK%r(
zf0n@)-~%5LKp}!q#Rf5`iA<V78Ja~|nnO97M|o-?ixyCU7Ew|2Oj4p{RMv5ZRA?1d
zb(|%0w1#Rr&XGE8paz{s^Lm{p3v>}J>ewPnbQvu}FaUnxD?}^fqFwr_TC<_3Kk*{m
z@y3|H4dVR{>pr$EvHFye5gqP&+#>{&PB6q?k{7pTWnb@m+{eBuA~tp~A7FnLRdejC
zIp@o*ol;-D*qhPRohu0E3pHn#SidxNZnKoD_G}bke}}abwV+t;ut5+<yPWlL6tP4o
zNnh#WkOX}%ma1G3(KbZ0%MNE;X8qFC#ZF2}!W}ORgW*7)bYqY8z23B5oA$8p%S_T{
zjhoVN-cV3ckWr9TAg31ayaG!>L4lfSUQ#fppr)Xzpst`S;icUaiwA_z7Gd0L5j8?l
zt0$*PpCs<4a(z8iZg@6TF42noZzJMbs^B~2g-aRM4T+m60@22};nW#@bFq=)@x-NR
zQ|hkbcACfzQ~f6biKP^O6bB^Inh86VJdlo&f93GhGi{Q{yRLkEuKNuf%U-~rM@~#b
zCk(>P*pn|S-uy7yy1)H?3p*s}IpH|oXG2Gw;V3_xQ$HNn4TeGNx~*_5tOu0&BZ43D
zHCYhKKiZb?%Y+b~<N&-kF$&O_013wmP8I;%J_79{@O)yJa%}<V9Dz5#Gxd`3G0(5d
G&3^%xV~G3!

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/base.cpython-312.pyc b/lora/layers/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..53d667050b7a606672018334ceb2b05be449ad29
GIT binary patch
literal 2976
zcmbtW&5zSY6dyab*GZi0W_Jk`mew2CqEI$rp%pD!5G_R%m2MH;iZ(*BoOrTpu$^@5
zWl6*VReNaFL&a&~1V<2uUi&}v(i|#PmXK&s54{-zm!A6G*n#~*ATftGZ#*;az2Ezo
z=ihR<41wWDKiT>aA&+n|7;?h&uK=@3EMf@`afO;7ATK&%P2_XRm1+|ImU3iQsVSV7
zoFP}OsRE$_Q{bHJq}@y{BM_0CCYG{7tRX60Dh`yrnD3`zzNU4=vidJB%0if%|MuJ|
z<K$<jPJVu7?(`gd89B#jz)aht*2$LFv=`u8=4|Wy$In-Vb4#AxFfTB(-KOjl)2EFW
zY6!_Di~ipN;-jP{SOhQ$G<8W`dobpyy!CfW?1Jasf<ri4sjW}F-tDGjNh?xKv0kF<
z^`yM94GP#WlqS{~#7MPNnzqt36XUc}me^FS%!*vgT3M<#MN5Oz8uBmm+{@5dxvhN_
zYXU8KkesuIS4b^ShpiDha;daAF5JEXmDk!xN1GXIbVa(K9IuT*E{%r;%z?9Jhq4QH
zu!y-5Do%@;hB+51kWEX>Yls^(U^ez8AgiP!l*R7MSB~AFI$qOF-EQiB+p&Yd_7?PJ
zi|GONe3;rMGaZLIw(nNv?vb(>N<MX(EDeHuRH5tt%~k`qU2WU#>A++QG?>1+bmXHC
zFCU>*$F5h~onW!$Rj)XXTSaA62krK&b%0Q5cS6laJB--;?%SJ?Ro3no5Cmi=xlSUL
zq_sY<B*9*PCFDbEAlKJJUIssIiJ57jp)9f-Ol%ZLf|}(~^IGHUuQ0y89Yu^FK^S4$
zHLr5mewgLx8@&2M&23rKG2&GNBer&I4CBr-o*mexV|S?^2h%kJ1|Ib*bFuAGZ2LBl
z!tj}5Xort-br>;@u?C}NkVIjb+6#+;-<{eVi!F}rMrlb%@(_|3oNRj*z52?Cymy}Z
zH1PFcG0DV4w{8YHm!Q|p#$`Qd=?4dJl2GhKwQ&N*5Hbu!affy%He3E;_g%b+J>fce
zsAgkx3)HPs%Yx+hjX3iggRTJw`Pk_A$uF-^w#@8c;P?2R|J?L}!E)?>G?<qS&mzX%
zhB`0^NfgxQ0CsK$FxcA<cLx3*8TfmhqtPqeT1?kfa!t5K4B+C?A@>CAI{7y5DaLZ#
zR0bJdf>Z0<nnk@XG#>CxclXw2CEM@gU91ycoQF;bKS+P5yJ81xert(gnPc&XV{M2k
zwG7DgC5QS3JTJjIheIQaAz+oQk^pEtz8A_u_t<&<#QFL>TcTLUJbh5I-Y`AAPIX4x
zj@h7=UhlxB?d$kP>RfpRz>m$ff-`R0p)U0TYMo-N#maJ+YB)aI3yR`8nL>^i%Z4}=
zK#P&6h!J)7Z1&8iLq|cLkH0C`$<t9XT>4#|<j!G}@C{yd)i6BMrG^n^jKnp-YliXN
zlIbKna?oOp#ZZ~&&vPiD=h!eBIu0aE*<QfVS|%aEX3i#%yn|#9kTBbDOy74YyvkN6
zdS0k}!J`mL^;XMaWju&)UThlrpW#mgC-`{z-#~CyNF++K_GfX|s&m7+Gk<sLmjm|>
z{5sy-f2=okyjMIPrC|GEI{)*;j}tegn_u6)c<bWbPkXx$_IAwl(ldP-wj=G$MU0b~
z4<4t7K-X9?l3|V%Qq-d%<W#bK-`(+EaXP{SQHEsl{VZ~$qO9FX^$ARos>0pj(MX0F
z?iPxx+6^rl!j(E$rE!%Z6O*@RZ_VD_+uK#?XW`S6aY;TQL>f^Fk*Lb0hs7PM_6-|F
zl@c?MQ_0(<2t<@X#K0i9UV@96{F5AT{S=6Jj3Q#Eqrc0!PzgF%bqs5nO#=y49{q~v
zu|v4j;J4B9p<BDqP<h0|5$v;-xOY^rtMF_Hcks`+uB@+nrl9b{NO+XjM?O?%;}Sj2
zFnO^m{R2RvlpqMtR3c11BH9D8?ExwOL-zfZ8hIcceX1N5N;k#Z>09Y%1XvE~e?)`8
A!~g&Q

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/base_linear.cpython-312.pyc b/lora/layers/__pycache__/base_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da915123bc98cae6dc70833576be2d6ae70c6f8d
GIT binary patch
literal 7931
zcmcIJTW}lKb$1uLcyU1hgg{av4N@j82_gl`mP|SlB}z7<B$h=#B0DKsc@1Kh5~#&P
zcNezEKx2)oj7Y~FlhdZ8rqdDoRcho;oc_fAiaXPpy3>zxMYKS6k{QiZnW_5)1$5(f
z`q6XmVwa@42-PONL!SFO_uRAhJnlIc{}2fH5fp{{K}Kjt=wC?3Dtx0+e-9c<NJ0{$
zpd_hTg~_r>mLYAI;>vPKj<z|4&$^Rt+U6Bc)|>QZeMw)|pY&&2k}Y)Htq9pbG5~Fl
z<W*X;!DNuOeM%@BPKFu8qHiF{e*;M^a`3Lp<RRHM!^DLzNM|C>7@=3Ntl?B9CrdBn
zb5og%Fy?<L|JrH0=aw>WXCyh!8M|J{E5&T?l@v}Ximbc@i&7Y{Y5jakm5tDAazV+Y
zQ<^L_X2Y-L-`T!^Y?>}&Eax<_pro{^JkEZ>06Q=dCRAQZ&B*vW8SN5bgJ6pnWldD_
zI3-H*+nKbSHowG#zDB41CeXMEhbyBbBcUWKF|uolokLTM#NH5+oDWI6Bu?ffUUo}v
z*(14TJ%}8gYsxEmZ}3U4<dgX+77mO{`bZm&%|8vIe6&bHlkq^4ak>-i(h8IX;3C)r
zFVtkb!Kw4?lv@e|_W`+8@-)F<rM4T~-Nt7mgUvC`Gl4URY{3uBp{q<X{B0DE8XZ(X
zRN&jhWcVjRa-u>+mu9yd7|}ZNUvC5P{E%5fnmswsme3!8Wmt?csKk_zXs<4zY0gHr
z8`EyPX*Xb1L%R`bvdU{C+YMM{({HkhTC}}@Hei)y%}5JabI$AU619c`Ye3b^QbO>Z
zjsF>Rhna|b4PGr4WNdgvF_X(^qKHF)Yxpy{LQxad%&cs9w8CZsr*fAu+1hZM1`&4|
zoGL3*<~pA!rj?YcilRzRrMLI`f4(rJWeY=vOyQ80!eC8@t`<kW_T1$Wc}U4j4i#p!
zOZnW;+lrDMB4##3#i$OMBBjDk6lU-)AU50EL;(^O?;U`prT~0(9sS%JnD^-3&a!t;
zbx;2s_d&3_Cw6=2)=*{7QGL%*GH}16Yw6v^cPkwUy(0kwLiN#spSSN@(f;z?zj$}O
zeFP9%e&!Y6&+rO$*aS@&zHI6$^$x1hLY+jK`Y}Vu<|SDX8$CC;xgyS`ZHdELqDfRY
z{Qz&Go6Jr2CU=uxLi6lA5(#x$G+Vdk9W_$3HS%slck%9dcG^MX-sgaVgHFBA=l*ub
zT?C6CdzY`nF0Iz+W~~a&yXSheu!ZG}0o=7&7@M`V-*4bv-jREvJhWKUFyY?$jGBFw
z<JoQdDo2bRzKYMeHQUL*$7s7PPUpBec8-Aygp-&XUaiX-2YTIBd$YD|ecbkE)(GfQ
z(8Ak7owup8za@3zEocGGdK=9xmE<CyH2vh3p+-~U$jlT29NKc9L2-T}-EdqKkKC|F
z;J>~A;D_8<a9&H`!Y-UZ=o+KhnA5i7rmHBJ=OkiGyptoJcR9Ioz;#fHkC?j+Bl}Zk
ziDA$OV;q`c|H}0abH{~SV5>N5@RBwIUbGW>6LH?)wLDH=GWb~;=T#hqQNwS>5H?!e
zZLo>M1|u3lI+GIf4S$PcfRCRbfSiy@HU~cn1rs$ee4`iToP4!_PtKlf<`C0ZhB(NK
zTi%f~7cXgQVpPeeQ;K>rVXr?;$e#u9)xQ#tSwsGQ|HC%aesF==2%|vThiB){Rzth1
zp>Q?SQw{A}3N8k#?RzWjgL?ZQ@s;0O{NAqvo<M620eBdKmH$yE?Ec|t*J(HNI~Jtt
z|4)#(515Yg_$jFHJ^)6*a_l0#@b;4lBHg$fA0X{GK{6#b`M8q91F-0~mDx)`Lp=xJ
z@nqIj3B~nLd?%^lL7<3<5q&{GJVKQaq5w6MQ?*nsEz|2A6Z60c07eU_s}&(&B6A}$
zRaBH2QN5JHk}R3GA|~MqCLRtGOEw}CdF@--f+A-j0+*$)W1PoeEkzhHcsS{cvf<5%
zDunT}YP2>C0~knOmZe62QndO!Y*mnrfW--21p*>gW7-e3q#n{eNWc&PYEEyx^;Ykx
zQ>HmZ9BgHF;D2FQM0eB^;EMhWOh`c8`{%f_xAQ?ubU|9mFXqepN6IbFRb%l=Y($TZ
z%)MNVJz0q*^jKp4<p+U|W$t$HR<ImDQ4XA}xlw0drDOPB$8gPs!rdUdd!hJ)XxH-D
zO82vR_p={sKPmmVv>qL=c~GFc=0`n!4y2Bi1IM@Q_XyQ!CDeN_)Jv$2SGouF?!i^*
zN6H;#J$n2hp}HZU$i6k<sRyyXe<u!M0~|uv^3mHTZk;Gc<Mjv()ser)PrkBiqaF41
z?~GOhG~o1UJ@)j+d-d4SO6-^(JN60mPpmyLHpl&wcMm4ln!#ssl6-Yr5Kn?85(L$+
z1Aq|T_W2O@I(U8S;u}X7z>u#&CgvO-msp}EC1w;L#UVQUNZE?>!2$64;OZx+mBcwb
z49IwdfaeJK8i2UV)IGSIkl|4wpoWiW#KFC$w)wHFHWJF&Cz~nRCeH5xC3Oq{#IqgU
z%ja)jxOL&5I|k;yQGMpf+;~Ok(S@EBk1iZojq1YC{~Ww03_avg=b(AIZquL)vz|1<
za&}Udq)hIjDr$00g-gp$FJMoSHqetl0O$PpC%;WXTSHzTM~Wq(G<%i349*m{gM=JT
z-=23%48c?R7twog{}Ko*tlZlqN@0nyXp=O@DcA){<FMnCFl(nzn*>U%wf-8Uhtqc8
zv<1UuW4HjrLI0$NUP-KkO6;^99&OSvF}~k?o*|m~eRhflNYjzcl~$|7O0JJME10F<
z>Tu56IC1U3iSzu<oVd1gLIXG&6j3ud4=*S}E}s)8A@;ZodKUK^E=A65nv7{dr{K%z
zEnx`M_nU!BYFlp-9|J6dPv;9WBHY#FkT9_{Ou`uaJOM8NP>Blnl44q%*S5E&>7#}5
zCRx549L#mJ(TM_~1+Eh6(?fmhLjOmu)$z*Um_9hRe&AGDc;mD2zdQFg=b*9n`WyFz
zH)<}{=l@xwu0ribzQBjU`QS2N_Qt9$!4F60N0;~BYw4;+cUPkO^yt2ox7VYIxigRU
z?|X%cw@deSEuYrCvE|}QYAt?jb@)f4cSb*9?u<caZS>qHQ$JNcRX%_E(>!$6dd}(I
ziHi5U?mb@>+E#YK-Qjzk*+9S&<>Pll?@L0@^drnwgPY8x)HLx9Rw1DQ^%j2u2S{S{
zX=`Rn?PM|2TYXLg*LgKO(XiH2;x$)^aq=3bufRu2juC!iwjX94{0G>q%d#p;e<vK`
zha6IBN8bYc0=7fS45Ln7f`f58G1@#rD;K%OX(X?p#p#{!ZevbmOB{TQ3trIpi7$wN
zsAW<cy=dap#^QqcdLvvZrr>2XE5n<NWbmm%L76eQoRrBLo+)@Pg-gO{EfjO`$|}Bt
zVHzHef+@)i_C$rg)@-ru<778-K1N$Ql@p5vi6kZPvZSQavSq>~|G*@wHQZ((*LX=W
zJC9g1egzO`pJ;Y*Qif*$MO_7O9aY28rJlu}O8Af-K2!-G(ZfeR9{<V9KYsbMS3l?0
z!{_GQ5JL%p4~OT67hZk;`10`W<F}5l?!DJFP>psiy}9`2%ITFW>(MxvX(+tpTl6jO
zU4HeCgL9|v4-8cXPU-_ED+3eyzyz4x!s!LA(s5AlIA}SF&mx~ml{4Sf&wRJ;Vh8<m
zEgNnW>a7Hy(Sy&FgGZ~;-nldPgVDJFHL7jN67lBLmi~>}(zYAb>CRy+t)+LV1BO%T
z^z9vEDT&>YuEV|k7<6qbYsxS2CXbZIpljcWP3byV>toR6cRUCCfozj$ple4Ek{hhq
zK`wuW{@ji^-ecmP3Bzrs>qfw=#e$jpc&;?Yndc4Hcf>2Rov-KM;kJ;+kVf@R!uxkG
zeK<YV3s1V9ODPqM6`MI5i6L>4fZr$J4+yvb!0^A3Qi?Lo!R|2TTLY*YGVe`Hmd(bR
zS(?es4**B~YXERzx{(lBIJz{pIJWZ5a?7D=q=U38k+>d-uL<!7fn5vdm&8SJC0`B<
z+p~xD$l*2N@aAl$95`&x9@HZT*Mx(cv*~i+pgr5KNBY-<{>@pr92m4`_vs{!+4rEW
zd#z{W6Yi(MPlIbC-&}j*TkCBvt_d&x2BRY<v~##C{U43aOd^QGgLHvJ9Hx}W0DcRA
zx<v+LaJIXd49FFHo2=*qa2-8pX=|MSnR3g3eGdEe$o@59|NTe@{bWq;lz1C?@6V;O
zvM3sUQH0m(qC(n&D8dz>m@}9p0QBYEaAk5DCSD2C8-yfH_!I$80WjR>Y4U(yBqPK_
z8{PuW!{wmOP&G2$d!X^tKw4H5QH(Qq4`9--H8XKctc3#dUZA?*9KO1NYOJ5{S~>P5
zf~wYwo__YB?<jwYxgTk-@uUF}PJ3_7Lz`aIv43@!-hQY?alp6xTk9=!N?~05(G^!6
zK~?kb=Kc4BZ8aWhSRZa*5*CG;hxEKw&qsQG)V=ri=&jM!e!VMEZ-JqQ!y&$Xp}169
zEY%P+SD&SkSwCC_wEy{2|2X*fgLN`h>qqX^8XM-%GRypJ;g;|#MA~(iJzU#In;hS{
zATKG4%F21YJ^m{MeTuZfLdz5yIU0DBp{FgtPo_DQ{BkK{mCC~ik)KZz=C2J2lH^fY
z8SQjf%BUL7OcudWB#K%_QR$<Mv6oJozf;Ip<#Z9=EEDFBFNwxYPMo``1jHSiFF37q
znf2SLYF_UgaX^^(K!Z28AlVg_<sD>x0e!mkj+&Zw5?_INqUb8gpldFMVd{Rw1b%_y
ozeM{1{+i_(wvGUNDIjL>m#FU-sBgnP!7`m|v7s*!X;8xd4YA)%;s5{u

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/column_parallel_linear.cpython-312.pyc b/lora/layers/__pycache__/column_parallel_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ef56580cbbfb15f873831c5f9a044fed9b1da7fa
GIT binary patch
literal 25344
zcmeHvdvIIVncu~eAP5iu2||2Hx)e!?(1Q{wDSFY8Xw#HsJsjIw$6@S1Anqjz2?VHn
zK|L6<mUopk*>zUrZe3A*nQq#eioCU)PA5t?ZIw)?o6WXUTu~`djMHki&b0og1BG-p
z-p;iBedprhL0*vZ*3M?8Jwu**&bjA>^Y|XW^PT%=PN$uNi<o~e{O&1^`>zzyoFyAr
z>@slN4Nl+$Lxk&7pN3&$pV2^JW5hIU?lZHnDPkG6_E}lj94Q;N_1Re15-A_H_t{z4
z8mSm|^f`u|ea_*^zDkx>7I6)```ifIgz|`IxT>#;h3%2*VQ-&zxTdcL@kYUM&D`fR
za>qEqd5se)#H!mSwU2%4SZXCwUE;c2YAs83Bh^!oTE|kWkXkL)=JM9FR4-C%3i39v
zR3B2;736JXskKP06YFv{tY@k9NNo`7bEzAy82sx$rf#108`ADCOJZCKhNGhJR4h6W
z9z>e`WbB3RT#S#4Q8^|BhGT*l35*1#U?hS7{J>x^J|s#gVHLs`!-D8HrM*wZBBR66
zFK4rzM8!cVU4KfH2B`&|cb?}@yi}Z>x)mCgBrzHfj6{O*ftWP>F{Yfui*-*1Wl^p5
zWble8eI*<pqVD>Q>H5IHXe4qaAP)s4K@<X^U^F0!s30V!Hw2=w_$u!k^}43j9m-BB
zn_3%uiZA{E{ta&2c#b6(d+}Teyf+uWqu6cwHE<#0W#joaj*~izN?6smh5m{Xbwwqp
zSIeAMg6fwo&vL(QFmU9fM{J7~XFumCj#KQMYh{{#>2Yq{pe?Wo(>Qm|v$CXMKzfy4
zdL0sP8`U=x+_<SkY17)JQC6pg3G;+0UZb^q&ZmX)PyJae(O)C=SASjw_D-)4f{98E
znBrco)pNC4DE~x@_4$|<de592TMOE4)Y9|Ma~tzvEi`Vytmv*j!E!shCMT@%CN2ND
zO<E}byqyio#&PR}CElvN8MkPwYob(-wrF|t&v6s_WIU&{x{<20f(4^seXs0xHvdG~
zWB0Xe!epd%<j%LPg~rXl&tZj{UgZ3?v1vOG*Bg`gv#ag@vpjNyB0*UeWj;O>jPv0r
z=w3L^4@j|LR>$h)x1*GJg(t!!QjnK}!y<n+I5HBsa+Z(82E(CtR?Wx%8&0CF@G*I}
zjA@GyzcM0%z={{cA#qUs8JQzzK<^x}fdN^J2jqBAil@tif)EHtM@Hj*Z`u|O$Pwh1
z)24_RO;<)@QZNvtoT2lgkd61};?CG;90j#9_I}XVK!nI^+Hqkt2r@h@#)o1;+QPb=
zHeU>jm(mve9(2tTk4d4Sv}H_`Vsg4{AQB74cXvv(-_n&MqtS3E7`P;%AZoKyC*>h2
z96c`)5lUAPkscipf^m^LPqbPhHm~LsFOLMHg5Q=lTuz(&!$CQ1QF~=oJDje>GZ2%)
zgGBVvm$LrRfdNsH)0JpsG<rUu#VgndsHJ3DYBcfW{_^zB`0&Wik?_b44C9~}-*I_#
z-+}$-_lY|r;r^W?SMa-|J1<5e!#k;poveL%XNYmKJU5ImKG!~SC2bE3heiTyoTN@P
zv=09=?Ut)t#=(_WUay?0{IH^Oay02`R$R>s6)j69Q+dlr#Yq+<Em=8-i}Gz!T$>gu
zntxG-#Ei*eu|6_tp$rQ-xXS9JbG_nRpLA|joLiI5U5azpotk7vx6;vluj8Ju;5>1)
z_o1!)x^>DrDNT3W*f+CpwsYptf^Fl~?$r9`x4(AtYx7m}FTMZDtyk`DQg%GCu>SBp
z>z_D&=$JfxwRg$JxxClUPn}Pp{~M+@%zEBlcXQpG=VtxfZzWp~D6I$XHYu%L$<`;8
z)+g_ED6LN?Y`q^=R$m{U8cw;~*Dp_9UMe%YtXGd=2)6A?Zau7QJ)GQnT-ka&Wphn?
zrk_rF+Z1oxeDk8oxXpU?G#Yd?CM(*NiuMN;yHZvBWZ6fR?emuwD)(JI_HfJg<d#Fq
zmP5%cy~>u}l&un#q-@Tltx>TxvOt4kYe?1jQdPc;lWRL>SmesutXEGgRTWk1X`Hk^
zbk<J3bp2~nUz=@DIQ<x-3eVM3i<mPmM4sj}?zs30X7Ua2eUa-k2wb00F!Y%Oqi7aP
zf_cC^$qg6;%QZ)zMX-w2bCp{0{8KRLrw^EgG6<74!KVLym2%}MS1#B;TRE{r{t~sA
z$I8IH7<XeKvrvInD@2Fr6dYpZxefVWsD%Wl=oTtP4+P*UftAN^s2;Ej?rUa^uV~Lc
z?<9BG&{qSh?2$<72)1CH8A&AJj*mt8cx;4^4e)w&nrE9*rJyYPlYCg_837b{2#;9_
zme*w0usp10J_9N)@{A~7it$8fWi>xY^w~TSJbRG!q@!K8_3gaaKG=R%fRro-h63?e
zV9(H5a0vcvZ!i*yMZsR43XaOb$jMV@)n+@}`O@-mwmOK`A_!w(M2ekLYy0w0c=yV>
zr1coBv=u`9s1!XNBCer1l0oTz@o&L<%W#8>Yj3zI<2d&%&{;@r7-w<@F0QFp1*!2I
zuO8*bxj;^mg`D!3G9*f2<*1G%z(9`AUjchNEmh!^zZ|?|l=y=!04@-Y2Lfp`&4xso
z)84QQ{zLjh0Ax3yl3Mk5*J+F^JSGN^p9pe191q8$>576^5{X*3Olh+$Mh4W9<$(a>
z=z)MtW5n}Ur4Br$1MtRL^;Vgt4YX^0d=XjY!|;A}mHW`<oGMdnwX^jPY%QQ(t^WD?
zg_b=J_P>y5d12E0z}A#%*!cF5n@5rjJxW6lrPMyGt(!D|%PH+f6=|!=qKhVwriM)*
z%>q;n!;9Q4!|7WXH|Ypcq;7aJ%{b4q&Zix0%?H$~#{8@Pio&d~QbjaPSGkm{X0oVD
z{Y71(HNv{|U33mz;`Fp1=?{=zxDru_oM0G3>V$FJpr;e5vU4_%X`Hl$-0D-ylRs`8
zqjjtMPB4w-a(vS$01Wu1QKeZEX4FS|Ny!>n$r3pV>!p0l>bAtosb}Q$cEz}P+%jks
zjF959V=`f&snj1MjLs^(oUrP@E$rb$8GfsEylh!7S(|>#X^9jhCStO^cgv7A3E^SC
zRXRlJPmtFHFI^TN2}nW6X`3i!3I*eSo4V|dQG%Um*#Q|FFKtx?(R4*b9Eb-liQ&Pa
zc-jG}Y$z8iXF_TqEL={PiBSlu!sQ|{Y~}jxfBf~^e-=HGf%uS&1)<5EtZ2Dk(UPiL
zpRDsMb^iJ1mAdxHXHzu|H(r@}Wv*!^FmF(5{FA*8>-m)1d&4o~m>pBx{`oUZ{ON}H
zbFW_6ej?#M@ssBh?$eJ<#)itt6R5gzQ_Ag|^}gMBvvJ<8)O9NE&O0xqs@L7<n(3Nr
zQmUKh#+0g#M<&CUIy0QX)A{FaPsU>OR6jDA8!IPIF4;L>!;P=be08p3{*}bWgZB&%
zYMz|z&A2(YZ_=45=ju18Jw|718{c-^bfCW4j>+SxbqzPhXU6A(%DOG{2NmDm$z%96
zv&ZKK6OB8*b0N{VOR4FY>@D29Oce+eZC)bZZ1aw<vU&A3uI$6IL*eC4ZyQGqf`KjK
z9NEv8!ooD>HUVw6{Ht6@PZ5+FkXMJ{2*&e0Sg($_Q!74h(iqx=Icgj?VdLw!q9d9?
z$u+ZWsa00+)EgD)vyO^|NWp*+LXK(dyI|#)fK!!{Y3xkoAPuEk8kAK5gkt2>sXfS_
zVZa=JX(%R(kb&elkDZJ(us;%j&Z_xni$d_o)%OAu6_!=GgIC#QE*G`4gD0IUmy~7J
zHkE-o<@4c@0A&b3sgt&1up~ku(oPi>45$?{IznAg)w&8*P+{dja~K;tLq(~4+Lh(m
znxH0ar&NuTQ(H0-aO#`J^2#9J(KwE^tjg`OxvrqJ{1!YAidt^_uJ@1JI+EP>%>8Z8
zOvbOjHuV~Gviq*)9}AOaY<4j0tv9#My)=Jjp}up{m8x)EKQeVBS<!aCqD><e_jf$;
zQO({vv4xu6sosY*Eubl`YPF`V_g!04)pe7n9=3PBAG;Mxwx77)eqvg<5u1r6eOvGQ
zwkDqct;q`P+39a2T$>WMO{yf|kYl4#NYlSn#T8;CpxJcw2-DvQiXDxJGDIO6gjNM+
z)hwZ$5QiU0d!6lf+Gh~|u<KQq7yIHlHa!XfTyBCGsF#Z<2XmB50!ALs?e6@J6AT13
zzQ{@YkkxON4&otEJ|@OVgn!+#fRjXIi3ASm>*NK<I}1;yp3}T$Wf@Nae5+y+W9_R>
z@rwL3&oVKzs~i+Rw|DyFf~)C4>w$#pz%MwH+y0@$J>9tA*zjOeSHjWt3(nwd|Il5X
z@NQXfx6OAe?j0Fu;dVADejkaZQJ^*uP3?i~1R(4P1OSjkvTw=)0U;I&1k_(mqNK__
zt?EvddMSm(Mt~-xBN0)0g~Am~5LFQtiRe<=7>%Z_r`RM*H1ugR&9p>w2^=IAi%0?m
zomm++Bm#>M+%iZ<kt);t9aV){(xjL=^(?)32=7<dxJO2-#g=i~EcJ=zeHjkVyFH)K
zBjYt#d~<u>?RuvR%**1t^Yr&lesFS;f*I?&{3`^tR|sZ0>n+VGu(ilcBx6GOAuxi*
zsm58$toU~1W@P^9_fOtBd3TSp{YYZN5vBI1Qhs#Nf_$0%oYj-U(`dKYANp!<glEDT
z3&PlXK0Z@MAse@0Q>L6kb`G4+tN3<gDk$pU?3KT8BD84YtS#humduE<*$Ux@=3Gv5
zpT)rFY3`zhG}>kQyS1DXywKsxgffwI@^Vdsg_e&ap=*{tJ2Y<Szj}DBnwQo)G~PAy
zK=UVEx)OTynt30yJ}2sPLH900AN70aD3R_ek*@0hHqzbu+@c2>y+^D*hwZ-HvGJ-B
zD+<R<tbx{Ft)un(nAX1z46!D?skBP0X<lQ0sYd`*?LUjl%6up`JOX~m7;7glkM^sG
z9p9z`qJGBCR5}Vw0e~Mc0KSb>c%JFpq;T`w_^j&9?>MX`XXE}XBRw+&20JVUqcVR<
z<cES6MZS|K>_LY99t;if1OSH7i+Bv+1?7kg5UVHfH;Y!VjyxHQ52;86sv89dXI14O
zVq%;sX26)Pv=_r&tmG4UU^M=h2)t#W1zw=$o2FK%`BR*p)TXBxO&Ifv4Fk3e*KFg)
z9!>*oZf7~g6c@;GoxCK5cI?X+NB-aoWpW$@Idy>g0Rz%?q%>0hP&%h_UE%!3)1e&G
zLX*@P(y14T>b+$+!5NsQ`f5FNPeUPln=<N&b((<sw+%N82JX#9Gk1miBhw{=^c1S|
z8zquJq?ajdN*mjEsVWl*GDSc_y1Z*pi~_)x4v!sPduiuDh4!vUEEJ5$hud@I|2fso
z!~4~LC#WIA8Jq3@sr%HOZEyBYADT12>v+eJbnN(H<EJt$hTq|v4Su_{A3+9YsM4CF
z01c5Pk_RL@Mq*5vp(D}>MAP<cwy+?BfivlBJ!QL0-cfk0iL=FM$+pk%^ZtnH7=-sJ
zn6edccpfzYv9E2s@!HI5$#uJxb-O1WAFkiDnEkDQg`4e&Y_Jn@Qjd~#jk7(;#&)H#
zeW7;er1?!J;VWG?yJmOJ_q>1V)+wd_0KgTODpHjX2QM>JL{^24v*<vG21|1^r)(E>
zGA8kc;SJ*(<{N;?u+p?Vi0LgC*@5)Jy0ZDB8}l-feh#ef92k~sBzF+{H_dUv#+aKl
zPZ}o;*n?&Pd$4Ga>Ff|~U+V7ET#E&@t91j$zGg$8bPiB;Ys&5JD<;2r>^vi9B)$Pu
z<%eNVz)NCKh9&~hn~z--B`GX~ql2J;pqvAv(Ga0@q^5vEiqWB9G$isM-h!B`h$@NW
zKiD6RgyUCKI!G-P?RFvrY`0G%@Rm8Z+adTB?smPYn=%VD#TLEkn=<K<MC8p4pgJ|=
zzh}_SD6=%<2xx|pXvQrQ16ibM<T~xQFlkU~MkH;|D`#mt1MJvAA3HXKVsw%67y@Y=
z4ziQGg6&(3bE*rPP${-uv-;6hI8_9^gg0ZyA7h7xFkOJ0S$iskBkRzje~;>9A{81f
zvbWeDRdK$p(}pDv=d8MZV(LW7U6*ouQtn-Zt+-}fDPL34w_WjVCluowGvD|NXPL7y
z!@+yxM#)bXY4`n3x2fA|SY>8SpJ`@I0^rgT+fMfcddmFSW>%U&r;BFPsSz0!HhT^4
z)!DSL*;M%i(|Pi<rRqFi)MTa51sO(E%O;EOoUT|gSq&+7L(=UB3byKW@tvPazl|DC
z`zzSWOIH`$+|crorEB!tb9|Dqo3sUB;-IMV8gSw)|7k!7qsTZ78x}S|XX*Xx@R(9~
z_Uu_+RcO-HI;(W-OMkW1{l`@Q8}R-oc&e9c+`>S4a3Sx;WOe8L>duUbbJivut@j<R
zA9>czRwQdX0LI<f^S!PQx)wY~Gi6-4f62jZZ22XJT>ur+*D$;1?I&(N@u0@PSdFAb
z&c2Z`tcE2YvVB6?GF2SklHAyFe`7~so}bzp7^`BKei3L#k_}@`G@j}q0Fy+d9>k@m
z;T0YMFcoub=VOdWA^!gn)k1`n;irT}s+~E8q@vE`_~gIC8?wL~B$yuI<&LB@$dA-<
z<_Zp%^x^GQd10QTy}E_tUIAt?VPd`+<|hF5N!7Y+n6O?oyy*e-4V;Y~65xsB1iYhI
zF&sV)Y_JP&-t?Psq@ZCI7PdUo<zjSnSd>5x)26ZTh;#)RnYiRHQ&%dDOWMgsP*5pm
zf7%dE+f+<EEJ(EJ(l$m*`vYNiv_gyvPNm9(0ese3>i-ypWZGJ6mg+amTIam)u778}
zQrkZ1{LtU|p~E$8CW1TXO*ZXTnszTZ_WaUh+-g@Gt&`n~t99BoyA{gy`sTTgo5vGw
z#1&U(s(D+=yJ4<Y@%rbVz1w#0`R{L6wjWD)kNw1x@IDLZyQON{IUBt1<}>A}D^tn2
z*C%X^s$gXaM+Nb6+9MA4ivqECIiOk#7U59DGT9RTA6U%n(1;fGGMC4s3?+_6fG_o6
zA~s>g5#3zofGlTgEr~wov0+nQv(ZPEwYqw^SN|?n8_br*E!rx3{b`iZV1<HSs5!<B
zFk9lr^$-8q0XnV367LPv1`e&v^wcwh8@CFk{6P{%3MN(AewAVMe+50$k>84XR;H&_
zsfTZ@XZr8g?paxJ&))p|q&U%m6N$0x!08O^HyzPfG|&$n=R8)6-=4NhBH1v}R$)q2
z9wU=}m&(<W$M{7PLTO7VHgY8(F}9ICjv~2_kxhxVr8Gm{w<xc=|AK+AbRAKh<0hNd
z^4R03Fj{6(v}F_48n$62SMI#-nsUur9@sWK1VG$1)iv96zXHZ5b;+8|O3miEiwiaF
zIGI@%|H$K;j^CJ=nfQ+$?9Ei;rrefHU`x8aNq4j2Zk_`QxjE&no9#$!=$Ny;Tlr4q
z`~`)lSYmhYotMA&^$)&&uUpyMi&(<ji_Pk(`fpY1W?E-$^YQ7{2UU9tYo^WqIo15r
zsy&Z9T-9ckO}t7&PI^+&uBRQ(c0D#Nc737Zt?jO2^qJwxxt+ZdSB9R?4ln&C6<Q{;
zqAIZc2ra{p8A3X?=P?-J3f$O<xs|t~N~ow_&gpqvkXQu>Y9*2SH9+1Vc|+u}z7mIJ
zI(gaz&4wYn4AYg~pchf{Hjx)5ua`XH6VeUx&XY&Vo)jT(n7kNy0(m3kU4U1J{>qd{
z-an!jC-JND=&!?aFjc=NvF{nB{+Wykv4`c(Pb_$5TDXqAkIJ_IlCAb-EO>%r5FAS(
zTMmS!48UaVm5UV=dck0__)@<5*}bHL&$lQI?TT+_#)MQ<JSkp}OhsnTD3wi0`KCn+
zQZx1n%X*yxNYyET)J%PiW$!~*RmOrRy5#ZEv2CV|Vm2*SPBA;z*p%zVVg)6&e^E#?
z8{QCxH|I3Iu=r1rqz5-I1DgNJhGJs5Xa~qzp=U-cl*25`E>_}3f=dIgMK?fL+*i1r
z?W*?d^Dq#$3LvaAUAMv(U&CI5v}f%k!8`^AE02hw@Bj=yVUEuWq8uK?^#TF{SOpi(
zUu0%YFsBkFQt)|pf(7JM9wp=y7%psV2P4C~d02n){lRc(2u7$o_VsUP<zrFQisLRS
zD)T{J1}BM#41MJ<;W_{+1b`Zrc&(u##I<J>)~ACwLxr8FNT351(T-BJdkD;67sxJ|
zFvx`4s-hfgp24*JFdGZujsj#vbS7tYgkOo|n4}^dFew8T0tScSh=&0YlRbr;MUbCY
zVP8NcS5(kf2$Sh5?mUp4@Cexn2c!H6HUuwe5OLe3Aq)oJPpB~=#jHblw3x~Pp=NUC
zdd#y9UYw)KKf-*jZ4?H1!kk;%xqu!tQX(f2zGaTd<^`B>iIUn*DkxndXX!S|w8AAy
zy0!QDXNjDp+aRjWT#1ri?S1}PB4_C~NQ7dJnb74%=1TUg)wvw*b;V=xU?c!FCNLxh
z1vy<#57k=7bAjzX7%Ea0X24UPjEFz<2DTkKi2rmF1jRj=8o<*V||t<0BiM-}GC
zVy*}(S8eV#l_WhmY}`+b`8y~M6uijb?xDkd{kf^<l8$YPW81u-p0*!T+K(xYW6<Ku
zosiDJGd690cjG%7lT8Perh|9S{OiE?1IZ^|Qt;RG66yXMa@Djcj<)$ds&PP%vaLsP
z^kl2q2xjB-sExHNj`lm=?``~GW3uB}1%Hlb3v$)f=ZyQ9V5+Z2_d}O0Wkv^MN&H~d
zVZ~^{f@g_!L|XbXM}~Jr2Arg~+m~fR6sgF$+^IYE@$;9`x|wE{TfO;Ka3MoA&(lG(
z(W4Ukf;4+()c4q>^8KQ+#fShbg~%dFhaym3hBM$ojh^nbMh`zzsa1PujaO@9c219~
zz<z1mItU#9J(G5brJ5T0%>`PRbR3lczB_?O+I}Isj{#Z`$4Gk%HaojL2QDtBE3mC|
z;Kn=1C%sMHx5@j*<T1JRBtk_HiH3k&NZZZ_vPObh+WEBY;_|eMC6JQMrD;O}jMcxN
z=)-Y%Fk`LX@b>nb+i@`D${q}9`}sL#+jC08a}4Z*c}@z}f{sm!W7FK3cLVPP6vv)B
z@#MZ!%Dz)6)sSb-gWDId=-b}{qX=iqpF5ne=ySSY(dV^K+8}LuYm?P}rP@DfW7T=5
z<H>dH$~uq+_4<Xfu3K?*-+LxiS(U78RVrKOy-EK8#ed*#x8i?7sXUCzpEew!+K=ee
z-Z(2HH|$mLSH1TOXaXjQRqJll&D704GdFa{mS{L|_re2D_oOv%OQ>h9^Tld<%z_AK
zCkJV1F|CO(4yhlWu9~;4^!iw#-93l(vA7vE6<Y;;DdGCkeb>uB*qu1?!or~!6JL2*
zIrMVE_A=9O{nffk9qZWv>KR-9VG1#g?L38+DQhG~sX88sU~B1a0G&9Ayhd8ne~19n
z-R!X3sdbX&&Yld1=Uwk7^vG<e$(!dOsF~*=nAd&EEMGO`%xox<RqR+$HMC*D0!tef
zS50jwNM<&gtqsLh?VoxX!hg<b1b*@FA?a~cAlTYC>AnnXN6Mhm*ff=eY;Bm~LHRXj
zAJiRKm6Wn)p^_C)cnV63t`Z85n<+dVC_I(vjVeG;a{UBPVEjvi2&>qh?0#I^6R0at
zRCs20G7yx9a4gCs_%>BegDuK=Ca@u(>P=*mqNz5k*rV)T%^ro3O+AB@zizdp7vjg-
zYROv133?*KZOkM&h(URfN%t^97u?m)sUv!1)tj8q0`WjcAk&3u^>dbPBPYP24ZT~<
zTtM54B-rWZ(Cu5jI#PvxR)Ea)1@-BON=VfcOmtHRAZ`W7LXkO?B&c_pLn@i6EOYv)
ztiD{Ipc*}eVz^GW9}m?MhA|PQ7hk3{1})D~=pT^x4tf8OJSNtVcqF|`-aL7?$fLff
zr$Hr@n6@>@Nluj+AhQ0SQQdM?=A+t%*`BwbyZKzQalg{If1ws;EN?m=Hnn~ZstYq|
zURx>xUvPR<p@>OG&5ENr7s!;Evqm_u!BjON_O4NJH0A=x)PRG}toe;Z0(1$(8`_D)
z4;S0uE!+1n-B<6Z(P5o-1Kz;l^A*OitBgbv&{4|V1lN#D+M57b5r7zlqd<{lSk?k`
z$<?QVK6y)e8QB<tCI~2RgK`>{U~FX(c3a{E`zT)J<dv*F24x@Hz1A|(Ip&_A6+>GX
zD+aK%YB|+BcYOXEcTfJ*cKp|k#D7e)Cfy;gq*&Im=FiN3p+hzCp2ClmKA=i>lgD;&
z)f%$bP0GonE7m0%U|qC4N-x%c%>NnXA@6H6+TTThiCs2`UEUgtorzs|lGueu=1UAK
zw_BbyFtD5gS)qyr3*d4VC%pU<m@gw&t%gXG9Q8#=W%MIL_|G|w6D-pCm7Y|lr{2Tf
z*sPZhLo_oifvrL%<Tl+LkmdB#v)0!7ZwIV`4Yt*=xrW6xBtAW!MKT~{J$CO{&}xIM
z$0SAPHOKAjPu8A&d3n#3Zq`Gu3FCfI{b&rC@Q!_x5rZCv$HG<(-+0gky)|f@@5iSd
z@U;bkmD%;<ZXO1lu`JF@->ZQ!a+H5@2fYNyoy`icb_ADokT=H6;#7E;2u~Kl?Zyvb
z2yPK{L@S*Z`XceLQqYmWj%)Rx9QB}=0Wnn5GN<0I%)&7y#PEI@Ov3IF-ZGt5uMpB<
zGZZxv7}&KzhAQ03nvSv`K&BAV^YEDID1)XuD2dLu#&$i%bhH<!_`!dIeYtoXMWN!;
zk!qV#(>Cu>YPKb7I&cN<PLoozXVRYX*4{Wdb8_yW;@vS>o`UgC`P}h4cBSQDqW0jw
z=uXr=p?D4#s<@{mKlN!Vybukp=5p+bIDhdOCYTbZF(ufKJcSInfze41lWHZBt1^pr
zW^F$<B1`GJjRotloqa^&J^IBSlmX`Hs+(<^Ju|mw!PS<qwH1*3uj76GDov4cUWQj}
zy=+Hd8HWWlmFKWzEc2f6c2+jVRb$iXUNAOxxLaI*+9rrN<iObnZXz=#D4_0JRw+c?
z&?z7t#f$vatt=~~LSuU$X9cWK;@_u1*@p5eGj!KXT~b_ask+uwZF7p>O@W&FOa<rm
zFLGA5J;PbE7kSiq(q}1oC7#wMyUeCC5+_9?<gsH{Gldv8p>bV{rF@_AkoR}cXZhO*
zFqUElOYxcWT04T8){fvKhr!~X9;G{<bQQ-xzxVyFTU~cslx>Gu{Ku{TVf&wMr>i-B
zFdVu@voT|=EVxF4aF!EMNY(BsRG{2blyv(gCqks!^W@<g4WjDOqF&RK=3I`4;0Bm3
z4-qYTx)W|EV-?n+8o?}@*UAIlVgYX{W4uMbzOvQoKpVQHvb+VH1qY|)B@RyQ;42mQ
zng_mVq4pZJJuYwYm&OT}bC|bQa+uW%Grm&5XK?1ns!;jO7UCkG6URBdlI7&6;Eync
zUmVL(nbzwbSWq$c1w3At1>uG<jC<7&YQ65&LZxyK8dVG&wu;#hq2WgS67?p01%-Y9
zPrLBYjd0qd8C;WCpdNC$wIur761%`ogkTv%Tf-K$kh&MLwVx1e_ztRrO_7aT-;`|J
zsWk4qV^A79RXy;oM`=8iu+?S3?8MeXN(17x*yL{Cba3iQ!qt+2y=wJz$JFtJZ*#(b
zAklS7@t;cgPW|LU!uRF-j^`hGY98XU>0@M89M5OU%c|^?R_$uKg`-dD6eg)8BFE$Y
zFW9DZ4?kS`Av_&MxrQlg;eaxBnZ`&;v`)WZ?kN2mYUAIM_b1eIf_P{x@P*9n(CVAI
zu=6We+|THT{Fv&`sY18(`4(eEpNV-r4&VASYMMMU6p)D(Fur90->R(CHTFTOj_nRo
zAMw8l+>CyUJ~#V+S|j3hvG0PVIripCW~E!^*T<t)vM3_Ow5tDFwIb<{(F4Xyq<@K!
zp2D+3cjO92yGYyl714lyMU@f__<WR<RjIB1L2F_67?J&7zez;4bIl=LL0b)A|I28r
z^rtk;7iik><FpI(3zSG+hKS&|5y%t4-*DlbdaY0H{=e{!p@Ay`hBmK)RTixOu|HTz
z3|A@n>m!LeVtY>Wr!OBAf)_&Wt8YErbz{glh)X`NZlDW0I9Vadc$phlziLY~c9~Pr
zq#5Izyct(=aN&pc4s*I~;B1JsLBi59N1{Gyh;({}`h2L*jJ%qdU$2FLQn2ejxu;2u
zuSBY{Y681T@j8`fA(ShA;=7HkU9??{bY;u4UcJ5^<yi>ji=QyJ(Jwz}$|)Y%P{?S&
zNKY6q!Pi1`LE?L8d)a5Xpp5)3r4|Eg+Brivz4{h;d324GG$w$mH;j4_UG<!yU{M$G
z9DGWglj-Y=IA*YMM`4<B@A)5GUZ{EI`<L%FO$$k%U-9|pn{b^o>FZQ{op(AGe0%R+
zp0p=wp84?5(R-dB>|gNqe1HF);Pe^xxvgjCFT8VVp{C>R{>k!$w?|iFnGVkxW+HQ6
zMb=mDJbU-T2d9+Q?u4)VM;!@Y&wa<!`l`zpP)cz;opITj=HpX8%EdIF>cXT?f6>7C
zjvGErdwXQk9)G|2DWmy^T-{S;=FbI2T$Mv_UxnHfPATKlJBiQzh}H?o4|>Sl=K~c!
zmNK;eF?+s(TX)j0DAt4|g?`U+Zk?h;^1QT$i&YknuF8T`9hC*Ck2e1%s4VnbaL%}m
zeixmT`!_O6qqL2Ea=ASkWvFD@fe-jcWti6w<I~6LSAyL1#o~7Ln^5iSaureUw3;l?
z$ArTDqj6DCzslufxeJopN8@39ritiux{1A1KQbj=7DJ<Gyj}gMN_+NOoWyDJS6tGS
ztc3REep&s}bA|dnRrZ}^iGakkMQwzkt7KQez;pIH*|iF0{=^RB7<|ffQ6`JADORt)
zvSr;tmD#$`LwpqLu=I08i4DoO;blw)gJIDQ+q$1|H9zD0Kj*gmjC%rszc88&#z!2y
zPw;m8&$(Uyg*&xq-DRj+8ZdmtV8B`5!6l9YOL5~U#r;n&aTHh@F?AWfYDn;1OB@B3
z{)S;6#Wz2*#8Ck8R%GAWyTswS^ku^~#CE-~#NoO0ilGUyEk~C)JeQs^v?I3T<R=`S
HY>)mQ9V(lk

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/fused_moe.cpython-312.pyc b/lora/layers/__pycache__/fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4a0fab75b853c45afa8cda1ffc1812babd6663a6
GIT binary patch
literal 19112
zcmdsfYj7J^c4jx84G@n83BExRBqfRvB~YYDJ*<~yy&_p69b1-dW;_^>-IPG#HQk^n
za++&RN;4)WPE4iBD{AwwW;a_ytyDFd<VTcjwxaB&Qcfkcg|?Idrpr^stx0yvRrvv#
zbjC@glALoJ-2lO+DbL86s%?q4&wZc!=ySe%@45IZx7$g<6Sw?Ytm`C2{RBPQV=WRZ
z{}YIt6i0D%oElNz^axG-ri6LKOk<cSZb?{2tb{hlZ3+8`ozRvzlW>eU2yKl!6ICNs
z3D<~=_-%1_!ZYF_v_0-kup=y?nYb@eJyK0*N4zHCAMq2~8Lv&$jnomkDqf#x7->i}
zjx-X#E8di79%-g26LpH>+}A12!+Y+U)i#U-rs<IPWAqG#XoY=A;4?xrmgKo(spNR<
zB7|A^<P{O#&a<hPj}}8sO6x^F6Up#NF(pJ2DUOdv(orEAj{_k@lb4k(8^=$jgg6%w
zV>3LI>U$w7@@J#dyzp8qa|x?}z#7aPPYKaTDjgXkj35Wh$w`st&ZSNOT^qqPYFvcN
zOsDyXm=PeN0l1lrM}e!T5RWAz<Cq6n<U^)XTt<jxQe|;UQ%0C3C8pAuSRxw748_v1
zGOglsYT4)b%%v1Jrgov~vPI8|LQ~Y+Fe`WpXTpeyqj@uD;>_cgIcl8dEZ1El7S76B
zc^hx%%rkb18aFjUX3n%eY}~@xu3JVJ&d%F7hIdT(%d1pr&apwb6UwiGKNr;RhPQ{e
zjkBB=%B$ko>(q$LL2+9+AH-DiZmx#+sN4`<8P0#*I^yMOdHcADtAji&NezCkeuMfN
zHVALrAe^+FYx=y{aVOUdeE9fkF2L7JbQ`oDd2ius%lYT)AYbcs%iUt~k$SET+S|Yd
z!ENN5xc2Lm9@h;1jxv7${3a;D#C4XH&@x9|rAJy{p+Z{~R+|jkgjJlQFoz>?oWzO^
zKA=e<IW%S}V-`O){9E~FaNeVDQW-sR-Xu}K4gy7Eh^8c3q9S^3iJGwJiFIParjt4$
z*w26<(#rW&I^)oyv@j@F6J1osZ4e8SQGFzOLYvT95WFX<%REIA%GB!tUTfE<&}yft
zX)0tIni)LtQc#>sr&B^EIGz%Mq&tJ~RR{6w55~k`GL;F&66rXf;FB4i3r_QyaHvYL
zLN4fGCK8DyW0^=qKz0-xeBTj1Eg<iTJ(DJaMZo?cJ|c`9Q~i-CK6dd^MzL}HmDm`s
zG(#a1{8&-U#FCj*nWQi)7LkvSs}(pRk+FDG6eAH4$1oVY_D@H9Gl_I>I+os<i3%Wx
zc3z#_yMN#1y?k#xHrkt>2I-LOy%LWndQph=l9?g)j%$)AoSqiyps1O~%Bd9A+SUQl
z;ze*iyGDJ)xaaLM)9{#S$~SG9v%KS7uBpFy<i?R)P3Xg#P=PWzoO#!=6*IiE-q5Oz
zYB>0){tzT|eN;dAsD3X}`MO}PZo6E!Jy+K!*Y!bARi1I>m~NTr{u^fd3RDGssmjwe
za~Ed}nY*6>ag&NsvnH4wAml0^ZJdu&Z*mm%6_~-Z=2?qmp1|A{kCs;WC5YGOWGNBM
z<6;d$7iWSr`phg#W7g7e78IZp`aCS9(dwCjpjm6O21@#zRFDGdnzc$6$s}11LY{ZV
zEtF(}&)zzu*hb^2vC9#q>V>nz$6k!Qa(d)MM4=-e|0_Hpt7461_=Kp~V`4lt1=G|i
z!raJ+Q=rvg=BDGZjADgZ&kG@&&;msZ?cgZBWJ&;a1G<nasvE_8nV(jySEBJrUh$Mg
zL$HX`I!GR&4YPYAdV&bX&!}G$d`y~f3Rk2ELpBk`&owF^Xw5Q>`KI9eJ8tdx-SGUG
zxnm2pd2jW*-<bc#JG1$kx|@e@9KPNCxTYt+wg3JrfB41^-gqGX!B-!?AP=6(4W5$+
z&pjF(mbVVy7+T)i{k=E7`^JCy6(HNUEO_#}2D7e~#pH*sodqA&94b^(Y<rdo3PEJr
z0ZKhB@Z+(oiiarqD5&n}*kzt8`bTxYGdY=vh;jH}MTI`6SXCKo%|Hp46<4|TA1fbM
zgl=Tc{wB=Aa%nrE%T-8Ge1!Kh`V8b~iT*86#lK^gOhz)6GviE?tQ*9VdALEGmE^?l
z!9aF%B=(-|ZgHN^I@a-I|Aq79OwN{c$^?POS|6(Kj7#%Nwh50$m);Y;60K3%7YaEH
zw9Dt_uuBZ&GJr%AC|oO^iH3>*@ZMwY7RO??%0x+3l2wx^vyKYC6Leei`Vu5ZDaQsW
zoO%kU<dB@>C`}wgidWYLD$rHz5%H1`OI{XmiV9ueeEcscS?r1(W;+60#gT|!C8<Tl
zIvUN4T~ewp#W;>n5}l`5P}d0qkW;Be_zFsm7ZN-di)H{EgNT7T_^at?k^@LvrAjmL
zQZ&tnJOW}2rQyQav*#k`UmZGeJaTM!=;Y~Bk(0w`kDqv1z>f>07$#O6<CDp;Oez%z
zVF#E$6N|<L9Bjoo)wf$yvlgsRXu@FE*C(UNOe8@tv%(^0YKZ#z3dbRlunU}!OBIZL
z7|@T-Zgj9g!XP?((AkU5K5!Jb+F_d9bgOOCyxy|)0dg$j<Wyy6xdc_$5kw4?Aip@%
zwO%vpYm%~b2cS&x45+GW)M_2&Vslm9A69jL6zI)2g_c4~&G%1b8xH21x^qooxhcH#
zb-Af8Uss<GY|jOD$$?$>tL4BzzP2-08<J~7OC56U&V2LMeAhs(>p8jWxd;7n*Wpz!
z)8d&sw^~iL?0Uwf&YxTLQ*GV3)?T@__ak<Do~_NXL75Ha*sU_V^%1)bLT-9*cysI)
znceb;?E-(E4desuxj<MBgmZx-a^OfV@S+@ean)^a^UMuDVX2lKOGh6C!gJ?-6zC~Z
z`G!EQVTatXW9iLD4F~4j>-^rpVj}D9$ud1eM~s!@3!Ixon*Tn08gEl?+uvpohkVCA
zPfb8n<zpn{zr$>hR+s#xQZ$J~Qyb(lklzzbDZfU|f-W(Vl45%adrR~Nbr?v`d-UC+
z_DTjbx+MMCN|-gx*<mqiy3Wj+=j?OT95Zg_%;2-=J`4Cz&lyPNSsO@4voYt8!$2Zy
zoJ*#Nt~a0z%LZlGj3l^ThAmR1^)ZxT-LMP;iC<QRuB$S-TsJPsNMB1Ptt8_-5gqfw
zn#YPeD;^M@0)RXaQar%IH4qzzwFdrHP;b3QzYPn-IeN|vYfu^n!9)P4X=qGqG`?}(
zA_82w1kQV=o3Lu+XhazE7LG>b3VyP!0De=^Pp}L4%|$;!E8w>j{RD%6pCDfoHE)*S
zE0gHoqkn@gGGQB1+?vM8fL0L|2B6sGNQ@H|7opTumZ&(@cETo1S_wqc>G*U+NKJx1
zDk_Kw?7qa3>B-C;=pV%bt0+;iU7k|k0xwR+Gl~Vpw&Fo?3-}Op7#ADMh}d!v;McCH
z2-rR)K=HgVbAG+V-gt!<J_uMo8W#_T$EUam$B)4>Et3*T!CI+MnHU4-Gl0we`yRB(
z{ihc^i*LznZ+_?Q`)A~xN5DHHgY4|v`@kdjodWNFklAp)ckq5(?mY%xNoIHCkDki=
z`=6LiFVNKso^0D8nLYf(Mm4oAX0nap+gIeq@PaL0-?HE);!hZXDnk}k;e8co;cMtb
zz!6az2EP_8Hs8I5|CwXYpcAIC7B4vec#Znh<Z!nZ>L`En+>k1miy{c3)k#R^Z7X=*
zGlOVWXD&5op0mtZ$E_RBUo4-@-~R|-%6nFrztmTNnl<5?alTQV%d=LX$Sj_<0Y&ET
ztQ{yab7z^1t|cU^k<{m`_zzGu_8B~Ys*4n?77e8MtP{#9Uq`6fD9)~9xT=gUdjKyw
zH7PLbns1uWcT|em;KeZzZXnAc)L?&wb4afFhWTd6anE_Ts8Pr|+CA$rF2_hZb9R&i
zvtGzyAc-gHOWbLcWQVr6xhf(*nv9V01R}YLN5UEc6@lQD7;P0pMwFfP%~ne+jGBwc
z86Qw?LRAChLCUyo5Q_7v;<;#=t$`SW-h<F!MPl$mdcSe`hJEKHeOD{_COX%bC3!hk
zA90_=ZkmRLnvKR_t3lZoqtZAQW`o6$Qx-YZw((&_S|j--o5V^!samRqTy6>HjKTQa
zEzVOs5SXtolks(+(;GP-8Jjv-rBn|IuR<NdYv^1+=XG#S-mxfFvf-|{aO-V6y)QDg
zFS<|hpbyp@#M`$=_YXv-2BLj?$ht-`!y4gZlp%K*;c0Qct8ByNoKg!X4zMX0$)qmB
z!Ur@DSrIATqQcPwnsMuZBoZU(l$e3@30Nv|B(;ETBx@|CX3Z*TEIM|H?+?`o_>~Jh
zIw&!eMzS(G`RXgMGCDVWB694PUL8`mfP^y`Z%)LL!b?c`rux(cU1?K857PHFgp-)m
zlb%e*#-fp;u2C9M)2SOG@z}*=q_{%Eg%sK8^bwsE!FCl<gyM~I(KKpRJ{cX2!v>0P
zYWMo;i$Qwzised-pHix!L)66jS~L_8eg#+)zJd<UQpE;Z8`LyxZ=tp>O$fz3HYo_u
z!K(TvQ$t;rIZK_Rko_BV5Y#2yIV^Yxox|uP&`F|`0!OLF6=cPhP${g$zgt@fld~q_
zO)P+@NwPvjHL0#7ajhugC!ntQ*16a4Avl64*q;?cL}43wV+=8eOl*fa{~2J2&TX)~
zTA&y9EDkOQ!%J_;!6OUqeA~{Yq}+CB!Ig)w89Dgef_u58XX&imvVXz(w`~LYrfs>V
zopRI8e0x{Evm5@eI;_F!1=p&JYVF9i9FSWMEI9Km+jA|wa!c=h`cX^&g7YJP{i5^s
znMeNK1$w!6cdqxe+<Q9T+6heLI`_++`%6Sy5SOJ*ZTP<(_w06^p;su!u4=$83+~0)
zLIc$TYrcLt(4PzJlLPx6_~gKW1xLY2)i&n*+hqT?od2loKbrTq=l!kV-VV$DzP!KT
z=J1W-oPSXE59a+X;LrKHWq&uMS@ANp)lVE2Uv=Ie%KJO>{$2nY2VSBPAMKIZz4-w^
zPuaFzGTXNdac0WbmTfyIvxf={wXG-Dbx`g)_<+kDJ})0WpWXUumhH%QZ8r=KZpj7r
z$iY3i;6XWf@WIP+@OkL;j=o&S9=T)B{pp7tk2+2)c=O$da@{Y;-7h@c|H0^^?qANb
zTbEgXj_s7$&KwIY?aBKaZ=ShvW>L63xU}{AJ$HKUkKXBh<bRH|x-0L8|3SSqB(RaV
z&?m))uQq#p)lY&I$ZvVyVQlJv%nnw7z&kc05Lh<55ypHC;Gl+w-D@V}&k6|F6!JDs
zV1y0-bdCC{=^PD+kRt9^P0t<}qGBh&@Z0dkATXTw7r~$jC>0Ev%YdKB5ct7jmNVb8
z=)lji3Gl;(t`YDnZ3x=RfS(OE3X3=x;ApKO@Uua<5%8-uf-an0vd`Dd*GU%Gk}L;)
z%&Y@i?I57U36zsiRX`E22C%c%2pkxJ4t0xp)-6>TLO?g?(%S^UcGEP-jhk@ek*H$X
z-Y>w7hva1;hru%4aI4h|fX1*-FVYZh00=MAl38*Bv~>aetb@&B2c$!7Q1NiyyTy?r
zkf^#068R(_03o&v2%Qu-$gYAJ(^UV*xC9X{qqA0*5p*G>G2$RN=R@8KOd)(7;}AUv
z0y-~&1M0iKQvc~ey807DOpg#k_y#(Y=t$^X1t(Nrrov13Z6C&8L+6|5kp0w>GOpmA
z=w{^I2p;Vgu44(GuXIsdtW&orrPk=%*MGL<D%lYL6tuC<RiJwDCX5a0TmwD(taWNf
zNtNo#byJ;MM}_ug_YTS3!=P#M9lNr9FUTFoKo5lv=KX!JS<qXZWqS%XW7Ydq`U|#_
zvx8^kt{1axCuql|zVBW{%2***>bh-t|F%4+_u3x0wkPY~v4-AE(SgQWZSjJx>!{Fm
z6$(!H77kUV7W1te;+a#=Xs-MS>#GHaXtO=2%+N{GC0z#RAqcq1QG*fy8>dNuCk8>~
z=N7QkiDiTrG2K~k6fZ7+5?9C5+Iq*0Q7@x|TaAia1=$*Mw}a^eY<F>r6Lf9tN;DHo
zB^7(I*#d5lgd9Z8Yv(8GX$fqHmFyHE<4GZk6?_|=-$3UEIs^a{?29_>YwCCS{PQZ%
zMFBXo<BN1AZZV2rbA~;ZZ)~3P<XOLZDuAa1bJk_X^{#i`n_~uKX5cZiCtu%u^Q{|i
z<?46K^}BQR$L0FtbFPAm@&|J@y&u-}uG%U0RyamjI{*F1ok(uyi}KDFKQ)`&o>hjb
zhC_%o5vyiXwWm-;IqFyaE=Th}1YV-S<xKk>&4nv8)wnI!Fd#P!%(?$hdw41H{kQJC
z_0W@h{(}7cg-7kL&3PU(tv~AAm3Oi44$luSzL{$olv@VDQeum9&i$AP!X8|Ee_3q5
z+|m!R?IgAZ_~|}WjLo^aWmor77-GAfa~5py-!NO$-8vMPN)=hR6i3OWn#8HTF@4hs
z(&0>pjV@|s8IF44Xd1dzeGG974LS@qa%UjPjFl=g8!|Eqf&)k_z2doN);9^Lh|Wn_
zz50fHDI=O7P3RlsrEnue1IWoh_im6MKdXvo9E>fD@XAxP1{dk%d4{bqZnptOF>d$I
z(HfK&&$=~VWNZxD_;a*I$G%_s*ci;IXFfJ4kAIP4W6;K*V{G*A^-CWcgE{rg$Hu3P
z%|$pwi0C~<e0VxRo=ixiB;B;^IJH2(*#leUma<sm?_ZzIS}CygT9n+R6p+nuSV~Q7
zDaC8l1k_OZKuSF7t9T^Ue25&wX{CcX=ocv!m3zhW3`z}F6bar9OYK^pc7q-;I#SrE
z2cEvv*7fy21716xw$ugs9mWFl>YcEKnzn?jGfk%fCW46!?Ba?+gb2Yz6s*s|pe?Lg
z`g{k94w=-wW;}@=3e_oK;3j}|k4?3&SIn?SEnpm3;3-zv5Kf6IM4iG=vL1ULD8)%Y
z2-%${t3;)3&Gt4L<wW4H6m9i0z*Z_LWUzo=L+2fIrqMyTQ8K_$tYBAkkymVZ&I-0e
zMe{`jJ;F_N7Qs>Mq~;jl*&@Qlt$BnaD*99pYiq^?9uIO!+Tv01%$9Xn)F4#{d~IR}
z04FfCVX5HO_oZ7>-t7U4#r=z4zi~)*wco4#e&e0S2Lpe4;ExUfXbb{Kd&~p?!gXx>
zUh{XGm)S-gw)Vl6VxDczu_2ia>7hL`EVdk0w+EnVO>3^YTdwZTgQ4w#8wXZ>jt){@
zD;UgdR9+DiACcK3df}UwSGQq#mHc7Bo0qpKf7r|~g}+}&{}r03wssup=6q|Ayg#ZB
zEWVMe-!^yZqt?#b$G<oH-QnDp6Y`c5xz>{l&aw^N?Qm+pG?42#D)$_HxJ~Xk^TBg+
z&xObAYcM0UP2Zm@&A(e+KV)C~#7DKAqMw+lhHkPZ!Sfo9zq-cE1eYCT>G4A#;Mx*`
ze4r{HiP(>j*y1K<d5W@FeKAprFN-x;ij>6`H#ti=(PHHwcuBp6OA<ZSU}2)>oi>Hc
zGd(Z!BA*e1nM=GXZ;Ns!7==p(*eAhJur&^5Qo&uS1Re_6)g3h=3QGd8Bowa#Um&81
z)%Je{TEu<{2348n1Z$PzZKav!b)u{kDWL=tAmcS^xjQsx$uX@m)4Dh*Gh6e|+TXPe
z%MZv*VDZ%tnND>^*of4PD(ZVw@$rdKp5tQ4i(>I2mtq->Ma8l5k;8E!bLQ`1w9!h#
z$nw7gso=sH&Z-UPP06Y`qg(WYEmaXp!9o{uYCZr~rZ@Kku(E+Qz7664WHkaiv-Xmo
zqfu9pP^K)@tcN-z^P0TQlD{l(Ras~$uS>Fj(;_k7G)azY^gE}ZT?Vt3qc0x^9r!xL
z8q8XwMKo-|Q-%v^H@0vVw$qJbRc<9UjTg4HJ(BlZCJwB(zGYG`kb(7z%OKPxF={F`
zu9%jATJ&WAbYby<g};rnNOq$`1$C1j>)aro*q;G61jHHL1d{BW?VepbW+2ek2nMS>
zI5y$IIDT^;9P4;6TBN8vRBgh8as1{yRITH|2n?${I5*+JIDT^;oa=ZnT0E#cxHjRz
zIDT^;T<dr+g6}F1%qBb-$8XL9vzCVi(>n(VbZ2JThp+I$6x<Zmkh==UMO~AG1qAOO
zqkI%llMWF?e;%woT}iNSB=#F1UPG+#JxqdXM7Rx(Vvh4k0jHe`;@?LKg;?oiN3o8j
z(qJ<=jiCgY6YWHhIVvV7Q&&gA5+=HX&VNJaE;x#r2Q2Q;jZuKqPL_bwj4VnCMoS5h
z)GS8e7897Qs+V;Y2f5J%xc;hQhlKzVBFYdI;g?)hFEYATTz|_=i~2U|#J>iae~p4G
zLJl|XsxDe#&o*DK!DOcMqnd`_u35bBTg^+f+!)H$Y@a)pZ)jZ<Z~yYGsaxK;)4FHL
zck3H+L(k`iJZ%Ozd0`u~-r()i*)4+)8ngS)<k^O0Z_T^XytEko(A$=8X@5U*E0Svg
zLyfawe-Q}2fA-edrRU_p;DRIH-1h##TL+ig<>nr+>1f)&U|$Ywy&b!6&vxzoV_z05
z{Lz9UZyffYqf3qV_hv)SY3Y{Xa)GNuc6ERW{(_hd>{^VypSqP=ips6Kz?bbmdH?hu
z4*y{I;Zb?uB>1xINjO1rd;XuNW}aU-y>xtzf9&b||F0C-o__}Y@(fD(p{MW3D{zRU
zUSLpMVro(t({2UVq{;m@yeU5!=fy}oCT7M!+v^XYD-~yT08xG{Aki5eO=+4Fj-=_C
zLobty#$xciFv$mF<0|0AJIKMYXfim;2L(PIkB-6p+0ki;jEU;~T5^Rh442`ZF)@~e
zPdYiq3kY4n4%<8y7ll6oT3y)x52O~s(TuJ&%<F?1BE{m>d(Sf+>!9ztG=G9$JMPxO
z8s1N_O^ZA3F^{}`S*DKw)HQcLuy1hFb>%s5Zi1yE;1!@MA7i8mR_i9TT7QMQLk|IP
z$2~#eH^I4MR;8wH<5s-Ut3r8_WTs(VLy9MLA0YdvpWqbC+clSY_pSN2a^5c4+qGoL
zdiUP9$=<zLX788Q7U6$E-Nn`@U5V)QC?A0zT!3-lCSjr({uYDq=a6S@BmV+IX7;XY
z<kOY+SLJ<hLhFMQviHQpOxAnhgDbN4LYBF(z7HUuI={m}kaYySD<7lLe1%%mZZF)D
zE5Ao^hbAK`V)?~U`~XO!d$4OW{%>pvP7GL%fk-D~8J4}_EEE3HxK~e${}L)K=l4bA
zw`JXcl;4{B(16(<d4uax&#J4dV<MXK@<I}R4nw`XAyo4I*T{S4I^Ngk{GmY$`sC8b
zuMTn>UhYpu6MQ71I3q=A3A8JMR|ey13=vl3{=8zr8zG7re)vQ9ZQz95A{71;P>St5
z`DqejRU;s<6;PrG1giZWQUsCxcT8GEZub|jCz_H;#YTSRgI6plrD07BR~>~v!#pTL
z1pIy!CM~4!9?!IZvrQdW><h(R{IP&B9=^;-h!#*_kkKw4zoYyU&}qkrpFp>KcAYAi
zoYtP(`wA4i?pr>^SD~TG+J2i`+I`=ApZkGx>4@BQpg=*`L(9WgKIqK8bp9{5Ka9xF
zzq*2fg{B_sj^&!Vf)(C?TN+#6cinOo?C4`Op96hhu-Q<kLdr$CyahK>9*S)!c#&c$
zwx-}is+y{ATB!l*lM(u=$?7afR;q9CiQ{$J`Z`T&A{5kB7cAISnxX2qE&1iTodq=+
zROa-oRH=~}6JzbZZC;_^RR~gBLr>fT*8XL0b-@a6D92ZK({%%QMjxa39O!dWfp&tW
zw#d!lLKOzND6jwB_<VfvyzFUT!IBDbnzH!{CI=K+*Kjj-BUZ2iU1Sg`25e;u4y2qq
zqgCj20h^z=fm$(ZMSN06Tlalpqph#eP=d|##6(+rG1^l=N)Owihhev?vHiD?e?rk}
zX`WR`-cKY78TC+$a0+JtnWS)e3by&f$)xZY!r%rKY_yA@Z4$g7lBo)Y+VCS1stG!a
zWLUK*2;)``nbArc3Fcs?3b9eRV8w;?-{B#brpPa0s6UQTOOj&Nu=<M>Vf@_^0XH?2
z)>2$5EryG~kAvi7CI+Cufr++|M5<{6f0ZAb#4A(9qQ<o!w;-RV((^P)i>)DsamwIR
z<tSF8{<IHR%c!<B;V+UGG7-}pJkwJSeX*RXNWvc%BDa}|oemjSa$`#!X0%>an1d?R
zJ1qQP@WNM4iD$tnm}#0`u~D?|CzR{QRPB$c(BGlE?WZO)ZTgg<=z$+ohks1%|I}mx
azYUz9+DHsgtIjDK-Jh-R{**$3)b?**)@Nb>

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/logits_processor.cpython-312.pyc b/lora/layers/__pycache__/logits_processor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b3691a812cb04dba7fb2fc3286c6b5318b7c5da
GIT binary patch
literal 10762
zcmcIKTWlLwb~7Z09FoJQ-Y<)K*b?=iWXHA~+p+w}Yhy==6V(Bf-Of^+p+t$Vof$fo
zLL*M$Z6##8w$K)G_9xn6fy!`-xL@^tbw5+IKsm7k5(5V{u-T6Q{h%YKyV!oT=iK3p
zXqrq?w7$0P+;i`_cg{I;?s?qHfAM%+6qKaxgTz#bqJE2jQJ6|&=jYJaqy$Q!lhmC4
zq~~Y?TT<3JD~)}Yq%FnFF{Eux+Eb1>2Wi`qY|1(3Ou6P<1ZI-%6gS6_wms=ddFQ;O
z?MV7k{y9IiS;3hMq=IunnzB$YQG)9#CAh`lEvrt?T+<32=DtE;CQNJo*CkPrqKUL9
zoXMo)i3R9$oy)v&ssdTGJqx13D`HyCNPH?Ih)F&hm7>WcG^A*HSsQFT{!T_p3cQ?H
z6=7B1xy(XBkzbcGF;RxapsV#lCKjE4y|Ua3sd-Tl5@{sCAInLSm{#~~GOENgQtB%j
z2!?^c>8LE8i>`>$TM1<m361G|=`~jYcKR(8^%o#^kwQ_=Sp<5{Dp*9DU=<m`Cfb+0
z)zkF0z(BvhPQP7ricAL#2#!?;)U4o$b8A$b7MxePIhW{0A>XP@oZ|p?SHT{DxhmKT
zu%`<40qm`U{Q&!_-~hn>DmVympbBnsQo^7R1iqTYW}#VZsiKk<TCOs4twO8F#4SSG
zRoh$}wuN@!bg~Yo9S!<B8}t)-#95&WR_-8lbT`245j%xF4aO=`{kBnfM=x;FC4{b0
zbKPQ(&?oL$I#GuMltI7ftd@fqio1k?t2Xls^{r8t=(+wksqkK{twt>kwTk{1Xq+nq
z1(huHjug#iMJWWj2px|p@>u8{P{ojV3HDJa31hL4k_jzF(?U`VDT^Xm1ZF1_v8a;B
zq(hlFcI)d#g=kiRbpbmR6$DYxyD#F#$R(rFO2kFxpOO~jqojo-&BG?(lei0x)>0E9
z-6rN@0v1h^J$N*v10mdy1`%XOo7jS~k`<4Jgs2h?VY302crg(}H1e#EBQHiJ;D%Q+
zd_0#-@+lAiZ0)0=L|PCpg(_euE@e`o3T}unjk3cTI%HCYTuWk1Ok4yJky*Pkh@b^(
z@WSD6B=m!LXeN^u#~xcOoq_cTF+di4L3rc57!m+4Lhv-#?h7<`l^8XKNJ+En>}zce
z-aMn(!L;V2bj)6*rf7xnZ|7G~{SCcIDdyn1Jx~25cnw2MX(~_WDIN@&Uh)=zDps7L
z@>YOs=9mp2!{bnj$LKfKf>AJBdQk#Kt7_C~^yL}AC0-4CR;ZiwOxUe4at^d#V|hN2
zPAEJtq4|`2SfRm`a7hXI)Er8dXq$x85D2}56a*;j&}_1pjMtrv2%3}UW67v2^Sq4Y
z;ztjKuKe-k2_==C$R@JmN>qZ6J$@-S_3V-5DRCm1n4ie5D2ti&#KmMXHId9n(Fw8x
zWN70y<+FyviDXx#HduAFcFP!BK4NgU7qH|XK=p?!)FVIT^sYNpw*4O4S?U~Iv;E9h
z>e{zvyT`VdS~>xAm0G*u;lAH?>~7n0(Bkg59lF~#g{{)ii8b5j?BEV8M#a#F83o%!
z5hBpor1I2~F;ewhGC%%q=bMz&0#MjO#HjfyY({1HG})YTla@MRSjP23Qa996FI1~T
zHCD@Hx@P`ioQxmi3iZI(bnU(M_lmxV>WdWEh|~k!PlX8=+4{QPgphzL>iYp+?QcZ=
z?!==wuZHlj>I)ax@Y5rlkz>&$nC}{z2a)EUMl_Q-=(}pk9aMdT1$OZ1k;}@NxWdPx
z*(WI8hZHy57{;{Ib%-8PeM1Fy=;;yd&4IInfRkT{g4>jyAbl7~-`7akk57IPaCd5y
zWL)))7ufNq$UsI~;CB`E2?j>Lm4U}6zXG^Y7^|nY8QT--STZMw{6aQ|)^lF2g#S+v
zK8}P>Hj;d!WoBSjt>#auzNrE`_4JtPmlrcRNJb#uNyJz91xXZzl?r!YH<QuWle>5V
z**n^Zz3*P|jXI2;Qhlci>?y*i=1fH|@#wN-&5aK}Mp7`1)AKAHikVIxmSf?Mc#XqQ
zLsAI=!uRzXG0P>(GWZk8Cs>xBhbO0)0fS(@Rq;)KM$?pHh6+pgzM7J!1zX;-WQGX4
z!$6CXf9-Zsam22ZZ2@+jT<c@TNK_#VF@uutrbt1bNXk;H(b|1}e<=a2?Yr}g)~XxA
zvWkQnV1O*^OXdH-zZu3=@sA$8ra+izS=v+631EZoVO9DJT)}Q~MJ=JDttkz@k>gfH
zC*d2RF(n0X(TUWQ_fJ;Qj+VNn)Sp%Vy$S}Hq%4gXt=;FxY?bDiI<NwVD?nux9Cpqm
zsLK?Up#H;3t)6;oQA~$&GA03-=#5pf5RxOMa<YP1!7~RYCnrNEp3}!jm=ZevT<E}|
zsmTKeCEN)&ExU2>A8q4_bUbX;Tye-M_>0kGPTU=ZxQztMsQckIJrqXCYpx53_<|&5
zB#lurQfyIURz)czYaYW)kOLPIb!#qSFGwar*3-PCBg)H4G`1`Xnk@z1QnNwEl+@bD
znC^kHkYxh1go(<e`Q1sFd1);Ko#eAsZcAh0$xKusoM=JOIIJ<8gG@qv&90vmX|`l0
zy`Xh9$c@mogl!~Hl_r6CX+Ks6ppsFuFzP3vtJV~g#Ha$fE?UQT#Kgj)BCn1%GRbw2
zFW{O#f~|XnDtjp|aQ)!s^u~0tX<Tg@zvn)D+y0sR@cm$S$^Yh#)zaiGQx=c6Y^AuV
zM=aGl_|fu*%Mbh=C4Zpg?<)Gksy|%vHy8aO)gLN589?Qzrai^ruo@gLHMMOX+c@?p
z;Ouo_cF^^x`LPwg^fzxhH=L#B_RZHeUMn_7)aJ<TuHyb#75+ER!s`RUvYjk<NDUr(
z=&%M3msu*%t-rS%aKh`FpLkt|$9P>gH8A{lBflIed0KC{i|x;<?a$shSUh%CJ$AOh
zox9)GedEGkT`mP%H%B%`3}T(k03o&)7~%Xy_mJuyD!8AyKXLGr{LMV!bxie--Jbo&
zxBuboe`Ws7_0O(HR?DP!?fK8SF`#bpAZh9Dj3McC41A1P&{q+Em4!xQf0d_?!#MF~
z)w3(h=%ZEM%2H*uOq)<ahKG*7LWQj}5-uklf(q0P-yxmE>I_!k12K!jY)QgoPexor
z@m!K9!>I!5UE}0q7w6A${$Z%DP^G<)92VIwmF>Fmg39*S!uP|G?Tfd15T{pVd$*X+
z*nPVE>_p3>n*N;E0#9tRnCY?MRp_OOZ2ub6n`Dp`4+Z^Z$<v0c;5dP*mrsH}hZ9op
zAh`2tia_J3=T9vS$1VDJ+=kC3Gj7;jCT|g}AKPwKzAB-ieoTQhSiggY`s3eCgSCbR
z+xz?Ta9~n5hCw=P-$6(Haf1#k>e&kX3o{k{Lk}?vhu2&>lji4>nb<N|;ILgf3;jeZ
z;e2H=niVxBmdUR0x{ea{WOmh4I)~V=VnrfoR0TAY6-&vQ>e@Jqt0?pbFjM|dsEAE;
zdan7_eK(kU?4A<K8H&5Lzp!s=+x`i6le>NXrVoI^v#;Da{7=V!ef(4U*V6zLx?fS*
zvqkp2%APNA!L4R6o6a}rN0i0s0z2mP{J$;5^%UI0Wfv9bFFPqupvVoV+(60SQu2=#
zf&;~1SPh1^`_$lA!9P~7ugq8ik*}>b-LmVa0h-4+(o?{{$eJUW;upoJpn1(r$ImCC
z@?+7rx#LcP@L|VUmOzNLWeN9WO@X63+Smh^ZF%ea4CtSA72-R9sCwE~cQ4tDy$rK#
zSLhYo(RFsy`%QTpTq(i6tv?<ontIu$Kvb)jdT~3<trNA^i`jK6Ay`&nvH!&^LPef#
zykdj3%!t#VzTsP&cQK6C$JSdF8+w_k;@^x94ZKEc0=;$egFFNBwslgw*$ZS*UB+5V
z-9~HonP-;j@L_!4AA-HSY`^Tt+hJuJ+7rO96X9Qm!`h|L?y5$sUMzo^t)ghqz}$V_
zsx;;1D!e)oy@4k+=UHMa@id~Q2&UKRq%N~S`)CaUfY9rIvRBuo24h5HR^j_K7`LMr
zGWOXLo=(&hh%i`l9Mk)n0`dl#f9x<a36L-BRC6!Y@sRay(cqhWU(EV4(D?+~erkzZ
z$k(s`m7l30A3(4xcqVYL&Iq-H0ZL5~SaUx(tG@e@8Z-cn?=D;NPP9L|R6qmjbBo8Z
zH3hlBFNCw<?#)@{9VI0AtN(@qZqk~`DPLj406CO39ZhTYYz7jvxMoj_3-Daf*DX(n
z_h{Tta#6S@PKj^_AZQF;v#sa{<KD`7A;fTa4<Nk+vn1q8W5iTeSt0SCbRK(A5A`g{
z4p~zwm(=K42@fB%CcIjLSK_V5ik`~Jnk6->d9%4R+~@I?dqJ&Lj;6A35)8-!T#muD
z1G&x9><LJavN`g+1Wy|#mYM@1N8<1~5;F5}D<Z}e%?-@rjafRE;w9WNnh#ddlb;F~
zs0}1O(1I~Q&Sl}QPQ;Uca)Q+lqhXgGGt469pI~(XDhw)743&eX3g7^NB72$xBupCK
z8v6BfDfl38wIE|0LqZNx=^2`vM-l1ktqz<cFEQ`<%}a(Vq%BxP#<-kBAHj}dV6Ph3
zTMUe<fzj=kZvW_R;LMu6<nAcA_d-~4J*{$sYcE1T0f|fRMsG1Np#~;y+wTUZ*6a`5
zfwdEm$~<uUitbU>Jz8*2mHVmI?q8g`p%i<k)!yks_q5t_a_z-0Te~)wH<n9~<dE>8
z$c0r7qXuql`zI<lS#O}kbriW?mFwN2Rjwa0Cq2|C1}D_u1iZG`G@>?*6r1*|P5U3Y
z?QO0#_aiUd7G2}kx$CpVmNB(uY&-Qy=4R$M$3B${ufI_^^XBL5?3Z1m#ja_!Yx+0t
z;>q*s$@6!+-hk_+HOKX~2c3Ou?(3)5eWljE&Gbfk&0Xr~DRzvh9b?6gGit|~HSd@1
zuA;kNb@$(M58fL-QXHOEho|oipDOi?7RHWm$3I!VxqPSZR=Uvh+}aF?&C{;)KoZzK
z)!(-T)!^2<#i1kW(2+X<b?BJtKlb?O4rBFrf6r3h&h;PO=)3W!cRgeO?rC3t`^H<_
zZ{2xo?d`js7s?*W*<9{~<sl|>`ZUf161?`>`fEjQMCC@dXFuU@^2PD9>iF4`x1;Fo
zRlO)iZ~sFp9T_N7v}d4fwRi>}T5S+6a@5#larA^bdZIWwqmItthkteJU~%BEI&k=o
zt$5_DdgSb<n4*uNkXgzfD*6tnz61As2TLs>T|e4?K^MBFZp?nff5;bmrqrG(01NF?
zYTyVcl&@vY^W^a|#sYYYxr4i96MitGm^l>KHMBuB#qiMeEPS3?p!4+K(tmGHKy3Ic
z`scK9S7+61c%7~rCI|e6;2pRf4_nDb)ogI5DQos+=v$Cwj2>Zo={I*P0Ic>l+EkTw
z%77%}(Hi8QzOkPv*Pq7&hP%GOqHj#~jcv~sd}nSy|C#U1oflQ#nF4!8&o((ZlapeV
zpAl$HS#oTI=i|8~n6G3)RvybXVSPQ@MAx=S!H<Y6GcVqR97nUplCqSCUi}mYj@Bwi
zIVjvJOA$bWC5gmR=|5gr4L4%#3Dg}}i`)r=)d*7l7Q%ym5jud^(&=bQ<ay1-S2%z+
z$MfJEl9dq$&kLCt++1T2uUQjmg*byM+iydj$qli_!nFr{E^rcfcPgP-l?JiGct}E7
z6Z0%#h#_GdA)!<x{C3jISe=DRv(J)WO-XNJ560=zMXd0nYHo7RU2$8MH2AnziR3lg
zd?u5W-bWly<u*Jf!Z9KrrX`Fh$<^pdT|FRwpd_p?e3jckUH@>EdT8Mow%qMwrXMs9
zlo@z}6=>}!JFo>ir{&ta>+hDG2ti8Ky2)*DWj8_`)xU2m_REg#S+#F}*@InP%H{pW
zhpm3f?tN&XnTZ`Mw943mW%a%hvv0)g+iUjiHT#CmzG1U3V)jM8weN_Dcf`ayO`Dyk
zX`prgp@+^0bMQe^Yng#3;I)Rz4s5Yh+t7Bi+B#lF1mN4{-Em{<$F!B1+OqCY@F=^Q
znEnU8V3~m@Os>erfe@U->5_6H<f6L!K05y4@$EsiE3)Ipt^?G>GY_3JG}HQ^t$Q=S
zkuNg{z%s$%vV$~Ps$<Vb+=twjqPCBg2`*CNyVkwleZ!_YyLa4(_w|oKxX;tbWuR<f
znU)8w?VE{>M45qhg(qyW)E>x(vE?$kb0f$BcVBy;h0+N;!X@<Gf|?R;mYzecA%PG}
zj+rCrwDbY=X&n53DJ|o#?L<i?%B=bER}~TcA}WH%Q$*1#-2(2H#C%Q>1@dbT{RbeU
zWQu-+C0-I^Ie1A#|49a{@c2(M^v(Fpx6CjOtt-DcG?R0(pENI-Y5Yb|)?+ps{%}Wf
zBbQ`@yoW8kE!6`S_PB22PDq>3hvr^>7OJw9rs*A)qPgEv+!s{K7gYFn)X?uOR@(9n
f^uA1gL0$NQ8vPwL@W>vw(k+EO6W>tSAWQ!bd!Q3%

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/replicated_linear.cpython-312.pyc b/lora/layers/__pycache__/replicated_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c8098be2f44a79641e91fef9ec378c657a5e9262
GIT binary patch
literal 3314
zcmbtW&2JM&6rWx1+Uu{_A;Asb3u)Rq5C<q9ZAA(FZbgV%XjREVT{fOE*|6SqXV-<K
zM&%HxMiqh_+Q5k(i8yep_!BDi5(lK9Rgof9t<>A9rfStw-|X1Nq_ITBN`8Jb^XAR_
z_`NstQ!*Jt@R`y##&-%rzpz2;lbcNAGhh}FMp!UWp8pFaF)s>?7tK&f%1Z$sGUZY@
z9}alQjFgnT0=$gFX0#N`#{?vz_YjWEA*_(t?GV?WkIx9%=<jSWkrll3hm^QfH!OnR
zvaO<V7Up8(_Q^Neqx4BqHjRSr5<CuKI{jUMy&(47o4P~z)VMxF=%<D|#da3>L7c{$
zgT`;L>ud0fpuB)lUc>?kVG)OlQVkUaEX^hI5|)WPo#@=oc`U9!Pa<9B*Vhu7jUZGM
zH-XZClW=%W$}1#_BP2GRS?64ZByf}@ag6lfU^iHjD#mbpPP*L`&!=&sixtWB=eeeq
z6<vLMs@+8iC&7na+_U~!<f*hgvkfV*VM7gF5b}MeP&Vxiti?<V8(wS@K%<!qFJ2g+
zSE1HKLF@=UgDLwprht4aEFibNcv-BXD^Mm?;WmRHd;+SXX^HclbUNHQ;(Qfp%@ROR
zS}<zwn?YG|g0d}H*^`}08EjKD&9Dqt(<rN0FK$=da>dmgW0rV|r8!U$#L0#{$suNu
z%S1J;VCs&eX%0I`RWJSX!Khm*kCu({h^y1H#2vX%IsED?=MIxm)0iAB&$v^zHTs2V
zmPSpR>Z3teoKe~?IL!<yE?1tRJ)m-SXScZKTIQxf%*g@y`x5$DNnVcBm4OF|%%hMP
zjrj`Ns@@#CF}AYhP<_jxnsgu51~%2CE6E1zKwj9en3GTBgGDLGM+RcPz~aqB*L>5R
z8EmdOnJ%*JxIb2630SxY*`0<0UHesqs(8Dp|6-_%&UMbG|Mz^Ui*9JtYd=S<hEAbs
zs45jj0K7Q+!@D*;uT!krMYUUwVllP(y+O}9ueC>Pk_Y}Z^<!c=HdW70*$z<wOs<NJ
z63iL4r5cWUhRZP&p2<DdcQUA>H7Z9`j@c*98Br$<-DyuvWMz)sq;t+FYiv!^G4>?J
zd9q$En=@XVmuavH^1ToYx{;9qAYPcC(ykD;(_wd6;4AH8GLa&W&TQA%<eCyprDFlP
zg!}=tXYZY{#j%y$?=SCuzvf>3>hf1Bslnyc;E%W_`C+snv#@!7^YwSXfBRl<wiaH^
z?Z0C$+AF!^%emv%@Pa*WuVjXoGs8<CeNv0Bruw*o;pNougT76*6RW9>*S=gz?OIZH
z(SBxT!m%r~(CSWcR+3sFxD>s<vR*hxuvW5h#Uu{YrQ>=D7!k86QfS@ZpeZPrplF_l
z0kp7YyXtIRZX2={1P~G?vZ5!sGthgOB4|XRg6Yuhz|$R!sEq6cvNpKA1>MqE%g|e<
z&klEkVD3M%`<X_T%}eM}8m0TMjo(Y{ygzhsDRpp3ImqJ@4kDpH(H59TfrqSZLR%1+
z53~DDvA(D>c~w`9qUylY!F3JmtO^NMU5@UuPIc2H5W`Y#5vqqn>IG&A3yP|8)Fgr?
ztMS8Uhr0UIDRu<*H=;lQKMG1`YROI)CZEEE{T(h$KIy`Fc;Kw(1APe&Y`L);_^xhD
zKAjtrZ-Np!%m@Q!wx3-`mR=&7=Ebxo2!T&%+UFJB<SPMgf@{K)U7HrByfE)3FszhK
zLbrh`FCJV`B?31O_C(9_!Y2YqQ;Drg4A+$96<UC8n{)_Rnq_2!O(vUHT!EOTrey`X
z0cIVBg=0a^C<}c+Qfy%mR{owtz8ID_FAcuzBly27{mK6PbVeS0klC_e&YOM+_|<67
z)vcGeUYD<vo8}Gk);o8`7su}&sP7qD+CEkvI987yYsetyA3)(=UyR6yRx<+&#=POn
zz(Y64sD6ZT3fjKQk1{TXo_q0De?2qe$JsD}Vm*H(fop_XD*O$SoM~F|{l~Y4?(A9I
zbGN@f{Ca)pXgzb(55aQFFzNayH&5R<ee3P|w!QU%ef8+Rh78Mo;#pMu#Z&}I4x*M#
z(0vd%PYDv3vn+a$4HNJ}w;ZUT5}^)HPnx|Na=bg`Sc&ii?hK}RUm_Psp#q9>{8^FX
zZ;1dVUYtL}g4YFQmoCp712VTJ=-bK>-tUgmF<4+}c374AAwdutF(f1(qKywx_E+@c
YLv-|4wD(c?u#j2Wap+G3|AC%=0VaI{LjV8(

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/row_parallel_linear.cpython-312.pyc b/lora/layers/__pycache__/row_parallel_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3aa9b1b8e6bcdaca8b82617896f8ed1998754905
GIT binary patch
literal 7678
zcmb7JTWlNGnVuns_nRn*k}TQs$aX5x5~=zUI~Ucm9Yxy2iqgc{rr@HTP@JJfc{pUx
z3@uBg5EpP!3cFoP54)20VWR-Mh+GGV^Ata(PwiqKR<r|<7&uq~i$3IK!B$GQ*q7b^
zKSNR!HEhxY>F0mW`Op3Qm+#EK`+RN&lFa>WO6_5o|H4cy*{aO$CNS%a$cU`W#Ef4y
zZHZY}<Snu_&BZv%TV-3?9<x)PlO1Vi%$at@Tr_W!-DywELwURGP5WX#;2ok<_NN1}
z0OehBTRIpErrTrfEMsA&7}0%~5j|4iq1Bj6tb>+%q0}dJ)Jr=T*|7gB6qyOLdfWGj
zq>*?^k;GRrN-}i=%G}eLx35%l7QIi+$|+6IBt^{-AueZ>8-g5HH9<_Jb-r4h&WMsM
zWaA_*%fJ8?h$Q9`5_A`QJG1cpYRxnZ6el=tB1ed%XhK$wYsm~rf5pO#prZR~T$K#5
z>G+~V-c4z9IG?aZ?-i0cSzZ*>xi}FeQAorU7zH{=NP54ZWVF`x31dqP>aAvWe+Xm#
z0!~X}Vywu-EFvpeMT=-nas?*Iirigqj1z5=ZNAo`p%>9&UY_Jc`&};P5FO_Af2N%i
z+BrqnU)D})A>X1G>ym?El9nT|63TIKYq*$O@<?8|JHGj&4NI)DqE`yQ4QdnpQc$Gr
zVGZp`w-~s~J*>*qeq$X4<~AGayv~H%^dpB3zIK?pdlpU^t`QutZigF~Bg#y|(l9pO
zVf^3yXCVK;t}|M_a>bHoehK=PXCLC7fy6R-W}Y+nMmleA%o%*15$cjHT2U=O*b-XR
zG#oS=a`m1UnFp2`;sWuoL$|59EUd^W2q^`0Mj!zw*LzY*Hm3<{YDp5H8r4KgX{n5&
zyZ38!PbR0;#B`@3sB$VHsbQ<msgj&DdU6Ru0(4Im1Qj=j=kNUQwNWjd9nGe)5iL$`
zNLu7}?&6Ct+`K4_%Bk7W?4mZ8QATgca(YzGkoYLwa&?qs7WTDOrb-#jE|N~@bm>IP
zV~f_-)dh0u7?3~RVV*gCD~_VGXQTHE=c$UF={x?x=>5@B@6}@O)dKf-fie_~-ybja
zT`2ZlC~#jmdv<z`6u4jdcA-6^+i_Y#{J`Pk0nx+11<X1gE{Zm#Ww-|OjaQ~xpSLW*
zQ7v1|YejYm<f<}U9@JiBes0NI^W4uZhFUDMdG<O(+CeOAA-GcAp=AXUS8j%F1QmxI
z!$LPTL-bU2mkOJ&2`TZm?vNA_85QpfkBRi5xR;)%V61lOJFWM)QSLajR9^*hhbf1S
ztP5*G!Cmg`S)X2;-h8Rp87a8R9o_3=Yh#-O#g3DkOU3px1xGp9{ZH)1i<|Fm_l<1#
zj1+^Bg1sCF6?_DhySm}C2R0n_h;BGuYuIqufCuc%1Ka?*;8Ren;$EArX7*dIX7)SS
z3z#2VO~ZT)9XK$b`UT)&&{h|~?C^;-&n{b(^IBb7^PsI}cHm?7VfFIBRl&>Rgo!mJ
zT>HGIsSvU?Ye%o3?{IzIQnO6U9Q1rxfSLCnE+l>CGZig2C*aa~wP3AHo~!q7Q!III
z+16qdyu?jOJ>NnWb-yY7>`1;<&nD8SSPGlBE!#!wvP0=X?%R*G>}Vm28rYOnOWuB+
z$=maeqy;<;7e5Ubcrrs4ATHoDN&b*>x!qI~fm|Us)R*cxEH$p*OVvn*Uzp3N5|056
z4*?DYJz%H#l*+%iZ>rym@~<Ti^ik`*DwI;|#`QgHt4i7kugysclBT{*`#CrsKRU{T
z1w#MvUUYvcZ&SC~w3-NSxRC?hM)=uOT&)*Dl;u})>3u(>QvWp*_8ML$Xe_m16$I6Z
znn9cdL9?X06B$KI-N<Efs&0#Cv+|<uH)1{r%G8{!sRXTw?o)53vI0&(h>N1mA*Xu`
zpHGX!PQ%EAQQB{eU5g}jKaD;$i1uiO9;kZBx`3lvpxX_m?niMP6_vVnIEEc|K(LAT
zWNF~gEvZE((W(eeNd0dhcbG~)<88Y)zA|3&j6Cs-l#iWUnc1^5{V$f=x;C|s@*n2+
ztd@R%VFnyv|H#(FC({q6i^pCp9h)c~n|OL`l2(8tJbnN4=8vEDo-YK-o`BI`_=zXH
zC4M45kRQMGBzoyt*M&##Kkb@YncC@kt}wL|=(zX(%KN3j$dkYbbPmRUd~LkcF<9&v
z-0nD6u`<D)jZ=oljTU>OPuik8p`#TC<Ljun!56PwgKS~4+}pn|Q@B>|_4Jd#>2k-B
z!W%n*(CSaO11GkfCk!{?RWmt~sKsa=>bKy;0U_ue*?8h6oCpN{IayK#Ii+g4*MI<q
zNTP0jVfWCnQ0H<A7zpI5L0e-0r`7#<jsf3`jsoI+PFsX<2^~h*rdt!TN?rz@VBA5z
zhvX8FW<MKjKm|sCxisARqz?)I5W5Tkxx?(WGi{x#(@z5fUp#kVJ8)s!d4X<CID`S7
z5>HElpu2_YHURGxgrDT%vQb0lO#>?3re#QCPPe~9Arv`@Qy&5X6}hY|k(ZG7(7-M&
zLA)js#2dOrQFQwobdL##1srZP!L0->%4B466<J?3CQL{Gx`YQT>4j1iH~BKX@dRBB
zCAcj08IV8SWhxejt#|w6`3eKSk2}A{pGv#U*0uTkM`It3RTy9&z53bor_;O0R{ZRK
z6|l7`U@P{B?PR&DZ(UxKD^}olT>g7USB`GjHlz>a`|{SSs0@$K7e~go`^Sqtmy52;
zyEc%k{Fr6z!7?x~my0`HJ?p8pRK*57-19EJ;y}*H^q;7>kaIKLgIk@&u1Lj$Suf-E
z|G@{`u9dN$LK58LAWM&kE;j)yt*07-+x;UH{Q|DxKIV%7=99R2lc-;`nwJB{;{Y|;
zMZah_mjLu<-lGjsSId6wqVujT=8&9{3vi%&-o*EbZUd<SD)WoA-U3NCMXbKN-db!@
z`;E0xL>2@;8PE@VMznd?4Lpq~JMMssLmkCLDw&js$|p%CZQcy!`PoGt1J;ys1AQB9
zNz1Pes(f5lGgW_updMVa!e5VI^+>(Z9C!{;3y_6(1?nCRGmg$TO1pb!4!q%FN|Hs8
z;uD$lEIwB76hy^kUd^SAIihPNnFXw%j}SaUOxgp*JbYXcp|zY#D@I!cU^pj=y7s%k
z=@|nPv{$4Jh<R-Kk5JPpHWgVKJJ!t_h*pzGu{VtzQK_3!19&m11@sN_`{2cZEe3>X
z1TSH3hTza&Au+J2Rrga9J}UrJLF)}z753in<uzPG7tCXu0VF4YG?`awx0WKN2DRZD
zMH@iOtcu;d3xtB0QfR0c8rljLL&K%enPTY7qk&@R{I`QO8?Md4?Vj+j&K!m{Gdg>l
zoP|LWXdi0{-9P4c^FUjjl^KqhZ**YQ-pu1uc!j8*GT;by9=%mlg7*T}3|$y^q~4m%
zTU)fYesgPRYl2^vxn-;7sZGc16${p6f<#)(m)=}xfhy6Ij9YCs2hoa}khE%b`#Nue
zN?=42MDa0Kd$ptp$HW@WW9Ll?FbiTnvsv06R<&x`t|2O?$?VOmW<3#U(6Re#()+)n
zo#HZ&hRQ-y-u4jvE+pCp^`|L)(>_rYglgE7@(%i_;e>UW?ZRM_IAp;#Aa*mE1C(O)
z(UkH|(ebhKA%^UbmR;X^e_YE}3yfxlvGd&D<3o%Ue2;79tN(*U%@Vl|BS3s-6EVQk
z?V@xGp1N+(ftkuUHCXRJy*HCg0(3%)MKs+7=)nL1;gEq-ybx`{3vxAP8in>ccPk|=
zkiQ0&Ok&;!XeFZ(c&!I$VZ6Q64WJ__XX4tqvm{1qvpFS|hzkn@JrdE~IGj31Qp!z&
zs-?GMteDG+aZSQ$;Hxu<Km|oP<Q?P;T!am!+gb28x~~dOs5w-_ZUgB20A<lukr#mI
zeh?BeBy|HHwsAjZbLe^jIL(oqa#Jv}gvSPdgAI&e+~`_GwW=YU>gx=_t!VKm(`ckA
zXhV;p-hpci);SnjKfZRn6pX-|Q7L$?7(DlA;<GnDee?6To(881_8qV9-sH;U>e<zw
ztS_uBY>>5|KJ}g~u;qclkNQ6B+j{#^*JnpRJ^FaIc;?E}fvcZS{$~2u)2sf1{aLVU
zy>G3r><ixe(aMiDu6!_ce`@o}{nxj+($LGrp_d<DDGpsK4NVk>CO&_wI5f5G{i|o~
z-RqIHNV%hP{e`s`_8eThyI_Z)FM75Vxm=7~E=8^tBiG8__SGw^TB-YVvHSGaE4x-p
z)LrlaFl*yWfwRTH*)Ia;%b^p1e*kTbt&D99Jn{5B3qAiR`84#s!ephL>FRCikh=TU
z^K1Fd`C|8X3*PeZXleLTarjbc__gBjYcMeVYb$w=7rn>JUSRr*-v08D=gM8Z6(2M5
zI=jm_M%)Dt!idJ%@P)~p;L%mOBOA*0!Phx6gmVB)p?{$sZ3LL6cX7~n<6S&YA2dbw
zW6Q&;9|H}v&P;-zH$hOkQ<M_$2&+l(+}8o!Qd|+XlPk!ZG%yebS_*pc?ieuRD&&{W
zeq&^C2yy)@v{Q$Hz+3WOC({;MSttgEa3gz8micqYgnBC;rY*e7*xTF{#_n<(K|Y0v
z?c^0`OD2%K3Pg7Zf|yCb+dCQnGKB=q9aReQ8gl3n$?Hh2Awicwrjg*rk~fgxV#o}V
zH-R*wskg8YNeV0e1qh(2-vfei{u%i6dw<y0wVK2GQ~@yCwe|cbV-Ln2pMv{D^S^!W
zKSus-WEZO{KQK_y@ruQ7bJtN3@KscVoPmmvYd}SqMO3us0}cTZUqwZbH8u>V4aSpN
zMkfWOQAMFUp?l#YprYc3I0*U;jM;`?4Wb61kD~1~P^eKXA{0%{=HO+9J`NdgJp;6f
z@e&~2mJ&G_Bx-zeh#FrRC@j|fRIc{vPc;mz$M_~hKSmHVYq~9`r2zHQ^Fjb;Kv{YM
z=<$q2p&!?sW5#2|C2|Y0=!8{VWyQ*}?5>+(eP1%6FPZS~n8E+CSXs;0PKLeAe#s2~
kj`{9?GH>kJr&;#mHh*!CL1u5x0zdBU!OLG`-q^hV2j!2uIRF3v

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/utils.cpython-312.pyc b/lora/layers/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4267e6762195427d70859ddf538fa03d50d6b047
GIT binary patch
literal 2875
zcmcImO>7fK6rR~#+iS<krVt<rfi5H^aZ@{$S_p|!+8}-;)TAnup!%|1ykoLqv%Ac$
zfkXyHRcM1MwQ#6nsj8Gpl?vj}9DD4&7n`Iqtf<rqF1<xHRjZ!*X6#rtf{Iq^$bR!?
z-kUcw?|tvh{?OVQL(nYg6Z1|4p@(d+*+Mm@@)0o0$Up|R&@4`4%y_{P(gN?rSt%`H
zM6iI4BSTz7hIB`$uDw$;kq#LlBF)5W!-mcX6Je&UVWP%nB_pyZrDa22MCqsz1sa<Z
z60u*IJb{C#q5FEq(mii7)3{o!4Js#qSw;k<v4PUUX+%UK88|C+!8{2W!WiqD=R`JV
zNa-+%fJTUq!mzPC7fHxL%iGS$@d@2^P5WFbXf<tvT-Ii*<Dku@&aCTij*kT~)6-l^
zvZiHaFqqwJ?0oEBv4AWizb?z8nVQo!Rat+hCeI_SuGzFkYSgas4QuKa=fG!^2{8!y
zIoBdI44M?;%{(c2#L9Ziy871}L;kEg<eF~M*XcRpCokuQM-HAJCPS8acF3LcryYCf
zqGinvSq{~QEPakpZz$)RmX~tpf>up)9naTH+w?VUzN^t=O`>+#%^Lu+fFA7HyYhOu
zcYmpO|JtqtOVYaB{a|<R%8_#4aH(&2ZTG<?=|_2I1$5D5A{xk=X6v&=(}I|$%{oTT
zVticFF64BpDxnP0foR%(plF(I+m5gMrek}WMr9_F&N_}oTY<feD8n9Qz@!ZCoUrv?
z638|5^VZJ7)<UMxdGpORY45#`u0n6YD-7IxXHDw8x1(p_#0_ap>ZwRVXryY183|%%
zb&qJ=J3*KdKS%8*5U`+e5TwBE%^)!FX714KPlv?JQ$l{K2}p*}WP=6!iS`^e#3mce
zZ%?%6uu-oA{4TuGG#hz_4Hg>Sj8GnZfxZ+rA^jmvgy)A(a*ukdKTTAFTr@L8%{o-Q
zG)*W`eMfaI9j2I+0Z{dc?K#v-1>sA?JU8tJt<_$0^~`x<1d$81dGU;PVZQUU?d4q8
zp*}HG7DtuGaa2u2g2=S)>Ap`XD<VO-x;O2H0o}<+51Won=~j*$rPQGbOt-^SHMuy*
zf_4qkN@Llh)t0NEv5je61G0b~%Scw1<_ibcBYpRjuCk(*6t%4Mmz4gZ-2W)rextjf
ztw)nw#%9Y(s-&cfa;hqOe?8jIWqV4>p0YAfQU;3hKvi~nJ=zPh&#qp-T2}f>N?%d#
zd(_rh-1*w-iPf=U*IR3C<3)L#Be@B%td4NNZUN?Ffb0^=VgoPAS8yJmLJ491VoZf*
zkPO_+=fN;D)2eP5)i7lo+b~%Ys!mpggj91Llu<RCv#dGQo7SlT-ez9$xE;t{0`=8k
z(Y!=;SIy|QMhOpWHLnH|TrmUZsW+B;FT%e<fqahP$%4~eMD&F`o~c*Qx;98RVP#`O
zxFX~Q+MdUT$b$Q{S{z4QPZZE~DUVE)$6w=5@nuW}jPfFQL7EKYng_^xK?@HuTs&)@
zO9+AJI&QF)Us$VMn8UzJgaQeQtrvvPUt&G&h5dtQ-D5#Z!{t48N9O5;Dx5^vZ+=h%
zk7~`P8`h-8EGMH|-k}sIr(nHz9LS#w=w5R8y91@<_>BY0qc=wjGwWLu-}_7Q{i73w
zaN$a+Gg<B&FTt;4ym;!&QuMykT{u!y23L-il)<~o$ZE7G*Qy@F?`?s;3>_V0J21d}
zpjOYg`=5_TS*2xffu{h0V?B<Gq0x;PiYp5z{tFbXe*wk+34jOSCJcZ86`=_#3P1%C
zheHf>o@^|YCTSl`L+RMZI+6B6N11=Pdp(who8jlap6`Fo(6jFu?<FAM<6q)C3LVAx
zz{>VgeBf?;>ekfiL@9Z=oSZ5pr#3_(8mm5MEU@$ywy-gx-Ot{Uz6#3h`i;?yHAXYh
z613Dm-iSxph2Xoyp_%DG=3UCR1HrcWTO5QZ_#;nugBn#CVR+%&P=31l10Kj@)enM0
zlpTO&y!S4U4H0AfyNvMOhbaCN+O`o!LdzdQ1dnVWAQcgY8+_Q&jt}FNE#Gu~)wO{b
Xe=GNG{&v2?`QP@nV5QOnguCW%w3wn#

literal 0
HcmV?d00001

diff --git a/lora/layers/__pycache__/vocal_parallel_embedding.cpython-312.pyc b/lora/layers/__pycache__/vocal_parallel_embedding.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b82bf8ba88eb8479c4ae1d2666e34448b835b809
GIT binary patch
literal 8478
zcmcIJU2GFcn$@=3Y1?hP{gZ@Afc)VE=g0XWJ0U}czz`M$vw<+ou!=_8GVab`$3K~F
z2T0av*%PZvbUOkbR$=aCf^^aZG1BnJ=pL4Py3yT>YhcyB){ZXH?P|rF=fdh%_j31D
zwc8G%O@wZ*WOsd4_0?BjeO2}SRQ;>h>qd~$j=xLZ+=I}6kb;@m3b0iGU=2w~V$x{V
z$eE07*2WmHJ!4A%oN>&uw8oZpW*TN2C~Qx28P}|f!j7~%<C*nPm`(E;@2nSKr__-4
zW&E>#2HDUlByqQp<dXdl?Z)V{!V(j8KPQFhD5DGK6*;fOlUZ3hk;~2{KY=>;`?(9p
ztEHxoa*6om^Km7fPRr?&nai>yC9?!iNGvLfoXv|1>3DuFr(~WpKouGS@5NR5{rHls
zTuSDz5NZiyaO3N#6t)fn{@;QmWHif2Xx1h%vR$%C_BqE2nqwr#Eq>PFLQ<o|%B<v+
zVP<lJWM6JTh+=UtH+GhT*|Bpr$$iT)>msn^k=?1L?E@OH#Mi0!)~Tl>&2f?sDD#rP
z4wlWje$F8Y(9bLTq=4*CwOjB*W)zeI+h-*Q=iE~0mg8XseKsVArSL6OEjO;9>&$G^
z2PoR4@3&qVQ|7w+GAx6bChMR(VVM_|>~zAmjS;dX$baiFe15~Mp?tM*)mA{C!G<*l
zW>A4CAhFuJfS?BcOXvYJ9kuJMy0`$taH5#ZCi9}Gcz_htJ5)J6M+>@36cg#Vs*0jY
z25oP@`QPUU^O=Rgh2+9OKCXNs=LfDYj*TClACm{u$;*QaOZh9g?BLaOIy0EgDe*x%
z6?O0`Y{;~@P}z~9Y;MWe!jd8Y<>j8&3npeV83bgt6+VBtiGI&{R~s<5=NZ>hYB{jt
z__hDvI9})YEoer%D-*vi5*}3DLozWz4~x!ca*~{`loAetTS-pHscZ#+)<9M%vt?VJ
zs>-ugDKYa?2;E_njyip|k5cKDBBSj{b$W9<(4hE##<ZBlGSF=S%A%?C>W#v`%1_Go
zYF!;3$#U;V%b<YkU|Wqv_P~x*r+1yP=HR4=ROu5kb^89**GvNGrkZy!4n>K1NR%)n
z24#H`S%E5Vv{YS>{96VdLa7!Ls^xInZK=JrvI*6h-+r^bme1Mi;9AL|z1Gi!-k^7<
z*{7C&Wit&PNT9mLyUyAAlv=F3wRFg?hnDUdA0`CSu%!-~rCR=1oMod)b+=hc^;X7W
z73<8#@&7)XssRTH^_nxQ<*C6MY(jM~hs^d`E-_^DzX86T;4j13d4oO<(&u4CH^MHg
zp0_0wWv3O=5Vh&7lwVqqb*Cg>O(tXod>izfHnkX5vopJx5#y31OEp8MiePJr0n8`!
z$y`=<UXzobT*>PWDV~q(?W9Le`J_I6uxc_@(deq`UiC^`k-&OOz=o<f8$%LPds$S$
zI_F7~d|meu%9ZNmvaC05N0hUa0-y=ohEUT$QfKFq>9nY``J9rtqO;4gl2i3YYE0$p
z;DT-^>aF$`rDR4Sl2eG1(zkP-m$Pb40nSa^EGqHryzZtX4XOGl948Y<%*&E)l<9<M
z*>N=~UjyIeN*tCT@G`PEB1IiafDBDemO?h9LNu;Q6j(bXB?N#TN+@zX4}KPL3o6oF
z9@)hMvFHQQ0#ZMOrN4>FJmQ7hldF@O=Uwc1_X+dVb9}SA_siV<oYp;oyC<~n<GA~H
zNeHj`@A@_27#5B_8U5$Uf11=zsQ83h3O20`-W}9}Q#d&FgPoaTPBLY?y~npQ^^ET-
zyHTLg=s19d0ZllGg_G4TLpV4DT>`_KCUpbp1Qt%bid1f3Ba~_f@azrTKDT;K<2y0m
zsqsCS?|F&CqVQhXZu9#7<O{9JcaDE{W%Iy6!ca%4yO%Qdht8fa`|kH`3U8H!R!tbj
z!f=%UVWQmN@cMxJP_r?+gE)9l3&wCTR)VU@yOUZdibGK?G=xJ#FZ^7Wd&TjLYkLty
zZ3n)X|9qYju81s#h1jE3ZTJF)pKyT=7{x-gI>vr2Na$NrZljc2U#1**iP;)O7YkhT
zDD)bN0at}$IgC2HwT@BTF{*Wp<BstXFKB!l=G!zrg89gL9P<Y^Mzy}9xbLXeH--DA
zp3LCBQ<y(xg}KGrJAu{Tar>1p*{du)!`3mt&j0~}Qt<Lq0PRc#W&)~cYel1N$Jo|t
zVcm^Z(0aCt*0U=y=&cYHuJpktYBSE+D8MQqZ=Nl;BCB$q9<Al*E=Q_{dV!D`fzM4;
zigd3yG_DnMt@lo1uJe_0w3oEEVXkeR{f_H4#N;$Ifo|lN^*~h}siL8E5>+<}h9Nqe
zy81tbFLm`RE*R8TQ(>E91|qf;A~<Nal!X8dbM-4*-F6$%kiW9cQ8Sey{Om|T*TV6a
z>|Z%d14Y8QRMl0ibuTawYomhQlCR3Rb=#?#1-_^$wB*aag9pbQ=9ezu#KKhvPEf(I
z3m?|)CLi_X<JiFmvI;_e`H$9|rHGZ-k?LSttuB?~8{pH~RGbkDIax}Gec2hYnw@0w
zVG({AJFo@aV1du7J6)UdP1_mtH$-(<w85&emORn%AdIovuWT)hS%OOjP#(@{>KswO
z=^|V*@!4EfyqwM@=HWI<AyItPt-KAHp<IRm(%D3AVM)}Pi#1)NL<kD;36*yEM4dI&
zql}SSau=eE!$)`5j=f3(Y-00G&BRsp(r%XxCgLTap#BSJ2C(lw<nrG3ulnz?&$#_%
zCzMPbRqPsF|LDt)?|=NL<Gu)m;@hVlJAcc6!#|n%#t((!-cy)6t#Q+sn=bLe+oxAg
zuaB1P$aRi+fov}KOT^ZPi``=z&ae3g{G*u%ekc^j&pdwnw-et?e9L?@35DX`GnhN8
zaWj~k0dnhMLh3@56u%F94pPI?h54?M&{z`si@`1}7{$TpMh6b|7lnSSx-x4E#D1`Y
zz5Xu_`NOMnF&ud`wIV<BjhFl(&3^#<4;1}F!0rA{ZQm%~H>&L$$NR=h;XPWo4~P4-
z@GuS!KkC5Y(MNf0Y#NVEYhxGj*u~<9AK|e}IDE+p73|&qAP@~TYr!5I?Ac&&uy^C4
zHt-%Ec<;$D9ynQUu<t*`+;NvVv}do@9K+4AV)Hvi;T`yb{nmsYEc6r)zPr(@^}d69
z-+4TYd*3YzM>Syz3sX;Ke<z$T2aqsa_98xNSPSO*O9qwf6lx8cs5Qt}ZGpAUhcjcL
z6Ra+DB!*mVkjo(nbg~)V-mn!IOWjUS*9{WtS!i`D{c4<XqRZi&JKmrl9jVff&HG{g
zG^MP<W~ShvL9(T$Fm2HdXC0|jLtJwV2*{WMTd)yrNa&hc<3>ZF;RaV|u)GJh&qE-t
z3_>eWiaQe2T3Jd%H(Iw<^|4g7rZB$qwPQOi$9BGEZ0k0wv5EAo)|}|b9jO3(0=C6P
zkHmiEd|26;H(dEPvtz2=glf5YNvzrmE+Y9<SFO#23Y@t%aChCXO_x6>hvoVIKq6Y*
z1>qz_nhT5hXi({a7M;CzMOI`Q3@e1LLN&W@VKJLbK)|KM7s$nPXnVA42C>YKbyrn~
zE5swz8{nPd8U(t!0|MO)wF7#Pj7eR-8Zz}w$x+sWiFj6AT!7G8CXA)y5X&}@xKWI&
zU~y=Gc#I$hj7T`2n}@(u%*0iQMM)@bROqe>SK@FD9MYTS79lFGM4r{*;g*@!=N9uI
z3EjV~KqC9f9kkJ^lBK4WiGFBMs+@tk<?dZP=87n;0j~NPHB7(X+wsNO&(Cf!8&hAO
zdvH$cKZE<vd^>~tr}4q*;`y242N$32{jkWr1?sb@dF|5OOZR5(&aSwrF7CnM9xZ$X
zhmSlyj>AVE|NM!&7(Tn=dTrw$Iy%2>z292my?0!zKcS|EgpV|EDS~a}P;={A?ru(N
z8o*5h8}Ucu#mV#d(0Lr2dD?Vg#k1KGS@D-VO`4|_ds^>(`kkk})DqEJdT~oH4Z%9F
z(6J7m1M5H6dJf~B!;b^F=Li;#Jif4Hx3&6K&Vs#wc-7O5J>44}-+B5<kt15<7>*n(
z3Ei5|kA?n?87vGIM^0-a(|Bb1+fVTbRLqowAh6l(EApKXl=csqK^eqjU`v~eZw)>Q
zYr|7`c&d2*BG}db3(OX>^}AO*FE}K$YyJ`JA9>~<1%6k~Zu(m^e<${Lu1`MoA1ZQ(
z4BNu1xkV*mKH`KH=rx82j}D7zSryYsHUCm1LXHyoZykUSJm*wxPc8b$S0j%_^Z`<c
zuLrkK4sr>lkf0{Y>h?rhRfxM{+<E+zK+W(`NqcRR=>c*w6qz0g<C$rBXqPSbN{_!M
zbctHOiCzdu2;X`CslVe{<Vewfq{tniLP%6+0cZrKGb9n@n>?#j=W1w@eb7D1(9^3D
zn#N_0LaLV|yG+8k<oO3cRf)TM6K(oKw|}wv3(X(F{z#FFP__-xHj^i@Y&;{2qV5(e
zD+e$yik~jV(?$ywJbk*-?a6FjaR60?%u+c-KGdnDy3l!%-gzmLq?(*@-9w+$GBUiB
zNxCfycY!~ln?rYy&7nIk=W=P~V}i*oC^=Z;{1Tm{?ybDWC1lV)B8Y-ag^J>sp+bmS
zQOJjAICT#Q=`XiX+2&w>RO}irBgh|1e<m5+Sq%T^2iIZNy%}mMvyj7yYHBYx5D3n1
z&qf%IZkZs!IdS{8JOs)!cD8TbzJ(wwyZ5s*%%(qBW(fe@15IoEUB28vi=0_>(V`oH
zmYVo{V&edAjcs{o-7%(v9lh81#oo{NmJxs(k+1t7^luTc{9^_=17%wSJF(fcXDxX*
zS!MyQ@JJvIoY1n1K<+BH9#Z6i+yC?ev}HF*l!M6W`@zPr-K5U<f<VS{6H!G2hRx#W
zC1)&~RV1j@LuN5Hx0p?kE8BQlch_L$G{NHG5;UulcXU}%>GJCWdHakRZ;dfxB<R-A
z57BDl=~2EeCl-Nz%y=A)U8Og+uRe~_J*N9;PxHNARj7q?kauE*cs+EzA0T5w^mdb*
zFqF+vMTK^9QdDAp%XWrgw%myEevcae9kmrv+xIB?N7VB@`sjPq_ea$A!ug?%=`Kdz
K{xc!~CHcR#KChAh

literal 0
HcmV?d00001

diff --git a/lora/layers/base.py b/lora/layers/base.py
new file mode 100644
index 0000000..0c7e806
--- /dev/null
+++ b/lora/layers/base.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+
+if TYPE_CHECKING:
+    from vllm.lora.punica_wrapper import PunicaWrapperBase
+
+
+class BaseLayerWithLoRA(nn.Module):
+    def slice_lora_a(
+        self, lora_a: torch.Tensor | list[torch.Tensor | None]
+    ) -> torch.Tensor | list[torch.Tensor | None]:
+        """Slice lora a if splitting for tensor parallelism."""
+        ...
+
+    def slice_lora_b(
+        self, lora_b: torch.Tensor | list[torch.Tensor | None]
+    ) -> torch.Tensor | list[torch.Tensor | None]:
+        """Slice lora b if splitting with tensor parallelism."""
+        ...
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        """Initializes lora matrices."""
+        ...
+
+    def reset_lora(self, index: int):
+        """Resets the lora weights at index back to 0."""
+        ...
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        """Overwrites lora tensors at index."""
+        ...
+
+    def set_mapping(
+        self,
+        punica_wrapper,
+    ):
+        self.punica_wrapper: PunicaWrapperBase = punica_wrapper
+
+    @classmethod
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        """Returns True if the layer can be replaced by this LoRA layer."""
+        raise NotImplementedError
diff --git a/lora/layers/base_linear.py b/lora/layers/base_linear.py
new file mode 100644
index 0000000..3db4165
--- /dev/null
+++ b/lora/layers/base_linear.py
@@ -0,0 +1,164 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.distributed.utils import divide
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    LinearBase,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.platforms import current_platform
+
+from .base import BaseLayerWithLoRA
+from .utils import _get_lora_device
+
+
+class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
+    def __init__(self, base_layer: LinearBase):
+        super().__init__()
+        self.base_layer = base_layer
+        self.input_size = self.base_layer.input_size
+        # Ensure tp_size and tp_rank consistency with the base_layer.
+        self.tp_size = self.base_layer.tp_size
+        self.tp_rank = self.base_layer.tp_rank
+        self.device = _get_lora_device(self.base_layer)
+        self.output_slices: tuple[int, ...]
+        self.output_size: int
+        self.n_slices: int
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        self.lora_config = lora_config
+        #
+        if isinstance(self.base_layer, ReplicatedLinear):
+            lora_a_out_size = lora_config.max_lora_rank
+            lora_b_out_size = self.output_size
+
+        elif isinstance(self.base_layer, ColumnParallelLinear):
+            lora_a_out_size = (
+                lora_config.max_lora_rank
+                if not lora_config.fully_sharded_loras
+                else divide(lora_config.max_lora_rank, self.tp_size)
+            )
+            lora_b_out_size = self.output_size
+
+        elif isinstance(self.base_layer, RowParallelLinear):
+            lora_a_out_size = lora_config.max_lora_rank
+            lora_b_out_size = (
+                self.output_size
+                if not lora_config.fully_sharded_loras
+                else divide(self.output_size, self.tp_size)
+            )
+        else:
+            raise NotImplementedError
+
+        self.lora_a_stacked = tuple(
+            torch.zeros(
+                max_loras,
+                1,
+                lora_a_out_size,
+                self.input_size,
+                dtype=lora_config.lora_dtype,
+                device=self.device,
+            )
+            for _ in range(self.n_slices)
+        )
+        self.lora_b_stacked = tuple(
+            torch.zeros(
+                max_loras,
+                1,
+                lora_b_out_size,
+                lora_config.max_lora_rank,
+                dtype=lora_config.lora_dtype,
+                device=self.device,
+            )
+            for _ in range(self.n_slices)
+        )
+        self.output_slices = (self.lora_b_stacked[0].shape[2],)
+
+    def reset_lora(self, index: int):
+        for s_index in range(self.n_slices):
+            self.lora_a_stacked[s_index][index] = 0
+            self.lora_b_stacked[s_index][index] = 0
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        # Except for QKVParallelLinearWithLoRA and
+        # MergedColumnParallelLinearWithLoRA, all other linear LoRA layers
+        # store weights in a tuple of size 1. These two layers will
+        # override this function.
+        assert (
+            len(self.lora_a_stacked) == len(self.lora_b_stacked) == self.n_slices == 1
+        )
+
+        self.reset_lora(index)
+        if self.tp_size > 1:
+            lora_a = self.slice_lora_a(lora_a)
+            lora_b = self.slice_lora_b(lora_b)
+
+        self.lora_a_stacked[0][index, 0, : lora_a.shape[0], : lora_a.shape[1]].copy_(
+            lora_a, non_blocking=True
+        )
+        self.lora_b_stacked[0][index, 0, : lora_b.shape[0], : lora_b.shape[1]].copy_(
+            lora_b, non_blocking=True
+        )
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        output = self.base_layer.quant_method.apply(self.base_layer, x, bias)
+
+        # In Transformers modeling backend, x and output have extra batch dimension like
+        # (1, seq_len, hidden_dim), while punica expects (seq_len, hidden_dim),
+        # therefore we need to flatten the batch dimensions.
+        if x.ndim == 3 and output.ndim == 3:
+            output = output.flatten(0, 1)
+            x = x.flatten(0, 1)
+
+        lora_output: torch.Tensor | None = self.punica_wrapper.add_lora_linear(
+            output, x, self.lora_a_stacked, self.lora_b_stacked, 1.0, self.output_slices
+        )
+        if not current_platform.can_update_inplace():
+            output = lora_output
+
+        return output
+
+    @property
+    def weight(self) -> torch.Tensor:
+        # unquantizedLinear
+        if hasattr(self.base_layer, "weight"):
+            return self.base_layer.weight
+        # Compressed Tensor
+        elif hasattr(self.base_layer, "weight_packed"):
+            return self.base_layer.weight_packed
+        # GPTQ/AWQ
+        elif hasattr(self.base_layer, "qweight"):
+            return self.base_layer.qweight
+        # marlin
+        elif hasattr(self.base_layer, "B"):
+            return self.base_layer.B
+        # HQQ marlin
+        elif hasattr(self.base_layer, "W_q"):
+            return self.base_layer.W_q
+        else:
+            raise ValueError(f"Unsupported base layer: {self.base_layer}")
+
+    @property
+    def bias(self) -> torch.Tensor | None:
+        if hasattr(self.base_layer, "bias"):
+            return self.base_layer.bias
+        else:
+            return None
diff --git a/lora/layers/column_parallel_linear.py b/lora/layers/column_parallel_linear.py
new file mode 100644
index 0000000..637ded9
--- /dev/null
+++ b/lora/layers/column_parallel_linear.py
@@ -0,0 +1,578 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.distributed import tensor_model_parallel_all_gather
+from vllm.distributed.utils import divide
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+)
+from vllm.platforms import current_platform
+
+from .base_linear import BaseLinearLayerWithLoRA
+from .utils import _fully_sharded_can_replace, _not_fully_sharded_can_replace
+
+
+def _mcp_apply(x, bias, layer: "ColumnParallelLinearWithLoRA"):
+    """
+    For `ColumnParallelLinearWithLoRA` or classes that inherit from
+    `ColumnParallelLinearWithLoRA`, they share the same `apply` logic.
+    """
+    assert (
+        layer.n_slices
+        == len(layer.lora_a_stacked)
+        == len(layer.lora_b_stacked)
+        == len(layer.output_slices)
+    )
+
+    output = layer.base_layer.quant_method.apply(layer.base_layer, x, bias)
+
+    x = x.view(-1, x.shape[-1])
+    output, out_orig_shape = output.view(-1, output.shape[-1]), output.shape
+
+    # Since communication is needed, the buffer is directly initialized as a
+    # tensor rather than a tuple of tensor.
+    buffers = torch.zeros(
+        (layer.n_slices, x.shape[0], layer.lora_a_stacked[0].shape[2]),
+        dtype=torch.float32,
+        device=x.device,
+    )
+
+    shrunk_buffers: torch.Tensor | None = layer.punica_wrapper.add_shrink(
+        buffers, x, layer.lora_a_stacked, 1.0
+    )
+
+    if not current_platform.can_update_inplace():
+        buffers = shrunk_buffers
+
+    buffers = tensor_model_parallel_all_gather(buffers)
+
+    lora_output: torch.Tensor | None = layer.punica_wrapper.add_expand(
+        output,
+        buffers,
+        layer.lora_b_stacked,
+        layer.output_slices,
+        offset_start=0,
+        add_input=True,
+    )
+
+    if not current_platform.can_update_inplace():
+        output = lora_output
+
+    output = output.view(*out_orig_shape)
+    # now have column partitioned and packed output
+    return output
+
+
+class ColumnParallelLinearWithLoRA(BaseLinearLayerWithLoRA):
+    """
+    LoRA on top of ColumnParallelLinear layer.
+    LoRA B is sliced for tensor parallelism.
+    There are two types for the `base_layer`:
+    1. ColumnParallelLinear, e.g.`dense_h_to_4h` in `FalconForCausalLM`.
+    2. MergedColumnParallelLinear, e.g.`gate_up_proj` in `Phi3ForCausalLM`.
+    """
+
+    def __init__(self, base_layer: ColumnParallelLinear) -> None:
+        super().__init__(base_layer)
+        # The base_layer type is ColumnParallelLinear or
+        # MergedColumnParallelLinear, their weight sharding logic is
+        # inconsistent when TP is greater than 1.
+        self.is_merged_col_linear = type(base_layer) is MergedColumnParallelLinear
+        self.output_size = self.base_layer.output_size_per_partition
+        # There is only one LoRA layer
+        self.n_slices = 1
+
+    def slice_lora_a(self, lora_a: torch.Tensor) -> torch.Tensor:
+        return lora_a
+
+    def slice_lora_b(self, lora_b: torch.Tensor) -> torch.Tensor:
+        # Applicable to cases where the base_layer is
+        # MergedColumnParallelLinear.
+        if self.is_merged_col_linear:
+            shard_size = self.output_size // 2
+            offset = lora_b.shape[0] // 2
+
+            left_weight = lora_b[
+                self.tp_rank * shard_size : (self.tp_rank + 1) * shard_size, :
+            ]
+            right_weight = lora_b[
+                offset + self.tp_rank * shard_size : offset
+                + (self.tp_rank + 1) * shard_size,
+                :,
+            ]
+            lora_b = torch.cat([left_weight, right_weight], dim=0)
+        # Applicable to cases where the base_layer is
+        # ColumnParallelLinear.
+        else:
+            shard_size = self.output_size
+            start_idx = self.tp_rank * shard_size
+            end_idx = (self.tp_rank + 1) * shard_size
+            lora_b = lora_b[start_idx:end_idx, :]
+        return lora_b
+
+    def forward(
+        self, input_: torch.Tensor
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor | None]:
+        """Forward of ColumnParallelLinear
+
+        Args:
+            input_: Tensor whose last dimension is `input_size`.
+
+        Returns:
+            - output
+            - bias
+        """
+        bias = self.base_layer.bias if not self.base_layer.skip_bias_add else None
+
+        # Matrix multiply.
+        output_parallel = self.apply(input_, bias)
+        if self.base_layer.gather_output and self.tp_size > 1:
+            # All-gather across the partitions.
+            output = tensor_model_parallel_all_gather(output_parallel)
+        else:
+            output = output_parallel
+
+        if not self.base_layer.return_bias:
+            return output
+
+        output_bias = self.base_layer.bias if self.base_layer.skip_bias_add else None
+        return output, output_bias
+
+    @classmethod
+    @_not_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is ColumnParallelLinear or (
+            type(source_layer) is MergedColumnParallelLinear
+            and len(packed_modules_list) == 1
+        )
+
+
+class MergedColumnParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
+    """ColumnParallelLinear layer that is composed of 2 sublayers (slices)
+    packed together (e.g. gate_proj + up_proj -> gate_up_proj).
+
+    This means we have 2 LoRAs, each applied to one half of the layer.
+
+    Both slices must have the same size.
+    """
+
+    def __init__(
+        self, base_layer: MergedColumnParallelLinear | QKVParallelLinear
+    ) -> None:
+        super().__init__(base_layer)
+        # There are two LoRA layers
+        # the output_sizes in MergedColumnParallelLinear is not sharded by tp
+        # we need to divide it by the tp_size to get correct slices size
+        output_sizes = self.base_layer.output_sizes
+        self.output_slices = tuple(
+            divide(output_size, self.tp_size) for output_size in output_sizes
+        )
+        self.n_slices = len(self.output_slices)
+        self.output_ids = (self.tp_rank,) * self.n_slices
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        """
+        The main reason for overriding this function is to enhance  code
+        maintainability.
+        """
+        self.lora_config = lora_config
+
+        lora_a_output_size_per_partition = (
+            lora_config.max_lora_rank
+            if not lora_config.fully_sharded_loras
+            else divide(lora_config.max_lora_rank, self.tp_size)
+        )
+
+        self.lora_a_stacked = tuple(
+            torch.zeros(
+                max_loras,
+                1,
+                lora_a_output_size_per_partition,
+                self.input_size,
+                dtype=lora_config.lora_dtype,
+                device=self.device,
+            )
+            for _ in range(self.n_slices)
+        )
+        self.lora_b_stacked = tuple(
+            torch.zeros(
+                max_loras,
+                1,
+                output_size,
+                lora_config.max_lora_rank,
+                dtype=lora_config.lora_dtype,
+                device=self.device,
+            )
+            for output_size in self.output_slices
+        )
+
+    def slice_lora_a(
+        self, lora_a: list[torch.Tensor | None]
+    ) -> list[torch.Tensor | None]:
+        return lora_a
+
+    def slice_lora_b(
+        self, lora_b: list[torch.Tensor | None]
+    ) -> list[torch.Tensor | None]:
+        sliced_lora_b = [None] * self.n_slices
+        for i, (shard_id, shard_size) in enumerate(
+            zip(self.output_ids, self.output_slices)
+        ):
+            if (lora_b_i := lora_b[i]) is not None:
+                sliced_lora_b[i] = lora_b_i[
+                    shard_size * shard_id : shard_size * (shard_id + 1), :
+                ]
+        return sliced_lora_b
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        self.reset_lora(index)
+
+        if self.tp_size > 1:
+            lora_a = self.slice_lora_a(lora_a)
+            lora_b = self.slice_lora_b(lora_b)
+
+        for i in range(self.n_slices):
+            if (lora_a_i := lora_a[i]) is not None:
+                self.lora_a_stacked[i][
+                    index, 0, : lora_a_i.shape[0], : lora_a_i.shape[1]
+                ].copy_(lora_a_i, non_blocking=True)
+            if (lora_b_i := lora_b[i]) is not None:
+                self.lora_b_stacked[i][
+                    index, 0, : lora_b_i.shape[0], : lora_b_i.shape[1]
+                ].copy_(lora_b_i, non_blocking=True)
+
+    @classmethod
+    @_not_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return (
+            type(source_layer) is MergedColumnParallelLinear
+            and len(packed_modules_list) == 2
+        )
+
+
+class QKVParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
+    """
+    ColumnParallelLinear layer that is specifically designed for
+    qkv_proj. Certain models, such as chatglm3 and baichuan-7b,
+    only contains a single LoRA within their qkv_proj layer.
+
+    During inference with Tensor Parallel, the weights of lora_b
+    must be accurately partitioned according to the respective ranks.
+
+    Q slice may have different shape than K and V slices (which both have
+    the same shape).
+    """
+
+    def __init__(self, base_layer: QKVParallelLinear) -> None:
+        super().__init__(base_layer)
+        self.q_proj_total_size = (
+            self.base_layer.total_num_heads * self.base_layer.head_size
+        )
+        self.q_proj_shard_size = self.base_layer.num_heads * self.base_layer.head_size
+        self.kv_proj_shard_size = (
+            self.base_layer.num_kv_heads * self.base_layer.head_size
+        )
+        self.kv_proj_total_size = (
+            self.base_layer.total_num_kv_heads * self.base_layer.head_size
+        )
+        # There is only one LoRA layer
+        self.n_slices = 1
+
+    def slice_lora_b(self, lora_b: torch.Tensor) -> torch.Tensor:
+        self.q_shard_id = self.tp_rank
+        self.kv_shard_id = self.tp_rank // self.base_layer.num_kv_head_replicas
+        lora_b_q = lora_b[
+            self.q_proj_shard_size * self.q_shard_id : self.q_proj_shard_size
+            * (self.q_shard_id + 1),
+            :,
+        ]
+        k_offset = self.q_proj_total_size
+        lora_b_k = lora_b[
+            k_offset + self.kv_proj_shard_size * self.kv_shard_id : k_offset
+            + self.kv_proj_shard_size * (self.kv_shard_id + 1),
+            :,
+        ]
+        v_offset = k_offset + self.kv_proj_total_size
+        lora_b_v = lora_b[
+            v_offset + self.kv_proj_shard_size * self.kv_shard_id : v_offset
+            + self.kv_proj_shard_size * (self.kv_shard_id + 1),
+            :,
+        ]
+        lora_b = torch.cat([lora_b_q, lora_b_k, lora_b_v], dim=0)
+        return lora_b
+
+    @classmethod
+    @_not_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is QKVParallelLinear and len(packed_modules_list) == 1
+
+
+class MergedQKVParallelLinearWithLoRA(MergedColumnParallelLinearWithLoRA):
+    """MergedColumnParallelLinear layer that is composed of 3 sublayers (slices)
+    packed together in qkv proj fashion
+    (q_proj + k_proj + v_proj -> qkv_proj).
+
+    This means we have 3 LoRAs, each applied to one slice of the layer.
+
+    Q slice may have different shape than K and V slices (which both have
+    the same shape).
+    """
+
+    def __init__(self, base_layer: QKVParallelLinear) -> None:
+        super().__init__(base_layer)
+        # There are three LoRA layer.
+        self.n_slices = len(self.base_layer.output_sizes)
+
+        self.q_proj_shard_size = self.base_layer.num_heads * self.base_layer.head_size
+        self.kv_proj_shard_size = (
+            self.base_layer.num_kv_heads * self.base_layer.head_size
+        )
+        self.q_shard_id = self.tp_rank
+        self.kv_shard_id = self.tp_rank // self.base_layer.num_kv_head_replicas
+
+        self.output_slices = (
+            self.q_proj_shard_size,
+            self.kv_proj_shard_size,
+            self.kv_proj_shard_size,
+        )
+        self.output_ids = (
+            self.q_shard_id,
+            self.kv_shard_id,
+            self.kv_shard_id,
+        )
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        """
+        The main reason for overloading this function is to handle inconsistent
+        weight dimensions in qkv lora.
+        """
+        super().create_lora_weights(max_loras, lora_config, model_config)
+
+    @classmethod
+    @_not_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is QKVParallelLinear and len(packed_modules_list) == 3
+
+
+# These following layers are based on the tensor parallelism strategy given in
+# Y. Sheng et al., S-LoRA: Serving Thousands of Concurrent LoRA Adapters. 2023,
+# https://arxiv.org/abs/2311.03285.
+
+
+class ColumnParallelLinearWithShardedLoRA(ColumnParallelLinearWithLoRA):
+    """
+    Differs from ColumnParallelLinearWithLoRA by slicing LoRA A also.
+
+    Based on S-LoRA, slicing happens along the rank dim.
+    """
+
+    # For all LoRA layers where the `base_layer` is `ColumnParallelLinear`,
+    # their `lora_a` and `lora_b` have different sharding patterns. After
+    # completing the `lora_a` GEMM , a gather operation is performed.
+    # Therefore, the sharding of `lora_a` only needs to correspond with the
+    # gather operation.
+    def slice_lora_a(self, lora_a: torch.Tensor) -> torch.Tensor:
+        shard_size = self.lora_a_stacked[0].shape[2]
+        start_idx = self.tp_rank * shard_size
+        lora_a = lora_a[start_idx : start_idx + shard_size, :]
+        return lora_a
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        return _mcp_apply(x, bias, self)
+
+    @classmethod
+    @_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # specifying kwargs so they can be easily accessed in decorator
+        return super().can_replace_layer(
+            source_layer=source_layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+            decorate=False,
+        )
+
+
+class MergedColumnParallelLinearWithShardedLoRA(MergedColumnParallelLinearWithLoRA):
+    """
+    Differs from MergedColumnParallelLinearWithLoRA by slicing the
+    LoRA A's also.
+
+    Based on S-LoRA, slicing happens along the rank dim.
+    """
+
+    def slice_lora_a(
+        self, lora_a: list[torch.Tensor | None]
+    ) -> list[torch.Tensor | None]:
+        # NOTE: lora_a contains 2 subloras, and each sublora could be None.
+        output_shard_size = self.lora_a_stacked[0].shape[2]
+        output_start_idx = self.tp_rank * output_shard_size
+        lora_a = [
+            lora_a[0][output_start_idx : output_start_idx + output_shard_size, :]
+            if lora_a[0] is not None
+            else None,
+            lora_a[1][output_start_idx : output_start_idx + output_shard_size, :]
+            if lora_a[1] is not None
+            else None,
+        ]
+        return lora_a
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        return _mcp_apply(x, bias, self)
+
+    @classmethod
+    @_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # specifying kwargs so they can be easily accessed in decorator
+        return super().can_replace_layer(
+            source_layer=source_layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+            decorate=False,
+        )
+
+
+class QKVParallelLinearWithShardedLoRA(QKVParallelLinearWithLoRA):
+    """
+    Differs from QKVParallelLinearWithLoRA by slicing the
+    LoRA A's also.
+
+    Based on S-LoRA, slicing happens along the rank dim.
+    """
+
+    def slice_lora_a(self, lora_a: torch.Tensor) -> torch.Tensor:
+        shard_size = self.lora_a_stacked[0].shape[2]
+        start_idx = self.tp_rank * shard_size
+        lora_a = lora_a[start_idx : start_idx + shard_size, :]
+        return lora_a
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        return _mcp_apply(x, bias, self)
+
+    @classmethod
+    @_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # specifying kwargs so they can be easily accessed in decorator
+        return super().can_replace_layer(
+            source_layer=source_layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+            decorate=False,
+        )
+
+
+class MergedQKVParallelLinearWithShardedLoRA(MergedQKVParallelLinearWithLoRA):
+    """
+    Differs from MergedQKVParallelLinearWithLoRA by slicing the
+    LoRA A's also.
+
+    Based on S-LoRA, slicing happens along the rank dim.
+    """
+
+    def slice_lora_a(
+        self, lora_a: list[torch.Tensor | None]
+    ) -> list[torch.Tensor | None]:
+        # NOTE: lora_a contains 3 subloras, and each sublora could be None.
+        shard_size = [self.lora_a_stacked[i].shape[2] for i in range(3)]
+        start_idx = [self.tp_rank * shard_size[i] for i in range(3)]
+        lora_a = [
+            lora_a[0][start_idx[0] : start_idx[0] + shard_size[0], :]
+            if lora_a[0] is not None
+            else None,
+            lora_a[1][start_idx[1] : start_idx[1] + shard_size[1], :]
+            if lora_a[1] is not None
+            else None,
+            lora_a[2][start_idx[2] : start_idx[2] + shard_size[2], :]
+            if lora_a[2] is not None
+            else None,
+        ]
+        return lora_a
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        return _mcp_apply(x, bias, self)
+
+    @classmethod
+    @_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # specifying kwargs so they can be easily accessed in decorator
+        return super().can_replace_layer(
+            source_layer=source_layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+            decorate=False,
+        )
diff --git a/lora/layers/fused_moe.py b/lora/layers/fused_moe.py
new file mode 100644
index 0000000..8fb3efa
--- /dev/null
+++ b/lora/layers/fused_moe.py
@@ -0,0 +1,472 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm import envs
+from vllm.config.lora import LoRAConfig
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.lora.layers.base import BaseLayerWithLoRA
+from vllm.lora.ops.triton_ops.utils import get_lora_op_configs
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.fused_moe.config import (
+    _get_config_dtype_str,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import (
+    modular_marlin_fused_moe,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe import (
+    modular_triton_fused_moe,
+    try_get_optimal_moe_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_modular_method import (
+    FusedMoEModularMethod,
+)
+
+
+class FusedMoEWithLoRA(BaseLayerWithLoRA):
+    def __init__(self, base_layer: FusedMoE) -> None:
+        super().__init__()
+        self.base_layer = base_layer
+
+        assert not self.base_layer.use_ep, (
+            "EP support for Fused MoE LoRA is not implemented yet."
+        )
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.device = base_layer.w2_weight.device
+        self._inject_lora_into_fused_moe()
+
+    def _normalize_keys(self, config: dict[str, int | None]) -> dict[str, int | None]:
+        normalized_config = {}
+        for key, value in config.items():
+            if key.islower():
+                if key.startswith("block_"):
+                    normalized_key = "BLOCK_SIZE_" + key.split("_")[-1].upper()
+                else:
+                    normalized_key = key.upper()
+            else:
+                normalized_key = key
+            normalized_config[normalized_key] = value
+        return normalized_config
+
+    def _get_lora_moe_configs(
+        self,
+        op_prefix: str,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        num_slices: int,
+        M: int,
+        layer: FusedMoE,
+        top_k: int,
+        config_dtype: str,
+    ):
+        if envs.VLLM_TUNED_CONFIG_FOLDER:
+            shrink_config = get_lora_op_configs(
+                op_type=f"fused_moe_lora_{op_prefix}_shrink",
+                max_loras=lora_a_stacked.shape[0],
+                batch=M,
+                hidden_size=lora_a_stacked.shape[-1],
+                rank=lora_a_stacked.shape[-2],
+                num_slices=num_slices,
+                moe_intermediate_size=lora_b_stacked.shape[-2],
+            )
+            expand_config = get_lora_op_configs(
+                op_type=f"fused_moe_lora_{op_prefix}_expand",
+                max_loras=lora_a_stacked.shape[0],
+                batch=M,
+                hidden_size=lora_a_stacked.shape[-1],
+                rank=lora_a_stacked.shape[-2],
+                num_slices=num_slices,
+                moe_intermediate_size=lora_b_stacked.shape[-2],
+            )
+        else:  # fall back to the default config
+            get_config_func = functools.partial(
+                try_get_optimal_moe_config,
+                layer.w13_weight.size(),
+                layer.w2_weight.size(),
+                top_k,
+                config_dtype,
+                block_shape=layer.quant_method.moe_quant_config.block_shape,
+            )
+            shrink_config = get_config_func(M)
+            expand_config = get_config_func(M)
+        shrink_config = self._normalize_keys(shrink_config)
+        expand_config = self._normalize_keys(expand_config)
+        return shrink_config, expand_config
+
+    def _inject_lora_into_fused_moe(self):
+        moe_state_dict = {}
+        top_k = self.base_layer.top_k
+
+        self.base_layer.ensure_moe_quant_config_init()
+        quant_config = self.base_layer.quant_method.moe_quant_config
+
+        m_fused_moe_fn = (
+            modular_triton_fused_moe(
+                quant_config, shared_experts=self.base_layer.shared_experts
+            )
+            if not quant_config.use_mxfp4_w4a16
+            else modular_marlin_fused_moe(
+                quant_config, shared_experts=self.base_layer.shared_experts
+            )
+        )
+
+        def fwd_decorator(layer, func):
+            def wrapper(*args, **kwargs):
+                moe_state_dict["hidden_states"] = kwargs["hidden_states"]
+                moe_state_dict["topk_ids"] = kwargs["topk_ids"]
+                moe_state_dict["topk_weights"] = kwargs["topk_weights"]
+                moe_state_dict["expert_map"] = kwargs["expert_map"]
+                moe_state_dict["apply_router_weight_on_input"] = kwargs[
+                    "apply_router_weight_on_input"
+                ]
+                result = func(*args, **kwargs)
+                return result
+
+            return wrapper
+
+        def act_decorator(layer, func):
+            def wrapper(*args, **kwargs):
+                _, output, input = args
+
+                hidden_states = moe_state_dict["hidden_states"]
+                topk_weights = moe_state_dict["topk_weights"]
+                curr_topk_ids = moe_state_dict["topk_ids"]
+
+                expert_map = moe_state_dict["expert_map"]
+
+                config_dtype = _get_config_dtype_str(
+                    dtype=hidden_states.dtype,
+                    use_fp8_w8a8=False,
+                    use_int8_w8a16=False,
+                    use_int4_w4a16=False,
+                )
+                CHUNK_SIZE = envs.VLLM_FUSED_MOE_CHUNK_SIZE
+                num_tokens = hidden_states.size(0)
+                M = min(num_tokens, CHUNK_SIZE)
+
+                shrink_config, expand_config = self._get_lora_moe_configs(
+                    op_prefix="w13",
+                    lora_a_stacked=self.w1_lora_a_stacked,
+                    lora_b_stacked=self.w1_lora_b_stacked,
+                    num_slices=2,
+                    M=M,
+                    layer=layer,
+                    top_k=top_k,
+                    config_dtype=config_dtype,
+                )
+
+                # get the block size of m from customized config or default config
+                max_loras = self.w1_lora_a_stacked.shape[0]
+                (
+                    sorted_token_ids_lora,
+                    expert_ids_lora,
+                    num_tokens_post_padded_lora,
+                ) = self.punica_wrapper.moe_lora_align_block_size(
+                    curr_topk_ids,
+                    num_tokens,
+                    shrink_config["BLOCK_SIZE_M"],
+                    self.base_layer.local_num_experts,
+                    max_loras,
+                    self.adapter_enabled,
+                    expert_map,
+                )
+
+                moe_state_dict["sorted_token_ids_lora"] = sorted_token_ids_lora
+                moe_state_dict["expert_ids_lora"] = expert_ids_lora
+                moe_state_dict["num_tokens_post_padded_lora"] = (
+                    num_tokens_post_padded_lora
+                )
+
+                w13_lora_a_stacked = [self.w1_lora_a_stacked, self.w3_lora_a_stacked]
+                w13_lora_b_stacked = [self.w1_lora_b_stacked, self.w3_lora_b_stacked]
+                max_lora_rank = self.w1_lora_a_stacked.shape[-2]
+                expert_ids_lora = expert_ids_lora.view(max_loras, -1)
+                sorted_token_ids_lora = sorted_token_ids_lora.view(max_loras, -1)
+
+                self.punica_wrapper.add_lora_fused_moe(
+                    input.view(-1, top_k, input.shape[-1]),
+                    hidden_states,
+                    w13_lora_a_stacked,
+                    w13_lora_b_stacked,
+                    topk_weights,
+                    sorted_token_ids_lora,
+                    expert_ids_lora,
+                    num_tokens_post_padded_lora,
+                    max_lora_rank,
+                    top_k,
+                    shrink_config,  ## pass the shrink config
+                    expand_config,  ## pass the expand config
+                    self.adapter_enabled,
+                )
+
+                result = func(*args, **kwargs)
+
+                moe_state_dict["intermediate_cache2"] = output
+                return result
+
+            return wrapper
+
+        def moe_sum_decorator(layer, func):
+            def wrapper(*args, **kwargs):
+                hidden_states = moe_state_dict["hidden_states"]
+                topk_weights = moe_state_dict["topk_weights"]
+
+                config_dtype = _get_config_dtype_str(
+                    dtype=hidden_states.dtype,
+                    use_fp8_w8a8=False,
+                    use_int8_w8a16=False,
+                    use_int4_w4a16=False,
+                )
+                CHUNK_SIZE = envs.VLLM_FUSED_MOE_CHUNK_SIZE
+                num_tokens = hidden_states.size(0)
+                M = min(num_tokens, CHUNK_SIZE)
+
+                shrink_config, expand_config = self._get_lora_moe_configs(
+                    op_prefix="w2",
+                    lora_a_stacked=self.w2_lora_a_stacked,
+                    lora_b_stacked=self.w2_lora_b_stacked,
+                    num_slices=1,
+                    M=M,
+                    layer=layer,
+                    top_k=top_k,
+                    config_dtype=config_dtype,
+                )
+
+                sorted_token_ids_lora = moe_state_dict["sorted_token_ids_lora"]
+                expert_ids_lora = moe_state_dict["expert_ids_lora"]
+                num_tokens_post_padded_lora = moe_state_dict[
+                    "num_tokens_post_padded_lora"
+                ]
+                max_loras = self.w1_lora_a_stacked.shape[0]
+                expert_ids_lora = expert_ids_lora.view(max_loras, -1)
+                sorted_token_ids_lora = sorted_token_ids_lora.view(max_loras, -1)
+                intermediate_cache2 = moe_state_dict["intermediate_cache2"]
+                intermediate_cache3 = args[0]
+                max_lora_rank = self.w1_lora_a_stacked.shape[-2]
+                self.punica_wrapper.add_lora_fused_moe(
+                    intermediate_cache3,
+                    intermediate_cache2,
+                    [self.w2_lora_a_stacked],
+                    [self.w2_lora_b_stacked],
+                    topk_weights,
+                    sorted_token_ids_lora,
+                    expert_ids_lora,
+                    num_tokens_post_padded_lora,
+                    max_lora_rank,
+                    top_k,
+                    shrink_config,  ## pass the shrink config
+                    expand_config,  ## pass the expand config
+                    self.adapter_enabled,
+                    True,
+                )
+
+                result = func(*args, **kwargs)
+                return result
+
+            return wrapper
+
+        fused_experts = m_fused_moe_fn.fused_experts
+
+        m_fused_moe_fn.forward = fwd_decorator(self.base_layer, m_fused_moe_fn.forward)
+        fused_experts.activation = act_decorator(
+            self.base_layer, fused_experts.activation
+        )
+        fused_experts.moe_sum = moe_sum_decorator(
+            self.base_layer, fused_experts.moe_sum
+        )
+
+        self.base_layer.quant_method = FusedMoEModularMethod(
+            self.base_layer.quant_method, m_fused_moe_fn
+        )
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        """Initializes lora matrices."""
+
+        self.adapter_enabled = torch.tensor(
+            [0] * (max_loras + 1), dtype=torch.int, device=self.device
+        )
+
+        self.w1_lora_a_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                lora_config.max_lora_rank,
+                self.base_layer.hidden_size,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+        self.w1_lora_b_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                self.base_layer.intermediate_size_per_partition,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+
+        self.w2_lora_a_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                lora_config.max_lora_rank,
+                self.base_layer.intermediate_size_per_partition,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+        self.w2_lora_b_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                self.base_layer.hidden_size,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+
+        self.w3_lora_a_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                lora_config.max_lora_rank,
+                self.base_layer.hidden_size,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+        self.w3_lora_b_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.local_num_experts,
+                self.base_layer.intermediate_size_per_partition,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+
+        # They will be used by 'LoRALayerWeights.create_dummy_lora_weights'
+        # to create a dummy LoRA weights.
+        self.lora_a_stacked = []
+        self.lora_b_stacked = []
+        for lora_id in range(max_loras):
+            for experts_id in range(self.base_layer.local_num_experts):
+                # gate_proj,down_proj,up_proj
+                self.lora_a_stacked.append(self.w1_lora_a_stacked[lora_id][experts_id])
+                self.lora_a_stacked.append(self.w2_lora_a_stacked[lora_id][experts_id])
+                self.lora_a_stacked.append(self.w3_lora_a_stacked[lora_id][experts_id])
+
+                self.lora_b_stacked.append(self.w1_lora_b_stacked[lora_id][experts_id])
+                self.lora_b_stacked.append(self.w2_lora_b_stacked[lora_id][experts_id])
+                self.lora_b_stacked.append(self.w3_lora_b_stacked[lora_id][experts_id])
+
+    def reset_lora(self, index: int):
+        """Resets the lora weights at index back to 0."""
+        self.w1_lora_a_stacked[index] = 0
+        self.w1_lora_b_stacked[index] = 0
+        self.w3_lora_a_stacked[index] = 0
+        self.w3_lora_b_stacked[index] = 0
+        self.w2_lora_a_stacked[index] = 0
+        self.w2_lora_b_stacked[index] = 0
+        self.adapter_enabled[index] = 0
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+        bias: torch.Tensor | None = None,
+    ):
+        """Overwrites lora tensors at index."""
+        self.reset_lora(index)
+        self.adapter_enabled[index] = 1
+        for eid in range(len(lora_a) // 3):
+            w1_lora_a = lora_a[eid * 3]
+            w2_lora_a = lora_a[eid * 3 + 1]
+            w3_lora_a = lora_a[eid * 3 + 2]
+            w1_lora_b = lora_b[eid * 3]
+            w2_lora_b = lora_b[eid * 3 + 1]
+            w3_lora_b = lora_b[eid * 3 + 2]
+
+            # Handle the case of adding LoRA to only a subset of experts
+            if w1_lora_a is None or w2_lora_a is None or w3_lora_a is None:
+                continue
+
+            if self.tp_size > 1:
+                shard_size = self.base_layer.intermediate_size_per_partition
+                start_idx = self.tp_rank * shard_size
+                end_idx = (self.tp_rank + 1) * shard_size
+
+                w1_lora_b = w1_lora_b[start_idx:end_idx, :]
+                w3_lora_b = w3_lora_b[start_idx:end_idx, :]
+                w2_lora_a = w2_lora_a[:, start_idx:end_idx]
+
+            self.w1_lora_a_stacked[
+                index, eid, : w1_lora_a.shape[0], : w1_lora_a.shape[1]
+            ].copy_(w1_lora_a, non_blocking=True)
+
+            self.w3_lora_a_stacked[
+                index, eid, : w3_lora_a.shape[0], : w3_lora_a.shape[1]
+            ].copy_(w3_lora_a, non_blocking=True)
+
+            self.w2_lora_b_stacked[
+                index, eid, : w2_lora_b.shape[0], : w2_lora_b.shape[1]
+            ].copy_(w2_lora_b, non_blocking=True)
+
+            self.w1_lora_b_stacked[
+                index, eid, : w1_lora_b.shape[0], : w1_lora_b.shape[1]
+            ].copy_(w1_lora_b, non_blocking=True)
+            self.w3_lora_b_stacked[
+                index, eid, : w3_lora_b.shape[0], : w3_lora_b.shape[1]
+            ].copy_(w3_lora_b, non_blocking=True)
+            self.w2_lora_a_stacked[
+                index, eid, : w2_lora_a.shape[0], : w2_lora_a.shape[1]
+            ].copy_(w2_lora_a, non_blocking=True)
+
+    @classmethod
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        """Returns True if the layer can be replaced by this LoRA layer."""
+        # return type(source_layer) is FusedMoE
+        return isinstance(source_layer, FusedMoE)
+
+    def forward(self, *args, **kwargs):
+        return self.base_layer.forward(*args, **kwargs)
+
+    def maybe_all_reduce_tensor_model_parallel(self, *args, **kwargs):
+        return self.base_layer.maybe_all_reduce_tensor_model_parallel(*args, **kwargs)
+
+    @property
+    def _shared_experts(self):
+        return self.base_layer._shared_experts
+
+    @property
+    def quant_method(self):
+        return self.base_layer.quant_method
+
+    @property
+    def is_internal_router(self) -> bool:
+        return self.base_layer.is_internal_router
diff --git a/lora/layers/logits_processor.py b/lora/layers/logits_processor.py
new file mode 100644
index 0000000..adc5e86
--- /dev/null
+++ b/lora/layers/logits_processor.py
@@ -0,0 +1,252 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.platforms import current_platform
+
+from .base import BaseLayerWithLoRA
+
+
+class LogitsProcessorWithLoRA(BaseLayerWithLoRA):
+    """
+    LoRA wrapper for LogitsProcessor, with extra logic to handle the
+    application of the LoRA adapter and added LoRA vocabulary.
+
+    Args:
+        base_layer: LogitsProcessor layer
+        hidden_size: hidden size of the model
+        dtype: data type of the model
+        device: device of the model
+        sharded_to_full_mapping: index mapping from sharded vocab to full vocab
+            received from base_layer.get_sharded_to_full_mapping(). If None,
+            no reindexing will be done.
+    """
+
+    def __init__(
+        self,
+        base_layer: LogitsProcessor,
+        hidden_size: int,
+        dtype: torch.dtype,
+        device: torch.device,
+        sharded_to_full_mapping: list[int] | None,
+    ) -> None:
+        super().__init__()
+        self.base_layer = base_layer
+        self.hidden_size = hidden_size
+        self.dtype = dtype
+        self.device = device
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.sharded_to_full_mapping = sharded_to_full_mapping
+
+    @property
+    def logits_as_input(self):
+        return self.base_layer.logits_as_input
+
+    @property
+    def vocab_size(self):
+        return self.base_layer.vocab_size
+
+    @property
+    def scale(self):
+        return self.base_layer.scale
+
+    @property
+    def soft_cap(self):
+        return self.base_layer.soft_cap
+
+    @property
+    def use_all_gather(self):
+        return self.base_layer.use_all_gather
+
+    @property
+    def org_vocab_size(self):
+        return self.base_layer.org_vocab_size
+
+    @property
+    def include_gpu_probs_tensor(self):
+        return self.base_layer.include_gpu_probs_tensor
+
+    @property
+    def should_modify_greedy_probs_inplace(self):
+        return self.base_layer.should_modify_greedy_probs_inplace
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        # TODO: Verify if this condition can be further relaxed
+        if 32000 < self.base_layer.vocab_size > 257024:
+            raise ValueError(
+                "When using LoRA, vocab size must be 32000 >= vocab_size <= 257024"
+            )
+        self.lora_a_stacked = torch.zeros(
+            (
+                max_loras,
+                1,
+                lora_config.max_lora_rank,
+                self.hidden_size,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+        self.lora_b_stacked = torch.zeros(
+            (
+                max_loras,
+                1,
+                # Pad for kernel compatibility
+                math.ceil(
+                    self.base_layer.vocab_size / lora_config.lora_vocab_padding_size
+                )
+                * lora_config.lora_vocab_padding_size,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.device,
+        )
+        self.embeddings_tensors = torch.full(
+            (max_loras, lora_config.lora_extra_vocab_size, self.hidden_size),
+            fill_value=float("-inf"),
+            dtype=self.dtype,
+            device=self.device,
+        )
+        if self.sharded_to_full_mapping is not None:
+            self.sharded_to_full_mapping_gpu = torch.tensor(
+                self.sharded_to_full_mapping, device=self.device, dtype=torch.long
+            )
+        else:
+            self.sharded_to_full_mapping_gpu = None
+
+    def reset_lora(self, index: int):
+        self.lora_a_stacked[index] = 0
+        self.lora_b_stacked[index] = 0
+        self.embeddings_tensors[index] = float("-inf")
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        self.reset_lora(index)
+        self.lora_a_stacked[index, 0, : lora_a.shape[0], : lora_a.shape[1]].copy_(
+            lora_a, non_blocking=True
+        )
+        self.lora_b_stacked[index, 0, : lora_b.shape[0], : lora_b.shape[1]].copy_(
+            lora_b, non_blocking=True
+        )
+        if embeddings_tensor is not None:
+            self.embeddings_tensors[
+                index,
+                : embeddings_tensor.shape[0],
+                : embeddings_tensor.shape[1],
+            ] = embeddings_tensor
+
+    def _get_logits(
+        self,
+        hidden_states: torch.Tensor,
+        lm_head: VocabParallelEmbedding,
+        embedding_bias: torch.Tensor | None = None,
+    ) -> torch.Tensor | None:
+        # Get the logits for the next tokens.
+        logits = lm_head.quant_method.apply(lm_head, hidden_states)
+        if embedding_bias is not None:
+            logits += embedding_bias
+
+        # Gather logits for TP
+        logits = self.base_layer._gather_logits(logits)
+
+        if logits is None:
+            return None
+
+        if self.sharded_to_full_mapping_gpu is not None:
+            # Reindex full logits tensor to ensure 1:1 mapping between
+            # index and token_id
+            # Example for:
+            #   org_vocab_size = 4
+            #   added_vocab_size = 2
+            #   pad_to_size = 8
+            #   tp_size = 2
+
+            # indices:  [0, 1, 2,  3, 4, 5, 6,  7]
+            # token_id: [0, 1, 4, -1, 2, 3, 5, -1]
+
+            # Therefore, the mapping is expected to be:
+            # [0, 1, 4, 6, 2, 3, 5, 7] so that when we reindex,
+            # we get:
+            # indices:  [0, 1, 2, 3, 4, 5,  6,  7]
+            # token_id: [0, 1, 2, 3, 4, 5, -1, -1]
+            logits = logits[:, self.sharded_to_full_mapping_gpu]
+
+        lora_logits = torch.empty(
+            self.embeddings_tensors.shape[0] + 1,
+            self.embeddings_tensors.shape[1],
+            hidden_states.shape[0],
+            dtype=self.embeddings_tensors.dtype,
+            device=self.embeddings_tensors.device,
+        )
+        torch.matmul(self.embeddings_tensors, hidden_states.T, out=lora_logits[:-1])
+
+        neg_inf, pos_inf = current_platform.get_infinity_values(lora_logits.dtype)
+
+        lora_logits[-1] = neg_inf
+        lora_logits = lora_logits.mT
+        indices_padded = self.punica_wrapper.sampler_indices_padded
+
+        if current_platform.is_tpu() or current_platform.is_xpu():
+            indices_padded = indices_padded[: logits.size(0)]
+
+        lora_logits = (
+            lora_logits.reshape(
+                lora_logits.shape[0] * lora_logits.shape[1],
+                lora_logits.shape[2],
+            )
+            .index_select(0, indices_padded)
+            .nan_to_num_(nan=neg_inf, posinf=pos_inf, neginf=neg_inf)
+        )
+
+        logits[
+            :,
+            self.base_layer.org_vocab_size : self.base_layer.org_vocab_size
+            + lora_logits.shape[1],
+        ] = lora_logits
+
+        lora_output: torch.Tensor | None = self.punica_wrapper.add_lora_logits(
+            logits, hidden_states, self.lora_a_stacked, self.lora_b_stacked, 1.0
+        )
+
+        if not current_platform.can_update_inplace():
+            logits = lora_output
+
+        # Remove paddings in vocab (if any).
+        logits = logits[:, : self.base_layer.vocab_size]
+        return logits
+
+    def forward(self, *args, **kwargs):
+        return type(self.base_layer).forward(self, *args, **kwargs)
+
+    @classmethod
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # Special handling for the LogitsProcessor.
+        return False
diff --git a/lora/layers/replicated_linear.py b/lora/layers/replicated_linear.py
new file mode 100644
index 0000000..243736c
--- /dev/null
+++ b/lora/layers/replicated_linear.py
@@ -0,0 +1,70 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.model_executor.layers.linear import ReplicatedLinear
+
+from .base_linear import BaseLinearLayerWithLoRA
+
+
+class ReplicatedLinearWithLoRA(BaseLinearLayerWithLoRA):
+    def __init__(self, base_layer: ReplicatedLinear) -> None:
+        super().__init__(
+            base_layer,
+        )
+        # To ensure interface compatibility, set to 1 always.
+        self.output_size = self.base_layer.output_size
+        self.n_slices = 1
+
+    def forward(
+        self, input_: torch.Tensor
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor | None]:
+        """Forward of ReplicatedLinearWithLoRA
+
+        Args:
+            input_: Tensor whose last dimension is `input_size`.
+
+        Returns:
+            - output
+            - bias
+        """
+        bias = self.base_layer.bias if not self.base_layer.skip_bias_add else None
+
+        # Matrix multiply.
+        output = self.apply(input_, bias)
+
+        output_bias = self.base_layer.bias if self.base_layer.skip_bias_add else None
+
+        if not self.base_layer.return_bias:
+            return output
+
+        return output, output_bias
+
+    # ReplicatedLinear should always be replaced, regardless of the fully
+    # sharded LoRAs setting, because it is, by definition, copied per GPU.
+    @classmethod
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is ReplicatedLinear
+
+    def slice_lora_a(
+        self, lora_a: torch.Tensor | list[torch.Tensor | None]
+    ) -> torch.Tensor | list[torch.Tensor | None]:
+        """Slice lora a if splitting for tensor parallelism."""
+        return lora_a
+
+    def slice_lora_b(
+        self, lora_b: torch.Tensor | list[torch.Tensor | None]
+    ) -> torch.Tensor | list[torch.Tensor | None]:
+        """Slice lora b if splitting with tensor parallelism."""
+        return lora_b
diff --git a/lora/layers/row_parallel_linear.py b/lora/layers/row_parallel_linear.py
new file mode 100644
index 0000000..2ef1bd9
--- /dev/null
+++ b/lora/layers/row_parallel_linear.py
@@ -0,0 +1,181 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.distributed import (
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.linear import RowParallelLinear
+from vllm.platforms import current_platform
+
+from .base_linear import BaseLinearLayerWithLoRA
+from .utils import _fully_sharded_can_replace, _not_fully_sharded_can_replace
+
+
+class RowParallelLinearWithLoRA(BaseLinearLayerWithLoRA):
+    def __init__(self, base_layer: RowParallelLinear) -> None:
+        super().__init__(base_layer)
+
+        # reset input_size
+        self.input_size = self.base_layer.input_size_per_partition
+        self.output_size = self.base_layer.output_size
+        # There is only one LoRA layer.
+        self.n_slices = 1
+
+    def slice_lora_a(self, lora_a: torch.Tensor) -> torch.Tensor:
+        shard_size = self.input_size
+        start_idx = self.tp_rank * shard_size
+        end_idx = (self.tp_rank + 1) * shard_size
+        lora_a = lora_a[:, start_idx:end_idx]
+        return lora_a
+
+    def slice_lora_b(self, lora_b: torch.Tensor) -> torch.Tensor:
+        return lora_b
+
+    def forward(
+        self, input_: torch.Tensor
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor | None]:
+        """Forward of RowParallelLinear
+
+        Args:
+            input_: tensor whose last dimension is `input_size`. If
+                    `input_is_parallel` is set, then the last dimension
+                    is `input_size // tp_size`.
+
+        Returns:
+            - output
+            - bias
+        """
+        # set up backprop all-reduce.
+        if self.base_layer.input_is_parallel:
+            input_parallel = input_
+        else:
+            # TODO: simplify code below
+            splitted_input = split_tensor_along_last_dim(
+                input_, num_partitions=self.tp_size
+            )
+            input_parallel = splitted_input[self.tp_rank].contiguous()
+
+        # Matrix multiply.
+        output_parallel = self.apply(input_parallel)
+        if self.base_layer.reduce_results and self.tp_size > 1:
+            output_ = tensor_model_parallel_all_reduce(output_parallel)
+        else:
+            output_ = output_parallel
+
+        if not self.base_layer.skip_bias_add:
+            output = (
+                output_ + self.base_layer.bias
+                if self.base_layer.bias is not None
+                else output_
+            )
+            output_bias = None
+        else:
+            output = output_
+            output_bias = self.base_layer.bias
+
+        if not self.base_layer.return_bias:
+            return output
+
+        return output, output_bias
+
+    @classmethod
+    @_not_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is RowParallelLinear
+
+
+# The following layer is based on the tensor parallelism strategy given in
+# Y. Sheng et al., S-LoRA: Serving Thousands of Concurrent LoRA Adapters. 2023,
+# https://arxiv.org/abs/2311.03285.
+
+
+class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
+    """
+    Differs from RowParallelLinearWithLoRA by slicing the
+    LoRA B's also.
+
+    Based on S-LoRA, slicing happens along the output dim.
+    This yields a combined partial sum from the row parallel base
+    layer and column partitioned output from the LoRA.
+    """
+
+    def slice_lora_b(self, lora_b: torch.Tensor) -> torch.Tensor:
+        shard_size = self.lora_b_stacked[0].shape[2]
+        start_idx = self.tp_rank * shard_size
+        end_idx = (self.tp_rank + 1) * shard_size
+        lora_b = lora_b[start_idx:end_idx, :]
+        return lora_b
+
+    def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
+        output = self.base_layer.quant_method.apply(self.base_layer, x)
+
+        x = x.view(-1, x.shape[-1])
+        output, out_orig_shape = output.view(-1, output.shape[-1]), output.shape
+        buffer = torch.zeros(
+            (self.n_slices, x.shape[0], self.lora_a_stacked[0].shape[2]),
+            dtype=torch.float32,
+            device=x.device,
+        )
+
+        shrunk_buffer: torch.Tensor | None = self.punica_wrapper.add_shrink(
+            buffer, x, self.lora_a_stacked, 1.0
+        )
+        if not current_platform.can_update_inplace():
+            buffer = shrunk_buffer
+        if self.tp_size > 1:
+            buffer = tensor_model_parallel_all_reduce(buffer)
+
+        # following S-LoRA, allows the fusing of all_gather and all_reduce
+        # by adding the column partitioned lora output to a slice of output
+        # tensor, which is a partial sum due to row parallel. All that
+        # remains is a standard all_reduce. User should be aware though that
+        # the output is not the same as a normal row_parallel, it should be
+        # reduced before being used
+        # NOTE offset are based on the rank.
+        shard_size = self.lora_b_stacked[0].shape[2]
+        offset_start = self.tp_rank * shard_size
+        lora_output: torch.Tensor | None = self.punica_wrapper.add_expand(
+            output,
+            buffer,
+            self.lora_b_stacked,
+            self.output_slices,
+            offset_start=offset_start,
+            add_input=True,
+        )
+
+        if not current_platform.can_update_inplace():
+            output = lora_output
+
+        output = output.view(*out_orig_shape)
+        return output
+
+    @classmethod
+    @_fully_sharded_can_replace
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        # specifying kwargs so they can be easily accessed in decorator
+        return super().can_replace_layer(
+            source_layer=source_layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+            decorate=False,
+        )
diff --git a/lora/layers/utils.py b/lora/layers/utils.py
new file mode 100644
index 0000000..2da90f1
--- /dev/null
+++ b/lora/layers/utils.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+import torch
+import torch.nn as nn
+
+
+@dataclass
+class LoRAMapping:
+    index_mapping: tuple[int, ...]
+    prompt_mapping: tuple[int, ...]
+    is_prefill: bool = False
+
+    def __post_init__(self):
+        self.index_mapping = tuple(self.index_mapping)
+        self.prompt_mapping = tuple(self.prompt_mapping)
+
+
+def _get_lora_device(base_layer: nn.Module) -> torch.device:
+    # code borrowed from https://github.com/fmmoret/vllm/blob/fm-support-lora-on-quantized-models/vllm/lora/layers.py#L34
+    """Returns the device for where to place the LoRA tensors."""
+    # unquantizedLinear
+    if hasattr(base_layer, "weight"):
+        return base_layer.weight.device
+    # Compressed Tensor
+    elif hasattr(base_layer, "weight_packed"):
+        return base_layer.weight_packed.device
+    # GPTQ/AWQ
+    elif hasattr(base_layer, "qweight"):
+        return base_layer.qweight.device
+    # HQQ marlin
+    elif hasattr(base_layer, "W_q"):
+        return base_layer.W_q.device
+    else:
+        raise ValueError(f"Unsupported base layer: {base_layer}")
+
+
+def _not_fully_sharded_can_replace(can_replace):
+    """
+    decorator which adds the condition of not using fully sharded loras
+    intended to wrap can_replace_layer()
+    """
+
+    def dec(*args, **kwargs):
+        decorate = kwargs.pop("decorate") if "decorate" in kwargs else True
+        condition = not kwargs["lora_config"].fully_sharded_loras if decorate else True
+        return can_replace(*args, **kwargs) and condition
+
+    return dec
+
+
+def _fully_sharded_can_replace(can_replace):
+    """
+    decorator which adds the condition of fully sharded loras
+    intended to wrap can_replace_layer()
+    """
+
+    def dec(*args, **kwargs):
+        return (
+            can_replace(*args, **kwargs) and kwargs["lora_config"].fully_sharded_loras
+        )
+
+    return dec
diff --git a/lora/layers/vocal_parallel_embedding.py b/lora/layers/vocal_parallel_embedding.py
new file mode 100644
index 0000000..ca4ad80
--- /dev/null
+++ b/lora/layers/vocal_parallel_embedding.py
@@ -0,0 +1,166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.platforms import current_platform
+
+from .base import BaseLayerWithLoRA
+
+
+class VocabParallelEmbeddingWithLoRA(BaseLayerWithLoRA):
+    def __init__(self, base_layer: VocabParallelEmbedding) -> None:
+        super().__init__()
+        self.base_layer = base_layer
+        self.embeddings_slice: tuple[int, int] | None
+        self.embeddings_weights: torch.Tensor | None
+
+    def create_lora_weights(
+        self,
+        max_loras: int,
+        lora_config: LoRAConfig,
+        model_config: PretrainedConfig | None = None,
+    ) -> None:
+        if self.base_layer.num_added_embeddings_per_partition > 0:
+            # We can start adding lora weights
+            self.embeddings_weights = self.base_layer.weight.data[
+                self.base_layer.num_org_embeddings_per_partition : self.base_layer.num_org_embeddings_per_partition  # noqa: E501
+                + self.base_layer.num_added_embeddings_per_partition
+            ]
+            self.embeddings_slice = (
+                self.base_layer.shard_indices.added_vocab_start_index
+                - self.base_layer.org_vocab_size,
+                self.base_layer.shard_indices.added_vocab_end_index
+                - self.base_layer.org_vocab_size,
+            )
+            self.base_layer.weight.data[
+                self.base_layer.num_org_embeddings_per_partition :
+            ].fill_(0)
+        else:
+            self.embeddings_slice = None
+            self.embeddings_weights = None
+
+        self.embeddings_tensors = torch.zeros(
+            (
+                max_loras,
+                lora_config.lora_extra_vocab_size,
+                self.base_layer.embedding_dim,
+            ),
+            dtype=self.base_layer.weight.dtype,
+            device=self.base_layer.weight.device,
+        )
+        self.lora_a_stacked = torch.zeros(
+            (
+                max_loras,
+                self.base_layer.org_vocab_size + lora_config.lora_extra_vocab_size,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.base_layer.weight.device,
+        )
+        self.lora_b_stacked = torch.zeros(
+            (
+                max_loras,
+                1,
+                self.base_layer.embedding_dim,
+                lora_config.max_lora_rank,
+            ),
+            dtype=lora_config.lora_dtype,
+            device=self.base_layer.weight.device,
+        )
+        self.lora_a_stacked_2d = self.lora_a_stacked.view(
+            self.lora_a_stacked.shape[0] * self.lora_a_stacked.shape[1],
+            self.lora_a_stacked.shape[2],
+        )
+
+    def reset_lora(self, index: int):
+        self.lora_a_stacked[index] = 0
+        self.lora_b_stacked[index] = 0
+        self.embeddings_tensors[index] = 0
+
+    def set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        self.reset_lora(index)
+        # NOTE self.lora_a_stacked is row-major, and lora_a is col-major,
+        # so we need transpose here
+        self.lora_a_stacked[index, : lora_a.shape[1], : lora_a.shape[0]].copy_(
+            lora_a.T, non_blocking=True
+        )
+        self.lora_b_stacked[index, 0, : lora_b.shape[0], : lora_b.shape[1]].copy_(
+            lora_b, non_blocking=True
+        )
+        if embeddings_tensor is not None:
+            self.embeddings_tensors[
+                index,
+                : embeddings_tensor.shape[0],
+                : embeddings_tensor.shape[1],
+            ].copy_(embeddings_tensor, non_blocking=True)
+            if self.embeddings_slice is not None:
+                # TODO(yard1): Optimize this copy, we don't need to copy
+                # everything, just the modified part
+                embeddings = self.embeddings_tensors.view(
+                    self.embeddings_tensors.shape[0] * self.embeddings_tensors.shape[1],
+                    self.embeddings_tensors.shape[2],
+                )[self.embeddings_slice[0] : self.embeddings_slice[1]]
+                assert self.embeddings_weights is not None
+                self.embeddings_weights[: embeddings.shape[0]].copy_(embeddings)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        added_tokens_mask = torch.where(x > self.base_layer.org_vocab_size - 1, 1, 0)
+
+        # NB: Don't use torch.narrow here. torch.narrow triggers some
+        # Dynamic Shape specialization in torch.compile
+        num_tokens = x.shape[0]
+        indices_1 = self.punica_wrapper._embeddings_indices[1][:num_tokens]
+        indices_0 = self.punica_wrapper._embeddings_indices[0][:num_tokens]
+
+        full_lora_a_embeddings = F.embedding(
+            x + indices_1,
+            self.lora_a_stacked_2d,
+        )
+        full_output = self.base_layer.forward(x + (indices_0 * added_tokens_mask))
+
+        full_output_org = full_output
+        if full_output.ndim == 3:
+            full_output = full_output.view(
+                full_output.shape[0] * full_output.shape[1], -1
+            )
+        if full_lora_a_embeddings.ndim == 3:
+            full_lora_a_embeddings = full_lora_a_embeddings.view(
+                full_lora_a_embeddings.shape[0] * full_lora_a_embeddings.shape[1],
+                -1,
+            )
+
+        lora_output: torch.Tensor | None = self.punica_wrapper.add_lora_embedding(
+            full_output, full_lora_a_embeddings, self.lora_b_stacked, add_input=True
+        )
+
+        if not current_platform.can_update_inplace():
+            full_output = lora_output
+
+        return full_output.view_as(full_output_org)
+
+    @classmethod
+    def can_replace_layer(
+        cls,
+        source_layer: nn.Module,
+        lora_config: LoRAConfig,
+        packed_modules_list: list,
+        model_config: PretrainedConfig | None,
+    ) -> bool:
+        return type(source_layer) is VocabParallelEmbedding
+
+    @property
+    def weight(self):
+        return self.base_layer.weight
diff --git a/lora/lora_weights.py b/lora/lora_weights.py
new file mode 100644
index 0000000..7691481
--- /dev/null
+++ b/lora/lora_weights.py
@@ -0,0 +1,198 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence as GenericSequence
+from typing import Optional
+
+import torch
+import torch.types
+
+from vllm.lora.peft_helper import PEFTHelper
+from vllm.utils.platform_utils import is_pin_memory_available
+
+
+class LoRALayerWeights:
+    """LoRA weights for a layer composed of two low rank matrixes."""
+
+    def __init__(
+        self,
+        module_name: str,
+        rank: int,
+        lora_alpha: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None = None,
+        scaling: float | None = None,
+    ) -> None:
+        self.module_name = module_name
+        self.rank = rank
+        self.lora_alpha = lora_alpha
+        self.lora_a = lora_a
+        self.lora_b = lora_b
+        self.embeddings_tensor = embeddings_tensor
+
+        if scaling is None:
+            self.scaling = self.lora_alpha / self.rank
+        else:
+            self.scaling = scaling
+
+    def optimize(self) -> "LoRALayerWeights":
+        """Optimize the LoRA by merging the scaling into lora_b."""
+        if self.scaling == 1:
+            return self
+        self.lora_b *= self.scaling
+        self.scaling = 1
+        return self
+
+    @property
+    def input_dim(self) -> int:
+        return self.lora_a.shape[1]
+
+    @property
+    def output_dim(self) -> int:
+        return self.lora_b.shape[0]
+
+    @property
+    def is_packed(self) -> bool:
+        return False
+
+    @property
+    def extra_vocab_size(self) -> int:
+        return (
+            self.embeddings_tensor.shape[0] if self.embeddings_tensor is not None else 0
+        )
+
+    @classmethod
+    def from_config(
+        cls,
+        module_name: str,
+        peft_helper: PEFTHelper,
+        embeddings_tensor: torch.Tensor | None = None,
+    ) -> "LoRALayerWeights":
+        # lora_a and lora_b are set to None for config-based construction
+        return cls(
+            module_name,
+            peft_helper.r,
+            peft_helper.lora_alpha,
+            None,
+            None,
+            embeddings_tensor,
+            peft_helper.vllm_lora_scaling_factor,
+        )
+
+    @classmethod
+    def create_dummy_lora_weights(
+        cls,
+        module_name: str,
+        input_dim: int,
+        output_dim: int,
+        rank: int,
+        dtype: torch.dtype,
+        device: torch.types.Device,
+        embeddings_tensor_dim: int | None = None,
+    ) -> "LoRALayerWeights":
+        pin_memory = str(device) == "cpu" and is_pin_memory_available()
+        lora_a = torch.zeros(
+            [rank, input_dim], dtype=dtype, device=device, pin_memory=pin_memory
+        )
+        lora_b = torch.zeros(
+            [output_dim, rank], dtype=dtype, device=device, pin_memory=pin_memory
+        )
+
+        embeddings_tensor = (
+            torch.rand(
+                10,
+                embeddings_tensor_dim,
+                dtype=dtype,
+                device=device,
+                pin_memory=pin_memory,
+            )
+            if embeddings_tensor_dim
+            else None
+        )
+        return cls(
+            module_name,
+            rank=rank,
+            lora_alpha=1,
+            lora_a=lora_a,
+            lora_b=lora_b,
+            embeddings_tensor=embeddings_tensor,
+        )
+
+
+class PackedLoRALayerWeights(LoRALayerWeights):
+    """LoRA used for packed layers (eg. qkv_proj)."""
+
+    def __init__(
+        self,
+        module_name: str,
+        rank: int,
+        lora_alphas: list[int | None],
+        lora_a: list[torch.Tensor | None],
+        lora_b: list[torch.Tensor | None],
+        scaling: list[float] | None = None,
+    ) -> None:
+        super().__init__(
+            module_name=module_name,
+            rank=rank,
+            lora_alpha=0,
+            lora_a=lora_a,
+            lora_b=lora_b,
+            scaling=scaling,  # type: ignore
+            embeddings_tensor=None,
+        )
+        self.lora_alphas = lora_alphas
+        if scaling is None:
+            self.scaling = [  # type: ignore
+                lora_alpha / self.rank  # type: ignore # noqa
+                for lora_alpha in self.lora_alphas
+            ]
+
+    @classmethod
+    def pack(
+        cls, loras: GenericSequence[Optional["LoRALayerWeights"]]
+    ) -> "PackedLoRALayerWeights":
+        """Pack a list of LoRAs into a single LoRA.
+
+        If LoRA is None, it signifies that the submodule does not have a LoRA.
+        """
+        first_lora = next(lora for lora in loras if lora is not None)
+        for lora in loras:
+            if lora is None:
+                continue
+            lora.optimize()
+        rank = first_lora.rank
+        module_name = first_lora.module_name
+        obj = cls(
+            module_name,
+            rank,
+            [lora.lora_alpha if lora is not None else None for lora in loras],
+            [lora.lora_a if lora is not None else None for lora in loras],
+            [lora.lora_b if lora is not None else None for lora in loras],
+            scaling=[
+                1 if lora is not None else None  # type: ignore
+                for lora in loras
+            ],
+        )
+        return obj
+
+    def optimize(self) -> "PackedLoRALayerWeights":
+        """Optimize the LoRA by merging the scaling into lora_b."""
+        for i in range(len(self.lora_b)):
+            if self.scaling[i] == 1 or self.lora_b[i] is None:  # type: ignore
+                continue
+            self.lora_b[i] *= self.scaling[i]  # type: ignore
+            self.scaling[i] = 1  # type: ignore
+        return self
+
+    @property
+    def input_dim(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    def output_dim(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    def is_packed(self) -> bool:
+        return True
diff --git a/lora/models.py b/lora/models.py
new file mode 100644
index 0000000..02c252f
--- /dev/null
+++ b/lora/models.py
@@ -0,0 +1,890 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+import os
+from collections.abc import Callable
+from typing import TypeVar
+
+import regex as re
+import safetensors.torch
+import torch
+from torch import nn
+
+from vllm.config.lora import LoRAConfig
+from vllm.logger import init_logger
+from vllm.lora.layers import BaseLayerWithLoRA, FusedMoEWithLoRA, LoRAMapping
+from vllm.lora.lora_weights import LoRALayerWeights, PackedLoRALayerWeights
+from vllm.lora.peft_helper import PEFTHelper
+from vllm.lora.punica_wrapper import get_punica_wrapper
+from vllm.lora.utils import (
+    from_layer,
+    from_layer_logits_processor,
+    get_supported_lora_modules,
+    is_regex_target_modules,
+    parse_fine_tuned_lora_name,
+    process_packed_modules_mapping,
+    replace_submodule,
+)
+from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+from vllm.model_executor.models import SupportsLoRA, supports_multimodal
+from vllm.model_executor.models.interfaces import is_pooling_model
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.utils import PPMissingLayer, WeightsMapper
+from vllm.utils.cache import LRUCache
+from vllm.utils.platform_utils import is_pin_memory_available
+
+logger = init_logger(__name__)
+
+T = TypeVar("T")
+
+
+class AdapterLRUCache(LRUCache[int, T]):
+    def __init__(self, capacity: int, deactivate_fn: Callable[[int], object]):
+        super().__init__(capacity)
+        self.deactivate_fn = deactivate_fn
+
+    def _on_remove(self, key: int, value: T | None):
+        logger.debug("Removing adapter int id: %d", key)
+        self.deactivate_fn(key)
+        return super()._on_remove(key, value)
+
+
+_GLOBAL_LORA_ID = 0
+
+
+def get_lora_id():
+    global _GLOBAL_LORA_ID
+    _GLOBAL_LORA_ID += 1
+    return _GLOBAL_LORA_ID
+
+
+class LoRAModel:
+    """A LoRA fine-tuned model."""
+
+    def __init__(
+        self,
+        lora_model_id: int,
+        rank: int,
+        loras: dict[str, LoRALayerWeights],
+    ) -> None:
+        """
+        Args:
+            lora_model_id: The integer id for the lora model.
+            rank: lora rank.
+            loras: module name -> weights for lora-replaced layers.
+
+        """
+        self.id = lora_model_id
+
+        assert lora_model_id > 0, (
+            f"a valid lora id should be greater than 0, got {self.id}"
+        )
+        self.rank = rank
+        self.loras: dict[str, LoRALayerWeights] = loras
+
+    def clone(self, lora_model_id: int) -> "LoRAModel":
+        """Return a copy of the object with different ids.
+
+        Will share the underlying tensors."""
+        return self.__class__(
+            lora_model_id,
+            rank=self.rank,
+            loras=self.loras.copy(),
+        )
+
+    @property
+    def extra_vocab_size(self) -> int:
+        return (
+            max(lora.extra_vocab_size for lora in self.loras.values())
+            if self.loras
+            else 0
+        )
+
+    def get_lora(self, module_name: str) -> LoRALayerWeights | None:
+        """Get LoRA for a given module by name"""
+        return self.loras.get(module_name, None)
+
+    def check_lora_name(self, lora_name: str) -> bool:
+        return lora_name in self.loras
+
+    # (yard1): TODO see if we can derive target_embedding_padding automatically
+    @classmethod
+    def from_lora_tensors(
+        cls,
+        lora_model_id: int,
+        tensors: dict[str, torch.Tensor],
+        peft_helper: PEFTHelper,
+        device: str = "cuda",
+        dtype: torch.dtype | None = None,
+        embeddings: dict[str, torch.Tensor] | None = None,
+        target_embedding_padding: int | None = None,
+        embedding_modules: dict[str, str] | None = None,
+        embedding_padding_modules: list[str] | None = None,
+        weights_mapper: WeightsMapper | None = None,
+    ) -> "LoRAModel":
+        """Create a LoRAModel from a dictionary of tensors."""
+        pin_memory = str(device) == "cpu" and is_pin_memory_available()
+        loras: dict[str, LoRALayerWeights] = {}
+        for tensor_name, tensor in tensors.items():
+            module_name, is_lora_a = parse_fine_tuned_lora_name(
+                tensor_name, weights_mapper
+            )
+            if module_name not in loras:
+                lora_embeddings_tensor = None
+                if embeddings:
+                    assert embedding_modules is not None
+                    embeddings_module = next(
+                        (k for k in embedding_modules if k in module_name), None
+                    )
+                    if embeddings_module:
+                        lora_embeddings_tensor = embeddings[
+                            embedding_modules[embeddings_module]
+                        ].to(device=device, dtype=dtype)
+                        if pin_memory:
+                            lora_embeddings_tensor = lora_embeddings_tensor.pin_memory()
+                loras[module_name] = LoRALayerWeights.from_config(
+                    module_name, peft_helper, lora_embeddings_tensor
+                )
+
+            if is_lora_a:
+                loras[module_name].lora_a = tensor.to(device=device, dtype=dtype)
+                if pin_memory:
+                    loras[module_name].lora_a = loras[module_name].lora_a.pin_memory()
+            else:
+                loras[module_name].lora_b = tensor.to(device=device, dtype=dtype)
+                assert embedding_padding_modules is not None
+                if (
+                    any(name in module_name for name in embedding_padding_modules)
+                    and target_embedding_padding is not None
+                ):
+                    lora_b = loras[module_name].lora_b
+                    assert target_embedding_padding >= lora_b.shape[0]
+                    addition = target_embedding_padding - lora_b.shape[0]
+                    loras[module_name].lora_b = torch.nn.functional.pad(
+                        lora_b, (0, 0, 0, addition)
+                    )
+                if pin_memory:
+                    loras[module_name].lora_b = loras[module_name].lora_b.pin_memory()
+
+        for lora in loras.values():
+            lora.optimize()
+
+        return cls(lora_model_id, peft_helper.r, loras)
+
+    @classmethod
+    def from_local_checkpoint(
+        cls,
+        lora_dir: str,
+        expected_lora_modules: list[str],
+        peft_helper: PEFTHelper,
+        *,
+        lora_model_id: int | None = None,
+        device: str = "cuda",
+        dtype: torch.dtype | None = None,
+        target_embedding_padding: int | None = None,
+        embedding_modules: dict[str, str] | None = None,
+        embedding_padding_modules: list[str] | None = None,
+        weights_mapper: WeightsMapper | None = None,
+        tensorizer_config_dict: dict | None = None,
+    ) -> "LoRAModel":
+        """Create a LoRAModel from a local checkpoint.
+
+        Args:
+            lora_dir: The local path that has lora data.
+            expected_lora_modules: Name of modules that are expected to be
+                replaced by lora.
+            peft_helper: Loaded lora configuration information.
+            lora_model_id: LoRA model id. If not given, automatically set by
+                a global counter.
+            device: Device where the lora model is loaded.
+            dtype: dtype of the lora model weights.
+
+        Returns:
+            Loaded LoRA Model.
+        """
+        lora_tensor_path = os.path.join(lora_dir, "adapter_model.safetensors")
+        lora_bin_file_path = os.path.join(lora_dir, "adapter_model.bin")
+        lora_pt_file_path = os.path.join(lora_dir, "adapter_model.pt")
+        new_embeddings_tensor_path = os.path.join(
+            lora_dir, "new_embeddings.safetensors"
+        )
+        new_embeddings_bin_file_path = os.path.join(lora_dir, "new_embeddings.bin")
+        tensors: dict[str, torch.Tensor] = {}
+        unexpected_modules: list[list[str] | str] = []
+
+        def check_unexpected_modules(modules: dict):
+            for lora_module in modules.keys():  # noqa
+                module_name, _ = parse_fine_tuned_lora_name(lora_module, weights_mapper)
+                # Handle FSDP file format where experts.base_layer is the
+                # gate_up_proj and experts is the down_proj
+                if "base_layer" in lora_module:
+                    continue
+                # Case for expert lora weights
+                if ".experts" in module_name:
+                    if not any(
+                        module_name.endswith(ele) for ele in expected_lora_modules
+                    ):
+                        unexpected_modules.append(module_name)
+                elif module_name.split(".")[-1] not in expected_lora_modules:
+                    unexpected_modules.append(module_name)
+
+            if unexpected_modules:
+                raise ValueError(
+                    f"While loading {lora_dir}, expected"
+                    f" target modules in {expected_lora_modules}"
+                    f" but received {unexpected_modules}."
+                    f" Please verify that the loaded LoRA module is correct"
+                )
+
+        if tensorizer_config_dict:
+            from tensorizer import TensorDeserializer
+
+            tensorizer_config = TensorizerConfig(**tensorizer_config_dict)
+            lora_tensor_path = os.path.join(
+                tensorizer_config.tensorizer_dir, "adapter_model.tensors"
+            )
+            tensorizer_args = tensorizer_config._construct_tensorizer_args()
+            tensors = TensorDeserializer(
+                lora_tensor_path,
+                dtype=tensorizer_config.dtype,
+                **tensorizer_args.deserialization_kwargs,
+            )
+            check_unexpected_modules(tensors)
+
+        elif os.path.isfile(lora_tensor_path):
+            # Find unexpected modules.
+            # Use safetensor key as a source of truth to find expected modules.
+            # in peft if you have target_modules A, B, C and C does not exist
+            # in the model it won’t error and model will be trained with A, B
+            # loraified. C won’t exist in the safetensor but it will exist in
+            # the target_modules of the adapter_config.json.
+            unexpected_modules = []
+            with safetensors.safe_open(lora_tensor_path, framework="pt") as f:  # type: ignore
+                # Load tensors if there are only expected modules.
+                check_unexpected_modules(f)
+                for module in f.keys():  # noqa
+                    tensors[module] = f.get_tensor(module)
+        elif os.path.isfile(lora_bin_file_path) or os.path.isfile(lora_pt_file_path):
+            # When a bin/pt file is provided, we rely on config to find
+            # unexpected modules.
+            unexpected_modules = []
+            target_modules = peft_helper.target_modules
+            if not isinstance(target_modules, list):
+                target_modules = [target_modules]
+            for module in target_modules:
+                # Compatible with more modules,
+                # such as:layers.11.self_attn.k_proj
+                part_name = module.split(".")[-1]
+                if part_name not in expected_lora_modules:
+                    unexpected_modules.append(module)
+            # loaded lora's target modules must be a subset of
+            # expected_lora_modules. It is not reliable. See
+            # https://github.com/vllm-project/vllm/pull/5909. But there's no
+            # other better mechanism.
+            if unexpected_modules and not is_regex_target_modules(
+                peft_helper.target_modules, expected_lora_modules
+            ):
+                raise ValueError(
+                    f"While loading {lora_dir}, expected"
+                    f" target modules in {expected_lora_modules}"
+                    f" but received {unexpected_modules}."
+                    f" Please verify that the loaded LoRA module is correct"
+                )
+            lora_file_path = (
+                lora_bin_file_path
+                if os.path.isfile(lora_bin_file_path)
+                else lora_pt_file_path
+            )
+            tensors = torch.load(lora_file_path, map_location=device, weights_only=True)
+        else:
+            raise ValueError(f"{lora_dir} doesn't contain tensors")
+
+        embeddings = None
+        if os.path.isfile(new_embeddings_tensor_path):
+            embeddings = safetensors.torch.load_file(new_embeddings_tensor_path)
+        elif os.path.isfile(new_embeddings_bin_file_path):
+            embeddings = torch.load(
+                new_embeddings_bin_file_path, map_location=device, weights_only=True
+            )
+
+        return cls.from_lora_tensors(
+            lora_model_id=get_lora_id() if lora_model_id is None else lora_model_id,
+            tensors=tensors,
+            peft_helper=peft_helper,
+            device=device,
+            dtype=dtype,
+            embeddings=embeddings,
+            target_embedding_padding=target_embedding_padding,
+            embedding_modules=embedding_modules,
+            embedding_padding_modules=embedding_padding_modules,
+            weights_mapper=weights_mapper,
+        )
+
+
+class LoRAModelManager:
+    """A manager that manages multiple LoRA-fine-tuned models."""
+
+    def __init__(
+        self,
+        model: SupportsLoRA,
+        max_num_seqs: int,
+        max_num_batched_tokens: int,
+        vocab_size: int,
+        lora_config: LoRAConfig,
+        device: torch.device,
+    ):
+        """Create a LoRAModelManager and adapter for a given model.
+
+        Args:
+            model: the model to be adapted.
+            max_num_seqs: the maximum number of sequences model can run in a
+                single batch.
+            max_num_batched_tokens: the maximum number of tokens model can run
+                in a single batch.
+            vocab_size: the vocab size of the model.
+            lora_config: the LoRA configuration.
+        """
+        self.model: SupportsLoRA = model
+        self._registered_adapters: dict[int, LoRAModel] = {}
+        # Dict instead of a set for compatibility with LRUCache.
+        self._active_adapters: dict[int, None] = {}
+        self.adapter_type = "LoRA"
+        self.lora_config = lora_config
+        self.device = device
+        self.max_num_seqs = max_num_seqs
+        assert self.capacity >= self.lora_slots
+        self.max_num_batched_tokens = math.ceil(max_num_batched_tokens / 8) * 8
+        self.lora_index_to_id: list[int | None] = [None] * self.lora_slots
+        self.vocab_size = vocab_size
+        self.punica_wrapper = get_punica_wrapper(
+            max_num_batched_tokens,
+            max_batches=self.max_num_seqs,
+            device=self.device,
+            max_loras=self.lora_config.max_loras,
+        )
+
+        self.supported_lora_modules = get_supported_lora_modules(self.model)
+        assert self.supported_lora_modules, "No supported LoRA modules found in"
+        f" {self.model.__class__.__name__}."
+
+        self.packed_modules_mapping = process_packed_modules_mapping(self.model)
+        # Used to indicate whether the model is a multimodal model
+        self.supports_mm: bool = (
+            supports_multimodal(self.model)
+            # In case the model only supports LoRA for
+            # text modules (e.g. ChatGLM)
+            and hasattr(self.model, "get_mm_mapping")
+        )
+        self.is_pooling_model = is_pooling_model(self.model)
+        self.packed_modules: dict[str, list[str]] = {}
+        self.modules: dict[str, BaseLayerWithLoRA] = {}
+        # Dict instead of a set for compatibility with LRUCache.
+        self._last_mapping: LoRAMapping | None = None
+        self._create_lora_modules()
+        self.model.lora_manager = self
+
+    def __len__(self) -> int:
+        return len(self._registered_adapters)
+
+    @property
+    def capacity(self) -> int:
+        return self.lora_config.max_cpu_loras
+
+    @property
+    def lora_slots(self) -> int:
+        return self.lora_config.max_loras
+
+    @property
+    def adapter_slots(self) -> int:
+        return self.lora_slots
+
+    def activate_adapter(
+        self,
+        lora_id: int,
+    ) -> bool:
+        """Move LoRA into a GPU buffer to be used in the forward pass."""
+        if lora_id in self._active_adapters:
+            return False
+        first_free_slot = next(
+            (
+                (i, lora_id)
+                for i, lora_id in enumerate(self.lora_index_to_id)
+                if lora_id is None
+            ),
+            None,
+        )
+        if first_free_slot is None:
+            raise ValueError("No free lora slots")
+        index, _ = first_free_slot
+        self._active_adapters[lora_id] = None
+        lora_model = self._registered_adapters[lora_id]
+        logger.debug(
+            "Activating LoRA. int id: %d, slot index: %d", lora_model.id, index
+        )
+        self.lora_index_to_id[index] = lora_model.id
+        for module_name, module in self.modules.items():
+            module_lora = self._get_lora_layer_weights(lora_model, module_name)
+            if module_lora:
+                # Note (gnovack) - If MOE lora weights are not split into
+                # num_experts chunks, we split them here
+                if isinstance(module, FusedMoEWithLoRA) and torch.is_tensor(
+                    module_lora.lora_a
+                ):
+                    # Handle FSDP file format where experts.base_layer is the
+                    # gate_up_proj and experts is the down_proj
+                    gate_up_proj_lora = self._get_lora_layer_weights(
+                        lora_model, module_name + ".base_layer"
+                    )
+
+                    assert gate_up_proj_lora is not None
+                    assert module_lora is not None
+
+                    down_proj_lora = module_lora
+                    num_experts = module_lora.lora_a.shape[0] // module_lora.rank
+
+                    gate_proj_a = gate_up_proj_lora.lora_a.chunk(num_experts, dim=0)
+                    up_proj_a = gate_up_proj_lora.lora_a.chunk(num_experts, dim=0)
+
+                    gate_proj_b = gate_up_proj_lora.lora_b[::2, ...].chunk(
+                        num_experts, dim=-1
+                    )
+                    up_proj_b = gate_up_proj_lora.lora_b[1::2, ...].chunk(
+                        num_experts, dim=-1
+                    )
+
+                    down_proj_a = down_proj_lora.lora_a.chunk(num_experts, dim=0)
+                    down_proj_b = down_proj_lora.lora_b.chunk(num_experts, dim=-1)
+
+                    lora_a = []
+                    lora_b = []
+                    for i in range(num_experts):
+                        lora_a.append(gate_proj_a[i])
+                        lora_a.append(down_proj_a[i])
+                        lora_a.append(up_proj_a[i])
+
+                        lora_b.append(gate_proj_b[i])
+                        lora_b.append(down_proj_b[i])
+                        lora_b.append(up_proj_b[i])
+
+                    module_lora.lora_a = lora_a
+                    module_lora.lora_b = lora_b
+
+                module.set_lora(
+                    index,
+                    module_lora.lora_a,
+                    module_lora.lora_b,
+                    module_lora.embeddings_tensor,
+                )
+            else:
+                module.reset_lora(index)
+        return True
+
+    def _deactivate_adapter(self, lora_id: int):
+        try:
+            index = self.lora_index_to_id.index(lora_id)
+            self.lora_index_to_id[index] = None
+        except ValueError:
+            pass
+
+    def _add_adapter(self, lora: LoRAModel):
+        self._create_merged_loras_inplace(lora)
+        self._registered_adapters[lora.id] = lora
+
+    def pin_adapter(self, lora_id: int) -> bool:
+        """Pin a LoRAModel in the manager cache."""
+        raise NotImplementedError(
+            "Pinning is not supported in LoRAModelManager. "
+            "Use LRUCacheLoRAModelManager for pinning"
+        )  # type: ignore
+
+    def _set_adapter_mapping(self, mapping: LoRAMapping) -> None:
+        # update lora states
+        self.punica_wrapper.update_metadata(
+            mapping,
+            self.lora_index_to_id,
+            self.lora_slots + 1,
+            self.vocab_size,
+            self.lora_config.lora_extra_vocab_size,
+        )
+
+    def remove_all_adapters(self):
+        """Remove all LoRAModels from the manager."""
+        self._registered_adapters.clear()
+        self.lora_index_to_id = [None] * self.lora_slots
+        self._active_adapters.clear()
+
+    def _create_lora_modules(self):
+        def _parent_module(module_name: str) -> str:
+            # module name is a dot separated name.
+            # for example:
+            #  - given an input 'x.y.z' return 'x.y'
+            #  - given an input 'x' return ''
+            return module_name.rpartition(".")[0]
+
+        for module_name, module in self.model.named_modules(remove_duplicate=False):
+            if isinstance(module, PPMissingLayer):
+                continue
+
+            if not self._match_target_modules(module_name):
+                continue
+            # A temporary approach for multimodal models to support LoRA
+            # TODO: Remove this restriction
+            if self._filter_unsupported_mm_module(module_name):
+                logger.warning(
+                    "Regarding multimodal models, vLLM currently only supports "
+                    "adding LoRA to language model, %s will be ignored.",
+                    module_name,
+                )
+                continue
+            parts = module_name.split(".")[-1]
+            packed_moduled_lst = self.packed_modules_mapping.get(parts, [])
+            new_module = replace_submodule(
+                self.model,
+                module_name,
+                from_layer(
+                    module,
+                    self.lora_slots,
+                    self.lora_config,
+                    packed_moduled_lst,
+                    self.model.config,
+                ),
+            )
+
+            # (yard1): TODO make this more robust
+            if "lm_head" in module_name:
+                logits_processor_module_name = "logits_processor"
+                parent_module = _parent_module(module_name)
+                if parent_module:
+                    logits_processor_module_name = (
+                        f"{parent_module}.{logits_processor_module_name}"
+                    )
+
+                logits_processor_module = self.model.get_submodule(
+                    logits_processor_module_name
+                )
+
+                new_module = replace_submodule(
+                    self.model,
+                    logits_processor_module_name,
+                    from_layer_logits_processor(
+                        logits_processor_module,
+                        module,
+                        self.lora_slots,
+                        self.lora_config,
+                        self.model.config,
+                    ),
+                )
+
+            # In some models, especially multimodal ones, layers with the same
+            # name may have different types, such as nn.Linear and
+            # ReplicatedLinear. The nn.Linear layers cannot be replaced with
+            # LoRA layers, leading to assertion error. The following check
+            # aims to prevent this error
+            if self.supports_mm and not isinstance(new_module, BaseLayerWithLoRA):
+                continue
+            self.register_module(module_name, new_module)
+            self._register_packed_modules(module_name)
+            # All lora layers share the same punica_wrapper based on reference.
+            new_module.set_mapping(self.punica_wrapper)
+
+    def register_module(self, module_name: str, module: "BaseLayerWithLoRA"):
+        assert isinstance(module, BaseLayerWithLoRA), (
+            f"Module {module_name} must be a BaseLayerWithLoRA instance,"
+        )
+        f" got {type(module)}"
+        self.modules[module_name] = module
+
+    def create_dummy_lora(
+        self,
+        lora_id: int,
+        rank: int,
+        embedding_modules: dict[str, str] | None = None,
+    ) -> LoRAModel:
+        """Create zero-initialized LoRAModel for warmup."""
+        model = LoRAModel(lora_id, rank, {})
+        for module_name, module in self.model.named_modules():
+            if (
+                not self._match_target_modules(module_name)
+                or not isinstance(module, BaseLayerWithLoRA)
+                or self._filter_unsupported_mm_module(module_name)
+            ):
+                continue
+            parts = module_name.split(".")
+            if module_name not in self.packed_modules:
+                assert embedding_modules is not None
+                if parts[-1] in embedding_modules:
+                    input_dim = (
+                        module.base_layer.org_vocab_size
+                        + self.lora_config.lora_extra_vocab_size
+                        if hasattr(module.base_layer, "org_vocab_size")
+                        else module.base_layer.weight.shape[1]
+                    )
+                    output_dim = (
+                        module.base_layer.embedding_dim
+                        if hasattr(module.base_layer, "embedding_dim")
+                        else module.base_layer.weight.shape[0]
+                    )
+                    embeddings_tensor_dim = (
+                        module.base_layer.embedding_dim
+                        if hasattr(module.base_layer, "embedding_dim")
+                        else module.base_layer.weight.shape[1]
+                    )
+                    lora = LoRALayerWeights.create_dummy_lora_weights(
+                        module_name,
+                        input_dim,
+                        output_dim,
+                        rank,
+                        module.lora_a_stacked[0].dtype,
+                        "cpu",
+                        embeddings_tensor_dim=embeddings_tensor_dim,
+                    )
+                else:
+                    lora = LoRALayerWeights.create_dummy_lora_weights(
+                        module_name,
+                        module.lora_a_stacked[0].shape[-1],
+                        module.lora_b_stacked[0].shape[-2],
+                        rank,
+                        module.lora_a_stacked[0].dtype,
+                        "cpu",
+                    )
+            else:
+                parts = module_name.split(".")
+                replacements = self.packed_modules_mapping[parts[-1]]
+                subloras: list[LoRALayerWeights | None] = []
+                for i, r in enumerate(replacements):
+                    lora = LoRALayerWeights.create_dummy_lora_weights(
+                        module_name + "." + r,
+                        module.lora_a_stacked[i].shape[-1],
+                        module.lora_b_stacked[i].shape[-2],
+                        rank,
+                        module.lora_a_stacked[i].dtype,
+                        "cpu",
+                    )
+                    subloras.append(lora)
+                lora = PackedLoRALayerWeights.pack(subloras)
+            model.loras[module_name] = lora
+        return model
+
+    def _match_target_modules(self, module_name: str):
+        return any(
+            re.match(
+                r".*\.{target_module}$".format(target_module=target_module), module_name
+            )
+            or target_module == module_name
+            for target_module in self.supported_lora_modules
+        )
+
+    def _filter_unsupported_mm_module(self, module_name: str) -> bool:
+        """
+        Regarding multimodal models, vLLM currently only supports adding LoRA to
+        language model. LoRA for other modules, such as the vision tower, will
+        be filtered out.
+        """
+        if self.supports_mm:
+            module_mapping: MultiModelKeys = self.model.get_mm_mapping()
+            prefix_lst = module_mapping.connector + module_mapping.tower_model
+            return any([module_name.startswith(prefix) for prefix in prefix_lst])
+        return False
+
+    def _register_packed_modules(self, module_full_name: str) -> None:
+        parts = module_full_name.split(".")
+        module_name = parts[-1]
+        replacements = self.packed_modules_mapping.get(module_name, [])
+        # When replacements is less than or equal to 1, it indicates that this
+        # module is not a packed module.
+        if len(replacements) <= 1:
+            return
+        prefix = ".".join(parts[:-1])
+        self.packed_modules[module_full_name] = [
+            prefix + "." + r if prefix else r for r in replacements
+        ]
+
+    def _create_merged_loras_inplace(self, lora_model: LoRAModel) -> None:
+        for module_name, new_module_names in self.packed_modules.items():
+            replacement_loras: list[LoRALayerWeights | None] = []
+            replaced_module: set[str] = set()
+            has_replacement = False
+            for r in new_module_names:
+                lora = self._get_lora_layer_weights(lora_model, r)
+                replacement_loras.append(lora)
+                if lora:
+                    has_replacement = True
+                    replaced_module.add(r)
+            if not has_replacement:
+                continue
+            for i in range(len(replacement_loras)):
+                if replacement_loras[i]:
+                    continue
+                replacement_loras[i] = None
+            # HACK Temporary solution for the pool model.
+            if self.is_pooling_model and not lora_model.check_lora_name(module_name):
+                replaced_module_name = module_name.replace("model.", "")
+                if lora_model.check_lora_name(module_name):
+                    module_name = replaced_module_name
+            lora_model.loras[module_name] = PackedLoRALayerWeights.pack(
+                replacement_loras
+            )
+            # Remove the modules that have been replaced.
+            for module in replaced_module:
+                lora_model.loras.pop(module, None)
+
+    def _get_lora_layer_weights(
+        self, lora_model: LoRAModel, module_name: str
+    ) -> LoRALayerWeights | None:
+        org_module_name = module_name
+        if self.is_pooling_model and not lora_model.check_lora_name(module_name):
+            # If it's a pool model, and the layer name is not found,
+            # remove the prefix 'model.' and search again.
+            module_name = module_name.replace("model.", "")
+            if lora_model.check_lora_name(module_name):
+                org_module_name = module_name
+                logger.info_once(
+                    "For the pool model, successfully loaded the LoRA weights "
+                    "after removing the prefix 'model.'."
+                )
+        return lora_model.get_lora(org_module_name)
+
+    def deactivate_adapter(self, adapter_id: int) -> bool:
+        if adapter_id not in self._active_adapters:
+            return False
+        self._deactivate_adapter(adapter_id)
+        self._active_adapters.pop(adapter_id, None)
+        return True
+
+    def add_adapter(self, adapter: LoRAModel) -> bool:
+        logger.debug("Adding lora. Model id: %d, int id: %d", adapter.id, adapter.id)
+        if adapter.id in self._registered_adapters:
+            return False
+        if len(self._registered_adapters) >= self.capacity:
+            raise RuntimeError("No free adapter slots.")
+        self._add_adapter(adapter)
+        return True
+
+    def set_adapter_mapping(self, mapping: LoRAMapping) -> None:
+        if self._last_mapping != mapping:
+            self._set_adapter_mapping(mapping)
+            self._last_mapping = mapping
+
+    def remove_adapter(self, adapter_id: int) -> bool:
+        self.deactivate_adapter(adapter_id)
+        if adapter_id not in self._registered_adapters:
+            return False
+        self._registered_adapters.pop(adapter_id, None)
+        return True
+
+    def list_adapters(self) -> dict[int, LoRAModel]:
+        return dict(self._registered_adapters)
+
+    def get_adapter(self, adapter_id: int) -> LoRAModel | None:
+        return self._registered_adapters.get(adapter_id)
+
+
+class LoRALRUCache(AdapterLRUCache[LoRAModel]):
+    def __init__(self, capacity: int, deactivate_lora_fn: Callable[[int], bool]):
+        super().__init__(capacity, deactivate_lora_fn)
+
+
+class LRUCacheLoRAModelManager(LoRAModelManager):
+    """A model manager that manages multiple LoRAs with LRU cache."""
+
+    def __init__(
+        self,
+        model: nn.Module,
+        max_num_seqs: int,
+        max_num_batched_tokens: int,
+        vocab_size: int,
+        lora_config: LoRAConfig,
+        device: torch.device,
+    ):
+        super().__init__(
+            model, max_num_seqs, max_num_batched_tokens, vocab_size, lora_config, device
+        )
+        self._registered_adapters: LoRALRUCache = LoRALRUCache(
+            self.capacity, self.deactivate_adapter
+        )
+        self._active_adapters: LoRALRUCache = LoRALRUCache(
+            self.lora_slots, self._deactivate_adapter
+        )
+
+    def list_adapters(self) -> dict[int, LoRAModel]:
+        """List all registered LoRAModels."""
+        return dict(self._registered_adapters.cache)
+
+    def add_adapter(self, lora: LoRAModel) -> bool:
+        """Add a LoRAModel to the manager."""
+        logger.debug("Adding lora. Model id: %d, int id: %d", lora.id, lora.id)
+        if lora.id not in self._registered_adapters:
+            self._add_adapter(lora)
+            was_added = True
+        else:
+            # We always touch to update the LRU cache order
+            self._registered_adapters.touch(lora.id)
+            was_added = False
+        return was_added
+
+    def activate_adapter(
+        self,
+        lora_id: int,
+    ) -> bool:
+        if (
+            lora_id not in self._active_adapters
+            and len(self._active_adapters) >= self.lora_slots
+        ):
+            self._active_adapters.remove_oldest()
+        result = super().activate_adapter(lora_id)
+        # We always touch to update the LRU cache order
+        self._active_adapters.touch(lora_id)
+        return result
+
+    def remove_oldest_adapter(self) -> bool:
+        if len(self._registered_adapters) > 0:
+            self._registered_adapters.remove_oldest()
+            return True
+        return False
+
+    def pin_adapter(self, lora_id: int) -> bool:
+        """Pin a LoRAModel in the manager cache."""
+        self._pin_lora_in_cpu_cache(lora_id)
+        self._pin_lora_in_gpu_cache(lora_id)
+        return True
+
+    def _pin_lora_in_cpu_cache(self, lora_id: int):
+        try:
+            self._registered_adapters.pin(lora_id)
+        except ValueError as err:
+            raise ValueError(
+                f"Pinning failed. LoRA {lora_id} is not registered."
+            ) from err
+
+    def _pin_lora_in_gpu_cache(self, lora_id: int):
+        if lora_id not in self._active_adapters:
+            # move lora to gpu if not already active
+            self.activate_adapter(lora_id)
+
+        self._active_adapters.pin(lora_id)
+
+
+def create_lora_manager(
+    model: nn.Module,
+    max_num_seqs: int,
+    max_num_batched_tokens: int,
+    vocab_size: int,
+    lora_config: LoRAConfig,
+    device: torch.device,
+    lora_manager_cls: type[LoRAModelManager] = LoRAModelManager,
+    **kwargs,
+) -> LoRAModelManager:
+    """Create a LoRA adapter for a given model."""
+    if not isinstance(model, SupportsLoRA):
+        raise ValueError(f"Model {type(model)} is not supported for LoRA.")
+    lora_manager = lora_manager_cls(
+        model=model,
+        max_num_seqs=max_num_seqs,
+        max_num_batched_tokens=max_num_batched_tokens,
+        vocab_size=vocab_size,
+        lora_config=lora_config,
+        device=device,
+        **kwargs,
+    )
+    return lora_manager
diff --git a/lora/ops/__init__.py b/lora/ops/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/lora/ops/__pycache__/__init__.cpython-312.pyc b/lora/ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a3e3a5470c06053066aa95facaab745e9250335b
GIT binary patch
literal 158
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3J_%7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_-7bWWF7ZmHq$7kkcmc+;F6;$5h
fu*uC&Da}c>D`Ewj#t6j4AjU^#Mn=XWW*`dyihL!d

literal 0
HcmV?d00001

diff --git a/lora/ops/ipex_ops/__init__.py b/lora/ops/ipex_ops/__init__.py
new file mode 100644
index 0000000..f5a5e0e
--- /dev/null
+++ b/lora/ops/ipex_ops/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.lora.ops.ipex_ops.lora_ops import bgmv_expand, bgmv_expand_slice, bgmv_shrink
+
+__all__ = ["bgmv_expand", "bgmv_expand_slice", "bgmv_shrink"]
diff --git a/lora/ops/ipex_ops/__pycache__/__init__.cpython-312.pyc b/lora/ops/ipex_ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ad2274aedaa88d470da65987e3abcc89c03d6fea
GIT binary patch
literal 315
zcmYjNJx{|h5Ix7K`lSwt9{_8H#$!POMn+apmQzZs)T*6Wj$0)oGe3Zxjo-q=nh_>8
zqz*_-oTXOk4NvdAyL%_y`)oD=Djh#7&H%oGI8?MJyK^EhP(Z;n7?v>;Ws%_-EtKTF
zvMlbRgnx(eg!j{BX|^a^n^#4DawM?P>QV0d&C022eU}XSv#r)9)wRph+BT`Ovc*7x
z6NuxK>*4?df_{jYYmN8@JCg8sE4;D7Dm(YNE2W>eo5khDdLe~YOJO^|sw)w0h>$2K
xQ5<dvL{%w|nA)x%U75PrXnEtN6id&5=9J)vGsb>Lz#iBK+<#84pN4Ks{y)60Smpo#

literal 0
HcmV?d00001

diff --git a/lora/ops/ipex_ops/__pycache__/lora_ops.cpython-312.pyc b/lora/ops/ipex_ops/__pycache__/lora_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7b641d98e8b087b8fb07594af07c1b960c8ff939
GIT binary patch
literal 2053
zcmc&#&x_+^82-NIN7MZ1@0oGjL5H1XF^8SvX<Zm}anN05*wY@gf}w4`b~2kL;Y+&H
zksd}7L_D|)!r)1-%Ut~fggJU~@USIb6!G9K+Fg+K;`=6TcNi!riheY2p7;Bb_j&W=
z$=7cTLnSa=@e}8|M95E=%tmDjCSOrPj)+Zc>XIg&b1v=YnmI~xgyooU4C^?WVj;Uq
zYRZ7hw!p|<HCsCyZE?Z8v|wIdFrR0tt=P1y+l3FMrUsmqg`Dbw8h@8lWBQa+2TtQZ
z;WSv$F2XV6F54yGE*;Pf!t$30&o>pOd_Zm5RNhhc={^|>Z<Bp$R)0a+Z<#dK9M6d?
z*YEWhk7dUT22mInU7xqCmbK5E-Y(>ZKZsz#ikKJrJg%k7j%Pa^7S1N~VW;IfUN4q8
ziw4~5fNSO>4@iJx@-BoU63rL(a&tHbd*U3<!5&sPH%4ScN4b$O5|5``lpK%;^p+{c
zq7$%TEVynzR=WeQ6FI)ua$~LC>)*A)UG8{yOo<~A$9uVq0Xet=A;h_L98X?vME#%<
zIKh>u#d|EeG8|mJ_R^iJtl>KCMsN`A`d;HM@H9}Ah986tq_z;GG6C2O4tNP`V<=<&
z7a$yxM@1qPKDzn-&4=R3skrh`+&C3C#!B&C@k`^|#;af7cr4^3c>>px=__f^Uy0hX
zZ7X|S|CiESgT_pe>u}-*h9Y*FY0QQ}%d=-1<F|fB;~Jz-HRdP@Uz&wAT>NVSy_pKc
zaX*Un&;>hMezzO4C|0v9blzi~v(_oVrKu6y0RDX=j--)%Jmo_(E|92_+Ax#IN;@_4
znHkRswG3VI6%46lSUI)j`g$hXDlTC_y}}nEfUBzKTxFh$Cb(*>ERU6?v2tOo)W=E{
zeveCvB&X_`v<LUXNM14NZL=Ipk<UB3v4+mx%ytKky2XlRd96OPtXQ6I8W$WdVy?x8
zxI4gSW_5jT!H0nbQg6iC8~woN(QBN;=0RC3-_G_Csq6Z!DE%s8vF-bAYJymRg6Ts&
zAZc^yqsGcs-?s-YdzoK`KJbqvybduDD5VpHP~&H^@nfNW@2&3&&mGE%C{X=-aWkot
z<<(!c0+q*l<<p&ycM<{c5B1ffo%=h91UQiiWLx*Ql00S#dG`4));?cL3Ye*+SWEEk
zL?^O3F%VrO&#e8Eij}4F6)$7OQsqpKfag5|KGP#+PkY2nCAH;5L!^^RJuwg!39w+r
yqzrvOssQ>uxki-QZ-i2PtZIih{y^pQCn37)GjUrZCz`aqBAk?S+g0JDiug}tLY0>Q

literal 0
HcmV?d00001

diff --git a/lora/ops/ipex_ops/lora_ops.py b/lora/ops/ipex_ops/lora_ops.py
new file mode 100644
index 0000000..0767f90
--- /dev/null
+++ b/lora/ops/ipex_ops/lora_ops.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+try:
+    import intel_extension_for_pytorch as ipex
+except ImportError as e:
+    raise e
+
+
+def bgmv_shrink(
+    inputs: torch.Tensor,
+    lora_a_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    scaling: float = 1.0,
+) -> None:
+    ipex.llm.functional.bgmv_shrink(
+        inputs, lora_a_weights, output_tensor, lora_indices_tensor, scaling
+    )
+
+
+def bgmv_expand(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    add_inputs: bool = True,
+) -> None:
+    ipex.llm.functional.bgmv_expand(
+        inputs, lora_b_weights, output_tensor, lora_indices_tensor, add_inputs
+    )
+
+
+def bgmv_expand_slice(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    slice_offset: int,
+    slice_size: int,
+    add_inputs: bool = True,
+) -> None:
+    ipex.llm.functional.bgmv_expand_slice(
+        inputs,
+        lora_b_weights,
+        output_tensor,
+        lora_indices_tensor,
+        slice_offset,
+        slice_size,
+        add_inputs,
+    )
diff --git a/lora/ops/torch_ops/__init__.py b/lora/ops/torch_ops/__init__.py
new file mode 100644
index 0000000..89865af
--- /dev/null
+++ b/lora/ops/torch_ops/__init__.py
@@ -0,0 +1,20 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.lora.ops.torch_ops.lora_ops import (
+    bgmv_expand,  # noqa: F401
+    bgmv_expand_slice,
+    bgmv_shrink,
+    sgmv_expand,
+    sgmv_expand_slice,
+    sgmv_shrink,
+)
+
+__all__ = [
+    "bgmv_expand",
+    "bgmv_expand_slice",
+    "bgmv_shrink",
+    "sgmv_expand",
+    "sgmv_expand_slice",
+    "sgmv_shrink",
+]
diff --git a/lora/ops/torch_ops/__pycache__/__init__.cpython-312.pyc b/lora/ops/torch_ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..df03f6d0e3263eed171821bf5f443fed55abaac6
GIT binary patch
literal 392
zcmYk2y-ve06oqZ)#}T1OFfg-5qVZUe5GxxG;KfRtD6wiMmg82<$jk$<v%#zI240!i
z5FIKpVMB{@hfn9+d+lTSZ8A9mu0;6AUm*bR-W&?;#rD#PCs2YC3Lqhc5>X@r8px1_
zGNO@;X$(Q_=FgDg0cF95Kbplho!4^Bs*Nhz(w>eC>jhs_`+47J-Y#w0kC#X0u>9Nl
zTfWZ{d$ATm=AzR@-l;w}onAD|E8p@$2ksR*^oTrS5A2aRSj<=<1Y<8?>n!-bBStEs
zxSE<m*Oi%WR<rA?<*Xut&xsmL)3wBB5+6WZ0Qt`(jPaHm#&R{-<VJSoN>sP{#NF$@
b74+v0p8<q$mtcr?z~So*r|1FeV>kK%IXZCO

literal 0
HcmV?d00001

diff --git a/lora/ops/torch_ops/__pycache__/lora_ops.cpython-312.pyc b/lora/ops/torch_ops/__pycache__/lora_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c367ce996d9fe3a550ea251009f4dd858f80bee0
GIT binary patch
literal 5264
zcmd^CO>7(25q?W@xhwujr1-0!N(wAUjDIMlZso?RUCWjY6siy<b^;4A2#ULsC@+7q
zyK*dH38+AV%ILvTE>cg`(SmZ|p(xawjtzR@N(n?Pa&XaJe4`=vl2d2i^3MvHIB8)N
z=#w~{dHZ(W%)B?>4FBeKI|vNP_WRUGJ0br-p*kWJ=0vg*vPA?UFcO(1ZA1tP7LhDj
zstfDig0;oGt;IasV&2|jo@+7Bix!~`J`VUeMeDp@aDBqg+Q8P(f6dlbd*gl%!43Pd
zE%)-Yu={n!rCqc`Tsl6n&2kWza7$Z%=oz+(3-0F-ybu@ufBw$+;NEmr?oL?ngUxNP
z<?b}@>k$I5uVaOYMxJ3xO&j)9Cbz6AhDXZEiTGUnV==X`2(ml7tipr1DrS_dY_!kC
z74f6Eq9$ZDE@hL32SrKDR2Ov8_fr`ml@yigBsZ5(lZzr~PbVHy1@Oj#x@b7m?0tAQ
zvz%58M?w(drWHww6qQ`(;2ThZoJ<4RA}UjvZ;A>UtJ(G{XpwiQY;~<hG)A*%4y|pk
zGRKe=vdc_Itp=-R<>aE_mBpNxP{9OMlqE6oKs20l3+V@O@nJ5J5u#2Rt&nX<P={<s
zg4W4Ak~So0xa>sY0%CN)yHZvV(J>kk1)ufT$2YfPYC0ForE=#Xqzj^Y{^9c2FD~65
z6Jt_pE|yzS7qgkz14&B9FtD*~PKi--<H*ri19Ks_VmOt$t+F3>LCcgVkTvomOv1g#
zp$mHGLNPXRFnttyuW0lC)7HLW-}XFl7sqb>wd*U}?Gso`lC_wDP>X#SV!DMfv?5e5
z)y@FlFo$MohSHxidzH0$w&66`B@EuFQC%rm?hiu%eHy!jF+DW|>*u!W$~>$6I9rH{
z=Rn629@MEJfL@K=!}Erbw}Wp@>=o=7i#(^<TR#=7)EEDEX@E6j;IBon<~bEAqd8h=
zrSWf}jXta0eqOW5y_yATDftwr#(!#=w>*SDv|6*n3|F7Wxm7ouzBOqX2Y#jLiqqQ6
zl~HbbmoZpDUCD{hFg>2(k;9Z#NTt7V&!x`w&t+5n=dZw*jJX-*4GUc2FtCOdkicM-
z#Y9dtIOU^dQCt;e41!@7QyFDBZCKN(OtkHE^3jx|IR*$MiAfc54AVg|I1{lHgOyV0
zlxjGV*>pOaL6B1LKGl*>?gUBpRtcJ;^nmGWr0gNVGsQDwdf?J=;IbaLd~p7F;*LIX
zrx>_=6nKAa`fJXye&yKNr#t(Oxc;4MhumN(GISh?>5*9BS}_tkiu`=tQ*w7czWeCz
z_PyiY5xsY0{qB)_bnWKXp3cY8BWe5UlbeO<BhU4<TTfk)V^^Q<>f2#-*Bfh-CC>A^
z{BQFcGddUA9zEoGc6yHoF6sjp3p4t_*#79@z<8;{yUxC_6JKECgROg;_jX40z~D~)
zc<60?=<WScedw1*-YaXr{yXO_@qy10+uhr5Zg+2Fj`+bRp+c}QSP1TS@4va<T^zlk
zM<;cD@=Jd3>2R!IF9Ztqedm7HzOy)TT_3)&?ykRm$PdZ^h*G6UBx*&1Q<4cOm05UQ
zxGj6Yil~*|6S)H|GLc$YlvA1eRip+Gc_pMqjFf#qPJ=VOAQfOWRm<mK*;}~um4P+%
zm2HMb?ImDEIH5)D5?r|dV_>x*5DBD<tU}pofS2ZwN&yaG%mkiY`?MT_K+1?-au<?r
zB)vd(Ir%5ZV^+(3NcxcsAVGMM-vAQjn!*ab5NB}FAP@zMU<EWx$T*9SkX*;d+dy7F
zWSo7g@WEeZ3bXpzt82gcY@iqz+W2@YznR~e(L+NZ6@5d8wqY|}U5W(VSUfvFuZVz$
zrlh1+#bjgcLu{m1@?BtlP@m;$sO)B+<<i=q*K+P*=wM*4_3fPXHgs2UYE;yH`aHh7
z#~K0M@+cB?#LQtRV%5_!56#SCZ$o=zZYE!ZmG8kv`56#sl6smqNr4jYDe*zT(Gnjn
z@%|F;ga3cE^Q_&>>xz@0gpgWZzyF`-HTR>Nn_3H}am`wjYWq}cw7BnWw76Gjn7CTQ
z#A|lBtD4Q44gT0w2+m6l2w%zjmz$2tZ1Z=`td}o<DmezEMOSd@R@4(2Z+In<`}@sQ
z{weB0l7Wx%Cm@i@zVE62E$aF!^#tFp{<Rw2^TbtH)rX;dxK<2aJK`q}7QRRvEb06^
zU-A=AC#SxcIhdv8_~nI%`~<y+QRZfpxgBK|zzG=Tt565cM(Vct+sz8UYz*66HY?HJ
z2ek7s*m)_NP-$JGkVdnDMr4;zwPyP8<LRuhEQwd-%b*+XHc|cztz6m4Fw6;07<ah~
zvgdig!`xv?F7M;1M^j}h3Qzr!t*OnaGK)glPCy*r94~WJ<Vmo5>%+|t%WYJ2kU$q*
z?4+WLboKqQ=MOz)Hx)g^<1M#Swu1!1WiMrY#Op72Qr1trffH&$`5X!NJa>ke$+|Hp
z)Qmx)!5Av?)$Q7-=s;~$MfswKdAF_zg_<H18Wd5n(JOe`=oN^KUV&Kk3fQVwz*fBi
z)=xa0=oPT%NHFr;>1KXaHwJ~8F(@<`L&dsRRCJ&=s-k=e4=fU9?6va(zNQQK23084
z-9oAE6-srdP%?c&&U6Vm(<9{kq%&9!AQ!~53n3TAV52SN8w?&@yN`LN?j#B|!%%3j
cjEZ$9sp!BRoRoFp7H-OVV2>A6F}>IS27w~){Qv*}

literal 0
HcmV?d00001

diff --git a/lora/ops/torch_ops/lora_ops.py b/lora/ops/torch_ops/lora_ops.py
new file mode 100644
index 0000000..4fc6248
--- /dev/null
+++ b/lora/ops/torch_ops/lora_ops.py
@@ -0,0 +1,128 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+
+def sgmv_expand(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    b_seq_start_loc: torch.Tensor,
+    seq_len_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    batches: int,
+    max_seq_length: int,
+    token_nums: int,
+    add_inputs: bool = False,
+):
+    exploded_indices = torch.repeat_interleave(lora_indices_tensor, seq_len_tensor)
+
+    bgmv_expand(inputs, lora_b_weights, output_tensor, exploded_indices, add_inputs)
+
+
+def bgmv_expand(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    add_inputs: bool = True,
+):
+    selected_loras = lora_b_weights[lora_indices_tensor].to(dtype=output_tensor.dtype)
+    if len(selected_loras.shape) == 4:
+        selected_loras = selected_loras.squeeze(dim=1)
+    inputs = inputs.to(dtype=output_tensor.dtype)
+    outputs = torch.einsum("bi, boi -> bo", inputs, selected_loras)
+
+    limit = output_tensor.shape[0]
+    if outputs.shape[0] == 1 and output_tensor.shape[0] != 1:
+        limit = 1
+
+    # LoRA adapter and model may add different amounts of padding to output
+    common_len = min(outputs.shape[1], output_tensor.shape[1])
+
+    if add_inputs:
+        output_tensor[:, :common_len] += outputs[:limit, :common_len]
+    else:
+        output_tensor[:, :common_len] = outputs[:limit, :common_len]
+
+
+def sgmv_shrink(
+    inputs: torch.Tensor,
+    lora_a_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    b_seq_start_loc: torch.Tensor,
+    seq_len_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    batches: int,
+    max_seq_length: int,
+    token_nums: int,
+    scaling: float,
+):
+    exploded_indices = torch.repeat_interleave(lora_indices_tensor, seq_len_tensor)
+
+    bgmv_shrink(inputs, lora_a_weights, output_tensor, exploded_indices, scaling)
+
+
+def bgmv_shrink(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    scaling: float = 1.0,
+):
+    selected_loras = lora_b_weights[lora_indices_tensor].to(dtype=output_tensor.dtype)
+    if len(selected_loras.shape) == 4:
+        selected_loras = selected_loras.squeeze(dim=1)
+    inputs = inputs.to(dtype=output_tensor.dtype)
+    outputs = torch.einsum("bi, boi -> bo", inputs, selected_loras)
+
+    output_tensor[:, : outputs.shape[1]] = scaling * outputs[:]
+
+
+def sgmv_expand_slice(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    b_seq_start_loc: torch.Tensor,
+    seq_len_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    batches: int,
+    max_seq_length: int,
+    token_nums: int,
+    slice_offset: int,
+    slice_size: int,
+    add_inputs: bool = False,
+):
+    exploded_indices = torch.repeat_interleave(lora_indices_tensor, seq_len_tensor)
+
+    bgmv_expand_slice(
+        inputs,
+        lora_b_weights,
+        output_tensor,
+        exploded_indices,
+        slice_offset,
+        slice_size,
+        add_inputs,
+    )
+
+
+def bgmv_expand_slice(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    slice_offset: int,
+    slice_size: int,
+    add_inputs: bool = True,
+):
+    selected_loras = lora_b_weights[lora_indices_tensor].to(dtype=output_tensor.dtype)
+    inputs = inputs.to(dtype=output_tensor.dtype)
+    if len(selected_loras.shape) == 4:
+        selected_loras = selected_loras.squeeze(dim=1)
+    outputs = torch.einsum("bi, boi -> bo", inputs, selected_loras)
+
+    if add_inputs:
+        output_tensor[:, slice_offset : slice_offset + slice_size] += outputs[:]
+    else:
+        output_tensor[:, slice_offset : slice_offset + slice_size] = outputs[:]
diff --git a/lora/ops/triton_ops/README_TUNING.md b/lora/ops/triton_ops/README_TUNING.md
new file mode 100644
index 0000000..3ebe1fd
--- /dev/null
+++ b/lora/ops/triton_ops/README_TUNING.md
@@ -0,0 +1,60 @@
+# Multi-LoRA Tuning
+
+**Note**: The LoRA configuration folder should be specified by exporting `VLLM_TUNED_CONFIG_FOLDER=/path/to/configs`.
+Without this, the shrink/expand kernels will use default configurations.
+
+## Tuning Process
+
+Multi-lora shrink/expand Triton kernel tuning follows a similar methodology from
+[Triton MoE tuning](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_moe.py).
+
+1. Define the searching space. Here is an example of searching space:
+
+   ```python
+   block_m_range = [16, 32, 64, 128, 256]
+   block_n_range = [32, 64, 128, 256]
+   block_k_range = [32, 64, 128, 256]
+   num_warps_range = [4, 8]
+   num_stage_range = [2, 3, 4, 5]
+   num_ctas_range = [1]
+   split_k_range = [4, 8, 16, 32, 64]
+   ```
+
+2. Get all hidden_state sizes and num_slices that the target model uses for a specific TP size.
+
+   For example, you can acquire the info by simply checking
+   [add_lora_linear](https://github.com/vllm-project/vllm/blob/main/vllm/lora/punica_wrapper/punica_gpu.py#L181):
+
+   ```python
+   print(f"x_shape: {x.view(-1, x.shape[-1]).shape}")
+   print(f"num_slices: {len(output_slices)}")
+   for i in range(len(output_slices)):
+       print(f"a{i} shape: {lora_a_stacked[i].shape}")
+       print(f"b{i} shape: {lora_b_stacked[i].shape}")
+   print("y_shape", y.shape)
+   ```
+
+3. Benchmark the shrink/expand kernel runtime with different kernel configurations generated from the pre-defined search space
+   by performing a grid search to find the optimal kernel configuration.
+   vLLM's [benchmark_lora.py](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_lora.py)
+   can be used to search for configurations for different shapes.
+
+## Config Files
+
+### File Naming
+
+| Kernel Type               | File Name Template                          | Example                                     |
+|---------------------------|--------------------------------------------|---------------------------------------------|
+| shrink                    | `{gpu_name}_SHRINK.json`                   | `NVIDIA_H200_SHRINK.json`                  |
+| expand                    | `{gpu_name}_EXPAND_{add_input}.json`       | `NVIDIA_H200_EXPAND_TRUE.json`             |
+| fused_moe_lora_w13_shrink | `{gpu_name}_FUSED_MOE_LORA_W13_SHRINK.json` | `NVIDIA_H200_FUSED_MOE_LORA_W13_SHRINK.json` |
+| fused_moe_lora_w13_expand | `{gpu_name}_FUSED_MOE_LORA_W13_EXPAND.json` | `NVIDIA_H200_FUSED_MOE_LORA_W13_EXPAND.json` |
+| fused_moe_lora_w2_shrink  | `{gpu_name}_FUSED_MOE_LORA_W2_SHRINK.json`  | `NVIDIA_H200_FUSED_MOE_LORA_W2_SHRINK.json` |
+| fused_moe_lora_w2_expand  | `{gpu_name}_FUSED_MOE_LORA_W2_EXPAND.json`  | `NVIDIA_H200_FUSED_MOE_LORA_W2_EXPAND.json` |
+
+The `gpu_name` can be automatically detected by calling `torch.cuda.get_device_name()`.
+
+### JSON Structure
+
+Optimal kernel configuration files are saved as JSON files with the structure `config_data[max_loras][num_slices][m][k][n][i]`,
+where `i` is an optional dimension in the `fused_moe_lora` configuration, representing the intermediate size of the MoE layer.
diff --git a/lora/ops/triton_ops/__init__.py b/lora/ops/triton_ops/__init__.py
new file mode 100644
index 0000000..7e8b9a7
--- /dev/null
+++ b/lora/ops/triton_ops/__init__.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from vllm.lora.ops.triton_ops.fused_moe_lora_op import (
+    fused_moe_lora,
+    fused_moe_lora_expand,
+    fused_moe_lora_shrink,
+)
+from vllm.lora.ops.triton_ops.lora_expand_op import lora_expand
+from vllm.lora.ops.triton_ops.lora_kernel_metadata import LoRAKernelMeta
+from vllm.lora.ops.triton_ops.lora_shrink_op import lora_shrink
+
+__all__ = [
+    "lora_expand",
+    "lora_shrink",
+    "LoRAKernelMeta",
+    "fused_moe_lora",
+    "fused_moe_lora_shrink",
+    "fused_moe_lora_expand",
+]
diff --git a/lora/ops/triton_ops/__pycache__/__init__.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6c6cd891fdc92f2d6d7faa3d7dc50461d17104cc
GIT binary patch
literal 620
zcmah^yH3L}6t(kgQ?-bJA7DX2YCIMs#6x1J#A9G!$YKS>v{CKEa$MAo%zOYl8{fho
zSn9;Y22==%2|F!s0awb&z1F$so^#V|20#~eF0x|_fLk-Xm7c4b?&{wqNI?oIU@(Tv
ziY;cxHZ*S*b(kBwRc}*|`LSR14z00zT!)|sQuhkR!PpD^J0lp{s&zUnNs3uPFfBx)
zmcGuIjChi#Kc36J$nrr5Rl{t}S$b^k7e_mLMC61X5ShFa=6p|h`mCrK@D11oTmz1V
z!?2-N&nRV)QH=^-Mp9(5$gyd^IV<>V+bmWRYUS6}PbRfgWkR+8W)G?mnCTR0B9qGQ
ze-~yc%>|QC`4}gZVtfszdIT?BBpF9M<87_iBeFdjcGlMh9fD|fg7{eWiyRqO$oNG%
zGx~^+FwXK!VjS_Ys%@|$9a6F>7PT<cU%9N|-i8o92M)9zfQF|4z->4I-3i!wbo_>O
J?u!LYdj)Xuxmf@J

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/fused_moe_lora_op.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/fused_moe_lora_op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aa9f9e404c0f50b1144690df16e9461729e3b3c7
GIT binary patch
literal 19306
zcmeHu3ve4pn%)eagC_xyAOVmB0lvZaOB5whFX};2FH5pyowZ)W5C)_`f*>^jtw#;k
zSjQKOd(Mg6dkEUwi|MOPOs$n#?&gw}lTB8ey3{(!rNS{B6E{(+RCP`zo2pbnmNs?S
zR3-WU9t;3NprpOMy1T0E6sPg^-`)Ro|NT$@fB!xFcP5jbf-9o>t?=HX6!qtrk+0Dl
zc-&>6s9V%IiltaOLS4XLMTDMJTu{s^FDPluD<i5|^#wIx6|0VDX0;czG!>>UFd<z?
zA2P6-Nre;Gg{WzV%)aoOD>JcLd?d?+%uvr=D3=j(V0BRDktv1WNfoPqM|HufphC*&
z<^o+tQxt3XBl@oKBU+-crjTN~RW2?3vgR%56<g3PThOgr&~01LE4QFmZ9%t}r%&40
z>UUHh<py-23gkgecNE4aBe{l-Vo$I&<>k#fwxBzoIYX{3TGehruiJuNzXjb5`qZ#R
znP&_77Fxr4fmb8kO>j5E-2!(j+--2T!|j8+1MW_^yWsAIy9e&xP&M1f(v!n%|2t|~
zmKSPXNZJEi^l__M82tZ2+Cw1KZE(Mc)OWJOMN)VCN>cyJ>G<F5oS>}!GH=0lXg31)
z4!C#1y$kM9xOc<72kyOa?}K|k++%PbfcqfavbK+~hl=FxBx}c3+Wc#|{xWhs{Eqs9
z>(^`XuecVEgA{9@sg=K8V_$rYJp$6K(^0Uxs@aK<lO33%L$13=KT=6P1TB>u3)QeS
zP*VF;$?=ebw5cmD0o%7z_CX52)3UEwAW_qMiZVHP0qy>aw%=E#J^BYP+J3A|d+#;6
zi3&9~Q=E>bLQd#U%>_@$al!j4b&bA4T~)qHU7>v^e}+v@`V^uf9uYNhE*zhW`e@O~
zhPhBM?&m^N;aEJx`GX6w_}r|2ZvJQJmO>3<Y+-(Wj*G|q^K7I?H2aUgbY{Q*)Y&us
zgA)hNipIzs7w}&Rg{LmXW1@x)y%`RMf{LP!ssStEe%uEfZ&C4_y9<sp{SL)b2PxTE
zksaZLBA#zQjjc;AULn`KN+*<GSMbW0sVOR<LSA3>QdC0CtEROjjUdabr*%(LOP@|t
z?=`8YxIwNtZIn^rmsjz0oNQB&Hf=7H$mp)(BOEha2_>&AjE7gCUKR4s9^cE9PZ`jI
z!1Nxt-q<YqH$1_)NCYM?=80bldAQK!1(-|L6OK;KakGJVcrNN;7r1bA%JarNH#ZrM
zg#6q>^o=gUZ2u(8HZ%;!x;)`Hw4M!wqcLC^jl~1exF-;0J+Xz0G2j}4>_RLs74n4f
zQQX|Z)FsdHb7y-9qcfpNWHh&v<SxbI^Rb=1y;I@%rG<+<!MWL9N!Pj~f#_5Y_g;+5
zUF_vTkx(EO>K*Lq@44DLe=UA#F4`Mkh|h81KqS`NH_|-?kD3p$-BY32*`E1p<N?9F
z`hXl!#Dj1@Mxh>~XizVn`f3#jo#yH3;+jy7mps|OPv4?pqN`QZHR>NJuh4hslc4Gh
z8;A$|^KlMelb$}&P^{aik{-`5PWQ%V=X>YF^WE_PHx-I^UtQR~V`OG~s5cV6D39XJ
zNMyDb8~4u5$8v*)S1Q&!xeyDn{@J;ZpRk^rhhd4j(Wy{0bakHFbG_CNEU^bYqmj8F
zh+$7pz7U2*#axj5H|j5v)OyAE$6c$tmJAz~X2H_DVQKxi>wm>?A$;3aNBa~Us;8)C
z<JaaxK1Ni>7v>`&jzOXlo*`-i^Yfu7%c1T<=^Pil1j|Aw8k^%p%|bXDA0F~)IDB6u
zPRg0kHBk>e^XDoVq+jf8jI%(!m<AG1Q@A)Qa%JSfaP^QiVU>3wNm5VDl))n40MZrX
zY5jQez!%lc8`bSXb^B^%y1ILv>As;~*Y3<zIM*5HLt9ny*ng^Nx?#vLl^cvpU|gwP
z8@0VcZEw1^|35MVStaFY{=!;)t8Te2HM7?GC+eRXe`5U1dLnuBp{x0wlS_kws^)>g
zxnZam4E3pC+R(VJYJ3b`p?n(A5?z?}zZr;xS$}+P1_U4~4xJEnF;H7J<cGylhM@?o
zg%McY`~iO~d_5%Rf+Pp(V`b<3(Yd%kHXjOt3S$)mGS4+C&ID29^Zpspdg9!1|CyK0
zojr8WfBw+K_z_r9$Bw^r;F$mAi3^APCpP6yZps}KjpNYrlw4E$@~Pt!XZ^>5O*pdL
zg%d~?-}^B2#f$HBeu<T<;(`pzR_?7yG!+)=vUQb3b(^14S5;KErKoPsZWnq0i?oq%
zxekPUKU$wt-^90Ws^7-9vg(<3P&PH+#?pv5`dX3MnMOS=x!B?!wii7SUzn1MXLt|a
zcpVJWM>!cLe0&p7fN!FMAfP8YpTkARyYub4o>N!LH{|Pf^IpCipPuO9JNcgL_^e*O
zm-iA{U%_zkU3}klSOs`*zHL9>N7_J7`F`v#N-i-_L_=<aMZGCELz)ta5Ag%M8=uY(
z&AcW_n{VZ72xWjgVcT;!s`+hLkKe|(OYLT$AFMiWLWlWbX-;t_d5Ul5UD$ixfzKdM
z*#4X+(0nu2leKCZSEG`vh(j5J&MT&Ikt?~TZ6yTA%FmF06C=C=dR$9-?9BIg2S3O+
zV6N!7xWt!SEM1uUvc1mNpRUfsJdpc9q^l(wx|8qVJumcJkE}OD!n@>Ier|vBdi|^Q
zH!;drgQlTgjglVhE_!k~y;SkL$vAg|7FA<AqD6FGi}vt)cs<e*d-?7B9*7ZBzo}p;
zDb~x^;hV&p$@6w$8J6bCDv*l2Nk8`SBcR_FnZ^(E);uOHi@4hIB|A%aR>~!b{YB#{
z6N~2Ee8Z$7o}bfcS03iUU5z|fiLp3ZTXKQ!_+&b`#@~REAAr^CfV_T@9>5BbI9Sw!
zGLn63KVLeogG9F4yG&lXhn~Y@AHTOm;-yk1Jg<ZOVT<`5erv3VbD0=Cf0#cckMcUa
z*NHKHpFBcdnmMHI<M-#O(ySnL|9kJLD88O+D|$v53GhmO57Di?U?U4-9)D|$AKyGG
zlxbq@t+8^t|I4o-FqU6>l^{BLgx|qemFl>xalD;BvRNDDlElPQvs6-(*W%3MEG3Te
zjjWQ`S7(v*JUQhn`gv>Ot+BU`-qp#vLW9>`)S|JdY7R;*Sp8i?VQ+tp@)=KZ@NnFf
zssdNTF%E11^)saW?Ek{$qq$1JQ*e_Dym-}YAT}ea=U{`xK{4(XL@jJQ0#`#U_{b!$
zjD==>HV(ZcaB#V~DK0SU53`~wG8bS)BYJQ-YD`oG+3=g9ayA@=ee|4YoSy?v8FtO+
zWs`@Cdf3&>!j1_@;A3;J=?RHy;!ca|>mhC~CTb^vaeQz<R7<5wb}lZeVb{%tM124@
z-{GJ?z_Pw$qMB?*MD;~<vPE@}{8+$ooRK%&gi-}QdmOeE#C?UH!%iKln_)*0;^O(d
z3kM>3xc>RM80<3OA<zoz(kDgw80P^Aa1AI1;<ifdV<JPgD!^8(2(W>99BwEYxEKks
zdDl2FTYxipc(LF+UknwfMHQlXYOuf|80Ea!6I2TheOay<lU7XHFaeK_;(VBNVA6?6
z7be}9^gtpi=V1aF$?-;%8^Tpln?s@jH(~j4%m%KK9T`M0roit9$6Ny({GdBp{GIhf
zPl+O6rU0YT?g6WWqkgho6&dn_3S^iJb0}xh#wd|-;{Y7g5|R8w#p?1?BPzpDka2z<
zMO|=#gUtud7=e;r5Gd(}c5ZSq=D!#fH3ZCvCh{vQhN#OSV5={bh<b@k-W3hu4{{*P
zW1=At3@*$rL_je?Pi92J48)2sRseAYk-jL>0a1^llp;W))Po@Ofb<CX1pUZ2b_}M4
z><#~F5^0B7?JwC-&xE*WD8l_6co?cr?EA2m!+vv~rVOT=-HY9+)1T=Zk_R4CSZ^j4
z6D!`&Dw>l=N^)k)&8fwyrAsRgq1u-=cO=Ij*s5-|Ew`n5SH}g{VA?j6JeJX#mm1$r
zqzo&UKXtS}WXumNwp$g;6)UGdv$Q2A9+)a_o?kq_bUI~Rxgt1v(x%?z;jD%-TbH&k
zel>YG1K|8(6j(zu?XotdNF7gGe9$nLr&FV8OM7zSVNKIYSg7e;S5;*ys@Gi|LPbaN
zNXF($y(ZXv$zu;HtCy~=>=J5v){N=O-O1w_V@+y&y>(cq8@|^i)E*X$<H<uAQ`LG+
zn_y~NJuVnWl83&iZ+QRw?eps`d+)aiEfeYbqw6YHMr*vm3)<TChHal}w`CafL%nrr
zLeST*s0Dos2rbt&^J=Bw=vob~P2ATBLlZ*J#3uu3%gN+KMr&Cbd;2YHX|bmqE5`(9
z@7k!~*eh7}7DlFCVFX7z40glPC0M%dp81~tj{n}dAAjZJuWamoS=jw@y8CR}at_#)
zVe+t|YKa#rn!a=K!|(^;HF|9{-MVk1^?=ZN;7`VWdgLcZ(yb?iiWBRn&j{u-$?=S-
zaw#I18ozVq!&g6eb@lRESGr}dVA`8J{IJTIIxbYT-yQhgjypTnPTw=8I}dGi9uYc^
z{Hg6fIR1?z-FZf+I+Hw+u{cxXf~9F?R<I1hD6EyYYL;s<OkL`lz_hRW*24FF!tgPn
z<Jc#sA1f6$P4Xzrv#oC3-6L3gNX87+ZQtx)VwbiHOl@jGV47E;ao^hTz2<*K-)sB+
z-utf#gC_;%<RhiRtN}&QQ#xBFC;dlCTIYVKuUrZX`i4hph0X)~4c2d3mkut~EcT{g
zhFTtJmAcj}Lm6yK&EKMz+628T^{Sw6eWX+A+8{ilHaxLWmG)ch%k8P-t6l50+keFU
z`1;4!KeHVL6*AeD`j;j@H`U*uGu1UIZ;D@?5*oG%u3@2i_=e#Nqxt6e;`q|xmFn-(
zt3#{W4;t2X3En;TgP$3X-k_i8DNuH(kTKda*4l6FPsKrC*5*~sYWxSMSFhZuxYsGP
z9}=vGGdBAZt;(doLE`|cewVxT=JK1Vz>4*Ec!7cN4!lK6T`M($t$lTeU>g#cp&J@d
zrV`qsChMil?nliO<9uMRxpjW|{Ca)&nqH{idEd4E^4ZVq=WggT)!vn(-@Uxnyn01w
z-Y!&czhMCJRJw2VEcdL~Kdk+rcEh_}@NQ4rMv})KnoC0b(Mi~3WYa;{wX0lhY~
zrWIO71m}og8o9UQ{*_PSpPqZ=lPkjbd12Ri!E_#8X;aO&=+sb3E0{bh<EsaM;Dyzq
zd1&pj&<u@sfXcy=;eDHb!02x>i_B7Ws&;kwb7tTR$eR{TOOp_~(%hT)oH@*)lPlT-
zU{k=@&W6}<ARh7u1Hnt7ezEd07y-_IDGbIt>W5fuJQNen#HvA9Djo>VfL%5g`v{_?
z)IR_xCGQ(>5quaJ28c%a!47e!A<vz`<Rq5RCnUe%CCumxhKf6tClE6m6O9nn4bG5Y
z7+ARCTy#@zh6`g;Vo$FGxcQjG7WzH~L(#_OBjGqk#=z+KApne?P0qMzxKMn7iw27~
zKy|>21i0Mb2fnL#*YK|CUB@kIQNhyqaZbX;+xSXwh3&AJtXXuhif?NZwFT#MQNiow
z%|oK@hUtdkhT?_;KHX8i!zAkC$eCPxJ#yn|z7E0<N{IifdCj7MH!qs_3f=;nDjfuz
z!Sye_SX$nKZ&9wwm%E<RzI^%f+N+<#Uz0DV%0B;j<put#vh54wS3kRa(g6}Gb7~`p
z?0M>$rB>X&vnt-oJ2?fbiqgE6)w0aDHGJ)N=-;Ms%i+^W+lM>avX0|2%pLblOwfhg
zbk2bLj7qp4uR`*BDo`&~L50diM;B=xqN%7dvU1@L>p5){(1v`Iwy8~CsTP&;R4po5
zCGsvC$s{F{a3pp|b+TxjARVA^xVPnYLLw?7p(t!SE(PFxKrO0H96GySdeiZ>=l(7x
zzXM4OpYKV+l?&>RMgp@J*}$Ib?WN9F>=GO{%@mzn<ZAv8Wb+%4z_CS!sd%8b-0WQJ
zT)LQQPJK;q^`!N^Xyf|6$k79-s#H{PcBl0{XzqHSXegcW#>q5On_;S#E(?rvgJ}?$
zh80?18Xp-nP7PTwrOhC|uv|YRhwo^fy?OAd$gu?R6-A8{?ibatz=a|{H}?+m`AtlS
zB=FpVyMf6fCb(vD5Kf_rR!fMZNJ}R7TZlZE;G)UBhY7Bh+~33Gw=ubi$r2{G7IFpE
zLy>d83yEmG(k~qn6_$0ABw;@s(oKe^xFc9ih5MBlS`0WKlzr<r3Q(qQ;V?@axqk@l
ze*|}I0yg&lJ4t27Xv*2Pa#?Wr)>U?JIGimRM|1Aa?#@(uGL^1J6?(fSdE$wKGTE12
zUwI{M>`ET`pDK+}lROAVJnGuikf8EpaNbNArar?|Wf%vzLK()LVRYnAPqLL6#*$&c
zORC*q8evjb`qNBHX%1%HBQTy7Yno}wpborXu6~1QMvv=snrVYxY|1%gO-eJ3(31_u
z3EGwNrkT2IzgMlv4p7y;4SSDZ?@8PHGWL!Qd!JzMOWOz5rUm=HOqD%T<^HqE=EcCO
zFXL)>v>V&(gT031@qQYxWXLsO!{!&_IU{{BZ=_A~rqd5`fEm#S^DWi%vtc+if{kJj
zjhlSs4V@WuTrzaU=Q*1V8E;FN`O0q?@@B9e7T3HnlUc%osQ@~z2_=`bzR2rPf{y1G
z=4qy+Dr8~NHS$`%auSZ<r|~@~xp@6ul^pv?xMgF^J9sDWV%1=f8zjR!sbn=^c0F;3
z%t;sT$(vpGmS(p?u3h-uWOmDyYvr|+ub(bgUNBqb%b(XizgBO-pUFSpUH19UD=+X@
zm2F?>zxvtb#OzuNl9N&1>=MJuyQiOD$I4q-Enmy(!00weMmJt5^W&}Zh#?Z)433!>
ztX(bwkCArXyJ$cg$$MEXMlhuuMBtTI6<3K>ggCetwE<(iL1mD9Nbz1Pp5XiRl40it
zpqP6fk~<0#jUz|b+$|uKH|Ku@CBLUEevMwtnE&+}a_%+`>sye3&H6*c9!!XxMu&u)
z`lE>^YdrV&f%LR-29F;;>3G^WzXA(B3C@6Ve!!S-8Ws&pV<}bYb=c#lneIQ<{Lt`y
z!@d3Y;`dJqdtXlXofVj~4;aIi_E@Vbw#UR2b1TpzpPraoQT1jxbcOpiP`DaQ_G5xt
zLJTqY0V13h?f@jdM(#tz#2VvJxxYd~d<Xe`7n2t>$&$g%+vUPaZogP|t7ej9E}QFr
z0FM&saI6u2WvdJZdy}n}4Y>RX#Zv(;i6!@sfrkTU?g1pffC$$?y4VP37<+PmhH)kL
zKXkOpR{UXI|3)3gg))qO-RRvgwh6|zRa!81K-{8Uv#xSJVW|4X_mAB^meEy0=t{TV
zv~8Uk&X}uiMiwKP3f#SudRg<c{DGf4RKx?&7d!y4{V(VNY_`vvb1!c5H`m<EWpnNY
zJb=y;tN*kc;08A!W3I@!I*VL@FNq6)69eIeou8ZB5M5!+-?;ouFNoH<d=3I1-rJ#-
z%eTL>Zf{?&Xiqb~_3p9z{X+L4fjRUU<9no}%ngzYQJHi6Htn#>5Tjxl;!K{nDFkiF
z@x(2?v<<fwQF6O+bB-i$$}4j!y}2V#6QLtd6QLtH;^vOzh(#SKqR1V|k#Zdg*1`)Q
zU+DazZ}a%SLt4C;7d{j$EZBVBat6V!kkcy-d?j)a-X-->>TQ~)FojPA%Xmw9o2YqK
zX`XKne1`Z8F8O+{^1hk;w0u1cOZr>V&vM=y*?IDsvYs6&%k!+{wOiLh=@dV$oD_Mb
zw9hTeh3rL%Rj109tI(d4rznWj%h!@dqbkdRlofH%fy~QEL|yVEy4>EmI51SuokX2H
z#zZ}z3oC8?4DfH6M8g)nAiYg^K)bf=Bltz-J#sRFL?fJG>rkSJCh#oFaUs4^qB*XU
zUyrgLc^&fM8RD@U<(h?Gz81bH$mwpPC7$<?`4$L)DWvchc>FqE&l~t!z5%#-`9}Em
z$qfNABX8o(BrIly;G63sm&BK*;&~quf@m$WKffg(2ELlfhwh}^!biCs5eesLb6#IR
z@c-HWfdgR4|HEJncNY?$j{5`n5tXo?k~|KwM=x<ZaO+F#sjpRXHVV7`Ej<q6I(!2g
zp2mbkOaB<rKf&amV)8>w?qTvVCjShRe~!tIF!>jl{7X!JjLCgWeu4>Z{UxuJ1Pi{0
zSrR)S-d?%L0`XwpfqJo4ND2<bvyc=Fs3-~GaQ_+@d>y@tKY(bF<Wv|dZhS3maDS(1
zC7N#B_L*VFJ^E9_j&;=zfu!q(9S<3>p>+aNmxgV<!G3ek;-0jj_K8xZGd(oaY#3?<
zLv7kn|3nQ02qYLAHVln|p)qY}26qBT3}rNZ3Fj21tWu-aJW|LgOOTn;fiZUrj5`I9
zA1^#W;+Wbm7~D^k3SH+zgLlKwCK%9_F?4(h5u?tmQiYskltl!-O>QhJ?loHQ4s3Ww
z1n<Z_o8TQ445Rlo_|51iXM}yHJ~f<LSDjinoXQxiH%AvoQ}p8ARAj^5C%F68tb%*+
zQ^Vl8YH-~!m@!nPj2n&)!O^kWFF3kCHFU45y4MZe8Ixzjgy(I^!w;-gORuM`&B>#g
zf-9D>K^#M{HEq~@aEiC;6>ME_q$oLURk=@G`vs;RoH!W1u0haYv`g2R93xQ?FGykq
zl4dBk+Lm5jt_SYUjtys@;KVLEp?}q1)Om|sxs~1PO#joK+!G@>X(Tp-!L`j18mknQ
zfm4~HXbpsIAbtY@8%Uu^{tx0hPQt<YWP6=j^JJ9pg_hv@{jz-R;JFsDhG!JG|9qD_
z7gyQj0)XO5E&#5Gw_r=iVF=+4<*WT$@=nLlVR^<YDZP<ZC2ypEG5{yqpWxu&jf`Os
z24ZtN;XIG{g_{mSpsb7txSs;q=lYwEXOb`1w-$gj{@T*<=iE;shJOnqX(|%KNL~y%
zqks}17aFd|n>0ZZL*3t|-DC`Vy|qB(9pF<U$vMJAB!3Dl#)?D&Z=IwWqIvU&5k3`s
znKAE=24+J9OfE!&qH%VC93T4O9~okz4mtY6v-1(rzPYhqnuVvxQcryJVP6y3%Zpb0
zzlR>_|2_N*@o*$YzN#XJ4q`PaB-9@A?*_RV;LE^2AV{@Q!KMFEP_f})oU6hz_zEV@
z;dhZ@h2I~D!WZ`Be_LXHKYXGE|Fk4(&XRvykjy52{3t4?!*TdT2LG1@I>|{felz@I
zOo$6b;RF8JIW{D!F3!zGNaUNCe`5W}yT+lWaVT3+3IDVKAqyB5_wSMTDJE$wG4GGV
zKrh1a<ROlm<A{Pu=Md=Rh|DNFV<8gS!~HpA!KP9%{D+~elBQ`eMYQR^Qtkhl8vQR+
zLuPm+X<kw-ol6a_C{rWL{*};&kq;v4_5t|dAWe;AH8#2_HMFAs(D;E-sO`>DkY8K)
zA^&~;F~V#Ir7$L|-*tW6^`$~vqj{p#DHPeN6AF5q#xOp7y8{0gkv%|56xfgED2H;C
z!!!ja{9x#^<2lL^nsT^q@ymR6B1bt&<L3ii%U#)HIm+=o<wTBhGEaFaM>&<JoX%0s
zz;4)b^R>m-zI<7tJhm70_6-%Ks7~59XuCk$({xRC57p58X!mc>v?f#Qd4KfwXjX|C
za3fp|@7LX~%W6rMq3mFMOgD{-M)-oluF2{M*-TYBNS`Z6)<V_P-HI$nvR0C{QScul
z#${u+l4Pqe^l|+5@vNO>t0_xmwuV3lRY3wEStrT5sOs8VuPwipttDAEWwPBozIZ&_
zK(Zc+F=V|2HX>{yuo+IUvMmI*BDIaccFJ0n^%2-X+3eX)0=tmfO<)gIS)J`Aun%EB
zfddE!2^>PWjlf~-@OA=6ki!lFcfuD(*<A#VQjWSTktK*#qyKU*QXeZRg(IsV72Z^o
zNPi!V;@=yh>BDr!XeFamlH9}GY^X^NrlUmuT8VCyC%`1-&GHOXNO_Aq1y(6<ljopP
z%2(l->=Le)XQ4*QJLG9_O8Gi@9_ppM8|B;}VQEq%+=x@rBw_f3#E@-~a4QO}O~UOs
z8$JnlAiYz<T~t*~wp+qIl(R0|D`9DJBrMI2gr(_`@Gwr*b_tK*xOPZ*C-UDV;ZdBe
z-4fn|(<R9skCb4-_S2*!H)T?-Q!sy<-k98+eGOk3dCD;J(CH>Gj2bg#CXA4crSoVa
zWcYMQdXFkewo0BwJIPkdlUPHt4tWlpB<n(v)e=~Tqpl~=El*|x$$I3u^pb2N<*Ls%
z5!j5dg}_#XZ3MO>^by!W)wr^q1a?u5+H5z0J(S&%?Io}e>-G~kfN+q&A%xoq97edE
zz!7A&gTS50Y!`u}$ZR)((xeb5&k1I7Q$pxhRru0uucr-p`2)_2A25-A%8t_^RJCTc
zNWvAYK++*eFH7BkIioCe6Xwja%quWwkwtFBoDC&jiAZ{V5EWh?%oSc8%(-y<wTS8v
z)gy8vYCz;c<VDno!f8U(jIwD#)QX~MLnKWJq7H1)iKq)vH=-Uyy@>jdOFyCk<T8k8
z2)S%SG>l4*vdfNu#y{SH2!c)^&~0@fP}v3m&I=T9sX&ngAA3nUtHYdLmYxA~Mp=3$
z%$a5BRbbA7N@_)9lXbKbb5*j6+A&uxFE%xpbKo-KMC3wLi>MBlnR-OhLWIbJueuje
zBQ7vah?<esf~XZ2h&Dv+h<u1T5OpHzLe!0@2Yc9ys1MurBO1VkV-V30N)UwwvIGfk
zNAxC<;0||@N&?QW;ebmeh@^r9F;|cv<_Z$TTtR}ElO%|!AVJI(B#60!1TiN`5RoK7
zM3Mv%NfJaPNf41FK}3=S5w)V`w;^iB#o32Qk{}{Uf`}xuibz_x5e=YJ2N4aSRJS1-
zMyYN`G=fq^0m9x3q`C{y7+p^f{+X&iWAS7x4Vh~9(uItz_2)V@gdX7I2Y1HOma(*E
z;J;bzJsDf~(*>k~L<bRqQ}OEZtG8ZXetiQxKl?!PWCk|y6SpVcKY9D)M%_N4ZXcY`
zJVg^!&cAr5wSP$|>A{S>8CwmIdIO)ToLMbUe-Xpewe;>W?JH{PbG6}>O6BJ^8q)s<
DkKv2C

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/kernel_utils.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/kernel_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e9dacd422b3437f4fcd263fc5282f6d247f62e36
GIT binary patch
literal 10301
zcmds7T}&KVcCPCGZo27i{u(!bg>4LN^JB0LHvU@-7_(sP9siEwY^zNbxJ`F8TUBk0
zb9<LrB^sDSax?qjW_Bc4DN?ZP2PTRXYm}c+o>t0>D_CQ;!~>J~WnUs3TZ)vYoO|o1
z%MApNGW)V6eEXhz?>YC}bI!f>om>7_pU*?Vld%0|Txh1K|G<R)lxmf?|8AkE#}rH5
zqF9=>B<Q5&mL+MuWu+<3de5Z~&;PPk&T@~)&9~tiYulmSzC*iXhj!-<?XDf#-8-~<
zc4#l!zJ08O_5Qi-skW$FjvZG2L#@)cy%uco4(&TxWvA8qcaXF5>I0_LJO99|-)S{F
z`FJO*?6jI<HfUOnYq}&-`tXqFniNmOr8p-tV<~~ToaW=BF=m1jcrL+=rg%{j(xXy5
z#kYEXkHa8hQ7lqIaY#a3O7RLkq&UwFU+Nu-UeqfidSys)^k45EiNcU8mxl+hLdD(N
zbLDFE>c^M+73ZBOD@{*wivQY`{^*sf9}V{PM~5%<^o<6zaKk@%uUX;WTgHZWq(tLJ
z{M>^bTKFI*a*bIeqxl~26h6=Bry6G_fZV9)p`D^KL6clZAqPbv2MQWoC6Zeofl8ig
z`t(s*`cMA>B$c946vQ%7@k1DvDMMw*O={)HBM8VZRGQ}6=EOiWvOcpIvsLiryN%a%
z$W-hyk}^hykXHzz&^@2NlKe07nMMUn5{vU=^co7G3SHBOAS)Bd(tH!F*fDXNq67<2
z^{5=EFi=1HV_!S})MPDl3~T0Mt;nrgD^m$ps>E>t)`57;>;dc4oA`H#477)}v9`ak
zu(mPF9^hu}&m2#+D9=>zb-PN~%I|!N_ZK|7$B#NYp5K@~&;19BDMX<lvfw>MVvK?v
z5=1tGrnB^4{j-fifh$zR73+mz9tNI)_<fFNV$n%SU}8MW+`+YGM!Fl5m^jPvQhaP0
zD2@?QQzDZZV|tjTB=dloh>+o<sYE)-;|?P29Md!boqVL3iA$UilQ=9&NTtW`5+Oqj
z8&7h)2<IdtrQqC5PNpS}bWO$tDIQC-;kE=PaYSA+2IuDk=1w9tI>Af|DHhJyR?;&#
z#%PBnbNV#Xj;G<6R9XUg4Azg=hcj`J%!6faVLhXBf|6VeR!=6<)Djs@Crz%{%3Os>
zv__(ZI-$tK1hNP)q?Ag+iy@JiX2f(d$+1ivRtj9WjT1l<R@0(K7#F*V5bOrxfNrKo
z5MtBV%9E)$4+a#$j+ztV{CM661|M<Pu6%hfG3N}{*hCawS|GlgF}p==!#ZHKdl=OP
z2G<?l;2JSG^L?&!Tev=Ct}R?c-OMn@k4txTZA^L^3TbcEZswv%9Zh>J9#pTAs3>3?
z>1NEU_)s=b%%lo&x*=G7m3K2&g*3;+RVxw&wB3U@**ORYp1H#@iByb*7@3MocR^R!
zQPYMT25cx!fY;Ta#X+J4d^dABCd85u&jKUH$9dSHI5;3Kaf~J6Vp0z}lahHU2DIqL
z>R~mTK^;*d{=Oeeq%p)1QpxxHk9RAMhkW>8{mAAd=p-**gDc$(8<S!fxaiK?;$Dnr
z2KsutnHzUGkS*Xj(jv!P?i+@kM$E^vu$d%K2-@>g6ab+u0<>Vn#wB2lD6XlSmvSd2
za?y!y<{bQjj$<MR4oIZHk|whe{?W7`z)7gvpBaY(ZIU=DLMwK%eyBLqX$1_MM#jmj
z0*Z)L!0$N4hP|oSQ+S~fix7l1p#=B41^ix7><>91B`VG_&{{guq1Z;*_<hAL#Q1Se
zvEiivo=hoLHYF(z@H8|>!it@o8;YGA1B%<&(u&*Ir%=^5pW;%N8J!T|_@@L6;RGix
zFnkm+UK8*ORVc!R7YfCpT1mhNNGXbqj;5381RQdL;<$3P|1yTEd^#D$hrOuK6N&@Z
zq7yJFK1rh-&niv;&Kw)PqgP^zdm^eTA`&}@0DCAL-`hX`Gu$R6C)+0DlPywA80Vyx
z2kEX8$0xeDwnY3++vGIt9lq^;B9UxMq=Z;oYEo=dQFjzqRfrx<gBD`z<TN-U3G0W9
zmcmOF{}Yhu4E64(G*w#uxM{vAH?VZ$MODk+ef0OYzPk0Y<VQ0@n+~eDJUb=(YG=;B
zb5Oz3$If|Yj?Q(i2KLSjzV?-5PrUNg%+eddlI->QaBfTv?w@r4S9w+LhFrFP*8N>k
z@Qs%W)UAiB7aJEEml{^wFT>sQ&euBq>(;Duy`u8*`22W|`xQSs@H>CyTDX4k;KISB
z8>``#taHs9`m$rObD?voak*=?>WJ(;@)_1FP>~CM_GjM(%GQG6T<r7OHy)~N-+C>x
zIKD8x#H|dztUWV7@LH#T&1VM;CGe!bE3ICuZCJdwaBn%ZTHBr-SPN8rDJ<S!xW6>M
zJhfWaB?r3Zi(u6?b&G=wgG(_OR^6U;uZ3!s+;S+g+#`otvbHy_{H$x0HB0do_UrcN
z?DMX#lD|Fj&T6Tvm>+oOqU!23wf6t*&z|pJnfj{b8}ViBkV&UycID{T!IiEj$#0Il
z3=e#mg4v=CmoHn9i^#!!vTNV0ea%dMX5UQHRB`R*1Df)NUf3$$g4-dMuk>8h(<#M$
zWq7c+KRR;lqT=c4>x&MKT)uYo%4jtnsXchFk_7ADNP>kb1ScxaR3m?;1_d&;`~?%F
z#3w+(gNgx~LEBR;5z18WGTvV>zGj#4fr9b1D8$keO|Xyc$eO7`whY5xM^<D}Q#q_l
z#tehE)7kdE%zOCID0oa-ZI=+*x4Q(|?gB`+i~gHoOp@_QRPeACRHi2h0DQ{`%!M%-
zb8@gvDrS<pP3nQ_k>eq(!zA07C9~JWyS+x`x<;9Os1CVVD{F-m#HuC%$gAs!_Te7f
zr}g;sp3Hv4plU?xv^vrxqt@uzTOgxG@5wZ<bmoAhU(r!$KWaceRD){KK1lpaA)zWq
zmFNK4gP0HX4p_VDneC}&u}mXs+%6VAT%O_OCL>C%$difi=A?hSi1fT4k(tP@J~8}f
zjuI3h@qchv?oz{}hmd`XN67^SmV^!#c%#JdMl(93`r3#C7fxiia6};TKoahI2xmm5
z1%-v(&WL8z^2}~%*ovA^D@pyDOzSEu*f?0*W*CV%wS<<YrmYc2YyqbA;8(Dg5<)Vg
zXCpWl8HYDKK)`%jh_AvhvN96GW(H7cGZ7I3WGln~hO*p)Elg8)<D++(;nYVxI^rX6
z6LYA^C#ex$U7DDPk8;sCyG0gOAkIV5*QQ~8GE!wTXO|jQ)lx{3x{82eFf&<1Y!bRA
zg*bpsJ&ObY6H_nr@<t)+m+nGJ34Z|Lxd)RN&#M@tnVI4kHpMqe%p@nkEnyM^dPbat
zd&8C?M&NMv3Yo8JA=P+hsEI|2kTpU=07w|J12GAJUInbb$L|dlT0XG|^_akr><LW}
zRHTT2NFjvVE1^)lS^^ox2wd>vCJ&e3AorG_NeJVH;$-YW6s|6%_;@;%7L_7^c2XRY
zZ$M`RASrfYqez=#pNz9nUh(8TqquaRC~o2a>^jAzJ5h0hKS&cjLcpeCzZf0vA5p9j
zBZ^<;6#>slQLwY(S4FUgwdB%hXfJH&&>P$dF$&}HtfbnWuXd1XK#d4INJZv~(V|N&
zM8K`ser>oQSeU@z!<Z!Sw*>M4&=#UJFVfVe3sp>QhPFP;o41qK5Jjw}!Ezp~bB7lg
zJYy9uFaS{z`Ch2$02<7N*-bW7+?s?@K3`2L_EBO8$7qx!A8r+hgIPqpMjX}O;}H&F
z6#{H3ss?>j4SL}gG|#|4@gL#nnxWp@rYTqHM$Lg2uJD>(%C0bANI;=C7H%wkyizGQ
zoLH^th7s$4D?g+SkghA3?fK=;*DC90eQTk*Iqybg{nCZyU&#B<$dzYiee0n;kEiCR
zau1f9<hqX4(2-Z6PC3-M?k#?FY3@>PVDaL@#aGow<?5rW-eYgAmP*g8_nn6dlsuZA
zo6ZGu1FQc1OX=mQ-~2-Mcg|c`_jq4<s$@^qm**Bo7Dkqjuf(35dJf>X=bNro&(KUS
ztmi%6nF|}P@->g|vskulc6_cmS0{U#-dJgOWW!UEJ^Dp3+Xd2cDcRHV#%^)9Zdxh3
zXVXi$fvGz8Q1(Rd;Da#u^Y$!D2EV91EPD>)(e1GQqT*Th^Byev#hyd5=g=Fc)!nR0
z2~hsP%)slC3IM+3FSG{6$A5t}mwV0S*Z+!1CAj7)d*up)Q(n0mWLLw6Kd=^#yxUh&
z>VRygiSmaZ@pF9c_N$sUxu)$^O}AXry;^*7W?;=3AU+63=KOl@(zbFz-g{~_e0tWe
zCP(ghcdkBnV>QsQY+rFc@k0jjyiE=a&J3;xN*?EXX9hPwvAn@v?1|)!P@3)gqCPty
zd#Yd5waK0~Y=pz=Vm*|<@(Vh5H0P9ynWbZLanth0E7I3LS(%bs&VF<D#kK2l?{&H5
zhU~jJbN)MLaJ{VJ@xc5*u7BC_vaD?un<INdc2&<h*KLkZFMM)g_F8se>A<(Ph|mII
zJc>7-{urSDpWs#bn1Xv<6;fM~JyXSxm|n9G`-KkxhW8-<c96*=VLSM2`%r+U11kMD
zQ)QC83s?nURBpf(GvxUG@VOc}34AtyFfwY8Cef$@&$Fv$`EMm)(o8L~Ax{B>B448j
z@Tx5UUIxg9l&1<{uT@_eswo&*Z1fNrCXnsddmstP!{|DI=3YqS`~aj~1VmTBcb!Vs
zhN?c)OS%P67{Hefrp*b<_wm&3>4*V+Asx{p*Mc0p6TZ_~P{3H_en=4tEu4q8g^5NU
z+BR%SPuv9B7IHWZP<sFptkQ?Dt1|UqIdw1XF~!4nV6_2w4#3wN6IeBIR21$yfVYH$
zbv|=Fg;X6s1mL=3;XfjPYyNaX@Z|p+;0hgJDHUO!7mnciQ79Crz$Ic2I99u}RIDPG
zjCc#+rf>|8$0$?i#07?zLKiNM<DwZCC!kO~>i3aojAbK@LN{)5U}z~$2&eF%lejpI
zi!-=5i;ExOg4|d3;MzG{^x>i(3Z=LJkZH65#xz<7V#1Fx=Md&J(4gL@I7RqM16S#V
zurPlyO0XdYgTiH8`~(*t;ex?M9<yP%CS1eCbtse~jMp?kEZo4&H=z(4q4+=qmPcRW
zT_Mg-=;&(<L|7oM#SVhLHm?HuB0y;aV<dPZSBC#DSTwkJY2nhV>Q1@3bJg4R1HdBn
zO42F&>;8K0-$Z@`7ld$)xVKC8cVU1O%=W6U?)l-RvvOI7?CMy#`JDZip6BE8vGc#J
zlaJk$T{qSDyo*4i%3QbXX~59vz=p@CBcNQZ>}kZ9pa}z`QUfvNc-hm8fl&*Q@h(7>
z0u(YZ5#S^E+ZGeSm;y{x4gkYnw^nsf14i#!@zrl0zZmFdE3g6FyIlXpPv;v~LeG!C
zIDcI}d0lS5J~Oo8D*eF$PrcmIEBpFp&ac`0fEsOKa$yY^r~a2{-Q{`Ynsa5#b4AMs
zzIC;~2HH30%W}CtS-$`L#J8?~0(nLvZp9gmvZ>K%R0-mX^j7WuoLri#dmSI8iuGPx
zQrzT!yFd~ks2dw600NG~ClnE<hN|mS628_ZxHCcmx*$R+@jECttu#%)aad^Ef4e9;
z0`9Z8J`H~o-n0lb9oj6WT%J$SCuq}8$N*IwcyxR2_GXZfB|2G3$TFQQCu9ZX^FJD%
z8{P~NvQqEeL&z|O>u3&bRuQsV@2w%^UJ7pCZ_nTUuYH(&Yo#n+O{05I*EIY&O&{Dm
ztTVO~vO_125b~%_9wTHYRZ{l2dcJzIi;%~49ZnFkTUYobAy4VOrwMrmhnsiayLpz7
z=V)EUUK%%OI;wp(L&rExpQlYqs&rmUmCmcF(w({{T`GNCU&aZQ?$%X1snTb3UCt7k
M=<>!w>LdjI7pFaR)Bpeg

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/lora_expand_op.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/lora_expand_op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7e71edd3e3e8032f0cd364c1b3705a0c3d638a16
GIT binary patch
literal 10691
zcmd@)TWlLwb~AhqIYUx>==~bKMO&sGdB}162rVgzY)O7d*))n%g3^p6%6xfdXj|@Z
z%VYzr)eTlsv5n+nu~CWz;=n03{i+KT=x+P53oHtdW&$x2FIGTZp!s8BFE(8iXwSXF
zA*ojswENdFb?4l3&pr2?d(Yf+?z#T8&1NOw2^)S8+UO>Te?t}RsVe}FDFZ>Q6C5#3
za3rS-lhY);^<iB^KdmQKoMGAkI78SNF-@B=&KNdFsA(!<nYQ4%DQu0<({zNHW^mmc
zwngmIc9P)r9K}003;gMBnF(Ufz**lm+$#(|UBNSpt(r)sH%IgIVtc8sK^$`c-gW@q
zegNKa0KVb?yz>CO>j1oafBc+_^OR}t))Bm65msjRqs@<nun=4aR|!-{cGD09SH)ND
z-%<<2T=o8KT+IRa+5_-)2jJ@uz&9L#Z#)3s#8-38d=1BPy15#z<!z&;{dDdBL;YLd
zHcr=B2(S!0*T&a!)$=4@_fh*j_)5_OUzB0-SrslX7mt_MRCw{kUfgu!lCF*5o7xG%
z2)t^i8($-qbT^2b`qzjXq_^|d9qZYk$a8Egdcr!iz(;%7F<%e+8sEcC!~4|)!0?`4
zNW^;BVStACThNARI@$9=NL+{pBMCuTSn6T@KDK+HZ{R7f&w4Qt4b28mu;Yoa6goD=
zM}tv`9gAJ|vy;4VJrteySr;TJE}rP^4GK3y*L^WzzBf1{_6|JN-{<Q;{>;;Z)-RAY
z6JAoW&&Hw>e^ZJCqrrJz089lJ3-CAN!6+BF$_r6G?A0lbz&tMn!Z9Hjm<hxsL2(!B
zv3LMj%!TGfpwmfV#Uu$KDHa7zwOmNxXQhC^&xb^b7Xq^hQHn(ZvA9BA4+;U$j#rG=
zgW&`}t1Fvc6Tofo_xNu}f;bP$v`$FH=EZW#0(Q|@Y%T&aaSwW<C#jRkRLdb8U_0IY
z$gq*$D~v`GQMXKfGY^?K2`pffA>P%klO!SQ{_mqM0hezx>Jm)YA7i{5-*P<7$p2P<
zgZz-3@ER0dOjOK#^m<5$MHM}mhoX<i;$FRg+@?T7p;+Sre?5TLThs%BW!XPW^h%L<
zZ#)z~CItoPb?jzh@VVnx2l?J`Xr?#5BrU|Ez1PFxNH4O!-dJ4hRqYF`NW?hJSYvTt
zd`YnfBt8-cQei0o(g+?H2mOgZg5p1juT#V$r+d9_t!}+(t!b0WI=!iLIWv<=KBTNG
z)@AF8ec8TxbJO!F)w$i={*DgeR*z?>hP=*X^nFg*w&}_=-T08Pubf*xw=%Ijv2lEJ
z>Qm;(cH6Oc&LZ6E%?Awob>2)cRo{Z}zr-dG>@9!Qkc0e1t>LVP_(kI&!2j$yKE&w%
zh0z17n9q(~7&;#q*MJEPIIoySzB4irIImd!!^45miHomHO)8cl|KwC)>a~j_ie++a
zbZ8_n@yfVDPx{A40+UmhM~6og$19T>92mRcAD(RlDYOSkgx2Tr1F(Mh_6pw-LG1VK
z$p*Pn`%03HhtTR}Pm#8%jJB{LYXYD*M}DL$e!<Ohv)ptG_Jt&iA&^UM#Pya#xaiBc
zv>rlhD5GsFqec7Cu1B`WZMOhdl(1cH=Zse&{1C{c@)_H&uX$JB4w;obw_p!TcFLV{
z$JHw;7r9>0$%bh4A(FV|)*X^`$t`jv;wE=#oFt1TzU+}Z<j!00O%~Uo`w;%rE@{28
zN%o=<fe)0)BW3+@h^&pJzB#hA=5jY)v!i7__M4w0^3fd{^+-02C+OBLx5|V}$~w7A
zHp<;{k8G7`nUQU>U3SP7vQu_}mX&gqTrbzj)pD&|BRAY@P&tsq65%yX2xwae4`m46
z42fSL`~Cu9zW8r=yk-G81H~}Qg|4GLD>g3#BY_a77{ak2r|2W0sA38V!6^7kWVqgA
ziX{|{CnW3{DeNVYk2J>$C~{mOClvC$!b-8Ld^8Y>a-msX42Us7;<>=glImGQoT#{?
ziAVrbiGetHOvFs_V3ulM5w=O>iDwmcAk@hrhJjz8)Z|db;rak4gg9Q&5dFIm0~*2-
z76U+!<i=os2^_#+1!#kGEHN!&id=04ngtME5`;>a9H9yo)u^aJ1&XGHI#kr70xgSx
z_8!GDD+L450O+rR5e%B*AubS!Dn|TPUr~ip6^13zCgG-H#*+jn8UvAl7`nwP4B`qA
z$K0F<9?3MD5QM;lHb9t<7UmX~S6dS_zlsNS!+b>kn%1UJDw{w=(St>Z$3SdwVc-4{
z+(=Qk%6LbJC5%A}I-`ky4aS%vo(z)&xGD3Rd4t>-%vQ9eMjuwVcGMr)94l`uzp+Vv
zVrxykm}6Y4uVt8~)JV?eUR}!A*v-)lb1XIT$l+W`E+;ozK5?|CUVgZv_Q+nbGQT{(
zy0BT3sq$v+M^Z24%=XpRx02hG{gKPF-nG`1t~>TIm8m<Pbv>6lzwNHs7+gD(8q1m8
ztAF;u+zNDGS_ya4@}-{+d@%U_;N4UAk7te!W!r{9Br|jS#+!e>(fPp40^Ji6;q<J&
zwDJ1glbJ?P>3C`sPz_D*4c-|{w+-I!&a|D))(@o(HQQ8o`skSqb>`<i8EPW0CycdE
ztVD%tWodb7!@2QN*3rJXlyUTdI#y<-Yq=}!>bzT%arI}d1F4}$22YN%<tRsvs>o4J
zTmo#*Q5IaKb5!*<RShKufB^lrshS)GBLk)Sb7MU8f>syM|89tEHJTp75)q0Ce_o<u
z#}+aZxWR|!7bH>9%wOW8@M$Y9^@~-_F&K|SWG?uiztD?{K2-E0b`{Z>Y7%qd;Cx^<
zo=}*Aq2VuDu?9H~Y!E&^Q85X;ln|n`D4x<D769z7e*&B7_dC`JnOZEmY>fyu`~t|4
z$W4j5bHrODP@<l@9*q)QnNB7a_i@fraob*`c6EkoS?fLyp{$kJ+jmZXU6YL*Cf<Nq
zO42g@$ChDEcO4w{JAG&l3<T)t*eeOA*POfL)LLay!<EgUZV`RgyB=*03-i4H2t{s5
zM%I6`3^G$T;$gIgZ{}6T$^6ZfvhkbS%Q%_7nNmJvB#uNbzr;^M&I3Q->MgKB$dBxL
z?iFnJ3fN%Mmb51w$%>>i=}Nkj9vSj($k!|)ue0mn45%epDO;0Ohsl+!=8Vaj{VX6^
zD<Kz#AI=1U27|+nTG{%M`Cj2TnXHrRI0}yj!3bx;Py;|#3^f8oW2gxr21CsN*)YUH
z5QBqUPLJj#*&@3IJxJ3U?J8<l9<~=`(Jb#TI;7?Tin!e|M{@SJDH*;gtzEO^B!p9k
zd|&%~r${29zbMBad5^%~r;c;L%(rMdEVgP;=?!yUuLZJ)P<kK;L@^#bI5@7AtLOB|
zHmO6!fu(e6Q0dK8a89ik=ftbfE_t<f&Ly`CI?fq|T(3s;45TZhqZ)<WhE@{7RXc>M
zs(lzBXf?@Z2v><k6hZ8IO1sVh?ZrLgfOfaGu7zM&cgQIFx0gn7K^Wa2H$vcD1%Y&}
z49AVRM!5-&VJzqQvHpi7<fwJ%pEd&!VnbG}pAg9#I+Az|<^y30IkC!M98M-y6f^mS
zdGQ2>P)+r3Y_}8>W*2;r)B+FcJ)xpm)u9$?ce-7+I}F*S*ULM;0X-2>*9@!r=3>`E
zfT}XwGn(4Ed$_%Bd{0Mzp${8T{XEMDXBRZ#QOsWy0O=~lSZRUB5*`b2tiXqZa1Kz>
zK}kI%_*g%SGbL<njy={7yx`0LWFmA8N;}x$)E^h)#b}qr!ua8(U95`KswTxychB)-
zk6xE!H+rX#{Ob5H`kWAp6!~FgKodXc4F`>z?7R?5#6gvrB{d;AIxPB%)cYK5_6)cW
z&Fi5z*bq{iXQ6e57m5tg@Gv`AD|KGjpui*LXLuIQZE(gy+1HXVc*@}<Cj!qR7i>-H
z%oI;hd*t%7vx!Io)+uzIXT?MW#w{{HV(cTgPaSO+=hyqNHo@?X;F8Gpu_CgCT?@LO
zL?Cew8w|&y^X!d~w6NcR<w_x$;NTaPLUSQ(Gd!5td?<z%Qk^jERI|@1bgx9%#IRWE
z<gwyHED`3kNiMCiMzd!EF$d_3R;REurCz%O;61(l?9jzmv~LWS9G&gh{vIr7>C@P;
zA|Wu01s==+nM5$U1o~e~@S;>O6jX!kG&a+cAmwp4+Z~EZJ!~v4!L$X#u%%qUr$`oC
z2|E`P*d4n`i3^(iVSX+M`FX5wU#Y1S%Cp@wu~>Kq|5q1yBr=*JphMz=ZV>isimUs^
z4lQ@=SiT*jz8DOPygIVLf|pT~9s=^BFDfSW_~|u6mLeXImg2l(i3D%rbBL%IXM)n~
zf<iBZIIto0ByE6%$5q9O3>}}oMPUj!Ddri-MO=j=aRG>Gz*WV9Xm13CxTsJFgfq2R
zU?9O=gE(7$NI?O_Q}FlrG8BJBs#$-Tcmr~gNm3^FJJ3LOzQAEwhg>>@kZ>&FbjVG=
zOQH<?JFJ0N(xV);*MR5Xix+@9PX3^~50jc5@#+<wuTL?lu0pZ!VP4H16q3{__1tbb
zInPI7+Jw`$n#+&yzLPKmFxRJjMS`zk6r3LT8fTpIgs#c@+0do?Rky!`&g>igSzF_#
zC1dm6y_{isKkomOdHNTp|5HSB@V)jfa!RTH&e+&EBxW!B1H+?}{<C8!S$p9!DlaNz
zzfuEP+^Gu_dm9B5E<w^gi1eI6#VkTpD@IrWKCBo*kRDfz9A0rF_L+)#4)R)3|Fa4;
zqd_X_sR6}+vnYC$DY1n_bkie+<`c1mD8PinNtolWL+VK}iVHzVSD{m(!l3zsokukr
zeJ~srAU-FAHdNSgFUa$2xp|!V5as~w?Gz>u$putgM8zdk>~mrkkc|kFs6aL-ET96#
zT#Bna6Q(+O#ew%E$Vb7=06v#jVT8K&IO(-NzW)IF0S)gi`#eMqNsDl)r6tvj<NiMh
zOb95<!-+4&f)Hp~Cvgr;u|i@#fK&97icP(3E8M2-N}eeeMER=!^2JGoLg3Jpf3nbh
z%Ky^HB+jlWj)bTU4kil8O2a(l{}d+|5`!~g)D#m?85cqzlZYZ-v{@bcyr6ypOu5|)
zKZM@zA~rvPa~NE#<S&v0)38OiWaySG-L`q{0o|Q8bf@X=oVj|-+>kLhd}3~bRM0l<
zTsgUX^2a0Zjo%sn=$W6L{_ylaKJ!nf{^3-*el$amrVXQMdh~M_d)t(ARIbR&@=uK)
z*xt8&l=#_qKm2aG`Sb(F=`?jZ?Klm&A$LpOL@=(E=a-*fz4n9CKc3ud$~N{rp!?E>
zzBJvJqieS4&J5l8i6#q>TO2F&GQH~mfj#BV(T!VlYld#!?9b92cbyODBWc5tG<{@e
zL)tsK<(<fQCw_G;>%H`VzLYjxO4FBew0q^$@~I7Hmab1X4{S9LW|{}@liB7I59kwV
z!-+I~B1boG(d`+!ee+V5?z(&YXQw_qb>Epi`uzQ1=IEIR^qI8bOqxFPq>8ZAY}oHI
zAJ6@L<nJO`YWPdH#c0Y=bvRSil%v#NeU5_ElnrT7y?QM})oxME8LD|xm!aA~8)rRS
zXI0d!+tzFw!E6Pa8qHNyLh=w&Z-1I~wx`ZP&aJW=C~~g)oZXT0)aGpVoVyWzPaIUG
zDK(yV5srq9(Tu$lvVr#cy--Et#??&45#S7T(-}v1>gAlXX+zF9ds64NZT8jb<<~d-
z8CzrO#m~&HTwU|BW7`AMoAGpPc?L3`fvo50+m?rQjgJf4;$uB*k5H+%-ge|Eg0g>K
zepCKYVm-N*d|+<B+jO7Icu#D3U&wf0cu3h+Y|A$Ef_u8WQ9nYOz9jTVOwg~g_O|5-
zQ(WBD8(FIPr=1@hegEiP{^M7(t*0{7DahpkrNx!EnHf`R_(=s(TmPQrjwRiC=I8Eg
z&B(9ZnVPY*q4J@nI$bmHS##eV{m0zz^rZFVBdUI5I778SqBY0V=a||YW6Lp4T=wLc
z<{ZQ37*CFA0)mzC<?)S{EYol>+?r$5U+osdW*BzUnPu95>y8>Qb!$HuwJOI{;<6ef
z$Uom=vF1+_)oiY^F<0I4*iQoD_eKyke~u)K^zYA;MfeXQx<L6g>3?oqum4xQahx&l
z$RI+ann6S!XdSLd1VsNK;idnVTe3()|FT_0-9DV<+ect72pirS&^-%YTto>I*h1<+
za$y|cLK?pirWkOTg8#n&idW_m(OHFwBqVeo3c$Uws8|rYKqwN2|E_=?{EOaZ#T*E5
zvDrXCbvxF=e|3P1WdUW5gllM=4s^NfLoUGwH_E=!<+87^A19<xSi~1SO4EU~DiQLD
zsuOf#$^tXB5ow4$p;Cn#G1iA&a6qL%w{(gg9235^R`iP@39c$)QTV?T5O!cssn|o&
zIf!bbaNiS&!Of0oN_A=mbO=`T5V9%;6j<Wj8BedG2fY*n8dLa7G=kkPfnYNUi60S!
zm>{eo!O)zmt3;gy#)&Y0TDS{16k&<zXrI@UB>APuNE#m73DWu-qT_Rd`FG;%Z;1=P
zCAxn@oP;e&SCQ8-q;F#~Pr&Q0`>yn1-B$>Ftk>G|O@xm6e%+gOd0mtwP5C1PTtZw~
zzLGzRt36uv7_R!XYA>$#5pd}-wmg>a$JGIJN5ZTz`KNI8X>>;b-Xi}Du0E?(2XXZ{
z0T&t#YYqA5aP>4%RkMC&?aEhYP!-9?6eOAfxGGh-MOJ3W$}Cx(uOe#ea@7rAR$tMP
zG<@?|0zIm1dulc+-)p$jknwcpjR*si;Hh0dxpp#d##M@_ZF-Nn!{jZvY9+dQJ_x@b
z&eOQc5OvL{d)|htcA}nrujfur-hrzXgu}BEUJmD-xauOR8`i^X;k+AHJ%qa|Ux~pg
z!daQe(&cLill7}wgheXV<aL<fvQbmPR;B^KI~4##nf$0$5+Bt{(xX~QcvLINj%p>*
zQLQ97s;Pn_NR=BwNbJY82x6^d^Jj*}Tm}3Za#bDa%Fdjt?ROTV(F7y9Yu3GM-gV!a
zZ_Cw_arL};{_AaX<yQnrHs@STZ=FX*+WZI61xEWz%dwXRiC+$yUncdxB1kCz2jAlH
A=l}o!

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/lora_kernel_metadata.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/lora_kernel_metadata.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ee55d26ce740d7953094b26dfd7cc63dd0b21f3
GIT binary patch
literal 5305
zcmcgwT}&I<6`p@zn*kECqzOM^2!X_4aDGU(g(#aSO7gG;?GN1tHqvPD48brSJ2T@H
zyhhDKDiO8PDlcVuf=DZcD3L;>s!63vjrtU+FP??U)~F9@w=a2f7FLz|(w=+A9t;>Z
zsj80Tnfr6@ch3De-#OQRuB{DG@aWvH;%$u-^)0THAHGyrAArI<rBb7mN~?@cCzw%&
z#${G#M_G+wsB4tU-Jw+e5#x<{R2n+U&9Gr1(--<_@{>!_lx7;5Zb=EvR#e4Sq?D<p
z6jQO|NkdB8aXoIwHLEZ58jlXsZV(H_bj7lUV<kZHAtpm<{ZBMDOru6=Fpl{drLmK!
zQqU`Fyh@*k;;y~Sp1tgzz1*I?{GPo6=@ry~7ElrVf?(mkD)t960g6&XDm9MOnme4o
zxFJ=%Lygv`boH6Rh}v;Zt-HgGifTRJhqT)2lK<b<ap5pb5-i&XmetMFhWER5_<Vdw
zj>ixj4!6NhPHBd$Crw38D5+H3xZz4(Tij6NG0l>#q-kraJT~J=#Z}9#S7LVjmbTe&
zz(^-#GR%@wnn^m`_Xw&7X4#5qLvzgCXC%FG<GOM~j-}FWFriG7Cd;kE#Z4?%P_<iN
zge#buoi>daTd`^Q0OI;O1->v(*>FU?XR_oQ<vRXmY1^+(a(>Y-WSPhGqZ0Zo`#;3u
zegKP7nG9I*4%YD%h=M->zmR=*MBxV!*>|)tP=Q#5C{*r7<$jcD#-9T?Az!f{$gVAS
zW!Ws3<+DOIkVTJ$N2U3HN`(W%VaDZEdj^hQ9Z0{%$Kf?T30GYfPFYwmv9JjaPMO#w
zGl*YUwOIqNaKPp5q#2uVc`cE$XIwsR*k?|=d`2^qmMhqr0gm8uW67j$V!{pwO%V^q
zrV)*M<6BsrRDS+7615YlXeyrS1;@Cd*}c>0_kZ%^srR+09v_RQX6%Wi5xu4Bi70lW
zXfkC*Z8L5s4H*}SV|gSmmpQ&KHREy#WlGB&*y`hbxUmhiTRC{$rZy0Dq+{{(h0hCO
z)7PC3dhYkEjBl{akx&jbL0{z5lfj3BTl*r=cVeTCYL*sz7J8QAEA96ae>nTc!QT(Q
zytUT!*<AgGK(!rPoLZPFh>c&-cZa@ie9(NqdF3;}ZG*ARFjneZ{9@sYo&6H@w}9T3
z_QmrH=a(Co1HVl_%RJ4z>|AU9D2ERHqrSD!cB;@jRA}ibNM{P|XA7;p8?}Lbp&}Is
zhSp(DRLu8%s9-N9yzo~j%u`uv629A?$&#;EwyX4`5)O?=Rbh#$qnItDs(9pEjH==z
zRY$R#x@M>_H~jkF@R;P3hk0_WU4A^S>+<%~O}m_>>Ejljpky|~+ZAL}vot%?xb3)j
z&DTK0`UGCLsR9!7sKr4od34l4N0&~op)S%UIY`Q*E(dij-CRRq($?;v_B=Z7pySK*
z8tNu(tqy9<qYejkEM55v>NZ;eb~ska(s<R#o_zzYWX~#h6gu%!4#zZQ`@2_dm$I}<
zPn`hy62>f(Wne$6?2Jkhk}PA=Gi;Wg#4ft+QT^SWWdWlaQ?XgLiJJ5oY7+qL;2!&#
z+7_!ZLv4GAv{26LuERRaa<e?>tdgjxyX)k4)!DF3AylzWkPnn2AJHnz20-h3JEcLZ
zu=g76vJS#ln*jY_RrJ7rg&x?7UU4=K?bMPDsLW$jUgcQ?wlwXOQiEzRi}tn#N5oy`
zi?&(>nRzJlO{mQMACX*KD<$chIl32NENMJxO7?^%#nPs!88)u}TrpKC1?hQT$cMRP
z-mnJz8V28)%1I|kNb4IR!7Dr<c?Bt!G;AeqK(Z&{P$HF5y)9@M5u2hZu?Y}JrEO0^
zpD$(NphC!JcmysHq5;uq3{t!)z=gU1Ip3JBL0A^N6w<BrvN$=GOdGZZBCHxunD|_V
z>&&AV3~ol0%PP7~Vlr@69KtVlT$hg}Q!_HOKsHK(xGSWM_|3Go8O&WFmQGmd1PSU8
zp4%}Z85}6(oNlNhx1?nc2a#wBY3(LwZVlERUDkVdC`~TyQ|8Dv-rUwd1lp|(P|$6v
z*gyqqzpS}i^Xpm&lm`yYhwp`REqyCTotFO9hO={lLPz%;mq(Z<zfyoy|5nrRN^E%5
zcs$=2aT+7bAFnn>=R!pRVDhNVL2XMlOHDZx$)nQ_I$aQtERPgfDtKmtVuGQK5Eboz
zGWl>4+LvsIz|oL{dgka{O-~UKgkA^rE>A6Ia%dorE;{I9L5w`_#|W3`GDNuViTF??
z5YPJoBn%*(b12u)Suz6$gj{R%tLeqrg;}t$Et*3o^XQy|&aF(pRCDOu8v4`^6S?*a
zxsG%BjzOnm@cE_Hjte>TK^|Rk(3OJNwya{^SAE@(Dr6V3xyT1EK3;3P2I+wxS(e(D
zlw9|PeD`Ii`|^uRtKC<fuB$n8EsusAG*l3!Wg9~c)8FHjAc4jWd42&qZ&i;uzk!|F
zEl*JCEZu~&fy!tF^7!%ls$>c<qDs7h)+&)6TC2pBaRIVgM)@6_Am8IgCgQ*kX#;Lw
zaFO@C$s%OoC4-w}Vrn<jaZ^*bvxyH?$tsdIt;OJP0l-X-SHSg2BfvvD^nrU~As?!o
zfr3FLrDHP{C=p-}DQT*j8IcrAQY1T_(zS?WC8fA6#S}vt+r&y6DJ3=qcB^20%+_Zl
zHEm*^!i-29)tZ3%l$Qc)(<#M(IhI!>2By6QMdG6%oq+rv7;!kA7}HEV?+T8yu*p?8
z*q<^cNBm$;-nM4G%<z^g$L4K=Tt3K^gYhV;AI_46&zDrn%z}7DWw;kunM2!1#_#zB
z9^~a`#cry0e_rfx#Ezv8mqv5q$%42qFP?J5Q!70y13B>msULI1W2DgOh@GS$Iif@g
z?T*-9^iyi$HsN{~$+Dp&G+A~-vYbe&X&skES-zQ8bg#!FY{3gFZoMokhLN<%|4bH^
zg%DuJV_@_|QgvBaadJ~~S<5!f7MOv@`e&d7w=aAw%yUqFND&hV?~=O~dEwiZ^>=vv
zl6rNhbx~XpSGi+_uAT?_eSMWXU1)5YzkcufD%V~(d}Og@p=FipEHt$(MiwHgTvzcR
z^`n+~{T@gjeZ}uDGM#*=aNuB(#orS>-uLXlv+GZ<zqst2y+#^d1rLA6gTOjV2@Pb(
zcf&Nt_Y}pGd}yWfS>$P?NI~&M|2qB@Rk|6_np%r2d|w6Y3aIu=@vit5pJELkJottU
zgoF(q#(L8yw@ls*$g-M@!D`m{|I%rei8Elb`rZOv#8sSEd%+5w_x9_8c^TSp9&Gi&
ptH{zc{YGGD?t4VhN57>+AakbXpUe<L!*vS3VXjQg8`41V{sW3VR-pg@

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/lora_shrink_op.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/lora_shrink_op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..51c01fd0fa01b85438156a68b9d441347a043a3e
GIT binary patch
literal 8865
zcmd@(TWlLwb~AjF!#63B7WEievLwnhWy?wAD2~0dEjx;2`5~v<C{CudW+aWomuH5y
z<sELBV1ZUhQCUC%(ZB-H0tMEF4LG0vXo2>pTcG{mm<GhoX0bw>e&mlEXMtir+Maud
zL((#3WBc0yHFM6n=bn4ceVlvF(Z9G{4g#K}=}Z1_A3^*FLi8t8177@{ks!7RmY644
zk~JjBc@lpO^9J}Dlg5;3-bA7{Q_`HW%v(~{c`L@vNn6T3Z%;Yq9T>MHsg!fx39yy5
zC0!}^yqhFA$4a+8WaG=)Ir|FTz;%dq>_eyap*#1XyY`{G_n~|Cp?h1?7rm_SXQoFr
zwdZ{Xf-|i2>sB<rItS~A_JIanhu8oYY~6AISlE5q*tXVv*!F$sp?&D#edq`Fp?B;<
zk8o{lCu>-2XS<qarTzbn)!jcc&4=s+>;fm-!?m-)C6Wt0rXQKKb%s-5SUIY%dE>h>
z+JJRv<t-g*eCIpX41EL_=_dp;$ZDVO_?TET+$QcAKPGOI(cZiF9cL0E$I_YfxZ~_H
zmyXdh@fiIv7o+Fl`{NwI@SR`IWn%O>fX;Gvp$+j2(9;4hE~gWzoFFZ)#psDRJv4fB
z^msJxxSUJ#3yE?1VlFB1N3L<{L|UR}GFK<)IZn96r<dZ6Wl744<0B&p;SPT*o)MNt
z5;w$=(c{OC#*dwN`>ip@cgTv_D5-kc3?nWJe0r5x<%Besj2cuAv&2bEG9x6I1e28n
zHBiShS!N-VUgVcV;4?@`)glSJlu3i611v9a3lbx6OS~v?0<(}4rA&&+WWOU}FyL^C
zxokEgNFtMEldAR1%%!u_%talT)q!c%GWjQyv&^(=ox40UbqxULg{zl7y3EW?%}+uH
z``pab*-2*hql>ENqq#|D?%LI<bCb->rHOM3k;d{6T>yg<C0_iy0l88Msezvr!1q3~
zNe(`$(esfv@EYYnowu`zx3;mGWwYdC!=u{B`7XIj4&Aj7M7|qCFkZe#4$G0dW`Jn9
zN2c#0TCdzIhcWG-WYwj~o$|rEaB;}t`q+K)LEHx<%6&-gU0}}lH_?!^LvPT~*regW
z8+c7kyn{`=HeJicSGLQ8NT0g(L-G)7UL7I`fm~}|jaGfFd-_J@emQ_=WLO@SqpR0z
zQW~=pkfZW2nxFdY9Daj-wmoCSWQ!a_8iO2o=Z`e?#}{_PHUzO`V;9JW@v6p~dbG0Y
zh#Y@uMn)u;E>k`vcgq9vkW9#=Y=GTpmJiD#G9^1@m+Y23vRC%We%T=h<e=Opx62{<
zfZXw@w%<u&jfh%i1+;<Tq?r<Tcu}we@*Sdl_doDNtpaQiLNzV0{4Ldy6*5agBE|5m
zYE1EI)s)O6Sk;mc66qyQK*uI}RJHTzY)-;Hz=r(+@&?vSjYM8l$yt@0R%t1-%B2}T
z&GHMJ$cS*pIhMJxruh(_71cmGmtrs%9DeW(NSGSLBDKDvln{{5Sx~isP$#RnkVt|*
zQ$3m*>`_Jpcf)dZ!ZDrT#-bVwHGFUTsLt;N8<1s<9(78+Po1Lo5-6Az!HHgI*#tLw
zdC<#?UOx2l!%MX<NC_s*fXy11!k{C|vy8aP0H#_rShb=rB6!gRA%sseOF|}>Rc-i#
z)`wc;1rb&Ov8qmuEb@0bz|0yEf6}T=Ou_=7F8U<iQLT7pkQ5B07}QgBA`QVeFD{Cl
zq$`=^(zP{#ZK1CvS{F5l*l~Z6yQ#OSHmy6TVT7F|qMMZdBcDIaj!3EONS4nYfq~$f
zIdUgA_U?(*F>WNu-x$fRNz0k^$gN~DHG+m8$z;V5?Z$z7MZ`4y`pRVE*)=s#Q?vO>
z6DC2k0Q`yn2#&Zw{O}`^@CCN4o7N&(94mYK3RB;B{V(C)LVMR{*Y?D7-$3ERiYrtc
zR9wA<^SkbF@q*&+D_p3A`nGu`G*U7JE1vdJ$FSlVE__h&cNDKH{%B$Pn?U=$we9zm
zQ2c9WIq-gArfMNv(7815j?($g)0h%DuQ)FhCM&LBDFng?AIvDu6NSldJ-&_ndVah2
zxu?JI!8b2q-@3gUOY2Mbmbb%7d$jBx1~shidk4SB@7mno`h#18n}el}BVXH;juU17
zyM^i9K)5)zdAcxDu?Ft_<eBv#@cm#Re8GDcil00<sdRz$Ckj(Q>g@h%?EYA(Z|v!i
z(s!mDIa@M?cWpzZ!>1M7>3@hRw%MwYFdz8AMtJ=jYwK%8U-3fO)4#o@c#eXa4(G<;
z`e4aF@F1-CkCh#xg|pwn#MoRFo4aE3R&1V%&8GwQiVc2%QoFWL#TMGNwO8<O*A}kS
ze!yS<fdteYn16qoHd|i6N)oCC`vg(dPI`j5&GAdilBl|BCtKpu;D=Pd=3cbDpU7sx
zod^e^ztD$XC^ZlcA#vVxM%y`y$;1+~kj)7Lh-?u!DJP^Cn%#drtoT>Bw6_S^wo(r)
zpiAwkXBZ^9@I=Fh#1|xRBEP!l(K+E#G|0qCix5JFd=KRvt=gKTw``Y?&&SV7iwmi#
zwb{a2k43{RU32mr@hP0|yhC=h(xOSu|7jF~{HvpAhD-#^K>bRrsR19B)PsonT(sgc
z>0B?(3i8l<9(~Sh>ta}WGf!*1jQWUqN;bCCyv`w0O<KK)*YtW>O_Hpy=akK_Z*P)h
zc|E86hLKnjg*Hv{3@hkH-1F!&PZARH$oPSPhgb>fSmUb)a@XNZ<ehm}-ktZ<*T22N
zr$elnHFOZyQON7f`y_N^@FUlEPu~9~EAj!Uo<gt|2(~B)yS%dhvGq~yB;|v0khLM<
z`8I&;7-|Q|fuRsU6o$e8IWcqqAQy%@0CHm}A_rHHC)x9`9@eYdo$rLPLs}w$!b{eO
zW;fr(`XGG>OFeqm6<UWHU(mZvmxIFQH*kC9_GWGfGy{vqe2;{@B!1)`q%{PmP6$pZ
z9E_q6)goIV%qLcm58d;yjh)}Ry}l~70N3yaDXrTZQd+nB^%GhPn!6y~>ID0`7b6fr
zN8}DR@N?r|lMp}~qQS)9!&Y;k7-m9P62~!wFzv3Phop?KupEb!8?Kh<I6Z};V_Lgu
z>b&@>sozKRP!h7?PntV^3O#YUUc0jDJzu)HUKvbl-8<T=*V`){Cu)7@ly?8oTw-Ba
zGf4~F>k1%Kr3@`Cb2PHz2+z_2mrOt~uaOgAEQ<8w^aOn?k<4*)W|2N}3}ivz4{RcI
zO-L_^!-ldMPD~F<G>o5I+as#Ztyxl!J738mUa{+H=Jv=nq>eT|jJ_yjQgwOQ7_ejl
z?1qr>4vhn6Fy+RYHvLoQ#CV;%MSk+ifGv1F;XkE$WHv`b>kUq*3q-@i>|m?3d7%>m
zhm60$(U5#WqJ&CA4Q23@L+mbs%(@i3nY5XyXGpK;H9;@rQaM;B{uW1zxfG0B7l71g
zp?6#xZI9$nj$&&P$=iuFkv>X`XfNzp&{i6O#xXjP%%qp-+q|^gYQScrkWP@rr6qom
z$9sl@ZMMW`&_Zexrl%M!Qpr~}!dnchrA;0!E@yH{R-fd?8tXi-Odys3ozd#lmZs5b
zZ(#UJ?+N<s<&X3;21||-Ec#dsE7~|3FRcg<8)KP+?SQsKBE1Io-^_8MRNE*BgJK%q
zrVT}E*)Tn{2&uXRPGn9?kLkt40{9n=5hwjx9Y8==<ahrKslRH`N_<hXYELEZ;6PVY
z%{LO#!m>&&^DHcemKT~J{a;lbXvg4O5|Z#6kd#Bxssm{qScUvNo8%>CRkb7j+X*2n
z*1AfGB~DarhzyydD2yRZP-J*sXoGjuD0~bb;S=<lM}&ZC24*g)ns|wWw3e0DvYcwh
zZd0{lgO9zV+HUBO31_h`UPR?ciC@ZPa$wM1PRK9<il9{s%iV%pST&2w36Nxj+*W{V
zkWh_~WD2NiB%uGa;M5SN2bUG1v~U5@K0vQ2^!gCJTBHlYG-}W?1kH;J=r&e8c#A=i
zgsG(;8bK2;LbajBQ70VROBfYsB)S(#b3lcY!L`mg)qZi}Poctjbz)9+X@%NaA$D(3
z0!6Z_9rgV2#MR4lH6hm~E=<m;Hbg#qZDLL<SfKia>dA>*tttZh0!l!pB`C3oG_;{}
z`npFrhXgpAGj8DykUob$@kfyA6o~2vB;oAbp?Vdnw@meI-+V?5l}tk=YN%oj?N~b%
zYv*%oH)N%|lyBqY`pM#{2fa!pwi6juBBRf!(UNJjM2%Lo#-C4qb@Bei$8SG5_3%_F
zGOkeLCDV9`8vnJQ{!2^6)3zb6%YSSBrRx{2$GImzefZN-&#7mgQzhG}lIIj;uYq1j
z!JYn%_txLLck|0r#m^p0C|&WLuH#DA@vqO6yT+bTV<ppAi5i3PcBmeO>UmD}mQ1}R
zs<%Rgcc=k{8hEbj53=l@4QidbH}R#rFj1kpcBq32b#VJwnL6~q_lz1YnTAW$@XHOQ
z=+sVhR*BC3^UZSf$}{Rp$#kVeU8zukjrZ5zFZ#+<q|`II(=(>@j6EgGJ>$=GBP&$T
z4%M$v{o7Z{)Zl{?Pu_p{{!?H1@Ow`a%Hh+`sM96W=@NB%*W}wVg%nfhx#<9;_4aVl
z{lN0X_0Uzez4JTB;HSs}b1$>~=TALoGCGQ|Ft9vW@zL$$C2H{VbA^e*&2OMY@LAc{
z548_(c+0ivDkjQa8dnP1hEN{wk5t^AO0ccsa#sRfKe()ImcqrVm+*8Jrxf=96eiq}
z*FoN{;;P~uE=*N?-9=gP#b6}pJFj?#po$WpcLM!Npnv<budkE?V^F_vx$g}^<;CBp
zxcVQEiYr<;UulmNE>)d`-TOBKTZcCf7Zcl|vOlWWqL0r%nSMC^lzci?j-6F(XDc>;
z)kfI;RhQLiDV+PkPng3+lVa+^)d?s;wBd?`R+j+tA{ASwUaW9$xYk|w5@l4EXogYY
z0{_}}Y@Ld&vv{R!>j6ox!S)n1pgiJ-nnv~AUbCe-P6RqDz5_6qFHR%;JV}@-;XItA
zmue4yYyZ+fPHqboeaYE}MAY%eJ1!9={EgGCon>G1S!Na!;AwsWY<4Jch{$Kcfe!0>
z)e4HWo5ciW;Vc9Hui`MUm`g9H&Qwl9Q6U4BJyEqIaSWfzCZnCIm0{S-0>h|=j41pW
zNLCM_B3~T&&p1@};*BC-yyot55}y=tVOs6pmsev#lcRZiALgtH(;874hc5uN9XDcX
z9N#pI#(^#>)vUp2mQ>>kkBX$3H2h!dPFBz^4L6@&geyD^1=mytYSI=hEr3Eg1pKNQ
z-&EKg;we;(V3le@BMLH->7I~4ts6Osn-qkMAfV(KueY`mwv!+<m*h?fo6vv?OyVU-
zY^z3+B!6cylcpDLf^__vaQ-K8=C{P9-x5Q=Ax{2==-DN$f6?)IN7b-Gl9uWa0TsjR
z>({GMj1KGQVT{If^aw`dgv+xrvp!QD!RS%F^%zD+i9p*{Y%^9pj?uSJ9T5C&^=*uf
z6Yb%x>zmiVe-EKAjD*2iQ(+$9_CnhZ*`|<fWinJXoHLMA#p%OC84<D@3>VwJ>b&2n
z1P7{SL;>FvJg{|g^JLYEQ5$if`zz;tXVs2T2Qe7?W%3uvDuq!e(b0ptS6vu&6A}8W
z*!@`5gHiBF!Hwj4vg*UAp9pnsB{!4R07ip^J5X)IU^`)Pd>=v}(m$*zTAejHo74sP
zWo?1bq%6W3x+1KhD#99?BCMe(!Ww!atf3~tG%XQ?lzb6FP`88Z`8RN3UifuZ+7Ff5
z1}gr(-`maLJ)A@!ycOMyZpAm_JN}sBk9|J<U%S?}?+KFZsrb9Um_{3^=MN(Kcf~*T
U9l78me&w@Xh!}s>LBjig0a}l3umAu6

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/__pycache__/utils.cpython-312.pyc b/lora/ops/triton_ops/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6fe6ee2bc06427e8c790815675629685ca1ef068
GIT binary patch
literal 13075
zcmd^Fdu$s=df(-9$z8rgJt<0}UbZRgVcBuwIF4hTW&0f4@<XyO(IurR?n<J>hrGLV
zY~2b`?t(^kgC29u)$-Zb=+HkZ!znI@9#9`}Kpk9wbI}4vnrg}JDTRu2f%=c4Ol065
z=pX&QT`on-^b@@UijKsY*_m&?`F3{Zo8Nr%{e#VBB_Ko$e-eJaiy(f54_c@xWL7`a
z5yU0pB*79a86k$%lpH4ESr;Lqx?vrOW%`IdY8W;sc|*h)H4U4TJQ*<$o1xwqp`w;y
zi&AEaSflhXt>n!SCTbhDk%W%mXwH6}RQnxvgo$A%=i(|jH%pD`>Yy0%=7~+3fNQB%
zU!baDExVu++E+hgdn>kQX|85e$1?94hHF_HSI62x5(oU8@S}lq9i-&6nIP1D3wbN+
zf)*aOf~yB<cdSXN<?u~dH`MLaO4ia*16v8L8`-KywyuVrAI8DN)&Pelj+ij4@zrw5
zd(?6@s;u}H1*uJJ-MfbC1+rmZ`PLS~La<E=4-ZJ7jYmD?aZJ|udf`bKnR4SaTERBF
zYb^HF%;{L)!``OIr3OZ(v7}YYdD7o}7v&xBld>hkCjy~hXq<xw!?B<^4ynE`b{-$O
z*jWKmIvfj&fk=F8jN{?a8A|Xx7ZU?hk)Svl=cC=SGjRCmiM~Kz;MmZKK>xwLLt4pK
z)=Eq~Cnoq<NE=X0jquaMZxyHJB|<FBV1f`~<*0!rS>1J{fxzk$#311}49Lb%oafH%
zAM)#D^B5-vMUj_{Vw?|+Un5qL^mqGu#OPGdRCuaO4DvwIbuRJ3i#sM?;CdqAk)EmZ
z;&?pPb2bu*_C(@*uqQqx^oV>|jK>0)O^D%$&^>itb_K#hK<O+n5)4gpF_w1&`)c?J
z7|jyPbj63;=Ql2F&(QwGp%mSlGW7B;sFKa`sepKXij$2aK`}Hg)8k>5<zfLLJk810
zSRxt_BH<7xgi5Cysug8O?m*@eA%W_cgwf$!Bp8TE59ExjZpOgsXN)mBlo<+ThC-Qv
zHA2obW0VZ6nbk=~mV!TmwOln1A~&nTtsh#_N=qBdyaD~q7-mc}X4a<UsTt#pCALA*
zvy?(@W9=n0juM(m)>%^HdILTiwv}{j#pD|xtB%#jNS2zRB!gs<%o2t2NEX%v61lHh
z28r{8zj8n}ap$IjG4`$#-uW($#$6vqdoZFfn#Blb$2GHT9*M+5lYyv~iD{Wh*@A=m
zR*;_(WD2t(F(?#9S`3bHP#O)M3&ePCOg0JQd^k24CZIdNp7#Q89!8ho8z6#$Mo8}B
zEaW@X0xZ9eq8<yB$fr^?6)7<1*C{-BtPB&CP+;L(kfIf%Hi%@iFcpE7HOaSQ(FTk*
zVmUL$#}iY^JPAa3TpK)&jNi%w8-lOG2qzzpJB`Xz;ZWqvZ^jDbCE$GW6$4)Zk8)iA
z7DQoI<Lrki4^Oet@E8w!8G*wf{3k@SM4lliM{?6`vnNM8lV7>`Qm(po?m(`#?!v*G
zts*&c@#|{^D}}1LgDW+Sxf)NdrY=|40<<|#eXiE~g@bZh^8{tF<||8?_FsHCw`psd
zX`efg{M!6juIsrp(*gO{e_&m4)Xg8i_;#-I`LxrYG|$&8Y|QoUNISbBU-yGoS2`iD
zm2c`yJKK|%`JK6@jz#u%)7Hz)H^`(}5e1}C{tMEy<-83jklTs^SwWy$f^n*A)~<|4
zFz^-^9vc@0*~D^ZVU320`Ur-_1V3eoeh6`?)?&$bVTtt<nugYP<Qd(XKAS+Dw=PIJ
zjq)5hqvv&!evlZ0B?&(x{7mpOBi}cdVR=y!HGvYW3!ofOP57bKvaSjqS-sW+t4BIP
z_bTyC5@_jiv>zKZ>KQ8LdPsl9`}o)%<fDy3p)d1<<3SqWjjD28&{}Fzkc4D-NNZHa
z>jG=i+G#1YH$FxC;#ifmH$6prv(`>aN#gx~H4q}MTO~+@Rs&z7A6KfVVMb!2R-;-=
zL2;5IE_fwO;QCw_KBlxi5)`)))Vv9?(u`%TPZ9N(5~SkSy<ZBUyDYU)qta4UW}&7m
z^#fyHctcu5ou~xXqH%&5Xn}1?krg%uH8rW}s9|l*NIFE7YtN5fLx2#hK?XJpE2_QI
z>!HbMUnm}la3N9fiQ}A)=guU;JjeRNF~l-KF&vNi*aYkiW4_Z<e0($<;R1XjcDhqx
z*EcG1JTwdooxZRLt)szkOaPWKK@7%3AM9d2Au%EVSAa;qgaF%)FN|G*N*^2d9X>hK
ztuQ*ljUuD?PUUG_6sLrpJw0P#aXc~79g0T_XrwC=jExoYJ+SeO^zdAS3kqD%w(j2U
za~hBl699g~!HCeaWk;8?dvI*m7#EEKhEX~Q6`>W3Br30M@LR=UJw%WS&Uh2{mKjna
zCrT-y9)q?Z|D3!;!ep*Cz`p(0`nSky<iIsjrr4ku3`~jqHJz;M-XhbA4lQU<RGdDa
zy6;$ajd3y9>iON%Ey@;DP`1#tdlzi#Aph>}BF!miDd1fH58^koM9OjSC*6xLCF!iQ
zE$wW}Iyd~J`?ssGc@y9Cc*(VW8068j;pkm_N4~g!U(@kDP#_yw1Z2~j`yvtF;rNL@
zUqMP=G$Dw-@!(lbnG`}W%J~GqgDltWcLK6ZOhq^z^{T9gty4C{pbOcc06DV&pPB<i
zXH$@3Obm}D;tAL}f>Ton7oWpcCY712k8m*_^`LALxtI{=Wm6&?6Q6%h)(gPbdMX%6
zaQk>Z&ckNk4Ros5`bqA*Y&wgTg6vR6O=Tzq*e&Y|de;|hm1(sz{6>OoyKjpt5JOEs
zB`S*;9P2(8KLoNJg`e<uFkNPedv=0$rtuSH90xPjgR^_@xSF%B_Oz>gA(U}-q|6<&
zXCcZts^)9}6lRYCZqTBN%GpD|tlKze%h9!2x*<(BEVypdEjhO@>uyiG+ZTcv_ol_Z
z+wQIu)0J{}<-Go^w>RzW{Un(3_GY|0E*x3WXct|#-5n{WBjtv^yje#_+R?G(=uA<a
zDMx3Ha%U+|n)1xQoUQLo*Y{@Xw=Gf6<*1r0)tIIl=V!7_+tN+jKIzLeJ-<Y~@RSw*
zM7@x&B0QV!RTC6Fw>x9@%pbpPZd~>>ebjlmbKx5|p8v<HUwHrCyW}}_!Lj1mwCGBE
zHqSZknFtH>{@$b`!}u~(^FrTks(qQZzb_<T$v9dwblbw2+w`UfOYYcfQ+4|@_5&&E
zKpuG1g1GY}yxsaVZ!tEQmJF52!L*_79z!tREZvl*n-=uIJY{H8kq=Y4YGo!qItnu~
z09uU~L%5i<fOs6ASHA;D=84dc{xO=nxZeW$F#!58DCnn%d;tAW@Uy_rDv>iZBB3Pt
zCSd6qMq(a`g_x(nLd;{a5Cd4Ke1D}_h?#gi7AlV>m?y+S<&hLK@uXOYDvM>xw=aI1
z>xFFru$1K~+LysX55Zz|Ne?uP^CMC0G>kFK1nWa2d1TwQev;(-?T^G|M;?RAOp@-2
zahdHgyo^u5%O108cxlG|Hd8=*wz7!qfiIw*0Qfh`Qd8RKXla3ZUs>uRl3Pbz9!Xj?
zDlIMWu93`zH*iQ)A?HLRfr4ROlC_YlU@bH5*dIM+9L<vMW9#+8d2Pn=7;5T1YUg99
z!LU)n+w~Y~>wVM}EIs31L%~vUG-fI#yJV9bl2dX?6_Q)39HrJYrlfxY>|0!=fPI;u
z9hRyUv9AVx*Q{{=|G=*@5WgSv%Ws8kkVhcRZ-+=Ifx0|euS-Gh2x6}?Aon6RECIO(
ze$shA$nE?s|04EKG&J!$@ewD*8ocFShR306q=FXr`<?tNSdFG1eh)@{7<~n!y%@of
zli>GZgy59lkI?~)5Sj8{#pobLuR<j2!DQyI;!k1$LUN@K{xIf_V7*f@Vg?F$Ap*Gc
zIMxkdgb0y8hEz<6?NgAM(l!M^I#RH?@PkNSp;9RDqX10h>UF^PA?3XfDc`D<yGv!!
z3Tedr0Cy1c%f=&puLTAKJg_V4Xnmv}XG%b^@_G4Dpnn^F!VQ=T0E(*>Pz;|m<2aD9
z9+=&`{BTeV*0PkLGKW~W1R5(K*<CezIOlGfJ-l4k{(l}ME3mpYOEsmbrUhn+>dH}-
z^R{elN4mCSu{TrOm8QDp7%0qA^=Ybp{z%r_o%VJwp2>K7|C!pFuO~bk?lmI7-jy-e
z&iCFnd+(G1*mI8MhL(@sxco+r@h+VD@%F#n^`l+)^twhX;Nv_+G<Gir(+yiv0G2%)
z7s<4z18}(YejI-MHnm}yaeSyx9?dx0GE6(1EtrlnC05(}p=4*q-juQW0KHq=bIn^m
zaiyELrKrY-WE<gKFUM0<eXiPbfrb-6%f`R*{=mB!zd5?pd<5DpH*a`cL1XJjk;{?A
zT{lfjjc^74R`qlA9mbJlGEBqlz7^#lkOL74|MhVE$x*hv%TjV0sC>w2z#3%PKsYv)
z5QY0}pKxcVqW`ln#R2`pqZ%eq`>hKzI!Tu#->DYyn689!XuTZL(+mzXdP!dvm*cHa
zp~r{P=u2r>u&07u%%E6FdnNr9xPz65M`3lO5K$v4K_WHO@|ZTp@0(@}vFa!6!T5c+
zxDkssP)P^9nk2&&;`_xt9j<bW<*>arMnaufsYy9ev?FRIVEZ*oM&MVpF_U1tDQSTq
zYh8dV8fd{<)?^?F5jP+ul#Iy(w!!UStzNS<PT(cVx*!!TgmB%2x8H>J9pPjFS5)ww
z%$T+ky@Wu%1vlicgMo@9-iESs`qzoKNWXPJCVes)kjX9{rJpu-PYCgtO!iE-48&Et
z&LqdjxCq+i;8sKMjm8r(Rx$GVrrS>nXxtMMF(^=sK<kP5cog`9<%dT@yIgzf@ZlqY
zp_2pq`U8894(va8Ah7@F;r@LmR7;K_lwgCh1Fuxn%Yr}*wi4OQb8tZ#g3TlWh9Djc
zJR;BILcrUuuz+_9>XoX@z>QT5L<+=XKyE=pq?$Fv!Ga_kl$SF^;z8C=sW(7l$i|Zp
zI3Btj4a18R?r#F4@dyi@QDajHRSZTQg21RE6kT|lf{R|69F?_awBQMNve$Mxb%%3f
zr*QLo-xbk2K=upx3A+Gi&JuT;+q2EP)6Kh6hQ^$^Ic@G*cGq6o`N7VtyDRPP%D8*x
zsGPe#>uycETNm~&x-;&sawRJ@^>fS$U6CBWO*gK%>ysVxee+`<MK4FM#8VBRuYaun
z<ki1%WVh@~Z`qgGav;_7)mz4tbKna-VXFg`-n4Okc;U=q%?}%{HC%5>ZF=!WRjU4#
zxx;s=J*mbWsfHJCxNhva(VeP4n5lksj?OteSx0l)(Y)knU1ln>OjDX^O11Rg{QAu!
zDc^}DW-#ZjLDP&QOVy^S+Eo3XoAozsw~nXkjxJHhmTj&NTa%NSik2l?>%y63Pvb}a
z%l?JFE1h$Peyu0$ZFwuf)T9j6c_RTYMz7G-@bGK8q~>=51EctvwYtAs|5>-Oe}`GN
z;PoU9w;&t%U~E#ZipDum!(elca%?y#0z!ey;}Cu+Eg;HM>@l|>evf>Qevf(2_MTn6
zIzC&t=?UY#5$H2T`_;30)&N(u#!1kia7Al^D_VWYvl*{!Sqp20n1&U~T(!VGP#v_l
zoh5i0u9eNe!NS_1-pV?znxWPTWk%MZw8Az{EM2?L*K`%{7Ex9uNQ4A8U6S!**Y(2w
z02jxWcXSf;Ch0EPit-wO$}p;nK`iM<b$H2qk-2CWi#KV&$)sr!un}3|ZlZWYR&IA;
zD>PjWI){R5acj9fMl9NKE);dY*6tiBG(%f!i7vE0%6c<Lj*_hVUFzdXO-|)(3$m{D
zA{Di%R`(dGY??G$`qWa{K&q;8Qaz?;M(a^apSouTdaizko{L^i&)l;edafzcv-zD@
zB=beIDbd;tT}#)#(uJa(>X{{=L4w*c5?E)|TUjfd;_C+dCf*MMC_9{7Hwwz04WKqq
z&9uGS0;&T;*(%kYLatrkYOB_$OpV$`?bC}L<EfO#Tf4ik{i=Qusz<}xQM3bUA8>0>
zoe$cv^#+VOF+yJi#goBr;Qtu&?_o5D(FKg~JnJ{FbC6K|B9x{Ilg&ukjFg6Qo)FW`
z>dp>ZVlWXA%kAy=83Is$pv`m@&+*?SOKsVuT1xxQ7szSQwc67lp&b9=%1a*{5oA3m
zX>dj&&+*>`W~wP*R^3FYU6EjPgbnVVZbyu8|86Rj*aQk>{V>`B%JrLB;-`b3xo;l-
zS@kV{x^Hml<srpX?<bYx_y794@b5#X;I{H@NMtfv`VxE+%AQdELm>YuBHB{<n?LpZ
zG@wZTdlq~0S;anvll;#>>_3E*v1gU?<R4PX@Uu$!CQjkP6!^^j+2AeL&raP6emeYF
zlRAMdiW8mUY{b8VL!Q9sEJk}U5+DM@Qy9Q6+<Xdthq~NxX_a_CeG4BI7bwKT{JYr5
zTv+_FO?BEUJo2+haT%lUV)Px1E<q&V0nc|@gT1~z5DM70%wpyL0;vBBo1Fp>^55Ve
z1)f9hJYlXeeL<KR6Xc8-L9UW;xMmOJ%yz|lY6X0u;J>kTA@se;4}?WN*U+*s_`R=x
zz%K@Kbslt*0-q$+Ps(j|TQ8V_v(=R+j8(wdXf@^SM6Kdcg-%sqw5Uh=np$wGQi!XS
zTGi!B;ikD<xvg{Nd*E+Xw`BG#*Y@Tr>vI(~x!TrTP4hjAvCcYY0~ar*E=9NHs$0Rc
zi?Yr3t+e<TU%TD1eeTeFWtwih(SLJu>ZO5q`e*xQ&j2EJZ&(;xoX%A2oIUg}boDZ2
zS1mOu?<-5xo}8n4&JNhuQu%Gi1;<tW{J|^s47Kq~g0y^%%+b{!3iB^z>o=$CH)ra*
zGTVlhYEGu<Qvi~UPH5$Byc$~QxDroSbk82bJ57yC-xX7aYC<kY%WyfoRC6Rv52#$2
zKWHneA!Xi_W18p46{hCfM=u<`x_5!RvOmMLg0Qwh5{?;Hx6OYe+tib8>d7?qW?ne9
zRDV3}I03?1D%C>*-I6l2q~O9^IU_u%eh@L^Z}l~ZN_VMpHWv+PpCkDyIJLt<R6|*x
z<|3{I#G#v>w&F4<I;QxZ!YSqKw(jlSTORaA>Fw<TADS^f7)8&TP#4RgPXu_zfL}`@
z78=*wQ|=Cfl;CxV2OHUpjud#Nt{M-5gM;FL2R_PE!I3byOP=Rn2O<Gqtl(C{2ynuV
z^P&)#Vk7)tLIsQZ2N4JuVb%NY)-(-Q>Fu}ap{0(U*^XoBj$^6ggPD$@l%cSx>IMds
z9o^q5TSh@PF&>Wy{CQx)<KW9?JTrsuaN!IOek5>Y=Mh5`%mC<2tQrhx%yz4%d)|zV
z?MjK}FfFL>Nd=T6dH~#ukPBW~$_6$Z5>@m4pJL%xvCt6+1Y@x{xH*G!k^uC0=93L0
zAfc*AQC}+BR5nDwv>=;?6z3AvRFAG2ifLL^wWz|BK~j85mD#4@lxUnyM7Z7jCqRPZ
zE3|@^%j-#!yhjnF>z4%mInnevQTsVj{VRg`ccSWZqV;oP^S@atldokgjkBhe{{1P!
znQTiY<_8yA=U@Ba?M34v_ru7w$c??J?pM;A_M~d|q$~O|#Qxlqljcn%xpn@zRRWSc
zwUu<{Y|gwM(iPgCH$n=UqM|Bq#vDbsD)Sc1SqYPMu60gG4qcd@>q#3u^FwK4^D2#X
z6J!_JzR<r|^+WG9Z@TUIJOR%)jX!5TWmYkpKTRGX$@W}Dbuw{D`anuowB_|m$#X9h
zGJX4h?)}ues+8tW>j)j4B`ecpWnSkcYZhQnfaH_58<juWtYmMt-KzX_^Osn<swZ?+
z3R!;lS~Dln)SBDW`GxBYN!BPYh?x~fMc#-RctysMH!E2R-`1jJtpp4Ktz;Q|bDNU2
z6RxVH_yL`FD34CU+q6)5d1qeXov&CwFkiZntRR-sVjM)Izt9=UljMBWN8ZccMMJu-
U6LupgxMBEGNs+!lqfDaz0daC^w*UYD

literal 0
HcmV?d00001

diff --git a/lora/ops/triton_ops/fused_moe_lora_op.py b/lora/ops/triton_ops/fused_moe_lora_op.py
new file mode 100644
index 0000000..83a42d5
--- /dev/null
+++ b/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -0,0 +1,640 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import direct_register_custom_op
+
+from .utils import supports_pdl
+_LORA_PTR_DICT: dict[tuple[int, ...], torch.tensor] = {}
+
+
+def _get_ptr(lora_weights: list[torch.Tensor], device: torch.device):
+    """
+    `_LORA_PTR_DICT` collects the required information during `profile_run`,
+    After this, it remains constant and subsequent usage is through LUT.
+    Refer to:
+    https://github.com/triton-lang/triton/blob/release/3.1.x/python/tutorials/08-grouped-gemm.py
+    """
+    key = tuple(lora_weight.data_ptr() for lora_weight in lora_weights)
+
+    if (ptr_tensor := _LORA_PTR_DICT.get(key)) is not None:
+        return ptr_tensor
+
+    tensor_ptrs = []
+    for lora_weight in lora_weights:
+        tensor_ptrs.append(lora_weight.data_ptr())
+    ptr_tensor = torch.tensor(tensor_ptrs, device=device, dtype=torch.uint64)
+
+    _LORA_PTR_DICT[key] = ptr_tensor
+    return _LORA_PTR_DICT.get(key)
+
+
+@triton.jit(
+    do_not_specialize=[
+        "num_valid_tokens",
+        "EM",
+        "stride_tl",
+        "stride_el",
+        "slice_a_size",
+        "slice_c_size",
+    ]
+)
+def _fused_moe_lora_kernel(
+    a_ptr,
+    b_ptr,
+    c_ptr,
+    topk_weights_ptr,
+    sorted_token_ids_ptr,
+    expert_ids_ptr,
+    num_tokens_post_padded_ptr,
+    # Matrix dimensions
+    N,
+    K,
+    EM,
+    num_valid_tokens,
+    num_experts,
+    lora_ids,
+    adapter_enabled,
+    # The stride variables represent how much to increase the ptr by when
+    # moving by 1 element in a particular dimension. E.g. `stride_am` is
+    # how much to increase `a_ptr` by to get the element one row down
+    # (A has M rows).
+    stride_am,
+    stride_ak,
+    stride_bl,
+    stride_be,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    stride_tl,
+    stride_el,
+    slice_a_size,
+    slice_c_size,
+    # Meta-parameters
+    num_slice_a: tl.constexpr,
+    num_slice_c: tl.constexpr,
+    top_k: tl.constexpr,
+    MUL_ROUTED_WEIGHT: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    # launch_pdl: tl.constexpr,
+    # IS_PRIMARY: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    slice_id = tl.program_id(axis=1)
+    lora_idx = tl.program_id(axis=2)
+    lora_id = tl.load(lora_ids + lora_idx)
+    moe_enabled = tl.load(adapter_enabled + lora_id)
+    if lora_id == -1 or moe_enabled == 0:
+        # Early exit for the no-lora case.
+        return
+    max_loras = tl.num_programs(axis=2)
+    grid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
+
+    # calculate pid_m,pid_n
+    pid_sk = pid % SPLIT_K
+    pid_m_n = pid // SPLIT_K
+    num_pid_m = tl.cdiv(EM, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid_m_n // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + ((pid_m_n % num_pid_in_group) % group_size_m)
+    pid_n = (pid_m_n % num_pid_in_group) // group_size_m
+
+    num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr + lora_id)
+    if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
+        return
+    # get the expert_id to process curr shard
+    ind = lora_id * stride_el + pid_m
+    expert_id = tl.load(expert_ids_ptr + ind, ind < max_loras * stride_el, -1)
+    if expert_id == -1:
+        return
+    # get a_ptr,b_ptr,c_ptr
+    cur_a_ptr = a_ptr + (slice_id % num_slice_a) * slice_a_size
+    cur_b_ptr = tl.load(b_ptr + slice_id).to(tl.pointer_type(c_ptr.dtype.element_ty))
+    cur_c_ptr = c_ptr + (slice_id % num_slice_c) * slice_c_size
+
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)) % N
+    offs_k = pid_sk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
+    token_ind = stride_tl * lora_id + offs_token_id
+    offs_token = tl.load(
+        sorted_token_ids_ptr + token_ind, token_ind < max_loras * stride_tl, 0
+    )
+    token_mask = offs_token < num_valid_tokens
+
+    # get a_ptrs,b_ptrs
+    a_ptrs = cur_a_ptr + (
+        offs_token[:, None] // top_k * stride_am + offs_k[None, :] * stride_ak
+    )
+
+    b_ptrs = (
+        cur_b_ptr
+        + lora_id * stride_bl
+        + expert_id * stride_be
+        + offs_k[:, None] * stride_bk
+        + offs_bn[None, :] * stride_bn
+    )
+
+    # accumulator
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, grid_k):
+        k_remaining = K - k * (BLOCK_SIZE_K * SPLIT_K)
+        # pre-fetch lora weight
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < k_remaining, other=0.0)
+        # GDC wait waits for ALL programs in the prior kernel to complete
+        # before continuing.
+        # if USE_GDC and not IS_PRIMARY:
+        #     tl.extra.cuda.gdc_wait()
+        a = tl.load(
+            a_ptrs,
+            mask=token_mask[:, None] & (offs_k[None, :] < k_remaining),
+            other=0.0,
+        )
+        accumulator += tl.dot(a, b)
+        # Advance the ptrs to the next K block.
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_bk
+
+    if MUL_ROUTED_WEIGHT:
+        moe_weight = tl.load(topk_weights_ptr + offs_token, mask=token_mask, other=0)
+        accumulator = accumulator * moe_weight[:, None]
+    # if USE_GDC and IS_PRIMARY:
+    #     # GDC launch dependents hints the runtime system to launch dependent kernels.
+    #     tl.extra.cuda.gdc_launch_dependents()
+    accumulator = accumulator.to(c_ptr.dtype.element_ty)
+    # Write back the block of the output
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = cur_c_ptr + stride_cm * offs_token[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = token_mask[:, None] & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, accumulator, mask=c_mask)
+    else:
+        tl.atomic_add(c_ptrs, accumulator, mask=c_mask, sem="relaxed")
+
+
+@torch.inference_mode()
+def _fused_moe_lora_shrink(
+    a_intermediate_cache1: torch.Tensor,
+    # (num_slices, num_tokens, top_k_num, max_lora_rank)
+    qcurr_hidden_states: torch.Tensor,  # (num_tokens, K,)
+    lora_a_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
+    topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
+    sorted_token_ids: torch.Tensor,  # (max_loras, _)
+    expert_ids: torch.Tensor,  # (max_loras, _ ,)
+    num_tokens_post_padded: torch.Tensor,  # (max_loras, )
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    ## adding for kernel
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    w1_lora_a_stacked = lora_a_stacked[0]
+    # use_gdc = supports_pdl(qcurr_hidden_states.device)
+    shrink_config = {
+        "BLOCK_SIZE_M": block_size_m,
+        "BLOCK_SIZE_N": block_size_n,
+        "BLOCK_SIZE_K": block_size_k,
+        "GROUP_SIZE_M": group_size_m,
+        "num_warps": num_warps,
+        "num_stages": num_stages,
+        "SPLIT_K": split_k,
+        # "USE_GDC": use_gdc,
+        # "launch_pdl": use_gdc,  # triton kernel metadata
+    }
+
+    b_ptr = _get_ptr(lora_a_stacked, device)
+
+    grid = lambda META: (
+        split_k
+        * triton.cdiv(EM, META["BLOCK_SIZE_M"])
+        * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        len(lora_a_stacked),
+        lora_a_stacked[0].shape[0],
+    )
+    _fused_moe_lora_kernel[grid](
+        qcurr_hidden_states,
+        b_ptr,
+        a_intermediate_cache1,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        N,
+        K,
+        EM,
+        num_tokens,
+        num_experts,
+        lora_ids,
+        adapter_enabled,
+        qcurr_hidden_states.stride(0),
+        qcurr_hidden_states.stride(1),
+        w1_lora_a_stacked.stride(0),
+        w1_lora_a_stacked.stride(1),
+        w1_lora_a_stacked.stride(3),
+        w1_lora_a_stacked.stride(2),
+        a_intermediate_cache1.stride(2),
+        a_intermediate_cache1.stride(3),
+        sorted_token_ids.stride(0),
+        expert_ids.stride(0),
+        slice_a_size=qcurr_hidden_states.numel(),
+        slice_c_size=a_intermediate_cache1.numel() // num_slices,
+        num_slice_a=1,
+        num_slice_c=num_slices,
+        top_k=1 if mul_routed_weight else top_k_num,
+        MUL_ROUTED_WEIGHT=False,
+        # IS_PRIMARY=True,
+        **shrink_config,
+    )
+
+
+@torch.inference_mode()
+def _fused_moe_lora_expand(
+    output: torch.Tensor,  # (num_tokens, top_k_num, N*len(lora_a_stacked),)
+    a_intermediate_cache1: torch.Tensor,  # (num_slices, M, top_k_num, max_lora_rank)
+    lora_b_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
+    topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
+    sorted_token_ids: torch.Tensor,  # (max_loras, _)
+    expert_ids: torch.Tensor,  # (max_loras, _ ,)
+    num_tokens_post_padded: torch.Tensor,  # (max_loras, )
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    ## adding for kernel
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    max_lora_rank: int,
+    w1_output_dim_size: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    b_ptr = _get_ptr(lora_b_stacked, device)
+    K = max_lora_rank
+    N = w1_output_dim_size
+
+    w1_lora_b_stacked = lora_b_stacked[0]
+
+    a_intermediate_cache1 = a_intermediate_cache1.view(
+        -1, a_intermediate_cache1.shape[3]
+    )
+
+    b_intermediate_cache1 = torch.zeros(
+        (num_slices, M, top_k_num, w1_output_dim_size),
+        dtype=output.dtype,
+        device=device,
+    )
+    # use_gdc = supports_pdl(a_intermediate_cache1.device)
+    expand_config = {
+        "BLOCK_SIZE_M": block_size_m,
+        "BLOCK_SIZE_N": block_size_n,
+        "BLOCK_SIZE_K": block_size_k,
+        "GROUP_SIZE_M": group_size_m,
+        "num_warps": num_warps,
+        "num_stages": num_stages,
+        "SPLIT_K": split_k,  # Set split_k = 1 for expand calls
+        # "USE_GDC": use_gdc,
+        # "launch_pdl": use_gdc,  # triton kernel metadata
+    }
+
+    grid = lambda META: (
+        triton.cdiv(EM, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        len(lora_b_stacked),
+        lora_b_stacked[0].shape[0],
+    )
+    _fused_moe_lora_kernel[grid](
+        a_intermediate_cache1,
+        b_ptr,
+        b_intermediate_cache1,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        N,
+        K,
+        EM,
+        num_tokens,
+        num_experts,
+        lora_ids,
+        adapter_enabled,
+        a_intermediate_cache1.stride(0),
+        a_intermediate_cache1.stride(1),
+        w1_lora_b_stacked.stride(0),
+        w1_lora_b_stacked.stride(1),
+        w1_lora_b_stacked.stride(3),
+        w1_lora_b_stacked.stride(2),
+        b_intermediate_cache1.stride(2),
+        b_intermediate_cache1.stride(3),
+        sorted_token_ids.stride(0),
+        expert_ids.stride(0),
+        slice_a_size=a_intermediate_cache1.numel() // num_slices,
+        slice_c_size=b_intermediate_cache1.numel() // num_slices,
+        num_slice_a=num_slices,
+        num_slice_c=num_slices,
+        top_k=1,
+        MUL_ROUTED_WEIGHT=mul_routed_weight,
+        # IS_PRIMARY=False,
+        **expand_config,
+    )
+    for i in range(num_slices):
+        output[:, :, i * N : (i + 1) * N] += b_intermediate_cache1[i]
+
+
+@torch.inference_mode()
+def _fused_moe_lora(
+    output: torch.Tensor,  # (num_tokens, top_k_num, N*len(lora_a_stacked),)
+    qcurr_hidden_states: torch.Tensor,  # (num_tokens, K,)
+    lora_a_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
+    lora_b_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, N, max_lora_rank,),...]
+    topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
+    sorted_token_ids: torch.Tensor,  # (max_loras, _)
+    expert_ids: torch.Tensor,  # (max_loras, _ ,)
+    num_tokens_post_padded: torch.Tensor,  # (max_loras, )
+    max_lora_rank: int,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    shrink_block_size_m: int,
+    shrink_block_size_n: int,
+    shrink_block_size_k: int,
+    shrink_group_size_m: int,
+    shrink_num_warps: int,
+    shrink_num_stages: int,
+    shrink_split_k: int,
+    expand_block_size_m: int,
+    expand_block_size_n: int,
+    expand_block_size_k: int,
+    expand_group_size_m: int,
+    expand_num_warps: int,
+    expand_num_stages: int,
+    expand_split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    assert len(lora_a_stacked) == len(lora_b_stacked) > 0
+    assert (
+        sorted_token_ids.dim()
+        == expert_ids.dim()
+        == topk_weights.dim()
+        == qcurr_hidden_states.dim()
+        == 2
+    )
+    assert (
+        sorted_token_ids.shape[0]
+        == expert_ids.shape[0]
+        == num_tokens_post_padded.shape[0]
+    )
+    assert len(lora_b_stacked) * lora_b_stacked[0].shape[-2] == output.shape[-1]
+    assert output.shape[0] == topk_weights.shape[0]
+    assert top_k_num == topk_weights.shape[1]
+    device = qcurr_hidden_states.device
+    num_slices = len(lora_a_stacked)
+    w1_lora_b_stacked = lora_b_stacked[0]
+    num_experts = lora_a_stacked[0].shape[1]
+    N = max_lora_rank
+    M = topk_weights.shape[0]
+    EM = sorted_token_ids.shape[1]
+    K = qcurr_hidden_states.shape[1]
+    num_tokens = M * top_k_num
+    w1_output_dim_size = w1_lora_b_stacked.shape[2]
+
+    a_intermediate_cache1 = torch.zeros(
+        (num_slices, M, top_k_num, max_lora_rank),
+        dtype=output.dtype,
+        device=device,
+    )
+
+    _fused_moe_lora_shrink(
+        a_intermediate_cache1,
+        qcurr_hidden_states,
+        lora_a_stacked,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        top_k_num,
+        lora_ids,
+        adapter_enabled,
+        ## adding for kernel
+        device,
+        N,
+        M,
+        EM,
+        K,
+        num_tokens,
+        num_experts,
+        num_slices,
+        shrink_block_size_m,
+        shrink_block_size_n,
+        shrink_block_size_k,
+        shrink_group_size_m,
+        shrink_num_warps,
+        shrink_num_stages,
+        shrink_split_k,
+        mul_routed_weight,
+    )
+
+    _fused_moe_lora_expand(
+        output,
+        a_intermediate_cache1,
+        lora_b_stacked,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        top_k_num,
+        lora_ids,
+        adapter_enabled,
+        ## adding for kernel
+        device,
+        N,
+        M,
+        EM,
+        K,
+        num_tokens,
+        num_experts,
+        num_slices,
+        max_lora_rank,
+        w1_output_dim_size,
+        expand_block_size_m,
+        expand_block_size_n,
+        expand_block_size_k,
+        expand_group_size_m,
+        expand_num_warps,
+        expand_num_stages,
+        expand_split_k,
+        mul_routed_weight,
+    )
+
+
+def _fused_moe_lora_fake(
+    output: torch.Tensor,
+    qcurr_hidden_states: torch.Tensor,
+    lora_a_stacked: list[torch.Tensor],
+    lora_b_stacked: list[torch.Tensor],
+    topk_weights: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    max_lora_rank: int,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    shrink_block_size_m: int,
+    shrink_block_size_n: int,
+    shrink_block_size_k: int,
+    shrink_group_size_m: int,
+    shrink_num_warps: int,
+    shrink_num_stages: int,
+    shrink_split_k: int,
+    expand_block_size_m: int,
+    expand_block_size_n: int,
+    expand_block_size_k: int,
+    expand_group_size_m: int,
+    expand_num_warps: int,
+    expand_num_stages: int,
+    expand_split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    return
+
+
+def _fused_moe_lora_shrink_fake(
+    a_intermediate_cache1: torch.Tensor,
+    qcurr_hidden_states: torch.Tensor,
+    lora_a_stacked: list[torch.Tensor],
+    topk_weights: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    return
+
+
+def _fused_moe_lora_expand_fake(
+    output: torch.Tensor,
+    a_intermediate_cache1: torch.Tensor,
+    lora_b_stacked: list[torch.Tensor],
+    topk_weights: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    max_lora_rank: int,
+    w1_output_dim_size: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    return
+
+
+try:
+    direct_register_custom_op(
+        op_name="fused_moe_lora",
+        op_func=_fused_moe_lora,
+        mutates_args=["output"],
+        fake_impl=_fused_moe_lora_fake,
+    )
+
+    direct_register_custom_op(
+        op_name="fused_moe_lora_shrink",
+        op_func=_fused_moe_lora_shrink,
+        mutates_args=["a_intermediate_cache1"],
+        fake_impl=_fused_moe_lora_shrink_fake,
+    )
+
+    direct_register_custom_op(
+        op_name="fused_moe_lora_expand",
+        op_func=_fused_moe_lora_expand,
+        mutates_args=["output"],
+        fake_impl=_fused_moe_lora_expand_fake,
+    )
+
+    fused_moe_lora = torch.ops.vllm.fused_moe_lora
+    fused_moe_lora_shrink = torch.ops.vllm.fused_moe_lora_shrink
+    fused_moe_lora_expand = torch.ops.vllm.fused_moe_lora_expand
+
+except AttributeError:
+    fused_moe_lora = _fused_moe_lora
+    fused_moe_lora_shrink = _fused_moe_lora_shrink
+    fused_moe_lora_expand = _fused_moe_lora_expand
diff --git a/lora/ops/triton_ops/kernel_utils.py b/lora/ops/triton_ops/kernel_utils.py
new file mode 100644
index 0000000..ef68119
--- /dev/null
+++ b/lora/ops/triton_ops/kernel_utils.py
@@ -0,0 +1,364 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Utilities for Punica kernel construction.
+"""
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def mm_k(
+    a_ptr,
+    b_ptr,
+    ak_stride,
+    bn_stride,
+    bk_stride,
+    offset_k,
+    K: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    EVEN_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    CAST_TYPE: tl.constexpr,
+    b_dtype: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    base_k,
+    USE_STRIDE_LOAD: tl.constexpr,
+):
+    """
+    Given a_ptr and b_ptr, that identify the rows of A (m x k) and columns of
+    B (k x n), iterate, through the K dimension to compute the partial/complete
+    matrix block product.
+    If SPLIT_K == 1, the output m x n product is complete.
+    If SPLIT_K > 1, the thread block computes partial outputs. The partial
+    outputs are then atomically summed in the caller code.
+    Args:
+        a_ptr: Array of pointers, identifying rows of A
+        b_ptr: Array of pointers, identifying columns of B
+        ak_stride: K dimension stride of the A matrix
+        bn_stride: N dimension stride of the B matrix
+        bk_stride: K dimension stride of the B matrix
+        K: Length of the K dimension
+        BLOCK_M: M dimension of the output block m x n
+        BLOCK_N: N dimension of the output block m x n
+        BLOCK_K: K dimension atom
+        EVEN_K: True if the blocks of A and B can be loaded without any
+          masking.
+        SPLIT_K: Parameter signifying parallelism in the K dimension.
+        CAST_TYPE: if True, cast the values from the A matrix to the B
+          matrix dtype.
+        b_dtype: datatype of the B matrix
+        USE_GDC: Whether to use PDL. True indicates use.
+        USE_STRIDE_LOAD: Whether to use stride load for the B matrix.
+        base_k: Base offset along K dimension for current SPLIT_K group
+    """
+    accumulator = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.float32)
+
+    # Step size along K for each iteration
+    STEP_K = BLOCK_K * SPLIT_K
+
+    # Total number of iterations (compile-time constant)
+    num_iters = tl.cdiv(K, STEP_K)
+
+    for k in range(num_iters):
+        # Current iteration's global K offset
+        iter_k = k * STEP_K + base_k
+
+        # Check if this iteration is completely valid (no masking needed)
+        block_end = iter_k + BLOCK_K
+
+        if EVEN_K:
+            # K is divisible by BLOCK_K, no masking ever needed
+            # pre-fetch lora weight
+            # tiled_b = tl.load(b_ptr)
+            # if USE_GDC:
+            #     tl.extra.cuda.gdc_wait()
+            if USE_STRIDE_LOAD:
+                tiled_b = tl.load(b_ptr, stride=bn_stride)
+            else:
+                tiled_b = tl.load(b_ptr)
+            tiled_a = tl.load(a_ptr)
+            if CAST_TYPE:
+                tiled_a = tiled_a.to(b_dtype)
+            accumulator += tl.dot(tiled_a, tiled_b)
+        else:
+            # Check if we need element-wise masking
+            if iter_k >= K:
+                # Entire block out of range, skip
+                pass
+            elif block_end <= K:
+                # Entire block in range, no masking needed (fast path)
+                # tiled_b = tl.load(b_ptr)
+                # if USE_GDC:
+                #     tl.extra.cuda.gdc_wait()
+                if USE_STRIDE_LOAD:
+                    tiled_b = tl.load(b_ptr, stride=bn_stride)
+                else:
+                    tiled_b = tl.load(b_ptr)
+                tiled_a = tl.load(a_ptr)
+                if CAST_TYPE:
+                    tiled_a = tiled_a.to(b_dtype)
+                accumulator += tl.dot(tiled_a, tiled_b)
+            else:
+                # Partial block, need masking (only last iteration)
+                k_offsets = tl.arange(0, BLOCK_K)
+                mask = iter_k + k_offsets < K
+                # tiled_b = tl.load(b_ptr, mask=mask[:, None], other=0.0)
+                # if USE_GDC:
+                #     tl.extra.cuda.gdc_wait()
+                if USE_STRIDE_LOAD:
+                    tiled_b = tl.load(
+                        b_ptr, stride=bn_stride, mask=mask[:, None], other=0.0
+                    )
+                else:
+                    tiled_b = tl.load(b_ptr, mask=mask[:, None], other=0.0)
+                tiled_a = tl.load(a_ptr, mask=mask[None, :], other=0.0)
+                if CAST_TYPE:
+                    tiled_a = tiled_a.to(b_dtype)
+                accumulator += tl.dot(tiled_a, tiled_b)
+
+        a_ptr += STEP_K * ak_stride
+        b_ptr += STEP_K * bk_stride
+
+    return accumulator
+
+
+@triton.jit
+def do_expand_kernel(
+    pid_n,
+    lora_index,
+    slice_id,
+    input_ptr,
+    lora_ptr,
+    out_ptr,
+    N,
+    K,
+    M_LEN,
+    ram,  # array identifying the rows of Input ptr to operate on
+    slice_start_loc,
+    # input ptr strides
+    input_d0_stride,
+    input_d1_stride,
+    input_d2_stride,
+    # lora ptr strides
+    ls_d0_ptr,
+    ls_d1_ptr,
+    ls_d2_ptr,
+    # out ptr strides
+    output_d0_stride,
+    output_d1_stride,
+    # constants
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    SAME_STRIDE: tl.constexpr,
+    SLICE_NUM: tl.constexpr,
+    EVEN_K: tl.constexpr,
+    CAST_TYPE: tl.constexpr,
+    ADD_INPUTS: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    USE_STRIDE_LOAD: tl.constexpr,
+):
+    """
+    Given an array of integers that identifies the rows of A, ram,
+    a lora index that identifies which LoRA to use from lora_ptr, lora_index,
+    a slice_id that identifies the input/output slice,
+    compute the matrix product and store in the appropriate output location.
+    Given that this is an expand kernel, we don't perform any split-K reduction
+    as the K dimension is assumed to be small.
+    """
+
+    # ls_d*_ptr can be either an integer or a pointer
+    if SAME_STRIDE:
+        # integer
+        cur_lora_d0_stride = ls_d0_ptr
+        cur_lora_d1_stride = ls_d1_ptr
+        cur_lora_d2_stride = ls_d2_ptr
+    else:
+        # pointer
+        cur_lora_d0_stride = tl.load(ls_d0_ptr + slice_id)
+        cur_lora_d1_stride = tl.load(ls_d1_ptr + slice_id)
+        cur_lora_d2_stride = tl.load(ls_d2_ptr + slice_id)
+
+    # Identify the input_ptr and lora_ptr from slice_id.
+    if SLICE_NUM == 1:
+        cur_input_ptr = input_ptr
+        cur_lora_ptr = lora_ptr
+    else:
+        cur_input_ptr = input_ptr + slice_id * input_d0_stride
+        cur_lora_ptr = tl.load(lora_ptr + slice_id).to(
+            tl.pointer_type(out_ptr.dtype.element_ty)
+        )
+
+    # Identify the column indices of B to process.
+    offset_n = tl.arange(0, BLOCK_N) + pid_n * BLOCK_N
+    rbn = tl.max_contiguous(tl.multiple_of(offset_n % N, BLOCK_N), BLOCK_N)
+
+    # Identify A and B block pointers
+    offset_k = tl.arange(0, BLOCK_K)
+    a_ptr = (
+        cur_input_ptr
+        + ram[:, None] * input_d1_stride
+        + offset_k[None, :] * input_d2_stride
+    )
+    b_ptr = (
+        cur_lora_ptr
+        + cur_lora_d0_stride * lora_index
+        + offset_k[:, None] * cur_lora_d2_stride
+        + rbn[None, :] * cur_lora_d1_stride
+    )
+
+    # Compute the block matrix product.
+    SPLIT_K = 1
+
+    accumulator = mm_k(
+        a_ptr,
+        b_ptr,
+        input_d2_stride,
+        cur_lora_d1_stride,
+        cur_lora_d2_stride,
+        offset_k,
+        K,
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        EVEN_K,
+        SPLIT_K,
+        CAST_TYPE,
+        cur_lora_ptr.dtype.element_ty,
+        # USE_GDC,
+        base_k=0,
+        USE_STRIDE_LOAD = USE_STRIDE_LOAD
+    )
+
+    tiled_c = accumulator.to(cur_lora_ptr.dtype.element_ty)
+    if SLICE_NUM == 1:
+        cur_slice_start = slice_start_loc
+    else:
+        cur_slice_start = tl.load(slice_start_loc + slice_id)
+
+    # Identify the C output pointers to store the results of the accumulator.
+    offset_cn = tl.arange(0, BLOCK_N) + pid_n * BLOCK_N + cur_slice_start
+    offset_cm = tl.arange(0, BLOCK_M)
+    c_ptr = (
+        out_ptr
+        + ram[:, None] * output_d0_stride
+        + offset_cn[None, :] * output_d1_stride
+    )
+    c_mask = (offset_cm[:, None] < M_LEN) & (offset_cn[None, :] < (cur_slice_start + N))
+
+    if ADD_INPUTS:
+        tiled_out = tl.load(c_ptr, mask=c_mask)
+        tiled_c += tiled_out
+    tl.store(c_ptr, tiled_c, mask=c_mask)
+
+
+@triton.jit
+def do_shrink_kernel(
+    pid_n,
+    pid_sk,
+    slice_id,
+    lora_index,
+    input_ptr,
+    lora_ptr,
+    out_ptr,
+    N,
+    K,
+    M_LEN,
+    ram,
+    # input strides
+    input_d0_stride,
+    input_d1_stride,
+    # lora strides
+    lora_d0_stride,
+    lora_d1_stride,
+    lora_d2_stride,
+    # output strides
+    output_d0_stride,
+    output_d1_stride,
+    output_d2_stride,
+    scaling,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    EVEN_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    SLICE_NUM: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    USE_STRIDE_LOAD: tl.constexpr,
+):
+    """
+    Given an array of integers that identifies the rows of A, ram,
+    a lora index that identifies which LoRA to use from lora_ptr, lora_index,
+    a slice_id that identifies the input/output slice, compute the
+    matrix product and store in the appropriate output location.
+    """
+
+    # Identify the lora_ptr from slice_id.
+    if SLICE_NUM == 1:
+        # current lora ptr
+        cur_lora_ptr = lora_ptr
+    else:
+        # current lora ptr
+        cur_lora_ptr = tl.load(lora_ptr + slice_id).to(
+            tl.pointer_type(input_ptr.dtype.element_ty)
+        )
+
+    # Identify the column indices of B to process.
+    offset_n = tl.arange(0, BLOCK_N) + pid_n * BLOCK_N
+    rbn = tl.max_contiguous(tl.multiple_of(offset_n % N, BLOCK_N), BLOCK_N)
+
+    # Identify A and B block pointers
+    offset_k = pid_sk * BLOCK_K + tl.arange(0, BLOCK_K)
+    a_ptr = (
+        input_ptr + ram[:, None] * input_d0_stride + offset_k[None, :] * input_d1_stride
+    )
+    b_ptr = (
+        cur_lora_ptr
+        + lora_d0_stride * lora_index
+        + rbn[None, :] * lora_d1_stride
+        + offset_k[:, None] * lora_d2_stride
+    )
+
+    # Compute partial/complete block matrix product.
+    accumulator = mm_k(
+        a_ptr,
+        b_ptr,
+        input_d1_stride,
+        lora_d1_stride,
+        lora_d2_stride,
+        offset_k,
+        K,
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        EVEN_K,
+        SPLIT_K,
+        False,
+        cur_lora_ptr.dtype.element_ty,
+        # False,  # USE_GDC is always False in shrink kernel
+        base_k=pid_sk * BLOCK_K,
+        USE_STRIDE_LOAD  = USE_STRIDE_LOAD
+    )
+    # GDC launch dependents hints the runtime system to launch dependent kernels.
+    # if USE_GDC:
+    #     tl.extra.cuda.gdc_launch_dependents()
+    # Identify the C output pointers to store the results of the accumulator.
+    offset_cn = tl.arange(0, BLOCK_N) + pid_n * BLOCK_N
+    offset_cm = tl.arange(0, BLOCK_M)
+    cur_out_ptr = out_ptr if SLICE_NUM == 1 else out_ptr + slice_id * output_d0_stride
+    c_ptr = (
+        cur_out_ptr
+        + ram[:, None] * output_d1_stride
+        + offset_cn[None, :] * output_d2_stride
+    )
+    c_mask = (offset_cm[:, None] < M_LEN) & (offset_cn[None, :] < N)
+    accumulator *= scaling
+
+    # handles write-back with reduction-splitting
+    if SPLIT_K == 1:
+        tl.store(c_ptr, accumulator, mask=c_mask)
+    else:
+        tl.atomic_add(c_ptr, accumulator, mask=c_mask, sem="relaxed")
diff --git a/lora/ops/triton_ops/lora_expand_op.py b/lora/ops/triton_ops/lora_expand_op.py
new file mode 100644
index 0000000..3b6bfdd
--- /dev/null
+++ b/lora/ops/triton_ops/lora_expand_op.py
@@ -0,0 +1,336 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Based on:
+Chen, L., Ye, Z., Wu, Y., Zhuo, D., Ceze, L., & Krishnamurthy, A. (2023).
+Punica: Multi-Tenant LoRA Serving.
+https://arxiv.org/abs/2310.18547
+"""
+
+import os
+from contextlib import contextmanager
+import torch
+
+from vllm.lora.ops.triton_ops.kernel_utils import do_expand_kernel
+from vllm.lora.ops.triton_ops.utils import _get_lora_b_ptr, get_lora_op_configs
+from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+@contextmanager
+def _temporary_env(var_name: str, value: str | None):
+    prev_value = os.environ.get(var_name)
+    if value is None:
+        os.environ.pop(var_name, None)
+    else:
+        os.environ[var_name] = value
+    try:
+        yield
+    finally:
+        if prev_value is None:
+            os.environ.pop(var_name, None)
+        else:
+            os.environ[var_name] = prev_value
+
+
+@triton.jit
+def _lora_expand_kernel(
+    input_ptr,
+    lora_ptr,
+    out_ptr,
+    M,
+    N,
+    K,
+    token_indices_sorted_by_lora_ids,
+    num_tokens_per_lora,
+    lora_token_start_loc,
+    lora_ids,
+    slice_start_loc,
+    input_d0_stride,
+    input_d1_stride,
+    input_d2_stride,  # 1
+    ls_d0_ptr,
+    ls_d1_ptr,
+    ls_d2_ptr,  # 1
+    output_d0_stride,
+    output_d1_stride,  # 1
+    output_hs_ptr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    EVEN_K: tl.constexpr,
+    ADD_INPUTS: tl.constexpr,
+    CAST_TYPE: tl.constexpr,
+    SLICE_NUM: tl.constexpr,
+    SAME_STRIDE: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    # launch_pdl: tl.constexpr,
+    USE_STRIDE_LOAD: tl.constexpr,
+):
+    cta_n_num = tl.cdiv(N, BLOCK_N)
+    cta_m_num = tl.cdiv(M, BLOCK_M)
+
+    pid_mn = tl.program_id(axis=0)
+    pid_m = pid_mn % cta_m_num
+    pid_n = (pid_mn // cta_m_num) % cta_n_num
+
+    slice_id = tl.program_id(axis=1)
+    lora_idx = tl.program_id(axis=2)
+
+    lora_id = tl.load(lora_ids + lora_idx)
+    if lora_id == -1:
+        # Early exit for the no-lora case.
+        return
+
+    lora_m_size = tl.load(num_tokens_per_lora + lora_idx)
+
+    cta_m_offset = pid_m * BLOCK_M
+    if cta_m_offset >= lora_m_size:
+        # Early exit CTA.
+        return
+
+    # When the output dimensions of each slice are the same,cur_n=N, otherwise
+    # cur_n=tl.load(output_hs_ptr + slice_id), this situation exists in GQA's
+    # qkv linear.
+    curr_N = N if SAME_STRIDE else tl.load(output_hs_ptr + slice_id)
+    if pid_n * BLOCK_N >= curr_N:
+        # Early exit CTA.
+        return
+
+    # num rows this CTA should process.
+    cta_m_len = min(BLOCK_M, lora_m_size - cta_m_offset)
+
+    # Identify all rows that this CTA should process.
+    lora_m_indices_start = tl.load(lora_token_start_loc + lora_idx)
+    cta_lora_seq_indices = (
+        token_indices_sorted_by_lora_ids + lora_m_indices_start + cta_m_offset
+    )
+
+    # Load all relevant row indices.
+    offset_m = tl.arange(0, BLOCK_M) % cta_m_len
+    ram = tl.load(cta_lora_seq_indices + offset_m)
+
+    do_expand_kernel(
+        pid_n,
+        lora_id,
+        slice_id,
+        input_ptr,
+        lora_ptr,
+        out_ptr,
+        curr_N,
+        K,
+        cta_m_len,
+        ram,  # array identifying the rows of Input ptr to operate on
+        slice_start_loc,
+        # input ptr strides
+        input_d0_stride,
+        input_d1_stride,
+        input_d2_stride,
+        # lora ptr strides
+        ls_d0_ptr,
+        ls_d1_ptr,
+        ls_d2_ptr,
+        # out ptr strides
+        output_d0_stride,
+        output_d1_stride,
+        # constants
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        SAME_STRIDE,
+        SLICE_NUM,
+        EVEN_K,
+        CAST_TYPE,
+        ADD_INPUTS,
+        # USE_GDC,
+        USE_STRIDE_LOAD,
+    )
+
+
+@torch.inference_mode()
+def _lora_expand(
+    inputs: torch.Tensor,  # shape [num_slices, num_tokens, lora_rank]
+    lora_b_weights: list[torch.Tensor],  # shape [num_lora, hidden_size, lora_rank]
+    output_tensor: torch.Tensor,  # shape [num_tokens, hidden_size * num_slices]
+    token_lora_mapping: torch.Tensor,  # shape [num_tokens]
+    token_indices_sorted_by_lora_ids: torch.Tensor,  # shape [num_tokens]
+    num_tokens_per_lora: torch.Tensor,  # shape [max-loras + 1]
+    lora_token_start_loc: torch.Tensor,  # shape [max-loras + 2]
+    lora_ids: torch.Tensor,  # shape [max-loras + 1]
+    no_lora_flag_cpu: torch.Tensor,  # shape [1]
+    offset_start: int = 0,
+    add_inputs: bool = False,
+) -> None:
+    """
+    Args:
+        inputs (torch.Tensor): input tensor
+        lora_b_weights (list[torch.Tensor]): lora'b weight
+        output_tensor (torch.Tensor): output tensor
+        token_lora_mapping (torch.Tensor): A tensor mapping each input token
+            to the lora-id related to that token. A value of -1 indicates that
+            LoRA doesn't apply to that token.
+        token_indices_sorted_by_lora_ids (torch.Tensor): Row/Token indices from
+            the A matrix grouped by LoRA IDs.
+        num_tokens_per_lora (torch.Tensor): num_tokens_per_lora[i] is the number
+            of tokens that are to be processed by LoRA ID lora_ids[i]
+        lora_token_start_loc (torch.Tensor): A cumulative sum of
+            num_tokens_per_lora. lora_token_start_loc[0] is always 0 so that
+            lora_token_start_loc[i], along with num_tokens_per_lora[i]
+            identifies the region in token_indices_sorted_by_lora_ids that
+            LoRA lora_ids[i] should process.
+        lora_ids (torch.Tensor): LoRA ids to process.
+        no_lora_flag_cpu (torch.Tensor): A CPU tensor of size 1, that indicates
+            if there are any requests that require LoRA.
+        offset_start (int, optional): Offset start for output_tensor.
+            Defaults to 0.
+        add_inputs (bool, optional): Whether to add the input tensor to the
+            output tensor. Defaults to False.
+    """
+
+    assert no_lora_flag_cpu.numel() == 1
+    if no_lora_flag_cpu.item():
+        # None of the inputs require LoRA.
+        return
+
+    assert inputs.dtype in [torch.float16, torch.bfloat16, torch.float32]
+    for weight in lora_b_weights:
+        assert weight.dtype in [torch.float16, torch.bfloat16]
+
+    assert inputs.size(0) == len(lora_b_weights)
+    assert output_tensor.is_contiguous()
+
+    # metadata sanity check.
+    M = inputs.size(1)
+    assert token_lora_mapping.size(0) == M
+    assert token_lora_mapping.size(0) == token_indices_sorted_by_lora_ids.size(0)
+    assert lora_ids.size(0) == num_tokens_per_lora.size(0)
+    assert lora_token_start_loc.size(0) == lora_ids.size(0) + 1
+
+    (
+        slice_start_tensor,
+        lora_ptr_tensor,
+        lora_strides_d0_tensor,
+        lora_strides_d1_tensor,
+        lora_strides_d2_tensor,
+        hidden_sizes_tensor,
+        same_stride,
+        MAX_N,
+    ) = _get_lora_b_ptr(lora_b_weights, offset_start, inputs.device)
+
+    K = lora_b_weights[0].shape[-1]  # K= rank
+    ADD_INPUTS = add_inputs
+    MAX_LORAS = lora_ids.size(0)
+    CAST_TYPE = False
+    NUM_SLICES = len(lora_b_weights)
+
+    # Triton kernel configs.
+    kernel_config = get_lora_op_configs(
+        op_type="expand",
+        max_loras=MAX_LORAS,
+        batch=M,
+        hidden_size=MAX_N,
+        rank=K,
+        num_slices=NUM_SLICES,
+        add_inputs=add_inputs,
+    )
+    BLOCK_M = kernel_config["block_m"]
+    BLOCK_N = kernel_config["block_n"]
+    BLOCK_K = kernel_config["block_k"]
+    NUM_WARPS = kernel_config["num_warps"]
+    NUM_CTAS = kernel_config["num_ctas"]
+    NUM_STAGES = kernel_config["num_stages"]
+
+    EVEN_K = K % BLOCK_K == 0  # type: ignore
+    if same_stride:
+        use_stride_load = False
+    else:
+        elem_size = lora_b_weights[0].element_size()
+        use_stride_load = all(
+            (weight.stride(1) * elem_size) % 64 == 0 for weight in lora_b_weights
+        )
+
+    if inputs.dtype == torch.float32 and lora_b_weights[0].dtype in [
+        torch.float16,
+        torch.bfloat16,
+    ]:
+        CAST_TYPE = True
+
+    # TODO (varun): This grid formulation maximizes parallelization at the
+    # cost of wasteful thread block launch when only a few input tokens require
+    # LoRA. This might not be the best in all cases.
+    grid = (
+        triton.cdiv(M, BLOCK_M) * triton.cdiv(MAX_N, BLOCK_N),
+        NUM_SLICES,
+        # Each LoRA receives its own set of thread blocks for output
+        # computation. If some LoRA doesn't have any tokens to process, its
+        # thread blocks simply exit.
+        MAX_LORAS,
+    )
+    disable_store_stp = os.getenv("VLLM_LORA_DISABLE_STORE_STP", "1") == "1"
+    with _temporary_env("TRITON_DISABLE_STORE_STP",
+                        "1" if disable_store_stp else None):
+        _lora_expand_kernel[grid](
+            inputs,
+            lora_ptr_tensor,
+            output_tensor,
+            M,
+            MAX_N,
+            K,
+            token_indices_sorted_by_lora_ids,
+            num_tokens_per_lora,
+            lora_token_start_loc,
+            lora_ids,
+            slice_start_tensor,
+            inputs.stride(0),
+            inputs.stride(1),
+            inputs.stride(2),
+            lora_strides_d0_tensor,
+            lora_strides_d1_tensor,
+            lora_strides_d2_tensor,
+            output_tensor.stride(0),
+            output_tensor.stride(1),
+            hidden_sizes_tensor,
+            BLOCK_M,
+            BLOCK_N,
+            BLOCK_K,
+            EVEN_K,
+            ADD_INPUTS,
+            CAST_TYPE,
+            NUM_SLICES,
+            same_stride,
+            use_stride_load,
+            num_warps=NUM_WARPS,
+            num_ctas=NUM_CTAS,
+            num_stages=NUM_STAGES,
+        )
+
+    return
+
+
+def _lora_expand_fake(
+    inputs: torch.Tensor,
+    lora_b_weights: list[torch.Tensor],
+    output_tensor: torch.Tensor,
+    token_lora_mapping: torch.Tensor,
+    token_indices_sorted_by_lora_ids: torch.Tensor,
+    num_tokens_per_lora: torch.Tensor,
+    lora_token_start_loc: torch.Tensor,
+    lora_ids: torch.Tensor,
+    no_lora_flag_cpu: torch.Tensor,
+    offset_start: int = 0,
+    add_inputs: bool = False,
+) -> None:
+    return
+
+
+try:
+    direct_register_custom_op(
+        op_name="lora_expand",
+        op_func=_lora_expand,
+        mutates_args=["output_tensor"],
+        fake_impl=_lora_expand_fake,
+    )
+    lora_expand = torch.ops.vllm.lora_expand
+
+except AttributeError:
+    lora_expand = _lora_expand
diff --git a/lora/ops/triton_ops/lora_kernel_metadata.py b/lora/ops/triton_ops/lora_kernel_metadata.py
new file mode 100644
index 0000000..c3bef76
--- /dev/null
+++ b/lora/ops/triton_ops/lora_kernel_metadata.py
@@ -0,0 +1,154 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+LoRA kernels metadata preparation utilities.
+"""
+
+from dataclasses import dataclass
+
+import torch
+
+
+@dataclass
+class LoRAKernelMeta:
+    token_lora_mapping: torch.Tensor
+    token_indices_sorted_by_lora_ids: torch.Tensor
+    active_lora_ids: torch.Tensor
+    num_tokens_per_lora: torch.Tensor
+    lora_token_start_loc: torch.Tensor
+
+    # The V1 architecture uses the traced torch.compile graphs to execute
+    # a forward pass. Things to note about this process,
+    # 1. The tracing infers all python scalar datatype objects into a constant
+    # value.
+    # 2. The tracing cannot handle dynamic control flow. (dynamic control flow
+    # is an experimental feature in pytorch)
+    # 3. The internals of torch.ops functions are not traced.
+    # We disguise the "no_lora" flag as a cpu tensor and leverage point number 3
+    # to early exit from inside the lora_expand / lora_shrink torch operation.
+    no_lora_flag_cpu: torch.Tensor
+
+    @staticmethod
+    def make(
+        max_loras: int, max_num_tokens: int, device: torch.device | str
+    ) -> "LoRAKernelMeta":
+        token_lora_mapping = torch.empty(
+            max_num_tokens, dtype=torch.int32, device=device
+        )
+
+        token_indices_sorted_by_lora_ids = torch.empty(
+            max_num_tokens, dtype=torch.int32, device=device
+        )
+
+        # +1 because "no-lora" is also a possibility
+        # example: let max_loras be 3, active_lora_ids of [-1, 0, 2, 1]
+        # is a possibility.
+        active_lora_ids = torch.empty(max_loras + 1, dtype=torch.int32, device=device)
+
+        # using running example, [3, 10, 5, 2] is a possibility.
+        num_tokens_per_lora = torch.zeros(
+            max_loras + 1, dtype=torch.int32, device=device
+        )
+
+        # +2 for this because, the first index is always 0.
+        # using running example, lora_token_start_loc
+        # is [0, 3, 13, 18, 20].
+        lora_token_start_loc = torch.zeros(
+            max_loras + 2, dtype=torch.int32, device=device
+        )
+
+        no_lora_flag_cpu = torch.tensor([False], dtype=torch.bool, device="cpu")
+
+        return LoRAKernelMeta(
+            token_lora_mapping=token_lora_mapping,
+            token_indices_sorted_by_lora_ids=token_indices_sorted_by_lora_ids,
+            active_lora_ids=active_lora_ids,
+            num_tokens_per_lora=num_tokens_per_lora,
+            lora_token_start_loc=lora_token_start_loc,
+            no_lora_flag_cpu=no_lora_flag_cpu,
+        )
+
+    def _reset(self):
+        self.active_lora_ids.fill_(-1)
+        self.num_tokens_per_lora.fill_(0)
+        self.lora_token_start_loc.fill_(0)
+        self.no_lora_flag_cpu.fill_(False)
+
+    def prepare_tensors(self, token_lora_mapping: torch.Tensor) -> None:
+        """
+        Prepare kernel metadata tensors for the current forward pass.
+
+        Args:
+            token_lora_mapping (torch.Tensor): Tensor containing lora indices
+                for each input token.
+        """
+
+        self._reset()
+
+        # Check and record no-lora case.
+        no_lora = torch.all(token_lora_mapping == -1)
+        self.no_lora_flag_cpu[0] = no_lora
+
+        if no_lora:
+            # Early exit. LoRA kernels will not be run.
+            return
+
+        num_tokens = token_lora_mapping.size(0)
+
+        # copy token lora mapping
+        self.token_lora_mapping[:num_tokens].copy_(
+            token_lora_mapping, non_blocking=True
+        )
+
+        # token_indices_sorted_by_lora_ids
+        _, token_indices_sorted_by_lora_ids = torch.sort(
+            token_lora_mapping, stable=True
+        )
+        # start gpu transfer
+        self.token_indices_sorted_by_lora_ids[:num_tokens].copy_(
+            token_indices_sorted_by_lora_ids, non_blocking=True
+        )
+
+        # active_lora_ids, num_tokens_per_lora
+        lora_ids, num_tokens_per_lora = torch.unique(
+            token_lora_mapping, sorted=True, return_counts=True
+        )
+        self.active_lora_ids[: lora_ids.size(0)].copy_(lora_ids, non_blocking=True)
+        self.num_tokens_per_lora[: num_tokens_per_lora.size(0)].copy_(
+            num_tokens_per_lora, non_blocking=True
+        )
+
+        # lora_token_start_loc
+        lora_token_start_loc = torch.cumsum(num_tokens_per_lora, dim=0)
+        self.lora_token_start_loc[1 : 1 + lora_token_start_loc.size(0)].copy_(
+            lora_token_start_loc, non_blocking=True
+        )
+
+    def meta_args(
+        self, token_nums: int
+    ) -> tuple[
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+    ]:
+        """
+        This function returns the kernel metadata required for the current
+        forward pass execution of the kernel. The function returns all the
+        metadata required by the kernel, in order, as a tuple, so it can be
+        unpacked directly during the lora_shrink/lora_expand function call.
+
+        Args:
+            token_nums (int): Number of input tokens in the current forward
+                pass of the kernel.
+        """
+        return (
+            self.token_lora_mapping[:token_nums],
+            self.token_indices_sorted_by_lora_ids[:token_nums],
+            self.num_tokens_per_lora,
+            self.lora_token_start_loc,
+            self.active_lora_ids,
+            self.no_lora_flag_cpu,
+        )
diff --git a/lora/ops/triton_ops/lora_shrink_op.py b/lora/ops/triton_ops/lora_shrink_op.py
new file mode 100644
index 0000000..71a4e2e
--- /dev/null
+++ b/lora/ops/triton_ops/lora_shrink_op.py
@@ -0,0 +1,290 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Based on:
+Chen, L., Ye, Z., Wu, Y., Zhuo, D., Ceze, L., & Krishnamurthy, A. (2023).
+Punica: Multi-Tenant LoRA Serving.
+https://arxiv.org/abs/2310.18547
+"""
+
+import os
+import torch
+
+from vllm.lora.ops.triton_ops.kernel_utils import do_shrink_kernel
+from vllm.lora.ops.triton_ops.utils import _get_lora_a_ptr, get_lora_op_configs
+from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import direct_register_custom_op
+from .utils import supports_pdl
+
+@triton.jit
+def _lora_shrink_kernel(
+    input_ptr,
+    lora_ptr,
+    out_ptr,
+    M,
+    N,
+    K,
+    token_indices_sorted_by_lora_ids,
+    num_tokens_per_lora,
+    lora_token_start_loc,
+    lora_ids,
+    scaling,
+    input_d0_stride,
+    input_d1_stride,
+    lora_d0_stride,
+    lora_d1_stride,
+    lora_d2_stride,
+    output_d0_stride,
+    output_d1_stride,
+    output_d2_stride,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    EVEN_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SLICE_NUM: tl.constexpr,
+    # USE_GDC: tl.constexpr,
+    # launch_pdl: tl.constexpr,
+    USE_STRIDE_LOAD: tl.constexpr,
+):
+    cta_n_num = tl.cdiv(N, BLOCK_N)
+    cta_m_num = tl.cdiv(M, BLOCK_M)
+
+    pid_sk_m_n = tl.program_id(axis=0)
+    pid_sk = pid_sk_m_n % SPLIT_K
+
+    pid_m_n = pid_sk_m_n // SPLIT_K
+    num_pid_in_group = GROUP_SIZE_M * cta_n_num
+    group_id = pid_m_n // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(cta_m_num - first_pid_m, GROUP_SIZE_M)
+
+    # Column-major ordering within groups for better cache reuse
+    pid_m = first_pid_m + ((pid_m_n % num_pid_in_group) % group_size_m)
+    pid_n = (pid_m_n % num_pid_in_group) // group_size_m
+
+    slice_id = tl.program_id(axis=1)
+    lora_idx = tl.program_id(axis=2)
+
+    lora_id = tl.load(lora_ids + lora_idx)
+    if lora_id == -1:
+        # Early exit for the no-lora case.
+        return
+
+    lora_m_size = tl.load(num_tokens_per_lora + lora_idx)
+
+    cta_m_offset = pid_m * BLOCK_M
+    if cta_m_offset >= lora_m_size:
+        # Early exit CTA.
+        return
+
+    # num rows this CTA should process.
+    cta_m_len = min(BLOCK_M, lora_m_size - cta_m_offset)
+
+    # Identify all rows that this CTA should process.
+    lora_m_indices_start = tl.load(lora_token_start_loc + lora_idx)
+    cta_lora_seq_indices = (
+        token_indices_sorted_by_lora_ids + lora_m_indices_start + cta_m_offset
+    )
+    # Load all relevant row indices.
+    offset_m = tl.arange(0, BLOCK_M) % cta_m_len
+    ram = tl.load(cta_lora_seq_indices + offset_m)
+
+    do_shrink_kernel(
+        pid_n,
+        pid_sk,
+        slice_id,
+        lora_id,
+        input_ptr,
+        lora_ptr,
+        out_ptr,
+        N,
+        K,
+        cta_m_len,
+        ram,  # array identifying the rows of Input ptr to operate on
+        # input strides
+        input_d0_stride,
+        input_d1_stride,
+        # lora strides
+        lora_d0_stride,
+        lora_d1_stride,
+        lora_d2_stride,
+        # output strides
+        output_d0_stride,
+        output_d1_stride,
+        output_d2_stride,
+        scaling,
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        EVEN_K,
+        SPLIT_K,
+        SLICE_NUM,
+        # USE_GDC,
+        USE_STRIDE_LOAD,
+    )
+
+
+@torch.inference_mode()
+def _lora_shrink(
+    inputs: torch.Tensor,  #  shape [num_tokens, hidden_size]
+    lora_a_weights: list[torch.Tensor],  # shape [num_loras, lora_rank, hidden_size]
+    output_tensor: torch.Tensor,  # shape [num_slices, num_tokens, lora_rank]
+    token_lora_mapping: torch.Tensor,  # shape [num_tokens]
+    token_indices_sorted_by_lora_ids: torch.Tensor,  # shape [num_tokens]
+    num_tokens_per_lora: torch.Tensor,  # shape [max-loras + 1]
+    lora_token_start_loc: torch.Tensor,  # shape [max-loras + 2]
+    lora_ids: torch.Tensor,  # shape [max-loras + 1]
+    no_lora_flag_cpu: torch.Tensor,  # shape [1]
+    scaling: float,
+) -> None:
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor
+        lora_a_weights (list[torch.Tensor]): LoRA weights
+        output_tensor (torch.Tensor): output tensor
+        token_lora_mapping (torch.Tensor): A tensor mapping each input token
+            to the lora-id related to that token. A value of -1 indicates that
+            LoRA doesn't apply to that token.
+        token_indices_sorted_by_lora_ids (torch.Tensor): Row/Token indices from
+            the A matrix grouped by LoRA IDs.
+        num_tokens_per_lora (torch.Tensor): num_tokens_per_lora[i] is the number
+            of tokens that are to be processed by LoRA ID lora_ids[i]
+        lora_token_start_loc (torch.Tensor): A cumulative sum of
+            num_tokens_per_lora. lora_token_start_loc[0] is always 0 so that
+            lora_token_start_loc[i], along with num_tokens_per_lora[i]
+            identifies the region in token_indices_sorted_by_lora_ids that
+            LoRA lora_ids[i] should process.
+        lora_ids (torch.Tensor): LoRA ids to process.
+        no_lora_flag_cpu (torch.Tensor): A CPU tensor of size 1, that indicates
+            if there are any requests that require LoRA.
+        scaling (float): Scaling factor.
+    """
+
+    assert no_lora_flag_cpu.numel() == 1
+    if no_lora_flag_cpu.item():
+        # None of the inputs require LoRA.
+        return
+
+    assert inputs.dtype == lora_a_weights[0].dtype
+    assert inputs.dtype in [torch.float16, torch.bfloat16]
+    for weight in lora_a_weights:
+        assert weight.dtype in [torch.float16, torch.bfloat16]
+
+    assert inputs.size(1) == lora_a_weights[0].size(-1)
+    assert inputs.is_contiguous()
+    assert output_tensor.is_contiguous()
+
+    # metadata sanity check
+    M = inputs.size(0)
+    assert token_lora_mapping.size(0) == M
+    assert token_lora_mapping.size(0) == token_indices_sorted_by_lora_ids.size(0)
+    assert lora_ids.size(0) == num_tokens_per_lora.size(0)
+    assert lora_token_start_loc.size(0) == lora_ids.size(0) + 1
+
+    output_tensor.zero_()
+
+    (lora_ptr_tensor, lora_strides_d0, lora_strides_d1, lora_strides_d2) = (
+        _get_lora_a_ptr(lora_a_weights, inputs.device)
+    )
+    N, K = lora_a_weights[0].shape[-2:]  # K=hidden_size,N=rank
+    NUM_SLICES = len(lora_a_weights)
+    MAX_LORAS = lora_ids.size(0)
+
+    # Triton kernel configs
+    kernel_config = get_lora_op_configs(
+        "shrink",
+        max_loras=MAX_LORAS,
+        batch=M,
+        hidden_size=K,
+        rank=N,
+        num_slices=NUM_SLICES,
+    )
+    BLOCK_M = kernel_config["block_m"]
+    BLOCK_N = kernel_config["block_n"]
+    BLOCK_K = kernel_config["block_k"]
+    SPLIT_K = kernel_config["split_k"]
+    NUM_WARPS = kernel_config["num_warps"]
+    NUM_STAGES = kernel_config["num_stages"]
+    NUM_CTAS = kernel_config["num_ctas"]
+    GROUP_SIZE_M = kernel_config.get("group_size_m", 8)
+    EVEN_K = K % (BLOCK_K * SPLIT_K) == 0  # type: ignore
+    use_stride_load = False
+
+    # TODO (varun): This grid formulation maximizes parallelization at the
+    # cost of wasteful thread block launch when only few of the input tokens
+    # require LoRA. This might not be the best in all cases.
+    grid = (
+        SPLIT_K * triton.cdiv(M, BLOCK_M) * triton.cdiv(N, BLOCK_N),
+        NUM_SLICES,
+        # Each LoRA receives its own set of thread blocks for output
+        # computation. If some LoRA doesn't have any tokens to process, its
+        # thread blocks exit early.
+        MAX_LORAS,
+    )
+    # use_gdc = supports_pdl(inputs.device)
+    _lora_shrink_kernel[grid](
+        inputs,
+        lora_ptr_tensor,
+        output_tensor,
+        M,
+        N,
+        K,
+        token_indices_sorted_by_lora_ids,
+        num_tokens_per_lora,
+        lora_token_start_loc,
+        lora_ids,
+        scaling,
+        inputs.stride(0),
+        inputs.stride(1),
+        lora_strides_d0,
+        lora_strides_d1,
+        lora_strides_d2,
+        output_tensor.stride(0),
+        output_tensor.stride(1),
+        output_tensor.stride(2),
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        EVEN_K,
+        SPLIT_K,
+        GROUP_SIZE_M,
+        NUM_SLICES,
+        #use_gdc,
+        use_stride_load,
+        num_warps=NUM_WARPS,
+        num_ctas=NUM_CTAS,
+        num_stages=NUM_STAGES,
+        # launch_pdl=use_gdc,
+    )
+
+    return
+
+
+def _lora_shrink_fake(
+    inputs: torch.Tensor,
+    lora_a_weights: list[torch.Tensor],
+    output_tensor: torch.Tensor,
+    token_lora_mapping: torch.Tensor,
+    token_indices_sorted_by_lora_ids: torch.Tensor,
+    num_tokens_per_lora: torch.Tensor,
+    lora_token_start_loc: torch.Tensor,
+    lora_ids: torch.Tensor,
+    no_lora_flag_cpu: torch.Tensor,
+    scaling: float,
+) -> None:
+    return
+
+
+try:
+    direct_register_custom_op(
+        op_name="lora_shrink",
+        op_func=_lora_shrink,
+        mutates_args=["output_tensor"],
+        fake_impl=_lora_shrink_fake,
+    )
+    lora_shrink = torch.ops.vllm.lora_shrink
+
+except AttributeError:
+    lora_shrink = _lora_shrink
diff --git a/lora/ops/triton_ops/utils.py b/lora/ops/triton_ops/utils.py
new file mode 100644
index 0000000..dcbb8aa
--- /dev/null
+++ b/lora/ops/triton_ops/utils.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+import json
+from functools import lru_cache
+from pathlib import Path
+from typing import Any
+
+import torch
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+_LORA_A_PTR_DICT: dict[tuple[int, ...], tuple[torch.tensor, ...]] = {}
+_LORA_B_PTR_DICT: dict[tuple[int, ...], tuple[torch.tensor, ...]] = {}
+
+
+def _is_corex_backend() -> bool:
+    return getattr(torch, "corex", False) is True
+
+
+def _get_corex_lora_op_config(
+    op_type: str,
+    batch: int,
+    hidden_size: int,
+    num_slices: int,
+) -> dict[str, int | None] | None:
+    if op_type == "expand":
+        if batch <= 16:
+            block_m = 16
+            num_warps = 4
+        elif batch <= 32:
+            block_m = 32
+            num_warps = 4
+        else:
+            block_m = 64
+            num_warps = 8
+        return {
+            "block_m": block_m,
+            "block_n": 128,
+            "block_k": 16,
+            "num_warps": num_warps,
+            "num_ctas": 1,
+            "num_stages": 1,
+            "max_nreg": None,
+        }
+
+    if op_type == "shrink":
+        if batch <= 1024:
+            block_m, block_n, block_k = 32, 16, 64
+            split_k, num_warps, num_stages = 8, 2, 2
+        else:
+            if num_slices == 1:
+                block_m, block_n, block_k = 64, 16, 64
+                split_k, num_warps, num_stages = 4, 4, 1
+            else:
+                block_m, block_n, block_k = 128, 16, 128
+                num_warps, num_stages = 8, 1
+                split_k = 4 if hidden_size >= 5120 else 1
+        return {
+            "block_m": block_m,
+            "block_n": block_n,
+            "block_k": block_k,
+            "split_k": split_k,
+            "num_warps": num_warps,
+            "num_ctas": 1,
+            "num_stages": num_stages,
+            "group_size_m": 8,
+            "max_nreg": None,
+        }
+
+    return None
+
+
+def _get_lora_a_ptr(lora_a_weights: list[torch.Tensor], device: torch.device):
+    """
+    `_LORA_A_PTR_DICT` collects the required information during `profile_run`,
+    After this, it remains constant and subsequent usage is through LUT.
+    Refer to:
+    https://github.com/triton-lang/triton/blob/release/3.1.x/python/tutorials/08-grouped-gemm.py
+    """
+    key = tuple(lora_weight.data_ptr() for lora_weight in lora_a_weights)
+
+    if values := _LORA_A_PTR_DICT.get(key):
+        return values
+
+    lora_strides_d0 = []
+    lora_strides_d1 = []
+    lora_strides_d2 = []
+    tensor_ptrs = []
+    for lora_a_weight in lora_a_weights:
+        if lora_a_weight.ndim == 4:  # shape:(lora_num,1,size,rank)
+            assert lora_a_weight.size(1) == 1
+            lora_a_weight = lora_a_weight.squeeze(dim=1)
+        else:
+            assert lora_a_weight.ndim == 3  # shape:(lora_num,size,rank)
+        assert lora_a_weight.is_contiguous()
+        tensor_ptrs.append(lora_a_weight.data_ptr())
+        lora_strides_d0.append(lora_a_weight.stride(0))
+        lora_strides_d1.append(lora_a_weight.stride(1))
+        lora_strides_d2.append(lora_a_weight.stride(2))
+    if len(lora_a_weights) > 1:
+        lora_ptr_tensor = torch.tensor(tensor_ptrs, device=device, dtype=torch.uint64)
+    else:
+        lora_ptr_tensor = lora_a_weights[0]
+
+    if (
+        len(set(lora_strides_d0)) > 1
+        or len(set(lora_strides_d1)) > 1
+        or len(set(lora_strides_d2)) > 1
+    ):
+        raise ValueError("All LoRA weights must have the same stride.")
+
+    _LORA_A_PTR_DICT[key] = (
+        lora_ptr_tensor,
+        lora_strides_d0[0],
+        lora_strides_d1[0],
+        lora_strides_d2[0],
+    )
+    return _LORA_A_PTR_DICT.get(key)
+
+
+def _get_lora_b_ptr(
+    lora_weights: list[torch.Tensor], offset_start: int, device: torch.device
+):
+    """
+     `_LORA_B_PTR_DICT` collects the required information during `profile_run`,
+    After this, it remains constant and subsequent usage is through LUT.
+    Refer to:
+    https://github.com/triton-lang/triton/blob/release/3.1.x/python/tutorials/08-grouped-gemm.py
+
+    """
+
+    key = tuple(lora_weight.data_ptr() for lora_weight in lora_weights)
+    if values := _LORA_B_PTR_DICT.get(key):
+        return values
+    slice_offset_lst = []
+    tensor_ptrs = []
+    lora_strides_d0 = []
+    lora_strides_d1 = []
+    lora_strides_d2 = []
+    hidden_sizes = []
+    slice_offset = offset_start
+    for lora_b_weight in lora_weights:
+        if lora_b_weight.ndim == 4:  # shape:(lora_num,1,size,rank)
+            assert lora_b_weight.size(1) == 1
+            lora_b_weight = lora_b_weight.squeeze(dim=1)
+        else:
+            assert lora_b_weight.ndim == 3  # shape:(lora_num,size,rank)
+        assert lora_b_weight.is_contiguous()
+        tensor_ptrs.append(lora_b_weight.data_ptr())
+        lora_strides_d0.append(lora_b_weight.stride(0))
+        lora_strides_d1.append(lora_b_weight.stride(1))
+        lora_strides_d2.append(lora_b_weight.stride(2))
+        slice_offset_lst.append(slice_offset)
+        slice_offset += lora_b_weight.size(1)
+        hidden_sizes.append(lora_b_weight.size(1))
+
+    if len(lora_weights) > 1:
+        # note these are device tensors
+        lora_ptr_tensor = torch.tensor(tensor_ptrs, device=device, dtype=torch.uint64)
+        slice_start_tensor = torch.tensor(
+            slice_offset_lst, device=device, dtype=torch.uint64
+        )
+    else:
+        slice_start_tensor = slice_offset_lst[0]
+        lora_ptr_tensor = lora_b_weight[0]
+
+    # If each lora has the same stride, there's no need to use a
+    # tensor for storage.
+    if (
+        len(set(lora_strides_d0)) == 1
+        and len(set(lora_strides_d1)) == 1
+        and len(set(lora_strides_d2)) == 1
+    ) and len(set(hidden_sizes)) == 1:
+        lora_strides_d0_tensor = lora_strides_d0[0]
+        lora_strides_d1_tensor = lora_strides_d1[0]
+        lora_strides_d2_tensor = lora_strides_d2[0]
+        hidden_sizes_tensor = hidden_sizes[0]
+        same_stride = True
+
+    else:
+        lora_strides_d0_tensor = torch.tensor(lora_strides_d0, device=device)
+        lora_strides_d1_tensor = torch.tensor(lora_strides_d1, device=device)
+        lora_strides_d2_tensor = torch.tensor(lora_strides_d2, device=device)
+        hidden_sizes_tensor = torch.tensor(hidden_sizes, device=device)
+        same_stride = False
+    # MAX_N is the maximum hidden size among all the lora_b weights
+    MAX_N = max(hidden_sizes)
+    _LORA_B_PTR_DICT[key] = (
+        slice_start_tensor,
+        lora_ptr_tensor,
+        lora_strides_d0_tensor,
+        lora_strides_d1_tensor,
+        lora_strides_d2_tensor,
+        hidden_sizes_tensor,
+        same_stride,
+        MAX_N,
+    )
+    return _LORA_B_PTR_DICT.get(key)
+
+
+@functools.lru_cache
+def load_lora_op_config(op_type: str, add_inputs: bool | None) -> dict | None:
+    user_defined_config_folder = envs.VLLM_TUNED_CONFIG_FOLDER
+    if user_defined_config_folder is not None:
+        gpu_name = torch.cuda.get_device_name()
+        gpu_name = gpu_name.replace(" ", "_")
+        gpu_name = gpu_name.replace("-", "_")
+
+        config_fname = None
+        # only expand op needs to consider add_inputs
+        if op_type == "expand":
+            config_fname = (
+                f"{gpu_name}_{op_type.upper()}_{str(add_inputs).upper()}.json"
+            )
+        else:
+            config_fname = f"{gpu_name}_{op_type.upper()}.json"
+
+        config_path = Path(f"{user_defined_config_folder}/{config_fname}")
+        if not config_path.exists():
+            logger.warning_once(f"No LoRA kernel configs founded in {config_path}")
+            return None
+
+        # Load json
+        logger.info_once(f"Using tuned LoRA kernel configs from {config_path}.")
+        with open(str(config_path)) as f:
+            config_data = json.load(f)
+    else:
+        config_data = None
+
+    return config_data
+
+
+@functools.lru_cache
+def get_lora_op_configs(
+    op_type: str,
+    max_loras: int,
+    batch: int,
+    hidden_size: int,
+    rank: int,
+    num_slices: int,
+    add_inputs: bool | None = None,
+    moe_intermediate_size: int | None = None,
+) -> dict[str, int | None]:
+    # Add support for fused_moe_lora ops
+    assert op_type in [
+        "shrink",
+        "expand",
+        "fused_moe_lora_w13_shrink",
+        "fused_moe_lora_w13_expand",
+        "fused_moe_lora_w2_shrink",
+        "fused_moe_lora_w2_expand",
+    ]
+
+    # default config
+    default = {}
+    if op_type == "shrink":
+        default = {
+            "block_m": 32,
+            "block_n": 16,
+            "block_k": 256 if batch < 128 else 32,
+            "split_k": 64 if batch < 128 else 8,
+            "num_warps": 4,
+            "num_ctas": 1,
+            "group_size_m": 8,
+            "num_stages": 2,
+            "max_nreg": None,
+        }
+    # The default config for fused_moe_lora ops
+    elif op_type in [
+        "fused_moe_lora_w13_shrink",
+        "fused_moe_lora_w13_expand",
+        "fused_moe_lora_w2_shrink",
+        "fused_moe_lora_w2_expand",
+    ]:
+        default = {
+            "block_m": 64,
+            "block_n": 64,
+            "block_k": 32,
+            "num_warps": 4,
+            "num_stages": 3,
+            "group_size_m": 8,
+            "split_k": 1,
+        }
+    else:
+        default = {
+            "block_m": 64,
+            "block_n": 128,
+            "block_k": 16,
+            "num_warps": 4,
+            "num_ctas": 1,
+            "num_stages": 2,
+            "max_nreg": None,
+        }
+
+    if _is_corex_backend():
+        corex_default = _get_corex_lora_op_config(
+            op_type=op_type,
+            batch=batch,
+            hidden_size=hidden_size,
+            num_slices=num_slices,
+        )
+        if corex_default is not None:
+            default = corex_default
+    m = batch
+
+    k, n = (hidden_size, rank) if op_type == "shrink" else (rank, hidden_size)
+
+    config_data: Any
+    config_data = load_lora_op_config(op_type, add_inputs)
+    if not config_data:
+        logger.warning_once("Using default LoRA kernel configs")
+        return default
+
+    # config is structured as config_data[max_loras][num_slices][m][k][n] = {}
+    # slice by max_loras
+    config_data = (
+        config_data.get(str(max_loras))
+        or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - max_loras))]
+    )
+    # slice by num_slices
+    config_data = config_data[str(num_slices)]
+    # slice by m
+    config_data = (
+        config_data.get(str(m))
+        or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - m))]
+    )
+    # slice by k
+    config_data = (
+        config_data.get(str(k))
+        or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - k))]
+    )
+    # slice by n
+    config_data = (
+        config_data.get(str(n))
+        or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - n))]
+    )
+
+    # slice by moe-intermediate-size if applicable
+    if moe_intermediate_size is not None:
+        i = moe_intermediate_size
+        config_data = (
+            config_data.get(str(i))
+            or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - i))]
+        )
+
+    assert config_data is not None
+    return config_data
+
+
+@lru_cache
+def supports_pdl(device: torch.device | None = None) -> bool:
+    """
+    Refer to: https://github.com/triton-lang/triton/blob/v3.5.0/python/tutorials/11-programmatic-dependent-launch.py
+    """
+    # PDL requires compute capability SM90 or above
+    return current_platform.is_cuda() and current_platform.has_device_capability(90)
diff --git a/lora/ops/xla_ops/__init__.py b/lora/ops/xla_ops/__init__.py
new file mode 100644
index 0000000..b5570ce
--- /dev/null
+++ b/lora/ops/xla_ops/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.lora.ops.xla_ops.lora_ops import bgmv_expand, bgmv_expand_slice, bgmv_shrink
+
+__all__ = ["bgmv_expand", "bgmv_expand_slice", "bgmv_shrink"]
diff --git a/lora/ops/xla_ops/__pycache__/__init__.cpython-312.pyc b/lora/ops/xla_ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d7de05adae7d603ee97dbbe6a132b96b631cf43
GIT binary patch
literal 313
zcmYjNu};H44E5zwwY2Jh*b!@n=Ei~qY^;nRWwBBcrKkFm(<QBvk(m!*XX9I#STn-J
zR;dFL6Fw<OczAyA*?N}zHlI&{i^3-z2!Ky7{wf&A;f%>MWRM90BNAbPBrr0O0t)tC
zL=tvEB)|N6B>UN_Fgwg!o0eIB{7+y_`XL|Y_1fuja~qBN(;bnCsd8yt**b11Mc=*Q
ziIW`bLJuQ`evFtBA-=+aCH&l|##m*wT{NjH@@CO)mlx-oWv)oCl<k^zRVsf%`9#Hu
xYB-?~b*US~*mnKo(p1@&@@qHaRDK22Ck%Tjg!rC-xEJqm_c6VC9J?d-e*xyaSN{M2

literal 0
HcmV?d00001

diff --git a/lora/ops/xla_ops/__pycache__/lora_ops.cpython-312.pyc b/lora/ops/xla_ops/__pycache__/lora_ops.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4c89f1873fab43140f83b24ac0c0103e8f0b18ad
GIT binary patch
literal 5662
zcmd59T}&LudG_x1_PGD!#~6am(gfp6F_?q|Y*Qz+P8~<ot!vym#Lnq_y9ayR?p|j1
z2u6p5rBng+0gzHbo<gch!E&UyPj#e9Nu^4y)R(&uiPP3m9Mvy*JBK{AFa5sRyW_y%
zDpeD8bT|9WH{X2U%zVG|w?M#4pru{ER(=yE<R3Vwv``t?`lEx86(SLdOOrAC%c+hr
zCuhU1F&CTTRd>R{5mgxTlxONxFT?o8{0!qr2h`wLkipJ$NDYsL)yP<cBQi-nQ4zcS
zm0WL-Tjk+cgM-N7)Y0wP3MBEjI2+~&&;;eM<d%e6P8%nAWLN6R3hnk+s@n(e1$_55
zT?I<ICEpva>Ta5=lKkI-q(F_NgLOnYxbG=~`<x=Q4?esPJ|edyy;A)f{8%f<Yx&0V
z_T$?iKbG`Jjlj3<J2^*_d`LO~e>_i6Y6iK7uXEAXFHw!>qnzbZ)J!_+u!PGa!?BTb
zKeWQB_;d`AIyGbC**KLFWy4{LuY(@PTWip*5VLG(grvYFb~lO35z|${rrZ^1`<p_3
zyIRhX<5J8CcTPx-7C_`k%D)qjqxYQ^qswu($`UV<sO$Vpz?8bp%iWjL(y`NKn&K|u
z)VyR~&&W~1a;CJ5<(3uA$f_`iPg@R6vjkm}V-vb*@y0|vBU1rZ-E>-RMayJO!{XCA
zjT>-v(zIdVZHS`y&lh@4HPf3>GRMp~9hc2x)7gO&gOdYtZ(6z5o4IaI=vwboI<5BN
z>Rvr#^iHSaG5jI|fu78D%X4j9or=LmXag_~z~49x-5j~^3of2qI9c>G7d^qd9^ayS
z!Mzw<2rikcm)?2h?N`<#Z@+r`**^^ZerP_p;d#F332fEzes_uRyn72ckeNYbeRNdT
z44sPhQM$$Qke#SH!h=P{W2eirmJ3%}PB0OQF_1!FBs2ou4%<NeGTZna0JXLO`rN}h
zDnUx(CLxH?dZ6NA;jSh*K(}Qpo8?T@1Z$PR!x6J;Lwi|`S+$lN$#FSH(s`@A7iJ${
zqOp95{BMFU#HSSljUp{;6tCVAjMuWVJR?)wndO+iW_c3vbh@e^8U%dB1ZX`H*$M>J
zQW1u&I6n*>C{XauKeKph;narEyxRAP&{hmLtpt_>Ykf<Bjd15Yf8W*ksq4U9UjT{T
znqE7y-g&z*-|_5*Zy@g)ppC%AYWa~4u4yQy{K9l5tt1q4IBV+TG``bK@l;F|762>g
zH1OTsuE0giI%i!bQnCgrsDL%!%JqK}MeWV$3P_rD&GI0#s>qb5MpPNhIdgo{0lVHK
z47~5EQ6PVw9)vX%BLl^|2H$o|@|2R0qi&``+J;kyptE>Wr-=!Rm(`4Uoj#7#?p^k5
zaibO&v$zohjTzh;nypqp^Gi+FVyN0E%pwEhGIVp~o-eXEv@mqz%-rzYYj^*Xo{PbT
z#mR-q8)uPvzT>_xj0#`nR{NHw){^h3@2a2r`tz=STjN0%9j?V*mzD7e2tENlYeE!?
znaq!^1~#o|5**p6AiZ%(irF5XsP!qlbWj1=DuTs>hXQD~z5FwUMzpJ?s%qPwV18AN
zzq5SKv6o6E4s|r^&hh)tN)8qY8Xv_0Xa+!`4#@$$_LgMliM{2pxyduYVZiiN&ahWT
z$?=fA{!9KdV73w`amlKw!mYUIW02W+$(eKi$^rc&c>l_gWc!?f4PGSQYz;=WFM7bU
zy=c3`blf<}ARO5iAs%IZ&|^pb=t=P$W;M~aCs9v|Ea!=@XjwI8>XTq*-Qt8INwO9*
zlo|PIkGINjr)fUKctrpCuvoU+D&y*6+z}H}&OMA7jcb$pirZoN4@t9Ucc0^7aeJIe
zd{V^I8W2!r<DmoYbgqZwmNV#H7k71sbjBxcD%!aC`h=305ZV2xag!?3qN$5nLl%>e
zn&mjmv0e65*Ka$tc=VdCr$KGMoRG~4nToJN(?Nf_2t*>FY&};l0`Q2lZ>P!+FW=U<
zErS(CER3Fy3iJsuJj)3ciRHv-*91d5A96pooSC=;B&-g25+}Zo9X=4~G3cOnV(|&9
zBt=zB10x1XgJwrkAB&{&bSADz^jVn2WyZgtn<HQMkWk~IvY;%g3+iT2ECj{11M7$L
zCq_1cKbbpw&)>4?Z!h@U*SLcJdvh-oh2WdBH)fYE6v`=e?a*dNf1#uQ_Ju;nz@5HN
zI);kj$UJ{fXxtQ93qtE^UqLvuCcGDTH?STrh{rz>j^C|sSm|8uTou+j)~;@L4i-8G
z??einr|yh@q<*OWb+~Z)e4+Dv{%05R7f16Qmp1BuF)w@}M2exd)z{ai*7>!meDB%Y
zhc^4p6#CA5e4)^H7RLFmvxW8-3!xYDo)_<h4lGTr@=H_s_JJMygK@rjpb#3&dj{=T
zFBni=fPExtLvOXLdKIn+a=G(=7`7divUvv51cVMQ{#(cl%u2qU&|w>bD1JAQV~4c=
z2RAP3S3H_b>v6MN)H9}{YjJevi=cX_8P#msRG_j0$Bt+43oc#j!M3|bUCc-6aWDzm
zhaLJTV7J|pc_gGtVxTeMP1L%dF+mk=lAeI6i%8Q2-5e>2#NY7NrInYLUtYPoe08&_
ztI*W7?!Fz&KYwwfX|&)Q&AUczQ}wf88Pk(VLpCk1J;MBus4Wo?W(CKe0r-{*4&l)c
zfSizXL9(qr17IWNW|t%|%VVNtNgK+Fnxrk{+!V^0oKQ~00(gj%_5!h8aN<Lv94&Wg
zf<A>rPh*Ggh^VJVG28L-B+j404nrXAht9xi7?p+1R#>DaUfL;&{s4%QNUcH#QS<mC
zqvri!Xi;8}i=NOu|H0yp5W1GWJytmKT*3c*(I0?csgAGnZt<Rwd+zLmM&hYwVXhE5
zlJ^{eI5r<-%8zoRQEnVWLn}QOZKqhKTXpbg?SV83k6504D4xa6B@K4Tp=mwItd_8C
zo?`uFd20}OX;v#E#VWfep;NgBfY`OHl9ps@xe#OdYEbkrt_j%e;h|0A^g2b0v!2-I
z1Gz?~iYjYnJl&JX8m6wsCS|J0X^OsKKkl3<#bj@8d_W`>O}5;2X1D6jX{HUbCmk#P
z;Ykcxn58d^XU@!g$#N>1$<%X`u&c6F=owOVDVvs0)1QJod~F)<Ltk=o9Jl2mobNNz
z{CDF2oV4dj`{$%9Pr5!Mhd(DTmE6R^zuA1F`GLdDxwo9eQCC8!R8P3jobYDwMlc^b
z_bGYl0T8<9#^<M&vK!o?l7r_4moBYbS-t}Ae{OKS^Mmf2-3+`Vf24n?e}!0NcbJhr
z2$xsqo1fa?o<<SRtTw&V_I6u|0JtuHkiMB_;K!YR>HSmhSBS;s{fxBKMh><;@IB6*
zDEcFdBMT!XC&2d_TUJJvM@l@va1Iy^Ef19h9C=7<JL6u5BQJ?GZQ<(DC`S&oJg5tE
zm$)h?98_810C<&G3vB2i!G<lirqqx72z7DI)ztu37Xw_g4;*dp14mxcaG>Nv$WJ1T
Pr2s-f*xT30k!kbapZDMk

literal 0
HcmV?d00001

diff --git a/lora/ops/xla_ops/lora_ops.py b/lora/ops/xla_ops/lora_ops.py
new file mode 100644
index 0000000..4924890
--- /dev/null
+++ b/lora/ops/xla_ops/lora_ops.py
@@ -0,0 +1,141 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import jax
+import jax.numpy as jnp
+import torch
+import torch.nn.functional as F
+import torch_xla.core.xla_builder as xb
+from torch.library import impl
+from torch_xla.experimental.custom_kernel import XLA_LIB, jax_import_guard
+
+
+@jax.jit
+def bgmv_jax(inputs, loras, idxs):
+    return jnp.einsum(
+        "td,tX,Xld->tl",
+        inputs,
+        jax.nn.one_hot(idxs, loras.shape[0], dtype=inputs.dtype),
+        loras,
+    )
+
+
+XLA_LIB.define("bgmv(Tensor inputs, Tensor loras, Tensor idxs) -> Tensor")
+
+
+@impl(XLA_LIB, "bgmv", "XLA")
+def bgmv_xla(inputs: torch.Tensor, loras: torch.Tensor, idxs: torch.IntTensor):
+    if len(loras.shape) == 4:
+        loras = loras.squeeze(axis=1)
+
+    jax_import_guard()
+    return xb.call_jax(bgmv_jax, (inputs, loras, idxs))
+
+
+@impl(XLA_LIB, "bgmv", "CompositeExplicitAutograd")
+def bgmv_non_xla(inputs: torch.Tensor, loras: torch.Tensor, idxs: torch.IntTensor):
+    T, _ = inputs.shape
+    if len(loras.shape) == 4:
+        loras = loras.squeeze(axis=1)
+    _, L, _ = loras.shape
+
+    return torch.empty((T, L), device=inputs.device)
+
+
+def bgmv_expand(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    add_inputs: bool = True,
+):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+
+        lora_b_weights (torch.Tensor): LoRA weights of shape
+            [num_loras, lora_rank, hidden_size].
+
+        output_tensor (torch.Tensor): output tensor of shape
+            [num_tokens, hidden_size * num_slices].
+
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens]
+            indicating which LoRA matrix to use for each token.
+        add_inputs (bool): Whether or not to add the input tensor to the output
+            tensor.
+    """
+
+    outputs = torch.ops.xla.bgmv(inputs, lora_b_weights, lora_indices_tensor)
+
+    limit = output_tensor.shape[0]
+    if outputs.shape[0] == 1 and output_tensor.shape[0] != 1:
+        limit = 1
+
+    if output_tensor.shape[1] > outputs.shape[1]:
+        outputs = F.pad(outputs, (0, output_tensor.shape[1] - outputs.shape[1], 0, 0))
+
+    if add_inputs:
+        return output_tensor + outputs[:limit, : output_tensor.shape[1]]
+    else:
+        return outputs[:limit, : output_tensor.shape[1]]
+
+
+def bgmv_shrink(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    scaling: float = 1.0,
+):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+        lora_b_weights (torch.Tensor): LoRA weights of shape
+            [num_loras, lora_rank, hidden_size].
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens]
+            indicating which LoRA matrix to use for each token.
+        scaling (float, optional): Scalar multiplier applied to the output.
+    """
+
+    return scaling * torch.ops.xla.bgmv(inputs, lora_b_weights, lora_indices_tensor)
+
+
+def bgmv_expand_slice(
+    inputs: torch.Tensor,
+    lora_b_weights: torch.Tensor,
+    output_tensor: torch.Tensor,
+    lora_indices_tensor: torch.Tensor,
+    slice_offset: int,
+    slice_size: int,
+    add_inputs: bool = True,
+):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+
+        lora_b_weights (torch.Tensor): LoRA weights of shape
+            [num_loras, lora_rank, hidden_size].
+
+        output_tensor (torch.Tensor): output tensor of shape
+            [num_tokens, hidden_size * num_slices].
+
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens]
+            indicating which LoRA matrix to use for each token.
+        add_inputs (bool): Whether or not to add the input tensor to the output
+            tensor.
+    """
+    outputs = torch.ops.xla.bgmv(inputs, lora_b_weights, lora_indices_tensor)
+
+    outputs = F.pad(
+        outputs,
+        (
+            slice_offset,
+            output_tensor.shape[1] - (slice_offset + slice_size),
+            0,
+            0,
+        ),
+    )
+
+    if add_inputs:
+        return output_tensor + outputs
+    else:
+        return outputs
diff --git a/lora/peft_helper.py b/lora/peft_helper.py
new file mode 100644
index 0000000..975c3d8
--- /dev/null
+++ b/lora/peft_helper.py
@@ -0,0 +1,128 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from: https://github.com/huggingface/peft/blob/main/src/peft/tuners/lora/config.py
+
+import json
+import math
+import os
+from dataclasses import MISSING, dataclass, field, fields
+from typing import Literal
+
+from vllm.config.lora import LoRAConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class PEFTHelper:
+    """
+    A helper class for PEFT configurations, specifically designed for LoRA.
+    This class handles configuration validation, compatibility checks for
+    various LoRA implementations.
+    """
+
+    # Required fields
+    r: int
+    lora_alpha: int
+    target_modules: list[str] | str
+
+    bias: Literal["none"] = field(default="none")
+    modules_to_save: list[str] | None = field(default=None)
+    # True to use Rank-Stabilized LoRA (rsLoRA, see: https://arxiv.org/abs/2312.03732)
+    use_rslora: bool = field(default=False)
+    # True to use Weight-Decomposed Low-Rank Adaptation (DoRA, see: https://arxiv.org/abs/2402.09353)
+    use_dora: bool = field(default=False)
+    # Extra vllm field, start with 'vllm_' to avoid conflict
+    vllm_lora_scaling_factor: float = field(default=1.0)
+    vllm_max_position_embeddings: int | None = field(default=False)
+
+    def _validate_features(self) -> list[str]:
+        """
+        Check if there are any unsupported LoRA features.
+        """
+        error_msg = []
+        if self.modules_to_save:
+            error_msg.append("vLLM only supports modules_to_save being None.")
+        if self.use_dora:
+            error_msg.append("vLLM does not yet support DoRA.")
+        return error_msg
+
+    def __post_init__(self):
+        if self.use_rslora:
+            logger.info_once("Loading LoRA weights trained with rsLoRA.")
+            self.vllm_lora_scaling_factor = self.lora_alpha / math.sqrt(self.r)
+        else:
+            self.vllm_lora_scaling_factor = self.lora_alpha / self.r
+
+    @classmethod
+    def from_dict(cls, config_dict: dict) -> "PEFTHelper":
+        # Get all field information from the class
+        class_fields = {f.name: f for f in fields(cls)}
+        # Check for required fields
+        required_fields = {
+            name
+            for name, f in class_fields.items()
+            if f.default is MISSING and f.default_factory is MISSING
+        }
+
+        # Identify any missing required fields
+        missing_fields = required_fields - set(config_dict.keys())
+        if missing_fields:
+            raise ValueError(f"Missing required configuration fields: {missing_fields}")
+
+        # Filter out fields that aren't defined in the class
+        filtered_dict = {k: v for k, v in config_dict.items() if k in class_fields}
+        return cls(**filtered_dict)
+
+    @classmethod
+    def from_local_dir(
+        cls,
+        lora_path: str,
+        max_position_embeddings: int | None,
+        tensorizer_config_dict: dict | None = None,
+    ) -> "PEFTHelper":
+        lora_config_path = os.path.join(lora_path, "adapter_config.json")
+
+        if tensorizer_config_dict:
+            tensorizer_config = TensorizerConfig(**tensorizer_config_dict)
+            tensorizer_args = tensorizer_config._construct_tensorizer_args()
+            from tensorizer.stream_io import open_stream
+
+            lora_config_path = os.path.join(
+                tensorizer_config.tensorizer_dir, "adapter_config.json"
+            )
+            with open_stream(
+                lora_config_path, mode="rb", **tensorizer_args.stream_kwargs
+            ) as f:
+                config = json.load(f)
+
+            logger.info(
+                "Successfully deserialized LoRA config from %s",
+                tensorizer_config.tensorizer_dir,
+            )
+
+        else:
+            with open(lora_config_path) as f:
+                config = json.load(f)
+
+        config["vllm_max_position_embeddings"] = max_position_embeddings
+        return cls.from_dict(config)
+
+    def validate_legal(self, lora_config: LoRAConfig) -> None:
+        """
+        Validates the LoRA configuration settings against application
+        constraints and requirements.
+        """
+        error_msg = self._validate_features()
+        if self.r > lora_config.max_lora_rank:
+            error_msg.append(
+                f"LoRA rank {self.r} is greater than max_lora_rank"
+                f" {lora_config.max_lora_rank}."
+            )
+        if self.bias != "none":
+            error_msg.append("Adapter bias is not supported.")
+        if error_msg:
+            raise ValueError(f"{' '.join(error_msg)}")
diff --git a/lora/punica_wrapper/__init__.py b/lora/punica_wrapper/__init__.py
new file mode 100644
index 0000000..e664ffa
--- /dev/null
+++ b/lora/punica_wrapper/__init__.py
@@ -0,0 +1,10 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.lora.punica_wrapper.punica_base import PunicaWrapperBase
+from vllm.lora.punica_wrapper.punica_selector import get_punica_wrapper
+
+__all__ = [
+    "PunicaWrapperBase",
+    "get_punica_wrapper",
+]
diff --git a/lora/punica_wrapper/__pycache__/__init__.cpython-312.pyc b/lora/punica_wrapper/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..92037bedf7e9a2756e9bb5c467127b2703903707
GIT binary patch
literal 379
zcmX@j%ge<81UW3-nU;(U439w^7+``jKC1v3(-~42QW$d>av7r-89{8O9Hw06C}tp=
zIfW&iDT<|%Rg>){NQ)-pEx~}&yv*dp@S?<mg480X#Nt$-pip{hNqhlVBEB3VQ^X8Z
zU&I0={4`l_sg&j9<m%<*7bWVUDuZ#8fChoJ+|nSVv^X^<HMu0e2yFN*_W1b3oSgXh
zl?<OjF8t-8Uy@s(Uyxa#Tas7=be3*Kskx;^wt1?4PG*vRL1jrsex5$a3Vo1k^if@-
zA0MBYmst`YuUAlci^C>2KczG$)vkyeXfQAc8H#0r#0O?ZM#irk42;f<cNyG2uraVo
T++dOTz{<?c)W}}M2~+_9Lq=^e

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_base.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..03a8d847cfd054f6d4355887764aab8bbe82fda0
GIT binary patch
literal 18772
zcmc&cTW}lKbqf#x7r=r5N%0Mm%ZEgQB0)VZiIOc*FF*85EZH&b6tl!GMMxk3?*cMO
zQ;Cx*t<)sr=u1+Y8A(4CReQ$%v}ZCCXC~9hq(9hJQ?fhhRGqZV_z!w?GShyv=iIxy
z*aa4(7(4CSytt2Z&%O8DbI(2J+<WzRp-_N<FYWnZ>c0;#%x^Jad|o~BbRHr%8IhS{
zM3?AJyXM?e?zy_DIv1wv(w;f*l$XRkY2TDj^oqW8{Tw^R&iSYOE=KaoK7gxF2j+rP
zK^Nm@US>r0DkJ(O_eXWKjVX@g1|T;mab|94!4u;aZwC$wiX`&c%tYYGtdtq$PsT_2
zx1>>i3Vz=#KpcLjW((O-{wTzbNQ+R0FkAQ&a!Q%a2y+EFKf5r>PsaJ-9ou&7jKu?I
z3z<|>nBY$p()rZbIVmG#^8Cr{Hz)bmCHZnHb0Hp>&F6E<#Q3-%&!;ZOv+{*;VOkmA
zv2**j`1ZZKckKy$iM@}xwYtf}N3;eg%*#SDKPTm9vtrDph0eWo_E_S`E60wUc=hzl
zr@wSjXfBzZ%N6oc0ssXqoXln}OL9IjC**R_EYu5PH%`%Hk`jo9&3fYL-vZrkG7>Z8
zf?08kuBkf7Bf7;p(Ia^!n1RK5hUoxc(Fdt|_+#PEFM4M<F>uxMk&b4n9%=<8R`Orm
zq-R-vL~h27IGjtd1u^7YCN`{xQw&Q%n1APXN$+O@V#Lx@PV)E}KO=TQf1PWE)@#$b
z9vMgDdUeGnfbba<5u1^k&iE+pfzF$*dQCcqu=iqgjlMgNsj)^IEmFfe?FYnGOZ#D%
zXRp}yQ`d%ju>MT0Pdl7zJN??%r8nV$b;cMGJFfan8b`ju7&k`!_8PPDJbmWGPD`H~
z7re1<EkZ@nn=-6;Nd{4}7!C07*|K@akCSYzUY8WIA6BOpNoQptk;;hDd?KGsq{P#j
ze@>WBV78(KE@zX%bV5ljN?Jsk2l<q+<oIMMUyw6NpJmyjkP5=z(*_7`GI_J;`>vR4
zaR=!F_U?R66!H?EpOtuQYD|{WkQR9qYEUAWfDc?+^XY8<)wx_+nv*gBb4-@A@`HNK
zqe$r)nS&PO5C+(y9L695f#$pPo*-XP6p%Cwwg}&Uofyy0<;HWV+*lsUr2N=?Vb8w3
zm-a~G>D2UiZUH23X8dwGJvWY>8qX0SpLmaw)<{mnb`sAmXyF1G1Chhn<wZNmk>V8)
zUC@=MxMP06JnLk_{YAF#DWn+9wGh`_^I8L$3?ZT9h2$kk)VxYkNJ~j$Cq>Y;>3h&5
z+gVAT$;xvI|MIa@r+6OX{2XpoKt*0jr;?JwXJ-iM69Q!nB#?|-!~>t)3O{lbgKi9Z
zFzCgg4FUz{8=(Qd9im!55XFQtE2lD-7Q1Y0hcqY`jv$6k43H4|Xo0)*(T1{xJZx+U
z+C7cS&dewhBw?!ZNt{LFTbl+i)u6#zB$%!w0b5Ce0cczv#9%W7bjYa;bXTD?VIh~0
z#7-4yJ||?v8dRZ$`=F+xGewj#1)+~T3<VpQ`yZO)p3LRaDVSj7CZ1PvQZh9I%1S!D
zK=|MdT+?R-88W2wvAJnU6hU!#GnJo3#bMM$109F;nF2h*f+U0f1odU<-9kzR+_-RQ
z|M@J49U-5}W-5tT#YcpQI4oyAYC={aOF%MuwK(9&Pj;YJ5u?dhATWH>g_#*img7i4
zgL9B;*5;gD=FkZRfl9Dg@>xEe%1DB2iYRQna;W}Fej!VSjF+q%!a3L-I&u`f2Dj*o
zC~OX%Hs>HsDj>cENDRj5w=j+=kJlgZtM(Ds=9!b(3#q(vR?dRpP_nYYER|%aS~eAA
zC{v(%y;ul98e5Y91mco~06i80JaEfyC_4ARbuQMVv55p|@KPe71rmw5tXN26oJ%C$
zEeL77q&|@lv&lq4_CP(&lTImltuB?x%c#L>-h2VXCj4aO<gDfcWgkeOd1umDAusm>
zgd8K)rnA|!Jc{Y<80>=J0hM(`PRh71k^sf4@*mL0tIT7!+sl?%#<!{D=Dhun8hc7!
z_$~REuHIY9-E+4W)y|PpJ!Y}YrnZtFV*#e6y%fY4$8`0SLKurMfrclI5PMo@AS*?U
z*rQ<NCoMOlH=?(cVq?D=9JnjpPv1+c!5v0xT;qoat{*TO>gc&8-AUh0FCQuPjH~V2
zjAkP(wAltG5dJWFJ$lQd`lC<64y`sY-94+#ZI8nt7*sGqkb5Bx1LGQN^`#yGSf;vl
z%nvZ_-M3!9J8<h;H@;g6Vh+c&b(TUHYqIsH8M1ULU||nZfn%clV<ef`86+BZ#y;*l
z+-=SnZA-`Vj&>8XbI+6Jhy^>uE!Z*TG%m~!RF5}^`5Xh(4q>dpI`S~)G%<~>Kap;x
zZ=~-YDYg!&k>TZCYGk~GT`0BMh|vaFIx(<t5Q)*m3~hbV*kI`{#4X*$6n2*q15?;Z
zk_uuf0?ps#Zg98qYGj~<h)SDmjkZ7*Y4ouhVstx0?oYy>`Jpa>-_s|cP}t2;(GBW2
z8l_;6UPKMA;*;vp@R|Wr^{Quz6~Raa6V(s!e$#XfKq?4-VETbE7y`He7?$3Pxb`YO
zF)aFLJZLaZaZ(73%NlUbwQJ;hB=~Q}hXQ2AEjC(=(J*Plu_pl8WPyyV3E6CcY+Ms^
zlLfMAO~@7tWb<>-wH0W#Noo<>YSBz=*WCb)<0a;EhcgAm&h>DLT~aH|mLq1$2{7|f
z%ZS>f7UBkY0s8A)t7E-3o$HZtbgx%e>;VXmK@qVR;%oPw6M2gn-j2N&_pH%(=P`9V
z_gU<dI@W1FAog3@?}T~wiv!>Ws7*cR9;`o;>(dVB+D^a0b?Hr{!8&7%h?^}Yb=OxI
zqx0BnQGc+;tUOPjIdO}n&r!nDd&Qv|7>9w+V(>Qte<&5V)_@zWkxzRxM!4l`kc=~R
zL?$+g@vGjcZs6#Be*i!Eo%@QI#ctRM9Or_Rjyso$+iK)*uaUo_M*dEq@UGfao@o_#
z!?=4E{ILnG(PrGBn|kq|h(=zO&x08zN=oWN27Dx7lFSJi;ey1YiI$VIms6r-dQOOq
zhvr$1crOUPOOl+C(sBMAWX}ny3_nxIB++C;yaXL6yO@vlz~BbYOe%x^17g=9MuLVq
zyNQ)ZnueN2>sS$RfY(7tN)=t8R)W@wex*!dE-@|Sle3Zt{-#TyN^3#Pr+JFz6Q#@G
zok*f0ZhYu(AU>sEgUSp(CA4eEcM;Y6if_qP_Bma&V$tE2>OOWECj?7OqRy!PwPH2f
z{aUe_exS9nitgv4f!;@;f$6^!nG0|tvk2`#u3<N?M{oCr=#6$C`PLr8(#Ei&J^l4#
zC1+cRcBu~NfgDIa(E}+{DJ3cNKhiQUl%XS%rhJe>k7PN8u1WGOFtPg6aQNdD^9$fW
zc^NXlM0WlX=Y`m>U;Yn#$77B1OOT^^rMX;w0c_K3=7QEt*A8`-fb$mpd0Hf)2<Ro1
z(Va_j+A4DrIq)HXW3f45dRP<_I;dAmq@|1&PAJm5)b|FhBo#22F$0P&<YyJF&DL}R
z20&LZ8HW}i9%KTl1;{GLbr0@jvdXDDIgnBkIa!)XrPEq{CQI<eywr_y3`uYt10)M|
znIQ8MmkISbf>oc&r1FWxVrP}Gj2mTFp^n0WxB!1^12Y)AzyIF;Rj&Wz&7X`s82Rjt
zXLatuz%|c9mVf4B`nKE;-V54G`$%awln#&GfB)Y5_R?WeItZl(=1?)b`Q!7SOg)(T
z!dFHP_S^W*<u^VR9!z0l?f=$0c<24w?=SEFne_9EpI<C~<IRV?-@=mUZ=!v7PTW4R
z9Q@htpHF-~@vE7K(eqf)@tdJh+J4(l3wIW8FMhfO(Ch7k-L`q_HP4TNtGzt@gw3Bm
zlIrXwKW))#o*#465+g2iTr$LOe!9YOZn}>EfWhU8BJ$}YprTduF1eQ6uq-@F!0=9D
z_#<7YyaV%g#doFt3VX$WB>=Fx*g@pRCo)UEi>44Va$zTT;f~$OTr`(=xopYzk-iPM
zKv-QgmueXTu-0!FYrPGtxyWr;*$rc5ZCFk5V8iOKjr9j^7>jc`Ib!{Ro7z~8bn;u;
zM*5oq$lAKdbTJ^1>P{2EBja4e{4!2HU4dsH2B#6TLJr(u$!u;RA)m#<Z(#6E3|@yI
z7NpCU@R!q(42MT2ro0JPimTR&3`1HqRSPT9o`NFTbfX%l5iJS*)P*!=oF^>~Ifw}-
zzz2X+si!g{%7mh;T=OaiVaqDlN+OXDPh3CoG*ll7JP!H%fmN=3mFoh@u*&tUa&6#S
z@rPDeUS;`W-`=|iRt9#f1G_&J)PcQ4cHatnP-PE(!98S8t+Lz-+pV(Q#h$%)!z=u5
zl}9k%0v3MAo+V&|Dmz%*e7rdH;>yqwb?C?!lj_j%BKz_RdrAdNTt7$ye*gr5(ex@8
zD>m>e4O`TPEqC8l8)8Ms*!oIw?BL4SF?H<N7lJzW3TAMxJjSZO3xuz4E=Kwv1_mDW
z#IAW(*mjj|zul;^UG%J`kxFsmch3|5r`!mHN?H{#R2Yb?5UXT`!GrGr%oX>Qx+|V5
zUMdxwr3di4+fh;&5&_$)_?Fy8D?}ogibfd>u-0uDYn=_Nvz+m47^}yE6;%dP`YoZ#
zV2*C79#ZB=mRLxcvJlp*o37VbK*k#KISl>;g9HZWF?a)mw=j4U13WX3--ZB|H#y{!
zAg(pRA)L9})9KY3%iDcI&uS*qZ)gcR8#v%ru#e`tr2BQdu`2aFzkF&sQhQ-m!u}fY
zD!+sP_VXqt)KTmh`3G+6<3<*jA*{acRj!vTQ&_3+f3v<KqAD9Lc25+0x3Bc>QG54%
z=2CknitPRsc2Z?0i-*rWWY3dz)}gW;#m*Os(Xo~2PBpso(@8b@LXq9G!oH}oFBV@q
zV_%R*ibE4CLx<F%Ltiw)sw}ccSJ>B7_BH5*u^_uP(@l8L`qS29?!`%c6N51^3^D;(
zK&ueBiQ5|HR(zt%dC7Dlywm2o7QD%J<wn-TZ(Z(s6=>CD&@vXtbyzAhzSn_ig|`4r
zz~GN_c)|!)B&d-21;d<Fc!4Jun=&al^5@?Z7SKu+l6d+=Y}AZ|Q9)iX@fd=h*q%D$
zm`8RzHGlypUY#OFtx`U_!mezO^W`Og3hxAej>tJYCWn%OlmWYzoJI4wtdc_GxdO!w
zib7YB9qa35_NI5n={dZyuuNsziUOA&7}!LwA0@`O0LD9B+kg(5L@<atwjJC7LPp^;
zaC(U~mDy||E%MXgG9ZV;qP+{d;(S>(pWqLpfzIQt4_=r7o1Ram3kv+gF)<IWhD;t$
zlPO}oOLla-<KSh0J0!#cfKd>y!+dJ4FjpoeErcPE`6R8|k-QLxIR^&;F&!uplIFpb
zn3iOvM%B|X9~Fc|FqLJXDgI(EBKZ_tdHUIFq*Bl<_E!s~N|=9v`pPr}A221J2{o>8
zyvo6*zvJ$%`v>nGEOI+nxyTCFt#Yu%kKgs&58n$HxosqKSmlO`v5DnfpB#JukYJQV
zK0I^%jQyt+s*eOpOuauq_F$W+Krul?1=@zSMFr~5S850VbQ5$kupsLe|H@>b8mke#
zJ5~;ag(Sl*fLs<B5_kgErX&Ezkohrj*`}7CEVC=W5%we+DHzH`<C9Slg*a|qT7yL=
z0d7)II2lS{lch{&(Z#{)Ijx5JJs?qrAb?rrn9iP+j+ojJTkcakMz1xjhMQNyLuz<v
zIlSCc41=n+_m4d_d6S&>sR5x`z+0_$v1ps4%8MT+ru7f=abGZLj+(wf^X5twy@K$v
z0KkiV)s(KN$H3}SMhr6d4y^RV)t>nByK2w&BHKmiJgA02>D^b{vacA1-Fo7WP3hN6
z`q(M0dpKcB(zhRQdJ-=RuaC(P%VqH;zh<T1H!SpP(wR{=ZBRs7`Bp}GvN*gh`Sj{=
zJ=&yVfa&R9=^j(N$Cd@Pds~t1Bvjn0hPM_+4}#`j3?C}8hpMTFIs*|U*y%r1l!$IH
zQbC{?rYI3BH=duO)O}2LH_F#|TZ?dW+4d{nOseE;e(ftw<%#(c2Wm1l8m<Oox0c&6
z4AiR0Ndml+6sfM-h!e8|z=;&;-?GxTUG3ZcX`kA+tH}14V&rdJ#jS^nqlYmZKCFg8
zg*-wh$f}s3Zcp6be+dyXL4dvTEBj+ULQffdU<J9HJTvkDC}%nhg`^?mT3gkNKGNI5
z3;JMvm@O|bFx|E^cn{7Uk9lMfYRXd>T*M%YK??-di<tC24DL=&vZCVFWG52yB)|eO
zsde42vS4mE7h5*pUHEjQ_|j>rZnF&6yb|pG`(XDY+<9Xv7h4`&8JSc^CLeN#S9|)e
z9sTi{M?C}hL&!|7IL0gPI6nWCJK-15Gn2>9Zs^9PS?zTR&T>GZQYOqS<oy(?H?okq
zAPs|z7{;ZLFfWG2Vr5`d`4-+zeVgC<B0oIOA0n%!3<@PNeuO6%NdsmJlW;M%0tG*O
zJ_9=K+vKj(+vKWKoNB<Md^{fi_9$#MaQ#Wo`*v)CKSQo-^3)DgOx)O^d4AXm4ZyGB
zT}d6*25KJ})Wf@04($UD3Oc0l?@6f(vw3@yWQ6=Mxs(O4uY-n)stFuNK~KyBDf6yk
znHJ>EtK5eiiu{k=*R=?8w`(z4EsgOa9=-1xN8St&-h8&ras^EufV}d3QS%Za<l@#x
z*E2c-E3ZfkzpxrdcAi4MsC9`KZm^nUbzmtR6TMH%zo<v3bKk6l5VaW3yrWymcvy*C
z*F~(>+q=MaHp~dP@b<*0-u49T%T`jCu<ksvu+F?@b52<FQ2@7-%H>fz@^l3k+E}){
zEnx3}WjDG2tUPUJM#8D)FxF@4X_KjKRI`!PzyhbNbVUM}AA_eq3zQIm0Sz{Leaj7M
zei$l36*R_(8H=mKuw-FcczE9=N;3jn5+_H(+iaMS<LPy0ei*Mg0wVsX1^S#^kSrWX
z*A%MJ3OWanzW7nGAA_7)tBPJJe#Nq?Ub3#LVW_$R`Fs=bn8Wx=x1!6u@)d4H*I1Ve
zD7sC_ZF0@m$=Malz{<Ggk>LzgF|I}C!<^G%lUXYqAP!8T^9Y(Lltr)+{3wTPMGmQy
zx}(S+4#payCmk^LtrX0!@t$JT$|qxhVuQE8g~Om5+L>kT3*aVfjcKhVOl$7qNEUM^
zH?d=`@u8567cvTXqu`O^@V1yERJ95~-9}J(l-}isXFl_zJV@h-YAKCvRm<UxVlXrg
zqvzJ&SlluIa|9a~-~5|!c8o5q<Sgn*B4|uwxinlqv9t95i7sMqvT7Brqtledza7t-
zI*lFl57;W~2<Vdue)vodU7JF>rXq-{pH=jq&SoqWr|WtfuIuVk0CF$hN#i${Hhuf>
zJ(T}w@_?WJxXZGz&9i9$SVxa?S@o!OWPeSEh{>Hb*0@eIN6ovec3YXB2z$L+<ud#K
zllZ1gs?ysDD+{$GeiftJwhLNXtL_GvyP7vG?EpVob{Qvb+=<*+t%vM_?6sMZyfXP~
zWJX=Z-)rGTjm>9smq3)ly%xOHMtq5Q#|2IgF3~$KLCgo0297oq4c@m1IdGyU;H@}3
zEE2T<Ey0)DS_8P067Z@7o;M=Kq<PAx^Evu0oS#&F$K=t;G+Ylv-3@Qmks|`VX%LLC
z|B`-<p^hkm#4KbkDMa7L+k9hqR4$r`=2G+Uu2UMz&WsrthEHXW#o)o0lq@*B^fC?;
zzXQFLzl*^K7<>-{G;-wcWALXKT!p|vGH4xhS&8oMV7Fb!B+67=+*)mb)dc>fWwLnd
zWN~D&bi+}L=%l9pUowUIWMI6tJe>*9kn_epgb+E@Kua79^Gli^P$n+n@kG+R;{~Hb
z(Nuf7E}B#}Z94&OW1=e;6b5*)3X@Ylq%vm+6m+xVsq*w3qrAn_=^^j*%2J((;#ioT
z^Hx0O9KgBwa}2Iwa2<ocz~F}%{0IUqL@nF|oWsqeE@&Yj5a_;olFX>q2-avqhOGy<
zRwpe|!Yc0|P7i>~kNe1I;U$)|rjlnu{UZ=mejmGquSVtF7`y-hoPHmVxsJzr<vp0S
z7lVBmOke>28U;fx&e0obb?|R1$nRj@ehi3@>LA9@N2RgG`J?<I=A|(pek%cE=#!O`
z7@)(7JQ0%*VXPkmv}WW<3{Y<^zx<N_43jr7IE(@5d^^UD8o?EaD2KomhtI$~@C=L_
z@OD4q2TES}g|q9{j#53wSmU{kqDK0k`Z4P@SFd-3JQjmr0JS|9!z}t(3}f`M7{>6i
z*wYZk4!fGYy`OFV`RM1PB?h9u+VvEFN+XP~q2zAy1|Invt`$C9y1sPl{GE4hzq7pi
zlLHS9eAfI~@{66t@Nw1u@)IvW;S(PUUy75M&%5vLvHK_QoqWPTR4;}Yycj}2pLhS=
zmiy6rQ7qnX7Vp=Kz1~UJviB420r!N#xDJ3(xI;$~9Cei&IBG!nyhmN7NRxMvPy~J}
zDS}y)A{e6-!5F0o#)ipLxi<17s@C%~FBAi2<H;DNoE~*yegGeD1u<6fR1UImSn%2p
z3wL15d@9#td5{Hh(p0U!)FXgX>zHqUDu+4rsT{^Cp2|U%-XAPH<iZZow{k6(-ay<k
za7>k-hhYjR3UB2wRxw=2($QlfFv%u(DTZ(5`YqTYZo!Tzr-5O<(_1;rr*GvjW`8S(
zIW^zPVPVBvImptxi-q8Zfd10Qa$T1GLfq0{OqHpDsq$kvOjSIV!>o$Oa*(CBiiNMa
zn62Zhy@QX*d%~u+o1-^IOJ01t=fh{8^%!F@=Eqn7rG)-o5T1wX?*%)1??i7$OXRI!
zglXx#dGf}|ySvm)L#0Nn)Wmdj)3<`ylj?<D4DV6>d!M!->|qzv#Xs(CwTvI)mhoc>
z#@|gPh1xz+@?#bd!IBlkEMUSYzF91VFx3Ef?~L9aErl^<^s>~5sV2OR%iZHj&6wK6
zw0D(SFxHAsVB0VjW#|~6bwi2@SCp%<1|t5oI$=5~<1S2J^!nhAHTb(^JoeD9Q-dCp
zR_MJcR1LKV{<9BpR9WL>A63Y|k3rw;5{Ye>;u?E^z9oK1z6I5B(^qiMDb=}LuE##F
z%k%pN#x?lQ4F6k(`yI3GU+W_O?iqas|CEud|0l{bI8AZ&KRaEQ^}70t?Zf}cV1x|g
Fe*w_~wtD~o

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_cpu.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_cpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b34ad7d6b9d1911d7d4b68ac1c905f88f89186d3
GIT binary patch
literal 13293
zcmd@)Yiv|kdgspjX^(BNF$QyE0(gS436N%?KyY{jNMb`EBx{0(>$!LAfjcwKxz`xG
z<6X2xTC<H3TU8fFT`A6X)i`ycCQ_uORi#FiT4mKA%LJ(1tNoE`^P~Aw4Qry^?VtAh
z&bjx_8<T`=fAq*c^PSgs&iT&wJm>yvI2<65RM(#+dmkg@*I2NU+XR*e0Ju(MA`2=>
z2?K(FutRkWIN;Z*I#aFzSIRx$PI(4ADer(c<s0y&`~!aI=aSuOAQc=43dBL4A+qNx
zk-bWA!O3wCgvK3F-xpYj3Wo2Xq^i=Os`N!YMsRQ_bt$G?9+A?r(NI)~X=*aAnC;py
zO{OmzL9MuRQNilWs(9xw1U_5CiP3a2F1<vhkr9PHEon-eFN)_4W?}iCfDYG*LIwnx
zz>b9hr|eK%vJ?JYiu*#Sco2sb?}V3-ghzH?bq)Ar5A<rR>;-hFUhk_>?^gl|pBw<3
z!H0}92slFz4QEIR!#cx&v+g0|tOK0&4-IEMoL~h0alIkA0dPmYCESgGyTMQ7jo%Xf
zrmOCO#)pQR^Vup`a}(fPRf8K>CmgN7)YV&&|7-Gh^GY~nzJeB5!D>GNx;=WIy?y=l
ztyys$t<b|In>&@)0^BCA172AV^ltuI=eedjy^seP?tt75xLf3P@`j%X_t|xI&9O3N
zSKc$wUM}6YxFVg_vGYdSMC3=VdIr{f?e$mRS1qcEHK<uwPe|^7^|X$!i*7O^B?|xG
zi5Dk64~US;tHq=y%8Hg8N-MIcXT+40mWC7&?2tG@GnbOGBBm5wk|kXd6B#P%!-_b<
zYzaemQK4x??G{f%bxKO6#l&bjt|v2T#LLhn(>m7UI8B#yMNFmvPfB8)0AgsKA650_
zw&yZ0^mehSVWc%X4g?$uO-OO2u!M0vL*v8dQpC)N*3A$Z%_-?}EIpcv4N7`^Sdn9T
z=Ax3;j3CzYI?eFN$|W$XaaWO{@&Fu!|K(kfT_-vkPL?h>EU56CC0QZs$T}BH3<4P^
z?+SfU2SpTyFBVItlX@%`bsH{CQ4_Qds%brD5$xc(I402{O+&8(PeuIi<2`z6q-P{K
zvQ38;Mc;OL^vT`dx%i~gqb3J?M#lBwOuFZis-}9>43&EL5yZy0J-3SSk<spvaoPk}
zCtAx-y4zaRdT7>Aon0aK>WF{sqOT+8>zLbhGy2rWZJ#9W_+DIwMq&u#hH%;Nj>YsC
zxGIKQi%Y5!w;Uzxf-pKa%P&B7on*-c_$^OV7$>^v0uh2#%L+qI=vz#EbI?zPtZPPi
z-}5>_ic)kWqE5q`&ctxn)DLANGD4L^QdMIXU%u<6tDu3d!3_6B*J9QNS%JW`8Hz@I
zjJriK6URh_Jam`!*o;_qLw1GaBP0}gWABglE`=I@<!f3Bg_lB@=e-_(Anzk}jf>%q
zT(~3e$8vy#8}9`HqAf7Gglu3hINAOPfMQnT!~xP&V>#D?N%{h592B|MXk<LjNCbQ*
z17~Y=12mNHzRud4ti&_2GO?kOMNIPW4&Ol>NK4KrtEPLW$L55&U5gv{<TmcParln!
zX|_2dAjvY!JTj_lB^&+2@CQYPrbtxU4p|L$codq-2~uym-1lP#?vz_SdJ)UlWQUe-
zpB+%7Xa{DDZ;}2?y>RZYv$k9N{LS6+4ySOlwa@?f9p5wj{C(rGOd_Evx)B=ZK}bwX
zPAG9a6D!%gzyqv@r7N=T86oSb&>5U3d@woZ32#*u0YM<4TQOtYfy-s&5=Bn1)fT~6
z6lU?j#O6x5G3i#)?-f9&Jr5bEj#b5~qqRtN_{vlVmO*u_&Ib_+k#K81j8Gj3x7@1-
zh^v!g%A!_eT6hlt53WwK?yP6Q#8a$N@Sr#kZ39TFAj+yzqL{q2X$6|_ZWJ*-0vTwO
zMld}<h^etzVRqMI+m2k@jt`FBP(L~TrPEPun|PRPn+X7F8k<mc?U@c%H#n1C2g!Q5
zG0(afNl>Li0+I+($Hb4BTY+400$dPqT$m?wUK~HWr_18{Jr=OFnETId-FNwbX*|!{
zSmK!!s7dDibctibN$_F7Q_@D0I^G3X{*B%JnZwUNFJ=-Vn!hcB+{eMi^nqCnBsGgA
zX*aBxZig)DdjL*1A|?C^KAVQrMZ}mm^M_+_SD=oYr#;bLdBDZ(--q!Ux=z6CBH7yW
zw>^K;Gj(V&wE5G}<{SFrQ!nS9dO7bT{?@x5$YvX6duPYyeIImv9Ju3qw$eo6A+W>#
z7XaX}g-Lf-xM2HaP-!Mvfch%tQWnq?STI{Ah3dyokzLFKw=m)_V;3YzS(@|!yLc>i
zDR_Ud26X(&Qr5j-u6R;_s~@M7fTDf0W&BjkE#f!f5~;u?FAXbc@qB?zfYr{6IvrKI
z#H0>hHMk1kk%OZ?EI|?eG%-F(sgl;!apZG*t){z#9{dmt#^?b3^7EEMVYZ(yxc}O4
zW>l5MK}7_wQB~x^qWWPZ9ZPEFB5-yELJ;&w%JEz1%~mV6u$NVPk}v)T65g!2E+v&Q
z@Lh)`xcAxt2Si28HbQ22u`MQP(dyO#9Z16svQ3AKfaw^as8nb~OHz2B+LFTC{~XY2
zXCVVgX(kPgQ*O|LZydRHWO~Q+tJlY7#%AfvpWF&<oDx2JwDX<*pZ22|iJykV8><#~
zKbPD69EwpBic!<_<I~b?%iN~hzD~q(?Aozu<yL6jHGv6Kw^4^`BPPY**y0xzxx_ca
zU9fm(9srOqM-Az6Jb-jLbTk?)>83>iPv2>Azx8{FoLfi8qz7aUZB|(Vsq&!AGAEcr
zu7ZTU*6t!qhW;Kz+GYS#hBT4sNv1th7)p+SDrL4<vy^A-|Fu}y1UscbfUhUx+8(<K
zqxvK$1CdJUA*EAQ(w(Jj6O9%+qj?xVn>;6O-6wWl77sAPRNydZiHeVjEK&^EGxS2J
zTZTgHd@&8T1ZVY8II6QOmhV0dae9V!iQV1Z=epqX0OEVI?p$<_*gvX+;S_b&Nwaa|
zf-Z}l#l4~PF^ombz9n5tcLw8X%nvwt*DabjrX+`k_0lQX4#m!dnvrzqdkU0XGCd^1
z9R;k!vf^+pp-^V(?KMyg`TC-6`Xu~P46qD0qr2e*!qdG_QK^mgVPDinbTtm}b1yR~
zU#?U|ED|&IP+Nt?#xRXH{xu-7eA8VdTvt{9eBRpr6K!t)tqnW=t##+rv87OCG1Q(5
zwa>mf*ZO95{^SRBH^y_@kA3pQozTg<PO^3vj|RBb8ML&H5zerq<AH%@gm|cc%~Ur$
zRMAIiy00WwK<&VE(|-ZLtiSIYT7UPX|ABQBL<N(9nmWpn4KOX`G=KfzHu4(JdyWOu
zmk>zSuAc}4KL2Z7F7RTidI`RTf|uZox}?*!H5|%nEd>YOq0MGh#2f{smZ;ljRW9l{
zh;f^^Pb@h_5OjMo?1TwjVo<jj2kzlNTiIBqEH0zcFx7=UT{SFxB<dG7xUi?HTBJ<w
zOO!;x<-pZ}lK84Br&x=Wia*m0_BK{lBZIaYDWO^kNi8gJ*~xVv=#|5l6gtic0T?i*
zE*W3Ab`d)VGZ_^|h=-Jf1SXK(zMckGuRsN+d)^gTtP8GDK?TvLK+Na?%+Q0Uc)t-1
zmd6nXvFQ+IhcSB;Gt@^E!%ib;O0}vablM9w8VWEH-b_5GVETy%9~0H}6L0)y#PB*~
z;3Vz3uamUY+%XmWRSiwG6ls9J>F7*oDbhYWo{L16B5g~N^|Q%bq;silQ$9?>8}1Qr
zxDGD&!fR&t&9~;-cIHAmuRWV@0)+-~JLtwTzpBKILV;(hY7l^j7M0crGcY2R&J_m{
zy%3@$!GlMJ1W_GP;>iR!^(y%9DC}o4acS^`M9~FT52pqdSq3xpQc@qryY`h8#yHBM
zZRTx;f0#m9Cc(urS72S_p$eHRau6(YU63>LJ;36=Dw1Lf3cga5$_d2QJW|*KM@plR
zRhncb47Lau0W+Si8Xh#_<ZShdbpjI`tJ>z$PH6lzjOjrJy2+;K1H=OD^K0+;xEY2|
z3_OFQiG)IFAK<X<E7}^2Y#Gz;g3=EiKlGQ}8rgn(;SD6~TEKCT;*QIXi=9B1`l42k
z)ru{e`#AZ5AP~&6-Yb8cb;<1U^a957Wl6T@`caX6p7KvQ5)RpQ)mMlns?BE2dWbBT
zc&!?CtwS#0KFd<pdktS8+zD5bWPLvqUWb)JOiwNZ$~r<3A`&lHcTWO7?2tW4!RilU
z=#`#^?F20LVqyrQ24M%V6S#tkM7L2zh3HyljJvX^)w0cY^j6I_+pf615^F{Hi#E3#
z0@hbY6=g!{+#apktI~((PY5u$OH`$Cg~q_u>=MDa@2NEUI8UWn|Ed_QkO8rkr)YQ4
z2J9Vtb#Fj?2_B8ug~TuhIx>Vj+eTD)R4i39e~@6Jbjk|Nwn9)+&~l}C?i-YpcKsTj
zM=1iXTEx!&5q!v%)S8hT#%{$vNna*iMDad~H+0N1iJKaR$swB6o$$Xr2iadZo`vgJ
zG_L2s^_Ub2x}e(K#5Lyy`!)gwn@J`MCjM)nTXd_s>g^w3sG>RE6RZ!pek@!U1oGN5
zcq8$?b4&nxfxCFuVYp>|9AZ9v<Aos4a5Lj(xF-~v(cmQ*{5QkPV#b|2Sf{AVaCC1s
zgqR^v_H?PaV5lfwxx(Eg|K1@b4Yq~upV(R3VsL%ay;lWmuWI|d?Lm*jmNkqXfA^o{
zcVI<`v#stwT6awM-gA<M=Ig<k;Oxn_&b)bMuJ<p$J1@-keYEN4+dka(iSSF`FMNxU
zlQ$zL|Gjm`?=?J(KkW_n)^XqQH297Opo+c-8SD|cmAjBnW9@OsqJeVnk;SmgYO+A~
z5cWj7#9hem0;Hh^7RB=-O9was>TTP}H(BMuwyXzyh)1;d0oCu}jp2|$B2Cl#Z`F7F
zEI!|TYxC~g_5J^F>f`md_Vs^S-+$BBpJVyW`u@*?4O9EkNqjXId1NuNITzVHM{h+Q
zo9eyiA<b>~kaRpA-gj%m<F{LPEW4p*nK+y4rjEeluYb*y>y7$r^|PKiVQ&8iPvm?D
zZyfp5cW}wq!W;0Z<I?o^<|gmr^Ttx|;XM02*1ueM?l7ZAV0J?6`?-&x^iX2pZ*;?#
zbybxr!IG*;f7WxQw_vZUNf6vIR+CKI2gv$CGA$ZZx5$oapCG>HvLtiTqvJ;wEb)6p
zu<R&}WeINP&6Nm5Z?YQUX5R%izv>9t{hp^V1|oS3eacd{IFfgOk05|rC|IofyXwzn
zhLXB=f@a|L9<IS2+($Pxan<{{!etznDxNd1-W*nLyZ`T8d)v{exXoksQL;nmGS|Ms
zdX~fmytUTYuV67N4PMbaVC0IziBc2Cul%^3I|&?fnjVE5;%oZ~kSS7n3To+T%+6qj
zT+2W2sMn+vs#yEm4zv+GNMA|K7Bnmd>9k1ATKrI<W*HmaSIx2>dr-}O2uN2B&}+PI
zEQQuChBo9v8|EDBwPOi2FjKbI&(55kd*q$XZ*QJ&_^asr$+`BAMt?r};p8VLfBEt+
zUcSBh%+!(3eNFH+%J=3j&FhOj2Xj3KKYsDH?^*aNXZpx&-+ZrCd-KF;_?)TA+elP6
z4IgWv)jl0vi{ERdrIZqj8G%?Vm61nPghR2|tD}-?ws>PPITMF!CtT3*!@?snoSIJA
z7gvUdUtk+<X5py_t^A$Ig?BU5jwTC_wfwpTFMTOK2vOU9Qv7UyzJgf{vUdr)S!HKM
z;X0A9tQi39C@{lSa@XN<`|=^L`;73JxH0cWAP;t{HScAh56yjOCN!(%A|1<qR@WGD
z2R;kJ2Tj-Z=G_28|4;)fd9mapjV;&L&8*A&u@oSY)yqMI9`(8p3idcG6b)p>!bn!+
zLmBuLr(E4?PkFR>%A=)ILa}&CC<X`)^|}FUTvfD7fQuH3rNTfg1xQnKK8R3=w5-jC
z5voI6^$2wZi%<bvgbGUqR9NDu5aOs1;;0bnB<sYx^^NZ53fsa$5k^)lpkzgklYty5
z136X(b~d=zFTqLUu{ja$*z!)-+g%*qz5gHA{he9gcWN2i^PAVZU%(|yuf{R6+RcWJ
zTyW!@@{anpnhWm8yRp4!RjlYEt?jeQTk4zY{K1>;J-Id8^M2OAPnv<p1+u<<sj1~|
z{TBCnn_B>8$ZAdJ#SYcbV|{?ESwDMfZsY9BGvCh#v4#@?p+*v@TW&(=6#+>bY;`|j
z&kAtS7O;d<ycK#gl=ou^xh0Py;D7*4JwitXvh&H`H1!mnIKV|{uvBfOSRbe)P!Q`w
zAVm2vLUqM^smGc|kkD!6x;mrI9lY7R1+FLOcjY2Id0YZK6T`Y%5TXLvvh_C&n~I1E
zaM8N3RM;Mta5ZeRK`ccqO`zu@8}o<=?l=Q=_f`YMl?>{aXxONaXW-J1eaowLOM`KW
z*EdY>87=r7YByTeZv60;1vxQ*C^JmxSTV!JKgq*LihsBn9AV!L!&kVP!oHK`sw{~e
z@Eb{PihO&y0^UzkP=}tdwiU9xQxJqNeMH#wYZCgc%PTm3OCbBQkqBGw1&+Ce^*38O
Kza$7SWd930G~5FK

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_gpu.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_gpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e3f4d7eeab94a369b6d8d631b0614f7ff7ae1d70
GIT binary patch
literal 14975
zcmc&bTWlQHbu;^%-JRtwNs%H&QXG+##g(WfC0mkB$(CtFlJ%lwk&<KD&UUynOD?%D
z&CF6Hy=;@fA5`<OgrX4DxDcHLFb%qh+yt--^us|5R6#$oYdYX|pdu>b6wu!)R8Sy4
z?KyXLW*;1ivJ<3N;+=c%oO|wL&imf|cdyq?L5kVF6Mgm>iuw&!^yDZO))t^}lM<*A
zN}vTxjE-AIEHsv_G3$sGp0=1RZXdCeHhatwcaAvY%m_p3j+iU%9&yu@=#*H1b;dk#
zc7%<4N4)Wxk(#(~#7E$mm_J@SQU_(1;EvVDw~TCoJ{Ajgk`g>`Qvxe)S+;63S}sm(
zq+!My@Xp?Hzr@R;z$Fv??qlO(qK7*h?BQM$d$<vJzM6(IJV(aU$sX=&P&y{g!aIa{
ziaR4k<?#d`PfN=9Ob<5@<hu9w?SDEDbYDm(qG7(DJC}|r(Y?cBf=?*i+2q9mZb+1-
zqKUDfdt6aca({0xFHJ|Mf=OwtmmigT_dmU_FSzg71J4|CKfs9wXw@ExCivJOlst&x
z9G^-7f`CPJzdSG$8oqdH`23*iP^74mOaKrgCDREZluiX~Y7KTcBT5M|c1~1ywI-5=
zwT9wJF%(Nmyz0R`Bu=OJgix%=<5Dy+iGzj0X<13eL&=o<fYzo`tF7x*3FaV5xN+g)
zZj#5=VrA{R4ZpcajnMGjEdmYS*&^BmEBx6+`vhCwNh^!aStmtB9D@CA+Xy2#M3>+c
z-2l&EdoutDE~sIPN3=!U0t;{+!3)@$)?*WDHfZ;W8};x<EM$~gu_nR@b%5RHqFj`)
z_e+mazv&oT0Kz8dBQ`*}QD7phu=Q>Gh#$rbeuXj3_n}FwCAi%}GvKZh7-8GH^q0oI
z`L1ogX4qGua@{Q(d?WJ3$*lcC>)Vcz`ma1|^F68GVBF2;!wPLMpDlzgdWG#9;Aw~N
z$-&<a_(PiQ*Z{6`gLZBGUHIiTq9pU4=B*Jc(siUx*a;NS0Mym@6~4dQ95>;Zdf-#j
zohEOeGJhxR+MvCAgZ97%?Ym)z_iVh&kw&2h*4;S61oo-^3h{OF!ll{&c5{%bo4KgW
z38EYwOMqffl3bim@M9teLXt~K$*HIya&Zu+0<Z8~Bq?#qxX7i5#3$$`iNFnV!_XY(
zqX{mOPK1?cGJ$vrx@bbdcI+oBydrYZ1mKDD1PDq5jix(Lg7=W2p{G7Nb_5)v6yd{S
z)f6~Q6L7^@5L9YooSzOQ((%wJuY|`z1t`f$F(IoSY}eXk)gg#e(Xbc>;cX;T;~w~1
z`vS6?l!A(YqzQ{&Dm^n)hR#?r*5x7wn#$M&8p$9-g$#HF1iF?c7`;?_W~hns@ry42
zuk}NVuEGJEUGMQH!KNE4)C?7{4yrEP6;zFKfR^fEq<~YZfrrY3LeWH235BEvs7g3}
z)fVR`MYWD>Xeh2J=Ma*IS`VKqo>D3r19sIWi?N7QiwNp4!vR#s<W*i8lVw~Nk|g(s
z)4fVO)tic@_A2m3RQ67%4?Xwn<RP&)79H(P%_!r^MDJ8A7VpKG_G<JOx~i#Wy*idk
z2U9arBVe6vt|s%KzM5U|S{5PuCiSR>a&22>I&w_M;xpO6(NA0MMm}dQ-EVGR^yHd*
z=561t`J$t5wc|jp<3OJEzcYAkFx$HSlY@_}mQMG)?Q^F6k)P_?zuI{)*LkoCpbG$g
z#c*pd5T!bcTc!Gm4H8WV;xtfYC@Kt+%~jn~$uK_}lB2Vt>KCUKFjPt{VdIMdE~KY2
z8qLrXI6_qdnlV~{#)`(E(F6sJb~Cn&eYr?oK)<HcIAKt5sXsuPQ1fz;UkD~*ESGv<
zX#-3q22u$V&?r3^aH{U897;)IBpQpU4PftqI1+)EWsy)H3MUCoBh?2$DP9so3UGW<
zl66|u_Z?VXmXJwRpUlToF;M~{7qAt`ejBt)+c9g$jF3Htr5%{HKqlj65R&CMsTInq
zuQ(T7M$WDiu)!*b7ZA@VWZ$F;byQ2o>b9QTHY7G*o?$g=%(L~`hMkKucXnrA7zAo_
zxeIQ}<y~dkb4>dx)0<;@@7PxRPUiYfe$Kp1x^X#%TV?ukOy8X?tNV`U_8tEfb3$sv
zDbh14J+0P|E#N~SgTs@e5LE4Qn2(8JL%0AaepEtS{|JSfRK_x4h(Ks4CIQ5rnLyNp
z-*Qp(%~=!!Gm6O!J!S>6DJSJ3z6qC(x%7k)a2{1ju;_%LKYvJPY&YnCaD1PlDe!P?
z{B4-9yZC{)3!pPV)5zS(<LAzCM0Lc`M}g1I$ua!sTr$FG`x0~;-G)Tafl4$i_Zv;9
z_@bbNIEhb;iQO?V(OtQnfj|iuho5;p`X;yMd9Hh!d$BlzzVq-V!0qP9?w1A~0D)MA
zg6me2Qg}QF9u<&spr1RRR#It&E0VS`IUH|#9q_3{3AO^Xa^lc04g2wW`A|JvFc^Fj
z2Gl@z$=p>jIySDz6?n)3xb8?S$twUm1k?ns8V6b$a2a|!3BD6i^+w+Z{|iY%G8qgw
zRNGWkyb829&I2HRbB&K($WI~E5}-mrDh3=HcLoq*H)eY<>%ojLCK48IgwB_4UJyc>
ze>dB*P8pP5UVwh`2xP#GJ(RcRofFqiT;G5F%FU}ct}aM7-dbTh=jnS)eV+B^*=>*)
zoDN_|hN`Js^>*dFU8~+;&Kq31@{_3#rta{|Gb`Tb3N8e3Q{K8q9w=#CsPP}jc#Z#5
zZ<2h?kVc3qn~X$cQNh=eqB<l|NlS@vx$MOi66SmnXdIZ6o?}4zn=>f=1PqF7Y+`)~
zmdS3|63c1o+XzuU1DF6N!Ma==RWVpMW7FF<?QKBLxfFxR%S42UKA7-nBbVnHmp<YT
zK>%dzf?aUDYxzD6+J~M%gQF^C7#)6&o^b{kem{_)n@|j7m7)UKeIrRR`glo!2se@z
z#>cOg7TAf<0rxytK^7n@j42`zrkU6Kdq8d>we)L`J)|#@H`6G0iW0{d&J2sz6Gas1
z{6`3)V8sj{FNi872oW#FEH{@#qlP4^7_wr=bS&U87-H=Blqk(;>jVraPAdANFo>eG
zl)3KFWHJWA>}z6#2Tegdm|-a`mewc*fvz5)MMXrI<b~4k2NvldJXIoeG*p8Dm(+_;
zefYu#Hbz|9k3}me4+*U!BIu-j*ycnb7y=92T`lDx(nv`MFv9_)!<eDGQ|&V$2&1WP
z^m8=-Mn<HBLP(~WCuBxi%xeQNsJ%==U-^fSff#&-s;!&1gQzo=h4+2_cc!jQE!6(?
zTUln?{9Adgex3i$%)7@Hy(_K3&wRlw6U_R8`G&@umv3BN82Fpl=G|XZ$WW)544qx^
z_CIvtD>t?6sr=TKH7{1`P%NLicIvvg!nR(ci8v)YVQ#zp9jv0<c>^J4VgL&?xL8Fo
zma#_YqJ3f_5Y0p&;50-Z3|CA7tz*=mD4M`tf@q*7nr3VPJO3sOYY^Z-Diw=@A%eUB
zLLeoEqY;Rv#$q!>j9f;)-~ul}gBUv=9~A`wl<ccfWgLCw%|+1+a=2lG7`*mpV)qi;
zAW5!c_e$$Vdu_0|T-kYJCdDX26_28E@d2$`k?H!OJQ%POmQ!8ngnT6}LRh=ReS|I7
z+ZTlM41SZV?Tb2`5Sg;5f0fxzQ#+#)=m#(zc?dFaKX+5EEy!kPuANyJm_M_^ZqIvL
zvTPf%GE6z7+{!RGr6s?0$0Otv!Wj_Fc8sPY5mAy(!Z3yjfwYb^OH7D=g&nHkk&;R;
z@&veuhN2EzrioD?`AQ*?j6<h!qVVl#F3=R_`pL(f3skYo%;J~6M_}M2Bn+n`amO5-
zc>qV5DESgcZSdZh_Z&Ot(E~81m<&iT56ng~-p|#{dCS&mv<o&|snlzsGVTdK>||BS
zcrt9po2k(QLee$@iD8ebq&we&1&x*uoy$cd3w#($#`!JhX-Z(0i+#WdD~6RenYB+r
zf0d*O41rXovK1L$Zi78Fq*%rmu_{}1L}q6XfB~K6s`Q~t4_?hVVGpPY^pvYo#z{;*
zd&Cx{GR%)@G~5U*`rlOv_R9&O3P%LaL<CQi*5PL?0hT`i!o5<Og2V&|52OP4BO)*D
zmBbiC3j`v6HkX(i8E=N?Y-YR}?w&Cd6nJ_<qbz7hp6<SYDb#vDQ435!=N>M`&tRxR
znC{`g`s-hB72;Uy?Y=LIL3c~_nU_BU!J_CaU%;1kTZ7!I5X0d{MJ_y!zO(>d_1;tr
zLc5jn{_%EX#Rd`qYkVHv0DKaMwsJ^K0qG9f=6FixXeFM<I>wctU%_;(M4(A}uKRon
z!|8mi!jDH6zTA=>OeV^9S#!aOJxi?EF^%gAM<EW3R&Btl)@oZ4<z;<WG>;n%(mx2p
za998l;yBpTToO#|agi5#NSwboD|tMbjtS&jOCn*x(HSmiC{B$%y8}Q0vI2cE7&9tj
z3?aqKcuXBl1V6B-c0rke*Z@Y3iPbk8@Jr7_MRj37I4CBjAVxs)Etk)pJr}w(bUbwS
z{KbLLiAzJL;Iz0kIt@G>7o{K^JcyE*08-NrDP+}UG^#G6RkPHa$?C_%_!JxqE75o;
zoCJQteO7%{i%{)^+*G>=G4L7HNrECz@7E^%G|qegGMG3@OQ|Y|K`adt$smS4YHiKN
zx5BDaD;!CyF2l@M>9|Tys&qo7B^k9)Ig4VM*!|KlyfFzyR!#e#07{+)jSt4iOEl%L
zzy89Cuj9wzrQpg_&wcJY|Ib68wyivW{xjeCEOS0b@~rRtZ<+SIr)JgD`I)El*X+S8
zd+>fs>+OTL4leHa!E=lJ`;qq|OBa7MasA5tseJv8#T~i&uGRWLu0F8Tu~NUc7%3TD
zo}IrkKXA`iN5)*_KlAO%_MBQew%T(l*K_J_AbaU@_Uo@@Uw`BCo;UOU&g<4ye`n6$
zxj3+RWhwYcFyGVnN#|YV_g1?05`Ev_c;DAB|Ca^I3jTtH_CCL6g%UI{l(%JJUyf~C
zWjk_g$Kw7K_NjUL5ku8&z1ec3<(}7ny=}$YzF7Ny<9m%u^pBdC2C{7MXX3~4kK%U+
ze);k*UWV{%oqOH^m|RWsws(Bje0jDGEHn}gs(n}t_4pcohoPPVoG2Jj00MvzGiugN
zwWijB2kknR@--0OhFEMyd>>6OBLw?xVxs*?qCAF42l$KWNrSi<+k_Fu)%!vO$S@J+
zTp0&3Sga+3Ws_4Xiz!CK*vz;h7R3k?Pnet|fYD(RBl^&87#$A9F!0dG7^5=|vxtyj
z`_M3jNO0Q3RGTo2s?zFVe6u|<R<K;$ZwOA?_29IkUl*Y^pG(FDGuFc8PdX#Vlg<d-
zQK!H}iMa)aFrI`|rHVM2CE((%K!}FE-Naozn;eTO@&zdgv2}=9Ke?Y;)EK4#^HQ|D
zT-FiKw%D!O@cI99Z_CXP6Ze+i$h}=>dzf@C*&9{9@s}_-p447I^SR1gz`)m_bQ*Fk
z@^uDF$1p=Lc{t!L#k+|9lrG`B%b2~28ByTqeM-kML((JBFD)2`r()~FUwaU!q#q5{
zC>_NY-+;_C>Q$zm2|+$q6A}n3@T`0YvQ6V(8^y&y(yy}ZIktV#Le31#6%rgdYno?)
zza6<1S$yRO(WTmjZ~W}Q$IpNC{N37LHvOXM^V*B^j$*V7!vU?JMpoI@9NW5B3pGGq
zegv^I=iRyL?ag_6@6aDRK62c-@>3Ut(Mm@UYp9ptoEk$7Rd`6W0nk^RX_O&!eC+wi
z^U1(ZYgW8Re^*p=O|813TOX8D86}yT1TRIFUW8Ahx<_Nl@T7LC?Li9$VvVAt$Y?(C
zDY(%Qg1ds?s|l)GdxN(J)S46zCpSq6TsA}%E)TTf#RLrIt-V~-j%Mc{x+Vgb5w2X$
zf(Drdc|8l=KwB{qs~F+Hj0^5>047Xu8evFvv!F%Bo^c_b2(1`F!U@#YRSBf3iOwqB
z=a_RVXkC*uf$OPC6?5`zIw#McWKQg6<NT3p_CgTABxEvyGNCGEjIit*U<E)h#z+47
z=Qas&K#-sYzc_v;2*tQbFvgMbFBfeE2r)UoWrsili;`!K)gU6)A#ikN|FWduVsH}*
z<NkPMh+IV~5-oTmAQK5i@5Lho0UX$LVp1kyS`5bS#p?)yfhZoGh9f+2Z!)r1$IyK)
zc|5?0(_%P{UPQ^0BmS0z0yV&@cHk5-CSgpdBtlg?46i#BXdS7xun?Upi(<Zpjm`RP
z*AN`WjwM1R1`O0{z6XzJU&L$_voL08<46K#B4!cD)CT<$m9`ThU`hcQwZxdJUk8Dk
zR><hG!N$P0YQ5pIz|D=MtRRMp+Zg(t7&@dfMEyZ884vEtwLB?nF3lvon%%uF#Jb^%
zkDy53r-}6K)Q-UWHSg7|aD8_Uf4ckbm7fQ5Prs7mUdb|T|KVxA*VU8V`_iYUSGvw;
z*&X*9w%vUF#_M@+W40O3cC&2XJrLS^ZtTg|x7<8><LD!&t<gR2e&nWFJ8mDobvV20
z$R`skEvK?f(-&oZ137OX%kJ5zZ+qA6$y<{!%Dd^?Z{2$9&a)pM{pcuo8}05a(*o|s
z!T!|)XLAS6t{%9YJ8(JAHm+GM2i-Ylf7aEq@X8{+xNmX%4!SZfxHYmf$L!3rAmX>@
z*{uMZXB+bDjyx(4D8v8uJlg^QkD9&Uf3#9;W7e}H-`u%)I@jDgfBL?!d7(eMt3T`O
z&ocemfi+8ndGX|5^%p<9cJ&KIJRTXTjV50i>BOtwDht7liAmK3xI&Y7DKBi8=FlCl
z*${D_(!@D60S(p3?DS>>6Wnl1bQ7G25KVyi=1_znSCOR0U_o3sKqxREG~5|K#BV*O
zCp#86^e!rj4Ito*XA=mB^=<+IruiliaN~ay2#>&S0^t>E3<!49)tW<;uhtx*e6{8f
z<*PM^C||8PMEPpXA<9=<vy5k_kRa0T3;1V84QXwh|HCC${Mi6Xb-1JmLLP24rs3Ku
z-e|?pFiLt1RGlk{_v4yX!)fB3L~6@KJ5r6xzI68du`{8eQzOSi=N`OR-85JMaOMF=
z08U;!f9ZnW2Q3ZNHF)V<=+%LX7lt074WhcSJ~TXV^7xSS95y(IE}T6z96Cc33Z8o5
zr8v#X#=~a`Z7J0X7c6ykU>1r}5HgJ!vbZ#b*;UM@Ayd8Dr5X%|MWSP>7nB>^6)skZ
z7Ex>A?nDTFnSmCZCO;$z`^%6$M#8J5Gd1I<8;?6vGl0@4>0i(!eK)l;u-bJv*L8Tc
z>v*o~_^158MSdQ+`^vvWSGq3bm>u)A^8@o&uJ5@1^@S_<7!ZsQrO{$J5U6R=1!e~X
zZHNd3i3(z~d6jL07}7#wX>^6%_hst*3fotLpIq9v!tO2AV@m@oY_L=ZUtopZQ>y>D
z#%ufip;rC)&_cYs;Q&1xune9E&?f?0@hUL<@<$AXRCfq|P$Q&cSY|_^D``GfeB%s-
zgk%_+tzfBWh6`GEs#R7bawk_JBx{RBp`jb!IJApx5Ie;iXz<e?yh$cKjg&Hg?`?P)
zLpp(V3};Gzff-r>(ly9FptOqsc(x>=ZAmiJDDrnfr@T!)wAt)Tfo-t6?{l36J3I>x
zs<FA?#1cc*Hr`}!unTg|-?8Sxrl8+`lD=QtTCigQU|ZT3<i+7zv$<`%3r^C;P+PVZ
zT%_ox8k!0oQe>%??Q33A>}rG2JpOl%Tsu;*Lm9BJwWQ|68bdX2Ul4D{ZpD_4Ww-a{
zn)(VZY<E-shBXhCPSaG|_I&-;hrZqRHUkrs%P?Wh3=_7ysiwAtp~cRHuiyBqf(Khz
zYU{Rw7fW@NyJoE(OQST^%02Y7mQ5DQWkX;Mhq%q&Vhb*;!Frnu*aJeGfX0WVL7LjN
z=Xdol(`9(DQih0B%_d7;xYzH8hrD26LkeC}tSMiSk2KZkA5VdRaDj|pXvA4<C9eew
zPOJ7%*#<(nY*JV&tqyBA5wcbf*8COt5m8|aqHn;`OBQNRZ@#_jVf`Wd;rn10_T1<x
z*r5yq07*Ep#9+yVB{xzWAUzD<0cgjIr5b8m`|Z|Stpy*}{1ljsXK$Qcd?vSLR{;h)
z3?Hhwt$^rpSl@j5oy@h&!lm19+<If_z)y~Ra3t$Hlyg0c(>YwYV4+&Lhwb~yJ^_@=
z7K=4lY@3E4*R;Ff!X{X8S(68wfKpm-#%{z4UaZvs-rGI5dI~<Q>9Z`<Vy%wa@zne5
zdu*W|Yg?$MmO=xT8gY$VvD8{z<D)jHX^e_I8fcWh2M_oK-wgh)PeS95$O_d@4s*~C
z2oen{YvQ7oG;6=|2!YoWlO^=hCE@}#ke8%22)`#8F9M*Ar#6-F!2wFJhyjY^hYUm!
zYJn#YLfa5pLQhd5ev~Ige&IrHn3G>aXcFdc5diO0YnQ8-BbqFHLHc`W1N}qE=OHUt
zX_|iMu+z5R*HCoxZz%S+RQIo`zW=0l|CiPKKNh>)u|`3LZ@Yd=?S_wKaXzw~aM14T
S*6uY53u{(rdq~>Ifd2<DLQUNO

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_selector.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_selector.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..81957b30a85c0516d1904ff14245e08c36010ab7
GIT binary patch
literal 1076
zcmZ8g%}*0S6rb6zZdpOW0;!UwX+$lAR=ofbP0<T}1WAn1)Wc@m9m>M&hqGItq$G{;
zW@5PU4|vdU@lW93!Nkipn1CBN7~_E(33&13%q|P!B>Ud`y*K-t_ujnu+S%Cw=)%HV
z;}#FVPX^*eakvg=s9Fa)&>;pUEJMg_4s#}7=0lsuf+?0oY74rEB{NY@K)?Y6k-PyT
zl5$d)P-2$T6K{laM?=mh_gNqh1I4fmPsMhvh6sfhs&zt;<*5$Vyjh!=)YngtYvV<v
z+Ld{=(okR3HEd}n+Gpf6-aS*djH>pWXpV!(J<UadM37e}Ry8_3k_oEL)9>&z73;t|
zP7Q#0F52*~+&BiSoF~TqCKs2p%5$K}H-Q0~@I8D7SB0j~>U>CB)Z|v^c0H6a$7|?G
zF~@u|wobLqH@SJ`6vq~8=f-hvx|pW!7(vh!o`SqIy)xj<p{x_uuP#LmIO)&z6(yfF
z-0Tvuty*Cv`OGz}T6WMa1h7C@MtO+{R0TaXL>qpFgs`duDY};+X;`ziYFky-S=Yga
zmlp#;BQ-aW7M4QYfA;^AB!Zs*0#)n=U1xnRJ1ooApC?7nbc&AQjChn5c_Yj9(ebf`
zQB=f6rRX%gIom2OVr&+%O|;@!o*23aqpD|<g3}<Zuc7FqhPzBf3+!eJ+nLFBW^yZY
z-xn_Lrf>K+r?%1$e4+1q@3jvpzjy3YU%Pj#HNB&xeP!?faH6y$U-k2)wp`l0)0Srr
zdFrB}BMFGgwvcKIskN7WZhSjeYUfIu7dN%7+|-xucJ9$P;W1+o(ueeHFr8Ndh2>v}
zT1(h73%Wv2Jo0XIEB&Ff?ituE7^Y(rPYpqIHOg`66*}&OjdmcbDti^GO3qOj*8CBW
zUS_Al_=IWeb&T$k0SejlyF*kQ@DRe^GJse1!0;Zp{R<5JNT$|aY$Y=-=|Ga<C4YG0
J2v8kz{RJfc8+8Bx

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_tpu.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_tpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74ccc168e474b45505c28289e5b117329a6d3d31
GIT binary patch
literal 16045
zcmc&*X>1!;exKnvJS38mby$~2hb>W-rTAJOahxc&<v6zGLrSud*UP0jBbhQq$}=Nd
zQmA#XZ~>|t)Dl`i$|Arjzygus0CCYT4!S@Tbb&RxUo=a%B&J?8#b&z*&<{+MerXG|
z|NonV*T~L^K1grgeZSxTcz^z`qQXsqi`jl2ef1fN`XfekXV(H7Z$V&*;wX-eQ6u=Z
z#OMjjh=o?utRq&EXPdA`AZ@}i;?#1O5e9OsG1r89#695|@l1F}yd=*StC*-9siZ01
zA~>LoJ?5M6kN6?a!8v1riK>w*nzB$QDUP{KaW1~<o>d*qNc9XIbbp4C!62<v48MN<
zMCjN{Cyt#yHFz>;RXkV5CT@iI>B(@MQvwB%kQj?bcr9PNDn#SgpuR7Xh~MA^DKrtD
zoQ%fDAjxwkak2lb8vTrhejqJyekvY~gkKXNnHOFRi+n^Kj_L=r$VL*@Y>DEj5t^e$
zEF29hW8rO_75;6!ecW4ENe%PPStmt}Iyn1n8?2TCN>!DY;+&Aar96Gq2J2%R@$g<!
z!ldS?g>&7u-P5X$R6MbyyP#y{repDJGDa`&gLzcIc>G-DCS^98-)3$4_`oQ``Jv6K
z@2t%L>_!#*L))9KS|wKveO5!CTQ-@=mQl-ASXJ{}+|y0hujXlOa<Gz{jf|@$=f%y{
z!T4%il#AkaJz-_O`RMDPI?An3!p3Rqz%@V^PpR1%^m2{2?IX1?*4`(K)wC{GZ{Fq;
zchAi=L4S2zE!X@G{k401`u;q9ZEy#R*Qe#F>q&NY(>3&S+ip8X>c8=vzTWD#Y_jT4
z9;26IVT@b3R<4a}=kY|4@_0|U4v1}s{~f$-)XjCm>22h?HtEI5)dI2wp-dCkU3AKv
zg)u0z6UsDmeO%9NdZcBhHu#L<FM{gf^RLW)>Sn=}CbLnI<#;hV7UwxuO0W~*czBFw
zfo!moLgGf0<Jk#b3Ugs8%#J1mR=UcwlY|P8=C1KVoR9Ug!;m}?j>g&1sdz++CgRvG
zX)YR<FdgfOQdr{IXdK#^2$Mn(BF&tgib>I3NO5{d*HBaM9V<c`yf7M$@cALkNC_cw
zRT~PMm=t?SLrU#LcsdlHnh0G9OOdNQ7m^a!__(NeFkMX(6$i)P04f-<6_64Kggx-T
zaS>9NC<#d(apM*}l>a8FB%QP*t@pGRXevpK7q+Gq9R~m`brPeej1#6qkE!4H>3dqw
zNh)OY46U0G&2QN{&X_o8y;2Y7zu&TTW99|(_2*mHLuNoZUZdyczvk=9S?+0TL{r~c
zKPD^vz4T+U=HE*{wfR-lL*Gk3^?K|1?<V~;<V)zG@n$`g|8BD9R?|KI>TQ~>hwWRo
zX||UI<D8*_cI4CToHR4Z4-0r`1s8ZhpMW5sFriR19+g5NrCLR-P%I&YA&mo^5*3S-
zQ0xTp6gz<7-aU#xB!(v@W4vILsVhwhO@=v+=M*cTqhg(og_U}4CLW$hghXBnU6~pk
zh1y&qo)EBCe&PzxalreF1uYg1A_OeIilB-!q&B2@C&I!tH4=>k?TSt0W1~U^&JI^Z
z@ZsDX*KUS|F;PT83P}+AUoZDb6O(<D(aBvB<nYq2>8S&U4qiLJ_r;=D`X*<jtBH8u
zjaY1=4+qev(woptRqW8C(&SX{<cxrf*6h|&vev7wXA@+LV*sgdQeRe5u7(WLCNpg-
z`__ZcuQfg#eZ;(yb5k8%nf7Pp_GdHgN9FdTzj@`imp;C<-hMRQej#Oh#IRYmBg5{O
z+5H*zpv)fp_0&gieE7yXdoazO#{A}N=gv&$F}d?trgK2<9C%z+x3qI{XU<A>ouoG?
zOP3o<b$rQCuF5;EdDoqa`HBqFD>J>TQl{^u+;{TfmPgFsW2T}!_qg15e2sg=oHorp
zE%%*%IQ)pYXqx-vmW{ffLce50>cXfi@!-NE=6P)OE9N{ew?DrY_$TJr2CO%w(9?=T
z;H4=c9x-Sbq$A}+0d|7}@98wwjG}ThM<;1B+Qb=@Q>V&9RM0X=?pn|$AWcym@vtBy
zZVJ^Hv5C=HK4=kGhzK3vi8xl4724pV)P>++n%u?NuJW^HUh*I|xgESWsmH!8carnT
z<>Q&AeR9*j`{4(H2mK!nd^oVS`|nSseFN*vfY1&lBL>$25nL&<S}X*Xki&p)sl)YX
zpm3(Mi-ZHh3pRWexG!L!;KoWbIwvKv;Rs*}VarseieL*nB?9M%tR3DpHV*?mMswmM
zABm2F;2(?4kdm(^BH=6N!vZAmu@gFQycU(NA`7Q-VmJ<fJOMA@U79Sih_lm{w<_O}
zjyJRIWh+}==vin&#Jzlz%6TdOmW;1c_I2K+*L~gVO!v26#Fvd(KXnmRcx5#l1}2rP
zXYuTjCJH-o%ms6=ErD(gsAoIN=5Jo`Siu^&$r|jGeLL^=ulst}nO?F6it}bj3c>y;
zb`kcinAJtrj2x^Z5GcHcgsG**F|WiWjmwp1dWT?N2jTu8A1MUEgImU881ItMhaTwC
zDA5KUo(A<^IaH<7Y+d<ei8ktGtipl^fDIemxV(FLY(-M>b*(?$Iq=Y)_6@ExgX%o#
z8O04`4$jczlq5!UWgXPdqs>u>6ipL2cbKaAL@fsYZM&znHbe<~pb3~NPDP!nU7hMa
zOvul7KSc9%PMff*g)^D3nsE{9AmqS=9r}c?uXbd*2juR7wd?8bQx6ZPeXp)Fuc}jK
zW<rV4QJ~?9cScp`g%HUi2FDF;A#Xvp_(ceOles7DNyj~{#r*tnLDcy>P3Mo0CmceL
ztOVA_od>6`g;$-jI_lZxvLjHK{TfsjcY_D(QbqY&v)+oVx0?9=jJHencC7}|-kn+R
zmaMlv>#g1JF@ATBVq9*rOub4a;a<Wa5IZB+cy6%haNy90xCaVWTp)<5&P?1hBSdB-
zC<$PkXC#xBaomOy$5|lVMDXK?9!;-3XOWPLB2Gdsia5A?8iCNi$EnLZC~D3D2ik%9
zg*hi2Yh4ek)xr-5tIniN*B;L?Nd_)}gR^qhzp$wOs1?!Rtu7mgwm?p7;g6sz0}RiD
z{0&mO$euiL_AH?R6DYC+1IiMGvdAVz2>}U(d)-E@As*BTQZynSHj<FgL;)*VAsip$
zyJCF2t9YA&!F*vnI5U@`m)V`qv0c;b3tA8QjzUh5?PdwU<vZ;MUbCbLw(FHR=p-&l
zQ!wC5gpckW2CYCs=wW+%doTBZssgkLTH58{VfNe<u$K}mkwT&|dK}O++f`T^3ZFvk
z(aIJTEuI<F+oXSJLoM1VvN!qY*j1^xOEN>YYc!S!OHg(Q5FHqG7BnI-5<@3~<esQi
zj4=#<_P^i;gD%4T2zWpQl#_%;@D$sPD1Q^^!`1L4uh_|cC|1}IVK3xD9TrRG0S=D`
z0d%1iLW+y*dnn2Qt49V8G6ukrh({imi8%Gv6M)uWzp?DjBYLZu$lr)>fCo3er<_^7
ze!t@pa{vI~&cOV@!k&feOE(v9E(?oqq`mDa`qQl~?}#f$)7$p^^VYqoQ`wsKl~Zy}
zZ)zZ0Rg3KSa(Jb7wI*HFmpYbh?MU^fqQ40IqCb`Ry|*Rjq#E|+7|I_=F)GBW&~ZgS
zXi7zboCg)RM8&J(FJ=o;8SWBT`45-|@N6_(HF{jTw2)*t!o?!LS>iYvcgcVOnzPKg
zB!j9+2F9C0K{o(^8vwurb_i*AW7_}~>erRDX(7k^)_a;ZXpT-A>9YVqbFQ~~5E905
zRwXXU+|y=80Am=YV;sG&4j5OS3>bKhHUkY~gGxaIE0OcbKF1bq9YBULL@b1E=F;IF
zfG?z|ht<zcQkTHaG{TPtJVtkBt*A8-sYvCg;86*J6v0iNgT&DR+<aZ|D#W8=AR!mk
zn8woq>52hJMXOe{q<Sl$mr&6Z5b6XxCeEk}0WBbRQdB?Bu(4fN5{VepV2|^oVIV0)
zJQ)_I`1~pe$iERW4&(^rD}oN;c}#i%y?*qN%MnmCP@D*Ap|BYAl;YP(Eb|h2r_jTO
zR3x(lKP8MQ9_>=c_)$q9EH)l_+yc!NfSJb9nS+^{IS-Y^MesmS*+&JcQufV|D_dKa
z@|40CNH+df8Mq#Q0R9$&i{7liWqC&S2ebahtiO3VD*L;#joWh-RG@8xat10>{W(8X
zQNR4$>Q=dNuk77Be>zu<z_tZ|?as{n%yLcIw{4x-Mj)<;8N$0yPzwMAQHwG|EP^0b
zU?OZ#2prsbI(!)bz}VXU$;nuh7ga%${n}Ea(T)k*fLkzwm&@P+j8ptw-n5cyS$L81
z=Ml$Jc99DB2c4SdFOT*(ffdo29DnWf<C978;Rgx&04z2fc@{ne<d__1;}DCug`{y^
zzQ#_-C=D6fM7}OB^movXh-3neZ4bzncixzP14OX!O3VF*wC~6|bA%ip&}BMQ4WfYZ
zi$MdC9vG)dfLM|2VX&|H*A+NVSO;9hGHtom1#|Qj<T~_R%n|J`Q$M3=3jL(>&C5xf
zN-fO<R?s|a?asM?;WiOz^ZKGWcb>wIYjjW@lj@s|C+SYQMy=2?Q&>_Bn=|-8W3^Gt
zIW2g{Ox_uQNk`e#K5C0nN#<AdU(s4w6a6yWM_}ob4tV~varP*!mWNyE2%m+HjN3$R
zCFpB_Rfp3Bj3XZwb_sk8-r_iNj=wqmHDoI@`fD)m#z@rjsrpD)d#B>!^(mg8<-48<
znwBc(_*EqfRPJG8;TcqabJIO65b(q0gdKY-C*5DS1zo@>9K9Y6_7+UQn1QJTQUWc-
z6rX)98jG><gv4Iq*~nECjW`gJc1_0M(X$wNo-BT_UBf->iQ>g1C}3=rPOb~bW6*82
zs6q6LdoIJgr${q-{3~wfiPB7Q(Qm+L6gQw^6x(%f65pG{u}wul6#5ETkikT}VBysV
z8{|Vk354P`dD$R5#Bh*N*$)6HO4TykXL%tZ7L*&ntaDhqj4L5h6~S`Um8tv*BC5)o
z(1Jn_i>7>t&%kc=O3#)(?e~_H_#HGWJ_HZMtK&4~uU<Hs_O<;gvf7*8ap;ln+^>h$
zn$ypn`@QenI&)4Y{<`nnC!Rp+DDocHfg8#AcgX%7D?-}eo$3d^WXZAUSh)Vzu2lcy
znueuIi<ce;wk%vu2ijLItkUcLZeVSe#umr2b@fZri_>2^ZMBuD0eEn!YF*f}v~6)4
zh-87)!3QVgz?rpI!Am)^zLu19=hpl!;FeN17Jj-i_qo;LcW3)g<jD8bITFuN7ER9+
z(E%Ib9>JI}GA|O+^X<hifO3tDK+A>$;mu;ECn^!%EKepYKmtsN2WKG~BAi8u%ab&n
z1q0F0&=L{C;Y!+#JV$}v$N_``1Ut_9zM<3vL60`o6cq|}_Apo<mXH#i!7JnM&Lqa7
zl6YQ7;44Ey$Ug@dz_<xxr(IH09Zz1tqhl_92`i{oD@FMKKYp+fV@>$Muz{;3{9qZd
z7FAYrH>>+Kz_c6-3;F^4E8sy((9aOShK18`C_y)rm%nNtLFh!U4n2Z`cqLU``56cW
z-KD&13FsMkC!B@iim&9=Lqu(9e)m-|tN{MVv3nx?krMv{t%z@d_jG}5GZj<AwqN$V
z-Gi?YN94{U55jAKwf^4@d_3@Q_dlFUHw>nHj{{B17gj3o`_^jGfs-l6V{hHE1LE}k
z=O0Rsyu&Fv>+_e%Vv18UyA==*6hGN<cuwM{;r$U99L0skOPDGu?i={_Mil;vpP!b%
zNFbkLU?DV<fByJ)xWa{OxEXTY!y4d-A(NqQQq#}}tk7{bpGe))urW!83<g^=lux?A
zn6v|{t=0Y!v_0pTbIvhyE~2V3!MUWvoH;f#QsOLmw%QcUC^G{iW8758m=*MCHWt*U
zn^+uwFJr-TPTVGAVIbYac;$N;i?J4)jKu}%CI&yIW3he9Ju(C(5W1*w6GI=coTnNo
zVq~LOBa>6AX$`H|xafrV861BqSgE)O#~VUB7@If~kATe!yx@l5nS5f>Fnm`ki{pY5
zDk~MFB-}-!D<{?is`3d>hRO;O@FTCiO<2RDy#|LspRO}~m$2}U(7TM@kI@T(r+BY`
zCB6O%F1(KEz3BCz7X{Cp1FQ*6O@dt}4@NmqUANMl-BG4tH!ar+cUKI7N1oSQRd*`q
zD<3iSz?`-1$h01kTMs?x%p5*1A3mRMy^wM~Vp_fg^->dgf&;$>Ufi-?2n04NoE7fR
zD;zF2d53GvdfT$zmaMlfS49kK_RH=2A!oTG)38Tw*pq2EC^sB@a2?EJI(`7wF&*wd
zyS?*mso^`9<}dxcFK4G*6<~9db5O0@GwdFj-IMh;E)Qp#_sGqAGR+6&X0>wbUZ~t^
zTDci2clBgC56PW}U^FYoGaWC;9WP`$2IP)`hZoQ==P<F$G3&VlDx*D+I_#Den`-ov
zVUNn}(KW36lwoh{PT4X{z0B0V9gvwu^+6#(%urQ@jQXflWEf+EO-2OWz(WDQF@eWv
zJQ=EkSH(??KN>I{k9UdNtUS3RU=o869keKJVh>AbiGb#Jx-Co$!Xh@SKik&pCumaO
zM?q4}AGYA8hpn{eSv+retly-v4UH+=TfXe!(^+qGio27TPXKfOESO1Um=2lgSl|AG
z73sZO@7|J`17!JxF{oFxU`Qy*g8d@|3W;0ZP+<;!crs^|48p`cg&i+o)=k**q@hpJ
ziN`FIf>#)A`R8oFVq0bb!sqOqb&O8hX9=m33?MCF)$_&_j#(JL-XgxD41R{43la2)
zyy+y;rD6pZK(T?@^i{<c;iECd7E6rn0i!?^!XXkBrJ(jEkBg-+Xag<q*Wt11?5V-f
z;45cCLnkf_DL&O|g_uZ_Y$t*spp=3EV*iJbr?Fdv*Ahk{VYZ`ur_14U2simBP#jF2
zs%sa1ny%iFV&G-1erwA6X+!gJ_*eVhJM`|M_lG}t{qF1cr_;M$NVoUPE&Xdp(hcWR
zzHC+N%1d%pPs;g8b<IM@a@}HY$_chpe>1$?o3072o|J3$rhWU?nSH7b8?TM-aMa{P
zpuh$?Y%50-ZQ_|E2vp?Viyqg@7JSt_vTwHhSuuO?hihm_+Te#og)9g5TH*@qkPU*K
zFOuKuuRJb0lq9c$z=Y)+GD2z|nStXg%)kM&0R7^3H48Yg1Wr^lJFsxQ5sppqpss!a
z2B^>jiWN?YK<Ffq6p(+>4ys}mg^1!+O+Yo$dIhotd;(S&JY8U`C#s=HA|{GuC-W+l
zoNX~bnL4@t37*M!pdbK`$G5QiFArsF+g5fjCRVK<xbC{{x8C*2wfj;hA6IW#+P}De
zxqA8fO6PLye(R&^eVOV5a`k~<+duMr=t)-}U-usWq^^CXfAQ98^#@z;ZoR+zZj)TM
zKlM`9G_|nBuGRk4>GhU_YxJY)7c<o-<mwZ@;eUJW<7?^ai|gKts#4uTR&h8;!=DP$
z+t4x?Y<79D40eY?6A5lAhGB0gbbTru({h|4u;YzDvK1cT)VF?Od21CVff&dt4%OU2
zah-}wYLJ-mz}jk7f-19t_^jB8odK}|P;B@-M_wSv^O|r23J3$}p*l;rfF2s^2qWm-
zMDH4U3G@&*1l*##lnUc*n1I|I@$fu|{|$HcHubs1W@mEV2K#aP6Sh5P#{kgb+O0V!
z2{KfmcFDWwT^413+lGsz9i;6i>D8JKn(j8`C=5T?{!!nDeH$bUl^vBii`~9+<-~hu
z-aYdL1;Gugo|vm7A)CE#)&7C^uJ;QHf?76&a$bl19Q}#Mf9J^jk(?bP&>)!gHZ3;g
zoFod?0yP^h67*Z`uhCf;Am&<0q^<M4o_Bk+$f2VjHGQb(4868Nisak@yW8ji!q9;?
zK>BlHjM2MuVa!cc*XBGJ@=|pTxe5$bQZ-w1J`DLOx9?8VeA7k%V>_Dd0cd!k2FJ53
zt_Rv=Px}i0UhLhN?AepELv}%57-OidEzA5bV{gY+kFB@#$@S0VT$m2Fg*7=3hAOol
zmTj`DX~Ty}FVj?WOSZc1b6=O8H6{XK()eb*JF$RSf0*v3>YJB`R@#?;xOgk)!4!42
z7^>3eSdFnC(^M1txu@3toY6Cc3#NrJ?B<u=x4k(R#@x7ESi_jih7V()DcpPDi|W3D
z-GFdGQy4QFF{ZoASI&d!V7OS5tH4lY;hcP!QUzyufnSO(##WB4*LK1)?&?0--<QK7
z<ZAV4)?o}D&^mX15oj$~U<enC4P*IfVhl$_ChftPU%xk!>~GIuL+~1`9hMr5y-au8
zyFUrE<m~W;h8wpniz~x#&&mzmIVUDD)RwxO3q!Dg^*IlQyi{Y$Mg@j`NZaggxOY7t
z_T=CSxgYM^z)#NWvG2dX{ektt&;#ag`*IXS*Z7CW)-Mb{eCgxF2FAZ^aN37x6&DZ^
zf?EU;K8gc=Apyos0@89-onEazRm9`H`j5-PF~t&(EAD(;xP`?zY@h~zIM9pQl3x5-
z7|44e_^RqC)NBxYRi!0gYLfh%P5*g8@01jciK^V^&le((O`@ux@n|(r?jk?mP%&)*
z8*fJsaZX{5sAzpucpIWXgedU{csVOg(;Ey$d;dVOf26$sN^M)Gw*3p`|1)(~rq2F>
fI{a@||DS9<f1<j-bX>I4L-cxG*MCwZL|XqpcKe{?

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/punica_xpu.cpython-312.pyc b/lora/punica_wrapper/__pycache__/punica_xpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..25cf8490913dc2955ccbfcd77b25d5b1271ca713
GIT binary patch
literal 11244
zcmc&aTWl0pmbbdQx~m^{w{843c7X?QgJ}bCCV>!$191it3<OWYm_@B}SGC=yUsP2a
zx6|H4D?aR<Xn`*qDN;O|k;aH<CnJqCjCQ4AwI9Q3Kh_<?+A1L}((HUhyIM6d^Rqv@
z=iGYq!)*+i(Qe7Ub?&Wu&pr3td!D!dxu(WL;E6ka9Glxo$nUXYK28Hz9|vHbh-8F_
zjA)B93EPN`LD(L*kJ#buh&vMO2us`8xHI7zaV5ABF5w<=Lz`1{#XSk{h?gOf%|_lO
zB6ppLZpnMsuFr7Sm}tb8wFf=Zw>@tQiX`%><Ppz_aVgo$zaQ%5e<bztBk=wx12DWt
z#xtp2{v<#rq-pqueRlKj$uVU-DI_woI-c$22SR+$p#z6r35Go9GRas(IKrRF#MRjT
zVJRsjRsQ|d2Lt>CNuG=)$3mWQRZS~L`uYTUDmEEP$zy%OsM2@nm4gRD2VZ}+|25Ay
zNNAAJ*k~*%#D@U#B8D?UIt>VdcFj9FmY57nQ)wY7YIP-*uo90&B;&g>F2|BrzF~A^
zbvk7q$$&+Yap@6*AM{mcRM!6sxHV5CGQz-4*hB_6Z<8FN9sV5>JK-xGq{EVH+C@mz
zDYDlcBb?}z+@eeJKz|O~TcH!|f<wd>ujGh&L?86?iZy_(Wg|AR7TVi3wnrVJAI8;+
zflbD3hOcgu{`HbS%83ntGw^4_xeeCX2>(q|UDPKw1Md2l#@!+{Y(jBs)JD0fQ{D#H
zx4DU%h`U~Tj`l6*=zty$(VTHRz_lU=YwEntjx@rYyT8Mn)%P2CMR9w?F2LO+aw7jZ
z^U~P2=GxY42EK~r>)x@+PSBH0sSb!cuRBMYr51W_tDNVkP3*qzuyjxBcV1t0?zL}1
z;ntM<#P0#+ZCNh3M+=lGhl}TaIQ{P)9-hi(KBn-Zq{POOpg7eOpAeG5n8bq`;?r_!
zGA2rVLQ(}$Pz64kl6iGp;?q<kQgl}&IVr_M{4g{pgjkY~W|9##mP#UCiY}H^u^q=L
zs-Q}IED3lL0__A4MWgFhREfQGY8YwGjspRQBu9maR6znCOG{I{K?6mkH6?_pa59q!
zj|ysJToS`->WY+9G%vR6ZHnd;rAg4L5l4wqLZjt{|Mdf)UgwF5N|rtoHWMnob0o*)
zY&rW~0|P@;3)h5c{)*knguA3-fH^WjO=$TSk-2Nk_Z@LoQRkxVPsCYUP9xSz>CBR#
zeMm;KWe$oUC*yK8E*y>}V`@08v1&?=jBBp2m<1D?(tHU)zM@xR5v@Vrqi{SW3ot^2
zol&4sN{mXP2<B0-8k@t4kVwZR*=z}?1yPj5AgehPDIS$^@p26oNV4X<a!ruO6orKf
z9)AA6Pxq;bbYD7_-mk(JN!>q{dF}A)S6-9);<3@bbXFZtCHp4h@kAd|)2E;G@HO4U
zn$@XvCX~*~0l+%lS}9N=bJZR2Ss8=kQ}V2qxZ75_oq2BOV*hgR`2F?=(TCg*A9FP~
zYUXOp53Aj8<h$Rvcm5%F{3X5|&vzfcU-yVRu?|xa&6Uu73N2u=Q<?()hGXK8=0+L7
zW<~Q%rXs><Scy$bT0ojof%C<dNa+a%gRjfQIRNJ2+)v;<6;F<Ytrj@fhI?i;0ierE
z&XHs9;%>mhkSw{w3<YhPC#HncvJ{QQ<62`llLloYfvhT0*i=11m)s0P<aR8OvGR5-
zI<e@&0@bvFq|$BXc^S>B<~MMeXr?!)zfeVw9>miN#iyiDPuh2`w)N)QdS@M<`PVp~
zzENwwhULaxi`lRCE*~5Equu8A$mrZ?%#`MoB{d@_Bc&PxB?9@eE<&-jUYW4;2y{0d
zaFiL~J1(!{0Vy=}l&Og>kf2SM#h^n*7f^F11zApAleb~Tfjb_w>D=4}Eeg_V@~b%v
zB2h&er+YS@^6EXmk0=rEr{uAJ+l|~@ZsFu=M}NMf|105M-MxX|4*q8F{=vUHwc;OK
z<^~PMWi{8euo@O%`&lI-#HEOFL;w#V76adcN+|<T0mHGXe%x#(V{(qt11IkQB(Q$u
zrMwqmR_Db&Y(T<g+<kdJ6h*b6pQf5Hh*mrs*1hoQ&W$`N{eBoR;Mvs0f7{K0o7WbZ
z#s1Z9DzVH;_uKd1dBmO8dBA1Esc2M@RLutypv$kzrU&#JD7$n<RU)PPj|!HasviIV
zQb{H(dj$=~le3sG<5De|G}z`sS<E@_8dy;pP39n9WYhtm$*I^?Fy{b%KZwO4D71QN
zV$0OGf}3WDq9KbW_w*QNbMEQi--huDZUU9V&Yi2<59hZZzPDp#`_W~t?J?K7=Bt^#
zw!kd6?_Zj_*KvQkL=bDK<`cr;ZbYs~VyNsi;c}^&UjhIaXRF3I5I0*jvoA8JR!n0$
zV^ghjs#==^PJt<s#``3>3@U5J37b^S4PbIk#7ehCha9FbGvu>Q2g%xkcHs*^Mm-$l
z>N)U+z=u-!ci%a4hNn(Z0;5wfjXXU(3ZIJdIvYYBYuE(|ygM}(QI1$m=+ec&zv5*f
zIVSbQrDRVz_kzJ<XPi2FDR!CP_a@&n#lL0DU@{uM1o^!@mEhu}17LtFQ1Cs}9|%D#
zt)%4O5&mpOg%i%Jw60jh;e1mYI-f#mF#48tEhiktWq==-N~h}OL!r=Rm{9M!N8ztY
zv9WQrd`h|iz9$+_2`cox02&Fr5FY$bz-4)$DTukL6Km1%&HunNgucjROu7cDY+Oi7
z8cR8=*@3lkAMCSf%8D|DI+H3KYQ;3SF8(obYNJ7;>cG%H?HlwD>I(fM+G^zt6d*pm
zq^9=9;N0NNLpQI^U%Pc}LB93zim!W?dEDChxw3d{rR&hYw!SiZYRwl|^>yZboeNhN
zTW{x<&VN;VFPlGb>cOjzeCMCqNn5|Js&w%J-$55IttLfxPuE(C=F{~UewNh@I*W?l
zX*kR1Nz8Cy)eIp4TCIm#yHXo!e5nvW6jFyZ$O1&$l^$5V?KJr->|qI})q#kXh^m%A
zf|)QVDUMc=TKbgqv&NeJLA*g>&bUFm(etc$sNdtJ0&dUgZx%GK4mrPc+%<eHhJZFU
z+NS}}4EtHH1HCPO1wyFiICE~$+HBA%90F!p$FN*Epnz|t8%Ce68&Lc<(+}46SLz2G
zL=Q0kCSP_iKs#6@VkdmEmyYy;rb4@SM1Sq0W2uIjLQP}n7;Cy}SoD#ol<43;LG^^n
zD15%^Dc2cPp;%OIt$Ri--BUJY8OKa45dB(;>zzqS&g$y~4Cu_2jW2o&e9veq6$kZo
zQi=*-8)!5>EN7(R8s*pFEPaE10gc`6Fw~q6fze0bMLq(B=74Z4AqTO36pJ^ocoo06
zP|1Y_CFrU25sqV@x3Cz%0(}Hsv$5dh$Yb)G(4csrpl5&<x`Rcvo8cc+*KYd92}JNK
zC_uaQle+p@7QBI~D(;CtaAR_Aa-r_8KL)p9_Tx3ZepC2y_VW{qH7gyVul=EAF0||q
zJ#&(_uB!TQEl>x4H-oo)Yk|&%Y(5ZN3v{dnwlBo;fu6PYU4<G_)AfwFYHAAsQq#I{
zW+@2%Zr;~F_kN)P)MjBDaeHpK=iE1UJ>puZ60Po%oP;I4fG_9V;LAD7oLnYo6E1@?
zvrfhUxUDfsp;iy1Gc848QAlaW<5?=-A7UtYPLQENioat<-5<r&aZJc;ts}B1dX_t2
z3Bmu792U<ro}>+Oh>3@yqoIGcWKSs{yt(vXDyv+0Aa14cgN!cVMw?D$z&iPIKb}~$
zMD(<q;Z{9PNJ+AC9n;-at$KN<dBnCG3ON5gWTSK30I|kjE?!;Ud-UGKBkmMEad73}
z9L+?dk}SUmBQ3*>Mh{I8HOx~`D~qr!V^>Uv6%A#?HbqUX>@WH1yo(s&p=OjtBg_zL
zid~<Ea}JT_yQ?J#ibi?HUG%G~CDW?S28P}WaP;}Hgv6IYP0k&)m!#-0JgIm91L~xT
z2Mn}<cgAJIFsn*>E$5=XI~#Sxz%>7i`5Ra<?OP>n2JQd`UQW3CU`1z)G5cqkpiB5Z
zOjRzlAei9N!{GxDR1)O<vJ{8hh)9q5)`Gd2@wP&vYR21g@GVM=GfQ7+ltY=May28t
z<yp^xVAWn5BLh9F2ZMY0xRAvJo;cOZgY`eM(JR1-HroA{#b5>^rPP~nFjTStYXvVI
zsf75CAZ5jmN_=D-!zU2}sr~6V<f+T`%JUrwYks7T3c9sFrU&pMF--ZCx}r0E^sVs}
z{gHA!&y9u3yM71Xr5u5-p7@@#X}lW{;$@*5Ms208%up&>!et}-j1J8mo5qT27NRp0
zKk9u9gG)ob7wX5*q!>Fb$tgv1(ID@YLwet1IN%3RZ1ibpj7F6@CM9(52KA`!*f4Tc
zf5va=cU^p|q#rAK{4JnVzJ>ylMkg5(Xt;T7#lQ1sk)_be?!yoLXaD}f{p~Anp8eW?
zc9}byr{%K$>=SR@>@oCBuI2+fRs*~9f!&MpN?`Bo05~;G?emvzU3y%%?dIi`y6(mE
zKmYJ2A1)32^haMY%Yj3W;cMbnVy(Gle(KiLGnb>Oc6PAfA?}u0#|{6Sf6Z49uGN~a
zZOvEr)a`V8;G4hkTQ5S8)3$m+7w8DRTA#XIv{y?<!HbX&`mfgjr29RFI))YM`72be
z>pT?H?}2yagSpQ(f?3V!)0U(RkHhT}ToAz~t62o_o=V|`2;3Y{M_0cV;Eme?5KDTg
zP&{sM11~qhRPe$Cmx5#&d8(%BR}9m8HW=pW9sdLIH9`T#*+T-`R{i_({(W}_z{Lbd
zQ|E#a^AVgDO%XM|{|U7}Q&e2aWk8S5i>9=4jtMKNrH|A{-!*VToa_8_pqTEOsBTKD
z;V3o6Hr3=o)mtzy##IdMmv+k-J4-02W@gDmph&$5i8j#&n4e3VnR=V?s14>gJvEo}
zl-^yaxW)9zf%gq&-6J}_EV<i&$Q@5s#Z!#j;Y2$HduiOhg_r(*YAmKI=j0Tg@s#}H
z?zy2>tETLV`8v}y;+s13#;{65{Qu|Gms-UtUcIoHSHHm&RvBD0e-$CYOW3~`HDBn?
zm0K?wi0k*Kn6n#}F%S&;ieb1OfTQ7(&tie;J>6vW0Hg&fuSNCi4Ls-aAQVAwWr$v3
z&MZqNzl&qeBT|2bdQ(tIm7EgehOKD8==prEiK9Kf1vJX<px82a-z=yHL$m7Z%KN$&
zZ8VR$hUU+*bc;KFzWXP;m+F2RTsptl`K!#YXMQ>J;QYT_{HKc#8$X;KeB9RcMept2
zMRj%0(fppH_k{a(_XmDA_z!~*4*uh*mA0W-|6@*%pC*?+xz9f22C+W4FtjwV^vQ$%
zN8CBgA!O&W3ymxOu4S%EkFIQV`-X$eaIhUOzTui%f{SlYIGjj{nK;6}aQJFQh#OyA
z;joyBK(igvJM^MXzp}O~s!VT|We4tpBOZf>?;+^a)8(4`R8rMJ8i2xY$}mw)bIY0o
zlRkQWhNbCm+45=R(||<&05Nf<>6C}D?IIL+2wex=R2g@g7I<Z-bbyV%PM$g(ELZS(
z*pti?zPrF8Pyp|uwcw&4N9vm9eYboIN<Of2-A&tCe5~h5T}Oe1H}q}qT2K~;Z%^mj
z_7+^&#F1^y1vf$-(%4e)BIG0Oo$ECSbujF^%u?eoI_`872*USv{kHEned`o1I9=>}
z%oA_m#?iT>1r{qXgRhQOU9`%P`sVqLTO9>At%5CXT=!D29?)AuajN1-tQ7}h%|jZR
zOwyX$3Y4^3(%8E0$FChN><2|Muu_7IRyoqzxgdQJza3vXvE130Z#htK(+@g96nu*z
z+dJ19nxFdjv8@(m0GA-cS~XnQ?jbGP7cMMzFI>F!Nx_RPK7zC&R8Ks$>kSBr4C&yX
zdK=l(MT)UfG6}8XEMNF;`wDJag}rGl&{5#>0WLpn1(Nsd`?leY5>5hKf(mQZ=*4!=
zMxJ=F-3NPAs6nW<bVYt_sW%Upnh$graN<G}lGBXPG(()V1)GEITVj9VyW{(o0Jv^9
z8w(vsY~3!Fx0nlX39(o!E*on|B4vUXYk{)K5fLQyJhjgn0n!BrWhPi7{{_4>Cxjnx
zV<e+<tKY!~@Fyi9v_v5q{wlh3Hx-*xX(fceW(os9b4v6AmMU`1o2EawqCbhCKdsRv
zG>Yi)rw6(!=8o#B=9qj1+R$B7Fw<JFGYs?8$uf>V))J=m_r&)H((`X*C{Kp|K=uL;
aY_4avw;c?>+}yKH5CFc}Tu*5mMgPAPkrx#J

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/__pycache__/utils.cpython-312.pyc b/lora/punica_wrapper/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..270e56598510ddae1b6f70a333c25ba0bea904ae
GIT binary patch
literal 5789
zcmb^#TWk~Ab;h0<k6&?YCxMtGOcIu0a1s&NvYXAeN+BCy11(`!RkN(DiRUJn#4l#X
zA&JInRP6_}RDe{8M5;u#s?@ANYWmf!RH^LWN>wEfLA5*LgKE_e{@g-8+Mo8^JD!R2
z0CuI`#54Dvd(Y#ZbMCq4%%6fm9|bMV{8au~Gev!c2X<?!b)LURQ`B8bq9i&^W#|c-
z#(h`XHQ_?E!a?7ic4wFg2H*^G%@T?>5$i3nh}(PS8$mq?|M63vRv<gYNZcpPgje!N
zyyQhb<dIxU9*V+q5+3>C7l2<7c(iPn2ao<wGVQrvEDe#7CC>(_0VEA9y5gZ{n01^s
zgCG3x`y<KIXGc!If9~SwMS%Fna^u4n#C%@PPMcvZH;1yxbWRbI8p^6U#pD#E6_jiW
zjNvrcF6D;b^G}G0G-qzs<*ac!IvDVQ>wazK3cQPS(N%}TI7^+5?vmUO7#pYPu3ODH
zi=2+`x?hu^$mop3N?eSZ^*Yl|M|Vq{<cU%CYMRnrvwmmV>D;gNW`hpM>DY5c7H~rj
z*y-5wuf*kadN%B!I33AtOI8HuD)PEVV&{%fl;Y88$wPWBi3T{MyL4Lj=&a7^;Fg!E
zxL3p~@(IvJktS#}NRYErIVB@%axN<<=xRY$kR$+zOsdnFd0`GIS(NS*ejsZz1S(7+
z5sZ!0K|<+xpKxwUNaeCBN)<GD9uYc7)l?u(5GF+}H6s*MWDylJNWkutfT64kQ-y2_
zvnRx^$>}uE%1p{xvN{7aw45LcDmY%+A)OH9OkT;&15l_F67L2nD4RlrSRN^4b1?2B
zfPp??*xL3anwGO!jGmhkkO<=C6*PsJtC~1X)M61zz;04vI#oy$9jSt-Sj4jkNua7p
zQH3Wc&r)W-pe2OKf(DTEB0Ox)AK+7EosncJSIBCrf?XY;Zb{BO!;X3J*?*zE7x$X1
zmQzwQW~7jnuNDxjcT{U~sX|6AWK7=@QgUiCEzcp7P37{7Nz<JX7feRhP{wrQC5$RB
zp}1FJfwmbXhgHr>atf*Tp$)6(YBG(o)7p#;@&WxMn6{AC%*bRCF93xonllefYAB}9
z3Ikb?$n+5#CoxOYlg*LXpyI=YeT}sLjPz@ne1Bff_X5Fbr1dToPQCrs+$q$bmM8o3
zi`q;s+drR9XZo?M{dw4ZN=#l;Am|{aA3Q6q_T?AN0C)#z86`6a=yU)JeE!r5JeH{!
z`>DPY<=zpaccj9%t~b4KyZShTIa*@&m0FL!;Hb#HyKQ&cN*(<hmmY^tEuVkV+EH$e
z8?Euu(RVgmhe}LKg=x8c^|n%CVr51!7-228etLa;?cihPcqQCb4j(qchd0AV%Hduk
z+`Ad>Uq1g*@S$=zZiM6OotxnVENh4^k5+k#kKDfW;~$j{^lfxKI&iWQX}Rus%Ev(5
z3V)!&N9_MlHN*$FD#f$hbJ!bYdNNk{Rd6IU8*PK4g`}2C%980NrUBJ~HRf|E5v+%;
z(TEl_h|_ftPD1nG2C4cOiTfm0$AJ1>YAcfJ)Lzm0el3#DV&~e??ATW1bncb&p4ZIt
zz`I_?8lN-NEpN&-O{H8P$KaOm>RySSI|K1A4DoWWc<!~O&C-(Vj_YO{Llu2RujDTJ
zHNP#q=0tIwv)9}2Gt|c?fl~nDXn<Vc7Qd#K@T;w|u`$=8e+RBh_X8Y9=fDt%p!;>+
z>fQVnL*aO>d#2sRpyu2ivyHZ-TW>w6HQ1xsh~3+I>nz-k*s9Qq4X>f)`v$Z^b+qh6
z%wj{HdV@q#3!Pa4|8Pcb7{fe<O>f=Bjdis4NQCr8$%XGUxa+wkNZ#~DXGe`dnZx!d
zhV@V}qDN-&U`KPjG5Q)l(H(rE4xf5V@VK2#qU(GoYFk}rU#-svp8NP5L(`*s;bSdf
zZ55+>c(#o!-1d-Mc(btQm(N9CG1vI=xoM`@q=)s09@QK5rYZI^oHQDKMej8#&Wj5m
z*y&t$9w~6a*JXtQT+?vBpasE73DrKI4+s8XWxAFq;887x4Q|7%0R<&@jpPg>+^RTZ
z0E(D_AWJ|DW8=0n?g1%T)oj8J!WOc1=WP*i!sMWEL0phCg^U1K*d$VLDuDUbG24oo
zusA27v_K$`jV#qt3M|sj2s<c@;Fw#t)=DwRW>R8Sm=Wgzoos2G<jr*&8Wyxd9x@#e
zrlv?M&BBau!wE;Sc99PXACUALFIH#7JQ6<Ix`#h@bYf|fXjjWQinPcHHI41m5}sAX
z3`nAULvA>WB-!6<c#$l##-dMn4^qx)ltl_jvudd!$p$A$BDhOzz(j(mZqtWFrk2Uo
z(*O^1veI3Y95?$KI!NY43DUl=r}$l*>Qu8$?e(e<uHifzvw`e%%WG|GU9N3=hi$B+
zv-h|F3AKXqX)y&^DW<eb2FLxk(?)Ot2ut-9<{khx_+*mI!tt+NEb6!E(8a+4C!b&=
zS%Cu!?udoOrG~Rc-9?IMTbNuV=`}f=2?6SiTvn<lfOBs=*++tdxQogbgYBEP^I^z=
zYheTql9dpv<NyL)aWV%bjUCg3a~dvnG*Qm(7WPQ}*#tSaAD>--nlB|@A+BwUxFt8K
z85EqeT#UO+R?-$BHGTtz&u}rJ;BOmo7Xc_exF0f^Gz3R8NCI=R7H3Tc7Yt?t6i}JG
z=0I7p$Yd2UJB>^?s6hz;5tFm_4y1BW`?F9Eq~=Wa+6>f3P<j9mnVe`Lu_Oq^n-u{N
zl}`NV!jEqJID{WqShIPXIQAaRuwy0%6tJT`_8gO5P!brQx1iF3Ny}!yF(Tfnr#3R1
zx9`rbUm^|<$Is0`z1hsr4zrmpI{-DanSO^c#9;V5McGGm+goYJ5{JNN@QrCJTNwc;
z<dl>;0hWWh<vdLtNvw~S6T?Pgc(dob<(^TaXLPgYT#0F|?C&k_A29Y0Z0<i<Vwx+_
zBjsqX5$)ZK_AifBIqKarba`m}(a`vFx2u!;>(Kbd)wN6O;a`4O;`f*N4ukJlx%!yz
z+;AEEKxt^a>ZaIem4c;!+t{>x_DL}E^An|giOp#5UxIztX{b>e-&nh3gnHIHABB#=
z`e1uG&}9U=O5JaL9yYq)c^nve8je;yls8=UQHf#tVc0l!`l0yf*y!rQmzPR>>q@7=
zw^d?Y*8{gN{UlTkQw{yq7RuXE;hUh+sd|``-169q02OMwmA;W)8G2Co&C+K}4-Y?X
zIJZ3dq^<Mb*y>n?Z}|nfH@iB!(E@c`I|r(O3NCi=-htHvPXp20!#B>CpmqzyE7oA;
zXsPFv5j$lB-m0>0ukX2=jR8^%u(6OTd~9XX;DxpLy7*~t>G)|-7+C>|XgaWR{LbL=
zSf%CI^7kt3iE{gZ(LS)*4jPX=Y45uC(dtJPzGJP+;18|I8=aqKN^iao=pDcy22yo&
z-@CGUrNVn}o+yRh*z_M>pZ~*$f1LRJ1W4Y&J@p>^Rd?y|&}P@WhWFinu&$2p09rLb
zd7I08%mA?lz)BT<Uzu+=_;xI0CvYqChcLTwgFgbImw5rp9sy9*%SO57_p6OS0I*;w
z%vbnm)z9IQkz=`k|8trK3#+((`XX}hEYHM)aFQ4C_d5lb1lHMZ#Pv3bntf?;5h<!w
zTyj=g0Usi8Dq_0f8;r?J=5lFLZ!2+(k54jj<IgDNAnp@K=Z7*msgOqBRxSVxSBdJM
z;Zb$dH2p80qC3B$0)KNi{+&rwxo(=P>}$KL-_fgX=s#tB*WbJ~bYp0x`Ci*<+gjn*
z`ltHF<<Gl6S0A1!`Og~cx#ujbt6rohX+RCes&3qQ+7eqivDUOYXtW%zvKWH>8oZNq
zc`Dpg^^&fS+83+(NjE?RBe%wGj8%hV*g$dqJ$QfkyDPuF^6=!B?l0ah`Ns_Q!ix}I
HPPY3$9*?)M

literal 0
HcmV?d00001

diff --git a/lora/punica_wrapper/punica_base.py b/lora/punica_wrapper/punica_base.py
new file mode 100644
index 0000000..b6186e8
--- /dev/null
+++ b/lora/punica_wrapper/punica_base.py
@@ -0,0 +1,492 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Based on:
+Chen, L., Ye, Z., Wu, Y., Zhuo, D., Ceze, L., & Krishnamurthy, A. (2023).
+Punica: Multi-Tenant LoRA Serving.
+https://arxiv.org/abs/2310.18547
+"""
+
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING
+
+import torch
+
+from .utils import compute_meta, convert_mapping
+
+if TYPE_CHECKING:
+    # avoid circuit import
+    from vllm.lora.layers import LoRAMapping
+
+
+class PunicaWrapperABC(ABC):
+    """
+    PunicaWrapper ABC.
+    """
+
+    @abstractmethod
+    def update_metadata(
+        self,
+        mapping: "LoRAMapping",
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+        **kwargs,
+    ) -> None:
+        """
+        Update the lora-related metadata
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_shrink(
+        self,
+        y: tuple[torch.Tensor, ...] | torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Performs GEMM  for multiple slices of lora_a.
+        """
+
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: tuple[torch.Tensor, ...] | torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Performs GEMM for multiple slices of lora_b.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA,
+        and this layer only requires the expand operation.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: tuple[torch.Tensor, ...] | None = None,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applicable to linear-related lora.
+        """
+
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applies lora  specifically for LogitsProcessorWithLoRA.
+        """
+        raise NotImplementedError
+
+
+class PunicaWrapperBase(PunicaWrapperABC):
+    """
+    PunicaWrapperBase is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the punica.
+    """
+
+    def __init__(
+        self,
+        max_num_batched_tokens: int,
+        max_batches: int,
+        device: torch.device | str,
+        **kwargs,
+    ):
+        self._token_lora_indices = torch.empty(
+            max_num_batched_tokens, dtype=torch.long, device=device
+        )
+        self._sampler_indices = torch.empty(
+            max_num_batched_tokens, dtype=torch.long, device=device
+        )
+        self._sampler_indices_padded = torch.empty(
+            max_num_batched_tokens, dtype=torch.long, device=device
+        )
+        self._embeddings_indices = torch.empty(
+            2, max_num_batched_tokens, dtype=torch.long, device=device
+        )
+
+        # 4 is the number of indices tensors.
+        # base_indices, sampler_indices, sampler_indices_padded,
+        # embeddings_indices
+        self.indices_len: list[int | None] = [None] * 4
+        # these attributes are the information required for sgmv kernel
+        self._seq_start_locs = torch.empty(max_batches, dtype=torch.long, device=device)
+        self._seq_lengths = torch.empty(max_batches, dtype=torch.long, device=device)
+        self._lora_indices_per_batch = torch.empty(
+            max_batches, dtype=torch.long, device=device
+        )
+        self.device: torch.device = device
+        self.max_length: int = 0
+        self.token_nums: int = 0
+        self.batch_size: int = -1
+        self.is_prefill = False
+        self.no_lora = False
+
+    def _update_base_metadata(
+        self,
+        mapping: "LoRAMapping",
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+    ):
+        (
+            base_indices,
+            sampler_indices,
+            sampler_indices_padded,
+            embeddings_indices,
+            indices_len,
+        ) = convert_mapping(
+            mapping,
+            lora_index_to_id,
+            max_loras,
+            vocab_size,
+            extra_vocab_size,
+            self.device,
+        )
+        self._token_lora_indices[: base_indices.shape[0]].copy_(base_indices)
+        self._sampler_indices[: sampler_indices.shape[0]].copy_(sampler_indices)
+        self._sampler_indices_padded[: sampler_indices_padded.shape[0]].copy_(
+            sampler_indices_padded
+        )
+        self._embeddings_indices[
+            : embeddings_indices.shape[0], : embeddings_indices.shape[1]
+        ].copy_(embeddings_indices)
+
+        self.indices_len[:] = indices_len
+
+    def _update_prefill_metadata(self, token_lora_tensor: torch.Tensor) -> None:
+        (
+            b_seq_start_tensor,
+            seq_length_tensor,
+            lora_indices_tensor,
+            batch_size,
+            max_length,
+            token_nums,
+            no_lora,
+        ) = compute_meta(token_lora_tensor)
+
+        self._seq_start_locs[: b_seq_start_tensor.shape[0]].copy_(b_seq_start_tensor)
+        self._seq_lengths[: seq_length_tensor.shape[0]].copy_(seq_length_tensor)
+        self._lora_indices_per_batch[: lora_indices_tensor.shape[0]].copy_(
+            lora_indices_tensor
+        )
+        self.batch_size = batch_size
+        self.max_length = max_length
+        self.token_nums = token_nums
+        self.no_lora = no_lora
+
+    @property
+    def prefill_metadata(
+        self,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int]:
+        """
+        This property provides a convenient way to access the necessary
+        metadata for prefill-related  kernel computations.
+            1. seq_start_locs: Tensor of sequence start positions.
+            2. seq_lengths: Tensor of sequence lengths.
+            3. lora_indices_per_batch: Tensor of lora indices, and an index of
+                -1 means no lora should be applied.
+            4. batch_size: Batch size after clustering identical lora indices.
+            5. max_length: The maximum sequence length in the batch.
+            6. token_nums: The token numbers in the batch.
+        """
+        return (
+            self._seq_start_locs[: self.batch_size],
+            self._seq_lengths[: self.batch_size],
+            self._lora_indices_per_batch[: self.batch_size],
+            self.batch_size,
+            self.max_length,
+            self.token_nums,
+        )
+
+    @property
+    def token_lora_indices(self) -> torch.Tensor:
+        """
+        This property provides the lora indices corresponding to each token
+        in the batch. An index of -1 means no lora should be applied.
+        """
+        token_lora_len = self.indices_len[0]
+        return self._token_lora_indices[:token_lora_len]
+
+    @property
+    def sampler_indices(self) -> torch.Tensor:
+        """
+        This property is used to access the lora indices specifically for
+        LogitsProcessorWithLoRA.
+        """
+        sampler_indices_len = self.indices_len[1]
+        return self._sampler_indices[:sampler_indices_len]
+
+    @property
+    def sampler_indices_padded(self) -> torch.Tensor:
+        """
+        This property provides access to padded sampler indices.
+        """
+        indices_padded_len = self.indices_len[2]
+        return self._sampler_indices_padded[:indices_padded_len]
+
+    @property
+    def embeddings_indices(self) -> torch.Tensor:
+        """
+        This property provides access to the indices used for lora embeddings,
+        specifically for VocabParallelEmbeddingWithLoRA.
+        """
+        embeddings_indices_len = self.indices_len[3]
+        return self._embeddings_indices[:, :embeddings_indices_len]
+
+    def update_metadata(
+        self,
+        mapping: "LoRAMapping",
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+        **kwargs,
+    ):
+        self._update_base_metadata(
+            mapping, lora_index_to_id, max_loras, vocab_size, extra_vocab_size
+        )
+
+        if mapping.is_prefill:
+            # Update metadata required for prefill-related operators.
+            self._update_prefill_metadata(self.token_lora_indices)
+            self.is_prefill = True
+        else:
+            self.is_prefill = False
+
+    @abstractmethod
+    def add_shrink(
+        self,
+        y: tuple[torch.Tensor, ...] | torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Performs GEMM  for multiple slices of lora_a.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: tuple[torch.Tensor, ...] | torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Performs GEMM for multiple slices of lora_b.
+
+        Semantics:
+            offset = offset_start
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            output_slices (tuple[int, ...]): Every slice's size
+            offset_start (int): The starting position of y, defaults to 0
+            add_inputs (bool):  Defaults to True.
+
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+        and this layer only requires the expand operation.
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: tuple[torch.Tensor, ...] | None = None,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)
+
+        Args:
+            y (torch.Tensor): Output tensor. Will be changed in-place.
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            scale (float): Scaling factor.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Applies lora  specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor):lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]):Default to None.
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    def moe_lora_align_block_size(
+        self,
+        topk_ids: torch.Tensor,
+        num_tokens: int,
+        block_size: int,
+        num_experts: int,
+        max_loras: int,
+        adapter_enabled: torch.Tensor,
+        expert_map: torch.Tensor | None = None,
+        pad_sorted_ids: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """
+        Aligns tokens and experts into block-sized chunks for LoRA-based
+        mixture-of-experts (MoE) execution.
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
+
+    def add_lora_fused_moe(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: list[torch.Tensor],
+        lora_b_stacked: list[torch.Tensor],
+        topk_weights: torch.Tensor,
+        sorted_token_ids: torch.Tensor,
+        expert_ids: torch.Tensor,
+        num_tokens_post_padded: torch.Tensor,
+        max_lora_rank: int,
+        top_k_num: int,
+        shrink_config,
+        expand_config,
+        adapter_enabled: torch.Tensor,
+        mul_routed_weight=False,
+    ):
+        """
+        Performs a fused forward computation for LoRA of
+        Mixture-of-Experts (MoE) layer.
+        """
+        # TODO: implement it based on torch ops
+        raise NotImplementedError
diff --git a/lora/punica_wrapper/punica_cpu.py b/lora/punica_wrapper/punica_cpu.py
new file mode 100644
index 0000000..1a700d9
--- /dev/null
+++ b/lora/punica_wrapper/punica_cpu.py
@@ -0,0 +1,351 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+
+from vllm.lora.ops.torch_ops import (
+    bgmv_expand,
+    bgmv_expand_slice,
+    bgmv_shrink,
+    sgmv_expand,
+    sgmv_expand_slice,
+    sgmv_shrink,
+)
+
+from .punica_base import PunicaWrapperBase
+
+
+# The platforms that are compatible with the PyTorch-native implementation can
+# inherit this class
+class PunicaWrapperCPU(PunicaWrapperBase):
+    """
+    PunicaWrapperCPU is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the pytorch punica ops.
+    """
+
+    def __init__(
+        self,
+        max_num_batched_tokens: int,
+        max_batches: int,
+        device: torch.device | str,
+        **kwargs,
+    ):
+        PunicaWrapperBase.__init__(self, max_num_batched_tokens, max_batches, device)
+
+    def _shrink_prefill(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        scale: float,
+    ):
+        # No LoRA request, so return directly
+        if self.no_lora:
+            return
+        sgmv_shrink(
+            x,
+            w_t_all,
+            y,
+            *self.prefill_metadata,
+            scale,
+        )
+
+    def _shrink_decode(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        scale: float,
+    ):
+        bgmv_shrink(x, w_t_all, y, self.token_lora_indices, scale)
+
+    def _expand_prefill(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        add_inputs: bool,
+    ):
+        # No LoRA request, so return directly
+        if self.no_lora:
+            return
+        sgmv_expand(
+            x,
+            w_t_all,
+            y,
+            *self.prefill_metadata,
+            add_inputs,
+        )
+
+    def _expand_decode(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        add_inputs: bool,
+    ):
+        bgmv_expand(x, w_t_all, y, self.token_lora_indices, add_inputs)
+
+    def _expand_slice_prefill(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        y_offset: int,
+        y_slice_size: int,
+        add_inputs: bool,
+    ):
+        # No LoRA request, so return directly
+        if self.no_lora:
+            return
+        sgmv_expand_slice(
+            x,
+            w_t_all,
+            y,
+            *self.prefill_metadata,
+            y_offset,
+            y_slice_size,
+            add_inputs,
+        )
+
+    def _expand_slice_decode(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        y_offset: int,
+        y_slice_size: int,
+        add_inputs: bool,
+    ):
+        bgmv_expand_slice(
+            x, w_t_all, y, self.token_lora_indices, y_offset, y_slice_size, add_inputs
+        )
+
+    def _apply_expand(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        y_offset: int,
+        y_slice_size: int,
+        add_inputs: bool = True,
+    ):
+        """
+        Perform the ` y[:,y_offset:y_offset+y_slice_size]+=x@w_t_all`
+        computation, which is suitable for the
+        GEMM of lora'b.
+        """
+
+        expand_slice_fun: Callable = (
+            self._expand_slice_prefill if self.is_prefill else self._expand_slice_decode
+        )
+        expand_slice_fun(y, x, w_t_all, y_offset, y_slice_size, add_inputs)
+
+    def _apply_shrink(
+        self, y: torch.Tensor, x: torch.Tensor, w_t_all: torch.Tensor, scale: float
+    ):
+        """
+        Perform the ` y+=x@w_t_all` computation, which is suitable for the
+        GEMM of lora'a.
+        When `is_prefill is` true, it indicates that it is currently the
+        prefill stage, and the `_shrink_prefill` function should be called.
+        Otherwise, it is the decode stage, and the _shrink_decode function
+        should be called.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        shrink_fun: Callable = (
+            self._shrink_prefill if self.is_prefill else self._shrink_decode
+        )
+        shrink_fun(y, x, w_t_all, scale)
+        y = y.view_as(y_org)
+
+    def add_shrink(
+        self,
+        y: tuple[torch.Tensor, ...] | torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ):
+        """
+        Performs GEMM  for multiple slices of lora_a.
+        When `is_prefill is` true, it indicates that it is currently the
+        prefill stage, and the `_shrink_prefill` function should be called.
+        Otherwise, it is the decode stage, and the _shrink_decode function
+        should be called.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+        """
+
+        x = x.view(-1, x.shape[-1])
+        # TODO fuse these kernels
+        for slice_idx in range(len(lora_a_stacked)):
+            self._apply_shrink(y[slice_idx], x, lora_a_stacked[slice_idx], scale)
+
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: tuple[torch.Tensor, ...] | torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> None:
+        """
+        Performs GEMM for multiple slices of lora_b.
+
+        Semantics:
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            output_slices (tuple[int, ...]): Every slice's size
+            add_inputs (bool):  Defaults to True.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        offset_left = offset_start
+        for slice_idx in range(len(lora_b_stacked)):
+            self._apply_expand(
+                y,
+                x[slice_idx],
+                lora_b_stacked[slice_idx],
+                offset_left,
+                output_slices[slice_idx],
+                add_inputs=add_inputs,
+            )
+            offset_left += output_slices[slice_idx]
+        y = y.view_as(y_org)
+
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+
+        # Embedding layer only need expand op
+        expand_fun: Callable = (
+            self._expand_prefill if self.is_prefill else self._expand_decode
+        )
+        expand_fun(y, x, lora_b_stacked, add_inputs)
+
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: tuple[torch.Tensor, ...] | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)
+
+        Args:
+            y (torch.Tensor): Output tensor. Will be changed in-place.
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            scale (float): Scaling factor.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
+        """
+
+        assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
+
+        if buffer is None:
+            r = lora_b_stacked[0].size(-1)
+            # We set the buffer to be float32 by default, consistent with the
+            # triton op
+            buffer = tuple(
+                torch.zeros((x.size(0), r), dtype=torch.float32, device=x.device)
+                for _ in range(len(output_slices))
+            )
+        self.add_shrink(buffer, x, lora_a_stacked, scale, **kwargs)
+        self.add_expand(
+            y, buffer, lora_b_stacked, output_slices, add_inputs=True, **kwargs
+        )
+
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor):lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]):Default to None.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        x = x.view(-1, x.shape[-1])
+        r = lora_b_stacked.size(-1)
+        if buffer is None:
+            # We set the buffer to be float32 by default, consistent with the
+            # triton op
+            buffer = torch.zeros((x.size(0), r), dtype=torch.float32, device=x.device)
+        # LogitsProcessorWithLoRA always using bgmv.
+        bgmv_shrink(x, lora_a_stacked, buffer, self.sampler_indices, scale)
+        bgmv_expand(buffer, lora_b_stacked, y, self.sampler_indices, add_inputs=True)
+        y = y.view_as(y_org)
diff --git a/lora/punica_wrapper/punica_gpu.py b/lora/punica_wrapper/punica_gpu.py
new file mode 100644
index 0000000..5436f4f
--- /dev/null
+++ b/lora/punica_wrapper/punica_gpu.py
@@ -0,0 +1,422 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Based on:
+Chen, L., Ye, Z., Wu, Y., Zhuo, D., Ceze, L., & Krishnamurthy, A. (2023).
+Punica: Multi-Tenant LoRA Serving.
+https://arxiv.org/abs/2310.18547
+"""
+
+from typing import final
+
+import torch
+
+from vllm.lora.layers import LoRAMapping
+from vllm.triton_utils import HAS_TRITON, triton
+from vllm.utils.math_utils import round_up
+
+if HAS_TRITON:
+    from vllm.lora.ops.triton_ops import (
+        LoRAKernelMeta,
+        fused_moe_lora,
+        lora_expand,
+        lora_shrink,
+    )
+
+from vllm import _custom_ops as ops
+
+from .punica_base import PunicaWrapperBase
+
+
+@final
+class PunicaWrapperGPU(PunicaWrapperBase):
+    """
+    PunicaWrapperGPU is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the punica triton kernel.
+    """
+
+    def __init__(
+        self,
+        max_num_batched_tokens: int,
+        max_batches: int,
+        device: torch.device | str,
+        **kwargs,
+    ):
+        PunicaWrapperBase.__init__(self, max_num_batched_tokens, max_batches, device)
+
+        self.max_loras = kwargs["max_loras"]
+
+        self.token_mapping_meta = LoRAKernelMeta.make(
+            self.max_loras, max_num_batched_tokens, device=device
+        )
+
+        # When speculative decoding is enabled, max_num_samples is
+        # max_batches * (num_speculative_decoding_tokens + 1).
+        # This line can be optimized by replacing max_num_batched_tokens
+        # to  max_batches * (num_speculative_decoding_tokens + 1).
+        self.prompt_mapping_meta = LoRAKernelMeta.make(
+            self.max_loras, max_num_batched_tokens, device=device
+        )
+
+    def update_metadata(
+        self,
+        mapping: LoRAMapping,
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+        **kwargs,
+    ):
+        self.is_prefill = mapping.is_prefill
+        self._update_base_metadata(
+            mapping, lora_index_to_id, max_loras, vocab_size, extra_vocab_size
+        )
+
+        # Prepare cuda kernel metadata tensors
+        self.token_mapping_meta.prepare_tensors(self.token_lora_indices)
+        self.prompt_mapping_meta.prepare_tensors(self.sampler_indices)
+
+    def add_shrink(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ):
+        """
+        Performs GEMM  for multiple slices of lora_a.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (torch.Tensor): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+        """
+
+        x = x.view(-1, x.shape[-1])
+        lora_shrink(
+            x,
+            lora_a_stacked,
+            y,
+            *self.token_mapping_meta.meta_args(x.size(0)),
+            scale,
+        )
+
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> None:
+        """
+        Performs GEMM for multiple slices of lora_b.
+
+        Semantics:
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            output_slices (tuple[int, ...]): Every slice's size
+            add_inputs (bool): Defaults to True.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+
+        assert x.ndim == 3
+        assert x.size(0) == len(output_slices)
+        num_tokens = x.size(1)  # first dimension is the num slices
+
+        lora_expand(
+            x,
+            lora_b_stacked,
+            y,
+            *self.token_mapping_meta.meta_args(num_tokens),
+            offset_start=offset_start,
+            add_inputs=True,
+        )
+
+        y = y.view_as(y_org)
+
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+
+        lora_expand(
+            x.unsqueeze(dim=0),
+            (lora_b_stacked,),
+            y,
+            *self.token_mapping_meta.meta_args(x.size(0)),
+            offset_start=0,
+            add_inputs=add_inputs,
+        )
+
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)
+        Args:
+            y (torch.Tensor): Output tensor. Will be changed in-place.
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            scale (float): Scaling factor.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[torch.Tensor]): Defaults to None.
+        """
+
+        assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
+
+        import vllm.envs as env
+        if env.VLLM_USE_LORA_FUSION:
+            import ixformer.inference.functions as ops
+
+            num_token, m = x.size(0), x.size(-1)
+            k, n = lora_b_stacked[0].size(-1), y.size(-1)
+            if len(lora_a_stacked) == 1 and ops.lora_gemv_optim_condition(num_token, m, k, n):
+                ops.add_lora_linear(y, x, lora_a_stacked, lora_b_stacked,
+                        lora_bias_stacked = None, scale = 1.0, output_slices = (1,))
+                return
+
+        assert buffer is None, (
+            "To minimize overhead, the buffer should be created by "
+            ".add_lora_linear() instead of being passed in."
+        )
+        r = lora_b_stacked[0].size(-1)
+        # We set the buffer to be float32 by default, refer to:
+        # https://github.com/triton-lang/triton/issues/1387
+        # Note: buffer is zeroed inside the shrink op
+        buffer = torch.empty(
+            (len(output_slices), x.size(0), r), dtype=torch.float32, device=x.device
+        )
+
+        self.add_shrink(
+            buffer,  # type: ignore
+            x,
+            lora_a_stacked,
+            scale,
+            **kwargs,
+        )
+        self.add_expand(
+            y,
+            buffer,  # type: ignore
+            lora_b_stacked,
+            output_slices,
+            add_inputs=True,
+            **kwargs,
+        )
+
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]): Default to None.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        x = x.view(-1, x.shape[-1])
+        r = lora_b_stacked.size(-1)
+
+        assert buffer is None, (
+            "To minimize overhead, the buffer should be created by "
+            ".add_lora_linear() instead of being passed in."
+        )
+        # We set the buffer to be float32 by default, refer to:
+        # https://github.com/triton-lang/triton/issues/1387
+        # Note: buffer is zeroed inside the shrink op
+        buffer = torch.empty((x.size(0), r), dtype=torch.float32, device=x.device)
+
+        lora_shrink(
+            x,
+            [lora_a_stacked],
+            buffer.unsqueeze(dim=0),
+            *self.prompt_mapping_meta.meta_args(x.size(0)),
+            scale,
+        )
+
+        lora_expand(
+            buffer.unsqueeze(dim=0),
+            [lora_b_stacked],
+            y,
+            *self.prompt_mapping_meta.meta_args(buffer.size(0)),
+            add_inputs=True,
+        )
+        y = y.view_as(y_org)
+
+    def moe_lora_align_block_size(
+        self,
+        topk_ids: torch.Tensor,
+        num_tokens: int,
+        block_size: int,
+        num_experts: int,
+        max_loras: int,
+        adapter_enabled: torch.Tensor,
+        expert_map: torch.Tensor | None = None,
+        pad_sorted_ids: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """
+        Aligns tokens and experts into block-sized chunks for LoRA-based
+        mixture-of-experts (MoE) execution.
+        """
+        max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
+        if pad_sorted_ids:
+            max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
+        sorted_ids = torch.empty(
+            (max_loras * max_num_tokens_padded,),
+            dtype=torch.int32,
+            device=topk_ids.device,
+        )
+        max_num_m_blocks = triton.cdiv(max_num_tokens_padded, block_size)
+        # Expert ids must be set default to -1 to prevent a blank block
+        expert_ids = torch.empty(
+            (max_loras * max_num_m_blocks,),
+            dtype=torch.int32,
+            device=topk_ids.device,
+        )
+        num_tokens_post_pad = torch.empty(
+            (max_loras), dtype=torch.int32, device=topk_ids.device
+        )
+
+        (token_lora_mapping, _, _, _, lora_ids, _) = self.token_mapping_meta.meta_args(
+            num_tokens
+        )
+
+        ops.moe_lora_align_block_size(
+            topk_ids,
+            token_lora_mapping,
+            num_experts,
+            block_size,
+            max_loras,
+            max_num_tokens_padded,
+            max_num_m_blocks,
+            sorted_ids,
+            expert_ids,
+            num_tokens_post_pad,
+            adapter_enabled,
+            lora_ids,
+        )
+        if expert_map is not None:
+            expert_ids = expert_map[expert_ids]
+
+        return sorted_ids, expert_ids, num_tokens_post_pad
+
+    def add_lora_fused_moe(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: list[torch.Tensor],
+        lora_b_stacked: list[torch.Tensor],
+        topk_weights: torch.Tensor,
+        sorted_token_ids: torch.Tensor,
+        expert_ids: torch.Tensor,
+        num_tokens_post_padded: torch.Tensor,
+        max_lora_rank: int,
+        top_k_num: int,
+        shrink_config,
+        expand_config,
+        adapter_enabled: torch.Tensor,
+        mul_routed_weight=False,
+    ):
+        """
+        Performs a fused forward computation for LoRA of Mixture-of-Experts (MoE) layer.
+        """
+        (_, _, _, _, lora_ids, _) = self.token_mapping_meta.meta_args(x.size(0))
+        fused_moe_lora(
+            y,
+            x,
+            lora_a_stacked,
+            lora_b_stacked,
+            topk_weights,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            max_lora_rank,
+            top_k_num,
+            lora_ids,
+            adapter_enabled,
+            shrink_config.get("BLOCK_SIZE_M", 64),
+            shrink_config.get("BLOCK_SIZE_N", 64),
+            shrink_config.get("BLOCK_SIZE_K", 32),
+            shrink_config.get("GROUP_SIZE_M", 8),
+            shrink_config.get("NUM_WARPS", 4),
+            shrink_config.get("NUM_STAGES", 3),
+            shrink_config.get("SPLIT_K", 1),
+            expand_config.get("BLOCK_SIZE_M", 64),
+            expand_config.get("BLOCK_SIZE_N", 64),
+            expand_config.get("BLOCK_SIZE_K", 32),
+            expand_config.get("GROUP_SIZE_M", 8),
+            expand_config.get("NUM_WARPS", 4),
+            expand_config.get("NUM_STAGES", 3),
+            expand_config.get("SPLIT_K", 1),
+            mul_routed_weight,
+        )
\ No newline at end of file
diff --git a/lora/punica_wrapper/punica_selector.py b/lora/punica_wrapper/punica_selector.py
new file mode 100644
index 0000000..d8763e9
--- /dev/null
+++ b/lora/punica_wrapper/punica_selector.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+from .punica_base import PunicaWrapperBase
+
+logger = init_logger(__name__)
+
+
+def get_punica_wrapper(*args, **kwargs) -> PunicaWrapperBase:
+    punica_wrapper_qualname = current_platform.get_punica_wrapper()
+    punica_wrapper_cls = resolve_obj_by_qualname(punica_wrapper_qualname)
+    punica_wrapper = punica_wrapper_cls(*args, **kwargs)
+    assert punica_wrapper is not None, (
+        "the punica_wrapper_qualname(" + punica_wrapper_qualname + ") is wrong."
+    )
+    logger.info_once("Using %s.", punica_wrapper_qualname.rsplit(".", 1)[1])
+    return punica_wrapper
diff --git a/lora/punica_wrapper/punica_tpu.py b/lora/punica_wrapper/punica_tpu.py
new file mode 100644
index 0000000..090878d
--- /dev/null
+++ b/lora/punica_wrapper/punica_tpu.py
@@ -0,0 +1,359 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from typing import TYPE_CHECKING
+
+import torch
+import torch.nn.functional as F
+import torch_xla
+
+from vllm.lora.ops.xla_ops import bgmv_expand, bgmv_expand_slice, bgmv_shrink
+from vllm.lora.punica_wrapper.utils import convert_mapping
+
+if TYPE_CHECKING:
+    # avoid circuit import
+    from vllm.lora.layers import LoRAMapping
+
+from .punica_base import PunicaWrapperBase
+
+
+class PunicaWrapperTPU(PunicaWrapperBase):
+    """
+    PunicaWrapperTPU is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the pytorch punica ops.
+    """
+
+    def __init__(
+        self,
+        max_num_batched_tokens: int,
+        max_batches: int,
+        device: torch.device | str,
+        **kwargs,
+    ):
+        PunicaWrapperBase.__init__(self, max_num_batched_tokens, max_batches, device)
+
+        # PunicaWrapperBase defines some tensors with dtype=torch.int64, which
+        # isn't supported by the TPU. So convert those tensors to int32.
+        # Not all of them are used by the TPU so only convert the useful ones.
+        self._token_lora_indices = self._token_lora_indices.to(dtype=torch.int32)
+        self._sampler_indices = self._sampler_indices.to(dtype=torch.int32)
+        self._sampler_indices_padded = self._sampler_indices_padded.to(
+            dtype=torch.int32
+        )
+
+        torch.ops.xla.dynamo_set_buffer_donor_(self._token_lora_indices, True)
+        torch.ops.xla.dynamo_set_buffer_donor_(self._sampler_indices, True)
+        torch.ops.xla.dynamo_set_buffer_donor_(self._sampler_indices_padded, True)
+        torch.ops.xla.dynamo_set_buffer_donor_(self._embeddings_indices, True)
+        torch.ops.xla.dynamo_set_buffer_donor_(self._lora_indices_per_batch, True)
+
+        torch._dynamo.mark_dynamic(self._token_lora_indices, 0)
+        torch._dynamo.mark_dynamic(self._embeddings_indices, 1)
+        torch._dynamo.mark_dynamic(self._sampler_indices_padded, 0)
+
+    def _get_token_lora_indices(self, x: torch.Tensor) -> torch.IntTensor:
+        return torch.narrow(self._token_lora_indices, 0, 0, x.size(0))
+
+    @property
+    def embeddings_indices(self) -> torch.Tensor:
+        """
+        This property provides access to the indices used for lora embeddings,
+        specifically for VocabParallelEmbeddingWithLoRA.
+        """
+        return self._embeddings_indices[:]
+
+    @property
+    def sampler_indices_padded(self) -> torch.Tensor:
+        """
+        This property provides access to padded sampler indices.
+        """
+        return self._sampler_indices_padded[:]
+
+    def shrink(
+        self,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        scale: float,
+    ):
+        return bgmv_shrink(x, w_t_all, self._get_token_lora_indices(x), scale)
+
+    def expand(
+        self, y: torch.Tensor, x: torch.Tensor, w_t_all: torch.Tensor, add_inputs: bool
+    ):
+        return bgmv_expand(x, w_t_all, y, self._get_token_lora_indices(x), add_inputs)
+
+    def expand_slice(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        y_offset: int,
+        y_slice_size: int,
+        add_inputs: bool,
+    ) -> torch.Tensor:
+        return bgmv_expand_slice(
+            x,
+            w_t_all,
+            y,
+            self._get_token_lora_indices(x),
+            y_offset,
+            y_slice_size,
+            add_inputs,
+        )
+
+    def add_shrink(
+        self,
+        y: tuple[torch.Tensor, ...] | torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ) -> torch.Tensor | None:
+        """
+        Performs GEMM for multiple slices of lora_a.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+        """
+
+        torch.ops.xla.dynamo_set_buffer_donor_(y, True)
+        x = x.view(-1, x.shape[-1])
+
+        for slice_idx in range(len(lora_a_stacked)):
+            lora_s = lora_a_stacked[slice_idx]
+            y_s = self.shrink(x, lora_s, scale)
+            y[slice_idx, :, :] = y_s  # type: ignore[index]
+        return y
+
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: tuple[torch.Tensor, ...] | torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> torch.Tensor:
+        """
+        Performs GEMM for multiple slices of lora_b.
+
+        Semantics:
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            output_slices (tuple[int, ...]): Every slice's size
+            add_inputs (bool):  Defaults to True.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        offset_left = 0
+
+        for slice_idx in range(len(lora_b_stacked)):
+            y = self.expand_slice(
+                y,
+                x[slice_idx],
+                lora_b_stacked[slice_idx],
+                offset_left,
+                output_slices[slice_idx],
+                add_inputs=add_inputs,
+            )
+            offset_left += output_slices[slice_idx]
+        return y.view_as(y_org)
+
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> torch.Tensor:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+
+        # Embedding layer only needs the expand op
+        return self.expand(y, x, lora_b_stacked, add_inputs)
+
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: tuple[torch.Tensor, ...] | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)
+
+        Args:
+            y (torch.Tensor): Output tensor. Will not be changed in-place.
+            x (torch.Tensor): Input tensor (T, E)
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            scale (float): Scaling factor.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
+        """
+
+        assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
+
+        if buffer is None:
+            r = lora_b_stacked[0].size(-1)
+            T = x.size(0)
+            buffer = torch.zeros(
+                (len(output_slices), T, r),
+                dtype=x.dtype,
+                device=x.device,
+            )
+        buffer = self.add_shrink(buffer, x, lora_a_stacked, scale, **kwargs)
+        return self.add_expand(
+            y, buffer, lora_b_stacked, output_slices, add_inputs=True, **kwargs
+        )
+
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        """
+        Applies lora specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor):lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]):Default to None.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        x = x.view(-1, x.shape[-1])
+
+        sampler_indices = torch.narrow(self._sampler_indices, 0, 0, x.size(0))
+        buffer = bgmv_shrink(x, lora_a_stacked, sampler_indices, scale)
+        y = bgmv_expand(buffer, lora_b_stacked, y, sampler_indices, add_inputs=True)
+        return y.view_as(y_org)
+
+    # This performs the same tensor ops as the base method, except it does them
+    # on the CPU then transfers the results to the TPU
+    def _update_base_metadata(
+        self,
+        mapping: "LoRAMapping",
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+    ):
+        # Make sure we don't accidentally collect outside operations
+        torch_xla.sync()
+
+        # Pad the prompt mapping to avoid running into recompiles on the TPU
+        # TODO: Should this happen inside mapping internally? If so how can we
+        # avoid having backend specific LoRAMapping classes?
+        mapping.prompt_mapping = self._pad_prompt_mapping(mapping.prompt_mapping)
+
+        (
+            base_indices,
+            sampler_indices,
+            sampler_indices_padded,
+            embeddings_indices,
+            indices_len,
+        ) = convert_mapping(
+            mapping,
+            lora_index_to_id,
+            max_loras,
+            vocab_size,
+            extra_vocab_size,
+            "cpu",
+        )
+        self._token_lora_indices = self._pad_to_shape(
+            base_indices, self._token_lora_indices.shape, dims=1
+        ).to(self.device)
+        self._sampler_indices = self._pad_to_shape(
+            sampler_indices, self._sampler_indices.shape, dims=1
+        ).to(self.device)
+        self._sampler_indices_padded = self._pad_to_shape(
+            sampler_indices_padded, self._sampler_indices_padded.shape, dims=1
+        ).to(self.device)
+        self._embeddings_indices = self._pad_to_shape(
+            embeddings_indices, self._embeddings_indices.shape, dims=2
+        ).to(self.device)
+        self.indices_len[:] = indices_len
+
+    def _update_prefill_metadata(self, token_lora_tensor: torch.Tensor) -> None:
+        self.batch_size = 1
+        self._lora_indices_per_batch[: self.batch_size] = token_lora_tensor[
+            : self.batch_size
+        ]
+
+    def _pad_prompt_mapping(self, prompt_mapping: tuple[int, ...]) -> tuple[int, ...]:
+        num_reqs = len(prompt_mapping)
+
+        # From vllm/v1/worker/tpu_model_runner:51, but need to avoid a circular
+        # import
+        MIN_NUM_SEQS = 8
+
+        padded_num_reqs = max(2 ** math.ceil(math.log2(num_reqs)), MIN_NUM_SEQS)
+        pad_len = padded_num_reqs - num_reqs
+
+        padding = [-1] * pad_len
+        return tuple(list(prompt_mapping) + padding)
+
+    def _pad_to_shape(self, src, target_shape, dims=1):
+        if dims == 1:
+            pad_len = target_shape[0] - src.shape[0]
+            return F.pad(src, (0, pad_len), value=0).to(torch.int32)
+        else:
+            pad_rows = target_shape[0] - src.shape[0]
+            pad_cols = target_shape[1] - src.shape[1]
+            return F.pad(src, (0, pad_cols, 0, pad_rows), value=0).to(torch.int32)
diff --git a/lora/punica_wrapper/punica_xpu.py b/lora/punica_wrapper/punica_xpu.py
new file mode 100644
index 0000000..b95087d
--- /dev/null
+++ b/lora/punica_wrapper/punica_xpu.py
@@ -0,0 +1,279 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Based on:
+Chen, L., Ye, Z., Wu, Y., Zhuo, D., Ceze, L., & Krishnamurthy, A. (2023).
+Punica: Multi-Tenant LoRA Serving.
+https://arxiv.org/abs/2310.18547
+"""
+
+from typing import final
+
+import torch
+
+from vllm.lora.layers import LoRAMapping
+from vllm.lora.ops.ipex_ops import bgmv_expand, bgmv_expand_slice, bgmv_shrink
+
+from .punica_base import PunicaWrapperBase
+
+
+@final
+class PunicaWrapperXPU(PunicaWrapperBase):
+    """
+    PunicaWrapperXPU is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the punica ipex kernel.
+    """
+
+    def __init__(
+        self,
+        max_num_batched_tokens: int,
+        max_batches: int,
+        device: torch.device | str,
+        **kwargs,
+    ):
+        PunicaWrapperBase.__init__(self, max_num_batched_tokens, max_batches, device)
+        torch._dynamo.mark_dynamic(self._token_lora_indices, 0)
+        torch._dynamo.mark_dynamic(self._embeddings_indices, 1)
+        torch._dynamo.mark_dynamic(self._sampler_indices_padded, 0)
+
+    def update_metadata(
+        self,
+        mapping: LoRAMapping,
+        lora_index_to_id: list[int | None],
+        max_loras: int,
+        vocab_size: int,
+        extra_vocab_size: int,
+        **kwargs,
+    ):
+        self.is_prefill = mapping.is_prefill
+        self._update_base_metadata(
+            mapping, lora_index_to_id, max_loras, vocab_size, extra_vocab_size
+        )
+
+    def _get_token_lora_indices(self, x: torch.Tensor) -> torch.IntTensor:
+        return torch.narrow(self._token_lora_indices, 0, 0, x.size(0))
+
+    def _apply_shrink(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        scale: float,
+    ):
+        bgmv_shrink(x, w_t_all, y, self._get_token_lora_indices(x), scale)
+
+    def _apply_expand(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        y_offset: int,
+        y_slice_size: int,
+        add_inputs: bool,
+    ):
+        token_lora_indices = self._get_token_lora_indices(x)
+        bgmv_expand_slice(
+            x, w_t_all, y, token_lora_indices, y_offset, y_slice_size, add_inputs
+        )
+
+    def add_shrink(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        **kwargs,
+    ):
+        """
+        Performs GEMM  for multiple slices of lora_a.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (torch.Tensor): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+        """
+
+        x = x.view(-1, x.shape[-1])
+        for slice_idx in range(len(lora_a_stacked)):
+            self._apply_shrink(y[slice_idx], x, lora_a_stacked[slice_idx], scale)
+
+    def add_expand(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        output_slices: tuple[int, ...],
+        offset_start: int = 0,
+        add_inputs=True,
+        **kwargs,
+    ) -> None:
+        """
+        Performs GEMM for multiple slices of lora_b.
+
+        Semantics:
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            output_slices (tuple[int, ...]): Every slice's size
+            add_inputs (bool): Defaults to True.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+
+        assert x.ndim == 3
+        assert x.size(0) == len(output_slices)
+
+        # TODO fuse these kernels
+        for slice_idx in range(len(lora_b_stacked)):
+            self._apply_expand(
+                y,
+                x[slice_idx],
+                lora_b_stacked[slice_idx],
+                offset_start,
+                output_slices[slice_idx],
+                add_inputs=add_inputs,
+            )
+            offset_start += output_slices[slice_idx]
+        y.view_as(y_org)
+
+    def add_lora_embedding(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        add_inputs: bool = True,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+        token_lora_indices = self._get_token_lora_indices(x)
+        bgmv_expand(x, lora_b_stacked, y, token_lora_indices, add_inputs)
+
+    def add_lora_linear(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: tuple[torch.Tensor, ...],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        scale: float,
+        output_slices: tuple[int, ...],
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)
+
+        Args:
+            y (torch.Tensor): Output tensor. Will be changed in-place.
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            scale (float): Scaling factor.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[torch.Tensor]): Defaults to None.
+        """
+
+        assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
+
+        if buffer is None:
+            r = lora_b_stacked[0].size(-1)
+            # We set the buffer to be float32 by default, refer to:
+            # https://github.com/triton-lang/triton/issues/1387
+            buffer = torch.zeros(  # type: ignore
+                (len(output_slices), x.size(0), r),
+                dtype=torch.float32,
+                device=x.device,
+            )
+        self.add_shrink(
+            buffer,  # type: ignore
+            x,
+            lora_a_stacked,
+            scale,
+            **kwargs,
+        )
+        self.add_expand(
+            y,
+            buffer,  # type: ignore
+            lora_b_stacked,
+            output_slices,
+            add_inputs=True,
+            **kwargs,
+        )
+
+    @property
+    def sampler_indices_padded(self) -> torch.Tensor:
+        """
+        This property provides access to padded sampler indices.
+        """
+        return self._sampler_indices_padded[:]
+
+    def add_lora_logits(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        scale,
+        *,
+        buffer: torch.Tensor | None = None,
+        **kwargs,
+    ) -> None:
+        """
+        Applies lora  specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]): Default to None.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        x = x.view(-1, x.shape[-1])
+        r = lora_b_stacked.size(-1)
+        if buffer is None:
+            # We set the buffer to be float32 by default, refer to:
+            # https://github.com/triton-lang/triton/issues/1387
+            buffer = torch.zeros((x.size(0), r), dtype=torch.float32, device=x.device)
+        sampler_indices = torch.narrow(self._sampler_indices, 0, 0, x.size(0))
+        bgmv_shrink(x, lora_a_stacked, buffer, sampler_indices, scale)
+        bgmv_expand(buffer, lora_b_stacked, y, sampler_indices, add_inputs=True)
+        return y.view_as(y_org)
diff --git a/lora/punica_wrapper/utils.py b/lora/punica_wrapper/utils.py
new file mode 100644
index 0000000..584745f
--- /dev/null
+++ b/lora/punica_wrapper/utils.py
@@ -0,0 +1,150 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING
+
+import torch
+
+if TYPE_CHECKING:
+    # avoid circuit import
+    from vllm.lora.layers import LoRAMapping
+
+
+def compute_meta(
+    token_lora_tensor: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int, bool]:
+    """
+    Get the information required for the sgmv kernel. With the  features:
+    1. If consecutive requests in the batch use the same LoRA, this function
+    will combine them into a single request, improving sgmv kernel inference
+    performance.
+    2. At the beginning of each prefill stage inference, recalculations are
+    needed based on the input, but only once.
+    """
+
+    lora_indices_tensor, seq_length_tensor = torch.unique_consecutive(
+        token_lora_tensor, return_counts=True
+    )
+    cum_result = torch.cumsum(seq_length_tensor, dim=0)
+    b_seq_start_tensor = torch.zeros_like(seq_length_tensor)
+    b_seq_start_tensor[1:].copy_(cum_result[:-1])
+    max_length = seq_length_tensor.max().item()
+    token_nums = seq_length_tensor.sum().item()
+    batch_size = lora_indices_tensor.size(0)
+    no_lora = False
+    # -1 means no lora should be applied. Use `no_lora` to determine whether
+    # the current step requires LoRA. If LoRA is not needed, the prefill stage
+    # does not need to launch the triton kernel, which can improve performance
+    if batch_size == 1 and lora_indices_tensor == -1:
+        no_lora = True
+    return (
+        b_seq_start_tensor,
+        seq_length_tensor,
+        lora_indices_tensor,
+        batch_size,
+        max_length,
+        token_nums,
+        no_lora,
+    )
+
+
+# TODO see if this can be vectorized
+def convert_mapping(
+    mapping: "LoRAMapping",
+    lora_index_to_id: list[int | None],
+    max_loras: int,
+    vocab_size: int,
+    extra_vocab_size: int,
+    device: torch.device,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, list[int]]:
+    """Converts LoRAMapping to index tensors.
+
+    Args:
+        mapping: LoRAMapping mapping rows in a batch to LoRA ids.
+        lora_index_to_id: List mapping LoRA ids to LoRA indices.
+        max_loras: Maximum number of LoRAs.
+        vocab_size: Model vocab size.
+        extra_vocab_size: Extra vocab size each LoRA can have.
+
+    Returns:
+        A tuple of tensors:
+            base_indices: Tensor of shape [batch_size] mapping batch rows to
+                LoRA indices.
+            sampler_indices: Tensor of shape [batch_size] mapping requests to
+                LoRA indices for sampler. For generation, this will be the
+                same as base_indices. For prefill, this will map requests
+                to LoRA indices.
+            sampler_indices_padded: Tensor of shape [batch_size] mapping
+                requests to LoRA indices for sampler with padding.
+                Same as sampler_indices, but -1 is replaced with
+                max_loras.
+            embeddings_indices: Tensor of shape [2, batch_size] mapping
+                requests to embedding indices. First row is for embeddings
+                added by the LoRAs, second row is for the LoRA.lora_a
+                embeddings.
+            indices_len: List of lengths of the above tensors. It contains
+                (base_indices, sampler_indices, sampler_indices_padded,
+                embeddings_indices).
+    """
+    index_mapping_indices: list[int] = list(mapping.index_mapping).copy()
+    embedding_indices = index_mapping_indices.copy()
+    lora_indices = index_mapping_indices.copy()
+
+    prompt_mapping: list[int] = [
+        lora_index_to_id.index(x) if x > 0 else -1 for x in mapping.prompt_mapping
+    ]
+    lora_idx = None
+    for i in range(len(index_mapping_indices)):
+        # TODO index can be slow. optimize
+        lora_idx = (
+            lora_index_to_id.index(index_mapping_indices[i])
+            if index_mapping_indices[i] > 0
+            else -1
+        )
+        embedding_indices[i] = lora_idx if index_mapping_indices[i] > 0 else 0
+        lora_indices[i] = lora_idx
+
+    indices_list: list[list[int] | torch.Tensor] = [
+        index_mapping_indices,
+        lora_indices,
+        embedding_indices,
+    ]
+
+    indices = torch.tensor(indices_list, dtype=torch.long, device=device)
+    prompt_mapping_tensor = torch.tensor(
+        prompt_mapping, dtype=torch.long, device=device
+    )
+    embeddings_indices = torch.stack(
+        [
+            indices[2] * extra_vocab_size,
+            indices[2] * (vocab_size + extra_vocab_size),
+        ]
+    )
+    embeddings_indices = torch.where(
+        embeddings_indices == -1, max_loras - 1, embeddings_indices
+    )
+    base_indices = indices[1]
+    sampler_indices = prompt_mapping_tensor
+    sampler_indices_padded = sampler_indices.clone()
+    sampler_indices_padded = torch.where(
+        sampler_indices_padded == -1, max_loras - 1, sampler_indices_padded
+    )
+    sampler_indices_padded = torch.arange(
+        0, len(sampler_indices_padded), device=device, dtype=torch.long
+    ) + (sampler_indices_padded * len(sampler_indices_padded))
+
+    # Contain length of indices tensors. Used to index into each tensor.
+    indices_len = [
+        base_indices.shape[-1],
+        sampler_indices.shape[-1],
+        sampler_indices_padded.shape[-1],
+        embeddings_indices.shape[-1],
+    ]
+
+    return (
+        base_indices,
+        sampler_indices,
+        sampler_indices_padded,
+        embeddings_indices,
+        indices_len,
+    )
diff --git a/lora/request.py b/lora/request.py
new file mode 100644
index 0000000..c97e435
--- /dev/null
+++ b/lora/request.py
@@ -0,0 +1,100 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import warnings
+
+import msgspec
+
+
+class LoRARequest(
+    msgspec.Struct,
+    omit_defaults=True,  # type: ignore[call-arg]
+    array_like=True,
+):  # type: ignore[call-arg]
+    """
+    Request for a LoRA adapter.
+
+    Note that this class should be used internally. For online
+    serving, it is recommended to not allow users to use this class but
+    instead provide another layer of abstraction to prevent users from
+    accessing unauthorized LoRA adapters.
+
+    lora_int_id must be globally unique for a given adapter.
+    This is currently not enforced in vLLM.
+    """
+
+    lora_name: str
+    lora_int_id: int
+    lora_path: str = ""
+    lora_local_path: str | None = msgspec.field(default=None)
+    long_lora_max_len: int | None = None
+    base_model_name: str | None = msgspec.field(default=None)
+    tensorizer_config_dict: dict | None = None
+
+    def __post_init__(self):
+        if self.lora_int_id < 1:
+            raise ValueError(f"id must be > 0, got {self.lora_int_id}")
+        if self.lora_local_path:
+            warnings.warn(
+                "The 'lora_local_path' attribute is deprecated "
+                "and will be removed in a future version. "
+                "Please use 'lora_path' instead.",
+                DeprecationWarning,
+                stacklevel=2,
+            )
+            if not self.lora_path:
+                self.lora_path = self.lora_local_path or ""
+
+        # Ensure lora_path is not empty
+        assert self.lora_path, "lora_path cannot be empty"
+
+    @property
+    def adapter_id(self):
+        return self.lora_int_id
+
+    @property
+    def name(self):
+        return self.lora_name
+
+    @property
+    def path(self):
+        return self.lora_path
+
+    @property
+    def local_path(self):
+        warnings.warn(
+            "The 'local_path' attribute is deprecated "
+            "and will be removed in a future version. "
+            "Please use 'path' instead.",
+            DeprecationWarning,
+            stacklevel=2,
+        )
+        return self.lora_path
+
+    @local_path.setter
+    def local_path(self, value):
+        warnings.warn(
+            "The 'local_path' attribute is deprecated "
+            "and will be removed in a future version. "
+            "Please use 'path' instead.",
+            DeprecationWarning,
+            stacklevel=2,
+        )
+        self.lora_path = value
+
+    def __eq__(self, value: object) -> bool:
+        """
+        Overrides the equality method to compare LoRARequest
+        instances based on lora_name. This allows for identification
+        and comparison lora adapter across engines.
+        """
+        return isinstance(value, self.__class__) and self.lora_name == value.lora_name
+
+    def __hash__(self) -> int:
+        """
+        Overrides the hash method to hash LoRARequest instances
+        based on lora_name. This ensures that LoRARequest instances
+        can be used in hash-based collections such as sets and dictionaries,
+        identified by their names across engines.
+        """
+        return hash(self.lora_name)
diff --git a/lora/resolver.py b/lora/resolver.py
new file mode 100644
index 0000000..bcfe264
--- /dev/null
+++ b/lora/resolver.py
@@ -0,0 +1,88 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections.abc import Set
+from dataclasses import dataclass, field
+
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+
+logger = init_logger(__name__)
+
+
+class LoRAResolver(ABC):
+    """Base class for LoRA adapter resolvers.
+
+    This class defines the interface for resolving and fetching LoRA adapters.
+    Implementations of this class should handle the logic for locating and
+    downloading LoRA adapters from various sources (e.g. S3, cloud storage,
+    etc.).
+    """
+
+    @abstractmethod
+    async def resolve_lora(
+        self, base_model_name: str, lora_name: str
+    ) -> LoRARequest | None:
+        """Abstract method to resolve and fetch a LoRA model adapter.
+
+        Implements logic to locate and download LoRA adapter based on the name.
+        Implementations might fetch from a blob storage or other sources.
+
+        Args:
+            base_model_name: The name/identifier of the base model to resolve.
+            lora_name: The name/identifier of the LoRA model to resolve.
+
+        Returns:
+            Optional[LoRARequest]: The resolved LoRA model information, or None
+            if the LoRA model cannot be found.
+        """
+        pass
+
+
+@dataclass
+class _LoRAResolverRegistry:
+    resolvers: dict[str, LoRAResolver] = field(default_factory=dict)
+
+    def get_supported_resolvers(self) -> Set[str]:
+        """Get all registered resolver names."""
+        return self.resolvers.keys()
+
+    def register_resolver(
+        self,
+        resolver_name: str,
+        resolver: LoRAResolver,
+    ) -> None:
+        """Register a LoRA resolver.
+        Args:
+            resolver_name: Name to register the resolver under.
+            resolver: The LoRA resolver instance to register.
+        """
+        if resolver_name in self.resolvers:
+            logger.warning(
+                "LoRA resolver %s is already registered, and will be "
+                "overwritten by the new resolver instance %s.",
+                resolver_name,
+                resolver,
+            )
+
+        self.resolvers[resolver_name] = resolver
+
+    def get_resolver(self, resolver_name: str) -> LoRAResolver:
+        """Get a registered resolver instance by name.
+        Args:
+            resolver_name: Name of the resolver to get.
+        Returns:
+            The resolver instance.
+        Raises:
+            KeyError: If the resolver is not found in the registry.
+        """
+        if resolver_name not in self.resolvers:
+            raise KeyError(
+                f"LoRA resolver '{resolver_name}' not found. "
+                f"Available resolvers: {list(self.resolvers.keys())}"
+            )
+        return self.resolvers[resolver_name]
+
+
+LoRAResolverRegistry = _LoRAResolverRegistry()
diff --git a/lora/utils.py b/lora/utils.py
new file mode 100644
index 0000000..0f43ff0
--- /dev/null
+++ b/lora/utils.py
@@ -0,0 +1,293 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from typing import TYPE_CHECKING, Optional
+
+import huggingface_hub
+import regex as re
+from huggingface_hub.utils import (
+    EntryNotFoundError,
+    HfHubHTTPError,
+    HFValidationError,
+    RepositoryNotFoundError,
+)
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.config.lora import LoRAConfig
+from vllm.logger import init_logger
+
+# being imported for _all_lora_classes below
+from vllm.lora.layers import (
+    BaseLayerWithLoRA,
+    ColumnParallelLinearWithLoRA,
+    ColumnParallelLinearWithShardedLoRA,
+    FusedMoEWithLoRA,
+    LogitsProcessorWithLoRA,
+    MergedColumnParallelLinearWithLoRA,
+    MergedColumnParallelLinearWithShardedLoRA,
+    MergedQKVParallelLinearWithLoRA,
+    MergedQKVParallelLinearWithShardedLoRA,
+    QKVParallelLinearWithLoRA,
+    QKVParallelLinearWithShardedLoRA,
+    ReplicatedLinearWithLoRA,
+    RowParallelLinearWithLoRA,
+    RowParallelLinearWithShardedLoRA,
+    VocabParallelEmbeddingWithLoRA,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import LinearBase
+from vllm.model_executor.utils import get_moe_expert_mapping, get_packed_modules_mapping
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.logits_processor import LogitsProcessor
+    from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+    from vllm.model_executor.models.utils import WeightsMapper
+
+logger = init_logger(__name__)
+
+_all_lora_classes: set[type[BaseLayerWithLoRA]] = {
+    VocabParallelEmbeddingWithLoRA,
+    ColumnParallelLinearWithLoRA,
+    MergedColumnParallelLinearWithLoRA,
+    QKVParallelLinearWithLoRA,
+    MergedQKVParallelLinearWithLoRA,
+    RowParallelLinearWithLoRA,
+    ReplicatedLinearWithLoRA,
+    LogitsProcessorWithLoRA,
+    ColumnParallelLinearWithShardedLoRA,
+    QKVParallelLinearWithShardedLoRA,
+    MergedColumnParallelLinearWithShardedLoRA,
+    MergedQKVParallelLinearWithShardedLoRA,
+    RowParallelLinearWithShardedLoRA,
+    FusedMoEWithLoRA,
+}
+
+
+def is_moe_model(model: nn.Module) -> bool:
+    """Checks if the model contains FusedMoE layers and warns the user."""
+    if any(isinstance(module, FusedMoE) for module in model.modules()):
+        logger.info_once("MoE model detected. Using fused MoE LoRA implementation.")
+        return True
+    return False
+
+
+def from_layer(
+    layer: nn.Module,
+    max_loras: int,
+    lora_config: LoRAConfig,
+    packed_modules_list: list,
+    model_config: PretrainedConfig | None = None,
+) -> nn.Module:
+    for lora_cls in _all_lora_classes:
+        # specifying kwargs so they can be easily accessed in decorator
+        if lora_cls.can_replace_layer(
+            source_layer=layer,
+            lora_config=lora_config,
+            packed_modules_list=packed_modules_list,
+            model_config=model_config,
+        ):
+            instance_layer = lora_cls(layer)
+            instance_layer.create_lora_weights(max_loras, lora_config, model_config)
+            return instance_layer
+    return layer
+
+
+def from_layer_logits_processor(
+    layer: "LogitsProcessor",
+    lm_head: "ParallelLMHead",
+    max_loras: int,
+    lora_config: LoRAConfig,
+    model_config: PretrainedConfig | None = None,
+) -> LogitsProcessorWithLoRA:
+    ret = LogitsProcessorWithLoRA(
+        layer,
+        lm_head.embedding_dim,
+        lm_head.weight.dtype,
+        lm_head.weight.device,
+        lm_head.get_sharded_to_full_mapping(),
+    )
+    ret.create_lora_weights(max_loras, lora_config, model_config)
+    return ret
+
+
+def replace_submodule(
+    model: nn.Module, module_name: str, new_module: nn.Module
+) -> nn.Module:
+    """Replace a submodule in a model with a new module."""
+    parent = model.get_submodule(".".join(module_name.split(".")[:-1]))
+    target_name = module_name.split(".")[-1]
+    setattr(parent, target_name, new_module)
+    return new_module
+
+
+def parse_fine_tuned_lora_name(
+    name: str, weights_mapper: Optional["WeightsMapper"] = None
+) -> tuple[str, bool]:
+    """Parse the name of lora weights.
+
+    args:
+        name: the name of the fine-tuned LoRA, e.g.
+            base_model.model.dense1.weight
+        weights_mapper: maps the name of weight, e.g.
+            `model.` -> `language_model.model.`,
+    return:
+        tuple(module_name, is_lora_a):
+            module_name: the name of the module, e.g. model.dense1,
+            is_lora_a whether the tensor is lora_a or lora_b.
+    """
+
+    # LoRA weight qualified name usually starts with `base_model.model.`,
+    # so we remove the prefix `base_model.model.` to make the following
+    # mapping correctly.
+    if name.startswith("base_model.model."):
+        name = name.replace("base_model.model.", "")
+        name = weights_mapper._map_name(name) if weights_mapper else name
+        # recover the prefix `base_model.model.`
+        name = "base_model.model." + name
+    else:
+        name = weights_mapper._map_name(name) if weights_mapper else name
+
+    # In some situations, we may not start with `base_model.model.`.
+    # If we don't (e.g., ibm-granite/granite-speech-3.3-8b),
+    # we should keep the prefix intact.
+    start_index = 2 if name.startswith("base_model.model.") else 0
+
+    parts = name.split(".")
+    if parts[-1] == "weight" and (parts[-2] == "lora_A" or parts[-2] == "lora_B"):
+        new_name = ".".join(parts[start_index:-2])
+        return new_name, parts[-2] == "lora_A"
+
+    if parts[-1] == "lora_embedding_A" or parts[-1] == "lora_embedding_B":
+        new_name = ".".join(parts[start_index:-1])
+        return new_name, parts[-1] == "lora_embedding_A"
+
+    raise ValueError(f"{name} is unsupported LoRA weight")
+
+
+def is_regex_target_modules(
+    load_modules: str | list[str], expected_lora_modules: list[str]
+) -> bool:
+    """
+    PEFT supports passing `target_modules` in the form of regular expressions,
+    such as `model.*(q_proj|k_proj|v_proj)$`. This function is mainly used to
+    determine whether the suffix in the regular expression is present in the
+    `expected_lora_modules`.
+    """
+
+    def is_valid_regex(pattern):
+        try:
+            re.compile(pattern)
+            return True
+        except re.error:
+            return False
+
+    def is_subset(sub_list, full_list):
+        return set(sub_list).issubset(set(full_list))
+
+    # Similar to PEFT's processing logic, regex-related operations are only
+    #  executed when the load_modules is a `str`.
+    if not isinstance(load_modules, str):
+        return False
+
+    if is_valid_regex(load_modules):
+        match = re.search(r"\((.*?)\)\$?$", load_modules)
+        if match:
+            suffix = match.group(1).split("|")
+            return is_subset(suffix, expected_lora_modules)
+    return False
+
+
+def get_supported_lora_modules(model: nn.Module) -> list[str]:
+    """
+    In vLLM, all linear layers support LoRA.
+    """
+
+    supported_lora_modules: set[str] = set()
+    for name, module in model.named_modules():
+        # get the embedding modules if the module's embedding_modules
+        # is not empty.
+        embedding_modules = getattr(module, "embedding_modules", None)
+        if embedding_modules is not None:
+            for name in embedding_modules:
+                supported_lora_modules.add(name)
+
+        # get all the linear subfixes.
+        if isinstance(module, (LinearBase,)):
+            supported_lora_modules.add(name.split(".")[-1])
+
+        if isinstance(module, (FusedMoE,)):
+            supported_lora_modules.add(name.split(".")[-1])
+
+    return list(supported_lora_modules)
+
+
+def get_adapter_absolute_path(lora_path: str) -> str:
+    """
+    Resolves the given lora_path to an absolute local path.
+
+    If the lora_path is identified as a Hugging Face model identifier,
+    it will download the model and return the local snapshot path.
+    Otherwise, it treats the lora_path as a local file path and
+    converts it to an absolute path.
+
+    Parameters:
+    lora_path (str): The path to the lora model, which can be an absolute path,
+                     a relative path, or a Hugging Face model identifier.
+
+    Returns:
+    str: The resolved absolute local path to the lora model.
+    """
+
+    # Check if the path is an absolute path. Return it no matter exists or not.
+    if os.path.isabs(lora_path):
+        return lora_path
+
+    # If the path starts with ~, expand the user home directory.
+    if lora_path.startswith("~"):
+        return os.path.expanduser(lora_path)
+
+    # Check if the expanded relative path exists locally.
+    if os.path.exists(lora_path):
+        return os.path.abspath(lora_path)
+
+    # If the path does not exist locally, assume it's a Hugging Face repo.
+    try:
+        local_snapshot_path = huggingface_hub.snapshot_download(repo_id=lora_path)
+    except (
+        HfHubHTTPError,
+        RepositoryNotFoundError,
+        EntryNotFoundError,
+        HFValidationError,
+    ):
+        # Handle errors that may occur during the download
+        # Return original path instead of throwing error here
+        logger.exception("Error downloading the HuggingFace model")
+        return lora_path
+
+    return local_snapshot_path
+
+
+def process_packed_modules_mapping(model: nn.Module) -> dict[str, list[str]]:
+    if is_moe_model(model):
+        if moe_packed_mapping := get_moe_expert_mapping(model):
+            # This method generates and returns a dictionary mapping packed module
+            # names to lists of their corresponding submodule names. It includes
+            # both static mappings and dynamic mappings for expert layers, where
+            # the expert indices are expanded based on the configured number
+            # of routed experts.
+            packed_modules_mapping = get_packed_modules_mapping(model)
+
+            packed_modules_mapping["experts"] = [
+                weight_name.rstrip(".") for _, weight_name, _, _ in moe_packed_mapping
+            ]
+
+            return packed_modules_mapping
+        else:
+            raise AttributeError(
+                "To support LoRA for MoE model, "
+                "'get_expert_mapping' must be implemented"
+            )
+    else:
+        return get_packed_modules_mapping(model)
diff --git a/lora/worker_manager.py b/lora/worker_manager.py
new file mode 100644
index 0000000..b85151f
--- /dev/null
+++ b/lora/worker_manager.py
@@ -0,0 +1,279 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from contextlib import contextmanager
+from typing import Any, Literal
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.lora.models import (
+    LoRAModel,
+    LoRAModelManager,
+    LRUCacheLoRAModelManager,
+    create_lora_manager,
+)
+from vllm.lora.peft_helper import PEFTHelper
+from vllm.lora.request import LoRARequest
+from vllm.lora.utils import get_adapter_absolute_path
+
+logger = init_logger(__name__)
+
+
+class WorkerLoRAManager:
+    """WorkerLoRAManager that manages LoRA models on the worker side.
+
+    Every request, the requested LoRAs will be loaded (unless they are already
+    loaded), and every other LoRA will be unloaded."""
+
+    _manager_cls: type[LoRAModelManager] = LoRAModelManager
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+        embedding_modules: dict[str, str],
+        embedding_padding_modules: list[str],
+        lora_model_cls: type[LoRAModel] = LoRAModel,
+    ):
+        self._lora_model_cls = lora_model_cls
+        self.embedding_modules = embedding_modules
+        self.embedding_padding_modules = embedding_padding_modules
+        self._cached_dummy_lora: None | Literal[False] | LoRAModel = False
+        self.max_num_seqs = vllm_config.scheduler_config.max_num_seqs
+        self.max_num_batched_tokens = (
+            vllm_config.scheduler_config.max_num_batched_tokens
+        )
+        self.vocab_size = vllm_config.model_config.get_vocab_size()
+        self.lora_config = vllm_config.lora_config
+
+        # Use get_text_config() in case of multimodal models
+        text_config = vllm_config.model_config.hf_config.get_text_config()
+
+        self.max_position_embeddings = text_config.max_position_embeddings
+        self.device = device
+        # Lazily initialized by create_lora_manager.
+        self._adapter_manager: LoRAModelManager
+
+    @contextmanager
+    def dummy_lora_cache(self):
+        """Use this context manager to reuse the dummy lora model
+        to avoid creating it repeatedly."""
+        self._cached_dummy_lora = None
+        yield
+        self._cached_dummy_lora = False
+
+    @property
+    def is_enabled(self) -> bool:
+        return True
+
+    def create_lora_manager(
+        self,
+        model: torch.nn.Module,
+    ) -> Any:
+        lora_manager = create_lora_manager(
+            model,
+            max_num_seqs=self.max_num_seqs,
+            max_num_batched_tokens=self.max_num_batched_tokens,
+            vocab_size=self.vocab_size,
+            lora_config=self.lora_config,
+            device=self.device,
+            lora_manager_cls=self._manager_cls,
+        )
+        self._adapter_manager = lora_manager
+        return lora_manager.model
+
+    def _load_adapter(self, lora_request: LoRARequest) -> LoRAModel:
+        try:
+            supported_lora_modules = self._adapter_manager.supported_lora_modules
+            packed_modules_mapping = self._adapter_manager.packed_modules_mapping
+            expected_lora_modules: list[str] = []
+            for module in supported_lora_modules:
+                if module in packed_modules_mapping:
+                    expected_lora_modules.extend(packed_modules_mapping[module])
+                else:
+                    expected_lora_modules.append(module)
+                if module == "experts":
+                    expected_lora_modules.append(module)
+            expected_lora_modules = list(set(expected_lora_modules))
+            lora_path = get_adapter_absolute_path(lora_request.lora_path)
+
+            peft_helper = PEFTHelper.from_local_dir(
+                lora_path,
+                self.max_position_embeddings,
+                lora_request.tensorizer_config_dict,
+            )
+
+            # Validates the LoRA configuration against requirements before
+            # loading weights, throwing an exception if validation fails.
+            peft_helper.validate_legal(self.lora_config)
+
+            # For some models like Qwen2VL, we need to use hf_to_vllm_mapper
+            # to ensure correct loading of lora weights.
+            model = self._adapter_manager.model
+            hf_to_vllm_mapper = getattr(model, "hf_to_vllm_mapper", None)
+
+            lora = self._lora_model_cls.from_local_checkpoint(
+                lora_path,
+                expected_lora_modules,
+                peft_helper=peft_helper,
+                lora_model_id=lora_request.lora_int_id,
+                device="cpu",
+                dtype=self.lora_config.lora_dtype,
+                target_embedding_padding=self.vocab_size
+                + self.lora_config.lora_extra_vocab_size,
+                embedding_modules=self.embedding_modules,
+                embedding_padding_modules=self.embedding_padding_modules,
+                tensorizer_config_dict=lora_request.tensorizer_config_dict,
+                weights_mapper=hf_to_vllm_mapper,
+            )
+
+        except FileNotFoundError as e:
+            # FileNotFoundError should be raised if both
+            # - No adapter found to download from huggingface (or in
+            #       offline mode)
+            # - No local adapter files found at `lora_request.lora_path`
+            # For NotFoundError
+            raise ValueError(
+                f"Loading lora {lora_request.lora_name} failed: No adapter "
+                f"found for {lora_request.lora_path}"
+            ) from e
+        except Exception as e:
+            # For BadRequestError
+            raise e
+
+        if lora.extra_vocab_size > self.lora_config.lora_extra_vocab_size:
+            raise ValueError(
+                f"LoRA added vocab size {lora.extra_vocab_size} "
+                f"is greater than lora_extra_vocab_size "
+                f"{self.lora_config.lora_extra_vocab_size}."
+            )
+        return lora
+
+    def add_dummy_lora(self, lora_request: LoRARequest, rank: int) -> bool:
+        if lora_request.lora_int_id in self.list_adapters():
+            return False
+        if isinstance(self._cached_dummy_lora, LoRAModel):
+            dummy_lora = self._cached_dummy_lora.clone(lora_request.lora_int_id)
+        else:
+            dummy_lora = self._adapter_manager.create_dummy_lora(
+                lora_request.lora_int_id, rank, self.embedding_modules
+            )
+            if self._cached_dummy_lora is None:
+                self._cached_dummy_lora = dummy_lora
+        return self._adapter_manager.add_adapter(dummy_lora)
+
+    def pin_adapter(self, adapter_id: int) -> bool:
+        return self._adapter_manager.pin_adapter(adapter_id)
+
+    def set_active_adapters(self, requests: set[Any], mapping: Any | None) -> None:
+        self._apply_adapters(requests)
+        if mapping is not None:
+            self._adapter_manager.set_adapter_mapping(mapping)
+
+    def _apply_adapters(self, adapter_requests: set[Any]) -> None:
+        existing_adapters = self.list_adapters()
+        models_map = {
+            adapter_request.adapter_id: adapter_request
+            for adapter_request in adapter_requests
+            if adapter_request
+        }
+        if len(models_map) > self._adapter_manager.adapter_slots:
+            raise RuntimeError(
+                f"Number of requested models ({len(models_map)}) is greater "
+                "than the number of GPU model slots "
+                f"({self._adapter_manager.adapter_slots})."
+            )
+        requested_ids = set(models_map)
+        for adapter_id in existing_adapters - requested_ids:
+            self.remove_adapter(adapter_id)
+        for adapter_id in requested_ids - existing_adapters:
+            self.add_adapter(models_map[adapter_id])
+
+    def add_adapter(self, adapter_request: Any) -> bool:
+        if adapter_request.adapter_id in self.list_adapters():
+            return False
+        loaded_adapter = self._load_adapter(adapter_request)
+        loaded = self._adapter_manager.add_adapter(loaded_adapter)
+        self._adapter_manager.activate_adapter(loaded_adapter.id)
+        return loaded
+
+    def remove_adapter(self, adapter_id: int) -> bool:
+        return self._adapter_manager.remove_adapter(adapter_id)
+
+    def remove_all_adapters(self):
+        self._adapter_manager.remove_all_adapters()
+
+    def list_adapters(self) -> set[int]:
+        return set(self._adapter_manager.list_adapters())
+
+
+class LRUCacheWorkerLoRAManager(WorkerLoRAManager):
+    """WorkerLoRAManager that manages LoRA models on the worker side.
+
+    Uses an LRU Cache. Every request, the requested LoRAs will be loaded
+    (unless they are already loaded) and least recently used LoRAs will
+    be unloaded if the cache is above capacity."""
+
+    _manager_cls: type[LRUCacheLoRAModelManager] = LRUCacheLoRAModelManager
+
+    def create_lora_manager(
+        self,
+        model: torch.nn.Module,
+    ) -> Any:
+        lora_manager = create_lora_manager(
+            model,
+            lora_manager_cls=self._manager_cls,
+            max_num_seqs=self.max_num_seqs,
+            vocab_size=self.vocab_size,
+            lora_config=self.lora_config,
+            device=self.device,
+            max_num_batched_tokens=self.max_num_batched_tokens,
+        )
+        self._adapter_manager = lora_manager
+        return lora_manager.model
+
+    def _apply_adapters(self, lora_requests: set[LoRARequest]) -> None:
+        loras_map = {
+            lora_request.lora_int_id: lora_request
+            for lora_request in lora_requests
+            if lora_request
+        }
+        if len(loras_map) > self._adapter_manager.lora_slots:
+            raise RuntimeError(
+                f"Number of requested LoRAs ({len(loras_map)}) is greater "
+                "than the number of GPU LoRA slots "
+                f"({self._adapter_manager.lora_slots})."
+            )
+        for lora in loras_map.values():
+            self.add_adapter(lora)
+
+    def add_adapter(self, lora_request: LoRARequest) -> bool:
+        # Note that this method is not thread-safe. It may be invoked multiple
+        # times for the same adapter when using multiple API servers.
+        # This is ok because it's currently only called from
+        # the single-threaded core engine loop.
+
+        if lora_request.lora_int_id not in self.list_adapters():
+            # Load the new adapter first to ensure it is actually valid, before
+            # evicting any existing adapters.
+            # This may cause the # of loaded lora adapters to very temporarily
+            # exceed `--max-cpu-loras`.
+            lora = self._load_adapter(lora_request)
+
+            # Loading succeeded, now check if we will exceed cache capacity and
+            # evict if the oldest adapter if so
+            if len(self._adapter_manager) + 1 > self._adapter_manager.capacity:
+                assert isinstance(self._adapter_manager, LRUCacheLoRAModelManager)
+                self._adapter_manager.remove_oldest_adapter()
+            # Then add the new adapter to the cache
+            loaded = self._adapter_manager.add_adapter(lora)
+        else:
+            # If the lora is already loaded, just touch it to
+            # update its position in the caches
+            loaded = (
+                self._adapter_manager.get_adapter(lora_request.lora_int_id) is not None
+            )
+        self._adapter_manager.activate_adapter(lora_request.lora_int_id)
+        return loaded
diff --git a/model_executor/__init__.py b/model_executor/__init__.py
new file mode 100644
index 0000000..b50f0cb
--- /dev/null
+++ b/model_executor/__init__.py
@@ -0,0 +1,11 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.model_executor.parameter import BasevLLMParameter, PackedvLLMParameter
+from vllm.model_executor.utils import set_random_seed
+
+__all__ = [
+    "set_random_seed",
+    "BasevLLMParameter",
+    "PackedvLLMParameter",
+]
diff --git a/model_executor/__pycache__/__init__.cpython-312.pyc b/model_executor/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d67a13e55857544cbf3585079f360583b92d63d2
GIT binary patch
literal 378
zcmZvYze)o^5XNWjHYTV+L@X@qy&~C4q97L9CKB6gmNh%XBfGg{Z!aXJwGUu#=d<_*
z3szQkVhX{^JuyhYDL&?#Kfi%_Znrlfgl6~I00CZWvx?|9SssPt0Td|IU@%1!r4iOX
z(y?JFLl}dKA2Dq#Skic_*OJKZUdWPW{r+Gmtu*Aw`n{nXO-QX36ZAVJIbr2g<wlf5
zDv50)Fl<~43v!ig_`{jjrfYIVTF{(EmCJ3nSfT%B{lR~OmCJPbL-kD|q}D<_!7`xX
z>ykTD@FFWZPTDcK&b;cKo=kegb#}vxg}cqCyk_$C<6MYrnmHl5#lpAFLbK9zZnpz7
cd=kq2An!3EezpLw@db`Q7~6{OnznxVH}`F6c>n+a

literal 0
HcmV?d00001

diff --git a/model_executor/__pycache__/custom_op.cpython-312.pyc b/model_executor/__pycache__/custom_op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8a0b850ba38798de2ed1939713321fd39e0f4ff
GIT binary patch
literal 7872
zcmcgxU2GfImA*6l(U2O6lt{_)kF2ptTc#~jmMs6oF}#WG#<6S5LG4W)A&W7^8A+5!
z9QMx8wg?(gvtC5nZZ|TD!YYEI3Q%Beq*$a+b)K5OrPzm^iCj<}xL6n4eaOQCitPZ|
zKJ7VoIHV{uNVhHaLb`K*&b@Qy-gCb5!+&dQ3lk`s|9iQPUPAs8J6;J?8&C7lxJwkG
za2lE6#yAe!yvEP?#(b>p)BH1mu>foPwct$4SPMsZq6Spq1J2!LEX0#DL<!s`N>Jsd
z<K9c^&kuZ6%GOyf)$$p3MpK;AJE@v-Hj|xF6*;TV6mnX|%;|Y(=O=QLK+u}Y=S*4C
zCnr@3-DtK*shT(C0uWB<bS7JW1tGO>BEZ)>@Kq`q;}kN+|1Esom~Wm;a0-8081u81
z4_X1mf18X2k@K+@B?z^kv_KtF1gOJG2<lcP47I4VLfxi_P`9fQrA>`a@Jjn_{|8kL
z#yZr_>S$!$Xe>v@;%b-Lt!`4tW}uzmu~vJO=y7<$?B=Gk9XJc`=~TPnJ+XB=Zh_Hm
z99QC{7Tizix*e!-v2~u@<i@sLBB@P|aH?pS`pm^bX*?`JIhiq3DXV1+LxQuDvTRn;
z3r3nvpUxSDj0tyPNamD^BsVftk!DnLN>?OPXQP=yf$9aC%b2P(p2=QQ^NPDVTa^W1
zn-JiOMBx8v7)F1{-6bJXCet{xq1^J7eJ~T;Fbv)69EF)%{`_F``LYks@s{5dytUJ<
zUaS68V1KjC>zDnW#Cr0`5wqQ!T?mxP_jeFdr@BNE#N@sCB%xb@-jgzrspjAG9_Y`H
zecqcC@-}~i-1NOcZg468XeoXwlh5m>l*=1tCU3HX>@R(<|Cp3B4XHn$nNj<tjA_!`
zcoEL{M#hkk+)&K{sh}H1Zd{v{#?@@52$z{NYXpj#)hXPHBHhTDQ_@S`-KVKKnKMk4
z4oGn4IkVrrU2hsLu_hG2fT~TTOUbh}-g5cLx||%7b{SI9z_DFMD&z>VjO@y?)Bdu@
z@HZ&csS~<9TTtC*L@&rL3v^c2b<+vD+Ux`rb-Xy~_zaUe0i#$@snY@*syAdg6?A-A
z&2an~I%zn;Yaoa4Y=NEdeNGoNU|KeHdEF^GAsI$NxMkTuc|wVo=Kgqk(3~j@7IKCC
zChVe``)?MHym0i|5p__@jSm)PLAdjS*EMZsa7I^DO;&HJ*`le_L03Iwy^t=<(hk_L
z6!i`*UF8#j&iDybU(S&=z9rPN+P(R%c1N2(vlb;{Y$;LMvfqZk*8Qu=ep}q}IN4uG
z9<h^09<<oWmn?C|BeC<{^9$!!qlZ_cn;u1DRy?&5-TSP?-`4&tOrl*2Hx}Nq`bJhF
zhb-aHm(O;P==LWh5bAl<xplR3_p<RX<@d|W`8C2H8s(twxX3;A`D5*C0*Uvmh5T(j
zYd)a<qk)?7_u|Xj$*;C2Px8J7T}5QZ|EK4nLR~fC>6QhM@b81Xd+5TU7T4t8qpHuB
ziCo2bLT1T*ZZzemQ6NJ}VL&cBQKgD9aur{kh}V)`q)G9PALWp4f|UkppEO5%;6b-S
zRq9xG3GSXLr0atUZsC#8w$Ne=Jr9K~t9^+|--r#T*LQf{{~KZ3Qy?J?pN^lxU}`rs
z?t)QkuFz#JN6P$9xqs#^5xNCPQyc|*O78pUc6iVjR!kP~>p|)myG~2>3)jg_b!0z~
z8Mx6LS&by-%}OL;M-t1It;oo|*X_uNC5%w~pay0UUm3FqSnF@;Z7#)?{`<Ar%R0?Y
z?azY+y$;AQQ_$2IFqO=pO8P_-Om~4B)#UP2&hUU9T6zJka7If@XD8}AsmcHXPBxPV
z`~e*BpvE=aDm9oD!R?G<c1i-^0yWA`rK|G@KUF5BE9YNMOD}7N{@jjmLXxQ(CV)(B
zyF!ry@~Krbg)g|zIk8dQJnMa=sxYvjfZoJtxP<oVkpptzxs*25#HVrM0Io!LX^uP-
zNo1!b?D#)j0h0@wgbkW7A$sr17L`n?>p2#1_$V@fwhV;0eMi&R|GDCNpQC%4GuG-c
zHkB)YWvaRh>2;$o!osJns6LKJD5{bjk(QHIWa!>*J2GSmL(iYnU%)78Vv`fBF?zF5
zY{Dpv{tYs^4Jv@*Ac-=q+G$62E}ym{2k*UNM-E!T!M`4>bnn+Nnr+G`jGo4Y16Vz$
z;(zYB(e&3aV>V?5Mqh=6M)lN$|A$liI!3`kXmY(UI*MP2O8We%p}yn)(*hU^07e8#
zRy?zH3mrA2*idToe3_?1Wp3KPfdIPG=*n&=uv^XPtWQm|V5{E8)+Fb-fgH&nfH#PZ
z^Vs|Ay`jt-BJhUxVMDn@O!Qz_neOyj^{00d6xTNi-x}6;*VlQihV^KxH<X6;h$b6K
z!+I3Q4W(f{+T0DLVZF3r61olRcRoMgus-?x{3Y}Z5Slg=&mV|W6fdVm&1c3nRdG72
z4LQpo6`V+LV~Yg^{B!2kIDY2H#=se33)az5hJc6!PD{>^sh*vo`>+>;9>513_Bx=x
zbj0fb0@6Y3v;&!5G-Z84HmR!8!!XF;KjnHWPUrK1Hf6>KKLKp3>ucd9ls4Ba!bY#{
z5=<LwP=UD&lI<_9^d7gs<?8IdJ8);<2kH5i-?nzHirXvVkSz{X#G|%&^g;5M>5tNt
zV;AgW7pxaXe<NOej0D5BI9w55u*DZ1jQsM%M<*&Tj@mDdTE{Lv6kq#&q<b~CsS?|5
z$97xd?mx6{t+XcW*2KfsU2HsI#}by9c+}QgX-nE|$%k#b|KjlhyKUfMTYCLIkCBI@
z9ZOnblEIG?q^en@`3C<C!Gpojn*cyx0Ylt$Et&-CYPrSNW6Cl_l^;}Tj1e>F(M*TD
zR{g2)Ae2o&$6F7vY7K6t(R18TJfXitAWA0F=%{Zf?~xw^G+rmSe2V{TDEws~?JoOi
z{2b(gzM9s1=iA($#@kKK;34Yp-GpoaJpCf5aw<4V(Jd+cqbr`^u3}*7Mao{hi|*=;
zsT_EsGioMpuvl5o_nQ)=Fw_i$!g=Nr!(uNy1$P(X>71sae_PeyK~F_lpsYx`yJ}L?
z$1@s6<>;vzX@}eAaQjPJs=>XxSjyxTsk&ZDg<OmXuY-h^sf>Z4KE(`$BSM&)huvg7
zpH(SdI7Q>*gcWrnQ`A7E^X$7*0g4b#PhxcjD^y=c@HjOPJV22>RmRzMF-Y~pW?<C#
zSEw2_xU0X?HEeec&xapHx)+V5R~|+Z5T#bcK3nWt<N1yRcvl_qyW$=3SttNusz~D7
zTn$}`?Xko?kK<j7*}GGBrWVH*)63_qP5^_|F4*es%{w<2rx#Bwk6E$7dEvM5t?vt#
z@GWcqnNNKGF8o^fxMc17)(Q+nQh$i{RH6wxnplbM`ZRjr-lk6@Cm-zjP_u-SuK5SH
zYXx<V>D`CWXsUMz-c9tbStJYES9Kql)9|OR;%lq;GFRqHz=`6!22QuZpCfN`Wlr&5
zJ57iPxj6$esb${ngDeM1|51x`PO4Lx>p9HK>3Ngt8dwr(d{(-8s-77=#S)|Gx(r=C
zCS8PhY*wlYiIkhD?bn~tw0=nYOiVNqK$c0*tNr!x@7q&qz80IE%`3$$L~arUf*9lt
zRLQZAc|q?**E3pC9jLubhdFv92gxM%+WO{T>)>sU519E3&z9n$f-%B7W8&)svU)LZ
z!VpTd6J|Y`Eeg49SlSTP(Q`mpiq)-CO+mg36UI1HAl1>jUGk*5(sk7CI{Kh{rR$~n
z@M?T_B|c=whbr+ScKpbLz)JkYd}uYYdFiYj*>$hu)5u;+*lR`hK92P+b9YWyksY5#
zhL_*?u;cx|vxH&S611*MZ&8F>rlQ&Pf`e@)py)WgL*9WD%RHIqAaTpx7H$E+f*A0l
z4YmZyF{|)Yf$E3+U9!M0aMRG<SgvzM7!a3R;1R3q=(+&5L9R+NWHd?h)eHP_*su(k
zdY>OH#ZDIsS}u#3T>wRNP>x9{o}#IDamVKb-OQVdKZwEZwamE*8YfguLh7`XtX+<W
z$LZsmp3P{+iFA$XJ=_6V_!1H!u}w?HPu}{`TXrmMiRZ21Z+xtL{JM4E{0ekp>D4XU
z=U@4!Z>}cy&Yybs;=;wH(~wVFjcuO4!0zEbN)$sy<cePLSi5?)nv4-VHr6GOyrCZ<
zHJZQwnIm8L{h=*uB8hIcgdVo_Xclk7D}HFO%e)E=xJ<YkxJ<r!nZ7bN$CrKJZr0D9
zt7nis%S;7GH36-M8bFVj&5BaP63FZLzCtW+11S>=-*@>1U%qvLZzdc7VIUaIpwAPV
zGS?_J0A56{$u5XZ)753p6C3(EFajsfj8#qgA?x>T7<cf@S;n@0GX|a?q-9-!VfR$p
z^PH$)p16s)ptUkyg9^o^FJbi!-Z4MC^ouut{^tCvtFf)i2P=ugHvGj7TjCY#*o9A~
zJ{hx)URi-o?C|QAolJlRhUZVY)@)g@#Z+B{N~zOs3LOC$a$I_zCEC$l&~kvp@B;`-
zFGC(G<#WP0$b(}BKdU-^6SCd36&QmrM<H}N<XSo&e1A+<GYxX(5|7}j<O!zeNg;mp
zy4=wE;h(_@0}~ufKm#D4?L_RgT9a#G67RLdZI9YESv{$rjXZ2S@Hymud#&E|N^H;)
z2f;ayZL_wWS?PS$5?^KV3|KRo>Sb5vgk>4B-bD>__@XR-r<l>I8GT5_D|%LzS>~H%
zUg=I?z>Q8=HfbMrG2~zo35!JBU}GDMIj!uh+>EZ{AJ=uw^-@GQGc%WUCm4=1fN}gv
zE^AWsQmKsVBeKkXCt>MJNa?%SI)?KZoNucp`?IR1!4C$Un=MAId&v!8&~;+|6Nbaa
zXHb3l59D*+7Z9F>V}ZlZ_VR%vPXsP-=t(db*!d*NK^5c!!%qZXVB|@dwfxW$S+^&!
zYi)!CJJ$G)z$tFY|AgT4sjoJ)wwnYy*LX2-5GUb*bM6349T=Yb=3;y?yEL*KwzuxH
zy7$=~11tWa)q{uTE-qePN-UYn=j^^gYs;YBbzsGR2%Ic@SxaE^(y1o|9@SStYb^;=
zpYvUTv)lvU1LdRe6M}6<@Qe+!Yi8e`5*@)!!shc15C5(BO9y0R@#j_7A9Y9E-()C?
zrqj-7ykA%iiqPb0ICE2j7nsDb{plMxhj}bF<t-d{#pwk74vgV#7(-C4`8baIB22jM
r|00KeM-smy`+gsaFJ4&*ZJ!H13z|H4mYb*V&MwS;0l&9Fhi&=4q-g%q

literal 0
HcmV?d00001

diff --git a/model_executor/__pycache__/parameter.cpython-312.pyc b/model_executor/__pycache__/parameter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b2291e79a0eb67f8ed91c361e8313c8b1e004810
GIT binary patch
literal 28677
zcmdsgdvH`&n&0jB?T6G7QtK_zNCMPCh=&0K24lwH2R5=X#t+4I)AYT9hE}(Hy9KCM
z8Z#5mj+phVVKZ6e+Syp1c-LZ?lr?$mFiEP`*;KNgO(p3@IO^?Xs;I0tsre&SvL$C`
zHh(0)@4JtF=t{=1Q!|xYaQfWyy5BkHJKy<U=jcCFRe1zFar^JY`u?6E{0+V6kElf!
zf8Qbq*91wBEOBAjGH4mL4q7erZjIZ9?SpoX+v1L4=b)40_PA@%g?vX`9Ci=7In5dO
z40{K?!@fZuzq{g9!_|Y;7U8rYi9fIm`mKUoE!W(@x9AzHwF-|4lKXW*^2qKRHZ64x
zr+Sg<lh+ujb(~s-)asJddQSBtwMMR!>u=b#HUgYpi}W>R=?$D-hxB^6&S<-lQv*nC
zC~3QiQyY=mR8qE?Q=5_6A_t5XS~#^8scmK7YvuHIq<56G+$OD+*GNIRU0R3#o${I?
zQR;f#KG-33zb*`}mDVE+N*fTa8?%Qt{+v1$vKGXLBk_3TR9r5Ik3~{vC>F95#7C4!
zG#yJO5U+b)j+}cg5+9Wh#W*dZj13^&{d7c$49jU*K{Fkv<#aeLCsIizJe-u|cz6W4
z@i-z%Byq0Ly>kAAq!O3HsaS?S?2RR2>2N%G`ZSsq3$<U1q~!BYK6%vmR-x|cNc5a6
zl_xenEi2FR*N;adak*H!{wM+Syc|1yCS6QzdH75uk&xrZMk9%IMUAFMmE`D%Sx!Lx
z^25pa=y0OgSj{uZ3uVwmReVuH4S9scKLvt*8_Pi!1}%~>Xq7C3Hpwd6&+<Ylts)4L
zE#ne|A?u_tWRdKz`v#pWmUPIjA-m+nM2oUpa^cM?iLcvlXblc}WY5`#^4951a&t*f
zMad?Ul2|mw*06j`A;wp$07KO(`PIm;UM1g;eE%x>HOQ}7CBGK=wX5W>LH-)4j+PRQ
zF2<@JBUg{qfZQN8@K^_4cN=|eoD?ov2Ahrxp+?1vamoA_PY@4bWN<`B{oqhi3DWEb
z<FSMsQG)Tvn5?AwgNH9-HAtyo`ivY*Cza@#{zRhRsKzaw8VjZ)=VFP|!B`>~(HpqH
zxEhQnBa*E22cM6{<H2Zh1ZB|@r%FM!3^x)>q?4Rwv>m)~Moy?nO7eV6lJ)Xho55Hr
zh(!{YrG9RqV3#84$UxLuGWQO|sn3f&2>zkvnvga!FWbh2?;?L(7`I54A6j*CbzHb^
z8+asSRq9c+P^HMPj>Z%@6+W#*r0dp#BQ-iAD+O0LoRBYs!y$XY7LBLW!p?ISBFgDh
z!5t1q<B?P<98S@)!C+tdyF**j!y{WpVk4W=C?lsgUmU%E&+c>g%Uj~HQ(H#H(r1#1
zE$8F$;VmlJkuS>8Q4IJNV?6pt#*`K`muX%`O!_rwx{#eB-2dez;f}xl@`cN<O{He)
zZ=RTZZO;F2R(yC7dFYfn?jTPzH&JbGp)7&o^ndaD2(af_u*YG~o3L4gaobrM&WcAz
zGo=>!K*!2w+<HUX(I%|p)^Q=M6A~d!6T^?*26CNxTH3G2N^<obSs1g0?3ushX(wEM
z9K<#jiG%bqzAPIbk5O_j4`+}tWv`0QL6zDEFT~PkDiDxLRn{yUy1g0(>ljJsNIOr-
z_Y^rjsw7f-gOQb%4|PBxq{X&T6CG6)Igt*J#3N}e$>D*JyHHJN(XXeZlunc_G>oR?
zaB3_O4VOVwXdaH7Q!`|#BCERmU7^t|xY8rMvng)<jdw76!Jd-iLyXr-5Lx_H9i4+p
z2bC7XVczD#nU-Zk4wO{$HlSqc0D?=xXWfE($6ashymx!fyZyFzN4~9ZzU`4*+an)L
z%(b1EJbJfd)1>{j*m|dN=Un6cllC`!cN!m<YurC+|E^D2OP_SA;~CX(3Q2-M7{xey
z9+7KU&}S*N;<?nBrZW7Xgn@;6njoAtaIcv52Ur1rXkhR+E#_^5v|0x;Aq^R{WfhF1
z(@N~rXj%@QiKK$3WDqlK;ovi*kX@lsDO4ZSiyT&zq@uJ_A_g@9b|f6WZc#!=NKseS
z0q2RxtX)3VWhiivDp7DrSnvtHnt5+W&fAgoZn(21n6GQR_TbeA=j(cNb-md&o3fjp
z&DNY)v{~z_7X)in^@3BVsh{_E=KP&mu~Qv#$9dwJ%E&5VE06dZL@?qQmoQ@LGbUWO
z3;=lQBFHH9LD`BRMYVwHggW=ulcQ9N*osTS-HxtF`$u9cgH$&A6|hK{|58|#?ew|(
zDA+>HebLc8MwN6JI*TwAs?<G9TT|x4^Y2l4C4@XnfLA<{<s3Guix#CF<kl38S0lk{
zZID@uY1>w<?K-q=xrcUa<5oZdL1)~?d*aV&=u|>wQ};W2LW&I+9Es6kIS!oWncj&)
z1xGZQkhZBm+bf7hZ8(++Z<E521ej$I%!rcdT8`1n3Y|c^spk+}67n_m*W6d#*Q&2p
zPp`|>bls|XaK`?=`?~vm|8@Ud&z_sday<`DI`TE`^EI8hn$GD+u4dz{nnz}i&i5V2
z^&Ob&JNUt|T;C%o;;;YCYg2)&*rDQ8>68$DGmif;B41<@&4-@`KUIfGHQ7VQE&3jr
zvK|puqB5qtt5MS;j0ueEm<Z-v91w!Qsq6>zG!Y|X;p^IBq$w(0jD?yom=#$`^PCV`
zXF5%0q@v6qwQ>jnCd6O&=Gf)2H($H_+Vtl6&Yii=owxiuZ`RN6c`CQ(sl2aw$!6W_
z0fBK-P~!oWaaX<RzU+R}f7w4(^^v$?mEk8c!oyGKSMd}F&geb}&(}~&Ap%&|$yVxE
zILbm#QK(ZXXJ+&A{;pE|B-&oAL4dA{zIm}dC$>)we<b#Ob=^>CWS4iMiJ?-G7nb#)
zcZD99l#No;k5E8cY8mAsgeSIa@e7VRgL~apBmqhrT1ioJ#N9Br(9Ez8%iw;EdC-P`
z(+a?w6&^yH|1Y3djx2-N&k(<Q?z~3iGwW7>vsffn23<kKB2=VsOez~?I|?yri6a7;
z#K7!vOWGhoH?)`ndVZW4amgmxzi*qcmX)Wr_|eO2B*ZdqJ&y&z<OD4=qYT&-#{d&>
zWj9`bP9F%_3YJ$3mU9Kmc|<+2R4kE7M-oxFV1q<fu%*&UNSoFH6fcO>)tGcKRX(>h
zVZEauC1Cv0rWB;24D~+s7y<|@-oTYJ@7ivAyYqFelTR&(LQCs(?M!X1ZquZA$KO2F
z^X|j9{XJQ+C+qLY`x~cr=loq+u`BEEqBk+;UzZivsrXz<V4Y~4N17NAlK;l-m#i^i
z!d@Z=Iy5;DBQ|aux9e)M;~F`&Dl~S5HQ_Lezu}?L1Z$5V`#F_X%Cb{Z!I2&tky8ab
zNq~&~%+93<0xSWDfGXodWHZyf9FLYae*q;^T?in|-SyT^K9~<QPCmk7UCtkx>7I4W
zrf)ts=RcGc4{^^!*6YGRs9EVpoq{J!`m5167|DV!9Da2)5?9$u5?!Ta6v+<mP{FAx
zoLIJ0Xt0!CYCs%OlGs1eW6Y}+oGCdC6<NWh@~{eTEGnrzOm%1;l_w}5u1%qxTA@8#
zc>zJe%knUkY-f^^LPJof(q!bQ9FH@vOUy5GXAh|ZMP!Ke6--H*u||IRy6}nB?hqGz
z7RMpW)Xul}y|r(qJJ;I(nLr5(&SuAhQzzbj>8+O*1VnH4EYi=yF2Py7V0AmXrY?Re
z;AhdMCoD7w&boO=bI#GcV6`~9r+0sfmb$4x3nyTsq5>^BN6RNDz*So*r)$A!bF7^i
zeSiG=_@aR5g2(RII3vFwzaC!{5G5El-wga&+fUjS(dOm_CxTh|$MGK_-*_MW@%WEW
zUw@xD@%~HKU((*)j?S67nbh^>1pwVSn_8qFg1C0cYI7X65R_V!XP?I^ia|3TnoD{X
zrx2K_>@>xk4T?F3?1X}@s33Dm4p}@)?0v-p1sN&nJgelpknde3A8NfpA1kG*K$6^r
z`mm~sEK@#4zJnQO;rnSNc0K|rictt6)DYxK=$h26gC%cz)t4o-0O>KV*R$e&)5o>K
zMXDX*3Zw!vv@ImDQM=R#G*7IaDpQTA3Imm&;ObPB6veUBaDVXGGtf@O64CgmB&UMM
zo_H<@em8jZ$)`2N8kAeH=$T+dk-2UnnGQzciX4%~(32ECn1r+#OP%WvKBFn1&_FOb
znjRTVBV!mkVraFwF7#%nWOZDi3JX5WDlvu*>Nrxim5h|E1d~HtOOD|4$ssPFc7pp(
z9ndv+nhKDM7d+~>!}xaDUPjcGIR=umn8KC`gGHg6^=%^bm6n(=ZhhDCyB6Zvu3HC`
zS5On1k2hTW1k+rmL%Li+n?(s(rERZBREc0^+Rf0&P(xfskra_@P}6+tdQvkq-4UxU
zyK-VvPVAi8HK)nDWx^%x%(RRaN%6Ll5TNfA7A1*N%fw8AJhRpmxMGLDOCPC509x;_
zoA<BH`PXK}wd%?yhJD$fGgut}a3!$Jgg|r62W@aHHk#@0Om!t_2UA)3j9W862Wb2>
z$}_QozQhzVQ=yfmrqyI3LcNN|L@2;cO)`;kfC8G2f-@0;%H@Kxky0K)pmRAi)&-Bs
zsgNeDjL%VMtIKRPolB-R>Po6)&aa|Y>MR1FUZDBfi&tN~7QPyue)hfaJK<bl=cFg!
zw0^#+FW1zU_tm`l)a9q9o~2!E=18u6*G&(!GtHjKD(poy^(JCgR@|BO?}QxkIRcfj
zP_rt|SkDr2S3Hs-PfkGmH!Wdk!@xx8I}DT+X<Cu|q>1I>XUM8ErOK8SFh(#l8_}#Q
z4X9D2w^aNk7VU>Nz1^3<!%o-%t8kVUPsKCg7<Zhltw_WxN_$LFiTTqp*8wU1-fIeG
zJLR~YS3|K)3!ou1ta$JxlhhK-cbsjksDjsWEDzZS3O*HSlS4yb)f8fIA@Gw*l;a^^
z!3MK~@+>7#&lDemf@g%SkVMwig%ONMXGc?Mou5xgFhr!n*cyS<Q8MzVD=9@S@Z#Y$
z^$=dM$P5jTN~w*H(`R5~4U<B>$PsI*Kw=s*{VT62Ga>LT)Jfe!fECr)el2q~Gu=Pe
zxNXvx542tzygE4Tn+t57^el-&RpXWP?T-6y?|dxV{`hU*5mFxcullEVym#Q81Gj3n
z-`%)re&dt5jZfy=L$hZWY(mdb%c5ZIsm}SjCyz||Ac{1!(2||>+zqUq4{XQ<HcY4A
zd+nXqZu&krI~O>1@2j^(CF|4s=eu_0x^~_2@5+k1vi@Cpam_q!LQPZcABh{8<S(Q4
zyv05QYzMVBUzcBK<*v|%?S@7ZuyV}5VmC@Se{HMZagVFtHSUm{OiO%N@uaV*coNm-
z>Eq4}(G|zI>ug;`6}+O3+1^)5JzQAR_g>RsLMdEkG~sh8h3g(Dg=?Tl6cm=}-B93$
z&w%$#DI{|$#}I^k%0-HolM5yh${1y2C?L9}QURt1MN%NHNDBCq$^=#XEd(hVN-%Q#
zsDdBKkD2b3=|Pcgf1etF_s!=}fqY%_wY^vOPMw{r3r&jo`j%@)t{$2Ct-1P5lkTsU
zLgc$P&7^*C;L46``+jfVP5Ynue&YMko!fm3U%gk_@xqKJ*S>xBh`#HKLd_ST8=-2J
z{*^FBMmb4AgaQ`CiAh!@3YeEZMX@La#MG3C?q}$g^jM|R_&G|X;Omq@GCfP<BBb$p
ztD|fBzRv{wfLJ=KNm34KLN;OxPN!p|E(s&LP*d;dnbjm;L>KxR9X+b#`wIb4mF1;R
z5pc$%vl@%^?XOyxWnt6{VbrCN$ea0VmU*5woFhy{Pqy=|CVHBvUPJ6>v4W7vA6-e%
zL}Nt(txVWey&p=&#8?7SB5mm~IhV?Y{DFeo$Tr_){_g}iC4qq>6(Y2M+Siv0aj&7w
z>Ox%eGZjuqh5(mC-4uyoB*3-68u*6)E0^ECLGV?Y2?^*-%QCo(Zhl075i`Z28yP`#
zdy=wDa5MCg-{-BosL8#7`t(2y6U@XT)wZYjum#xFlBHpy);wKeC&h2sNWf!O**0MZ
z18r*R&Hy&`E2*X<@Z1`=!T4=AFN++<A3AiHziCOkb!b*>-75$N>j36r+(FFogcEQh
zr}8l$gK_7$!(h-YX+t<L@4NmrZRBW#{FUE9kDYos7FJD|1herr|01&*ZGhdZ6*G3g
zVA)6$V%}#BdNLfEv<hRl<6Bk<zH&6fi8U*ff-5SOQ%g;_R$yz&pb3eprQqlP8&9Sh
z*k9B-^<>tDg2NCJn6|{u!)O4Xmms-;jj;b?PsSQr$2NxkkcZt&6khoU0HgxhPTP=(
zXDHa>a-!gZgB4pVnW1<H>7h~%g5`{7sI(=)!c4&pBL(c0Fhmr5sy|gY6^}(_6L#V;
z)XRjHEngPbmF0%Cze4fUUgjz8tl2uZX8WY;?uOp?67M8#T5fIFGdTh8h+F>7n-lW~
zp2^|g@#nKAp3feCK6l`S%l1jj<hH!OhW7uf`=G&@-ge91ofTs<)w8e8Mzecf$iDdU
z{EKq#MLGMzP<H4{c0+7VjAi}Z9|xMIYE`K}*BqJ)^g^nrZ=E`utM8d~8`^=HXWxJ2
z`YShI{LnMkbbPYvV{bKs180pnZ`bszx4b?1w$Oarwp`n`*>!VmJK#{`^}o62@}4&j
zTs|;0Jm0Y`*Rk!EcN=LL9>4rJYZ{Jz<m<(@y>-X?U%&qK4{C31`PvmbS=XmFP3@i9
zG@Z(}^xmr3^r8JfyMOA=K64`b{Hg2<rzm{pRPM1T<fW=+XeO$f=Y1VHU&qwMN50Lx
zgM)$W$54I_C&Fk^<V0w$lrt1m@*lJ<^WOYZL{hsEF#q8I|4~i+M^`!jvDV-})-E{f
z9sR22{TBkFDt|%kmGKvtaemmYTkhRDW`%Ny)C-xHc?YfJ3rKHVsv6c5u5g|_k%IE~
zR1%J5nu--lU~U44XYA&rFXqI7>vq#IBmJlfHQ7-a5)Kydwn!Tf*+py^36J1#s|5+#
zFVsCEE}6f-V)rx^GWlzuN19HY`mJW9Sl!IEPm|X%^w%&rCDO4>gq*L<2O?-b2+HpO
z6xIos^qIg@DEJjc-k@Nup7e$KNn1eXx4(jZMpe)2%@<;Dqb=|3VR($fX9{k7#DAFz
zGU|Mrc9kGhD1hfpX;&$!tgEEZqi2!W`AUwMy@0K+i-UHK*${J(fd?Mg4umdFbs|-S
z|FGLk*px)sEBn}g+m2%h@QG$Fxf)!uN1?qp^0xqR#gWud1wOor>XZo~^AwvOf?8HA
z#g)mtQ5-F@R}@Rae?A733l2x%N(bsr4#ui^L|t#(fNG`)_Q?IG`<cClwWW{j8u&2m
zE5ZBp59(;EB!}6y5>l6)YN|;E6*%Xe2h!4{m7;YJR?y9wlW5sQ^VbhbaE>nH$Ep5s
zWP~j%+*JkM)5%~Y$ojdUG^#*o;JPJ-86@?qUZVrav<z=iNrFpjGJ(z;(gIpd#70Kp
z8Hx<NjM4rJG?d^1&F#^GWV=o&m>@lgq1fqQYDA94hG;nBV||)=h-<;li=j<vJ`SmH
zWC(U%UAW;AWhN0rkK7F$V3%s0bPAWjynYw#DVumKx`{`X3{*3^YSPgh3dpdl8p&;l
z1$7HK8*_qBn;(QQ!~rr0r--S7IPm#$00B)4Xwd{{@&gCZ<7IX!cBO*;l=v#PZG$$4
zDE=}9MaWSRkn5l`ud#I{&{twP$cVETKtsi@^vr;5*fYCfPTa$UZrKcQXL?ZQnqVc?
z5wXh0tV1{j!!t`R8cAKpE9s6qM&HVf9#5d<%(hi~Wu~KDN8KXLHRLrhIBB03gE=uc
zjgD=bLC3azl^s)lAKy`?5R`+?x}=S(f?iZ7bpv4KEozAN7V{zhLinTn9yRt42&!^C
zIgF&teXD|HZb{lmAbyWp<?WB;OID~wX$9#I#Yw1Iq#a}>>mUR{;cRIwt#+xuep=sR
z$YIp5>gb;-3Um-s?gt>v=A|TdK9bn|RCi8N(;#x$$60g%G<LHun73GB8?m1?M9(5z
zWwsGIDR6?x7}ja<I7tainu}zWtP;UfI1a;BciMqeN*$AEJ29%#@?|nj?a)(nr5Xr1
zR9z@3r<89|aDak`5Fm>QhcQ<w^<d>Ejj!4ib9UG8n%T4xT9_={UQBT6+o%Os?;68S
z0VnVIx}IEJ&rH)?-S$ZlI!>Q|nWRt`oUhxEtJ^UBYOXFcbL>`Kf7aKZt?P#fF|#h$
z)(7Dsuy$I^1wxQT{LS}ny9oJBxmZ>|GJ{X_MD-G)b)Xd4|Dw|njfA-%K%57&A71MF
zgLq>>!0Ql~THu$n<gqyRehO!s?Hnv2ws*l<=jh3|cd}=Yjp93Z-@NZfFaCn!>O!Jc
zqxf$;9xb*=OSqD`atm%js*-H7U3TyhEW2!nzl&Y6@|#nS4T;QVxn8dtbjmIqXDj;G
zh<L}@&Kufi262o{@|3)L@Lqag%`5r9wiUf*s@aB@`4MAhQ6M1>fX@#Vxd!m&x~mBi
z>Byn(Tf%k8Ed@uKMv_We7gA_tXpSr>8XxNq9+%~ydT6lBM~53wKM6idlGBk`JVmY3
z8q&U{d6C8BlqTd9s??nD5Kd;|(8Cyppina$QNYrL(=j-#k=eaadn%Sbg+o-uq^LoS
zP=n%3<6c5!x!Vb!Gy;OC4=JU>P`GJtpnPG2@)cEAmz`h)pnzcR#Zkt+Tz3|#+5QR7
zRTXS_t7zSTnzc|HUIzb~@UjjR^`X~YDoyxDfJil`yiKub3W~gi3$IKaboPQdqYiZ<
z9xgw<Y4AmlqSuQ=Yrsr^Camq_12wwGOMcxpdhf`0-bcS{Kc91=L8QUD7Y`WtUcZZ?
z%QUDo#TgBOD&a1U;t708d6nuf+kU?w5dYW=2pa25m-*mnK&VsuB8?yk(3&ew>0y{M
zrr--g^+#q<(Y$9im_t>GQ!iHlwm#=ypB2}C>EZfgGr*<^u#M(`EyL_c1!Nm?{ta2(
ztKV2^XpvBwvFQ~=$~~WH$(m`tkxI-{#e-B6hUABq8yb<oi52U>bq8w;ReL9|HDj4w
zw-?rhKiAcvqK+oFqyY=JS<Y*cMKrU^e8fKQOEL}MRy088Hn-***X5hn=UY1FTl#V>
zefjov^X=PV70h>Z&Ufs{b?jL3I&q3ZaJoG_`RMAv^;Il?G$t&0DH6qKIV$B{Q_Z=i
znzvdiO~FHeG4*{!3_sj@p{Fn3)Axzj=jgiI*fRCP)vqr&5QjoA(6r#9m?*S%Oxxe;
zU2xNzM`&9+UH{hJio0+jtOVhn{+0|A{+h8d5Hjra38yYtnX&e8i)8$adgTajg
zQseo}-_A*o7y0KH;uUvvLnpDqcCPNPhc8BkN8->RJo@yr$AU+BTQ$@fqz-}Pw<8EP
z0l&NZ^j(^*jtK7CuD4P=^=)?Z04X$Z=9^lh&7NUaiD*zIqO5??TgMiu`m6S_7i@Aw
z)ohR+LZxwBpZ5MB?ftC8Q8R+)WCiydK$Uus-ICOE=&GX=7u6N2YLe>v#Pv(nM7qzd
z${CewUHH>5T|}bM<R~<j<VuXuq0Ug8*rVm}1`Sv>rbb;(ys!)s^K0Z+lpg?_l=l#%
z%$bNbl}wd!a|R2M0TwDV)WVnAh?PH~Cbkd|Xiz`G%DjNa!<2ts#UC<TPZ9uMo)b`h
zXa)cgzRWta{%ZiJ2>b@Y@K30LFE<G9o54UhlIb>sp>of^LSW2(c`*K|85q+9#(Fa_
zmhJH0BRKw<0mrXtPgnj0LGWV=euBVc|J`BMo6p;Qr>JxPQtzDduPFAfDTvWWkSS<q
zQiw>i-((Vr#l4WcVA_6D_d<fXY%iq#(6fT2tI+hdcrtqK*zzl7z7o61DQeuzYGP(9
z`ywWye}^t96#Rf@^9_2VmCH$G{U?e@&my@umx}f$Ao>m3a1B%O))@%(I2dEyhvKr!
z{6I`I<vArAm+_FzM6P112`jefSPkW{BESKAOSRM}Ib|=bF5V&4HX}kk;Kw~SUR?B4
zgPUBuu(i<rFDo6tq5EmptddXn)6}h!PxsT*uaZyq(*z`34>i~zH%e<tloCz2b*6cx
znz%HoMfS1+B*6W5N)2eKm90i?uo^WL0>^P0QkI@Czr`p*S}YT;$KZG9Vh)%-##k)}
z^@VDSNny)Yk}3SC8V}Wa@(7tgR2B$E4!S@lGBOe$qpduR3!GBe+lSd4Ln?~S(>Pbu
z$$Na~=tw6veI?CS7br2*Q!*!y@^RIo&`NrdC;5h)lPZg2v}!O}>=^<71i&kkDkZJ5
zM>^Etn34*vU16J0JPt!J@f(_bX;>akDr!dw<Wq9`0^J)?b`qyXYbmVAr(-yuIYw6z
zz^tQPTa{vGYpow;@+ye|tTQ3Ifw|>ooGxm@wN5e1INNV9Z8)IAUKvfO1Uon#p()W(
z&_-aGKgc^P({4J+U@rK+oDVS9sWz1RWyuXSIsfjN`mBHVYy)Chaksi~U!yO@5tJ#n
zNfzWzkaC+9KQ_~23Whfejwu+bpUZUC6AEMa!`N}-kCtu`(mG8r6mn1z8B!<CD+ys5
zJbrN51xczzRx2LK_I*+`8Ev5ynXD@w$$st-I@Xyc;}t(BM<ZPEnB8{8epki;jBi@T
z;B-Hr1W_}j-dCi?ZK}HsjU6YjD^8|AC?#P+rK4urEi-Xonx^{G@UKMmr+WYseN#__
z+UQ)tPwDk95x|l(L|4tI%aoPVvZ7)J;a8y!hRnxF6anv#J5P!?oUnFSKP+HOvRX4p
zt@BAxlI~ggbxHLKR&`%1;g)*U%)ce%`fXGMa^*XF-s^p*cP2d7xqq@s*K<utvzxPG
z({1sgkK2QPaDsGTE%}x<awfdn+?j9bW?6e@u6^exE_<T~>0Z7=<;{JU_f4(4<!!yQ
zW_{%yDhq<8?|uZe_b=LPbdQP+_o&zeUmK%w!4ab~6a|s24B>O~SQ$1GR<S7$_Xe_S
zKX3s_mCt#LvcBkUZ>kTm0ZZ+qw4_5X=B<qLK9=yWluI)`;V7;JoHxgj6_5f`hj;oG
zay*r=k|mXPJmi_I5i=h=c=e(8^uQ0!8nQ=D;gvT8LI4=pLE;V4%#tT)w<g6A!t&jH
z{m?HO)ceAjB)l?C>O+3gXbguk*}j81FoEMnGLjo%58^BL_*STrtDCrONVu53z3LAg
zm@I<?W_qLTlB=a?p7+wVKYR}%gxIklAL@kEOmY6Gv5!?Y&`T%C;Q^qW#=R<uG`tJ2
zKb+*V+WqqINP4W;9qp67z3Rndd#QC?Lx=&phssRWwbPfP@*#$wO)&)re?)aNB1+Ax
zo!5QAhW_d+H%nPL3JkL`w^(_;r%;7TP?l?xlj$;F!)1j&qJ=z;wxPpr5PbDhJLX%r
z=J3zE^-f*WwFj;~Fm2D)ZJBZA>b6WC%J*-dJT&iHm-DTg?z!dLbhl{#%EA71Xvryb
z?#iuu>gJB@x~D$a@fQ#Ln+NbVY3JKV967NAS}J$dyx5WxTjs?MBuu4061&x1h*ari
ze$uop(5|;gf@GNr(^P$VLql!Nk+WJ_LCtAg)?nI-q*_U>#Zz{sx540|hvKG&`(W+|
zh&Vv|E&QmnNNR2N_t#DS)V+e+n4NNo>M$}h+sx;Sof*uH)c=EK?`x<_Tl^Y0Lms$#
zV9rktivFINW3$~q-twa@xy=W&;=!!{V7|WT+EZ7bnm(AT-!SR^SZtdYcjv_2H=92=
z`jPky&%ys^!~Yn~!90TU!KUO)|0;uR;;g#(B}aN^PTV;g`vAwzo?1TAv;#AzwGUsp
zr(<X44h6+SW#Ep?_b%RfV3sq}>6;n&C4&dTZfAOrr|HpAW1qp7XeCrUeCP{CKr^ll
zN5ZgIPq@<LILgo2fF3LU!kxh~?izREfGUv*JmlGp!<p)-CuVjoAT{JI*hZ2gd^d)=
zFqzO^L>ALfT)qcAsOl=ckrH{`K0!50{i3N-!DlR9xI-&>D$U<1S}8=NF)M{YWu~a5
z%$8Mf&CH+YSA=ZeM$O`x%ig)h%{X(}*gD_Xmuu{sd1<b3FW$8!{ba6w+obz0-k!Mn
z1TXR@=IXb?pE=NR?Uk#q%m;dMfu5P>xxjt1X}Sm_7kC)1292%P#;=Y~pUpLHo%At1
z*p(A^<$ZxG6SMn1JOa+jeLtLiHPc5KZJ>@a#u5X;jxYGFd~mRl$alq4Jou~=Y(7-1
z&0=ZcaXwAK?lUG9sNXDXm249t`U{Dt@{x)MIo<b$)8pc}`-hGjTAvxOA$ts<VHMww
zQEUPMHXP&NZ}GHW$g5)eUsExXA5@0lKzZd3rS(uy#CUSwg12diQfa4B>->yjCWv1A
zSc<q(9p!bTr^YhtS3&xsCzunGVT$&5LUkRvpL>7s`ru8^+~$Yp8V`M?Se~zIs63a*
zh~JkJaU(zg7pRdr5Jtg3d%j`qLY3g&{F&g=S3oI_lRUx938{=%a{W3ay!<F=S;<{f
zW>ndf!7!Ch)Z3-Z4#o1lx|);?x(b*oA5~U(<8eFaq|$&~xJxm1oI<={O(YZ-B1{w^
z;u0bhY+!QBZgy*5)q^#2pZS!pS_v1K3#mu&H6Q@4%slYD1CtNm>FRlJ_dC1iyLRTf
zcG5i#bce%n_(#nL`g4K)n=(jK_b!|r@2;La#AhoWzU2#kViW4S)XlYYqG*zMqM8sX
z<syrO=$jVkUNV1lFiPIJqzz(u<|N4=k>JUvb%t7&%nWoV>2_rGRvD<6=w6t|aj_T9
z`1X+`5<E%Qm>V0%NfN4%!m^PjSZP<oaG5B4j`?aFRjU*nOO6IFXr9urn*lsrUF+ei
z)m1US(&$6#jZBOAJdlvKmWG=OT@pU7Zd$O~s`f709DbO%9U7Jw9DpP;Txd|8xOJ^V
zO1oZdAX-YP31xV2i4K(yF0fF;M`Rg~8U91pvI48VLTMXL#A#EEsk0AcI-e)~qvkeP
zA~))aO$>3SMV$}zW~@{YNU7d*4U1%^p^s<Km?rhy1>MK?F(79(iK<J{T$BHnQkhKt
zH^g+8Q*F!tPe{sy%%{Lak<&vnasYKM2}?e~-<<btrCT1qe);S3e)jID-k9BZaCy@H
z1&6ijz@p7glV{f^4=Z;!!A2t=YB%)`q-}*|(1JgVYbb%a?B$Ltw3YuzS*Iw7BET)*
zxV>LJ(ac;C(+AQ#svZu62g*kjko3Z?+a+h4|0|_Q6cD!Ym09XlWi&kI4u^k1ITX<3
zrhbLUFTaKJHcp55NxiW7Aq#F3&D!g;4WT*vK{z<nH(nVf1}0b6J!kKRpF(Zm%JFPV
z|7>%vWp6gHH&^q(oc)0%yT!5R6K9R1db(>tz|U;zGx}NRZg8xhzHdRm&n)gQ!_UH2
zyW_Y;KR`|K1)tsVv_-#6jN%JEufwCCsYZ06rPkrmZxciG(+zgC?PH$_rvo?2Ahv)m
zcou3r4$obGaKV9J0Nd0~urIjiO%&F3Pe<Qz&m77HxBkM7Bqn1#77F89QF*rs!&0W$
zqWNT2>`yT1rAu%eMi#K|v^?=ZIcrcw<lqkp7&&0<zky?-m%3M2vb5DzJU6s=s93>B
zq+B@0>d@10tE&A{E!v}0XGy9<a*^kbWTykLVCx(xWnWgxURJ6^N%qB|(}~0(;Z0}M
zdK%h=moZW}3hRXU;25%=x1=m@c*dPqt#4G>A#xzcWyZom)UX$&{T0e!1dC-Paolzu
zOjhycb&R>F=PLp9#YANXfyO3@B%;xOV`Pm#Fz`(apFp6+UGbO+S>vwXC3U(n>t(Qb
z3|Mf321*e_&rew?Z%HYT=&-@wYW-^{EA2B%d-Q&w4l#)QjN@9&C~OH)>xA=y5UPrJ
z&=C*uj_|`CrrWz&`KT%xH{$GD1iK%f5n@H6dZ-3QDLxLax{Fj?(w6Gu=CJJ!jmBA-
z2ZdggEmG_zt0^$i0-q8(mq=b<iw{22$HfhMR%|HvcrYPrr+o-6cIWNUj{D$Zaa}FS
z2c|C4wvHo0s*jEaIm1HT`z_-DdvJenYoB(v9N!wSKe$cz4AS1WPH;VRIROx&xQdR>
z5$!b^8&SuKSPES8qmEIy=VG5aEY!&UvQO+U`@sIK>IHlN7mC<XC}b}Z`=Y@eg_E!x
zP3t4yqkfCVFJ{a`MVXjtz0>}719%?w?qaSpMAgs(VvdOCS*Z~fB$jOk)EhIN2Et@c
zns$}_q;+FTD!Ba+ZTBk9kpDGCO@<W{M!({qL#bQ5{!QoBU}4E@C@o5!T52&me{Gz)
zCQA%&sbd7w9&?zARvt3^BsQjX0CCifPzS@Id;|5>YwO-c40;I{#)NLJSM?A!e6-+z
z;q<gzaN=rM+y`24L9fjv=-UOC_U+1+#L6v#l@-+lQ}Kp~f}h`u<4~}~3U+F7`9bbN
zz_gdjXMkcS)@*7TGzHvBo6yicbz=I7+4{M_u1f=V@Fq{cG`nN2VfUq{?z#e5SNrtZ
z?7H2!`}@tz<qWYjbJ|I5m~L=GwbfF!4VE0Y2j{XEss*tDHS+$BtiLxaKAY`(b`GJx
zH{TMPIhbqNJX@P<-ac8KccEBE-rt_}hqB`F?55*$2>qdaD-~;{VlCSz{otkQo2LSA
zx4hNzcE?*CbIqaKb-lRi#pnF1y57miOyp+uhyLvSFWl;X;X9UWT`xomhZ}ch`<&RE
z9qw;G@r@_0xThYxZST$7MSk;4J$2jOch^;S<$TW7{;{v_%HgSfw|zbNn!tQbFjo_t
zJ~Y!X>&u1q=ei%nP3a2`oBL7Rl`8liwJf?gjt(EdZoj7cO5j?{)t33%u3T-`^t0L8
z-b;sHKXS)aJvn+Me%sZRZ|$CR(6x!2GJM<Bop0MfDb0E9^Y3n)SwGu;yYoQ4t#f)`
zu5Byl-u2d8dh%DFhR_SXC*#kny@zY;f8Jt8SjIFEQ$YV0Nf0FIRl86S7FW`~4Oz9D
z7Ws5AG}wlUOL-d=%G9Za;L6^;s*jcOOVmjc;?TARInNu&HudDZJu`jTJ&)&lAJ2Lp
z&)OeXMK_IIK|vM5N+{6`*@a1ixC)fhs9g@_Dn7`X3zqV~s8TtY&AmBq@640geMfVB
zN3-6eS^H5H%u=3+;tb|1h-ia}W+n_kar(;kjp|bV3th0mg<9+EaTpYlZ*-mhP!5~T
zi}^^Q?uKjw$}jL0<?j%H*{6|ZxRpOeEJcvej-yE;Hz}8b3)HJHBCzr}g*9zc6S>;H
zOGol`Yp3_;>b72bGVf~4y1MT8w`dO0?VFcec5-}%U;$R!)0%Z}D7s5`Y$?gbAHHa~
zGM@EzW$mi;9qI(JNy2@DFK<ruM@~i6%Z}{;px_?T{!Um*A!rM(3;0`MiaeySTylz%
zMAZVPX(S3Y{6|@EMXUBlJ|y*?3*tozUd~hh_?JSQ2Hm-g{Sv}VKfO7%EU<m*rAmCW
zfvV&sj{!dZ&4-+dH}$a}lgfLapdv)}N(Pz-m1bJy(K`?;i2LC1iW{IGR2(3U#BrtY
zr{{zPo5f=Jg(z6I{7mThnXvJ11Ro;*U5NZl==#*|_F6BwK4}m<fh#Y}xjQa7mz-gX
z<*;SSy#%fek)=bn$1IkfY-`_=K#`^AtlgIWY-7)ofZwG7i__xHwr<I8JGdkuy0nJg
z*WQ=idAQ_#-A?UgJ6giT3HV()Yw5FivTa+J1pF?&V%dtfmi{FHze_{hY-ux(TB-2n
zC4nLf&)V;|)aJcy3pV-<^{Kym_w(;vN5i56>7S<2^COl|MT=#?vM8>xs5ZX;0~OC7
A?EnA(

literal 0
HcmV?d00001

diff --git a/model_executor/__pycache__/utils.cpython-312.pyc b/model_executor/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f2641bc321372b6997ed458760139c9090c86117
GIT binary patch
literal 3798
zcmb7HZ%iA>6`%30|6l_)#+VSoWkY-=P8yRYgb*&uzav$WONe^>X@q*WTD$`o)?R0J
z4VapWUQa6YB8BKK#nR~{qE@;)MU_tK7w#LUerTkAu>%Rd6(>bXE4ANz;woMHsc+U^
z^GAtJ9mzAZGxPq;d++z=`ENBfZUjx?KZrf3LFfhhuv%4lvek+aT0$}!LNb<Z3Le5R
za*8d^4RN@%#t-qZ#w+%?W5@w(cH)#BvTcNyo$vEQF4;x+algfQdz7n)n|KH}Vrzm$
z**4=u2x#0uQ!RUdX8-nCYc_tsnr)A=!{p;79>%A{4fs?8AK(AU$4lx!BM)&B&j`=B
znH+h!26*}9TH-0os;@}#!cHJ<3;Sl82K1Ps2_q^M;;Kv(flQNVN>^#*Urg8DFgCbL
ziS*~#XpCthtVhR0awjDzqDsXCnIhESH9};=L5ZHCi6|Jp(m0s0-_}X!z#YsLD2`__
zMj1SAubit)GU!p69-}l0bG_6Cdm!8wO;Jh`x|mcX9h8lSIiq$`QQ{G6L8B}z3@=kg
zB$I@u^|4rDG;E^|ST{E{#!L|Yd$C=QC)<;;<Z)f1qeMSGojP;2YvK%PS7O8MNgz}c
z?TmT5X%f*gNqdUfDw0eyDY{6dgsjFzCXm(wX9z~5)k8OjzTw-S^MMUMl;=as{ZIL$
zTd<4_#}tW;j_F2qX%r=0r&^S0Wi_U&X|V!KmcUALIE}$pJFQwi`=~tjpm+Ka`UP;A
zwas!mqc&RxWo(biys7&-glfk2G5W-2(Y*(Nfba)M%<|w5e%u0&#Q;X@EDdICvVGzR
z7_tsddUhNsPcxk5InaSw!fZ?j*eUCT(cM8FrE%CH?S~8X5nW&whz+N7q6un3kc5(9
z1f3)_2tl`7fYv`2(}XwyugC(-QW}v3T@}CuKR~{d(&RK1QxqYg>VgXKF-2oKfpCv$
zI>gBiR%Nl5=&06hk})Mpigg1^vR6sA&Du_<b_<sTITqDpYC@uEK^@t_-%=hftiPOF
z?@ZgRvW85xijF0-Y_sYXOngx0Iisd5Ur{BQ(6H06!~No#;T)4RW@gH~Rsu;7Y$$5!
zL{!{GV>HF3iP8pOX!n*A%+0uj?bOHk)G?9V1W6nANl8hO62KUwO<PbF0)~&lWT#nZ
zGb}TRXj9P5q2hkz3gn#41y^k$*t!usk`Eqv7CgG(p6BKVHtY9iJC{$b*SF<dw{yqd
z&h-uE-u`(me0vQ(y>0&vqN<MPp5_hD$-L*}x~F5Me%1Tr?5#o|v=KO;51d~~tp%>k
zU)gkd7adtHJMh$X_}fFM@fh_o-Rvf|ccm+4MiYFWL3I9>TS9sTb{UqukQK<k;}*DI
zH*7;~oCnH1ZJ`2)1dbs_L2V0MAIhL{cro@i3upl54*|${hh+A0RV2>>h<`{jz`m?E
zlRRtFE5M%TMj!>h@5<O-2H|ZTteM4!c5Opi=5%I1vu&sAaTXMN+Q&%dcbvr*w^y9C
ze`2>zyoVRKaTX?f+V;&Ll|0}PvuD`RYXp;0bOJ&aT$)mdCdQ>?5`eSIxy-Sr;J0-V
zx(E0zgjs$??=+NiCkE4k*hw^vsS5+^3}(-0#x`*Vq2J>r3?dsLd!avZQ#g!!KSyES
zutiQ7c*4MwhC3;l?-PjDSTq0%=1L%_IyXuZWI9RD&m4!xMtr%hk#mX~l@#rKq;mW+
zu+fe~_x(T7_j4#$JDBeo__Al^(#oAhyg0Pzed6m}zW&*rhd00YSw7Uc=Iez0|CrK$
z)BGBqsd-aMwCO@BDNB&(X5MJigqO<}G--q=X<?W|CCCgcTSe8xhywWwDg&y<1p`OI
zZo>)cvm9XXQ57CRmrO{qG>eYK6dCSsa8e>o1E90v9%O0Z3Z*KX*V9R2xI{4_#fc~y
zj*?Dcp0dKou$$yYl{qly(Ga_O*^C!UX59a3+fi0toMt3XpaWBF*6qtS<b<x3&|2Mv
zx$A{US1!`?QDCX%eoJ;{z3%Aa*17B7I*`j>@HXXKO+^RtH!i()|Fvgzhvw~@f#&R$
z+~GG?`qu)N=c@`Q&gM>B`KV{<=KY(?;q}0eAD^7B`n#ugt#)wr+Fx&db!)w60OsqS
z!A<{xg8$$j`Q?E>cs7KNywH(5c)EyiXUAqo*Gj{m-`eQ7n(w%pJ9X`GU6I3eH}Dq6
z)z=mgS5sSbqngHz>Xv+UOE&hj`be<>`CE%YR2|Im4Q9gH70i_~;VxYG)p=?fN-gTN
zK^b8o+RQ)Y=NL#U&Dw|j1NAH9jP1;4+m(N~3^#}G)&oz@qKVot>O(vlg+6TSHT=v|
z5b%WR780QfYXe#ID0F47n?9x|*y>N9v%D>oyd7jb;wst0hcYkUV8?GmH;2A+pkPaO
zAQxh;Zn%(hUYMJK?rU$;2br9!85|pIUV8WbyU!Y4hlgO_!DV}{jX8GT<@sv`@4mb@
z^mU`~;V+-~T8mB;{87<`eE#{W(gWeOO3q=HToUpw2QU+wPelYKERV?8td6|fhLbC4
znDVUBis3#KV<xiq8m?GEPDP=bo~b$+IU6|<k;$at9i>uo4DtijW2|uaDP;%<W7-LW
z#vD>MPD@-$4--+2Y0|Jl#64uR8%_=}l2+*EP{A3@9)02rt%onJHm`?o7JP@6Pv^Yh
zoGbj?TUWkqxWRCWqO3+mkwTRRr7A!cQYdAYH0);GZv@SPyHo_1{t1|K%3ghgizRfk
z3^pA7X7y(9tN=1N4N4F8>>IX3!f@O)Q?$V=P<ENP1?H)wLQKyZ{IIGj<^`w#B&H)u
z0pU7VO77?BRoGz0(Eb7);0R-YG8SGS&o?Oe0#*M5br&5RK9)TU$il~#LtAVpRv*Nn
zLUrA}8w)pz9L%5lgNs`B&Bf{ak>!rOzirD7i^U!sz`<qm>Da@uPt}KN5y9t5XhmD?
zd0hY1wUuAxyL-3TS~23m{({GMuWO;}-i3t=MGn57+pFeZU*s11vWK%;&exiEAI{rD
hTXxtg9^kS6i&I4e!%D|0x7xp2_2q@{*r$2P{{ipJtQ-IU

literal 0
HcmV?d00001

diff --git a/model_executor/custom_op.py b/model_executor/custom_op.py
new file mode 100644
index 0000000..9ef696d
--- /dev/null
+++ b/model_executor/custom_op.py
@@ -0,0 +1,194 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch.nn as nn
+
+from vllm.config import get_cached_compilation_config
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class CustomOp(nn.Module):
+    """
+    Base class for custom ops.
+    Dispatches the forward method to the appropriate backend.
+    """
+
+    def __new__(cls, *args, **kwargs):
+        try:
+            op_name = cls.__name__
+        except AttributeError:
+            raise TypeError(
+                f"Cannot instantiate '{cls.__name__}': its 'name' attribute "
+                f"was not set, possibly because it was not decorated with "
+                f"@CustomOp.register, or it's the CustomOp base class itself."
+            ) from None
+
+        if op_name not in cls.op_registry_oot:
+            op_cls_to_instantiate = cls
+        else:
+            op_cls_to_instantiate = cls.op_registry_oot[op_name]
+            logger.debug(
+                "Instantiating custom op: %s using %s",
+                op_name,
+                str(op_cls_to_instantiate),
+            )
+        return super().__new__(op_cls_to_instantiate)
+
+    def __init__(self):
+        super().__init__()
+        self._forward_method = self.dispatch_forward()
+
+    def forward(self, *args, **kwargs):
+        return self._forward_method(*args, **kwargs)
+
+    def forward_native(self, *args, **kwargs):
+        """PyTorch-native implementation of the forward method.
+        This method is optional. If implemented, it can be used with compilers
+        such as torch.compile or PyTorch XLA. Also, it can be used for testing
+        purposes.
+        """
+        raise NotImplementedError
+
+    def forward_cuda(self, *args, **kwargs):
+        raise NotImplementedError
+
+    def forward_hip(self, *args, **kwargs):
+        # By default, we assume that HIP ops are compatible with CUDA ops.
+        return self.forward_cuda(*args, **kwargs)
+
+    def forward_xpu(self, *args, **kwargs):
+        # By default, we assume that XPU ops are compatible with the
+        # PyTorch-native implementation.
+        return self.forward_native(*args, **kwargs)
+
+    def forward_cpu(self, *args, **kwargs):
+        # By default, we assume that CPU ops are compatible with CUDA ops.
+        return self.forward_cuda(*args, **kwargs)
+
+    def forward_tpu(self, *args, **kwargs):
+        # By default, we assume that TPU ops are compatible with the
+        # PyTorch-native implementation.
+        # NOTE(woosuk): This is a placeholder for future extensions.
+        return self.forward_native(*args, **kwargs)
+
+    def forward_oot(self, *args, **kwargs):
+        # By default, we assume that OOT ops are compatible with the
+        # PyTorch-native implementation.
+        return self.forward_native(*args, **kwargs)
+
+    def dispatch_forward(self):
+        # NOTE(woosuk): Here we assume that vLLM was built for only one
+        # specific backend. Currently, we do not support dynamic dispatching.
+        compilation_config = get_cached_compilation_config()
+        enabled = self.enabled()
+        if enabled:
+            compilation_config.enabled_custom_ops.update([self.__class__.name])
+        else:
+            compilation_config.disabled_custom_ops.update([self.__class__.name])
+
+        if not enabled:
+            return self.forward_native
+
+        if current_platform.is_rocm():
+            return self.forward_hip
+        elif current_platform.is_cpu():
+            return self.forward_cpu
+        elif current_platform.is_tpu():
+            return self.forward_tpu
+        elif current_platform.is_xpu():
+            return self.forward_xpu
+        elif current_platform.is_out_of_tree():
+            return self.forward_oot
+        else:
+            return self.forward_cuda
+
+    @classmethod
+    def enabled(cls) -> bool:
+        # if no name, then it was not registered
+        compilation_config = get_cached_compilation_config()
+        custom_ops = compilation_config.custom_ops
+        if not hasattr(cls, "name"):
+            logger.warning_once(
+                "Custom op %s was not registered, which means it won't appear "
+                "in the op registry. It will be enabled/disabled based on the "
+                "global settings.",
+                cls.__name__,
+            )
+            return CustomOp.default_on()
+
+        enabled = f"+{cls.name}" in custom_ops
+        disabled = f"-{cls.name}" in custom_ops
+        assert not (enabled and disabled), f"Cannot enable and disable {cls.name}"
+
+        return (CustomOp.default_on() or enabled) and not disabled
+
+    @staticmethod
+    def default_on() -> bool:
+        """
+        Behavior controlled by `CompilationConfig.custom_ops`: On by default if
+        'all', off by default if 'none'.
+        When PyTorch Inductor is used, 'none' is the default value,
+        otherwise 'all'.
+        """
+        compilation_config = get_cached_compilation_config()
+        count_none = compilation_config.custom_ops.count("none")
+        count_all = compilation_config.custom_ops.count("all")
+        assert count_none + count_all == 1
+
+        return not count_none > 0 or count_all > 0
+
+    # Dictionary of all custom ops (classes, indexed by registered name).
+    # To check if an op with a name is enabled, call .enabled() on the class.
+    # Examples:
+    # - MyOp.enabled()
+    # - op_registry["my_op"].enabled()
+    op_registry: dict[str, type["CustomOp"]] = {}
+    op_registry_oot: dict[str, type["CustomOp"]] = {}
+
+    # Decorator to register custom ops.
+    @classmethod
+    def register(cls, name: str):
+        def decorator(op_cls):
+            assert name not in cls.op_registry, f"Duplicate op name: {name}"
+            op_cls.name = name
+            cls.op_registry[name] = op_cls
+            return op_cls
+
+        return decorator
+
+    # Decorator to register out-of-tree(oot) custom ops.
+    # For OOT custom ops:
+    #   if in-tree layer class is registered with an oot_custom_op layer,
+    #   the oot_custom_op layer will be used instead.
+    # Example:
+    # - @UnquantizedFusedMoEMethod.register_oot
+    #   class HPUUnquantizedFusedMoEMethod(UnquantizedFusedMoEMethod)
+    # or
+    # - @CustomOP.register_oot(name="UnquantizedFusedMoEMethod")
+    @classmethod
+    def register_oot(cls, _decorated_op_cls=None, name: str | None = None):
+        def decorator(op_cls):
+            reg_name = name if name is not None else cls.__name__
+            assert reg_name not in cls.op_registry_oot, f"Duplicate op name: {reg_name}"
+            op_cls.name = reg_name
+            cls.op_registry_oot[reg_name] = op_cls
+            return op_cls
+
+        if _decorated_op_cls is None:
+            # Called with parentheses: @CustomOP.register_oot()
+            # or @CustomOP.register_oot(name="...")
+            # So, _decorated_op_cls is None.
+            # We return the actual decorator function.
+            return decorator
+        elif isinstance(_decorated_op_cls, type):  # Check if it's a class
+            # Called without parentheses: @CustomOP.register_oot
+            # The first argument is the class itself.
+            # We call the 'decorator' function immediately with the class.
+            return decorator(_decorated_op_cls)
+        else:
+            # Handle other unexpected cases if necessary
+            raise TypeError("Decorator can only be applied to classes.")
diff --git a/model_executor/layers/__init__.py b/model_executor/layers/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cb42630e27cc79303aed3f5d10b3d08b8922debe
GIT binary patch
literal 171
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFhwr7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>E|R?rWO_J
r$H!;pWtPOp>lIYq;;;d#Da}c>D`Ev2%?QNBAjU^#Mn=XWW*`dy4^1l}

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/activation.cpython-312.pyc b/model_executor/layers/__pycache__/activation.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1f344773d2aa8b65f39689efe01e94e482ba965f
GIT binary patch
literal 33991
zcmeHw3v?UTdFJ2^0w6$wZ;GNoQj`c$B1OHUH}#@vOR}to?a)qOh!|3!0FoYnB85<?
znkKtslT>8WR%D|bQ9V8txz4VYcDqq~dK!Drp2qIBUBIB1^i<w;5}#(hZTG;Xe4KUm
zZ1?-`U<LzlK*@@`>FY|ob8+XsX70WJ|K0z;_n-e<SZL$mLdLHKE1%-HAJGrlIn#lq
zCL_mP=K@?87tjUtAzhb_UG-ghb~S{JT}GXB&lEOx>vde%++|@ghLAN}&{Yt&b=ku9
zE<1}eh8*F-u0j?zg`8nmmy3nXp`vhcS1}7)Lhf)$R|yMSL#5%et}-2`=lDXt{AHcg
zuC5CFcJ*zRo13`?3gk3;u7eBMzRU&eyz6Cyl;Y)d!mg^k`5jsL3z6Tck-s``epgoh
zBIGaD$iFIYes@;>667z{$X}B;e_2-ka^$bj$iF&o{>rTURmfkhk-s)?{#9A|Ymk4n
zM*cN<^VeqOUxWM}jr^Xx`RlUs*CT&}M*h0I`PXLUZ$$oe8u{z<=3k$czX|!h8u=U8
z=-hz2&AhSivCR0DL-L62YD7(CfsIJH34bm4YsKGY{I%h43;wp^ZyWx$<8KH4cHXed
zZRlDT*u}38d`7#D9%EqlmyKObtcE?vxfg%?@V6g-2W}XZQoIi+<seGga9QtdkJTI=
zibMy(9)EW<c*!3P4)l9^hWhbipg+>`K0Vw?uR$~if|r5;UaalqqrNEL9~lsQ;eh}j
z@(ub0e<*~2;P1aEuFZdcct8jRe34*`_v%D@us;~}g$8<ic>zDIQX`%mM7St|Du(%B
z?}ez(AB_qTit8Q{1inA&8w~lQJp)3R@*MZaE*}YYM@3hUKPvE{A)miL;0q6hy5%mR
zE2trJOTUTBzXoOGIZ#B7s9~2OU=8SbV~>7}>(K=aUoPx21&qA8Po|~mtaJ&OwByku
zX1q)5BjmFnU%?nRqU*Aq;k*T6;W6nk+WP}1hC=@Bpq%afTK(d|8}J-!KYN-#ey+u4
z^T3_Gz$@M6=^h9V4n_HhXT-B<znrjX<hk8}&v`u?JR{Eqc7M(@e1R8umN($p=NV~<
zT<{O_&uwb^oTs(bv!x|nYB1u#|DgyU@C5rk1A~13`SAJH6X?Cer%r4-v#IUSrbtgT
z-H0<(L}WM1N{t%X?P=;C3j3l17cpWsdbXhQfY*b@H=XxKyDzZ8u+bCYU-X6ee)+zV
zUErfbLVr#fE9DP(SzfUqdO_eL7Y0IsZoR4tiKEcp(mcFh*InnL%FS`ZDED;}$I0AA
z$BpVnIiHd{YLS!nS>;gXD(4a^8HY86%~!xxNA+6c2&F0|T;^2ex-;d;A*EdRDA!ji
z$7Zf5%P#-A%w6WZhLZv{c@Fc-*UhH2Z(uOub%>_O&>$~}R-cc}JD)%!TquAi76v0o
z8}R%5q2NVcG+qjY!a_0Krm{u-z@TWRB!feu6XR~!F9dx3pc9vP(dCmP!hH0?K)`Dh
zjS)W7!%7zos9G%W`MN{?NW|xh&_u+bxcc$&)@XRJbuc)%De4zMFE)(~?flHHi#z$&
zQ1E=~;AIrm-%8DBl_(59!gmiv2ZYv;|1vK`S~HZYW$?04f?{LkSyQJ)e#~{a7dZv*
zCs(<9*1~a1!df|RtzN9EA2WW<dC$IT!R}4iz4P|wcO0#Y<y8yi-bA@~?8w(U?iH?H
zC|sK;TsvR5Zn0tgLc@+k!;Y~dZ#g_E1Ls`7gfcl%HzJy)L7FwrFpi{g_8SOX$4Kg<
z)HyDot3pgbA47*-(T{@q1TbR0qVLgD{1pSmjOqiN5@U>}5fR7r$uvz><|sz6R(!xH
z^CgsN7&XSwI#3(a$@l*b?tL0AEkBma0iicBIw0zfu}<`wglgOr*1!{W0Z~8FhQBQl
zdPMZ4$0Mw!+m-NQHQ9Y24-ILov?4|147{t{qNDIy$9TuYq46iC+7gbMG2LRJb1X7(
zXyU1fLu13^U1NGFqJ1*`^IoCz+H>R2O}VGe-u(RZ=V#9(3)_&$Rg5x*$DBef%GK_H
zAL7o#_JC$D0Vh|ZUwU*glyt@Lz&_CRnUOHZVFW01K6C5a2Bl|==sRU5XHtwBi3;^O
zGBI*U&Iu}GJj2ZyPYU(8B{abE>P1r^dU=os&*m=$yLqogXhghd!W8PhAe#8_VDz%E
zk<xD>ube!h2Xm^<7S<y|bPNnd!AX45m@wd1PS1-DxtocE#HzK20NvYx@*<yur#S#B
zDz6Vu4o^j9^b?~qFU|xK6&uDJ_nalyE{<QE+BoZfrFX9PuK#-%e*eO}vt!J#Xmwn(
zj9VrQ6HiSUZ#t))^Vao?F87#?4F#`GSc{6hcA|Iv{xI+Ji8dd>m7x%Y9X{WSL;g_u
zj>YE-40I#f)Ds#2115SRw7?V1XBp06qg&WYF@<Sr*3E}PKHr>9s6lLmRyYTxiBO23
zKpsuv$m8&S@@4J=V}Z%~LAk}WbEfe_4wsbMWU81k-FDn^q&Niclzq46J2gubOgT-a
zk}3XXXgWl<N@j;%8J!#bh=T0dSmB~063l~kXkwCMJT4dQFqEVJvbD>|n*s)HJd+Q{
z0Oy##Y?L_?@XjaCPdKUI5%LjEvN4=w2j#MgwljEo2_(h-ZUuyNW;odKFaU{OrY1V_
zXd@#AGX8;Jo$mDVnsvGYaE>ANK>#Nz4;4;}WXT;JDOIJ@AYyVl74*>&czOuvlc|3t
z=tGdo5P~@3p&?bK+?Co(kc!w=jsv8k>B}5JDk81KBZVS(z*W}ZAV0!Dl~bT*OXPxp
zlt2JYs35P5JO-imQiupF!%!oHp$OQt_~c@QLzIFVA`r=#GfMn+6-BUHjKUDV2eZ8@
z5gDRTv69RrP~c7{ZbV*$mkoE+IA^}~z(VV>MC-Bn*2iSbvo2A-E*JCQ-n-?s3+2s;
z^5)!o8hA*eO@tBz54@~VNeq#}ZUF%>V@{LNs^O6C0c@57SORO5q0!6fIWUTNz$T*{
zFF~C-)5kkbT|P^^Z<B;YJi+i_h!0~qDJ^&T7l*L&#R??qi4M@(iZE`Iw<W_<TTady
z7!wr;Q3B+GVtDlo6){E`p&^n5hN@KEBeO`U_H#%YISB76mojreHrZI{o~!8ErSVG>
z{wc%M=_x<{ER%gnSKUneO!sWt+?JW%TaPDPEpcnh3b5x-QT#t{*z+>IQ8)?U2+au2
znWZiu-YgKF%*8MyTg<^HjBUp%G&+MY$#clC^fbIr8Iyd?l>sB#xb&Z72MNciQ#5)(
zw98Wf6fjn<(Hn?APnl1UM{wTj5VlcxJ9&g1g`MOP=>z(qiQ6r$IT=(FK0`Md6(yV|
zJW1Ye^7g<}1GN1VNgn-0!tfYCvzV;+-8LYzO3v&~=?$jVsm7Zdr#GfJ1ZTIuvUhIp
z-%@bNAm2~fw1666xDpA&oxAz`^z#yi<6jBQg;W@h>J}XkR55`S5tDAjD2}K-xusu)
zmmk9cNtv|P20(C{@e+dTvOGdQCgEZTtN;kiBHAFI0sy0q{8SJa6HP%lM6Uu!4B{!T
zB%k_6i@<6>H3XJMR>rXDiiE5jY;a_GKrM=Z3PPm}0wUCs<FXK&Ap~Vl8d(uc$#Hqh
z)j&>4xrD4pXprMj7A-QFBV;8UM9}NfL{S+4^%N3GE7ZdjIzk@9MGRRnw55P2;VAAZ
zVkR|K$_!TpD-BUv9$tQ|^!JF5(%cQza~$=Y8XrBZxX73h7d-$kNuneL7s+@@!bd^}
z>K6z)0^=yc9tqY^vw%BQLY^wstCWelglm2gX(L40u5#}#m+-iXCQ2sGPrQh~it*Tu
z_M6A1kIl5roSChgtDkx1*6w6Y%Rf(4lb30xp^L`*Cg}37@S;`R(w3K7YVt=-)_8`B
zB#-cUgr-{#YXtw3g%$|PLJI`7d7+BoQK@1{uS!MZi$HG_;k$7|aWdIj`mcz}<$D1e
zX=;df^%$8P!w7AS8Cn@jp9YZ&n6=}<1DV$45%O6{3h@Z}3Xspvc&7ur(=HZu;5A6n
zi!<yU`2Qz(#R_7K-1I8dOhyu(QU0jZH6467?BCko;^~YkI-!hqW@ykiC=B#L`9m`M
zmh{i25lM-HY47RvNBOKYO2mq(e7*jmNF?a*hvH}OVv~}|>uK<?ZVyH;GZ_lik$HrO
z+!93jdit~T(b!S)1O|rtv)ZLZG^vZ*;7LD|^hEzaBsOA6rj61p!0Qn0{y}ucNHC07
z-c4jzb_53L_tO65h{Ci?X{863Rd@^32f9l-!I@Dq1@xo(Z*t$#%N*cKI#M%SY{JC1
zt5PXy<S*%>B-&uE&nAa5*HK+mk+En&(QljNbsR+JnUo3+$dsftiTg@2_vKK)9Iz;5
z8b^(N1Ql}Js6l={ybZg26Y4SR$vM4f>>ucdnk(w>zwmMOx&Dj&7)&13+xL*tX}5=o
zkYigk`ic~yn_D)wcus|Qe}pIHs3$W=TObwQh&q|n=za7VEoCy2qURAI+Mf1@hWMj`
zFd(EQ&5}l4v@j9$)-7UTAQ*`X!Sh2*4KJGeq4M^JMDt1MY7BM<dPHX=%GBM_;9w{S
zHM&`1-?XX~SUu&EeoYx=X~n&0mx}YTN@|ciLNXefjaee5s?1YKlu7|lH!05qyln9F
z?y7ZT#(8VyqP;v`+mf)i+;i8&*L>z~^WD|))g4LqV{yl0ka;-P%rv}dZ={>6pGvw<
z#~r8d)vdc-bE_ua(*CDq|7G<XtLN*UiCb&$m9LUCatq~~6Xly1%6BHpciz?AZA+H#
z8?!IgdKXYjZA-lMXtMU$nDH&^s$4mgG8fQRMGhq`zN6GP%=M{LrQ<L!uz5<QqS33;
z%L}x0TDnN-14fMa^j)ai^h_y7_2xK2UNOX7F{);T#{BA2WRaNypb|31kX9b!U@GR=
z_6|PkX_Tld?}4hf8`7*`i1!Tic%s-E(2=Id9`(4A1YBpKFfs&!VbOAt=LZou<~0Zd
zs81M#Ct8R4&j&Hg15hI|t%xzq`};)$#-4DI66pK;MVq{11Y^`lJ2BLHLxJReLWC7Y
zdfc8K-$;&_Ms#NLjM$pxLobV|{9BY3c^2MP?!JvHD!UdNk4@FhxM$DKyS9uONpln&
z4^HW(gxPI(8|R$|p))F}m};0YE_k*k@V|O%qGaos^`5Kv+LiGu3$D5ZL~M047jA7#
zx?1Db*5$%AW%%4dwGSy=<NDO39Qnu*$%Xh*(e=t52@)wIAWe}x8%zojmC7PtO=OWK
z2kfVXpl0DQB+Zg&>KKtgPc_n=5%Si-6OF`crF&^<G?VL+LQvQOPhMfEmj%oFD|>P9
zUCKv<Npo@FbT2sT5>D!X!?W($x>@&3$E^)X=cX~kJ*Vqh&v?(onVG=Cx*dsiJLa7`
z(U&eal*N&$_US_t!;@VJ*P6I>&GIgzm(O_TS_GKnS()>QNV`#;+yPLe>P~`u(}HqN
zpIHlKNq4v6W^DDc;VC~ZVe>yik_hoGh!tHW3$FTvtA3^}>1vEy8(AY!hYz>Cg_@{+
z7jDt~5;CetNxsFph#JS12HNtiF1k(LB>o~ajTwlyK>=CmFm>o=kES@fzH0c8T~jqy
z(`FgfBPgSK1XHCZlSjUVpnMC#lv8I~Cu=DYl(m!yN)(t{AUbFut-L4ezagDA(*Jqx
z$;zh#U11NHygI;MvOq54w`E34?EkI^^dCxH*>Uvvxlcu1xxyYSwnuCE)-4;u2=J7x
zS(;^}_h_l}r?+M?vXUhdH(~^^IXbf(-(p+DN}IBX=Ptvyx@>&AGJch1R?u>0aIS`Y
zO-?85A@a)ba%BJt@sK5KO-s)R;^jD?PlcynCbDnV%&9GRQ{{w2FVi}j|2a-+T`SsT
z2^EH&R}7?sO}ErNYUq1#>kNGl(GDPJ;q$0n@RLV0ETbG1UZ9`t@Unz@1Vn`ZdGrjL
zO447V8&tbk%qRvybD3-ihw0`K@(#h1aRn=Nl^iQ=!yx8K<1<T3nwfeEc>Ob^ix5M~
z2Cs_`0bcWIQWss-Q$26G*1l7;b+LN&LiL73^@a)KuUi(2Yi7)E7O#`zTNBl-6rVD2
z?)CT0oU>NhWJU_tbSaC~^$XQ<(s${{wnX(dmah<d&m;=Vc(Mmiku{qXkn+p8^Kc;L
z!Lma&Sb=O;1J7n42#q?dI~7@DTE<9V*K3rJ27wG=lswjpPa_l|3V^Ot3mR2DCo@+`
z(D(z&a15Rnme5q6&IT4*_9t5Q&$|x1TKDSV*Nfk9zuNKIhJ@>Q+<JUDY@mU}NRqTr
zc)0z0eaMvS0zdcNWAaj2rAB>_z)|D96R7!1JX}WLm^JABxxO#bGRDd^-WRl)f0O;X
zz}pn3a6AIjIH;q`tSm9RG}fXrJ|)hE)t>%j%%PH3?8EvEYpy|oO(#IhY81;<p3-y@
zZTv`7@cSr9tW4F~O!R%qLDUq0wRrW7z|6LVhOLQ)t;yPL@zvYot{rjf4vFggA`<0+
ztzW{eT*R6It4t&NE0kn6d3)fg)v{lqNb>$8-H5`IWzQeD-KOm`hd<<SNi`WvCv-9-
zrLc@iDXcApUO^+9zNItmoI3mwhl})#)C{pWG92s;4Gs8%GAHUrwBl&UlUw?2cv%3p
zAfV$75LFw}Vrn{6V9ckI1)$8QswI`H<q`6cc-x9{3jjnJC{;Gj*+dt1#NnZyZ10rh
z&!Wj68ob~aO`%{o7|jwp68&Q|kTg0E+DewaR~}*y&PREfgQD+?2!Qw#29XBHuTtn6
zQY?*DL5Yw!In9t9MqZiIbcLJ$6lo(h@N&3$Sv9tJ+ZO5ab!l6uv|Y!8q*>I<j0pCm
zZcI{QnI!nZKf_lH(q3#9V^qgnF<{5GzE3@=Q3yE*ST(0`hCw2yK`W<rK09rf(jW<{
z^1yB%AUB{kX~+$THOr)h!dHx=kV_D!mUf9>F^!r?xWps}EhpLLVxb$iNnjKXLIxD}
zk9bX@2^;*wgRDO#36Uid><teD1FTzRsU+bQh!!B;7WG4eq5<O&3q<@3_@qt785yJ+
z2Gr*Edo~u}&<Bw*6wNkMm6lDMnQoYBpK6$Rc5=^*Zl(cyiKDZ1Gtn9EEyvjTF(cOF
zOjHz@HNIk-vyH`)uC0hIbX|LP{Mo5(H+N6(o@$=m_R8+L-DA%t3wL0bxzqh?=dOQl
z@^drWX4k&5VQxdBVOz3nd&0RLVu;G>si&sRGYykp9CIwXR>ji-NbT{}lpbH2NI|{*
z4W|J#)BJxz6H#TnX^H%`#Qc3O^gxbF?_Jl>&0#bWDadiM*i?m7yfz6ilGrhK!xwQY
zQSUn}T%(&A`mq^5bA*eMBDE&pKq7EsqhS<A)=y(27!I0TD;O`h<`{P@Sl1=2>t-Ue
z?X%HWVso*(+rGE^_jk`*kE!;Dsi}xUi)fMc$)G_%C7{L|CK8(C<hc$QfinX*D-<&`
z^1m-;-RNN)U>_vEUqdd{`}{h7s=$OmEId}7`z|w30_TCbh!=?nN>to1;>1SRbXT&n
zDPG~7t^D_E??k^F`%Wym<xsrsaNKnyZau=7u2=tK>$hvV0(*XXpck3pY7Q>n0=5hB
z`5^`aAo(E%3B&~QeuBS97X`32-)u0gn&N4j*Qz^5Kcq{_W;NBw7z05WVjxHovE`fd
z6&P_;C*g>rItfTnWump0gkb&rFi}p$$=$Q`$B0tn2d3KAVT(Rt2&2{ngbG|U9;$64
zc)$4(@?m2?u*N5^FLzs*<s?5$(y6TNzr<S^fBhJN2O)`-Ihicz_{X;?UEc1bRt4sj
zhx`^^l;)nNqqreU-_=r%qV#)LKv4zF!gENS4T|!KFQko5*F%$`+^yd7Ht_X{^7V8t
zWqE)A!j4K=Z~rF*aKcidZdxb?OCO|?oEF83p){FlT>&N=)e%k!7&5AAEnEZqiA~_D
zG&Z@8%oQmV)ijk!s3!{#rGG2<Cry>OgFluEdG|m%kUH?=k93cPfB4>S%aqG{&}$Zr
zP~>00M)4PgsHh(dO1p4gKwi->I4}%4Ta9q~SY5Y<_@i9z(rmm_M;%LRsjJ+3j-qRw
z<DC=TH;&xwnC_SiCmm~Xl#Vnb<HJ)8FPU!JZrNtr?&$73_J>2?yZrl?UoU?BaPq*Z
z#I{q3&8HI0PbEF46V;~^t}}7#8Ah<OU<*+w){$oscu+@XbSQwgTpwO&uA@#-2_vwM
zWy=C=IV0|lH7XrS^U(=ZHu4d#ydX*GL~X&EK#~wKB}{4VD<V$54lihFEz;t^r?X_i
zS(|XyPQ93P)@2<U%ez6FYGF@JMLdkgNO}sLG+nPEQ<k!bdMZ|u+fIlFnyHzDjhKq)
z+VJ@B#EV~z#jRDWBj%QE=OS&AG=?5}r}Imcg*=$z;36by1HZd(w3?byr3TYk)iV05
zY8ibN%V<M}$ss7|c9y^zOHwwSsd_5Cu^GYH^u}fcC5}hci3N<~_4p&vZv0f7F&+A+
z#qzAj@SOj`^Q6ATx?fpmX14e~6wkYh5<U^nE0$lp!t~l`oPT1b7oH5~V|q=A@}`Gk
zdi2nYYS1hr*q&xoDoC!y{=kF`jG;kZF6EH?6_}ApQsdvIw>1l|_i7@!_2}692ZTBN
z!jUAlR(gSMUxk-Nj7S(4t59BBHe=aCFOO&ogzC90WOg*syytG@)o0_Uo_g*1_}O!b
zqvsL_&Lx_kPI{h6R6mn&JsY<^`}1NU0`12Teutix`XHM}lr4K)ViE`Nu)^<Bwpw^u
zY>$dyUAY#4hh_l6?@?h_;bpyXM*d5eH39Vh2({opP$p`DK-#EfGSNSvNb*{#Z&U=_
zn<~|tKC2LL3d@TW3a6}(PQa-;(T4MI-4}gC#=G%basM<ac)?TjwEsfFrEY$75-!>p
z-)Cdz6H#)v(g6x7e}YE*Cnn|nll}Qfxop<sf$JB7u5A93tbwG#4_d)UBwJpk5IH9m
zjYOtzp$wTOPb0jXLNJ<KnRx-(MEM-OhH7LaqFnTA+pq7N+&5D;TYRf3S<;+vHOH;Z
z%PAPmQuYLYufTmps$0JNfr#vW7LSvM?EZWk&FFO5@<xMDe?F_t+JyQw>RR$1L*mG1
z5g?>(wwg8&q24IVk`T<0>5VH=X(Hfhm`w;g4YLuH*ag)knrNTp7HtB36$x?-U43%t
z&d(%Gx@^WV!7?&Xbq2OJ1U}HNm=}vZYXg(^v=7p*<p|rJN{{mSEvmBsFg6txV6UTF
zvO9Gl8Xb)6Zf*4oBf(28143`B|9qr%OWWqpv~1qBW5=#bTUe2KG(5_jKFwas$}@Up
z2~=jGE6;e$b{(7T&~UM(tU1CSnC+z$E}_Oevwp4S%W27`0AU(YRVW1OeOKwV(eY9F
z=+rkmldg4ftF+(l(||C)pxIQm(ym{*sWi7=q=wQel}MG=p2w43tLAP;23QGrW{&U9
zrBM+xE%XN6BCnTf*oOcaRMDHPDXZSJJ~Ox0XXe&=x}|JSL{M77-scdMCJ>b;nnr@T
z2&WM7<d#mOGPPKi*@|OYL8xRk#jgQVj~S<qa6AEjR{Ry<&xW*4sYtaC`<B)o2NU%=
zpdKy=6e3-zI)xO59ZSu4h<aTR+1ei=UlH;-VBb=++!g9`BVXYo<SRiwCsRSYFjGoJ
z)3cor5XXMJj0B8OyqW^YTgo4f6l`m2YiZlMxotBmxKrBoj*}UJ=Yk(5?D}zJ97YNQ
zjN0@A@AaJ*aPA}6-`mO>w9zxnlUaxXA?lG@a`@blc2?Gt*gr1}2O~U7!$VQ-@#CO!
ze=l~|!%zg3;qmte*f9_(>nUczjAicq&1rI2pV5-7_v?T2dov&X@tr?9COVkv#W%?8
zvB|&srC-MLeAF)*_`wJ}Ng@^x2cs8!m-ucNaDvH1e<0FrQ4JOnZ!(78145T0V7KS)
zpj?@}srDIa2u)RYHTFoV?rIEqY!NVhTaf_1jOj%V=Fd=%{Hw26idFjo<t&e!3JA48
zPVsYl8YuCp<)7j+DeoKdQ##h1;~>yho?45fVB^2~{iap8P^M~^W_mzr#yq8&@%ELz
zkCGCWIn+`khcnkc()s5&S%uSAmvaL@m3vCLnKa71hD@9slJBWTh@xQ5YU4UNN9Ou-
zY@<T(Vfc^pmC0=?AnP_<sQijWbvB5&WRBA^rQApCI>*UxM_ot2e8tM@v4pC_tF9D~
zvF6bN^dhZ#a-8a|5<_Ng)EcnHz$~v=qx<E!zIHj3xsF=p+&Y~2Z{VVP<$G&6VeJ(g
z$|)GNeG^8Xzh#ih({2OWuGIZmn6|!R`=ae@`=#r!ZkQV}e3l#5<&^KeVq3X&0ekeY
z+@4XJ+|rDeLaym@y2eaRUdKt{JhHOwFwz$2B>kL+7ppx-+`+?-;22hrSs4nccuET_
z*E+$A28KcGeZ7Kz@Iq{z=V-tGJY!E}rl`dixD4ZT%oLG2XRO(Ccwi_L@bnKvJv_?+
zgGJgInqnKgo=sqPIII}<U&e<0$WSOsHe4g98f+1b1Jn%r`@8v;p<8G-F}zJZ%+jmG
z#;6wmC4VqPP4hH0M!cRMUj2rr2aTuaJMZtlNcNKa9*N(1F2Ob@j0U&Zj={hym6mRM
zllo0~H+o)x<xiO-dwPS>W*OZhd|~K(3#`|+YOv@Ry!EOrWKpzOEI0+*!!QHGr;kw@
zU{4r)b7WB9+3lfzU~!(0@uDToZskC~=o0u|oU!Bu-}#}Q9+dDFvIsQ(1?oyNo*4DR
zT%v&tpBjTvJ`B5o#F%}NZhy!xu)c<wRdDHa49uZ2L@8NQ9XQ`77O>wfWCzv4tf2A{
z;m@gtIMq;?)px=I#o1Lw;82{Zyq<os;OIy<KS(D+MYCi%S#+ckh;IP>D9{cF?3y5n
zfsi2YP4bkHDV<AY&q=Mo{;f!_RILHeFKxXe;!dlxv{P%DozD_PQ)Dz>1P_nEC^_kv
z@4LAIr)*vIUPaaQ(aF(!j$+bJ{u+NhI2nXC62=Z^pMSM%-qVpRf9&<PMEUWg<HUmF
znS|q+#iHURgTBzYWH46Rux-zQGkulSszUA+m0d5GEV#jJ^306h2_)9<ezkGF`mtnD
z=j-i>q7y9pkDV2C=I^VaB}=-Tl#MGWT(H(8tTj_lzjW^Q^S7SAv-U1O-*{x+dK5+^
z)3?sOboBP|TgUH|+&wzK_Rzfb@M0Yf5zbp{->a#cS$o@i%ezp&B~ia6S-)+eepjM?
zSF(QhLjA!+{lR4Yp@sU6M14oHzB5_#IAyB3x5_h9db{#g<?S`M)+Fn;EY$5t)a^*t
z?OLeYpQziPtUI_+cQjFVG+Eb?T=f_`F#GPB2D;Xy^c4lpzi`yN*U)r(->rR;)!BuH
zy@`gs$%g%7N9G-#MfaAm!zsP3aOXQkyMC~4+nuuu+m9x;A5E@1HesAEYFI2PiB}v*
z6djl_+;?(?B@2!<2^_dJyyaN?llz5S>FU4bOocm<YO%ci)rMEgQk<?sw-0{Vz7GtB
zV)uk0W#!g4ONZ?yj0;5#iK2#|rtHY{QxsTK^|ze4z<JN%mI_Yk^~HTU9AzjjojCjr
z>qiBqLgxpl!THma0qH)D9KwM5e*M<Y{oL#2^_@=c^<8BMzu_$C++%p7qPla3;f*#E
z#q2Oq%pL=U_ZK|A+3+WpHIFwN{-oK2aGsStfhGoh{~ZRS+MctPx<ykht$Cb5W(7={
zt!T7RSK1Nrk=!S!M*(<p-VE@KAquBI<<%#r3GlEl_2Lmg&h##bw8BVpXJ<x@q$-oN
z%{fkWR{>0!B+T}#0#Y*ZGJ}-g5^5tT%v4!m-x}{L(;nGwEsk31CBuqdyFjl~7=kBS
zBLh9r!O&1dxJPk}a=k+#!at&knJk9^+mXR=oA4VHKMxOr7e?{ei5QlTvdH^nq#XmW
z+$zyh$+~o`Bu&fIk-tj>?OVu-tpo1T>zgJwEx4N!?xxw&S8C>JlI|U2mPL2@b?>D2
z#`&A!>F`4BwnQ!F-*=z?&hyFILkahxG0Qy&X}&Q21(-OV(2XBmbd*f^Vdc1P{K=`n
z&ERx!wr)C{a5Ud5bdx>f8)Y}ErmJ8DCvf}1tqaMj)@0%4J8g-=ZFemR$AMSZe&73=
z_jUhkn-Y#ELD7nADb83RZDr1q_bA%OgCNFCWrb(RbyqEqLoX>~L9+XxHFPoHbz0Lz
z&KJ;ML>)pSQmI#<>B=%|wJTIUiQRHsPC2@-QAsPO!;ly1kxE(pWQwE{c(`NF#K<8S
zy+&t}lLs7HM9+rS=emnKQA1r+S=DH5W(}D0<(A85E3Mq3@mp(6%O;lAgv(>(UHfF7
zw)Iji%Udtgwo*7U0Iu~OM-_V@5Ybp-`;P?$ei$e(V^an&518tbWFeCPCw*an%nS4g
z_;N&q=LrzD5J+nB#_HMJk`N$J5X2UqFl^B?)Ow!xoP_y}_lamrxVfG}-SA?*XC!IL
z?lf);_QUkFN3x8;&~$e+;@Jud2Efz=G$S6E$MEz5r8Y79)Vn=^s4bq;u>9{Iqz0kY
z>N{Si@E%pxNZtT>e*q5$?}Pj>ne>eD!e3GBUsJ3lEr*o|5u-srq?<n?k06wq>WIz(
zA=n%2_lMG!vSAgT;C40*68;CW#fq~i4~b6ykm$~R+)Im28xpRDI2j>07jHY4gzsuy
ztg60QF<mj{d>6;z`EmZMy;Hhhz6jWK-9BlbYX63FtQ}_QVL3E?@2eNzwL7kDAK(7f
zofA*}@*YZPo-|JgQ*BfJn?2J#GpE1Vmn`y*wJ+MMrk=X_%=9yF+SjUhx~}+;?%kqV
z%4eCh+$W}<a&YeQh2q9UapOYqrbO{3(6~ixK|4NvJbfW+ro{`6)d|OH#4I>!VB4Jq
z>JyIorQ!m&ZOoi1<%-IQLQd^Zx;DhE8<;#+G_k(UqG~ik=x>QAdOoW5i>I{bv~VP9
zL^kHM&MRuo0+}{NiowJ*Xi7%(e};PiwNNYyFsh&-)l!#5=ec%gEd|KHj5NV8iZ?>A
zNP{_hkwtbrMi?CT7O+t*TGF3!kXWT9y@V7U6wM|p3K8DN8_5iEfd<`N+R(xOK{#vk
z0#i+vN~1MfDX~ZcmegF>yk>VT*w-ZNYvT6iJErdz{!Zb&l1frjE|hFalx&(WX<e*X
zwNSAE_S|Q;Co9_GMQ!gDl}n&<vGmk^gTB~}aZ^;9w!qPtbT!4TP0O{K%5YeVdLMpY
z22*P2sJ%q_v$hYqvmcFS;twfdiS%HK5@UPP<&9gttV!OYygCfgdY&2YY1<(!A~&KK
z(RhAfASCTrXDSYQ;fxGqlpWgV;b?)#R*9FWN%V`IhciO$QN*pOU#zXe*D7$hX>oNu
zeGy@?e*FiottRKY<*QOAT=7aPYEl*oSvgl}s(?Z^&RLSOQ^-LUQ!oirh4jnG)p$On
z+^IgD#blcrx;Z*Mnu48r8+z379mf&{Q|@Y0v#gUuP|`^*aR{b%Sxw#<wt`A=2;MnI
zh-is|sZyP3!%XAtjkjP)6~Q~(zq|K4d+Ds5H1XLZcH`+3C!^%0MMULlU<x=0t(^Hb
zz(X^`?7=|`W7Rrg0%0>iOOKW5T`bVM*r2DeYB5*nZZzYecd;@3i5>bA!kjrS;K-Y=
zFiQ{O5{u42ijbuheKC(^2onB#1_vV1O%clCq3<m*nMXwV^bhC-{xi`HW~wJL5avBl
zLc#)2OtNq-naYjel*dKh)Bem;k_ow!q7CM)(%(f8i=lGmg)koolGQh2hZIF$e*g)g
zO6em{qJvc*@v$#VbgQ8ofec2l4`ImWs39!5YKWW@gZOqy=EUHrL8!=xr)9Ey#S~SD
zGQgO!d;5yHA7}Bdm`9CQOI7O`XHM7Pr&5wJs*q%@aiS`vba^SGsA;((1MOE@7bSfy
zb6_OpayWBkX9P7yPf$^hkg$}#<#QgH#KQEaut@O(BVQ`B^P&OWCqQ`13Dgk+y?u%N
z!;V7K7vOvR03lLWNsBC+RO}>`Xl8>cBGBSNaG(gNXW1$W9|GhAD|xJ7IvFKeqJz?a
zShH-5_#j85(Gd-jTuPE5QJEU@qpI8?uZWWV8kI!8hFm{^D9Nc3B`ub$hB(M7i(}rl
z*W4@Loh;uw)^V?8TYUSm*DcAGQ&>>F+j1c8XkN5e#O-S!epy(xC9!Hta@Dr6<M+xd
z>0AQ|qn;RlB3`-k?&!SZIK)L2Bxtfja8Xb-ReE#P^s1R(xNBV4^>|{}<MDM*yp^^K
zkVo#Ia3hj_KbRX~91#1-adf&Ny$v3lgz$kyPQaHHHMR@<Z)A*BE_-`vrmRQN=`8|u
zx^ZND1R}66;M~=7)6XR`+*CBNnJX5uaTG{@U@hy+FAX9#gZ~!-cq+|Ph*(5uK8?_p
zQO0Fv8WtSs#fSRgrEeeMd@0mSv||dhSFZ)hu#wh`nNDqjV<%@dN<&_a*o#egE&9hf
zEOiZ<a86nD&}<V@sDO@b1pKg>$3{K@NVZmh^*xAt2ZnLbbztza4|dSlL@A-ZDupN7
z*qilHRyI}GhwyAzh2TqBjE)vS`z(Nt21X*ZY);P&=_muuy;$wC&dr+iChB4VIRUuJ
zs;_rVc8%E>@~V5&UU#p2Te5t|SjS>j!$OreQRSVjOH^$fdwj8S&CG^G<;Jnj#TxHI
z&E`bS<~zlAI`76vPI+R{Rkh$+1H)M}X({8I?36#w`Y&4D3)V_}C~Io<TUN=~h*y91
zWFF`fMXN;f3HE6n(LlR)@NLobQ3ZlPD)2+YSYQ;0o>?3BnCT9Ae~G`yFChov9@t~I
zrrcb^`o-qf5A3Bl>;G<P`Ss4p&XkFM0PWPQNm*FX3NVu@U_l!&(DjRx7iW%OANPkW
zTWX`u<ee(JSu<Ue0toTWHomfPZsQUKQ`oQ7G_&RQ-dlSK#WcNY`o7~e$43;D_KZ-g
zy3ruT(UfM>Wdi~aIw2!Z3HjWMo)KixNc&EOKSKdhC94q<t$T5x`h38@U#Lf&Zq&0x
zu;?mxLx0mUZMjh(!DB=zPH7AA8+BW9>cw8AKR}9{8d*KeE1{7_vk8?wd!y@Ts_3Pa
zDk@b~)N!M8c}4VQ+1n-2pZbZkNNGU#ZDl$`h5^?30#*J6@;rEld7rn8nn7~ctK3Vc
zZ$ESEnY-n0H6C2v8s+^yLSKWpvsq%KT~v8nQjRKw25KwYla3}SPO1FCo%;qd<*fo=
z;N>F3oUd~8RW0*Xn^&mnXL-&u!4;mf@>6-v*H(H?d?{EN#K9XE|DK-mEUZ-JebxBb
z@B@4EXL!YyGieJ8*_0zQkMXf$E|Ml1Tga-xjlC<ph6j%;wjRw_8NO_+yzjCb6|5qN
z^+&0X?vnRg@Y1%uAb%%~wU2CkNxLJzPbnTJ?|bCEK;ATYe-00Jk(n`Q_8B+9gP5$d
z#R_8iA@1bEVKNE4LYrZTq~th=#WC&339U#$W#+hmLR<m{0{0}|4j2hx2&JlXrZly3
zoLu)Aped?9N`1l{4A;4$M0uElAe;N9K4AWqvfT-$mzA`m>~nHVINLymUj5o%g*|`S
zL*KM(i4{xYr2hUE>6>?v7Evb|d&T#w0%RFBdimqh%#PfQp!Z`ptt3hFj}L~@Za6;B
zf{nZ;wr4=JF&q=26)C<GiS4^liLzNc(}jwqzV^dsJD+Yp+xg^4-|3?rooCLT{wy>9
z1}eA}uUT}VL(|_GW}T`Q%+L`6eDjy}xIl+=@Xco~GK@C_(Wra%g1aH%Zb-TtuRigv
z#l2uzov^Hq*S5`Dwk%dRE>t%ss+(sIC#yH#al>5Nm}}8qJ=OQ7z3E;_+4Vh>d%m$R
z4((}q<Cq<p=c`*1mX>?Y%J{0*JNDUMi0?lYuX-x!JRP^5e$T#U#-6Zmj2kyT`ka9s
zrmvvgc?rZ;JlRs3(b{e}9=#%PbXtVut!Nu65@<>O=v4^qls(_<-%fp$ev;}NHOs4^
z3FX4yQYAb!Cm-d4m=-VTenlrQgLKS50~xf!hhZb4`69MA^hVS}BtznMP`$Lwzsh~v
zcQ+8<bmG;XH#ePN^+Pz%s1K19(bUV6v6%vlTgjr6HVHY;S_cAvhs|~JG-gv6^-7LS
zVTD{^u|iW=pEZS*w8|7V#P%(l!ke&vbW?aJ<Y@}F@GTzttd3-$$(xy(^5hnFQfKUf
zhePC_!9}c5&$;%KM|>yF9nYD2IyUzr^kiv$s9T<CsG2^R4TJl_aopcSZ*@1)<<7W8
znlw8SmL2&f&H7nPnr(68HmL`ir4Kg!8x$qUB&;$~l4wSW{If;g=<5$LB{17KFBY-S
z<SEvw`G6$dFj8^!%0)X%AZ>#YX!wb%Sqxck5BcOz2Dd0*K^AD`C01#rfsyr)Bne4>
zolpMActrX_@+y{zrGnxMVleh`bf1)sh_oaW{wu1$DsL-dAL^8*<{3)TMIIvwlN5T1
zJO;&IqY%SwjLEJ>C$JTeu#ZAtqPy(8;uG|fx+rHRV!0qu`TfGvxQqW><k!)QDT7X@
z`@qcU8h*stf5bW7;mZCyw<gZ5`N(M0=|AA$eQ4u!Yv19vyu<ByhiiU^+x&xq(urr2
z1+`brSX1dsu2wGS+zFjKUa~f+YrL<o)0Ip-w#4DGWZ?AcQWTNGp_fd`iTz1k{e68C
z5>_s8xKP4|6h)-ax@8GHQbJtP2@y)+Au|c%B~3}4_r89UZr#Ml5{C<=+>oM()C=mA
z>AJV*c2eEAq>DrdlI^S_*Clo9@9V2{M|BeymN>dn+NKnXO6^jmo!Fh!)!x^a>#E0)
z5*JFiCPfjcE$Vc8lDakb^<_whR^meGJSmDuZC0n-o78#k>nrix)+G)XN>`Vnh}2$n
zx}8bgs{4AoZrv2#I4+b9`-2cl)htgJ(&;vgAt7DUDJgjW^M>`hrU~Kt<;lzUIRrmA
ztK%v?KPakuyKMd2rHyZ|KKM4m#hb}5_mW?-{_SGV2Ne#JdCB0c)W^BfRDGdt)70S<
zhs(^N+nu*Mmniswhx0W3plI#e_+Q-kcG-y!3QUyA;z1^u$}#I;wlBruGJEKi&biL}
J6lApF{{dGs(Gmav

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/attention_layer_base.cpython-312.pyc b/model_executor/layers/__pycache__/attention_layer_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd41e35f88b601ff5469b821f61fd0e03720ef0d
GIT binary patch
literal 1564
zcma)6O>f*p7#@GFcasg<l0!j4jM^Y-DX~>9rB#KLtg3+0E=W|7@MYw+$5|`>Vm!O*
z?x}~|`UA?5BdC9XpMV4hdbN}TLI`o&bm78@cgAZst%SrJX5N{3{eC>pGybXH?;#k8
z{xsgw5&BJRnqjPs)fkLtC`29#l~7HTRQ1$U^E5^5wM0)1&ycpBm}$rBNZUxPwCi;h
zL=9$wpPBU14R1q1Dmp}A=M04wRiA5h4sUbbwR?*X4*ZhhAo0r*M>)ej=QQJSp6w;^
zDaDCDr>u1T6yMltrR^UKt1W+Aa^?p-rF@cywo>&Uef7nCGW_)Z@aVJAAsqCMlO!GH
zSrnhZZsX{9=m!(}WkCbj4)&WI2Yzr$voNSDs%LY(Sv>&b8KTHj00uQwJdNt1N{vu^
z2W}!Y)X((iYiG}dJA-!M-U`h{2kv!f_|<)PZrWCLwaxrM^d(wf{M^GZ{tpWHX8ZXr
ze(0xTe-~38IJS(yCqBpJv?y}MF`rO8yM<|X5@*!uNry+1xWom^XK_eN?BgI$(>%j*
z#wm;ZfJ*pJDCco@@`?sLt}!ZQjELna4&x}I3|Ok!!F*oO(vkO-$ta()j9CCopsdkp
z7Qy@qBnPn06<b}nhqNxWCB4aZNf2C=EoI=0zDGcxUeY8gMQr@fvCGrKE#hL2`wVK|
zdpx~;=i}4c)J@{CTg*WpnL7h5xM?2JgwV${nDU&twXWPYF_8yk42(F%yc$3(0+$(_
zNQo?NwAi=QId3{$gPKa<9z8)z6LtG5Fj2K3@{>S{aTKWH?9zA>lS1MsB+-C#bc_R`
zUR;8FB}tbcX}ur%b3CSalxGyjkraSz35Pkbo#h;7l!mwoR?{WYj94Gau~oJO3%d$a
zDQd)+y#-5kMKpOjBeDb{N?7dt2NbV)y(a>#vDgGG*cCXidzD2<=BJd9sz(TrGEIcN
zNyyhzKUv>&2nq9m5GJ%z=|W#@045V}lZl{gTTG&G8CRCd#BWVbqVV!_n9k6JY8uvZ
zfXwZssv7-ocYgWs&Wr1JUn1D7wB~qeNy{+$-+4;}%MV9C?!34+dMRw_cA<h*=Mrf~
zcAp8hE6pDVOmJA&YC^5>e3<x;*2FtC@v`*lT_FW$cFSp@YG0phtHRQuRi)EBKBxKR
z$%j>U`g-@3b+1PA6ZSqN7tf=-3DZ(j6y?H1%I+WN#yP^jqwDABqhGbbxxW9GxvliS
LdHZh!i|p-RO01}=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/batch_invariant.cpython-312.pyc b/model_executor/layers/__pycache__/batch_invariant.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4fd9bcf0f6f64fe5c8b6f624601f803f1acb869e
GIT binary patch
literal 31725
zcmd75dsJIjx+i#!-ftoCep)tQ5C&}U0|z@!Fvd2v!Lh-W#Fdm<M#2^bfsce8i0F&c
zzBi&Oa}Bp@u0>U9tn_3}@J+fydir*`??2<}uI@^&?lmJtR9SU~n)ckAS>5?#)*`Wc
zy6^4B%<tPrM>=3(l2lF49GiXi^E><b?eDd>{-xDw;_!@Weh~Pp0LT3m1>~nN<9Yl<
z!*O>wALrvoxr_8xjq+oviz=S{>QVKW=AwrAHKW=w-9;Vq^P~EUdRE3TX1r)*aoSPS
znE9fa`E{d~G3!Mu^Xo@#WA=;ov4V>QENmEcj5#klc}~Uo&Hlm<d8sBBi+o1E%4hQH
zhE?T=@|pcQpT%G7FUiJOm7!sS&vr|5vD9BMvPW)I?(MVR;y%m-FP7s=d2{(oKPr&F
z?{oO=Bl~g?WS`HuNqpfZ@kN`&7jF_@vPpdDCh=vP#FyufA9ngGZfUZ8QEB9ShkTWO
z{m4PNg}Jw{YLoctP2%}!J;x2}d^NYU7pwF4v2WWZ^-}p<ih9-f4*Rxm@|7L_Z9Z%M
zG<>@j-*$cDZ`Uclz1_&6SDt_7_jmet_!>}$<GJ3FeLmI;o7T|eYeWs}eC}J^#d;s_
zYkHUW?YgD9xHIE#hQGnrg49M|D_l3mXZJ1sViRig%r6eBe0u<S*Eeo^o1*Q_X!(&%
zTi%|(*L{2aEt|I2;M<2<wf?^VcR%3nM(-Rz@9go_d)s`xw;g|b@wX3u`|)=Ge;vLK
z^y5Ll#&=MG1)lRghuBVEC)`6*y!(YOXaM`&ylCk5j*faSjr!r&4ta;JkVoAWoWjc-
z2nNEQ(ecZd{Q`moLz9Bw4~9Jxqu%iFxG?5ciK_6Zs0#~$@OTh8N&_KJcw88|;_+Xb
z^p1MQ1y9g_!!L-M%R<1{D(bHKg`j^_)Odx<AyFsz!;?aANG(q$ya{Pj`0-Jo#yebq
zn^8wpKAw;w-V8b7t)}pdZbmz!iSQ%vZ+w2j`7{v?Tx~=PR~OO2)&JBGQTq&sk=bXA
zsIGIuj&D%fgzp+9<opv2V41S8EDTl=(k+xeqHIs5VloPv(FgHmpOx|nDxWRL`|LA%
zUqM7Otwjs9%+)bh?Q=x*J}3Eq!u?c5wT|c`nuwIDmEO}7tC7l)KU1=h<yH@H?xKE?
z?-O~rr>8Zp@Af@Et!Z}kGxzlKBLBLm33|u;VnH}C>JND){DNn4!siY9rwf~18{?iA
zReRboNjwu_K{OqI>7eKAg~69D41Pho*cU1|m+?o>i=uXTbbKQ8g#iIkdub}{54lxB
z5rr)NQU4gtqEKMk?=}c#L<$yitdy+Aq!9Trkq?UeRnf+ZvU*Xm5W#b0p1(P_J3KbA
zdm=E=62^S;hg;s5?0D|r)eise(ZHqM6I0<U<H6n6M@PqYkB$5MqaObo{-H@s&)uWm
zDZdcfeaRcfObrCDdxd~E7;c@I5=%W}-tgGusAtqW8ARfkKkP+!c!hd=n8=0@XajDR
zThno7>uh)0=A7R<7l;+bh8D}?$Ce7;>y2)oy*AsGF0Q=u-G%SY_r;6i-uS?hX6f8g
z_fmMdYkBXoH{m=u+a1;2Je}5;#|D%7?T_rmx8Iz5GddRA7w2Q4cwPKjd}yg?$-6YL
z#_?^gw5u*r-;s13yzfkGJAA)uP0d?hSW|OGOZ51hdCkBX?DKUu{~%pn9lN|({jhv*
zvV3o<eE*#7QO%C{;m>OJEIO9GQCqrk*OK?1etG*n^RoAz9d)Rmx5XXFf*lEaZNgBO
z)YPX7x5v*dIo`XlbZ*&k@4|bpFQ2>b_~b&ezB5^P2nF;v&!o+^*;9|v72FV}X7&Lk
zB`w_7;JL#^xClRuDKUcu7*W%-oY93d)DA6WOkXVZi26gCHh5<A5gp3tr*)Xb6gDsj
z2qBK(7$b&=aac9L-Qx*usmB6Aw@K8~9Q6czVnJ|n%rg=2VK_aPh4IM=(J04^iIx-R
z&t7=RGthgn$I~b3`!Do)2Koj>1ItLI&BFm91iXgw$Sp<F^h8K2MY2~gMCeJLe=e6$
zhoETj42_RXOoshbULY!}0e_)$aAvtj_L4+JQ_|ivdot~;h`p9{x@S+X7M9FU#SbM*
zTbC`V!slntq%Ebfj`(ZI%C@AXeYPiUElQL&B&`igXOfnK2%8J$>!XJgno?mWprZNq
z4f9j996fWk`?TCdWvG8$+G(K$5QJ7ZqQ1*>rtAEP9#MZ(_H<`FhLc?bo};~814AXq
zDL+Pd7;=6E>+lYj8_$u<D9Rb>?c+aE$@Jw+i6Sq}lnoD1m^C{SO1H?Xjo7kz%eKg?
zi`cVy%Oj<cGBy({A|(+A&A*vSMS0A%jgOC4l&^{uWXe}7N)bld@Bn&6#Nktar1>z@
z)??hf`t^ByuO>|Bjy;i@NHuCy5OI8%Sx2wYJl{6sifoHmSv|K$ToD`d?TBnwd^3Md
zvpvYxPi<t!mL;<N$V${joWiz9?Fgaa4No{59<gP;Sx<J9Ya@k#Q1?4Ps8iIrAp3!=
zCsG^HTtzQMYJL2NnQeBac8fA~5iKiIrzoTRjx!5B>rp_YJ!`{*T4eh==UZ2gZw|9A
zH>-2L8D%|{D=|}}h&5sxRw+iOY(rHM{79Q!0rg>8!R(2Y%cFLTd;LFR-tCMyLn@44
zXJlu@PIFGt2l?k)c4dA0@n-X`Az1azzbTc(9#IQUoclwSkCQlO>=vkdq=8~7J`-!8
zSSrKHHAZ+ThoYR3m8;uO&a|$aThS*KnT}MvB8`!%4dr!m%Lv=hEcEF<(r0IG(-!dD
z5<EpMpAB!90$!D(Vi|9wDY7e4pZ$9MJO5e3MJj;_vEqRVbC{`eE6k+$PX4)(T_3E!
zn`Jz<Wx4ejsU=b*9Emi4`}sA~9BKI-O1FScF-MxEnIz9Jc}7Gmk(TwNEvL-1ZY-0*
zS{w39cxf6`(ai2hv2Zk^j<m4;+N0>FeDiEiq(v&LoK0J_GY@8vF~Ce)q(0KdW<h<V
zJ|CQjYNY1r`848sIxY*dUD1XePv?uYM%p90KQhR(k;e}C&JQ)*6z4Yf3s@*b<!HQb
z1VV%G=!d~^hW){N;8A_ysR{qTks;nwiJCEQ=&Gn44`1;M_jutLm30b?^Ds>a<Cg{R
z7}0o|Az$FSsPhWm;AOw4WiLjpfrlLzwSi#xz&=rX13>(uZOr=ysJdV{aCvfkG9;S8
z5`+U2AT`H_MeVd-7!OgM#=YUa?V<*6pQ!eYhlMVDTQtcGPIyYxhQM$5-Fro?mvK$n
zOY{;-DWBm|zzdcOLE7mA2RXEFh{g~YYM<ZZ9m{#IX1$jb-e5L%D3^CAC>$VI9psRp
zD@XDP&rz_GoI~Ugn@AwM0waEfW)_wS=b)&+>S0WvL`-MA8Is#GB-+P^heMvL9>@Z~
zH-)YWy9j6#Iql@^C2)EP{Fv+kR8|bFlRTG#qS-q%G>Ja;qPIlV)qtpzAY-_wgCHtk
z{T32=ugG7@ltYsx07F4h$Cy&&8)6j^jdI_HL=AaGekeq>$<gj#+b0qEWf{Iu5?~NR
z8VZCkBg4WCfNjHH=t~eJv)q$*&QW;Bx?qjBtrXPH_O2E<@8}owF+O%URnV9xY%92Z
zdG7MOH&&Ih?VLT4E+~)nCaL5j_)a7XYG->tFDbhdSO~=V_~BH^p4qeM(%N_+S-Lx+
zDf+yy_|CzFgR$QD)N;dveGdyyCJIkR^{b_|X-i?ExE|5X5A=`Ksxs4@C8~{1f^#h_
zi!~>mJEQuvvoz}~fA{F!-o@Uycd05>bs*_HK*@O`e`9v0ORDdTER4MG{GjZ;vQ$Y^
z^hDmsRcFzi#)U>OHs=-(E$NpXDd%3)Y_r&h&f282_Wh$D^uO1?+;RU*s;>9b!zt%0
ztjOkx)HhcauEZ@%qls;Ye$oER&YyR#l=Mf<t7x45Pg|o$e`7CMY)F?^#zvFnO&^{A
z_|<!_E?>LfoN77ou;o;;<<!4w|6dONi-W0_!DRX1g6>hijLGs7^SX3#MY^E$$9!yG
zOrI=p#h*(SG%sCW_WecI^5uJf@Sr@o`&6>v)R$^ii7k2@-CR<cE-3kvYq7fd8w>Wh
zJ6W)6>9UkN*?I)oTNT-#7--gDo}fs~vo!b*+Lm5UR`0*h-#_}GDtWjsd9W{8-IuuV
z$`iH9VT*P>(JAx)*|}xSmia5I@9tdO8F$3H;%}xZ_RgJNtLF;0uQhT;=lsh_Lsits
zCQUIo&!zI^GY=Z_PMVLLAD7=NUv66-O}V?1PDljgN%V9|-dXYV<Vib9V&(CdGmWU<
zpDf>>bnL%xd~o8^W1pQL`1C~b*kJPDVA3%d)nQ8hczbLx){u1Wh@ZnGUg}uh_ZN=k
zj^wUG_r1woFC-l=Ms>e27pBWx@s4C!Q?z##E2LwgBlaA!p1XJG{?JO{(T9aS$-<sr
zT>9n6&qq>)=c31m0pFLjY>S?T?{@!Oe{BEVLyLzVf+4SLOIg~Z{Hnop+c0OCFNrzg
zB@YdaUykuyQ7_LJav_NIFN~8j31^)^lh8WjnIFJ?+wivWZ4*gHMi9O6$%r}g3N$6r
z=ha5w8T~2frasIRev1bz+AcRd5Nzg&&6dyVL{MIJvjY2jh6h!Gk-y>Nv*omM+*^D&
zOZkoD;ekiYN=TC5r<19J5t8?9c)oAS-z&rwf8PKxaNd4lJhS@y#{9i7qX|PtBR%;z
z*Ez!+WJ)NTkJr>FD0OYr5H&_k!w?_eGC-1*YkM9}&u7Fxlh5q4;LrN5GIt(s5_xT#
z<j%wKG1&GT?0|YkA0}xsdm=jWlH?3hHx;!GG$l7unMqc>d|BDdCh5F9R_OO<m(QP`
zE3e(6eE#%o`C;oE&5UYA<uhJ+F8T_tg6Km%x6Y&e8hOA=PVzp-yIK;rQ-8kC|1r-)
zI1h2UvtOVXMxaiY_6AAv=M4v-K5_X1kZOkl<H68$;raw3SVPm@-IDfXbjsxog(e}t
zyzC;<#1#m++Kx55M*U&e$#KCu<ab>Sj^A(vhFw$RlP+O0=mKpz?h0QCfS4JY^m(Cn
z(fRz>14DjBa1Ld~s;C(;_#~%(JPYT)RV#&bbLwzLWC9&UMlgj;*=G)@L_$Hbz+j8~
zSU3_|lJgS-B>RVXbeFn6M~b@Df*aowsD{ExIBt!o>FXKnQjotSmJCtVT(h&YjPPRW
zf$41->MKWfwH_WFAM%cdj<k|y=`NM)hVvh0xz8<jY}2a+C3nmV=2%xO9PdwV+nXxb
zx9Tjrvuj~j%nO-(Fu8qy%6Z^RHSg$ntkqa;YieDAX^qnvO$?)dF$-W{ya-1iM*0it
zIJYj>m>gX#nuuHmjeFT2lE~y6UICg94x{pg3&lp|PFHbmEfc)vqr%;G@CsMFXdvSu
z)R;}8mZ{Q&DF6|Rq2KUGgYE%SgM8rtK3L2c6N(w~he9C3hsGy^VNvTJn+Q({#7u(C
zV2n!Jfegpec0eG}G^1NZoy2O0S~S8x>NaoK$rwMvY9w5zGKADcJs6|mz~#`!aic_;
zs($gs7bUvc@zlr(w~_CU@fZ3_bkW~Hmtx>7*4rI(9rJB-oiWGV(#6uaW3l2hb8SL%
zBvF4P1=n1gHd|O8@14sFmp?OCCp7yK+xDg4nyb@hd-QN@-`#_Y2Y=GJ<oNLmYn)1}
zOB?z?!f15~a}&rVd(rKYxsivq)}*a<>3Yg`;GykI(sl*}w*>g+vDvQKYwH83)`__j
zvpt_1thdc`=J|6me*Sp8?Sq5w9bDeOVt8)0>;KZ}wWcRUoY8jMHfKv$ZDapy(pA;z
zipq3(#g|rnx#>v(rCaB$dDF|bOkb-lx9et4JUPH=tD!H_>_{7o@_&o$p%_M>IDTOM
zmfp3>BCT$%igT2u3mim@{?HifNfvB>X2?+-8%#L1e_2mucXDRueEnSOR}B<u!nn?!
zWa~*Z<@6In+07G^fUp5AkjKA(tHf6M$QKB3Gq^4vxuOt*D!%~W^vES=NX?{+sItNu
zJvK|7q@rTN7eh`+n%gAJP(bAbWKau0=PHXXAV3BEH)D#J6e5p21P)4NMX~HlW(b#<
zID5vTC~1@Gt8}punW;p?lD}>rspY!NSQU`+5H*U_JcJ9x$wnD}XZy?e&V&Zq^cmYT
z+CTeWtNlLBCT-0_SW#<8?3!(fJz`U|KM!%GNX;WIgTT-3)5tw7LuFz!+dFS*lmhb#
z<>*O%2=y~_cc$POJ^A{7t)5h<1*~#UMGBZw%%SLqd}3rnW;Qw^7C^~tZ#?&o2jV-O
zTR%N*qHUmCQi{4@KH>?D4~HRAb9qO{LG?gT=Nk2f!a0)3H9qX}y4sJqAW^|C*2)0%
zz!=4K3ETWt*A;Kj2m1uqc+l?>KpP=D0SN@5c3oG75oV$~5F8e|(eJ`ha*o64ciWjr
zP&h#`r^z`3huJB3!@?<w=q2Yo#i~(RQ4c3DHaRA${clW&YLIL~A4^1wgbVPwouZLd
zfr<7^<C9@jhxrSnXjB!H0m<@2M<!Jfr3+%W9t{ce1XNE60pA;<Rm#C6axk+fT31ev
zrK)+Zdq+hRAV4NL9D>mV_T^Cm!6cxf2FVaoqSml`m=Fzcs03u0Y(O&6IthG;kb%5+
z=ibs5UPu-|@(_9?0hn+P1^!q3h5i|4HKbluoZWGIY;G*pm9o`5v~5q?w!gpQgU0t7
zQ?^~RCm;<eu8HdtO`S<sXR@eswl7^-zobvJcPAUWla<{GO&PZ6g5voLKZr!fW>2h^
zRDyE59-sboNqf|kc2>PB+?`sST5>F%N^R>%Iy)eCu$RP2lJ;#;4V84>zA<-WekOi{
zbn1h@sQ*;^Pn#c9uh`GBWJmyZF6?~QdADM*0#+Igsq%KnqUQ8#4z6_XS_x-&{?4C#
zP`G06VIM0hxpQFQK&&oay4ad3bVm(ogZ)SC6!-3qyN!#D@qJ5W%X?E59jU^DNy9<Z
zq7b!sQpQQOjFtXy_v~r3skG{M>4Ft|XH<i3cb3HT3pMdwNk>am2dG9f5eW$gdOzvd
zy<BqN_iID<m!+tIv`<40j!7*1A%=EHDL^0=pH}+gA7Q*9z~CVifPh)3#_pM4n4w}S
zFUn)i@evSQWUwF;T;$<GW{4fnGVS<c=E3fnmup$iu|Q0q9wC}y!}DP#%+m9Gm5C8F
zGuj+x&L^UPxr&U#b=VQX9uD&}hOk}!Sj52CZ#B^qBP96Q@c6WH`G{_dbTFSE=|0TR
zF<?G*`T8W1W#YkW>Ag*;9K)RXQ14`j7|uavsppawajS{t?t(2|C-c$DXXD@L>Q$iD
zY#Nx7PS-J+&&^=-8&?9r(_m1Co<{iDk_@Lbjt9Z~wzRp%g)IJeg(fE^#)Yuo=VqCY
z9B~bVy`d|9pKAzMA50aCKF=%#71bPM8-?peAbe&04l^+^8bIOPP7|8&4+VxPF3X`a
zkYD`Yco;W7eS8qSwJR_N1rJ%KfuSD{Vy{7EGqnq?|HdY}*cTjT7TbZKh9a!)Hp0A)
zI62dIyrYx;9zhrvgj+}ey7x0~j}W-5WfJ~~QcR3>^Na>CMucRAcNiey&&W^9QnZZ=
zfy;p)%qt}j25GZt_lek1uzQ4rpHki>a;O%JYYWk$V52~egxIB>K-!vxpCP>h6Dahr
z-~m%s#u?1fOK(lh55#)zo?1M$<XG(gthi~_R+hF5g0HfJTUHrOYbMCK$<%GOKMfXZ
zW^N{SK3@Dm<$IM&=il3wvbVwR$zJ-<z9VVhk+Rp#o_thXedl`%-@DmAdpvp^2+3CX
z&|00eR>!WStPQgyH+PoIp2Evo7=3Q`*s7*9rb%k5(}sey!3OuXea;@^Q-%rziKm+P
zrVM42R9OA*ta@-APR`=IePr%PtTknJCp2z`*M^8Wl^<GF443^W+WYl+jv1oYjm#L$
z!hC=;V+B>Hzxo>bO-oc1`2>Cn7OJ3^vm#aCE<?m5Q%c|$d?;y;*cEhEW~Iwjq&G^L
zWNMu83k5J1GF$~#o&n`0aWIHs#&wK4uu4{>EU!}mn{fAr2Rx9Im66Pps5kJ;6t1I?
zK|61JBH1Gg8M=2ECIq&KVH*8AQ-oSc7Od8sb?Qv9q9%E`BJ3Z<tR_WrTX}9u<<?IB
z5nH9FnZd9N8paHMAuKlL_Xaa7-0LE|rWC(P#G{12u&S>IV1NvK5OOv4!Sc1)b=vJ>
zN?un#N#2Nz%;E*tB|m`|{JzN{zfS_h)^oo^ND@iu)+^}9^<<-P2k8=JSRyQv|Hp7d
ztF%5PLU7OeVB7j&I~KP@MasF?huah~7b4jt+EER=Ls3gg?l(m3RrXRtp(^TwB$pDx
z5KCof#E?WAW~f%872l^C8mL1hdNT8QB!!4U%3_Rlo(%e6r84y3FOm5;p^r6qKo3F^
zV7=Wk*Mg;Ls+jGj^;`h?&Pf<ETI}=N=O9%<oWVNJzcoF7A?E#)i&(>mfpKZ~Dio9s
z5I@tuE^Gp!S5*1#rMrQ}z!JaInW{OEEIJT1rtM|1wz(OQI0nw@obO9ow#R#yt;xFQ
zla}WnXg{?kU%ZgCTp$}+=M$4mA5KAMSK7S1?|x{--W}DX4d!=*+t=r=&-;E5Ng68W
z)N7?&(Jn|p3JT}X&D{X%f@-QJ>1bH0Uv5n{y$I#f?5S0a?(LH|Pew1snv&MK_?2I2
zb~6-n9NKcfe*%+9lFDk(5%NPObqwR&LhNShA2X<`A=MkIs}&endw!~lR)44>$nzYO
zKzxLURXfp3@^=((q^N(YP}hKBW3mQ7-h^VKRXD>()U%fXQAzt{poX(88p(sL6sdXe
zjUqJ<R#Bwp!4Sh5Sn4|zdGbg|X4FAT{#t|L%iEfWn$fQgq~@X26qFtpCV4u0kT;K<
z;X_P&dS)~}oJa_lN+D86$SJ`1Xf-5HTC(3K8gUw{cSie;1=tfO7$^p(0Cb=w6{UST
z8WDwZM<c_NF=ZC6VI5opgPT|FgBs`~S)&^mRjY)Oh~`;Jkr@+CPnaV7VbmpPi)e77
zg0En;mg?uzR!By5rrds)&sYdBXe3+!v*A&w+03ZVj)*y*!YHCeJ+d_)soeks!JK+A
z=-3PfAY^9t4E8GQTiByP!&`j@?AP@&%m_Q55iw#vGmbRKvAH*-K$$V$Bt5I>+$7zY
zEpOQZz9rw<_UTCBC4dUZTRQu7oGyW!l13cTrwj!IUcwA+!Q>@I&O~TE!xL;Ie<5O_
zlRT|#vt@Ml#+_E$D2Z79cAUh(hMjvehJtFqYD%@u;Mh*r%UAql@kN{m#j%|{vvcQm
z^lUL^HP-1m%XU{63$?m>hh6;;DK)z$Ll7>pZCXmo7NalXX$1L^G52Dm2o!RDoQaZ(
zgxnGz^-Lax^&;dillYLtn{39HOgnpVB4sq7;8$GJ4)$3|Iwmna)8<?&Lm484@Cc6C
zbm7HxKf>Q5AGQ;m0}?(aKTG-}_(TobaFCh3K{G_wZ+qLBL`+f+on~1^VdBL26(%1O
z)uaBP@Ci#98lRXF<_IF;D2SP^P5S+?iz6~X;#llCjz##CV%eu}k*|P?@BxLzTZV<%
z>k}<9{lj!&#KVZjOjNs%aWahN2@%iDh9>7oREb2(&@TKdWO)OVJk)|E500i0l)~*(
zbEl$*Vzn#grnvS4(|aa(BxRAQDh5s`vAunH|Ia!<>0EBUe>Gt^B`c7?=71eK_tuTH
z%`x9|=hVWfq^%~ZW+cq)49;iVJ~Vge-Tikv7dzjd{NT;^-u#C>KRf-&>0cE8vhwGZ
ziHg3Yxo@?o{7&CO-(1flcup^zj!Fd3+i%`{bKd`%9>zk&cMJ=LSn&_-Q7srFt7E?S
zPUS*n%2Lf}C8KG!YZbK4-aoz=<)Pt;UI0Dy%A9qM2bE(hLsg8n=+GQ;Ju(<GS!0fc
zj(5A`+Mk^IwY4EnsYZ}b1;vbOI~V8UZ7F;G?8z@dm)X;$Rd=QrrhgcTTA<8|TIL5n
zGn7AqOlmMTH2-G&!qQ%x59(NYE&+R;(*02j<K%9Ccka8fs-+9}_y13a|MB4!>&e;U
z0M>D2UU$c~V2fRg<8V=`py6S`?qtF4Wqzfg{lS4>9{Kr^#QA~5h3}-gU!LtnGpx3G
zey%5aaQ0Z*Q9OI<bB%o-9AGiy03GW&KqWV*^gA9J%8~|9ktsuEdRyb&zrFakm-)}O
zwMC6`!iu4C`I<s^=6q6WVahLybGA=n8I>dukv@!oqs63T8Ohc{-cklQp%KYo{z=7&
zg$T8fWEK=6STft~92@g&IC>_ek^ULYRhrkc+^V@Mh5<>LcO*1BSZ!eWs>V9V%H)uj
zBPxtl%7*G~Mpa72J3@PY^O;O)ZB9a`Y!GNC)y=~E#z8p>2|EgoWkqn>5c@l-wDIw&
z$b5(-h0jQ}<qUPG1`$<G&$9*G%bUPuMoYpgsFPu1jX3T#^xF*NeWVS{YpMh~O&(Sl
z*ibLC2YYFDxN$_ykgqK126K9%-%}q-tvRzvTcsX;9&I5`W5bh^I*!on+VB8kp8oM^
zX)p0<6zwo7M#%UzM@Yv;{zseCT1x%HO-2ZF8Y5(yF@sXeTgTTZhZX;9kfr1uMT`VH
zzyWEEMV7wI6aZR=7E*RaHm?mwzB1!I<50Aj4r<A?qch^%3<kbsmydmY)3Fa{IT4>e
zf3JY6Gvx0LoDt4arEl?ML{F$n_ycl&L(WI!Py@a|zj4!7Glm%(Fp(>B#v8KF^#V{R
z=iY#ZuGzJhJbPsi#jqrbftJp-kCOKxaCtoJVgkyL>u<Cy$!(N~5W<c)Mhp_dBNkrD
zgAH#{RT-gSoD6123sDCR7Cs;>Bhg)$!>xiy;Bb~a1RH&vHKs$o(AN2{iMlHRpU)q}
zF#->SqedwQc}-r@i2;}&a+525uP+4S8~-(r7pDsXV|ei%$#+SLzeFHFoM<kQD+Ai=
z3lV3SBS5k~i4rNv-^0RJDD-Q>^-tiiqr?W|+t+VipLe|V=KQrg*B7qG9e?uXs$)mI
zE$&S@8e#Qnwnbln+~jueT<`qwilsVTSQ0&zwiidOX`|_O$y~{N+xIJBI#aS(5^wu)
z<>z)*c4=V6-j*=5<;{bgzh>Lrmlt9BTLHW9(ERbVz2NrL+*HgN`wk?vQO#;mecZRy
zl`3k5yv0%R(6J+lI_+PoT@q4`_HSM*e6ggIM8$E(55M=YxG7oOwAA)-$Gwi_wtJn+
z!u|GC@sX%$6?N}iy0$z74OYU?nZNEjZfC;>FTaPn?;xA@d4KFey1GVg4Igcb`sXiz
zlqhhp78S>f7ps@FOOq-4eu#ZC?OY!V0;aeT=d^vPqP<Zg$~r5vEv{cKzOPL=jzo2j
zHXn)4L4&DO_KHUpm3JE!8(`90zr=s6zo(B+t!Y)(_Qz@s$;>qw3$t}QIbmS7llw3w
zw%EyMHo>OS4iUVJ8xs`!ReqfryGP+eq9O1=icm|q7CNgudbga#3HD`X4hh`P-ZD0n
z;lKi*9##-p+?rp5=A)fm#-lJ&W%Nb9eJQIe%g`4vzf|By4e%r3u?-LKBjgkLQ`X@}
zUB84HsU{%UNU<`#HxDjy0a5se!XZL?68jZehuVbSqNI%2PQfqfcXZx~2|th(p*l&g
zgOfnsp{v6GMiC5!={BM;(g^{Dg@h#K`Aaw<qVOcF!cdCvuPKF`0@OS7Kftpo{zyBE
zaB{*?0*rEF;YRG*!t}2lJEC1U6+-6iE0xW-k>J|BL0Iyi`($6L^5Cy5&w-C{)_(3N
zA+96#^3wJdNAuP*p0`)P)a|Jmj~faw<JC0d)$)wbQc<Wk=|<R$r*mcN2x`!N5$>bx
z@m|O(R5<X@4C{r5$P7DDGP2M0UWnkJmn5uP?DhHbY$<<@JayD*w8dr#>?O^Lxh0`#
zkqCZe{b+8n`nAG?6{!-)?4JJ+A$nl`o>@JTxiyZu(@es{tX`+>LF|56iHhGRJV6p#
z@iTg<bF8sw^IY+c4&%}k50fvfZ%frW%Zm*=weX(+tC5;ST{z4A#txgvJ&A35QgF@H
ztLBpV$v7C@oe9m(r`wn9|2PUO`#+!Lmnd>}oIle;BvXan$poySw0fdG+weqk)>oQb
zkL8megZ^6o4U&~=Nw36ubnu>vEm9^+aBHMBrSZZJM)*^Flc`={p!;X!r^U>~4YGL-
zS@USg0Ok!Gc9Se$Ja24VTw-a)O6e))OpT!?8A9kZ07JKdvo|GoObe#i{`k=HzLkQ5
zv%P7HW4<>@ocgN8!M16C%2I_8n0n)aF;*WRSgu<s=s-@~<?vk6T$RvNNu#3dHNwAa
z*8L-CA5h<{j;IxOjhQ)yT-k>x?2w6R1Jra+Om2n(L((X3c%BVS#^uU`6FE6{hLhWs
z+Y=P@F*kzwu<?=M$?s#_ZS9ciGHgp;N4x2AkOkE{It}y=kep|Emk5u1x=cPSSa4~?
zr{$6R({&+$P^baK86CTFA=5{&&d_6LgRBY1HE7YZ2Xl&YWv$j`H19YegI9&hSZ>gB
z_?BiQEAf}hVU=g4swh)Ta{B>%lc(=$Z^%B~4OofyPZxq}mCYI?fnukNk>2bqtKh$m
z(}RBDzW}(~#Ab3%=qCKnh?UIIZovlwZDt%H5zZvh5)xF*pqS~OQfwDFe@PDQ9wLuB
zO{9_@P_&_S_vT1=vWRK#HsTcAX2*5VR8IlQEQiS&eLmLn{)G=-fA96rs@fBpbBP1J
zpVog`n%H+Pg@C#J5rk^5%)Rm>|DCagv6QuL_W0*|Q*`g&d1Joqt(nz|ZSSk&Js+HY
z?{vzwXQiSoWou7Xw9TLU{<TC!TU4E}wd3SlVfiPusqzD#)GnQiZIAiyjx3J+q;<JA
zS$^PwX2sbvd-^fV1j=y)%TXTN8TT$1tvC+M=}78T4)Kzu@UI+I*w}F64(tlzU8&-o
zbH`~bs|FEA(wx8kY8z+Y``2F?xQdPt>6d=qV(fNk{s~{wU1AtgGQVUa!IobUCg)a2
z@%LhkOt;+NQmU*mG88fhv&*1JusWkODOT1LY4rG1mwCm4&a(g&#Fja?z@R#WT0mxV
zu}t2<w=6I(#_&r|zQu-8dU=~;wIjn(cDDwUC%KYXavLA0Qmj-WVuJy1Zt=kcVha?N
zr$sU<0V9up)N?S0Fe|=Kit!DPBDH8k5`r*baO4CXGJIy>V1DP1vDD4dMl_=|s>owL
z9C5<z0q|r9GlfuD6-uTN&*=Nl{=eyaMW5swF+MwDI>m?;|BfS8{5y<y3C6pK#ye8N
zM!hsrnhzRkn8$cKJ0{8-gDUdO1yiQoWf5CWF$vaY1;)(=w{iN<O+=8(7Ix?R23$eh
zga>`iv}87xGd%kmCeBp6AH_ReQ?BPBH`(n9T@%8Mgqj=Q_+Go)waew72)SKNt{eWq
z<tt(K?Qd-tEgfBZ5sl87vs{+CVC@CrIDGwXo5H$<$Q?;1^b+~bk#mZiUUJTpbBCNh
zIHHDXE^R{>5O$X{3mDNPRh(UO@MFsS6LQ`qhpg0KTRkCJKnwpJ#nC}7Ax;T8BGdr$
z?^4WvPtGxN-lsGJ88Ul@arXigPm)!$o^5BLYq&pd3}(-`)XhU4o%H!^HK>eis0}|e
zk_(ZjlLj^KBkh(21kFPuEgL|W0^yydo${Z+1ESFNOath2QT3MQ&$tKx8|nPD`5~OF
zuXwLw#o9c3{2N(9e-0aLr5$v}DEU!gDV>0Rx1H2esluHwNyb%VuOyxIu&y!KezYTF
z9bL9q7O%rW{X*Owhr@A61MRZ1iFEP&^|^7FNt-OU8|E738)DrHEh&?W?!a@*ch3cI
zKIxm;EU)IT>?+Q|moAjXD&m)u<t@v{9;jCw$H0a@-3Dy<uP(d_%kb&N=~QtO?8J-F
z$;sk|C5V>xA?T>QQ@v0f3$qN4rl>A+hI^y+bFpmwEEHiZ1>D@b{s=d1LX0dpfbj+|
z$d4e$#z&^R6^EtQ)8Z(*@saMa1iXA{Ovb{f`$karTF}4wa;a(ZLh7M=78IoG*VzK)
zg+*LlK7{I{_)Whp69kYSY4XXB<bGi{b>@*TWz!*5%J&s!nGHQnj_1h7XGF5HZ`jco
zpqbIas>7JubR+EMPU114!O`T?gMa|YjA}%`MLJH8MGPMqKg<whkWcCJ^;=Fu#_TQr
zDZp>BcWiE>EpHUr%?4%!xf3v#rX=f!aR?olp#fy(Uct|V?jf9#MP_7?P@!b$EveM8
z=SW5m%6*5$<lB2#<+n5zr?WXs?C)x9ZEbCKNiulpvQGwquxzF(u9w-amJzHeN-7F9
zOLpN@3R^{|YXE!gC~QH4kf#O1%q)V=t_lIP(}lQ8fzd#C%EUhPOpA;>TlZ78<LkF@
z22-*augcVXY!b(qF8N(;Enu^x<KN!VoT_EIq?g&zuZQDmoZjYkv7%5Bz<6Hjj+{M*
zt5M|LlJUmh$MOcZ$3z;p;Ad(P;UAFikI4BS$)UYSvbr!yd|?)k3ICAN|D2qEL{2`-
za6)g?z0xD?cLsU86UZj~Ev)`fH9U|u?jZB(&biJX9FDbpMq-S^iJHSHxaO*i8N|FW
z_d;y=?&#v^QrqJAXXX}&0C5`E<jUEFCtPi~*tESmU0r+kwZ+$#wl8`TRV_>BaIvXz
z55$IaXt!m}@(oSP(^lA$*CeeqDXVMt_&P)L&#lgNX6DSYAZ>9<Cgw%+I8_USa>>N}
znO5coGZ~sYjIb3b%4=v&8-@Ik_=Rm8PYF3C756$Jr}w8af;dW(q9uDTt?PzB(qvd5
z!3ycAS(`DvVka1eac3<%yMXiH*Kz6$rbaHGKkOH9*#Jy=0z=I%#_%g(XJwR(dSx>l
z3;3z8uy4akO0qp7%(Fpq;G!#bzpfdWVx|B84@W554#ROt=+8O^@>`+}@S;T_i*d7S
zZN2QaOkP1xi4&_(_!C-DBxM5Sh!s^d-xE6!53QJYB{aL9A*?-#5=yxQ31**l-E?+y
zCPNO~!;3=$fPjr2#v0641x6}gAx7lGkg5I|d=d#XNxmgGAq^Zt3=&!>84U#eUg4=G
zZ9|j(88xX9*&$uG*2a654t#v@-oXz$Q`Q4mjCylIUz&E5#_ATTNp<Lut!z*r`()S4
zci=-ivk5p-0pYus3unoYd@7!N<cAMOG2~wGYI4e{+;$)Ow>dH)uhb)}h!V!anJpg|
zXk<l-*-C;43p?eIFDqT)xh+Z=!daQbHz;KcXC)Bdpp+?`<&Bl4g2Uk~FFaBuw;}f)
z*_QLmKHNc*z3jtV@GZ()6y+U0>$4&F%w&M<vu%;fLb<l+Z+o~d+lH?{N(JGa-=dV`
zTa|K#X&tdgIZ9i!t1#S@w^VM;G|TC^x3@G`Dz~~k*}0XA%lAtoBkegzvM=B7h>RSN
zQ*&=`)$a**XAY+9^D6FH&aHG@xL*X5=;9d|s{MYx?WvZ(_<Mtxy=&=P)bItlHo3R2
z<fGCLft~5W!79#O);|bq7VK)Grnm2<Gt;K_*0w#Zds=a~%ojdnnl?~kXXn_MsOi3N
ztZUjVg_&A)+LB3Rm*mSKX;TnOyDuC)gKNWIK70Q3z)M}-J)Z8f{l|Mx$O&f#6-jg#
z`?R*R?Lg;2k#C!JN^q6>&S|R@m(j{i+cH@;go)p21@S#?l+vNYcdL#cKQ0=ECNF{R
z9u3p|p_ib0hd$oz5{ox(UY@?Q$9g1vq8`5+Ab5o-QGX`mDS9gRnckxUQOpAIvSJZ_
z@FH_7&yaT_!+gND8b?W)O{YM5XST%(v`306x;WGyydDt7gQ6OD`iM37k&Mi7PN~A4
z8{@*&&;;&*@(c}M7PoIq9}O#V&?WUu5iF3BQXusWvkwr}=m)VdSC-lGdnnS7>5Gtb
zv5-!(QWAH9t-=)qmxkL8crs@6xK;>9XX#2SDTYW(aYqhjE-$6za?7xWC%!(cT;2_^
zN>GVmKYn+_=b_=m!B{p#7}VmYt4VS}n(P^JrP3dyUp9Ga42f11UO>iQ6V0N5Gt2!u
z{E7ljnc5yzxe}W4)k@dh=NF%USh*)zxd*4@OH!3DN|zK^YU77j%zIYNl@HB(lIA_j
zg)8R$5Pey<KeW^*E%ot{mG)x~V5HTzYH?+v##Z*9`t<mUWgr(7Tsd&&Q{=j^G3r;A
z3r`GO>z<D<-n;nm_wIc!UEp5Y2Q&0mTf##37`5&FnduYL&upLA<dim~v_RLj|L{9U
z$-X^Nx+iIAOYiGY20z!7J=9dQgS1sEHJ$g5<045dT?n8pm*QjNE4z<>s$0>VU6r#Y
zYFbzJocOe4Mf1}7IBK7!Pg(ft%B~|1Q1}Eies|rAICqO1xN2|p-0DRx>2jophDw~V
zduZ4JqpgRA-lU-yN;+)=8vE>Y6Ia>3+`Llp!kp~^9q7|mz>v&X^8`NA+x<8DA8JaI
zn$m}wnxv*?Mbq=lM5^+-Laj+n>+*C$)A}pTQHk!x?8!bF_!$2dfd{`6#?L_GHlr~8
z$S1JErD$1-b4F$4a>t@_$Mta(uLE>A4)6_dwOklVZ0V`v1p19JeB)J6_5<7v?hW;;
z+zsBX?H7x_bLLE+=V;ep_eoE0|9861_jdIU9vAsNOtTE~eGewIr~^&`exWN+!jhel
znjsvBt*3C-G~^kF@)<XhkX@vjmJ78nOW&8$ucdg9YXf&DoCNG5WDT81cKoV^tqvDw
z6_wBSkv!Nv=bk?i8%UY9<DjQXt*u!ttBiI3#1QXVv_`F@g)PV0`43ODoTcO|j@Q<t
z%c^l1mbnbEYg&Z=hN)%WwKa1enGdP|f<L4l%5(^OW!Zu?tW+gikgxk^@FO%n{_pbW
zTy)`eUg*FHNnVn)LJkTEAlZohR6C<moG8pAm&^?o<a?R&3IdF_fDMmNw}JS~n}_7J
zGCXzyvDBykCUx-{wy1@X5z3}5a!KU0Ws6)^25YM?+P+pUJIhtD#TOl4E0^<Y<zl~r
z<SW|Zi^U99$riavzt$JazE-YsmTRkCt)N^W*ed(oTKw7)D65m6uED|njK8=4c+Yv!
zmW%iFo$1PiSsDwQ2G92np6w_9bi;9+=fhQ%Q!e%sPju3qU8>F`Mj4`jPSY`bGQEq5
zd^X^LR+noaYuF;w5uGlPZxu@zdO`(z`UiXQ#iL!_r+fO3O<#KzmspZ8S`u!PKxzov
zuR;U`vDO$#gxI$rkd}UqX~^H|VnVGO0mysFoDO1EIgtY48-9P#MbrUhAk%XRa;tEZ
z5MiZMpEGC9_Z+(bTJ*v|k7wZ3zCKT1Pv5k@bKjolKza)GlvT@q9!M<c@9sW>-@m!g
z4-890p;*Xby3d|D)88}b>FMt}dZs6nt^Ye`1~M^10|6;wd0%RO$wPUM^$xJiP8QqO
z+wTF;uKxa>GXr8KuIm*=oNj;#;zW}K<^0*fvmkg!M<o)cGc5T1qLHO_ojGw<v@&o1
z;K}nnUB?D8-yXmZ0O8ZQSk?p7?yj?gpvC)M>OIrr)`=SI4<X?ts<aL_JK-FoXu+M8
zK}-nGco3J0(ncb*!Evia2b~A-V4eiAComdXbY^Xv<S5Xz8360Ild8;S<M+@f*){R<
z2;wt-e8EL~3SD3dp;1}Y!?L}}vb_mS@mDHig)X5ffsEBqo^Z7%_3djK-dd0@fMGi>
zM^D&yLVny(m##aIsO?z3Mh4cMpbd-#IP7n<OQc5Z#EPLVy}Rqd_T=tk@2GB@=1hsg
zT}eaps^0ka^v&snvni?HmB?iHOn;0%(L<-{00tz+Ixu_o-a7jBshg(~_U5Ff<x%r~
zIoO!gxUt3UY>^|j(*=!<yW}AIRjv9)ImlAo&2q3lso9xsXp)1qNlo3x;I;-SH5y53
zs?s&Bnb4a_O=WsVeJ1n=NzJzOda$TeQ?^p|pUFm`%1w(T1GN7?{tS*%t|%+zgx7PX
z<Z>M3S+pUuCl}}2>OSZ^n_)f!aZh$D-V$OStCd{oDMFp9{^KysCfbEfHb(MGYLgC%
zn?f6egYe-%2xET2WFDZ!6}!RUJ&uuslGwAD{SM-KT!;xwYT$mFz&!wji)ZyUD|*+e
zp>D;nbJbA0VyMRuv>kXyOIL#`soxbtOS);d9AAaI*MDVbShI45?b0_%_yZyHNAyx1
zhw<~}|K|Vv^Z392=gUXjhb1b{j;r2AVU`ZIE7a<}G$ha{ibf{?AE!Izh;qg6GEPlk
zQ42I&5`$|b`mU9&e-E|W%)$~95QqvDZ7fFqfya=<<vLg-F0#X~JbEVa`wt<>N`&m?
z#1fXsVp}CHQ_4XDE*d-@`h7u<NBCRxJ&i9g6vp8k{N_bHC96jQVd*zGj7*~k8(krD
zG3_9`;7Kx|zlXfSF#urp)50&QsOAzHD%qR-ijwIBrNn5HeZ0hX|0nY07-Oa;`ys`V
z{9YhAJmbm*x;RT{A?E-&hso(AXD>PX$RTb~F_UQMg#bAu70l?&4uh|p9Q7X&rjdaE
zT<Cik7wEKj{;`hZO~2*pe#=$<mMi%y&hme7WxwTWf6MLq*IeUoxz7LHSTz4i%2+e2
zThlpsd)kC^zA^Ru!KA5bO-&Iy-O{^l|MJlNy~|fVsbS$qT4S^}8j3dF{N7_N^5KxP
z%J6o@&5AEoI=<|&np0WU$cI~zRF>HiN=a1hUE%kwsb1xIH?BItt#i!_&1=;xSR)6w
zv7k#1ZfC(Aa<G;K>o{1fyf*jRT0INyl!FZ{*eD0xEZ8Imcd=kIS<8&hjegZaL8|Be
zOpS2AQa68s|5AO5=dEeI<?YDL$eI)=tG;Vlv}6L!Z6BYxcjo@SWb+G;S@PONRi^E0
zszdxS9_mAwl2{fjUs)-b=?n6H8R6Z0)BNO}$U<ZdE3Ij%mc5oIe-`;9@|a@QUcpZ^
zvyNO-weov#M_>k4DMA@g6n};1@T(B6x-X3{^SqN3poixUuc;~U$Y@#9k_TA8=3LV=
zFRnUv&{6SNQPNz!#tPwRxz7CdYd2qeY^E$<g;hLX3oh2(@`UT)O>1GE+u8JlbMU6G
z8hO6;D}#z}cx=-1)n67B^G+PKKJ<?deOi<})c2S}cx_L%-n*$23gn7AD43}^OBv?5
z=ey9)&3sd~-sIoD^Mk7QFzd*_4`)K~egvkODyW5j4GWo-bMVdCa^#oGk)O)poh=9d
z<3=rNSHP9mB)H;qX=Q>dN|#h5xWaV3JHhS9xZCR!Tur*JF~M#BN_U9w=GP(^2>q8T
a17A*+*RPT9tCC%O%j4I01DIc0fBz3&pUh4G

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/conv.cpython-312.pyc b/model_executor/layers/__pycache__/conv.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..95803985cdba2ea91969082d5e056d2dd1eb1ca0
GIT binary patch
literal 10853
zcmeHNTWlLwdOkB8-iIQo`-Qegv1OaKOj+_Kv6DC(Nsi-OD(B*?vs$MF%^6vgDN>mk
zS~i#3dbci?>TYW4p%9JjB61NRGMr+SzQjcznihEo&=)asOLpL(YLgc58y#tpU|-t*
zKf@s@dYo+1ycF%&I_E$4Gygf~Ki~fi|Iy=d5qRR<FJhqpA)jKxcx)A6<98q|5|NA(
zkrCNAGtSVM9cO85ndZhhMlZ8Yb5WKd)3$Lt&9THC)6Q`xmASZU+CA=O2uq$JqV)<9
zZIbh*MIU9HXNlyT>NW<i#iIQtqo-&)2eflaywUDvrQ&!KEp<VuTWT^&$Gs2imEY2<
z2ii56^y<6B2EA$jXfkm@cp-90l7-QDL{UO_aoDjSqd7)Xikh50IRkQ2ObM$=IXW4Z
z-bh8_(aO|l)LBVv{4)qY2X#sW)JVqJS3z;(7KxLrBKriCIqUw3Euux_{(=#$5(moS
zL_5^O*fGI&LEW^Spfc{ybD8A1P4al?%Olz0)g7W2)Zbc}WnCm%=qNtXGSQwT6O8D;
z;vIL3J_+U^Hecb!`7F7}jC)=o!B)+KilTZNi6~OKo$4)4^>!9AgeX;>W>2K1!(wcD
z>;|LpGZ8s5t%ODO(u}0JV~KEdGLlG0aYf^kDYcezpO<9F4lA*=6w+*pD#t`gv(H3C
zF_t)|ImB2zqQ;U5&2~;sre+k4I~$8YCzT4}>7*#hPIxoTCQE8cPDJU}hYZ|aph<#T
zabpF-KW7$+3JLw0cW20(Rzi%e#*mEba;pkC`ZHx56e9y-qwbtb#UbgFv8cv~<R+`<
z$-azbg2|96zEY_!O2Y^VCS#ei)b+uc_Q8EkAKV;Q*N4@#59`<TVV$$q^<gvZ!}c|O
z*yd~*c-t^)n?4y9QjTiM0;!t5I7n4Bma#(0U9D+@R8?mgJET0-GAE>(swpznY{<13
zG;Xrj&+jF$m*qVSQFj=1p=P@w*J8tX@L1mqJA#;+E(Uvq+4zi>8Ajb{$WyxvsTM;&
zCbKn0!yN&=wHWo)pdn4|Go)Hvw?q4DxrPLqXEOFQ?89?x#`2fUU)e-9<BBnV#u%f)
zNFCMM4*9YF(P(6<ssp1>co)~Z7ULw;jcV9RatZZ%s8-*QL{6-pAO>m$tz&ob5NlRy
zMS_fsOD6jv2zF~$B{d_-nj;*JC1PqgtXZj%*8JxrH7rUKkyIRFYJOZXC6-XsNFpj}
zmRLfSaihw(2W8xPGVVATH=2z5OZH-b?<M1+X_iRhlID>Tk+X3r9FHZWh^%qb5p`1I
zX5^%(xnhYKuxMz&G&YgYoG+s3lT?_TRhphrFKM<}DRypBr8C!>W$9c@fzmKFky!5r
zuW^bLpZI;Igl|vhr5inGI83c?IIQ4X2({<(?~V_s(=!7zv6%yEL<X%KxR`qM$l>#k
zN(1rO*@2l$>SQu8a3LO_9zY`+4@(!NXbO}#Kux<c5Cy9rnz<z7!s$l8dIy9It>bZ1
z-hoy6@-o>B5NFf8z2NA)?dV>2cdWX1-02aDJwt__p|zgxWnb8I5MOtG|J%xK@BXrd
zG<9Xi@~7T9bM4H>d~n?#DBFp%b<;&chi}<FwA?;$EVnz?RjJ?)ezZGlyEAa))}9X!
z-5z)*_h@ckUVSTbE%R~n{*O*)?RN$rzjfln=<UJhawl?+FSWiCxE}bp<-qETuVo$U
zJ-f5qZAWJ*uovU5l96r?WVv6uOC8%G;!B+ZM4nP5vr@NgBTdak&$fbR8+6)py{F*m
z|D3R%-aD-wdG0O#8o$=sx9aQr+yZ&)zSc$ef;<04!6)F`ct8<l7wOskF83Sf4d=?P
z;?PK8Xk=~gXrX%)2J?Q_-nkfGh~MG;SD&AMzT^v(d_DOK1z%s;YV|b1*v;EMx1;1B
z9XsziLE5m`J6t&Hd(DLR-RbPcDZKsaJ3qSqqm|a;;7DO`<fH!EeW%wtU&|hQ^VxOY
zSLAmV_?=6~myi7uKez$wMWPktg)-sbk6w}g2?F3jytXjE;rSI2*<V}cm<%I=IiIRr
zboG_=8fiF3v=*58DeSx9X{ZI}-|V7os0G);RP{Qkb=Xh~u8XPa#Zs#!k`(hR@@v+Z
z89*AxSembcBuCS1zmWFS<C3Fkz7CiiP1|)~ay0Fz0FR?-D*}<DLED2*Ewxmv43`Db
z7)3#y34)9^U2{nnRXGxtr5QQhxdmQ@Y9(V(Q@IAgWm0PD&VR4iv%k=@f3>@Rd1RFz
z$TB5|Gdq_*RooUTYzwUh2A1Vj&rrcJq?cs!$BKdeLZE-O=fLvItDb`e$3eYhHm5HB
zc;Uyn>7}7n&+dX_x1N1b-_N<9EJ5wP1;<`JJC!@N_``)CE{Usc`&L``uX_3mj(#Ze
z`mzprKg<qP&<2r=@25+cJf&IFlAKh6O=zPNU=hJayTS<AQea5K8XpcLp01SG!(lNQ
z4Toj$SBT~fhXE}nRSNwSYTQ#ZaS6a*G8xw_uoyBTW&J`x`y_|3nWth6qf$H`4&Pv8
zyh#<@?N3p)%ZTY{fHq$F41zEJg!~I9tb2Ta{6e{j1oxHT|GxdD_Ks3pS1GWw+;-SH
zRPH4G2S4uuX}ztpY{eWK>F6%oQF4&>uKdGGElbg*&THQ<wCyW9G22D_tvM+_y3~?C
zv5>?Q?Z#}LG`Hna`B#>9=3iU*qk?~T*@M|lq@_J?%}19G<tMLs3(b4VUd;AECuKiM
z&BWVMZb7LPN3P7OBd~aW;r!CELi^q_POsceTus02K}luoR)2o<3jz^cCHmT$4UPJc
z7=<^lKE^5C*o3T_3xf`f$c}TOMY5U!SrMEYv-}ATyg+W;{w><spq=Aew6jAy=eKC*
zfOf7+&Y(+k;~5+h=>?bWz=WVXII}TzQqT)ScX5Yn%taZYTD0B-qH&@|bRXm{k_<Cd
zZ(^YkAH#bPDSlMg=g7~%oSK=^Gq5Cc?3`ten?nO>ERfy}4bQ+hbGA8qhRfIx?E#La
zsBg|X$3dS}BwlL*IM9}{87{PG4GSP{yHNv;_*50O*Y(4REcmZhAPH<YD?ZXx6~Wil
zLvvik^0j;e8O|{(9zyz<qDZ`mOi=R_8kdF#YMP+=uO1&ttBADL-IljE8;J#t<C>U^
zceAoi56~Lwj5X?@cIicQ7aPe(A-IbhsAfd(q9=Oyzu>vy(JbIr1LB>G0OUoTYPM8j
zA{iIKQI_QClnNfREa}C)Sj-&PY&ukx`!LO2h)J_L*rk_}gI-GVleF%L#*Avr35_|e
zvCj{}-;jd)*?^Mzh2;%TB<0zNEQY63aX`Q6p1KngYAF0eXs&z#0bE>O-__K7>KC*5
z-apN(I(o91Qd|4t>4nqtt}K%s%tmtllE1C!?=ARy=WSUwI|40oBlEL)Cjas^JJeuG
zyyxnP`4hR9@@#%&jo(q^cNh5GOK&Vcw0w4ruT*$;{@Gk4@6QkC-&pEhdTEW{Q{)E<
z{J;vka_s$+@10!Zk7b!VdQZ?{iT5GmD)NB>A26=a74CiSd)_tvDJ+E!H|(4TW(l_3
z({%Ot{PEl%9RjY^1BJkWH9l12A1UyUth{ln_tr}vFl+os{k6EoK;S{524WqAZ(<-+
zY(*b4Gk|Wl8GeFX6TAeuCin<)O^zw#R-J8Q2I!`m9o2W)n-zmo+18dZ`6+00gERB0
zf=>BqD3qVW;4utvi&E#vtojWdK+(Or1wwhMn=T6GI^AWuAF*f}y5IN#1ZKPOzAaH%
z`%+8C;^PaCms&d)Us!knz`)|`3$Ir)H@yzJFPe$ZU%^0I78{q0E_N1#Z?f2+-uhbw
zTH_=8As?+l!;`7{^snH;nArUK8bLPw<kJ^tq^K&10(DshYA_xX_MVNXz;2=g+YcpG
zZmwULq<(9^FdGxq$sk?RAg8b1c9@L(3I?Y!K=p1}ohHLvBml!*kkZ}t%hOPXZNCq}
zWwL(1wQzfj?rk5tw}I}9Eqe+rdzP8CmVK-IzIDv#E41`2Mb=vOuJU^+%rRexUC=u$
z1Tnjow<w7L_V)pA#2d4Yro@O2+ADw|RA2Hld>aG^_%<y?Z*RfdyVSep-L>l2MQ1p6
z!z~|#a(NJgAq);-KuHNiwVLgelu(j#oqETy!Wjr|5FN~+6Coq9OoP`zP%c1lh5Q@W
zyWZrz{7jkiSp7?F=mwVwh%0^X_rKS_fns^P8=zqdo#!$EamD&R{~o`AV!7L94K7*V
z;ji;$0^&;B`+@fY8z`22thFyMy%oO}FB1@#Q@_dF$ZVphPYGueg}>@!T(29qAgi7n
zM`T$e#KmR=6hMb_KwH;Q;-Ul6K!b}wdjtD#6?w^qw6>WA5?M-TH;HV8&h`SG?F2g8
zZbk?KF>aba!Bwbme%wvzZyv7b7R^5zNhy(d-3Ctoy9;l}VIfLOgbR|a07oq(Cxk>I
zq*oMXCnZ@Dq)2p9h$o}elY!GEsFRW~bWDINRE}K~W|OJ7NIRR1T#$rBQiw#OlA;J|
zvf4@!pzD~b2r{xrLQ)pQ<ZMEpK|C%1x09Nd5>Ot2@vwUZoGl@u)Xhb@7?oyJq2jy3
z)M79zWfBJ$&Puc^MN+ZNSTdof$7H-g9_-xKShB5@ln#!Kdj?@J-Y(P}{saUh;WO5s
zy45N`7OQ3q;4pX`X=n>1Wwks5fU}ZUHIAYMXzMCLPpN#E1>A-}dQyO911RgrIDv}f
zZdT?}p%l|chbs!Js-vn10hIunM<obwsD=AhK2+!GqJDx_&GmywJS9CX%Sjm=(6}_A
z0<))oy=V&4B{R}860ej_llOphA7iKcsCaC^TsH2xD&=++n@&OS<z-S15WZ#Az5Pxz
zFh?ghENn{?98Ss{?F_9j*9VaA>MrdJE)QRS4CS6ub4%9#nZrYQx)R?};yY>BT;f|w
zd~1mZ!H1b$edRXd?D{QnJ6-w#N3^)byrRXT3ws3w`gNtcXlC~q1uGm>ZFs;eSC_I@
z1pWmx!2z_WEIRlLRY)@r-xuBlbY3&vHQ<5O;j5hm)&Pi!=O87Y!$8D9!T?u6vsY|(
z&{BiKI$eNoBnX%F#h8QyK#Thpqtg1Xp;$ri4r>AICcwm}=bz5?=64ml`wPI+h{e!w
zAvFBK;0KY_t`oQUXAy(?=bxEBnIB%`x7WkPptXkm=_WfR4?xF3kLhI*fFk)33?9Xx
zfeb<XE#uVX!x$Wapq>SZU?v7X$AW)=;L9uI9&5EafI#T%D#8C6|Iur8Rrn8(DF1;u
zI{$$Z@*ia<N=SK>-6$c;QTCvO#75bRlFntIq;nZ4>0Aa%on#A_fmu42fzoltX7#VT
zeOI5Df1+#!8HRUxuLkA=U)Uja53Z*Q$AK@Ua~y~MpW^^s02kB1aUA+8j^mIRl82!g
z1>5(t9B4@Cc|Qw>>>J@)bCv@zt-*4@7esTO1IC-P&pGCtVAd(a0p7QRG9I>!6JuaO
zzKZjxV>HYVGLYGhjKlEyO>1y)jZ}Zo@IY1se0%(=FWSIv*+s|AimftbM&L`PnafpY
z>HhaJBe;(3uumGEn-%}XlpC>9y@CFWS`};V8k0w$AIgsC`|>GF!lLUu^Ig0)?&2*Z
zk795Pf}pF;p8o;nB8#pur{t5EcoBn_FnAfW+2;=_xT_J(>5p#q(Xr7Pj>>syWH|mF
zDk$BIxlaiO^ey`}`@F|sIC8__Ko;Bj3T=HrdjQ9gW8ogo$qRe(gG=nSN0)||o3B5U
zjr<;LN0C2V;1A#O-x~RVUE@b}cBFy)SZ0<7*Z2cP{^0`u@XFa+yZ&zAZwA)*=e{cf
zWH_%DcN{G2I0)=Zkv~%4kLUylUUO^wiTYb@3tsp?M}pAZ`zmaeEu2RTGQOJgxX+!Y
zE~!p&+_xc-;#kElU&8=D$ZSzM8f<E`5fo4#7~;l<QVdwD;i&;EN-=y52@zz{$G$1W
zpvI<wb=XQY04CcG6RGom8|eiZ9b%nRF!W*g;5y&%36v`bAOJ7?J7Ey;heHq4UZBR(
z)x4SSinbX`TZckNLI;6)p;|!%{Z*<t1LZnB(Wn|EE<S@&1%V?t4?KK9*2$H(Ln|G(
zA3Aa$$5Jw9Fyz;94q*&%zv(vfJW3e+E&P2)Y=pJOMu2Fr5g?YE95prqM1ze0QJ)e{
zB<R<f75vo?g~*zN{zfE}NXQRCp4MU{Lldb)6n|zGiEFN!Ox*`<8~#QjwDmU<p(y=<
zU^qD=<FV1&X`PfBiz^}8X_(3~T`at&G>7rK51qC_q)N5bphnH{g#Lx}NjVKw;D#Z}
zFCi#f7>2oLBTVO~#QiDZKOt@ZN_MQ09sfawJ|Tmfw&M)r&z;yL7?)pW3EOhHv&b|T
znC9H!H72mh?q~XP2Q~;q8y3QDD`Upy8D^02=iQqGqVgpCh_kWPLA@13wADQpB&y;6
E23I47`~Uy|

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/kda.cpython-312.pyc b/model_executor/layers/__pycache__/kda.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..10233ae144913582a30defd7cb028cc6f9fb0ce4
GIT binary patch
literal 16543
zcmd5jTWlNGl{0(}-w#oINR&*yMcbk+zwOvc96Nr*k=$5Go8>xSY0XF`#fLPc6kDZI
zx9e^xq=lW`E-a&4Sozu5wSg!fi=@~Eng9jjML)`kydW`aBVIK7kw0bSAjN)k_nbR3
ze3^>vCdKxOy7%03?>+Z@@44rk`K`rbq`)OKZ^RM@DC+kZQJh@{)_$p?s4Empv2=n8
zW2j2dNmW=yBdktPNp)CFU`;}k)P}VL)+TgGeOOOmU4ls(!iJ<VY)qQMCW6x^%t=ew
zlC*}cNn6-Pa7@CUbc7vAXV^*NhD1}+6?PHWm}pMA!)^kb5}u?t>?N={;Y+rJTL^4P
zv?l#wKfqSjmS{`1huf1I!W)u-a3I+c?jU%3qBGeQ?n-utyOTZP9)fcudXs(OJ_0)v
z{mEcBnA{lNNa9V2P07vS&B=lA0ExR2q2!kE7MfB~oQvCfla@v)Jjgb4RGd`?uM)EE
zb?}~b@ZNRszIE^|>)>0t?W~`r$L(y}MNN3eUvT@{p?y1HJX_ce+zz&7g64MK3f$C4
zV~8VtlwvzBQfw!ujwdQ3t3X_zk~h5jJRR)%3=>9zv}oYDD9=Yz6C6ZTsTBD3gV`*X
z%Er>EXQN}2T#5ypql_EovQajgjRw`C=}>g+EO#iK8jnqgrr|WpCFF=_g3Ct6W_TXx
zL}n9-WMquwf<ihrHXCC(u^qEOJ()BgNn+8+RFsb<5&%GRCdKac(_c&T2{w|6&2d4M
zXg!kVUyJfA)STtcWyK~eH!k6@RzyMvOtDlf8%d-mCO96V&6%@MhGQeIaj}WBm=I-2
zf;|JpWn?s)<uj1k$HsVWEF0muiC8Af@zAqOHl2*5ry$XF^zg_-gYy|K`JhI09GS^*
z?5W|=ku;w?8qIR7Xc#*?lbVc7vQg1Gj;RPnCLm30lHyR8JaUi%Bj!4kPRt}z-;#&t
zg;)xvOthckrV_C+q$y(@r_!(0W`gD!hNH<d(PyI>94jA*jAo(G;q3V-?oc!_Hj{{E
z(|mQ(=-Fs>5|p!#MQ1Y61P<ryAR8G^iLP4A%oHpMTtUtkXQHrl=AyWKU`lXhSf(RW
zd^#S<V7(d9GFcm)t%<5821U&oSYx7PEX{Kfn1fU#J(CrUiRgJ4`cyQ@i8`Lk&hV)*
zy|TO^WZ+*7|7&=@T%oe^p+iwOA&zcdpVP<Tn67s@oexu)923{pr%_an%F#JhPMy=_
zw72M+Iw=QDou`7Tk)V$61O(rOUN?F@==Gx42VPLkTOkk~sWgmTaw?YKBBUD`kx|xY
z(D2nX_<p2dt6R~cCc`DhGX_WtDDHor+mcOAZJCNq4P>J{Y=ePwGrRZhncU57NyN@<
znL3|6n@(-P-MB^CaNIdqX)yU)q&97V<rbPc4-*6n62@IR1Nf~_$42<iJPqCj>VcE$
z+qcsD)P<8JQ%ljbSukzB9u`b{E*vgtm>&=SV7TP&l7A*k$>IQb)k0~VUr>6jZVgCK
zHPeO&GHrO2UBO|cM{ZC-{bLMD2B%-{Jii5C(OJ{-$ar*;<99#;ww&a?K&?6{t%)B5
z1nC&;QGI$!T2%;)&!omgb8?0()d-AYMl>LqNGv&(7=uz}=a8YbPFPbvhNg2=m}aT4
zic_;Rrx{nVs*4(B?S-{~)3It?X^^6U!(0y-hBL%nWr}6s>tn|?a!p#O$wX>mI5Vpo
zS0NtieI#6_pa%*T1Eu`Ib!mXoM))^zR+gEANnp*KO@=I-U52cjgSBxQmS&l8d!8Dn
zS^Gsx*vUGecep|79P3;M-?R=M=`ySfTIYgmyD?4oI(W}Ic<(xR-#Yk~b@13WE87Zf
zYtB>W=&*Z~3bu*P6R~9MFqg<i%l8EzgkcyfA64?0RPP5Gjv3LOAZLEnrrZu$Z_s=Q
zf(#Z9NE^VI#M3^4XZu{+!_|c<$uD6^Jnt@0_iY{0hQMe|WAL;jjd211>@5v!EtRC_
zX&O#N=#zSc$1HH}H&x$)3frI(yYRFL%?^gj$4Tgn#8YHK6Ksl{?))=ILPh#Q;0)3X
z$UU;-bxtk;x!_z^gMQU#dIczCOyFIh?lC9s+d2zOC+TBN_wdLe-TMsySKz3RLs;*A
zU<N$4sLow5Wy{wEODjC?59w_AQi|i1ROcGk5hpK<+N_Ohjhkz8VeF>dI+zgE$Xrl5
z+u^E)yEhO`v4Jt<(qslKkObBxaE1#2n-kQ-Nk=#@DYIy<&M6wd9Zk$|&+&Yk=i8tf
z(T1lhxx^zZt}sz61rBLdNrefDhj&uVy0qa0RTZ7<TxSxi^1O;Pz5^Z{+B(W?FPi*<
z$zL#aU)L1-_X_=c3;hT0I{k&VV=K<%1@rN{w*I1Rk6_zVg1qK7!Q56fcM0aMrI(65
zyM&%y#hznA&#^VN%5GexR0bni522a`fwwzZ5ElWc<{=s_0GJ?LKy?nVGLKN50NBQh
zp~1uhmm$+76AGKlj(k@H?y?jx$As<G@$EpqdPabsg&EOjr$`3TkeW$G&T>%}I1LOU
zY%B?^C(=OzUo}C5(jz8_<Qa!1WRN=mra(v8gXPh`^uodmi`~~kS3}pk-x;_uaJ&0=
zp??cKs2%wc(I9bjG4`BjIvZnIE+w_yJdHf0ykPm~paT9d_SVcNGm#W9(h+VdBkHDj
zZaj8wta@CL9l~9|b_<|?pkW3fBDn?F#y^D(tK7&mRoT7@E=NUh_KC|PE#j(D%Nrgz
zLMl?8=bRQ|<!uj~A{8mODyM~mqDi4ueNg1Ijqd(=L(agGTN<cfUx))7;T-^1J^+9(
zr6QJc4n4$>*(46un^%D=VdJ$q2mN3*ll?H6s^=*<z&0o)o`i~W2th0CRps3ZTnQUf
zorAHRH$p$P$e{ogg}<V*JxW<9S?;}pgS<vo2mHDI=M<~|h3Xb_Q=TQDQ6Bdvpkb(^
zQRdH{fQGS-Mzhk|?0^ET(-$h<V8qJ(Gu6@cDAa1&)__9Q7@6y6l-EfXc?#m<I~1rA
zW_K%ae2)TE!m2f6gr1dmMkR-`KC-(MTzsDbRl-{qC7*Jk!YtxZM_d;9c;cXr{R&(O
zS!?#75@R(Ag&3{SggyVLwbXFml*ivzH+CILZ8dZ|6>KHM@&D?cll5x{`i`pgTc-34
z(RbF-?^0U$4bg9^qu;I2hxx)Iyw1g+uR}mI{z3!X$%k>QOPSxtryc24=s=kx3S0@l
zvGzPB?V9!+tF%LbzOnW^ChbalzRp>|x>y&CZ$RlqC1hP+y$4|T%V&3GZX<9nNv>x1
ze@nqu!kXRRtWc=g{a^3&b=U2Fe7g}>vwOb!^!3!y*jT24oGx)Nc8zH0Snn<0O_@J|
zQ*pDBKl|4Tl*6;P!3|kHzgp^Q$LAw)*@yxu+)n(v3Z@dyn{xV`DSoDcQJ`6hw^ngE
zt$3RKLZ!^X4}nu@TrQ`_V;qD&{*k%1>bFSwodS|W6c@8R&Nz<;0eNzY?#$UVPng6S
z&iKfjJ|u}7L2#-$6N_f}m$3|vE+k2!M*t+D<D4Nh9*Gk9BLUA4Fi7*bVMI%fY#0hj
z$&hnemV^eiqA`}5nt`_sFx8?7<djN;4<iXP%Cv!Nm0m@p5e8@k^5KIl5So=i9=VLq
z@Er%piAs|uB2t~AJ`<ZrreiD!W7Ww08lz*`*esE<Lc`Kh7u<(uWRY-yu+{+-mhKA#
zw~5-!%oN9i&@n>9;1M2I2|t1!@|fh^fKqq<B}Cy-E%DuWkcrNU^dY5i<(1hO#mv|<
z9^W#eEs-7rNpbo4!M}(}$kT~BX<|g3Gz+3mngqTD6B%V95Ry90YcRopBJCsxVs}vs
zvdXcuqLxceWzUQHaS+;Pw{H{mY&Jq>8d*jjxld6i4;!P*l*lNfE;7oXi#ln7MGfjR
zM8ixfGd;s`Fp=7Ws3{N`WhM}k+k~u~s7sS~2;VA4P`u6KgF$pkVqP*a@>s!A1!-bz
zOcD4ZnkXeKlE{M$AQ^YEQlA4d(hPhXAsks4G0<>;DAI^8a43#absJU+S_zP|OHaDj
zF{dFC8B0VnnMfpqPXk#xN`ebSM8vazo@;IJ{8rXR5;A0t!`S};-gR!uU|rA)jQ0-H
za@X_JiswLH^Aq!3&(0OkZiGs$y?M<Y##{3DW9Tb~CQre%fjrOmuQ(4B%m+%%9mVDy
zLi3KivE=Ps+9!BJK)_P+buFC`d|LswmVBKgaQh)Jm26FyUSD{9N%OY(Ewf<Tyi9*=
z8!Rw`1>4}=4LwWj+o`uw%j|oJcM~fc4q@f~`z`I)2Cfdkqce0PB(&_w+kkqZd%xhr
zR$D)HZzQ4tzhL&4%&jGdyX5OBx&4=4S^Q3+spo-7=P_c%53H1D(>I;dPWggWH0_s$
z7lx}_@K=SVK4^gtTVQzrxd$LO$yD3Y+I&{Z+j1rMX6~-pap}auiGS2Bet%i>p7~w#
ziub^8UjFFS4`01w9tDwy7s;9*FqFZ!=(^^=>c4Kgvv=h7^vd2B3w@{VFr&3&W4|=A
zFjC#R+VLT+^R!-h{ms`)-ag28*Vlfn?P{Aemh~-!o_zCpSKU-k@a^HZhKt>Mgzi1X
z?gK*ifnxVjq5J4<dZqjMyylW+!BS-W0^`5Kbd<XL|4f-bZT4I_{pM+T0v74T!9}*%
zzD;P~wtVnkU;g#0zk(S!0W;vn88CvJgv>z8)t067o!u|oesN{@$wJS!?l3QY>g|90
z^<jPN_2EIPxQ-Tc?;Ah_BQJ3sg$b>d8rR(ncB*~nO53ht+i{`oc!6mtnH+`YzGCx`
z06)_ZZt)E}m&cc1DYOl(IG-+<pDyix2J#h|L4g@u?){kAOC)WgMUnAHYCywOIupaw
z3q(26y*Y;Gz2fjRC8D_7;Dc<Ij@L`cAwxx+G7mzRxXc_WBrwdCC9^Dzm(V<jY8tBf
z>htL!Us<G6q4*Fz5WB>&t#z(GU%V{Jsbnm(T6j{|IVBC$l2qJQmk3e7mIWl0)cRT#
z22Ad|p~9l&3_t;yjyea}M$Bi!XYnnSBB%tR6%)tHu+CM@50f)IA_ukz<;-;suw{W%
zCFv18HD=3Cb9j2I8~5s#Mq#JtP1!DmcD!4GDj};yp<W}kRb$HI8d$I8hf9SHV9N}D
z1$#?ZZihKre)7l541OhNyv(py;RY+P0)aqM2dp~GN)ELb+Z22yyeY43P~=eYofW(S
zK{=BmHkmh9ji#B^SMX4Fw^E`K=FGM0E~f??D5@3Ne5R~0(g8;W-1(d<6bc3U&j#3F
zU|=YK5rA*dBFz$>81zDf7uT`eY;261a}EYlm;*DXq;f$&D8o^veHNO)$Iy$T$Ac$o
z36scw7ZC~cCeibtcOE^$$4(=34!!T8H-{dcC434zQ46Hg8GZs0*cSc`#H!Q4g=<i~
zMfAuL2b{y?dGLZVZ+8(9KSJ+s!4r+h7H897Q<D+tX_1~3=~>BI0OeAmWund$VjHm{
zc!-meRbzVDCSb0m0XHY7{SoM9ehx<`C{fImyQ|pTCp7n6r&pRc0v`r918@zCmKAgF
z(zIX>=IO^n-3Qj}dkf!NJg{O5Uhe?jtZ3UN*tV_Mb`)*<1>61=+fZHuy8lbBF1)(9
z<Jy6%2d=lRwC;YN7FzeMSe|<SpkNuwtL|D_7oP?8&iIz``r&tmZw!CX{n6$RH{Y?G
z%&TPPZ!x-J3m_@mrPB+i7dzgF<W={*{%e-27GMCAZzY$9S9+iQU{L6NZpC}#gK5Eg
zJa4&cabKP<^zQ#a^O5C4%N@%|UiGQB?V9PTsbsNUHZC46`nL-Ht;^l-4ZJ&0Fh5gr
zZYVl?1ZPjFDNt<c6MzxZYk(26JTL<Hd&#h1xMW?h7MX5==`NWq%Fha8RWkeJ5qn@`
z3`Q_6@R5p^hL^Xkcy~ctyd6seg+Xjx-coXTubg=E#FAyj6}mnxxCZmOh3N%@q<qDV
zzpf!kjmZRF7q~pvrWncc;PGu;(8}ckeZETfkz=wtphcXru_Zk~j#+4^wIbIjQ_-FP
z1$_B6q|itjK`slcQlb)q^q-02>#fd#)Paek0=mx4o1uM;t}uP0D~z<-k^>8koVkUX
z2b&%l0^1%L0vjJ00$U#$(&j9ufi0Q0&fDhg^NyS~j)dwQ>cy3@o44j{kIZAs*&mt5
z4!y&dah;3%>ktrabU{8r>GD-sq0Fk4Bm8U9DNEtY<KqO1<x8$o;}i7jaZ5j{UtfpL
z!~JT4el=hno}gckTl!J``Z{zT?w1R8UvFie6o^$%9)<(!6JTi??FcoiEzdaYwMXWG
zUHHg6>TFP{9dw_#jvDQc1`HO+KdrzFnLs|u+|u8a+4V=(*IZSfDu?siXvH+H&-N$O
z=dP+xopY_To*LI@{}bx-q<)Yy!8zCPbcHk0Tcxd}VFaIS#JwzY%b>8C^UYPXR5{xd
zj%F<_cNHyl&i;fWRZGj0MZ-bjh>e=@B9m**xpSUzwX%Ls!(BVyJnx?OeC1Af3f7mw
zMv;5Q2Tu-1&WEyX2u+BKH(=AtkGz(OzD24Xtxa<+EW<K6<1Lf2Vo$4}C9U)RoFAzo
z^;BQB%)D2XbYM9$v%5&wYCKkp3~mcZ<ZqcDqTI@o+wey!$x<)}Hj8)@VjSxO7Tz-Q
z+5dw3?2q6PQ9O^j1H!B$AD);2qu4Wm5ltYd1ZxxNweL6^%@Emh41~i32ll<hE-98`
zfw9ksHjusY=P?b$`XEFW84&ssOY@h&jFwOY;i^IrXi3E^v(ZEhjgKQJ#I3RBL0uAB
z0Icl*k642MA1t{Xhz=I$MpixWs72li9I<bkbIPv_d~nEb4}Jks;bB6a2>5^ip*($#
z2y-RVHA&JcGW!!?jmJiZ<^~!t=!!Tvw4X@KGeZDK*%zUi8Ep6;E>J&<EzyOp-S6-C
z^?_d<_;>el!YhKw@ZUi)|M%$q3_OvZAkPTVg5v$k5Ibds#CR-K9(E7doJXc7BZ+Oq
zlqQyv4U0tM*i0nDO()=S@=yi*KVemP4e)QHcLTj&f+spMnWSvlB~MAvFBv^sh}E7l
ziJ&OS#8NQ3sWA=&?y<3~^kl+*^1nbz-V{o*r?|05{Yq#nr;wGS%)R{e09aSUs|xfX
zGtfu*am7r6kRO+qXq}DmB!x>&fDxr=$bz0D1F|QM&tTQFShZ$0#=XY>1mjusW)Nvc
zvc$+Jk;w2UgCIH`K7fhpWONEf3?%uniJA0FhDWIhkG2$|3CpqE7+BV2f^CwFA1{t|
znR|W!Q*WV%1Hr$8-ZFacf+yOb792NFc43b)V5V2u2GcdM$(q=#XsdimKt@iqO8OA_
z1BZ-gm9!$2xTG6V;`Pg{N$M7=AZC?W5E*<QN5G1UEDh0JW3~@^5@}LJ7pNuh6AI<q
z2GXDm3Vgm>t)-}kC8Y(*LK-VA<acg2?wPkWlG4ISwT4z&wt)D5)4t-SW5T9mdCPs1
zw_pm~H#<MI`4$Imx$f9P1twImg-Tx3B}~3GDR{TRdks_X1P|P?4HcN7f^Dee4;KAT
z3I3-Fpxo%%TI@P5bb%N&Q0m`V>>m~SM+;0(O&(bXVJr3@5#ZNyG;h1_?J4x`DfI0r
zc=y69@T+1LTfyF0aC8<dUE~p5aP=0NdkeO{yypIqmj&if-hVl_bb9&e`<||%XF%`_
zTtBnix#HQGH<um*b040kAgC|;1_a+g(YH<TZNv8~h=+^jfM5<3%{_v-XDPa3?w3sW
ziW`T7jYGwahlGuXJ~+6t@d${rTa0-tSY$#+{{l&weMM7`VCuO}e{2epiP<jrw=W-D
zo?h|q%@02g=B_<ZvbUA&?IpYGisem9(cUT8J4>w{pxi2TZZEYzRSN7W`FbBT86DOy
zU6jqc5JSQL8|l?%%3=kbnWN+Xi@@jDf>kfo^$cCI4_+Q9ItK;k;Hp~HWi6ODfcnAF
zLz?Dq)V;1<rS?t`WH_w(gYcQhpChY_YI6UF`S|UFx2FrIMsM$h<<w+c(C6v=U_QFa
zP_@(N*-_Yaw6OE2;5n8*R_YJtPc9yV^;z<7Dr`P3_@6KOUl#l?ulT={9|ql)qow3*
zQhu&dv#->?snpe1>fc;y-A*R!bG_PPE!lfZ_U_ddYUmW5KUwha{n)$@Bt4F9r6|yl
zN)Jdy3p+-alf_*pg<U71&BCtHLhDPV&Zi%u=%uzE0Rft&VCyK@JJ2_Ge6Ch)1xeE7
zXu-Fs(6R}A_ok1T&C)%t9T^#!`26he^Z)#ZPlrS*=s^uVD(xc?(HOzc;%4BBp@?XX
zz?~RP$SDkHenFcLDsXis%kx8cNodd@n|~HTZ5FHmz*ZPwNnZIpV%4!!mOq6!d_M9h
z{^db@MDagGj|ETEy+ppo<F6nFPh8O=Ym>*gL?RLayNJI5EcxEx8R=Z!hgs1Z#e{!>
zL--FDsgl;Rs-m@>i--Q3f?!Qe>8u2?s#9ybmbwdldxg$@YZOFQje4!|zQLNGA@aoM
zuAR7g;(GHttv6bix%VdDoh;Z63WjIbw2*7nsg<){9$oCZ{K~@jm$XY`*S9a7eap7o
zyqtOe(DJ!=H+;}@TYY=<HuK?@g6&1YaB58pr9fG@eRpZo7W}n$mfYUY9Vb=VgY^9-
z_o|jaaGbe)t9l7$C{OVE4#B-;)gU2^l&5p)u;A`rHAx6_8DWtSpfUEZ+9cRcIb5q!
z1*<N~X#JvD!k^J}Yq#C^_)%ZGss$J-b@{IBe{=t;9%Hb8-B-+SnpX`NGeXHV6GAW0
zr&Z8%r65M2q_>UG(UT~nL=7Zrq%2Of!Cp0ysF||4E+rNcs}>Rkov~EbMxu78=t~EJ
zk{l9eGq^_*ee1Yb3gp}prwf-W1?&`l&{6)HgGU})4AdekpLj&izybx%j7JfpXd>Bw
zcL4K+ss)J8anVlFSopk>kDZx;ZyJd;2{BF~wko2FWT^WJjz>|b#BEB%rSCg=RG5ha
zq=aNtq<rZXlA_Yro*~)3XC@m11`j2VqOVaIDcynTZjw$AA!3XYkrGin$sa@y`B~94
zo`{BE;6h-p!8aqCu!ltLKzKx*WKu)yVu<~VWJ+QsUs8n1!{$d~(&rWOr#n)0$Tdk{
z0C=PlSXa##nG(Mm!17*VPA`9w33CJNzdQ%zB=`vP=;VR>9TNU6dRx)Mhm)uqCdUxj
z=KOX<<5O1p-iX;Rol!&l?*RwfpURAbzpAEbdX1rI%RS0}k8=GNwdo!;^a*ubppJj3
z($K2UDe%5DQuK55J*w*-b@Cpy>mIfL9(DLjjh0reQQ&=PRx*A88GApWMn9oW+@tpV
zr@?jkl@&w#1>LI7N$W~YUb2VO0N<BkEx=W~3u9pVV7+8sfZc^LBW1E*+PtuN)r2v#
zvJWj7v*P}>A!Mg?#x(~*8x6FnToJ(KiU6*v2xFCsFjlDuW0i_9CRK!xR1rX*dnvkw
n=;eJSX9w_sC2Qad0}RFkds0gq7oFF9SA9#zzo0Ni=HdSU6NU}U

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/layernorm.cpython-312.pyc b/model_executor/layers/__pycache__/layernorm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ba3eaaad36cb7e36a0509f8a58981ac237c64dd1
GIT binary patch
literal 24933
zcmeHvd2n3EnctiH%{{;j4&opl2oMBF93m)*BuI$j^1h&hl&yti&kivU!~lbXZw4d?
z4Q<lV#(<9{U?~M~?Ja^X*9t5tWx6Vk>6BAeQc2cZn@VN~Iv7v56>RJ+ms6Fhp+T)3
z{jtgK>vzn72T-!KRr(`MqNlrGcfUTq_ubup<90hZgsA!Jk-s|1alfRD8oWwk^*s~E
z&2eF_mkS%h#;Bp!z<!Oxre2dlE;A3C`iur{*wSldC8nrtnD6CT+8nhHJ9-@~ZHYRE
zUA?Yhcdwh}tx?agx7UlbO*9M&>Z^0VVSb%*yI2x-=s)Y{!_GI&y`^?8+_G-JF8#I}
zzR%6x>DO<mU)pcngvs=~!k#xRy@7Q{v)(Md`n`rXn!O|J!|cm2`|aTpu{>OgKH76D
zs;0tzvAo|J4q#lB;j(q!Q@&1l#X9Ac>y&T$1S?mC*=#a$qGRxBb?mv{aP_+eIcMaK
zap9Ubxp1xMcoz^$;a&NM>#bh5{pN!9b!ac>w69sWeSJauEok4M)4q1y_KgMYx1xQM
zPW#PlcH8i@Su_nkr%WsFN1bu6aK+fNW3uMZcq~3TER2jw!=Y$oG8B)DjtJ4v6;X<{
z|AyN2v=}lTX|!)R7>dM2DL6V7LkTapdtt1_n5mS8V?pX5cs>;G8wf^5E`_8>Xe6Gg
zxD<^J2P3iK2k5}pH!exyNIW<e4aNJ>IAfT|STBo_3j^_tPwt>k42om1NOW{0W0l1C
zxHQtI>=&Dm6*1*kzl8{Rhj0!zY`6+s6SuG$h}4~x+;N*)mf#YGgi&3Ivs~P+J{e?K
zPR+@`2~J)4tLB7h&|UbHatX82qgj4tK*?F|j;Tj7q5zY12K(4Dv&FMz%(N_$2hSv$
zgG7VPSmL8n-$2G84v)pJ1f!85F~h41+hUP;sz~FMXowjTwgJ(2JVuQL3Ll>8h!2l-
zj77%U;vwmR7;l>x-@SLw&~C9K8adxFb|pSAI?_R}?id~oi_xGsA@+^qtsU}q%RjV_
z?PFJ@QhF6d^cOpg=o<Hdm9sSe%C`A|O?c?twrE&<Ho5E2lJ{_uKm5?)U3OHZ998o>
zmmIa%4yDbuub#esI?X%Nygki((tPD(yTxM7x;U5j+R0V)$6<bAED|0MMFC(+Dj156
z4TSo%?L#%%Hnz=gB9XVv7Ts+wE8ONuv`H8fCUvuEqo}Okc$Q082DObxkrL#sOqdep
zca>4Rj$ORUT{X}XY9|p0U`vSZ74Kqc|9DIc2Sed-P}@AKym=K=UE4valCpk8F@gcM
zgMw5>g;i?QKu`M+Vd*{jOP_YRXZY#U^G(SuovS9J&#~fkO-)Si&svPW$}DHJS7xo8
zzkIp0IaS)sHozzEL7FdLbz1$_>!+?Ayf%^ba4z@Mz|_8^xm+s8dot$pkx;Bp0b>;8
zt$sf;d8=>EU;ROvLQ%;3Y%B@0?n+zKwN_UeAC5(DeSPR#DnXR7kBvsJFl5uBEGt{l
zYN|jV23t`nfYh30t)<5lb<xwkh*XHyf!#CL&*Z_bi@?`u1^8mc0KW2Kc`ird13_)W
zGnR1t%9xn30|I1RS%9qwgc%tBYb53XloJMN3npxcBQJ+RLKj6L?`i(FD7E^Hm$<9O
zgi$I@aFQ>sZNng;i=qI4Hx|^<!F8wuoD_GdO@SM=TEJ+Ao)()#n~|~gM@K{PozG_Y
z^GZsh$z}X1)OUu1Y<ch{$hd@{`i@E3j323vA^}m18Ugkh;Ag7Bk=Pg`A&lOjD@IlN
z$4C04ZK!yXTJ$2i#sR)ds(#CvO04tZL*9MEJ?*9+&$K6NF*RGWoT<)w?ZhJo$Cu20
z@u9bN*}F64-I?Tf{=(*C*`}1YDakiIvT}U+LvMYOuYc(DUwc8`SzBaeY&;&km{Af#
z8D6GLC{j~H8Jj|!3a}M{BirVAB=WwO0&Mk!@5P!UU%E978bPwHgTt%|oBC}5k12!?
zz=m>t43_)Coazn+FAlZvQZuF@wNSL3q8${qQbedL!-E3JE2XA}Vg!0JI#c#lBBqi>
zUqB-E0wM*WJ@f{ay>%&X-GXh&+kEYKah|Bi3)f#r^S+tp`C|*8UmUo{zrXFV$%rq}
z%DDnFuO^+fNpmgRHTH%+bgl&zj90-GabLx5h#W)`uGbhg^qRo-`oc!h95&(4ELy^r
zu(h9`;`$9?+nerQD;Rv+AT3K#086c3?pUYXxlXx7T&E}f`ig+y2)n@MIzF?bb7OSQ
z&+O<t7@aF@5#9a9uor316gOe$^`7NgN;3AB&z$W6_w&-J$?rM{fL|URjSFYQ(1>vM
z;&@0B1$vrelEJhJFO7@Rm5x*56(KH;#74n0J6O|0qr><t#8?;0QD+y0w&#S)!HdFn
zBs+xIMJe8V<h6@m?EHeTLjWRa(P|FKHHT1hC|7f+sAk4J5DACHkzgz`DFQ7OWQQ^)
zbSXIjx;+KdoG=r^PQ=jt3&R|jBQMinV!sKFM`f6aG$pv8Mv}lqaY1U!0{9~?s1c+q
zoU{eSEtZTWHa;dw89oRpAQBG-rClhOo~DQh32K;QVzfW6_!$&u?7?7PG!%;kgBm}3
zO=gDn;PGUswl(c)$CpqZBjoh^YusZOXZK9oQhenDzG|g*`;-~KY4ulVm@@yIS8#+5
zIx9fm8ngMAm@25WVGyq<4q*ey>IqJdUJvcYRGV`MJd9=2tM_d#Y}%;zZ*zZPepiuL
zzXEAx!*OVIKR41f<G}Xn5fe6!4SFvche40Cz~~6+7X>zgt#JZE7Qz<HSEn9EVAbzo
z&AWAEuQ-WOEa)L?bp@|l@P<FUwH0KR=v`3=+tmICiE%FqkVpCV?C&Zc&{bQ)`icAC
z6PCEDZQ}-sV=oFs_6JF_C<>Fvt7DzSM}F0wus)$D{v-C}NZ1o5rB6q~%u*=RTW$UQ
zSI3ob=(f>?Ewv3XGcAsu-~3;M$>!HIH1P%D$i$e~7Z<~V!pcFX5sM4q$gt2YeCTKu
z&X3213&8Iiwi?QBHTg#y_8%Hi-!&u*gf59fEHo?%OeDy??L)J0DJJ}eVB*{zW5$H>
zWNbsCIEF-v8`yIo1oTNbGvoMNC^{}4k)%;c#-GGAXYA)7Vz9!D5u$q@FTSfYV;UR1
zoG}lBVr486Q5YHLIwcZz^f<YUapEHWhB6i?TtGzF4|3q@C`Ug-G5Uasf+;~})jgno
zmqSuGI0B8)C2_J+Tl)6GCtpG9*c~7;@azzt{5QI%yXQ+&&YA`Dve20lI`2C>AC}gn
zOS|qpy}a*CYTub;S5KBRykMwKS8uu1eY1P9G*#W2tZK`e3?&__CX?R-?%wUm^8Ylw
z9lLer=9&A>mWQR)S);+Pj$*!JF|c^y`@?sJ7lSmC=kiA4;5=nFdZ&B8W4YzN>0WX-
zO&QbfKvBtxuXN5jYn{3HmVM4M>sjbrjL&$Md{0kV((67!o3~$?du{f$g|fxKa?5im
z{I7p*sq8??cYw9q;OUC5Y@Sc~1gfW|R=j~56Vns(Ha1Rg)1u}3{2l&o#gA%#P`lK8
zAn84j<PR`rTAwJskA3|AM3Ljx5GEb6rccs7ZK4?0h#ILhNoxhPt&v20drD9>EI^mG
z9%(;HCwJwevqP^OJ}5x;9_ZQ-b4uMGqh%rXJd*#qHP|^Hd&WoCN1zg^v>}!r!jH^E
z9;OsyFqu~22xXbTDf64_;y#VhRFn@c6>s&8heMO)Yw;PCzk}Xm|A^>G*zCyr;pL;R
zrjEXvJo3lDX1$*boBiRveSB>8nCE=eX_ue<52RiA?^|}&r(E^W9Qqtt&T4n8MG>Sb
zWrD@mkSJ7pfOn#&MFHRn5kik6RaLcDiR;p9X=FgI!}Dq_!E4EijyxSa9~l!Tm;&CM
z@sJk0J*bvQpTpo}EfoVAeqErE)r+LTkX}TzR@aens$euRHa=Ol7K%{(AE~9L1+nj1
z@%iUmvo3YP)z!9{OB_>{tb;2FZ1C8{`O0R*sYH^mmUl&w8Ssug<t<H+b_FZW9u!94
zz&DaoxIs<O%e6xr^IzD2PAoln#J{;fDD9r~wF>zqL){-*TS?mOo;0=!Ev7s%kQV-q
zfh~NDrl5S44sjwbg@TeeCQSx%tC=hP@2DFiq;QQ}@iZ;Om$&UrZQGk{>cUsIuQpv<
zzg*jqs_jVDJcWXt{<Obh+25S<Hz!M57E7TocZ07mD-eCh@au2>?;kGw?myjquEj?(
z><C!6U@+qd24OK7k5bwd3_=+YRi4;_!SHAwicJxiyDUr<Dv`)4b7t0aOe+A}&iGhV
zlwP6-XDNCWQN|RDOVaC<ax3C*pBRk>gIETpqNZhdUY3G8sS!oP_=~-WC%=D_dt|m+
z_-r{>UiHZCur#hzRAnvrg=Va>I%}g8&w2b=dIl(Rcs_7as<OfIykVuJe6D7;CTpP#
z8kAPBtc_)P&R;p#I@_AHv#dkSI$74mIlNQjHxko{`B!eee)ILDw<TrYzUpQVPa0}0
z4y|*f^ZKS-u4~HWdZyfZ9n-V@0ZWb6Ez)`2QZCmm<#OFpZoO{lS*yk3m_PJ84nMLA
zk*zaXy!!B`1y#6PT?C3-t4FkR^e<eI(<DNpXq<#9A#4?`Fy-s(3*{Po*x2u4T1Pvy
zj&{+Z^i~O{1)H9T7j{BdNjgi{I{muWX(zwWv*A;(HgeK_>Ij%3y;ZMVw^Y_y(n|FE
z;A~(~bxXZ&tk<S>XSnegKkboO!zFNS@UT6s`UA&Qiaq(X$Hj;J7?<}mwNm5+;`>aE
zs0<@2!P=KXqgxJ*uAgai10YP*8Jj{dCT}rSE(yj^yfRfT8J09vZjsVfm|z-M=wByt
z`qzn^{#Cd<AVM2_S%}1h_<$%x#gH@tO@nMAYIl&J{Ib|DN&<1R@%UJ*tD_?%O++rW
zk4hIhLg!;0JNNE<s{N_mPd~ex)$YkS^T?#cRH9xI$@5Axj)71tD8EBCppjtSm(K=i
zOxS+`fhf}MLY?!mw7Z5Os7fVcm>Xe?T29xSuuK?Y0a$-E#onN5XVDO5PKyjC4iZU_
z)T%7xwbHSzfGM=TXHZpUXh+sG7WAbWsWGnNW_@)SH%Q35D5%P#{Ql#l(Pd$f43$Me
z#aq(8I2n*x7$i$(QBdn$wZ-ezM_{eMjJ}uWfe<81HVb*R%xh|CBfr93AvOza0ZBMV
zr6$DZTKp0;&790^L@7laRHj_>oMCo>(MzHvMZ%)Yj+DSDBp4R^L*r5WlCfGEp+@G>
z5i!PG6Een;k&OMtkOamD&OQ?D8;qc_AQ@z33vVgq6w9nQ5;`9h!^}9VI0?~*1)KOt
zU#5Z?akac=4sNl_>@^!Sfx1LY4I2rYV8*4`T4i&3ne28{{7S|l5qKzSDIwop;8Q+)
z&06rkP%-v5h{#&t%eNL(H<7iVGEG*32Yl^Hpkd*S`+?5s!}q*d6K8in;2Vgcs=Z&a
z_j{IQVRuT{y(H|Na;2*pr_A5*J}j@E8=M_nsJ?spLHR+HIMYt=jRRjh@UW`pR_o2y
zh4?#f+<s%JYS+}^Z=Cv-vwGRtka9LWaBh9r*ty(zB-MCisqt9SRsV3y{&Zbqx_nEz
zs^hWE+~Aoy{J>TB*uk|PHKgkr7WXF)y$ZW$E6RWFYR-B&SCh=Kkmf<&ddH{~xu9$-
zEsVq*PA($Vr+t3NP?||<4}m10%;5&{TO8tw)|%7h{nZcXD%>@$m&4F(A^kFPx_!a<
zMtK9Y@VXLTnE5^?j7&MQIp>W93yG2BjE!0qsbZ|xAXQ$qjWj|TVjaRPq>{Y;ED0;?
z54{#xSIBqF@TV{f%W=Z`r^bF0VFYOHZG#%3%dJw_s?JGIXB{?%ZSV0a8oLVA8>ba#
zK~Fi8;AN*IwNIu)fAVU=%j`P2(8xM>?7}rjapb{~urR&2{ljNpymF4b%GzWttq>W8
z7%~j6JK4=oyf_}Y6pA8Glu8j?n_Joy1yQx8rO6{hRP($jOuA*IcK_)3NVrRwY}}x3
zC{832+IQ&ymf)Q9JYuMDj^c;mCFvNY4pGFEIman=f})d%fG#u`ml)1S(4#^K&sZjc
zz<e2AMSrn;)S$?cn$9{#^Y7DiJetN@E{6j$7u$*mI-YXQ?YVJy`taLjbG5UzORl;p
zL)z(2I_n^El$6dKpLI<gOjlIS#b@L5CzmR=O&y0P){WiMyJtG5_s#FPkMEpx+ii<O
zi(k0c_A|qOwf(g%`Qpoe?R@`g()S8nw@8_7l$F_AlFpWNpltfcinl6RyX(Gp*TZrl
z9q39|v?a^i7l-eiy4MZObJ<A)RL>QqP=c3~Le?oO|5oVFOOiFa(1zmjU8%s+Q%6=H
z!|k2jJO9#K`<MNVDSzW)>D_Zlf8&zBYl>fSx!<<TIcJ^o$CKN3r)qXD`Szq-doVed
zo2ENcwdAUysg}UMBJC@gIXdgWL}}*LX@3B-^ao}JX7(jrn`Nbg2Hw~jT6u<G{sR*0
zAsDhP>zPGSYDTl70K-u}pQAiQU4o3FAORuixpC@oDI@sc$*!&UQL0`u;3SRGm++Dv
z!0dJWGHfeDBGWh$36+VbIUIuLC1G4RIx(9IgIvPH1&&Tk5wI5g<d1X@f!{eaVJb!+
z9Avhnyj!p_njVfNYErHm+O1>L$I?RMJKpblrw-pZHGOK?Rde4}bN8I8xZ9R;ZCmy7
zq`2c1H3xG&EN~0ZXu^khFWWNw7KiKbF&oU^Xr%%vo>g2&K4xKV+yGBmv(%Qef>Rx|
z*4ae8E!5vY&=Ex&2(Pq!wf86NSJfKA@o)>K1P?dbL0MTtyr7I~{u!l+#bSCwcz+h|
zFI&@$i}`&juB=50W~TVjbXXeBA+7QW+VU&t8(R+lSl_a<DdlWRIy;%Rsww4fTDZ8_
zyyV}NbnRNHs9T69D|Sq|e&MWm=-*0T=brg<w_dyX+H!4Ms<v%0zT9y*)p7X!F9N*;
zWb^`^ZlGrV;C%en8#muruIotEb=(as?>w5?d34DS_T$*vub8%qeZ@Wu?o$B?Q^F*5
zVr%tOx}O4gysO|1B7k~CnPHqy1b`a>3hiDopiH2w#as+1{~V<;8Y?lbvN2WD84pCp
zCjBb!sw$FE*h>IH5C{Nqd>jB_0MwE4cdQF0IUoT^3sf%q6>w|({*F64mbZ7Mws+k-
zyuAOV)c%*2{4Xb6FK+-UHJ=z%m=8bB3y}|h!g&2z_}ddXDGCZUp|7zh=plK4gPuW5
z0T<@xWF&qG@6rUbT(=BtKG~ZToC*B$3i<^<lfy5cM}cg8SQpc*0U&ZjDFh&<PF@Q*
zFf|ZwANvLxd<4Mxd%kmp@iu9fciFWi<=O(EN&70(z5uZb%RT|tWMr0oTT{NR@a6~G
z;^G2j3L}vAmXcCfCR7R~Vl*me&mbbC>e~A-GA+<vFl0k=#QJs$J%&LKorH}lCk;N|
z2*-T`Bne$ALC+^aOQ;SAy}4)7mB;ILv-2BLF9wD0m~ou+5yFKHK6i{5fHfdGkTJw!
zBr&NDucXx1oYvZN#)_}db{xdRYh2n>HUIRjeK+?lSMNww?^v#WDpmc|-IAs1UCFAa
zldfmLeew3GOEcl+@*S!29m%rRq`NJ}x1rqYo8sA5h(Uc3o%NjSX)*Qm^vLAP*z;?Y
zA!HA<lu1D(q(7l3MA3PQ`X~w`g1i6dXjJCG87o7Ui;PQVgP{Nz7!6AzRqm(gIz=y0
z#7r1dlp;HZbb%t8vNS+Z1Q9dgD7K3sDx~Ot(u4C@CuX}a!*)>$+eNx*d%C(V-Prud
zz1iYfDXYv{@C%t6rVAUTc&@5;K7O+*Yo{C--c4C2rO5Ji<BjPz=Fg?P^;v2R2NPI1
zyp($0z*$RCW!sK)b8EV7=Ogb9OI_OOyRjdqBuq%JRMllI_{EFLH)U;<;<>V_xl^;J
zvUbYB?p98AxA}O=*N}BmkxQ|JECf=eTeEH|@^JNy3*p<2EcKuD!8UTEX1ZqHGB4hW
z-i$6D`TprUr<0raq$>BO?0bJ(f=a6<8kv!*|A~QXX?tYz!epY1%z`vVB->x)*U)1O
zZNrXN?Nq55y+M!h2$|!CydIB}g{P=Xl=0lA%~@6#bKSUmC-unse`NDm&gMF&OmXL|
z?1=+rwVK%c%k$=sba8)F^u+F{(o-f&30ZUS!#)oNbQ#YDad;ROMCFVc0lyYhy0Gd3
zRIWAbgguIbxFu{3Tl%fcOk*YIaM1>{4zH(Ngeuws7jgY(j&;f{%vfaBe=4riO22lV
z$;CmZTi;bC+v|kd-uoFDnH5g#mR{FqYD8{~$jyug9#8^b#&wL~MztXP8zhPjNrFEU
zSRKWDaPIOb{0sY`_ZLU{#F)@8;anxz2SVqeh82{aavtG3+hJeWE;R3i1Nh|@_$kKX
zVkj((_Os&4vK@h##Ljl1nQC5cX^)RK=d^r<ZHk|vzTAZ@sxn0@X|j3>P9<q3gRkLH
zk;wowv(RLaljrm#xtyL&Py9}3hgMYD4E4Llj+1nlGZLuo<b0lrn;g}paf+DFqXh(b
zRMuI`gjivda!Tbc)K%G}eBE$a{=RAo;#s21JJEy`#Ev`#@x$`Ux#(>4d(XVH@AkgM
zH<lXqEtT(Qdfo!Ra>g7m@lX@_3nXl9oxgz>L7dX{xTf=^*Y_pN8*5*gVWu8Ekknoj
z)UO@9>;_MX%Nj9b%}tb|^J7<`Y2By=)zRa`!`iOuYDtY@(|cxBH$Xnvd3sP+(a@1i
zz(bryq(TVOgW}Eb9OpI~9ko&G4r>0<x&Cnk3ad^5^Dse6O58qDOiOBI${nVfWPWk7
zep31-YD3|}*dl^BsevNmnxx|touKF>MMn|gFrp3wNK8|C4bRscMkHoxvbq2iRe4Wl
zzy6#6^53HtICmdcUNQIi+0Rco6y>9p3vB*g**mqjYw!EpVWuc4owLo_-m=dhztwZI
zXQ`(3zOQwqtbD$5_Vug{Dohag%1zMP$@-$Np8yl-56nF?`^<dFTYKiZXS)|(z8je7
zUh+RX#e;#@*A0R$yFD}hnM-qt*~D94N|kI)xth>Zp~^5&lMFOYT}<-37k4fWEVd!B
zfy79R<+>_DT?L`8dQg|QCn+(f6lgK9eFn=+OP^!rWu4BODAQ5V>2Hv%r~6m5K|ACP
z0xPQM=@y<QJh9xcE7h>;?z!b>PNtqY`LlyRn^^L`n&e+yyAm2+_y@KUgyrP$QDq(V
zi>DKydfy0J1#mYM@=v-a*m-$Xr4ic^$8_YNi@iBL$y)uY@-aC{S~*PqQN{$R3tm;Q
zD)!;fR0QV4qv!D9F)Yt3MN-D4J&%lBU{XlN25V+09+xsUwHDjidCWpuyPqVpOm5Qs
z;7A4c6WYx|)M4n~RdVCG>E~oM+yiH`jvDS)-tw9F{1+Erc>p#2mTm8}-EL!|aRY<}
zs8kgD9X^@*tz^loO?&;aB6nfu!oZTZBguEjJSrWDlm$2M#=@Fx>AgYK89rK9Fw+&n
zzD4aQnxcvBN5q6M3xu!$Igr_Ga3CYu3%?jO$zGHK-|hLpPN`BRwNzO4z?+=JqO1vN
zCPd*EEwE%HTG=S4x?{-#jGc;}AYuI0iAsuOMAi2&!N6+y<D95L8N8=Jj$vg_lnq#|
za@M2U@{}eRAzj=b6+NN5-`P<~-a1-NSiRNDFD`^|+(cizp!HrWUdWzaV1j*rnCBQg
zu{0k63`GgD=UJXlnIr6YlVj|E34F(FddGv9FIlD9L+)4cVk3_-ou{}IhAyiiU#?HT
zXD@p8Fm{|yXO?DM3jchJR(bM1vEx1YK0E@QHWx<6=>C#WRKR8cQK+2x06cZ@KO`u2
zP{k}-Y!8hOz*LC?jANrxTsgYgCY+7KHytNkh=DJZ035`ew+Y9j(ebf$pT1ByB6*l+
zBd1>xLVY+n!wj*kqn;d}o^f2DKH1UEjE{LxoEO0!h(Us}j5RD?iu8$$H_<ok6EPuX
z9t@Q=Z1|25{wUg}POtR@BIa8m5geDhKSR$nljpyq$G{o-4G}J3`<~&?G{&%q9F%AS
z(GoD1n^Yzd>R2Km#7wckyoZRdmUG-78Pke_N&*es6;q2j^fsn)0*6l{<lm*qT?}p%
zc%XedC|$@qol7NoioY)5EH#BFM)I5dfX<G=n-}24wu@R&fHO0WOvty?kO^HF86Os<
zNFQJjjNJK1G!nm3&>*+9UBZceKvW!nJR-IV;ZYfs2&`o=5kq|g0;^xpgZyGS#z`~4
zxm=0Ciy+Dtew;+kua}?Bji8&}OkYN!CqQ0>yhT~Jzvf80*iI`YiQ8hr=t%U6uu~pU
zOW`1jA(<_}IcXdsG7is8(m=+f(M#}Gf=dAop9$UUgKM5>f%J=efX16AbH}9fXOv50
zMURG}u_yMJ>#(p#`P1qW4zo{;oE`ck5g#4S#wb2fG{b_WU~Woi0o$)YK2;0~a@DoE
z&=r3dkSmK6bYV$Piz`pSWdeG!l*=vyV$5o$R1z;lpdyfhTHn$F^>-Ul#)k`Z;M}D>
zimmms(kkbMk@55c3yn%wf<rjWcOfSGozussu4sYeoR5Mv$@#w#LqVJqB<E~9w{^$e
zS5lkyO?hw~hk7JC?JtMK%omB$sfIK6Mi4EP_b_>ycP;aEDZXyOx(H9KHpRgzEj+~>
zv(ogqHpSQeoUfDFXuMYoCZy<Zl?IZ3s$G|jHf!y)gf8o>>tFD$@?KyY_0+q}kkQ^{
z%yjG>Cnw=h7nFsJ*HD~yqCxsg<R@zjma=&7{(+XX2KBCSbg2nH&C~rR%Y1c;ubw}A
z>(tFtKj)ie9)z?F8N(zy>aVZZIR|t|3Ww{BV8&6qIK(P(1r4no3%cT!W=>&3HhFGn
ziW{{Z#`<}9X=r#mSN^e71UM3(Gwth{?bx9q;(v?68npo&5HL<1{)o-NGBQE;eMB9@
z&a1eH&`39<;NB1YnZcDySs&&O_Q~gH`?TiB#%&I3hs-yc@%j)TRpMCr$AJI~-O|+J
z2z?oFs-d?Yurg3{uESb^l&;~QWFl9<sS(;)OPMD?DCj~S<&q8Ul~jAOODJZs<f}O3
zi#Vvt%k1j7B5JQPkMP@WChDVdjv!vdWQAMQmuYVUX<;NvrPw)5F1@6Uk*Z)GpVm#3
z?W55#oyLrc6}Hx+S!?uG#K+;rIXkG9B!xyUh?9Z#b|{c92$&MCAfXJU4H-jNeuSL*
zfYkz3x{XdUhNEQYjE>7xCa3gb(&tIkV1DW{ak7e$5!^^8{Y!ega(s?ZlSI6kbPZ94
zpJ3N^!CN>$WmGd`n+P&qW9>OQ*+r_l08Oe2GMS10KZGRz5xs!yG;+Adta~A_T>tF-
z`e$Lbe*56u(b=Q(JKs7n>z+DD;;HY(f$0ND=av<C>y6Kj!!K@P?&|DS@`{_ex>V6M
zbsT<t-+6{CvI`S;8-LXNgXYw>uBGaIsfvAgR$3+d*x)|3=|i{&&)xEO<#h{&WW(Nj
z=YAUeaqvO;nW<yxip_Ix%)YU(^Q|u}S8PvJY+sb_J)NxBzEtr%bx$h0>f6<euii8N
zl>afGYI}aE{$Q%&;MDP7lvcwNuWA2MY4`i)zjFRNXR7qn)FB!+rZs<Vxwi9uZD+c)
z>^p{A)|=M(i{G}-c1#^w@s>_0M=`ap7wbXziSny6i1LnN!leTE0vHxpLWctC<38rL
zMLSs(P}@;dge*#RqyqT9E6QkQVplIkbf_-f{UgxIF+gEF&;mMQ5ZGeNbh3k*h1V6f
zE4NejM?>v^IXTN%%L_Q#5te>P?P(Dtb}L*_pZV?-?449ywG+txII^eKCSBMgT~PzR
zvDouy#_o@^zijwB@1~sF1HAKYoR~h5_ISy0f}iEn71eWJp8YaAirAT|?R;G5jn`ti
z@Mz$dQ$PIuub%5Usv7ZqPtXPZ8BLFUh&h&W50w#jA=~V8mihrIiy+Fk%HN_wivBZw
zM|6s^;6!1%ervkEiEQ&Q%)_ECD290fKq(vM1!zjjD(4$#Pm*C?fQF~Kjtuhx%;fo&
za~S3Yn91{O^<<$Je*3(^U}-@gd%GW*nl1jcaw3tXp-^kR-Fi2W+VV`63RdhMGOMpz
zkj{S2z}mPi4y_HP3)-MSY4bY^(lW0^v+cv57D)L@VYLTQv3@3OQ;om<W@h*`vs=L|
z(1qymA2@wv#pxqE(^xnF=X}O~nr=}gIy1SM5fPRz)LO{$k#rF6XV|oWg(D`5eaM~I
zq9@tr=(ElV@ywp4A%%@Cb5CGK47u9?^(LM>uJbNNNg-c+|HyA9notzL3TnvYBfr_H
zc7h`_#vW-5*#ap`TWP6K)RJPTDLbMw)bTcD34Z`JF;CB2!!DGn2qRxSD%JK|la2Ne
zrszd|$VO}Bp*3Pr*X^#wzMqu+wD!lf4;qdwl^-X$=wYCI?)2<wg?60%iRGv6AG;sa
zA6*I@n=*gXo)ZK5i1e$05H5qA_mO}=r0fmObL7`jYJ+iCKLw?Peh52K&?gN2L`FU#
zVNm^fb!~Q<0!j7D<)!aqG#Lj&|BRQA&2emJ3h{l$MuK=S6jS`O*a?Ds4=vnZDc@f+
zS(4i|rRV@{+5x-@d*<~iK5gV@{q+;`=3D$te&&sZ!|$BBed=!DN1J}I>E7X=9{=%i
z==^<-Upq>sx6RaleLK#T+sovgA^m=f^9ksjp>BrGnO6VbqK&>U)jfJb(JmTfI}(Jo
zjYbRqh_}E;XZ}zYhnbHX7Q_$OZ`Nb7l+Bmjs<~N1elg0Jr~}x;n2FPHw548l3#0dE
zcxVIq2HHnP*!Pj~tJ!us(k1IwGmczZ-V(2Toq~2hw0uykR*!aT_aIBef@HSq)nOYP
zYcIM?n%$Dj?n_p#Z%{9ej<Hi}GSLg8Q~4r?eo9qQL?`wnMlkCrwT&WLIl6vW)~K+P
z^~_s{nMfE}%vjH`BmZo*?{M;Fma%60<;wt`lYWLQeOR$>>;{fz7!0^h)X?xt&h@uk
z+5h0`l3d;2bKC!x>-?S3WH5ffbB5Ne)no9cZLY5-t|zi4O4n|oQ}lAW`;XY~ipBBO
z*RQ|6YQghtD_1K#as~_)S}UYiJpLQe>1fu1G$^vW^v3Dw(^(tkc&?%*Yo`=k<*KsO
z5)|3$oO*@~G%_qCom*3urd2mRYj@`jh|=nSD82L9AJzPzCTpVfOP^!E+Tc)@-NGF-
z95p;L`3!+{pfbyT>zjznmD78>SE(%9<Th+hW0bE?W2Q*2C}|7Q7(cEhqS@Fe$E!Iz
z<#4r<KkKB_dUK#>0%!DJt6VmerVOPpV;kxp8zqCmF~hHN^b5n1aZ8pJWe1SX)$Lj`
zY<_G!Z#0xl4XkqXOLgnAtSEcZl2<qBZ&)%kJ~o1Hd1_|QDo4Lmd25yxWse$lD)-SS
cP?>&}%9MP3+T=Bq%^2tGv-S@-BpG=9KYE}assI20

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/lightning_attn.cpython-312.pyc b/model_executor/layers/__pycache__/lightning_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1dd8dec6854f7f93efc6a0a13f9a684a42796dd9
GIT binary patch
literal 23160
zcmdUXdu$s=nrAnk&G(zMWIagPmPA>SBPWh+C9y3(WZ80@k)1e+k{m&)DeL`cQnICK
z&N12ShMX8HYG!bvXJ;==Fu>4bW24<$V4c0(#WT3WdhQMwb?6xp4KHBe0_^2KCHCy$
z?w`A_s=L`ursYR23(Pg7VpVnZS6_Wy-QVx~zN-GOHk+A%V^a72*k68+ApSclNQY0%
z-2Yrp5UT`D(BvdBh<-Jb<dkMmL!!KPQahy^)J^FJ^&}C~k6We7<zHGC(~aBZvXrCs
zThtr2s5fp=Pi;|eQm-Ge(&l${*F`o4sXsEVE$Up;)-CF7ThwncdfKkue#A>V6jCw$
z|1FgfJMC1A#{5S%nyv2Tlio8Y?NW@=q9INawEJCx_QZ(sZPIfl|Blznc`0{YE93_4
zG5dIfR4e}uI!%O$pm)$-pxGqXOF7!NMZJHE`oI?T+hT6IW{Y#=l93?j+87#_3J>bF
zBbpju5@y2oclCqbEoMNS`qMzytJja{=mv$veIS{g-<f0@)yF{xx2O+oQC|;|tW`fZ
z;-s5E8vaExyz5JJ3(tm0-o(VB3=^Hc7z=B7O=6NaB$%<p%rs99@#H8^(mWaC^+(UV
zbgZ8@9K*lEHtGJuuL=IqEV}<AxJ#=<f|SmUYowg~OOw~d^GO?PV=YV2CTYhx1LPc!
zxLQ-b+R55k!xFm21v%pqXepLLY0_OTn{e4vRrazD){M{iSf6-}A96zLKsmRKb+T66
zu7<4<+tor&Xt$juSoabPjP>KR7NrXAb@G^{98I#;>!M6RcM^Z9p$TD@3e+Eq0;QyY
zXb2S0waGe`RPyv>+{m=PEjRLbFgNwAhV`Hv8+fddZ6zBl@5iEGdWdWqSS{<t+-$??
z_Q#_5FUwOSt7Bb=k7Q7BuV7ABA8fEZ??bFJ*`#Rwh<U~~33C|tvO{s5S}%1l_jgpz
zOe`zo1k74mdqXE_i*fYKR~?CRc^sq4auH|B{O?ropn?`zD{H!_c{r^bdg(qVcO@KB
zKWr1NLEK6`9VfEnThD@Qn-x7iN?OedX|+_#f^9*vk)M+#7-zDT4Y95GEfH4q<CM6P
zf7w==oOlzShOmW5c%*vTAn_~7HmRiJmD<U_Y*@M?*{0}G?S9t7{jBC02(jPg{oMTs
z9vUPbD&G#@DG%)m9{jSTq#V1G-7U=+whiB_4tCcguIXUgrE8Wz+a-6g^)NTFhQZ}}
zwgJsmL=Bf4vgDP6I;93sL11hnyG!laVH?%3*?65a0{K_E_YZqgZy2SyL=uZcm^#ZK
zrSm1yyZ<Cnx~AcEQ_=VYub)Yb#+Yj)ucs4>v#}*z$Jq49HIhLyIP7511H+qVnVE}B
zbSg4N^M)vf3cPM|CQ1WbnBk2hkWD<jm)9@Fn3*`Q7aHg<0bKwN_$;rDU7qE&^h|=+
z#}hM5j6qKTZ;nmIref2HNMbSE$&&*-+0T;~c<oE`37$O9pgGL|s33T9nxRkuy>}S&
zdf`oHUwJWt!3bkPW$nz!2ycKSGBnDY@bBcz@C0v0+2J9a*P}d~otub2E*?wp)IvEo
zBjv2Pu~c$E<BAIVLRERDvTPGNldl(hFIUV|Ragc@0<#H*clAdSAiubx%5p(jcu83}
zuPBglo*d(ibCI!WI(C^S=XmYh!~#!_^VGzGSgE7OKuX5ASk%+8;pif7oDllt$pv0B
zHxcgyc?O^8_}|~#lbD*_Gdnihk%%%EV~LK-^ZO4TnAjiNGdVW2XLd0$Iy1dzVRCY6
z&(sVZn~cOR$A;%&9_*QnF2<NRw7NK&m>!$H7>Onl)19-6yfZR#iH^`?(TkCZ7&9H4
zWcq<EbnD~$VN#}u2hD`Vw%n2F$dN^JZR%Lb=FFbrZ1t($lGBqNTXCdL-F10Z>sRV?
zb46Dub^4ywogK)WPMz2^5UxPZwPMZ<tk_ehN)BI+%q-=4GCxT5RTQA1w>~$|d3L7G
zl>ANk0nXo?da2|K<$E~auGCpM2Q7V#c|YfENxfL|@5o0ve+#rM=Qb(AWG<OKUuj8`
z_nx`tE4{{43l~{xzcOk~wGSvXmT)GV?a3|_%?&@D%kRux;><0D5NF=~l}Tr6e_)oI
z%)P%SxAP-1*TR{bzOv{|J2th1-nr>k>Ei+Pp`@Hkd^Dh-44t<tI|s@?4dq@IC_}fH
zvVYTwDZ3H(o_pqPi2Isq%2hn8P?mX?C_52lYsp+m`MZ{jm+*MAv6XPD|1M=-HfD@j
zOOdKe_1vS}sh+!b=ki!)EJx;^E!yE07yKU%a`ru`lQ2G$MQELGUkm)b>*n#B0j{fu
zYwEcL$%)(N?@$99)XN<8G9qivnD1*fCPS)6xKpi})@*OCC;Qybhkh~s;rJbMSLzr@
z+V07AW#?A*Ex(y2?|OWz2UiZ}2J(iY2X1v?<XRi&c_vMj9R458<#uK-agN4(YvGx{
zaTWG+O;2-<r_;KU+moeNTGPfa+}_pJmDb!d`L3%6^Oy3Yf2&^``FFOW`%v0=*Xdq0
ztQfMFe(Xr=VIa^^%SubhT3>S2=c$7Cmve;x7wqC(U28p@YhTIjdtlUg%>NTj!%Wka
zbIXI7!S_2i!Sr{+Xl#z<lbMqxYXD#UOIP8z%GEZttIZGW1jzS7<^oLYOGR5_eivtJ
zNo(K^o2*xu<%P^bb|@EmKgm&bX)UU)&0WYxuMTol%Q{t4qCDA!Jh`&OQK27NHV+c^
z+6RXSz45)ixBK8+iLxvkGKTc`HylCE5!`U><{Z0=RC~!*lRNoQPd<@9$<?)Uw)Vmt
zXM5_OjXJ&IKD<8&o;n`s73^8+gp@NQeInN4ylCkvksMM%*wXzJ`$QE8LbU1-b?H!8
zy3R+ml&xA9*qnN7)w)@iXlZ&_k6_;>y^s@ZTpyfO+Pr?a&VaCp*fLNq3+<6Di*4SD
zt7^c8#kQGX87a6_$H{gH5mn+~fhNM<kECExQm90P$y%^p1>4N`ShOm*k!d}F^;%)w
zDR4cEB)J{z#Tsn=VEg{tj_f<)rVearw}>_$N6r<psTx`RBgay{I@zFTt7c(XSZjr~
zhMthB<Azqc=gCHxwPvu=K#Nbb0+6$?2B|EL4bDuHtf|5tMmoRhV1sO#N7jz#eGpq?
zp+wm;rQrNg6dYv^n*ilI*d|0vpetZ~rIjfm@Z-c=d6*|VXbrmqw+~^<LTTSB-yPxz
z*jlg`@so?MX{dUVb|MRr)`5j9`enhwmHlaI^tJ;%!74#KV|t2b;hXf7*037AdTD&g
z7Pe8*x4Y^VK#|?WwqV&eOY+0gYJ@S09ywgDWw%3Fww$(ujO~J4uY6QtF{xR*bzmC>
zRQj%aY!A06KZ!?d6Bz`Xh(WW3K|^Cugo;7Vgs>eOJq!wfG02)^YEgom$-Hiu9$VnG
zQ)AQ2c2tQNV;WHsL<zF^uwlc5AQx_BcA$!#knqO-hyb=V{TF1rhG{_!DlHoZo(zI{
z5hZ6)@)AmriNkykC2c6#jgk(ObV0(~D@_#UX;kR|)L&t^P?FWd>_O*Ea9*&2n1hH?
zH>$MuR~Q=;0@D$&OqgTnyap@^V|;dUED@RJ&6BZ_L?k{sHj?1Y)ALh8cX8$@YAKu?
znwg)bnUjcqAF2gY1B)S!2Kl%q26Gx+Di{R7^ekAQlapW&3_<n#@E`AkhXo9RHiR|a
z%Dk29Dk3ugfgsz8Ef+01gQ-(x^ncG&CqjC_8vyF7p?t~Tm=CQ?i4Y#zIQ?6g2PHUD
z!#R;%;A}3qIA>exlnC@I0c|x@egp`=Tr>wia^;Wb1DrXGz<(RU_umN$N2K%KkLD^#
zV;F9!HcymXSFlv*;mjS#Zs}B-4(g;`V3l}kb0_jAuD-~*!#9q8eCpb%wdhTMvHi#`
z@2}@>1-SN8ocmO&{|kp}c`>t?bLD!Ajvc8!=-zBy-j>;xJ&=2C-Q9d+=;QHg<9AF4
zQ%B*Zbnd?yz7_qX<MWP_>1g&~Zf@m;{0Zpbb9?yqE2)#n@(Zj4a)Eqv(G@QAa<08=
zuX3*EQ>X8`ygxa&`s&K7xmWWeMPEl@sp#rXoi6Dd+0*%2&bzy?z<Ks@x_zmB-~ixy
z_wQ{DX|m)G<U%X4+!E&tr_Bg^3xGOrE)0BV=d7J2SB+@jxSI0goa-qGRHuzf2%T%o
z&t2{0tgX;qw6rSP+stVaK(heYbGwV~=CrXynXe2jk7P!&uY&33Yc7yQdmBf!2{?L7
z#GJNZ{LE4H8O!Ew!ru7cDG@uT-^}g(VBgh!`MQnJ(_HB3jnE-3bf~!f@b7d-m^1K1
z4J$pf$N_`2(ftynPY~a+f`3ehv8+w<lvQ9<JK#M#LRbndqmDbx(z{#mzLujVf*ySw
z3Kh7s3J*B|1=|oGNhMBKLp#p0Zgjzjlz7{X@Yx^1SUd_@s*S)SjX=!{`EakhbY;>j
zV=UGr)dCv&&mcjc0x9XiM=2wda@;EESMaEYKwRIRHw%i!ffXcil?*8QQj>>6YWeN^
zOm0*3p@xzitXGXX>ljzTJL4+;Yl%ncDImdW1B(q=d)QtAyU+nhT6h`&(Ig#L{-FX_
zsd43Dy)r%U5^DrR6t-5QAB=G@vOy3?z&+<t4y_gtaE}M&FyyIWno<50NO&_~iM~_k
zUw-M_>raMwFvP*==5<7D5D_!P5eSJhFQ9@8P{8OI@*^)wURAH$nZhS(KyU$^&4(~Q
z0vd{sEyZ|?kQX2sYBfC1#L@V+#3TX;v16|!v}a=U{BVq!giF4L|2PLI6Cg-aB?Ku+
zF2{RYK!vi>{Q`8I;Qv!mwcu{+tk%Y|76(O)0fGyhX?91}mw6qqkLc(!yzfZ$fV!+{
z%)73d^8;7y>pCC!y-Mco$eCC79dujs0J?Q9znXb<-4`y}+BR$*oUKF9)<xUFRIi{$
z5B}a(4=yj?Hc;>bdEeF7uhtjzMPDZ<Q~$Qrk(H5L^aJ`T{qw!Q=>D*~*wDFN-?>)H
z)jwDCKcBV$3DCGmq1P2%%^R*T=L+9w`nc^{ThX;IZTJF4OJ%5RU2frn#jA^jx{dI2
zT==<-a4#3`EjFIKL-m0S-1WHy&b6yx;9Q+)Ly7W&&#&jI9_dHxW({F)c+eo~$8}pM
z|LpH{ZGtXTu3anZLO;Aso<JAc!2%NeI#05~!3lZ^JWH^`0p*~_q+9W>QS&)zrFTWr
zQ}!Qu!E+$2WAK6h$bzj@KkH?&mn9hh&J>zVs+WB_$!+Bp_-$TpA-vmR@(U{<k~Pro
z8$PB=KNZrDV(VJay7=v-7?Ha6ukg|+Y}?1z{zmCdS7~iyoxdGW2=?=QYd*?ycqD~~
zp^!T8H$C1Ol8VtN<ni6`fmUreuw)+P`)Mf8HKm{65%;jdv!kYw%l-#7o%xsuCB!QA
z{v$ZTV^yxGP~&PltS+crv16Ek=TGUW`G4S7xh_MAyy0m<2Y5if^?D0HMB>xW1}jH^
z#$ADxl%6Z)I}h^!T<l;&(sRV_#BUL$Z%R#Sb^oGLYi66-UHI;`D4skuL|MnSs7a8m
z8&^R_YN$+_>FVRTVUWCa*tcX<_?EszFKOAg#2~~Mwmbr2VPGYDm1K0)$}}NzyHL`M
z5`?oJ2U}rBQk4%00W2Y4K0OSp03b3xE&Pb37*9=0=!zOH=VFr62z#EWIjQ&*Vg=*1
z11R?#N(NE#JW4QZGY&`4Lc>J{e4GSx7$rv_K{0Cqh}j@u9hsh)j^Vg3PoW};05d(%
z>|3~ud>E~j2}*(F?*p}`0k6e1g5Rih3()oj1ioZ<62fxhoHdv_fpUYKwJ~+#uGPN$
zV&=tMsA#QAow(=lX6G|W6h!uB7ldfCH+va^cu?ipo*U&n&8agL9;N)YLLV1;<|fGn
z4|0x!74he)b2s}q$8l)z4J283Wo_Wv>o;B3-r}6yH(%qNCqy??x-Vn>3A4JmvY2<}
zdy9eHzw9X_3MaY1Gi!5P-~dM*_;l}Q2R}J@Yv4Bd?+@R8=JSDbxA$|;o#&|YLO>aU
z*5%-=j1*M@)BsT19}Q5Qn|27PreDw4f9C$6=4ws8D<A!fMlqgPgF=xt`#5Ufr<%`9
zpO|iiZoO7KaQ1fM^H(n1zQi4Pm7`uoT)8&QTZD7JsEFj^04{*)Kqio_E1DWMOd-w`
z`gzkY+CFS6nmSTPOZM8Io%`VRtFPzh3eCm(F3#Rn8T4)WWvK9Sp@nPOyEeczJ$rNb
z4s~>cI>AvV{?pJujQ?u9NDV-+*Fb>Z3i)QDtMm%}v%Md5U+pgXo7cfjvumySTIbFE
zzwWw4-vYVzb8Y>c?@ZDDBJRf*SnXZu&2{C5e*7W?D!sc?F9I>Ad-+o4Quh0Wz~8vm
zj;{r{@WGosT=<1s=kGX9Z8*+wjx+!5+;0beGgx%ImO`l3;>o@R%K#v_Y>*?P+4HLx
zRxafFH|jdLx{i&y16<vKqVM1><9{J<KXcp29r@n+`IosPFaNVvqc;dB7oLgoAtB5A
zXaUkH5hDgkni$l?v^4oHab0XSs9V&8wY(Xv*nlNGV>8pkN*#dStk`Qrft|Wau;e&A
zan*-JD@n4Nho0B4+J~Okvbu+!*CnJe5#uU&U>xE4s-w)Cfi=)1vJGhs()o-vQP#$^
zmexr+@f{Mz2r-!I<4x!<X-rZ{Q_>8hP-#Ky5%r`cf#ih`wS6?Kk)>D@YZ=i&KWh4!
z99PkOvTjORX=BnRuRK)Kb3orFjVEcRsiXr|W;?JA0u~75;10toMsVK8ji(9PB+2L<
zQo*~52Lo0<+kk5|{>+l@q%ByNyA+g=*P-fQb%1DWtZN*_U#bq;LYG&DqUc%$x^W}<
zp&Bt>=p4}`J&AgW1nWWf0Bix6X~=IWO54m@pf@|~xM95xo)vV!z9$QKT+HBsf!UDs
z;hZcN&1nK=f<-**$GNJrwC!8TRSg-UIRRD|%nH3?hO6x3*h2bc<N|hJSw2`YAz`#2
z6G1XaE^hEU3A0d=i;qQ?q=R+duwNJNE_kOTN?uH9M-?R<P|<&r&JD+PafAvAcGijR
z8K#3^4?fEG3f-q_j{KM#=XLQ30b0a(i*%*@E8c0i{yNY{2eh=YM5OGKW37srh+I-t
z2O7mV0#Q{5?UK;qMGft`;g+7K5zTob>=D;uQgG2yYwu(<J{l~)KZD?eV&GLexfq<8
zh9o{eJ3GT9V)Rno$P5!4o|&4RPsD=5(b?$G7=+*!gNI%S9(d}@{{zQ0jj*E9K*tuw
zhGSpCaELF1sFx<Z(j_=GA5R2_V!<fnCKF?`ld<5;NKjbh5+<2<pec@qhP8Nor4WU*
zK<$@DAPE~4wJ)N!7*bZoCc`?lMq$08whD+&Bhn<S3muyZ2YB=F4Cs-I^E30Xh!mWA
z!=n&zou{L`4^|WcL_`CN$fM`2=jNgPRO|%9%rLO7bTm2(>rG=*vx!9^3X2DYZZC5V
zB{-Oio(<l}#Bgi8rVxjAaWE0P^B4pVc~?BT5Q~7=BSX>QiAzz2#-rf1!_fq9nxBr(
z&BtO(vG6viNn93iEIEOLoC4T219laClrXUJE!z^U^W=;|PDt=L-plI+$Q(sX=`J#3
zv=9)M?*RhSarCC#%5^DtE{!l2G>j#;tgt)9y7yqR#QmUsQUo9hn|=9A=FIzNA?Rhb
zJv<AT!@qrXaAk1Aw~zDfEBf}Q%_WO38_m3s>-yYMch}uea(0)To%i)xkA0KS+U%QF
z!XH5Kw+uwO(p?a|bD?fvfm!xwrXPY|z<_(XKhqC>!k*k*K9sW-dOkjR?c~j#&-y;;
zyJJ0(CV@$pH?6<xtzGS3>Ccn-eMN6LZMx_3fM3s7n;Th)03QMf&$~W%G_6y8>pT03
zkUE;61DAi*x?%-4q`naSc=X!n9q0a=A<p?6kaP!D!z<z3K<;RMS7F!39oIT;k~jAj
z+YWI}hq$`KMfZ`k5q0m*_N?f0Ce9hkcdt7-)4IFVww#xv8elLF`*Q~%zFhLu{9(J@
zWZrB7SpcUVZ_d1O7_IwrX1g;#5Ls>lW*>6uu}5q7EWeR?BNu}4nhITo=z7glpXxue
zePX*E{q5*)M(@~OO>0U{7aCA@aorL6=2$!>tG#+q!a#iWCHM=3U__AqA>@KVwTaTn
zF2Mj0F@H7z>-#VPAme`sr9afzfIv_pu$b@W0v)1w>vJ?m?ND62HA@0B^$wu56HJ&5
zsvexYxhPmcJplHb?ob^iZ%tZz#dOc%{K+nS!_VbwH$wZk(7v^3F?3+P?%>V2JMNx!
zN6$Ldg8}l{u%4$Pk?H7EED{0K8-az)^OGoVjYQ_=qm$wpYdjH6j15o4V97JhT!rWI
z8i5Jm$B;=v1y249J#*->eU~WdU0-Q_K<bZ@_qBw<E#`%baQh?Zq93EA4-#GzqnR;O
z`Uxr-m{?+-sRZ9hy&y1op9hEn;F}nSLiHhl+N1%Xcl9YKi)W1hSrMhGLjryPiCcjY
zFSHWXsInogp-K4HTo)mCQVUR8i<USs8d^I|(z+xCfh!8bN<D^^c7T-txc`En0YpGb
z{iR;&3qWQWrsJz%Y}H$SmQBN&i^Q<zEohlEA;65_!;0pLNk=5jP-7Ox#Tq8|0~fFy
zP1P|}-jqWU3G^z)2WyrTdlG<V(#q;nFUg@$RY<NbcMSKpxF>kiDhlR}=n`eXrv{wi
zdKKr@4U+_?lltif04UNnerXW!E6G!BS(S7ysaMF_A}raHMh~H0aPc5nvL<Y}*icTm
z6S!<-3EB)`$|!A4gbki#RgEKon&Jb&YYe;f5)^wA?rhQtVGk?7KWLM*Ug_2mto2{J
z5QrLvPY(=hlBP@GNsI1;re>u1dS+(<GL`ocC{R^&^5P6^XdRux?GiI(ASDB@*vQD(
z@EC?(oo0a?b1~kHbBOp{cW_`n#w-TG(v1TY1LTD9L-38EXkvJ@JvbVR(((3SJT@1Z
zj7_%(0nofvzIviN*dP0r*DiDiFGMHjV^7j^WI^sbMt28~qg@_BCJNZ`8~kI&<>qpT
zv^#hn0;OoAxGo+<5EN%S;;;fM4oFh6`{jX_Ay0SkrCH<>h)xD4Vv8LMcnBgK3XU){
zQ$YyJE{p-v6YmDRGiRpbg6z-X7n(x+GxG^RzTLqdsmGvDqv*Ih_{uB|Bc#9CA8y5@
zU>;$B`z6l(DJsI;fz4aT0YXm4q5B{mY+b4im!UGO^&5+i4FOUfS`1DFTX{0fybYIh
zhHcChbp4+}!s`~sVwZ4O9QH=d&c>!`UJG-8Nuw6EC_ytF18iPDJPF=S<~?+sw>(#6
zKo$wRF_e^F_RI(9;_};GUMt9xQ$ko<3jh(XBLrtImXm-#HFI6CTCa=wH|Tnd5z*@c
zP3Fo&K!+X`W|+T%3v3{x_zLJMfQC=OE)cvSLX)widP<Z@F5EMk-dlKk;ZH7SyWUBb
zz;6oS;Osz7gCJbd7Q!o)0Ad{b;pL1rcMdMLSkrTvec7HLcCYLDa`pMS{P24C*sY#h
zPv45J2l|S-zI6B9+D5>310Na+t`E(3YIhgS?Og5d>;Ry~x%c<2*X~XoTQ|3tjOO&-
zw=ZQw@33e?0PMrac3rXEr7Y=V?^Do|&7SH7#74Q-jWu_DwX1Keya9CrgPFmc>x016
z00hTtVe1FEZf*P9U4Pf{*B!UX-%`J!9%wawpa*OE{J{<1F4*%^^tEjG_Hw?xMc*@N
zGeAjcKgXZLevXpWktH*|Vg})<%xNgt?CCgce~4y}r7vgR0IXGAao4#sf3Dyz46JF^
zP8XerGkQSAdrPoKDYR0XF>Kmk-vhW#!Rx#?4dU|sudh1@OGg~M3dFAtSWmR-c=9-J
z#%5mR{Hehc!)O_+bRe~ip}<c;2|q!^`U&FHis%b^qN)yBj!C-|Ek#J6Yz$rj9C^GB
z(+wSJUO7bs5P_VkL%I^a0pO-}7@ClaKoz3lPFS}j(gn(Dz3T*JQ>Nilv<Gie^#MMu
zawN85O_O?CdA&M(uK<A(tk?pqpVrfQh~nzSF9G04JsUu^s9vnKm9N+)?EwM5OL=EJ
z#NNf7Ar-Z?s<qp}k0ZqCy~1h$%t;-1a`3+3WIgh!AWvt->VGwf5y~ABY&~s|cb+C6
z5fcXg3yyXRs{yL6RqlpY>sQ0#-TUI+m4=FbLlEbzlxV0@mPnFGSm$5Ws-dbC%$4M$
z;<7%Aywc1E{;@hFNpVe<GMcJ3hMlmxTq&<zuv6a$@l0uEG_j4996sV{uvgDdc@-S&
zXFy|q)XM*6n!F*e(o?op0h+L<x{2K(!%YCn^3$c(-XP8uVZTu`+n~I5Q6DxhrLm&!
z$D2Jd+L#=hhA)%II3oyA!WkMii3TqLoD23}09V-XXiP+GF9W;)<&U<CN(e8mxE8^e
zXfO^}gFa8pOvI*x^QaVr?avBQNI7C$AZ!gl4k`>C&dNbta9HW0m&f8lFxRXI=9ZVr
z@%pjp#Iw)H9w%Y@fHpoqg;&glTX_8(TF}PpCxjnZrv@b}IF0a_aLF8>oSBV95OCuu
z$R}X`^<~)5jI}&!!F&wt@m3Tj9g4)^t1Wa)D2+-byFjgcRxFp#JB0J}Q_=-eMVDB?
ztf4OSvtx8*Ncb5QerVVSAh5(!7zCru;YI`}Q3m#a1E539L})QW9Oo?%%`F$Cj-(1^
z0g3uGl;G_NR)I5dpSBSQ;qB^%1^ioulJFL1kV}k#9R@-R9<TkYkm<}M%^(9Oj{L!u
zC}_))0FP=T!d%3=lTol5HZe=l<RTC|iBQroB(Maq6YZCjgTj>|;>r@>2M8Ws%v{Wl
z=6$fYxM*+LfR)|$wi|mtK5*?o(f&;8B!VuEY!jd=$_@c$2msqXIDRPX%7jJhKF-@*
zw6>&906DK;+)+yY_;BjXU05`SyjeZDrJ}nH;>3eo$6?NWIMsiT^8RQbr^`ZAwLb6Q
zs6A`DZ_>Z+xp|S>+k3l_+xr?vy@sN#-c2*%+?H$S9L<Hm+VfoaFy}aoqSS%Ms=EhE
z|Nj-|*<HAJ)6RAFa-Los|8{K84RH2`)X9=<Tdpe;!D|G?&9?d+#W{od=Q-z|wTlq-
zq)x#eU2!$zW1M@Ab9Sy>xb^fM>LgzH=yd(al|7yfp#9xB`lFuQ#jB@bFi4EPA4PNC
z>_uQC?=R?n87&w;Y~<`uNy6>T^kz?FpMC!<1pHw`=^4(}S~$$vx?yo8tj^!RvOo81
z!MGN`<9QA?hl4zJ<pG^`a*j?MmbE*6IG5d-zLXh6O9;fUu&ueUjk9$D1-N-=Q*3YE
zb;q^?4`0~Tn!b>IEr0TNy7s#|1KQ=99?Z3Jwx;|Wuz_{0`R2m!b-maxgm>@YCnU~%
zf}WYbhh(_y9)W@j{xR;e!?fJW1ym86B-PwNC{6=N$2@}3R9uK|sXC0*S}GzaYC2HX
zo)#PrGQ&zl;C4g{&J|Vk2d*Sh%fQ#8)LY2km$HLXN+}T#2s#ur99y)IX*joNp}@3T
zw9u6~b<6Q$){1OFSotW#8FheoE#N%C5k^?!=>lYCfW3brey?yoS>Q`CARBZfEv#kS
zCghc=yyJLWX#t2$B-ai^p^VYL12JNC`@I+gnsEvoCtK-SK})`jKM5x4*Z31UNshJ$
z``UwD?ZM-+r(r9nh+5mNogiwhB^?^aZWqz_fS(o7{ecIL-uSY9RdJFiTVc%$9uZJ@
zLHN7|#Gyog2=e~K;^n5Y4W{ZofzPPGl?Zh_p`$~|xByJhRA3M~`4T<k5WquvddWK!
z91S8rM#rJx5M)|MgLF7d3Em3ikbp0)pzs)|vxyk2smG9kK^lxfWI&}0VJ+;T2z#ou
zEOQ4nEWd69Xh0t2$v&QpU@U^wE0aUbK1IoYK*@hZ$!93Jg_2)E68Au&qH_gpTPG@8
zQO}A&D)>eT`YIjsk8tT#7=FAR<}mh3xba@Ew@;^fQgi80dH|dY%lk9?vvWA+L1rgE
zw=}Kmn$|5%Tc5$E{D!R_J|F@c25mv?GXO(<E*r`&t?YqoQ^!FSdwr`1Ru1HPevDrF
z9<N-u=W7r=1o>#u*NQ$3QdRahZupx)$LHsY{xJG9NM#xN*Ei-8oNg!hRir;x30CS;
zPSE_g#tUoKOOzk~1xi$)<f;Edqf>8yFQM22*@gASeMQ@|@c9#qYxz*-5G+cw)NNQ=
zI7>^>5?<GZvEm48m_Gpl!gv3eci}f2z<w&;5F4AGnT-pxz=b~4(kX~LGM^Zmj0+eS
zj0pJ7&iEJvKp|2aPrxUA7$Jf>1ZNb%Qz{DIc7YED(LB{VKRt|GdpPC+!A#_(WeSLp
z;brVg<+T8nA>2C;5ozpk5~d@%%gnz;$r+TKMpsbJ3o(~N%>RHQQUviEFl{%rBuU<<
z2-5bCMBP6Tt#F$()O)pW*KTT(Bx%^R5|sHp_HB04hKqKo=)gs{RP^AYS1S5&(NDk%
zzvna0Zw7F&7GXOGj()uz6(L%qv5K7>(Um(LCdnQWaFf`pMJUT$2xX^q-X)Y}K7_JY
z>e(lhw;`xFnVH<I5z4hvdAm@qBVfxTL^U_-g>r+)>Sm)*hM*cg|8)qLMc##TXJ8<r
z#9knGgS$&)-GoZ=Ku}4R9xBO$Kqa@tvImv?5`zI$lGy*c21;V*sQ!qi-1ST7X34$b
zqAWFBl>5U)S!TE>iwqZ~E;nm%QMz}V+i_8n*Vpx^C~}0d4`|I14SAHz`c@lO8a7<5
zoU8Q#fvYzAbi}r%jX(<*Xjvz`F#JGmsk!Yd+kVntGFtH@(?b59nAbxd;ddK8V?-rb
zQfXhd!iEzQDw!dUy=g%?s}z(@aLyf@h#-jCU`g*ovoGiSpzdnjx@8xqZ@%w9=fK#O
z?$}w9JV`3<givmfZg(Rti{lf{&1#51%~y^iB-vKx8WqZHqk@8OT%-u6Z<)=on<iWY
n&T$ZZ(}Igu!r{fU(}s(7G%nl$FlMm4_vYJgK5(Hk_-X#X4T|iT

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/linear.cpython-312.pyc b/model_executor/layers/__pycache__/linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..974200601e93526eb99941f4d080288aa36ac9b4
GIT binary patch
literal 57622
zcmeIbdvsgZc_(@R0wjnB0r34M_!0^6AyK4W)XS7ay)4nPCD{&Z2Z0HQBE^>vK*?gj
zSWetERO4JzX*;4?cbU$lV|v-MLbsV4I_s`hzOy=UrhgPiqyreEv`Xtcx0%kYOIb?O
z^sbrS-?#U90X&o?$GJB%w@1{*KKtyw&p!M4y}v(qx$FY25zE(y{_yVv;cw_hx!4oj
z-2K;PLAWM_gpg@O=;yzteiOSl_nYx+9?2TD^jl2yENjF%n%$qx;--<D{v4!PMr@<G
z{kfy|emhIIjyOi0{mxNWziTwFKX26C?;iE^dq%zeUb$TUXhDAgi)W7%ju!P7v3Sl%
z@n}hZ35(lCN=M83%SOxl%h`SINX2Mne<h3CN2*4v`>RK5`fEmg{l3xK{@T&H{<_in
z{`%2|{sxxEG154?p??F5J4c#EoBNwt+%@7K-Ppg;B$$P8QMl!86Yq}x)<GeZ_bpR@
z8-CsRZ4Y@~7Wy}Zya+dk@)34~3c|Ue!tj=GXSgf8HN5q#xeSGQ7%B>PhKkeDZK0Bv
zE&ba<r6{{SRL06>D`i6Ec(%hV92P<qFAJf{aQWL=a!Yoy)GDM_hj*%}-7K{RslITD
znz{>LQ8N4jFR2ehwaS;Va&;(IAKs;udt1)hzh~X@4Qb^YQGSC#`Ms?6COmBp?^SB=
z-^Wt@NZqJQePrEtsiVNkwW3^`!Ml1cnf&cPrIz>kO{u)#bCIYR9EgsFqvys$NXhCM
zyW}^ga!&@uAQHo3s`$*<(AZFPC^#}S6%MKC{_IqCXz0RFD4ePu3`Yae@K|JA42+J4
z!XtqRlpYyDL=29dPc^Ln{NlJc5(-36bE+aTF*2mq6C4>I8w`vDBhf%;Xf)+Bt{yK5
z3<jg;(9HYf5W}I#fiOPKK_3zr86O-Bi@3ENn2bcnM<1KO2j@RN861laO$DPv<6{TL
z$IcE7s%ha9tatVYBUDLQXecrfj1HU&OpZOz3xz|0!SLv)KPTm-Oc#zHKcV(hs&xOz
z_`rEq{i%WANLYJPc!E0XsqoO?xu}*}bTT+_J{&qQJ~BBvrX?5f<n+2rPKL$Ptm8AP
z_B=6uF)b?^?ulTSF0!`;g3+iLp|pWXQ4Eho0}~^`=-F{`6lsO}t~iD15e*Ms@)xG6
z4vddZh~Y>i9OCbc93L7B2SwgHsSWEqK8-mLp{nJ41^b7h`;YgWN-JD)_~hxwjUE*B
zJoWgApg1x#mX_a*<g|ohs=z4Yp@|)78S@P?m1>2zbfx7kIDPWW(XnWH6&}i-maXW}
z{=>Z|PGr8Tgbnax6Vc2E1xHWzKArgqg_O9aYWI=H<?oXF&x_#^&!@e<OnFb=g+mkR
zA5eTU936_TN%vb)h1v|GrOGQzd7cPk84h5~Lvo52Q;DXbE|d51N1sej8jw!_wk28-
z(ms550jbx7m@uq=%CZQ8vU`S1=bHr~Vm>B()f6&Mo1*d#E(pUGIjim`CMY}VaE>ln
zj)t;AmUpag<0Pglluakgv^i#unWh|wWyP|FZR}B6fc6=r^3tKKvu3S*y0$6jzOJU2
z5X++XC@q|}=<+*t8Rclq5;Hl3m`U03r!6tduzPL3sQf+X5zpGE%G>a5_b;2je%Z6;
zQ-VLI@2B*lL6+@C;E|uwpq<9nm_-|K&iQb70uhn&`0e6${G_bWadF^WDhsDbDr+?O
zLdqIB7n}&Etm63OSSV#37zvI}q|DLrlw}BuD3x<|WIPz{+~T*UtV3fHlhKsrc`BBJ
z3Ie=5?U1QlbzhCpT=LQNk4H8|M<+H-3{A8}gCb6pwihP1@7!^IdwA2x&~uw6F5v(h
z+jL=MWONfhgTgO_2PV<LO(VfeVKIVSv{|)JTuM3RO_04sJc2hI#sA2=2rdgrhv(Iu
zS9X4V*IeyQM@8IH5qDG|?ef7}c?GWyT^X9QF6UJz^6I3#y7}i98{&C&%X!<EOj2I=
z<-<v5!EESC-{oGaWY?8lb6a2Eb$!?T^Vjz-bi~WsZaUiHmbSQ~?UtwLn&YZtu6Mro
z`iW)F#>+>Ql%orl`N@UQvZwR%(WImB)!kQizh-^ie%-$8sGmRc=F@LH{Z9Bhqi>Ba
zH|~x*cE>Hd@1oJdfVyUIqprT)xVa`o)wLG`Y#I{O*@o5dl09a^oW+o0jj&&u2}m=u
z8DZ{Ad7m4KK8I5{5FHu`vvc|_Qz{3&PX`D#5$goO2`M|qU6jvpCy$SxJ&W^3d=!m{
z&_bp$6b~bkDh!5(aqtF|s#$*VaXdOjnY$5O7H*Z+%v<A4-Af0TOMBv$qGV2KJf|V)
zDUVlgl02IhE8{&+NF7ha-KXNVQ@0&Ov$43NK5nTOX(&Hye_Y0j<loNv1wG071;0vv
zct+V-q;-dQ9Pjg6#6J9pk5O=v0`?{8pIsn-wp;`M>eI;l8~Cq$bxHNyWPHPprH18_
zeQ`@+GN&Y-Q<HR;&Fzl6o8q=6d}+M2S#mTlw8nQHl{OxYJC4RJN7+}iHl$qo?vJG0
zSaBi1Cp>j1l*$&v(MfSEt&3<)vkg0j2sUg}$V6M`Gf1D#!nTA?QSYtO+1N1gH1is!
zS~9K>D>t1Jv&M3!s5{vto3_QW)9!O)xiK5-;;gBIJ#2RP0Mz;9ZGgdKK0cu$zTjBM
zM*w5Q2cW_Sm?6?L7TSL)iUjtNLt}&Ov@=D6BYd+mr!1i$_6%AN*tyt9ok3iDl7cTF
zNSOjD$GA8&7~n5S<+2+Fmb%rwD8TAWd9(yMcb=BQ8b)UWO?Q6rNnfo^`Ut+@Icjg9
z3rm2Hj2J|j0sN1A3BhGy)h>9d=AM$=jV~R!+&j~etlGG+PpaA_S;{XzI$L(TxZ>LI
z)!{_(2B~<%{PR+=|MFwWlDheTRMNF%l}h%|+$pM_uaSy2FZN1BJ1_U$c9g{{TH=nD
zxTR(7BB80uX25?!1ZXUdVmeG;%bL#8Z6IdtC{hktF*}yUXUDX8tU4_()yXa;ZzM0O
z9@-&m%>4VpADETn>#L?{u981y8a6mym7D+=aQKL2#<}>+4e1VTWj0Tna6q&97&EcC
zmL06Z-gpR;=<Fn5S|5&$$q~$=W<WP=mYq0$((k(%_MHn}2qVE46vf~r%tPNucx*6w
z&Q9aohlv`D`p%7ygd)BUUxdytHZjA&fpfk(;2Hp?M(TW{!KgU&Lc8zOIGfpQ+hi3C
z(TvWl+Sk|aJB<Y(FJ69L`3A-Tt4Air$MCA?I4eCq7N!Q#Vqud%;u|0H0YN$6?mH3|
z!>!c(2;jM}_Ez6>Kv6=-$0|@u28Kec-SkRYLhLD9K;kwGjJOrSTUja7^C{E$l<C5h
z_srP&vGI#zzEiaI`;LZuzzFR_k)g3jG&nX8PGteJOl9HRPuZUgj!cGoMR6Pn=sUg=
z`JS0_rF~<{rfyWW=g(h2qh5$)93PePN}{d~idd8ZHhcj#I^sCB75^hM2(XUwgyNF9
z$LAlH+)bB{e4OK*ZGP>*N{%mCP%(EzDrmf7yX7jGvwgdM#kJv9UTM6db>ZoSWAU=>
z%XvHEwjK9ug3U3rC*i1;9M#J?HS--eaR|996Ye_6T{qu>^||1^>E0N(ZH&7&CQBRV
zgHmbpjO(_;Gh2FP-`t6~!ymW!*?LQPo*R2E4gX35nzPYfwgNv!gn(u~lQC=AS}Z3(
z))caY%;mH{TWCL?!YY~0!b*}s-H?@1hfDxG)k8m|14036%IP5sl~vZ|LE%;FfO$w5
zFh84z8m%!af3DOUWA*;F`4x{vn9iQIMhV1V7mi2EJ2^@{(>b~)S+Q*06I(2Y@9+a=
z6W%jzy(su?!5^YIY@VG8(}IZdS(>(`ceP=U<a4{-&hpZN4Zi@uas<<RaOgsK%!iJ}
zL?<-bM{vo|bCYx$1S7uZ!Xx7syIHX>vyhf-6O99(X7ZWR)Xf)Q^KWc!^>wxScC`9B
zwms`_O)tWB`2c2jG>igY-rVhLZ*NCV`F9KZo#ut6d0S}>pPd{VAfkfr;?T&5kDtB|
z+oT6;i~4T*N*po|{oNf~9_&TRN2k3IuwrJv_OV@q?;ivmq}-H6*N=X)NQ+gBAn<1a
zZwQWoG;^M^T0%nuQGc#DLC@*9PTBZq1xD1Em~!bV!voV$dWx8`jD*idQ87)92%Rw0
zH|*l)aveR#Y#2g_nPzx4Povn^@jtSJ0DH<tp{Oz5xI-%3dHDo3gSjW>f^oO+@)3$Z
zJ_nf8H@|1mE7f;O?oOl@6$508`@5ymT}wSu>E3wZzRM@>WefQwv(LX)KR3Eu-n#I-
zRK9t|+i};LRh0b`Z^ul}YL<{|pXs?`jk{~&K5R5w77=WfY+IAwj#aB*&0iIe7aNq*
zGvB;)V#RR`C<@{`mY!X4K1wKvd$wq1SKLzki%(q0$uOz!7xc7Q2+U9~mmIt6#9F*2
zgax8mgI;aw&kAF+30sE^FxO#h6PZ^iD{Ko{!nt7^Z9*X{?y~Ve2Q?IC<^??M4B1|`
zye&WIcZ4mupd3Hc`|PN>bZyNc$2#e`Qvg0fPUEL%Z6VjoR<%8@OSyh`%A+T;5Mghs
zn?fJZ+6ad}LqliJ;+P$a`kF_Bm!4B0)^N!0<M^g;l+g|&07)4hnkr?8FGHmQ6Je1^
zr6AB?e@GRNPey?gYbh*K1cxf2%A82*kn=Fm)XAWTNFWrwG!Y(9K`ZnLZSxNNze@uJ
z91tPDzH0KDg8vR{@qien{g&^V{9}SjlUYMK03fdw+Q*cvY#YO;0=uIvR=45GfQVdN
z-8_55!3f{*<l1~JM>mIX2ssCE0vHOA&?LZzK?bU1cD?T`sMO=)rL<=Gw4O=t%WmH(
zU<e9iBp(edGk~K}f{}<Y?Rz@CHsk*1bpf#AU>48Bt2ygqP@W9rsUNI-ru<&*ZNA?2
zL7W)I?_tmvKu`YVYbql+5d##70t_6B1_5TVe!4gmik_pkJ@tI6@2T_ne__4P(>g1?
zdvyK6KT&RXa6lZ#JO|;A^;X2NvuGlwSC`&F1YbT-efqiF?K=pBjb^pd>+C79BXq3*
zC8D5jJbIKMfl;i%aEO7Jep|{C36Go=FJsD!FH!JS3cg0c%M|=3f>eI^1(3GW;IRmi
z0hPhy$3xx#TPJe1$W%?{ylhX;u!tHWguGl9?rj#_b#YrQ1OEC_rWaC{=Z1n2@hLnV
zupm$_TC5E6Gg_=u7kefqMlSKOW*|-kv!1UYAOS3$4<P4|XoJ-I0yc$c#FyScD#P%Z
z=fVJ-078!d7kDlVR2qFf#;W7%SNs=f)>{_w3VwK3zCy8YAjkm7twCzxRPmawVd?*Y
z3dlW@uj`SwOnv^mlr0b#1D`1nNZA9#I|2fRxHCXN!ifANClCmY4+H`tb&|LfLCQQf
zmdXav8`;GnO0dw%NLkrVDAHM-%H})@aTYgk37kN37;*7MCHOapMBYR2vhb1R;B9Nc
zs=35kciUa~>I+w1c=g3AFRof~znU%7Z&=Ntm`$i{oImwO?rJXG*@dFgRR_hKLUGxu
zi(+{~N#(WkSI>Xq#@*d4A-j;(xw?g7cA?RKC)bwo3f$urPA`%AR&(giCZGu;S4QSe
zOL?`cQ~*Wo?pG_XRDR;X9jo__88QA<^g#pouU^WDeRuPkGaV<a#R$1JI^}Vq=io%Q
zg>&Q+JqIUx4o-B-umLTZpXmMehk8S9$bQxma)68L!1?cfsIpG9!|42Xt&?tN=YOv8
zQ=I>KFI)Rvm+XE|s^pBu*watysd|1VpXmVTL35srrje=I@4xM&oziq-vs3ziMMO`j
z)$tAV8-+Z;8WAOy^)_uDxPXXdzoT*zLgsg}RHV$NBdh>I3t2<iubGvnCLoi;)P{^J
z1awWyqpu;RqI)Lc5|FsQw@l)7ls*K`p-T)uKRE;%MPN`2hBUaJ7|Q(gAy$H2KL045
z&CdpZwn#W7U)<L4=tT4q=m(RdBF(&1z8D_F^5(!2=Sl-H&^D&^_IUBPsLp?dzyR`R
zyTsInb%r`)TmOjacp3q=^-3YX;x$It|8^wa(zD#OKiP61*|F!I)m*s`OS!%CUQSki
z*9^htxn*<33(wy$Nwxb|YzJ=JTnU>`viasq7q+d~w%oFn&K1XNJ3q8_@s&(RL*Ia&
zj!MJN&W1ij^i#x$+WI!~&?S0_em7zs&6)<bZKla#3T3@x(FXJq4V|@*(??CIDwU-@
zFfqA?t$mu0?CAJ~uzU`J-d&FOq_T%10hCDji0#sz&UR^M$4I1o5}bpGxPa{bEZvw<
zLWI5y=Pf^Kt0u(p0dSX<vo;VsOG7Txqo%g5H&XX4wo0$@Apl3gQIT-eNshV|N5hYu
zPyWQ|Uuay4{>XW7HAiqZ@&QnfxU>UWCCzY-idn}~QM#N+<XB1ip~Fk*!Wxy=@F_vO
ziUi=iUi`3mDZYwW`f<t*tf{K?zLuS-e@~@q5C9o<3Z9k~ck{A)<HFX(+Ql>9d*<C|
zZgefXkHl?9_(!pq=84~=m;N>dzeB<AQm~VPe@VeL3g{>m=O~~R%~pu`4#j?t0y;^>
z->2Xx1?({W1By}bBm9rtKtP9S+p49=x;5=2#l3uzQcOEZ>5iYI6yql;#gvouuAA=K
zE!JMs;@0o&cz4J5_Px7rRiOJD(Yx$-wU8aG+18_`v{zDs?r3GV8D}d?Qx4aA4!Y$Z
zN1v2-rYa}iU1E{^iwsOTSK$9b9wN|%tgo4IQd;Pw4B5igP;NNe7-ME9k{wub7K=F`
z83p__<O*BQdS-;PCY(uboTzTdJ~?KD7fk(5@M*m%J3od97Y*iN$}yyLgt0d{U?@|{
z(h)B`_^*QekR2h?l!CdX)uBMb@^;N3eGR&QkfM?ELlYpYfPWYag}Qx5fnSJ|Alp&8
z4@rdW(PJMdb^vR!#|J|)iOe??)nM7R$bpYx2gCs)48sUL;FKXCOAzJh_C2l>?;#8d
ziIZYj_XaV1cIbs}-%0k%a51$~9|58|#DmlD*mvo^iKp_<iH?Is3aKOpBFOk2gWJ*I
zi$pG;00lvNIkw;6bAWuK6T131JkLIjL@$OSqnv^W)LYKa3HH%*Kn-P_n}+OA-|4r^
zDTl6+DZBOp4GjXPP(L~xD{|_4EtL&%AM}d&F6O-WN3<jeWTA^TIy$l0*))alcTIXS
z!xdLd_y(RU+arM)F(IICkJv1Q0F`AII7mW3-XyVMS}qqxRglC8FjZ<LfeDmU+9ZI>
zC<F+H<F$fM8OT-dtRZ0%OGxZ62~m|GHC(Jb*M7M`3UWeB5}Zy05ObIgzl<wdsU%!L
zsemeqp?jB4$)WvDgY!9DuiYy#<qO54Xrq!gyg`X+zp-2e030LXncS#fc^1o!ZdBsR
zxi9XDwkc`D?Mh7h4S{B_<ej$1>@U?vJCvs}`*5cc*M37PM?q;vEcb#S0&URu0eZ1o
zE2G53?F5RBl#f<SJ0MhQ4dskfj#f>B4he|G0YL=?v=stsX*_X8_bN3EKcd96Uu?iO
zMZ^JZs8ybfZH!qjd!oI{z0$+Tqt-rF8nX`5v6gXxZ<zf~uF^C565whGfd(Zzabg1M
zc*ShEQ^zc3i`b(iAHXi<?HDyG)2yT;mnTZH1ME_AA%{Aam%tZFzxUhw7^IyNrgENX
zZ+<4!;y)w<b|OtmKyPJhMDw27(X)f(+5p>$|CTbfKz3&m^hm<UnUrKe+bP69Mh*^}
zdr6ct6h0fA9KkQ`!EE0Uze_o&qLd{(b|I1~dJ-~_f#XN}dV8J-Ja+PQ;CSzoy~k6z
zfdC_(0+}apBvq)(aq7&;laD=dy7wT+`xDW?*^%I2s)SWT<$Iq#aQw`{-oWvmFZ4cf
z3XKJuX9AK(!1|pK8x2D~EfBr{mj58tYmH8VD3mgb;Z!ybNeC%%GJ$mvl1US(6Ze5v
z*#;=ffwm8*5|6TcYs4Ul^>S+eFHvV?;2bDe5pjvyE^on{ZY)+%QqF-RJ$-%Xzigh9
zL0l;hjRoJY<;=8CrwZirdV-&?jBd;}Z;`gfR8Dk)N#%;PHL^Q8*!_7NHvbwDIgyNw
z`ESy#I=0$5kjkea3coNgG8qa(N|ywzQg-%>*@HulCLa47@lOzo5M@gNC)n?04nBS#
z=~D$7IMc37J{J~$<T`?X0LE1+<mO$;k!+<awsHV;6^%2NSKP^p4KtP%TPY+X=(jxS
zD2Y32ZdLda6<ef=Ez1>MGslya&Gf8H{VlFUQAe`0VZjnFZT&<rl^rpCw=mK1sMPW3
z2hU3#CwWq`wDR@5>v@UNO;YKmmCnQQ(!<1$alPUK+orlMQMFU5+8M_?d!I`5J}dP;
zyV4tY?Np+wO{!{(w?DE{)e{d7;`uE|>l8P?)41Z;e5<VD^|I?_^W6&<mdm!y9D__x
z+}-$2{lajfeXrEMcj@`%_MYX9`{Re6mNq_}^fk^}eg|x1_p5t;YtPTjg6p99$Ij?a
zHXOKdaCyT~G{)s!aaR4LymO`NNTTbc)O9lc#8dGvJiA=}#hHWOcr@uMi@R!X?RsK)
z*XfyqA3CdU`&tveJ(6$FQs{$iao?V0-xD(jQG?ox^$pZhzGOLmUvYo5@90X&)|Ha&
zA3Tp+=SRJdt(5FqF4;3<`Gzxo=1KZtaB><4+ls-YGyN{%7oR5fc~E$ED|pR1anG13
zs=@%uUK=sJQi#)o5U`9ZX41hAh60?(q1N}xb_+0Gj(%BFb``RVu<b%5;9iVVARz#P
zc7@`Eaz_YcQ83iv$q5J&g_(5wD1bG_3!aQj)#@g&ahAO_ox4yK<O_?+t_7|JepIw!
zruP;EyBb$&w|waCO!^w$biU!7wf>GvjsC9dPL5FA#CqCqIn>uDeh*dnU52RK5FUZT
zJU%|cu{wsq5f~z#qkvYLNJv`BCGWulVF=F$K)qor6b%#};fwM+l$C;i!v6>j=0ChF
z+%Y?>w$(bJrXks~DY<1^vbc2By~+BNX*FM{s!dk-J}IKR+l3{oR+gMiM9~};wF#w_
ztGO&{mkFfv2c_cXRR>FR3MKx9E~$9as*By{3Eo1r?&9**0+w1R6qWsqz2onnGg+){
z98aTWro5smvmD@P&;XLvt5A;J&BI5ohq{6MSi)qU)*^4#kbNBl&LX32Agi&M69^oT
zw@@AsxO|4dxfufI2|Gew)L{Tig8Z2e@}~=GF^12fDr1-)&RZwl!P~-BWT;hmLlNHK
zMoqbA&7oq%fm{Na^a7bI6$!!%zKChA34Ukr0qwM7|9_855}v3-k8rv%TuZ~E($E=Q
z&R<_-lh~?+TdMdsV}^pgLpUuHGy$qN5N!o&OeZa2%fyYt_62rVgpCV3O*4Y#FxZSF
z&K4d~sBoLxNtz0zvSGhkOot)rdh2sSV^0Uq<J-o4VKB%Cq70wbR%zM<lkwowhx)`t
z%tam8NxUWwd#(qE3=l{|7j4tTWMbzJw7fVzN}C$HNSaDHQ^b6nD3m|r0#vQ0j@e@7
z!8D9Ds-8ht?7(fkz*C9jX93O$SysUMx$l_YmRrN{MruvQb(twS;Oz#_hFuw%aSOad
zFd`fwRXy3XQtRgRXnB+v@+t%^B?-SsRrX3<Dp(0JhK=va5}%EhC=a7$O3Vl&Mr{xL
zW{ozj!}<tlWLK0(o$NxLDxR&Rk+6wz%hMShm+1RywNgqf1m#O*ZpbW+lv79ZihyoS
zn2iSg5<Q&rEf{q=EQ+twbDBMGnZ<8W{4Xh>`3rJg&beTOq$I>2Q{q=Cc#i^hB>y?Z
zzD|J#db8QiY9Nq`ALrku7+Vn3>Egde;CE!g?4Q11_+jrrX>HHY!{TMyDZqgm6(WBU
ziz$+ifFSZp0h$h7bJZ)3=H$lq#Kv9H#$5zwHr;O7w$Mh9Wz)wt7lYZ8&f=uAB<U<m
zI!o!Vpe$KhpDd|e^@2NcPsq)+ua*j)!i3u=xqWeWYuwg~FllopY-N(IEMaSwY|Tlh
z2Y;_VcI7erB%Do>vq^tnDLE_IgDMFiZFzN~yj3c1U3Ck&{(FKg*M6rEQc|}{YZWbv
zgNe#ksj_wPV4|y6>grwb9J-rjF3X!a_{vcL_^zs?r|??t)!f^4^~pwmqH(*_xc!bb
z%bWi*Yql$I)dS!=;jEXO_49`o@X;L{6d`a?96^vKT2I>s+mybG>7i%ffF%QxjY6tO
z6SD@hM)w3nF0m+P9;R9{E|oxF(zY%v(d{}8p((0tk?JHDn~ZsWc!$C{*1ZR*>O$0#
zwFL`u8a6|I8P}jJ>5!E)sYEYw6(}XN-%z%aj|5$Zi?k<7O#NE({hl&yE&nkA9L)RX
z`+Xr~yZ?J2o~}x$eHDj+5wTFr(>B4FD$LFlCm`gC`VB~h!&S-`X}?-oc6b<&CB^Qv
zZO~vNQ~F2k$Lv^kD3`ViC}89~XiHwSD&=W21e?&_m&ya5Z*Xw(tjwA_lqyJ12rxpB
zx(PCJ)Kv9paR{;{kT)R~o+>^DRs#_nd{ZTO64WU71Ou@Ls(KcarT2Tq6ZirskVV6z
zDTlo6viA|CN2K+YazMHsf*?#onF*J3{?&PUmIHP)Q%bW??cxn8bcBL_dTJdQpSTnd
zCn@eBP%Ol;J0@!6w`qtVTiN1YQ^CKXpqENG7$OM)JOF7a2Wu}czE+Zmod{FaYqr<4
zbL4-aJ$4%cY_WEsymr1Q-n?U}ak=b~nY>%ojq~An+x{E9%hku?wu+A&)k$Al!nZ~8
zZCUnp&GZ7BzXL&%^4EqJidHrsTB(LQ8ulsL66Zz})g4lG$5K^d=W%K0@wl^U#d+dm
zN8Zddmt-gHvgdDNGq3a~Dm$dgj>X#L%C4Cc#7~>LGWGS?+;pO*L#pXmuIaq#?u6)R
zu05I8y6|kGZJ*S(Z@H}}-nu`ThZep${KoLV8kzs%YL>~h^==mO#gX5J{g)^ix9T@7
zx|ZwrN>1O*iMg#{h`(yTVo%sgLEM?ETCp`jYL(?Hubzu0YPzJFuH~9-%jMf=9!-`v
z&W}muTM=`XB%HM6C!BSXvu=LthfY87aLf2U%y_uONl#;>(@Dzq;g1nv#0mUnUJ)l&
zIrizy3uIanzc&QCRG`iPBs0=c1yBdTQQP-XYv${4FW#>uAg&u}tVW>22kpJAn1$3^
zWMT)0pBZ5A=Tz@31@9v8TlwT>-9^t+*&OJBCKQ)LC4@`UzhtxlXmD}{)>P@5nJhnf
zhvx7&>H}|@*u0pbH+@@XqOV^1txHRm8B5Y#ka5=E_7)|)b&|I(;cb?@%?pJK(5qbb
zZlB3c);A^Ux8AJZIvct+^v$8At{KN|DqeHbT?0U32GZ9>vtN#rm>rjeN~1^7fUqH-
zK!kLfjJuk&khqowo*N84J)d$Bt%{^5kjG%4!CNxv^8vHA^!=lAXe@9RVzyv3M)v$;
zzAE^srRB6T9Ci;t%&(!5obpP80XULqP$^R+jRIxoLW{tp#HorkBcMI}J`KWgQ~-KY
zUin<t>-(<ni<h^=ovkybq%Ak@uAOg4)NPUKwm|$O?&^|kUF^Zk#o6e!OII&}JX+Ek
zFK&yw+9g{%9=Sa;Hcp4K0#TC*QTgi<qQnG!%}xrgQ{blH90d&MWnk^^(Jg~=|BPaH
zDEJ2ok`#P|AcC(@h*BMtNI@@s+J8ZWh*B08h*BGb;__s5y+)VvZnJKIPyi=OmEeX^
zr6`dTr6>kLfP&RrirI-e<)9b{QA~P|6Q^911Th4eHsz*U50R$i>Oq+*qO@WnOwn6b
zCrp*rjq^KK1^g_X`O|0Kd*&`hS9d$D_0R}n5`I?1(F`umH)ov-zdmw(WZ~$NMQYt0
zuih<{?vZl$+|8j}l@_aa?!eC><KX2x8-0GNcz_v(VCM|+g^eg)3Z3ch7IfD76fY85
z2$kK3>Scv6y|L(mLhn*2UoHs#Go2)v5|$T+*a9eF9#F!H870gMN|+;*A9gZImjPG=
zI#nTPQ+deazE2*aWqDvECff+02@{pgpl-aCwOB_LGc&_7`KZYbs#qy%Enrl!Lag0#
zaWlF)_}5tJ91D`=ZAst{!UJTOL(i9&#Vv@M!^w|wcJSrFDuYZ#hy>-o;M?PSy2sbz
zd#>HrL&EL^JTT5a%&LH{1A8ZSLdu|o0@-?qD1=DJT$Zvx`5u)2jh;Y9D_1+}2~0fu
zsd64?heQaBYt;b8;);mA9*u6M!*#pYzS*$Ir_$oMQI-I&T1Q<Xfn%a!webuja?JBE
zh09SQ8hybRybv53A%O_i9~z>n#t3pmJ%>-8iC|MDL5qt+5r~z9FNDQQl*}b1n4B|p
zCx69ywOu?n1XWE8$QJ@bY>Wa!YSs*z;%Sn#xJX(LAt+T7Y#Sb<hWfw<#rZc%ijO|9
z#)d{^4kB`+b?bfz^&^C^p}|IaVx*SIrWpGqUzm%vx6!wuQm{BlO(fC|P+D!D+9f>l
z>qqL;O)gMxnf?N1lsx7Hk<&ULdpDqQqC1&BD+51Tkr}fAz3PKf#Cji0gi==N#qr4z
z5@hE%M5i{pxd;naHu;~F)~bqCabzN*tnrKEV@*-kC#0fF^Yt9q--G9T(Fvx}!8>Uk
z!fVQvwuUq5u#A?KP8J(b$eIL1QJeu^e}s^PgJKQ{K+u8CE(KQwWKCpNHJ#-m@E|i6
zpl=<+kIJZEm?kVlVns&GLWR7CQYsl2Ii1RTv|mQ_mC2ogp0WX(ZAvX-C(0U-PoYL@
z9xxA*8Z8dsY4d}(>#F&cato=&(pPG4SBbG#fDL@3jY!Tfnq`7>Zp<EYfC?j1cR)2D
zksI}kVz$dr%O5ns)Pi7iAgWl4!C`4gpCIC?{4TAx7|GaxI)uE{`dmDYRG(pLonfj`
z%No|^G!l!7HY@ocj6|5!M&(}n9djVPRl8SWupgu+cb|%GQl4nSP{Ui4H0>9)slBgD
z&3;D}sd`(U<rpXR+oIc*yeQwL#I;|Bv>3E9l%tp7A0w6qLE9Nu$fhT4BhRjk47gQR
zB2jx}<!m#Qvvav{IG5pPi+vH9-^vj$<7Zv1Dh|&xLeO7PK0;;u)lBe&^Vdn}gfZE9
z71YzIGTj-GuExiS<+rH}Yr=aJ`#uH#Hw6r#{W`@o<mor*_D?AICW2J?Q@uwIAA$JM
zV?76Zp9nm;C7_8JdD3VvfeTxB>lt!Fohg2s0{R4|hQMg<jD-#kJQEPm-pVquHf4y-
z7;KZA1n)w%`omjKgomLu#r7M)hZ%(UTbM?X{~ZAc@ppW}Bc@}fwXzy3Fabhx8m~B$
z&09#aqw$u1)1qVPG+`yn{$rH1A=%WDXzG=kdgB`oQ9}L4j(nM_f4lc+qW8(0y-$KL
z-jerG?~{w?e<yqP%ku}{JpRV<4?P|6-Y4(S6GrMMMF%dRlS%A%=C2|47Yo%b^s@5X
zOkgKj*)+Fj<~T#^@5=$mFJ`p({Ziw8Mi$sB)$dJ~R9t)U>WdK9Nx&#hX>+oyDp9sk
zD%%JQtFSat&>$5wBnsN4g7!qgcBx?d%C0j~!5K);fa2h3yy<DYT~wARYLbeYR*M*~
zzzJSK`5In9w^Z4Eqjkme*k|VwtT;OuOQT-0)qiMf{KY2$6M8Q~r_uY{sty;*282d%
zpT<6*$;gh;I1be{>;s)KC+%njl>)X~R05OE76hJHbWf}?%L}FmG(=)ny~PORvg&eW
zr`4RTdjg{JLop_@#feX0OngayWEyR!$`*=aE$gLLa9y*?&_USP3=W|wbZ#hzu>&~Y
z_5Qihzf|9Ds?Rj+#ZShCr)HyL{~ev86iTXxwpJWczF9AI#w?KzNc$Qc66`A=acjt8
zh}p?<(zF9_r;p9JK<;zI?CNNnqZLX9<TrSi(u2Hb7&E3yDWUy_RJme+B*twvtX<dJ
zxx+PDeM(Hv=3uM^#w|^G!A@WXIY55roARMl5zwKv78!IDc!DxH<8>Qieh=dli2nzr
z{wE3sDWC<$HCkw3`N{KtQtUbf{S?Fzq_W3gK4$zPGd&^xEhYbF1b$~G1K?Zq2unr~
zvncp$y8RmjDF^U;h@f&-0~at0FsoCK(bHTAbBIx9&4$KAzwvXKE24u<)fw*lX{S^J
zzB+ONuZBKTQRUp3`Qsp!7Hyxge_UBV-y3h)d&9b1c_?lxyX9+Iu*NqX`oOyE>x<i}
zup?Hr-^8O1dI~P*FU?)J1sXlL0$Ze-Ez9MdAj>m}MzTWHEtRw{7Jjet-AY)Zy5YT9
zvOn(GA1~RT+_-gdSlZZg<Ma=ndH)${<KwfAxnq(CtXzdpaelEX(Q#1fILJ5@y|;_X
zuk~N;pRp$)Na?5rlQ~&dpD6Q7W&Q<h^IIWC2}w=ob?5w)RN66fl(8>1OO=}!%a^|J
zfql91)XWJSPEPly^Et{uRhHZ}^LrBY+obw!H{ILfwrz3uwxlgzVNZN$<Dz(J8#G}d
zY=eFRgOavEn~jLc>hfb&FU1X5q_o9nTnbE<X2!~F#7zL781JQv@h1!*bZ{sgJO?&5
zHMh*6%)*96kVwWABmGgiUdE3!s<$IbR9$vq<1*MVm9J20B6SUJxQI*)8NK(#Ed6_l
z`}mfuq{!e<$STqSDSnIq3ZUmHPRlxF9h)2tkMMPSgHn%BY6bBf1Dsr^kxTh<VjMs5
z?~v`S?94UZOEvr#3jQksc1H6B%a^Kvj+tuw^rZ@b@+hrVf`-A*18Z*WG%WBX3N}au
z8<q>27kX|Mw8fom@q)HBTsWC2wuX6@u=ypMf5{cM`B!X*9+-F5DLFfDG{&8sA3Bfd
z7-#GA%!noVYsND(nvoTlhYAe>ovvI^=sAeNbVk*guIWurTgJdO!_0hmE*uFR8Gs$&
z!dbwDgJ76!Gm=eRu#y>O@C`JI<1MokV<>|}F<PUXFURL2bZeQ_7lwbN+%k%!kc`Fu
zi?XjGSTjBEAaSbFaC*udx-ZbI{2gRlheL;>Vy!$53DvYn<t>Tw4yn9jv0*9uhGn_D
zcg77F^@OA9rlV@U;my`JS{J=H>$ZGcv~_WOx#-Z9L$`|>W)2y!@fa8IA=!9KX!8HN
zY&=q9GNLExS$$0S%wRU^^MIw0-6!5f`^9?{{0zZA+FL<~W7-*eraZ7@#>|+@6!Sgc
z&NA%szf*QLY1k}b^X2c6rsoPWuGv(L;gD-A!BHCZDHOdgOYjk??vZ$HPu#U%vhBY=
zOVE}(Gd0)ndh7Mpx$3x!q_kw-V$HmTizUQsG~S}dK+HLP2pmM2g;?}(EW|nLj&l?+
zDgYgwTsN8ECoaZM+q3v*bW1DYJ{-l(^q7M8Q6kccfN>N{z)|d$If^P%(ceb$?nQ@8
z)(wzW<BY`$x?`M0mdsg;EXsL{EXtXSEb1gaql-lq<z~)kbh9*%%4zhn`+T9KVy^S*
z(0l_-e6AL-v_fJ(Dy;zjv5cjb69ba9X7!}G-r7tYNc<=qNJLkUnew389N(~gRiMZR
z*1vH6(0P}|SAF>p#F3<2&DoqIi6739r0yHQfAvxXm+pGdpZDWDu93F4%KSrH7(z?<
z51D&#A9IXkNOjWooDb;&w-NI2;5cTVEo9tA4{;m8-7JONy%QWoL-8kY83B+m8ToAR
z9<AU#dck{KC$}s|?~!X=H(y$<#i-TG_=@@11j<t7C&I8@tuyYg5qN@jOlNN7KaGtD
z7Ses$j;FwEf+0*|Mj34ZkT8I5HStL}<fAYLz{moRkqo_$;Xk(($e55UugsuPIfw1O
zr_RA%kYP34fG2jdbDS@w8AZc!#ci8`VFvp`GKvQtBb{T>@CdAV*$K4z{FMvV@|x67
zQ7w7td9@n9=vT?wr0(NA%RZY!m1&{M`lR7}P#))cl`+;QEVS}hYM=PeOigY?MyG+V
zS9^bOV*#fzp8vD+6loIjonu|TA}xJvCrtg*a4sq)1Eb8C8k2?y`sy_Kr8*zq7G+8|
zt0SE)$>`_|4l<&$XYe73$v_t%9)ZX$3_rh#$nToyNQ#-S2m##jD`p2@l5((1!C8qf
ziCk0zyI3xnFQoBIkc;ZFD7iFDn;k+~FN0)wQ01_^jU$mR?&~5-Eo0Xe#}(llAi_Zb
z(yOFtm^#VxX-XzBJ9vIFj>D7{fFBe2izy$ZNx#u2b>jcs{Rn>7^eEsWLgAjp2~Co0
zSIomm&%7ATR3IwezcgJlnS@tLp*LyzH(3`=P>Q6^fYTsGM1!$bbNgm4uSUEO*_03G
zVx)3+4~ECWFHDGgr?#zs;Hjzw?YrS2CpZ$>+pd=T7G4(dq2hn|TjF!X^H04$viRlM
zUGs%+R=!aw6|^mSKP=et{>U$w@tm(!)|lS1>$pG<I8#7GU=vH@N)aH>DS}y;_&Pm}
zKg0ut9QZZL^e{7$vwUd4zohN<dX7*11N71?bqNV7{{nbhrBLN3E=n0!&DGdF8JfEv
zyYrW+?+~moR|#;Ka7)q5D5<?wS}}KgxzwNZ7A4D@=&!7i{!}Fmutmy#COC5K9Nz1r
zFCU@cNd##|lBnm{Lfe7fOe2J)D>|g}BlL<6APR|J2BmyAh*C7yGA>T*HzJp5iv`3g
zLo%7NtWh(yGvne^|4V|le1Z0<%Tvp&EMPGDvtP{_$YK_=v7Q()EgM4i+4p}tENEjr
z4P;H{z=wiPI~kfu7I7hs&td`NR^F7r>o6O+c7cI5c|$>KJz6W37`gQT=fO}^A(qQ{
z3U>7N2x>1<%4omfcGzKEL}>%5WZ+9PFJq2`(k`fmXxs>sk>-|?6SY@o){PBO;l@<1
zeP;M(mApw?qwy@7cC6peX-}*=6&z<QYu0pm4nh_CVouQ$tyS6s-V01UDZRwzfdhnC
z$8epJL;FQP8>H$uCXP>=+pztSJ?%<sWsa_ud4s~V`@!e%v*>Yo=6Ygo!~V>UxniEP
zdQvd%nJl#H6`w_C1`Rwz5;ag}i#O(me*b?%{YaV4pDw^W^u}!TtztWTeVB$Dw0==y
z@_a40&(nfvlad=k^trJD<&Eq+a;FP)_HPWI$MVEiqAf}tpJELsn}mUk_5q@zC^J|2
zoz~ebGA^a$WV=Vvn%$#F6EA@k9%W@0#+VbUSkYNC-#w;_VS&F0Z!i!+3BfU9tT>cQ
zH1X(G<tx!s#k#ulmAW(gZry#LK(`N+;LWPYit+{mU1BA%e5FRf4gW;;7Ghbt^>5gd
zN?Xojui{`)%r<L!$r&a23w9azWe9bbt7CvX>+OF9#^qJM@p|QQ(^gsf-2Szg$!YCN
z+Xd2|z#OYGD$}L0QkmbMhj^Y?YrG@Hm;raJSi}8_KZPG35G$q&u+tfz9r`&#f>!y;
zcxu1u8B`j1bltg^b_R`Y$L{M*-+e*Kmv<dy_Z@3U>j8(Z2g+h)k)mj~(uUzZN=*9=
zIh8pHSmIZ<k266l1_xZ^LRVSSMbp_3yK?n0p7J5CWcDqzD^)ZW4u`-W2ZYSsop47d
zSTURlP3BBUfR_AZGH*tVKMkF|!7&(h4#3<T{C5scT|UkoyZC|%AxJS_`z4vVfbw6`
z%(+7zSH{YWsY=id0@F=T5dsQG1da%hYbLf!n4?AkYWLT04t+m0oVe?ZSD*4Ss*ud~
zXNrWW+%WO;h(g4n?4MF*M*oge3@&s9aTKvsHmqTW$3om;L>{r*!R}+m(P79+_Cq!l
zf@e7xKA@6}S?H3xiyM>|Pt$|PDInr9?9}3|QCLxdJ)_{jz~ty89Akz#&G}`@6{LWX
zn+YXIWpi($sT{eVp*ukM5HlX5LCTt-fOv_X{ssj!y4+=04t){40Sjbv4py-gr<}ZN
zxZ4XZaBzmouy&B|BGwDc;TZYT3x!`0sjHy9uDP;`qzX8FPU&G*Cl_I;Mir5Al+cip
z%$QC(q4_>IN}7zqB5md+*dM_4^gMu^fxDV~=fEYN{i=O#pX6ytcse9c$70)x=aJ;D
zBZ*xnq+KVLcRe<1O?a9hF0kO1JUgJa<0`mk6?X17-DpVcKPBxywX);%J;<cxf3)ND
zyOu@MV#jRH>~x~UFO~S0OIoDDmiUg-pHPNb>x!odTrO9^PaI{p%6#)h3(m#Ra@j7(
z6O?U8l(k4@Eepq%%eF6d{ps%ac1vZ4GX)K9^EQ+IWtZgZTI|13_QA1b-&3<L`i{J-
zc@Qs?JdN|?E1qq)w(VSMOmz22-F?g3*hkb!p1OH_XeTl!JPnekA>nDkcQ2e+@pLCW
z#j4mthKNUoNXKnQIjq?dx2_xtT^|)R-`adUSz0%LVzC2)Y8}N=VcYDnc^6cjO6w9O
zO;SnI!k$FSUa4j8&62%w&)#^+Uii~Xczlw_H(#~l*@Rao>l@-u->rt0h2D7Qu@8Ee
z8=i<eYm+;=XHMLzYgss$Xx$^V?)g#O-m7`DrrBLdPZj@w`C#0?XX(rF#z$8?$CI9h
z1qVJ49|lh)_4{OL6Sb57<F*5mXUnW@u64nV))iLIm)|UCN!GS3OeQw%m+)7+fA&}s
z?C!0J&O;LZ>JQBx|9I2>WNFph)WU9j-DZ4UE56PN@s8F<Ov%Esx$gNG9<=65p5|Hm
z-0?f8*ng|i_wBMo?N+IF>*Di^14{=JyH7~?+je5Pwr{!evDsd<t+`_nCcySf9s5_B
z4&1Y5H5C7(>A>~Fb3Jp>ds#wR<y_D2XU`YSKmSJQLRZ|kSt{L}Y&w7sE2_OCATz$8
zeM_QkkJPqj>G^nT&+PH}5(%%~bb^{2d*{?*>D$lhn~VZYU5O3d(uVFNzTLSnjHgZc
zaSthmkz^v9A6w%a_bk2eq36iz9%1`I)9PMKS4_Ka7tEhdG;Wg`w=LIhzv<o{w{4HR
zw?jTga@5|cU|O@ArJBw0j-JI$@tXb16$frae-L{=CRLn*Jv2o=629chb}dE!H1=Lh
zDtmP17<!T9fz%NqkAwX;-A&1=riHD1&PY{zXYI)vZH#L6&pJPD*=x}C)Tg^Kw`Zs3
zX{?&_Bxl3Su{j#6#@4inB}*xhQnT+EWPZ>AwNMv57T-#DKXEs}x?7@Zvs49%9;s?K
zHK3J?94&TBHG6N=NHr&CowrFSh{Qe@x))<N`j^X2X0F$d3L2QQblPIQ>iUVR?pE_b
zEP}Zc3;WPgKU&&2bL_ec+Sk>M^Jn6%yO+YtRR?GKJ}Q9mh+<mVt7dai=e;b8H=j%|
zmp_o$&@b*@q<!ZXcQ2SQVIo9Yc)zpa2~YNa$gg;!*p?<xL=tNR(cFCjyEC!7r?Y_9
z>8U1$TB-`v0=!GX>&R21#So{of~c6ChS%Yq;dNPr*TpQT<;ybmmNRXGT~U?v2_mIR
zL5Zru7H3t1^5Q1oZw9mzq#6iIFpRJm&s4%EzFfY@CnRj@5S)Wc#_)(1QovL6p>ge?
zVQ3T#lCCs@RZXCC<R~yCFqdgyE?Is{@MUzrT{#Yqz?&Adydv<Z0V@O0*n&nDX(lln
zOR|oa5AFgv4V-hkV2cvgj4!EmaQ!YQyuldn`F7t?;-(Q34s|g%eN0;o7L(Wk?HdY_
z2S7Ym+=r?4gvd6*D6|S?aErO$8-niBCA1HwFr%^y9W;>}W@M^$fXukN56x^80c$c(
zkbwxI&i#(s2+p9Re&`uf+^&(Sh9LiT&YMI{)FDiPjlWa#_j4{9orrXA+H`Jma1bp6
z)D?ye%}t|2<XvX`Y;@Dfb3<*NZTO&}wyyJSWCU8A9Ehr)tC-axIZ6iV^ug|pkANRW
zfvu(3AU&hO6^TYAGSG;is}%I~n5$V1NHGuz&IvGbkOvz$kLGY-l4J%HYdRW<(@#}1
zfQ!Lw4C*4VleK~aZX`7jA<-S`Ao*e-Q>u=c29jM9Vw#X+le6OZXaJ@@2hLB7L)&d?
z&wU`OPcOb3yF?^~cY_>UF8FHWw#sDJwi(y0>ZS!tqIsv(yz@uZ-B<c%dS<>1^E(Nr
z4^|iEYvYYOmv+T#53e|nBys<!<lKaG9A`DV?%IUTM@*8ledfsQ$ow&Eg5HX`tt<6A
zR=Q8b>-r!7kIg<&*dP@)ELaoGJEZ0vHw$;%ZrPk@d0c9FJXzykazePi^$F8mK|6?X
z+|_SR)NPaMwlR2zfg7!hcI>zHd2weA0b-E<td*R#^Nn%;?xk}dIuGBep{6jRa~hSI
z_93=A-ow5Cen!^ipdQ;Z@K0KZy#cUj<^{T)N!wkBUZ~&W-p07nWxUrxsfeglhP9>(
zFk;Vf@tX7@s3q#Y#we9pX`++{Gzq0W8l5EVt5xh;*)7H2!kY~w(Ye}}X2A<~(NwPx
zGX2HS;x&nG$|_?P?w1mxoXjgE^9QL>c?~Hs8Ppo<6gnehB@dJ_D|0?=Xw{3+17Tm;
zh_)lsZyu&5+gMK;HOiouGuruCTeW^UGB{*7Yj7Tu4LL)#IVh0HWf;RRNA}ub=GZ0M
zknEVQDX)x#JqKpmd2aQ08#)@2WQ<{xv2zh74VihibCw{UDx)(X0JIz8DT>f6uQ6p|
z=5|Vvi;Gy1TOlre%eG)TkHtTy;5G$hb3pt<im52O;;lv7Tc1>NrgC_D$2d-WlG16b
zH}cp*+w@e+eKyTBG!*i;U!pDY4V1zb=@guB<z6S7T-~wa-pO_&awfhs8h`SsxM$Of
z=V_oox4cEO;oq)UsqI+lJQ(-&O5R?5PRa%hr}#D*A|pxK#onboE6$@yXa2h2`N!~2
z9$u;1y5iWDEGXf6N%4Zsapz`)9~ZztN4&OcrC@8^xiwy}74}~fzHO3k8$jS>L4%qx
z2>`c4Dr<{xdgO*z+H_#{@tMOPdkbezCyF*mMH}Kx+ZWvNq8-cLolA!$?|~aZ$$R*N
z!;<F|xO>+suU6iHgPQ7@<Jgb$i@CuSAfevQ#X-rt2QF&7J;{RdJ6R@g#qENUYrC)R
zMt-mF4onS~+;a+*HDr+IGoTjC=}nUa(>~xX7Bvuev7|OxSbFXF)#IxUA-DNwLbl9a
z^k*~CKxXBZo3ANYUp$bB0w!p>5Uuz@%#6@3DYCgs6Uo@jNFhC;-~tgbY7t?!Zw-Y4
zArV+mZMDMy2p0$}!wr)Mq{M7ld~Y>}?zluC#kfEq#kf2m#WKVJDM=>{NVoYU_$R*%
za(^Y1R!U-j^v=~ICZVb2PVO<YwfVNYbk#}`G@!KVTI_0UHHX~-!K<2!UN67PvaLRC
zsk0t2C5tw!X0gcj-QSD73;daGR!{Q!TJbq<KnD2L)kb$pWk1iw9p?;FpADdc)r+<Z
zy6zH;bYDrpa`H5u;WWhp89=yFVODkF=#!j!!ZnJqEfSu~1ve@@mIo`mYi*C%A=gLt
zZwp}QgY1w{oa~J_Lq%a1vnOJ}WrWOM3G%oh^H*`dd{iHQ``K*R60!D^lpvMxu2*wf
zi87Rcy<phnEr66@rATrc!8mq(E)b)@@q}>@&<<mgu>T5M5KR%XjR2o2!LbM)!n6kx
zWtlqTqO#0edI`n+?DLZ_pV8_&A4UL##|LxzlU$_l0&KXBi_C*bS_62?xUX^<m5}X=
z5N4wjFVxvLp$gWD7oJ8cLmiAQqp<HjN8VvnIX*7WrivwkWc(Z)t^hSb`!}(s`=|gK
z4SOo1AV%XU{ETuTMlCn{XohX@+{}1xs}FSF=ujJbxQRIp2#5Hc*86@Y@|f{Dh*xry
z52h$!rU|asNxBkNK!$)n(x<a3<(839q)H(VhYY15&ke!U$QV1%yFrtOCs-d(k_`ki
zn|b(Zs#_h_u&7D<(PzoUmAuSrsXB{TW3>Fy@hBA8&_My#A>EKfM1oK2F|DBPTa3!X
z;_#<dkug}ni_fa4pMp{8fBRq|1hZ3SKB!GqUIqIt8SU2^_NkJc|11~z&vKCu?4F5l
zck9YTVm%tzTIoA|h#9#~Idsc9m8&k%lsjYgrt-A}WsY-wkUz#5k>PuV=?^hiA8Dpo
zh#JRm=5GR~VWwEfd<qiz#e6a0jF#`n7ZdWycfk6XdK464bmmvclnbQ1_@&5Jk;vq<
zGfn=)qU6zjV@?G}MU6!3WLJ!gbf|Yqsvw+y1|M0^OvI=ZNZlLODW!XZN~;{J)0H!P
zS6a)|x3PDtwV;(+<J8zRyj>a5JVRuT#(?TcymP{VV@`@8kJ{gAl>+0h=NZ?#ehIZk
zgSY-_N)6I{QRjl@?dpnKHd*6}<;7r6K(Uf8o2`*4#|)!YL|C`t>ko-#n2Hdz+>Re{
z2L(GR=%#>PBhtvEa@FH0<)o;xG*X4SyMTQDMmVMLJu3Zu1VDSQP~7Mh-=GKgU0NKg
z{Tk(C6v011EJDNt{V9dGUc9p$P})h^+M6untT?(M%5ww&H%Ym!RtuF)B-L4(EUSa<
zj=W?|JKa_$9aV8hW3m<)V|B8wi_&U-^2o83{B0}wJK`rFpUJsZ#<Z>&e`9dDY%ePf
zYaXFQahp`!cGJ<8^wlztFSnZ87cMSY5<4D~c09J+e3Hy|H-7BfFdt1c?UkDL-pE<@
z9pS!Vn*H?K2#+O+qDHBxamIez<$d*wSH3tGB=eD-68@??C0FO-MajAMM&S>t->;UO
zkCCgKLf{C<+jpgJ?)2+ly#7VW*|IPwIk&1-y5}u#=Dh)SOZ#Gp<lM1N@@kHy%Fe`G
zfq^O}Mu0uSfH(=P)_l6aD$yCz?7*t*mA}W6^|cA_vsetb0OU8=?ARh-cX^`>+K_p%
zO~a@zWz$%<zEIX{76>023c$uxM{PhbEV6AMT5$029m0<orr<0EU*M^`X~nSxxCgOR
z7Mx8f4qT~IQ-z$S&V>_5#9{*E^mLD|WdZU~Wt4BK#b8COm-#j=k@I-xW#P6rpNJXN
zSF53I+Wtnn<lUUiFTU1(wSB%TQQsxuFTZQa@~3(4<w@Q{$>Q>BV^_!KpI_)owCtAf
z*R)$I-hIRJgS_|iq@un%xmKSYWOHKVH6+|kk{hxG%kCX<+YU~7*6+(SB<vKWEo41q
z==)9^gF*fL@`p^X!Q1Zx48FNf9KaWdJs8!r0nO(FML2@-aF*zXQ=e<ff8W8>XZ<M+
zB?;TmP-cvyVg-2q^qXIN<BK3nVWed;m6CEN$5M>}D+d+DQ<rczN^Xc)EHhILoC={5
z7>!w~J`5<WdA7#Tip*>M;W(ScO#fyU!2SAV@Z_O}9Pc1~W8-%i)by#li$R(7TYENZ
zFl#z1mZf9;TBgB5*0V*7*&zzJ^*OSBvtw4+VUw4iETn9GDAq6BvM5Yl2<ETH`pt=1
zlw30FH`|}{8CbtWg;AKT!0G>)^~->vUz+tB!dhVbU)}N4j(v+*zzi&8=M#es86%^J
z@)uK}vVg@+bdE8RL8AJuHR*qbvS%<y7+aTse)bs%xELJKj;Fc|Hao^TVeIdKF{>9;
zbV%BvI8)up^Ul^1)!r`^`4<j;r|+#ksi-^d+;!Vi0M8?`Kvne3ue|XU$+MNEFtN9W
z@3g<wPNHu)7I-0Xf+Wm#$VSQANDSY768^mVZgl-%@B4ct&*SSA^t#IIGp@VUzxKRd
z8US|U7Gon@@5B{bHRU}`4~T6UW=PEdXyO;P02QZG(lkXrg}+LMX*hoqvNKti|5n3t
zA@?HVEGQ*!OyW`S^ITeON({W^bud40hv|!OF|#^6nih)HFJ^!CI>E(OC22H}FRJo~
zHT>+X8C>kc>$M-fWq?8IoxUJPTD$p;SY_P$7wKU8lp2|TCSpZqT<P5Mb>2$`Fb&GS
znEj&4-{ze5koAJ1X&@Ntyr|kP?ATB_+ghV^#$#-0^F!qysPp4ES_NsW%uD9N*DC4Y
z!mCC?RW5v;@>KhUOn$D+g$K8x3=d+tp&a_1cEEaE4lKnX9?D^yb-T<zhaT6ORN_M$
z&Rev%L3^JPQ@PVdBWQbDrrWGLqg(GYCw_^yG3PWeQ~EKQ$qorXvl^$H@wa6jImJ29
z%Xrh<aO=<Jc^Q_IvHP>41>y}Vb%cUR3jU4)cFHhzxts0z<W!Fn0=aq9E^P5)2BZ8S
zr5&cgh*3_SK^47H6?$dbm0~Zw@xM^;Unw|A0h5AaU$K>HBsp>>PN*DI^ve$`I_;+F
z)*e=wJn|}Ru8|Gc(KwHsyJ>0aTs*Pdv>yVzv#z<xTh(=hUhR<TcP!U;FIVrHbtJ3(
z3++<%PQ)DL25fbbeooeHTB_x?-pJ(UhI@h;LX%{f^V*(o?nxHbBnmf4g`1KaI+ubU
z6#hl!4=a(aXfv`E6(gIsWIawiRla!QgRZ~W{lndHPb0DI!LioYxfK53^j|#l!)M}!
zn^p?@!L3JqBxI!L*SiZ|o&K$9c1muSJlmHXH_ohh;9Q2-`16}2cSqdT5qEdoE~!YA
zY?VsLqEX4A87HHLbVx-Vi<_2<_RrYKuvhV~h`SHJ#S7b|$}NkJOO@M}wo4WJA;VkV
zFn>`hZ(sCE<y$~_0j=j4<FQvsHuyek0@9l(-UM%|YnbgWA-DRTkOPNn`La76=1GT~
zsV#=#(lxQ=QEAJg$&N>oTYHk7dy<>GzUO?`2_C%*JbJ5ZFGff9v12TfWdou4Gb{d%
z5DPez9m)Y3i=+3Yeb}PpV-|B<y+B6Hq79G!8;jB?NBJ+O3LMLZnqJO;nW^|<-I50_
zW8_*Pe?vX5h}rPY`4rV&n@&-Z#91Bc$ElGt)m|dsXI!$Xq~VdOs#S5-UKJeBsxVOP
zRRIJom!Yt%dN@M0S3PbqQVO$QE3PT$8TvqrDXP5&B@N&F@T$FO{T#(^$S<g>;_y_!
zuxV25HD4}OReP({e5Bf|Vuy-y8C1dy4s?v7LFz-Q_SzZt?^E8d{o+tI00xLb0Ez)A
z*F993b&mM^y@S{+#_upVzGbS!IxT+qw}UE?uJY{Cjb2{bxaR3rmOJJ;D9oCkZI;E@
zJ=0!*Pwq4&<PBOMD=~Rxc`>Kgd+N<lGWIHSNfuG}LbdYWe}=Inl)<={Kd-)A{|&$T
zaa`x!p={$Bp|Z%<otGhaISaW#@y^#2x`8U>$2@Ds!)&NtV1r7!rXE0w!fnbd(0);4
zfmWjlGwPKVuG$>RQ4tB-tofztSXRi+)EO#6mT50)Yu9Q~Vn|(QET?nFVyMBvY9Rj-
z4_BJrw^@0M_Iuy=9mM;b?0x&zeV;*{_g~-a%MD81uO;_c!|Hl{k&Fhcw<2?2{H4}w
z+WXhvT|Bydr!ZEis!|uK>;0j|466DMIm*cYP(6E}HyG4&|8f1i-p$s#(c5vF-M<Cv
zu6LEBqVB&A<MsZc_eE{JJJj_`%=<iT%_y<yqOmgLCrI6*<kEiG$x#$5QsJ*crq=!d
z@RzLCo(6e*s#?2OHyev%#ZYVSQrco<pdqB1ePC+s2GGjq0mI1tLvo<VUXZ59ZbsX<
zohsrva$Njd6eE4-Oa>&gtj-9ykI++QZJkt=r!F3Ucop_F2(TtRc1~4)f`lN6&#kMu
zUTLJcF4j=%eo9{<Q4ps<)lC;`>FIe&tD{&w1*#HyCiS|3o-$4JAeHz_3K(gEc&{SS
z2*f4|ni2R*?yq5<${7m1z;xcjR1NE9Mm9*-GUu92T3@R~kd%k1j}vKwGj}5*(Zjh_
z0Xt_BLg4hg$kfLP3m~F{!KKq3uURt;?P+v~FA@==AB3a_R2i?Vn(tZYk&4@A4ky#p
z$G1bIy#k8IT?tRO<mrZFzUS!rI^?7R4$}My(`nQ4#?wDMeB=3rj)l=g`y*2OBg^gk
zrI!7WpWk?z>5GFf@IREcIOr0!&1o(Geii!SpsVB;%?9TR6J>2sO<1&iFYnzv&?MrX
zeGr9*n17<MSt@K^==#pyxAsbfJ6Q_p;xB~0GxpY)RJa@545mt3RLUqToF|fKJs{z)
zh?JMV^8Qz(!ZYg?^t!6@VC26tQ?vNvG`0R)pGo5!UAXyx$w29x>6YKFu9+|7y5+LO
zLG7V<)#2NfzC<PSLD2QRz3=XoDtnTY(kWGTE{480_U@Qed2rR5RZUFn>bgW#hg8);
zj_4ni@K^O{vbyf|vFl^d!>DRwRizgM1H2rpAGKhQBFQ6lJtkE>mR`CFeOp(4r^M4-
z94~CR*C1@}qpykAY+5XZ_MNIj4_TcDR!IL56w)6vF^zOcEisjJ9kC44!C4GVbS%pG
z`kU^?WQ}junXIZM5g>WQt9D<tC%wM;12?@*$(s7tzjFO6@~o-Z%kn0w+NCP;A5r~o
zwN$lFm)qAsGDC{8zU13~BlLr@_s67~(?$hn?a(*>Oj_+2_tt$zdhHLdzka*Cf(t;Y
zUmq{qa~n=8@~-DC6n>}rt!k-sJM&-Umr508U}-ldNO>_PNO|?^)z_;R8WJ0K!TAN(
z+5gIWUy({-TL3<f?pLOEA(Uv}C*f}+l>HU9VCmz@(lVNU#dnJG8ent4cduG#Jw^r;
z;uS3m0Za?kf&!^|G^|yuSB4g&`porbuG(+&$inGF+aU>mRfnLa4>J_~Qt76dqdzg$
zyoaaqy!v%??``+hz2Eq-y7!-)vI;F{Ox)K}bLmt2EHK8dIx*&YMuqF^871ft-ATc9
z3fvT&qu~1#XvBS{UG#gDMr>k{$nPS6TKO<fQtTrHdY{Iflt{s=#2%)qn6gnBERX~8
z+1QQ^G0m@WQ72RTk<E|e=5`UZeJBw`^^(;bijiv0YA(g>LX~g6;rg*v2i-Zz-?58g
zd1Qy&O))4L>HHmgDG64`Wq-#7bjuBnQ>+vw(O1hT#?6gWY}k}z-MLh7SHRC|eztY{
zV&txXpH<IBMY)JY6y+kiS^W}MF4||^%an`oi`FZuN_3|v7v0UJyJKdi+jL3MZK8;-
z0J~L6{5+R#xg-#EYpMV)eKgM>T=!)F57bMcKHlAc&cC0M64ZHqIY-IX5Gg2ebLHzR
zC^=v}JllwxDmzDZL2W4SK6%JFvYV+KDPN|3svv|t#&w4syj^RYBa`wHsY#J@WKBJ(
zTqNu#_%lpyy^ayL1b_}FjTX|jfm_y5S)+w1_rPKStdy%dKA+Jua;8UP(o=exYZtBO
zIa#wsAOopw_-)J3GKu-%TG<y{liH5F`c(459P_bM1>}7iNx$*5>X`XyIA;FTYN#x|
zaw4sAR-@KBm_>&jtg&cB`vUG1ghcAPeVJVWC7@rab7x=Qc$9RQg77Izev5%Mjg3dO
z;f5P)P1%Mw6n?#w*`RX*eGw8;iuEv5MyMB8Y(kBhqEkvI>wcM)3ty1zM{vB2{6I5>
zHB=lLXN_WcGDbmHh0hlp3=Tn6PD%S^Rezx1^?AE_R@<huQT}}ji0b*F335SAmOj`}
zkcoe?oIwh5VmLY}j$tuqUq@pw8VQ6*kGtD<5O&gh6lEq%sQ1}(GAp99h%SahlLKMM
z&_|#N2Xp$WlVRAQ<1V~;j$bnu-dKxI2ZnldF1&yJO}mH2FOCIZqHfr)jyWGh_`eJ4
zyIvkzHssN9$V+3=$sWU*&upfk2}MxYq6=YABf8;)(HU}79*9ophVnD%Fr^!2e;H>1
z_fh0sv*a~Jid0_ubP~Ty#r`b??^5tb2nH1SDk2t9oXLKXm6OlgeY9R`2gE#(9WpOP
zf(N=S1jDh5=}D=1$+<F~sxoC!kCKl$Yi@*W4y=4I!|kv_#I#<rGMqIl-z$K%ECd`%
zd9=vj@RsF%44(}fNhy(Fvib(4ZYHj5K<q?bReC8cuMweeJvNm=tBu$l!v@Tzs7l(G
z9X5k)mw7RV%^NdQ1p!iN@+g3`nG<oxvP4(R8gXdWeM8o_0p8K|RTG{*j7w*u@Bchp
zIvackL?3ikVLmUH&gqVv7tsgee?u^JhAB?d`7LkbbPmXyJxHXwvjvVwbkAU~YRor6
z=M2(^#s<bk5xU_@N$!vHujnn`K(LPMXBsZ<|M|aD?5h;KM*%~r9w*F+yeV><B44Km
zU!#C+HNQ!*KcV286#Nqf4A=TgiVaghE0$wy-=-Kf<iQ*`vp4@SWoK_;Z7|rVKHY(H
z`4i(8Pa5lc?MCY&ui)#T?{(+Xy*HD#))Y5Gx!in&RG}J^ex?8h@6B80M=7QLW5uAq
zvltRRu=SL5ma;!1@5^<aRHiyv-Aca|zgCWyJ=Je?z3aM_U%6^Fd3W5+$|}fP6|!7;
zckJ9J^S2w{Y<UBu!$kXDseSK_k(Ihr%cZAh4!&~qma`I)T-S21=H9NWXO5z`OO4y_
zShKwOKeJ{-T-w9rzv?At{rsT?XtkxeW4@pA2+byT5`7ov(i-t5&E|Pl8XNIJJuq8k
zHX>9l(#rp;JTO0Jtj?jFcj6N|Em=bkzsgQZ9+=_%`Iq#m94$cavP&oOWHz!~^-hk`
zM(py2z6c=RL0*=v58!3l;H1)dSvERNGrcTp%)0ybQi$8U_ky`rqkO6M`?+{ouGQ*O
zVwxO0)33GniErSMNW7jyoSpX9bpJOLyiNf@T-;5i_u;%K{}~lzbg_PlX)G|t`1)H)
z`_Bm03b?8b%4ko@Df5NEXPO9eo5(8jY8^>e+WDty)^53J9Hy6O-+cx>0LRIN6?47w
zyB00Wg<EHGGaV)0%5bC%V$<jCIJu%`-j(omO1{qJimsXCAGu4D8@DZ9O7o2Docn^_
zGxBTU`Qyvg9ZOY-oyVn}$6*<2#d$)t6P$Du#vMM%->tbvhL7Z~Oe?6Gd*rgEqc^6O
zE1&ph_sIWayGIstF{AaakVOX)G94k8GFkOBS}0!|I>~ky%B}GwOMul>-KVT9*jf8F
zEiT$ger0}+H%PV(i_gYw8&+%w9@x+EX34pEX%be}K6Li3<|x9;;!|j7nohWS#HaAR
z>na+-SN61dtV^eEMD9T>s4U}p$D|xpq)&-FD$=NBEJJiyHJhNNzb!|ZH*dR^uEbO{
z(4bCu3qOc)AZbklnPJf!5*P|)fc`Q6#|CdRl%s)*B~5D*3R8y89YpfQY|uBMEZG-x
zk@7_`6*-&EhA(C^T5Q~Y`YwaE!|Vu2XA4H|iQtPl8@`ycV>!$hvjyJEQh8({0t7GF
zF{SS8bBYWBpnlLKI#PD>C@?fQIX)TT2nj<F7*a7yIT@Bf{mm#DihiLRGYKvjm<wm3
zt`R*vmB;P#!oDJVkg^gXCm?!|SLe{#hPo7z9~YsxgOsVVwaZYZ^n90A-+x3NXmG&U
zy(i(Qy$Kd<RsEH|kE?b-`C&f#X6%g^Y~xqw&Gg|st8RtX;qkYQOI14)RR^W2gUeNi
z*aIjZx_y${7k9VDZLJ8A87#=k>y-<pn`M4t@$I|Ww(qJ1jMt&}hi0tFHEyBvKCmvA
z_sMRdt8Y50=eyqA{l@Oa+MD&Ax6<80->z>;)Nj36zjZcrZRndrOI<S#hK>CH+AXx0
zPkXMnRYuDd`YSnveu*a8%M`HL$Apg9>?2baYaK#YuAMNNH|U!*XJTy5B=cZ@GEuQZ
zs@M@P-x+sy%Wj-&$;QVPscuWWR&(PFr_UE>qt`B7y|iG7m$b%<+v2Wv$=1%wtm6;b
zM`99PQZ0<<Z;iXQNw#gst@j5FisEV6AM|Ht#L^!AnO#8>LyK{>%BfpO7>l`rt_C9(
zwiS!ZlXV+pMr=(z6lIt%=mTlKpy`g;eq_nq7c`4<%a1H-7b<<L4i@FMA6YcR_#;d6
z2xV2PUKZ6cWZ6CE$g(JB$+9Tt$+GA%b1ioPjUUAYG@`4A-~#%P;sW}R&IR-#)2grX
zfm}dSuHBg~psDZt`^84u#Qq)i<G)9c$_hR=AQIY~$_A%_8QP|2J1GSwt;B(I?PFu@
zD&K+AZ0Jl&c`l5MjJAVZ9TkVb)(D4~#UGJ&MQ#9y?axFl6=~N^<+A+Yu?rFLf1`T`
zyXRh6L>Hx0u@q*iJrI5&JTQs(w+~E4qOit2J|WVXlIk?d!!`Qb83SQxiW^sa4(8g)
z$;{cIK`sm6L2;3eZPB~#%e3#zr;LR3iiH%=DaaMpNsf+b4yMYCnlc$38i_C}Rw|D@
zpMYB$GWi%0%TY2_GcZ0n0rFi0hYO5DMqsQlt=%FawVY(e1PT9%ZvT{mBNRMN0h2$R
zq}VwM{)~bl3W5|c*~Mv!y-2|yQ1BfDDVrD`#At;@v4he!Q&32=p_5{4Y5hLMj#6+K
zLCUt9Ysv2wN01MHLgX!kt63(K2{y=0-oFy^ek@e~SSbD*!TDFhBR{v~n9M&H5d6#|
zn96=E)c;u6@^f<*?veYj>E~t}Jx6edf}iCJrtLo#T7E1%@{`=c*{7Ftt1oANVkxRN
z$A$7w+O4JdE&L?UX4>;fq1DvziN|U>W?J<)O|8JAR<r20(Z5i?Fu8bYsebY4w_c2I
z+$%Ni<4>MA!+vjD?K7RTSu;Cc3f#4##3$8-rj4sxYD^_dg-ZiBI+xD9SAAE&?Y)Dh
z4W_zyiT|E}-+NEs4vyHX+v)bG3HJv~rncGAdjkEg9ybf-g3F}|Q@&)%j~8rMHZ|Qd
zzhE+XXQ%GMJgCWgH%l-#ud<}o3yAA7w=A1l@0p(m<!r9|u0X$(xowpt-8*M}(qgj5
xYq#DLC~{A<9mzH|$4gu92^3j<(wSCS^Rmf*&pb_)+3yPUOO<WB!;;ug{y*wnH6Q>0

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/logits_processor.cpython-312.pyc b/model_executor/layers/__pycache__/logits_processor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4a424a394fc04e7fcbd720bc1f9c9e711fa30349
GIT binary patch
literal 4444
zcmbtXO>7&-6`ox#sTF@jQL-pelIgWA*<Q;clh~G%plWQmu~ElR)7lLJHpybm8A_Cw
zTy}PqSOg6?fZNh&+SrG}5`w}?FLB@ibx-x7hu#{X7t(S;V$lFX6QJmgh8!g5sc&XU
zN@A&AIs|9m%zN`@_Py`DdHdH;$d8~I(l4`r3M2F-8?>6QNo?K(;x57{g|L7{Lr4km
z^cZ5!lk()Glq9fu$?)cUDIcf3Mo&&o$(;5Xy*Yo%FCY;S-(s|-eCvsO9tiG8MCTEf
zZz9}Fd=EVC+=HfID!44F{$k>cV(80+D)xeID`_)VSh9&?nDbfNQZm%cDGOPQNnW#T
z-L?|{Vyov=(NS!Yw@j+#OiT=|pi|v2fPh|`*X;#Do$>AxE>{&C`RtNqo4FqpfR4Ul
zru8eYH?_Q)yFxI|=I4RapI)Mr<ZZ2B=yt}WIj7$}oK~P_npkj#bn}h)Bh(yhroaZj
z04oy&)<r213n@=8a({RLdx(T3_>09Jgs_)*v5)w04?Nu&8H<@<8D#|Adoz^k=|y-D
z`-zMLq<3-8_6=Pc2X~ooYWrW@jEqA!y{Q21+eJ$5KA(|r_@<N!?s_J6-v94h{h&XD
zWzv@saRlga8C?@n{g;rs#|dBLAbGvzhT=b(WD7ld9xHmGU@W&L+8%2n%hGcN1Kh0S
zh^=GY))Rie0`2lb)@q^>o5TWW5+!3AhWQ={zsyCRPblX(%v!oRR5=*81D03`F8)G7
zxs=w8Hn6i9B~J(@*kvD2C}(y#=n)Xr^UJC$IOq7^Wk}VmY>_y9CY{%|jlCAz!wEM5
zs#{t%58>p<mYK1&v|ez0l-Nr&pKfIW1|Ald?7#Ut=zb&IMK(O$cFR{nzw#o~idg}b
zJSC)wEq+OWQ8TU)DoHSs+C1@^V2QAT$$$>GmAo)&?`}hea@%5mi`sg&c7+vkYj#;s
z#o{GyQ|75Nbl!3u!bYrd6TGaP;RN$-Mo-%&q!+V^1t6F|T^qSpW$WhDUdL-K6(DiQ
z8rUssYZ_(2OarXzV_lGS?8p>i7CC)O7TK0?)E-B&h>>v@a9O^dFJ-HoUQJ6Ix@Bpa
z#T2k@73Idif0VRyg=8UHn6`B~PweSyOQ&9X@#-m(G_qHcg=Kre%qQP9j9k)9cH|mK
zFTpz{dE&H^o%twHSf+!Zzc|tnA&J(DjRMzt4Z3e{pl2hfx9?U@RUUaFkJg7q%hCt_
z`sf5a!W;V%W$B4Lz7aq6IR5fOKO2l~j3~eheHBmC;<MHG?0Wo_vh+83Y!lQWr^m=?
z3q;3GXj|GQmeWUCIaRxo)va_JCa{Qsg9Gppq|Cdhgcg~qjz&Et@w$}1S`ruA@Y@o>
zLJS62xcWVC&K}Uv2HciRNdzc*TGtThdevrL;BB!Du+|LIRuUHZWx6%TsNMIU7vXfw
z@f{6j83;PsXX4gbO49pp!>PLj!TZNqSastR0hrgNZSOG9u>lNA(u3wzd|ldA57-L0
zsOz=jxq6CWp0Dk4?G#~8rWq2lG)I|Z;A-|^@@_Uw951$)3*?{fsT!}S0UkvVWea+N
zH~|fyuDRHCya4C)g5xE*g1zkc-Xq!h1)J`Lr8Leu9zK$-=NEWPs$M$8rkT?z12Y|i
z&hfe0EarS3TXdLB_rSINo=$ObxHBG_j2A%4`U`Y7P$P(f{k6cp$ANwIp#!(hHGHUl
zZ!LVF8a}Z0d^J3IUw9l=>#@DHm|Bgg_op8X|2eT9`{5nmSF!lLvDL9P{r>Rp<DbTB
z>TFe=eWX{_)0N3HpHJ5=yi>jKP9<a2GRxJ>@{?Hcwyz$DR04bJ;lU5D-@0B2AF0Ro
ztxbF~{qb})mb~rzJ187o9bG%O9-9K$9lQ-#Q@mANx%4=!)cd0=6Zej;9<BCIfLwT}
z9HJxeF7yy|>Fu%7PV{rY*)`5W_Etg{+US8;xP<I>RFyh7s!%-b7FJ29z@}YtTb^xJ
zYl@zxre!JaJ=rSSlzD0{6%wk4GK5jKJ!Sbp6<sg07qQrjD2nUQzGjKnL{Bl^>DQh7
z3v7K7x*KRC5UvH{j|1^%K@^>Nm{}j1EuU-1s6Sc`J@cUG3l9&i54}`Aw`Ioend;Y|
z4J;^j%T$YP`+-oixw+>vVOzv^&rv(#_5HyT6o{B*#P*fh(umN{#Ei%Spc#LjIjB}8
zmRu96<OF}Zq(jjPh0TJA9WO6~s0z~j5^Kc|4;>yvEPgm*I)aDp2S#!1zYW}u-8VtN
z`U!LpJbh>&R*OtlBa^krR5dbn|NO(ZKaW=;Q|pm8%RY#ufoLr<QH@Njy|ErS#%F>9
zECz<gR?b%T&#axO9h|8ioB^^jK2se!wZjw5Oa@zRyEA?c1NfAIBBPrxK0?10uLE|m
z2>k7_z?C4x_(iy-xeSyxiwt)i?IVO)cI@H-SS__yLk9HD6$4w<*laO!OxanW%@*Zj
zZh<me95~i2L9|wxHmgeAN{40?ID)k!2K?ljO?8cu0xgbqx@U`*g_p4|Lw5t!`(ltN
zlB>x|>}Vx8RTk=UZzZg(?WyfQQQd!{qMWRRW~%ZGXOyq4Nca4!{@bO>!IKYhZRSFC
z=0fG<Yn9N&s(cYd!u@5L=NXpx_rV6|0Dp68gjG*@Jx4Un@oVhsY{_7BP}2aBMw8Q{
zY1mA|v?rUl9dE`kbsMm2ng%aiD6=&^0G;Ez%s=z!VK&3@%K+(kESu8j7!_*PRA~ZV
zewr#!_CabfsGR1>g0dT&ckFVt27vSJP4raqdF4hF9XeVc9<3{r_5G7iLs9Q(VPns5
z!^;Q&YixW4ulgH3d<Z#WsL{(wKN^iU0-Ow@!I71TJI5M)G2q|d_jQ<aUPQ^`PeDGq
z5jo5>MnU1o-n*qcC8jV6IS2B4a5cDQS4XCp;%LK<{NWGBZ;h`=)!y+<*dW??F6fP}
z{rHo&K7Ol#fP6^)X#Bz0WMpGJ47!KMxkfM0EV_;~dKlHAn@x4-W>W_wZ)D}{HwYf?
zg~2SPhUf`qFmC*QR&*wC7L1*}0-xo0D>plPId5k{nn?36YRxQAc2hXVyUDmkYr+kb
z))k<&%R}yar;o2}eR5lFy)9ER4`(5iyYo}zo|<3r@^@UMeV3krjhXkY??cz{2!im`
zhlG<~qTn}@M-ac3k#PJA^u`xx3JfL=-WaI~165(5GB~*|9C{|cB?yt*3!8{NH$6x^
K{FG1et^NaleGMi6

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/mla.cpython-312.pyc b/model_executor/layers/__pycache__/mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a96b047d2e9e3bfc7749e5eefa73849788eb68bb
GIT binary patch
literal 8685
zcmd5?Z)_V!cAw=xE&qwMC`+UyN*hVGMcJZk*^PXzY$vtixUMZFXWhk7l3T2~D~U46
zrFK`2rBJrh`cUe6S4AHR$yXHChoX?-_L6=&e<}hLC<^oo7c{WMq5)i7`yt<$Du)F9
z(!RILT}mp`#72sCWzM`e^XARWo7wk!GwXi}27LscjO$O*%TYppgN*ffYQ)Z80kJ`N
z!c!TNrKTwgX-CE}?SR~wab{i9E~Ctqac4c#9)osgnzHmXZP1>KH|v}BQAD5|<aNR~
z-6uT#*kS5_T<d1q?;rv_52M)s@ZQIiS!T5ML2JK2KX#gBcKhIxBN6x<3lo&?<vE2*
zWjI-$04{L#%B!y`ijY&%Vh(u!1uiuwTo7|J=~-au3yZQMW+(GNx4gN?f!H#KqNYU3
z?8r=Oy^@{lF#Zi9kZFo1(~cj3b*7zyYu>Qu?goU+2ln#F2~E6X4D;t{;e75EuIFyy
ze!dpGXSvCkP16guqhGL{_XXSeUa+121=|ITb~LPau%@BqzwZXyip?mq<Vl2dA8gsH
zBEOgs<mJ{H!7R!G&!lq<)Ft)io3~hw&2USCloO?_?gjn^o0r6S-6x3(CoQo;_J-~e
zjj{=yUI1~Uy2WUTB>R3^nPamHoF2s5x-t;1>GCX?jhfOqUbrntx;HJea-Nf9L60b6
z{w50*>69R|Hx_4R1S#RuX_n1#S%GDBAIoNqNdO&S*@Z<eQ>$rWSzb&*v0D+P)ST|f
z<#dlZPd&u4TrLMwz;{pv8P^R_%;=seAt#H{BeH`Q{Eyd$m27@EpUw}#TxSJk==S31
z4^H146^1kE8^ie}Wlqcu-^ygN!!QIP!@}TGi_qDyF-v(ko8glACCLlAj0E3O`R^h5
zDft&y_p{d6#-;U38<XpkWmjJ%)Vg+i_4eA`)w^X^cO`sqgI=dMLhGTjtEUn;uy$$n
z(%R%INOo45BWrW3b8F(NxaCrt`^&EWN;LkEen3AAJqT_0tI=fHm8?Xf8>iP#Z=7F0
zzcr;s5@lDSQNz0CO<oQ3mR-G-V9VO|)$42QD!Zwu!9HVbkw2QO#JV4LJ?PqYsj*{E
zUB{%CtXb)u*~N^KX6FQshxJ7t$a0n|+~e6gp$R@a1ibAZ@A7Tv*}Me*_%<GV9Pfgk
zTX6Fp$eZ9t!_Nyp2l@iu2b5p%@B#F3MoCbhYgDt~<wLw<rlUw^C_a2YIPK#P2>ym%
zzvUasLygO4JbdK7YdXlc-Y3(|&#QID#UF&$p(43WO^2_MM7!Q|6%BU@>~_U4n++gu
zNnAcJNZhXh0pLw!jQzw&!faYr1PR_yPG&4bVHA<!G8yrGW^!_hxxuAw3OQajN_pPL
zz>_kthe>Di86gX+V{UpzoMDtXfe{x$CBE;qUIx;+RA!M+=Vlp6%nQt6#(cdKNkiF$
zs0h%GQ$VdGfws(&(KtN|E<%8QL8Xx6Ze)aEJ}qO;WQEimmrKi8?9v*xq3ni`;=toz
zBS~P=G9%_dotOhUH>5}c<a-8<o@qvu-sdD9-hU;1OE3pDH90<crY;NmKo>e5hGTNV
z`^+1e#o1XL%N6ux^#LV)#xSN(+<<aM;cmht@}itJJOjh!cxEom^Fof5!EjIqrcdYc
zi%P9$n6AMxu<yZjfF3T#2+%e3lM=z$Fyy=>%%n3JSQA(qn54w;LJB-at)Q;S90M=b
z>^LLhy247FF~@l#X_)#ANdV6Z{!lhsjwG2k1PSbtWsEm*2;W4;eg$zW>>B~h%9uE8
z4ztC=q985pZL(*Gj4XgZhWTff%sx*hnI8(uqLech9QF`cq-FwBU_$p>c1te{x;M9&
zH9Ul@yX6#@5%loFO*RJ`%=8<4I%|~RmaCWeZq;f30-F&fj+MCFO+5hkQs?~OXlp1S
z>wy$TUM$!iLN7f4fB^oe#(4}o+}1skG4@o@^hZV-h7?1uoqvGz&!`Qe*p;in0{MlT
z5GxR*NP#L4wiaFzQg8u>ZH=ek2F_)3u7Z0R7$^e`=2P$hX9d5c&;%T~wOSnw9Bp$B
z;1EBIr{JA$wdi^d5_U)k5^ePwivkJ1O?w-;LXfaSNYK$?N!N3bu&o6WUG*A^0*Pju
z_Re=(bUg=&ki~%x#-i&vNZ>jc4@mS{bUg=&0~QAo{T5x%LBbAzK;m${#-czXV$<IF
z0gJBZAYog&KpN@za9lZR$v2kZDeC|tJ1&zygdNjJ&-^h<OFf6)?Nx*sB<nR61rqHR
zt(>qZ=)s=3RR%lH3FY=~+f`2H?R~bV)ZPhuO6|4XQ);i)u2NsYUkLm;9N_)}c5mZV
zZfx^L_5lqIcEMjeAJ@hMmWWw>7XrZ9dv}Q>T;PR_0Mhil%kCt2#ayCUIs#23Tz4sf
z$si`UoD!~vG=#}8CdV;B`$~RDbRU3KEi#pG2T5qEL?^hkMSyFJO4GTt!m<)>y1HuJ
z55CR_kHF3C@5dMlPDa9aLqdZ}xWgq}N(tX=qi>@t31308XWX88(;O$mj3nt4mLJ3f
z9gj|<L&T{XV^1{eE?LOTn4|g*Q^yUrZ~nTMWes#<Ss4e5afSWdlW>WoQAm~tz9ptf
zS~fz{%D;p_@aucz%WmRrUTsq8=u^6*(s{V(dP+wt%yG=)cHViklsu<)o-=DZ`irig
zhiu`l0W6MHV!cq@T#5E+(PL`#7%;&~?~vB}irV`MO7v9X16urLHU2Vk9eV}aUeekI
z)HYD{bAP2fp>>~DyHBHBXC>CJ#gb|)X=v{_q;(uuJ79b;f<2Aed$smKwS5q30(;s#
z^M}^PR>w;IzJHE%Y@T{J_F!x~{xmXL3XGN_qm`b%hlK|Pt!Gs287+=K4RlqGjA%zL
zsz)v&*Z;54{z_ZNMs7V<X=$&-U((_uYJ8+lw0CaYUB6q2c4^T8H9Am<#kJU=8XK&{
z4&lGHu8*#7{-_k`vy_1Ro%K7F*67BS^(z&#^_THb%m?ERR(nZ%yy*Ic--z*buN@8P
zK?~B2P$*?X9xNq-n*pDLkm6m=iW7bSjPp>j|M~D&P`<l$O`za-T)T(iDSWF}07~a=
z*sN>WFE?+)=PsFVa&I<R)@5fMyaQZH4bb0(e8sZ@usm-=UR}1}w#I0T&IYtb66P%C
zZNRF_@MxJv&YCoWc<Uz0=+Sokb!`QYJtj}?XQ0`3iMwR>+4g%L)puB>6}mwGudUR#
zSOsii14G>=jl!7uo_f7S6)4NT5c-jM>l|xULk>Zor_f}tlNY4$fV}T1*!PU)&bUS%
zxhEvtcAw+Ehs!}HAjIeY2~XmHiA6Rt0LbJsX~hI51F&qU&|SCE!uuwuod!K7Y8d!&
z23XyNrzkySotz*DhG1SWz$D?5eivJu#pE0cI~UlL-c*aPb!tI(;av`-Y+lfPwe$T=
zplJjc7D9g+-zXal7y}ISW~(>zoVJ|&HeA>%p8=Kf0vP2UsrpDLQgl{Y+KNr!MKyn?
z>hCQ1k5s~~8^QJ9X0{wYw*96W9xlFW_`Tz5?D!|~a_s!4lp6azEp|zbUHZp<?eaV7
z<#$T&aoT&5`kqw!eYv!>T#8*P$39rSTpa(XAJl2#UNzjib)p<T1iEVKxpJ7<I-rL8
zwD5o$9@uW#p8EJFkACuGN;`X1J$tnro&ecMyB0aDMh<T&<;bzs@n_K1zwY0J+QID;
zYIsNskEr31PewjbetqX}?|iCgufL_f{#H4Bz2TUPmn*S8EtXJYiS1L`(J}St*b`nm
zcTGKatu#1QntrDgOO#{p*2cZ3@8WpXL%hMY;A&8#J5;(uqX$)baQg>O>ED4-Zk$~|
zyLDh|e7nCK87|V5P-N|c)ekmLmqYzqZ>pgqCHjcr^iwrA469(ec64()7}abL2fhMW
zzV9heX;N_fCH1EiTy9WsDK1TdM8auoFx>?=XtM6P31|0NSw`OvJI3590c+_~i#)e{
z?7MChl>RB`k@3a8M=GJ-qN0U*)ll!&cqw#p`=S~;S)xyx^VtnH7z-o6^D9U<zF{^W
z{vFJ6cPnUs&wl7xaTc5nA*!*Bo-Y!w0g~CXnKruqpM{IDUGN1V;EHR-{XamM%W`Mn
zlF57{2%{~D?;XMr_!>FuU9kFp0AV<)Ms9r{Xs&qSJk|*6o?~4b1RJnc-)<F<XmIM5
z2BEycSzGFc^7!tZW6}l3T^esM8lB4?<KY3G6(7|1n)L3p(P?`g&lCHeeQ?>guNqjm
zF#*7|;nENN;X!QQQ}FNIh1ZDm3Wy{Q?t;c~D5zti9x<<?*gVJM6(%dg<<qV+)oUni
zoPhS>B)$XngOz#MLhO_-V)8mB7z-u>`{6PG*HY%4H(;W483q3UlPi$u6f0dq<|;Bl
zcK5doX#&b*JU`Zv({hM@%OQ$+W%=lL^@ku_M4f+Qq9#oO;W}1!_B=fM;Out1+&TJ$
zQajHSuT*-DYCR{^o)e#((oSAbPhR+RN_*|c>T5qPU4K`*o>i}BOQNia1ywA3MM$1{
z)A5CwRS7xyLkFbS9dA2IJtyE>2{Y|b16{>ei^@k+n<oINwU&Oh1t6u|a-?{{Lef+j
z!Bq_((!zr(0OQEE^6{NVcb+KP`APNsWI6oC|1Tu1;F0ZTW1Hg-Cw@6m>0%yUd2nSr
z{>1s@?Mh<k<DN%7J5DNorg*hVe-DV8a869<1fo8?`H|2;O8B8#!bo0srgMt!p2>)u
zVt!3R7bM}KM|a9_{2xUYVNk;0)xcfp8d7gV0vpdfx~GIphGhYl@e`no2>*(Ca6g2i
zn4lk#zlP-N`{WB(vzxBIOpYC|jJ#ZFi+<60#vOllFj{p(4nan1d$kEEnuHHly-4{;
zXLr?)Q~;?UQq2Tfgpdl8w%F#W_37#X<XT93M>T>}D`{h@2a#$c?Eu|y{I0em8zt=!
z{-|xk)floJ<Unf`$58DezUJS?k-AN_y9b`Zm#(q(v8o$r7*{mDQCKfjn~<Z4FSORR
z+O^{a?%zi!_o=F<ZC4AR?G|4(0cQjYhAH6E#BYD$7i0-T0mH<4D}M3AizM@7f719k
zW8S;?jVkl9S;95a<3`Ee&x1+xgA6O?B@9LMBaLLtPl!q5`nvXi1&jqZ)?cTsZ$ZXb
zB?brg5+>-ib$ZPFBzjH~fW?KD--V>=q$ujQ9zym0h6MhN41GrWJ|iQak&DkL-&c-i
yYN$#e*>MtwziP0(#1Xj{)u<MgYAHpIm#Gt9I_^@`z}DOj!5l?LzA%c6-v0~b9xu57

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/pooler.cpython-312.pyc b/model_executor/layers/__pycache__/pooler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8b158b926b7c2a1c447bcacbee08a41c8b5e0a4
GIT binary patch
literal 38340
zcmd^o33OZ6dFFcn9(EGo2JR%dNu(B1q9|&YNQsgcQS>6&aTq5EMLbHBz{L-sY|&&Q
zyGlYOPDM3sMK$S|o~8{oaVKorPMu7rb((3%({?(5pcFKYd@84!(@C35VUe!m&S^W}
zf8Pr5QL@wIoSrj}#C`YO?cL?S|91a--=F2>xj9@B+ZTo{r#bGg=|R2hif8$k1&+JQ
zg}E>v;YRp=e#Fvm;py2Dv5wgKZ6iXzFk<hwvoLGKG2-lZGQTb28gci#nO}%_M!fxA
z=C?=kM)Ldfncord_4`nkBjO(^=r2&h3P%bC@s5$A{$dv5jFgN7`UA}Gij<C&^_Pv5
z_m_`U^jEMjccgNps=tc)J(22>n*JK*_eN?*g8f0}&x_QJ)c4mje}1H4q_Mw|`F)Y5
zk#+s+nBN~+KhoUaJkrwN!gCf*tP(eTotOKef1_v<eP^ChyGOr^o6W<^kz~@rabn9U
zi+PIs<s7n58U3wmz4;VxUapd_&B8svg$pin;X={<b*o(C{w-*iGhFm)vDz}0ssyP5
zU$@9<zAoRm{;j5IOOdv0RoeD&xp{5w*UE5(*b=TZ&pTufS6#IAZ&T9Tqo;>#;cBGp
z&{77e?+{vp(Cu1iy%JiB(9UpB3=CPqb@1;{{PpnfWIfV=RyK+SXC$RF3^$Sgx=nuU
z-_6oCA?-SGx7NpdSm=6$HXB0svd|WUZZL%IW1$-ny2%i_A3dKRUZcJD>QSu@2UxkS
zD7Wptt>|KDw;=6Su}dqVn}xO`beq_%g&t&~9SGfS2tC9?I}y6W5Zc2+cOrC`A@nc{
z-Hp&ahR`D{bT2~p-M79Eu(bP;_JH_+R<j3LXct1e%}dZyKEzTUM9M?rLt5y=EVKuq
zhYh73WuZq9`hX#{mxVrv(1*l_wGxi8(1#Iv^gcD{V<~%)@|dC2M_6bdLLV`NKFUHL
zMd)LO(8ta@S|0xafnkd!ZS6jID4joWG8&Tx24f>)?DSZ;#hP{=8i+&&PDaGE<JiFX
z`0(hdwDq_cYvI$b@IY)}FftI0;=%FIXzcLl#0Ys$Nn;b^C(o1j#QAaY$pNVke*dGA
zh@yu_#qgoA(V^i}DBN>wEG$Ok$F%p+v9X9KDNm)R#8_x>LXyPMSm<0NG7=h;bMa}<
z@aS+X6d5~pN|aD=A-n_OP&5`Am&VSBgRwCR&7;y#+eZhaff1^qM+rDF5Iu{>Qb~-C
zMb3$#v6E*)C(nnTnHY$S4vdJ1QY!MuL~MK_hMrN2Iy50g$E37RDd?CO8(>{vnAV(v
z>bd1cgkI%DuAdKc{gyD_Zw*`eZDDJ_5VrN(!$Q9!Z0~ns0GxWw&{>n)s24?PAT~TU
z8XOvvg5lwzA(46^7(;wCI5rd<mzx%p2PxVr5z_quz4`~tM|k=NgkJhuTxn-0MC}TN
z((X`bWGp-pA-^}IwHQy1P$)b$2#>9|`}hffLT_){dZ_n!+IIZJ;YZW9V~4x@u5-&M
zk^9F7+hQZ*ZR5k^n_~kK25Iwi6FYY8Ji9||iwvJ^8$S=Y8EvBhYs1ULNJxB69Gt+I
zv_%Hai&C_WDlbZ{<L4#9qs*y;Ct3sNBKM|k-))cgLeG-hbK#Keut$&gg&wI{&2R#v
zWFL~oCdJV~glQK@CA*fpaMOGL2~M<%wlKdJp`rkvh577ZiztMxq9bezb08DKMVm&p
zoagN=j&#Z6GLVFoAy*+)8GsOtNZJ+yM5XiOb}3MrwgcEFq|rfzWU^X;3F7E^`2?J+
z+?3@E3(j^fSRUqH<SpD3H^s*kV#=+NmOAiNUL~W)F^l_JEK(~%rOj~QryJ{HOg8Ia
zBq~R?Av8)g2?m2w3+`zTI#ZotlXa%8ZZ#y?LIu!!E^rwy=dVurS`xmNxNm#hxgGAC
zzQQ@%t9urwQ#&3@;D6)eH+{$B&f{zV0h1DqwNy(^kQ{19+7}89jE;`Q801GoA*qN$
zJq*FffG*`z;%(%tCx?LpRbSeqIve4McEkA$ce}7UX{%mxmn3Z^w*`O3Vi!*ExAV(0
z0(mlauB<WRU|uKZuDk0Z@3NJ%7ret#%B54mSrDcWZEl%bZ-g+K;b5`^8Ma&;;K~lT
z62Ly#!4Npk3xKC01&(B-^u##Ohj=7iD2dNZ3<Dp9Vq<5;(a>->nzoNKyd_aj_YG=r
zfG6@ZC|bvAFvXcc(G(v-tbCp4uJe7@d1)sefz51DF)}3W!b6mbQXxP9a*v#!EH|lP
zD~mcnIs9-ga7&HNsm48t#yvCk?>XyOPqjF62bErzww=Ummpb5;3dz||PR`)%pfGZF
z;}>m!gTbq9jN1Zpwxq3b$@Wmj#tVDrj%7I97Q!oZlZS_LrSnb?hr{T$C_qPyrv2*V
z1kf=2%=$2^3kg%QF06nD6OlLT!sDE@2hl`1Kvzb_L2<;<DCSfbLM4K+tp4*6y)q<}
zdXVA}rIPzB<K(<mDbM<ZXMNnZo>hO4>Y-jvcvzi&10K}LbXYGq9)=91BB>Yo80BCW
z(yO4U2H~#q=RMqI{<3AzdWsvge7ua~p2o;e^V1gdw@iU#O<6u;k!64@mX|7Q+@N*Z
zGR+@HeqQlEOXy~D-=h(6ASwo<Vl4Q{)o{G;gft<3GB`XM{3PoinQ(<B801Gk39RH-
z`b-CXm#9!c@B(N<i<NbDnjcPE5s{6ziVeN4l^{KgZ1jslASH11RHi(e5}r+Q&&~{I
z5$sFO2bQh4<9Wr)l?LO%Evew%L~!rTz`hm1>b1We*mvp3O!rJQW93}sDQ8Q<*|Jc#
zaAIK)zx7FH`%+-vT}qhYtb+ahWe(mbq4!s-yYuW><Ep_L;k>oRb()_-->UGIuR^el
z0|0UaZBj3sERZWScBz6djv>(#l#s9|nqJbBD(Og+bX@3L@|4GI<*NZtqe{Pk99OxR
z29#48_)zr#LY6@b10c*~fR5#i5i21tUC;5;))y>ORsc=0jhnVjTVhl`yQX**91USM
zHS8>~d6dz<DVqXjmTAkgN~c&QY8azlX)ESoi=g+3OnSlUg;*cRi3B3bQ8p$Zaw?K@
zQID}0>2Z|Tk6&~U&IRsP$@+Nn&Sc513w`f6xtdMOf-Pu&yL#iyv8Cd=RPnk*@w&Ko
z-Aqs1v+b_Hx$>5(H)aG*aA!EATXAz<-^{0yo|>;V%!|La;RZm>258%K+vC5``~F=Y
z(y*$`mUi20X}iqHW`T(|3ZF-HvPU7zhb^jjKqC>hQeR1Kee$aa;W$uP*rvp4{hk#o
zD6uN1#Obm6sOVuW_P(?iGZg&)h|KM9X}2Vv0<nsMK}}ai(eGd=At8X(W3+mBXn2s(
z@N~t<L?kwB8rNcjm;n47i%IExA~~Y;5O8>GICfrrK17nm@X+~mnH+zN3hSl!s4<ur
z$I)97gLfk>TSvp3U6~MMn&ES-UZJ6hQ9O)|N}oXPQ}{(6g>!*hv2(?hbDi`17u%CX
zofmqS97VHJHyjPOeAP)`ZQNOlfOu)g4M#_I$hI4fZMS^uli+}yEw?=7Nl#_mR=Ikn
z+3*&I;yW<MNF6rK8)q93yE3DsnlPbellgUyll<l}VW#Mr=0_W|%Cu@_mYI`?7rf@-
z1Zgkq18LMC1+`bMur_O>M34j(UWjjvxztqpd{^Uv4cuz%nLO2}-={1pHaO13d}_Fw
z8~iPxu_OvG0oyNzAWV)%At6Cpil+07<2#yejGh!Fz<?MEi$eo|9JBGCEPz-tc)E3T
zv{jaiqOFrp_Cl5fOp}<U7a3GRCK?=$1_AsrX?QRuhJ&#&{AZWJgtjPT9tpsVv;)yG
zuno?%<Mcq3;9dG88YZ2DlXin;kz&zjhhwLuVhZrfpx&*)YFc<!8W@jCPa_tDkib2i
zr&fl^b!p4cXf{o3V$d&*MWZ3~6J#*Stntz?%8KC^{dG8?6v4&|$L=_Nv-Wsd+fC<|
zC2!^2xm4|*1pd8yZkN@h$~qEd9gCqv+2KohO2Yj&od=e@g(>fjgm*{Wdx#}Flqfqi
zlXu%u9Crkld{rsm`h*Y2b<a)TUXV+dJ7eMVI+m^Q#S!A<@;h$kHO_xLnYS&Ow|&NP
z%U7H7H6?sa^C#sQbtij9p|;vZOcPzp#cW2Y(za*~^Caa#s)NLBkm>~R<QCB(I!WSy
z+RkQ(bA<&cH7%lB;n+P$>kz$Xh)2x1!cHjGppZ3>rLxUqNR<mY(`9(8f6aHe#e#pu
zJ3Np%3eS66@-*!Q)D_U^$P(ceR56SEXs8J)c*dm=WXP8p8oCFGVKAlSRQ3OAQMfBP
zH6)==?kQtV4Nd4-m7E&dSR*INh&h*%vp@~jbH<2EVpo`-;=auNs)m4G<cYg2equB_
zF+M&f(Oj2>(A~inx2(CSN5-_XcOV+0St~WrqoX?#VNZ?h2`Uu!M50>Sc}yG_rN?wp
z-&pLSk#W#e!e!yZl0+&iHZ)Q6Kc@)g1x(@|S9oU9HB8o0exN6LFlCY4nBa@Z9i^Fl
zfxGP~{mPzH<;Fzi#v7iEw~8viv^(ytUZT*K4_rHN!?WR5QN@>b#l2N)hONqdC%-P<
zxbwBD*Ye}_4<z#+j5{A(P3EWtjLgwcfR%wOUoY~E!-XjN3<7Z5hnum%MTEJu4wo6V
z$-3+&n<V)a6thgI-~vY#R3uWy2WE+VL{C}80`M4lEFB=!3X))X-NGu!%E{upSvA#O
zS40`JYUU*QcPKOJfdg*SSD*AX#+{9<_n1VP*0_F94yYNkG)MRAQi(eGx>c@k7yQx`
zoNTh-0jYd;KnjPT&(*|y6^`_%SCDa;rXTnrFXyY*y0aT$S(UOOfORJc^=qlKrmbKv
zC{@li#ZPIhi7NS6SgoZ`BWa7x&=z{L+#q_T&docN7EP99gNPD*9f_kfNui{2a}^s>
z<vSDQJ7@Bjd_^f=ZNgVOpSSR-q;G%Rxt|R~UrSMr4kPU)ox<>-JoDvQFHvQv9uhG|
zOi3l3BOg;^JP%)5U@Sq}eggV}F-an5OWPvDU>c}tQYkqvlCz#1@bVl}!bxYzN6t(5
zMN@Dta!W!%#^M$p;uky_j_$Ad?y~zbR8@s?RHlrx7lWz__4CIUDiclH??OXTPYLAE
zjGY&nC_irToky4H4*eI!3PSzu(yFUdSEe!o{0J>ymvN8}O0oPI@p9x+B;l%@6JL&8
zgJ;8C7vhwXDOJ8*IG_~(KMJVaKx(xEYZR~oJ=+1f&D7FC{IpBuG?yn4r0do|%b{6Q
zD7FQ3jdZs5GbV^WYy$=7MVEOjqsylG6uJ!kZ@-)LzS0;fAghgN=Bby4KWKVf<xWEt
z^J@^>uUq=|ldzQ*#F3L?I4wj6$0RZBR0NRoX^*U#kYn@Z2Q^ZLfeB<cAVLOEla&hf
zXf;83zl{vbGRjN)`r^($xl6kc%w|f~MAhouhiEoYjjci$U0;`P0PAcO6DF#uq))xc
zG|rQ)5W8c;1CijkBn}NnB0(r|gBlhO5_cO!Q`A)ps2~f6qa>?SCaBC<rgZ7hu!JQX
zMTs*S9v*}~^wju-^eMb33zM-~G+CtfjsdOxCrY{v4x91C^{JwcL{Z1hqE2XiT<#_B
zUTA%Y>+A$@`m5(Yk*YqFz`w62?vxi7`mTF&P(bc1zlhSM&yYjYTKX(GY*y#YWd=dy
zd=oz=UtZ*Biax?CbChP`BTz%Tgu}cxgXlq-gUo9_30GVcDUUe4;@{{b8lk>f#c685
zm_3Q4OO%>*qUmI)Qu!>i+3;P;dzl=DOuNWO1kijI1QCN-KyVFT?j^&us)`Fh3GpF-
zvRJF70V@9luZWhwVNfZ<-N8il!G!Nn+<Ayqxlj5M;&bT%>p*h;h)N(G#Tqaq2t7Is
z(SwG^;av-cD4pD2^ooC@Ff@v)-4}*PL3Y{#L~QMozDOB<o}9H|sZwFm%|PjYBI`1d
z7D&YY>UeEi+_xp}+;T6#A}Pm8*_PmZSoEqZ@t|taRCXvxxd5b8e$I79lb`em6@jZN
z6!i`c%yNb%Th0ZAu1!(sg78k;rmRzp$U=4Ng1+A}t*c>evabJwAbPAEYlz-1UBNpU
zjs#I0j||7sWzgV<qJyVJT80kG*ghH>9G^(rV-Rejv9vHe8Wx{}ewTy;#u>AzoG!>(
z<q1W=O+APdIT~JtHmCz^n1weeF)?rVqYW!guDWi?Tb}aPCcL%t`KjOoiQogNU|%BG
zmkd6d^gaeEQtggA%Q4H^_N7`6-e^6T^c_mH9$YAh`|IZGlK#ect1`Xczu`L+r4js2
znYVkr&3vLWC@1GHsFHnf<cYr3Kr6Op>|WzErw3)4Gw)i{oFZlDr5F4go#x}H+I^?F
z%5UA5RH$;c+5G-Kz3G0Wg61Kc(OqDaKJ1J(XO~RpHg7h!!<JVy$!OZDt5eP9Fsb`v
z#0IkKj92yP_g4jN>A;4X<?Au3Z(2aOUwzW=)AlLbl%2>S?gHH>fki+zWj}>m&uID+
zJzv<aVxCD4V-X#FlWiY>MI;*&6?Kq(hj(;rG;}gDHh32L4rbv(MoQt~k+cvdU5G@A
zIp|^t$E1CRl~;yNEU~e)JuIFB8z~XbhD8^w9Zrm-9Ye4difwC`egUD<Rf=*=j7FcC
z5XDImtbaDzVJnalq1JRBQ`Uxno`^L~d&JSO`Va*IWpb&y&?KXwVhs=tc<6s2Y4kt9
zSpyI4Gw`UTO{qXfBG8cv>_`N5Fq{-jc!LWuEK8Q|T;?pL?imlH^up4sRadI!MivWx
zzv&M*e{1v2f(K{px69V0%JwJ9_Rr)k1sYR<J&C}c8P9ER;Vcxowe#y1suT63wta2$
z8+nP{PbR!iE_q8+-nxXBP?)#z9l_#nBF4Gt9xMu*xa7P|&7u{`HCU7qp-JO%;a4yh
z`PM>Qh?DUa6`!_*PGsROl~gXTL#!?<s+wQXmaF+aZ)*|K#RsugP09jMGU(Vnq^JQk
zB4aKY3lWp5UL-3qWI%JrM4ct;UKCvs$z?`e5tH*LtIS^8ssII#7f2V7PwwUxd#(gx
zqqs$KUL=R{HH^<~p+}N0n8TqQrtTo6K@k(}=i4(Jr1XXQyL4k>`#U7^%l%3@&HHo)
zF}ZzehJK(yhdiz_9{qM$QdvdknL=dGxkxfM3&$uKt*+e2??GCRqJ#I6eVinsu(VxX
zqRG-)Yk2w%q%bP<pi9<<(9|wMiNzu+O<i`W&A`$V4LQ5A%F*zw8jJN4{VgUO){sS8
zd~?V0)Le%5_|!0csa@5DIn(Z8tgQm)V5uu@868bK)df=NW5||v93MV4GBzBBXKW}o
zGVmN*BT5H)2S!eY2XbK?+U4IvE~AcN2+xy&+=Q)cy~#tc)Pn@jsCr6fhrV+1<+In$
z-XxWAU9zYl?rpfmf~A)yuT8$%{*B$&cgJfwZ+doU@ppVp^FvAB=D2gS3~e+se!|Hm
z{Vr9Vx>{Yw&r=cV;OU9cvy(NeT9Fk`i$l`0^nRK)St?=T%-G~6m0K1B8I13=QLN1}
zg8=Pg7Bng<LJ8`nFJyw7E@9j><P&H@&C+US5oTr&-$IeHmf>~yums5H6Ln_VM))dQ
zGx8$BCzbVb9l@!Xri@1Q5RyOvjo~}{)sCB<<~MisB#RDzt8%e;wnw&en2&w0c++c@
ziK4@C@8R2|EUioU>gG2leXVh4>-#W&C_ch7zWbNTx_Mh)OI|L<`Z>Hq`Zm?kevBEM
zN(5}O*7PFzK10sy<gAI;M2aN`n?JZHt$!-YP`l7Nd-Ce=mEpS_yoA)C28A!<SM{9>
zCEuvJUPbE8`q!HNaMQOot<s0ugf_yBxGmJL&`pL>dR-Pqv>|}5<sLXXMkI~o854AX
z^*YmVnHKd6M1$DumF_be2rNlOp<n|U=jYA>)`62%GVH6!K^^N5n;AjsJE|z8Szkrm
zS;5-bcYPI&$r+U#8bb(&)w`C;tHzT|<tz1`u9SP4Z1ZHx2bTV4-I=m2wkY+%3Sb~I
zJSncxu>z`W#c#PCj&YisEpCFThC%^MIOV_vEhpr*O89>8FSx*k^5fEP;E{Ys(ymeM
z<>n()Esu~^$Lt|$qAr!SL$`eX%g<kWes0e~-D2TQUq{^8A&-~zCwN;f;eUg|$iW^Y
z<DhKU2W7iHDBEQSr}RJTL6JUAH8Y2B>QXiko8Y<sK&X<0N);{ApCez|5tV7*D#9R7
ziFI;^uQnLU?)eSWZ?q^(>v8_e=P#X~t4#Wu;!c&}HS2ZOHgd4L%h>Dd^j=@5_xd`y
z*C~BguM<4dwLAppb6J=rZ21Z-yuimY+u<2*h==`fK6VZ`M8QnJ1Gi)v4xHm8yW<(y
z<n=oN!!E`koVd=X3*=R;5b0u=;Z{^iq8^Mo_h}3k+Q(`0<~AOFiN}E9E?<|hu=hp8
ztLzL9bR|8x+J+1^KN^b#L6eYC&Sl0~8g1UDxR71V0ut&~{rWv@VN3jhm?qwyp>fT*
z!d4ZWc<wy@VB~5j`8>_?wA;`p#BfZW*8_sl(_<5naPXuU+#lS+%zUzK%-DX1=%(Nh
zR#?e|=;XlQS+Wp{$_!d-P_dPT`U?@mL&4Z-F(}&tPAD5bU|od8BMF;WTCsIQz$%I;
z(GCu_<0T{!!zlH`NqgDL)ZGTI(?g0^`X0sF<;^i^2NrxsQ5AJLm4-R(G3=&EyF#*|
zTqqQ^Arb=Y1$i-&mLDfe<(YH{T5vMOYgH@KM!-+7`(w-<XWk`8!dZ6HS@E`~>Q=?p
zWW~0bqql0Bmi(0|e{;g$obtCP{Oyaquh&7gt<9h5dFc_zfBxdjpT6|z`MMjvhFku?
z)%+{@8H=T)hkw^<D=373>u=2DbF~dKJzso8o<)RFvY0ojFheFJ$$(s%noKkMHpJ&%
zqxn#{YV5ln8|F#XLH4bHD#S}AI!v3XYji6&2oCDJ=FH%n=!&k|k*Ug`;$4iifI<Ha
z_`x5r0TiOA2Qc)6?W8yypgb9fj2s|Kn#};dj<hOEpp9A<Gu%Z(*N0@V5UFi=`P0`v
z9k1Oz({uTe&p-0IC)M>>qU*8v<0lebPhbdKMUc+DfjR#3`)?H$U)^<O*WAaFMJ;h}
z%N-SAF4W)Dnf%o|J808@M4-f!Fgo9t&QsuSP>e)EA=rYvg+xp|>5}1(I6j84TB*Vv
zc=|CIz>b}FIiJw5a3Vvu*G{}kw@kfLXjSnqyfXfMkAqi+94add{}SZTwLA+a8~@T;
zvl&LhMp@Hv*+_oK!Z5Yvq8EF+)+hm(+PnlN0~;{4UHSu5OF9iF3*HIV8N6?SCkGqD
zUNjdQ1G{PPeO|Mp{!1#FjR=*mf)n}WA)pszBY|3Tky1kjy);0?!DJ(Y+l9q5wl6yL
zxw~5W(;C!>+-w4)sNBmq!IWh=)-`Jo|Hd_Hn>7g@qbkd!AJ!n3pS|?#?DI)qL)_WG
zs=FGFX<{2dnDyW56!tbb--ly_T{e8=9HsZ{hX=5mu~>zYxt;S*eC_F1o}TYpJp6mT
zzttOW>`GL2zl&W2B^fs_G^$VxuL{NR%6&)$4&tX>>LSoGaezkYgmxl977?JIF<L*`
zMVpJm&Lpxc6kzR$eQ#v>5Vng>(Zzi185W9;i<(VuzgsH{{DeyF`#n@vxbVIuxeO(F
z#k{av%olxxVNo~OC~D>T!(P#c*aGk^d1SkYwE1F@SbS!K)?Up+`ORZkD|})AC6%Hb
ze#0BeAbl03?J`B1JaPiGcNo@p($K)52s2%_11rp^I><LuM8mE)I1z>AAGWWI%XW7`
znZ{Gdx!&Gmtx_ARqOnX=K@FzEcrbFfYExlYZED&b<{1;?)rrUy|Egw>2;!o%QCZ<F
zSoLheyTI7lPKyI!nAVq_pnYVA$r^=hndK%wh&X0qn06nJiQ{r$+NCU&VJEGHHAebd
zl$E7y@nPyHb{WisMO7LRH*E}mih#WpxuG;-*6=g7+n%zNrzzoSS_s_mwB0JIo`*F?
zbKKi}$5%ENzNybRa9%1e1%}5C%j?ik_U1`K+0?hoXW$t7l@{{#O_0pqOhbD}s$3xE
z&6ugi-nD`lqsnw;^=?);m_l^S-y@BbA%}We`T-ntb2;l~h0G3%QcgchKcuujVrk{B
z)r(=BOicpArC56w>fNbyg|ZtDn`Ku=4NzwjRb*y*{+7juUq5%#*Y_d1JPT^I-u()S
zG_v_-wtHkN3&>P@8Jid=H@nO>3xLgXs`2_=?Rkg?9yL^(Ay!>mI)%+dxlGgNkpae;
z1Zu2buUpa%WqvZ~#VXDwirYrcS#l(DHp595naql`_xLbb<I3X)UYRC!+6Oa#+8`cQ
zIqUbR5R-v((dfuCL$Tjy<HbToX_y{HM$Czdwp7KQM8%$^g0iKG_1HaBxfdJ9D%~?a
z>>nx$rV6(v3b!t{rP})v?S09@M`j$dndpq|j<0h5fyKs~z8!Jr4n_<HX)34}5hpe^
zsAE3l;92i8c&7R+ZSZXR;9-%FCSs1(<R#QddKV5D4c33!6u>&inuFxeol{_oX-o|B
z@E_@sO3X0;NPB5Cv<bvE+$s}D3#2hQhOBJrRBlm6rSb!g${k<rQgP){Y28v$`HI8l
zr#)aUw@jmnGs~J-gkad%kZ5Wg8yJ}Llbd=(P@oZ<i4c7D^zh(mjm)q;YQX^s8!J`&
z^H#RdBu$_kqZ<Dlo+m40&^24|{vx&3jYMdz-DuBC(<h6)r1{LMN|tR#46Dvdh%Ef%
zN8E(6=)z`r7-38d;$Q;MQrQkVthIpc#iQ0mNdyKNl}W4Ko*=ccRVz(8kGD#baE!!9
zB7@qj<|z|h-9q{c)I3^SLGxhL*N|&g&9(_<&6azN2xBi-+fsK^rKo4nXjwRUk!q#v
zTcgQNcGYtzSYOA(?twm;TP@Gkj@Kcx^mF78Oi2F+PTH$O{E<<4!OM!ym6j>R|0U<2
z$+3|`e1MtVvAj%hkzzkXPANIWmz%B|{tZQt^91T0?Sw;zFFbmi?2YY0<NOq<*BdqU
zdLyaV3n8{|Y+KsW@s7hSG%l4kWURQ~E)LFjB#MF2@PHHrb@SU2{&fq*3IFE1lu#*z
zVqvKaZM{p_IbU^`!%c~TFB70BC%1L`I}X3#W`*Of7mkNjg(FNUfnpok0)WL}1`R*O
z!_XPNjMFBYLF2~EpmE3P1)3Rj<=o+yd$08-N?R5Vf1~$0JUdmRXtHT0b7!no2Xqr?
z!&)kJ<RE_9rE08}NlRkn&CP6?MTeOI2IF!~V`N@kbYUIBEuUM_?_uXvczPyAM$XH~
zKo++!uG*zda6$*ze+Vr%nazQL#Bl?WiBrR)(iadTE1FI5Os%1OGi3Ac36|v9xa2RJ
zTOX(W1Ilu97Zu$N$9y(Yhpk%jz-Du^nO9`2hBEzros!CU4%YrK-E&qkl-$?i&7FWb
z6X>&4u@5?JXn&MM&MWl3BgiT*g)|sUwHh*ZL8!i6x&}a11B_*Ws%8MS0-O43nS4;e
zSztsHp04ExoLof(Hn>@bY)tWBgW>^d1RQQ+YT(X5$uve403micAa=Q!y4Ve%zyh=k
zM<h3--QdWT?X!xSSmFLy?Fcv0Z~3RAn7|Qlnqq?dYbhoa;!YLRlo9`thJ}z`wlZR=
zq7ljnpWMr&NL&qxS|b_}{ehJc&|Dd-s}&uk;<D*Qq28Y=&G;tOwg@R@(_p3%or5M~
zW8Ars)wN}nJ-SGhPmyB=w?vrCbrK%xNOFFY-r0q8OebLhE^OFFry?}HW_y=z8K)p@
zx?NH}*YxtHYnu`!>ld27vFSQIorDcHG2nd<*l?5FnN;K;O4BY4WWxx`0$G89Di2V_
zSx9tNikU8-fvRZ?167>X15mXARGkb|T>w?P^kcj#i|wLHFo^tpc+6F0x}2@@H;^LH
z7`k|aw5`U{hG-~*Riz7-JIvICY6+ushK6Bz!92B@Jsxrqf?^jIB`kfC54D0BjIOzR
z1CjDt0O_zKvO7+@U;!r|ewB8U8X&}s<W&9MElS5!tTJ30mHbsEB9S(q{xd<#Bgk!-
zPhWi`*@%;Vpz-enOIg~Q47AO7-roDbO>fQI^Qqb$iP{}Ey*uAHK^o+|m+}c>)}<=i
z6BX^LihYTSefOJ*BrdYS+YQ&qh#F5sQpL{?uAip?G&7urI)>;*&ZQ0{Q`dNNBJub_
z0rC;4%ei!QB?M!i8mSwEKtW+Om|lYggz2@-jQ+!P#E&yHglU^`o9abwO6bv6-PBr2
z&&3Gou}iOkAxuzHk{U!lXG4#T5vwTY)zYcy6~#%d!6?eaG$!hs!mccuyD%GtQ7VAn
zt{xzRGYMK^6vZwwAXUc>{ouH4SB|BD)fhXL#(@&-7c5hbQRfspnM*H8IaP$8rZm)x
zPQ`$odeJ%MG~27K^rCCpY1&?w+D`SZw6|=^CAUYSajsTtuiy1vCb)tE$=E_yRtw!q
z3oEo1x~JT0mg`V!GRjXmQ2Q#t0JYdnZ(+ypz%>6^*=L=$PdgO9W!kBQx+%0p&=+&5
z-ZZ7Q;m3}qI|>{}MDF95Y}9}-H^Kihf0gICm)tfij{c_gS$VfE;|5{rU}@cw=EFwW
zEbZERN*ooR8<+M^wwmD(g)?j23nSivNOXUzmi|q`Dg?0qoA63Jzw?!``GT2e=4>xb
zzcThdTZw!z-_J7>UuOE-+TxSGh4ebn!{R7TA3Q5vr_dslCl!)Ia(&tjD`D)t#1S9S
zv~^(gyhI2rZN(WyY3t<hxb#0L4<p+i-JVK6P)2%`lKb>RLTvM9DaudV&WVFj>CY&E
zFccX$6;1O)Y*R02y?PmB#L9d0%O6uG{4N}bt~fv@pcrJ`s;GT=<F$?RXOk7}Ge?0u
zOY5(WUKyP~@wLz^p=4nDj0a&}|K<Ic_QyR<OBFRQw_a;qs7zLDpE(M2T(K#>X>YQ8
z-%S2HcJ5*RDLz^8)PJveEpKjLs&ZSha@!j<GroAmQ@1?%3F`J_KFszy?-T{F08-TO
z)#$>3<oZ1~iuT04d*VfVZuts-aog;tlSMe(q<NwHhHvxloO!+S&%-x6kKZnCnD54^
zIJ5jxP0K>Vg0#plNDJ!|HSJeCki;9;&p*HT$jycxoTpS<_;y3jHOHK7ZU7{qx@PX7
zD?JMxi`K=*7YFcjT;G={-nrD!1C>}o)jJ&0zvJcBZ%_KSzcM;sFk5i7@=KNTqccL>
zza7<nDLT9T3zJ_sFgI|+Q@i9Vo_*}|&n?x|zdUwrY~gIOX7{WIqN=|V#!f3PF4!=?
zXHmFW+lgva=D%IrdF6rGp1HbrtlWl;v$m_gE53Q#O@Gs(E#dE2ss)F`<&~iZmHBk6
z9hLF^-R)fENBQ@c3sJ52?|Qj{&i9wyND##_THJRw7aeifzS~}U#B2Yr{-Ps=wm)vD
zJyL3i%9vQ;KA5N1;BGkT?kC{fh`C`L&bJ9*w&Dq#+q)L0us>70S*TotRYQ!zs=+6-
zYK%)lcI_gWi>~Egfs@6mvEwSS@MFb75gDS`6+;wS-n1DG&|oqHj>B*wln&0o(H8w4
zEWVf?n}MYt({RF^jJfk*3CJe;A<}wLP61=^3c=vzN$(@c0L|F$AUj49DyM-M(=|nd
z(Q$E*4jsax3^2|JJL4xvM<)d3Eki*vcM+qlZZ}QP6Q^NgA(s&z!*QCVyBZpcM8=-Q
zO37}PWNT~i@N?`GR72rxV=7MHl!61NaQx9JDl$kGm@xC8H6onWsi>xugCb<rR(oqu
zGyFnscBCkoekhd|!*a51t-;6HfsuG4)2U5JC=(iJ99<I)4n%{Wl!XWROwv!vnPiRX
z-=b?2nT#;JdXb-g%e4HM!vUL^?id$~p>yX#T3PDSvCY7MzK1epRlBlJUki|#Ok%&$
z*G4Y0#HeG}*vo$=kgh^%1A7TWlG~*<Gq#t!OT}g26<rK^v)Fr0lhKK+Ojg4^_cB|$
zP?>q%pp4c09P*lLR)bm9Hra`7LtPjtBNNM_%Tt%8Qogo?uPy1@8h37$CtfRx&r-E&
zgR>JcAEy2~*OAi#(vz;CJzd=d1yEHTs)L$PiUM+)uxLxN6FucdbkQ5S;biG=G(oEm
zF>6cB;D2e%aIpnC4Y=ema<To;n8vD_zWxK^RP&`S_+>Ipa<*!)WYozPXAPIafVioB
zwAjF;?9$4skt>n;eew2#$-to*&r+a*tcmA6@y+{^f&B>3EoE1o2qD!`70#050qDwt
zc#b}42gS1SxJW*xi)FGpb+JJq`!+p(ACA#<fDj$ScJHG2D5=AN?CC^OXU1<6%IEXQ
zYPo!|pWR;Xd6%9tUS4Q7=%3o@z=uxxz=uxdz=zI^-2qx5pY<>wUfBMPz1R09*6n0U
zPQ)-;k#UfZl$`Im;FHIlYBY$ScBv9DcCfFe8k(^{j^Tk~jsU@3or3+2EOP`HA;84Z
zCAt|U5Xc1`a2m`9Jj~$0C3-<$^1>`dZjP`Av<ixWAs!SYuRlKwiX!@nzQEjo%nAx%
zR8V+koz@o3BNm&7Q(jghpICy@0<uv-e<`C)WuQ$((mzp>A9ZW!UnVYqy`Zw<q@0Jx
z7Cb&28S2KFtizx)1Gz;hL=dNsfqdnVIihkPJCBUh8F#Q{I3J|*TjgSC=8KX{|1`>@
zy=Bzw$TN1v8Qvn(E`{<eq0LzsS;J^F&$488Q)35J#?i6ZCy-Bi6Am<LRJvh}D_tnt
z1BB40p{V!_miMBQ4f=|SOd4BPC#t52FRRz?__i-bQk}ht&fcW&SloGx0ryY03Bzg=
zaF|ne1Ii3_8#JEGHraBoW@II;Gd8AU@#)m|qlxWDlfK@#vzIldPqyOCpcYvuT3a3_
zT$4347JdJcik_uIFnp9PQA+N!G^`yDik&TFED6N|lrcmQ*k!J2(Fa~%It~N%f7ueY
z{i<e<@gkOzFL(`B06g}wqEG39sBNNFQH~C!<qUhD^b*pswTwxh-1EVY$@hJe{*Py$
zPtq#gKw_xZzD0R#cnO=(5?O~!o8Y9~PYy&TM0QA*yvNE3X_g&{5A7O(s^0HeTHkcO
zVnIO1@4=j9vUb&2XD4W)5hj$+7N#K(4t-_trl)?%S29;YR<fn*Q>D8TrMq9-n=E}W
z?tgHppmc7>je>d>(UmCedc7)H+86it-3bJt)Ll5Tuq)ot6R$g*3>=C3k1XXC&3pnI
zwBj9yZx$Vidym{Hs+>D=lWpgU7d2otdq$oWhLw7fVg|J##e)V+w3#S}trT)?5Lc^M
zq3eS2h|XLxR#Ph<nidb<k#j*iW}<(C5sDQ?C<-TGRGONnH`B10?MOsPDuKhsXR|k-
zDbA@N9+6AaAwp?u?K=Sjl_VmV)eyA!y7HEQ*Vw}ZXAFvH;>xBcZkTW53kN5M2ck^1
z0S))Q>|8AEEec~wT@vI7?Pqb^<*UF=HQ&b9Nx0}V@__5c_F-4PYQTLbu$d`ymlXb+
zR!v^=fkR3KS`vX4wn4Zt;ca})_WF|$<x4lndys7}dB8Q~m8HBCnew(LyzMFPzJzz5
ztOE8CcVVsq&ceW`mMpVSUuG>(>NENttCNkZ8f?O^AEmadOOzFJ55#lMVO!1O5_?Br
zwv11lpjH4<3|a0)#xE)k#jbq?EQzhvF`^m|EU9Vu&1|D^GMe%RQWl#|3Da#5hFqN4
z$^uhaYq(QyLDu^?vx)M85A3;V%p{mvw3mo1y9|nMsI{S@6$~m`VM;KYJc^3eJ}u~q
zXoEUcJ5NAupF*FirtI>ew^9-6R;kuNzZ=@+m~wzhS*O`OR;{K%tL*BikUIIYD@Rr9
zoOVsQn5x#Se5YC?sA`>xs@5@0dGIzxRV!#pS*W0)l!dh>^uU~apn*?D1dQ}B5#b_5
zl@m(P^_qWAVcRH-DL3<BOJg|DmFYGme78z5P^^XzYA1#-x+rHiIV3N!1H_r?QVJqb
z+Rn}?i%PVqPpX5%md_a)VU9tKS+;6sDWVm=LBmBUuc>II?=ro=QuDUQclp4j198tf
zQfanbYg^cutmtG4P$)Z<7;ouZ2OVCS@NSqndZ&D&s_J}m<F2HC_x1hr1G5FGg1Tfu
z-NJs-7w*23t1sNzx%kXC%Vtkp{n(X{%~vK%HqRWvHWPnfCNJaTy7;5K_6+S|H{Zj*
zel-5rlQ+9QvSPIa^55+G$ZvgQ@x*IeUwI7LL(dh@T+dB^-9k^oza`%F5g@y~qIWo?
zBMSr+`TpG!u3!)Jg$Rlg4f~^tqMj1lcemE|R6s{~;{Fywgs5~@L}J@1*a|RXRJPDC
zx`_RS?h1B8RvO6^Wyujq8CZQdLG+)f7;=hfh#e?d7etv64=?ob3zf9BwvT-`19m;+
z1*#_#A6_`dFFa4N$Mo1^O01o0SkJ78{6fW2pe|#@{dQ$-M!+5Uvkiz4rrG#ZWHyn3
zkgGu0f4iU}BjAqoC3Uj>k%JzcS=lp`6r<tJf7e64bvXLaASvS<iW(uXhE$9gqFXTi
zA)hQ2!zW9{)H8$lX%~@Tx|Sb=lWp*0hU1yxJhu6n#X-iT1#UY&8Df|I4#mmS_fhgO
zhD@U_2(jVEs1tD*piaCgb-Jez#+Ep#oSci%3u5?kE?o)5R*u-$BFwf%=?j478~+$y
zHDma+b$EGc4Qt@7=m{MovXvfuwvRKc<QR6wv-O)SR$M-YBe<4XylRdyPM|)D)&iTE
zt-D||l=->~prf>Yz9GK8d!ahj(w%7OhBsc{od_J1mut#Xp86YL<#SORTVs%=H&`v_
ztQA~DO=R^E)<(^(_!xAMGe%Wk4-c6m6$zC~mBE+yUfY|ol7Hu6cE9b)zg%^xYDGYp
z48@c)3yM{~WYxwf=w94_Ssbj*v?17FBFY*V`Pmlcl{EqZdY9}q0{Z-o3z{1DnE+mw
zb7AekOKS&aahM0Ro{-0ME%}h_Jknic?=zSIubK{;d_pjiBcIqlfP7-jmQM_aE13bR
z)l5EsWMWxEGBHhW#&F$NGBGddgGeSvq;_=8YLSGo84T+aS;-MeWd5UwGAbvtvE(^o
z2z5TO4o1Cy{hFI3v_*i=5$v8rUJ^&#265z;B97da<&ax}b*aGiL}0rvhX}6^ksQ+b
z)0IQeOc|$Qah%B^r?K=-mN-9;=X(eso7Zlui6k;d%_gX#qXvU<pMG+67rlnieU=`F
zusp-`KZNI}jOh!(LEjtGTSqNZ__zzwsgw@2P%lM3Fo}`ngAa-Sv*aIDMQ9`dI!jE3
z%d(7ZJTaR3PTGMevo(UcwMR+eYQIb)Glnu4S6hyAw3-uT%?rifsJ&jBEZYTMk*&Zh
zOle8^)zFm?K44I??b4CkCH3GSjnO!8D|~hA%2>kNG;@S)h+2QcvwjJ=hy@KKOPW~*
z;umG4yaz9axkC;yV7#43?P9Foy}3M{Uc5~?z7NN^$Us<>q0-M%LnS<cw*w6$+iM?K
zE6t!A4`_>#AInezVuteHb&;<ghpZSFDx4r)qA^q%0e<8!Ysxsthg?1)K<~NmB)64n
zl0|@25L%u>O!ktrIkTjYp=?uF2!@75YJm|TyE%~oVe%q%9$Rd%_2)BU<HK}!v8`Kd
zmGfREue9!!LuXd)#a*oj%hG|7M$Cp{*rhDDUKb21BVtMP#op@*tHTz4-$Ina>KL(Z
zp|-70!?M4Fv0f&i0+u!G*}qd-^QH42Y_T<4D<hH7z&(&*wO$1i<o9jVM*1?90JX7l
z&Sy7#Ss0JdFT;3gcs{h|McX?G13C@2={f;JnD#lFv#5+>9H(+Zv@mHi=m-SOU=5lN
zX0Rr}7>zU4b_=?80os9b7;;%*&Ii*qMLR&|ThI^4`$PnJgh|GiWqOk28Tef{o=Qla
zWDw`cD2d7RQK~QzUt9*sy+9uY1-bnfn)4cR%Uun<r3=+C{+Zo_4<CJX+x(}J4V^c9
zopEO;4$r=`t#k4D*ZXd6JAN~8BC+lG^^S$D3j?#UtLLwrpD&p2{-saHw;iAHBmyVo
zmDKkkzLh?~FVocij=idTy}iYsi`~9Wt@<uG9%|6Nu^T%6zU!zzqBP|EHZ}JNcnHN=
zuv$9z_{$%?_R)okL^aHw@l0mV$|7pcd8=-1!8C)dE$R{}`D9@bJ{fxHJy}?c0GF=i
zX0+yCfyJ;#+l)KJGO1~}wpa;VM;P!Y$qPJ4Mm-+n$9`=p5lg3Zl1zTsg=JTK^#*1>
zZan*G2l-F(2JAPd+7;kU>?<`4;}!wqdgUFn46hMmpZ(oSLIeyM{ERTJ)J>3g5RM5x
zEz-A4YY6qv2!$P@O!q)xgm_r3A4S5S4hoB@G}82x5gM_t<3|@1s+!bdP|Vs53u{1b
zKvGmgTs_>!9|uyy6YNcy>eEb(3`<m(*|<-8raUi{8dSj^RXqxYZ4bH$YSA!G-T91V
z$|Ike0d=hV1z7n`Ij7u&da3RR6V7P1%&c0>nbPcHVWN7%1}kWpCC4C;F!LU6(!=C@
zmYj>^e1;r`PYIQ#JyC3X$46yO;RCDm%~kq7uX+YGeRGvzUF<y{AIH(I0LFcky^EY~
zI5=WfKP8kMKYfIvbj9i)Q6gtd`GPBB-=(7j9ldav_K)Fa#bGEqoiECEX3DoqC(8|B
zmK~KKG)AvrENNve?ai2<j&~kORy;7{yH(j1-_n(=?1okToj}D`wv+6i2s9@H8)iHP
zJ?Wjz^j)ub_2z|7{e#ug>P~oDW_o6u@o7~kx|&lJ+Y)qk&r)4$s;)ax*B$rP+=f^J
ztIvjb=Yz@ihu-ME(SB^HwDMQF<F#AkRa+CK?X$Mqu$S?zL+IRt3!X&PwnS;itc{6i
zH3{qph<(r7m?_1}G8M8(C7UiEWZma}97c_yw@g@!AEL_)EJiCj&)f)$^zp`ZaU9d5
z@eTkoEapjjk>p-GRCB9BumYW|YGL*FG<tb#^suLU5how)i97em9ihxUL~<O_4TdfL
z|6q6sC(0A_5j0%V7#`^eO&N2BrqD3x3P*F7diNQWpe#bji<JwT<GUV81|FXA{Ooud
z=>b%<rTBwzGdf0M2#WDAto_tX)9t*31m&%}Z<Fu)aEwA6X#p6){8MWF@8jvd98S5$
z(BxWxA%;)@blv1r1vOY~Kk@R@*Pc$4ZNRsGmR%Ir$qPAb5`C1JeOzd-Vr#ZHW7k=y
z+&A5mk)k#Y;-_6Isat*(LD`Iyx`|A*%fuvX4dc*fX8R>ziy1qLSY&6FgMm?Xko4&w
zvQs98#sh}N)E@c1cFJzpDO;JHGBGd(@E778WV2kvn3-Z=jl6Vz&v0~nAU1efwojVe
zqdvo+i!4ak#`pnjh(EcRkrqj}Bqpma1%=4l<Q3{8MMEdgv+tsrh@>Q*G34<EJUJri
zD%B^}2{f5V>urs303)zVk!~!|`QQu=vy(kkHsc&0<zFh-cgB%v2JCrogc@90!PaD{
z)o;Q#_q6rh7kQ9%5{9*!u|xSL+2J0dv~RLB$V|2k-xp%Nvv0DfHF#V-CqXu|!)N;J
zx&)1{O2ovGsQjTWI#5h{k|wUA$|OHKO$6JZnSGpWR6(^MYHgIOOVu%y$5i75E$H~@
z1Ttg`*SD)Sra&dDw*F<+woAPrwd-IbJlC13+@7f1o~+z)!?)vBAP8%V*>khQ@!B1W
zjf<r?w{}<aQgdsn`Cy{?V6wR<z8>m(zT^R{qghJ}@d-^Fk0)@|9ay&vw$0eSr)+f2
zqNoH13>G%QW29}6RDmvXFO^YKb!`@TL78<7wTj^#MXV%6?PPsUKbVl;eCiUi3!vjQ
z3uil0Me7r6A4%NVEOX3jQ{?@~#+YT?bFV3OK%bd$x4tf=w}Um|d6cn+akN=Ol$oaz
z?*eKFDNdMqbjsI|@HNc$Bz!F?-@b%z-)muf{6qbakIpZeD>8-vYHKyjXf~o7jhLxh
zvv_<gy@1cxY?jP8esy>;t;dyVjeTR7n8cFgT#yD(N4oGWZ)dbtH@3rswttz!gyzgn
z*Hn=KCbXtb!3XL!!w`c>jK;~UZ<=;lILH84H<^No$dqdmZ?E7~r3>T@o2f+LR`cWR
zQObqZObajJkPP~QIGx!`kUm*x{Dvo;IkG!AS!jYTJPaq~iVuWT*|);eR=~K#a0kr*
zMOXlnPQrq+jjW3zy2&B1OFLwf*=X86HZ+9IXEKfvPDx`E<I+bdg^NxXWvD6bWx*jO
z3yE!ndz8zd&<W(sJcS1;CLsL_<Wl5=R7Go|qIJf1r!eq~6ZCz*L}6pHaNUe!si1Ji
zeyg(ntGmeFy<z`fRvx%?6qu=Lsb+JkW^1Bm>tbWFW=Fhu$LtX}gq{LWeJ|is_k0`h
z(xy~%SE9Kq*?cg*{t)4%!v?&B)tmCFuk_59eEDdyta;|4H(T296(y{0%m)_ME$&Ke
z*c<onTNbPv@@IOnDxX(;x$jcn+}@ksW_(3>b{OBKxO5~_%~f^rnIPvcoylJ<D-c$r
z-?EI^=qxI;6>kGLTC`Q<NuPF_4kM!baOx%vCbnylu$SheS^FE^Oau!_;<z+fp407m
zR2%htHL?Re<X6vyQ#GB5n$Bd+&UiIGuDW}MU-J29oU9=&CApkp9r8)U<j5T0-;hsN
zelbAXL17GoT_hh9YIPP;XA;@60O1$&{r^u;3_1To?BeH96xhW#ZHF^9H%>u!EP7sh
zGQQ<dqPd4YGuie=@w;@(l<`7~LA~EXI}3W)w<zhZ@O$(jqH>{h4KoVFXsl%^)0`0_
zS(@pz2nBP8-oudt1u{9H%C$U>4VxziB^qIN+D+Owh|O6z50^G`wo(+4Wx30Utw?)l
z57r<ZP%B0ylAqEx5wl7ngqU_=Zb>oF^r%D=86TNCKMt`>qUptS1SGJ_pYN8>t1nU?
zTh)(j4@A;#-7lX%?KOUST=G)M>`>iS`7mFJ(5ig6k57-2kK~p76w*LP@X|-e#Yjke
z4&MsLYvo6@F+4C%$0kX%w?AFPQmPb*9jX+S3Mt0TV%R}Z40zI|EMOuw9ErB#JTrW>
zIK&?0PmB9l?76M23Wi}DQPL%9D7~Q--#NwG@ez~&ULc<z#8#n58Z`jkP68#i9z}#m
zKE{hdX%9U<OwKWKpiAPUPmnWA&UeW<OAcwDr4e#Q$pKALJ_PVh@`>bpj2vQQ<<rEU
zCf^^B!=?zGlOk)1e@tQTlk-pH{2e)W$@vjEKO~1i{(AB?lhXnx?c9sb$0x}4OXpD(
z{<-Kom>0ljJpZ1Z;~W2qYfo_PZ*g^Rab<6D)o*bXf6aN{;!6ICtBrHDZ*eVu!#$kf
z9)62!c#Avu7Pt8=uKq1<&s$vcUvXV;yNYL@O1f$;*l&A_mjw6co_^tJ>^d!Zx$0UK
zcFZP(bql_@ZRe8B^|{^`dS^T4gqOY7yosWwgsllR5Z1qAwdPqaxG-68hz`p(m%ku<
z!+YHu$4A(G+b?)m><&I}cKr&6+dIXa#WUM@lP`VG;^9y58ID{i-7RGq7Vu7$o<QL7
z5q3CAG(GxleDhLK+10&Q_RcrXPke3am8nEMeK<2?Ma=C$Q%1lYbJ*^omMlByDc{N4
z7Y<}N++K^le)zxjey2Ba;IU<T&IBxc#X>F46yYmgJMsGF#J)$dJkM8T+-|;L-Us}`
z7cBPR0}~yGm&u>0aPw91ZHMTgDpOH{hxUWZ9PTSy8u$aV2d_SK<)OLg3WtZ4UOtaM
z%+HLhaCBb@x?rL=GrhvmeWlD#Pl%)Y%DQsCiK1|OXD4URn>jJNoi(y}Ui@0*l}Ms)
zTT<w_V4=ROpKE`4*R@^qgVdw-E5(I;TfB7R3Wxj31`A&qFKJpq8!A`a7Jhp?u#O(K
z)5AJ^B9I=|t+*@rR+bF+mE8`$5o$Int#PIJA)c?FdHnK6FMV{*y28=Z%2O5>Up<R*
za9b&J^P6T1ua;jaUqK&iTB+E{SI%u%;c#0y$5-){vz;p(ZY%qr;`zYrxfPD?E9Wf5
zs9A0M3Wxhj>jpkBZ~2<*71s&}?@B+9&{?|@*$#hTg~M&-4ByTd%s%-p9%Rh>{{V;^
BA>aT2

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/resampler.cpython-312.pyc b/model_executor/layers/__pycache__/resampler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..61647e04149053217e5a48bf4d91d640f7140112
GIT binary patch
literal 11454
zcmd5iTWlLwb~7Z0&*4K7Wl^#ukNgyEnTl*@W6O>=a%?AZWF?NBWTSYO9dkw!X+ETx
zk!2}VqYb=WvQ8?hy9?9U6rr&JEW-w({V3|6qUleOwm>VH0>qs<SQndqq(D&`_98)l
z+H>xZLz<@JEZUD=Nax;r?)%PpU;d-hX{R7XO_#&J*iKQu!%8_hN`(hL14Uh-1Zsp5
zXu%MrM`*~6QA5l)Vx$pgikf1~2t&$-sCmRf`dLS;B)7%vAp=dt93w30!9=Yw`-q*C
z%~5B}HR2*=OVl0njCg3uK#7cKk8Cb)q>>BPTeh398%!gOf?c#mVAr)taMZ_(-dPJp
z32gn=QM2H@WEyF<QNl*SC3*$7Xo>XH&JE)|VvFb%y`zR!Xnf*qR-xe%Gvd={Yy4l%
z)&#S)+9;T>o$L;FP`wXwvSzXEJMPXdY=HST8mN~jq2&@K_~5?xKYrGmMh!R8L3*}A
z&o;3`$9B#b{2jBuvY#I3B~jocQRZV4QBmS1L@6YOFF+|SD$@z+JU1mnhj5&WO+}S(
zEFthw4xkv7IX*7fB{9k?&|zGR!cdtTO-P&^j)xL5H<6ITN;naR0b=Z&C<x*Bm>jU%
zk6k2dm1gPZPECt(t{dU*H;4Q^+{th}{NigTcfZN)2|Q!}3ePd@r&a5Vd^F0Ri;7UT
zOz@Ht=A%$F#Nz-xuZt7Wa0s_D6po9$1h~diQ+!+r&+@p57ZdT(@YvXg|M8c(um5iO
zFf<#*30bx9=j0%4RJAH&N>C2ZimF)>l_@D6DiJHWMk_$P&<FoOBSR?wwWO4;nW7@5
zGOm&*sR)p5Z4&64rSY}-oB>AQS~Y3TsFYcnO45qnT4pH8l%$jNs9}yy8j`@`NZ#kW
zDN3@FIw5ybhxt!ainBaH#8oa;a@avbrB*K8EEOV6WlSX(46uqpFy1WPK%}|SRxY8a
z5ex!T?o-|+<YafF2Ei;?ZduFiPnd(jS@b?F<=HDatizOVC4$#blafXdL#5k4P5JG^
z5`N~d5cAc4L;4E8=U0eRE$70aDfmC`H>xH=878EA)yYT0WAR`pA;p2<Z_p|uC^HkH
z->DkIaYZ%7cx4<0OiGH>2=hoAa58%sm_k<gct}*~<EjICiqb>^c}HbNqX}M7Ex?51
z{DcU^ElRN|Xt0bzyCTL_gOc!@Bpc3#LSMDYQiu>MnOw$u=OF#pE4@l=qIV)Zv0LG#
zF;Urlaq77P`_Dfo_C~|!dM9R-@kG4$LNprdB^(?SFN&clB_Z`j`58D%uPz1x6Ems<
zCJ2_;L)r>U?1g_h4`7~pXr(+&Ki_xdz~X`ITOXgjdUmPnm%)6~?z}rN|8jwCS~!_L
zIe+Y~r6JS((Ti&quHbFYj;}QBNLdROcV>TfVDaD`OJ{EX(#6~Kjd$;C=`Xl9q+DNG
zZ41t{vo!wltLyBRRd!2mAa`-ucY9BsJ-p5yUuBPfHu-ti=ciU)JC$c&FEqAg`xbX)
zFD}tn-(6|gRcL4{v~7B5V{G=XS<2p!Zpk!c1~QY`uDq@Nw>FPfzufU#n<L$r*_LX&
zys6k^XUq@aSd?lbaw;f<W2zB_f(7KD48kL%b2;>4;Gf8X%|Iqss3fS-Su>~;19F&b
zI6=KnSL8#aT8iKrkjMzYSNOP|?6_qt)A5`!X@oJRS&#v<K8l(%3XEV*8fQULAP(9M
zf`#yREJ@duIMy=F&sFcOj-(N6AW4j6H8E$ZItej1v=fwJ(xlJJRP|)b?UlT$r@5+U
zJ^8~V&0_|^e#@bs-;%U|)Y4^cq~5;S|0nyl*6!Qyoc(h<a;HvP{aj*7nV3>IpffR!
z^hLC$$cM&tok>Oj3HEb57Y)k_ml)OCWKKzN=R{5fEh~sZKj_<8k?TI$<L7$0?w5PG
zxBO%{tkREY?x@~?Wzr^j;M)+{C!w?+D}AXKN`>P0!=4=!b;D5A55Lu{CDtSCJ{%Jy
z)FB}IO#H>LJZl@DM)df!;J1Q8o>0xa#K*^o1Ow5wcaPKw-Bq&)GH?ob3uK{c1QS7Z
zgn+p~2FBsvZ<Wv@lwe&-0#>3_CJ__Ic-068Q7v$NAoAi`0mm8vBO@u`<zkYy;GixP
zTYUodg<h!JgWAoHN{Lu-ObQFq0q8db|MGtVn5T*!ifztJrk~Fa+;McQm^xM*9d}vR
z!eDwZ6VCN5#%~?@^u&!5YwUCL#|kD}>g{Y(I=E_ThZ^h7Y|Az;_N=m<^T+O4T$$~6
zEWU!PVc~rGe0KBYM9O&A<yi=)!&zHy?-G-D1pw3Ny|R6Ad$#FkyHb`%E6_Kdj%UYm
z(<>dl%lw*af67>7Db_uI;-QUlH;|bexzkJA@~&t8fSJy%xela^1&3??gtQGW$%OY%
zU#b<L{b^FIEWyg!J894*hOxq@RlSU;imQ5=Kw_DQ#M<~23(A-@fiy7Q(zW^=lVm^|
z=n}b}>;!p<qs+CV{FdP=f<_XSb|Tn?0O{LrB*Y=@Mg;0RzgZ*7ene<QiG(<=GMG(E
zXnD&Z{V76$)g-v*TS@RR3_)I#KL7wEXnvdoADSs=pkQstoJza0rtGP!mR!pNqrqvO
zKlUw6MJr`>6EZ}~LuwLpZ)AV8+_mP~2gC&HATb${m@18%*Ids&LLWAy56v95g`#p$
zNt_31V}iYw6P}r9!4aYbtG+s|=sK?~!6gRm(>Z3&6t~w}eu!02r;-%Gd23SAr06Tx
zll@hi()^T}nD0E3rD~>nn$MCnmrplmt?FA(_klBg%T(1{*JMd+)qd*e!txlYF=>sU
z#I8vKlQbonQ6qAaW_cuyf|>Bu85q%2(;cc{IT&!vSVePN72RG>Qb}u-_O~SsQlRQ=
zXvx;3s#dT}Y7?wQjTvs1&YQFWPgdWAEolQze)8(j>bK1PHBnePLH2_$O4Ok;E^>$k
z*E2jeuAn!{O@{?#TvKqwiR&k2T?h1Y@96XF)Jr`T)%-&)A(0^(J8STrzFm6XCyeTz
z?uC)ubZ>&w*`=gtkr{}#B#KrOHAMNM<ncSDHf%>vMiV*#EcF6VtugQiaAB1J$02lH
zwZsKplK2^@qn|)@s)T}sNGg??6{Upiw`&6H`-p!50g+k`a)NP<rM1emRxxWWs+Lbn
zDCtz2eq}Nef8{nb9ovFBwvK?4P^-QR|FQ+XIk*Wv%G#Lme{_1y(pA{fvlPy}lXl#L
z!l`SAmRoQ4{klE#PRjA6)4lL^`t8iSw>E#e^Ty6K=d<(2@7BXPoC^oj2QwG47xIqn
z^GEMOeSdm?=4f_u&C!MR=8W*sk&jPYJ+bE4v2+xb_U*pg=RZHV(*M?-p0`#^Z>>1q
z(zUd^X(5?TW>4kl+`(nXO8cR_`}vgVuJ_sH@Mqr7rt{ucQ?}nYymx(VAG@x)ZW%tc
z-morrEx*0oneTq#Gylqtp_S8T)_iZI28r}uF?m6(Hh-^bbiv^TEYY|jxD-8=`SJk@
z|DS@k6)6bJQ6s<|BSyg>ngoD?X_OHd5iEW9x4^#@{tYBpWD@~5MnhPtj!Y;8x9p+~
zf@${B2v&3mPQftRn4(5$!F9<w!a|UY0k7Kwfiq`{x=4?>fZG~W=Mi2OUoVG)X4eTf
z3~+mnRw6^YbvIFu5lx4caV`-Txe$;b1cuOS#i$FXIhNeH8J(-TE4;LGkDrS|tR{|8
z9d2?;l)@s3Dsg*+svr{DZvis?Rbn^G8doDx4sfuLjGTuXK#4$D1Fhvp)~RA~jV*`I
zsFdo6PsM_zWeL})HpGmJydbOQ^B0ICXpbkPSdg4UZ4?q{P%6O*DG?DvctVw(#3&Pl
z12Dd%nkOW2G<;D4w~Pv*!(L8ks1kj-9R$KJXow+|Td1@>Nqq<!@MZ}^LyRX$1$8Y7
z(G@DF+dJqB26cT{i3>&QXdcB~UZftSK%_^Xr`(TNX{D8KmgP1T)K8K${kRkKhvEEl
zAX!?gWH(xLbkdTv{t`Ulzc7GKF6ngGEnWsmajRgu1paRYQ?>s(`U6g`d%-YDk6Rh2
zBm>rDWq-Qve5^&kfutE`(D?<<&XqP*l}X1Q8?VR0;Cu{v+)uevh=i53_AK1MoUQ7F
zb-qy2cFSCK4h$HPG(*jR?i)TnYYhM$BDrA{>RgzYr8l61^d^8uWD4H)Cis7V^7{$|
z;wu(ey%<E9){;~hsO=N_&p`f+8bAWj!+wK=ld0B00hw5t@f*O+lg5xGrZJb1KFaQv
z^-z?LofG)Ov)zwKjzBO7VO%8`3>=CkLVQ#{3<a&{-@<Si_c~7%JRLtbTyZQqe&)<7
zE1p2^!m1}w@ObYt#(gd#I7<%cy}yBotx4b&-rofJZwl0(YAr7zy#|wMYVQ=5$o6fo
zfe#uJA<U*S5aJ3ElYK$~?TH*eBcY+GT1uCzHlD=jHgf(zS$4sp6(z2kqVeFQ$^bln
zK{`VQK^dihY9imo0l_{oI$FDl*KsGO5#XT8SCf8(bJ&8xP?VSDU{FTxKv|}xd7@#Z
zKLX_JhWa=93AD-I0Qd$p>;}r_N?TT~zBOyxy^Y&brZuat(7HKg`oLAnzHDx}a(40T
zC)=*?y0&XcSPvXt4IKW=mfw6L-~0;nv)^+xfXAELzBG7e^Rst1?kadT6g;hk=C(qI
zztF~IeL3Gs%g%=mbGs{b^uwY1jYcedFa$xs=9YD@f7R<>@-M%g_kJH{v;D@~nVrdd
z{iNKyDQC+!@5EIKoA=@7HWeK1b;ssAj?KT>xGfjXZ+r%)DtJ4x%Hpe^OkIEX+PljK
zZin+bUS4f_Idv4ZFME|;+PdcJg~bPp7K+`X`LOhGeFye9+zdFdbfhF6psJ@z=sltf
zRJ{=bc__rnt}HNvVVGEMzyP+XxD0e7YVQLRBCmj}7=@vdfFKS)#u?!wY9^8;D2do@
zwz=jbYUqE$0UQ9}0k?PIz4Uw8$-KL3-QB(F?p|tG8d!pA--@-5oYn6}Vvhqk2ZO3T
z7=-BUR20i>5cC%xEwxyJK_L;sE=P|YA9!QvOmJveGc9pzCAJvCQ13A4G!Q3=L{zds
z6GUVbiO`%RVbxip&X5?527@<fDF#>>@ACzXJcpquA@~Rz5PWlqx^G|@Ytct_ZZ7OQ
zT-dUsu;+V)4ZizL-OMxhnteqEa<G)VEkz5KtXQ&P$xbzRGs2?1=)f9FHFsn~**9`W
zt`A)sTIqOZ)!SEeVvCFF=qkFg<e^&pOZ!$g^cEYi+6WUAahal*vb%oYjHNR)&Fsk;
zzosA~cSyGTh{!BE9uFuu*%Qn#@@N6?i`7P$O*h2s-@y=bfFZ`hzf(8HTwsj3!5H%r
zW6Xob7<nCR78*onq#Z7^CJBvCz-#7U)3>&|>$i?t1uwiKx{2xM0b1Xn+I6#U5B~$W
z61}<`q;1Wkpca87PlNd4$8#5WFy53Iw7kgM0*7xRat|@v#K2gfhdlG`z7T~NB|h+l
zCSn)xeJ{YB0jn*>!vmub9vu}Wh%<;>7-F1&=Hbndn2|6m)X8Lzn_wI$r5<j2JPh&E
za9kj-fHKrY7$Tut7EdTRTte$GF%=accuJ<?F{G+!HY#+IV(_w~y%rK@vSj4p@kT+7
zXgexv2i!O8GAxss!0MAhS(0bc(&6B2J={5n^5W`~__%o?s#&qa$InQw!Y7u9kG364
zL~ZFBL$&e(KcV0&Y>n<fT@k7dM_?J5`@vlRHD;wlGb=IRf`$tkQ|S7mkp^am;U=1-
zkigtT(?~Zr6_f}h!3g-Z0E8}Z1xRytMK=T^)w|G|pZ2h5zgd#V^&S}E*{;-D&S6jb
zYG4eRwa^`i-I_bu39EyM>W1t%c)vl&HBt5+mWB|ZK_Kx6&H+&EBoqv$KD=_dByn;o
z44)4|!@LlbUV#pNRuk<{`aTkw`O$5tPTge=f|ssIOf>j3wN7BQZg0}LYmaU!snA`P
z0enMT=aOPCkl^$XWaO{0z-}mP>MOKvD>Sth8z@`rL&|2e7dKF?U7%;3cYVFfw%Z3j
zA4S*H`DN?IkK3=d-(?%t+4fboJ^RBvyK9~8UuFAmKbvO<AfVW0PnkZ{j4hSEsM^X8
z;j(H&11K2d<@1k({*XQh&Aks0G_7HNcg5IzN?^AB^VA>wATFJ*nAKp)*E6gQ0y-gO
z$~8U3Y}dnK^@3(#OL*bTH3_hF0%BExJ|=!p(Vw7Umu)o@K(*p5{9mpMYjxCFOTXo_
z!0U7L9B_SP)3^1DbUogR5A1?jzgGzBMmE>$g$JLrzzW+QZv`w$y_!_!`#CGL`)eAZ
z3fNtBu-2rd>~KMkI(HnwV17-i*nzXq0`4~Roq8E>S#FxNsRV|c5JH&W>6WNSpk@nD
zl{naO-{bhC{-xjt9S{nL?0LM;EbIeYL33L*D^+{S_%U<^d(|w67s4Tt{60W?=0n%l
zPfI_=tWC2D(c_lz7}^gND)N%(Bovj>`v{N>q%;B~c=B5SA}1vgt6>C4N769_;|PdR
zJccE-C#4AlL|#U)bRGamYGOYB1QCCN0Cy%`LVz+@rGvz(R_RIUS*X{ILt4Q00GCvl
zZLE@}B^)|P^7}Me*!YCjyy9rT>)ZIz(T@kO4(9mlqt`~4PW>vJZ+|B5>q`xSSF-T@
zpFV%LeJ^;QS6qv(oNf7g4~>QnSL!6ZwzPJx`?^<s-Af&L-*fA}{#9Rpp~ZLQ;^M{J
z<n`%m(?uiIdhh{dXmzCr!7Xatnmc-Z_}cLDVBU9l-8Zo68+fey5t{Ue=pp=;!b?Jt
z1DD@Rn^JVDufTd1PNYv{CNG~{XS-I}u3T5{)DoR%cc$ojtaIU|^h=q6^obOW9r2k`
zxDr{6<k>F3xEk@55F3WlL)nJxK%VW)d9Qa~>s;?Tu-bLtc2~aZ&?<YVz&bOwb<dVn
z5B$O+@7cb}ZU<Ch!=@s<H2NM;jN1;Dxr4p$VBF3WK0`V^3$LVK$<o=rET3mNSgY*H
z;hnLIZ1&X8+^K<rry+Cn%HZPQq7y1^Ps*zKFoxk_e}jbTO;Qj{A-I5G8UYD`qqx?z
z^+hbrAV75^A)9Ji9m!HPpCMsC=>tS#z*$NHsP<6)7?B9>V8g!yc+5j-?W{N{&Fzf+
zUeksm19{0w!II{rV5#DyV6DEBf-Nqpsio+~k_X+D1}rt|?n)C@z38ssf}pd(U1`D6
z5t`Z=DEN2Zw{2k>?m0XQhth|N43u#*tyc~$9?ET9ZQ5S6APRO>g~AcAJ-d6MJ>CAb
z18SPTgNFx(NAt*UIIiWJv<pYZSKXmRG^zzL<p6&!B;n<&w$Z70NCC%CmO#S58$2<S
zw6_Uz^-Uz05{SnGq$h+x`Kabv+N%&7acmd<)F|-iPmKavL^u#7ztYp9Fgw1bABnD(
zta6PM2xSnG`4AS-=w>UHj*|T<Q}{c^1Bf_`fY8toHknTnx0yJCgfwnY+D&c2R_h_n
zt3E7cp$c+?l1~9F8fluo-_Ovd2QG?czo52$L3R9&YWx?9{Vla=h1&E5<^4D6@E6qa
ze|35@uVbVor>r@9=7Eg7v^m?1=2ww|;&Ss}wg0;PGvjLCi=_TJ^Uv(xvk$PTxQ`m3
zU!w0DeYCsaZY+`<EVs6+ZCW|7clpKJP0KIeNRawH#{Sc@KR)|_f&Rt))Dik+7~4=9
zi+Nl7$2+g?ED~JrzU9-mw=DnQ#(Si$kA;540M*i7*tG4wt&?sh3qyX--I#eJyEkXd
z?q3Y9y0;b?Kmr+hyhRI^tdy%Mvo~wZ>`w=aI1q@>>>&GbK<(iXdM~{va|9*8Lkfxy
Sqx2w6H)J|~Phn23{C@yAlD&`s

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/utils.cpython-312.pyc b/model_executor/layers/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1b8bf9d500a09201eeeb69fcea36d3a0e4a7a3e3
GIT binary patch
literal 12499
zcmd5?du$uWncwAOx#UumCF^C0wy1|?OO~a|PGnhCY^$~;KUKfm=#pb8?n)xXmv@(X
znM&n0g~hZuN!J9X+8iVo#l?nQ#72vY3mnkkaChzDZ~$rfAaze^T{Jzw{}ha!qDAkI
zyYHLjk`zNF?IFG1036PIGxN>k`{tY9e6#;rP+*}T_zYk7{983e{Sq@;u%!~uDvT6$
zgW{<Hil=#<kM`>ZbTp>*KK+0m{tZ5Z-#EY!ni0~b0TW3xKGts@Fq5>&XYq3b97(f2
ztG{5Nz;7F{k-XVg=-)E1g`_RMB7gBfF-hxvTm2<&=*wR^P)1WaO5lX@JG45kfeM}z
z^xl2ia5MkBH9vjGz!$t~7^viJ`OEo2p^D!EKdWHRUn4(tNVg3-A7c3;;J%$N&R>h)
zx(U5x6ME?;^s-Ip<(tqqTMZju0ps0arue=5HfVb&vw~X6dqhiR{`tyH`l;H4zR6nh
z`Y97xwe7DO2Wt2ouTlfGWGtU5|4ns)<*T9Jy8qK29nfR_pLe}CT@MRi1Ebpsd#sqR
z73zfgyLET;s?=dG*2AvY3BLxA@#%~%Xer>j3-o^%=+o{$N|$yEyLc<FA7c1MXxsSb
zT^pD|6RbfK%tpuW$*;|+y{_Y%VZ3`L^^Gl4HJ4<M&m&Jd{DM3Z<R!;YP;~f%yx?>A
zT$6$*wLHOfYNQqRsLSVb4f=$B$Z$?~SdxQ&XD}o|)*uAN@ZTl|-F~ObBMV}xg!2SE
zveOqF9u~w#ox&Xrg}X)fNKYW_SGKsrq9_DpXUON0p<h36unr3{@OHX`;eZVJZM;Vm
z+_F;?hCLFpP4}zN;|e1Ra##$wQ&yEo6zn~PvVV3Lq8n6%@)GjKXqt}DJdKubS{I>s
z9ZyAcu%~qt^);QkO4E9zYg9f%H^?c?qA0InBUj8t^by05j;HS$?f^Fo)5eI=3)Uhx
zL}=|am}Vl(1**~5|Kz_Rv^>Fvw`oPsd;E<C#VC!qLV{wHgRpRrlU?pn#Uu)Z+-MT5
zP+QyzkwW(?#vzX=$qFM0?qGmdOr*BJE0%GmG!h;f@(H|zV{xeA_kFFhKhzrXg!alV
z5!Qb1MEJnLj?n``tIspo8kz*92(*s*eEwFV6i#76aED<et*UmkhCzL#me8bPOR;y3
z3!dQ-S=<htl)_IMfoO(GmQe+^xxQ%MOwSryFgqAE&vdU@3ufK(9rNd6H4B&LJ7)a}
zs~w69Y_rmQcdTfkcj5T#bfRGUOz-=)t#hN%(b)6L4YAf+;v?I>nZC86iW}7n)yt(T
zMZ0EBu5qPtL+LZ<i&7XlI4T4r#WEIjy9S+-XG&05P&lU~T#?*q=|NRo38E{HA#sC}
z(|Y7h$qvZr5YeH|OhJA~C#R`-b%63R=?dw@U7co=K)3W>bGjg%;OR*A7znya7m`GT
z(sV}SMT5rifN#ErI!tG2ub$VB9s}(&s2U0SW$1r`6NGJO<mE|FDTWuuJZ?e6$u=@#
z3H&L>DM1WMioq8Q42wIFVwK!38MmH`=bef<7!V|<&oe4C8bv@|l<2^y25VXdJppy+
z0t3HG8kKM}5=|5BSYbQvZXz9LrmE8w;GI}oY=%0G@RR%y%}^iOsN(V)RSQ*X=A!w|
zWqRRIoUOgP^X;bFO%E>r=;a^2{Gnb~%*>ojGL*4!)lii%RK>buW8V$G_2rvizBjhA
z>(C>^;kBZwZ*|A6E?Z((WBrMuJw#Pvbo9{7vBzBLyd3AM;)W`52M&(`JLQojr6eQ<
z{h`!IC8rF^6cm+`U|0@?bE(B4*oi{GEjU9$z~z%Yf~0I65``;aAWmixOGF_g$R61f
z3}mS8Y(2p=(Z>IT#AcT3B@os$Gi}OPp$Hu@MHo#VNI5%g&MMb^q}(#i5j3px>!+=V
zO(WI_6){J+i1AL!rh#5j5kp=r)q`zI?UaaR3Pe0r4r9Xl`L#N`K9^k|ZJz62U_utu
zk?v5)2dn2uucN~gaKO>v794WWA&&?SRXh$=9;8i*(&@Me#hw6&XJaKtaL7UIq~k9%
z1JLZqn1z=KlYG+dbabcsaeyI}U2u#AhRGn*+At)vF)gHHl_U{nI1`sBI6|;n1YR4t
z-!<X!hy9LJW1kQhmPZ`p9(e@jh*KMM$?g$HSb|>CY`&Bk=$9NWN$nlj;z-6^zObP7
zPLhrdl|2%$68JPHJk)VO*m6*CyP(kFksW*xmOBuXVTy1NOCdNhaKNs>B=YxQ1}5n^
zaV*U!HCi&Tu+Jq<wveKHJ42O;T9R6=)QYNYKDuwz78*TE57I*1oe^Rq={V0uQ@NxI
z{vbB_wx-G_Q}Tx~BBqp9DqWz=lYm-2y5+?>*xh0gL|{Pi*d}IA*@A~`O9tLZ;&V`@
zn8N`HOo=chG!}?^v33hatr&d<qc)829!X3vF~$n*RJfE<qg_>sQu4{zT!l-Kh~34W
zqymUgdDB5P*@fy%(wkEJEY$1728$5E!QMpKYnQqfyAp<qnd7tG_0oN7tUczvwfmV~
zSH@iHpXr{t`XNI#9Hle#1}0&sh4Xs;>TfKRvFjIx9kH?HtM^XDyDvR5Tu!o-k&D}E
zR&9F{wmtXgxNXmhZD0KP-h{0;Vd$OdT{BqXHpi;1DPe26btP_VTCug=JC(2<P8beD
zDOWUeMm6Y0f>IQELSa-`q8J7}F3Fv;aWDajO5??MAp=&I&W9Ielq(7O&im2bu>5<n
z>SSAWtsR?6Wc_)$tV}8i)?63SYu5Y%C8JzO@aDq<Ikj)o{eTGTp}u;Wn}&Qrm%M+U
zq6-8R%TPGr#`DMJgQLz95L}|7Kk>!h+Xk@<TfBe~UZlmt5J|X5s0^weRPe%(E9{e<
z;lP!!D<A`?;+?~S-!C4AdTwmc3lS)Um151;$FGgQzVpW3g}o0=)$4^Na}&{t)xz3D
zVeM*RW1_I}R?V%;_b#p!cE;Jxb<Q@|8SR{R#mbgTR=9?^p@B$mgOu=GBxhqgoIIa|
z)b2oK3}U;C(j_4uBGc+gwGq9XmQTKQ&MHN?ofC$1W3)(50(#?hh`B@tkRm}}gbF?;
z)Q|~UG{UK><Be)gf~i2gR4!G<q{?=aGE?4mm86W#TL!23M|kS7CY-hA{$39S)AYcB
z4-vpU&k@i-54DA&p3K0UJTp)L`h)7Llz9O8h#nc>3X0hY=msu-yok6};h=CR)ZrWo
zgr~AKt*u>Q2Z_$LwZqkg4k)x=p+|{E<|tGt973t9Vpcced0-!apL8Fh8R~s&<*KzU
zVQqV4-TyvUwaV>EaJwFHjceSNH%phcFK)kUeA{;07Oyyv;0`=4ECDRYnrEN;$^_gX
z^ncyAR#@`bY?<Yw+a8)7^H*ZW7ABuk26H`JJ?2ZICmvesVl^>&vGJ)Mh>wA|HG2G^
zwKi51;}^F*H3AVB7T7kDO-N>uOjy(c3u$q8l4FdFs<^1ATEMj=iu-Gb!4Zj0NXk!7
z>p@VIH?5vpb&ArI5=!%28hQPl6!e+`(E+%py=leG@JL;4jhmDj$i<hDfrA<%hKMo3
zK#zHpTLXmR78twHXY#Yt;2;IaXac|o<|oTk6>I#wc$LTrp#FzRJH0kTpx_qB+pAor
zHTPC%smy;?X=R40rC>YaW@CXj!!uJL0iMP!FwI6--V~<6RA;#3y(A}i@iLGTym-OM
z3Ayu!nbhS}fh-S>gpZeG+EHMR7<q;mkiUehpuw%1(2c^56pcJP3iA{%1i+mfI4kee
zdeK&L+9L1LXkM6UZU8x%BNmVq+H?rh9LSIJ)~dPeco^l8PorQSmDG2@ZIZW?xKbAA
z?=gP`h6ZNAW>#H17cr;?P&^ItFq4_|MRYSgSz~U>9)p_3G4rgZU4PmU|7rB0(bBJ8
zt!c%CR&;3MpjZf#BM1<DTO6^guD15^w)Q8u<`<u!d_0r`tZ<pKl^{aRHzu{9Z%w=i
z6%-@DV8N#t(6gaJNVJ;7$SQW?eQN=~T#IT}Te5l)FJV12I?A@or%#`8p8x#OGtNsF
zdYl(do#^j>(b?B?<_xjt;u);jkI_+#;8df;9*l77hzLa#J#?b5<6{@#-X@<?jKJ_r
zTcb4xN01?lpT|~bF*=74jzh8F2_TJn0)a_|nQ)GIgmHz{e1E__EK6vQ5QAtz#Uho&
z&6o>BoF0G3C-TtZtMHTl4(#L%^&9XFG(Tp|bEc^2>*o3H8@&s?v3=h>nP7K-1B$iH
zS)<nZbJ4<_%=;#L?A$WF+_vm`Yxw5yBU8(JY}YReD`Rc3p=Exha8I1w1EAJiu*x<h
z*oLQ+-dz4u>(;NIc&djK93<%KdegX6uvh@@h*xgD5-)F$Tic%+p;SFl=x7i0dopPT
z-$l|!vBj~HglYRHK&8jvLwhm$;=CAZTWViyU#|Uj=So2XKwc9&+xC_4e9`>5*DGT+
zZ&a>tt^VerS$5r4H0O)@V(rWAw>kiC**a(SYlW4w(%jYP)p%iNtb3_%v2Xe4^7+_l
z$lhvryZLtWy(_m{9};A?21n<)Xz6^-Yn3rNcJ5oua@#G#cMjewxo1bto~S3rEHk(0
z6<gCE#dn?CGS?C9SmkykxE-t9&IGq}*>$Vz9-zPWxS{=H4$(o7Eb)w_4nfGK12J7-
zE^`BT$LN&l%2!I>ztD7P2P+^YeZRU<u|BxV%mHECDS$_4lI*tI`WzLP;Ap2nML$+M
zhg_qAI06;_7Jd@m-2f{y6sXE)qo0kJABYt#l`obrZ(Xj9*&(|;_EzL(<X-p9FDJ?m
ztZ*H1L&rx^G45pS``H&E0#ppK8uIxs^W9wX9Zb155V0G0HX2m3@G_(o16n4fH194H
z`=G`~s3(pBi9~m?tOg=*?pY~o(cHo4!MQ`xL#teCf@{4;-)n#H+zNLjZa6~bO4>B)
z!Fq<A0heDO3B1H8W?W5m!xPIwj7mK)-r(NFr6J4n50Ln@mPb2tQ|Kkz6`beX%o0hS
z>stz`z=JV>cAA`-Iz%cd^a5vYhNe1j9WWDes5}ACo_5;moJSRd(;W&cWllimF8_oR
z{PJL2!=X@6lmWG)C07idfZWljSB-Ic$u??liF-tFk0LLpH0*PN&ISaZI0nuC9)8jn
zAOcj*7R<3xcCH`_2CzB7Hm|TPXag(O3W{G3-*{!=6|j0!H>cud`{D)r&?Z(OxYk8`
z=UvfLXay@&E104r&BhdVRtiMH9~=`>&j{}99h=tnM<CSert9o=^JZRBFN!@UXo4di
zQXRhUcynrCHs3CpHpmF$NyrC(#CNlxG~C`J1`W1|-<Q*n+H2EzWd6M<#hl<pr%+DF
zKUU3Ry=Ip2sf7f%gVH>u^?$7iTBgCSRtIK@H-MawHPSqwI^CBk051)%nPyG1W_ah)
zy~;)?XL@E4T0EG==MMzZSw4>1oIyc0bLHU;ca0iYhF;TECn-5S0xw#DoFKlL1vO!N
z<pxbN<R-1e+pMKB|Dy+B>y4WcAZLi_)U;7XY)68(MN4J=;SI1YlhaaK&pe~e>os<k
z9in;D|BrR$&9B0IGxD9J>L?k#jU?1lV(l~|Kd0rrutK?kXCutFslU-_`a@GM!fVwu
z^9u8gR`q|J9;YVsFH++)0%mkQZ7|}v^KeHz3qbUS?$a{k5h`kk=&qTf@C}f5ExG_B
z%g#0G`Y&c5e4+?LP)bx+qB8{Vu;2qz9ckdp-RM38KL~glokQSzD@fH;+i7oNGczh&
zV7q)S{~+%=G}X#`q!7LX5bK)@Z(F*2@SN$B4naa~kbuz;Ao05y>IcuibMXGbce?I(
zt?s{=*nbh<R;O>($D2B1Bk%I?Q1+Z<?Z~lIN<CcBwD!U^1T5~AFubx$&SBBTiy<Iy
z5CEE8A^?>88}uhR-=bhxv%LZ;e9(ymIpFId9|$=8@UWe`V5Sjx2=u`x2L|W|(3HA9
z;xy#`=%x7?G?H-8xHQr`)Ay&}{lZUN@pG3R9k@(pKh@Lgf)kRwceq8tB?}H1+OhtA
zhbqrz#}It(FbE<hPdNDWo+@c^^h~&g5c*L&9r+jPQ$=GrPL>U5>?q7I>uNTPv&NH8
z!=nGY#ltT?BnLz@)ZOsg6SpT;TR)d*{oHEniA3v(HE^%B&p!tm^%>RM)o53J#skoR
zTtU_Q<yLaPJbLz$^FrTg=c%6a{XM4%jL6_fbvu>9``VZw%Bd4SwXGBrJQc&Uvq%hr
zqJvKkJ_j8r76c}$h{(lMF`spb01e@NS}_ucu58g@kK|OfO?6q8kS|N1wF_hkU#Pg@
z%Mn3D$flUie*OzR=g%I6FH(pqq}qX&DzvOv&%>uE9>35ditq}IZ^ZB|i((yjiTEZ6
zb=^XvMfISM;~JDBOZt?09WMxqo?&<uPdz`-f_N3{T*D{=k%Xua#D(F=kt3=}*#5DG
zKzsw5{1djl0=J;w!!3eEDBTt9TIK8s&c4F!xONO)U9PMF^>p;~s&z-gx?`qi-Ndb$
zs=*)ssJ`Pt(Sz;>;Yam7>lNFV%!}qF>!NkFqBBv^`QZ5<b^WkwrQ-N(!8%tw|9q@r
zxqgM)73cP^mD_JjElk~*UYP#wrMF(b`SMEn{^;??<yEuCKh){$mRaK?w&DZ0(QI3<
zax8T$cC1$IO;qi@E4)2=d-Orgoxo3e;#GTBs?N{$eB(4+z29fKRo4EHwXa+4s*iWY
zy8j1PR}Y*_960&VdNOI?%(gXq&C=<`)3ayR%eJkSH6_ZLZoTmK;oFB-_H;cMTq*0G
z?fZ}F%d<U?toEN4+SjY=mnIe`R;$|*)onl6`OcpEdmgyH-x5E2DPG;SQhj;e__}q?
zTKvHlT?I4K^Y4a|-+fp}ZLy<A*tTvhUbR*ytkp>!T~xhR?TERPdb+6Yw|aen?E?y;
z|4M?B*!Ft~q0>LU(EWUG7xm9w=DuC}9~&$BYV|*^H9~sBqeU99BIela+M55mMT^&=
zO`gk?Qi3}m_izwzK<!_{kBp8y!dQz|xvB(5K8aYCSGeZ5p_!Pz7B|#O2RsGPWIRKN
z|4Fu8gDWB<qmd>7o~S?#)$nnTEYJow8wt<`^*)tWO&X(aQxn`@h^K25N)-ljFkdn~
z^3ZgfQV%aXmcqwjsRQ#P>+vR({}z4{0=XG#-Bb>`p8(xA)vOoR$JzRI^R`v9BVl$t
zGS{vb*2USn_X~H$*<C98ZfMomteBimKInEjl|pyW=L3@gMqg@i4Z1~KGS!kH7!+|e
z$O)$!ze4pfH~k@;`l7-Ss%k$(6SPol8(n<F8mY^$jg+Lmu1b9#=OkIx_g0owPCg7v
z6>`Yd?wP>P=>)OG6BrWU6FaxiqP_h|iaAY$Yjo;GP!fBwA?qafY^PJ4$1HP^eECAY
z<x=!;d4!M9!XY@KaZ$-buxf*uGeJHK<l{&_j}ed22u3JI)f5^AgF*EsNi3KuQ<RhV
zZH(})pdljo)(rR^62AvDR4(afpr)`LX&UScz57>G{Vyr&uc*5BsM7bSruV42pHm(0
zQTyJbx_(YI#i^!Wm`morxMJQh!z7tvx@=y!;al(}DM&7d(XH|flgZsS+McqJNj;<=
zZ`qnO!arP13yYH`OtBQh%|4H|HCDQ0U$n=;S!HZ^X2!DG2D&)i9MX>~tCyM=o0CRJ
z0}HT$m@{FHrMB%r6Pq++&O$*=V3y=CXVq#JV9o{|UVrJ@OV0{1H$YQ0J3lb9^e%Ys
zLYLXx;ppL{9`cV(*6WdLk)#pQc$F?jOP@4hj-{Y(bF>*8ik9uqu<_HfVwy=dQ^)Dk
z^apweePAusnxwbaF1@t)Qj(<G+TXF?x4&yhv>hXa$3_bojS(6pkJBj*dir3R1Ew_&
znBKqv2x$(GPL`1AFmyM)VLnJmPY5$vGa}gyQ%af%&7!RohuIH`DY|maTDN9xShMZ^
zjmbdkk~W5BVn>q{{4J}0_l)mw_c=m&*YFGrlEn=)vtclhf4sFEr3lJHF_vc_K}M4V
vL+{;C8S+^J-@9SldvhfLm6OE`y?eRi*3o;VxX|(D7ZP=cK7@hnCi?$BvK)ST

literal 0
HcmV?d00001

diff --git a/model_executor/layers/__pycache__/vocab_parallel_embedding.cpython-312.pyc b/model_executor/layers/__pycache__/vocab_parallel_embedding.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..64d6f6ca3b9f792076373ecb123c39772c5ba4f0
GIT binary patch
literal 24473
zcmd6PX>c6ZonQA{n4{;wN!)1M7!m*p5CBP#lt>W}4}lOZQlb|tc|624zyargdj>pU
za7B6LHMsUhbd@)v;tTsBS*qm9(y3HTr;=KJ+^rltP0%~DT~sYMcBRVslA%GxTltdw
z{;!WYIH0Jicq?5quV26SfA@R;_rKozPhPK^!xOW8J6iJ=$NiE%jHg=nY{?dm`;d!p
z5kAJn`8l2^za?ggTj#9IZ;jdJYzVW)>~Y7uh3Dc`b50gxi@D<NId|MM=V9OWm=O2Q
zdE>r0U)(?Ej|b)gEZh;Rj@Qi9Fn?97HeNSZ7q6eIk2lOUurOzAN4#;ak@;P*rg-yQ
zGxNJ+E%Da5R_6D_+T!hV?eGh89Tx657xBK&MSN2ICswT`bE4F-z(@R2XC#1swbZ%b
zh}67qpX+jQkzJ8mgw^3+&*FHgvkA!-oRJ1VbTfz@Iz;0$Q0_<*pn4=LE4LZtwtRwK
zqvsRt#m)6vILWp&qkk5?BCS&U(ri(H?)^!dkw>H*DbG9$5$QlpMEpDP@4~+u|7s~%
z8M<=lf`zry7wLK5X4Z8l>RPje8BzX3dOzW{FxJvOw6tHUF?!fcKe%oBfs*t=q~9qG
zK9hdvnl(81Ybq$ntIo61*H)y&yac~15>AKbW8qY4HfT{@XTowgE~O<|ZFn;gO+?et
za4fniMa=M^O?5<~m!lC$ZC{kqp|q4pCFM{&8IfY4Wu%V9;E}_LOKQ*d@mG>^ED}l~
zXH~461M&&UQe=fy(s^tpl}^TAUk+N;nlG({6Y1z`I2}zUjwKTd(M2;%IxVFyCL^ze
zQ^*(1fIoCGoC-zb%P}b~CDKwPB*iaCkw`SLh{iWXqN(L@dj4W)CGj;aTR<#I@i-!@
zDVxhPGp7q}=hZ+8ZN4H!7cZtm;dEL~0WdJXBFo4;v>Xek7m{-P*GJIL^VHeKBj}#3
z?_sb%<Ros6k8pFA2tQ|ySTKzk(lCIv_mYvOC^%x3sv<VYDOJ%Fi`enyz`qJP)D(f~
z-UT7zeBU<b{z4_VBJKrS#DjDmEYa#OlvY4J8lSC4#Jf$nd$kI!a8-^4qVNF)c)w5$
z{FU?CwhTukfR_5Mxq~%o^P7b^Fl|f{Z9=Vf6~*ZjOT<Wv=446@tM*v<8rDr?G_kyr
zW^+5VEXlMc(pW~xgxZi?NmG;=!hlk$yO2Wl=rC+)2(+H!sZb<+ZCRQ}Uzrd2J@{|^
zJ2)S5X&r@dTv|uX9JgdMp-oTP%wx@Jpp7-ln&T(DfiNPLpI8kfdEJ?I8A;ci5nIF_
zas0qy#PZx4zeIH?dm>e9&H_wv4r^6~@N3SXYqk5BEQQmOsI8||X^)DmJBL5!RXc0{
zt5|7X8Hg(?OR3PJ9FF{&T1|T?N0>|N#7H!*y7fLJzeCG=Ht3M;095Viq&$C7wM+5k
z^flF*T8YcFEvq%Mv=~hR?=c+4FksN7+EP+%L2jU8c927pTc)KaH<Qx>N3D^rrsZ%6
zPLR71k)pm6jpu*Q?M}y+cP~emhtgpgh;iuZ%Dw~pFYS|d$D$W@FJA+$O6<NIi^X?q
zs8qTt&99)cyID7+c3)1;hc6TmtU2+9m#?Y5dDf459a5{oqS;zDlZQ(|yQrdbaBgr<
z8@QU5M?&=nuibp@QJ^+cw{tVFD;F5ZHFQ0#vUz=ZH`gLQ^;Xrm*Bws-oU7?}!=10)
z=atS^9y*WZoZhTcRGi{Q<DH3z&e2EC#@h{<&b_~Ij%^`#PIbsqdPPpm&g+{v1#&b)
zX})gJUR^wkmx`efM~|@;%GD8GBbKg%FtTu%zkI~{6I;>T;;wN)`>ZxIc(u($^7G3p
z&mekzTE&x>CB6TGHkpvA>WHR7NTG@}D#N9tGOUft@Jc!wOUb(d9<<5>cxjV`0#ej6
z48Ob+Z?$b%PR>iIlrcu3@B&S?STamo(dz!^jM#Hi9-xv$I5)UQo|deqOYw9)^z?ix
zy!8)4@J{c&mA@6H^HrSCD-TjN_^YbzLNuJ3FGday#IRvF1kZ=)(gHd$I(?0&Zmu*e
zKqPuzXSt7g&=9g8xv&+0jx2P^7=@0*Nf9_L3$0`9;pOGnwN>#s9l#)7rlcKkZg6>l
z3+#I6AK3Koyfc2c^X{8Jd;6zv-yhrbpU5~*Xzg@p*kGQTWjs_aYvwEPeBNwh&D9%b
zWI%6YmYwC~efR`D!oRAz%+;v1yLc+F0V<vfGWGIm&vV*q=5`#ADMCCLTz}w$uiyOo
z?TL-?KR@(mhc^9tGR{4$ty(?&sxuTyfOHFmRCkETv6UG4g-{5DO-zre3WXxc`A|si
zL8huDkx(6{8Ki2BCeo@c1{5f_BTn8$&R&9YoMRN8yq`j-?jLhnxiqikdc&ciN&OEv
z?{j}=8_e74?c<OAbst>4dG&*LZ@!zi<2&!*y8H4~<a2VJy&Gr$%$0Z1mz%3^%zMZu
za1Bj)FZq1jj@Az^efQFqpT34|_E-74<3HQ~)BQht`KK@EIr_ez-eT{39oHLt;&Rwe
z@+C!50LlbPJ9P6<zKVT1IaDfkGj{u&;_J+_G$`Kf|Dg3|>z0Rs1bF+%?Uf&2{pjkC
z-~H&_JcrMF_P-Q<E->$3)&EWFU$;J`P^}xN2UNF)p4qPLSPn-*z}!QKC_#6G)Yt^1
z9{!M9!v?wvUxZ%;`3FDZ;bNOQiw$kH?@Tx%rY}k&%UYzY#dMN|EJiO&3Gs3`wjvG7
zBC?QQg@dI>6GlD(Cq-o$OUy?VDpXKDg}B!Us1?o)?y+~r?LNgTZj312o;wYSu>0<W
z;yIA99njWNV+j>gl#yy<WWFQ0umGyKWUWy%SyO3}psD;CM-97fU9-Z6u<JJXEaY3W
zY3~J#zNWOs*k!7sOx&G(8je~OO+=)tp#{SeOVNf-h(yOEL9L0X)1nkwkdyIJ@~f!g
z@|Td3xW5!3Y9JH`=daDw4=KK(8^?3L`b^^<#kU7uPtC2j6i>_T^Bb3ywxNt?C}SJa
zI;DCsmb?&-6=kZr3rtN3dZlWzzL<cg81G;LnAFsDTY+*zkML{O0!>EKVfJI5bpr;O
zXgJn_pk020{H%}8l8-uy^;>!0bUo8I&(vQg=Jd<>r~2T49&m7CU#4&0z2?o1sf?}l
zk!LK2{k`YT<)>DQ;K*|pyMy(`JiyI|8cNR=_GUEJV07NZET6MVHpw2b5DsBJtLd|u
zKD+62n7%60=QMpT=5s{cl5N34?255d%~eT8s8AH@G(){bp)NDjR}|_tL;Xde9y1gy
zgIStjhE^AadLaejz*f`->(s8dh;kzyk~m|N96Nh4EJsczB2iEUtE0MyQNUp_MR8(s
zK@97QpZEYuUEnu{)mE(P2)NaxylBiqP?qTsTPAArGqF-4qQ|xCaawvEF%+dWaxRW9
zq^_@AU~M6|0K20&i&Rk&^~Dh;yoNGOUIz2TM43cB5XxM_yZk{Y!IeFPRE=HQB7X(3
z@;h*_j)*8pQ7Jm&2qaeGtQ#dwNRV3H`}t!wT%IUNxe{*xjOwq=`ui1s|DB%f&M5^y
z|5U~~rLC6VN%Ovna^(;?7vK~(u7>KV^|sl(@fU1fX|fdMT-3mz;t$@L$_}1T@GH<>
z^S_e@5|1MPUZn=^C?5zgNwhFlCtt9YG;xit(bHZjYwED#AHG|c9eG2+&;Lfo`Nr>X
zEZ?S9{(hyVHa$C*Mq>}XU}H;%R8Rf&vgYnl{Cn<>W%s_N;OBoU<9zFP*xW^GDeWQ8
zOx=28WH0NyFB99X?tj6i77!9m2yj{NmNj#i;@@>Ak{v##;O9S<aUS~}HZw{slqxlo
zO<-+YN*ns36SzX!KP+qNkm4V@Ys>CAuHffCo^c-kf7?_PSHQJwL|J>wkx?y;XxUm@
zop{0VEKB#TvL+g%Iin2EDE^s@bLKfs6tQ7^vF+qiGq9iK6!#5~vXw+@2qiwc>?uj*
zEQ`b^Qem4ae@aqS5CbEXuRIOMm87a%*0YI9Q&ld@_H43}vMRIyHLS2Dm!zuDf*0t+
zz_WEhstUsIlCtV5rXsms*;7b$O=s{0ZP#J@4@1ffJrgCN(G+ac{VIJj9LDB8TjmuP
zfHxFcPNs-Ri>5=N)jcmT^-EHG8wI5t*kN@dgJJ5a?ATdl?Cb;o*^KjS#(y?P<j1Ju
zAH5sNPMlXJ&Oh*<&p6L#{O1{A!uIWR*`aA=X!?PFI^&$q_@`MKwuI8z-6xgZCm;Av
zW}GK8{*xtXW|g7Y2maZNb2j6jElKl+vipq(Y-`N;-(WF}02<5gI;HG7^}v5B<2;q|
zpJFja4N7uj<@6~2o;$Yez?3pD^?(sg8UGYZ)2I0Rh@3j1>^$*+Q5&E+*b1Kw`sKqk
z056gAGC4=cIR;1dheF{*BAI5|q7(!oPKeXM(5A0x<Hd%mfUqu6!Z<lZ&dFaRhj?pN
z5EEF*#3C^#3{MJLSniwLKiCdE?&{sN_2$IxO<Q-ar+?GdpJO49TiQ2m?YXAbO<QZO
zP29AJITrHR?#)|x`!v7N{Tm1qrui)^=kRGk;72v@Nq*xP#hxt0GLeQBdzQabOR;AQ
zv1du(p~ar(@9d@6^M%;+h1e;6BSo=Oh1jV=><K;R6NT6lh1k>l##u^xx)2Mm!-r~W
z{X|`K4l?<w$TbL_qVsCih4B0(kohu6!x$N^Egsh0<_elGMxa(e(tqm@;Ap~<OIUiu
zGhYH~Sw+8Jci_vWhuY21Dv~HbkOH*C1S?i@uRFn0J4gnx=3J|yH_0BZyVe}|s)EnG
z=0<KVmI|@gsU)|bE0aoip5Fr1S0Fm#;nXEHP`o#@5J3ykWG1QrAx;!L9Fw3JQY3;)
zc~Ctj+|V3NSlUDyRf-1Rr%5=&;OZzqUIY9O@K1dR2O^CIZbw^299J5~@AYMly`@aP
zrPQClF`H{_&vYG78V}^0zD#wW;_Q23wKO_1wmQh<Tw>1Cp6P`2XX1&KckO@d?s#Ii
zxWv4bvsaUpZs(m@rEW6ktjp}^SDgJwTIaYigDF=dX1Yd|>d_mga*!rXY|JPvdlc`;
zjaPG?>RYF79n2tKTRWQ_YNJ8r=(=K4+(`)3d`OB+&(>2o-zpL%XgX8U3Pvmu>w+En
zP&+iC&`n8>O50+@!nBN4Bzj;zCwwl+seid8*Me`IgBgS8eeaxG@<as0d-3<-@5euY
ze>MI!lCa>5)RwaO5}=4D(sF|+q7M2*KTIA1kp|SKi<(gSK)bpFFg1}zhzM$7=D^L>
zA#WGbHY2=#ox94<H9+RmqBd0C9>SkucQ*wIq9Gh0HN6;36l8`gv9Nqigcb|}T<9N%
z-ENvoM<d~7=)pyjkU^jbZP;)kF>GcxC<0qT(s(hPhF%Vt7YQM?40TB)%PbzgB#EgN
zSrVgZF`7bQm!qlZg_tB>xW+01g71PPlPrTNP|V7T$IrZ((ra`wAtvPrpdj8%tt>Am
z<urtwax}S;5_JWMu5(QdQk~EoDv?!jCi%wEA-1GgeayL(62kxq$F790!JB4v0Rp0m
zoI5kb1T5$S&GaBOEK(I9Yn4UF@FJ-}mKRFW1Thz22T+i_AUotk<rasfBpQaa6uTx4
zTtHUTabQA&T2_<-#sTwGX(?_DQVQaFy$ZvuMARaE5xpo~4U@qFYwVS1EGAwIUuH?s
zPtnC_A{;9g3Lh3n_KfV&3!*~HA}3gdbsmWNcw%f=Jcq_g&|sqwk};>TL&jJg*y7Zr
z%~zs&JHR`MtR5F6l(m09nkdbOSI{fyqlKuPO0#)F)j&=xn~^=EV}m04KpdIC8|_Ci
z32izhStdcP&E*wg$_A2y#W8BJWbzW`KopaVYPpb%#gbQ0n@Lv2xice!B8i~IJ>ozD
zbBDxchz)AdMcA{%yLLz%(w|q3o}D)Q;!6}kA>x^%Q&T5rj}HxLVFWSrI_4RBv@rTE
zfnznAPr?u+wVZ@l4_%f{V$TajBa`Bqh$@mhLhkVJFx-(ndk#?0P*Irv!8)=4H#%M!
zjulzbH2PrjzvmWNp8Z}{o6#}6jH>OWs*UU!+fx*_f1kLfp^$TDMvabt;jY#?PjidA
zy*T_u`x`^>1-e@tEp+<WfqnEbc3{8WFucY`M&OorO2t0cihZ#zf3af6M~Z4UKFVq*
zj*lAEL+!>eJo<DudVS=J^m<umSD5C7S*{I6>D)F4=<|D>8bkd_6KZ^<cs{YIUYO~K
z*FGxE{sI_Q2Lb%k^m=ip>%Gpp{iwW{D)cuKU>L?hsYwmh7WPFAr_ls4ccKtB;7JXk
zV)MBe1%^(DkcFqE0x<0zhMmu(NY*~IQ4z{xF=UU2&C-~6L}QlMqjX~^R7e~kEDnPh
zwqxlymon1#17?CWX?$tbB*P{un{5Rwt3uh#N-i|d%<d*d_9bdxOm{)am}!Jr*=1}q
z(W{f<!V2~=QbQXpV_@c1Nc{ooVLr_g&Z?a1D{Z3cE$LC+_U75HP+>I1q<xxop-^05
z)uGj9zF0a!W;%?~NQ3PEQyvOBlU}>&UE}@)p`Yj>JV!9vV}!v-3hYB^*culyWhSKh
z44J9c?D#U-oHg53J_SV?gE4cVuS$e0V`E%t!-|+>N0ntL6{I+Z*#b(Z_OhoWrwS4j
zFhhVtDbLT(l>Stf!yvSR^rawYK|EPFls%PGZCip_he9@ht<*bCgcpy#p5POGOwd1O
zYr#ZvA+M2Rgjht!d$nthr8Xn1@CLJ31%<6H^CD*QhCAJ1#G7-)o$fTk*0@i=!qSsA
znS>SYx+mSMg(AEF>o#DG_jO^-BloNcsjhUt0UxncO0hIx#24P*hh_N>O#?tkG{O3Y
z$c}+MYt|ce=^^85Y1r@;-e!BC%&#QBtlamE8RtTcMm}jWFJTYhE6kB?MoRBv)EE+3
zGrgIs5e5TD(zlmA$aAbL2%neGN2YAIQcnAyO@o{&K~6pkskfVqKG?HON|IicJ=;JY
zDFef&UPfWYa7#O%g<6_^HViYDTQYmH5RcFbJ+(-<sWNn>5v2J+;<K^`#(Fxo<26&g
zATR$BU{>AduzxUPbaC~#7>CifXqs-bEvet!1p0NBa8OK1((|mxU@^h$G`+gjHgS}a
z9PCl;;5A{d3%e;z8Y>fCkO@7iRq186eaP=o(EAirB-tSbm>JQi#kz0=>gqI=DXz?#
zri@?#mgP)8Pdb0q%h(lC$<wF&4Jsr+0NReFS+6tuD%D05f&4Djg>af$JDW_OESR)U
z%QE;55`n7vcBd!qp`dEYGa@a7S7LZmPHG)(t&Be{Si`57U5VOSy6cvj&}c%@uTVWm
z0IrGzOj~eqTZ>Je<*yPf3Ha2mN@bR1zl)&P;RJn}<sj>R>KQhK@*k3qMnnE4IW%S1
zP!SI(|8olZ9tG9FaMP?&h|w8pXK}9<&I1$ys;*FoO}$VkMZIiLTkL&9ll}fN!dE*g
zOJ#<QdGr`Ssec7D^^Y*3spDL}n^lUl@u9OB7B#gan>C~BRgZQY+}v?^-S!<J*FLyz
zd+2P*wGPm`Dc8Q|LHjFrXSKi%rnEbz>^Y`%KtI{~sCREp2xNs0Md;Y5%XW?`ougY;
zOP`y-yO4k17>n;yguYDhup%73m(IR?MtS*60SeN(KwZ{v$l#AFL&qO5jbO%q{Bc`n
zwryBx8#Z$(^-#HH1#&_y{2$ERoZ0eLwX-TT=L1~(E~-rP;~g#QLe8@z<LS<|^k-Z4
zD=qu))!kpnwCvw(IlVr^qB<V6jBmE=Tc3IA=Gwb9dcHsRaM#gH+tG}(`O)CaBO!3B
zbyH|Z-G|&6XYdJZ`P!Af<Bw{3b2Y6$IJYsl*|s~|wqI%6pJ_b+>%7TRJlyJ2kV{)@
zeR<Bxtd>X6(dgO7R2LK|W?M#;meI|YvGtk9Jp<XEeM-;1dp+67(+Yk)rwO?8(cq}r
z@;kP_5Iz=IB`7WkL8-Soi<$`SSz%NW3ThVNeBNqtxpR0s%3yN7nygP$d}7u&q4-F=
z>fHyis>}P(IRwdSA;U367%KwaulV*8@BtloH-KHRwQf?JO<CuF;v7IdSyib%IppIV
zR=mR*VRs>rW(>`UTvKnZxjoxFs5B4e{hTZK8RvAlHKA-ZBla26)6tduCz!{YMd5eI
z_b<r#HaSEal$=H&@{5ts58+|feilZoRuv41K}^}#9L6bwx3M~|JFmNn;;Sfr%?2V$
zC!HCL8w3&M%pOSYO)Kx~LQ%M@DBN2V?uKzPN}}hwuPEG86z(sO^vK@@QpmF=ta;ab
zYyMAYL%_q#G5_UpDNSq}WRoP#B3Yu2x*6l6iOmdAY=Qe5EC{V=17q9`VH98`V#@H3
zMH2<Nt+w~UMi+Lt5FrhUBzuI^Qj_XxcAwarn9vK=FtgM5t6}*~)EB1cWXq>o<Ix1u
zR0RX7bsl!=KSJoX!>YDa#?Wk^cu^&2iuAJ#V-`6Y?)(5TtKHk-&Z3=h9}oQb=YWP5
zqnYd9pP77J>3con?EaN7oY_5ffAO!bYzpU}VDTK~GtQn&-;t+Sk-Kw&U3bpkUA&)w
zd7{@x(bI_T%M46C6}ZlxOwW<~!<*ulGS0R~?VXvfL-!J!?WZ%&mPcK^nZBv}OPgJY
z>v$w~6XecK5pivg{3AI5E37Xk>|~zK93jB&oY1*d?FzW_oJ(IoC00)+OZg+r-R;Z_
zBK#%HO_{%DS>&$s_|w~3G)pVmx)}_>6nBe%2X;HKqve)N_7a_@KM2)X8Y6_>2-W9w
zS!iVj%4CHK(9o?_u9sfgbuhRU87~{N|Aoe`a%{x9ib5Dn6%HDhOm3m%qMmU8Q`jph
z{V5M)#Tz{Z_S*Wn`E8pUE2#o$yG==!7bt0)+@4nwT3f+bVVgR<NNcyN!?xvoPVFkN
zLfh1iMsEAkx5;O%idZz+a*O}Y8kykONMxc}kF$9LAq>&@?7`_XAP{;m*D9=mB4*DC
z%x(*lktrefuo%Zl6DGJP<=1>TAwu5)EeCWLNl})VV4ZOxi(#O098NXSZ!EbOO>5`Z
zpww9gN?+7<TZ9IuRtT4iMhsKyXjwqPp(P|;94vg9HUsJ?VuNG}r%9o<OI?gEn*~8C
z$f_~)lA&DC6f>G;gjJ4dm2~|{I8}LvG4nHbnql!o@``j>lA)}jlSxJG)YMQob6egG
z3#5rMv(lTQsniG*z4=UKlL=`kogBhT96%px@uWD^G<9ZXIOYc>7eScqgo3f4UP&Q5
zsP&Vv3u_0=Fj!3U7)_aZY0MCHZ}JL;ld2Y>a}?opL9F>}A`@oWSqktTMCGV<c91}(
zZA<=V<S=@OaU_f$B0an6z~Mi#YnUg1MRFu^q7-M1Nr|9~F*2&3_VEH!k}?bfOg1H@
zR_Ss}jnKM9Ie1tVLX7HAUD^jqQ>|!g>G49%JfMYkQC+u*6DT2)xxzYtP3qOrZMNR$
zq<M#S;yfH?PXJmU=V)$sKJc{UYIi*D?O*rj`UW!2##~zmu{5o>&;9uAkKWGi*tvc@
z*D7XPhm_W#9C(euP9?Cj)YGj5x><<k*#ZBD!gmEQ5^cWq)8HanI<n0NmF9!@7M14d
z_1AKZt=UF0Tex@r{?~r~`%2@<^^-ZFB`b6(Lf4}}{jEzI2k*9JM_yO(>wbMRaE4I<
zM26RWFne<rAi27ZjiGGU5e2`xBl_2IrR%s-cYMokt*&`$wS!*}IB#24=vIX8LK+<k
zX>twS*@lBk!$HvG^@kqQ*M!nA0V|36eOq=rWm1Jq0wu*hFA-{3FIE6JtTY^^TwmI9
zRZ*@k<l4Yhx8`a(vNijZntiB1_5R27bwH^(0MP15<W<-9w8~oDmS;_|kneS#YuuIp
zGSB(jGa?;pxw}vCO|DxX`D<?N{r1({W7(E*rDgnqe>~$H&-ll4{+e~2C$KZ+gX(1x
zlZbwDvE-N!5gtUIZw-KGFFD%6<B%q2kozEObd(IFjKiBnF}9KzYavD+seInBBC%un
zM9&|ay=6(4EumiKV@NF5_=05q8khDM0Bd~OBz6n}LY_$*MktgkQMP4|Q7VWY>wA7|
zH<hI5h&zOIXpJdhEo756W#4OdBR7;)VH+$y;0g)t(QSICLM<!Ty=WV(c&_vF`uW;6
za>J$8LhB448ERFM8ZMbKQ3DeF<j`2hHQRghAU3UR<Nr#@NQnltIZ^_8qss^_yb~UT
z_Y}SjAB@2&j^~<{OnFe(J_EAwu3Q40*(>Tv$C{Hu&|VyZXTGXL`xh^(C`ZduuuuoX
zhof^S!CYN*0D7Al8ezss%@wV2KW~JI#HuvwwLBx-Ho5LHYFT(k%(>0vy^dL#21|7>
zlT~1Z6r^e`WOj>-D+@Z72{DN$DO$8s+zo0K_9?n>L$%R`C8~WsxqL08+M;PGu6lIQ
zE)#CLVStptmWk_4WFr6MDJsj3Z4ok5wrP7{S|Z8X#U{8AU<IZ&+M!q4bc?JLX)UQ<
zy^;&zc^FHn9{LPvA2QJasv{AG{Pl`zUx1}fNZ;_~zo4w{l0!|E{|!0+9**i_yE&{v
zuBvWL0?fq8{}FK&wsa;9UG3Rs>n@RK|A;ng2WB4*3)i>aesg2yZqH`@zIAu$7ledD
z?XB@l^X|KK4?Pn(oQ^$p^Hf%7RfN{t?>rQC<;0<^II4)Fo8s8|^h2R7C)7NGQJ?)`
z$M{3<#G|^#+ilsVL8WPMvu<b|hQm!6e{YTiY12y2^ey|XB_#kh84|KKMQHnhv@!kt
z*xjM*=(I9Aoe|m|3a>(dCNyL`ZMoXU4=2AnnXT<sYP&bCXZt6W{>cZmlNn($Q#)Cq
zW<m{ZmrdEaKBcZNTX#sQJGAb~A)vlrsqfF$A5`iO-is>r$JgC@8J!zTcTYX&dkL+s
zYric$?45X6OLDjBhHRkwL7@9_eRH<HPpQYTWX{_R*;-v^wzf~H?b}#YYDY~9Wn)FF
zoD!J)4Qw7ET7-xJ4tx%-scYjMrEwGlNfTP3G>zRn^|)3n%7)CaPbw29AJm@A2q!bO
zCn-^1wsBBt9K17kuj&4&&BoW)y|_am<LkTSMa@7RZ5&kseHmwe);Xv+2eZym#W{NS
z@I&WOfUU=~zD}H9-hk7CH059;zi^H-v0lmXW8(bTX8qqVQ=TK0z<QCd7IE98^06Up
z*;9$P+6J<+%%M`AmE{nXAkFQ%P_1oBCt-fsW2k$XjL~x4ng9yD4s~xObhlJnmKdK<
znprAs=LVT!Y)ni#^K5b)hP_0++_`3}r2Kx@x<va>*%L8|oQNsagh4`q@3k2O1jrFP
zakd&i^XvbEN5i5TXTwZ|<uY7%38iTV2)|0c?~y}f3+@C+CKgpeH#%lGPIav$Qn)}$
zf*Onl40o%5JLi~bv<b<~lZ~rwD7EU>uVpcWq^d&;ND-FS#Dy9g;{*441*Uws&mfJH
z?yJ4qpubYE|3dihuaVUaF6Z%^tje$YkK_UkY$bOofv#*|zY^GA^f{pfCW=1GVkfcU
z%VNQ!4EPkGXMN_Qo%tHBwF_zllB(}gns;TJ$Cc*syODb{*+Zw5L#H<ny}sFeX5Ig|
zs6vcw8Bm0QJIz_BXo83DUDymBy+86$nEqAu$lcwW)vv5Oa{l^t@3TvomM>evJ@Bw4
ztkb>tG@muzm<Yy^EMET4i2c}77^af@0R*EX=T{=(ZAG-jK)<BErgee7ro$#(ioa`P
z0{3xboIABz7uU<I^}j_5+<Qj|#jI_?^L_4zmg_w62Z+Z$R{l`@su$E1!H{OzRt~{&
zB`_qatRMg?fgy2a1@u%5gQet{UG<kLMh~wB1`AStB4G}%Ru95H*F203eemJcMwnC6
zkvG#~OjoWPUUkFpR#P$`#yNhXOPC6n(G;4z;oAs<@|u>G%BM<3%&pxyBumTkYUehq
zqX6>XX|zZjhtcx2-Hv42Usl>*&a@rL2uIiXoYR%@cWl_SO+VAIH{%^soMU=~NNUD0
zrE?5t2{PUZ#W|rz^wTk&SCoNQGX2Lg-YLa7#Uj>MZ}<Fo@T0-o?HMm=rx555tUKAH
z2=1tKPDgE?ntt`@n=|J^Z@qr(=qn-J_%?L*<lMA;jQWKpyGEc9(#NGuX<7bb@_CrL
zL|1lynV^`oW{Q0OnjGR!<!N%($)Qys{|z}0;HWr^#WI+eK)8i)F#LxIWoM_4XetY)
zaVO^<MYNzB|M7k9iLJ-(%%9`A!9BU)P_A_%H#(7PXna!rCU18?Zfwch$%8E(-YVvG
z>Q|X;OeqZmc^3<Fb8Waw;iFS|5Bn6j9nE<!^Wx%@;GHq0VRzooz5`r!-DfQGe8R#x
zs`Hj^l+)6lx8sds#O{0*`J8l#ii>=1uBkQeA)mn2)aSkA^O4U_z5wSQ{7p4{bl^zK
zEq{uC*<O3++}-YvfA3zMGIV&0!*~7_%aDCy1Bz9=?!Eb!Z~y%5E%N^6D}0^3;WvZ4
zeOKP$uvgzc_FE1wHpI+GK@AuvJ`{_GE=u9ZJo?Xk4B7q`jbVk89ah|OXNy=PHe4pD
zo$IjUhC4?Dx87CSpP@Mb!;cdkcHQTO&m+0?FF|rI1laiwFV1&(aH>PVNef);fSct4
zbV&m{Z{f!xuU36$^m`U&PM<)n!=GWqjUaZqV&=3+&CzAMue0mi3>mIQj6>=P%^eIn
zG{Lcc9OEpr=a)5sr4C41M7oN}O<SLS5P=<9AUU8Wb1s~&fF$%9i`@Qz1<PmqLl*xO
zW~|hlN%6`>T)e2A=Aa`26j%_n(#-h(-_rHfS@{Mgr)K{14f2hXL$p>UBb0ek_!$rR
z*&Z!m_LSL^x-@%I;;bRtAcZ$wmZ!_BAiJu9Rhzl<ty$%>1>4fXMS9y<+*KloNu93e
zXV3&F!IY1cSb$a_li5yOL8cY47GDF%BtaEqTevXLRL1FcUUGq>w`hzp!^_mUL63YB
zFNWAP^B#u08Sd|;2)0GCVITyeA@qJq=+?-Z_bBx9$4W!;M7C-qC){G=o*l+|*HD0I
z)I&<56jhdtdKwI)o}AE}6Pj{DV-B_#<l<NJ)DNo)P=;+mW_R*;9{;1pP6(4f^nBNI
zdn(&{SZO_c|Luo?H(*lI<XfNm&Pi~m-Zqe#AG*Hldfe5W>kVdm_bI*mo{(7jGrL2R
zD1)OWvGm5Pccy+JXqQi^0;4P->&HoxR0+37!_KDRAHcI6w<mXi{6T#AvqUM&9)q_5
z?*fuU2FG-kgqpT8FnpFwV$FJ@_gqvv!lNO-6tq@2TSSMg3PcpH(6o^V2<8jlL@uh6
zG!tYou3f68Q?HK@RYD7S(oy5)zSL@S+3*#`b<+qQL~3^56KrBUtq(k{h80z|^Ptjs
zaI^F9{e}mf$8)tE8KL8Gb6>W3NNFCz7`+CS$NFo}p~#z&^M~9Y@CA8x#H7Q&!Q%p_
z)!o{Z>PO?*{jn(=SW2$MunXu~Mt!qjdO}Ga#(kH<8!Nc#HZExve*d++=~X&SzS>aM
zY&{&826HJ|Eg<|L#PKy}T4pwVFl;!j(PM#1^q9Pf1dQ;)Re{N5tc?7UA5t`J-I_t-
zWAgoyoWCU}3#XWbQYny}{|RiE`crrq3FQR|)yFlo<aX^YA);zK?W2r_!doYy$cJ0o
zYV$7gxl3p%4+RMZDdnXvkWbBdKluVCAyrMEHAF{I{`pt=DtlvQ;H51N@BdX}vCrz~
zmZ_dFMWv+^99I4FIBq7*Gac-3_`<wQi$e97_a(z<lP14*mtL)Tl5$}s!P10d@=;3Q
zE()OOr`DLDY%`?89U7rZyowrNw@u>8N{|s3R&Y>LyYI_MCDGQxIBvDA(w&s^?2_bA
za#{9JPJ1iCFl)%vFtdi#?@%6Qx=HO2hfKSO3?@snG?homM_Q1|B^DaMWTj1&O4P2%
zq*<u?SiEsda*AEEsZBT9J~U$g6#2eH&RgUVRj*dfC*#Y}n4~tOm^m=cpRn(cajcw?
z`2T_6*9hKeT;{4xQ8ou(rPx7ob~2Dd+7*c}$y@lu+~iUZ;pVM8&wu9R_})*s&R=rE
z-*X)quH)~yBfquTdCL|D=QDxh_x{#m<1J4(IG?#W{y6_Bckokg;!|$d<2EFKrDu>I
z!S$z4F`Y(8`L_2o|Ae#flebfl8uF8Oj<HwfOXs%e6I1x`OHZtJemK|O3Edsu!9ndk
z0mDCh<F<hH`S;#|ijg12Og_$^;Gb9>yd#In&fZ<U+I#PW_C9iqz0GuhMLLV;x0Zc8
zt`OkJ1p{F5<h1~xEsOs~{kPiQYrB=s^p0nHXO!NVhy3ZhrIClpQ#ILn=B@BE)&p-W
z&*rv#75SW8Ye(KiKA3TK<~`&SD9lSfALsC_k28Tx{f}EeYR!0h6?@-r{D`9(%<`;=
z`~+vIz0sKEYZSgFQ#-WD4?ne}Y<%_YFK^+_P`;XAcjsA9KISR`?%m}3o?2ewXZcM1
Qt}Tu{1l|9Hg|SipzxA^crvLx|

literal 0
HcmV?d00001

diff --git a/model_executor/layers/activation.py b/model_executor/layers/activation.py
new file mode 100644
index 0000000..3f0979f
--- /dev/null
+++ b/model_executor/layers/activation.py
@@ -0,0 +1,577 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Custom activation functions."""
+
+import math
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.utils.collection_utils import LazyDict
+
+logger = init_logger(__name__)
+
+
+@CustomOp.register("fatrelu_and_mul")
+class FatreluAndMul(CustomOp):
+    """An activation function for FATReLU.
+
+    The function computes x -> FATReLU(x[:d]) * x[d:] where
+    d = x.shape[-1] // 2.
+    This is used in openbmb/MiniCPM-S-1B-sft.
+
+    Shapes:
+        x: (num_tokens, 2 * d) or (batch_size, seq_len, 2 * d)
+        return: (num_tokens, d) or (batch_size, seq_len, d)
+    """
+
+    def __init__(self, threshold: float = 0.0):
+        super().__init__()
+        self.threshold = threshold
+        if current_platform.is_cuda_alike():
+            from vllm import _custom_ops as ops
+            self.op = ops.fatrelu_and_mul
+        elif current_platform.is_cpu():
+            self._forward_method = self.forward_native
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        x1 = x[..., :d]
+        x2 = x[..., d:]
+        x1 = F.threshold(x1, self.threshold, 0.0)
+        return x1 * x2
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x, self.threshold)
+        return out
+
+
+@CustomOp.register("silu_and_mul")
+class SiluAndMul(CustomOp):
+    """An activation function for SwiGLU.
+
+    The function computes x -> silu(x[:d]) * x[d:] where d = x.shape[-1] // 2.
+
+    Shapes:
+        x: (num_tokens, 2 * d) or (batch_size, seq_len, 2 * d)
+        return: (num_tokens, d) or (batch_size, seq_len, d)
+    """
+
+    def __init__(self):
+        super().__init__()
+        if current_platform.is_cuda_alike() or current_platform.is_cpu():
+            from vllm import _custom_ops as ops
+            self.op = ops.silu_and_mul
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            self.op = ipex_ops.silu_and_mul
+        elif current_platform.is_cpu():
+            self._forward_method = self.forward_native
+
+    @staticmethod
+    def forward_native(x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        d = x.shape[-1] // 2
+        return F.silu(x[..., :d]) * x[..., d:]
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x)
+        return out
+
+    def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x)
+        return out
+
+
+@CustomOp.register("mul_and_silu")
+class MulAndSilu(CustomOp):
+    """An activation function for SwiGLU.
+
+    The function computes x -> x[:d] * silu(x[d:]) where d = x.shape[-1] // 2.
+
+    Shapes:
+        x: (num_tokens, 2 * d) or (batch_size, seq_len, 2 * d)
+        return: (num_tokens, d) or (batch_size, seq_len, d)
+    """
+
+    def __init__(self):
+        super().__init__()
+        if current_platform.is_cuda_alike():
+            from vllm import _custom_ops as ops
+            self.op = ops.mul_and_silu
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            self.op = ipex_ops.silu_and_mul
+        elif current_platform.is_cpu():
+            self._forward_method = self.forward_native
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        d = x.shape[-1] // 2
+        return x[..., :d] * F.silu(x[..., d:])
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x)
+        return out
+
+    # TODO implement forward_xpu for MulAndSilu
+    # def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+
+
+@CustomOp.register("gelu_and_mul_sparse")
+class GeluAndMulSparse(CustomOp):
+    """An activation function for GeluAndMulSparse.
+    This activation function is used in Gemma3n. It computes:
+        up_proj = self.up_proj(x)
+        gate_proj = self.gate_proj(x)
+        gate_proj = self._gaussian_topk(gate_proj) # sparsity
+        activations = self.act_fn(gate_proj) # gelu
+        down_proj = self.down_proj(activations * up_proj)
+    Shapes:
+        x: (num_tokens, 2 * d) or (batch_size, seq_len, 2 * d)
+        return: (num_tokens, d) or (batch_size, seq_len, d)
+    """
+
+    def __init__(self, activation_sparsity: float, approximate: str = "none"):
+        super().__init__()
+        # Gelu.
+        self.approximate = approximate
+        if approximate not in ("none", "tanh"):
+            raise ValueError(f"Unknown approximate mode: {approximate}")
+
+        # Sparsity.
+        if activation_sparsity == 0.0:
+            raise ValueError("activation_sparsity is 0.0. Please use GeluAndMul.")
+        target_sparsity_tensor = torch.tensor(activation_sparsity, dtype=torch.float32)
+        normal_dist = torch.distributions.normal.Normal(0, 1)
+        self.std_multiplier = normal_dist.icdf(target_sparsity_tensor)
+
+    def _gaussian_topk(self, x: torch.Tensor) -> torch.Tensor:
+        """Get % sparse percentile of the Gaussian distribution."""
+        # NOTE(rob): for TP>1, we could all-gather to get the means/std.
+        # But we do not do this because in expectation they are the same
+        # and in practice the eval scores are good without gathering.
+        mean = torch.mean(x, dim=-1, keepdim=True)
+        std = torch.std(x, dim=-1, keepdim=True, unbiased=False)
+        cutoff_x = mean + std * self.std_multiplier
+        return nn.functional.relu(x - cutoff_x)
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        d = x.shape[-1] // 2
+        out = self._gaussian_topk(x[..., :d])
+        out = F.gelu(out, approximate=self.approximate)
+        return out * x[..., d:]
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        return self.forward_native(x)
+
+
+@CustomOp.register("gelu_and_mul")
+class GeluAndMul(CustomOp):
+    """An activation function for GeGLU.
+
+    The function computes x -> GELU(x[:d]) * x[d:] where d = x.shape[-1] // 2.
+
+    Shapes:
+        x: (batch_size, seq_len, 2 * d) or (num_tokens, 2 * d)
+        return: (batch_size, seq_len, d) or (num_tokens, d)
+    """
+
+    def __init__(self, approximate: str = "none"):
+        super().__init__()
+        self.approximate = approximate
+        if approximate not in ("none", "tanh"):
+            raise ValueError(f"Unknown approximate mode: {approximate}")
+        if current_platform.is_cuda_alike() or current_platform.is_cpu():
+            if approximate == "none":
+                from vllm import _custom_ops as ops
+                self.op = ops.gelu_and_mul
+            elif approximate == "tanh":
+                from vllm import _custom_ops as ops
+                self.op = ops.gelu_tanh_and_mul
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            if approximate == "none":
+                self.op = ipex_ops.gelu_and_mul
+            else:
+                self.op = ipex_ops.gelu_tanh_and_mul
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        d = x.shape[-1] // 2
+        return F.gelu(x[..., :d], approximate=self.approximate) * x[..., d:]
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x)
+        return out
+
+    def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        self.op(out, x)
+        return out
+
+    def extra_repr(self) -> str:
+        return f"approximate={repr(self.approximate)}"
+
+
+@CustomOp.register("swigluoai_and_mul")
+class SwigluOAIAndMul(CustomOp):
+    # https://github.com/huggingface/transformers/blob/v4.55.0/src/transformers/models/gpt_oss/modeling_gpt_oss.py#L106-L110
+    def __init__(self, alpha: float = 1.702, limit: float = 7.0):
+        super().__init__()
+        self.alpha = alpha
+        self.limit = limit
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+
+        gate, up = x[..., ::2], x[..., 1::2]
+        gate = gate.clamp(min=None, max=self.limit)
+        up = up.clamp(min=-self.limit, max=self.limit)
+        glu = gate * torch.sigmoid(gate * self.alpha)
+        gated_output = (up + 1) * glu
+        return gated_output
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        torch.ops._C.swigluoai_and_mul(out, x, self.alpha, self.limit)
+        return out
+
+    def extra_repr(self) -> str:
+        return f"alpha={repr(self.alpha)}, limit={repr(self.limit)}"
+
+
+@CustomOp.register("gelu_new")
+class NewGELU(CustomOp):
+    def __init__(self):
+        super().__init__()
+        if current_platform.is_cuda_alike() or current_platform.is_cpu():
+            from vllm import _custom_ops as ops
+            self.op = ops.gelu_new
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            self.op = ipex_ops.gelu_new
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        c = math.sqrt(2.0 / math.pi)
+        return 0.5 * x * (1.0 + torch.tanh(c * (x + 0.044715 * torch.pow(x, 3.0))))
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        out = torch.empty_like(x)
+        self.op(out, x)
+        return out
+
+    def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+        return self.op(x)
+
+
+@CustomOp.register("gelu_fast")
+class FastGELU(CustomOp):
+    def __init__(self):
+        super().__init__()
+        if current_platform.is_cuda_alike() or current_platform.is_cpu():
+            from vllm import _custom_ops as ops
+            self.op = ops.gelu_fast
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            self.op = ipex_ops.gelu_fast
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        return 0.5 * x * (1.0 + torch.tanh(x * 0.7978845608 * (1.0 + 0.044715 * x * x)))
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        out = torch.empty_like(x)
+        self.op(out, x)
+        return out
+
+    def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+        return self.op(x)
+
+
+@CustomOp.register("quick_gelu")
+class QuickGELU(CustomOp):
+    # https://github.com/huggingface/transformers/blob/main/src/transformers/activations.py#L90
+    def __init__(self):
+        super().__init__()
+        if current_platform.is_cuda_alike() or current_platform.is_cpu():
+            from vllm import _custom_ops as ops
+            self.op = ops.gelu_quick
+        elif current_platform.is_xpu():
+            from vllm._ipex_ops import ipex_ops
+
+            self.op = ipex_ops.gelu_quick
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        return x * torch.sigmoid(1.702 * x)
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        out = torch.empty_like(x)
+        self.op(out, x)
+        return out
+
+    def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+        out = torch.empty_like(x)
+        self.op(out, x)
+        return out
+
+    # TODO implement forward_xpu for QuickGELU
+    # def forward_xpu(self, x: torch.Tensor) -> torch.Tensor:
+
+
+@CustomOp.register("relu2")
+class ReLUSquaredActivation(CustomOp):
+    """
+    Applies the relu^2 activation introduced in https://arxiv.org/abs/2109.08668v2
+    """
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """PyTorch-native implementation equivalent to forward()."""
+        return torch.square(F.relu(x))
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        # TODO : implement cuda kernels
+        return self.forward_native(x)
+
+
+@CustomOp.register("xielu")
+class XIELU(CustomOp):
+    """
+    Applies the xIELU activation function introduced in https://arxiv.org/abs/2411.13010
+    If the user has installed the nickjbrowning/XIELU, we import xIELU CUDA
+    Otherwise, we emit a single warning and use xIELU Python
+    """
+
+    def __init__(
+        self,
+        alpha_p_init: float = 0.8,
+        alpha_n_init: float = 0.8,
+        beta: float = 0.5,
+        eps: float = -1e-6,
+        dtype: torch.dtype = torch.bfloat16,
+        with_vector_loads: bool = False,
+    ):
+        super().__init__()
+        self.alpha_p = nn.Parameter(
+            torch.log(torch.exp(torch.tensor(alpha_p_init, dtype=dtype)) - 1).unsqueeze(
+                0
+            )
+        )
+        self.alpha_n = nn.Parameter(
+            torch.log(
+                torch.exp(torch.tensor(alpha_n_init - beta, dtype=dtype)) - 1
+            ).unsqueeze(0)
+        )
+        self.register_buffer("beta", torch.tensor(beta, dtype=dtype))
+        self.register_buffer("eps", torch.tensor(eps, dtype=dtype))
+        self.with_vector_loads = with_vector_loads
+        # Temporary until xIELU CUDA fully implemented
+        self._beta_scalar = float(self.beta.detach().cpu().float().item())
+        self._eps_scalar = float(self.eps.detach().cpu().float().item())
+
+        self._xielu_cuda_obj = None
+        try:
+            import xielu.ops  # noqa: F401
+
+            self._xielu_cuda_obj = torch.classes.xielu.XIELU()
+            msg = "Using experimental xIELU CUDA."
+            try:
+                from torch._dynamo import allow_in_graph
+
+                self._xielu_cuda_fn = allow_in_graph(self._xielu_cuda)
+                msg += " Enabled torch._dynamo for xIELU CUDA."
+            except Exception as err:
+                msg += (
+                    f" Could not enable torch._dynamo for xIELU ({err}) - "
+                    "this may result in slower performance."
+                )
+                self._xielu_cuda_fn = self._xielu_cuda
+            logger.warning_once(msg)
+        except Exception as err:
+            logger.warning_once(
+                "CUDA-fused xIELU not available (%s) –"
+                " falling back to a Python version.\n"
+                "For CUDA xIELU (experimental), `pip install git+https://github.com/nickjbrowning/XIELU`",
+                str(err),
+            )
+
+    def _xielu_python(self, x: torch.Tensor) -> torch.Tensor:
+        alpha_p = nn.functional.softplus(self.alpha_p)
+        alpha_n = self.beta + nn.functional.softplus(self.alpha_n)
+        return torch.where(
+            x > 0,
+            alpha_p * x * x + self.beta * x,
+            (torch.expm1(torch.min(x, self.eps)) - x) * alpha_n + self.beta * x,
+        )
+
+    def _xielu_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        """Firewall function to prevent torch.compile from seeing .item()"""
+        assert self._xielu_cuda_obj is not None, "XIELU CUDA object must not be None"
+        original_shape = x.shape
+        # CUDA kernel expects 3D tensors, reshape if needed
+        while x.dim() < 3:
+            x = x.unsqueeze(0)
+        if x.dim() > 3:
+            x = x.view(-1, 1, x.size(-1))
+        if original_shape != x.shape:
+            logger.warning_once(
+                "Warning: xIELU input tensor expects 3 dimensions"
+                " but got (shape: %s). Reshaping to (shape: %s).",
+                original_shape,
+                x.shape,
+            )
+        result = self._xielu_cuda_obj.forward(
+            x,
+            self.alpha_p,
+            self.alpha_n,
+            # Temporary until xIELU CUDA fully implemented ->
+            # self.{beta,eps}.item()
+            self._beta_scalar,
+            self._eps_scalar,
+            self.with_vector_loads,
+        )
+        return result.view(original_shape)
+
+    def forward_native(self, input: torch.Tensor) -> torch.Tensor:
+        if self._xielu_cuda_obj is not None and input.is_cuda:
+            if not torch._dynamo.is_compiling():
+                return self._xielu_cuda_fn(input)
+            else:
+                logger.warning_once(
+                    "torch._dynamo is compiling, using Python version of xIELU."
+                )
+        return self._xielu_python(input)
+
+    def forward_cuda(self, input: torch.Tensor) -> torch.Tensor:
+        return self.forward_native(input)
+
+
+class ScaledActivation(nn.Module):
+    """An activation function with post-scale parameters.
+
+    This is used for some quantization methods like AWQ.
+    """
+
+    def __init__(
+        self,
+        act_module: nn.Module,
+        intermediate_size: int,
+        input_is_parallel: bool = True,
+        params_dtype: torch.dtype | None = None,
+    ):
+        super().__init__()
+        self.act = act_module
+        self.input_is_parallel = input_is_parallel
+        if input_is_parallel:
+            tp_size = get_tensor_model_parallel_world_size()
+            intermediate_size_per_partition = divide(intermediate_size, tp_size)
+        else:
+            intermediate_size_per_partition = intermediate_size
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.scales = nn.Parameter(
+            torch.empty(intermediate_size_per_partition, dtype=params_dtype)
+        )
+        set_weight_attrs(self.scales, {"weight_loader": self.weight_loader})
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.act(x) / self.scales
+
+    def weight_loader(self, param: nn.Parameter, loaded_weight: torch.Tensor):
+        param_data = param.data
+        if self.input_is_parallel:
+            tp_rank = get_tensor_model_parallel_rank()
+            shard_size = param_data.shape[0]
+            start_idx = tp_rank * shard_size
+            loaded_weight = loaded_weight.narrow(0, start_idx, shard_size)
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+
+_ACTIVATION_REGISTRY = LazyDict(
+    {
+        "gelu": lambda: nn.GELU(),
+        "gelu_fast": lambda: FastGELU(),
+        "gelu_new": lambda: NewGELU(),
+        "gelu_pytorch_tanh": lambda: nn.GELU(approximate="tanh"),
+        "relu": lambda: nn.ReLU(),
+        "relu2": lambda: ReLUSquaredActivation(),
+        "silu": lambda: nn.SiLU(),
+        "quick_gelu": lambda: QuickGELU(),
+        "tanh": lambda: nn.Tanh(),
+        "sigmoid": lambda: nn.Sigmoid(),
+        "xielu": lambda: XIELU(),
+    }
+)
+
+
+def get_act_fn(act_fn_name: str) -> nn.Module:
+    """Get an activation function by name."""
+    act_fn_name = act_fn_name.lower()
+
+    if act_fn_name.startswith("torch.nn.modules."):
+        activation_name = act_fn_name.split(".")[-1]
+        if activation_name == "identity":
+            return nn.Identity()
+        act_fn_name = activation_name
+
+    if act_fn_name not in _ACTIVATION_REGISTRY:
+        raise ValueError(f"Activation function {act_fn_name!r} is not supported.")
+
+    return _ACTIVATION_REGISTRY[act_fn_name]
+
+
+_ACTIVATION_AND_MUL_REGISTRY = LazyDict(
+    {
+        "gelu": lambda: GeluAndMul(),
+        "silu": lambda: SiluAndMul(),
+        "geglu": lambda: GeluAndMul(),
+        "swigluoai": lambda *args, **kwargs: SwigluOAIAndMul(*args, **kwargs),
+    }
+)
+
+
+def get_act_and_mul_fn(act_fn_name: str) -> nn.Module:
+    """Get an activation-and-mul (i.e. SiluAndMul) function by name."""
+    act_fn_name = act_fn_name.lower()
+    if act_fn_name not in _ACTIVATION_AND_MUL_REGISTRY:
+        raise ValueError(f"Activation function {act_fn_name!r} is not supported.")
+
+    return _ACTIVATION_AND_MUL_REGISTRY[act_fn_name]
diff --git a/model_executor/layers/attention_layer_base.py b/model_executor/layers/attention_layer_base.py
new file mode 100644
index 0000000..ffbef47
--- /dev/null
+++ b/model_executor/layers/attention_layer_base.py
@@ -0,0 +1,35 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Base class for attention-like layers."""
+
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING
+
+from vllm.config import VllmConfig
+from vllm.v1.kv_cache_interface import KVCacheSpec
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+
+class AttentionLayerBase(ABC):
+    """
+    Base class for attention-like layers (Attention, Mamba, etc.)
+    that support the v1 engine.
+
+    This provides a common interface for getting attention backends
+    from different layer types.
+    """
+
+    @abstractmethod
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        """Get the attention backend class for this layer."""
+        pass
+
+    @abstractmethod
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec | None:
+        """
+        Get the KV cache spec for this layer.
+        May be None if the layer does not need KV cache.
+        """
+        pass
diff --git a/model_executor/layers/batch_invariant.py b/model_executor/layers/batch_invariant.py
new file mode 100644
index 0000000..7920d11
--- /dev/null
+++ b/model_executor/layers/batch_invariant.py
@@ -0,0 +1,854 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from collections.abc import Callable
+from functools import cache
+from typing import Any
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+logger = init_logger(__name__)
+
+
+def _matmul_launch_metadata(
+    grid: Callable[..., Any], kernel: Any, args: dict[str, Any]
+) -> dict[str, Any]:
+    ret = {}
+    m, n, k = args["M"], args["N"], args["K"]
+    ret["name"] = f"{kernel.name} [M={m}, N={n}, K={k}]"
+    if "tiles_per_update" in args:
+        ret["name"] = (
+            f"{kernel.name} [M={m}, N={n}, K={k}, "
+            f"tiles_per_update={args['tiles_per_update']:02}]"
+        )
+    if "c_ptr" in args:
+        bytes_per_elem = args["c_ptr"].element_size()
+    else:
+        bytes_per_elem = 1 if args["FP8_OUTPUT"] else 2
+    ret[f"flops{bytes_per_elem * 8}"] = 2.0 * m * n * k
+    ret["bytes"] = bytes_per_elem * (m * k + n * k + m * n)
+    return ret
+
+
+@triton.jit
+def _compute_pid(tile_id, num_pid_in_group, num_pid_m, GROUP_SIZE_M, NUM_SMS):
+    group_id = tile_id // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (tile_id % group_size_m)
+    pid_n = (tile_id % num_pid_in_group) // group_size_m
+    return pid_m, pid_n
+
+
+@triton.jit(launch_metadata=_matmul_launch_metadata)
+def matmul_kernel_persistent(
+    a_ptr,
+    b_ptr,
+    c_ptr,  #
+    bias_ptr,
+    M,
+    N,
+    K,  #
+    stride_am,
+    stride_ak,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,  #
+    BLOCK_SIZE_N: tl.constexpr,  #
+    BLOCK_SIZE_K: tl.constexpr,  #
+    GROUP_SIZE_M: tl.constexpr,  #
+    NUM_SMS: tl.constexpr,  #
+    A_LARGE: tl.constexpr,
+    B_LARGE: tl.constexpr,
+    C_LARGE: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+):
+    start_pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    k_tiles = tl.cdiv(K, BLOCK_SIZE_K)
+    num_tiles = num_pid_m * num_pid_n
+
+    tile_id_c = start_pid - NUM_SMS
+
+    offs_k_for_mask = tl.arange(0, BLOCK_SIZE_K)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+
+    for tile_id in tl.range(start_pid, num_tiles, NUM_SMS, flatten=True):
+        pid_m, pid_n = _compute_pid(
+            tile_id, num_pid_in_group, num_pid_m, GROUP_SIZE_M, NUM_SMS
+        )
+        start_m = pid_m * BLOCK_SIZE_M
+        start_n = pid_n * BLOCK_SIZE_N
+        offs_am = start_m + tl.arange(0, BLOCK_SIZE_M)
+        offs_bn = start_n + tl.arange(0, BLOCK_SIZE_N)
+        if A_LARGE:
+            offs_am = offs_am.to(tl.int64)
+        if B_LARGE:
+            offs_bn = offs_bn.to(tl.int64)
+        offs_am = tl.where(offs_am < M, offs_am, 0)
+        offs_bn = tl.where(offs_bn < N, offs_bn, 0)
+        offs_am = tl.max_contiguous(tl.multiple_of(offs_am, BLOCK_SIZE_M), BLOCK_SIZE_M)
+        offs_bn = tl.max_contiguous(tl.multiple_of(offs_bn, BLOCK_SIZE_N), BLOCK_SIZE_N)
+
+        accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+        for ki in range(k_tiles):
+            if A_LARGE or B_LARGE:
+                offs_k = ki * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K).to(tl.int64)
+            else:
+                offs_k = ki * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+            a_ptrs = a_ptr + (
+                offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+            )
+            b_ptrs = b_ptr + (
+                offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn
+            )
+
+            a = tl.load(
+                a_ptrs, mask=offs_k_for_mask[None, :] < K - ki * BLOCK_SIZE_K, other=0.0
+            )
+            b = tl.load(
+                b_ptrs, mask=offs_k_for_mask[:, None] < K - ki * BLOCK_SIZE_K, other=0.0
+            )
+            accumulator = tl.dot(a, b, accumulator)
+
+        tile_id_c += NUM_SMS
+        pid_m, pid_n = _compute_pid(
+            tile_id_c, num_pid_in_group, num_pid_m, GROUP_SIZE_M, NUM_SMS
+        )
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        if C_LARGE:
+            offs_cm = offs_cm.to(tl.int64)
+            offs_cn = offs_cn.to(tl.int64)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        if HAS_BIAS:
+            bias_ptrs = bias_ptr + offs_cn
+            bias = tl.load(bias_ptrs, mask=offs_cn < N, other=0.0).to(tl.float32)
+            accumulator += bias
+        c = accumulator.to(c_ptr.dtype.element_ty)
+        tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul_persistent(
+    a: torch.Tensor, b: torch.Tensor, bias: torch.Tensor | None = None
+):
+    # Check constraints.
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    assert a.dtype == b.dtype, "Incompatible dtypes"
+    assert bias is None or bias.dim() == 1, (
+        "Currently assuming bias is 1D, let Horace know if you run into this"
+    )
+    NUM_SMS = torch.cuda.get_device_properties("cuda").multi_processor_count
+    M, K = a.shape
+    K, N = b.shape
+    dtype = a.dtype
+    # Allocates output.
+    c = torch.empty((M, N), device=a.device, dtype=dtype)
+
+    # 1D launch kernel where each block gets its own program.
+    def grid(META):
+        return (
+            min(
+                NUM_SMS,
+                triton.cdiv(M, META["BLOCK_SIZE_M"])
+                * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+            ),
+        )
+
+    configs = {
+        torch.bfloat16: {
+            "BLOCK_SIZE_M": 128,
+            "BLOCK_SIZE_N": 128,
+            "BLOCK_SIZE_K": 64,
+            "GROUP_SIZE_M": 8,
+            "num_stages": 3,
+            "num_warps": 8,
+        },
+        torch.float16: {
+            "BLOCK_SIZE_M": 128,
+            "BLOCK_SIZE_N": 256,
+            "BLOCK_SIZE_K": 64,
+            "GROUP_SIZE_M": 8,
+            "num_stages": 3,
+            "num_warps": 8,
+        },
+        torch.float32: {
+            "BLOCK_SIZE_M": 128,
+            "BLOCK_SIZE_N": 128,
+            "BLOCK_SIZE_K": 32,
+            "GROUP_SIZE_M": 8,
+            "num_stages": 3,
+            "num_warps": 8,
+        },
+    }
+    # print(a.device, b.device, c.device)
+    matmul_kernel_persistent[grid](
+        a,
+        b,
+        c,  #
+        bias,
+        M,
+        N,
+        K,  #
+        a.stride(0),
+        a.stride(1),  #
+        b.stride(0),
+        b.stride(1),  #
+        c.stride(0),
+        c.stride(1),  #
+        NUM_SMS=NUM_SMS,  #
+        A_LARGE=a.numel() > 2**31,
+        B_LARGE=b.numel() > 2**31,
+        C_LARGE=c.numel() > 2**31,
+        HAS_BIAS=bias is not None,
+        **configs[dtype],
+    )
+    return c
+
+
+@triton.jit
+def _log_softmax_kernel(
+    input_ptr,
+    output_ptr,
+    input_row_stride,
+    output_row_stride,
+    n_cols,
+    BLOCK_SIZE: tl.constexpr,
+):
+    """
+    Compute log_softmax along the last dimension of a 2D tensor.
+    Each block handles one row of the input tensor.
+    """
+    # Get the row index for this block
+    row_idx = tl.program_id(0).to(tl.int64)
+
+    # Compute base pointers for input and output rows
+    row_start_ptr = input_ptr + row_idx * input_row_stride
+    output_row_start_ptr = output_ptr + row_idx * output_row_stride
+
+    # Step 1: Find maximum value in the row for numerical stability
+    max_val = -float("inf")
+    for col_offset in range(0, n_cols, BLOCK_SIZE):
+        col_idx = col_offset + tl.arange(0, BLOCK_SIZE)
+        mask = col_idx < n_cols
+
+        # Load values
+        vals = tl.load(row_start_ptr + col_idx, mask=mask, other=-float("inf"))
+
+        # Update maximum
+        max_val = tl.max(tl.maximum(vals, max_val))
+
+    # Step 2: Compute sum of exp(x - max_val)
+    sum_exp = 0.0
+    for col_offset in range(0, n_cols, BLOCK_SIZE):
+        col_idx = col_offset + tl.arange(0, BLOCK_SIZE)
+        mask = col_idx < n_cols
+
+        # Load values
+        vals = tl.load(row_start_ptr + col_idx, mask=mask, other=0.0)
+
+        # Compute exp(x - max_val) and accumulate
+        exp_vals = tl.exp(vals - max_val)
+        sum_exp += tl.sum(tl.where(mask, exp_vals, 0.0))
+
+    # Compute log(sum_exp)
+    log_sum_exp = tl.log(sum_exp)
+
+    # Step 3: Compute final log_softmax values: x - max_val - log_sum_exp
+    for col_offset in range(0, n_cols, BLOCK_SIZE):
+        col_idx = col_offset + tl.arange(0, BLOCK_SIZE)
+        mask = col_idx < n_cols
+
+        # Load values
+        vals = tl.load(row_start_ptr + col_idx, mask=mask)
+
+        # Compute log_softmax
+        output = vals - max_val - log_sum_exp
+
+        # Store results
+        tl.store(output_row_start_ptr + col_idx, output, mask=mask)
+
+
+def log_softmax(input: torch.Tensor, dim: int = -1) -> torch.Tensor:
+    """
+    Compute log_softmax using Triton kernel.
+
+    Args:
+        input: Input tensor
+        dim: Dimension along which to compute log_softmax
+             (only -1 or last dim supported)
+    >> Stashed changes
+    Returns:
+        Tensor with log_softmax applied along the specified dimension
+    """
+    if dim != -1 and dim != input.ndim - 1:
+        raise ValueError(
+            "This implementation only supports log_softmax along the last dimension"
+        )
+
+    # Flatten all dimensions except the last one
+    original_shape = input.shape
+    input_2d = input.reshape(-1, input.shape[-1])
+    input_2d = input_2d.contiguous()
+
+    n_rows, n_cols = input_2d.shape
+
+    # Allocate output tensor
+    output = torch.empty_like(input_2d)
+
+    # Choose block size based on the number of columns
+    BLOCK_SIZE = 1024
+
+    # Launch kernel with one block per row
+    grid = (n_rows,)
+    _log_softmax_kernel[grid](
+        input_2d,
+        output,
+        input_2d.stride(0),
+        output.stride(0),
+        n_cols,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    # Reshape output back to original shape
+    return output.reshape(original_shape)
+
+
+@triton.jit
+def mean_kernel(
+    input_ptr,
+    output_ptr,
+    input_stride0,
+    input_stride1,
+    input_stride2,
+    output_stride0,
+    output_stride1,
+    M,  # size before reduction dim
+    N,  # size of reduction dim
+    K,  # size after reduction dim
+    BLOCK_SIZE: tl.constexpr,
+):
+    """
+    Kernel for computing mean along a single dimension.
+    Input is viewed as (M, N, K) where N is the dimension being reduced.
+    """
+    # Program ID gives us which output element we're computing
+    pid = tl.program_id(0)
+
+    # Compute output indices
+    m_idx = pid // K
+    k_idx = pid % K
+
+    # Bounds check
+    if m_idx >= M or k_idx >= K:
+        return
+
+    # Accumulate sum across reduction dimension
+    acc = 0.0
+    for n_start in range(0, N, BLOCK_SIZE):
+        n_offsets = n_start + tl.arange(0, BLOCK_SIZE)
+        mask = n_offsets < N
+
+        # Calculate input indices
+        input_idx = (
+            m_idx * input_stride0 + n_offsets * input_stride1 + k_idx * input_stride2
+        )
+
+        # Load and accumulate
+        vals = tl.load(input_ptr + input_idx, mask=mask, other=0.0)
+        acc += tl.sum(vals)
+
+    # Compute mean and store
+    mean_val = acc / N
+    output_idx = m_idx * output_stride0 + k_idx * output_stride1
+    tl.store(output_ptr + output_idx, mean_val)
+
+
+def mean_dim(
+    input: torch.Tensor,
+    dim: int,
+    keepdim: bool = False,
+    dtype: torch.dtype | None = None,
+) -> torch.Tensor:
+    """
+    Triton implementation of torch.mean with single dimension reduction.
+
+    Args:
+        input: Input tensor
+        dim: Single dimension along which to compute mean
+        keepdim: Whether to keep the reduced dimension
+        dtype: Output dtype. If None, uses input dtype
+               (or float32 for integer inputs)
+
+    Returns:
+        Tensor with mean values along specified dimension
+    """
+    # Validate inputs
+    assert -input.ndim <= dim < input.ndim, (
+        f"Invalid dimension {dim} for tensor with {input.ndim} dimensions"
+    )
+
+    # Handle negative dim
+    if dim < 0:
+        dim = dim + input.ndim
+
+    # Handle dtype
+    if dtype is None:
+        if input.dtype in [torch.int8, torch.int16, torch.int32, torch.int64]:
+            dtype = torch.float32
+        else:
+            dtype = input.dtype
+
+    # Convert input to appropriate dtype if needed
+    if input.dtype != dtype:
+        input = input.to(dtype)
+
+    # Get input shape and strides
+    shape = list(input.shape)
+
+    # Calculate dimensions for kernel
+    M = 1
+    for i in range(dim):
+        M *= shape[i]
+
+    N = shape[dim]
+
+    K = 1
+    for i in range(dim + 1, len(shape)):
+        K *= shape[i]
+
+    # Reshape input to 3D view (M, N, K)
+    input_3d = input.reshape(M, N, K)
+
+    # Create output shape
+    if keepdim:
+        output_shape = shape.copy()
+        output_shape[dim] = 1
+    else:
+        output_shape = shape[:dim] + shape[dim + 1 :]
+
+    # Create output tensor
+    output = torch.empty(output_shape, dtype=dtype, device=input.device)
+
+    # Reshape output for kernel
+    output_2d = output.reshape(M, 1, K).squeeze(1) if keepdim else output.reshape(M, K)
+
+    # Launch kernel
+    grid = (M * K,)
+    BLOCK_SIZE = 1024
+
+    mean_kernel[grid](
+        input_3d,
+        output_2d,
+        input_3d.stride(0),
+        input_3d.stride(1),
+        input_3d.stride(2),
+        output_2d.stride(0),
+        output_2d.stride(1) if output_2d.ndim > 1 else 0,
+        M,
+        N,
+        K,
+        BLOCK_SIZE,
+    )
+
+    return output
+
+
+def mm_batch_invariant(a, b):
+    return matmul_persistent(a, b)
+
+
+def matmul_batch_invariant(a, b, *, out=None):
+    # torch.matmul can handle various dimensions
+    # For 2D x 2D, it's the same as mm
+    if a.ndim == 2 and b.ndim == 2:
+        result = matmul_persistent(a, b)
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
+    elif a.ndim == 3 and b.ndim == 3:
+        # Handle batched case like bmm
+        return bmm_batch_invariant(a, b, out=out)
+    elif a.ndim == 3 and b.ndim == 2:
+        # Handle 3D x 2D: common for linear layers
+        # (batch, seq, hidden) @ (hidden, out) -> (batch, seq, out)
+        # Reshape to 2D, do mm, reshape back
+        batch, seq, hidden = a.shape
+        a_2d = a.reshape(-1, hidden)
+        result_2d = matmul_persistent(a_2d, b)
+        result = result_2d.reshape(batch, seq, -1)
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
+    elif a.ndim == 2 and b.ndim == 3:
+        # Handle 2D x 3D: (M, K) @ (B, K, N) -> (B, M, N)
+        # By broadcasting `a` to 3D, we can reuse the batched matrix
+        # multiplication logic.
+        a_expanded = a.unsqueeze(0).expand(b.shape[0], -1, -1)
+        return bmm_batch_invariant(a_expanded, b, out=out)
+    elif a.ndim == 4 and b.ndim == 4:
+        # Handle 4D attention tensors: [batch, heads, seq, dim]
+        # Reshape to 3D, process, reshape back
+        batch, heads, seq_a, dim_a = a.shape
+        _, _, dim_b, seq_b = b.shape
+
+        # Reshape to [batch*heads, seq_a, dim_a]
+        a_3d = a.reshape(batch * heads, seq_a, dim_a)
+        b_3d = b.reshape(batch * heads, dim_b, seq_b)
+
+        # Do batched matmul
+        result_3d = bmm_batch_invariant(a_3d, b_3d)
+
+        # Reshape back to [batch, heads, seq_a, seq_b]
+        result = result_3d.reshape(batch, heads, seq_a, seq_b)
+
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
+    else:
+        raise ValueError(
+            f"matmul_batch_invariant currently only supports 2D x 2D, 3D x 3D, "
+            f"3D x 2D, 2D x 3D, and 4D x 4D, "
+            f"got shapes {a.shape} and {b.shape}"
+        )
+
+
+def bmm_batch_invariant(a, b, *, out=None):
+    # Batched matrix multiply: (B, M, K) x (B, K, N) -> (B, M, N)
+    # Process each batch separately with our persistent kernel
+    if a.ndim == 3 and b.ndim == 3:
+        results = []
+        for i in range(a.shape[0]):
+            results.append(matmul_persistent(a[i], b[i]))
+        result = torch.stack(results, dim=0)
+
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
+    else:
+        raise ValueError(
+            f"bmm_batch_invariant expects 3D tensors, "
+            f"got shapes {a.shape} and {b.shape}"
+        )
+
+
+def addmm_batch_invariant(bias, a, b):
+    return matmul_persistent(a, b, bias=bias)
+
+
+def _log_softmax_batch_invariant(input, dim, _half_to_float):
+    assert not _half_to_float, "not implemented"
+    return log_softmax(input, dim=dim)
+
+
+def softmax_batch_invariant(input, dim, dtype=None):
+    # Compute softmax in a deterministic way
+    # First subtract max for numerical stability (standard practice)
+    input_max = torch.amax(input, dim=dim, keepdim=True)
+    input = input - input_max
+    exp_x = torch.exp(input)
+    sum_exp_x = torch.sum(exp_x, dim=dim, keepdim=True)
+    return exp_x / sum_exp_x
+
+
+def mean_batch_invariant(input, dim, keepdim=False, dtype: torch.dtype | None = None):
+    assert dtype is None or dtype == torch.float32, f"unsupported dtype: {dtype}"
+
+    result = input.to(torch.float32)
+
+    if len(dim) == 0:
+        dim = [i for i in range(len(input.shape))]
+
+    # Sort dimensions to reduce from largest to smallest to handle shifting dims
+    # during iterative reduction.
+    sorted_dims = sorted([d % input.ndim for d in dim], reverse=True)
+
+    # Iteratively apply a deterministic mean.
+    for d in sorted_dims:
+        result = mean_dim(result, dim=d, keepdim=True)
+
+    if not keepdim:
+        # Squeeze the reduced dimensions.
+        for d in sorted_dims:
+            result = result.squeeze(d)
+
+    return result
+
+
+@triton.jit
+def _rms_norm_kernel(
+    input_ptr,
+    weight_ptr,
+    output_ptr,
+    input_row_stride,
+    output_row_stride,
+    n_cols,
+    eps,
+    BLOCK_SIZE: tl.constexpr,
+):
+    """
+    Compute RMS normalization along the last dimension of a 2D tensor.
+    RMS Norm: y = x / sqrt(mean(x^2) + eps) * weight
+    Each block handles one row of the input tensor.
+    """
+    row_idx = tl.program_id(0).to(tl.int64)
+    row_start_ptr = input_ptr + row_idx * input_row_stride
+    output_row_start_ptr = output_ptr + row_idx * output_row_stride
+
+    # Step 1: Compute sum of squares in float32 to avoid overflow
+    sum_sq = tl.zeros([1], dtype=tl.float32)
+    for col_offset in range(0, n_cols, BLOCK_SIZE):
+        col_idx = col_offset + tl.arange(0, BLOCK_SIZE)
+        mask = col_idx < n_cols
+
+        vals = tl.load(row_start_ptr + col_idx, mask=mask, other=0.0)
+        # Convert to float32 for accumulation to prevent overflow
+        vals_f32 = vals.to(tl.float32)
+        sq_vals = vals_f32 * vals_f32
+        sum_sq += tl.sum(tl.where(mask, sq_vals, 0.0))
+
+    # Step 2: Compute RMS (root mean square) in float32
+    mean_sq = sum_sq / n_cols
+    rms = tl.sqrt(mean_sq + eps)
+    inv_rms = 1.0 / rms
+
+    # Step 3: Normalize and apply weight
+    for col_offset in range(0, n_cols, BLOCK_SIZE):
+        col_idx = col_offset + tl.arange(0, BLOCK_SIZE)
+        mask = col_idx < n_cols
+        vals = tl.load(row_start_ptr + col_idx, mask=mask, other=0.0)
+        weight = tl.load(weight_ptr + col_idx, mask=mask, other=1.0)
+        # Compute in float32 then convert back to input dtype
+        vals_f32 = vals.to(tl.float32)
+        weight_f32 = weight.to(tl.float32)
+        output_f32 = vals_f32 * inv_rms * weight_f32
+        output = output_f32.to(vals.dtype)
+        tl.store(output_row_start_ptr + col_idx, output, mask=mask)
+
+
+def rms_norm(
+    input: torch.Tensor, weight: torch.Tensor, eps: float = 1e-6
+) -> torch.Tensor:
+    """
+    Compute RMS normalization using Triton kernel.
+
+    RMS Norm normalizes the input by the root mean square and scales by weight:
+    output = input / sqrt(mean(input^2) + eps) * weight
+
+    Args:
+        input: Input tensor of shape (..., hidden_size)
+        weight: Weight tensor of shape (hidden_size,)
+        eps: Small constant for numerical stability
+
+    Returns:
+        Tensor with RMS normalization applied along the last dimension
+    """
+    assert weight.dim() == 1, "Weight must be 1-dimensional"
+    assert input.shape[-1] == weight.shape[0], (
+        f"Input last dimension ({input.shape[-1]}) must match "
+        f"weight dimension ({weight.shape[0]})"
+    )
+
+    # Flatten all dimensions except the last one
+    original_shape = input.shape
+    input_2d = input.reshape(-1, input.shape[-1])
+    input_2d = input_2d.contiguous()
+    weight = weight.contiguous()
+
+    n_rows, n_cols = input_2d.shape
+
+    output = torch.empty_like(input_2d)
+    BLOCK_SIZE = 1024
+    grid = (n_rows,)
+    _rms_norm_kernel[grid](
+        input_2d,
+        weight,
+        output,
+        input_2d.stride(0),
+        output.stride(0),
+        n_cols,
+        eps,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output.reshape(original_shape)
+
+
+def rms_norm_batch_invariant(
+    input: torch.Tensor, weight: torch.Tensor, eps: float = 1e-6
+) -> torch.Tensor:
+    """
+    Batch-invariant wrapper for RMS normalization.
+
+    This function provides a deterministic, batch-invariant implementation
+    of RMS normalization for use with the batch_invariant mode.
+
+    Args:
+        input: Input tensor of shape (..., hidden_size)
+        weight: Weight tensor of shape (hidden_size,)
+        eps: Small constant for numerical stability
+
+    Returns:
+        RMS normalized tensor
+    """
+    return rms_norm(input, weight, eps=eps)
+
+
+def linear_batch_invariant(input, weight, bias=None):
+    output = matmul_batch_invariant(input, weight.t())
+
+    if bias is not None:
+        output = output + bias
+    return output
+
+
+_batch_invariant_MODE = False
+_batch_invariant_LIB = None
+_original_torch_bmm = None
+_original_fp16_reduction_precision = None
+_original_bf16_reduction_precision = None
+_original_cublas_workspace_cfg = None
+_original_cublaslt_workspace_size = None
+
+
+def enable_batch_invariant_mode():
+    global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
+    global _original_fp16_reduction_precision, _original_bf16_reduction_precision
+    global _original_cublas_workspace_cfg, _original_cublaslt_workspace_size
+    if _batch_invariant_MODE:
+        return
+
+    _batch_invariant_MODE = True
+    _batch_invariant_LIB = torch.library.Library("aten", "IMPL")
+
+    # Batch invariant matmuls are no longer needed after cublas overrides
+    if not is_torch_equal_or_newer("2.10.0.dev"):
+        if current_platform.is_device_capability(100):
+            # For PyTorch 2.9, B200 uses GEMV for bs=1
+            # Requires https://github.com/pytorch/pytorch/pull/166735
+            _batch_invariant_LIB.impl("aten::mm", mm_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::addmm", addmm_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::matmul", matmul_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::linear", linear_batch_invariant, "CUDA")
+        else:
+            # Only source of batch invariance for Hopper is split-k, can disable through
+            # cuBLAS workspace config
+            _original_cublas_workspace_cfg = os.environ.get(
+                "CUBLAS_WORKSPACE_CONFIG", None
+            )
+            _original_cublaslt_workspace_size = os.environ.get(
+                "CUBLASLT_WORKSPACE_SIZE", None
+            )
+            os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
+            os.environ["CUBLASLT_WORKSPACE_SIZE"] = "1"
+
+    _batch_invariant_LIB.impl(
+        "aten::_log_softmax", _log_softmax_batch_invariant, "CUDA"
+    )
+    _batch_invariant_LIB.impl("aten::softmax", softmax_batch_invariant, "CUDA")
+    _batch_invariant_LIB.impl("aten::_softmax", softmax_batch_invariant, "CUDA")
+    _batch_invariant_LIB.impl("aten::mean.dim", mean_batch_invariant, "CUDA")
+
+    # Also monkeypatch torch.bmm directly as a fallback
+    _batch_invariant_LIB.impl("aten::bmm", bmm_batch_invariant, "CUDA")
+    _original_torch_bmm = torch.bmm
+    torch.bmm = bmm_batch_invariant
+
+    _original_bf16_reduction_precision = (
+        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction
+    )
+    _original_fp16_reduction_precision = (
+        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction
+    )
+
+    reduced_precision_val = (
+        (False, False) if is_torch_equal_or_newer("2.10.0.dev") else False
+    )
+    torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = (
+        reduced_precision_val
+    )
+    torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = (
+        reduced_precision_val
+    )
+    torch.backends.cuda.preferred_blas_library(backend="cublaslt")
+
+
+@cache
+def vllm_is_batch_invariant():
+    env_key = "VLLM_BATCH_INVARIANT"
+    is_overridden = False
+    val = os.getenv(env_key, "0")
+    try:
+        is_overridden = int(val) != 0
+    except ValueError:
+        is_overridden = False
+    return is_overridden
+
+
+def override_envs_for_invariance():
+    curr_attn_backend = envs.VLLM_ATTENTION_BACKEND
+    supported_backends = [
+        "FLASH_ATTN",  # best supported backend
+        "FLASHINFER",
+        "FLASH_ATTN_MLA",
+        "FLASHINFER_MLA",
+        "TRITON_MLA",
+        # Not yet supported MLA backends
+        # "FLASHMLA",
+        # "FLEX_ATTENTION", # IMA issue even if we disable batch invariance
+    ]
+    if curr_attn_backend not in supported_backends:
+        warning = (
+            "Forcibly updating attention backend to"
+            f" {supported_backends[0]} for batch_invariant. "
+            f" Supported backends: {supported_backends}."
+        )
+        logger.warning_once(warning)
+        os.environ["VLLM_ATTENTION_BACKEND"] = supported_backends[0]
+    if os.environ["VLLM_ATTENTION_BACKEND"] != supported_backends[0]:
+        warning = (
+            "You are using a decode-invariant form of batch invariance. "
+            "This will not be invariant between prefill and decode."
+        )
+        logger.warning_once(warning)
+    os.environ["VLLM_ALLREDUCE_USE_SYMM_MEM"] = "0"
+
+    os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"
+
+    # NCCL determinism settings
+    os.environ["NCCL_LAUNCH_MODE"] = "GROUP"
+    os.environ["NCCL_COLLNET_ENABLE"] = "0"
+    os.environ["NCCL_NVLS_ENABLE"] = "0"
+    os.environ["NCCL_P2P_NET_DISABLE"] = "1"
+    os.environ["NCCL_MIN_NCHANNELS"] = "1"
+    os.environ["NCCL_MAX_NCHANNELS"] = "1"
+    os.environ["NCCL_PROTO"] = "Simple"
+    os.environ["NCCL_ALGO"] = "allreduce:tree"
+    os.environ["NCCL_NTHREADS"] = "1"
+    os.environ["NCCL_SOCKET_NTHREADS"] = "1"
+
+    # torch.compile settings
+    os.environ["VLLM_USE_AOT_COMPILE"] = "0"
+
+
+def init_batch_invariance():
+    # this will hit all the csrc overrides as well
+    if vllm_is_batch_invariant():
+        override_envs_for_invariance()
+        enable_batch_invariant_mode()
+
+        # Disable TF32 for batch invariance - it causes non-deterministic rounding
+        torch.backends.cuda.matmul.allow_tf32 = False
+        torch.backends.cudnn.allow_tf32 = False
diff --git a/model_executor/layers/conv.py b/model_executor/layers/conv.py
new file mode 100644
index 0000000..e6f2d29
--- /dev/null
+++ b/model_executor/layers/conv.py
@@ -0,0 +1,236 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Conv Layer Class."""
+
+import math
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from vllm.model_executor.custom_op import CustomOp
+from vllm.utils.torch_utils import is_torch_equal
+
+
+class ConvLayerBase(CustomOp):
+    """Conv layer base class."""
+
+    num_dim: int
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int | tuple[int, ...],
+        stride: int | tuple[int, ...] = 1,
+        padding: int | tuple[int, ...] = 0,
+        dilation: int | tuple[int, ...] = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        *,
+        params_dtype: torch.dtype | None = None,
+    ) -> None:
+        super().__init__()
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+
+        kernel_size = (
+            (kernel_size,) * self.num_dim
+            if isinstance(kernel_size, int)
+            else kernel_size
+        )
+        stride = (stride,) * self.num_dim if isinstance(stride, int) else stride
+        padding = (padding,) * self.num_dim if isinstance(padding, int) else padding
+        dilation = (dilation,) * self.num_dim if isinstance(dilation, int) else dilation
+
+        self.in_channels = in_channels
+        self.out_channels = out_channels
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.padding = padding
+        self.dilation = dilation
+        self.groups = groups
+        self.padding_mode = padding_mode
+
+        self.enable_linear = (
+            (self.kernel_size == self.stride)
+            and not any(self.padding)
+            and self.groups == 1
+        )
+        self.input_size = in_channels * math.prod(self.kernel_size)
+
+        self.weight = nn.Parameter(
+            torch.empty(
+                out_channels,
+                in_channels // groups,
+                *kernel_size,
+                dtype=params_dtype,
+            ),
+        )
+
+        if bias:
+            self.bias = nn.Parameter(torch.empty(self.out_channels, dtype=params_dtype))
+        else:
+            self.register_parameter("bias", None)
+
+    def extra_repr(self) -> str:
+        s = f"in_channels={self.in_channels}, "
+        s += f"out_channels={self.out_channels}, "
+        s += f"kernel_size={self.kernel_size}, "
+        s += f"stride={self.stride}, "
+        s += f"padding={self.padding}, "
+        s += f"bias={self.bias is not None}"
+        return s
+
+
+@CustomOp.register("conv2d")
+class Conv2dLayer(ConvLayerBase):
+    """Conv layer with Conv2d."""
+
+    num_dim = 2
+
+    def _forward_mulmat(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 4
+        B, C, H, W = x.shape
+        K1, K2 = self.kernel_size
+        H, W = H // K1, W // K2
+        x = x.unfold(2, K1, K1).unfold(3, K2, K2)
+        x = x.permute(0, 2, 3, 1, 4, 5).reshape(-1, self.input_size)
+        x = F.linear(
+            x,
+            self.weight.view(self.out_channels, self.input_size),
+            self.bias,
+        )
+        x = x.view(B, H, W, self.out_channels).permute(0, 3, 1, 2)
+        return x
+
+    def _forward_conv(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 4
+        x = F.conv2d(
+            x,
+            self.weight,
+            self.bias,
+            stride=self.stride,
+            padding=self.padding,
+            dilation=self.dilation,
+            groups=self.groups,
+        )
+        return x
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """Expected input shape: (batch_size, in_channels, height, width)"""
+        assert x.dim() == 4
+        if self.enable_linear:
+            return self._forward_mulmat(x)
+        else:
+            return self._forward_conv(x)
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        # By default, we use CUDNN's convolution ops with optimization.
+        return self._forward_conv(x)
+
+
+class CausalConv2dLayer(Conv2dLayer):
+    """
+    A causal version of nn.Conv2d where each location in the 2D matrix would
+    have no access to locations on its right or down
+    All arguments are the same as nn.Conv2d except padding which should be
+    set as None
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int,
+        padding: int = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        *,
+        params_dtype: torch.dtype | None = None,
+    ) -> None:
+        if padding is not None:
+            raise ValueError(
+                "Argument padding should be set to None for CausalConv2dLayer."
+            )
+        self._left_padding: int = kernel_size - 1
+        self._right_padding: int = stride - 1
+        padding = 0
+
+        super().__init__(
+            in_channels,
+            out_channels,
+            kernel_size,
+            stride,
+            padding,
+            dilation,
+            groups,
+            bias,
+            padding_mode,
+            params_dtype=params_dtype,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        x = F.pad(x, pad=(self._left_padding, self._right_padding, 0, 0))
+        x = super().forward(x)
+        return x
+
+
+@CustomOp.register("conv3d")
+class Conv3dLayer(ConvLayerBase):
+    """Conv layer with Conv3d."""
+
+    num_dim = 3
+
+    def _forward_mulmat(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 5
+        B, C, T, H, W = x.shape
+        K1, K2, K3 = self.kernel_size
+        T, H, W = T // K1, H // K2, W // K3
+        x = x.unfold(2, K1, K1).unfold(3, K2, K2).unfold(4, K3, K3)
+        x = x.permute(0, 2, 3, 4, 1, 5, 6, 7).reshape(-1, self.input_size)
+        x = F.linear(
+            x,
+            self.weight.view(self.out_channels, self.input_size),
+            self.bias,
+        )
+        x = x.view(B, T, H, W, self.out_channels).permute(0, 4, 1, 2, 3)
+        return x
+
+    def _forward_conv(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 5
+        x = F.conv3d(
+            x,
+            self.weight,
+            self.bias,
+            stride=self.stride,
+            padding=self.padding,
+            dilation=self.dilation,
+            groups=self.groups,
+        )
+        return x
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """Expected input shape: (batch_size, in_channels, time, height, width)"""
+        if self.enable_linear:
+            return self._forward_mulmat(x)
+        else:
+            return self._forward_conv(x)
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        # PyTorch2.9.0 disabled CUDNN's Conv3D, which caused a
+        # significant performance regression.
+        # See: https://github.com/vllm-project/vllm/issues/27406
+        # and https://github.com/pytorch/pytorch/issues/166122
+        # By default, we use CUDNN's convolution ops with optimization.
+        if self.enable_linear and is_torch_equal("2.9.0"):
+            return self._forward_mulmat(x)
+        return self._forward_conv(x)
diff --git a/model_executor/layers/fla/__init__.py b/model_executor/layers/fla/__init__.py
new file mode 100644
index 0000000..0e89cf9
--- /dev/null
+++ b/model_executor/layers/fla/__init__.py
@@ -0,0 +1,8 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
diff --git a/model_executor/layers/fla/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/fla/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8930b3ec915442f7db2b937c8711ac038c71aefc
GIT binary patch
literal 175
zcmX@j%ge<81UW3-neB`W439w^bnux4C^DU)l0lQvZzV$!6Oi{Aq~@2Oeo1bDenDn|
zZb@QMdTNPoMX9-^MYegWeokhRenDkPMt+`tSx!!_er|qBYEFD=MQU<sNq&)jPGV(h
yQL%nnPNIH%d}dx|NqoFsLFFwD8=$(<oK(9aR-o}f=P(q57$2D#85xV1fh+(lE-eoL

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__init__.py b/model_executor/layers/fla/ops/__init__.py
new file mode 100644
index 0000000..c19cc14
--- /dev/null
+++ b/model_executor/layers/fla/ops/__init__.py
@@ -0,0 +1,17 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+from .chunk import chunk_gated_delta_rule
+from .fused_recurrent import fused_recurrent_gated_delta_rule
+from .layernorm_guard import RMSNormGated
+
+__all__ = [
+    "RMSNormGated",
+    "chunk_gated_delta_rule",
+    "fused_recurrent_gated_delta_rule",
+]
diff --git a/model_executor/layers/fla/ops/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0e099749a27ffee02c4629c21ef6e7be2aa0b66d
GIT binary patch
literal 403
zcmZvYy-ve05XbF&P(-OJF~G_iq++&$1guPSC|j13Y1}lbokSN0H6yG%06QDc!W%^D
z#KeZESeUq2VnN(+zK{R??DOkju*1l7@R&V#jJ<WquTk!7b3(@xOIX4+Gd$+Ji#_cb
zKlWYh>%fF@$XUvg;F-r;O&D#xa~g|yyFXjh`4UoTRRW39Rsz;qQRi@8S5!kas}WUh
z|I_SFuWu#=nyYR+@-ZYR`kf2NO`={KI=-v5!#_kPYKK}j3Ui`BT1!kEr0oGntpQ%x
zhDhvtDy%6*nUy0eF;#Z7s>f%i%drwVyA@?)7ey}av^K&Nv<9dZz1tQj9K8~AEk#jQ
x0wBvX3vgUE?e;loY1vC0&=uW>R0rffe9rmT9^*%AcClvBXAtzg`yTeG_X7#~axnk^

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/chunk.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/chunk.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eabb7751f55f1b34c3fb77b465dbb44bd819bdf1
GIT binary patch
literal 9841
zcmdTqTWlLwb~B_%4qxI!Z`-o3Ew4q|6lFPf{FD=IVtM_55<lWJN(^em8Brq*In>Nh
zvQ!GNg8-2?1#F`Qti>Xz@)a-akNr%)Ht8<9S@ffnH-L$OjRx55hk<_3Yxk!=?KyWi
z98#9lI4DqbEZ@10Gxt31x#ygFF8?_g^fB<rO`l0mb}`JKuwgx&)yngqI~e9JBQOFh
zGo$949c7{IkR4g)sFP&`r_dxfWnH5#T6f9rtY_3i>u#CLdPlvq?vZ_2|EQnVIXRFG
zjs|JnD>rAGN1JKgCx^1((Qr008li2!9L=_jwy=zs5w;2ek)4WJ1ln&QxIusO2K}K8
z`okOaN5nQEy1`hB*e<lfSkk7)stN3ZhhZk7Lfa><(M|_*ni1MRVT2BVK48Jv@2P`!
z-KyPpnzhlb@XZmc*M3hOv+GvP3$n8Q3ETdE%1r14sdkC&6Yav5Ph9t_tc`A;XXD*Z
zu{9EB4X-Nls><gw;!_s7pl4fpvXGljWq4f_Qi3S!d`d0IVrpVeNKL}H-yFxL0?kgd
zsik=t;T1hKJ*^`!j77~cS%JY+x{%chS?Kl22Xcy<t-|;;MV=K?x+=+WhtYiLy?5We
zc<R!n)cI3aPMtUWQZ8T6Q<(y<;)D@ZOe<OF5mR%i0?uHtGX^_tu(Jl6F`C9joi|*R
z79%L-BwYf;nhvZOQKg{cR1;FJ*5^wXQkpm;i#aXrt;z>qSVyIKeja3Um(fu&^eH+8
zw#YqjSSq#X)T_$HFh#c5RCE?Oy~%=}a$7a~{lIzOWwsW*dJSjMTjYxD6g4C^EY==0
z)o^+Bpfv`#9DvP>_#U|KSMhuVMrP5s=+{GaaK54+pxi|dK)Ub4R>J2apn5T|7+h@D
zBW4fKj~oPx0f2S^tjB^~4Czq|M&PCahl+SZfV~+E82p>?Tw)qvKB|W)`e4o=!pt*q
z@5s|PVKP{0UsZ3U1yOCsE|-dAtB6ZQqG+!Xs4knJ&*#Os(_n{azq$oKahsonYu{~!
zn!#nNx@OMnp+E*ZXRrlx;#P!j!-69AsLfcX*l{X@oiyQEERd(T$Z?;_VF!xPaOsMg
zo-{lYvcl`H9Z+%Q3>PI*#Z^*qkyTt5)el8HyatDffbvSQG?JtuA8I!i+p*XIh2fe_
z<-|F|U$4Ndq9Mg(&GVn{^y}Gte_qP>>Aac|^}cI`!$*%y9~S#%X}mu_uTLtu{#jYh
z_GcB?;wkZ(m@WWI{W3o<s#^bq%=asKt)H$@GCyx@F;{CnqoATQ>4N_n8kOtJi+0Al
zb$Q@k^ef+Y+*{X&{>+iG&wqRO^3Hp{-?ja|`<w0;PKVchedvXo@wVK)uyX9Hq2HYT
zhtuD2Z(kpJ?B52!_!o>|8Htu#x?co60rw3Uy*~3I%yb{ELYQ#vJ>{)^2o&PF-K$Mq
z099C;ei3E7trlFUT4`=E;VAMb!?iE74?SJwQ26%F+ZUGoE0^yb{B>(7bg0A~dhG33
z9(d^8W)EJt$KE?s3hgg(`zuby*ZmxrWztw!PtDoyp;kj=(7}&7M5ov!x~2janEjrr
z?Nhr?V8Oan?F~90Atd0}xXNoD!L>oZdxL(@2L0Ry{a(>4_%;~xi#~9Qt|{C=YaYRg
z4jaM=-$bj>Y&#yy0a@?Sz`QdaHnzTn?&dUlo43)~Tm)Y;T*#$$Ny!;a>4Lz6-S-RP
ztds^X0Y+ftm9~=6QP9NH%yg>ibfjErT2ynQoW^}=Jy^#*{`_kw?lMK6+Fob$S!+QS
z*}C4^GA%k9oPYz2V-uKAYI2L-2kiZ-ng0mHve>lfHx2J%XfX^hObQID`GBEhQb+}T
zivFpZd$9V@$*kujEc(FAIxc~69f^BiNl0Kw5f|ObDz!%#h#3yB2t81VM+|3LzxGN~
zsyKtX2McP<eu6b>(a@NwyP?p~%CE6pgs8pH3x-uu=fLML^lYLY$tut}oU8!Fb><mi
z0zHqzTb2j@Hn=oYtNb}JTy758f04Fww4=PGx4dJZ+_CdTi?7eO%Eg!1rGX{>_SR*7
zC9-m=($2JPS#ti3x4dU?$@v}E1GeCnepA0aboca~)1NIaPnSaR5*JtFfEi>y91j{?
zDwX52Vk%|$QYkR47&oPiKq@s;;N|K_0OJuUofW|d3o4ogbte>tlh5YCD;6|ep|O$S
zz6^1Rq8cvhWFWXv6xr~dS8^G1K*jj?R}95ZrKaw~$*?#J|Fz#j@d;CQMar&l+2#B6
zgBu?_a&@h`x>hDiuC712`hdg!*UGWJXC2#Jd%yRGZ=JY#qT+&j#mxjFwB^ATXSKZ8
z@>wlEwgOD3^_F~7t^~2w%!J!2A*_X&&hER#JH<)_TT!NaXQc&etsvA#t-DuScdzKH
zt@|o%*xAnP+VdAA;<=M?C$WfN5q;){K9fJ>%J5B!yZ{lLs_9g}8ul<slJ4OnP{JN&
zrl4c(1N&!f7qrukYmRAfV`{kQSZ^H1G}l??W0nQce$1{vw_e-HQ?(G#MmBvI=J1?_
z6X5-7=f|v$u>^gJO;Z?Lta+?`El}#{*G~KEqE`*-e(MvVNpL}cSET`H^lI+|o$Jgh
zc+gvKFy_KB8sr_Z!^m~r54XV#boO5|f_H;)iUG!bpS$WQW|<;)V}65g{79AHK^dys
zbhJ?P5dxdR1CHS5PD_R$5%-NVMfbWAq4U?R24{UGcouvh55&8#4sY|uuz)qR85S51
zf9|s82dZ4xqo9@Rty6?@9bJI2MVF2tB7LShteX9%!F!|U@!bc?@u9~8@H(I`0Uf8L
zPth;5SlY7aheJYu`i@rqA7LZ;&@2zB8SNOYVQYrOXv~{5jZfSjp`!&+l|+pw6GWTj
z^CB7h@TUoKIYEAwAm^@*5ov;q*_(H8n3pwijEGR0kN^h20GX^IoZb}Sv^f92ifwjN
zY_q&v*nqn$KbSj!w7JV{iZ2G94Z`*~fq+}eWr$8a0f|XDA}bl9<@vO@Gro?re;_gS
zl;D|pQ(_QcJz4(<T=Zm4V(;WJy5r>!rJR0sjV4{fL;{)M)1Ykx#6a{(kz5q@5m6_+
z4uZf>iI!GWQM1K~I(TM+<P@FcRb^HZL?J;Woy<wHOayU)FUUI46*4wJ`iVB9>alb2
zu_Srh963hDMwFabw>%BGgF1rix4>G;&zSiJLh}vvYcpbQg9JfcL6*iwU`JqLgFyD7
zAm-9*Ss4Z(7~$nU$W3JQ$+gf4It7K$sDQ?KJv~V@I82kVpVsk#a@ml{mop-DoMN=G
zmc#caA!rd{Nfcs!OL5Z!>E>M5OWNG~_R`ro7)uN75NC~Uyj92+WY`h2Voh+w6i|bH
zj_ex%K||axP-)Nds>F}Wq9sdR<zabqnMBRhpp?=|PLnj$FHjngII7*S%xjZFHKiMR
z_l!-pZOwkD&|pHk=o;ZwtWp#>O&^VDkk%}(C&=8S1Zyd2RGYOzKCh^7I9it#b3U7>
z#^tsoP5Fc^R8Vtu23@hly{<ujhi1zf#9A}xKhosYB`!8aJ&YN;&Gm`;lb6+Z@UmK{
zxs~dUrp%wZ2Enx~YR7D^b@Jp%B4tswpw5uXsVT$Sfn+Y1oTwg1fi5tG!ws+#s*)w5
zl!JVUHDN8M`Z6G7R+0djT$@R;K3zZ0Qk$p8QX#6N)BspJpaz2s)Yj@8SRFD*4kpNf
z{RfXEuySbN04*9mm;oTuxIr>l$i?a>plPi^b99^@Mh0F_fK|mK`Cu;|(R<?!lTE{9
z!%0l?@-mpDYT)qWCQgw2AkZsF*}=YnMl`b<(R>BqF;(y?G*dTNF9TZyKV+_?CS|gU
zB*Yp?%uq>y&$fnb8Nb^6jnhu<f0=cRv|zD+1nWwIOzJS<`nngZEiGD?nFN_mkl6&u
zBnXPE(TFy<&B4k2jiVcE*xLLyk3E}MyTm#U53QwmEib0gP=a?F7s&ttJtkwecLA5H
z5f!$Kq>4ffCvKJ+Pn02oYnJ8nF`3Vf3p}}Y48E$~k;JYgNbfk&NivxveJ24)3|et)
z_Qn$=wsxlYT9$ZXdTP3T57xYx1`fTRQaXGHZJ?_6i@---(cm%zTom;k7OM?h*xv*F
zGfBu5r_8W1_Tm28?%#hDcJAu~2f+*+88~|2YNNKukXx`RM$srK@Sdn1`2N3Bkw!hT
zIUTgCHCdPpES%jWaYO_KqInD!tL~Ll^Y}^ft}OC!D1qRCSf(zi5;!p}oTnBd3;7vT
zui8P!I_F$PpJWFG<`E}BAdo`{Jl|X;3Pw+Jk|rh>ayBUHr6A_vY73K~RBdV43RqMz
ztIR?l1PeTwD1ZkS$t)!3K@%ECwI?(2((RK|=HNpJX?P*|6!QXj_XaAJo|eT~QC2ZY
zvGC>@8i$&iQa!tAg-k}&bPco);~}_1tHvfID`^m-q$iJ|=B6O@BC&-~oSY!JLN<j&
zXwdOb@g%uC2~1`Ac_2WLkT1GvtKrX_2yEne4Ffdb48Lm#foc*<;KsTN0TCd2iN!ha
z#2RdQX+jc(nlwN<(!@NOR|+c3jUjfGH8Z*bnt*&*d<^fbZB%93T1gXYQbmz1^j`+R
zy6Ad6L!<Jzt}rE^BMTQyatj)s+v+!UvZ`7T0boQ))`q23;f#wwDTqf^;8cK<Bp0qC
z4ItrhKmvMKHL_-e1Tn`;rq2uuzziaj_1`s|IN*Gg6q5<E5G3^s7;N(Cf5DRh?&10V
zHw*1(@Fp#jHx5;5|KdTl2LNdDQr!hL!wCujx375qH==J>H5yd)eO|?Q+i-$aH8@D?
zVoNicux9wK;Mw|=swyf?T^cSvpO@!VOyvQJ#;dvi;o9sZ(qku{G3Tt|Z5%qT+G8e|
z+t+t?>UjWH@VkG9OPK3SWz@k0g0~LeJbatKo4J$u&L3NeeA)3u$3uUt)D&B#Wyv2a
z`vVB{cjDdbo$Nz@Pla)~+-2_ab0@q@{vNpN3WS#QTMIWAK6_)Cf9T&)g}73M*zt^G
zxai|%QgN`s<KK65zVI}Kd=;k2>w6Yv0`1E?|GxJZy(>F^v3F(W%egP+?#+C$@Nmn(
zV=jCvcr#dT9{G0WU*`TWS9<@i{;=?^TpE>1Q`3*8W>%+WN~*RxrI(~ag>lZZV=TOa
zP;yLX*MIokULPcFxoFALU1j0+z|CXJk)OZuIJ&JI9r}9b?|Z-L{dVU!d%xaRVb~G&
z9DL74&a=;*&X#7Jsu|P6T_ykSd)<%XCsyMpzPhj)f8%$reZBD8H%jkaS$*ru!}t}L
z4ESp4dfc^bdGwb%?hUMVB}$!r_pW|5_~`h^>T#fc_4tL-v5TdPmnu#+@?PWoT=4p0
zIUKp`x#L-O-0?5#tKps{*W<SRkJ?^eZF{}UdF%cHWiD9e+REIPG8Zj#JD#`s+ub)t
z;9l^rpLL>)18ukYQrEyA0|%B^V0vkK>13&?%S_|5BXRf0$nePUaD0dQGtdJwH}5v%
zd#aR1&{Q4srxBC%rq}S8eG0wuHCoLU&34p&6JcH)yUm|L(5qy_ZC*;5moJ#DGh78-
zk~Ml~Os@tE&)j@!f`@!Jy;VMn6yeWR)Z<v3z#;~P!SQf?n^Aee;H=9tb2oALdkIMv
zRl_4l8XkkGimQY8Dc)R|+krb_-d3DcKY%{Gf7EV432VW!&s!Nb{3j;xgxU6Q%;6^t
zdBPlf!t8m%Y=6S+`d20i^-3qRum4#~k{u{}0-qLd6e~`se_yS;pbl3GT#$}<um#F)
zw!GN#F>v{ixS6Q<u@!&|hDs1?%}i_8-4l0CR6^JaGhN-42-c!Zr2SEttcJ<T!PRi@
zb42`NoZZFlUHQqE$uE+Rb{$>ab@T-T9hI{z<M4dC{l@l3Y{x3wfpd12ckL<f*j?V6
zEO%@x?~Xs~c+<gdsZoxN8tK@mqn$Qw;%U>So;FSLY1O8mHcbX-bqxoV7TVj&MA|BC
YwA#*W-}M(t7u<w6I-fbPmoC_U0~lkYY5)KL

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/chunk_delta_h.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/chunk_delta_h.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..425a669057148cc82c365cee687665d30240eb15
GIT binary patch
literal 16360
zcmdTrZEzdMb$9swCO-KkiUbIXA}H|_lt?*}Eq;np6xt$X$yMW^AP*$L50E+>Nl`ge
zwCjuk#f^YE9fDKO2=aJFV62Yena-5%WE!@=G}Ax4fl@*jW@;yy$><+!shu`I+P=L5
zh$9CiMN!ElN8;Vvw|j5j+uiqe_ubyVX|*a0t_jHxy>HcH*soC{dmYLkPk$oDutki(
z2z&y&hVG&Xd{T5xG%3C&#xX)nNG2qc(reO5*)<uLmQKhg71tCTE}KwJs;;SUYy>0Z
zALG~5BFrNmE6!GuyAz7{FhU7G75voj)4)#)Kix;NPjS8+_iSnInJh*WbYXX}JNO;Z
zkYofK61`oGVF8TLcVTZ=0EQC=z@W~62<kqZeJXb+jI_v$(-@6EFntQzqAMc#pj3i=
zV1r+c1RIhBL;*a2v@m~+dsGiB*>apr<@_^3NED9X4~nvq6U83Um{pk1<3!00^wJ&Z
zhjyTs?Lar~KtH?#y?h6H#SV1q4s_cN^veA7;bOx6p5)U^18u)wGbl0PAJIrud9bmn
zJnea82YU4m^rJh_@tblCBWiZdb?lm3>oF0>JZ9oJ-0PrZZ60a)TIxN8`8nmM4vR{F
z)o>xv@SgNq(L6pR!Z*j~9Oh_xf-35Bh*%Ld!OAGoOHKKnAPWMLWt#L%yGf60XmrLm
z?(+Hw?~up8ojf%>?DtT92hNH;H>TmHoAJXVGlbhULb|6%9g-&^;P*s=fC2$MfT4_)
z0*YZMA6e2<l(UG@;60Gk1U7>YfFOM=KC+B0<E+F@j`;oPN$c;fHc*q(4b$G~Itr*B
zs_w>2>#4T!R!_r(cd%i4o*JF<HOx*-Og2nT5uOQ`=Z0r!hMFQ9CfxHL(%&#V;cl3k
z_BZglK?%z38m*t6XBDR>+>?WZ`&H5m6(Q&2*8*6;qD0KO<c(8Ix$`Ly_NjtsWSm6m
zkp=*~4x|aCQ7s%mDrc*rVqHr&6K1C31Ze^C{#r{k+PFtm$SpqQwTf58spZ<0E~fVE
z3spt!Q5BjQNL1eoaF@=ye4e>IDkuZqnP!Vo@pJbApv%!0(M2^h<MMm1Pk4O(J*q^r
zf?o$<0gF||Xr{6S>a67JbjVogn*-ghbF7TJeVa9)`}w}}m(RCfbPZf?zue6l1}?we
z-|gx--?vH94YXhBcJ*~%bzNz{_+~e&JU;+f|HW=FP7+PLq#A%j%;8UvweSSd6D#0P
z&H`XX9aq3?mA;ut*PNT2_OmL4`YHE_$M2A^crS~8o5im{xyueQD<7Kj4SPrYta#ir
zPbv`u{4&_DftYgnrYM(x+B4*JPk3*7$U2UD?+6L=K1Mbm(1?Hyfl37I2p}Iz9zg)+
zRBT8%aU=GeiT^7Mh((OrH2*PV{M#-9&rXGVloMsk1xf<NbP27w3Ea553?}eHfl|7N
z{AU3V<b$?dw305p3A8MyF>vMEFKUx8h8)<oEBoa0)kBD0PHln1fin6qU3L@3MnEm7
zn_Hx96_Hlc`cE_M94Hr*&DS2Pm(?DD3SSLfN~>>5p--}RHPRl*E|6kRiQ(yT#3fK6
zcuKQXN0cJOv|&Uf=q+TU+pY(a&6cpzIzl|&1;h2|OXX_=zS7?V-%8*s`#tcr(=xgO
zYzOtzA=E##j>8KO+`}Hwl(y~4+QUtlU;;84r^~kRei>ZR^1F=I@)FY;z+iN9Kaho&
z{(y30v}l{$T$>z_tB5WnkI~|7oL@$Zh@llYK7lI01pOB{LTmYSpgNlqI7*vIH7y5E
zDJaQVrku7wjv`Nvf;NY7@|M6-jN3XMwY{9y(FMaIx_}T3iwK-9rVXf<00-LyDE|~Z
zGr9sbv{k?>pC_sz6c3bHYu%&e^H}<pahS99?+R+&TLbYf8aQs*1ibQT;CP7|<h;uM
zG?4D1LG7)|Jv69&i5lem*Zwq+?V`c4TlPIPIQ9}Xuv2I?&RukQc6@bVVfou%!iYXD
zkR;#8lF`TMBgh(fAN!nkQYYYAn5kTFqw8pEKHH${@&!)DN(GN*(5xO@JE1iiTsU~q
z%-lFEsDFQ2?Pfdm0<QVAs=sB+t5yAhwc=;y7uRYxdurH2tA<;Zd9`XduvYxK;KjAt
z&Bhw{(5ms4J+D@c2h&PWYrb(Of>o^!W}2gDrUA>+Bg-Oi!1aW9%S_WG;FQlxHwisN
zpjl8F?Jc)mbn_1O)|^k<tZijyv4C^au6%-eo?k!E?4bJ5PC?CiHQd4Wo=Zb+)rYj?
z?d-+0l>R}q%x{bP(~`Hl7t>Pq2hlRWZSF%$!Dz`hPI0h9wBoB0+F@?SruEy_eJuih
z`K+-;XpOX!+uu52-8>|CE}tCY1IUqY25O<5dA(XoK0AN@d6j~f4E#kO=VJl9=c3hF
z9|2Ufr$0d($^XduHG%Hd?DM%htg|=w_uSe-Jr4V!z)8VV`C3|%-G^|`oZxq99M0_m
zv%V|PD&Ui^<+t+TcaZ8~oYufE<Cg)`595StbM@aQ;F(XhHbRwK`v*>K@mZBQ&9fMN
zk~*@9x6-Fj3ufhqXi{cXLqJIR2O<J?BPiC2=8J$+_+0jhKr3yfTW^A{f!w}9ddrrf
z<yPX-Ta_7FZfz^QWzW#;v<Y@hy#h_GSs8P80w=`To)5etD4VZUq|jq0xE|tn>)h^*
z?=gNS$KkK=kk+A5K&T&Rvib+U1$(YsJAEsw@3wZ?s`mxhxp5o=r(cS6r#b0P=aKFV
z?5A?lo!LdYTn}6zq#5a6eJRqt%1QTX9_e0#y;4rP*LIOEHx@1svW#?RUy5{RIqA;k
zk**!~K{@H#cahG%gI~k;>({_`a#7rTegXCnv>H}oBDxx2&KICqfF3A{O>fX4;FNFN
zcL?W%K<AdoLB17CC+*DI6t^D9S@D~Kn)a4iyy?FVEc2FF!Sl$R8{_+vS^5%X7Dfl2
zN9N6u?-zyTAAGQ{wnn>SZVeA3<ACF1OHAN-<hFyfzm{OM1^jhn52+Q;9pUN{aLTvB
z=-Oc?(Y0So++pYb7lQipjrFaX?6zCqQ<EKb3<uYQ-$m?Clihacdux(^S8#Am_??1#
zUwyLMu6%Dz@~`|4sL4Er{v6sq5*8O2DMi2m0A9~a32J`Y^JD>1PgViIi%TvW6$E^<
zJUSyVI5p!V+~ho*E$|GDJ8&*{1PXE&yv3AEy8Yv<bc!1FkPZ`xR&cCpnw)|&1(Pl>
z!Ad5k+ytCjm|~?~ALVRjB}0UFmX*TW$|*l9ABJp1MVTjCSly(1+~XRYm>L>)O;aQ*
zCEdOe4=eS<i2x7T#xeIycqTnQ%0<nyVq%J7#gkqiD|2T`&Vd{r621O&bhG$4i_fz7
z9Er~IkOc@7As+ZBiB^^*@;RgxQMCN|g3KWa(up$A+f?!d0^44v)*{-j?^Ic_*EP#Z
zye{7;LVXATHV7(<Jpe>~mr-hzl?=K@n>Yw91GtleEv&*1XFLcGFv()0o7ng!Hpj}Q
zU89Yzrp&!Lb9ZL$EvR0Kl|Uh=1Rzub5Gnx(nbWR05Q7J^C<)a~xcwA#+zn_~cvLay
z8gU^K${j(4M_9>}YrKh70XoiQ0c)T%3n)+xP@Dn^R0)(80fno69B~}y#G(A%(5%*%
zad8JW*m}N8N8FT$aPbF6$e9U`Yj}=ujeAHR95xx{hZ^CXJlR4nK=sJ|`=jteYyo@r
zJsdNb7PS#=)Sc8@KdHQ5cdssiCo7wS=7r8wfhl}FG#{;s8J22-riISOa{X^Kx;y7W
z=fW3aCdOQq)ErsY)G(Tw2gc8emy45{=8Y}+vFnVvCaH0(YmPIT;}7~jdu#cvq~>H=
zis=kNaaw_C^<jJHd=THz7TmcSx*EO|75(sgLD7aze`h2#5}u3=F@=t#u6A8l$LQ)F
z41PAcJet(ChQwc*3ZsTdYqT?FTRInWFMT^W5EO6YlF}K%9ih>n_?Zj?vD!jy;r^&G
z-1|w#{R{UlJW@9-bfx5qVDr1P8wG|tH$pd}#%O<3@j&#MYFYKDz!{XFZ0EakFPNQ{
zVNzMp88(Dk!vmo+(RN04IEFJS+q&`yqdfA-;Qi5iqe*20BWYM@Pf4WPimoedjM4^u
zQgg2+sXWF=j%7<3L6f1VJJ!53!W33B>gu?SQ5{<cPRfRV5dEX#b45~lijkbkmKO?;
zkLzQ(C8f}Yom`6!M9#$88RL<4gM%?R9#no-vs{xjI2naAC`}dU!%d-?h29K;h6hR*
z!tJ5iP3l7LV|j5(TM(`ShBeVkk>iZEJSfUb{6>Z;N;V9pbwed%sEjqo@pw~gHi0La
z;<GFGigVTYMOz}UN<M5}9bJ3lO44vOC`&0cKNc;@Bl4&$KKn?2a$SFl(VzNh<<Dxr
zs7>m-8AUhroLUnkZ=c+-6s=pT8B29aZ-l{xhkK%zVtBMC)*m;;$>ri$U!s4-nCM*@
zekv9f>ViGcXIjILI~LDH&P96?Cm)$#SvQ|y%x8W&__MJu#**gqjOKi>3vu_~Zrzdl
zK-``XE!V_ePYkY9Cf-_^{UhQI#-O)^`|r$yy%ZSM3#?3mHKoyp#o^J2j?t9I46*i@
zEN+Om$7KmaqI0G4^WKDZRkYf%a^qnkD56&dCBQ_fzM}{!!salwI2W0VQg?4I-CVC|
zVJcdZMJHB=f3EmWwhv5}byF2%s!Hh%;m&AHq>s^8#xBM2SWo;?0+07V7noMaFNza=
ztNjm+tGy3VXP9-tE~o|kLT{)yd^y^3w{@vC)^h)qd#|k9+ZcOW^3bV=)j!u<%J#*c
zwG6D-S4CgcBwk+~d|0{q)<e`Oe`K}%MyFrbRWP~=)FF7dDL5Nd#BAX}%pdQ+cOzkl
zO$r87fr|5N;JT2j9Ew*z(ltS!g6kX(4TlG!Rd<gr9gW%VJMKA>rN@)Hx}Z4QBS!PO
z(asp{s7Knv*TW~Hy)k$6Ox&3;F1IE6<Mk`eE96SeY7aD#Nf+#djxbpkk4BD0?eXD9
z#uLHLl&0Xv&5I`^C!==g`njdKnE(F#z4>HCQ_|GTXqur!#zuCpYargR(y=O9X<NPW
zCsG$Q@NRu%N|2uyuT{UY(!Xk4>0L!bIbTO5IvHJSQ2dp;WFyx=mM9)=3eUzAaa%MH
z_b2+7Z}66}R^K5ojZBYZOk*HwzgxXj9W&i8xmU7oJHgmaBuh`O&i-7}_Zyfb#ZmW?
zJk}if%h>g#$q{d7Om#uUW3@g7dB#ZFM}v30aF7&_Hz&*M8B=}2#u%N!&W)lH&Z@7+
zoN>dw)}`;q-&(<!zsppdTIpmeUP~684fYBIM|N$CoQtTVLyX=A{-Y&si<=YT#Ng+O
z`1e=(SGreQ@^mlp2-TG`T0RopRV*oDrcZ|AHHm@c`egN~m8N9znSXMxnpZ}c;vUA>
zgM=!LwtW}~_NFxYa4(}N14j%KQuFQEl-?XwFnViPf(XvrbGs0Jr8aE9U_KQ&1yg}2
zX|e~qHcAfNEm|r<bHq@zH{y%qj0H87rH;|pffnx1<&3^{rHawNnkp=X32ii0Sn^CR
zDb)opq*Z9b=!~j9eEsA07!^Cmn9*7%Ct6WSv@0?nmTVlZxO;W!YRX&~wZ{}o^}xRb
z)>=$S6Ju@yH*5PG9{tt|!I(QzrQn5^YEq?#p^|cASOt|BEFX!Z7yho`CwROiE@z4x
z8GU0;U1*uhk(+<gmFNtd-@3GTHF9;`a+I+gP3mfb;yf-9kG6qJyq=k3_jZZ=dO;SE
zh5gY^SmrVcYi@y%v%ah=Y>(amSJ=$k-*dS_JuDb{B0W)OOq?`VF`BB}3SlSq&Wv$9
zkN4Y&{RgdEOptfvyz~cRf4eK)DZ%t5-}Fe(;w-yJh#6z<xFL2W?oJruR}${br2Tf*
zGbIb&3`#Z>s{Jnu_FkGDV4mK}Jm1RfkAV5VYc8dgn8uVo1TD^;PAB_dn?}9?fW>D7
z+j_0n=cV8%G&)L6d06Ar3^hGNxrV*IO`3||6#C(`G^_KwXFcfTx@*=wG2`I_0W#7<
z&5*t!;bB*F)R;RIO+jqr{lfQ)-Y;H+uZC!B3^KM~ALFzrAD#bJB7*<D?7I+c38(_<
zfF_{5UA#kS?$y`rLRucs(aLu;ROZzf9NkmW@@&xDhZ9(!fL1P)(JBhXaJXwMb9678
zMt5`wBl{GA4T*0T1@r-fubM&!zPXE5ZoZ5Vqt|kRoPul)h0eBTO6T}xxzSoeGF}QB
zX!!+<kY>O4c^3|Wj=_$4`$em0eW;MuhKfJUNFFfKGO{Xv=}-}0mfAc(IF{!~>jPPq
z7uPZ-T0vSU6!zh+v3$YR&7<ku6XsxHuqaqOEGFddDFPP3F)|DHrAvtyBNR0DAx<c1
z5kM7<160#yfErp1P)kby>S!at0$K`CPn!T5XeB@+Z2)MZ)d0<*LVy-p0}$E)U{R<T
zU@@)x5dRSlN4t!)nKliJ;oF+hz9;_&*OUJRzy<4`z|k-4=4(SUBnh!FD<99W5>p<(
z6}}0u`e&x6r%1{=>TwfR2yei*65c7Fbpm~YLt3d(x6j&q;$%J93JtU6qZQN@=yR8+
zX94`Jc&{%2LgMU4K-s|+5`}R7Bq{ev5LpX+AgGAm7LgqYmq5tS1K$Fn=o*XnabGF;
zQMPqqVS$g_NJb#`b+dMt_|0hjX^0WJC;YG0qp}^)7=9Fx`|ky8LtnV4hSgSkl>0a*
zsjrQ<C-CL&wSwj~MYF(vybk3#C$cR%NM1r2TjPUdKcej(6-49Fp@vxHsC(K&A{)$U
z&5Gf36%zRo`0N85j%RWj!k1ErY7UK(U5KpWNUjMlbmamN93?p~N4^7uoS!4#MajQH
z;5`I>fPfVMi+Auc=7N@uh@1&-W<Crf{|uGq6hfM^YJq>`o8m{P02lrIYlJlb@T2y~
zADcUS_AK9RWxI74xd;qOP(LLB{B8kDmtlp+!tTY9$jF+dHhP`gD3MFwXDqev^ewb6
zTn|<T-C;vYp}Zpx$-|<M8bUTo(?SP?#x#X%YTGk0rYw(+#cLlaPJF2~q~(~@nATtl
z<C?rARbl<4`u?$d$6!J>CM#PK#G0ZkhzFZP0km<}hgCm(J?dsO6&sp@ur{eF-_Y1%
zwei8ErV02c52K>N04y!h=Kprvn&irw<w{a=CD`^Q$fFLaVQWZ6n;_0)NGj|L?O(NB
z2;v#~^{6d+=@ZZW$$OJQ^&>^g+8dYCVoa+4T7gwHf6%?IDTC#C^wJ|uMS@!B{x1nG
zb%IP%XQG9Xw0(marLxB=by^Jfui!3)``0o|tx3xfroal!X(hr`h^9uE1|oQAEy8q&
zR)8=)rYT7q5N5<QMQIbl%$T`6Z9!NeR#cTPLRc|+q6A^32s?zZGQ{sN!pae?0%2B!
z*$`F<xnJ7>OIJhd1U=zDUsGGxBv#I{9P+-tz8>yH!{t6lG5I&p>8t^L-dE3mv*?<k
zyc2%zH34TGDDY2sZt&*9*@tLqnhW2vQobnn!IQG@&F{Fbw)ej=z^X<)Go;r~d58S0
z!VRAaQZqgeE9>Mwl48YUUW!!?P5Jy3eC0@Tro_rFga4Z%A+$a<H31=UAH}LJPWeVM
zWGOW>J>lU7D15hd3`8c6BY<3&AI-asjg9;WSDc2A6d{KEDtRBsFpe=l`YtLh#&P^<
zA%<&zi`D!Vd+nE)>6e)8SDKOqCB)1`riH?F+{oa@uMEz|#uJYZpGE(rXCGV6eyx>D
zWlzOQktl7(M23aJ_bcA1fbK4}{-;!`m3>uG5j_8kQhV^iFN~$Z4m30i?r1~WFcs|&
zkHycg)&{i@OoB>Ghfro8{$;5hBFKQGN-CZr7T;*VN>V1<Gef2l4OCM4PHEI1^*q9>
z(xP!O-jAnCF@@@V`W-rbh)<WH7?viaNgw9Z<=OlSK5fmWZG5^iTi(v6tFq}Md>Y1z
z?#}7Z>GV-PU4x=m7eg1*4nAFr6_+m35juU0Pan^w>-cm%W+_^{7`d2k;M0wm-gt)&
z(cd(2>8D~$bmXZ8ROCRqmM=xfvGU3k{5$GW6;-Li;?$vvRBip&me+7wO0MA)76ble
z2A2X3jj7ObIdYUzWKv;*k(Z{Gh@`@lI@C5{icuU&s}V_qnM)Q=M^48emRFtDB9aa(
zIh-y)m>x5j(*}eYF-u9>gfKH^C|rl_mfjj`Vf07SNTPHhCQ}Dbpk|6%?v^c;t*MVN
b(&}eLkoP~&uFIh}{b*YG7t678I^F*R-BC>I

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/chunk_o.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/chunk_o.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2275a630c0438d022d76ffe19715434483313e3f
GIT binary patch
literal 8069
zcmb_BZEPFIm9x8Ca!D>f^<jNjAJ&H@%C;0+f}Ib?wWRnfafC{CY*!bTrMN4K62G)u
z$(FJ_&_D{4t`DNn9!wPhOy>ebKD($=1gHuWXzpKu`{M<DmAZ9t4$ej4e@x|GuXjN1
z-t1~+N~Nl}m$CVF-kUe?&CGlA=FR9|Z8i&n5;A-*`1>-1{sSX=saUV94NwT(LLB0V
z5E{l`GDL*QVKPh&Qv~8D&JZ$$>0w%}(;;KnG;C7q#t;)W51Yf5VN2LLY$Xthc+0(Y
zv4Vj!aZG@WP@I`F1;}BRw*t+=SurhuIQBzg*akhQ@!k56o_{&p`-ro{&+!3ykI?8U
zZ~b!~y~eX|pgA;0%#m}HpAH~DdASpz1j6*oZBQe48`K)1MsiN5RYQ#ey?b;C&%Y9q
z2+s8ZDUlL&-+d2O2A6sIW~~9;Y=WN$elHo2pH5H-GC?E|%%to?;(qx(QsY%e*`(Er
zAy*L~?pNw_;db%lcuR4+R_Cg=p;vE1ui1uPyA6H!HuSn}==Iys8%onh-CX1Q2Hgj?
zeuvA<Nc+d_<M!}qyuHK<G;Kp~-iF??4ZU?6Ix%ZPh}+9oa9XVm`1Y3=ht}H8@8UeA
zCBa-f-lvDFW(Yq?6nVrI<k|le3mou}3MqyZqbLN$XyhsOV-KNJ!~{O(6L_zGY$`J0
z4Mw=2pN~TW#b1qiD8+vAY_Ip!8w1{xXD)gB&MQv;81J9(#>b!!=MD2=#TkryBhx`H
z=<|+6V=-QMdK^SQO=8f90rthG1^^yPu){}iU;+cczrLBEieSGYgk5~i3E&ozAOyhP
zfDkZ6oI@URKp_Hm(Op6@_=G?_j(ax#_h6S8j&;R?u>&GddGWy2sUxqvJaL5Y3I#{H
zVl(1cG}1L43WdAEQH~FJ`K!EtN{k9!A>Rxy#JfgAzOHC2-la`G+8LWsn4=+Ic!cvE
z6Lx`$TKL6n0Fo%n<+>Mwi=tfLy#|CA9K6Lp<&E=`AwCipAowAn9Dp_pp%UX*n+k9M
zisN-kqFhT(lAC&#-;kS*3spb@8`AHbJK;U0n9rQ^Ug#Y<dtzXHRiEOuQ<oMSy6-Lc
zU4WW7G8Oh-@d>fGV!_q8=nH^-4GM8uA>LAm3&3|C_)Pw2WHcCvE7Sx(qY&r816*9x
z8;OeEc#QW4eWBniFW^w3kf#GeGggK}hR})u4unDj26({)JOw|VrC!WXQEiLh2)KpB
z4ZDwHt8XbBp$DcN_%?#^4t$g@FHw;wPn1a&l4Tb3s$V07-(87H$t`>-l_#o-Bw>%;
zQY4d9&QY^8LbK4KOC5(TytRlMgmLWXTZ-QEMYM6`*P|0wpn3<rMydMi(e>5zd~GwU
zP1H!WQq3&*Si)SSTTMGQn?N#4cKwh{?2hbv5pJnc+KqicD#xpor~=%q;`-OD((!1J
zR3ll{wq241YT$M15Bf>0>PHY;5^&6aB|ZWYfg12#ta}&MA=x%$kP^LZ8!b^%RdK%^
zJeJ+ORv6PgRvUGZUaDy2aM0RPB)jAckVU%z2lp-IzG1@>bvsJ4zksxQaU%v5$t~p#
ztmM$gpwARivp<1t8j5=2kiDgVh0PK>N=jC3WjGS*<&s^sQG?{bU!d3}$0*6s_aNHf
zl4#sPDj~6w8G3BU1sUtobm>5GNOs^cZb;p;gH#Hn+Mu6J9i=X>OmeP|(jhrFjk2jo
zUa4r<$QkdO^mR)#@4&rh6L-rF+)bOfTcu*pz~|+bA~j2``bcK+o~o1Ti!_w((Xy#W
z{mnlckmM4sNQTWjNtI_Pl2*zO3}7!pvcPZM`cSiv5*)K(oxMd8O0DKzjwxErHkdI^
zf7Bwi>0SvJBJ^F71E0c;*ly}fi#RuPNNpI$eb#$`_v^CM-u3!;i$+(ouD0mI!E82G
z3+Rb<sa-NpKs-x$r1mX3Rs6ZmiFYAVdA9I)W+4Z_zeGooW}G-|DN=`24;cZ@9-t(O
zty;<sB<x4*;}$JOZQ75|JsqObCQmPp|D~kTf0NYxMKdd9@qL?o{D4#^G1w+Wy-N9Q
zeW~az9T+ch8PzQ<9nfv3X;9Cn;vLnfF775E?U(9GYT92)(|FUS&MKm7S7*6yKLX7l
zk9j}<$3X(j6{$A@NH%FsoQd%sQX}GKsBdrqgMB1A72$ls4BS-U2I3*qR*zf2k`+r#
zhz0~-*c;>&Ln!Lw;I0!@=wL+bKBO4@TyR=N4)-WDq_NSsVj2Z5+(-+)NPt)DVc!Jr
z9SKF@auX8;h2o;3fD=2#=+ijpD`ULC3;1@X&~dm#@QQ^G@nJq9dc_$}r$S6B#Dqdj
zE5w-K##}^Hz*|YNZMs`QXTLAR3;4RJCe%U)t~F!Of<Y?=B{FJ-3VNq85EVnvJ2Hl=
zBN&WfTnyl9M4?7tb`%eQ95@e{H;O?oZk$l4n0FEbwFUx4Fgk+K5s(56AY=rCC@7)A
z8i2krtT?8LnvTPR25NkvqF!+nx3&(WS2*tkFGS!z78Sf83rDZ`?_h@{(X+Dzs;s(o
zdH!<lV7{XDBjMx3oy5{$zU|1*-M^^&S>0!o`B%=QxKvrPf7MZznM}`QTXL?2c1-x(
z<Xm;QQ-&w3eeP8HROanm|KgrIr{wZ|d3OH_+a<GIpOQaiK4J3gE06wyXVE8@cjeia
zR@iQt?f$gyr>8$Too8P!(8%seQO_*M=1`@+nJbgaTk>q{3fnHT?f2b3uDV;5XAkKT
zwf5YkT;85%JuB>fncaVX=*O4tUdpqF*QFI0WOHVk(`Qn|BM^HreK9kbCBOIWH2I_$
zO_4C4%uxDjwmJRxDZ^@6W!5!+B-@|cvv4ZsTX-vVE=3iLh&HC0Gi16wb1plWYg)J{
zSG3BO)<u_W?vM=~$=+21{Z$x<bX%rBeIR>KHt&`VyY+r0$t@Wd)|c*F0bcX&4~A}E
zTDX)q?^Ts94$9_E+0dEnePUtf+JUhzOJ-jF=+MWn-g)(*r8C+8XdC(yNBIwiZe5(e
z2ooW{|LtEnT2j;_yK}|fAln;OSzCt49867T$?V{QF-K(H%bi<1bm!7yd}-+J)dwvv
zFCSVKmfJr&xkix=3)swv9ImZ>iR_^qv2gfr?0YaXouhIicbLWICGu|jgNE*<k>#eP
zOUu)`P6l+&1=4|xe{t_a`@t0T#P0m7I2h2(-W2Ah)6*G$wma`=keP-Q^_a14C8nu@
z2RU26*pC?7Dq~Ka%Nzv9iKj2iObs}azD_wJ*PH8E+_PA|L@kYc!YsbGJhXh`v!1;D
zw7Qz>qiK0)?@CdtcGnO3v()!b|8Ov8$X=AoTV;Fe2Kk4*SuuNRfz8Didw$|tJaR{p
ztGe^$J+i$AMrg5NuLFa9YyMl=$y^icSMWR7n9u-T0~M?N#$=`?btQc?+np6Z9L!!>
zI4WD)7W;ofEcGmz?w(!lmiHf%E#G+V65UxUJD9gLB>Ta6RxGu$r54Y%H#M0$oaxOH
z^Cz+gGp}xM1gkOG4~Dne{y%-^+F&m<=SCk|4kY_wvs&#LI=$}$^0slon2q0_UYO4L
zKMvjr<{MsGYR*?3UapX<U>e6@8V2L_)7MUeZJKZGo!^@+yIs9dy;6NZu0D`=cP>x=
z%5YMB$Pr%0LH-y9-@xEF2Kdkr`Y}+C4T}~o<M8mJ7zJLO5+eTM#{?H};=^xk71F5d
zj_c0ruIuhw@CGcQaUgFkAHwyq6kU5}n<su`d>0Pn8;%5%FefZG+}m)giRTTch|gxV
z2qZ^E+C_Yrt3@)28xJC!LBvl#Y8i*rb8C?pJxS0L6#bj9O2%ufh@alnA{iyC-WDM^
zlwc)eva(2esmmu*)W;&?_0nXqy4D*miB7sDV*7RB=vi3v1pWLfIbJG3+<1yg*iw#^
zGv!LTM-80ueI{WS@ynj3*N#s*{Hl*%^x>LegITd~ac9y_NH8sFw`7GY0Dc~YLcsMN
z9zL0Yr~eD(>6ZWmE6|_fD|7&JAoTbbo1Rdy4e*tBtq;II8g_bUOB?h@R()mDRGLVW
z>UEG(A6?Z)J;=mx`YId(;Gq>mm=}Et(WfOZZ{rr6x5Tmb#v~N&v^NBVAU9k6{LGJb
z9)<ME7m6S2#7+N%`{1nSzmn*Yv+|a8-kODYlY3)fHt+0M>{}w1dOx8bI1WEx4r`B}
z#=o93d00rT#(eMsjduy8FG0wL!oI8O;1x%NzbblT(JQ>*jgEQ`3HUCqPD!EQRaT)P
zqw|kJN*9iaGu}`TG8CMfc*?%QRu#U3WvK~W2d?2+X=xlbgwTsY5Q8xcnlO02Y}jC1
zlBwfRv_-TQEuSz6oc{p7_?H0wCy5H>sB&M%cPlU-cu>)ioxFWz;Yv<ecu%hAxHgdN
zO-`noQof7};^&+xZGvEJP4@oQQI~dq)Sa9Cw0lYT`Qeq<2IbcV9}Jz#zji*~{Z795
zLbC7i!Pg!fJoS*N%Z@KLJ!B62@_d0pv>Ohp#*POK2X9u+)uwB4!t&5u`)Pdn_56`D
z$-Y$+n@p@aUAIj0rYs4j6lG^~ihjb_R+uW8smi+YOl`9FPX>ZM0`ZyNl@TGyfT8`x
zfA=a=u?i=g#ftx1pI83a;G~U(CdAs3r!|K#3=9mYd%{yKL}5)77k=yS)c(TZof3ng
zxOzR%JOFM39Dh}{yFx}|T6RxsT-aj-9I6Byr4**`tqb0>XU?5h%meSd?Y-DL^v!dM
zWsIK^f^jkEk1LE1{)`|_MIbWws}JW2H69cdGrXe5Mfl5!pgNCYJP+^vQ9+^A+lFE}
z8;u0kNfg{oREv5HMah069>N{~alGSRf};5Wa}@r7F%{yE3D<xQ@gBwZLIf^Q1VOCT
zAj0;0)c!lv{##V`@92b#PJCX~{;;Ye)t8~tuPnKjhL)Hl^XtmJsX;iIPyX|nq#3M9
zmL)4!2)9hQKX-Niy5jg3G({WND4HY-EFxXW%Igi+8on^1vfBTojW*-w?wVBJZ&Xm-
zlsfa9n&#A-1^5G+W6qYgWruQtT-mV{{N<Y|+rKdv;n1vY!L64F&{Wf0FyZQBcMW8~
zP+4`?Ji{{oU`OWqXD&0SEJq{@Dr>IQWaC->A<<GGze5nGh(aY|EZ3!LQel^dS0S@?
zj!m<LY7MW^+iNv^w~p6oc)iZwpy7==zDL8Gbi7%^TM*n0j;4<mS~Ywxa=PcFwDgBI
z6<?ze*}7H%LteAtrE1c+zDc3_rq!DI)sD{9%BnA19fS?GggR~t>W|m!G}K{17@OK+
z!Wg4tW{g?Zu?#1hY6@0NViD`g^uT~@7_%c+<%+XWb~fgEWM^B!fr(D!DlcH21vfHU
eufKck-DhQh{rQi7N5Lw`aj5&3*6x!H&i?~h4VA6{

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/chunk_scaled_dot_kkt.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/chunk_scaled_dot_kkt.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..66e099caccf8036fe0bcbac14a546674a1dad389
GIT binary patch
literal 6716
zcmb_geQX=Ym7m?^=W>^ylB_RVs}I{!tPjh|C643dBFP_e-58Lpvr}Ijn&Pe~N)$=$
zE^W)V1ZW^d$U6g~t_4IF1xgnMLe&DI0x7Bk?hp5$gMt3zh181O<^UH>@8JKK%KhW+
zpSw59Pb+kNJ!B-#zIikA-kUdXW_~ljVp$qN3K{+>IN(O;54ccHt`f2LuOvcih(|mT
zLf7z@3=xauHFA-<MiGdoctgmrXuM|BX=BK=Xuf795Qzk8-dPq_{qm-d5pRZ{<%i@$
zqR7|Vg8u!9x1K>OXoXlI{e}SYlh=<R6h}OL23_v}ir{TPH3LP0uEzbn5#kvI1qp>v
z$PM-(Rjgk%+-o(Ud!6v>H6XtsPR5Bi3LxJ8V`9Vc5XOp=Zc$T_uFZL8fY@-A?dIJA
zIS=~xC*JcCe#1-njW6LdFX1=6gnytuf7Z@7e{6VIGIRg;8p{*<UyFd|+xL$Jp;;r}
z3N?qmUc<M&giqWtgZJD2V(mew<?6^R_B|xH_zq~%Q>O)2UoMQY^JC*R&obdBiOS60
zLVaD&u#iiAq(;gi%_NIKITC(`W3P|U8l$2R^@)PlKNkxxc!Oa+=ociYpoH5|e<?t9
zBXDToAlk!Gy@nK65G_FQC`MdHedHyL2&|)ZLNoZpfF$9b+<$*GBrisXqQU5Z3|v7T
zxE*`*t&<CH3PYjb%usY$o{NNsZiYgOLyHk!2ziCuf<Gol#G#OHSrDb6*^qB25|xIE
z#z}r(NZ`GEMD{K$$b->k&2l>ATb$v2?}~QNhnIlFLY6=oK09(hn3L5*BYVI=f89uE
zf6OZhOCcdFiFk()ZIBg*Bx3oxHa){@M8digDBF`&)UMaJ&Zu4Qi4I_a!;OD;`K<T6
zX1#FPdu4R$+h;HJQO`K2diEa95|9A{JNB6YXBM3y9>6qqwTKs&Mvh$sQPyy5(R<4$
zMkS5Lq$K+SFi{4Ln9zue&}drp;O?Ym_D90A!GNSu3&OHSOv7Zl_=q<QZj+*dKj;eu
z?+7A}XN{Z)h_IC)k;578FXDa3k4IEaRv`3ww?j~`A-NJ0^QFzA+z@|xqP#i0qFrV4
zi#y_W#i5w*fHeJUf(^|TcPfndA2l+tfA%HCsMvYxjuD|dP*c`B4_59^a)mLEUA!-q
zd;T@rc=DUk8MnvXuh45y+~16@|C^p~Y-9~_kJ6xc?!W?yo5HN(R7`lTDqj;GRUEgn
zD>SaDu}?piUz{eMQ0VgUr1xx88Wqz5L`}S@rYG}aFI<8H&;#*RiW9|!dn=|{LNUXy
zq#G!Dmf#H!A^LENAE=R8FZK@bh7Duco_KRj>)N$b6owR9p#x-16xIO-8>Wi178$QZ
zJ=Mr<DD$dc#j4oKy~<Gxkl<6WzqO`kJ)a=(iAA3emtqDA{HXsxxMHpN%A{ClNySp+
z@FdVBe<`hs4YvXgt=MKs-dyoqTaD&=o@?VRHJ)o%+LdMiRp`4U57O|7g5|~!DlIi~
z>Oc|YV7-;DwATY9W#80DY^{2+OeyW<c4eR5fz3YNa&O&$6jq$6>0QsG<o_ee4%Nu4
z=c_|6L|KQ@@uH`SW$e3>=kQwNz;g#HW8%tV(!JWEH13n2m#Y#M&cOUP?Q7F?2ljmY
zi+9%8TL%y+ok|Ow041myubshq9;3=0E3HX=7bvbySdBQc^i^9McRZo<p|&RCx@xTA
z$|J9Sl`f^FZme|Gi<SAVYR@uN_MslRrO^>+8TDB&iLh{x2oa0)W4n*g8F1v<XCkpM
z?-Q2+Sqc6H;23#%IV$v##n!kV(3S3eZV^k?=%^S8h`vQ{kk<^Mh>r)<7SW8susm`?
zGx<bcI3Q^DMc;zpoe4$!3*M+KYDPHFBa&vGg$}r#vDnPu=Yuyj3ILPXi)9;S;7cMt
zAvNQzIYAUOqXckE&}bnfEDB-SD=+tTYs7+Pm=OT7;j>>OMn!xX(%2UuqSy^Q9Yu(T
zF;#^TZMay$5*iis%9<hQoteYr49;{atWh&yGbP|G0&S>8$V^c$)~uOkieGBRJBqt3
zXjBwuGmse|136J|0G9)r1u`!moSnrYpmo$cDq-umS0^3LX&v?OrFZrg?_ChYun-a_
zK^h*BbOq)pfu6rdAeU#2U1c-AZ727Wu1^OZ3~UnHT_=(aiSfL{lU_<KXL_=(`@Km|
zV*Iye=a-Cq<$UUV`u*&9uJgfpwc*${)4$6Msm##l<S#5gvurbOeetz6IiK1vw9Opf
zWkytH<nys#O#EzOn|Y^TM0Qt_dQKzOp-cT%)}uD`Y%_;<nO>FY-Ee=_yxzRcoG42y
z)@PU0hTd(aZ<py;nf{Hb&pufHV4HcPB&}dUtTWx6x{xBCdYUq>)i*Qa+0Ogtv%dQm
zlb4fJo@Uczs`vX-Yu{P@PG%|FwcU7Fr4Pe!p@K*qO^koZI(FGZDtjnzVUkjMGIc9u
z&v;Zzdu9pX_+<7>Ze-KFelmA#i`<ND@p}|$Hzm$JHzB)o<!b6``bzH14m+GU_a)7&
z^rm{#V;M4i@+T)gJ@w$!4n3F{|H9D#+OMu&%}i#=?|t+eM^BRa!tUI)cc}J`Jj13v
zX>qj~tRBs|!Nu+Us;hsKP@TgnGn{AbX(D+p&pOhbsVnKp<i$LU_C)G~w3L}zz5RsY
zaFshbk!Rd{tl2?>d!5MPS_z~AX@Bm>j(r$h;Bcp}{9rUAXU?yBRZwrpTWt5lm7A%X
zX?`uR8p!y66uckYZtC6W`mA@ocXQ<7z_#P0YB`yr3I~w$@K>$K!d6Vq62)M6V9WVc
zZg_Ka^YyLHt%gU`qnTe?w*KMq)Z?>HE??cYf1nSuWJ%ACeF!Y^H2w2ZrYC)C^>ns7
z%l~vV8+g#KdIpo0yxsNv@r>nr@2mFCB=yv0|Hq|tPx4mkbf!DQ|9CVLxZkhZj^svu
zy0qDoyS09Lt6M$xj!M4^?k%}}BtvB;x9JX@vrD(BbX(qHO<qn9!yHMe>zNsq;ZzHk
z9nQ{VkLJcUUF+vIM{{p)dA7uVX?`@k#Xcq<k3G8mWb!IZvCWhihbcCiKbg2Y0YbXh
zj;tQZcz)D!zh$>&Ky4Y=b`Ngd{Egw9eq|Ez6;3>fGraYPZ{bYeeCW~=g{zCkL}GF@
zCVTb$R5OW!923L-5^{qc2;oZ_-c9%3fKv<KRp&8xU-}SE+_))jj$7hZg{;@2c*Bj;
ziXm=OsJo1eW$H<xs>mx$@MN4(s6>;D&jCHn*IHBJ0nVzRwJ<H?0qRL%%I8a*mGMne
zPxJLoOcTfeyanT_hcb;DR0W0E<?;g-U>C(yMA$`?pkPFdksPHkx;(&lifzO2u%w$n
ziXCqBM&G}|;Y8y-bUd;M{uVgAGjp$T7xC|-=|Nhr9EI!tDV@Si7r0(HQ2cX)({Oo?
zh<()>Tsu7{aBwN*WWAD$%yQD4FDh_1{(h{Vo9^c(`nikOZwywX=?Y&ZP;c~7iM8Sa
zuQbjdTa1N#a`2|WNwGz2pbRDld@%UGq=7pl%=%&>`4o5KQY0+YjG+3GP}cqJNI39P
z=hW&KmSRHKFL3Y-5s>GkvN6Fh%tgtXs;97bD@I@&Dn6_(9Ih8oM4cJYTW}IAt--2{
zH(sv_uU&8DVHCm4*QZzKmu)R}EE`)Dexn#8CAe~<7)Vq4I<ASO7sIV?w2Vz(zrpE9
zhPyE~eS-^1`h?YtNcY3D|AB;Gz)ZYw6CSv9IMip`ztfz8m8Wkv;@g<Q7@{7+>9YcC
z!f`9&RW4%SE}no)qhP84Wa0SNjKX46UKX$7N(>+R9Q(E51u9PA>@s8;F;-MqMN=4I
ziyY3dIU0FsTErGg_;Cr(cTFndnC8-4zwl0mag6v8bP;ghpF@^Fg?EvsVeRPZ(YqHD
zqlu+tSJDTE_6nV%;Y_qAM)OurV(jVg+fRni?^q6I=5t*;mVw991qvD61ry?4d(ts{
zuW6+%)s~*jkUQ44&!w$*w%@#v82i$~uGmtx^k{l1)0vsd5uaJsEnCcv<!oZ~3qyBy
zD(A{gt~X{cs)plv+J^sG7tTEg^G)3)j*Z2Hjs5ch#%L<EB8E*&6ra=@#A`4B&4u3#
z2a7M6-k2N=NjiAervhVTUbwB#jYdYIMYv1P2{AD!$w9xQS$y!uD96HrW*XO@$~0;|
zC~H=DH<M&|_7wFA6OUs}rs7i7=<2csI2tYjYTd1Ul&B+K{B$hhi<g8?iQ~tQ7w5!s
z8lE;|A>mySpD_6GO!_(G1&Sbuy(UDk|A~74h<g7WdBCxxC(*P^xK+aad)LTs8{hlN
zNEuCgl#wJ03?f~LrcXNVc6?<*9`4UZBWwD-yCXUFyOyrxh2OPyC%;uNBdcSDO|fY?
zGnJmtU3m0blKr*ieGuH%gDWo)Pg}YG?*Wl_ckE#ie`1jJ$a9AUG`JDTfQHt)tr;mJ
z><~Q#@^6XrM8SzH^e4()rQp(wZe+EsFe#?s(Tfe`+D5(DRIWXs7n{q)7QNVtobDAR
zr4-uqVmkuJdpdRcPX}>vk3!_(Jr9_&$KnxldYcIn9qP(+J^9xL^G(fp?(nDV1NJNS
zZwNMTW^}VCpr01$G_RUl3r1kTm~GCL{#1XaL8T8C%$Q|CuBKflr#iXp>#Fl;!HStQ
xay1lem|~EpdF|Nhu>uxeup^W0lMnBH_}l@d|9XCv1ZPQjz5kLpcJ_e%e*xs)r_=xd

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/cumsum.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/cumsum.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6b96776084a9d8f9e135c22846d4999abe7d3e35
GIT binary patch
literal 11751
zcmds7Yit|WmA=E_b2y~<(A#l5wropuWXY1<C=bW6Wy!W2SBWJzc2qkI#TiMI_>gCY
zmZc0)InBak8muT_7p8YnlwK5w3=4>}2oMD*&;(c%F80TYp<1!C2I`>MU3h;fk+az5
z*Pc7Wp=gG(oK`4`9Y|;H^PGFn+<VS<&*i_`Y!regsQ*cTVG#NQ&S;N2pI99=Aao6}
zh$Vt(Kz$Pf1mtx=U5FeYL;3+dfmo8&2Mr<PfKf>sf~Jspz#Os+SO}y;ocUIs9j|AN
ztZ7&mCRsCU9M%m`P^%xU*2J#8Sqn?OjRM3iLM>C;)vncRDc0JBW{_Vu4F4CZ5Q<@b
zTeRA>cK}Ifp1!41OJ;TN*65)}3=JdJ_D{sTU8_;#Jh9eKOR*Kh#Jocr4eR8{(I>UK
zwKwZpr`)|xdF49gmUYUj%9jt(Z1vlEP0OY40mmb>T=O_u<|xoI0eU7CJ;Tgn1Y6sM
zF4U~Aakfq(0>ndFC*Q5pqjwq5JQ)KHp!@p2fbO@H*BQIsH>q2v{bqeD2m8b$zLk^R
z$`b5Wju_p!wyw0)ke+=KYIbY+wKuzst7I9jirv0WJuziMh}{7#8lXk<T2C#-sx5Yw
z?>}T`cfD;GsQIfM-EJ6NEob?w9be<y25nys)J+n89iiBt380Wt_QM47G~LIaqt~O8
zbz)F9ihMwfgzsY;=pp2)ah@CZ@toH`5)F@e17SAc=LBf$@Q-l*F|RNJm8>_!g=A|W
zJRTLj!%-j4-e;iu{ll0zfXJ4fe($SC`c8HC`t!yWN)gy;gh=>b#f`3kxnzktNU<nN
z^rM@)UYYVoy#jYJ$c2TQ=q4fSef+Q>U>3|bue6Gx@z(Lc_+Al8IdSjhXvee9jCF9W
z!N6ea_@p=z3AbJf21Bi(2+IY%+-1%m6(f9W&^O8PLhDe_*BTiYTK&<G5Dm4APs-+l
zL0@Q)^&R3XK?3#=t9BsMXpX&oFw=7Qjy}_JY86V5N6&+kLih0m?&~oz<5EJlgrgzv
zgpVH=JO-KQl!+6vuJa5}L#=G;>wdMnufH3#XYxnFLxEvICdar*nK%PIoovJ#j)-1i
zobv~K!N3&9W1qrf$G~sJ1RH;uI?;Wk%X_S+um6nS3I*DO<twVB6z?e()I6H^KUzcl
zW(z)UgLXR2`^4y&RiY*16mV1CMzF&6m`$?q|5?NXtD@wQNXg2QQ!uJ2sL}Y1f@LUu
z#6rO+o=wT4_53c<Sl#Bxj9Ft98_3m36`LdL@#JjU%$zZY<dhs!fXia~uuZZ_di<>l
zZ#|w>47Z~A*NVob;JAlBk%S}%tdRVdmh37g++WfU5v*RaN+w)8L`Wvc8*afG!cWY#
z0bk-z<m(Qf*?@D&h_$gwMi}EJjrOs4x{JnHZV$Ow!@N<$iyQ16Y->s$ZSTY?i{xO_
zR`N)dEHQ7=<ix5ZGv83u16%2mr=&-<RAog{HH)wrS7u&`X{@S<i>rhMWF@y$Rc=<2
zdlXyZlBXPY*Jh~b3EM$<2sDX2=3X8fK*e1103E?dD`|M)a_}kk!ALaB`uIukap2Ox
z6zhGL1A>R<F&~*4=Oe?sFXRodvOXB`vEU{nvLO%__qWUTkZ+9h4hAFO3dcoWHVr`w
zTwzqbicErQkqrX49Zoi|;^a6dQ(TY>abeLbPI_u&LXe3FUx6jr9`dpLb|@?70u*P$
zH{c#*z$?o7fOl{NCkHW6Qel}KjDU0DFd6qMBm!kPHRx4RQvy~7Q~u%cSxjcs@xbJK
zL9aR=uK;Nu?;Yd#Fc;)Ip&53QLNDlY8a>#JobGG3SzF4Nbud5Q@!sAWdv6oj9qsYT
z>7%&{ck*IlGPN`9yxtUdPaplA$?*kkpE;g5p8S6L=-l=j$1{~rW$ET+x-~<$eyID%
z{DC=3KYRCEZRUKL%GNBsZ<*eoq4$5-`O%3FPGsp9Rt(7QjFS&2WUElPo=m$ll{>Ta
zu4TF@LpRO4-mkq`o2A<|j%t1SVy3bwOM8~-<_z6D-}nBxo9D9h(|K+yW@K|D8xlPU
z;-0%Y<(%zE9Zhe)emw2F{!+X@PJV83-nBcH?b|Z;Z8_SOB$K{bQ{tsmLz=kWn4!0)
zkE9RGRo*6V4}M^tdvl?0q5G2qtE8@if`J-Qh4WA7nIIpS3q8|>s=6E2Ie&&}yM5&L
zfraf0m7kEG41Q`}c=Jx*o$kf{vswGOI9V9ycj)s4Mb9)Q8j}rac8PjwnQF;UE%W^Q
zQ#Yrw)N|8E??SaF;Yl7%`IaaKe^NV0nHfq9CHqqsm+af)WUj&$XCYTP`&!2SBzzJ3
zP8f>bc=g1U6Y>6J!?oSByHoC;)m^V!uG^cb+naT@EQr6=cky^#Jw90Eu{Gndf#RKb
zK`IbYS;h*MQ^-rW7S8KP;q4(6bHL*RK99{60JVOPac#%RM8Ar=ut8P87vBvjzYU1?
z6j0Zb;LEO|A}fcDOUd)yQP&3iNX_cSDikbMk;iBFjqw@w+SbRwXZF7+J}Z*8X(-12
z5QZq{L3NS~dm>F^<-E<N;Lp6AO`BO|%q>+)?gBn@<nfvIR`D6MDq1ULuo+88<|4mN
z@t&ggWe|f@1@SiYH#!y#>G0-I^SDIKkJZB|LJt@&?`vb#;if;6<M~pK63s`7c$UK}
z7&$126ELiTTNTWqpiCvD2c)T!Oe~BV@TfVDY%K~3)k$W_GNfaT1sqzlfiz-MrPYSR
z8^|k~UD<gVRXn}<v)cq|wMBC)w;yX*(|ln?Zm=86;7)BH$LfmYltY%)QXOlVrwZ$|
zzNmc}Y$?@B_2ot*)s{n@qh+GQ+Q^jo6(dn=DH0u4{lm(O`2=87or+Vj^MEvdsRg?r
zbqtUx<qHNQ6JBv>f4j$~;8VT{H}YVz2a~6O$VMOU3l9V0oEYJFj&H^ldvOKHMnrxe
z&bDFF4#cyC-;dJ=Fu^#K{~jhK=o5QB)f;x<6b?l^j6((fX<XKU$upQdi^+4CJdepi
zATk;824phi75Eo$*&$3`#N;p#0f#%v<58t_eNcLd^8>)vKxr?q!LD8~gZ2TGwxjCW
zYZqoOq}#GpyME5U7rPO=eLCCN@e9{4w|>0!lZ)ABd*Unxr2jt=Du!?vqa8`|S*pH(
z(MA#@N#P&bQf#VYR!R$V2maYP*KtG2)a<|AztE7iA4-s40F>LX*|#Au!2H>o)P8{Z
z9U142v@hcTAl#U<*^@;4SmEVJwkOUdg;d|{<wcsw*(#E*_=z0tTD6%JaO@~RTnwu>
zfhWLbS2>=uThrS!j)n}~P#Bv%=}i0}c_e-^2iX5l80MeH(uJ(HJm?-;qV_IR`!dwN
z4_zPCe^8&L4yvGgcVai_#GmGtsAed6G@QQlTm3Nw@*b0kVF;-zkz4@+jIxR6E<q@i
zQ_r8&2<KzHLjhh8WjYcSaWq#wvKo0#jPhZBK41fz3n2^|uz6d33$QlCZuPuVLZi5*
z<T($mV#b&$W)3?Z*}@z%Ndy2DVl;0yiy7U@X8>3MyqN;vJqDIfFr9>pK&|dA=o_<0
z<P}<kFq8T~_|c*PpD<h^#wdxLt`-a7$8w=Y3=9f=DA8KrMQO$zf}uz(90W$oLleVg
zLZAtVYLAw2VDoxS0$fYc5Nygj^C4Z#CTdrq5QbC07Y(5`Qlem7&`PpMdPz5LxRr-_
zSVBMY7<<+844(Nn+txlZ6N(BVGsrPMW;`;%@l0fhX}?J*4giijC3ap3G&cYX#l(9k
zh+T~MaL{5fAbKGTKP-;$cop#2r^|Xj8@MEsP%az50{cfGxDgr`C%wS{L<kfY(+TZ7
zcK&7D=M_v&W1{$(KAh^uWG&FG3`ZFR_Cm6*_l#^9_D1+&SwGANSOIJLVIQHog}QZP
z6}%6++<<@Kzky7nFCED2%DLRv8fP05rZ^FAOZe^;XXCz{wJPOIO)YObklA)1yY1-(
zXJ*@TnY!mcvp&CqbOvM2?13}9!MF%{Bcdv&JMXnUzu0zs$-Ff+I=5rVy!XzT6%rX-
zP|NID+}8GP^~{#UmgMP_ZppIcLt){CY)8*@XRgBWce|EdJ2I{v>9)C3pEVy{IP%Nm
zA0J<Gb;aAJyK^*H%;b?-L;U&auDkl3=`$Jqo}Ag1Gh1>n19Mf5vgZG+ww!xw&QbGq
zmDONesYSGH`h<FbF5a<tz2cp<`nLo^SLv&^t9E7Iy4Km1@QL4{-?8Dn8(wd3D{W#%
zXa##WW>)rIVfVtCCA3wp>^<0<u=fgkbF_GLFfjbU3NOIIFeO^lQYg1*d+!~4-bxhq
zrPc<HclqQ7R$?>vE)}Qawzz$WWDRedW7eX*YgP6xrR-gcWK7Tr8|+@QvU`oU@}tl1
zUQ^NT<zIza@MnQM6#u|#!-iq?1dzWcH;OiBmuc`;PH@_XNRSC4p;JykB$y4dSBYxy
zUBDC|Cwx!D58$+3)`vK_SzFtiuS2nb8!*$;(`szx4aiM3mf3qMBx^aS1P_HnEqL?(
z9`|nq^1svQuA};zb=I2dO1rQ3q{X?e8&g?F`|ZvJV&TZghQ*3Qi{?XWn8s9UqPl^D
z3Pp?T6n_qv7A%u81^$P)>@`f_Y>D^_m?%aGLqt!-21ZFSMQg$oRP4np-oT_pE!dzH
z+oi*Y53g^SRORp-^!XM13ts~HMzc&+)z{9>o=s5LGR1wf&U+6RB%L{nd%6=W3thcv
z-Tr_?mM6jJ>{&8@@1D)MV!~F3dZg9)4#v%l9L`6XsQ=Luh8G{u$gt}X#tE!c!9LZ{
zV4v#Ou}|RB5#AN6zX1D$Et7Dzyk$~viPx!97W)_+o%m<Of+ZTo%eLfU$#pm=chLU`
z;f;0b6$wyp_^E-_tzFB&PA0F^t<%SZZ2?OZFiYX*NpBHrSfqSk&F--l+?#h4*+e7}
zk`An_UMgIs^`pn;N9Fky>?l~Oa{LN7hXvGA4&i|==${sXk#7+mTkqO^%hcf>{JQ`~
zggg8Q&nR$$5u(GxoFEDSNuXSW`)+0^!iRh!6AB3M@{c^nz`Z|498A+xg@-xF;EQz(
zPz5OXm8XR{GZGM(kZ+Pvev{x6IYu1eAOo@l25=6?jQa$EW1)z_{q`!rRul8X&SvIB
zGjpbyX=!P>z`!|KZKcBB7moRY0>@1F1V*`z9|~}63-d~l^Fb*f=D^S-GZ~5UsyJ<G
z+6?gUIYAi?cNuQ;MHqxSZ7dZ;f?zDQ1s~`I(dQov0t^o-$Nj12Uk(Q+nL*5h!5E!s
zV_=>_bbLI*V@AqI*M1ejz|SujxS_ffU^(_aUhhgkd#d&a;k7=BQu0HX>TLlY0nB|Q
z5)HB#88#J$)#YIVL(Cg%2LV+RZ!qxXa4S`1&?*AT<|hII=P@a!S2n|s9>Rez{G>sT
zQ>yLt;qhQICsVKbf>ExU=OaAycqAH>jbp$8e&&HOdfuk0w$$})N5hAp(bw=VkYF^x
zhE{@IOl|*J<Ml?krrDFe_};{giMfk6rar50yK8pL*b=s!z4y+=f1CLA#Nyd=zn;1i
zTpS22j*cylUd)VMT;zq!sJIx2t|0Of@dg1e8&ET<t^3+)v`{N{0FR5NtpMF-CK3~H
zp*58{{mzd76<Vkq-2<r5LdAasH#=r)ylti<(eYy`dGRw-?cItdIL5}OQXT1&x2c6w
z(9l6Cy`U{+i=Uo3n>hQECsNMOEcK6Q3->;CIs0yPR_OpR*w+Na25?kg0sQn9N_Cp`
zd;oN!xINj4e*@E^{;bCv6$3#*4IE*Ui0?63?y}-IWrJFY)y`vEESoy}y{CHm&&Y5x
zjPe0N4EP1v?1LZCh|w@78;>eKVv)(wfGAtw7cGJa>z!9_1$pdZWrK1ZDjUxzdmpYR
z!*E?W7>NW`H(XdA%2x#RQIAD;0TFQMYu`TgvzrgX4|t+M?hyYbl)`65LIPI$3P}*e
zY9%5Ze?atqp{D;pO}|I`KCj-rRNWMBkMoJ9IsSJ0+{m;EoTbh^UA;`WGK4GnQfB+9
zMfdl!L~o98Ojlpsc4gb|x=&~6zE96DSmLkFTu59<wa?YXFZ{-~|C93>x=%Lmdte}S
zI#>oe8amWpsZR+hZi(2rqH89)i4_`|sjJczX~m{wVU4KS3MK167V8Y1pjVtq)`cLf
zaz1f>#jRv3k;643C8U)qC0mVeQ0ZCvs~VhLC6R8|ss&`@)XN}AY4ke$!u65!`O=8o
z^$!esoAGm3UA*((>vqI@;6l?<f!BXhO!Xy4=X&C{-<Y4iSGNOKbmUxhU*Yy&QONT2
z1DgqE>-hF;dkErq@pRSv+I-bK9I({+JJq~PQ-E8|S8DkxHD9f1q(;rxYAUHy^Yxle
zwkUa3DNYz-UMZDov)6T~sy?@SPp;;PTx0WlZ{B$GOWO{@mNU`Hw;>^Y&*5G%z#A5X
z-L+!EDKm0bV}++g2m-BGa1n)^RV!AUqLI7y+EcSnrS%!t&K1lJ41m#k_579ds}(r+
z3h`~3%|$XHt;mFTUM5bJ$izjeOq?o_iHp``;vD|^m`9n(Qbm)c@{^?slch=p?;xnc
zWT{fYxYCiI>{m|6VQt&K)IsWxU&V~b)=&I#b(DZLBj8Zbr>^>wd#HagHk@pw{}20j
BQE~tP

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/fused_recurrent.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/fused_recurrent.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..58228ef8fc45641b42924fd11c04fdf230465825
GIT binary patch
literal 16544
zcmeHuTWlLwmS7cMq9{^)iF!XuFH4jt%9P}{tymAsmhD#jYNzAGLsP1fM2RA$A|+eu
z%eB&z#gN@SW2!TNsF_)q?hO#7<3)RbS&RcTkj8v0f?Z&tYGxq1;130x#UcwVz_bG_
zu-L`!xtA)wLQ3f*yI)(jPMve^``mNyJ?GTrf6(bP6g(cqFWl;WiuzBOkRIDU^6Do_
zirS=Dilsf&9sHJg=mpsw*@FCzoTgYgtMDimly{UgC8Id`oK~tJ^JbOrQmhL8O5jfo
zf2Dt?_=rxWlQQL*yb{K0*s>YfQ>~Pb)o`*ogOr+ivt>p2I^df!`6P@jFT&Rs;TwwZ
zjYasTB7AcZenk<!r3k;W2*0Wbzq$y&rU<{b2*0ifzrF~+p$NaR2*0T?f4Ylh-c@|G
zKYh~sj;557{;_>*Ge^x;N;8~!vn@sVtws24MfmMS_(wP`+fgK~lhd(QNUP8EN5WWo
zt%Rc3t|BE<soe*r+MxCxPG2}rVeYi720AcZ%i7;n-Z99iixk@nYw;-LZjpMHdC#?F
za0&ZJp2F^!CD}`Fw*UXnfh48W`;a+sz#LSp($;}5arOzTOq2yYqAI|<13vGUcyF}Q
zqMUoMIJLh|l3HZ|@f^Iu8{sB}U{A(#%2LbpP0A{p5M{GRKcqgSMTLu>@%wR6=6}4|
z8(3KEU34$@1c1v0dLAsFICXOV1lQ|vPxdaZ24;QU-W88$p?AT@avmr5fSXzl`1oFr
zYn9{uz0)37uWu3F%YKe^@{q{$oHt-!Tou)4J+6gG)-}lMps5P@^J8S4+HTtpeAxAT
zROmYY3K-O%HVVzuveVBkc{s11FNM-PKBZEl;qmc8S|h-M6Y%M=PQ}_{NN5>=He1f~
znDwW%Y4rOSoc@3-z&YJs);+}?)->L4{CFN<w1J(0i$d?Eooly*-do?HakF=M!ReZs
z;uZrS;(%}d@R3*H=Jl!OD|YN7f_3!MQNenRv~E?1#vk9j;2fVAzcoH|)p_&Q(5(w%
z>G)0O?V%f2FHDG)fR4OAacg|y$FKkRrgM1c*2tytiHo8E_&2Xz7;%nX7<qjZbLa_?
zz6H8yWPMJrFW~eqa#L=X$Gygh^sq=@5@nZei}V$dzAegzufX4JvC0o>%wjpZAwLl*
z8IoANpD^wAx;!~4rgRY^dOZ7LJ`d{P@qCNs@ri3!hej?q$HphpgTp-^zHn>EdFjH?
z=o{lVFNjrG0@trNul7y6e&a_V3+I&!HzqDz<?+n%Sblspu1*CduZ#{&H3K0%YCy<B
z`zO%1O)8LHgmZWa<~=Me87YV4lYPs4aw%W1HP{ktMy<%O2JMo!ilTz;!8X*63`mc;
z_%C<_HSo(>tt;}n2qaRYwl#Q5b<e>Ol>Y?Mj5#cUyhkee?b=~wKTK=E&R_@91+AzP
zb*#Zg5Y%~1s151Xz${I_b+|2(vpkgo`E@Kk-wBgUuTrQPnQ{KCo)g12cYrL7%pdK~
zFR8B!wV;Y`RjwkZTsNXn2h0xc;SpRDGGd%yU8H6kq7TW@gJh7yK<a2GB~9r%x=9^&
zRL7f;;*eau-m**{QV*#u*ozpy7Rja3St&=o#ta{&+RpF411UkKR?@o;Qud&p_Mt9h
zoX2|FkGheGU<0V1g@fx~%2+C8n4kenV@`@*gEbdCmNjDq91CPd6*ICdtu5e4JXJ_@
z6FiP;_%Bf-{}46tr?P4;v|2Pj)M|lsfVK97SH{x86G(MPyQQGhRq2^Nfn_VLyYIeY
zkwvO8c+y*rRMM=c^b(~tD|ix}gq?-Vc7}_(@@6WXA9d%=8D51a(eXpZcoH3B>8DD`
zoIGS)1?E(e$QoE1!Q%m=w2ol~>!jHpr6TgX>sa!K^u`97_=EH&c$iN0{9rAeK4eUG
zSWQ37n9iVjeiCJmtbkLU)f;RC<~`^XI)(L5nl)CHt<`H~Fh{3Q_K5!U7EYtnhqQ1S
zdQpb+KwFG|D67W>R{z7JQeVHjZU)c7I>1&2dC*y@#x)pS@VNKlAw6(N`M*aG&gJyr
zT<$8C>QD6toyqD?p*cK`PUn`#vINUVIxk_Q!833o9k%v+e=yA)^!8=-xxg%<UTKWq
zLxzLs3>qXdI)lC;19T>D|HG$zYEQ~ojD@9n>L6(bU&|U9Hd6B*)Q4UxG$zzHSDTj=
z$U-3qNit~QX^FHC(-f-ZhfzsZ+l8e1f9Hg%#QKEyh2VLxSW4i8B4;1U;y*n9z0aoe
zSz{|C*YoIjLAjp)ljV9WN3J%c-?ss=cGyr)4&4LuY1lt+ae5!J=g@Z8u~ZL_f;EU!
zk9yS)9gv=~$uP%(dV#LvWys{E!QPOxus0(A<)164Rm!TK;PFD`A%*%9V-O=yvVqk_
z4k8bV1($zbRQdw596$4y|Lxz#{`<dsHfW{!UdU(F^Vkm(HH*A&hIcJE-K?na_*^W+
zD}18T?F}3s5LGVT<(=U~<r>HP{9?&8WC-;4iOLjP;a}ndqTIi{z=QWfiAq027dYNd
z>g7D#0z?y>fmQ2}NH2->yhyKz^o*#O<N_{{_VL&gfxt$9$Idp7&jubZDX3=3<>7c7
z0O7IL^ElGRH(=0+K@$cH2H3OXTQF$Fpbdj|431!ceM-Iq1Mn6o-ikr4i^z8YPn5fz
z^BAm%3b)fci%~B|XIC%^^dyX3&SBv4ctp7mXZJyN`J!_P10WZHR4qEm(13tZ0w8>!
zsKV0#nNn}aM`&CxuH5Ym;LNi}F%8vC;_4=G?UT3~08nyrzvfA&k7N$`hoI-o_kBpv
zMeNQC06AwMSi(9XWE5~Y`DG91oW9RG=Q-ZXd3X-m#Z%?4hACgCzWxbKRaS4_-MAZb
z#4YXb^B)AC1fN}xcbxd0>63<!8-BkOKQ$g=L+167grOoT+t5TuV|`oWp$cGV$|HSI
z<HiX=Q@1|yqQvlpw*1k>@WsgGm|3W3i)-6=wVi^t^Qq~#)gM;JwS6yh(ql_PMQ2=V
z-PPIzt?lWJ-~QyopTxDtlS-=G7?LN|l->}MC$#!VYj`|N@0lxcQ_+!F^VY?fYwJqr
zCZv|@Bh6thB;PAhhlYN(vZpTJ)950yaOYp&*nD&2&FE6B1x6)k+Hr4-B<yL*LjK70
z@cpPc9E{OId9$Etj*SSK4qWK4v>V|E(YElzShG;xDrj0`Q-a2dg;A9-TB7DCzf~O@
z-D=t%5~_OyW6v|WVC)a8_8?6jo!nAyG{pu4V@F8!d6^LprWGXI8TLePK`+AcJ-s0^
z5^dSI6b)>=4&pL*3i{6NenD>!DWKO8d1Pv%G&-`OkM#-q_HBirw>^XYI|Pm68T9|e
z`pBNn5OIXxSRYGd5c98wB7w-ours<6V}COgo7s9O=<MrbUud+CI>Vij;ixQf^8LOK
zPCq&QnZ}OCQvIT=`GvmeB`C_w#>`G5uD$U@yz=C3<r$&!%<qOjx%Ba+c;$spX`ym_
zL%vs86_M{5OfO9pn;jb+JGI^0Q#%7=f_+S=9sATQ)LxC7eza@4CYY|htf<_)v~lT`
zTxK>URg}5ws}eZ?xxxs5(ixKms-iL_s+eO-3o@wg1Tln06MA!mjb7iFjTtvQg1#ko
z^Ebxr(e0`yZ$BFn+K&nPW6$N!NB^n$`Nfa5f_^llNT|zx$v?Uuz8?w1jy$73)A#M_
zakhV${KvV!pNs2<1ocoz{)N6Gay?2v`e{i1vfS`!COi|FimA3;pOqioE$<h~`~PA1
zA20v?<#_pPKSYMl%UTj9%iqZ!mu!{1FZ)3CL>2RI-+ZzfXB^K)1?FVD`jlWg6&m?=
znaYik3*q^Y{Byl!U-Hq`_iUTJ8@=zhe9-lzD{kt6s<isQ?vME2I~jgGJo1IvvUvj5
z)WCb^cFnDVx%K_w4=z8s95?rZfJw%{-wZ_q(Tf|wxVc@>wueUch!|JGE0L+_$gk<x
zK&)izs!-Xv-5l531hp+Be^FNV(o(hg#>N}b+uKK;)1O&R?^@0YmUF+G{ABLqxwvIK
zJobf@;XUWBr9-fEJeB=c^Pwhg=?{&;M1@wuI#|<y_<!Yyu#ppC6rGB-{f3TpY{6uA
z3F<DGDwv<?@O0#6wEu6GVr|j;TW6u7ZDYK=8|Fr>d87`jBj(7|=JdvN^ycF?x8B@s
za0m^KcxB)7%70d$|4Kz^o4%Wtc4IB=###y>t)=Fuf2(Ha$e>U?D3}MogNjO>u88<I
zS2k9n?Bltux!uNop|L++HSqlSKdXnaOqO6pFNd|T`{fgSWGGBThf~tT3%v#JqJ6N7
zj_hd-u)d8OW8n$tpt?NLA~f`D(a#)$>6oBC_H)%&Gc;wWBe81!92^t;AO^2ta2^AE
zZ1JN2L>-PIL%=x|E*8yh@1n;w1!qkrhMaF0RKbS|=hD2>)93Z^V6k}j4<%8>bAe^v
zJCz+t!ckBX>HV(&H>nv4(R0Ace|}9PSs{Mv1Iz~fZ&YuCZ57l8b;0tWK4>VCn|y)`
z8j*TkhO}N?0JlsYq?RmlR!-tYrU16p$TNqnro0E~rThW>g@inZlrTso*i1yMB52Mk
z1#znU2kg{zO!SbP29%D11}lRWWMSnv{^~EeOtDJo!|l&#Ru!yb<-uwhe7-7lSpZpP
zipcucAmzWJf;Fgwmm^iM*2_Q*VE^VnNQaEjZv#@z6^I>yUA`~bU@hcG$Br_!u<5x7
z)}h)%a@3>JbroCsHW<~xhG3)jI4Ui8?SROFuYlA8TLj581{=KQ!ucdAO06Laszj!g
zConA!HU+RPOCHojJ`8rbDOQ81_h_~Z(Eznb22h9O0LzgApdQr#1X%$zqFR6^qy`8*
z09b)E04+!f5LyCQg>(R`krrSLDhF7Li~#G99$-B(0Bk^JfQ_gEU=ykX$e?<F&8Puj
z3u*+|iWG(91nZ_i^atw^lxag{0NYUsz$0u2z)n;R(2A<wqyLHq|Fvc=9dVH)0a1#~
zeAb{ER68w$kEPucU;b}+cpKzPxkcE|SgV`3!VEGF#_ea|YZv2RUR?C?VCFKbT;NN*
zTKOIfunT3Ck#Z?ebQ2rK*>TnU2nM-64B6tozXt=-+4ozB8-u--F|ibXQ@rou7yY6J
zqwpbaX8)t6RSVA3tZR`I<?xM_$4<Ve_i_&c&PCsSj(7T|oqeKw!42-s6zg7rs<``3
zZecO7nsVAysjqdS0zQ;35K~_)@h>fN+!|+P4&KlCY24Qt4Dv)Vi+RL_BhDQ0<1#KB
z@#u)Fmv-hv*#vxVoVd;Va7ix)SlD7&_R-La*|`p%sF;DzlYRzL4s(oBj!)aSaeVk7
z)c0HX^Z!Rsj&&+oPg%Mm*Rg@JQ(=v|9?xve#3r}qg$nCCKUyDJUkWvcu1DxZspe5t
zxGG`{*RBsIbX7aLrZD~f&F$KM?R>T*w4YobdZ{z->RJU|Yiua4JMvWibZpl)EZByB
z?}*zjfZx<P9+IsOL#{_}h2M%Aqr-7s)BBYl)IF)&zWz)WZ|=v*i85Wp`12Dx3dc@`
zBd&0SP9%(`^~(u^aeaJGZ4S|o%ED!l;T?5z)cCk+tLhKx=JlZ$CAEpl)^HgZ+MDwm
z^RedGjcw!h(6hU{$1VxSE=A_!mE)nZy~gg{#y+93@0lascx*>emuTwRZE^@rj%UsB
zrhy$r{a#7+P6?B6z|n8tQP&Ff_C#szZfTQH+7xsAp|maG7~XY^3y$$mo8ykFpSpJH
z?Si^?PvXWMS5gImzo#va$Rb1FzKrdZ)vb@dRP;Vm2#RBWq!^{@g{CYihxh03R>B)h
zuQF}21Y>H9m10aom79`f7}H{&4rAq%wkD~^n1Rw(C5;#}Q5B6zGsY^YI$P3$u}Z4p
zXtD}p)s(&>S%a}!TuU9s>M_=Uu||wFVT{38GsapdZF#a4V{Mq%j<F*c>%dqiPPJmJ
z3uE0Fvr)|_lRX%-Q!S^Hy%;-6)!UN}jP+rxAF$*ARonQuW~(OV`e6FW^dD+$$zwRf
zaa{Za#!ljHpTgK_%3w*J!Pr^KT%SCLu|XK<SFZt<9HuGI#?o+Ur1=-x^`S(WHZ&g^
z+)>n|ZZv>yrynWG_==&i)x=SEXqLJo<K)tXpi+v}vocOGSHPxV<wf|4B79{LzN!en
zgj2EVB59>u30x&q6ue59x_DJqq+}{pdtj=LE19ll%im4gJ9kRql8-^G9K)AqZb)}$
z#+JQP0k_XP@qISSsch2+8#?%SdiC!CWM5bSa~AXS9?6h^<MyCb`GKj515=d;rm7&s
zt45_rgUXQhDgDvDNlpwKFrmSOD<{XaY{IJjK0<;+8gI;^X3FOcxM!Aq%YLg~lurd7
ze4kp$LBszPDkfKO@{W<zsZlcR<Kg&a*BT4Yy?sCZf8knO03b@nP_=^)pLyg7dw$_P
z2r*hVn>L!_MsVz_615!(raw{DoM`ODNZXmOYjm}maCwLhok=!Q24kc<^e=YQ4P+UA
zsJt~XF)?P<h-#<P>ssKPPEq4@!qqPv!E=gQr*mo9<=Ics;_Ex^sRa%$iLs&*;<i(>
zqUsi0PxA4ilEir-_UQ9@M9o#7cP5p<|2d2%b#V);W$Mb-LyTeYKjF{61K?dMp)@8d
zsCH|@-Up{cqW?sqv*)Y2MrGq(nc>md@Y$piaERAvjf5(}lv<)nF{P2HGE8Y<SH`kS
z>M&J~H#<GX3{-W)CfYzrBc@DLV@uMEu?oskyIau)LBv=<sOU~wFtd`XZ+?7s>+E)$
zP-jn8VOBNO*!uYGt+%&F1=vYzFsqhoIr2x`)mL&#W%^16SjwBlL(Fk7(<}1`*(#Cx
z9Xq%!kSqV$zso0^KLL`e&$x!H{Gj}QOR<W7mA)|aGa4z^&4pc9R!Lj})f!l%L8VuV
zlyE_26ea^ZXeH8)05vGqtFv6aLe3|c)VMCmp$sYl*uo{xT$zMr-f$fTTspW^qJV27
zSt~zh)r0Gdv`9x*eW~j%RHMP`Y6vbeo+cQkmY7bWgZ7lBSu-glb(!PcoS*ScGsL`Q
z?!7f^V{X})OE%`p-Fx<QHS-5nGtaGli#k>gtYgLHSuWU<+cxHQc2{t}FWw%)4u@-T
z(c=bJ!#&O1yL21ekV{!zo;k2NNM*Sx*Q(!IVDLHZ;ZF|-R)sSZ8h%bK<kJh&`T8P0
z#ay1Z;5*RWyvewUzs@kzt|^!>2KG7zJ})shxWEJ#U|fL!eDi^#jDHF~1^F{GgT*mE
zO?)r-;<N(S2w5BB4lwuK9uLEE)2?MtfC>1Rdk&_T!QYiSuUPNdnbB0rY3AO9&&y?r
zEhl=E)!}R{%J2DjD&oYDtBcw4oB&ON`MW}<kc{cx#61QgQp?~ea^L`Y;o4~KSjJ%B
zkmB<6fTuMRn9a{^gC5^Y<?s^;O}YY8vy30^S2Fj8vj&0%bHFIS5fnSk;B7f~eY`OX
z`#1+P;e)Y(+)0DPTiPG1+uK7bA~{?u9J9bJ`1sY_A!T}Ti(k%`b>`Ntq+ppdAx}9*
zmKT;iaI!!XlHiz>fO1rCqT6xz9)nFMBJC9y?{-akI7yZP-UajPow21CHkJ~c^nSM=
zD;Q`ENF3|kn8)Rx9ZGB6(6#Z*n7(oG_gkw8xvPq0wcuJL&E%;9PQtD4D`9VzsI%0h
zz}??(*@KDYg-MuB*zTme!_XqWJ4~d-xv(Pbt0luO^B^f$LQ_5#5W9xR4AvtAM6)(n
zpEPv^H`v#g1EA|UQ?$Rq=5K3RKKOw(j^QxwAuDaauNNM;78X66|8z#F2L}fk_X3X4
zz`(&YN$Wv=g5B%2PwyMu&>n1XV>x-JdEWxVxxH}DU8<1hTs--H{mqPUBi;@<?fD--
zrJ{$$3(_^VrnUorN>Rx^AuWS+9z2xvDJE?{%sFPj#`GN>IBCNOz+;X+0&>bNLB7;Z
z2P0v<o#}dD3uCzzxaEGXV``aoby#zX%|o#<I}V<ci{AT3?qOBfn8kC@2M7tB>v7~(
zxKg+uSZNOI$PDR-$2a45&n)=dY*tUCv3#R~+?L64mo0>%<?K=$xfRSF{bt{#Svauo
zJ{vO|fU+rNNU2Kt#}ip!%{$Yg$D7xZjhVMGD>i1v#^Ao^Zf!ZI*}2)Hnbb_DTMKTL
zWM}f*$aa)_#9+$<erLi>;V36;Sd$!tKS5iVdzt+l4mm%=gMPYsj!pL$Yi53bVZg8%
zcBXz7!aO()rS_Lm=K~wlG06lNyWP(8;23KsP*zNKSZz#aeofZ=A-R}T$H}HXklxu~
zP&qv%$;a@P!UuXe7{{W|4_}brP+(ke<Vi!#8AWEK(ElYn4tK)&0X|OWTSwE&?C7cE
zHs-iv0IxU4slK}~`}hLQxzqylfcul_F%}J6{c!PE3Gn;>nIe!AF#YqHbD5E)2b}6<
z=04C`?=3i^vXr8bLh!DX<uL2=GHchF`?H)E&SiX}WDDPZ&BM9;VD-V-4gzHI5A2i{
zf{KAX$T48xfxUz)vGeobE#RmyJbRz4Ri^CAg=K#L>tkvLSKzLaJr#LZ@r#gA)ZE5a
z_645z@q8FFO2PQ^J3Vf=go6DrQHf3JRcrYV<m+Qs4$C+5q+I>|HJ(}B`3D34D=66n
z{-6I-Kp;2_aSpX<r=%g){6WW)j_u|rUC-!W_r5HzPL!W}?)qfr<C)*PKAwC2c9Nnm
z(-&!Y=`PW)<Z`_xNy$q!;03F7>p=+LZkBA6Ks2;08W0SvVdWlNELi&a>W;c^r?xMy
z?hCCZO3K#JOYn;yh9AN`mCCKvxZWC4ytH)hS{#DKkx-Xr{nsYcx`f)2P}e2Yri8kN
zAWg4obd{=iCLn74QwVEob=hG-{#_Um+%KD$NW~Q_shKe1AC%csKWB3;2izV%xkr}z
z)*$mOrf!01W;rlR{19P)OH*_106zegiKW<r3&28!-<bi;{~Uu~VDL)}{t^I$B9_4x
zNX2&4F8H|`Tux&}wG>z*(@&(H7l(kKtffL7gZ$q@JuoGdKLR1Jq@1SdSCt^=|3Y>C
zXUYsw2bp=ja+fv<wCVGP^DivtU$oqMQGe~LQl(P$N?sz9L0CbiU9bF$+IMQB{@6%#
z?lan&lwFt6$00hP*8IhTcOE3`2w5+Y4TNmOBzgxWn+VBBWHTXKsM4}W+ORg+O2{@T
zwVjYhB(j5$ol<5iA-g29n~*lDk->3`WDg<jR8#X~&z2|IOUR>CP2FSdmNw}iWS>O#
z6LNs6t|c*(V}v|T)z&|*->OfZAmmA^s%F!(;Ypq%<Y}p)GlV=#8BC8*7$wgUa*%3h
zdVF>3YVtKgo~Nb4Lo{JP+*zl8bTxeSk0XQuAr)EID<c-MiDY=7pqkqgUG_weBhd>1
zF6&n{mub2-QKBVclw)FVpHN}~W>2jnX(fcj%Y~4ogw#+FU$TX5$udG}A&8XJ5wx7D
zsM$QbaW<(Zqya+fNh3i`l(BNxzz7Bgu2LB~l4ioK*pDp5SfQ#bX(7Bys<sJ>3NA`P
zEWV2HAcEAAB%KD`P?d#_;eb}ug0t<EwF}B4uj+8VukXkhx-t6W$A7l<XS)ppLc_q<
z6flz4Xy{17T$N}!l3?0$B{7pN2~4CVfr%_h5HcePLS`gE$dn`qnvnz{Q<5O)HzYy0
Zd6FQ!JV_8<N)iMuEQzn{a3Tq&{U2K?Q;Prq

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/index.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/index.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..15a2ae10150ba8f13d41fc1cfab21d2408bba367
GIT binary patch
literal 1941
zcmbVNOKclO7@pae-)-D>TeqYkRq4Sr$tvYg(n2Ld1OlaXOQDq#f#vQ_oZYM+nO(O@
z<w!wrXap$fDMlO!QYC_Ni3Eq-=%o@8msmz}w5K9eq1@a!7r4MbYp-pY79@UY9{>E0
z{U6`V{v3$}5s)c-raux8`i(Ij`I?*h9&A>ThBR!V3AS=3&TtbPMjEdPCZ7=|1dNEF
zi3Az0KhH&D)ud;iPYIguQ(>d2JR$vy2S4#W*NdbDI=uM*x0hgtm%u!Zhjv+HSK`=_
zY^vM2>@Ef#*sx8qR*ojslsZkEpjt>;WY&Z;N20_o(5%W7J%X|#9!5O|(<&-L88vi*
ztx(7l=q?oOI*RjGC{x`13+Oxe2$g`dn4kVX6N;V5D|tOXXs2kJ*n@M0^CPd$oF|H@
z-%|4P_H-_*+&0aOlF4brOp-aG7VI2V%+x%gmNI3glw96Y^sGkahVt`HI8RAFMM;tc
zO~de!DEr!Rm=@9Fki3#wxpnVS>D@JJohv2Ep|jh<**XXjBs*Qm&Ll1UE>Ssl(j-5u
zZjv8C$g9Y16~O4!YAV~JXJ)W0yT}fB2Sv2e^i#weO+QA+leSk6L1So{Q@J!!xet#a
zw7_*l!E)@PBIkL(&wYMe0IP-8$pYVDd!Wk@*dlMRigl5OJ&(rWE)lS8sm8IU7x^@&
zajm@Me_FKjzYfu1H^MtER9G=wyu?F}2%T1^9bQe@l(oPSR87C_b`^k|Gj+>$q!dkM
z)5H-iJEhJz9GP__wUDt28HclTalu6!Wr;dC>-YdDx=JjIA+jHcvZ6b(hnfZkno9Hq
zkR63#t-!R1_WkJKk!5{J-<QzQ-qp$blMi~=jmoK!tqT?Tt*U&vEMNXbPSiy{5d2k6
ztl)hfMGh^GFO8R?UnF+q#8W1z^Ws5i@$LOE3P+bOE?q47z7BpFTpRu>QjHCiV*~5g
zDlujAR5|v_=FRP6uW!v(LT^+<W987;!--1h>b7w8kG&B1u^7~T>>YjC|7^IfgZRJT
zT0}+*u%O-~4X0b}w!Nnk8SEl-k==r9yP<7Br(2*iB3*{S0zjHqpz%hyjb|4m?xQ`h
zPzFOMm?d|TjYr9a06oM+4D%E&0*Z6({#wk#b2^%vnzD#((LPW)4a0g9Cby%|gps9@
zoxtI0psyV0Tf-%*5;*<f#<!E-O#aZjWmJaW`RPLC%#CgT%{tG8rQfCS$5Z#-`^2b;
zoEW7nv3Sr8*om@-YN+v`CJVN1S`E~SjXkTh6CBTF)9<^FYy-!<p0!<|xv^39k8zzg
zfa!k?-o1iJE>RXWtC#gXOf?>3Tt9+v<OzD|33{<6A?`qp!+4<dLG|Qd`Q%^?0ke6g
zdTz9QZgh_^b>7pd`Q2RrU&A{+a<!+w+|ys<U3O@=v3V>8tD;;M<vo#|H*MLr7ITe7
X9PO}W95aQr!xA{x@F@p7H>tk?|Ac(F

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/kda.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/kda.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..00aa3f47a65f36e6f7d02788abf6bb32f9be70c8
GIT binary patch
literal 53731
zcmdtL33yvqb|(0+?>o3};3kP$D3MwyZ?dR;GhL$OrQ`)B36P?=Ne`g5da$XAs}0yr
z1a?(MP?a-=-2TRN>`c)$l_`3X`AX?;raw>5*J;9#i!h>^s5<UsoSr1GrRt>8Gu`u_
z`|yBA>OqujRXXV>@#5b5?z`)`_nvd^Ip_YLHk+BlGpc=U`0{Ua+@DcEdg}6?n;X0w
zcZmyd0o5pXO#D@isgJ2u<X4Ys#<a(@W4dEH7S@dF#|*~|W5#1fgtY<PsA<f6%*_1y
zQOlV1n3eerqqZ^oF+1}cM;&9%V@~Ebjk?C%$K1?s9`%fQk9o(+j+L>nWwd;({8%~j
zTSqI#DvwpFxFIfJdrNh!Dp<*D;kUn~8rR_0fw*cDC;bbY2{?n?i7is&ioXF@iFkL3
zcu$FVZ;AM_U~Qnh#Jh@MU7!;09xm2L@q4ICG!D)FWGw)&25Ymj?wut7PEa_peG
z3KbZv4%EG@JLZ#mPy7v>{YTq})Y9eqv2-tgwO*<W)T5Ug)m%__VwW^-#os`~%Ur;R
zzefBu;jj4(?RzTmJ-*meOey&SEkW&xeNw3S8)z*NzoJC^$`bLbO2oI7h+kbIeocw^
zwaW2>?!da2weRH{B>f(1E!lJJ=&kkm+kn50uhnz^RC>r6=v3&T74jJvI2YKcJZl4`
z)}&1((r+#iza_Xb(1rDCYl-&{ApRRgxRiW>2TR016s#Nc1|G&NX)CrQaQ+{p9i`eJ
zuAGlx#n^^Fv=-3$C~CM`&F$p^+W~FeLG_6zrM4A+-_wZxV{1#o?T*0Cm$_k;G|O4K
zW5paKUtrfR?jm<lbx}QlJ!?Sy+zO71aDm;sxaS(+Qw8?GR|%gQ>%?=?SH<7JUIC>D
zDnb4JKB-pI+SjYK-0O|_Tcza&v=Mbgg*^8Usop>Eo?85t)kkUFIfzt;q*@0aQ=Y|v
zo)Yn;R;T?X((f%1|9FY`9m?^8_P{r8pEHHkW&IsS>F`~R62{}AYCz3KsEo!%c{GMO
zLG^yG)W_56*DKKf=>5RnK<kkDpG@zU>Sb%-$Q^olLqL`PcNA+te-TC{-=O}Uv4$r~
ztUlt*Ern-^ZwcEHeRswOo(y&do+`0weKl;r9e5h6$i|XT_f4!U$ME+I{+@k9Bh9vw
zYs7N|eOMuY&0>WBHlAM>%1f^c1c{5*1kLM}SPvQij~ZGJfEPdi)~|m(@GH;Pl2}Zs
z_27jP`Sg{D?=KNw0<r@G%IUFV1?~XxoATK3x9*v8C<VE}67XJ%ViDo{&a>ps(ErsS
z+!+`Igl{eh;X49DceSpHyPt+Zw~j$~J7Ag%9LKJ=5<X1;u>YK|0P!G6O6`OKCujo0
zZ>X2Rz3%lIz<m?`+VHml@ULV0p$4V2{sZiYzwQ}O0-~`ap11?#ZXw7G2qo9!d!=|w
z!R<&1cpfbgPiyv_;T5Yju(UBiUl&>sDcOSmnza1*ax^GfFo70qm0`j!{-bTlvJ^E|
z$&+Z!1Euz_U={W+?M2;1y$r|I2CMTpt}bvYkK^i<v8q6;paqVr6ZCh$arF^hL>qW4
z&?3jPO3>C`<<&mGmx#Y#w0J3+*cu4kK39)DnBQGqDoN9onss4dG?OJ}n1ngiqP4Z)
z2`O^IuzH-vh(2@<IIpTeL7V~hfe^5VypLfLd4FM5&4;xSHX>)ZwyDnv0qkj0XVu}+
ztUk;ShbP7n(hdZMPiGzD!Lwoi$%!*T-aj$u@BEzDB5kT{?ZENL@e%(}UpN@>2ZE#F
zK0iM>8uSmI3HXoWy<2=gIx)~U>K~XK3r&t8cFo{q2<iFYz$DKH$HU6sj|BPg;3$%p
zo#cZj`}m+=%xri(Fgy?p;e~m$b9{myqtZ}QP4Mi=tY&m#h~9)IMo$O*Xa!}U9}fBZ
z#sY1c&#^~wpKm8;3Qn8$b0V}p*OFr-$H`)O5Dy#=yp7{4$Z^5Rs!nB9BU#nytZFE$
z?GJ|gvbqpj70lX($A`niXkRFdZpeCu$4`#-4WJK(#|x3>fk}TTcxp5_9?H5xp)oP7
zKi`zBXMA$Z-#0K2JW2f+o*1EY73d`YsS$s^k;CJDu}89cJ{X?l#|Nyamh^!2$Pu}F
z^Eli~V6qCT6Vf}`?^{4OmEr>`Vk1tgeoz0b4x6_%VvE=#j)=2FYQ}VoxCG;rTCk4W
z!g)fQ;{>CGCI>X<!K#k9!^ls31c&r4Otoc??5$IJ8_-ImS;QOhgiTUf!6A60H?ml#
z;FV${<&iR>ET9=##c?6S0WP4Eh|6!Q0{TcrKohA9TcrF>$onrJDHK=%kt)H!YXp6y
zdfX>)CmhmO#b3cDxKJmjpg%!iv*dZ-@Ls;<k!qyyEP0J!pwL&58lifb6t#kBN*^#i
z3wVvxMe4`52&NNY^DlkGw)0-Ry<>^!iTX(0xJNmi)N4{{LYYu5xCPgFv}jNhX$aG-
zV2{v1a1&TP%mvH>_gz)MBB<b61vOlopn+=_v~V3l6<qWcT$fM{*DV;~q6Toif*Ed^
zpo5E&;8qAWxRrtxZk1q%TP?WY)(8%`wSp6Fo#266FL>cL2sLnhLM_}zp$=}7P!G3R
z&?@y4;98;g2yXCAi(rA<Dj49d2&{y=N~na}CRBV^^;;?xCsYa5gX$w(+nS!w{|g?T
z^5O}o*`jg2rstq<o3Fz+9P*7%gngmOlP4#5%xvGeVEA*IEAOhZx<L5c$skYbPn%l&
zmSq4g630`g^3~+jkW&jMtD4BFk8i+VnD<d+BRNgv(7{hu)ss~n&8l`}Rr|8)eNSdp
z2eYatv+5lO@%Lo5B7~(d5X6Er9L}#jY?aAY=3mGbD{=kFx(lDM<(8JO+v1Q%*17+P
zf5+~l-Tr;MyLUac|H$ra#S=$%`wt)VAL{IRy!SEx{vQ9q-Mu}#4`n_3d%kg~d*^Qd
zp8Y-Dhx|v5b|2lH)#LkvySk5NO|%G}>Elm^vS#vPIUNdy-sRe?SZR;<oeW}e503MC
zYOQ8$c$}yCmDPnO_<`eDb8zfr_?&-qcqE97f@l0J%(qbzz1Whh78}PHPX}miKE6~x
zv)<(Ek%$Ltk6YT;%@ntu9FRa9zk!@iayF9FLC!jIHj%R#PFCH6A?SIMf0Sajk+Yhj
zEwUcx>6nY}B4;Z(4^RT_5JoKIgV(pr^Y@Rf509N(e{%Tbx^N#q6b!FBJK6QX){(B@
z`qAP3^(W7Tk57!RKRr4+wtj2^o3uZ87CSHcZT)E9xgZ}}KRDXAe&S?k{Yap%{p7i9
z#nSB=@wCVCJ*W(IO6V<s?G%@*<;qsa4_|s}`l)$uTcYpHq02+b{>vjNZ`*~(rn;w2
zMH{1s<Eo6we6b={5qHI^r*>p)74x=+nCk5#Gu8jXKYJ?Gx^=4ix~(>GIBjcq+w-=6
z_HeqjYtEH!d?>1(+Hu|HiZ{l4Uwh__mc*%K(+}2AWX58PyI$>@*LKW%JJQ;YXjjJN
zo;r|mx~BGjX0$CBD^teGgez^Vnd<)3P@O4nj#+M$S6mvI9!WMPduLoT-LuavY~GjJ
zye~eIF5e%u+^Ao(P~VxV@0{&O*KeNJ)?^x1FEn(d8aieh(+!*EwY4`4mGcH)rekx;
z*gkKpPSv(&Ow|jfhLoux+3~TdCDXBEp<{olWB*5u>5fAm_089|r;OD%q}X)FLGeSx
z->}-_>UeiTJ-uh%QZu#dx_14nHl^MCCFj%WKQ&u&8vOnOzdHPWq30~toPm5s@|nnI
z=IrjAg?v_uvysovS*vmm@;NzcMb1S&H|MR-dC2GGYS!k;$XCwQZOB!Suaa|kb5-Q4
zrd(>sS4+M+^3{{CfqXvlHIlE1v)Xgb<ZGe0R`RVN-%9eWqPK12TTQ+-<Xg)%Zq2PD
zUpv?IU~WD6HgL7=xeoGml5Zn?xlLSk{hL*ntCD^13|<-hxN2=~GbPwUpLdaOD^>de
z@;%5oy}5_T_b}(F%{@ZCZD{BhkHVMRrQ)o%=ty+iyte8lK$ROP?Dq)R@kimCy}(~D
zaf0bWJN9-&EPX_LD4-s}q~vRh_)S1_r}RI-0s8M07=_;kF*M~?#=`<Swr}ds1M7_F
zWLOY)qJSF}>m=>R$m>pT)pvZWx#L^y9p8ee6AXe$Fb9C)0kg?tP7FT)t|(Xq8`}?!
zJ#0f`+u8Z`M~?@6{e9tq<G#@F`5^6vz|eyOv=N3UeEmV}kbGbGc#!vnkN1uH&L8%j
zIUXGMO@@ZYhkP#-G3FQAzcCu@3k7{xr@~>RINiq&_w|nk*I_>x3Lp0Y<DLwMkmKM4
zAM~B%CqN!hCha`VX}G@-JMzX)+pJ$_)o;`C-N-3xezI?LGPs-PCwR6XX3YZ=<Kf|<
z$%)BOoBgg!U>k`K8M2K$s~^G6Hxy!f1Ah?FA%fM#3qSuDqOu-^)tP?+Z${~>pTJ=&
zv(Y_os7p4!v+~NynZ_%tXH{>lzizM0*dLke`{~e!Ls$DgJTdodj#C{_?N#B&woi3a
zqj8vXoW^9%89AeEDuM;|l406_h02l$r<~1E-DhQMGiJ-hwXwCYwcp8Ob6xbu{ApW#
z#_qxLo2gx&@ziCi*JNsa8DH0}DqFe!LJxL`Z($25OjrJK)O~;mOX(rxh|r~*gkNL2
zLZXFD8*Wl{gnL)rleO}}&~RW9WY)xFnBR_6z^t^?ks->*C-#`};nBXa{y^V0{uxC6
zHvVo>=T31mn`Z5)HIH5mr`8<&3Z)yR(pky;H<72TSXLNw{<~s{$)hu?Q>~llj;30>
zze0(sGs_fpiHfqZ#w9n+Xs$dkyDQba^{bTBzf4I9SxMgHz?G`mmQ>>wR#KZb>ppVy
z@!sA3-rYy`?|K5L-s4Xk&06<$A1TCS%@lfS_x`>6j%JPI-?6{@NLIBA=;~4Y?aG?F
zcOKpUWcShikN0FPz!7^NJK`sNk{?FNJT2P%2ss4y19D`Z2zdrIAH#Qv3l|{j1i{mi
zCr~8#yt0(U5m@pBRD!KQXoAcXEF;J-QZD<7P}3z3_}yl~GN=|T0X1B&U?n0dpn{(*
zngPvw`L7}svYe<5OCF&jpnYE_)!+neV@sZJA*@8&O5}B<QgHFl%F0rzweGHKT_se?
z@=~gI)%~gWd4M(Q?&M#Pm8Vp9{ax3+T9y;72umKJTBua&XAtYoB}oxH;l4di>T}iu
z1e16`J~~2wAS+o8yJ8Yfs0^sz*Gpq9Sk7a#BQ>&bl-g|&%!8_cL4vVCm0(5KSb(ou
z+4oAVtrcn%TU&e2tu+Ep3$2xvN*uK%k5C>UsYLEOm>smX3zb5R7!Gh^46%^{CMmy2
zoh(14o~sk;*bKY9|LVsdl6`wub-6#~2Gp{0iSAtT2=#*LJmMs1VWZt3`$lQBjmwO-
zPxigiX#0c)#nJYCz0nrje3z_brS(7~lu>Ji^7qXWge%qLE?2Wg!Lw|M+WT5!6XtKZ
zQ2CMqoC*y~U>9rsxCJn+5FcqqUs;9bml_w(0D|6emCzh%LCdT{%S%m5-lOj#EwVmV
zf)3SPuYs+yoRmhZ_5Q5hkrjeHU}20|9eh^u@wGyWu!7nvs{?VpmOR3W!puP0NXvK~
za<H)+Dg}8@+{L%Dl9c*Qeb@cAQkIj_{8}lrC_%Nb@}B1x?fQk)^c>e_ml0X-=2?e?
z*}zXfjQ9c?Z110#91ryI=WuKi92jAU@!4S<o8%L)#Ch6C#GA+ZLL*?cof!@t&uT-%
zqmx-fXn1IBVmJW0hH8*CgSHyt`^Nmkfvmod?;9TqX6<8rBSC*Zj(A4=C&PSJJ37%9
zz#-B^)-VWfcw;B>1hXk9GULp_(cl=J`Gn79H8>8+>Ol1IK@@n35A!dfl(tn_)mg^)
z%&N}u1JtA;a{S~x4JWG|3-*m?wR|WXz^Tv4kjRT0qxa+FOptSuoKxf|AdFefus@vD
zO!$$(7&#~XXS14qIJ%QKmkMP~?1#vTtiIpR%G00B{~}p`AD`9r`$34(YgQ4w7Aw^6
zKSNpdXAMZ`Ki-FO`u%9^N&gV};GFcI3jzL@kavrTJ$XnZV`><;&d*M~!~-`vWfRYY
z__vYWckvhcYYfyBcWWDGv0YpjTbEF!&DB#oKQmh|w#C}w-Ep3UGiF;{6<f((ESPIj
z=9)xzQkCpToSsq5bR<vDYG(UCFwQm3MCSObopZ-O(x=UjPwl*pY*xlr#+#Fa*Uak{
z%o|eX4L^4Or22#EwE5wwou3*!*PZSKXJg9Qn6Y}}rxK0vLGbMw6NAanOz)Mmv##XW
zZ2w%-?9+3nZ)(&ob5xhpb0+KS{KYe|Gx5opC$Bj+EjYSTj;=pc|J3}UIqle)GVY9O
zJ~dQb_m(esTT|ZFjI}b+k?2dTNOmOqk}GC5&br^-I(v9#-CWaL|6JwOEy%gd95vlS
z&X$YDm@!_J*!kw3%X^X!yz}UlM;DqONi{!`uHE+0=}(MLerhSd?($qJpDs^ml8x6~
zEy+_U*Q%%<kqfS-l&cA3RO5_yCOkVZx8sB3v(H@ZyxRJaH|^>{8l#zIU!EvuysItm
zJbdNhh2{rS%@3xl9{On4C&t5+cja_tqB#+Gt2;4tdF_m5X7ERc=d`m=y*rUw^~hW(
z?b?Z)obF5dX?^^3Qa}CD%;9U!^|R>1jWOM43f~_|yE;mK64hmF_V2kbRZLeT%95VT
zHECCC%GNry=QEpQ!B(HL)hEK}wWA<?o9EOYteUNv<L81`kEU%0ruJOd>R;J+VPEvg
z_>-5uIsMJV={JST!a~EARKu2ZS=UF}PqdHy!r;1YcU~Nd4aNHs&C^54o!9KE7VK+M
z_BHSC_~C(f52Wo~G+d6mNCn=evnHqE%(m$1f8Lky#)o1rrA+n76~F76*)>yfW&Ov-
zjvF>-e9QM66Gsy(ryot(nsNqCX9WYab$xVYd}l)Y{l0`@`q0N_-|Sw3KS##yDn_U5
zzNiLZV6ojl7|$47@uxmE)F#a{gCF}gvGQWWZ#2ER`ts`Jksqv2+1p~8jL8!}_p!-`
zx8K`w>A>`XMCiMZr|ivNp*Hy;ITCNav|@Ti!b6a@P_-^qwJz;$pF90C?Vfw2?)j%^
zP25gSNsh%|(c5Rqxi_8+|2%!Oot%<+|24gRft-8HyPv+<PEN_Z|AyWM$hpV72kD#b
z<dn=iM{kdl!}69>dxS~Q{&+J3{Nx@u4sLJ<+=7`fAV%GCf_hPyq~zr9Rf2;zLc&HK
z2W$#)`bBYi8E&G?$*@S6cf=!j1oH@SGUWUZCESP;JPdF5f;QDi7|Dsk@jTj}e`J_D
zXt$-0gv;Tm-oZa4l*#I<RI2X&mdg6M41Ff2rj-N%^!akj1n>J=skNZpZJ`lajg>IJ
zvVf|{r@`nF?JnmMDV1gr+#*dRjf+Z-6FZmoA*d%W9m+G>SS{6V5eG@BW)(sOqm6H`
zU*-5FS*uEv7q~Aa1?12vpGEmbf?B$r8m^MnPO1Nl`Tnaa_8&M!a!OPQwlorKVT1{F
z#`87c83GE+mZ-h2CDs5MjY8Q=3=V`UMmd7k6@3v1N$@(M_N8hTuM%n_b*Q0EsC%h~
zU~Lg6MX7gGQeE%Ue6JU*0Yjbwv<8fM3b0P7r~1jpSBa}rFRdDs7J@5v$jg+c0GHzk
zE%{bfk`g4T^R2F1Jnunwne%iPbslIf0Y6#Y1f5^;--4e%Lk^wK@ey)fB!|&67Dhbr
zQxtK5oZlelWpchl&Oak3N=}TNSIJ=?Ht?^JpUHr{PCf-<i2qG`@mu6vB!^K!6XZKd
zPALM2kJH;}a{f6v-y?@k5BSUEe4m^jkn=m_{P*O%NlucSx8Q^t;K+#-1;0qQ)ZT$^
z>EPc-HvfV0`!;4E2$u&J6D}F8F6xP%id9@VG}T=?0Lmj{bOQ5hoZg!<)<lgU7&1n0
zLX+sbY)Ba!qSlfWkVMlo#s{WXCN(n~ubI~`m^)ME&L4OF<iQUfOq;hc$|hs9<jIt?
z$>!-7XLinpt~nlBaBNFCw*4Xh)AJvmPdg5zj0Z$wB~KdECN(KnbMnYc=o90{lC(xX
zF{(RVop|z^v86~hgpyBQ7G~~<^2@1&P;zIQkuS;wMM>&F!u*fMcgBt-%CBjC_Y=|o
zbluiyDE?$jNSyxI-a0pMb<c;RQ+q$HX(b%~)pavnMbteuoX3$Foq5MG`TCf+&cMi>
z!*NgSsrW!r^D}J=L+;qL%j(Yrhlh@bA?!Ka2a%+{f$;F@zVPtGxH!@L0NShx3<5us
z<jUHm)4+V#0-;lWEX3&b0XZJz!iNl7jKjsLrv8Ez0)mKK`b3NnHpuTw@^|dm-5jyt
zOAo$ONFj2u*jlSTz(Ei}eZdWpH>H%8L6t0>2I(|+k<I|YPj0-tD7bJ!X$Rp1!}}^}
zXN{nhQxF-wuu-6P$s3gSGhvGsS)Rt*6H&|XwY)#`i6EGuelL&hMr`Bi00+SYQ>bIP
z{03Fw0*<V7Zl+vX5d$7qp(OjSyOf9{phZm_xA(|<`Ka?4-H0<x(8V6X8TJ(X7HR)1
zjD`#S=o;CD)!Y&$acA~GU^ahR3Yf73^dr@H|5(5PG2RL(O}I+(VJzHIeuLu4d<_Ia
zF}e_zG%-O?GZWynFmX^T69=_15l}l5?{qN1PA3!TbTQ#iP&WA1!vrwBOyIMOiG!9i
zA<_yaELs_WC@G0yj@O52Yh(|dhET;oQQ_PRbQDB)A)srAfUb^ODrf~$pz8hV_wqdm
zOy0`g+Ae4yyrMmVFUf7I?cs?v_pUmt4+Kv`(44U?A)?uaSpN6nfSst~&Tl$;90DzD
zYlDy{KjsTe1ViI13(}sx!C)Vxw1Ym#9Qw9B;@h(6;EwiT4uizR$-lzR-cA)LZtvq1
zEbj44vXBO{&G8lTE@rzV$L*A(U2J?el?aI8_}y@_I#I-ux+JS(tlq3uV(yZ_55JR=
z(z=kf_D(`XW-Ko?^ESl;kK@?p-{z6k_xC9Fe<bIJ<Xj|&7FvFmoDazP5jn-aV0aO6
zg^P$#*8W)c)BZh>Lfz#*vj5m_ksnO`6`~nY5>fFgAu9YI;FB)QiqP{IJBZd)az^L8
zp(az+_-6g(`lvl)v0m(obzRs+5|0^!gWfqRF1{Fh5yFOtljR>fR?Zt&&O26S47Pb-
zC62O-LQF`i65)>>&GW|Qc}H``V3{{mWE`H0=VRx=**yBOqjBEYIPYk@VJn}v)k9oz
z_d?62RLiE>!*j#eTJ`}I5(_ex&l{VPFV4AsTJd4U$1AsgR#AKDThren&giV_C&mwq
zSMAp-9*<dXRMbSRjNf)k!<p<CEip^{aD3O>x_2yBEVJD|+4sS|PmGV;u(^o8X1ZnO
ztged>#U4ti;^DV9zw^+Qhh|Ux<m?A$uUWQF?YdD`4O!3e%j4<#_EcH>RL^yjHTwJ;
z{+Yw+y7g((1_)>xjM2_-pT2Idp07Eaw)f5(d%@;4nxZ?ueKuorMAg@g&2JwCU$ysN
zJd^B688?2(xlQIz?T(xVzrVn*4!@|b!<jRX&&WB-awhVbIfo}_A)l2iug}@YXXmO{
z<Q(L4a_;h+i+pbKdC2GGT;5z6`N}E33i3hp(V43vUp41+=W57TOTIet)pM0ixd!t2
zxT=<1Bl()RipnpW;k&hpGqn;2HDz3#v4h_z{`Y3=?o3%-rm8jLDx?2S5501@G8K)P
z%H~XY#V;G2kgRGUd8a^p*UZ}a)jJYv=Pmo^wfjF(iN6f_$Qq#TLMuwvS->cu`!RTO
zW9NXJ*#fqLh(>q;mn0mew53K&h$m!Y$s=tVCukZjc_8Sbn3pJgB`x?7(lELAoE5cF
zmgEe%$qU;Aol<)QM)ZY5q(=7@%2&*FN%=aIZ$<eEC=E0w47@X3KunYn5rz<$!#1f~
z*_K2bk`{;$1Zx;Mogc|(wb-;R(6=EeN{iBH2qtMuCWJ2pK_YBb7QuGsv`iXP+r#7^
zkG7faW`!**u5AV;=*S;I1F{CdAj#f~I{;h!e}Z_nDq>%Fjr@#0U9xhsMf(rw?f*&+
zE#z7ASwG9mk26G88m-+~m7g8zm6Uh1OGvb+CC2|teDpf4#|Ai9kIOl?hmJd@4%{%B
zE?Q&O*X#?%`joLg!6!T3>AKQ2(|P5gv~fMw%;nxMTD+@2cC48<u9<hN$#`lOJS$S3
z6=~0^1<!_*XTz*}_UWHI|H1QDcceD&O?&o5jac8T-g!#{jx$WIi}qLTzo=XHdhp`N
zt0S|UXifECO|9#I%q0DHlx1u#l8CfAGOnsjMQg@edCOz2)2FmmdAa##(Jsi%n_{N;
z>a?*Ag6!U!Xve&E4>px&7g`@kwLUPnI^DW^zHtvCMV2%=rtsv^9PZ}dBkC2b4?*r2
z5Y=O9nKG+0pblyRnxHnI4eA2Apgy1v8kCNw^9C9Wc&os$%fB^3sLdYbAaZ1S*>=pF
zSBrE7%=k({*d|~p5pOLKFRDb^P+L3xjLNA7tpNvABCS#Gtm>Ez=$t$2+C$2QkRI&8
zn!1-16(LV}d^ivYj{6Bs$-47M3(mcR{=PxzWdudUgP|aV-iW~80^b1fcch2>v;y8d
z21xvE71m(LNe5JKs3V3V3p@sN_&2f2N-Hi9Ppq$gtl8oNRF(4=)={hyoF8jK{vA+$
ze_@5js;ofv1k|Thd}VR9VG`;J>3+cdj#^qth#=(Ghb0){l*YVBJSb^O393OAj8_=m
z1|lxyin`LC#GY{+ZJa0&3Q{ZtxwHXJ+Ck70%4u}+G+?~xd-xwCi#E*?#@hMHC&r7q
zRYm&zK_6dOjoNIGKA6P%l{NZB?I%C~zaumLUy(!0l89;c!k1N#k7rHafLy~^Fbu99
zTkZa5N<!IX-F$FpID{8|D5Hu=+DwpJ2#yXaW?6uotbGubn}8&SDCC_r`TYZ<eW8%w
zAEJFgLP)0=zl{Gs5Ou!#HmGfv>i<8{;zu00zr*V1=33XxK9Q<=C~CiMw8g;ds=Nlh
zlbRJ#?KNX%rfC!XHe@{IQSIx-Omz!>95*bEi;u=0op0KfvTVEVuAOh_n$!N&@u6eB
zYu|j`{<QnRy!F5@EOpnbYu{XZdF|Vi?|kdZw`Lzotvr0S9ZtHsH@fRL58kjk7p%=G
zYjbknOyHVzW5#G*FgAeKmekK^KQXQ=a#F+%V)2eJAm3aGY}iC1)~fvcjI2ZeND7k$
zuk#OL3)4i3BkE6S)22yvqOfJlQfmbr_!If97>k9v2SWa=o(wPw+gF>8?K(xMDpDtH
zdj8)aN7+WWxSb(tr#QeOH`D+f1&I0w&R5+&!uePKh6eayd<S-@lXKQ*tTy)FdGTQE
zV8-gaxIea^ejblKPAI3-d&xL$%y?@ub?dN;I3dGtHkn!Xx9N`l#TUo_Ec*L@_t`c!
zd3t)<G(CIvwApDoj01@M{;b*WhgukEZTquUzyB1(>GN+i!{fyMnwS{nY14<iPB=d+
z3b4(fHLE`gg=OeNq$rgw58VU7(NVu2@<#s_u}m<2y9nU_8^Sy}Kca^IF+6|wG6$W5
zmQ|Uus!VlbX2t4E%c?INmAdvDWtBM{ezCpQHRcTDGjeuM&O|;lhqo5;SvgnvCF``6
zsVU@a6lLd}Wf#8{`&Qy;%F&pkymC&?Z2zT;d=GPN>oS#fnZ^}g*xWkv4U6;Q!?A}!
zb?D5rk-J#PKp`XNsl2pydTr91a<_s6L6n(D3k&(ITulQ=5cuqz*>SNpR{OUOgha@v
z24+nVTz|5=_t5U1ds1xRefXH)PR=*sC~6h_J9M6;#}Jr(IMu%WBW<evkT~vYk;y>2
zH9(pjO3<-NQL!D1DT`QHh}}eK)uM*tqwr_dJ9a{=-T>{E!Qr7$Rx=Vj$LQ`hRn`@l
z0ACZDq)_L9<~tGl8z`er_Fd1;0T(>dLz@ws-G2$6e0D3%>!Liq?3_kn{^KkX?Wbp%
zbOm*+h$rHP$~sQFiBraYF*hS+5iicp9W0K1DXt<?j<d5rm*uP#%aXf5=3P*7$M#IC
zmQ))hHL7soGo@8X`tn{%3#ji;nGqKh;`9B8vrnZ~8idOGQ`X&;bKhE44F&#coP+}A
zBBpU0&dW_SR)t@7#vGwkE>R}~D(*IEG(l!Q3vgDQgOsvR!MLF0C&h0jt&x`}wy^Xz
zlt4&bsdu!8m3pTJQMmXW(+^=%3fP@WzSGHiQvun-j+f7s#x7r56Ep(AB~@xKVr@X&
zwFO-PxpagQRMg0&f+KRx0&4--3m))cZ9{6=EU*_|6+A_4hehYoUq83{B1c@-X9{Et
zh-$lpno4tW7Z+DQhlLR)4~nxyslTC0%CvlNIzceObbXZIszI>RduacFH$A8h7z#b^
zTc!ln*Dj%PnG)1ryM(4?O2C<dU_z^zly$xz@;y?3N*I1%vkH)bUcxy6(ie4DnwKd7
z?2)foLW_{Ek*p+d0Za=XFv$wgLUSzADzxS`!dA$>RGK^LLR;l4j<~LfD+=-xTG`B9
z0a>D=?u%UJTq)<K0BPRjcgx7CW$Mu=PhC9U5mpH+muMUS;-wiuV-smxCg&D;&XLv2
zq;6i6x>;zJ)rHmMJ2=bBYX_~S^?XrX)(CR>4<+rIHerp_Cv07nr&sDl-=g}g71qk?
zvuxi8de%ehgnC)4m1?zaNv-PR>esupoKPp!Qtubrd>(7nqBT)z{lV!Lw7qCviTZ`4
zYpAsT<YyOKe`sbE*PnJ-eX9##UhoL*LY)$B1M@1ig+v9<iTZ-K;E_g+^=_Wwu}I2I
zsa?9S-LCb^v}?Ukuh=f#*K3zdUZ{wDpF?NxljP75BOfA%wnhGT;j}qrVnV+`u`k2P
z>Og~S?Bu`A{J^s(LQH5Vt7F<1;xXC<N)0pw6k1>+EXotLQQRwV+BV2^(iy9k1}v-U
z&T6_(jfmz>d=z6_WL`@=Vk=<vqGH9LBAsa3<j=_WC*;KGTc}eEWVOTo{^R8BCx`il
z$#;UBap*owfQkr`bJE|>WQs^1qMH;cP!mc7=cNA>IV1cP%2(U(9{~vp)d{?sp!Z{N
z5IZ!^q>v~BF$~QWO3PF%PEm?eOwj_lpQPMF)Dnr&a<{)C#lBJO7czpv41U4T8AzXz
zkubAzChA{+wG`&@ezKo@;2jZjnkcl;|9}M(bo|3ydF7?&rk_i8q{~|0=HH22iNMmy
z%C0|j|FrJIx~r$s5A2TyqMoUpI0cNKik(ZeBwd$Ri4pF2KO&lwYBAzdgYz@1{o>x(
z-uPq5olx%IoARznTh}gF*Qc!Of2^iszqIv%>$jzu=}URnr>z?ntQ%9-jX&N&r+#Vc
zBRL&scR}jL%-I|)*8@pU%G;8*wk}v#rL3#ocmJ^R-O9AJQ_4|%4@C*@s<gFj!MZkO
zUHg9T51)Sb>9loAJ~t4~klb&M?T@K$c*+y5>8`}iWaH(%$-c`6qer5e8wPW<_rlqD
zGpq}&N*QpX__3iOW3*=wKk)7I@ZEsqS2HQ8KqP5hq9bLhO=)XI8L+P!-I+4grL<tC
zXS9as&Uhnwa3J<rqBmt}NNF2n$}r$%L15`{>`cs_@T82jiBpLH&T@C<bxoKmNNUZt
z`PJJ+br5KrSoBjnnW{lvK_+m`yhhZ!SruCq-;q$qx4zx^&VyGTyk>5PA`J#-Uu<8z
zKhYF_`t9C#j$Ju+&AMS~_jQN&d%a{(CviBb{_gV&j+UqfniLE6hLpVlOrW?b-Vr^W
zP$jxA>k_Bp=P~|GSN6?>W_#Z~n`-Hr^UU!dR?au?xZ3-X`|7@r22nAGnMqVRT>n@y
zfrgO7mvZ>z&FM&-y1cp2oPpUL?;aQ1l4|c>+#IJlszpD4{Y(I%4tIP<?D!jQroGdV
z>`zy<L46~tA*GJ)*icmSnZv~tlTHD6n=bDYm6%es>t{PsHJf0(sAg-bV(Z+-RK>Qd
zN9MnA_?n|Ps{Jgl9y2hr;+nmK4IfjN5yL;;Ij5NmT;24qU01t497}CInBH_KWj|Cb
zDm=62nqy;Bdp%#Y6u#l~elL{R^p+~QDQUR;$jqix&H8l3hLm#yg!-6h;_2Aw_&{QF
z+R>OYHX_3%^~gBf-#e1<K>cUe?=~j)UXG-y)~3tWr5x*Kbt%W@s5WD?L2-yQp|pu$
z+SQUWw!Es#?No8j*4!Qyr!z)3zIrO&5<L@pIHj#vG+Rv3?kFGaiXTq6r=Lt5jvq`m
z&#14gnmIDt`R>!Hrp>dVx!w=X&NtF@;jgaxXiss%<Yn+A{TA1o6_+a(s@9~c)}-BQ
z=brpTy9;w=!CIHH)}fivzPLO36co!kr%wa^NA3dtZThL*0GNC^PsDd$+Bdx~apcW!
zUjF7nT}P^}Bkk?Hy5(ou1B`Qa_iQ@;=d}B6C#NKj?l5q1{{NyRkHY~gl%#Y9oN%Ov
zn9qzk=7sOSB6AF^F<5&f#S&tU(JwK=V1E%x8p|`nod2MVFj;B$ja}r7$Q4nP$O41N
zMv>51C8SZt;!rqlkiL{5q<1LizO{^)nH8d{2xEl7;v$hKV1SChA|s5kJoAh&SCIrS
zGQwoFRzTDj8Ap+`6qVB!NN2F$s`6xWH7sc|;su0DfdwEkA5jZHC9GtEEi0yB#PRLv
zL?T+uC2wkFY071pRmAcW^YOB8izNB&EFOg#Gt(|2bEn8olariEEG^Zqp-edes#K=>
z*HEUMO{N6fbpf4>(I;nlDW$Golv>WdQcB&hD0LH9pmzl=Y>e4RN1BD@%4mjh5*6&9
z<;mA2ggUWC8o>xIUG7pQk5^<DvN}|e3!@J-E~TJ+`R`kcr}_a^k@X37qp6T9=44@x
z!7njKq+c*SRnK*!F3T~pT7+tOZ!EJSDzIFo6*00LW2^PPm2?{erzrd^GzqKjf$^mv
z(;_qqZM3%Ha0=@cJ&TxMN^GD?VFd|c3#-B8%tO_pZ<I>$-B!vP+3H-X6dY&>Yee>x
ztStGL)nc9HE{-Q^8Fa2-?rNc?$c|jZyixiV%4f1~*DU@Pra$t`a>kTv0sB-QZjGy6
z-=*ag*(gQ63FD>wE-K7ZK}-!RZ>oZyqKMxh=VfyKJvkT1`8GL!LC#KczC#Z2PGlNb
z{|v#lwMuLg{&PzCm*muu<0I!kki#UBiOC?EgC%KWzQ`^qa7y?bz4$9~{+gV>A?HhS
zZjy5g4lz20`TviC|Ct5Hz#~CiH~%Y&`+IV(kfQ;Af#=A1i-Ny|L#&dKF#rFOS9OB_
zPZY1B6fg<T@&A#6e+wtH7S7#rK`7l<<%IBkyaOc@9vu21R&8)XHhg7H$bZv}kEQx)
zq?V>=u_I%#$KA25AoX@kA5U58!K|^g%&1c4HZYIy&J*XSD`VS4iWRStp_FAcSU=|V
zvrQ@UCXp0NnIFB{{E_;PR;A1bmQZp>;vLY23dNpF^rfsM&jb6tAn)|_b2wHOS4GVk
z2z>LgN~qg4P45F^Ceb%<^kqzzXm8XA&dp7m!9v^+XTk6SBrl`?H1d_1H(6@#<o56l
zvmFd9O``v@ak@RZamIaRYs$T5W+3J6m_3|wZAqE8%z08|83p!MzNco!G&LZN$-u{t
zRI{6A4Jqf=lzHpa&KnkMTq6$Yv_0ub@>eQT&bFDuDM$OPE9K}+SvqHr%yoS5RLb)3
z90qj9)Gp{9-0LTw+1&At?+qlH5`7|pet9%cqStRumv33HbwyPLz5}bLWBmdOcSx#`
zj%_l=M5zQ2NQxi*en<SNY1`Wx5a=y4;U68IIrHv1FsRbLt!Q#oN7g|GV}tP{iOti`
zBpcIqk<WGUc<gvQlsG(nCaFmtNfR$dGK~^SJORCi?zD3SzJ_)qM4l3!r0Q~Ia`VjQ
zE04@Jr=45yCa+5AiXVXil#c0|#K4T^6XRMb-V+Z^S0Vqpq;6*CC&mq6^ns<;J*|t`
zhyhXvysG`8g0qW;GkL;XvTAUk%_1k5NsU^e`3I}BqO#wBoZKVX7uw2iR$|qIP^hBF
zI}`jiMobaX<Ff=*Bx8^lYu7_l4g%;!qr;E`uu2F8gv-?s71vE!iyCKiMpAfhE?%x6
z*a`@iJxq)S_CP?ikUHX!<zf{aQZCRVD~NIyMN5T(78$HoqHXj<Tt$RaNsJUyGB6tq
zT`QH6=rHsHi$s$9zUAb>xv^7lGBOu-^5_@W7I<Z-p0^5hF9_zlK@5|$1tH0#Ux=O%
zoH$8!uqI-MW%<c-DrmzA%je_*$y3Y;WijD=L*HlULNjfyJ152fNwAfSOGSLEeFy39
z`J?S-_OctsY#(GkN;=|O#q8a;ivo9T#W(bp3@$@T%Lg0DkjC>(4EmV7z3+u*cC7Us
zUF+Mo)_3r^7upNCu>zONkR>XaqddEz<!gs4U?yS2dH8e?w<3&D4WU2p8-i5!GL`oA
zojf@@ELx7HPm0ZK_w5P}_Dzn4AN0M@Gcg{NwXbMGTI#k#6XQcAyG~xY;Hk;r_(0Gn
zT9^(=HD#8j^HnYOBlUfu5>$sm4;L2<-zppoDU26O!3<=}8nR_mF?0DkBQ=9*94lnT
z;-$KZA4-)iR`3N8g7U`MUJ${omt83%gS5rKs0d3tjz0GSne2v=;|n{EzCZ@PX=r3E
zV*T(rp{PCLO*%iujDmt9(J1027li}KuYg(q+5OCH6J=%<HD74$6HiumkdNpD96a`&
zWy*}ASoojQ3nm3iCw&abZ7Y+t%So|x&?=)7Toi|!(v>feU=#z961Xkms7N|c1I6Rk
zBH3{WaiKCe1a!AOBA%YVl}Y);lCMAwKET=&dKw;xkZ;Q?&|Ekm-PyoUi&wW!Js#Z(
zOIA}mZge~}-?8_au`Y39rs<k--A6~E=Av^$RJN*lzH;^JUSi9?Uh`wk>|^N-JEnGg
z2K=x$?tZNX7dV(~(f)YTYqjLHzV2uDJS5#|Qwt)DHl~Q!O@`tUy)&vG8s9a}S+5y)
z<4Op~)2@lFfsrv+qC3IQH2!eayQ}8bUNghYSB71n&<o4tuEgQXWzf2r!X*ljVNYov
z$!pk{t)yWCRU2s7zyvu|ZD565RK9_0v5Ehol7}k;T5#^kE@V(m?~XqDwX(tm3AX4!
zbj#FZ_js59(eteO)X*}=2?n4Ql67xyGH|7Oc2lac>#GzsvRqL{6vbB)tkTKF{XG>i
zA@7hK*-mlEmZXqs+BCN-)wEqaBhh4yqV4d*dnMn&y-d<T5?LnTXZP$tQLRXDZ=_f@
zhiE3Vt5-z%1omPx#nn@D8sKDYyB<I4|3>fbo%@f#y!b$2H%BVMlTbfkZ(y3<{{xvw
zWuyWYj%@6hg?{Ong``l+mOW;%zykO`oV@X(((dD7#B!3QW`S8JdJn@y&oWF!Io>UP
zP>>FjvBbc5So#3ZW98hpmes-D5@ffSyfLms!?A{V3?cnmi9>~}yX3O6V7@MWfQ8n|
zjz6mDE3)HF^0_$1VK^;(&PCF?a#p`mTk97|>&lt*N;NP_H4wzoS(#!zP%cTXvKS`g
zny(Q%^Z>>Ui88&SM5|J*d;x<@TCuT6XUIm5R*5AKaPxxI2?<IV%Npq-%SoVuohkNi
zzHJVo4f1Vsu(q)ndE3Aib~6e>4VuEesD;Z(qZ;mOX>v=)O8wcqs6R;_Rl(}C(tHwH
zl_)o<Zx<Z{C@}HC^j-m5-bMDcoSE-kGI$7r@w-y77A;D(P*NS0YR1}2Yc(Df4lQ2S
zXt}$FBD>&{XjmyfK#}G-P-=@LXO(7%e#y8pneIFkL8_Z%y9r_zLD8!G^?3wEu0>EJ
zm!?%J4VK#$!R*&7Z8>S&)r+8L4UP;HpeV9dHb<4}Y`U*?UMDL}3G&x1s&hLec8R=a
zkI*iSE|a5OD|q-nmgS~YckaH{T`qsBRGRv}mbO9GHl?0gzo@4=gbu}?0_;XQWjQI$
z;tfKl;w;|q^=7f)<^N1()hEBdV8_8|7Wr1#wb7T6jgVDmmr}~=N;KD!2f_)3xlZ{+
zHVK;q`v^#&$Y$A>O8rG}ypfg7L=y75MsWsiV(&HwOt{M+zY;~Z2y0}$x<zQeO=ewg
zmr@BPH1`!Iw#wS5G?H6|F2#}D`t?RqR;u!@u~xCvHA<yQb68rjBM-=OS87w6@PK0O
zZA!V{!ycn~-OUaqEixPYq9Wxv0G24*9U@;C4iqIFjA7)5MVEo$5Sfl6coD_D9ZKTf
z;yLBFDG@uO#7xXvANaq?M+cKks9QX-+)2R;aM~V}u^y_3%&8@(n%*-e!~lF*)uhN|
zVY~?+y;C~5R3fAbl#@tO`6%-^WpKxXOm-qE+K$xG7j*ncQr@RYz?(UfB)@%{q_s~&
zX1w1&$^RWobJBlCJm)0V5fcLMXJ?w?StcEW(m^NaWp)Irr9?(3)Q52|!P(-;DgR$s
zLWqUq#%7$04l!evp$8Fr8{_1zBSa2MB?eUF+WOD<CuM@*{03A;hovCY3Ca$~ow#Wb
zHr#E~wnSgr>3h5Bopo2%&8pH(ol&oXu=jrxN1Qmi%-dVvg+npdm9EP@Ge=Uj8)iFZ
zTjpGI+PTox-Ve{tjeNA@qs{ZZPo~XJ$&c0wg41Fii;oWbQ&wNf=!1Q${^Uwr<Eegk
z&usV1L!zwk)s8vaN9vDuTs=E~_^G0VDK0`N-dTXd&gDd`A%Bmvqm4Ktf(?E$Z~%+?
zIQ85^Kd#sl@$Tq>3}o9oV^8C#s(1SAywwMzR**~Gm$ABW_Q?dUot#|Y`o3i;lO%?i
zveOeE$lJyrO*xwu94k_e70J*$=dPSfJ34SwS2$&BnYCTBZ^LO?{(KA{UK*SpTqFit
z4l&pT<AGco1b%O=h5G!RCDHF&n~HMj_btoC-2^f3Bj0x=b|osNpM^01h-hPM@*?PT
zfUBBbnb<kKF4>WS(6hDW9*3I=q{B>un@NgG;@UV%{GKMh>$|3uu_~(l)Z)4B_Aa=a
zQ|@Nms)%FH4v6@Npbi3+jFl<pN?c%zyE*jqb9lN8X4lLamzNIm6C0E6%UkE2Eg6?5
z-WxY&oaF#9k3CAq>$nla(~|PEWSnlC9e3k42F>&s^fJm;rJSqoF-xyKx(iu)$}X)$
zcQnroUUP4b?u6lxH#~`>Kd731G)jWlOlje0V$+*lm%EaiNS$G!c`I%hOxHZ{(TY#3
zhpC|z)ncV_74Rc7jp>TDGpAA&8>0JexXVb{<BeVty-uE*X-e0vOS#vf5WK(`M0Z|C
z>0Q%Z)SOV_Y1r6xrOH=h=_ubY+np-goN{iS)1;gaL2}{9EsdIL3>LJvf@+xDb@>?*
z-}kgdcYWq5yYKx1)fm#(xI@!P-d;S?Zh3R%<(0|iciOJBrK{Jb?d$Gp-hJ`78WWE(
zLD@FF$kY(_5|JzU*VtYzaYJP31W`+$w^Yif&7y&`Y1QxPpC#Ph5Rp!vHA=aNsUuc8
zX~v(OEY!+QqxD5RoS8avz^<$OG}<V8FF%cTNLU<BmkX!SN+ykj0uK+T%Xdy$Fg_G<
z<IKElnbd`RS-m|)UIA!wTyHCKd5CljRKkua47R}*DNHcIg-If~xDx=bfmt>+GMlC*
zW}_5#P!Vro_Dyki55HvPlrF1xu#4`U%yy}Z**A4F`=%ad8`aA!q2fjYq%03e7tFf^
zH?G?CFpH#Bq8T?PhHw{X9^VWQ`KpK>VRq2t3kHMiC_*v?x8y)<7rKbq0A<)tn^$&U
zJ;OHHX%#!;E25g~>6><P?##1iC}}x0fpAu_F@(&92+dc*(nN&JbsIv)Z^Tz`6DBqd
z4>Of?FSnJuV>rEnOjF*$Leu&1y&ZxrxrrR7U5joe&-j{>_Sef6OjRjURig2lsdjc3
z&cw8}iGJ94>$}pLcqXN7`;sfmUkZ+2b}2Z1VHwj3%b4Ud(pB3g@|o!(ZVUOWbUnC@
ze0GX+kPot0)|`ucZt{7^=cRAU$X8Amg;$WTlB;ORRgq7;6r6nGrQqZfF9j!`cqusf
z#7n`+2iunRTr2rjkZ&dVR&f<|U$nuOTT5qSeR1q+>~ij3!?{u#gDumxQHwLi1Gs@*
zn@t2wbPTk}HcjEQ=PZ2p|FlO&rGneA^nnx&Ad{Xu*rsvv|5<P^x<5pTPl5YG{sGU1
z7L|72PEg#7?k`blr5^W}ptq!6Q=;&R?iQb~VQVK}&V6fH74EIYJ-Li$Ws<>!67R<Z
zsjWP$M5@Q-;@QilhHV>m*N1o)3e<j-ZQh_ZvN|ZJhRBt97OObi+jqrVUCElxqWf!=
z&UI{pW092@r!<nq-{L(jI7g$2%^q2;l=?{7u8Zoq5!6Ypm_r-Pk_QrEm3d_#@y^ma
zDFeClTzcG2nLjTQ)qr$`6EXQYol<G)`&yd(oKLAVQjif9N@Q)5saHV`4rdv_0^#P{
z1ho-%K86@rR>vtuv2DvM^XQ>CBSCf}PK}JzOG<NCXuK0gF0!1GPD4OmQWKPVil+fh
z(%SJA%a)(`DXmbxMP;`Lb&%`??1$7ioqAA^pZyYVZpkAw<IYgB7O~_Jn(x#fQlBz4
zidvL2j#IGwzJmT$8hO<cIAbT(w6c;UDaKZAMMQ$?;>cs3E*g3H4YEq5Y42-ka-}4t
z(sWBoE2<J=Wo2z+F$}8nZOg0dkv)_mJj+ipl}5UC(MT_6YiH%6)bbNQLYS94LXFT?
zRMAm{h*fujh)CPAkk$rOC)t^W2s<*UQLx{FQ{Gy|x~x#D%L(6-Mj<H8J=Pb%)#y=?
ziqGxb^i_BzvyU=KK?2Y{;HjJYMn@;k_``!6JKJ2Pndpplet|yxb8@~z4&$ja?s^*q
znc5Fytj8!=;I6l=7U?XSqxp+ykMpZ3@Hsg?au}V$bb#)HsA1|qEtr%_TywIU5*}Kj
z1jG{wMAlAVEv4T-!T92${?8SZP7L(pBJ=w#stn_RBi(Vnm3?*+Uoe*YN-C51?jfqa
z68WSYClXcVqWJ32XrGM3jjXpJS3<T!zloUv9{0AdqtXMr1mMWsW~}5Ntw9s0NPrpi
z6m(<`C)BS!A5-II)nYKJMtkDDv9pQh*o#mpP_lipSk>qI9f?4qD`jqmRTwaCXI-;9
zU>9ai`@i(f8B!~^r_9@#g3d)nGa~<#dD%t2uNUmUO0Zz-!Gd+t4ZKdWJ0s)6GVc3w
zEO#$h?zb_1pNM^H!Cs%T*C#@6p1XXGsgx|WjB&&1fl^HKcaKlo7aUC~M^kd+I}coW
zAnjOpyEPB+0j!RA<Lg@?S^B-sOIxP5z*3Lq9sL!3GW^c@E9cX`&a{Wj>%6)%_ZXSZ
zxYeWjs%lUhVNGM}ys`E^YF6EQmiK<*Vx$|~7M-{(x;0un>mg{~2-T@0X>;R(xg}+8
zNgjFUn^(S>Hm}FAnAY%m=fy3tE%D}fC^>n}vM!}vhwtw4E?mBgRy|tq7G0P@^aSlX
zH*djt#r}%p73V9iuggn))gCdu>WG+M#m!dG<S{Jblo|x1gq<;tqg600;*`RmK;gZd
zQ)-oV%2%CHd(;tiMqPv2fcj-)#8%{R3N}J(^Exb~y`ljR6L)M0rkF!8$8f(B?x@Ps
zS<qn7!M=6=LWo7uytGXcC3TawvESCpc_1<HJ{Mn&5!1v}F*T!ZG|XN$<EXr=V#4xm
zI=YxW+{ZIkALH^dKHf%T9HL@;Q+U|U!jlyHc~MiqFKsUqF!I&@Fz%7>8x3u1AL54t
zFJOCN_YD5s6n7n3Wrtyz=ICW}+S#1!opH?^ez$Div3}mTUX&cRFWIz<U~o^{HjI6D
zqjtQ79EL>fARp~{ZSJK-Fnpi@ZcAnT8D`K)UyqZ+PzGwbVh@p!#Ny3(J05W(b}!zD
zsi*jzsL(;`pm*`%e_|J5+#P=t0{yUkWG$b!G}2{2^$_Y`ea*NzfBBCa_N|qr`u|p|
z(rqA1IyH$+DXp(4PG69#7sc!$Z(oRE!uG$cbAbQn1OIPo9~-KyJFnD&yB7LJ{h=`Q
ze-=$u>U%a-+tJ8N0K$ljZ2~|yvCH1_C}cz<JDeaxymZrwPB6-@b)(~xB@ZS?p45`A
z)00gtGt|~pN=FmLtAHc&8(zr7uNGvJ2K6eC5KP4n_qs&v5yy+>qH-GqSgjBdqzlTh
zKtMT6st4K=al#Id`$g-Ewig{T>kVYDK?B7!C(1#~1QSSUlh~k$=S9nlt{0t9VS{ig
zCZ(~5@jb!vWcnsPBm*12sByzs@<esWpp}$TAYNa@Zdrt0k*{B1=_6NKfn<Do_KHXc
zeit%icrxyuVMP~EX|a$}QwGVYT}($sRJ37uJA^XxVlc$i=Sk|D!9R{3iVZ6kQEc7f
z%7{I}TKSih#Q-_%xa5z>$7E)xW?9{7|9J2We~@BnA6e$`A#XX6^lb*u1o*wk;xx_7
z&+sXmm~QXXf$PTVM8{0^Rr59D!KrS{Bm3(7Jh3ok6{e<gy{ww71m1EO?fMIQppO%}
z<>qji{Ndz-bKO7P`yrHYaL?FvoFa=;OjL3~2A;ZGI2P7lK-N>IqK(mBSi3iwuh(wP
zKov$zi&Rj8saZ#99Y*Q0naSt~E|Gw4cSp1zRb*)$%(dme6ZL2Ck;iP(Pj%D9G}b7@
zAfP1_9g*?!&1kLk&;+Kxn_JNrbTP`5`%Wj5;Iv{)BLHo_Q$CrME;)KHUxu_tMmX6Q
zs=N9^CDW0m1w(zOuW%nG?E*_4sTQz*dZ)Lz5ay2Waq5VLC_k0iLWIkpNCQ=VffIii
zg-a8OO}XVk9ajIl@fA<(U3QZbgUUABUC)<h`p`$tQF3S&u=x-oqIuCiC2mnBaf`wn
z;P+$9KOp$Oh@^o3YR+hzia_pxDZs0zE$o_xsO}er`s>#6_^C_6wD8>*)7BLrt(Js8
zD{IO_q1keAZEWpp?Fi;QHrGXe%%8T^lZID$^Fn!hs=Pg2z9A3d9&@?=LJy|Hw*av?
zdXj-E)<$9-@hjnEP2uBo$JNAWU_j0bC+MXO=H~wcSB@3kpIZyCEm*M)urp`e9*Q0l
zA4MDd(Ed1&*Am1labdzz28uVGNMAzVyI7KZzUIG%26+Cxg^M_7dm>yff{UVX5?}mM
z-cQn(9JVx;nre!z%?Mr_lXMsCjK2oWYVg-Ii}bzkoFmE6-&>9zSsej?OCOw($;?lE
zjb4P=CO#-DE01N%%flIpS;FljWw?{wI0D}HvgdfXi&WNTkuP5kneBph#n-5H1<r#i
zmKZofm2v-tSJ1L?t_1H?N9KqkRkGG8oWtNW%ZnRcwdXNQisvu^8Iq=iJPDN&bjhKa
zN-oGwR|7d>XIP6)i)gYgd4TTJDD?%_^717~5j;Uy!jea-3xf%o>3A47Qo84z&@#q@
zY|}#owJ#K8D{9t&OK^q*!BEyPF*q0shC^9PKZuqQ@oqcZ2+s##|Ci>YC=N_*WfH%C
z0S}(sqgaKhJbsFt-yr8@a=t?jV@Wa&<pm1H$RY4rYSg(_yi|$dGOy!(RzKvYd#Xio
z-vgLgGGU7`%7Bp|6XY8uCr-}az{zUH{b6D<_GQgt)BOCznSy^{Vl=B8@}CUzS=~AM
z$=h8X_Xn~jD$zgI7aGax`&sc><51p6a@LG%*ZiZnOs$X4szWFFB+3dAX0~YaSP~HT
z5)WZgWE4QgcI5qNQyQ~6G!GB6BLtDVNGt-4Vn@T<?sw|0)XkhqH+C?a$!1$z9a|+b
z&WIJkE)q|hs~605DRbQ${coPQd?HO2bFPC|!59s%JrrFFJ1n9A-qZm|&rKZwS2AyT
z6r!I@I5GB2#^H=NMh7#ln#8erlCty0`yiHAR*`VW_hsx}pkd77s2f_vU*qFE3#D~N
zuXG*#FANTn?HrB`!xV65+FlP~P;W(|ae8mmM0dyII>bad?6at@tV~t4&FoB7t)Csf
z8oK5>xZvtZxq3*F??CJTWMtjus2)5m@GSShxU4JDHT`(X-W=6{3WRj&(b)N^eYm19
zu|MT%1qy4jT&#rMpVf&0vg>l?z>k|}2mWx!PxpMd=jzt<!-rB^4y8LEOEo{1HuXSm
zrZ5P3zReTyotO4Z?@4r!^x#6xx>U`&w6}fk^w07a7-r4KgM9)2h#yxb^N^e77F`lX
zvw)_}%_QEuVt&O^>dw;uOr%tE5j{lY^3xh$6&_qZp(r{RP!ncVSh7n9*ab9{>Q%ae
zypUtj6VTGz2n59Lg!H{?j+q6<L=g-lIOq_~z7$bXCBX%O3m0furKMG-NNJ3kqZVwn
zda#R3G7&cu)s3->j3R{`vrs)`bZOyAB|#HVO_H5MLW1z9aBa0<R6=|ph^T){6*Er*
zi6-&F-{Np-y^*NU^Z(XNb9;|?+nMhquDkQ$ely>}UER#yhh(`#w5T!kpzoRX_I8*k
zS-tBy_Ms1-;FdjKH{R@f&WA6b=~(N-e;6_8kdly*iU)n6iNWy6(aDf#K&5awUp|`x
zdM8U*h!YE;+y3&Yv9C|^<33-ZK5KpX3gxBnu#0ozg<2T8#ftGn2ryRK3V427Ek_z-
zfVw5DG!;Yf)ji_E+zp@x1-=76qJUgG@(2<9f@{WBMUiJ#J4m-#`lSVOF~4jxY7nAf
zzMWro7#C3E8fuYKrWS9+rhTBzDDG<7)5F0tS>5>LSa4J%ym#ZRxF^xd%S>OuJ_fVb
z!FHV&D3)evam&e?C-`A(0CZt&R=sZ*PdgK<x2#Q8#1UkOkHq1!FK!n<gp6ybIoFZ=
zS0EyMc`FsLVBHk26)$_$$MjJ?-a#_MFbIuHUK_+qUJWq=49A-hz!j<$u?mRoS7SZG
z^{;sInhEhBUC+ZtTJOh}hIwrREJ%D-l+Js*m2@<&88=LI{}L>(RmAeDOu)DV3{ab-
z|8@v?XN)c>=)P{LPCS^ltjM@365)AQ^Dir`;Ca<@CP!3t5%rumu8y1GB)Z8t|FLm3
zt3{q6hI{&YdV2P>8Q>m;7q<#VsOvt4!(Qmb+xzzH8T!q?`u*hJ{;Sz-xW^Ca06xSw
zY*Y2L>5#!5y55gJjJ_K}ES^o<+a6}anKg=5U&hDze~tL8>-6a8SUWJ8@Wi-(GCVvQ
z5^)l2uw1r`y=1ZNV}0S{`2+;t3=X8LA_BqDa32mGi64{I!+Z{G`Y`@Y)*%ijgfb_2
z+-4o-iP)gKECRu^jI)~6k9N`}*Ni~TswYm0m=8mBh})CZiIpPcGwa-O)PHFIk)!_Z
zCyqXT^ogF`S$EG9kNKbK?)}D*LLC1olCpaW`33sOT(tF*)rBWdjt2Q2O7R4Hc|17D
z<1)|T0i3U%7!GGm0~6!8+w<&6o`0KCy-!YtoHla)fSi8`C#!#q-Id7hFU%VICc_iq
z$?;%Tzmr{)$L@V#)?mb`^E3Lcf+ooZav1lDILVBA#Yl2SEi>eX!9191o9LTu<UC3a
z$t-5o{bAfrdIo=?5aFd8#79Jzj1P<VH*Vu!Le}`tg}w_sGN)0gR5vR*mF?$T*<Wz0
z{*>$b_gvS{xfMU>_Whh&^>eQNPr1sUb4@?zs{WnFH_tggU9tAN&;6)<o^yj@Zfwo0
zZqKai$gJO(X=(eS>VQgBoiSKn5iSTh4FzuG13C%-g)rLKI|B<ErJ#ugA)D$Xsy%06
zK`X9U%-NXN&UvdYJv{wz&cT9CuDU+wVqQ1ybX;)yQchoT6Eq}p9v186D(i?}kPM_M
zR_DrCTsc?W@Mi7h+8HfO+UF`*TqRfElw*|!`$2DsZl)_86J?Za-qM=Vt+-jk(goBg
zG2^MoG_A<^T5#<owYp>T7ZokC=E7fSE&Q^^QmEKg3Kg45A+e?8D>jruVmry_riyyV
zhl}bLHMoo-%hBG2ij}E~l`}1=iuN4Ut7MDl9gZ8-o~iN$l{=+!|Dyijr<L8GmT&#k
zyX6a$PN%=AF{srjU2S}&`a*S1eMqI+tIAb!Ml&0{DluHm0nx)v+PNArjAcv=*NNeJ
zQfb3=o4E!tjJ4T&sdl<H*C>XYxT=~rt(UF2W-;7CY9+WtGuJAHS4iKl6vM0N<aRVR
z`ehpn-_&qw>rEHc)Ga1>UVSf(+OATyqT}*ys$juNsR>mqSS{6{h6QV-2Gp@&y;T1O
z7W7HgZ)CwH>Dy)&Y>_J8N<n$u+3Rnpxr+LXt1MI3NdEz5m33c~^{P|{RE6opLInt8
zA;6f;eeqE2P|hHRajGg#A(I$3b1rYrBKobkeKcni{dUgbrM}EL#4t3I*gdE@ml$?)
zU@;$@KA7`}VJ~hoy(!iw7iM+E9Pn0U>Y7mLFFehFk3u~uP^cyaWVK|$VkKEntRwSU
z^VPz2toFv7jm6nXPTj%0POhRR=VD$r8grACd+U&Doywe0ziGN`y2Zhp1I|$d?)bq}
z<Dq%aV`)`SM&+C;f2H9<10>@;HNVv9Z2DigtD`&qq^dQ#|4*u$qX%#YyUB6U7PG~}
ziQf2$nf+H+M{S=NA43ajTIgku>PA&7F0X+n<F39*Szz{>?NL3L<pha<NtA(ElL#e(
z*HkSzb)QOgP$dI2F<hKXVz@Y&#BgykiQ#$)G8@FOPYO4R;U-co6Jo-b%`8j+)_T)}
zDv|GTlrJXRhfrbOD|OAMyAP+Wy?^xVoGJR`#pht&wR5H_`rIeBjaQ#dS$i|E(-n?d
zZ|O8>tMT@>KBZEX%bLo9#g?*Qv7szjY$ppAo5_Mcsa1^>6dPqi+4)9USt1xoYG|fq
z8A~*l<?_mmuk{_<726lC!zz`#0G1RefF%Vms3totVDWIuSd%lbI0-frUT^?%CKhML
zMik$Kn}01VNY@C<w;UUbwbM*<Ffa7uDle^>UXx=L08A+EEFPBj_@Xt-+x02_mu>&T
zprut<k6yNOYF7bjtDA4>w1C>GCJA5xiXy=FC-=`WVBLMAx|tw!k1A8u^d%+#(#)B<
zz;QrsSksrn=OH!0XRWjl)`{VIDcm52eNwnl3^z&e*DQuxq;RVkULl27ieYK-&b5i*
z)%o=>w?+&@la#@4Zk-rzhuR|T_+PGPVR7hbvA^k{Uh#>kj%%?mX7GP?`xlP2vb`Ao
z!dSzPq0X<11_~ATVhWk_SV%m88>Vs=in1<(3>!sZd>4&66^HIr99kE>d;YFgq5r7U
zORJE(hL)nj$eQvao9IpQP;i_b{^$U$MNgsjSc~xXX<Aq@)>xLFR^4#d(4ap}%hD~%
z6BTC5lFNkd^4>n|!)#A4?tfyqI9bIo4rRnWzeWrfr>ht)&Q~#9T$aReaam$vaTv=`
zrTh%86q6m-aBJ3M=6>N>rLq-fEc}H*gdeSyuty3N2a!V3Am%I-vPvm!6tWW{=^&qT
z$soEY5-6niCKa4Ju0l1w@NAU<68wcaz%Q!<g^G2cP!Xx4kciZguZYx9$jMdJ<y_=j
zg1g?Nf^$36oVSt?fCk{1Z3Nh54YK;cU#JiKvieY{SRV=%>q8;2KIALbheBd~$R{G1
z<XeJd-lQtza9S^0iagEv4YUbR>uw>ZGP+~w2D)RelYn*`>glPXmyh0Xw-BH{nsGN3
zwokH#XfAA^d8G3p!W_^9n@AF{pjBEWY%J)Opwq*GUTMuKV?mrii}+{-3sy=PSQP~c
z{;X_+%z4@CU23j*C3K846*XUA!WW?s{z8w#kCtGe$1*|?C?a1Fbg?$%OcX_3PD==Z
zptCGT8KJxNmRFv=@a!!t8Ma^Dny3QO@T)JM*KoEYs$bm<(+d5oUw%W6Is2<yFB<SN
oMDhrKyl%}<mp!$udT5*ZXWN>NYpmDTZ9Hyre%7$&xXb$g19-#zlmGw#

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/l2norm.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/l2norm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0772990aa4967c3d1f1f12b9231e374a51d77687
GIT binary patch
literal 6366
zcmbtYX>1$E6`ox#m*jGn5=9-B<U@{aIZPtSl5NR~UDuLj#itV6N|UI^g5oY^O1w0?
zI=ckuAce&wg(x6}C?KfW{3w)KK;<Gu+&^j1A4P%w5lc5#xB8K^E(-rBphWKZr+u?L
zM9FmBpaXJt?)T=+d*8e_zZL`zK?*Q$`QI!<=#Qk5Pxf44<0BfOc_bl;3ZQ}Pml~j;
zP6z0qX}}a@1{ewrA<6U}HDIQZ%)%cHJMs%{ekDdS--6Xhx<zHb16CN#3|C}p#ks`x
zpjqUlhv5IsDukkB9DKJYKhn^WCBN<*{dNrlGonbc4pB?Cd^^mo-aZo{iIYvkJ05NK
z(UScQ=2osF{~Zt>%PUWKou#}cgWKH(x8@%7%^E0CrTLZwjq+1lcsIRW%b>R#fPYhz
z+P(vWcBwr$V4r1qc}mvOJCcOQv_DP)tW;h?0*=SX(fOFwD@wQf7|FG{`aqctNjs!U
znHp|*^em(**(p^+-~JMP)U*X5A1l?oVIFWzQC^xd&VB-NC>c_mK<?THWNM$A)@e1M
zvnuwh;gH+>zzVGo%1PEhvQs3BL8e!}eD#djbEdcJ<%|7d@5L^$@5L*Zbn1|seL(c~
z0a4-y3}o0$GL~e(2y#=pEi@JsCp<W!=u{6-w0OfIpMOZvO(XJ@PIvcs$&`E|WfS~2
zz7OlpBQ<9g2o2}#BtMXRB`SZ)QL~0Lvqn$D{Aqz`n?`M^Q$;HgKDQ-_(oA{Fh_V{1
z(IY@FYAKpU_OvYlO?DdEG>b$pnQjrjAr0HI-{M>?RE7<NDO8O@VHegSdi>Tgq^4Ol
zE7_q$EinadZIZcYRtc2RY#Kwj%u|`R!_GKZiz91A?M1W6(Qiv2$Lt>Mnq`U2?~y`N
z$ZhGv<WPq4GvIKUphp?e&0+PLjNhkp#xv<xFxiQl!UU?^HcX_Xa}gXK!k(b$mvq*H
zJ)t34X98i51PU3}Ej}o!hud_MG8WVsWfZHrSy97ScJn$lsZ&#!aEe`IDU%GEW%7%v
z&UnKC#UP`b2E|F;JSdKPu+9#OSWzX?Hl+|=8j8}tUTRT;k(P)*(xiIukgPUMj&*b%
z8|jc+0{+34$dr059BLU41cEKWup|dWc~bU{0V^#5&y<Xn7GJ>A5{@V>fwoW>2b&{P
zdPTM<`X(fCM8+XG(2Ac0vSk0t2av_k!=1=3%r?cFl2nGPi=AF&%rmZ;(Rj`Ei?OaP
zmHRNRGv1lFoTM}M`dH7Zy)3aeek|6r#__WU;|CLa6Vlw%smjHxce&Pk+>tbQ<bx|8
z4%{BdaHnFY*LcTlZ@f2gIO&?}Ots$S55&%_3XXRw=4<9^l2s|!LVd=0AT1n-^{%tX
z?ntol=U^7Y-Z*>x?9AmvW&G8IlB)cKY1{z5k=tyXB?bdSm}uIjwSyt|>vUf?7`#&o
zi=nV8DiPW1_XPaYvX|gWK9RCv;X6QizJ!Gr+eQfs23uq_vyaxy5)HW(wAQc`D6^Uc
z?l04=oCQa1MH*kqs%;XpRJfP_4{PR%=#;W%E^C2+9c;mx?OO4yQr2t-lmijwtr`3d
z^c`A4KDriK4cq36=$4Wc^*>8WC|ao$HV7JDN<NxU%6}QI%&WlWx3CK$@f>~@V@no0
z=&afiuyNA{=HxI%cMOKdLXrnhiQa3ncLalbf!uZjV=$42?g)BDWN|PM_Kt`V72|qn
z#5+m0i)7%KAiRfU4Up+(Nu7$wIwuF@pd3;~b;|9)dr9|GB-=-_W-^fK&mvG0X(2F#
z_mgH*M4ZHpq<WBK?p)iHLJqPBb)bl!A)U@gumT^0_BQw{_aOtQXxs`FVE6a9`ZQOc
z>`GCo*5vpiwb+^(Up6fd-nQP^yBNKLKW@8o?N@Audl5`IhZ6fzzPnu0J?>DNJM=-t
zhjq8>GTe#B-~%VTL(g00EJ<_9v|!Ja?|<*|B9nS0UEY-Dnv5mC3<EhVxtiEF-#FKp
zblt37sJ&O)l&)>cR5afi|Agtq&k;#beL8!o`{IkIFL;Y>k~k3tTAcb)XrY;nyA5vg
zA`LEK3vlljEPb0L0pX}cvuGy66L<ppz&eE+nXE%>GHa1fL>olzXU#(RC3bE26V^N)
zl(Me>(U&O3k^h1|;3Y9bbe`T8Z=eMF6iKrb9#}Oy_+&XdmI|wGm29*apGw3z8ow3c
zqQxjw0z<$<c~pX&CJ>2g);u=`s+h7KOBOwfU;@{H<hNmi&JSX6NW2~ea3E|Tg>Iez
zzed*0n7AYcWVjtV^{P(2W?+L(UBaDYrRO2jEt6rNPmxvKg2NNw=zv2qX}Cu$_J<^S
zQl}>somEE1Jg_8}{fgl5;FB=>v54`gchQE=!Gu0C=^<n>bl*`v8;l2&T^YyjRCU^M
zF!sW#qv~DyrftEN+MD`XX2)|sy1dLRzLMT?H0?MFy}T>oiC>7FSrf`;UyHw%7)|bd
zOHB5^*P49Aa1PdN_Su?vO~RS*B}Y>o3*SyxKa+MoyZCa(cKDvHJ#B0M0Dm}rdpcw5
zj&+ko#JHHel6q?4mDKp+Xlf)Qw8eVYoUZxmxoY6Ux?oLJEwam0W=Gp{SH{`?lhHf-
zmnYKBug1<3m*s5yY+@j_FI{yY!#4s~1%IS5*_xbKIG(O(ObZ7WD;DMV>y}^sEpyy}
zkStIWjMn+^m>L;VMFY;gIeml<gotl$;0cN1Z`kJ{RvtDwwq{Wiv=`6Ib%ULk94}Gi
zwkcQ<(&$*V3i_8#!^Mb}Ytsrhc$5j%JZY>(FBPmQ%4kd}T-c0;B-6;#pbhkS^!nrY
zWeC6jZ7*K>O?%WVL0mNq@xu0WE7vd$QjD@HaR`kBcnj|)*)&`VA<X$3zaT3MAdqFG
z2du`flAF{>5}P0QI;9qDUU^osM6D{h<c(BBtHhf{+z!?c{E_4{&d2Z(DQGuCPwq@8
z6gm$+qjdxz0JlDAMXB(961C0PeU!w#VU2Ps@hXg@aap+nq5~=!lq^g3TjUml1hgtu
z;&&J+4)cpfgA|tdTREMfz?&_le-NeSBI2vaE%ZJ3HzWwH4#R?*K9ZkMnr`X8=2sew
zD5XIP%Sz~=+MtX@B4MmH_+*bdhUEsyA8a`Jm4@~s7rL8`c-@acV15KXy0;K{!`g%^
zayA>pIr$#-B(FUVTDR3Ad=&6Y_hI5MfeS}&VhGnH|F{t|$`E=Tg(iiZRzoc78ZkrI
zFHP^*bdZ`)fEVWpC?}gqPn3)&a{osRt?k%-)4pI&b*0qBo*zsDs;tx;St&naz=E4G
zTsDKiX4vR9WxcsV9O*8D5c8S`ygz2#FHh)Zz<lpDa0P=AbxI8QM`XZicqox%ozJ_6
z3dA<LDd-PnH&hmqCsi>Lo{+H^_K9see`PGB`h)TrjKdg{z~6vsOt9MU^NhIA&2J(X
zJ`Y_wHz^vdh!7(`MaB{?b;qTySH)g<i0Kipo*OumbvwyTlilA-q-02OTa0@uD^G4y
zlK2}i_UrIhBsgUdAOwFEE)o;Q&aYZ+vuvE5!HL%Sj=7Fx+uZStbx*A8Q;TcGQoqJK
z@9{g+{LbX%48JE%-QTRI0(betGt{b`pFI{omgs)#M6&fa_MI!t&K3Jk(%KR4NVLYE
zPmIn_%uOWm+_z&rv98!C(5|jedTxdmLYdvo>8j>f-<pk|`PRE%ySM9bde>pNAa=E9
zY#p)gRf~0|?e+0BN8L*O#f;<9iuKZ;?0Z(7t{L{eweH>Cn->-?fH&Np+1a*Ie<W=^
zy2=a2uPk4v_^V*CaqAU`7ZRp7kF7at=IiI`lb2Hrguyf24;e~0`jAD!?xd9F_pO#Y
zjh}1PRkd2-B0pEv-^#3l<6$Kd_N1t!n&$WCMpf2i`~PZZ1;=_hP?&9xw<n&-*mtck
zyRw={4}JG9KTZApm&+&n+?6^VR`69g1l>uV7n-w=aN?Niher%@^<<UG(%mm!Ja@Gp
zo;X6P&cX|Y92z%tNw<37AwnGsfo7gI-qdu{uwT_}@W7_1@?-=X>XlVA;v(p5zZ_D+
zST`H*D_PVassI*AP}{Ih!v+r>%Ib{u1U!0-1>}?X8uSxHP<{ycx{0EwjY>pue?<JB
z(bIq6cE>EA)zl?BlWjLU7dlrC9KUllQ{R=T>0UvVaKN-PR()g7^*x`R>fbQY0{gpD
z{mY#*?5q$M5`(F8Gs17J%`2z+KPP=KoD*iu4{c_eUgr^Qy-|0)Zk={f2iL6#{186Q
ze_?~#h6&O9hCoI+Nau3}Dxb5c?wN;XMqodyb<dppeMRj|_qrL`$_#pH@=9WO(V*G>
zX+<sR=vb|Fe?i8tb6MJg1y(JG^?_}mo>Y^*yVQYox}17}0-mhg4eh$NE*Mouj;ZxB
zqgtNl(MhU=$;J&QS+2t9ZY*rbMx9usf6TwnuOlel8T@(RXMrzB(b(8J4W;!ubdh?A
z`rOn(?OwI;22rD2w`bk>wjcj+<o3wNJ?Zwd4@tv6zqmky2>-e9JZwfG_x4A1XDY3~
KsM>d?mirHAZ1u4K

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/layernorm_guard.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/layernorm_guard.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6e324cc067d39a1d058a45f82163acb48803546a
GIT binary patch
literal 15289
zcmdUWX>c3YnP4~202((yg7*cUA|#QttXsBZQ>HFULL!NYZN?cCgl<xxaFE@gc(@ru
zDa`~}IU$%hMKGBiQ5nw+HPV)q-AP5MN>!9UJE@&NfFLh1U78xFqOFvFY!z)On^gA4
z?)SY$10W6BPR2WxeG*>3<9pZlzV}`4@t>?#69pl}To2xShN6Cj88uWF5>Gm`6tzTg
z6i0`sFg-%knAU_eBO3D6hM5tjP^Jqr0S!%s^&<vSq7AWO<A{-@nUE=L9x;b4BNmd^
zg{)!Qh%Ia%u|r<Z8A6V*bHqtg#^OJ22ghEcN2)XwZyE1VCsz7$#%mO3f}i;>HMeP{
z93Xp35Ne9E@aFODYOeI<tXq`ZwkWr6QSR8H+_^=0Rps(g8&`dexm}o``W>m|Y0kxK
z#`{Y%S5sUKUq8xlwWU@g4O|^x|B3K=uKpS`(pZM+om>O-zfbM8^yM12C~w-LyqRz2
zTDGWb-J-k==IiELxOTo}w2JGvrW<M1P$wv^6ZW<X+8im(M@@~tsHRHa+d!!pM%v3(
z*2i@N4RshPuAl3HR43_q8}!`EGvg<f7UglVmu>>-0m$v20@*XG@eF)`op@;37!sy@
z0e|2U@5P+J`vt)t8RI<~SrZG%`j`-mMI(@70$lKlY>)6WG2cXVniqW0QQxy4AR$9T
zb1*V774wZv`2{Y(mQBzAX<X=&zt!Nul&JBtN;NspO7wUE9cmeVRg#*gCCycbr1>P6
z2+dLR8p$AZ!5E*^7bR(-FYPD6L}*DnuLZb9NiWt*R7|JNYFw|TN?%E<9_KlLo2MjQ
z{EHkNGpZ2dgl(xg<qLDPZY;r^y54d7$Llx^r@h161}tKbm^p}x<C<YyBjCs^QIZj7
zA<-n(AXLP#v2@-P@yDFl3kHeebdv6lUL~Y?^QX?;{Q1wlY(8dX1)QO{R<f3P6Rb}s
zL5ypH9N8VAUNU{=-Kiq&OyjDsAnR8miB)lVf%33k0XOf1{{vwdNMFkZ!?NKr&rd*N
z&eh-F@9rIQa~^l!5jSQqP0KW=R6$OyAW$BYtm9&{6TGY&4MqJinLaKvVlXr%>tazM
za0xP#LQK|+lW=%=nF;g$h`_-3Z~&toi%ieR`e{Bmb}1$^7lVFLrsrfWKOxGdF(EoN
z;S+;%yzGcXg|P1;KN=Ny-<Utf%lfH_fM1LW4(y2$#26=Qqf;^2FykZbL<>~7%fjzp
z8;FG`1}1_NeKEf<#>e_*ruH8^aCtvJ5DH!#n3#=Sibe*mghJtgaFpXiK7NJ|Ou-Tc
zLjGA^5C=v>{(<O(sAS1}2s`MXn3XL;SoD!1fgcsRVdNJ0i9^6W;?%l}vf36-Bu~VT
z<*n5VuP0x>{%7&y`KGo^(~iWRg+s|hZ#{q46(9O%gEeolBH;B?2|C}<m~Kf7V)m_5
ztAkKrVB_=ImOg-an_ki{>Qj^7F(%Jqg)?Jl$lD!n?_D~ycql!2V`h2g`*Ulp1KHMr
zyGQRcnbv_^>#<*Gv#qCd)n~HyGYKZY^O?-f=M$5uJ;|ALPuA{U8G2yry}#>z?B@r5
zF`9j8IH`SH)s!C0wC%mu_^@gyVJP)KedBA(U(2-(thMgVw(h;xai7by?#;EH{zV|$
zdM;OeK5IXpU>@1((uS3;Wm~5ANY3`c{hqAtWI~%a+cV~-d{s@FS=^p@Nm){ZC(oMS
znq0V&ypr-?pUtxM2xwc_m)w`?zJ55v)IR}aQh|a_foTfa1Yx_l{m6DXx&cxgHAMq~
zYrHaj^cHoCmKoS-QN)&Rp$lS}eLmz5U*!Bpgq@Im0e&JfsyMacS_#~2xZ9O&-zT7U
z^9K$$B6y&YfLcx2aAXh?y@(acNNH|m_i}JGmTlclMuHQ_o*ca3J9=vHf~>>Th)jEB
z!_hNec<HpyE8EV0;gt)%FCIJZBPGHB4g?A!B|E%dIDgi6^w{w)oImC}F*tloHlMoS
zJAd|q4=V!Ye4r?&T##C#Vnt+*7dS5TR}37jatp~ucz*S#z!w$1d6!fUi^qIZ;AqLF
zaz4W8YRdYq3~yE8=WC@J4mSDELD?PE;D$>EGQT>h7R#}wQ0|h<SVKkt2`ANIN~$OM
z28sSyKdcH}fNA^~gy}M1YQE`XBbiBgv(zLt&jD8FTgui`Nt!lDEkx24WcYYdj+PJ=
zD<&(+R&{UYTP26UNlx*i#C&YFL`s&ex$RSC)%Ll~$}P1@?y}L44{r*RTU`UeI?An9
zsY<+B*2=c231p>KPIE`6(gN%+Y6b0*OEO_EQVrSL4yi^`cB-?iH{=qVf~1o=2!7h7
z&XRUOm!Axn*XAI#!0OsJ(%>BEKb*FxUv!m?TWJ+tQWws*!dki``^wsGG5Y5-5~rPS
zFB{9Xd7XgIZpni9QFm&-XA`Ek6*1jg)>9=+>!oc3(>+peIi{sr=&^K4J&;$<()P0c
zDxDyW<RSfS|D4Xz4#_SY_>?iVpYxbIf!^yX(~{J)iN1hZ=KCTRfUZ~rv#*u<q#YYM
zAkx^IJ2#cVen!ldVdwi5ZX*1tag+W(f}8Z0?Pev4Y?S(?mU3F0r91|&fTED7#$)Pv
zK*KQX7ca}YXzUU%fEvvBXM&=K7WM;($1DJrDcLk3M8^bw*caqvy`R{ZG6T9WC)8uL
zf#}7%pOp<_a4Z}JAgwqRmUSX1m!LIIL&xwDP)+s>$n>i+{hCa_BB19)KqrIDoCTd(
zX3nFMYXO}%$nm}zpAelc=4LnK=17h{E9}B9P!$!P#b`H1MfE}0gW0_hfn6M(_KBbt
z$7CJRo<XCIPK#g^M?<1)#@guUsL01414YG*{#D;azX;0sYs!~JNP;gG!7xP-C7`U9
z^&<pIXvT5tu*8DKK(RL?$&u#F%tgN-Yp;N{-cA5f!7l-l904?zW~MI;O;5}8MOioF
zyM)HbtcVLPvjaX$QqdJ_h~ls4^`q0A?=mk$_>d5Q{tm-WoB|OZr=A|7oYhO#MQhrh
zbGTQIWF5QWryf~s3ulvO)9pD+bNtx4p0d=uEiBD0&aOCDyt%sFS@Z7r&?B>T;b8J$
z>Rj58GrQwM09IZ1?a6dkYI?D6WoNdkKYlu2Rhx=^?;I)VUTweW$yV)%p9V;qJ=K)-
zrQgU}w}UZZwWVC&_NQH`vBj2^=B%?XYwf#h&RU;~9|u^6>)V5=Sn5P_K0OJ#e*9$K
zUY#2HUVC|oxjJ<zYi^AXJ=If2^MWC1Na@qVtJM$LzBTrlEc?tqRQ<T|hmAS*`S{>3
z4VG+8civf*8vb5;dN{pp@vAGZXKQw4oxARy&N^R6=yCmExulM-xK=MbwCq~5?8#d8
z{KNSlkNj{XXL%8f7S@<J_jc7%<6>ia@H;J8YipKmP0$|#rs^Kqor*D#_CEy6WLMVS
zm0;elYfeuB{`O?+wk0fiSABZd;>m>Z5o=mtlWfYBwq%`ME8N|N_t@tiLkBZp*f44T
zO4ko2SG!iGZ}y=vRGqW$Mcc%&Fq#}q4X1||zp^s<(B@ek%-Z_E<SA<hpxs-7f`MYM
zN-&RM0}mt*q+UvQE}qIE@&MVc2AJ8wbSzul89$SExKfjgED!{v|HjFyClkY|Gg+&9
zrEB%I_n7?v?W{>n;kvR8cl=b|>P!tLUyUEfRpAcMsZ)#AmE(6iAF}(_*n?U2;7>b#
zw*4pDbL=tP1-pvo!L)Jl?5h55;GyNvn&oiTa`>kge>VP;@tg%LNrKZ2o0WBTtZ;w7
zYn5Bwe>0qQ>`v<5cQ}C{oav!--QwA-qdlSf<&ND69ZaC>dvt2sqAANZrq88gKRB13
zULJYCZo5}=-+6z}e{<g7|MSM|!P5#&INLW2^EuH35TwpPkoRRcD#QPs=^$p4tmpVE
z!2mEHfsaiIkqrhLD%bdX@+w4N?m(=BO6JZuGVx78Dk(lRIPWT`Az)|HbNwgynA;!W
z+{DG`1{vYLaMm4&PDNsF@Kw0|?y=w%KH^rU+V5cmRJDMwPH}#@2AmK+rN##mWP%rB
zL0*(=!c(DG5K98QC`JVz>CU4OIBcpzNKr&l<u2H?Rv&gGh7~~JGF1Hy{KPJZfIsOe
zYt_Qb$(PqGJF}LZt6$Dp_JAkC>{v7RWX(MpriY+YI1SK&a$~S)GUB-9CZkj|59c*8
z#4-sbHx*jr;Kl;1s>*s%iPXlhR}v&Gr%~(C8438*dOyGke84~isKSK^=xi0Rk*o~|
zBT$O-R8YaHOO|aYt$ct$-^EZga9P9-kk2c8ygJ|y1yCfGfd~SC+<~8nLNQJ~vNxx{
zoU?buPd=*YdS`gGef8Yk`dhE(x)0@Qo{M`Q)zqh3SDm?<9dU2o+>l`!6r`bC6B;pU
z!ib1kBHlVM+lo;eMBqObeX5TrP;T)dIS@kq8q9es|MBa9m3brh1od%^WSZB5mry?k
zB+1d2K}irbFH>KqNg2X{kF=8S7m!`B`8jP_E9R<4V*U{LO8#xhD49kzWxdiBp-iLY
z^R4I+-(r@UtG$)I<6FUhhVgY*n<QODxQae}vbs9NbcxU_v4t|m0e<H{0JE&Pr>y7l
zI|d*T3{t^!JW9uqzDcO$AAtR@U~_|Sy>L{?O@ig$XRLWEc;Bf?{{GvA70e;c+RFUn
zwph_`HIAoaQ;_s39T%C0UD8YT%R_M1%rR6eN#Kfbuw%vBfEXTF5+plkz_G!eh8P3K
zs;PNL439GjK-(4ZS%h`Q@YJiYPPJSzk80+tVtD$Mx+>zYg4+}DK54*XW09;|oYW$F
z-GY8f^~_c07N@re1G`Pb8uXG@vP(|MAhD9;j`4QEyFlZ7U?!u;eoX}n2&spdK_GL`
zdLrC5NKrI3w`cfLP;?W$*p2>fHy7o_$hMeUoSK-33Lx}&KL}&q4L1qyBZuAl_MAT2
z{{gh5K0u20=*kR{J=nEkenh6izG=TOA$lBO7G3hgWrAL@a};@L;=>cMSzjo484M+o
z7El9M#DIkl@nJp!5)f_*geaDyxF(WAwwwo191Qcv1R)9rMc6+>I6sjnM3eVa6XWDF
zFmXY|UWxcYyGk}hl#2#p$|z=v?d;&IzT;oIaBRqT;nc`6WwF!PY!X{AV_>?8NZu%%
zHU&ji**4l7!q)-#zrasC15^rk3AGel5$sRyzd95jj87I^|24G<Q{HSz%q5Sc&pj}=
zW|-EDxit?a!l7g|egdk9ntJs5^XXj=%*`35Ib&`n&Uf(Y6HQrjT}n?ru)8y?J7afa
z>2z{By({fc_moP_&V}cb&!-2|dmfnEGE7^>+?I#3!^y+xs+_rbg??ae&oJ#7b9>%k
z&KT;z%2;?K`9}KL>u;{KKd^UZ*v^c-6HDikbI|qh1ABXhZO_=--#3`zZ-Pp_Fq@oB
z58gPje4+^c*jBw}Yt7nP(~~({yK*xCS0<^8*UQ%mI<BMXsg^R@7R*U=>J?C_zmoFa
z>3+BGR^NU4AK9O?@3E)ew>sAil+O6nL|L2*&n2IO8;bU2bLwk%zVz-_Z+-Rtu75o6
z^8*jfXW~Qe*EFX6HzLcCTx)-}rXS?L&6(<dr)RC>K(^z+y~bR}P|kJ?Fl%t8PCPI)
zJ+d`sn$G2H=QHg2$Byc^UxJ=@FWXk>oNN2)V9wDWKlQk#ch$K%`0mMDCv!D><KD*>
zN6MM<<}95nuVl=9U=1=2>8>o(29^=rhvZpXp0$uP#F!vvj`KRym={b*Q)<_BYrd{N
zHJ_lBnzziW?F7CGn>*_Ab=`TmT5+}ItD1h(U9Hov_fi&nib-*a7cxvE(O&{US;e3V
zl_%&cSfY4p1g@M%G`yB)%5LyMYr96P%v=4A=w@jTBb(3QO_>+?!tscAgPLQ4E{U3R
z9>^HfoQetpT=7;`3Qz+tPP3Fy?tD~+3zz70B~89`nZao;gV#oI09;WEE%m0Z1^QvG
z4g*^)RTWc`u}sOStTsXGN-a0dl>w*<R!4=oGM_kC2GpWYT8pOe7~qp&w56+jBAT=y
z5*QE|AS&)?Zx<Ai*J1bOP4nh?3kWT95h2Ayp`{sw33Iz(ErD<W;pr>dPS7vqE6xN)
zpnOF&2S%fOMa39|6y-yjAwe=#QlliJstADSVt)UnQ={%VHwdRlH0Jh3Bm7SHG>D-n
z5mUW09`|-PUP|}QdECKKQdoYSywlBxM7{u90`&+bS;#1UtD;U%!~u8!XJC%9LEwql
z5@s=H3PeHZj7>$SM8d#jr|7@J`@kRs2Uy@TNIFh7&G<+QA9xOl*|4c&tE>&gW;V+v
zVp~)I7ybi`D_q0~H6S95$aUieA)|;G1Iz=bFjrl6T>A@!{~KD1Z6L2f*0fT!bxW@-
zzLGG#4?^cu@>J?#y8Xts<!vh+%R6$G9`NF9k}P?LbIG!3`Hn3yi1O%gzS_04e{p|$
z{6TeZ#?qUq?nMaWqA}e8{B>-3Y~|we<(y+XfNv5+c~{NSnZ+~T@uuj!vu@4V0X~bI
zvn!!5Tp?H2ExoY#Law?iG4!au2kyl4ma4qPk+;}E?B(m)^KemK-}%&OY%nFQ2|BSS
z<$`;7qh*b4$+9ir7ph%#t;X&S-`n+&J)CdoOlaS-!M!wm3~H`zAfbK8Hs>3=q128O
zMCsHBMq-BTBJA^)&im_c{?8w+{Pw@zJ>nfc?$OJv&lmBBd7n=<`F!w<U@C-Zi_Zs-
zA3{ovfOL(HTYoGV2=nmjfD_)rJ@a7HgHabo*VO3ukP!PIx<=)7j=avfZlTO}Tx@k+
zzM&=WYWS#nyRQ3*meN;Y<ou9<tkM&9vf;fF4o(>HAxLa+j9}@e0QaV-t7?HA=#U|(
z%-{lCt$S~2$P{Ire_|pu>tR1Dsfu{!RkBnl(n6FT@_u48A}m4ucA!8J5d!`T7q|r1
z%*|O)S-@$yFSRG_Ouw|!nCUxw?~Nx~jYYpsX>@u;o)x(ZH2pU$75H$0GXZbWc!!1W
zLVq5^XIP?$GbpT1S)2*%esyWfP<gOyY3S|TVrj9>OM|AxpxSp&5>WJwGGSdNs7)M*
zZVrSuN6*2eIEL48I$l3s;ZCvup@-TEw<SvLs3}2>(wyO%b;Jk{L8%cFXND)A^oTh@
z&CnwjK$Jzc6*<ZYc%#F4H*+=)rb|qUK>0>tn$ToFpys<Ys0To89Q~J?c|)wY<RplM
zZ=y@7Py)h51407S2_=*qOXEeMqSjGVtSGW7*~St*N(bRB!8`P~igpw9U7X|pgT9M%
zgws_n_?QiXj~YjAzA2P201q9tzyB!+zS2vnN)qq{zN12|%sm~9U2^mA8d7QDzU03W
zjEt2xFW6FIzezo!rM?fNSj7SO$*JHKe+X<YcPv`g`tYS7$MF$jh`D=%{d_-qL<N4E
z=#EB0v+i9Atf$mDFp(lnc!7X)U`O%-ve95981wlE0m+(3L^ggAF4llu@&Yjlg*N~z
zWky?3dddzE#o!K|P{GApMtFk8hel;{+4Q!gOxZT-55UFTtPkb%m?#^4zCg$?iawu+
z`iY8`xWc7ZplGgcBiZ+>vp<SQ9rc6Xfi!KTx_8|DQnul_gzXV)O&Z{x(?hl~UtODE
z-eMos)-Qz?L+|YUyXS5`xB5o5^X$C{M7dfo)S4f;YEc-zQ}cICH=9<!l5IbI&kIq`
z1uwbYGUglMdISWN`<VpukZl2LK@oEAv26-dgjo~=o-=aRGLYE7|BEN72uqDKrL>x=
zq;7&rSfpnauJm#M-c%F|E4tq+jZ!?X#isbSR^@x8!lIj=re-POZKwb??ShYR6C#;G
zGJ?z72oL^O^wY|E^btS?9Xz*afjG($L5i<f_-jbcwQbtZ%@p-2?khge2EQ?DMe}RH
znzXL5O<A@nJ#^#r^67_c?}nP@EZdwOzVX`fYwxk!lwHAHPy-Sc*%egdHoDqj)fILI
zN-JOuIbvm>WTpK9SQL?)!X5f{f$yQ{6aE6K!Rb!)PIAVG@`+w8kDf^C&1bM!e@jb{
ztH?}jFX9T}_$UVlRi3%pO^7Zip|2x;Q9+4QkL^uFxpOR>PM!vx2h~ub;WaJ2x%ehr
zuPw2QY`&#^t>xKl%d=1Iti!ZUu|^ZYu}Amo4=?>H@uS~82KCJACFF6-Dl9<HLJFfr
zjL<nKYl9Jde;SR36zbuyhB&`gFok46v^3dTU<Uy{6!Q6if>xo5Jo$T3S=jdx6r(|0
z#brqR?i#huQniiw_HO*&vpwI{`=Q;XbK^B`^|}F5ECn|VU5hWT8!>01n%dUQn6gmL
zT2!gwKGD&+Zp9)S<)|TkmEo+t{WsXpM>{pT-ruq&ow95)dH@D42KC(hsp$(Ac&mtl
z>5tMD{ueCoPf=TdbA=?eDd78d)l~ty%fChHYvDltN9bPoD~ynlf#?)&U}gm)as+Q;
z>IWDRZukbK2m`DV__3e}a<n8OOBYoNp}zybTME0H@;xhxx^X1-acGC4uKte~bwql#
zW!bhB{VGVazCTX5;Y9wugqtdMbS1GP{5@hD^)!V${wGKg7Evx_S~lQuvxs>U@rhh>
zOA+%P+x!2kARz==)Yw3fpj}iZNH*3B?;`p>E<9Wt5Lgf$Uq`&DqNAar=qSjHIz@tP
zDLRC^Fs%1@L2L*=#3}v=X96Qo1z!JSEW{{?!+wm{_o%$S8rZhN>oHa0^_Ww5J*GDC
zdMw(+>!IkQ?X=GGTYZt&<LDlpSNIluy~D$h^nxow_$C%JYO!aVY#g16fL;slxdcQd
zAy%0sf1%MIi747qwVLfGz`<z5ACgU_w1BrpvYrn{;0c2AHylp<gNc6Suc&-eu^@Dh
zeob-%BiE2hQraK($1W8BP`^-aXLL#nR71#LO~|H8{FDIPDHsrC?Kr4zMsTG8vznO@
z$Zd^cE&OMMM{JY399ciiN8p_V5#$11mMBg))(?NZ0nhR{nLUnchvg_vl_dm0l9Tmk
ziHn8^OtO!goG|d`0*Vvoi11GUk2^22ppLC;X`23xo1)#nqAdSH)%+{fmZ94Ig=+pa
z)%&m1{{KO>!p<4MRd0dYj(kl6IIW&ITj+-M7imgU9j{%ZtFm;}FJ1fo*}3~eomQuR
zqSa|MKmZ!{8;w^R*EN4e)1AOZS<^S9tI~P{$u?8)ZVCQ+WW9xCTdA5lv<lYSNY+ik
z<E2nCwBAm#9TdF4g4>$)PLl1S>Kf3%Snnp;9;(W<)V$dI(KgJ2(@0}^V#OKQNcB-D
zFt2O0^tN>Ojh)Lo*C|M@?*0fr2&~ktTNt`Ay?dR4&#LZS%Pk8@-m89sB{2KCrhI*K
z9`v4;_I!QIht)$g-IO<2$da^}c^|G}&Lq#Q>o5Zc#OzquncTT<AX%0&+1HIEX`)yw
zX=Nr^3)Cz$C!5!;Bx|Fbu5~*}I$+FoCrMUORkcsZkWamuKDs;Az0|+hzg7hg=sZs;
zC|JKlZ`dM7%@e1E)~~y%muW8z8$#=!I=X37>ip7ci?2PUAo=u*bSD%%yL52z;BP2M
I5(fN#0R-GMMgRZ+

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/op.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/op.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5be779b4ac9f9982a08422d83a0cb2599d123f3
GIT binary patch
literal 1656
zcmah}O>Y}T7@qZh*jYP~<G3j*Nwg9n!j&4+2-Q%bR3#-ys0yI8NZre7vpcrep8e3w
zIE^_a5>gs*@Uh|qN2*@9@gumzP$@8{AXK3qkkaPHsqgqBv4{nu-FM!3p4n&SeP(xm
zo}4rhG@^YI{AeKbryLBMHb_njDTE#)ANdMFw(L_x2~&0|RBbiXY)wJF>T5&~4ckx<
zMvbYV#ChMCKF^1lulvSR(3Z_lH{U^szKzvJp^uD4+XQ@e6zS)74)7~u@Tq7Kry9jE
zj0yM~WAGf{b7Sx+Y_KBM8VeUWKj&w@R-O(BJ0D36>*72+pF(&VG!`#%{>0D$dU^be
z#?r;7>|$H_4^8ubHNoqDH>o*+##cIlpw{e2tuVJV`9ex;lvI)8L}WPe@pj;0VQ?Do
zIC`M~TT;YKz?_=P>zF#Ml_W9c*cbWrySJVDn;$#tw>R%OpMAb5ly`-4-5b7h!_BFX
zoJ#O9f)!I={bX8$_DN6DiW5v-9>kHw>n^t*#<a<-hjk2NvfN+R3YZne+&Wu*`Ap<q
z9XPmLtLhT6<$6sk2or)s9PtrVig}Ah%-V<}eE#sKEygV#TcO*;R=;M;i^C)!m|Ar=
zN!sUgH=dx9CR9c}p$CzVcZBBd1WaU{tyTcWQ6`I&rTufa%)_Ld1j#k-(i-O1c3PDW
z-fvcLnFL$qq|NJbRNf{eEQhg=iGz2r*WxiP6SoaI<tlN@al+tUPTIogdqCw!C0}or
zhOmoHrcl0k3Mmqcpa3QYy_$(5t8qAvSWF!sGmi!dh>O|rxTi~vkv4i@=!vpHb3m4K
zp>4Sg3!Q;4Sfm-)1>z#RMPje%^iZ0InM~?Q8!Re+81&LGyeG-Q-t(|`IwP6O5K5Os
zDrRC@TC&_f2B*aX!l>K}mA+D`D)c@oMMN4$+X0Oup@PF=qUtg(ZKw(r;$TeT8jK+d
zv&TcWQWcu)gxUyr&r^}EyUgXBiVSh1TFb3rDt|luoy+3;JC)Ul%!hDfErM6+RT#?e
zgZ&NRL{${!w1^b*FSOD{E6>r=v8wOi+`GBIy0>~*Sp44mRlWLy_ltV{H?weL&UMYX
z-L=s)J9Cs>=w=u8?i`!B&eFk>q=!j%vQs&z?B024pv;@cdUoI5vtOkQy?Cl3BmYun
zCwVlL?>snou)F?;YCgKrxpi>saPFgL>e})ATi-d~I!E(gbm7vj{I2I7ec5pioWq41
k&-BU}z1E#y1NubM^vp>P89BKMB!$^m+4R{`koD|%4Y!ng+5i9m

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/solve_tril.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/solve_tril.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8130193a9d059a30dc2459e8771efa84ae881a4c
GIT binary patch
literal 27843
zcmeG_ZA@EPcJJB7U)ToQV1r45F$uv5AF&}MLr6A|4EfG<2s<-nlJOYc15Aufo()Op
zbC;~PT6;PYrdkQJyH%Z0r6HY2L!^<0kyhHMYSoeY$F8#r`<iOA-LzHyF_Ubi-9PQQ
z&+pj}^S}^HI;+l;eBb>%=iYPgyZ4@R&prNUtyYb}<CXoT=Zgy%_FEL-A1&v39xKAI
zS&YC4+>7<4-*_JmVTo5VD(#bw%KBtDMo0;nw`f$}CujXdUd5=gPs#e_Ue&0&Pd!@P
zS3Iie)8H71jaYaz+4soqte^K03PSmbBpvE2A&V&)p(Ip85}$MkBh(+^eWhdxSvr9Q
zwC6FRm@NGXMrg>ApJ0D2`-B7WeO!W(vJo2(G5aR8gzg8J2mb_5$FceLX482eQF0oa
z#-{NBz&Rkf2DJ=fMCoblnhAV3z~0a2%)UJsjnVjh{U_3N+>G?Y3K{lcwG11OhHxlv
z7{c!x`IfPm>$9bKA5jLm%K7>cCQ>?bfKSW53Bx+^=5^w=>%>=x#}BHB${%Ft$<vj8
z_n9`JujT)WzA!qfKKf&#@U9IgY~FyvyEjGQJ%t~^e{>YC-hjdtq?*7<e8idks(9a^
zgs?(ND<96jiJEod@ks@S5jIF|%jV{NM6GzKK_#*G2Su5$YS(RiK!S6##Z8!Z#QpYt
z&k*3tb_pX1dKr0;@&x_9XJ|&V<4pM&MUJ^C(lszV?z`^t_z2Gc8Gr=SsQWtU3X;Bn
zpK=joV1V+B1^tv=$`pHiW8*>B(72l-7`Z3la*q;BDZGQDZdYJ@Y|KvuNrEwSU+i@C
z_ME%u`jej5Po2AR?v2Zg%tMkSBMT0;IPFqO1682V8UmGqm|HEAwzXxfqvL^~wV$;5
zeefH!PO2NM{o_IFkUwZ;ROha^-s<eR`1<7mZiWVE7=~5@G^;)@1!orKSpu&FAAybI
zSFn4M%Zz$p+!Y{ic%gOouzNTob5lcs00LqCLvM3%bgX&IGu9Y{STfjnYy8M-N3S0t
zo4ua?=CRwsVZX0=!s{Jv9`zHX*G1kU2gZRi&0hCyk_t2rdfm<bu|RXc@0|bwQXX&9
z*lkAH;dPJp6Ydj~8L;ev-*X)}Q`kJQ(2;C9`K2t`bn!XFV0IY=t10#jHR72JIm&b_
zS`VM0W>HnhhcexhFe=~psOzSi8VfLL<P8MfLu7!FboD}qD+c_&LC;WtkzOZnGk7ob
ztDf+?eEy&-Fh&k|++NQl$>3)h#doi~?&`hN$!Jf%(VOkC0e0;NMCeh$kEQA^7`wAr
zFhlVXZuMnzaSoALGxOw=@M~A7IHabF>7q%1#=hmSc4|W!T1ow<00yE+&O=LSH6fh@
zf=ogR4{ro&nfnAY5hIAGIS*fQE7%B0VQ_}jAzdE45?WUnT${sFu$GmEO6XF$WD>?w
zNaoYh8d`?>D)W}1R)rv!pkBgp$Mq6{6Ec1`6w=dr*j-|OAtA6q3Hr9vVHA@NUq1~n
z4S93Hjw)n?eOL*MJ5(nvstYaW$5IG(Xsgo*w(e|=aTs;!mdGd3SS_O!fp-OMK+{{!
z1DIsAd{9CcrEw5Y+YFR4SVxKo`6mDiJ)v>|EU{5vPAKkYcD{K=JDO{99)7fkOg?u|
z&nKp9I3%dykc5yCvLVSQTpdDYL2jI8)99i!B?!ry+!eHW1Wi>rPqx(nnVU(r(*^;p
z3^}MENE>Jq%t+i$yBG_Zg5`WJLK;L<GW!rR=pU|E(Rk&@8~=tK{SD}uN&z;pp22t+
zbR|2U(qk(#s%SkMTZUY|?NBERZ4tn&;Ho5e(UzPsZ$je~+QrSk?5GsN5Tk^iuDlMT
zJ_nM8Hu2O6nLZ52Fxo^LCt+<4nP5~Cf_jOKYIYQ$QO%En?5HO2oKamRfMpRhj`Px0
zv`K6n&{ZR7(ad>9_T)rBkWk%M^Ausf5U$s8>^AnjiV?JS<~)3F5jc!{aqJah*oByQ
zj0lUp_%emMgk8re)W~OOBXUnd9YnFn0YCaE*lgg><c7V7uHQfIBiz(&*piV0*BKcV
z^pOx>HaO-Y{5O3A?m*B*p*$YnkiC>b&12MKlz)hFkGebrBlG&*1nl+vOp(VIY;iJj
zH|6#Xk&KSr()D}&1J_++L5fifLQcp)p_P&;x;aczBvX{mD;@Rt7-?X9lqm|p<_6-4
z;O#MzQIlSBl=KB%!Q1v-4Bp8|Iz1E`XN-2$4wBl3nztW0HsrvN!>AJE*ui0>9#;@{
zgRcHz<n2ce>jRwqe%P*%$nm>8jC9o1iJWtc+&?%NAcKr_48`<=BSYI#Mvh#UpTQw>
zzst?YAl(x{gT=bRLjh-wG3M+h&E;sj<!EzVCn+E4rQU{A1R~%A@=jqd8Zf<aRy(7O
zxl^UqzqNhbc(-u@PuZN|vZ+(cCC2ED$nDtPxPGoaY@9mvD@Ey3jc)o(<V^HZ{M3BS
z-80FugDFkJlBPMSY5q*|x$=QBrFre~nmqIFWLa}cb7)D^lGL<(*7f<>2WL~7<10m&
zP9K)OP-EH>7V7!9F<G`ZrP;TnsZVO^?;Ad?xL1+VIC+Ta^!SZrS$#@lU(z%rH4XQB
zK7HrjJ1I>Y2W>@(X-lKEk#iCJiP03(&m4)Jir37YiM!`6gs+69kJXxKd&C~?j8ZAJ
z1zM@re&CLlg@+;yF=MRvBS-A*xm`*1zSSwUG2)}n*w9=<Qe8K7>WNYnz7lmr-i`($
z*JAxijWwyXPIWG;io=2En~|F_V<Z%pBz3l=$~M*YM5m8-MTTRxh-<3*SH*_My3!?G
zby8QotkFjCs55*srjPZ^nd16baeQFD>+bM^JhAV{V#UL@=Tb?D8Yra1O7zo1k)i0o
zeBC3RV@cPV)U|%r^LgKczLf4{MEbO3U)()kGv70BUT`c>584(T3kM%c9(FC>N|l@q
z%O30Z&r9atT#(G4S#U4f9t<wJ7v6p7d`La4Pw6j&<;yz5v?t;L0#I`m@wP<8ft2px
zlCCMKYr0Q;I(ct0rE3S$6>F!DMvg{LK|Xh?*qTsVr%pZ98lsLL4a96Qcf599a<_iY
zn=&2zrM4lAKZQ!)jNFXgfF7{TosHj^yExyOtZH14B&(cBvvc7}(tLEWEotsdm2@R^
zU1906PXD8>+3uO{Sj&%Z#P`N-&UMV!LW%hssWL}W=YTrsN~ec`n9|sdIps$+@!t6U
zr1`-7sRd(7cQ_(lQDM5q6*X3*47c1l4?`BnU7}wqu_jBb%Nku2dLpWb)x`Se>f$xA
zs(4_&=kBcqeSCD`oy7^DcBwindm+bE#nZ}&a#>TltSOo9j&w&`XWM7mmyGpEWBuYp
zxI3lkUaqS7Z-q>yUeRExl4(su6CH?k%?!u!=(YH%kGt=7&$oTraj)ac!FYFS?{|Np
ze2YTcxy`e46xzB_M&y*C50+)(*sq)Av{+{drJ@Cug$<l%c3whLk~o(Wh1Ks{E+@@X
z6^s}7mdp93aXDy@w}#8%I3SdU!~SnkuxAt7|A}%n9EX#;|0~-DES6IwWH~#^e0)+_
zq4*?0&Bb>8h2qD|z8?!XES9z#@?#Z(+^`d;<s0U%q$|YvF}}YL7lC%dJZB=d8yCn?
zHsmbx;NtqTAh^te-Vx(_)^dPZ`IUHn^D2(fyb;I9eJ|o1qYu6!Ay+0gc7S6{!=NpQ
z{+u)-hhyY>1bD?NTF6I<@rqSB99}N3h`wzh3^5w$X^RN22ppP#R~(aJ0?McaytEqe
z(i>6+hEZWC1AHe?O+cSr^e(}85Tnno9Qv4Zcxgl*A&hnC1DK)LMX0okHfN}0{%~Ry
zM{VYKYctHP?+NO;)wwnO{p8NDy9E%%#@g-z&4+t@ZNN{9%67Q9gsWdczVAJPRw0%;
z=h--wHq(1()%{|=M?ktE2*LMMO)H{!;E(`{SYNQSYp(Q;Yin*VShoR7ykBd!4Ka7+
zv<V=JNLOg<I?@oUnA~N=n$sl^BsBN6ykumxEG7?T8%Pb2R3hi0Z99&+hOQRHT(f=5
zAb+Y9(_r9dNdo8B-gW3+DOLv|jd@z*7`-v3%$K=NYYUAD<j3pu=oT=6WKEYVSxbx5
z8ep7IjmT+2PBS>q(1iWW3J%E5O43J`aMn5C33&WI$^r3|6D8_d0UFhcA`T-59mrBg
zkaH9{uOX)$IcPjm$B@&3oa4wj0S+T2{6XqFD0mV%o#5DOsV?L{g&b59>NIjT6pB%=
zqb%LXIfI<D$T^3c^T@e?oQuf0gq+LZFmjM}xg3u4+v#K!AQtnWh_uJ)q<T=^E6C|(
z3xI@-Er8xofCb<L08r2cZ>}78kQ9xD#ClLt+T#q=0-y~fYkX2#!d5#<!XYXrTnqYL
z=$O|D$IKIOR7&#FHZMRNf?wdz;q2r8rL^s70i<oqvZ8Qp6p!qWo{BWaoJrO0q--}x
z+hp=^OH>~@61@^R9_vb~_atR|rn-Iu5+A*BNpDN)ZR-oz@c6Zbvx|cu@iC~wa*+5K
z%JLO4+#Ox$N$fkiSpTp)Th3TMyMJbXtZu>d$Z&MYa4cy!_Oq^^pa0@~%5WyEcx)(J
zKRKe<w%E>Knzhf^V^`wNxp(IAxvTSz#IDAap=rtBNE#fU**-t;;6Tc7Jgit=l~Xcz
zZN4k9t2t#jv}9;W8jwi#`~#@+cftywMX6!>R^%3l*xru2Qzi8YUH#M<kfN=P+(7on
zx4b46i1*Chny;Co=WitU99nQD_Z&`I4lhcRmSZVHM?&8L;zy<KN4D9znYx(iBRt+3
zSIkw<A4yg^7dlghwxqHxEJxt#XX-(a=$JeEk$b)@K9sC#T97X)QihWe#fk#Nejp{)
z8KZ4KZHZBFM_RIXw<A?`=$BeY7~fQV7W<QylPN=ILf^T?O2w(WZF86Y&M{9w#j9Et
z-dcP+Wq3VZF(;BoYQlj#m#5Aw%RoeoJewP)Xw1Etl?7+U>a2Oj95XG*AL)-Q>D!a~
z_MbU_-u^{<O5YukKhc-ZR?bv%GFNKu5)6u}#+1HkN$*JN`9YyS9+o5d>_lYZu~I!P
zkH|p`Enm<+Ql3~=mMmB7d!dk(%2zO1iG1qJ*BVS?1PU%0YLkZA&B#%WYIY<U%kven
z-3=|c6LtJowWV_XiMrPok3M`0zDBMbFSj)=YmC$9Bj=+xXG1fgC3ADq-28Abd_JYQ
z1ajNoA-OG_I_yO5)iU8_IErva-ihInt1(AHvpaV4Zzks^=j%RgxYzLITd~Phb?*zQ
z1cb;Sa%P3dd;tlZD|99_d*X_Z)pykyQL;K^{qFh&x)Pe|xcOttUCVs;rx)*C{Bk00
zN!7gdJA`2eq|Z-bWm_eEM(hi#!$YA>x486q5?0x7rO)3=p9PXOB@C9FhnILD?U_GH
z9UCNN$s>IRzC0k{7RC7TZ;t$VtF=?G9G@abqHWqndzCCiWe!B4bW}_xR3_AA5aWLZ
z<8UL1Z-t=dVtC36geRW{j;TO+^2u$@1;SGm#eH&t96!I*f0rP4eyRU%de?@Mx{Tz3
zpHa3m2J+xa%N~$M+4l9mD)ZptzORDdvgE<VeR&1Jl}|Enpet6LP6)p{ByPxgK>w|B
zRes_3Bc9)~D!=eM5YJz=Du0#WOkj<E-G*lZ=(I#A>lK?tvZp0`&}^6Yw4|D@7R*ax
zrvcSDrvVirrvXA3Vl>dxdqmCws_6<|>Kv;0aP?_PvEZ~sv8mINf>377X^E8<N~^`_
zW6hyYr3ih5FxH{Zx~C;px-vthN_1Kx7(W^Tm6WfLO6=Uh&rxtjP(uqP@M2V|$)S=(
zgi1mf>rqLu&Y4mTZOKr{l0zk}fJ(YoNF{dG6Hv)U3r`iqsAS8bQk4jmgfP~ll5!m?
z+32bam8#g2w+imOt%9!Pe3i6?^I1USG_C1c1!q8#yk|fg?KQ>EZE6K`&&%x(bI+Fc
zZX06mNzlG+KuoWDxpl1DHpJXI?%y`V+<kVv0HWABQ(K_jojnhpy#>N^AP=5>1;TSM
z51zUL;c3W&XMch4H0HrmUm!e9u**OFy^VL`nUgtwPTj^%+@5F0n%*53M%U-Srf?Nz
z*MBe%E^bCD$WFXrQ@9G#uEtH_QWT_JO@c9x1d=(=#;LH5+ChV&gkNXr3SkKLO3fRW
z-#8W4=7U0bfK7l4pbPahwqExtx=9ERu&svf$XB~O=?7L*BTw#wbh8jY%g?N?k24Ph
zA+IPx4Z3kP{qjI-q7UV%PfH#M`RdcKCHge3rB5FGO|&yl3tC~PCk^~T07q<JwiRuk
z!`pzx$wP7^c5T~$C@xhzvJHrwY$K<RN4Eh{e6Rf4HXw4VSxz0>w+%6OA9`#X5XJY(
z9ovSOTgT(uhM2ooJ|Tc8rYm+BbbZA%whoKwEQ#uhm4Yo4bP*07cE1HTuh4@FZ<>o?
zZUbE>G0bf{j`;{}5ygCD$1xv;`;cO7KDy(WU!$8vF~7FsnA>TmDCYJZ$9#-FB#Qai
zj$`hiTSYN<>^SD*bc-nF<2#P|1nm&Td}8~UK?8I5CN(g{XS3a6bsz*Y7e9l62Ij_?
zxK$tYBE@H~!eQce1As|<wkjMZZkGU<#Am0%VajmH>&!-l!<6BX*O`3^jR|SWiqAHM
z!<6BV*O^@kjS00$d^RaGCg6?NnLW0E3G|E&`Sgt6g`LT>L*QgJj;THrhi<z+b0X&?
zIMh|-WVDT`_aJEh&a2Q3rrt-G-Qc8^d|O)5@77kTAEgYSl(f1pB&9u&)`QYA`oa`}
zf+Wfc8p3WD0)pO<agdEf`o}Gt{xPyNfWoa@xRnpLP)NBqtz(QbBVA*Z8NE?v_RWV|
zs9}_us~NA-+{#xG%5!ziBsnM#l%TG&#aJa})F9Ra^&AmI^GeKsoJ;3ppsrj@O8{wd
z^GeJw`4-oGZfm{O)|#vPJPp{M!Y}ZTU?bvN-RGCIG_W<@=YM~-y3a4GGySsVwxMgC
zM-@9y@(15YP3_I=bZ<WAR<yrGRl-Fhztt1xmDe}a6aU64uzzDK2F702Xx3*`>@%Lt
zO^fU4+HdAwh?tK4X3DL-PqMkW@m1p!tLOT65a7B7SQT3Lio*Y8@&{YE9<jXXixg{f
zIulh*DSh*j-kH=pKXZQG{s1m#oPbLuuLS0L*f)LQ11?9vC7?~+4cSUo4F?r&nDCcQ
zCZadlODD)IQ(dGkYKoZ`8Xu`oekH|Ko%j>DhoUM%_fU$^J(L%(9ss()wyIu55~vs4
z*Ql&}Q7lI_le0HuN_X^z%-WkSo4Z-_s>{9XO`ex6_p<GK)%e!db0_W|?c}|tZ(*;!
zM^?bQUh7=l+VWkm0v6cv^|LJ(*m9$H9>Y3S%3h&Mi@1>LCZq9>2a&<>v;j#uMFz(y
z-vD>I2N^J|7=9@H`~$cVfb4Z6p-t|?+3=RYKRHOwW8cSV$&?0iawmqu+&)MPNyMRC
z1wFrzG$acZh2%7TM-$B0F9A!xa$b7x!wG3f0qMoT%qbhK;5D**<w0Z%n|(&W`b+Ku
z+P4`<A!QKmIHjKvk()DMZ&z|ZYu8vs%ZVbSMNTP#$Yv<}gw#GW#LKz(j6N*H7el;)
zjh6?@viT+0_tdl!>|(Q)XE_VW7_EXfB0Y1kJ{&~$FWD!U(a{BK!d$!H^g?w7v#Z=4
zKwdQxf}Qe@LLZXW;4o?BZto*&>?k<u1|#RUtmmu;t(|P%PHSM;Kkg-v)%F0S4FtWn
ztzQ34lCnYwOp%Uz-Bg3s(?m8kSUZ~_ZoJ-ZJ$~GJs7aj$0M^*sSsy~(X{`qfqyxiE
zy{s{Mdo~57zT4Gc?QO80ZLoIrUTd(jMohuWSHbTC+)xikTZ6U5*<kfk*0$EB4D75O
z_zjWtLNf=(N1@(9&jd7zyfIGt21qLykRJ*T2Y5=bRwk@zoB2)F)8wFg+#77SzJD2P
z*T0`dD*PUJwCu-`(=>#YjpyN~3yL5}(}y+ZD!_xtb8e7B-@x`22O$mhrpN0=v_YL1
zaF3E!cYy0(=;}0Pu0wj*Z&uJJ^=xn3-)nSOZ+e2mSrCC?_ZSN(Jrth(4?JLS@gNK}
z3dzhV3Y^P!JZ&mtb+lczX~DQ1pxCuwn--x<!$M}W87cG#1)n&^$OZ_{1XILPhEY$F
zlt19|dceFZGVMxvk%L696#9NCGy&O*vvU>|g$M@k$~D+=8bwPk_p)|97-ibF#h@>M
z$|GuXPg?w|&Kj4cehL}>0Fztb*Wj7LRvIvkcKQg|WN=1~#Tt^ubqQHrqPT8(&w<1q
zXVfu!<gbn_YNjqeF&L3uggY0eI;U=gYr;KG9LExlGmn(JV<YpnN6N-8dsn1bkpcGE
z)&q&^!yg*M*B+^=e%AK$V_zJ5c;ic3>e!{JuBR&9lBzPPs*KgdJ07VHO?53RRN<cQ
z-+F930M<Lf8Y}fd#baZe&>vPlk(sB?hI_yi=$kX;;Xh5v%**QH<znr!ard&R7WvuW
z<5KHmQ~mFZ>LU4y3DfAN&ZUiP?q($Z05yvUrbqvlfIf5h-wD@v(BloHZLYBW1U8BZ
z@)pJRp2R=K*&<HoLN{J1G$paU#3)GLgopBjjbQj&2DZ-_bLYj2Z@m5b>6|~BxWcH1
z$#KdP2zmwrjM5GN&k!8<k&OHl`+o?Gbi@;6RPg5rfgpKnjLI1kOcDDfG4k|;lOA5E
z2dQds0%*lKbST}&$`1Gwh;c7@g1Qf}=ssIu0#>pWDURdMO&G5JEvES|to}c+`hUaf
zevKVXVn?5pn`irG`exsoc`vc|=we-}yfc9re$~_(Ym2ufEeHOky*GiGmlc(X-K|MQ
z>k1~pCCl>qg#BcqzVo3aaq+#x1y@4$KHTQVB?-u&#w5lm(-Lk-;)dvjWX;8d@lp!E
zyo{GlnSNM(r}`^7W~qBoB-6@&Q@JmE?q4l+;qzbw7%tLlBid+x{M_P!u=W?q*PmGG
zP;@uGT)FRSlpP?ebzt>FtB^=mN->EB;92fiVu2X>2;aLRIf1{8gIQOl`iJx#dPU0y
zb;w!(Sb1G3VS}X@*rB}|xw@ifg9gOd(h+*a$Og->GSh6wOvl&dDEM58N%lS012W`$
z179g)Gj&OJs(oLBX@i<|TQ`Q|$Y?F!IyRVX9UIKHjtyp8#|E>lL&3GJV>1mxQ}gy-
zE!TUt&Gnv*?Y)g#cTTpdb!;%(IyRVX9UIKHjtyp8hk|Qc$7Xs*iAl6DIqg5VY~A;9
z@!jID6b@XstkAF{MhgBXrRB4l8BHvhEUjHBf(XcMte8DGb8rP^1;M4f_=i{TT>V-F
zA%sQyl>~ghfBt7W7@@y^{+5J&O-kVvKs%$qm)g#^YyP3db^+7;(_Y&Jx#oWX&7=Mp

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/utils.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5f82c2628d57d703f332c46c328f5d6e81c162b
GIT binary patch
literal 9355
zcmb_hdu$s=dY|3po0KR%^p-5@;Rh{Qviyi&iep+2%NI*>B-<DBlJaQoN}{wR)!n5m
zDOAGb3|LByT1GCl+!|*YFc77_16*8z`fxzc1`fESEl|>QDthBXeZ3TD{-Z6odHmCU
zGs`6@#r7dUhv3ZY>^C#teDi(Z@0;0wE-Er1NWA7Rf}d3&^hf-lCPTKe`cE2!E+ZDP
z6py@0NqH&qOnYfkGF}Esn%9K1UM+=b7+x3Bd-bHQ;SC|9*BCN+P2`#4&0aImXn9Mh
z$Xi6(bbN8h>a|jcMjSonQklq?ob4v1JbCRv!;Edpzf)_hUZr6T<698&I-g5vTt`{@
zTuKvbzDX-HWJfIn+VbbpTk`bk9Nr4Hh|{vgoOx`A%4@zHrYqrrwf-rJVGUbyPUEfm
ze;UgMV^wq1*xo!RY7Ka)9j00PInB*%lXt^&DNU>c^AGgS0{S|TPtn*Rb;NwBjwsM<
zX;=qT8`KtWJv=pVX0D#4ZZb*_ZzHtT<tUoCCbo?1>_(`SliDVzRgl_dZqpPc)Pg=$
zf~1e<=TvKBLuxHwvPj*fN#xziZH5tEff1@;gj0Dcwf3h*n4&}%g`U&*v^q+@R9D6#
zq65|AZ-CZrBV5$MILsJ4uTNvX^(~-1HF>SeYUy^6TsvnSW1m4?t7^1&Cz-4M`|zBX
zSRvOSw=KkapEu_Qbxx3x<As!UDy4T9>pF+LyJ>U;vGwN=+ra5_n(@+eG;$N$$knn<
zTsdg*o?#uk@tjtbvUl$^<=*@y7D&IFk`0}Hp7)>OIjC#8!_knNmKjfYTGk&6N}S;5
zp}iy!6$CCU`6hV3G#n8^(591wpcDzqww_}iU*|yI@uSDO2Yr15UEMO(E}KZ}QD1le
zDY+Qek976>dXB#CJA6W>w#zm6aj+YAJ9(npH+1s&@xkt)A>Xm?Q{Bg8dN|xF>jX}U
z3gJN3-;w>(Lym1?bqccc=sbO%xr|28`!q|v&qz7Sv8<;eeX`knPQzJR0$;8qmMN%f
z^7Uce96iU(p<#yAp0lWuo26pZ5OVAMCt(7U3zEmha)F58mm-2o8ud%AfIl$GiBRWU
zp@=BC1TFw_gF=k*lIV&IyZo-<XgDARBVpIspfu`|xUdMlgW-v&B(|E!uqQ@?V!_B~
zgFNpNVGfQA9EnOmi^sy#WEtSt{J5|~-{C;yNDneic21ZLui*p?LfCe}q<k<0yUx0#
z2xc@m1ywOP!@0Jw+^`>(fN6HQTU|dK<-%l+T+iVs&$lT2@hk^Rhjk0nutwnh3<nYj
zMJ72myFiaHBJL-%V-AMHt}Ut-{;0LJ6^4ljfzj3zL^N-@^OP#TIS~S%FnCS|t*)bz
zOB{_vd02vf9OP9fU6()10wY+h)E9~@Rk;t6cLkiifUC7kd0b}&|HK4{YmyU0yt&!!
zQ3Rgjmu$Hh43F^KHbp>KfbgvB#g{nVkTre~kE|O%i%X#dngUsUB?YFbga7K^g2sQy
zoY!AQdEK8k+|1fR7kcvpgx&yEouy})81n{L&aCEr{j64knv!BUt0-vGs3TxJ5vdDJ
z1@9>JUA}ET7jI<gJ0z_-K1-cL61G~BVko9jy;>Jitx6pcW;&hkIj0|{So)kHMvWQO
z{`pev`^-^d^9B~h=qfaCh|w%F1Kn6ug>VTRP%-T=GeY5~_YE;^fTqw8(m=#DZ;GKH
zyuU&HB{i!nSYJ+}^G1wJf)>VyNUsX|&l|?fd9KtNnMF6us4JsTOb32L)4#@<;Z4{H
z|JALKy^1IZFJtIU7>;ZiHA@4lbQJv+b(x~jg(3}_M!#UrQXf<OA0sy-)2-WO$}dxA
zL_81}#<v4)QfQ)WA~>;40>$B^ZBx-b`}U6S;oA7%nYM{(X*3dUo8<XWTPVVEypNmW
z0#UHEHr_uCO4~Nf``aQDVp~)S@?z`6v~27c;lkY1gm7?XyJAQ_V(zUSd?euK#e=Pi
z(hK>9T#p05lvoYff1$7AC{cbW+5F1&T}$mt{zYo>wW~UK{6@rn_&uA0S|b<SNaS)5
zDj!lg$v6uoGtW#S09y#HWAr=|qj2DmlU122E1?{k1&HZE_yQ)8sd1T_l+C<flzfVP
z5hg%<aiIni*FyIFSK9%-#5TyjCd<try2Ae8=nwBY@7V5m7Cej931`ziXUDQ_dHi<$
z$Kiy#BjxP)bb}&+pH$USUt*(m>trJb2n?tzaWcbmVVMDNmYJF0gscU>90IR^y-b*O
zn*|5-5I`ufsGzJR&O|nng%S6mtWg0T45k=>gnCR~L^jcfdjvUAHYtzT%?nm|FJg@b
zf#7r~9#`Zd>$6)uQ~N?qz#Aui1=%-o^i+o`8<w{HTgCSI-Z{@)G`(X_($Y3}bm6U~
zSHCE6EOdQfygIa0`8R)-DrtV`EML@p@am17OK+tbccz>>p&?m*=;u3^rCX=(H@}i9
zKlGXN5Hzl0(WZ|M{A<mpHUF|<m4T=KMs%q?V?w13OASly3FpRiS>uvtnY!M+bR<#M
z@|dAYw>_$;SsY#(Pn7RSl<j=1rAv2Z7-ZW3y(${-l{94PP-Xk$24r_GoJiQ37EdK@
zO>??0%*AuFDRb>o)je}_y2ia+zub_h**4dgHk7UyYLbSUMRuuYxhGM(^S)tM+FCkS
zv<ged)@dXjKN8_ZS&Jnn3fL!t7Gent+i}*4GpsX21Apu~bckr6Y$+75unP!Wn5YM`
zZ{sNALLCR=eQBFL{(~>H#piwR`W6OL+KLQap)LEVm_bn72$16Ef&alzs|?arlGmAC
z$l{3i3+*t}8k55w1pikLLv|h<Q65iT97{ojM1hYtsQx$`A<;8o6IP!!;ZejD!iX$J
zA&dd7Rw5oX6mj{XH4q6)!I5YrDiWl|A&U~>Oa=p->x^Fncm-sAMhp`GzH<rV1;NK&
zz`hSDIJE-`#ZVqAuxlO5qGYZYRMb^;p^MB#O@Ila0R1MMRf$7pW;HP;j|#DZXmLze
zIEqqNaZaRTny@vdc@c_zKwsFUL9^Ofn1e;LI?U^vE<kI2!F>9Bbo#>is0$ln`dJ-?
z!juMZC%zNbiY<Cw%CD8oWGI-)@I7WS<Y#(!S3y6^y6NC?46FXS6w{3ruWN$GF&y%&
zODdMm8pBQryFQY}u>V_^)RoN|W5(S8s|49;Kz1!g_5clcF7Q+L2ctiZ0RkZVS>`Ni
zMC}msoQ0Ot(3b+xonlU-vy_`&i{99rv9nv1Aj@GC81^icH=Y<JfeI>VEO+QoTR`Em
zZ$U{YP!eh^7b+FdWUJXYV8<G4b8BQ%5W-1O@`nSQtR-=?tUE!XUhwQWgL2aZ{{%OT
zCgNFLt^&MkBPQh=iTVXLkLAw?_t)_#Es&{bS8aOGKlq95r`{#%#_o?gu6Nuo-9GQR
z<^Ko%@AzMaQ<knz*(}<>w3h<x+6;XKeCHzU!`XhE;fO)jP5SvLfRZK<W&N^_<*?}k
z_Jvt)N?8v#B|$hNo5OJ4!0UtOHDGAXFWN`qXY2|D7arVJ@Ja!HIK?WWVt`cElF4Nz
zAWeM-3Bj9XBLwWcXKG#~F??kr!VMsfd>(6PA{;=fYSWw*0H?C<n&pb+YVlJoQ)~J|
z#imP|1!|!k;HaqhYSohGM)afD_1OK&U6-ia^}lKPRm-nila}6e#iooF8LJ*6=mdk<
z%jR^SJId!eA6hFH8?Q#M#jeCYv$muwYZi15N=h?&<gCaTki|ZCFbxydUa9?A-GcU^
zqjr(Iaq^=#uD|h_V@JBSVWH=Nvl57_+%Trao-o%ww3lDrdTHy5y)kKTT<ZC#?|R=#
z)1GA0o|Jv>eCHSTnicz&q<u@uzICqiKZ;5oI7%1ZNjN$ZTMr~19bYl1*fu}(&1y4n
z`PEi<m>c?5w1GH&wx`Rk`z<nbRWQG;(00}9K_T%ipnz=%>N!{>%K2kOIc0N!l!acP
zd=360RvwV-QxnozbNIJPS7~3)LLJmHdkdfr=yM5MA%VKThRS7RMA&|n^em`*meoGX
z{l3V(kCE$Tbrz)@0!Jg|oMaOc80>JSsk3=^19~_Sb?XIkB-9I0z{U^<CLsjjhzW5Z
z+#yVIvK<0_pL#u`#Qn1Vj6X0AL84rA7%;PYD!@(P`vwvS6Yy684JYpEpY#XG^^Z@n
zH35rw68<6%zaiexFxt|G*3ye_&%eE5ZAx03R;<lQYx9crVA6UpWj(ZF?M+&H6NcWe
zADSzkAWB>M!0OB}P<|`oU48GsLG+JCkBPZ!q#y^6r3+66*`Oa{+YpOQTjF?G6N-xd
zH7K6jC>;0{MkG1^4!F+3`Ht0GWpLavhPQQHf|FRz$-)Ut+b;|Pg)oG(6Og$X;bkaf
zW)vc9W(wp@69LE!$Oh_I2C_Z`F*h913;m{S^}$6?U_5stCj1CU--f@q4YD};qNqMq
z)EMu1R8o<)I@8v&$9j!b7eA7*fMQ-eFn?fSa&a<c-jvX6Qnm#1k!OtXIb%PHg|lVQ
z?eYkLEhqY*oH6vDI@)#A<Ldnq$2qbcU#^`T>h^V>?1EdiLC^7CSvTT`xJi(k;D|TD
z37|G%$<O<6_~pw6mvBQ95P}nc7joIN+t+Lc4seLoXuzuxtI35=1qhcr_5*b`shg$3
zH-uIIw<9>PIt*Beq+IAUhV^`1dY0vk<*X)8{LCN%yPb6@f8D{76XPZNLYD@3nN@=T
zsNoPmva21zG9i>==@AGVP6JiWKAC>GIOL!5iK7s?vc3=(`tpAvxlOWG@P|h@xkRxi
zAAw{ahAd0AB@h8yCT1<X3iAlZaMlNztR+WpxfB~_mUu#lz!pkyP!o;=iJMX&9E(5e
zB+G~y^LT#?*%5+3avlESdys)4(*~^*d}dko{p#kG>b=S8y{YQ`_e&3~8nq>+#|Bi^
zu|Pf5qaw$}{`vkDOMTK(zhc>vv}{?i00OnHSh|vyt~;-#EJxBME`YP5;*1VDJ;vQL
zNNY5G^8`Wl>!+aMmDmwD(<Syf>3uVH2F`EAMquN;I?r}=-J|z3Ywm8Lp?<eni}URk
z&nwK`gB0Xz^iI{N)t8|2WyB%;$qhcYQShma_G(zht7SD_9j9ltoPpJGM)*9WFZcjs
znl`wNvi`8*4}<6e1y?*5Xq+*SEl}jLEikHFvSp(&m<pks`<Wv%8_Cttiw+I=df{0J
zLOeYljU>>gO1QH?&%}_z`LpzEwT|3pfCtq^;SxX)uxFGFuX5Aff&hlB@9OUHoIG{{
zU*HFLQQ+bA8lPpunvz%8h%h}<nH5dzcV7Jx_r^|%V1RLB+EKP3U7oo#^Fb`>Xj*Y>
zO**zFEL*>RXf21$ChspFxO8B}(FCvWS(;$ijT^HNP*aDl)p;o9E}|gscbjE{&lmQG
zIG;~8`FwC473Fc=;`9A^)X!(%FrF@ttn>68?;h-yb-e?}p(0G+HJbx)&mo35xY1%|
zMwA4Z0T>Ykc()GZgmK)4vtPhp#A<X7rA;OA&UBF@-lJs2&iIi>+L8>d(QaHC${;9~
zho0a92Nbr)xLtA5WHc;S*_3spL3S!oxNkYV!Hll;lsBOTCpdmWypQz-U(3GOf95?F
zzIr6Ol=GO+j2e32jsaV~vT!UB*_ev};2maOh~eh4tcS@f1b8V?l5K1K2xy6VMV56q
zB?|K8`w8#Dc)y0f*a;cd7cImL^?OqF`x1r?>6#t4_9tr&CJdEntLw&*m8O@IO)uYO
zQ%#*oYiGjH34w!iUEpAWao*eHMjsn@Gk;I*W<aGi;YgShu&CYpghNn}_)*sLk&zJq
zXPJ(OGQ|Eo&ykNSVypj5K){$KYw(?#fHwxh{b`Kk<T6IUf+Xh;xftJywyGbuL;)Ye
zWE*KzzH<49V^%^jBbdrDm=p|9Bx7O@a6|^}TzFD0TJteXFymS9dW5$yb@AG7UCPmC
z7k-W7TUkpk;{<#=O#%@TR>(y`5n?>n@ALD)aV{H`z;u2Il%B)=tSVe&KhViK=z`-b
z1C&aLWrUg%c?tOZCR?$|XS-pGlkF-gOaogS0%cI5qe46i_$T~lf_zY#mP>L2`bHzz
zA<24Je^7u(^E95II4W`q+aquTHY)2!{UYXAHt>LuQ9ppB1BOt76`u$`Eh50TCo--S
z^5<Lf3N35Sz?~Y=w{?at8#)v>a!|mahw)Kd25kX1L{Y0wMA<(_C7+|>&yn%>sOk5p
z^xsk4ACcuhQ8PR~GFHu%uNbS6#;V1=DPvPy_o$?Dfxc|KWK2|TOO>?VYD|{wju)ki
z%H{?yo}NFw5K9#`Ei=iY=C~<st6H#MuDn#4sBT^!O4-_P4JB=R<HdilITubZ3|>Bc
z>2#v*<=bMav@>PviUVr4QjUe!7XwS=q@38$mMq<#LC|>X_1l3vyMNblw<B?IAi4Ya
zDsIf2p&Ed`cX4QG<3}ymTN1UcNoQLILF297+e3FY{;uV2OXB7J<gS5L+?e?RTzQz!
z*S%W@{){SJ41gn}O2LuQHqwwO&b>BJn-|Ly^`2zq;U@?lvP4kJ)F9`MgrjlA(Vld)
z-*@bsFH7$0OYIwo>mE3&7I!agT5d`?+7hVbfxSLuZ;V?X87mgMlg9eEE^V$_97&ot
z#tmsp_2N|0vN>){m)71ZJ(Xy9>GsCoxPRqd**}!rKa@CeGPNHXPbH8&?WlQz7$=?9
z6fbO44xlYbd&}}`DSKN&(}vx{j<nu#e&*eo75(O<esf9>*Re@`%PlIYZ-=8XWrO3c
zz51SQU{Sa>b7kh*+gILBv>v|GnX2pkq%&DJ5HEgER=YTSEpjEYJe4Zjn?R1Vv-X~|
z55&6l`qq_(!^wujciK}8-FN)ShTcy+$%a0{(gTfouIJ*w{6M0%Go|Umtn7cFFP@vc
z_|E)03D@3~ejl0tiN#1cpH`TujdSc%1O*6D*@(xq4mM(E20?KP@CAxH;PId!5+|<-
GzWg7Yp@NG5

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/__pycache__/wy_fast.cpython-312.pyc b/model_executor/layers/fla/ops/__pycache__/wy_fast.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a816d2bb9e17c5d0e742e54e8075e99f4a06646a
GIT binary patch
literal 6858
zcmd5=Yit`?6}~g$$9O#Bci!(;8~3r<B;D;I3L;IP+odRNX_vxcIi9iW#IfD+xM|9@
z<VuUM#R@xGq`3T97a`%&q77&zvVUNIR^m@bE+h>7v51%Y&%5a#_yL?dwo@lKN>^GW
zuH-Z4o^$Ux=brn`+~fOOLEsRyh~fKTj}xIklTN+4Ys}^^X@pjgh(s!au97Dmp%&<?
z^a690p^(UkhKOOoc-2TD8cEC?UpMglDH=u7+bB%kr>Zi2ob9>3&WYv|D2H-XfC-@h
z{Z<b`DI~Hd&|9s*QD7Tl+}XkiBTPN8+-ItqW#*lB1A3>=fC5a4N}&)ExgS#xtoLCR
zr0Kq0Rlbpme297=)FTva5<TZ>)K_`YzKh(ki`==3+_j6`y^Gwli`>{;9(0H;ZyWB{
z7O?Yq)hf11Xs*4<`r3Apx9=kF*hSvCi@XcuolX2wx6BBM-IA^Oyyns%-2tY8HnHbz
z!&Und6`-lwt}h~Q?^ELDyqDH!C8C)WIjqE@PYD9Ol-3fLrMO>~e1U7p=)5l+6~h53
zp;^ve^j)61@W#pWff`ha4ZsXS1YVmCAS(bkks^*ol%y^qFMVF)0!d#&x*n0DiF?Gn
z!7qmr31XuEpEG01LVPS9jvrP)Dk+C=CXasMwfUpcSR_0<7GF}X#iC<3B9Vo$g_tNs
ze9}!RkW^ywSj4|1$%(OG#6K2`C&m_+d_jLgc`3f6vBx6*g;~-6Wmy0h<V8)8w<(QE
z;_5N=rLR0Rs4u;-2@>RGo|5378VF%^fovx{S&mGWbC1?6(d2?}(J#jn8b{cK;txp)
zuUVtcXw*54x~$R1FTw8|{4UF|Pq1dq9Ee4O;ZQ<j=A|W#x&*6siZNd_ruY(ZDG>HY
z!nY(DUR<QnXF_rt@kanBlg!Bk0&*9SK;x@u0fC<9Uqh%XNZHzhx!TJM`mH8zeNOfm
zN7rBKlso0ZZp_^RYx>g!pOu!B2Rr4zHP|4z+R-qJT_SVKh|n$2)a}iYRP1QVR)3D9
zdq=C!{4Cx?`t$Lba-~}L@N34cpO3E>^Ygi_tUc9++i}}1ILuO(sDM4#LiTFwX(6jh
z!Kj9~^n-8v_Fx*f0Xk~Cj9bVoYzb1BgP#lAhz2-YkP;2|0Xw9nI`*(>s@tsEdm)>h
zd)PE?w^@y>Y8j%VF;|s{H1M^!MGANu(Tc{c*t;71G(&xdXn0_%ADpS~Jw|tl=7!Nd
z4WpZs1P$6|o;w>o*Wa2{uR^|EdTW?ZzG6EX7O<lpcYXE=l&9W;ajCwBxy?{O?Z~dM
zg$N54^z7=A#_Zxg?9kCca_rca<NiIo89rBU0}bAq<+Xp?9u49_+zkaC`YtV^>S0P&
z(d@g12j?2U)U|xqbDJ7!@Y|$p!aaCMWS<vlso{q4<c!$S@Bkie8pS}fD4G>A^~m(~
z)=EPP5bzFTKrf6U9^0Fu2oBrSNW%)6p$NggT1hr>3%rk3a^~niSSjWk5XA$ctX0W2
zM2%qk7NYFi5Vda)&&&=)?exZdCU5&2yfs7AzHNva#iPv-g?nERWuwjZx4xGtZ$m82
zQRc1hSL#5+*k%aZj}J6O*#2e_d?tiB4QL5@x$`n9T4X=~(n~Hcr3<`tRYa6fGudWi
z$*Aa;m!J}r0`s8Vnso})oIetYE&7z;<b+p{363=`F2_Q$f58_PHA5uk7oon5X~u9=
znVisU3;ub@Hyeos=6!KR))?t#Tr<l4Xh_lw0Wo|-Gm6SmT+$dZrf9|l)R~gTNfBv5
ziYh*3$$L<v<~8buW|)-}zeX);R8pg+G%6&M;!G2^)yr}(Sscl(+)v1EMV?+WYE0Ot
zXoj$F_8MVl3DLQz#>~c`j+B6y;y&Fm6ZeHQAXA!YwkDZ{4l_%{Vc!j+(@B!ZNVvWm
zU~$$5{jhJIsCBYPWb;Hlud5dm2O-e@7jH5-yR>#$3d9!TNk#H4`jWojqUf8K<fs&p
zXF#nN;3whbNTX-Rkkh>)EDHsH+0p-#!Ji(!dw7*94^Ct}>FEu-JAXa9R2VKg?~G>L
z>FGb19e?3%xzpLx`L7nIO9OXLtDb{p{?Ix<rt)JS(7$4T!It?iJo&FNCBNz!EAua}
z^OGt+`N8pDo%zL?GXJHD5!sv><{5_syKeRMqFeP0m-&%(epKa0AGqFczt>*oC+Zff
z`r>ufGg{`o>--^=KlI?j`)}TRv&_F*vsPh|;K&bU&t|EQ-K_=Z^3lR{ap2DBqW{jh
z%*71zM6j<5y{gc=!Sb0zekQw^wH4ed+g-R`5Q{U#6Q#*j*S*(D2iNG;<eIq2&^A;0
z)H4&Z3hP{#%5@c{itgg|yKSY(yFF_6*y_NlXN_7_)&d_L|M1${Hy=(s9C<YJ^)h!k
zJ^h5^t8+G3OXgyJJbNXd$i7vWRr!9E?JtfOXN&twQ>*m7Q>#;@FRr=Q<PY0F8ebD0
z(hrY+bo0^774U8~rKiEW&5^qT(=V4!JQl{&r@(S<e|CR<s2F_A9o9YN_GS0|(6!RG
z+*WXxE<JWml)1_D^k3|rA6{6wvV5g5Q>5Sh_PTu-Qebne+xk>n-v%$_VUJ<P<Z@4O
zKy?hM{LqGA%Tt+C<l)SIJwKIseFG9Yk$p3tC|p>+`H1h|5bSwZ=FA4~+7!%o4tCIi
z?9Tsz$y_KK$_GmO9^1w<%!b3A5B_MTXeeA+j;W53b-P!!drL#_d+&M6_9GbsEGrkx
z2J;sS!=+dBDNk4~$7WerV_+q?94uUX?;Cf%vEDPT_KcTXCq8<0oqfIHMUIhYhmfOX
zuQbWa?SQ1Ik_%wpeMog4TBTISxXO=jCCr{5$X?FRWX}D6CalE#Y^tP`PT%8I$B}jW
zYpVUVHTQ2iKI|ylr?+LVZ0iG%?47$$NbY3vS6+UZka0pLfM{&U7f3E7k_+-HM5cd>
zO|qmU<!GSxPXy!$5nlfX{d@TDyaJbB7|rR5?c~Q4rkcsC_ZrL8&rRQgb1P*^nNw`a
zlHzt5tzW;Stk|%-trU-qw|S*jfkEwK#C-jXj#45@3D}r!Rmdr+x4FjE)MVJ)Fo#pf
z;`N5NuIo}ZkxAL%=TNM5ZL^C=yme=gazbXd{!P^9Kzt_fX2q8KwOS|TQnoG~p|&?w
zYr1N!EVhJ^Xu#-QN;F~$s0q_R&DaH$#ZI6WYyiq(2B;Mqf$~@YDqu5E8@2+qV-~0b
zTYx$-2h@dmpl)mj>cNh8sUJ`jf`4+(APx6Tt>>Tq8`{%<5%LuXeFs?NNg_K!hz^!l
z2}hD9A0^~P&umiEdM!{RT=T~znQV(paw3xhRAb<(OEW_C5V!{A!$MqH@<qb)5?m!o
zi$1-tpNwAj&e$#x6VEYB9k0gIPsGp52fd`wFN#RW8h!rK^Bbe;%E%fM<lt>`lvmGe
z=YO5qvJb{Dl8I4xJJP7)K&=P!{*};j=uyjo!u9tS?<^MOJKs@T4%|MUo=RWO3}*a!
zC!94obJm=vv)1&~hK0+uW!v(uY*+et#e^n~JsLm#nC&Udl?ETPhaX<5Fv#cvMgM_E
zedF)6=DM<7`I!R!*wXbuV(m-iqi55{H!Ri~dBO_oY`e;~7o26b3#@}HYu1{d%3m)G
z6lTh7UwZ0^p}R0!94PwljugJB8oZw(m(lbG&RSvM`6qZ9;rR(1Xs(Kxa4fR&6${}w
z!dVH&6HXwU4O!h4JK-G2(_3*8&V|~BD{jJh$ha25wGyt4aP5e<RXPaQNn~Aw>n2<e
z;d+U-k8u5j8z9^uaGwkTSJ{VnA>+>+NuSfdYF>wY71FOc$#v&T)f-t~QVB;AdTFcU
zi&V0rbW;bM#$A(=ayX%c0||}w!>y>2j7pkmTEBYKn7Oc`Spu<WLV+?@))A+fF2N;i
zOxCzJV$o2IH!8_^MAElk){8Y#W54`z6({U5xOYuPq%X_lD@Lvy6F&i3VJM2)Y)6#v
zcQpD}GzwcvyVI@fluM;t`E%;P8;{&yEmP+=C`Y>WdwsY2U<*2jo*4~-=}#SlnX`ZF
z9Ll^7C6vXU6S6{nws>~!Kt}i-d-CJXAtF9SZFCHNN``;RA<NNcf|;fPkTeh0I&XIt
z5(VioHC&;uP}Di9(u!E_d-yi4v{n1<$YRa$S-#Ry?RVDoUDbYfz28&q_twYvRr~$*
z{y?=qSnm&2`@_iL%Hb^jbVToOGKe18bV7)P`x;g8REH__e#)_7=Jn7R;6JYMM&Kc1
zR!8no_E5!4dMvVga*=GLVj(>av4TF!N_sqUwyrz+RY!mEi0as15s1)+OxDaRxntR5
ig_ifa?{q)1j;O|c&+MT4$L2`}GM6C7#@gUXH~$}oxqa9G

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fla/ops/chunk.py b/model_executor/layers/fla/ops/chunk.py
new file mode 100644
index 0000000..4c8bf9f
--- /dev/null
+++ b/model_executor/layers/fla/ops/chunk.py
@@ -0,0 +1,240 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+import warnings
+
+import torch
+from einops import rearrange
+
+from .chunk_delta_h import chunk_gated_delta_rule_fwd_h
+from .chunk_o import chunk_fwd_o
+from .chunk_scaled_dot_kkt import chunk_scaled_dot_kkt_fwd
+from .cumsum import chunk_local_cumsum
+from .l2norm import l2norm_fwd
+from .solve_tril import solve_tril
+from .utils import SUPPRESS_LEVEL, input_guard
+from .wy_fast import recompute_w_u_fwd
+
+
+def chunk_gated_delta_rule_fwd(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float,
+    initial_state: torch.Tensor,
+    output_final_state: bool,
+    cu_seqlens: torch.LongTensor | None = None,
+):
+    g = chunk_local_cumsum(g, chunk_size=64, cu_seqlens=cu_seqlens)
+    # obtain WY representation. u is actually the new v.
+    A = chunk_scaled_dot_kkt_fwd(
+        k=k, beta=beta, g=g, cu_seqlens=cu_seqlens, output_dtype=torch.float32
+    )
+    A = solve_tril(A=A, cu_seqlens=cu_seqlens, output_dtype=k.dtype)
+    w, u = recompute_w_u_fwd(
+        k=k,
+        v=v,
+        beta=beta,
+        A=A,
+        g_cumsum=g,
+        cu_seqlens=cu_seqlens,
+    )
+    h, v_new, final_state = chunk_gated_delta_rule_fwd_h(
+        k=k,
+        w=w,
+        u=u,
+        g=g,
+        initial_state=initial_state,
+        output_final_state=output_final_state,
+        cu_seqlens=cu_seqlens,
+    )
+    o = chunk_fwd_o(
+        q=q,
+        k=k,
+        v=v_new,
+        h=h,
+        g=g,
+        scale=scale,
+        cu_seqlens=cu_seqlens,
+    )
+    if SUPPRESS_LEVEL < 3:
+        return g, o, A, final_state, None, None, None
+    elif SUPPRESS_LEVEL >= 3:
+        return g, o, A, final_state, w, h, v_new
+
+
+class ChunkGatedDeltaRuleFunction(torch.autograd.Function):
+    @staticmethod
+    @input_guard
+    @torch.amp.custom_fwd(device_type="cuda")
+    def forward(
+        ctx,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        g: torch.Tensor,
+        beta: torch.Tensor,
+        scale: float,
+        initial_state: torch.Tensor,
+        output_final_state: bool,
+        cu_seqlens: torch.LongTensor | None = None,
+        use_qk_l2norm_in_kernel: bool = False,
+    ):
+        if use_qk_l2norm_in_kernel:
+            q = l2norm_fwd(q)
+            k = l2norm_fwd(k)
+
+        g, o, A, final_state, w, h, v_new = chunk_gated_delta_rule_fwd(
+            q=q,
+            k=k,
+            v=v,
+            g=g,
+            beta=beta,
+            scale=scale,
+            initial_state=initial_state,
+            output_final_state=output_final_state,
+            cu_seqlens=cu_seqlens,
+        )
+        ctx.scale = scale
+        ctx.use_qk_l2norm_in_kernel = use_qk_l2norm_in_kernel
+        return o.to(q.dtype), final_state
+
+
+@torch.compiler.disable
+def chunk_gated_delta_rule(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float = None,
+    initial_state: torch.Tensor = None,
+    output_final_state: bool = False,
+    cu_seqlens: torch.LongTensor | None = None,
+    head_first: bool = False,
+    use_qk_l2norm_in_kernel: bool = False,
+):
+    r"""
+    Args:
+        q (torch.Tensor):
+            queries of shape `[B, T, H, K]` if `head_first=False` else `[B, H, T, K]`.
+        k (torch.Tensor):
+            keys of shape `[B, T, H, K]` if `head_first=False` else `[B, H, T, K]`.
+        v (torch.Tensor):
+            values of shape `[B, T, H, V]` if `head_first=False` else `[B, H, T, V]`.
+        g (torch.Tensor):
+            (forget) gating tensor (in log space!) of shape `[B, T, H]` if `head_first=False` else `[B, H, T]`.
+        beta (torch.Tensor):
+            betas of shape `[B, T, H]` if `head_first=False` else `[B, H, T]`.
+        scale (Optional[int]):
+            Scale factor for the RetNet attention scores.
+            If not provided, it will default to `1 / sqrt(K)`. Default: `None`.
+        initial_state (Optional[torch.Tensor]):
+            Initial state of shape `[N, H, K, V]` for `N` input sequences.
+            For equal-length input sequences, `N` equals the batch size `B`.
+            Default: `None`.
+        output_final_state (Optional[bool]):
+            Whether to output the final state of shape `[N, H, K, V]`. Default: `False`.
+        cu_seqlens (torch.LongTensor):
+            Cumulative sequence lengths of shape `[N+1]` used for variable-length training,
+            consistent with the FlashAttention API.
+        head_first (Optional[bool]):
+            Whether the inputs are in the head-first format, which is not supported for variable-length inputs.
+            Default: `False`.
+
+    Returns:
+        o (torch.Tensor):
+            Outputs of shape `[B, T, H, V]` if `head_first=False` else `[B, H, T, V]`.
+        final_state (torch.Tensor):
+            Final state of shape `[N, H, K, V]` if `output_final_state=True` else `None`.
+
+    Examples::
+        >>> import torch
+        >>> import torch.nn.functional as F
+        >>> from einops import rearrange
+        >>> from fla.ops.gated_delta_rule import chunk_gated_delta_rule
+        # inputs with equal lengths
+        >>> B, T, H, K, V = 4, 2048, 4, 512, 512
+        >>> q = torch.randn(B, T, H, K, dtype=torch.bfloat16, device='cuda')
+        >>> k = F.normalize(torch.randn(B, T, H, K, dtype=torch.bfloat16, device='cuda'), p=2, dim=-1)
+        >>> v = torch.randn(B, T, H, V, dtype=torch.bfloat16, device='cuda')
+        >>> beta = torch.rand(B, T, H, dtype=torch.bfloat16, device='cuda').sigmoid()
+        >>> g = F.logsigmoid(torch.rand(B, T, H, dtype=torch.bfloat16, device='cuda'))
+        >>> h0 = torch.randn(B, H, K, V, dtype=torch.bfloat16, device='cuda')
+        >>> o, ht = chunk_gated_delta_rule(
+            q, k, v, g, beta,
+            initial_state=h0,
+            output_final_state=True
+        )
+        # for variable-length inputs, the batch size `B` is expected to be 1 and `cu_seqlens` is required
+        >>> q, k, v, beta, g = map(lambda x: rearrange(x, 'b t ... -> 1 (b t) ...'), (q, k, v, beta, g))
+        # for a batch with 4 sequences, `cu_seqlens` with 5 start/end positions are expected
+        >>> cu_seqlens = q.new_tensor([0, 2048, 4096, 6144, 8192], dtype=torch.long)
+        >>> o_var, ht_var = chunk_gated_delta_rule(
+            q, k, v, g, beta,
+            initial_state=h0,
+            output_final_state=True,
+            cu_seqlens=cu_seqlens
+        )
+    """
+    assert q.dtype == k.dtype == v.dtype
+    assert q.dtype != torch.float32, (
+        "ChunkGatedDeltaRuleFunction does not support float32. Please use bfloat16."
+    )
+    assert len(beta.shape) == 3, (
+        "beta must be of shape [B, T, H] if head_first=False, or [B, H, T] otherwise."
+    )
+
+    if head_first:
+        raise DeprecationWarning(
+            "head_first is deprecated and will be removed in a future version. "
+            "Please use head_first=False for now instead.",
+            stacklevel=2,
+        )
+        q, k, v, beta, g = map(
+            lambda x: rearrange(x, "b h t ... -> b t h ..."), (q, k, v, beta, g)
+        )
+    if not head_first and q.shape[1] < q.shape[2]:
+        warnings.warn(
+            f"Input tensor shape suggests potential format mismatch: seq_len ({q.shape[1]}) < num_heads ({q.shape[2]}). "
+            "This may indicate the inputs were passed in head-first format [B, H, T, ...] "
+            "when head_first=False was specified. "
+            "Please verify your input tensor format matches the expected shape [B, T, H, ...].",
+            stacklevel=2,
+        )
+    if cu_seqlens is not None:
+        if q.shape[0] != 1:
+            raise ValueError(
+                f"The batch size is expected to be 1 rather than {q.shape[0]} when using `cu_seqlens`."
+                f"Please flatten variable-length inputs before processing."
+            )
+        if initial_state is not None and initial_state.shape[0] != len(cu_seqlens) - 1:
+            raise ValueError(
+                f"The number of initial states is expected to be equal to the number of input sequences, "
+                f"i.e., {len(cu_seqlens) - 1} rather than {initial_state.shape[0]}."
+            )
+    if scale is None:
+        scale = k.shape[-1] ** -0.5
+    o, final_state = ChunkGatedDeltaRuleFunction.apply(
+        q,
+        k,
+        v,
+        g,
+        beta,
+        scale,
+        initial_state,
+        output_final_state,
+        cu_seqlens,
+        use_qk_l2norm_in_kernel,
+    )
+    if head_first:
+        o = rearrange(o, "b t h ... -> b h t ...")
+    return o, final_state
diff --git a/model_executor/layers/fla/ops/chunk_delta_h.py b/model_executor/layers/fla/ops/chunk_delta_h.py
new file mode 100644
index 0000000..f0b78b6
--- /dev/null
+++ b/model_executor/layers/fla/ops/chunk_delta_h.py
@@ -0,0 +1,344 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices, prepare_chunk_offsets
+from .op import exp
+from .utils import use_cuda_graph
+
+NUM_WARPS = [2, 4, 8, 16]
+
+
+@triton.heuristics(
+    {
+        "USE_G": lambda args: args["g"] is not None,
+        "USE_GK": lambda args: args["gk"] is not None,
+        "USE_INITIAL_STATE": lambda args: args["h0"] is not None,
+        "STORE_FINAL_STATE": lambda args: args["ht"] is not None,
+        "SAVE_NEW_VALUE": lambda args: args["v_new"] is not None,
+        "IS_VARLEN": lambda args: args["cu_seqlens"] is not None,
+    }
+)
+@triton.autotune(
+    configs=[
+        triton.Config({"BV": BV}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [2, 4]
+        for num_stages in [2, 3, 4]
+        for BV in [32, 64]
+    ],
+    key=["H", "K", "V", "BT"],
+    use_cuda_graph=use_cuda_graph,
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_gated_delta_rule_fwd_kernel_h_blockdim64(
+    k,
+    v,
+    w,
+    v_new,
+    g,
+    gk,
+    h,
+    h0,
+    ht,
+    cu_seqlens,
+    chunk_offsets,
+    T,
+    H: tl.constexpr,
+    Hg: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BT: tl.constexpr,
+    BV: tl.constexpr,
+    USE_G: tl.constexpr,
+    USE_GK: tl.constexpr,
+    USE_INITIAL_STATE: tl.constexpr,
+    STORE_FINAL_STATE: tl.constexpr,
+    SAVE_NEW_VALUE: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_v, i_nh = tl.program_id(0), tl.program_id(1)
+    i_n, i_h = i_nh // H, i_nh % H
+    if IS_VARLEN:
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+        NT = tl.cdiv(T, BT)
+        boh = tl.load(chunk_offsets + i_n).to(tl.int32)
+    else:
+        bos, eos = i_n * T, i_n * T + T
+        NT = tl.cdiv(T, BT)
+        boh = i_n * NT
+
+    # [BK, BV]
+    b_h1 = tl.zeros([64, BV], dtype=tl.float32)
+    if K > 64:
+        b_h2 = tl.zeros([64, BV], dtype=tl.float32)
+    if K > 128:
+        b_h3 = tl.zeros([64, BV], dtype=tl.float32)
+    if K > 192:
+        b_h4 = tl.zeros([64, BV], dtype=tl.float32)
+
+    # calculate offset
+    h += ((boh * H + i_h) * K * V).to(tl.int64)
+    v += ((bos * H + i_h) * V).to(tl.int64)
+    k += ((bos * Hg + i_h // (H // Hg)) * K).to(tl.int64)
+    w += ((bos * H + i_h) * K).to(tl.int64)
+    if SAVE_NEW_VALUE:
+        v_new += ((bos * H + i_h) * V).to(tl.int64)
+    stride_v = H * V
+    stride_h = H * K * V
+    stride_k = Hg * K
+    stride_w = H * K
+    if USE_INITIAL_STATE:
+        h0 = h0 + i_nh * K * V
+    if STORE_FINAL_STATE:
+        ht = ht + i_nh * K * V
+
+    # load initial state
+    if USE_INITIAL_STATE:
+        p_h0_1 = tl.make_block_ptr(h0, (K, V), (V, 1), (0, i_v * BV), (64, BV), (1, 0))
+        b_h1 += tl.load(p_h0_1, boundary_check=(0, 1)).to(tl.float32)
+        if K > 64:
+            p_h0_2 = tl.make_block_ptr(
+                h0, (K, V), (V, 1), (64, i_v * BV), (64, BV), (1, 0)
+            )
+            b_h2 += tl.load(p_h0_2, boundary_check=(0, 1)).to(tl.float32)
+        if K > 128:
+            p_h0_3 = tl.make_block_ptr(
+                h0, (K, V), (V, 1), (128, i_v * BV), (64, BV), (1, 0)
+            )
+            b_h3 += tl.load(p_h0_3, boundary_check=(0, 1)).to(tl.float32)
+        if K > 192:
+            p_h0_4 = tl.make_block_ptr(
+                h0, (K, V), (V, 1), (192, i_v * BV), (64, BV), (1, 0)
+            )
+            b_h4 += tl.load(p_h0_4, boundary_check=(0, 1)).to(tl.float32)
+
+    # main recurrence
+    for i_t in range(NT):
+        p_h1 = tl.make_block_ptr(
+            h + i_t * stride_h, (K, V), (V, 1), (0, i_v * BV), (64, BV), (1, 0)
+        )
+        tl.store(p_h1, b_h1.to(p_h1.dtype.element_ty), boundary_check=(0, 1))
+        if K > 64:
+            p_h2 = tl.make_block_ptr(
+                h + i_t * stride_h, (K, V), (V, 1), (64, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_h2, b_h2.to(p_h2.dtype.element_ty), boundary_check=(0, 1))
+        if K > 128:
+            p_h3 = tl.make_block_ptr(
+                h + i_t * stride_h, (K, V), (V, 1), (128, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_h3, b_h3.to(p_h3.dtype.element_ty), boundary_check=(0, 1))
+        if K > 192:
+            p_h4 = tl.make_block_ptr(
+                h + i_t * stride_h, (K, V), (V, 1), (192, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_h4, b_h4.to(p_h4.dtype.element_ty), boundary_check=(0, 1))
+
+        p_w = tl.make_block_ptr(
+            w, (T, K), (stride_w, 1), (i_t * BT, 0), (BT, 64), (1, 0)
+        )
+        b_w = tl.load(p_w, boundary_check=(0, 1))
+        b_v = tl.dot(b_w, b_h1.to(b_w.dtype))
+        if K > 64:
+            p_w = tl.make_block_ptr(
+                w, (T, K), (stride_w, 1), (i_t * BT, 64), (BT, 64), (1, 0)
+            )
+            b_w = tl.load(p_w, boundary_check=(0, 1))
+            b_v += tl.dot(b_w, b_h2.to(b_w.dtype))
+        if K > 128:
+            p_w = tl.make_block_ptr(
+                w, (T, K), (stride_w, 1), (i_t * BT, 128), (BT, 64), (1, 0)
+            )
+            b_w = tl.load(p_w, boundary_check=(0, 1))
+            b_v += tl.dot(b_w, b_h3.to(b_w.dtype))
+        if K > 192:
+            p_w = tl.make_block_ptr(
+                w, (T, K), (stride_w, 1), (i_t * BT, 192), (BT, 64), (1, 0)
+            )
+            b_w = tl.load(p_w, boundary_check=(0, 1))
+            b_v += tl.dot(b_w, b_h4.to(b_w.dtype))
+        p_v = tl.make_block_ptr(
+            v, (T, V), (stride_v, 1), (i_t * BT, i_v * BV), (BT, BV), (1, 0)
+        )
+        b_v = tl.load(p_v, boundary_check=(0, 1)) - b_v
+
+        if SAVE_NEW_VALUE:
+            p_v = tl.make_block_ptr(
+                v_new, (T, V), (stride_v, 1), (i_t * BT, i_v * BV), (BT, BV), (1, 0)
+            )
+            tl.store(p_v, b_v.to(p_v.dtype.element_ty), boundary_check=(0, 1))
+
+        last_idx = min((i_t + 1) * BT, T) - 1
+        if USE_G:
+            m_t = (i_t * BT + tl.arange(0, BT)) < T
+            b_g_last = tl.load(g + bos * H + last_idx * H + i_h)
+            p_g = tl.make_block_ptr(
+                g + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,)
+            )
+            b_g = tl.load(p_g, boundary_check=(0,))
+            b_v = b_v * tl.where(m_t, exp(b_g_last - b_g), 0)[:, None]
+            b_g_last = exp(b_g_last)
+            b_h1 *= b_g_last
+            if K > 64:
+                b_h2 *= b_g_last
+            if K > 128:
+                b_h3 *= b_g_last
+            if K > 192:
+                b_h4 *= b_g_last
+
+        if USE_GK:
+            o_k1 = tl.arange(0, 64)
+            b_gk_last1 = tl.load(
+                gk + (bos + last_idx) * H * K + i_h * K + o_k1,
+                mask=(o_k1 < K),
+                other=0.0,
+            )
+            b_h1 *= exp(b_gk_last1)[:, None]
+            if K > 64:
+                o_k2 = 64 + o_k1
+                b_gk_last2 = tl.load(
+                    gk + (bos + last_idx) * H * K + i_h * K + o_k2,
+                    mask=(o_k2 < K),
+                    other=0.0,
+                )
+                b_h2 *= exp(b_gk_last2)[:, None]
+            if K > 128:
+                o_k3 = 128 + o_k1
+                b_gk_last3 = tl.load(
+                    gk + (bos + last_idx) * H * K + i_h * K + o_k3,
+                    mask=(o_k3 < K),
+                    other=0.0,
+                )
+                b_h3 *= exp(b_gk_last3)[:, None]
+            if K > 192:
+                o_k4 = 192 + o_k1
+                b_gk_last4 = tl.load(
+                    gk + (bos + last_idx) * H * K + i_h * K + o_k4,
+                    mask=(o_k4 < K),
+                    other=0.0,
+                )
+                b_h4 *= exp(b_gk_last4)[:, None]
+        b_v = b_v.to(k.dtype.element_ty)
+
+        p_k = tl.make_block_ptr(
+            k, (K, T), (1, stride_k), (0, i_t * BT), (64, BT), (0, 1)
+        )
+        b_k = tl.load(p_k, boundary_check=(0, 1))
+        b_h1 += tl.dot(b_k, b_v)
+        if K > 64:
+            p_k = tl.make_block_ptr(
+                k, (K, T), (1, stride_k), (64, i_t * BT), (64, BT), (0, 1)
+            )
+            b_k = tl.load(p_k, boundary_check=(0, 1))
+            b_h2 += tl.dot(b_k, b_v)
+        if K > 128:
+            p_k = tl.make_block_ptr(
+                k, (K, T), (1, stride_k), (128, i_t * BT), (64, BT), (0, 1)
+            )
+            b_k = tl.load(p_k, boundary_check=(0, 1))
+            b_h3 += tl.dot(b_k, b_v)
+        if K > 192:
+            p_k = tl.make_block_ptr(
+                k, (K, T), (1, stride_k), (192, i_t * BT), (64, BT), (0, 1)
+            )
+            b_k = tl.load(p_k, boundary_check=(0, 1))
+            b_h4 += tl.dot(b_k, b_v)
+    # epilogue
+    if STORE_FINAL_STATE:
+        p_ht = tl.make_block_ptr(ht, (K, V), (V, 1), (0, i_v * BV), (64, BV), (1, 0))
+        tl.store(p_ht, b_h1.to(p_ht.dtype.element_ty), boundary_check=(0, 1))
+        if K > 64:
+            p_ht = tl.make_block_ptr(
+                ht, (K, V), (V, 1), (64, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_ht, b_h2.to(p_ht.dtype.element_ty), boundary_check=(0, 1))
+        if K > 128:
+            p_ht = tl.make_block_ptr(
+                ht, (K, V), (V, 1), (128, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_ht, b_h3.to(p_ht.dtype.element_ty), boundary_check=(0, 1))
+        if K > 192:
+            p_ht = tl.make_block_ptr(
+                ht, (K, V), (V, 1), (192, i_v * BV), (64, BV), (1, 0)
+            )
+            tl.store(p_ht, b_h4.to(p_ht.dtype.element_ty), boundary_check=(0, 1))
+
+
+def chunk_gated_delta_rule_fwd_h(
+    k: torch.Tensor,
+    w: torch.Tensor,
+    u: torch.Tensor,
+    g: torch.Tensor | None = None,
+    gk: torch.Tensor | None = None,
+    initial_state: torch.Tensor | None = None,
+    output_final_state: bool = False,
+    chunk_size: int = 64,  # SY: remove this argument and force chunk size 64?
+    save_new_value: bool = True,
+    cu_seqlens: torch.LongTensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    # This kernel is slightly different from fla to support Q/K with different head numbers.
+    # In fla, Q/K always have the same head number, so Hg is always equal to H.
+    B, T, Hg, K, V = *k.shape, u.shape[-1]
+    H = u.shape[-2]
+    BT = chunk_size
+
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, chunk_size)
+        if cu_seqlens is not None
+        else None
+    )
+    # N: the actual number of sequences in the batch with either equal or variable lengths
+    if cu_seqlens is None:
+        N, NT, chunk_offsets = B, triton.cdiv(T, BT), None
+    else:
+        N, NT, chunk_offsets = (
+            len(cu_seqlens) - 1,
+            len(chunk_indices),
+            prepare_chunk_offsets(cu_seqlens, BT),
+        )
+    assert K <= 256, "current kernel does not support head dimension larger than 256."
+
+    h = k.new_empty(B, NT, H, K, V)
+    final_state = (
+        k.new_empty(N, H, K, V, dtype=torch.float32) if output_final_state else None
+    )
+
+    v_new = torch.empty_like(u) if save_new_value else None
+
+    def grid(meta):
+        return (triton.cdiv(V, meta["BV"]), N * H)
+
+    chunk_gated_delta_rule_fwd_kernel_h_blockdim64[grid](
+        k=k,
+        v=u,
+        w=w,
+        v_new=v_new,
+        g=g,
+        gk=gk,
+        h=h,
+        h0=initial_state,
+        ht=final_state,
+        cu_seqlens=cu_seqlens,
+        chunk_offsets=chunk_offsets,
+        T=T,
+        H=H,
+        Hg=Hg,
+        K=K,
+        V=V,
+        BT=BT,
+    )
+    return h, v_new, final_state
diff --git a/model_executor/layers/fla/ops/chunk_o.py b/model_executor/layers/fla/ops/chunk_o.py
new file mode 100644
index 0000000..4e8e04c
--- /dev/null
+++ b/model_executor/layers/fla/ops/chunk_o.py
@@ -0,0 +1,183 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+
+# ruff: noqa: E501
+
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices
+from .op import exp
+from .utils import FLA_GDN_FIX_BT, check_shared_mem, is_nvidia_hopper
+
+BKV_LIST = [64, 128] if check_shared_mem() else [32, 64]
+NUM_WARPS = [2, 4] if is_nvidia_hopper else [2, 4, 8]
+
+
+@triton.heuristics(
+    {
+        "USE_G": lambda args: args["g"] is not None,
+        "IS_VARLEN": lambda args: args["cu_seqlens"] is not None,
+    }
+)
+@triton.autotune(
+    configs=[
+        triton.Config({"BK": BK, "BV": BV}, num_warps=num_warps, num_stages=num_stages)
+        for BK in BKV_LIST
+        for BV in BKV_LIST
+        for num_warps in NUM_WARPS
+        for num_stages in [2, 3, 4]
+    ],
+    key=["H", "K", "V", "BT"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_fwd_kernel_o(
+    q,
+    k,
+    v,
+    h,
+    g,
+    o,
+    cu_seqlens,
+    chunk_indices,
+    scale,
+    T,
+    H: tl.constexpr,
+    Hg: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BT: tl.constexpr,
+    BK: tl.constexpr,
+    BV: tl.constexpr,
+    USE_G: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_v, i_t, i_bh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_b, i_h = i_bh // H, i_bh % H
+
+    if IS_VARLEN:
+        i_tg = i_t
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+        NT = tl.cdiv(T, BT)
+    else:
+        NT = tl.cdiv(T, BT)
+        i_tg = i_b * NT + i_t
+        bos, eos = i_b * T, i_b * T + T
+
+    # offset calculation
+    q += (bos * Hg + i_h // (H // Hg)) * K
+    k += (bos * Hg + i_h // (H // Hg)) * K
+    v += (bos * H + i_h) * V
+    o += (bos * H + i_h) * V
+    h += (i_tg * H + i_h).to(tl.int64) * K * V
+
+    b_o = tl.zeros([BT, BV], dtype=tl.float32)
+    b_A = tl.zeros([BT, BT], dtype=tl.float32)
+
+    for i_k in range(tl.cdiv(K, BK)):
+        p_q = tl.make_block_ptr(
+            q, (T, K), (Hg * K, 1), (i_t * BT, i_k * BK), (BT, BK), (1, 0)
+        )
+        p_k = tl.make_block_ptr(
+            k, (K, T), (1, Hg * K), (i_k * BK, i_t * BT), (BK, BT), (0, 1)
+        )
+        p_h = tl.make_block_ptr(
+            h, (K, V), (V, 1), (i_k * BK, i_v * BV), (BK, BV), (1, 0)
+        )
+        # [BT, BK]
+        b_q = tl.load(p_q, boundary_check=(0, 1))
+        # [BK, BT]
+        b_k = tl.load(p_k, boundary_check=(0, 1))
+        # [BK, BV]
+        b_h = tl.load(p_h, boundary_check=(0, 1))
+
+        # [BT, BK] @ [BK, BV] -> [BT, BV]
+        b_o += tl.dot(b_q, b_h)
+        # [BT, BK] @ [BK, BT] -> [BT, BT]
+        b_A += tl.dot(b_q, b_k)
+
+    if USE_G:
+        g += bos * H + i_h
+        p_g = tl.make_block_ptr(g, (T,), (H,), (i_t * BT,), (BT,), (0,))
+        b_g = tl.load(p_g, boundary_check=(0,))
+        b_o = b_o * exp(b_g)[:, None]
+        b_A = b_A * exp(b_g[:, None] - b_g[None, :])
+
+    o_t = i_t * BT + tl.arange(0, BT)
+    m_t = o_t < T
+    m_A = (o_t[:, None] >= o_t[None, :]) & (m_t[:, None] & m_t)
+    b_A = tl.where(m_A, b_A, 0)
+
+    p_v = tl.make_block_ptr(
+        v, (T, V), (H * V, 1), (i_t * BT, i_v * BV), (BT, BV), (1, 0)
+    )
+    p_o = tl.make_block_ptr(
+        o, (T, V), (H * V, 1), (i_t * BT, i_v * BV), (BT, BV), (1, 0)
+    )
+    b_v = tl.load(p_v, boundary_check=(0, 1))
+
+    # to fix mma -> mma layout conversion
+    # already solved by triton v3.2 or higher
+    b_o = b_o * scale + tl.dot(b_A.to(b_v.dtype), b_v) * scale
+    tl.store(p_o, b_o.to(p_o.dtype.element_ty), boundary_check=(0, 1))
+
+
+def chunk_fwd_o(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    h: torch.Tensor,
+    g: torch.Tensor | None = None,  # cumsum of log decay
+    scale: float | None = None,
+    cu_seqlens: torch.LongTensor | None = None,
+    chunk_size: int = 64,
+) -> torch.Tensor:
+    B, T, Hg, K, V = *q.shape, v.shape[-1]
+    H = v.shape[-2]
+    BT = 64 if FLA_GDN_FIX_BT else min(chunk_size, max(16, triton.next_power_of_2(T)))
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = triton.cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+    if scale is None:
+        scale = k.shape[-1] ** -0.5
+
+    o = torch.empty_like(v)
+
+    def grid(meta):
+        return (triton.cdiv(V, meta["BV"]), NT, B * H)
+
+    chunk_fwd_kernel_o[grid](
+        q,
+        k,
+        v,
+        h,
+        g,
+        o,
+        cu_seqlens,
+        chunk_indices,
+        scale,
+        T=T,
+        H=H,
+        Hg=Hg,
+        K=K,
+        V=V,
+        BT=BT,
+    )
+    return o
diff --git a/model_executor/layers/fla/ops/chunk_scaled_dot_kkt.py b/model_executor/layers/fla/ops/chunk_scaled_dot_kkt.py
new file mode 100644
index 0000000..7724fa5
--- /dev/null
+++ b/model_executor/layers/fla/ops/chunk_scaled_dot_kkt.py
@@ -0,0 +1,154 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices
+from .op import exp
+
+
+@triton.heuristics(
+    {
+        "USE_G": lambda args: args["g"] is not None,
+        "IS_VARLEN": lambda args: args["cu_seqlens"] is not None,
+    }
+)
+@triton.autotune(
+    configs=[
+        triton.Config({"BK": BK}, num_warps=num_warps, num_stages=num_stages)
+        for BK in [32, 64, 128]
+        for num_warps in [2, 4, 8]
+        for num_stages in [2, 3, 4]
+    ],
+    key=["H", "K", "BT", "IS_VARLEN"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_scaled_dot_kkt_fwd_kernel(
+    k,
+    beta,
+    g,
+    A,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    Hg: tl.constexpr,
+    K: tl.constexpr,
+    BT: tl.constexpr,
+    BK: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    USE_G: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+    o_t = i_t * BT + tl.arange(0, BT)
+    m_t = o_t < T
+
+    p_beta = tl.make_block_ptr(
+        beta + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,)
+    )
+    b_beta = tl.load(p_beta, boundary_check=(0,))
+
+    b_A = tl.zeros([BT, BT], dtype=tl.float32)
+    for i_k in range(tl.cdiv(K, BK)):
+        p_k = tl.make_block_ptr(
+            k + (bos * Hg + i_h // (H // Hg)) * K,
+            (T, K),
+            (Hg * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        b_k = tl.load(p_k, boundary_check=(0, 1))
+        b_kb = b_k * b_beta[:, None]
+        b_A += tl.dot(b_kb.to(b_k.dtype), tl.trans(b_k))
+
+    if USE_G:
+        p_g = tl.make_block_ptr(g + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,))
+        b_g = tl.load(p_g, boundary_check=(0,))
+        b_g_diff = b_g[:, None] - b_g[None, :]
+        b_A = b_A * exp(b_g_diff)
+
+    m_A = (o_t[:, None] > o_t[None, :]) & (m_t[:, None] & m_t)
+    b_A = tl.where(m_A, b_A, 0)
+    p_A = tl.make_block_ptr(
+        A + (bos * H + i_h) * BT, (T, BT), (BT * H, 1), (i_t * BT, 0), (BT, BT), (1, 0)
+    )
+    tl.store(p_A, b_A.to(p_A.dtype.element_ty), boundary_check=(0, 1))
+
+
+def chunk_scaled_dot_kkt_fwd(
+    k: torch.Tensor,
+    g: torch.Tensor | None = None,
+    beta: torch.Tensor | None = None,
+    cu_seqlens: torch.LongTensor | None = None,
+    chunk_size: int = 64,
+    output_dtype: torch.dtype = torch.float32,
+) -> torch.Tensor:
+    r"""
+    Compute beta * K * K^T.
+
+    Args:
+        k (torch.Tensor):
+            The key tensor of shape `[B, T, H, K]`.
+        beta (torch.Tensor):
+            The beta tensor of shape `[B, T, H]`.
+        g (torch.Tensor):
+            The cumulative sum of the gate tensor of shape `[B, T, H]`. Default: `None`.
+        cu_seqlens (torch.LongTensor):
+            The cumulative sequence lengths of the input tensor.
+            Default: None
+        chunk_size (int):
+            The chunk size. Default: 64.
+        output_dtype (torch.dtype):
+            The dtype of the output tensor. Default: `torch.float32`
+
+    Returns:
+        beta * K * K^T of shape `[B, T, H, BT]` where `BT` is the chunk size.
+    """
+    # This kernel is slightly different from fla to support Q/K with different head numbers.
+    # In fla, Q/K always have the same head number, so Hg is always equal to H.
+    B, T, Hg, K = k.shape
+    H = beta.shape[-1]
+    BT = chunk_size
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = triton.cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+
+    A = torch.empty(B, T, H, BT, device=k.device, dtype=output_dtype)
+    chunk_scaled_dot_kkt_fwd_kernel[(NT, B * H)](
+        k=k,
+        g=g,
+        beta=beta,
+        A=A,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        Hg=Hg,
+        K=K,
+        BT=BT,
+    )
+    return A
diff --git a/model_executor/layers/fla/ops/cumsum.py b/model_executor/layers/fla/ops/cumsum.py
new file mode 100644
index 0000000..99b4179
--- /dev/null
+++ b/model_executor/layers/fla/ops/cumsum.py
@@ -0,0 +1,280 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+import warnings
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices
+from .utils import check_shared_mem, input_guard
+
+BS_LIST = [32, 64] if check_shared_mem() else [16, 32]
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[triton.Config({}, num_warps=num_warps) for num_warps in [1, 2, 4, 8]],
+    key=["B", "H", "BT", "IS_VARLEN", "REVERSE"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_local_cumsum_scalar_kernel(
+    s,
+    o,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    B: tl.constexpr,
+    H: tl.constexpr,
+    BT: tl.constexpr,
+    REVERSE: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    HEAD_FIRST: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    if HEAD_FIRST:
+        p_s = tl.make_block_ptr(
+            s + bos * H + i_h * T, (T,), (1,), (i_t * BT,), (BT,), (0,)
+        )
+        p_o = tl.make_block_ptr(
+            o + bos * H + i_h * T, (T,), (1,), (i_t * BT,), (BT,), (0,)
+        )
+    else:
+        p_s = tl.make_block_ptr(s + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,))
+        p_o = tl.make_block_ptr(o + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,))
+    # [BT]
+    b_s = tl.load(p_s, boundary_check=(0,)).to(tl.float32)
+    b_o = tl.cumsum(b_s, axis=0)
+    if REVERSE:
+        b_z = tl.sum(b_s, axis=0)
+        b_o = -b_o + b_z[None] + b_s
+    tl.store(p_o, b_o.to(p_o.dtype.element_ty), boundary_check=(0,))
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({"BS": BS}, num_warps=num_warps)
+        for BS in BS_LIST
+        for num_warps in [2, 4, 8]
+    ],
+    key=["B", "H", "S", "BT", "IS_VARLEN", "REVERSE"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_local_cumsum_vector_kernel(
+    s,
+    o,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    B: tl.constexpr,
+    H: tl.constexpr,
+    S: tl.constexpr,
+    BT: tl.constexpr,
+    BS: tl.constexpr,
+    REVERSE: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    HEAD_FIRST: tl.constexpr,
+):
+    i_s, i_t, i_bh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    o_i = tl.arange(0, BT)
+    if REVERSE:
+        m_s = tl.where(o_i[:, None] <= o_i[None, :], 1.0, 0.0)
+    else:
+        m_s = tl.where(o_i[:, None] >= o_i[None, :], 1.0, 0.0)
+
+    if HEAD_FIRST:
+        p_s = tl.make_block_ptr(
+            s + (bos * H + i_h * T) * S,
+            (T, S),
+            (S, 1),
+            (i_t * BT, i_s * BS),
+            (BT, BS),
+            (1, 0),
+        )
+        p_o = tl.make_block_ptr(
+            o + (bos * H + i_h * T) * S,
+            (T, S),
+            (S, 1),
+            (i_t * BT, i_s * BS),
+            (BT, BS),
+            (1, 0),
+        )
+    else:
+        p_s = tl.make_block_ptr(
+            s + (bos * H + i_h) * S,
+            (T, S),
+            (H * S, 1),
+            (i_t * BT, i_s * BS),
+            (BT, BS),
+            (1, 0),
+        )
+        p_o = tl.make_block_ptr(
+            o + (bos * H + i_h) * S,
+            (T, S),
+            (H * S, 1),
+            (i_t * BT, i_s * BS),
+            (BT, BS),
+            (1, 0),
+        )
+    # [BT, BS]
+    b_s = tl.load(p_s, boundary_check=(0, 1)).to(tl.float32)
+    b_o = tl.dot(m_s, b_s, allow_tf32=False)
+    tl.store(p_o, b_o.to(p_o.dtype.element_ty), boundary_check=(0, 1))
+
+
+def chunk_local_cumsum_scalar(
+    g: torch.Tensor,
+    chunk_size: int,
+    reverse: bool = False,
+    cu_seqlens: torch.Tensor | None = None,
+    head_first: bool = False,
+    output_dtype: torch.dtype | None = torch.float,
+) -> torch.Tensor:
+    if head_first:
+        B, H, T = g.shape
+    else:
+        B, T, H = g.shape
+    assert chunk_size == 2 ** (chunk_size.bit_length() - 1), (
+        "chunk_size must be a power of 2"
+    )
+    BT = chunk_size
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = triton.cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+    g_org, g = g, torch.empty_like(g, dtype=output_dtype or g.dtype)
+    grid = (NT, B * H)
+    chunk_local_cumsum_scalar_kernel[grid](
+        g_org,
+        g,
+        cu_seqlens,
+        chunk_indices,
+        T=T,
+        B=B,
+        H=H,
+        BT=BT,
+        HEAD_FIRST=head_first,
+        REVERSE=reverse,
+    )
+    return g
+
+
+def chunk_local_cumsum_vector(
+    g: torch.Tensor,
+    chunk_size: int,
+    reverse: bool = False,
+    cu_seqlens: torch.Tensor | None = None,
+    head_first: bool = False,
+    output_dtype: torch.dtype | None = torch.float,
+) -> torch.Tensor:
+    if head_first:
+        B, H, T, S = g.shape
+    else:
+        B, T, H, S = g.shape
+    BT = chunk_size
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, chunk_size)
+        if cu_seqlens is not None
+        else None
+    )
+    NT = triton.cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+    assert chunk_size == 2 ** (chunk_size.bit_length() - 1), (
+        "chunk_size must be a power of 2"
+    )
+
+    g_org, g = g, torch.empty_like(g, dtype=output_dtype or g.dtype)
+
+    def grid(meta):
+        return (triton.cdiv(meta["S"], meta["BS"]), NT, B * H)
+
+    # keep cumulative normalizer in fp32
+    # this kernel is equivalent to
+    # g = g.view(B, H, NT, BT, -1).cumsum(-2).view(B, H, T, -1)
+    chunk_local_cumsum_vector_kernel[grid](
+        g_org,
+        g,
+        cu_seqlens,
+        chunk_indices,
+        T=T,
+        B=B,
+        H=H,
+        S=S,
+        BT=BT,
+        HEAD_FIRST=head_first,
+        REVERSE=reverse,
+    )
+    return g
+
+
+@input_guard
+def chunk_local_cumsum(
+    g: torch.Tensor,
+    chunk_size: int,
+    reverse: bool = False,
+    cu_seqlens: torch.Tensor | None = None,
+    head_first: bool = False,
+    output_dtype: torch.dtype | None = torch.float,
+    **kwargs,
+) -> torch.Tensor:
+    if not head_first and g.shape[1] < g.shape[2]:
+        warnings.warn(
+            f"Input tensor shape suggests potential format mismatch: seq_len ({g.shape[1]}) < num_heads ({g.shape[2]}). "
+            "This may indicate the inputs were passed in head-first format [B, H, T, ...] "
+            "when head_first=False was specified. "
+            "Please verify your input tensor format matches the expected shape [B, T, H, ...].",
+            stacklevel=2,
+        )
+    if cu_seqlens is not None:
+        assert g.shape[0] == 1, (
+            "Only batch size 1 is supported when cu_seqlens are provided"
+        )
+    if len(g.shape) == 3:
+        return chunk_local_cumsum_scalar(
+            g, chunk_size, reverse, cu_seqlens, head_first, output_dtype
+        )
+    elif len(g.shape) == 4:
+        return chunk_local_cumsum_vector(
+            g, chunk_size, reverse, cu_seqlens, head_first, output_dtype
+        )
+    else:
+        raise ValueError(
+            f"Unsupported input shape {g.shape}. "
+            f"which should be (B, T, H, D) if `head_first=False` "
+            f"or (B, H, T, D) otherwise"
+        )
diff --git a/model_executor/layers/fla/ops/fused_recurrent.py b/model_executor/layers/fla/ops/fused_recurrent.py
new file mode 100644
index 0000000..0f27504
--- /dev/null
+++ b/model_executor/layers/fla/ops/fused_recurrent.py
@@ -0,0 +1,390 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .op import exp
+
+
+@triton.heuristics(
+    {
+        "USE_INITIAL_STATE": lambda args: args["h0"] is not None,
+        "IS_VARLEN": lambda args: args["cu_seqlens"] is not None,
+        "IS_CONTINUOUS_BATCHING": lambda args: args["ssm_state_indices"] is not None,
+        "IS_SPEC_DECODING": lambda args: args["num_accepted_tokens"] is not None,
+    }
+)
+@triton.jit(do_not_specialize=["N", "T"])
+def fused_recurrent_gated_delta_rule_fwd_kernel(
+    q,
+    k,
+    v,
+    g,
+    beta,
+    o,
+    h0,
+    ht,
+    cu_seqlens,
+    ssm_state_indices,
+    num_accepted_tokens,
+    scale,
+    N: tl.int64,  # num of sequences
+    T: tl.int64,  # num of tokens
+    B: tl.constexpr,
+    H: tl.constexpr,
+    HV: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BK: tl.constexpr,
+    BV: tl.constexpr,
+    stride_init_state_token: tl.constexpr,
+    stride_final_state_token: tl.constexpr,
+    stride_indices_seq: tl.constexpr,
+    stride_indices_tok: tl.constexpr,
+    USE_INITIAL_STATE: tl.constexpr,  # whether to use initial state
+    INPLACE_FINAL_STATE: tl.constexpr,  # whether to store final state inplace
+    IS_BETA_HEADWISE: tl.constexpr,  # whether beta is headwise vector or scalar,
+    USE_QK_L2NORM_IN_KERNEL: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    IS_CONTINUOUS_BATCHING: tl.constexpr,
+    IS_SPEC_DECODING: tl.constexpr,
+    IS_KDA: tl.constexpr,
+):
+    i_k, i_v, i_nh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_n, i_hv = i_nh // HV, i_nh % HV
+    i_h = i_hv // (HV // H)
+    if IS_VARLEN:
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int64),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int64),
+        )
+        all = T
+        T = eos - bos
+    else:
+        bos, eos = i_n * T, i_n * T + T
+        all = B * T
+
+    if T == 0:
+        # no tokens to process for this sequence
+        return
+
+    o_k = i_k * BK + tl.arange(0, BK)
+    o_v = i_v * BV + tl.arange(0, BV)
+
+    p_q = q + (bos * H + i_h) * K + o_k
+    p_k = k + (bos * H + i_h) * K + o_k
+    p_v = v + (bos * HV + i_hv) * V + o_v
+    if IS_BETA_HEADWISE:
+        p_beta = beta + (bos * HV + i_hv) * V + o_v
+    else:
+        p_beta = beta + bos * HV + i_hv
+
+    if not IS_KDA:
+        p_g = g + bos * HV + i_hv
+    else:
+        p_gk = g + (bos * HV + i_hv) * K + o_k
+
+    p_o = o + ((i_k * all + bos) * HV + i_hv) * V + o_v
+
+    mask_k = o_k < K
+    mask_v = o_v < V
+    mask_h = mask_k[:, None] & mask_v[None, :]
+
+    b_h = tl.zeros([BK, BV], dtype=tl.float32)
+    if USE_INITIAL_STATE:
+        if IS_CONTINUOUS_BATCHING:
+            if IS_SPEC_DECODING:
+                i_t = tl.load(num_accepted_tokens + i_n).to(tl.int64) - 1
+            else:
+                i_t = 0
+            p_h0 = (
+                h0
+                + tl.load(ssm_state_indices + i_n * stride_indices_seq + i_t).to(
+                    tl.int64
+                )
+                * stride_init_state_token
+            )
+        else:
+            p_h0 = h0 + bos * HV * K * V
+        p_h0 = p_h0 + i_hv * K * V + o_k[:, None] * V + o_v[None, :]
+        b_h += tl.load(p_h0, mask=mask_h, other=0).to(tl.float32)
+
+    for i_t in range(0, T):
+        b_q = tl.load(p_q, mask=mask_k, other=0).to(tl.float32)
+        b_k = tl.load(p_k, mask=mask_k, other=0).to(tl.float32)
+        b_v = tl.load(p_v, mask=mask_v, other=0).to(tl.float32)
+
+        if USE_QK_L2NORM_IN_KERNEL:
+            b_q = b_q / tl.sqrt(tl.sum(b_q * b_q) + 1e-6)
+            b_k = b_k / tl.sqrt(tl.sum(b_k * b_k) + 1e-6)
+        b_q = b_q * scale
+        # [BK, BV]
+        if not IS_KDA:
+            b_g = tl.load(p_g).to(tl.float32)
+            b_h *= exp(b_g)
+        else:
+            b_gk = tl.load(p_gk).to(tl.float32)
+            b_h *= exp(b_gk[:, None])
+        # [BV]
+        b_v -= tl.sum(b_h * b_k[:, None], 0)
+        if IS_BETA_HEADWISE:
+            b_beta = tl.load(p_beta, mask=mask_v, other=0).to(tl.float32)
+        else:
+            b_beta = tl.load(p_beta).to(tl.float32)
+        b_v *= b_beta
+        # [BK, BV]
+        b_h += b_k[:, None] * b_v[None, :]
+        # [BV]
+        b_o = tl.sum(b_h * b_q[:, None], 0)
+        tl.store(p_o, b_o.to(p_o.dtype.element_ty), mask=mask_v)
+
+        # keep the states for multi-query tokens
+        if INPLACE_FINAL_STATE:
+            p_ht = (
+                ht
+                + tl.load(ssm_state_indices + i_n * stride_indices_seq + i_t).to(
+                    tl.int64
+                )
+                * stride_final_state_token
+            )
+        else:
+            p_ht = ht + (bos + i_t) * stride_final_state_token
+        p_ht = p_ht + i_hv * K * V + o_k[:, None] * V + o_v[None, :]
+        tl.store(p_ht, b_h.to(p_ht.dtype.element_ty), mask=mask_h)
+
+        p_q += H * K
+        p_k += H * K
+        p_o += HV * V
+        p_v += HV * V
+        if not IS_KDA:
+            p_g += HV
+        else:
+            p_gk += HV * K
+        p_beta += HV * (V if IS_BETA_HEADWISE else 1)
+
+
+def fused_recurrent_gated_delta_rule_fwd(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float,
+    initial_state: torch.Tensor,
+    inplace_final_state: bool = True,
+    cu_seqlens: torch.LongTensor | None = None,
+    ssm_state_indices: torch.Tensor | None = None,
+    num_accepted_tokens: torch.Tensor | None = None,
+    use_qk_l2norm_in_kernel: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    B, T, H, K, V = *k.shape, v.shape[-1]
+    HV = v.shape[2]
+    N = B if cu_seqlens is None else len(cu_seqlens) - 1
+    BK, BV = triton.next_power_of_2(K), min(triton.next_power_of_2(V), 8)
+    NK, NV = triton.cdiv(K, BK), triton.cdiv(V, BV)
+    assert NK == 1, "NK > 1 is not supported yet"
+    num_stages = 3
+    num_warps = 1
+
+    o = q.new_empty(NK, *v.shape)
+    if inplace_final_state:
+        final_state = initial_state
+    else:
+        final_state = q.new_empty(T, HV, K, V, dtype=initial_state.dtype)
+
+    stride_init_state_token = initial_state.stride(0)
+    stride_final_state_token = final_state.stride(0)
+
+    if ssm_state_indices is None:
+        stride_indices_seq, stride_indices_tok = 1, 1
+    elif ssm_state_indices.ndim == 1:
+        stride_indices_seq, stride_indices_tok = ssm_state_indices.stride(0), 1
+    else:
+        stride_indices_seq, stride_indices_tok = ssm_state_indices.stride()
+
+    grid = (NK, NV, N * HV)
+    fused_recurrent_gated_delta_rule_fwd_kernel[grid](
+        q=q,
+        k=k,
+        v=v,
+        g=g,
+        beta=beta,
+        o=o,
+        h0=initial_state,
+        ht=final_state,
+        cu_seqlens=cu_seqlens,
+        ssm_state_indices=ssm_state_indices,
+        num_accepted_tokens=num_accepted_tokens,
+        scale=scale,
+        N=N,
+        T=T,
+        B=B,
+        H=H,
+        HV=HV,
+        K=K,
+        V=V,
+        BK=BK,
+        BV=BV,
+        stride_init_state_token=stride_init_state_token,
+        stride_final_state_token=stride_final_state_token,
+        stride_indices_seq=stride_indices_seq,
+        stride_indices_tok=stride_indices_tok,
+        IS_BETA_HEADWISE=beta.ndim == v.ndim,
+        USE_QK_L2NORM_IN_KERNEL=use_qk_l2norm_in_kernel,
+        INPLACE_FINAL_STATE=inplace_final_state,
+        IS_KDA=False,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+    o = o.squeeze(0)
+    return o, final_state
+
+
+class FusedRecurrentFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(
+        ctx,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        g: torch.Tensor,
+        beta: torch.Tensor,
+        scale: float,
+        initial_state: torch.Tensor,
+        inplace_final_state: bool = True,
+        cu_seqlens: torch.LongTensor | None = None,
+        ssm_state_indices: torch.Tensor | None = None,
+        num_accepted_tokens: torch.Tensor | None = None,
+        use_qk_l2norm_in_kernel: bool = False,
+    ):
+        o, final_state = fused_recurrent_gated_delta_rule_fwd(
+            q=q.contiguous(),
+            k=k.contiguous(),
+            v=v.contiguous(),
+            g=g.contiguous(),
+            beta=beta.contiguous(),
+            scale=scale,
+            initial_state=initial_state,
+            inplace_final_state=inplace_final_state,
+            cu_seqlens=cu_seqlens,
+            ssm_state_indices=ssm_state_indices,
+            num_accepted_tokens=num_accepted_tokens,
+            use_qk_l2norm_in_kernel=use_qk_l2norm_in_kernel,
+        )
+
+        return o, final_state
+
+
+def fused_recurrent_gated_delta_rule(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor = None,
+    scale: float = None,
+    initial_state: torch.Tensor = None,
+    inplace_final_state: bool = True,
+    cu_seqlens: torch.LongTensor | None = None,
+    ssm_state_indices: torch.Tensor | None = None,
+    num_accepted_tokens: torch.Tensor | None = None,
+    use_qk_l2norm_in_kernel: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    r"""
+    Args:
+        q (torch.Tensor):
+            queries of shape `[B, T, H, K]`.
+        k (torch.Tensor):
+            keys of shape `[B, T, H, K]`.
+        v (torch.Tensor):
+            values of shape `[B, T, HV, V]`.
+            GVA is applied if `HV > H`.
+        g (torch.Tensor):
+            g (decays) of shape `[B, T, HV]`.
+        beta (torch.Tensor):
+            betas of shape `[B, T, HV]`.
+        scale (Optional[int]):
+            Scale factor for the RetNet attention scores.
+            If not provided, it will default to `1 / sqrt(K)`. Default: `None`.
+        initial_state (Optional[torch.Tensor]):
+            Initial state of shape `[N, HV, K, V]` for `N` input sequences.
+            For equal-length input sequences, `N` equals the batch size `B`.
+            Default: `None`.
+        inplace_final_state: bool:
+            Whether to store the final state in-place to save memory.
+            Default: `True`.
+        cu_seqlens (torch.LongTensor):
+            Cumulative sequence lengths of shape `[N+1]` used for variable-length training,
+            consistent with the FlashAttention API.
+        ssm_state_indices (Optional[torch.Tensor]):
+            Indices to map the input sequences to the initial/final states.
+        num_accepted_tokens (Optional[torch.Tensor]):
+            Number of accepted tokens for each sequence during decoding.
+
+    Returns:
+        o (torch.Tensor):
+            Outputs of shape `[B, T, HV, V]`.
+        final_state (torch.Tensor):
+            Final state of shape `[N, HV, K, V]`.
+
+    Examples::
+        >>> import torch
+        >>> import torch.nn.functional as F
+        >>> from einops import rearrange
+        >>> from fla.ops.gated_delta_rule import fused_recurrent_gated_delta_rule
+        # inputs with equal lengths
+        >>> B, T, H, HV, K, V = 4, 2048, 4, 8, 512, 512
+        >>> q = torch.randn(B, T, H, K, device='cuda')
+        >>> k = F.normalize(torch.randn(B, T, H, K, device='cuda'), p=2, dim=-1)
+        >>> v = torch.randn(B, T, HV, V, device='cuda')
+        >>> g = F.logsigmoid(torch.rand(B, T, HV, device='cuda'))
+        >>> beta = torch.rand(B, T, HV, device='cuda').sigmoid()
+        >>> h0 = torch.randn(B, HV, K, V, device='cuda')
+        >>> o, ht = fused_gated_recurrent_delta_rule(
+            q, k, v, g, beta,
+            initial_state=h0,
+        )
+        # for variable-length inputs, the batch size `B` is expected to be 1 and `cu_seqlens` is required
+        >>> q, k, v, g, beta = map(lambda x: rearrange(x, 'b t ... -> 1 (b t) ...'), (q, k, v, g, beta))
+        # for a batch with 4 sequences, `cu_seqlens` with 5 start/end positions are expected
+        >>> cu_seqlens = q.new_tensor([0, 2048, 4096, 6144, 8192], dtype=torch.long)
+        >>> o_var, ht_var = fused_gated_recurrent_delta_rule(
+            q, k, v, g, beta,
+            initial_state=h0,
+            cu_seqlens=cu_seqlens
+        )
+    """
+    if cu_seqlens is not None and q.shape[0] != 1:
+        raise ValueError(
+            f"The batch size is expected to be 1 rather than {q.shape[0]} when using `cu_seqlens`."
+            f"Please flatten variable-length inputs before processing."
+        )
+    if scale is None:
+        scale = k.shape[-1] ** -0.5
+    else:
+        assert scale > 0, "scale must be positive"
+    if beta is None:
+        beta = torch.ones_like(q[..., 0])
+    o, final_state = FusedRecurrentFunction.apply(
+        q,
+        k,
+        v,
+        g,
+        beta,
+        scale,
+        initial_state,
+        inplace_final_state,
+        cu_seqlens,
+        ssm_state_indices,
+        num_accepted_tokens,
+        use_qk_l2norm_in_kernel,
+    )
+    return o, final_state
diff --git a/model_executor/layers/fla/ops/index.py b/model_executor/layers/fla/ops/index.py
new file mode 100644
index 0000000..f023e13
--- /dev/null
+++ b/model_executor/layers/fla/ops/index.py
@@ -0,0 +1,41 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+import torch
+
+from vllm.triton_utils import triton
+
+from .utils import tensor_cache
+
+
+@tensor_cache
+def prepare_lens(cu_seqlens: torch.LongTensor) -> torch.LongTensor:
+    return cu_seqlens[1:] - cu_seqlens[:-1]
+
+
+@tensor_cache
+def prepare_chunk_indices(
+    cu_seqlens: torch.LongTensor, chunk_size: int
+) -> torch.LongTensor:
+    indices = torch.cat(
+        [
+            torch.arange(n)
+            for n in triton.cdiv(prepare_lens(cu_seqlens), chunk_size).tolist()
+        ]
+    )
+    return torch.stack([indices.eq(0).cumsum(0) - 1, indices], 1).to(cu_seqlens)
+
+
+@tensor_cache
+def prepare_chunk_offsets(
+    cu_seqlens: torch.LongTensor, chunk_size: int
+) -> torch.LongTensor:
+    return torch.cat(
+        [cu_seqlens.new_tensor([0]), triton.cdiv(prepare_lens(cu_seqlens), chunk_size)]
+    ).cumsum(-1)
diff --git a/model_executor/layers/fla/ops/kda.py b/model_executor/layers/fla/ops/kda.py
new file mode 100644
index 0000000..700f287
--- /dev/null
+++ b/model_executor/layers/fla/ops/kda.py
@@ -0,0 +1,1351 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+
+
+import torch
+import torch.nn as nn
+
+from vllm.triton_utils import tl, triton
+from vllm.utils.math_utils import cdiv, next_power_of_2
+
+from .chunk_delta_h import chunk_gated_delta_rule_fwd_h
+from .cumsum import chunk_local_cumsum
+from .fused_recurrent import fused_recurrent_gated_delta_rule_fwd_kernel
+from .index import prepare_chunk_indices
+from .l2norm import l2norm_fwd
+from .op import exp, log
+from .solve_tril import solve_tril
+from .utils import is_amd
+
+BT_LIST_AUTOTUNE = [32, 64, 128]
+NUM_WARPS_AUTOTUNE = [2, 4, 8, 16] if is_amd else [4, 8, 16, 32]
+
+
+def fused_recurrent_kda_fwd(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float,
+    initial_state: torch.Tensor,
+    inplace_final_state: bool = True,
+    cu_seqlens: torch.LongTensor | None = None,
+    ssm_state_indices: torch.Tensor | None = None,
+    num_accepted_tokens: torch.Tensor | None = None,
+    use_qk_l2norm_in_kernel: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    B, T, H, K, V = *k.shape, v.shape[-1]
+    HV = v.shape[2]
+    N = B if cu_seqlens is None else len(cu_seqlens) - 1
+    BK, BV = next_power_of_2(K), min(next_power_of_2(V), 8)
+    NK, NV = cdiv(K, BK), cdiv(V, BV)
+    assert NK == 1, "NK > 1 is not supported yet"
+    num_stages = 3
+    num_warps = 1
+
+    o = torch.empty_like(k)
+    if inplace_final_state:
+        final_state = initial_state
+    else:
+        final_state = q.new_empty(T, HV, K, V, dtype=initial_state.dtype)
+
+    stride_init_state_token = initial_state.stride(0)
+    stride_final_state_token = final_state.stride(0)
+
+    if ssm_state_indices is None:
+        stride_indices_seq, stride_indices_tok = 1, 1
+    elif ssm_state_indices.ndim == 1:
+        stride_indices_seq, stride_indices_tok = ssm_state_indices.stride(0), 1
+    else:
+        stride_indices_seq, stride_indices_tok = ssm_state_indices.stride()
+
+    grid = (NK, NV, N * HV)
+    fused_recurrent_gated_delta_rule_fwd_kernel[grid](
+        q=q,
+        k=k,
+        v=v,
+        g=g,
+        beta=beta,
+        o=o,
+        h0=initial_state,
+        ht=final_state,
+        cu_seqlens=cu_seqlens,
+        ssm_state_indices=ssm_state_indices,
+        num_accepted_tokens=num_accepted_tokens,
+        scale=scale,
+        N=N,
+        T=T,
+        B=B,
+        H=H,
+        HV=HV,
+        K=K,
+        V=V,
+        BK=BK,
+        BV=BV,
+        stride_init_state_token=stride_init_state_token,
+        stride_final_state_token=stride_final_state_token,
+        stride_indices_seq=stride_indices_seq,
+        stride_indices_tok=stride_indices_tok,
+        IS_BETA_HEADWISE=beta.ndim == v.ndim,
+        USE_QK_L2NORM_IN_KERNEL=use_qk_l2norm_in_kernel,
+        INPLACE_FINAL_STATE=inplace_final_state,
+        IS_KDA=True,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+
+    return o, final_state
+
+
+def fused_recurrent_kda(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor = None,
+    scale: float = None,
+    initial_state: torch.Tensor = None,
+    inplace_final_state: bool = True,
+    use_qk_l2norm_in_kernel: bool = True,
+    cu_seqlens: torch.LongTensor | None = None,
+    ssm_state_indices: torch.LongTensor | None = None,
+    **kwargs,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if cu_seqlens is not None and q.shape[0] != 1:
+        raise ValueError(
+            f"The batch size is expected to be 1 rather than {q.shape[0]} when using `cu_seqlens`."
+            f"Please flatten variable-length inputs before processing."
+        )
+    if scale is None:
+        scale = k.shape[-1] ** -0.5
+
+    o, final_state = fused_recurrent_kda_fwd(
+        q=q.contiguous(),
+        k=k.contiguous(),
+        v=v.contiguous(),
+        g=g.contiguous(),
+        beta=beta.contiguous(),
+        scale=scale,
+        initial_state=initial_state,
+        inplace_final_state=inplace_final_state,
+        cu_seqlens=cu_seqlens,
+        ssm_state_indices=ssm_state_indices,
+        num_accepted_tokens=None,
+        use_qk_l2norm_in_kernel=use_qk_l2norm_in_kernel,
+    )
+    return o, final_state
+
+
+@triton.heuristics(
+    {
+        "STORE_RESIDUAL_OUT": lambda args: args["residual_out"] is not None,
+        "HAS_RESIDUAL": lambda args: args["residual"] is not None,
+        "HAS_WEIGHT": lambda args: args["w"] is not None,
+        "HAS_BIAS": lambda args: args["b"] is not None,
+    }
+)
+@triton.jit
+def layer_norm_gated_fwd_kernel(
+    x,  # pointer to the input
+    g,  # pointer to the gate
+    y,  # pointer to the output
+    w,  # pointer to the weights
+    b,  # pointer to the biases
+    residual,  # pointer to the residual
+    residual_out,  # pointer to the residual
+    mean,  # pointer to the mean
+    rstd,  # pointer to the 1/std
+    eps,  # epsilon to avoid division by zero
+    T,  # number of rows in x
+    D: tl.constexpr,  # number of columns in x
+    BT: tl.constexpr,
+    BD: tl.constexpr,
+    ACTIVATION: tl.constexpr,
+    IS_RMS_NORM: tl.constexpr,
+    STORE_RESIDUAL_OUT: tl.constexpr,
+    HAS_RESIDUAL: tl.constexpr,
+    HAS_WEIGHT: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+):
+    i_t = tl.program_id(0)
+
+    o_d = tl.arange(0, BD)
+    m_d = o_d < D
+
+    p_x = tl.make_block_ptr(x, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0))
+    b_x = tl.load(p_x, boundary_check=(0, 1)).to(tl.float32)
+    if HAS_RESIDUAL:
+        p_res = tl.make_block_ptr(
+            residual, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0)
+        )
+        b_x += tl.load(p_res, boundary_check=(0, 1)).to(tl.float32)
+    if STORE_RESIDUAL_OUT:
+        p_res_out = tl.make_block_ptr(
+            residual_out, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0)
+        )
+        tl.store(p_res_out, b_x.to(p_res_out.dtype.element_ty), boundary_check=(0, 1))
+    if not IS_RMS_NORM:
+        b_mean = tl.sum(b_x, axis=1) / D
+        p_mean = tl.make_block_ptr(mean, (T,), (1,), (i_t * BT,), (BT,), (0,))
+        tl.store(p_mean, b_mean.to(p_mean.dtype.element_ty), boundary_check=(0,))
+        b_xbar = tl.where(m_d[None, :], b_x - b_mean[:, None], 0.0)
+        b_var = tl.sum(b_xbar * b_xbar, axis=1) / D
+    else:
+        b_xbar = tl.where(m_d[None, :], b_x, 0.0)
+        b_var = tl.sum(b_xbar * b_xbar, axis=1) / D
+    b_rstd = 1 / tl.sqrt(b_var + eps)
+
+    p_rstd = tl.make_block_ptr(rstd, (T,), (1,), (i_t * BT,), (BT,), (0,))
+    tl.store(p_rstd, b_rstd.to(p_rstd.dtype.element_ty), boundary_check=(0,))
+
+    if HAS_WEIGHT:
+        b_w = tl.load(w + o_d, mask=m_d).to(tl.float32)
+    if HAS_BIAS:
+        b_b = tl.load(b + o_d, mask=m_d).to(tl.float32)
+    b_x_hat = (
+        (b_x - b_mean[:, None]) * b_rstd[:, None]
+        if not IS_RMS_NORM
+        else b_x * b_rstd[:, None]
+    )
+    b_y = b_x_hat * b_w[None, :] if HAS_WEIGHT else b_x_hat
+    if HAS_BIAS:
+        b_y = b_y + b_b[None, :]
+
+    # swish/sigmoid output gate
+    p_g = tl.make_block_ptr(g, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0))
+    b_g = tl.load(p_g, boundary_check=(0, 1)).to(tl.float32)
+    if ACTIVATION == "swish" or ACTIVATION == "silu":
+        b_y = b_y * b_g * tl.sigmoid(b_g)
+    elif ACTIVATION == "sigmoid":
+        b_y = b_y * tl.sigmoid(b_g)
+
+    # Write output
+    p_y = tl.make_block_ptr(y, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0))
+    tl.store(p_y, b_y.to(p_y.dtype.element_ty), boundary_check=(0, 1))
+
+
+@triton.heuristics(
+    {
+        "STORE_RESIDUAL_OUT": lambda args: args["residual_out"] is not None,
+        "HAS_RESIDUAL": lambda args: args["residual"] is not None,
+        "HAS_WEIGHT": lambda args: args["w"] is not None,
+        "HAS_BIAS": lambda args: args["b"] is not None,
+    }
+)
+@triton.jit
+def layer_norm_gated_fwd_kernel1(
+    x,  # pointer to the input
+    g,  # pointer to the gate
+    y,  # pointer to the output
+    w,  # pointer to the weights
+    b,  # pointer to the biases
+    residual,  # pointer to the residual
+    residual_out,  # pointer to the residual
+    mean,  # pointer to the mean
+    rstd,  # pointer to the 1/std
+    eps,  # epsilon to avoid division by zero
+    D: tl.constexpr,  # number of columns in x
+    BD: tl.constexpr,
+    ACTIVATION: tl.constexpr,
+    IS_RMS_NORM: tl.constexpr,
+    STORE_RESIDUAL_OUT: tl.constexpr,
+    HAS_RESIDUAL: tl.constexpr,
+    HAS_WEIGHT: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+):
+    i_t = tl.program_id(0)
+    x += i_t * D
+    y += i_t * D
+    g += i_t * D
+    if HAS_RESIDUAL:
+        residual += i_t * D
+    if STORE_RESIDUAL_OUT:
+        residual_out += i_t * D
+
+    o_d = tl.arange(0, BD)
+    m_d = o_d < D
+    b_x = tl.load(x + o_d, mask=m_d, other=0.0).to(tl.float32)
+    if HAS_RESIDUAL:
+        b_x += tl.load(residual + o_d, mask=m_d, other=0.0).to(tl.float32)
+    if STORE_RESIDUAL_OUT:
+        tl.store(residual_out + o_d, b_x, mask=m_d)
+    if not IS_RMS_NORM:
+        b_mean = tl.sum(b_x, axis=0) / D
+        tl.store(mean + i_t, b_mean)
+        b_xbar = tl.where(m_d, b_x - b_mean, 0.0)
+        b_var = tl.sum(b_xbar * b_xbar, axis=0) / D
+    else:
+        b_xbar = tl.where(m_d, b_x, 0.0)
+        b_var = tl.sum(b_xbar * b_xbar, axis=0) / D
+    b_rstd = 1 / tl.sqrt(b_var + eps)
+    tl.store(rstd + i_t, b_rstd)
+
+    if HAS_WEIGHT:
+        b_w = tl.load(w + o_d, mask=m_d).to(tl.float32)
+    if HAS_BIAS:
+        b_b = tl.load(b + o_d, mask=m_d).to(tl.float32)
+    b_x_hat = (b_x - b_mean) * b_rstd if not IS_RMS_NORM else b_x * b_rstd
+    b_y = b_x_hat * b_w if HAS_WEIGHT else b_x_hat
+    if HAS_BIAS:
+        b_y = b_y + b_b
+
+    # swish/sigmoid output gate
+    b_g = tl.load(g + o_d, mask=m_d, other=0.0).to(tl.float32)
+    if ACTIVATION == "swish" or ACTIVATION == "silu":
+        b_y = b_y * b_g * tl.sigmoid(b_g)
+    elif ACTIVATION == "sigmoid":
+        b_y = b_y * tl.sigmoid(b_g)
+
+    # Write output
+    tl.store(y + o_d, b_y, mask=m_d)
+
+
+def layer_norm_gated_fwd(
+    x: torch.Tensor,
+    g: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor,
+    activation: str = "swish",
+    eps: float = 1e-5,
+    residual: torch.Tensor = None,
+    out_dtype: torch.dtype = None,
+    residual_dtype: torch.dtype = None,
+    is_rms_norm: bool = False,
+):
+    if residual is not None:
+        residual_dtype = residual.dtype
+    T, D = x.shape
+    if residual is not None:
+        assert residual.shape == (T, D)
+    if weight is not None:
+        assert weight.shape == (D,)
+    if bias is not None:
+        assert bias.shape == (D,)
+    # allocate output
+    y = x if out_dtype is None else torch.empty_like(x, dtype=out_dtype)
+    if residual is not None or (
+        residual_dtype is not None and residual_dtype != x.dtype
+    ):
+        residual_out = torch.empty(T, D, device=x.device, dtype=residual_dtype)
+    else:
+        residual_out = None
+    mean = (
+        torch.empty((T,), dtype=torch.float, device=x.device)
+        if not is_rms_norm
+        else None
+    )
+    rstd = torch.empty((T,), dtype=torch.float, device=x.device)
+    # Less than 64KB per feature: enqueue fused kernel
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BD = min(MAX_FUSED_SIZE, next_power_of_2(D))
+    if D > BD:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    # heuristics for number of warps
+
+    if D <= 512:
+        BT = 32
+        layer_norm_gated_fwd_kernel[(cdiv(T, BT),)](
+            x=x,
+            g=g,
+            y=y,
+            w=weight,
+            b=bias,
+            residual=residual,
+            residual_out=residual_out,
+            mean=mean,
+            rstd=rstd,
+            eps=eps,
+            T=T,
+            D=D,
+            BD=BD,
+            BT=BT,
+            ACTIVATION=activation,
+            IS_RMS_NORM=is_rms_norm,
+            num_warps=4,
+        )
+    else:
+        layer_norm_gated_fwd_kernel1[(T,)](
+            x=x,
+            g=g,
+            y=y,
+            w=weight,
+            b=bias,
+            residual=residual,
+            residual_out=residual_out,
+            mean=mean,
+            rstd=rstd,
+            eps=eps,
+            D=D,
+            BD=BD,
+            ACTIVATION=activation,
+            IS_RMS_NORM=is_rms_norm,
+            num_warps=4,
+        )
+    # residual_out is None if residual is None and residual_dtype == input_dtype
+    return y, mean, rstd, residual_out if residual_out is not None else x
+
+
+def rms_norm_gated(
+    x: torch.Tensor,
+    g: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor,
+    activation: str = "swish",
+    residual: torch.Tensor | None = None,
+    prenorm: bool = False,
+    residual_in_fp32: bool = False,
+    eps: float = 1e-6,
+):
+    x_shape_og = x.shape
+    # reshape input data into 2D tensor
+    x = x.contiguous().reshape(-1, x.shape[-1])
+    g = g.contiguous().reshape(-1, g.shape[-1])
+    if residual is not None:
+        assert residual.shape == x_shape_og
+        residual = residual.contiguous().reshape(-1, residual.shape[-1])
+    residual_dtype = (
+        residual.dtype
+        if residual is not None
+        else (torch.float if residual_in_fp32 else None)
+    )
+    y, _, _, residual_out = layer_norm_gated_fwd(
+        x=x,
+        g=g,
+        weight=weight,
+        bias=bias,
+        activation=activation,
+        eps=eps,
+        residual=residual,
+        residual_dtype=residual_dtype,
+        is_rms_norm=True,
+    )
+    y = y.reshape(x_shape_og)
+    return y if not prenorm else (y, residual_out.reshape(x_shape_og))
+
+
+class FusedRMSNormGated(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        elementwise_affine: bool = True,
+        eps: float = 1e-5,
+        activation: str = "swish",
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ) -> None:
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+
+        self.hidden_size = hidden_size
+        self.elementwise_affine = elementwise_affine
+        self.eps = eps
+        self.activation = activation
+
+        if self.activation not in ["swish", "silu", "sigmoid"]:
+            raise ValueError(f"Unsupported activation: {self.activation}")
+
+        if elementwise_affine:
+            self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        else:
+            self.register_parameter("weight", None)
+        self.register_parameter("bias", None)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        g: torch.Tensor,
+        residual: torch.Tensor | None = None,
+        prenorm: bool = False,
+        residual_in_fp32: bool = False,
+    ) -> torch.Tensor:
+        return rms_norm_gated(
+            x,
+            g,
+            self.weight,
+            self.bias,
+            self.activation,
+            residual=residual,
+            eps=self.eps,
+            prenorm=prenorm,
+            residual_in_fp32=residual_in_fp32,
+        )
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({"BK": BK}, num_warps=num_warps, num_stages=num_stages)
+        for BK in [32, 64]
+        for num_warps in [1, 2, 4, 8]
+        for num_stages in [2, 3, 4]
+    ],
+    key=["BC"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_kda_scaled_dot_kkt_fwd_kernel_intra_sub_inter(
+    q,
+    k,
+    g,
+    beta,
+    A,
+    Aqk,
+    scale,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    K: tl.constexpr,
+    BT: tl.constexpr,
+    BC: tl.constexpr,
+    BK: tl.constexpr,
+    NC: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_t, i_c, i_bh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_b, i_h = i_bh // H, i_bh % H
+    i_i, i_j = i_c // NC, i_c % NC
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    if i_t * BT + i_i * BC >= T:
+        return
+    if i_i <= i_j:
+        return
+
+    q += (bos * H + i_h) * K
+    k += (bos * H + i_h) * K
+    g += (bos * H + i_h) * K
+    A += (bos * H + i_h) * BT
+    Aqk += (bos * H + i_h) * BT
+
+    p_b = tl.make_block_ptr(
+        beta + bos * H + i_h, (T,), (H,), (i_t * BT + i_i * BC,), (BC,), (0,)
+    )
+    b_b = tl.load(p_b, boundary_check=(0,))
+
+    b_A = tl.zeros([BC, BC], dtype=tl.float32)
+    b_Aqk = tl.zeros([BC, BC], dtype=tl.float32)
+    for i_k in range(tl.cdiv(K, BK)):
+        p_q = tl.make_block_ptr(
+            q, (T, K), (H * K, 1), (i_t * BT + i_i * BC, i_k * BK), (BC, BK), (1, 0)
+        )
+        p_k = tl.make_block_ptr(
+            k, (T, K), (H * K, 1), (i_t * BT + i_i * BC, i_k * BK), (BC, BK), (1, 0)
+        )
+        p_g = tl.make_block_ptr(
+            g, (T, K), (H * K, 1), (i_t * BT + i_i * BC, i_k * BK), (BC, BK), (1, 0)
+        )
+        b_kt = tl.make_block_ptr(
+            k, (K, T), (1, H * K), (i_k * BK, i_t * BT + i_j * BC), (BK, BC), (0, 1)
+        )
+        p_gk = tl.make_block_ptr(
+            g, (K, T), (1, H * K), (i_k * BK, i_t * BT + i_j * BC), (BK, BC), (0, 1)
+        )
+
+        o_k = i_k * BK + tl.arange(0, BK)
+        m_k = o_k < K
+        # [BK,]
+        b_gn = tl.load(g + (i_t * BT + i_i * BC) * H * K + o_k, mask=m_k, other=0)
+        # [BC, BK]
+        b_g = tl.load(p_g, boundary_check=(0, 1))
+        b_k = tl.load(p_k, boundary_check=(0, 1)) * exp(b_g - b_gn[None, :])
+        # [BK, BC]
+        b_gk = tl.load(p_gk, boundary_check=(0, 1))
+        b_kt = tl.load(b_kt, boundary_check=(0, 1))
+        # [BC, BC]
+        b_ktg = b_kt * exp(b_gn[:, None] - b_gk)
+        b_A += tl.dot(b_k, b_ktg)
+
+        b_q = tl.load(p_q, boundary_check=(0, 1))
+        b_qg = b_q * exp(b_g - b_gn[None, :]) * scale
+        b_Aqk += tl.dot(b_qg, b_ktg)
+
+    b_A *= b_b[:, None]
+
+    p_A = tl.make_block_ptr(
+        A, (T, BT), (H * BT, 1), (i_t * BT + i_i * BC, i_j * BC), (BC, BC), (1, 0)
+    )
+    tl.store(p_A, b_A.to(A.dtype.element_ty), boundary_check=(0, 1))
+    p_Aqk = tl.make_block_ptr(
+        Aqk, (T, BT), (H * BT, 1), (i_t * BT + i_i * BC, i_j * BC), (BC, BC), (1, 0)
+    )
+    tl.store(p_Aqk, b_Aqk.to(Aqk.dtype.element_ty), boundary_check=(0, 1))
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[triton.Config({}, num_warps=num_warps) for num_warps in [1, 2, 4, 8]],
+    key=["BK", "BT"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_kda_scaled_dot_kkt_fwd_kernel_intra_sub_intra(
+    q,
+    k,
+    g,
+    beta,
+    A,
+    Aqk,
+    scale,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    K: tl.constexpr,
+    BT: tl.constexpr,
+    BC: tl.constexpr,
+    BK: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_t, i_i, i_bh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    if i_t * BT + i_i * BC >= T:
+        return
+
+    o_i = tl.arange(0, BC)
+    o_k = tl.arange(0, BK)
+    m_k = o_k < K
+    m_A = (i_t * BT + i_i * BC + o_i) < T
+    o_A = (bos + i_t * BT + i_i * BC + o_i) * H * BT + i_h * BT + i_i * BC
+
+    p_q = tl.make_block_ptr(
+        q + (bos * H + i_h) * K,
+        (T, K),
+        (H * K, 1),
+        (i_t * BT + i_i * BC, 0),
+        (BC, BK),
+        (1, 0),
+    )
+    p_k = tl.make_block_ptr(
+        k + (bos * H + i_h) * K,
+        (T, K),
+        (H * K, 1),
+        (i_t * BT + i_i * BC, 0),
+        (BC, BK),
+        (1, 0),
+    )
+    p_g = tl.make_block_ptr(
+        g + (bos * H + i_h) * K,
+        (T, K),
+        (H * K, 1),
+        (i_t * BT + i_i * BC, 0),
+        (BC, BK),
+        (1, 0),
+    )
+    b_q = tl.load(p_q, boundary_check=(0, 1))
+    b_k = tl.load(p_k, boundary_check=(0, 1))
+    b_g = tl.load(p_g, boundary_check=(0, 1))
+
+    p_b = beta + (bos + i_t * BT + i_i * BC + o_i) * H + i_h
+    b_k = b_k * tl.load(p_b, mask=m_A, other=0)[:, None]
+
+    p_kt = k + (bos + i_t * BT + i_i * BC) * H * K + i_h * K + o_k
+    p_gk = g + (bos + i_t * BT + i_i * BC) * H * K + i_h * K + o_k
+
+    for j in range(0, min(BC, T - i_t * BT - i_i * BC)):
+        b_kt = tl.load(p_kt, mask=m_k, other=0).to(tl.float32)
+        b_gk = tl.load(p_gk, mask=m_k, other=0).to(tl.float32)
+        b_ktg = b_kt[None, :] * exp(b_g - b_gk[None, :])
+        b_A = tl.sum(b_k * b_ktg, 1)
+        b_A = tl.where(o_i > j, b_A, 0.0)
+        b_Aqk = tl.sum(b_q * b_ktg, 1)
+        b_Aqk = tl.where(o_i >= j, b_Aqk * scale, 0.0)
+        tl.store(A + o_A + j, b_A, mask=m_A)
+        tl.store(Aqk + o_A + j, b_Aqk, mask=m_A)
+        p_kt += H * K
+        p_gk += H * K
+
+
+def chunk_kda_scaled_dot_kkt_fwd(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    gk: torch.Tensor | None = None,
+    beta: torch.Tensor | None = None,
+    scale: float | None = None,
+    cu_seqlens: torch.LongTensor | None = None,
+    chunk_size: int = 64,
+    output_dtype: torch.dtype = torch.float32,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    r"""
+    Compute beta * K * K^T.
+
+    Args:
+        k (torch.Tensor):
+            The key tensor of shape `[B, T, H, K]`.
+        beta (torch.Tensor):
+            The beta tensor of shape `[B, T, H]`.
+        gk (torch.Tensor):
+            The cumulative sum of the gate tensor of shape `[B, T, H, K]` applied to the key tensor. Default: `None`.
+        cu_seqlens (torch.LongTensor):
+            The cumulative sequence lengths of the input tensor.
+            Default: None
+        chunk_size (int):
+            The chunk size. Default: 64.
+        output_dtype (torch.dtype):
+            The dtype of the output tensor. Default: `torch.float32`
+
+    Returns:
+        beta * K * K^T of shape `[B, T, H, BT]` where `BT` is the chunk size.
+    """
+    B, T, H, K = k.shape
+    assert K <= 256
+    BT = chunk_size
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+
+    BC = min(16, BT)
+    NC = cdiv(BT, BC)
+    BK = max(next_power_of_2(K), 16)
+    A = torch.zeros(B, T, H, BT, device=k.device, dtype=output_dtype)
+    Aqk = torch.zeros(B, T, H, BT, device=k.device, dtype=output_dtype)
+    grid = (NT, NC * NC, B * H)
+    chunk_kda_scaled_dot_kkt_fwd_kernel_intra_sub_inter[grid](
+        q=q,
+        k=k,
+        g=gk,
+        beta=beta,
+        A=A,
+        Aqk=Aqk,
+        scale=scale,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        K=K,
+        BT=BT,
+        BC=BC,
+        NC=NC,
+    )
+
+    grid = (NT, NC, B * H)
+    chunk_kda_scaled_dot_kkt_fwd_kernel_intra_sub_intra[grid](
+        q=q,
+        k=k,
+        g=gk,
+        beta=beta,
+        A=A,
+        Aqk=Aqk,
+        scale=scale,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        K=K,
+        BT=BT,
+        BC=BC,
+        BK=BK,
+    )
+    return A, Aqk
+
+
+@triton.heuristics(
+    {
+        "STORE_QG": lambda args: args["qg"] is not None,
+        "STORE_KG": lambda args: args["kg"] is not None,
+        "IS_VARLEN": lambda args: args["cu_seqlens"] is not None,
+    }
+)
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [2, 4, 8]
+        for num_stages in [2, 3, 4]
+    ],
+    key=["H", "K", "V", "BT", "BK", "BV", "IS_VARLEN"],
+)
+@triton.jit(do_not_specialize=["T"])
+def recompute_w_u_fwd_kernel(
+    q,
+    k,
+    qg,
+    kg,
+    v,
+    beta,
+    w,
+    u,
+    A,
+    gk,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BT: tl.constexpr,
+    BK: tl.constexpr,
+    BV: tl.constexpr,
+    STORE_QG: tl.constexpr,
+    STORE_KG: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    DOT_PRECISION: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+    p_b = tl.make_block_ptr(beta + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,))
+    b_b = tl.load(p_b, boundary_check=(0,))
+
+    p_A = tl.make_block_ptr(
+        A + (bos * H + i_h) * BT, (T, BT), (H * BT, 1), (i_t * BT, 0), (BT, BT), (1, 0)
+    )
+    b_A = tl.load(p_A, boundary_check=(0, 1))
+
+    for i_v in range(tl.cdiv(V, BV)):
+        p_v = tl.make_block_ptr(
+            v + (bos * H + i_h) * V,
+            (T, V),
+            (H * V, 1),
+            (i_t * BT, i_v * BV),
+            (BT, BV),
+            (1, 0),
+        )
+        p_u = tl.make_block_ptr(
+            u + (bos * H + i_h) * V,
+            (T, V),
+            (H * V, 1),
+            (i_t * BT, i_v * BV),
+            (BT, BV),
+            (1, 0),
+        )
+        b_v = tl.load(p_v, boundary_check=(0, 1))
+        b_vb = (b_v * b_b[:, None]).to(b_v.dtype)
+        b_u = tl.dot(b_A, b_vb, input_precision=DOT_PRECISION)
+        tl.store(p_u, b_u.to(p_u.dtype.element_ty), boundary_check=(0, 1))
+
+    for i_k in range(tl.cdiv(K, BK)):
+        p_w = tl.make_block_ptr(
+            w + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        p_k = tl.make_block_ptr(
+            k + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        b_k = tl.load(p_k, boundary_check=(0, 1))
+        b_kb = b_k * b_b[:, None]
+
+        p_gk = tl.make_block_ptr(
+            gk + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        b_gk = tl.load(p_gk, boundary_check=(0, 1))
+        b_kb *= exp(b_gk)
+        if STORE_QG:
+            p_q = tl.make_block_ptr(
+                q + (bos * H + i_h) * K,
+                (T, K),
+                (H * K, 1),
+                (i_t * BT, i_k * BK),
+                (BT, BK),
+                (1, 0),
+            )
+            p_qg = tl.make_block_ptr(
+                qg + (bos * H + i_h) * K,
+                (T, K),
+                (H * K, 1),
+                (i_t * BT, i_k * BK),
+                (BT, BK),
+                (1, 0),
+            )
+            b_q = tl.load(p_q, boundary_check=(0, 1))
+            b_qg = b_q * exp(b_gk)
+            tl.store(p_qg, b_qg.to(p_qg.dtype.element_ty), boundary_check=(0, 1))
+        if STORE_KG:
+            last_idx = min(i_t * BT + BT, T) - 1
+
+            o_k = i_k * BK + tl.arange(0, BK)
+            m_k = o_k < K
+            b_gn = tl.load(
+                gk + ((bos + last_idx) * H + i_h) * K + o_k, mask=m_k, other=0.0
+            )
+            b_kg = b_k * exp(b_gn - b_gk)
+
+            p_kg = tl.make_block_ptr(
+                kg + (bos * H + i_h) * K,
+                (T, K),
+                (H * K, 1),
+                (i_t * BT, i_k * BK),
+                (BT, BK),
+                (1, 0),
+            )
+            tl.store(p_kg, b_kg.to(p_kg.dtype.element_ty), boundary_check=(0, 1))
+
+        b_w = tl.dot(b_A, b_kb.to(b_k.dtype))
+        tl.store(p_w, b_w.to(p_w.dtype.element_ty), boundary_check=(0, 1))
+
+
+def recompute_w_u_fwd(
+    k: torch.Tensor,
+    v: torch.Tensor,
+    beta: torch.Tensor,
+    A: torch.Tensor,
+    q: torch.Tensor | None = None,
+    gk: torch.Tensor | None = None,
+    cu_seqlens: torch.LongTensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    B, T, H, K, V = *k.shape, v.shape[-1]
+    BT = A.shape[-1]
+    BK = 64
+    BV = 64
+
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+
+    w = torch.empty_like(k)
+    u = torch.empty_like(v)
+    kg = torch.empty_like(k) if gk is not None else None
+    recompute_w_u_fwd_kernel[(NT, B * H)](
+        q=q,
+        k=k,
+        qg=None,
+        kg=kg,
+        v=v,
+        beta=beta,
+        w=w,
+        u=u,
+        A=A,
+        gk=gk,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        K=K,
+        V=V,
+        BT=BT,
+        BK=BK,
+        BV=BV,
+        DOT_PRECISION="ieee",
+    )
+    return w, u, None, kg
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({"BK": BK, "BV": BV}, num_warps=num_warps, num_stages=num_stages)
+        for BK in [32, 64]
+        for BV in [64, 128]
+        for num_warps in [2, 4, 8]
+        for num_stages in [2, 3, 4]
+    ],
+    key=["BT"],
+)
+@triton.jit(do_not_specialize=["T"])
+def chunk_gla_fwd_kernel_o(
+    q,
+    v,
+    g,
+    h,
+    o,
+    A,
+    cu_seqlens,
+    chunk_indices,
+    scale,
+    T,
+    H: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BT: tl.constexpr,
+    BK: tl.constexpr,
+    BV: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_v, i_t, i_bh = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_tg = i_t
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+        NT = tl.cdiv(T, BT)
+    else:
+        NT = tl.cdiv(T, BT)
+        i_tg = i_b * NT + i_t
+        bos, eos = i_b * T, i_b * T + T
+
+    m_s = tl.arange(0, BT)[:, None] >= tl.arange(0, BT)[None, :]
+
+    b_o = tl.zeros([BT, BV], dtype=tl.float32)
+    for i_k in range(tl.cdiv(K, BK)):
+        p_q = tl.make_block_ptr(
+            q + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        p_g = tl.make_block_ptr(
+            g + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        p_h = tl.make_block_ptr(
+            h + (i_tg * H + i_h) * K * V,
+            (K, V),
+            (V, 1),
+            (i_k * BK, i_v * BV),
+            (BK, BV),
+            (1, 0),
+        )
+
+        # [BT, BK]
+        b_q = tl.load(p_q, boundary_check=(0, 1))
+        b_q = (b_q * scale).to(b_q.dtype)
+        # [BT, BK]
+        b_g = tl.load(p_g, boundary_check=(0, 1))
+        # [BT, BK]
+        b_qg = (b_q * exp(b_g)).to(b_q.dtype)
+        # [BK, BV]
+        b_h = tl.load(p_h, boundary_check=(0, 1))
+        # works but dkw, owing to divine benevolence
+        # [BT, BV]
+        if i_k >= 0:
+            b_o += tl.dot(b_qg, b_h.to(b_qg.dtype))
+    p_v = tl.make_block_ptr(
+        v + (bos * H + i_h) * V,
+        (T, V),
+        (H * V, 1),
+        (i_t * BT, i_v * BV),
+        (BT, BV),
+        (1, 0),
+    )
+    p_o = tl.make_block_ptr(
+        o + (bos * H + i_h) * V,
+        (T, V),
+        (H * V, 1),
+        (i_t * BT, i_v * BV),
+        (BT, BV),
+        (1, 0),
+    )
+    p_A = tl.make_block_ptr(
+        A + (bos * H + i_h) * BT, (T, BT), (H * BT, 1), (i_t * BT, 0), (BT, BT), (1, 0)
+    )
+    # [BT, BV]
+    b_v = tl.load(p_v, boundary_check=(0, 1))
+    # [BT, BT]
+    b_A = tl.load(p_A, boundary_check=(0, 1))
+    b_A = tl.where(m_s, b_A, 0.0).to(b_v.dtype)
+    b_o += tl.dot(b_A, b_v, allow_tf32=False)
+    tl.store(p_o, b_o.to(p_o.dtype.element_ty), boundary_check=(0, 1))
+
+
+def chunk_gla_fwd_o_gk(
+    q: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    A: torch.Tensor,
+    h: torch.Tensor,
+    o: torch.Tensor,
+    scale: float,
+    cu_seqlens: torch.LongTensor | None = None,
+    chunk_size: int = 64,
+):
+    B, T, H, K, V = *q.shape, v.shape[-1]
+    BT = chunk_size
+
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, chunk_size)
+        if cu_seqlens is not None
+        else None
+    )
+    NT = cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+
+    def grid(meta):
+        return (cdiv(V, meta["BV"]), NT, B * H)
+
+    chunk_gla_fwd_kernel_o[grid](
+        q=q,
+        v=v,
+        g=g,
+        h=h,
+        o=o,
+        A=A,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        scale=scale,
+        T=T,
+        H=H,
+        K=K,
+        V=V,
+        BT=BT,
+    )
+    return o
+
+
+def chunk_kda_fwd(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float,
+    initial_state: torch.Tensor,
+    output_final_state: bool,
+    cu_seqlens: torch.LongTensor | None = None,
+):
+    chunk_size = 64
+    g = chunk_local_cumsum(g, chunk_size=chunk_size, cu_seqlens=cu_seqlens)
+    # the intra Aqk is kept in fp32
+    # the computation has very marginal effect on the entire throughput
+    A, Aqk = chunk_kda_scaled_dot_kkt_fwd(
+        q=q,
+        k=k,
+        gk=g,
+        beta=beta,
+        scale=scale,
+        cu_seqlens=cu_seqlens,
+        output_dtype=torch.float32,
+    )
+    A = solve_tril(A=A, cu_seqlens=cu_seqlens, output_dtype=k.dtype)
+    w, u, _, kg = recompute_w_u_fwd(
+        k=k,
+        v=v,
+        beta=beta,
+        A=A,
+        gk=g,
+        cu_seqlens=cu_seqlens,
+    )
+    del A
+    h, v_new, final_state = chunk_gated_delta_rule_fwd_h(
+        k=kg,
+        w=w,
+        u=u,
+        gk=g,
+        initial_state=initial_state,
+        output_final_state=output_final_state,
+        cu_seqlens=cu_seqlens,
+    )
+    del w, u, kg
+    o = chunk_gla_fwd_o_gk(
+        q=q,
+        v=v_new,
+        g=g,
+        A=Aqk,
+        h=h,
+        o=v,
+        scale=scale,
+        cu_seqlens=cu_seqlens,
+        chunk_size=chunk_size,
+    )
+    del Aqk, v_new, h
+    return o, final_state
+
+
+def chunk_kda(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    g: torch.Tensor,
+    beta: torch.Tensor,
+    scale: float = None,
+    initial_state: torch.Tensor = None,
+    output_final_state: bool = False,
+    use_qk_l2norm_in_kernel: bool = False,
+    cu_seqlens: torch.LongTensor | None = None,
+    **kwargs,
+):
+    if scale is None:
+        scale = k.shape[-1] ** -0.5
+
+    if use_qk_l2norm_in_kernel:
+        q = l2norm_fwd(q.contiguous())
+        k = l2norm_fwd(k.contiguous())
+
+    o, final_state = chunk_kda_fwd(
+        q=q,
+        k=k,
+        v=v.contiguous(),
+        g=g.contiguous(),
+        beta=beta.contiguous(),
+        scale=scale,
+        initial_state=initial_state.contiguous(),
+        output_final_state=output_final_state,
+        cu_seqlens=cu_seqlens,
+    )
+    return o, final_state
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({"BT": bt}, num_warps=nw, num_stages=ns)
+        for bt in BT_LIST_AUTOTUNE
+        for nw in NUM_WARPS_AUTOTUNE
+        for ns in [2, 3]
+    ],
+    key=["H", "D"],
+)
+@triton.jit
+def kda_gate_fwd_kernel(
+    g,
+    A,
+    y,
+    g_bias,
+    beta: tl.constexpr,
+    threshold: tl.constexpr,
+    T,
+    H,
+    D: tl.constexpr,
+    BT: tl.constexpr,
+    BD: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+):
+    i_t, i_h = tl.program_id(0), tl.program_id(1)
+    n_t = i_t * BT
+
+    b_a = tl.load(A + i_h).to(tl.float32)
+    b_a = -tl.exp(b_a)
+
+    stride_row = H * D
+    stride_col = 1
+
+    g_ptr = tl.make_block_ptr(
+        base=g + i_h * D,
+        shape=(T, D),
+        strides=(stride_row, stride_col),
+        offsets=(n_t, 0),
+        block_shape=(BT, BD),
+        order=(1, 0),
+    )
+
+    y_ptr = tl.make_block_ptr(
+        base=y + i_h * D,
+        shape=(T, D),
+        strides=(stride_row, stride_col),
+        offsets=(n_t, 0),
+        block_shape=(BT, BD),
+        order=(1, 0),
+    )
+
+    b_g = tl.load(g_ptr, boundary_check=(0, 1)).to(tl.float32)
+
+    if HAS_BIAS:
+        n_d = tl.arange(0, BD)
+        bias_mask = n_d < D
+        b_bias = tl.load(g_bias + i_h * D + n_d, mask=bias_mask, other=0.0).to(
+            tl.float32
+        )
+        b_g = b_g + b_bias[None, :]
+
+    # softplus(x, beta) = (1/beta) * log(1 + exp(beta * x))
+    # When beta * x > threshold, use linear approximation x
+    # Use threshold to switch to linear when beta*x > threshold
+    g_scaled = b_g * beta
+    use_linear = g_scaled > threshold
+    sp = tl.where(use_linear, b_g, (1.0 / beta) * log(1.0 + tl.exp(g_scaled)))
+    b_y = b_a * sp
+
+    tl.store(y_ptr, b_y.to(y.dtype.element_ty), boundary_check=(0, 1))
+
+
+def fused_kda_gate(
+    g: torch.Tensor,
+    A: torch.Tensor,
+    head_k_dim: int,
+    g_bias: torch.Tensor | None = None,
+    beta: float = 1.0,
+    threshold: float = 20.0,
+) -> torch.Tensor:
+    """
+    Forward pass for KDA gate:
+      input g: [..., H*D]
+      param A: [H] or [1, 1, H, 1]
+      beta: softplus beta parameter
+      threshold: softplus threshold parameter
+      return  : [..., H, D]
+    """
+    orig_shape = g.shape[:-1]
+
+    g = g.view(-1, g.shape[-1])
+    T = g.shape[0]
+    HD = g.shape[1]
+    H = A.numel()
+    assert H * head_k_dim == HD
+
+    y = torch.empty_like(g, dtype=torch.float32)
+
+    def grid(meta):
+        return (cdiv(T, meta["BT"]), H)
+
+    kda_gate_fwd_kernel[grid](
+        g,
+        A,
+        y,
+        g_bias,
+        beta,
+        threshold,
+        T,
+        H,
+        head_k_dim,
+        BD=next_power_of_2(head_k_dim),
+        HAS_BIAS=g_bias is not None,
+    )
+
+    y = y.view(*orig_shape, H, head_k_dim)
+    return y
diff --git a/model_executor/layers/fla/ops/l2norm.py b/model_executor/layers/fla/ops/l2norm.py
new file mode 100644
index 0000000..4d7dbb5
--- /dev/null
+++ b/model_executor/layers/fla/ops/l2norm.py
@@ -0,0 +1,146 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+
+import os
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+BT_LIST = [8, 16, 32, 64, 128]
+
+USE_DEFAULT_FLA_NORM = int(os.getenv("USE_DEFAULT_FLA_NORM", "0"))
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps) for num_warps in [1, 2, 4, 8, 16, 32]
+    ],
+    key=["D"],
+)
+@triton.jit
+def l2norm_fwd_kernel1(
+    x,
+    y,
+    D,
+    BD: tl.constexpr,
+    eps,
+):
+    i_t = tl.program_id(0)
+    x += i_t * D
+    y += i_t * D
+    # Compute mean and variance
+    cols = tl.arange(0, BD)
+    mask = cols < D
+    b_x = tl.load(x + cols, mask=mask, other=0.0).to(tl.float32)
+    b_var = tl.sum(b_x * b_x, axis=0)
+    b_rstd = 1 / tl.sqrt(b_var + eps)
+    # tl.store(Rstd + i_t, rstd)
+    # Normalize and apply linear transformation
+    b_y = b_x * b_rstd
+    tl.store(y + cols, b_y, mask=mask)
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({"BT": BT}, num_warps=num_warps)
+        for num_warps in [1, 2, 4, 8, 16]
+        for BT in BT_LIST
+    ],
+    key=["D"],
+)
+@triton.jit(do_not_specialize=["NB"])
+def l2norm_fwd_kernel(
+    x,
+    y,
+    eps,
+    NB,
+    T,
+    D: tl.constexpr,
+    BT: tl.constexpr,
+    BD: tl.constexpr,
+):
+    i_t = tl.program_id(0)
+    p_x = tl.make_block_ptr(x, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0))
+    b_x = tl.load(p_x, boundary_check=(0, 1)).to(tl.float32)
+    b_var = tl.sum(b_x * b_x, axis=1)
+    b_y = b_x / tl.sqrt(b_var + eps)[:, None]
+    p_y = tl.make_block_ptr(y, (T, D), (D, 1), (i_t * BT, 0), (BT, BD), (1, 0))
+    tl.store(p_y, b_y.to(p_y.dtype.element_ty), boundary_check=(0, 1))
+
+
+@triton.jit
+def l2norm_fwd_kernel2(X, Y, eps, M, N: tl.constexpr, MBLOCK: tl.constexpr):
+    xoffset = tl.program_id(0) * MBLOCK
+    row_idx = xoffset + tl.arange(0, MBLOCK)[:, None]
+    xmask = row_idx < M
+    rindex = tl.arange(0, N)[None, :]
+    xs = tl.load(X + (rindex + N * row_idx), xmask).to(tl.float32)
+    square = tl.broadcast_to(xs * xs, [MBLOCK, N])
+    square_sum = tl.sum(tl.where(xmask, square, 0), 1)[:, None]
+    rsqrt = tl.rsqrt(square_sum + eps)
+    tl.store(Y + (rindex + N * row_idx), xs * rsqrt, xmask)
+
+
+def l2norm_fwd(
+    x: torch.Tensor, eps: float = 1e-6, output_dtype: torch.dtype | None = None
+):
+    x_shape_og = x.shape
+    x = x.view(-1, x.shape[-1])
+    # allocate output
+    if output_dtype is None:
+        y = torch.empty_like(x)
+    else:
+        y = torch.empty_like(x, dtype=output_dtype)
+    assert y.stride(-1) == 1
+    T, D = x.shape[0], x.shape[-1]
+    # rstd = torch.empty((T,), dtype=torch.float32, device=x.device)
+    # Less than 64KB per feature: enqueue fused kernel
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BD = min(MAX_FUSED_SIZE, triton.next_power_of_2(D))
+    if D > BD:
+        raise RuntimeError("This layer doesn't support feature dim >= 64KB.")
+
+    if not USE_DEFAULT_FLA_NORM:
+        MBLOCK = 32
+        # M, N = x.shape
+        l2norm_fwd_kernel2[(triton.cdiv(T, MBLOCK),)](
+            x,
+            y,
+            eps,
+            T,
+            D,
+            MBLOCK,
+        )
+    else:
+        if D <= 512:
+            NB = triton.cdiv(T, 2048)
+
+            def grid(meta):
+                return (triton.cdiv(T, meta["BT"]),)
+
+            l2norm_fwd_kernel[grid](
+                x,
+                y,
+                eps,
+                NB=NB,
+                T=T,
+                D=D,
+                BD=BD,
+            )
+        else:
+            l2norm_fwd_kernel1[(T,)](
+                x,
+                y,
+                eps=eps,
+                D=D,
+                BD=BD,
+            )
+
+    return y.view(x_shape_og)
diff --git a/model_executor/layers/fla/ops/layernorm_guard.py b/model_executor/layers/fla/ops/layernorm_guard.py
new file mode 100644
index 0000000..89352d1
--- /dev/null
+++ b/model_executor/layers/fla/ops/layernorm_guard.py
@@ -0,0 +1,396 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Tri Dao
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2024, Tri Dao.
+
+# ruff: noqa: E501
+# Based on the Triton LayerNorm tutorial: https://triton-lang.org/main/getting-started/tutorials/05-layer-norm.html
+# For the backward pass, we keep weight_grad and bias_grad in registers and accumulate.
+# This backward pass is faster for dimensions up to 8k, but after that it's much slower due to register spilling.
+# The models we train have hidden dim up to 8k anyway (e.g. Llama 70B), so this is fine.
+
+from functools import lru_cache
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+
+from vllm.triton_utils import tl, triton
+from vllm.utils.math_utils import cdiv, next_power_of_2
+
+from .utils import input_guard
+
+
+def rms_norm_ref(
+    x,
+    weight,
+    bias,
+    z=None,
+    eps=1e-6,
+    group_size=None,
+    norm_before_gate=True,
+    upcast=True,
+):
+    dtype = x.dtype
+    weight = weight.float()
+    bias = bias.float() if bias is not None else None
+    if upcast:
+        x = x.float()
+        z = z.float() if z is not None else z
+    if z is not None and not norm_before_gate:
+        x = x * F.silu(z)
+    if group_size is None:
+        rstd = 1 / torch.sqrt((x.square()).mean(dim=-1, keepdim=True) + eps)
+        out = (x * rstd * weight) + bias if bias is not None else (x * rstd * weight)
+    else:
+        x_group = rearrange(x, "... (g d) -> ... g d", d=group_size)
+        rstd = 1 / torch.sqrt((x_group.square()).mean(dim=-1, keepdim=True) + eps)
+        out = rearrange(x_group * rstd, "... g d -> ... (g d)") * weight
+        if bias is not None:
+            out = out + bias
+    if z is not None and norm_before_gate:
+        out *= F.silu(z)
+    return out.to(dtype)
+
+
+@triton.heuristics(
+    {
+        "HAS_BIAS": lambda args: args["B"] is not None,
+        "HAS_Z": lambda args: args["Z"] is not None,
+    }
+)
+@triton.jit
+def layer_norm_fwd_kernel(
+    X,  # pointer to the input
+    Y,  # pointer to the output
+    W,  # pointer to the weights
+    B,  # pointer to the biases
+    Z,  # pointer to the other branch
+    Mean,  # pointer to the mean
+    Rstd,  # pointer to the 1/std
+    stride_x_row,  # how much to increase the pointer when moving by 1 row
+    stride_y_row,
+    stride_z_row,
+    M,  # number of rows in X
+    N: tl.constexpr,  # number of columns in X
+    eps,  # epsilon to avoid division by zero
+    BLOCK_N: tl.constexpr,
+    ROWS_PER_BLOCK: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+    HAS_Z: tl.constexpr,
+    NORM_BEFORE_GATE: tl.constexpr,
+    IS_RMS_NORM: tl.constexpr,
+):
+    # Map the program id to the starting row of X and Y it should compute.
+    row_start = tl.program_id(0) * ROWS_PER_BLOCK
+    group = tl.program_id(1)
+
+    # Create 2D tile: [ROWS_PER_BLOCK, BLOCK_N]
+    rows = row_start + tl.arange(0, ROWS_PER_BLOCK)
+    cols = tl.arange(0, BLOCK_N)
+
+    # Compute offsets for 2D tile
+    row_offsets = rows[:, None] * stride_x_row
+    col_offsets = cols[None, :] + group * N
+
+    # Base pointers
+    X_base = X + row_offsets + col_offsets
+    Y_base = Y + rows[:, None] * stride_y_row + col_offsets
+
+    # Create mask for valid rows and columns
+    row_mask = rows[:, None] < M
+    col_mask = cols[None, :] < N
+    mask = row_mask & col_mask
+
+    # Load input data with 2D tile
+    x = tl.load(X_base, mask=mask, other=0.0).to(tl.float32)
+
+    if HAS_Z and not NORM_BEFORE_GATE:
+        Z_base = Z + rows[:, None] * stride_z_row + col_offsets
+        z = tl.load(Z_base, mask=mask, other=0.0).to(tl.float32)
+        x *= z * tl.sigmoid(z)
+
+    # Compute mean and variance per row (reduce along axis 1)
+    if not IS_RMS_NORM:
+        mean = tl.sum(x, axis=1) / N  # Shape: [ROWS_PER_BLOCK]
+        # Store mean for each row
+        mean_offsets = group * M + rows
+        mean_mask = rows < M
+        tl.store(Mean + mean_offsets, mean, mask=mean_mask)
+        # Broadcast mean back to 2D for subtraction
+        xbar = tl.where(mask, x - mean[:, None], 0.0)
+        var = tl.sum(xbar * xbar, axis=1) / N  # Shape: [ROWS_PER_BLOCK]
+    else:
+        xbar = tl.where(mask, x, 0.0)
+        var = tl.sum(xbar * xbar, axis=1) / N  # Shape: [ROWS_PER_BLOCK]
+        mean = 0.0  # Placeholder for RMS norm
+
+    rstd = tl.rsqrt(var + eps)  # Shape: [ROWS_PER_BLOCK]
+
+    # Store rstd for each row
+    rstd_offsets = group * M + rows
+    rstd_mask = rows < M
+    tl.store(Rstd + rstd_offsets, rstd, mask=rstd_mask)
+
+    # Load weights and biases (broadcast across rows)
+    w_offsets = cols + group * N
+    w_mask = cols < N
+    w = tl.load(W + w_offsets, mask=w_mask, other=0.0).to(tl.float32)
+
+    if HAS_BIAS:
+        b = tl.load(B + w_offsets, mask=w_mask, other=0.0).to(tl.float32)
+
+    # Normalize and apply linear transformation
+    if not IS_RMS_NORM:
+        x_hat = (x - mean[:, None]) * rstd[:, None]
+    else:
+        x_hat = x * rstd[:, None]
+
+    y = x_hat * w[None, :] + b[None, :] if HAS_BIAS else x_hat * w[None, :]
+
+    if HAS_Z and NORM_BEFORE_GATE:
+        Z_base = Z + rows[:, None] * stride_z_row + col_offsets
+        z = tl.load(Z_base, mask=mask, other=0.0).to(tl.float32)
+        y *= z * tl.sigmoid(z)
+
+    # Write output
+    tl.store(Y_base, y, mask=mask)
+
+
+@lru_cache
+def _get_sm_count(device: torch.device) -> int:
+    """Get and cache the SM count for a given device."""
+    props = torch.cuda.get_device_properties(device)
+    return props.multi_processor_count
+
+
+def calc_rows_per_block(M: int, device: torch.device) -> int:
+    sm_count = _get_sm_count(device)
+    rows_per_block = next_power_of_2(cdiv(M, 2 * sm_count))
+    rows_per_block = min(rows_per_block, 4)
+    return rows_per_block
+
+
+def layer_norm_fwd(
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor,
+    eps: float,
+    z: torch.Tensor = None,
+    out: torch.Tensor = None,
+    group_size: int = None,
+    norm_before_gate: bool = True,
+    is_rms_norm: bool = False,
+):
+    M, N = x.shape
+    if group_size is None:
+        group_size = N
+    assert N % group_size == 0
+    ngroups = N // group_size
+    assert x.stride(-1) == 1
+    if z is not None:
+        assert z.stride(-1) == 1
+        assert z.shape == (M, N)
+    assert weight.shape == (N,)
+    assert weight.stride(-1) == 1
+    if bias is not None:
+        assert bias.stride(-1) == 1
+        assert bias.shape == (N,)
+    # allocate output
+    if out is not None:
+        assert out.shape == x.shape
+    else:
+        out = torch.empty_like(x)
+    assert out.stride(-1) == 1
+    mean = (
+        torch.empty((ngroups * M,), dtype=torch.float32, device=x.device)
+        if not is_rms_norm
+        else None
+    )
+    rstd = torch.empty((ngroups * M,), dtype=torch.float32, device=x.device)
+    # Less than 64KB per feature: enqueue fused kernel
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(group_size))
+    if group_size > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    # heuristics for number of warps
+    num_warps = min(max(BLOCK_N // 256, 1), 8)
+    # Calculate rows per block based on SM count
+    rows_per_block = calc_rows_per_block(M, x.device)
+    # Update grid to use rows_per_block
+    grid = (cdiv(M, rows_per_block), ngroups)
+    layer_norm_fwd_kernel[grid](
+        x,
+        out,
+        weight,
+        bias,
+        z,
+        mean,
+        rstd,
+        x.stride(0),
+        out.stride(0),
+        z.stride(0) if z is not None else 0,
+        M,
+        group_size,
+        eps,
+        BLOCK_N=BLOCK_N,
+        ROWS_PER_BLOCK=rows_per_block,
+        NORM_BEFORE_GATE=norm_before_gate,
+        IS_RMS_NORM=is_rms_norm,
+        num_warps=num_warps,
+    )
+    return out, mean, rstd
+
+
+class LayerNormFn(torch.autograd.Function):
+    @input_guard
+    @staticmethod
+    def forward(
+        ctx,
+        x,
+        weight,
+        bias,
+        z=None,
+        eps=1e-6,
+        group_size=None,
+        norm_before_gate=True,
+        is_rms_norm=False,
+    ):
+        """If z is not None, we do norm(x) * silu(z) if norm_before_gate, else norm(x * silu(z))"""
+
+        x_shape_og = x.shape
+        # reshape input data into 2D tensor
+        x = x.reshape(-1, x.shape[-1])
+        if x.stride(-1) != 1:
+            x = x.contiguous()
+        if z is not None:
+            assert z.shape == x_shape_og
+            z = z.reshape(-1, z.shape[-1])
+            if z.stride(-1) != 1:
+                z = z.contiguous()
+        weight = weight.contiguous()
+        if bias is not None:
+            bias = bias.contiguous()
+        y, mean, rstd = layer_norm_fwd(
+            x,
+            weight,
+            bias,
+            eps,
+            z=z,
+            group_size=group_size,
+            norm_before_gate=norm_before_gate,
+            is_rms_norm=is_rms_norm,
+        )
+        ctx.save_for_backward(x, weight, bias, mean, rstd, z)
+        ctx.x_shape_og = x_shape_og
+        ctx.eps = eps
+        ctx.group_size = group_size
+        ctx.norm_before_gate = norm_before_gate
+        ctx.is_rms_norm = is_rms_norm
+        return y.reshape(x_shape_og)
+
+
+def layernorm_fn(
+    x,
+    weight,
+    bias,
+    z=None,
+    eps=1e-6,
+    group_size=None,
+    norm_before_gate=True,
+    is_rms_norm=False,
+):
+    return LayerNormFn.apply(
+        x, weight, bias, z, eps, group_size, norm_before_gate, is_rms_norm
+    )
+
+
+def rmsnorm_fn(
+    x, weight, bias, z=None, eps=1e-6, group_size=None, norm_before_gate=True
+):
+    return LayerNormFn.apply(
+        x, weight, bias, z, eps, group_size, norm_before_gate, True
+    )
+
+
+class LayerNormGated(nn.Module):
+    def __init__(
+        self,
+        hidden_size,
+        eps: float = 1e-5,
+        group_size: int | None = None,
+        norm_before_gate: bool = True,
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ):
+        """If group_size is not None, we do GroupNorm with each group having group_size elements.
+        group_size=None is equivalent to group_size=hidden_size (i.e. there's only 1 group).
+        """
+
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+        self.eps = eps
+        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.bias = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.group_size = group_size
+        self.norm_before_gate = norm_before_gate
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        torch.nn.init.ones_(self.weight)
+        torch.nn.init.zeros_(self.bias)
+
+    def forward(self, x, z=None):
+        """If z is not None, we do norm(x) * silu(z) if norm_before_gate, else norm(x * silu(z))"""
+        return layernorm_fn(
+            x,
+            self.weight,
+            self.bias,
+            z=z,
+            group_size=self.group_size,
+            eps=self.eps,
+            norm_before_gate=self.norm_before_gate,
+        )
+
+
+class RMSNormGated(nn.Module):
+    def __init__(
+        self,
+        hidden_size,
+        eps: float = 1e-5,
+        group_size: int | None = None,
+        norm_before_gate: bool = False,
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ):
+        """If group_size is not None, we do GroupNorm with each group having group_size elements.
+        group_size=None is equivalent to group_size=hidden_size (i.e. there's only 1 group).
+        """
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+        self.eps = eps
+        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.register_parameter("bias", None)
+        self.group_size = group_size
+        self.norm_before_gate = norm_before_gate
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        torch.nn.init.ones_(self.weight)
+
+    def forward(self, x, z=None):
+        """If z is not None, we do norm(x) * silu(z) if norm_before_gate, else norm(x * silu(z))"""
+        return rmsnorm_fn(
+            x,
+            self.weight,
+            self.bias,
+            z=z,
+            eps=self.eps,
+            group_size=self.group_size,
+            norm_before_gate=self.norm_before_gate,
+        )
diff --git a/model_executor/layers/fla/ops/op.py b/model_executor/layers/fla/ops/op.py
new file mode 100644
index 0000000..a91975c
--- /dev/null
+++ b/model_executor/layers/fla/ops/op.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+
+import os
+
+from vllm.triton_utils import tl, tldevice, triton
+
+from .utils import is_gather_supported
+
+if os.environ.get("FLA_USE_FAST_OPS", "0") == "1":
+    exp = tldevice.fast_expf
+    log = tldevice.fast_logf
+    log2 = tldevice.fast_log2f
+else:
+    exp = tl.exp
+    log = tl.log
+    log2 = tl.log2
+
+
+if not is_gather_supported:
+
+    @triton.jit
+    def gather(src, index, axis, _builder=None):
+        """
+        Gather operation that works when tl.gather is not supported.
+        This is a fallback implementation that returns None.
+        Just to make triton compiler happy.
+        """
+        return None
+else:
+    gather = tl.gather
+
+if hasattr(triton.language, "_experimental_make_tensor_descriptor"):
+    # For Triton 3.3.x
+    make_tensor_descriptor = triton.language._experimental_make_tensor_descriptor
+elif hasattr(triton.language, "make_tensor_descriptor"):
+    # For Triton 3.4.x and later
+    make_tensor_descriptor = triton.language.make_tensor_descriptor
+else:
+    """
+    Fallback implementation when TMA is not supported.
+    Returns None to indicate TMA descriptors are unavailable.
+    Just make triton compiler happy.
+    """
+
+    @triton.jit
+    def make_tensor_descriptor(
+        base,
+        shape,
+        strides,
+        block_shape,
+        _builder=None,
+    ):
+        return None
diff --git a/model_executor/layers/fla/ops/solve_tril.py b/model_executor/layers/fla/ops/solve_tril.py
new file mode 100644
index 0000000..da85aab
--- /dev/null
+++ b/model_executor/layers/fla/ops/solve_tril.py
@@ -0,0 +1,556 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+
+import os
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices
+from .op import make_tensor_descriptor
+from .utils import input_guard, is_amd, is_tma_supported
+
+FLA_TRIL_PRECISION = os.environ.get("FLA_TRIL_PRECISION", "ieee")
+ALLOWED_TRIL_PRECISIONS = ["ieee", "tf32"] if is_amd else ["ieee", "tf32", "tf32x3"]
+assert FLA_TRIL_PRECISION in ALLOWED_TRIL_PRECISIONS, (
+    f"FLA_TRIL_PRECISION must be one of {ALLOWED_TRIL_PRECISIONS}, but got {FLA_TRIL_PRECISION}"
+)
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [1, 2, 4, 8]
+        for num_stages in [2, 3, 4, 5]
+    ],
+    key=["BT"],
+)
+@triton.jit(do_not_specialize=["T"])
+def solve_tril_16x16_kernel(
+    A,
+    Ai,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    BT: tl.constexpr,
+    USE_TMA: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    DOT_PRECISION: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+    o_i = tl.arange(0, 16)
+    m_A = o_i[:, None] > o_i[None, :]
+    m_I = o_i[:, None] == o_i[None, :]
+
+    A = A + (bos * H + i_h) * BT
+    Ai = Ai + (bos * H + i_h) * 16
+
+    offset = (i_t * 16) % BT
+    if not USE_TMA:
+        p_A = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * 16, offset), (16, 16), (1, 0)
+        )
+        # [16, 16]
+        b_A = tl.load(p_A, boundary_check=(0, 1)).to(tl.float32)
+    else:
+        desc = make_tensor_descriptor(A, [T, BT], [H * BT, 1], [16, 16])
+        desc_o = make_tensor_descriptor(Ai, [T, 16], [H * 16, 1], [16, 16])
+        b_A = desc.load([i_t * 16, offset]).to(tl.float32)
+    b_A = -tl.where(m_A, b_A, 0)
+
+    for i in range(2, min(16, T - i_t * 16)):
+        # [16]
+        b_a = -tl.load(A + (i_t * 16 + i) * H * BT + o_i + offset)
+        b_a = b_a + tl.sum(b_a[:, None] * b_A, 0)
+        b_A = tl.where((o_i == i)[:, None], b_a, b_A)
+    b_A += m_I
+    if not USE_TMA:
+        p_Ai = tl.make_block_ptr(
+            Ai, (T, 16), (H * 16, 1), (i_t * 16, 0), (16, 16), (1, 0)
+        )
+        tl.store(
+            p_Ai,
+            b_A.to(p_Ai.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+    else:
+        desc_o.store([i_t * 16, 0], b_A.to(desc_o.dtype, fp_downcast_rounding="rtne"))
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [1, 2, 4, 8]
+        for num_stages in [2, 3, 4, 5]
+    ],
+    key=["H", "BT", "IS_VARLEN"],
+)
+@triton.jit(do_not_specialize=["T"])
+def merge_16x16_to_32x32_inverse_kernel(
+    A,
+    Ai,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    BT: tl.constexpr,
+    USE_TMA: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    DOT_PRECISION: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    o_i = tl.arange(0, 16)
+    m_A = o_i[:, None] > o_i[None, :]
+    m_I = o_i[:, None] == o_i[None, :]
+    A += (bos * H + i_h) * BT
+    Ai += (bos * H + i_h) * BT
+
+    if not USE_TMA:
+        p_A_11 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT, 0), (16, 16), (1, 0)
+        )
+        p_A_22 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 16, 16), (16, 16), (1, 0)
+        )
+        b_Ai_11 = tl.load(p_A_11, boundary_check=(0, 1)).to(tl.float32)
+        b_Ai_22 = tl.load(p_A_22, boundary_check=(0, 1)).to(tl.float32)
+    else:
+        desc = make_tensor_descriptor(A, [T, BT], [H * BT, 1], [16, 16])
+        desc_o = make_tensor_descriptor(Ai, [T, BT], [H * BT, 1], [16, 16])
+        b_Ai_11 = desc.load([i_t * BT + 0, 0]).to(tl.float32)
+        b_Ai_22 = desc.load([i_t * BT + 16, 16]).to(tl.float32)
+
+    # [16, 16]
+    b_Ai_11 = -tl.where(m_A, b_Ai_11, 0)
+    b_Ai_22 = -tl.where(m_A, b_Ai_22, 0)
+
+    for i in range(2, min(16, T - i_t * BT)):
+        b_a_11 = -tl.load(A + (i_t * BT + i) * H * BT + o_i)
+        b_a_11 += tl.sum(b_a_11[:, None] * b_Ai_11, 0)
+        b_Ai_11 = tl.where((o_i == i)[:, None], b_a_11, b_Ai_11)
+    for i in range(16 + 2, min(32, T - i_t * BT)):
+        b_a_22 = -tl.load(A + (i_t * BT + i) * H * BT + o_i + 16)
+        b_a_22 += tl.sum(b_a_22[:, None] * b_Ai_22, 0)
+        b_Ai_22 = tl.where((o_i == i - 16)[:, None], b_a_22, b_Ai_22)
+
+    b_Ai_11 += m_I
+    b_Ai_22 += m_I
+
+    if not USE_TMA:
+        p_A_21 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 16, 0), (16, 16), (1, 0)
+        )
+        b_A_21 = tl.load(p_A_21, boundary_check=(0, 1)).to(tl.float32)
+    else:
+        b_A_21 = desc.load([i_t * BT + 16, 0]).to(tl.float32)
+
+    b_Ai_21 = -tl.dot(
+        tl.dot(b_Ai_22, b_A_21, input_precision=DOT_PRECISION),
+        b_Ai_11,
+        input_precision=DOT_PRECISION,
+    )
+
+    if not USE_TMA:
+        p_Ai_11 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT, 0), (16, 16), (1, 0)
+        )
+        p_Ai_21 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 16, 0), (16, 16), (1, 0)
+        )
+        p_Ai_22 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 16, 16), (16, 16), (1, 0)
+        )
+        tl.store(
+            p_Ai_11,
+            b_Ai_11.to(p_Ai_11.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_22,
+            b_Ai_22.to(p_Ai_22.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_21,
+            b_Ai_21.to(p_Ai_21.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+    else:
+        desc_o.store(
+            [i_t * BT + 0, 0], b_Ai_11.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 16, 0], b_Ai_21.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 16, 16], b_Ai_22.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [2, 4, 8]
+        for num_stages in [2, 3, 4, 5]
+    ],
+    key=["H", "BT", "IS_VARLEN"],
+)
+@triton.jit(do_not_specialize=["T"])
+def merge_16x16_to_64x64_inverse_kernel(
+    A,
+    Ai,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    BT: tl.constexpr,
+    USE_TMA: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    DOT_PRECISION: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+
+    o_i = tl.arange(0, 16)
+    m_A = o_i[:, None] > o_i[None, :]
+    m_I = o_i[:, None] == o_i[None, :]
+    A += (bos * H + i_h) * BT
+    Ai += (bos * H + i_h) * BT
+
+    if not USE_TMA:
+        p_A_11 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT, 0), (16, 16), (1, 0)
+        )
+        p_A_22 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 16, 16), (16, 16), (1, 0)
+        )
+        p_A_33 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 32, 32), (16, 16), (1, 0)
+        )
+        p_A_44 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 48, 48), (16, 16), (1, 0)
+        )
+        b_Ai_11 = tl.load(p_A_11, boundary_check=(0, 1)).to(tl.float32)
+        b_Ai_22 = tl.load(p_A_22, boundary_check=(0, 1)).to(tl.float32)
+        b_Ai_33 = tl.load(p_A_33, boundary_check=(0, 1)).to(tl.float32)
+        b_Ai_44 = tl.load(p_A_44, boundary_check=(0, 1)).to(tl.float32)
+    else:
+        desc = make_tensor_descriptor(A, [T, BT], [H * BT, 1], [16, 16])
+        desc_o = make_tensor_descriptor(Ai, [T, BT], [H * BT, 1], [16, 16])
+        b_Ai_11 = desc.load([i_t * BT + 0, 0]).to(tl.float32)
+        b_Ai_22 = desc.load([i_t * BT + 16, 16]).to(tl.float32)
+        b_Ai_33 = desc.load([i_t * BT + 32, 32]).to(tl.float32)
+        b_Ai_44 = desc.load([i_t * BT + 48, 48]).to(tl.float32)
+
+    # [16, 16]
+    b_Ai_11 = -tl.where(m_A, b_Ai_11, 0)
+    b_Ai_22 = -tl.where(m_A, b_Ai_22, 0)
+    b_Ai_33 = -tl.where(m_A, b_Ai_33, 0)
+    b_Ai_44 = -tl.where(m_A, b_Ai_44, 0)
+
+    for i in range(2, min(16, T - i_t * BT)):
+        b_a_11 = -tl.load(A + (i_t * BT + i) * H * BT + o_i)
+        b_a_11 += tl.sum(b_a_11[:, None] * b_Ai_11, 0)
+        b_Ai_11 = tl.where((o_i == i)[:, None], b_a_11, b_Ai_11)
+    for i in range(16 + 2, min(32, T - i_t * BT)):
+        b_a_22 = -tl.load(A + (i_t * BT + i) * H * BT + o_i + 16)
+        b_a_22 += tl.sum(b_a_22[:, None] * b_Ai_22, 0)
+        b_Ai_22 = tl.where((o_i == i - 16)[:, None], b_a_22, b_Ai_22)
+    for i in range(32 + 2, min(48, T - i_t * BT)):
+        b_a_33 = -tl.load(A + (i_t * BT + i) * H * BT + o_i + 32)
+        b_a_33 += tl.sum(b_a_33[:, None] * b_Ai_33, 0)
+        b_Ai_33 = tl.where((o_i == i - 32)[:, None], b_a_33, b_Ai_33)
+    for i in range(48 + 2, min(64, T - i_t * BT)):
+        b_a_44 = -tl.load(A + (i_t * BT + i) * H * BT + o_i + 48)
+        b_a_44 += tl.sum(b_a_44[:, None] * b_Ai_44, 0)
+        b_Ai_44 = tl.where((o_i == i - 48)[:, None], b_a_44, b_Ai_44)
+    b_Ai_11 += m_I
+    b_Ai_22 += m_I
+    b_Ai_33 += m_I
+    b_Ai_44 += m_I
+
+    if not USE_TMA:
+        p_A_21 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 16, 0), (16, 16), (1, 0)
+        )
+        p_A_31 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 32, 0), (16, 16), (1, 0)
+        )
+        p_A_32 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 32, 16), (16, 16), (1, 0)
+        )
+        p_A_41 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 48, 0), (16, 16), (1, 0)
+        )
+        p_A_42 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 48, 16), (16, 16), (1, 0)
+        )
+        p_A_43 = tl.make_block_ptr(
+            A, (T, BT), (H * BT, 1), (i_t * BT + 48, 32), (16, 16), (1, 0)
+        )
+        b_A_21 = tl.load(p_A_21, boundary_check=(0, 1)).to(tl.float32)
+        b_A_31 = tl.load(p_A_31, boundary_check=(0, 1)).to(tl.float32)
+        b_A_32 = tl.load(p_A_32, boundary_check=(0, 1)).to(tl.float32)
+        b_A_41 = tl.load(p_A_41, boundary_check=(0, 1)).to(tl.float32)
+        b_A_42 = tl.load(p_A_42, boundary_check=(0, 1)).to(tl.float32)
+        b_A_43 = tl.load(p_A_43, boundary_check=(0, 1)).to(tl.float32)
+    else:
+        b_A_21 = desc.load([i_t * BT + 16, 0]).to(tl.float32)
+        b_A_31 = desc.load([i_t * BT + 32, 0]).to(tl.float32)
+        b_A_32 = desc.load([i_t * BT + 32, 16]).to(tl.float32)
+        b_A_41 = desc.load([i_t * BT + 48, 0]).to(tl.float32)
+        b_A_42 = desc.load([i_t * BT + 48, 16]).to(tl.float32)
+        b_A_43 = desc.load([i_t * BT + 48, 32]).to(tl.float32)
+
+    b_Ai_21 = -tl.dot(
+        tl.dot(b_Ai_22, b_A_21, input_precision=DOT_PRECISION),
+        b_Ai_11,
+        input_precision=DOT_PRECISION,
+    )
+    b_Ai_32 = -tl.dot(
+        tl.dot(b_Ai_33, b_A_32, input_precision=DOT_PRECISION),
+        b_Ai_22,
+        input_precision=DOT_PRECISION,
+    )
+    b_Ai_43 = -tl.dot(
+        tl.dot(b_Ai_44, b_A_43, input_precision=DOT_PRECISION),
+        b_Ai_33,
+        input_precision=DOT_PRECISION,
+    )
+
+    b_Ai_31 = -tl.dot(
+        b_Ai_33,
+        tl.dot(b_A_31, b_Ai_11, input_precision=DOT_PRECISION)
+        + tl.dot(b_A_32, b_Ai_21, input_precision=DOT_PRECISION),
+        input_precision=DOT_PRECISION,
+    )
+    b_Ai_42 = -tl.dot(
+        b_Ai_44,
+        tl.dot(b_A_42, b_Ai_22, input_precision=DOT_PRECISION)
+        + tl.dot(b_A_43, b_Ai_32, input_precision=DOT_PRECISION),
+        input_precision=DOT_PRECISION,
+    )
+    b_Ai_41 = -tl.dot(
+        b_Ai_44,
+        tl.dot(b_A_41, b_Ai_11, input_precision=DOT_PRECISION)
+        + tl.dot(b_A_42, b_Ai_21, input_precision=DOT_PRECISION)
+        + tl.dot(b_A_43, b_Ai_31, input_precision=DOT_PRECISION),
+        input_precision=DOT_PRECISION,
+    )
+
+    if not USE_TMA:
+        p_Ai_11 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT, 0), (16, 16), (1, 0)
+        )
+        p_Ai_22 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 16, 16), (16, 16), (1, 0)
+        )
+        p_Ai_33 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 32, 32), (16, 16), (1, 0)
+        )
+        p_Ai_44 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 48, 48), (16, 16), (1, 0)
+        )
+        p_Ai_21 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 16, 0), (16, 16), (1, 0)
+        )
+        p_Ai_31 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 32, 0), (16, 16), (1, 0)
+        )
+        p_Ai_32 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 32, 16), (16, 16), (1, 0)
+        )
+        p_Ai_41 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 48, 0), (16, 16), (1, 0)
+        )
+        p_Ai_42 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 48, 16), (16, 16), (1, 0)
+        )
+        p_Ai_43 = tl.make_block_ptr(
+            Ai, (T, BT), (H * BT, 1), (i_t * BT + 48, 32), (16, 16), (1, 0)
+        )
+        tl.store(
+            p_Ai_11,
+            b_Ai_11.to(p_Ai_11.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_22,
+            b_Ai_22.to(p_Ai_22.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_33,
+            b_Ai_33.to(p_Ai_33.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_44,
+            b_Ai_44.to(p_Ai_44.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_21,
+            b_Ai_21.to(p_Ai_21.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_31,
+            b_Ai_31.to(p_Ai_31.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_32,
+            b_Ai_32.to(p_Ai_32.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_41,
+            b_Ai_41.to(p_Ai_41.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_42,
+            b_Ai_42.to(p_Ai_42.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+        tl.store(
+            p_Ai_43,
+            b_Ai_43.to(p_Ai_43.dtype.element_ty, fp_downcast_rounding="rtne"),
+            boundary_check=(0, 1),
+        )
+    else:
+        desc_o.store(
+            [i_t * BT + 0, 0], b_Ai_11.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 16, 16], b_Ai_22.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 32, 32], b_Ai_33.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 48, 48], b_Ai_44.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 16, 0], b_Ai_21.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 32, 0], b_Ai_31.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 32, 16], b_Ai_32.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 48, 0], b_Ai_41.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 48, 16], b_Ai_42.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+        desc_o.store(
+            [i_t * BT + 48, 32], b_Ai_43.to(desc_o.dtype, fp_downcast_rounding="rtne")
+        )
+
+
+@input_guard
+def solve_tril(
+    A: torch.Tensor,
+    cu_seqlens: torch.Tensor | None = None,
+    output_dtype: torch.dtype = torch.float,
+) -> torch.Tensor:
+    """
+    Compute the inverse of the matrix I + A
+    A should be strictly lower triangular, i.e., A.triu() == 0.
+
+    Args:
+        A (torch.Tensor):
+            [B, T, H, BT], where BT should only be 16, 32, or 64.
+        cu_seqlens (torch.Tensor):
+            The cumulative sequence lengths of the input tensor. Default: `None`.
+        output_dtype (torch.dtype):
+            The dtype of the output tensor. Default: `torch.float`.
+            If `None`, the output dtype will be the same as the input dtype.
+
+    Returns:
+        (I + A)^-1 with the same shape as A
+    """
+    assert A.shape[-1] in [16, 32, 64]
+    output_dtype = A.dtype if output_dtype is None else output_dtype
+
+    B, T, H, BT = A.shape
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = len(chunk_indices) if cu_seqlens is not None else triton.cdiv(T, BT)
+
+    Ai = torch.zeros_like(A, dtype=output_dtype)
+    if BT == 16:
+        merge_fn = solve_tril_16x16_kernel
+    elif BT == 32:
+        merge_fn = merge_16x16_to_32x32_inverse_kernel
+    elif BT == 64:
+        merge_fn = merge_16x16_to_64x64_inverse_kernel
+
+    merge_fn[NT, B * H](
+        A=A,
+        Ai=Ai,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        BT=BT,
+        USE_TMA=is_tma_supported,
+        DOT_PRECISION=FLA_TRIL_PRECISION,
+    )
+    return Ai
diff --git a/model_executor/layers/fla/ops/utils.py b/model_executor/layers/fla/ops/utils.py
new file mode 100644
index 0000000..5a48e56
--- /dev/null
+++ b/model_executor/layers/fla/ops/utils.py
@@ -0,0 +1,194 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+# ruff: noqa: E501
+import contextlib
+import functools
+import logging
+import os
+from collections.abc import Callable
+from enum import Enum
+from typing import Any, Literal
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import triton
+
+logger = logging.getLogger(__name__)
+
+COMPILER_MODE = os.getenv("FLA_COMPILER_MODE") == "1"
+FLA_CI_ENV = os.getenv("FLA_CI_ENV") == "1"
+FLA_GDN_FIX_BT = os.getenv("FLA_GDN_FIX_BT", "0") == "1"
+
+SUPPRESS_LEVEL = int(os.getenv("GDN_RECOMPUTE_SUPPRESS_LEVEL", "0"))
+
+
+def tensor_cache(fn: Callable[..., torch.Tensor]) -> Callable[..., torch.Tensor]:
+    """
+    A decorator that caches the most recent results of a function with tensor inputs.
+
+    This decorator will store the output of the decorated function for the most recent set of input tensors.
+    The cache is limited to a fixed size (default is 4). When the cache is full, the oldest entry will be removed.
+
+    Args:
+        fn (Callable[..., torch.Tensor]):
+            The function to be decorated. It should take tensor inputs and return tensor outputs.
+
+    Returns:
+        Callable[..., torch.Tensor]:
+            A wrapped version of the input function with single-entry caching.
+    """
+
+    cache_entries: tuple[tuple | None, dict | None, Any] = []
+    cache_size = 8
+
+    @functools.wraps(fn)
+    def wrapper(*args: Any, **kwargs: Any) -> Any:
+        nonlocal cache_entries, cache_size
+        for i, entry in enumerate(cache_entries):
+            last_args, last_kwargs, last_result = entry
+            if (
+                len(args) == len(last_args)
+                and len(kwargs) == len(last_kwargs)
+                and all(a is b for a, b in zip(args, last_args))
+                and all(
+                    k in last_kwargs and v is last_kwargs[k] for k, v in kwargs.items()
+                )
+            ):
+                cache_entries = (
+                    cache_entries[:i]
+                    + cache_entries[i + 1 :]
+                    + [(args, kwargs, last_result)]
+                )
+                return last_result
+
+        result = fn(*args, **kwargs)
+
+        if len(cache_entries) >= cache_size:
+            cache_entries = cache_entries[1:]
+        cache_entries.append((args, kwargs, result))
+        return result
+
+    return wrapper
+
+
+def input_guard(fn: Callable[..., torch.Tensor]) -> Callable[..., torch.Tensor]:
+    """
+    A decorator to make sure all input tensors are contiguous and set the device based on input tensors.
+    """
+
+    @functools.wraps(fn)
+    def wrapper(*args, **kwargs):
+        contiguous_args = (
+            i if not isinstance(i, torch.Tensor) else i.contiguous() for i in args
+        )
+        contiguous_kwargs = {
+            k: (v if not isinstance(v, torch.Tensor) else v.contiguous())
+            for k, v in kwargs.items()
+        }
+
+        tensor = None
+        for arg in args:
+            if isinstance(arg, torch.Tensor):
+                tensor = arg
+                break
+        if tensor is None:
+            for value in kwargs.values():
+                if isinstance(value, torch.Tensor):
+                    tensor = value
+                    break
+
+        if tensor is not None:
+            ctx = torch.cuda.device(tensor.device.index)
+        else:
+            ctx = contextlib.nullcontext()
+
+        with ctx:
+            return fn(*contiguous_args, **contiguous_kwargs)
+
+    return wrapper
+
+
+@functools.cache
+def get_available_device() -> str:
+    try:
+        return triton.runtime.driver.active.get_current_target().backend
+    except BaseException:
+        return "cpu"
+
+
+@functools.cache
+def _check_platform() -> Literal["nvidia", "amd", "intel", "musa"]:
+    device = get_available_device()
+    mapping = {
+        "cuda": "nvidia",
+        "hip": "amd",
+        "xpu": "intel",
+    }
+    # return the mapped value, or the original if not found
+    return mapping.get(device, device)
+
+
+# For AMD GPUs, the triton backend is 'hip', while for Nvidia GPUs, the triton backend is 'cuda'.
+# However, the torch backend is 'cuda' for both Nvidia and AMD GPUs.
+# Therefore, we need to check the triton backend to determine the actual GPU vendor.
+device = "cuda" if current_platform.is_cuda_alike() else get_available_device()
+device_torch_lib = getattr(torch, device, None)
+device_platform = _check_platform()
+
+is_amd = device_platform == "amd"
+is_intel = device_platform == "intel"
+is_nvidia = device_platform == "nvidia"
+is_intel_alchemist = is_intel and "Intel(R) Arc(TM) A" in torch.xpu.get_device_name(0)
+is_nvidia_hopper = is_nvidia and (
+    "NVIDIA H" in torch.cuda.get_device_name(0)
+    or torch.cuda.get_device_capability()[0] >= 9
+)
+use_cuda_graph = is_nvidia and os.environ.get("FLA_USE_CUDA_GRAPH", "0") == "1"
+is_gather_supported = hasattr(triton.language, "gather")
+is_tma_supported = (is_nvidia and torch.cuda.get_device_capability(0)[0] >= 9) and (
+    hasattr(triton.language, "_experimental_make_tensor_descriptor")
+    or hasattr(triton.language, "make_tensor_descriptor")
+)
+
+
+def get_all_max_shared_mem():
+    try:
+        return [
+            triton.runtime.driver.active.utils.get_device_properties(i)[
+                "max_shared_mem"
+            ]
+            for i in range(device_torch_lib.device_count())
+        ]
+    except BaseException:
+        return [-1]
+
+
+class Backend(Enum):
+    ADA = 101376  # RTX 4090
+    AMPERE = 166912  # A100
+    HOPPER = 232448  # H100
+    DEFAULT = 102400  # Default
+
+    @classmethod
+    def get_shared_memory(cls, arch: str) -> int:
+        try:
+            return cls[arch.upper()].value
+        except KeyError:
+            return cls.DEFAULT.value
+
+
+@functools.cache
+def check_shared_mem(arch: str = "none", tensor_idx: int = 0) -> bool:
+    try:
+        device_shared_mem_list = get_all_max_shared_mem()
+        max_shared_memory = device_shared_mem_list[tensor_idx]
+        return max_shared_memory >= Backend.get_shared_memory(arch)
+    except Exception:
+        return False
diff --git a/model_executor/layers/fla/ops/wy_fast.py b/model_executor/layers/fla/ops/wy_fast.py
new file mode 100644
index 0000000..a66ec1d
--- /dev/null
+++ b/model_executor/layers/fla/ops/wy_fast.py
@@ -0,0 +1,158 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Songlin Yang, Yu Zhang
+#
+# This file contains code copied from the flash-linear-attention project.
+# The original source code was licensed under the MIT license and included
+# the following copyright notice:
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
+
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .index import prepare_chunk_indices
+
+
+@triton.heuristics({"IS_VARLEN": lambda args: args["cu_seqlens"] is not None})
+@triton.autotune(
+    configs=[
+        triton.Config({}, num_warps=num_warps, num_stages=num_stages)
+        for num_warps in [2, 4, 8]
+        for num_stages in [2, 3, 4]
+    ],
+    key=["H", "K", "V", "BT", "BK", "BV", "IS_VARLEN"],
+)
+@triton.jit(do_not_specialize=["T"])
+def recompute_w_u_fwd_kernel(
+    k,
+    v,
+    beta,
+    w,
+    u,
+    A,
+    g,
+    cu_seqlens,
+    chunk_indices,
+    T,
+    H: tl.constexpr,
+    Hg: tl.constexpr,
+    K: tl.constexpr,
+    V: tl.constexpr,
+    BT: tl.constexpr,
+    BK: tl.constexpr,
+    BV: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+):
+    i_t, i_bh = tl.program_id(0), tl.program_id(1)
+    i_b, i_h = i_bh // H, i_bh % H
+    if IS_VARLEN:
+        i_n, i_t = (
+            tl.load(chunk_indices + i_t * 2).to(tl.int32),
+            tl.load(chunk_indices + i_t * 2 + 1).to(tl.int32),
+        )
+        bos, eos = (
+            tl.load(cu_seqlens + i_n).to(tl.int32),
+            tl.load(cu_seqlens + i_n + 1).to(tl.int32),
+        )
+        T = eos - bos
+    else:
+        bos, eos = i_b * T, i_b * T + T
+    p_beta = tl.make_block_ptr(
+        beta + bos * H + i_h, (T,), (H,), (i_t * BT,), (BT,), (0,)
+    )
+    p_g = tl.make_block_ptr(g + (bos * H + i_h), (T,), (H,), (i_t * BT,), (BT,), (0,))
+    p_A = tl.make_block_ptr(
+        A + (bos * H + i_h) * BT, (T, BT), (H * BT, 1), (i_t * BT, 0), (BT, BT), (1, 0)
+    )
+    b_beta = tl.load(p_beta, boundary_check=(0,))
+    b_A = tl.load(p_A, boundary_check=(0, 1))
+    b_g = tl.exp(tl.load(p_g, boundary_check=(0,)))
+
+    for i_v in range(tl.cdiv(V, BV)):
+        p_v = tl.make_block_ptr(
+            v + (bos * H + i_h) * V,
+            (T, V),
+            (H * V, 1),
+            (i_t * BT, i_v * BV),
+            (BT, BV),
+            (1, 0),
+        )
+        p_u = tl.make_block_ptr(
+            u + (bos * H + i_h) * V,
+            (T, V),
+            (H * V, 1),
+            (i_t * BT, i_v * BV),
+            (BT, BV),
+            (1, 0),
+        )
+        b_v = tl.load(p_v, boundary_check=(0, 1))
+        b_vb = (b_v * b_beta[:, None]).to(b_v.dtype)
+        b_u = tl.dot(b_A, b_vb, allow_tf32=False)
+        tl.store(p_u, b_u.to(p_u.dtype.element_ty), boundary_check=(0, 1))
+
+    for i_k in range(tl.cdiv(K, BK)):
+        p_k = tl.make_block_ptr(
+            k + (bos * Hg + i_h // (H // Hg)) * K,
+            (T, K),
+            (Hg * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        p_w = tl.make_block_ptr(
+            w + (bos * H + i_h) * K,
+            (T, K),
+            (H * K, 1),
+            (i_t * BT, i_k * BK),
+            (BT, BK),
+            (1, 0),
+        )
+        b_k = tl.load(p_k, boundary_check=(0, 1))
+        b_kb = (b_k * b_beta[:, None] * b_g[:, None]).to(b_k.dtype)
+        b_w = tl.dot(b_A, b_kb)
+        tl.store(p_w, b_w.to(p_w.dtype.element_ty), boundary_check=(0, 1))
+
+
+def recompute_w_u_fwd(
+    k: torch.Tensor,
+    v: torch.Tensor,
+    beta: torch.Tensor,
+    g_cumsum: torch.Tensor,
+    A: torch.Tensor,
+    cu_seqlens: torch.LongTensor | None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    B, T, Hg, K, V = *k.shape, v.shape[-1]
+    H = v.shape[-2]
+    BT = A.shape[-1]
+
+    chunk_indices = (
+        prepare_chunk_indices(cu_seqlens, BT) if cu_seqlens is not None else None
+    )
+    NT = triton.cdiv(T, BT) if cu_seqlens is None else len(chunk_indices)
+    BK = 64
+    BV = 64
+    u = torch.empty_like(v)
+    w = k.new_empty(B, T, H, K)
+    recompute_w_u_fwd_kernel[(NT, B * H)](
+        k=k,
+        v=v,
+        beta=beta,
+        w=w,
+        u=u,
+        A=A,
+        g=g_cumsum,
+        cu_seqlens=cu_seqlens,
+        chunk_indices=chunk_indices,
+        T=T,
+        H=H,
+        Hg=Hg,
+        K=K,
+        V=V,
+        BT=BT,
+        BK=BK,
+        BV=BV,
+    )
+    return w, u
diff --git a/model_executor/layers/fused_moe/__init__.py b/model_executor/layers/fused_moe/__init__.py
new file mode 100644
index 0000000..658a07d
--- /dev/null
+++ b/model_executor/layers/fused_moe/__init__.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from contextlib import contextmanager
+from typing import Any
+
+from vllm.model_executor.layers.fused_moe.config import FusedMoEConfig
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEActivationFormat,
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.layers.fused_moe.shared_fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.fused_moe.utils import activation_without_mul
+from vllm.triton_utils import HAS_TRITON
+
+_config: dict[str, Any] | None = None
+
+
+@contextmanager
+def override_config(config):
+    global _config
+    old_config = _config
+    _config = config
+    yield
+    _config = old_config
+
+
+def get_config() -> dict[str, Any] | None:
+    return _config
+
+
+__all__ = [
+    "FusedMoE",
+    "FusedMoEConfig",
+    "FusedMoEMethodBase",
+    "FusedMoeWeightScaleSupported",
+    "FusedMoEPermuteExpertsUnpermute",
+    "FusedMoEActivationFormat",
+    "FusedMoEPrepareAndFinalize",
+    "SharedFusedMoE",
+    "activation_without_mul",
+    "override_config",
+    "get_config",
+]
+
+if HAS_TRITON:
+    # import to register the custom ops
+    from vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe import (
+        BatchedDeepGemmExperts,
+    )
+    from vllm.model_executor.layers.fused_moe.batched_triton_or_deep_gemm_moe import (  # noqa: E501
+        BatchedTritonOrDeepGemmExperts,
+    )
+    from vllm.model_executor.layers.fused_moe.cutlass_moe import (
+        CutlassBatchedExpertsFp8,
+        CutlassExpertsFp8,
+        cutlass_moe_fp4,
+        cutlass_moe_fp8,
+    )
+    from vllm.model_executor.layers.fused_moe.deep_gemm_moe import DeepGemmExperts
+    from vllm.model_executor.layers.fused_moe.fused_batched_moe import (
+        BatchedTritonExperts,
+    )
+    from vllm.model_executor.layers.fused_moe.fused_moe import (
+        TritonExperts,
+        fused_experts,
+        fused_topk,
+        get_config_file_name,
+        grouped_topk,
+    )
+    from vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe import (
+        TritonOrDeepGemmExperts,
+    )
+
+    __all__ += [
+        "fused_topk",
+        "fused_experts",
+        "get_config_file_name",
+        "grouped_topk",
+        "cutlass_moe_fp8",
+        "cutlass_moe_fp4",
+        "CutlassExpertsFp8",
+        "CutlassBatchedExpertsFp8",
+        "TritonExperts",
+        "BatchedTritonExperts",
+        "DeepGemmExperts",
+        "BatchedDeepGemmExperts",
+        "TritonOrDeepGemmExperts",
+        "BatchedTritonOrDeepGemmExperts",
+    ]
+else:
+    # Some model classes directly use the custom ops. Add placeholders
+    # to avoid import errors.
+    def _raise_exception(method: str):
+        raise NotImplementedError(f"{method} is not implemented as lack of triton.")
+
+    fused_topk = lambda *args, **kwargs: _raise_exception("fused_topk")
+    fused_experts = lambda *args, **kwargs: _raise_exception("fused_experts")
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7f9ddfb54cfe18fa96e8d7f57f5dafa258c7ba16
GIT binary patch
literal 3100
zcmbtW&2Jn<7O(1=X^+SDj6Wuh9XrlAaZDz$X9C%UWEG(eBz6L_`LF|0Us|2%vfa3<
zyH(wj#8FsHP!2&{-~y3WD@EKQw0HgoE<xk~wHs-r6%yQRjQKk8UiHkx4ni74OZ}Ty
zud3ch)qB65&-(gu1RkD#&-+I&A^*og>q$3-ZB7aKh+HNvaVaN)T9l$}a6_c5l$KLG
zEizU{%V}<kE~`t+8J-p0R=3DmIXyOckLa~}MW59t@>X8!x_CkKTm4$j@&Peu4QjcY
z4~e2x1UcvIW5aAeORX5A5R{v{(M1RwaeL0fh*7uqHu<C(tTpQP{dVn&;pT6rtplsX
zEqqL^F;<j+hYb4pxHxDX)ZPa8gg9g!(()iLiAifx9JUUNBi0cyWld@Q5I-uWt!XV6
z`BUPUbxh0qcv&2`j*Ao42{B{Mh*@h^RIG}g8|GDU(mF{A8w2nAKc+YO2(iXCa_$J*
z4{?n`Tu-|PZWC+99RobEkt>gXi`kT^%GUxvX4hlk_|7Vmph=zcH*jLE9x-<zxbR}&
zuXwAV8Ek15SiBavFE|k^8!Fq<s_~}8-elhDTD(+qI9sZRVIX7XmQ!k^wenmo_O3dy
z7x;656i%!TwPs#rQq*I1;d;nq99{O|2gm9_dx2!3BiT9Mo%4K$dp8({y0iv5x3vZ|
z!%o|Uea(Yt>#;5B9A<JC&n?-@uU}ezWpPn;*^oUXSA+6vKL$ug;N3n3@G_xLm~ngZ
zZF-Y9P?{gokDx?vQip7if2Xd|`*iU>l?7M_M`9*cRW9Ie(?f(-OQm0ytFZ{Hp%>1^
zj$CE&?DhI{XHKs_$Ew`BQVlmCRKI$ab5Rw6%ec+1vsyh4WR*J`Oh(leycAmmtZLhy
z@5Q!V2{%+BxXPsTT-Nj^hr!zzywL%GZ^%y#^1Vq0M;kAFnJ+fx|C8?iGCy)_{^tlA
z@SXlas!Yk^y7X%>Za;V^DR{T@0J{%iiO2y^$w7eoWE+skeE=#48MQ({_fzmj&`6{~
z{@XLySd<t}xksW(W)Mt-ECRBG>_+H80IDDo>X_(UBwE9JeZh%qYs@{*SUAswXch|0
zOf+Yfr56YOEAq(|X*Kd<J?2gnH5WFw&V{GdKyzl7ssN{si}9%KmGCd>3B_q}S$NV1
zRmD9~w4%$Xz9g)sLiHur$dWQwxnvjz;kqh5K0<rN<IMIQ!Bp?64C*1=Jgx!P`+qOZ
zyqv}}JBsiW0v55HL?|H~LYP3nyOCJu@-V_ULK)#8fHH;d@jZ=!#iHv0_d`9jo8~6@
zC-C;aj8B@HcWBvIyfIz!qLLrPB~OH$2?jLdmYk@>o!WXSSSiK&rYexl&|(l@dc5d@
zlmQTtJPvLmG+9cjtKXK67cuCG8Viv<<Sb0C;3}*>sImOyy*KV%d@%F+gTqT-<d+|0
zmvzPMscOss`*eE*V0RWSZN<L?O}wZN5_%ea+&5Gj+BH(<`ZfG*c5@O|_AGbA71w!Q
zo`R(wyb;!NgFGys`E=%CdHzqtpzpB?*5paFn~;chtDR|hYnR8Fv!B`zXBLt^dq(A&
z<PO{-F>htY8=>c~O1w&S0(qvgmuD&o&s5qxQ%Sf?cdPnaM?2bk?WBn8EAXYzovw~|
zWI)G|kOWeLI@QrGNTkjkX|FTsGoDb1CKcop_1BJUMEXNww=>W*)M3>1*yE9=EH$8=
zB?WFLdgM_3eNbuFtHml6#Znb)+wq}A^tUjw?Z;dPpC;Sk+_pPB^D7B2+Aa{Iy$Z~T
z#HE{Bo$n~~mVsu_fqcT0W`&a-nc7923Ds!QDd7Pi5vgZ7va&Z5<S6xQM;nvNYvqH-
za0EA3{=jD3G==f%{?m-wCR25$BSXz|+?$2wS0ogPe=>EKwm3vrFMD2If(hijNC9l7
zD5XDS37vjKhQB6rJBC4xAI%g%HcgE!0<e=K^fmg3EIcB|{x^BF(RHVIr}qA-J8SPw
z+@1Qod*Tanbkih8|CW)VquVKvHc{H_r*!E3^LK~t*6xmcuy}9z^J00MfbP3&Z;#RF
z+8QV6{7%})m^&uGk7g!gZWDl=UXod&5D6+x7!!m%3^%hR)B7DM^qX6xkTGw~Z%)(9
ZWqNN2?85IB`~$g28!vrTT)34m)UPlxa%cbm

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/all2all_utils.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/all2all_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..94bb494b89db0af948aaaae04e8ef88deea23d36
GIT binary patch
literal 5248
zcmbstO>Y~=b(i0tA|*<sB+ArUwq?ntzN|+6P>|Y=lp3~dD{)$&M2p3WJCc^#T{5#v
z$5Nyu2y$@H0%_4hV)T$66Uc|03gpmV&<ocNu-iq73aBr+F|~pKJ@w5jm#YsN3D5;K
z^WK{`Z{Ekun>YG<G8tpwlLNn#ru!J?-vn{LNDFu#V;SZXMr1@*W=f>@$*kfl`B(z`
zWxo<A1(aYZsDw%(N(;zgB~pq|I4DPzSP4V`Z%B?SiBdvImXa*vV^FLz<Syp*yDbo(
z299JKi-=({BBzveDXnyuy6OBxd$bEiqjHauDP>@#uo#njmA+D+k}YKckE5KJKul%Y
zTg8RMBnpaMD7P9BQy&IO17aEl#BLN4*{v|cz(~Y_RzqSBj1O+I<C$;C<U8Z6omfLU
zk81oHuGVYge!J_nx`xEt)x}q<>Z-J6XI*?*z=A9zxkb;o^w;ZxsyjpwH|Ua=F{%j|
zT~o!^Bvp{5Ed-<Kavfu&>U>QW^wla>#(j2tUC?+DfeNT*M+j1@$q&ATcrh@VT?XX1
zEIUt__;pDXk;;pb!fRzgM*PaAjx?gi0tj4OzVYVqsUWm}VR3PJahZSpm)GvR$zNZ(
z`|2(J-i>R^i|)LorQ`EJQD-#`Y_X$4S?5K4vxe-9Qbj!2O1;CE9k+!r((70)``sWx
zAAmoCKmR>6pD^3L3iL-moYmWNDrClyZ=2a>cYO|VhsX#WVE`2O=~0*3S;j7LFMJ?@
zxyOvN!dF0uaq#^@x{p*&7B&&)9D_MxFej)Y2fKoE?5krzm#V5(<Y3#tNWIo#<_R+u
zB&~8PDkDu3@aANUlCI%3?Fxm+N(bC|g<CqX;6z&nVQV}33b!EW0!Mt#RaZHE9ktX1
z4(Yz5&tzMAhoD^H=;owmxbc#<=tNG_!6LM_dDy;|-fz%YdYZpMY(__|=D=d=4M|-i
z4v{ntqqpi32F?`$4i#5bsn(7QwYI9nwXk_Ez#lM{H;^iNcHG6%8aY6Rf>8zI@!OJy
z9KP|O-3O<Zo+3C$>pH)Iu!>|2cR`HpVMW+nK|Iy1UgK$O-J?S{^TElo+@73<$>V<9
z4IS<wO$Hi`>`n;Fe}6rtE48VbRGZKR3`u0-LH*+8OB)x_lq{`G)i(9@sycOFmX#@`
zDk7Oj4^X+TSMd~GUz=Jbd4`8DO|@+2>$)UsleJBpBa4yd6j|^FH19LbQ6`c%!_!Z~
z)8AyL&Fr#~UA7XrPY0g+eYx1fcr(&*+#5~g8iDL{kj2=3Sk+FvMG{x*yp~%hiVQPx
z_@n3auR(fFnNH`la&QKn2CA}~j1F_0&rR%|PH4rwm|SM)cYNEv_kA~+4_J}e@ozH~
zdaWH`01$_7!WHI9{(uFp#9<DC{ei`E+pHr?Pr2j3OCoyY11gE_kq@Z7M@WEfvz2T|
zYJW%S;Bo3>-)<{k{RaHE6W9srCtR)<>Q`_%ydHQt4|5^Nh9fTQ^*}xCVJ-yJQ5W|5
zj+~u66xa?v_V2dx>`v(aU1f{-BMef;JZ)S^8vyz_7xVf`(Su!RJ0u2P1_WkIxiqie
z4(+;`KcdgL^zFzCeSg8_@%ruX<KS-VW`cd{zXx|n<!9cw3t<fOIT!PK(Cm_jxzGmK
zt<l}@?Fe_DQ}6zmHS?|{u;xV(@31cLcG@#crGw>LaJC<Zj@eG!edNP`YoEU#-`}0i
zUuO%LO6RlCiP}*D*=3KzyR97cQ~cWb%<DgQ4X#{uA+LAiMq>Ja#Zb<Iln&WIzwXW<
zoI6o{(Zyf5BRg8P9eo@*9F_6tovp&{x~6k0h$~|Rce}_*Do3xPYE6e*2I{~}4Pl<t
z7kU*gU7lVDc6>#ymN$59U8te)sNJOq4|uh%I6RsiCop;dGj+}GZUH<IM1|M^ET|iH
z?CmO+MOqBmVX@`_F|S;;(;n;;t#<YR<v=lO$7p5FtAc{yGUmWTb~n)hv=qp#>S&T8
zBvI08f?kH&Km*qEz>3ch{vM)Ji<Pggu4+h!l40<$Wz+^xmFnN^c;rBdW+$lO&bVgx
z5Nu7Zu6R0NlA+)Qks)&Fd?@9?FGL_!#!izWWwmyxt?2kET2t5=GT@d0ZtX&@U^^qC
z`%)RfHLWOhRVoWmLD(smRS{HS4Pm=L1<QiAE~%@qBorEeXl^CrEKFYvuJ9yr4o4bt
z3)m3}UJ<mKk2_@nMKC#6c$hE*M5(OflLRN}0+Y%FlWWC}=&i?-9hFoa>Mp2u>}a`G
zcb-&uoG``6D{CDJJsDwgVN+jWa+x|2N`m9PEknyTOfFR%A+w{@XGA?rZgWfvvlz}3
zn7lsmON1+3bDmuMYU{y;&k}Nv8$|DcL>&krA};5lc+;Hlgjx!c%%_p!1IoPChX;tL
zyi-Uj!UjBejxI*d?yF?xSCC_%UW+h^lo=l};v;5!?n!*kN@bp9NB*Rm*-J+Dl9|0>
zWN*BG*NP7|;-ihgD71T5UTFk+n;|BhF;g>7QZtRfy~galr_jb{_QEkUoPQe5Td8~_
zb+!>X3+=P1n-;8+C>V(X03YA^=nm<YK3cL8{bu5{kvMH}MU%T~a96GV(`Ns)(LcSP
z3{S_5NU;&=Zwwaqdzk#Nl`ok22_rvY_2)lJJxW=HlV)MoD9l>joY{TG=ssiRM$O!e
zk(=4;J!SS5jozZ!d(r5<Xypb!dH0X+S|=u~Q!nlJ#q+U;spb%q95NH5Mq>2yDf8TQ
z<J@)g+-(DXiQ7#-6YX!tnDnrj8her&vx@U(anUF)n#E<Kxcu<$r%Og+e2*-9-snF6
z`Q4}8FFy=D%g<Pe9#6}*dPC>;qrssVn9}?e%Or*xfqe58%fymqbmU2N#7gyi{LV-3
zd|EXN^G0F*Nou|knQx@#pA8oNJo+$2tvj&HH~E*yGDGLhp*dq{&LXDH7`-#r@T56B
zYYfkRSvKcx8Sopv)n50iyYB3PWxWu6Ggz?Bo-@y0HqKrKw|=HRQmuh8b70mOn6-vS
zK6~%cdxTtlRQ+<;oVjJduW)NW9-@xyVtP&<as+rTIp75L>#<Ab*mYy<`qQxmBeC!w
zhD|QAR(i-xj~VH)uZs&tdZ8I)q67Oe25bSlxKk!~!Qd`<2A-H`o6+TX50h(ZJZ}df
z&y?5gG<m>GLSEIev{Hvl1k<c^o{|s0YbKp{&1CysGwHnZFe#NVxp6TmeeKzwG#6yo
zWdXM`7>57jFm@N6>Hh0Pb8<tD5}l`$q|~ZdcivH$RHm4mVmm2mkP$@zj=Qvh>^_<Z
zkDXtdmPlH(2g!e9oOk3gF8ZK!86bNcV`wKR+Yjl`4mydHzUWAX_=2GxcJfK&WojmR
z1>b`qQkZIAK-2WIEc-kL0sTJUV|_n_0<7;l2Ac0<fPNoh*y6vK%X|Kl4S&Y;pEUd@
zzxJQ{M>zH2)(<{^H1-|51T!D*{4;WsqRqq!HfMGBHvQ1=rFzMMXa)g>L^C+u3==5A
ugrd)*1iH%pmSu;mXs+oez+TUp&jUtJu^A*7%m{IRIc)?-_rnCIru+|chWY6L

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/batched_deep_gemm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/batched_deep_gemm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7b49480142fa3e402010c246fa09f9769492e429
GIT binary patch
literal 17338
zcmdseX>c27mRRE??u!Hn-c3?Gz*D4T9h7XDx~<E)Y-uQaAqd?dLE%z2V2Mm)%yC>9
zaAvkdWt@o0I%|4ovO`6#44tHEw3TeFHap2W*;EB>dY9N<O@^7MYD)hwE4gMWRXN`K
zx*Gs#(01+QPtqj5{?7Nk?|8@ezSn<Yw_7N9V*2k!f4-NZ{yQer$E`%3t!OFgF2zuc
zCPq!jZ%teq)@rD@j)Zy=8YYYyEY-$p;-(2x+&p0>X<f_`w@z3|TpzQ=?GttqH^dxq
z=Y*5QjWJi;J>e$tnwTeEJ5fvGrdVCvJK>G{CVV7qj@8Hg6aIL^L_@rBqA}hy(M0ks
zvF3QoL`%GNqE$m_Db~uiJ<!PbPtc5&ZD(xov%}B9`WYwN0e|g`E23?HN*m(T^ig#J
z%I}B{>qRV#`(6FSHr6+NqFkoN7!T{6KBcD0Z>DyO{JJgjy<6n_w#cvFBHzD7ena*A
zh>K}_SN}jke4>YGVwze1^x5)A)L2Bvw6N6lc{N>rGp$?Xw^hu1)t1%U$?F62PQPoI
z=+jciD5m{gis@jD)329%Rbvlya%^H?Mic0KiitA;tyDY7rh}0rcQeE>!EiE>W^bjX
z<|w~8FBp0&6pe+h#n^yGvPKipbTF2joMbsj)*j99EOR<}<Xk3{NFPcjBGJkF8mZ}G
zGIjD28=ag=k0+S(ERzYdhuIiA8A>A%dyr%K=qwuyhr&~s;R<Isj!mS4saPltD8&Ii
zZ8|0y(_A#2Oa%0j_b|(*j<NAL>F7c@6l0H`z9=<EQhS2&;3SvKq*x|62^E3>CLZFi
zvy9Y@BaB}UhGNmlL>%D*Y%<j7WG0#6gR#&|GLx2kFlYwg%k9}c@$Eqz79gPyGtsvs
z6M#=J!Awfh9Fa5^CCxF(c>@O=<PnizB%YRx9GlK?iJ`DwopyK|;fIs|%nw9&ml7yJ
zBWNSKtRCO91`1e*pn<eO(4|Ywrh%<&ekw{U;Vac5+P5gKR?rKEH1<fIX_Fc&zazQ}
z)P|l2lPi~F?0PRn@!AvAI~v3`ZC6VLEu(#)U?z{CdfA3iZN$i-!YaQJqk!(rQ{+ic
zaby7#hh0iFM^C*vesRaB<WVBQLq}dY6@2Z;p3~bULpsTYr=*%lEE!5e9RtbckTFY!
zXaceVMy?i8Tpb2p41A=Jp9-Z|sfLGr#jre&vqh8Ve}sn9@ziiCni@=pIM_FXw=%o;
z?zz639gan>4X0+(Q^~~eTd`PtIG$wKSdhKNhBJW2Fzg|g<A)=-V}kJ{JA5sahF#56
z>?p_`O3g?OWVi4^f<#cpA;_d>QY^O(5NU=V|N9WkQAH!=a4u*TMslyr9Vs|n3nTNH
zh0vlq7oR&;sPR2EwXB)CL{k@uY!^-2iw0ej@mG}2WGtE}mv>?E{mcj1d)d5mAa5F2
zw>Ey(x?`<%uh_cxQ|sQmesA8ow_tZHXx`hos97BO{#f4DO8QaL^WR*&vDBV-Y=iEs
zu7#fWU-)3(y?uFWcV6H93^1f5&2h<c?EI^*oef@iW#WjWV^ch=2NGj6p+rKrBuki$
z#)287D9Lc})T@V1N|rOPoeo~OIDYKNg)pv(`rvjYq{0AM0I9&%nT73^^`#YgMN!oV
zgVCt+EL$(s3qI1uPhzmR*#^Ns4e&NU735SRm~x#GM8DARTeNPdz`P1E3Od0rIFVdt
zp=-6z-=e?9ivFq)Hn5sHm4JVXUYdj^q3$}aOf%qbMEr#YSSx&+)X`*Hgchh*PPal@
zUrui*YXdmu4REX~9H>`{XKAQsQ|dX?8rk-WQQOLEsK#K_je_?htttZ#Qwy3m-v;bE
zD%w?B9ZG1$brCv*8nrK>nbCcuS0R1H99Cg=>KbP|zq0SPFYi0MP3U9{jG+RKOC53f
zEp%E-`wHRBTHy!ll<gEcg>59(RRO_MZmGs9N|BRpdMZjQDOsr{bgAQ2--1ise}V^b
z$#x61+`bAZ{!JY~vZA!{OG}Y^ZhC}nwdc+6Y<C6R)=kYIDRc?lh@s#XJYTlnf@Yfj
zV(aOSFXpKjWP2)lMy|i<0mXn;*4|RucRfP$M@AJ7P34?agP;}K6$thcgl=`_HL(A`
z_l};Lp#n8$IF#q0epwQkILM>WB+E~#_@MHGYLsM1rl(j=$uAxVXt?dzs+NQKp(IO+
zOHOj3creO<#+D@Fch^oy50aUYj3F+Rm}Dgbd2u+=ASrI8q?&l>Ry3Z8OFD>1y3jRV
z(nJ0z=vyE#u=ONJ^>8c{Pe}$MAtei_k3@w_&qxLy1TP!tmCVsZDg#<$nv-f~f;ZF%
zPa>8uXl-c{=enV5u7@D3$lYj=l`N%rx*|R$S(W^m8&Ihtk*-WsRO2hF@xh8}d~i~7
zD$o>kSPnESiVI-She1CE0~icqfZB?rOTm0<SV=P}nG(Tt@;aM<DGDcJJehsTeJ#YZ
zL3#AaNQ7t8l8a=ah8<LL93&@`+L(qxZ784N)wCup>9M_}MNM}`(#-^U3~um<v8*S3
zb;xz%09t~4G?od*GqE6Q1+unW(y_S^)WOm6S6~Z*zH?ARnJu}AdFR~tb0cN7-yWPF
zT-2;u8s`obOxE0udDGlDMndy7bK~nK^KJdS{(I+dU!K4GT?dwI$^aNH&+VJ@Hy37?
z#+RMqw%ua=?p5cWHRnFjx$oZ|{FCE<bbQr$WbXJA=xXo$-i33EhE;3pnzdcDw*Ro>
zN4+2Ru3G!&4i~J>g|7MibBEXc4T~r4IhNha6Zcym_KAVRqW^GS?=95#F7I6F6Z`jz
z_51Vsx`MY`t|NMPKiu}HQ5-uddQZ-sDR_O0O?QGzH<rgf{N_We*mFqq9(u%laz#9P
zS@d46tg!FHw?*%+xie4fP8=Voeg5U?HT&MYeQ!?l*y+Y$6>Q$TzgM*NE{`nF-hWB7
z?R}*G<j`}S)@Avn#WvpoQ!_C?@!g@Kfil}+G90ekm*y`md}FCq^bW7IuS|bDBzj+d
zl+Isx{WJTeoOaz=yTC7oe|YdmM?XBee0ceVADk9jN5uM3(YYh1FW6iQqw}xiG*1A|
z^!)Vuo)3KYd_UCw$oQdg>BbMts||h2hgKciS9Xhzv7GL&t=`9;y1PAhdfxB&pyyr>
z%xBMsJ<FXx7+7r_UiECx9YQ!$^HU2q7I)maxm2@Uzv>uSbL<oyJ6A6K<js%YTzlcP
z_`>N`$C;e&iOF)?G;dm{Uwlb)2bRZItoL6P-TNM1c$EH2)2YW>mHw4!{8#OiV~p#9
zP4*OJ<I_0^xZi<5a?A7-1ic&7cnE>|$q5qn>?|7w30Zp3yg{_m|EiY{aMPuta)i;4
zLsQKOu<<-lvhny-O<#Qjpk)nNW41=9VRW;geKPt|YePkAEJZELB$xyp@^i*G3tAn-
zG1n}Zn3_$kO%<(mjJX80GG9{_e<RlAJRr?bAZ&UVJx+pPAn@dap{APd1LLitOQ%b^
z)ihwg`T5AA%B8HPqGlC6E^A4f)z;HhbSuFi7zI;ACs?ZE@sU-PpIK{Kwcx?1pp{wB
zKY-Q6hpdh*YtK3=daI%r2{yqlIJWFbftGa&`gBQeny#WFRg_lIeehVHb)}nR+~E9E
zO~<J^>(f<qnvZO%4l>=YLM*@4y_0ndZpME74cHGO6)VzFuBpbRx2du6dm2UTriU0k
ztb!A?KZUY1lmO|77K{;^X_SMT9u*gP=Vd*xO5}VH(PV33&cCDuS--lhH|rCuUs<m{
z>(4e+taINcG$1Kh)H%yG3XRh!q&Gd;CdeP!lnKdfGvk0$kaHT9rA<%8ypC=vf@Fzq
zo$5Tiqe;J@))Q(8HIf+wT@iSLP$zf=ADnpMv?|yYYPB;)QqRs13$5UR^H(#Rrd)!K
zaWTe^+z;wyh~>2icrxz*i4yx7ut6H-ckj%Vp`oDxdhGa{0lJS?Qpd;Mq|-_I=-EB=
z&1iaxCcKjdJ~~JkD=nKjET}5X&{H9vCI%0>_s9T!aeyA}J02LKFHW&^B+Bt=s1S?L
z$p{TvCLIew1``E6kB=r3bd)DR5R<`BI30ZploMuv2Bjh$O~s-tLtmRA?RXaKmka?l
zfEfvzC>$^hh6Z~O!F7nhx`dr%65%O21pVKF@<}iS$^CO|h~aT$p>Q}E2Qv?JM<06a
z@Ho^7rKb2H`V^a{ubv&fN<dv>0Y(Z`+*pi_MQ1~4L^%R@COI1Hj5r~Dlux7CQMN~d
zp|YeD5&Y=nTP%n85_nTlh5^h=!ymGcY|^JJrW8eur(dM6Y=4vPr>~&mE=#kaa3;=Y
z;=O@4uhO9eLz-SqC)1&rQUMxmgmPtY<jt${tb7er<ym8SdLz(VG)xB#Xk3GlBqOBT
z^c2n{eJz#@Ux!IM0!CgKWI2yUV{<5)09a@Yx-@?N?1if|n4wd=GUg*NFSxQ5Z4xXi
zFHR&1D;-Vu@Bjvk#(WA^KAM<R28TNWAq}bvgS#=2fC>aPb;9YZ8|MP%jN?KxO82-q
zql2)s5fW@5Tq0$+Zomo7K4GvTvhp^)dL;@pf=z<qsZ8QJ(Iy7y-Y6{82$IjHB3LLw
zIm#wyZ)9MrL}5404A3{>$i>oEH?@Ez?Cm{H57TAKTL4mLM=>l<<p3Efm@;8o;>c+{
zjPbZDV9MffU}DvI#(@HHazF-gHlBnzmo4IC|L!CR^D>Qx=+QxPLZlVAFd?wVFGNqh
zM!!BvI)r%!ilyI*@)<C=Bk9GW*8zTVOy0;<j}8Rp_NqmtOj2ir^zn=LzW0mw<~II+
zRFSNV%hf7#D&zmJlrAXaeg{ux+kf%iJDC)Qm>MA|3^6rIQW#=t2T5W0cWtNi`(DND
z%5(OwD{?C1|9_M&%A1u4HYEEvFe>25kq8iEBFxg)*z`>n*!1fogrHs@g&d?YtUDP?
zUJJztxslnE5B{YlNX`5JX{JI!;WtR~hv@TgJ;o7MhOpowEDbDG1|d`QO%OOd4_8?g
z{D??T1b`xpC2W(VkT|d6(qFBheuOKFN`hXgbCh{kGbyF2!UWHg`z+wmy<h<tpurXp
z049xmi8St`uR{LSF`@>5kmHlwz(zrTJOCM?I1UAG*#LJ{fdF-)41>Q)Gi-`Y0EYtk
zDH{q(*J|>>X?k#T0sZ2Ov~n|~)&YJ2DDecP9iw!0oao_Und=hnj2OySL3HoMzGDOQ
z2&gClg4-5-;{DSXJA4K2oW53%*#FMITem^=ChWr5@$(msC|LgA9W^Q&B|!okm+Z8X
zbXNod5JU*n!^C6^%PVAbN$)7jClFa9qkFEZpzwgLDtn5GChJW^63WWRQ#c}1v)&od
z^FSK}94ZvYr+7dmX3JUFR<g2)@XD2e1`>2HDw!N=z)$h~IqN@O0tWZFQ9cTn*{CV(
z;lfZ1rcNWnz7-9#+{+|MUK}2k!8mG`i@?D7^ep5|{+mBu`|F<zfAivOu&m8hF>%pM
zlI0W0G|gvHsU(-C{~qkkA!5tSDjM<-{c0ixY7Smz4k>q;YIT+w;?Uq7(3MStk{Q)K
z!Yu+#k{;BaIEP0$ZU+X4F4uwq4S{4Q0QUsho$(!!gk)gjsq_rFXO!$Du3SJe<i3@|
zqb1jd0h|FS$%{AV%D}^+ROnhX7DdA==w9qCxRy_X?J+Isl5p#%4IYv@zFL8lj54K3
z22kLDJB?vCI=C&ACmRo}#3~qQB}N*K!SY%hu&T)^dMw9cRXj|WuXrWx@ln~vORT46
zTo3tT^(ulffsIqX`L$q7rg)MoR|+DqeynK@XP8hhgtyB!xn3{~`a27TQ8*@W$FSmY
z3|_(D1O_KDI0b=ZjKHkG(E2b3PpQPx%j3{Wx=hswF`05Vu>}VB<9`S{9SoyW8p>wB
zy=#8g!nyD4%j<{p{^3>qaBd%53Zo(LTgT_d=WgUW3Re4qMy)iK_m8dW$DoqQB3n!g
z#JJkJ*e;rzmMo&F4{WAZ8<<sJSQ!7#SYAJpuOC^}kL1P*R_|i%r`G1Yeowx2&nkr0
z=7P0ZHjFNv`xI_~`}eQ)9~Ao!J{l4Gk9^|(wEsk2e<E)^vF;D7`3FS*z{>bfj(>do
zr$_$$<e#3*`v+G2XTebV#N}Ocb&9UexmO-roVWYu`@#CxzIbjSx-|39{U`oE@_%MI
zICtnt*Gms?JZgV*?i1%~*JV-PF?T#Sz1Ry))+{ZerKMnU6-=Ij!-wO)HGk{5*<dx!
z9V$8~PkZSyoJ2ZBQzzVtcNvS6&SRWA@!UeW+t*yXMAxo@r}l2|o!+}ccZR@Z>Nft;
zX!};=?@xiT)Zl>YbCY}F;5%<WHra2R=gqfm^R_k9Zqc;6V6*3)^it;%zkC9knJvZN
zfwgfi=yH4JUM*hIP%!@bVX=OAwSHu!U98`kvjH%-XJPz~A$KdMUmqO$@#XuMA56gX
z=PU~+mMn$sJAPvM*z&JzqG>Q^UAVH;|HSRP+jOUC@f)k|o}97Z@!##c)0e9$N4$+W
zUBT(OJu^S^{*ez(-#h)OGXMhwWV9OlDa|t-MDxzTa}#CmUSdR3KVV(3Imv$uiTet+
z(tmxyCja{uZp@#Cf(<V}X;oXW!N0HIX)e_J3%>f#hyBpo&eF(<g%!DI=}~P@&vLMZ
zzYTZ!EH$BFs0l5jVReiaemYhkG3Ka<hS9%kn=r6O#=zFFrs*n{w(7Zx|C5$6R(NJv
z0E#uDWop0|&8Ean5VtFFGsGPbH&wHaK|2eSyTB(-2R?B+@QKrbPn-^X;=p18KR2|i
zVg+M7vo&CwMf_`^R;}VWw?$m>mvb?7(3gk6_ChP{$H3|$CdLQ(wM;!*H;qhW)5G|;
z$Zyypzj2HFrY-WDx5#f{eFWFmEz0FNX#3Jq`b$gOw<zt{BLB-*qZ9T)E3*yevOY)M
z(oFcl$*4>69h4n&R8O)a#PrWg4!DC1qM%W(*_;?>qI`-}=Xl8`E2Uty0PnU9{#~f4
z;P2TVK=6+=cd4>t$-G{meisa$g6@IhzyhW=YFaT3SFUUtHjw<N2EPhZJ2hQ0psTgO
z5R5W<)1&xo!L>uMWQG^CkSak3=RfW2$0fCK<EY2z)AE&U*_H!}30^zW5iS|0L-gUZ
z^!ZTYda3=USsEiIJ;;;|L0G+F4rR>_g<s`dj?w4Pi%zwj$rGI6h(=iI=S;u^7rx-$
z$4RCj2v~4G3`$mFT#|)4=Y*-?<{^-5;Dkl)8*lCj?cu(S`8fyz21(Deu}C>bu5Jzn
z;f|T-L6bw%G@>^r%i`}ra<;Adh8a?^_+L<oe-(n?%u&yMl-V&~Bbxk+&7YaN3(nd#
zXPfA3`>gYo)y|WjI#1?JC-cseB%c<Y^qO<<Q|DmbG?;e|7Fq{#`p-;Fg|?xb{x40<
zgr#z5pbaZq2ci_X?<$*Z8X}cjt=g?k)s2Qw$n$kuppE{%=1f2*Y2()=zv}EcF56<k
z-gy*!HA891q0E#*Quj67ZRm$b>}mNv*rV8Qp$$4=LL+`Qu*Lj-u_`!2Q#@MVVWKUR
z-MMD#5p6wdwq2ra*JGQbG6^!@Wg#L_mQ0m1h+`+@id1-)n$g_Xo;iA-;{GutE0J|8
zIy)~L^5CR1+q(s>U#N+mp3iVM%~1ts-Pgc@y9brIe}chgJZekO6>DWYl$!1PDoo0C
z!3Uh;-bct?5Ny~?CC+siN?<dUrb*>Nw=|p=TurbZd8%!wvhy7<SnaHQs7ESNS*&`R
z;lWNG29I2txB`NGo!IixUM}Aipe+%$1e#jqLkF0+U!?i?$oB0eKJb(QJm5Iwf|q<q
zsUvQ?cy0qnV)cyjg-I;o00#-gL3T$B0uHkGE<d~bt7deIhTu|9@pxu}T?t;7-K)-?
zPo1xSHn4wf;G8&cE`R>D)q&UZrq{nX`z2DwV@$Q#zd&*S5XXtk`wJs#gA)|7um*1u
z7waILyTPLxovee=cq%r#Yl{JWMZ0Y{9xEBo6KCHl@f{_&OPbS?=8U8{De2S6)OE=t
z8@h<lly@61xxv~GcMT{N)GUv(6J<FPjI-&`nW1o{JVQxE2=Wghg8tFS+BQFM1#W~3
z@2c17b6P=@uvRb2THtEeB0C+Xks`?h7iN`y%+_)p@Nm}P<vMsb+bVK(kha5xC0zLu
zZ)NQnZVDj5PDIfnixfP}1{{RxasLc+aXj3QFj&UmJ_i3B10*lfP_kA`6@emIZzj3x
zpmv1WksXqylo*waU_Jx0J&*U^NM7YfX0EPMU0EXXvprkvfXx+qamn8TuyE9Dq?+2+
z8i&Njp`5ee>&aOQtsQIN1=2c_Z{2&({V=_D;JkR?e9lp*?^rss5)`)`{%QD=_D|0J
zSv2oE3)Ow?OE0awDs~=v6#8W3Pa}EnnVhBIX<7W{ic@Sm@W`EaAA&=Tt7&m!*_U^2
z&zrW(yUUBJh_XpQ%q#n6gQ8X1D5n77Y6Qd8m06X_!m6>X1e`>`{a!!UQsF9Zh6&j8
zfZwS0_rRaypTcPcd_Iw2;Q<v6Z>{y!6tHRZTi^7QFhLb%)1#Jw^FO%%6K_nTpkWNx
zcf*npKZ~-TLK>af$piihWRpICdBBG;s<>rq(rEl35BQc;=A$Yh=WB(Ua($r&*mljC
z*^$F%PXlejb!UjqBuZa<3;`RDgz&Caxm^px?Q1ZO#$rh`BpC?7gMrMzhm){uI7Qqw
z2m&@vk8vby$;zY%;UjR#D1SF1*}#T{7gNC`Skxsy5`wb)p)i*OeGD3fQyEDI7n+hj
znr7o19t|ZO7@dgWh?~WJOfta{;`*1^Bhs2wqx2}b<lE0Obg5}`4scDlM-GFToRLf{
zpN@hMVtEsQQAtcDuv)c@>`i$dwiLuw>b{6%_U{2K(O+BxpE(Dg>nJ<DYHMG!4Ss4H
zTz7kmHI&&^v{1I%+=0h7&zh}Gw6zsnhYGd5c~4;3UDRpZ1M9vPsAs32Q+m4tD%S<_
zw%+xoj<u$JV$;60rUPQrfz_t*wWgzD)6vzY<9U<6(7o$no!I?i9_%6D7S{n*9A|gl
z)SY*BKdx<h|4^RZmp^b$q|dE3pU+=>eYN&d&h(_#w{UC8vs$|?XL?-g%hwMqPp#JO
z&Y23%`ka$cEw_S`ZI>^t(RmamPSV~Sf#0ZPLouO9Ctfm<RFvT*OIh-RLnk?Z!QFUD
zGKWTP$kJFcg+}EV_b;FW?#I|mb10RH%>>~q9Jmrug&ru9#Q!mj3W55dyd(m}1=|q>
ziepapSaMVqEG|J?O%qo9xs;D!s&NqosusLubko@9rbnf1;*a9V)@JK~XH=;N{$dIp
zgHL_0O7|ens&FJY%;~^~-uM8C3!XPXq@kw^LeF~ARyh|AoHpVQQXA2gD7_vaR^d+I
zJ>nCLRq-kvTFd_KS%133#lSDx5<z^Z>B`wxP=Jzp@HFw4{e8;(Yr5nQrQ!?UJ}6P}
z#wl|ugwXJjLG{{t1J*O!m~E=Sp;2gpp5T~0UDbCAykj=t03OfAGsKTsz8Lu5@PH8C
z$UVTj8C9}?U2-eiv&=rY1e9>U3jv%a;T}VB!FN4D@Bx6!1oZ5fWjS0n?%!d6qFOTD
z98vZ%&c0;DlXNi2g~BnG7<!?Cve^U8GA~1-;{FVSpJIS4gZmE{{5b}nU_cQ5j~M$;
z82kkWB~p>~i~o#y{{;eYtsc1{X@V8{2uc!J-6(4qBQi0{d`<pRN*5Zv0c1I<kR^}z
z11e9f_Lljife`9!^A_3%DZPxma2x_qIko{mf&;K}3~nA;Ykpa5emQSySa&wBIom~N
zdj+>DovHKA{=BIl!gWUzm_ub>)9(l7YjT?0NG`N4`^YZb`0niDx$nH4H?`*8UhfL5
zb&ZK#V+C8o;^-o`wC9;l+YOfR4ruez;>coX$qhQZuXAbNihJeEqw)OqqpRLyIm^1Y
zVa+=zdIt+_BZZFb1$V>UmOCwr+^V|+7_o2Y8Kw7Ga+c>d%G_13yB2^SHy7;Ag*vR3
z2L_JTR<OMKo?DG(%X1giw0*5{pV+u>weiKA^KrvIr9yN6^BR4lW!{m~<-YMH&^$7<
z&k-8o!+{1gizMKl70e=*Abf$wWZ;v;pkxc8*L6%T;r<wx9knP9O&gL4wk^nPywXW$
zQm`Grk45ica2Lz<*OJK?_j{QBeGL8pGi$4S)ye%3OX`jgUVf1nj8t8M`xsjiYQSqL
z$#{|65`$DvbKKuxj$N_8gxOdu7zEl|fLwAAf0^tj?jIlo4E`q;)Bz9p&AU`l>og3n
z`<sdec!Nl51d)g_6II{$xfx>}l+jVt8V#0pvm?i?Ir~Is-}1q=fn(ypvApw`Xg>b8
z1}J@|Q|lF78iRLf=Q9dkMI**9DsjExl4fNatTMcdHmzZB#j`eYOdL7(jDkebRBISn
zw>pXjcmpanXR!ujCXAUeW}%#(q7`E{s)a7vG3KC}+lo$%xu}-5wdNgS^NtlpY#uAR
zG1Eg?oVm=xg~iT=%kyt98J5D!JC>$Cbgp<;_=ks9ZhhRAcfKr|$Dh?=?Y;(sztGWD
z)ZzQ3arynqDe_)7+nyO9zqsoqm<yNpuI-MkXn;7N>TkI#+!2a3m@-jz&+Sw5r;27w
zfq_L%Sutg!>YMMz?!=0AOgX4p|J{K*14SpMT$I;ebYskegR8|@9p!Djd+N@qrJZ73
zPtl86KB}(a?*2Rbm$r$u-Nky$@+)wb>O@ahu>rFhDPPmwH}1SqY{FEt0;br4sn$*N
z)P|Wf)zkm$c8JOP2yT<WAh`jRcHoDaLmNNT9FjlO94dXNiRGDChznk4xda;nJMe}N
zJ3(6|Uv^67QVUY0q6wiIsg86877Wm8OCM4b?U(4ml9iOpsxJpZo09s!7J9Ndln|}7
z?`yTF(7GyY0vzhIQs38tkV!}36B86;l7lo*Kgi}~lZ%^V%3oy%<;tjda5iiqPXx&w
zDu3#MqK}9}*-nf4g5)J&<eH#zPbr|#FPmuk++&PA#DFlab&S1?!8Qma-E=e!SGCCm
zcvs#^f#V*Qpqn)J1cRGcr%g3ho@Kc>=#4Um;$KSu+rzZXTZq}M3mbJ}Bh!AFeZIu~
z29l_n@qY**sNNdQGYh4$|B`z7uc()QPM!Z5)%i2(<mXzgM*F#u(j3wJjOzb6)%$C$
zL8E;}LGWuEr5X8e=DLN;tLD}@W6|i)^b~3=MIF9@Cy;l2qx>E`NZ#uPOYVh*+J*3f
zfBwMY5xi?$>b>{s@@qf7a{o%+x<@qZeP)36z~Ho|Z#RCcv8X+&(HztOS(+^07QQ7E
zopRbmxoZiryXEwD%3{0SJl|X#k<+92MaUcTZxnaP>78o&1v$M-ZNFPik5M+q?fvun
zi~HpCex>|xUnFT@q*|Mb%VjOq&{Xg>6b28j4W1AOPyEVyNUNzU)Yu4yI!vqsPeJZu
zzy#is))mbpYN34nMN%IakI|ZY0efBae$afcIdAO}4c*V|Snv5M{Wr84%i{U9mIGqT
MfzK&S5jOCD0Bfa)7ytkO

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/batched_triton_or_deep_gemm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/batched_triton_or_deep_gemm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3f9d430de011040ac62bbda07ded720558471fea
GIT binary patch
literal 6732
zcmdTITWk~A^^V_<u|2UJC&3AENC-FthXj^nv%nG_n-v?_vQTXmtu!*8N#ew>of$7A
z8dP?R)Sx~VDpjFcwMwOafT&dZQ_-*PPrv%(0krmxv=UV-RsEY1P*?rxId^R5fgPg$
zb!4A8_ndpry>sq4=bm%_;`4b3JQ>@M(tl_p<ZsxhJ@zWHb`y{lA`pSekZJSHWGyKR
zL$X#1Z4}z49Sm|U8E4it?V`9f<IZ}fJruWPyjgadrMNxg%lfDN46%?&A~<dm!6`cC
zch{y~e?PFA_%yf3#9jZy#)UYeM@}V`)SM`s5yir!n9ZKORuCmc22SXmqAUvM^Jgy>
zlR4#dJ~xw|1#-AL;Ifof^11cy{j;LNXBYTnCOw<WiaCX!$xD1HpHtGa#e7lbGs(q#
zQAw?@h>+Sc*M4Im<cFXdkxVlJnYOrz&@V8eRj|O{D%u2_XrFN{lNm;^-}Fs8M5o{o
zU7~wFyiuHqH>S>5I)FW65u7(|52}Nvy&%O7G}lerG+V{pfcpS<&v(8m8~S>H9}v7E
zH^1jqK8$NfpRoxnj0*}r_#Qv}1MuhI-va+2{6jEbe*<~pB`1Mxg>Q91uU7Lbn&C56
z`i-0rfw{s$8?0rZfz0+M^o}O<T}|lGCiKoG^e!<%zjt>NzWJ@)+j3*ua(kL^_cWpR
zZmab^u#MfqUeIORGP%Y~w_hUhefsWA_W!=L#c_0hHhGQD6|=mOUl4P$9za}3%LVFZ
zlB}~Iqd%c%fJ5nlWG0ip$_wCr{4DrisunD8;}A!;U7KbI`8l&f6r|GUmR%)30lsQ|
z06cscqSVK#jA~KIyu;*dgui8Kfj}j^t;SJp*BEJtA&tk()6iDyYrdg>8|}|-rejM9
z)MzzNTi6dPCA_Ofhk3XfzW$cll~Ap<lP}0YtN^L?)q&Io@!&=P==GUv@(H<NIY&NY
z7Re%sTQ0<{k{ehO%96YQ;$Gb@7a<nvE}l>4(hAQ@s9ws{BUj9*$tyGp@}e0vbrwP<
zKT{avuZ|_hbnlf+KDEHhb4iecdm*8+B-~NGqb8xg^EDxHhi;R_%*>Vr(XqOl=Tn)a
zEc3jK0%Q2x_|L+Sk}V7s(uIRcQi3>q@LF;7&9Q}1aVV3%GE`Vp=JL6rPcoV8P&O}!
z8JI~-6_va+1Tk5Z<e?di^n5li4%Jpw{Vs^$>+1u4qOd68<}U5q-U|{no#8Iae+KaF
z4f4WI-2Pim&DDOl^Qo)<@BQPIXuQ&SpwiJ*?ikQI23|OA`#j6Gr><VZPkf!viN$xG
zsc_*k*Q0SgWiFv{iRV@%K0{(m<6=+y&OPay(zq$ZN!-4tu1=$!058z{IMDmTOMJbR
z?t_)sP^GJ<+?CL}5-*)LpWk3fFk%GgfPN!Fd@W^mKw}3=?9oafR1OSifq_!ssA0Fd
zJ%)wxjaHyxCBD%$_z<EyBvC0!xm4BfkOrr3)l+RiT|qyh<jvsIi$KSoTb@sc8q??N
z{<%J&vE)WQ(dT4p<2xU730K}=g{H4G<~5r861mTyPvQ1U=+k;InNrf9B$aeNhlxQp
zi8+RZ?kb}mV^RdWMgc4hzs9y+m2?Ef`~biWVz>y)mA(C%x4+~ap>~31Q{s+RLT%;H
zuofCFht6oBGqjn|LWy!{LJLhiw=&^VjA2Lfuvl6Eb&+s;IkeuR#7;b`i717Rm)PR~
zw+Jn<XC%n}NMqahDR7$E#&xE#cCTAhh;l_Ze`F5gEi+$_@gS`F)S@iJ<OuY!Z0K*<
zuKy(>?E(?7Pq;;Nv-B1SdWAe>fP8AMm|IBaX75|+HtDu2!mOxUuPCC75ex#4xo2I_
zSUU8YJ$ps!X&5C>0k}b^&mGhP2bXOXf3WP2YySAM75x6L?Kb<E8(X!NV@I{v(I>Gn
z2nn30!Uk?1S$^*^J977MIeJKo9(ocTF{~E1=l@*yp}LmL^MubP3liqYn-z|E=hDbd
z6}~R&+>TW~jw&D1Vq;HY<C|4}1XVtwMMs`Qk2Fy^8Ymjb+G7C!i@8hO_GXU9{&lNr
zfqvVXH|=Lrt>6yKb-QY#Z-;7^!m2|Gs#euTL!|E<)MKjk3#hkL+ZW`Q_442|pnhsm
ztq>G#)c|ON6wrEM>D;NjG8ao{3mFkB9U9f-m^_y+W`tOBRuaWnJ{S8?OwZ0K6FK1n
zQ7EQF+Fwq@Ci6-RU5US%l*VIAfx%cZC&a+5Ou{B_?4C*IprBd;9u>wzS6-sxc$_}&
zq`oP2gQ}$%0Nqs+tvjnCb#Gec>r@Xm%(-MJEzpheF<rS22umkkV_C0R(nXLV{|Z1e
z$Nu{G#O)*H(5My~eHwc6OJ&*h^;;)y_m+ciXu&t021ma<v+S%ycCQMh$iT9<(%QLt
zrqsHB+4EO#<QL<WQ1tHA$Dw|MSTRsDEj^W<_^RjL(4&2iIt(k*a)w#60;>dFJcJFG
zyxlNl`Tb{sNGY(V<k|zU5{NAOX{gZMaF+0bvRDvP8&5qvk*En{js+&nR3qhmNEJ<m
z$MGw1NL6)u;A&o4fFwU9n(~$suTkTc{vry*EEUz(UUIdY3uMmg%mtl!Pq!)g!h#;0
z&E&5nGqk>_<(w^$WNslvs!nf~AbeI-l0s5RUPz=i=E0co(y#mqkY<i5HOWo3%?KKt
zQ8b?ims9PkLv=nt(}RcR8x5+Iy7UITMkiV`>E`)nGxKhmhj8n9r+K+dkG;6d+}4Az
zCMkhn2*Du)!w5zY90ox5h`LPOYu*6z($J2#+nja|Wql3+QkGpbW$Av5wpz_m8YLK~
zw9u&v*HZh1E8Lz6*Hhv8*8;Av-ykmVh;Th=DTT&M>^Q&;iO$<v=<V8Ykkd$lX?6~{
zsVNi{-8YvO1Tn|U5aUEyw_F{D|A@|_F;+v8th;C{Ey%iOJvGxk>jw|G+3?4_3|1=Y
zuH;A+^VWA__^|G&H%9c}tJbS`CJTkkA}_(ZM5z`GA(c$$V410nwPXwElv?%A0BLH~
zY~ySz=LNbA25xz-b1GN0Np8MsyBoV~wm;RSx>b+rRaw=i`qjXLYCX(At@(;YnrWAv
zeqX%BG{d7HTN*_$hTu&E;|ShDa0~&p%HxQgK=3w#lL#gdoI-FKfbOh@2^sZLv)lUH
z4Etw+wbb_-1Evf7G4zzP0KjVZ*9$GIjj)7z%nm$jX)U)5YAu6Uk8u!!xwiGV>k54C
zyXC8}!3x_^Vg2;iUSY!(Hd0}CQ`kzIZ8ggNm)%@7t&217#5=GU&n2@W&+8r@3Ra<*
zL7e4zxKznhIo5Pek#G|sWzFX^v|!a;1u2g=n~S<#DZ;s}Te1s!d+myIqF$W5Lu(US
zh)9^(N|<fwq09Ngdt1(PsSi1JD5Fzzx}6>((jbz;XX$OgWqSW}z8ZTaj1s!zGF%De
zCEY43l7wp4ebs_KC1x@_4<%76P-#hY(%c-3*b)LXBAJ6T=i8eED%hU>e|h)VJ<r;s
zh8^C9gY4=uoQSzd+koLl%tLnVeu=$|cNyY<^OCinWuCeH%aU2--aAzuoYV#<OMywv
z{qA!+ve&Hjo<^tL?pZyuM&M=m5x-o;gZ8$E!Se8=HaxjTpkeH1>>c-7e;2(UH3*=O
zTK^RNV{{Es!?DNif9Cb$D*doZHh`=2W1SYjRr+C-fuI4a#JapIX7~{Elg@4<fEY)5
zddsm<EjIe7Pm7%}T96ndp1^YP_NBYMx4(Dm`>XcV)V;&2bH5HeY<(y{I{on4@4HKZ
zlbU;CErh+_W%h%jxYiZ+4r|x}hh?;Pt*CcY!-*{y@dZDhx;16EvE`|?yx3w%TjxsV
zPR8(I%TGe>D}#3ijR3Yd(%NpcAQr@hhY$;s)?F)8ccxa4XyJWEE0Q84+_7@(&au@#
z4YHCpB(+!NtcJDVUZVp^yGSIu^3k1-j3~A`t742UZ0#mp-Q~{1TIb=1g4Q{1bR#iF
z_8s_l4`4K8Qxk#saS^OUKa6)hiOqLC3G=QeQNQa!ele4j_ytkQi5a-K+;lgjJIn#P
zyFP+;*)T-9fRl~yXtFES3$snvN#<49fgK4j?@LX;KDwh3=DKSW!|fHlz|+HYa8XHT
z<V1Zn^m<P3uEm4zh*B0#8q<;G@8%$KV4EsgIsjj7>KyMZbk{L64xNya(8SbHMqh_y
zlwsCfgz^1@ocxNMd}*;TmX{8~Oflb(55FOkFC3zU@vMGO-aD!7oqS2KMaBLXJzXIQ

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/config.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/config.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2e47128d731049b794378e2f6ac96d3989e39cc8
GIT binary patch
literal 37749
zcmd^o3ve7qdfw~{*cY%1EZz@d0D>SF#DfIEhbT(o0|cLfD3OvW=<L-JGXR!c?BZq@
z1POsY%BL%nbuN>%uZmFOM7Y#BN0pQu&vtCtaq4t&9J_o@d6!^}y^U0dt8<)ODwQk+
z*_T{Wm3)8q%<Sx90D_VzUz{P)+wb}N|Ns8G`|rPdzE@V}7Vt#vUyVGtBnUsEfcDg@
zo@K=;2)Bh71xb)BQDMR|Y_X8v8nsT?hHcDmi`pj~!;XoP;Sv_MM@xrGk;fi&PPm3$
zEY1;iPk4qs%wH1qPLvIoO_UFpvv6tDH{l=lGru!hF;O{OIT08Ru&^syHBmiW&HV0Y
z%|z{RE%SS#brbc&^~~>$HcT`QH(CU%Ap7N}cPt$C;bw&E-%%T)l)4D+vgn41mf;qQ
z;8OodPf0$x^!$L<@cggjmp4ik_^ZTUKyH`pGo^wcRcXFauT=epV|bHPV_sfvXZd-l
zTGUa8zk0bt-b~2VYuh4MbHDaGYNhm1x76^4eK=?pjtElY8-mm%+upHp=!QFG3yW_?
z{Dya|JXUMz@K!ao1*zhS)Gn>%`CsX2sTFM)=Jgm|scn_`jjP1-*0!&ix*9Gvty!vL
z&D70nrfyj?wMy<9t&@VFWe<4dna>>;^nS0@iTC#sO{D#Rpkx(@w{q?PT^^RBYn2)}
zg}T>FC5YTo4<OoR;F1HM30$9sb3RR*R`$HEQNPrSHg3<i5!gS7{@nhVv~-&$DWspJ
zHdjg8(dIsBwH~utUs<hpuGTLfRiY5jl}mk)c{@ObLyz1GcdW_L{cEP0@rGC02|V@x
zjKH!Bu<VpR4gV8<OQhYv?=HFPeB3DIi^h*Va+mysv}Yfp)sf^0j3j$kj3j&2)F+X;
zZ$;{pm+cz`S!@>+jNWqd`9mw;D3xntwMBSYxM};9?@bGrY%dGbmf*mTDSOb8bxGl5
zcqAH5BoHV)7E2zEO-%%?S?6<;$w)jFj%FP%#^4!3a`~yS5{^dY=%ILQG%|)<-Z42D
zk|slAN_=WEyMaPUIhKekp^3O8M?;fpfshi8T|f<<NGy^JMdM>*vV!7e&mB4ydiHE+
z;LOXX4xiS8r$@%+2^rblN2uP@<KamPiR0l!XcVB1M`EM05*nFG65OHDse~-yg_Ng~
z@+6f=G9C+Ekd>GmrFPjzq{v15`c5hGNF;&g@D|LR84O3FvLq(sVq{`6t|Y}XtgNV(
z?GaB!<#0k4C&CwGF)^jc;^p|1BJwwg7iEPi6C(+6Bt9`2PDai}<({lVN?x9nvtGaz
z8lBt|n%)!MlP#xEB$i~s?Ys1Fe`vZtjBr_eWHK~yDU@K1&z2~1a!QGfI1FT^i3m+m
zmT5M1TbQ*dmdln|D_rZW4X$n0{<`I|eO5^7h0d#!7d--=3tI#MxgD47!IGJO;TG|{
zz+NVX#ROUw8xskmgp`qZ3^7w9NijJti=)6*EIc725KdBBG8~B|D2Y{)oQhFd5GO8<
z#ud~C@+TuBQ_-*@esL-sOGajZBH)X+u}2h7%W6^Oa)_8G4yKz3M~Rpr)DI>@b)rt-
zp2^ES>{VH(j#sw<r{q`hIg~9OjmE>t9ev<4M>4LAjAtDzCg@NqfdwT%P8B)T<kY}P
z5Vi>);!j`bO-@YqPDUoXlVJs*bzhp={luONyXD?!<XrFM<>Yug)_XA;o#^G9E?<(t
zk8!0p8oms!=+$BF<?R6I*=p8C9u6@c2?4u`h?lm}+jqjbDm<tYoK+cL{r6q98DArJ
zGp?GHt1agg{8brO`PVkx-g;~6Jy&zCMDW*VJicWV6tW(MV_tDKFo_-#9zlPMUyx%V
zmX!5VWPB<a8W~q(Jm;eEkqe;&b+HjURii$H3C3%G4G(zD_Ie-q&3at;CE_^tn^YG9
z0#YS5sm8C3CfD!UHF0&tzOG!3S^KPG)Os3=pev49;i^@##C&UW@fADZ@f-3Op;sG$
zJl2Qi(cc|(%p76dbtoP~&rXWZ#t#?rEricl0vw5+F%gF>7?WeN5*ZQmVk*J;b4a0n
z_hUj3*w3cKr?a+^cr<8J$`F-xpE~?P=*;1v)6cz-bus^QCk_t<OB7-QWg|K5<ZPnM
zrD0B<Z0R)jBuWs?xKvbHC`ThFCdtMzNWVB2$2_yrgB<(um-ux!SA|@S;0&ZnH+(<P
zk#csVd>!8pY)m;frhFSeE)fFF^Nn|&|N4fzue@LJ?O(WGIdHA?gUY5Aaj3%^xOpVy
zX-wH0a{(bxd#yCnuqoBheXIR<_Ac%?n%;5rTImlx8$PHJ7i&7xHJ#Uv{Ls^A2rYRk
zwem_U;2Oc7{%CBq3^@hXlZ9c6Bn*QkhQVgTcF8vEknF=Hk^`&Yl3}M*I_$da47#!v
zFMzcnfu5DoIi)iY!9j2=>cG!t_VZ&N`Y|zf(DGyA82k{ckKqqb-TtAVJL?RENX&&o
zS$BvAvZ*Nfy&*z#R81)zkVnH)(PY;1f*gx05L%HLIqM#f<w*#&3oq@+mYj@+C&K+%
zzahg=IC4?W+Rwx%Ph>qW#uDgsk<o}Oy)7^_Fmfu}00?u!@FWNcZwO1}l~<1}Rn}ZR
zfj*C)<4a`~R|l7BL4m3zkMHWhQf2k)CwL`Pz5t<G&shE`Qt}9e(m_S3>^KiKMDZh+
zum!f2T)9-T(S!vAaLO)8i?ge7ZrOu6>WXVXeurcoWikOZl&HDOR>`Z?TB_zNe@H&3
zn$P!;d@jm&*$T>54ARJke*HWRM+0(VWaf*k%O5E0=n_(t$Ry-B8_Ae3XW}3}ndlME
zjMIQma}RMO920rwb9^L|BNz@b_KhSX7ujH!5K+mr92px=>cWA>pR9ukU8REiN5WA#
z>kCIG$HO5^pT-g_!a6gVwV#WG6G6X1ql2=GoZVEUG!&BJBcTu<%$h06hS4PJ3x&e5
zSUkyJj`V|6gv5?=h#V3g*^)DCmZl6)%wci{$$5qx>W`ce50H<X1pWOgoUaHE>^6rp
z=NC3_y?XfC&Kpl&e{wF6_B72U)1HkB_Rd_TAhsiA@0=a63-*l|vz~m0vfiw|-E^xd
z)w1nwd#Ykr+OvDX{xlN1wq1Sh=8Lz#aO(^61L^853-(?xc+1AC2d_D9c&~eJCezNw
z1$!GJTQ^-DxVGs=*Y&Qss<gZLzP+7;N&ptHdj}%uS^fjGwV2&yy9|~jhG0I%)Xc|N
znfV-ytxDbyhM@zHN@eGHqF2!)yIJROk~?aZTyNNQ{g8*1@*>u4h%M7&J%-qFJ=SZ8
zg~kl;r5ef%v3@<a+z?yAVk_kU(|T#}_zXF!^m2YfY&DB@p6@DZ7=n^kONAkS?K<*T
z8uHhzBY(h<zkVJ0s|@)Y){(#3kiT&q`D+aMo7R!P){wuM<=-IHG3}yNsyC#ytfMYy
zBXtfE*O9-`kRQ4L#;0r1vdNGiTE~axZ#LwIeg*mSZQEc-gD&!+b+s7sL(hTy#M`1F
z7FrH9w$%^|9f}&;W{8CbMUCBPhz+t>x6ZrmhO|z-#3n=RRz0@E5ZeXKjcJd^JGI*F
z(iW`qyQQEUkUH^KD)-0%IiTtedG9Hawjxh2bP9pue8|a$L={%2)Qz0m<N`gJQD>I-
zLwDI@4xLdRNxiaH+J?XFa)Dfs`s6;8Hsg{y$*ID$V;y<=SE+@yT-v#2>aI0Ycdwbc
zXU)_n)=b^IX6ln`rtVua^{F*epGN9K#t#X*Iiu~;GjBL_39th*+5_1@!E^=75-f<r
z-@&NH<}7EhBsa;BUzkHz!`AI=@u#i5NhLEOC$UDQsST?rEG95*j^=CQGw6e)_=sc4
z$fgoltsi5H{zN2^#H3~v#iw}r0w8EomFN=VG3X00^O3_N<A&Lg7>-F|LQYb7eNx1L
zI7}I}nhXF;OeK<}oQXmu6ibR>EV`0;m5;je;cIGE588&=f1&astXItDeH@VtJWL10
zX-wHvl?Kh}dfcoY4HQ;_a0=Wf#4uKU@mTaS*N{*H+4=wq4pn2+rD`kWOF&#Q!K&Ia
zs>CM>v>3rIQPW<Ls$+EWmHs_H-z6&Xk%>?^0^+DGRBIuuv6>1rTTDv=5T?V51nNA;
zCZ4or<tX5j)5sWBC#13A)6;@hsd(5z&4|UPgN!)isBHwwJ23*KPh1=VAytfk-%t}_
zU}Q>BKn$QE5r;ZRkx6ZY885U&z>YZ0)I*pVpOZzj0Lhqi?_~|>#w;52Bq%YJ=BP|e
zO)}M6A~F$KsVYi>{p7KToM%^&GnLNBU83AG)+3&agN!OqiHvK;!xvf0#RMs>@{4o^
ziO5>Z3K=KstRQCQ9B0KP3C&<^`O=8Y)T6+VT3M3T1o#g`YorBhfVsva)B&Q=_;f-9
zONb-mn4Zhg!u1A_rcp=~v5K9X!eT)L@{{sjq@dmc920by;-lK>@MWY$#^O+vCO{7;
z4@WM@64yd>Qw8*H&U*~&qf;@JP#W4bDWT&Ny_X?$MpokDWE|>_M3>siv1t5UI12q8
zRx8NHmMiEK=+m@F0gW`spb8}ADC!1}aQfz<8l0kNraVDqdAj6_Gkl?dC>}5_q^RSm
zwW$CRMwy1Iiy@aQpJ~N)qMK>9@-O{4z68@DROByCMHH^)WQ-CvKtcj>gz?U0Xq~}D
z;iw{qrOWDD&&hI3BOtwjMf3g#vd9UI*NfE6ynX7Te}sD1kyB^H=T4tiwayyV4j?0>
z6Y-2VHAx+DIzAPZ#7PC%KL;FeZ8Vl}05J}Xoa2kpg3e8HSOpj8C`dBMKZAx=%VLnd
zTFo+-V<NgcxDmQvCIX4obu6wn#t=i$n!7iF#k59^tSuDYPEH@3Y4T0?jaUo|5z^Dx
z@V870RA?WC^M*vtt5hMLauz+WmmY^^LmNte$#Pk^3@zNyOjQJX7h~W!BdkFy*SC?X
z?QQH7B;@F5f<RGqYh|I(BqSCz_t>}y&9rJ*G7Ka=1zG+z$|h)vbydg&Y8L}r?*+Er
zNiOz2lkR;c)q5l-SY7Unw{6*m-<0nNqEdmad?j0pQbPrJAV3%%NQ<``9?WoX8jTr3
z+nz-^t|52<K10Kps&S^ptT_xlT#fuaD&&WARao)`Zd|&4>BcW!|HYKEnE_k?s!p;E
z$i5n=k}zdCEhsM`%i9*N?JR;T>y0G%pbmYSG-JlNJ;oe=fvT1R8ib3!mb9;BKAG}u
zO*uJM&4E0%29Rd>OxjU^J?Am~Dt>53MQfIw<NP4<aIMQ$@)ftzk2XMd<u&v(?PjDX
z&b5HLmK)&|(Bm5oi>*7;`0v}9a_(G%G>@&-$`?!;$vW1|X0vt`G@X-sk!tt_a$4bh
z&QuH9mFMWyYg3IW<;@924Ki-5{D;5e*06q`Z%rqGQ_O>9DtGZg(_FL_WcdMVNtklq
zu5|0Jv~O3+xoZvTorE-7O)!}Cxz~TyT<)9YeMtX=##9;mM75dd#V=58``2IFd1eL(
z+!>xnDD5>AQ@vx@DZ9+YXt1<c-Y{A-p+j2-N|2l)(zA^vbK!5;5Bw2ICdT1l*Qi7&
ztGIFW`q3Lh*N0Nxj*P$Rw)2+rcKNOHZ*(rU?M}DtzUSXv6uT?kw(FjM*HTs8?W4Dj
z-X6L&v{==VuIjjB|CaM@=eNq=E??ZTH@#(VD)3~=`{Yufb`9QH=b(a}9vaAt+ncQf
zAM=)}V?TzL4l}{DGT(or`p9%|C3G|<u+jMs;CUp@-j<|IC-$tL6O#JKW42qP?YJiR
z9<Aw&$*kw7;}&+snanr@pt5e*NMPeXj5)AEI}6Hja*CKJ>kMy)wE|WGGfifw)KWh}
z+2tqT6pUFZ-==pP?hgFk(QhC9y`gUp{hPyoa`L+;?+2exIiFAYp3gjFvhgYAMQrk+
z&5Q=j+T{Y|eE(&pd6kCo<eyN>Dvd2$^leW2Hm97M|K2mp5Mhp(MWL<JHMyj3O)gPW
z{}<H~A!o(#{}~XQLAwgE`_?A5mMj1aC29)b-!nPDW<u*C?ev-gKufg~<{leq8MJH*
zvsgYk0Km-TOubnjW=Sxe7nTcGH?LiPE#+)@EIh~n9V7-S2DB8=kp5(*aTQQ0v1}!<
zSFT@4Ihz=;Y#X^?(yTM(KgBB_X>jWJbc55U9f;Jac%A`ihkOOjyucYWi`<&ee3@v>
zQ9;<__EpA(Y|$X}-2LF0l=Do=cjj{#fEYiR%cQaGA+B08AAt1a8tPg9U&tg{xvp=x
znO<|a(NY@-bB|3XF=$tjNqwu!Buc{389|w%*0#ba=+Q{|q{<*|(!&5-MF#b)C4+e4
zMgk5;nM{EDe^}fU@zyHhrthKR#*kw(A?h_#M159NTt#y9tt~mU<SqixTyp4&JTik>
zZQw{!F7})!$`?HbeHct0+mOm8h}kk`fV(Fo_fPB?jTOsuW|3<y%ArBlEvdHw^aL4M
zu=NDj_<dvN;>KNR{C}7Z;<Im)o$QZ`o02Ufh$)2`f1B%83bOQ5t7?l|_07Fs-<$Sz
zr<~m@#eq(zH&ALdI+?BbpoA4J!6ec`dUX@(nUz_4?P;X9x{jn}5!b1)1>{#LSTyfp
z#@91#W^*1RYPRp%L%1Q0M!^blz6xu|d%nRt?cdt+_Lgt;yxsGMhre_D_m8JL2UE_$
zHSk3$jZc6t9EMy!z9b9B3HBYb#3B7}+YGvRHuM)`qZ(kXi4E1VeIH?C^D5Xln8(I@
zgXzwLDd)kJm>`<l@VETesOq+0u+XM`6SZe2vS_W|%aL1s%sA%t_9V>U__O{}NnN+5
zy;IqX(k9w6(|7JJc;`Axt$b%9Ac3wSUAF=VOf+t%g``hw;d#I2%m1#w)$4DehLtOp
zS<CC*S&Nw&38k$Edg8<KP{9!sn8TLhv`jdOBMA9zBDR`8iiYvd`)lMQd}RG(#Gsm6
z@bfK>i{a>$3{}c$%EZo35Wk3g=Zr;|3%&v{_7gjQ3+1i~f90#WnM^fz-}m(xREa5n
z=kM%&Px{XI?~i{c_WQ9vAGyEdg@+_Bb#&ge-}i5Xp}N0n(btytwWXYG9|wfio<;HL
zwD@!;uale~_~y~CAN}Ug*N3nr*IIeA3`VI{t*Jm)rhWTj`|fo6?wijpb?jjEVd<dP
zwz6C40{Qb6Fph~!qm%v0O(H{)RLS~Cl(KYw&S+-iYVy{Q>GWD6=8!?e97%T`N;wa$
zfeR5pttM=ZLedetNNqT4)&_QTiltK<`d1f{`8+>IEhyd=+@1DyrktG&TDB=VVw7(r
z!I)H37|2GcXeI~Ik4?r-#Ojg+)u<0*by=sy;na-fUCTSF9{4nNsAv9I-LL<Q&STLL
zkxy|Zixq#wb6Hddnq)$J(a|b~ZzPG7WRk9lkxHZ|3}Phf;igyYM27j6g(1T$MD{(X
z;;QhmSMYDj)Hg5Icc$w*GmR~ajXmkcp1h}F!(u~Mx}hsmS^Kf4#P7}tB`!DPjjVej
ze2E{NN@U&R5lO-cDk(BCLhPYE`XG82F{^R7avY>LGMQRh={9GdtD5rOgtfkadal@T
zpejGqT4(bItsEE#*bypoW>aun3P&+$<H&Z|612~}q%#}LK@5ldU}Qo@HF=vTZtWwo
z(+bRHj_i^2!W{YBa)qcr#E;ro*$?+Sl$X(LMJ8txIW&GMKMw~do=%hhACvPIoUA33
zE#(_E7qX=nLP?xBOsqKX<YBuG{Ctx+OBgalh$U!L!!A~(;Po$hn(ld;px;^ab=>oH
zWNI51Yd5EBH>YZMr2ISJW|~_Uo4eD^-M8E~EjM?6(6C`{=FaYgh8;IcGj(nAM^d$2
zDSua{qI$8S<6cDv#T~f$rIf#8skT|$#L9YbiZ-NL?-iV@)7j<>Kw6b;nm|M&vmq}%
zvpDCe&kF3bc9mT$W0qO_Ke7C?5)jt{IdWB}&cjH1E}VqL7%Vbr8)t12t43j4&@eLU
zBjd&{vD1L)pn(a{n;Ff&0ie<88IgYz{ye1>N=lIQBd$@6Z2~Ghe8WH`u&DuoNyaY`
zp=o^wLRaMpP2IdR-Ozbw@7<Y&hJ)8mWC9yffzFh-6K<xeB^BtI-<l5eq`W;E_4tZ)
zBf;BF4r5vx6_hWLL&LigBj*Y^zf8^rawf@{Cg;oK(Ah-gbvRisH%sI;H6x^8(4I1Q
zh|tS4+!Rj5^Gj@v<VwjbCg>L-AL$sTVSw_R=Jn_E&ib!fXN4<%qh=TKg4oH<L1EIR
z;!0&+x+Gm1kh8*U#cau}TgzLNQabA~N%7BC;!vk^wtUw6jyfb7%2BFg)-~&!Ez?rp
zwQ99o3Csq}mI1SDQKfEh2F#}EvsPMm={d@^7UX|tZN?lJc5UHb1Q+T(<_I0>gpJs_
zsYq0U9MtS3ndCFIBhIsZH@7U~WZo-kC+G|8%|tpH-owml#mJ~Z%rfIZ9Sl*Nis@U`
zWY3rnOeztCVfTkV8-?ArZYSEtrax_6VjG*vwP{A1)W2BNu8_QAqEE|!P~XIkHf9h>
zrhLq%4^#RG!~s7A&gS=dQ7<wa7_7sLEjO{~*;`<|$;>EeWMSr-T6?%@x!&w<vf?Z-
zqyZYaIV`usqzcR|XnVvh1ixMphgG$)Hb|y!(O}?UAQ6j&)#nViT4%xT=?DxgRm2wo
z3S;<K{>VQ!Aum7yGm6bOhF4=m7<MO^@H7Cyr7$Q9yJ<|@C5G?m?FFS&?e;@U^%+ZP
zTk#Jo6)t#Jc%APG7raZ~oG`phH5)dfk`Fn|s9T)gE^-@mS^^XhYfRHuK0;-Et5v3N
z>#x7E@T!mjIot@~5h`01GIjsYP?c&<O_uqDokBa|0u*6KgED`zva~^JD2Z1YjJ_HB
zk?yLO6q&1Zgl-W46jsvr$dx=zgOGBYoPPiZ^KUF@xqQ<7kX&!8wv}u*pXty}A$QQp
zO%RS!@g8zcl5>EZ!ZAEp^;wVX${l)37dhQ<vR*D7`J^~eg(wof#ScHVZzn76nL4xO
zIHlaA>5Ll=mNI88Le+-33-9i@ALzaNWKM7#vbY}zj()6J94>PFZY+0@CHn56`+;qD
zPa^6t%d*puC08zZ>r$SUOk>BjlYiB?E90$A)pw<Oo_^m0)kl*%?X0_2db1Yy0Mu>$
zz~4H*_0IHr&i8{0{*x<08GqB<*!-ot_3s^ie>VzOl%rHdn@Mz;tImDRiwT*(Y0=l4
z_VuQA3_@uO4Q<Ldi2E%TeO+l^S8Ch-d%pcC=l+y$KZ_(YnmbS4W9s~rZx`ZH&PKL4
z3swvb4h|JO!TzGd(aI5`2;+cb<fFNE*2z~k$;;eWg%+9$<C!)}wV#W}qkPgzD-#3f
zoMXvRoO;UI&=L4-P^LW0Dr%g3Z2HHhglrDT=8A0k$7X{x%T;E`VG~9+iF}=cY?}BL
z^07%ITNeKc1&MR=*ODl66#R$e{3AHH&SVP5q1X&s`6fkpVXK9UR`|IecEVfv=al;y
za$3o0A&2z~a^A#W!irfLo#$@BdF}y=;KniQhK#GB$o&ZCz1>(im6YeK7RQFU7vFm2
z%~$U1NH_P~tx7lV{769LvQ0~dogmNHH78M0m!8z6C+(VVr=(qa(k?^Nnbnh4Ewy_t
zNu|Jt>dSYl6*?Vtb7$r^zWMSUfZF|$fUueeKCq+;>imE?s8%$0(_39{cA<C!iX*HR
zhYwmpUVO{k&bRixx$jOplnYeP79ET&Dj1({J&iY~ZqMGDotM(Jodi##4o{<w=jOTU
zx0>E;x?@k*cTt{ZJr7+eL+v7%$5Wg4q&GbAxEua61TdJ0^X*DrvN(D;oAv0p>e2Ce
z#4>LuJRY&=iAOAY>LE4tP(JmLmg;wGoJ-7~d2{9?0baE<e7Sa&y#_4vRaEsrzVLun
z*y7mA-@8?R?bck0*WsS8{$}IX8*>7@cLR5m-)>kYZ?37zQMXi8n{(h7&{fyvO3CLG
z+`emxn}@Dly52I^pLVq@yC}NLhup~Hz^|H{d`>FoBA;6=Hy5~eCGBdSx2Ik0%N|N;
z6G|$Vw)JP)gPGQj%$Baqfy4A49{dk>=l^fsn!*1~LHfUa=Yx$WERLp3b;IpfZoM+U
zBVFBro>$$Svr+U?b8F5)9>CJrk}G9ir%=-{xAE4?^T@X;=VEbgAy7Bxc+2~yH`THG
zy{c5*Q|Zd5a~_uFHBBpHY2`?}-F2%AbyaT4`B<F4Ag+SNRSH%0xA)!JH{YHPbmRgo
zuBsren#I)=#MQF6x`McR7S|wD*3#7&z+Xjsu93wx6~r~OxDA58`o`?_**OW@8Mzh~
zCl<uDvbZ*(w(0hTTNmaJrE4}rEY<Yn7+%3r?v{@>Q66HK$_G~R^5KDv3}zaRyk0}s
zb&Pm0dT38MJWPM_Dm>6%Xz`}%tF?{vp=EGEC*g)xqIA{<%>k~2nk|8f+{-IvDsugT
zCRJk@=F?L3d@h@@;%2bIWi?JGQk;I=n5JVvkHVUpACTDyY&Mt|%^~f47-i#YGays0
z!_lfM(hn6DH7JR6WF`oihWR0%8rEyKo3SIl#yO?(yU70o%nB2O@L*~v3f`7Q&qmz7
z@`1B#(b<UWQZg0wnMyOasW(#}gvu*dFL>LRg)(nRPAGGfFcv7dXpS~h8C7XJ=2KIZ
z>6vEj67<jS+TL-ZN<5&ZedZWjujiGNCe&n0kGwJ(S`v_xMHbL=a0mw>%ow<k1UToz
zSUpd@uL2fmC|4_5tf6e6S2LTAm85wORsA0#jk*B=C1jp7H{93VL>T=)5n}`PA#)Xs
z7%n1)OC<)g=FDpn3lzw@#_$qeXVe%biDK+|NBvzZhNuB;q7|-H)4=8PvsC0js!dA;
z?NnVMquuilr=3xSRZK#rqAKi@Yymi=ybI{xw&oXcpjn<ex^^`|uu#Y0J*LU9d%2P_
z{}Oqtv3-&_01rA1_5oTx@HQ_PTr6jjch25TzIW#R-3#6mNG*!_*ySJ+Ikf&#imJ3n
zr^zg0%xMC{3a|z}Ml74eStT3jf{XO9x1;Gzb;^PwHtge2szXb~WqWzLIDUHK;dJ4+
zUk639Y-f3ofiMakby=mW>9k=>qy!;|2!yAAM)dYQD{1r{WbYsv9fk)qs^c`88(Z*p
zFluPOk47i9LLbpp*{EA57M((+9hm%}rK{Ef2Y=4f+O6opKm{UTm|_FeY$-a6W!4Gx
zwK_18Qd#*|C^U#+p$)%WOOR(`Hp;{(A&;^mIb~C*vb?Ygx_C|bO72j)SxuXeke~)L
z)aTJ(tD0TVg%brs%6E}>FJb-!JlH&G61=s)(Vg~ePT4o7Jexo8Y~TY7MvhE%YhHpu
zl=*Ave^V<HWi7c{Cd$0jPrO<`QF$0u3j&Sg#LLV3;XG_y0a6LUkU&5<lSPsZysjGh
z0LhM-<DZn*V;3j;i-Zp;o-m5I48rCDqWGqcK3*$DbW-IMjVIX5%xB9N)hV`O8?%O+
zE3BZ$AEC0dM324jpeNwAMRgp>IDIPmF}~~nRrJ^8su}t{gno}Uk}xgA>!_$;fY%A}
zHKd>q*k5-Vwv+6?D#XCkR~&g!W!N}!fYUWmruU9n(^wKyv}J`MM$MV8how=^v1w_A
zf^25y;l$m(tNR>oM_^W^E9QI{sf%dLuhTeSxKV;`C%`F!ZdEg_-A^!t!|4Zs8RZ5!
zG$5%rcjiZ>w@VC+q9d6}zN}}At}W)<mn*2=NN{mmoRvcGPw}cR66s%n2VJp7=-r#@
zIsCQGxeMva&OhzHdIG%>(s2I7eeX8I@7(D8g}Zw&cI{m79wTXK3>S}FI??bBoe};V
zfyc)PYnzX*&Lj^lSI9txGnCJOfr?fQ>t`V4kAY9lISzgez)6ZYKu$9`UnS??!ZBqK
z^^)k74Dx3v@fBi_VR#;aL4HGi>-?MN?`*w$>HVtrrxv`=f=O1y6*CInqd!jgnCPY<
z$9#(Oj+!|yHCD#V3Ruu-(u3+_53__)WAod<G>*=!V>+|iG?U%y#5Yp-W*ANf)2fM)
zg->Lx`4Kolt<|O~wX7JsRJ?Gkq;B#i;h)s~kj+r37tbW;ci;DJrM^kOMJUZS4Ze8#
z@IdI<=MINn9D4r614Czy4I_N$xuL;hM@CSm{&-a1@_&WLc#EZMld+Z}LkH%w>OOv#
zC8hGaEXl|2vSj(#<*Tv-aqN0keBZ(@u?tjj3!du@K_eBecP+)emHDs>VUHo~M%Zfz
zdvMR3MaIp%_;cW|OfJLwZ0c85oRaab%5voOA&(z_6|zq%!@Xxt$#`p||8gK$m95b>
zMNSo5IG-&|LaNd|yQR2uo_l1?gCx3So+WV)l9;E2Od#b+x?MHehriIdFz!f-Nd<>%
zi297b37xCi<-lNZKp@+BFS7+V_79Yz2Rv)lO`y_<Q2vq}66XnGaLv$#K+?cbZw{O3
zG;ei}N#6H}1shNww}>aLP#71V-1GIqob|-lPo$i^d{wV@D&!RK`JQz&5smY$);OcR
zrhRfUdI`(4@1s&>k(}Z-`U!5zrCr3IzY3&~tgL~?jDJY2qZ9w?2@l!~y5~E7XJD~w
zf4Xb``-ADO<0<Fy$K1ji33oYzhsJSrZzwsAA$@Ed_i`y8m^HSV8mkpZ>MibCgQP2R
zzfaBH%$f}yXIaIfw>|BpU5~N@78pD)`rFg~_SBaBY5)G5!=~CQJ~|Vxm%^1QfVhP!
z6vZ8Ev60IUZ##OI#?I?#dp`G{P}^yfs(|EYHIk<W&ZfK0rkrOP&6QeYEHK8@S)1fL
z^<K`Z3KSSISAJ%z3Arn@eiLRe5uzL7xo_4sgR;1N9*Yh#lMLE;Kh|y#rxg{Z_$mA-
ztYhCN-vXSh4;QZ|fuN8ko{SMBf>w<2RfZDb5haeVSV)sITUX&0v&`QkgguG3V-nyL
z>RRSoe{J?w>;2%7h2XJkrKBT=sbace>os4dp_TdWjHMfPBIw&N?@M7HRuvIhrwVl_
z>r|y`C|gBeHpqXygYRb-U|d%bwnM}K<0?K2B&78`;46Lz_rN-aFp{N8)ymm|nO!y3
zBUY?O^u^?P<BDE=1uYYy7Exyv%%H903RKC7=DblG%-Bka!ldBB3dCw=W`=bL&35pd
z#!6o`CM&t(oGrcL%GbnHWVAqa&blNlQy*4Suq3>UF`X@HXi+{ucW_QbaGM}qhDew1
z(U(<JMfQ|-=O*33DbbyZWT6#_LH>xZYV>+FZ{YQ+M!8p+ew3)U8P^RKR@#M|%C&dW
z6^%M5QTd`AMSk4LsTGMNCdkALQjI>qK`$SLUt(7pvM*eym)=oJ4k%;ljdv8HM}tt@
zg2hg7uMYC7sGshF<eyNWS~ZTRc5{_}T*+H5QC(Wg^t#lDPg0i|SBqN;M<alH@#M*8
zSE5fx7ePf&{M>mNUq<0KJOY0GYbfHY_)H4E1fv=N>;33etW?8e2FxA46sC(!i?H`|
z<G5WA$idna7eB^u2ct?yA_`r&hwC<FDNlTYCDH?<!aQe)Pl*PWcuL&f1#Jh++wiu_
zsDi#M!-z_AD5HTNnH`3sU=q-X6zxPJCcxO8tzd|42I%R%hnXd?sG*P`1k6Ot2&^X=
z>*9^m)FSm}d;?tS^|MqDJqGYuy8)sSxflsYi{8obbLJG<*w-Zv(C>Bz>|yc_hNB6&
ziviB1mfDr54@r?xd^ZRemllvxk}pO^hz13*-RLY7FK!d}itJ^t;ceTl@E5)Ygu>6>
zsQP<*3(8Z2aN8iJnJE7n;ThMvVko#$kV}8dcH>*Nulkmv!iVA$>{47n$nNu3FPNk&
zT#0~eU=jP&mS`8-5@ht`(TK({H1>TOG*XqH2$dYI22>U`Ql*1AhEN#TTD`D}As|S<
zytYr2V`C(DwJVPJo)WP-zX`1Xiv_??8x2?;VT|)o?tJWM)flwjz@Y2Js-djTcIzzL
zXDHjJvFyVLqEd5*q3n+JmVIo*?AJKggqB^r_oH3KqUMY;^=Oi2JzYe@3l}i#l?B3v
z(WZbY^D<-|Ww#g0A0tk+a~;eiJTV!CYW19)oTkfesdua;NK`DDNRrPDOGd7JR4gIC
zE=HKY2*XA!VOS=$@fu=8Jsy)sV?k}i1?xp?A@3Ok$=?Z9nS3c|%i6qWqzKBc;5}6q
z=yJr!^G1rGY+o_o7R!+}%I+vG`#7m-5G6!tdiYT|TA~iZR+%jzY1wF4Mc$*}zbA)j
zi%6YvCRmcKF`q`#C!>XI8O<he#RUJ@m+}`>`ah9FrGsweKa>B*<op+MSjG8uYaR;y
z-3eOKF@TxFO-5;BD}ODOHqAT4Zo}^(Gv&Xebtvhvu?~I7DpWSi9fcXw{1?*|Tkchy
zO?4kw>^__BK6|ZXsj>lI3F~{}y#v3s^=n<f-m_TQbFZ@J{q6X~SmXA^#=&&sV8&Z@
zb9}zkXpH;-pS-L2AP~&dwHW@_XX@%RwM`kZe^DGrivu55xT?xwK2cWw04Kg{u9aQ8
zh!t>vURYU=7x*@1s;b%l#!Qv=KY)$PZHrC&(@pzPp3Z-|RGrFDu%g(Y__qj$$H=)$
z&QWsc&^p(DeMr6~a(+b4?~wD`<S>HJM!2axE~6Pa?-CN1;rWWNRObKk$;@ibl9y7e
z>lW;FOOCP!u*lt}oBnM>lS|4e?nK^J@C3INd|<UZ+-gqva$Ys(%lVuyvz(PVtJAS9
zQ&E+((Qiu||Lxw!ewSS3nxWuF4x}?XGFF1DX;C(6akw*;)j1pUw6?3BeaE?H$<_Li
zgOXUm2P`|+=nxhP)ZgkVURZvW=@+z*z`e+o-s@3+ld7Amze~=Sqxzx;saz#)`gx9F
zH&dGPFOfNiq2xw>_8l?FJzT~@9?}#`&S5CEk>+KgGJG`3C;OrF&MVL>5cV0ul?eL{
z;Q+!FhHw?am4<LN!U03L2H`40xEA4RL%0s%8bi1q;aWqu0pU7Bxbbp*upwKnt;BiX
zR(=zW%T}l(8M~^Qo!jE4bSvm|D?S{FFLkOpvH{x0))uPjw>z^=h$ntmL^++Prc$hy
z#9-D*A8MstmNVIMT)GNl6nwS}8!l7PtPkO6TnUG`_$$=Y+W{Bx#_}6**4ESGs2K@e
z_L$jmkO7q0X?^XuB~ydz8YitL(A-9vE3Oy9&GL4xC!E>*B7H?g*JyA&?%iA1@TWFO
zT%l-Z;y+u$zlEE1OY*s?u~3|DT>TiYD%Pg6BMkX_R#gF9aPj;rKuh8&l*PsK9^Z|9
z*Z0k}-osZHy_JjJ=Crpt<A374{>3MU(oYV3Y_pb?Lv5&Cjxql{PD0~zkZE7XN~Jn&
zAux>hz_S|0%?`P1H_KX;kElg#$aw+21l7nlLRjRCzTKlXOI06{zHzw<c?~*Y^$dyG
z_Qq!gCmSS-;iSkFaH^W9F~F((Z)A9UxVuNS7sEu6D_~Oh!!A62nAjYq7$%Bb0Tbv+
zla=`6hl%Ori(#V36)=HzOtJO&VPf;TVwfm$1x)IO<@Do+$!t@SO%Z3R3&#PrHz!ZN
z29Vfswt}wMllJwboIQ_^?b*Dl7<Ckxzx6>C8O3{zUor)FPujO9<=pf50A2!YEBYx#
z=D!+X0C>d?;FkgQN{RPW+V@n-`PAcs`bTC^Q{-Au=lAY@8Bi+@h~JeE()f#1VOfGx
zVDP7p%t%llY)s<z%e;k{wp)kz0OGZ5rek(~Yg#o5q%{mQoX}gav+}f&F-V_|KSrO9
z*T2xD?p3mL14Azjp6aK~nEd`j)}7z?4cfDIId(CTZF~va10k4kga%I@IDPck&>%kM
zOa>h&uFynN%~6zk@W3H_<9VQ%JF**yb+Io{{8f8x8@1b{L$03vtH5@m4?w^+#mn}P
zyV72q@v>qM`2+v91%Ka182b-c{)+aKx263!D@xnRrFMPk)3o~1hpktdQ8~NJN1^MJ
zvo#DG)ck={p+iSs96Av?4U-l=iTNAK%N9(3OTM3wbB3I6k;5hgY_z>cK{lQ+0nQ{Q
z6H!b6EKw@4Bbi;SIMn#xDS@0L)bzc`fkjkB)q=e$Q_BuB`U78nZi##Ad-?ZeeN{Iu
zT)(hjuV13uL3Uza^y<*fLksquOVtfmk6x2-26Cyf1#trl_LillR(zuN%!0l3BYTNs
zGroPxS6OB&ug@c{S6}hbr*b(gPv~(^=y6Z$aZj%i=Tz5)53ugzw;wTN2JM45WgB!2
zX@_ltmO)sy3<VwR<ZZBoAHe1J%I?d0q;N9KK0+lY6zcHQSEeQuJ9$fR<ppNO3fUd<
z!>PnWSr_fb^-!1MoaABQ5vE#DXw97Uvls~{Z<WZoDeQSM&4)r;zgeD}&z=?1Tx9pM
z-1r=yOsf(ZcRye&k?mC`dQ|&Peu)D<5*|(TsMgRdz>TfFRLc{ORtq<z=9Q3PdA6FB
z=dZ|jQ!W>34Qbeliz~?xFX<~TIT22dt7(3u@h<s4DOWvkk&MSQD+}mgl2|i^;$sQ^
zC27wwR`Fp)i7Q!$Oh3H0vTn%q79!R7ZE}8#oZlvg=Jx!<;|Ivcj1`ZQ?{~?elPwAz
zqEN_6U->RMe?-oolJjTekYOBGa{N2;F;&T5kdO7xXUNw|4%v8Qo%{G#)t^?H(O>Z&
zU(CWnD`&G<EPq=fSlT`m>V6=!{YdcsN1^URq2mX_u@8lfKe5^@*1vHImgg-W3I{(F
zb|K}5uBw}77hD^zmi*9Gecx7_vz9pAA3C3cKB55!-9`E@wm<MRTKpN0pFUTev%!xq
zsplN{MaQVF&y|u7=NjvCF7mmBs@l1#TYGa<ic}@8YyGbeFPBkhUz4RNQ&Drf@mAwp
zB3;ooe<ocK%-ImTRNtI);1^ZaHs(sn=fs!VZ;srmpF^hBoQtB|LWxKHIQHE6JN@Ym
zy(v#`8k!UjQa?Uu@mXr-N<S9xlWP~Oo}XAn%ch(F2c6mK$+6&Z3rjiZKz#zaY8s0;
z<rZ+3vVBWN+>~i<BM(1a$=nCE&6bi(dEiF$dNgN)e@XQ_;0NH4i%0>u<*m6=igFf2
zxhTplG;GLu$mgYomXWW#prJmB@)w*;te~jMf~WvR;aUL0nZ|00f&$MFMF8jOgp&H@
zdh(&^tsM_M0YfX`*INO9aVsdQs1+2&TR}e1w|=>de0>72wQ=(US2?Tx=Hc5XZ=FoF
z?MPMaNSF8LY>392ilZHf#!G?7FI@k^+(5ca%#~7<vmlD<B;waEd&sv%CDO*tcp-@N
zz*k}ZPDGo%6Vb&DrKqBYQk1&@3=c(l3!=&>s)&FTg<-CKxq^J#@JV-KB!(Ro-asSZ
zB`qO-%>YC+1F#rd=xPLJpk~f~tCPALL1<(<^f`ji7=?~U5E?P;qbPqtR0Ty<7BC_K
z2^K>;s>!#n1~8*ySWD(?@Gq%;2mAn*vt6!~LQst`Cd|1gq(PYTP)GwVS4N?7s@_Mw
zeW2+BLa^S!;0JD4XLArDO9XEP)62A{JsWbR6y+?4a#57KpbaX;@DfI-zR%+&TfAsQ
zS!JG~ZHQPhMmP|G<^ZZv@`=LEqn5?~lj;7G3;jbWp((Xt`+_ip93;YCvRa^ACs!3z
zECPptDe<I*63JzW4_L(i$i0Fis<j^p&{b!g<u|<7y|{g%Y|~F{Fni3|5c|_aB}R?!
UwwIi05>ibyr*_#=J1ubkFZcSL1ONa4

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/cpu_fused_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/cpu_fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..76e063697b7953c85d81565188834d0f42ebb8b4
GIT binary patch
literal 15307
zcmeHOeQaCTb$^fFACKaPB$ARSiPV=R%aSbFu@l>IVn=oyf5>+Hk;HMs(t4Clnj+;#
zDz>%9MJdviT(e37ikU_?SRRU6o;_4WyVb=CECmYG!v>7cbjO!B6;aU)L;f0FyDiZD
zv7K`tA4xHE;<U~F>Xmulx!?EQd*3<d{?75gSS%(ALPYb`(C%T1`UNJG&{8BGPN^vB
z3dK?^9ib-aQ#6gVDxx~2f~Pv7p46Puk~~dBH>p2mAhZ@}<0&K1x}YlDpmbV(vijQj
z6B^d=j^>ovNU^@hwlxMB)&#%D^<iMm?`Th1jFj@ncCbwC@mR}a^6P?itTkw5ZSb_i
z&k?k-^)P0`W9qAB^b`d%vez!Jojajwf+d+~U>jk+4rR9ZWIG=_V`uHYSQpIF4Kv1B
z<Ba7Q;rwN)DM%No&+}c}Y%{z|y^4B~Vq4y!SkEmuKNwCmki1sNYb)h7lDu}v^Oo|Q
zmsNdTA7PU|S~9#4h(rQsBEd08m?oy9<B3o#8i+v3>>r<wCt{QS*i;;nnqc(JxI|x)
zbX+ho%|*v)?4lTS@KnR^AqUYFil@TGg31R=<8Htj!Hko10_&3y)+ki@$-~)aDW3ka
zO5Vd;#nCXIr&&tLpV3m(F{)29_R;@B_z2fxuum;%<L3fXL5bcgY2u;Cbf1cY(?dx#
z8^;=6?{8llN=!}-O@*cg5&`aPFfnjxdh0V!pWhlBiiFM#O<hi$i$#atj6^1fCSz<c
z;tyU5j!!3I+)yNNImpF_CZ^*-);}2w4vkMu`%9_8sml_BBl-hTD4vdRb{LO=UwkJ-
zvy^Bs&gs+oc~#mxe?c&~XLqfbnYk_LE%Uzl7c!2FFXNbhabbPV+`33Fb}nAH&MmIH
zZW7Gvvzqk}p$AIR1|n1E0+KconhYhzON$6auoUtptN`&uo1iW(vszhBvb?bHN;;`c
zYIse!aunzr1FyQRQ8oqYXlvIoV?C{M^paX$lfYS$5XM7O6?mH0;Fc;qBc0UoT2?m$
zHF;feyY*una#qd^(IA{n^<>~up9&tKDCdN{kMOkgX*gVXNjn}1OioE!*uC*{l0F_f
zI~fbHeR^^vxO%9<Ap_;CSXpy6kO)eu=_yHlHZmQ@Q{$BbXTx%P{9*_SVu4U;hua|^
zcRBv25Y18r9c46C?XhUJ&DYPLnZE!(S9&HhoH@4WyWWv`<?6On$Ly$Rw$5!!Z_9M2
zw&l!TNE^*_?zDS;dVXTDJLS$9duMlxrn;{;UTIxu%}g&QuJSqi2Envp_63oto42R;
z&X1>eW;IQm1LtTt7h>69)E`g4yTm06yizE7)*qWrOid>wO(HgRUNUpRXpEZ-L_#w`
z$rhcSgcCj$<P!d~Tnt{`gq4ak6CaOp*a30}sS(N(aP;Hj&=xZT<FK%jD+oC;F6f7d
z3lb*cKNAYX$Bi%}C6u^C3cmPHKA=4Pcn)&D7ZzK;A2`XaV$WZqp?-}+s+1>bUdO7j
z9q0bE1ITJB4y-ZS1ub=?r5(noe4FCfr7?`rx&$6b5?DR2`v&#bD&-)<42_R}qoj#9
zygkMnlV;w?8^RW)m-3UPm7efJNE)FxJg-%OH}M))bE~)#VLX*pfi+aVpUjcN_zhGA
zQme>wlT38riN<TJ>I9ON{e<z;tO`k{Vn6T;s|q{=AHRk*-ZtGTN(t7CQY2}qXy>kK
z1WBGz)+<@Z*M${rtD+)n<}IvQSu2`?TD8`_#N@)Q6^)A|uJ>d1RfDqxW(M*`86%9G
zqAKtv*e{ex5Rz8t%O}&7F>eibR;FcIId@j7EJ@kYTbKH@!O0q`SgTrVY~xim*Vz7+
zIo$p6kzwWRrT!gJ&u8uZG`w%pk+kz_&dED?NA2^+T5i`Vqs+i}m2~iW)_Q&`e8XC3
zr6-~RTJ!esx{uE>Q9Laa6^5_AIw)sjLIt{mZH&VWm}wfDo;(xeys-&yB6dC)je93U
z@yS4f2#wf80%Q!4IyXVyu%Sr~&(uuYiD-O!YAVJ7PxKZUrB_j-wt0z!+Iv$i(dW4h
zP+!u;NmUMy?2Kk06rDJJQzaMa&j*83(D8pk5ro2XeT_u{HW7&h5?nK6a_cd|ktNf~
zKx8_&hvR_z8mFW23)8_M@N&(Yq2NWX18b<`)00FTO1d|(Zd@|W1i4t;9|@fgN(SKI
ziA0d|OFCfvpsq-IE-0%_=E*?(Jn;C5P$VL0&ctF7Ne4pYT#%DgiI}7fMH8Dw`sz6^
zP6iJw8IQw5%5`CchlcCH2)BmA9e_7S`4E?kC~U|AOIDC8XG5TE%CaLaF+}<(DWjYU
zv6m#1OyayGlPqXt8nig2x`D{75DVQ9>S8c-_FN(!NA6aX;gt_rp35V`yJ8dWAXN3h
zFFpz<0z|o!Vw&>iHo@GMxgeN*i(klhKP_}Wea9|zZ@*{Wp4GgXefHHH#OCd*4ZeKC
zI-y}*uAy)Ckf^VpzkE;cU9mff%uX(M+_yiK)``Z(Ow&DMhiGrh+j|6iPtM+()_qv#
z&bB;rXTzPgY}3A6-Ah@+ORF~L6=s3S99^)^z9j0~vikL6vo~cG?XGO|aK3rF(7gT5
zu3Ym@!M-!4TV)(`2hs;J#%$-N<(G5J(|P7ufqC{$;Juf#%(FRW-(9=F9LO_=1?F(}
z_{l7DILEy5KusAN3nt1^U)^?x!0dR>k!5z|n9)3Q0GbxC?js!quVY#;Wp*rWyEF1$
z@V@OJ=(7*hD!Xp>B`9^c@^+tK_bqP7*@tHLi<-K;#wBQ689MXKV&J}}ch%s?8$5!+
zlX*F3@P1&lrk(S~Y)k*r$#0*&dHPO=Fz{@4*HK~MXwLZZ2S!`kHQ$ukoinx<^pw^L
zQ+2rW_D;dxxp?Y^|GGcdy(QbV<%ilk6aQ$*+4s)wUnT3bQt!U9ZDCs`yfnIe=Do)I
z^)KF~h5G#|gXrqXy9NZ;z*1n@opWtVGaveTZZuzSUfO@B>%HA~r|<ht2!^&4Gk@;q
zdWY!hT#V#<wg^32;9V2ho-MhagM#Z|idofr7S;Fkolqm&vt4j)Pcfp|m2qEdx!Us0
z6E|MJ{(7!yIBOoxYKDsn8PS<Ie<XG`l!&7yI^{nv+29Hxt60V3C%K9jF08I7TzDND
zFR2x9HjzdF|L|KNo<WIHa~@thtJ+V2ilLLAiK5^J0R&elUIju5bZFiH%7y7ReXFR%
z9HV&s?6-IWt0D>&>7gu2YF^5qFSwSWf>dO$gq53<46gyjs;G7V%dMr^n_2a3ox;$Q
zmS}%PeFMBtRe(#Ln$_PnD8duOxS6k;0kuC|xf;b*w~EiCg}2la;|b*OB!ue}s{B;M
z0ndC&+Zw`CX^Wyn1uLqo_-&)IMj&ELV|~WY#4Tk$4=+pY<pv<;`XM^bZG;%EHD1hF
z%XguFWL~n6K<-a^kc@ETKnehZm(&n(&qIl%C-P*|2)7GTeO9@<L)c~vqr(^xUQXCJ
zVdzINuZp2t36~{j+7I$2E-4K7l4K-BBvS(wPQ_7Itz^DH%lx-49*n?sp?Ld<bFV?g
zlkkf_fM}L_&`cTJqO~b&?amsyAr`IeS!;jR&=2v7wMA@RhyUzO(cLMw4u~$F*wig{
zY!$n<KdLv`Oa;nhGyxko`Lf1d(b|%^e9zjOHS}h!y(?XPH}+rOFEUM;6HBV)ryi+Q
z-6p}{OIb7S2Re#zt+-pSS*}_ZV|PaGyLYBv`Vjcaa|_QcJ_}r>3%E*ZRBY;9+AK5;
z<=vYF_vV~?OX?-j>Yn4%{9o<4cIfJ%oOS)uzHcA6dEkfIe=`5ToZB#(wT@;Dqd&Ly
zR8IVnQHwLx8cl><jKiCk0`3EbheycQ9;8kI_yN!$9aM*Fd^KS_GF5?vZx&!b4Zwc7
zN(fA$*~ZV*n-)f{@eKi(XaIQ5$Qm9~ZiI3Zl&cAlXD(3;P?pEEk?Yn4O~qE$pcw!|
z2H>~abCByhV5EAesj6LTqJwQf`0}#4&nYo49oh5hUIcRv9o_?=3Zgq4F6`KNiDf_v
zU<jG%{w)xI*1{%4sHBQlg)3`88HQS{GmJ<=Re<|sjV*-S8k?9vD1(Gri+@|Cut}cw
zm-@U+^{Hju7STMEHd9=1DlmS&&nUHk4o6_E1Sq;7V*C>^&JVB`!AR7Adr5i#zNRCf
zu$f;37=b->@CdGu>EiGvzpPnF#)~6Gl0$|sHJm(n@R0w7BPaY&(|_dUJx6xEa6mGL
zrh=CcA%jr>nbW`rKf#^G`Wh^Wqtqy|1B2fmiiQ$?|4d`$#tbUie+HG~&qFjz{fA*>
z)#JUk@9Mt1XM^C`koP<-c%Bv+d!F$Kj0cFh!|B5-ZcpAlEVze3g=l@|A*E?GrL;da
z$ViEd01<viI3MAGYdN3fI2(zb0S&bbk$@Uq#7ZUuQ(P_1=m|_sMK1e`QeR#zKdf;m
ziU5oW5R=fGfXRShue_n-4&!1x<RJpVZewX8m`(eE{sy2OfF?i*1`zdDP8RtV8P|xL
z0T0pe7E(`LQI8InlmWRd#-I|YK`GFJTA&BDzznzSx?9Cl2jWUQ#^D$KTZcCk_eNt0
zZ|RCN$c;e3jI$;P<n5!m2`KKfb7$c}Hu(vbm<wa&^BC1wOfG^2lMuymvEZbv4YC-4
za|3u(q{g|Cv*)n=TM&U#-$U7&Gbis^JF|wpOQuCWyJ=6hdvDILH*4*DzkVod7|L3Q
zL~GZQ`kuAFK&gx-v92rIy)E0dJ-hu-mKl4fhCGlzfb`iK^H#55^@@x|Bxer9iO9G_
z#z~T$BI6dB&WDX=Wbo!9gTHASlkrP<tcN*~H67ba*8FCj1n&|JOa}da$>axw89zdx
z8NdI+bRZ&^5HT;QqEShAh*aQ0(2t}$4j(h%ZwNI@YWTuAJWp^BOmN&L9B2xnn-q~U
zWZk&eF&CpR!!PcEqw)?_Q0cX%Oz_&dtLLu8uEq)!B$vA$;-k<(b@Yhq`o)eeas8mU
zX{+ez7T2v8w{8~)M&N$(ptDnJTD3OJT}oe?dn^4`K?`YECioV2q<0kbm@-f;?FA!J
zCdyV{FeAlK?$#^(0$;FTs*Z9t7pzFxs780DYhi!EjwuJ#(zd9%y1r14sRpXmTWCbe
zNi{ZKIk<3eaWh=M3NFlYQyuG<Mz6OQnlRN&xta?tNO>r4ccB%jHmYOY4bOGYvPST2
zF0^Boms;0f@FCR!;}-B;3SE@RI_F7y9(6-XUN~H?arl)2atsWAl+hsMz&!ScmeJ;8
zFCJ7xw9HgKE}(J!3G>tdafP}}-K593KLHv{KP6^VH2%m(AHSHHhKjCBLgpW!B#sgv
z%{7d?=_tNs&G>PW;z`-q8lG>1ZppNN3B;4~{EF+H3V1kj@-iQ{@O8J<x6IHT1advI
zCmj{nA6%cRQ0ux@3+V=_QBya8+>&-u?wYsr4nP&P@P`&{`A>7Js5%1PirAY@mNZ-p
z+TAo)+(gPk8NV(WQ0hXehKM-67mPW0agf=f8tj#l%Kw67m(6mru#Wq|P{)m9Efyj`
zuS&<_4=AI!1318bh&~Z^B8<5D@X3<u2iO+n_mfJh72lB9OfEuj|8cnRA_TV}pu4u0
z??Nu71MW5i+IZxljCFIyv~i9}GkHUgVCW&zYpvcy1XqK|*g%gW|A1KY?@_B2ZdP8(
zW=|R9Pvio=I@*89cUK`~l9-3l-@~sYWN59WQpi9Og$z7^pMQ#w*`&3v5i*dj5HgsO
zg$z=%kU^>}WH2QQ8KlZW22*7rgDF|aAXOz~Fsm$NFeM8aq+}t3RF#myELq4PB?}p(
z%0dQG^1|VA;bAQW{0uPsQOJBwLI&<FpC)8Vx4>Vkky|I^9f7#kE$|Y}HPBR<SJ%1~
z;&+Y#Zj$tqa^bQiFsUxv8v!m;mB2O4ntXLBUwandKtJBqNFXT`Y$PP?3dO4xP-~Q$
zr@sIk8%*#u=f~^N%9Ydu{AYz4Xnn2<a*Zh5my-slQNvTI*oTqVl0ItK2rK$9@ha{s
z6>D0{@~5w5?Ne5|!rEqr`P7hGHSK(6-Y}tJweOUyuxoa<)+~%qI12`5QIv_5OILFi
z3~z#2=qhLNuJ9S&0`7XyUSHY%GmH-4F|;;Rww|ZowQE3<bMZu*GW)Psp~}x%_RB=c
z8X88yUKQBVN)y{}5oLkX3tyfb{@+F{-is+vDgjY3%ZQ3(Kp+G?93(x!AV_@Vg^7L4
zA*UWPA8v#Q_(ka^UW;D<P!B7q;5f%94zH_V8~hSHBx5WZWTR34<m62?QCB40IWXBp
zz}|;LSAi%yz~SW#8`wG1Q^C|q>h0i;NDOq1_)Z|?dMcP$9F6z0)W3HA+rU2$i0-yU
zdT}#Aq6cUv5lDaF_u}4#(YUWcv}Wqu0^~gDticmfne~sye=_-_$?~jU{QYN53@0Do
z4GT<A(t+noFu*BWL0^>UGr#+L)Zu&JF`1=)yz3|XezfoI(d?0<*<;7=kDmB_*S^+U
za9@Y9xW9zxcb~Hz=Zx$g=Ir}P?~i)#4&M!AkG_0=_c1c%y?{7cxZs895SV<y$Q58g
z;U*{9<}ZRtaX`fIOiQkiLiz*aU<y{u=|ova|2?p3>(2$^V6En)I`q%-Pfvjj8@E6*
zv$2a&C86a4(X&A=h405=l!i#MjdMY4RQiM@Iw9!*q6<b@*<SJ{Rx=(6Z~(i2MO@Mb
zC#MpZ`z+-vf@DGXwA_Qa5)Ncwa{dxKFq4$b5+ph#*$Adg%8R&ZT{(v^5Nk25psA9j
zltIc%?_B)k<#(17aXgS~5V6YJZLQD001e{bf&H7MR@^Ol_Xfee;huZ!d-eI@gTnB^
z-0)b+vg&NfJ9`9YPu|%tIQy4&<(z{l^NOntoX^5J*KmqiakgfHi?8LJLn-rWyDz1^
zZ}5noHheaHXm`&42^eZqyTtaceEX2lKD0~=?IT&n^Zv-r%!zAnTzz9{*S*%k_eN7=
zVp}JoOiKZwZDZ>2`y01si0Nd>ch9roy@u4G_pP24UsvAul;C?RyJc^F%RXVtzTB4m
zcX#J}hv(}=K;Ud$f~_lW>lbYOV)v#ygTJIyjm}4EjotCcM74M1+eU=8k>%&|n?{9A
zqq$9c@2YZb2j<PBsZX%^^0r>V)+=^zTuzdvzrv<)U9daXbnV@^Ja(_)1TaM?MN@d*
zR?*r!wEXP7hGV}br2~|s>%j;(53ICzUAuJkQoemyXdnJw_xJn1(|;%M-NEdU6WR9R
zT>Ht?p8Jev1(pE7wtU-0ScC61e!t~AEq9K7x9#q9wryjs?L=zNUmPxIp)>hr@Hrt7
zc#crEKK!CaK_cFy;-82;m*p8C15boQfQMT>`1_P(IE+^ekPG8h2Uhl?s-GzN(Ip%B
zhFZ217JPzgVHSy!^sc4rDS9reRX9E15)HLH>%i!(Q)(w0VXTt2T%I$lS8CMqXi_xL
zq!U&P{GMvQuNL)b^cf?1wTo{I*YK%RdJ4PBV=I(WmTWvrCEcth*_6PpNZ=cl`HfOv
zh!)YI=41=s#J3QyLJ!}<YS8AufnLYEAm7tWC0oI)O^4C@s4DQy*frm(^qOn~n}vb2
zXA&iEIlir29yOP>zRG+ug14%B>{}k8+(SF>uBA)z?aCOif1YI1yHgq}(XI5yyOmPT
zRlXU8dzA9>lZO>6J1InMyer&SE>$SFLje24kn~pchfsc1;Ju}qKHkgwc;^nN0dMOI
zBl1@j;67IKRQwIi>KEw0(|wH!4^%aQB>2A#emqwhH$43DGH8L;fT{q_7NrwjYHh8m
z1W8s~u2*wDzE7G@vV-pc+|M|+6IFU*@{o)rpK5{wa&Kb^DaMNxaea{8y}t{|zGedT
zfg4%yqMx|45hpor8&-WDBRr|ZM{Uby4!i{^ZVP7U!Ob6i?<6(gfRYyEH@NB>gYXP;
zpdE16uqIwfh{ry+h}1VBlGKr46dDB*@{mL|01F^$2(lxcCUF`5tAUm!4-NSI`?;r}
zVP9uiefV4uM#&5_QyeEG&3F`Ci|n%Jq90tjizQ%XWiNpfxa@Z*JKn*aMRo=UZ#-}k
z2d{6a!y)UCOsLq%ok)66kg!B@7JEe-apD}PYcixN>5Ix($sh{7N*aj3#|gIw96=_C
zdmm<XLicMFmD&keeVKyFGYxCi7a1RQq2{?6PDc?R&9;sR){(5?#PZB?B)j`~cJqmx
z;Y8LtQZnUzR)7>xJ69iQHC9*N>JzNK#iwuVyuNeUCv<LJKA-K_owL4>(tu%L&XTsw
z2ddn@mWS^fo)Trd^pZWZ?;D4+h9=SKnoFjW;Phto=B>SgwHG`?QkqqFQ>JUN_r~D$
z!DYM9u}Ns&1a2fLi|851dxiziaL%(S?|DY>Jd^Wmhi+CK4Jp0Y(3moQ*xHj__w>KF
zK9fF_+Lf9So$ZV31?Ps;i{L7gIr`^si8i;`J+l1FomaBmd$LT&s&imIn0G>*^-IHo
zb09l7nse@vtG^B&F)PjeOE2b{H!tWvZ0=dSm}?%I*NaU9nZ|t6dZ7v1Gz~1B%{6UF
zfxk@s+*o=nv+X|9Bf8tuFBMv-wr!8vsDX{k`r8NJou0d#zMOF_27YSoy)&8Lc|zEE
zB75?c+|E~1niW*myn@ZU*pRdJq_nHf=9D(Yrp>F2Gqq=Ke|mqG>CYIh)m^OvVo7z6
z>HolDPamJ(kau(mj;@@gyOiz~9KA~~XC1vc$Htsx_ydbAeQf?{>eyFL$yK_q^e^=1
zENuldWpn`AYir6H+_DCB0S;G9pc=gkIE?-qe(@1FX=n}Y)}Ev*k!nmMRE^KV8}z4v
z)dy&8(;BoIGb-R}l9cgkLdt+OA<Kw0Ny?BlA<LLGNtQutl9W+vLRP`nB(IEHlcWq>
z6H-R530VbQlRO!_CZr5r6S9n6V^UsXT*N-rS;KA5DR%q+Jcp(h2%hKrv@&BS+#Lm`
zZ2JZ~&>CBKpG&fi$0Fz%23`{J!N8euV#=0zJNTKw|Ku5rMmba&IdUb};Q!U)5TGU3
zOyZEjUBV<PYO?j4aQDlYL<2d8Di8Q#PESRGvhUn$n2Xk3Vyqwsp~{pY8Ft79`JLQ-
zsE1lWd<Eiynx^Sr=_tDU7Zmd|s_Q?g&Yw|@1)YlSpWlO~X>cQ;`xj5#IDP%}LnPsL
zv3=(QwSjIH^~_iJxA_90JwEw4vXwknwWhC}e*5%8Ez~P`sn#~p3HBYI*x3W7_XqV`
z=@Aip(snHDD5!y6Ez(+`;e46v3VNgrl*3stB4t7|xEU$9+cXp`NYzpG&Vm&w8wI1=
zk#bOQAvt~Z^wOx%y0L)6fE`3<PCbQ2{7mCD&s9&>+%0H(9yVgx^D3&XL+o594s9w=
z&b5Iyl_m#tX>vg0;kOp_NEs+sOTmZ~IQKdWW~6X(^X!7DV8K)!Ogb~V5H46TWuw}9
zmNZxW1v{o3IQe>{8gTNBNIBO`9;X3znwpbug0kPdK@ZTT2NXoV`69iQwm+aC`b~n4
N({$4>DU8X1{y*aWf(-xw

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/cutlass_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/cutlass_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..763c2393926ef3791c21792439a81e8f2a3d739f
GIT binary patch
literal 41691
zcmd7533Oc7nI8CRUr~EuUkV$6!YY8^B9fxSRia2jqD6^nN_M%3Dv$uN@f9GFaKQ#`
zbsMm{Lol`v!M1Y<bvt8l$cgC0=QMTNCuUD~(n>m+Q~~T%bsZ(4C!ERgOwLTHNw+(m
zb7toI?|rZ8q3{YIZKab(;?{rn{oeon_y7O<7bPWD0pE!JgP~J%g76>7B7Z#+@c8Ry
zLAWkNgwsMq6VZ-nMzyE48iI8ry3;!Ls~<HCz-`pXOcOKBr!6d$e#AOzJ8fsMVWec#
zaoWLP<A`(Ab=t*X(};W2bJ{cNJ?&+7^N4TMf7;Jr%Sh>H+3B*;^3&zaZXKx@tvp>h
zT6MaL*=-}$qcx{%G=f%$I-<3=HN4!X>mv53Zulj+I{Dv7NfCEP5qD=1cUKX2cT^kk
zMC&8oBL2E*lORNV8~XY;^ex@cw`@b-@*=(!McgZkxK|Z%uP)+VQ^dWth&ykkI`|&U
z_nizy0@21uJ^mW-*SJv%gU>~p-q)XQ(h4sNk>>Y>$d;&O_*FTb{O@fYhfi-|AzKi#
zHM%9|+QM9eaBWk#wps-KFY<Dvy+|oKinw<caW7VzVx#T9c7Jw7U6Jl+aFfye9QuLA
ze2;pq25Td|?;B3HMQeuN%D1@;4gZ!5<$rHW;OS1xYu)g>c^?^q>z8CW|0~b`;kWZ{
zGIaVmix7FG=(<p>2e+!%DbiQOeOnRt?M2*o6mj2K#Qpgq?z@V(KkJBk))~AT{k{i(
zFW_%4{$4~m&d6<^|BcWX>51qD+afPvEcCJ&wGT6D|0XkXE6uUUk)kuKSU(hNzh`X^
zngNA%+<0wgHC6A8!OF-1)V?qBth>!Yv>wevN_*qnd!mhlj>sXbdfSS&*|X+eY_}@5
zPd#fJ7h5-6k;ACR_RG59tJ8r4Z=O81?~OMCXTq^)Byf0&%;V#S0_UURSac-T^>Z3*
zK~2VdAUrY>J~I;Shs72en2Jq~kA}u4Vq_f}8=4G_jGsLl6=C(VRFKGtsqon3f$_1y
zp|e44#x^=04NXMF(W%L3ri3h0W0Dn-DiHp4F**?zqx;4phlj?(BSX{CemEj()yeUR
zqo<-nXU|Q-^9#|))IjuLbR>E<jHJp`Jp0FAqj)8u!HJ!r3sejw2CEp20SFC*2hK&2
zsXaCj9tn$~$;%VbSjIR$H90XgnJGCp6p2K~La|9CAIoSj_TaBKW1bwJI3F5{#4_IS
zz~s<-;mM)#F(k#CCF40eGJYmJ5*nKt4Mi`ZVw16ql>?#C@I=OZu_r{?MFI6nkR{x6
zL3Rwwj<)a_WGxOwqOqQg!qS_u4&*)ZaBs$Taa=qfn+Oj?d$wk*IZJQGE#*&TnjAkL
z9gAfwsAMQY70#5PkReosdu6O-CEtN_84t!m=uCJL%@hd@j*Fw=$&8)V|03&!*g$!H
z5fU7LX{&$i0CZi5Yi7#h=2`8l!q+u%i}b4<Rz#4&Nv#YG>t!had%jf=VmuYyZxp+H
z7|3Da7tzSuT3oB@ua*5-IZUq#5uLn&qF(B8^m3fIZsRl~+G&Fz<We>$QZ^4;3d<@8
zvVTO+;_Qi=RnyPqFNJGGICdOan_@&?0f)`%kSm>0&Yk-6sY+*g%F<ajD4lu>=4zNL
zok>wT^<FV=(knUtT$&a|n$|0?#jP9G+AQ^nRkhZ+)N_5ZNw|2qYO9#3&vGTSDoXfy
z)!Oz9X{wLETwQbJv_C_d>Z4|Tnk9-fZRj1_Q}vGRDSKy=a8K1c4n+yQidD|Ob{>*V
z;Y;gi!8fRVPl(al<5Z+*x}uMJuJDyneQnFN*-Qn>tG4>(=Fv<g)+&`X;$5uhGgULy
zGc`!TRZuKgXKIVAAGviiUd=`UFQ+l0Ilm*fo?E3|!E~j;B1}rhL_rw#tj{NIinG;<
z$Isj3W8_TTm^QATsf*WbQqMq<^5)yBK3*ygPWt6C#9i_FcqOgV@fyBf4{C2qJJw8t
zBAh!PP7$I}5yCZGCa0SJRrI{d?svzPTeWhfP^8|ZNIjo_wIW3G*msm+exnjp!~?7y
zl<99#r0$B#AvSBNTsTEZKfjhzOMPui$sv?AX^xjJXvA0I9zH4+<57v_NF5iiSM*zD
zzBgqkUVF!#8=Ebgr4{iEYM&v!*3UV;;AD+l?%`S)%Kye&;;r#u+(Y9#UK6jr4YDPD
z8Uc7kJ%^QM5v(LP!+>+i^T!NKLM??&_5ei+7OYDuDMU0yR=nK0lq*9y_I33X)OYB0
zDGWC%YtLbMou0AATZWt0`zv~T%X;728tyjJGWPvV`r7z8kDX^tFBmt?YU9Q+SKOq!
z^5%Mdrfo7P*EEhckL%-Y7*VFLZMoyUE$vP3VwIgKpRvxg%(Tx`#akjEhF1zREsF8k
zCa01Ajn}d9X=G#5$lWnEeK9{PTdC-dHw<^?!^==4S2m5H$e~O2&;Q07P+~30Y-V%8
z9=FFGabMhjTiVHqL>@Q98{-Y~s9KZabNQ5H2w`nVq3MqAwzTTMi#ajVG1D10U2(^o
zf5Y-N$2;P>cxT*#@&@B2_~%?(UhHwrabb9?T%P<d@>ZD*Z0=XfD_X>Vr!-&F%fjR~
zIeuJ-H^<Aq)_$i<u9rr*ECkE@fBygB`#H_~UzNSWPSycBga<~4VmMX~oC{p+`8kdH
zV!pl8Wv6-q?C2bboeNLoW5T0X)k9>tl^$Zp@BmJ~XQE;*zv;>&V>srkMx3tYREAi9
zpPbjlMPYfw4MIp|DjK5x$k-&vAkoMW=nJaF_?7R-*n1#=L;{>75nu=QTbhi416q*=
zR>l~KzBe=w{W;-Jpk|ax)RahQ4FLmmka9ZC)A61W0YXEAp~&U2@aWKh=tR_$NZ39G
zTE>}?@qzP0V`qc<j1C!#eee`%k;=G+#@>@@HxbZ4E(NQ25e$>#BIpGrgCpbN$(^BS
z-{{uCv5cNNIHQXUjb;q2%QE_N;gP|N`3wu!vt8_^R1Fu;Ma8ICLa_e5q3FeoAv!uS
zc{yVk8k^kOi$YAqGSz3JAW2M3j)Y^e(8R>Zr4W&hMn^-D@MJh+0!4?$1ZX4UAo84@
z8lM8iW^$Y*vAs{E<s}nPCLzV15XV8x8VylNV;RHX(8x$A<B;>=fif;O>OcXJsYn^a
z!1%=FkVyMru#2^xNVu`+CWEk7(MyJp3_>KuQZfkn6A70P=?o_l)*x1qQB4MI!6NOx
zVjUR)GH4=-4P?+3BQ}vin+fj@9q2|G&GC$RA`D7ZBy>EZ31u`#Gn#(hunu%2NKrY0
zm7buCiMt-km_|o?h|-fW5%q@v3!{;7x6#pF2AGLBMMEm%kjO~mgM+as$Xbpyjn`9P
z2c0TU1Iw7@k(1GddoN@xFgV34MyqY$nZ940>Yf~(=$;sw=$s6T=+w?jQ#+pDd45N<
zdt~TL_r&GNbK_&(?~RO%c8`unq9dTgMbV?<V)sb+a#W0U4-$Ek#!t7Rqq`<9XT0JR
zNO{sAqs~W<i-Ra2bxX{IQ8X)L`vhD0?16_iZ^BlW(AU9CuYpUh?wsHGovBn=Te7Te
z#nzV4w<T<CX<IRO2ZdkQ|G}Qc-kUpa>{#mg-mVo}b3*@8qUEJkn6_q$yJLRGLeB@g
z7Ckr1Zj>##zgM{wzEQhkYf0$$CxZJ|VcJ?Anq61z^Y#xMi}fq!s>Mq;XKu_apIEKy
zzT2}>*LTnSQ^&`S`xlZsk9_ile{<?zoJzd;)?b`n*?B6f(;Dg@ngWjv_)VKnWsQQx
z{dpwxP_5i6w#J11g+%iUt1xYi56$j`xgu@zU43Exg%4g_46jgo`mXMs-@919YO7w-
ztk~+;IOu+8`Oval|Dk=w){(Us3{6?9U~YPBBS@>Wbi!(PtZy%t@1aEVp;i4M<g0Ac
z@|!g`YL+gnRs>gU!G!*JqW$<POk41&0-@Ct=5maIt9$16e6V-%#EPw!Y^cwod(~F8
zcwxmBSmO}8dHKfWW%rHvimjb$&`vdIry8_V4LYa>{_p#5R^F)m!J9w)(uZG4l=mfV
zeF^=s#P(yWFl~KllRIImNjn1xXKTXT3Nu?RSnOBL^X3Kj2e#RLX{YDvrTI&Xnh(A*
z`%2p3x_WN@+?AJS_sw3It527>uAZJhJ$qQ$LGEw8n9x_wy_mMuEO}UCHL_;%C2WC&
zJ^=F}&(qxZX+`bLsvA{ld+EZZq&={-KWX2xY`wcP*}CW6na4V9rFGtsH4BvubB>3$
zij=K3X{%kluxhKHJxC=vJAZZ|{K4?-%Re(!eCnxNvMryzXHIs#bie+7_)nS>ov*BV
zj?9_J$GUv#?xkesi}&4$jsvTngK+iLr|o4adv(%Y{ex|(#_h?*?FoDJs(r`3miw<H
zcOCmAoOu3ql)-PEvpg{h-oUy<=1q^h0hImfYxA%DpgGmBE!nVb?zL6>_IvJoCqFK~
z-*c}7@qN}gGmmdu4&QCMb?%<#-oB3wiO#*No)_iPow)0}_4eHh%g0weyXH)fikGea
zUgYD}`}^+I6qIaj0{^S2g7s)e!rYN?c0A(Eyma=*(LXx>qw}9^c~Eg;&LK7a(%Iz;
zOYi=~|I@0Et3G+_LB+|9d>)x?DRXPm+?uvm%KvN9c5mA5OWRBE|B2gTv1UsJUv<jc
znDjO-z4F83A0EG3zuMGy_spvI`8jjiTUFG{;l6r){`_LY;=s*wH_k0x_}=+dN86k(
z?W;-onv=ffr8CRHkGgJk-E*(D?OyfmN%>w*`d(i39htLWt*LBHRkS55+U{)oX!ot%
zs}(!u9a7EHC3Q>gguRjb+<Wf{4Xrr`x}~y?4M25&484x+iS`$g{+9c@{`|#1c`@<E
z$<+gI&RHLA-<P&K({?|rcPVRt(sX0{6Q_BHHEG^Dr<?n&MaQ!FZhh8+VlC^IJ&B5r
zIR|ULj-<H*ZMWFJ+@ILfpLqQQQbmC**3Zm>y<%}VQQMc?`6}|ZxUQDWmn?)In9CpO
zO(}h8QeT=jJJV)c+H6gm-D$HcZH5c}d)a?a+U!r8Jx?l1493rD1w;9wX{qdiKKRIA
zp7IBi{vcv6l;1u6Nf7y!8n5)v9+;~@MrIE!0cPiKmYumWZFbOVzi{e$=vrv$)G~(p
zs(;rfzB&6}n){!iLZxXJnyD>a(VVVn{u_(IVttJLP#7RX{$#SjV+WA#Z{qqVDxB7U
zvq>A#;I>vG7|4O?7o;@orx6`|RmhGJeGzv<5qDz|cT?0jXrB`XH4*ds_S2?_C2Ce9
zFAi!WR@{bKBeo*x5XX~RIf>&*&7E$6)!d2WNzI*jP}JPrQ5(2F?Cf4z&7Zd--60qE
zrJLm9zQpmQ=1aUzYVPG|K^20R)Snem2RKqH(U#6R;gaUG>kT1TmGK|oNEJVd#STyG
z+>eW9hS~P3p}-kC$3%h6<JNdUq7Ja(L#G`2d;B{vzN^7Kqj8vdtTp(JVV=q|Z;A`Q
zha0uHQKqecLZFEYAxevVINuAQ90eAqXCVY?gyg4(O`<Fy4FhbsGF=vKY5IfajGazb
zbVRtgGrSWAo+%*B8FMJaZpA|!i&w$+Z<%pUijE8x4IonWGL}$ifSr9pF`7&g!aOTR
zVG+k+OxLQmahF_xUm;BFFpR$i4(kzI)hTD|ii|vbYA%^KCC%lF)ep>D(iIJJ`rmb=
ztG3MPv54h<E1Tf#Ow-TrImNR`Dq|F*lT+f@fJCl>lK@JH)IoISxh_oR{A7~Y8-h3j
zub@Vx;dM(RUcgU`f(2N0GIfK}y?=;bGl#-s5!~6+b$@7RbYf(Bn|f6@iDp9<F&na(
z6&^X;R-LrXvTCRv;I<$jJH=(J`FnoFVJ?4!%N^G;9_fU{FWEz*Q5;RH!#J(ttcdd!
zPTo?5aLOJc>cfEYMujF78`;!^-xR)Sx-QHMYGeBf-2`dm=KQ(_p{UUdJ{C%w4;2w+
zTye)0P_EQ&*=JmHCM=WMi0*y!j2kKDMteS4eqTJ9Tg=s#hhdewExP}i@!;M?<z{Qf
zJ4uIT_F+D1G4J$oW84i&n+2s%xe0<RovRBz(B^FLp)ptR!BvHR4_B2%46bw*FZe+1
zD~Y?{CvS2J|0{NN_c2Y}3!i`@s06~bVZAG;>xSD>IT^*w&_CS_UXkgEz)&nOHV#77
z)WpQNI0?p_p|Kpl4%lT7toJE`4Jd~QEo?-gc-#i#yIKr1-EeN6<_kBEB{8m%iGKNc
zdl5lE9ny?vG(#d;_!OqaGZ2{Ni&DnCXCyp&CKBE|-KjoZ*~IAD!^jb_y#RRdR+^^N
z?^vjo`#yT{){FOc-M{cj{e$*ne6~_Wf*z2KsCDo|wP%!)j3+-+C3Y21fkw|~%4Jrh
zeL0Su!<?JNv7d9dNE;KQX0a2$f>@)nXtTvS<0V=e(M~u$jcr*O7dc|GgMWsz90h%>
zbv9mPcq`^fMJlU{c!?VNG8y$`FyaysgNV4od3j>w_GP{|NI%@d*Hr^+@#(4!y2DA0
z5AJf|zhIYW5?sEk)AQ2_XMMu_YNGMgRhZ8Dw9~8N`mj2{4)Qg0ZVvRO0tb_Ug9&@h
zquOH$a~1IX5_ihpn6x)8?Za{LPD85gP_pe%s_kSF|LrHUI>Ax}q}ErT@@`3bx6GM8
zHRFWoN!u&Zb_e^9vr1jsUW=n!+U~k~eExXuha>bZek_D*4xlq0g<?NtEM`r*w&CX3
zjj=@S&bfnE`@hwH?;MNKl(aW7pgw8G857x*|DvbDVr644=%$?<w9;rOl(B|DJBmz=
z5Nr=oCy#I+aToOqr^%iKm({o^(kjZfXYuRQQ{I#7IoQPa$VUfWuZ#`^&y0_c#gmLt
z>o~R$M&Z<-86O`J=O}22gbEBqL97g6{}kcM_Rp6%IxqygNXCC5k7MY~zkOfGYMqAW
zhu-q*yRYqD@+G~^Spyu<FQrx2-@W#3)<ib5Y_pKfD)=j}AG>xeYa^Rowv~|0A(XZK
z!bwnr*3fy^lj?an+4J&a0hX-!d4u(#%YWT|&7L&?MkeJo*W=gXSrggJLW$?<vH4?J
z3)!r)%|<r6P*#0?<l0EKglrB0<?XoEk#&;ICHTv;Zh|~QO(5$f$R`zQsW0hk$@<9&
zr`U??d#>$SYQiwemXTArln(0cY0g%VQ>9$fDza6}b*mv;tx!{!s@|Hc-g-BZtlpKa
zBgcTy(*DbOKztFR<{iLa?xVR&-{XId_Wtkp02DRj2xN&`)pkmC*Fh~UM*M&zV-u(C
zNTmdBHX!;A3APi`57?@<>mh6j{N0Q>H-|y67GnnDsU8yt^${oHc_OZ;H{!;h2Y+7t
z`S9n*Un%kfeo^>I#}TTl1)<7#EsDW|I#x$lq#Swq*}<h02bYSBd)-=D{LsP>^)+V|
zswczfh{#Q6mC0N&*?9!pa1Q4&;AA4<T(tjl6j>{dAqHPSCIA(~{VUfMGl%!n^p7<m
zF1FJr9>L;Zh(05NU_s<-A{Ny0UzC`n#ZHVNv^q*p*r>7=YIvs_cA2mD)5aLo%IJoU
zEuG>wkafoV#w5-HVKE|3!Kyejh*w~rZd%_A>oI~aQG;|KINAe?k27U&N!nXd_UDrJ
z=RUPNl-8_4=dxx6ozyUE+5`#kz9p>Zx^P)@OWS|)mQYx*j9bFnVn7I{#^_#cx^aCm
z*9AI@Qa&a$ZC1d3%hsHYvlo9KfyM8UQP4ISZ!UG|d;&(~>E;azkq<^#q4*CdQ9AFf
zDFLBjY;bRK&cg;}Qz;eO_NIH*mtvDs+$eP)B}k{ZEvxJV%L<1}C7@#LW^@g%i}1Xh
z+W~-FpnjyXtGmB}2`UXl)T03@+|qJ%?hgRRs0{+rsnwa|xaNhJu3ulbf*=>Dlj#_O
zPOfkMVeN;tiTd4hlUKhw|5YGd_bXuV-R1<sh;Nc{l8jSi(1w$7^UJ*aO<RniiCqKA
zC6<N}>!~jRAja&tp4hnZCv!S>$=CUV+8MK2h=^tywOtd=f^a&7C$<Pn+&ZXx1Fh39
z29XQyp>?C-OSf#iv5J*nTt-+{Vg<u`55N1QJ89O@9ED{j$75ajW@NX%vFV15nwp29
z+A{hF5L=&6R=(JD?c5J^OZ%2C{Glb`Z=18GOUq=pW%q}Nm-qdlBjN9cyT`k5Vxe@-
zn08ezzPfBoIJ*<(Zq_fsGI5?N@GUYvAR~tXioZ+N9QublT5%jF1G?3ooSGPk<`*@#
zbcxp}`1i@UNyhJyL5QLFKag>ij0H0O5gC7<jBmqGVtwBwM>395O;5pKSf2~H*cz-4
z4hpP~Y<aAYY<aAYY<aAYY#i$&s7Ww7vRWe&w>aj+l(Q}AY+K%+>UcTX@p8iXa?<k3
zUmM{2SSN?ex-<sgQr}|%KUpKeCnZ>G2rBW%VAiZL9MvrQKdQP_l|}HQntSY;gMuH`
zWQ`?;=N{S|Sp$Ai5xX;MA_!D?XVyZHRd9N;HiGPgCzcT85UT64PJ&zo$eo)UJ%ZIa
zH?{D_V&lTw^IuysEDbDgT{`!n^REAH?B0R9mwr^2aK4nZ?E9q`q4|`gmL9-g?xXog
z-{XITrY}SQBig7Av~Il`$t0p@lyC!lRfs1MV-a^#5qEPDcT3bX=wg&`D=6XSs0Flc
zYt*Jj98q`8A%Z~kZu7bdr%RBELqhJH66^pH<%&2_4yzPQ@q;j`?m+Zh3_*0Gr9Ak9
zBo;~X0?E?>$<sy3P^u<HLJ}yo9@WK)P~{S$R|L)>dKJja%Md*u5WUJwxwL|;r3Zje
zohijSCX4bg?ipHrK-zWEq8k~4zzxaAh_THOLyMy9ImGa7I2Is=77(flF(g75kV3FJ
zoAZcaTmuH^gP7l(otg;Pv<I<|5wK~UXCIiZuojbNP_Muu{|Ow#ACs$<FU>gzR(>^N
zJi}}GA(Q$uw;Xdi4<|m$d)>O`%i*EFO{)@0&hXIE;&|v2!b34jU0aqlE6!lT985Ta
z=`DMR7TuVx>zdR5rMa3<!5C6gM@jx0<Ei5NC|MyI#!=MvV&kl9J*N77YBCi}b$imj
zU4f~R^;t31!>X7f+kmFqiWV`4N6M(|KST+0SgMcp%9;*AGpt3D#e38;YFH}U_oh2G
z&pVHtE+cpGV@i;aQ}GXA{8z#J#2--d{}6@};bS}VbZgN9=aCeKlhU=5_(MvF6?Sus
zXe|y$m;}S&?gJ=>#R7Aa1@2U@1c0xZ8RkbAA^X-~e!3Z~J!%IuwRr3BK^^eGVzG6D
zx)~ech;bWXiQ@l=%!4|%4vB05qWvUje`;jW$kyHo@qa=zF+c{x7HRv;El&VAIgC)I
z>EKiJ6Gs$j`;HOn#SleLY0BN4bT<S2bNU$}w4O+yrIo4Do@8my-JZMe{b<)uV)uLQ
zhyVC;!heMD$aQ|7X#QmTCp~}s)r7yF@X6AYr!(p4T)uF(KH=_DMJ)Y=h$X`Si(!}I
zN7Mv&$@n@M-yq`(83kx1Lnb%DBmXhQBjbH)h~I+2@JPR*`(dClYrrqCuF9IMi69Vc
zEAkXY3prV3%9@RAcG*@!Hit}SbCL}NJx*VAlg&dEMK3{JGS2ucxTT-tmVUx5{T#Ps
z@J5)VQ^F+iD`AoZaZHjRj!6>4F-d|rCP~mbOp+X*9+O09z7$YfXEfoA9v2!HVD^SC
z@GY0!tX!t<U^|@yko?gBm@NnY89O|d16jV-LOWmKcclYT7K8~Dd~hvrA?t8%amahh
z=pL88Qpj^z)b0s4$d8t>g6|pgQyy%kl&*XiHL(^X3#)hx?keGjiPgB^Q`8VhiU`hm
z)tI!*6nqK^V$JY|{;b_z<nqv}sc&4aR!qmhuTw7c8pY)(V@X6y5_qCEUILj7^%Co3
z9*G%8{&rUFE;cXwCAZ&XncO_s45a%^*@b>(ls0a;qnFWIne;H@gcOC7t{kO%U@N37
zY;pS?!)*z92C8lh{}>i4E%PVO;c9enY7Ccp<70t=@lo8UM`M9-AiVS9&Q5k62exh~
zG8no9E`?}dd@#W8R$_rxT$~02j31aKH5CJ4E--m<JV30?6fz%Ol6CI@(|_nf0QAQI
zP0<bpfup+fd;kgv5S=A78XY(n9)nCn7m5cNg)l_;F9k-YMka?QMurBMwg40nr6Ep+
z=x7u|07!6X@|=99%aS<@et`*ioQ;l-c3GLz>tPZ1PhcX5?PB&$RJ4`x-FNZJrr<7?
zC1WfIOtSl@z~p#f62(Amd1bp;RBF68h+lqJ;GN?gfumoP5@Z!rOLK5YjNt}4I!P@9
z9v4O9a&#;pHPZU@6{IQT)Dh_I|00TwGD$I5TTFnfAGMtn!(*|DaezU&L}+Q%TE?Q_
z4T^jYMe3*eKSPNaH@#eTwYHM|&{9z-m_Qdm<3i_NshvQ2oxoV(?bHcRu1rF;j;b+Z
za#VB{mxfU*#NfnMStbTUAQF{FGaJJjcG4FE<6_{QHNA!|%Xi1GlP5ayS@X<|Nrf5=
z)kb2&y_+|BKvI|yfUXKQ?)kXolZXaAee%FpR8g*8KCj+q&r2GSPn}s_i-&4nU?E`Q
zNn8cUuUn&BCh8R`lF74HWep!hp!Ky0T9Csd@6es~7qKjzIv2%^=Uu|b4;F4j>SQAv
z11`5J@h&Q6vM6j}lP5v`&>Uz*=SxeV!Zo)&U>blyFBdO2d2)qSE~QjxTE54nnqbXS
z&ZpdL3a=a1RK2js=Fsunu#$ATC|c&}Gs`tiE>l`O!6=ZI9fR-__Lsn!=;Xy{bc_vr
z8imqIp&0XOh07nOHz?i_p6URYHuJk^09tyW_9i;gkt<{Ly{LFO@P+W$dE#0^xhBTP
zVndLyV&gXq9;P$WCc?9gbx9I-q#K8#gmXzr3uRzX93KsEr8-jBP6))IH`&cc-l>a5
z*_a}^cZPWTQ~i;0XHQ39XfiMw#TJ7m3Qxj-vs_l<uqrGs&ox&fUS!IBC^w8Y;Oz^v
z((vb_AI&FDMLSs6(2}p*{Br3Ncg_%Y!N`yp9he-s8~{?o`x*-YT8g1NDDwCi{8-=t
z(!>;i_#6UKs_^WQi?&`5QJ@v0MjF_Y<CEbLS*($EDz2(XLN&g?xH@xqhH|j-c`-QA
zvt1TSlrW9(AVwrB)@6oDt;agVcHn;^Fi{|%FoMR7DUKjpvI7v&)w%o}9fg7=8Azn@
zolpF2IAjc1$fF}%nvRf9@ps60fs8$5(1|$XmpQ<W6X#A?Jj(Q1iG)_NI}^sW6Lg9H
zlpKCa#(grjkl`gmjR}lSPrQtD1<F~osI(cIVsFW42ghPAxY9UOe*7-WIZz;O_U8zC
zpHANMFhGL%sz$JvLlP&UCwZKQCU44AoitS^Os#2WRm$0&bavl8mg+l_>^qX`do9`b
z+G^hkNOmRr-db^<N|;Y2oTt*iPNX$C*~(J3))iZ8+FO_MwkEx;DQ`#8+p+5Hy6ax?
z_TG)Bb{tFYIF{ORBDv#4+U16r%TC8bxBq&@wTi`_Z&&}dLA$dyD`-o|@YUjA?XF3=
znv<^Plq;BY1y^0|%NJH$&*f{<pX}@Z<N~kDO5a<MQ7dtzU2ox-9^8HJ%u4G^Nl(-L
z$e$1W$q+;_{&Zya=p&0QWvNeE>OVEtubLY_g-}^(+4Zy6&Zf&7>3>;0{jX?d^yS9}
ztJOHW|Fd$4ilxn#wAs%7`$#s!TLX?~GMo23@mlT1tY9@5*-0HY%srvAYy-;}fqo56
z^kqu$%LHb*vjx`h$i%rYRBS<&S1xd`6u5V7;9fbfW;CN2%V^GLG*KqIIpD)EkUu&W
zvcvu#V7%h6Z&f?CL;Z~$Uh&Hgeg*8pQ1qfg44Bl*(bSIgxpWi^#Sr-a_0v%*(Nbmn
z;cAj_5I3nEl_lTWxPAj)Clpbr9RDQ+Ow=k$g<Bf6_G3c%z8OE-Ol}^<FH??FI#UKk
zXQrb56*HAkWl$Qgpf(f@fZPPdJjmY|F~v*2Cq&Hg3TC>$C;S5=RH8_EK+%>zULLU!
z%~p!-idVAORC=ZIr?NO$uX5qc@hWbMJ9D9Jid3PzAm^@7%@lz$4N60ihf>LsW|RK5
zDw;+D6{AY!ZZoIWNU12vs!Bw0-o|oBU);f3!iVv$Mr<hv$CM_y6g5|m<(5;QsRl_z
zWmH4`(PlAgCv$`|HAP8rcf>u7@+(@z!z#4Kh<omMWPa<Jy3akuz@{ncp@=5G5^Pq&
z`p-GNhE3A54a>LeidK_*_ZiCF_;-{~Q`{?d#A_pb#?zej%B98J)~G3C!s<@Ehy`D~
zMjoN^FBFUrPQpG_p#>Y%qSQliNn^YT;uKD(u?pOlX6Tx@Dnbn)z%}NGavDWG0VzYp
z4<pvq#RKu$+tT=FYi9GzmdQpr7*m&0%~lp^l~SmEYEgtM0l`lSrwGxi2tkThcnFsw
zL{L%2COOyqFO;A(<34>0yHT%?*F}60f29x)@L!p@s1d%}{M9XrQAC_s1>Z1XgazMl
zu)qOUD5PnTTX0Ql2UNov(N~2n*f!I?Nv(oVpks=+Gw!Q~4Qkc)Rb@(Q{T+-q$)%kM
z7P-Z%VLJvVB70+RBUHOeU4m+gYtU!4ahJTVVT5<8#6*}#PG#1{bAU$DaQFH&BJMk-
z^8ARD-6@yr1cqAQuV3D0%_&$B{=a~(Sqa%E!fTGu%ZR`1Bz*Ywz5r7{6XUeq#=y%s
zum^frobWF0C(&?0qaE!CoCl4Pl&5sdx>GoXG>4Gx3hc|twn)lkKrNBZbx0!m#Xz8y
zsa@IH%cEZGX(h$EfvJgLpp}ll;W5x+&*CsOhO_Z_VC})A4+qD0aDwd(v<1efIIO4~
z30~_H=<W{mezAiqtJ#H=pc$rX3P;bKM4|}~oW~ItnDef{q2A*?yeO^x<CCC8e|hZ7
zbcCfd@6<#940FRc2NP*uB2z(;Oh@3$=W~HLr5mmwhp^({GGJr`5u*b`F~pPWsld6{
z7nLFJO#cg7SfRg$M^+x#0JrW3)!{r>T=YT!XJ8^U_P>Sh46f<OUfz-N0buja;jP)*
z8X3Phrl|R|^vwB=z?jr4?6kqFO0G}SBl*t2<wpKMvo;Y$Tjly!(PX>{lmv1_N0*Vy
z7v=H5!?XIbkkF)DJQNFt6llcl3cNWc)4*_J!W0m5O;E91VKB;A6bvRD!Aadyp0=?j
z5DSG%2aI-^8bkz?JpuY7YDyr6*%}+X9O%SY>@MgQHmwGr7aD_1qO$$U%P266g&?nE
zs#Gdw4{m^PfpP`|n<m1v?B2W9UEGQ_ZMtV42JtDbU^(ZHdf;;8d|)dZas_j9y1Kux
zwmc%!tTpY)kp_8jKuem|b_5us?sQO98JA2;4AZTbbmui)p3~Je#0hN!ba#bWJMH6B
zv7q*~s!3n$<>~cIdu8=j(nKb8)QmJV-NG7EZZoU|??DeXmJQ4{cBdkaU!<N5bCOaI
zwc2hb+*U-+mX;MpHp{KWQfidX3qAdeDg_2_q8gnPiBUXQF7Cw-7YHQ2i;RJFT}D5K
z1xI|5{9Yo1(U=YpbdZccg^|(YzAq#mA^Rb+m#Ju;Vp3i9*tw~}K}eFJLa|Iaqal!<
zslFV;Asg{rH<m~4b@G=~Q)xp7puT))WQxg1BU|w`%5^{Gs>A3Gb}-HuPS^T`y#56l
z|B{TqAmd+=@vq7FU&#13WaOz{Inib@K^{pmR>)W-qn8XK%7NEA6wc_*!_Y@VP?T;Q
zyVOg+7TU5x=LsZ_-i#h_ujD)ikh8KkP#R_;no)m<Um~j~zX*jSjZ<QXGW;_68p2GQ
zx?zC*SfDXJ6lNqA7YFl^Gui<tZXf8y-`0!?vyTOH5RebVxa<nn`VFm|c&DN-s!x1^
z@^#|~8T<D*M}dHMh6s2mTTK#*b;^myf5q0F&>v3p9A1TK>rUI;q&evO+ivc@v3td~
zB>|mJtz7fdmW})#LT!g_-nMXI1v2_}&()*zM;Cim?A4H%OxbIb_S&WT6?@}a8)+Nb
z4eFbDH)$K%P1=S?eUi(4_2T@+E3ZJYh&Nr^baUj!NK#)ldvI>cLNHz3aP!!WV@Z7l
z>`e=nhc@Rz-?#QG9$eb@`$r%fV=$(nGQe8BcyjUZQp3{8rNhe&%O{o(B+So&DY4b~
zn1Vow6=SPe2rh=Nbwb6{(!OQiA0WDxqHhJckiv8l6OL!$#G?D!o8NkI@$z!djhVZe
zmAW3%$+VU0Wa>%V><hYY?M&#~6aMy9ef!)_xXfLKvZaI2vqb8!8n`+v=v=as8mR9~
zU7x--{ex{k-236)L}_o*)|=2DN%S3Ag=y<e6KS(LX{%m5v5I2#tk{~C%Rj2QRde^k
zYVi4cCsu-crBe1trQA!UWa_GzdMD^Ka=EXYu9;?!q@86~XXa;+lCy61l}BK1dgt0Z
zOZ7|P51W5%_#@koZ1)d8@E@J+msR+Lp~Wit<3oRR^hZZOF+QkxEuk;XM>?@odS~jR
zuiW~|{p}C@ug>;w;A3~Q&M&`Nd!rUgtbW}5N9{jqzd!iEeth=OryF_x%+&bMS+>~o
ztr^tOVolqRppF*n+zhH{v0gRK8|UIzzc&B1#mlSC-~)3Tl))IxDScg1U#HMw14T9^
z>_6zJ{D0*Wzs+ELQVESzDRVjLm2fW}S~WM!?)$U>8khDa8}_oG(1nA@P(b5)Y%?|*
zk?ib|gtP96L$H=Dd}ZmxvhTyU!6nyoYbw#SZPl`UcK@fA(uHXZ9{q=}EQgm~She(U
zw_M<*<ExflxRK_a%A_7?bDcXN^OiF`J3P<Qh1jANa>>YjaqHs#gt-p1UV{<BqZUuX
z+xV&8^35Yxj(qdjm18M=O;TU8cxI{Lfxh|E+WJ)Ou4L^lBs+Ix;j4+3=kM)Ao7JK0
zRkJV8eMxGeT+UGYgPc)GX!zMQXV*gQBea;MB5A3BHl^sQrD=BmL%uvLK97-^&^IM)
zO@C!;kyQ3Pba`mxEov5bE}d9)wWK|@DNke40~zb3OLyI?o~<d*_M~U~-OH<<eV^$x
z?){qo<Z#aqEQIF<J{V3{)MRaf#s5Swg5%mF7;Gej?PR)uzHt52wNr~HmdwlbtNxCZ
z|GA|9xw|J4{^wTxJMKs3><`RG(|RrnJAm~r_sNIL$A5+uP$>j~XJ(p76%Yg=RN4O_
z9ASjgAJd?ji6|J}FJU4I#$QuJ!L&w1!H9IVPyj@-svNceb^^8y2XbZ40SHUVfZWAI
z6_`kd3b7L+3?u{Vp=Z!Y&J`jMI>@c+Ah#-uG}zP#2oWC>0HL~)*n(dn!k_}@L>Nku
zmk(kQ`r)=*(Q`ngyoh^65%<a>?o~zHtBbhTL`zwHYm4~vy4G#z8`#jdena1e4Sl`n
zaTOAd)B}weC$$lJ)U1q&hLnTfY|DBX;6Bc?OjrwN)NBScAW^?q58(LEZ*2Mj6v%f#
zc@UTHxGhn%B}GJ-F#KC9#{rs^LM@Rj7;GpM>0pJSa^PC^0)Etr$YnT;@MXA-QhsBd
z0C8VVa3h0)#fZd30>lnkaD!_KlEpG4jX@24B%M*m*;*OTs#Hb9RwxGgKVT`w!Y=mZ
zbvCI<602QKJ$nq2F5V=TnU#5s@$513Qp^UfxAp5tkh5pMPtYP6Q!q9cW$sfE5c%J!
zYX~U@nhCCDSIX9~VrzKh@}yktNmqNywJYh`_32tGkTRbGcw33%iCu7e<&b?zSDzvz
zS@R)ThyG@Q9qYu6`?_+{BzYE;U!X#HiH=Qj{C#RXRZ$X>qg*d#t;kW9U-?_g?>7@~
z7C)q76!sy>53Cn%?(5n_xcUE~4z(fftnld?;pYD~!Y#5?*CEawa(JSzt3ayd|D^_e
z7O9s0B4RC%P-#4cs+lq4&w@V^CV^YwC+;pnp4Q~AbP9x8%*A5Fwa^lQ3P3oexZn$k
zu2{$FaLvJmrgO`DL>p(XH?0wg&WTRPwGfO}5s(h*`uUip6%`^dv}ET+V8lDHstP@e
zOp0ZloU^h+81*Hl!QK<Qj%1klN=py|CtF%!G&Dib#OCBnM7pvzRk<x$x$W+SpETYJ
z-*^9UFi~-E?p1~Ry`KA;kGCf(4!~6*(GpJhcg`PvSXs3gxzYNA1IwD_eYXtD7yj^g
zqN11LGxw!^i!~IjY|*{&*4*Lsg43KRL0mBkmDzc+1LON)JT-I`##wvvqzIxotWlgs
zI~wh{k40=ZY-3SwJMf@SVktM?)^j_1YQQz)p7G3hXMErzz(6ScA{xpcl1}LK8BczI
zMM{UDzcQ}*HeTwDYhhxKR@<21V~Fcu8sV?9p}+@f3Draw;6uY!<<1;Fmbe}!O%SC>
zh*Ws^*x*BLTkyfh9yh=&i5p=$;&zzMcnM5b+zrzm_rUbTy)eCT7fc_NwyE3!!^a<Y
zep~bRG)z@l8JGG0yP!0&xf8TzTtxp;>L2ISI-<RZjLb!xU>VC<nHz`Gxkw%XjxyH`
zBVYyn9A6@4f<h(k1tXH~o;fF)+OWJtzBD#Dajbw~_69s+lmJ7$3Jor(HV5zNvI7OG
zGO_U!mti^0>i`Be=5>=$QIjg~OqO>pkKX&jeb4>3SIhh7OXf6lJ#*m&_X5=1I<CGl
z|H{G%(1hyeUz^iBGFSbz;I~-+%3G1u;rC~bDu{C7*k=^Vs;-ay{V|AhF;%v{(yWEt
ztwL4Z&CcKN%-YBXwM;xz3E7|pfZLoD$0Z<+o7_Ee9530RWPykBQ>ap*63UneDi=y?
zvlRqY3KdP+DuSwo@`h{;LA8R@m8~NvKu|qF4Fok3)I?A-pzIc=DXeA1+mdY|pH`vm
zu;#CW02#7!OLI6_v55>FEgM`wZk(Wx$hb?!*U9(>8CS@-Nd}=5g<2UF$c@%zuI%CO
z5k!5cuAkv=$cK!-!b%gXhCy<5cA+Wwnayh0#)Rweiyq-3by*YH%#e!9S_rZVHTA!s
zkWgnux)<yQ#|H9o@Rf8g0LoUcm5Ed8VNmE^&=`UwJ-3m>oZrB8FW{HRV9>ol5SN%E
zh)c{7#3kkk;u3QNt&^A|$ETH;dkopY=dxXG3f*FWQ3_eN7}@f=#mJV|Ek?GyZZWdu
zb&HXW>lP!3>lP!ZK(`n<73dZtrvlw#<Rt4BTRNEZw`QxzNmek%^_10+(>g6<<jA#*
z0pe#U8ZHCMO@Lsw)qRI=b=E>%pn0V(sv8>QuhdReaHZK$@WEAO(}JrC?E|jLa!M(|
zRb`8UtE(U@SmCO&)xcHB3Moaqqm@}%W(;|WGc|d$JPXBbDQ^Cy9|$C?>hz2oB05N?
zNr-~XL@;BAbQ;tI$<k>N9X5AMM2Oq&80FG{USR5<KFjgt07+~Se>|kY0^JJEbh?ci
zm=Z-?w1bm-t!_`c;sTFybOdq<{qF(emKm2@C=P%AguhJD*M)u1#_or>!Xd^E&A6X4
zHtD98WV}QHLq)_+E$xi|3hj{BZh07N*8hZD8pt4wo1vuicFV{VbVN``so`jJl`=7c
zw`NtDv|UW|4er6h(3J7pl*I3lVW2{6SRB6g{uu?fkiizs=Kuvu_#GCzzGC-P`OTS?
zIzhn;E~rY$jcv*Q98iq-XxHq#sw~)jBI&<8MBD9uKm=^J)q=e=VXMgsdQgb9S_|$g
z0Kw%6)`OOmw>{}?Py5Q#)vc-OJ;~}l;4)5CY)@8fPx}HXUq{l{!3eXhNl)uW09c~k
zTaxZAX&C?&-DjLV20FSGRN=L}&5cbmdo#4M*EKz1TG<U|D{(dZh^x7@43|gr-(R10
zSEOD3w6`K%Rh{;h5o5F8MvToM((`r3gc=VhR{%QYuyrPYeTvRylW^c)M4N{}@zlMq
zpD}`!jY1cE@{D6_vZfjHj0H2uh*@Wr=Txj*!ER+Lhz=_dYYHu;4P+C<Gqp8oGPfeB
ztwJR48mmDWRaUdjV~QP{l(7hMub$tUx)`pMZj!bsPb5U$brCa@-Q6sfWlb!-xLJ7X
zn(*39!`qbMFWZA9{dwhNYcz0R@NhlDG+F6nhO-og8AOm<1!#vC%|!cDx?us;_5XYp
zp&26pNB6b))RhW2GF>6|I#%w*9%<2|*R>-dNrE;+l29RbG@kzQ(}vG0C4Sl%Jckcx
z(WpV;Nok*JVe9-wVBhf-XUCFe>A;7k<(?1ivd;18V-lXfpE!!%U}b)p3;i-yFenxx
z;hxB@z!bfKes&BD3(|Rqu^)8>`gaAI!TEBOehyE+^R&s~Atv^un8caFbd$8kf?eSA
z=wcS0?8V-^ZTiU5CN5F(WWg}n=+<m+U7`^y&Gf5Jn;sW+QZTk*Q=&vA(qS~xHT~Ap
zrnMP=$l8KV?|a&GrG0RHT~7v0TyYz*h-8c-<7dx8ZIm?<Ju`JSG(Lu{lQuT4GHy2@
z?6z)lAS_6v6`60XZ2w|ASqZt(L6U0$d=pTN7QXzR#y7OqryaGT3n_ks2CWqUb~@;2
z>-<S$7K+w7|E!Vpt<jad(@jtId@yuHdOql{Y|r1Tzjxw+?Zr>cj+D6~X|Bj>H6>LK
z`BO5q69LzD`5&4r-@J6?(s#CTjm|5kEz1obwccv|aWu94NOJp;m9`^m5(qxzr&j6k
z%C<BqA$sg67dCA_#U5Tk(I^v;m{v?x3g5T$zPRAdc~BYmKG8v$Cr$}2|IbX0oLAcZ
zT0RaK95}sOxgQZtmUf}XCxMn=A=9X-OOI$G`ImuBAf2F53%@mC%n&QtEDY3uZ5jrO
z!ql*Ryo^B$aKT4QFB6MUir}a!?vdVyS51Zc<<e3L(wNjv7?U~dLTwk$rK5af-uxS+
zqkIisy>5)Or!K<8$$q&qnPof%Ec>b=PZ6de8Nx;?tu2ud8KpRvqVipN^%U7#*F{of
zez~-iLO>g(r7HAQ(2GhDp^ef~Czh@)mtE0n!X`bL!`|{kRWV*v&XqaAA*FbdYA&F`
zn^Xmb@-LqgA(g0q1z#i|!d4^=jf@A)*wI&NY2-tI=(<S=g{~DKN<zdDaYmeHwRizs
z&x^(cE1Y=6!>M*so^em+RxGtMbKD9<3keNs6m3iUO2HR*D_*YlY?>y$T%DiWo2BRd
zoYV7dlAcjbkU$=p&rojv-%&oLd3uGaP>&Jsgm~#CUx*P}@hXWuFT8?LL3bntpQ4U|
z0xwwc^0Ku5#Qj9mR!aftO5;x%KOb|Z45CFW_DuOEtz?Tkm=F+j5Yg|T7N<MqXsdY2
z`1W-%D;4e5pe!ec@h*KCL}kh$1mul-Ft>b_g8b$*#B(;DH@Q-;%e6|;x@y8gP3ucC
z+_K&+UKOv9PsAt<A%X0J5NEMfpn9felNwjXt05Rv1NIT$`WoXM_tK*Mjrw9-NoQ_g
z7Am6(TA3WsdnJWY6@bc}L7A{lyIiOIZ$xv)FONPP`%3#cGdJCfihoH4?WWTm(B=d^
zKg1V|2Zv*vt^Hj1y(kkCi9sV$;0${{nqKgou7p6!g&fbkLNsA;41T0bNaiVD<0rOJ
zejQ|VQl@oChVf!cL_1lSK<0l(09mC6Kk*a>5WA4fVbPAs71U)+`y_n@jg$i;g7pxz
zm5gpOfRYK~zl9Mj%~*0;kP0}^MLHxDa-P%X$QiK@5Ok1?KPBT385uJ6laYdvX&jI!
zi0q_%aR?8VNi65`X?b*1{Pz@`C|{g`{UM-WEhoO^k0*4!#-B2#lRa0F@Kb{BlR-03
z{AXk^s@w`eNit5szze`oaQ8oxwU-Ry_Re#5i~lEC|1%7F)S0-tFJwv>AazMh{J$wg
zmO|LU#hp`wk|Cb%oDEsfjEoUOV*Y%j2Jth~7Uk2wYX}MawP4=QF|iU|`cE<LV_jGj
zabog-)<*2x;KA%!wbg(d7?0kru{+CB&ibUY9*n?X3~s?|tm|AJ5)<+U4C0KBd7)>1
z*CONbUDn{aOuQ^CF(z-97?a!RM#gn@*Zi*U`%@Ji$%+oVkekrIn&^6U6{f8N*Z&*(
z=Ckq9+p|miZqzV-^nHoeeXII?2^;v)SqckbVz<8e>Wx>IF5Ec2yf0Y|p6<?s{*^@c
zE2}VVovH!Z>$(RL?FUx%2iWVn`NUqi*?*&dxkpau^+fmUtNPaq651e8QBLny6Mek)
zy$^G2+Md$u!E3?Aec$ewJqkW##^-$D0}CF_HQTRR<}C~LAJ_{lc<wp(pzrL#M|kPg
zY+2}An!303zV2Qd4v&80mE&NaFGnBXIaKz#uFSFBepmBhccOmlPqzJZ_s6?GdGCS$
zE%1O#+~LrBk*M#<z2oXXxuMsijkvitWc6lGkrrdz#yh0MxXoFh%b`A<UJL&In>XLN
z@y^`2RY!2SIq7&V<=B>VY`b^hr$;_Ml5lKWbsV03Iqj=neDm6Cv&SD<99OI6s}{nf
zLLbzweIFVU{w>Qx_l*xMFB6OQ8t;WKE(h-&eqcE;yPuV-J*jVJjM`wAh9(a1N=r|q
zN?h7_pcU-oK3UhOX6fLEU`$?|xqAd$?%w0G$JX;}k1X$hpznTE*O4~+79)3??+<*k
z_5NveQ~<2n)wBHzuSl%gxxB%ojl7YuO5Vg5ZkyXSZ@KE2cPw03Y+BNQoqg%uRP**^
z^Y*(J?ls-ltTyjYH6KbgAG$xZ+WdOb{Q7?|TCNPtg=Yu8F`UKI+HOWwz;z3e!1@nM
zif{lkoyfr*8B-_}86Uu-QqF;KTpKab$5>bR%z%jXhSP~MTj^QzuC>packyS<yZAzd
z%OUb7B{v~lzKlgjGLE(3L5gDUpl2+(7%Ye)3Rjw=r_4mGbCMX7jb+a1SR&mJWZIvq
zI0NhzPktq|>#1Te?hdTw(B~MM8p9nHK_a1PBGK?O+ny>F2!etViAOo5=Oo#cQfBv4
z#bpQwr;#e2pJXpqvgb@PZBLcV)a1}eOk|rh-9BYpEEa9L=pH8TM)#wfQNclD;djY;
zl?+B4yhhL<j7*(;5%@Z94SvTMdo$NMLlpG8Wc*_?7&pS7Q%pO<bs$pKJK8fS(%~oL
zJbdi6eJA@uB=s3OzVGdf0d0h<N5U{9&z+$|eaE+wC*P)@P@;cB23?Oa$|2hfIXBx`
z@`zGw^By+(qI<<|gu{O!_Rla@vO0}M^O;f5wES;E(|;7~|4Df1-wH4NJE4*NKl)3p
zPNV&WS*y|h(g^66W<hgO^Y4V<&n&)$w^uE-v&O9PZJh=pDsJ|4n2s#;t_2?Y${NUm
zg%^tq-Z9Ram=*69bE}0}!I<E?Ix;_!wK1z5uajp>80Zixs<Tc8x&(JAy;`<7nRGQ~
z-OSA+MO-|Ybkt|P%+0sP&ClFQK~uaMpN}s_lFo)~8FRx@$};6~E0|lQ;3>OaeXTlM
z#jMq`wT4-1r4nT8m^C0<>zTDd4&2DBO|ow@vu=?%A(kRZ@Qk!Dw^l0ESLVNx4Kiz+
z;49CzGq6K&`?H-4>;gMcwwr;^DPKx^+(T|p-ZQ?Y(O4Jvr>gfRtM@(;$o3?n-L82q
zQQrAP!0!`L^E_;IeNP1ZX8W~5SxtINTRPa4t_^%vb55f%rcL&5#;?S)I<h>pI<I!j
zcVrD@LC4u#%xYp*vs8qvg<10*$E<d_2}+pNAzPiyDtBPk&8!}|fxOJ>6YwCMpMj-<
z+m|h4V7U~CcX|bLs}vervQ-SMrs2V=0FDi#?VImjdG~Q0^La}rKpmE+J?UvrdAgIH
z?p06EtTXMYS!llAeyx2mnyT$d*7mG=dbt$NtP`58+qyps4r(>F+(0JFL#c5LWI=oI
zk(7nd3aojS7G|~5E=Z%^#;inWr(u`HYitPYkgZN;b;*zGxtY}?$MrI+PYw(z6T~f*
z8y=6P!72~lYz4FC$1Sr~%S~IuthIvKmaSu8fWUeNHW1jzz$OBl8Ms9*R134VQd_e&
z$+ihb>*IEEeR9$;M1xM7D&LhX-}OWwTXsx`NBA(RKC9TR7*T*9O3Q))FxpRgU(iIh
z{BR;$el(HIP6MKZAO{uCNsx;mH$fhPyaf3O@)Lw{qgWxz$f=ylPXz+sk2F52$QIY^
z&;XSvVQZ2O@IwhU07fAlo~(%=GYv%xK~_r1Mi4mj71@-KlY`pENzi+mFKIOH+=L=a
tE@`qLZFwbRR<peHS(r871k8#y;BPFJFsnlj>||D#RHY|wvN8<j{|8~?R@wjn

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/deep_gemm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/deep_gemm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..24a4238aa08e975fc3a5e2925345f6673e73892d
GIT binary patch
literal 15603
zcmb_Ddu$ZvoiqEKeZT#Fj4=i;*ajPjDIqk3@H99fKpq>??Xoj#ue~p3b}_i?i_=45
zO<G~p_HdM|;+(3hIgmo7N~Nbt?dhabs;hLnn4b4Wj>_q{O8swBXj7d|y8HdUnb}>N
zwIO%?z~6k&-}nB#_n&PxGX){0dq4X90gCz$%&4JNNj%!9rKlSeM{#tF3gA~0qvLdd
zrsXnCTpQ3SX?@%f*3eYkNMeS>rhu8$YGanTHDD!aUCb7@2kdc2z(Ml*m^1DQxZ>`B
zJMIa1NSPt#jr#&Vk~YTb;`M=gl4fEJ@y0+SNt<F#@#a7?Nt<IW@zy|Vye-g1@|IY8
zoDHxfZH;xrHv~4&l!oH1eCI7%URz)zXXCp#JN!A|&&h9!Fr4eMF0h$%^VHa@>Q+>~
zoM(-4?;7PYOdr7X^X!-IUAG3*`ZdZM_^ybVYrL$xrA#@nMME8?xTeb#*UX#8Uazb~
zP2Gai#SrK*QPuyru0PuzeA!jBtg*V*HOkxgO<X(Q%dv2V9c#3qCyf-vZCJOqbKP2J
z?b=8SxAC$*(07UUZ~7f><glNXbm{Y49KM!lBAO1yk|QI$;MYi=Lm83hP9zVW%!Cr@
z1Ia`rIwCbjQoDl_yF<H!@gyHSk2S$Csq$+jS2!6@Wzu{w6pM}|crJKC@^U<%8sXz{
z(murtaj2JC%cYrwQWgv)xS+sunJ^DiX@p^475G$0;P)rEL(v34oaBe0@Fp$QpH8NR
z-r%DnqiLvojr18#zVa&cvjGSZS_Z?R@F)QU;DhPpIG+fP2+2%JnKG;bR=8<|PY2`U
z@^s@oEG3c@a5?GdNG6#PgR#)1WF{@Kak(?B2$xTmBd=R&2qQB>CJ{^~$n0&SAu)(c
zBuypyghUTZ^pIo__;f}{gq2H-`wwrNqA>qx7@`|gT6ydgr9KLdZiJdCZC0D5#+xYW
zA}zRSDobazlLojX^msQZW1vh^U3QA{YlZ~`@23R^esqEdK7tn`A4HO#oRg@7Gz;Os
z-rAOqr?#b{sor!*fW7Ixm>K-a?(so>TP%8RTk2AJG@00TAr^~oizhig7UVDT;Y>Oy
zY=eE`1#w#hFAN^^w({aJ*O$5^)derWU|eNag5qch&IT4lZH7N_2Sn4<vUOn5y7SJ-
zf^~5EVA0~7-9NMEp5^(ujye7V|NQw6`XIA#@{aH3TX#Edel4$i{t<MeB-?0|<KT$J
zbSTY>l4hbG{sva;GXw3&KK~ZBq}D!*b!prz62|mus`BM%6%o_aB~6wZgD1K=a9Xtu
zoR_9n3-wgb!d#|wQ~D`G+N45J>o_erabwz|*1*{tvU(NyiOo-$sZMU6HD-;s;ErG*
zb2e~#yg@?aQ~Dc}@$h1(ed#f)oU4x0b~QKVR8y7j_#m8XE9}Gnsi)BMlvx_HHRn`&
zJazAsv%`n5DyX|JumE?xdMAvqPQ7^GDf4FF?yS>){n6JS`&QM7T{8L2lfO3O!#*&|
zhsW7ygiVj~>`3$ipI}o$@?4CMvxqF&sK|<$R4OT?d5%4Ii8Ol|(AQzW+bltwJVyW_
z=3~csA;HJ`SayFb#wH`|i5_;ihaF-8fs>wuC`2bi>1Z;+o{J^J<MLZ);~6o{p5qB5
zg+kzHU*|^p2qJzO9`5#ky^nOB+*+O;7ZpRW5N;1!MmcOEnPx*5LeUu3^c^BNaPpHU
zy0Bb^XVXbGgTw{N)rw8&V^8d1yF^%<{29Uz6td!IG85z2eJ?<sta+HkL+bM28%sx1
zF<!*Y!9J%)VT0j6nOB141tBSrJ`+4U5rs{RgdjQ>f-{2Yq=jfYndplmWthx8Icp$M
z>@d6c1$I~ez#5Yz1IGDKLS(ClSUCcVfYLZMF~x_Yk!To}1}K@7M=}E36#=VYUoxq_
z$wN=fWDgrn5Tp)+AT4IO^raNvE&BV|iT*y4k+*JQppu(>zXlw+KkOH5OE?|9K(3Cw
zUln59$F4x~eNnNBQg{26q59V-AE;G++HV%zfCeOk%=AcRjz5<fA!J<A;nN_5lMpFM
zPgW%9f!>8jC0itx45fDm`JM3{k%VMhF&jT4v;bHEg%Y6+BYf`?9VBE|Ccq6)A|g@3
z2Z}*Jq%S#F(@6oyJJo}Y-vHKNntJS{tc~CL>M~<rVj2rfW4`I|edb8f;eEjPmYAjj
z(=^w=$h1!HFWQ~gMrKCdkG^+!djItKT*t#|+WOGaG2bzNa)G{Y*;0m8(r9fj(<O$o
z*^5>i`R^)PU5`Cxlett!IekTwITya#P}M<W+gmb}+dsA$p`{aAJ}{cDTzv21cXus$
zHWfUZ?in{NZ1|-6X7`WzrRR<oo;!MP%h58FqV;sqYQJ`5=7{onY}5f5Gk`(ZO-t6z
z1?%SfR)5jqT5_}(9PRfV9o6ZF>SmNQ8e3OYpGD|nwJ%v)3f7iIYg=`?YN{58(2RS}
zO!NoEa45z@YCugTGI8J^Q{&-kmH<gVVJ7|vXL5zPV!C3!V!2|yK>=znGjPyG2^H1>
zko&sz$jphxV<5Gv<mj7p8b=~QEt6TotLCSTHl>Fa3Q165;P<K}U1na=cn3)sBhs~+
zlfPMARzG9rw6}G)l=WXV&6sA)lYpGAGHILIdaTR{s3pjnLSH6A&sfrB2A~$3a9gj!
z24<)N5g+ENkTt+u=-URBm|wMW#wysz*scm3vwnR<mt%6KoH=L7StEMRblEy()KI`U
z0W*C|VFytThZ118D<zk-eskzGI7&i~$|&vF(bJ+#WKq`Ox!x**NeBVYLX*wW#0U$h
zHpK&iJ{JO>nFUG-_?7^RCP0K@(@+QKkYHr!c@*mbRYx)jK#<8q4<dHJjbd8Jgn`-t
z{YWK6F$x3^urdH3pjH53#UyEmJb+BXfqV(_gkT0py@}Ao$uxF2nFi`O8iJ|dz!M>m
z+)_xz_=`X;kWm0yB`*R9sensD$V4zeLK=z2<n_RViV^5Y{*;!0<ujp}(m0xk@B$B#
zlRU6YuKOnXWfD0c)78<?1)L7gilI2q!lOI~)CuS-&PGU!D8{<wv@Gq3!8o4|`Sp@E
zmYk4uqd=g94RARm1IJ&8hIyeAGSErOMdK1ZAsHv+2Om}ro!ldQ8i=_c{T5F8d-}DW
zxB4szPp_HMPU$L7w$}5Tv1D}-&5Z3ftzM{Fl0p?1S$?8qRwTNmpphy4)5n^z;&a6j
zt6<i6?6)=Q!-9ucMmlS(K)VWF`H5HNSOw3RMhTPzL?<(r4=GOfeJwnFWxuDG8OxL@
zYvK&!F9W@NKJ8N5XZ0MFH8oLLgZzzv?3JY<Hp=-KyZpUX=6$nFE&iG_s(S{KvI+JC
zcA#oR`dfQ0QI{w`16N7d4uktO<U=mXWT*PX56btAJ$&%Q3H4EQpV<Fq@Wcxe?FXF#
z@CWHoOww_@7$#TwcX(33XyEM=HbNxn`FJXQNzwo((S>;<;U#tqNX$8s>VHna-4{@#
zk_?#?2STmiA%M!05_VvO0<%OXBzj!ZhWgJ-W{BkLD@s~aSm;vcLV{$LX&2}|M9GYE
zeChZr2Zl~bdNN<hDD&oVvP{XWyq+j0ig;FpCn3=^2AMlC24y@j`JDVE;yh7@jEq!q
zV?hPK^z8-iKNJ)9^(p<n2Y|&dAo|lZRdjo9Y`VVbJKZzJ9G&aWg_iA}YvVKHbGzm{
z=C&-ne&4=x$v#-H5B^NQw0o$qduY*qJf~guHQjjo`rAdDdv^a^{q^H{YsbQ-pXq;Y
z`>E}*R#RurnI9V{hqoHg&vyNM-%t15w;#)CA38imcT2wO$fv$fjh~*+cb<e!PIFEN
zJVRY`&Rn!N%=KSQEL(euF7NEyvtxNz$NZj!@rB8J=bpUt`J&4`dwAAbbb4loW&?RA
zTXZ(fJwJCW@7(;@q_^2iR?6nOHZ(IdM}KR$*w{HgQfTbW9V@vgN8?=ow-bcV@LS}&
zfV(VTF(k&4mQP%e8eczt{6z53nNtT}4xV`BVDP|^Gs8o{Q%3^_<*Q>908d8~X-N+e
z+!z<=$oNn?2svJe@qi>H!)Zb~{I)9g(~m=K!DuTEWx<P~U{1+dIrt#C5yDYyco3sQ
z7#+q4UxaW3A`vOHdO2RiAYYBHXSxx>YtTE1V15hHe@{~-mIBsqaAt6}|NT94?vLs}
zsGoOz*mTd*nb)1kcb!>;*wXpXzH`z3+@13U`&Xt97v0_)o3C%4>-f%=>7k;{aqX>{
zx26w02ClVjnXxP}T?MAA$T*9Pr^q;p&FzmZ2Ag5}Ah4zG`nk;oSI6|R<@%NzQ`e_}
z!<`+PpPY~1J@l)tf7$xWt#BI}40)Xw?vT5F$<<wOb?5zGxjXnNecyF#`dCTl)%SgO
z*Nwf`_m(I~-tPLO=Vs3rnEaeXJ(S*>duf)ruWS4_odr|B)-{qt55scH0Yw4~kIn-2
zy8_xMo(j+$70_@r4|p|4MQBcQ*&5LCdQQt5cw;TLsdi~ZgJMKP!|AHj>L!3<hB7@U
z_AN@<0BI|vjbo^STNR+K5$f$6!#g+={F&j;0)JNcv%#Mo`mw7zL6&n6#Wl{^0Ii(z
zY}QIgh@LCrBt{GuDDd55n`*%HtWoY=qujSfdEFZ2^=p(j@Lsas#x?5YwKlC=+q`aV
z%Nn(<Ym~3Q>uqqxZCpE?n=c1i;y@i}fLY10igHQTYNh=Ob_a<L{yq8?MBk%9Nm@RQ
z86djf1_>Zrr33|8riN@$kt|fUh{!aWW7Ick=uv}}NtaoXT8hFIy=zDrf(p5Y0#dHK
zMBSu^{U%8dIxb$2m>^(FuyX_@OO<kp2>Oym-Www66ND=hXb&0@fM-<<38aza#6lpp
z!SJYTQ~(2rPUK?|;S6k>WC{kuv5+VRgCg!J%gQ8FcndO<4XX~NPo2{ps1*@c0D)X)
zY%|6J(=gX^pV?G&G%q<e7aW`KZ#}uV_0&DbsXTKk?>JR1zrAZ|>%PL)efJ#u^31-x
zV_(tJzU0|)&$A=X?8rNIknHw*p6z*Nd)~1<@7Yf9l28YOg%xHJl2rzYG00TkfiZ<u
zBdwIE<_#z}c-9^f%_&NF1G>Q$YU1NkgKBx&U)Ba4N(%8%T4GM6fdGaC?j|jK4LXQ8
zb47LHuIP@?jswlb$qlPF`pGswK`^Lb0o{t3vN>dJ!;*D-!Mc4Jl?SMNkh3Md)@d$L
zT9aAE>DAi?0OZGmZ{h}ZiN2{BK7ErCILKDd(xqrxL3=ftNsNQsG}*Cwl20`G1ps-3
z0ywZu4$m_TE{s59VHBg)6Y!LwD}+BDN<G2f_SI<gj|dGf#gpUX%^;WqZ&NMfigLb!
z1-q}FQF}zO?*(N=V3jE_7>%c5liOBr&{I166O1C_Q1FNxn-(42d8S*w?I_Jv8NhU?
z*^%5MvE;c>ELhDIxd`W4T_p5E-{HP+H3mb*jja3cAVI`K_^uAqGKQjX>sANFxW`n)
zEzmRQz}Ulp=>`uR0tzWvref?9Wq78nCZd@#XH99P9bjh-r$JG#qN#uu7Svq8*P1nF
zEm><s3uHkn8wP)e=jPW60r&_q6B-X)1kMqk)+%G6fLxo9!st9kxEq8u1aTrLX5x~0
zA}NfEsZf~juSyR{2EdV^kXXSt68=$9c$T}#RswO7U47cCTl^A+7B52t?4y@*dS#tp
z-mx{$Y=yY!u3K_%D7ZJw_ZQq<Ipeak0~ozrI`7-GV9fU)c%;?1%sD-<{7&EO#LT<%
z9rqlad8RY(=zLJuJa=+70D?eW^IxBucg=@Bu3K<@__e&R2g=-@*^{$%IRi5N#}*8E
z$F@APO}<wbaW_`#d?hPhF6By#5<_wzU4gV##%g7$3*Mk)Dob$^6H@h$mh$5JcL)<O
ziqry%qu8Y&D42ldS6@sr0YnXUIb2Nz(XdEvr&mXAr&+m)miN}Vk>%T31KXGD0N(1L
z)M=)iS#2$KhRO{PC5dawJ>{w0uA(cQ@@5%MgY;j}WW7^NR#yvd#pIgxRCtAoQ8jC*
z*{jUQtWjS!<Yv7UGpxD>`PF9a6|Lx$ucEok+Qv|{TNTpflNqa_*#t$1LQJy0tS3^|
zJx<kC!L>r2yQ;3fs?LUWoIzIfl$9zCRV}Rl&sjYQy|D^9j$b|RrZjpOkdSo(<}qZw
zfW_?Dy4%KEh-o04g<CY`oH9=}Pqk#7PdO!D)!Ej|{Q=JbWKaZwV?-@Z18VBC%~fh4
zY7AwgRRJ`+4cYoyd&6n6ZgnSB#Tfc$O|_=cTtEW!t&P`-Xu~nt#@i-!1}N-JwL$O7
z{M)jvFiTx+Ej`pUt(d<<@Kw}eV~A~51#l5iZV{*j+to^d0?q^37TACKwz<k7fbv@u
zI`BUbgx%1=ub0vOR!9>(4_FC}qv#w%P(CQfI<Zc~#zsjKIuFQ7Q9cRZP<shem_iaE
z8K4$W)oFAn3MXTkcp?}Nje(mDv9ySi9$Dz~euG4Z<o=V`iviPO5E$&Z3<=Sz-zn3n
ziY{XV4uY3Sw$h<uLegD`@)H%-T|jD06lp>hQz$@4reuN#-<~LFsSri_+huxJ1BVMZ
z8F^ZyJ0X8$ZGV9k?_xBK5n^VUB)*5K7ctt5QQ6r>rkWWjgAD_99WG8X#^e3CJCYG-
z0!f%;351lz;{#Ym)GosN*wYjmQ1%)We*@=5JY!WCv&L7ZvU)-^CVi_(D=GdBKoMVn
z+X?h^Bjs$&J2vK-jSv?d^?65oo@s{|_|DaI*5SD}H8Yhb>=ne&VnzOey*Z~<lr`V+
zt6IJXEo~ni{^0QZ{tu7knZ}}}b>0oio?^#9-rDxS;kq_4GckMq{mHqLSKrMuZMk<J
z0`<1nU5n4e=k_n!+ls!{8}D3yXTE>Y*HvuWwp_P&v2Nep^M$(o#rA&C^dMyi6REdj
zzUhbUAGiNFvov_DFnDafeX(QcQ$By@^-lwfo;P#Mvb%lWvcTUtxe!=%?*=9T^5%sz
zclO_P{pirbD~s;EQ04{3p<cEg{$STq=W~V5=kjPs9K7503)e3~|4?_g9heE9IcEZe
zk%yH5EF4>O59W*yw;d=t+(jSG7$#b*?|=ywJ<X3D%yx5u>B(txZ_SzKkCfb$({t_O
z%*8qS{cp_iWme=N(_OSVXZ<kXoG`!hhcA5mLcXp4&fwi+priupC_|ZS*BmnrfN^-?
zjZe<rJbQP;-Oyt1i}#uR5B$A3({kfL(dwB!z2xgE_`2pp1z-1F?o&VXZZgl<ad=Rf
znf&Vw@;O6UyO*2UkG}fBR~Pm!Ht)_Ie+arYyARjY*o84H%hUKrH2V@p$X}20bpmWO
zAYYq<;QhsAVwkoDQAm!-H3D+1L=u)5Fcra50Cl)NodKr_A%s=uFybMSbmx-Em=MK$
z4D+7TPx}4|39QkgTGV@x=;u$P!=HEpEI^<;4+)pB`$mjjAuYjbCZH-B+y!MJJ<P{q
z!64waAe0hmP1b4(r?C@8pJ2sjfL;G|nJQ`Y`u=>^?mtlQE!io9y`(Yd%@0iWoUr8B
zQgCcpcxkEUaG~dL-f_5KI`Vrx)IQRx?MhBs@15WIh=Nbafa%lawEvEKssC`H|1g&L
zO9rog`vZ%;q=zr?t5!$Jh$%Q0N6CaKGv#oXESR!Vt!&ALDLd8DUUFc{Nwu~wwd^Rg
z?6|`fTK1G&Sm>tAj$CH;)LiH6o51|)=fev-=0`tv-0|HJ?;f~w@kj95Uo4pRKk{Jf
zo-;J8%;~#fy>2b(F$42xXuXlWo-G+k7WA&}YsY7fmrNuJBD9>fkgSygRcq{etYjlu
zJLPG((R010<RDom<!dOpNYah-_mHHQ0ww?P>&NGJ7QCBFK2lakc^gshI=>OT2}<>(
ztU&=b?*%@;)JV#jK#zap?DeyyW|D1DK$Tiawr$mhw3AYn+Pw9P4ou3-JUR3-=9i4X
zS;s)Ekts--1Rxrhi5Q^+;cDF!8p8<Z{R2o;%frB{=uir)$a^YJ3C2KG-m_OEx-kO)
zSQRR~t=hN3p=RwW2cU8;Qx33RJJ4hX?xA|%1dJeCnt&s-fqBj>gGPxk)C-i<j6{TZ
z52=P`FftRDUa%Fjq1_X^dkK94&lrw95xofBtUOv_<yR-N-Qc$CXNfl`0hJMnU3enN
zihP>*LshyfPCsDD?hl?<Y`wwrJtPIPQtvoB0)9Y=5dtXAhetz+s2E3YDzGw#z)R|)
z>S+}XD-J_w&PIg+kL(J}a3Y!>ElZOGj^fP5qRpz$Op0C&34pFZmJ;`neD6v>Bet73
z{PZbSl|5v9B5SEOdi2?XIl<E9mCI&q+{shuPql}A8$9HO-cf*qUAq><NK^plIM^lJ
zPH-}2D;p)NX%r_b@k!`aY6}>rhaDJx2Zn$dscu!cEh$h%qRk%cM<RF%@SI<r&p^%j
zh&*@~aDRpg4ddFs%zTtbRdZI6)Q$m`FplVb!13xPkvp{R&b))pWpA(8D%hv;9>@>*
zOO81ZJpX0KEMJ3a-9XJ@)x$#{2k>Qw^#V!j-KSgz&=;iOZOFs-LM3P#K(|m6Qq7*S
z_g|HQLItHDJGL7MFL>1*jj*SM4Bx{7l}4>9x$8)>W&h4-qL(1Y%0|4*M?&BM34Sn1
z_7E6<6}OJwD%U=?8z?Zq#;06ShLoLKuqR<m*-!-DB^i;t4{}`iuvWdbUiL{19@`E4
zfHDR#$v^2d0-iDiw%oZ4T-jox%2IblE(6IW#dg1vLJyo!?ComA@D2>c?pINQay*K6
z3XH>n%ZXSXAtEH@eUwL5n~@Q5@%VU&{&8guTm`I==TZg+zmWhB8$O1<LW1JF1Djob
zMr%$NcR#7D1yD})%PPOCP~}_|WQMOV1g<ymnog+iN7YuXvo~uGR$fSXP+TN2XvcXj
z3ce34{H6nL6u1tjCwTB(#(G5HPvXLrlOvE{BR{z)<M!$^lP{p^bHReBRpoglUp;aS
z2@QiWSKT_0l`FF7-vA|*<v~=YLe<Auuu5n|+0btgkfzHbD>A#1PqlWOKxR243=#io
z0ckT~JwfnAS-++^zs#l79IrAd99gzYX(9;`RZ;kis)H;ix;XV$E9Cb&K!}9Dg~o$4
zaKFf9gN+0n7`?qkS7Z7AvUks-cQ43ZUc>ZpkiE>-B~wSi)UnKTEHa(TO#Pg7k?DG*
z*P0E}FQG_bFEYL&V<!K-XsLJB7d@@T=3b1u_CNMntcDV0(Hmru!gvUMabp?bFJS`1
z!^4OC+hk@QIV{P9zeni<-w9FDVJsZO(jBC9<*!uw<X@@um4BtuN2HUGpt!3@_Lc3y
zE13MOMKYCpkS2IWN*5xnNER}f>_RN)aQLmyG(1pP_(_#44B?%Sc0N<L$`NJK(U>S}
zK!~0LwHeZ`X9ALve_Rz*Eh*%>NzXr1-zwTwWvUU7>6NxT69jqUL}4?yP6q`e5K7ZW
z`t;%NujJlDmE$G7<*M?&$ZrcTx#X*=N0wIUi_T?IeN`QBjqvLSr55$G!e3#;V)T8C
zKE$XABNQQtQ#SEsk=oVQ`>Oogwu7>R*ctVAZL$dY5q83tB-`Xre<(jVW-qyf{669D
zp$wiGC2BMjRnpQl{fMDx+h>&TKdJiPP%r)~_2Oq#=NB3+t@(n{(VEXGi2h*KKx7~h
zMIWU9pn>EU259pK=)Cnas{h|j-q|-7O>NVL5;WU87cNoonU_Bc^5+is2n$Q*7irpA
z1PKitT(l(9wdIFrKR&Bu2KW9X`=hL!d7w8v(qog-Aq}N5mo$6nrXpjzW}UH?w2*$F
zr1g*nkr7<7Vl%Ol5p#^1Ghq%z*xy?q1ro9X=kZ_A2Q{>L_S{n4?n2$}#}wvDU)O;!
zSFCF(wz0)cTZ$XI@qfpr&s&evw4pp}%#_E*3=D3vlW7@AwlX@&!tnCcEF^1H1ymc!
z+SOVI$vP>!yW}ECH|6q{JS6F*8e2*}lB}a#bto#&r3=o^QaveaP+-iRF4#Ltjijt;
XMOiZ`YoiR7D`($3`?wvm1o!<fke1?Z

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/deep_gemm_utils.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/deep_gemm_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..696ff9b5dff77772a598a5abd20bd41b9c34d31b
GIT binary patch
literal 14759
zcmb_CTWlLwb~AhqIed$h_|SuTo3<>Oeo1y@$8zlWA=ybb4?BuemgZ2hWKmRxBPX&)
z8+sccRufd>Vo}k3tQBB^XdAasiU4uY7V9k*SOfjxgxM7_(4t<{MUg)`cKXqu_S`$1
z;fN-sU7!Q$^1jZw=bn4-dE9&c&1y9h@J;DHn(*!=i2pzZ`SX-APaf(CVwqrwQGy{E
z%@jFG;$KZd8`F?PLWfg5P7R|*67|wfQ3=zi3FmcF<^(-TCoH2DT-Hxn6Sh$s&Ksue
z3CE}d^2Rth*(MKN{$;4Ri!sGrV+O|jfo`;pp`mPne=Gc>He1{{xue`)&M}(nMuHeK
zGj@RT#4VFOa!dJ_aeP30Rw|A*)ac`cG0^xr#`S?t>Fur2yDm;o0v{_s#$BV{Q@tK$
zTdx|;Ut_d}>d=h0M!l~_y}w3%phkUT_4+Xj)1;z0pdnyQ2P%0%C_HDHYpi)ojrw4X
z`qmotZ8hrg-eB5mw06{}@2pYZRinPUdi|K2*`eZ6)Bn@jhH9*df!V1Vt$Euu*;Sot
zrl&^z?i%&IHR`uslN!8-oz<tBMT?1G4l{ddj1aC-zqdv`k|bMGwWW+<_SL{ENgx}u
z{{#JKkU3DJS1qaz*680~qkiid3{-~#z8(Vk*gB^PJ$L=S`L*cP_;hfLO(ud@IBq6&
zxUX+~g1a(%xi^+f^qosG@u}Bd=o^_Bzru}-oa?(hmAu?H5N8hc$NKlj!UJRB@PR!C
zF7Meta5;QAx@XVj=z-XtSbS{Y^4QqHz9|GYHI?WCT#4j#-`H#_&O{Q)cpnpw&%|dU
zsaTZb;%sC*%3X=Gy)$#>=rj|YonfL}oC$Kt;MfEgyapJ8)A2Zy3Zho%pO~0VP9?|Z
zdd=S=QFA^-iVd;k>@*jNzc&+SxybZvBEltMW~q=y)NoUxfnz7Q<TP~b8jo|4#MMX?
zh?`Et0cI@8Mq<fnZen~kIh%@1Mdy;U9Q34EK*>aAXGG^SXho9(FB;f5H_J}PG%B&D
zg*^Iy@>58b37(iFRjs8gr$9{Vo^AcC1i^#qy$&k-I&|U5>i`2OsONbNhep8Pq(RP=
ze|e3JVbWBtm2<LMdzA=j&VP%B3h9AUNm0)w+1M3PKQYZ6+%IZVvk6f*!Nn6HElWW!
z7U2@Lz_%0{Js1rB&s%+5Vy16qVrDlNWr4f9-<$0}G;p;)4(orpZ)T3W0!xn;u`hwP
z6Rc4@HVdQl0jJ|^s$y3}#^Z@ZWR{zlO2K{*+n!;4L|&E%?1l)?$GU+KC;X?5Ly{(n
zX2R06PPYhj%g^+m(x1?Ix@XOFZ|HNYKp(w-NHC8)m=nww(=Tk$j>SU@hn8Ob=;%7#
zEYQt)I+)W1p8ys@B+rSIw2fx2iq5HIEINg^l|)ZUbd?B`wpk<*=b|xK73D)Kig&;V
zkbxbbyV=g`CY9!L=4L~A9jo`?wRg$SN_*v1*h|v-^BP_YCJ)*fFfQ61^LkF9fY<X{
z8D?J3>tUU>a8B^@u@>kY(u$sEc^jLV#q4Ckk|II|wjO@i29$VFf)=0kK_cqUA=anR
zzJomgA6tj2op91;X1Ta@yx_2(W1FDf5C5q*A%WGg5vD+n>MBtFb!v}5?a5JtkL=-s
zrFq@5U$E@IZ+fcLILt*tV=@;lgw4L>UAUBM>Rk)ni+;XaXgVfXj-^j-SlmmmXV2s<
zUFnkr+L0b%k?FeW2r3J}LJK;A40*L5$PaVMQJho`Aap5xJjr8bDu+j5soVn&AW`kW
z$q@6<E*-1?g)gLI5hbE-Dj8*1E6VB_Zf+(HlF3wBfC)x4m$HfIObSsYGt?2CnVFiC
z<r=iI9njhb|EVw}Y2u;Lv2^@L?{B#4mrrF*WzVkqgvPyj_r7)aLBV}+ZSKqWKYu^(
zK6T4fpxrs08}msd--{_s04!)gyjR;G17<%t4@`hv1|?~SspSsdN#CZS4ez6$g8*SW
zp(K)Xn<%#^=QO-`fZYi_4#Iz`1rnf|qSHeKt8K}-@cPm#3vXt_f~9eV6zJBRu2rIu
zMyF5WN=h^yA9?A8;mAqRQOaC=`Q#5?i=2P`Tud$cP+pn{Olg_edZigsSuumECt9tF
zk0E)za+r*&zUr|{Fu*t?7S%>xdljf)$h(@)5KZvSQ=B4-c}f|bQelMST=|uI@)SDm
z^Cne)bd)PT*ufG7CcZ?&U9C(3spd&F>Pg;!s8?t+tH!F<pQz|hgIF>n4D%KhWObhE
z6rNgDeQg!ffg<pq=5>tjuKu$UrW3^5%`k>d1y_v|7T$)}!irOaJRV7W9MlnWAmGlk
zXz#;O)Fq;+tD-)M?2w<6EIMG{qOpEXie|JCQ(SaBo(fUYVK&dO$#FKCh``A;MA_){
zc$^JFZ@kS#LkuJ%=uLeJv|L=&<MxnU^dm%UJa(;Qn?%4?DeZ94Q9A!H4%jcCZbTDc
zpJpav@f5oYp+?>;yBiYG9Gg|(tjV#l6j(H+A)O_4RL0DL%p*ic83av*<wUot1_L4O
zCe|r~O5Gwe94ne(44F=&L|`Ii2ee4;t3F8ucq3!)GLfrsb{gsWvW*vJPXfpw{HF*I
zK562qi*UJ@n=(z=ck<5G^w~!s!p>yQWTUy(aNfN)eQv|+zhk^@EKqGLZwu7kg4LgW
zOR(-J*z8Y@I-en@^E@>ZzRq0d!MwL0N*h-D;+qR^<{Eb7t)X1c5y5&S{o;ns@Zss3
zr*qb(6{}#~y?X85xd+3-;Dz7lE<S4TEx((2H`mg)wo_;s%r_hX0l5)qy3>EVKi7Wb
zzFBBLn-2`<bl!*l_FUIN!GAEPYuIqsE&DRQY&bifcXk2Ub)Myc%s_T1*RpTz!UN}e
z-S92r24!BP7N~-yWu;rNgjUZAmV*UL{r7sU$^2MLxJO7y$WdH!<|^jA?ex&Ak&}{G
zJ2&*QNS{7);>5}Gkyp=*o)qn>LgeM46Qc9g7luYoMpV_J=b0+hGZp}b%O6teSUggY
z{t@CapgLw%kFp{z8dW{3hzmH#UilEtH}Oq;0}_$*&D%ox6{r@zh4*2oph}nqK<qZk
zLhb~yM7|9M;e4wKZ#BWH;ahpFY(4Q!SV%O3xJEJozWKIo;Pn7+P~clId{717u7XF#
zbHxYTa5LHpvG$KJZifo48r>9(Yf{GTK;tSa(8<@c77p1N_~Scyk20T5z7vd~OK<|o
zj}NHEs3LMfiF6{oOxcR;Qb9OM=v6<w6R2`+ri$;9$0i97;a$8%ZlCYwZBVu=<sI8#
z?=G!R8;@3~q)<1hvuZT$;H6b*=h3<-P#=GxgFW)GTdf3GWKUs}hDFzT>^?|BCM@sS
z1CSRjNPL$Be~LxM40{MAL6merBATOIGBFX0L>Y!fmtdigXy=j~cn*q$WuHSG!DR$3
z@SbRsenHl<6HI(hML8^5<aY2r;-Xt!QedjphD8(Zi=>O_RI&=pGgV>H3QjLr?hy{0
z<|He6HWd}Xs?}k!uA(<4H&CTgL9|69OuGaL`Y-;T=vJ2$1l4N8?2BkE+EH=}C8tqx
z1|?@vG7O1mlQfvLBA~yiao{}`!KRWfotVb@U!;|CBqbV<fdIcCvEg0;DSjiDgnI+<
zQB9=`w3@Lz$8@u8Xfy{CPXSXU7(5;4X0{*&+pxI`ZbhczNb{ybfI_8Ux6W>@e)qD|
zfb37;KeZ&O-$A0@yZm<M?Uiue)0sZMVRtURzwkaNV|#1*^dpCB*_1J5TeFe8V|V%t
zcn?cA1iCGK;t?qAP$q=*-Tu7mKzg`f_2vRSg0(08;v=^&+q>F#Z(!Yh;uf_5J-ajA
z*{+p=)oG!9Q1B1ln-lz}A8_BeUIQH|xhw^XH#?B)IxGYZ3zoz8-V!XQA6x?;&||)3
zdP)(Xj(6PNu@YXnvPRyEuKSPOI$N>}R!pm>bN#1<p3_3`^n=4f@b$d+jaz4aZ*SUY
z>{)&Do;lz6!jkEs-J2cy=!YBaou3~0<VY?&bpMPHKKJ0AeETaoM{onCNoA;lJGe5C
z>pd>C9~a!m?~e-ZmkREVr+Tf^1-A*Fwp_>lT>psBF(SA}idw?iR-_2ej@-_}xg!^a
zofif7MO3@vseu6F0Py8}J6GQnd<X9t?=!z~43|d9`Sz?mC-{!uH|1V_<F}3r-*pp#
zA@Z@6@SK#)0rq8B9`;p~yn&L#D8aiKNevb`&@4!Af<;yo8-XOIRu9NUM<VXYc}TGv
zX9ib}W;F8_UONd5l^>%;zWlru{MpJTC^I_TYU8c*cAl!*1H*&852~KgUWGTAl;$k)
zBT{vtVILzA7G4V%5)^OcExfsWNm0#<=B=_S18W}{EbxJtFZ)fJ+LSPgg+FiSXbBd^
zmTA}m5~xF7y`nZ{SgZg`u5yibolGyNOmZ6x)!WM$G`waT4AtAq7!15&8w}Ok%NUHj
zaT^TP+shbCylEQ@)!P*eV{YI>c?p!9v?F;P_=3bN346)5&0ex8Yh&YSbalF2f2o%Y
z#TfsF`U{doo+5Rg?FKr&#dn~{K9nxebl5i&O~^EOH_FbW%5K^O5d;f>s#HnuAlNE;
zDP#nH@k$gNH{>R<=+;TJPsiWmA~VT%!B0$%MfQqXxcSC%Tr@}~L&)*R%M47Se4}!L
z#RMS_Q>3p<FbwFn)Wr3;s6%Qog>0%ytt06fbJ?|H=b+ao@Spk@tXYbF!tP3+D%hNm
zIGmt7Ts`Zqy@G4+T3Emu!{uG>$@FC3$@Ha%AJX;d6Ax+k;`0m7!!;1yv|<$K?$z+u
zbWcv#lcRec=^C?4_JW}61W&L)c?*=Y;BG0n0tH9IhOcGa*C+V;*66%%@OwL@H#~I{
z7W=I^NtX%s)|COc{{^+B!s1-CFW9rBK>0B`TY<7IS{JNK(LBPg&btegdz}ghR3JN)
zr<yBEPM~F-@(PqU>&#Pu%95u*dDf{$fojaYlBZfKOVB^CPPGZ(--h!P%x-gO%dv~0
zCcUA!lW+x=TQV&xPQlq;sB0=Tw63~y4Z9I@+$|g4=5=qc;O$+#k@r4V@OQ2@2>v}A
z%^mB_`-SHHYj52@B^(&eH;+6ygpdsqdK!DB>@`@+7`j!LKgDr8jx~$QR4=(oa!2&5
zx>s{=(^Gk(nD?l9R&z1SJ?puWRshNF0jXUtoAuc3dkOSeg9;ZquN5D-U3IcsGVfLO
zHCJ?mB40O7a!U1Nl{+T5TPyKk-dCm!#&F2>a98yeP~}&RRL$Yi@eRCQc87TXCZ{gI
zyTGXfmsa}t0PmEs&j<LxAMDhbVGO#)7;4wO8hu89rE0)7Z8JBLZ{#%!tedY>^4?AJ
zZ03D@^JJYo&+_lqYaq*Oa1lXnUI#5c@B8?lbn3fK^=_8AXoVTs6iS|<iuYBcgtt!C
zm+6volgRd}_++Z&l_HVL`2*~7>ZE%|Nr#YZD?o;<Wml6u2NjZYiQG(4e?877;Szid
z-VnHbd&?dteow%zCdL7;2vc$Vrpe8PT39#>;I&RntK2%bx>WY1s?>r<SoRx16NsKo
zMFqBMby#$id%qh;&%mO$vPMBst0gSb5@C`bSf?r|uvIF<lA%0`c=#4dDx5+j-9!_*
z{)E@;*j3RkIfSSJ`)O=U>43{{D-8Faj7UdgaLYP71x`N8BJ)J@@LZ|nEE|h&^6|{j
zHBy?l7G6j3t4F0Cttd-s)l+eMD!q)eKZfD{6aG^_#Txc$FLE@j8EZD0cLdXCHo%ih
zWD+Yw`TDN(OBJ4+$De(E^`(0k*F7)ZG9gz)^6M_-9i6xI2=Yqi%8D^N_l4$5^XKMo
z>YuwsZ}?kQ$d!TL`g;^_tKeu_G39!Ogy4|i7`lH}aGZal)%a|;&OD|FM{_lotF!yl
z3!hv7MYIyi^$rPbLxLLtx)ETPE9Ynff2lcm=fZ91)3Gv_+czw94-4+$2b17XL7!&V
zk{P<dE$w(_99*<Q{f^wO=Y{&`A8Sd^G4f$Ox?HUfJ=SYHJB!e-@v%|sX?&v9H@KFx
z@OJ2I%%<*KyM66vmp`5SWHR3pUOOwa92Fc#Gjwqm5!ek}G||#Et*>Bf$ocyOTOZ)I
z?s;fy$aV|1RzPiS1Jrgmpticf>$7?n&o7+M9$63c3W47Bz#$=UC~rCZ-?RZPb`KEs
zr%ImO57GX(iINXc@*yOfUaHWWD)!Y*fcC(?nt|6>wRttz3p3X6(IgL!Qh8hyQ+`)5
zfzM^a-kC<_ogv#2e^vc2fRH7Y3ahb<bxbpFR{3LQ?B4->K%wGu$s>R@plI$I?OIt*
zV*hDt3}n?2${3LUv^9q6?PUyF@RYa4P`$m30Uq18!BD-ujDf7W4<uh(_I(Vz3H;+y
zye9Tg4ClYaehE&Hp)x^$Ar;bBia%`cBN+(K`{-$$MY>h;H*_&(;u@AU>@4a)vsJdS
zbRqF30z#;y=P@iOQ|!B_7U5>!gCvC*sgiP%gfoHTP?BoP(B2LLEwv9zwW5n~y1-j-
zHm^H71ZT&}D}u8-eYW6gUUzi}E>w1Pr-wIe&ZS*hE^q4q_kym^HVAZZW$0_VGpFm!
z(VZI>*W&QPaF$-Vkhko<n_4@3kIVO+$k8W}6X45s2s*IDU0}*rTJxJN{cVhQa1^}j
zREt1?q|9T#WK*fGK-H~NesD3eVB0rUmbON|i2)U6y`$m#UG-qC_sZ6~sENKKQqgx%
zFcn-9OD{@DVH=<hE*4{oxeVM!`vQxdzr==o4WUAog#{d_l6eb|%2zF3DP=s14tuH3
zk063zQay619^MmRt<g7+L|PT|93IJ)11Mv=1T@T>K<p?NG(cB1?8+5Fjdo>pxR5gO
zdN@KQVK`57=tUEMlhs}lv^>QrX7Qv;?pyx7YmglgxNbAttb>b~YDOo`8^=__m^Y+5
zwiy{ifFLKTt%Pb+!}fUKst!0grr9)?`tls)oC>Rz*TZEC@gA9i@NE!nRSaF!K5ye~
ztV6{izl^K=J8f6BSK;xzT?3bO@J{rHbK0@ZoHbR~;19>|WQcheufGXgm~1T1M9$5-
zrmY-`Xu%(f$l`U%E^u+JN()5OK&uO`taQ8qu0b8V^RDr;lEVpnE!B<bAi4&wntlR+
z*Y~`3B_5RC(Sr~;nF{U>qmW28KEuXS5P%n)n7#&4h$v1H-jLzMOOIFRxPsJ2t6D8`
z3t}A%O#B+e6-aJ}x#|THzHe?vD6pX4eCZr=iaLl)NJu`1X(9zTM&r|QM%1C3Bld3*
z7<&B0p<gUIG@?G9nBnGdR3Z2;SncqrM*t-^P=YVkkZ8iUNufG6i}JTo@>eK9`%Y3l
z$lhT88WNE_jRzBr*pQDT<jhqTt(ElDW|1W$l7(V@B06_D9=Q@tMKDE@3y>1+N+eba
zqAn&lB_0b2QVJN2Vl@(&$P{u<Ra#BXO4`khB3p3?BZRqPAc%%zksLdR6x~;{qO;f*
z`xp9`qJKUJAqBSv3v}J$(FF)YZ2y{W&*?7YIxplQrP~V-NMKwrE|DLZQNR=qaDaD~
zh9mig=LMZRed^YQN0z37*|oTPVRx3yoBai+PYJ3h_;(dtz5<xKw83gfpM2^dyiLnD
zGB*k)|H_MBbbh((^Ih=N;)PfWWZYU@w~l7txO3_DrPcV_E32blH$hlMe~#`i7_I3a
zZaC|g1DQZJzVb?Tbj@(@@-MD@b>$o9sau9eb>8LYGS3xEwk2}uLdKG#npVcXIQiwd
z&(8sNw;??O$ie(Rk!v3Kj?gq4l;A(8q6XmYL?3u;Ai4&B5?{Xh<Ey{&{5tT<K>DTM
zJA*5oYxVy;`->Z2-T1~ioIbl@cQ4*pxRD*WbM*GnwXR?3e@*|A{>DC%KK;<!2oWF!
zqc3OdEHw76Hy#t<kMccg+*h!;bM@V;e()%o%sI*jk4k!b!R{=0nhGv|p?!bB7eY$5
zzOm4_qu^?U`tLn7s8~NRWNC24zj`r8AIRwrlw#+iq6MEg$-hgne}}fBL3+a5WaFbP
zjg>8W99D;0fUS(g0SF6FLF8xXtiXq32Ei!X(&mB?PGmJfx4ZBo9gV+7IYfnYKK=o6
z&je;RDf@DE8f|49qY3e|Y@C?|QLqLu8MHysnTOCE2VwCPJoSb8=7O)Y;BJ)o^VDjz
z7>a~ZZ@{bwk>^8gqA?O-lCelcI_UdQpl|QyK;K>|(6?6!|3>ZLN3*3UA<?$Ezi5yE
zM3Vx6yQo1liL2tyKWHo*O3b2l5S<u63I&%!jHNplWCMt9+$aSeBWB@1WGu%-kE$sF
zq3R`AWPpf<*Q5t?Ed)&C&{@%a5(lBbhU3rAL0m9Ivq!Nk6t$BR91azb0>w-acAnxu
z^sv&U|1?5qoK8j{wv54YP%_5Rienjq*NNSMipcbrL=H8G*%?2|{wvhMB7&HK=@zvl
zNj^4cN!=4OL0bQdIQCoO*zbt*|4!`q9dYV+1h~uwvbE6AxXfqxq88=%?8Cng_0$tR
zl#4DG=`0w{MJ@b3v^k4<_yup+8z>r44*dSQq6y_73@fni?GwCxYaN33;1e2E?j$tS
zhyI)X#~N_gpJ)k<rHFFim`n9VjfQMndI2JR$+qkZAQ#BCQZL8>O1W1vX@;TTEx9q%
zSTv!MnXow)FD+au(x_xXHw06esqd^%Dq%qN$4Ldn^W;Sm=z$mRsfDTHE?n#-JPpeu
znUP{2F7A;>2;<^j^f-PgbE&uw7xxohKjzZ`Ts%lLHs2Y%J@{QeDwf8?E#S^;>}k)3
zO*fnVtfi<qMv`>F;#?eAfOlh5c<5?CPaj1+DgZAXo<)9vFB)-?B3ipXwR~bJnsCuf
zfW)<AELl!)v=?by2a|0?lPy|t(MGs^%Y&K0q8%3<gumrZ<L$<x6Bk`F`Z`>66CkHy
z@bBRAgrpJGPKm<ei$FDAtD@#GaIQ_}R68nl$&Bhor5z>Se;0yMY38W@I&fPx@h+Hm
zX{uVtKZKDHnR>{>tV?q+q7p1^gS51$R552%Whu?^J1dk*RHOPoC5iU#$MzwTJXoNt
zi<SjTQHu%>ZFP8=^{4=YfzCjyZp1|j?OqekRt$yfESooS(TZzrgw=(XFbe_dEl==>
w#nT!)X($*iAM!Wh^gv!27V<Ev#Ok6El_;486Dn1Vi>fT80iIf+gpc<B0hk>_NB{r;

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/deepep_ht_prepare_finalize.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/deepep_ht_prepare_finalize.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c094127de3d63e1b2f643ca97401fed18748dd4
GIT binary patch
literal 13810
zcmdTrTWlQHb$9kTyF2^f?(+Rwz9cT+lw`fF*cK(rmPJ3Lz$vR{yxbX*OYMW19m*oT
zG!(-qmvRb8ZBj}NTGRQlR0*|$6o~uP6bMih{n-(f?sVb+3Syw}SJ$CjyXi-I&YhVh
zMJ{ReE9eDv_dd=&_ug~QJ+C|ZSFhJiASG?@C4PB`kl$d%Om?HN_H!sK6M+a!lBAe1
zhQYEWX&JN7U+b8a{@POZxP>7p2hE){XUAL=+M0ByJYybOwk5fgcg&mejrnNZp7f^z
zV*y%rB&$-vu^=rwlc7|2ES#zyt4`I7)ud|2YEyM%b*cKX`c%VML#lDCks%iHJQ3J;
ziQp1l(+AC^um9e$>gBQKIZM?28CIf<#vYF)ld<unI0}`}$=R$ZoXMPcbvBlkk7v>o
ziOHx%Yd)8mIsLkrn4FTIO$)Dy!fafGPB}3-o0-jOjTO2_#H2VGlSM#UpUQ~*1yM?i
zN&Y*CH!&~riS*2@jMGb**|fmV&O}+QS{Tpp@mWa{(=tCh9+Tr!d_vGX*es@Tje=H#
zl}S<NXC(1r0%qsMivX?#u|4}{0>{XJC6h|&_#SJ6IYq5u3n(`8*|~IFi(=ngLQD#L
z43=dKo{%yriqb$$(d-OLQ5p-0ub%-SVWYD4BVejUU?!1_F#-VwV#chZO|Xb|!74hY
zeH#bqWx*!eCme$PUE3X_bBq-naM&i!4MPMc;9=pP3&yZ{GQkM$ceybS#bFUV@7l&V
zD0?R?0taQE=!aThx_tu*qX-b*4KoH2gW#KY5&}Jb7#o6?%Ih_u0ss{TDA#n)R{UjL
zRRC4<wNOETsue;o<4^@$;ceRKN`&fddTX|6uZ5k~ZPTY?tQYHH#SIeyp#j#_C^S~S
zdP0-v6`IB7%D5`GPFU(;gO&S``a(<PKAoNduDw-k5$%XYi0laaBzp`@AKOariLlTH
z`;Gt&kdxY>+$MBvGgs#}?Oofn;|_Lh)2CB^H&9hSfxz@gh1CUwZdg&rA819D=oJv6
zu%b?(XPbTXZqxpMr5#eH5AO4eTd5-SLm%+0aqj}c0IX=&A9O`{gM7jutYh~db{&Eb
z)-eR@=+2W%%vkg+i4JQGBceES;+0e9UXjF^m?VM<Jef$xlAy-spK(VZ86AUWb7VG~
zNKZ!eagkG?H~Y^`fuft70<{p)Rbh634%IwU2|*Ckd=}7Yc0rz-5jBS-%Ck~BZrN~p
zHYlS4UrR%_OmZa0OmFBmi}RpW7C@IQSaX(~b>0DY-*Taw5Xq7wXNhc>0EA%g9RvS@
z1!|SC0R+&%I+_6M0&u`AU=FYeSxn)2B^DcOQV4z|R6<(ShTZVvbF!G#e3vFfiI2&k
zLUBwMH-bd_-Nc}rni-r)%=F7K2~>LjrP%|A4qiAQ4ki=hgEMpTR3<%mF_}yarZNK9
z4&o&-J}YOW!DMVsl(K^pXshsGTnq|uK;jHPMXdrnB7VX+pn;h=tu+;!8y9(MXw1&=
zbTq$Vo%4scKj49{8QTV%$)1AjGARW}bN8*Tj|OfJC`|_oY`t3Fl=rEgrW<c7p8k7P
z_dR>mP)mVp`LwCC(6#?#-)htI2<4BgocM6`gHgr5r@-!616)LNjL%L0)ii&4HpL5x
z><rpMuxHIF%;=mFlw#=%K$00zlKITUL{^mJrj?2)@SrKXd=CmgV3vuDtu!s!bL7te
z)-)m*V5J=44Q8OMLHKn>u|gl78BIAG)XMV+I1X4$Phk0yNnkS`l#`w&f%$%fFvuq~
z%^@?L1M3rK`wY>3hJBv}Fss8Xg4r{eUB>JhW-E|IU79^R3)|IL9<0ZN%=1z+v}=J)
zG~%UJXqF<_=Z&FNhqfYeh31?Bqb><NSrfY$OHiwqr*w={OE(*JXtu1FoS=xM7DTg-
z%f<8YWGtKI`7CZ3SvYc8YCxcV$mTnC;39Ly!vL5ah3u=#<dKiKd`nJ+t$V;Ws5MP_
z+xI+bWH4`gz&5M3El}mu_I+4wRh!%Jx1r=F_02bgYdP%vt%K}-naSIJ!FEVZfHKZN
zW+p7t<Hz-(w5TL2&XU^<SpCufz}#k}J@Avoff0RIxc~W{9d@;e@XzCTG+Qqd)gLPQ
zI~9Ltf$iM7H~`TXhv&ac=9t@-(Q~(nv>&P)7NAvSW@QkVd?L$B)aMZ9`*v8)7HCv{
zYsjp0L0i{RCK67(@rF#7?*eofX&M*1DV-(KQ_vK(YL?Umt<H3wo{h_ii!nKoNuSI}
zshF&>XJuf#m?Ui7Vyq0yPf*|;x3~rR3{0Oz$$Oc6>aQyLdlY|9(Z5&m?=7%<>5fMq
z;|tsX<qL!K`UWKMcej$iHWj<X;~C4D3t~FU!`-8|Wq!{Nhp^3<S8;+Pm~GFh?a=*o
zr(jatqS-+c#HTcSA}#OVw}q}jIWuzs#DtKDi&>s()%pG%mc14H9IPhGL3WvZ;tyYa
zYw4{5+pu-@NK8u5Kc%a$e9@q_0!LkBBxa7tWxkp&OHx2(q-mE~TK}y)#~tJPn-sFs
zYb~L~0j&WFk{4$*$8)+~384pV>J{*8(a+yP!!Y%;H$lx0?m)##173#(WcNV^m(b%c
zdLoJ^a?4iiKCZx@=eQcG{ls5$_3fp%i~eE7KYXvVxaWCg&-1JPQw8?a|4({LXb?y*
zAmxKdXb47(C(`0}bPiFnJq|QK@O5N<9RB>1Q+Y`758VqFhfgZQCs+Mof;>;DtU2^+
zu5t92&&Fe@DZNxb>eoZaYE|piH)%X5t9ejF=!QsEV`IbmNR6YR9%Ik(vH<|=^us@T
zWqfcc7RjQ0(Xr@U^e+Y$s}_Tcp~W!hD+s5}GFL*f!PFa#m313-iBuBGm9CL_ITqM$
z##Fjy)@cu{bW<{oCNQE{ff1OymOF+ybRK>eTnp|6&jNSFpJT3smqL;aOe@QT1<IAz
z>fMAMs!L&k<Xky-j>~y+JFX#T6Rdz2>A5MHtIXkk(YD%@E-{jaAu`(SG@0-m1UB#5
z?ii~&4+7~*_)684;FZ9F_ljSx-VDFs%Xwjj8nb=<H|IMF6&ZsMG?_CnB=5-k^MQO-
zK9~>X?RjUO<iitgh-$ImX*fntM(rAF@Y^NnEDY9sn__*OZq<Q}pU6&WwGh9|#39tk
zXVQ4pz|D{)F_!uac_-@Cm`j>NxBIkE1#PC)ZEh4&F{<aZ02m(nWk{s;mg-HgI@?Pq
z<M7^q$}w+6z%b3hO`J@pFhc1t#O${KSo$N(#vqHszjE?G3D0EhHOPM8UM5TIbomC9
zp~w=mWM6VES*P(9ZAvDcmmEu$CEF5Na^5j`+f)n|%?0LETufX9TiOchGwPO5*=cq?
zlG<jhyy8~*WFjkTegmW|7D5{vOcJ=KVp&6s&~uc&3A0cuQ*-NN6=HHM>xS0L<wQ+S
zjXj!-rN)KWvH3$g$w47gR$>E3kqMI7V^GkCeh7H8Xw!amnOu{X-@g8~%2lac4gG5@
za;*y2y2`bwT&>FWt6Zzfg;lQZQOI5ArUEhQmGI_BcqqE3;f%*-z%LiI$JHk|lwf*l
zwqzzfsj;TMluqNgLCkQ65}txIgc+L1(P~Nv>1Awq1v6?P;koOy!V}R6M)~F2Smhyu
z=(XVvn$F+)IZ1CI)Sn=fGqxuNvGYsP6gDL=Lk~c@fLRi=6l7Vv&~Kn4^Tr$W2TIS-
zq#pyvZ=mq}?k7Bo7-Aj-zWx1wgI63THSM>;h3fvi`;nWt_B>$sK4MA3&^_BvJwNso
zhmI>l$5-n|@;>mNy;WCFFP$!Oy$aW>R<{?ccPrJqSF59HU5DBjRqI>S&S=R)ynSoL
z;dOuRb-3L0;5t=qm&!H4`IdqNJSq3Td#crj$Vy+KelY(cw3&z_3Kvm*bzpR;k-ciy
z(`s|S+J5x0sp@-54${&JAjMFh66#wG4bZupi}k%qeeeDHXaD~6PtFvEp2fAa5^viY
z3BX$XPFxExS0h~!FjNqh^QfDIx>tkIyi<+r%G<7TOWd{B6}I_Pw*3Ly`K8Sra6clD
zm5AG=bDe%*<rC6Rjh-JKT^w1-Oz37)J^FK?HR#NW5uEP^pnV590nWcga^$S%K^LR$
zO51W)fq)Kk=WLfPFOqi{x$N#&(yX9^7>qB0QMysb8*4OTPxc(VY0Sgg(~Mxj5JDx`
zc^G3pQ7zcy@=mAG2;Y<{>AajH=dPsdK%W`L_X3x5O$Rrjf@=0C?ifaw_1ikk9is?4
zIRLk2w_I!Xfre%Q9|kQpCBY8u=y-2RcO7M0!Jsza@PMAT<(w0C(0<O*&wdYy#@VDl
zhSBgq<`CeWD=wbAZPh%wNu|dKL+FlyKWJzu+NF8MK?+{rvs1AdG3ukdq=n2EHC-+8
zZ^ja`Gy=#q`<oC`5^1DFdKw$TCultB9QF6kh;j@CwB}32E<i*L-@s7%OP3Hd2)a?9
z%zV-lG&_hQF)1NmN_d)54l)p<D1<BWHEMTVI8nJ&mU$X$=#xvD&ny{cWw5Mis85=L
zMP|`l0m-$V^!UXDG|zYLB(zL5_!EH4+Ta#}ys9Hy)zu?QM+%;HxWGlOOX0d6aJzpE
z5@q+W!gc0PT~9yUJ$!H9wRHYeseuGq3;v!0+XMM04Xy9@-s}Y#a6?i+v$S>;TlXui
z`#)~G-+Cl}`bOK8mwyHtsPTqSY<Wt7KklhDr>)VQ_dg1fmPoOApVGXq*nC`RJ`O7B
z-qcSsKhBh_q-BIzBbF97_@5vn15HK$z<vL~Lx>5Ds{UGZomTy=E5rBwouBlMsNp93
zi}V#E2bIV{wY$Gue&liV1(iVeHTK2;%EW4wYf!lsU1XI!4irNmQMdYBKpkDspsR}U
z8tEVuDhCaG5Tl#PNOG2^M%sLI2l_t_`W50VhX^!FY*-qHrm``Z)!fF}r(!c&Q*34?
zIfp@A8Sa5@a-ac7-<2P8H&F3XG5L48m~==-z^sPy<|HudZUP$jDAuyh7a@je3W0YR
zH0LXcQxLL9oK4BZM}zWA&RI!-LZ}~CNE2XpPL~Cr*$TqdSxE>&E1D9U60}w@`0rXD
z6FuOj<lNuw0+EO2=B8xsR;PdztSlJO`6&xlHww@+sG0>Al-!kf0V0-6m&ND$q}18L
z=L#DLLnnx96d;g5AlgT%7@R+{(`iQ%*+?dxoQot<Gf5F`ZBd9oFfD@S>C?l~9N>yN
zpTN|LauEK-XBZ2_mclSf`YvWvo>AFEh1y%#hLTNs2QtleF(JMw%|bEC>5?vweaO1f
z5@uA$UBS|On4uA@*>Gu^H8%Vm%>|hu+q~dB&t$T)VKk%OTbF4OJu0htjbOHMzq)t0
zUynil4`9pwCuEn&=V8KitD(l_r>{S~QnecD$d5b>)!rEX^Ft+K@%q%jnKdi?UONPq
zP%wNgxtzJ4SsDLu>Vv7(nn9&%F#p^`Pi@iDbKleRY4d(H5L7`Z1-g_#m)g`_Y}%(Z
z?Nd94ik%}$=SaB)q)&@)X*7TQT7Ah!0`&!d=dJpWT5q?mMh|}+yC40A+SK*_=*`hv
z!?$9qO+(jQYExwC%)?+fe_X9=%D+Gn4J%E<`7;kOx*Spb5j9k!*0-w-?P^O8+KAQd
zYJFG9PXb_+u_(@1Q=DzIP09iRA82W8yn-;mi=MLrOWMJ%aGET+z*<O-H7|(iQ8Ci@
z0aMiV#K+H?iYJR}DW9=!bUTe>n{WU6qwR*3XZO-W1w%VrR}6J2p)Qs4fhR-#8Srhu
zChdmmnx753^X%tA5~zD`9v+^IsE-~s*FyShnjvA0#u`Je;-@fr1fIt`22M^!XTQpV
zb_%SUMP|{v=!0->nYJd?7FZAi0I@mcSPT{{xN<Jt?gT+wwmjEiO)Mas&>kC-4PgO7
z(jk{m*%VBYTlSb^&5;X^oMXB|+y$a8#)+@TbQUafIl5wwM~k_Vh?UEhWu@<Ns4@wI
zG66wXY4i`tUvE$|8>~!H$-=B;U7E@U#Bb#>_*%9p!Hz*-13W%+ZA#{T!A5l&@uD^p
z#O#B3k?pSCydCF3&0g^?c&_;5j?IujHK*jtd-J|LGhr1R@3LTxbMPX)1*b&4jwNQg
z%fzw%yW|y|cUkjv83NCVu2KD2+AiGyIO!&4>%#XvsLuDE0JAnuwE}%IevHW@;}gkD
zOdj6f7n#h+k&~b)&La+Vqjf|AmcE5q<){rRepI7t--GN2R*2ec<B380j-J@Mr)AQY
zAxoC&GKT|tBQ0T^&azI2brWKJr2f=;o6)#5*hSP<hmR7XcHI(R08A2U7|kBf%zz<<
zd=3v;ZX>QN@J8$ashY)QLx^UBU438&;k5qxUJlBXBTg4kV!_SDsEit_TRw9ANFmgt
zhU<&rekI)hAUya<p#4Fh^I@Q7nY+&27`rE2;~oT#K+K@(@Gk;KsMI<q{SB@*v>~YS
z4m4=)1blaqg}1i2DB)v@gaSmfQ{zDo=1{FZf~~B1?&|>_DT5tOg96ehVnAz5LTMqb
zKo<4uGJZQ&ll}@Je~6ik8D%159gX27^hcx*Fq?ubiv*9nQ5OCfdC?Vst4zP0y%+Nv
zho_OG$07S2JSvCF0f(yU<)-URHzt*;U3rJ<uP*r83TzwXC6;ilMNg;V>0I^fy47~y
z)BB0PzR)oAV9%Kc{?SjOCs(7V3V~f}`@v%SF{S;OTHC009#ESh0@J4UzW@=Kj&DE&
zro&g@TJaSdV>+t8z3A^&{M~m?d^CD{^uGTv*b)#D@f|80K2tn=RylmOaOhlt`zDwc
zE_cCy_>rSh5D0vx_usntR<U)D(z@rNuT2fXXB5pe7}KkSdRIgJG#Jx%zy848-aGw;
zT?a4>Q$-?s*N7|PR#*uBTzmG~?4uguYJr#YUwcCTWpjCtmTE}2xxh8StaTmVUnp>$
zg;3{1E_n5&rI&6r-0RH0^ng16)9B96#v50*7LLMsJ&CmdX0b7T!I^U!y37f-!a+a)
z&+H$<Pn3NUKKe_5%%V;+nMCIgpLy_4;9@-v`ZjXPVL%9eZV=3c<zv^6(LfahKXrQn
zECq0T1BS5xK!Lh~zoWo*Kn~7k-oFEZ(9Qq95r_(K%jikzHVg&9O9KTv-mNT>)*y#Y
z4c6S^jvru{K!1T0K*d5S;PPJeErG2Bp}I{JsQSWh+K$m4{Nf}XONl(Mxq0~DNSIAx
znd9+u=A_Z%<RMrZ$7T>fav~0qiK&brO~PC>+M+uYjaWT}*$bHUW7YzhW*g6Bk`kVc
z#?D9?{H$k=24y6)Ql)1wdk(XckZBJ1`Wl~XPh$(pDa~;Xp6D}@gvv-laZOzkjXQx~
zN52fA{v<ffc6k;&B#2aF5Wngb{i~SQ#O!QRJ_p~O=@M!Y(Q&UCF9ft5&0A?1+e7EJ
zehE%FTKZdrxr;Df<3pLam`w6Kd|!eFD*diQ7jP09N;GT2j;CSCU%g8{w^-~fh$cs{
zWbxYf-aA_&@bk0ke{TGzMp`VqdhWN_v}QG7N-bgg%gn<-?XvH>uVlvxcq|RgB_}Pi
zBv@T?(W09)N51gTVjpAgS_!QY_$fIUdw69Zmcua6;VW4f`@WSu#g1c2$Fbi+^FEwR
zZ>GSvLbv4G4aNY*-UwfAo&MnTy-uZbKQ=a&99H`a%*y14=?~KPWM$WpHG&N#x7B`%
zS$X}#Z-4OZdxFw+7@JQ)^DB(q{V-6CnyzHW3M`|xX*qd4xpGdaiI$wSjU{!>%em{h
zl8aW|q^a%wqc@M1JhaM@n);HL7JURXYTxy~m9P>7KZv#kNNrE4iWY;!9b601qF_0W
zQ~PU*{tm_8QL<wdCa<n9Icbq4)eSeg-tW8Fcgy|}cbh9T>{G%|eQf_n?jJZMJW_H|
zC^vzSSJTa=TQ;S>ujHX^`g&;5NBV~DS#KXI`DrykS~}i8fAjpU5v6&kR7Kl@k1aVw
z+rqfyYFexzZm#HRR$R?%wY1?yIHK^1%{YQy*aL*?K!}&@P%cxi<ir|l;4Zna=0-Ys
zu*AXMmS4L5(h6*8cgc%QKC-*F<j0auFDwDMxT~#8t!p8yjWHp6LwPbNZ<q{g>yu$k
zpA1WzCc`FuGA!wnVF@QQHX6cu&o}IKWzK*y%%&5s<ir|lut~{<HMhA@57s!`ix*2i
z($-Oo>{lZDOMa{eNT{|{g(YN#Ya_TftUYH5ZI}(p8)n1W`fONRpABpJY*^Yj8`cBJ
zZdF+7soKEiP~LzZYwPH-wvHZaI(jT^M2~eq@B6X}N>n9Lc@k~W{P9dO3C2Ere3c!D
zjmLFaNG0wF3a7pJLFvHbACwO0ACwN1KPbii*<?&I{?`gbz#sbnRdeVAG*@{91=%n}
zkEi!O(PYNEFiLLi$P<mA@2*>Xb878UyI1RZA~dsdBAKP(Ev=dkpbhZJt31W)eQ11W
zb+qr|@W7iH3BFw((En!+_!7GLO)X>(08)2Cx0Nw2Nj(Z`b!!dgmvM&5+3*Fmt_%(#
zJZb|&rytdo>@n$Ipbb<u$-W3#$;vRy7Y@R7{f78{Nx1(Y&-@#C=2ztOmli8y`GO_P
otIV%R&zBY#WBHOm1~wsMc~p1G!MIm~#kONg+p#YQ*63XS3)0qUjsO4v

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/deepep_ll_prepare_finalize.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/deepep_ll_prepare_finalize.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c81f7495c1d140d53c0f2e123f11897751815789
GIT binary patch
literal 13692
zcmc&*eQX=Ym7nG3l3ad>)b}T4$(CqYk|jI-j=y3#PHfAL?KFkpc1v?t5+#0hmvk(J
z$~i#}p_=q8wJ4<Y<Dwi2#D)XZ`Qy;w4mjlh`-dC3CA*gbIy8qv{$rv9?G=Z+dvA7^
zq9s~&3mm$MhcmM?Z{EzjdGGh$tp3&Qb`p4EmbapN2MPHd7L3QHXVzO8LY9a?1SUq}
z%oxL9-V`&9ndq;1%uIhRacjiHkhqPecABzd4%*rrbH-g`E}FN*xVU@FP4m{6C+;2d
z(!4F^i`R_R#QkG_TDHdm@!GN4c->fCynd{nAtoZa#D@F84L)Oy0z1|u!haK{v1Y*`
znx_tEZz@y4`IvfF_4;v}z`bD^Yc-K)iQs;N2p-Wfb)=G_mcMV-e#hEpOd;>*SO_sH
z`%E|%3*U%|qfl@~6VWsuOHNFP5)=bxGqNaLOpd&e2`AFeBopJ&38-$lmQ0<0NsLZR
zrcWh=E25Bzh-bu@I1x^ZA(Pq^Pm27sC?&)g|6S}DofY|LB9%$2?TMrm567_LMmQar
z6a`+6gkz%2%ah@h7&5DM!i^*!$w-ozNb?!mh>r@Y3#-Kh@+qhdScr#bZiu{;N$`>w
zxyer^lhdEyhAF9>cq=7JY5o>Jo;sv@%O!0f)h3DQjFgC&aQ^yZg<o8p^&?blvSdo%
zFrxwf-q#DV>3Q-xlVzs#<*e3bjsY4-b<-m-hA7OLpoM+YYbd5!qi%|dxlz)7jowr4
zN9(baH3_D)$EY_pd(I4;KBl!`F1KQ`&~6quuG+ThT#WTFc)ChLmf1dM5S}Y^iGzY@
zY`+jpiwQX?1*3`JcxvA;Z6)CreEz@ie2&W<VpVrk<|9cEn2Ag>BdgAeyhR3~QBCQj
zYE37l$fRl?k0rzDeZ#8dW>kDxZ8$SBa(U!3|H6x>Mz8UwFI;-&Jb(4Mv5}BP!r4o>
zFsdt&iSwF3$f~<68OV`rfd<I?AIAsN@zh`{n(9x7r3o?Je=BqF@S*90;$SR#V=y(7
zo=heNZ^mNr!FW;t5f^WXkqq!O7z@vck~}z$XNHF}Fer#(N=)&w7@v~FR9F)E@o0id
z|3GR6L|R)O6jP}kM(==s^4~#no0L3+Yb>~SDz2RmT|IeAPu|s2tlwFv->cN`U9BI!
zeW~bgFZjC@f7i;XRsXKr=hte3OP3Ze{e0y8i|<`rtsO4Z9#m=%7TLhUm4{7x*UhFn
z+wF@b8)?{8sNb#B@4kEVBhyExR_l)gDXwYxlEU>BTtkX$=)s=C@H5KrGpoZRtFE(o
z%h`3{h(s_k9>1Ph7eHX%1U)N~F-9PuTbVKQ1nAj+V8$$>RWOS-!6MqmErRt8iy<y!
zb_Wsq1e?fC8FUP~@GID%4-5YsqH~<hk#R<FzTqBo2`-VFYOZLgXU9!c_j%|zCeVJC
zF)!quQ15}fPpp9wH`QIWr?-Nu08$Wqvv4G#Zw>UVg_^plJzIO0Tlt|?gAjmLd$+a%
zEnmI9YVEkG2}t1RLhWNltrMGpqd$wP!70)nXN7v;w*_e6>NG&URcNfvqwttfgyzSz
zZ-KRIeat($rb3(O6pR_P!Hyi;x?<WIjQfOk;H^XGs7~+CTY-vo4OXWobUvnD<9qwv
z;HFMinFlBAfEjfDRaUn;M?RqoINBj}KW45wA5;J5$^q{3F4*0(TUSNsfp;jsZDLz_
zr+a~`?!PKmk8<P@Lcr0^zb;3DZ`>p720nJ>$Sr292Mp^TwfPJflab38E?m}32>`FN
zx-pqOM$M`IV$i4#X5?sMBB=EX#*#1h#{i!tA~Qh^o5=&TTZoMkz#LHma3e}MOnjKs
zV$z67D<(lSpOaBR5EDF_V#y0z9I1p!4yd3Yssx!Ol7>`!rYfP9UN^_2%kU^$0gBRP
zNR&o;^Z{VQ%mR1!_0i6dJLZUKf<#Q;0!|U&WX-7I@E2M_4olN8>Z0jwzXjUOnT@^%
zcsoPB<$}JJtR+jPuY=uX-gaayi2tt=3rWK}?GXT`{e%cGhG0ReKOsM}7_?qzusu?L
znS`vP5}LC=a_8t81+T&y1!wmKqjGRU5@F$`V0to~fJ6+&!?&XGOgt!OQmLer7KNa;
zut8kdpi~2NLN=)re$@J_FJ8WU>B_Z{GyJ*d&YT$;rJ&}jYL1Bs)eOj8wMyZ{gs3{d
z5sqcV5lKo)A*-|l`?~q^0Q{t^`Vjm)Qo}@5=9Y~6fWRjxwPCLg9atwb2_XaE1wjp8
zvGKD<9xsUlf1)ocefdL3Zj-NUq-kHF@j0dOxt#m6miFbj)t3G|+xV&153ia#@*RT@
zI+c!n51aO{Tg`6Izc=k)I8`!}n)c<e;tQ@k{h;Q-3m?`gT?bcv2a8SnzraRcnXNu&
ziC7(&_?+t=;_t|vDtdhj=U2TQ#fHWouq7+heZ>-QQ_<7Bd~~_LM3~<GV*inkhL!%~
z`8_8}X2yMrSvQ-#K*a2D{@0gvK$))6hjpj+v8wGxW_(<f)BtQFpH5B#u;szw;9(!8
zRWB~G5S3HZyOChk0SzL;D_2I!au4f(=Y^gbl-eILm8WLjnkC<dwgzruP`(LYK1*4U
zOdk8v2j!SY2umOEZOH__FOLQAp74fu3|=vm$|r4xgiNDn0e)LSI$&Zf58fKMfxHCn
zHIWe8NW+k*b`W3zoHb39DrU*6ew=1TJQUwso@mIXT4XUcUO{E3Ov=IYkyu!kd0s}Y
zsQlfg0w_HN<=L)ngv?;?3N)0_()<C$$wM5TdAq_kK4hEM>RWS`w_U}q13Ak>HdqYq
z#ox9POZtZ%bl*J&FS%lHP^)y3uHKyGS8Rub_*->r@LhKjs(XpQhK5V99ou?|%nSh!
zue@E*MSrBWba|tyd4L-}B7_uh6U(h<NJY=GiZbW|bVOedH2CIcs_YeRyaA<V`I%X;
zeqg(=^T-eo1pDah=@(N1=qufDlnqYVtfZ4cAsI}CBh#R`=#~dH*E(oO#K5)L7azZW
zs1jvx5K}><q#u=_6n=Ryli2VV!;y6KW;h*9CS>p<<x~_n>YW`31#gIG)i4l%{dIj7
ztlDuvwZ@VVUVxB=RgNSfzQC$R4>+@Q2D;F~aC#&{6Lp&w15urVcq22xCle7-Is~hy
zaxaIa1aP2LVUz{WOClT>c|K&44nu`>6cQO%)zGQlR8mfBhl<X8cK73#XJAv?C=yFT
za+?&rtp)GXiudV<-V<w_f6e7BxPqU!f}e8!0@tQ+ZAIU;ugoU52mHLAzTBB#ab2I`
zs}6<hD4Cd=-eT`lh29fN?}<Y1Ii>epzUMj6e$O-eOJ-Beesm7oOAg`=eod@y4?PZ#
z7<e?lR9T@P2J%m);CJ(LmE2<>k|Z637xx&t9x`^+tc!#iVB6Vm(x0zDdl|(SXCEkd
zyA^MDp6%Ys95m6G!_%@vW|(`X(QEgJ^ehxB7*K1HnKVSAc!)GeG;k%%?%8HDwzPf~
z=&hq#r3`K5qr6BM*sIj%)l|V0GP~)yN+i^25DGKJr`1Ly0(Yu>9?oJ2Ev<S^YXP(o
z8tsy|PITi0@#D11wiDgb`ZZue1`r4n{mffa@a|T;y9?gKiuZ7yJxu34`j<$DHaSMK
zDw{W_0Zl4Oz$UXgJG{*nJ*Lm!BL5YV)1!EM@@&sGJGKLQ{HYx?cE=<&Kx@?+O{5R(
z-?H}pbTTy!=Us?KAhao@XHw#9|29+D+B}Ecqbk2mKK0h#d1d~UJljlpm-=yFHaw)!
zRXM8qFl+|F*+`{8p@FC86(YlrJ+IQ`tht(KzUHl7FE9v$6A<n}@VsG<rh7s0IkL=k
z7;BE1vjSMLj+?H6m83PcIqL?r&)Tw9!|F_xVLp)6pRDNvlL4~9Q7BuwER!x<w`w-c
zplN{oDMZqn9s^EYhn1PL&#`mB^Hg9{BPfC`b&OYXQD?M4H)E>aC~f>gEx1dYAE-rj
zx#_9Cw)b_owy}oQILq28Z)KMTV$D@Ye$AJ)-lnnYGy;42WUX1du}T|z6tZZ}3))F4
zteOkr)l8x51{l$4EkG~fTxhUT!WB@RQSdS4bQsMeJrK5QG|nsGYDp+55=tQzR|*nT
zmnN=s7&U;n8BH%e@7iU71kNZ4IW<d)vM#-Z$v2UVU1MchWpC-$TD8(Jztn=Sog0W;
zb?PpQ5RJ<iNT&#sCYqb$;Dw|%;B5CcC$rq@EubOyfp&-BEJrw>W_iJ8)&>iKJ|)nX
z4;)1Iq^;oVReZg7Yd-Pyt<^P^?8IGLauQ#|!{(t+yhCg49gD67X5kPxBg?%DujG9@
zfJR4f{!(sa;n1hPmgSL^L#w_$1>d0J8+<UC_YJQ4PUKE~=51Q;{OODDUVrEML+|c9
zyF2gQy*4oTi}8Eo_a_y$FXvhqTWJPTZqJ>w^Jf=MFFW&ru2rr($9!5pSmfMAh$nNM
z3fD<9-3r%DGkX+nPq}8@WovNGyK+qK5CougO6OPnD`WY<-c@cW$E>*;3a&22)s=S*
z76UE$Ku@0Qf%Macryfjx>{@NOkUO^q?pANEtgjw160nGmT50JysF9w>WV12w=-5u?
z!}3fbG8@`vn;vcYk4WwUCKS?}!b2)YRqV_3&PrBUP2mc%E;ss3Ks=mMTf?bTY=)P>
z@Plk>9RTZT_g4{=P2)kuMb+!SfXaK5yve+2f7AP>Z;8xTbqqFO{T!QR=c~E~H;LTv
zJc51}V-D5Z&<KRi!|N4M6hpDiIiO$J(=(WbweV(H!7>YP1S=|Q*$yMwj9#xZ^Y*FA
z+36i$YpY&A<=UWZ<P2H@GY#l3u^W1p)wR)v5K6I1{S#1R1pAyb>y(gl)))=0;%w4U
zP=ScNHa!(<?#jA=FJs=0jo$N2)-;8|tW6K>B1D%qKZaSttFrGgu+mlTFs90;Vxu>V
zVxB?`x#=<Z07})2ho$;n3U<Nyf$Ki1R(P%>FTU@2=eRldoF~gcpK2z@fzg+&2Tr#)
z=gZmQZp8|BCoCH2kXthVQa3c2-4#qE(|A*-pDJ+kVo^CAOpaH^sbmQ^k>26W9@dVg
z5m+pHV>H@DZ+>N@N42+%bm(nwaA^3@+1Zm2nS?0QBaumPFhx1hlQuXgyNT%ffz9Zr
z_Cj|%XOC`oWYOD9CSo(eXgn1Y<8Z4C(*ZmT&SPr&>7i?Yv+a6_M&+oY!ArWRJgNG$
zi{g#z<p|8T{NUOnY*_yWBtNpkskc;<z<JX=GhY>8!7f#THJ$Lh*#H3s(lo0MWI>GH
z6ea1~&`cVG1Y&&X7^*e8>e>L!DyvuBqBc|Wzz|s6#z!-L?6FulenSW!-!_<+(l0IP
zstg>XuC#m{GFsoSfu`I834~u3&Mb{Cjuw55MPFyp*IMxHRD3&&KK~NC$U^xmm#t27
zC_^3%8tjCA5^7M2G3dNhD@;O+0ah5+j5~!Gbhb2vq}EnQN;%4;T4Kq>gyv45%N458
zkOQucgbu1SjS1odDTYZL6GRhQkklR?4#Niqx76CnuolPDu!t7YP%S7Xs!a=gsSK}L
z@IwO$gWFOD5*Z=pcfLb`g_Z_`Cr@gt?0#ecXM4A?Uyro>2<iS9)Y*Rn)~F>7O-mDt
z6U*TrPUT!hZ}YNHXg{pL|K7tiKB<Q>^F0@-gN$xk-qVLs%zg-BI-Gg$;jf$|(7Wmn
z<?Q8<K{3$25>Nu&cbQKDp%Q_ZLD6>}Zi(HVJd`;Cd#L%^-o1co+)WyGC~!Rr*R#rn
z?!NE|HvsW81V6n>pf?|Y7y<=9xbX#FpW^FV_4Pjh6g0e6*IaTFN81;EQrindIh;jq
z6ox|9dcI%@*9%Bu>FLF%S87%RUAZ%BfrjOwAHd`&Qx_>y3x@&P_-hwpOUcFL%8mCY
z-<w>mA5>}vbEo0Op<};%<-=DB2VYVSzEtEqMXvVF#rcbG!Ns<(z-dsYp;+5ks0}H#
zA>g{XquAD2sw0QK$*dFCA*aIb&#`&9O8>^)7amwjjij?DXSu`8a|<si5H<u*Rr7n3
z4Z<o`2Zom&4yWdcp#W&2fafw&X>{?xQE-4FNMj{c%oBJL7Vw0y9XvYfx25$me2Y;<
zLBM4Q`G6^7cstOrfkyxV-*GD_a?>aTp-?*2x-FW4kEAjovosEGrBQ5BJ3?az*Jup;
zqL>at+%FtrwFC6%<SIb8$Ivg@DOLS?nVuV&j{_YUkpw*xkZ4g|8EUpi+J=(*A809$
zKmyY5Bi+64AAj%ogWiwMeH>fux~j0j9J?^^SzAY;ZNJjCzt}$baT;P??N0EIVQYPj
z%kBBl(T}cuyg%=KHqSmwcd9yW!}#$wTVsNlIcyIuZ`snKa|<q`iDb+81HbXgmhpt4
zwHfI(pl-M^PoRu$Lvxii)}X4(V%N3A?2bRJNjxBKG8%lULYmtPO?^sJA3Yq6a6XD$
zLy@a5!qMXz*S&1BbKaA)<R;;WI^1vDe&cO;Yc|g|Y4F*m#lX}+Wn`S!E9-TH3>O1>
zJdH;~tFqu-QM>WT(xW3rPsK@K4?->FGm*8WVQIC;kZlT383Q0yg}UrUOu=Y(i;>|{
zE^7zBo>T+0Sr)xggprzWoHft6vR0{XBg#+>v}QNFZCAPs7L74sJW>rTR`uRZSxYs5
zXwb^KvQ7cM<jO)^;sf)29g@>%1&07H>lQ3;z$Yqj)~%znC$z8df{1{k5gINJ!d3)n
zXcL3yLHMjL1ui+lFT8q;B;z-t2~kIC183p$s1&S+>VO+v`0g&5nvuSXWi#w=MB9&z
zl;R!KNf2MvqLiBFM%_1bwX~yt6LPZ$wvo||&!Dz|isw*nafsVwMT_!=T+($UjoMX1
z3@Aks+IlVI;7BGQ$QFyjt+op*@zP2SRAL2v($Xxv0RTc{^xwm#Z(%Zp$uuSu8oZ6U
z?_+|oXO#m%E`MMsVf0t6)#*Xh0-}7nPbvKkzH*eC($J%!0<~Wa6*$VX-(DR83Z<Wl
zb>oWs6A*_>u3F-2&NuIUIDGM;cT_i}Xduy)j>4s;Zsk91*zv=;Pa5{#WpiAyrf#Wq
zv2}Suso9mY6}@$NZ)cwEgmkT=FVD9A#?|v#SMU2L-aGN&*lO3wJQsxPS4Z$6+gWUG
zf4A?QzC!b1rTK7?>!>iR!6N4`HnkV)TZ(O=qOZPGLt2ik6Gw}4-V6T4P%c`kC%&e4
z_T;_0^6V~62kYJn%!Cj`epC_Qz2cMTV1a><piTiq-wd&RhVBylECG#s_9xg@842in
zqHTu9Smh^(F+AGzJZ=k$8Yoyl@zvgWb^cXc6<jAx!-8(zQG^JPm-yP(35&>q)saJ_
z>RRmo3)X^O+L=esO7B2t>BpG-1d^>YWexVXy;?OIeH&-D8wk<aIox+V^8l;1&aN3|
z=V<u4Jh2dSHq<LU107W-58prvnHb!QsT_}?wwQKHrrLRkszu;>8Jz%?gYaQG8Uffa
znG{qr1k|MgthWpB!3!^@RNHCozTI*onT*lfVGX@>7*`{gMJW!^8V$_IFDAf2#Ike-
z$j}QX={yo-QxaSOO6eKt625o=ldG7ZTduho=*vmpf&@M?&49ZoA&k=i(<J6lWL55p
z?u}i8us${OYRzTMRk|X|nOK_EBi@nbv3=m$)~}_h%t}ASHh+(8-1>ERM1+q;dAL41
z0=4woO7kV?#~?Hr!WaJmjQrsZ@`cG{Wxw>1_E9EpX<oC|luQAu^TE{;fuE1Aeu+Qp
zW@7Wx`qF-~qvs1(owaw(*RbSS1UL(MK)3CkB|GK-7`K%im~)brj<2z0X~1Xo+`Urh
zzohhES|?B_bu-qTD}i+aKP4MutzFrV`C6c3^S~ve^~lO_q3gKPb^J@HK7zw*)!4ZA
zZs2bEUNd%pff;Md%E<fY-#h=HTj@T4l`SP(ueD{(<-2oi{@C))73=%ld)!^|7qNS>
zeDH|Ud{l8AEm@%nj238I>Raq9*|EfuhTSCx=A6Xo&1LRn=d;T+SbF!2(zZA6-K#i;
z)?L`(8iPDrbe_*JR_7X5bLYbRg_0EuK)9iGDYh6Z*=Z4UYU9$L#XThlEjmekQ^`fM
z9I0zwy0Ca*WxrC}Q*zTf4_v#Jyfo`WmTG9$k38L4_P^WlPDkF`t2jdI0s7*C$zwgo
ztoa*ogq6CL%=_8*vJYPT<@FD*=X*{mou?K5>5>)O09&n{?;d;SSjkR{23sq&ihpOx
zLF>TD)0V_ViySiGrdbbhas@}5;%Hm<(u!cMwYfZP$XCo7O9u6l154VRF}G>TSf$Mv
zbJ~P42lF+C3t)NAPHWGauWpH3<Vse^!)WbY7|AZ#u>_l^t+)eAbQZYaE-Z1lpl-~0
zNM~0ect8mrD0#8$BY}oe4d(RaZ3L61ICiWDux^y8fsHlBgnY%ASlSp9OB-WiNgES$
zm1APrr){J$QVrJag5>{WAkXiSyyj<i!kG_ssNP6278Btf7`}-Z2;YcMbtL^9UTQ#S
zAAXcR@aRYB1KLOF0~&URkJ9mdCKi_TKhRJ;kG5BBS_jop?m?SWbkVf0iw>rJB_UaW
z2et2shS%;XsbW=+K2eVfl*Mnj859qyyPt?cCLN8*^dgF0E~$;Q*Uh1Umy;5p#sTfm
zOdz&cfiEePL_;Q>#H1N#*jVjv49=apJVI>-y%tlO%T{U2cbb|Ke;&z|!LrI8)2!ri
z>7U^Rm|Y?-LIUv{hWXk?n4P~Po_{0Uf0C2GCMSPOx_(Q}e{C``rr+DlkgyiU^aa6$
zBhI>oZ>~DpZ`(lDTiWxaq1d`F|I~$i%f&otEZMxwvrJJ_H6=4G3?2Ao>xZpcVa@7%
f^ZIMo*RA;GtL|4VjB~|b=sd1;9{-wPiL(5E{qS9y

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5c3fe0d67a5048dc38e482e2887ca17a11d6f487
GIT binary patch
literal 11265
zcmdTqTWlNGm3R1lzeGxuL`h@GFUqoHNq)tT#I9r6@k4H7ISB+K6N)pGDDjn<p=Bx5
z)+t<6#_l54qJ`Ye7Ape*64wUm00olIZm~cY*dNi(u84sP7}#PL`5UhswAi2BbMBBs
zilQ9%@v~Q&JLjJJI``ar&ujRvZnuL#N}2vT>Fy=uKd?|qJ!N41*9JnC2~T(?MaH!^
zlQzT+3`rYlZlbw)+`?e3A!SY5#%&ZfrtE3QxP!u`lr!xbcTw1!a;H7x9tvAh-n4Jr
zm-dhQ8Db!UO$gj)w7JKdc&k9BcUMTNzIodgc>5N3hY(8Gc;`*ic(Z|=A-wA*;oX8|
zy1zPR1-ft4pz*MsRQ~vmzZfN+EhzMEf%gdx-Y<msfY8b}32l6Ei+0Ssl@LAzEgg+p
zB*J|2P4jqrWlgnjzVrXl`dWYsVR%~MX@jTz1#9l+Be3Sk924#O8n<;c$|%lcCMk2N
z?Bt{%La}KiFA4m`?CJ02V;T8WHj_wB0=hdc3NcyW5~-LpmCPgrk;{ofE+zshnTe&6
z^TItwX&KAr&c7`rC#U3-8U9Uy&&P$)?4|EU4N9b@XFM;%FcO!*skn4jP}r#$6su!z
zZsDFv^1P7YBpJw%6vONwJVS~_6y&^^iI-0)J*#%evAq6sxH-#2F5e$Q?$c^Qq-Ggz
zv6iOI6{z~=naZ7G$ef|TOk1jT6-c&KplK>KDkbeba|mX6r(pOKdmb&2Z|UjUI3Jd3
zDDu3p*0;GfVZ6qOuYL<xjEy<*G2u;(R|+-e#w&pu%g?N}T%NN=ZS(IrSV*U)g!l}b
zOtA8lz)mKw2^lsgW+zfYnw8+3u}O)Q^0{1Alm(uhn4`@`@a(*S=aM~jW$ePq%a>U=
z!*sYALCgrLehSZ@sWv=)Jtv5=#PUfg27~iQ*cTl@Hj|av*tJ+Pg^l}1=3jl$NV9_j
zvqNk;FUjnLz{*)MKGmO3X5_={?nxMDcJTPTxsRP4IzE3a+Q)7<+Ip`<DjSoBhx&jl
z00s~Cv00IwC>OMG<_*#Qv8Y|d6R%jbJFGZ(VIn`tWixR>G4t|V4qlW3#Y{<1tmTo*
zz~Di}Rv9*G6!A2RPR#I(NqCW9PyT0OKu+fda>?9YIVMgD^4{zDL$4g3IV23Ek`n{D
zIe99Z8Mu~8r3cbkUPy7mbpbAMRvbvh<^)k1(C_*{11^II=+Dh5JCYK24P*)bLQx=w
zfut6s?dOo)AkRI-)%TTi?-QG6&DL79wU%60o*NBzhiW0d5M*}eN48tGAD>=6zjXeQ
zt*hj8e{}fP;UDLhKUn(Uk+Zwx46ivmi_XqZ@}Dl;UHGN&Mf&sfKVSLHyZ`j=>dvvE
zbL@AOfmH+JZYj02E?-}|etUYwyfX3W)ZM9-ag{LphDt-Ptqq+n4xL^d9QoCRYBspf
zG0%-AAj1J<l$_pmpq9ijtE8?nu>JtV(T_k>31pn%$+%&IGTOy6f^k|GH<iwy-VB17
zHwqTs1dkaW3p`fA3g&<{;aemLhPU5zkJ|)0C_#tdoJPjgrN-EVp%vOC3}_-$gyy&#
zMzI3U1!jY%47&mL0_>b->ju{Pd!XLWdx0(=Jbrir@HD{_geL_3wr}poH&f+}G&`VG
zi$={>aKcDw_3>ets|nPgv7w37wgtX@3w&e?e8(2}&Moj=ppJ39>=yOfTDQHhw)=&(
zJuj@?{=(W9@4yZ?OO(DuC%+T8+q_7wGvh6nNp!d3-z5GNdp0j~n!s_rkJbYhr{;rV
z6>^*y%gj&!MYv*>D;NMM#sang$LEv?eG5WP5`-Bpkvq&yq_XiDPKw7;LL3EMC7A%A
zYW@)bKVd-8S8B*Ddx88dDE5M(s$xJzVUN1RGqSGS8{RPjs*y<6b8y=#H{l0N!B`-i
zZa5T7P|`;!fXd^*_|#It0ww+K78oe$YbaQuq#F+f8<bG)(lke+#!<zbxt7T7pFe*o
zlbT~G4B8-fxUZ@PVi~@oA6Uxs<a|s{W-}~UW^6n!ib6()zPi5bkGd2ylmt<+aU3=M
zIK`>$7Tr2A0P`zusv-_^!v6GdA|rMJPDE)XvY2hdEP`1#W<8Ka9g0a3QV9*+f#^n^
z^!AFK<Kol^<RoMPs2DBX5K**?yC9oy+jPeID>M&7y>tz-KY#*gCU(y)Yta_I6Zy)v
zv*c}G^X@8ocYSu|msi#foGl(W`!Cy9_gpG^FR8=`@))G}@pU6WtAMeQaMz;gZ(OC8
z&IYg6Za{iU%@KGxq3zx`m_^gS*`gxK9MKI~T(>TvfL0|vlG6ax9>{5|sY{KHWAzBX
zY>$NDGP%c$MvaOgJ)?vx*89o0oV-R)!bnz3$7IEJS%$L`6Zw0L*b9_MNH<HFtps9v
zYc4^XOY_?|^L}%yQ5>ibGS~zMaeLQXyNa$|Yp#7o*S;q%Pi;{(8+{JSf6BWJY=Z$b
zw&4X`Cg7eJMn~=uaS)2NbT*Zbu>{ry+HPDrmYd(Pna~E!-o~Nu#@-+$Z}8<v7!&tH
zhfP%Y_2J`F`OHi*GdbV$0valf#;X)O^)_v$KtDUp(6Eu$a+!#Gksg#Zn~3VFcwyWu
zb-y^+Y)+&O7?(`vQuBkGN&J>B?;^n{kZzDC-kp!VyH{<yDcK5hQDH_E=DcE(v$+{1
zFqz6u#8O-)pDu5Vr1(K-*P#OCO_Q@TLPp}!f*c#|kL$7#Cc>*jug`k`EEABH#)M(P
z#xo0cl$>~}>Jx96*$wRQLv4dACYlRI-Z&5Yp3%l~fRwct90?=nFjK4tCZlcvik?&1
zbS^K0u?|j$G!@GU5({^M7G)s~-bPHEW2v}Bf0qSa2hAlmtGOxiY?hrA(rHN_51UqR
z44cf*p{N<mYMfvb`3zjVY^I-OFDJoVr!D9xD8BWPk{Mpe36N#vKH6k9E6zx{7<8ym
zm`IA?YG7A39?PK50ZV}GXJ?c06!y^v+uRqVu-3KTp|^UIdesseW957<CBQ0==yiKp
zeT>0jja6E!Bf9I7LKlG*GTHnj%${YZvMGK86)Y<XQa&Xk`vf2n+_o}La1ENThMQ6|
z*U(>JD%{(eJ<<7Jvo>vC8_y+Nht8T0THbbgg*3iv9cxK{Ti+&h!j7<GFgw+;$PzGf
z^xf0>$;xmuvZ7Qw%4k-GzHof9A`fiB9j{qJMY`aSIE;2cwBx`h(=Z&IFMW9|<##L&
zn?ko$cTj;cxV;lFJ}!)2&?*g4M#Q@%?ttuTgrWu!E}f?RqfV+$#3P6}irF#Dj$`&J
zX0Ks(0y4#+uXC^l9#UKy>p1P!p~S(hFDFey`Sh;kR`cDP<yn237>p#HhU^AW50jSg
z9sljO79FKf>!RanxOL_Awe9<h+xLHIeYE|xU%mdD^S?fSXYkJZe}7>0%3G@~Z!fyQ
zbM&|0Iro`s)q7yoc0dz-7LC?AFIjP+AS{bsNwLvVl9v=mb*mIdRcR^q*x>t`Nvqgm
zLuJURFJN$3d>uI!iRE&sIZlL0A>dY)?AZ+1Z6JH%wQ(FjG^e67VM5W#GZ1+uX=cI4
zkb<v~r2$yoWQD%v#2f#?u;2&7)DK2)I~cvDg7sqqL~;Dny4hN3TaBlEZ1|b(CW3KH
z8b!opJz_Q8AUZ{b_;;XZ?V8FHNe2OsR%u-VY_JXmMZls0txJGy;QUUS76Lq3a1@LS
zO$F0J@HUg_gqCQJ)+OFTDSQI8ZFN;p{Llq>w1?}`4Rjl<HEu&gDjJVDT?r1<j9J4&
zwgz1W@0Tr681IkaRs*{KthpO-f6}rLC>XzG)b6cUguC-+^bTf*fhP@4me|#p_keA{
zl}W?K(~_~l+1YS@WR#FJ6$}N-H2N@gsb&XJg4QK{2hD}1LJ+7xL%l8)0tE-upwV5I
z0NddE4Pf`xHH0EyhZ<m+0^EIcZJ@pZzaH4`d$nE*A#hObqf{@z*8$H--GLYbRR`gI
zlax&56_+Ta@<UuE%cb+Fd1qA^9-kj%(@9AJ<C#r}*>sIcg9yLK$yp2p<^{Cy`)7nX
zX?OHE)j#vcW(PHKNo}#&vh36>4-C<Q=`)(mXu5Tiiimm@GnJi6GgWdNxU51P!pOSa
z8qn}muWR#2N+1y*tau!n45qlDdR#@1Z3uzTxCN*LIxQz9H0PNGHfjzv^^(s(QSnyU
z!=b^T`PFSoYeN4n(yvER`{P+r5Wk20ESG1KlfZ2Ao5*a%gzVDvGl~H*idhdfv`-Fl
zu~ZH|wSfK^;wC9+fE}u02P;@xh0Ths!ehmBEh)?*10gD{m{Qryq=?qLVvw_n5wM!?
zzYXVOF{1$kTwk<Vvk`Eab(&K=i?}y1JBJxH8O|eg0keykp_fVZp?CtJOPJA>x7Tp2
z{?v%*Z;9ykiSIzBFr0*vsbW@ad}~IAnQGhlmQBZ|pH}=3x=SXoe{PU(wiEktun$5#
zYr$wS7%fG5*CP9hk$un1#$Aq8TMvW^d~K^8hl}3BDuGaR$=kL#znETazqs0adad_d
zvG?5L-V3YI(N))_b&OT7LPHmE``28NqAT)=d5s+|vcr#D!=+$&EqLHj@Bj?y4=sC^
zJSAUn^GmgxBc8<zs)w|8EWT0N*0bvBg!~cYFsQqu=<Zl)dF0;xw5etJ_|oy!roM;4
zFFHQ&SRFhE1iE3+QJ}-^S#3H8bW|sDFS*xz-9=ybCkH+~diUsK-@xYSw``-jt(2$$
z>E8Zn%iWd-p<lG!YkRzHzed~!RIyBH|08!lT3(@L7#8P(7sL+eIJS+8gDy|oyB05$
z!jYOK!`Q!b?JfnnN<Dj!<Olg*%-x%N-1ADQYfq_b5dT{{{;~6?ou$?trBEmEclpB7
zg~qR@)>7oqmyTlO)YItRwdlEG^xX4pez)TmL#@H6g$ls0QSoXfau%SGk!To$YnfPD
z;5fy>!52<GpF-HhaS&=tX*D#`CZgdcg3U(68ORjVL^hkE(J#dYAH6WjF$bS-&{`K!
zx{Cvtq3jk9V0H*HrK!PZSMe3B37)2bk}+!0Uj&bvkHP1g5v;O|QC~wb!p#vgh;f%g
za&aM*;yAGS_W+j0UruO2xppXvnBn}=Ww;7|xJlsiM!2=q60ZD5N_&T%HMN@GV4gOG
zmya$TRn1s{J#Fb#trWD8KuEPy(1D<nf-VHz6!akIrJxUvg6gMWfb81y4INoMNGu-J
zU@<$M+C7Wnnzy&;?fvXKYkg;meP>p^XNvZ-|80iabz`NS>SN5Im9cdKFV$i&2Uqs5
z6L_gM#vFYZSQ|W396W=yQPt9IKKRt>QO)oMs$E{yijWN<J3<cP4X93pT%?0l-3WO|
zq)YW8<RcwjYmwn%WcVRpj2uz@hzt;icQJqa@|~XB@7((Sig_je+3?ELUGKxtL+Q&?
z53hgTwdy@lw4YpW!q#V*cNtikFSP7ha;au403qRy<-$@ywbG)ExC0+uxOG9b(;@`l
zw4#$1U8E(loLWk$Zd&vZ*onTSKGjQ$J`xJ6ehLO~0ZkMPl29Aogq8ip;4U>pam^&y
zx_oTu*vj@|(@wR8;=<*@R)WRA4z-oy+DLQz^3|oQE3X$ryVZ7zi)<LLgW@{tc+*9(
zEbQxNV|QnMzYUA@X3<ktqZ=@wtXM&ZrXcE3uPIO=#GQ~;61p1H8TvZ_YC~y_VnnjJ
z(v4>x=-&%uYXu9Y5Nf%)R4_wpW97#&_t7hcwBR(5g0p~;D+7EZFhTU+szsb0nC_R|
z3Wz+JA-c)X*g1S}MN3np0dur~?>V+skRM>nIxUH7zh|bRK?zlYzZX&7#KiOT!?%d*
z)A)(9ChFRH0!qbJv%oh2h*{{Cl7vjI)uNgXZL1n9T;)d`@O2kH<m?xJ06qQ_9_c;E
zAY$A`LM>~-zGATNiLLkHj<0NopTNi4=AO0YXt6np;<+jO+zMY%*Ui?D<;KNl0ph}X
z_<)Q5p=~99YsuGAYU(Jp@5Ow_$>$-b%c2se*`ggI7G}~cE^22{iv-!c!FSe=%N?kB
z`QuXXKG1(B^6ke3j)kk>E_mRGmHlr0(D>lc_!=G>W6hy4jfx9EALyLwiD3azzr4Rf
z-1o7i|4-cMnvXmixh8%H!%BFHYB!$3+U_?u-hJ^Vbb;T!5h)1(?ELl(JHPWQ+bi`u
zA8apG{-3+8cmy2u2!#LGBM>!@h;PEIU;i(p(UGV_D~f2%jgC~cb`=_lc4!~LhVkbN
z{TqMI(69ZRp~euW$~`7>+RscB&&Kxfs|@=42gR<N?z9Qs&vF;-@;d2c+D|w{6kf`n
zmzrMt#7Zp)<?KuKXs}21Kjoq_Lpl0V!_`E-YCbxMC_j}D9U(6#Q&N9*TIw~>->ir^
zXeD|vyN;QJ83t;Uu8J)Ct{|o%`lZ=1(v=KYL|E1Y+8nk=yNSvcdd#$MHuUoxen?bo
z$LIzLuZl}hL`zNbg0xnR48yG32;=@Qa^l~~iQkf*-;(p+7z~Wz8w+H=w-_12GY4^m
zZol)`-g(2KTEdJE1QM!4)rjzp-cPUIy{f^7j(t)1yg=cnX8XDs>YpEc-@rKT7}ml^
zis2*A36|7rX3&c8IkD8qmUi}*qW#ZWwlNlcSb(3}+#k7afz}5Yl)l|VOI9q|Dr(%0
zC9pz*AEj=kR40~P1QfIzArJ8cR4+ncIt5ifLIKhmQJWA75`QyV6?f#KuSX3bs+sic
zQjrWbOf1eHUH$OtdMlRRV(MruH3e(_!_T%wYe)xJCmrA#(y>$}9ZOZxv80iXkVZN}
z8tDjWq$5;EI-)ev5egHJUu{LG4WV{~A_#RL)QM0RLM-@LDiW@CmlylI2TD|1{2%0L
BApHOU

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_prepare_finalize.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/flashinfer_cutlass_prepare_finalize.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..878d05b76e258df064f5d71c6ac8be070a96183f
GIT binary patch
literal 13006
zcmb_i>u(#`b)VsL$Qiyw%915nq9v^@%C_W(Y_Hb4j-T>d>)rM4W)(LC%^BI0_}UrD
zwiK#$3Zs#e6t)8t_M!!%GzDVU3&be$VgG`nK|hpSdrM~Epf0jNk#F3{iw5~n^mp!X
zNQ$Oh1?jbQdG4M2zW1E-JLlei^?2MILelnw#6OL4+;1phhW0A4@)^%@_c)o8`6M@G
z{PHPF+`@AyD~oL`wof^D`f5o!Q^J&xa!t8d+M0By#3_-{wxpEuOnDe>PkK|nDIcR9
zNq;IZ6=1Y8*_H}U1sN?QL#g(ucF?Yy+|&jOcY>4MH#u2U95W;4K<mGctOh;R$x2En
z=}|gsxf@xo7rDNM+%6X<56FH+lmkk)(z6jw$ZZNY^G3a0lahmL<cHSCZ(k#SgVG~+
z;IC8h$s3j4>5$xY(>~S5M$!F>Iz39yv><P~X`2eWIQl0K%Dqaj+=ss~{?L}ZS?Qd1
z%l&9?^E@AU?YA`e$%sXlE-SgHoQ+;qGjmxZrBqW9UT-^`Ozy_txmY@OSy7L~GzGaq
zsxzHYuf<e38qcJ2%Jm#&Pt0kGd@ghRow-;#cQlipPFzNI$AwJx%!f+i@|E1-wEV6j
z&&8F=%-iSjX=5s*L}wK>tt6u#Q>Da$5>2GDbJSc<`s#FcEP5%KiO)v0cq~bua*CQ%
zVpo;8x%l*J!5{7M$^@c&Tn;DG2#>12GgP7}%-EYUkTlD`$35gHBUaUcJYB@<q?BAt
zj^$!{FHJpuWiE{&VX#^>7FRQxMk}bs(z6e_6>9YlnbBM-JDN>ocjRI!s_eKvw}1Tg
z+5O6BGI41%JD<CfNsnGlCR3xSjEu=E*OmBOE~AbnWAlotjZV`_MzK1h)5(~2C6S(1
z)F?_Ip+&Q*l8vcKbUKlaB{7JR?7Z%yabcxmNn>1U8-@|WpVo!w2KP+teIkZS;`XAr
zy(FF~if5jP=L)uSsvn<MEhb}qWUdHU#_wS{6>f@`xhadxPg&XFYLhLBO|~j_*{0a0
z9ZTFaFWYZ=rW}e>b|}IOb=?%EEwb~b&0O9oH_F*%VZq69_~OFB6_F#&&{&&7t&|(3
zyi^Z0M9@CaHqa7iKNwn?>2Iovr0iWI-?v7-A2V~v0$3%0cH5S?>-<#kJuVW|w@lDZ
zoT8mLYHS2f`gvn3aIPn+o3U_^m?RvhoeG0T!u4ulR0vl$FC0tDVRHk+nXID5a*0e@
z8_^xudK@R+m!3;S<%E`v<>FUxCiEWmK~b`rqRd98v#&R@M%>mgdEy1e4^trih6hK~
zKHjqBxxdEAH@AZ4@|HXot?@^mM~dpQAah97TFzUMs&UOcr%EUkap-n!4&&E_DEKpx
zi$-;S)6k<TX$@U6&Sx$&tE4rx16dF4x=mA()9kyt0XZyNcSWOY0i#ik`U@l6Py_Ut
zPRPP&eNA7r6(i<=x=~5njp+9`xEB)V^4@Y5h0do!S2;YoWP2)XDsSjnvi(pj_k=0A
zvEtx%oZ^>kUkDM#AG$+Ta&u}rUK1>6i)gmU`#>}<aZ6!STSOGDhWDxqXw@yLS-sN~
zo`>VP#8q|}CNgR&meYmzayTpywGVl<7j-r2In0(r55#JvNg$*6!t3i?oR?}wsBID%
zH@Gi-fs${y=o>Ei_7r`43c?<?4wI`E040qDpt;@Ss^>xVA*H^CsBxSfso3=>oeE>~
zqc|^2UM?J5=V;fczXScO&=I-8m3=`&m^E$^zN~wUZMjT#7Drf4#39$^+<aD97+>e`
zUaq<mJ*%{&FAu7Aa_BJM1B=bzw>g-ngIDSFHZLgSm4$ul99<JT?m>f^7ZF>ul5eo+
z8!QNeFAtQ)#Ey7%hxv$Qa-#JH2QqUxsO@M%i>ge+%j-UfFV!T5Vth~I3$bD8me?*`
zVyk?OAqh<vj5U`b7-QLNay|+G19T8IzDF}@14zVc0t>AY%_ejo1XkXrp3GZknhy-V
z$^4^g?xH<!m-*Qt49R&KFxC{Df63?hnVO(Pm1@XaS^*1`B`nbt%s$Lto}0JMTO+oG
zt%qqwVPi&NV@BajI?SL^I58bgD~hbhBfq6VE*yB({KE+iHPKiil}#!s1qcd?2YQK?
z@2y>v5gSA>K!k2f%_XC{C703d?CeJzOxmb0063MM=3PXQ7}af5S)&<|Xbx9}(WdCD
z2C{H$ou~Dct&F2j?F^zD+*f{18Y&07@4a>Rt>wUz;K0(ca<Jq6t{;t8IE%+y_Mcm^
z;`h!t#JR_J`^2pich25>`|jJzM}BtlCnukTc6=d?R7AAFPS`_>I)-K^A|X;_=~zmE
zB6CN9!Q?q0&!{d%38E&eU!2jXoQWgbb}5rd>Q*3ArkivjtCBX)&8q}Q)B%dNP=pi2
z>2_ee_!aea%GgE`(|KgG=#C4}iWyaXgA$&q0*oukWHbuF--lc#P!Ab;kmR&VQ73))
z9MSJ@a=)^jthl-G=JJl+U%4dvDgL=XRIw9*CFt5zaWYciwr=~HeXjIy4sXT6+sBr7
zmj(_N2M+#@Lt@2hW>*}%J@g>>Aos9q1z$oey?p#<XMS?#@nCUqUoG>s<si|oQGxd5
zF{0Zm4v&5GxfHm4_SV^o9W(~f(Q_|(H(7B~O5lQ>_qN~NUU5;%jZsxZq9o4k{cjH_
zwl8dwam=q42(eOFIgiud5}=0G0;qtD&Ka}5(F%)Y=NkFK8u>23SN9s<M1r-l1R&{A
zTmYc%8QSEgFzuIp0GJYNyVfHLtdal6j+DmHhB1(?X$rDe7N@;(5aaMNpz8zBZP&Nf
z`4pDlg$$X0Es^g2dcnGMVaO#srzO&t!)EnxJd;Yzr4w=Xaij_Dt%9yK3H=WkY-{KW
zh-%4OP4k@`0*wHcrD}2+x>abJHInLJPBe2(c|Jp6wkfod*^Tgc-UK}nr%Db2LjrhW
z$z(2r2nuLAqx(SZrc}zXp^e#-M%9C|aur|$CbYRc;Qvkd!n7X=)<)F3v%cJiU$rka
z*n5^*B3Zc#_TJyH+*jB=`BZqjylFGR-7fHDc#x=`vgo^g;QI%j4UGQuU}@lZao~7q
z;Qivj`%A~Zkir!!Cv_M+xmqXaA^{BLI*C0^cN+wzo1HYYg~UvIaumQJpoTG^c;lwf
z!qbMW`~v*U;80cdBCi&VP0u?X(ZV6XZsA%1ZS5oESIZbBjaWOG16LXWZ8=*V3*?%{
zuUQno$Zc^nkV^=vDYPDw#C^&?s;d8su(TG1MOXUUd45rlIZz+v$g*L<JdBHOz>=Vu
zTmJ?8sIJYTm@_?bv=S{OOy0fbJgs0LF>lK|Td&op)<@NKxCnN{fv?Sf(Yk1%(dUJ{
z3yg+#rtOd!w#kRQ-VW$T{u;wmqg_iZEF=|~Db)zi%({q&DK~=w$ox}Xh;&zMSM)Ng
zrHjT%VfaH2l92!_#jqI+|Bx<L-9cAk_)3ljbuYEiGhKI+fY%K6GmU4JctAakC?d7Q
zH0S91Bt?X7)VC4o*4VC(X=ooC6Vlr+Co`AeU1>04;@LS;=-KG3Mk_@8Y6inPb5@Q0
zMuYX$tXr)xh32%c5Z&M^A<pF~3ByHUxGZ_^NcXQ4hK{|kT3l`@P=Dz5cfS9f=fRFr
zaP0Ho*t5-VltUZJp>QcQTnr5}VtX;Poe^Wj&{#cZWcSZ!AI?4)ec^HTx83#LvEKct
z(#CacykmtCeAo5D!M!&2WN>dm+FTCx+&g#o-16opp~0o&_z>7p4t177L&eZgITTsl
zVGnvJhc=c&eMIcqTiW$*ao4*q+QmTIS60pgqx!;APv3IqgEv15ewL{8a{l0*Q}=Vr
z-+YiS_zo0=0|wf67&d_(H2h#yiBiqnP(}DKimSFpl(22Q#@|>sqM1zjXAo<dSn9F7
ztrdiC0RK(^_ZHGbwvf1A6dGhoOGN`dbAng6R&oVgRy9o)E$GFA2Ae{@#_cc+h|3r=
zspPAHZ}MCC(M4uYL$uBTf3g$qG}w!Ag<T^y(YsqQ2XxM*L|UoyhHj5%vh&f1%V3c|
zL-XplDO!#F)hOjr=V}a*Ml5We`l=lun0~E=b*n71#t*4UY8(f@jg$POjaDDPa##4r
z+dtX9{P8EFOJ|<-zg6~!O8&v3f3WNyC~xR4_iQcq_Lq8h7JGNT5FG>Fg49>>axUL(
z>6TPzA2MA!>H%~T@vCp*M}3Q;gA{#(qC*rNrieh3dX%DL6w#?-uwD;T9e?jC+FUYs
z0j>h|B0lQD3orY+RfVb@r)UCEBZ@ysnG~I3A0XQqia*?l;y*A^{0DUu57I>OAbWP&
z->l(m&<!}7Qgxh7DL1!aV?`uN;@Z3JoxOW@8IoaZ#Y0(M0^vTQ{9MOyB|uag=ax#Y
zO-0wHl^~^MK4>3)?r*;*-IXeK(CDsr;Kvs~xma;hN-#mbi&AbA<cpM&sC^GnUT*V1
zDZH;3-dFKa+E1WA0LlOuv?g)<)q)AySI%OQ8bLqvNC#zJu~tF9wd#?!!6R*#?YI(Z
zp{QX9w9a>~kuLy7yVm&TW`JMB2qZ-y&_6?lSyKSu_X22(xMXVGvww~JKX#-vjsV6$
zhGA2XJ+d2szYXK?Fu?DH@($@ktAOQ+SPt&ymWY2{z<mgvt`E4I9%M@$Jg<#@cdd7j
zHTe5e3`8TC(F*>4A-vrR%BnReU|?5<1zv`%0$OG2h2Y$u3|Th-Otw-o%<H5=1<7RN
zRKXUMNfk<B47C7wOM;jM2K!nA*%rP0zrb6|OYqia!dr}&6joDEvt+~Nh09hzUDtQt
z%DZQ3Ah=#M?=s;o&*f@x*aXQlH2~aD!!28LwC60CB|o*9*5aa=7cXKJ0AsBThHw9W
zY!@fOXqRC9EBDlcIg2^M5G>T^`4Y6YPwIAd530U{qD=QcwCGkjk;1hLT|lk^)fcEt
z4Oy%2QSyC?K0u^9;GR>`vPvgc7s({O%y|8(0i@~3tREn&-=uawVoe#%M3V^(w-rW0
zky~S8rY4(k!7C)rNEHy%PHG=Q^uH1iJF0;Ae!kSVzu33`v;Cj<9VrLf@8s@ZSbqJ%
z#X@krAdNrw1xvo2pZj(`+qAFjZ!7zIO8zZH{}x6J75zhu*je=Ntmh1m{CwNPZOa+J
z<zDZt$)%%rHv*Uk+n0`(JA0N+JvZ!TXu_VM2c3`i6uR~=ohkb|3qHV-?vlU1=<i=1
zf9l`ytb6O<9xQe5Eq3oEjNG~LSy$vq*S3n2>wz=P*3))JfXaO12w(K?Bdq_x`tYMK
z*Hve9f6>3qr~(9k$Msz7D2W3_abWq{=i<oY@xq>y&pO8*fApmD8yK&ztp)5>>zI!~
z-YP&%GKWdLe+1EZ#h!QMYW)4EN@<qU9Q@-g4RQEhYCzrO&zYL+LgUqt$9?n5UYbuW
zHBMe1Xtqu=o>5b1HsaLX2{@)S+^5AAm4vvV(HKMcjC%_*_j0&Ls4|7j>a7D3Yc#7W
z5H?)21p5}&ueMAG{2Nr$$OOe*WgF-3Ds=69y8F~q-|2#Iy5KuqJ!;STM}9g|>OWNM
zKLp_WAn=RPC%ccrLo;xgU*RkU>~*XKdwtEY_Yk^!HR4sLsR&_Q^)f|kW7-6Lrs(hS
zr~MBiU|OKUs$1G&KW_k9BET@@mS&^@Xc_6>*8pfiqnPP9rc@o!Qpy0dL^T0g$}#{g
zQ3jwTsu9pqI?MYS04->AX98ME)d4M~>VTF~2B0OX5ztcF0JNYCn88-%3@r`W_BwxE
zw_MiLU6jG>D`rqJ@IhP8WO%$$hm(VW@!#Kp$MEcm$Ac;^#V@*<Bg~GkO~K?Xc57ud
zQ;aKH;0Nf%mImyil;@$TM6>aH?OrVH#Z6buF=T$Hn=@t_d-C>HxO>sNhNidSmW>=)
z<kD#hc@Lab5)5f4+<(<IVLIHmXj`-|`q5J>B;bYChr*zMJ3N>6gE}rSutzI|oEKU-
z%8}b+wA2{O_D>zFaF1m%fZ5SaO;bRBKFlrLl#L|KticV?x^`e)wF4MsE6netyGwOP
zZouq4AE>QMAiWt_<xd^853WQz<``hkK*5l>@CXX$(&?+XJ5c_xtq$Jnmjc%^>MUNj
z#FcP5lMBbL#uCZcr6k^$vFou31Mnm<>PVa3S9f8Ikhgp!r{?f_Dr)-r)bF62{u*x3
z=I}7e%#GH%U@ub=?6s7v+vug1?#9QY%w9|BRy;3IFQEz6wZ0=o1E=R#wWhAtUR_;F
z;PDo2y3vUNb@a|ENNMOU$L{iU+tq|}jd?j$2F>bNEZCw8-CrNC(SXV@S)1XcA;F<u
zqv$$Cuaq6edN}ctkIj_`cFF5m^^QXC$f$|S@UP<CL-ktSc=w>5Mh`lV+s*4yZCWFy
ztoe9qgrVg=q_I%+HU6~w45EGA$=S!Bi(Mu0P*FVeR6K$US-Ybw?8Sww-BCbV;C#I$
zZ-3F-f8#{iyQ$<IDtd=*oOr(FKw-;?A6nsdd@A(+%RB$};V(Zdy#K*3r=Z#FZIH`-
z+YHxE!Pfm;@Rx*xMd4ss3YDeKvg9vI-6d(PD2<h+jb$mw{&$om{12?Oi!L`jkoFxn
z&fR(a{>2BoaQ6v6X>hO@94u@*QV0${2_C(1_CLj~&)T+?B@cY9XtX2^7NtQ(Y%faN
z>pA^ffdqr@Th1kZX$-R7(_WH>inxxZn&=z@F)Gj~Rz!!#y~LxKzq91qR`j6*47Nov
zzkA6BO@fZ=(Ct}p^s((paPO^Sn7==?WW#*d(HUCVcz<a5?BmUkFBHV_f^FPTL=5A_
zuve=dMi2mF>g5552K8e9qt%OjrUviOR5idP#k;eXcP=e`qbS=#wUF3`P_MQR*M+?b
z?iSFEnnx6|sox`di6W*_X{NZHTciw<5$c~K(z{!5AKk(+kLX`fvA>|`1|mFzI72jB
zw_1~oL0E&$uOQSom8R$zctIolc!T@e`+qTngTt<hqeXGFEO^U8ds*lx2}4Bz#z>#(
z-vlvS^beQ4LD&uzA1Ccx;RMN1;RL(G*j&<sx{KZkGMiEND`^s`btz`JGHfVj2BO){
zp9cX~2CsJJEvi_5L!0MJb@3jTqmnGFm5UwXO)~&HWLY>qfh(MhIv<{%OXIB?9<k&y
z;kc^Aa!MGErZ8+$JeW`uly1-xwbv@fm2t#Uzcm7V5@TQ(6B|x*R&P^uha$3mHJTL3
zDdQTZ-{>w{*C91wZh~(0N2u{F+ORz!@V3Ou34vdU-Oqw=e75gN@JK;A@@4SAXA=+-
z1?lLQ;-0dvy)bqj_b{~n5Nd4wBm6|fIx#U3>1R%3eGk3x9a;Utcf@$%J5qb$OW)^`
zF}3;*TKBFluRDwix~o=$6=|qqxTO88Gu(OQ)Wjvcgfi@Wm6k$3*!*pz#m%!eatSY2
zqb<IugfI0FYXnb+8lQa|Po%f4YogT)VB%l>z`ANQXr^fWx`$bA`tZ71n9C)SnsLwA
z&ML5sk@`_!Dwa7w^e*!WX4ScWxc;h_y+WxUJKaXU4#Q$PhUut>C}OIRu|J(A<DHzJ
zC~|G-!kflZqJ!#Bki=2rw2O!<R-Wfq1djLo7kB92xkLZK?f=?h;VoY~IDYT1xihuI
zJN&P?gTHg|{3QQE7~w}Byj$9Fy13)?3l51Fm-r8Oez-7l;RQ#;3)OO-(xdOc;E1R!
zSh(TQuiDS@{2S%=traT~&%67Ut)Gln?393V5j@|^e>Y!ovZR1#vUF!saj~SE^M!6F
zZzU@tOG>6&-@}qnHol6Fk$$eNy%Jz#8yDPC2{JOo4QyRuy;r_%3Gog#2K?5pEkI)g
zXvImCfJRnaMD2#<SKicLj*NWe@}ZvOuUPR5A5O)NU)1U7t~iMj&_#vHz(jLwe<6Zm
GO!>bf^mLy9

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/flashinfer_trtllm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/flashinfer_trtllm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ec4469a3b1bd083963442f7d8abd35df29316731
GIT binary patch
literal 6560
zcmeHKTW=fJ5kAX1xy$=altfXKD9V&&De^tF;@q4x2^=GCf*??XE@<tNqO`nZcbVA1
z3XqEeNm`(ZkOw<Yah@8(`2qO}1^Pn84`voE;GiiAza7VRANtgpv!s@iO(Q9ghXP$-
zXTO=Vdw6EfcV>ov2?hfMF2(hS+W8D2e@CT%m3rXbTW&(G5Q#{fLRRqUP`J8d#lazV
zD$crV#l^5oao0U79){hDx9(f<G3-(N^}tGiBeG*X)t}yeO5Tb?^2ua<#J2U3<R4-W
z46*Y=?7|RxaELuL#2%J|QUvZO+}!(KLZsL(iUUf(orF6jhvXoHlt^jNM&xks?aZU+
ztrVou-?>*Jej*+EpNs`Y;qm?t_k0XIk2;7PkjCYR9EAuK`ulG`*NZmpqYC#`_J+&S
zIPzb`&f3F?NAHT18)BavV$Tn;PYtn853v`9*k>Thk7HjE#*uxqa)R;h0Pt>D+z&`4
zh<oz?QImdJ)aD>+DaO`=a#EV8a&iiG>&G*8{s!bzyf|`+D=pkXc&@~m(O)&&daY4?
zRo2&<(i@jrG8i-UrYvsAYC~4UciQEKUVC2_YmHW0$HCRIvf5V4x-9B71w?a0ZfK%Z
ztK(oxRxOKIRh#XW^|@GSoy0+@rpl|jsLIuvro)S?ZB1|1#b)cDxEw<0(`E?1!u5zs
zvs%+NQ|Rj#YGuvjE}DV&mX3(;$+ha5ZYFFjYOpL^<h!Q-y~F(%;=6EQJXTej7s`s*
zXxBygA}knw#;rG7;)WTqZPxnD01RyOaJ1HdRo7*yhR$mc6f<Z|AT}!%P1en*(u8H~
znVG);whd8RE4O4b-uI@?!Y%3$Z_8y_Vk-pCO^+(;ZMCr)wSvN=2c#43doOXUEOJl|
zNuAq_a>NK+b{K&MCvlqr!)JImMhVdzuaMtzhEH-1XkN+nKFlL=8wYmZ2uW_qU3Cmt
zypqTMM(>e^5W``FBrleh8xFQ2@-{p-W1Dd!z77Rx|8=8hSoiNAff;(H&4hy(QE9wJ
zB%eV(<s`qsfeaWiki3xqDHu+WLBj<yWVk_w4G+kO;RP8rd>~_nA7tDJfJ_)X$fO~F
zOc_CtX(Ix1M8f$qMi}I%H1;X?NA7h}%AQlv8KCA&MJa1*wMGT$tLlnUN6w19y<^mZ
zGjRv|mOGgG?`(mn5%~HJYzR@&OBF}W;95<R<c6r}KoZT2?@=uln!&1EuP^mT3h(Su
z2jA%vx%bYl+Ixq$>8hzn7t`CYxT?l+K?yX)El%zss)`MfnM5|)#1kv!RlTX2;eE$i
z#SY1gw>9AWTDwwF;1lZrzIdIK+-CA!2-gCfT18v1!>Eqq3Xr!Zr<;M*CS;LnyV=%C
zNjq99k1q)*f+#{L!YCpr&?Pm7V%Hrti7GB%O{2iIsYpxqd#1B2zGJ$|qE<0IC`Dbv
z4<;XV{ky!V*ISFNTI-NrR;#jp=wkcClP5P$$cswt!eZ+ZWW>fII=5JFN{|ZWi}Gq4
zBDAQKFUhL5Sb>m8BJg6-cDv6Wur9PNnbQL!yRTccvJw`sOg#oGL|3)*z@;tnph(<j
zx!bu?CwFXn^y{UqSGs(plPG?}7dx(EhcANq$#cIy)p4ahJk{m1*SH-%f9?FhaO&!j
zYtE~4-|&TwtI**Kx8bGuuJ(PT^kx3bUw<9F{+pYT<;yQ`J^x|ib};(!n;*UThqrD8
zCwGFAH-l4KFMi8E@dHT+o^R7L)Cte;l6mTe=Uop;k5VrpAIVNrKcWCh=P8d!AlW4v
zL=+<FNg75JA=xKr6j6*MXK5T!f`k(^i6}*)d74HvLJ|`+gJ_hD&C@YN<0Lyrvxp|p
zmP0g2a))Rh(G<yK=`^AO{>BWVBFRqCSwNH|+@5<7S+XaYVj^Y9bRNJJqT>l>*Lp9t
z^>ut2jvKx4*U5G6+;s=m3UzhO49NACeo0hn8*(Z7vrt+?Qar?5^(a`)13!XTaG;@x
zFT?9E!OafB7P(&}Li83tw!@EIefB0l(Q!?v$6=VUu;enmPzW34y39bO-B>mKIE`4V
zw-nQ*m#dnZ#|7}LAFvXUI*k*|pg9RC1^R>~Yd~X<vTBa*Ggny!g}e%5y-yDB{Y0I`
zIq~nHIfkjHUpd*a(ZpuMYDm;Mcw-gQL;u1o%yu^c`*wvGJd{VCl}FwX01FHY_O3%|
zbLzW0zuxQY`_ti5a(w0Ncl@mE#WxcYC%N!n=w_0GGGHX75h!DBR>nN6jCqYX6dNBa
zU4B-y0<389tc(e)bOl-I3bE1^W~D2_N>`MXu9y*m8RD#HC0J2RvSOCfF>SKTaI9nY
z+;>SFW<(=k_-|k&;DUM5MzmM<GFI7pvE(p$*4~K{YeeGMyg?1<HE?VQYUA7h)dp%K
z>-3=WYpT}9VImwj21pW%7tbMj9tAQ)J%fU6E=%vwiwvfB+;A(s<Ho8lpg4$vCHg~v
zN?sMWNc{x}GgwiYW&NZmAFUs$G}Hwgco_vYE~cAxU8U6iWj%{;>~dDM7r1Y2`$~_!
zHnuFbB3z{zx1zYG)SH~hR-$38dgu@{gLRTi1L3tx#6!`=LU9hJs=}?!0JXOWog?$h
zorAyJNzeZIe8-jO4wQ`Vv&Xx>WY-t}Ya(+iF}stP?T+W~``r_s9oJ~bmA)E%5F+mL
z+;{x3A4sZ~<l)JZJUlVU&rvTTA4wOeA5nnhj#3_xKnka65D_H#0u3XI;Aj*PB>71i
zM`R^=L{^eVWF>h-R+2{qN&X3%MPwy;M3Cf<(mbLmGV=^arvctCkj&w(khvw~c7z;M
zK4I$G3tyhP?{s7WbOzs@!<h~Oq9o<^u++9EJ>Y@B``%AY{_08iN_`SUDgHAPO2d5i
z2+ml98ECS^#}mdX0I$JhU%=fj0CRQ$c=aYf*Ky5R1pwJqa;s0lLp=?`6zXl(#EQ@z
zY3kExe+EQ}Q+@bITSxF9Yyb9kNDEenw6MFp1?c}OwW^AdH|KuT7p$RVN8LRAm=AjY
zPs@6(*?6c46|G5FGC1)QCxQ0g`kM8yDfYG1<g)tT8^pgpX5fr0w_ca!jW>^&o;O%d
zG@bBg(R3;BN7r<-B*h9WtH!4DjdIl-X~?pqiIv(#Y{7N4Cdpz`m1Na)U1&BHcGy+i
zI~B8@wMDG-`<5ZtZACt<iZB3~fM{nRBT^^Farb<L3;u(={5SI21BZiiJn%3<xTk25
zOfKEZo!ZHr>P{E$P9Nnw-9+Zf+3mB`3HWv_ePw=op1J{35Ag**FfJR^i<*x_Q&)s-
zf%;Jkkg>_n=RcdLJZb`oBtJGjGH4LB5E;#VKK|J_4WkwznQ<CL6eB{I#t|i;b-a3J
zdz~gxgPf4~MA{C}G-@McWQ=AIjgmx~jv*RHTNcp-iKRYS-OkV)YLjF%OY?}PND^l}
zOVJ}*ARhjMw=chaZw9s393(q=cRJ4Hc3lO$>nh*@S5dQFMa^~<HQQCxY*$gUTt#HL
ziU?h$Nkr%-O(U{gL}a;$$Z`>p?ILQHi-^!gie3!32in~Q!i{!?rLM5p4IS?W!XKAD
zD%}dq?*!&M{)GpAH|L<oNn!Tx?1_QB2HXq4wZu+rhPuH3Q2;6|Z!c3XYCZyF7~dYJ
ze$)c}F&;IcuLV&Hk@5WJ%bzXNFlrH!FaAmRLZDI9V*Rl=Y6%ic(j=l3k|B*~q)&zn
zYNLHJjG<;l1<?d<bq>)ak|B?1icA&hG@=5I&LAqn?@@G>9_W*xgxZRO#URNY+$90v
zy)gj8Knzf`V}P0+1Jvvopk~JaH9H2V*)c%PiUA@k28iq!pk~JaH7f>)tQa7&Vt~ks
q0U|2~h^!bOvSR?+-NTG2C%VG1ZY<x4PIW`e`}y)O-orUqmiZ5jg98Bo

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/fused_batched_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/fused_batched_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc14cb099cf30535859fb84f6b98b4def37a588b
GIT binary patch
literal 36161
zcmeHw3vgT4b>PGQ{|5mQ`~m!k1VvKf$COBYELsw2{V2<l?U=EHg$Ph0MS|1=Xi4-#
zL}$|tXr~d_q$?;%$57I(soI^;X{Vvv>_+X*Y?bY9gD0p3`l@c3sb)IqbUJXPG}(4$
zch9*G4*;PDQSN8j?(_}b#X0AG-@W(Ud+s^s-uL?kgO-A8M*hxJAWBhxj)-ve<bj8e
z)D(4{3Q*%zKoXG7NX8}PUpgzBkV>doIdK)lRgSA97)myyp4E(N2rQq`&g#Z>1Xj%G
zXAR?qS>w2o;K~`(ta;o#YZ<r9TF0%kws9Mwt7h!8RpV6zR?j$Qo#W2g>hWp`6|A1_
z6$)7V4`_nU>HZ=vKmlz9x~>9UUx99@KsQ#Pn<~)F73dbA4+y0${s*iT=(Y-Udj)z`
z1-hdG-C2QNU4dRBPM>TFxIQm`KmS1Ebro8#QYmU7Rk2q6q^(_7A)WdP^o9!be`&p@
z5y~mnYupv+6<R6qkJOtcw*@>UtzG{KTf3=3t$)&9&|D#%N@GE#-qBJaoqz4U=97*!
z|I&Kd&OmEPFKf_Hfqj8(LCN&~;<zb5fwl_t_6l@w1v-vU2ZU6M|ACGQ;iZcziVAFh
zqHkvf-^QRP;D);k?(SeyusPT=DXoD_12sU|5o`^%5RBw8Sr^#(dBylPDK$z3dOlAD
zdV{Lzv0@1Y=zSRvjklAKeGsxALcS>Y7yk<(JDymxPk!=ef-QjoxOc%_sZMvp^B*YY
zD?kCh?nIt7Fc_>*qZMkBuOU)*llH(6)Ke#U`aSUUd$)M{t}9aS{>7S+g>W$7KI@N6
zoQMAtbBEm*f^;Z2)BPhX@0eG@*+>xZIkn&qMGnq|Ca2B;*%hI$_|63*zPb6x)U1ET
zH#-;fP4K=_uJ+8_{IOSpQ|Hb{hC_iDgMo#K;Gy75@SHyq<Qhdh$NW=o1fS!J;gxd+
z9~}%&EkcTZC>U3RiSq^XUBqIb*HmbJA;L9;=4i+s3Hhh+g(v(o!LToU-ajAY97X?9
zIy`~t96h%%?>kG+`2!RFaKtO+q>&j;8KI{lb0JO>1|Sgh`7ac}vllq6Kn({=;Mo$m
z80KtAn6u$hdWci;nHPWyoa(vbCl4O;oe+RA0XW9#C+241S%bdF6?h^wG@0+xZvSph
zlZSc+INN-X_W36wzR28#V2H1ziCUr0!M_G>d`BLBLxJ3GL?ZZ2O9iO-ACNGP_w)2<
zEmK2xFbYP-=oTUFA_QYh0pOPd)Xz!zH<vL8KGC|8l;y<~1&FD8Kc927o~fo2j4dF!
zaEPMlTE?1(9E_YXGMYk)4UCzwE<$OdjZlil(!4^K85e!LJp2|VXkaV>=?5}l9N?cL
zK=Dr!bweKJe~hOKb!<@%d7&oUTZB{;Le`grR0?%k{AcV;)uc31AWXx`ru_OqUT9fQ
zL?`$LBqb^91#0o1krsP|5dRPrm%Kg#?b1{dSFFt`sBzL;gj!~5%W7E4G%*g+;;>%3
z0ByYpy`;32qRm_6A>q^fIcXt}$I{%CUJLZ<_L4M>#b*^DrkQD(wg_19pK%K9!FWDU
z2>mGP34IHC^j8W!`i(-5z9>9hw3TUPY@{!5E6H1=&aO5v+Ze6z4s7nR(JlJR)jEi)
z7vc(Kh4;-<l4phI721|@Z*DP6jj7+<Y9t2(w7)0RyLHNCbyf38O0!6EVJODIC=0n#
z42)8Ys(?%4k}n>SQ_!vs#&fkE=}&IGsE6^Krl8FR3T;+hXfqq*d8*i+t8UEc6Xf?)
z>3Wr8G!DS$gl-43lYG_>vxs6Yaz04kl5mOuP6sfN$@~)&UJZ?JEvNL;{?NG~C!c{?
zjZ-WJ>A5hcnglG;*UKsLo)dwoH#k{fE&?;&oVN{P`Q{^Zm{XqR|0TybP4F^IDG}dP
zfYbT;DHZ)V-Ps~SV<)0b=$O&LcZIg1V?)P|P8B$ua&B@m?3>O1!=y*>vms82kK~)B
z9T?P!PBl8n|IsdVa0;XA(5XkK0i1j)7dU-MQQ#r-7^g2OZkSW^S%o3fJRP2AVq#%-
zVa6YsqdCb1PU7bzXF1gcUpV5YBl*Hz2#4DsGxyV7fBX85$n5-%`KkFXNCViSuFDI%
z26tcB72Gj1b#}-6mB{(I(2h4|W@dNH&IN)qzToBH!~*2MW5$0aNQZY!A|Hl4R2~v|
z8K88}U*S~90L{)`pkb<{u!_POn9P@`M@J=;(R}UI<yYeu6K!cj)6&QfRpt%7GvQ56
zv#y=2e&^c2ddu%h*4sXO_Vzg2caqhg%*iNC)gvWktGeE{(w68<Tiar)AF50nI&1vY
z+j|nblBd49CtJI1)v?yWdiS!mdt=A5&W2<g>-5H+M~~{YqpWv7Tf2Yx_{U1h=-JpD
z_`ak1`ni>JiJ3LWdib8>;O`FKj@%w)9miv%7}B|B|MtZ-C+i(thh#?B+L74tLX@;)
z`|>DA<eW7mi3@2*M{HE^<*`RbEPDG&dtx;CN~*T&H(vbC_=n^7tOu5k-8Wd{JzqIX
zqWY80w8NV*bi^d^um;n$(dE&s-kP;IzbZ-eCsZqq$&uCmZ(CM(-8{MGU-zt^`)K=z
zb8O3D)-sZ{Ry|V54O)n*%}0%oBptshS?ym{-E3UzS-ZHt>%%uce3tb*cc=NDek>;W
zq0WBaRrl_;8{3kW<nVikZXQ~#OScTHAG_yze)-rR8>+G<N5b;<n~6)Smao2<b=4-$
z-Pj&iWnG@+E3B(CuEN-DH`=mxcXHS2INQ97weMP=ymRo8Oj>J=tKb=G>oGvGbIrLv
z#P%F!n+~U4BXQM+x%TVyyKmfhBk5nYe2rN>_ig{WeeE3Ey`OE|f7^M-{@*X&ak9gw
z*v3<=`P7OIQfl<PJ9%R=d1_U%`sTfcJu5osGGFg~ci_fA(vv*(wY{vqEp{xYq%@{@
zTjB_7ZDrN1F=bY5ETV5KbNeXc_Ky!pD77W)Y=Wn7c4izqS;x+`y0l||Oqa7#dS^=R
z_}D^et=UbT%hmdB_l<6-AlCroqvylrG*n&Ns*|nVxwea~9m=@&v#$N?OxkrE!l?6M
z6qK{+dT1q-d@b$hjp;UY4#?plyb)A^P4~|hKp0{KK7OJ|od|JyWSuAHck_(25wWRI
zgrGeG6K+f|f8n@87-uVt$4|jH*9%kVrfC|-^0Et<>;@q$Ol!c-MN21W@feLljA#=B
ztm*{_6>Wxzv2407Vbz;9PufMsAld>GDDf>}nhK0O<0*@0Boi$>L$oyl6CQstEx^#I
zU}>OcG>o1xFc!wj*pLl{soBkV7$-1M)l3aj&olt*E@xa!Ei3`@3zKLm6D0n;g&K;s
z0Sj9GlqR7}Oj}uL&4N#~ooPnDl4mRrtHfGFhBN9dVPnMD>vmwQydOvfmQO-mp}aDF
zqV`H?H`Iw&PUc~{6<{)0bBZtw^FeP1ry!Foryz4Ir<lO$l-`NqusS%&2~ILb??4<i
z6Evy;IQ3cI;yeimd^S}w-;N^sJUU0vdE)d-KZ8MvQ|wVhkD-IpY59!XhcuK*)4R|?
z`77OpPB%LHz{$^$@D?e_Ljd0};lqhM+yTB%H(_EZ`XDA|&odhQvOB-Zr(XfDpNBhq
z7TN{oxigQ=bN69HFV1_(Q><az(#U4w(n!`|i~E<ymquVLGuq-We|0z!NsO-el2_QO
zovfjBa(tET8)FS)7{~f_0UuavU_>N8O%}#LwGDnbEv2y%4BSn>jeJ-W#Mn@SYvNr1
zvT8f|IkM{7hleH2Hs#W>N5>_U$#QLKc`6}E>`EJ(mqx`)wrjorcP;C?*uI0er*MKd
zoFvcv3&Zh9e015DRISQ?)xWA@-8<KMSa&~bcn0c8uKdFDZ#^G-IsWP78-FD4rVnFN
z2t%bmSOCu!!HM8R6NC~j90SO>_?PhZY&|Z*TO%y|w^}aBm?ji56v8*d8!Wld4!uuu
zWh=pjtR$b7E#77o<1UP*tvHhL3o`=YXxs*Gdn1k`Fov`-gw2n785mD4yp}Hu3RTDj
zV_P%Rz6gugLW&)cqOTjqNbe@!?J#CHm5kEuCF3$KY?_$Dc*}U1;%Fv;QLu@z2%{U6
z##(^Au(X8IV%<fhLWxW207_SW!5mbmgK1b~m0u;I1d#=!&_YBcq#`p|CsRkaz--XO
z*b8OBxuJ=17H|zL)p?<hf^qRsSjsfeYKYg)R29OhBZbBHIf|iHB#Z=ZDcntP%i->T
zdpq1pxYclL;MT&ehuZ+R32rmoR=90&+u^Q)+X1%|?rOMe;O>Om1$Qmnb#T|i-2itZ
z+-|r%E0SMReu*OEy<8aYIl2GxRQN~OtA*8<cAlO)NBd`C)kJRtI*kJ&C!3uL@e@KP
zq6%O%2Kvbe=k21$FxW|SUO-Pvel!d%%<`hVFh4sOXZ@FbB}6h$pme)9S<t5u{S-RI
z$>LQ+$qJ3k7~_aO?X>Z<GX~CKoIY4mJWe@31*;igzOcv$hd2cx@qZysHxcpsX7ej9
zf`syjHtz!xU5>!u0Wg`w!Z;B<{RC5(W2%JZ)aFTM22%SgxWoSqhA^09UXxH3+jYZ=
zA=z`!+`4q+J}fhKt?WwGcCKDwYj>w@gG<M=DqH;GT~#%V=D<h8+Uxb@*OQWaxbk{n
zwq94QsK{__ZeBV9i;egct8ZL7jL@sBzG3O`hSiy9TiLO6EL#9n*7(d_RTCumz+#WT
zl9*ZjG~2K{Z5doTdY=&d$?Z4h(w6R}qZ@il{76#6+P$payLxQh%XS`Q^#?J73LYD3
zLsn~pVrUybmPs`34Q*9I!)iSrE2Nqxm=tvm9#zQzl~D?9&PbW7;+K}M{<8JGnwvGN
zJ*(%^o`H;Kko63Hx9NNBAGN1F2U*j>+ZS2m^Gl;YRN1l)Px8o`mTehg9YZl)847vm
zZN+6J+p#a}YF*W>O|$I>Sl5Bru?O<%9JNgWiwi?e2LDjvoC5wKqQ;n0A*6;WHK#!c
zCfBN*4k10IvE>X184)reWTrIQoCP5(rLpI12-y*;LdZdBEIB7aE=;c$p*n=>5o$oF
z5g|819)y|@YDTC9p;m;pVQy^*wIk$3r~{$x2z4UVg-|y_I}qB5P!B@=l*XKU2BF;u
z4I(sz&>n>L<Fh@B5G<)Q&fKsB;pYIZ%N-=}2*BptD1o0R@DT!o5I|#obPQpBB9{zv
zlIJ+dLE4Y6rfQfM*?>YJ56GVbwvrQ8J^j8*{eI9PD0%e_h<Ik^CO{g3`jd&$VP6HQ
zktzSHFwI=27%eS5N_|ekP}BLT9sCPdKq5>JQDcP=MV7$CNJY~qhA=a_fDGkAQ42tF
z0$Bl45Xi>JMB^)kGDNW4<eHWXQ1Ku14HjYI-Xf$#G@rt=GFBlSoW>@lQF{byja;Zh
z5tGOVl=uunyr_avzIBLEPK!?0gbjKId_^W}!4Bm~xnTS--)hQfoEOTjfGPmiPr?Ex
zs$>*zf$m4NENYTg?NN$REU5y@uTet&&?6LL&$%gt@~y!qJ!80|f^RWb<zu-jpCZ?z
z71HGyOnCZeRX`ba!0ikTLD&KdQmm*zp;tw#DugKZTaZ|brcvlIkdG2_E943_-VgQn
z<b10ugeaz3Qz1mLWG<3#HRN3bw<}^3o{+I)e=K9UWWWX?%VmUHV5<}WBkQGtTU6Fw
ztf`723MH->qEKQ8A$fAWR1C3o8l~lsZkdaCh^^BoEr-B-BI8-glp2<#0cA+e82E7k
ze2WwbwhT}NW)~RUUsLizmw@K$vM)&pi>e)?Ux#o%0<H!aGhVNJ`pEcUP%f8ZW1FyJ
zMBnhE{|ncTaIo~s$|M6`Ehi_O7!Eyzv!!u`0|E}BXqSfqQ?r}`7{1^PCx2rqc!^W;
z%5oa{EN?A6i}6C}%%OvG6EEMNN9ZCtG&)DoA@YeZLbwLuB^3(@okgd}{%+P6aPo7Y
zv@cUXlu1XzC~kQI6UmDu+*6@9K$T9+8pOHB&qFdZF!6=I2i3JiecVEs8&dN6l&(Ho
z<+%Rx%FBu2FTc7pmQ`!6DVLS8i|=TbhBqM_Mtl4-tg!_a_977SKdy|rfmJsoE~eF<
z`)cDg-Lft|mK;s1J3n~iTW{WabG_$#10N0C_WbtX?Q`iJW2|~Cr;zEDONT&eZR%Qm
zB{eXb892cXoVep>2VO`UPc4mZsEjF<D{<*v<_5ER@owWz5KCW+E=S+FnriCHG!3#%
zgX<o)Y42Ur-jsT8%Ct9Yt-0R0(wU%>JxPDs+8$GZo*?#Y;@rD4H)dA-cN=!(C@HXS
zW@p?K>q%+*9?Aes>2_pWJKuZ#=IbRC!V7MSy0+^(dq3QJyXS7-A@NiWJ(kKLU<cJE
zcm|LtU)#I9H_>xfSC_4E#f}Qj^3jbN_qz=@8dfFgnhvB_!j_LhksQvL7FsOt@b#0e
zs=NM~mCq!H(^cEhqY}2P-6+H)X*`hEBwAQ`V~+A7ORLGr;C}=D74VNus?Dho0+!a5
z(;&pNv<Lws>&%%D;u%?lfRWYaYzP7SYR)+ksz#^=Az)+;xmtvPebru5FRSC0cXYW%
zqyQURq<D}5>}-+Jj1*vNi<DNR0DD`cv>^r9+#<z`6kvCYl<i0Xwzo*>LJF|IMamAO
z@N6(by~q&vAp{JuE%yvU0|@Ox2v}oVZV(}0jcvI-2<@kgH7SF8S(3c4=D8WlJ&Q!(
zk~dR_B}hI5%y3oiFoBU_b^^nUbYz(8K0ZQV5Up9Np~u4S(J7=5ws`_x=)#2(RlFYF
zfmi$s!0iSpunVWgr2)yfEFcZa12VYfa4UlHNp*~xlmwKY*N-cL%76-NuY~w~D#V?X
z2Gk{%eHsWS4`|Sm4t%tqmyc_KqMODMt?Vj<(m^N##)BAofQ<l~05$+@4j3VJQ(06%
z1Evaea|OBu%4MzKN6HHpwWfeQXocKW(<taDyC%(nDkzaX;HZ#_vjY8-mK4iT4P`(%
zOW6gStY*>}sDW}gV$@~HxbrmSb#XP%@kVAZ(7|~>9R%yNk*N@|A6xvs7H5TFHyxY|
z(!tO~&^^xw+A*0A;+~lChr{m3d4B{#&C%!lArMU<A?PNCS7DeoB6B1iUXW8Tt(!zM
zwMeIXsyo>2KJ32i-Yn1o!m)0*`^@<%NP<t0k3rHR8Db_cym0(e?!Z)d9v@-{n1!94
z3I+2fdto<dvARikGD&h46u!Vx4vh2o!h|^!l7#r6cjn|^5pZDwmMVn{=YG5&qO9l_
zB_P=?cr7a!>gOS>!01a*Qc3xwLI99WQa+4JF3|Q+zQSS)bVQV|kk1wBmSoJU1m0l*
ztPD7{543Mn5ucBr-M;|w>1A*@b6I(P5Jw&k&P<jBj1@v_d_K}ZK3^E*xBMKxM5c54
z=K)`As@V43LIED&gpS<B&p;jo1F~^h#j30Csa@HI&Y1k3x;E?S#s7w^y*eiUq9*I!
z5tIL+x}INmE9qclfeuYTB83ZKQlF?vDXmR0!#lCX>1m372cq7RanjifT(w}1IXn@W
zdcz-?nhTAPuEiPiPj{FYZiH`1=xY!yjQQtPEfz2k%*XNZy=!rM<tlkB@W)s;c1UiC
zdSJ3-OdYJLBV!t5O@k@*AgO>c@h5jd91s^!)9_z@<)04JXJ^5Sz79@lk)4}g6Cav6
zVwYX)sa)_1QGSBOM{&jyl{MKirY6?Zlu|eGLqFD1=|x%$JMVSS@$vQlc;T#(x%msw
za|2ToU~fvyaTYr(m+SG+Kf@y7OF@eCcuBBSq$E#QgI|K+<uyp->#^vqT&l7+?C;8I
zsf9JQq|_~smkpBT%a*St$t~&F2>o@DB5;<ug$UTM`liBQ){CaVfhYC5#{&N!DAGfr
zmh7Y?oYddL=}CoNB38y==)+fUAk69Tk%SRX%LAaFoagHN^Yb%Td|>t)fo{Y{^v#9x
zmc)8uS)8|Fo>1fS<u8OuGkgh#73j#KG9Y14<W*I98H=b?szON2q3jA2){Btm6a7o&
zI`k+=fW$(}-p39FR}@q&0U3#-I!Xl!JD5OnBbhD?(tKESK{{8EVwF%OV)7Ot58)pt
z39-@$weT8DA5l$IyLFk1)~eI`VkrcOkw*#=v*}W)Wj+9uLWCzPvES6e0ENbDWmi<s
zsHSn$E4!8qkYZ^s$@@nQp$ajghAo~z4<$gQOWDO}CuLw-u~qqvP)-rvksbqj-r%A%
zVKCRIkXu3eXDTT#+TfL4jH#r?(UhR<+OovvkQvJ6E{g`}TSP(`prU3{%BIIdpmY@^
z!4^=Pf@jnkX%)hVrzrHss4db~2noh2g4C7RG6N?I@>-qXKiw`s#eZO9?D*aUWFIJn
zxYOH<{sJWQ?r2p>dYyuA@t>)BQtU#h9gHI&#e8YW7heMN8Vf3uqfRig(J{`wkQ@VR
z6G#g=m$FMJi3|LRth^d(NTff%^;O39);93lS(X5xv=c03pEmuPkb<#AYeHa&9j%F=
zISILl8IWkskY~RTs`w97<e18?_w%C@jv64fcS5NgXxbCNy$CX_iKvTlE%6d=@n<oD
z(ivhweVB##lTwTc_QNtTP~xes>D^^n0~#QEZE)8^K71`am1rp-Ew3DMc+0|=r-wvR
zQekWIvqS`qYRDzF#|v~E)CX#zufc8%Bb1QX&rd2~MWY#`FF{-)ydzS-#XV1&<#2H^
z7n-@^o|>JX3C;#X5!m(vydW%J<}d8)xh18WAvI1J2)+SK4H_4NRF7tW=9Ti=q^kUc
zijyqA=J8F;FL>SbuVFEw7+Vg;wLThqJD-{YETAUN)A-_XGFTwdAD|a<`J9fQbP4ao
zuUhoLB?x<b0-WtEzg){39rL0_MR0aLa)rj%lT-V9ct5gWpm7SIz33tHhrn)j60Ce9
z!4PMdm|F-%e4)7znncq}7{UxWZQ3?Nt1&h)iXx)M&mwviov&bcJI`64!5uc?6Tyf-
z;E(vdb%f2Pzlp(q8J+)x&aa^J9y+V&+yaM_V;ytaV#RUV^HYHUY}Y}_sU=^TSR%fP
z`5FS7Y_jb~e%1#(kB)3&%I|H`A}O!Z(@##(;YdCvr-OB>fY85*CBV0ugNB&DfQ!Dl
zOJQh<z-3NGpAU0-aEd9(z>u1==36;ms9AX0a2+IpE96QSFE~}@7tM>F$~<R2hy-5Z
za1U@QOBCp7&DLvgEWh#2<wVch(UiI_7R{QR*O+DIozEsMcL}SWGBqI$q?L(NX;Wje
z_q|;=cdhn(bLg(AE2ZvAnYw<cYs=bdukTygm$am9&9OrpHfN&e7Y0GNXfS5YCqOo7
zFvbT#5XajC$B$n>xpFf3+<VX8d_HaOx~K2n@HD^Yyy^UA4ai+%+W67Z3}f;Kb)I*R
z-8i<Y`|dN}8~kYS&Wk^I_4}{ht9vD-uGy$_XX<*{x?Y5J&Wx^^)itMd+p|^9>z`Wr
z)bhwil_yix#a4C2Mjn{#*WO%yGizu_$}{dh*4?)@p3)!4TC1~Qaxl0u2*$@|ZA^}q
zvDFz}%UxYd*0n9;8e&~TS+ghEpJ^Uon+Mjl@I1A~*fFq|b~V0Rd!sh_>F+AOXZXl)
z=j;!rzCU%Z=2IXGwKZmJ?X0amW!st3?*unnQy)9J;cQ>+|JLBGLDtzH(`Ow`sn!A3
zF%Z)|uz6QIGab*e9nYq12V&|6H4O=7_0yS}!Pt@e_L}QQR*odjuX@>rzIDqz`<{&b
zAZtIEwjYiizHh6}*tW5@ZOMiAqBo=8yqdP{iXDQrR{Y}ISF+~nthF{V!&*CH2eYl-
zl)gSO!Rni`R(sqRU%39}%9~$~rmU^WAZzV}5T@FUsf{(YrA&R$qA6Qj*4dnK_TP2(
zXWMqHnbumrv;D*EzuuK<J8-*-Z5zFz-)P$bPIFuQ`2FpNvUVrfQNu4|?_}+r1n6h&
z{RPTHowC!)n%m>@_~}F|n1i=|!xDd;H8&?ugB-THHhwi_-WI=_#md`x7wW8Q=UUZT
z%j$UiXd;|EoIH~}oLEfTJ2nOe31uuf@!r(UsWr*XndDfiu{Uk++t}vaoO;^aoZCaW
zhCrNYcBM?7<oJ8Oo4$3)-Bw&cr%Zzn>Kill{cL@IwqeKZ2-tl$Xj5tz$coMO_;||G
zw{~W|KV^D0rGA!Q1S$EY5@+Lg59D9jJkgO~-}pm;{Hn``WB!B+-eTcG7#9i;k%=m`
z;bW8$csKb=n0n}{61!h&8YL`cSAktog3=RpLuD68i=@Cn$r;555@8}I3M=WDS3&;)
zgr<LhPH`B;!PBeYv{T`!5bVwXnH-G_0F9aR5+Vhe?Yt^}6t0v8oq`BqeBAut#gA2L
zL9q8E(U1@Z<y_%mNCG57VA<|SIXdrkAGxPHdcXD1?K8jk>hHXoZatZT9<6T3s9RWd
zOV(DCb@yd!TC-L4S?}STj?%RLgi>m>r1iYjDE12ZXM;W;r}crNDX=huu-=FB-%Q>|
z<?{vRCO|UwAwDvSu{bqYnZYapGayb&^e>{5K<BIItf7OGIQ>iL#K7U?XXoZ-=$i;C
z&%oq0N7LBsoFy*>eK8nbn2DT$?L_qdM7r(F<J))Xd+1}xi`XWDGc!IP$e7|lB?6lR
zyrAtr08XRxr?A!xUj*l8pQk>S$`$IIUZ>c(QC*u;z(0(@b&WX{LNIpK=QId`(#rZ1
z9YQWjY0OC_ilJn0rg=Zxy#L1(AP;2%Ij58;npbVBkz1~Z;M0t_J$d-OV>gejwXiJ%
zNVFrdHEBb*72&F6Kf+Zx<!chf0SOpWT|2&fJf|QS6v$b3eP(4Qr{ZxnWvfQTS5Cv@
zTFOzA)A6vLs&ZXFzH&SXV@g}jz!QyB+xDD^hs~6;BWK}ZE2Y(EH1({e{-KShFj9*`
zyJ4=nu3ypT6aYi!4bAVqcH_023NhII!WTt@m{ur=4lzCEVnE19d73ls0oFZ`Ga+uK
zw8o!W03zLsw7~?lL*WuuXb;z+BR@f-p_o(>ZH5B08Ok77b_CTyjo6AooXYQ`1)YSd
zMAxB%RP;at{RikTcvu6l5n#=<P_jZ%3mOq~KnJ=AJ=_Mkjc}XbHp6X!cuge{@?gM9
zPA0%It09z)FHI$Ql2{ahw!#i&u?DJwHnBAyXfed;N^$z6GT?;tsz5U#9<QbX-Bp2J
zTY+9zfnHyM-Vk(<`fIG<&)1#%iN2mE`ZiVYZLUCnax1n#pJ@odX&B>9qQR+#_0BfV
zR(e(d&yt51e_e|M`*4Zw2G26!XT(yi4Gx@e1_3UD1mFA$16M()p&<!<QY{Uy5<(3P
zNEk1ZBm^zX7FrrIK$G>sguJ9X<M534!*&=!%d{|{S3xZdQxNBYh>a4{9Ei=)Gz$DA
zf>3}M@0I48FM^n0>nURvgmA^DdCHg~LcO=jON;uZ0tZ9%O}J(w7wpB6j&ZWFSC8D%
z&|d@+nJxLHm!Win*Y2Wm31^s_nD@<IhDFqQSPk<!2%Iu+DR_qBET)45k`6!HAqRrJ
ztyHyCC(<bkN+sM^5XPzdXTUmu;VQ3GO4Qv`Z_C=88Cwf$YsuJp@7iGPFt~O&jm%(g
ziBI2MTVF~&wDwY3Jw*87LY#6R)N8m|lRIPTW=-8G(?CkSZ(WgA?*p))!D{SAl~o--
zO{_q%Hfe33tbEU#2H@|buZloC{(4#s*Q7MB1){$U5z93gob@qHRCsZlSbaYpE(TBY
z5CsuX@wkyQqi=()jT!v_s~@<pH<qGcIb+u5C|RC8+f*m`IOJ`_R|Pae5;_S$1!V`Q
zH0S5&NZ2=Vej#*WDs*nKRjja&1zUl#(%-;z4}<gf&fiu@IKLhM&BtQf6H8DG_?60K
z03W^%P(oe0RuIM#K~E{+S@d#EUSole7GIbw_KB5oi%8d@R1bAfAXG_qq)nYEbtm7i
zPXUo88zfLBN`Ds|&U$WU?ks4-OZ7t*UO`?$qW=ek9qZnt0V)i~XrNX}l?hrEWmE&3
zT_~}R&!|ym&B!KYpzC;22#_vDb&MAD4qA}z>L+D_id4!EL}#H0UIRZoi999!5d7&!
z=-`8JN_@1yJdsFox=VBP1+X5N2=?@G+5*x`7GGflgvWucaPg}ob0HircM31Ih&5Gt
zsINiWgs}yPbjRw*SXx;N?jm-y!7c&VFnlP}vWsomwZ4sQIdI#PavZ|V1Fnq2%R0QP
zBdnu$Z8%jm0OnVgI*4ViO^mNPQl_0L^-j{noFoGF19;ZY1U8Rw;pj}>)h3uZD>ao^
z1LcLW_==NDZ1#+T6$6fo<(Jre8Fo|%D>g&gL0N*;Uv?Gect(od2ac=QB3#5IBmuLd
zsLDuK&-3XK-8SrBLJ1}P>*$aLWIIB?1rBG(OG!bBit9!kOlf@MXq1k^cGqhN|1COy
z2M#Bj?CT9<9bzZSO9TT!BG6r|73(&6&kwM-gdkpCJI~KzT?NVBeWUH#?DA|(merXu
zx;j=@m(g|I)pf1eGd<6-J<nx&Ubx%yLe^%#-oMhHkbQYDu>iAbO5d_kBz^tr>cX1;
zJLf(;mu}q8+V-dP`}x5F#Ri-qFN_5_12Bl3^imJpy+vUJr!CGeM6}Ck{5==*;#al5
zH!p_%DWpaJ44qYQCd}Xnml^=lHGdN-2)d@|o(Ew#-K0l0<~15dv5pH`GMSjxwx~TO
znzAjz5Pbw%^IN_K+O4fp{2KL3GNGivM2e?fIN>OuAX_V~C3_((g0P5a-dNDv*dkaz
z<PzI&Aoh9)B?vc^#5D@36#vESxrMm28QMWa@0;IaVh`0ts)Uq4^I}6C+O$)k6#s?v
zgy)Ld8GAuzM@KLkxj>U^XRMP_;WdOk1k|)k@GbsNqqx27qNf?{Td21cSuy8(2sP~~
ziv%bP1)#q}9hsmh!{WgFLY}5j5*)C^V$1k&;`x@P0Xj+0uGvAm=A3SRyd(iBSR25r
zj@Kf*1yM(+i7y>vFDqR>*QZMb%GS!KTI#~KTR4bdx~-JP!=Nk0A+GEa+D_1blZDmO
zwoMO|p`$E8K%dwy@<Ppu#4M}XYS63Z!$+&(xvICSnNR-Q*didLMO|-6YwU%m0Da~?
zIhaD>xkL=$MBlh5ckkQhCR#_Lg!DRiC7>SzpeB%L;>d);sqqZEsTnZ#Lj@m?0B_96
zCl&&Jt`=zvG+13mU>hhMge|la{&}#agCJz0A>vO?J{1Yh(zyOB&R3lJlAr<nzu>`X
zB48gDo}UW`X&G<;C2C0ZrTiG}ttpWfQy55s4jlGeDtjie2{ZK`W++Er1v<qM9vLiN
z!RJTl3+N!n!zp=|nv((Z#mV4kAl&tf#}z7|uz`#4*9(7Pd<$`&6uo$PY8rwp)`(4<
zMDYC^IBoWW156fdK&a=Je`!-w(tj6}Cu-22v}H{mP>t~lvTR*<rtSb+cYtWD8r~hf
zF`69y+EKu=CO7E8MsJR;4uA9LU06J-UrzNMO7$MTedbQn58A%pmU{8@?|0m(OYM9)
z4PK`14ZRVM)QJzjb2Q;uJ{gldaMY&ix-yRL*a&QmwK%RDSBx3+cGkT8p1BK@L)V8^
zhBCH6);4(0wr9i9oagjBtfO;9_P|k-a%~5;&()W4?PguO)2^YkV^3VRVY0^kZ(j!e
z(F1E^QoDM3&9nM^+WJiF;6`z^i+n=X=}tL2*X-Y^|FAyQb2Mc>nsOe^R@c3&zoAdQ
zzBce%J-_8&+sn2dxb3|&!ajF8U41655d2?URo)!u<F3EK_Kc*fN71uB5lDm+x@7RZ
zxtnuvNRTDHZ4X<$XGO75-I|<S4XlP&1K%D_&au@4>(=#=k6f9-6YL;tw@96OF+F&i
ztv(%BZ0OC`PA;EJ99@;IzVxk6-TKtp#CN7XoJw~cxTha}>=|mWM^~aL=gyRQC%8{2
z9+ttC7`UN@9JYB^4}a_At&{7+>lf3V!<o)QZ0Didr-@FY^CY|NWNaip07|ZdiGEOX
zJ)71yfBY=v+(DQhcp3f>`|Tg0lR+no&WGqAv%*VJ{um%oA1{E>K#A7jN9fO?^H=En
zH9CKa&d2EdHah<s9l}!n2}0x*mBA}cW5=fd7dn3iPN@pvhe$*xjGem<oT3Uruh>CU
z2=EU=b5I<p5CVaD$4@i})e#MW62$8oV~pl)R9BzNbdIu}qbbuUt9ky%3h>Qq5&+7X
zOBDkMpUEo;q>8RJYo=$E?HPRtJ6yVQYLlX8Lubq>;2$#An{q0I;AA3GPJ<BYFLFAB
z^i;h&XF$k^dJYppW(w4Mb$x7I-&%mJ8_HRb2+9FdYyotT&GAnyUrj2K6RUm6^EXYP
zYz(g-T)X^XW6E@Z)eJwhVdy5M;@L#iyLC6}auk58!Eepnnjzr&!uObun1@KsnTHfF
zNDAr&M4+_Q_1BpdCZ{5(nlf04?n6URkc{xCj-Yx${a_#{oVLX)LQDiTQ&rVD3jwY8
zlr{p|H)%ww2+cu(x_Ix(-XzGkw&k3JR-I2QX@^6lay5kJq8zo?Ut4)CS4+^kd{Vi3
zf;N;@TO*;mK@IX#4}v@gPx{P%hCahd4)a5>;v$+&&?`WjDAh$GOqlS$1$RsN7Op1C
zE`iYlrnBH9wpJ9=fC_Qx&jGWbD?~2<C7Y%-j0CpcO2kYZfvp6lB#g|u1PqKMV&;ye
zn{5MBDONmH1Il14WL*H@Oc0I0q5(6Y1SU!?XlseFrWVB$Vlf#RiHo%hS5#ZVIO|{~
z3okOELu^KeGCxMS1Y5&PLcu~p2!;M7XP2PRsqBIiRFrUxtB|UeQPEmP&6^H_mKhjL
z5Vhz-9YAYl)THDFvK3uqfe;`YE8)x)$Ri*}<2ryL<){f$VoW3@*uEWrEk6jCl&rd}
zSb#G6lAa;LK0>{VF!!5GQ5DmTkEbj2o~U_KotX=DAc=T{SVhUfA?o#i4^Lu=G#C67
zj0IT_F_u}#LtusBBpKL_ibwQ@C0}fX{^o%`0mr$Pm{FpfL99;6CVio7!coCdD=`eT
zmi9tSkC6%?-~_S9`W*C_LKtL6qc+BtXRK`?Btt)&Xc@@Xdck1ti$5pFMGxtFUey@=
zCZxn$&ov?RIy(6Lgt_(F`DqJ2_(9QXbl`Iz6s<*v@U~YmBnm-zv$3}j!oh{p67w|Q
z%oLnhjY|(=sK(p8Eg|Yfhs>`!Ow0!;WHyV`d310Xqn+r5yd<%@qv6varIu;`1w1&}
zu<s(L0Vgkc_+2DQd~gybIllppl)m7L0LvZbWq*<&Y{(@?V*`&oJI_ZV`#HqePhNE6
z5zOx@9>7gEL&-jdS0y|G4v5(ul-lrx&%X89jH-!MHQiISe4zN2_Ler&KE}3>-D`gV
z<|2oaY>$2J%i|#2GdW^clWp&H-t1iS+->RuOD&By>uyWA`(l^S)GKA&4^~bZEh;_+
z_myD4W4ijXdc(Dm<&k)Ad@-$WN{+6+l<FV7QwuR%+GS%*7JC))Gg+^lUp@~fWHu$H
z(?)MhcHiE+Hn{Fj+YiJv$X_0beKw`8&jQO(pEa59S$Dz-i=MO<x4*(B*at>i#@N6b
zVIS_Q;-0ZPCi|hTA!}<$*|w$h+rZ7%)+MG_Jt<e`^0BO;I%R0d*0d}ijSa^xWu4X6
zFRffk&?|3}0}@v+vd*1rudt52u~9x+TguhDd~5@f@Fy(^FC2&hv*xjtV@cg_JoBA>
zAMU$j`9byftMA!ggrYjyGLA0R(Uo@W07ETO%<XCGNKEy>;)q}TkJYi^`!#i``fkXj
zz9&;Zz}63>>vyNYbPMd*Y7)cmd^T%yVS(#glBZJb$3AFYonCMIUe`xmcO>l4(R9Z#
zAf{T6vGvDSMmFj_@sayIN3-^-xIa;w=t$JYL#(|uYj<VsHCa2HRM`k-RJ~wE)g70`
zhvRQ1wDC9NV`xP6DjHFFfE`bnJHgF9vp=p$cvAH}i7W43y>S)F*VqGC%GGn%+?#8p
ztgc)WWwzxTf=uZX(3=aFAn$m19y-~-*)HJV{SUNVa8}UB|Kr&#R1sT)N;V3-twAMA
z1>U!zLK%7AN>&V&>=&MFYv3Wa22EgVP~0ur%-QoctY^qK0S@y!>lS}gizDW+o2SAS
zPyB|$|0nhauzmX9><#kc4sM46UK@EIenWwD6ZT|V1UMJ;&mkS&F#iEUe*q5J?T5Xm
z)Oes?td|w62Zm%2?H0uS**~lGfT=zyxeJmcH3*YDSyMx)QMRx*_FtK00sSMW)x|c^
z+Ar#Q@>^xYN1+|)zr=<-49?$IKTjkji`zu=ENJcp%YoCF<v0GpS)yEKvHi(e7Ht4t
zuAC`MzE5QXK<BW`*TE^-%S(hpi~XX-*h0<!Di-O-m?l;|eF`1I8y9r@Wm@kt^*x#k
zLlV@(x525T6V9veMOE{lve&@MfvE6Hte|0SD6DT_Rj4b5fi;r^*N?bXETN+E-+)Se
z#(-*luvg;c=CYz@A5M$(U-lZGR=rRE4c5i4pmP?TqHOvP043X<akMF3yi^&ba*M5^
zO;N7Ke;q0=JO$xJ)%Z2_nVL?vrZZ+ljsDo$%WTV@@1DMGxjp>bucjQM{BeN$*GAap
zq4iU@Js-WCsyYlzzqLN`*)=8GIIu2BS%$>4`@A{$lZEpY<?@edUQr86I>29pj<He)
z5Yw&FU7#Hl5dswjHSj$rXy^(W(8B&*qFsFnOz%pyrdy=^RB3L<{kvP05j47Z_MF&r
z6iNsh-O_!)qC0*C;XoM8@{|Hb^uHRY;j*iwj`-bf7)xCeOD-lN+cK6^OgkLW3z>_F
z0ZM$aCzM?!zSc4?Kudh>kNZx_-w>FCqK;lfSOq$IY8u)0vI~SuxFJIMzMS`X4caJb
ziCUw!s2w!J;%%l8gfonV^edh@k&Cvkcvx{GmfEty0SY|}gkj~Ekbl$>sTcgj%PO=s
zBU-wGFCG_fg&Gppc|xM_|AF>>9KPX#{jQ>=DQO{*_QM*YEfF_K0vs`2f3!OEjV;p_
z={b+3EfNOOj%=B>i1_TWv_--|+9O-0Ez)ZrOIxJgAnod+$S|N2&j&`0!U*y?Ny#p3
zJ%1|QWKlp{Q{tQdPyj!6mV|LZ9}pU<<X`NJA=<*!OnXZL<-tIq$4jWlcEKM7h{9A2
zg6XaT9pAqiu<NLX5Y%+HKrj9Sb!QP1pr<cqg^;~MO2z*QA(81SyWq15l<1ym@i$2S
ze!lO3J%ekjI)jvVm1PGgC;?p4gOAfe;BVtwQK(&Ll?vg65Jl^X$Q~g@*mtdi5x@c;
zkHC=<WxQqACwb!c^Rp2V`q#oY>5A=L3!^O@3J&dE2Py6^%LGuM9uTEIPNc;8CBzpC
z`OnneV6kB+5p*xwpC>zx-FT3rdv+=eJ02#^FII_B-C*9~+2>w#^PYG-H*TDmT?j|q
zXM=7yEI2ZCZeeaA%x^nyIt_<w2ZHXoNjGjjhEu9wcX=3&Co06~;pOTQdI2hE(e+X&
zzup1iN$Cd;hupya5@~n{!u><eiu8JTGm$W+gED(!%ve(J&!I;%I&0{_OaZ4QlaFP=
zamebk0%Rb-ZeOr}wr?`TZ-Y0ZL>xBaorPWW<bZNG(wuz#l5FXtaXKf@$$yqh`?7y#
zA$XXEt>?V?%2CWpF*yah=!nvQ{yav|gYbozh%C<YdlYa!<jq*#LI`E;^tTa$&x>Qo
zUO30uTmMgE%|bK~WKr=V=7>uzP#nz7`!1jXHGY&5KLyGkd&D2oiTnd+gAM*cdNvrC
zg6_h9zq3b-*vr{3J|46ej4FHc3XL%G7R8l|2vlMs;}TuW5F42}T*2s|MPLQ9jnbP1
z^U>{hVRyF8ow2pDw$|j?G;Dl6#oD^pn!eNaVcWXr*E{ao_NMe_Qv1)O!L{w(*c|r7
zZ@qHsm9<mvkKeWJ;`f(Z+g1&k_93=?XuUVxzCYFW?0V$(bH6wGJEM1o|Lf7)dsF5Y
z$OiNjM1W1bV61~jXx&4r^%qjzFQmaWb!OqCA6J&IB&_d5^8%OAR5Kj;3FZqRc6pLt
z9e<|Pec0D{V);bL-`MgPU>SWQ97dnhDB83iQwrScpn$U_38bgYO$8I7jZzb#uAWTS
zb8OdhS$$2S7tR3P4G++*W!3Oet=RrV59lmv@KLPSE-hb*UwmgVaq8`>DcCuG6^mL<
z+i=!qob9Z$9X4{qw)3^uGtWHFKJ$Fqc_gNPVA-DK4T|1@gY$`H5du|NeRWpv0y~&Y
zbvs+#{>Y%RYGZgVroJYlYhZN^zufv>_s#CRx}Epo^H_Us>{&jZHMlYcH*0YJ^5OSR
z+&ppD(1Tt>H-?_pi?>U^YuHst@`1H3)i}7`l^Ht04xLC1j-~2PrmZie^e@2H`^HW<
zir=&TnLDRagD2AsFQnA9_Zzma9$mMrkKGvtOQ7$Mq;{W9H=F?v&_)$Ip!crMo7FdF
z^sTJEHR->nZ+}ptm;(Kl#+x<PW{u{o(F0q;aVN389uA(neq!ZB)>3udwc>)k{F#~#
zwx%Ofvx}|Sm91^e)OND9otfG_Y%P4mZ8M4+l3OzF-K=|ep+<jFZ-Q<BXM@&d)E-vt
zNqX+7TcDU4!!^^gDXVvo61K4VmgI}8mR0{PM_Rvg6D_UZ4(AnUw2$=E_Tv)p%IfXd
zW_knp)o0;}^>wVijsTcaf%4F%-44A84AtrqQ;*<aQ+VJe^1$|gvIqVfd|)C-@>V~s
z=@VUrBkxym9Q;LeeuT~^GJJAi0+nr^TG1PwJ{+w627sc?lQD1e1pm-3X!C>+Z}WtZ
z`=8S0$(*-&f`9D0VDp3!Z}Wr@Z}Wr@Z}Wr@Z}WuEV>VAne0rNF4Bc{ATC!Oh5h#aX
z%|y_mH4{OL)=UH~S~C%}Xw5`W-kOPkyfqU6%dD9Qt<0K<(8{ct2(4(%M9`u&6G0!d
zW+GJHnh8N(z)5<;JJ83x-Mlp(vL{?0em}B%^Y<gW`R_+|7rq~f{_tr_I{zUp&bT=|
zr{p7WnnDZ`q$CP|*v<B*%8cg$_`?LcpDIQnTf!o7d!8y19$O=v*H=8xqIeVp*YQ-z
zEPypcnCHJh49Ht+kQ0Nr!6(GeA4Wuu+UzDtbQ6+~PfmwTV<GYLUzg$OD3GEJ=qa0?
ziqQWKAq~`5I0B+}nm&Zyub?x7&Yz$|I8hu`I5`|C8KKFTfrcXRIoBz$nM59ubB(}W
z)&OW5^Jh1doM21#{Bw<k0KkU9Nr!o@<x3&3hC`f~R`LTH;U`IF`#R=NgzE<}6ZKyH
zIEwxBNf?UYM}_|iBvUz=L?ZcENlDy)PU-)GI`Bu-fj^~={VDa*Po*-6^rvctMEZ~d
z=O=nf^0MU5sCIZ&rRp!Z-g4!n7bOxW9AXWu!sX@5IVVA@1+<2sF8utCdPSY9C1{<1
z))TZrKpP3_7EljCn*_9(pe+L0O3+^XQqOD4ujTp(+ApBb5OlYI4ia=oK=%-IuYm3&
z=zje8D4q-PEI|*Due8l9&%pOu2mwCW0?!EN7Qshb2mv&z@MTZ1+5GWgLU<^nr22e)
zoCi2xKcALJcHmhLeBwHSHVF08NKm(cdI$;@6MSVh6BNw9d9;<F+XS?YpzQ+cC1{6G
zKidh~DWF{h?H14-1l=j1Jp}C)&_06p3+OWhh3C&d!$Aol!1KcqNN`#P9Lh}ya4I)n
zA#gG`Asi(i_rvBn#uMOt?tFWl;0a>_;m0QlAzz0iHX|+6AtRCCf$BmX60}$?1T9tz
zL5tNw&<>%NwiC2dK)VRqEucFHx>G=V2-+*4eFW_n&}RrbAk@+>g6<a3L4pnm=pKUZ
z70`VI-7lce5)`^z{yiB61vNY|)NsDK4)X-4;XGlKCqND7E9DqZfEvy>$_btTHJoph
zlRV+YLK>%e!kGf$C7$rIK=|=1gph9(Ql!twsaEgDo)8o-tI~ggd5g)(5ZTBh3PfOZ
z09!HiQxQ}x%<CG0l7?(wY0v2hYJ@L1;yau;1gw3|L}=zsGz+0wDV_OR=W=JxMo<T3
zbLN}`tfs1Jay0~WAy`YmI?7;)+u{@P>gBOqJs~wvu7+GA0o|0<5uaG8Nt|IVo`>Xt
z9-Wn)mP)iqX~w;eb?<vbA@*oS{-#9of+W$DaqVSYdmm8*&5e<YusthjDAWVM8(?r<
zcoYQ?peii(oC+cMyn!yKK}d^`4k5izGX}(r6fE)fEbmF!SzUe3gd{VT*n*I?w7@yc
z7|vEx>SE83k0lV}@l`o!>{7Z;R?+pa3IaSjBpsGXw29tK?LM}4-%lvS$ZYWc005;n
Ar~m)}

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/fused_marlin_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/fused_marlin_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..77a99d36d6bec6242a61b6d944171817894148a6
GIT binary patch
literal 30989
zcmeHw32+?Od1lXj--7`#gTXXz42b*S0g)oXQ>H{pJY>0GI+G!~K?0n?fIR~qa6^W(
z+60J_5R{V;T01Mqc1qC7o27PLC3&ynZc<xvoNQ(YIT-gcwaiATEmftqS|Yvjy0&Wf
z|6d<-U<RP=Y?ZevE#aU4{qOA8|9kI$-#hpNhr>$2lhD69<(j6bzd?ucjLFO+tBs=W
zPz*IrF&ajj&?L3vS`G5Lgl=3%e)UPixKWmwlI98UPg)4I5^5W_6JLG8k#vqb32#Wa
zlJ0SL(lhQMZezlm^o{!nZ%X)+HRCnOz<7YT&57D%-FRKHe!QNzEs0<<G#*Mej5j31
z<6$DRCK{8G@ko*$r@?Jwn;1K*n?9<%PT`kvRFOLw-K3duy`mp)VccvBqpR|tXVS%Z
ztEAzpBKKF3*Hn?~=1mmE1h)09t>Rl(MP6S;9%NgY5F23{*fu6yC5%*_MhF?H5`wNG
zZ>l24FVxIx*(&~(V_kx8GO4YHkIA%D4#7wzZQa(lZCl^=ZGAho_3hl&H@dBF*S5a9
zw)O4a*0*O{-)ikds>xo^3TNf`lZTkTR}ACrOg}TQZHv({9%xJblm7oN+s$C*x0f}o
zTB{nW5^EUR5Vo`t`29uOz;0+i75li#(o0&k^+?}#`_}#sEsP8r@^}74S{SyW?OWNN
zZClx1Xk{H1YUlr$qg7kjzREhm{4$SN+qb;(mh=xgT`+PeS!@5_jT*n0PLDF9pwpdN
z>IB6+^$Nx8XYJExi;6F^@8~3Eyo-c903n}dyHx2e3&k8`4zf<>5NP)ow#J_x-zt-9
z#tAuI*y=lJWX7OmeI&obkl&G_{Q7U|qQ~dM$LG>4L!U|=qvtYHiK)yKo2DmI9DU-2
z^JjWL#x$cE!F(j1NW?ED*wf(fkth)3%v^jXb0jr0Idv(j6&fzaGZU9tCYDUGv3O$Y
z(oF1PA~kU(mY$kt1%D+eBvudUyuh)uagH6EVUADDK+JjeGzcNd(D~HtvoEnzmo8_(
z^DN8EO|VDV1bZo-VTIZXo~KjKV?0NUV=>p*L>x*axR|Ll7CtsLGn<G{uu+{*pNw;f
zshL<Zeua%)PjOe$v)~b%VXq4fiWj`b)J%ruk}NX?8A|T~zBeyIlsJcxNgDA?DmgU~
zi!%&lZ9O*;PsF+NH)mPFo+f-O1CF#{jZb8zuEjG`sTskTn#;`2WdsA12!4zlo0;Qg
zCS(O6AJPC6-H#puxkK?VNx9NVQQWQ!xTR-Wt8j(iX?=lLxM?uI%O76DYu}OMYp9!;
zzV_!%-%_4BMU|(Yfr*#&Fgl+4I>qS!K=+PDlKh$`YB(+E(^H8#!IHi{bty5Iicihg
zy*QJeo1IN@8Bowd<&Dzw!@czLGl`ot#-QUf46Q~g3YVrqr)V{W-l$P9WK!J3WkHvk
zO$*xC5%@rmKnxOyCFc@?M@>Z)SwA07%(2HfF2zN4oCk`_d6D>lr19&}H2u>HeVOEJ
z-|W<EPbSV?VlzEA=JxE{du0#XmzcWPH+wU4IW^OFEs;p}B~uKWh_N@=i8&}qUm|{!
z<<fnV*aETDD4eXCDYkd^rcleUlkvGkCRV6{*yP;I1Q)^Vu^bGLMM^YMX79@9@0&so
z%#K@@Wy>x5vVGIslruN2wXe7R(A=N5_*TAr-_rb1v44Bc+`e{geeQ?mk&m2pd1w3D
z{8~b!G(%$=ppG%kBc0A=6)By?`Uvu&xB!szg5&ZO!>}{4bOu@mROa;o_!|@q7pLOs
z0qJK@Fkc^tVH0418<aVFCN+B{cAd28v|yf@OU6(lSg&GdLYj)u5TBh*+>CM1NLWq|
z8%xb#^M%G@WpB)~Tn1X-tY9znFtMcIP7_^$1g}8RrWj~*a#-X8QeNPdj?Jdhnb<6}
zSe6l7WfdzpE+tYI;|Zz21EtPE!FUN$zA+&G4hjy;6pF@7O|bClB~Gad=2<QUuL@Nl
zaTc||5&R_`4C$=~h6LYM>7ZblO2@9imro=n@XITY8yM0}{BNMxO#t+<<&nCMwDu(R
zYZ?fF;me+PWcLN=5*8v0bOyU0@)S4Zg(g0@7|5vI38ZCK!WDiQwPRTb@}b2;g{D7k
zFN9J!KEj*lA-9Z6kuVy*2_-zObWrG;#FAIY4Ww8HWzTnX%DB1^;u{tRo~#Uf)1>z2
z%%vfNeFAy-kn&E-n@kpJq`6W!o-PW}QWT;=NeN4))W$+Xrbf-{XQ&e;z6Q0VLY-v@
zeugPeV<RtnaB#SxN%v`}qHuL(fxtN(+A6DDr%LzF=m`d5xB?c;LTe_h#Gh_dxWX?_
z@y(!-I^Mv0`8wXu2lycG;GMjSH%&TuJ8$N#yp5seG`xk6DD}_Nd?Vk=7#R~|{)YW`
zGz-mIiudqtzJYI^ZYrd%aEwKXsnnUGO;C5?MJ?a55aw-Pb@Sor79~#MS7}R7Q`^5w
z10UwKyq-7mKE9r>;cH9Zg|YHhJ5_iashz;PG?l$gm=B+$qPEi?<9Plt8USx=1tY^=
zgDy!hFlc^o#0$si^T(rh!HL#bq3^_jaW-~EaKkW2x?{D2HbAe#&I;y>v8z(wY$SG7
zQjmVZk|FLZ+yO{haKcCyE0{xq3*D2mLxW(Cq3tHvAi4S3*kmFV&wTuU;Q1I$fT&l{
zL;smX69BqM2Z%WADY(N(P{#xVo1D$u6m-e>4ekg^QCB%9dg(966O)2|VvdOmH8A|f
zq!$O<Z#I4rE!vwL>X%T1?|gkGKCoLc+%B<6$n)A17<~rpnq$#64z+=6MuK0KYemwA
zq#a2I5@-k%7e&&AWEYZdBt1xak@O+yM?!3d0ptde3?UgtGJ<3`l08WFBH4#z6v<Oa
z_9G$o2B}@mDM9nBpgCP>d>E)C9O6zv3TZ4p*eN?d95y(?1A`1PNK`X~i-R0rDgE1^
zMqp|j*HHHQO<Oo;3$J<Z+nTfb=B%wbZ>y7J8@9+-k1mcaUVUJ0T|2w(-7t4Ajy*KF
zv!=QS{+{*ZX7Ax#@8Nr68~)=<mWQTL*3|MK()z}iU;lF6;asU(zVMABYnrvOHw|l7
zzkVv`h-U4(@;-Xg*OBve<h_wiZ(GjW_SmGStyyz}Xs67OLi2;hmN%}venn1Ubs%dG
zSBw;aNTJ7eD%6?n-2eX7dwajfe{d#y=Ir-h%szc?BX~Zmul*?4QSA5h^Bchz6!BB<
z$M1E1FY&=x_Q2_l;PWWf(`(_)rjcCJ$lZm_JtuQ}PJXC=_My3E(;Ui~L*JNtWB&E|
zoH_a_rLmmUJg~WMjV_OF+IHn^yVg%_b|1=hAKI{u-D}F(j((uY**+&4D1+~@l?pX(
z28VLNp}e^!Zw}?n*1Xw~H@k@wsFN_BytyuK_U6rvd9z;(heAfNk*aIWI|KRpk-W2R
zO`mnP<~^aj%MJgp3@pzf=MCj++wye{d4K(<BM=AP;*(Lz;D?m5{*G*P|7LV77ahCT
zd@ue%(|=$$qR&0nX$?lvOqrdFFXuh2OU8#LPu3KMVxXD%Th5Oh?oCH~&e2Ya3T1nu
z(mIvWy7J+D+4_B@1zy>^%uD4iE3nhJcw8K%?B2yw91UuDoO=N%7-}%Nnz<B{=T>H7
zX`<!lDA<-@y9r*|zC(LZvJcaO2|I`MTv9N}bHoxO3k@C}{5|?3Fhsz}YUC_@_^YOq
zFlSOa`(M*!uqz`^rFj`|RffBT2p`E{CoP3FDqP{W$hU&QQ{<}-*cIbeFt&=~V&7Tz
zOd76Hl95;xZu|0WUxEsGT+%JjVARmpC=LMJ84aTcqmr7&ZnErAYL=L!%?mBOrcx-z
zpw??EZ>bo<sD^0cO<xW1ri!7|bogd8b<+5CO-dQSY_6QUnl?j>SiVJ#YblDWt(c>#
z5quM4orj(k|B6zu6{SE;tL9~)niPLhR=eUNW!)*XqbRg?$F!YAp{Z$qp#%z-Q4PlF
z3MOHZZ%~O*_?^@$S_k#uQhD<Z`7{(#P&iWeWRk<Uk5XTPk#nIP%*8e`nP{E2LG899
zWjt4)rqi0=@@l9Vjh^D|j2Gi_TE2C`o>8Y)yyYwHU{bo@kz4Bp=mQoy7CINAykn8%
zlR<NVJj~D(#rSyYYZ}JSYk=19TA%@52eg*g1Fho?K<jxU&>(LH8sgi4f{_mt3`(Gl
zyc=kQZwE^A9YCA-PN2<v6le?Y0NTnsfwu7;pzXXDXb0~D+R6KYM)?|`U3>uOF1{9M
zH(v*|hpz|P%Ljq>@gbo743=|%Z}^(#cQlm@S;ot^@hyt!yU+!uZ!7eDjtp89<Wck@
z4VcbCc%~*(tN2W#y;Sz_l-d%*ylXL96dG-+vWM^5xlD|a4}WJ+Dd9N^%z76O<y6de
zFpG!d7U;CCX#JeOJO$V$U?+&d(G#g8zzKkM#_3a2HvoTQ>C_~BjDQPix)X58C`}L=
zdM*va3Z1#0qSI_94WUSCGKSGjUmqYC)b+t`@(aUG&lOr4i|8afaXCISl}`3rNu(Fz
zTs+AFtdSli?jE`XNTE9kLe+a7Knj4IMxn?oO<)f?Lqv2YMQ1>Ucr7Vhubd1NqEg(+
zDK4GCV&l6>gB>jwT#Y$cF=m>bNFlPeZB!ZG*^<CHM18QV7g?x1fbS4dzCKXMQUX_=
zFy5dNuVjEPjm)1;&9HKXNd^GEF;<lniBuCRK?){A1caqKFS1Z9fCy8Q8JJf@)m#X`
zQ$6{TItB13mf{$egU>`DppsO|s<yb0rS)4inG$qqr!p0%0=lifGrV$g4v;!fd!=~A
z>F!+0pCMslb;&ALT3-A*q-~Tbpkk+O3H>>#M#+Z+j1XECVE;*WCX-g)0suyWsg*`m
zs`>d@eB*e6#xV433ShPLwo3Vnrll$>nwA%*Ah*tosZ>H%OAuZJJpr{OUQ;t=4U#5i
z>eRgaoygZaOBM#y&Z4+?kU9rh*X7<JJ_%h5P2f|~Wo_*#PS5*r#U?QYogj2-9D8++
zO=q}6(D{Ch#wGy@xHG`b*Pm7kOc2#HorI1I7kNHL^ysIx&kzh4Q22RP^@3K;9o)uu
z@TasCO@@x?<Q#NR&`m&ZlbO0Smzqoev{~wem5yrQ3Bn9k2=lg<ycRbF#fcio4>t|`
z$25|DB!_@p`tv`-=kE@ZS;Q|f0065?Iz&ly@Xg<*qBR^Mrh;jbOC_Pl;_#aYhB;93
zVZnkwdoK<Q?iEZ#a&fQVAgIgU7(1LCnw$~r#5o*e2a^Mn+&PTw0CcAC86=#Apf4s8
zc3?N)Knf>`h6XvD9}s|m!{td1%qt3DcSLJqiK#2Bpo3Xebk~zq>qU%@h5$E#gh8?k
z35%ovq)eid04_f#q=IOQgsWUa4pAJz18s7cj7o7%Ua%vJ6WCNaTw3M6guyh&1U>dw
zm9QScijzpGL8h_bINUtpBSA0jEy&9fB=fJ~FMS_u&qeB!mo=2xm3P%Fy__`<XCuQK
z=HaE6Kk|e&JuNv;%i5_8&*0+8yshSe*}rKH=FCCDH0I2WglWi`8wk^!GdB|k*M~%#
zF=+gRGTMzIWrS%ya*w@~1rQ812{k5(VA9tEXiy_sshUW(c_`-}TE6<eXYrYbTOc4n
z0&ba>O)HvLt&3xMoA1_v<pZmp4O?jOD6Ux5WKDG5)v)Pm%DI}>nl@am>zeznXx4l@
zyX*J{P**f>bKKgqyk}+L)zMY$^1;>keOn}}AI&z6ZUD7Kiv2s+;;;AQY@O?4_ia5{
z{WICVXEuP^dI&bvp0l-oXzR@CpUZYVw*l1F36VE#p`0!Bp)H)%AIV0JYyh=|tIGl7
zYRuUhzdiESfj19)x9z>&cYCwVV>#PcRzH@t;VZ6O16(Yt50hkSB}nYsHE)IA4Bxl)
zX7#;UTkj(?Ro}g2&)e)vndQAJ@#X!i-B7r7--fOGM|KZDK=s{-wggwt-Zw?^;l?a{
z$)}zN_-Ca%OAp>X`ADbTZ_MfUX7&D+>1^{}2y72zZB1Ey6VL~q=1(cwYy455MbyFX
zU)vm_0e(L*Qg)|kLe5ON{GtUpD{?mE?36bsI*@ZB=R(d+1)4<<a$d?C5Pit`DSx9_
zgIs`WKdcdJk*z~vJ#s;e5<;$l3U-NM<Qma8f*eiJyTvBtno-t*Tq{-IDYhZkPSv)G
z9msVe7e%g%atFj+$aN#vgIq8A_954g+yHWeSm+_-hLIaVZa3v?5ceRrmuego_aQe*
zh5N;)klRnW{o(=Sp2lzof&1)`hBDc{$}9~oWme8?7;D8b4P|hNN1@>X_Vpv1_ZtU4
z40Y#gnwO7%R1@5+Y0K5LttB^VhL?^%G&vW)^1$W4b#wXVYVeK7>ydTu`uV#98}%da
z58P}2(Dk{j`E!5m3arep?cQ*8WzAg#z7jl=VID)PK^kc%if6Zo+C%H79{pPhecEn`
zuMROOz*8`M+4GL<{yOysMW_`Y0xT;?uq>St0<bK|NqVL$;6J?O9U1FdXy6+%Xf}{%
zx)K^x@U4VL6?`jTMMWv&;8yk&`65PM_7q`Rg*>(|-}WV_kOyE{VOT;66D&&)Se9X-
zar?R_2m&mx63k0o#48jX=Ce)8+_lm-1Vl=y`DR|bLx>hAi#i`K<e_|Jf*P3>7g-pt
zgx#o!&2+I&%E@I4z7-bhijW=6_GOh(FKK}~QiOq(qG%Pgno&_S#zt_SCKZ7zM#OX#
z^LHq<$u}|%6@e?HP>g$NcdScSQC;eG4DBuo-N<+p+>5a;v@+g>wgR#Q3w~|9<~u$G
z<sdrLjyM!7#_OT|LVI5bX4GZZ>E^<>RyaVxTFKIOt0F1<7Jb7Cn9X<mO1^-4*=5uV
z7r)3uP_G)$vmJC9aHask!)gg0R!8u#dV+@q2_6QhEQDzwC|8(o1-=n+DL}%kKxy6%
zw27c!fad|<LJ+c6f{?Wlgsh#QVja8-d^-t>79|K-7eUB&5rnLpAY?rRA?qawSsy{j
z`Uyfd0R5ns5AO6XGa7=S4I-WfOUc2?F%aX1wk&Hbh9X$hcx5aq8BeF<mjH`Gz=GgC
zX@Dh&OWsvih7(Q1XJFDqriin!*A3>xxJL@Htihv2Qz;cSx*X4dcrL-Hh|Kk=%w-aP
z%W|I#Rh>>{0K&nD7gL$bw6eRe+(adq*A^jcSek;VBAd8L@&F8o{#Dp@)mw25_E!l!
zM6eoIku5@KU}qMIu0~CkFW>&EvcU^rIouIe`t~K*nuHk?-U{=>;*@VyEFgpg(ZT&q
z-J}#~%J<MOVU2L9>xcuA4>U%@i*i#p=+2VtqKGuaCty=hnr7xWc{;8p1aV-oy_>!^
z6^Ad4Tijp{2WgUhfl^V6@{<jODFze8%0xVkh0TpLS;WT@sHv%8F}2yuTt@z$pPMPs
zr)z*g0y@%7g!23zH_XKo92;kD(wAWS)hx^ODf)NurVLl4$vZ&p!T!6si|Gk&3TE$_
zR4;vWjzE4HKv@A4g&95QDD3Q%)Uzb-l8Ta&lh945()8u{EK7g!a5sHw><h8;&p&(Y
z^tspz$IiwMkDWjAOgH`PmsCBMK@TO8^p(DNnC_|?wU>SgK6?Bnoq?CkK$!p#uH0lu
zsj!W}tIb|H01$6ls&G<ObSG#4G*qebB(Szn8w6xxZvbcp8VRr@NlX1Kbm#TUQ}E>=
zYg9o}zwqs&P&Ses$hO#nay!P46_;Q=RX6F&P?BVP2Hpv`y-B+sA?rEVv3rxg2HMSF
zK_z8D@P>SGQY58GZ{G?45deT_ZUV70C|i-TD$P@UH3&iK0=_@=UZg>C0NGuGoqc^$
zNtA{&R^D1jfr$Q*CWE~hpwB3n<x<#)Kq7q(D8odG<JgIeQcuuuq!#lrcDM5fCH11E
zy@@I?B)@Gh&GugEEmJU5tKP$N8TwKxL(lt<Y(>a=xkHe)1R}kF9IPNwToTCq<YBB<
zH6Kuvi&K|SUkZSqR73D>q&k$o6xp6C?QR9Mrl_~?lY(P)--P};k;2u76anQ3fW=+G
zyb)#N5=dr{q>#)aNdti`&VInO<>^EW0N@yTf5BSV^}{V==rJU?jP-NudLft$L1HRx
zefc@j88o!Xb|UT?Z~$|iMF9d-1n}anBZu<=?go;ZNam4z83~VM9LWNbBS_G!<z7be
z6(l&f5%kb5)6xc`MHI$?M7yMlAoYS)RP{YT1golqQ2jmQQrthnV!Q%G&>R-rqz_a&
zMd%+1C?&yD{}==QI+9A?q7yvQ2z23~@??($N!2NxMEMZU-G<a&g4sy=zd@^mO+hnd
zn}T4^Fkneqjm<~);k4y^Z5zIhthZCtX)Il^t=M3MO+x@gsDRc;HZrnd9{HsLw8CAR
z;l5nBZzDXA(+3yFvZmTq*mNU9W2=L!S2xT}n`W|&8rUd+T*ZhNU|hIUsv`2VBa+mx
zX@gxs2#eVe7PCdO`e@b$fS7$n^P9Vs`n8Obx?I|g7?AVt11kGjA+ch_3m`$egJ669
zz~XZsJ@ryP+>`f3^1)rOVXG9ff{j~%sJz~h_cSgUADbzE{hiU<qj`&U>FAPWwP!Qf
zn+x`Smwhk!ZW6X1`HhRum7!dY#!sn;)0hvmYz8`WflfeM&U_f?6LlaYkQe;QkQZ_i
z<b|9Bc_Al3UdTz17jhEhg`5O=Atymz$jOiwvJ&KlTo9qG5ONI&eua^1MDQzu9F4wB
z$TcJQ)q-3r!d7j_Nst$Eod|D5k&_@V<hn6j4{{RZg<L<vTLZ{RkQZ{p2w;sMw;O@3
zJ;?1vplcs+;waVLoo(B*bnVucm%ofk`=P7p{m=hId<ui@$EXK@gI!gJHI&nT>x;`@
zT=irdy4T|yj{e2t4{aWKr_}_sdG*2N2Yenq4ZXl`z`iJ!8rQ(ldTrroALC}=P$#2f
z^_8$8MnevU>$mkaZ0l>>*4M-uC+$nHb(}H3;utrvX2!x=Cbf+96}>Y19=F25)yk!_
zSCKoa$emT>7S_f>zS4h_2HcD~X(dPVp=>ua;|`b^dIZlYvfuKUwEy66Jk6dK?9#?H
zu)yGmm0-C(Fcc%F56EExi3_O0Sn-msPy@#eNQe?K8CNIN{rgZ7=({CwaUGc7)4=97
z%`|Z3Pud4^G<nJ%0wQUY$^;Mzz=)U{4)$qNG0cHHu+y1}=~b5jTq?{6d!VV93N>a_
zC~n!rQ@;(?39oqvlnfs{tQ6Irp6@s(oeh#Fe#sk?v%|6L!?3-VhPe^0f=RBZMcRg3
z6hPXiTnNJb9;D0tK9V~~R*{e`w+1*q#Bzc;1_wN*GO^g(X4s?5CMLPx#UNFqSz@t?
z1Wf5;u{45@@_4&QMpW((Kr$cP^0j-FJpLz+sc6Cc1O`<<<%Y$PUH4tP*7?o8llS{h
zij>x3&D%#{1;Ap>x=z9f6Kq-1|CTdfN5hXJ-@boI|Dm}h-!_WB&H4If^o2t~%ch*U
zZnfcu=5_)*bGVOdLatR{v1(;qz^bTrmZXvvaKY_23{I;MEM_A;=cuAM6@b~wao*OP
zjvA%f|2m{2*@0;N30hbJMdR;n4fh88r152Fsm9Sxn~!X*@se$!R?yls+SE|%R#+F<
zbkR8%z3J+^@9KN3qa5{{b~<OLH|;GsJFKecE!M|I%G<c<>B@P!Ha$H#PmgE<sRZe3
z;{!$ZG<KU4s;+|rH67c<qu+;Ip{BLd#oqxu@KIWoeDKf5>vj$$pYf>-4QrJ)v|xbN
zthP%jH>8YuByYi3SOS1Hty4hh1rx;FuB>{pkuJvTE2giOpi2I#KLK&OPEtFi0|yDK
zy^ER_EO-<xZS0iuf_dh}9o~@~#FT5gay_bf^9J%JA$XG=Lc*IEdBYQxwXg_ahWgp@
zYse+7{6z|BS>Q~KnKwaCY?(B`kYqm1y$U)ZO?1hW7hA`?o^Coo13hqnCNokv7n#9e
zWP;`ZE@~wWko!ZFHX~_4f^C2!lN4M?=Y9pr1td6UNn;04n3l+^;fPDX>>p0<CduL3
z`R1){xIByxn{f-&2{dCT<@VmXwtVf?8><7qxv=JaEAVFETXpMaz8TJ%d$X?IhhQ$B
zSU#~b_Ug$cO<r~!e)ZWU%>z3clV>;V{Y#pMu>QPzdH1V(SFZl%frq}(oddTIta&zk
zEo<Cc*WbLpe)U`P_kD2O;0t#zqp1qV8g?Jgj-0rc`QY$hocR8U?D-deaPouw*`Y6N
z*uRkV4dmV4JEq&FRn6C|%VQ6HHFtL3-u<<`t5;t;khRk*2l61<b9>L~z}H6CJg*(h
z+D8l7tR?QY-o1KvBHKE;VIN&NSd`S#*h5$CEq<AQ^<_Ab;cCvBo3pOwJjfQ77go<~
zxFSpXhj0L(Y30nSW_390ie$|Z(p9}}I1SJFs1rxI8Q7c{iwV{k97kp5;KX!Hu*YK1
zPbMTE4u@~)M2_)1fqDcz?r<W5nqY>H1;Ztt(}BU2Y~X;CMRT(WmU|20!Le*<Se#%J
z2^dQ?+!{zpM}0`@sK17(Bl$6W!1R9y<|nUEVDxwO<~zIdyGQdQ`|`oYPh4I@$HPEW
zG{7$me=u*@e|!I0YtGj$nowk>e06uaZ+EZx;hczQL6MbeYJbcArhPq=qlZKritH5K
z_6Gktzs}?$gQ5dPPRd{RV@zG_q>N5cYcyC_)1Shg2<s!AA`sp62Ku4hbL+X~=R^bW
zPy&aSxJ>9WD=rJVta4FA8@lY2)wPsfIkM_oomd;ny4rJ=j?Wz6L%sxgb8IH+qpYbt
zqM@^{VqtguGFjMQUmGR+dYstWmG*FhzYVUXvaxmu?O-jH))gyDrOT2azP-qPcgcA=
zAWb)1?&D!x@aKj<5Bz!I&j){gNU>F|SCx@xAXp9ugsPEpsK!s~i0$rX0+5%FsjXt~
z*Hw|%SCI#+$U{}+4OQe}7Oy1oFpX9GrP)?wTVHxx-=-?Q%~j;v*Ln-+N+Z(>by>r-
zRY{>*9m4@lxZI*0;s(eZsul*UPQg(!KAhg(N-voPp@9l*jC#}y1gAkbrb!Q(f`IV`
z$4<czf=P^lH@+iJRd6!GeG|e(wcI!0hxCKoKLxIu;U6d|qH6T_<FJJa3PwL}y>b#`
zJ#Vke+iUW6f8O4lw>JU*V~0sLF}IrU5L<c&?4<8dH#Ki-PoF0sD)()W6j{WAPreob
z4tJ`D>F1kDi&i1XVJPJzv||^kyvs*At&#}@cuOU~;~-Fns%fH_vghR5(r~z`WlOOl
zlk)u^%AtR}nn5}`8k<VaCgyuei?~DZV_2y+Qrriw_6=8O*4(*Gp>f_@{NXFjbSho1
zQBaj9jWMZJDnch{lUIbg<G4v4_VkabSA-l-aj>W-n9pUP4&ofMrLMfN#v@-R5`)!1
z2%Mg$ORHyVh-a`y5TXVxvr-P%roAI)@7T2W=j{Ct?9O7RXwbQ(dmpw|86;4uY214t
zsjO-qRgWev&&^zcb<nb@SnrkqXP}ha_b^2o39%B1y+|xav=_;iP{9M&%fLMixNS;a
zU=h5sK1(YsF*s@w@0}=~eWLb~hJFzkL_2srZW}46YVmAmQoCT@8UoISYcWn?R)nre
z&4LBO!i|0lR<NTjymeA{4h~|UCJQxD4fi5s7_~{ZakW?C{up2GPk;zk^_GZ%B7TtU
zTO~?eFqfriuHaT<#K<CQdcLt#AIkmDqc(gFG6P$AkgBa)ZM}W@+q$)}wX5H<WNW&X
ztocAKk@?ontb5*kaeeGt;as3MThk9-Uf;@@l>i(Bbq7~Zt{bzizO1=V`e0-QrwQMr
z8A%J0P9zgZ)I}q~5+ArKUkhT6D;I>=)KU%%aUWoWT|g#q!AE)2+4FtqV5;F1(pDAN
zngTCb{>a-{P#4I<1mW-&d{x*w0$n^%=;na}UR7!P8~6ZrRSBN}AHcCH;b-6jNLHn?
zfRCBMV`DJ?0%|4OVQdh#0wx0fcCx|6L5`0($)*_>gtaSgQuu|iZtzi&v=Sc=ZvlTV
zIjH6%+iLt|iw$n&DXwWb5`+za4}RCO2YhP52ce|02Yl+l2S<Xk2Yl+mr^044+)x7p
zdFZsX4p-2gR!E}!82&|+71WABC#p*I?czi)3n%M`G4KeI-AMKzLDWxLcXSk;_+J94
zV1mOYc)blUgM=Xy97&xgF<Lb^@NKu$=%1iju$T^6Li|(Yet_i9kdTIe{Q`N#G=8I^
z_D@)8(rh4yKjwX<EuRR}&=S(W0!;>*dn+JZI5o_YK@lj7=Oyk3uE?iUgWLL}V27xK
z-@kUju4MRy^%S>PGy#XxtlB%>uXT$SbiqtVa@o*jrvkw{UwZ9Jq61w{#pMDQtgnP3
zq6axI6>JxM$oZ)NY$?XD0r1@ncHa+ni?!%eM|B<7i1o+@DSA*0A=g0F!72*|Z=}La
zZ#@4`o);tNqN$qtJI}rLoY;h+nlV%ha;=m<D7GQjMKyPeyO8Uqn!3dv;KW{-_T72<
zwWq~CboHa_z-tG@0dx(L;*8u6j)+6(9wzSL`@vyx1l_x-+R&Yu*Ji{$=%N}F>&ypV
zsN_B`JqXCa(+^CsZB(gKKwDFR+=^{XoPThrY=F8T%1JJwl7<9K8}vY$NMn%sno=D=
zqy)}l{2^)q>dzwez-+r^TehtnTiyLbbF<WUuY*stj(Zz^xPOM^9VA$IX&L=H$o+F9
zh+}i_Bl&kg1RtF3D!;3Z`#0$QM@a4>`S(cfA^DF;{sj=hFRgf-C!1GJ!FbKY;To;)
zqn8f$op3n}N!r)D$o)$o#gM^wQHTUCxueoA0jUfbxD8eU8NhEjWPqYF$N)uUkO7Ly
zAOjRhkO6Y78iRlB{38l}M5D$Kz3bf^IFTDTfs!cXDFX@*EzTuw)76!8b*&%X>^_m}
zK9O~u$XTBG)KG>qV0y!HdSOHVLz`1Hz%L|acZnwCV8PcVT9AVkO|NJ}&Q67C(Se+k
zYKVv~<lIy^ve__{YZ$uA<Qhgr4+^~qM$E08TWwkS!tz(v3~LkXLu;4cblt7Fn|}Yu
z-5c*lvaUlp%h)3yhJLyqD$reX$9~%`8i0pV)P?Wxw|UWot^(?TE-)=6M8t+JJ5}3o
zCviI=I?&}*5D^!;+*D1S=t0hl<@O=xr)q+Cp1b|r+HlU_A=aQMPy+JQqNuI}<f%sy
z96Si!xp4b}7(!QroQxPo7xWV)RS-cTO?B*g)Px+P(HL4*Uwq@j>lfhKGegVWk@xn$
zyPvT4j(&y`sd*4}`(02s!3j1NOidKaa{@F^eT=}7wtg0vo!WW<Xve08Pw@p?3S<up
zV3;C2%G5zGwYwT+?r;hbyEykO%gwL}4%hfdyMUP~mY4fWAUFa*Cn1d#bp+yr(@sh0
zq8E9CM~dZs1fkx>=7ggw%oOm{$fm6&XKQ(2ZrU&dtyxLHZ{8euWYXiQA-%y!>SqEX
zsE>+X{T-yW1A3)nU=^4#u!c&ejEvG4xAiq`>ucWD*TR}6-DI8E3hTsXSP?c!DATwF
zcxxpi2K*6mva=2d;e;^C+p4cmQI(}CisdXqvD|W=cwsxDS8&NR{K3WSc%?0%S2_kR
zSBERqt=phjSPr<{nyHmhtSY>UV%0%jKBm4(%>=8+LsjGrRpj9+^2RFi2%uQ_zH}9T
z3B_vK*0*_E-<B%AtySdP*LoZ1N+Us{Y6ub)AV`#-><NT9eet6HX}EU__T&|g`3NrL
z;datla&;<~-T|>f&_sF6z>q%XBrs)&l?4{f$plqGt6)*bTtKYAwkTer#|3-2XQ5Oy
zOJ9U$J%IGNzXGBx?5Kk6ODm!KIEw+ZM0yq_>jW)_`EaEgQt`0wV)uh)`A?w#2~@|!
z9wQzGqe!F&7rR6GNbi#Vhvo*Uv-U&$5_}5WQk|hag9ur5+=5s(^PLq7sR9-S@a#{a
zyamXjBvbH_GR3J-@nE2I_ezJZ;qaT513kosnjfxMkR9-^KgUY6L7HIdxw<x7-C1+D
z)J?0v9C)hbo0iH4RC+2Irho7F7a7EeVJJA|ca#jm^p=Xa2gRE2s8|tOk*+MhJI<ua
zkgnZ1`|cv73!Og`(gj;jj#mV_h)Fx&Ua@$p!YB~fkFazIKOm6mm$Y?fOsEveQjH9>
zudAUTfL|E_m#T<7z&(bV8AKXT1Iix2umHg#D3^3Qr;3#T1g?bv8QjVQ1rRS=X=q*x
zGCRuTI}3G_x&;SsgUfUrh>CIl39^GJ4E8D<=}rhZ=6q6cj6@V{MZlkwN@1#ubL})@
zA4=CF{Yw20PA=x#Dt;*ye3Buw2l$~DAUw>O{bcHgn-Z5?`9Q~#E#KI@**K7E9LP5A
zd)@PXX7k|L+`+R;&U|h2+OOnlhwi3wwa5M>{lUNo@$A`i-)H}LAscuRq6M1PPUixH
zcVoH0(R=Z1%`*t6g;!s`>&itA-t%NVN0y9vcW8BdJ&<+vXU+YRf;<6!fC|t3DUu%`
zDb&X<a8}09eqF-QoQrtjRnbna0wT)P0Xn87=$MXoR?-$gbo2x_GZ5SiF)%%3SoT0D
z#K2H*%O3DCgAaCpWe@nE_Tnf~_JEI-;AW`7_A*a!f`28f3~?_v!M!{L@$wS%%Li#x
zM#}u)gR|wb2U0<-3_nTP13rkA;n-95fDdA2I1H3MGVWD>dcOViTv9%?As^>}1$F6+
z2p$;0>pG@j)*<0z%aBYF#M+9^HYDvxI*?pM!XQBnD1yd_rVx#KQb5d3c6>{R2L3Z9
z_7_MBS&>|-VPISq0#}Ev$Si+8Sg}bG?CO7DJM34nE7;u7lQqAT?R#khsH^9JtK(Cu
zRz|Df_hDoIX5-=ejfX`8xMa)<IWwYH7T{oxs^C@VvMVkJx(av|x?n%Bgk^ca1(+3}
zS3Z<W{Q*I$YS1S@kg8f_>kz4`M=ppMR0uf<vqBCI!w1C(ax~T4BQ_z|Of~HiTYv*-
zPDZ2J(ABP>Q61>&ETB<Qbaxfds9orW-NF(Y)q^goRzaiIq4uM-<){wgFHZpNa2ptI
zdno5a41)bC_d_HEw5f>K{1@~_@~`lV;(8R~HTLo?9zMUJ?_pg?G{7%F4Z*NzLe5Op
zc8M0`tR;wm4Mp$`i?)3@P~<Gx_TfU2yJXvk2Sr|};~!&=Vs|Nq(^HJ$^!$7nPK|`&
z)QCp6VSr#b@GE0D$VnIuauSAvoP^;ZCt*0qZNYF*_~aN4hHmXD!f=2u!f?=4z;Mu2
zz;Mu2z;Mu2z;MtdVK~T17!Gn}7!HccFdP(>VK^u%U^wV1U^wX7g5jVLF`UnufRhGE
zRIR92x)GGzRgb%yl;=FyZr{WJ1A-|QV^R~azsWU`N+jSg8JvYo_r@<ya5x!~wm7-*
z(*EAq1l&*rSM1<F8el7ONVf_Pkuaqf`}ay0`}eAd3LJYS*i7sS0cY^~<>G$`Krl)X
z1dAGj1VK1Qjv`?_yPhbs39?<BG;Cqt6UC@>0FWG$BDebpBTtkF9Q4G0#UrLnN(clc
zJoQ9z$rWJIwP57mUXa%OrTGv}dWEhhN(TQ0leBa-G){Yj(QRUtT((6b_R2t*lnR;@
z(pA)G7zmOs;J;=d-wz}mMnls;>hivWTm%W}RtZENN9Pif+dzbf0@b}h?qg%+iO!2N
zFvi3EY%JLTMnF43I|Em1pCWtkxI89+m>lUhrO5}4PK2BU^M0aS?9<#&!HE;Q^#20z
z4-Q#rG%)aKTK|@6{Ts^uw^ZYQr4Icib?C3CXFt>GG}<4VwHobbM&Ld(Q<~3fKGW(o
z+D|ATpIIr*ZqaDhSo3b5sKeiIGeJfPKe*?;?svP1{Gq|}$N>K0Aq`a<hVH~d=c7IN
ze{(zjFY&FNdHBCAn(rUZ_YI*u5d7qb<{7QVn};47_U?%~bUcKAmjW&m77ggY#K_&k
zqKP=6oAlh;5BKD>!sR=ng~;HjQIX6>WOlgC=2l`Ez-HofDoz)1x)t!*L!4ej&3%OR
zQ=X7mL)ZY-(jnFowvO@y5b|El<lHS{J&^?|UqB2Iwn0I*!^GJrhZZBmNmEd5&%F+d
zQN-CydHiAvVOwFfD{rwcu~^d8V;CrFj;;^G3i>BHZNMnDkzidVW85wx>n@S?5LvGb
zx33Q8>=Ch#$oflU14K4h5_gEmhD&54M7CS5wAJ%DXOp;x$o7`V_7T}A<*va!r>jiP
z)hs?mWc#TQ{YLle-Ru5butz*VWKUDU$Quo>H>~S(aIMinA_I+))(E6Rj}dji<415K
zkE9!T<&M$z8yCKM;n6Y4cScWj_2nDse4s(nwIe6;?Oi)-Tp)-_=dTB)gMaN4?h==k
z4jrn}p`%FYh_g)Th^$QMh^(M=#92@};&hi(v4_aKiX!@m)32y$4ROLySu55OwhooC
zp0GixzCjETwgGi1OxVVqbSXlDwNlQ&${a4(tiAZwg*Pu`Vg7kE8`zt3?0f%c&T&X=
zBf;8B6uyJVI!nqQC9*QrB(m<3FWN(7WvWSJu)tchV|Rea%2bochD%g#gviQNlgRd#
zsNp^$8!b`8r-*ESi5eatvZqns4ia{YMiMC=i1UI*5=XH{62S`wStG+OKbt1*`(knL
zhmMD^NQTR426PlDB5|6P&d@@fWjaV?_L9!fL1YC*Bu=-YWgg-Lv$yCw_=pV7Io66b
zgq6BM!q%bY)e|-dnzzE-wu&L*1Vt?BAj3ok)0?7nBSZ#AAd6&8MAlrQFD*pYS|V#B
zGMEAt#qA)nGMyx{t`dFOMP%J2vK}JqEzy@gBI_^FmjNOhEYX)CA{$1186oWMlA`V*
zvc0G*<lDlLOS$uU3Vj~)`aK$YRl8X?nyVXqOo8KZMsr=GY03KA9#hDO*L2hw&5N2(
zbS8~44;$CX@1Fhd-FWxLdtZ6?D<AlCdrlGILxXA45Y8FGj|>p>v7gmwtl3cak11q`
H8T@|%qIwW7

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/fused_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ea2eff93138eb5f518d386197795d4ae70c0a953
GIT binary patch
literal 68741
zcmeFa34B}Ec_#{hAOK<`0FnR+Zr~#Bi%3zVcA45&%GxZOv4cRoAVrD<sSD7u=nIQZ
z-G+2CHI<|ll{n9InyIN+ZJ0D|nKqrOowjk8nZXs*A&hE%Ro?hbo?qup<yzC3=Kbc)
z`+w)+0+-OG=%q9H^-ZtDgLBWmeCM3+eB1pqo6W4jGphgj;eWARtNHizB0rl`o)7EF
zHJa<1vl>p*ui><uZdBW^Wxu+99sAAc&%tlbsD3QBKUYg>^rMC`W51F4b)%+!6HAvj
zW**RKHDi{3YbwSzX79JB{P|-J7VBiLi@62;g)BCAv}nxT?_qw!Xz^G{e+ly&N4;aE
z{iV!r8Z8?u?=NTmywQrW%KpkRU%zjxs=tbbnMbR~YWi!&YWr*1yJd94SY3bJSbcvz
zd$*1@j5YQ*GQVxKX{@=wnfdLbEn}_yt<0Z4+BVkS-#)gnf8$t3f5%v7e<urfjBXn1
z>hEHH=ji6K?*4A(ca8RpZRy{_`~{<1$F}uvWB$U??PELocQAj^=+3cS{kz6?_wQ!!
z?$Ia4di#5s-!r;rY;XVGv3>pf*t>3Ye|j8rqX)(gvQawJf0)G<j~*F2+JAKHSpPBh
zUNU-otgpXMtI=tKrNI+#Yo!_Oe=@jx<QwudXMQ>FE1I`cul=XiNK+czHS#N&JhG1~
zTO+)Djqr*!!YkJZ_pK3LwMKaL8sRl-gx9VSzG02<x;4V<*9dP|BfL>Pe6WIRdPSd}
zjWcV^MzeZuu4Rqzf9#{%x<<d+)(Br?bh-95(r;7`$82;cX5(z0CQrkCo9hgkMsCR~
zAoI&@S|hw`jquHDgzKh^8V%R|*w~)O#%_6R?AA46x2+MreU0!PYlQC%p5rzIpXPQ2
zp9%H{jf1)p3=&5x=QlH>CHuHmq;A7sBmNrj*N(s4!DoX{vs}_xJh4ViQfx1$8*JnD
zypr4h+#2hJTC*4R|3I!a^ULj9BYZ#d99SdnAmR?;?=a%kc13EDi#wu#9Y1$;jXoS(
zBm6kZ?+f;GC)SAXRSzGua!<aZ@BbVib%{HPGD`7x3gt*+l|8b(!Tv!rcN$|C2x>?E
zFf%T)F9q|DmUIT?N@bo+`+70sPp4;`#iBh=y^@>W(FRgb@pK9*&SAEnMt<bu`te7-
zuE5`C@CO*cC_abYa4ZdlQ~YNUZsPn153*i<4q<Zp%HR*+?{PgQs7%#A=-|$y?}MzI
zf#48wa;cUDSG^GgWy+))A00_$xpr<4<zC>{T8TsIv&UUnBYb#`@DYq(FIuX;Bc=L+
zIk<??8b&X_!;P{Wxg57{F1Bt5_1qYGGQvh^Em&Nubu<&y!Vuc0w)Ru&cdeGF_ewo<
zFo*UF^mH7py}0J8S*xWJ>ZLMRLJzP;E@1>mfl--8lJeTf{BnG7$H=|RyX-^yZR#;H
zR(31=c8-*qR+{vW`|ihXzdX_rjQAw}p2v#6931D?>enY4d1++~7IH5rR`djL{42mo
zFZE9_jPqlS&#kGqb#m{qU#)dAy|~8g2y28#*9cz^4pmnXVCp4BfBEz*{rV@KrL|@y
zd-m2`+3NjE&(Bq?fw0`p$NzHQTeBB0tJlJPevR<8_PVuZ^=AO1uV8n`#sGdceOeJN
z@N<CXFRW3c1jRFtjh%gL?5mHB{rShne(|xf|Ln1`*{8=ZJT~=fkBud4qm!G%oJSr%
z*K+JX&ABT6E<w{jk~vq02*ANLz`-QWoxR+bf)Vb-kTytf`?xR5Cl0UUz7ldH|9_NE
zsm$-lf6Dk}-=Ox^FTR~Cy=l{DlnhJizyAbb|38MXUjl@^pg!-bL%HAhsh%zWbgpQ)
zPj#-WvBzxWt^)$Dusvoz_(G6;pKgD-@wQ&xUvQgI$HH{nSAl^~JtqEZh<}lLJ$=7f
zqa1cm&~sl$YGF0J;*Rs1KQ)M@cFP#i`Z&-37WAcV-)|t_0_(GSf6KTxF<Vj0(ME1s
zJ_Gt+!X5Z3_l+GGb{6x?>6mF2^UZY3KTpTJ%wm3pVzS3=t#|IXern?>kLCZGyMQVz
zq#)+g><MqFug+A-YpvZbZV@o}`81}V!SI2*qC^$i0MS5${p5nya}#UzXV!wT>~L=R
zrv`J%HT=IO+^weDei}$y8<xHWSb9aLIjG^@enrFG3Kq_3M;Jd-IzwbvrmOV-9HU*)
zj`^#AwL&>Q^NalU%$w{>!!(uekV7-Sg9h%`(306Jy2kHMl^mE12RYyI@%_Ft{BUGE
z<hvN;L&4E-+xwKGuTh&c?G22M2F{NL;m_#}UBQpVKQI}NjF0)pC&GBO^Wy_!{=je~
z$frUq!=d4be{_6kD99s$=lRjmG5>Jbe?AZyxZocSJs;qQ1EEM`PO|L4+0*;?`H!F2
z??2mj@@#M4nZx~f-+Q9(z~O_*0@ggV?&Ktr?;Q^f4i6=Z{6oQre}KLCxyY4?pg$bp
z8+FMB|MP*-VGfOpj0VD}ZFGF#qCY$k7!7j%A%1*vf_{TzW63&xGNhhtkjBFwd|@KU
zN5Ux6kt&l51}CJv&a~G*HXig3PHaIB3(1ShheC3#!&5Y1C20GTd~hPb2YW-@f#DF+
zOa=Q8coV~NW_;r4x!~~7g$N=~1-Z!qM4foDQJ=K=`Cu3+{R4r43&Es2Fc2AjJ`fom
z5BV<-M=p#{M*L%wqse@3I80N6A)Ocv3<Q%U)DCG1{g-IWs0>6-M$i}=7i3}nu@?p>
zy0QbhDd5E3C;i8t_Mb+jW7PigvA~t{LBCwh5FePh;74yF!_*cea12cHd@vO8qyEU?
zI6sCl(?v#;h6n>Eq;O;2GeZ{KGPcoAV~lhq+%O*;h@h)O!(jrRG*l%$$P^jp0W8$y
zQU5sa4+Sp+m~=_|fpPwFfad@Wk>CrFWC1|~YNjxP3JOHERtly$qj?`tt}_Dwn`oCG
zg1HY#fk=watkI05XnF+s@*@}p)1XesyQP&Weo?cKBbcUevsC0v;em24`sH+jNzOBc
z_ozkC2wEYRgJi<b>Nt%=^`depR?rC+ilMmGF;S~vSe++3rJ%ovmQSG{QJbPo)X%I(
zunK0ub}L8TW3-wpnnr!!O>HulEhL^s0B`!SK=@*#o`)!fCYd`G<j2EFLx2y2hJwjl
ztb9J$Xiw%2_$MNKG7pPym;<DaWxSze?gSQMD5>pBn#TtRX)-ScLrF9H@l)wZ>z-pL
z_8#@0#(MW3U-j0Pv<{4q0cL}KTHQ%YU|?Vp;2uE5Nh2$6Ae1z)>d~$NR$iF4Lf@+A
zCuiFuV-xKY!xOEM01tR*ePOa^>z0c>!S>PN^X(H?u#iISv^TYnjdQ_KEc+n#j&Z(y
zG;k%zhufvi081+4Yn!-|EV>NX4*J=!pksclMl_Zu1hW@^;W;?dnulIZLDBVwYYp?q
z7F%MaJ<Gyf*RkoN346iZsA#YL=Bc-ydGndYOG_>B4ZB7A?&*UGn``cw1@E_d7bA-Y
z#i}l`s7thUEnT_Y^G?^Dlc(P45%-=JdrphC)6)kMHqTeJ^Ih{s(dJt?xVZ1TRmf7?
zwRB0W-6GnyP9M0ZH+<pH%ZFy3n)}Sc^Z!=g_95D&;XB|YwMUZ<X=}WQh5h_6Z6HZA
zTPJ?nbNDVwO7b+TX60zodhpbVvro!1W<34mvBPKlN0ZLuXOH<2a|ZkNx&4O^9y*iE
zjf_wDFY?_~hT%dW?4O!Q+Og`f6-B!Im%9QT-Rbu&{>xkNK2VRu@?(XEEzuuf;jXtt
zIqfZ-jO<726$?ORQ3@8JOkR}HhIP{B3FYaujY6f+NQ*VvB-9H{Q&=d`W}#WAWMM54
zAbipzGzcwIXthw8&f6-qusm3hLhBS<wjH!7!l<-%MQcoQX_;SaCaH}ox>0Bo%BWsp
z<Hct&RoW{#a)_b~<(8K!hSO$xKVr+2E&C#}N27*V$n~?<cPMI7Ypp@(pmcJcXs6IA
zSZSMzZdxa&QD{@<{N(M7b_rda{$c}0s3_u;yM~R{B@_tlLLOSQNhlM_g_^fhV}<Q7
z2QlR|wu)A&k7OD)K6wkNpF$o%M0E4I^;M+dsT&7LCzr$J;26n~4hx~0AX2a~sOY9R
zicQ7YDU|A>zi5xJf!~aSs7uI~!v&TjQyQ1cN^_*+H)oaTlw+b>RPv%foPknAw}xtk
zI==exwFw`sp4zY;E!T0z=r*A?oQraEI8$_6s6eRYoruX7vRa8=WLmOaF}^Mt7BasC
z2ZK5V{HvhbxAM|6up{D;^Kx26$!a@}SxC>EoPVEYPWRjijL%NN8!pNoK^)OLg$g#p
zfIPNlc5&wD?vS3#iSEMRZbgl1Yp+Mxlm#8x5b;P2ggkKOTNW8Hh(7W7I<9U>uk2oo
zz3FQ2)vZ%`D8tIokY1ojT|%J@CD}70xYIFNkSA0KJJWHc3<`_n_voI-w@KI|>=Je>
z`mk5nyUyBFndNl9_5!YW^ljpi`FW&`(S3p*{q@K#&F*h%J(Z;6_X)+aKe~UNUhU87
z)dAta)$NM0#`~w}<$=%z^m7oaiTm{Z6#l___-T5C{%pS5`^ihVdVtRFt9xmN)Jnm5
zA)my(p{`F=)3%RZlLAVL<-I5Kd-aK{y~2)Lw)FblA@pD^NjpDIdbaD^ge^kFs=b|J
zw#@0ic!*+B`>-5#O0N;BcqKliw%6neo$M6b1S~AGdmI#Y2nSd1K{T4t9m0-vMs&x=
zKY!V&c8HzpS*N1B#&F&rT781aG10@1?3Gz5g*@7U*{*g(F$dnv*vmfQFnWFDmR+6$
z!X_H?fAo2D+)Ve9!($VpxK)QDVPE7z(8n$pKIx*vZuUN0VtoPM@!=ODlYG!OKIq#o
zks*8yAdfWqCd0#_AyyK*Mfn0D&L<Hnd}9IJ!3KiiHZzMq8oc6r64$k{Aa2#+Z7i(S
z*SpPk2K6#(fG-jZg;5<y6CgC8O(@#OiVgdSz~BpC2uuWh4NWb+qm3=T%NK%ZQGHXr
zZy*q2#ZiaO2hoNrsidn)VsxHhm^JaJZ#dQAV1RXu8^$1nK|Vki(`5xg=a3rEmTK-E
zskz}uVBjK=s7~znU1qcrx$Vk!?r-t+DVw?<m8Q$4(GE?Hoe%Ofs43bGQp*jKMr1I%
zc`dB@ec2^Rw>{q@$>nzMmD-(3#^^U{Ek53Y?oM1pyVK))Jk_8~!^b0mQAN{J6Era%
zj`$`59EVAhN|Ae#>170ioEd@4=u%2d75W<FG96?9xn9QrFUTa_<o&~3c$=?R?ii6>
z0-*U35Mi*Tlz=pjfRYAXYI#e#XL1wR82DIY*=PrNMr7c8=dZAmQt*wEf-g|O6(1;R
z=~6)C1H}!%5gC_9U&`?K<|*5S)~4#9)kou$E}h+x+kA&3K91JW*l-AaxqM+5fSSs}
zmfZ`!L4JJ9w+HKBd~y^m4`QXFO(-v26dQk59tOqND>e4a1<Zv+tMh@}i1cI9LIJ5G
zGCVOlJRofg7`}isfHW$@*ggivL30aFjAMLLJHqM)1;Uvov!VQ4W>`Mg#&!XkBATw$
z68v2D<bICoN|h>&K5aKCpz~q<Vv9m8ARmN>&kv6dN3I|P>#vfmLpukJ7djdW0u;gl
z9`ibm{R)Ht{Glh<2|)V`4WMTspEN|$u(HCkh9WQkN)%N)IEW1?6p=E7eG{NSqjZdV
z3U0#K`%=x920KmJ3cN5J?tA~g<9Q$Zy5@aC+25y=?fq#ud>x!0<BvTzb$lZ{$=q>(
z9{+wm{2-3yfE>l+R;jsZmk4BLR1eB1DBN69KY%ew<^Wid`qA+K$2U^}y2yAk7hUe|
zVpJl&i2{v-ND$f7naq_4YdPF_gl|Di<I!YpfYH`+&(jazO35wfB~mtvFr5cUh4~z`
zi}<CTG0Z{=v*(h9+A|=)-o4l>q_vD(*ib;#g={THag0pF?_v$#e>~}+loDlKTE=NQ
zUm!#B3tUWxo)2cciqH_>h7$R9D%PB$8J-V=@|5;pRQN$Fl*6YKX{Hourb7H~D)9+&
zy2v4#6;C8Meh)c&$=OHFesYK!#UCK&AUTKNBy&KfOy*GsiC&5B$lj3DZ3-O@NkrtN
zNurS<hh=b>ry*l`tQpc7N??S~F@7VJ?p7b;q%A`d1<dfB)SOL}!GZ{x`H-S?o(H9q
zCBFy?EX@umo(w9&$vi;Bh2cT$O-TtJP+ii>AR`sd_fV-?WW6X6U5yw043?AHKvH|2
z5;OLQRIV}g#+niKU-U=#NzA1TYT=}wyh$_h7$kt>w@}l!lCup?_$VC04E}*0emlxb
zmZZtBGG}9GB67(exO|EK3gXXF#d~nm2g&tWoyKB&t#!6_{^VVA<@DZr4%c<#HRHT)
z{#e}6IDJ@t*Us;VI~t}BCp<L^!=k4>rY}t7yJGG-F~4s5P{QS%e^zugP9MEj;GVm(
zuwC@DEm`9QJExB&te*M3vFc8-taE8pEZrko_fGFm*c`Ef8qrp>Xcetp)B7JfG!?!#
z&fPc{+ps%c{zOdgO&F~+f@my_Rc^jx+?+7k6NM%7$Hc;hTb<wDdUNa2$z^N2dH+iD
zA+h<;pS%7|@t+jOn@@>_r>2kJa~53pT=T?AT9<5M$<DZQ*YuHuvou!GCOX@ukG$t9
zyk38;e!gvSv*_IzcXh0|x<psk_fGxR)8BbI?%D-<v(Yto{*JNup-Gchk+3=w)*|*F
z9$UidX8(&5R{H<2$dYG%P^`(zzn@<?Cy4nq-#q`;@SDR++NB-wx+hlZ_KJ0T|8UO_
z5B>h3c-?U^|9I@=Dbapv`rtiV{%g<7J~MY|z9nv}C+f5-VRC(`V~(5a5lyA@lcK41
z;fiS5xYWH|`v=<P`tR(%{fxM&Pc-#?kfXC3rVo5z(wN-$(K>s{{9)0);e#Blt?qt)
z(U$`Ag>yr*R~M?#8WdsQ_(87D*73lg$#>6jU+tY6673ZWC8E9Q17nV@`9TgE|G=to
zmwmN&J~Dssnt$PvSk$oCD;BoS=DnNed87(^;g?R%>*vnRjxXei_C_kb>9M7MVAoh(
z*FuSc!Wq-M7AN`Kv!-|R@~`zJiYpiN-v}%i#o~s=4zajpNh^9fW~>kGt2qHb;D2xG
z`%`yaM*v`;`FDKf{Pm%0L-T=!vbei##nwKf#c()$iK5a>FBUr%1+jU%SifB?+CFn2
z;Vzjyc)zHGeBPOZ?^*4y9h^Owu(|*nQYO(^yJ%R9eD~zy<(v7-Rm*|fE#j^|aa*6*
z&?h=iBwR%gje47TM*GmL!So^b+<~7zF{6FgQj&1G=7z6TENl`Tbu+yf4O=nI%MsCD
zNApsD-(Hj%d#`A3rcrA_I;ZDLm*#8dE?>)EXjyWKSSF6nr71DL_jbQ%KS49}q?V?r
z=%JNHgaEf?@u}sWyRN-6#)PZndegP0*H69Cf1^L{YM3$phz)OP)i<gZ&Meg5*uD7d
za<ACBQ!L$iyGisOn>l*lQJip<FPKGF6B_1hzF**-@A`&wzDF#m!NeCdEFKYE-DsV&
z2dyipkWw0RoCGK~H(F8XzTR`KXMXEq_p;}1LGR4IL}4*on2USGf_A(XcqqZ^oo{Tr
zu`OOuH@oj$Tfq%`;^Q>RRWe`u4eflr=&D}m7hUbto{b;5Jy{Ky+4q3~0GMzUT(7-W
z`xXBB)U~NN3O<AVYVn-t>{@Yb5gl8W%i@j$v%UATlRYiET9-VcbIXcjhv?X`{A}ED
zWTy9?yZHLxwZZw53)+Pj@47e5SkSz@{J9paELW3gYML<+SXf<i0*2Mouy|N>Zx*ea
zUp;UiVWSJri0(Gg+V<*!2UoQkEYUqWjj7~bk>~okYv*F+txIOHeA{hr?DUztMQ3Ns
z33t`Pk#AjEs$IM+*7k_*o*B!1SNZj}Yi(EnuD0o;s2uyxPk~9s@1*m_D4pja*#lN3
zv97@ACr;Itq%FnBO1(OPyZZ+&1VRv-ka+G%)1lte{ym3#PY)3GCqHSX*8dCg(#K+I
zH7f`YY9wZBhQu6gStqS|6=SLj3@IYaw1Jh?#+X{|Aiz|yu#F0)R*SHaF}12>5_Ysh
z*vRtW;03D(E+fNqD#CzXugmPods`-@b%7njh~7e1nyHlvQS=BSm;HdLl_s#O5tkzA
z4C^wrluQ^kVwX|aOubCExm)NKY>YtPqiCaAPLo6?lXHIZc7oxuMU|;lAQXa~Wk!pL
z@K-5pSjE)ZBrz%#tyCY$G}H2vw~$6iFf*ps)^+RirQvBCm|EG)fLg`?U_?w|+iC({
zhIz%{ZaY{^TNI2WmO8`G5*Wiu*qT*_OC|%dGIj_Je3Ouiax#Sc>>OzVcXX$sZ)!8X
zQ=aSSE}<^06YBY270Nm7MchaDTA?iEs|4eqTafyhVRY;kwt~S+>*tBA_B@dxu}61?
zUJ)Akvso$rVOp%(s&#t2Tj=3(Zy99r=W6nAv^UhcPJVrQ#Cq3Bi8)%e4tEJnd?Q#+
zTLiB>qZq+b+5Zt3M_UCmtz%{Tqk9#tP-7Wlm95J%G^XKu-^XAXT7>kvkn@9OsC|wD
zM6Aay+KyRR%^J>LITm5R;A3NhJ%D=6n170yiylz)Tn)B&NUKq?z8)!a)kq%1%2Enj
zs4*}OTs^3^=U^X8oe)>|-7?9r72Oy5SE*IClwMWOr&rabtEnDF4+)3B&Zm`h`0;(Z
zx*O#C3|n#)BuCeQ$E!P$H_gzK+Z)|=b)TZnHTo>iuh6@C)@XhNFngs?g+v&!XZD5q
zz_2S>zx1pz+w^f-G$qwk^6~Qs+XY{0f2K0FgDv8dc3@WKjydfYhrnEF;;mQrUEQ12
zN1PsDr`D{?crpmx?4;=d<0-x8M2}qECmeZnBvE1mUxeCr(YQVy&M>-%Q?S*QhAmGT
zwp>^Dt((6QHT6<WAF)2?`eov5XQD=mIbY`lXJ^_`u*C|p&sDbe>69)Mj%JNM+RXAD
zdt?{MN-6D^j4gIt(Izj7&3c4mn3LlWo*;oPJd7=7=8wS3h_XBpjr#cG^nQw*)8y2V
z^AtG^<U9?hv5!Ab{sD4Y;UvxH{pW`vT}EPvmOzG-#bcw?@Pp(Gk#m8ZVRA?Sj!`!G
z5%OImXOx^Vazf;clQTiiqx8x^cq~nqgbX8piIVZ;gyE#4&VvM+CSRTp@xMqZeu<oq
zN~XL{iRZ~VM9vLzzDmwza$X?k3OO`c{EOrW<V4ANi5#Lo@>j{3CMQi|<X@)O&y({r
z<h(-8&yw>C<h%waX;lnmIB8<k$Ma#_hf?7n38qG!NP_S(G9y1r1$>d5e@3N%)Ck@k
zA4$<MFNXOqQ`{DEG8Dr;y#51G3sc2NL_<e5(U8B1ns(tV37c_Q0j+TGpJ;{uIBA6s
z%$huV!dx_;Cz`83_sOfiZ*hL9YVOQj{p{}fXGBZgqGze_yO%)cXxzGdSZv%cTK0qJ
zl6R1ZPq~&4%#7CPnQvY+i{4Jr+PQRY`OF`5ET0oM?|;WEZayViPf27d5RFn~s<^8j
z1Sw;|wdj3|YwqN$+vj^0PJVTJqO@+YX*pMH+Iib6HXapAkIo!Rcq$g^MNi|*q5F=~
z`HP@IRdkDv?&ad!N5rjtq60KfjjaSEK6~Zr1fJW4e{kuxN8Eb&9i)6pbUa05s*;BW
zji-cB2uI`Y=9z={Rq7-P4$%-tm%O((-E|-QQ|&ul?-)h*ld}gi*)PW3O*04Oq!$;D
ziWNO^_m-K1?;7*(7gj8kE>4M6TgAey%Li|dh&!GX3!j|HyO-~L?egs9xhsptrK+2j
z<-K?FpP1201iXxJ^ZF!BG(#dYep({sg8N(A#jZu;o0Ur)OP7{+h&>0zO^}y9_)hq)
z_4JJPN0yR%-m*99ZqzL}7kb~?_vXIEvUqLx^3l8AL$gQUwUyj>E|Kq^cfR`K{N+XG
zS6@tcOXo*LZ_}JH;jLOYCwg1vj8s7Vjrv5PZ=q+gU##g73wxGFVo#oan4>Fo%^A^|
z(sD`xI;UrOo7k~mtll5@9+)#?MqlUOc>c!o3xP%F*M!BP?*^6&mxjc)U1H^~+n#p{
z|Mb#39<leNSb0)(oV;fFQ9<Q<)wOTcy;-;DT<l%iez$t}wWIe7E5F(KR`;9Ti&cv!
ze|d*k*p4u(2UN)J8{G?43n#y}L$ua|{%Nu+X>{N#WL{r2Jm{5(aaxVZK{U60i-q61
zwCH*BxajVfvAk<6{x}r6ca22}Pc??e)3V~;D7rT;fmpq3*79y%(T(!NswLsw@J8E>
zHVnGAd-f;+t4A!|xYQ$-Zd>v061}^Yg}C<^V%$~NL)StJ&&J)IAUK+Ssx&`sZ&JG_
zsok42_DX0((zqw((eELqmsQDTO`6ynWFV4`Y-VfHoME)G132jf6Wb3h6cV10*k;gK
zkW`s0k{mu0wn-ZHFl;7i;DeBp2@SY$V98G*JcK`e_yag!(0-x(x<)We>jew1JEHl#
zRxrHm77Qb)o06P~emSjt9|6Sys8m==Z&FR07Nb|Djim54;LUnv$&z2t%xZyS=75f2
zAYB=VRhuDXZxw8UUC0-lz%h&7PTih?`Dq$+`rfBzGSsipku*qL-ee9`$)NQUdLDWr
z{zuO43d+$BC#h!|3ZG$Kh(C-aOC+%iri*ns1VsYUE`lZz7XUAQ9NHR&$q5e9E=eyb
z1ToenOC^nbY98#FaMBNBd`0kv$0r!p&{)BLiyH7YIk(99RdRlfoNtq}M9z1}`7SxX
zP7cGpzDK_O<opIX-Q;AUc8nLz@Vnon*x!Pa)E-ZoGpysJeh3OS4E;;GsB@XdvTo*_
zAC5>|Z^CKAG*-UPJqD+Gf?-Jf?^1Q-)Zls?rf&WHwC2G^jkP#tsS%rZ#PmC2mK_O;
zCuXT!*s)U6E!K1|U5eLiT|RlIW>-wVD`wf1u#~P?szponLPy-PVbOWV(iGD-#Vk$t
z^u`r^rKqn2N1<w=cVTF8XleBJme{dpW6ur6F1++Wqj^GiQiq>Yx^wjNwC=O?<JVoJ
zpHbZl^m9dbFb6+}a!%9F85nMTsL|wpCMTgcOQd?|g<%LSgb2}$1f_d`GqwB}Uz-K-
zKSbZ4hQzdV*j>S#%0}>GOC?Ofp*bVIGGIbJ`N@NaEx-#Ht@Vlb@}i5Huq1K?Bat8&
z86r>d4m=bwxN<?IEKkTGvNz<~%|dR90It+QP+NLh<jPH7=FD^#P+Y}OdiDcSd72<a
zsRi@LOrJ~SB52#dr6+1p<X4WC6ph{uX(K5=whwdKoAy8zO)kqCvB|+gn#8_O^Bgv<
zRcdW&BLM|HfoUADUfIY^&ww49kwqa1YyD!AUO7&7xz@}tHnUGVvQV^BjLk=x3wdl)
z+b!EH^?lM68Dk(_i5pE!<cNQU0st=>CSSzliFiM~evX_LIF0$z#`9+s@aN>vGT{Fe
zIsclRe?v};9J*6Nf<)5I<&tJB3qM`@f{~>50v$(T2&5&o!%+PrUD|Ly(r4{2(xuBI
ztL;G_5F(|KD=C2uK7kxR#zcp=V(-V@%Pos(Xyaz@^xpgVuDL1jMm_Cf{zk}OI1A^^
z3nOCjM$y@^bVMYXhx^9-xovlh<qO`$sXJ9$f$F?xGQVb=H6~0Y3A1aiUo=<JUBGwW
zTu8Wn5l}RUf;7%H&h^es#m&{=KIhdCmQeyUYU_=y3nv%N@zPDAeG@p;w%&&pL!M!}
z7or<>$7@f|K0P-zH+rl3+f6r{?%Fm(oeq5Z&A;&Mj5Z}f5-V<8JhT)QTlR^?`)*$n
zix0&ehi7sL1FM<~UTcKZ!>r*!uEy?#+(oXDRPi7YG50h$&_%>h1yX71`9byXHGaSG
zcJJ+}__kA`=@iL@*o#%0_jg8pu0h)K(t=!)bY;@EYQsxf=-`lofSr(zV(LxOrL?Wu
zF$b{uq#p}>Y>WFACg}^7FIc}|1D2st!xZQwq~}%Ww2q|l11XH$4Av3Nov{pRIo&I!
zs6hZVlc{5Q!Rx_BkA-a%v?Izkq>7NskD53=HcaCVgtI&V`Dh-O3x6JkAr_k;`7*r9
z5w(pd&083uUS>Ule#Dv;gxB;2Vn+O9`}nGLjTE_Z8L!%AtTVPj9cQ3%h|mIJk6<Xl
zFAfO(Rnx3ZFwa^A(}*(_srcd2C2>Yj!BaidVgo;|Y0Q&|X9G&?kH)kBe;*RL<rlT<
z9azBOFlW>jc{?7|p4Qyd^|1}2QOBndFeqT_Ayyt>l(aDI-M(pQ@tbyx2FA{Ffn8Ir
z3aAT1B|D|c%M`-fc0egVFdE(kkCfblu?-iap#M6pdENa+>5Wn>P5t7tV#Bt0$#$`L
zrv&yUc~6mugjDmY9@DYFdRzw2FY2yqW_6ifvEvtGLcQYeBf(7|qWq8Gk@iB`8pAZl
zzG<m9{Qr)ZkJ*tr>WByV(2;rX!qn24<rZ=CL9zazSaL`#KEnF(z6R6OsFlVwFPV$g
z8XV>S1#&^3dUQMl{c5K7o-|A9#iPTJ5PpuL4P5Yfh*Pt@l>Z%sG}`%h@xv#{`Ac%{
zk@N4!*-y?pa8_>tO!3;Km>%hl6HdB9kUoZ<eQGaZ=?oIaB+*RSk->(E&P&Da|HKm#
zKA9|46q`NkJkU3doyG?UoaQIMGwqr@&x)x`G?m3o71O;5t9Qj(DOxKRba89V^!~rJ
z?3~_r-{_ggp1&bc+6Y=jX-~{loG5QvDc>lTZ;Y3B#!TKsJGrsaX3^AgzodR~yI9g4
z)4LOmP1Aj`f(@d+F453DeLUu>74;k5v$<Am<)W>8ek^Wlft;0SYhSXhY}_Yq+!wd)
zhuE64V#Qe_I%^j8#GUmdXD7e+#+`K#wzC|W-gi%5I=@fUS0zlggsCWjHkcsnW@oN<
z#Z)Dlsurr^rdo)F{by%huHk_j;yTmEB_P)B=j$;514<kwjamLD#H_ba<&9Bo)1;3U
z$jdhhT|sP0MiiO#AWdqccpjH9P9N0^y0DJRg?6Dq(0xtwbzL-9$l)!p$(VYC963iS
zol(f4bZfLBH{AvUXA(4D({Oo$7B05YuVJghp8;={ujgUwvi2plzNFTl)F0~HxG`zz
zd+PAM!@Yj?qM0(bFrx%Jr)({Xd-BdH-Ts|ZIW2t@F0BcF2;$z*8*Cd1!ze{APg_7T
zpYD5#_@og^2h2!DZWzM#5y)|mjy4+k50F@bahe*QZedA_GM_zVV<b2VV->JKP^f5(
zKb#5;(@>|Dg|r_QQvK5X(myy18y(b0{=XwxH!Xx;f(MuoD2z2Lu1?X_8FzK9xORxH
z9m}V0*Th{1rjOn?+U81EoYkVUdSMeFQZ&{l+%+KGRMuWQwRmu8|58t^Y5R2Fk6h*7
zJiS<Ycf;mc-STtqY=5UUw*Be9GT2@oni-huj2qlQL~=_YRb_X~X=lQ7HFJTv)AP24
ziwn;!?TU5oiS0cX+w*kn>E~jW&&Kqhl|a=f^%7Kn$#ZcPu8;=WQ|OBlXk`F}Qo0sk
zWDxYco~Q#ux)8p?5zWm|6L5wT<skR%)MAJlhJX)5(o17R1!<=1)XN=_^a-zarBLP0
znFK=`Eb|28NcsfEETkSGEsLbpeEb^L$)R$luakq$vaBakC<n+3QvQXlkqi&iyhi`b
za%$iWMqI4E!7gx*A4@vUvL3-AmlM{0u_i)D1A8*zn>A5u#4Cr7l*_)%FE%HOJRcbC
zN;zi4C;KwLf>o|BY7=ZDHJKRM$LWD@5<-9neY1^hko-zlhRc1L*X*z559ADM26WG1
zRv<C1iQ1$25nBB05$tk(LjIR^Uo6mT26CeLQTqUWJqG_WHPP2hPHS+P%=EQUE+z8|
zY&Cu9#-&b6xug;=Yicwdny~gVLY_g(wVE&f*$X+(XfA6T4S_IrX)|porx-QRH$DL^
zDOl&=NM{CSkS2Mi9Ta9-gQRpN=@XJACrPI$r3-ilQ4&GX2OW;dAk_OtN15s#)M#K;
zXgtJpaxMfS(8`%0l|A1uw2OvdZiV*|;Yn5zV)sKIk>8-DG@jiG((#fTK?Ewf5xz6y
zz93Z$0u7~LT}mlEK?5-08ybE-2*n?|e6qrQ=fluxLs7tn!a*pyDWaeuL@}&Y64{Rx
zcRuKw7-mX>q@zSBpcpnjFibjbtJ~=txPU@Y$~d%*h}6hZ%i~3(-Ip{<;~So8I!g+d
zSp_g%uMN_u(^xZ0F>Oh^WbVlSJoGIwq*Ldlyj*ZFfV(rZuO$`R=6h07^$LUrg1#}b
z{X~-yo;=^mW;iff<=e|9*hhzkFEk#(3{Rq8n4k^e#v+~;EIUS$`e5k!aI*NRW5<sB
z&z$W`o6YhcIB{&>{!>XEtoG<90+9<z{m3{Jk_>@~iC~CJ8ew;d4x^-r4+chA0+U}l
zqx?xj5DHQeWE@A@q(QRbmDCT12FFnh&R2=-@JDC`RGK2ev2Zd6noUU~>@Sf5V51}Z
zL<L;KMhQ9WY_(G%nG-STlm<o$p~i%hUQjuCoZW*^xnnk+0PisIG|EBKrCc?R&R5ov
z;?$6@I(b=)BfFlYb`WI!$xIc=oQuIL$s9my*n#d5I4B?KSZ8PjQDCLw!n_YX+fOI@
zI6OGfYc;0IyGCCkzW^-0#*N=OIM*|OP;}MaE`+#$Q6sT*mU5R~j2G>l?z>;?jp>P0
zQC+uEwM(o5S+ycztcn?1?=>`i+j!IXZR<^I!dkaz|1d|_XpWgSkYF~@OrL1-#j1AQ
zHSK<{vg(b?H!i;++z{?b6p`2RXY*gzy<xmzTq$mVD#ESecyVXkv}x&?+f<Ct5Yv~T
zm|XXYzD(4Y#mYC|)p!5<vR0ti_dqh~neBOP*X*vCx9Kk|&G(!|(2BY1tY7T7=Wt)Q
zT(cw!pNQ=_1wNS5_0Xj8)xL4%#uegp%~|g|%2pgc(Se3_EOp&=Y)N$QS?N9`b|1Ri
zedMm^sMvkvX2W95V)*r(`MqB=E!5nw#k!B&@f`gxPK~Pp_zlpM^0tR%V9|b|@8!M+
zdM#7M$n%0W13Vgf7mmOG(4#3nrezso&ibE(>E!ssyk6&l^4vf2x(|5Ff3z_N{y+8@
z$Su!3P?yL52`!k51g{2WQVrTr>=!C#1piQigRLT{LP^%*$Y9#oKpOc)Ho{0SznTw!
z2@`xB_hdl>)Y*VDmwt7_I0FQ2*acjMk$F=zj$E8dxt!s3-DyY_!Y}!Zpk5e3?llXB
zi#RoSoZHNvn3)lWEg(EfJ}XKyO`%dQhsj-=rYuA!pb(sbshR{6E5n*0G=l4rxdPy{
z6f8s@7OafOYzO_t#7v^(F)B=<VCPJX)SNGv;loMD;}`8gxYQ2TD!X9g%&ev+U~*=T
zm8mGFQZ=*?DXlD5KFYJQdeCnvH><;vD&5Z6m{hD4b?3phnG_C^ZOUgC^hiOYWki^b
zm89crNDE$*G_H;IK85n%Z)23+_mT4i98fPd<459<oFw0WAcydU_i35)eQ<_hPFC|i
zO*QW3#9adUl(B5mz{6M34pvPLyK6r|S!?JO-)Do&i~@W@tKI-wM3PGx1`JDY7bP=+
zskbrtjd6WgN#QlAto*;En#uV&+I491ai4ZWreWSK8Y>t2mIlSz9ryE{GkNb?%I{lB
z=chzV<KoFXmbUw~b;~-jV0+BEUEzg1MRDnjHR18XvCx&<f-CoinPc}o<qKt^r<LMl
z-+gP@ydYYe7XzZT9Xey6wHB9v$xFZWGgj;?NWdz5_Ks!iz0!(#A=bJxUb+i%5k*xC
z$HbzIOFP7(-7{tgZOrYR-7(*B$5IBWZum}B=aO)H;7-rsL}>+5m((ogK<B9eclsSO
zM^Lb>WPZ;bYemB0hSrc19DC8xym;x3W20I~*+R}8M@_=vogcX4sJdTTzgQ)fHnU<E
zF5Re{Idb1pG_Ob1Qe}wm5KCKD#XINDyt-?CWO3h}ij5efG9O07*Rnh+<{yojj<Q=4
z|EHLSRkwKpE4EoY4Uh6-q-I=DMoM4M@<l*g@mWGzn0UiS1_j*apC`WwevnIP1HjgT
zWq^A#_yQ+TK4@5V1cCS>poS;VexL440C;u*Ho}G?F$iJD?;?WvC&*#2ORWymwnoPr
zJJ$Hy6iLpX5>V}d2S*uH21}%~CT^<!TTM>h#)LJ0u4DGl-{!!7-|C)kjalpeHWx26
zKjrf;iq<9u84vPuQ}k;7k5N`qPYm+`B{_o77&cJfK;xAIB@YVrBKF-zNGM__eLWYn
zVk351?5S+`Y6Q=_9(%EYGcp>gfz#732a*P7%G@&5c-C?aAZO&^R*F68bz{^R8bR4s
z?C4LT<UaUqtR5X_LYkbYDMMk#bm-Z>nyM4`Skv1yoOozg;vE^{31<g0i+}<TT84ue
zHEjm9)gkR@oE@Qh&iQ%{!W$9pN`+HD<Z$Q>DBj$3b7raXkehBLl#-25h`wA2z)_4@
zs;zY90KC{Pij&L873@HZ*od0B!c;iegPCxyNcq<2?vucb0o;?w%hNUsVoMkKGdnDS
z4!;*p(j;q4Njxk9*!OA1*@g?k%bFRP5;o9DNCdDA5!~IOAQ@vdE6fLyKV>?QC$19T
z00*GYN~QYWFNA{?!UEE*dLIicC5DM_XG&)QIziBwSv6$OmcLCw>?p7>7*?RQyC`ZC
zWlxigq|<^HmV|Ho7``x;EL&o<%<xDEq)Vbpv5P?piR4Kx@h>noVPdvm;khIn@_t!G
zBK5yK;VJ&WVsM#f2orL+XKeS4);aSXqj&zrSY<bKUdt;JW%Y~N8-3}Y3gk(Yc<<G0
zTB+GC)@;99v-3vP?T!!fO)fLIQ!b4;Kjvx^^V*iS$2J`SZ;X_Z?-Vr51{MP|IrqxJ
z?qBZu&I`9o-#PjF70~sKojDgTe;Nc=oGbV08W*b<1HU}7d=k6)EL48&bJee&OVl+i
zSG}VZi;k!U-B(8EnP&p8y4Cu~8b|$+y1%;bs7OD12wK<ZzwYxdCaP*?3^Ol@rV8xQ
zL}`7Hhknh~zFMw`A(ctQ<Y=llq!K4APMIicy4(RhdYHRuOPVfsO5On_@rjT@0^ARm
z;Cw+(C?Gy7s~OWq4fN?KkX{f@4{cE(cNvLHMM&YZ$Q8|tnxio73Nx-&zDBS{fRIU#
zU{#~f%4N;y!8Xfz#dJ$AZy&V1NhN2tms#Reg9*pwvQ3Z#adO{IZL?C^MuWsdhDls=
zh9arXI`N@~)yyIi?;!;AZNMcxU<zr;D0EKXJS|A=3v6j9`9Koqq$R>%VP=|Bms%#X
zBHfrC<pA|y?+g?3|G!Raeh|Lhar@HmZ~nm)J79s0RnR&k9IY`oSxd%R+g2NEZIg_(
zwxxxJ_&t<^R&G*{3tgD4u0|V=@73ZEBxgV3q@_!T6T6nOOv(IlT;L^Zw(Jfrt?Cab
z(L-`N$jLzwthuzNKSvHd(&F~6-EaN~@>Nh*UqC77>VI}<a-Y!t$nE>`==6zqjqZfg
zhs9kjfoi#?pmf$aqn+uP2>`GQJfsfo!YS)6fBp1==dH3g%YL~czWMOo@*`r=(U}8S
zy#(S9b2RRTMJ=?&153rrRo^LH4&FZd&e3?$)6f*pfV?Elma>DBEM#UqWZsV)Y8wK9
zDKwO_Zkx2g-U{Op;exb^6ih3Ht&S0Rln1#Q#zRLJt}i+AaS7Z;&(ndXS%aIP%Seb2
z1{5V+NIQs272!a~QRA7Lx?~Os@)$3|L^nLx@_&Hvl*C?md@wQ=cp;e+o*ctIPb-)|
zN-%(L4r}=1<lu|Lkh?*IVji8$VmXuYOO?Q%MY3HqeTR?~d$e7XYg*A4iZC5vlKz*0
zA@q<CpAW1WQvunQ7+tCB7VEl~J8wr~b=~p0W1{ESjP*W{?6R0;LrlLxqO~*AxEUkr
zs}?6}m4=r@_=z76>;gXNQ5)jZnhXsc+)jLnnNC5PCH^%0tRFYE{8R7~jZq^XOR(_`
zIteUpvtAEQh6ea&5Py=oOq<KJ2Abz4_r3h`mHZ|#zbR&Fx@Rc^EkWvoH3c_J%wQFO
z(00TCqz!n`S`q~ri2+CiP_we0Ogv#_VdD{Cdh%8Y`NzjfDKHvuF8J=$3ihaBh2X;L
zA}LG_!b-{mAe9TX5T20r06;NB^niP@ZViHd+M%cgTWj_c(t--GUQO#@xLJKssb$?7
zz_e52q{w3)HD{z4GRAdBQj(s^KFK+7kfr7|YQdptNlT07$Y1GV^F)UylOr9>!6MI<
z4zHh-^rh{$rHr7B4ToVTYTyD;K8A$-HR|M_Mh%T-#!lzoM?f++I5rWvB8f&(3TB0g
zOfE6oOANr-(nuEKvXnkS{J{_z#pW8V5;vV~6Aa&@y@Ky2hn*bkP+)t?cc^;WQ(%u?
zxo`SeMajJMq6(9!3EOE>j&yLCrOGK8PwW2~T6W+IVA%oRvzDw_%0)~0d?0S|EgWB|
z?G|fE7_)XOF4-~tQ?cz&#o=1E-nSG>DdU#Pm-kKgPG5Sjp!oXsYugj1yqT`AOkR&(
zi!MI5(h55oy`bS08m5muG-w<}ue~_?B9bIb)<k(@ti0ok!PhRndT~ie<d?1F*TD7)
z_BDrL`Vi#)%c|bkej{Dpi`QOU+_}=cTWsEq^2$J4EXGk(+OXnn6}_!-FHGxr-g8uc
zuWhCCtk`)r-g)k><LT+c@0QnL*POc$^L53#55Kb=bjb>XsP|4En`@w>ta!dSR?`!+
z^u+W%(*EMXR~`mncpfM-*b|I#!NjFkZ8hn$Xb~fatwu{{QuZSWx`4~ARTt|~SQ9ru
zs5*_WWy-;|GtK1|bZS@}m*$yIAsaS^G(k~b4!BTS<Pz1ykFW?p4-g3dOKmR_j)x1T
zL5+P0HdDqvF?j7bRdMB06(-VhhFfWt6gyQZr5eLAy>Y00enei*Lf$%g-Eu!Ozj9u7
zlAENH9EZ|LOdGo`-prBI$tVEiT4s5WT{zG1Pa>$%3Ry%#*^@^3fY(1i9K4*&n+%07
zO$LLIMPXMu+6355Eos2Agb_FX3{^n_HPWW=St`w<SmqqXr`I~HfXSl!vP_+Ufnhl5
zlz!>c6EOcV4$+*XnWVE*jb%s%Z4K(T!2Ha5XJE|psP{!$^gl!%w&;sDtazG4Pt#&2
z>`#$}Dw}u3RxR497x<X1I&N!%#7c3+8<rcEgvlJUmSGK*819=YS4<E;1fL;pY5`TQ
zq?I@fW{s;c?rfSqau3_VwrksB741u1%ctHk-z_*DJ9AbncnY?y3QDf;ytWfsGsofu
z9n;6&HM-WuVL&K+ZTIZ%*Eheh^Ty6N=!-kPz5C|wA8h`;?cd)XZ$22a9E|A?vXy%V
zUwJWdSHN%@9)K_bS@R?w6kQBp{7*8omJ&N+hF9n#5wK_{`K>g_goP45k}OJTQIHra
z3&dwp@R5-8+QP`unqtUCAJ#3fQM^iz8mh#1Wo~0?2fn;kc^^p767i%|0KtWkOWY7e
zD9o&D8MB4Bq8`UDlp(N>q*{i%phivbFtbZwFG}wQa*K)HC$Ez<(xaE#L`olAE+bJD
zXC$Z9Oq_s{s95jOJlJH1WDd*eM7_>TeX>uk18MD%^u7Q&9!TzdJuN?k7UVs?)gU^V
zKuXJtT5wA>jTFh{XMQt1WcwtDXCrDN2iVWJw1C41VWU|Oh<J)Va_pnpBc)l1@XAtQ
zrO^|$hFU*TeQE*>R9mW?5fYBfdLRH%B?qNP)25gw5_rsdAg2!ECO*$%N$>bpcIUS%
z@>OSL!mC0+B45Z?6Mo>V#Dd8vU?Y{<To}?lB8)2Q!D#|ogX(;z^MNc11X`|Vq%o@q
zyb{Akre{PQD6d&1jbo(s(NK95^EHunIhM1@El!u|1jMx~#!GFSomj(a<LtU>8KE0~
z)`QV=rOPh}m3`dO8CqKqbwM1;4Q2cSb-3j0xANs$*qK}a@~h)w4^E?8<dXD6DEFqU
z=HWGx7GECedNfuZBf+&!-tM*YvUA$m$Jh;xd5YsQeNyu5;Cvoyg1=183*=lOhwfDT
zv*e?TouueL2p`Vw;i0kdVeTgtXJJovVuGFWzSNEnd6p2v^0xUH^@ks#%tUjZ(ziky
zK|%z6EH(MT?#41cm&&YU(h&Hjm_PGjG4|OSNJpGG@#IlP<mEdlsY^P7*+IkX8Uytv
zL0oooklOkpr87T8ax?pR9*E~CHR2*UtmA}Cz}PG33kH&L35F%C<Nrb_NfS<~2z}Lx
zL@FjAnL+}H64GKJ`C3#736D`|(2tLg@_s6FjGQdoq)>IR)yA1k00|*TR!rGF2^1}U
zc!)kbCSlKDI7-&dB;<v^#F9%v!`ut<XMmXeubHKh?1q~0A*ECalA;^KYzom&<yA)Z
zOII4HCV6CELrq^I{N|qn9zZ^+*5uh%Of7dzE%&TtE7n@kT6@=8m#~&C=<Zmn6IRFE
zo>z|~tTi!f`+NCS32#09cNQgzYZA5F6XmT5PgSC1L!!FpVS(9UexNZk)0H3nqGT+X
zyK=|qyXSOYFTYkkA6=@x>)bqRNaPjGm)yy#X0pF^qO&gUY?w8?XD^PGZe4C!u85T!
zirWvzOo#7F;t=z_U$(=JsIekuB)gHNRWtbsrzhs^Sn+Nbz1x?2<Is6^?wT>&x4K?C
zI(u|JFIKZ@=~UdhWyQKvwC;pm##1rt&bal^J5JGhbj5l?w4R8ac`9Z-5x1U$rg&Zv
z$bYti?7UC_-f`O%v+jsn_pMluA}grd(0a)rdXA#&=4<Bp9gEvQej2&!IEnimtZh0C
z(}!{8b9q*rRid+Mp(XBYhp4mOzM}Vtde6Lee(OTuuD;>E$tB5W&!38$e1DafKkJ^$
zgQWH1Q{Vo~&Ce{m-uB0ycv5VAGM;zxukswTo;h%5<9U@2jGEkhwAfXg5~c2c%m1c7
zzM(r-+x>&w<-y;v#hnL8oreZ2g^Uu9b?N+V@7;o9@0=71PRy9@d+Js^tzbP988hzL
zHfw#as_rfCn_ieJov&Tkvp9vzX0;ha{~7Dt1<2VvmfU6}X0Wja$ZV_*wp_O}Huq}m
zb<4N6-`xJa$=`bMJ1@qY_r@%HWBR=edj+lALDD|TT>>PBFs)Q#y(b+h+?9+y``I1D
z1DPq<?k2$!|HOqWVdjTyU9w1yAVFk=;wn2CimbZ88nL1n`fA52S&LRCAB7~SEil6W
zy0k5g+9g#kN1Ya=pi-ex*$=*lm!fs4p#&KPK4OVLH4hhaHEL2u7#&m}$O03(qk6ej
zd`nLaVO5j^6q1O<YFARZzd%d1st6FIThwTeay|uhPvuH0q~&YX5L6+phm8w;YUGIc
z{jv*fRY7P4{jIdl5A_GMFhk()0B~m7WRC|XnB-y#pwfogIVPGZ1Dzt6<s#`wkWR*V
zNk~!xTpt0h4=O$QfQ0=02xgg{$%#th?Y@9-A{?CL##>>joP)9Z6aX{XQ)b(KbwebR
z>nB2^SJI~Nefyt0wkIW$+RG26K1xA-VYfZ@Ie{}5f@lp}JBp@Dg;C1vl_q^?LD>yj
zf0^|1a?4tWQZ~6Fh=Qia3ybv8+^ZJr>b&wWuyvftsicHU8B!rW`kY~E5G1i)#W+y!
z(=ADL3d155dsD~%HP(hi>Lj)Y!>T~nX9N<MmdE!Iz~kTtnBk;G8yTMu4M~_xGbJZP
zi4{RYZww3Z!)^~lX9(*6E+&yp$SOUdEs$Z7@fX;I_b2n9niTe@wUIzFVHD46v=4rX
zoG+6@l+mP3o>6=NHZ+v9ts20j1;*xKQk{JnBAGA8$pKb*1n3J6Ny)Z7e4wJTMyb<M
zDzTlO2c9yqYR3hn;>)50?ff^<tp7;3$KPWVKwH_RDJs8y{Mzv^p8!+XpebrvY!wT)
zOdo&G<+<K+ttDY{yk?)Z$4$ix#cx%<S^0z9-!p&Tj1#B8@MDAH<&nAKxWP+06%LRp
zi)$916Fr?P?wz80=kocuyLb8oh%gH_(bTqL+ANwjFP&d*kDHFHm`KMncKU4GM0Q<r
zoyhDcn?CfQPE+h#@xWqCecaPXbRK=-ioS|ej9{VLUa?}Y5$!c``-Xc~=W8csPsGYv
z;?~v`>qgPKG1k!=x9*`cxB8(58ln&bFcrp(m5G8<BKj^oJGVVv&^cpDSPG_3u=7lv
zSV9A|)@hUBykOTvy6h(tpC(c$IWxwTJme0=?un_$e!vzaq6smuK|oPEtx&rP_eH+k
zaC%uQl3lmJbSLRRy0+jNC6P%^uS0NMO(wCd(_YJ`Y_E2$_Gb7hkis;sCb*EUXXZLZ
zw-a_F%DPzb0wSO(&Mq^=3*`y<mM#`_vsYYjrYWU5mt(E_T++hUcj~@#luD*chdN(_
zhe2rA!ho{{^tkYUL+wmh@nhrZ@730?)OO($rwJ<zQI|2Z^$u9$Pgt=`YF4auqP1=z
zx>CPQtlt*5ZpYI3(3!UZ7-H3oW$xJrTQo4-Z;e@MWBS?$8#HD&L-H9OtU&)~4EHkC
zxIRHOWr}JZ8lh{ReQS_-88BipI+@g6?!aGX(wzCYbFvH~`lDAQk~5#O7UPGwJo`iu
zz8f(xfsZ%iB1WHQPP&Fh$Ik=LRBC+7)@KOcWP&X~L?P%;axKi43t<<Sv&lsOeoO&~
zzDOwoatb3-kWn{C^mj@e79|aZXle{WJp_-E+n=U?f>J8cKe3Qk8-sDc91MMX6DDB<
zx8Qj@h4wH-<1;|CQx|gS?86~}?`7RAmaf0V&*5*9li{{~i(YB{tD01~MG-d$+JBXN
zzedit$yp-jJLG(qoL?vBd*qOI0{<J#2ZyO76V{>jNEh59%nB(KrWl8*cJsf3+=B$|
z&!Rxwbh|VVS|wFcGy4x&0SEEfNNu#1i4Gvj&HlqvB5RZ)4gN#N6#pfELBf=e{~vDh
zS`800-jsahfO2+dX4vesz@wZUHR^W;Nl%Fh0LdVJ2`m^9(^NX_fBT~ig;#Yb{DT4L
z*8Cod_&SXT(Hy1maIRQNMMx$ek28ZYY*nyvo67BM>uKA_{~t&Sc^_~InA#-sFcyGy
zY*MoIf)6_53n)|p0~AP@28P0`2E&Uo*kBxhM>!Z7Q2mI2ni^tRngZW6mq<rSNX3`$
zBm74kEjMXat3b{VF;YLIk$NUQQq_+@&L;(%juHZ!5*ciiWcE)7HvI3R*^Qoc7V33$
zNnz3QAiaL-HA<aOTb~G%mT0N^NK1hECusM7QvhbC#;OXKG%XOKzKtLL_sRK}<oqF=
z0o0#<P!eN5eMsP<gf~t*j2qlHwZD+Eslb3+%i#T{7N6#UsOwOeC<?MH4(>!e1aX)Q
zlIp_Z|20x?z@?fgDotzdS$v|UX`veq>@P`(Ub<cIe59uFe}+OKa7W$c{~V68NmYs_
zsgEfiqwLByRf(47g#&P6`ey0iGp2g8O2UZ{8n#Xq5>6;edgQxz*pQ(|s7pA}m7I->
z)DSH%W_6)7E#b6!^)gYXI1;x~<EfZw&AUeXSFYamG~CN?kD1!<Sz2QH7O4x?OOt_+
ztk|8*hYtDpWvHqJCm`-PHkPcH0`M96Q79owdL7ac%cW^ZlyHFL9p%RX4;z8c!37>}
zo;G9{mn6BZwtYhn$ij!z<M{I##%6j1ZL1{MA%-W@A^4-HQL+nX<g}A18*wVEO^LC|
zj&(K7YqTZJh>*KREFV>-q<MsTo%JxLDH)i+1I*pZ?+|SKwhRkW(imr!=JMXgY|#Uo
z{i)VR(oC(?4sZS#t%Qy`B)N$GhUYZIdNcOgA?%TYN3Lv`Y|d!DtcAFR7A|fqa3QJz
z7xxypV3NXx4mMni`s^SE=AlNE2e(u$l?y8{BXn|QJ&3U*rYtKMuZV&EmKqZhF%HD|
zRP%sQhIp5d2e$yJ(xM)j)QEu=m)e{nrU)_BnY6MGF%Uc%sg>U|zliZ5CN;a6aMpuj
z#Hhdn@{}N^PMKQrBgTuE2Gy8S#5AeJ&<@;K-gf||Q~n*|c{Q|>whf-)mTHJ&23;hW
zfEL3SSC^APF*AtjnpORe#b6~Q%FUAyf`lTIwj@szz?1z01v;GR6)j+%_9mWoM70Au
zSwJ7W!JP%v7Kn04pS)2Z)T`0xk2cZ_i_Z-AU8?#o$oaSA5b6-7X0JZ#r4!z^YBT5G
zMTX6^kADWo3a*+Jj382a&$9_s|ANYuf)=r$W%}3$E=?YN@@&Pr;f{5~JzLFP+lITa
z7To%d>zz|~8=t(NUmDA=kD2P>Ci0sXC&m1(n5iq4-*qqFN1Uj9C;bNls;E3sSW3*O
z$_{dis#aj&tElO5p2qzT%kzn6m7iz+0DQ2G?^=uRS#h(q&*|n4&iBU}_unQ4ht14L
zMCpdy%io-^m!_(Iv?A7+hxsNd*#vG_p~lg5H@|7IC!W9QZ#5+j^Sj>q2RZotQNHs*
zE`A};>u^0VlFy{^);-80pIPIscwix)Ra0F3z(zj1rs;t8K|Z_>97woQ(s`$(^MRAz
zU7FJR6>rxaZ`XqYdN0(JHLR3&-zn{WP(<(U%)5u)i!<p<=-sQSY+k9@b*Ez2gHpVI
zP^R&9J}4(&1yx^3X?z-YHAeMLQPYDedausB*U)>d1{3S5z2m~wp5E&+@AdTFkV)T2
z?@gKaW_oYYlx$cj-gu{Y<AYXuZ_{9K3mfhfHauvj_l=qN4tm#=<fZIST23E6cGll_
z!hihiF_`HL;#O}txIYt=%Oj{WX+4Fo&Qv=7Zve>ysk<+{AnD_e9shrarHbR<2xVeZ
z7}618Z24iUkRLV+j<88^h7E!%tQQLKIhjIO=mDrpPlg2dd2NPlB_I51!p_kWNQ7u6
zwNbB7!gmN>PDjK$Xd6N)DuX6K|3sre14`6bJ#sDb5xGy39TF`K={Q}qRLD_d0m-RB
z^i!flsh-KPY0{!n{z;WpB<Elv;<@r0WR+AUogj^p8b!{SuEV6rrBh`$t(QxqCJ3D|
z-!ei-X4a#KRY43Cu`0;HV9xWhVPADNTiUcuv<%~*GR|BkMY;MsacOy{XocYASJo}3
zGEy#gQ65h<BxR&ZPL=tU(@USci25Qma@?mclQT}CFsWq0CQIBztH6d+L0Tl`(r9(Y
zJd7I30m&#EK5<fY%lx)pYU#7MaYbvQwb2dHx@f&nrzYnl_mY#;@lRyX*AXJ$WIaNe
zP(28f10!u&5qL$Yir_uu$Y@u=15~<9`nX!OUeS|{QmoQNPs(pu<xzPSy^(t%l=6S0
z$V+#%tOrPUtx%7TkJa3=$s+wxjUtbVY!XA%Ra-A?;534pNkyfQ@@NC(;~ca~dAFj}
z?yP3uRcMe`b+j?G54oI=<l3@Mu14f?J(6qNI=SqMJ-L8vohhXy6>U}<iAFF#)))zl
zt7p|nG%3p3q0*+Nk=-hxfPst@rI2&0P@d;#^PD#Ho5F^X-bZuEP#UdM)cHwff6t?3
zKW6spQnOzqU&;Ql&p!6d-%_mbeJZ1oTBBD#@j8zx;X-Y^*M_k=p%xcRkI;0>Ei<N~
zO+t;NY#(hAia8CFMQm0;!6$}1p;&0S<&pPFttRxsKS-%9w~FN*FWMaHQ<V9!$AYc5
z4D2b#^%M76x!%}#(oUwk+I*VK;+OPIRh%Ts5;O5dmZgTn%=lAUF!I1Eq8aV%BnkTA
zvv7`Tw1hWmp2G<iB~0g0;L>3J0CT|b^2xS@8bJvu(4t?`Uf049S)CrH%6>HmrpR=R
z<JbpnUuIgE152F?rVN)%@UYP|I!da*y0(o;ZA8)pP7z=8b_@kWppo;trW#k>(ip{_
z2<8f1U^(gU(&ddLeE(0<k&U&zBnG0fXP;ZV^zG=)=<+48{fRs6=Wd_;;b(vUv$3bn
ziTlsR+s`4%-!pp_pKof>{-l8TlRhTn00Uc+me@~xhm@A$ePfekSqw(T#xdeUljD<N
zNiOxbQSnczPeT}n3&QXj%zGgnluCmkGV7Jj)**>s=p`YDzeJ{FKKs~FT8Wl}U1kU%
zNE`zC$onq>&%{_VsR_yeWmKXIz}hxGBo7G{$Zp7f+^WNp(ux_O6p1uR-I=~dBk8YA
zOh%H1)Q2Rjl8shBGf|mzOS*A>x}eLviJ^%}{;yFt|0`6R0op21o8#Z2kiUeJ%nM&0
z9vYn-4-8KgE5&d#Ov!CNwEJ%;t;G42ss`zU!uSW|d_b|TM{Cd2%zua^;7PB}!;?gl
zl!)S48`=E`<aU<wKT{}On0OK<hrCNBlm*oA)0Ben!=w!&A|XE+C&u?40{s6&Vfs-R
zGvhx`X^0!1w2@7e%$)xY!X%lR_sQp{BoKfZ4@5e;VG%v$<FTxuPn@y|$|M1kdPqWD
zWJ>1zFiKAvhF=(@Pgr;*(_kr+$BaP2gme7C2}$*c=u(m(j%SUelE5M6k0e;6=`NzA
zmpi)Y^A?h@E@;TlLqrFBWIrXtCq^LIi_2#E&6%FpbPy{g1u%S&n*`?)TG33LIhivs
zF_~1YW{iIh9c*k}n_~7qn2g1y|G%(7CjF}5MA9-2(J~O-X(!@;NCQeMimCM{oy@-U
zDxP>=YH1Eb1e+~Ncr3CVbnLhM|4s1mU7BQBnv<D1^keO0h0rLG!F3vQ3EUyj6iMmG
z`#Y2`oywO@$pRR&1Fv4LmN79&sh&*($y<k8(SX$yu65oR0gV4+YCJjfv~%|0;sH(V
zEg*Yci{7+<zwJ*By=!t@+kfNin-{**a1V0KC0pb6Z86if_X_Ldg^eqP^lhW*;|ZH*
zJ`%IlOdlXEZ+z>ge4*&t)jOV-Zfz3VUb-6y#s<SHgHz(*RD4jl8;Hi+UWzxrG;6u<
zF2(1&EuIxinP@4CTPhYB-fDfb^_Sc4SUO_*L$OVV;&3e;2~te0!?(HaS{h>dW3i@V
zak!R-1T4;No!vTj>gRXP_ujFTL+&<Kxi=2ig3k&)E)L~Yh?a_bCfjSaS(~KV`pw{5
zp*KSha&$F@4>UUBcj_P%#e61>t1=~$ELn3-xC+@9=&QcmG<}qj0?S1!Y1mqQ)BAs9
zw88qw8wYP3T<HDUkr=*aUg-OB-%4RSzQwds*d-Qr#S6P*TaSo^NAQU(SJ795FTb?n
zfudgLil;~P^u#?|@vVB#&RFj$(G9~XgK^goK5_4^S#dXtZYbx8?v@z~YzWv2R;;a}
zwUy|I#Z8H_4fqHZbZu?s4{U}!GZS-xu#5D+gfxN6RxFjGr7~{8XQ1v_>PUo|)O($!
z^Ph=18WWz{6;HG1X--%5(5Nr8KhWrHb_j=+)GVA8i<@R_(Bq|=n_#br)m-y1HwSfE
za#z>M3>myvT(MHzE*7^F-P42rwF##iv`(1iD>0)em&Q}R;_ejPoe38t&x#Typb)l*
zB`t}XO$kqF!daXs@PIDqG2=5&u!apgWp^x<_q;wyM|kmK+`Db|C;?#i9b1)J`1U)t
zIu_oE@3k#$k9&8|9(~VM7OU)8HZKXW@_ljF{+M+?#Cb9;DSxCTP#;jV1mB>j+^|xy
zO|00KaFwsPszq1z!nVc9rSoyu)<khF2Bgw_$5e_@D{EOPZ5K=1<E0(2k+|M)I24Uo
zJsg$o|5JzKM;7NjZ{-`!H<}4Lf@IemAOb423W${2XO03UN~>19-J-V}p9@QPO47#G
zX(CITsqsZ+_zKuVXC9>|TJDBL9SpI}98KgG%@@A<5^O}SI9fzUOTxQh1qRx@O^e%>
zCLtB+?M?Vv5~WbtsQtUVT$qluYwBB9>h_3rd(@Mb)B<qpU817~Ngv-VYEvoTi}k^+
zscBrP-X&J=LLXM#b)vftmiRX>SI6Bu6J-sU)f#)uS_usWe5#}H^Diaxt7E2W$YYw^
z65BjQGQnP~A)9~_VRjTALa^7jy&-5<rO{I{s~-?!NQIP;f9(|={2<=J2Q%zkF7p|#
z7#mH2ZP?MxbO0O-MwqNO<2w&eF{{5!kQkP6!!U3Qw3JNVu8IcE1LL<tSA3A09ZHE1
zp9}i9@lbulcOmdREaXZVQU<8VxNPJCZX6S^6C3e`$9<P!dNzpCAs&5soWF>=21rgp
zmPhV|2snMDOlk-a<vz#<Ly9~QqFc-A#-La}cxiGNXB|-PfdCG1YBB2^LvQG+GZ{*C
zfO^EEjbWsPrQS^F1V4-jv<LEPr2WhCKYFc@<fW7Ommw%OIML+~NWaNk_PUFvG+DSh
zvfCfrG}f6ckwT@nRK8S{nKDcMwMyt5+oUJ~Z<!J(N-hEZKA^FLZYFIEzue*vc8zTs
z43Ul9$QCHRXC!4vK1TX1g)GnFVMdiCLrN0oO+x*7`iR%_Ae4m<qGTWd#Xtb=<rl8x
zSBnh7-_3*NmcrMjW~XqNCGy-cZ}XkJW_$>d`A>*>CldLktNfOHX+bDC738M{^5G)b
zaaa%*z7;epv@-k2a3nY#>4f6Osg^3OOH9il{HHMLk|WcbK(V*J92Tsc9*bh#TGlHc
ztpH-gYPpVDlzagzXFv@b*Xzf+H82fL7+6JbSv>=*>&ftCAR=I0O&R>Ob+h`KQJ;Ce
zlIY6|>-7X}Q*v2y)MieeC2(z2=2ebm?IKe>RyhQ-s%q&;j%QpOoBYPOHYw__62iE&
ziFRotWx4VdxzufPtd~pG=uU*VbL>$Qgiyp1gF5R`#Ht84tm4|Jj3VcFI~59Uo$C6L
zd(7<2d84J^?&#F!BeNQ#<>33-X<lG@*c*ju-F4DeMADoEH5(w&N`;tAiBOrQDEky2
z27obPnESC}=1o}xgx6cnG_Rm4QYyzY*<tG~SDKzzo#Fhbagidvbk4_)l=}F{;|ShG
zmEgWrAd417v8xI-f-gM}wF(u2YPrVDFL*!|w9iB~$YDaMP%e)NGa0H;6J}XsWD3*0
z-@v#bsnUf~D#@!+)vreyp){SZZdJbWb@G*`^VNT}ehQ`1?#}p9b#k9Gzw7p^K|RIe
z*A0VSXM_kT>`@aO0^cXHZrLg;_K~tx(xB`E>y}M&G+EChWviq?*~Jke1h5A}R;p`e
z_35FQt2Q}j<~Jkd4SK$HPW!R}HYn4azY!Hqjv`itPo;=e;k;cSWOh?zt6V<>_8jVc
zNW+>IwlN)w96D$TsP;OYLx&vB&^K1~LxnTP#=9r7Q`r^>r>T~m;YLKI_GEIQJs%;L
z)TXCbwP}}JbLLmIO~s$6P3z~9+GKwm<`L<Y+a_T5CftS75`SFY@%CxvbkBVTT!m(#
zS>l;1_WNcjZHkv(BJXq2R`827LW|Jq)kNEbHnkH*-f@|-Ry)qE_7rC~2i%D!T#?#^
z%8O_X-zGF8W*>Zw0`UafQD&XcK)&_PE@`&|->^QFub%DZ?Q-9uwcvJ3t=tH;Gs)Kx
z*_$4bHfX9;gR}3xRU)5Jti7GlO_BZSR2#uL^AciAA3T<MTI@vbif)c}M+hNjkI;$L
zP$z7{if{=X!bYJ>*erBIJ-Pz?-9~oe(K(6w1kbI~w^K4A7!Lzi#^9zQa#${F<cRFc
z{0a?_Ga#yX)&ss?sXRCGuT}$&FBG%6a#nJ^qU2*)+41`EN)G)c%B^^$+`dm;?zaU)
z<Vm>{R(@UNwERADM)qZXKf-v(7*<1Q8l^ua=Y6E~r{$Q;@5d_rBuej>^Rm*nD)wz+
z;$=OGo_#he3a=l%?liPFgz^<9OC|dXoA2vs3saCB%RqhuG_=$pzbCpy0na^<Sg04a
zV81R<!n2h=k&zA2#Y%`)^!#&=_6@7FURBDbe&qb4segfLYm!#)tt$D90DSAd_*p&M
zOB$>DBrQpTz^Ous5h#6YNM;Z2qDw7bOdC!)IbJwZg%YhkD<xtyd<7*cCFcaab_0s0
zyh`rbDn-4WQ$=c(`lj^0s+~UmKOi^%V{(rFf5lyUOk7ubzjt65=FL2Tfnj*R!N%A)
z_L9W-iC-jstv8N0ECKA05S(0a*0H>eEkz16s*I&d#@a~1)k-0|ZA02^<L%Q`t8V_O
zI@fH=WY%twHY-)?KNn*++phZf{mz-Uf%Rr9^$PBM-*?{UJLlYU&UeoDF|vOp#8e<5
z6k7qkq;eFI_hlLgRl@_WYWyi-N*1$IPnq1rb@T0&RKza#E-1ql8!8ETp<Qf1BoOHf
z`x8j_`;7Mw_^M|iW6Y9BixUD!@w(`g-ls_C@CF@(&rb-Y#EjYlX0j@?iuPh3Xy`C3
zMP*7F<7zvEjYr@a7U9oNG;NY%J73?qiT$_^h+B_iFzO_A@%#sKwTc8!`%gOjk}shW
zs8px~N~;6f)qA4vVE?iGr}jwsot-)5{t2#=QRfiU@!;~~YXjQE$iS%3+AJhs+7-t5
zZ}j{MA)aoN(#O9d8X_uM5F3wdMm)$Tn+d-UvekTxP%&Rz5=txVe?cgZ!SeYs^A$&=
zadoe(!n;g?;#%!rNG`x-{Q+$lLP$vbq*#$c$fj*;%jnXl+BqPs%Ddn6HkOpcEwd~g
zd_CZcb0DGpwEq>#<l?rB+W&jHITD*$LV_)to3z}RAdAa6e?pIz!2w)*?SLc=`((q~
ztHVPy@YOG=s}WcAxk<F$xCf0ZM;2!ueChnyD{=RW!_b!mjgCMdx4$6e_-WKTcwW<T
zg1Qru?_{{RQ+P`1L4b)Xh7qU~o{z_Uudfo1b)e&Qd09wEBeg$f4Zg*~`(J;w(3|4c
zflUej<D7AGxA-ePQjqu~HVnS5V#{UxzwnZR#Gp_DTcx{c*wkG+r|RyexuYMQ{P5)b
zksqA8<Az<<XQJDlS-{)9m0O6=o@6h9$SG`FR`MM-NKpJ$i?GJ(tD7BI@HNiu{Ak~Y
z`{sLoaNw5b!@fJd?NP_kXg5?M9gX_7L&>F~K=QJz<hgkKJv(G7)mv2`zHnRBTYK*K
zdLZ9(x?)B3(0}Q4MSVRmTjHyaHtxLr<n0a7`lAcpV^PPkB`UH_m%&8iTJ!1;Y<Jw7
z5FS!5S51~)-Du7BTeY{ezy9`*zJ2@kKficuH0n5r1gy3w0#HHi|C_+`ds{wu^5&C2
ztox+x<F>yG{I~+98LFSv?axN@pN-m|UCOap8-qFXvr}i^9l5fP+JGlvw^o=<pH|<s
z!R)T3bmr(C=!*zf(3);h$#v&7Cq$q{l~PGmaM80tr+%orh4#q<Gq#1on#(<3_!@D$
zAy!<+zhDinBrLkBbQk4;LZ7f-@$vctoq{!x;`j<KQ?^uGxfpEFgAI2Jai>+};a%t(
zP5~ZXh4x1tI4#8mm!HA?3|DyO$bvI+c`x{ho$FVoUZD=-{Zmeu59^tE{kvA&?N6yE
zPG`cB?=HB!5AvO|>S*<r*`7J;&BOCOdhM2Is4J<H>(-l}RxN}MK{YX?t&iagg2l2*
zAxMMGisz=nP?B}zMnSYNGUr@u?A9B*Zy#RVeNx|j5|=j0paQuVEu=88XbI_-(0jx0
zkKGu%V`;rxTzVbalBXQ#B8%2?-CF)V^9RnG&O6pNI$gYWaa|{&f^5tDtBYOx^{)NV
zEeE2d2Nzt2qJ>o8TnY&-O})*97fPTqIk05$>y}Ek)6%<8wcu#d9Zdpg*B$LCz_28{
zDA?nT%xJSuP&f1ry=}*Wr)P2}#A=hhcRdxWIZXAUr@r^<V#OZ4V$U7t9(aotd8d2l
zns2u)?mVIIJb}9Kx+Zr*ze-8Dh-Mx4|LfSk@YdxH0AF~5Gq%~6^^%Qf4aHj)JzbOL
zC5LDFfbOWc3#&$f8PB!SnV0pV#<}JN#}=q}2{lZ*QH2#Pb5GxTG8%@`w@@s+VKKZ}
z4{u%wcj<+pN%xFr$sU>+fIK_q@EBP2IdFoZ+;|Q^+03as_J+AV^F80+kLFm@746zP
z|5mhmAH<Kb>MgON&C?rZdp|gg=2^7>)fV2(Jhvc(lLgtnKMT~(_AdmsOzvGOsho|>
zhodD=PvU$+<6PucI9k4s#}k@%#$1&#e>wHzRd(Qw-q;NF7xmG?vYF=|6e&B@<0^D#
z%yiAR>yTr2;))T*vmGk@bVI5=(;ThuropGm7_#SZiFY98@S|KYM>s?426Xc^#vE|+
z^7<40a4MjziGLLvn7S|Yu&o%^k8qnhA?bIx7airg1C|Ci#_G2%)<31!KXpsH-LX)=
z=il>G=RS2QDf?f?=fjjwo(A}WKC5&Gdv9)>(kI%TtK>a#a-h2AgZi8G(WdUjrXIbi
z=XUk&frX~th3fsVH;!WmkLRiTj<exzb;Ad(H(P)I^^e~8@D1oKU+n7ByZS!WqQ{Oe
zbe&k(@b!i2lZaCsP1tcebldT1Pc+=O;C%+#{Jv=36?0YPaHs{fk6UKtGb7*-s~&&r
zR((-x)X_@4K)<5)A8b;ruB+B5Yt-8u_0}zVn{@!KPcOFa(OdUKy?bN9;#ja@&V9=n
z4etHYY_j&M#@Rf@yVV#=G-4_J!?YsxR3xAk?t;7n`QNZ|3cF>eAkH4nJ7bzuV6n#Z
zw&PU(uz4tNxM0|_+Rp6i)H5c|kk7#A)!QlA(<v)rfeN1?^V|8S><PF4umiAVwM(+_
zYk@n=7Y@6JtoXO#-;RF={+;-DAzWpuJSkwveG#)Ak>>*VDw4TD308&A2<^gWiiSK$
z%QNI1_O7<4Kjd43?q7o*Sc4v1gI>G_y=2%g%3HdIyDV#HUDvX8UCY;S4X;68zt$_j
z<BFjO>M}5i^U0@zxT0GbcOKV9CeDrRxq!2*6XV)XFfAQKt4lpxu=9VV7B6A5DCIPT
zdlbI|2}xSz9?UK$4565yH~u`LjKkpV$k@n4e?PR7=R?cg8IeTX+TTAYF7Edy<nEW{
z-1q>}z8K8PQ+qOoIY_m}DJ8>sWsab(DT|H)wfvt7>qQ^ZZow_<@HPt~GXF9FXo|pF
zKC2zeUhVqcuOEV%uoAXl;-*($iI*gn-+OwXWcLkmsAR7=8XPY?Hi6TPIO+j?{0EWK
zaa4U$F@-n1R;S*3oFpE<SeacbkNWsS)=w)ULG?hDDF*Ha-O(TwnB8@_GEu{v$NQCe
ziTjmVmBtzpm6i|SI!>o+x42;WIWX-=PCh+}Q}a0N%XJ)1i(HIkXY&ycpCFejXf?<s
zO!vyck0sB19yfVkDt37ao4V;PR;`hNw3k0a7PJ#6%A={LT1*i6$<!^9+(=JwS7SST
zq&gzv>?tkV%H^jx5u7-BN-awl+p_caE4=?D8OmJ~C?0XwFSr|{g^jYMb44!~|6KP=
z9m(Qaw;ctDdlN-Xtd@CFyRUr^k)<A-V3j=nIslw6fhnByjVd0SqJ#q0qgWky&cG~V
zuAeMd7_qs8FB4Q~2&EOmq>QOg=#$3o*%j~?iVWGvwRLl@onrQFJO~9FNrS^38So}?
zJbiV=ghi<k(yH9}#ft2T&UL@dn%#+#;pVzuDK44uzc)VHF{j?_n(O%PZ$$&`lQw*~
zC3SY-yKhDVO`v#v(?_O*lLfSPdSI>~Ds+}ehKRG%yl1egs)O&d0}0JoyI2Q51RA%e
z^3>6(eUoHv7!78gU!as;bcNr8b7o@{>ieXU5X&Vuq*`##eO4RJ*6_*Jkn^nJGqVjP
zLagD_mJ=b+HGHljon6D{Dl%fx-c~PvW=*c2SN7$cXN?^AbG!jv!zag&oM#Q6+`P<r
z*6_)#&zxrspXE8;fUe;)IoHexu!hgd3@-@~Uw%#}@ua`}9(hon6N$BVKgCA(NA&WT
zTH;{sUJM_P(a+NAEmECL>u3KGos1)l=xOVio;M5SfERt)V~8OBBL@x}GLCO-tzwPL
zd?yxxN(%h7#3Bu`NK-8GwOFKPF|tvQY+Q^ysYjm7K%dehPi3G_>yf9|Msqyx)+4*A
z`+`ZN;@_r6wylkJ>5;As*Bo^Hu-$s3J0t89dgO^m(7J~mCDsNp05%nKrU%<I!~Okn
zTR+TD4xJw*?C9t5$x-Q|aa7Pa$BP%frk&%I^Ub(<;yeTnS|1tn3|~k2dWVhUIH8kx
z#eK)my>{^A@W|PhCVIw(j*8nH+H-XF!(-ep=dZ_k4`}>w@@CQtbQdQ;3yy<+PJ`y&
z2~8VdgwDhSbZ~fd6q8d`I|Qnjg6)tq(R~ce*9T<zKOmJ~ysa3fd~?H6u<4;0zu0dr
za2ciovu(-hn$)DVzPX)?t^4%WeNp#5-P(KK4A+&sq(7rbHT!2buPFF23J4!h!A<kt
z#g2V?$39Y;i~^^5<C5KFnDL7xw!>{$2w|tmZCDA}6t~x~6M{+FO2bLWrIbeuH=!b!
zsa-7Z)XO{PhxGF8hKEENqMbZHeQc&?`WsVk&6;Ni=Q?L!y6K(|%#YvNHGkpbNYuSU
zxAv^~=)0mBMTK&E$2Esx2Fwkn@bydAE*TbLg^JUA_0ZHI!%7VEO^MlwVH2|a`slS$
z!%57g;O+#}{Tgm!MM|K=@DTDc-#$WqB@nuP=-Q!KT=-}(0we`tB=>svweHzk-B)iE
zlT?z3XV$NK>x@#8LQ1gg`sr(@jWS~8iD-;4v5K53h>%#RG_-tK1xS9j$=|pOR~Ru#
zOWx$mTK=RaN=MOhGe5zreR3bw1(sIvkv<-TL6aYKJjs<pzG(dMKys;Yn4M=pJ2<S3
z4UcLb_!JEh0y{CPj<TiVUr8QTE)l(L0Fn=}mP^~$)6T)$FWG(@;T=O38j@?#UZdM<
z?iRvs72bjAQT#$H=87es_jsV(SaxVrU!PpZsCyx(WODMwQzqJX@an_e!BxmjJ|Rlm
z%cpOz5ViKDo+fX~@lm%zDTGUg*}J#NpYr`^RDDhUg#Xo3`t7)-zklf5V1K{XhHPqH
z=G%f-+&y@1bW~cl8*d+YaZn>W;swwdj`fR{&ytEk1NU2@9k6|D3?^@-iIjoSxM^%G
z4jY0=T-$)S<5poVcX;fLaVZJyd>r$+G_OlG_d|6j_#AfuA09<39EMUmj8z5F-Y$iu
z5a80Vukex)L^hjzCZ=&kCGD}gMdJMfBeaQvtCG_0qFqp-jQuQZvtbiPi8rs4$rpuz
z(vh(@2DA~}l@``k;w|e0Nae9z$`hqBEHT`30TbW&cwrOT{7_bn(?X#jE57Nm!lqOM
zvZm6?x8mC#D>TCN!`9i^v7{zJURUG{GQQ=p!sCKA1liC~%gcuh%U&D*+GB;ykXL3b
z7&RYbSdU5RIzK-#GCHnta;i}^pT^0jkbSRP`oxtFu_w_kqG*>_Ib?L4mwuJ-UHvjV
zXNK|Z>(sz1=_ihJ$Ot&yjhC(#fpq8cDDD#OQ1Uv#eUfo$TV7ZdZcmJc(z7^4z{zgh
zFG2`vd#cfBRM{2}W;jVboHB4F9JMO?C=x#U2XU?a+^g(e@p4{BhLl`uhq0t#7;hdN
zPK_5(oSPyh4n5EopZ4DzhGaevme+m6W$EDy6IwNss!1mWU79Gzi|26~LtKy6UgTg_
z#0c_U9+}X(>D7u(H$H(?zoz{z!+*%v2tA5vl$avr!xF%R#?O|#i2VyhAx=eL<P(!4
zEyhp=U;l$w+&ZeAmr{SNl79b|F1Pu5is%`}bb!zazMkWY`$)pTA`TIpd-b&uXv7YV
zbK`^7L<QcTuuCZIFkPkpX}+i!U+OTYR%fBgIG%TW;B35vx1(T}VB`YEKvu=ja6e29
zU=aH;JyNx7S{bR-rS}<W;#h~fA02A!9PR+K+VLe2=R0_`LoQNkSO!Ys<B{aI_gS2H
zKxNDM<oJm(%u$Jp4{*Fde3>y^GaSFIa#xIJSjD6<Uf3-L_2H+qn{Y+MP_ckBC`O*D
zs`m>Nwen|5(N7ioPZjGurS_f@{F&nTT!}=L$j_CM&y^kjtn9d_)Z9~=@qTDBsirRr
z@>LUr`+#hDcopLHun-Op3zDxd3(Tr%MZxQ#LxJq+o^tG-a{QjM>z>l`xzcz~+4{M1
z;+|6RxzZL@+CEoy-&2}Cv-+pMv0$yZT!2ZPsqmf9mC&-ONZo*$s>xvxf^IiSH%!BM
zKyl5<_Rgg%myA+@hLUKRKw$_Tl2uOlc0ob`@4HpS;}bK-J(AF?D!zc21n!pvw44Ot
zpd=hh5e`cNOaLc*JR=FustSbcr>9OEM<n5>s+5GpjP#f!99J>Fx!OI|ZJdyVuczWT
zDGA?Du`w#9t<OoqDOCv+bM9$8FA1lUg!|tVghZW)Vm)g~)ye>iiBctUv|kkjlqx|u
zC<&Q`5I#_dM5&HQA1FkEa7+?Vhy>w;B%lz9NKZ-v3Xv%HbCQ5UB+C7~B%lz9IKC+f
zFQf?llJG56@dr7<HU=c&#bmjSK}mpJf<!9Ak^ozBZqL=xsnPpq1tC#0qF9(x)HTJb
z>zCVl@>E;Q;t-7`kH}I2F%v<1D|8Asi$Dt%myax+*{wS(4XdEpvS@Zeb13$rtF2S5
zGk)C`Hk^W%Tvy2TfLqXtc!U92G&};um1(&U@d?zgzzP}HGXa4Hm2ma@hi)7)iUnE%
z0lHBtzz~;NWdbZ$oStdl^x$;KRG$$RqzYDU<F!U3BG5|3S8P-Xuv+n#7&QW{RRX0(
zodD|zHVCkhX*3D2S@8y^2O$eT4)b6}i=ee8mQgdCA>K4ZT|!G@fo)}jaPCd^R>M@I
z7R0bT%){>z`rez@-ZadBxkw8M%tEYC@%RlZAsaiS^_tbN6LXO6B;->3#fF<uQL@W=
zh<TCfeIK9%mq|OM)~enZ)@AH2d4QL&uwxT414hc;fMFq2s1%0`D<NBA6=&FqVZCgB
z=k%4+D^6l)_`T{Obve(j_Ny_A&5!_AwGt?+nDyV-o<KG~am)Ad{@eNb=G~IAWG-AW
zGbGk|Ci|l5*Hu4~D~rTJ70dP~)gloiewPrl8NbLMP9ONEwi^~=Xn3CK%~PigD={=V
zi7_PeX`8H>9G`5w^1}3xZVugdg3O8t7$$nyVd_zlbsEo0wv0SMSps*>0zz`A1dD{R
zRxU#0W*8&|*e+q51__`s3%ZLeaZ4Di@S_C_x>xZ9S9}ugH5G#G!BQiSzYWducU!mo
z-L-dxbg1d9Yg%^iRlzIPDgjXm1dy#lyI~O^&d%5ks{m~Z+LB#>j$}1C1?tLbr6N|e
zlyv>9c!W1>wIESv7-_nE)4OJT)4fyYj6C2=8Mqm^;Dccy#LW!B5i2p=6t^38La3IE
zp20}bOf!;nld?lCQtM;VkdToFcqsv!0V5F{Bx=3UYFLQjc$?TvFs#I2G%sk_39&&=
zZs7-G#utTR4Rd(KNqQrUuP^7BRj8aTG5EV=c1{jXZ<z_aUw)%}c05|ztovG`t`^<g
zx?+YqHX<5Zm+cYtiCCgb<N;1~55UL~s@OsZ8Zv^0m5_})8ZFmaX7hFERAunYEXl;q
ze{kvMrKr7AH*a2X(#LMqr}nC;bcm!9B7&4EYTiG6<FsKBXdx4}3XmmVu?w(WF}W`X
z-U(m9krUW=fn~@}-O>4(qbb_FeX;q7-h2e-1aYX$WWw%DxPr$RN~&Tt^|8*a%f2J3
zx;vc%fu*t_utaGkEXyll8+(Oa!g3IjFvjwr;g)a_YTxik*qbQJ+-^O*(U1uvLn*e2
zI*QusbaVavfC#c;XP#{WemG=O)B~)MWMQW#qIFvq>kjF4hkl|SMs1UAy{hU*vlZWs
zJR(rGB4#sYA{q55&_ZPI{q7sx299!wF(-?Mf|eZU?mLNc;OJ8glW@ZHJ)<_4eJyHT
zij{y<)d)CIiG*Yo60#+kYbS<{wvgc@B!>?|MXX8>AulVEDXdXrD*?K_gvnbt*3=#=
zt%!vpv9e13Ro2ETYGM_YvHIp%Z6p7x>i8#NylWcpx7@KA<5052173oX7{?U$3jrhh
zI2uFDLJWsR<u0I=7<Mn^ciK)&wgf^hrKZ7f6GAbH4G$qNKdL@L*e5JC0)&EuiV2nA
z12*How%sTt7UK7{j8M5!T5g01RV2RpGZWBqVMIu(OeBwQudB+aBB?ryR6|lN>{N)s
zp%(gYj5?C)vq%jjHD(2DBB?ox)Iw5g)|l2tQhU}sX9Gzavq-F69Ph&Czmw3#--J;i
zwI#(Uz$r!n&R`U=G^2>68AVJoijZU!A;~C0l2L>tqX<bx5lS<Pm}C?o$tXfOj3OzA
zQ6%LsiliJyk(9$Il5!YDQVyd?%3%~qIgBDHhfySfQF3<E32b@0qQZ!34b5hGtD>Ij
zn5%IaGmx6utv|81(A=yYAI7UAQzMJ6jk;@N)Vb-Q$EKQ)@2}n&J2N^X;1rJmXYiO<
zn#aV_JSHZ2Oi1#WkmNBT$zwv2$Al!038i^VO!AnJ<T0Tf9+Q;AW0G=sOi~VyNy_0d
zNjW?wDTl`-<?xuK93GRD!()=tJSKKQbjYtTY;Gvc=#79=oC2J|DPn0(5leH5nB){8
zd_FOYCsf42(nHA0A<{=ka*7b7Dsr$aCMFj=ghCuF%LtWc4VGb&DzZki2uV3CBdI!T
zWUL`6hh-$yXT{Y(QVz>V%2^tb)S5Liwvm*>GLkkX`(OvK<tIcRtc}6UwX5k@^**;1
zy{|-7TjuLNY5lkrQaHp{sH&~=TR!RjxSM#Zf&G`ZIX@0gscrL(w>oc|f9&`hNAzol
z^i79XNJRAoLa|^uKd18JxuG*wUKQKCZMp1u6$|6!w~|PT>qIixF3>dJ1)65OKpl$9
zYd8fcKl}nL;>Xh?Krb2U6JT=DD?fh$K?~yM#vCS{twyoHOO#;9C>3BxY2Rds%%U)f
z5iLxY<x3{T-#k~p;On?-pFFmpbbRJ(%0l6~b-~|x*)ch|pmd@E{<=e1LyMeOa3i7f
z`8*YeoaF*Dk4U<{fMnJe(Tw^cno(awWlv!wi9t<(a#Rzb9M%LVdy4?&z$U=-$R<!Z
zv<Xm-Z34_0+ypJBs|Z@o@Fr+Eokh@c1~@^>=`MnnGsFoR#<=3^<=4uww(!&%ZGx85
zV+1W{loPZ~S=$hT6UOFbW7s0RTq+1+jg5s&9)6cF`k3(xrX<D}3$a2j+V;?*x^6C>
zsp0a<N;=HKCOgSj7(6>q<YQr$Y#2mR4TDHV!w_h?VF)zcFa#<)k^p5#5}@oz0>tvW
z*zgI^&!IISK-n+^Si)hpRDhvm>B|IK&beq<fEDbH5dl_a4X{;$meU>ttu||<tP`}H
z_8@4DS>tY#pyjj&L2J#5uT9X}vnHh*1TCjM2->Es!B;RKqdm~egVzd=s%pdZ&P9LM
z9e>vYg_r?p!x8laws<U<nLuVQez$gia^d3(pS<-)Z++_5w;mS6C9`GG9KK@?KQP0q
H5J3Mgp);BS

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/fused_moe_method_base.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/fused_moe_method_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..79a778813b9312eb48b99ac662a77a92c2a04f76
GIT binary patch
literal 5436
zcmb7I-ESMm5#QsN_$ks7DajNiojz=tvL&UCT-&jmI3Jc9TOrcaMGd|jj=ZIG(H)Q7
zJKB<<CPHAK7TUt~Lm?YQk@zV#Tp;-~3iQQ7T7)<>fQz6HdAnFK67;2=**nsdO{vKl
z8qUtn?(ELa{C3uVOC+KMJ}vNDbtgf{m)K~2L66z_0GKVJ5Jk|4E))d;d7tLf{Y5|L
z{aT<H09il_>Y-wY%Ys^$9xjIUNHN0OAuX!MiZMN2jPrJvme9M4-2(9u8luSuf@`gq
z@{tQf3125lgmyphd(s1|{(ST+Y~%&ITP~RvlgpM)ttCSNN%(bH)8vvy3($zERn?L-
zV{wtPywC2QubWhP%Q*kKQLU(pc5k!&v$|ZhTp_59G{tXIrq?Zcex*j4W&WZHKiIaj
zEd@qvGNZ3nm3g%)Yw8*Wqdj~!;NRkFdQCQI*<HI!XT8SGOR%NifIBHE3JNLu6oL9H
zz8j<>D8B3QVt@t}KMlRx-9Fgm-%UL)Qvx)i1mQ0Pe_b#x{k%>k3hoR%@H&byaBRHd
zQ=-=c#RNK8iLG@J0+KjLl1c(3KV$_FnyQ49ZWw#u2d+Irdpz3#CE2#ZUYdq=b=*s9
zt*JKs4A;j!9cYvGwWK|5(ta9@kp2EClRs$py|B&~p7*(u-b0>&bLyjUr62wVfaktf
z4z{=~aD#h{b#-&}pf_rWW|d(&sEq8ZFM_2}&>Vx`@qINX_U%2iZ!ex#2S3o<9`cUb
z72iQ{C6C4_<?!`jD`tmokQJdg{Bx2&V)r!j@M)&me%+vDU)wPtZs6a}%Rv4pY!R!~
zx#?RczXxn<PA-sjVVy{=(F%bUj^*Dfxi1v*0Xt~c0SN4{Byn_+7@#GwQ(#y672=3g
z=IE05+X0hm6}LMgNo7qoO-V9wLQ&lKk34JXwb`0lo3>=ONUiCW`pMI$mQT`IO)bsV
zRsqnevsX1upVbY8Y7$+c<+^3CSxsK0%$%(tm`PyvDJQuwD3t(nW@@YK0GL`EeBMhl
z&9!Gi!5jke-3Iw*II-Ea9Ul05INKOMd?WC?aO3Q`8-ag>hju`L*g<aBj#cYAtc63O
z9a~Zrg;pgK;LaXVs}>+6RaDucTqJ>(1PE!VmTFY(IIyyAN{Y2wqva6J>U{|LG5Fg-
zuxme}4+NG3(S5=0Eg06DdQGD`1vAQd#tfG4V!hDI`jHGE!Kh)lD>ewk?x8DiJxJH6
zy0~OXvSl&T1cU?s^N(dvsk_W5uGrNw*G4-yY`4k?3^Vb%+#uhiNpkFAc$D?wR3S#K
zI;)nwD-1;L#{)0`{1#ai@;><`P>6bq5Z~crOz|?SQ&Fvm){<(9Je1Tm8679O$11{s
zo8qLm8M7>FR60H>)?izdRa?_l3?_o#r!87FfpyhIu5OA)=*;5GF>(IwIq|B@R0vly
z4^3G!sc2YBlwDIHbfT@vF5_A}^X8IK*A%e?npY`f{N%;bs%X|rJhowR){<=DGJ&D3
zIrdtys8&sj%8F><o~dYBa#fL;vU`iI4bHSCoWBnN!B5^qM~m(;4x)RSN9}nBf{#0A
zZKlJS?xTMcrsaXML7WsxW%%h9b{#98CO_7n@?%xt(#D$T*8<ith$HW!#xoyC+r!@L
zec&MufSSMX6>bU2h(TRmEm29Am#I{9>kO&VtTF<20?M4@@F&$RRWsQU7{rl=_26)y
zn-?fGadOf15m)Qzi+zlpz)5mIHpmy@m;aTVx;OX9sr#osz5Mx!i`yqIewMuSFnq}k
z|J1V!Ew|7U#<x5+4-H82R+4~MT9^x6-q*>0e}c;M&%OuV$PXZu3Tqcdy>40}U@a|M
zqFk#nqXv;}QE`##x~MiW!%ZcGMu@m7kGN--oA<L}u+Fe_LV&NzI+Y}la+I0EE`%Bn
z!o9dlxt1lgCZV;p@eaZEtkO$34~7{)NH;)8BiVcNz0LPNPafV*9)8$8=@8+_86b%>
zJAQvM>JWb<%ALIHazjV(Alw5t8De`g8u-%NqQTC>ts_++4fr*(>-Jik?y!fw)$v4|
zfEaEA#9bK!I__dI5C8}Xhjum&Ej9t9J(+tfqqYnetfH17sriMmcBsRWo>yDInef4~
zK^`T0U6-{Y4aE3ymwBrY?)wV!ofnaSo4#g1=`YcmR$3D~*x#k`HcY+KG@bq)rrC=y
zVh`Jp+r~BUKuwd&w4?1^8kcb<OjS1%g%vx&40x<CeEz7GX$Qeo(y|?6v}!P&KUVA%
zoV~ONdNl|Ebfq2T4&@>{_4KB9mF%8H%_zy5^t8jYqi!t#KvlE*%aDnNE}><$x(KmV
zExR|rSvFWxVrTfu6bV6^3*iB0FuNa$22i6=Krsfn3^$)tQf1T5K~ih0d{)?xcmF{r
zIHzveQ5daW<=Jh=Xcgan{JiXxw=&I;73r!<ui5?R3or_Mm1;|?Cg*YCnPvw7tp-w9
zLcMC0u{>yg-!IiNZ3W3G7|Ko~!DMG=keo&G6C_xUvR9CtL-Hz;*O0u9<P9X}kzi`E
z3rO&yVQ(V22*kw2HA{$HzwUJy<W5@~=n%BL=L*i@)i5u#rEESqUnqR_U-$|IyUR2x
zmM*U>f--#0D}{NeYE`WcI)(fQI|f2KDnS*h)WPkN9hVSBG#5A--gUePWtedof~>q`
z`>Itt^cEjs`=MsEgFL^Ph&q9iVQB0S4vZk-7h4#)X(U*@F?>PWVZ?cOm#?xPp==Jx
zN$dz+=7kT#{I>n@-vf5A0wDlqtU8pB3<1JUc=dRh!WAmz1rGTffX;FEu{h3$1S?AO
zF94h0T_=vuAAD7~U3fz9*NKu)+VMq#V~>*Qn=6|uH{aiU-w8t736Z{oP8V`v<RZvL
z$<(wHLoQDGb6d-|mLDgewc~Hj;`D`snR}Oa2>du{e{ex~IDO%-6Wh~;9k90m_M*Y)
zqwJg$gkLa`%CwAjp(ISA`JD)I1AIz<aIBHZZe6)`WlOpxIeutAisWuv+mZ3dL1=iE
zfy142J3b+p{^<P2m+oHrbYgqr$BzlLQOE58gD#i3ZDCiY)s^`_U1=zx#wHu1hZ>Vd
z8)FlVshP%$CmT6vPBl)RX-pq)WW`2qwDH0mHcy=X`e^?%E`>JOh#$ClcJr*$g{?3d
z7}{FDweCc)6(y-&Cx%>{^ktm{a@}Nb#7QETBAJ2P6Spop2e8#c28TZi+?jHEv6Uu6
zqLV?ckASZhZY_K?x1FAJ`cX7M#-{GQad*Tyh^;K?&pLz1<%oF58A5ItHuiDuZtl~-
z_UN25f+CSj9(6{M8w0z}IC2xXszb;fCWGRK$L<`vm)_1!JCi6nvTKe!il)H8hwFFN
z?<w0O#~pNsbBsijH*=f0+riuPL+y@s@BAkV_ZJ=xpV}Tcy&XCIcp8-Wfqvryj$Z;i
zeDgiFUoMs11Wc9<4XY$TR&xfWm?P{RAa)F2nltWyl`*`-?4w+=`|Ua7zCC9u&7xt(
zeeAlKj>&1i_`Qa4z>t}=3@;a|F`nR<@B0pKe-q7MA?H1{8N!&0MImnoJbig(f$uUG
z5yNL)n0lE}kRhI%h{TRx5QHaTB8+@NCcY%`f0OZVeSX3BZ5YUtuut%P4Vjhs!<Ek>
W!yBP*LcbJ*v4;nbJ|W0(NB<8e(N)O+

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/fused_moe_modular_method.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/fused_moe_modular_method.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cf726340969595fad50a2c165feb4216dded8171
GIT binary patch
literal 6844
zcmcIJS!^50mDRjYk)jStBqdRoCEC_u$(Ci0XM9C=e2n6Wvx|X{MT26OWXjDW)y=Ub
zv=Q&Xz}i?WCi+;&#$sX5S3K(hGN1FA|NM~SS+LRY0$ybIBY!<n1_}0O_q}R1MQLaw
z{@4=q>eZ`P*Q<9`^LOEJfIyL5|Cq1$67qX&*u~pGcK;2K9U>7)kV!#U5d_2?vSY;o
zwNrK$Tq`b4bII<4XT`&Dx9lzWR(u@y$o@iLCBSj794v%ZLWS^3SRf8UU9{tcV6C(g
zfwpHO-B`D!l6*FggIp$({{fK#G(bHsTo%)d2JcGerXv&l1GX}P;k%fX<?O0Vm!T2N
z7xStpm)6%Q<9!uHEfs!J2E6N1MWND%rKOK5*`j)}R9wri136}sKcwodl5`=f(2T?A
zX;Mp4Mb5HolohFLBy92xM$1`7&ljaj`C?YiZ&9POV6lp8xQ<vT(OhG{yqaz_b}u*y
z`3I0RB`bnNK)M2TN)GB;b3G($g5-P<T5(g4<f7h<XzK(Pz7hK&jnCkw0m<_YW4v2%
z^O8>@YXOk7t0~(c4M{$jC(&jdK4#4!1zPw!IDZ7F!4_(?Ne#77JEibD?68BzqzL>+
z;lH!}j$rSx2d<T_cbeBnyCv%+E~yJf_xQ=%{-nuwn!Ou#dbEw~dfq_qh111pMCyb8
ze!#7JNi?w}V5v8ZwRi_;yfJE!_DMsuUrN7~e;8I80nSmV$KJ|0{?^_@Z|y}LY9j}l
zcmusH_nM<0M2VWZc37Ht;9f~SBzJ|C)J>Af{J=&n12&>1SrUJNHZB&pNgG~zw@jI;
z<iPTp#RC|&caMW#`e$K>sLifNPL2GNn-ERdXn3Ax7a+Ee60jd<IZ!krHrLS{&}z=1
z25nYNkOYlv`0Vyxy%FBSZOpdK5P8v<8D_QpHtYgg&6(7uf7s};$M4k=?5C|)fv9k>
zZ1f$Zz}X!ZO(2^j<6JgkQeHvVD_Rm33)%8k<mR1hxtuSqr%M$zJ+5TJhFht?1sFb2
z<nCECoZuaeD1gRA<+wLC!j|i7T$kZpr)pMJnb8H~%O$wMmUS39M~2ceJeI#V+!9@_
ztQ&q&%*k0r5k*|Fm@QCI%(x7fLgh6+fOX(dbZ`pZO*);v|3A`<S}4zy^W`Zu%V6E9
zyOoot7H^-VGje`)ro0KUp*Zu2EEi_L%~KgRLUR?h#Af8|CS}S@)9LSF5CVAYXsF?I
zd6VJgYz^8$<U_09(%WfUIDB890^?uqlRtTgzvGd&=Ig8WXX^b^wf?DZebah+ww^v;
zOP_z}`qnp~4~$`*cr}vILn%F!)}!6^=twO(Qjadwq6;shi`CHLuGcjhK)xX}K!%U;
zk*|CmpM@TUsy&CEyXuqg*CyYuPhPG~Uan8xs7>DZci%_5unS`N@t*iGjcD15d*YfM
z^*WSW5C^5k#VE^$hf%e{in*rN!xWf(a9g_p2v}Mp6F>`7TWv+y0ING#(1vWi)10;i
z*p!>(3t>6qWFZ*F&<czw+%wIo;yNu9#C)MFXIyLudr?<d8o@9C`|8td09uBtkiAW}
zn(=-A)nMNwj+qAlx6(nP;~?u-p<z7=;!fA2$7<1I)wv75z49`;tVahy+To5}w>KIv
ziPs-sgD@`FJT)}Xj<`gw0<uHEDxp4DHX7E}N^d72+dteSYz%lo8fg0bs76dJm2ZRD
zN%<UAL`mH&(=P;;f_??}W1XJi;kG8*>*Wt8Sj5pNwfp3Cq^lkou0@9Hk-1uAt{z#c
zMV4MhE?0e*e|TtIkRKXzp?5j7eK3b*@8LanP?lF&2Dj64m?O~M8f|}=eIw5R<8C*A
z#yQ4nkumEWRo~qI<Mtt6E!}}TDa+X$q^SqCkHUG=_V<lE2aF6uEZ?f(woEiwtQ2f(
zG=jJCl0=K5f(hzSzNk`Gpi(}oQce=VD~piFs(CeEDjFd`vxSD1<XS@;N*9CIE_%+^
zQ2D7~sT`!&%O&*+SQ{-+SVmf6ti&>2u4!xrH#v*o7=k$jXi7$m-c?yvyhHQrw^R{*
zy`o@X1DA}&GR=-0qqt*>OW7K0f3^F$egv~9=y$+eV<a+C^$lA$+G<lxg+!nGCWW+>
zPhhAj8OPp{6r9W6Wdef6Uh2Ouu5Hb>-|?GA`~)UeFu>g>riXw(kDzW=ePh;D3wMn$
zgXjvk2ca*oDux@ZRJ?5j87-Dr!FrHH;T<Bb178{ZGg`3`;I_<3Ms!b4EG8qiE|*rb
zvbfiw7=gXOZp3r^F(u;45Z>Xi#hj%#O0L9giqXS&CW%T8wt;Nf9K=Z@4k`z1R0P1l
zKZC-FtNE;Aq##?6H~Fk^o`xzwC)h_tH3Bd?|4Ejw6Qo5e*#N6IqK%!&rK}`=lBai!
zILZPRg|mv~Tbl~UAtNz*><$QCGEiX)m7<z!&5tnu;jRfi^Zp1W36jH(I`?{7W0&NV
zni<)>UagZYfgf+xFPIby3u&?Yj;rKTLF;PN-S=m(tv2JG<btuSCT9(8pCh7PA1MDq
zB=^5M?c5Yr653^w5KEn!M{{Xz&8zvepcc}?S_iC*c732|omxPPX<b^k=GS_(-Y-2b
z&;X$P93*uwey{IdKaA|OXsr-d5!$^|f!dg1A9q~qgL&Fypjs4GjzC|VOq9V_iK3td
zzVyCmNaJ2Y>yaF{PlCJ$wBEl@s!4klEumt-<HgP!nD;8Ye(lH!@=9p^YmS>lOTgR0
zzidRdC@b0NCRhZ+do`l1RE(utiKQFYFQoHIx>!=vjp#z9^je9f4PiRdZG>$X45=(t
z*n2Py`v3t(AND?ivk1;1xQGB<7h6Jb34jr@gEy|nt|0vaf~yFwA-Im<Jc4Be=sYq3
z_7PNu<IXYopEE+-@*5u1@bOk&QVg#hg?@}9`5c!K!xgqZxXE+7^pP|kJKadj(~$3_
z3l+5j!DthRIk}?bKcQRzo3up;nFzy6Wf+gy2?RU?Lto4AZj6pbrq-C4XCXXwF#>mv
z%{N?u;lDH2KpBQcp7$Gpypk^}YPOi8;QJ~Nb~4F5$IMP6BNz3al)2FNM9t621=&XE
zj0=IwgbVzDteawHe}fDCEgmM;sv3+c6<Nhx7;6Pji}CCY#R_w7?gzJ$?PCS+{29!n
z`~spD1hrX`9C<cg&7A)F{L91#4<oOjd7^sw%-7P(<i)D5?>~dRI#15Ni45!UiE4bl
z8l4BI$EU0D)79u{fO`CBHNIGd2SR-Dzj`xz_pBaI*5gNO@uT(lLM^^fkDsl@&sKZS
z{Z=rYLeE8E*XfMMOycZ}!82mvz50nOwG&tLL{d*o=mS%FEUx#B>hWR3$KKQX$Munu
z92uzh&(`{9_w_>8&@nxA1enbXS-2|flAeV?%{TWj^s8Id^qe_OV!idw(OTyyt`LDJ
zI8=)a0rJ@|AN>+1?-|g$`|90?YTbu$QJ5{Wqz{eOhZepWTG&><zH0W6*w`)!#sUvL
zW`cy0kF(zdhpJ=8t7GS0#fP6A`f~i+_^e4B;SN1|W7i3FwQCkaZg--ZoT_$BRYOy+
zyZRq~$m4D%a%p+_5C02gdD-wPr8TvXy}J%~0>wPLd<mYIdAR~S%b5X7!vmuA2!t1?
z5fU*ekgfM9!z_otSNNOI2!SrE`CQ|J1w?a}yJa|vMZ?2iB9!@&{}2GfS7s&roUsY-
zUG5Svc{g0ErIKu!8d{0rgk+C_FC+|u3Oj`~&(CO4f#{2Y&TuO5uy(IO_*B`?kwrvm
zxbb$*QCWspvtYfFLF33duBFyH3m;qPla;T)EB@sHF<l||PX!&W%*m1WfBHQ~%oOp&
zOh?!q(7XC}7Pl97&TgMIozQ-rIBL3~22m$Zm|nzuq<`?K?}_he<VocDSgmi`^dmVy
z0>gg{0=Db4Co>0$r^9pz?jH-!mVSNh^J`y?)y5Y7NRWVBjXs#$Lgyc=*g4<qn}2JU
z-#zjgbnNb<yQpWT8`{9%+i!Xi^C9L(EI<xVnL)%tB%a#2y?uK(jICa$8&or~^YQk_
zJL0xzI-&jApL(p;{G+>WXqbIuWI`Vv*C&qXBV+pEX?^~ro`U9K{p5T4)SRA3>#1RV
z_Bb|Aociv_4Z)q*w<RRNo<g0Uoq2S|^zx>U^bPE2+nVX;%>apZnL&<*NN>UnbF_mb
zhs+2^qok+r@!0lNvy(StBsuuZ_2jVG#hcw^AZ_+=w3onPu5Vv|cD&X-Va7QPPH_17
zk3JtV`*|}#;t4a!(G*FKn*$sjgk%0X^?B+mS8e#XImBscGI7Kl=I97)z#Qf1818VK
zqlZW`{q*RQqtCl*i79h}(<b*#l;O0)u+CHMiS}Ho4b7QcMCMTvh<uiMlzQxbOrOe6
z<mXGjx&FoV>fmCn?^Mly>d#X+lAAKu<4nwm<VrGrEr4uPna-}}xNWdCG=(63?U{zu
z5q?TwE~E@_3VhXR`TjHANQz5khPj+^q#cj-jc9t!{$XI+`rgG&(>VQCjcAT-d`%Kp
z;fD(DMU45sY693c{*WQw=D%cEu7^7n3{DKK+3+#Co>$;i!KL$s^{%vnlkW^4Pd{Lr
zz={4q`8xm*6a?XW9}&iXPeT7qM*oA%eeZAxj_*AH{_JrIj_<&Jdw%utOaI_~4`{5T
p>waHdh}DExwd>GJVd77YYYrh%O-+C0+a-vCjXEa3<5Yf8{|Cc4T=oC}

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/gpt_oss_triton_kernels_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/gpt_oss_triton_kernels_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..76a843f5a6644c33d3307c7025f057b8088fcbda
GIT binary patch
literal 12376
zcmbt4X>c3ob-Oqhz~TlE@B~Fk6hw&>DeAB#TcYlRqHIaN5G5E8yC6a0pm&#+$Se{%
zRmNm<h)U8DN;6|R<JNSg)^w&b(Z4#Gjwek!Q$R{WWGhdUsb@O=(GG0N<4lri`rfx#
z5F$a_oqi;~eeZqO+wXYSxBp_dTPa8h!#Co4wo%l7AflzZ60q`ZJw?q^9L3QIDx^N?
zq%NwXsidCd29g^?CK^k133HMOF$C5pEJ<s~nzV&%1UDquq&;LOurc9CIz!H+E94@$
zDdA3fLLQpZQ9Q$YZ_(=bAs^tLTP0?MR*T9(O{f;eGAHVi^`ZKtKjcp~gc?XcOrkN_
z6lzK~hnkZup%y~3BwCY!P=Ka**XSAT1y`S(jdzX?tl}EPu^Z6s)#))4=eTCjcnx(}
zDD98i#yNRv^eL_9)hFlLfbQmloQL1edHGJx$J;o1%1lvQ4Nz*Kq;7*&YOVU}r7<7p
zzh(^W(74i`T##$1-eN<pALXi%-^n$>@AGljyunzX&U-D_0=#!|tsArsY(Q^=*{bKe
zxlPr}t5aioKP*v<;o7emLc4U-Ns8NijpDZOrqQ9*wbP(ma6&MJdP&W#P_u*YEmL<-
z((M%A#&3%0Hd8`#sGawXo>p5_=A4ypzok<tH1z_Uw@~{R+UMwRenEw<&{wFd`WL7x
zba49zSZy#!E4FwlE`<~6;bC3~>XfDv&s;oyEPU?#@$fT)Pe0Q?c<FQq@T2DkPn<rf
zcu!1-Ja;aA{OO5EN;;ZO#p1(n(n{T>^!VB5`1tUM)Su!m@Z3a{A55Qr3i{JY3B@D{
zaVedG!8{`oF|1<YF<waV2{EWw%qLP8$N8wJI7#>YQ7QgXM2e?ViZvOLk`sw=dKl~3
zE~F=<cxw1qM2aY8K}D3>5)h6F>122)E<qb1eicTu9MO=eFP(_Q6Fe7?(t&t#JS|9p
zON6IDiHoklQwcsI@_}Szj1Pzt0w0)6PY3~(*T74>AOb&uxEP40ljFeLP=fCY92bPN
z@OWU0sF;V6;b=M`D(sPg^GDByFT$*a&pm>jjl%IOCksHh=qrDO1)Ha&lCYwv(b58z
zYXZR0nlQ_lWwUIYGE$W-43%|Nn4@K*wiTv;lwm4Hs9xWs)z4UDhSPDnufs2<!)+`Z
za75XHRHUm^(yvu!WZf9>yrzXkHfYp}7VwrCTLmYk^_<JJY{i~s8>hc*(2hWcm08X>
z1><Dw1cH_sM@3J}`kpwGR3?rRHC09lP<~&hWY<b$y*AUws4u<+W4J2D*kImNzO>$C
zmuylgIA>&z+!cK|w2@YyvR#|I(wq~~A-mPtCbLH<W1wJVr|g)5eN(Lk?2?ig$#^P8
zbgho0L9&N4-8O3+XS_1CZpHN)_ZlCMth%qFe~;Gd>QnZ~-gP~aU2>bzc%-RszHOi;
zbwSJ2yVd}try|iY5f141SUAp!fp`keY9vrT&t0TaG|lk=fsgS5pNjI26WWL*jf;<W
zcMr#<k%^%$IH29?vE7-7q=rjy_fR4|)Xi}{LqpL$y+gbExZYj8T#Vlni}8^jepg>?
zsAq4_-o4R1(OrFf_xPkVl1`P{YND!p2nHSL=HepsKQtlnT-W$y`#|sBKEj89CwK6J
zKS2V)XGliGF~yjcMtI?a0F-=yM;xS*A#yb?25AA!qo7s5jjLG4h4ioxNy3{ericJ+
z^NJynj&O=08WAPMGy&7GyH_!)MaC=8DX&-rB5A{EK{1L_THu2<ilsbZ3Zu=XVoHUD
z^c7LSrBZCEFn@Ji62p<GBzS=$_>gQIk8|OqVoAqhA`hh%;Fw}AQ3=zEIiBL;QC?K^
zT>K?PFYrl4pHA@#9ajukQK7FY^rYe_vl1Sc1W~MkVQ`_>rQgT8rQ~?`czk@P6cL7b
zY3J36eUI%Q+sAh&;zQb6yp%{JyOXf~3E-cPPQVLyCnA#|nY&}CmBPt1-#t7oh123%
z9fL)%RElF9_SmY55cUB_o8TwT!rDwz4_hd^^ZL2jbJ@0gY}54df~zLW=3Sd#7v7kB
zZF0%IG;pt@Kkw?FK7HTinYY}qWZSZr@42>5pDsA+zE5ZSvgW)auy7#n=vwmM>HDes
z&c1xl(Y)j6^vMESlQrepmLJj!eGBHiZQJ7MJGT6eqwie$dCxn~<vY*iZRe(s-FLXI
z56=$IjV#pVYqu>*cY1%}coG_0-E$XacTOKg;K=Nb>7)0p?DdY>j=8q)U6_C2#tZkX
zt<y&znka{NZr``RG(*4dbYGvGoy@wk1B*xUO<nh#-Aipt@;gF)-|2ksnY{DNi~*{{
z%buD&RbZXpp}*5J$IV%1&u68DV~d-AL@%7nxAx}Q-ldCoj=mlGsr#q>??~@7<ogDG
z7Fp5j?A96jA%pD)W(TtF1@|x5_8Ge1-?Z?;-@drCdGShq%f34u`7Ql<fB!qje&+l6
zi$AOT$+^7$=^4j;#(JHZW#(EI+>8Dn^(=8q`|`m9cVhYAv0pLAKdhr1O)Ib>lwu!=
za~z)vi&8{_t!5tvrJEWKgVG<LkQ4*%ZN&ysAT1;#iTD(+SYbbFb_4q&+9#lq(Lhm}
zBIDzUNjL&<WQFh*VyA@Dsc<}nU3rE<GDH&L)I<^w1}{jWVpV}~GBU211YVjDQc)YS
zRZ1wuiS~XLfJ*Hx>t%y%WU1R_S$rAlWo#KXW0y+O8KgG_5|@^BvQ1`XyKDlT&d3(o
zdRupkRY$l;1@&m1F=8?tiwmL@Gzw2Zk?<sDhcG*gSwCb!o#2Fr(x^(klC%n|hobaG
zL5J`d*3n(*fnTriI5s|j*+I-U>RMqn<BCI@%L<DCk_V*JRmCPoBNEOhAR^AkqsLm<
z3naz=C`)h*!?Cn*B_eRbStv(ON_-kJIC~A$&b|UuGbb%}E~FpobvsRYLvVUvZhLkN
zwi??}U|1+FFjn&KD=?k{<1Kib3pH(pE&YYYod7@d+gVeQvKvjpejMJe?v}8`r$i8v
ztav3poR|nl65}J0GM0!Z<C0>D^t>2`S4!|voJ=jD*+3TB3i&*!$>|ECBE!gZHFHfW
z8w#UU3>;MBqV5d!HCkpyQTne*F9)mBKVzgS2F@cRl{Qx8U}U5!^#9jL^k@|mhogxZ
zsjFH>Ow0;i^;K(qS`TIOs5Gxt#~}yNnQ>*@U_jD1o}iPR8CG&@b0VQOB#ARfs1!*W
zt<|8_=V<*ZtU;VnGi~rF$8?-Y!!sV)Ah5Dwv_Y%8`b^OrmGMf=8ik03s`~;33+#**
zt>)@ew!xctu_xIBW?gAdWqcLA`am!-qgB=#dNn~wV6`_5!d^KlMT03vf!U_@S|ith
zaIy>vI4vLi4;VWFzLsKA4;NTIM)iCd$-(*njiR7Iv1y_s1+v36F7VMfdQ_T-HVsFT
zU@$2zRcft@a%jqyB@MI{o`e2`=P~QUp4|c-HpR$EljFQ%1fw82qA)`-FrK8Iy^8rt
z59oX7*i0y3LYc4hsuZI*5&>zCb0VN@R~(NBD^a+BL`z9##8Qd{UV$evLO_2(VWIEx
zivZTUiUn(h0qhrLu5bdglbD^t3{{2@!faLQo<npHvqwd{a2{w1eO#f#3O%Uk(PYDS
zSG-^k@<Nj5;>c4p5*^`tsu6dKxJ-|VW(^}ES~!lQVwQlPI71Af;wFmm<;;!u>vqqu
zMH9vPmu)S1Tg&TP-spO*>#l8A&af+I+f}gDE!$f2w$_}jWAWf}=b?P(q2<ow`Of42
zTJvws|J;1H^Vyu?*_`d!&t0)%tgMi?ZCV(5W8}4wMd7u?U0ZL?(3`XM7HszG`)Buq
z9dt0;`|AFi`xp9e9=L1Unlo(8*|t6a3u<I`<mHpo{nIbbv^_BUvls4~TMNxCIi}%#
ztN%XZoMV2_wcOC1Z|Gibcr4%WSnj~Nd(2?LQZpy#n9T*ovSK#aOw&g{v{KvpW-c$=
z+wa=j@A#%qyx#z&ss{2cGfjD>slfOOzSe?&%d)>W@9+J!f6weoclrwcriX4zqbX;o
zdss^~ZYeO0s?J(%1UjqSsBZVHbf>mpt<xG6eH7c8GqeyLCTxXeQCMQitCowXxY1Ne
zq(NC}28)0)H(ItY04c{8cEAAy#YK&x`>`fTcsNNKEvqbzLQ%I$Eiz!Md`9akYOdUx
zhOv>GHR)CfzYIKN^ce$3XN;UKW0LSJl2lb(>EzWog?ZJYs-`kP<e6i-ig&E$2~(q0
z{MXz1vgl?$gCG5BoFztQED}07B*_+{@))r6fDa<PO%Ts0#eir+<#gy}59=~kS<m6q
zCTT%)Fg0W=#6YOq##^Peff!DCg{vtbnc_^S);P0Vwmvho)L7;S%oX59CmU|TsF;XK
z1j{tzAa<xDrU%i^48|dXP6^09n3i9FhhpORm%!r#wCpej^+E)TEJTcgrF>PficujV
zMMuUX9MKNLP!6g1k3k2-0n@@|KolcLuAaTZ7ZEmyV7LpoIl#|FU(yI@S`-365ymk?
z4^2P?Eo{OJS1{-#XF^CKA%$57WD0|a0*}cmi^Sg*wqU7YSOC}Bx$2P;t`+YZ0=~u?
zDJ`NosEN$dQ#Eeg7%L=R1v(~ZAPX|o{X6)Ht*RWgQm*>zU!MK)5B9uz;O2pQ&W`C*
z1#j#8p&N%@-}A<kuRVFs+dDn*pssa3b0hQJujUOPWoAx2@YYTb6udRl1MfS0*T-hZ
zat)n}m+v_qpFVltRWon9VJldib9Fh!|9Z_EO|LaAjr=(MHk!<C)AVU{%e>dm&YsPh
z7TA02&YZ0q{7Qpot}kz>FEH)`<0>$Y0^>vg#86G!$4<s*0-00alD)F%xhdyrcTArz
zG`21DWxGIx-FNw+S++ITcQSYBd2JLc<@3)UxN#tRb+Py6R~DtE%lEuTrU&kK9fQhq
z2N&vdod@rXfUDRIW_%}@@ts+@2xfeJws9c=QXFJC5pPkLta8#${>ncA=@pP#JQV_?
zCZywNULVuVP%)a*U1LKAPR|>`z%oE+-2||Cw93hbawC*mI1_KJX2Nmi4d@KdLZ5cd
zQoX!7wH)rZ!kCU3>M9*_!dbE@z9SG-KHq=(5(zgSSN%)k#YM})7v2^RHvU#NL-rRm
zxRmfz)2vRWz6A#s4s}T&)6^vOCOwFzmN)?>jKYM$mxU;P_)R^WDLxS+11OeoIGTt+
zG$bry-+{ois`9@E$W(JR#=5kQ6sRKNtp0AAy3g2W&3UFi+w@CjtE!ZaKuNU34S;GQ
z{G+UzrzYt)b%U4Q1TKYZKoGHNKs_~HU>O7OVo7(Qk3F@mDl=7Tz6Twxp!Axi3Qn)O
zg(~^LIVF6c*;DD5YwG4AB}_w+fEr7fg{+dd)>u46f(crXAd=$3r63zz8ziRss`B|6
ztsdYgxVNXN_nlksIk)AQZL7MyLXHt7juWUQd{Oc?O#oEB4e=7nN~-iu5K~0?6Eu)H
zUn3+%>=(tCx(Xhc_BFz5s-x=5t*`h#^dzEt1YSE!x!M-$7Z2thJ9E!@HpiSLFBWv+
zmP|#Gd^oIF!w`PsCK3p<;V?vI5^9NnuP5MUR18DubVB%Z1a-+V#d~S}eUk7ktbG})
zm@cXQydG2unEVst30}C41@_X0kMfBG90pqWI#9_1A69q%SFjJvevJiFkp1o&Rn*bO
zj@*|0A5-uwnrNeM;nE7gzM@HI3@&+=drsziPOeaZ6d99ofPUbqo8NI`N70A~n5=b8
z^NAaYqM4u!)zn(F5YS3loimv%|7zl9V)6J}18)xGocr^Z$3C%PvAPA2nJE0qN%QYk
z;L`9@g&=PPF=eVQ{HjycYa3N?YUcq2q@G7_6@{e@ge41tk>yYbTHt4epACL2^oVZW
zn#9@3oig%)Egk9z8^I+Z>EfIyB;nrLIT~2gA)uUl1G;Aex_1M*Zv%SG2J~9qP2RU|
zgL3s<>p!*B|EZ-78<aL~K>zevZ-RAe;hJGCJw)MnLE*G0uK$Cw!T1|08?f)!uLC8T
z&*05tspM<)swGWS5}0j|s-&Q9aLRwNB;5n)RAMrayc!$t3t#Dr^z4QETPK9+!xbdq
zW$2p-0O8L7s-mR)YhR|Up#B>hY=I0E)B|VZva|E9vopt>%I!RL4{~Sc=h0eaZGo>}
zsdKAEz^b`Ot6KW=wutF8X{{H&2cs(W<jxze)cecf>k}B$mK5fq1o{VKrEB$+XEi>8
z@l>cRPPMO_s`ZsHvM%m`3?#P|!uQK;N1p9iW_RV;UH4f>C0aD<UDhI{w^-LJS?EAj
zOQ=&&*$b}#Ak1L4mQ{CIiAP5!Qe$8#Pi<Pq>AE_9#IC-98HwZ4=Y%*Q3Vl|MSszBk
zt$M(fVS7(0Y%it9KtqI+yc8Miik2c*&_-pOXw(28xbbB$EHex^pOzAg7up!VLsv)#
zHWs<nQ!{+QpiR}Te+@8UO86UuNGSa<LT_NU2$^ENk`~59xN?Hf%qrZgnAE5=F$qv3
zmy)WOUFAk$;-ZLCZR@6MZIwU4XyP`=rm12rRac*N&pkV1Ez~qZ=JC!wJy$zpD!3Z5
zXBJI4XLpY2R#ne!<aAAhia1pma!`X){Roj56cg!H!{dsrJbce?0i^?pSw$;NaCDi-
zETb6-vut_U2y<#ek1}JD_0@t26`we`@anh}pLIcuof^fy)+C5p8fBN}rV~fjo$){<
z6^#m#AR4M8*D-F{12If9^iw5F!Rcie)U<+YZdco7d>{@%xUEgHk2Bsb2OrP|51I$n
zje*AIiJ++>pjRb~cL}a@*c603;U+qY2LY~hCZHiPUDPn#lYlD5XnK4y9IR3I+2>fK
z!`MlArG&pn^exQD;^0<Pql#o_o<j6l%tDYUj?(>5>0WK)J6d&j8p%!CRPDMgN$5_n
z#KrGJx3CX4Q*3R{)>f!%TiBMb>jba1spZv^H%~6~|J51rTno151<zeud!em2$F@A^
z-MiciH<PCetZy!n+q?%H$KBRE(>=q^jV&AmpSEF7fpryFe}Q$7|M~)3S77U*`+~oD
z*}pyS-(CoI6<T){>KY5Rtq&U=4b~Y)F+f?I*V$Qi?n_IXXV_md`^e4@`h+>0fg6~8
z2Q%C>swK+6O+4NKP6}D1p@<e1F#929-^J{8%;q6ee5yZpiHMtXAZ<tx00RKTP!;|X
zE9v2D0pTBzb`vw4pGuST2S~*1zp&sfm_lNb>PsdmJd0M!<S6P)M(YEMV@6nZZqGZn
zFCJOmaWcQ-WX^dqZ#nf5n4;Ddy;iU2LL;`XWW+j*yB^paMI$^hzUnNR5dvr2S+pQz
zrJSCk4I!3l4ixPOInauABIKf)TbG-5=bLsfarvgli*6)((6XJFyO?dCdw%w-3&w@$
z;_ii!*PKf=OX8iQOIP1+%{dR}E&VHAtR2{C-2VU~7wiqTXapFzsBfN^Z^%V6Vi2+L
z;6-xLf*9x}6|*76YR0u4F$d+XCziJpF&9-+UvwknLB72R`KX$P`GFe)3w?QCN3jM;
zwHT^6c;n#0=Dc@nu?|V~rG6HCdC!)jA4v^VZR7mq8<&fXh&7eEDK;b4vStcekr<#l
zIzMRxNEN2If<Yrjv=S48CrJ2fFvtjZfIK+N+-?eS2mWwq7%)gphf5U(gMF$;vl~Bd
z=z8?yhA#EvhOY9*4Ol*rhzO+%Ud8cfeZ{0UP%PyZq)J5-)#9*`!PGDQ1Qe}G=jR$;
zy-g?gE#$x`2R>J`iqLg<)t?s3IIx@aP`Y=4Z~GD=`5s0M3D%K9LhVvN+6${ytk9I4
zV0dNn-J(+S=+#Y^dTApJ;TVtJL5p3hpA?d7AN2wVWxrCprkB#)HwmtjD|QlpTsN3{
zyG){#ilbkGPVn0x@@=4EJ59beR1q33sCfKjP|=U#l`~AJD1iVL)G#MX3nEukG4o?Y
z&mvz&a(AVw2qKkaq_%2?<5O@EgafLvrDswgz7QvVE|Dy%WrmiND#e+Dszd&ykOLY>
z97;@qDO}XkG`+%5wEaJ+!@r^qzelxyqSMp5j~N}U`@}@i!S|@WzqR=0p1)^lnKu1a
zU-JunT~TK>TK}Ed{2S&%p1JTF=D9rc+<VM!IFdT%m4=rain`782^!8gT+Cday<D^q
zl%>2i<RIG#3g?=jA2|^PIi_Pv?Jm<)U2~y(HwyQbKw<0l59?ZJQvt*Poamw+VCY&s
z-$e^zRtiL&4I!5D)E4asIViWU=tRgxdABYa@}3<<H=-V@y`$(w$Vd5`iZuw;Qtn!m
zR9PwSYA@nwATCU{S1!MNdBu;|C5@$q)<Q#bnX$r_;D@bG(ye9Q0De&7(+Dt(4P3Yp
z@|3yoBI*NaRIEX$7NI(X>X9=)LJi1SBSKA&aMp~Z7Rps~U7nS*T;92<h{J<iDlyxJ
z*b!Zj-d%8buP0^`MLodf*ag5ShZ~D#gcxWw^F(&bt2=J)STw%HzRBineR<=a6$_L;
ze4cjG19Y}`x$%j7;}Z`l#2#)tPt*Hzb)6qm2>h-%3?CFVX3yqq+diU<M)*v_ftnYB
zEB5XOto;+S!D9W0g6t1PJrw_5tcQK~6I08H0QGLbeA1wQx5IPdkpA66Mu7hpL@iSV

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/layer.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/layer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..860d436add8640bcc8420db1327ef0a66240859d
GIT binary patch
literal 72036
zcmeFad3amdbtedb00|Nx0q#2q?gSTb*FtKeL~13ey%tuLQ4}92fdW9*1E_@tZI!#y
zq3lYR)LDuZ+bO!^j9FdkG4sV8%iZa5Io(Mr%XIKaRe*Y}nNRL$CUH-9e=18giPO`Q
z`JMX~Jb;g?s<fT%Kjuk%xbLp#Zs(qR&bjCQac*vo0Z+jE75~CPqv6l#LwO2i$Kzki
zG#K7Aa0bp8Fa(X0#-M4^WTbCXAR}m=G&6Tbz!J=y%w%qJAS-B{v@*9PkR8mK%n8~i
zZ9)5_o%v-3awl_<J~NOvna6$|lMeRl4CYTG?_j}XA&Z$6C<+!&7R#whf~AwC%xw*n
z1<NPPnL9gB5v-i73|386vG1Hfb+Bf#hPiEl+MsLF6|9@A3)WB82OB0En7=*H7;Kts
zV(#2PbFgKyCD=OI%D(dg?qJ(w8*@7X?ZJ-84(4_SI)k1`Pq1sUE7(2R9qgIxVgC7n
z-eBKkA9EK3`hx?L1Hm1WJJ@$&U}tdG<Syne3hWLJP7X46abPI8XL1j7mjw0(_f76&
z?$W^i;DN~l%v}~34j!C57(6t2h<%p_MuMZ0qrt<Ihl58Zk1)TAz|r8b$zw)?$>2LM
z`%6mKC4b+QoqRS|$yEhT1ji=Fg5#6pMnmXXE^~6+H!(SYza3n)&oTRJ$#jZ~tJ%iC
zb{l`!HvV<+UsZBV{&Ja%Sq1}Fub*nh&NaMdo;>Y4JvoN)(TJ8lGkJ#9ya_FPcJi!T
z^R;A-ic76|7HZxcI3GMQ`3!1pLam=cUM+!VgU?Mq$MR|oJRh8#oMdiy;Dz9elP|J-
z+k7v*Yn1Yv{2bS|4U8tP9WZ*I65fIEmraHv2Cnlp1LyH&zMCQEI+bmpf7}??<-5Rj
z<F5yQy}lZ*55N7sX|xRIyP#jP)OJq`o5?6gK{I*Wz-yLCAGc$hxb?o788f#NP+sJA
zq1@eww<<xXeRG4pJ#v2y`MS7047v;GqrFIZ2_vv$c0(Iqa&!BXHe@ZZA1!de*P*n4
z(o2)G-0(Kg9o)wMkZ)$&abx910Mq54a-O5eGk|&?;ST$d_eG;G0NBK>b)LPy)o;dl
z=g7Mj$sZ%_?^at*zb*8AXH2a3t=v(-J@@xo;xUvs&syrZ4<)0e=Kszub;370`|r25
zr<Yg!u4lT(e?%W{lW09O6$ngS2>3+nv51c+m)j`XLJNVw^js+7yB5Kxc{H>T#BbL8
z6d&<V1>6~8)|j872Sn>dU&K4bUkr=Zxhp<CFgL|bAZp3^kU!+7$o@qicWR2C3i^-$
zA$k1VbkI9R$-Q&)VZe~{Odt?EG#8rjUldCzyXgg<_k|+fEAaOM3<Mxy>FBk2A0Igt
zn40zl5qvhnPepteue;5nol<f0-i!R)!o2k5Q@$E0EaD4==Xh^$j`Ib)s0Atw$JIGL
zz<I-fP;}|XKs+z+;})i=RkBCt0~gLlP$+=TJ3Pl<o#HvbO|2vrQZX}<AHgg)osC+-
z8<@LzkyYM$XdxV#3!a<@(0PX!!ai<%Zd9&%iSkXYMexb~g^K^_g{e?P_RK#sw-E7%
zE{^*mm*%*0*XIeq%0(YP=k>8>3ImAX{6fU%jqv`+TnHf7DjA*f@j--0?HN8FLbKAh
zSfNJXeP|@#aELqX53w#p?&Yj1QpZK+=1+Lhqf=gPDl&yYrwq?oe{dl%6`7-+E?@xr
z7pEfrxsU`meCz#T?@VASe90f0!4L>9%+JqZRD~{jF9zl=Oa;8*8Ol!?1M|oY%^C#!
z=4sA<MYN)iL!5VE9-}a4YT=qU9N~RaK`~EBA%B;1e%?17LHAwshiR})v!=(GL-xho
zg*kPYEnJw2OkeW)xgXKuMGfUcM|*=)^WMmucmC4#uzwnGO`%leILC8h?hJLE($b<8
z&2bs&!=h7ae02B}=e^?hT@_2w_bj<KD`YJeD*<Th0AirO7D5rx?hkSPX<yhIL7$45
zyf3oAho)sb$YwABN$cTbkeQ$}qlUAFcZ?J77~Zk)9{BKG^y;Qp550Qv3R8L)J%4k$
zD-xXVn)lClMlfrAk<M!iJ9qE8ywlee@L%YfzmDM)>Y|C)B~2FJHQ)3C`m-xAb=}8@
zyQG>2=MbMfJoDE@m-iFei{Fjn4-y>Nc-=5OavGdv%Z|tRFrYK+Y}%qdsTuKIs=*Lx
zLD_2Yh*zKtS7{O)oC?z<C{}&vI1EKz3PeEp`Oqsgg9st1aoF?`bE&@oz*V3B;-$#6
zOv4a(25LFh+FyV#sCwg)F`|agnpm8aSJa@a-?Q3YljCqEF5`~*T{#_Rp%rJz6g5SS
zi#E72q8YQ)t!Yoxpyw;4=1eoD%dKcz({aO>w6IyzGQnrm5Y3=+6bP5hn!2!^O=_B`
zIcl^SqDF=KSTaY=v$?5p=qsXn&E~02)uEJzx;;IuQ%#~el(aLZvj%tO#9y$0_q+%A
zcDT;HV-hnse^AW2?DNgT!Be}svqcLA?DQouW9mX!%m_|h6D{FOQ<zQ`hC4*dbYLnt
zFPb8AqS+sc>=LtPFaRQby>1IXj2uMsE0ib;$$<qZHRiuh%vOg_az639D854)I9?XP
z8|dNB!FL*e;cwt|!;r8!Z;af}D}2L$)4!6tnb#c8YZLO?)?T^W7|Uzh%-jE-QOG-Z
z<4D3@c#FF^abpw--Wa+$w6Zr|=@BYDYp)2EJ?lNOih&K=K+HT4vklyL7Qbn`ZCe>%
z8x^X0Hl4jUjwxQp*37F5Yuu)@@5Zr&t>}$CH}`za@^;Q!Ih(eI)$`wa?i<hD@qIh^
zPH?knPt3L_X5PaO61eK9#s~Ho(x|UNi~j$kp0jX<KxQzD?X|5-7Na3*nN{}tXe#Bw
z>?l^;$zRRvC`tM%E@gzz5-Lc0IExa>WpY`ZmCIHr;unFFmNJ*JmaNgt*~+wJ_)Mn6
ztgF@u$G%R%LZ1M0&DPWkRBTq}Oz?*gMVgWP2svpQ{^)P<{D@ql>D<I&x063YK}YFz
zj9$m-b%I`Fc!^d1YqZW|NnwP6FEs7*%q)baiFgQ$*{Y|AH9+yrmnIxhE7MqjLy>-d
zoHCrC409Gj;a3)XzD1u`%#vNAnHFXKB*NX<Y_9XCD8XrZouSuRyu?g`Wj-wC`1|EG
z0pzWJ7efPKG0VS;2(2(%&Dg3+FI`N~%X7#tfWPp6#_PW)Cin|;Pt4qtXl#o&?hzXI
z+<pH0FMjXEKWX~Ywm)p!+<QL0_hn)4%dx2on|r5YzKb#cY%DMz<F9TuUK7l9H;&)3
zuCyd<#c^A;V5?r4+O)Y=o4(cdjkdMZ>!!{6zIgo(p?=4A7QVamn@gMZqcPiP%seWg
z6;xY&6cqEg3SMs-e1=IQXP7i`#>ouMG->8CCM}$KGV{8{oheqyYqalKwkV$^6ns`9
z7JZzUDbed<*7T*RP{<b$EfVc-xe%C}zC7X160Kfu2%8SCSIqGe;lB_dx7|xfIv|H+
zo*SJwd-9B!b?E5u#Kh>BXgPA`<oQ#g<>1)KLnrthfRa^$^({X`pY*zhzc5YZ*9?i=
z;v0t(d8G_@18>_4UzO_3B8pkqhOqqwIryp2WwAh}a<QXQ>Bn-JY6Pt-ZEc9AWqTX3
zjN;8OY7<Kswjyex0*N$~zp+k*FHdVp2U^Y<;c^sjA`>~|WlT<qOu!c-8hA?-1PPZh
zlX2DnBE+zW`MQ+JT*zxFD{72pU4|dxWpbuPWEnC>GncFyvVmrJ+7mU+7&)^B?U~ae
z;PZ|}B`UI`8C)ijF#LX$m$?YCDMAYndk6vrQBnCzIhwL{NF2@>wSL-?quJ3M{IgQN
zm4;9RaAYw!PCva2z=XE?#8Tv1FWH`++h>H>wg=FLY9b)xq=&OcGrnrzvLh;S6;X*W
z1yO(1@O87|{*sZ)Sh7bg{2Lm$bVx7M(M&BP_4|zR6YDFFge5y_WarETXEd8L)2PFD
zM$}Yk(3DspgRl9CW^2NWGy$?RQmXhx)!K|0-pHLcT{KLaUc#7J%8gp1xdioX)9cx0
z_%7vsTDWI`hwkJkV{IuLIb}!fG&5+~r<|@D+_tF}49^@w_~4vO(_YsXc3qmg>IzPU
zuDj&Dw<~;UZXv+AF8Ewi;jsT=$j7-Nb1vW1^d%Qz0T)&}*XSu1wv;TZY3yJrpDE-r
zKaahzYlfc-x+GLVDS_0c0&?yy>=1p|JT7_r?gCa|nQ++V^8O3h$a5~=6<;WD-8D5$
z%M>dz>~RePK;9Re!ag1)AXy4<kxNoG*qTRJ3QrEpb{M>!LFS@L%lK^2b?%bSMVQSs
zH{(K51vZ7Z;$rAnn~dr$C1WihCzChru6gYFd;rxS(#uWFhd@Zpc`G`V3W>}`&|<)z
z7koUysPv3n0NdPp)O@!^z*1&XuuH|yE(Jf!ZFGk1(lyN#S(p#_UI0PT;W{}_6wFlM
z1-2*goMW7*mtGol4ZBz@*EE<#QlBK7nd;do^}1KHQn*@?rCWk&Yt@vYrq+sbp$7wq
zx=3kjYX4-_DMF{*JjC;GwdzBRVgWIOp4yXbsJ4{Uy0tqx+)p3W(rDh26Zl2cDq&Y=
z51TDY|Apov>BIIZ6{E_@o#UFA3;A4rj09;(cKO4uo^6{UeEFx{4z6|@jk;?&f_ggK
zTbdv_FkGo^pmele$8O05IL6h@nlKEesUNgbYNbD06H)B*;C;E~2)|st<O{imkDVJm
z;~GCXN-gRO5eu1<ieUQywlA3Ap8-yO$0%AjiLVs^AXB_(lbCt@+y#GVvE_V7<^~c5
zV_Zy~Dd%cgENtmu;nRfbs8=x_-9~;CMY!#3n<1KKz`+(Rm@a+2U;+3;VkWq%p^H9n
zo2LQ`zEPf^<9T97@eaI1GqM4%V0tRTU!-pfi|o$hiEGY>=|$@Zzd)}m^ty_dXukla
zlS-0hOW2k3@nSy1*xI=(=Ez8fn19(}aNi<e8D3Ljf*YvjV^d>>FN;Qhn3i*D_~avP
zHi|gnsiSfV2sD5BUqI|H;x8NrxeaF9QKJEDh0|XiikVB6hZ0$Nx9YwWO*rdUN7fo+
zj;@%s>rtkmsClhaDD1v5Mgh+X&JM5+I{McA8y)*s?5nSAl(oM1V$59pB-2n(`ew!L
zidc15tg2_d_jk^J|Ap_pa4-MZjpGlpT&qVnvN{q)l`8?EsO`?#_0qfU&CU^_Xk<D2
z{(;dyu>ZiGu;<1ct~-`*+upG~$uJEYbCz>%?OwSaYu_W(?h&ke0ZUH9YH%aF?|xO?
z+hcEyfuxQVx2%=^j^+Ed?@^lSoS3!ziPhlteB1s`dWLS~7b|Ssur?uvqx_M{nCnb9
z-7!a7tZnaoN9nz?u1!aGEU)L0#gyCkIK%A7d1NqW=RC3-3QKRC_%N&deo5t<v$tmx
zxwWzSK_PeW?r9-+U(9~sPb`0G`$H<fG-ufcC@ZU$ZMP2IbR^mb?wa1&zif*YwE)nV
zwe@~+#hcIHe*S^8f;ckv+xGkYyJLfA?)9JDEIKFjpIv(;R@}UnzggTC>pv?Lox5LA
z`*!<V?N2Nj`2~+GnYnq7@(lR}Px7-%P?<+1hTNK!#kHZBZD-89^Cv%c7>dsu!$j%-
zUbp>lZ63c2r#|!MA0p&UEzPAztJA(<XObnzF(KHJ5v)R^#GK?ZbQziE*R)hR7?=v>
zG-7xc<<j%6yx#-s&NB6j_+ZHC5abd()_Tx88p45Ao(qgVnY+Ts6A&vv{Xki~-xt=W
zMHq^Z)-3Jfs<%?PbXTSnWC;kiC%t5v>nW>JN?uRH(A&`rpebmHB_a;wSqd}~`G;j(
zrU-S`%=2MNg~YTd$Y|7ciHTW2O@iDc85BjC17n3@Zy84uVrGbX(bVBe8Arsv?!({X
zOL(0y7}+lJr8a}%MU0~*BiPo)S!G9$7|NscKK3NoQ$9V$*E4>__@>clc)i1HxNiJs
z8CQ*N)1s+!ABhmn5D^9;<S}`=MVo|9S-l}IkOW2SD@=P_AVvuzX79P^3jurb`xZM$
zAV)GVHrAAVGmRF{9+q2ppGS@T7sw<`8<xK`{54RfA)`3+hwc-Cy=nQxO4XwbgS|9v
zs}yXNo3`p$PR+`N)v9=1uTa;!S=S$P4cxQt_|SdgCt=#~eW|<G=r&7>kOk`_?-R|l
zb69^e7X1)evDqr-C2K&k9+E$Rz6S$~iGEV6RK9IJ_+LeN34)xsXg3T`Dh$9~FWi1%
zwPKAI>UuVdd)Iq};(;3ziK3d7F9=1R8{-L^<Bi=ncYj1ReCY02d+F}PJ@<*n7JNQ7
zWY{xNbxS7Wd5E@4evb2nB>qMA6hvv#+HIGZZlF#`U|R@LP*S2QdpaQF3(WCTUYQ(7
zkzdiUVvLCq3?AYwLoW(?Qp8m?fv-x4Cz_!$2QY;AU%)V;RB4Yg(6|h?X<tN6X40@)
z$_!eTvRH0e$&Dg7rNk?>r)7dqCOvVmP<7*+jK%WKi{vXlV4YYLRJX*WZxNLfJgc*5
zRiF&luo8%El=f)KFG~x;CoA8cQohQ$mCAQ#O}&a4$q>*HKX!gDCYp0e{U`0xhzf+L
znKm2fwFPjOh^^Y;V)U15VP1~RI-6w#LOJB4E!h-*T^IXmM#rFQjAVgw9-Xu;RI#Bt
zZU$W=5EZ+K{3CjeP`?BwV)(B}@FXcy?HC($F;*ahpZUuo<<!a~)9Q>!Z5GNFRmnx!
z%Waok+E~W!i(g<H3ATELfK>6NQogRM{>UZQ*xZ?65BA9Zu-XtrydfH~@|0cfG>AuP
zi{Q1H`F>YQ)v!$sLt6$-1C)(|QnDGpcKB5PL9o1iAyC>ZNZRBiH;`vYNRE<HdzQ98
ztj8%=1OXo2_sRkU<=|BS7^0@7ts)yHSau0&dQS3wR1`aE?Vy?iVEk2o*e5R~L|y=K
z*9NDqU+{TZK@0O<*2`Yaa1kx6!Vt9E$EoIWO~ib{bS%hwL8{!3ZXm}WVdXKnbH!eg
zN_$eJ(jJz17=i+l$D`vt(46Qctqo{L1j76`kX}+zA&#%u`IIcQ&F^7Q@V}1K{5L6!
zg0thhyS;~xdB>ka(|Zpd?%5$$ogMG#)_79TF7Ki9=f;N5p5>b<Z6l@4!T=(Pwpgi~
z;M|#WV`JlDVOk&+0TIPlDVwj+>+AF)jYIxzdQr_Z02V9S4=L@ZC!r`$?Hx_O@axF)
zKjAO@KjU@7@Nu`vlKGL<P}rNW7T$V3<^sKJD$Klb;-egcwP?j2FY6S_IycL@)^~1{
z4gQrWBRdBnb-n9do34W~YxM(r-Rg_+rV*iOWWzp^a5S#j<E^KK*3%n~(+?}^SBKU!
zHY@s<Pe2{OUW(1hlUze?b==-4*c<QJo8|bYgw|6Vj#Kj2QK9wdhU2I<^#fZ8(n@Ul
zy?}cff9kVOc0E1_y#Mo9ZL}f>Ntf`mzPSa?;xluZ_{+kd6@S@2i{82d#wl2mT#he`
zv*FK<zg)zYeDhS7!)KNKoT^{G>MBrOg}!XA$d@C>Eyh=g&&HLaY@Jm@j#Y*-%Mr5z
zzm@o_LT=Ugtx<EWMW_Uk%a`lR^JU|o*_S<ICgPv|<j^`bMZMyh*|Tf_qrc&`TxcU-
z;hLbs=Je%rjev*-e%dojGa~Jg@&@Cz`8Bh$PEHp69rI|><WY<~T3=H)B9kTfc5A*%
z@!h8RF2i@b=DQr<9h&b7d_xyig|QOf9?f?ZzPmKv)%fn#eAnQ+NAq2a?_SNf3*UX3
z?>c-p`m)e6{hC_UtG)vo-v(~SYlg{2ZYO$j*EVfWvevW*TC4gaXV7P!v2sJ`&1UGV
znzxNdW$BH)y)6Acq;G+y?p2n@{%ztC%-g|%e4zQ71%26JXydkW+vPzpenLJoIov_O
z<7V*uH{`<|V(^Rrp0-cS>uL3(d~&!^<kPOU(P7kMJJ^o=9oz4y+=d0*F_hKuQyU+d
z+;OyLCu{fZV1C-zp)r!foj@KQXi1wf*3HnU9>aGRH}31^fc5Y_f$tt)?@tBllNf0<
zN~p9`zCMm=dUK7?p337+Yi3jb&!{|xPuZN#<IZTyWBvcrn764l%%ZYn{F=v|Mep}>
z=X?VU!|TplN&A^${6@sfCKvkPJo;b<@*2<|fh?AZdj_#~a?he|pVN=WJ-?0r<Tn1)
zGdbJ~$afd_BJkU8hWiH972_pM8xC=wLySGXy`Qv}bJxHJ(5*f9@;3go&eO_GD|m9v
zPOjshbw!>+IXZh#d6lI#`ocDlNUQXA?JI?D*UD1pc5N+%PNSxhOOHC>5ZZ{*quY9)
z#aBLK(ZTs%v#9IoJ~lH<+zk4AKX*|-KdgqA5Psk@_aRXvIxE#@tBo{2h@zXx<otkR
z_<sO6W&y`R?y`RUxWG34L5#AWcAHqa5MVj<KR}zz0ge&hDDdiaZXOu_75wq|BdVR~
z-$s2p7j#BgGa?ToUN%Nt1i2kqHe54K9t9hFQMAfxNuyKW02533kXaeTXC*ER+oUQ?
zYvKaP;o!bVLd^@<I=jYwP{76kg1|yBr0D#+Bu&yV_|?z|fR?)#lJQwr7u$$m?dfxq
z&VcL8+*KvP7!#x=lW}ubLo7{~>uRrC<_=8EMSO#<asM@_6$OX|5q4ee=|F@Imfh7p
z#v!H>JHQr@Jk^Xmu4g6o!}Q$zb#Mo!A}(yEiGzUZfZIfzBo{F{Szb`b!nlJ|(lwA+
z>XOi%)q!coE0t6<`G_IHlp|Qfx%@#$&*_K<;|l3=pEN@8LD$4nrTi)n1M1~os32^O
zEpb}F{h<D1a75<7TTv5g_Q->-V<DWXP}v}K8YD#z0xcX0BOfR-s_7wxgqY69`Ke2Z
zJ4U%Ay;9OkqQ4~Dh`3e3u*7=Rvd{=rVnDHQ5(8?OHPVR{999S~1R~)<*Rz+P<_`WG
zBm>C<Eefj#=SZkRT9%v&I8Nc9ChP!6N-i3I1_T{th^WdNDl^7)*~dfPtY(+W)H^LH
z<Fh_id2cc+iC9h&@0gt}NGV+MR|UlKVHtlo2oc8=@v#C^5OMGlPio@uIXcah)U|_Z
zI7R{EtBCnqI!3f>+Z$(<*x4VYB_Xa(Hi+oNJd#cv$wwDNXR;vqC{hkP8NxJH7z0Pl
zib&cAOs*_u;mi_K56py=V#a?>ER_$bfOp1@#3&O)w1;u<1al7h1EFcLn8HyiDWoz_
z@KEP?u@s{V(R>hl-~biVob_JtPld%Qh_(XPi6e)BB5SmI=Ry!TpzCppM&-bYd0<u%
z%NDcPi<3N}P16fvG1ZTnB*ftyg(|MLLd+zU<Io&HBH6d-)Os+<f1WDaW~c#e=1o&<
zEL19w^F=t@#16ttyEMC3(sN@1gdGsw|FZGt4L|RIlv9mxv+Jhe7a%TBhzp}3Vpan6
zj#2Q{5mk?H)~3Wv{&L25!GNTP4!qtpcuDrko=|s$ln2<Ol%@^8Y0x9}UM>EF@=VF{
zqLv#)N!I_Yj?SD??vf>HLD{7B$)2RHoEpOwbs>gId`4Zf6-w;n@2jQy{<BrdIErhj
zE@X;Ymg=JRS4~lSC_7TCgs5fKNAnPt7b=X@rH9SdD?Z8JrG{t)U{vcFt>8`3`Vcf0
z;j4;SB5ozcEToa?PqaSTfI4)f`$Ol{tcaD6TT++M7%d}>LHMaeV$_H)+S{-vT8S^U
zt)f-<QdRDw)%a4|CNiX^$%xiPZ5RO_#V7d-U$vy9@9dtWTXAuQ1tT<NW#Jc&2f1by
zmZlN~ze|lb9nr?w0~#;cdBwn2L=GwbT;}Yk;!ghFbSUFZ`TY`Vub<yd2LXB0fjT!R
zIYdkGr84~33~5rr*q6%qV_z*wScH`B*)w}aaV3A15rn+eKGvilsdd_;Nul<AwC2@3
zwDxmpQSpg!RfBPrh5S2}Q2m%;jL6wZB~J1ey28+#;BA`rwQ5^%_Qhme#dXWbzkuA1
zD&NUpz5)K-$#2C4-_I%T<nJPI5Xx@_ufFg&bbpn)e+gq*_RoTUj>cbiM$EpP%u{hK
zHAR~^8xuPYLVp({@S2gQBQMzyw2nag-N+Z=OD+drxkk(#y*k+qOU=>daH$60O)I4&
ze>uC-YQV3#OHDU{XCpo(T)+PCol#;Wf8ndsf>GqC*MIOmmrSd;?&Q5I<9Bw%re&#h
z$sKLMDCt*XAl+rfo&4n-(N;w)%-TaQjx*{`#?iEjEt!wv;_^|BejRnj1FPdDC2jH-
zdFZrAB&ftdct~+4f0h1t7n@yrU<Lv!hh9!F3}Kii+^lIGFJ^`Gz<-zGj+*ebTlqq6
zq)C_dL|xH_I|a!Wic-!=j7m6J#gS1n@*uRG_Go4XI}n+c$9Ab8x<u|OZjEN*Yrm3p
zl(57B^~;K{VdV=@d`WR9fBDR4HrBnI8xjoJNO4dJjppD>#mP}8zA&q#CyHM8syI4Y
zfUm=9SRuZSs9#0+Qt?Q%7+-X%iamho%ZfYs%M~(w1#GPcaafDTij)xmd{X<WHCl_@
zk1IKa{z){SD`xoNh<;vtN#s|Q*t08&EBTv}+vkx7DOsjHz%{^bd_a@auck%8XG%`b
zY+G;2sTZL)w&oCaYD)Op*6@%+6aH&k!&4wA*2G<XdfdpbE8&1kXO80Z1xEj@{+!mK
zDWY{6D)*a8-pSu+d9(!7gF1hbA&kZ-c{fM$L4D3DVMM=pRUFBcM*gW1GGkhHK=^0k
z%3iZCwP{Meqr^!5B9CX4FHOvK#V`50)E;f0{jKD;;!;*IzBuyF6~EcvR$R&7XuC3Q
zv9gyhwMV|EghksU|3Yyq_=O*e{42$8_J2`a$zQGllo9X(Jxd+Yj#nEZKajp~o~2{<
zUn}n9FPEW|ulz>aL4iT^iZ-~Q#DkJkn^GhAt1BXU`+rj6B!6e$Pr4OXcnpU@tH2_e
zS?a`Esn!xX{Js(=`5XDSiaXjlV^V5_`7S8_T(tr(4v=puzO(lfSMpbZJ0*2ZGBqGL
znvAWu_(S@T&HkAZBl#Qd)W8M2qgSKZL^8hO(laXq4Mf-1)jlDrR&PGBc@|ajN&eD)
zO3yG2e0An4SNFBdCC`5wyj(p-iv@@7JzN7#R1?uvIz2l3zbBzoTwD{^c+=oFMm^s&
z{v)HjQ=L~s2~)nJd|fxVn<o}qNBm(Z>k}i7c$TTVaGa^&rbwL>rZpD(MkTF&s3Z}4
z1RO6-C}Wy!&48)>LwnOIGd#SaRc3a0#UfI}Nmm+#0zWCXES8Pn><sK-pcF|zj5K!!
zU7uf)lvHQa`30oJ#111Q&kleedFJGypo`fmkq#+5105SLJjcD~&yIT8kp=JJ^JkBp
zobaAKI(%ky#5?-jsnIj%&T3S-7LSac8at?*F2QjJZ81>zB27E>&=oO3!9$bTcc~|@
z7Q4<UOp{~;@JqG%f&0ib$EZjTPs4F><qRotb+W?|D!WTLBC1nuVhKu|XDKW2Zz6th
zQkArf4TVEyU?7L)p!g;8aTJg|uEXFC(r_T{D`FPn1BWz}<m%}s5C3_9=gxfk*$AfT
z%729_^3@k`*6j?Pdus}JHHBZ2kFGJ^B^kOQ-W_^TVl{Ef$u^y{AA`ui1LZofy}D#o
zXmFWQPk2!r6r$t;);l{pm!>>T`qeBqn2@ls;V5ZF^0Xx2xcJ;m1ePBb51gc9F7lU4
z=E1oXt{efK9Cg(Ep}9~eYi4vOvHm>B%6~C9=jYrxJgsbEzC1#_FuDVSCtx#+IWm8l
zELr3ei%rr7mLoEqFPuIP$?CUxfQy|gVTr>$tq=U~(TnMY^}(esDR3Li_$$QU<8$C*
z{j!M}b1>XA&r(?0^J)WUx@q<zp7iL)(o@B~X}+1EtSqFIdSi+VoiJrwBb0G*eiC`f
zYpIeu{o-_JD<Ch#nrK7}l{b})qpU4UhS1J!^026R0QyhJqd3X2`=q!@z8lW^svIe$
zmdZJ5GE1_!kV6b><vHpLpmSXk`;z7n4$UoKx<kw`<B@paau~)>2xx?t&Zc2vrsN~D
z<RJi}?1+1s)W@W<CKyH}dqwJz3W)g0&{cS>2Z#88lqKUgdJ%fH5g4-OiAuvT{W^Zc
z?74ZEtpaQT(Mf8VTCl~_pH_`hqkb=)91MH5dXd^De;<YN{~MK@L+ZQoWIVt;{5aZx
z^HRjrrwy9hBFZZ0QY$9Y@<hdnW@=}}Ld%UC(!qdyZ+a~jI~3ua#|uU{taN#k2Lram
z9>U-a(+1?PaXcW$P~}=4OE?PS4wv9?#T*@py82t@U&>3=HpFYYh1%|T?XXZg{9fbx
znVYpIZ`l)$%9x|!uS~}LXN(UDOW)jgd*ABmjl$*+8xFqL{|Ebjuz$1R?Cr5carv8{
zyZt$wwkmE-4SCqG=kB@hd%x%1Y#6^acE7NCC2+4}-@U^9G5h{l;r>KnZOmRPY3&;p
zvtIPHzR0z^4?`8VXq+sbp{ozi?^1`u;@MOt|6bsIC?cmIGqyAlMq5Z4O=2sDlA#OA
zu2^k+Z21q(U0vMy88SU|eq>lpSi)9WnhH4DnM9|HJAlGz{Y6OHLP>B@@oZ2kYTOd~
zz3RcbM2J?B@YHUR@G!g!DkcKsbaNq|b`fH(Y`%wCf#TUgKTs}(M^2qPJwC-_6;zu}
zY}zu_o}C!(*^wS?>x`75sWY-<D`3)zMMm>5%M)%MhKCj~^~sclG(bhOFLWg=)-!5m
z<k;EagJYv<^o#fGxih1~<6<VA_d!}RoH7Sl&$Lf0P9^bV!)ZJ*WTo>eOaYto%}jxC
zkX9SkK71a<*rb-SGx|cAp2U9P2{ZCe3e3^i(<{Pg2t&1;%($qO9u`Ac`c*;k&B3Y5
zKG8uWB{Rn-Px@b@3?mewkmQPVFoqUIWjXvq3jQN{{V~008%f85aM(mjFBTAr@#A1V
z`d9HQ0se^ir_&Ae@vl<qObngi6y#u%raIA^JW<{0mego<5~*UUfKxf&l47!Kh7g!c
z%ZQCqbOMFE(|SOOB~hwgmNF%Zk`Fs_DrS<z(Kj#AUBo{VvtWXdPV=)vpVBeapC^BZ
zYW42I!VJvpv7<ssij4mbMQWBtm1NN`rC3;>BLjbO+OHzAG^c)tTz^Tg@6zioy=eEz
z)8?B0m-PBRz22i2ZI=1pr5A0L`F}&N|CL@<c!@b9Fxhq1=ezt&pO`rYdt6ifqV0@U
zysG(_n8L9Z(R>a-@#U1dgv|h)Irfg6@*X;Re&U4p?6JvF{)d!5EnsY=5DV03Cr_R8
zj*UJuI>yu9Ni1an<T?7>p|SHLqu#OM=SR<+#f-!8yLng+3&Rv&K(cY^^<9|?@c*9D
zS=f<%(S%c7nPJezWMm98nfFtmmDWs{HoVCHIYB@)nb`elmr6FVkOBV}l=c9nEri;}
zF+~-^$4N()8!3d26wnq-%$4zFn2E{7Y_Aul&B9@?m%mKe{D>mwN!BG)Lq^5S+##gL
zidqBdFoZ?bTb2?_GJSV9|B!NGD3wNybRvP+FcNOqb|A1`U;~D@dyKAT>+>g!5Jt(e
z+4l#Oj8V5gAy?YG{}b|K!%0C*J`86WYyBw&#_098^kP$mWaebSk&c=xRwsQNPt!#+
zG5!yHiUrh>zH8Hg1<ofOUx6to2{{lpWnCmXX+BG2k)$)g*Me{kcO!$B6-rS0P5Vp@
z#Fs>(@Q;vkF@FnDGDNxldX~ZPH#p&kBXik#H?st5**$B;6T89gjN5uQY`ypG1#x?o
zV6Tc*AGv2gns9e6k9=TnequGW^}k!SJi^XXfLw744xELC@wk$>(<L}vvASpOIiG!C
zD~;J|?^n9wmAyh`?`CB`sGF+RW%E62`NNXV&62KVTcWa=zRN)T&|%01!PXG7b-_1Y
z*(X%?#VdCUmAh|_J+c~*a17_8%W7k#Z8wkH>pr*H{S1y!X6M7RwmDYQb9?7^qQCWp
z_|8+p&Qr_Q2aUTZ<GK$UcHX{r_w=&)b^F7i)A6BagrR2=#ntq`t|MNzN2uHLB+I-f
zha$UhT)V*&>mC*AN9nsZ(coeJiCXqsm2h>_cQqB+Nv=wqTrcfT*h>@kGWOpo9W+T)
zx#CqFLRCk+YL`&8>pgR<YUGJ6lb!J{Fx0r?)k8w{P|RA9u;t@)cf5F?fd96A_Y2U}
zJLA>+gz9~FuWVKy-Yhs0vmZ(9Ie@rvYmZ><S#K7syAu^I)X4EbZoS07ZUz_P(Qjj7
za3B5F1G?57@s{I4%kj;YF&6aDUJ<wN7wr2t?Zec3x%aG{s5bh{(Y|hucc0(rKL1e$
zPRu;Osqrip-h}Y{;<$5Q!#R*}7R8;Ng0piyf5X}Pu%HS@;q#9eA7^9~=HZYh4w=*F
zd1L4+LyV5C-Eh<<N-N`~9--8;Ui96n->ec!_r90EQF;)uQG&@>+=0aT1u^*K7|J@=
zjT@ysj|`^#f<)0M4hB(34?^;*;?8!#*&cU}3eHhLp4*IGaJtvVHypb$JW86^&c%v*
zHj0nOb{u{`U)XW{#|BezX979q3uV1O&cMe5rB`BQ9jIG=^G9}+c)zIP&57F+k4&cW
zG2@dAb8!iZ>)9PE>inVId4KnKqO9s|`&)M9r=ca@Feo$(CfW{RKE&OJ1^3|udF~e)
z_CLwZ8q5>yJ7V@~I$Vz<NX<KGn$#ySrR*-j?pm!{TfAo<Onz6d+wR%-s59-6DI>oW
z^~q;P{L$QW(jTS<Si?69&SvIl5u7deQTfJicfHfK=^XsH*oLOBV%<bxh=l*BWA0%i
zD}Qz5n<v-L-5VH1|CCf>?BqPK+T+$f!P=K7Ygl`ZhC=@ng9#=JFx6UUsFW#lGvRQp
z_J3>7H}(jQuJxV`M}N%PA9M7p!CeR58~KB=AB+iIrzl-VqNam>E7b_{tid7SxXra;
zb0rEJVufAn$7B7+WA@{*!sE)kN>nt`uuinF;oGPni$v2PWmvEJcO0c}w;cTe<y$4#
zs#dc%Z0_~Oc<+&o-XoYw3FjF)T84pXLhAs-)W&RWiIzb^VvP?Rl`Gdb9Ic7M(s*I(
zMq%syt^@I|6GGRCTO%J7b<nP9^7iCv&p-CEfFnZJ5h(yuA-`V8uV3|V<dcmH464fZ
zjmq{X8HVEKcu~(rQP0Ejws`rFP(DPXtoQ?GD{yMZ-gx`4&^~<2e9zhXux%H{Q@pH8
zDC<hpG$cyv6E*emntq|CKjCVOyLJh#U5Vnl`<1ov${j-G4nkLz?nG5fysA&A>bu(?
ztJ?ph*wzlT^}6Fxg`wI_4O0HdT$t^;*D&yZ8}R$YW2mT!mv;;0Kw7Wo-LI~TSML_8
zcN5kbeKtP&k}&$xy;1Mi&c>@dh3d|j=fJ({VKUNZt+;P1j+M0DX}V|YzF%JXcKKW7
ztAlG-Hp_P`A5S>SV~(af4QsP;&pyGk@9ry`p5e{5gR#TU32o0MTus=p=KipIc(eNu
z1L=XI@Qp9t{9@eEx#8&i*o=<A>QPj~Msc0sth?8^H@5$5tl=C?U=-yMI&CAQfHQ#^
zr3DN}Q2fStVY^V+ey_0eeu+C#G>&eiP+$iPS6ZzqH*A%wBk{%op>ZJIcxa>X&=aSj
zusKoCx>gi-4+`$VxO+r!kHp>Mf_psHI`PP0JZU^)#7{c<qW<iGVN?v?L|0$D>#Wdq
z79%l1?bjt#cO~kZ<Mq3R`rRMpW>vvxNZF$T1_F)1xUE^RHOFmTf~^Y%K>Bk&GMMc-
z7<z*zj4@h92Y?(NSg{7it>uEXJZ^0j=>O5RNX&XPw)4n_^(cna(0*yW6B_@(S}&bK
z?88EyVo1RXj|}`h#w8idh{Ds1B0#mmpvNlHW4kHh7?|rYzIri|i89zTo2|H#zc9*X
zoRx)qNneAmiW(SRs$yHxp7FcHO2h+^lX@C{R%MJyVf4lce%%`2T)#p0guI+@)R1I7
zUN=BUVVYRXZ3;6+K~uQ3DeQLJ#43rI#&%N@^(Afl*j|Pa-eRS6!j*QH(1d1|%)K+R
z9drIM0E87H--U&Xj9_DgvS{*i{C<S+|Am6{Qa3|x6QhAeXL@E~;%F+SC**UrY@-fh
zo=i`BCH>dMdX=b?Ak&HS%fw&$BC>;tP{Q|a!Ro$eZBGzh=@2SA;+02*%A=c=$1#i(
zw#t~T1q;y|V>e;1r#4pC6R#T*>W1QVBSPKCd)%KKd_VHXM=?(^hcgXzJL0ZE!8M4P
ze2a^hv<M|FG57Af{qdm*VQ2yqv@VbEZ1tmTgT0lF;FQ4&n54l=z4Ru!g&%-}aVXv~
zvW5v`R2w7%96aQahQ(5~zNrnlib_7VAo2|Zu+3*GipSkC22DYtnY7gxbJddQ^P9+@
z??uF|SrdqC3X<rYtYPZ$zxAfwS*gAl1B@@hHZ*Cl@Z`DZR6&s?UTaj_BBi!*M~mQS
zi95QmHpAr7&kn+Wg%Z<Si|xKN5XzFcJJepdc;{!>UTp7|-d^OXfkrmSw*E7RhG}0z
zKmYQU_Q5SfT8Pkt6zw~I4-la%bRoiBM_P#FXm@|+5J^m=^d1Xu=`jNOcYgNJz>Le*
z(M+C;4t2gsT(S26OnA$5^9T-4%<B1>O*iQj0JQ6`$;dvuWo#WFXv<Te)yDrfx^V9j
z9J^xHT|Yaxi>cK(@Zd1}E=9Hl{vZKglLGvfMDL>pTM^w}!Lc`H-TU`b0~q{}*4nMj
zKe}xVl8OF=2J#_9+zKs1q=n-(IJR3jWF=Y5noqy5!0Z}CpHQDIVX0_!O?&hXD?r?6
znh-6aE3lh_J7hFWD4F|hlZYZ_s)?~f#Tx2q&5bL#&V%s?w`;KD)L<<sUA}$l7>(Y8
z032emOhayd++HWx>(+{5_D*c;bN93DLzCcaiaUD*XU{rJ3+}-dKX?BFY?vLl9dYMA
z!MX2I7EJJMZF?dW*rH8LHLW2#efp9tNhu2cXs3(`n1DysgG_{T7;@4q$N;Az5nkfY
zrr|iTAQ@R1OpBE%%^>BZ1SY8JrL5`?9VNFS@zPeIv~{iHu4U7)FJ|4hwLa=t`Wmax
zryncVjNyT8$Cl2>LHueKU)>R)K>3l(fMeX@Zb3jmdy}*W_sN(hB>f$WMD-8~<7pyE
zY+M>4>1a-LFoZJioxZdXx(t!TVp&StVF6P@?o-1ZN1^JNA(Jn0JGNW{G-!?+8B0o{
zmk5o}fH`iY5d#*>$}8YoZa9ywo{Kjf6`GE2Gj^y>Z0u0;fNX_fxrxJ)MfWWo4{kaW
z$HBgld`3#s@mm8Q68vDuO7J_2w|2C;;rk=B)OJWi)(!sDl<0r~8!ws?>_OM*bgq7f
z!dGYG2VWh13;2?_FYUQwRL-C<t$5h}!&ww;=e+9hLAt`UMEK-zwT+@N!G@b&99(*n
z5{DM?w1@9R{xsLpo(M^U*rRNPBbDhsdMB5XSMZRg9Q{i|aNW>g=)qp&DzsLfN1Ge5
z=ed^gyaBceEfcsQhLN;H5J?tcuaN61y_V_q6?$#p<#sR+F_ZIMfssE+LZ_D&_kkKD
zF+?`Ga3!dL&!HC+yE-Yqzoz`mk|ZWoV8Lt-l0-pPb6A+ig<M*5u#4)YUY;#sbUR0w
z_6ux3M%*8=lWJ|lJCU3JhWDm7p4+gQ+wc_L>Q=_8Ei;9&n)hiLt8C8qgK5c@j3L1}
zbl<ge)3y74RqIzL;#C7e)xaZ*A%D*kVn_c~xgoC+zzMkxe-oxr{2K?`50z*9>vGGX
zdR+ZL+fEMFbwvvk%}AH}WJ?lcc&C^nBqYHQ#pmF_Ts7(K3~{>7$QhxXS%6>Z<^<?B
zLCYA%2BR4;TFA_ML^JmwkL%E7;v}6UIZW~eLnCtn>Sm^^J^1V6ac8Dvc$1-8c=f_Q
zvYFkdmL+xdvlIhYZW^SUN}h*H%waWR*RDbI$X#QIhz0;2X$(|Lw~sOXGNuir9QdTu
zqQ1pu6)itC-hZXBaRSu=lFlQ$lHjo}=RB|#-iku>gSEa4yylJ4mfLk}r<cKC2gmW&
zbu9g>4IB362f4*7MH{)*iN+rC-muq!ZJk%c5G8CMv)-ZWnrPdV(i!TCKQDDghF)jL
zhG}ti#VmDP+5@zN?x0H~qRA^JpiHmFKLc_C1oU8%lj+ghssh#+oh8PBd--HNbpOzJ
zP@W8j7ueZ%b`Jh(PkJzPD{-1$(kD^#QqqzR7|!WJH&C`hABL&{JGBgHtdvH!u%1-(
znt;tvS}VoO&=hP|U&ZBBIEL?qmdiu<@|-$4*f^mE6?3Eprh~=IPOx@x)JmNW6$ywz
zsnnjn)Zx*ZHaxbC=|I~vlc^XWC5qwEa-q0=IVVxp6ff%#$~qGE;#-TWM}*S$wMj6V
z%5#=;F><o=-mu-Y-5OUIrZ{9QS@NZ^52-udokz+r-mAUSw9G0Gx!Fu5EQ*<$A(7C0
zDb@zL8<nW^i-BOqDGJ<Na>t~sUg%~E(q&*KQ!2gTL+ct#hc!Z8Z7CJqN%O<sM=@%z
zvJs*vd&<2h_cZAuv5-_1CHOKizdSy|YF5-kgKT0mHEhm{$uS7sV%R_klVUM+2w9)%
zCD63pVA2`@W13FUH`HE;7b$D;>gAwd%R!e9wkx4(sMv-8yjT15QZPj+WylV?rZ4%X
zFVDlsZA6(40GQ%noWrG>DbUMGX0;3|R|`-pkTwvzf<iBWc6bbuayJ7RppyC+6?L^&
zo>FKt<rWTBMa3*VwKo4bbR}*~OwJz~LJT2^*=iB|3sNkGh;^b)U{hh0X4KVQXkV~|
zWTit!;4BHtnB_2xQOSznFC*Wrn7dWVK+>_2b<%KaDH}<tv$Q8|mVR;)7fsif005?I
zqrqNuD*{0b+p@heeserg(U7QVhuA7nR-343eq=M`R(x!bOp)i6tW*iPO%Q~>F>!Mu
zQC_EwOff5^n85JO5-F@DOw~zy31w?0Ef!MUNvmG$LSz@Fs_Cgy6<5>{zQ2>9nW{+V
zHczk)X8p&{qp`uiy@(&4C%23{S;w$0O6{F3NV7)j7g|x}>!wnBBe_|Adc;xcgCkNO
zKolkQ0dx}L_G$rg=->zT4%{d88C#p5LzPnSq`HXW9`<c_A9}oQz7U;a27GBxl-Y#m
zjO=!(tdQerv2bTpX1D|w;b}3qoFA}pR@B0l<}78Sjw>b6$xMU02>I%!!rej1_{LBL
zQZT)7SqFQYR47Z63VG`Y#ggWsX}E#DXG+i-((EM~FBVC!?DtR&wifd<@MYu4ZIzbc
z?S>NT9R3obhiRuon1>!lsIjrQs9s{~QL)GKG)#U2(b>w1X}AC8{<zHzk$IxLF<#y#
zl(((z7Rm?i<_qP6H;+F^@mxOsp`$EO<&IZ%3sv0-XZgzDT9#1RwO)Y*xH@lnoW$$$
z$g60IS9Ay!9c$0uHQpWEtT=r01TaET)k<Uof`2<?{|yOEoSgTLZ&sXKJ^^d6l2CM|
z^8>3aG15+Xb^NWP4m9O;i8wZ<um*$9On>BC$SfE~+mLP1Oqs+}uZE}ns6L4Y!KWHa
zcYLWQ#Ml@B>w`eTc8ka^Cfm{Uw~W}6{XI;Pi0smIH4S3c&q`0ff^e;Bm$XjwUZIYD
z0g)vVsv%z7DipV_fr#o`k9;@!n^B?o&~nZv^{3U4T@<%g2-b>~-K$e;6`R)nxOGsl
z4&L4Sf%TX~b33Fp9ux($8G~C;7^T9t5lka;ItO4V55W)643GN(H##s=4^!i^ER}l3
zCdf)el{_J>^05v_gmPgIx&V36!!8fVS+a%lG|Y@Gp;3#xg=)nR(L)MGT-*k<5Y4`m
znZ*4-J9?Acrj(5i&PL8zSW}3hV3Q!yzCkX^Ip48r^4%`3DQd$Cl%<V(J^Ok#PEiC=
zUEEj=B~2V`JC6^nK<y|=LNLrlBnTg(7m*oknVP`bG)}S3(Tk%OjUCO}W!KRC*C>b$
z#p~osUBy_pGD1VllxPY54Dw^UWqEM2A8FIrp(Q;?{qd>f$AB*R@kz;U(s2K`fC0n3
z)ll9XFKZRbTGumUWv!cKJC}14j<S`*f}=iWt&chCadYj8@yq+}SGBK=Z&nT79A7?s
zd-S2^>((gkMpMX`)nkcPPolXeQSVMPc0-_@Tk*tT&g})x%f%{73X&`5Kd?8Xt+J~}
z6HT6kyDQPsn`mgGWR;YxgOcSF(L)jX6K+qUrALYIF^iC^(mZC=OL=J2v-#5u2j-7a
z4*_D~BkCnXVh%_`b<%&pYV#1u()RuQ6oQmPEy_;6K<YHQ`2&|*LP>eSr(s-f4g4N;
z0CCLF0h#Ka9?m)s-NLhBt=>w%5n^X`k?A+ELD*tlg82iG(jUx8Y4c=CYKt(2ND@2f
z@7h!7K81b*64s%**>u5lQfG!j(6I@igPOMxbT+ANE`k?yZLuhAFf-pDP*WX2?a)*(
zPp*(^&U9j#jj@jn7ItY5R?aAtpJMj*SYdlAT_-iHcC8~fYuM-Dz#!4(1K+?ME4Z0c
zH%wxK=<Q+Om3t+ryTDkJx8RLtW21|BNh#_pt#mVrSH71-<&@zZ0Gf)9V5nY;n!U%T
zOmdGJvkj%w{kIMxXJWScL}3*at-$pozT?VuC?>}pB(0_EnXKKcz1W$PX=)_pp;d}C
z+UtOSyGD~F9Q?0nRv&{dS*zcypMkN?+tD@Jl~aZ@WP`sxbDhY*w1?%Q!*pl45dSyr
z0aM+mr+1~NTNO1ia$8r<gI$vh4YB608D~q<3c{!U&|A#Kmc!&#*H3B3MI-tzq%0oo
zcU#G{8#_w?o1l!p6Xu!H{&x^XqL_XMF0qJ66L6yBIFbcBUZfxkWG|zqaHSjLvAZZ;
zgkCHMrWwH4@QnImoOPC=GYozNUH6OKnsi4^iE?CCIr$(To&9-a2KE}85Sx@S@xoJX
z-(igS#jYfVV5(c6bYkX18t=b|ycnJ(t;bfu*1FcSVe7bWZ%WiP#p`wnb-S2jpHR0i
zQBuLK9Bb|Pw(XzVR?KhPf7O1s==)XQt4ip2HMJ&c+v2rDLhVqz_KZ+_CQ(rSQHIe~
z@c`LezJ2-Q!W>|u5@>|Stu-6gn$^a5{eA)et^5DXD)V4%^777Z#ekK=$O2D?BBtrW
zmz2FEDj`icGaPB!UotJ6WKe$vlTxBW2)*z$N4GFJ*qM~Y617ETK!_st@&5r0_n4?X
zG+cqfDXWN)hxTCzU@JWQKl;q&eT=O5Hwe~26p&JJn!T)`-^N(q4%6_f`t##yNLgM#
z{{dz(u_61x#iqKXJ(7KLx`0_v%tr#NpEKclt*oCjNp^{K>0XsShXJS2Pbfzp3MSUT
z%}JjK1z@oPmJFgUJ_(j+CU4>_XHf^XwCUhaJ>01$mc%8!mZco@fvS(1Y{qDgLiI0M
zk~cIVu1<MeCYNLt*gi3~72-k~8+dS$vJJBIGKgl2B_H5S)u0(dY!EQwg6k`!=^+_W
z%OUy+7ZqD%BWt*@IGoAaB<rWqCY&9kss_ESBQ8}4gIQH<s=%Bymx*iL%v|mjBkxFx
zQn|dS8OBr`T4O4l6Bma&x!kX1Eahoh%*f?y+R~8{QlJTOMxFc)Kv|uHKyfKhMvdO2
z7P9UL{466a1(HGyB>B;N{ygVgB95e%jUj^*wNPU%6{1y&80A|KE&QZ%LoJA1jDBd~
zEK5Zgb9GAHlE0vn3$OzyL}-1|S8+v)?vyBo=&(9#W=u*wN;UN;j-r<stOe0x-X3XE
z^D3~bS1~RXq@*v?jO3DN2~3ui;DYx8#A;Df>tY6FZgJ&oG#5pSV7R7$%OJ`CE$QGd
zMcir*#z>puR>bW5bCFKPPaiWWB`lT7ZJ8S_<ub0Bu1U;D^I`!ocE+@c_D|8$XaUt6
zZRt^RP5u%)iDIyr#@U`^h~h%1X|`ASO8(xdP~b%$6oF3D9U-ASeSc--Nb{dxLm8wx
zo%ZObo!yZZ4WDX@n7GPl_Uvw*7_t{e-dX*8C757bZ6_AJ;its`<p@kUJG6Z%Tosvv
z<ZCo|qWWn$0)qfArCvpk9^1RM1n^)?(Oj75%)w~1+^JQtZR$+mTx<nxMjoWQpZ0K0
zwiDfEe%-0laCbDbi>r@jqxJ3~Pn~sQb~vpNd@9&#sVrK?o4E#pDU`uAN;p4kR`CB)
zd9<9bM81c%<^f2l#+Exx$z8K{&U4MIre6J-!nLqjU!mXjy3_?r0a)~A3)r_ymC=f5
zCBt@2h&8GMG2t#c&!L06?zC=G3pcBU3#pFi<oHy4c&BZf{%WT@!`WO1`?YYL^b0eq
zsd&z#!E;s7s>o5L{MqA*EBQM+mUJsF))sYu{G{TO{Czqm*FqlpK}y-Dl6fdDy|OjX
z5(h8s(MvHyQZwRke&%*gSsl8PtIM74<Z2Z9TuLp7Rhjna!NgjSxJI9H{D<0;^&T<2
zQ9W(Ch&|^^*e5SlN2~QpxNUmfX*Mj?ELCeTQctu77)PaqVbD@L+k4rFtN>KoVWI7@
zk2IQp7iphKt3EzCC&RG600GAHI-#n`WzI%(m+M=^d#N@;!T|Ol*OwG`@>jt%>Pi5U
z-qBh%`|C74SI24B^?J5))#=eTSh;ll<&~=eP<WH2D=s$P>ly7rF?4DVUp>6gpX4`$
zeyUhNOFd6RZExDNRDIRp9+=?&34j*OWCTCSeLp8Up<*z1RihMrSS-=#IMc~~`36eS
z#%$!vQj_9w*__VAmBaJ>${v=d764=I|H2RdAIY5|Ne~%>pCpKjZHkVCE4UDjxGwly
zFSK0kY3XRW+Dos#mX}-?a0$ajs4$2|4--H!Q~Vb%F3iZRc(D-N5Y0EUi!U-Y{tLK#
z0mh>)T!$S8Z$G}0!f&uf8CO(~jY@)JF&DYAJ1geraD^sgxBiIsHvDzG#2m7vB3+<-
z@uN$BzWmSs`r*FCJ(?zgZJrtEi!jqbP<+D2lx((7sVI!VOa(lygL3s2Ev_pt&W0vR
z@(q|`n}zXR!TnB?$TNN}(`&LStuN-uTmwmn)hpVy-(VWEDyQY|OjmXK(f|9mfBUy7
z9A=h+ag(BG8YYloG855E*BFSIb2BqxUqsR#zl<19Yg`IntYXUeiX||mMdm{6*4HG|
zm!{@nPedAHkSHfR>>7bFOudnm@{s)!#y*2-j<1t@jb5~j@h?+!rsnYH^hx$8Bs(Dg
zfL!DBYCwQ!gsmH}#v-@~cy1xgjNtIZ92OO}5ZM}I;%SLbSB{ioM!*+hMo@SgMK!}}
zUxZ0VMH`Ig_;^3NCWI$MCW){}=p|Y(&yW?ZxBM3gfLF=461w7HMZ_d`BCG^OkWGlE
z(}%pDUUc4%pP{64RHTJTIQRwfohM&1Xvv4@MU4X6EifDzfeNL6Is)b+bn7@~dI)C1
za6JmYgmmu4bm7WZC^y#PD$j~?2==gdub3~Lr;tpIc^SXVna(BW>27;8g9dHnk~X{?
zFFYfbl99;~@39f@xs%Lb(+Dh1jvO23SE%^6==H1gVq>5BTFhn|aKsklze?X42`;qD
zrhTG~9cd+tLKr-SIt|LEc2WyeEMq)2MQcm3{(>t(aIh6hS3!-BbdJ{O6HA^QJ$B^i
zIq%s+!(?gd{HaqX&zu__QN+irIczL7uBf4Aw@JOpym%VEV!q@f%MVD!FWiXUVzS3i
zcu8s!KSJ#77={M0&cgXtnPEtr)~XGd7buc$XO~XJZr1I6uXLmC=mSUbN~PdvOq4dp
zOWTCfwzVFiwDXoZ;VgbL=XTDo_N@3;BKX@SI2+^6Ho@7pw)X?)?g#17)4x-bubyA!
zR?n~OXBIHnk(bVU&I2D-x^MNz?0q;rZtr8(Ejop&&Un>Mp=xKm>VQxMvmxb)%0@cf
zTT~V=8WxI%V+YS{7M)$repp$*+8=M|7aICwJC45Jv{`uy(e9U2uW<32E}^C?)^qIr
z{>_q8%Qn*Is{S#od+fdM>|Gz)bngFg20k7*t5+*y&W;~j@PRn_^|7WsIEVw`Rdxxq
zd+o(5rZ4aR#@-)RwcQ$s+56Yccrp7RlDUS|!}1w)SUv-X<*kP5wzp5db#jwxLe^6t
zrd=L~P&QWCDcCy6L`v<k_gmkuh@Cwbt3JP3@J!793}mWp?dx@SdxUx%537Ax?piI5
zweGsxv{`;&Iq!Z=)2c7ldGNi_%^DnauKdtelW=v$UA=;<chl9sJbKSwov`P>as1|S
zS)BXQJ$rjf>(Ytm)-_A4>+t)QP1gkOA^s4CEXvB4k3FcUeY@?gw$<l_iY{oeI7(Nb
zZeE*kR>qxV;9#}$17~+4zkKCIA>WNYx|I!0^f&Wv=OwC}5;ZM}`mTfvDsry3$KD#l
z_oG}xe(e)OR(`=pP6HZF?cOIj22{$j`b8WBD%%IKc2WD<QK4vHIr~Ff+5NK0)$En=
z&9b)TWA`iSR-4u;*SXD#p=H?8*b!?vc>Co0+3513(v{qJS-ViyzFE|<ZWM}oD0LC^
zX;<=ZPAnh$DAQoC_}c7R@xAWD_iB#Zuc%pBir4lEwY{4aeNx?E1O(PaDp!VoF>e*s
zYxu>yL{s;AxzIFpH}d`H_o716iRBY3*#en7!Lco-fp&SlI^HuP^o+nP%02t&4;wpg
z`QDuU$Fu7L-yQtT!MlE;?<gB&_VSezg01BNsTq;+oVD}co_uFA-nmcc+_zb^A4*0T
zWYsZOPu#UrU|Rfwb9bVs{LSOHk3-Z~<X$_yQRGP!S1`*R*+OyK+Dk(5V7zF*P_%!u
zX!yO6jiRFuOI&1N!jtgyeS7wu*}LU}=TNM3<dMNRYJ|y>)|IYD7E^Ki;|w!dm@vb_
zgq<BgYY-sdFR6q+<A<Ihp`z`*ax$;dND}=#+)u6TDu8J(ymeWy)iE<Kq#ux|s3a9f
zSs9WUlp!6*>L;WP`BC1M<RvjEWZBw~6HLq0_X+iV@%ocO{mISx)3C|-QGubT1-kF~
zb*m=?XV-(`hSkr<ihF;YWv=#M{uI=%w#V{2nGhMEIjh;(hhD+iOJlC0mc|@LTDBp-
z?}@>Jk!ClzJhvh-=g#$hyfAg0^{X!kj_ySJu6X-Cp?%+7UT8lUbG9ZLTE8{;jlp<B
zpU}{^eo$!GdAITV9pCE^8V<*tu<Ozu>)O8o%aMd^b_qqh67}tg=037;;%fYs{Tp_a
zS-cx%7MGyR#@?0wSkcgW1TR4CEL#~89Fl#Ty@GSE&ip`=<?ln20pzVsCbjtLGi#q0
zng;J)dcS>R-+9<wscKjqSo7R%+^pPB#x*PNk$mfrP<tp|drYW3w&6I&TBlEN_H9#Q
zKNL|h4Dt*GHTRtzaVIro+zEWXEA8`<C8ItMNUR_a)gg;X+f?H|FiG)x-g}nKy2CWz
z_kB$B9SQ*jHTUZFO6C^gb;pIe;~V+Mx9>aX2jmxgoM+hcoN?3roG|q4`qWz8w_DzA
zi48p)b2i7^&)qL^B}#f@eaB+G$74k&l2%hN(bETP#mWniCO#lLMe<Nz+xy-zGPHy-
z4wDZ$Ns4ZLUVy|Mvi2|B{K9Jf2DEFcTjSLpq1v++-mInpQoZwTt5ALLR?htzw%qIz
z8g^|q3~ts8-LfTW+-q$@&A=_&{d)IW`}*hK8`-QscFXbMuHn@a@y7m*#{Ty{A3yS}
zaOBz8b5p{R3o&OMYmH&SIV|^8W1oybYrA1V=k3s2AsLlE$~WX6G=6Nb=C?g6dRk}5
zW6F}>h9RkKlpmHgFE2o6U~L4ipZxf=(a`q1k?DNIGYVfQF~drt&wue!Bs>j9u=)^t
zkEr3tBsM%@Fm5a4yN1(lH*85|g5-T*U?vzx3@`n<tkjkPl^$J1128@z>;oGj1LufL
zNU@9*pj?(Rm$H_u5Mn_q76KRJ>kta*D!W0aR$)X#B$%Zue%Q9;B=ch_GeWdGdtjs`
znJ0<Rz_?F;pkfE*wrDmf_u({zEF4*~MQvf@>(ddiVx&h;{KnzjMbxU_9$NO`uNdDn
z8V#?1*=%_IH_Xt%{bw0CXO}s#c=}~#E?FiUp=dG>EvJ{&?K6xbU-5Iy%C>aUK<;8(
zZi#p<DY2wxDfRu!9{x>q^f~O=*fwt%pz}J!|6=VJiK01J5oc#8Bmi7Z@>vELp~;pE
zkG@J7fY$(PjIc37X4yqM?+eadfq_oC%TL;G5%J1w&hYJs3RQ-O<ncb-EEo0Y3sKVY
zF*VvROB)UOtQQMopt3EBy19ipRY_vMjZU9*l16Tr#bSkB;n6lr0l2;4{{oo)l36x}
zxx9vWO^;C16SMa$PsD74pyJ4K++fmh++(Yuy;ra|gL;6itJ=5szqLPB(Z1HR_QKkD
ztZZ=k*uOh40pjvj&dQ0k^7W&M!kSgTP}r3ys=`_(QLO8>yOWzWM}b)g4Gjp@15kIU
z{a$Ts*Rl8WV>?c4R*wM@mDR4AS7$fNdTv<~Fp$MmmE}bdgqTE>H4q(E+4<OzRatN=
z>&H$*Q6-s)8-q3FvfYWY`b1eB*@JVu<#>{f#SA1uWz%L+<45g=VVITr$bzc;gf-un
z4wfFW7=O2-9dFu!st-07k|F?|*GoHuo}tE49a~s*#-y4nXM7FHfFr8N;9a>KNo|%h
zT>_?|@HaBvFi&SNcBfy1TQZ_1V2PKZ<f<d4jASby=m{<^s=_12mfQ!nq|SU#-d_?1
z8(lYss-_pN0vxJ%Rw<i_;Ph0MEDHVtllHP1g1aU2QpQ;@>cFgHZm{bzCsG<72-47p
zzsDS23W9#ARc;X0RJ2o0f57QiniVpNr)grysHY8R$H>r*>2I8A7J5B&!Y3yj!7-{Z
zUC+Sw)JfI}xLCJQzG!Asl$b`T+C#sDz(tQb@yG<ZjL_s+nY1{*=b|r!Fn-?v%}A0(
zN;A@6F3kC%tL3)+mig8UOyIq_|Mvb^!@#}59XJh}TPWEojN9u!bhZ419R~iAr`sr*
z-Q5H{i<w@sjO3Acl-c|p`0>Am7fjp+0utMZgao4bERGBE_b8ZHzU)A<qKZoBN-UVb
zT^Z6P8D5DiaF+iwiq5JHprtLnq)uG0wW=D;)UAPiRO#PB9ybj43z#j14xzMTv(&R$
z(6yX(-%$YbY^)s~Tks1~-kAfEA2tw~tB7n&W|(SnU=a_rL0#(;i`A)VH3!>~Iyw{1
z60#uhP0P1(zLB%m`|EidP7f&HH&5O^8Ef2euW083>0|Ziy`oOwmE6KNPTV}PVvd)2
zgfh>%=>vOT!qxI)%KVYRnw|5L#|AhVrSaRto`bEKVlMH3WJ|H!wKN0LDJNZt6e0BS
z_yAteFT%tpK0c1r<1IbVrB(dU&axjQg>pQVm|-VZ-^)>$DQA2a!J4BR11|X_3+foZ
zxJ`wfIfXHG2A+JWGNobnQ^OxDBo2X;5>dfqf^BIICkVq~+!W33cfRU#q3c+_^0Fwe
z%WBzlw+L>YokKz@omLv+e)9flc02IP^5|zP&=tS$>dUDIUAs_8zMEboq*sRDzoSu>
z8kDXHod>=wGl2}F=BR<z0$EDH7>%=b<P8P03PWAbdbQwUCj6>lvhwbd&@xW;{2F1$
z^6p-t=~&XJUkYZTeq(+258>EOH%#wf%Z+vrL`akV=pI~A@tA&^R9ksWe;nxO&yh8M
zl;&#%&9WKl)GfC1(rtI}ZX{T2Qt{N&OzgcxEl9#Lrpv4Fhlt-3vkl0*DdMKYoy1|f
zdv4QtkhUf=hv5Ue2b*#G4oTlm9o5KAoevZEU~Q@mg&#f2;!66edhM$x>sFMYGgvK?
z4YZ{ZsMR!fnv&+7B`s1PRon$2U@Spvp-;I5BJSuB96d2>&(^xpa?Qre%c$jc<ArGf
zt8*GD<mXi*^yhVndsuzc)m5G)k|piYBMSIFW)qS$9n&7<s}lFgpqY#%(^FFDEc-~2
z5$c9s!ly68L?qBQ@%2i8A(EuzQ(prb`IRJVp}3M)y69fUTdBlL{wkvn=borH@n|hp
zegYJ9Jnd%(h1y%t#LkcoF+w28WHIdQk%Pys*udA(>xTfGXX?)X4_so7bP0i%yMP<S
zDd?;8`mgk2gn@-*Ut#`3^7uT`!=C&CZWqV>-?CwodU!&N_7D-o49ptbRn9ER%c2SF
zLg;dM=_}1#NvVu!G{%9L9nVEqIxb3&K^QYkn=7Cpnt=@)j)v7pyk%Hu8IHA#C+r1a
zG=twUcXMtzgV`Of6l|4oTf1OukK1-^*mfkUs#n7C+8&{{XT3k(cSz_v6ssH|!{;gf
zCxpHeu}T=)d{9*zukr|09x}dtK<GXYs~o1-8sDQr_t9A8vE{LcO>N(L;Ttc&(D-Tw
zanrtY{=1XEIT;_A5C$eT2Ts8<XEU>7UJsMG&F!Bes%k1BH`Qo=Zi=yfp2$XKbtY+=
zW?EHCMHuZ77$W)-LqudSD_{s3mx_a?C72<@w{&MyDb!hsKf)fp$w<mhIOIo4WHm`s
zv9mf86nqBUNeuGFmb}NB9RVy~stCOv&EUJD7TFR~ru2)uph}rKlo=cZ3wQ`Qce0e5
zXqA*v+pD2yg`UMBl%w9lj1pdm=Db>u9HDrEJae`|5av7Cih7Y+LiVeBac5>WsTnSn
zhjvD@ZWJJ&VwMjb+_K%tQPZGJmr$Rj%1{I1WGQj(*c48Onyc;Af=>f?)XrB$^W=7M
z$iGhMH+i!=l(h1qj;Ir`*cDioDv*Df(s#+<D7(=)47gvF?xfXiy-0<ULeFZFvav!L
z1+U_dGcpCh;%MQkh0*+1^ON_#1G4gHJ}I}}$yFh%3Yoafr7DC}M5|`7`*Y__p>L8F
zHO@d7>0^W=(=c#JV;weAK+=WD2nNxVxS6E$vT|n~uBs!dl}uz@@~Kp)G$}xR65`QN
zx@Xuqhwz{pQ6ZUIk?Cbw9t~=jefc@K2=^&lHmE`1UL3bhVq940djW=BrZ0J<`?n~I
z?Y>@eZ!P~E>Lu?8JCy78SouUx6AX$csbeglImjr81dpbARGYT8Lx_S17yOWgUvFz0
zbUk|s_Y^8ODUp#3`PLZ#iDIR*A813A=fXjpl<Glu!w;c5kUh1&eB&N9D^7$_f(~4b
zr?Ij@&{5I2a*#I5DOrI-hFt~S6X{p3G-1^Uv#98JoeK%o45Sm;*ojN@EcK7*NV>hG
z--Fw(m^DP%A`9JMbD94?F`TiD_z|sp|A7{-TqrGIG+n&TIBe2MBEp&z?kq7EJ7q8r
zy#NM{ESgyk?2em%ff&;DHt&(^cj-m?F-q2tD1YYr5xFQ$N|5TyFf<lR1`tb?3<5Gm
zDlt#qBl$xRsN-IiT=|=c(ZkY3EPq4*P#$il=y}QwGg1>_P4=iR{y!3g|A}7DQ!f9R
zTpz(DHmaB9oH=>^+_8xxxKd~Q{Mhh0c1h;BGsEXbk37%UQB-HxkIN;|j_iOJ+KeBk
zyk4ffI>^N+4<aA<FVL$RFL!ma8>Dvs9tE-X{g>oojr@Iby+^Mf(2KPxTh)G_KEXFn
z-w8@9-5*i_Yn3bHO4e}*pQ4ix0`;uY`J$aoae2z|9*R`N4uvU`U1|M-tr#FowNWsK
z?ytlH!JahWn^rhJ;gmh8HsDJ{%KR8jcf;^k$Bh};IUnOh{~06X*ks^-M5u&VgKU1U
z@Ef+e`%MG!ro%$hVUkeNe-DW|tKGP>q#5^F)Gv>{)e50wUQME~I#%e8+1+?c*Eq!N
zUAWBQ!=@feS6o5HUg}^wzX_=mt^1!ivYLmDEQgg=NVuF;G02ZA8{QszYiRAom7&eb
z!Q0kEZeuLB`$L?CmP&8kA8#EIT1TYpk}x0#h$fq25KJN;*MQ(0z}*;>xZ}g2Q8}>$
z0t0;yK;N}Iw$dsz?t(PEd9OAK7`JlOkS#7i*$UV#>kn-u+Dax0+hT>d+hYgbiNe-c
zA%ye&ct0%NLBd^ByLEq}c}Qxvvb^P^RN*ov9IL|Z2kTX_p3#_fH0Bt6P+0lq(CwkG
zExi5tw?4mF*uHGV9yb>!S0P)kU9H=2HY9K(i?bu)tdBW859{_MYFiRDZHX!ml~U7=
zHmOJDYEVFZbIe`?x#r4qv6kI22d;P6y>+W-#@J#M+ONT}-BwYi1LREz<GCVs`jfnC
zTj9Op2vQ^4I;Tg)w;oSfPtK%lg0OlUr+!Ymdeb77dX|&c6S}vOmJ3{?DlJ}EY9tvA
ztv+YwuAY(&K8>-<W>u6gajC$Zq9uwJUeYa$Tmqj;d;4lKbH=@z3aja*wT)ZA^>b2s
zTHP)#z@ipg%P1H|lW<Bj$$?@E<t*uEN|#l3k`@!QMJ02`I$Zt;T}McZC{Jr6nR3Iz
zNLT4jCs$6&JFOuU5d1+XrTKw41J^ySW4P7QM^@&jij;$EiZR#JI?%0svL6<0kU7)>
zKDLO?&3jy}XMDKYjQ~*ZQtPD!R;pK$P<a+>F$e&rqlx<T;?E@;|8;drZOSSIf+>V6
z16^1AxE2}(qs0ON6__KZ&NG`_jFC5Ts>1~l90Qs_qOJ`<%?@{*vW`mGr6gPU9I+Aq
zzuvw)HjXRJud2I??E5C0_s!<jybqBSDeItQin>kOV|X>gkwnUtOp)4ZYRBS`u#8M#
za&`u$5DZLhc3~P=tSM{|D~W;SW+#YeGZ}jq3rv-$LAN_n%$YdIB7ZDOqP?1#Ajj`}
zRn^tqDpU3*n+93+z3<(xUcGwX_r3$1MKB}TKpKPi3c7BLgUJZ0ALVpw;Cl^2m=5A=
z`(H4LRr$nc2x`S86;N|cLdI1c;i+7%PpX=vGPT%j=D)TNh%YoBp~;1jZF_230jwU~
zv~39o7fiZ?P{|&Ho6yhPX*<F9n&H@K|09m~jPUHNTxFWILrNs!r*rcy{~?GeXl9X9
zAywKhYh1IAvuQD43kPXAJ&k_`%^H{$Fpjhr`9H<?hko>0FN~$fb$kv63h{8sSYUe2
z=#%vV_yX}NV_uxUUZpvY%y=*s@qf{-AcV4Y+XMd_h%DO!QPnL5W}E&X)E5wpOL#9$
zyN}G!!~SX+is)(7pk{D;Rqr#Mva9o+t2-IOS{(f>)GhTqyA>Lh+@tDBoL*6p2YJ;2
z9mOK|CJm{n8ILK(j$g9EQ#;b-{uWh5t48At&}^M0o1$NqpOmmJ!q(`N4fHd89q?P?
zr}F00Og=N#-c<hX@fU5&+(mxM{yq1S4K<sv=Wculc(e08C@SgS6DZaO)E40zBp3`e
zJziv#Cdvuxsf_y@{pNVs0vo}6Y1+MH&Crm*=xSjp4^+1e=03GayqHJ(&nX9#lC8Re
z^f)-onQ3xkpWa(mSN@W~%E{O3$}VTOIxbr9ayd`3lQ>nv-ww_)h}+rum-TVMX`_uM
zy?6&*fs08-`HFN3`osYQy-_>=5|<zGZ*wcAb2I)d@Fue|z883HF6lMXU2F%Q=6%jj
zrSs!H#HMGRkwoJH1Q6>ousUS84<f(dV8)+D&me^H8zfMfl7B|fkLe=Pg-3(2Qec=l
z##2;RiW};l+M}*L+R~hHw5lCffvTH_t5D-uH7k9)zB>OJJbaRTYrPwW<2ktZirs~=
zQo=Oc4L6WSv9mYNt{=EtP`?p=zwCC|CV#hSV7s_HQ9L3Sk9_#TR`K!Gykw|&`2<@x
z+L~PINh+~UQ~Z&X^(w@+8TT|#We708I4QT@N+N;PZxy(1s%uN#lAJ-R`sZHOMY6Sd
zkdHAzA?!>?{j!O_rFr7fb{i^=S(^K{Mwn=%h+eTeJQ<`&c0@G|5Sd8C0D*rB@y^mV
zxwLIVgjYyLgus6r@lmD9_Peh3`(@?t9KLlp39-dMaCIaRu9L%cQo|lOyhrlGD_Ui;
zuo#<nW^~SLca;2b{d=)@V{~#_@<H#P4gISj2z@z9AoN9Y+ZD2_LUKj1P7~EbE{`_8
zxp@K(kCu<$k5sS6J`nCjv>iQKMqk!i*;gyU(cMU*XH@PP{kZdPPi9hopM>3hHw3Xe
zR^3uX$0tSg>oZ$L-H@S{i$;^-2n08!l4iPwn;%*&MXH;!hjtDL&u&G!?sP*OMH)Ct
z*Y2ZoWK8mpq3V|QMDt#`c`v%Xwgf@F7HsbumQSn=fp7^_tX<ji$2P{Lu0s;|$+)&2
zlKmr}AnnYSzh&c))Ok?qI!M>pL79Ew!>T*RCqF>+g0e4q6u_5#(TP#2FSq(h7gYD@
z9nuV&q$gCCXo4{p$wXO(aF9MB2>m-W9U`cm%?29t8kpx=AHLJN<%7Wbe%9txkZCGp
z?MyUW7IQjP`pP--2~C@7Fb=Xe$QLqKBU)ov$NPYNlY5hY)AFYEP0yQNtaGNvrz$;!
zICMMrmyXMgK-g>zG+!A>c~Sl5nAc)jlBwc+R!L@U%6}4RNF1VdyT)ggZZaCX=U%bw
z9&ePsyR^|tdOP`j55~)6ckxESS1!RjmAC9!=9ewY-eoIxEqPOx?>Uxi#;Jo&kwUgo
zFgt;`3=V$oZz&J$GTD`w9nmf2BdrNXT`V-zOc$xVvfNs5V68m^)Mx(W(zYj;><0II
zzFIE{mQV8xE2jFM0}`Zjni!M==1*WualTg10fU73wEM}B?sR9x!Z;)CDbp>>%<EpX
zr}6GD8O?gVCgX12caj{{4@${*1=}0B7Tu64wZD3n<FKFA_S;YTVEDoB+UQ+3nK?Hs
zE1q#~#k=C6{Zy`}h9CS;^VE>9?z6IthtWwG+co`naNK^BM?3mOj>ZDJcORYEkVzdf
ztfQLL!Oqxkf)!RmmyNEcA#I%r?Xm`$<}(xh&}TGuR#<n$)2PwxT}Cf*f7v<J6>C1d
zV(77$jizl`%**P3zInYlsqC{w=B44iF>N=@37JYT!+8&O9`pm%g!!TE@$F_@s4q#I
zukQG>dO_05j1I`cI$=P=rPh{tg{cvebk;^2yfUY0Dj_=+`e`y#&8Vl95TvP{NN;jd
z3arUW1+2+B1+0lM0k9_PRNM`GNoFrqc-95H$(jXh#gnOltun>dm}2Wpv9y!P`Jr6Q
z@!TJ<&AB*^12$%gB?f-Z4{1AcPzVA`rwKVftVFaf;J4&j35vb*X)`U0uK7MS##k{m
zsy1}FUym{F=~ZCB!08ZHLv4P;XcWvwU9_OK(B(lr-nhT9*Br0W#<AVor|nZr+ozrV
zx)?3%f)Ogu8v?!<9%i=3wP=aIf|||xRleeVaxFA{H(c58#&vEb@Rf6_rhT&Bz^_qn
zUNMF+w{{4`;9KyA7<oo>PvDr)Jv%o$c^+mh$xT&LNc=lwOYyI<148v=Y7-do&*?Hx
zmu0%_en$0EO7b(hWD6=Xs{>6Hs^kqx%7}+45l!xtjXZQ1`r0W0N)9vEO<Q22oU9qY
zPuc&0ZTS`DWfW&Cl}CqWP2rS_`Q;+PNpU{qPy^sLLvi=jOK?ufnD2-M*A`mi<lJkL
zwL48$r2NdR;^g^j7r~Auld48<Vcl{5+{+L_%q9<XY!-na5?@gCV(nF_+6qQjsMM|r
z_frf~$`CH8N|sWiD9n<EDd}hEE^`o>eP(xq{WSIhc-mwFQFT?ekhbv9rc*^kxT}$H
zCNab;qsI5OW#yVDqKR0mzlLa1F{$Ult@juXgf_mrIUu!<{N*{R{aLweboqoCZkwE(
zx5}YbDKsFt2XJL>&$BSlH6&WBiJ44om3^SbRCn*mNNFMhrRL5=q*spgZbkNNcHWH)
zN&X=zGIXEmbCL32V=U2lP;NXZ9U8y;{0q{d7vx5$q1Bt>;kj=+ojx;-zn*kFqne_0
z=a#<}CytM-e4s*s%CVPpMk+`g^eHLwxVnMO(#_`0(!V^nSs~Yg7h9FA?SBI0u1dJ0
zP&!#(`VeP%(R=RE<ddi@B}{Vs4a1trU^H3LrCZnpZ-FVSGSi!Va&=!4TAQ_la_!(Y
zja~QMNH?Taq2v3^A3U>NP@E{Jmka7OB^M(P4G25-Bv0d{M3;;<C!+i1=zcbaEJ{_3
zfsR{lh3U+C9;Jn=9o*pxYrUi}+QIo-?w8g}(SaZL-YY#I`432u1MI<)$~ssY5@T#^
zlk@p*xe6TY(XFbZtK?Uwpe6}rQ^DF0l>D{Iu1pfCruTzu_aeiRe^`nPXB6Kh`Mab@
zS90)#><1U8R;u5V4Ao1aP82P*49nqRDctbOP#v3<Q5k&n5Jc#qYrc71>K^^;YN`8}
z96p{1KPQKuOBS_k)?qjc#-ZM4f%1)=E9kj%>_dmtbM&t}rJmz*_(UQ+E{DgFa^nC*
z>^CPU`2-I=MkGg%y1%U8jO2RhAue3cI1+53R~KGhEXS*Vn?HhOzM7U7wgeM>Bo@<}
zz<6}d=_^;~uTRcg!l4*j7-?&jazW$}qU-0FQ=%fWAgfx9ojk|RJtj#a@#-~InleQN
z{)R3@9f`lC{Eq2aoHi1#L;M~gUniu8EudHrX$g(PMI0?k#!4o#g{qF$H0y==*HYys
z)n1B2#s(H{#dxZOWR!KuNLJ(|*?S<@yeTJY*IKME>R6dm?u^BLQY@u0D5DF>VTll4
z<Ko2g|2BT<RdWA+b#V-vErJW>>BBLz=<~D~R-)Md2^JF0?zLr0^7TsgUR;^%CM{%7
zVl-FT-G>vHQr*Yy`i@EVW0DVg`w;h3*FNS;`-uc_Ev_dZd(s=?mahv;zeL{&x$nfs
z=ePRK-1VK2>}Mq3nT)cYmh`ixwnWo_+%zB!9^Yy@A=#raWv#O<oA0-EC))POZTqBW
z&TO?k2MgejZO`+L!bcokKcBU5zM3s>EkscpTi*BG_9Yrm%Z)JOP@k-CdT;XG$wd7j
zx&9Cg-)rYob$4BL_hXQrXx*59fARJr_>8Ss9-0tc*qA7Y$px{EGg}4i%g*}^9rxXV
z)oN&!OFbvI+^7EDYH4&r1%CPH>LOmD(uU<@FggHB08#~MLQ8|+Kw-t+<)e^2Ev;C4
zbz^XozrAm(WRRs>JG#EGRn)b7G#LoLU3s%I5onVGZ8)GL#Tk^a+4P0g5+ohtKt(cK
zxn8_E^YLYQ-;2P)D_=gM6pk(hXoOOe$=OYYNT+Z++%5HvOQ8wLJ@L3ePp<m#`>4)0
z>JvWp38O`hEW({wkc=VtFYJsV=zA(7P-840U;3vLzdSJ(b|IZ1`kE$~kusg%0F0wG
zolta>byqJd*=eNHA@UB)4hT(%L~?(FyuBbbZLE|IR*F~8Yuq&-!&OMhn~{&|L8NgA
zXGS)@S^^RWY%=jOdS+6GO1_|c8u6T;K7R1^k!NN<*1SZW<oU8*rP;G4t+`y9(*y+P
zN%)HW^!8-cU_!XQ5k|`@^<2i?IP+%2kOhj>HZg>>)kYc}V&ceFom~a?lc{|(l{~}K
zEd7Vgq3`<)o2`29z$~#}HX)nEdUO2cCcVwZ9j!GXruA`~br_ad)3rJl9mKL*@rjM|
zM9{FG9&2hr73UDB$Aq}nM~#iLbBR*v1!mmMETgVa{g&6s2B=zkniMxOqBIk771%)|
zjSc}jq{GG?*nLJwhrl%9F7MYv#vM!(?(#t+tV6(#=&*4I_J|SEAz(*!*ti2bW`uMI
z*yB2E+<`r5gmehl(>iS2fql*h=@76JI&9p5eZdIn5U?-muyF_WB_pIm@F}3Nt6(O;
zD*h0uOjbl~oe{*B=fUVxf0w_dL&p8`IRn-qlxVV6=(Cy4T2pU5ucv(sExCym2t8r!
zOX!EU^@&x*Z0*^-X4qH{AcadUGxKV!G)wN+HO9|u7t)^3Or^qaM9uNqA$!F5Hi0!Y
zrRUdsqOnZV?42oF#`s>;QycdwVfT25iTH5j0<nDvig?j7lV|xx@uExp_JG0f1<aT@
z`t!JGxxkp}nWN3tPqV)7+qLiQS$#L=jY+?<$3tzG-lErWaA4M^>{Mncat|9;`5%<4
z#|^nLX@}8ZJ<%jniIFhlG>JvP{NMAM{sR^JGrHt3oS5Lm6A~jfq-19w^w$5#LJ}il
z-8?8F^_O1SO*T%89L@zPf6h-IWKFJvc&0dWCV`+-z9urpXd)n~O{wCkIf!RKIs=yC
zR2l~UIhbUb%9^37t8Qq59$qa<m-J{gB{K{bOm^})?BL==ih&37Nho%|yy>5RD^cDp
z!_v)>&5^{=^YYO1TjejT9!W;ZS3QhqZ0b=Z2%CsX{9C&G3i(A<mXLx>f$j^!(K4-y
z%r`TUd9v*XbAGCB{P^Vf#B+xaoPeRfV~0;pPK-WxczpEK@e%m#g?Qz33KA@&9!;X?
z)90?h;v$@hXaTX23MQXxVkga!e@8*0Ma2dhKX3f1=8K0BkBrI`X(OwSxm_Psl@KkV
z5<Z~V9A@U%XC;2=R3qwH)d_^85_N~M6jctR6ZJRwRr)r~DrEF+$`1h+oryL{9JN$2
zVX`Fx^Z^QGaSkWdLF6aJ78;T~3<=T6g*k~d@5VVCMX`^@q!*Vs9lsb9E+chSDpzzN
z+C&_Jn)!Em$T^HR;Wue{h$`7v1-VXDx-&~Hm{f%8WP9B`dlZuVfzq`eRjTD)+o3H#
z?5mBC=qCugaKc{;>ueja=LLIaoTCnm8<K!&htEcc+<=1fG(IBRV@b%?`0E~70d7++
zGEjI2sJ=%6`Dq2KtwJqo9nz!G`@}~)D2EQhGfdzR58FwOnun0IsW)LK+PT_}L`|<;
z)4Nr(2Rtaq?t8#)Yn9!t8&iq4QMqmOp8F`;1p%oX-Xs~JBDP$@4T~^cAMD%eK6KAL
z0!klVD+g8vBv{_7tbOPDt?L`*Ta|lYUJZgWoxgOIvR1_85ai||MI*Hx1x-qVFfd<*
zp0u>TAG;lcd&}m*N1Ua_`O`sWo{db@-K*?D(h(j87%cmF7<{M(8LQFO7%M-#Nqzry
zQaJa&b!z2Q!rd&pn>TviAG$qs&)xr7pzNQOL;u|2d*tT4;ZJ;x_xnfw!kg$nCHJ37
zhN~gjQkUpDCU=nmu7M!57GRxg!-Jk1w%s(g;x9w7hgL4sv<;>kbRjecK2LJ{{*l>>
zt(}S1lXC0Huf%8UWPHYAmCx7*K4S*oPh%^hTd>3iJBcN?N;FTSJ&BgXa?9ag6d%F(
zHnk=i_sWfXrJ++>ji=W<kMp^bXL&q=f?8PBNrXG(aL1i+qVt&CdF&VA<J)zOiMl;<
z-JVU)R^5?RG7D%hDKYEutb>J#K)oEOmja!4rV@Q)a^Kj;XYTf$gwR(GlQM%Pso1QZ
zia);g-r~E93anjL{8;$+?mu_`J%M;w#APBuCCS&e9d6iw^~B~+!ZlKD-<{u;YX`Q%
zgW!=C1s@->U=FOjpp03b+6eN+c`q^|;l+)Nd{PvZ8V0wD_DaL2q{!*Vr_^#DK4;+&
z6CK!!3_c!LagSf%X?*13BfotNvrXRc@(aI>)3^C&y@yNBIIVx<51t+t{-)+&9|AwG
zIl$p2#q#MoES$-A$QC<b*(sa}<)=dMu|3bMxlH1~;j(HXN<~i1eP=cU8DJ@|T{Tb_
zuymz=#D<`c?ap0XAO!)**#$tb4u(&U`ZJR^VA8W#9qG4}Z%8y7u03J7$o`h&E$0Or
zvt0xc{3SaX48R7`vIwaPNV8Zk!buS1SFqt`1R;}O0eJ^JOx9bbY_t57Fa?>HMLV75
z!E##uqLZ$FM4G^ki?*BAA5_9tSUYS8*_ND3jwQQhMMw+5j*$IiuK8`ZszVoVBOA~Q
zn!9;~x+WLwdK5DchP?`rFR9r1YnNuGm@Yc(8taC9ufB3UPP#0rS3IT#NnZ09f49j6
zmhDVj9HDQ_VY(cl%fCTs;zv|um>9C@60}-Vku-*R+B3>DOnv=6o=Tj^iZn-7_y1UO
z<=m^&y2ctaxf`eUkfpSR+VqC$%M-m$+ob=9lJPwYa#bxbyed~7l<Z}n;|oxja37T2
z2Z?c5-i7rLE3=hzRDE8>Rn$tgd+wF@e^KD~JMmGe7+7^|2MQz{Phd^S0vaWM(@wsv
z*^6_eRr^|t;^V@VcoRvcvSv&UjbRZDRMH|EERjmP?hMGK!&1q<&2t~RHkUre>BmWU
zFi!f59(nRne-H&JA%gs<bcd=}I6v(0e9i%6Hevp>>p+b?OIA9F{;}EqeT?JV&~b-x
z3!rj;%toK71R-Lq<_0(rV>36wffxZXU{~h;5R-=(6G93x&>T0DBtZ;W(la4@5#vCN
zi8KkU4F;Kk5R*8u5*i0&^N+?R=Z6x>d7(zcXGW6a7A7ZvH+qU3AJWz|=ZD-L#1!SA
z5k!plj|4qGB;kE07ebnWY<e@a7h-rJ9D^Pby<}NfJJZUZe06xC23lCNI8@OTsf=R}
zya4l;NHcnP!HLvYSq#C>X&ny4G)*h*SUWzv;3d@ToOp$qFCShA#mErSWTqA|LmI77
z<AxVJtVyrxK|hqCv9l*NQ_@fyZdmX&#H!9+fIK==bRKR<@eNHLRifZcjEK5B|6787
zOc#+ZOc>tSvHx4bvD5w!3Hm86nifrpk7w!7IHzBOW;6PARa^+A-+cr5C-klp`2x{*
zZ#DS@q@9dZJqUZcd!Z5upM-nl>OE3bKM(^2Bm@7_&6ie>BUIg<Z0}CAkIU`jQriR&
z&+`#%9o}BNxwtxuV10I|0`@&M8-nFsi0+25-pWL2i(J|wl|cNPZ>@rn*#xvgt9qr%
zJ|$rH^wZMfREpSnLDgOC8r>c#6eWWmLvq8A6dm6D=Eprhf99{Ak;Z;U3Y?YQXO|Cb
z+Z~b*CIS;xopM#DRM~Z>{lmJC+JDk69e7T9Zd~$A$o7e4e%t3?wyPvw>B%D#M^3UI
z(+oc;-lI|dr&t(H9wBjznQIeA7{Pu-y-`w(H+`{BiuG8}oBY6J<T|Mpr}+%$S>~pr
zs@44&D*OsAsr<>wsksZ2lVUNdVuy}QLmG}L=H_O^8cJdX1trotl@cz(Jl4EO1e9v7
zjY(`MR9HK*r|kIp<Ct&$ddf08o60-Ev>4TcOGZ1g$;4<!Hlvt7gCVLnPDL=cnfobt
zkS>SmGDeq^bYVp9I6>IC;0*IL8HOkG`MFm4uTdJ(6i~hJl5Ks%zQ6cSDCnW;oCMKg
zC(>HToIi@7pg2*Yh!kBO(1nrR#P4Uus~7>U+L5_*K{dTE{trsVbje6Vgo(I|0fHE<
zOk^7*S!Q6ZOiO>9;!YFVGYPU05f`SRU^WSN+?6OQj(<+0`TjN4OBZOzLUse++FyT<
zduR&@cBPNQDO_b8_SebkXtJRNFG{kj4>Mf*D=bQO?@5-`CmWiRd-f(<yOJeD@+8Zu
zll9SLaYeGcCK+v@j0X<WwYlx#0e(UdAYD+T2m~;yMagF%PWOrx2LnL`Rw^zAy17Uh
zIrdy1kqa9Y55sx6;&R2uKtESlq68Qi<Vq`*5Cg+F+*`NZYE}wZu#hV#TC2M`rbJk<
zh>J9B^vH$nN-+zUaKVDr`I{w5DGQeA!EzR?(1VpMSj7dxN;Ly(xSHmTk#{SVS{AJ1
zA|*;a1EXA3z0$zIMy{sey|Q=9?%3q&9;J!lnz@D+rG<epG)-w`U>o(Soq-+Ht4;=X
zaaFZSHv@aPP(<lvU_Vz<zBYfWL>XYgLA}3wS#Ss?tv$cqy<y!Lzk~e>Y>f8FMKFRb
z7wuDqS(1Hvj%Qd9??grQde5zwzEB^~&b-qhkRR1N5@r#?>%x2XckS=_-u2z7ldJkb
zz6;?Us~(G|sHKC&^jB`a^7h=#xec3K7&A-v5ao5G^LDVj|G#kU>3ZAK^$w(Q18Lm8
zG;ZH6I6-h~=>UOmkmsd-Jd@5#vzx{RvFqVS+>^-_i$y3{2QvgWEf=6i_Mi|{8vR1o
zcCbJZa7Q`*g125<c`f0qmVMPqKH;FMQ%+wY#X%wPCn7s8g6e!i?RKb85pYLFEm1y&
zV7<KHt;H2&p^y_3d&fmk2X?g&eYJv@<-;BM3QI{1Ov$H^okMvJf}DDJE(*C(g5n{_
z%SB3es03w<5273xx2N0!V3ZY(DES1b<q%|)Lm?_>$3svbS6cPZS1N$Dpp^hvD}f-j
z1cHnbD5SQ8ATJm-J5+*lgr~wh0bz_!mqr1tI0hPn$bvK^ii?46Du-oO`nhBLY5rlT
zO^7A;A5yHiZy!0T2)LuHL;NWJQS2u%C7;4}?jZjx|54db$`l8Mo!ow&I8X$;xx@Sz
z|IzWE99KLP_Hxf0<P{%*epuuk;gtZvL2d*^?of5gxA{DQxe9pk=8K7f2Dt$C^a;~H
zOf<g=pPASpoZ=4%t=lwXa7VlJ2S_11Jpu<o#;{RH9e9GGR-yC5TJRHu&W~$%=%zS*
z!hRkmG88KVI=Xil0Ko>D)OI1X?F(m2N&y&DtIszIsVh1`PMSe3f-tTT#X}HQad?Wj
z<yCwX@^en_qW~c7MIc=G|7A_KTb?hksRj%7L*Hqe(3#UILS^)d1=VgbQ0*53)s8Vx
z{XQ{}y0vOsDcuRM;FP^ms82>J*M;>98@<GtlcI1E(Jw~^6f2^(9f8%_mGT_{uyT-(
zVC5Kve~GiV&&qWWlS5eP^3jCGrv@)Lo6MzE@5F9l`mvy0``pkgj#wx9_0Hn0MFsCU
zf^M{C$3x(wnmoL2em1}sp$pumO`BXZL`xCqT^;?%UWghyxIFSJP{XzWnIHU?cKXye
zw<SAz==<M0kZfv&G$4KI8=D@s?6(MmNqoI&k+M=?TMGyjz^M8|N<IT2j8myN80e%=
zpNoNR{j=?1L9hPF^06Rnil|@T01F1`>l<QVn7+OR3@pt0`bHQIpZ|;<MKQybP_3m5
zEaR~Bz=ZaCj|_pra)ztGN<xFY5td6@l}d)I$||~=;b<DsaBob(8HrNMaCKaH)q35n
zF{PdbqxzS-fdw1&PBpP$Ggli`*uW_<&gomeM$7fu^Y5I!byk}$zCE&||4}QYrsot?
zEG*-QEg(4W^z3lBDbal4DF1Q&&trcTgKcoYO0XY`vOfBNGp00!?5OLlvX!zmVQu=I
znOid(hu=Sb`#8x=6%ELafgJ}Wn&$=K0A`;0Km`h96vKi~Er+G@j#-4~`R%f5awek)
zEQFHEYgjm64Z}8Iv*J);=Tn;JQj@)CJ7p2}rW;6sj0UpcQya)qowvc224;M;;i0Ea
zaBi1ZDFW^&tO6fjf}p622}=;>Yq8=Y2<}O06-tksPVe&c>Y=sJ+J*IQDIAr(4YH&0
zkq?pd&;p8uk{!pVGO%{&F^8KfyUF(A#(|LqJMt`9Fd`lpJ7*q1ra5-~2y+QcMpO1B
zJC}yMmCfuhQ&WtvnJGY$`htGgsp;6>wy}e`RA6?F4l%D@n$gTY$5ld%$dTI_cE?ml
z0X|(sk}QZ5Y5p1dkZa1Axe?P6isw<zUl8Sf04Z;9a4iJRb9C>GQ%P4z!WENUv5l8x
zSO1NX3}M8mWQ#(RnqkUhSJ~P(H%@H11|{1d8{w?cq>*H!8Os?>(-BNtB-Tg4qSCTa
zv=W@t?57r|a>24xg-4lbHof~7!L}5qk?CjDwF13sa6`nj%i$i$)hyYX)d@jE0JCWM
zb5~W4Hvz<8Nx83(B|P|%gI%9E{G|~ul$|EppmGq;>gGSvq|wA!zUrhAzlE-dWCJ+&
znFmRbS05eq98{b^y2RIf^fYRctNH6adXl@ze35p4^f0$elr#H1B_%`~7j2}a$&6Er
zQ|v+J%n}&ae+5>ers$lXeBP0{YJj-|6nS!hCfO{yib8)yqeM~=>;(x%5`k(N4wqWD
z0v$KT?)%~1r%Lu$t(R~4+ix6Ax(ZgWORg%(R;A7_8s`bj-tVFSmG{#WPx&s)!SEA!
zcQDY=cJBNI#+hM^3)OQXUf!8Y=h^9d%0`0TA|0?$2WBtKgQpW0(I%WvlYJ^!$78$?
zGQO&^Lc$n95jIve`SXx!EOK@hR{D?~b)K6Mzkz0vy~8xZPKaPSDP#9D&I}z5q#Vo&
z;PmY8#Z}1!9}7=HxBvp-b64Xc9r~nP46E9+R{1l;Q%;35&}~#O8NCuo5Ip5)Q4lSF
z4R?4bg@;h$Co_oyF-TB|QdQ-qYJ*3V^X!6id=i0Yrz&ba`aIVcL3;ny)l_XB>`TH5
zl}I9}sd84ZY6fWfwdo7j(Eqjzu-G(r1-%l9&zx#8OT)~E#SOEEZCa=4P)RJI3u88w
z5%f7d2^>gqsqU{-6q*C$hvKAaLrWx?Q;`HrQv+WqJ5-FWXb(o6@0i<S73J^yiupBT
zhN=z5IZ?IAxLe!dQU=~W7Z@M9jZCKEqcwZ+(#tCAao;Z0X5~b^GZ<6w(q6eVOS)bR
zA=Xmcy{r&e`JBh|y%HDe2wA|8YBo3teMQSak~w0O5)@`6U{hO5(LgC0=|b|XsUnu_
z_d46YGbduy+paN<GkUX{DVluPlD&#a@bD2mO!?@8rWygun>&9Qud>QerGrj!fG&IK
zGK5Pik6hqhy_Ry)B6Ag!|6DxfPd^$RGsxPIGZmkhW=1xZ4GBNO@oA9+OjE;Ow*YOL
zY5Yu*L`og_N@ZM|)gBub)7%D$`%#X{pWY#8f-X~ZxkwkrpvLL7rYHDAmV|<TK+qjr
zQg%^uFu_=+Y>UD^<|*sMxtCK#v(wX4@kuy9A}trJ8dKAgkaxlhO$)6^>owy7Lo@K&
z)vI&xtHRt9kVgo5o+RR{uFL(bt|9iaP45%ekdZz-@dWl2ik0X2$99fyf56o|;0hja
z<)3nGGS~LsIPZVr+@Erl5?A?v>;11>(F3meQ*Q4AuK%$`;4M2GE?>Age$S`e$OEqS
z0oRp{{|5iqVnq_W1(!UIpWwf+Fi;D}KIJ+dTWq`q4oQ&0iNlj^YqewzC9Ku5wfdg5
z_EXzY$#xXxg>IZkMq`q#Hd);u*(wy9T_{QhBX7rU#uO`H@<vHSE0_i(<)gAlm3#`>
zb&}OVA!in`1`a|I5wVO|*#Q@!2t0y@XL(fgfP0oT7Wr+ZtVt!Zwd9_)>_6M!#k5qi
zg}<;FeE|epH_n397q=W0H}Vu)K0mzP``*yILm-&=VI}C~kMKHz;LnR}e0aSF&R6&_
z*rJ06`D9%^c;gQ}FYtVS(&JaG1Z)Ek2tcQb%anWuqDOla2Lqj4WsTxupqtpeEH~(d
zJlAsfsz7QcYx58dS%3b$v+th0Ga}dbORj!d7})W#JfbDY=WW!JfRMrg-0a?=o6_8a
zLn-j3t+*2d<GU;0RRq9jMW}v#UJkY>`4qHsB^`=`AeGD}$j#+Bc02^l!c0ZzMp1$f
z%6xEj?-pPAxn;bB4=lg7!_gh2iv?aO2~=i!?EKzjsOasXn?rb_m<Spy07kWFOg=$&
zbnVTvZ=Bt6P^eJgThf^Tr!xW8G7)5CLI{?H_>!c%IO&cggVj=?CJFnlm;p^IO$ldA
zcE%(}+ZV1p-l7CiMY?pr>C&m{>?SSuzBRNmv{vv=*{w3kRWA!st%3P`b-D<^=^_AY
qMG!;{G%Ese5DB2>;t;PwZ*IMLbHiMF_YHf3E0npyUvMq##s5EC4#AxO

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/modular_kernel.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/modular_kernel.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e7576121085d14ce50779faf2680ae2548686b5d
GIT binary patch
literal 45735
zcmeIbdvse@b{~B4BJm;tKEU_mlA=UHA}Nu2Sdt~%dfKui`X$*OS`!!|E+t4HKwp4*
zaKITmaXO@(iKUrIMP=I0bdoO9%g#5-*J<Nv@~v@K{>Ze`W&qO@BB-;%Hq)k)b~TWx
z)akTc?QfrRUjQ#3c1CT}l`HY!+;h)!pV!{|?7hzqDk|Ipo|ygh=!tg);ZNyBeO!uX
z`HWQ%ZV3?~Vu=Z3mSM}7b=Yd5cWcZxW*@dQzb)n%D;q9jetWEZ%sK32en-qT<{ox4
ze_6~k<{kDje|fB8xB_{U$12Bs!#)<~jQPi^hO3z06{{Yr8Lk<t9j+Y<3<p@4J61PV
zKU~lJo>;?J<8b3x({R&R^KkQ6%W%tB>u{?@unLa~5$~%)q(XAOYvXMgZj;JbcqPJp
z@1i~Qpuy}JZfD>8_*NxZv^1jBAyr&DszfsUn1@EnC(8vvYFB<uQ?CDQ)X|8NhBry}
z3xc$1)XLtvSpBL|zZygRHnY%Lga!<uTOxI9)h|*nbw?WT*SJ=!QD>y-Rr_!cE1?-B
zw5Tu}4oY4Y+KSLN<Z;FT7{z<(*_B}`R5h6QUM~-}|AZn2t$Ev_!$<O!;q%Fq93DxH
zNvVs8NYIjZ9tp={;qx&Gepe)%3XjCX$s}Iv$Kn%X^gAxIh>p={JRBQBNX_wyq!c-w
zIQG;;IG#F^h>u1u1a0|>kSrymlTv6TJaSRW*N-G7;;E2yZCsL5A><WGB`!<xWZoBv
zCaJ(sG(H{+k5Iw(kx2AP(2);B&L=`66S6EJ<;3}LYUE-l8p(SoSc+4kNWPw4#=_Un
zOCfn8jxtBCgf1o$m-BV>L6$B=lPO6ygu5vGdQ^%<MvO4CC@;%R@Z1t4Vb~H8hOH6H
zuq|R8w!4IgZP;<$j#@RS?L9P-ie3q)qKWwNggh2bO&)fOc+Omu#AGTQkA&rj2-qrd
z#8DPW?9toaD_)F7B2rw8M8|^tEHPT|R1?GRV~v&~3fz)I!LqzF6pDw(q);gD4u!@N
zkqN*ql=p^0FHMAF%9rv`D3TaKu=5$ECi%+41V1TqjP*eB9buVT{L|s>sj>0x<I(ZH
zR9L<srTVT-Jg{%?<p-qgvFQ2j<JU1R;@hvpVq@D;loUfnq>+hKLf#$=Uzg<M_EGA5
zR70Zg6S1%yx-7|YDb_!JT@IiC<{XA6Nq~J-xNEgKoCT-gZ+-c(0`r#%bz5H<lH1kD
zMcsn=&7S3J_|d!NELO&0n`FPl)>0*o@*|Z+tOwvX{~EEeHKQzIXK~6S4#_FGXwFB<
zBzL4dB8-+roUhuoS>w5G3%c^P9BgOUm_03}!ZbG~2U(w~uOdbp`aBxHAo5|}$A-8l
zCniz|<Q<%^S}_HN@_`j$p^@>4eBH|67>0AcEFxWrj!5}3SxQaF@eyTlW$iD6OH1(b
zYjAD}DRo>6myEGkR6$4sj48!02$$@dSM$7QRhN+|Yf9}5A#J^+ZdF=L<YtN3-m|OA
zR@(ZWL-ju+1j~l<Hniy-tGoqC@{UOA`nYuF9ZTLDPsBs#V~LT=fDt}#!e_Y)4yKv|
z18wADzAS}>A|dA;(Rga-pxj9rSW}6hP2NnADMOYbNe#ygltujJE62i@rO>FH7z+{9
zCN~{pBfq!{`->wzhlI%^a9$SfIfafbZ+qYJ=DeNryMNd5J<oSN_iWY<cgERzuT1cF
z<=S>Gw(ZHb?YVR1`$scvdluTB%5^?)&tdbs3xdt%W+OW2l^c+qOan}&86Y>4vmH*p
z><n*~FBA&L<B1eoN|H2}u>z!`BYaWL+gYF6(Du9ytF^q7GH4@*O&O7V1QO;9!IOLv
z&Myjg?R=&+wBAbJOfT3s<(kDe58OU5-<56dU$FNtIjRa)m&2VCyXKyG%T=(Ef9D?d
zyX0#B#DVu^n^0DLmtyh4sGJe}X-|dXTmB7r^!dqWXT&NwE_t=MnupK9h<%l>j#a|T
zRtYbc$|FwmZ=>Fb%P^Onn9J^b&6&jb$>*f#g^Q^}@yOFsWMV{`e3nh+Lvc~v62<f3
zq$INKkCtxnDoY@S$H!yQ5!O{A)_BZ$B&R(<jE;@Rq%mw&ydRb6UWUm(K9L&A*YK56
znbJHo?@cAfFNb*6$-I-jMI*_43l(!cL@Nh2FaAA*d4fH1A|-bNk|Q+H)rTfIjs4|H
zIGFTmxbX9qpk?xH)-=ou@et)I8q36sn8Jo-tXwk0YnP-3Zb#Eu8ztT#%I3r<zKA@M
z$mgaQO^O)8;yADcDbg!OQ{vTVEGC`@2xTdpk|JU>P9<q|8J&nTxarwqF{l|zq)w=C
z#9k%K2^m|SJt@UTWm>T1gXBC!&coz90w+nJpn9n@-@%|a*=W+w{p?eeQqk6dY2G6E
zIy24=K3iR;v(=86Y|6^J;LF?3ClWFF7zLJ0!v`shoCyAsaX9*hS5{lFRyaDB{DE8E
zo8H+}*1xIXKtQ2PXxsGWx!dOo<@Dwh>RWEbZpI2OdUFdk4Yzu4_7*(!<`ufP6)MPA
zDY$)aw9K@8;=>zF(%QR}IiI9dfuc!TjR1O<Kf)eRJV_&s5i8J6OvQ*zD!WAEr{uvj
zH4k^J5?&@bBju}nbJFG;aY?R-8=I|1@{IaHIOv<L7h$eZYor2os`%ehqe{sq`8g3F
z`Kh+3VI^u)1qk_8X_bGK@Xrc4f=iWD9q~k*qm_|r16*qU*Oe_11bhkvd<+7Wks3gt
zRtf+H9;pufQ>)iaLzL>-*Ro4HN(K;KBdp(%E}*9yZe;PD+P6Bxw<i7#De4WO%`BA0
zM}r}><+?N2ly6e8@+W0!JS<CC*^d*20t#f3FFI?i?X&{Ez{nRw?^AO4B3s{IP;>br
zka}r6$=0uklpK+x=dq}T&nK=ZD`OEFMlfJ2GOZoAgzJ`|H4N%p(3Zaw@n|Z_swb{q
zb1^BU2z5+i<qW69h%_!?%SptwT(qQ;Jcg};V>rpPaS&PbuHd0bF>(HqG?LPnTB1?3
zv?~Bsx|Q+LFNUvxu$dUSsFlv^BgIFeQc?sBCXRse!lsEm1yGUYXaxR?*cn!?^+Rmw
z3|i%*fKR?+lu;3UZ%ih!N(t&(?i)`eQ`q;SsStoMF+RC<^?LW0#GOSxNkUp*7O-Nv
zd~A8lTf+nT29oy>Ii?hxcPqQ|Sa^JhZ7q2(h$;}DBaEu$8?O@?s?VAmZ+JU8Ujx>Y
zl1vmJ2Gw<uWg4C2SVRxsWrLssljB6A5djgGqzHx=As!5Z3Q?uy)+dGs_A^qmXCkg-
zCq;tTWPu>4n>uK6k&$V7$M^BwA2<e2O}K!Fw-qrIoWu}I2{Fbrz)p>r3dckQpO<7Y
zF{+I}zW0k4Vu|zk&Y>)#wIc?sqE872H9x*zJftEPcpE2(D2bx+2uL3cDd6=0jZ~bc
z1|N~<u0jIjMM=3-J4&u(izNe$4=E-lFM@<KwvizWt6*aL#pf=9d_N;kNWBa*1agHu
z6-X(C8|tKU1CqT!jnKPN@mSbq90bN%7>D70@hKXV>iCJqM-w8rGFLF&BI0>o1va6S
z#-VeyIy}uNMqqX#=2A=o6!vT1`qa808@(d5$Qf($#5iHQfTlL;N+J)0k^r_;G^Dgd
z$4qE25wj~5#uP^{Ul^a*4l+^ce7@Q;%uWm^#q-e%^g|%lhnTTzlR!FC7g+>?3Nd8}
zGshxLlfr;}iiQk09|{>KqZi_6EmkiHEGyBNu_*x5`HD2kC}Oke#8JK4eWKR#Rbun8
zqV<7%7)#4LPPQz{r{LF@D)}_M5`o8-Ciw~YlC&6c_^1nJ`8Z$CCp*_#D0!T>C<_l9
z;K7er42bXuEo{c8WG|b%q}BKYO-La4fc-^q5ozAbj1*w&7N?&y(kO|6%C_fFIC(uj
zLOZOM(WtUr^G`a&kF%}f9Seg=k}9SW_{oX!@r0a8@)VQ7H5yzT_4km;va&I_1%H5T
z3?my~*ni^q887S_5YA(uMiLBuSHmEpXafKrbt0Bhmb?T5@zsQk9ieE7ect^btjyQ_
z`cUQbmz5nJ(5i+lXOK^A^Qbf}lM?1~M5K-9f;2YPFN#k~FHJ;2K+?1#UW=9;R_F;V
zf0RmDN%&+1x_~^A#I}v|_Mb<aS$0M3WmN3n?qh!=_A#x~_3Z~+MC^Qc<T9-mVUalY
zq82nBjuP4fj2BA^7%TBBV7o>{nh=-;30cc-^_jtN_lwGAkp#OOvxs=5A}#V^_#`a&
zT0So-tI~^LT!6R1tAl~a)6n20EEfOAXvdBb=ZLS{z<4FJf$FMdMkAVzAt?Sxf|waV
z#A#omO(>G!xC~BRM4H564`IHvYac!QM6b#-(ejd|QQ!<HRArxtz^ktVI}FP}s;L=4
zeQ%fg!DBWgO^F8y@$WBMa(nvw`weN(+-Ncyrz3|EsR!-t<%mI0M+<0sq5kQmR!LD*
z0Qn-OR+1W_r#N5Mr+@*mg@zJwNzXA1WJy61dX=p+1ZF3K)k&@RR78r(<3$&hkrZih
zxdLPZD@7`?UvK>9D8T?J4kK+_r7c;03XaKcTTuku$(}W~prV-noU&7P-gCyCSLbr&
z>v;3Q9FE}pinx>^+DJ!e<5His36Sfcq_l1_5+E3t=c92+9FI)^7i3&P71k(C1o=qV
z6J`P{mmyKWqcF0y+=>uPg%_yr*?md~rwWQVg&5>=G=;^T7=rA?54*(aiDZg+g*~Tx
z#gjoo!pDm!16G=Pc*wKkSx>}yy@}^I5$8|>h0J)a>e9#(YZVt&tXOAKGRl^Urr~E^
z0X8rd5b=^#cwt{d#R-N{S}0a$ry8N7j&qf20u#7|2-^VJaXcJLu0nShT5AG2V@-H7
zO2-)JFEDsjO#jSEez~Cl4Y_0cx1KjgWy?7#yBhCS{sKlaqtTV=#?Nk?Dl#~^>9}&b
z{NxHYMZX&9r<8}n&h0m1u^XQ$U8`Yq_h+VvpC8XNj{d)$Sai0c4>>dL#{WGNOPg~~
zYec+;GW{QcMXB@gZ#EhQ)J8#^)b?=tvWL&MUXfu?Dt3Sub-N)%2gpb?B3?%p_@H&z
z&lt;6%QhfIYLKBiyec5bB~}-`GOMFagafIKHg7Il)a4gU7wt+l=?3WW;;1!1V^nPD
zNh3B?#D`cD*O`oK4Ln5LFrYB0>p(FWbAoVgLd%u)l5>Vs^uWNBQ~0eqmeZ{uZQUY2
zjMuxA1A;`cj4X*NJ+lxmWwLjT4Qxg1g9Hd=C#y8>WYl)`SrZQ7N_^HpaR!Z6HqPS;
zdqq4Hiw)v$1(W}R6qkqz3N}9IZxARY2ewRNLj{_Ozz|rkgOX>An0_#%f$*!`ej*Y;
zaxsRTRwG&G2N363;pXzZlL<OE9>Li%Fe=b?<2bXB49r-*?lEG5=rj~fWE}qD33f0+
zX;N~O9V;7n1?F8<&6~h05MmXW>|3L+Rz^Q==q&%|>#SqO&Uz*RGIgW9Ma@=(!}`V3
zQkb}>y&9BRuMi+H6TmIU0Z<(M3UU}{D69*a9FqtN8;s!Sn8bTdOK#SKyfo0ylad(i
z=Zu@N@U`gJ#MlaEs+JMzQ8Lb0_o}th%hyu;O#8SV6*R~ihOj7v<Z%4*<lq_|y-FIa
zOTw};HLE{IZ@*(1G9QROIz`dA!*X)X6RwiDFVGMqzU9lpk1IP=F^12uYL04vUxSaU
zEu1(rQ5SCFZm8r|ctlQMjA8B2aw90OI|ZxwdK`)-75X-^=4!bjcF52rUPG7QSn+Yd
zB;T&}vib37u+>!D<0R6`IJz^)e8_w0^*A{+1oBnNG<}+}X3s#BO@5j_o~4ftcC;dc
zq7d@lrxnHpi}O6iVL~G3$oF#;!>MjoTwL-+`ml|h^W;Rxxk%0>a!TY)9-}aFzK*}-
z6;S&mZ(?&em)+$KU!fXuAq8tYgigFwZ=9MrRdB!$c@ss#q@3QIs)UJ)-rPc6W5Gi{
zuMlXub?WA+xn0@X?m`6xRg(CLk9>ZierutMeAR-x`I8#>m=FpptZ>-ka0KS;%L0B1
zmHmd|;WrddZ+h|c#)~IkN%0iKizgp1o_r|YH+^lkCF9$ib#0k%$+~tg*U*O-Ev)Tz
zn!ruL0lz`khTe2p8+y}aZRm~5+K{hO=-5^8k<Tx<D?h1%PiZWL?dUNS0l%RLdee)b
zH@ygY<3*5<7ePK0K@Doi_&Tz#&bjBauD<0e`fvsfs?0fR3RZ`sGqdTzPXJwB52{RM
z!H!qtLmgi3=$t$D_Q|(S-s#GA?fFE&yHa8JltJNibk5hzr`~D$M1WWM3}2y^Wnn=U
zHJ=FhQ9i+kmQn5~XKt5X`dtd(az``}NARaT9g1)H&oLKD<c_S89daBt$dy2j2m*X|
z62m3gACi>B7l$t4@vf51up1(}o=YT8S@J;M$UNM+O1Nv4aH>Ux`j0CHjJhLk)Upy{
z#df5k8Cdc}JWNW)S|rH?nIOckk}8;Ju^Iz%O<HTJS&SOA74k(|Xss6NGlT||(#_hg
z=IuAcuiHTUDntDG4a7IfBQ<OwK4gZpRyA%QzCosFxM>6Njj}||8;Ea|FKXF9e52%1
z>jvT*Ws;!$!bZzl{ncoIPx}VqLp?-;r?`Rm&4&0LY=+TTYcYg&YN4%$&`qd0#cac<
z?~1gqGUivA3#0akh;*BgGgNsZo%q{?zb^c3#@`nFbxT|Lj6pe0ns1RFMcQl?|EP_v
z3I0gXP|NPfR;eelZIyZ4yGpn{;(?+~A8Htk^uH<$Z$%xpp{?5y(u+E;mfwz5^82jo
z&cG`9thOFe8wqZMtE6LdKeBVpue;X#x_gzcdsYe8d+!0MCPMHOBYO?~(s$hx+$YDd
zL{9!3!v@zAyL*!3W_?^TB-y74uW^Ap2)!w?b}To8yd4vOC=$8@{=<dtNZ|Dr^byiR
zNL#B(1aI<b4MAN)poV0DK<?vwUEv1+)#U;nI0ICU%5+8mRG?T*6j?SdmO(X91u~$o
z!^GD@hSMQ)e6(MUnIN>D1m~IHT5E9H{v&52-(<TH`Wf*1Yg&U1T#>66qmXYwt8^(K
z#vb9qV{`zdFiLd(1VIAQH2RS#-dUP%c2KcV{z$c+qrx9a8fdXqpt3T}HNZ!f00|Bg
zl9S0>uMXgEkcowl5bmu$Bpq(U-}0;I6^sh&C8REW)Ri@2x!i+nYtpv$V<oMRL%<&S
zQSK#=n%_Bmn{rH*O_irDX7M7{ca_>qIT2&6n%P**LTS5cK6W*qRm#!6Q!dG^j|=PN
z^DQCbSTC<{34h<FwiJ*sZ=qK5lq-IAoi;M)D{x&Wx3q(`q!}$)Cnj1_mUe8YuH`Be
zr(A%~y1k*))VxRZyxeI=+LbO#JJaq_2XvvF;b{yDZDt<3#&j^*bRx+a5QI=|9OJAO
zUCt3F?>K^GDnnp;U6>$MlcavA4)Gj*nyBa$k`9psF~jvGLa!>4q@z(8r?3i#NRen$
zPC51Eu1~x=$jeb=eb$YyvI_OHPA+h&wI4bk(tfP43<@f%Rs#YZ1?$qDygp32LthrO
zoH%rtqy{nL6X&l)6B9|CFP}&;iCVBC*=cPA;s^jYR=}%}S|&bYbQD5t;C*UYMJ5n~
z*ox;<5R;51lM^K2M$(1Y9-y2>s*WO;$_0=~^g>xeQ@hk)J+COqX0q?ZR*g{`q4J5Y
zB<Vzw*u0wP6_dpM?B?<kog)coy^f?hQ3ov>1w!Hw$;_P8VPcXe7&TW1DB9IQwEmgs
zSQOQbUDp|eN#Zps)fbULJPFxpUPYzLS%nykNETUz++}Gzg&`%5fpcpRHsM{!xWC26
z!QdrBV1xu`FtkRXQH9=kEOAvrAd|IG_EoKo3VT=#^Il;B@{oN|Rf5<Nb1x)tE=%HR
zv?v-^&<32{6C;|qqNB2;Gw{)c>xrWOgqH80{0}@op>10xXVNZq929?Q7Y`m3e?rRu
zX-uQbpos+jXV7Di&%8ouu98CvNqNh$yk#hF3FR#(^On<jJB@yJw4t8R;Fq6q`=K-&
zQigemvYp(q4!^3uG{rBVYRP6ez!L@qfAt$zX0E(`ZFb<bsk!R6>)xvS^@jPUeyug*
z?9cf6bJexCx^H%WBREq&ZJ8dJ4(Gg;Z#+8l=#9g#pPaTVc`Dx6GqdOQy*FNZ?ch>P
z^R0t756)FB)NGoQ-@f|R)%llxee%PafsFV0I~RX@?6<}~IJB_mcxLybAEds2_=k`F
zvqv*$&i>%>?;ptQe15_Ee5Pg~=dZq1ezSbm@(uUQp{1I@tvxsQd}HtIOJ6^j@rpMN
z<`DA0%?D-&zOjF<>gx|@y!-WH=3;lc?!0toB-6Ej!Mp#)!-lM;4=wrX-$>7-U;px4
z)rX|E)tT{i<`6bDGd26vg0FqrzU1@Y=(zFJtYvmr#@C*4wlfrA$Q)(rM~?v`5Qw){
z`k3j<J|oB%5D%yx3E$>D9EoIS2Xe_#kUWhTliSwoQ9};@5dFAZi&QTQOTL;#pP2QD
zi@x5huQ%iDWv#eBjbOUBAtrLOq7koes1b%7ejAODXOQatRk((@_*ne80Rhr_kEd2t
z{A*P4o$Ep0B&Xk@DYc>(c4d9LGR|H1uTg%g3b5`FOdOcE=nZPox+_F!Hs3RC&Op{T
zkZ}&&zvehqsp1tKbCa5(i^;8q@+(5gzh^opf>~cM;|$)<>MN4YE2{s^ja6Ss{`)i=
zh&O-#s_FuyFED}a6?Of)R99Unesxgu^gl3#_13I!YsR_tel}omwFcbYSOe7bKO|`1
zy06f7UR4I>3SfVW>bmZ@R+BH>|AFDWy4o22`x~pOl6>+0SJeTqOpdPr>6=u~&Fih<
zEbYHC9lKkyzAYK&misq$9e}Y(#eZ#M6{oa+LeQN<{QFnQazN;OG@M)k-`}8Wc5eW_
zl=@FiA>5Po^<<nq_p|bY=9PbYW0mKr|BRsg5AG|JT^9yI;n+A-4pzYV9jfZO>#&yo
zKTu`w?=t4PFt}P}iJh~7%Bt!AVgr>WqXH|8QjBOM-yv}{7QVnmfk5AZHeOwkOjYAD
z*j3W<8M!zSCmS+4ufkm3qDsvKxE4<_Ik4U&Sdru&wfpkgBg(YhItTi5wOe7!Kq*#d
z#hN#>MyoSVLu$3_W5gzj{u`RA%A~msQWizj2q00a?>_mG)-|7{sYa<KC<v3{&xEvh
zY=@Sa&i4^Z6-~LSVCe+RtMX~d5YI5gGGsIa&tdYB4G(}-a<GAGAd?X`wiM=FM4vFa
zu;_pSkmOJzo-`d$fEj3+JgqhDIcNkit!R;~BXNcq7mWiS19I@Hd?HgFQX(>jpi$I@
zPN>zxi2o1%Vs&~_I$|jmk+<#ZwY(&O8x2)P1B4s=jTvVHYqI<*ijrR;=NHKNML79t
zuJFx7u=prU=Bt=qZBbCQGD5i~E>i{S{|wrg|JiO}rXGRD6<IzY$umaNs)slTlE$De
z8ixK99dR&0Cgq?5@^M@n9E>=wX{dDxMKz2#MUj1!X>BQ!QI(csoHnRYv9d}15eF=?
z&WZxZjM;Ah+m>;w44tSRrf?1{B~_&$NgW+CKviqjs-^XcHY8xDFU6HEbv39HWDTH*
zM|^t!3Sm8cz3dZ*_KQy^u8KY29F8Pn6Jv3*N}w_-0VAcwCS2i@`whnIIA>F<EEmh?
z!&z6{24}4AvUadWyjCezWTc``(d{>mmHn!|zn+gWu#C-EF~s&O+T1Hri3*?h=#$%z
zJ!#Bh<&aznInt9-K|=a#WD}0{ha#A%0l>ifGkE!tnt_YTWgm^laz^&P*5v~``N-y)
zdi%vOMR^J=-U~2j5Kl~8fDU{DN_#QVT+~M(IFC$TjYhi!R<>SyrmU+~7d(D-l^FaP
z6h%|fFom?~Vkl2JZ)6j;v{}+MB<6=9$}HtmmrWC%(AaUD6|FTuT?7=V;vI_Mu--yC
z2c^RTZgE4;NfZx5Ula2^Ax8ixnxckAsHg+Mnabibn$KTt#%K)`8N|t`0JplJ_837%
zACih80;cmyUpO?P`bH0{1*qr_y^d_>4=UCIOcr4IAJJ0$kIDIMI41gwehpBZ1DIT&
z#Z;QYPdkDK*~5syDWmXy-mL?SsWp-TKP*TiSg*B*{KSA?{$*^AtDVk9Ebr3Ri6>&6
z#M!R->8u`$oec8RS=c0G=ce0Is3w2R>>OUA9l7K&wQ*=mTUD!u7U4SCJhXrA{0V3!
zPuiNcmE_OPIpxn&f7Ljjp^Vb}Q$F=0&PXjdBh}8MVLGmSNS?%J`Acx<<Rdnbw_lLp
zx{_C;7h)5MaCEZcY+S(^u}vwsgmJp>7coA+Lb+_GTx^N)WZoJ&0vm_Oj;S4vO~mqE
z%2s=;(z4fr+|Pz%6B4%vXXmFc|AaDSdWF9OUy=qAEw1cvMW&AiLF(0bUz&B+y)=k_
z6^U??0^^Q#Z+vOyOS6Noe`T&J>+778-oEtKr90KX9{-TBfiu2cIZt4=?n6)e$B?W&
zF>`{XYZtwnv);{f()_bO^6tu2)X(nuu%ct-_tAMt`TpRC6<dC6Ousej-8#SL&h8(1
z_x-rKCDZ=M2TdP%Gp(l=s)sUOZXvY@>826Q<_-xa8!0Tavx{pM*>9n<4x?-Y($Pai
zA3f^%hAnTG;#ZRS;IpSroemuvI&}EdvC#3e&m21%I{n14(4iw|PCR?)%!wz4LPs7u
zJ9P5I(4+EiBKZo$+sCc+>V($1*k(zB<J2vL&_cf5>tFQl&wBTN=zZ?})Z)Wuvk#wL
zc=)-3&8nE%ECP*&X|E*0*b$C7&D5?+x2q->f&Cd(uO}Z~4_jU*gOk)ACu`5gy1ahA
zf}h!k_?bO7`7(r9pd$ue;+pa@ah~%YZSfu0nRjb1gUlk#h#yhZXAJ-ZE#Wty8LRD1
z#Y#J5vH%D)H?sqyqnJ8UBnnvq1M(0SPe-pYBMR7&k8y*-T6R5<VF+@&Q=nOho+qpt
zVgd}y)=rmkK25ka4ybi}^+`?g%82;zJ$}E~!>qyfpJ5bFkfW1p>VI=_0DZgcQ&3a|
z&gMDxu;UjT$LiL!Sb?<D)2@uxX-ySZn%6?J%<8#e*$UItpGnk0fiRiS0?AL9hYXY+
zwJ$;5MW%05e6()FHFRTcFi68QHCjJ4f>jmqSW)>^st`3ObwO@LTZP3Q=x-@KYY0^_
zMrs5%RuCS=xMbbI0Bh(F5};XO^K2y<D)wM#D<!31dUsu;WriXYIIdy7Ozct3KD}TZ
zvtLAk=oLkV$K0@)p&VWGXQkORbu=1{R4FFU6eO9~(vaO6CeGAFW{rBQ4N{HuV7F(y
z6ROC0BZ<K%V}>mcfFR}yGBgO4X~m8Fu%;=xmD|-dldT89a1C|VK%lO>Ptj@b5oV3g
zH~_Vk5VTS0^gD!#%4Anh1-w>60|j9m_$qd8N>3@23L2zPP&DAyAfGl~n_@D_2!s`u
zay3(V29AlL@A!&*rpQ+L7lUG-(WrwVf3xU{#Yj>G{TpPOZEd3&WTubEKW<f7v(iU0
zL*W>V6i0OFFHtk-!Ofm<DLO^J6$GOUR>c*JM3tH>UPTSC<%=kjo?2%W<+Pli<F*W~
z{TJBFWnH}JA$lblBZk~^(vFY>`CpPl=z;tP<ou8vBKH_lkR+sl@M7b`apYt8vi|uR
zgXs|AEeeenGtzj$ep3}XQj(LC<cyO;xVaoBhg}IUK|Ue}m_22#TlaV9bsIS(I3qtm
z&g<k5ZYzI{oHxiJ`2pToI^LG)h*+kxSD8*VWjZpHe~p~qAcqc#WIBG43B%<$>bJ@F
zTjYF)oKAASOU^!W7*X-h$oC*QKOl$TRH}JL0`5%8JqkoC`DbXLqIp+<=3Q{9F1YN#
zFDYAbr7dV)Ex9T)zV1x$P{wyC>pJ`iA`~fbG3BhFL)4V@;0G;IQO#8M%IVFizPad4
z*CwMkFKLb?ZycGenH`zinelDOy1JJu=nLt>RTiukN8jw(H($8@!u+mm>vmG^>f@?o
z^o5kWlsISRHr@Whd~LS1Z?!nP=g!cl-CFY9TJpiUF8Va6eHzq0ZJpixX7BA@<lMw^
z-m1mf`kCTvo87IMv8S@OY58o^^4Un7pH+RjZ%mMZ{kcfCek;|dTdPmER-cW;3C;%I
zY`NVsZ_hUNQa(W~pP-h{M&fLw?Q6wxnyL9Qy+1|2&<+hi3;_I44WSYUU%?Ay&pTa;
z&ZphcI3M_S^E=H2#A<v$@V(~mHZPMGqm&YC#%%CZ7999R)4aYyIr*IAbCD0nOw|Ps
z`Mg4_Sg0UhrO?t|@R83iv<}?am2G*TP(`my2Xx}bGqam+JU{c5Img_{{LZ<HZ~5*7
z?j+woa_8D_wP$>fWL<|osX=U|#*}Wz;&nV>$u+eWY|PW$`*!-RwDNM`(DzP#_Y{9w
za#bulD9R@-Hix_5hAw1g;OH{CNY#nlZO{RQA8q27E)>e?O`o;&=2qvhhu*xZGHwOE
zRjSIkK6>*DfrdgA`Kk#DHRP);Qp*icP@PcQc<aE;19M&3nk|KT3TjaDnXAoKZ!R=a
zP?J#CeCyoJbA@JlYf-W(w9;Ff2GDkT6-m#xgM6K&@VW^;2DZCa`1oNDEr0nket4F5
zfNYg<IR$J}a|_ADlTaV>GadzPX(Vg;N)vbx3O7%UM8C8`)1zo$SkvG}q)CUz+63Qq
z9BB>7Q}~WsaU9^8N-<pjk;S|GAvp_hl2i`1Ikvmu{-Go;YLFB=bMhbJ+gE89>w||e
zd7PD*^2VH}>Wu?42VQ?@_Nfm&ZMmAp>C;O!jkBBQY?+#_jJGT2;Z~zZkV<=qfTw4f
zHaDYQD>TY*Tad)8>2sYn=$Dn5TGc1(`Ls2cJkW40yF}_sB@eXL%Aup?hOKi~KJW}X
z6#{Mz8^BN%I6N^rD#=Cs544nno${ia#EMj*6fssyzU(|pTFSU#TlZv}X)&6T(l-d2
zE@c0*kgIE&wtvmT&psWDZ{5$YW!Z-Bd{AJE)E;6%u|Y9}fk5Y==ydG(T%AI{vL>yu
zeW&agG}NY&=anbS!`EVRrR|rg=7X!GG+_j%t*my9tE5negQ0F|8>Nt2Qyw+Y>>iY~
zo!GJZ6+7r7ZDLr7RcF#-^rXE>FdI^7%P(W11Z~{3y1W%7gY`<4lk?>Kh@36tuudWT
zEAPOOXzF_2ekCeh4LUgP`LBxN<vpxB=?qSaC8^^WBFX2N4HrgDHkuC;eEPct=U+w=
z&QuM|T3`E8#@RIerH|{HW_N$%^0a5k>wn|q%*l+mJ?E<-p6enLdtLy~^@R_8JG8)#
ztgmD4*$;i&v=EYxo;&uTFZko8_BXfP-Zppn{Vm^jeAF~Fee{=3=6rqADaOJ*FncoN
z>sj>mWqp0~6B*y`jB_^|rb7_oC+%Fr%{&ZWWmxK7`oIuW9bUUAY>6D=NAhJ*BwtQ-
zzD~`31aGejp8%(7E|hs4dvbxM*`0H?*}XSIw43b7_3!+4?420*A9?KeAN;2eGC#0G
zy3peuHkv&=bIP}9*=a!lJ<DYnqhB>FJp48+c1N5Qcf@H22*Y+OZoyI)R-^xdm8sp^
z8<8C;0n_4)E6#Rd`Ju}@T)0oieW{KLD}GFs?;TA2y=+<-wcxfLx?|9dg|HG=Mc^6<
zQi>n;D}K7xqbgEKS6oOnQnggAsQcR^P<9`#jrdV2joXq3mtwdt^_B$UHG&*)KVNmE
z7JmW!)#0xme+~F+l<Fg_W~?l?*|ikNb;rtF%|jI><T`dsU!&9%X*Q1+X+hbo_-n%-
zZ>ec1xS6Qkpf=l#94VEk)w*Mq{Hbl7t9(=2tF#<tY%-M50yS*Yx<JL)JbcS4;RNHg
z>(DLvJ}caLZ>jA!FWEd)G1O2Q>A@&!jRX<PY!q!ZPYtDS^VV}{_O9}^Z<X-R3d??}
zO&hc8!_+vcO=~^c!j#$DBRf{9-)iIbXEio>&zsf_bKX4MG?cFm$^|q7=vmQ)HH!a>
z>|S*&-|zk!#K>0rZ2kW7tkUAo3yHeO&Q~479n-=!%Wx-l`#t%9${Ib*?_WI0u3rrQ
zCNK%chhnEY+zh{B%ajC6)I^FMqeJ>_Ibd~hYtY1wWjPpPo1dc+4;YGUOvw>8$Jn6}
z>{gQ?lwubfEHgS+0`nK>swT}OzBo#}SoQjq7j?^V5WC=?pz(&AB$Xo~XmO@sLLPY$
z&kiiuv2Z+mflip{QWedzoXYN181$?STq@**(lkZhi)uyJn?lkeF#%Z_W+V-!=QIX!
z7-A>!3#c)>`;ukE&K6XuAu5&!s5+!{^Cy!&gK0Cm5l78Uxt4=~0Nv9#=W+8}c@){b
zqOD#<{FpwNfx-ZFfr(&)Ed%>cHOsg~9pBHfF-{UBi}l_pSB7@~96ZLmAypK?h=A&7
zxZ$f>FT=f(hOd-2d#)=4hMgftc^B_Xu+9w}$}@;*FrCOr4$WBN8g0@Dkna$_)q!kY
z7CvqrTxi_|)NknH_FW6@d!~<m<Zb!5ZRbMU?&+gndx9ZUkcsR@<e{M56!9y@>hcvu
zaFl<Hl>d;*!@()=yL(ofOF`5A3<3E{Ajy!^3vqHPIh6M+hZ`aFa6^9F7>^&$B#R_r
zh?HWzLv{s!#bP|qp8@&vHQ?SVtZ|M{wk@>Y02v{KH0Y;oc+<!&kP#l_T=E!mG9^u{
zW+X<$LI@+1u6c^--J4LbX4ES*@U76&_m)%wulNFq8Z%0G)qK{d8RS>W)t3Fd1v~@$
z5L4&PTl(cRO2g%k4oIuuYAS~7{{%s-U*tcBFYgbP+#e;sND+uzop*&oY^ex^*x*rV
zrQ#gqzd%%tMtYgiND3*fuD8YGTDAA_do;4%LE^uH43$@KRnC-Woedv3n{wigY5Pac
z)?DjW`fbX!_0n(ilGD5BY|T1bKXSG&d0Q5}{aJ7Soxa7vr?Z1kXP!Be9X$J?_iVvd
z?s9_}<%b?A>C7$q2D84wOy$ly136#&qK~NoRu10j%K2Ir!7%o1S@dns`nG2(cigeC
zFnYUV;fV_6wu;@$<;e1nyl2^rD&jcM@MFVw2p(eeT*7bZV`jPnF}1;}$A4F$gdt=_
zhFj8X@g>p|T#rNyH<7WmR~k)`dN)ZIOpGh{qbc{1otJP&11u)c)sfm22<mLqaw8E0
z7Nck<63Mcte!e&aRuk*#lc*mbFr};4f5Ml^Evxi$$*{^%Z_{!Eve+%SDtJ#WI{UKD
zzWK;v|0CJ{M}Fiy#Hm19vWnnLlb*qO4?Ld*&g#TqGUv}|5cn*z`Koq+DoQ|V2s)Us
zz|tZovlEt508yZ>S5iC;)NEA)|H$@F2u8Hn07eiquU&*aJYUD6Z+F(Wd%^cW#`(a?
z5%{x#Ok9J^MlE78bb*e6xjh9fJ<yAl7Ba;W%a{Nf8(K75R<PkHP}k5Z1{yzzHrUSm
zw+4{mQX_z@E9>i8^zF&|_AL1JW}JKZh<X*77HK8Wmc~XD9ex?nf(SMlGal4h+_fYY
z`go(^s%T3}<Byr$)~yOVs=v5qx&qZ;4>5nWa2vRU*2_mREXvbBgA5{`*g!_D#Q6%h
zsz@&_6h{<I0A0YA3GD*=#hhne#li|CdoM8KDyQ|ad}5SGA><PMNOHHDm?JD>z=|#%
z*E8w2&@(57j}Z!dnoM|H)ny^T0VC;NF8!7yQxcGfI0FP0nBg_LZek!v$--9>(Fnxs
z8Tt%7aZ-{KMHN9wbVQ9m*f~~&ggM4drhU2O@rp*Ox9=9`#yIF~OAMChZKwvHvA+p$
z<24$Wf1iAfOzcmW_tTpxSK>PmD0G9sG(Pff{bSy(x3*XuGw<O*fFZ2W#AL@R%OvX)
z7Ue(EP##4Y*bXaUk~HV7pfi=0#rj~jKDb!_V7C6jkLnNJwFy<#KMpj^R{g!Bi!J-J
zE&CS&4=#Jk>)g}sdwu~-#*W$Hg+R}=o2)_%yf!iGo(un~FXQaSL2S;~IJ+NqLo?3J
zY+mGDm{D9QhH**r<)?Y2^JS+)qZ6^1uG~WRl8=Wjmq=HScu-;WalylPLo@}ev>hC7
z08Msa>@uHXI>_`WB(0fDI)~I#o+)pN@?wv=iceLT@0)36aB`{=U%@3TeN07~buPPa
zl~l%-DOm!^bikxhIgA>)((ZR@4Z*|AUHPY~ro5jaC;O^7d8fQn)#*wz#PO1kmuPg;
zejvg=ou58cgS2KSs#)5qlC-sHk0LtWm8wxoN&DYb@Df8<wHkK$9D2AS70_bWq^q^{
zD-dr(ZOnM8X0@qCZ7hbC1kyF>+H_#lhIP&!{*rN>gDrR5Zb?LEk$#gRsH9LNnwk*9
zb2P1+#JFLlS)nYXO^E%fK{!%NBf?vgw_=N_Qj}tSNzbtl7}*t^!R=>@CHGTmS~@qD
z!!wd3zNkf2R20A`AY}~2G9bI8M$J{0#$dLd^fge7W+Y3m(Mk;)u}8~(U?=V-(iC5M
zl{RCIUZG-#St+ms7Jee>mH!I`P(RB5o*ae-eTRJCCFc*wSt93$<gg<dno{z=gA=Ud
ztLaZEU<*0_m7M=Z&MV~n0y+PkoPR{lKPHEX_xu(4ejZNVJ;5}NaMj7Re7Vx&OuQvu
zr8Q_^CkJ0%SNVX3KUvqx`#ADT-OU0FR65l#NrRSl)Rhk-aq?AACgx*MC4g5$T2@4)
zMKUR2I0Mhy3c34P%WIRf7v?R$dKm^jGQQvv7X5~vY(vj{-9p2TnTl!mjYId!gt~1D
zf!=9%uDWiqdNa<r=PqTd2d2w&O>K)!z1gPT#ij$<rUUPPVWH{KX&<(Z!99xuN3sJ)
z76;B`2hQZYHP}(u|Eip~E$3~8yX<ogy0b8q<ZR3|Z<~J#=jt7s7sbJ>IJhVt$%;pE
z-fGiS9Z1#6Oe!UC@Lu1xSQpIJ1sCi3vUPpPdT#X269t=4-@hza>)q2H)TXX=G0>e2
zbT0<BWdqxC-j=y%?>vk+b-jo~n-`A$y>+uyuRZ+tQkkyZ;Ai}9*ZW^t*#E?b?N5B%
zuzBwCorf11j?A1`YG_|<2xc3Ciw%9*hQ6G?eZK5Y6d5&AVU3m3CkS_Lo_&1YmC+5p
zuu+$HDZ6dtn#{)0r|4sIvx!97U<b1nAIzH_;p@f>)AmX1J_?pr|2Pr(rkEtie|y>v
zvRyl+f*C>6J+UZn+7+>rrX8dVGzG<#bQ$xNr|5u^J=mGbCgEEzH*I}(Lf8Pi83`K%
z9bD9an*#G|vqRCynk*BqB!TULDrAZ+?7;LdQC85!U@JQ?o^_~lJgJOd<d?6cS;k>c
zHox+gWZojNV{~nH@kv#y$S?54HN+PoU8SX%7%+?bI8Ci@qFR_*>Uhf4v}C+3OTLCT
zzC82g+3*6+P{9P~nz!H}HRF6f(|7Rw==T!eO=J!ZeSb7__Swvt=Q7)#U%(e%Fjv)d
ztL<jnoMoY^b1s~%>YgskHEx<4g}BmmWzHLzt;~A2Oj|zo`fgZm3}yYDb0^*&dTZ#;
zzygM_ch5993c%E62d2NAakg@ltDf*GmFhFdvgRu}gjBh5c?iuY8lBY7XrHkBbvQ%?
z^U+Dv$IJM8#=xM&PHF>2MX~WrIU;Ptn9(&6VZs7Ko#in9=`f>lA~0C~o?RO;Wd<q-
zxX^nJ^$SK&nKFWcDDt>WXP0t69H7p`1e3eS86>BZLY;iHcxl{Jki!;vYIMG4M1>C_
z*BnOqdXvBqu1(H2krw011oX{B`L9(OHk=!&WX{yDNt0DK7GOHo%o7m;n7oFH8wOpb
zZFi;(Hs7{pyj$<Nh4wu;Z&RkFZ+>#wW^H$8oXuFJHg&^P+md(FqIX}`yYGYAjQ1GU
zG1sQM5D(je@7?<sw;afBIq?43%u~;1wj5a4@?6Hd>BqiJxwe5^=e~Omo8Mg!Y>Fz7
z{4WT!50S$JW*>pC=-NaLJ$GU$`8-UN<YW3$qoU+8*Elq1d?^SrDxy6^-qO%y=&x`|
zBa^iVf+@kQqT00dl}|aRTvP5TPyCm4vRSPU)ArIc(|o3=^IxkjAW*8*?9<+qCcmUk
z2-%wU#zFX`y`xq}(o}#zsd%N^1cr46^tnPstSv&SUd>-`UA!DZG8Ote-YV6%b4Ace
zyRj(P;+C{~%9i%PZ-w78WmU)*Vjz%RR_o-KH0I42;Ha?9$S$i^E`Q<{ldsB<hz5cg
zh8VfZJS=7QtNcbSH+GrrMKB(4FFM`y%Ft$Z1-6cx4h6lO6?7I&m5FSTpC*SPlTVP3
zU@SimC-2rTZRK*+1ag_kl%S8JlO;2Np^mhm$dACu+n`s*<;Dq<1m|0u&HN_Hd~H#P
zqEeLis122+RNhV(yyl(iC1goLf3-b~d-zV~RN*+;whHC1WIIKR$9|3sZZUAMc4mD$
zKl1Iq=M)+?eRB#@d63P+mR1#5^l#4kH!u48vVLGctvP>7&fk#pcjo*}Ie%{sJTQMJ
zHljuU_N;$95WK3&yA@>>l{tS+&fm!5iGSqpy4N67bbaLA%&^Dp*{1D_O$W102RD*o
zbLI5Odo6;vb$;7-CO&FEc+>O2(eH1|9C;S3iHhdwqc?g81FMB4%8zT>zIhNW2yC0*
z^-=APk84|h<>bGvZTRN#yJ$$`H{2^Kmh*QZt+*r8{=m(>nS-aNol7k{GA(;&PGuf?
zn%2euWnFXQM5cY<&ffRWWqc<x&J%oJbw=X~CnG?+$-hL;7!(PJ%{NjBM}27Uu+8+J
zU^V=z^{dTaZTV{JXIT|ztZWr4f7i~lWV5gGwU#O06qo@(!8Ei?Em9C>TGZK1E5d87
zuQf+3DIksfiCA^Ep&qLHRKcO?=INGc>vSvb9k9I$X2DF0qL004rj`3RqXnCO4gPA^
z7RW<8Ec!M+6^L(Vxg5o?RM&PI<t0zrGGlszHPbxPlJ<cqQAI2gtW<8EkTFSWrfR1G
zIul{0RfWb;;fuGhve#iXt4`Ocp={NxpK1Us10}`db*434fwinY-OwbUB+t7Fyr)QH
zQCm6nbm>64Zl;y$r^O_xTs?y3yF@(rk|*5+IPtRh-o^cD`NR<Nq?*-4*x~S9MZXN;
z=H<1h>GWS?dd3E6OncuedspcRi||Xg?Ls<$^&9%?4E63t+M+WP8kV#;E=S<}iv5-_
zQ>IWeH4*EKV{KZ7c*|*F#>OZNi_VEdx7&!qn9(sp3?G#jZJ;2);%9UMBN57Z6<sth
z-Q;|VEI75#<|+|m?2s8N=*xKc5?aL!Cn$6SP7p3gx+-!BcE+g{<$$^W08<c5KGeS=
z12TJ@JcQD4=19EIr(XLC@mL#YH@(?&yJv3TTib4YIpg2FRNFe|&em?dVfnbW9#(Z9
zzg;<BwotqMh9y_uFxzn>b%Trja;CC{$(CXdIzX*rd(ai~T_s1y$7luGr~(r*V>{sA
zp)`!ovX^{ua<;?CyO|7Yh-^a3c7o^@3Ux3j$<-9#A?Fw+_(O7tCJMIkZL)<vnJtoL
zmDR9vwuy2k%+FJfuaNT#<S;%>J7xL@^!h_`{vA1NU~0XduhlSkBiZ8_0jHTHVnFm6
z1_m1wbYLioFY=9brTfSukMN;VsbryyfXS{^_S~XzvOt63162FJ0&f?E&Mk`_JF^`-
z7dwt-JC5c+(N*7gdbR=hdMB72ZD4lnxiN4fJWE>;#U03Y4BXkW(6Ns`x^FyQusdBX
z@6{9p{Cp?yo#gK_HH=T`m4%@QZ}p9*UVAWC)5;A%cf!zfQ`_{(Tx09>;~zJ)Domf6
zJCA+Ta1fjh#It<;p^UfV#zVP*-HQW{W(OW+dwtC<_f0q3@9T2@D)v9XcJ>aq%K^_I
zsM7xFle0~8U%1yKG_}u8{$b<R=@Wlc(>3>ng_`X%N2d=>zqGWedvVjT?51NZBcKnA
zP`y!+^COq0WlvdGCG1uM<!EkSY}%P^+6nYwcHi8kJ6qo$1yBeJ03<4^7QJm*Z`-1`
zD+|qm`p#Ti$6UwUq1lVDcTN9WgYzBphcd1Gxkmn>HP^g3w`n)rkDI#ZU3UiVgcq9j
ze%!caF16UbFWbFuvHNhg`|t;cK6q)N@kFkro5g=1*LR}OE>vv(OTk}J318DT+_`47
z#YMBvoZcB_^iG7xT=Vsp@PLv>#i^6$P4IPfUo1&Oua{P%dDfzMJS#I&%YRqF4j5fS
zWOT{%${n;xJ3Q1s!lDXBHa%12@&9L)cAM_&pwIrAb;Ye7g4yxKD})uTQ&$5`<us+K
zoQ$S&Dl`@7z_e>!n#!fZVhx(gr9#{y01I*JZ{}^`43~8I%X}>0rW1A?Yn}Y2TV1CZ
zHKht)e0Fk5O{wKqN>BCTZqw`W5k^*VQ7lzNfy6^%VZ$+p37K^cLxXQJKOo<qlk;=r
z)Y3xEb{d_&Qf&XT4UVnsC6v}9NSLos<iR-eF7H(v0AnI4xsh^hf|K+ht_mXj@&(+b
z$&5{E7g(0=@ycDkJAl|EA3{!8wVQ<g!RZQSIi8>UD^%0R^_?os1Z|5&Z%5YKvFIgJ
zGdVw&OprmGXfl#ZhqL~}3;v_`D$23G_!%YE2|GA+i-6d*DDKRPJMWxc5D(w1Si*|f
zyd&GZW3l<+Y%`4Yuao6+MR`l*^eJexk${3}rZ*~Z=3Cn~8+-5AM>T_V#@o7tquf)O
zK=5w4N>zE+p{oA1xAvDFU-I}CJ#AS}TgJ0RQSA~lHN6>cFWg*>IJYHJ)06RX^R@YM
zphz)Dtrnf*(y~BH;xY;4fg~!E38h9r>GN`hjv1;GCJC7Zux0}KvT1fEYtVA?KopKx
zQzegX*b3*WPR>;)mI_;3XbhD+z(Q%+;wQ7pqRB`yuw6isIhZz;+2Ug{6Z!*bQK>Pi
z=)Bj<$Qj>zws)00ru=}3#sJbQllFl4;dODVi#O18d-$&~Zne3*iuoBc8#ChSwq>;J
z=yXzwUbvWoWQ1m82I~WOHQeIh1#V<^Od0`0CYl^u*ZxeAaUOG{F$}v_?Mpy5gHAY2
zEs^{mV;*LOnG9N@iQle5PqTmkNoHyev^#OAs)1Q#fh#Pns2uwh*>A`aj4}hop7V)B
z48~F*g+oRgddbitSxaPP($((Vibyox$7Za~LlecL(r9=h23teuh2!B^(jdn7x0Ys@
zr6$PdM{p>gG<2nAW`!HdQTI;8!Ym)oKO0Lk<KwaGA#Q*}wXv0mL*@r2r?g&w?jl`u
z#rmBFUh$wb7*y4bbVQ<bSrTqIH(Kk!O+)-bBK7ujl#NTCm;wSTfd+e#b;SY0QlLl*
z80}CQP5E%^Q+#_@=RG${#O!4-t5@c003(!{UA<t1{MRKvapK6Z6<UZDYM2DRlAIc5
zT!&`DHoC~!Mv;2p3s!OBcUAg4NYP7(^hYQ)!+IDQtkcZDO&<soO41f!Kxep@BQ@oi
zzE{I?WU|$q992H22%-5CWb?9c_i2mZt+|m}tltX53Yq%B-+lO_2T$b!oioRO9B5h$
zY|aKY&y6hvc1<5&YH54((c6#C9s1VeIK9t#TIZ@i^lZv?3}(D-OUF+9{ulr07js?+
zku~JJwd}mVF6Zq5CUV>YYWDE7ZTbtDhOP6D-H8D$2{bO&cH_!x6to!V$p(6eSzHJ8
z)GGSlxH%VS&DD40+6QuN+sP9=27jSh2=puql>zs(3$(4jmX24Myg<NEFcnFsRFI(N
zl9(6J(4gbE{Qu*ZjfkP+!A+&g3B*W~|BM_aTJiw-c9ZiMIWck=8^juqLsE@&fN<Xy
zh5jdUj+66katLYRrdAk2%Qz`)L~NlCo#gByhp|xhkk3P-fH6?m7}`f+Y#`AXl6&Dm
z$)1bFk4QMj4dEutzd$6W)xo(D^1q=(<op8=p2`0g-TPO+DBQKX9nMc1?2bKmVH9G|
z-4>yD-@6Zg_w?^Pk=c6c<)Ir#XIs$&3-(hmk1)9BuB*o3UTWG^aNw6%R1Xx&$>$Ur
z+un5EcE0Jm?VIn)HuV1`Mf_x|!*SSBsI)uw&YdBf6MM-t#lE>+WSU}Mp|aYsW%ikZ
zfS<Xu^E>a@=J&o8TBg@R&ttG#vQ*P>>%p53798|~!m8?Sd2f0P<?PidR0j$!=5-5I
zwFM9JddX}>1@l&t*T=lTnrjMG%*(AeFmEjxu?R44on~~Qp1n7a{gw&3-3nG(&fPvY
zzx&$<-Z_x*J&<+nU2bGi&RB)A>VnnhfT4m0GWk%j!M{{fS8(7LwS~Qia`NGrp`qX+
zpPOprAs^X?Ar0eCD)2`39C%K!@j$*dhdWnWU$EhKsbly1_H4(2f&(we6j1iw1_<cQ
zN%eP;&s}7Q!b3qQp>58db#;AGfmfvn`tXS5jK%S|WeNAr!%#}W!QPOwdJjE+*RO)-
z?`|@B;o<(0>)?4HzYw1L>E865v*Hc!j92-&k;*!obIz7o{BA1#RB+i{b$4xL?y}`7
zo;+rK!QyCKs;<Aa?dG<EgI-X-%9=OM&73QgvsY)4nGF{U(`|XMSFdW?qk_Fwstxq9
zSHEi9ql&#^sc9(GFmEljG{C%d1mJq+Z770pBMWOH(;Usr+oFx1R`%Ye^zU*zd!4i%
zh6$M^e}Ii&ObJ*cDpQ(JC}*!YPHSZy;$p9EwYnbm>Q$>-!CpDAnU`QqBWcz#E4>-J
z9h*P)?NjfZ%CzmxHtfr~_AOVjSkGE9a&k>#uCpt*wLjN4c(?v(3r3eZ2<QbhQq3E&
zSKU$yd(~^iUiBKW*Gi$fuHa){ZYhO%`DA0>5?d)Otd0Q4Dgs%pHJkBiBPHMqH7#Jl
zKAf7KACZX~WCpGBKA1=+i{-e)G1*U_=+q_eA=wG0D<malBEHC$>cp5#%&@#2cj#VZ
z0)Y84$Wj7Lkcr;oE4b@QEH>6phF7^5_BQrDmWW6sBO{GW00HS|7<aOtb8ksI5*FG<
zqZed1WxsVpDJD|USW+gskqe^`@{kX(r0i2aRWih5RnoTx_U+0*KM4~`azB?gq{<U{
z%#W&R@0T?$3AgjrNnsC?!?ql@y^PUof*gJSVhnx8n$OXPKH6UT$sxFxm|Ms@4*(+A
z<Q|eAL=^lNl8?hJ*en*yr)7er>yHKe@AzXO!2UP<so?#$Lc<>mCqK2?Emmwe7VBTS
z1xxp*)-w16IQPz3T$Zh~se1x`Ff6Q|Pp#D!Y}9bDidj7cdcC)`#?m>v>7Ia}!chw*
zXU^{W>Zw;wDL*%MW$pDjd&4Y#+l#|kH1-`UkE0PQPr#ZHs))1FFl&V<Oa}6MzW$fJ
z_ngnzES+;T_XPUA7cYCkj@OZU0{s@!PN&76gTY`J8%8PK_JWN9dbaW3!QJe4$>IL$
zxmV8JIGS}dEISb4(>lKe8!eo|7QtG6&-$X%;+{SB=3}=Xd-I9gPb>@cPVFqe%RaFo
G|33jl9gI2v

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/moe_align_block_size.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/moe_align_block_size.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..099063bdc51c7b3cba04ea756647bfc9db8b14dd
GIT binary patch
literal 8126
zcmb_hTWlQF8J_iCy!P5@E|`$`!l?qnOLo`sZmuRlO(+2Z1X{vHv8?TQ=QtjFc4wKH
zO>DCfX~hGm55N=Qr348HP>>p=RwNP<&=-(+=(>r7yMhX-^Z}_4u9Bxd_505`Gkfs{
z2hp{6cJ|CU|M~C#|DFA^zrR<*%ZmKo{PVD;{gb}<uZ`;F`Y%G7_J(F?M#$1m(r1?y
zDt4U=hv+_RMT*grQE?x!V#V&0-65?9f5y*@DA(qEDn3<w8Zq8ubmJYr$@9=sH)i$l
zUZa;MI?wqrqch=c*mb7QNW2t1*=O`&XX2p0GmZc2o^fNtOOccPi=pJk?@0s4lc9Pd
zU#PgAUCi5M7hhwZV|sQ8cX7wAl#G0(T#tKpc|LC%ZoPNfvJ3Nh*IeTDM5$8D^Mx{Z
zJUoy$`J!H~Zz$_V-nAW%8)8w+;a<fl6{57Idd2Y>#{2reg*B_%96sA$7u7(us~R#w
zOYn^)&{)Fg*=RN5^m#-<ysFV^=wg?=KO6Oeo#tX{LeobzIur6D{=gh@()I#3!Vg=A
zKj^xs_B$K%`u%5f8~nS*XA3vo>u}Tklevli@D9dLmA1#*<jXd<*}rRiRyDFuHCByR
zdoC({hqP+=x6x|28Yf>r8<$UK!cS?*u>O}GP3vWN9k$F<C6{@#oO$*<FEPV(;eOK<
z&$LTSFF3aAGUZ{I!KOJY*u}E$nbQ_$XH0LF34avC$S2v1?XaQ_8Vjsgu{^VEnFUO@
zOPO9V>A3Cj3HC@y>{-xV&g>brL%ys#x@B=I#fmo1>%?2W;qJ^VnVyLWi-J(WF1e<`
z9hYG!;8AzkX)H9DUcy^SN6&?Hm|8A7cG)p?k6ViwLFWhu%Mc$bn5mQsLU0)_E;BvI
z;>=40DK$_)VYcou9m`6#2fhR$qEM(f4ljA^p(meaj$WE);3qxKTwBn8+<uUB1HHIV
zW5qI<J8zcp$c7q(pswWU#H{Huhd*C29WFO-igfH(uF&qMltpM`JZGmYds+`vq4fPE
zbXw#d^fV#3Ok<HuB@^s0^LPnqf=uAf>SfL*J=@c*ywp~Trsn6Tz)2Z=KrXX{J!iQf
zMDBy<>3OAluw|G9uuC4m^};Nk!lR@>X(^saTNCUA7#89(;W8DM8(6J|ZsI(&U7E!7
z6P_d^_@&`#F2qnq@^@|I#E#N7k(-h>MfPmAHVMTS0(oZ~yC^KFRPC1a0!5A(LtcjV
z#R4WDK&?$q5m1p#G2h!s^^TEYkI32TDI7rhRx=5u>VQ%!3D^sYg#=}?69~B6Bj(cM
zzB*dV0;y!i(lM1RhaknOGqW5-96?DH5Mf5)^%gIk@@CcU?yT@&WCTz(U_tDp`!O$~
zx)Hi58T-E$RVZ-8cKS^wLU4OJ;$8Y1;)hC^bSTL!{7f$tY{$TqKpoN$rb8J4#-Jrq
zo4)+Y9T34ydo@W<`qNz(c_&z^3>rAK5Xz@V{v%^0U$$Kj35+z+*)!!lrq3W2h04Hr
zDqtOPSaC>P!#r)e=Co;<-XfdEe^BmKK#SZEWGd_!BnTA(Y9o=NL>wxQDsfJ8ZH5$x
zICaI|A~PYEA=ANO)aFR-Z97x+Jqh86L&2&@OIT+}u4OcL3|;A!hFQcqlmWS|$jr!r
z$d(0<GO=Lh!3Diowzy1G51FS?kNjlC4zbC}Y>MSlZ1+@(O^&A+zWKMUqq(Umsn~|@
zuzYt))P$yxr$Ij{KFeWfRbJSvewwrKtn@dRjY^v#3vwAG_lUfB5Az_Dn-pYs`xU5R
zQc)e-4L}NPn1JQf9=<~zcAE@N76I31M1-+%Ikk~qTV4C8>9}5s;@Lw|$6T4@X)|AM
zDW<e0Zb)bTNN&n!;KVEzBZF|1Px5BTFY>qxokQb|_f&(EmY6s!9GoJS*20gJ`-#LT
zq_L+dwxu|fSArmz1W$WY?10>6mt+thV$&4chdW3>-|)XD#rD$|#X5QD2`V@)##Cu8
zrTGH-87j!5N*HM^s@w>2)O{*E!TuEfZe`j<;iWYl-ML9ofr45hf{3(NB^8n)r=Mv=
zS+H?Sv<baZn}R&i5?3@LS}D~fd`}Jg`(5>@;VqVVJ!bIJD8R|ydK6C1Er)vWdepO>
z!fZXti)C-I9yLo|F6$5mbEpBYM+%7fdKk!~ep{!eE7|K%L+Jp2X%02&4q8Xeq2|0k
zP}CRl%_&f1zk09A>x5P|`csOsk!!#ddb*`~vC5w=ktSox*MEOA<`v6hWwV_2(D86D
zy-?YAVE_C+K4zKIW93COPo=TbmQ@@p+6K4K9q>X0GLKpMBATAD8R{<b5Dm}Q_LQ0O
zqO+9*qDumA_aC^N(^ktNZTRlDj=y>Q>QL&v7cS3zF@B}AJofnV(Brkpw!e1|e9cB{
z$@@R;y~-Y~#fQJ%bo(2FuMe*DjMU=ngXkX<?<X!l{K*qnp12Y2+8jG~>_$wxW8{q&
zUVovsWB=uQuWo&?7P&20v#k~%d}q(Q_q~1JrG<}P{P4xbnnCu~&Np{nc>YfV9}Rvu
z_~~<>=ReC|+x~Pdvh}-2_g9gj<;c)VeB*07&o8|<acQacz%y7HjjhJC_~u&o@XElQ
z7kZZmcD~&EZDQcHrP_|YwZz_9WbbuIsKMGWp7hH+{3<`KdvKFYszNplQwR_qRt1>x
z4-zwWb;68B=%PZBXT#O5IfV&nQ~z}~QVll{6VOY590^?lJ(9PHS4V6}=rKT*op53`
z(u@=d3oc>45t<)`fxC`rzYB>maCWwPoxKPf-uhngAEsu6e*~?bbr3GJ2GrM%`NVgD
z@*;W+4lPoQETv>qVP)<DV0Ey5s=4+Mexg){RkE)Tlmxa)`{}GC`+Pw(g|>pDA4LY0
z=MG{LrT3Jo0HTEiSwX1bU_s}US$Cyq|9ziT`9e?=1zTiqU>&r*MIBhBfEE!DuGA4s
zc5J4QpOGI?`b4iuU{_}b5-|~ha2A?<bTJ+!Xt8ZmMxp2t=tg93VnwRjV1#jRip4sa
zfsKNR<ODnJYhG4LA&O`x1Z6flZ3n$LYXZGyNf;^V7pkTvND*!tL3bcqG2+<JJso@b
z3)iFqHY#dK<^<}U?SR8IGbT;+W~!g&jk@0AM~c;k4@q%MrK5E)!Wte<P<d;{u{eYf
z#-aK#+T`=>-i}V6^!XK?j;P&q4kCn*U^bv8I_j2QM=1bK{^R&6aMK#SCFaJOVzQal
zfT=Td5+V73?HH=vP5QD95qC>Wv+-cBHlzfK3UbIJ7oi$go(ky&uL3lzTq>ZTphpHr
z02FL=$f1rFL?;G2Iz^X`BS2fZy>!PGXz&<tZIfjWp%v^DNQclLHhle%1OS4SHI92o
z^~h*8(SYusQVgz{ryNZX3H%&+QukEfpB9H3Gt`W;06<W)3(wj`r)88VM0?serlMy!
zU-8&pdLVVBq8Pa#!!wkBXj1l<Y}N$AEahDf=oVm3L}GA!qj;EX(#=i0KE)pOBNb$*
z#cuGFlpHim;=>f5k#R8FCJC67oXSHWsGi#RT|TW{O-W3Mg7VTv!JjIXx3_Hp%Q<US
zwC<^-&%(}GctjS4%mOlG!AkakPaJp`2b-CU$~N*K5`IWo+J|oK1q>dI6GT*lNm3M0
z2|n<aBvqf<>BHB-t<7%ZdtK^Mu3P6O2h5ZMz{){CxjpN1pM(B#&|eN><PNMqUuor*
zwKFPQp3Y`lS1R}Gq);^m>rE;3Jj@+VDrn>p6n)CxGP)3=d?7<^0DO)xA04Vm$D$0+
z7qC?37bfEN6fYLpJa<amLMD|J0c+Mc1jZ;e6y%|le~RnZ9YKYT$t#FbI!DK$8hApQ
zF5%P{4F=AvJ(2%f*pz1=%&)3cRN5SmtOscY_JxP1;fwTcXfi#XB;Rh;4$hy0EZd?T
zncXPWan@OKrDc@{iKClHF4zCC%!(MyBk57v!a+TqPO3+gx7ymfKn2;|WX3g?n8l#9
zH5xO=44Mw8*|b=8x3sQ9AjF~Hi5&XbC>gIu=;T@AV1mgG{i@<@q04P_xgD4KkVsGx
zJ+ApR0>JoAnkj%Wqv@d|lHMIOOh39f+vze$mmyr*kgbECS2bsce|e5({1q2~&m&!0
z&-Sn4Bg^rT^Uq(6|NPwHmHv^h`tM%uzx&)#z`Nm*cjC3=q038G*|FuJV?d<eNdQ_K
z$<>DUeEjq$lUF8dzk2rCrsvKbTS>4B6U&M8rA>cJWNVRZEs<T>n!41xymg|1LTe+L
z+VHNAqn{+MB)&L$ZPQcdj(xrT&KC6f%(d;0`N;FG<;Yztae&XwEAegOikrb3{oO#H
zo3*~%o6x2+0-2Is$B!mA2qo7e1lAowl~T)_=zB)~=9$OuPL?ZACI-Z~7|7rxW>!5D
zhZ-^2g4V<6l<Sdc+qQ7dQNhun1oNcS_cgJz&~iO~5QhU5i{J00@rcl=`z0=`;ZP`a
zJ+6iN|E2BtM!V}9?cUW5+C4j02HAfS$3mffD;u`FYQ18uhUv?<8@H@R=>`_qJh0j=
zZsQs>-}idod2e~+j@2G9)~gL{TNUe9`?Of%<vp(+eC6QzfwzX<9J)|>xB7OqmdGtf
scVF)pvrl$CLpyCBUJZ+zof&oWz{8&({Oq9o@@=&DW@K(eX_*lAe-|3nt^fc4

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/moe_pallas.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/moe_pallas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fdd42b0029953513fc056d86c714750616e8d6ee
GIT binary patch
literal 4926
zcmbtXO>7(25#A-2<dR%U{1a_ilC_d;S(Ih6QXD(}seh2lZXL<UUwd#|5G(DIwA7Nz
z>@NL7F9D`VQ7buEI!W#i%%cn&r~?G3d`gc2df5#Fklh-nf%f8_7$~P6+Rj^YNm`-O
z0)2ws&&<4eGxKKWef(1(;3J@k)Tcs%A&9@>h20{}$qr2t#0J3=JSh^_8zY%<EI3Fa
z<GfCh1n)pZ+R|fhZH&AVxp@lyUETSMH1GbHy6*83UV;zup6*gSy$9X92i>;^-4B*9
z@E_QN--GBqEe-R%AG@x5?~w7(OYGb=(<NkcdDV1gge-L2ZPP6yH7{ouoE<@M!yK=7
zer<(NBhnpAd#XC@S(>tE?QvzCAQaD42>#<H@fV~<YL1lyO}e8^=bat8@Y%Z>PyH9Z
z>-+hOZhT=yr`qx{P47Aame@M@BMXocyr+OEUHyJSKW_S)_IJ@jq#+@9x5p4i+=`Tg
z(3~2j5s#bE>!zc_n=X;Hb-hQ#y@k6z7TTLq1}+t`>M~-N1x1yXWG=%>i!7IAg{=D8
zG^?VlBFPE%eUO+JvMl14kiv2@VtKSEWD(EK-@)50b&wmdlV>44*qfY~N6I97OHh|t
zMMXLGhwN0s5-S|Ca*5646_uSw_&imT7nT!^BYE{s4kZd>Seq>(B1M5?z${5-(T90X
zge~}-gxL%BsfbT0Kt|aGWCj~Yr&I}O9O#vCYAm#}4i@-6@#nsC6}k<4U(Gnfveh61
zn^cX&S($ESK}!U(^ohfkg19=by~JA{k*1RuGI59L&1V%b3l)&*RPsQPaRSL+=oD-a
z%l`9cNi~y8=7ijFm6Ml{di-|&)af@?PNAeI%qMeq)MY7~yeW#AWJcnVm_oPFLLTCk
z6uCP{R+5W(1-#El2>2+K<3y2D61h7j({R2KodTO`-EZQYC@pZJaz4>15yU3Np(_z}
zHxXj1!MG8OZ;e!flll)X8o`Uz-Wj8J=F1Vicc#)itJAYPAWX<OmE)x8vTiNzk#Sf}
zmvx`GW<U;^?)R-EGHFrBDmf0W$e~K6n@2Z=1r&G5IIc2ISlNZU5Z2&@WJ_7ereGpY
zR#wI~n!dIt@&FKUK$Xv+1H*j;6S{wP_3UqtJUsT`*jN4|IyI{wovlFcKT`AetR4E~
zj80w9_g$z^7w(;@Q%=_$`Mm$&!@&oGb*HsBeg2EVXU)amy*>8_R|j`onDecV2*oyf
z)_XRU@|#<cE#*=F({~;XZKE$%o~?Wxyjl&;8Ns<49k|b|GCNL3$X)u$H*SL2zv(T%
zUh&7P{z=0>`Q)d+|KQOF75{0SIxUB>KY?X|=TSDLsGN!v({XDG{-@2r5~m8;rIeIc
zaowd<DYs&Vmqclv6I0oI2J#?>WK}VJjY%rQ<xIbfvXY$PM4^BdI!jfnF#iMM3<>Z4
z2$$GbN-2KriZpx*ogWGqh+EOyoz7GJnCshvOY+nKB8~5FSF=la(XWx+&f}eyUPg0t
z<u*<Yz^Pq|ez6DWoxV5EF7|4EjVgdOysH5Fc&GK$1RxG>oAVpucO5YSJ>3emU-Q{T
zxCljg4;iK<;{=(&t^mLi9;Y6gn#P&Et3C0wGz7I^+D0cGQX0im@TfHJ>jsR)U@@e5
z<d}wc^mT|fr#!`bpR}wmfOkbKx$nD@TCZK!Kq8dJ*RiX$?l1&={2}gYEq+)Fe=k3x
z_S#$1gZ8XF!rk;d@!MXehua)`rco_hqgqr8Te%ZeM_T+)HxE0aKWa<1M_VKB)EJ(@
zPy6F$`7icqgch~Vh;`^V+}>-?(qs0lJ*IJq-PN=hK!`rLnSc!tiZS(=EtH<LXYEmo
z@jX1L1%ByRbYM$tYcX95@T5)0*$%qedG`NV>DX;0SRTRWr;}~l>={o1T=BJ{76aK}
zddlXuM=OV$4{gI<E!H)6dm-1Gaz)VA?M%(vDFF|1uu%2kr{j{mq@1y4c=bxfJ;Q!5
zG1($P;rw|^?$#7AJ8JDD21Q8DAYOo4ol-!UonWW;+C9B{w|y?`>!PZC?klCgVPA(8
z4Y_NDW9`Dv3JRN*R94C7auyn57Xc?VumC$J%_L-8Bwqd-+Dlw&3U6aP_qK%<*ei2$
z><W^zNMvQeP=X8q4<DyWEAVcEgZSyea0{Rs2Z&5mg`8-iwyBfsd|qXj;AB8HxW-w}
zzl?$G`%Q}JSwSd=(GV%)RIvd=K$ST_1CoML^0Jb6`7f|7-fteZkVERW$R#ZIgbd26
zoS0YutSDtt4LePjvdra>=>jv6*idWX4(g_WZkZlMT2uiW%27DabS;V!r^+lo8y6aR
zKc;#XMNS29YkB~5VT@$DIWTAmnIReF5T~ZBs}>P=6In1r#^uy>N;$=Jf_0{IDU&hD
z%O<4=V&3#X(6C7|{?y|8WL(GOA>19r9WGi83vf}AalMfbL1%hf?wUSH7M4;C$NU|c
zV*1*bVfs7rzzlsS8#_Y5;9E=GLc-EAfP}_M$nt==6f<h^nvR2`4eG!vR2hNeI0_AB
zz{-Z!(!V52`JD9yC?<JZ!7m8@vbwYeYV)>Ws(b}x@q3}%g`@<~HcBut-9Ln(+HeD^
z4gG~mz6c$xh7KE{!=<aW@NhMJ#0VcL&l}-*>8+a0D!*5r*F*7YC~1U}mCzIxjc$yu
zk8e(`9|O7l2OiQ7=yLc0qf>pgz=3LD#0ZR(F4vg;Dl=>_!=;%T6Wfd$%uqRO_z#so
z{K`LGC!8*K-9dU|wHRAIVZ@H=edBc}>7CdCgy_~m!bkLtR-<D^bgW!>dbSe1P@1bn
zM|M*pY&9}&M8>z?{XGANyPw_FBjc6Go2A*>$nomPv@tUM^u+eN`p9%;<f1_xEX}S>
z{@D|*?K@N!t79jPv6I`=e^m9cla;YqW8dsOrWP6AxUhZ!uw*1&ntc%&u11a;k)zhC
zHgL2$kTeF8m4PXp+Fu(zSsguZjGnKIUeu}K=h6O++4b4-fv1<hj-IVX=ZxswmwYAq
zo@KT^deVrVD$P9)4{qLgn0k<ELe!zt+f&;sUtW49Rl?UwZ@r-V)-nctxOC|`KwR&t
z_kLhCP^J3~x_@(I^WE~m_K$SBzd~Qa0^a-XRrkFQ*CKjsT;Dg2`_Q=28?Vq4TkmWs
z`iU9i#AQ8s**Jd1ps)N7Dr>Y?_Z>0lu_~P~=){%`u^Xt+Go?!}Xz#t*Dl=*@qh(oV
zMk~yOK~Iz}!H)Z`RoB|+J=dp!#uAKPo2bx3u<|pdA6xJ{?znb2?rT(vi1jfhvf0F9
zKD(d_QkD}<M>cEv+H3g~WUd^8&UC`(XO#w%nwKQe%IimjrL~ds^f~y&mKV`^`5MUM
zr%U-9I>;rG+@T3F@K<73Cx+|pAbDmDZHVh)oq*|9#2TKyW)0h~e{t^FxgE@?pCH)7
zwf#figx(+nwaEUBbL;2oPME)F{OG8=U=Bat;8zR$1gU%QiYDOlv78sLe1yNJ?#DBR
p=pU>H@T>>_tYOxfdM{oDiEylr_1D9M+yAQ@AKmyi0xQd_{{RH9Ukv~N

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/moe_permute_unpermute.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/moe_permute_unpermute.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9e4e74b67a0a4ab9eeec02764e462ce8e3c1e2ad
GIT binary patch
literal 9456
zcmc&ZTWk|qmQ{ASTz2^#llP<IbV!`egM>E(B&O*N0h*?PnI6&IYmBR$*eO4{TqaGh
zr7&t~h~@+MBJ9ix(2mq;(b8uA*!>wkS?$NVaF6UM@qskGTJ@jV(9&vucF(<4<=Bo5
zJ-r`$A>~{5aqc<io_GDL(`hH5iPUdm6h{z$K`%z@);n8KGeO)Vc!DQI;xhU*iDbfb
z*-WCoS)>w{%NE?HL^@%;Y=yo>AmSba(DpA+w-_f^tOUVZTg)<ojkmR!({|cn1uNK_
zuW3HY<DJdt{+iLKr3(m*x_HNz)Mb`;Hs8y;T8z6}jB9jxTFiO{2hZ|k)WQ4URHuzF
z{_z~&)?&|_dGBwrYZq{~{jL1(fE60XozUxQ0ZUu)|9ek<zWYndWtWZM2V34%EBt#}
z(AC>wysyQ$&If#d{eX>|ANZ2E?72<`1K%TMITs{VHWbNb<WwS*N@w8JpGXOzuozoN
zhOUaK$Wka1TM=N~7K)}1h0=nQP<@fCB!w1ZJTD|e896Kq8Pyh^{ydb4ghfGh;%PaR
zUJAwdjOtquQ&+=cD49)!gf9SqoKfvsCzJ@MRjYPPLZu}^&PvG$y{*OsC@TR*f!O*R
z5}AgaDGtAljVB-Lqj@?<G+kk;uCU4o9&R~P&XP0dDBk=H_1L0~eG0RACU48zc}t$n
z(K+i1%;X)iK2H$wTKo)1ww#4GeM3LiVdrf%>luAf%}<Uo@Zl{vM>hc{F>$tLfdSV6
z!VZS>8>_KC&&W<=U5>~xIeNuJ5Rc&xwLFm{Z!$U37)J&pPr^DhV#~2n%S9r{to)sw
zgLYDo;WlGQfs+>nE|ZdEfe*>4CAd_$w{cFtBj|I{l!O;8#I6ZRE-j_5ib8@zk}-)v
zod-Z!Sp%fW1*gdc7f$jV7K;oQjzm%tA4@K9a*Dgsc-|Ea()Z{lB}C385IR>n%!l-q
zfCmy+GapNQ4L^zS7eT8^Asi$Mma7&yB}EohuOy^}upEjdfjUtLUlUYoSXw|pR7*q*
zC(;tS%Aiw1_b4F&lh6%GHuOMFN<tT*+CYFqOGs)}H)cu(K!zfV+2oSyX+*v%&`99h
zk)-Qe(y5Fb0wQ>USD9Gynx;VZ?G+hxo9H&G?Z3lQaw0vIj-@ALKwOX~zQ`Utd}!&Q
zFeS#WPNlEQi>c()HBn4VB~rW~f>H^QED%2>hOY}!W-6M^z(s-@!@PhGgsTZ<lSp@=
zH<`Y!I?%K+C2@cPLL>7nJXVQHC*kccc>;<j@Nl~58D5=#**;oopHSK-Hp0dBJ*yvn
zcl5(Dv+K@sft%Sp{Y-vsHqFusb*Mo3@5Bp%LluS?4z8Yh>Fr(*Dc<qb(=WX3CGV)>
z9o^{O{P^kMx89R5=JwytujLDU6Givr#*IyT!F_b~RD~uwM@t<OO2@?J*ptuyFj?rB
zD0Z9x$lrAZ3Pbw~2j`w0Rt{b&cKy6SwZF7_3fA7Tzpv0gxfxXYk1GDzTeg>u{)e{0
zyGNf~e%4uFFBGT?TR<0~np0U>WovAg)Q5&yY^j!o*utW$_J-4G@p?#trGgaF216-O
zh-5k|N2)de_Ejy@f58h_CUY~p^BCq(`xFE^ZvpE>Hd|F=zpOdaO)F@ti8n`0y7rRs
zs>RZvp(jrw+f=nTWRA)N0D3Kk`eMMW$$qd`Bu^Rp4eLS@GNKE&cr&{Nw#2YCByrso
zw5%*+1MqW0y0Dpu#*$%?lY~rGl(7ZCTm`iUm!R<!%nKMDFeQQnwk5H>3qz9xJ{yr^
zsU!#gk#VZCDY~KfA86+$B^MwYv`B66qf*ym!m>&wvSJ8sJDpLjNX#?YM39jJus|9@
z4|MC&JLoYC50(5tr4VK+c_xEMHWX1BK(k#~Q>w}n0(%z1=n2vk%+J7ICI=5tn|8w8
zU2^p+uKuEnyE(UdVpT3PZ6&5tVLI1+MW%Q4MA_;tSbNItgAYeH-g^idwdWRF_Vtx~
z0mT=1IP*~6_^9ZcT0Qe;c4T{NPpK=YbOkpCH!f^?i(PxaW%j+GtiL{U^UNJ~{o<df
zL1_?S>a2Ij4CXenM@&-pyQ(W00+$ZHSTpUar_s-=ZPA!0g0x?Q8Qxgdu3HYi-seY<
z#Wb25I!Mg6{u7Kbs6$gXT&E7;V&Ce{*_<69H4$F}5^~PGX$4F<Z(bUOyRe=nK&*AF
zenldur#bK(eX}Fy0C!JoE)|Wgz&dcC@YKdMX9`c4%R3-2uppR{DQC`8Ic9aT#;G?8
z0vtJe)CBl8Qye0W^B)~C{ih~iU?2c!651G)0OkN2Q`iR-TDAAz68u~C{g(Lq8gA6!
z@2JNFz42y)TQc0C*5XLL8X8d8oECjo+}p4LUUBfT9fUb+F!426?TC^&>;DalysPGn
zX17Jbox{;Jr}&#-(u!7HCiCu^Q(94?%V5n(KY^=xPt8fq=t1F~=_j6HP~!!S?AXbL
zH$yd?N51y-&Ye)=MxI|Y6-UOnp+UH6$~m>rJcmMXCg;w1bDo^*u^#%8D9oJ(cZW=L
zLo+mnCznow?)HN-^~8~ZY-on8>jAdSpaSd#IBVVYqEH&njt@0#hF9a9oC^ol_V6RP
z6zsh&Eyf^X&L%Yv2BsE#21LIQ2<vtfg~D>|S{Qpch=muz;Nv6?cBGPWESXJZGvF&B
z4$okC91g#QaAZ*r$@Q2!EQJ#&gwGto%O-R$sb^%|D2|6GF9Dd86g<LR0zZnw7*57R
zC<;fu^@G&=9F80{uoGN0ljBA|Od}k_;wQDRJ_BH%XTwQZ3+yp=b-qVO$8bP9FhLVK
zDIAWpxEQ}pBc|NI#c*BRD8%zR5fD6I1$L#Pb?lhn>Ydx0b^sqZ6bA}G!~5qsDV$s~
z4%|*m-#|Tg!r&n!uxXUhXxjiTABzaawZX+nDJ{0qa$sXwCLNAIvZV1Jd*u2VAPwD&
z22_^;j!VOZi=rTMnZ>Zg8wfYL@EWv%W$3Q(3T^>7o#qyVM1sQ!H_qNL*LgumqjCM(
znnVCP^U;ifDBKt@F#(|hrWga#!-jgify(8Sv=oNpK?6?0S#t=7Y%-Hgr*Y27O-$Fp
z((z~>bkva7D3gY;auB>jw60%~#wQfi%}2R&sic4-&-yjoGNSCNz(piT9R*C9T&u+z
zkPEmzQB}8A2-e~S>^GLxD1G(rjGD<CsH$#%yUHOVV^J<8#TIY?j`MCVnUWC>6S~%;
zL6BIT$-1~lV-n=4So1=uXfz|pJCs%*)<qL<(2SHJpGY6KZ4?#=r~xE-kX23ifUii*
zCJ~N8G7KdIZlqCqM+|7K5yN+-$utNwh}TXa27ir&8<II5Y8qecAPS9v3S(qZs!)yd
z4G0GJ-@F@Xxt^i`KGi+ikO8WyD@PjC25Y9y9Ha<_K8|0hZuunk*%ipAQ2j(RF33D+
z8oj(21IK{g;}h~C*wbZX8PWUMQx`#|#S|{MOkTm9#p%-bs9=t3EGuIeS%F&;q$F6D
zqyTv6lt7(DHyuFJ^nssABd{xIQZ2lEJuRp-FI)p#x3c?vsOd$J(in6b0Q3qF>;}zR
zv2j;HCl^2%B@`b9eOk)q5TKF-b{Ll#B@}_F79o+AuS<s!l1I=04TdkdAgC5FXnSW=
zD<qbSVL*Y3W<?Q?9@wXvK<&oxYMimXr?Ryr4ooqMY*cGh49lPkfWRJf0xkeeqaMoT
zq`l~Yt3dluZ$Ek*fQM>LYWjiFDUCzY1RD1mWJA$l8B?M9HAT`zShtX>t$LekS4-(u
z9aV53o2sW#f-@+_M0#G|aIPvryhGr}9CR}O3}FmprRPbaYj>%0Oz9jec8)95uGP6)
zzbvzDw~wtITlW^(p4F3OhyPB#)G@7eOcy)$DvrIIlENN-^3iklc!e-o=rXf!%M8B-
zc&CXj?%_N4T?J}a+1gRC4#9{wQ1*4B5{y^rpHX~!UzthozL&nhD~rjC=G*+QtY)vj
zVkbP@D<|#bDlWo3@XBp<4phv9t-InUnD%wwbI6Rl25-5_*1m#u_{HGvuX-N!l%4$#
znSvu&_6?ML!-{XX+{TsKMwGUZ*H$WEFEIT8))6SNyA^hKksU2e9Dm9b#^;~2^A*Aj
zxZC#>X5M@H%fj@z!k!Py_O^n5tmL0k{8L5$bfImgVkT`s9jq*{^RMkh@8E;k`?F=n
zcI)7sOKZn}zY8I;`B`cIyt02D3SGVQf6&gG3%8cnsavTc-CwZ~maf+f;cdTXziThs
zx(iHindy1qYP-F(wp4camfS;%d+4>z;-y#TUpojOi+#kFfncw~bpL+%t9Kv0yO}5*
zIISEw4e$r)0@e4LCj4FZj@&(Bz;oYuXU)|Frk`Ft3otwT?%lY1qiplsdFPh<ci9Iw
z?%&uvR@ytK?41LUodD7g*Wl^AePiv$@Af}9djDwAJ+gZ01!ep7{LT3i<yR<wiQ*KB
zgR)+k@stq_KHO<9GmbLTS!Vjn%pmUg%Z&GRkIO<=ID+v){q14bSACEA{$XHq`uX5K
zD8{XerT#ri|DMf{pU8js+oxe=|6HMePqF{hvy)2ydBy(`l;{vRuLiNia0<f}nE;Gb
zSlU5X2--qxH4O)jA@!1x^Z}CZGw`S@#Gz~(<u6;`!Q)4KBCxb5!fj`#G~^sji*82D
zkE;%5Ty>zTRR@bP`zx|0Uuu%6HLDLaE&f9p5PhD2Oo(`_!-1k39khl&0o}&-{3qrb
zC}gcoH*~Ly?Uq*UuW{v?13SMX-GDG_heNFky)e{?s$ZzD9_`p_7``TPQmqv1*tavA
z(BuU>bxZ~(%W%Vu7Ig<a<U!vW7qm3sZ;0fYL{PPS#|ceC096|rXaqFGpqeLoQ_80m
zD|wuMR>K>3t!AJG4mc^)4#80Z_V>~uP%14{7}t0Is9@n-kjDO9I*Rrqw~n2&^d9t7
zXI-cjv}(0k<YlFE=uy>k>|rJB&5)bceV*p*&ZCv+@kjVGO0Z*uqqD^JDs1oiM@4o3
zT$_8i<Q`MpV;eK@nPK%5xH|ZvQ0h3MbQ~#m%qouArzVB{+0*cIc24(o2XtRI2Ugu;
zuQiYXg#sf5mJ3WESVS;~U>eyUoL1djMF5j(0}a*8(go<;BjoBt9L+SeIMpx!uW>|j
zLo-awMdEAnT##yH>_AP(vmMJq0bI|tz9z6))fjjYU`yzM>}IA19;?I))^q#t+Tjx0
zqp&?C_Nc-hEwaZ7)G@pd%IqVs?A$r+M?#bZy;{&lp$}3Lvcp;wb{M@+)_<Uy)ILy6
zRzFa|{LXL9+Sk0XAGJR#$HWZ&o~P1Up+hx8kO<!bvuP1(1b~i8T}`D#T&&juBrG_X
z_)7>|R2tGs{md+&n-zuQ(x)(nim{nJa90o^kmMFakj{T6hJG-aNYf8AL7pHhbb!1_
zmOJ|%IPN<tX7utBzG>ywa_hX}4pb~?1l%ro^4Yty6)S#ah_2p>4R`G*W^mkftjmgL
zsKVkg2jTKooVe>EX!h3r+p}x4>$@KG-tXO@l&<j&;UC4X#V7Co@$5gHeK!1W<Nq>V
zV1J=lKHhTUJ*P<@87SLaw|m!mD`x1wgd=+I_Es#=2UGw(aZOymq__qvRy4#Az7D*=
zhTiPN&`5<vJqJPCx16ZAkLc+u?;a};jg$ul%QFXFwPi_?F1K}JqRi-}o@z8wJ*r~G
zuMFY#RcyFxCw6sKSlo5gF~Et(Ttr9r`pLWTiW|Rri0;0M7k7O`U*N&n`)4=yDZNt_
zj0MDve+`dzVK^&h;=qwtz;3$ADCob0xDSA%OGDTLdE<A-(Vfx2qmJHt;$0D48x1_-
ch9Bha=Qem{U<Tb9tuqUHTc<%%j$?`XU%fmj?*IS*

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/moe_torch_iterative.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/moe_torch_iterative.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..36631a1132caa94c4f321a3b1396940db08543b3
GIT binary patch
literal 2729
zcmah~U2NOd6~3gXUsAFu$+BcOvFabeN^5KOQoG551;g5)KaPj4eaaFDvUzROrbOYA
za%`6ZRA9xNc39#kr+b+mGb9fkFra<xV}St!2?3LO5nu-P)He<3OZT#!E18n**w`gV
zo}cgh@Z5V2{}v915G+mjT-^*H^e@J^D|Sr0_!fvmq#%XU(4Fp^EAp#6hl-v%0*8Wd
zDU!ltwAu0II_SO?&joVf0=f4BxexmkKiq)}^g--bLg(w&qKf!i@14Ldmkoc<(pskB
z4OLNaDQ}ns6C0GjKL__b4X+nWwX~ksD`vT3Qo+>ATQs_^=_>^-U#b-Ic&ChsY0yxY
z$QKJ`DiU1MNwJ`*dzktNHY=pG3gzrAKTsaHUtEXhA+peBPt_-?f%D}GmjX~Vc!8Ez
zxDm9;yq{T5kNIlI;?9ewcshPXi$7P}jVeJ@;f!Not6`9{uR61=kQIE&cZF4Cc`m?s
zdl(O3f@hont8ixTC~ZnF>z@fd4-qS}Iq)*V5)|%PFV0=asT!#cSbmbQn1%eZg~BPm
zXMWf3p2#c!>9)ZM11tQL>#~6Ged4uz)<CD00}5XqG>2TMCAzq`(7iu^KiT3exr2;a
z{4o`?1}u4N8nki9EWYPO=>KO|9WsaAD4R)_>c1^yMcpr{CQe{S`WTn85(=;IpTccP
zpYm%w%g@cbI_zpKXmD3+4YMpy`8_X(gca-OU?r@fj#bhcta+?tb@2C}S%X$`526A6
zNI=%$xu+%I=JFxR2KIgorD6SotQ*%m6yr{H^7Zs@uDsq8K||i_;qK3Y@<b26o>ogH
zCPl2MFaz=ifYVpf^A}mqpS5=5g55c;`f*Q<lx}_}vgqUb6XkTIF5>(D!dfP*xw1U<
zC~A><6?3<YvmA+l@S`l>c~k!u#$`}vBh+hb6v~)-Asp5S>k=w#tN1?k8~U1AEbLIP
zsgu<W>Rr?Hf=O6MQ;$(8Qr^_5mlR6tm~ywMPg6^{K&W7-S|ytzY}ybu76_aJM11VQ
zYzZ5Bg!MCF?Mp*CQP=a`B*YWtq9IlQQ{TcRgNi4LLFJdWq?@+H266sAR@XOR_zoIa
z!>cA%dgC~@rj}qryD_>$-JQ{@vO|N%)rC3VBj>5utGTg7BQE4P3b#WA*gH&zRx1QX
zym{Ka!5W2~zjN1r@;S3u&Xv{jj9DP-*qqs^EM9waYZ2!(btPBcH8=E9Zd=oexuULM
z4ZZ}gR$w=BT45IxBezyD;QNX?20eya!8YYpIIi%2+QzfxT^j5m$Sh>SN^krf=28u{
zCsA~)DNj1`WbM5ckkKh8I#pkBqS@N}E%|a+RsXQQV$0d4oO9${L!M*M_~G=y^y9gM
z*8rCs`BUJFKt1|}WD7$rDb<w59BHif_EG%RW<2A>GxfbMf7XcKtle()CH7C>Zp3ea
zD3)%<rk&XIlVAU}^3}(G`Phz4H)6l6Ew!fRno|qT)WVnMH&J_Pp)vKABaGLU?CAJ+
z{%C7>qOLVF3r=R?>-ld?JG0QpEIGqV`%)`5c6jsPX8nyuEL&ST^2@gWQfqVy5YFhL
z9Y`LHT(*Vb=ZVqB@Bbq)y&r1D6OZ-|miL2wB9VD=#YtS<7h5BlC!@~D)n@9Nle+fx
z%D0nt>RKc9tNqAxDg5xA2k$((SAVx5&F*v02L>N*KiGa$_#<bJ&e*TauxE0{Nz66|
za{EF{3V&9x<#9)zup<+WG+8$t=`}DrcJsmGU_%<;=UVAk>&s4h-VR)9iI;6L(;8od
zS{{wRVZV9X8NUs5dlU_4+n13v))XfkaiacSL(JJi?geZsH2m_dY>==Y3ypP-!fdHD
zyH+W!nyL=xp7Ny<4fT1##ys_X1ns30>Vcl3!iuhIorCgcL~@`eGYk{B0jIB`;h&R5
zVA)^I_#7T>565vY0*DL$6OGwutQ|+`$yV~xzvZjkPg=3$;f;eEZ4b~#f$&4=fz<W_
z-S(kiq{I0c7eMh;2Nz^q2#Jxl$S4V=UTKFJ6+v?1P&$y>1B@F)(L|g1Z%2_&{N3G8
M?*0%1u9NKl0Pn}2rT_o{

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/pplx_prepare_finalize.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/pplx_prepare_finalize.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b1e3e81383e55dbdb37251f05f2853d11b4a9fe
GIT binary patch
literal 12401
zcmc&aTX0*)b&K}}aDfXDAOY|RkQ7CV6sZUGrew(vIguz@R_HjPox%|Ar34BO`T~?i
z8mwhUsQ@{t#AIAj&2&U{I%6r)O!Vn~bec{-nwkCpq*L77Dl^O^osRyHP#$O6>7?iE
zy_W<*P*L)e9ddDY@9x>NXLrwQ_um~38-WxzejFqHg!~E%T5_nsYO{`zdBPK37bgkb
zm`;bVKCT}#&|l-2k^Y(z=BQpr5*C^>G`Eh~Xlp~<o?ypV3LE2&gmcVEVN;w-xW-%*
zHpktGy0N;1XUs#(mbf=jKUSY;7;DfGJrP*J_W&rtH0I|SA;4SV-zFF*29?^%oVVAm
z7n)`)1gNJuD>U;Cp+yJ;psP|h&hpM{#<5mCd6n?oHNv|D+r+U-%nJO#p!|*nr}aJV
zCs^pw$;?ZUcsz1GE{s6I9!thD;dtu81wn+O=j2pc;LoI9d3`F9%)FFJj>j%Qb<=2S
z^7NZR?83#&i6nnc;HRR(%R*eZ5XlHVdbvJ)ITDZYPza}^kvQZRBa?z0NTh`DB|%II
z@$kEdFE%5DW68;>4D>NZ`PgNd5mQr1K0GxkI}?#B;p9{zoJn00l4;p?F~;*kGR(&k
zG82Q}%rv01Q#@+HGbxDSNHn8#QHGH1=i{m9C53{hS(!i0O^_o$R?jIrMK^2C8a{kK
zqplVqSwlvzwVyC*(E9HK^=n#xihQKY8YU{StIc@*rEWsh7F)EL0ZL{q6=N~$V`xw<
z+_Oy9C|a_n50&wmS!;49lzdqeugASHYs=WR{#jktrqMfV&)TyL9o3rjX0e|ezUym^
zq0q(~W~~|RWRa{TYu0d8)LPeT$Ms($J;sqIE*Sm^@>4`s^;l$EEFDXxGm&IekWHDC
z7`-T)l!ats86lB|4Ix{`<Ecny?;g>L9r2|1up&-GWHCcBL?>n(W;ldwg57o@DZAFU
zNcjA8Mo7z6*prDcMO&wSR5qmY*{1Fd9M*<=jh54C94J_k{wFe!NlXq*#wK@WBH{%h
zv-8T-fkOu`9S{cMvGW6y)0vB@<iO>4JTZ_+@vysvD?)S%<~I<JObcRqU>r|T7`Few
z<YfFxcv2K5Bcc!<k0pWf8KHl2T5h6WDrQhYs2Bu-eDI(C8Dv*UxsEuvtFM%8gz*$C
zt&h3DLhnCJefs|0_dn<M7MQ&SZm+~Ombi{0*RlBS64zZ|x(i&l)U@rMz0^HagukYt
z0^@(|4a}dJJ5%!RD0+9~tiQCku6SAto~{Dh1-TU3QDj>shri(HTnTh8zJ9wkcj|GV
zWntppj^)6<+$ky4doNZD9e`G4GimRI-xU~wDRmzz!e7%N7(!}kEijEw&BW?1xI>Hk
zmYJT%jH}@8SbSrd=`EWKthr1KCi5yxj6^ZhQk@E{UWHS79b~yc#&kRx)AKsPFj3=-
z@Or_-8{pq4n8ukL8Q1ZqYwVa=u<&Mqnb7cQ_~Cb4&s(k;AE-5BHfU$!8I-c{#R?MD
z4mIpVV?`GgTx(^6R!-~(J?sE;0J{KY0d}jf1K>K|37EQSVB)r@cWqJc1{&+O_(o~x
zJ%Wq(3SJn!UTA=sgO03D<5WV7yZCyb&CfS%fzP)^y?={(W&D7~MWBG0*i$_=aM#8+
z!nlop7M|3m$i+7SMNNG37Bg$vqW+IvJzSes;L5?xTmf!1j63-@prhr_O9#&Y9YLU@
zHAk-K#@axdhvbH{AiB;fk_(jnNmX{qhRB`>mCv#pMJQ<72ns;Z#hJ9sVHF=sPewA)
ziy#T3sCBi3+LvnJ%K&_$n<p9V3(1?Z<a^LoJDWO^g>!%D<uzSu*ih1CNq9|HXZ27*
zyfkGEP+HU8StFFzXqYBF`VmDpnPpRY3TT#@FqkA@0)@p+=&vZAZ2-xxs;Pu~%(5{p
z#K)@|ig?InYd9Q@N7CtVIE`ijRVG)(HbmJ2*-Tq)ZuV=VzX*-ery={@Rr1tHtj@fp
z$oM~J8YQk}QMbf}3QVZLg(NPxxO<7~EHIq~u2b?f<c!~Cq}INi@pGn03hlw)Rw+1;
zGyaTe5kr7aHj6@LN=!!A>>Q{>n6AWr04mpEVvVctK~1%6p|6qqx{)4(tWR8${hG~q
zBASU^j$~q~<jItnh-75vi*y_CuPD3YzE11~oM{|ANO>c>!F*HugvV*8neHt(wW;On
zh|3GvRq|`jUE+2Wxg90$P>};YbcoJ<r1qpyzR!~^nSkHw^fe+5KwXbc*$I0AuB6wu
z(Mk=Y1u908muC96pn8k;Zy;W@YOWHA^OU&uBG+DE+9}nwiEf9+e`uvN;`L%Zw3f|N
zu_PK+)sv{pq$V%HuIFP>A+6ZbGd)|-zq#o*kaV<|u9C-`_hvSqEig^bApH5by#o+d
z6G~6kOxG5aRUOZ_kgN)hb{6R=*-RL;Q}(_QfO#^lyRRP^y}xO2*`1oofU6RYrNbh1
zc=#>1=BAc^0jO6|?9k<X4jRNEXe=JZta`PaAg3l%AY8+d^mH;hvuz80Y-|=mR4-r_
zf=t#&cFQbX%lD`kmzEi2W%;yhM^0)2+@=8GL}XHKj!aI*r^Dc)Wnh~t9mA=l;=;+S
z;)+G7j~K1A&+ITFl`cO8QFxtPH(d8z_g=5R-f-P_-G4m*M^86_GN3B)I?ZziPp5VZ
z{aOoa-tcT3S*F4hGksWJ;cu<!gLMLUgN7Ns`dJf<k7B$k&DyeN@yHe<8#N5*Z}CPt
zy5$t%O`1*vpAo$-baSc_j7B3I8>=;Z)F;#N=2<ptnZScrl|(&nOuDw<*g8)g8FZj%
z0y?(BM3Q#+hF(@xg4!Aub!|LQi*mUtJ+wSfIsZ0jnH!!P-VFLUH03>c?;nHf0UlmR
zxLP*?dGCj@ymtbf;HsqYURjS>C$ws+Y68WIRv@j!hOATZ;GuQP=GMHCH){Uy4KK85
zt<i?s+cyF*r{LzV={o4uvAI6$$g-7~Kim)PIyblDmA$?F6v=z9T6o<L*JkjMu6B>w
zRF3N_duFz4BTYaIqdMiu1j^{DltJT%rinfcTK~=39$K{+)QyHe1wV{h!<&KH-Rq-h
zkhY3=Ub5D4L*7&CRBfQi2fN2#yIn0mM%hK;Kf$Wjh~|lPd0$PL#AqjZmP@`0ebMNu
zN}_=`!q<cFwZ_T0N+Uj*Lt3XlG)`?Syb%wGw!dawS=TIAdsVl<zb4@_M>I;Z;QwkE
z#|^XYXRmSAU9n$K<5eXXw}#ZM*h79;uX>=lMyzw<L=`e9<{R?9Jgjftn>Xa^c^hwk
z$Uaczua4wAId85$*O2q&{5g^{j5ECB8Z%p$tyAj)5K}Ngq?MuZEl%+qp8Out%-f?E
zh2Yt<!`}#=k3=C}$p`tAkPaqOnV_nNgNh;zf+C%aB`@>`vB#vCx*X#LKKRbMntdnu
zUMwCDo)>};(@KG<(Jy*{_L(Ek(!Rl1I+#kvr-QM?B!s+#WCoCe0UboGesuQ}6puZI
zs<_z`H12!!VgvlhW?r}q_TT8q`&PLgG`wm7REA*Lis~zJU1dp$^U6kkGJHk0VXoF#
zRI^gHoTri9glyqc;WTiF0-_MT9EIW6k{uwN?&>gPpD^<zZ?0vQPoO<fm0(Scc~hR`
zb$Lr3yhUFB(4eg@jYpmw6-S^C%ot^;%xHdT4+Bo@?ssJ?WD40L+T*fYT@<v3)F?Eg
zR$Y;u8l?8<g&yL|kfqV|xvD0`t6_%Xk;HjEa%^V*7RH(u5u_$v{}6Se)5ic%`u!K;
zMG*tu;H}L3mANY=Uw6^hEw%5J0wJkwr{wlZzM$l7mb^`pHz0ZaWe@T9JS8^2O))p2
z^IF0~MVX8;`V$i{*;q?ZQC8~n22HtY?t~7!TUa<Db{XynOyb*sMEn+JXy(fPlo-1Z
zjwozVBC1OCU2*nM<x}P;&Ttrte=1j2p>G=93FOMl^CNR3k}D*+{F19xa&<qon(Cc&
z?hw2%(ipH=xz~`{_ab5v4j~w?Q9(Qd7-T&}Yw;W?QDt00nThOH*B0Ff8fg|GGzj5l
z*bqWoHsDo+@p4Rf4`K)Of};+610|%aU2pK{Zchr}`x?Q$N+^DqNk~j)rp0X(m*SG)
zwx{lmh$fKi0z?}wGh~NalYzUCl(-%n7yZ~1_p|s-$a)$nm&F&c;w8**ONy^xb`rB!
zG5ZQ+O2Av$)=FfZ^1+A#L$)hKhoh-D_ycM|Oud(u9T=95hzesMz)nNhcqt>I)gya1
zo(lEi$9OT7x+IR_(CC)Y(^a)?#PjfhF6KMIApC7e$CacUCdY=eGSm4yCyGbpZ-C7B
zJ#3Y-mo)h2-<*4M;q@Pk<!n;Dj~34T;H{i(h4bB<&Cf2pzRa~P9$w;h7MPs{ZYM<A
z*@l8W^q8$Hv28`Rt*qC%k3KaR9L_RB8X9vp2!Pjl=L2(rocWjb?UJWy{^;D%Mfb9&
zBlq%($G5Qi`-jRz?{G@4Gph#py>*E8xD}sI&7~I4e|qum#pQ;9qI)3s;!1-rXP26`
zmzs_&H659Y{G{&ReE;J6srz3WbM{{c_DHN#st=Xw_bt`$%a49GR626Dc;u|)?=1Ou
z75%%UU|%VCycj&bR`b+uZnWi{IYaK7PhG^?DzV(Hz`}5;d8pVt^jW-g?CZs2Uw>-Q
zTWv6xU4sQCxMKGf>_Mq{+nv{LzqZ`G^O3vQyeD@CD0T&qJs*Ft7+T^we(vimxH@mm
zV#AT!BlmXSi!3+qx@BG2zU$Ku?tbt{EN(wsU^`blZ6(j1CC{Ff=53|szG8FVy|+H=
zU2Z-JEjfPyB3NJjbmZ>HqsUU{0pO9<CV5*5-fg*e3r^&f)mGpRNPYW$JaT{Jv#<X1
zYybFKp?A3A(^H1DwBI>>`?SQmN^E<PZGT+no9~_Ll{|r`7GsO8zyzMM1g<)c%pF;A
zc}uRYqN__nprh#OSmaAxhl^c@m%E0Ft|7_QShg5pRc*x6FyAxRgGe~WYs)dPZ3gz{
zoRZyn^HBa!$=*`5w=BAs?ClcQRO0%UxW1L<&O2vrpSc%WZtk12O751DyLZXmyVBe;
zX9eED3i$?#zJY@8NWpak^2aTq#qLjc-re~~x7@zx(Qs*SxHvfc)7OiGuPwKny=9Y{
zyKZ4ecfCflf8H_YScojUf{$JPg}~y8Wmgx_+vzN@L6~D}$DOxsza_akA2&43C*~58
zuWkN=xetH~t<Ky?*+shha+Vc_y~*U65)&vgfh`n>A9M&P5NjhS5UcG=zs+U)ErBd&
zEH@H|`%AqESY%>cwlZO?ih`+io;O5$QShVIUcCw#`22<s+p-3@gD2n7YkAiA9sRfg
zt<qTo+^52Cb%LmGHymZf{#~;HYDFZoa98wDui2vD!RsLsY{HSoO<)ZeMxJ1Iumw<k
z$@QC5eK<Nf1r}2hzKXlBiT4#6wH&3_(PxBA1n##ZJ!VDTZq$KPn8|f2PDRFs6VPQn
z7OccOMGVW#1h)`jYfAQip;h`F$Ut~G3ENn(Z<AVje{|wU?-ur)F6=#xdEe<`%W!T)
z@`OsBuA-;wUTDeFTVQ(&p59-#w3S*0i!Fmv>%dPkaMD}hOf<q_hdtC<=sEJ)=uZX<
z+^YrVRmD_5?WZNQj_InM1AqoeYeZ@=jse^?W=&ah*75+ABqa3eXW@2PPqK{Wi{YDy
ztW_(m85H9C(7wm^yt+%Af#&d5K(#^A7%W*=7>b&(sA^)SbqnsQ-{E-&Ne=-6su&tu
zOM%{EpcjQK>z7!s#QG$*L1Me1xXLk9kQ#Fre^W=Sj_;a(&iOu`0r{c?)y!ZKLxfQF
zDA&E}@~f2%YP>80&l{BZVHj=osLCuLfRHt2Uj)`cpiFmN55Y3abufb~o+X&qLs#1N
zPGew6r?K@T*!njtS>psAxvHeKfuPkhzS2Y1eTqCA#}DE8$+PkNko=uN8xcYgx>{qd
zhuXlAtKsfl0t+v_4MH1#pf^xstc~Hhs4!_xd0t<WO0)KTT>xcGVtr;Ud{-;D0JgJw
zTyDVem{@y4vA!sowZk@nR%TU#5SiAWfw|QP!%d(aUzNZCV!#>F=Pf+LTOZoA0|_p!
zC8y8nz`13>y*0yyH3OoM9hrGSdCL<-7c&;6S2jV|s6o0>@d76Z_U$B?p21i$m;uK%
zno69HC552!nx}up7(9A3NN>^r90Cx@5>G(}Hz#OUgI@{HKhR}VP0mrMlr3w~XZ5g5
zE4Ja+vG<#hMd5!fA*-p|@)ZC+F@xJuQ%BVF4fWJF)aBurP`^+;cA8(91B{wqXi+Bz
zvK`$(@jIAZ!>kuFHEbT^)8Q$&OL+;Zs8m-Rz6z)2z!q{xd-S1%?>GB;uc1Kd2ee?S
zYQEm~qHnw8YmvO*;svGp?sYGZBmVBEgi*ab5TO_@67d*`$UEiMir)TMQ%ShpiN|2c
zP_v471Fbj?-vg+}st8{?Pda0qnc_WApW&~tNcr*C0Htv)-hl*S_xN!|;yO3ZY|D#@
zjm_F|y89vfKe*_uBd*3m<F3#5ocWv^QEWk0vjIoSEVW<Y$K_Y8(7sap-eUXS<@S9`
z+&-nfV!(g=LBZL!kXalqb?z&6?py9WQ0O>VU=OMG<UTZI8*aXze}7^3$A7u#ErkY)
zp}{3?P{mQNeJVIx7x=}&Qpf&c$Nob5fdYF_MKQPmMIkg;3LPqj4t>_X96Gwh9W5|N
z3*6D)m<ikcxG8w&h1)OO8(MBUm>XUJn{0M&_Tj!C58WTSHM{IPm}A#WGC$n$Zdzw*
zjB&&ofOQ6A%&VAPmA2OgC4vIQ0RO8P6nh?x{XiAEvlh_J7EN61$n@IP=Pkh0!#vLh
z`3PFl0EniJm94>OYrf^Zx7OgBxE*!^7W&G`>sO2!iLH~^HccagE^c3SSkNf{4LCIJ
z?<p2&PY^HflaYiF4$HPMJh$Sf;O${pX2bXvFs^<vf{eQ&GbiHl(G+B|0X%SeCoeM)
zj>BgQ)70P-F{CVF&_&#j86F}fL~sb9F34o#`BW+{BBR9<ST>I;?m4Pfc;Ge#u{aUe
zLT1mYw#q2HTBO#F>^`f!r8p;~r{Wn}A3;Rl#`d1k%?~U^Tn6#`_}QVpE{F>8csL9q
z76UnHU>#A;qS%2=F+;M_cfg$Z-8E9yJ50M)9PXRn%73eD0vNV%pt)>8h#}2wWh+89
z(%ABa9idiYc7mg8I=r~2)N!oXaqPDQ3abXKx@^{&I_`PyW$rhw!j}##H!r^O>FK+t
zA9WTx_hV%<R&HDLAiND>@8TfBUIjL)@EdxQZH0B;9L^7yO;`ZZe9iOmxp>(^iwyDj
z=lkaR%2rymk%mCoPC=H`H_i{w4KEHBz1zzUTIVF&d&?XJUBtJe?51EHv2nR83w3we
zZnwd6xT3XZ)k8ldjhyK#x)nI5L$`;@CM>}C>VOtnWJsX(4ttwj%oP2-Wh<?-k&do=
z#=ASpc3NbKjV)PQiq@7@2d!xLni|(81#rcju(UoUEGaWWsA@u3rOXE*WjYAKY_#D#
zSnk^gEOgb+vvX|O1Tc&S{@~lU-!5CQ#Ay7qVhP+^g`IXRvB)k5LQWFuC<XTygZs-I
zmR-bFx9UbHsdJk=Yxn`Kz>lSM{8(DYk0k{^LY4Tj4EUX2x&fjVG~KZft>Yl>6c^wn
zNGh4`kDQOHX9y3j`hGYq{tfPMs@V48!^{4S4=?+bhnM|p4=?fi6b7yoiv^w+Z+NIF
zo0Sd_(9)i2(k2yM6fe+D2UFsRq7i72d!K7~<yu^%g5k(>^`Q6ho16x!+T|V3g<&ca
zi>GPGQbeU7*VA6KwjZA3TnsA>P?ghnw&D*E;xSvm4DB}Akj{wW-y&p;#{do@*r+}6
zQDs=gdoV@x(3cA#XsXKpAw?J;6CXhx%Bl3<LsmBEbh<ChM7Ql%r0G8i``_gFe~{z9
zARWITr@zqab^0&O2FMtq+x<(c_trO-t*uwhW%G8OS@QbI2KZfZdCDgEh0O?WPcG#z
zl`U9e2!w!|=9(7LMR)t+XwltMwqiZVw$`#8A(qrN+=|Wx7T{xO)d5vcM|Cly&a-f?
Q)N;7ka`+2^CAuyDAJ!NB8vp<R

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/prepare_finalize.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/prepare_finalize.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..55a7a882ea43e668fe47ce3f582b917be3390daf
GIT binary patch
literal 3837
zcmb7H-ESMm5#Qs-@kk!OL`t$`%cU%-31wM~EY*qO$W2mPPGVVUVgW@71BWy3B%O5R
zF?+|<6llOG{9vO%W95bEQ<<mOa31o1^hJb?ideLOfd(k@#+Eh;^r<uVLCKMrxJO{_
zH?y<5bF=fY{7WnrA@JydKWG_1|3Jojf-dOR0W^q06iz1v=gpOTMIT2>ewzkt8Z7V}
zj{5XaNhk<5_UqwNq!1}Z3sIX7=wc~Wh;hV6t`H@7mngi-Z=UeB+<!mzJGhXjak<d<
z$gJczmR_ows&dV^{Bcz-TfZ{OYub9w$HrET%GKYf+WLm|Zdv(6RjNf51}$y9YE(^j
z{D|R8s;;ifmI{lGlnhncQfXP$rB88PZCjPJa;0h&_YEQ>=`!6WhyGAWfm2Aqr}`C6
z4Q$$eJg82{nosfF4Lo**1s?Q5ihny~j|A=p3Ia&No0*qqA=lFif>spg!CE|E5pWD}
z2yk2xVD`x)W{3O8BYosiuuJSSX4|X8)R+=ildyYW^VH!T*OE#CEE-UfeO5{Jk^jGz
zq8$TZ!_N=fpm2(REv}@&j!ey;%dim$lV4M{B2yKDVo58@Ivnf@2pLaRt4hm7ILO|E
z7=x~R4oHJoy@5?%5B9)jpa*;4I(fvc<owK6+G5ANIDNNhX`jiKW|Wr<T9Pd$T({)1
zB2(oN#{#CRubH@U_P;msR;iM&Xq7XTOxIQG%&qF1=il0TQ_btz&3vV1Z5ZYJXS!a>
zmkb30RlTJatCm6Yx?EGKnP0=ikRX!t73Z6!HTR2WD>asqdv-``wjtZ6`?_cLkTQn8
ziE(;|e3wY=C8k@6>Al2!D>1(-%y-cPD=+yHCAKfoO$|~bGz#Dmp$T|7A52pK*>Fj|
zC6%is$uhRovME(mDp9$-wLRD0x;|6Tye`(PJEWaR(=?!0u!#<W-XXIFETggoB|y=N
zswpW}t)gzv^tb4+_Ast$lb^JM%lTHm#~3);lmvQ5(aef$6*u6Zw{!jN_<`yuENXfl
zN&d7)(2}L2tw<SF3+kbynG&_DtMX&<b4YpYpd}gG66TZVm}q<McXr`6nc(<QF<BJ9
zM7;&kV3{o90I4Kb*a^8((Q6Wg9UxMiiIP!vsx=es>Ma%RwonvcQ}2PA>jdNwc)CIA
zJiSu)Z=%<K@F?74S9)8hLw(+Q9ef!25W1RI$A8b&xlOk_9h_YEZF(K^fEaZ71FQ?Z
zJ-jzZtgxq5=jx%Ox(P@{PiOxP()d2-A&`3A$`ir+v1{KAC}_9Cw<Gm%Jp%n2erv(&
zB<EkD$3biR!jJhltC?A&tk<$ysiLbTwQQ+M7Ai^>&u(!p7lxt+Rh9)xRb65}%V0q}
zeJFZ?3G$p|7G+&!QRk@aF_y-(hoa+D0jCGE=uO=yZb{~bTv2mTir+(jh9rw*90_(J
zI)P*o$rKP4Ktq^cp8J%AfjHZlSbnnmk5ha?Zl&BF@1IhxN*3mue*|)e{3}Dm*W2mi
zjm4eCX6i|L;@+ia>ESQuzBu0@zF54Syw>%@`@#7RPhyGBuiU@#V7c+p&PUDnzJC9!
z_n&0WJQZiZ8#&t+<8ATSo;cnT$89j#5+`ji(-LQTl5UhAjogpl^WXbzCrOg&2OoTC
zHCG=l>?ZQNLf*+F-pMzXc6xxDF0OFMO%iB2Zt6;SbVbYv@9AZS0upF_y}YRNR<HRz
zb`gzOy*T%B;x=FBHxI7pt_-p4tNZJLdhi?0i#`t80Th~Ckj{e^T|kmWVjn3UWG=uW
znyHmd=#)j3;%+nmgaz%$%!Qm_=r^7I0(4EZ#yxQ7v<0spZlCIZ+@8+cxWok@cgXVr
zA`a~i%{-m`;A!;3zfHaOWa`qcc&aU&+!H2S!el!=($3DeN2c0?W9{7KPLzbFUJyPU
zu@5IV$OK6$%OzEkSVV#btyFcyqJ(j-yCXt{8d&XW6my)$kPHA}eywcLAw)rF_Qef4
zjYA_y@Yc)%Hw{ClcnM_uDs)hTQmjoZ<=%WgQO&AutwIB%XHlMBJ$zH9=V8RD`)Nej
znJHFJo7gS;G=#)m(hkNtJ}$V>Ji9k>u{Ck=-vpShpYU;8+~K)k=3)Aw^=PyUBN>}-
zUjF*(S69ECY)zi)2~*89;uI<jHWv^NcKFfY8_&el=gaq(J3+vZKEo#(`i|ZSAt#XZ
zvBu2KOec(7gba;zqKHH?INDg=S#B=0GOu-FD2kKUPInTBl4N+glR`8=BH~_ntQ8*X
zrjdUu6^uMf4mQLcu@eLgyPcf)^Nl~<=!B3HyuHK7MZCSE$ceao3{jknPwZvSwX)|r
z3FMO`5`UfoWFNily<C$15<JP~@#;4F^3`qDxw_5vu5LJ9)n)4b8Da64^%?I>VBy{j
zTjjtMJABybSK7>JlTNr?c%>P3e?C-C?A)}oluf_VGF3~{O{XD@F1i2b+;BZ`QFkKH
zzMl1>k_m4+33QQO1FvG8GT#8w@pBy46$lsmCwb?u<ek5htN-!&Io}Hqeat=QFLIHl
QZ!f#p$}YYjz}V;WKfN%iPyhe`

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/rocm_aiter_fused_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/rocm_aiter_fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0d0321d1b6d2520395268c31e35c9cfcf3363c8b
GIT binary patch
literal 8618
zcmb_heQX;?cAw?vl3ad?A}NXbpd?EaC0UAO*>e0DCzc$?`mkd=ms5P9Y3@p*#IG!u
zk)^Ee<U@dy(4w}A0(Q{5i;5OF1@<2<P@p-WK->QU6exCOqueZ9z{RB~@*jQHwP^pj
zzL_OOilKaWXh+(&Z{EzjdGmH=-fxEgWVc%pq=ey*;^+`UzrvYPYAiA@-_Rj+AF+s~
z5-3T{P!#5M30+b@qbIyRVVE(1%#bi9O*1AUGbYSQdWKF~W-Juap$mvLeTrB!M?KVQ
zdS|ReN`ur=A+@pkD5FE1p0z%*J*2d{7KH!UUY6nPtQ{T)JWhCA@VGe#TL*6s=bUx1
z^`9Ca77d?qY3+)w`&ch$Sm-DgR=il>0dhZRZQz`2BfOj732=36GxXMSKz;p+86mb6
zYPNBn+I4D6XLZ=wvpzQXsd1*hWHsA=pvCRA^{^cW$U6^^A38wZ1taZ-k%tZ_*GAgI
zSy+v0t6gulo(;o@yvzFV;cv0W!<1^im=eZPxg@Zb1fPq<qOo~y3UUrU9ZN={ae?C_
z=}b1PQ=7-HUmZIinVcSrT%Wpf{oK^Gi!+daYkF$@;sw<+p38FVWP0pME}9bFN~dPy
zbFqrgii(p5y@Z(!6PQCY6pLnbEH$HNbueM|Ge*`hV`7anX4W)AFPp=(Y9q=fIblA{
z@-Xkww^+-!gu@f}TLUIWAX8zBN=G88Xp)OWRBI%XOtZNJ=9x(3qg*smEYVF(tJce7
z??$eTO<kRSSG5p+`qJ2xYJGEJ`mIZmq4$prtF{t9G<;mO7c;}hZ$tJA^b-0*|8sLt
zNM;5z@yuZ%%Fl7a;oG^<*N-oba)XKZt-;JP*qj>tIFU#Wf+<`g!rkU#IU&stCZfw6
zpB<dV{sJ?(!3t0B2?sLEyal=;#0g9mFO^SG!G)~0wKo-a-P${f%e{6{<LW$Xmy~+%
zok<=~UDBww^XsAbyUvFhVNhM?VnY1ms1Q%5Dm>2PEomxj<gpRF3lldG)o}IV#C6qh
zVQk_$-+-m0<0i~Cmq;5hSqBiX+k_bV+Ihvs+&QmRCAF|}JPVW2+u8UEr@B%RKAjW5
zG2HD8#|v33$<9al3W-rjXCjNLS;$2AXi8&9<NEy-BiUG*=Tryij=&6$2<b&Gl~s-L
zY-H?mjE0^|$pj3ZPA~riX4ZWqB9U5w>?$pkCM{aPbFM0hCQ+x=6wSE)tWMagv4Cf0
zRbr_}y3&5TY7s39us>BNtWnc8r(^Yx3=fO_-hlV2b=4-|NkLMnUTIf8kM1%t-5iSP
zegJw`85jkFt=iQ6vBiK^?I1DpT_Qb4m0GUA!hxI#zgHa<n)NU;L&?(fsHo2_Iz;9a
zXvF$bje<?H1EGqRNTf>^m+Y$Oq3lhj)VBN<9lyW#L>t666hQxn?}MjhRoeG`oTBp&
z{ywf%x9DEL%cClZ#*#NEB-E7(@0i~~>|T8QF(o=h%d9SHS%z;&!L!ONp|EL6HN<jk
z^b4J8WQFAnr<z#q<9LiC3-b#~)wA*BO5eGQ*T&ur!pgW5Omadr$VP$0v%zSB=c4R#
zFrJDF@n{0p7#p^#u!Q*7ylUi<8DSY#L`r}?&zQ|5;(}^~MK#B%hD1Cos3rlHOqy5C
zvx#(+RGN(^5)rjt3k<lw2<|U}`wQ3cK^Pm~j!6e5otWVLp6|k>8<P+a)jk_t<ce!N
z&Z-U}EkqNrLNkkzIGa^%scbo8t>CG+>fX1?Np)wrMueDMSD|l-i_gu&M&c~#ED0RN
zR>gc4f0y8Q5|6huwGsQT7!CIintuz*!|-H(2Ge^D6&jGYOA3w3^`mQ(yAI?F-2Y(n
z1I6Nh;Fa2k<i?@LV{+r`5`E&C!*h3WV^MK>cg+T$X>F=tMQw-kt;2HbuwrpYuHe>D
z+0`S_;q8wKdenC0CDOH-WJ6%>(!Hi#6FPocIz1^}zAm4>{&e)cCk@||N8fwgE;WX?
z&pl~8ERDV=8N5=%_r5kW&+Sd?(^A{u<1V>vRA!DB^tyocIn(sQs0#$vouI4Ee{X5a
z@!0$??&Is{l=k8E=?CX_nAR71RQLKWjqL6}^Gg2EcFPm@=#yIQy-oKgHYc{){?7RK
zwqM%58h=`Ub?u#vkJcu?X>9#G@LAx1;U_ne+VGo9lEDY#551o6J|lOZsWJZ0Sr~r^
z#^1R%eeXjECq_@+&>$Ncq{hQf4Fk_?ZIUe{8Qzn^?>zx(3n|S5j~!CrEL8dLUk{?j
z_o*!2=l`*d8Pge5`+S^bIfyMnRN%6zeGcMYYAyn?CzBIY1D=VhjptHnK1o&$#32YF
zT2PA2L5#|%Rx({Rp24vOE11otVyd?o!?H1Gi-pk`EI8HAX(1^Bb$JegZ8{aX6^~}s
z2CQ2P{re_&RyFaQkmFM^axMVtal$-_Rue#Rv|1qI{e-1(JYKazX^qGQaRh@Vk`}O6
zs!|EF^M5H?SZeV+EZd(8dl7RD?_0W3ogY)>5)!4DRlCR>Y?EkRyaB5v06O%qs`uw`
zf)TAijX$g0BN-Nn)+QX^>_rauwik=a1A$0d+X@r*jHp`yKSGQ(Ju;Uf7O~#3>J;q<
z=(E=x)vNWnR-LKKg1uzdLXEg1T16dThrO7%fKgUe5^ay@Qbb;L{ek-SB2HQ9K79_6
zzB5`eBQQv;N`M*Y1%H(gvLdyB(O*?6MLR$YF3}(wMZIW#WO-PeK@>`bMH6dX?16b;
z2F^w}-8%^8Qh8qDjkhX+6=jX4{W>dJzG_AT?kdh`!;hFB*=KcE5!Q*{VP=XPGFEa2
zMblJTsEnio!OICQn&pBJBy&6$6y~E^dCf?H!!c|K362fk;${JwLVXb79RqI#11l{x
zyUpe@nKUm1SI$Cs#|SpKG#`)6V{I%4r?X@{g*7e*OE~vdRDd%aTg1El!CN^YI0uHW
zFeL@4^wI!<5By<pFy9L#O!1fCrJA$pSphTw6Q4__<80Ugz+gTKV7wpK#h*t#1P~gw
zE4+Wf`K1b<N4Qk<77UU<j_VI&GKk4*m<(ZZ42bH%J0Dm{_D^Ch?6^AECi`$HQz;I+
zdDwvvKZeOTCKoVy8<UHeyn_igpP#^F5(tJk;4IDPH?Z^smNI0|E+GIaqS8bFm?Mi}
z+X2zvUvWaKG>rcM+I$F4_P3?jZ*R&oZ8FogMafLZ+L!`)d%J9JUmO31_T}l5GJWzX
zeOh4-ZGE)E^nBy&l$?VFWUyEZI-Pysr5-qt>{`*lo0LrVN_5kMDaF~IcZOtVXq%Fq
zz1!T5^9X68IQpdiGx`4Wa{u{%xFYvokow*(Al*gE|J>hvZ|=d3f>CGhE9yJ~;kEU(
z$EL?#sbv(@DvhCS)3#S?99(xOP5t?%VYz8ovAZQtSKiYnd-}G|$)177^|I%v#2owb
z96*o&h9Cj!hI5^{7ljDy@5=jnWnV9}x_2h;3CSL8p{IBIn(P^pnBgxeXyosMMt<vt
zZJpk12P{$Fc>m<)$t~lS@L=_C#{TxwUtjvl^wcxGPCxTE-~VLuldZAsk*(7JB<#Pm
ze>MBme|?>KZf=##z0a`!dch|O)2J|=d8S)ty0=#Ip%ZfG#1rPE!ZavMy}~prj89?w
zO2_Dbx-H;WA96K6Sl)5=Y)^c7ai@PwqQ@lX7}3@#)15@y{+6JqWArz;@oodM_`mbj
zo;%yO&PdK7i5^mH{s#?`tz9y-lT)p#TN;9An13H;1wR8swL<VO9;?;nXeN_b){eM*
zM4N^YSVi#^Mjh57yhuhfDg$>GDFKiIxkuSM^npTr4kzLNpA97Z(`%;k!D*Eijj+AJ
z#>%^dy})1VFq(2!l-JlW;ee`NsO%TI#Yup$silRzfK`$pRNDAg^`hZ-w5|~d_gWi7
z^BtXNPQeWkKp47KK;)N16Q6^!8o`Z^gYDk3RVD6WkzsXO=)n-AB!lCZe!*9&S$?wy
z3>R4AUJFyXg@B7lTBsGQAUFaD0Z)LH__m`efwZ+s1X+BrWz87ch!zO>Mc{B13Bgj`
zT9>8^hf1a8_o@wg=q~3=9N$!-3ua1nI#3sm6IJQX!~tL64fr}3CR)ngs_lg}683BR
zLMyAV7Kfm!RNLCr_Ybfu1oD9@6_Div6}{j{Rh16trTc(hDm{!NU{$KE4Lo-A|8L&z
zL2>)<oVz1c=0O%;ffeVjRkVo~80YUjgP|^t@Kp(<7!Xt?(e%h#p5tK~Ty|vRi5zc(
zdMhJ0E2H(zV0J#8OJMK>7z{FiNrFA)i@kn)`>`1Q_P3A-xLG+nok}bROZW+wo*n}5
z#HE5aU$qb4#L(&*pX0{i2HG+k8-i0?G{IqZxX8MQG?`8d^JNJXR!a2Ip<}8Ka8pFP
zL&3Muu%m0bY<pXMc2RYgBLu!ofxGUNE3YyT+gFt^Ff9%gz#xFj;H^YDwiqP6u|Ys-
zVVYkAr<MYX)(@Y+B6_JbM0%+-LOQx9i<V?gHeC!^aB808hQcj84jkHjZwuz|e#T$N
zgg`z#4G82@J=hO0ObwK3u231c0gudPjz^Y`N00M(Rr2p*LNF#1%_a%D6c(3;_!O3>
zF~K2;$9ukN{5YD(ajFw*N#35#j6{}3z~{Ud7uv}9F*Jpq@wr8HVH4ndABoLt{qy*k
z!+UU<W$)gd&tTz4K*A0Ub;4m4@jt+1FQ)St^YIZ(ZekL}1iO;Bm``Hv`<P&`N-n_n
ze=hA#si6W@YW)}Qy!lU{*)MR@G=y-tQt~0XUNQ%s`H!qKfV(>Sw?E!#Kl+qz$kQ!5
zbj#C|m+~hs%O@`b+%ozKfU$!2&u*UmtE0a-{THX7c!t&{6sQ00CmWyq^yud&KRfxv
z8CrY$d9YUs9^35w^8DH*Xkqc@>7E_B=WC`1a8#b@+F`l?FuI!a&NkWE_5={ml^tg{
zpi7HYVcvYHhqnZI6RFZJLwSen?AmtkID3ngCX1DN0ra_A^Uhwtt^{m36bAkY<nndo
zeSNa8PuXKy+7<YBd6mwP($J~24(<jVE^7ff0E~5@hR*vx-27qQ-zWR~02kW)d0S}5
z7J3%w&Ig9%z)(IgDhEc_CrC-BZ0nS4gO4ZjBa=HLlVAG*HS6t;f{t>Jywn3Hd5#cg
z<vl&Jr$_RPNX!UO#nV<LA^Jz;z(_uDLJpkRm{9DEd3*Pcy?gsqzVGdwzPCw@*W|!!
z`M@zbaIB)nH`TWN8(dA{9y(=D=MxWhnFqVf?oeFg;4*AhF9z40d0&t0>)E)ler{b*
zJpKnmfBJf{-W5{s9=@8xp2bIlYR`i28oR)Kinl%Q?UlW~uVR{ym%U72Y*_yvF#RAE
z&c<N^qVceaoQySc847q2h<02K8~7Mx#;2yjKGnd%j?80xiWe1}Y}4sPmItJ&Z3(Iq
z{~|U}{#{X9?0rPK|97$h?RT<)y`?#zfnjaWF=LHnFTin$oHbQF++(Xoa#O7uZb8TV
zTi6cMHSG>tpA~pG7UnVujvU;`GOPOSN~KR}KOCOne*$gcREM(g%Q!0NDT?}y2~myz
zirRjKn14sT|E1GYx?RRj`R;{w5xjPT2FiYKX&1q(;6M${5~_b;LOR>Mp{JA=B%R$#
zQ=3xff8idY-k=m;V?mFZ=fD^-17DqS7R-dDk;7fE5Y~!W8(|p~2o~&wbs%p;!AV#b
zVqCu_I$!FM&R5V8DNmu6R>kL68rl`;`N*hpsOyDyoT54uPs9CFo2LqToOxc%7;y$H
zusI55!qTYDSFjM)iu_Fl8(|sbt}oaL>p&h~!AV#bYHlyM30sF+J3qhi*^TY<a?5K4
z50TZQwvGbn8n!Z%ZT;xoQyZrqct3CctXZ;k$;R%Nep2s49rCv*;Q^()R~bC=!gGtF
ztb4}d%yZg)m)T$nMw|g-Ee?`3lPry3DE*uL1q;bqk+c48Vk1$ok*sDoVc|=J3Qoeh
sklS~k*<>CFva7S;CbBx@>E1TTb^QfmK%pK?{>hCyH+H?an5>Wg1@9NUPyhe`

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/routing_simulator.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/routing_simulator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23102d233706da33e237f83d70d3048028c0262f
GIT binary patch
literal 12370
zcmeG?TWlLwcEjNe-_(Po-jY4Gr9_nVaBQz-tBRjeTqln5u$^v|1YC+Ul1Ab~J2SK+
zmfji*7tppJ8-Lm9?jq_>tH4I<{b}8=rawi2{ozDekR5mdxBDpaQ_z-xp!?IFbMMUX
zVN%YbKP}KJ@y?w)_n!MW=bq>NSup5hASJm!lYbRum|x<Hm3XtTvjK&>jL6J0qC;ep
zjubo3rkwLm2fjO#T#BFPNtsK!=3P+7C*3K}yvM<?jO3BL_Z<|{ypLrrGNS7?Bf2H_
zzSFGrlUfhddL_SI8z8klsP*4x&6dG+E*gmU132H+%&L?g(=ubTAFWA>CcK-;YI1r>
zxFV;r$+(tLe7>v8vMQu9Vm2uWYf9$2EJ~^n7Z#OxO1hCzR)xikBB-=Ic8#Y+L6cMh
zMwAy9B}GbWKFu0Pq5~=BK&qz1HEBr(m<Z=h`6Df>NJ3^&pfgg1;Wsn0QJjF3RL6an
zG(pX-tz{HV6)YIZ%#xfC5?NKtq~u&&lQU^D3pt%gW^uOCNAc7eOkc)41=AsIR9{kF
zm4s|shLKZ(0u#@`gHCMR_Z99|lr@~^&R;NE;tM#_gqD)D<%}40Ky`Y34xWBFEo(8D
z!jhyU=myig#eCWMYbe}hBxc?LxMxMjyi?-5fF;o>@hgGqF0?FiP3n2cExO=aTZ2Aq
z&dne_cpLX^T)W8j0H{Tu=()|`H-XOk*4e1fXf-L}3dPTQ?&$frDhY{XT&0+LF+#`Z
zjNq~?ic&hJ!j4O-5yZ`v6x=OYQw?6rti@K1fSeZPgrvr_^)<<GDH2dXI$<3fYpqD;
zI~-(pnRQ2$jc1X31vBAfC4o#yg$E!UsTs({ZgEaoQm5=U>{c_iDdAFjEvuQ80-dk$
zema|qQK+MKdpRe4SOchLQB&jyNs2(%SPKHdnNzC;K{jGan9HUXpeqo+*$UU9N=Yf9
z39ul#z?!kEw{A+9iED8IcafYW3PUiPRJP(>vcYw`p=I%az{tZem(|z}NnTpk)KM4`
z-eggY+QZI$#zc98gJ~@)UciTftWWV{hQzEQ;s{!P`{9I^TANst*T%HCvLtC^A7v*`
zom`!iCX({P#M(NXr1Zq~WHL2DPB(0gl*j_lnMlUhB}JWB%&L+YOJ$@9++yG@F_X<?
zl<~E7BS1FZ#80jtX#m<-1Up{+70FzM1H#;5%EOE|xC2GzGsj%iZ+K#{G;p$5%<#ov
zEM#*~4#Z;L&Bl}F7k4ZsW)iWOg7k-Et0a~U*HtO4W)#CIr!|8Y3Gwn|8<h|=Q(7?#
zW7dwD$I3dPpk^Su&HM{D{e%yf1I*}=r~WV>eA3l_H-9Hz=Am46G2H{?&5ds!rY&6d
zV#&uqtJOQJn=^Xna2dM+0AK4y_J{c&<nLYk^n*`6D6~d(@5r+teA{s{uE<jsN^~wb
zjT$x;gbGYMkKsVovMI4sWF-#S)FLNxw|Njs{B3654a}<xSdC`|*IAcDPm_AD<P&}H
z4VPb+L>FORekstnZ{u2<c?Do*K`{vMTi}P|v_g;mx<TNz>G=L8BLu{@+uVFBfxQ>p
zX8k>4JM?c8Lyh5!&H8a-82YvU55|o^{}8|rFS23>lq2h|Xt&WlBZCx^7vP{|(#X$6
z^U%acEN)ueVr&7M)Cor5jYMLv3pZqKSx98ki}F%di7x>A5Uapj%$KMScotDNu=`SB
zn_M@!8;WScu_@z<CzdI%6X*;wX~KPMZ36X>h4_M;l(qG`L4^xh1r-hiZRrV?gh$OJ
z4Wd4tG{IFi!<1?DYKx@}2y1Z-1Xmgsg{;j8RIk(sSHH#9;-DF+2~*i3RET9{kUJkh
zc9+RJR$#m9lO=%jOw9h8XW`9;lxJ3uht(ykpM%Q9-&mN$iCzNTM2;sxWYuhwg;<J}
zJ*8yz(x!x~C|f{CRM(=60!B^MK-9AU(YCO_Nnjci4w_gvI3-*&HLe;c!=khp&nC5s
zprJiUUy3#8I!DkqaWS4%RXLunnMlo`BO}$&O{7c-ZzFOfK&2|EYf?g91jP~NuPsY8
zy>aNoaz>T*7y;Y71}baS!saqUTohr;GwFB|XvQ8ZElHvzJ~ssEZm%sR!Gf%9m=cbR
zABm2_i4m*nUV%Cr%3PE)_+;jWq$mQ=gmM5fV<2`N@GXM66>G2oQKy2+W2L={Y85Pm
z$S9PBM4OG}4$M>?<!VkbZZ$at9o55-fk^FT2BO9OalL<hyZ^`r_ob(&bm#;=1(0Ii
zV9_(8dq#fl86_epVN*ABcEOKmcK-ndFpj`5T4HZHfYRZ;KII+P9ZH{u?MV`yjobZ*
z5xKnMN6b&S`{r2RZvs(dSBGIcP5~Sg?RBZqX%l(TWf@Wq=6C4l7Cn`I>)v&5)R!B1
z&%{*?9a9YsnN@{?#tpZ5ehe2SnBVqZOPd@Hcyu+cr-WSJxNwDXzq)Vglwfd3X#Z}l
z)o=odnQ!GYKvRS`3?ED_E6plOMxlh|QzgwhqAZ~zBTPuGhR#$Kxs^#z${>_;Cz_Me
zUZi>%`l^2l*)8VD{^70R!oFh#Pu~-NYti4Y`}+%nle&NMaj3r(8r`~D96PO#oi2=?
zDKn0<j?vQSnZn_-Wv8S4ykp1d47ZdSXRrm-q(B?(z3KVFKU{*hz@Q!&ECwd@z{Eq>
zBj=Za>H1p!q5AW{@0EEb5GCY0*GTDAP>ZTDS&&f^!u~fX5S9<m`Xo9~F}=y>*+%3p
z66@@yE6?3((`+Hoh){2GK!^=QL!QsO@=g#psP)yQJa^wTv2MDdH;Sja1ihQ|wY&>A
zJ$X;wy~ti+qR#knn4-;_-X+GgE#I4o_pFLq0dQZ78`qKRo}%gh4LD%jc6y-!C)`*D
zS4^!9JVxz1)7qO7{(zc&w%S$0R|K_@bT>hOi8y7tY%GhDwg-$ZD&SW^Bv*4On^Y7e
z?XUg|Qq*Pe>T(<uK|B@)m&~M>j8KdWE18Bf+M<R_l&*uvz-W&xNofhyQOjVBdZ~bG
zV3-=diZyTet4wjjV;Q+dpxXFV5s1CN)QUrkCpXlTqgC6S??Y4dCS)KWN0`n-#g1XU
zV|c4w?>M~SE5UnbRPT&#9n?F=HvCWgT?POC$9=-5Q=d$2Tn4cj=`Myx^zcY2(0R|l
zd2Q>>;^<j@^z7%OJ5Dy@+wg!L*xg_38q>SRwpJbueLhe;cTGQcZM*Bejlh%EzI)#;
zv<?+KL)7X!3DZzeVk;*gOQ6)XlFg`+AS;1UHI%%fgUHGLitKH~hC~+hRY%^r$O7x&
z9yl!qbEO$njzCQ`VO{_Un3O5)fekV%h>*IJcUdwX*qA%d=76a+VrG_>eA834h6c{J
zya!hy@;UHo*kc2mTS0TaF6H?L_UKm_4b6O#L}aMeOVtxJ64sjS_Z?AB?!*=9moz;!
zmuA$;$=ib|DlY?2a%{j6;{*-R;FiH%13np0^c6IG37Qp9ZJ4i61ByCmZ4}F1s{N58
z=0-aV{TKVKQwH`NSZdi!R;`iia15#10V9}ARpmH<Gk9<brq&D=oFd~CJkc;K6o-<9
z&Ih;K2vv<hPqu1=Y}ld&-0;y&!SmkeAbtyA<qkJJh}Lo{KyE<?^=FX5ag0<H0q+<7
z=&!=vcVE5pYAMoD>JUnu!sbw+W4P3Lu+%lM>vu&!dvJmF(8jcciotz)aNp+e7r_xY
zq6c3p9+=e+%$C}E@6B$WfP;Ckr4ZN$dIo+usUJ95IQ7Q%fy+==>K)zsBfWR3*mG9z
zIlJ9+e&hAWJ^McG`=oDk{$cyWH$Fe`)3>&JW;R}b5+1<0Z00|Hbvt~#5IDZ;V!{K3
z{ihxc7N_3Or`{->x?C7|b2~Iw2+UD^nuA4I$=0X;32IR7$g_(qQ4g#ZRZsI&PXe{t
z>P6+VsebTHzB-BO;?itC?MgLQF~JZ8gv&c0aQDqw!a1=|v52rM1KOp!bK=SkndgKE
zk_!FQ$P;y((7Q4MV3bkFqO5WT%gFI^L)FT169`j6l&@GuL<Uiigs$CGun@Ygkn}Me
z!5)&h7)^;m<;8g%{NxMCv@)ZbQ}>t9Tm3F%K(ihu)PL_<q3zHHZ!5u6jSY7d!-w_o
z;jP#7@Ue}VQmC^S8qq@|Ti?<{uWVd+4Aeb+XL^&{Og!WtEq)oEEd*u>Rh2@MkGSH=
zOZv%6g~`_oZEpYtqpr*bTL@(tZu5ZFI5QBDM6=C7;ROPtql(#9lPUDXly_L{5Xi#T
zUx5LC6S8pT4$cv80D3pfiJ~q4{*h7Pl@HNtwIorR$c<KGzgh_)P790qkf0C{0kwdr
z4&qkjrBp^1DQ}~8kMcT9y~fVD02O;NBWnbkb^a|vK<WhJ#<FM#GEG*r*|i;x76MTd
zO{X7e#WQc~XWlNHey7m(ZXKEu)jNyFkznWai^ciyi?D;tqssDVbikbt><DC2G4CW|
z{w!eCKKd|AGa-x0J8e<RRn5s~wW&NoAuvsPu$tg+#d2R)nt<^yqF^>zS`H2?wgn2a
zMff)s(1$OY`lVp1$hGphnv}+gR0gI~D}R-vFte)|Mik|g;a-)bH7Mkc>`9SyFu_!A
z!J7nB>8TRiTqX_CH1}dM6W5L%RglRTPKZ!~EuT$MQgt<AS2e=dT#?~63o4?QGB3)z
zCgD9d(wukI>)!te?bQd65pHFh+LnZ!x-(U3?;|YiacAG%)SVQ{S2u_9l_S>qH<Yit
z9*ls<cjSU_bi4D|#>G<Sz^41J{D0wp$Ud6c^luC2^v-io9q!$jGf&X@&yN=`T-7gJ
zEu04)`d<ABGHD9tPEQXxL2tuLGyc|CD6ZJTkU%2YeX}S!evEc9n|t-5q=AWqF=sPW
zy#Rh#Vjm@_@47~=RXptIRvZTc69A&&tN4b%sfSh6O~WNJYwMuzp%SLzvP{=r2gKiM
zWD9uu7Bji=rs!?h{uc-pwMam*iy1gj>>tzn$4b5XioHkm-lN6dNxgS+yZ6*n-r42@
zr;FD|1PRQCsH_p_8SPLy;Gtj~Na@0?8#44lDGF|%GKAS6W~gB(y_of3Mh?~hmPmXJ
z<+_4uAfbN+d9Z>cYj6-v)|5ZQ_qrI|eyqdn2>jG{V0&&ePgxi5dD_;_k8NHlGw}H5
zD?9jj_EM0ahF~Fv<__^M*`YZo!_uwL9KO-e9G2=rb6C|lG`ADPZ?8KB`L`TTB3)%3
z3jnsWr|c$03X>FlOnc|uz@0$ZPhJCN_^%u!uPqSz`(ghN`gdB%>t#m^-%{!wC_C}_
zQj|WAo&3A$pH7qV6K@M?&cpYz;N@GkhW=*sv(YjG#Yf-zhv~nc-oawIv)6=!PlSU{
z3l5ZRI8ZL1<aytww#&eS+MBq?3HaFw$r01eC~SHq%6JVtzVlAF-olBj=oGmJyd?-o
zovXG^bpM#0=Ovc}u}2#Hlf0s58o-jcpBv+Q5UKRv=Bz_E?}sk|h%360mLL`utojy|
zS|F0y0nx(N6#+iiC9$nZeLGyk2ubZ?7``K&)+MopL^A^tei!OK!fWGNGnyF?BUM*1
zBI_;DPNU5X(%E-%a=-B*pT25cshMqZcgOUekq8{UxY6|fj&)%Nz0QeD3YZHz=InqQ
z8LuvgXJ6UL%v!f|1h}1(fFOn$rkCvS*@Cnjzb?aVBAhoJBS~&G;6)3FG{^}WfQv)i
zWL=fbFdJnWhhfi@F~}@FXRF&pI|tF)V!Fm-G^%K{P<<<APS^-rCAf!T-8M2fjO`m9
zvt~VkEZ<64#^26C$Up=%QAqO+q&>WilKXSAGF;ueaG6Pk0Fw|mZzS29U=6jWQxj(e
zVJ^rq&PJR7X1vuN0Y|Z5(d#CFt1DJiR!+m7rW2KT7F<$Nz60}&It^zcsVZ?OD+`d-
z#(vrrbK=$}t>+Hb6W;i9ZT=JCAX^845MrXQY&eUa{kmuWCijKqdm^rJltfnIpg?x_
z_n~l?(d=)(yHLGv_65P}$bHY=A(XI5zyfYz{CZqYlIV0D{jLkR*H)OCq7H8!)m@Ca
z{2Ux>?`eN~P}pA%2PK<raI4a~3Og^t8mr}SH_BCePS#$-S;|G9+wEpeIasy24*=g{
zcH5Y?$j29ok;8iAa4~X3j~v;K9Nlh(SjjQMimSpEM$no$x$#oDvQrbdKoy-}rv*kq
z+Sj0hrbb=@h{&C&_y9yu<{|pVR*bp5dp9x&EZ%M5wl<EZ*+xM_)!&(CEydr#>^*j#
zhF8#tunhxirC^$(?*#mh)t-weA2(oAY>b->*}Qm$w<t|Vo<(Vm!W$M2_T&Qpn?f7b
zgbC5qvL<VtRul6ofW1L@sKBEhTm3(BwJirR)zx(7M*2CP4Kda3ap9cJOUxC+xrHy^
zGYJ7jCR|pvJ5%(>g(0|XV6x|Nfk<O@Ig?F_LM9CnvIV$;iq~wwAizt0#4Z5-ZQY?A
z2as^}RR9|SE-0#S>n53mTPzy(Bk|L5a9H4>t-FT@2IGfV`yI^CgQYBCwhWo!qSsZ8
zz>T<)hFQllFd)&Yqpm7gE7-x08G3H1%&0RGjW$cxTQW9x;5j~4-vl{}`V#;NLSuvp
z^n58CDGD<>{QGCji0+45Z$T(`8eFqoUv>`{yQlT;>0<Xez5CpD_l527Od&K|=Gpd(
z5Z>j`Wd#Q0u8;Ay7Cn8sr?1Si!3j{OgT1?6-s{_KVIqUY@T4A|d=%8fuWfirtzE^|
zLA`ab)cZ32hq_8VLuD`1HnhX=Xt_Wys>z~kYizO*LxOHEhI*8F%rMYuw8mobG@yvy
zGKSlPexiNRtHX+f?FcSpY#bmeP{RD!)Z|HHuR3#v;1{!B!%zJhvOh7+nNFtfSgGgW
zR`}teT_@Y;d+H(;2ezCK!?eQhnRFGnu6vPtiOn;GeMj}4V>^t8cY$x*)m~;j{3~b<
z!Q<gu&+viw2x-09!p$Gwifko5>v_gN(fkZ0Py<{cFniE$dYSi?%qxvfDBCs^l+lLj
zE4#5oZ5=Gt*-u#2*nWBzgl{-z=qU>&iYnZRXp3o1#upL_iZOa+(*?IPfzGLciF<7L
z@!sh;JqHRBHML5USVAOH?2;X>-F3q=O>c>wR<h6zNSRSDK?b)C9FC_hw}bmS#5e|j
z!F2wT3H+Kl^snB?$KT%e?z`pMb#*y{A18Jhc<dfmScmW4AMZjO$Km^Wg@4E4@I7NN
HCyV)SXFuSy

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b34b1cb39b547add13038ed441dbbbe46b35e825
GIT binary patch
literal 3716
zcmb^!U2GG{d3L?F*N*LVhzSnCun9?n!x2M8IS4f35O;`^09B!-vXEAecN}k6@4B;V
zNGv09QlutruL%!T$P;j?bRhb`<2}-+KJ+C{kP@w`3aO~ly_p1b*L&(Wv$o^pj80c|
zl+4b2fAh_Jzy5nT97Hg5;rH597@>dBO=EcLi>)zOEFl%CoQ~4;%j;Z$PxA#&+QZSk
zM;8j-w3kCXx`b3=7O7tBedclb)4mxl>HC^)t|obBU=rJkjSb5rO2JgIt`svQqwBD^
zV-j6eEUk<kxjhBYDFmyfEKYKc_({pa>J{_jtb33<i}lUc7aT&r1-&s!b1F*nDwp;I
zPyneB)q{m8cJEe3gr-6}_jIT7Wk1ZqkLK`Vf6h0Da-8a$4W~sMQ2jqvMvhm-S>ah-
zsdVsvlo4o=(ZOW+L2|GK8d5tzxBYEyA9@emk0b3d?V&lo2ZYz(BRm^QOLJ(NOGn31
zQgR~W`3xAfVa@WtgEEYd<OV=Ci<o3=%`{{?pRwhPZkck{EEG#Nwg7}>f~}HnTe6vx
zEhbCG)4*d}BTUrgoSZR$P5&wUQ_e!k(6SlZB(i476Ie4QW$H>y)(!#nW7y$LR2BqH
zU|BP4Omv*N4NP}5JI^?COh)4vRkMm2JDYDgkKVwtanaT4suOX~QtHY&!eqwAP6Wg#
z=53IlDHgGs6<W+fL$U+@x4whvPuvo+!O7h*@2#NEfmY=;R1yBn{gLBPg{vTiZ%|Y`
z(;T@DP&DOhz_!2Bob@w?YXs0X3bhLskR>ttc0t44x`@EQR)|qVT13^CA;6Ld!?xb9
zj#W{KYTneO!ox1mkTQdko~vKei$6ulpyRblU~5NI6wT0VMR6o$*SmILBQv361sC-R
zCs;7Ck~NK-Ht8IsPo2{<R$eo5m?+tj4I4|jg^7W6%kis4Hy!PvgoO;zHKTzfG=Vr?
zh1x9Xa|8?PIYKoiR8be}yLBf+CM_qRC|M?0vFOWF_m=N{cQa)dim9SjJZ1wGwvSDh
zK0I^!)`vKyYZIyBjGZ@))NNfaq})7-r!gpKl9ZmA!Nf{2e}f!~Q}z2c0VBm3BEdoB
zed9YqYozf;djV<v0j6*7p|=qfh|K$|V!SH$KRC52_HP_IHYdCk57Z(k+`EbV;S)6<
z>fE~?m8(&C6Y-r#H)8RnYxl3M$1YT37gl38Uf6%D{I#<3s~gozH#R*$@TzOyde?BZ
zYq%Ehc1AWmR7Ql!7^p@Eo?Kjs9<OzxK=`HDTkA&M`{#tugIk~va(o2aC1PZojtxM%
zrqyKY6iiFhf#JJ*kPyI|&c2NuhYB^0o^nupm{mv=a8Eh14?Y%^EEAgfnC;4mT@SX?
zla5oCUYPEoS3^hFhelV2M(6Bx>2Os#ydqwFA;3f^{{O8#IS4`<`gg;c9D=D;d+K!M
zu3g$w-#kePY4!!36MgH6<Ex3|bM``czPuuiK38G-zQ*(w*?ZGt-}l}$NXL<@8Rt6v
zE~T73ngu}#snW<m-8La#lXBlK9luX<nrhtXYAkgv%*@X`5>}*v6>)%R>V)%}s$xU2
zY`C7~gk8akZcb{pm92Ljz>W}2E$kk@13S}n+1_(3t-a@b_6fjS<uRcM((1Fici!~?
zMVkahj@r;QxT8_ORhAUVLEvbnvIY%84Js0`X@X~?;@LjO;8k?jV>gp6OZN$?ONIXn
z|E%u!cZG_lBINjS^h1<4f#a@+(tmdHJ$E?r-aGXEz#Tf;-=U!!q;Enm0uFr`K4gHd
z#qHp9B5scdtsblEgxbLAE0ip|-u>;&@CtYqGy@i)mLRm+IR2bTAor?CAB*$tbDUs3
zq=Cl?xET|cghoh9a&}X~5dfCEcR6fb@;S=zPnaNu)`BP+TbKG*rTz`6tDX;})CP^W
z6V=3t=f~C(=NE%Owzp?JHnbWW`bYfST72w9=W6`IM*P5fe5@KDdl^6fy6>YG!)tw4
z?tcogx)^*NPb~YFrHz9};jiXJJx8{XrzbLZxz>-O`yZTfqvCB38XSIn>G8ED-QY=}
z8;n##eRH2a2-HHTvv(!>6G+<i!(*q{VxwREVl_6#V58O8=*!r-*NLBhHMN$wycpb&
zdK$u6$R+u!*OQ&J#2T3bh7uc8XzyNvnyNS<MfpuBqt`KhMN!QxfW1(uvU!I$499nc
z(K^C}Y3i&nIbxB}uFjrmDVhE7n2zr{`)L5|rJ{}rwSW_@m(MJQ_FqYIuCZtco_Fm;
zV~x;>+TQvPOyAC;H@x5#YkSa<4>k@ReiP{N?tc|eJQSD3htjh2WS|-!sd)hirA>-0
z<mdAX=Dhhxs73~AehL;*PvRZrs+~f<NR8*bA9IhqUy6^#FQv!Q^MR^-Y7<f5mZyma
zSuW|>MZA>1pI<WXn@@yl_Xm{nY?JV8lWy?QMT#11q6TZeLGR$JeFv5*_bW9otbsP3
zU^_qEi6|(|l@==Vl?T6kcysyYij=GdhQA2_?hS&8*^9kJ(oa(G5>Ax15F^lz+C-ax
z6s)pvVzJ^3Gu+PhV#IAPMz*^N1|YQeWP%C&P(<!Iv~W7&IoB7)$QjsDvsg5&YaWi{
ewnW5*zY#nf{|;8?xwqmt#|<w2`W>QQCgi`$H&Fus

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/topk_weight_and_reduce.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/topk_weight_and_reduce.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e621e7ea7958f9ea2b223ce85e2ea409cd793914
GIT binary patch
literal 7970
zcmdT}O>7&-72f6lpG3*}v6aa3hO%Wdk;N#M6I-<$JBi)IP82(K(LhPMSaC<zO3Ph(
zc4=D-1sFvF&`k^5?Li8HB0S1)fU4-BDsrgNQ-EGb%c$6e(FSOH@QsbsOE2wvv-}f7
zNhsP&2hebS-n@PDX6Ad}jDFwJ65t@Iu1}PE-5mE9tW=V_Tv-1T6c#v{lX;b!uz&f4
zW5UVXWmm!-cko=o!*VaneG`73b8z3~WXDIG>?Hn~&WhUF?|r9To(M8Y7f8BykPI<N
z4@i1<kZfU+K9Kb9AlW*{M*~mLl<|1YIF1XIE9*HZEO3OI;AL*YA@dVXoYjO2=H;HL
zNY#y$U1=|eb7|h|*`nRMMZ1r9VGd1oO@-vZN3IFqoGTi%p1!On&wrmNSEkL=n*0ut
zQ*rVdQOOm_B+{1-jtdBozGslBlqx8iU``VuE*V6)K20>i&=W*Bn=**}mVV{}p^219
z&fG{6Y8v0u;0NnWfs#n7BtbM&G8J7DWStm-rkeuDOzAWsTxS*tQZlJ3aa%^xWPzeR
zID#peOquX)4aZ5cOo?GIb2LI^L(r!LNmXt8^h6SLOsYh<KuJ=f1g3UY(Iiz#H#5f=
zV(QQ8R3JAbv~*B-MKa^lM7~TFQ`gE<5)?y-*K}W3%xPg#H>cU?3rY3Hx4$OfEXumR
z-8&>SAH@_hAECQ#-yE*@&2u%+2$CVd6isvhN`nV)pp}z~Mub^HHKN+ndj-6Q0$W-m
z*p8GmVe@JY372(YN{TD00?TJR(40nJz&;qP*SXnSaXqEV0&ET#zvUidQ#Ev^<=YNw
zums(YI^)y24r-_M>w>8>4dwk)_6xCR9Ea^&O)e-QbgV}pTi{H-(v#uMs@(l@=@NI3
zACEe$fMO_`VM<z@P*iZwVYv*VPFZePc0vsl7leOK#>_-AmQ<35O^IG1=HVNumyREs
zeTl?WWipnWGpBVec1=|iv4k!YRU|h^JZ0)Mrb=_5B{qd8NKEJ?X6ngV(VmP5TSsIE
zfD9$)ERQIXtD=~WY~#!!TjnXS%4mb^Cighpvv}aqGbdKVV|m}$I<#??M^Bl_lsRs7
z*xx1Wz>0RO6{<7Auzakh$cEL6`)^L9AVz4#L|qdV4Rl!^O3W11;vW1$Iia_i$M-;?
z-s3WVzwG@V@=?cl`qE_vDym8-9x=2hZW0;RwzAT&C*ku{Pf`VTV6*+yuv3PjycK#U
zrI|{CoS{^w_dL`OX3$p5!kD3hXgg-RAT!W%ggQZ>K`2^oHsAC!+qs*G?8VU#2Ep4K
zZCv>2l7nw~VcqEr2TGjNAD}JJb<c14L{XCxL=>%n2um%eR4j)?@oGv^%ROFEl=ZkM
zQj8Cl8+J&1+VWf`nxRw6HL2?=-HqBfrj*&qwk6BZYD0$XBku2xklXi7FYi8C@&w(1
zuiLs7LU%)pW}&UW<c5ZlhwJPA{QXbgFL|-%<97EhsCU(pA8P@wW6#3i-N8~2Ya#C7
zbEOt6wQ_;*?cQ6x8)2x~2H=tSzm9&po2>4*{`Q4*ilGYb%lb0{QHC8ILztGX5r{XG
zNb;O8Ngx!~M=;pC)#ycJ8;mX^Vr~Xj-0TvB!NYp;zXvRe8#wBqKq5Gb7)O1Ol@ZF`
zD!8lCeOpYqj2*)`XcKlETMZx2`;OZyj>l)b+4-Rz(6j0Iqdn~Se+7jFF2mn+WE_{^
zccu!x&{0nJ%fA`NcD=KQz_{o+;FQ~I`3xB3_L@H9e(tJ#^M|MnEp12{hwS{qRS5|^
zSbm9%y2sNO>`fpT(^8T&0#*Wf1B+($8>bAe_K+a~L-7@0F}9+ybk`t;Ng3h-Qm3-;
z*k!~p4Ip+>)#I~@b_D{G%K!>vx#M~gpcp}?5w{pXr1x&M$PBSYaNKpsZgQnvTxeJJ
zWU*r)9~uB4XzRZH;jIrpna>MH)`VjP;n=D$`Y=3N;#~d!0$X3PZ~y1BpU!@kSQJYf
ze>hT%99@fy79yjokrVl6#!7BS%ggIdkj}%X0Ot?i4&4gnyACaz+0Y~3iDI}b+hT7e
zj0#l13=z`ap={q`_8k0G!ORI@7U12ZB~Pcjdo!3pLmil5tp;XTtAQETY%s%84a}fs
z8-SnvzXr2ri~gz(A@E8{PZ?>+hO}=}u|`w^LJqK0zkMsX$20)Xw0HiY1du=AD}%!M
zDC_xe_|_))isFW74qyA5?Cjbk%OG|Uch4peJGmNuIq!S<KL#;GQwCx$I2eezwu7hl
zL1x}F?`;k}HP$ol0|}6AOtJ$3j&?wA<r-ZllJR7`8DHi4JHG?K+0s)^2AO>Tna)ZJ
zfTOFqg%v<-07thG0eSR9L&`Xt+bQ$1yJF}4GT0-0-W)QKgRwNjo)9WE`xh+qP2s$n
zT#um@V^2f+!c+Oq{0<?(*3G=J7rf!M>&zG12BgitFp)2^G=rqEA!QsHz9C%r#-IEP
z(i2?mbOi5_jM>&7u4-%mWEawbT6B1Vu7ewgM<&;lIH104&Lzn|yQ*3$aR>)S19Sky
zEte)M3Cnd&A=fQeBBhEH`Kje5iKID4pNBHV5N|p4q+xmC${`x5MAW}MIkxzO<<n9L
z5s$mY&l<Rlj4N09vK@E&w?CaM`do&wMhxZ#(Wi~uy>B6LH}Nz5RxrzFj}=4v)<XLW
zq5ZjcRzrufd@<O!7VIws`*T+x1`kzZ&C2k~^jG|9<Xk?q@9S`6Eqt&LKDZi=E=kLK
zR)+J3#~y~q82K)?KEM3T^1CZn^TVg}&%g5E*<zh^zV+FXlW!RWu8!eq?C$}tZLns+
z`)dbYEF5@o`RYn!MOr;@>QU(Q*TMGe$;Vw!ExdR4y<+>WJE!k>io2g(+dW*^JzVUL
zu64%>-LVa?tGhLO7D7)YnC9AZr*oc%;eit8@CS;m{ke-veC}-S*wX0o)URiMIs2=`
zvX~E@S$9HrK0L7D<NTr9!CS$6=fS1!N51EGh?)#8F*}d0C6M72pd2+%@g<MY7&f7y
zE^K107B;a~3!7N8!zPw$VH0XLnBsSvhs`gbr||`hxTb(r!RwP-cEM|y2j089Gl<j;
zN%pYUFz*(<@VeD>lz)r%0P)Mg=6&!Q76N+$bDn66wXezk9ha1Ar2J@-zWP58qIj%q
z-e(L7lgJ)L<apJfYPqPS&29><2qr8jAqF9{&TwMYe{-B2N_lz`+TcQfXO)%f?*e!o
zRW!wf2ZcjB%o$>;EjbU0*vY@i6+8E2T|e=&9k9tXyb&_f-i1Q_oxj;D%MG6PU|g8N
zQ4J}>HETuuzEqx|)4uAA!9X^>EeONF&eOwpm7Ac(I0#ww&E(W-`1CiNqb*PjwckE>
z>)hi0&!eA43!(lJ9@GDrNg$nJo_P$*2aD#IfriE;^DII+&T()laW%V?$c{=xo%eta
z)Yy>fB#?<TlW<mb_#i6B%qrWM!Ao01szzm;K|=!lP2xCQn#y0D=e2fNUnKYqsb(eH
z0Zpu|u#twy?XE^{PxEVAW!&b-4cv)q#vsx#_j!NDpYf)_!udcg!b4l263t)ZKDYzD
z!Hg>t#1)zk)%mO$69~!PFMO5JGhGdnhib*j`Ib6Oc%f@ZnU?BWwF18gX8dXJxXfi*
zKX%CQ`>|un*#l$d!x^`6Bom&&N<+#xGa+oAdAgwksxYF7?`x|gdn>c3*n#VnX+eFN
zF!~H@C*b$TKXpMFuE_rJC#aGlOwmEiVwk-ESvmk1SHAqxA!vXrt`i7Lw3Qw~8Kf{}
z!jdLbH|hwBdrDD(%^;{*Zh*uq#Bxg7oaLQTCDSCD)dFwBnkmAC8HduNs0weo(Y77P
zO~7V0v+&GjwPP8s+Y&y~vj1aP{CO)hrBK5xw^%_{s#W~9n5f8BnBD#1o(?pLDT4>R
z<g5Vzu3tASC!IFfoutZ}$_4x8i|=~r13O_ABTyfMsFA7=sJ4Ea{wxhY3=igggZc1a
zv1{+b2X{Zn4X<_`$OekNv9;cjLhs1(#ns-I^1hxL#j#1&W>)j`;>A1REm+O1v%m#f
zI&Qyt>&?aXAHV%|xXXSm$UU`mF&BOqj#UZH#BzJ??R@{p^0}33zy0txAAUK%qUS^7
zWrh<2y0Is^H1dn%_l_5Kk7Pr|?noZkR`-k9;9q<C7Bfrl{h{Z0_KjlSz*4l(cO?7v
z<IbLiH}1Z%s4ovc>O8vEIacT#TkU)~d**S+p0$pFLdQTZwc2qw`&x0=ft<2DSQt3@
z!2O`}f%|t?^8>FJcD<2(^^YB~Vq3?8@2+pLH>VeRUR>+>PNC;JE3f|c_20by;Nq9(
zziMCYIsd5b&0=pPcl6V@mR>FN#<FMc9R1N-r7-u@C_I(4b(bG6qCtuWfZ|I##ZyIl
zA+wx{X3|qw#TyLU$g~ej`!K^LZhY`y(F-$tjxmyum8n|^9z1#$FRgR%^Nq)e@3I4p
zEDjp#SRB@BEDmcm7Kb&P#bK$&;-F>+GBhC?wvS#L{-<I{jHe7!Pl$L=2-a2TOCV|;
zVKSTln=xenH)F`Y+`!dhh&^*lRJ8vMWwmaWw><U$%U>PAL{e&Ph$As;bu>8@_Oo{c
zOrebZGCvAftv)7Mz7zH{`$>xI2rpB{4<G~1&-3d6j&J!J*Y{`c)E~H08=k#<AQxGS
z94kbQZE#T8IK}VfyB8<d`bG+UBiPgpO;Nr(_sZJ-(Zc@G4S=rhjd%GGXqsFbI8hil
L@ed9v?EC))w!9tc

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/triton_deep_gemm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/triton_deep_gemm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..29593c579a35dcf1ab5152c638ed8e8694e1dcdb
GIT binary patch
literal 6188
zcmdTIOKcn0@$K?YF1gE(zL7-AmTl3NC0mkhIdNS(ajeFXKdBwGAcAgb?n<Jx{A71&
zTf!Q33j?LmPvk=(6+sIX=)r+6?#)LZ1GERNq?XL00bH~|+uO#9k)o&0?2^>SqT}|~
z2Xc1aym|9x=gpfpv%e1p{REoi{7IIN5%O2;)SIh@Y%Bn>NCYBK5=q%lDo1B%isT#?
zbXw4ra#J`;OP-uJ<+X5!<jeU}{#+mx$T2C#qB*5tE|dycxJzPlT#CzuQ(=nGWSj`@
zyF~Da?wP*28k^6D4jWHJ=cuIjpV+ySq>SkKk|GKh3va(yO6S$L3i-+GRMKIv=R~nM
zF6MG?-zti-su&!9BQ0eGUI02j1p`LwP71F~r;8%U3|^D7Y9U{nnxu{WQ=-b}W_ge>
zmCuQJm7grge5R0Bvs0x)N#UjRT%n{ItyyJr0bU%-9pO>C%;sAV(o^ef2s9x-2Gfcp
zMF}KD`-sphP@+SiMdzfmOeQJ8aW|N9iEhCudPMI`WUCk(-<>*1cfjx@Ex7JFAJ!(N
z{2;{%H1}O+Dp12cfHQ!5XF6Y$4ZL0$4+%bz75wlIz@LGC5dI<fvoJ65;yi(y_Yh*~
z>;bN@tqr`vuK1+G(v=e;uvS=zijkT9yU2_+p|>=lw>F`-HKDgRp?8Qe>wP<$jN9+}
z+Dk{fUOL*{WVELV{pD7V!yfkt39w~LncSjMtyf8MkI`m3^ksSHsbD_DQ-hui$HrjO
zl2o|4>A{)Wk+b##ar|#^6d}K$7Kz%}rh5*J{0styMm>ZvY!p%J0b~nRBYZ=mM&F|3
zA&O{Z#%s^n3TLdqw3R~OZR9qKpV>~wp32r~b$_4j2Ym?NkPYi_b)L<q{F)lA_jcE$
z{zf3Hq0<}$y6yc>s7uL!;ZjNvYz!~YXY*N==Vdqt#0aWZG~q=n63M8&!9ZBxCyQhJ
z&9U^D5x6cDGP8F0kx^qgh`@=QTq9uB1SFk?QxT;}OOVBA_;@}er4@ze6`YeuB<}qC
z`$KB3I8@9Q536Yz!q?$jr4uK|W>1JiQug{#aZa5s<cDrZQf??$5JU-ti<y#IkcS|Y
ziLx>@iGhpH6~v*M`kQ(Haj-ZihheGtL=(>%tlOXkxRkp9{&k0Z=_kI>J&*2fU+P--
z?*Ci&!3U?-y2r}Sb#JHXCc&;}gbrS$s$8tX_3B)2g&Wkl!DkL6K1E_e=Mw9E7uNbF
zbZ)}*5MOZJ+hvBx$cf7E`PJd`KfSzkuF`c_?>fB344MuY|D(6NI&r0rZh#)daLb}v
zlJl9GuOba@pPG077LY~sN~G>+KO6!&a_(p|X!RX!cL}?3qNghK1@a^6)umr0GJ1T{
zA)|d|ycvv0I-_Q9q}6O8kJnQ!ttv@MZiOKQ-!vh&BWo9c`Gd`N?L`rw98ul_aEF+F
z5)4<EUY+S(VUkrgT48&2wztBL>g=f1?bF%53VT9lPdsx_+?eTd`urwM2ggh=f&JUU
zzTzE~G4Suc2|tICW}9%kiJ5NG8eF3#2onlKD2<wF1RxMrYxUp&p`;af=q>#8%lLOQ
zcNh+Pu>h$BpP4S@XS4aKPaKxD4Tmr#8nh}Z80_FM+J?t_e?HmF@Gl4(0d{2qz#UQz
zMJl1adT4LiQH2c%#`R#lOjo(+g1Qh`<&G~YmH4P0A6<(dhXcg<t4wI2uY6&ZIkL2;
z(mAMi4z6_`F&(te|9@`sXv0c&Eah|Qq8vv<ZL{=VwDh5`we+Tp*I(JzV`%H+di?lW
zd~Ca|htbwY^v)w|ox@FRjSh*5Zma_MU))>fUhdX;H~_aD8V!6eb!UsusX4&?soO5i
zX+7PVOO9!7Iifi<rxlZe7a-}^93MkcuQ@*^ziQ-?5UCtLq&3G?qB-x_k;@5rhU3!w
zJ8u@$=|nbHltfIEtze`il<7iA5)$btSrik6eBwJ|c4}HZn-{(<3Z;x_@hgLg@q(Iw
zqr=}!%daQqLj#F)UP!35{<csTpUmbV7oUeQOB4^Byle^Maq*<bI*D=u3@!HpFg!KE
zhT9fs_%T(t7c+c-+hhfAY&f#m>|?tR2=gbJIn&qZaTX>kzXs6k5P$Z@>4m+O$T2-~
zY&~+~$+@!Uvy*QuL@MDCJv_1=KK3M5c2`@vmd~xU^q2kBSm$!zN^F1G_m@D+FO$`1
z=hEbAw9h1tV92DYaH5(xur&7|^ytQ;Y12W4&rll<7+L`qKVhOPfgYGrzVwuBSz&uu
zyuARcY)d(4g$0AUXi%37>RrRB7K*b*WJ)SrPfL8hl&fVPiV=o9Wd|uzJ4R|@R?I7W
zPE^yE1~ZMc3*Oxaf6MLv0Z22qm(Q!nW3_seR)SlTNDUmWUIWT_5xeXBo6njv?m9Mu
zdhBQ#g;F)A=F;4n=OJ!BG;nLOTLSvuNU*PGx1Gr0$}*~J-PQ(ovmnnZ#dJorQ$EGI
zzms0uXAdIZAp`>m4kH*uFofU;00pgUxoE>nhk-KR-^@#QuJ=9)`3L~q>79h(DuMWF
zApU1&&pOk$-hcY>hfjK+ytm#z{xsTFiT3N!{*~zH3Ns3@TBlT^C-vybDi^N*VpVQW
zmFoq#!FppMlX$@=V<gsIiSE;*`zq1ndh~dm8D{OqZ~LJeD(NB=)4}PiAc%QhfiNN}
z27U7={D%z&y|Z@i6~k-wvVvmxH**)mzZu&NU;5~WyaH}38s7A94GT0(a&*M-H#);c
zSGrh~=6D%&5aoJwfrKiX2bD5gD+o+~Ew}yyAkEww5{(Y1g<f!NNK%5^Y9z}I>+XG<
z(>R&g-No|(pl>~1usXKeVJ%#9|L{z}rfr4WU0w5PKFzNMG)4<*A&q@ltDh(`SIaE7
zx-MQ^TM|u|Wus)o_E$_)<WU625FAHv0>K!9lL##L#Y<Lx1HmZ--#~C00lKvOO#ns^
ztD;7oVR-CaR1{2a>;As^wBs{|*!k{eo^NS74=hR<0JwV}>FBPs59sX!aD8|9!RObQ
zzE$S(djHtt?oa7Y-(2gzjMYNx7hW=Oa-pvhIj|Zz@K~svzM`MLQub8Y))jWoigypd
zr(X7>;Jsj#iBy>mNV=?FdzFb*nbs=PW5E`y+g7LaKaX>@G%QJ-PqtyLm`~?Ko;UnF
zR9iwxLY(1wD9j~$L`Ls1oYxBl$*Q>wZ&5DbN3A)-rIz5PHR#-|(O&-!cD7LkoVSVq
zE8~|j`;_;hpy;(i@!cIau#C5y;mGDyBlfmcre3qc`9+B4LK+H4j4!ZSLC#DY?rRX}
z3$o!*R9Qyz8^K!rnGq$4=b`9m1FBVYoUu0v{ZU2$Um1z=IR(|=T>>>h@BS}5VVD1D
zYtnSV6KcTDp65t0_Y*f<X<pZ{r@l~GuCNDn_TYmzD+A;D!1xL~uKT|A%mt$xjyj(i
zbGiJ>qZ<SsW(e_XH9X>KeH5u29oLVJZxHC1{d--Zr-6{^f+sA=u%-twFJeB#{Dh5|
z0mK;6oiKxlg-BQ2WD(;?cf8UyqIZov67;Uu%`g%p#Lt#X3s;x+E`0ai50+ianFk}w
z)4yRKwLDTDzxC+W@8T=$8QphwBZ}M?s3g2K*RsgmXG|C1phkQ5qIO?1J=pV-VC18T
zdlRM)dr)@Sy#V$Y($=*o-IvTD_Ch4uzBq7yz+|z<k(PEdj93H}k0KT$EuD)K_a~M|
z_1FQk1xc+W*0Ff%{;B0YJ-Xj)LsEN9&T>qT>@z!%)Ja-jTm0bu2j*+o>#B({yRp}^
z!v=9ACdh$9U-bfJ#c^xDlQH=+Y`HOlUm6Cte`y%BzcdUszBJ%?NlMH7tSIM2$p~%d
zH{A9F!`GN$v22+lU%<r<z0zX#H!u5e4ZqTiMr6XzBG%U#*@}#Kvm1l2B%-0Y{b?v>
zO)9BbNf~TNx4!^k&S1prhx&>r=io-N&!+Nz9*#fuEgOGAY<pvQZ+K7HLFBajJ?O$g
zBMOFF$Ob8D!%L{(-^rOjku#r@cfX>Y6#WGO@Z3+Rcc`yu2StC$T&5}i()CKu8NKJs
KbAmlf`hNiKK%!0n

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/trtllm_moe.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/trtllm_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..640da890d9628d4e5bd76fd695a285e9d7d8053b
GIT binary patch
literal 6222
zcma(VTWlQF_0B$L-|KzZ>s`NMldvSQV<*Hs0!eteg5W|D3K**CWM|f1d-lQ1EV0d4
zq*baqDvv~{vZGeQR8$b5O6eb!Dz*J7mHOi)v|e5Dk*cat{sv4G#7}$9o!zywwjo!V
zGv{?5bM8HlJO2m-yabx!_+|c3gpmIr(P+*(vR(#ciAY4^6f$AGxq>Zg<4D2Ipo2l@
zgo{I|O>r0a3BKT&@G#o0cniJ>A4hCtj7X02L~_cm>5j%U8}E<o7CsS}<1(%rNQ`G}
zH26eClclFik3U)}=JJy?+Mu7Uh(+CEUg2o_=~DTr=jHt5lzzM@os^|YRvs_?@R{t!
z1cY?giS?h@2>Atkl}si$iA>lePPR)n*^zTBk{l=5&-*7}m6Aht%ltH0rnPO)&DoNm
zn6pXF^Nx?|T_(IRiVt|M^NtCB9d`pB0Gyvrw~oyE^B@mN9yu&|;qk%ahbI6}5S|e9
z+qJcy6rOhzurRFI4O(s1YIeeNcDB~A6oI)SQdEvk-@VP4u^ssF9r%eI`0YFJJ9gkF
z<v9D^&K=~|x2C>Rn*L5{*ACL|9r)jE^&Z&cZmAb+nOG#V+(i2+lIf%2)2e<#DU8X*
z$7jp3s%z9<D9P0S3Lae{%MNrFHm%vv1@Kv)2JkCxiRewy1-C)o1gA7?A8{6wBL-&>
z0gkfO3_DPDCjvbOP>!a|2~@+SiQxju)sW4RE8KX-O`Tc=7D;(Q$QSdvAgCVDpuS1D
zP#6|Or9354uSJ}Zb&<ANcvcY$WkJao@;VI{#91LLmi3A%3tE0&&hXTs$x4n5rDCvA
zLkPkM+7O^~QI8<NFq$R^8V_`@)y{qUqanRe9xCU{`*l&Bl=c0ymC^g}n;Dgdl>C{Y
z@|-?ZDh|D>D21UyNs<*oo|Ur|y`&B);+(8%Lpcl`0+@VAS9MTBbg(?924Rx<Wb5V(
zHa;8|rrihNn{(vr2=N3jxT}1}a{4oVcP*M&biBdWQo9!&pYa{F&H*4pwZ0J~yKB7%
z79IcOyVjvEp)OShLlm?1?Lr;|!A%>yd3&du+sO17m~L+025;j)+-Z-T?G#b{Fha&o
zZG{=y(FmZ&vwHqjQO}o(Pn6Vxs8jxwE*2$Gm9B7V6gp_Q@?JF#kVeF&wvc1$+I;^O
z3vN~F!*TWj08@HNAhhP+Q}ypz^B<`C4}9(qZYE8qJ?u4!-Q!gg(BU?_0c|-3nq-O0
zaaU~Pr>_td<LBmOw!s-Lm%!76>{O*VlP^xr@7l7;EjstWDC_7Q=SVFSy@T1+9#B?$
z5wxx#+8kYGJ}(r+^8CQgYuM1*kHcYL-@1V2u|dPYv1uNuMw+Q_v5FtDWl24`d{I=u
z9fh+jK?<<Tg33~)kS~;#`2$;)_dPuhz%-f<z&Y}HX!o_y-K+fFY}J%|nsVcmdx|>r
zQhA0(CY90|Q4xxj0(hqt1KX5RwuKd`TR|_)$VE*kKztb=%wjBPv}R;PdqX+GE%5Mo
zAOhNRwgs=j8y>@(vqRXmjb}I&4aW8-<6}oz-GdCwaB2nt?zp-a0iI12O;5dNOX`eP
z7PIp3CVYgtN)^3a(b@ObLleF%zX&%w3EGrcmbLl5EyiqBIS8|90|3quGeHuai{4s1
z2_O=^`0T~RqN^6}Tz>LH*J@~Jl^<eeRflnbfvLPC$wfiaMP1gY?d&i-Bh-(Uu5YbI
zc}C?Wje0k{k$N|d8TE+6uLv4!flPUEq>lNTiyS_v;`Y+CSS~Abf(l<RtBsRWDnfDq
zV`MRcHyYwBYyAn}5@eU@=J{->Kw-i)^43Dwuy3o;%xnv7hGSa|dvlD4LGCmF8g297
z77J0swh%MC3vna<(}!)uh)-|My!D0Z%`-QR*{Y>AW}n7z+R`S85u3)u($cVS?j*nE
zB<>RTd)He8=66kFhG}V=X5OaYY|Jb<=E25>^Ls{!wG0kqV}$SdY78(ft<e+9%Y_8k
zeVgL_ob5^SGpI(UJ6k#fY02_X_#26LILRdufNmoOkT>E0J%$~icl(h+;sXh~eM<w0
zA0&;Uev=d=0g&`=V%1TQ1VMsPwxxk2WH<nZLB7pbfTRs1=(a5lBoX#aQ3hiS#tr@*
z&IrTq6C+|ojW)z2yOc0E9b*w|Fdl}amL}Oh!te!6YX6P@cicj|WRp6Scp<US0aq%U
zlvLUa9ScdkQW;69v#~$-62|F}Qh8#uzt6qJu?rZ?+ZYck##5x93`5R53m3Q-p@+qr
zwZBNta+&n_jsHPo;qwMM@eTBCbrb;gV<dotDxArSnu;-uMsEv9^+*!1>Ow2kXf%2o
zS=VXQkvP)r1tDeKN1EY`b#IcJyN|Gi(3lmShb<9<qDqsub0;BSHbnIf^}yHQ`Zi^#
z(-}W?LKqchsJkdk!grUcmxWaeZ_5`UBo<^T&xVD>N~2azt4G;VE~m*lOD#0c0;t61
zLF?rpDwk9m(({Te)bpK`FVJYiypa5+N|K<@m1XLaN<t$QTR9-ASBf&!6tgU)TKzK|
z?bEFSH&;F+oPo8>u=!*wdb1K3lz0(}W9<Kgl^T;!oWtU+I^Qjq1ywB0P{*rz`7D0F
znw_G7oKh0?`vmz=;b5*v-Kxy89NZN!*-@KbqE4{J!4b-zVXDK283SJY+4`OU*2pq$
z;IZS=vgvNnKt9}$#98Z3;LX8}U@BkC$*TGS9=13Z`h#!;6>V^n>_w1eI;|v+S(2Sh
z^$=qBA~=iy53q_Ay_NItN9+Lv4<a~%0COIz1Js8QV+8`M4W32vBmnB371+%U5i5TN
zpjw!LD~1kL3v8-u<}BP(G`3z97p7q#!D3<iW|a_5mT2b_Tj~bJe-wuqgMa|V!T<?(
zyuEN?Vfo~>Q17CnmhOIc?DE*k@n1i=$|qZ>?p^OrU7lL&9;|i`t`0v^?S5pHPhF4n
zEV^rv6aZgj)z@819KATXq+C+ozjv+waJB#NwZ!OJ;%GH-bT#q9U)n$E`fJzUwbf@%
zt{y)HjMe9!|1|N!;@I_M-@B>HsrR4z;HCFox|STida{}v{rJeAkN)xK=l-_0$1jYp
z+igd@UwDHT2HvQ={n~}su6a{mI&I1HV!-4{IELS_%8EvSP;uWzo3`$Vx8_eQ2TVI)
z*ZrN#kC{%uOcx2Hm!CJ?i1Q?{Yh~2*AP)D6^zup5hqxd4hdy}dy@$*I(m@hPE)TrB
z@A5t~gmjn$I+qWvrS?`+d(AfFL@bS=%R^=q=@<$0uEf^*Myq|JW*j*QYy5V^J2u8o
zBHg($ehTR{3G}Z#W_BUoO#*j+7&Chi@3r`Si0^_mtfuyx{YVTz0a$BK)jGT37Fp{*
zjPR~Zt*5`%KTu2c)Dr2>`**MCYkQ7V_Z<0Hyw-p0s|TUqqU+`{j(Co9|K&&i9f)6)
z-xR(Cn+#U{qgP#@`bTehNU#g65l$=yZUr{*Z#Ar4{`RnEtj+#On{zDX&UE0FzbF=D
zL7-j%?#NOFLX$xK0v>n8lBihVsSX5K<WRn>mav?kgGf;+E3%5elT<wJY8T2KXG$eS
z#oM2XDU(J|Z~Z@~?na3n;s=dA&MpV1S^fVsl>d?lSN;*~{$o^fowhv8uIZ{;Moysq
z&mb!+iXcGAk2Mdw3Lax_rD7$=0H!eQ3&>{QoF}F&=p4QtNSRJ}!+~nQ=cXI6Ug8Rx
zHkZ?T-4k3?*FyJHL-&06$lAWK>b|kn&{);;gRh(*UAH&%%rNJStsGh>@G@P9pKjur
ztC6+gvFh*`ax$hX=sa-U7sM$Kz?A-w2~!?`6AYLKF)s;4Odn!?($#AQ5DSuYj~PNN
zOuBm3(g&;QgIA?$`T?^InGxa*Emkg`TJFF2!iCpYoGaN653WqT7rGk1s(t+E)!9Gv
ztcH$NJ;&FhsNH*lb0)5b<4gWae$$BrtfQlA$+%>gZbrh<iM)N{!U@yENbo3&^fA&;
z+S3>%%m5>UB-*jG?-F<vBf})#VYV?eg6oemG)Cf`OD8U!SUFUU?J?twmmsm^(veF?
zRtBok-DW%Eb<_u2iB%(anMua$B#G40%a>j@Q;ba4hcdeu+1+B09>(n@d-mSyL)5x4
z;r3^O*6BIOQpfH8hz6~HM1#$LM1$<$i>fdqt3_F%!Q1tz%j!Tq%^pmpqBOfOAE0~h
zXfo^P--cJw2k)pGt3tNi;#K^YM|&DScAkOa1TJlsOKHy)!B3I4Jfas=Eeo;#I{XpK
z-yc?g4gxIsv_Sx-o#VK5o^XLL$gzKsW4CN}&UTZxakj6$uX9}DqPo_8f3^Mon*=E~
G-v0pvvGYv;

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/unquantized_fused_moe_method.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/unquantized_fused_moe_method.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..62df1b79f9e3498700a7fb2cb9136efba969edda
GIT binary patch
literal 22021
zcmeHvX>1#5mRRu;ui_z*lqgXLB~b@;Tb3pH=ytnp$w$kwyKVP)m_Z1dRgx%^l%`0w
zErr_gEINq1JAthLfn)@Wb|XL9j-9kS*`z(2WY<W7WOMvrS?aL1R?cd&UIYy!0H@`~
zE&^ne_r7A06kU>A=?RbprfhxnzW3elyWUm&j~0uGf+wo|?MU4ZDC$o!B0u^(u>CU?
zMXgc{#i*iGOchY65LQRk0X2DRV%o4;Ma6W1ihPPbW(XJvtce<9rhtjS+Ne232WSH8
zqL!F7U?p%x)E2V`?6Jx~WvnVt6>|g}1h0=eW3GUUz=mjbtR_$sa|hh9+CVMA8KZSE
zPryT9Q?x$T5NIH<IocR&3N#Uzj(TIwfo2t@rr3trQ}WP???-u%voRLN8f}gF0zN2d
zVQkU1SbLy7))DAXQE@e+4s?(@E*8tmP@xVzl(R?uv9>^0zDyUCq1o<7KtX&0JrK9f
z2BcVN$W+RC)YNH;srr~=9IT7AKGI6L<Te6*3u?dfYef20qTysH8Vy~GvXc<8a&zHW
zFce9$TySna0T^>69!UnHbJNo-M{=hU$+_5tdB0YyAHQ;G>{Rglg|Xn3$@j0En7n*8
z0P&L-Cdbd77Omr{1k0SC8#_4{pNdS24mtjQDilxVku}#MA;=Ys&9T8BBR&`=xuK;h
zIsbV!IWxz+3;FyS(Jf<7gp-kvLdnQne0+|Jg_2^EoN|%nVyPrMc5|NPl8GyEcwt<u
zD`eo<`4GpRh%@7ncqkfKWT82Gf=vc*u#xGRWH6LWayWK-IK^=+bZR~tN=`vDfHR+*
zPo3bxGh^`-M!hqkL~tq^O3Xy!Q$VzEDhUxl;oxytU*ohvM(4YsWO#;UE_0FOTs+@7
zzgo2HK!_HpAS-nq${7naiLO+f&<Hxr6dMRjlPiUN`N;O)fj#-RV8^jkK*dn7%Txgk
zqh_^J>Sbz5#b`dJ13I>X(X#p}HKY4jTUZ;00=A+AYlNI8M!yLAIbVYTYA`cKz?xWk
zwyv}j5<FY~Iu2^FO;s@FkF^2&zRJ;TC1Zg<EBx7@J>TnfPnj4y)azg>A-(hUbZA=<
zKc$78q7AtA)gLXRpVAUaI)Dz<MryBrOz*zxb}ILiaqWVy2Ab5cdd3ZZwE&Y@V(JQz
z2cY_0%1U_~*qVH)M%K+Vv9*kM&-~5MQVZm4g|~0doNariw(ps`%Y3nQ%B7UCQ|ek+
z3S`}OF&!W40-k-%g_f<)uX-)h39F=G&w1|KSKYhKGtMK<>2C9lbN%aiF5BQc=GhPP
z-1zI6+DW4P4*&maM|QzXHT`;~{tC=gH_Vjx*E983V5WLtrkX)UXqg?~*;|asd>&W9
zHV1sm)J;{O;}S|XEwktL%-vL$dt%Sr-ePXHu?YM7#o8-HCRS$1B@Tbl3&MgoM!0?N
zjR-LPsiZg0@DfJ9Pt*WI9afjLYyemTf7>5`jPrL@t5mX(cw3jI{<e;y(kfXhQc+2W
zOV4bD3>DupZPHXQFEK%BY8KlldpIkj0_jy3t5^c5HLZpch5F)p21*s<Nt;|)uK%Wr
zOF&=jGJdv7hKg^<6M~wlS!WR^L$lQ~RD936i?9qq9mn@ohXNPRsICJq4K>w4j~nEg
zXB%ax_?Ab<XprM#wAX)x)C(3y31jgVbITC-MY2VPXWL|`_-1s)*<&<JMbr^<E@?oz
zRx$dhE9P3#qFkQVq_xQ&xzs+WCd*55QF!m8^gv0mJh+e2gWs$4(Ceii8y@9XA<*3=
zr!VYhL<*~jJGzfC?Ye?E_Z#Nf$e13RALaKpXg-d7?^aJy6j$?xR_UFslAT*ZIlpC+
za{wVh4tJMmMs~>P9QOHZBLs_Yjm1Hc5{XZH$5A727BvFilUFWJoVav}9B!aP@a}s4
zK_hz5OC%$qD1g-pN(DIm{5p{?Rg{SO<b03|#jg_}0jdE}&&n785VN?jOLrm(Z|I{?
zglK=f*tfBZ-fM8^#^;h=7Kg$zJzh}ABq9t91QaAm9NUKz6X%1V`3a80xXzrN93T6D
z=zzvA9vFV>fHygpFYApY`$S!IE=<OwON8g<*~P=VcO|cEi7t@#cXsU5#Xi4B)Fo1&
z%n=R2AW=#MIXtFCXQV{k63q8otS*@^)Go<*X9>QbTH)|y<M0?3wQT&Ogjm1VAUO|a
zbYQJ8U!Xl>qj|NJSOIFEAUiMW8Hw~99)F^18gxqx`%xs!2E(EG(6vZ3l3WlQm8ZDS
z)e1@LCK^GtG#8wUhgsAH#ly+DxoCoG!Y+F;KqV`OrzqEofe!;bO8ph0Ho-=xNPndv
z77B^RU@%NHRlx)v8eV*E{m+^HWNf~FJ~H2%3~|uw-kYhB!=u+n*#2nbTL1h4T*~qO
zkD}37e{7C{VY4?`(0I*p{n5|@%O&~?6zx~kRRyKny>EVj^FyPHExT@pK6#GuluZ0S
zDAE4n7PV=x+}863_nKqF(D1T-DBFIPZ$G=<{@${7!_X?2ZCP{sb94I(dVH(r)bgpX
zX#ZBv!1AdL+W*QxS$fy$zHcb4<%DX}?#$W`@b&}WXfV2Ecdi;%3|V^*Z|}+45Aybd
z-{>$QS3y;}N|T0o`_NMrZ$JEv9@C-L%I2(nn70qF+ee>P^7f-of6Uw8$(bpmWy8>&
zvr@D@Ywmk)?%SlRvUEL9*9-OwuQY0l_1g-{()DNb_%FH+2=?~PhQorp{u9GJL)JaS
zyN9ywW4!y=|268BMc-{j0(9h@WkWdl+<s7Sx>wJvoXI)|c;`UYIm$anpPqQ`eCwsX
zI&1gxc5hCtcAdiEds=cv7~{8;uCgjeQ&rWg?iF{ovX`&y%~l@bD-S(YJ+C~xDVGzR
z7lgXzoDPb-qBKy%Ky~+%er&@uQep+iCR1EIoL6Ndjy!~g!_B-(EvO!<Coeyw9;&zz
zKmelzi<3JHp=g2aKR*XLUD#pKYl|JbFP<G4r=jdNGJdzHEt`Wo0?^(a;NF5P+}ju&
zhhRq+V7JfRfa3==!eMr=F6_v79qT%Q0k%H5qj?-V89yc=3kw$?K;;joTA-5o>ye^v
ztAM$MJ4a@^E&;tJ{Ti+tigBp?6g{!f!ZkJ+3tfj(N>X?Sr(|`vn$VUTg^UTT(|e0h
zm>UOp@zCyc-J{MqtP77(*r$b^C^%|fI@~KGykmIXF`A)A$@oQkd57Sd!1E)FbdVpM
zF+!J*U<vF-m0Rj_)NiWNs@Vc%<l+>S#05njC1xMlS}u?*F!!@&Id}2R0F`IyVqAub
zY)X;2SI#+GV1MPZD3Ht|Pf_;BGpRiLkJXRzw7EpRq0buSo|N>tz~CsiB{STYD8F`c
zu|~;m;cZKREyfxP-3)>mB$%AL&c+j>4Phpdm?xGFF2Oa!7#Hn33>;X}EZXtz+`-0F
zh6?taAX-{NNe&4wTJz244JI72y`qj`ucfA?YYpWi4n<e)Jq&Pcun+L);7((327(0A
z4(>PU7y(O9lnp0?(`+mjjKt=ni(R{~`0~6dtZo&8TU5?O!98O0@it$^Hjpt4K)6NM
zXX!qk?%T9=WNpK|ZTK6F$};i_4tvL)iQ5yI+QBEMzC82AnGO1_O-F~&)cVQIdpEO9
z!+g`Q;2p?%-{HOQtb5-T8k(~WgM7o_E4|if&B3i@eMJ}Q=zehd^Q#Z9ZqUP<4)1+u
zwt1Luh7C57p+}?*X2zMw+mJ-_OoU<BIAI0FrbrxYdoh-Ygpw>l1%ahPJ|-DKW12`K
zOA|{3ndHJe8!kw-Fk;*)xJkChft<T-NTrR)Rlr8lF2aUh(#O?l?UH`)tvQR#blFoP
zxr1e^`~eAE4>F(*wn=`|Gn&U*dC4ysV9Qy`%YclkOB>`oAl(+^^t2&eQN$~65~YpJ
zUHM+)QqTgBap9=)n}5fsjJu4gB5f@8zGPI!(oub{o+{4($l$xqfN7V$>eD90zM4w=
zx{n$7@OzC*c?P6)r8EQPT}EX{mq@ZDGhi+q)dICZ`Hhob<IM%~o{ns|aeyow`{PuE
zV-vw?F2snY8wU>N4b!3lVKkYG#v6k&QV$^F{3b~-v4T7Vr)e-02Lp5}D(Zkg56_6|
zcw97I#LdmZ2_Wj&*gVJ}RUA7VNuar(?0Zb&a3hEYG;EWmbc-xEm+;flp^E1z_dW(6
zU~mb8%MgfF?9C(>+F?SM`ktDHOCiSn5OW4F_-hz|c8E&g5fA5b;gJq#YnWs4bds#`
ziN(&{kLR5^Z)2S|fn9*Zxe8eCJEONpv*woP<`$v0F4J&~uRV7A+*a-A^0}9;y49;I
zSF^4T-qo>5SKfK=_IrZeBiQROtZsQ_)LE>+@Or#C8&%!8O&O|9%O<GQXw4eDyuo|F
z{=wpg;m9TkBXya!kqyHrFg;Rx_0P@qn>F>TH&<?EYy5nTf79+-HLsZ0-g{8@^w@^|
zjL_H$EV8?6o6@+g%V&T|wt#Tp<7wahz!UcdePolaU%Q&=I1J!RXRXAlxAV^S(vCu3
z`^!7(>VS^AOv}d7j(Q$Mpm*5O+Kg{_!!WY5qt%|(nU$GrbthllS?s9i>BNTptklsO
zKXkOlx_r8{qd$D2-=Igaqd&;BkA6iT&RHnBLAre^q>0<1sKtu}x6pQ!aC1ojrAP6?
z`1>Wted!gHFC+6x+#T3}3YP^_Q28=y!sq>sUGiyUUI)_gYAbu>cJS(Aw2ROaMn~$q
z#8kYY1nlZ1b+T~j%v#H;hG<#^7mym<FZ7_~l&>uVsG!tl>Td!b)u>CVz176C1zxUL
zzuaq3{i=Y6gCpjD!$b5~U;iaQ5m1;?lGciX$q)^w;Yot;O`qS)^+G+Oi)cSSxN!13
zQS4kiaq86B$<vZ9Ll375s!+s=M3Mu&kVpeJ6+<T(qI^<~i<<cm!~J!vM;lHtA<;}u
z8c=+I`-{w)&0w+~xfIB}lRc{hnFS>mNXVZ6i`}~)0Iy~Kmr!%!cObY$q0nEMrQ4s=
z?VEOQ*51k6J2&iIg1vgxvSL}gwr+2}|Ne7(yHHuP+OX2F#;sSj-2X7!Hp;h+uD2cG
zD~~)4^Y#<ZAkX+#b?w@R*@gkWVPG8?v+BX+)0?j9)hjDk)`st&xPRmRu_tv;-(Pnf
zf2Mi%!)G_1%|K}7T^E+eanqi=eJ)G4@N~-t?c1`smMvtXC~uJe4(gmTONR4xO9tGD
zC?J(RuqYL_%PewkWlzb%S17T={-NBC0uS(pb`(nNXh%WN;=;w-Q;FmH?&F1=3hgWQ
zI4?^6h-~2{4e(%!R4wVdM!EKq9F&rchnr3owy%;+N4Z_4KBG12u}0<+Nzb)Qx{}%z
z^!jOCT00FsiBK*-;-!jo#VqPJ%O3eaQSMK1l;6!h#3dOmLq+XNdRW6PWlcd;$+v5l
zob9idCQ^nWtyl5@o9%i%|12JOWsmYWmFE~`h{qN3@tsx$Yvjs6U4!Zn^2{n&ie#$Z
zRdN3dD58(n#_E=gJFINOa{1z0E|o;x4S8l!Z&dbN@1!WG_xGS)1A4M9f%mNPsAk_O
zD+<vi<ZBg9h1rv@=au{OBe>j`=q1aNRhdqT?bvq7`{s7+OO?q}a&MIE+%S3{*ab~#
zOWF$DII<q_0JfH3?di(2tpsaLq8@=fvu9+e_*Sxw&z>))%aAhN<g<3EDqXb~4V6pp
zRRZTZA*;ZYX6%C8v*J5lCHF@~{YKTVY}^W`tK80#BkkC06#HKVJI1Zh@~qOh9ddtQ
zFBoT0geiN9o&vCs>*PeRpBiUT%qe^J$bF?OD@1q8O=LjsL&zZ;8Z{^^;fZ`1yo1eX
zPa@jV@O9Ci*XRU+TjP?!2!q06cs^D11qOr@xUBH?Afgk~(cpEKi?dOGx1<zqm<QI4
z1^48<XcY`iq39Q#3o&5X<8EL#P)-xIObFT_f?78skv$b{iJ8>YRJ0(NaR)JpaC*A%
zObTp}nlLzGn}DB8My6A9sf5HbRshR*b3P?{Q1^s3qa<hxLDz(ez986?P&}2Cc|L5W
z64^pxHY}*HG+=QO^<Z*JMcIUCJ`K_#bAI9?c%FlQ`aF9RDS*l=Yzam#`p`txx6?$`
zCz+`F3MMKpjjcJ+Hiy&-K`+4XJq!j4maD`h&DGIi(Yr@gsbmBUaZ5;rA7BA3vcM7x
z?I0}l$%|KlmrhRv-y8d2a%@7>fJ?oo4xSWUK%$SpJ6)ER=R@J^EF<c`M7j_Z%}`{V
zIM2iQ=(88ct`=fus8NpiT}6ppr1NtFJoABrqPZ9w6ty=F1aCkHS_HAGs7weZZiMFN
zp;awXP_*Q&#?s;<v>_uCjYKg)s#OI=U7SF=>*Qs~r$HlthY-+%Vx=@3%#j};X#B|t
zAvKSYY!Ar(6omg0Aa9QN4M<)b*`4{{b2a}bD4h69*hodgVebQW!!QJ9t>(6@cbNAM
zKS^arPV*zDvm+Dy$i%w${IV`<aD#;r?2DkA%{Cq4n+`o;znuGGE<1dVA3nF<^xm@W
zj_tN>!%)8^+Z#7KhqImIeCN1ecS-iMti6r5x7|;D_LEP4lI=LkcO2c;sQp%+Zd;yM
z>jpWx?ZEPwWDne+n}ycC<*_>#ZeQ4-y`)k!7{07+{KRw5bN@=V?GWE~C=2pP+mWXy
zo*mez9lL#Q`P5zCW^?;zwV&2LIQ7K$;MmjmH=2)U=tjXeob{dHeJ9p^Crg@mY4(63
zgg3Wrn0<dt4{z0bKRI*nOt!v<ukU$~{QTy_o7w)eJp8XeyL?{o`aUy!YRGyAcvMLr
z<GsfUBLiU7wqg_Ny+U&z*an;5+NN~P*5$FU=myYGTN|?$A8+w}WdSSfxtF%4tZj(5
z4XxXT|3&v7^#8nn-FEhc{r#=_W~u3H{UBdIc-JVjbYxow`If<K%Lv~xvfgrd#dcS9
z_t09K;PHNP{NC}bXMpz%+%*W^w$E&z+Opmu-aEAJ9bU0OwxKoWOQ$>Q>{)mA{E@ro
z!IdXtPY-|P9z*!@lcA^XuiWpx?CkyA_|W({{gBRfp5r^u3GRlhyOVc!;>=WMoNcfy
z>U*=E1H9+Jy60fo${3k^?wQOuCo`T&!C9Mi`go@=>+Is4U77A<8_u@`w|}#v=d*=R
z7d}gWn$C8d<vY$o3!m8T*`WSTsNaY6_ekSd_YCe>RKpX`Jrfz{M8-1#wXa@SxsY}G
zd8a?qb!5YNROlMXcAezAPCgr3?>cvP>?>!-7NSn^U8kO1S?_vJLbV^vwjbx)k3Z9`
zw~yb|ePwUWy+v6&B$bQ`HaG|VbmXv~jwBPP6`T)V7tQc}3z}Q-D;Uv^x6L%<gJS`V
zI`h{>6NVB>v=@yEc}&%GbnaRxN^C%~wZS9-AeYaJHDU6x5a<iwq>N9)DGkmG#K-{7
zAe@X5U8HABFae$-1PR*9IZmtr`vhbImx(#}3WpSw6q5CDZbcVJtuUVaH#=~hfK@gH
z*H6)s1gZz(#X{`G^7Tn>yWmF=_J&vk4i*t;6vi5ypIJx{7(4Eg6Tom91uS$S6;Fl>
z(i$8s=!1t`<@O8&U=69{=yX-y9O=lvo%uI43woCF2jxoiTLU?)0<0H?v=O*fbDAa`
zt37Q44z()nNIM^^9_4vcQ0Ay7{Z8&7RK+2e%KZZjkOk)+WAG0#_(vFgj=>WQzQEug
zWAINf_+1SCDF$C+@Xs)Kiowq@_&p5%IRwB+=;3z05#pHAYes7N`?N|LBuy){n%M0=
z$Xo7oWa1Z_cE1rw1~X7Qfw%H4>X&^KT_ZSJGmicY-4CJQ=*l>TGxRWof}=Cz7|PH?
z5Q1mGo%HRrV6_QVH9}nnhVE9Op;xGB#<1xC0=}a{ZJW?Cf&fJQWBEJ~Z5he=DSQ1k
z<+7V{l*?#(UB!b;6j?Hh0PM?v<}K<&m4yVr8lcj$M;7eCW?W#BFHzhWWb;=@99I}%
z4ihESJZj~MKaoH0B7n<GauLYSK^^i-1s-aL5qEKD_leoP)Y~{)L(mK;?JEjOd!j^l
zfUeH9YF)A73siR7It>~_HDC-iQO*IFQHjW<`?3aVB19gCs~`M<3p)?gt)L~5WxgfX
zjuZ_;6;i5!m{>#E1N&7+_N%m8<(*2+;<T1Muy;+;?uA|LN@I-*(ivDN^F1fhbIp=_
zsTMRH3KPlo0p48J2t<i)N<nW1?I|goYtnA$7o07Rb&v9`EY-!MP`84c0@nk0$FHPK
zY_Z}Ix~ahfi?J|Y`|m%ahyGKF+A<rSpx^_Wr_)kh+6C(W5m?X->FS?)lBiE7Pr5Ey
zknZFy!s*XZj1iAge88ooE?qmNzC@+#;M6ruiZ(QY<>e8)?}&sZ+Dox$F!#Gei)?OB
zf|Qbwj%ac)7tiV95v_1Ai*zK;fTv(0h!skQGdaX}p3u_i{;#03+`ooEbmQ$T?aRar
zeBH{(!js>?{Ts}nzHtEl21S}&>3IQAG>}+?Nk|t(;ZpGHNh$8%VFQ1N!N14gKVVSE
zG!6y>tXnCUsLwk|N!gn*8#(+7x6<O<mq<sw-CiW4H_t(Mq4Qq&U^fLGR11I%M?tpx
zh$T*;3vAMx_w8aCzg5)3v4S7#iq^cJhRlUjNyEw$l1M4szr`+eV}N=&$sS20Tq4GL
z5r>yLHvxfYiX<Y$DiUUaRZ7iAS-+<!Zb|oGaaPHVNUq@G)E366c>C^o4|0WREmB>q
zDqU+}9Zp4)=ue051S)My#HVslGON=03mv{uW<rbYyPwsi`Of0${96!!Ii(NW0q?hE
z{2+#`*S)=L+l1($OxLle%(~}f#^ByMbR>J|EPv>%Q0Kub6s}F_7L~5h(#x~9AzM4Z
z*AC$QSxAL@6|UL(ZY<c=m2Er8x1G#&Q^V&}+f?<ii8l-`(|2bw-oe}e+!K<or{Jp1
zx(0dIpwQSPINVuBEAMCpVD<RQaiPI4)HVwq5F*-y-m|$%s`}tIWvsT|9tXEbYgN`V
z@Z2&0K5AJ<AMfbfvj!+`qn!O<U&R~905_16s&3uAh`RwBmA!bNb)oeTU|!YG)z;<l
zTs=j5)<VzCO&Q-%#`n%<P4oTs$88%m133zOLk0UqkQyx3jAH<<L}y*b)0=VhX6W86
zNA2?Y*Y7;^TOfB{6aeH!8C6P^r~rOcn+9Gq?fj{^c-z4pn7<Q=<DAk>r-E~NH_p_S
zwm-_>7H~3ZCdU{1$H>R(UeqFaK^zFh!@$LR!MPm$$P3$*IGBU_q7T$sj>);?S@66f
zhC`Ma<2YdPQ62NJM5popc$2+}*)$in!F+15?K|w2`P65)Sz<5@U}Xj<i+e2vHhsa?
zl(BUSw)Tu|P#~^iFRR)z?LSzrx|*S{3N~;dYvFAz0$nN476BZD5vUb_ZKbP8w2=U<
z0__$+S3m>M37GBXN@O%EWk$1br$Y0{&yn?jy18G$df2%d%wRFfa}TfrwEJ8ES8)ZX
z$e9Q{=2y@`?zb@b&k%g)DFJQbcbO8%Cg79=pzeK6iI=x|mFL5E6b=%5GaMvHf8(C?
zZ-mx?{u)lw(Hnj$z4iIGIsdl7ewFq3be?A^-LVBX1=z9H9eY_@vX||Wb3(#&j!N7A
z9>rArj=F@Ou`qg~H8%sFV@O*_x~3$3?=!<#Y$sVbF$njj1=^N9%G@rIbWz5wcx)<J
zKjz7CQJ<KbN`f=#;=v1XxbyQdZ(d2@mDL7#r0hISF2iD49L}FVL|FiztH{a%FM2O2
zA46CUwYAaIV%_dJ{+l$e-0?;Dm;`hu<r)g_zK%X@GtY|^`6W?{jEZQPh7TM;K?1FS
z3Zq1DN1np3CEG-_7p1Ow;Eh6w5*B7(y9e6%F1rV^sX&HG=wT5PN!sbl7+N#7R&t_s
zWDFe{TZdq)&DfeVhGq!K8P}IF^kr;)g01^O3N(Ki!%)UHB$#W~4nH^hHmlkM`xxA9
z4!A_&f<u9?H3MHqApXn_yuEJi!{@fvjA8PD>3%wM@O-9ia@{aVn)f}>Jhyd24Mvk-
z^<~<QWPC?6N3Ue)51|U9365KIRr)T+@20H@nH4;Qn|Oe2&O1N3{S%?G8u=GV=6AQg
zs@$>F{kHMRNp2Qq23~&*FYX1x<J=~^AZgNXeM5RDe!>(7N4#KAGzH;TV$iMuFdamB
zI+{<>2ZPL9I2h#cuqEHihz8JjgG>N^d)jO85fJwdrkun8#XW8u13dG&AOvE?c~UWF
zLCi(OXutwPOcmTT$#5AAF|c25U<OpSbGWxf4S4p5x+%ENlUxR|zmEa>S#i%WSjQlX
z!5?Ap3k;AYAm$fXHKJ9%I^(dc!Orp9nB!y2Vab1W6lSB*U=Z#BG-HzwEZ&j6KtREa
z!=Min(lGSD_?Y^IwkxMSsOw*w{FZ`O4%BHC)|^_UbFL-7q2RTxkrA+>c2Cmk4rh8#
z|DliXg^D1OqpNhITXjP@9lW8W-F4^Y?VGp)a(cuVD3gENh*0OC?#LD_4mnu|aVSt-
zo6{p?K*)%YiR$XjnGvEX@BzHOa(&x^u^E*`SN%YT`sW-4;8WKh)c+i`MF8d+-_o5{
zJvsE{=oh139{=Kaj>7n}<hSIVn^03N9YS-P(9tcl_=K)L;oyi+5791R<fza)DAaj{
z`etEZ2&0D%|FZjl&a|Ve5QnaU7t*oY$8vg%87OzdYI-G|Ghz(f*c~}DLNrxfm$M*b
zr94eJ8$x!<<zDlxoXb^Wtcvn9-q+si$~iFRq#C?A7edt(I8;uoOxz#hogKLvM7gP!
zt_P<+ZOYYRtd6Rw%Xtv0r@U>s280@6V4u~0TK`1LHxK2S5ap#hx^vA4wLrVMR)l=m
zt2Tt%!5{OJo_jqHoP1qxt^-k>JL>QwstX$UBz-UafZ>}4b4ZR{4`s65slQ#nrdwk_
ziQbDo82fzU;Y6l!ly@KIjfb~;G1HXFs2dO@$I#W_N-(E^_?EGLEy){Ow{;MK4z#p?
z=Xv;%N>{gIA`nqB6C`RtLK_Jv%>w~xd4en?YDEgz2w0pB5-rXLiAobfz_J-3xZ;$M
zs5B=8lqQ9MWwSzX(zFmznim2}6GOnVnIX8csUf(sxgoeWP7cX6q1g}Z`^)wK#7iiT
zF^TX9Npwf3NOp`#R7a>tbc_{gjxmYk2$fMBQAL7dOrkeJ61fp7qc)->Vk0Ec8X<|)
z2$fM9QDuZiR2iKS^+qydCQh{<DtDAo8R8{W#+XE9gd{2>RHQP-Bq}3Rq%y{eRK}P@
zWrWJ8jHn`&F(y$NA&JTel~EZ{5|t5>sEm+AWrWJ8jHogyBdUzbh<YQHG1IkuQF*kC
z$`CK1GR7n-BP3B7p(2$rCQ%uoB9$>#q%y`NDkD@zWkeOJj4_GI2uV~%sEo>plBkT3
zL}i2|DkD@zWki)x8Bt|aM${XrjF~{?VQ9+eYqI)AUf;N(_X@SXpIHT?H)E{L8oj*H
zyJ3V619rh})wcc2N>nX`9f4miv4!X0Q*UC2O!S4Wg$c97A-g3yh!0C&JPzI^l8G}E
zm3S~y34+6{M&eI`ADK&zA~q5){^X+MYGWo?>HBXE9dN}4B|ntBeRXc0L-T^zt(2$S
z?WGTVPvG|$rLV>bYe_ge)ES6JzEcH7IYj!LJ9rI#n~^hP1qZ)V1%%-Zae3z?@}Zx^
zq#_q9)+*H@x!RB~Q>-Li{z=BXkCA&PvX6Y`HU;14O0GOEl1wV;D}Hq^eerKWry)>@
z2EqD#ofRvk;a!t{t`UF2kwg0{SAzj+StKp-|G=)Aq~8D_!q^rj{Z|aom?awI4{ONs
zk-jEAf~ki|>M@Dwf188fk3lbdD)GAz<TNUk>RSV)YWq`){u8PxLpA*w<$ghRy`WlO
zP=kN2)~VFsZ=q6uORH7tKd;cL)W4)4_|`<JMqW_eFQ|bR)Vo`n=8VRX)im>(<_%5j
z3+>3CXh$;Iku9hD*7+?>9Z9U?HFX=B`v0OmyjA1LXq~?>I`3XxH#Xj?fWt-YxaH2O
ls(4jZ#?iH|>VBoZWKgw(=Jm;$Z3;nPxYa$sBv`UX{tv{*L974(

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/__pycache__/utils.cpython-312.pyc b/model_executor/layers/fused_moe/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d549eba8427d3eef31d8bfe39b3b8d2f944abdee
GIT binary patch
literal 13285
zcmd5iZEPD?a=ZLo@k10PQeT$km1WDKtdCf>EXP)yD30x%EZcGHoKx8eL2;K7Eq-}-
zCC56dQPL|y!Pi<s(u%%ZV7e_}8BP%yS0D;dAiiHcplCsg?wMIAMT$#*q<_ks5*%<S
zaGiO({E{iB$@Q*XiEn4;&6_vxy_tFQX7?YhRuctRKzGeQ)<IFf#E0Bftpe-M8Yya#
z;wX*|P$PKP1n8h<L_;e$?T8j|+JG*oA2AS|E?^8YBMgD{fr_AM#1u4-n8~vtU<q1B
ztOPa&DucEW8-bZXRnR_SCvZieI#@GO6LgF?$g?Tn4Azd+64)H53)YX+6W9`H2sVy1
z(iHEwv_B_y;m%q4no9=?&pC*zERXl;INJ|(cU7{Hty~qay)=+(Rk(9@ej8W4NgX{6
zv&Gevuk|sU<A=HtmUEV`=W6*D;9cj_G(dNoaxrlAz-2qvunCvOP4J3rTliMs+)|#V
zJXVnhq;G<LcT`Z^{_oiLR_ME#-^p(y<IBy}cag=!ZTq2qr0xHSEG)>f>vxc)<=e~)
zN2}{$;<iJ-?SH6#AFCTCt`%f){h?$jnu8tCZ^!>ZzdNDd-4zt{-2WY|p^c+qPG2r~
zmK=mWgzqArq?~5#`t}yg5nEIBrjlz1*}FMc`4#0lHo<S^)ePKj@C!X$=O*oPc3$3_
zDw65AF5vORH}L2N@3@H+>Ie;75AfN;J+X-_dp5x<GM1a|8qhTp*9%;GxxIWB^xp+L
z#Xfl6%Tt%eb8A+(14XM(!}S&IC4E<E*MTpP<dln+brB)V!QJfkPKr`E=nh9jcx;I9
zf?Ent@FDk@5T1;<FHd?xlG_(K;L^yA<tzOm>45Ag)G196dxw^5lqZf??!ni5k$vUS
z`w@-x2i*L=;9jL?|1=LBYovf|kOaRJ4gpb}FW?c!{UINS3fu~WFe)$SpF$G92%`|Z
z<8JIX;0_D!5PyXi<jUs<&$^Gk{KC-}&$&+yz95^P9X@^Jg!}CGMvi(x;q#XPAT9jX
zdo>t%NOZ2|5<G9bIQp(yKVvMS)NQ1L?Uarh?y4MSm?#xxrh#atqNo-2yy1!(e6*Cu
zU1IWJ9(Z4q=W3G7Idl<MOAc4KN3{i6a`Hb%y%Gd@%uxnv%~8X&o}#89JevTSXDmhh
zDhqsaP_!ay;k57T?&7?`HDitHh3!#Y)Jn!!8MSis#6`f{zJX6=)K<!;h`vhUU0g=3
zQR75A%&i{QA=h_R)D*2E{hB~7!?YFpt@u$`M@5ZM4UR_WD&m?8GmF?p>8KIg7g0Hi
zs#P#*%FSGE{%Pte{J9LL1YBlNMLj27jqqRm7B0|aUC<*=$ojA}&I@0l(zwh5&ZTSu
zdmIxyLARfi4IaT08slaCG%tijSr4YPw^!B^q=2%@x<J^&$@(k61<1gD;ieTQgD$&l
zk;0J);3B#sk{~<z*T66(cW5%Gn6-j7<FisF$|lkRFnmBZsq{flL~ue+LM?V@_D%|d
zN-rD3KA*@-qHHbhNtCr7uUDpD6Sk1ysC+;U*;e3*GL<68eAvc4BKV<vAEF(2up6)6
zoavE*k)DV@(j|F>F<$C=ZL<H#0~7sxPryIg6S*plheJJ6fk3b)80Po@2+VsYVQzW?
zo~yhd_V^}6o^uDoe9xrh4~X57t8%^D8=eFQr;1pZCIN%_ZSWI+3&kw;m4m8rE_N++
zCFpeZ_SqAkS5{s3&-vqY{9wAWZT5J^!6y1sj*i)rpPMY#+vnQnhvuJpU-JQThk0Py
zGkavsTK!J%V*f&a{9s}_UDNvu>)sfhvDL;q5|@__-umNIV_(X)Kc-uA)-9f2I3Isy
z*|GBC1Lrd_(<kPJOmq9v!Blf!>@-4yH^Q;gYYkg&*4?N}Y+HW)=c5lA&cud3Z*02R
zexp5caCu9rbzsGF-=1zf60>D0?enKom8~&thH=IlQ%vieHS44*_hsuTre^-as*zn|
zOxKw?CTVY5+LE&G`@7K(efNATXMZ~JFU+%9Eyc8~!xT_5lUr}uj`I`<d%?3R6DJD0
zk-{MG(xedbs#b`tAU07w=_ye6MJh^NBIwehoL3c%L*OrSN1-=q34D=qT`K1zY2aMO
zGfH_ce2E-0b3Bwg_|2Th&_?MQodkYDxqzE32N&)+X*g}p-e>d@Dl54zmGdL|oQD8P
zv?y{#bv_!8AFu;JzmM-Ls)=ei-6S2=zpuZm?ol+fI}2XMV*xK?LPI%%YRrOLVPS1X
zd4ZL}@DKaA$a+N4KNjLSMDZT)IIFB#w}~`-0h~>cm%u&_lIJcUQyd7}PPWkQbHF4l
zxDK)kz=Cgx_(Nj~FVY8c_DdpZAMlG38}_N4h}|mFM>K|Q2e$@HPbuOSTCn~QjKeRo
z;O{1K%?mDsZ9g56{Na!%aG_YdSAZ2e$Vx=kf{4WX0Y}d7<rVpSLO4j~X)F*P^#oKo
zSux`A@;DBhLZaHGH6S0>C~}Z7MPT9r0Y1Qr;~s%iXY)m30P0lc#ev2mL^8NErDoH~
z5*MzDeZl_<J01>jBI!z5N75B`{^(kwJbtOLoTvuVPn-kn1TTa@FmQJw+qDNrCGZh}
z7kN+-e`v}R@S`#)s|=fxf#auOegxD=KLrMJ%B3lIf7qe0Lau<AN>L<PPi9`$^TCL8
zRlxLw(1Ik|pg$z*L2y1Gp!LYM5dWIwj)Wofa)*8HUgA|<1_3i7!jo7KzhPIG7w1PA
zsH__k{2bYRM6`As8_NoP$h2-Vmwgm!pN60K9u%`wb_Zo~Tt7T__@TLV)!drYolovO
zpN7)hx>mpSrul|BQ_+}s{`Toxr~kh1<3k@E`bw*5FeG)(EJIng&OWzhcg(-M`0B!|
zY3I&_l(u)y4z1bi9@=-M?7NmsY5U&Uq0e<qaV~y7rQ4ZdsxnLi`LDWOIairx>N8Ar
zrmkhlk*w>=)NK9Q#^?=M2XId6nuLCkP<R3gnV#zQVyKY2^8WHGz!XQG(R`E%{-W5!
zsx5QAX`&HkVBZiGrQZerS%_Z>?E$X=9(m80>zbml#pAgHh4wur*Vmi020eOl<h(%|
zPFGHX#<IRTO8+?pUQIteOSJy%xZn>>D7NaK;=wB@#_b7lEV!V+)uO5?KYs=F+%I*r
z>^bxve#P8z%U2A5SRk>P5O}*F&-pzP&*ozS)(ftYSN+wrhHanLyV!xJSebU6a_I$}
zaA6P%2)D*P5neXJDMSK^WF7Vm27{|99D_o{<;*Fo)eUwBw(lnFg<+@~LmCkZh$>8!
zrD~qO)<5rA99tNB+rMhwmZda$L&j{0wZ>k2M>l`wZDZ_eTp#z`9J?_V|D(j{lKq3a
zJ9T#(mdwk0l1$&a7RZy(%s^Ro#r9l(a_-4%hvu*T#1Z$rTbDGqJT$kZ%xz0_(%g~M
zbr8jq=|R~z=oVrB=4B_Ewa+bH@lQ_&AUuLtDLg5aY~i@^;`rB_p(s&FP_n4z{e0LB
zi>EnthZar)oq(abODmj2_!Jh16_HQgl5OtLRPhN;coFH43_XrAJ*^q0BG#Ymcp9wJ
zVjz>F48n>hPLEeoJceu@1+P8fCX3@OR_(m>Iwb(n&TcEHWVyftHsz90U4-?Vp=Q7^
zqLB4EOGPz;W{4^dNTS-iz#A`4gGUjO)JL_P7RLd19o}d35Mbm@1-R*RK}4<x35}mz
zU{vNDT)1=jV4~1AN<W^mNFG&wmti_W4D1D7@P&mS3rB929MApJ9^6`4_*V=iGAW5*
zP~Y>h9=2$HNo%k%II~RoIiBkz<e)Y{&tCBd0_-TS(DSe{!g8}NTCN9EbQiJ&exIAW
z8uA4F-Y?Kz$Z<*7iV*lO2yJ97WF+J&qNE%qAe3{ytPSuX0oPPL388V_F%+rUS*$w;
zg-p9;qayXhBb$h|z!De;ZlI6CPy8z=VC!%|Y@9SUer2F)8y-4cDW@xAvBs_}Zv`!^
zHO-k~bgUnpxivNxI|y6GmsZNrl4RJVja{=<&mT(Lwk7tg+IA$F9ZB1cjFU~+7hX+V
zShnAKHP#=a*PPu;mzQ^?od*?GYqpyC!Np?>$Kt(j4<(FgTl>=S4~FjyuT-Zy2UcwZ
zNoF8v8~6;Ig3=wafbv@YUoZd&v$eBZqMAoSXjMybtT~O%>E0vSjh0HTZ=v0|E=rqn
z+Fhjkm-3pPYk>#&oJ=L!{aDJf+I^X*Tu!?&5%v34@9DmBy}%A7PDUbOK@t^fV8a6I
z9ruJFIP1FN7kS}4jDDl$>jj)AVFU{deTbe57Z8H%3H693SGuw9d=^ab0MTC};VmdY
zm75e*{>0XlWL`=(zm#TPip{J!T}v%#XQ!&kRlkEK_bk)P{b}c+-$9e*ni5~GjHN`q
zQ5o^K4&Ifh_Zx}}E~C&hpxhjVj`|LLO28xG9bJ)o7zG4z4<c?7=$n+N(&i?)$-+GP
zp!y#C#GO#UJX$CV?5E91T{D!haaT0O2h&XR>>!#Y7wexr^{7?m#m3+Otdds5&g~#k
z?dHQcO9>n_5-@Wo@K9`!*FognkSi6&f$(QY+zo{ybWQB(q^>dc^e49MN!|9Od3(lO
zn;*xTxjBA0ZEi{GS{{`iCx}dXCjjVE9+j4(i&BsIiFavF$&4?u-_7q0_CgNKtR{gm
z6DHs>eDeV*Z3?RZ=}79I;J3aDibqz#LRMkv-~(p=W7pw-VI;l5y}|^F{*CejWkLSS
z(BxmSSqKXf_6GnWVHbuzWPi&?UtTo$+=Vci{$bE^n0}3vtD(w;E$9k`%0iZegfZHv
z?k)}<E(~0XI28A!5Kt<Iyu&TW0dlxXKl$*4Q0WVq6zqr7s#Hb!6bPy|NW<w=s(hxU
zY>#@CDxYU5OJz{0YSh7iGCtB{E&wu~f>SC+p28WRmi5H)mD>T?gineZ=3!V;mq|E`
z#8w~VUcukuI|^Tj1P-zeJuq>+N(76pgP5X#>MNiQz@hgf!Xy$#4G{8<NFWg}t_OOf
zoIh%SJf&MX$mg{QJUv8M!ViG-KjA0-GZbJGRp8;@;UCtzQnjvCqifC96hD(NCS3z7
z6KUH}k{QZWIDVqPX}V!rt=PV1+Zy*I>XIE#t^6QuJCS5gKyBQ(TCr`-2EHJ%D>?Z6
z2e$J`=KMzd?!))ZY1?p;8P3%}cvQ6`F_^fLeB#Lc3u)V#By$GqEUOhe)@-f+<C@QG
zRr9-I(@Ca*ScpsqWv!okt>j#sccuRUgDyUVl(U6Gcq6=A{-j$jhp6iI)6gPs1JIdz
z71>VtOrp9MMQKi}yyPs$rMxs?J!)&P9?;Sp2RKmarVo&CW{?Hn8Jv`q2p!(dN&XNd
ztj0YMafgKo5rcLN<k82fr&uMNt_S(MLH&sK+TpZE6c`eCke30yRgyc5U*dxpN((1|
zT-HybM#G^NV`5<jijqTZ1qq%}9^p->GlT4+2LL#+F%)BcXlzayL6;sFTN0kzW4Fd0
zw(U=~?O$nGZ99~)Rb8K&oBGMon<s9Zh)rRnTeIX{s!!Q^AKLm;w*D2*$73IjC2jp_
z+p#2b3{|6M-aB7E_k$$UsHlg5I8D*3P8oDeQF&+iV|V~(NxktrOm#5@A)~0f>RnxI
z2T-AEZMZlZQqLL%i2(&JOIbQhq~xRC0uwI3pru@3XDmA8Xh}waOgRbgT(s~fz(Yi_
z)v%;C1Sd2|*g*zC8MSi475)@RoIocI129WvjMk*FA!D{*ADA1sb~t`!)!dwMZdtsr
za3Nt&45poJv16DasGdCu8U5NOQc<1w{_P95E-Y97wL9(XiyedJvnQ23$^~3Y%nxHy
zvKg76Q!>A^Fmga{ykK5o-h|8L=PN(^<eV%FeADdBP=yooC5+`ZT#B(2UOJXr3os`Q
ztcSYF`PD45YCx$6iSk=pp|ir-q?8Z5==%a0D~pN>11DWA=MUyiu{uaS2aA?ju|i14
z@*W8TcU}nao+(~gehpcE0Vlu2-kJ+aFzS&YO~sWe!!>BojLLwP3L63#VI`<T+;?;0
z#>CR#kHecN#@nyPj;%QxA38fz&d#OpFJHLtdEk8hq4Q+Qc`{SA1$Ge{(o40KpgR!#
zqVDK(y0c|zbh+)r-S>8{jQ+GI?R++N?6bV~$h1c`dK3{$qWHWLttm=G&(c>RS`gde
zxY`DZ48U%@@(M%Z4zU{Zn&mwHyLrQYlkgP$<>@%`SsN^}YTU*BDRm@{sNSSCd26G%
z4zYhTSrk5)DScc&P_KJjFHo<4&yX8G8I^WcNi01^`r`Pn>=>2zPFjxKbI!@9nb|~^
zD2dU;+ResFMyY$3dQV#{DZc+Exg4D3X&w92Q|z>!#l$V#;9(CW1_z-^_#PJc+6+>x
zKSKD=uo%UHq;ME~GvJkYPDFDp3Xhy_@)`qDxVaD-v$DcGP<5jv{00DWTwrXouV<Lb
ze=|2H4kcUn!z<V8GjlW7UQe{F+FFxL|B~?o>m6(2^)v&!PwOWYO)5qFObT;2xBGAP
zFYUQ?aMjkeyz9fRdtLYGRPVF*J*&OPAs1O;DyB|WvI$+{%<c2H&M%$0HIf)!)-R8J
z7`zv}KbYEoEZKMb{$$c}5-h61l(ZdB0tbew+LE-jC7CuTGY;qC@rC2@!G)o}DPps{
zW#!Dh<}~|EvSu*GsQo3FRa-kmc1!0!c;(J3OQ%=%-Dg&&lO028W+-KASN2I0WJmo|
zBw#4nD{)bXFSh`Iz8t<=0*GX9WurS3b_XW|cfgYg3xF=!jS3vySK!?fL?K8k`~}b*
z!D+{MA9f?NGhUG@I#mKTe__w0cMMF51G&OyG(?hVZEyFJ0*3R#J6Mpj6L|q-<NTs$
zG{9px9Dvt$!XnfU6}tc2ygkvEHoKBKm(q%ZddN(lbM2Qae3K!s6b=VO{1!tRR}%Zg
zE9>yn0YQg-;rDQIKR$PteoD}-d`i$=oG$HFz9zsFC4oqGQa<qQT4TJWHpftg<bdQS
zza0-HfuYEN0ql2azh4!?{2klp27!to+ll<jhg&M&N*o-X_hcujROc@LMVEl5yplRx
zCABd+3c0qZ9eEF_Rywd!d&w`!72a@2l)!Tc<b9)TP+nZanF7Myqe!NgCL;l!yp54{
zqo57s+y<Z3z{_iLq*D%aWzKO*xU2;-attH!FA2tkYrvTJA7Tx%UU}hzs<}~rnE_C$
z$pC*?_*<w2y`{uofZAoXG)=D?DBAuh<@_aO`FE=IYmJ81{Mw+UHD5CTeQn4UzXmeb
zr___5Qf;472O+Z4FmE-!(U{dV(MM?5tl=w?;f3L>l{{8b_L@b@g5_5>d|cO38jDJJ
zcqhFzQ(1F8Fc-*b5$@?#?#~?k2g}baKbKO^oF$0Q^rp8izHxC~4@B7)XolWB|I*^c
zg^O7Vzy!Z^WVvSP`CDP~xU%!(&W}3Ru_jw<qzxIP<*n!&(X1BW&#cwgFV0<zKbNwy
zSv?>?^d>fIM2Mjb=2#yFuyN<jrW;L3^UjpMZM_2Pny8(wFDvTk+B`FWOPK)zm^tdR
zMuZrux^~{X&=5bDvbSWhW!6-lzZvTW2><#b{s5Qq2ZYKWp$+^IwHbe`J52an>6*O!
z0GILy1n_Tc&KeQgz#maX{2fX2)|9?^-HiBl!n=arp63m4DQ`fiyb;>K8&O5Pi|5{q
zbu8guStL8arThV*@<(U`e?%4W&&!VZj^88iPT-x{-u9)nfo{xC4Zx+M0|G>^u8r&Q
zi-459HQ`O!U0EaI8C;GEgiIysWJZ()6&HDDD>o?Ck}lQInKXB%^j+&VBsgHCx6C^i
zn--d~6o84Nw})>H6L9&Z4=>)kxQ^JY!$4Oj`fd;08d%<uYTciu;CZF*<AIL`e!e4h
z=+rtsXREDrb;e@9K0G%Z-<Ps%%W47fncb1q!yN`<Fr%H$KbO+iuY)30XW44{1f3r~
zK9r6hG3we8aKqve9IT#c-Aup^n%<revlQHx#C5#E@HOVQw!N_}tD)(RxZ_uV>_8`D
K{}K^o2mWu-&b283

literal 0
HcmV?d00001

diff --git a/model_executor/layers/fused_moe/all2all_utils.py b/model_executor/layers/fused_moe/all2all_utils.py
new file mode 100644
index 0000000..2dd6250
--- /dev/null
+++ b/model_executor/layers/fused_moe/all2all_utils.py
@@ -0,0 +1,160 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.distributed import (
+    get_ep_group,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEParallelConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import has_deep_ep, has_pplx
+
+if current_platform.is_cuda_alike():
+    if has_pplx():
+        from .pplx_prepare_finalize import (
+            PplxPrepareAndFinalize,
+            pplx_hidden_dim_scale_bytes,
+        )
+    if has_deep_ep():
+        from .deepep_ht_prepare_finalize import DeepEPHTPrepareAndFinalize
+        from .deepep_ll_prepare_finalize import (
+            DEEPEP_QUANT_BLOCK_SHAPE,
+            DeepEPLLPrepareAndFinalize,
+        )
+
+
+def maybe_roundup_layer_hidden_size(
+    hidden_size: int,
+    act_dtype: torch.dtype,
+    moe_parallel_config: FusedMoEParallelConfig,
+) -> int:
+    """
+    Given layer hidden size and MoE configurations, round up hidden_size
+    if necessary.
+
+    Args:
+        hidden_size: Layer hidden-size
+        act_dtype: Data type of the layer activations.
+        moe_parallel_config: Fused MoE parallelization strategy configuration.
+
+    Return:
+        Rounded up hidden_size if rounding up is required based on the configs
+        and all2all backend.
+        Original hidden size otherwise.
+    """
+    if moe_parallel_config.use_deepep_ht_kernels:
+        hidden_size = DeepEPHTPrepareAndFinalize.maybe_roundup_layer_hidden_size(
+            hidden_size, act_dtype
+        )
+
+    if moe_parallel_config.use_deepep_ll_kernels:
+        hidden_size = DeepEPLLPrepareAndFinalize.maybe_roundup_layer_hidden_size(
+            hidden_size
+        )
+
+    return hidden_size
+
+
+def maybe_make_prepare_finalize(
+    moe: FusedMoEConfig,
+    quant_config: FusedMoEQuantConfig | None,
+) -> FusedMoEPrepareAndFinalize | None:
+    if not moe.moe_parallel_config.use_all2all_kernels:
+        return None
+
+    all2all_manager = get_ep_group().device_communicator.all2all_manager
+    assert all2all_manager is not None
+
+    prepare_finalize: FusedMoEPrepareAndFinalize | None = None
+
+    # TODO: could allow this now
+    assert not moe.use_flashinfer_cutlass_kernels, "Must be created in modelopt.py"
+
+    if moe.use_pplx_kernels:
+        assert quant_config is not None
+
+        hidden_dim_bytes, hidden_scale_bytes = pplx_hidden_dim_scale_bytes(
+            moe.max_num_tokens,
+            moe.hidden_dim,
+            moe.in_dtype,
+            quant_config.quant_dtype,
+            per_act_token_quant=quant_config.per_act_token_quant,
+            block_shape=quant_config.block_shape,
+        )
+
+        all_to_all_args = dict(
+            max_num_tokens=moe.max_num_tokens,
+            num_experts=moe.num_experts,
+            experts_per_token=moe.experts_per_token,  # topk
+            rank=all2all_manager.rank,
+            world_size=all2all_manager.world_size,
+            # dp_size actually means tp_size, bug in pplx kernels
+            dp_size=all2all_manager.tp_group.world_size,
+            hidden_dim=moe.hidden_dim,
+            hidden_dim_bytes=hidden_dim_bytes,
+            hidden_dim_scale_bytes=hidden_scale_bytes,
+        )
+
+        num_dispatchers = (
+            all2all_manager.world_size // all2all_manager.tp_group.world_size
+        )
+
+        # Intranode pplx a2a takes a group name while internode does not.
+        if not all2all_manager.internode:
+            all_to_all_args["group_name"] = all2all_manager.cpu_group.group_name
+
+        handle = all2all_manager.get_handle(all_to_all_args)
+
+        prepare_finalize = PplxPrepareAndFinalize(
+            handle,
+            max_num_tokens=moe.max_num_tokens,
+            num_local_experts=moe.num_local_experts,
+            num_dispatchers=num_dispatchers,
+        )
+    elif moe.use_deepep_ht_kernels:
+        assert moe.dp_size == all2all_manager.dp_world_size
+
+        all_to_all_args = dict()
+        handle = all2all_manager.get_handle(all_to_all_args)
+        prepare_finalize = DeepEPHTPrepareAndFinalize(
+            handle,
+            num_dispatchers=all2all_manager.world_size,
+            dp_size=all2all_manager.dp_world_size,
+            rank_expert_offset=all2all_manager.rank * moe.num_local_experts,
+        )
+
+    elif moe.use_deepep_ll_kernels:
+        assert quant_config is not None
+        all_to_all_args = dict(
+            max_num_tokens_per_dp_rank=moe.max_num_tokens,
+            token_hidden_size=moe.hidden_dim,
+            num_ep_ranks=all2all_manager.world_size,
+            num_global_experts=moe.num_experts,
+            num_local_experts=moe.num_experts // all2all_manager.world_size,
+        )
+        handle = all2all_manager.get_handle(all_to_all_args)
+
+        # Note: We may want to use FP8 dispatch just to reduce
+        # data movement.
+        use_fp8_dispatch = (
+            quant_config.quant_dtype == current_platform.fp8_dtype()
+            and quant_config.block_shape == DEEPEP_QUANT_BLOCK_SHAPE
+        )
+
+        prepare_finalize = DeepEPLLPrepareAndFinalize(
+            handle,
+            max_tokens_per_rank=moe.max_num_tokens,
+            num_dispatchers=all2all_manager.world_size,
+            use_fp8_dispatch=use_fp8_dispatch,
+        )
+
+    return prepare_finalize
diff --git a/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
new file mode 100644
index 0000000..5336227
--- /dev/null
+++ b/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -0,0 +1,406 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.forward_context import get_forward_context, is_forward_context_available
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+)
+from vllm.model_executor.layers.fused_moe.utils import _resize_cache
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+from vllm.utils.deep_gemm import (
+    DeepGemmQuantScaleFMT,
+    fp8_m_grouped_gemm_nt_masked,
+    get_mk_alignment_for_contiguous_layout,
+    is_deep_gemm_e8m0_used,
+)
+from vllm.utils.math_utils import cdiv, round_up
+
+logger = init_logger(__name__)
+
+
+def scales_shape_stride_dtype(
+    E: int, T: int, G: int, quant_scale_fmt: DeepGemmQuantScaleFMT
+) -> tuple[tuple[int, ...], tuple[int, ...], torch.dtype]:
+    shape = (E, T, G)
+    strides = (T * G, 1, T)
+    if quant_scale_fmt in [
+        DeepGemmQuantScaleFMT.FLOAT32,
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+    ]:
+        return shape, strides, torch.float32
+
+    assert quant_scale_fmt == DeepGemmQuantScaleFMT.UE8M0
+    shape = (E, T, cdiv(G, 4))
+    strides = (T * cdiv(G, 4), 1, T)
+    return shape, strides, torch.int32
+
+
+@triton.jit
+def _silu_mul_fp8_quant_deep_gemm(
+    # Pointers ------------------------------------------------------------
+    input_ptr,  # 16-bit activations (E, T, 2*H)
+    y_q_ptr,  # fp8 quantized activations (E, T, H)
+    y_s_ptr,  # 16-bit scales (E, T, G)
+    counts_ptr,  # int32 num tokens per expert (E)
+    # Sizes ---------------------------------------------------------------
+    H: tl.constexpr,  # hidden dimension (per output)
+    GROUP_SIZE: tl.constexpr,  # elements per group (usually 128)
+    # Strides for input (elements) ---------------------------------------
+    stride_i_e,
+    stride_i_t,
+    stride_i_h,
+    # Strides for y_q (elements) -----------------------------------------
+    stride_yq_e,
+    stride_yq_t,
+    stride_yq_h,
+    # Strides for y_s (elements) -----------------------------------------
+    stride_ys_e,
+    stride_ys_t,
+    stride_ys_g,
+    # Stride for counts (elements)
+    stride_counts_e,
+    # Numeric params ------------------------------------------------------
+    eps: tl.constexpr,
+    fp8_min: tl.constexpr,
+    fp8_max: tl.constexpr,
+    ceil_ue8m0: tl.constexpr,
+    # Meta ---------------------------------------------------------------
+    BLOCK: tl.constexpr,
+    NUM_STAGES: tl.constexpr,
+):
+    G = H // GROUP_SIZE
+
+    # map program id -> (e, g)
+    pid = tl.program_id(0)
+    e = pid // G
+    g = pid % G
+
+    e = e.to(tl.int64)
+    g = g.to(tl.int64)
+
+    # number of valid tokens for this expert
+    n_tokens = tl.load(counts_ptr + e * stride_counts_e).to(tl.int64)
+
+    cols = tl.arange(0, BLOCK).to(tl.int64)
+    mask = cols < BLOCK
+
+    base_input_offset = e * stride_i_e + g * GROUP_SIZE * stride_i_h
+    base_gate_offset = base_input_offset + cols * stride_i_h
+    base_up_offset = base_input_offset + H * stride_i_h + cols * stride_i_h
+    base_yq_offset = e * stride_yq_e + g * GROUP_SIZE * stride_yq_h + cols * stride_yq_h
+    base_ys_offset = e * stride_ys_e + g * stride_ys_g
+
+    for t in tl.range(0, n_tokens, num_stages=NUM_STAGES):
+        gate = tl.load(
+            input_ptr + base_gate_offset + t * stride_i_t, mask=mask, other=0.0
+        ).to(tl.float32)
+        up = tl.load(input_ptr + base_up_offset + t * stride_i_t, mask=mask, other=0.0)
+
+        gate = gate * (1.0 / (1.0 + tl.exp(-gate)))
+        y = gate * up
+
+        y_s = tl.maximum(tl.max(tl.abs(y)), eps) / fp8_max
+        if ceil_ue8m0:
+            y_s = tl.exp2(tl.ceil(tl.log2(y_s)))
+
+        y_q = tl.clamp(y / y_s, fp8_min, fp8_max).to(y_q_ptr.dtype.element_ty)
+
+        tl.store(y_q_ptr + base_yq_offset + t * stride_yq_t, y_q, mask=mask)
+        tl.store(y_s_ptr + base_ys_offset + t * stride_ys_t, y_s)
+
+
+def persistent_masked_m_silu_mul_quant(
+    y: torch.Tensor,  # (E, T, 2*H)
+    tokens_per_expert: torch.Tensor,  # (E,) number of valid tokens per expert
+    num_parallel_tokens=16,
+    group_size: int = 128,
+    quant_scale_fmt: DeepGemmQuantScaleFMT = DeepGemmQuantScaleFMT.FLOAT32,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize silu(y[..., :H]) * y[..., H:] to FP8 with group per-token scales
+    y has shape (E, T, 2*H). The first half of the last dimension is
+    silu-activated, multiplied by the second half, then quantized into FP8.
+    We launch a fixed grid of threads to accommodate CUDA graphs. Let `P2`
+    be a parallelization factor for persistent_masked_m_silu_mul_quant over the
+    hidden dimension.
+
+    Let `expert_offsets = [0] + [num_tokens.cumsum()]` and
+    `total_tokens = expert_offsets[-1]`.
+    persistent_masked_m_silu_mul_quant launches `total_tokens x P2` number of
+    thread blocks. Each thread block contains `NUM_WARPS` warps.
+
+    Every thread block needs to find it's corresponding expert by warp-parallel scanning
+    over the `expert_offsets` array.
+
+    The i-th warp in the first thread block processes
+    `[i * warp_chunk_size, (i + 1) * warp_chunk_size]` groups
+    sequentially, where `warp_chunk_size = ((H / GROUP_SIZE) / P2) / NUM_WARPS`,
+    pipelining loads and computes.
+
+    The shared memory layout for 4 warps with a 2-stage pipeline for SiLU V2
+    can is visualized like so:
+
+                         stage0                              stage1
+    ┌─────┬───┬─────┬───┬─────┬───┬─────┬───┬─────┬───┬─────┬───┬─────┬───┬─────┬───┐
+    │gate0│up0│gate1│up1│gate2│up2│gate3│up3│gate0│up0│gate1│up1│gate2│up2│gate3│up3│
+    └─────┴───┴─────┴───┴─────┴───┴─────┴───┴─────┴───┴─────┴───┴─────┴───┴─────┴───┘
+
+    with the main difference between V1 and V2 being the global load
+    stride between warps, and between half-warps. Regarding the latter stride,
+    we assign the first half warp of every warp for `gate` loads and the second
+    half-warp to `up` loads.
+
+    Returns `(y_q, y_s)` where
+    * `y_q`: FP8 tensor, shape (E, T, H), same layout as y[..., :H]
+    * `y_s` depends on quant_scale_fmt,
+      - quant_scale_fmt == FLOAT32,
+         `y_s`: FP32 tensor, shape (E, T, H // group_size), strides (T*G, 1, T)
+      - quant_scale_fmt == E8M0,
+         `y_s`: Int32 tensor, shape (E, T, H // group_size // 4), strides (T*G, 1, T)
+      - quant_scale_fmt == E8M0_FLOAT32_SPARSE
+         `y_s`: FP32 tensor, shape (E, T, H // group_size), strides (T*G, 1, T)
+    Let NUM_WARPS be the number of warps in a single thread block and
+    `GROUP_SIZE = 128` be the size of the quantization group.
+    """
+    assert y.ndim == 3, "y must be (E, T, 2*H)"
+    E, T, H2 = y.shape
+    assert H2 % 2 == 0, "last dim of y must be even (2*H)"
+    H = H2 // 2
+    G = (H + group_size - 1) // group_size
+    assert H % 8 == 0, "H must be divisible by 8"
+    assert group_size == 128, "H must be divisible by 8"
+    assert tokens_per_expert.ndim == 1 and tokens_per_expert.shape[0] == E
+
+    tokens_per_expert = tokens_per_expert.to(device=y.device, dtype=torch.int32)
+
+    fp8_dtype = torch.float8_e4m3fn
+    y_q = torch.empty((E, T, H), dtype=fp8_dtype, device=y.device)
+
+    ys_shape, ys_strides, ys_dtype = scales_shape_stride_dtype(E, T, G, quant_scale_fmt)
+    y_s = torch.empty_strided(
+        ys_shape,
+        ys_strides,
+        dtype=ys_dtype,
+        device=y.device,
+    )
+
+    ceil_ue8m0 = quant_scale_fmt in [
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+        DeepGemmQuantScaleFMT.UE8M0,
+    ]
+
+    cuda_arch = current_platform.get_device_capability(
+        device_id=y.device.index
+    ).to_int()
+
+    if cuda_arch >= 80:
+        torch.ops._C.persistent_masked_m_silu_mul_quant(
+            y, tokens_per_expert, y_q, y_s, ceil_ue8m0
+        )
+    else:
+        stride_cnt_e = tokens_per_expert.stride()[0]
+
+        # Static grid over experts and H-groups.
+        # A loop inside the kernel handles the token dim
+        grid = (E * G,)
+        # strides (elements)
+        stride_i_e, stride_i_t, stride_i_h = y.stride()
+        stride_yq_e, stride_yq_t, stride_yq_h = y_q.stride()
+
+        f_info = torch.finfo(fp8_dtype)
+        fp8_max = f_info.max
+        fp8_min = f_info.min
+        eps: float = 1e-10
+        assert y_s.dtype == torch.float32, (
+            "_silu_mul_fp8_quant_deep_gemm does"
+            "not support {y_s.dtype} scales. Only torch.float32 supported."
+        )
+        _silu_mul_fp8_quant_deep_gemm[grid](
+            y,
+            y_q,
+            y_s,
+            tokens_per_expert,
+            H,
+            group_size,
+            stride_i_e,
+            stride_i_t,
+            stride_i_h,
+            stride_yq_e,
+            stride_yq_t,
+            stride_yq_h,
+            ys_strides[0],
+            ys_strides[1],
+            ys_strides[2],
+            stride_cnt_e,
+            eps,
+            fp8_min,
+            fp8_max,
+            ceil_ue8m0,
+            BLOCK=group_size,
+            NUM_STAGES=4,
+            num_warps=1,
+        )
+
+    return y_q, y_s
+
+
+class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_dispatchers: int,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        """
+        max_num_tokens: Maximum number of tokens from a DP Rank
+        num_dispatchers: The number of DP dispatchers.
+        quant_config: Quantization configuration
+        """
+        super().__init__(quant_config)
+        assert self.block_shape == get_mk_alignment_for_contiguous_layout()
+        assert self.quant_config.use_fp8_w8a8
+        self.max_num_tokens = max_num_tokens
+        self.num_dispatchers = num_dispatchers
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.BatchedExperts,
+            mk.FusedMoEActivationFormat.BatchedExperts,
+        )
+
+    def supports_chunking(self) -> bool:
+        return False
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def supports_packed_ue8m0_act_scales(self) -> bool:
+        """
+        DeepGemm supports packed ue8m0 activation scales format in devices == sm100
+        """
+        return is_deep_gemm_e8m0_used() and current_platform.is_device_capability(100)
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # Let PrepareAndFinalize::finalize() decide the impl.
+        return TopKWeightAndReduceDelegate()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # FIXME (varun): We should be able to dispatch only from the leader
+        # DP ranks in the case of TP > 1. At the moment, all the Ranks
+        # end up sending their tokens. This needs to be fixed.
+        num_dispatchers = self.num_dispatchers
+        num_experts = local_num_experts
+        max_num_tokens = M if self.max_num_tokens is None else self.max_num_tokens
+        workspace13 = (num_experts, max_num_tokens * num_dispatchers, max(K, N))
+        workspace2 = (num_experts, max_num_tokens * num_dispatchers, (N // 2))
+        output = (num_experts, max_num_tokens * num_dispatchers, K)
+        return (workspace13, workspace2, output)
+
+    def estimate_expected_m(
+        self, global_num_experts: int, max_tokens_per_expert: int, topk: int
+    ) -> int:
+        dp_meta = (
+            get_forward_context().dp_metadata
+            if is_forward_context_available()
+            else None
+        )
+        if dp_meta is None:
+            logger.warning_once(
+                "DPMetadata unavailable. Defaulting expected_m to "
+                f"{max_tokens_per_expert}.",
+                scope="local",
+            )
+            return max_tokens_per_expert
+
+        total_num_tokens = dp_meta.num_tokens_across_dp_cpu.sum().item()
+        total_num_tokens_replicated = total_num_tokens * topk
+
+        # Assume even load balancing
+        assert global_num_experts != 0
+        estimate = round_up(int(total_num_tokens_replicated // global_num_experts), 16)
+        # clamp estimate
+        estimate = max(estimate, 16)
+        estimate = min(max_tokens_per_expert, estimate)
+        return estimate
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert expert_tokens_meta is not None
+        expert_num_tokens = expert_tokens_meta.expert_num_tokens
+
+        assert hidden_states.ndim == 3
+        assert self.block_shape is not None
+
+        a1q = hidden_states
+        _, N, K = w1.size()
+
+        assert w2.size(1) == K
+
+        E, max_num_tokens, N, K, _ = self.moe_problem_size(
+            hidden_states, w1, w2, topk_ids
+        )
+
+        workspace1 = _resize_cache(workspace13, (E, max_num_tokens, N))
+
+        expected_m = self.estimate_expected_m(
+            global_num_experts=global_num_experts,
+            max_tokens_per_expert=max_num_tokens,
+            topk=topk_ids.size(-1),
+        )
+
+        fp8_m_grouped_gemm_nt_masked(
+            (a1q, a1q_scale),
+            (w1, self.w1_scale),
+            workspace1,
+            expert_num_tokens,
+            expected_m,
+        )
+
+        quant_scale_fmt = DeepGemmQuantScaleFMT.from_oracle()
+        a2q, a2q_scale = persistent_masked_m_silu_mul_quant(
+            workspace1,
+            expert_num_tokens,
+            quant_scale_fmt=quant_scale_fmt,
+        )
+
+        fp8_m_grouped_gemm_nt_masked(
+            (a2q, a2q_scale),
+            (w2, self.w2_scale),
+            output,
+            expert_num_tokens,
+            expected_m,
+        )
diff --git a/model_executor/layers/fused_moe/batched_triton_or_deep_gemm_moe.py b/model_executor/layers/fused_moe/batched_triton_or_deep_gemm_moe.py
new file mode 100644
index 0000000..e69e9fd
--- /dev/null
+++ b/model_executor/layers/fused_moe/batched_triton_or_deep_gemm_moe.py
@@ -0,0 +1,180 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe import (
+    BatchedDeepGemmExperts,
+)
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.fused_batched_moe import BatchedTritonExperts
+from vllm.utils.deep_gemm import get_mk_alignment_for_contiguous_layout
+
+
+class BatchedTritonOrDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_dispatchers: int,
+        quant_config: FusedMoEQuantConfig,
+        allow_deep_gemm: bool = False,
+    ):
+        super().__init__(quant_config)
+
+        self.batched_triton_experts = BatchedTritonExperts(
+            max_num_tokens=max_num_tokens,
+            num_dispatchers=num_dispatchers,
+            quant_config=self.quant_config,
+        )
+
+        self.allow_deep_gemm = (
+            allow_deep_gemm
+            and self.quant_config.use_fp8_w8a8
+            and self.block_shape == get_mk_alignment_for_contiguous_layout()
+        )
+
+        self.batched_deep_gemm_experts = (
+            BatchedDeepGemmExperts(
+                max_num_tokens=max_num_tokens,
+                num_dispatchers=num_dispatchers,
+                quant_config=self.quant_config,
+            )
+            if self.allow_deep_gemm
+            else None
+        )
+
+        assert (
+            self.batched_deep_gemm_experts is not None
+            or self.batched_triton_experts is not None
+        )
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        if self.batched_triton_experts is not None:
+            assert (
+                self.batched_deep_gemm_experts is None
+                or self.batched_deep_gemm_experts.activation_formats
+                == self.batched_triton_experts.activation_formats
+            )
+            return self.batched_triton_experts.activation_formats
+        else:
+            assert self.batched_deep_gemm_experts is not None
+            return self.batched_deep_gemm_experts.activation_formats
+
+    def supports_chunking(self) -> bool:
+        bdge = self.batched_deep_gemm_experts
+        bte = self.batched_triton_experts
+        return (bdge is None or bdge.supports_chunking()) and (
+            bte is None or bte.supports_chunking()
+        )
+
+    def supports_expert_map(self) -> bool:
+        bdge = self.batched_deep_gemm_experts
+        bte = self.batched_triton_experts
+        return (bdge is None or bdge.supports_expert_map()) and (
+            bte is None or bte.supports_expert_map()
+        )
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        bdge = self.batched_deep_gemm_experts
+        bte = self.batched_triton_experts
+        bdge_war = bdge.finalize_weight_and_reduce_impl() if bdge else None
+        bte_war = bte.finalize_weight_and_reduce_impl() if bte else None
+        is_bdge_war = bdge_war is not None
+        is_bte_war = bte_war is not None
+
+        if is_bdge_war and is_bte_war:
+            assert bdge_war == bte_war, (
+                "Both implementations should agree on WeightAndReduce impls. "
+                f"Got bdge_war: {bdge_war}, and bte_war: {bte_war}"
+            )
+
+        if bdge_war is not None:
+            return bdge_war
+
+        assert bte_war is not None
+        return bte_war
+
+    def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
+        return act_dtype
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_metadata: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # Note: the deep gemm workspaces are strictly larger than the triton
+        # workspaces so we can be pessimistic here and allocate for DeepGemm
+        # even if we fall back to triton later, e.g. if expert maps are set.
+        if self.allow_deep_gemm:
+            assert self.batched_deep_gemm_experts is not None
+            return self.batched_deep_gemm_experts.workspace_shapes(
+                M,
+                N,
+                K,
+                topk,
+                global_num_experts,
+                local_num_experts,
+                expert_tokens_metadata,
+            )
+        else:
+            assert self.batched_triton_experts is not None
+            return self.batched_triton_experts.workspace_shapes(
+                M,
+                N,
+                K,
+                topk,
+                global_num_experts,
+                local_num_experts,
+                expert_tokens_metadata,
+            )
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        experts = (
+            self.batched_deep_gemm_experts
+            if self.allow_deep_gemm
+            else self.batched_triton_experts
+        )
+        assert experts is not None
+        experts.apply(
+            output,
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            activation,
+            global_num_experts,
+            expert_map,
+            a1q_scale,
+            a2_scale,
+            workspace13,
+            workspace2,
+            expert_tokens_meta,
+            apply_router_weight_on_input,
+        )
diff --git a/model_executor/layers/fused_moe/config.py b/model_executor/layers/fused_moe/config.py
new file mode 100644
index 0000000..a7bd64b
--- /dev/null
+++ b/model_executor/layers/fused_moe/config.py
@@ -0,0 +1,916 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from enum import IntEnum
+from typing import Optional, Union
+
+import torch
+
+import vllm.envs as envs
+from vllm.config import ParallelConfig
+from vllm.distributed import get_dp_group, get_tensor_model_parallel_rank
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import (
+    OCP_MX_DTYPES,
+    OCP_MX_Scheme,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
+from vllm.utils.import_utils import has_triton_kernels
+from vllm.utils.math_utils import cdiv
+
+logger = init_logger(__name__)
+
+if has_triton_kernels():
+    try:
+        from triton_kernels.matmul_ogs import PrecisionConfig
+    except ImportError:
+        logger.error(
+            "Failed to import Triton kernels. Please make sure your triton "
+            "version is compatible."
+        )
+
+
+def _get_config_dtype_str(
+    dtype: torch.dtype,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+) -> str | None:
+    """
+    Return a string used to construct the filename that contains the
+    tuning info for a particular quantization scheme.  See
+    try_get_optimal_moe_config in fused_moe.py.
+    """
+    if use_fp8_w8a8:
+        return "fp8_w8a8"
+    elif use_int8_w8a16:
+        return "int8_w8a16"
+    elif use_int4_w4a16:
+        return "int4_w4a16"
+    elif ocp_mx_scheme is not None:
+        # The output of this function is passed to `try_get_optimal_moe_config`,
+        # and as we only simulate OCP MX execution in fused_moe for now,
+        # we will NOT look for `*,dtype=w_mxfp4_a_mxfp4.json` for now.
+        return None
+    elif dtype == torch.float:
+        # avoiding cases where kernel fails when float32 MoE
+        # use fp16/bfloat16 configs
+        return "float32"
+    return None
+
+
+def _quant_flags_to_group_shape(
+    quant_dtype: torch.dtype | str | None,
+    per_act_token_quant: bool,
+    per_out_ch_quant: bool,
+    block_shape: list[int] | None,
+) -> tuple[GroupShape | None, GroupShape | None]:
+    """
+    Convert MoE quantization flags into more generic GroupShapes.
+    """
+    a_shape: GroupShape | None
+    w_shape: GroupShape | None
+    if block_shape is not None:
+        assert not per_act_token_quant
+        assert not per_out_ch_quant
+        # TODO(bnell): this is not quite right for activations since first
+        # dim should be 1.
+        a_shape = GroupShape(row=block_shape[0], col=block_shape[1])
+        w_shape = GroupShape(row=block_shape[0], col=block_shape[1])
+    else:
+        w_shape = None
+        a_shape = None if quant_dtype is None else GroupShape.PER_TENSOR
+
+        if per_act_token_quant:
+            a_shape = GroupShape.PER_TOKEN
+
+        if per_out_ch_quant:
+            w_shape = GroupShape.PER_TOKEN
+
+    return a_shape, w_shape
+
+
+# The type of method in top-K routing
+# Please keep this in sync with the counterpart defined in https://github.com/flashinfer-ai/flashinfer/blob/main/include/flashinfer/trtllm/fused_moe/runner.h
+class RoutingMethodType(IntEnum):
+    # Default: Softmax -> TopK
+    Default = (0,)
+    # Renormalize: TopK -> Softmax
+    Renormalize = (1,)
+    # DeepSeekV3: Sigmoid -> RoutingBiasAdd -> Top2 in group -> Top4 groups
+    # -> Top8 experts from the Top4 groups
+    DeepSeekV3 = (2,)
+    # Llama4: Top1 -> Sigmoid
+    Llama4 = (3,)
+    # RenormalizeNaive: Softmax -> TopK -> Renormalize
+    RenormalizeNaive = (4,)
+    # TopK: TopK (no softmax)
+    TopK = (5,)
+    # Unspecified
+    Unspecified = 6.0
+
+
+@dataclass
+class FusedMoEQuantDesc:
+    """
+    A quantization descriptor for fused MoE ops. This class can describe
+    either activations or weights.
+    """
+
+    # The quantized type of this parameters.  None means unquantized or
+    # already quantized.
+    # TODO (bnell): use scalar_type instead of Union.
+    dtype: torch.dtype | str | None = None
+
+    # A field that describes the quantization group shape, from quant_utils.py.
+    #  * (-1, -1)   for per-tensor quantization
+    #  * (1, -1)    for per-row quantization
+    #  * (-1, 1)    for per-column quantization
+    #  * (128, 128) for 128x128 deepseek style block quantization
+    #  * (1, 128)   for deepseek style activation quantization
+    #               (i.e. per-token-per-group)
+    shape: GroupShape | None = None
+
+    # Quantization scales.
+    # TODO(bnell): maybe put PrecisionConfigs in subclass of QuantDesc?
+    scale: Union[torch.Tensor, "PrecisionConfig", None] = None
+
+    # Quantization alphas or gscales, used for nvfp4 types.
+    # TODO(bnell): put some of these in subclasses
+    alpha_or_gscale: torch.Tensor | None = None
+
+    # Zero points for int4/int8 types
+    zp: torch.Tensor | None = None
+
+    # Biases for GPT triton MoE
+    bias: torch.Tensor | None = None
+
+
+# TODO(bnell): have subclasses for specific moe methods?
+# e.g. for specific arguments bias, precision, etc.
+@dataclass
+class FusedMoEQuantConfig:
+    """
+    The FusedMoEQuantConfig contains all the quantization parameters for
+    a single FusedMoEMethodBase operation.  It consists of four
+    FusedMoEQuantDescs, one for each activation and set of weights.
+
+    Each FusedMoEMethodBase must implement a get_fused_moe_quant_config
+    method to construct a FusedMoEQuantConfig for use with that class.
+
+    FusedMoEQuant configs are only used for modular kernels, fused_experts
+    (from fused_moe.py), cutlass_moe_fp[48], rocm_aiter_fused_experts and
+    triton_kernel_moe_forward.  Other MoE methods can ignore the
+    FusedMoEQuantConfig (for now) and hardcode it to None.
+
+    There are currently some restrictions on what can be expressed:
+    - Most MoE ops only support similar quantization strategies for
+      each parameter, e.g. both weights must have the same GroupShape
+      and both activations must share the same GroupShape.  One exception to
+      this is the cutlass moe which allows per channel quantization on the
+      outputs.  Note: this restrictions are not always rigorously checked.
+    - Not all fused MoE functions support all the parameters, e.g. zero points,
+      global scales, alphas and biases are not universally supported.
+    - Fully general GroupShapes are not allowed.  Activations only support
+      per token, per tensor or K-blocked.
+    - Weights are not required to have a GroupShape since they have already
+      been quantized.
+
+    Other notes:
+    - PrecisionConfigs are specific to GPT OSS Triton.
+    - As a follow up it would probably make sense to subclass FusedMoEQuantDesc
+      or FusedMoEQuantConfig for particular FusedMoEMethodBase subclasses
+      so that only the required quantization parameters are used/stored.
+    """
+
+    # TODO(bnell) make sure a1_scales/a2_scales don't interfere with chunking
+    _a1: FusedMoEQuantDesc
+    _a2: FusedMoEQuantDesc
+    _w1: FusedMoEQuantDesc
+    _w2: FusedMoEQuantDesc
+
+    def __post_init__(self):
+        assert not self.per_act_token_quant or self.block_shape is None, (
+            "illegal quantization"
+        )
+
+    #
+    # Convenience accessors for various properties.
+    #
+
+    @property
+    def quant_dtype(self) -> torch.dtype | str | None:
+        return self._a1.dtype
+
+    @property
+    def is_quantized(self) -> bool:
+        return self.quant_dtype is not None
+
+    @property
+    def is_per_act_token(self) -> bool:
+        return self._a1.shape == GroupShape.PER_TOKEN
+
+    @property
+    def per_act_token_quant(self) -> bool:
+        return self._a1.shape == GroupShape.PER_TOKEN
+
+    @property
+    def per_out_ch_quant(self) -> bool:
+        return self._w1.shape == GroupShape.PER_TOKEN
+
+    @property
+    def is_per_tensor(self) -> bool:
+        return self._a1.shape == GroupShape.PER_TENSOR
+
+    @property
+    def block_shape(self) -> list[int] | None:
+        if (
+            self._a1.shape is not None
+            and self._a1.shape != GroupShape.PER_TENSOR
+            and self._a1.shape != GroupShape.PER_TOKEN
+        ):
+            return [self._a1.shape.row, self._a1.shape.col]
+        else:
+            return None
+
+    @property
+    def is_block_quantized(self) -> bool:
+        return self.block_shape is not None
+
+    @property
+    def a1_scale(self) -> torch.Tensor | None:
+        assert self._a1.scale is None or isinstance(self._a1.scale, torch.Tensor)
+        return self._a1.scale
+
+    @property
+    def a1_gscale(self) -> torch.Tensor | None:
+        return self._a1.alpha_or_gscale
+
+    @property
+    def a2_scale(self) -> torch.Tensor | None:
+        assert self._a2.scale is None or isinstance(self._a2.scale, torch.Tensor)
+        return self._a2.scale
+
+    @property
+    def a2_gscale(self) -> torch.Tensor | None:
+        return self._a2.alpha_or_gscale
+
+    @property
+    def w1_scale(self) -> torch.Tensor | None:
+        assert self._w1.scale is None or isinstance(self._w1.scale, torch.Tensor)
+        return self._w1.scale
+
+    @property
+    def w1_zp(self) -> torch.Tensor | None:
+        return self._w1.zp
+
+    @property
+    def w1_bias(self) -> torch.Tensor | None:
+        return self._w1.bias
+
+    @property
+    def w1_precision(self) -> Optional["PrecisionConfig"]:
+        assert self._w1.scale is None or isinstance(self._w1.scale, PrecisionConfig)
+        return self._w1.scale
+
+    @property
+    def g1_alphas(self) -> torch.Tensor | None:
+        return self._w1.alpha_or_gscale
+
+    @property
+    def w2_scale(self) -> torch.Tensor | None:
+        assert self._w2.scale is None or isinstance(self._w2.scale, torch.Tensor)
+        return self._w2.scale
+
+    @property
+    def w2_zp(self) -> torch.Tensor | None:
+        return self._w2.zp
+
+    @property
+    def w2_bias(self) -> torch.Tensor | None:
+        return self._w2.bias
+
+    @property
+    def w2_precision(self) -> Optional["PrecisionConfig"]:
+        assert self._w2.scale is None or isinstance(self._w2.scale, PrecisionConfig)
+        return self._w2.scale
+
+    @property
+    def g2_alphas(self) -> torch.Tensor | None:
+        return self._w2.alpha_or_gscale
+
+    @property
+    def use_fp8_w8a8(self) -> bool:
+        return self.quant_dtype == torch.float8_e4m3fn
+
+    @property
+    def use_int8_w8a8(self) -> bool:
+        return self.quant_dtype == torch.int8
+
+    @property
+    def use_int8_w8a16(self) -> bool:
+        return self._a1.dtype is None and self._w1.dtype == torch.int8
+
+    @property
+    def use_int4_w4a16(self) -> bool:
+        return self._a1.dtype is None and self._w1.dtype == "int4"
+
+    @property
+    def ocp_mx_scheme(self) -> str | None:
+        if not hasattr(self, "_ocp_mx_scheme"):
+            if (self._a1.dtype is not None and not isinstance(self._a1.dtype, str)) or (
+                self._w1.dtype is not None and not isinstance(self._w1.dtype, str)
+            ):
+                self._ocp_mx_scheme = None
+            else:
+                ocp_mx_scheme = OCP_MX_Scheme.from_quant_dtype(
+                    self._a1.dtype, self._w1.dtype
+                )
+
+                if ocp_mx_scheme is not None:
+                    ocp_mx_scheme = ocp_mx_scheme.value
+
+                self._ocp_mx_scheme = ocp_mx_scheme
+
+        return self._ocp_mx_scheme
+
+    @property
+    def use_mxfp4_w4a16(self) -> bool:
+        return self._a1.dtype is None and self._w1.dtype == "mxfp4"
+
+    @property
+    def use_nvfp4_w4a4(self) -> bool:
+        return self.quant_dtype == "nvfp4"
+
+    def config_name(self, dtype: torch.dtype) -> str | None:
+        """
+        Return a string used to construct the filename that contains the
+        tuning info for a particular quantization scheme.  See
+        try_get_optimal_moe_config in fused_moe.py.
+        """
+        return _get_config_dtype_str(
+            use_fp8_w8a8=self.use_fp8_w8a8,
+            use_int8_w8a16=self.use_int8_w8a16,
+            use_int4_w4a16=self.use_int4_w4a16,
+            ocp_mx_scheme=self.ocp_mx_scheme,
+            dtype=dtype,
+        )
+
+    def scale_shape(
+        self,
+        max_tokens: int,
+        hidden_dim: int,
+    ) -> tuple[int, int] | None:
+        """
+        Construct the proper activation scale shape for this
+        config.
+        """
+        if self.is_quantized:
+            if self.is_block_quantized:
+                assert self.block_shape is not None
+                _, block_k = self.block_shape
+                k_tiles = cdiv(hidden_dim, block_k)
+                return (max_tokens, k_tiles)
+            elif self.is_per_act_token:
+                return (max_tokens, 1)
+            else:
+                return (1, 1)
+        else:
+            return None
+
+    def batched_scale_shape(
+        self,
+        num_experts: int,
+        max_tokens: int,
+        hidden_dim: int,
+    ) -> tuple[int, int, int] | None:
+        """
+        Construct the proper activation batched scale shape for this
+        config, e.g. (num experts, *scale_shape).
+        """
+        if self.is_quantized:
+            scale_shape = self.scale_shape(max_tokens, hidden_dim)
+            assert scale_shape is not None
+            return (num_experts, *scale_shape)
+        else:
+            return None
+
+    @staticmethod
+    def make(
+        quant_dtype: torch.dtype | str | None = None,
+        per_act_token_quant: bool = False,
+        per_out_ch_quant: bool = False,
+        block_shape: list[int] | None = None,
+        w1_scale: Union[torch.Tensor, "PrecisionConfig", None] = None,
+        w2_scale: Union[torch.Tensor, "PrecisionConfig", None] = None,
+        a1_scale: torch.Tensor | None = None,
+        a2_scale: torch.Tensor | None = None,
+        g1_alphas: torch.Tensor | None = None,
+        g2_alphas: torch.Tensor | None = None,
+        a1_gscale: torch.Tensor | None = None,
+        a2_gscale: torch.Tensor | None = None,
+        w1_bias: torch.Tensor | None = None,
+        w2_bias: torch.Tensor | None = None,
+        w1_zp: torch.Tensor | None = None,
+        w2_zp: torch.Tensor | None = None,
+        weight_dtype: torch.dtype | str | None = None,
+    ) -> "FusedMoEQuantConfig":
+        """
+        General builder function for a FusedMoEQuantConfig.
+        - quant_dtype: Optional quantization type. None if activations are
+          unquantized or quantized prior to calling.  Note: "nvfp4", "mxfp4",
+          "mxfp6_e3m2", "mxfp6_e2m3" are the only valid string values
+          for quant_dtype.
+        - per_act_token_quant: Activations have per token quantization.
+        - per_out_ch_quant: Outputs have per channel quantization. (only
+          for cutlass).
+        - block_shape: Optional block size for block-wise quantization.
+          Incompatible with per_act_token and per_out_ch quant.
+        - w1_scale: Optional scale to be used for w1.
+        - w2_scale: Optional scale to be used for w2.
+        - a1_scale: Optional scale to be used for a1.
+        - a2_scale: Optional scale to be used for a2.
+        - g1_alphas: Optional global quantization scales for w1 (for nvfp4).
+        - g2_alphas: Optional global quantization scales for w2 (for nvfp4).
+        - a1_gscale: Optional global quantization scales for a1 (for nvfp4).
+        - a2_gscale: Optional global quantization scales for a2 (for nvfp4).
+        - w1_bias: Optional biases for w1 (GPT OSS Triton).
+        - w2_bias: Optional biases for w1 (GPT OSS Triton).
+        - w1_zp: Optional w1 zero points for int4/int8 quantization.
+        - w2_zp: Optional w2 zero points for int4/int8 quantization.
+        """
+        assert not isinstance(quant_dtype, str) or quant_dtype in {
+            "nvfp4",
+            "mxfp4",
+            "mxfp6_e3m2",
+            "mxfp6_e2m3",
+        }
+        assert not isinstance(weight_dtype, str) or weight_dtype in {
+            "nvfp4",
+            "mxfp4",
+            "mxfp6_e3m2",
+            "mxfp6_e2m3",
+        }
+
+        if weight_dtype is None:
+            weight_dtype = quant_dtype
+
+        a_shape, w_shape = _quant_flags_to_group_shape(
+            quant_dtype, per_act_token_quant, per_out_ch_quant, block_shape
+        )
+        quant_config = FusedMoEQuantConfig(
+            _a1=FusedMoEQuantDesc(quant_dtype, a_shape, a1_scale, a1_gscale),
+            _a2=FusedMoEQuantDesc(quant_dtype, a_shape, a2_scale, a2_gscale),
+            _w1=FusedMoEQuantDesc(
+                weight_dtype, w_shape, w1_scale, g1_alphas, w1_zp, w1_bias
+            ),
+            _w2=FusedMoEQuantDesc(
+                weight_dtype, w_shape, w2_scale, g2_alphas, w2_zp, w2_bias
+            ),
+        )
+        assert quant_config.per_act_token_quant == per_act_token_quant
+        assert quant_config.per_out_ch_quant == per_out_ch_quant
+        assert quant_config.block_shape == block_shape
+        return quant_config
+
+
+def fp8_w8a8_moe_quant_config(
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    per_act_token_quant: bool = False,
+    per_out_ch_quant: bool = False,
+    block_shape: list[int] | None = None,
+    a1_gscale: torch.Tensor | None = None,
+    a2_gscale: torch.Tensor | None = None,
+    g1_alphas: torch.Tensor | None = None,
+    g2_alphas: torch.Tensor | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for fp8 activations and fp8 weights.
+    """
+    return FusedMoEQuantConfig.make(
+        torch.float8_e4m3fn,
+        w1_scale=w1_scale,
+        g1_alphas=g1_alphas,
+        w2_scale=w2_scale,
+        g2_alphas=g2_alphas,
+        a1_scale=a1_scale,
+        a1_gscale=a1_gscale,
+        a2_scale=a2_scale,
+        a2_gscale=a2_gscale,
+        per_act_token_quant=per_act_token_quant,
+        per_out_ch_quant=per_out_ch_quant,
+        block_shape=block_shape,
+    )
+
+
+def int8_w8a8_moe_quant_config(
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    a1_scale: torch.Tensor | None,
+    a2_scale: torch.Tensor | None,
+    per_act_token_quant: bool = False,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for int8 activations and int8 weights.
+    """
+    return FusedMoEQuantConfig.make(
+        torch.int8,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        per_act_token_quant=per_act_token_quant,
+        per_out_ch_quant=False,
+        block_shape=None,
+    )
+
+
+def mxfp4_w4a16_moe_quant_config(
+    w1_scale: Union[torch.Tensor, "PrecisionConfig"],
+    w2_scale: Union[torch.Tensor, "PrecisionConfig"],
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for unquantized activations and mxfp4 weights.
+    """
+    return FusedMoEQuantConfig(
+        _a1=FusedMoEQuantDesc(),
+        _a2=FusedMoEQuantDesc(),
+        _w1=FusedMoEQuantDesc("mxfp4", None, w1_scale, None, None, w1_bias),
+        _w2=FusedMoEQuantDesc("mxfp4", None, w2_scale, None, None, w2_bias),
+    )
+
+
+def mxfp4_mxfp8_moe_quant_config(
+    w1_scale: Union[torch.Tensor, "PrecisionConfig"],
+    w2_scale: Union[torch.Tensor, "PrecisionConfig"],
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for mxfp4 activations and mxfp4 weights.
+    """
+    return FusedMoEQuantConfig(
+        _a1=FusedMoEQuantDesc("mxfp8"),
+        _a2=FusedMoEQuantDesc("mxfp8"),
+        _w1=FusedMoEQuantDesc("mxfp4", None, w1_scale, None, None, w1_bias),
+        _w2=FusedMoEQuantDesc("mxfp4", None, w2_scale, None, None, w2_bias),
+    )
+
+
+def ocp_mx_moe_quant_config(
+    quant_dtype: str,
+    w1_scale: Union[torch.Tensor, "PrecisionConfig"],
+    w2_scale: Union[torch.Tensor, "PrecisionConfig"],
+    weight_dtype: str | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for mxfp4 activations and mxfp4 weights.
+    """
+    assert quant_dtype in OCP_MX_DTYPES
+    return FusedMoEQuantConfig.make(
+        quant_dtype=quant_dtype,
+        weight_dtype=weight_dtype,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        w1_bias=w1_bias,
+        w2_bias=w2_bias,
+        per_act_token_quant=False,
+        per_out_ch_quant=False,
+        block_shape=block_shape,
+    )
+
+
+def nvfp4_moe_quant_config(
+    g1_alphas: torch.Tensor,
+    g2_alphas: torch.Tensor,
+    a1_gscale: torch.Tensor,
+    a2_gscale: torch.Tensor,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for mxfp4 activations and nvp4 weights.
+    """
+    return FusedMoEQuantConfig.make(
+        "nvfp4",
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_gscale=a1_gscale,
+        a2_gscale=a2_gscale,
+        g1_alphas=g1_alphas,
+        g2_alphas=g2_alphas,
+        per_act_token_quant=False,
+        per_out_ch_quant=False,
+        block_shape=None,
+    )
+
+
+def int4_w4a16_moe_quant_config(
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    w1_zp: torch.Tensor | None,
+    w2_zp: torch.Tensor | None,
+    block_shape: list[int] | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for 16-bit float activations and int4 weights.
+    Note: Activations are pre-quantized.
+    """
+    group_shape = GroupShape(*block_shape) if block_shape is not None else None
+    return FusedMoEQuantConfig(
+        _a1=FusedMoEQuantDesc(shape=group_shape),
+        _a2=FusedMoEQuantDesc(shape=group_shape),
+        _w1=FusedMoEQuantDesc("int4", group_shape, w1_scale, None, w1_zp),
+        _w2=FusedMoEQuantDesc("int4", group_shape, w2_scale, None, w2_zp),
+    )
+
+
+def int8_w8a16_moe_quant_config(
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    w1_zp: torch.Tensor | None,
+    w2_zp: torch.Tensor | None,
+    block_shape: list[int] | None = None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for 16-bit float activations and int8 weights.
+    Note: Activations are pre-quantized.
+    """
+    group_shape = GroupShape(*block_shape) if block_shape is not None else None
+    return FusedMoEQuantConfig(
+        _a1=FusedMoEQuantDesc(shape=group_shape),
+        _a2=FusedMoEQuantDesc(shape=group_shape),
+        _w1=FusedMoEQuantDesc(torch.int8, group_shape, w1_scale, None, w1_zp),
+        _w2=FusedMoEQuantDesc(torch.int8, group_shape, w2_scale, None, w2_zp),
+    )
+
+
+def biased_moe_quant_config(
+    w1_bias: torch.Tensor | None,
+    w2_bias: torch.Tensor | None,
+) -> FusedMoEQuantConfig:
+    """
+    Construct a quant config for unquantized activations with biases.
+    """
+    return FusedMoEQuantConfig(
+        _a1=FusedMoEQuantDesc(),
+        _a2=FusedMoEQuantDesc(),
+        _w1=FusedMoEQuantDesc(bias=w1_bias),
+        _w2=FusedMoEQuantDesc(bias=w2_bias),
+    )
+
+
+# A FusedMoEQuantConfig constant for an unquantized MoE op.
+FUSED_MOE_UNQUANTIZED_CONFIG: FusedMoEQuantConfig = FusedMoEQuantConfig.make()
+
+
+@dataclass
+class FusedMoEParallelConfig:
+    tp_size: int
+    dp_size: int
+    ep_size: int
+    tp_rank: int
+    dp_rank: int
+    ep_rank: int
+
+    use_ep: bool  # whether to use EP or not
+    all2all_backend: str  # all2all backend for MoE communication
+
+    @property
+    def use_all2all_kernels(self):
+        return self.dp_size > 1 and self.use_ep
+
+    @property
+    def use_pplx_kernels(self):
+        return self.use_all2all_kernels and self.all2all_backend == "pplx"
+
+    @property
+    def use_deepep_ht_kernels(self):
+        return (
+            self.use_all2all_kernels
+            and self.all2all_backend == "deepep_high_throughput"
+        )
+
+    @property
+    def use_deepep_ll_kernels(self):
+        return self.use_all2all_kernels and self.all2all_backend == "deepep_low_latency"
+
+    @staticmethod
+    def flatten_tp_across_dp(
+        tp_size: int, dp_size: int, dp_rank: int
+    ) -> tuple[int, int]:
+        tp_rank = 0 if tp_size == 1 else get_tensor_model_parallel_rank()
+        # There are actually dp_size * tp_size devices. Update tp_size
+        # and tp_rank so we shard across all devices.
+        flatten_tp_size = dp_size * tp_size
+        flatten_tp_rank = dp_rank * tp_size + tp_rank
+        return flatten_tp_size, flatten_tp_rank
+
+    @staticmethod
+    def make(
+        tp_size_: int, dp_size_: int, vllm_parallel_config: ParallelConfig
+    ) -> "FusedMoEParallelConfig":
+        """
+        Determine MoE parallel configuration. Based on the input `tp_size_`,
+        `dp_size_` and vllm's parallel config, determine what
+        level's of parallelism to use in the fused moe layer.
+
+        Args:
+            tp_size_ (int): `tp_size` passed into the FusedMoE constructor.
+            dp_size_ (int): `dp_size` passed into the FusedMoE constructor.
+            vllm_parallel_config (ParallelConfig): vLLM's parallel config
+                object which contains the `enable_expert_parallel` flag.
+
+        Examples:
+            When there is no parallelism requested,
+            i.e. `tp_size_` = `dp_size_` = 1, we simply return the sizes
+            unaltered and the ranks set to 0.
+
+            Expert Parallelism is considered only when either `dp_size_` or
+            `tp_size_` is non trivial.
+
+            When TP = 2, DP = 1 and EP = False, the configuration on different
+            devices:
+
+            - device 0 : TP = {2, 0} DP = {1, 0} EP = {1, 0} //
+                legend : {size, rank}
+            - device 1 : TP = {2, 1} DP = {1, 0} EP = {1, 0}
+            - Comment : Tensors are sharded across 2 devices.
+
+            When TP = 1, DP = 2 and EP = False, the configuration on different
+                devices:
+
+            - device 0 : TP = {2, 0} DP = {2, 0} EP = {1, 0}
+            - device 1 : TP = {2, 1} DP = {2, 1} EP = {1, 0}
+            - Comment: There are 2 engine instances and the tensors are sharded
+                across 2 decvices.
+
+            When TP = 2, DP = 2 and EP = False, the configuration on different
+                devices:
+
+            - device 0: TP = {4, 0} DP = {2, 0} EP = {1, 0}
+            - device 1: TP = {4, 1} DP = {2, 0} EP = {1, 0}
+            - device 2: TP = {4, 2} DP = {2, 1} EP = {1, 0}
+            - device 3: TP = {4, 3} DP = {2, 1} EP = {1, 0}
+            - Comment: There are 2 engine instances and the tensors are sharded
+                across 4 devices.
+
+            When, TP = 2, DP = 1 and EP = True, the configuration on different
+                devices:
+
+            - device 0: TP = {1, 0} DP = {1, 0} EP = {2, 0}
+            - device 1: TP = {1, 0} DP = {1, 0} EP = {2, 1}
+            - Comment: The experts are split between the 2 devices.
+
+            When, TP = 1, DP = 2 and EP = True, the configuration on different
+                devices:
+
+            - device 0: TP = {1, 0} DP = {2, 0} EP = {2, 0}
+            - device 1: TP = {1, 0} DP = {2, 1} EP = {2, 1}
+            - Comment: There are 2 engine instances and the experts are split
+                between the 2 devices.
+
+            When TP = 2, DP = 2 and EP = True, the configuration on different
+                devices:
+
+            - device 0: TP = {1, 0} DP = {2, 0} EP = {4, 0}
+            - device 1: TP = {1, 0} DP = {2, 0} EP = {4, 1}
+            - device 2: TP = {1, 0} DP = {2, 1} EP = {4, 2}
+            - device 3: TP = {1, 0} DP = {2, 1} EP = {4, 3}
+            - Comment: There are 2 engine instances and the experts are split
+                between the 4 devices.
+        """
+
+        use_ep = dp_size_ * tp_size_ > 1 and vllm_parallel_config.enable_expert_parallel
+
+        dp_size = dp_size_
+        dp_rank = get_dp_group().rank_in_group if dp_size > 1 else 0
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
+            tp_size_, dp_size_, dp_rank
+        )
+
+        if not use_ep:
+            return FusedMoEParallelConfig(
+                tp_size=tp_size,
+                tp_rank=tp_rank,
+                dp_size=dp_size,
+                dp_rank=dp_rank,
+                ep_size=1,
+                ep_rank=0,
+                use_ep=False,
+                all2all_backend=vllm_parallel_config.all2all_backend,
+            )
+        # DP + EP / TP + EP / DP + TP + EP
+        assert use_ep
+        # In EP, each device owns a set of experts fully. There is no tensor
+        # parallel update tp_size, tp_rank, ep_size and ep_rank to reflect that.
+        ep_size = tp_size
+        ep_rank = tp_rank
+        return FusedMoEParallelConfig(
+            tp_size=1,
+            tp_rank=0,
+            dp_size=dp_size,
+            dp_rank=dp_rank,
+            ep_size=ep_size,
+            ep_rank=ep_rank,
+            use_ep=True,
+            all2all_backend=vllm_parallel_config.all2all_backend,
+        )
+
+
+# Adapted from pplx-kernels tests/all_to_all_utils.py
+@dataclass
+class FusedMoEConfig:
+    num_experts: int
+    experts_per_token: int
+    hidden_dim: int
+
+    num_local_experts: int
+    moe_parallel_config: FusedMoEParallelConfig
+
+    # The activation type.
+    in_dtype: torch.dtype
+
+    max_num_tokens: int = envs.VLLM_MOE_DP_CHUNK_SIZE
+
+    has_bias: bool = False
+
+    is_act_and_mul: bool = True
+
+    is_lora_enabled: bool = False
+
+    def __post_init__(self):
+        if self.dp_size > 1:
+            logger.debug_once(
+                "Using FusedMoEConfig::max_num_tokens=%d", self.max_num_tokens
+            )
+
+        assert self.max_num_tokens > 0
+
+    @property
+    def tp_size(self):
+        return self.moe_parallel_config.tp_size
+
+    @property
+    def dp_size(self):
+        return self.moe_parallel_config.dp_size
+
+    @property
+    def ep_size(self):
+        return self.moe_parallel_config.ep_size
+
+    @property
+    def tp_rank(self):
+        return self.moe_parallel_config.tp_rank
+
+    @property
+    def dp_rank(self):
+        return self.moe_parallel_config.dp_rank
+
+    @property
+    def ep_rank(self):
+        return self.moe_parallel_config.ep_rank
+
+    @property
+    def use_ep(self):
+        return self.moe_parallel_config.use_ep
+
+    @property
+    def use_pplx_kernels(self):
+        return self.moe_parallel_config.use_pplx_kernels
+
+    @property
+    def use_deepep_ht_kernels(self):
+        return self.moe_parallel_config.use_deepep_ht_kernels
+
+    @property
+    def use_deepep_ll_kernels(self):
+        return self.moe_parallel_config.use_deepep_ll_kernels
+
+    @property
+    def use_flashinfer_cutlass_kernels(self):
+        """
+        Whether to use FlashInfer cutlass kernels for NVFP4 MoE.
+        """
+        return (
+            envs.VLLM_USE_FLASHINFER_MOE_FP4
+            and has_flashinfer_cutlass_fused_moe()
+            and envs.VLLM_FLASHINFER_MOE_BACKEND == "throughput"
+        )
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..56c1a4e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "48": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..d3677be
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..265768f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..d3be23d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "24": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..99501df
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+  }
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..589f5d3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..2e0dd7a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "64": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "96": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..4ea8634
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "64": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "96": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
new file mode 100644
index 0000000..f3f1a56
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..2003567
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 256,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..e076615
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "24": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "32": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "48": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..19046fc
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..ee89655
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..05aed8b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "64": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "96": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "128": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..5f9422f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=1,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..555d173
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..e539335
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..555d173
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H100,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H100,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..600bd44
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H100,dtype=fp8_w8a8.json
@@ -0,0 +1,123 @@
+{
+    "triton_version": "3.4.0",
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8192": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16384": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..86b4912
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..ea1ce9a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "256": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..ee8a28b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json b/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
new file mode 100644
index 0000000..09d3fa5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..e1c4cac
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..5de5605
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..b506820
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..2221e99
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..74374c5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..63de4bf
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,122 @@
+{
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8192": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16384": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c275cec
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e505935
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..db1b6e9
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b34b6e4
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..60ccde1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..b0139b9
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..ab169a0
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..324ad7b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..ab6e155
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..249359f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_B200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..b962d19
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..6efcc02
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=704,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,114 @@
+{
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8192": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16384": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9942546
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json
new file mode 100755
index 0000000..f5990fc
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json
@@ -0,0 +1,213 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "768": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1bbb8aa
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8fb4947
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4efc9b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3559f33
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..03dfc73
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9c07695
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..beaac7f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json b/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
new file mode 100644
index 0000000..d613de3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
@@ -0,0 +1,82 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..592b60c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,82 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..fc6454e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json b/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json
new file mode 100644
index 0000000..4899764
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..ebff99e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..f10e394
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..beeb5a6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
@@ -0,0 +1,147 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
+
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..1fa444b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_B200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H100.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H100.json
new file mode 100644
index 0000000..0442038
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H100.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..2a626ac
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..371e87f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1024,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-40GB.json b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-40GB.json
new file mode 100644
index 0000000..9262a74
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-40GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..d251f9b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..0ecf814
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..51ad5b2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..ee51191
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..6d0cdfd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 256,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..68793c7
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..6129107
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "4": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..de8eec3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+  }
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..80fce79
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 32,
+      "num_warps": 4,
+      "num_stages": 5
+    },
+    "2": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 64,
+      "num_warps": 4,
+      "num_stages": 5
+    },
+    "4": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 64,
+      "num_warps": 8,
+      "num_stages": 3
+    },
+    "8": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 32,
+      "BLOCK_SIZE_K": 256,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 5
+    },
+    "16": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 2
+    },
+    "24": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "BLOCK_SIZE_K": 256,
+      "GROUP_SIZE_M": 16,
+      "num_warps": 4,
+      "num_stages": 2
+    },
+    "32": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 32,
+      "num_warps": 8,
+      "num_stages": 2
+    },
+    "48": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 4
+    },
+    "64": {
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 2
+    },
+    "96": {
+      "BLOCK_SIZE_M": 32,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 3
+    },
+    "128": {
+      "BLOCK_SIZE_M": 32,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 128,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 4
+    },
+    "256": {
+      "BLOCK_SIZE_M": 64,
+      "BLOCK_SIZE_N": 64,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 4,
+      "num_stages": 3
+    },
+    "512": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 128,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 8,
+      "num_stages": 3
+    },
+    "1024": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 8,
+      "num_stages": 4
+    },
+    "1536": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 16,
+      "num_warps": 8,
+      "num_stages": 4
+    },
+    "2048": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 8,
+      "num_stages": 4
+    },
+    "3072": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 16,
+      "num_warps": 8,
+      "num_stages": 4
+    },
+    "4096": {
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 256,
+      "BLOCK_SIZE_K": 64,
+      "GROUP_SIZE_M": 1,
+      "num_warps": 8,
+      "num_stages": 4
+    }
+  }
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..8b94452
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..48f19df
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=2048,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..039a10e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..3793fca
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..51d03d8
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
new file mode 100644
index 0000000..54d3bf1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..6a40181
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 256,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
new file mode 100644
index 0000000..4f500d4
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3072,device_name=NVIDIA_H200,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3200,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=3200,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..cd0cdbe
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3200,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,130 @@
+{
+    "3328": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "768": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1792": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2560": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2816": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3584": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3840": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1280": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2304": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..64be6e6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..0a6a6a7
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,218 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "5120": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "9216": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "13312": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "17408": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "25600": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "33792": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "41984": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "50176": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "58368": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..ed8afa6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=6400,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=6400,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..ba9041d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=6400,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,130 @@
+{
+    "3840": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1792": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3584": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2816": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1280": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "768": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3328": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2560": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2304": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
new file mode 100644
index 0000000..7a7508a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..dbf9a2d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 2
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 5
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 32,
+    "num_warps": 8,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
new file mode 100644
index 0000000..5fea55a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
new file mode 100644
index 0000000..1e3f46e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
@@ -0,0 +1,146 @@
+{
+  "1": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "2": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 32,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "8": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "16": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 5
+  },
+  "24": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "32": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 256,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "48": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "64": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "96": {
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "128": {
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 256,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 3
+  },
+  "256": {
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 128,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "512": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 64,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "1536": {
+    "BLOCK_SIZE_M": 256,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 1,
+    "num_warps": 8,
+    "num_stages": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 4
+  },
+  "3072": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  },
+  "4096": {
+    "BLOCK_SIZE_M": 128,
+    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_K": 64,
+    "GROUP_SIZE_M": 16,
+    "num_warps": 4,
+    "num_stages": 3
+  }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=16,N=800,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=16,N=800,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..5705545
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=16,N=800,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,130 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1792": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3328": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2560": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "768": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2816": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2304": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1280": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3840": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3584": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..38034fe
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,201 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..eb4d11c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_A800-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_A800-SXM4-80GB.json
new file mode 100644
index 0000000..0611620
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_A800-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..f2ed716
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=192,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=320,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=160,N=320,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..52f2a82
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=320,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..8239492
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..c2f79b9
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI350_OAM,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI355_OAM,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI355_OAM,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..c1ca100
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=384,device_name=AMD_Instinct_MI355_OAM,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bdbaf38
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6e17bcd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..aa7610c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=160,N=640,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..df920e8
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e8fe8ea
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0baf13c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c799871
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=20,N=2560,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325X,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325X,block_shape=[128,128].json
new file mode 100644
index 0000000..43c249d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325X,block_shape=[128,128].json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..43c249d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4dd00d1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8.json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8.json
new file mode 100644
index 0000000..48f9697
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..a8c0571
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json
new file mode 100644
index 0000000..f1244c6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2e692a1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..857d11e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..a2ee05d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..63e1187
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e676960
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e676960
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..fc573cd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3e0ad0d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c6d7e96
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9264ca1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20-3e,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6fcf408
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c6eabea
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..381eb5d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e676960
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..cc85394
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=256,N=64,device_name=NVIDIA_A800-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=256,N=64,device_name=NVIDIA_A800-SXM4-80GB.json
new file mode 100644
index 0000000..21f6022
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=256,N=64,device_name=NVIDIA_A800-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=32,N=1408,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=32,N=1408,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..8ed3ad3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=32,N=1408,device_name=NVIDIA_B200.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bf97f67
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..24f13cd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=32,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4e736b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bb71005
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ac53df1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f1ed617
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e72282d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=384,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=40,N=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=40,N=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..7ffa2ac
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=40,N=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4fc4868
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d70adca
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_GB200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0f5867f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=40,N=2560,device_name=NVIDIA_H100,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..c7df36e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..d104aa5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_B200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..22e3d09
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
@@ -0,0 +1,147 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
+
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..94408e2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..9f4c3cb
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..20146f5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..d014025
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_B200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..8bac7af
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b0bf1bf
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..cc1427c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..6864939
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..2f0b450
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=256,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..5d69efe
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_B200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..5910027
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GB200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..564ff49
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..a68c831
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..e55df46
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..6825378
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..a0855a9
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_B200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H20-3e.json b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 0000000..5dd1a8e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..d5b6d02
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=60,N=1408,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=60,N=1408,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..d09508b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=60,N=1408,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=60,N=176,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=60,N=176,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..746463a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=60,N=176,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=60,N=352,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=60,N=352,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..bbdb9ad
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=60,N=352,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=60,N=704,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=60,N=704,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..43584b1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=60,N=704,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=62,N=128,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=62,N=128,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..40d86ff
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=62,N=128,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..6014d82
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..147a836
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=62,N=256,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..3622659
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..a01e9c3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=62,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..8cc6c64
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A800-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A800-SXM4-80GB.json
new file mode 100644
index 0000000..39a9912
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_A800-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..05b5463
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..d4c9ddd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..c17a4ec
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..170ae7f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1280,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1408,device_name=NVIDIA_B200.json b/model_executor/layers/fused_moe/configs/E=64,N=1408,device_name=NVIDIA_B200.json
new file mode 100644
index 0000000..9952f80
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1408,device_name=NVIDIA_B200.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..298a361
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..1d9d352
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..9ad5b31
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..2883dfd
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=2560,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..0e210cb
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..e4fa1e2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=3072,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..8abfd84
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..2fc18a5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..be8d4a7
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..71fdd88
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=320,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..082456d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..c3b2e7f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=384,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..b2799ed
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A800-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A800-SXM4-80GB.json
new file mode 100644
index 0000000..c02de2f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_A800-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..3e0bc75
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..9f7ed67
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..b8d3be2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..21b7255
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..eaf32f6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=640,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H100_PCIe,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H100_PCIe,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2c897db
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H100_PCIe,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..bba1d21
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..de1c413
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=768,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json b/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json
new file mode 100644
index 0000000..5a9910a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json b/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
new file mode 100644
index 0000000..fd675df
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=bf16.json
@@ -0,0 +1,82 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..e410671
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=64,N=8960,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,82 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=72,N=192,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=72,N=192,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..311d2e8
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=72,N=192,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..91c4b91
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..a7cfd17
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=72,N=384,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..8fee30e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..3caae02
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=72,N=768,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..b6f1d01
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..4bf7753
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..f245285
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..3918c93
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..3f3ccda
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,138 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..841044a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..59be497
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=14336,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..0e5fd1e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..d6ad635
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..16e0a91
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..d766fc0
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=16384,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..8323f51
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..1b46cb5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..6d5b1ae
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..ffc1b23
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-40GB.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-40GB.json
new file mode 100644
index 0000000..f4c0f84
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-40GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..5c8185c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..97c9f44
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..e4110a5
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..0883ef4
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..81bb765
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..811c77a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..2758e48
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..fc31215
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..0bb423b
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..5557187
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..26bcbf2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d677d69
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,154 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8192": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..1a0aa33
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..9952be6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..379ca10
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..5a3f415
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..6cb80f4
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..de9d0ab
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-40GB.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-40GB.json
new file mode 100644
index 0000000..b41f9d4
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-40GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..edf2a38
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..32bbadb
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_GeForce_RTX_4090,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..673bae2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..b2100ce
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..e6f753c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..53f3394
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_L40S.json b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_L40S.json
new file mode 100644
index 0000000..d720deb
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_L40S.json
@@ -0,0 +1,173 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 2,
+        "num_warps": 4,
+        "num_ctas": 1,
+        "num_stages": 7
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 128,
+        "num_warps": 2,
+        "num_ctas": 1,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_ctas": 1,
+        "num_stages": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_ctas": 1,
+        "num_stages": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 2,
+        "num_warps": 4,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 2,
+        "num_warps": 4,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 2,
+        "num_warps": 4,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "192": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 16,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 128,
+        "num_warps": 2,
+        "num_ctas": 1,
+        "num_stages": 8
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 16,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 16,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "6144": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 32,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_ctas": 1,
+        "num_stages": 2
+    },
+    "8192": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 16,
+        "num_ctas": 1,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..48bb5f2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..a64d06c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..2c49f35
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..c7db6c0
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..dbc6247
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..cc614e6
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..32c0c9d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..4dd475c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..2ed15f3
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..bd2c6fb
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..8d7b780
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..7a07bbf
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..3a3268c
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 32,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000..f578c8d
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..918f683
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000..e341a67
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..eb81726
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200.json b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200.json
new file mode 100644
index 0000000..0c7062a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..cd4fb8f
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 0000000..cf66868
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..c27ca0a
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X.json
new file mode 100644
index 0000000..da477b1
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=AMD_Instinct_MI325X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..34b916e
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 0000000..96cbc11
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/E=8,N=8192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/fused_moe/configs/README b/model_executor/layers/fused_moe/configs/README
new file mode 100644
index 0000000..85970e2
--- /dev/null
+++ b/model_executor/layers/fused_moe/configs/README
@@ -0,0 +1,12 @@
+This directory contains tuned configurations for different settings of the fused_moe kernel.
+For different settings of
+- E (number of experts)
+- N (intermediate size)
+- device_name (torch.cuda.get_device_name())
+the JSON file contains a mapping from M (batch size) to the chosen configuration.
+
+The example configurations provided are for the Mixtral model for TP2 on H100
+and TP4 on A100. Mixtral has intermediate size N = 14336, i.e. for TP2 we have
+N = 7168 and for TP4 we have N = 3584.
+
+See `benchmark/kernels/benchmark_moe.py` on how to generate these config files.
diff --git a/model_executor/layers/fused_moe/cpu_fused_moe.py b/model_executor/layers/fused_moe/cpu_fused_moe.py
new file mode 100644
index 0000000..23ace34
--- /dev/null
+++ b/model_executor/layers/fused_moe/cpu_fused_moe.py
@@ -0,0 +1,354 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import torch
+from torch.nn import functional as F
+
+from vllm import _custom_ops as ops
+from vllm import envs
+
+
+def silu_and_mul(x: torch.Tensor) -> torch.Tensor:
+    d = x.shape[-1] // 2
+    return F.silu(x[..., :d]) * x[..., d:]
+
+
+def swigluoai_and_mul(
+    x: torch.Tensor, alpha: float = 1.702, limit: float = 7.0
+) -> torch.Tensor:
+    d = x.shape[-1] // 2
+    gate, up = x[..., :d], x[..., d:]
+    gate = gate.clamp(max=limit)
+    up = up.clamp(min=-limit, max=limit)
+    glu = gate * torch.sigmoid(alpha * gate)
+    return (up + 1) * glu
+
+
+def grouped_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    num_expert_group: int = 0,
+    topk_group: int = 0,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,
+    e_score_correction_bias: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert hidden_states.shape[0] == gating_output.shape[0], "Number of tokens mismatch"
+
+    gating_output = gating_output.float()
+    if scoring_func == "softmax":
+        scores = torch.softmax(gating_output, dim=-1)
+    elif scoring_func == "sigmoid":
+        scores = gating_output.sigmoid()
+    else:
+        raise ValueError(f"Unsupported scoring function: {scoring_func}")
+
+    num_token = scores.shape[0]
+    if e_score_correction_bias is not None:
+        original_scores = scores
+        scores = scores + e_score_correction_bias.unsqueeze(0)
+        group_scores = (
+            scores.view(num_token, num_expert_group, -1).topk(2, dim=-1)[0].sum(dim=-1)
+        )
+    else:
+        group_scores = (
+            scores.view(num_token, num_expert_group, -1).max(dim=-1).values
+        )  # [n, n_group]
+    group_idx = torch.topk(group_scores, k=topk_group, dim=-1, sorted=False)[
+        1
+    ]  # [n, top_k_group]
+    group_mask = torch.zeros_like(group_scores)  # [n, n_group]
+    group_mask.scatter_(1, group_idx, 1)  # [n, n_group]
+    score_mask = (
+        group_mask.unsqueeze(-1)
+        .expand(num_token, num_expert_group, scores.shape[-1] // num_expert_group)
+        .reshape(num_token, -1)
+    )  # [n, e]
+    tmp_scores = scores.masked_fill(~score_mask.bool(), float("-inf"))  # [n, e]
+
+    if e_score_correction_bias is not None:
+        topk_ids = torch.topk(tmp_scores, k=topk, dim=-1, sorted=False)[1]
+        topk_weights = original_scores.gather(1, topk_ids)
+    else:
+        topk_weights, topk_ids = torch.topk(tmp_scores, k=topk, dim=-1, sorted=False)
+
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+
+    if routed_scaling_factor != 1.0:
+        topk_weights = topk_weights * routed_scaling_factor
+    return topk_weights, topk_ids.to(torch.int32)
+
+
+def select_experts(
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    top_k: int,
+    use_grouped_topk: bool,
+    renormalize: bool,
+    topk_group: int | None = None,
+    num_expert_group: int | None = None,
+    custom_routing_function: Callable | None = None,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,
+    e_score_correction_bias: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if use_grouped_topk:
+        assert topk_group is not None
+        assert num_expert_group is not None
+        return grouped_topk(
+            hidden_states=hidden_states,
+            gating_output=router_logits,
+            topk=top_k,
+            renormalize=renormalize,
+            num_expert_group=num_expert_group,
+            topk_group=topk_group,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+        )
+    elif custom_routing_function is None:
+        assert scoring_func == "softmax"
+        topk_logit_vals, topk_idx = torch.topk(
+            router_logits, k=top_k, dim=-1, sorted=False
+        )
+        if renormalize:
+            topk_vals = torch.softmax(topk_logit_vals, dim=-1)
+        else:
+            logZ = torch.logsumexp(router_logits, dim=-1, keepdim=True)
+            topk_vals = (topk_logit_vals - logZ).exp()
+        return topk_vals.to(torch.float32), topk_idx.to(torch.int32)
+    else:
+        return custom_routing_function(
+            hidden_states=hidden_states,
+            gating_output=router_logits,
+            topk=top_k,
+            renormalize=renormalize,
+        )
+
+
+class IPEXFusedMOE:
+    def __init__(self, layer: torch.nn.Module) -> None:
+        import intel_extension_for_pytorch as ipex
+
+        layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+            layer.w13_weight,
+            layer.w2_weight,
+            use_prepack=envs.VLLM_CPU_MOE_PREPACK,
+        )
+
+    def __call__(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+    ) -> torch.Tensor:
+        assert activation == "silu", f"{activation} is not supported."
+        assert not apply_router_weight_on_input
+        assert routed_scaling_factor == 1.0, (
+            f"routed_scaling_factor {routed_scaling_factor} is not supported."
+        )
+        return layer.ipex_fusion(
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            custom_routing_function,
+            scoring_func,
+            e_score_correction_bias,
+        )
+
+
+class SGLFusedMOE:
+    def __init__(self, layer: torch.nn.Module) -> None:
+        pass
+
+    def __call__(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+    ) -> torch.Tensor:
+        assert activation == "silu", f"{activation} is not supported."
+        assert not apply_router_weight_on_input
+        topk_weights, topk_ids = select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+        )
+
+        torch.ops._C.fused_experts_cpu(
+            x,
+            layer.w13_weight,
+            layer.w2_weight,
+            topk_weights,
+            topk_ids,
+            True,
+            False,
+            False,
+            None,
+            None,
+            None,
+            None,
+            None,
+            True,
+        )
+        return x
+
+
+class CPUFusedMOE:
+    def __init__(self, layer: torch.nn.Module) -> None:
+        use_onednn_mm = ops._supports_onednn and ops.is_onednn_acl_supported()
+
+        num_experts = layer.w13_weight.size(0)
+        has_w13_bias = hasattr(layer, "w13_bias")
+        has_w2_bias = hasattr(layer, "w2_bias")
+
+        layer.gate_up_linear = []
+        layer.down_linear = []
+
+        for i in range(num_experts):
+            layer_w13_weight = layer.w13_weight[i]
+            layer_w13_bias = layer.w13_bias[i] if has_w13_bias else None
+            layer_w2_weight = layer.w2_weight[i]
+            layer_w2_bias = layer.w2_bias[i] if has_w2_bias else None
+            if use_onednn_mm:
+                gate_up_handle = ops.create_onednn_mm(layer_w13_weight.t(), 32)
+                layer.gate_up_linear.append(
+                    lambda x, handle=gate_up_handle, bias=layer_w13_bias: ops.onednn_mm(
+                        handle, x, bias
+                    )
+                )
+                down_handle = ops.create_onednn_mm(layer_w2_weight.t(), 32)
+                layer.down_linear.append(
+                    lambda x, handle=down_handle, bias=layer_w2_bias: ops.onednn_mm(
+                        handle, x, bias
+                    )
+                )
+            else:
+                layer.gate_up_linear.append(
+                    lambda x, w=layer_w13_weight, b=layer_w13_bias: F.linear(x, w, b)
+                )
+                layer.down_linear.append(
+                    lambda x, w=layer_w2_weight, b=layer_w2_bias: F.linear(x, w, b)
+                )
+        if use_onednn_mm:  # remove weight
+            layer.w13_weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
+
+    def __call__(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+    ) -> torch.Tensor:
+        assert activation in {"silu", "swigluoai"}, f"{activation} is not supported."
+        assert not apply_router_weight_on_input
+        topk_weights, topk_ids = select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+        )
+
+        # Ref code from https://github.com/sgl-project/sglang/blob/716e682721397df103f347d22da8bd46c6016dab/python/sglang/srt/layers/moe/fused_moe_native.py#L53
+        len_experts = global_num_experts
+
+        cnts = topk_ids.new_zeros((topk_ids.shape[0], len_experts))
+        cnts.scatter_(1, topk_ids.to(torch.int64), 1)
+        tokens_per_expert = cnts.sum(dim=0)
+        idxs = topk_ids.view(-1).argsort()
+
+        sorted_tokens = x[idxs // topk_ids.shape[1]]
+        tokens_per_expert = tokens_per_expert.cpu().numpy()
+
+        outputs = []
+        start_idx = 0
+
+        for i, num_tokens in enumerate(tokens_per_expert):
+            end_idx = start_idx + num_tokens
+            if num_tokens == 0:
+                continue
+            tokens_for_this_expert = sorted_tokens[start_idx:end_idx]
+
+            gate_up = layer.gate_up_linear[i](tokens_for_this_expert)
+            if activation == "swigluoai":
+                gate_up = swigluoai_and_mul(gate_up)
+            else:
+                gate_up = silu_and_mul(gate_up)
+            expert_out = layer.down_linear[i](gate_up)
+            outputs.append(expert_out)
+            start_idx = end_idx
+
+        outs = torch.cat(outputs, dim=0) if len(outputs) else sorted_tokens.new_empty(0)
+        new_x = torch.empty_like(outs)
+
+        new_x[idxs] = outs
+        final_out = (
+            new_x.view(*topk_ids.shape, -1)
+            .type(topk_weights.dtype)
+            .mul_(topk_weights.unsqueeze(dim=-1))
+            .sum(dim=1)
+            .type(new_x.dtype)
+        )
+        return final_out
diff --git a/model_executor/layers/fused_moe/cutlass_moe.py b/model_executor/layers/fused_moe/cutlass_moe.py
new file mode 100644
index 0000000..6753a19
--- /dev/null
+++ b/model_executor/layers/fused_moe/cutlass_moe.py
@@ -0,0 +1,1052 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""CUTLASS based Fused MoE kernels."""
+
+from collections.abc import Callable
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import (
+    moe_permute,
+    moe_unpermute,
+)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+    TopKWeightAndReduceNoOP,
+)
+from vllm.model_executor.layers.fused_moe.utils import _fp8_quantize, _resize_cache
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+
+def run_cutlass_moe_fp8(
+    output: torch.Tensor,
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation_callable: Callable,
+    global_num_experts: int,
+    expert_map: torch.Tensor | None,
+    w1_scale: torch.Tensor | None,
+    w2_scale: torch.Tensor | None,
+    a1q_scale: torch.Tensor | None,
+    a2_scale: torch.Tensor | None,
+    ab_strides1: torch.Tensor,
+    ab_strides2: torch.Tensor,
+    c_strides1: torch.Tensor,
+    c_strides2: torch.Tensor,
+    workspace13: torch.Tensor,
+    workspace2: torch.Tensor,
+    expert_num_tokens: torch.Tensor | None,
+    out_dtype: torch.dtype,
+    per_act_token: bool,
+    per_out_ch: bool,
+    use_batched_format: bool,
+    topk_weights: torch.Tensor | None,
+):
+    a1q = hidden_states
+
+    assert w1_scale is not None
+    assert w2_scale is not None
+    assert w1.dtype == torch.float8_e4m3fn
+    assert w2.dtype == torch.float8_e4m3fn
+    assert a1q.size(-1) == w1.size(2), "Hidden size mismatch w1"
+    assert w1.size(1) == w2.size(2) * 2, "Hidden size mismatch w2"
+    assert (
+        w1_scale.dim() == 1 or w1_scale.size(1) == 1 or w1_scale.shape[1] == w1.size(1)
+    ), "W1 scale shape mismatch"
+    assert (
+        w2_scale.dim() == 1 or w2_scale.size(1) == 1 or w2_scale.shape[1] == w2.size(1)
+    ), "W2 scale shape mismatch"
+    assert w1.size(0) == w2.size(0), "Expert number mismatch"
+    assert (
+        a1q_scale is None
+        or a1q_scale.dim() == 0
+        or a1q_scale.size(0) == 1
+        or a1q_scale.size(0) == a1q.shape[0]
+    ), "Input scale shape mismatch"
+    assert w1.size(0) == w2.size(0), "Weights expert number mismatch"
+    assert w1.size(0) == w1_scale.size(0), "w1 scales expert number mismatch"
+    assert w1.size(0) == w2_scale.size(0), "w2 scales expert number mismatch"
+    assert (
+        a2_scale is None
+        or a2_scale.dim() == 0
+        or a2_scale.size(0) == 1
+        or a2_scale.size(0) == a1q.shape[0]
+    ), "Intermediate scale shape mismatch"
+    assert out_dtype in [torch.half, torch.bfloat16], "Invalid output dtype"
+    if expert_map is not None:
+        assert expert_num_tokens is None
+
+    # We have two modes: batched experts and non-batched experts.
+    # In the non-batched mode, the input tokens are not padded: thus, the shape
+    # of the input is [total_num_tokens, hidden_size]. The input and output
+    # require shuffling by a_map and c_map such that the tokens assigned to
+    # each expert are contiguous.
+    # In the batched mode, the input tokens are padded per expert to ensure that
+    # the batched dispatch and combine functions work correctly: thus, the shape
+    # of the input is [num_experts, max_num_tokens_per_expert, hidden_size].
+    # The batched input and output require no shuffling by a_map and c_map since
+    # their tokens are already contiguous for each expert as a result of
+    # the dispatch function.
+
+    M = a1q.size(0)  # non batched expert M
+    padded_M = a1q.size(1)  # batched expert M
+    _, K, N = w2.shape
+    device = a1q.device
+
+    assert w1.size(2) == K
+    assert global_num_experts != -1
+    assert a1q_scale is not None
+
+    if expert_map is not None:
+        "Translate info from expert_map to topk_ids"
+        local_topk_ids = torch.where(
+            expert_map[topk_ids] != -1, expert_map[topk_ids], -1
+        )
+    else:
+        local_topk_ids = topk_ids
+
+    topk = local_topk_ids.size(1)
+    local_E = w1.size(0)
+
+    if use_batched_format:
+        mm1_out = _resize_cache(workspace13, (local_E * padded_M, N * 2))
+        act_out = _resize_cache(workspace2, (local_E * padded_M, N))
+        quant_out = _resize_cache(
+            workspace13.view(dtype=torch.float8_e4m3fn), (local_E * padded_M, N)
+        )
+        mm2_out = _resize_cache(workspace2, (local_E * padded_M, K))
+    else:
+        a1q_perm = _resize_cache(
+            workspace2.view(dtype=torch.float8_e4m3fn), (M * topk, K)
+        )
+        mm1_out = _resize_cache(workspace13, (M * topk, N * 2))
+        act_out = _resize_cache(workspace2, (M * topk, N))
+        # original workspace are based on input hidden_states dtype (bf16)
+        quant_out = _resize_cache(
+            workspace13.view(dtype=torch.float8_e4m3fn), (M * topk, N)
+        )
+        mm2_out = _resize_cache(workspace2, (M * topk, K))
+
+    if use_batched_format:
+        assert expert_num_tokens is not None
+
+        expert_offsets = torch.empty((local_E), dtype=torch.int32, device=device)
+        problem_sizes1 = torch.empty((local_E, 3), dtype=torch.int32, device=device)
+        problem_sizes2 = torch.empty((local_E, 3), dtype=torch.int32, device=device)
+
+        ops.get_cutlass_pplx_moe_mm_data(
+            expert_offsets,
+            problem_sizes1,
+            problem_sizes2,
+            expert_num_tokens,
+            local_E,
+            padded_M,
+            N,
+            K,
+        )
+
+        w1_scale = w1_scale.reshape(w1_scale.size(0), -1)
+        w2_scale = w2_scale.reshape(w2_scale.size(0), -1)
+        a1q = a1q.reshape(-1, a1q.size(2))
+        a1q_scale = a1q_scale.reshape(-1, a1q_scale.size(2)).contiguous()
+        # c3x get_group_gemm_starts expects int64 to avoid overflow
+        # during offset calculations
+        expert_offsets = expert_offsets.to(torch.int64)
+    else:
+        problem_sizes1 = torch.empty(
+            (global_num_experts, 3), dtype=torch.int32, device=device
+        )
+        problem_sizes2 = torch.empty(
+            (global_num_experts, 3), dtype=torch.int32, device=device
+        )
+
+        num_expert = global_num_experts if expert_map is None else expert_map.size(0)
+        # permuted a1q reuses workspace2
+        a1q, a1q_scale, expert_offsets, inv_perm, _ = moe_permute(
+            a1q,
+            a1q_scale,
+            topk_ids,
+            num_expert,
+            local_E,
+            expert_map,
+            permuted_hidden_states=a1q_perm,
+        )
+        expert_offsets = expert_offsets[:-1]
+
+        ops.get_cutlass_moe_mm_problem_sizes(
+            local_topk_ids, problem_sizes1, problem_sizes2, global_num_experts, N, K
+        )
+
+    if not per_act_token and (expert_map is not None or use_batched_format):
+        # this is necessary to avoid imprecise scale calculation caused by
+        # random data in the unused workspace. The workspace is unused when
+        # this rank handles only partial tokens, or when it is batched .
+        mm1_out.fill_(0)
+
+    ops.cutlass_moe_mm(
+        mm1_out,
+        a1q,
+        w1,
+        a1q_scale,
+        w1_scale,
+        expert_offsets,
+        problem_sizes1,
+        ab_strides1,
+        ab_strides1,
+        c_strides1,
+        per_act_token,
+        per_out_ch,
+    )
+
+    activation_callable(act_out, mm1_out)
+
+    a2q, a2q_scale = ops.scaled_fp8_quant(
+        act_out, a2_scale, use_per_token_if_dynamic=per_act_token, output=quant_out
+    )
+
+    if expert_map is not None:
+        mm2_out.fill_(0)
+
+    ops.cutlass_moe_mm(
+        mm2_out,
+        a2q,
+        w2,
+        a2q_scale,
+        w2_scale,
+        expert_offsets,
+        problem_sizes2,
+        ab_strides2,
+        ab_strides2,
+        c_strides2,
+        per_act_token,
+        per_out_ch,
+    )
+
+    if use_batched_format:
+        output.copy_(mm2_out.reshape(local_E, padded_M, K), non_blocking=True)
+    else:
+        # for non-chunking mode the output is resized from workspace13
+        # so we need to make sure mm2_out uses workspace2.
+        moe_unpermute(
+            out=output,
+            permuted_hidden_states=mm2_out,
+            topk_weights=topk_weights,
+            inv_permuted_idx=inv_perm,
+        )
+
+
+class CutlassExpertsFp8Base(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        out_dtype: torch.dtype | None,
+        ab_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides1: torch.Tensor,
+        c_strides2: torch.Tensor,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        assert quant_config.use_fp8_w8a8
+        super().__init__(quant_config)
+        self.out_dtype = out_dtype
+        self.ab_strides1 = ab_strides1
+        self.ab_strides2 = ab_strides2
+        self.c_strides1 = c_strides1
+        self.c_strides2 = c_strides2
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # Let PrepareAndFinalize::finalize() decide the impl.
+        return TopKWeightAndReduceDelegate()
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert self.w1_zp is None, "w1_zp is not supported in CUTLASS MoE"
+        assert self.w2_zp is None, "w2_zp is not supported in CUTLASS MoE"
+
+        expert_num_tokens = None
+        if expert_tokens_meta is not None:
+            expert_num_tokens = expert_tokens_meta.expert_num_tokens
+
+        activation_callable = lambda o, i: self.activation(activation, o, i)
+
+        use_batched_format = (
+            self.activation_formats[0] == mk.FusedMoEActivationFormat.BatchedExperts
+        )
+
+        in_dtype = hidden_states.dtype
+        run_cutlass_moe_fp8(
+            output,
+            hidden_states,
+            w1,
+            w2,
+            topk_ids,
+            activation_callable,
+            global_num_experts,
+            expert_map,
+            self.w1_scale,
+            self.w2_scale,
+            a1q_scale,
+            a2_scale,
+            self.ab_strides1,
+            self.ab_strides2,
+            self.c_strides1,
+            self.c_strides2,
+            workspace13,
+            workspace2,
+            expert_num_tokens,
+            self.out_dtype if self.out_dtype is not None else in_dtype,
+            self.per_act_token_quant,
+            self.per_out_ch_quant,
+            use_batched_format,
+            topk_weights,
+        )
+
+
+class CutlassExpertsFp8(CutlassExpertsFp8Base):
+    def __init__(
+        self,
+        out_dtype: torch.dtype | None,
+        ab_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides1: torch.Tensor,
+        c_strides2: torch.Tensor,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        super().__init__(
+            out_dtype,
+            ab_strides1,
+            ab_strides2,
+            c_strides1,
+            c_strides2,
+            quant_config,
+        )
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # topk weights and reduction are fused in moe_unpermute cuda kernel
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
+        return self.out_dtype if self.out_dtype is not None else act_dtype
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        workspace1 = (M * topk, max(N, K))
+        workspace2 = (M * topk, max(N // 2, K))
+        output = (M, K)
+        return (workspace1, workspace2, output)
+
+
+class CutlassBatchedExpertsFp8(CutlassExpertsFp8Base):
+    def __init__(
+        self,
+        max_experts_per_worker: int,
+        num_dispatchers: int,
+        out_dtype: torch.dtype | None,
+        ab_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides1: torch.Tensor,
+        c_strides2: torch.Tensor,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        super().__init__(
+            out_dtype,
+            ab_strides1,
+            ab_strides2,
+            c_strides1,
+            c_strides2,
+            quant_config,
+        )
+        assert max_experts_per_worker > 0
+        self.max_experts_per_worker = max_experts_per_worker
+        self.num_dispatchers = num_dispatchers
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.BatchedExperts,
+            mk.FusedMoEActivationFormat.BatchedExperts,
+        )
+
+    def supports_chunking(self) -> bool:
+        return False
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
+        return self.out_dtype if self.out_dtype is not None else act_dtype
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        num_dp = self.num_dispatchers
+        assert num_dp is not None
+        workspace1 = (self.max_experts_per_worker, M * num_dp, max(N, K))
+        workspace2 = (self.max_experts_per_worker, M * num_dp, max(N // 2, K))
+        output = (self.max_experts_per_worker, M, K)
+        return (workspace1, workspace2, output)
+
+
+def cutlass_moe_fp8(
+    a: torch.Tensor,
+    w1_q: torch.Tensor,
+    w2_q: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    ab_strides1: torch.Tensor,
+    ab_strides2: torch.Tensor,
+    c_strides1: torch.Tensor,
+    c_strides2: torch.Tensor,
+    quant_config: FusedMoEQuantConfig,
+    activation: str = "silu",
+    expert_map: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+) -> torch.Tensor:
+    """
+    This function computes a a8w8-quantized Mixture of Experts (MoE) layer
+    using two sets of quantized weights, w1_q and w2_q, and top-k gating
+    mechanism. The matrix multiplications are implemented with CUTLASS
+    grouped gemm.
+
+    Parameters:
+    - a (torch.Tensor): The input tensor to the MoE layer.
+        Shape: [M, K]
+    - w1_q (torch.Tensor): The first set of fp8-quantized expert weights.
+        Shape: [num_experts, K, 2N] (the weights are passed transposed)
+    - w2_q (torch.Tensor): The second set of fp8-quantized expert weights.
+        Shape: [num_experts, N, K] (the weights are passed transposed)
+    - topk_weights (torch.Tensor): The weights of each token->expert mapping.
+    - topk_ids (torch.Tensor): The token->expert mappings.
+    - w1_scale (torch.Tensor): The fp32 scale to dequantize w1_q.
+        Shape: [num_experts] or [num_experts, 2N]
+    - w2_scale (torch.Tensor): The fp32 scale to dequantize w2_q.
+        Shape: [num_experts] or [num_experts, K]
+    - ab_strides1 (torch.Tensor): The input/weight strides for the first gemm.
+        Shape: [num_experts]
+    - ab_strides2 (torch.Tensor): The input/weight strides for the second gemm.
+        Shape: [num_experts]
+    - c_strides1 (torch.Tensor): The output strides for the first gemm.
+        Shape: [num_experts]
+    - c_strides2 (torch.Tensor): The output strides for the second gemm.
+        Shape: [num_experts]
+    - per_act_token (Optional[bool]): Whether the scale is per-token or
+                                      per-tensor.
+    - activation (str): The activation function to use.
+    - a1_scale (Optional[torch.Tensor]): The optional fp32 scale to quantize a.
+        Shape: scalar or [M]
+    - a2_scale (Optional[torch.Tensor]): The optional fp32 scale to
+        quantize the intermediate result between the gemms.
+        Shape: scalar or [M]
+    - expert_map (Optional[torch.Tensor]): In the case of Expert parallel,
+        every Rank is responsible for a subset of experts. expert_map is a
+        mapping from global expert-id to local expert-id. When expert_map[i]
+        is -1, it means that this Rank is not responsible for global
+        expert-id i.
+    - apply_router_weight_on_input (bool): When true, the topk weights are
+        applied directly on the inputs. This is only applicable when topk is 1.
+    - global_num_experts (int): The total number of experts.
+
+    Returns:
+    - torch.Tensor: The fp16 output tensor after applying the MoE layer.
+    """
+    assert quant_config is not None
+
+    if quant_config.a1_scale is not None:
+        assert quant_config.per_act_token_quant == (quant_config.a1_scale.numel() != 1)
+    if quant_config.a2_scale is not None:
+        assert quant_config.per_act_token_quant == (quant_config.a2_scale.numel() != 1)
+
+    if quant_config.w1_scale is not None:
+        if quant_config.per_out_ch_quant:
+            assert quant_config.w1_scale.dim() > 1 and quant_config.w1_scale.size(
+                1
+            ) == w1_q.size(1)
+        else:
+            assert (
+                quant_config.w1_scale.dim() == 1 or quant_config.w1_scale.size(1) == 1
+            )
+
+    num_experts = global_num_experts if global_num_experts != -1 else w1_q.size(0)
+
+    fn = mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(),
+        CutlassExpertsFp8(
+            out_dtype=a.dtype,
+            ab_strides1=ab_strides1,
+            ab_strides2=ab_strides2,
+            c_strides1=c_strides1,
+            c_strides2=c_strides2,
+            quant_config=quant_config,
+        ),
+    )
+
+    return fn(
+        a,
+        w1_q,
+        w2_q,
+        topk_weights,
+        topk_ids,
+        activation=activation,
+        global_num_experts=num_experts,
+        expert_map=expert_map,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
+
+
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+
+
+def run_cutlass_moe_fp4(
+    output: torch.Tensor,
+    a: torch.Tensor,
+    a1_gscale: torch.Tensor,
+    w1_fp4: torch.Tensor,
+    w1_blockscale: torch.Tensor,
+    w1_alphas: torch.Tensor,
+    a2_gscale: torch.Tensor,
+    w2_fp4: torch.Tensor,
+    w2_blockscale: torch.Tensor,
+    w2_alphas: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    workspace13: torch.Tensor,
+    workspace2: torch.Tensor,
+    m: int,
+    n: int,
+    k: int,
+    e: int,
+    device: torch.device,
+    apply_router_weight_on_input: bool = False,
+) -> None:
+    """
+    MoE implementation for FP4 Inputs
+
+    # Gemm 1
+    a: Input tensor: [m, k] (half/bfloat16)
+    a1_gscale: Activation scale per expert: [e]  (float32)
+    w1(gate up) (not an argument to cutlass_moe_fp4): [e, 2 * n, k]
+    w1_fp4: [e, 2 * n, k // 2], dtype: torch.uint8 (stacked fp4: E2M1)
+    (Note: `n` is the up projection output dim, `k` is the input dim in
+     full precision)
+    w1_blockscale: [e, 2 * n, k // block_size] (float8_e4m3)
+                   (Block size = 16 for NVFP4)
+
+    # Gemm 2
+    a2_gscale: Activation scale per expert: [e]
+    w2(down projection) (not an argument to cutlass_moe_fp4): [e, k, n]
+    w2_fp4: [e, k, n // 2], dtype: torch.uint8 (stacked E2M1)
+    w2_blockscale: [e, k, n // block_size], dtype: float8_e4m3
+
+    topk_weights: [m, topk] dtype: float8
+    topk_ids: [m, topk] dtype: float8
+
+    m, n, k: Unquantized weight shapes, dtype: int
+    e: number of experts, dtype: int
+
+    assumes that topk < k < n to satisfy - up/down projection expectations.
+    """
+    assert topk_weights.shape == topk_ids.shape, "topk shape mismatch"
+    assert w1_fp4.dtype == torch.uint8, "weight 1 must be uint8"
+    assert w2_fp4.dtype == torch.uint8, "weight 2 must be uint8"
+    assert (
+        w1_fp4.ndim == 3
+        and w2_fp4.ndim == 3
+        and w1_blockscale.ndim == 3
+        and w2_blockscale.ndim == 3
+    ), "All Weights must be of rank 3 for cutlass_moe_fp4"
+    m_a, k_a = a.shape
+    e_w1, nx2_w1, half_k_w1 = w1_fp4.shape
+    e_w2, k_w2, half_n_w2 = w2_fp4.shape
+
+    assert e_w1 == e_w2 and e_w1 == e, (
+        "Number of experts must match",
+        f" between weights. {e_w1}, {e_w2}, {e}",
+    )
+    assert k_a == half_k_w1 * 2 and k == k_w2, (
+        "Hidden size mismatch between a, w1 and w2"
+    )
+    assert nx2_w1 == n * 2 and half_n_w2 * 2 == n, "mismatch in expected `n`"
+    assert m == m_a, "input shape mismatch"
+    assert 2 * half_k_w1 == k_w2, "Hidden size mismatch w2 and w1"
+    assert a.dtype in [torch.half, torch.bfloat16], "Invalid input dtype"
+    assert topk_weights.size(0) == m and topk_ids.size(0) == m, (
+        "topk must be provided for each row of a"
+    )
+    topk = topk_ids.size(1)
+    out_dtype = a.dtype
+    num_topk = topk_ids.size(1)
+
+    expert_offsets = torch.empty((e + 1), dtype=torch.int32, device=device)
+    blockscale_offsets = torch.empty((e + 1), dtype=torch.int32, device=device)
+    # Problem size:  (num_experts, (m,2n,k))
+    problem_sizes1 = torch.empty((e, 3), dtype=torch.int32, device=device)
+    # Problem size:  (num_experts, (m,n,k))
+    problem_sizes2 = torch.empty((e, 3), dtype=torch.int32, device=device)
+
+    a_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+    c_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+
+    if apply_router_weight_on_input:
+        # TODO: this only works for topK=1, will need to update for topK>1
+        assert num_topk == 1, (
+            "apply_router_weight_on_input is only implemented for topk=1"
+        )
+        a.mul_(topk_weights.to(out_dtype))
+
+    # problem shapes should have [m, n, k]
+    # Note that problem sizes are based on logical number of elements.
+    ops.get_cutlass_moe_mm_data(
+        topk_ids,
+        expert_offsets,
+        problem_sizes1,
+        problem_sizes2,
+        a_map,
+        c_map,
+        e,
+        n,
+        k,
+        blockscale_offsets,
+    )
+
+    a = ops.shuffle_rows(a, a_map)
+    rep_a_fp4, rep_a_blockscale = ops.scaled_fp4_experts_quant(
+        a,
+        a1_gscale,
+        expert_offsets,
+        blockscale_offsets,
+        num_topk,
+    )
+    c1 = _resize_cache(workspace13, (m * topk, n * 2))
+    c2 = _resize_cache(workspace2, (m * topk, n))
+    c3 = _resize_cache(workspace13, (m * topk, k))
+    ops.cutlass_fp4_moe_mm(
+        c1,
+        rep_a_fp4,
+        w1_fp4,
+        rep_a_blockscale,
+        w1_blockscale,
+        w1_alphas,
+        problem_sizes1,
+        expert_offsets[:-1],
+        blockscale_offsets[:-1],
+    )
+    del rep_a_fp4, rep_a_blockscale
+    torch.ops._C.silu_and_mul(c2, c1)
+    int_fp4, int_blockscale = ops.scaled_fp4_experts_quant(
+        c2, a2_gscale, expert_offsets, blockscale_offsets, num_topk
+    )
+
+    ops.cutlass_fp4_moe_mm(
+        c3,
+        int_fp4,
+        w2_fp4,
+        int_blockscale,
+        w2_blockscale,
+        w2_alphas,
+        problem_sizes2,
+        expert_offsets[:-1],
+        blockscale_offsets[:-1],
+    )
+    del int_fp4, int_blockscale
+
+    c3 = ops.shuffle_rows(c3, c_map)
+
+    assert output.dtype == out_dtype
+    if not apply_router_weight_on_input:
+        output.copy_(
+            (
+                c3.view(m, num_topk, k)
+                * topk_weights.view(m, num_topk, 1).to(out_dtype)
+            ).sum(dim=1),
+            non_blocking=True,
+        )
+    else:
+        output.copy_(c3.view(m, num_topk, k).sum(dim=1), non_blocking=True)
+    return
+
+
+# Split into batched and non-batched
+class CutlassExpertsFp4(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        max_experts_per_worker: int,
+        out_dtype: torch.dtype,
+        quant_config: FusedMoEQuantConfig,
+        use_batched_format: bool = False,
+    ):
+        super().__init__(quant_config)
+        self.max_experts_per_worker = max_experts_per_worker
+        self.out_dtype = out_dtype
+        self.use_batched_format = use_batched_format
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        if self.use_batched_format:
+            return (
+                mk.FusedMoEActivationFormat.BatchedExperts,
+                mk.FusedMoEActivationFormat.BatchedExperts,
+            )
+        else:
+            return (
+                mk.FusedMoEActivationFormat.Standard,
+                mk.FusedMoEActivationFormat.Standard,
+            )
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
+        return self.out_dtype if self.out_dtype is not None else act_dtype
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        workspace1: tuple[int, ...] = ()
+        workspace2: tuple[int, ...] = ()
+        output: tuple[int, ...] = ()
+        if self.use_batched_format:
+            workspace1 = (self.max_experts_per_worker, M, max(N, K))
+            workspace2 = (self.max_experts_per_worker, M, (N // 2))
+            output = (self.max_experts_per_worker, M, K)
+        else:
+            workspace1 = (M * topk, max(2 * N, K))
+            workspace2 = (M * topk, N)
+            output = (M, K)
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,  # unused
+        a2_scale: torch.Tensor | None,  # unused
+        workspace13: torch.Tensor | None,
+        workspace2: torch.Tensor | None,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        e, m, n, k, _ = self.moe_problem_size(hidden_states, w1, w2, topk_ids)
+        n = w2.shape[2] * 2
+
+        run_cutlass_moe_fp4(
+            output=output,
+            a=hidden_states,
+            a1_gscale=self.a1_gscale,
+            w1_fp4=w1,
+            w1_blockscale=self.w1_scale,
+            w1_alphas=self.g1_alphas,
+            a2_gscale=self.a2_gscale,
+            w2_fp4=w2,
+            w2_blockscale=self.w2_scale,
+            w2_alphas=self.g2_alphas,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            workspace13=workspace13,
+            workspace2=workspace2,
+            m=m,
+            n=n,
+            k=k,
+            e=e,
+            device=hidden_states.device,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+        )
+
+
+def cutlass_moe_fp4(
+    a: torch.Tensor,
+    w1_fp4: torch.Tensor,
+    w2_fp4: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    quant_config: FusedMoEQuantConfig,
+    m: int,
+    n: int,
+    k: int,
+    e: int,
+    expert_map: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+) -> torch.Tensor:
+    assert expert_map is None, (
+        "Expert Parallelism / expert_map "
+        "is currently not supported for "
+        "ModelOptNvFp4FusedMoE's cutlass_moe_fp4."
+    )
+
+    # TODO(bnell): this feels a bit hacky
+    # NVFP4 requires two levels of quantization, which involves
+    # computing some scaling factors dynamically. This makes it
+    # incompatible with the typical prepare -> MoE -> finalize
+    # pipeline. Move the quantization logic into the MoE body.
+    quant_config = FusedMoEQuantConfig.make(
+        quant_dtype=None,  # skip quantization in prepare/finalize
+        per_act_token_quant=quant_config.per_act_token_quant,
+        per_out_ch_quant=quant_config.per_out_ch_quant,
+        block_shape=quant_config.block_shape,
+        g1_alphas=quant_config.g1_alphas,
+        g2_alphas=quant_config.g2_alphas,
+        a1_gscale=quant_config.a1_gscale,
+        a2_gscale=quant_config.a2_gscale,
+        w1_scale=quant_config.w1_scale,
+        w2_scale=quant_config.w2_scale,
+    )
+
+    fn = mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(),
+        CutlassExpertsFp4(
+            max_experts_per_worker=e,
+            out_dtype=a.dtype,
+            quant_config=quant_config,
+            use_batched_format=False,
+        ),
+    )
+
+    return fn(
+        hidden_states=a,
+        w1=w1_fp4,
+        w2=w2_fp4,
+        topk_weights=topk_weights,
+        topk_ids=topk_ids,
+        inplace=False,
+        activation="silu",
+        global_num_experts=e,
+        expert_map=None,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
+
+
+def _valid_cutlass_block_scaled_grouped_gemm(
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    inplace: bool,
+    activation: str,
+    apply_router_weight_on_input: bool,
+    expert_map: torch.Tensor | None,
+) -> bool:
+    def _valid_cutlass_block_scaled_grouped_gemm_shape(N: int, K: int):
+        return N % 128 == 0 and K % 128 == 0
+
+    _, K, N = w2.size()
+    if not _valid_cutlass_block_scaled_grouped_gemm_shape(N, K):
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled: unaligned problem size. "
+            "N: %s, K: %s",
+            N,
+            K,
+        )
+        return False
+
+    if w1.dtype != torch.float8_e4m3fn or w2.dtype != torch.float8_e4m3fn:
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled: invalid weight dtype(s). "
+            "w1.dtype: %s, w2.dtype: %s",
+            w1.dtype,
+            w2.dtype,
+        )
+        return False
+
+    if expert_map is not None:
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled: expert_parallel is not supported."
+        )
+        return False
+
+    if activation != "silu":
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled: only activation silu is supported."
+        )
+        return False
+
+    if apply_router_weight_on_input:
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled:"
+            " apply_router_weight_on_input is not supported."
+        )
+        return False
+
+    if inplace:
+        logger.debug_once(
+            "CutlassBlockScaledGroupedGemm disabled: inplace is not supported."
+        )
+        return False
+
+    return True
+
+
+# TODO(bnell): would be nice combine/integrate with regular cutlass_fp8.
+def run_cutlass_block_scaled_fused_experts(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+) -> torch.Tensor:
+    w1_q = w1.transpose(1, 2)
+    w2_q = w2.transpose(1, 2)
+    w1_scale = w1_scale.transpose(1, 2)
+    w2_scale = w2_scale.transpose(1, 2)
+
+    assert topk_weights.shape == topk_ids.shape, "topk shape mismatch"
+    assert a.shape[0] == topk_ids.shape[0], (
+        "a and topk_ids must have the same batch size"
+    )
+    assert w1_q.dtype == torch.float8_e4m3fn, "w1_q must be float8_e4m3fn"
+    assert w2_q.dtype == torch.float8_e4m3fn, "w2_q must be float8_e4m3fn"
+    assert a.shape[1] == w1_q.shape[1], "Hidden size mismatch w1"
+    assert w1_q.shape[2] == w2_q.shape[1] * 2, "Hidden size mismatch w2"
+    assert w1_q.shape[0] == w2_q.shape[0], "Expert number mismatch"
+    assert w1_q.shape[0] == w1_scale.shape[0], "w1_scale expert number mismatch"
+    assert w1_q.shape[0] == w2_scale.shape[0], "w2_scale expert number mismatch"
+    assert a.dtype in [torch.half, torch.bfloat16], "Invalid output dtype"
+
+    out_dtype = a.dtype
+    num_experts = w1_q.size(0)
+    m = a.size(0)
+    k = w1_q.size(1)
+    n = w2_q.size(1)
+
+    topk = topk_ids.size(1)
+
+    a_q, a1_scale = _fp8_quantize(
+        a, A_scale=None, per_act_token=False, block_shape=[128, 128]
+    )
+    device = a_q.device
+
+    expert_offsets = torch.empty((num_experts + 1,), dtype=torch.int32, device=device)
+    problem_sizes1 = torch.empty((num_experts, 3), dtype=torch.int32, device=device)
+    problem_sizes2 = torch.empty((num_experts, 3), dtype=torch.int32, device=device)
+
+    a_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+    c_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+
+    ops.get_cutlass_moe_mm_data(
+        topk_ids,
+        expert_offsets,
+        problem_sizes1,
+        problem_sizes2,
+        a_map,
+        c_map,
+        num_experts,
+        n,
+        k,
+    )
+
+    rep_a_q = a_q.view(dtype=torch.uint8)[a_map].view(dtype=a_q.dtype)
+    rep_a1_scales = a1_scale[a_map]
+
+    c1 = torch.empty((m * topk, n * 2), dtype=out_dtype, device=device)
+    c2 = torch.empty((m * topk, k), dtype=out_dtype, device=device)
+
+    ops.cutlass_blockwise_scaled_grouped_mm(
+        c1,
+        rep_a_q,
+        w1_q,
+        rep_a1_scales,
+        w1_scale,
+        problem_sizes1,
+        expert_offsets[:-1],
+    )
+
+    intermediate = torch.empty((m * topk, n), dtype=out_dtype, device=device)
+    torch.ops._C.silu_and_mul(intermediate, c1)
+
+    intermediate_q, a2_scale = _fp8_quantize(
+        intermediate, A_scale=None, per_act_token=False, block_shape=[128, 128]
+    )
+
+    ops.cutlass_blockwise_scaled_grouped_mm(
+        c2,
+        intermediate_q,
+        w2_q,
+        a2_scale,
+        w2_scale,
+        problem_sizes2,
+        expert_offsets[:-1],
+    )
+
+    return (
+        c2[c_map].view(m, topk, k) * topk_weights.view(m, topk, 1).to(out_dtype)
+    ).sum(dim=1)
diff --git a/model_executor/layers/fused_moe/deep_gemm_moe.py b/model_executor/layers/fused_moe/deep_gemm_moe.py
new file mode 100644
index 0000000..86cdd25
--- /dev/null
+++ b/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -0,0 +1,387 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+from tqdm import tqdm
+
+import vllm.envs as env
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    fp8_w8a8_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.deep_gemm_utils import (
+    compute_aligned_M,
+    deepgemm_moe_permute,
+    deepgemm_unpermute_and_reduce,
+)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+from vllm.model_executor.layers.fused_moe.utils import _resize_cache
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    per_token_group_quant_fp8,
+)
+from vllm.utils.deep_gemm import (
+    get_mk_alignment_for_contiguous_layout,
+    m_grouped_fp8_gemm_nt_contiguous,
+)
+from vllm.utils.func_utils import run_once
+from vllm.utils.import_utils import has_deep_gemm
+
+logger = init_logger(__name__)
+
+
+def _valid_deep_gemm_shape(M: int, N: int, K: int) -> bool:
+    align = get_mk_alignment_for_contiguous_layout()[0]
+    return align <= M and N % align == 0 and K % align == 0
+
+
+def _valid_deep_gemm(
+    hidden_states: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor
+) -> bool:
+    """
+    Check if the given problem size is supported by the DeepGemm grouped
+    gemm kernel.  All of M, N, K and the quantization block_shape must be
+    aligned by `dg.get_m_alignment_for_contiguous_layout()`.
+    """
+    if not has_deep_gemm():
+        logger.debug_once("DeepGemm disabled: deep_gemm not available.")
+        return False
+
+    M = hidden_states.size(0)
+    _, K, N = w2.size()
+
+    align = get_mk_alignment_for_contiguous_layout()[0]
+
+    if not _valid_deep_gemm_shape(M, N, K):
+        logger.debug_once(
+            "DeepGemm disabled due to unaligned problem size. "
+            "M: %s, N: %s, K: %s. M should >= %s "
+            "and N and K must be multiples of %s. "
+            "This is not an error and we will fall back to triton.",
+            M,
+            N,
+            K,
+            align,
+            align,
+        )
+        return False
+    elif N <= 512:
+        logger.debug_once(
+            "DeepGemm disabled for N <= 512. M: %s, N: %s, K: %s. "
+            "This means we will fallback to triton "
+            "for this specific shape for further speed up.",
+            M,
+            N,
+            K,
+        )
+        return False
+
+    if w1.dtype != torch.float8_e4m3fn or w2.dtype != torch.float8_e4m3fn:
+        logger.debug_once(
+            "DeepGemm disabled: invalid weight dtype(s). w1.dtype: %s, w2.dtype: %s",
+            w1.dtype,
+            w2.dtype,
+        )
+        return False
+
+    if (
+        not hidden_states.is_contiguous()
+        or not w1.is_contiguous()
+        or not w2.is_contiguous()
+    ):
+        logger.debug_once(
+            "DeepGemm disabled: weights or activations not contiguous. "
+            "hidden_states.is_contiguous(): %s, w1.is_contiguous(): %s, "
+            "w2.is_contiguous(): %s",
+            hidden_states.is_contiguous(),
+            w1.is_contiguous(),
+            w2.is_contiguous(),
+        )
+        return False
+
+    return True
+
+
+@run_once
+def warmup_deepgemm_gg_contiguous_kernels(
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    num_topk: int,
+):
+    """
+    DeepGemm JITs the grouped-gemm kernels. The JIT'ing happens based on the
+    input tensor shapes. In this function, we construct all possible input
+    tensor shapes so all the kernels are JIT'ed and cached.
+    Note that this warmup is expected to happen during the model profile
+    call and not during actual model inference.
+    """
+
+    assert w1.size(0) == w2.size(0), "w1 and w2 must have the same number of experts"
+
+    block_m = get_mk_alignment_for_contiguous_layout()[0]
+    num_experts = w1.size(0)
+    device = w1.device
+
+    # This is the maximum GroupedGemm M size that we expect to run
+    # the grouped_gemm with.
+    MAX_M = compute_aligned_M(
+        env.VLLM_FUSED_MOE_CHUNK_SIZE,
+        num_topk,
+        num_experts,
+        block_m,
+        expert_tokens_meta=None,
+    )
+    # Distribute expert-ids evenly.
+    MAX_BLOCKS = MAX_M // block_m
+    expert_ids_block = torch.randint(
+        low=0, high=num_experts, size=(MAX_BLOCKS,), device=device, dtype=torch.int32
+    )
+    expert_ids = torch.repeat_interleave(expert_ids_block, block_m, dim=0)
+
+    def _warmup(w: torch.Tensor, w_scale: torch.Tensor):
+        _, n, k = w.size()
+        a1q = torch.empty((MAX_M, k), device=device).to(torch.float8_e4m3fn)
+        a1q_scales = torch.empty(
+            (MAX_M, k // block_m), device=device, dtype=torch.float32
+        )
+        out = torch.empty((MAX_M, n), device=device, dtype=torch.bfloat16)
+
+        pbar = tqdm(
+            total=MAX_BLOCKS, desc=f"DeepGemmExperts GEMM warmup (MAX_M={MAX_M})"
+        )
+        num_tokens = MAX_M
+        while num_tokens > 0:
+            m_grouped_fp8_gemm_nt_contiguous(
+                (a1q[:num_tokens], a1q_scales[:num_tokens]),
+                (w, w_scale),
+                out[:num_tokens],
+                expert_ids[:num_tokens],
+            )
+            pbar.update(1)
+            num_tokens = num_tokens - block_m
+
+    _warmup(w1, w1_scale)
+    _warmup(w2, w2_scale)
+
+
+class DeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(self, quant_config: FusedMoEQuantConfig):
+        super().__init__(quant_config)
+        assert quant_config.block_shape == get_mk_alignment_for_contiguous_layout()
+        assert quant_config.quant_dtype == torch.float8_e4m3fn
+        assert not quant_config.per_act_token_quant
+        assert not quant_config.per_out_ch_quant
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        assert self.block_shape is not None
+        block_m = self.block_shape[0]
+        M_sum = compute_aligned_M(
+            M, topk, local_num_experts, block_m, expert_tokens_meta
+        )
+        assert M_sum % block_m == 0
+
+        workspace1 = (M_sum, N)
+        workspace2 = (M_sum, max(N // 2, K))
+        output = (M, K)
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert a1q_scale is not None
+        assert a2_scale is None
+        assert self.block_shape is not None
+        assert self.w1_scale is not None
+        assert self.w2_scale is not None
+
+        a1q = hidden_states
+        _, N, K = w1.size()
+
+        local_num_experts = w1.size(0)
+        if global_num_experts == -1:
+            global_num_experts = local_num_experts
+
+        assert w2.size(1) == K
+
+        M_sum = compute_aligned_M(
+            M=topk_ids.size(0),
+            num_topk=topk_ids.size(1),
+            local_num_experts=local_num_experts,
+            alignment=get_mk_alignment_for_contiguous_layout()[0],
+            expert_tokens_meta=expert_tokens_meta,
+        )
+
+        a1q_perm = _resize_cache(workspace2.view(dtype=torch.float8_e4m3fn), (M_sum, K))
+        mm1_out = _resize_cache(workspace13, (M_sum, N))
+        act_out = _resize_cache(workspace2, (M_sum, N // 2))
+        quant_out = _resize_cache(
+            workspace13.view(dtype=torch.float8_e4m3fn), (M_sum, N // 2)
+        )
+        mm2_out = _resize_cache(workspace2, (M_sum, K))
+
+        a1q, a1q_scale, expert_ids, inv_perm = deepgemm_moe_permute(
+            aq=a1q,
+            aq_scale=a1q_scale,
+            topk_ids=topk_ids,
+            local_num_experts=local_num_experts,
+            expert_map=expert_map,
+            expert_tokens_meta=expert_tokens_meta,
+            aq_out=a1q_perm,
+        )
+        assert a1q.size(0) == M_sum
+
+        m_grouped_fp8_gemm_nt_contiguous(
+            (a1q, a1q_scale), (w1, self.w1_scale), mm1_out, expert_ids
+        )
+
+        self.activation(activation, act_out, mm1_out.view(-1, N))
+
+        a2q_scale: torch.Tensor | None = None
+        a2q, a2q_scale = per_token_group_quant_fp8(
+            act_out, self.block_shape[1], column_major_scales=True, out_q=quant_out
+        )
+
+        m_grouped_fp8_gemm_nt_contiguous(
+            (a2q, a2q_scale), (w2, self.w2_scale), mm2_out, expert_ids
+        )
+
+        if apply_router_weight_on_input:
+            topk_weights = torch.ones_like(topk_weights)
+
+        deepgemm_unpermute_and_reduce(
+            a=mm2_out,
+            topk_ids=topk_ids,
+            topk_weights=topk_weights,
+            inv_perm=inv_perm,
+            expert_map=expert_map,
+            output=output,
+        )
+
+
+def deep_gemm_moe_fp8(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    inplace: bool = False,
+    activation: str = "silu",
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    apply_router_weight_on_input=False,
+) -> torch.Tensor:
+    """
+    This function computes a a8w8-quantized Mixture of Experts (MoE) layer
+    using two sets of quantized weights, w1_q and w2_q, and top-k gating
+    mechanism. The matrix multiplications are implemented with DeepGemm
+    grouped gemm.
+
+    Parameters:
+    - hidden_states (torch.Tensor): The input tensor to the MoE layer.
+        Shape: [M, K]
+    - w1 (torch.Tensor): The first set of fp8 quantized expert weights.
+        Shape: [num_experts, K, 2N] (the weights are passed transposed)
+    - w2 (torch.Tensor): The second set of fp8 quantized expert weights.
+        Shape: [num_experts, N, K] (the weights are passed transposed)
+    - w1_scale (torch.Tensor): The fp32 scale to dequantize w1_q.
+        Shape: [num_experts] or [num_experts, 2N]
+    - w2_scale (torch.Tensor): The fp32 scale to dequantize w2_q.
+        Shape: [num_experts] or [num_experts, K]
+    - topk_weights (torch.Tensor): The weights of each token->expert mapping.
+    - topk_ids (torch.Tensor): The token->expert mapping for topk_weights.
+    - inplace (bool): If True, perform the operation in-place.
+        Defaults to False.
+    - activation (str): The activation function to apply after the first
+        MoE layer.
+    - global_num_experts (int): The total number of experts in the global
+        expert space.
+    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+        from the global expert space to the local expert space of the expert
+        parallel shard.
+    - a1_scale (Optional[torch.Tensor]): The optional fp32 scale to quantize a.
+        Shape: scalar or [M]
+    - a2_scale (Optional[torch.Tensor]): The optional fp32 scale to
+        quantize the intermediate result between the gemms.
+        Shape: scalar or [M]
+
+    Returns:
+    - torch.Tensor: The bfloat16 output tensor after applying the MoE layer.
+    """
+    quant_config = fp8_w8a8_moe_quant_config(
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        block_shape=get_mk_alignment_for_contiguous_layout(),
+    )
+
+    fn = mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(),
+        DeepGemmExperts(quant_config),
+    )
+    return fn(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        inplace=inplace,
+        activation=activation,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
diff --git a/model_executor/layers/fused_moe/deep_gemm_utils.py b/model_executor/layers/fused_moe/deep_gemm_utils.py
new file mode 100644
index 0000000..6cca954
--- /dev/null
+++ b/model_executor/layers/fused_moe/deep_gemm_utils.py
@@ -0,0 +1,416 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Taken from https://github.com/ModelTC/LightLLM/blob/8ed97c74c18f11505b048b1ba00ba5c0cef8bff6/lightllm/common/fused_moe/deepep_scatter_gather.py
+and updated to fit vllm needs and terminology.
+"""
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.utils import count_expert_num_tokens
+from vllm.triton_utils import tl, triton
+from vllm.utils.deep_gemm import get_mk_alignment_for_contiguous_layout
+from vllm.utils.math_utils import round_up
+
+
+def expert_num_tokens_round_up_and_sum(
+    expert_num_tokens: torch.Tensor, alignment: int
+) -> int:
+    # Round up each element in expert_num_tokens to the nearest multiple of
+    # alignment.
+    ent = (expert_num_tokens.to(torch.int64) + (alignment - 1)) // alignment * alignment
+    return torch.sum(ent).item()
+
+
+def compute_aligned_M(
+    M: int,
+    num_topk: int,
+    local_num_experts: int,
+    alignment: int,
+    expert_tokens_meta: mk.ExpertTokensMetadata | None,
+):
+    if (expert_tokens_meta is not None) and (
+        expert_tokens_meta.expert_num_tokens_cpu is not None
+    ):
+        return expert_num_tokens_round_up_and_sum(
+            expert_tokens_meta.expert_num_tokens_cpu, alignment=alignment
+        )
+
+    # expert_num_tokens information is not available on the cpu.
+    # compute the max required size.
+    M_sum = (M * num_topk) + local_num_experts * (alignment - 1)
+    M_sum = round_up(M_sum, alignment)
+    return M_sum
+
+
+@triton.jit
+def apply_expert_map(expert_id, expert_map):
+    if expert_id != -1:
+        expert_id = tl.load(expert_map + expert_id).to(expert_id.dtype)
+    return expert_id
+
+
+@triton.jit
+def round_up_128(x: int) -> int:
+    y = 128
+    return ((x + y - 1) // y) * y
+
+
+@triton.jit
+def _fwd_kernel_ep_scatter_1(
+    num_recv_tokens_per_expert,
+    expert_start_loc,
+    m_indices,
+    num_experts: tl.constexpr,
+    BLOCK_E: tl.constexpr,
+    BLOCK_EXPERT_NUM: tl.constexpr,
+):
+    cur_expert = tl.program_id(0)
+
+    offset_cumsum = tl.arange(0, BLOCK_EXPERT_NUM)
+    tokens_per_expert = tl.load(
+        num_recv_tokens_per_expert + offset_cumsum,
+        mask=offset_cumsum < num_experts,
+        other=0,
+    )
+    tokens_per_expert = round_up_128(tokens_per_expert)
+    cumsum = tl.cumsum(tokens_per_expert) - tokens_per_expert
+    tl.store(expert_start_loc + offset_cumsum, cumsum, mask=offset_cumsum < num_experts)
+
+    cur_expert_start = tl.load(expert_start_loc + cur_expert)
+    cur_expert_token_num = tl.load(num_recv_tokens_per_expert + cur_expert)
+
+    m_indices_start_ptr = m_indices + cur_expert_start
+    off_expert = tl.arange(0, BLOCK_E)
+
+    for start_m in tl.range(0, cur_expert_token_num, BLOCK_E, num_stages=4):
+        tl.store(
+            m_indices_start_ptr + start_m + off_expert,
+            cur_expert,
+        )
+
+
+@triton.jit
+def _fwd_kernel_ep_scatter_2(
+    total_token_num,
+    expert_start_loc,
+    recv_x,
+    recv_x_stride0,
+    recv_x_stride1,
+    recv_x_scale,
+    recv_x_scale_stride0,
+    recv_x_scale_stride1,
+    recv_topk,
+    recv_topk_stride0,
+    recv_topk_stride1,
+    output_tensor,
+    output_tensor_stride0,
+    output_tensor_stride1,
+    output_tensor_scale,
+    output_tensor_scale_stride0,
+    output_tensor_scale_stride1,
+    output_index,
+    output_index_stride0,
+    output_index_stride1,
+    topk_num: tl.constexpr,
+    expert_map,
+    HAS_EXPERT_MAP: tl.constexpr,
+    HIDDEN_SIZE: tl.constexpr,
+    HIDDEN_SIZE_PAD: tl.constexpr,
+    SCALE_HIDDEN_SIZE: tl.constexpr,
+    SCALE_HIDDEN_SIZE_PAD: tl.constexpr,
+):
+    start_token_id = tl.program_id(0)
+    grid_num = tl.num_programs(0)
+
+    offset_in = tl.arange(0, HIDDEN_SIZE_PAD)
+    mask = offset_in < HIDDEN_SIZE
+
+    offset_in_s = tl.arange(0, SCALE_HIDDEN_SIZE_PAD)
+    mask_s = offset_in_s < SCALE_HIDDEN_SIZE
+
+    for token_id in range(start_token_id, total_token_num, grid_num):
+        to_copy = tl.load(recv_x + token_id * recv_x_stride0 + offset_in, mask=mask)
+        to_copy_s = tl.load(
+            recv_x_scale + token_id * recv_x_scale_stride0 + offset_in_s, mask=mask_s
+        )
+
+        for topk_index in tl.range(0, topk_num, 1, num_stages=4):
+            expert_id = tl.load(recv_topk + token_id * recv_topk_stride0 + topk_index)
+
+            if HAS_EXPERT_MAP:
+                expert_id = apply_expert_map(expert_id, expert_map)
+
+            if expert_id >= 0:
+                dest_token_index = tl.atomic_add(expert_start_loc + expert_id, 1)
+                tl.store(
+                    output_index + token_id * output_index_stride0 + topk_index,
+                    dest_token_index,
+                )
+                output_tensor_ptr = (
+                    output_tensor + dest_token_index * output_tensor_stride0
+                )
+                output_tensor_scale_ptr = (
+                    output_tensor_scale + dest_token_index * output_tensor_scale_stride0
+                )
+                tl.store(output_tensor_ptr + offset_in, to_copy, mask=mask)
+                tl.store(output_tensor_scale_ptr + offset_in_s, to_copy_s, mask=mask_s)
+
+
+@torch.no_grad()
+def ep_scatter(
+    recv_x: torch.Tensor,
+    recv_x_scale: torch.Tensor,
+    recv_topk: torch.Tensor,
+    num_recv_tokens_per_expert: torch.Tensor,
+    expert_map: torch.Tensor | None,
+    expert_start_loc: torch.Tensor,
+    output_tensor: torch.Tensor,
+    output_tensor_scale: torch.Tensor,
+    m_indices: torch.Tensor,
+    output_index: torch.Tensor,
+):
+    BLOCK_E = 128  # token num of per expert is aligned to 128
+    BLOCK_D = 128  # block size of quantization
+    num_warps = 8
+    num_experts = num_recv_tokens_per_expert.shape[0]
+    hidden_size = recv_x.shape[1]
+    # grid = (triton.cdiv(hidden_size, BLOCK_D), num_experts)
+    grid = num_experts
+
+    assert m_indices.shape[0] % BLOCK_E == 0
+
+    _fwd_kernel_ep_scatter_1[(grid,)](
+        num_recv_tokens_per_expert,
+        expert_start_loc,
+        m_indices,
+        num_experts=num_experts,
+        num_warps=num_warps,
+        BLOCK_E=BLOCK_E,
+        BLOCK_EXPERT_NUM=triton.next_power_of_2(num_experts),
+    )
+
+    grid = min(recv_topk.shape[0], 1024 * 8)
+
+    _fwd_kernel_ep_scatter_2[(grid,)](
+        recv_topk.shape[0],
+        expert_start_loc,
+        recv_x,
+        recv_x.stride(0),
+        recv_x.stride(1),
+        recv_x_scale,
+        recv_x_scale.stride(0),
+        recv_x_scale.stride(1),
+        recv_topk,
+        recv_topk.stride(0),
+        recv_topk.stride(1),
+        output_tensor,
+        output_tensor.stride(0),
+        output_tensor.stride(1),
+        output_tensor_scale,
+        output_tensor_scale.stride(0),
+        output_tensor_scale.stride(1),
+        output_index,
+        output_index.stride(0),
+        output_index.stride(1),
+        topk_num=recv_topk.shape[1],
+        expert_map=expert_map,
+        HAS_EXPERT_MAP=expert_map is not None,
+        num_warps=num_warps,
+        HIDDEN_SIZE=hidden_size,
+        HIDDEN_SIZE_PAD=triton.next_power_of_2(hidden_size),
+        SCALE_HIDDEN_SIZE=hidden_size // BLOCK_D,
+        SCALE_HIDDEN_SIZE_PAD=triton.next_power_of_2(hidden_size // BLOCK_D),
+    )
+    return
+
+
+@triton.jit
+def _fwd_kernel_ep_gather(
+    total_token_num,
+    input_tensor,
+    input_tensor_stride0,
+    input_tensor_stride1,
+    recv_topk_ids,
+    recv_topk_ids_stride0,
+    recv_topk_ids_stride1,
+    recv_topk_weight,
+    recv_topk_weight_stride0,
+    recv_topk_weight_stride1,
+    input_index,
+    input_index_stride0,
+    input_index_stride1,
+    output_tensor,
+    output_tensor_stride0,
+    output_tensor_stride1,
+    topk_num: tl.constexpr,
+    expert_map,
+    HAS_EXPERT_MAP: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    cur_block = tl.program_id(0)
+    start_cur_token = tl.program_id(1)
+    grid_num = tl.num_programs(1)
+
+    for cur_token in range(start_cur_token, total_token_num, grid_num):
+        off_d = tl.arange(0, BLOCK_D)
+        accumulator = tl.zeros([BLOCK_D], dtype=tl.float32)
+        for topk_index in range(0, topk_num):
+            expert_id = tl.load(
+                recv_topk_ids + cur_token * recv_topk_ids_stride0 + topk_index
+            )
+
+            if HAS_EXPERT_MAP:
+                expert_id = apply_expert_map(expert_id, expert_map)
+
+            if expert_id >= 0:
+                source_token_index = tl.load(
+                    input_index + cur_token * input_index_stride0 + topk_index
+                )
+                acc_weight = tl.load(
+                    recv_topk_weight + cur_token * recv_topk_weight_stride0 + topk_index
+                )
+                tmp = tl.load(
+                    input_tensor
+                    + source_token_index * input_tensor_stride0
+                    + cur_block * BLOCK_D
+                    + off_d
+                )
+                accumulator += tmp.to(tl.float32) * acc_weight
+
+        tl.store(
+            output_tensor
+            + cur_token * output_tensor_stride0
+            + cur_block * BLOCK_D
+            + off_d,
+            accumulator.to(output_tensor.dtype.element_ty),
+        )
+
+
+@torch.no_grad()
+def ep_gather(
+    input_tensor: torch.Tensor,
+    recv_topk_ids: torch.Tensor,
+    recv_topk_weight: torch.Tensor,
+    input_index: torch.Tensor,
+    expert_map: torch.Tensor | None,
+    output_tensor: torch.Tensor,
+):
+    num_warps = 2
+    num_tokens = output_tensor.shape[0]
+    hidden_size = input_tensor.shape[1]
+    BLOCK_D = min(hidden_size, 1024)
+    assert hidden_size % BLOCK_D == 0
+    grid = (triton.cdiv(hidden_size, BLOCK_D), min(num_tokens, 1024))
+
+    _fwd_kernel_ep_gather[grid](
+        num_tokens,
+        input_tensor,
+        input_tensor.stride(0),
+        input_tensor.stride(1),
+        recv_topk_ids,
+        recv_topk_ids.stride(0),
+        recv_topk_ids.stride(1),
+        recv_topk_weight,
+        recv_topk_weight.stride(0),
+        recv_topk_weight.stride(1),
+        input_index,
+        input_index.stride(0),
+        input_index.stride(1),
+        output_tensor,
+        output_tensor.stride(0),
+        output_tensor.stride(1),
+        topk_num=recv_topk_ids.shape[1],
+        expert_map=expert_map,
+        HAS_EXPERT_MAP=expert_map is not None,
+        num_warps=num_warps,
+        BLOCK_D=BLOCK_D,
+    )
+    return
+
+
+def deepgemm_moe_permute(
+    aq: torch.Tensor,
+    aq_scale: torch.Tensor,
+    topk_ids: torch.Tensor,
+    local_num_experts: int,
+    expert_map: torch.Tensor | None,
+    expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    aq_out: torch.Tensor | None = None,
+):
+    assert aq.ndim == 2
+    assert topk_ids.dtype.is_signed, "The kernel uses -1 to represent invalid topk_ids"
+    H = aq.size(1)
+    device = aq.device
+
+    block_m, block_k = get_mk_alignment_for_contiguous_layout()
+
+    M_sum = compute_aligned_M(
+        M=topk_ids.size(0),
+        num_topk=topk_ids.size(1),
+        local_num_experts=local_num_experts,
+        alignment=block_m,
+        expert_tokens_meta=expert_tokens_meta,
+    )
+
+    expert_start_loc = torch.empty(
+        (local_num_experts), device=device, dtype=torch.int32
+    )
+
+    assert aq_out is None or aq_out.shape == (M_sum, H)
+    if aq_out is None:
+        aq_out = torch.empty((M_sum, H), device=device, dtype=aq.dtype)
+
+    aq_scale_out = torch.empty(
+        (M_sum, H // block_k), device=device, dtype=torch.float32
+    )
+
+    maybe_has_empty_blocks = (expert_tokens_meta is None) or (
+        expert_tokens_meta.expert_num_tokens_cpu is None
+    )
+    expert_ids_init = torch.zeros if maybe_has_empty_blocks else torch.empty
+
+    expert_ids = expert_ids_init((M_sum), device=device, dtype=torch.int32)
+    inv_perm = torch.empty(topk_ids.shape, device=device, dtype=torch.int32)
+
+    expert_num_tokens = None
+    if expert_tokens_meta is not None:
+        expert_num_tokens = expert_tokens_meta.expert_num_tokens
+    else:
+        expert_num_tokens = count_expert_num_tokens(
+            topk_ids, local_num_experts, expert_map
+        )
+
+    ep_scatter(
+        recv_x=aq,
+        recv_x_scale=aq_scale,
+        recv_topk=topk_ids,
+        num_recv_tokens_per_expert=expert_num_tokens,
+        expert_start_loc=expert_start_loc,
+        expert_map=expert_map,
+        output_tensor=aq_out,
+        output_tensor_scale=aq_scale_out,
+        m_indices=expert_ids,
+        output_index=inv_perm,
+    )
+
+    return aq_out, aq_scale_out, expert_ids, inv_perm
+
+
+def deepgemm_unpermute_and_reduce(
+    a: torch.Tensor,  # Grouped gemm output
+    topk_ids: torch.Tensor,
+    topk_weights: torch.Tensor,
+    inv_perm: torch.Tensor,
+    expert_map: torch.Tensor | None,
+    output: torch.Tensor,
+):
+    return ep_gather(
+        input_tensor=a,
+        recv_topk_ids=topk_ids,
+        recv_topk_weight=topk_weights,
+        input_index=inv_perm,
+        expert_map=expert_map,
+        output_tensor=output,
+    )
diff --git a/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py b/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
new file mode 100644
index 0000000..b3093a3
--- /dev/null
+++ b/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
@@ -0,0 +1,420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import deep_ep
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceContiguous,
+    TopKWeightAndReduceDelegate,
+)
+from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
+from vllm.utils.math_utils import round_up
+from vllm.v1.worker.ubatching import (
+    dbo_current_ubatch_id,
+    dbo_enabled,
+    dbo_get_previous_event,
+    dbo_switch_to_comm,
+    dbo_switch_to_compute,
+    dbo_switch_to_compute_sync,
+    dbo_yield_and_switch_from_comm_to_compute,
+    dbo_yield_and_switch_from_compute_to_comm,
+)
+
+
+class DeepEPHTPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    """
+    Prepare/Finalize using DeepEP High-Throughput kernels.
+    """
+
+    @staticmethod
+    def maybe_roundup_layer_hidden_size(hidden_size: int, dtype: torch.dtype) -> int:
+        # Round up hidden size so it is compatible with DeepEP High Throughput
+        # kernels.
+        # DeepEP intranode kernels make copies in units of,
+        # 32(warp-size) int4 elements. Round up hidden size to respect this.
+        # For example, an input hidden size of 2880 with dtype torch.bfloat16
+        # will be rounded up to 3072.
+        hidden_size_bytes = hidden_size * dtype.itemsize
+        xfer_atom_size = 512  # 32 * 16 (size(int4))
+        if hidden_size_bytes % xfer_atom_size == 0:
+            return hidden_size
+
+        hidden_size_bytes = round_up(hidden_size_bytes, xfer_atom_size)
+        return hidden_size_bytes // dtype.itemsize
+
+    def __init__(
+        self,
+        buffer: deep_ep.Buffer,
+        num_dispatchers: int,
+        dp_size: int,
+        rank_expert_offset: int,
+    ):
+        super().__init__()
+        self.buffer = buffer
+        self.num_dispatchers_ = num_dispatchers
+        self.dp_size = dp_size
+        self.rank_expert_offset = rank_expert_offset
+        self.async_prepare = True
+
+        # The dispatch function returns a handle that the combine function
+        # requires. Under DBO microbatching we must track one handle per
+        # micro-batch to avoid races between threads.
+        self.handles = [None, None]
+
+        # From https://github.com/deepseek-ai/DeepEP/blob/9fe9021f29c9083cd1808ab36b740208524d9f63/deep_ep/buffer.py#L164
+        self.available_rank_configs = [2, 4, 8, 16, 24, 32, 64, 128, 144, 160]
+
+    def num_dispatchers(self) -> int:
+        return self.num_dispatchers_
+
+    def output_is_reduced(self) -> bool:
+        return True
+
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.Standard
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return None
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return torch.int64
+
+    def _get_dispatch_config(self) -> deep_ep.Config | None:
+        if self.num_dispatchers_ not in self.available_rank_configs:
+            return None
+        return deep_ep.Buffer.get_dispatch_config(self.num_dispatchers_)
+
+    def _get_combine_config(self) -> deep_ep.Config | None:
+        if self.num_dispatchers_ not in self.available_rank_configs:
+            return None
+        return deep_ep.Buffer.get_combine_config(self.num_dispatchers_)
+
+    def _do_dispatch(
+        self,
+        tokens: torch.Tensor,
+        token_scales: torch.Tensor | None,
+        rank_topk_ids: torch.Tensor,
+        rank_topk_weights: torch.Tensor,
+        num_experts: int,
+        a1_scale: torch.Tensor | None,
+        quant_config: FusedMoEQuantConfig,
+    ) -> Callable:
+        has_scales = token_scales is not None
+
+        # We yield before launching the dispatch kernel since the dispatch
+        # kernel will block the CPU so we want to queue up all the compute
+        # for the other ubatch before the dispatch kernel starts.
+        dbo_yield_and_switch_from_compute_to_comm()
+
+        # capture a DeepEP event and pass it as previous_event so
+        # DeepEP honors the dependency internally.
+        previous_event = dbo_get_previous_event(self.buffer.capture)
+
+        (
+            num_tokens_per_rank,
+            num_tokens_per_rdma_rank,
+            dispatch_expert_num_tokens,
+            is_token_in_rank,
+            event,
+        ) = self.buffer.get_dispatch_layout(
+            topk_idx=rank_topk_ids.long(),
+            num_experts=num_experts,
+            previous_event=previous_event,
+            async_finish=False,
+            allocate_on_comm_stream=False,
+        )
+
+        token_data = tokens
+        if has_scales:
+            token_data = (tokens, token_scales)
+
+        (
+            token_data,
+            expert_topk_ids,
+            expert_topk_weights,
+            expert_num_tokens_per_expert_list,
+            handle,
+            event,
+        ) = self.buffer.dispatch(
+            x=token_data,
+            handle=None,
+            num_tokens_per_rank=num_tokens_per_rank,
+            num_tokens_per_rdma_rank=num_tokens_per_rdma_rank,
+            is_token_in_rank=is_token_in_rank,
+            num_tokens_per_expert=dispatch_expert_num_tokens,
+            topk_idx=rank_topk_ids.long(),
+            topk_weights=rank_topk_weights,
+            # expert_alignment rounds the number of tokens per expert
+            # to this value.
+            expert_alignment=1,
+            config=self._get_dispatch_config(),
+            previous_event=previous_event,
+            async_finish=self.async_prepare and not dbo_enabled(),
+            allocate_on_comm_stream=False,
+        )
+
+        # record the handle for this ubatch
+        a2a_idx = dbo_current_ubatch_id()
+        self.handles[a2a_idx] = handle
+
+        dbo_switch_to_compute_sync()
+
+        return lambda: self._receiver(
+            event,
+            has_scales,
+            token_data,
+            expert_topk_ids.int(),
+            num_experts,
+            expert_num_tokens_per_expert_list,
+            expert_topk_weights,
+            a1_scale,
+            quant_config,
+        )
+
+    def _receiver(
+        self,
+        event: deep_ep.EventOverlap,
+        has_scales: bool,
+        token_data: tuple[torch.Tensor, torch.Tensor] | torch.Tensor,
+        expert_topk_ids: torch.Tensor | None,
+        num_experts: int,
+        expert_num_tokens_per_expert_list: list[int],
+        expert_topk_weights: torch.Tensor | None,
+        a1_scale: torch.Tensor | None,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        if event.event is not None:
+            event.current_stream_wait()
+
+        if has_scales:
+            expert_x, expert_x_scale = token_data
+        else:
+            expert_x, expert_x_scale = token_data, None
+
+        # The existing MOE kernels assume that all entries of topk_ids are
+        # valid. To that effect, set the -1s in expert_topk_ids to some expert
+        # outside this rank so the expert_map can remap it to -1 when safe.
+        # With Expert Parallel, the experts are divided amongst the rank
+        # sequentially. For rank 0, set it to num_experts - 1 and for all other
+        # ranks set it to 0 as we know that expert_map will have a -1 in those
+        # regions for those ranks.
+        #
+        # DeepEP's topk_ids output refers to the local experts directly. Offset
+        # the topk_ids to move it back to the global experts space so it aligns
+        # with existing vLLM interfaces.
+        assert expert_topk_ids is not None
+        expert_topk_ids = torch.where(
+            expert_topk_ids == -1,
+            num_experts - 1 if self.rank_expert_offset == 0 else 0,
+            expert_topk_ids + self.rank_expert_offset,
+        )
+
+        # Makes a GPU-CPU copy.
+        # TODO (varun): Maybe it is better to re-compute the expert_num_tokens
+        # on GPU.
+        expert_tokens_meta = mk.ExpertTokensMetadata.make_from_list(
+            expert_num_tokens_per_expert_list, device=expert_x.device
+        )
+
+        # Dispatch and Quant
+        # DeepEP kernels only support dispatching block-quantized
+        # activation scales.
+        # Dispatch in bfloat16 and quantize afterwards
+        if not quant_config.is_block_quantized:
+            # Quantize after dispatch.
+            expert_x_scale = None
+            if expert_x.numel() != 0:
+                expert_x, expert_x_scale = moe_kernel_quantize_input(
+                    expert_x,
+                    a1_scale,
+                    quant_dtype=quant_config.quant_dtype,
+                    per_act_token_quant=False,
+                    block_shape=quant_config.block_shape,
+                )
+
+        return (
+            expert_x,
+            expert_x_scale,
+            expert_tokens_meta,
+            expert_topk_ids,
+            expert_topk_weights,
+        )
+
+    def supports_async(self) -> bool:
+        return True
+
+    def prepare_async(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.ReceiverType:
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1 = a1 * topk_weights.to(a1.dtype)
+
+        if quant_config.is_block_quantized:
+            # Quant and Dispatch
+            a1q, a1q_scale = moe_kernel_quantize_input(
+                a1,
+                quant_config.a1_scale,
+                quant_dtype=quant_config.quant_dtype,
+                per_act_token_quant=quant_config.per_act_token_quant,
+                block_shape=quant_config.block_shape,
+            )
+            if a1q_scale is not None and a1q_scale.numel() == 1:
+                a1q_scale = a1q_scale.view(1, 1)
+            a1_post_scale = None
+        else:
+            a1q = a1
+            a1q_scale = None
+            a1_post_scale = quant_config.a1_scale
+
+        return self._do_dispatch(
+            tokens=a1q,
+            token_scales=a1q_scale,
+            rank_topk_ids=topk_ids,
+            rank_topk_weights=topk_weights,
+            num_experts=num_experts,
+            a1_scale=a1_post_scale,
+            quant_config=quant_config,
+        )
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        receiver = self.prepare_async(
+            a1,
+            topk_weights,
+            topk_ids,
+            num_experts,
+            expert_map,
+            apply_router_weight_on_input,
+            quant_config,
+        )
+        return receiver()
+
+    def _finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+        do_async: bool,
+    ) -> Callable | None:
+        a2a_idx = dbo_current_ubatch_id()
+        handle = self.handles[a2a_idx]
+        assert handle is not None
+
+        # fused_expert_output can have 0 tokens - This happens when none of the
+        # tokens from the all2all reach this EP rank.
+        if fused_expert_output.numel() != 0:
+            if isinstance(weight_and_reduce_impl, TopKWeightAndReduceDelegate):
+                weight_and_reduce_impl = TopKWeightAndReduceContiguous()
+            fused_expert_output = weight_and_reduce_impl.apply(
+                output=None,
+                fused_expert_output=fused_expert_output,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        dbo_yield_and_switch_from_compute_to_comm()
+        assert fused_expert_output.dtype == torch.bfloat16, (
+            f"Expected fused_expert_output bfloat16, got {fused_expert_output.dtype}"
+        )
+        previous_event = dbo_get_previous_event(self.buffer.capture)
+        combined_x, _, event = self.buffer.combine(
+            # HT combine only supports BF16
+            x=fused_expert_output,
+            handle=handle,
+            topk_weights=None,
+            config=self._get_combine_config(),
+            previous_event=previous_event,
+            async_finish=do_async and not dbo_enabled(),
+            allocate_on_comm_stream=False,
+        )
+
+        dbo_switch_to_compute()
+
+        if do_async:
+
+            def _receiver():
+                if event.event is not None:
+                    event.current_stream_wait()
+                dbo_switch_to_comm()
+                # Respect inplace outputs.
+                output.copy_(combined_x, non_blocking=True)
+
+                # TODO(lucas): refactor the modular kernel so this will be
+                # handled there
+                dbo_yield_and_switch_from_comm_to_compute()
+
+            return _receiver
+        else:
+            # TODO(lucas): support this case with the refactored modular kernel
+            assert not dbo_enabled()
+            # Respect inplace outputs.
+            output.copy_(combined_x, non_blocking=True)
+            return None
+
+    def finalize_async(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> Callable:
+        receiver = self._finalize(
+            output,
+            fused_expert_output,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+            weight_and_reduce_impl,
+            True,
+        )
+        assert receiver is not None
+        return receiver
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        self._finalize(
+            output,
+            fused_expert_output,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+            weight_and_reduce_impl,
+            False,
+        )
diff --git a/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py b/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
new file mode 100644
index 0000000..23116b8
--- /dev/null
+++ b/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
@@ -0,0 +1,367 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import deep_ep
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+)
+from vllm.model_executor.layers.fused_moe.utils import (
+    moe_kernel_quantize_input,
+    normalize_batched_scales_shape,
+)
+from vllm.v1.worker.ubatching import (
+    dbo_current_ubatch_id,
+    dbo_enabled,
+    dbo_maybe_run_recv_hook,
+)
+
+logger = init_logger(__name__)
+
+# DeepEP kernels quantize dispatch inputs in 128 element chunks.
+DEEPEP_QUANT_BLOCK_SIZE = 128
+DEEPEP_QUANT_BLOCK_SHAPE = [DEEPEP_QUANT_BLOCK_SIZE, DEEPEP_QUANT_BLOCK_SIZE]
+
+
+def dequant_fp8(
+    expert_x_fp8: torch.Tensor, expert_x_scales: torch.Tensor
+) -> torch.Tensor:
+    """
+    Return dequantized tensor in fp32
+    """
+    # TODO (varun) : Optimize leverage num_tokens_per_expert counts
+    assert expert_x_fp8.is_contiguous()
+    expert_x_scales = expert_x_scales.contiguous()
+    num_experts = expert_x_fp8.size(0)
+
+    expert_x_fp32 = expert_x_fp8.to(torch.float32).view(
+        num_experts, -1, DEEPEP_QUANT_BLOCK_SIZE
+    )
+    expert_x_scales = expert_x_scales.view(num_experts, -1, 1)
+    return (expert_x_fp32 * expert_x_scales).view(expert_x_fp8.size())
+
+
+class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    """
+    Prepare/Finalize using DeepEP low-latency kernels.
+    """
+
+    # DeepEP low-latency kernels are compiled only for certain
+    # specific hidden sizes.
+    # NOTE: Keep this list sorted, maybe_roundup_layer_hidden_size depends
+    # on it.
+    SUPPORTED_HIDDEN_SIZES = [2048, 2560, 3072, 4096, 5120, 6144, 7168, 8192]
+
+    @staticmethod
+    def maybe_roundup_layer_hidden_size(hidden_size: int) -> int:
+        # Round up hidden size to the closest supported hidden size.
+        _supported_hs = DeepEPLLPrepareAndFinalize.SUPPORTED_HIDDEN_SIZES
+        # Check sorted
+        num_supported_hs = len(_supported_hs)
+        assert all(
+            [
+                _supported_hs[i] < _supported_hs[i + 1]
+                for i in range(num_supported_hs - 1)
+            ]
+        )
+
+        for x in _supported_hs:
+            if x >= hidden_size:
+                return x
+
+        raise ValueError(
+            f"Hidden Size {hidden_size} is greater than the "
+            f"maximum supported hidden size {_supported_hs[-1]}"
+        )
+
+    def __init__(
+        self,
+        buffer: deep_ep.Buffer,
+        max_tokens_per_rank: int,
+        num_dispatchers: int,
+        use_fp8_dispatch: bool = False,
+    ):
+        super().__init__()
+
+        self.buffer = buffer
+        self.max_tokens_per_rank = max_tokens_per_rank
+        self.use_fp8_dispatch = use_fp8_dispatch
+        # The dispatch function returns a handle that the combine function
+        # requires. We store the handle here so it is available to the
+        # combine function.
+        self.handles: list[tuple | None] = [None, None]
+        self.num_dispatchers_ = num_dispatchers
+
+        # We don't have enough information to determine if we should dispatch
+        # activation scales in a packed ue8m0 format during object construction
+        # time. This setting is handled by post_init_setup.
+        self.use_ue8m0_dispatch = False
+
+    def post_init_setup(self, fused_experts: mk.FusedMoEPermuteExpertsUnpermute):
+        if not fused_experts.supports_packed_ue8m0_act_scales():
+            # Early exit.
+            return
+
+        if self.use_fp8_dispatch:
+            logger.debug_once(
+                "Update DeepEPLLPrepareFinalize to do packed ue8m0 scales dispatch."
+            )
+            self.use_ue8m0_dispatch = True
+        else:
+            logger.warning_once(
+                "DeepEPLLPrepareAndFinalize is setup to dispatch raw/unquantized "
+                f"activations despite ({fused_experts.__class__.__name__}) being able "
+                "to support quantized activations.",
+                scope="local",
+            )
+
+    def num_dispatchers(self) -> int:
+        return self.num_dispatchers_
+
+    def output_is_reduced(self) -> bool:
+        return True
+
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.BatchedExperts
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return self.max_tokens_per_rank
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return torch.int64
+
+    def _do_quant(
+        self,
+        x: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        a1_dtype: torch.dtype,
+        quant_config: FusedMoEQuantConfig,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        if self.use_fp8_dispatch:
+            block_k = (
+                quant_config.block_shape[1]
+                if quant_config.block_shape is not None
+                else None
+            )
+            if block_k == DEEPEP_QUANT_BLOCK_SIZE:
+                # DeepEP kernels did the quantization for us.
+                x, x_scales = x
+                return x, x_scales
+
+            # Dequant to get back the tokens in the datatype we dispatched in.
+            x_fp8, x_scales = x
+            x = dequant_fp8(x_fp8, x_scales).to(dtype=a1_dtype)
+
+        assert isinstance(x, torch.Tensor)
+
+        num_experts, max_tokens, hidden_dim = x.size()
+
+        # TODO (varun): Optimization - Use a batched version of quant
+        x = x.view((-1, hidden_dim))
+        x, x_scales = moe_kernel_quantize_input(
+            x,
+            quant_config.a1_scale,
+            quant_config.quant_dtype,
+            quant_config.per_act_token_quant,
+            quant_config.block_shape,
+        )
+        x = x.view((num_experts, -1, hidden_dim))
+
+        if quant_config.quant_dtype is not None:
+            assert x_scales is not None
+            x_scales = normalize_batched_scales_shape(x_scales, num_experts)
+
+        return x, x_scales
+
+    def supports_async(self) -> bool:
+        return True
+
+    def prepare_async(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> tuple[Callable, mk.ReceiverType]:
+        hidden_size = a1.size(1)
+        assert hidden_size in self.SUPPORTED_HIDDEN_SIZES, (
+            f"Hidden Size {hidden_size} not in supported list of hidden sizes"
+            f"{self.SUPPORTED_HIDDEN_SIZES}"
+        )
+
+        a2a_idx = dbo_current_ubatch_id()
+
+        if self.use_fp8_dispatch:
+            assert hidden_size % 128 == 0, (
+                "DeepEP kernels quantize the inputs in blocks of shape 128"
+            )
+
+        has_per_token_scales = (
+            quant_config.a1_scale.numel() != 1
+            if quant_config.a1_scale is not None
+            else (
+                quant_config.a2_scale.numel() != 1
+                if quant_config.a2_scale is not None
+                else False
+            )
+        )
+        assert not has_per_token_scales, (
+            "low_latency kernels doesn't support dispatching per-token scales"
+        )
+
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1 = a1 * topk_weights.to(a1.dtype)
+
+        # Dispatch
+        expert_x, expert_num_tokens, handle, _, hook = self.buffer.low_latency_dispatch(
+            a1,
+            topk_ids.long(),
+            self.max_tokens_per_rank,
+            num_experts,
+            use_fp8=self.use_fp8_dispatch,
+            # round_scale needs to be set to dispatch in ue8m0
+            # round_scale=self.use_ue8m0_dispatch,
+            # use_ue8m0=self.use_ue8m0_dispatch,
+            async_finish=False,
+            return_recv_hook=True,
+        )
+        self.handles[a2a_idx] = handle
+
+        return (
+            hook,
+            lambda: self._receiver(
+                expert_x,
+                expert_num_tokens,
+                quant_config.a1_scale,
+                a1.dtype,
+                quant_config,
+            ),
+        )
+
+    def _receiver(
+        self,
+        expert_x: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        expert_num_tokens: torch.Tensor,
+        a1_scale: torch.Tensor | None,
+        a1_dtype: torch.dtype,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        expert_x, expert_x_scale = self._do_quant(expert_x, a1_dtype, quant_config)
+
+        expert_tokens_meta = mk.ExpertTokensMetadata(
+            expert_num_tokens=expert_num_tokens, expert_num_tokens_cpu=None
+        )
+
+        return expert_x, expert_x_scale, expert_tokens_meta, None, None
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        hook, receiver = self.prepare_async(
+            a1,
+            topk_weights,
+            topk_ids,
+            num_experts,
+            expert_map,
+            apply_router_weight_on_input,
+            quant_config,
+        )
+        hook()
+        return receiver()
+
+    def _finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+        do_async: bool,
+    ) -> tuple[Callable, Callable]:
+        assert isinstance(weight_and_reduce_impl, TopKWeightAndReduceDelegate), (
+            "Weight application and reduction happens in the combine kernel."
+        )
+
+        a2a_idx = dbo_current_ubatch_id()
+        do_recv_hook = dbo_enabled() or do_async
+        handle = self.handles[a2a_idx]
+        assert handle is not None
+
+        combine_topk_weights = topk_weights
+        if apply_router_weight_on_input:
+            # weights have already been applied.
+            combine_topk_weights = torch.ones_like(topk_weights)
+
+        # TODO (varun) : Enable zero copy mode
+        dbo_maybe_run_recv_hook()
+        _, _, recv_hook = self.buffer.low_latency_combine(
+            fused_expert_output,
+            topk_ids.long(),
+            combine_topk_weights,
+            handle,
+            async_finish=False,
+            zero_copy=False,
+            return_recv_hook=do_recv_hook,
+            out=output,
+        )
+
+        return recv_hook, lambda: None
+
+    def finalize_async(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> tuple[Callable, Callable]:
+        return self._finalize(
+            output,
+            fused_expert_output,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+            weight_and_reduce_impl,
+            do_async=True,
+        )
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        self._finalize(
+            output,
+            fused_expert_output,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+            weight_and_reduce_impl,
+            do_async=False,
+        )
diff --git a/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py b/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
new file mode 100644
index 0000000..f864634
--- /dev/null
+++ b/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
@@ -0,0 +1,307 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize import (  # noqa: E501
+    create_flashinfer_prepare_finalize,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+from vllm.utils.flashinfer import (
+    flashinfer_cutlass_fused_moe,
+    has_flashinfer_cutlass_fused_moe,
+)
+
+logger = init_logger(__name__)
+
+
+def is_valid_flashinfer_cutlass_fused_moe(
+    hidden_states: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor
+) -> bool:
+    """
+    Check if the given problem size is supported by the FlashInfer CUTLASS MoE
+    kernel.
+    """
+    if not has_flashinfer_cutlass_fused_moe():
+        logger.debug_once(
+            "FlashInferExperts disabled: flashinfer_cutlass_fused_moe not available."
+        )
+        return False
+    # Data type checks
+    if (
+        w1.dtype != torch.uint8
+        or w2.dtype != torch.uint8
+        or hidden_states.dtype not in [torch.float32, torch.float16, torch.bfloat16]
+    ):
+        logger.debug_once(
+            "FlashInferExperts disabled: w1/w2 must be torch.uint8 "
+            f"(got w1={w1.dtype}, w2={w2.dtype}), hidden_states must be "
+            f"float32, float16, or bfloat16 (got {hidden_states.dtype})."
+        )
+        return False
+    return True
+
+
+class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        out_dtype: torch.dtype,
+        quant_config: FusedMoEQuantConfig,
+        ep_rank: int = 0,
+        ep_size: int = 1,
+        tp_rank: int = 0,
+        tp_size: int = 1,
+        use_dp: bool = False,
+        use_deepseek_fp8_block_scale: bool = False,
+    ):
+        super().__init__(quant_config)
+        assert quant_config.quant_dtype in ("nvfp4", torch.float8_e4m3fn, None), (
+            "Only nvfp4, fp8, bfloat16 and"
+            " float16 quantization are currently supported."
+        )
+        self.ep_rank = ep_rank
+        self.ep_size = ep_size
+        self.tp_rank = tp_rank
+        self.tp_size = tp_size
+        self.out_dtype = out_dtype
+        self.use_dp = use_dp
+        # Enables DeepSeek-style FP8 block-scale path:
+        # - pass per-block weight scales to the kernel
+        # - skip input activation quantization (kernel applies scaling)
+        self.use_deepseek_fp8_block_scale = use_deepseek_fp8_block_scale
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def supports_chunking(self) -> bool:
+        # This refers to TP chunking; DP chunking is handled separately.
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # We use global_num_experts due to how moe_align_block_size handles
+        # expert_maps.
+        """
+        Compute the shapes for the temporary and final outputs of the two gemms
+        and activation in the fused expert function.  Since the gemms are
+        independent, the workspace for the first gemm can be shared with the
+        workspace for the last gemm.
+
+        Returns a tuple of:
+        - workspace13 shape tuple: must be large enough to hold the
+          result of either expert gemm.
+        - workspace2 shape tuple: must be large enough to hold the
+          result of the activation function.
+        - output shape tuple: must be exact size of the final gemm output.
+        - Workspace type: The dtype to use for the workspace tensors.
+        - Note: in order for activation chunking to work, the first dimension
+          of each tuple must be the number of tokens.
+        """
+        workspace1 = (M, K)
+        workspace2 = (0,)
+        # For TP, the quantization is fused with fused_moe call.
+        output_shape = (M, K * 2 if self.quant_dtype == "nvfp4" and self.use_dp else K)
+        # The workspace is determined by `aq`, since it comes after any
+        # potential communication op and is involved in the expert computation.
+        return (workspace1, workspace2, output_shape)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor | None,
+        workspace2: torch.Tensor | None,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool | None,
+    ):
+        from flashinfer.fused_moe.core import ActivationType
+
+        activation_str_to_value_map = {
+            "silu": ActivationType.Swiglu,  # This is the default
+            "relu2_no_mul": ActivationType.Relu2,
+        }
+        assert activation in activation_str_to_value_map, (
+            f"{activation=} missing from {activation_str_to_value_map.keys()=}"
+        )
+
+        # Select quantization metadata based on FP8 format/path
+        if (
+            self.quant_dtype == torch.float8_e4m3fn
+            and not self.use_deepseek_fp8_block_scale
+        ):
+            # FP8 per-tensor path: use global alphas/scales; do not pass input_sf
+            quant_scales = [
+                self.g1_alphas,
+                self.a2_gscale,
+                self.g2_alphas,
+                self.a1_gscale,
+            ]
+
+            a1q_scale = None  # not passing input_sf in fp8
+            fc1_expert_weights = w1
+            fc2_expert_weights = w2
+        elif self.quant_dtype == "nvfp4":
+            # Ensure w1_scale and w2_scale are not None before calling view
+            assert self.w1_scale is not None and self.w2_scale is not None, (
+                "w1_scale and w2_scale must not be None for FlashInferExperts"
+            )
+            # Flashinfer CUTLASS kernel takes scalar global scales,
+            # min because inv_scale.
+            quant_scales = [
+                self.a1_gscale,
+                self.w1_scale.view(torch.int32),
+                self.g1_alphas,
+                self.a2_gscale,
+                self.w2_scale.view(torch.int32),
+                self.g2_alphas,
+            ]
+            # FlashInfer API requires weight to be long for nvfp4
+            fc1_expert_weights = w1.view(torch.long)
+            fc2_expert_weights = w2.view(torch.long)
+        elif self.use_deepseek_fp8_block_scale:
+            # FP8 block-scale path: provide block-scale weights, omit a1q_scale
+            quant_scales = [
+                self.w1_scale,
+                self.w2_scale,
+            ]
+            a1q_scale = None
+            fc1_expert_weights = w1
+            fc2_expert_weights = w2
+        else:
+            quant_scales = None
+            a1q_scale = None
+            fc1_expert_weights = w1
+            fc2_expert_weights = w2
+
+        _ = flashinfer_cutlass_fused_moe(
+            input=hidden_states,
+            token_selected_experts=topk_ids.to(torch.int),
+            token_final_scales=topk_weights,
+            fc1_expert_weights=fc1_expert_weights,
+            fc2_expert_weights=fc2_expert_weights,
+            output_dtype=self.out_dtype,
+            quant_scales=quant_scales,
+            input_sf=a1q_scale,
+            tp_size=self.tp_size,
+            tp_rank=self.tp_rank,
+            ep_size=self.ep_size,
+            ep_rank=self.ep_rank,
+            output=output,
+            activation_type=activation_str_to_value_map[activation],
+            # Informs FlashInfer to use the block-scale decoding path when True
+            use_deepseek_fp8_block_scale=self.use_deepseek_fp8_block_scale,
+        )
+
+
+def flashinfer_cutlass_moe_fp4(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    quant_config: FusedMoEQuantConfig,
+    inplace: bool = False,
+    activation: str = "silu",
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+) -> torch.Tensor:
+    fused_experts = mk.FusedMoEModularKernel(
+        create_flashinfer_prepare_finalize(use_dp=False),
+        FlashInferExperts(
+            out_dtype=hidden_states.dtype,
+            quant_config=quant_config,
+            use_dp=False,
+        ),
+    )
+
+    return fused_experts(
+        hidden_states=hidden_states,
+        w1=w1,
+        w2=w2,
+        topk_weights=topk_weights,
+        topk_ids=topk_ids,
+        inplace=inplace,
+        activation=activation,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
+
+
+def flashinfer_cutlass_moe(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    quant_config: FusedMoEQuantConfig,
+    inplace: bool = False,
+    activation: str = "silu",
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+    tp_rank: int = 0,
+    tp_size: int = 1,
+    ep_rank: int = 0,
+    ep_size: int = 1,
+    use_dp: bool = False,
+) -> torch.Tensor:
+    fused_experts = mk.FusedMoEModularKernel(
+        create_flashinfer_prepare_finalize(use_dp=use_dp),
+        FlashInferExperts(
+            out_dtype=hidden_states.dtype,
+            quant_config=quant_config,
+            tp_rank=tp_rank,
+            tp_size=tp_size,
+            ep_rank=ep_rank,
+            ep_size=ep_size,
+        ),
+    )
+
+    return fused_experts(
+        hidden_states=hidden_states,
+        w1=w1,
+        w2=w2,
+        topk_weights=topk_weights,
+        topk_ids=topk_ids,
+        inplace=inplace,
+        activation=activation,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
diff --git a/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py b/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
new file mode 100644
index 0000000..7628908
--- /dev/null
+++ b/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.distributed import get_dp_group, get_ep_group
+from vllm.distributed.device_communicators.base_device_communicator import (
+    All2AllManagerBase,
+)
+from vllm.forward_context import get_forward_context
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
+from vllm.utils.flashinfer import nvfp4_block_scale_interleave
+
+
+def get_local_sizes():
+    return get_forward_context().dp_metadata.get_chunk_sizes_across_dp_rank()
+
+
+class FlashInferCutlassMoEPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    """Base class for FlashInfer MoE prepare and finalize operations."""
+
+    def __init__(
+        self,
+        use_dp: bool,
+        num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
+    ):
+        super().__init__()
+        self.num_dispatchers_ = num_dispatchers
+        self.use_dp = use_dp
+        self.local_tokens = None
+        # Toggle for DeepSeek-style FP8 block-scale path where activations are
+        # not quantized here and weight block scales are consumed by the kernel.
+        self.use_deepseek_fp8_block_scale = use_deepseek_fp8_block_scale
+
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.Standard
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return None
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    def num_dispatchers(self) -> int:
+        return self.num_dispatchers_
+
+    def output_is_reduced(self) -> bool:
+        return False
+
+    def _apply_router_weight_on_input(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        """Apply router weight on input if needed."""
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1.mul_(topk_weights.to(a1.dtype))
+
+
+class FlashInferAllToAllMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFinalize):
+    """FlashInfer implementation using AllToAll communication."""
+
+    def __init__(
+        self,
+        use_dp: bool,
+        num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
+    ):
+        super().__init__(use_dp, num_dispatchers, use_deepseek_fp8_block_scale)
+        self.alltoall_info = None
+
+        # Initialize all2all_manager only for DP case
+        self.all2all_manager = None
+        if self.use_dp:
+            self.all2all_manager = get_ep_group().device_communicator.all2all_manager
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        self._apply_router_weight_on_input(
+            a1, topk_weights, topk_ids, apply_router_weight_on_input
+        )
+
+        if not self.use_dp:
+            # Non-DP case: quantize activations unless using block-scale path
+            if not self.use_deepseek_fp8_block_scale:
+                a1q, a1q_scale = moe_kernel_quantize_input(
+                    a1,
+                    quant_config.a1_gscale,
+                    quant_config.quant_dtype,
+                    quant_config.per_act_token_quant,
+                    quant_config.block_shape,
+                    is_fp4_scale_swizzled=not self.use_dp,
+                )
+            else:
+                a1q = a1
+                a1q_scale = None
+        else:
+            # DP case: use FlashInfer AllToAll
+            global_num_tokens_cpu = get_local_sizes()
+            top_k = topk_ids.size(1)
+
+            (self.alltoall_info, topk_ids, topk_weights, a1q, a1q_scale) = (
+                flashinfer_alltoall_dispatch(
+                    self.all2all_manager,
+                    global_num_tokens_cpu,
+                    a1,
+                    quant_config.a1_gscale,
+                    topk_ids,
+                    topk_weights,
+                    top_k,
+                    num_experts,
+                    quant_config,
+                    use_deepseek_fp8_block_scale=self.use_deepseek_fp8_block_scale,
+                )
+            )
+
+        return a1q, a1q_scale, None, topk_ids, topk_weights
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        if self.use_dp:
+            top_k = topk_ids.size(1)
+            token_count = output.shape[0]
+            fused_expert_output = flashinfer_alltoall_combine(
+                self.all2all_manager,
+                fused_expert_output,
+                top_k=top_k,
+                token_count=token_count,
+                alltoall_info=self.alltoall_info,
+            )
+        output.copy_(fused_expert_output)
+
+
+class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFinalize):
+    def __init__(
+        self,
+        use_dp: bool,
+        num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
+    ):
+        super().__init__(use_dp, num_dispatchers, use_deepseek_fp8_block_scale)
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        self._apply_router_weight_on_input(
+            a1, topk_weights, topk_ids, apply_router_weight_on_input
+        )
+        if not self.use_dp and quant_config.quant_dtype == "nvfp4":
+            return a1, None, None, topk_ids, topk_weights
+
+        if not self.use_deepseek_fp8_block_scale:
+            a1q, a1q_scale = moe_kernel_quantize_input(
+                a1,
+                quant_config.a1_gscale,
+                quant_config.quant_dtype,
+                quant_config.per_act_token_quant,
+                quant_config.block_shape,
+                is_fp4_scale_swizzled=not self.use_dp,
+            )
+        else:
+            # Block-scale path: pass activations through, omit per-token scales
+            a1q = a1
+            a1q_scale = None
+
+        if self.use_dp:
+            # Build gather list conditionally - omit a1q_scale if None
+            # (block-scale path)
+            gather_list = [topk_weights, topk_ids, a1q]
+            if a1q_scale is not None:
+                gather_list.append(a1q_scale)
+                gathered = get_dp_group().all_gatherv(
+                    gather_list,
+                    dim=0,
+                    sizes=get_local_sizes(),
+                )
+                topk_weights, topk_ids, a1q, a1q_scale = gathered
+            else:
+                gathered = get_dp_group().all_gatherv(
+                    gather_list,
+                    dim=0,
+                    sizes=get_local_sizes(),
+                )
+                topk_weights, topk_ids, a1q = gathered
+                a1q_scale = None
+
+        if quant_config.quant_dtype == "nvfp4" and a1q_scale is not None:
+            a1q_scale = nvfp4_block_scale_interleave(a1q_scale)
+
+        return a1q, a1q_scale, None, topk_ids, topk_weights
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        assert isinstance(weight_and_reduce_impl, TopKWeightAndReduceNoOP)
+
+        if self.use_dp:
+            fused_expert_output = get_dp_group().reduce_scatterv(
+                fused_expert_output, dim=0, sizes=get_local_sizes()
+            )
+        output.copy_(fused_expert_output)
+
+
+def flashinfer_alltoall_dispatch(
+    all2all_manager: All2AllManagerBase,
+    global_num_tokens_cpu: list[int],
+    x: torch.Tensor,
+    gs: torch.Tensor,
+    topk_ids: torch.Tensor,
+    topk_weights: torch.Tensor,
+    top_k: int,
+    num_experts: int,
+    quant_config: FusedMoEQuantConfig,
+    use_deepseek_fp8_block_scale: bool = False,
+):
+    from flashinfer.comm.trtllm_alltoall import MnnvlMoe
+
+    assert all2all_manager.ensure_alltoall_workspace_initialized(), (
+        "FlashInfer AllToAll workspace not available"
+    )
+
+    ep_rank = all2all_manager.rank
+    ep_size = all2all_manager.world_size
+    max_num_token = (
+        max(global_num_tokens_cpu) if global_num_tokens_cpu is not None else x.shape[0]
+    )
+    orig_topk_weights_dtype = topk_weights.dtype
+    alltoall_info, topk_ids, topk_weights, _ = (
+        MnnvlMoe.mnnvl_moe_alltoallv_prepare_without_allgather(
+            topk_ids,
+            topk_weights,
+            None,
+            all2all_manager.prepare_workspace_tensor,
+            max_num_token,
+            ep_rank,
+            ep_size,
+            num_experts,
+            num_experts,
+            top_k,
+        )
+    )
+    topk_weights = topk_weights.view(dtype=orig_topk_weights_dtype)
+
+    if not use_deepseek_fp8_block_scale:
+        x, x_sf = moe_kernel_quantize_input(
+            x,
+            gs,
+            quant_config.quant_dtype,
+            quant_config.per_act_token_quant,
+            quant_config.block_shape,
+            is_fp4_scale_swizzled=False,  # delay swizzle to after comm
+        )
+        x = MnnvlMoe.mnnvl_moe_alltoallv(
+            x,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
+
+        x_sf = MnnvlMoe.mnnvl_moe_alltoallv(
+            x_sf,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
+        if quant_config.quant_dtype == "nvfp4":
+            x_sf = nvfp4_block_scale_interleave(x_sf)
+    else:
+        # Block-scale path: pass activations through without quantization
+        x_sf = None
+        x = MnnvlMoe.mnnvl_moe_alltoallv(
+            x,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
+    return alltoall_info, topk_ids, topk_weights, x, x_sf
+
+
+def flashinfer_alltoall_combine(
+    all2all_manager: All2AllManagerBase,
+    output: torch.Tensor,
+    top_k: int,
+    token_count: int,
+    alltoall_info,
+):
+    from flashinfer.comm.trtllm_alltoall import MnnvlMoe
+
+    assert all2all_manager.ensure_alltoall_workspace_initialized(), (
+        "FlashInfer AllToAll workspace not available"
+    )
+    return MnnvlMoe.mnnvl_moe_alltoallv_combine(
+        output,
+        alltoall_info,
+        all2all_manager.workspace_tensor,
+        ep_rank=all2all_manager.rank,
+        ep_size=all2all_manager.world_size,
+        top_k=top_k,
+        token_count=token_count,
+    )
+
+
+def create_flashinfer_prepare_finalize(
+    use_dp: bool,
+    use_nvfp4: bool = False,
+    enable_alltoallv: bool = False,
+    use_deepseek_fp8_block_scale: bool = False,
+) -> FlashInferCutlassMoEPrepareAndFinalize:
+    """Factory function to create the appropriate FlashInfer implementation."""
+    if use_nvfp4:
+        if enable_alltoallv:
+            return FlashInferAllToAllMoEPrepareAndFinalize(use_dp)
+        else:
+            return FlashInferAllGatherMoEPrepareAndFinalize(use_dp)
+    # FP8 path currently supported via AllGather; optionally enable block-scale
+    return FlashInferAllGatherMoEPrepareAndFinalize(
+        use_dp=use_dp, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+    )
diff --git a/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py b/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
new file mode 100644
index 0000000..51e06ac
--- /dev/null
+++ b/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
@@ -0,0 +1,192 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
+from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
+from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
+    calculate_tile_tokens_dim,
+)
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    per_token_group_quant_fp8,
+)
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+def flashinfer_fused_moe_blockscale_fp8(
+    routing_logits: torch.Tensor,
+    routing_bias: torch.Tensor,
+    x: torch.Tensor,
+    w13_weight: torch.Tensor,
+    w13_weight_scale_inv: torch.Tensor,
+    w2_weight: torch.Tensor,
+    w2_weight_scale_inv: torch.Tensor,
+    global_num_experts: int,
+    top_k: int,
+    num_expert_group: int | None,
+    topk_group: int | None,
+    intermediate_size: int,
+    expert_offset: int,
+    local_num_experts: int,
+    block_shape: list[int],
+    routing_method_type: int = RoutingMethodType.DeepSeekV3,
+    routed_scaling: float | None = 1.0,
+) -> torch.Tensor:
+    from vllm.utils.flashinfer import flashinfer_trtllm_fp8_block_scale_moe
+
+    topk_group = topk_group if topk_group is not None else 0
+    assert top_k <= global_num_experts
+    assert top_k <= 10
+    assert global_num_experts % 4 == 0
+    assert block_shape == [128, 128]
+    # Routing kernel expects #experts <= #threads 512
+    assert global_num_experts <= 512
+
+    a_q, a_sf = per_token_group_quant_fp8(x, block_shape[1])
+    # NOTE: scales of hidden states have to be transposed!
+    a_sf_t = a_sf.t().contiguous()
+    return flashinfer_trtllm_fp8_block_scale_moe(
+        routing_logits=routing_logits,
+        routing_bias=routing_bias,
+        hidden_states=a_q,
+        hidden_states_scale=a_sf_t,
+        gemm1_weights=w13_weight,
+        gemm1_weights_scale=w13_weight_scale_inv,
+        gemm2_weights=w2_weight,
+        gemm2_weights_scale=w2_weight_scale_inv,
+        num_experts=global_num_experts,
+        top_k=top_k,
+        n_group=num_expert_group,
+        topk_group=topk_group,
+        intermediate_size=intermediate_size,
+        local_expert_offset=expert_offset,
+        local_num_experts=local_num_experts,
+        routed_scaling_factor=routed_scaling,
+        tile_tokens_dim=None,
+        routing_method_type=routing_method_type,
+        use_shuffled_weight=False,
+    )
+
+
+def flashinfer_fused_moe_blockscale_fp8_fake(
+    routing_logits: torch.Tensor,
+    routing_bias: torch.Tensor,
+    x: torch.Tensor,
+    w13_weight: torch.Tensor,
+    w13_weight_scale_inv: torch.Tensor,
+    w2_weight: torch.Tensor,
+    w2_weight_scale_inv: torch.Tensor,
+    global_num_experts: int,
+    top_k: int,
+    num_expert_group: int,
+    topk_group: int,
+    intermediate_size: int,
+    expert_offset: int,
+    local_num_experts: int,
+    block_shape: list[int],
+    routing_method_type: int,
+    routed_scaling: float = 1.0,
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+# TODO(bnell): Does this really need to be a torch.op?
+direct_register_custom_op(
+    op_name="flashinfer_fused_moe_blockscale_fp8",
+    op_func=flashinfer_fused_moe_blockscale_fp8,
+    fake_impl=flashinfer_fused_moe_blockscale_fp8_fake,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
+
+
+def flashinfer_fused_moe_per_tensor_scale_fp8(
+    routing_logits: torch.Tensor,
+    routing_bias: torch.Tensor | None,
+    hidden_states: torch.Tensor,
+    input_scale: torch.Tensor,
+    gemm1_weights: torch.Tensor,
+    gemm2_weights: torch.Tensor,
+    output1_scales_scalar: torch.Tensor,
+    output1_scales_gate_scalar: torch.Tensor,
+    output2_scales_scalar: torch.Tensor,
+    num_experts: int,
+    top_k: int,
+    num_expert_group: int | None,
+    topk_group: int | None,
+    intermediate_size: int,
+    local_expert_offset: int,
+    local_num_experts: int,
+    use_routing_scales_on_input: bool,
+    routing_method_type: int,
+    routed_scaling_factor: float = 1.0,
+) -> torch.Tensor:
+    num_expert_group = num_expert_group if num_expert_group is not None else 0
+    topk_group = topk_group if topk_group is not None else 0
+
+    quant_hidden_states, _ = moe_kernel_quantize_input(
+        hidden_states,
+        input_scale,
+        quant_dtype=torch.float8_e4m3fn,
+        per_act_token_quant=False,
+    )
+
+    from vllm.utils.flashinfer import flashinfer_trtllm_fp8_per_tensor_scale_moe
+
+    return flashinfer_trtllm_fp8_per_tensor_scale_moe(
+        routing_logits=routing_logits,
+        routing_bias=routing_bias,
+        hidden_states=quant_hidden_states,
+        gemm1_weights=gemm1_weights,
+        output1_scales_scalar=output1_scales_scalar,
+        output1_scales_gate_scalar=output1_scales_gate_scalar,
+        gemm2_weights=gemm2_weights,
+        output2_scales_scalar=output2_scales_scalar,
+        num_experts=num_experts,
+        top_k=top_k,
+        n_group=num_expert_group,
+        topk_group=topk_group,
+        intermediate_size=intermediate_size,
+        local_expert_offset=local_expert_offset,
+        local_num_experts=local_num_experts,
+        routed_scaling_factor=routed_scaling_factor,
+        use_routing_scales_on_input=use_routing_scales_on_input,
+        tile_tokens_dim=calculate_tile_tokens_dim(
+            hidden_states.shape[0], top_k, num_experts
+        ),
+        routing_method_type=routing_method_type,
+    )
+
+
+def flashinfer_fused_moe_per_tensor_scale_fp8_fake(
+    routing_logits: torch.Tensor,
+    routing_bias: torch.Tensor | None,
+    hidden_states: torch.Tensor,
+    input_scale: torch.Tensor,
+    gemm1_weights: torch.Tensor,
+    gemm2_weights: torch.Tensor,
+    output1_scales_scalar: torch.Tensor,
+    output1_scales_gate_scalar: torch.Tensor,
+    output2_scales_scalar: torch.Tensor,
+    num_experts: int,
+    top_k: int,
+    num_expert_group: int | None,
+    topk_group: int | None,
+    intermediate_size: int,
+    local_expert_offset: int,
+    local_num_experts: int,
+    use_routing_scales_on_input: bool,
+    routing_method_type: int,
+    routed_scaling_factor: float = 1.0,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+# TODO(bnell): Does this really need to be a torch.op?
+direct_register_custom_op(
+    op_name="flashinfer_fused_moe_per_tensor_scale_fp8",
+    op_func=flashinfer_fused_moe_per_tensor_scale_fp8,
+    mutates_args=["hidden_states"],
+    fake_impl=flashinfer_fused_moe_per_tensor_scale_fp8_fake,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
diff --git a/model_executor/layers/fused_moe/fused_batched_moe.py b/model_executor/layers/fused_moe/fused_batched_moe.py
new file mode 100644
index 0000000..7fd8511
--- /dev/null
+++ b/model_executor/layers/fused_moe/fused_batched_moe.py
@@ -0,0 +1,1012 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Fused batched MoE kernel."""
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.fused_moe import try_get_optimal_moe_config
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+    TopKWeightAndReduceNaiveBatched,
+)
+from vllm.model_executor.layers.fused_moe.utils import (
+    _resize_cache,
+    moe_kernel_quantize_input,
+    normalize_batched_scales_shape,
+    normalize_scales_shape,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import group_broadcast
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def moe_mmk(
+    a_ptrs,
+    b_ptrs,
+    K,
+    expert_id,
+    a_scale_ptr,
+    b_scale_ptr,
+    # The stride variables represent how much to increase the ptr by when
+    # moving by 1 element in a particular dimension. E.g. `stride_am` is
+    # how much to increase `a_ptr` by to get the element one row down
+    # (A has M rows).
+    stride_ak: tl.int64,
+    stride_bk: tl.int64,
+    stride_ase: tl.int64,
+    stride_asm: tl.int64,
+    stride_ask: tl.int64,
+    stride_bse: tl.int64,
+    stride_bsk: tl.int64,
+    stride_bsn: tl.int64,
+    # Offsets and masks
+    offs_m,
+    offs_n,
+    offs_bn,
+    mask_m,
+    # Block size for block-wise quantization
+    group_n: tl.constexpr,
+    group_k: tl.constexpr,
+    # Meta-parameters
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+    compute_type: tl.constexpr,
+    use_w8a8: tl.constexpr,
+    use_w8a16: tl.constexpr,
+    per_act_token_quant: tl.constexpr,
+):
+    offs_k = tl.arange(0, BLOCK_K)
+
+    if use_w8a16:
+        b_scale_ptrs = (
+            b_scale_ptr + expert_id * stride_bse + offs_n[None, :] * stride_bsn
+        )
+        b_scale = tl.load(b_scale_ptrs)
+
+    if use_w8a8:
+        # block-wise
+        if group_k > 0 and group_n > 0:
+            a_scale_ptrs = a_scale_ptr + offs_m * stride_asm
+            offs_bsn = offs_bn // group_n
+            b_scale_ptrs = b_scale_ptr + offs_bsn * stride_bsn
+
+        # per act token
+        elif per_act_token_quant:
+            # Load per-token scale for activations
+            a_scale_ptrs = a_scale_ptr + offs_m * stride_asm
+            a_scale = tl.load(a_scale_ptrs, mask=mask_m, other=0.0)[:, None]
+
+            b_scale_ptrs = b_scale_ptr + offs_bn[None, :] * stride_bsn
+            b_scale = tl.load(b_scale_ptrs)
+
+        # tensor-wise
+        else:
+            a_scale = tl.load(a_scale_ptr)
+            b_scale = tl.load(b_scale_ptr)
+
+    # -----------------------------------------------------------
+    # Iterate to compute a block of the C matrix.
+    # We accumulate into a `[BLOCK_SIZE_M, BLOCK_SIZE_N]` block
+    # of fp32 values for higher accuracy.
+    # `accumulator` will be converted back to fp16 after the loop.
+    accumulator = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_K)):
+        # Load the next block of A and B, generate a mask by checking the
+        # K dimension.
+        a = tl.load(
+            a_ptrs,
+            mask=mask_m[:, None] & (offs_k[None, :] < K - k * BLOCK_K),
+            other=0.0,
+        )
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_K, other=0.0)
+        # We accumulate along the K dimension.
+        if use_w8a16:
+            accumulator = tl.dot(a, b.to(compute_type), acc=accumulator)
+        elif use_w8a8:
+            if group_k > 0 and group_n > 0:
+                k_start = k * BLOCK_K
+                offs_ks = k_start // group_k
+                a_scale = tl.load(
+                    a_scale_ptrs + offs_ks * stride_ask, mask=mask_m, other=0.0
+                )
+                b_scale = tl.load(b_scale_ptrs + offs_ks * stride_bsk)
+
+                accumulator += tl.dot(a, b) * a_scale[:, None] * b_scale[None, :]
+            else:
+                # acc used to enable fp8_fast_accum
+                accumulator = tl.dot(a, b, acc=accumulator)
+        else:
+            accumulator += tl.dot(a, b)
+
+        # Advance the ptrs to the next K block.
+        a_ptrs += BLOCK_K * stride_ak
+        b_ptrs += BLOCK_K * stride_bk
+
+    if use_w8a16:
+        accumulator = (accumulator * b_scale).to(compute_type)
+    elif use_w8a8:
+        if group_k > 0 and group_n > 0:
+            accumulator = accumulator.to(compute_type)
+        else:
+            accumulator = (accumulator * a_scale * b_scale).to(compute_type)
+    else:
+        accumulator = accumulator.to(compute_type)
+
+    return accumulator
+
+
+@triton.jit
+def expert_triton_kernel(
+    a_ptr,  # [max_tokens, K]
+    b_ptr,  # [K, N]
+    c_ptr,  # [max_tokens, N]
+    expert_id,
+    compute_type: tl.constexpr,
+    # Dimensions
+    M,
+    N,
+    K,
+    # Quantization data
+    a_scale_ptr,
+    b_scale_ptr,
+    b_zp_ptr,
+    # strides
+    stride_am: tl.int64,
+    stride_ak: tl.int64,
+    stride_bk: tl.int64,
+    stride_bn: tl.int64,
+    stride_cm: tl.int64,
+    stride_cn: tl.int64,
+    stride_ase: tl.int64,
+    stride_asm: tl.int64,
+    stride_ask: tl.int64,
+    stride_bse: tl.int64,
+    stride_bsk: tl.int64,
+    stride_bsn: tl.int64,
+    # offsets
+    offs_bn,
+    # Blockwise quantization data
+    group_n,
+    group_k,
+    # Quantization schemes
+    use_fp8_w8a8: tl.constexpr,
+    use_int8_w8a16: tl.constexpr,
+    per_act_token_quant: tl.constexpr,
+    # Kernel config
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    offs_m = tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N) % N
+    offs_k = tl.arange(0, BLOCK_K)
+    mask_m = offs_m < M
+
+    # Make grids of a + b pointers
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn
+
+    accumulator = moe_mmk(
+        a_ptrs,
+        b_ptrs,
+        K,
+        expert_id,
+        a_scale_ptr,
+        b_scale_ptr,
+        # The stride variables represent how much to increase the ptr by when
+        # moving by 1 element in a particular dimension. E.g. `stride_am` is
+        # how much to increase `a_ptr` by to get the element one row down
+        # (A has M rows).
+        stride_ak,
+        stride_bk,
+        stride_ase,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Offsets and masks
+        offs_m,
+        offs_n,
+        offs_bn,
+        mask_m,
+        # Block size for block-wise quantization
+        group_n,
+        group_k,
+        # Meta-parameters
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        compute_type,
+        use_fp8_w8a8,
+        use_int8_w8a16,
+        per_act_token_quant,
+    )
+
+    # store in C
+    offs_cn = tl.arange(0, BLOCK_N)
+    c_ptrs = c_ptr + offs_m[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = mask_m[:, None] & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=c_mask)
+
+
+@triton.jit
+def batched_triton_kernel(
+    a_ptr,  # [E, max_num_tokens, K]
+    b_ptr,  # [E, K, N]
+    c_ptr,  # [E, max_num_tokens, N]
+    expert_num_tokens,  # [E]
+    compute_type: tl.constexpr,
+    # Dimensions
+    max_num_tokens,
+    K,
+    N,
+    # Quantization data
+    a_scale_ptr,
+    b_scale_ptr,
+    b_zp_ptr,
+    # The stride variables represent how much to increase the ptr by when
+    # moving by 1 element in a particular dimension. E.g. `stride_am` is
+    # how much to increase `a_ptr` by to get the element one row down
+    # (A has M rows).
+    stride_ae: tl.int64,
+    stride_am: tl.int64,
+    stride_ak: tl.int64,
+    stride_be: tl.int64,
+    stride_bk: tl.int64,
+    stride_bn: tl.int64,
+    stride_ce: tl.int64,
+    stride_cm: tl.int64,
+    stride_cn: tl.int64,
+    stride_ase: tl.int64,
+    stride_asm: tl.int64,
+    stride_ask: tl.int64,
+    stride_bse: tl.int64,
+    stride_bsk: tl.int64,
+    stride_bsn: tl.int64,
+    # Blockwise quantization data
+    group_n: tl.constexpr,
+    group_k: tl.constexpr,
+    # Quantization schemes
+    use_fp8_w8a8: tl.constexpr,
+    use_int8_w8a16: tl.constexpr,
+    per_act_token_quant: tl.constexpr,
+    # Kernel config
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    expert_id = tl.program_id(axis=0)
+    e_num_tokens = tl.load(expert_num_tokens + expert_id)
+    if e_num_tokens == 0:
+        # Early exit
+        return
+
+    # axis 1 is M_blocks * N_blocks
+    pid_mn = tl.program_id(axis=1)
+    # num_pid_m = tl.cdiv(max_num_tokens, BLOCK_M)
+    num_pid_n = tl.cdiv(N, BLOCK_N)
+    pid_m = pid_mn // num_pid_n
+    pid_n = pid_mn % num_pid_n
+
+    cta_m_start = pid_m * BLOCK_M
+    cta_n_start = pid_n * BLOCK_N
+    if cta_m_start >= e_num_tokens:
+        # Early exit
+        return
+
+    cta_m_size = min(BLOCK_M, e_num_tokens - cta_m_start)
+    cta_n_size = min(BLOCK_N, N - cta_n_start)
+
+    a_ptr = a_ptr + expert_id * stride_ae + cta_m_start * stride_am
+    b_ptr = b_ptr + expert_id * stride_be + cta_n_start * stride_bn
+    c_ptr = (
+        c_ptr
+        + expert_id * stride_ce
+        + cta_m_start * stride_cm
+        + cta_n_start * stride_cn
+    )
+
+    offs_bn = (pid_n * BLOCK_N + tl.arange(0, BLOCK_N).to(tl.int64)) % N
+
+    if use_fp8_w8a8:
+        a_scale_ptr = a_scale_ptr + expert_id * stride_ase
+        b_scale_ptr = b_scale_ptr + expert_id * stride_bse
+
+        # block-wise
+        if group_k > 0 and group_n > 0 or per_act_token_quant:
+            a_scale_ptr = a_scale_ptr + cta_m_start * stride_asm
+
+    expert_triton_kernel(
+        a_ptr,
+        b_ptr,
+        c_ptr,
+        expert_id,
+        compute_type,
+        cta_m_size,  # M
+        cta_n_size,  # N
+        K,  # K
+        a_scale_ptr,
+        b_scale_ptr,
+        b_zp_ptr,
+        # Strides
+        stride_am,
+        stride_ak,
+        stride_bk,
+        stride_bn,
+        stride_cm,
+        stride_cn,
+        stride_ase,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # offsets
+        offs_bn,
+        # Blockwise quantization data
+        group_n,
+        group_k,
+        # Quantization schemes
+        use_fp8_w8a8,
+        use_int8_w8a16,
+        per_act_token_quant,
+        # Kernel config
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+    )
+
+
+def invoke_moe_batched_triton_kernel(
+    A: torch.Tensor,  # [E, max_tokens, K]
+    B: torch.Tensor,  # [E, N, K]
+    C: torch.Tensor,  # [E, max_tokens, N]
+    expert_num_tokens: torch.Tensor,  # [E]
+    compute_type: tl.dtype,
+    # Quantization data
+    A_scale: torch.Tensor | None,
+    B_scale: torch.Tensor | None,
+    B_zp: torch.Tensor,
+    # Quantization schemes
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    use_int4_w4a16: bool,
+    config: dict[str, int],
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+):
+    assert not use_int4_w4a16
+    max_num_tokens = A.size(1)
+    K = A.size(2)
+    N = C.size(2)
+
+    BLOCK_M = config["BLOCK_SIZE_M"]
+    BLOCK_N = config["BLOCK_SIZE_N"]
+    BLOCK_K = config["BLOCK_SIZE_K"]
+
+    grid = (
+        expert_num_tokens.size(0),
+        triton.cdiv(max_num_tokens, BLOCK_M) * triton.cdiv(B.size(1), BLOCK_N),
+    )
+
+    A_scale = normalize_batched_scales_shape(A_scale, expert_num_tokens.shape[0])
+
+    if B_scale is not None and B_scale.ndim == 1:
+        assert B_scale.numel() == expert_num_tokens.shape[0]
+        B_scale = B_scale.view(-1, 1, 1)
+
+    assert A_scale is None or A_scale.ndim == 3, (
+        f"{0 if A_scale is None else A_scale.shape}"
+    )
+    assert B_scale is None or B_scale.ndim == 1 or B_scale.ndim == 3, (
+        f"{0 if B_scale is None else B_scale.shape}"
+    )
+
+    if B_scale is not None:
+        if B_scale.ndim == 1:
+            stride_bse = 1
+            stride_bsk = 0
+            stride_bsn = 0
+        else:
+            stride_bse = B_scale.stride(0)
+            stride_bsk = B_scale.stride(2)
+            stride_bsn = B_scale.stride(1)
+
+    else:
+        stride_bse = 0
+        stride_bsk = 0
+        stride_bsn = 0
+
+    if A_scale is not None:
+        stride_ase = A_scale.stride(0)
+        stride_asm = A_scale.stride(1)
+        stride_ask = A_scale.stride(2)
+    else:
+        stride_ase = 0
+        stride_asm = 0
+        stride_ask = 0
+
+    batched_triton_kernel[grid](
+        A,
+        B,
+        C,
+        expert_num_tokens,
+        compute_type,
+        # Dimensions
+        max_num_tokens,
+        K,
+        N,
+        # Quantization data
+        A_scale,
+        B_scale,
+        B_zp,
+        # Strides
+        A.stride(0),
+        A.stride(1),
+        A.stride(2),
+        B.stride(0),
+        B.stride(2),
+        B.stride(1),
+        C.stride(0),
+        C.stride(1),
+        C.stride(2),
+        stride_ase,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Blockwise quantization data
+        0 if block_shape is None else block_shape[0],
+        0 if block_shape is None else block_shape[1],
+        # Quantization schemes
+        use_fp8_w8a8,
+        use_int8_w8a16,
+        per_act_token_quant,
+        # Kernel config
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=BLOCK_N,
+        BLOCK_K=BLOCK_K,
+    )
+
+
+class BatchedPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    """
+    A reference prepare/finalize class that reorganizes the tokens into
+    expert batched format, i.e. E x max_num_tokens x K.  This is the format
+    that the PPLX dispatch/combine kernels use.
+    """
+
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_local_experts: int,
+        num_dispatchers: int,
+        rank: int,
+    ):
+        super().__init__()
+        self.max_num_tokens = max_num_tokens
+        self.num_local_experts = num_local_experts
+        self.rank = rank
+        self.num_dispatchers_ = num_dispatchers
+
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.BatchedExperts
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return self.max_num_tokens
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    def num_dispatchers(self) -> int:
+        return self.num_dispatchers_
+
+    def output_is_reduced(self) -> bool:
+        return False
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        assert a1.dim() == 2
+        assert topk_ids.dim() == 2
+        assert topk_ids.size(0) == a1.size(0)
+
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1.mul_(topk_weights.to(a1.dtype))
+
+        num_tokens, hidden_dim = a1.size()
+        topk = topk_ids.size(1)
+
+        tokens_per_expert = torch.zeros(num_experts, dtype=torch.int, device=a1.device)
+
+        num_local_experts = self.num_local_experts
+
+        if quant_config.quant_dtype is None:
+            b_type = a1.dtype
+        else:
+            b_type = quant_config.quant_dtype
+
+        b_a1 = torch.zeros(
+            (num_local_experts, self.max_num_tokens, hidden_dim),
+            dtype=b_type,
+            device=a1.device,
+        )
+
+        if quant_config.is_quantized:
+            scale_shape = quant_config.batched_scale_shape(
+                num_local_experts, self.max_num_tokens, hidden_dim
+            )
+
+            b_a1_scale = torch.empty(scale_shape, dtype=torch.float32, device=a1.device)
+        else:
+            assert quant_config.a1_scale is None
+            b_a1_scale = None
+
+        first_expert = num_local_experts * self.rank
+        last_expert = first_expert + num_local_experts
+
+        a1_scale = normalize_scales_shape(quant_config.a1_scale)
+
+        for expert_id in range(first_expert, last_expert):
+            topks = torch.any(topk_ids == expert_id, dim=1).flatten()
+            rows = torch.count_nonzero(topks.flatten())
+            if rows == 0:
+                continue
+            idx = expert_id - first_expert
+            tokens_per_expert[idx] = rows
+            rhs = a1[: topks.numel()][topks]
+            if quant_config.quant_dtype is not None:
+                if a1_scale is not None:
+                    if quant_config.is_per_act_token:
+                        rhs_a1_scale = a1_scale[: topks.numel()][topks]
+                    else:
+                        rhs_a1_scale = a1_scale
+                else:
+                    rhs_a1_scale = None
+                b_a1[idx, :rows, :], b_s = moe_kernel_quantize_input(
+                    rhs,
+                    rhs_a1_scale,
+                    quant_config.quant_dtype,
+                    quant_config.per_act_token_quant,
+                    quant_config.block_shape,
+                )
+                assert b_s is not None
+                if quant_config.is_per_act_token:
+                    b_a1_scale[idx, :rows] = b_s[:rows]
+                else:
+                    b_a1_scale[idx, : b_s.shape[0]] = b_s
+            else:
+                b_a1[idx, :rows, :] = rhs
+
+        assert b_a1_scale is None or b_a1_scale.ndim == 3
+
+        expert_tokens_meta = mk.ExpertTokensMetadata(
+            expert_num_tokens=tokens_per_expert, expert_num_tokens_cpu=None
+        )
+
+        return b_a1, b_a1_scale, expert_tokens_meta, None, None
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        if isinstance(weight_and_reduce_impl, TopKWeightAndReduceDelegate):
+            weight_and_reduce_impl = TopKWeightAndReduceNaiveBatched(self.rank)
+        weight_and_reduce_impl.apply(
+            output=output,
+            fused_expert_output=fused_expert_output,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+        )
+
+
+class NaiveBatchedExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    """
+    A reference MoE expert class that operates on expert batched format,
+    i.e. E x max_num_tokens x K.  This is the format that the pplx
+    dispatch/combine kernels use.
+    """
+
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_dispatchers: int,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        super().__init__(quant_config)
+        assert not self.quant_config.use_int8_w8a8, "NYI"
+        assert not self.quant_config.use_int8_w8a16, "NYI"
+        assert not self.quant_config.use_int4_w4a16, "NYI"
+        assert self.quant_config.ocp_mx_scheme is None, "NYI"
+        self.max_num_tokens = max_num_tokens
+        self.num_dispatchers = num_dispatchers
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.BatchedExperts,
+            mk.FusedMoEActivationFormat.BatchedExperts,
+        )
+
+    def supports_chunking(self) -> bool:
+        return False
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # Let PrepareAndFinalize::finalize() decide the impl.
+        return TopKWeightAndReduceDelegate()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        num_dp = self.num_dispatchers
+        num_experts = local_num_experts
+        workspace13 = (num_experts, self.max_num_tokens * num_dp, K)
+        workspace2 = (self.max_num_tokens * num_dp, N)
+        output = workspace13
+        return (workspace13, workspace2, output)
+
+    def dequant(self, t: torch.Tensor, scale: torch.Tensor) -> torch.Tensor:
+        assert self.quant_config.is_quantized
+        f32 = torch.float32
+        if self.quant_config.is_per_act_token or self.quant_config.is_per_tensor:
+            return t.to(f32) * scale
+        else:
+            return t.to(f32) * group_broadcast(scale, t.shape)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert hidden_states.dim() == 3
+        assert expert_tokens_meta is not None
+        expert_num_tokens = expert_tokens_meta.expert_num_tokens
+
+        num_local_experts = w1.size(0)
+        assert num_local_experts == w1.size(0), f"{num_local_experts} == {w1.size(0)}"
+
+        N = w1.size(1) // 2
+
+        for expert in range(num_local_experts):
+            # Indexing expert_num_tokens doesn't work w/cudagraphs or inductor
+            if (
+                torch.compiler.is_compiling()
+                or torch.cuda.is_current_stream_capturing()
+            ):
+                num = hidden_states.shape[1]
+            else:
+                num = int(expert_num_tokens[expert].item())
+
+            if num == 0:
+                continue
+
+            tmp = _resize_cache(workspace2, (num, N))
+
+            if self.quant_config.is_quantized:
+                assert a1q_scale is not None and self.w1_scale is not None
+                input = self.dequant(hidden_states[expert, :, :], a1q_scale[expert])
+                w1_dq = self.dequant(w1[expert], self.w1_scale[expert])
+                input = input[:num] @ w1_dq.transpose(0, 1)
+            else:
+                input = hidden_states[expert, :num, :] @ w1[expert].transpose(0, 1)
+
+            self.activation(activation, tmp, input.to(tmp.dtype))
+
+            if self.quant_config.is_quantized:
+                assert self.w2_scale is not None
+                w2_dq = self.dequant(w2[expert], self.w2_scale[expert])
+            else:
+                w2_dq = w2[expert]
+
+            output[expert, :num, :] = tmp @ w2_dq.transpose(0, 1).to(tmp.dtype)
+
+
+def batched_moe_kernel_quantize_input(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    num_tokens: int,
+    E: int,
+    N: int,
+    expert_num_tokens: torch.Tensor,
+    qtype: torch.dtype | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    if torch.compiler.is_compiling() or torch.cuda.is_current_stream_capturing():
+        # Note: this does a bunch of extra work because expert_num_tokens is
+        # ignored but it does support torch.compile + cudagraphs.
+        hidden_dim = A.size(-1)
+        assert A_scale is None or A_scale.ndim <= 2, (
+            f"{A_scale.shape if A_scale is not None else None}"
+        )
+        A_q, A_q_scale = moe_kernel_quantize_input(
+            A.view(-1, hidden_dim), A_scale, qtype, per_act_token_quant, block_shape
+        )
+        A_q = A_q.view(E, -1, hidden_dim)
+        A_q_scale = normalize_batched_scales_shape(A_q_scale, E)
+
+        return A_q, A_q_scale
+    elif qtype is None:
+        return A, normalize_batched_scales_shape(A_scale, E)
+    else:
+        A_q = torch.empty_like(A, dtype=qtype)
+
+        if per_act_token_quant:
+            assert block_shape is None
+            scale_shape = (E, num_tokens, 1)
+        elif block_shape is not None:
+            _, block_k = block_shape
+            k_tiles = (A.shape[-1] + block_k - 1) // block_k
+            scale_shape = (E, num_tokens, k_tiles)
+        else:
+            scale_shape = (E, 1, 1)
+
+        A_q_scale = torch.zeros(scale_shape, dtype=torch.float32, device=A.device)
+
+        num_experts = expert_num_tokens.numel()
+
+        A_scale = normalize_batched_scales_shape(A_scale, num_experts)
+
+        for e in range(E):
+            num_tokens = int(expert_num_tokens[e].item())
+            if num_tokens > 0:
+                if A_scale is not None:
+                    scales = A_scale[e, : min(num_tokens, A_scale.shape[1])]
+                else:
+                    scales = None
+                A_q[e, :num_tokens], tmp_scale = moe_kernel_quantize_input(
+                    A[e, :num_tokens],
+                    scales,
+                    qtype,
+                    per_act_token_quant,
+                    block_shape,
+                )
+                assert tmp_scale is not None
+                A_q_scale[e, : tmp_scale.shape[0]] = tmp_scale
+
+        return A_q, A_q_scale
+
+
+class BatchedTritonExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    """
+    A Triton based MoE expert class that operates on expert batched format,
+    i.e. E x max_num_tokens x K.  This is the format that the pplx
+    dispatch/combine kernels use.
+    """
+
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_dispatchers: int,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        super().__init__(quant_config)
+        assert not self.quant_config.use_int8_w8a8, "NYI"
+        assert not self.quant_config.use_int8_w8a16, "NYI"
+        assert not self.quant_config.use_int4_w4a16, "NYI"
+        assert self.quant_config.ocp_mx_scheme is None, "NYI"
+        assert max_num_tokens > 0
+        assert num_dispatchers > 0
+        self.max_num_tokens = max_num_tokens
+        self.num_dispatchers = num_dispatchers
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.BatchedExperts,
+            mk.FusedMoEActivationFormat.BatchedExperts,
+        )
+
+    def supports_chunking(self) -> bool:
+        return False
+
+    def supports_expert_map(self) -> bool:
+        return False
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # Let PrepareAndFinalize::finalize() decide the impl.
+        return TopKWeightAndReduceDelegate()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        num_dp = self.num_dispatchers
+        num_experts = local_num_experts
+        max_num_tokens = self.max_num_tokens
+        workspace13 = (num_experts, max_num_tokens * num_dp, max(K, N))
+        workspace2 = (num_experts, max_num_tokens * num_dp, (N // 2))
+        output = (num_experts, max_num_tokens * num_dp, K)
+        return (workspace13, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        # Check constraints.
+        if self.quant_config.use_int4_w4a16:
+            assert hidden_states.size(-1) // 2 == w1.size(2), "Hidden size mismatch"
+        else:
+            assert hidden_states.size(-1) == w1.size(2), (
+                f"Hidden size mismatch {hidden_states.size(-1)} != {w1.size(2)}"
+            )
+
+        assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
+        assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert hidden_states.dtype in [
+            torch.float32,
+            torch.float16,
+            torch.bfloat16,
+            torch.float8_e4m3fn,
+        ]
+        assert expert_tokens_meta is not None
+
+        expert_num_tokens = expert_tokens_meta.expert_num_tokens
+
+        E, max_num_tokens, N, K, top_k_num = self.moe_problem_size(
+            hidden_states, w1, w2, topk_ids
+        )
+
+        assert w1.size(0) == E
+        assert w2.size(0) == E
+
+        config_dtype = self.quant_config.config_name(hidden_states.dtype)
+
+        config = try_get_optimal_moe_config(
+            w1.size(),
+            w2.size(),
+            top_k_num,
+            config_dtype,
+            max_num_tokens,
+            block_shape=self.block_shape,
+        )
+
+        if hidden_states.dtype == torch.bfloat16:
+            compute_type = tl.bfloat16
+        elif hidden_states.dtype == torch.float16:
+            compute_type = tl.float16
+        elif hidden_states.dtype == torch.float32:
+            compute_type = tl.float32
+        elif hidden_states.dtype == torch.float8_e4m3fn:
+            compute_type = tl.bfloat16
+        else:
+            raise ValueError(f"Unsupported compute_type: {hidden_states.dtype}")
+
+        # We can reuse the memory between these because by the time we need
+        # cache3, we're done with cache1
+        intermediate_cache1 = _resize_cache(workspace13, (E, max_num_tokens, N))
+        intermediate_cache2 = _resize_cache(workspace2, (E, max_num_tokens, N // 2))
+
+        # TODO(bnell): should this be done for any quantized type?
+        if self.quant_config.use_fp8_w8a8:
+            intermediate_cache1.fill_(0)
+
+        a1q_scale = normalize_batched_scales_shape(a1q_scale, E)
+
+        # MM1
+        invoke_moe_batched_triton_kernel(
+            A=hidden_states,
+            B=w1,
+            C=intermediate_cache1,
+            expert_num_tokens=expert_num_tokens,
+            compute_type=compute_type,
+            A_scale=a1q_scale,
+            B_scale=self.w1_scale,
+            B_zp=self.w1_zp,
+            use_fp8_w8a8=self.quant_config.use_fp8_w8a8,
+            use_int8_w8a16=self.quant_config.use_int8_w8a16,
+            use_int4_w4a16=self.quant_config.use_int4_w4a16,
+            config=config,
+            per_act_token_quant=self.per_act_token_quant,
+            block_shape=self.block_shape,
+        )
+
+        intermediate_cache2.fill_(0)
+
+        # TODO (bnell): use triton utility from batched deep gemm.
+        self.activation(
+            activation,
+            intermediate_cache2.view(-1, N // 2),
+            intermediate_cache1.view(-1, N),
+        )
+
+        qintermediate_cache2, a2q_scale = batched_moe_kernel_quantize_input(
+            intermediate_cache2,
+            a2_scale,
+            max_num_tokens,
+            E,
+            N,
+            expert_num_tokens,
+            self.quant_dtype,
+            self.per_act_token_quant,
+            self.block_shape,
+        )
+
+        invoke_moe_batched_triton_kernel(
+            A=qintermediate_cache2,
+            B=w2,
+            C=output,
+            expert_num_tokens=expert_num_tokens,
+            compute_type=compute_type,
+            A_scale=a2q_scale,
+            B_scale=self.w2_scale,
+            B_zp=self.w2_zp,
+            use_fp8_w8a8=self.quant_config.use_fp8_w8a8,
+            use_int8_w8a16=self.quant_config.use_int8_w8a16,
+            use_int4_w4a16=self.quant_config.use_int4_w4a16,
+            config=config,
+            per_act_token_quant=self.per_act_token_quant,
+            block_shape=self.block_shape,
+        )
diff --git a/model_executor/layers/fused_moe/fused_marlin_moe.py b/model_executor/layers/fused_moe/fused_marlin_moe.py
new file mode 100644
index 0000000..0b0f59f
--- /dev/null
+++ b/model_executor/layers/fused_moe/fused_marlin_moe.py
@@ -0,0 +1,792 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Fused MoE utilities for GPTQ."""
+
+from collections.abc import Callable
+
+import torch
+
+import vllm._custom_ops as ops
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
+    batched_moe_align_block_size,
+    moe_align_block_size,
+)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+    TopKWeightAndReduceNoOP,
+)
+from vllm.model_executor.layers.fused_moe.utils import _resize_cache, disable_inplace
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_make_workspace_new,
+    marlin_moe_intermediate_size,
+    maybe_warn_marlin_atomic_add,
+)
+from vllm.scalar_type import ScalarType, scalar_types
+
+
+def default_activation_func(
+    activation: str, output: torch.Tensor, input: torch.Tensor
+) -> None:
+    if activation == "silu":
+        torch.ops._C.silu_and_mul(output, input)
+    elif activation == "swigluoai":
+        # alpha = 1.702, limit = 7.0
+        torch.ops._C.swigluoai_and_mul(output, input)
+    else:
+        raise ValueError(
+            f"Unsupported activation: {activation}. "
+            "Only silu and swigluoai activations are supported."
+        )
+
+
+def _fused_marlin_moe(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    bias1: torch.Tensor | None,
+    bias2: torch.Tensor | None,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    topk_weights: torch.Tensor,
+    num_topk: int,
+    quant_type: ScalarType,
+    apply_router_weight_on_input: bool,
+    expert_map: torch.Tensor | None,
+    block_size_m: int,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    activation: str = "silu",
+    activation_func: Callable[
+        [str, torch.Tensor, torch.Tensor], None
+    ] = default_activation_func,
+    global_scale1: torch.Tensor | None = None,
+    global_scale2: torch.Tensor | None = None,
+    g_idx1: torch.Tensor | None = None,
+    g_idx2: torch.Tensor | None = None,
+    sort_indices1: torch.Tensor | None = None,
+    sort_indices2: torch.Tensor | None = None,
+    w1_zeros: torch.Tensor | None = None,
+    w2_zeros: torch.Tensor | None = None,
+    workspace: torch.Tensor | None = None,
+    intermediate_cache13: torch.Tensor | None = None,
+    intermediate_cache2: torch.Tensor | None = None,
+    output: torch.Tensor | None = None,
+    is_k_full: bool = True,
+) -> torch.Tensor:
+    assert hidden_states.ndim == 2
+    M, K = hidden_states.size()
+    N = marlin_moe_intermediate_size(w1, w2)
+
+    if workspace is None:
+        workspace = marlin_make_workspace_new(hidden_states.device, 4)
+
+    if intermediate_cache13 is None:
+        intermediate_cache13 = torch.empty(
+            (M * num_topk * max(2 * N, K),),
+            device=hidden_states.device,
+            dtype=hidden_states.dtype,
+        )
+
+    if intermediate_cache2 is None:
+        intermediate_cache2 = torch.empty(
+            (M * num_topk, N),
+            device=hidden_states.device,
+            dtype=hidden_states.dtype,
+        )
+
+    intermediate_cache1 = _resize_cache(intermediate_cache13, (M * num_topk, 2 * N))
+
+    intermediate_cache3 = _resize_cache(intermediate_cache13, (M * num_topk, K))
+
+    intermediate_cache2 = _resize_cache(intermediate_cache2, (M * num_topk, N))
+
+    maybe_warn_marlin_atomic_add(hidden_states.device, hidden_states.dtype)
+    use_atomic_add = (
+        hidden_states.dtype == torch.half
+        or torch.cuda.get_device_capability(hidden_states.device)[0] >= 9
+    )
+
+    intermediate_cache1 = ops.moe_wna16_marlin_gemm(
+        hidden_states,
+        intermediate_cache1,
+        w1,
+        bias1,
+        w1_scale,
+        global_scale1,
+        w1_zeros,
+        g_idx1,
+        sort_indices1,
+        workspace,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        topk_weights,
+        moe_block_size=block_size_m,
+        top_k=num_topk,
+        mul_topk_weights=apply_router_weight_on_input,
+        is_ep=expert_map is not None,
+        b_q_type=quant_type,
+        size_m=M,
+        size_n=2 * N,
+        size_k=K,
+        is_k_full=is_k_full,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=True,
+        is_zp_float=False,
+    )
+
+    activation_func(
+        activation, intermediate_cache2, intermediate_cache1.view(-1, 2 * N)
+    )
+
+    if output is None:
+        output = intermediate_cache3
+
+    if expert_map is not None:
+        output.zero_()
+
+    output = ops.moe_wna16_marlin_gemm(
+        intermediate_cache2,
+        output,
+        w2,
+        bias2,
+        w2_scale,
+        global_scale2,
+        w2_zeros,
+        g_idx2,
+        sort_indices2,
+        workspace,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        topk_weights,
+        moe_block_size=block_size_m,
+        top_k=1,
+        mul_topk_weights=not apply_router_weight_on_input,
+        is_ep=expert_map is not None,
+        b_q_type=quant_type,
+        size_m=M * num_topk,
+        size_n=K,
+        size_k=N,
+        is_k_full=is_k_full,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=True,
+        is_zp_float=False,
+    )
+
+    return output
+
+
+def fused_marlin_moe(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    bias1: torch.Tensor | None,
+    bias2: torch.Tensor | None,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    gating_output: torch.Tensor | None,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    quant_type_id: int,
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+    activation: str = "silu",
+    activation_func: Callable[
+        [str, torch.Tensor, torch.Tensor], None
+    ] = default_activation_func,
+    moe_sum: Callable[[torch.Tensor, torch.Tensor], None] | None = None,
+    expert_map: torch.Tensor | None = None,
+    global_scale1: torch.Tensor | None = None,
+    global_scale2: torch.Tensor | None = None,
+    g_idx1: torch.Tensor | None = None,
+    g_idx2: torch.Tensor | None = None,
+    sort_indices1: torch.Tensor | None = None,
+    sort_indices2: torch.Tensor | None = None,
+    w1_zeros: torch.Tensor | None = None,
+    w2_zeros: torch.Tensor | None = None,
+    workspace: torch.Tensor | None = None,
+    intermediate_cache13: torch.Tensor | None = None,
+    intermediate_cache2: torch.Tensor | None = None,
+    is_k_full: bool = True,
+    output: torch.Tensor | None = None,
+    inplace: bool = False,
+) -> torch.Tensor:
+    """
+    This function computes a Mixture of Experts (MoE) layer using two sets of
+    weights, w1 and w2, and top-k gating mechanism.
+
+    Parameters:
+    - hidden_states (torch.Tensor): The input tensor to the MoE layer.
+    - w1 (torch.Tensor): The first set of expert weights.
+    - w2 (torch.Tensor): The second set of expert weights.
+    - w1_scale (torch.Tensor): Scale to be used for w1.
+    - w2_scale (torch.Tensor): Scale to be used for w2.
+    - gating_output (torch.Tensor|None): The output of the gating
+        operation (before softmax).
+    - g_idx1 (torch.Tensor|None): The first set of act_order indices.
+    - g_idx2 (torch.Tensor|None): The second set of act_order indices.
+    - sort_indices1 (torch.Tensor|None): The first act_order input
+        permutation.
+    - sort_indices2 (torch.Tensor|None): The second act_order input
+        permutation.
+    - topk_weights (torch.Tensor): Top-k weights.
+    - topk_ids (torch.Tensor): Indices of topk-k elements.
+    - w1_zeros (torch.Tensor|None): Optional zero points to be used for w1.
+    - w2_zeros (torch.Tensor|None): Optional zero points to be used for w2.
+    - num_bits (bool): The number of bits in expert weights quantization.
+
+    Returns:
+    - torch.Tensor: The output tensor after applying the MoE layer.
+    """
+
+    if inplace:
+        assert output is None, "Conflicting request"
+
+    quant_type = ScalarType.from_id(quant_type_id)
+    assert quant_type in [
+        scalar_types.uint4,
+        scalar_types.uint8b128,
+        scalar_types.uint4b8,
+        scalar_types.float8_e4m3fn,
+        scalar_types.float4_e2m1f,
+    ]
+
+    bit4_scalar_types = [
+        scalar_types.uint4,
+        scalar_types.uint4b8,
+        scalar_types.float4_e2m1f,
+    ]
+    num_bits = 4 if quant_type in bit4_scalar_types else 8
+
+    M, K = hidden_states.size()
+    E = w1.size(0)
+    topk = topk_ids.size(1)
+
+    # Check constraints.
+    if gating_output is not None:
+        assert gating_output.size(0) == M, "Number of tokens mismatch"
+    assert w1.size(1) * 16 == K, "Hidden size mismatch w1"
+    assert w2.size(2) // (num_bits // 2) == K, "Hidden size mismatch w2"
+    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
+    assert w1.is_contiguous(), "Expert weights1 must be contiguous"
+    assert w2.is_contiguous(), "Expert weights2 must be contiguous"
+    assert hidden_states.dtype in [torch.float16, torch.bfloat16]
+    assert num_bits in [4, 8]
+    assert topk_weights.dtype == torch.float32
+
+    # M block size selection logic
+    # TODO: tune this further for specific models
+    for block_size_m in [8, 16, 32, 48, 64]:
+        if M * topk / E / block_size_m < 0.9:
+            break
+
+    if global_num_experts == -1:
+        global_num_experts = E
+    sorted_token_ids, expert_ids, num_tokens_post_padded = moe_align_block_size(
+        topk_ids, block_size_m, global_num_experts, expert_map
+    )
+
+    assert activation is not None
+    moe_output = _fused_marlin_moe(
+        hidden_states=hidden_states,
+        w1=w1,
+        w2=w2,
+        bias1=bias1,
+        bias2=bias2,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        topk_weights=topk_weights,
+        num_topk=topk,
+        quant_type=quant_type,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+        expert_map=expert_map,
+        block_size_m=block_size_m,
+        sorted_token_ids=sorted_token_ids,
+        expert_ids=expert_ids,
+        num_tokens_post_padded=num_tokens_post_padded,
+        activation=activation,
+        activation_func=activation_func,
+        global_scale1=global_scale1,
+        global_scale2=global_scale2,
+        g_idx1=g_idx1,
+        g_idx2=g_idx2,
+        sort_indices1=sort_indices1,
+        sort_indices2=sort_indices2,
+        w1_zeros=w1_zeros,
+        w2_zeros=w2_zeros,
+        workspace=workspace,
+        intermediate_cache13=intermediate_cache13,
+        intermediate_cache2=intermediate_cache2,
+        output=None,
+        is_k_full=is_k_full,
+    ).view(-1, topk, K)
+
+    if output is None:
+        if inplace and not disable_inplace():
+            output = hidden_states
+        else:
+            output = torch.empty_like(hidden_states)
+
+    if moe_sum is None:
+        return torch.sum(moe_output.view(-1, topk, K), dim=1, out=output)
+    else:
+        return moe_sum(moe_output, output)
+
+
+def batched_fused_marlin_moe(
+    hidden_states: torch.Tensor,
+    expert_num_tokens: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    bias1: torch.Tensor | None,
+    bias2: torch.Tensor | None,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    gating_output: torch.Tensor | None,
+    quant_type_id: int,
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+    activation: str | None = "silu",
+    expert_map: torch.Tensor | None = None,
+    global_scale1: torch.Tensor | None = None,
+    global_scale2: torch.Tensor | None = None,
+    g_idx1: torch.Tensor | None = None,
+    g_idx2: torch.Tensor | None = None,
+    sort_indices1: torch.Tensor | None = None,
+    sort_indices2: torch.Tensor | None = None,
+    w1_zeros: torch.Tensor | None = None,
+    w2_zeros: torch.Tensor | None = None,
+    workspace: torch.Tensor | None = None,
+    intermediate_cache13: torch.Tensor | None = None,
+    intermediate_cache2: torch.Tensor | None = None,
+    is_k_full: bool = True,
+    output: torch.Tensor | None = None,
+    inplace: bool = False,
+) -> torch.Tensor:
+    """
+    This function massages the inputs so the batched hidden_states can be
+    presented as a 2D contiguous tensor that could be used with
+    _fused_marlin_moe.
+
+    Note that both batched_fused_marlin_moe and fused_marlin_moe ultimately
+    use `ops.moe_wna16_marlin_gemm` for the gemm operation and
+    `ops.moe_mna16_marlin_gemm` supports only 2D contiguous hidden_states.
+    Note that the moe_align_block_size function indicates,
+        - What rows of the A matrix (hidden_states) to access during the
+        matmul, via sorted_ids output.
+        - What expert_id to use for each block matmul, via expert_ids ouptut.
+
+    In the batched version, the tokens are already grouped/batched by experts
+    they subscribe to. Due to this, we can represent the batched hidden_states
+    tensor of shape [B, MAX_TOKENS_PER_BATCH, K] as a 2D tensor of shape,
+    [B * MAX_TOKENS_PER_BATCH, K]. We may treat this a 2D contiguous tensor
+    with topk=1 as each token (row in the tensor) subscribes to exactly one
+    expert_id (which is the batch_id). With the expert_num_tokens tensor, that
+    indicates how many tokens are actually valid in each batch, the
+    batched_moe_align_block_size function constructs the sorted_ids and
+    expert_ids tensors, so only relevant/valid rows of A (hidden_states)
+    are accessed and are processed with the correct expert_ids.
+    """
+
+    assert hidden_states.ndim == 3, (
+        f"hidden states must be batched. e.g. [B, MAX_TOKENS, K]."
+        f"But got {hidden_states.size()}"
+    )
+    if inplace:
+        assert output is None, "Conflicting request."
+
+    quant_type = ScalarType.from_id(quant_type_id)
+    assert quant_type in [
+        scalar_types.uint4,
+        scalar_types.uint8b128,
+        scalar_types.uint4b8,
+        scalar_types.float8_e4m3fn,
+        scalar_types.float4_e2m1f,
+    ]
+
+    bit4_scalar_types = [
+        scalar_types.uint4,
+        scalar_types.uint4b8,
+        scalar_types.float4_e2m1f,
+    ]
+    num_bits = 4 if quant_type in bit4_scalar_types else 8
+
+    B, BATCH_TOKENS_MAX, K = hidden_states.size()
+    M = hidden_states.view(-1, K).size(0)
+    E = w1.size(0)
+
+    # Check constraints.
+    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
+    assert hidden_states.dtype in [torch.float16, torch.bfloat16]
+    assert expert_num_tokens.size(0) == E
+    assert B == E, (
+        "Batch must be as big as number of experts as the tokens"
+        "are sorted into the batch/expert they belong to"
+    )
+    assert w1.size(1) * 16 == K, "Hidden size mismatch w1"
+    assert w2.size(2) // (num_bits // 2) == K, "Hidden size mismatch w2"
+    assert w1.is_contiguous(), "Expert weights1 must be contiguous"
+    assert w2.is_contiguous(), "Expert weights2 must be contiguous"
+    assert num_bits in [4, 8]
+
+    # Technically, the tokens are already separated by their expert ids.
+    # Hidden-States can just be squeezed to have just 2 dimensions,
+    # [B * MAX_TOKENS, K] and top_k can be interpreted as just 1.
+    topk = 1
+
+    # TODO(varun) : Choose a decent block size like in fused_marlin_moe
+    block_size_m = 64
+
+    sorted_token_ids, expert_ids, num_tokens_post_padded = batched_moe_align_block_size(
+        max_tokens_per_batch=BATCH_TOKENS_MAX,
+        block_size=block_size_m,
+        expert_num_tokens=expert_num_tokens,
+    )
+
+    if output is None and inplace:
+        output = hidden_states
+
+    # TODO (varun): This can be avoided by plumbing the marlin kernel to
+    # ignore topk_weights when topk_weights_ptr is a nullptr.
+    topk_weights = torch.ones(
+        (M, topk), device=hidden_states.device, dtype=torch.float32
+    )
+
+    assert activation is not None
+    output = _fused_marlin_moe(
+        hidden_states=hidden_states.view(-1, K),
+        w1=w1,
+        w2=w2,
+        bias1=bias1,
+        bias2=bias2,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        topk_weights=topk_weights,
+        num_topk=topk,
+        quant_type=quant_type,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+        activation=activation,
+        expert_map=expert_map,
+        block_size_m=block_size_m,
+        sorted_token_ids=sorted_token_ids,
+        expert_ids=expert_ids,
+        num_tokens_post_padded=num_tokens_post_padded,
+        global_scale1=global_scale1,
+        global_scale2=global_scale2,
+        g_idx1=g_idx1,
+        g_idx2=g_idx2,
+        sort_indices1=sort_indices1,
+        sort_indices2=sort_indices2,
+        w1_zeros=w1_zeros,
+        w2_zeros=w2_zeros,
+        workspace=workspace,
+        intermediate_cache13=intermediate_cache13,
+        intermediate_cache2=intermediate_cache2,
+        output=output.view(-1, K) if output is not None else output,
+        is_k_full=is_k_full,
+    )
+
+    output = output.view(B, BATCH_TOKENS_MAX, K)
+
+    return output
+
+
+class MarlinExpertsBase(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
+    ):
+        # TODO (varun) : Enable activation quantization
+        assert quant_config.use_mxfp4_w4a16 or quant_config.use_int4_w4a16, (
+            "Supports only mxfp4_w4a16 or int4_w4a16"
+        )
+        self.w13_g_idx = w13_g_idx
+        self.w2_g_idx = w2_g_idx
+        self.w13_g_idx_sort_indices = w13_g_idx_sort_indices
+        self.w2_g_idx_sort_indices = w2_g_idx_sort_indices
+        self.is_k_full = is_k_full
+        super().__init__(quant_config)
+
+    @property
+    def quant_type_id(self) -> int:
+        # uint4b8 will be set for int4 weight and float4_e2m1f will be used for mxfp4
+        return (
+            scalar_types.uint4b8.id
+            if self.quant_config.use_int4_w4a16
+            else scalar_types.float4_e2m1f.id
+        )
+
+    def moe_problem_size(
+        self,
+        a1: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+    ) -> tuple[int, int, int, int, int]:
+        assert w1.dim() == 3 and w2.dim() == 3
+
+        E = w1.size(0)
+        K = a1.size(-1)
+        N = marlin_moe_intermediate_size(w1, w2)
+
+        if a1.dim() == 2:
+            # Make sure we are using the correct a1 (pre-permute).
+            assert topk_ids.size(0) == a1.size(0), f"{topk_ids.size(0)} != {a1.size(0)}"
+            M = a1.size(0)
+        else:
+            assert a1.dim() == 3
+            assert a1.size(0) == E, f"{a1.size(0)} == {E}"
+            M = a1.size(1)  # This is max_num_tokens
+
+        assert topk_ids.dim() == 2
+        topk = topk_ids.size(1)
+
+        return E, M, N, K, topk
+
+
+class MarlinExperts(MarlinExpertsBase):
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
+    ):
+        super().__init__(
+            quant_config,
+            w13_g_idx,
+            w2_g_idx,
+            w13_g_idx_sort_indices,
+            w2_g_idx_sort_indices,
+            is_k_full,
+        )
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # Modular Kernel provisions output buffer from workspace1. However in
+        # the fused_marlin_moe() function, the final torch.sum(), is defined
+        # essentially as,
+        # `torch.sum(workspace1, dim=1, out=output)`
+        # Having overlapping input and output tensors for torch.sum seems
+        # error prone and depends on how the torch.sum is implemented.
+        # For this reason we swap let the output buffer provision from
+        # workspace2.
+
+        # Workspace/IntermediateCache allocation matching fused_marlin_moe()
+        # workspace1 = (M * topk * max(2 * N, K),)
+        # workspace2 = (M * topk, N)
+
+        # Workspace/IntermediateCache allocation accounting for output buffer
+        # provisioning
+        workspace1 = (M * topk, max(N, K))
+        workspace2 = (M * topk * max(2 * N, K),)
+        output = (M, K)
+
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert self.w1_scale is not None
+        assert self.w2_scale is not None
+        return fused_marlin_moe(
+            hidden_states=hidden_states,
+            w1=w1,
+            w2=w2,
+            bias1=self.w1_bias,
+            bias2=self.w2_bias,
+            w1_scale=self.w1_scale,
+            w2_scale=self.w2_scale,
+            gating_output=None,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            quant_type_id=self.quant_type_id,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            activation=activation,
+            activation_func=self.activation,
+            moe_sum=self.moe_sum,
+            expert_map=expert_map,
+            output=output,
+            # Workspaces are swapped in workspace_shapes() to account for proper
+            # output buffer allocation. Please refer to workspace_shapes().
+            intermediate_cache13=workspace2,
+            intermediate_cache2=workspace13,
+            g_idx1=self.w13_g_idx,
+            g_idx2=self.w2_g_idx,
+            sort_indices1=self.w13_g_idx_sort_indices,
+            sort_indices2=self.w2_g_idx_sort_indices,
+            is_k_full=self.is_k_full,
+        )
+
+    def moe_sum(self, input: torch.Tensor, output: torch.Tensor) -> None:
+        ops.moe_sum(input, output)
+
+
+def modular_marlin_fused_moe(
+    quant_config: FusedMoEQuantConfig, shared_experts: torch.nn.Module | None = None
+) -> mk.FusedMoEModularKernel:
+    return mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(),
+        MarlinExperts(quant_config),
+        shared_experts,
+    )
+
+
+class BatchedMarlinExperts(MarlinExpertsBase):
+    def __init__(
+        self,
+        max_num_tokens: int,
+        num_dispatchers: int,
+        quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
+    ):
+        super().__init__(
+            quant_config,
+            w13_g_idx,
+            w2_g_idx,
+            w13_g_idx_sort_indices,
+            w2_g_idx_sort_indices,
+            is_k_full,
+        )
+        self.max_num_tokens = max_num_tokens
+        self.num_dispatchers = num_dispatchers
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceDelegate()
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.BatchedExperts,
+            mk.FusedMoEActivationFormat.BatchedExperts,
+        )
+
+    def supports_chunking(self) -> bool:
+        return False
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        num_dispatchers = self.num_dispatchers
+        num_experts = local_num_experts
+        max_num_tokens = M if self.max_num_tokens is None else self.max_num_tokens
+        workspace13 = (num_experts * max_num_tokens * num_dispatchers, max(K, N * 2))
+        workspace2 = (num_experts * max_num_tokens * num_dispatchers, N)
+        output = (num_experts, max_num_tokens * num_dispatchers, K)
+        return (workspace13, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        assert expert_tokens_meta is not None, "Num valid tokens per batch is required"
+        return batched_fused_marlin_moe(
+            hidden_states=hidden_states,
+            expert_num_tokens=expert_tokens_meta.expert_num_tokens,
+            w1=w1,
+            w2=w2,
+            bias1=self.w1_bias,
+            bias2=self.w2_bias,
+            w1_scale=self.w1_scale,
+            w2_scale=self.w2_scale,
+            gating_output=None,
+            quant_type_id=self.quant_type_id,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            activation=activation,
+            expert_map=expert_map,
+            output=output,
+            intermediate_cache13=workspace13,
+            intermediate_cache2=workspace2,
+            g_idx1=self.w13_g_idx,
+            g_idx2=self.w2_g_idx,
+            sort_indices1=self.w13_g_idx_sort_indices,
+            sort_indices2=self.w2_g_idx_sort_indices,
+            is_k_full=self.is_k_full,
+        )
diff --git a/model_executor/layers/fused_moe/fused_moe.py b/model_executor/layers/fused_moe/fused_moe.py
new file mode 100644
index 0000000..e63ab9d
--- /dev/null
+++ b/model_executor/layers/fused_moe/fused_moe.py
@@ -0,0 +1,2306 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Fused MoE Triton kernels."""
+
+import functools
+import json
+import os
+from collections.abc import Callable
+from typing import Any
+
+import torch
+import torch.nn.functional as F
+
+import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FUSED_MOE_UNQUANTIZED_CONFIG,
+    FusedMoEQuantConfig,
+    _get_config_dtype_str,
+)
+from vllm.model_executor.layers.fused_moe.cutlass_moe import (
+    _valid_cutlass_block_scaled_grouped_gemm,
+    run_cutlass_block_scaled_fused_experts,
+)
+from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
+    _valid_deep_gemm,
+    deep_gemm_moe_fp8,
+)
+from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
+    moe_align_block_size,
+)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+from vllm.model_executor.layers.fused_moe.utils import (
+    _resize_cache,
+    activation_without_mul,
+    disable_inplace,
+    moe_kernel_quantize_input,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp4_utils import dequant_mxfp4
+from vllm.model_executor.layers.quantization.utils.mxfp6_utils import dequant_mxfp6
+from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import OCP_MX_Scheme
+from vllm.model_executor.utils import maybe_disable_graph_partition
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+from vllm.utils.deep_gemm import is_deep_gemm_e8m0_used
+from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
+import vllm._custom_ops as ops
+import ixformer.inference.functions as ixfops
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.distributed import get_ep_group
+logger = init_logger(__name__)
+
+
+@triton.jit
+def write_zeros_to_output(
+    c_ptr,
+    stride_cm,
+    stride_cn,
+    pid_n,
+    N,
+    offs_token,
+    token_mask,
+    BLOCK_SIZE_M,
+    BLOCK_SIZE_N,
+    compute_type,
+):
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=compute_type)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_token[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = token_mask[:, None] & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=c_mask)
+
+
+@triton.jit
+def fused_moe_kernel_gptq_awq(
+    # Pointers to matrices
+    a_ptr,
+    b_ptr,
+    c_ptr,
+    b_scale_ptr,
+    b_zp_ptr,
+    topk_weights_ptr,
+    sorted_token_ids_ptr,
+    expert_ids_ptr,
+    num_tokens_post_padded_ptr,
+    # Matrix dimensions
+    N: tl.constexpr,
+    K: tl.constexpr,
+    EM,
+    num_valid_tokens,
+    # The stride variables represent how much to increase the ptr by when
+    # moving by 1 element in a particular dimension. E.g. `stride_am` is
+    # how much to increase `a_ptr` by to get the element one row down
+    # (A has M rows).
+    stride_am,
+    stride_ak,
+    stride_be,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    stride_bse,
+    stride_bsk,
+    stride_bsn,
+    stride_bze,
+    stride_bzk,
+    stride_bzn,
+    block_k_diviable: tl.constexpr,
+    group_size: tl.constexpr,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    MUL_ROUTED_WEIGHT: tl.constexpr,
+    top_k: tl.constexpr,
+    compute_type: tl.constexpr,
+    has_zp: tl.constexpr,
+    use_int4_w4a16: tl.constexpr,
+    use_int8_w8a16: tl.constexpr,
+):
+    """
+    Implements the fused computation for a Mixture of Experts (MOE) using
+    token and expert matrices.
+
+    Key Parameters:
+    - A: The input tensor representing tokens with shape (*, K), where '*' can
+        be any shape representing batches and K is the feature dimension of
+        each token.
+    - B: The stacked MOE weight tensor with shape (E, N, K), where E is
+        the number of experts, K is the input feature dimension, and N is
+        the output feature dimension.
+    - C: The output cache tensor with shape (M, topk, N), where M is the
+        total number of tokens post padding, topk is the number of times
+        each token is repeated, and N is the output feature dimension.
+    - sorted_token_ids: A tensor containing the sorted indices of tokens,
+        repeated topk times and arranged by the expert index they are
+        assigned to.
+    - expert_ids: A tensor containing the indices of the expert for each
+        block. It determines which expert matrix from B should be used for
+        each block in A.
+    This kernel performs the multiplication of a token by its corresponding
+    expert matrix as determined by `expert_ids`. The sorting of
+    `sorted_token_ids` by expert index and padding ensures divisibility by
+    BLOCK_SIZE_M, which is necessary to maintain consistency in block matrix
+    multiplication across different blocks processed by the same expert.
+    """
+    # -----------------------------------------------------------
+    # Map program ids `pid` to the block of C it should compute.
+    # This is done in a grouped ordering to promote L2 data reuse.
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(EM, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + ((pid % num_pid_in_group) % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    # ----------------------------------------------------------
+    # Create pointers for the first blocks of A and B.
+    # We will advance this pointer as we move in the K direction
+    # and accumulate
+    # `a_ptrs` is a block of [BLOCK_SIZE_M, BLOCK_SIZE_K] pointers
+    # `b_ptrs` is a block of [BLOCK_SIZE_K, BLOCK_SIZE_N] pointers
+    num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr)
+    if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
+        return
+    offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
+    offs_token = tl.load(sorted_token_ids_ptr + offs_token_id)
+    token_mask = offs_token < num_valid_tokens
+
+    off_experts = tl.load(expert_ids_ptr + pid_m).to(tl.int64)
+    if off_experts == -1:
+        # -----------------------------------------------------------
+        # Write back zeros to the output when the expert is not
+        # in the current expert parallel rank.
+        write_zeros_to_output(
+            c_ptr,
+            stride_cm,
+            stride_cn,
+            pid_n,
+            N,
+            offs_token,
+            token_mask,
+            BLOCK_SIZE_M,
+            BLOCK_SIZE_N,
+            compute_type,
+        )
+        return
+
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (
+        offs_token[:, None] // top_k * stride_am + offs_k[None, :] * stride_ak
+    )
+
+    if use_int4_w4a16:
+        b_ptrs = (
+            b_ptr
+            + off_experts * stride_be
+            + (offs_k[:, None] // 2) * stride_bk
+            + offs_bn[None, :] * stride_bn
+        )
+        b_shifter = (offs_k[:, None] % 2) * 4
+    elif use_int8_w8a16:
+        b_ptrs = (
+            b_ptr
+            + off_experts * stride_be
+            + offs_k[:, None] * stride_bk
+            + offs_bn[None, :] * stride_bn
+        )
+
+    if not has_zp and use_int4_w4a16:
+        b_zp_num = 8
+    if not has_zp and use_int8_w8a16:
+        b_zp_num = 128
+    elif has_zp and use_int4_w4a16:
+        b_zp_shifter = (offs_bn[None, :] % 2) * 4
+
+    # -----------------------------------------------------------
+    # Iterate to compute a block of the C matrix.
+    # We accumulate into a `[BLOCK_SIZE_M, BLOCK_SIZE_N]` block
+    # of fp32 values for higher accuracy.
+    # `accumulator` will be converted back to fp16 after the loop.
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        # Load the next block of A and B, generate a mask by checking the
+        # K dimension.
+
+        if not block_k_diviable:
+            k_mask = offs_k[:, None] < K - k * BLOCK_SIZE_K
+            k_other = 0.0
+        else:
+            k_mask = None
+            k_other = None
+
+        a = tl.load(
+            a_ptrs,
+            mask=token_mask[:, None] & (offs_k[None, :] < K - k * BLOCK_SIZE_K),
+            other=0.0,
+        )
+        b = tl.load(b_ptrs)
+        if use_int4_w4a16:
+            b = (b >> b_shifter) & 0xF
+
+        b_scale_ptrs = (
+            b_scale_ptr
+            + off_experts * stride_bse
+            + offs_bn[None, :] * stride_bsn
+            + ((offs_k[:, None] + BLOCK_SIZE_K * k) // group_size) * stride_bsk
+        )
+        b_scale = tl.load(b_scale_ptrs, mask=k_mask, other=k_other)
+        b_scale = b_scale.to(tl.float32)
+
+        if has_zp and use_int4_w4a16:
+            offs_k_true = (offs_k[:, None] + BLOCK_SIZE_K * k) // group_size
+            b_zp_ptrs = (
+                b_zp_ptr
+                + off_experts * stride_bze
+                + (offs_bn[None, :] // 2) * stride_bzn
+                + offs_k_true * stride_bzk
+            )
+            b_zp = tl.load(b_zp_ptrs, mask=k_mask, other=k_other)
+            b_zp = (b_zp >> b_zp_shifter) & 0xF
+            b_zp = b_zp.to(tl.float32)
+        elif has_zp and use_int8_w8a16:
+            offs_k_true = (offs_k[:, None] + BLOCK_SIZE_K * k) // group_size
+            b_zp_ptrs = (
+                b_zp_ptr
+                + off_experts * stride_bze
+                + offs_bn[None, :] * stride_bzn
+                + offs_k_true * stride_bzk
+            )
+            b_zp = tl.load(b_zp_ptrs, mask=k_mask, other=k_other)
+            b_zp = b_zp.to(tl.float32)
+
+        # We accumulate along the K dimension.
+        if has_zp:
+            b = ((b.to(tl.float32) - b_zp) * b_scale).to(compute_type)
+        else:
+            b = ((b.to(tl.float32) - b_zp_num) * b_scale).to(compute_type)
+        accumulator = tl.dot(a, b, acc=accumulator)
+
+        # Advance the ptrs to the next K block.
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        if use_int4_w4a16:
+            b_ptrs += (BLOCK_SIZE_K // 2) * stride_bk
+        else:
+            b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    if MUL_ROUTED_WEIGHT:
+        moe_weight = tl.load(topk_weights_ptr + offs_token, mask=token_mask, other=0)
+        accumulator = accumulator * moe_weight[:, None]
+
+    accumulator = accumulator.to(compute_type)
+    # -----------------------------------------------------------
+    # Write back the block of the output
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_token[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = token_mask[:, None] & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=c_mask)
+
+
+@triton.jit
+def fused_moe_kernel(
+    # Pointers to matrices
+    a_ptr,
+    b_ptr,
+    c_ptr,
+    b_bias_ptr,
+    a_scale_ptr,
+    b_scale_ptr,
+    topk_weights_ptr,
+    sorted_token_ids_ptr,
+    expert_ids_ptr,
+    num_tokens_post_padded_ptr,
+    # Matrix dimensions
+    N,
+    K,
+    EM,
+    num_valid_tokens,
+    # The stride variables represent how much to increase the ptr by when
+    # moving by 1 element in a particular dimension. E.g. `stride_am` is
+    # how much to increase `a_ptr` by to get the element one row down
+    # (A has M rows).
+    stride_am,
+    stride_ak,
+    stride_be,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    stride_asm,
+    stride_ask,
+    stride_bse,
+    stride_bsk,
+    stride_bsn,
+    stride_bbe,  # bias expert stride
+    stride_bbn,  # bias N stride
+    # Block size for block-wise quantization
+    group_n: tl.constexpr,
+    group_k: tl.constexpr,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+    MUL_ROUTED_WEIGHT: tl.constexpr,
+    top_k: tl.constexpr,
+    compute_type: tl.constexpr,
+    use_fp8_w8a8: tl.constexpr,
+    use_int8_w8a8: tl.constexpr,
+    use_int8_w8a16: tl.constexpr,
+    per_channel_quant: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+):
+    """
+    Implements the fused computation for a Mixture of Experts (MOE) using
+    token and expert matrices.
+
+    Key Parameters:
+    - A: The input tensor representing tokens with shape (*, K), where '*' can
+        be any shape representing batches and K is the feature dimension of
+        each token.
+    - B: The stacked MOE weight tensor with shape (E, N, K), where E is
+        the number of experts, K is the input feature dimension, and N is
+        the output feature dimension.
+    - C: The output cache tensor with shape (M, topk, N), where M is the
+        total number of tokens post padding, topk is the number of times
+        each token is repeated, and N is the output feature dimension.
+    - sorted_token_ids: A tensor containing the sorted indices of tokens,
+        repeated topk times and arranged by the expert index they are
+        assigned to.
+    - expert_ids: A tensor containing the indices of the expert for each
+        block. It determines which expert matrix from B should be used for
+        each block in A.
+    This kernel performs the multiplication of a token by its corresponding
+    expert matrix as determined by `expert_ids`. The sorting of
+    `sorted_token_ids` by expert index and padding ensures divisibility by
+    BLOCK_SIZE_M, which is necessary to maintain consistency in block matrix
+    multiplication across different blocks processed by the same expert.
+    """
+    # -----------------------------------------------------------
+    # Map program ids `pid` to the block of C it should compute.
+    # This is done in a grouped ordering to promote L2 data reuse.
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(EM, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + ((pid % num_pid_in_group) % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    # ----------------------------------------------------------
+    # Create pointers for the first blocks of A and B.
+    # We will advance this pointer as we move in the K direction
+    # and accumulate
+    # `a_ptrs` is a block of [BLOCK_SIZE_M, BLOCK_SIZE_K] pointers
+    # `b_ptrs` is a block of [BLOCK_SIZE_K, BLOCK_SIZE_N] pointers
+    num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr)
+    if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
+        return
+    offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
+    offs_token = tl.load(sorted_token_ids_ptr + offs_token_id)
+    token_mask = offs_token < num_valid_tokens
+
+    off_experts = tl.load(expert_ids_ptr + pid_m).to(tl.int64)
+    if off_experts == -1:
+        # -----------------------------------------------------------
+        # Write back zeros to the output when the expert is not
+        # in the current expert parallel rank.
+        write_zeros_to_output(
+            c_ptr,
+            stride_cm,
+            stride_cn,
+            pid_n,
+            N,
+            offs_token,
+            token_mask,
+            BLOCK_SIZE_M,
+            BLOCK_SIZE_N,
+            compute_type,
+        )
+        return
+
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (
+        offs_token[:, None] // top_k * stride_am + offs_k[None, :] * stride_ak
+    )
+
+    b_ptrs = (
+        b_ptr
+        + off_experts * stride_be
+        + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+    )
+    if use_int8_w8a16:
+        b_scale_ptrs = (
+            b_scale_ptr + off_experts * stride_bse + offs_bn[None, :] * stride_bsn
+        )
+        b_scale = tl.load(b_scale_ptrs)
+
+    if use_fp8_w8a8 or use_int8_w8a8:
+        # block-wise
+        if group_k > 0 and group_n > 0:
+            a_scale_ptrs = a_scale_ptr + (offs_token // top_k) * stride_asm
+            offs_bsn = offs_bn // group_n
+            b_scale_ptrs = (
+                b_scale_ptr + off_experts * stride_bse + offs_bsn * stride_bsn
+            )
+        # channel-wise
+        elif per_channel_quant:
+            b_scale_ptrs = (
+                b_scale_ptr + off_experts * stride_bse + offs_bn[None, :] * stride_bsn
+            )
+            b_scale = tl.load(b_scale_ptrs)
+            # Load per-token scale for activations
+            a_scale_ptrs = a_scale_ptr + (offs_token // top_k) * stride_asm
+            a_scale = tl.load(a_scale_ptrs, mask=token_mask, other=0.0)[:, None]
+        # tensor-wise
+        else:
+            a_scale = tl.load(a_scale_ptr)
+            b_scale = tl.load(b_scale_ptr + off_experts)
+    if HAS_BIAS:
+        # bias shape: [num_experts, N]
+        bias_ptrs = b_bias_ptr + off_experts * stride_bbe + offs_bn * stride_bbn
+        bias = tl.load(bias_ptrs, mask=(offs_bn < N), other=0.0)
+    # -----------------------------------------------------------
+    # Iterate to compute a block of the C matrix.
+    # We accumulate into a `[BLOCK_SIZE_M, BLOCK_SIZE_N]` block
+    # of fp32 values for higher accuracy.
+    # `accumulator` will be converted back to fp16 after the loop.
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        # Load the next block of A and B, generate a mask by checking the
+        # K dimension.
+        a = tl.load(
+            a_ptrs,
+            mask=token_mask[:, None] & (offs_k[None, :] < K - k * BLOCK_SIZE_K),
+            other=0.0,
+        )
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+        # We accumulate along the K dimension.
+        if use_int8_w8a16:
+            accumulator = tl.dot(a, b.to(compute_type), acc=accumulator)
+        elif use_fp8_w8a8 or use_int8_w8a8:
+            if group_k > 0 and group_n > 0:
+                k_start = k * BLOCK_SIZE_K
+                offs_ks = k_start // group_k
+                a_scale = tl.load(
+                    a_scale_ptrs + offs_ks * stride_ask, mask=token_mask, other=0.0
+                )
+                b_scale = tl.load(b_scale_ptrs + offs_ks * stride_bsk)
+
+                accumulator += tl.dot(a, b) * a_scale[:, None] * b_scale[None, :]
+            else:
+                if use_fp8_w8a8:
+                    # acc used to enable fp8_fast_accum
+                    accumulator = tl.dot(a, b, acc=accumulator)
+                else:
+                    accumulator += tl.dot(a, b)
+        else:
+            accumulator += tl.dot(a, b)
+        # Advance the ptrs to the next K block.
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+    if HAS_BIAS:
+        accumulator = accumulator + bias[None, :]
+    if MUL_ROUTED_WEIGHT:
+        moe_weight = tl.load(topk_weights_ptr + offs_token, mask=token_mask, other=0)
+        accumulator = accumulator * moe_weight[:, None]
+    if use_int8_w8a16:
+        accumulator = (accumulator * b_scale).to(compute_type)
+    elif use_fp8_w8a8 or use_int8_w8a8:
+        if group_k > 0 and group_n > 0:
+            accumulator = accumulator.to(compute_type)
+        else:
+            accumulator = (accumulator * a_scale * b_scale).to(compute_type)
+    else:
+        accumulator = accumulator.to(compute_type)
+
+    # -----------------------------------------------------------
+    # Write back the block of the output
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_token[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = token_mask[:, None] & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=c_mask)
+
+
+def invoke_fused_moe_kernel(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    C: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    B_scale: torch.Tensor | None,
+    B_zp: torch.Tensor | None,
+    topk_weights: torch.Tensor | None,
+    topk_ids: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    mul_routed_weight: bool,
+    top_k: int,
+    config: dict[str, Any],
+    compute_type: tl.dtype,
+    use_fp8_w8a8: bool,
+    use_int8_w8a8: bool,
+    use_int8_w8a16: bool,
+    use_int4_w4a16: bool,
+    per_channel_quant: bool,
+    block_shape: list[int] | None = None,
+    B_bias: torch.Tensor | None = None,
+) -> None:
+    assert topk_weights is not None or not mul_routed_weight
+    assert topk_weights is None or topk_weights.stride(1) == 1
+    assert sorted_token_ids.stride(0) == 1
+    ops.invoke_fused_moe_kernel(A,B,C,A_scale,B_scale,topk_weights,topk_ids,sorted_token_ids,expert_ids,num_tokens_post_padded,mul_routed_weight,top_k,config,compute_type,use_fp8_w8a8,use_int8_w8a16,block_shape,B_bias)
+    return
+
+    if use_fp8_w8a8 or use_int8_w8a8:
+        assert B_scale is not None
+        assert block_shape is None or triton.cdiv(
+            B.size(-2), block_shape[0]
+        ) == B_scale.size(-2)
+        assert block_shape is None or triton.cdiv(
+            B.size(-1), block_shape[1]
+        ) == B_scale.size(-1)
+
+    elif use_int8_w8a16 or use_int4_w4a16:
+        assert B_scale is not None
+        assert block_shape is None or block_shape[0] == 0
+    else:
+        assert A_scale is None
+        assert B_scale is None
+
+    M = A.size(0)
+    num_tokens = M * top_k
+
+    EM = sorted_token_ids.size(0)
+    if A.size(0) < config["BLOCK_SIZE_M"]:
+        # optimize for small batch_size.
+        # We assume that top_ids of each token is unique,
+        # so num_valid_experts <= batch_size <= BLOCK_SIZE_M,
+        # and we can skip some invalid blocks.
+        EM = min(sorted_token_ids.size(0), A.size(0) * top_k * config["BLOCK_SIZE_M"])
+    grid = lambda META: (
+        triton.cdiv(EM, META["BLOCK_SIZE_M"])
+        * triton.cdiv(B.size(1), META["BLOCK_SIZE_N"]),
+    )
+    HAS_BIAS = B_bias is not None
+    if (
+        (use_int8_w8a16 or use_int4_w4a16)
+        and block_shape is not None
+        and block_shape[1] > 0
+    ):
+        assert B_scale is not None and B_scale.ndim == 3
+        assert B_zp is None or B_zp.ndim == 3
+
+        use_moe_wna16_cuda = should_moe_wna16_use_cuda(
+            num_valid_tokens=num_tokens,
+            group_size=block_shape[1],
+            num_experts=B.size(0),
+            bit=4 if use_int4_w4a16 else 8,
+        )
+        config = config.copy()
+        config.update(
+            get_moe_wna16_block_config(
+                config=config,
+                use_moe_wna16_cuda=use_moe_wna16_cuda,
+                num_valid_tokens=num_tokens,
+                size_k=A.size(1),
+                size_n=B.size(1),
+                num_experts=B.size(1),
+                group_size=block_shape[1],
+                real_top_k=top_k,
+                block_size_m=config["BLOCK_SIZE_M"],
+            )
+        )
+
+        if use_moe_wna16_cuda:
+            bit = 4 if use_int4_w4a16 else 8
+            ops.moe_wna16_gemm(
+                A,
+                C,
+                B,
+                B_scale,
+                B_zp,
+                topk_weights if mul_routed_weight else None,
+                sorted_token_ids,
+                expert_ids,
+                num_tokens_post_padded,
+                top_k,
+                config["BLOCK_SIZE_M"],
+                config["BLOCK_SIZE_N"],
+                config["BLOCK_SIZE_K"],
+                bit,
+            )
+            return
+        fused_moe_kernel_gptq_awq[grid](
+            A,
+            B,
+            C,
+            B_scale,
+            B_zp,
+            topk_weights,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            B.size(1),
+            A.size(1),
+            EM,
+            num_tokens,
+            A.stride(0),
+            A.stride(1),
+            B.stride(0),
+            B.stride(2),
+            B.stride(1),
+            C.stride(1),
+            C.stride(2),
+            B_scale.stride(0),
+            B_scale.stride(2),
+            B_scale.stride(1),
+            B_zp.stride(0) if B_zp is not None else 0,
+            B_zp.stride(2) if B_zp is not None else 0,
+            B_zp.stride(1) if B_zp is not None else 0,
+            block_k_diviable=A.size(1) % config["BLOCK_SIZE_K"] == 0,
+            group_size=block_shape[1],
+            MUL_ROUTED_WEIGHT=mul_routed_weight,
+            top_k=top_k,
+            compute_type=compute_type,
+            has_zp=B_zp is not None,
+            use_int4_w4a16=use_int4_w4a16,
+            use_int8_w8a16=use_int8_w8a16,
+            **config,
+        )
+    else:
+        config = config.copy()
+        config["SPLIT_K"] = 1
+        BLOCK_SIZE_K = config.pop("BLOCK_SIZE_K")
+        if block_shape is not None:
+            BLOCK_SIZE_K = min(BLOCK_SIZE_K, min(block_shape[0], block_shape[1]))
+        fused_moe_kernel[grid](
+            A,
+            B,
+            C,
+            B_bias,
+            A_scale,
+            B_scale,
+            topk_weights,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            B.size(1),
+            B.size(2),
+            EM,
+            num_tokens,
+            A.stride(0),
+            A.stride(1),
+            B.stride(0),
+            B.stride(2),
+            B.stride(1),
+            C.stride(1),
+            C.stride(2),
+            A_scale.stride(0) if A_scale is not None and A_scale.ndim == 2 else 0,
+            A_scale.stride(1) if A_scale is not None and A_scale.ndim == 2 else 0,
+            B_scale.stride(0) if B_scale is not None and B_scale.ndim >= 2 else 0,
+            B_scale.stride(2) if B_scale is not None and B_scale.ndim == 3 else 0,
+            B_scale.stride(1) if B_scale is not None and B_scale.ndim >= 2 else 0,
+            B_bias.stride(0) if B_bias is not None else 0,
+            B_bias.stride(1) if B_bias is not None else 0,
+            0 if block_shape is None else block_shape[0],
+            0 if block_shape is None else block_shape[1],
+            MUL_ROUTED_WEIGHT=mul_routed_weight,
+            top_k=top_k,
+            compute_type=compute_type,
+            use_fp8_w8a8=use_fp8_w8a8,
+            use_int8_w8a8=use_int8_w8a8,
+            use_int8_w8a16=use_int8_w8a16,
+            per_channel_quant=per_channel_quant,
+            HAS_BIAS=HAS_BIAS,
+            BLOCK_SIZE_K=BLOCK_SIZE_K,
+            **config,
+        )
+
+
+@triton.jit
+def compute_identity_kernel(
+    top_k: int,
+    hidden_states_ptr: tl.tensor,
+    expert_scales_ptr: tl.tensor,
+    num_tokens: int,
+    output_ptr: tl.tensor,
+    hidden_dim: int,
+    scales_stride: int,
+    BLOCK_SIZE: tl.constexpr,
+) -> None:
+    pid = tl.program_id(0)
+
+    batch_id = pid // (hidden_dim // BLOCK_SIZE)
+    dim_offset = pid % (hidden_dim // BLOCK_SIZE) * BLOCK_SIZE
+
+    if batch_id >= num_tokens or dim_offset >= hidden_dim:
+        return
+
+    h = tl.load(
+        hidden_states_ptr
+        + batch_id * hidden_dim
+        + dim_offset
+        + tl.arange(0, BLOCK_SIZE),
+        mask=(dim_offset + tl.arange(0, BLOCK_SIZE)) < hidden_dim,
+    )
+
+    result = tl.zeros([BLOCK_SIZE], dtype=tl.float32)
+    for i in range(top_k):
+        scale = tl.load(expert_scales_ptr + batch_id * scales_stride + i)
+        result += h * scale
+
+    tl.store(
+        output_ptr + batch_id * hidden_dim + dim_offset + tl.arange(0, BLOCK_SIZE),
+        result,
+        mask=(dim_offset + tl.arange(0, BLOCK_SIZE)) < hidden_dim,
+    )
+
+
+def zero_experts_compute_triton(
+    expert_indices: torch.Tensor,
+    expert_scales: torch.Tensor,
+    num_experts: int,
+    zero_expert_type: str,
+    hidden_states: torch.Tensor,
+) -> torch.Tensor:
+    N = expert_indices.numel()
+    top_k = expert_indices.size(-1)
+    grid = lambda meta: (triton.cdiv(N, meta["BLOCK_SIZE"]),)
+
+    if zero_expert_type == "identity":
+        zero_expert_mask = expert_indices < num_experts
+        zero_expert_scales = expert_scales.clone()
+        zero_expert_scales[zero_expert_mask] = 0.0
+
+    normal_expert_mask = expert_indices >= num_experts
+    expert_indices[normal_expert_mask] = 0
+    expert_scales[normal_expert_mask] = 0.0
+
+    output = torch.zeros_like(hidden_states).to(hidden_states.device)
+    hidden_dim = hidden_states.size(-1)
+    num_tokens = hidden_states.size(0)
+
+    grid = lambda meta: (num_tokens * (hidden_dim // meta["BLOCK_SIZE"]),)
+    compute_identity_kernel[grid](
+        top_k,
+        hidden_states,
+        zero_expert_scales,
+        num_tokens,
+        output,
+        hidden_dim,
+        zero_expert_scales.stride(0),
+        BLOCK_SIZE=256,
+    )
+
+    return output
+
+
+# Adapted from: https://github.com/sgl-project/sglang/pull/2628
+def get_config_file_name(
+    E: int, N: int, dtype: str | None, block_shape: list[int] | None = None
+) -> str:
+    device_name = current_platform.get_device_name().replace(" ", "_")
+    # Set device_name to H200 if a device from the H200 family is detected
+    if "H200" in device_name.split("_"):
+        device_name = "NVIDIA_H200"
+    dtype_selector = "" if not dtype else f",dtype={dtype}"
+    block_shape_selector = (
+        "" if not block_shape or not all(block_shape) else f",block_shape={block_shape}"
+    ).replace(" ", "")
+    return f"E={E},N={N},device_name={device_name}{dtype_selector}{block_shape_selector}.json"  # noqa: E501
+
+
+# Adapted from: https://github.com/sgl-project/sglang/pull/2628
+@functools.lru_cache
+def get_moe_configs(
+    E: int,
+    N: int,
+    dtype: str | None,
+    block_n: int | None = None,
+    block_k: int | None = None,
+) -> dict[int, Any] | None:
+    """
+    Return optimized configurations for the fused MoE kernel.
+
+    The return value will be a dictionary that maps an irregular grid of
+    batch sizes to configurations of the fused_moe kernel. To evaluate the
+    kernel on a given batch size bs, the closest batch size in the grid should
+    be picked and the associated configuration chosen to invoke the kernel.
+    """
+
+    # Avoid optimizing for the batch invariant case. Use default config
+    if vllm_is_batch_invariant():
+        return None
+
+    # First look up if an optimized configuration is available in the configs
+    # directory
+    block_shape = [block_n, block_k] if block_n and block_k else None
+    json_file_name = get_config_file_name(E, N, dtype, block_shape)
+
+    config_file_paths = []
+
+    # note that we prioritize user defined config
+    user_defined_config_folder = envs.VLLM_TUNED_CONFIG_FOLDER
+    if user_defined_config_folder is not None:
+        user_defined_config_file_path = os.path.join(
+            user_defined_config_folder, json_file_name
+        )
+        config_file_paths.append(user_defined_config_file_path)
+
+    default_config_file_path = os.path.join(
+        os.path.dirname(os.path.realpath(__file__)), "configs", json_file_name
+    )
+    config_file_paths.append(default_config_file_path)
+
+    for config_file_path in config_file_paths:
+        if os.path.exists(config_file_path):
+            with open(config_file_path) as f:
+                logger.info(
+                    "Using configuration from %s for MoE layer.", config_file_path
+                )
+                # If a configuration has been found, return it
+                tuned_config = json.load(f)
+                # Delete triton_version from tuned_config
+                tuned_config.pop("triton_version", None)
+                return {int(key): val for key, val in tuned_config.items()}
+
+    # If no optimized configuration is available, we will use the default
+    # configuration
+    logger.warning(
+        (
+            "Using default MoE config. Performance might be sub-optimal! "
+            "Config file not found at %s"
+        ),
+        config_file_paths,
+    )
+    return None
+
+
+def get_moe_wna16_block_config(
+    config: dict[str, int],
+    use_moe_wna16_cuda: bool,
+    num_valid_tokens: int,
+    size_k: int,
+    size_n: int,
+    num_experts: int,
+    group_size: int,
+    real_top_k: int,
+    block_size_m: int,
+):
+    if "BLOCK_SIZE_N" in config and "BLOCK_SIZE_K" in config:
+        # optimal block config is set
+        return {}
+    if not use_moe_wna16_cuda:
+        # triton moe wna16 kernel
+        if num_valid_tokens // real_top_k == 1:
+            # if bs=1, use a smaller BLOCK_SIZE_N
+            return {"BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 64}
+        else:
+            return {"BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32}
+    else:
+        # cuda moe wna16 kernel
+        # set default block_size 128, and increase them when num_blocks
+        # is too large.
+        block_size_n = 128
+        block_size_k = 128
+        if block_size_k <= group_size:
+            block_size_k = group_size
+
+        num_n_blocks = size_k // block_size_k
+        num_k_blocks = size_n // block_size_k
+        num_m_blocks = (
+            num_valid_tokens + block_size_m - 1
+        ) / block_size_m + num_experts
+        if num_valid_tokens // real_top_k <= block_size_m:
+            num_m_blocks = min(num_m_blocks, num_valid_tokens)
+        num_blocks = num_m_blocks * num_n_blocks * num_k_blocks
+
+        if size_k % 256 == 0 and num_blocks >= 256 and block_size_k < 256:
+            block_size_k = 256
+            num_blocks = num_blocks // (256 // block_size_k)
+
+        if (
+            num_m_blocks <= 16
+            and size_k % (block_size_k * 2) == 0
+            and size_k % (block_size_k * 2) == 0
+            and block_size_k <= 512
+            and num_blocks >= 512
+        ):
+            block_size_k = block_size_k * 2
+            num_blocks = num_blocks // 2
+
+        if num_blocks > 1024:
+            block_size_n = 256
+            num_n_blocks = num_n_blocks // 2
+            num_blocks = num_blocks // 2
+
+        if size_n <= 1024 and num_blocks >= 1024:
+            # The kernel performance got much better with BLOCK_SIZE_N=1024
+            # when num_blocks is large, event when N is small.
+            # Not sure why, maybe it force the CUDA SM process only one block
+            # at the same time.
+            block_size_n = 1024
+
+        return {"BLOCK_SIZE_N": block_size_n, "BLOCK_SIZE_K": block_size_k}
+
+
+def should_moe_wna16_use_cuda(
+    num_valid_tokens: int, group_size: int, num_experts: int, bit: int
+):
+    return (
+        current_platform.is_cuda()
+        and bit == 4
+        and group_size in [32, 64, 128]
+        and num_valid_tokens / num_experts <= 6
+    )
+
+
+def get_default_config(
+    M: int,
+    E: int,
+    N: int,
+    K: int,
+    topk: int,
+    dtype: str | None,
+    block_shape: list[int] | None = None,
+) -> dict[str, int]:
+    if vllm_is_batch_invariant():
+        config = {
+            "BLOCK_SIZE_M": 64,
+            "BLOCK_SIZE_N": 64,
+            "BLOCK_SIZE_K": 32,
+            "GROUP_SIZE_M": 8,
+            "SPLIT_K": 1,
+        }
+        return config
+
+    if dtype == "fp8_w8a8" and block_shape is not None:
+        # Block-wise quant: BLOCK_SIZE_N must be divisible by block_shape[0]
+        # BLOCK_SIZE_K must be divisible by block_shape[1]
+        # num_stages=3 can cause triton.runtime.errors.OutOfResources
+        # on ROCm, set it to 2 instead.
+        config = {
+            "BLOCK_SIZE_M": 64,
+            "BLOCK_SIZE_N": block_shape[0],
+            "BLOCK_SIZE_K": block_shape[1],
+            "GROUP_SIZE_M": 32,
+            "SPLIT_K": 1,
+            "num_warps": 4,
+            "num_stages": 3 if not current_platform.is_rocm() else 2,
+        }
+    elif dtype in ["int4_w4a16", "int8_w8a16"] and block_shape is not None:
+        # moe wna16 kernels
+        # only set BLOCK_SIZE_M
+        # BLOCK_SIZE_N and BLOCK_SIZE_K would be set later
+        bit = 4 if dtype == "int4_w4a16" else 8
+        use_moe_wna16_cuda = should_moe_wna16_use_cuda(M * topk, block_shape[1], E, bit)
+        if use_moe_wna16_cuda:
+            config = {"BLOCK_SIZE_M": min(16, M), "SPLIT_K": 1}
+        elif M <= 20:
+            config = {"BLOCK_SIZE_M": 16, "GROUP_SIZE_M": 1, "SPLIT_K": 1}
+        elif M <= 40:
+            config = {"BLOCK_SIZE_M": 32, "GROUP_SIZE_M": 1, "SPLIT_K": 1}
+        else:
+            config = {"BLOCK_SIZE_M": 64, "GROUP_SIZE_M": 1, "SPLIT_K": 1}
+    elif M <= E:
+        config = {
+            "BLOCK_SIZE_M": 16,
+            "BLOCK_SIZE_N": 32,
+            "BLOCK_SIZE_K": 64,
+            "GROUP_SIZE_M": 1,
+            "SPLIT_K": 1,
+        }
+    else:
+        config = {
+            "BLOCK_SIZE_M": 64,
+            "BLOCK_SIZE_N": 64,
+            "BLOCK_SIZE_K": 32,
+            "GROUP_SIZE_M": 8,
+            "SPLIT_K": 1,
+        }
+    numel = M * topk
+    if numel <= 64:
+        config['BLOCK_SIZE_M'] = 32
+    elif numel <= 1024:
+        config['BLOCK_SIZE_M'] = 64
+    else:
+        config['BLOCK_SIZE_M'] = 256
+    return config
+
+
+def try_get_optimal_moe_config(
+    w1_shape: tuple[int, ...],
+    w2_shape: tuple[int, ...],
+    top_k: int,
+    dtype: str | None,
+    M: int,
+    block_shape: list[int] | None = None,
+) -> dict[str, int]:
+    from vllm.model_executor.layers.fused_moe import get_config
+
+    override_config = get_config()
+    if override_config:
+        config = override_config
+    else:
+        # First try to load optimal config from the file
+        E, _, N = w2_shape
+        # block_n = block_shape[0] if block_shape else 0
+        # block_k = block_shape[1] if block_shape else 0
+        # configs = get_moe_configs(E, N, dtype, block_n, block_k)
+
+        configs = None
+        
+        if configs:
+            # If an optimal configuration map has been found, look up the
+            # optimal config
+            config = configs[min(configs.keys(), key=lambda x: abs(x - M))]
+        else:
+            # Else use the default config
+            config = get_default_config(M, E, N, w1_shape[2], top_k, dtype, block_shape)
+    return config
+
+
+def vllm_topk_softmax(
+    topk_weights: torch.Tensor,
+    topk_indices: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+    renormalize: bool,
+) -> tuple[torch.Tensor, ...]:
+    ops.topk_softmax(
+        topk_weights,
+        topk_indices,
+        token_expert_indices,
+        gating_output,
+    )
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+
+    return topk_weights, topk_indices
+
+
+def dispatch_topk_func(
+    use_rocm_aiter: bool = False,
+) -> Callable[..., tuple[torch.Tensor, ...]]:
+    if use_rocm_aiter:
+        return rocm_aiter_ops.topk_softmax
+    return vllm_topk_softmax
+
+
+def fused_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    indices_type: torch.dtype | None = None,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert hidden_states.size(0) == gating_output.size(0), "Number of tokens mismatch"
+
+    M, _ = hidden_states.size()
+
+    topk_weights = torch.empty(
+        M, topk, dtype=torch.float32, device=hidden_states.device
+    )
+    topk_ids = torch.empty(
+        M,
+        topk,
+        dtype=torch.int32 if indices_type is None else indices_type,
+        device=hidden_states.device,
+    )
+    token_expert_indices = torch.empty(
+        M, topk, dtype=torch.int32, device=hidden_states.device
+    )
+    
+    gating_output_float = gating_output.float()  # TODO(woosuk): Optimize this.
+
+    topk_func = dispatch_topk_func(use_rocm_aiter=rocm_aiter_ops.is_fused_moe_enabled())
+    topk_weights, topk_ids = topk_func(
+        topk_weights, topk_ids, token_expert_indices, gating_output_float, renormalize
+    )
+
+    return topk_weights, topk_ids, token_expert_indices
+
+
+def fused_topk_bias(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    e_score_correction_bias: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+):
+    n_routed_experts = gating_output.shape[-1]
+    scores = gating_output.softmax(dim=-1)
+    scores_for_choice = scores.view(
+        -1, n_routed_experts
+    ) + e_score_correction_bias.unsqueeze(0)
+
+    # For batch invariance, use sorted=True to ensure deterministic expert selection
+    use_sorted = vllm_is_batch_invariant()
+    topk_indices = torch.topk(scores_for_choice, k=topk, dim=-1, sorted=use_sorted)[1]
+    topk_weights = scores.gather(1, topk_indices)
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+    return topk_weights.to(torch.float32), topk_indices.to(torch.int32)
+
+
+# This is used by the Deepseek-V2 and Deepseek-V3 model
+@torch.compile(
+    dynamic=True,
+    backend=current_platform.simple_compile_backend,
+    options=maybe_disable_graph_partition(current_platform.simple_compile_backend),
+)
+def grouped_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    num_expert_group: int = 0,
+    topk_group: int = 0,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,
+    e_score_correction_bias: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if (
+        envs.VLLM_USE_FUSED_MOE_GROUPED_TOPK
+        and current_platform.is_cuda()
+        and num_expert_group <= 32
+        and topk <= 32
+        and e_score_correction_bias is not None
+    ):
+        return fused_grouped_topk(
+            hidden_states=hidden_states,
+            gating_output=gating_output,
+            topk=topk,
+            renormalize=renormalize,
+            e_score_correction_bias=e_score_correction_bias,
+            num_expert_group=num_expert_group,
+            topk_group=topk_group,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+        )
+
+    assert hidden_states.size(0) == gating_output.size(0), "Number of tokens mismatch"
+
+    if scoring_func == "softmax":
+        scores = torch.softmax(gating_output, dim=-1)
+    elif scoring_func == "sigmoid":
+        scores = gating_output.sigmoid()
+    else:
+        raise ValueError(f"Unsupported scoring function: {scoring_func}")
+
+    num_token = scores.size(0)
+    if e_score_correction_bias is not None:
+        # Store original scores before applying correction bias. We use biased
+        # scores for expert selection but original scores for routing weights
+        original_scores = scores
+        scores = scores + e_score_correction_bias.unsqueeze(0)
+        group_scores = (
+            scores.view(num_token, num_expert_group, -1).topk(2, dim=-1)[0].sum(dim=-1)
+        )
+    else:
+        group_scores = (
+            scores.view(num_token, num_expert_group, -1).max(dim=-1).values
+        )  # [n, n_group]
+
+    # For batch invariance, use sorted=True to ensure deterministic expert selection
+    use_sorted = vllm_is_batch_invariant()
+    group_idx = torch.topk(group_scores, k=topk_group, dim=-1, sorted=use_sorted)[
+        1
+    ]  # [n, top_k_group]
+    group_mask = torch.zeros_like(group_scores)  # [n, n_group]
+    group_mask.scatter_(1, group_idx, 1)  # [n, n_group]
+    score_mask = (
+        group_mask.unsqueeze(-1)
+        .expand(num_token, num_expert_group, scores.size(-1) // num_expert_group)
+        .reshape(num_token, -1)
+    )  # [n, e]
+    tmp_scores = scores.masked_fill(~score_mask.bool(), float("-inf"))  # [n, e]
+
+    if e_score_correction_bias is not None:
+        topk_ids = torch.topk(tmp_scores, k=topk, dim=-1, sorted=use_sorted)[1]
+        # Use original unbiased scores for the routing weights
+        topk_weights = original_scores.gather(1, topk_ids)
+    else:
+        topk_weights, topk_ids = torch.topk(
+            tmp_scores, k=topk, dim=-1, sorted=use_sorted
+        )
+
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+
+    if routed_scaling_factor != 1.0:
+        topk_weights = topk_weights * routed_scaling_factor
+    return topk_weights.to(torch.float32), topk_ids.to(torch.int32)
+from ixformer.inference.functions import moe_grouped_topk as grouped_topk
+
+
+@torch.compile(dynamic=True, backend=current_platform.simple_compile_backend)
+def eplb_map_to_physical_and_record(
+    topk_ids: torch.Tensor,
+    expert_load_view: torch.Tensor,
+    logical_to_physical_map: torch.Tensor,
+    logical_replica_count: torch.Tensor,
+    indices_type: torch.dtype | None = None,
+) -> torch.Tensor:
+    """
+    Map the logical expert ids to physical expert ids
+    and record the expert load metrics.
+
+    This will select a pseudo-random replica for each logical expert.
+    Only used for EPLB.
+
+    Args:
+        topk_ids: The logical expert ids.
+        expert_load_view: The expert load view.
+        logical_to_physical_map: The logical to physical map.
+        logical_replica_count: The logical replica count.
+        indices_type: The indices type.
+
+    Returns:
+        The physical expert ids.
+    """
+
+    # 1. Convert the logical expert ids to physical expert ids
+    # Directly select a random replica for each logical expert
+
+    # In case `indices_type` is not `torch.long` or `torch.int`,
+    # e.g. `torch.uint32` as required by dispatch/combine kernels
+    topk_ids_long = topk_ids.long()
+    # Use (token position) modulo (replica count)
+    # to deterministically choose a replica
+    replica_count = logical_replica_count[topk_ids_long]
+    # Flatten-position based index, reshaped back to `topk_ids` shape
+    pos_indices = torch.arange(
+        topk_ids.numel(), device=topk_ids.device, dtype=torch.long
+    ).reshape_as(topk_ids)
+    # Compute pseudo-random indices by modulo
+    replica_indices = (pos_indices % replica_count).unsqueeze(-1)
+    physical_ids = (
+        logical_to_physical_map[topk_ids_long].gather(-1, replica_indices).squeeze(-1)
+    )
+
+    topk_ids = physical_ids
+
+    # 2. Record expert load metrics.
+
+    # TODO(bowen): When using `FusedMoEModularKernel`, this
+    # can be done in a more unified way, since
+    # `FusedMoEPrepareAndFinalize` will return the expert
+    # token count, in some cases directly from the kernel.
+    # However, now there are many code paths not using
+    # the modular kernel, e.g. calling `fused_experts`,
+    # so we decide to keep the logic here.
+    #
+    # If later refactor moved all the MoE kernel calls
+    # to the modular kernel, we can move this logic there
+    # to achieve better efficiency.
+
+    # `expert_load_view`: (num_physical_experts,)
+
+    # `torch.bincount` is not compilable, so use `scatter_add_` instead.
+    topk_ids_flatten = topk_ids.flatten()
+    expert_load_view.scatter_add_(
+        dim=0,
+        index=topk_ids_flatten.long(),
+        src=torch.ones_like(topk_ids_flatten).to(expert_load_view),
+    )
+
+    if indices_type is not None:
+        topk_ids = topk_ids.to(dtype=indices_type)
+    return topk_ids
+
+
+def fused_grouped_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    e_score_correction_bias: torch.Tensor,
+    num_expert_group: int = 0,
+    topk_group: int = 0,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert hidden_states.size(0) == gating_output.size(0), "Number of tokens mismatch"
+
+    if scoring_func == "sigmoid":
+        # Fully fused kernel path for sigmoid
+        topk_values, topk_indices = ops.grouped_topk(
+            gating_output,  # raw logits
+            num_expert_group,
+            topk_group,
+            topk,
+            renormalize,
+            routed_scaling_factor,
+            e_score_correction_bias.to(gating_output.dtype),
+            1,  # scoring_func=1 for sigmoid
+        )
+    elif scoring_func == "softmax":
+        # Apply softmax in Python, then use fused kernel
+        # TODO: Add support for softmax in kernel
+        scores = torch.softmax(gating_output, dim=-1)
+        topk_values, topk_indices = ops.grouped_topk(
+            scores,  # pre-computed scores
+            num_expert_group,
+            topk_group,
+            topk,
+            renormalize,
+            routed_scaling_factor,
+            e_score_correction_bias.to(gating_output.dtype),
+            0,  # scoring_func=0 (no activation, scores already computed)
+        )
+    else:
+        raise ValueError(f"Unsupported scoring function: {scoring_func}")
+
+    # Fused kernel outputs float32 values and int32 indices directly
+    return topk_values, topk_indices
+
+
+def inplace_fused_experts(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> None:
+    return fused_experts_impl(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        True,
+        activation,
+        apply_router_weight_on_input,
+        use_fp8_w8a8,
+        use_int8_w8a8,
+        use_int8_w8a16,
+        use_int4_w4a16,
+        ocp_mx_scheme,
+        per_channel_quant,
+        global_num_experts,
+        expert_map,
+        w1_scale,
+        w2_scale,
+        w1_zp,
+        w2_zp,
+        a1_scale,
+        a2_scale,
+        block_shape,
+        w1_bias,
+        w2_bias,
+    )
+
+
+def inplace_fused_experts_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+direct_register_custom_op(
+    op_name="inplace_fused_experts",
+    op_func=inplace_fused_experts,
+    mutates_args=["hidden_states"],
+    fake_impl=inplace_fused_experts_fake,
+    tags=(
+        ()
+        if is_torch_equal_or_newer("2.7.0")
+        else (torch.Tag.needs_fixed_stride_order,)
+    ),
+)
+
+
+def outplace_fused_experts(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return fused_experts_impl_opt(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        activation,
+        apply_router_weight_on_input,
+        use_fp8_w8a8,
+        use_int8_w8a8,
+        use_int8_w8a16,
+        use_int4_w4a16,
+        ocp_mx_scheme,
+        per_channel_quant,
+        global_num_experts,
+        expert_map,
+        w1_scale,
+        w2_scale,
+        w1_zp,
+        w2_zp,
+        a1_scale,
+        a2_scale,
+        block_shape,
+        w1_bias,
+        w2_bias,
+    )
+
+
+def outplace_fused_experts_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+direct_register_custom_op(
+    op_name="outplace_fused_experts",
+    op_func=outplace_fused_experts,
+    fake_impl=outplace_fused_experts_fake,
+    tags=(
+        ()
+        if is_torch_equal_or_newer("2.7.0")
+        else (torch.Tag.needs_fixed_stride_order,)
+    ),
+)
+
+
+def torch_vllm_inplace_fused_experts(**kwargs) -> torch.Tensor:
+    return inplace_fused_experts(**kwargs)
+
+
+def torch_vllm_outplace_fused_experts(**kwargs) -> torch.Tensor:
+    return outplace_fused_experts(**kwargs)
+
+
+def dispatch_fused_experts_func(inplace: bool) -> Callable[..., torch.Tensor]:
+    if inplace and not disable_inplace():
+        return torch_vllm_inplace_fused_experts
+    return torch_vllm_outplace_fused_experts
+
+
+# TODO (bnell): replace this with modular op.  Can get rid of inplace/outplace
+# torch ops.
+def fused_experts(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    inplace: bool = False,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    quant_config: FusedMoEQuantConfig | None = None,
+    allow_deep_gemm: bool = False,
+    allow_cutlass_block_scaled_grouped_gemm: bool = False,
+) -> torch.Tensor:
+    if quant_config is None:
+        quant_config = FUSED_MOE_UNQUANTIZED_CONFIG
+    use_fp8_w8a8 = quant_config.use_fp8_w8a8
+
+    # For now, disable DeepGemm for small N (<= 512) until better
+    # permute/unpermute ops are available.
+    # However, on B200, we use DeepGemm for all cases because they only support
+    # E8M0 scale, which means we requantize the weight and input to the specific
+    # scale. Fallen back to cutlass or triton for some cases would cause
+    # accuracy issue.
+    if (
+        allow_deep_gemm
+        and quant_config.use_fp8_w8a8
+        and (is_deep_gemm_e8m0_used() or _valid_deep_gemm(hidden_states, w1, w2))
+    ):
+        assert quant_config is not None
+        assert apply_router_weight_on_input is False
+        return deep_gemm_moe_fp8(
+            hidden_states=hidden_states,
+            w1=w1,
+            w2=w2,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=inplace,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            w1_scale=quant_config.w1_scale,
+            w2_scale=quant_config.w2_scale,
+            a1_scale=quant_config.a1_scale,
+            a2_scale=quant_config.a2_scale,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+        )
+    elif (
+        allow_cutlass_block_scaled_grouped_gemm
+        and use_fp8_w8a8
+        and _valid_cutlass_block_scaled_grouped_gemm(
+            w1, w2, inplace, activation, apply_router_weight_on_input, expert_map
+        )
+    ):
+        assert quant_config is not None
+        return run_cutlass_block_scaled_fused_experts(
+            a=hidden_states,
+            w1=w1,
+            w2=w2,
+            w1_scale=quant_config.w1_scale,
+            w2_scale=quant_config.w2_scale,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+        )
+    else:
+        return dispatch_fused_experts_func(inplace)(
+            hidden_states=hidden_states,
+            w1=w1,
+            w2=w2,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            use_fp8_w8a8=quant_config.use_fp8_w8a8,
+            use_int8_w8a8=quant_config.use_int8_w8a8,
+            use_int8_w8a16=quant_config.use_int8_w8a16,
+            use_int4_w4a16=quant_config.use_int4_w4a16,
+            ocp_mx_scheme=quant_config.ocp_mx_scheme,
+            per_channel_quant=quant_config.per_act_token_quant,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            w1_scale=quant_config.w1_scale,
+            w2_scale=quant_config.w2_scale,
+            w1_zp=quant_config.w1_zp,
+            w2_zp=quant_config.w2_zp,
+            a1_scale=quant_config.a1_scale,
+            a2_scale=quant_config.a2_scale,
+            block_shape=quant_config.block_shape,
+            w1_bias=quant_config.w1_bias,
+            w2_bias=quant_config.w2_bias,
+        )
+
+
+SILU_NO_MUL: str = activation_without_mul("silu")
+GELU_NO_MUL: str = activation_without_mul("gelu")
+RELU2_NO_MUL: str = activation_without_mul("relu2")
+
+# 这个方法参考了compressed_tensors_moe实现
+def fused_experts_impl_opt(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: torch.Tensor | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+    output: torch.Tensor | None = None
+) -> torch.Tensor:
+    # check constraints
+    if use_fp8_w8a8 or use_int8_w8a8 or use_int8_w8a16 or use_int4_w4a16 or w1_scale or \
+        w2_scale or w1_zp or w2_zp or a1_scale or a2_scale:
+        raise ValueError("Quantized MoE is not supported")
+
+    attn_metadata = get_forward_context().attn_metadata
+    use_ep = expert_map is not None
+
+    # unsupported ep now
+    if attn_metadata:
+        only_decode = (use_ep == False and all(t.num_decodes > 0 and t.num_prefills ==0 for t in list(attn_metadata.values())))
+    else:
+        only_decode = False
+    
+    assert topk_weights.size() == topk_ids.size(), "topk shape mismatch"
+    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
+    assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
+    assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
+    assert hidden_states.dtype in [
+        torch.float32, torch.float16, torch.bfloat16
+    ]
+    
+    num_tokens = hidden_states.size(0)
+    num_experts = w1.size(0)
+    top_k = topk_weights.size(1)
+    
+    if use_ep:
+        local_num_experts = w1.size(0)
+        start_eid = get_ep_group().device_group.rank() * local_num_experts
+        end_eid = min((get_ep_group().device_group.rank() + 1) * local_num_experts, global_num_experts)
+        hidden_size = hidden_states.shape[1]
+        (
+            src_to_dst,
+            sorted_token_ids,
+            expert_sizes_gpu,
+            expert_sizes_cpu,
+            expand_tokens,
+        ) = ixfops.moe_compute_token_index_ep(
+            topk_ids=topk_ids,
+            num_experts=global_num_experts,
+            start_expert_id=start_eid,
+            end_expert_id=end_eid,
+        )
+        if expert_sizes_cpu.sum() == 0:
+            return torch.zeros(
+                (num_tokens, hidden_size),
+                device=hidden_states.device,
+                dtype=hidden_states.dtype,
+            )
+    else:
+        expand_tokens = num_tokens * top_k
+        (
+            src_to_dst,
+            sorted_token_ids,
+            expert_sizes_gpu,
+            expert_sizes_cpu,
+        ) = ixfops.moe_compute_token_index(
+            topk_ids=topk_ids,
+            num_experts=num_experts,
+        )
+    
+    if only_decode:
+        # expand + reorder
+        hidden_states = ixfops.moe_expand_input(
+            hidden_states=hidden_states,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+        )
+        
+        # group gemm 1
+        pt_output_1 = ixfops.moe_w16a16_group_gemv(
+            input=hidden_states,
+            weight=w1,
+            output_dtype=hidden_states.dtype,
+            tokens_per_experts_gpu=expert_sizes_gpu,
+            dst_to_src=None,
+            bias=w1_bias, 
+            format="TN",
+        )
+        
+        # act
+        if activation == "silu":
+            pt_output_2 = ixfops.silu_and_mul(pt_output_1)
+        elif activation == "gelu":
+            pt_output_2 = ixfops.gelu_and_mul(pt_output_1)
+        elif activation == "swigluoai":
+            pt_output_2 = ixfops.swigluoai_and_mul(pt_output_1)
+        else:
+            raise ValueError(f"Unsupported activation: {activation}")
+
+        # group gemm 2 + reorder
+        pt_output_3 = ixfops.moe_w16a16_group_gemv(
+            input=pt_output_2,
+            weight=w2,
+            output_dtype=hidden_states.dtype,
+            tokens_per_experts_gpu=expert_sizes_gpu,
+            dst_to_src=sorted_token_ids,
+            bias=w2_bias,
+            format="TN",
+        )
+    
+        # mul + reduce_sum
+        final_hidden_states = ixfops.moe_output_reduce_sum(
+            input=pt_output_3.view(num_tokens, top_k, -1),
+            topk_weight=topk_weights,
+        )
+
+    else:
+        expert_sizes_cpu = expert_sizes_gpu.cpu()
+        # expand + reorder
+        hidden_states = ixfops.moe_expand_input(
+            hidden_states=hidden_states,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+        )
+        # group gemm 1
+        pt_output_1 = ixfops.moe_w16a16_group_gemm(
+            input=hidden_states,
+            weight=w1,
+            output_dtype=hidden_states.dtype,
+            tokens_per_experts=expert_sizes_cpu,
+            dst_to_src=None,
+            bias=w1_bias, 
+            format="TN",
+        )
+        
+        # act
+        if activation == "silu":
+            pt_output_2 = ixfops.silu_and_mul(pt_output_1)
+        elif activation == "gelu":
+            pt_output_2 = ixfops.gelu_and_mul(pt_output_1)
+        elif activation == "swigluoai":
+            pt_output_2 = ixfops.swigluoai_and_mul(pt_output_1)
+        else:
+            raise ValueError(f"Unsupported activation: {activation}")
+
+        if use_ep:
+            pt_output_3 = torch.empty(
+                (num_tokens * top_k, hidden_size),
+                device=hidden_states.device,
+                dtype=hidden_states.dtype,
+            )
+            # group gemm 2 + reorder
+            pt_output_3 = ixfops.moe_w16a16_group_gemm(
+                input=pt_output_2,
+                weight=w2,
+                output_dtype=hidden_states.dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                format="TN",
+                bias=w2_bias,
+                output=pt_output_3,
+            )
+        
+            # mul + reduce_sum
+            reduce_mask = src_to_dst == -1
+            if output != None:
+                ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weights,
+                    output=output,
+                    mask=reduce_mask,
+                )
+            else:
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weights,
+                    mask=reduce_mask,
+                )
+        else:
+            # group gemm 2 + reorder
+            pt_output_3 = ixfops.moe_w16a16_group_gemm(
+                input=pt_output_2,
+                weight=w2,
+                output_dtype=hidden_states.dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                bias=w2_bias,
+                format="TN",
+            )
+            
+            # mul + reduce_sum
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weights,
+            )
+        
+    if output == None:
+        return final_hidden_states
+
+
+def _get_config_quant_dtype(
+    use_fp8_w8a8: bool,
+    use_int8_w8a8: bool,
+    ocp_mx_scheme: str | None,
+) -> None | torch.dtype | str:
+    """
+    Get the quantization type based on the quantization strategy flags.
+    We don't have a quant_config at this point so we need to work backwards.
+    A return type of None means no quantization is required because the
+    input is unquantized or has been quantized prior to calling
+    fused_experts_impl.
+    """
+    if use_fp8_w8a8:
+        return torch.float8_e4m3fn
+    elif use_int8_w8a8:
+        return torch.int8
+    elif ocp_mx_scheme == "w_mxfp4_a_mxfp4":
+        return "mxfp4"
+    elif ocp_mx_scheme in {"w_mxfp4_a_mxfp6_e3m2", "w_mxfp6_e3m2_a_mxfp6_e3m2"}:
+        return "mxfp6_e3m2"
+    elif ocp_mx_scheme in {"w_mxfp4_a_mxfp6_e2m3", "w_mxfp6_e2m3_a_mxfp6_e2m3"}:
+        return "mxfp6_e2m3"
+    return None
+
+
+def fused_experts_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    inplace: bool = False,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    ocp_mx_scheme: str | None = None,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    w1_zp: torch.Tensor | None = None,
+    w2_zp: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+    block_shape: list[int] | None = None,
+    w1_bias: torch.Tensor | None = None,
+    w2_bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    # Check constraints.
+    if use_int4_w4a16:
+        assert hidden_states.size(1) // 2 == w1.size(2), "Hidden size mismatch"
+    elif ocp_mx_scheme is not None:
+        if ocp_mx_scheme in {
+            "w_mxfp4_a_mxfp4",
+            "w_mxfp4_a_mxfp6_e3m2",
+            "w_mxfp4_a_mxfp6_e2m3",
+        }:
+            # 16bit activation and fp4x2 packed weight
+            assert hidden_states.size(1) == w1.size(2) * 2, "hidden size mismatch"
+        elif ocp_mx_scheme in {
+            "w_mxfp6_e3m2_a_mxfp6_e3m2",
+            "w_mxfp6_e2m3_a_mxfp6_e2m3",
+        }:
+            assert hidden_states.size(1) == (w1.size(2) * 4) // 3, (
+                "hidden size mismatch"
+            )
+        else:
+            raise NotImplementedError(f"Unsupported ocp_mx_scheme={ocp_mx_scheme}")
+    else:
+        assert hidden_states.size(1) == w1.size(2), (
+            f"Hidden size mismatch {hidden_states.size(1)} != {w1.size(2)}"
+        )
+
+    assert topk_weights.size() == topk_ids.size(), "topk shape mismatch"
+    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
+    assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
+    assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
+    assert hidden_states.dtype in [torch.float32, torch.float16, torch.bfloat16]
+
+    num_tokens = hidden_states.size(0)
+    E, N, _ = w1.size()
+    K = w2.size(1)
+    if global_num_experts == -1:
+        global_num_experts = E
+    top_k_num = topk_ids.size(1)
+    # We execute the fused_moe kernel in chunks to circumvent this issue:
+    # https://github.com/vllm-project/vllm/issues/5938
+    CHUNK_SIZE = envs.VLLM_FUSED_MOE_CHUNK_SIZE
+    M = min(num_tokens, CHUNK_SIZE)
+
+    config_dtype = _get_config_dtype_str(
+        use_fp8_w8a8=use_fp8_w8a8,
+        use_int8_w8a16=use_int8_w8a16,
+        use_int4_w4a16=use_int4_w4a16,
+        ocp_mx_scheme=ocp_mx_scheme,
+        dtype=hidden_states.dtype,
+    )
+
+    # Note: for use_int8_w8a16 or use_int4_w4a16, the activations are
+    # quantized prior to calling fused_experts.
+    quant_dtype = _get_config_quant_dtype(
+        use_fp8_w8a8=use_fp8_w8a8,
+        use_int8_w8a8=use_int8_w8a8,
+        ocp_mx_scheme=ocp_mx_scheme,
+    )
+
+    get_config_func = functools.partial(
+        try_get_optimal_moe_config,
+        w1.size(),
+        w2.size(),
+        top_k_num,
+        config_dtype,
+        block_shape=block_shape,
+    )
+
+    config = get_config_func(M)
+
+    # We can reuse the memory between these because by the time we need
+    # cache3, we're done with cache1
+    cache13 = torch.empty(
+        M * top_k_num * max(N, K),
+        device=hidden_states.device,
+        dtype=hidden_states.dtype,
+    )
+    intermediate_cache1 = cache13[: M * top_k_num * N].view(M, top_k_num, N)
+    intermediate_cache3 = cache13[: M * top_k_num * K].view(M, top_k_num, K)
+
+    # This needs separate memory since it's used concurrently with cache1
+    intermediate_cache2 = torch.empty(
+        (M * top_k_num, N // 2), device=hidden_states.device, dtype=hidden_states.dtype
+    )
+
+    if hidden_states.dtype == torch.bfloat16:
+        compute_type = tl.bfloat16
+    elif hidden_states.dtype == torch.float16:
+        compute_type = tl.float16
+    elif hidden_states.dtype == torch.float32:
+        compute_type = tl.float32
+    else:
+        raise ValueError(f"Unsupported compute_type: {hidden_states.dtype}")
+
+   
+    out_hidden_states = torch.empty_like(hidden_states)
+
+    if ocp_mx_scheme is not None:
+        # TODO: On platforms for which `current_platform.supports_mx()` is True
+        # and for which we have a native OCP mx fused MOE kernel,
+        # this dequantization step should not be done.
+        if ocp_mx_scheme in {
+            OCP_MX_Scheme.w_mxfp4_a_mxfp4,
+            OCP_MX_Scheme.w_mxfp4_a_mxfp6_e3m2,
+            OCP_MX_Scheme.w_mxfp4_a_mxfp6_e2m3,
+        }:
+            # Weight has to be dequantized for mxfp4 emulation.
+            w1 = dequant_mxfp4(w1, w1_scale, hidden_states.dtype)
+            w1_scale = None
+            w2 = dequant_mxfp4(w2, w2_scale, hidden_states.dtype)
+            w2_scale = None
+        elif ocp_mx_scheme == OCP_MX_Scheme.w_mxfp6_e3m2_a_mxfp6_e3m2:
+            w1 = dequant_mxfp6(
+                w1, w1_scale, quant_dtype="fp6_e3m2", float_dtype=hidden_states.dtype
+            )
+            w1_scale = None
+            w2 = dequant_mxfp6(
+                w2, w2_scale, quant_dtype="fp6_e3m2", float_dtype=hidden_states.dtype
+            )
+            w2_scale = None
+        elif ocp_mx_scheme == OCP_MX_Scheme.w_mxfp6_e2m3_a_mxfp6_e2m3:
+            w1 = dequant_mxfp6(
+                w1, w1_scale, quant_dtype="fp6_e2m3", float_dtype=hidden_states.dtype
+            )
+            w1_scale = None
+            w2 = dequant_mxfp6(
+                w2, w2_scale, quant_dtype="fp6_e2m3", float_dtype=hidden_states.dtype
+            )
+            w2_scale = None
+        else:
+            raise NotImplementedError(f"Unsupported ocp_mx_scheme={ocp_mx_scheme}")
+
+    for chunk in range((num_tokens // CHUNK_SIZE) + 1):
+        begin_chunk_idx, end_chunk_idx = (
+            chunk * CHUNK_SIZE,
+            min((chunk + 1) * CHUNK_SIZE, num_tokens),
+        )
+        curr_hidden_states = hidden_states[begin_chunk_idx:end_chunk_idx]
+        tokens_in_chunk, _ = curr_hidden_states.size()
+
+        if tokens_in_chunk == 0:
+            break
+
+        if tokens_in_chunk < CHUNK_SIZE and chunk > 0:
+            # Adjust the intermediate cache size and config for the last
+            # chunk. Note that in most cases we only have one chunk
+            # so the cache size and config are already set correctly and
+            # do not need to be adjusted.
+            intermediate_cache1 = intermediate_cache1[:tokens_in_chunk]
+            intermediate_cache2 = intermediate_cache2[
+                : tokens_in_chunk * topk_ids.size(1)
+            ]
+            intermediate_cache3 = intermediate_cache3[:tokens_in_chunk]
+            config = get_config_func(tokens_in_chunk)
+
+        curr_topk_ids = topk_ids[begin_chunk_idx:end_chunk_idx]
+        curr_topk_weights = topk_weights[begin_chunk_idx:end_chunk_idx]
+        qcurr_hidden_states, a1q_scale = moe_kernel_quantize_input(
+            A=curr_hidden_states,
+            A_scale=a1_scale,
+            quant_dtype=quant_dtype,
+            per_act_token_quant=per_channel_quant,
+            block_shape=block_shape,
+        )
+
+        sorted_token_ids, expert_ids, num_tokens_post_padded = moe_align_block_size(
+            curr_topk_ids, config["BLOCK_SIZE_M"], global_num_experts, expert_map
+        )
+
+        invoke_fused_moe_kernel(
+            qcurr_hidden_states,
+            w1,
+            intermediate_cache1,
+            a1q_scale,
+            w1_scale,
+            w1_zp,
+            curr_topk_weights,
+            curr_topk_ids,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            apply_router_weight_on_input,
+            top_k_num,
+            config,
+            compute_type=compute_type,
+            use_fp8_w8a8=use_fp8_w8a8,
+            use_int8_w8a8=use_int8_w8a8,
+            use_int8_w8a16=use_int8_w8a16,
+            use_int4_w4a16=use_int4_w4a16,
+            per_channel_quant=per_channel_quant,
+            block_shape=block_shape,
+            B_bias=w1_bias,
+        )
+
+        if activation == "silu":
+            ops.silu_and_mul(intermediate_cache2,
+                                      intermediate_cache1.view(-1, N))
+        elif activation == "gelu":
+            ops.gelu_and_mul(intermediate_cache2,
+                                      intermediate_cache1.view(-1, N))
+        elif activation == "swigluoai":
+            # alpha = 1.702, limit = 7.0
+            ops.swigluoai_and_mul(intermediate_cache2,
+                                      intermediate_cache1.view(-1, N))
+        # Activation function without multiplication
+        elif activation == SILU_NO_MUL:
+            intermediate_cache2 = F.silu(intermediate_cache1.view(-1, N))
+        elif activation == GELU_NO_MUL:
+            intermediate_cache2 = F.gelu(intermediate_cache1.view(-1, N))
+        elif activation == RELU2_NO_MUL:
+            intermediate_cache2 = torch.square(F.relu(intermediate_cache1.view(-1, N)))
+        else:
+            raise ValueError(f"Unsupported FusedMoe activation: {activation}.")
+
+        qintermediate_cache2, a2q_scale = moe_kernel_quantize_input(
+            A=intermediate_cache2,
+            A_scale=a2_scale,
+            quant_dtype=quant_dtype,
+            per_act_token_quant=per_channel_quant,
+            block_shape=block_shape,
+        )
+
+        invoke_fused_moe_kernel(
+            qintermediate_cache2,
+            w2,
+            intermediate_cache3,
+            a2q_scale,
+            w2_scale,
+            w2_zp,
+            curr_topk_weights,
+            curr_topk_ids,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            not apply_router_weight_on_input,
+            1,
+            config,
+            compute_type=compute_type,
+            use_fp8_w8a8=use_fp8_w8a8,
+            use_int8_w8a8=use_int8_w8a8,
+            use_int8_w8a16=use_int8_w8a16,
+            use_int4_w4a16=use_int4_w4a16,
+            per_channel_quant=per_channel_quant,
+            block_shape=block_shape,
+            B_bias=w2_bias,
+        )
+
+        torch.sum(intermediate_cache3.view(*intermediate_cache3.shape),
+                  dim=1,
+                  out=out_hidden_states[begin_chunk_idx:end_chunk_idx])
+
+    return out_hidden_states
+
+
+class TritonExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        super().__init__(quant_config)
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        workspace1 = (M, topk, max(N // 2, K))
+        workspace2 = (M, topk, max(N, K))
+        output = (M, K)
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        fused_experts_impl_opt(hidden_states,
+                               w1,
+                               w2,
+                               topk_weights,
+                               topk_ids,
+                               activation,
+                               apply_router_weight_on_input,
+                               self.quant_config.use_fp8_w8a8,
+                               self.quant_config.use_int8_w8a8,
+                               self.quant_config.use_int8_w8a16,
+                               self.quant_config.use_int4_w4a16,
+                               self.quant_config.ocp_mx_scheme,
+                               self.quant_config.per_act_token_quant,
+                               global_num_experts,
+                               expert_map,
+                               self.quant_config.w1_scale,
+                               self.quant_config.w2_scale,
+                               self.quant_config.w1_zp,
+                               self.quant_config.w2_zp,
+                               self.quant_config.a1_scale,
+                               self.quant_config.a2_scale,
+                               self.quant_config.block_shape,
+                               self.quant_config.w1_bias,
+                               self.quant_config.w2_bias,
+                               output)
+
+def modular_triton_fused_moe(
+    quant_config: FusedMoEQuantConfig, shared_experts: torch.nn.Module | None = None
+) -> mk.FusedMoEModularKernel:
+    return mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(),
+        TritonExperts(quant_config),
+        shared_experts,
+    )
diff --git a/model_executor/layers/fused_moe/fused_moe_method_base.py b/model_executor/layers/fused_moe/fused_moe_method_base.py
new file mode 100644
index 0000000..87f8c8d
--- /dev/null
+++ b/model_executor/layers/fused_moe/fused_moe_method_base.py
@@ -0,0 +1,112 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizeMethodBase,
+)
+
+logger = init_logger(__name__)
+
+
+class FusedMoEMethodBase(QuantizeMethodBase):
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__()
+        self.moe: FusedMoEConfig = moe
+        self.moe_quant_config: FusedMoEQuantConfig | None = None
+
+    @abstractmethod
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def uses_weight_scale_2_pattern(self) -> bool:
+        """
+        Returns True if this quantization method uses 'weight_scale_2' pattern
+        for per-tensor weight scales (e.g., FP4 variants), False otherwise.
+
+        This method should be overridden by subclasses that use the
+        'weight_scale_2' pattern instead of the standard 'weight_scale' pattern.
+        """
+        return False
+
+    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+        from .all2all_utils import maybe_make_prepare_finalize
+
+        return maybe_make_prepare_finalize(self.moe, self.moe_quant_config)
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        # based on the all2all implementation, select the appropriate
+        # gemm implementation
+        raise NotImplementedError(
+            f"{self.__class__.__name__} must select appropriate gemm "
+            "implementation based on the prepare_finalize"
+        )
+
+    @abstractmethod
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        raise NotImplementedError
+
+    @property
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    @property
+    def supports_eplb(self) -> bool:
+        return False
+
+    @property
+    def allow_inplace(self) -> bool:
+        return False
+
+    @abstractmethod
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        raise NotImplementedError
diff --git a/model_executor/layers/fused_moe/fused_moe_modular_method.py b/model_executor/layers/fused_moe/fused_moe_modular_method.py
new file mode 100644
index 0000000..43974ba
--- /dev/null
+++ b/model_executor/layers/fused_moe/fused_moe_modular_method.py
@@ -0,0 +1,164 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEModularKernel,
+    FusedMoEPrepareAndFinalize,
+)
+
+logger = init_logger(__name__)
+
+
+@CustomOp.register("modular_fused_moe")
+class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
+    def __init__(
+        self, old_quant_method: FusedMoEMethodBase, experts: FusedMoEModularKernel
+    ):
+        super().__init__(old_quant_method.moe)
+        self.moe_quant_config = old_quant_method.moe_quant_config
+        self.fused_experts = experts
+        self.disable_expert_map = getattr(
+            old_quant_method,
+            "disable_expert_map",
+            not self.fused_experts.supports_expert_map(),
+        )
+        self.old_quant_method = old_quant_method
+        logger.debug("Swapping out %s", self.old_quant_method.__class__.__name__)
+
+    @staticmethod
+    def make(
+        moe_layer: torch.nn.Module,
+        old_quant_method: FusedMoEMethodBase,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        shared_experts: torch.nn.Module | None,
+    ) -> "FusedMoEModularMethod":
+        return FusedMoEModularMethod(
+            old_quant_method,
+            FusedMoEModularKernel(
+                prepare_finalize,
+                old_quant_method.select_gemm_impl(prepare_finalize, moe_layer),
+                shared_experts,
+            ),
+        )
+
+    @property
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return self.fused_experts.prepare_finalize.topk_indices_dtype()
+
+    @property
+    def supports_eplb(self) -> bool:
+        return self.old_quant_method.supports_eplb
+
+    @property
+    def allow_inplace(self) -> bool:
+        return self.old_quant_method.allow_inplace
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return self.moe_quant_config
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        # Is getattr needed?
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        if enable_eplb:
+            if self.supports_eplb:
+                assert expert_load_view is not None
+                assert logical_to_physical_map is not None
+                assert logical_replica_count is not None
+            else:
+                raise NotImplementedError(
+                    "EPLB is not supported for "
+                    f"{self.old_quant_method.__class__.__name__}."
+                )
+
+        topk_weights, topk_ids, zero_expert_result = layer.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+        )
+
+        result = self.fused_experts(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=self.allow_inplace,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            expert_map=None if self.disable_expert_map else expert_map,
+        )
+
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
diff --git a/model_executor/layers/fused_moe/gpt_oss_triton_kernels_moe.py b/model_executor/layers/fused_moe/gpt_oss_triton_kernels_moe.py
new file mode 100644
index 0000000..badedfc
--- /dev/null
+++ b/model_executor/layers/fused_moe/gpt_oss_triton_kernels_moe.py
@@ -0,0 +1,316 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FUSED_MOE_UNQUANTIZED_CONFIG,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+from vllm.triton_utils import tl, triton
+from vllm.utils.import_utils import has_triton_kernels
+
+logger = init_logger(__name__)
+
+if has_triton_kernels():
+    try:
+        import triton_kernels.swiglu
+        from triton_kernels.matmul_ogs import FnSpecs, FusedActivation, matmul_ogs
+        from triton_kernels.routing import RoutingData, routing, routing_from_bitmatrix
+        from triton_kernels.tensor import Bitmatrix
+    except (AttributeError, ImportError) as e:
+        logger.error(
+            "Failed to import Triton kernels. Please make sure your triton "
+            "version is compatible. Error: %s",
+            e,
+        )
+
+
+@triton.jit
+def pack_bitmatrix(
+    bitmatrix,
+    topk_ids,
+    n_rows,  # n_rows in bitmatrix / topk_ids
+    bm_cols: tl.constexpr,  # n int32_t bitpacks in bitmatrix
+    n_expts_act,  # num_topk
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+):
+    """
+    Packs topk_ids into a bitmatrix.
+    code reference:
+    https://github.com/triton-lang/triton/blob/dd1bbc52b34d202dfe5ffea1e04fb16166c5c04e/python/triton_kernels/bench/distributed.py#L264
+    """
+    pid_m = tl.program_id(0)
+    offsets_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offsets_k = tl.arange(0, BLOCK_SIZE_K)
+    offsets = offsets_m[:, None] * n_expts_act + offsets_k[None, :]
+    mask = (offsets_m < n_rows)[:, None] & (offsets_k < n_expts_act)[None, :]
+    indices = tl.load(topk_ids + offsets, mask=mask, other=-1)
+    div = indices // 32
+    rem = indices % 32
+    one = tl.cast(1, tl.uint32)
+
+    # Iterate through all the relevant bitmatrix columns.
+    for i in range(bm_cols):
+        # When BLOCK_SIZE_K=32, offs is just the column index.
+        offs = tl.arange(0, BLOCK_SIZE_K // 32) + i * (BLOCK_SIZE_K // 32)
+        # All topks that need to go into this column has the correct bit set.
+        # Other bits are 0. x is a 2D tensor.
+        x = tl.where(
+            div[:, :, None] == offs[None, None, :], (one << rem)[:, :, None], 0
+        )
+        # Reduce x to get a single int32_t bitpack.
+        y = tl.reduce_or(x, axis=1)
+        bitmatrix_ptrs = bitmatrix + offsets_m[:, None] * bm_cols + offs[None, :]
+        tl.store(bitmatrix_ptrs, y, mask=offsets_m[:, None] < n_rows)
+
+
+def triton_kernel_moe_forward(
+    hidden_states: torch.Tensor,
+    w1,  # Tensor or triton_kernels.Tensor
+    w2,  # Tensor or triton_kernels.Tensor
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    activation: str = "silu",
+    quant_config: FusedMoEQuantConfig | None = None,
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+) -> torch.Tensor:
+    routing_data, gather_idx, scatter_idx = routing(
+        gating_output, topk, sm_first=not renormalize
+    )
+
+    return triton_kernel_fused_experts(
+        None,
+        hidden_states,
+        w1,
+        w2,
+        routing_data,
+        gather_idx,
+        scatter_idx,
+        activation=activation,
+        quant_config=quant_config,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+    )
+
+
+# This is a triton implementation of the fused_experts function
+def triton_kernel_fused_experts(
+    output_tensor: torch.Tensor,
+    hidden_states: torch.Tensor,
+    w1,  # Tensor or triton_kernels.Tensor
+    w2,  # Tensor or triton_kernels.Tensor
+    routing_data,  # RoutingData
+    gather_indx,  # GatherIndx
+    scatter_indx,  # ScatterIndx
+    activation: str = "silu",
+    quant_config: FusedMoEQuantConfig | None = None,
+    swiglu_alpha: float = 1.702,
+    swiglu_limit: float = 7.0,
+    apply_router_weight_on_input: bool = False,
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    a1q_scale: torch.Tensor | None = None,
+) -> torch.Tensor:
+    if quant_config is None:
+        quant_config = FUSED_MOE_UNQUANTIZED_CONFIG
+
+    # type check, uint8 means mxfp4
+    assert hidden_states.dtype == torch.bfloat16
+    assert quant_config.w1_bias is None or quant_config.w1_bias.dtype == torch.float32
+    assert quant_config.w2_bias is None or quant_config.w2_bias.dtype == torch.float32
+
+    # Shape check, only check non-mxfp4
+    assert hidden_states.shape[-1] == w1.shape[-2]
+    assert w2.shape[-1] == w1.shape[1]
+
+    E, _, N = w1.shape
+
+    if global_num_experts == -1:
+        global_num_experts = E
+
+    act = FusedActivation(
+        FnSpecs("swiglu", triton_kernels.swiglu.swiglu_fn, ("alpha", "limit")),
+        (swiglu_alpha, swiglu_limit),
+        2,
+    )
+    gammas = routing_data.gate_scal if routing_data else None
+
+    intermediate_cache1 = matmul_ogs(
+        hidden_states,
+        w1,
+        quant_config.w1_bias,
+        routing_data,
+        gather_indx=gather_indx,
+        precision_config=quant_config.w1_precision,
+        gammas=gammas if apply_router_weight_on_input else None,
+        fused_activation=act,
+    )
+
+    intermediate_cache3 = matmul_ogs(
+        intermediate_cache1,
+        w2,
+        quant_config.w2_bias,
+        routing_data,
+        scatter_indx=scatter_indx,
+        precision_config=quant_config.w2_precision,
+        gammas=None if apply_router_weight_on_input else gammas,
+        y=output_tensor,
+    )
+    return intermediate_cache3
+
+
+def make_routing_data(
+    topk_ids: torch.Tensor,
+    topk_weights: torch.Tensor,
+    num_local_experts: int,
+) -> tuple["RoutingData", torch.Tensor, torch.Tensor]:
+    topk_ids = topk_ids.to(torch.int16)
+    topk_weights = topk_weights.to(torch.bfloat16)
+
+    n_rows, num_topk = topk_ids.size()
+
+    BLOCK_SIZE_M = 512
+    BLOCK_SIZE_K = 32
+
+    bm_cols = triton.cdiv(num_local_experts, BLOCK_SIZE_K)  # n_bitpacks
+    bitmatrix = torch.zeros(
+        (n_rows, bm_cols), dtype=torch.uint32, device=topk_ids.device
+    )
+
+    grid = (triton.cdiv(n_rows, BLOCK_SIZE_M),)
+    pack_bitmatrix[grid](
+        bitmatrix,
+        topk_ids,
+        n_rows,
+        bm_cols,
+        num_topk,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+    )
+
+    bitmatrix_shape = [n_rows, bm_cols * 32]
+    bitmatrix_shape_max = [n_rows, None]
+    bitmatrix = Bitmatrix(
+        bitmatrix, shape=bitmatrix_shape, shape_max=bitmatrix_shape_max, scratchpad=None
+    )
+
+    # matmul_ogs expects invalid topk_weights to be -1s
+    topk_weights = torch.where(topk_ids == -1, -1.0, topk_weights)
+    routing_data, gather_indx, scatter_indx = routing_from_bitmatrix(
+        bitmatrix, topk_weights, topk_ids, num_local_experts, num_topk
+    )
+
+    return routing_data, gather_indx, scatter_indx
+
+
+class BaseOAITritonExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(self, quant_config: FusedMoEQuantConfig):
+        super().__init__(quant_config)
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        # Weight application and reduction happens in the fused_experts kernel.
+        return TopKWeightAndReduceNoOP()
+
+    def _make_routing_data(
+        self,
+        topk_ids: torch.Tensor,
+        topk_weights: torch.Tensor,
+        num_local_experts: int,
+    ) -> tuple["RoutingData", torch.Tensor, torch.Tensor]:
+        return make_routing_data(topk_ids, topk_weights, num_local_experts)
+
+
+class OAITritonExperts(BaseOAITritonExperts):
+    def __init__(self, quant_config: FusedMoEQuantConfig):
+        # TODO (varun) : Enable activation quantization
+        assert quant_config.use_mxfp4_w4a16, "Supports only mxfp4_w4a16"
+        super().__init__(quant_config)
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # workspace are allocated inside the kernel
+        workspace1 = (M, K)
+        workspace2 = (0, 0)
+        output = (M, K)
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        if expert_map is not None:
+            topk_ids = expert_map[topk_ids]
+
+        local_num_experts = w1.size(0)
+        if global_num_experts == -1:
+            global_num_experts = local_num_experts
+
+        routing_data, gather_indx, scatter_indx = self._make_routing_data(
+            topk_ids, topk_weights, local_num_experts
+        )
+
+        experts_output = triton_kernel_fused_experts(
+            None,
+            hidden_states,
+            w1,
+            w2,
+            routing_data,
+            gather_indx,
+            scatter_indx,
+            activation=activation,
+            quant_config=self.quant_config,
+            apply_router_weight_on_input=False,
+            global_num_experts=local_num_experts,
+            expert_map=None,  # applied already
+            a1q_scale=a1q_scale,
+        )
+
+        output.copy_(experts_output, non_blocking=True)
diff --git a/model_executor/layers/fused_moe/layer.py b/model_executor/layers/fused_moe/layer.py
new file mode 100644
index 0000000..22d2cca
--- /dev/null
+++ b/model_executor/layers/fused_moe/layer.py
@@ -0,0 +1,2038 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable, Iterable
+from contextlib import nullcontext
+from enum import Enum
+from functools import partial
+from typing import Literal, get_args, overload
+
+import ast, re
+import torch
+import torch.nn.functional as F
+from torch.nn.parameter import UninitializedParameter
+
+import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.config.parallel import ExpertPlacementStrategy
+from vllm.distributed import (
+    get_dp_group,
+    get_ep_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.distributed.eplb.eplb_state import EplbState
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEParallelConfig,
+    FusedMoEQuantConfig,
+    RoutingMethodType,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe import zero_experts_compute_triton
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+    init_aiter_topK_meta_data,
+)
+from vllm.model_executor.layers.fused_moe.routing_simulator import RoutingSimulator
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+)
+from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
+    is_flashinfer_supporting_global_sf,
+)
+from vllm.platforms import current_platform
+from vllm.utils.math_utils import cdiv, round_up
+from vllm.utils.torch_utils import (
+    aux_stream,
+    current_stream,
+    direct_register_custom_op,
+)
+from vllm.v1.worker.ubatching import dbo_current_ubatch_id
+
+if current_platform.is_cuda_alike():
+    from .fused_moe import eplb_map_to_physical_and_record, fused_experts
+else:
+    fused_experts = None  # type: ignore
+    FusedMoEPermuteExpertsUnpermute = object  # type: ignore
+    FusedMoEPrepareAndFinalize = object  # type: ignore
+
+    def _eplb_map_to_physical_and_record(
+        topk_ids: torch.Tensor,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+        indices_type: torch.dtype | None,
+    ) -> torch.Tensor:
+        # CPU fallback: no EPLB so just return as is
+        return topk_ids
+
+    eplb_map_to_physical_and_record = _eplb_map_to_physical_and_record
+from vllm.model_executor.layers.fused_moe.fused_moe import grouped_topk
+from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
+    rocm_aiter_grouped_topk,
+)
+
+if current_platform.is_tpu():
+    from .moe_pallas import fused_moe as fused_moe_pallas
+else:
+    fused_moe_pallas = None  # type: ignore
+
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_modular_method import (
+    FusedMoEModularMethod,
+)
+from vllm.model_executor.layers.fused_moe.unquantized_fused_moe_method import (
+    UnquantizedFusedMoEMethod,
+)
+
+logger = init_logger(__name__)
+
+def weight_quant_l1(loaded_weight: torch.Tensor):
+    qmax = 127.0
+    abs_max = torch.abs(loaded_weight).max(dim=1, keepdim=True)[0]  # [rows, 1]
+    scale = abs_max / qmax  # [rows, 1]
+    assert scale.shape == (loaded_weight.shape[0], 1)
+    quantized = torch.round(loaded_weight / scale)
+    quantized = torch.clamp(quantized, -qmax, qmax)
+    return quantized.to(torch.int8), scale.to(torch.float32)
+
+def weight_quant_l2(loaded_weight: torch.Tensor):
+    qmax = 127.0
+    abs_max = torch.abs(loaded_weight).max(dim=1, keepdim=True)[0]  # [rows, 1]
+    scale = abs_max / qmax  # [rows, 1]
+    assert scale.shape == (loaded_weight.shape[0], 1)
+    quantized = torch.round(loaded_weight / scale)
+    quantized = torch.clamp(quantized, -qmax, qmax)
+
+    import ixformer.inference.functions as ixfops
+    i4_weights, i8scales, i8zeros = ixfops.quant_repack_int4(quantized.to(torch.int8).unsqueeze_(0), -1, 2, "TN", False)
+    return i4_weights.squeeze(0), scale.view(1, -1).to(torch.float32)
+
+class FusedMoeWeightScaleSupported(Enum):
+    TENSOR = "tensor"
+    CHANNEL = "channel"
+    GROUP = "group"
+    BLOCK = "block"
+
+
+def determine_expert_map(
+    ep_size: int,
+    ep_rank: int,
+    global_num_experts: int,
+    expert_placement_strategy: ExpertPlacementStrategy = "linear",
+    num_fused_shared_experts: int = 0,
+    return_expert_mask: bool = False,
+) -> tuple[int, torch.Tensor | None, torch.Tensor | None]:
+    """
+    Calculates how many experts should be assigned to each rank for EP and
+    creates a mapping from global to local expert index. Experts are
+    distributed evenly across ranks. Any remaining are assigned to the
+    last rank.
+
+    Args:
+        ep_size: The size of the expert parallel group
+        ep_rank: The rank of the current process in the expert parallel
+            group
+        global_num_experts: The total number of experts in the model.
+        expert_placement_strategy: The expert placement strategy.
+
+    Returns:
+        tuple[int, Optional[torch.Tensor]]: A tuple containing:
+            - local_num_experts (int): The number of experts assigned
+                to the current rank.
+            - expert_map (Optional[torch.Tensor]): A tensor of shape
+                (global_num_experts,) mapping from global to local index.
+                Contains -1 for experts not assigned to the current rank.
+                Returns None if ep_size is 1.
+            - expert_mask (Optional[torch.Tensor]): A tensor of shape
+                (global_num_experts + num_fused_shared_experts + 1,)
+                containing 1 for experts assigned to the current rank
+                and 0 for sentinel.
+                Returns None if ep_size is 1.
+                Used only when AITER MOE is enabled.
+    """
+    assert ep_size > 0
+    if ep_size == 1:
+        return (global_num_experts, None, None)
+
+    # Distribute experts as evenly as possible to each rank.
+    base_experts = global_num_experts // ep_size
+    remainder = global_num_experts % ep_size
+    local_num_experts = base_experts + 1 if ep_rank < remainder else base_experts
+
+    # Create a tensor of size num_experts filled with -1
+    expert_map = torch.full((global_num_experts,), -1, dtype=torch.int32)
+    # Create an expert map for the local experts
+    if expert_placement_strategy == "linear":
+        start_idx = ep_rank * base_experts + min(ep_rank, remainder)
+        expert_map[start_idx : start_idx + local_num_experts] = torch.arange(
+            0, local_num_experts, dtype=torch.int32
+        )
+    elif expert_placement_strategy == "round_robin":
+        local_log_experts = torch.arange(
+            ep_rank, global_num_experts, ep_size, dtype=torch.int32
+        )
+
+        expert_map[local_log_experts] = torch.arange(
+            0, local_num_experts, dtype=torch.int32
+        )
+    else:
+        raise ValueError(
+            "Unsupported expert placement strategy "
+            f"'{expert_placement_strategy}', expected one of "
+            f"{get_args(ExpertPlacementStrategy)}"
+        )
+
+    expert_mask = None
+    if return_expert_mask:
+        expert_mask = torch.ones(
+            (global_num_experts + num_fused_shared_experts + 1,), dtype=torch.int32
+        )
+        expert_mask[-1] = 0
+        expert_mask[:global_num_experts] = expert_map > -1
+        expert_map = torch.cat(
+            (
+                expert_map,
+                torch.tensor(
+                    [local_num_experts + i for i in range(num_fused_shared_experts)],
+                    dtype=torch.int32,
+                ),
+            ),
+            dim=0,
+        )
+
+    return (local_num_experts, expert_map, expert_mask)
+
+
+def get_compressed_expert_map(expert_map: torch.Tensor) -> str:
+    """
+    Compresses the expert map by removing any -1 entries.
+
+    Args:
+        expert_map (torch.Tensor): A tensor of shape (global_num_experts,)
+            mapping from global to local index. Contains -1 for experts not
+            assigned to the current rank.
+
+    Returns:
+        str: A string mapping from local to global index.
+            Using str to support hashing for logging once only.
+    """
+    global_indices = torch.where(expert_map != -1)[0]
+    local_indices = expert_map[global_indices]
+    return ", ".join(
+        f"{local_index.item()}->{global_index.item()}"
+        for local_index, global_index in zip(local_indices, global_indices)
+    )
+
+
+def maybe_roundup_hidden_size(
+    hidden_size: int,
+    act_dtype: torch.dtype,
+    quant_config: QuantizationConfig | None,
+    moe_parallel_config: FusedMoEParallelConfig,
+    is_lora_enabled: bool,
+) -> int:
+    """
+    Given layer hidden size and MoE configurations, round up hidden_size
+    if necessary.
+
+    Args:
+        hidden_size: Layer hidden-size
+        act_dtype: Data type of the layer activations.
+        quant_config: Fused MoE quantization configuration.
+        moe_parallel_config: Fused MoE parallelization strategy configuration.
+        is_lora_enabled: True if the engine is enabled with LoRA. This
+            is used in the case of mxfp4 quantization in selecting the
+            MxFP4Backend.
+
+    Return:
+        Rounded up hidden_size if rounding up is required based on the configs.
+        Original hidden size otherwise.
+    """
+    from vllm.model_executor.layers.fused_moe.all2all_utils import (
+        maybe_roundup_layer_hidden_size,
+    )
+
+    hidden_size = maybe_roundup_layer_hidden_size(
+        hidden_size, act_dtype, moe_parallel_config
+    )
+
+    # we are padding globally so EP buffer allocation works
+    if quant_config and quant_config.get_name() == "mxfp4":
+        from vllm.model_executor.layers.quantization.mxfp4 import (
+            Mxfp4Backend,
+            get_mxfp4_backend,
+        )
+
+        current_mxfp4_backend = get_mxfp4_backend(is_lora_enabled)
+        if (
+            current_mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16
+            or current_mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS
+        ):
+            hidden_size = round_up(hidden_size, 128)
+        elif (
+            current_platform.is_rocm()
+            or current_mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+            or current_mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16
+        ):
+            hidden_size = round_up(hidden_size, 256)
+
+    return hidden_size
+
+
+@CustomOp.register("fused_moe")
+class FusedMoE(CustomOp):
+    """FusedMoE layer for MoE models.
+
+    This layer contains both MergedColumnParallel weights (gate_up_proj /
+    w13) and RowParallelLinear weights (down_proj/ w2).
+
+    Note: Mixtral uses w1, w2, and w3 for gate, up, and down_proj. We
+    copy that naming convention here and handle any remapping in the
+    load_weights function in each model implementation.
+
+    Args:
+        num_experts: Number of experts in the model
+        top_k: Number of experts selected for each token
+        hidden_size: Input hidden state size of the transformer
+        intermediate_size: Intermediate size of the experts
+        params_dtype: Data type for the parameters.
+        reduce_results: Whether to all_reduce on the output of the layer
+        renormalize: Whether to renormalize the logits in the fused_moe kernel
+        quant_config: Quantization configure.
+        enable_eplb: Whether to enable expert parallelism load balancer.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,  # Global number of experts
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        reduce_results: bool = False,
+        renormalize: bool = True,
+        use_grouped_topk: bool = False,
+        num_expert_group: int | None = None,
+        topk_group: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        ep_size: int | None = None,
+        dp_size: int | None = None,
+        prefix: str = "",
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        is_act_and_mul: bool = True,
+        enable_eplb: bool = False,
+        num_redundant_experts: int = 0,
+        has_bias: bool = False,
+        is_sequence_parallel=False,
+        zero_expert_num: int | None = 0,
+        zero_expert_type: str | None = None,
+        expert_mapping: list[tuple[str, str, int, str]] | None = None,
+        n_shared_experts: int | None = None,
+        routing_method_type: int | None = None,
+    ):
+        super().__init__()
+
+        # Allow disabling of the separate shared experts stream for
+        # debug purposes.
+        # TODO: Remove this after more extensive testings with TP/DP
+        # and other execution modes
+        if envs.VLLM_DISABLE_SHARED_EXPERTS_STREAM:
+            logger.info_once("Disabling MoE shared_experts cuda stream")
+            self.shared_experts_stream = None
+        else:
+            # TODO(rob): enable shared expert overlap with non-cuda.
+            # aux_stream() returns None on non-cuda platforms.
+            self.shared_experts_stream = aux_stream()
+            if self.shared_experts_stream is not None:
+                logger.info_once("Enabled separate cuda stream for MoE shared_experts")
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        vllm_config = get_current_vllm_config()
+        self.vllm_config = vllm_config
+
+        # FIXME (varun): We should have a better way of inferring the activation
+        # datatype. This works for now as the tensor datatype entering the MoE
+        # operation is typically unquantized (i.e. float16/bfloat16).
+        if vllm_config.model_config is not None:
+            moe_in_dtype = vllm_config.model_config.dtype
+        else:
+            # TODO (bnell): This is a hack to get test_mixtral_moe to work
+            # since model_config is not set in the pytest test.
+            moe_in_dtype = params_dtype
+
+        tp_size_ = (
+            tp_size if tp_size is not None else get_tensor_model_parallel_world_size()
+        )
+        dp_size_ = dp_size if dp_size is not None else get_dp_group().world_size
+
+        self.is_sequence_parallel = is_sequence_parallel
+        self.sp_size = tp_size_ if is_sequence_parallel else 1
+
+        self.moe_parallel_config: FusedMoEParallelConfig = FusedMoEParallelConfig.make(
+            tp_size_=tp_size_,
+            dp_size_=dp_size_,
+            vllm_parallel_config=vllm_config.parallel_config,
+        )
+
+        self.global_num_experts = num_experts + num_redundant_experts
+        self.logical_num_experts = num_experts
+        self.zero_expert_num = zero_expert_num
+        self.zero_expert_type = zero_expert_type
+
+        # Expert mapping used in self.load_weights
+        self.expert_mapping = expert_mapping
+
+        # Round up hidden size if needed.
+        hidden_size = maybe_roundup_hidden_size(
+            hidden_size,
+            moe_in_dtype,
+            quant_config,
+            self.moe_parallel_config,
+            is_lora_enabled=self.vllm_config.lora_config is not None,
+        )
+
+        # For smuggling this layer into the fused moe custom op
+        compilation_config = vllm_config.compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError("Duplicate layer name: {}".format(prefix))
+        compilation_config.static_forward_context[prefix] = self
+        self.layer_name = prefix
+
+        self.enable_eplb = enable_eplb
+        self.expert_load_view: torch.Tensor | None = None
+        self.logical_to_physical_map: torch.Tensor | None = None
+        self.logical_replica_count: torch.Tensor | None = None
+
+        # ROCm aiter shared experts fusion
+        self.rocm_aiter_fmoe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        self.aiter_fmoe_shared_expert_enabled = (
+            rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        )
+
+        self.num_fused_shared_experts = (
+            n_shared_experts
+            if n_shared_experts is not None and self.aiter_fmoe_shared_expert_enabled
+            else 0
+        )
+        if (
+            not self.aiter_fmoe_shared_expert_enabled
+            and self.num_fused_shared_experts != 0
+        ):
+            raise ValueError(
+                "n_shared_experts is only supported on ROCm aiter when "
+                "VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS is enabled"
+            )
+
+        # Determine expert maps
+        if self.use_ep:
+            if self.enable_eplb:
+                assert self.global_num_experts % self.ep_size == 0, (
+                    "EPLB currently only supports even distribution of "
+                    "experts across ranks."
+                )
+            else:
+                assert num_redundant_experts == 0, (
+                    "Redundant experts are only supported with EPLB."
+                )
+
+            expert_placement_strategy = (
+                vllm_config.parallel_config.expert_placement_strategy
+            )
+            if expert_placement_strategy == "round_robin":
+                # TODO(Bruce): will support round robin expert placement with
+                # EPLB enabled in the future.
+                round_robin_supported = (
+                    (num_expert_group is not None and num_expert_group > 1)
+                    and num_redundant_experts == 0
+                    and not self.enable_eplb
+                )
+
+                if not round_robin_supported:
+                    logger.warning(
+                        "Round-robin expert placement is only supported for "
+                        "models with multiple expert groups and no redundant "
+                        "experts. Falling back to linear expert placement."
+                    )
+                    expert_placement_strategy = "linear"
+
+            self.expert_map: torch.Tensor | None
+            local_num_experts, expert_map, expert_mask = determine_expert_map(
+                ep_size=self.ep_size,
+                ep_rank=self.ep_rank,
+                global_num_experts=self.global_num_experts,
+                expert_placement_strategy=expert_placement_strategy,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                return_expert_mask=self.rocm_aiter_fmoe_enabled,
+            )
+            self.local_num_experts = local_num_experts
+            self.register_buffer("expert_map", expert_map)
+            self.register_buffer("expert_mask", expert_mask)
+            logger.info_once(
+                "[EP Rank %s/%s] Expert parallelism is enabled. Expert "
+                "placement strategy: %s. Local/global"
+                " number of experts: %s/%s. Experts local to global index map:"
+                " %s.",
+                self.ep_rank,
+                self.ep_size,
+                expert_placement_strategy,
+                self.local_num_experts,
+                self.global_num_experts,
+                get_compressed_expert_map(self.expert_map),
+            )
+        else:
+            self.local_num_experts, self.expert_map, self.expert_mask = (
+                self.global_num_experts,
+                None,
+                None,
+            )
+
+        self.top_k = top_k
+
+        self._init_aiter_shared_experts_topK_buffer(
+            vllm_config=vllm_config, dp_size=dp_size_
+        )
+
+        self.hidden_size = hidden_size
+        self.num_experts = num_experts
+        assert intermediate_size % self.tp_size == 0
+        self.hidden_size = hidden_size
+        self.intermediate_size_per_partition = intermediate_size // self.tp_size
+        self.reduce_results = reduce_results
+        self.renormalize = renormalize
+        self.use_grouped_topk = use_grouped_topk
+        if self.use_grouped_topk:
+            assert num_expert_group is not None and topk_group is not None
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.custom_routing_function = custom_routing_function
+        self.scoring_func = scoring_func
+        self.routed_scaling_factor = routed_scaling_factor
+        self.e_score_correction_bias = e_score_correction_bias
+        self.apply_router_weight_on_input = apply_router_weight_on_input
+        self.activation = activation
+
+        if self.scoring_func != "softmax" and not self.use_grouped_topk:
+            raise ValueError(
+                "Only softmax scoring function is supported for non-grouped topk."
+            )
+
+        # ToDo: Better logic to determine the routing method type
+        if routing_method_type is not None:
+            self.routing_method_type = routing_method_type
+        else:
+            if scoring_func == "sigmoid":
+                if self.use_grouped_topk:
+                    self.routing_method_type = RoutingMethodType.DeepSeekV3
+                elif self.top_k == 1:
+                    self.routing_method_type = RoutingMethodType.Llama4
+            elif self.scoring_func == "softmax":
+                self.routing_method_type = (
+                    RoutingMethodType.Renormalize
+                    if not self.renormalize
+                    else RoutingMethodType.RenormalizeNaive
+                )
+            else:
+                self.routing_method_type = RoutingMethodType.TopK
+
+        self.moe_config: FusedMoEConfig = FusedMoEConfig(
+            num_experts=self.global_num_experts,
+            experts_per_token=top_k,
+            hidden_dim=hidden_size,
+            num_local_experts=self.local_num_experts,
+            moe_parallel_config=self.moe_parallel_config,
+            in_dtype=moe_in_dtype,
+            max_num_tokens=envs.VLLM_MOE_DP_CHUNK_SIZE,
+            has_bias=has_bias,
+            is_act_and_mul=is_act_and_mul,
+            is_lora_enabled=vllm_config.lora_config is not None,
+        )
+
+        self.quant_config = quant_config
+
+        def _get_quant_method() -> FusedMoEMethodBase:
+            """
+            Helper method to ensure self.quant_method is never None and
+            of the proper type.
+            """
+            quant_method = None
+            if self.quant_config is not None:
+                self.opt_level = 0
+                quant_method = self.quant_config.get_quant_method(self, prefix)
+            if quant_method is None:
+                from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_moe import (
+                    CompressedTensorsL1OptMoEMethod, CompressedTensorsL2OptMoEMethod)
+                if self.opt_level == 1:
+                    quant_method = CompressedTensorsL1OptMoEMethod(self.moe_config)
+                elif self.opt_level == 2:
+                    quant_method = CompressedTensorsL2OptMoEMethod(self.moe_config)
+                else:
+                    quant_method = UnquantizedFusedMoEMethod(self.moe_config)
+            assert isinstance(quant_method, FusedMoEMethodBase)
+            return quant_method
+
+        # Note: get_quant_method will look at the layer's local_num_experts
+        # for heuristic purposes, so it must be initialized first.
+        self.opt_level = envs.VLLM_MOE_OPT_LEVEL
+        opt_exclude_layers = envs.VLLM_OPT_EXCLUDE_LAYERS
+        opt_exclude_layers = ast.literal_eval(opt_exclude_layers) if opt_exclude_layers.strip() else ""
+        if isinstance(opt_exclude_layers, tuple):
+            layer_info = re.search(r'\.(\d+)', prefix)
+            if layer_info is not None and int(layer_info.group(1)) in opt_exclude_layers:
+                self.opt_flag = False
+
+        self.quant_method: FusedMoEMethodBase = _get_quant_method()
+
+        if not self.moe_config.is_act_and_mul:
+            # Avoid circular import
+            from vllm.model_executor.layers.quantization.modelopt import (
+                ModelOptFp8MoEMethod,
+            )
+
+            if not isinstance(
+                self.quant_method, (UnquantizedFusedMoEMethod, ModelOptFp8MoEMethod)
+            ):
+                raise NotImplementedError(
+                    "is_act_and_mul=False is supported only for unquantized "
+                    "and ModelOpt FP8 moe for now"
+                )
+            if not current_platform.is_cuda():
+                raise NotImplementedError(
+                    "is_act_and_mul=False is supported only for CUDA for now"
+                )
+
+        if self.enable_eplb and not self.quant_method.supports_eplb:
+            # TODO: Add support for additional quantization methods.
+            # The implementation for other quantization methods does not
+            # contain essential differences, but the current quant API
+            # design causes duplicated work when extending to new
+            # quantization methods, so I'm leaving it for now.
+            # If you plan to add support for more quantization methods,
+            # please refer to the implementation in `Fp8MoEMethod`.
+            raise NotImplementedError(
+                f"EPLB is not supported {self.quant_method.__class__.__name__}. "
+                "EPLB is only supported for FP8 quantization for now."
+            )
+
+        moe_quant_params = {
+            "num_experts": self.local_num_experts,
+            "hidden_size": hidden_size,
+            "intermediate_size_per_partition": self.intermediate_size_per_partition,
+            "params_dtype": params_dtype,
+            "weight_loader": self.weight_loader,
+            "global_num_experts": self.global_num_experts,
+        }
+        # need full intermediate size pre-sharding for WNA16 act order
+        if self.quant_method.__class__.__name__ in (
+            "GPTQMarlinMoEMethod",
+            "CompressedTensorsWNA16MarlinMoEMethod",
+            "CompressedTensorsWNA16MoEMethod",
+        ):
+            moe_quant_params["intermediate_size_full"] = intermediate_size
+
+        self.quant_method.create_weights(layer=self, **moe_quant_params)
+
+        # Chunked all2all staging tensor
+        self.batched_hidden_states: torch.Tensor | None = None
+        self.batched_router_logits: torch.Tensor | None = None
+
+    # Note: maybe_init_modular_kernel should only be called by
+    # prepare_communication_buffer_for_model.
+    # This is called after all weight loading and post-processing, so it
+    # should be safe to swap out the quant_method.
+    def maybe_init_modular_kernel(self) -> None:
+        self.ensure_moe_quant_config_init()
+        prepare_finalize = self.quant_method.maybe_make_prepare_finalize()
+        if prepare_finalize is not None:
+            logger.debug(
+                "%s for %s(%s)", prepare_finalize.__class__.__name__, self, id(self)
+            )
+            self.quant_method = FusedMoEModularMethod.make(
+                self, self.quant_method, prepare_finalize, self.shared_experts
+            )
+
+    @property
+    def shared_experts(self) -> torch.nn.Module | None:
+        return None
+
+    @property
+    def gate(self) -> torch.nn.Module | None:
+        return None
+
+    @property
+    def tp_size(self):
+        return self.moe_parallel_config.tp_size
+
+    @property
+    def dp_size(self):
+        return self.moe_parallel_config.dp_size
+
+    @property
+    def ep_size(self):
+        return self.moe_parallel_config.ep_size
+
+    @property
+    def tp_rank(self):
+        return self.moe_parallel_config.tp_rank
+
+    @property
+    def dp_rank(self):
+        return self.moe_parallel_config.dp_rank
+
+    @property
+    def ep_rank(self):
+        return self.moe_parallel_config.ep_rank
+
+    @property
+    def use_ep(self):
+        return self.moe_parallel_config.use_ep
+
+    @property
+    def use_pplx_kernels(self):
+        return self.moe_parallel_config.use_pplx_kernels
+
+    @property
+    def use_deepep_ht_kernels(self):
+        return self.moe_parallel_config.use_deepep_ht_kernels
+
+    @property
+    def use_deepep_ll_kernels(self):
+        return self.moe_parallel_config.use_deepep_ll_kernels
+
+    @property
+    def use_flashinfer_cutlass_kernels(self):
+        return (
+            self.moe_quant_config is not None
+            and self.moe_quant_config.quant_dtype == "nvfp4"
+            and self.moe_config.use_flashinfer_cutlass_kernels
+        )
+
+    @property
+    def use_marlin_kernels(self):
+        return getattr(self.quant_method, "use_marlin", False)
+
+    @property
+    def use_dp_chunking(self) -> bool:
+        return (
+            self.moe_parallel_config.use_pplx_kernels
+            or self.moe_parallel_config.use_deepep_ll_kernels
+            or (self.dp_size > 1 and self.use_flashinfer_cutlass_kernels)
+        )
+
+    @property
+    def is_internal_router(self) -> bool:
+        # By default, router/gate is called before FusedMoE forward pass
+        return False
+
+    def update_expert_map(self):
+        # ep_size and ep_rank should already be updated
+        assert self.expert_map is not None
+        with self.expert_map.device:
+            local_num_experts, expert_map, expert_mask = determine_expert_map(
+                ep_size=self.ep_size,
+                ep_rank=self.ep_rank,
+                global_num_experts=self.global_num_experts,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                return_expert_mask=self.rocm_aiter_fmoe_enabled,
+            )
+            self.local_num_experts = local_num_experts
+            self.register_buffer("expert_map", expert_map)
+            self.register_buffer("expert_mask", expert_mask)
+            if self.aiter_fmoe_shared_expert_enabled:
+                self._init_aiter_shared_experts_topK_buffer(
+                    vllm_config=get_current_vllm_config(),
+                    dp_size=get_dp_group().world_size,
+                )
+
+    def _load_per_tensor_weight_scale(
+        self,
+        shard_id: str,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        expert_id: int,
+    ):
+        param_data = param.data
+        # for per tensor weight quantization
+        if shard_id in ("w1", "w3"):
+            # We have to keep the weight scales of w1 and w3 because
+            # we need to re-quantize w1/w3 weights after weight loading.
+            idx = 0 if shard_id == "w1" else 1
+            param_data[expert_id][idx] = loaded_weight
+        # If we are in the row parallel case (down_proj)
+        elif shard_id == "w2":
+            param_data[expert_id] = loaded_weight
+
+    def _load_combined_w13_weight_scale(
+        self,
+        shard_dim: int,
+        loaded_weight: torch.Tensor,
+        param: torch.Tensor,
+        tp_rank: int,
+    ):
+        """
+        Load w13 weight scales assuming that w1 weight scales and w3 weight
+        scales are stored in the same loaded_weight tensor.
+        """
+        shard_size = param.shape[shard_dim]
+        loaded_weight = loaded_weight.narrow(
+            shard_dim, shard_size * tp_rank, shard_size
+        )
+        param.copy_(loaded_weight)
+
+    def _load_model_weight_or_group_weight_scale(
+        self,
+        shard_dim: int,
+        expert_data: torch.Tensor,
+        shard_id: str,
+        loaded_weight: torch.Tensor,
+        tp_rank: int,
+        load_full_w2: bool = False,
+    ):
+        """
+        Load grouped weight scales for group quantization or model weights
+            :param shard_dim: dimension to shard
+            :param expert_data: parameter for a particular expert
+            :param shard_id: either w1, w2, or w3
+            :param loaded_weight: checkpoint weight to load into the param
+            :param tp_rank: tensor parallel rank
+            :param load_full_w2: whether or not the w2 loaded should be sharded.
+        """
+        if shard_id == "w2":
+            # In the case where we have actorder/g_idx, we do not partition the
+            # w2 scales, as indicated by `load_full` argument, for all tp cases
+            self._load_w2(
+                shard_dim=shard_dim,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=tp_rank,
+                load_full=load_full_w2,
+            )
+        elif shard_id in ("w1", "w3"):
+            self._load_w13(
+                shard_id=shard_id,
+                shard_dim=shard_dim,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=tp_rank,
+            )
+
+    def _load_per_channel_weight_scale(
+        self,
+        expert_data: torch.Tensor,
+        shard_dim: int,
+        shard_id: str,
+        loaded_weight: torch.Tensor,
+        tp_rank: int,
+    ):
+        # for per channel weight quantization
+        if shard_id == "w2":
+            expert_data.copy_(loaded_weight)
+        elif shard_id in ("w1", "w3"):
+            self._load_w13(
+                shard_id=shard_id,
+                shard_dim=shard_dim,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=tp_rank,
+            )
+
+    def _load_w13(
+        self,
+        expert_data: torch.Tensor,
+        shard_dim: int,
+        shard_id: str,
+        loaded_weight: torch.Tensor,
+        tp_rank: int,
+        load_full: bool = False,
+    ):
+        # Index the loaded weight for tp sharding.
+        # gate_up_proj: "MergedColumnParallel", so tp sharding on output_dim
+        if self.moe_config.is_act_and_mul:
+            shard_size = expert_data.shape[shard_dim] // 2
+        else:
+            shard_size = expert_data.shape[shard_dim]
+        if not load_full:
+            loaded_weight = loaded_weight.narrow(
+                shard_dim, shard_size * tp_rank, shard_size
+            )
+        # Narrow parameter and load.
+        # w1, gate_proj: Load into first logical weight of w13.
+        if shard_id == "w1":
+            expert_data = expert_data.narrow(shard_dim, 0, shard_size)
+        # w3, up_proj: Load into second logical weight of w13.
+        else:
+            assert shard_id == "w3"
+            expert_data = expert_data.narrow(shard_dim, shard_size, shard_size)
+        expert_data.copy_(loaded_weight)
+
+    def _load_w2(
+        self,
+        expert_data: torch.Tensor,
+        shard_dim: int,
+        loaded_weight: torch.Tensor,
+        tp_rank: int,
+        load_full: bool = False,
+    ):
+        # Index the loaded weight for tp sharding.
+        # down_proj: "RowParallel" so tp sharding on input_dim
+        # Narrow parameter and load.
+        shard_size = loaded_weight.shape[shard_dim] // self.tp_size
+        if not load_full:
+            loaded_weight = loaded_weight.narrow(
+                shard_dim, shard_size * tp_rank, shard_size
+            )
+        # w2, down_proj: Load into only logical weight of w2.
+        expert_data.narrow(shard_dim, 0, shard_size).copy_(loaded_weight)
+
+    def _load_model_opt_weight_or_group_weight_scale(self,
+                                                     shard_dim: int,
+                                                     shard_dim_scale: int,
+                                                     expert_data: torch.Tensor,
+                                                     scale_data: torch.Tensor,
+                                                     shard_id: str,
+                                                     loaded_weight: torch.Tensor,
+                                                     tp_rank: int,
+                                                     opt_level: int,
+                                                     load_full_w2: bool = False):
+        """
+        Load grouped weight scales for group quantization or model weights
+            :param shard_dim: dimension to shard
+            :param expert_data: parameter for a particular expert
+            :param shard_id: either w1, w2, or w3
+            :param loaded_weight: checkpoint weight to load into the param
+            :param tp_rank: tensor parallel rank
+            :param load_full_w2: whether or not the w2 loaded should be sharded.
+        """
+
+        loaded_weight = loaded_weight.to(device="cuda")
+        assert opt_level in [1, 2]
+        if opt_level == 1:
+            weight, scale = weight_quant_l1(loaded_weight)
+        else:
+            weight, scale = weight_quant_l2(loaded_weight)
+
+        if shard_id == "w2":
+            # In the case where we have actorder/g_idx, we do not partition the
+            # w2 scales, as indicated by `load_full` argument, for all tp cases
+            self._load_w2(shard_dim=shard_dim,
+                          loaded_weight=weight,
+                          expert_data=expert_data,
+                          tp_rank=tp_rank,
+                          load_full=load_full_w2)
+            scale_data.copy_(scale)
+        elif shard_id in ("w1", "w3"):
+            self._load_w13(shard_id=shard_id,
+                           shard_dim=shard_dim,
+                           loaded_weight=weight,
+                           expert_data=expert_data,
+                           tp_rank=tp_rank)
+            self._load_w13(shard_id=shard_id,
+                           shard_dim=shard_dim_scale,
+                           loaded_weight=scale,
+                           expert_data=scale_data,
+                           tp_rank=tp_rank)
+
+    def _load_single_value(
+        self, param: torch.nn.Parameter, loaded_weight: torch.Tensor, expert_id: int
+    ):
+        param_data = param.data
+
+        # Input scales can be loaded directly and should be equal.
+        param_data[expert_id] = loaded_weight
+
+    def _load_g_idx(
+        self,
+        shard_id: str,
+        expert_data: torch.Tensor,
+        shard_dim: int,
+        loaded_weight: torch.Tensor,
+        tp_rank: int,
+    ):
+        if shard_id == "w2":
+            self._load_w2(
+                shard_dim=shard_dim,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=tp_rank,
+            )
+        else:
+            assert shard_id in ("w1", "w3")
+            expert_data.copy_(loaded_weight)
+
+    def _map_global_expert_id_to_local_expert_id(self, expert_id: int) -> int:
+        if self.expert_map is None:
+            return expert_id
+        return self.expert_map[expert_id].item()
+
+    def _init_aiter_shared_experts_topK_buffer(
+        self, vllm_config: VllmConfig, dp_size: int
+    ):
+        if self.num_fused_shared_experts > 0:
+            init_aiter_topK_meta_data(
+                n_routed_experts=self.global_num_experts,
+                n_shared_experts=self.num_fused_shared_experts,
+                top_k=self.top_k,
+                tp_rank=self.ep_rank if self.use_ep else self.tp_rank,
+                tp_size=self.ep_size if self.use_ep else self.tp_size,
+                shared_experts_score=1.0,
+                max_num_tokens=vllm_config.scheduler_config.max_num_batched_tokens
+                * dp_size,
+                is_EP=self.use_ep,
+            )
+        self.local_num_experts += self.num_fused_shared_experts
+
+    @overload
+    def weight_loader(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+        expert_id: int,
+        return_success: Literal[False],
+    ) -> None: ...
+
+    @overload
+    def weight_loader(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+        expert_id: int,
+        return_success: Literal[True],
+    ) -> bool: ...
+
+    def weight_loader(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+        expert_id: int,
+        return_success: bool = False,
+    ) -> bool | None:
+        if self.quant_config and self.quant_config.get_name() == "mxfp4":
+            # (FIXME) for gpt-oss all experts are combined
+            if "bias" in weight_name:
+                dim1 = loaded_weight.shape[1]
+                param.data[:, :dim1].copy_(loaded_weight)
+            else:
+                dim1 = loaded_weight.shape[1]
+                dim2 = loaded_weight.shape[2]
+                param.data[:, :dim1, :dim2].copy_(loaded_weight)
+            return True if return_success else None
+
+        quant_method_name = self.quant_method.__class__.__name__
+        global_expert_id = expert_id
+        expert_id = self._map_global_expert_id_to_local_expert_id(global_expert_id)
+
+        allow_flashinfer = getattr(self.quant_method, "allow_flashinfer", False)
+        moe_backend = getattr(self.quant_method, "flashinfer_moe_backend", None)
+
+        use_global_sf = (
+            allow_flashinfer
+            and is_flashinfer_supporting_global_sf(moe_backend)
+            and "input_scale" in weight_name
+            and quant_method_name == "ModelOptNvFp4FusedMoE"
+        )
+
+        if expert_id == -1 and not use_global_sf:
+            # Failed to load this param since it's not local to this rank
+            return False if return_success else None
+        # Hereafter, `expert_id` is local physical id
+
+        # compressed-tensors checkpoints with packed weights are stored flipped
+        # TODO (mgoin): check self.quant_method.quant_config.quant_format
+        # against known CompressionFormat enum values that have this quality
+        if self.quant_method.__class__.__name__ in (
+            "CompressedTensorsWNA16MarlinMoEMethod",
+            "CompressedTensorsWNA16MoEMethod",
+        ):
+            loaded_weight = loaded_weight.t().contiguous()
+
+        if shard_id not in ("w1", "w2", "w3"):
+            raise ValueError(f"shard_id must be ['w1','w2','w3'] but got {shard_id}.")
+
+        # Fetch the dim to shard the parameter/loaded weight
+        # based on the shard id. This will be whatever
+        # dimension intermediate_size_per_partition is used.
+        SHARD_ID_TO_SHARDED_DIM = {"w1": 0, "w2": 1, "w3": 0}
+
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            param.weight_type = loaded_weight.item()
+            param.data.copy_(loaded_weight)
+            return True if return_success else None
+
+        # Case for BitsAndBytes
+        use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+        if use_bitsandbytes_4bit:
+            shard_dim = 0
+
+            expert_data = param.data[expert_id]
+            if shard_id == "w2":
+                expert_data.copy_(loaded_weight)
+            elif shard_id in ("w1", "w3"):
+                # BNB inflight quantization has already sharded the weights
+                full_load = True
+                self._load_w13(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank,
+                    load_full=full_load,
+                )
+            return True if return_success else None
+
+        # is_transposed: if the dim to shard the weight
+        # should be flipped. Required by GPTQ, compressed-tensors
+        # should be whatever dimension intermediate_size_per_partition is
+        is_transposed = getattr(param, "is_transposed", False)
+        shard_dim = SHARD_ID_TO_SHARDED_DIM[shard_id]
+        if is_transposed:
+            shard_dim = int(not shard_dim)
+        shard_dim_force = getattr(param, "shard_dim", None)
+        shard_dim = shard_dim_force if shard_dim_force is not None else shard_dim
+
+        full_load = len(loaded_weight.shape) == 3
+        if full_load:
+            shard_dim += 1
+
+        # Materialize GGUF UninitializedParameter
+        if is_gguf_weight and isinstance(param, UninitializedParameter):
+            final_shape = list(loaded_weight.shape)
+            if shard_id in ["w1", "w3"]:
+                final_shape[1] *= 2
+            final_shape[shard_dim] = final_shape[shard_dim] // self.tp_size
+            param.materialize(final_shape, dtype=loaded_weight.dtype)
+
+        expert_data = param.data if full_load else param.data[expert_id]
+
+        # Case input scale: input_scale loading is only supported for fp8
+        if "input_scale" in weight_name:
+            # this is needed for compressed-tensors only
+            loaded_weight = loaded_weight.to(param.data.device)
+
+            if (
+                "compressed" in quant_method_name.lower()
+                and param.data[expert_id] != 1
+                and (param.data[expert_id] - loaded_weight).abs() > 1e-5
+            ):
+                raise ValueError(
+                    "input_scales of w1 and w3 of a layer "
+                    f"must be equal. But got {param.data[expert_id]} "
+                    f"vs. {loaded_weight}"
+                )
+
+            self._load_single_value(
+                param=param,
+                loaded_weight=loaded_weight,
+                expert_id=global_expert_id if use_global_sf else expert_id,
+            )
+            return True if return_success else None
+
+        # Case g_idx
+        if "g_idx" in weight_name:
+            self._load_g_idx(
+                shard_dim=0,
+                shard_id=shard_id,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=self.tp_rank,
+            )
+            return True if return_success else None
+
+        # TODO @dsikka: ModelOpt should follow the proper MoE loading pattern
+        if "ModelOpt" in quant_method_name:
+            # Determine per-tensor weight scale patterns based on variant
+            # Use the dedicated method instead of brittle string matching
+            uses_weight_scale_2 = self.quant_method.uses_weight_scale_2_pattern()
+
+            # Call _load_per_tensor_weight_scale() to load per-tensor (scalar)
+            # weights scales.
+            # Input scales are always per-tensor.
+            # Weight scales: FP4 uses "weight_scale_2" and FP8 uses
+            # "weight_scale" for per-tensor scales.
+            is_per_tensor = (
+                "weight_scale_2" in weight_name
+                if uses_weight_scale_2
+                else "weight_scale" in weight_name
+            ) or "input_scale" in weight_name
+            if is_per_tensor:
+                self._load_per_tensor_weight_scale(
+                    shard_id=shard_id,
+                    param=param,
+                    loaded_weight=loaded_weight,
+                    expert_id=expert_id,
+                )
+                return True if return_success else None
+
+            # If the weight is w13_weight_scale and w13_weight_scales are
+            # combined into single loaded_weight, call
+            # _load_combined_w13_weight_scale() to load it.
+            # This is checked by comparing the hidden_out dims of the
+            # loaded_weight and the param.
+            if "w13_weight_scale" in weight_name:
+                loaded_weight_hidden_out = loaded_weight.shape[-2]
+                param_hidden_out = param.data.shape[-2] * self.tp_size
+                if loaded_weight_hidden_out == param_hidden_out:
+                    self._load_combined_w13_weight_scale(
+                        shard_dim=shard_dim,
+                        loaded_weight=loaded_weight,
+                        param=param,
+                        tp_rank=self.tp_rank,
+                    )
+                    return True if return_success else None
+
+            # For other weights, call _load_model_weight_or_group_weight_scale()
+            # to load it.
+            if "weight" in weight_name:
+                self._load_model_weight_or_group_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank,
+                )
+            return True if return_success else None
+
+        # Case weight scales, zero_points and offset, weight/input global scales
+        if "scale" in weight_name or "zero" in weight_name or "offset" in weight_name:
+            # load the weight scales and zp based on the quantization scheme
+            # supported weight scales/zp can be found in
+            # FusedMoeWeightScaleSupported
+            # TODO @dsikka: once hardened, refactor to use vLLM Parameters
+            # specific to each case
+            quant_method = getattr(param, "quant_method", None)
+            if quant_method == FusedMoeWeightScaleSupported.CHANNEL.value:
+                self._load_per_channel_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank,
+                )
+            elif quant_method in [
+                FusedMoeWeightScaleSupported.GROUP.value,
+                FusedMoeWeightScaleSupported.BLOCK.value,
+            ]:
+                self._load_model_weight_or_group_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank,
+                    load_full_w2=getattr(param, "load_full_w2", False),
+                )
+            elif quant_method == FusedMoeWeightScaleSupported.TENSOR.value:
+                self._load_per_tensor_weight_scale(
+                    shard_id=shard_id,
+                    param=param,
+                    loaded_weight=loaded_weight,
+                    expert_id=expert_id,
+                )
+            else:
+                WEIGHT_SCALE_SUPPORTED = [e.value for e in FusedMoeWeightScaleSupported]
+                raise ValueError(
+                    f"quant method must be one of {WEIGHT_SCALE_SUPPORTED}"
+                )
+            return True if return_success else None
+
+        # Case weight_shape
+        if "weight_shape" in weight_name:
+            # only required by compressed-tensors
+            self._load_single_value(
+                param=param, loaded_weight=loaded_weight, expert_id=expert_id
+            )
+            return True if return_success else None
+
+        # Case model weights
+        if "weight" in weight_name:
+            if self.opt_level != 0:
+                scale_name = weight_name.split('.')[-1] + "_scale"
+                params_dict = dict(self.named_parameters())
+                scale_param = params_dict[scale_name]
+                shard_dim_scale = getattr(scale_param, "shard_dim", None)
+                scale_expert_data = scale_param.data if full_load else scale_param.data[expert_id]
+                self._load_model_opt_weight_or_group_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    shard_dim_scale=shard_dim_scale,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    scale_data=scale_expert_data,
+                    opt_level=self.opt_level,
+                    tp_rank=self.tp_rank)
+            else:
+                self._load_model_weight_or_group_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank)
+            return True if return_success else None
+
+        return False if return_success else None
+
+    def load_weights(
+        self, weights: Iterable[tuple[str, torch.Tensor]]
+    ) -> Iterable[str]:
+        if (expert_mapping := self.expert_mapping) is None:
+            raise ValueError(
+                "`self.expert_mapping` must be provided to "
+                "load weights using `self.load_weights`."
+            )
+        for expert_name, loaded_weight in weights:
+            qual_name = f"{self.layer_name}.{expert_name}"
+            for param_name, weight_name, expert_id, shard_id in expert_mapping:
+                if weight_name not in qual_name:
+                    continue
+                weight_name = qual_name.replace(weight_name, param_name)
+                param_name = weight_name.removeprefix(f"{self.layer_name}.")
+                param = getattr(self, param_name)
+                success = self.weight_loader(
+                    param=param,
+                    loaded_weight=loaded_weight,
+                    weight_name=weight_name,
+                    shard_id=shard_id,
+                    expert_id=expert_id,
+                    return_success=True,
+                )
+                if success:
+                    logger.debug(
+                        "Loaded %s for expert %d into %s",
+                        param_name,
+                        expert_id,
+                        self.layer_name,
+                    )
+                    yield param_name
+
+    def get_expert_weights(self) -> Iterable[torch.Tensor]:
+        weights = list(self.named_parameters())
+        assert all(
+            weight.is_contiguous()
+            for name, weight in weights
+            if not name.startswith("_shared_experts.")
+        )
+
+        # Filter out the non-expert weights.
+        # `e_score_correction_bias` is a bias for each logical expert,
+        # with shape (num_logical_experts,), not an expert weight.
+        NON_EXPERT_WEIGHTS = {
+            "e_score_correction_bias",
+        }
+
+        return [
+            weight.view(self.local_num_experts, -1)
+            for name, weight in weights
+            if name not in NON_EXPERT_WEIGHTS
+            and weight.shape != torch.Size([])
+            and not name.startswith("_shared_experts.")
+            # exclude parameters from non-expert submodules (e.g. gate/shared)
+            and not name.startswith("_gate.")
+        ]
+
+    def set_eplb_state(
+        self,
+        moe_layer_idx: int,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ) -> None:
+        """
+        Register the EPLB state in this layer.
+
+        This is used later in forward pass, where we get the expert mapping
+        and record the load metrics in `expert_load_view`.
+        """
+        self.expert_load_view = expert_load_view[moe_layer_idx]
+        self.logical_to_physical_map = logical_to_physical_map[moe_layer_idx]
+        self.logical_replica_count = logical_replica_count[moe_layer_idx]
+
+    def ensure_moe_quant_config_init(self):
+        if self.quant_method.moe_quant_config is None:
+            # Note: the moe_quant_config can't be constructed until after
+            # weight loading post processing.
+            self.quant_method.moe_quant_config = (
+                self.quant_method.get_fused_moe_quant_config(self)
+            )
+
+    @property
+    def moe_quant_config(self) -> FusedMoEQuantConfig | None:
+        self.ensure_moe_quant_config_init()
+        return self.quant_method.moe_quant_config
+
+    def ensure_dp_chunking_init(self):
+        if not self.use_dp_chunking or self.batched_hidden_states is not None:
+            return
+
+        states_shape: tuple[int, ...]
+        logits_shape: tuple[int, ...]
+
+        moe = self.moe_config
+
+        if self.vllm_config.parallel_config.enable_dbo:
+            states_shape = (2, moe.max_num_tokens, self.hidden_size)
+            logits_shape = (2, moe.max_num_tokens, self.logical_num_experts)
+        else:
+            states_shape = (moe.max_num_tokens, self.hidden_size)
+            logits_shape = (moe.max_num_tokens, self.logical_num_experts)
+
+        self.batched_hidden_states = torch.zeros(
+            states_shape, dtype=moe.in_dtype, device=torch.cuda.current_device()
+        )
+
+        self.batched_router_logits = torch.zeros(
+            logits_shape, dtype=moe.in_dtype, device=torch.cuda.current_device()
+        )
+
+    @staticmethod
+    def select_experts(
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        use_grouped_topk: bool,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        indices_type: torch.dtype | None = None,
+        enable_eplb: bool = False,
+        expert_map: torch.Tensor | None = None,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+        global_num_experts: int | None = None,
+        zero_expert_num: int | None = None,
+        zero_expert_type: str | None = None,
+        num_fused_shared_experts: int = 0,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """
+        Route the input hidden states to the top-k experts based on the
+        router logits.
+
+        Returns:
+                (topk_weights, topk_ids, zero_expert_result)
+                (tuple[torch.Tensor, torch.Tensor, torch.Tensor]):
+                The weights, expert ids, and zero expert computation result.
+
+            **Compatibility**: When EPLB is not enabled, the returned ids are
+            equivalent to global logical ids, so should be compatible with
+            plain MoE implementations without redundant experts.
+        """
+        from vllm.model_executor.layers.fused_moe.fused_moe import (
+            fused_topk,
+            fused_topk_bias,
+        )
+        from ixformer.inference.functions import moe_grouped_topk as grouped_topk
+
+        # Check if we should use a routing simulation strategy
+        routing_strategy = envs.VLLM_MOE_ROUTING_SIMULATION_STRATEGY
+        if routing_strategy != "":
+            topk_weights, topk_ids = RoutingSimulator.simulate_routing(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+                strategy_name=routing_strategy,
+                top_k=top_k,
+                indices_type=indices_type,
+            )
+
+        # DeepSeekv2 uses grouped_top_k
+        elif use_grouped_topk:
+            assert topk_group is not None
+            assert num_expert_group is not None
+            topk_weights, topk_ids = grouped_topk(
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize,
+                num_expert_group=num_expert_group,
+                topk_group=topk_group,
+                scoring_func=scoring_func,
+                e_score_correction_bias=e_score_correction_bias)
+            if indices_type is not None:
+                topk_ids = topk_ids.to(dtype=indices_type)
+        elif e_score_correction_bias is not None:
+            topk_weights, topk_ids = fused_topk_bias(
+                hidden_states=hidden_states,
+                gating_output=router_logits,
+                e_score_correction_bias=e_score_correction_bias.data,
+                topk=top_k,
+                renormalize=renormalize,
+            )
+            if routed_scaling_factor is not None:
+                topk_weights *= routed_scaling_factor
+        elif custom_routing_function is None:
+            topk_weights, topk_ids, token_expert_indices = fused_topk(
+                hidden_states=hidden_states,
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize,
+                indices_type=indices_type,
+            )
+        else:
+            topk_weights, topk_ids = custom_routing_function(
+                hidden_states=hidden_states,
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize,
+            )
+            if indices_type is not None:
+                topk_ids = topk_ids.to(dtype=indices_type)
+
+        if enable_eplb:
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+
+            topk_ids = eplb_map_to_physical_and_record(
+                topk_ids=topk_ids,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+                indices_type=indices_type,
+            )
+
+        assert topk_ids.dtype == indices_type or indices_type is None
+        
+        topk_ids = topk_ids.to(torch.int32)
+
+        # Compute zero expert result if needed
+        if (
+            zero_expert_num is not None
+            and zero_expert_num > 0
+            and zero_expert_type is not None
+            and global_num_experts is not None
+        ):
+            zero_expert_result = zero_experts_compute_triton(
+                expert_indices=topk_ids,
+                expert_scales=topk_weights,
+                num_experts=global_num_experts,
+                zero_expert_type=zero_expert_type,
+                hidden_states=hidden_states,
+            )
+        else:
+            zero_expert_result = None
+        return topk_weights, topk_ids, zero_expert_result
+
+    def must_reduce_shared_expert_outputs(self) -> bool:
+        """
+        The shared_experts are typically computed using the RowParallelLinear
+        layer. The result of this function is typically used as
+        the reduce_results argument to the module.
+        When just tensor-parallel is used, it is not required to reduce
+        the shared_experts results immediately. Instead we reduce at the
+        once at the end of the MoE op. (Refer to DeepSeekV2MoE module)
+        With EP and all2all kernels - this is no longer viable as all
+        GPU ranks in DP, produce the complete set of hidden_states.
+        Therefore it is required that we reduce the shared_experts output
+        early.
+        """
+        assert self.quant_method is not None
+        return (
+            isinstance(self.quant_method, FusedMoEModularMethod)
+            and self.quant_method.fused_experts.output_is_reduced()
+        )
+
+    def maybe_all_reduce_tensor_model_parallel(self, final_hidden_states: torch.Tensor):
+        """
+        Some combine kernels reduce across GPU ranks by default.
+        """
+        if self.must_reduce_shared_expert_outputs():
+            return final_hidden_states
+        else:
+            return tensor_model_parallel_all_reduce(final_hidden_states)
+
+    def forward_native(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        og_hidden_states = hidden_states.shape[-1]
+        if self.hidden_size != og_hidden_states:
+            hidden_states = F.pad(
+                hidden_states,
+                (0, self.hidden_size - og_hidden_states),
+                mode="constant",
+                value=0.0,
+            )
+
+        def reduce_output(states: torch.Tensor) -> torch.Tensor:
+            if (
+                not self.is_sequence_parallel
+                and not self.use_dp_chunking
+                and self.reduce_results
+                and (self.tp_size > 1 or self.ep_size > 1)
+            ):
+                states = self.maybe_all_reduce_tensor_model_parallel(states)
+            return states
+
+        if self.shared_experts is None:
+            # if current_platform.is_tpu():
+            #     # TODO: Once the OOM issue for the TPU backend is resolved, we
+            #     # will switch to using the moe_forward custom op.
+            fused_output = self.forward_impl(hidden_states, router_logits)
+            assert not isinstance(fused_output, tuple)
+            # else:
+            #     fused_output = torch.ops.vllm.moe_forward(
+            #         hidden_states, router_logits, self.layer_name
+            #     )
+            if self.zero_expert_num is not None and self.zero_expert_num > 0:
+                assert isinstance(fused_output, tuple)
+                fused_output, zero_expert_result = fused_output
+                return (reduce_output(fused_output) + zero_expert_result)[
+                    ..., :og_hidden_states
+                ]
+            else:
+                return reduce_output(fused_output)[..., :og_hidden_states]
+        else:
+            # if current_platform.is_tpu():
+            # # TODO: Once the OOM issue for the TPU backend is resolved, we
+            # # will switch to using the moe_forward custom op.
+            shared_output, fused_output = self.forward_impl(
+                hidden_states, router_logits
+            )
+            # else:
+            #     shared_output, fused_output = torch.ops.vllm.moe_forward_shared(
+            #         hidden_states, router_logits, self.layer_name
+            #     )
+            return (
+                reduce_output(shared_output)[..., :og_hidden_states],
+                reduce_output(fused_output)[..., :og_hidden_states],
+            )
+
+    def forward_cuda(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        return self.forward_native(hidden_states, router_logits)
+
+    def forward_impl_chunked(
+        self,
+        full_hidden_states: torch.Tensor,
+        full_router_logits: torch.Tensor,
+        has_separate_shared_experts: bool,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        assert self.batched_hidden_states is not None
+        assert self.batched_router_logits is not None
+        assert self.batched_hidden_states.dtype == full_hidden_states.dtype
+        assert self.batched_router_logits.dtype == full_router_logits.dtype
+        # Check size compatibility.
+        assert self.batched_hidden_states.size(-1) == full_hidden_states.size(-1)
+        assert self.batched_router_logits.size(-1) == full_router_logits.size(-1)
+
+        full_fused_final_hidden_states = torch.empty_like(full_hidden_states)
+        if self.shared_experts is not None:
+            full_shared_final_hidden_states = torch.empty_like(full_hidden_states)
+
+        def process_chunk(chunk_start, chunk_end, skip_result_store=False):
+            chunk_size = chunk_end - chunk_start
+            hidden_states = full_hidden_states[chunk_start:chunk_end, :]
+            router_logits = full_router_logits[chunk_start:chunk_end, :]
+
+            assert self.batched_hidden_states is not None
+            assert self.batched_router_logits is not None
+            # This is only true when DBO has been enabled in the config.
+            # Both tensors will have an outer dimension for the ubatch id
+            if self.batched_hidden_states.dim() == 3:
+                assert self.batched_router_logits.dim() == 3
+                batch_buffer_idx = dbo_current_ubatch_id()
+                batched_hidden_states = self.batched_hidden_states[batch_buffer_idx, :]
+                batched_router_logits = self.batched_router_logits[batch_buffer_idx, :]
+            else:
+                batched_hidden_states = self.batched_hidden_states
+                batched_router_logits = self.batched_router_logits
+
+            assert (
+                batched_hidden_states.size(0)  # type: ignore
+                >= chunk_size
+            )
+            assert (
+                batched_router_logits.size(0)  # type: ignore
+                >= chunk_size
+            )
+            staged_hidden_states = batched_hidden_states[:chunk_size, :]  # type: ignore
+            staged_router_logits = batched_router_logits[:chunk_size, :]  # type: ignore
+            staged_hidden_states.copy_(hidden_states, non_blocking=True)
+            staged_router_logits.copy_(router_logits, non_blocking=True)
+
+            # Matrix multiply.
+            final_hidden_states = self.quant_method.apply(
+                layer=self,
+                x=staged_hidden_states,
+                router_logits=staged_router_logits,
+                top_k=self.top_k,
+                renormalize=self.renormalize,
+                use_grouped_topk=self.use_grouped_topk,
+                global_num_experts=self.global_num_experts,
+                expert_map=self.expert_map
+                if not self.rocm_aiter_fmoe_enabled
+                else self.expert_mask,
+                topk_group=self.topk_group,
+                num_expert_group=self.num_expert_group,
+                custom_routing_function=self.custom_routing_function,
+                scoring_func=self.scoring_func,
+                routed_scaling_factor=self.routed_scaling_factor,
+                e_score_correction_bias=self.e_score_correction_bias,
+                activation=self.activation,
+                enable_eplb=self.enable_eplb,
+                expert_load_view=self.expert_load_view,
+                logical_to_physical_map=self.logical_to_physical_map,
+                logical_replica_count=self.logical_replica_count,
+            )
+
+            if has_separate_shared_experts:
+                assert not isinstance(final_hidden_states, tuple)
+                assert self.shared_experts is not None
+
+                shared_output = self.shared_experts(staged_hidden_states)
+
+                final_hidden_states = (
+                    shared_output,
+                    final_hidden_states,
+                )
+
+            if self.zero_expert_num is not None and self.zero_expert_num > 0:
+                assert isinstance(final_hidden_states, tuple)
+                assert self.shared_experts is None
+                final_hidden_states, zero_expert_result = final_hidden_states
+                if zero_expert_result is not None:
+                    final_hidden_states += zero_expert_result
+
+            if not skip_result_store:
+                if self.shared_experts is None:
+                    full_fused_final_hidden_states[chunk_start:chunk_end, :].copy_(
+                        final_hidden_states, non_blocking=True
+                    )
+                else:
+                    full_shared_final_hidden_states[chunk_start:chunk_end, :].copy_(
+                        final_hidden_states[0], non_blocking=True
+                    )
+                    full_fused_final_hidden_states[chunk_start:chunk_end, :].copy_(
+                        final_hidden_states[1], non_blocking=True
+                    )
+
+        ctx = get_forward_context()
+        # flashinfer_cutlass_kernels can handle: optional DP + TP/EP
+        max_tokens_across_dispatchers = ctx.dp_metadata.max_tokens_across_dp_cpu
+        moe_dp_chunk_size_per_rank = self.moe_config.max_num_tokens
+
+        # If the input to the MoE is sequence parallel then divide by sp_size
+        # to find the maximum number of tokens for any individual dispatcher.
+        if self.is_sequence_parallel:
+            max_tokens_across_dispatchers = cdiv(
+                max_tokens_across_dispatchers, self.sp_size
+            )
+
+        num_tokens = full_hidden_states.size(0)
+        for chunk_idx, chunk_start_ in enumerate(
+            range(0, max_tokens_across_dispatchers, moe_dp_chunk_size_per_rank)
+        ):
+            chunk_start = chunk_start_
+            chunk_end = min(
+                chunk_start + moe_dp_chunk_size_per_rank, max_tokens_across_dispatchers
+            )
+            # clamp start and end
+            chunk_start = min(chunk_start, num_tokens - 1)
+            chunk_end = min(chunk_end, num_tokens)
+            with ctx.dp_metadata.chunked_sizes(
+                self.sp_size, moe_dp_chunk_size_per_rank, chunk_idx
+            ):
+                process_chunk(
+                    chunk_start, chunk_end, skip_result_store=chunk_start_ >= num_tokens
+                )
+
+        if self.shared_experts is None:
+            return full_fused_final_hidden_states
+        else:
+            return (full_shared_final_hidden_states, full_fused_final_hidden_states)
+
+    def forward_impl(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        assert self.quant_method is not None
+
+        self.ensure_moe_quant_config_init()
+        self.ensure_dp_chunking_init()
+
+        has_separate_shared_experts = (
+            not isinstance(self.quant_method, FusedMoEModularMethod)
+            and self.shared_experts is not None
+        )
+
+        use_chunked_impl = self.use_dp_chunking
+
+        use_shared_experts_stream = (
+            has_separate_shared_experts
+            and not use_chunked_impl
+            and self.shared_experts_stream is not None
+            and (
+                hidden_states.shape[0]
+                <= envs.VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD
+            )
+        )
+
+        if use_shared_experts_stream:
+            assert self.shared_experts_stream is not None
+
+            # Clone BEFORE switching streams to avoid race condition
+            # where routed_expert kernel may mutate hidden_states.
+            hidden_states_clone = hidden_states.clone()
+
+            # Record that the clone will be used by shared_experts_stream
+            # to avoid gc issue from deallocation of hidden_states_clone
+            # For more details: https://docs.pytorch.org/docs/stable/generated/torch.Tensor.record_stream.html # noqa: E501
+            # NOTE: We dont need shared_output.record_stream(current_stream())
+            # because we synch the streams before using shared_output.
+            hidden_states_clone.record_stream(self.shared_experts_stream)
+
+            # Mark sync start point for the separate shared experts
+            # stream here since we want to run in parallel with the
+            # router/gate (next op below)
+            assert self.shared_experts_stream is not None
+            self.shared_experts_stream.wait_stream(current_stream())
+
+        # If router/gate provided, then apply it here.
+        # (Note: This code runs only when "overlapped mode" is on to allow
+        #        parallel execution of shared experts with the FusedMoE via
+        #        separate cuda stream)
+        if self.gate is not None:
+            router_logits, _ = self.gate(hidden_states)
+
+        if use_chunked_impl:
+            return self.forward_impl_chunked(
+                hidden_states, router_logits, has_separate_shared_experts
+            )
+
+        do_naive_dispatch_combine: bool = self.dp_size > 1 and not isinstance(
+            self.quant_method, FusedMoEModularMethod
+        )
+
+        ctx = get_forward_context()
+        sp_ctx = (
+            ctx.dp_metadata.sp_local_sizes(self.sp_size)
+            if ctx.dp_metadata
+            else nullcontext()
+        )
+
+        with sp_ctx:
+            if do_naive_dispatch_combine:
+                hidden_states_combined, router_logits = get_ep_group().dispatch(
+                    hidden_states, router_logits, self.is_sequence_parallel
+                )
+
+            # Matrix multiply.
+            final_hidden_states = self.quant_method.apply(
+                layer=self,
+                x=hidden_states_combined
+                if do_naive_dispatch_combine
+                else hidden_states,
+                router_logits=router_logits,
+                top_k=self.top_k,
+                renormalize=self.renormalize,
+                use_grouped_topk=self.use_grouped_topk,
+                global_num_experts=self.global_num_experts,
+                expert_map=self.expert_map
+                if not self.rocm_aiter_fmoe_enabled
+                else self.expert_mask,
+                topk_group=self.topk_group,
+                num_expert_group=self.num_expert_group,
+                custom_routing_function=self.custom_routing_function,
+                scoring_func=self.scoring_func,
+                routed_scaling_factor=self.routed_scaling_factor,
+                e_score_correction_bias=self.e_score_correction_bias,
+                activation=self.activation,
+                apply_router_weight_on_input=self.apply_router_weight_on_input,
+                enable_eplb=self.enable_eplb,
+                expert_load_view=self.expert_load_view,
+                logical_to_physical_map=self.logical_to_physical_map,
+                logical_replica_count=self.logical_replica_count,
+            )
+
+            if has_separate_shared_experts:
+                assert self.shared_experts is not None
+
+                if use_shared_experts_stream:
+                    # Run shared experts in parallel on a separate stream
+                    # NOTE: We start the separate stream here and mark the
+                    # sync end point immediately after it is done. This is
+                    # important to avoid excessive stream allocations by the cuda
+                    # graph replay later.
+                    with torch.cuda.stream(self.shared_experts_stream):
+                        # Note that hidden_states clone() is necessary here to avoid
+                        # conflict with the main stream
+                        shared_output = self.shared_experts(hidden_states_clone)
+                    current_stream().wait_stream(self.shared_experts_stream)
+                else:
+                    shared_output = self.shared_experts(hidden_states)
+
+                final_hidden_states = (
+                    shared_output,
+                    final_hidden_states,
+                )
+            elif self.zero_expert_num is not None and self.zero_expert_num > 0:
+                assert isinstance(final_hidden_states, tuple)
+                final_hidden_states, zero_expert_result = final_hidden_states
+
+            def combine_output(states: torch.Tensor) -> torch.Tensor:
+                if do_naive_dispatch_combine:
+                    states = get_ep_group().combine(states, self.is_sequence_parallel)
+                return states
+
+            if self.shared_experts is not None:
+                return (
+                    final_hidden_states[0],
+                    combine_output(final_hidden_states[1]),
+                )
+            elif self.zero_expert_num is not None and self.zero_expert_num > 0:
+                assert isinstance(final_hidden_states, torch.Tensor)
+                return (combine_output(final_hidden_states), zero_expert_result)
+            else:
+                return combine_output(final_hidden_states)
+
+    @classmethod
+    def make_expert_params_mapping(
+        cls,
+        ckpt_gate_proj_name: str,
+        ckpt_down_proj_name: str,
+        ckpt_up_proj_name: str,
+        num_experts: int,
+        num_redundant_experts: int = 0,
+    ) -> list[tuple[str, str, int, str]]:
+        num_physical_experts = num_experts + num_redundant_experts
+
+        # In the returned mapping:
+        # - `expert_id` is the physical expert id
+        # - `weight_name` contains the weight name of the logical expert
+        # So that we should map the expert id to logical in `weight_name`
+        physical_to_logical_map = (
+            EplbState.build_initial_global_physical_to_logical_map(
+                num_experts, num_redundant_experts
+            )
+        )
+
+        return [
+            # (param_name, weight_name, expert_id, shard_id)
+            (
+                "experts.w13_"
+                if weight_name in [ckpt_gate_proj_name, ckpt_up_proj_name]
+                else "experts.w2_",
+                f"experts.{physical_to_logical_map[expert_id]}.{weight_name}.",
+                expert_id,
+                shard_id,
+            )
+            for expert_id in range(num_physical_experts)
+            for shard_id, weight_name in [
+                ("w1", ckpt_gate_proj_name),
+                ("w2", ckpt_down_proj_name),
+                ("w3", ckpt_up_proj_name),
+            ]
+        ]
+
+    def extra_repr(self) -> str:
+        s = (
+            f"global_num_experts={self.global_num_experts}, "
+            f"local_num_experts={self.local_num_experts}, "
+            f"top_k={self.top_k}, "
+            f"intermediate_size_per_partition={self.intermediate_size_per_partition}, "  # noqa: E501
+            f"tp_size={self.tp_size},\n"
+            f"ep_size={self.ep_size}, "
+            f"reduce_results={self.reduce_results}, "
+            f"renormalize={self.renormalize}, "
+            f"use_grouped_topk={self.use_grouped_topk}"
+        )
+
+        if self.use_grouped_topk:
+            s += f", num_expert_group={self.num_expert_group}, topk_group={self.topk_group}"  # noqa: E501
+
+        s += f", scoring_func='{self.scoring_func}', activation='{self.activation}'"  # noqa: E501
+
+        return s
+
+
+def moe_forward(
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    assert self.shared_experts is None
+    return self.forward_impl(hidden_states, router_logits)
+
+
+def moe_forward_fake(
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+direct_register_custom_op(
+    op_name="moe_forward",
+    op_func=moe_forward,
+    mutates_args=["hidden_states"],
+    fake_impl=moe_forward_fake,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
+
+
+def moe_forward_shared(
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    layer_name: str,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    assert self.shared_experts is not None
+    return self.forward_impl(hidden_states, router_logits)
+
+
+def moe_forward_shared_fake(
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    layer_name: str,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    shared_out = torch.empty_like(hidden_states)
+    fused_out = torch.empty_like(hidden_states)
+    return shared_out, fused_out
+
+
+direct_register_custom_op(
+    op_name="moe_forward_shared",
+    op_func=moe_forward_shared,
+    mutates_args=["hidden_states"],
+    fake_impl=moe_forward_shared_fake,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
+
+# Mark the FusedMoE weight_loader as supporting MoE-specific parameters
+# to avoid expensive runtime reflection in model loading code
+FusedMoE.weight_loader.supports_moe_loading = True  # type: ignore[attr-defined]
diff --git a/model_executor/layers/fused_moe/modular_kernel.py b/model_executor/layers/fused_moe/modular_kernel.py
new file mode 100644
index 0000000..9984b89
--- /dev/null
+++ b/model_executor/layers/fused_moe/modular_kernel.py
@@ -0,0 +1,1222 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+from dataclasses import dataclass
+from enum import Enum
+from math import prod
+from typing import final
+
+import torch
+
+import vllm.envs as envs
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.utils import (
+    _resize_cache,
+    count_expert_num_tokens,
+    disable_inplace,
+)
+from vllm.utils.math_utils import cdiv
+from vllm.v1.worker.ubatching import (
+    dbo_current_ubatch_id,
+    dbo_enabled,
+    dbo_maybe_run_recv_hook,
+    dbo_register_recv_hook,
+    dbo_yield,
+)
+
+#
+# This file defines a set of base classes used to make MoE kernels more modular.
+# The goal is to be able to utilize different communication mechanisms with
+# any fused MoE kernel without needing to have combinatoric implementations.
+#
+# The fused moe kernels are broken down into the following components:
+#
+# [Router] → [Quantize-Dispatch] → [Permute-Experts-Unpermute] → [Combine]
+#
+# Each component will be independent of (but may inform) the others except for
+# [Quantize-Dispatch] and `[Combine] (see below). The components can then be
+# mixed and matched with so that DP+EP can be supported easily for multiple
+# MoE kernel implementations.
+#
+# The following main classes are defined:
+# * FusedMoEPrepareAndFinalize - an abstract base class for preparation of MoE
+#   inputs (e.g. quantization, distribution) and finalization of Moe outputs.
+#   The prepare method must take care of any needed quantization and the
+#   finalize method, informed by the FusedMoEPermuteExpertsUnpermute method,
+#   may apply weights and/or do the final reduction of the output.
+# * FusedMoEPermuteExpertsUnpermute - an abstract base class for the main fused
+#   MoE operation, i.e matmul + act_mul + optionally quant + matmul.
+#   Some FusedMoEPermuteExpertsUnpermute implementations may choose to do
+#   the weight application and/or reduction. The class communicates this
+#   to [Finalize] via a TopKWeightAndReduce object.
+# * FusedMoEModularKernel - an interface class that combines a
+#   FusedMoEPrepareAndFinalize and a FusedMoEPermuteExpertsUnpermute to
+#   provide the standard fused MoE kernel interface.
+# * TopKWeightAndReduce - A TopKWeightAndReduce implementation chosen
+#   by the FusedMoEPermuteExpertsUnpermute implementation that is passed
+#   on to [Finalize].
+#
+# [Quantize-Prepare] and [Finalize] functionality are bundled into a single
+# class `FusedMoEPrepareAndFinalize` since they could use collective
+# communication mechanisms that need to be consistent.
+#
+
+
+class FusedMoEActivationFormat(Enum):
+    """
+    The standard activation format (num_tokens, hidden dim).
+    """
+
+    Standard = ("standard",)
+    """
+    The batched experts format (num experts, max tokens per expert, hidden dim)
+    """
+    BatchedExperts = ("batched_experts",)
+
+
+@dataclass
+class ExpertTokensMetadata:
+    """
+    Metadata regarding expert-token routing.
+    """
+
+    expert_num_tokens: torch.Tensor
+    expert_num_tokens_cpu: torch.Tensor | None
+
+    @staticmethod
+    def make_from_list(
+        expert_num_tokens_list: list[int], device: str
+    ) -> "ExpertTokensMetadata":
+        expert_num_tokens_cpu = torch.tensor(
+            expert_num_tokens_list, device="cpu", dtype=torch.int32
+        )
+        return ExpertTokensMetadata(
+            expert_num_tokens=expert_num_tokens_cpu.to(device, non_blocking=True),
+            expert_num_tokens_cpu=expert_num_tokens_cpu,
+        )
+
+
+class TopKWeightAndReduce(ABC):
+    """
+    An abstract base class for weight application and reduction implementations.
+    """
+
+    @abstractmethod
+    def apply(
+        self,
+        output: torch.Tensor | None,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor:
+        """
+        Apply topk_weights to the fused_experts_outputs and/or reduce.
+        If an output tensor is not passed, it will be created in the
+        function.
+        """
+        raise NotImplementedError
+
+
+#
+# PrepareResultType is a tuple of:
+# - quantized + dispatched a.
+# - quantized + dispatched a1_scales.
+# - Optional ExpertTokensMetadata containing gpu/cpu tensors
+#   as big as the number of local experts with the information about the
+#   number of tokens assigned to each local expert.
+# - Optional dispatched expert topk IDs
+# - Optional dispatched expert topk weight
+#
+# See `prepare` method below.
+#
+PrepareResultType = tuple[
+    torch.Tensor,
+    torch.Tensor | None,
+    ExpertTokensMetadata | None,
+    torch.Tensor | None,
+    torch.Tensor | None,
+]
+
+ReceiverType = Callable[[], PrepareResultType]
+
+
+# TODO: pass FusedMoEParallelConfig in as ctor parameter?
+class FusedMoEPrepareAndFinalize(ABC):
+    """
+    An abstract base class for the [Quantize-Prepare] and [Finalize] steps
+    described above.
+    """
+
+    def post_init_setup(self, fused_experts: "FusedMoEPermuteExpertsUnpermute"):
+        """
+        Initialize FusedMoEPrepareAndFinalize settings that depend on
+        FusedMoEPermuteExpertsUnpermute experts object.
+        The FusedMoEPrepareAndFinalize implementations that have such
+        dependencies may choose to override this function.
+        """
+        return
+
+    @abstractmethod
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> PrepareResultType:
+        """
+        Perform any quantization (and/or) dispatching needed for this kernel.
+        - a1: The (unquantized) input to the MoE layer.
+        - topk_ids: The topk ids.
+        - topk_weights: The topk weights.
+        - num_experts: The total number of experts in the global expert space.
+        - expert_map: A tensor mapping expert indices from the global expert
+          space to the local expert space of the expert parallel shard.
+        - apply_router_weight_on_input: When True, apply the weights to the
+          activations, before quantization + dispatching.
+        - quant_config: Quantization info provided by the fused experts.
+
+        Returns a tuple of:
+        - quantized + dispatched a.
+        - Optional quantized + dispatched a1_scales.
+        - Optional ExpertTokensMetadata containing gpu/cpu tensors
+          as big as the number of local experts with the information about the
+          number of tokens assigned to each local expert.
+        - Optional dispatched expert topk IDs
+        - Optional dispatched expert topk weight
+        """
+        raise NotImplementedError
+
+    def supports_async(self) -> bool:
+        """
+        Indicates whether or not this class implements prepare_async and
+        finalize_async.
+        """
+        return False
+
+    def prepare_async(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> tuple[Callable, ReceiverType] | ReceiverType:
+        """
+        Perform any quantization (and/or) dispatching needed for this kernel
+        but do not wait for results from other workers.
+        - a1: The (unquantized) input to the MoE layer.
+        - a1_scale: Optional scales for a1
+        - a2_scale: Optional scales for the second MoE gemm.  Required to make
+          sure the quantization is consistent for both gemms.
+        - topk_ids: The topk ids.
+        - topk_weights: The topk weights.
+        - num_experts: The total number of experts in the global expert space.
+        - expert_map: A tensor mapping expert indices from the global expert
+          space to the local expert space of the expert parallel shard.
+        - apply_router_weight_on_input: When True, apply the weights to the
+          activations, before quantization + dispatching.
+
+        Returns a callback or a hook callback pair that when invoked waits for
+        results from other workers and has the same return signature as
+        `prepare`, if a hook is returned this is more lightweight check that
+        the recv is complete without doing extra work (used by DBO, will be
+        refactored in the very near future)
+
+        e.g.
+
+        ret = obj.prepare_async(...)
+
+        if isinstance(ret, tuple):
+            hook, receiver = ret
+            hook()
+
+        if hook is not None:
+        a, a_scales, expert_meta, topk_ids, topk_weights = receiver()
+
+        is equivalent to:
+
+        a, a_scales, expert_meta, topk_ids, topk_weights = obj.prepare(...)
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: TopKWeightAndReduce,
+    ) -> None:
+        """
+        Perform any combine plus apply weights and perform a reduction on the
+        fused experts output.
+        - output: The output tensor, written in place.  Must be (M, K) shape.
+        - fused_expert_output: The unweighted, unreduced output of the fused
+          experts, it will have (M, topk, K) shape.
+        - topk_weights: The weights to be applied to the fused_experts_output.
+        - topk_ids: The topk_ids.
+        - apply_router_weight_on_input: When False, apply the weights to
+          fused_expert_output.
+        - weight_and_reduce_impl: An optional TopKWeightAndReduce
+          implementation.
+        """
+        raise NotImplementedError
+
+    def finalize_async(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: TopKWeightAndReduce,
+    ) -> tuple[Callable, Callable] | Callable:
+        """
+        Perform any combine plus apply weights and perform a reduction on the
+        fused experts output but do not wait for results from other workers.
+        - output: The output tensor, written in place.  Must be (M, K) shape.
+        - fused_expert_output: The unweighted, unreduced output of the fused
+          experts, it will have (M, topk, K) shape.
+        - topk_weights: The weights to be applied to the fused_experts_output.
+        - topk_ids: The topk_ids.
+        - apply_router_weight_on_input: When False, apply the weights to
+          fused_expert_output.
+        - weight_and_reduce_impl: An optional TopKWeightAndReduce
+          implementation.
+
+        Returns a callback or a hook callback pair that when invoked waits for
+        results from other workers and has the same return signature as
+        `finalize`, if a hook is returned this is more lightweight check that
+        the recv is complete without doing extra work (used by DBO, will be
+        refactored in the very near future)
+
+        ret = obj.finalize_async(output, ...)
+        ... output not valid yet ...
+        if isinstance(ret, tuple):
+            hook, receiver = ret
+            hook()
+        receiver()
+        ... output valid here ...
+
+        is equivalent to:
+
+        obj.finalize(output, ...)
+        """
+        raise NotImplementedError
+
+    @property
+    @abstractmethod
+    def activation_format(self) -> FusedMoEActivationFormat:
+        """
+        A property indicating the output format of the activations for the
+        'prepare' method.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        """
+        The PrepareFinalize All2All implementations generally constrain the
+        dtype of the topk_ids they support. This function returns the
+        required topk indices dtype so it can be respected.
+        Return None if there are no such restrictions.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def max_num_tokens_per_rank(self) -> int | None:
+        """
+        Some PrepareFinalize All2All implementations are batched. Meaning,
+        they can process only as set of tokens at a time. This
+        function returns the batch size i.e the maximum number of tokens
+        the implementation can process at a time.
+        Return None if there are no such restrictions.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def num_dispatchers(self) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def output_is_reduced(self) -> bool:
+        """
+        Indicates whether or not the output of finalize is reduced across all
+        ranks.
+        """
+        raise NotImplementedError
+
+
+# TODO: add supported activations method (return string)
+class FusedMoEPermuteExpertsUnpermute(ABC):
+    """
+    An abstract base class for the [Permute-Experts-Unpermute] step described
+    above.
+    """
+
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+    ):
+        """
+        quant_config: Quantization parameters for this experts instance.
+        """
+        self.quant_config = quant_config
+
+    @property
+    @abstractmethod
+    def activation_formats(
+        self,
+    ) -> tuple[FusedMoEActivationFormat, FusedMoEActivationFormat]:
+        """
+        A property which is a tuple of the input and output activation formats
+        for the 'apply' method.
+        """
+        raise NotImplementedError
+
+    def moe_problem_size(
+        self,
+        a1: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+    ) -> tuple[int, int, int, int, int]:
+        """
+        Extract the MoE problem size from the given tensor arguments:
+        - a: The hidden states, input to the MoE layer.
+        - w1: The first set of expert weights.
+        - w2: The second set of expert weights.
+        - topk_ids: The topk ids.
+
+        Note: extracting the problem shape from the weight and activation
+        tensors is not obvious.  It needs to be done this way specifically
+        due to subtle issues with particular kernels, e.g. the int4 kernels
+        divide the trailing dimension by two, so it's not "correct" to
+        extract N or K from the trailing dimension of w1 or w2.  Similarly,
+        some kernels transpose the weights, so this needs to be kept in mind.
+
+        Note: This implementation covers most cases. However, if experts
+        require a specialized implementation, like MarlinExperts, they are free
+        to override this function.
+        """
+        assert w1.dim() == 3 and w2.dim() == 3
+        E, N, _ = w1.size()
+        K = a1.size(-1)
+
+        if a1.dim() == 2:
+            # Make sure we are using the correct a1 (pre-permute).
+            assert topk_ids.size(0) == a1.size(0), f"{topk_ids.size(0)} != {a1.size(0)}"
+            M = a1.size(0)
+        else:
+            assert a1.dim() == 3
+            assert a1.size(0) == E, f"{a1.size(0)} == {E}"
+            M = a1.size(1)  # This is max_num_tokens
+
+        assert topk_ids.dim() == 2
+        topk = topk_ids.size(1)
+
+        return E, M, N, K, topk
+
+    #
+    # Various helpers for accessing quantization parameters from the
+    # quant_config.
+    #
+
+    @property
+    def quant_dtype(self) -> torch.dtype | None:
+        return self.quant_config.quant_dtype
+
+    @property
+    def block_shape(self) -> list[int] | None:
+        return self.quant_config.block_shape
+
+    @property
+    def per_act_token_quant(self) -> bool:
+        return self.quant_config.per_act_token_quant
+
+    @property
+    def per_out_ch_quant(self) -> bool:
+        return self.quant_config.per_out_ch_quant
+
+    @property
+    def a1_scale(self) -> torch.Tensor | None:
+        return self.quant_config.a1_scale
+
+    @property
+    def a2_scale(self) -> torch.Tensor | None:
+        return self.quant_config.a2_scale
+
+    @property
+    def a1_gscale(self) -> torch.Tensor | None:
+        return self.quant_config.a1_gscale
+
+    @property
+    def a2_gscale(self) -> torch.Tensor | None:
+        return self.quant_config.a2_gscale
+
+    @property
+    def w1_scale(self) -> torch.Tensor | None:
+        return self.quant_config.w1_scale
+
+    @property
+    def w2_scale(self) -> torch.Tensor | None:
+        return self.quant_config.w2_scale
+
+    @property
+    def w1_zp(self) -> torch.Tensor | None:
+        return self.quant_config.w1_zp
+
+    @property
+    def w2_zp(self) -> torch.Tensor | None:
+        return self.quant_config.w2_zp
+
+    @property
+    def w1_bias(self) -> torch.Tensor | None:
+        return self.quant_config.w1_bias
+
+    @property
+    def w2_bias(self) -> torch.Tensor | None:
+        return self.quant_config.w2_bias
+
+    @property
+    def g1_alphas(self) -> torch.Tensor | None:
+        return self.quant_config.g1_alphas
+
+    @property
+    def g2_alphas(self) -> torch.Tensor | None:
+        return self.quant_config.g2_alphas
+
+    # TODO (bnell): make this return a CHUNK_SIZE or None instead?
+    @abstractmethod
+    def supports_chunking(self) -> bool:
+        """
+        A flag indicating whether or not this class supports activation
+        chunking.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def supports_expert_map(self) -> bool:
+        """
+        A flag indicating whether or not this class supports expert maps
+        """
+        raise NotImplementedError
+
+    def supports_packed_ue8m0_act_scales(self) -> bool:
+        """
+        A flag indicating whether or not this class can process packed ue8m0
+        activation scales.
+        """
+        return False
+
+    def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
+        """
+        Workspace type: The dtype to use for the workspace tensors.
+        """
+        return act_dtype
+
+    @abstractmethod
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        """
+        Compute the shapes for the temporary and final outputs of the two gemms
+        and activation in the fused expert function.  Since the gemms are
+        independent, the workspace for the first gemm can be shared with the
+        workspace for the last gemm.
+
+        Inputs:
+        - M: number of tokens.
+        - N: Row (or column) dimension of expert weights.
+        - K: hidden dimension
+        - topk: The number of top-k experts to select.
+        - global_num_experts: global number of experts.
+        - local_num_experts: local number of experts due to DP/EP.
+        - expert_tokens_meta: number of tokens per expert metadata for batched
+                              format.
+
+        Returns a tuple of:
+        - workspace13 shape tuple: must be large enough to hold the
+          result of either expert gemm.
+        - workspace2 shape tuple: must be large enough to hold the
+          result of the activation function.
+        - output shape tuple: must be exact size of the final gemm output.
+        - Note: workspace shapes can be 0 if the workspace is not needed.
+          But in order for activation chunking to work, the first dimension
+          of each tuple must be the number of tokens when the shape is
+          not 0.
+        """
+        raise NotImplementedError
+
+    def activation(
+        self, activation: str, output: torch.Tensor, input: torch.Tensor
+    ) -> None:
+        assert output.size(-1) * 2 == input.size(-1)
+        if activation == "silu":
+            torch.ops._C.silu_and_mul(input, output)
+        elif activation == "gelu":
+            torch.ops._C.gelu_and_mul(output, input)
+        elif activation == "swigluoai":
+            # alpha = 1.702, limit = 7.0
+            torch.ops._C.swigluoai_and_mul(output, input)
+        else:
+            raise ValueError(f"Unsupported FusedMoe activation: {activation}")
+
+    def enable_chunking(self):
+        return (
+            envs.VLLM_ENABLE_FUSED_MOE_ACTIVATION_CHUNKING and self.supports_chunking()
+        )
+
+    def finalize_weight_and_reduce_impl(self) -> TopKWeightAndReduce:
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        """
+        This function computes the intermediate result of a Mixture of Experts
+        (MoE) layer using two sets of weights, w1 and w2.
+
+        Parameters:
+        - output: (torch.Tensor): The unweighted, unreduced output tensor.
+        - hidden_states: (torch.Tensor): The (quantized) input tensor to the MoE
+          layer.
+        - w1 (torch.Tensor): The first set of expert weights.
+        - w2 (torch.Tensor): The second set of expert weights.
+        - topk_weights: A map of row to expert weights. Some implementations
+          choose to do weight application.
+        - topk_ids (torch.Tensor): A map of row to expert id.
+        - activation (str): The activation function to apply after the first
+          MoE layer.
+        - global_num_experts (int): The total number of experts in the global
+          expert space.
+        - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+          from the global expert space to the local expert space of the expert
+          parallel shard.
+        - a1q_scale (Optional[torch.Tensor]): Optional quantized scale to be
+          used for a1.  Result of quantization from prepare/finalize and not
+          from the FusedMoEQuantConfig.
+        - workspace13 (torch.Tensor): A scratch tensor used for gemm outputs
+          must be large enough to hold output of either MoE gemm.
+        - workspace2 (torch.Tensor): A scratch tensor used for the activation
+          function.
+        - expert_tokens_meta (Optional[ExpertTokensMetadata]) - An optional
+          ExpertTokensMetadata object containing gpu/cpu tensors
+          as big as the number of local experts with the information about the
+          number of tokens assigned to each local expert.
+        - apply_router_weight_on_input: True if router weights are already
+          applied on the input. This is relevant if the implementation
+          chooses to do weight application.
+        """
+        raise NotImplementedError
+
+
+def _slice_scales(
+    scales: torch.Tensor | None, start: int, end: int
+) -> torch.Tensor | None:
+    if scales is not None:
+        if scales.numel() == 1:
+            return scales
+        else:
+            return scales[start:end]
+    return None
+
+
+class SharedResizableBuffer:
+    def __init__(self):
+        self.buffer = None
+
+    def get(
+        self, shape: tuple[int, ...], device: torch.device, dtype: torch.dtype
+    ) -> torch.Tensor:
+        assert shape != ()
+        shape_numel = prod(shape)
+        if (
+            self.buffer is None
+            or self.buffer.numel() < shape_numel
+            or self.buffer.device != device
+            or self.buffer.dtype != dtype
+        ):
+            self.buffer = torch.empty(shape_numel, device=device, dtype=dtype)
+        return self.buffer[:shape_numel].view(*shape)
+
+
+@final
+class FusedMoEModularKernel(torch.nn.Module):
+    """
+    This class combines a FusedMoEPrepareAndFinalize instance and
+    a FusedMoEPermuteExpertsUnpermute to provide an interface that
+    is compatible with the `fused_experts` function in fused_moe.py.
+
+    It takes care of managing any required scratch space.
+
+    Note: Instances of this class should only be used for a single model
+    layer due to any layer specific state that may be used by the component
+    objects.
+    """
+
+    class SharedBuffers:
+        def __init__(self) -> None:
+            self.fused_out = SharedResizableBuffer()
+            self.workspace13 = SharedResizableBuffer()
+            self.workspace2 = SharedResizableBuffer()
+
+    # Persistent buffers that are shared across `FusedMoEModularKernel`
+    # instances (layers), to save memory and allocattions.
+    #
+    # We have two sets of buffers to support dual batch overlap (DBO) where each
+    # microbatch (ubatch) should use its own set of buffers to avoid
+    # cross-ubatch contimination.
+    # NOTE that memory is lazily allocated for these buffers, meaning that if
+    # DBO isn't being used, the second SharedBuffers will be empty.
+    shared_buffers: list[SharedBuffers] = [SharedBuffers(), SharedBuffers()]
+
+    def __init__(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        fused_experts: FusedMoEPermuteExpertsUnpermute,
+        shared_experts: torch.nn.Module | None = None,
+    ):
+        super().__init__()
+        self.prepare_finalize = prepare_finalize
+        self.fused_experts = fused_experts
+        self.shared_experts = shared_experts
+
+        self._post_init_setup()
+        assert (
+            prepare_finalize.activation_format == fused_experts.activation_formats[0]
+        ), (
+            f"{prepare_finalize.__class__.__name__}."
+            f"{prepare_finalize.activation_format} == "
+            f"{fused_experts.__class__.__name__}."
+            f"{fused_experts.activation_formats[0]}"
+        )
+
+    def _post_init_setup(self):
+        """
+        Resolve any leftover setup dependencies between self.prepare_finalize
+        and self.fused_experts here.
+        """
+        self.prepare_finalize.post_init_setup(self.fused_experts)
+
+    def supports_expert_map(self) -> bool:
+        """
+        A flag indicating whether or not this class supports expert maps.
+        """
+        return self.fused_experts.supports_expert_map()
+
+    def output_is_reduced(self) -> bool:
+        """
+        Indicates whether or not the output of fused MoE kernel
+        is reduced across all ranks.
+        """
+        return self.prepare_finalize.output_is_reduced()
+
+    def _chunk_info(self, M: int) -> tuple[int, int]:
+        """
+        Compute number of chunks and chunk size for given M.
+        If chunking is not supported, set the CHUNK_SIZE to M so we
+        get num_chunks == 1. Take max(M, 1) to avoid divide by zero.
+        If there are no tokens to process, the number of chunks will be zero.
+        """
+        CHUNK_SIZE = max(
+            1,
+            (
+                M
+                if not self.fused_experts.supports_chunking()
+                else min(M, envs.VLLM_FUSED_MOE_CHUNK_SIZE)
+            ),
+        )
+        num_chunks = cdiv(M, CHUNK_SIZE)
+        # If there are no tokens, then there should be no loop iterations.
+        assert M > 0 or num_chunks == 0
+        return num_chunks, CHUNK_SIZE
+
+    def _allocate_buffers(
+        self,
+        out_dtype: torch.dtype,
+        device: torch.device,
+        M_chunk: int,
+        M_full: int,
+        N: int,
+        K: int,
+        top_k: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: ExpertTokensMetadata | None,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """
+        Allocate temporary and output buffers for the fused experts op.
+        Inputs:
+        - out_dtype: output type of workspace and output tensors.
+        - device: the device of the workspace and output tensors.
+        See `workspace_shapes` for a description of the remainder of arguments.
+        Returns a tuple of (workspace13, workspace2, output) tensors.
+        """
+        assert M_full > 0 and M_chunk > 0
+
+        num_chunks, _ = self._chunk_info(M_full)
+
+        # select per-ubatch buffers to avoid cross-ubatch reuse under DBO
+        ubatch_idx = dbo_current_ubatch_id()
+        buffers = self.shared_buffers[ubatch_idx]
+        workspace_dtype = self.fused_experts.workspace_dtype(out_dtype)
+
+        # Get intermediate workspace shapes based off the chunked M size.
+        workspace13_shape, workspace2_shape, _ = self.fused_experts.workspace_shapes(
+            M_chunk,
+            N,
+            K,
+            top_k,
+            global_num_experts,
+            local_num_experts,
+            expert_tokens_meta,
+        )
+
+        # Get final output shape based on the full M size.
+        _, _, fused_out_shape = self.fused_experts.workspace_shapes(
+            M_full,
+            N,
+            K,
+            top_k,
+            global_num_experts,
+            local_num_experts,
+            expert_tokens_meta,
+        )
+
+        # We can reuse the memory between cache1 and cache3 because by the
+        # time we need cache3, we're done with cache1.
+        workspace13 = buffers.workspace13.get(
+            workspace13_shape, device=device, dtype=workspace_dtype
+        )
+        workspace2 = buffers.workspace2.get(
+            workspace2_shape, device=device, dtype=workspace_dtype
+        )
+
+        # Construct the entire output that can then be processed in chunks.
+        # Reuse workspace13 for the output in the non-chunked case as long
+        # as it is large enough. This will not always be the case for standard
+        # format experts and with experts that have empty workspaces.
+        if num_chunks == 1 and prod(workspace13_shape) >= prod(fused_out_shape):
+            fused_out = _resize_cache(workspace13, fused_out_shape)
+        else:
+            fused_out = buffers.fused_out.get(
+                fused_out_shape, device=device, dtype=out_dtype
+            )
+
+        return workspace13, workspace2, fused_out
+
+    @staticmethod
+    def _slice_output_tensor(
+        fused_out: torch.Tensor,
+        chunk_idx: int,
+        num_chunks: int,
+        CHUNK_SIZE: int,
+        M: int,
+    ) -> torch.Tensor:
+        if num_chunks == 1:
+            return fused_out
+
+        assert fused_out.size(0) % M == 0, f"fused_out shape {fused_out.shape} vs M {M}"
+        factor = fused_out.size(0) // M
+        out_chunk_size = CHUNK_SIZE * factor
+        s = chunk_idx * out_chunk_size
+        e = min(s + out_chunk_size, fused_out.size(0))
+        return fused_out[s:e]
+
+    @staticmethod
+    def _slice_expert_tokens_metadata(
+        num_chunks: int,
+        full_expert_tokens_meta: ExpertTokensMetadata | None,
+        chunk_topk_ids: torch.Tensor,
+        local_num_experts: int,
+        expert_map: torch.Tensor | None,
+    ) -> ExpertTokensMetadata | None:
+        if num_chunks == 1 or full_expert_tokens_meta is None:
+            return full_expert_tokens_meta
+
+        # The existing expert_num_tokens is for the entire a1q
+        # input. Chunking forces recomputation of the number
+        # of tokens assigned to each expert.
+        c_expert_num_tokens = count_expert_num_tokens(
+            chunk_topk_ids, local_num_experts, expert_map
+        )
+
+        c_expert_num_tokens_cpu = None
+        need_expert_num_tokens_cpu = (
+            full_expert_tokens_meta.expert_num_tokens_cpu is not None
+        )
+        if need_expert_num_tokens_cpu:
+            # This is blocking as some implementations need the count
+            # on the CPU to determine appropriate input/out fused-moe
+            # buffers
+            c_expert_num_tokens_cpu = c_expert_num_tokens.to("cpu", non_blocking=False)
+
+        return ExpertTokensMetadata(
+            expert_num_tokens=c_expert_num_tokens,
+            expert_num_tokens_cpu=c_expert_num_tokens_cpu,
+        )
+
+    def _prepare(
+        self,
+        hidden_states: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+    ) -> tuple[
+        torch.Tensor,
+        torch.Tensor | None,
+        ExpertTokensMetadata | None,
+        torch.Tensor,
+        torch.Tensor,
+    ]:
+        """
+        The _prepare method is a wrapper around self.prepare_finalize.prepare
+        that handles DBO and async.
+        """
+        if not self.prepare_finalize.supports_async():
+            # We shouldn't be running an a2a kernel that doesn't
+            # support async prepare/finalize
+            # TODO(lucas): enable in follow-up
+            assert not dbo_enabled()
+
+            (
+                a1q,
+                a1q_scale,
+                expert_tokens_meta,
+                _expert_topk_ids,
+                _expert_topk_weights,
+            ) = self.prepare_finalize.prepare(
+                hidden_states,
+                topk_weights,
+                topk_ids,
+                global_num_experts,
+                expert_map,
+                apply_router_weight_on_input,
+                self.fused_experts.quant_config,
+            )
+        else:
+            # Overlap shared expert compute with all2all dispatch.
+            dbo_maybe_run_recv_hook()
+            prepare_ret = self.prepare_finalize.prepare_async(
+                hidden_states,
+                topk_weights,
+                topk_ids,
+                global_num_experts,
+                expert_map,
+                apply_router_weight_on_input,
+                self.fused_experts.quant_config,
+            )
+
+            # TODO(lucas): refactor this in the alternative schedules followup
+            # currently unpack if we have hook + receiver pair or just
+            # receiver (see finalize_async docstring)
+            hook, receiver = (
+                prepare_ret if isinstance(prepare_ret, tuple) else (None, prepare_ret)
+            )
+
+            if hook is not None:
+                if dbo_enabled():
+                    # If DBO is being used, register the hook with the ubatch
+                    # context and call it in dbo_maybe_run_recv_hook instead of
+                    #  passing it to the receiver.
+                    dbo_register_recv_hook(hook)
+                    dbo_yield()
+                else:
+                    hook()
+
+            (
+                a1q,
+                a1q_scale,
+                expert_tokens_meta,
+                _expert_topk_ids,
+                _expert_topk_weights,
+            ) = receiver()
+
+        # Maybe prepare gathered topk_ids and topk_weights from other EP ranks.
+        topk_ids = topk_ids if _expert_topk_ids is None else _expert_topk_ids
+        topk_weights = (
+            topk_weights if _expert_topk_weights is None else _expert_topk_weights
+        )
+
+        return a1q, a1q_scale, expert_tokens_meta, topk_ids, topk_weights
+
+    def _fused_experts(
+        self,
+        in_dtype: torch.dtype,
+        a1q: torch.Tensor,
+        a1q_scale: torch.Tensor | None,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        expert_tokens_meta: ExpertTokensMetadata | None,
+    ) -> torch.Tensor:
+        _, M_full, N, K, top_k = self.fused_experts.moe_problem_size(
+            a1q, w1, w2, topk_ids
+        )
+
+        num_chunks, CHUNK_SIZE = self._chunk_info(M_full)
+
+        def input_chunk_range(chunk_idx: int) -> tuple[int, int]:
+            if num_chunks == 1:
+                # Use a1q.size(0) here since batched format does not
+                # keep M in the first dimension.
+                return 0, a1q.size(0)
+            else:
+                s = chunk_idx * CHUNK_SIZE
+                e = min(s + CHUNK_SIZE, M_full)
+                return s, e
+
+        # This happens when none of the tokens from the all2all reach this
+        # EP rank. Also, note that this is only relevant for CUDAGraph
+        # incompatible all2all kernels like the DeepEP high-throughput
+        # kernels. CUDAGraph compatible all2all kernels like the pplx
+        # kernels and the DeepEP low-latency kernels are always batched
+        # and can never run into the tensor.numel() == 0 case.
+        if M_full == 0:
+            assert num_chunks == 0
+            workspace13 = None
+            workspace2 = None
+            fused_out = torch.empty_like(a1q, dtype=in_dtype)
+        else:
+            assert num_chunks > 0
+            workspace13, workspace2, fused_out = self._allocate_buffers(
+                in_dtype,
+                a1q.device,
+                CHUNK_SIZE,
+                M_full,
+                N,
+                K,
+                top_k,
+                global_num_experts,
+                local_num_experts,
+                expert_tokens_meta,
+            )
+
+        for chunk_idx in range(num_chunks):
+            s, e = input_chunk_range(chunk_idx)
+
+            c_expert_tokens_meta = self._slice_expert_tokens_metadata(
+                num_chunks,
+                expert_tokens_meta,
+                topk_ids[s:e],
+                local_num_experts,
+                expert_map,
+            )
+
+            c_fused_out = self._slice_output_tensor(
+                fused_out, chunk_idx, num_chunks, CHUNK_SIZE, M_full
+            )
+
+            self.fused_experts.apply(
+                output=c_fused_out,
+                hidden_states=a1q[s:e],
+                w1=w1,
+                w2=w2,
+                topk_weights=topk_weights[s:e],
+                topk_ids=topk_ids[s:e],
+                activation=activation,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                a1q_scale=_slice_scales(a1q_scale, s, e),
+                a2_scale=_slice_scales(self.fused_experts.a2_scale, s, e),
+                workspace13=workspace13,
+                workspace2=workspace2,
+                expert_tokens_meta=c_expert_tokens_meta,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+
+        return fused_out
+
+    def _finalize(
+        self,
+        output: torch.Tensor,
+        fused_out: torch.Tensor,
+        hidden_states: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """
+        The _finalize method is a wrapper around self.prepare_finalize.finalize
+        that handles DBO, async and shared expert overlap.
+        """
+        shared_output: torch.Tensor | None = None
+
+        if not self.prepare_finalize.supports_async():
+            assert not dbo_enabled()
+
+            self.prepare_finalize.finalize(
+                output,
+                fused_out,
+                topk_weights,
+                topk_ids,
+                apply_router_weight_on_input,
+                self.fused_experts.finalize_weight_and_reduce_impl(),
+            )
+            if self.shared_experts is not None:
+                shared_output = self.shared_experts(hidden_states)
+        else:
+            finalize_ret = self.prepare_finalize.finalize_async(
+                output,
+                fused_out,
+                topk_weights,
+                topk_ids,
+                apply_router_weight_on_input,
+                self.fused_experts.finalize_weight_and_reduce_impl(),
+            )
+
+            if self.shared_experts is not None:
+                shared_output = self.shared_experts(hidden_states)
+
+            # TODO(lucas): refactor this in the alternative schedules followup
+            # currently unpack if we have hook + receiver pair or just
+            # receiver (see finalize_async docstring)
+            hook, receiver = (
+                finalize_ret
+                if isinstance(finalize_ret, tuple)
+                else (None, finalize_ret)
+            )
+
+            if hook is not None:
+                if dbo_enabled():
+                    # If DBO is being used, register the hook with the ubatch
+                    # context and call it in dbo_maybe_run_recv_hook instead of
+                    #  passing it to the receiver.
+                    dbo_register_recv_hook(hook)
+                    dbo_yield()
+                else:
+                    hook()
+
+            receiver()
+
+        if self.shared_experts is None:
+            return output
+        else:
+            assert shared_output is not None
+            return shared_output, output
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        inplace: bool = False,
+        activation: str = "silu",
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """
+        This function computes a Mixture of Experts (MoE) layer using two sets
+        of weights, w1 and w2, and top-k gating mechanism.
+
+        Parameters:
+        - hidden_states: (torch.Tensor): The input tensor to the MoE layer.
+        - w1 (torch.Tensor): The first set of expert weights.
+        - w2 (torch.Tensor): The second set of expert weights.
+        - topk_weights (torch.Tensor): The topk weights applied at the end of
+          the layer.
+        - topk_ids (torch.Tensor): A map of row to expert id.
+        - inplace (bool): If True, perform the operation in-place.
+          Defaults to False.
+        - activation (str): The activation function to apply after the first
+          MoE layer.
+        - global_num_experts (int): The total number of experts in the global
+          expert space.
+        - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+          from the global expert space to the local expert space of the expert
+          parallel shard.
+        - apply_router_weight_on_input (bool): When true, the topk weights are
+          applied directly on the inputs. This is only applicable when topk is
+          1.
+
+        Returns:
+        - torch.Tensor: The output tensor after applying the MoE layer.
+        """
+
+        if inplace and self.shared_experts is None and not disable_inplace():
+            output = hidden_states
+        else:
+            output = torch.zeros_like(hidden_states)
+
+        local_num_experts = w1.size(0)
+        if global_num_experts == -1:
+            global_num_experts = local_num_experts
+
+        a1q, a1q_scale, expert_tokens_meta, topk_ids, topk_weights = self._prepare(
+            hidden_states,
+            topk_weights,
+            topk_ids,
+            global_num_experts,
+            expert_map,
+            apply_router_weight_on_input,
+        )
+
+        fused_out = self._fused_experts(
+            in_dtype=hidden_states.dtype,
+            a1q=a1q,
+            a1q_scale=a1q_scale,
+            w1=w1,
+            w2=w2,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            local_num_experts=local_num_experts,
+            expert_map=expert_map,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            expert_tokens_meta=expert_tokens_meta,
+        )
+
+        return self._finalize(
+            output,
+            fused_out,
+            hidden_states,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+        )
diff --git a/model_executor/layers/fused_moe/moe_align_block_size.py b/model_executor/layers/fused_moe/moe_align_block_size.py
new file mode 100644
index 0000000..7f61559
--- /dev/null
+++ b/model_executor/layers/fused_moe/moe_align_block_size.py
@@ -0,0 +1,174 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.triton_utils import triton
+from vllm.utils.math_utils import round_up
+
+
+def moe_align_block_size(
+    topk_ids: torch.Tensor,
+    block_size: int,
+    num_experts: int,
+    expert_map: torch.Tensor | None = None,
+    pad_sorted_ids: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Aligns the token distribution across experts to be compatible with block
+    size for matrix multiplication.
+
+    Note: In the case of expert_parallel, moe_align_block_size initially
+    considers all experts as valid and aligns all tokens appropriately.
+    Before the function returns it marks the experts_ids that are not in
+    the current GPU rank as -1 so the MoE matmuls could skip those blocks.
+    This requires the num_experts input arg to be the num global experts.
+
+    Parameters:
+    - topk_ids: A tensor of shape [total_tokens, top_k] representing the
+        top-k expert indices for each token.
+    - block_size: The block size used in block matrix multiplication.
+    - num_experts: The total number of experts.
+    - expert_map: A tensor of shape [num_experts] that maps the expert index
+        from the global space to the local index space of the current
+        expert parallel shard. If the expert is not in the current expert
+        parallel shard, the mapping is set to -1.
+    - pad_sorted_ids: A flag indicating whether the sorted_token_ids length
+      should be padded to a multiple of block_size,
+
+    Returns:
+    - sorted_token_ids: A tensor containing the sorted token indices according
+        to their allocated expert.
+    - expert_ids: A tensor indicating the assigned expert index for each block.
+    - num_tokens_post_padded: The total number of tokens after padding,
+        ensuring divisibility by block_size.
+
+    This function pads the number of tokens that each expert needs to process
+    so that it is divisible by block_size.
+    Padding ensures that during block matrix multiplication, the dimensions
+    align correctly.
+
+    Example:
+    Given topk_ids = [[2, 3, 4], [1, 2, 4], [1, 3, 4], [1, 2, 3]],
+    block_size = 4, and num_experts = 4:
+    - We initially have 12 tokens (after repeating 'top_k' times) and 4 experts,
+        with each expert needing to process 3 tokens.
+    - As block_size is 4, we pad 1 token for each expert.
+    - First, flatten topk_ids to [2, 3, 4, 1, 2, 4, 1, 3, 4, 1, 2, 3].
+    - Then append padding tokens [12, 12, 12, 12] for each block.
+    - After sorting by expert index, we obtain token_ids
+        [3, 6, 9, 12, 0, 4, 10, 12, 1, 7, 11, 12, 2, 5, 8, 12].
+        Tokens 12 are non-existent (padding) and are ignored in
+        the subsequent matrix multiplication.
+    - The padding ensures that the total number of tokens is now divisible
+        by block_size for proper block matrix operations.
+    """
+    max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
+    if pad_sorted_ids:
+        max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
+    sorted_ids = torch.empty(
+        (max_num_tokens_padded,), dtype=torch.int32, device=topk_ids.device
+    )
+    max_num_m_blocks = triton.cdiv(max_num_tokens_padded, block_size)
+    expert_ids = torch.empty(
+        (max_num_m_blocks,), dtype=torch.int32, device=topk_ids.device
+    )
+    num_tokens_post_pad = torch.empty((1), dtype=torch.int32, device=topk_ids.device)
+
+    ops.moe_align_block_size(
+        topk_ids, num_experts, block_size, sorted_ids, expert_ids, num_tokens_post_pad
+    )
+    if expert_map is not None:
+        expert_ids = expert_map[expert_ids]
+
+    return sorted_ids, expert_ids, num_tokens_post_pad
+
+
+def batched_moe_align_block_size(
+    max_tokens_per_batch: int, block_size: int, expert_num_tokens: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Given num_batches, max_tokens_per_batch, block_size and the number of
+    valid-tokens in each batch, prepare sorted_token_ids, expert_ids and
+    num_tokens_post_pad. sorted_token_ids, expert_ids and num_tokens_post_pad
+    have the same semantics as in moe_align_block_size.
+
+    This function is intended to be a drop in replacement for
+    moe_align_batch_size for the batched case.
+
+    Parameters:
+    - max_tokens_per_batch (int): Number of tokens in each batch (both
+        valid and invalid).
+    - block_size (int): block_size to align the data to.
+    - expert_num_tokens (torch.Tensor): expert_num_tokens[i], indicates
+        the number of valid tokens in batch i.
+
+    Returns:
+    - sorted_token_ids (torch.Tensor): Torch tensor of size
+        (num_batches * max_tokens_per_batch) indicating the token indices for
+        that block.
+    - expert_ids (torch.Tensor): Torch tensor of size
+        ceil((num_batches * max_tokens_per_batch) / block_size) indicating
+        what expert to use for each block.
+    - num_tokens_post_pad (torch.Tensor): Torch tensor of size 1
+        indicating the number of valid blocks with actual data to
+        process. This is represented in terms of num tokens.
+    Example:
+    Let num_batches=5, max_tokens_per_batch=8, block_size=4, and
+    expert_num_tokens=[2, 3, 0, 6, 8]. This expert_num_tokens tensor
+    indicates that,
+     - The first 2 tokens in the 0th batch are valid and the rest 6 are
+     invalid (i.e. in the 2D hidden_states tensor of shape,
+     [num_batches * max_tokens_per_batch, K], indices 0, 1 are valid)
+     - The first 3 tokens in the 1st batch are valid. i.e. indices 8, 9, 10
+     - 0 tokens in the 2nd batch are valid
+     - first 6 tokens in the  3rd batch are valid. i.e. indices,
+     24, 25, 26, 27, 28, 29
+     - so on ...
+
+     In this case,
+      sorted_token_ids will be [0, 1, 40, 40,
+                                8, 9, 10, 40,
+                                24, 25, 26, 27,
+                                28, 29, 40, 40,
+                                32, 33, 34, 35,
+                                36, 37, 38, 39,
+                                40, 40, 40, 40,
+                                (rest all 40, 40, 40, 40)
+                                ...]
+      Here, 40 represents an invalid index. as there is no token index 40.
+      The gemm kernel using this sorted_token_ids is expected to skip the
+      gemm computation when it encounters this invalid index.
+
+      expert_ids will be [0, 1, 3, 3, 4, 5, 5, -1, -1, (rest all -1) ...]
+      Here, -1 represents an invalid expert. The gemm kernel using this
+      expert_ids is expected to skip the gemm computation when it encounters
+      an expert of id -1.
+
+      num_tokens_post_pad will be 24 as sorted_token_ids has valid entries
+      until 24.
+    """
+
+    B = expert_num_tokens.size(0)
+    device = expert_num_tokens.device
+
+    # Round up so each batch can be split to blocks evenly.
+    max_num_tokens_padded = B * round_up(max_tokens_per_batch, block_size)
+
+    sorted_ids = torch.empty((max_num_tokens_padded,), dtype=torch.int32, device=device)
+    assert max_num_tokens_padded % block_size == 0
+    max_num_m_blocks = max_num_tokens_padded // block_size
+    expert_ids = torch.empty((max_num_m_blocks,), dtype=torch.int32, device=device)
+    num_tokens_post_pad = torch.empty((1), dtype=torch.int32, device=device)
+
+    ops.batched_moe_align_block_size(
+        max_tokens_per_batch,
+        block_size,
+        expert_num_tokens,
+        sorted_ids,
+        expert_ids,
+        num_tokens_post_pad,
+    )
+
+    return sorted_ids, expert_ids, num_tokens_post_pad
diff --git a/model_executor/layers/fused_moe/moe_pallas.py b/model_executor/layers/fused_moe/moe_pallas.py
new file mode 100644
index 0000000..66c00cf
--- /dev/null
+++ b/model_executor/layers/fused_moe/moe_pallas.py
@@ -0,0 +1,83 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import torch.nn.functional as F
+
+
+def _histogram(input: torch.Tensor, min: int, max: int) -> torch.Tensor:
+    """
+    Compute the histogram of an int32 tensor. The bin edges are defined by the
+    min and max values, with step = 1.
+    """
+    assert input.dtype == torch.int32, "input must be of torch.int32 dtype."
+    assert min <= max, "min must be less than or equal to max."
+
+    def searchsorted(
+        sorted_sequence: torch.Tensor, values_to_search: torch.Tensor
+    ) -> torch.Tensor:
+        return (sorted_sequence.unsqueeze(1) == values_to_search).sum(dim=1)
+
+    bin_edges = torch.linspace(min, max, max - min + 1, dtype=input.dtype).to(
+        input.device
+    )
+    return searchsorted(bin_edges, input).to(torch.int32)
+
+
+def fused_moe(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    global_num_experts: int,
+    expert_map: torch.Tensor = None,
+    renormalize: bool = False,
+) -> torch.Tensor:
+    """
+    Args:
+        hidden_states: [*, hidden_size]
+        w1: [num_experts, intermediate_size * 2, hidden_size]
+        w2: [num_experts, hidden_size, intermediate_size]
+        gating_output: [*, num_experts]
+    """
+    assert expert_map is None, "expert_map is not supported for pallas MoE."
+    import torch_xla.experimental.custom_kernel  # noqa: F401
+
+    orig_shape = hidden_states.shape
+    hidden_size = hidden_states.shape[-1]
+    num_tokens = hidden_states.shape[:-1].numel()
+    num_experts = w1.shape[0]
+    intermediate_size = w2.shape[-1]
+    device = hidden_states.device
+    dtype = hidden_states.dtype
+    assert (num_tokens * topk) % 16 == 0, (
+        "The Pallas GMM kernel requires num_tokens * topk to be a multiple of "
+        f"16 but got {num_tokens * topk}"
+    )
+
+    hidden_states = hidden_states.view(num_tokens, hidden_size)
+    gating_output = gating_output.view(num_tokens, num_experts)
+    topk_weights = gating_output.softmax(dim=-1, dtype=torch.float)
+    topk_weights, topk_indices = topk_weights.topk(topk, dim=-1)
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+    topk_weights = topk_weights.to(dtype)
+
+    topk_indices = topk_indices.flatten()
+    topk_argsort_indices = topk_indices.argsort()
+    topk_argsort_revert_indices = topk_argsort_indices.argsort()
+    token_indices = torch.arange(num_tokens, device=device).repeat_interleave(topk)
+    token_indices = token_indices[topk_argsort_indices]
+    group_sizes = _histogram(topk_indices.to(torch.int32), 0, num_experts - 1)
+
+    x = hidden_states[token_indices]
+    x = torch.ops.xla.gmm(x, w1, group_sizes, transpose_rhs=True)
+    x = F.silu(x[..., :intermediate_size]) * x[..., intermediate_size:]
+    x = torch.ops.xla.gmm(x, w2, group_sizes, transpose_rhs=True)
+    x = x[topk_argsort_revert_indices].reshape(-1, topk, hidden_size)
+
+    x = x * topk_weights.unsqueeze(dim=-1)
+    x = x.sum(dim=-2)
+    x = x.reshape(orig_shape)
+    return x
diff --git a/model_executor/layers/fused_moe/moe_permute_unpermute.py b/model_executor/layers/fused_moe/moe_permute_unpermute.py
new file mode 100644
index 0000000..9dcdcc3
--- /dev/null
+++ b/model_executor/layers/fused_moe/moe_permute_unpermute.py
@@ -0,0 +1,229 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
+    moe_align_block_size,
+)
+from vllm.model_executor.layers.fused_moe.utils import _fp8_perm
+
+
+def _moe_permute(
+    curr_hidden_states: torch.Tensor,
+    a1q_scale: torch.Tensor | None,
+    curr_topk_ids: torch.Tensor,
+    global_num_experts: int,
+    expert_map: torch.Tensor | None,
+    block_m: int,
+) -> tuple[torch.Tensor, torch.Tensor | None, torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Determine the sorted_token_ids, expert_ids for the given problem size.
+    Permute the hidden states and scales according to `sorted_token_ids`.
+    """
+    top_k_num = curr_topk_ids.size(1)
+
+    tokens_in_chunk = curr_hidden_states.size(0)
+
+    sorted_token_ids, expert_ids, num_tokens_post_padded = moe_align_block_size(
+        curr_topk_ids, block_m, global_num_experts, expert_map, pad_sorted_ids=True
+    )
+
+    inv_perm: torch.Tensor | None = None
+
+    num_tokens = top_k_num * tokens_in_chunk
+    expert_ids = torch.repeat_interleave(expert_ids, block_m, dim=0)
+    inv_perm = torch.argsort(sorted_token_ids)[:num_tokens]
+
+    # Permute according to sorted token ids.
+    sorted_token_ids = sorted_token_ids.clamp(max=num_tokens - 1)
+
+    curr_hidden_states = _fp8_perm(curr_hidden_states, sorted_token_ids // top_k_num)
+
+    if a1q_scale is not None:
+        a1q_scale = a1q_scale[sorted_token_ids // top_k_num]
+
+    return (curr_hidden_states, a1q_scale, sorted_token_ids, expert_ids, inv_perm)
+
+
+def _moe_unpermute_and_reduce(
+    out: torch.Tensor,
+    curr_hidden: torch.Tensor,
+    inv_perm: torch.Tensor | None,
+    topk_weight: torch.Tensor,
+    apply_router_weight_on_input: bool,
+) -> None:
+    """
+    Unpermute the final result and apply topk_weights, then perform the final
+    reduction on the hidden states.
+    """
+    M, topk = topk_weight.size()
+    K = curr_hidden.size(-1)
+    if inv_perm is not None:
+        curr_hidden = curr_hidden[inv_perm, ...]
+    curr_hidden = curr_hidden.view(-1, topk, K)
+    if not apply_router_weight_on_input:
+        curr_hidden.mul_(topk_weight.view(M, -1, 1))
+    ops.moe_sum(curr_hidden, out)
+
+
+def moe_permute(
+    hidden_states: torch.Tensor,
+    a1q_scale: torch.Tensor | None,
+    topk_ids: torch.Tensor,
+    n_expert: int,
+    n_local_expert: int = -1,
+    expert_map: torch.Tensor | None = None,
+    align_block_size: int | None = None,
+    fill_invalid_expert: int = -1,
+    permuted_hidden_states: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor | None, torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    This function expands and permutes activation to gather uncontinuous tokens
+      for each expert.
+    Parameters:
+    - hidden_states (torch.Tensor): The input tensor to the MoE layer.
+    - a1q_scale (Optional[torch.Tensor]): quant scale for hidden_states
+    - topk_ids (torch.Tensor): topk expert route id for each token.
+    - n_expert (int): The number of expert.
+    - n_local_expert (int): The number of expert in current EP rank.
+    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+        from the global expert space to the local expert space of the expert
+        parallel shard.
+    - align_block_size (Optional[int]): align group gemm block size for deepgemm
+    - fill_invalid_expert(int): fill expert id in m_indices for invalid expert
+      to workaround DeepGemm unsupported -1 in m_indices
+    - permuted_hidden_states (Optional[torch.Tensor]): Optional output tensor.
+        If None, the output tensor will be created in this function.
+    Returns:
+    - permuted_hidden_states (torch.Tensor): permuted activation.
+    - a1q_scale (Optional[torch.Tensor]): permuted quant scale for hidden_states
+        if original scale not per-tensor scaling
+    - expert_first_token_offset (torch.Tensor): offset of the first token
+       of each expert for standard grouped gemm. if enable 'align_block_size'
+       expert_first_token_offset will align up to 'align_block_size'.
+    - inv_permuted_idx (torch.Tensor): idx map for moe_unpermute.
+    - permuted_idx (torch.Tensor): idx map from hidden to permuted_hidden.
+    - m_indices: m_indices for grouped gemm in deepgemm,`m_indices[i]` records
+    the group which the j-th row of the LHS belong to.`
+    """
+    n_token, n_hidden = hidden_states.size()
+    topk = topk_ids.size(1)
+    assert (n_hidden * hidden_states.element_size()) % 16 == 0, (
+        "permue kernel need hidden dim align to 16B"
+    )
+    permuted_row_size = n_token * topk
+    if align_block_size is not None:
+        permuted_row_size = (
+            (
+                permuted_row_size
+                + n_expert * (align_block_size - 1)
+                + align_block_size
+                - 1
+            )
+            // align_block_size
+            * align_block_size
+        )
+    if n_local_expert == -1:
+        n_local_expert = n_expert
+    if permuted_hidden_states is None:
+        permuted_hidden_states = torch.empty(
+            (permuted_row_size, n_hidden),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+    assert permuted_hidden_states.size() == (permuted_row_size, n_hidden), (
+        f"Expected permuted hidden states to be {(permuted_row_size, n_hidden)}"
+        f" but got {permuted_hidden_states.size()}"
+    )
+
+    token_expert_indices = torch.arange(
+        0, n_token * topk, dtype=torch.int32, device=hidden_states.device
+    ).reshape((n_token, topk))
+
+    m_indices = torch.full(
+        (permuted_row_size,),
+        fill_invalid_expert,
+        dtype=torch.int32,
+        device=hidden_states.device,
+    )
+    expert_first_token_offset = torch.empty(
+        n_local_expert + 1, dtype=torch.int64, device=hidden_states.device
+    )
+    permuted_idx = torch.full(
+        (permuted_row_size,),
+        n_token * topk,
+        dtype=torch.int32,
+        device=hidden_states.device,
+    )
+    inv_permuted_idx = torch.empty(
+        (n_token, topk), dtype=torch.int32, device=hidden_states.device
+    )
+    topk_ids = topk_ids.to(torch.int32)
+    torch.ops._moe_C.moe_permute(
+        hidden_states,
+        topk_ids,
+        token_expert_indices,
+        expert_map,
+        n_expert,
+        n_local_expert,
+        topk,
+        align_block_size,
+        permuted_hidden_states,
+        expert_first_token_offset,
+        inv_permuted_idx,
+        permuted_idx,
+        m_indices,
+    )
+
+    if a1q_scale is not None and a1q_scale.dim() > 1:
+        a1q_scale = a1q_scale[permuted_idx.clamp(max=n_token * topk - 1) // topk]
+    return (
+        permuted_hidden_states,
+        a1q_scale,
+        expert_first_token_offset,
+        inv_permuted_idx.flatten(),
+        m_indices,
+    )
+
+
+def moe_unpermute(
+    out: torch.Tensor,
+    permuted_hidden_states: torch.Tensor,
+    topk_weights: torch.Tensor,
+    inv_permuted_idx: torch.Tensor,
+    expert_first_token_offset: torch.Tensor | None = None,
+) -> None:
+    """
+    This function expands and permutes activation to gathering uncontinuous
+      tokens for each expert.
+    Parameters:
+    - out (torch.Tensor): output tensor
+    - permuted_hidden_states (torch.Tensor): permuted activation.
+    - topk_weights (torch.Tensor): topk expert route weight for each token.
+    - inv_permuted_idx (torch.Tensor): row idx map for moe_unpermute.
+    - expert_first_token_offset (Optional[torch.Tensor]): offset of the first
+      token of each expert for grouped gemm.
+    Returns:
+    - hidden_states (torch.Tensor): The reduced and unpermuted activation
+      tensor.
+    """
+    topk = topk_weights.size(1)
+    n_hidden = permuted_hidden_states.size(-1)
+    assert (n_hidden * permuted_hidden_states.element_size()) % 16 == 0, (
+        "unpermue kernel need hidden dim align to 16B"
+    )
+
+    torch.ops._moe_C.moe_unpermute(
+        permuted_hidden_states,
+        topk_weights,
+        inv_permuted_idx,
+        expert_first_token_offset,
+        topk,
+        out,
+    )
+
+
+def moe_permute_unpermute_supported():
+    return torch.ops._moe_C.moe_permute_unpermute_supported()
diff --git a/model_executor/layers/fused_moe/moe_torch_iterative.py b/model_executor/layers/fused_moe/moe_torch_iterative.py
new file mode 100644
index 0000000..f721d00
--- /dev/null
+++ b/model_executor/layers/fused_moe/moe_torch_iterative.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import torch.nn.functional as F
+
+
+def fused_moe(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    global_num_experts: int,
+    expert_map: torch.Tensor = None,
+    renormalize: bool = False,
+) -> torch.Tensor:
+    """
+    Args:
+        hidden_states: [*, hidden_size]
+        w1: [num_experts, intermediate_size * 2, hidden_size]
+        w2: [num_experts, hidden_size, intermediate_size]
+        gating_output: [*, num_experts]
+        expert_map: [num_experts]
+    """
+    orig_shape = hidden_states.shape
+    hidden_size = hidden_states.shape[-1]
+    num_tokens = hidden_states.shape[:-1].numel()
+    num_experts = w1.shape[0]
+    intermediate_size = w2.shape[-1]
+    dtype = hidden_states.dtype
+
+    hidden_states = hidden_states.view(num_tokens, hidden_size)
+    gating_output = gating_output.view(num_tokens, global_num_experts)
+    topk_weights = gating_output.softmax(dim=-1, dtype=torch.float)
+    topk_weights, selected_experts = topk_weights.topk(topk, dim=-1)
+    if renormalize:
+        topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)
+    topk_weights = topk_weights.to(dtype)
+
+    if expert_map is not None:
+        selected_experts = expert_map[selected_experts]
+
+    final_hidden_states = None
+    for expert_idx in range(num_experts):
+        expert_w1 = w1[expert_idx]
+        expert_w2 = w2[expert_idx]
+        expert_mask = selected_experts == expert_idx
+        expert_weights = (topk_weights * expert_mask).sum(dim=-1, keepdim=True)
+        x = F.linear(hidden_states, expert_w1)
+        gate = F.silu(x[:, :intermediate_size])
+        x = x[:, intermediate_size:] * gate
+        x = F.linear(x, expert_w2)
+        current_hidden_states = x * expert_weights
+        if final_hidden_states is None:
+            final_hidden_states = current_hidden_states
+        else:
+            final_hidden_states = final_hidden_states + current_hidden_states
+
+    return final_hidden_states.view(orig_shape)  # type: ignore
diff --git a/model_executor/layers/fused_moe/pplx_prepare_finalize.py b/model_executor/layers/fused_moe/pplx_prepare_finalize.py
new file mode 100644
index 0000000..2766a2c
--- /dev/null
+++ b/model_executor/layers/fused_moe/pplx_prepare_finalize.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import pplx_kernels as pplx
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceDelegate,
+)
+from vllm.model_executor.layers.fused_moe.utils import (
+    _validate_scale_shape,
+    moe_kernel_quantize_input,
+)
+from vllm.utils.math_utils import cdiv, round_up
+
+logger = init_logger(__name__)
+
+
+def pplx_hidden_dim_scale_bytes(
+    max_num_tokens: int,
+    hidden_dim: int,
+    in_dtype: torch.dtype,
+    quant_dtype: torch.dtype | str | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None,
+):
+    # All pplx byte sizes must be 16-byte aligned.
+    align = 16
+
+    # For blocked per token: set to
+    #   ceil_div(hidden_dim, block_size) * sizeof(float32)
+    # For per-token: set to 4 * sizeof(float32) (x4 for alignment)
+    if quant_dtype is not None:
+        assert isinstance(quant_dtype, torch.dtype)
+        assert quant_dtype.itemsize == 1
+        hidden_dim_bytes = hidden_dim * quant_dtype.itemsize
+        elem_size = torch.float32.itemsize
+
+        if per_act_token_quant:
+            # per-token (M x 1)
+            assert block_shape is None
+            hidden_scale_bytes = elem_size
+        elif block_shape is not None:
+            # per-group (M x K_tiles)
+            block_size = block_shape[1]
+            num_blocks = cdiv(hidden_dim, block_size)
+            hidden_scale_bytes = num_blocks * elem_size
+        else:
+            # per-tensor (1 x 1)
+            hidden_scale_bytes = elem_size
+    else:
+        hidden_dim_bytes = hidden_dim * in_dtype.itemsize
+        hidden_scale_bytes = 0
+
+    return (
+        round_up(hidden_dim_bytes, align),
+        round_up(hidden_scale_bytes, align),
+    )
+
+
+class PplxPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    def __init__(
+        self,
+        a2a: pplx.AllToAll,
+        max_num_tokens: int,
+        num_local_experts: int,
+        num_dispatchers: int,
+    ):
+        super().__init__()
+        assert max_num_tokens > 0
+        assert num_local_experts > 0
+        self.a2a = a2a
+        self.max_num_tokens = max_num_tokens
+        self.num_local_experts = num_local_experts
+        self.num_dispatchers_ = num_dispatchers
+
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.BatchedExperts
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return self.max_num_tokens
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return torch.uint32
+
+    def num_dispatchers(self) -> int:
+        return self.num_dispatchers_
+
+    def output_is_reduced(self) -> bool:
+        return True
+
+    def supports_async(self) -> bool:
+        return True
+
+    def prepare_async(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> tuple[Callable, mk.ReceiverType]:
+        num_tokens = a1.size(0)  # M
+        hidden_dim = a1.size(-1)  # K
+
+        assert topk_ids.size(0) == num_tokens
+        # expert_map should be None because with expert map, -1 id is used for
+        # non-local token; this causes error when casting ids to the
+        # topk_indices_dtype() int32
+        #
+        if expert_map is not None:
+            logger.warning_once(
+                "The PPLX backend does not support expert mapping. "
+                "The provided `expert_map` will be ignored."
+            )
+        expert_map = None  # noqa: F841
+
+        # Is this always going to be a1.device?
+        device = a1.device
+
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1 = a1 * topk_weights.to(a1.dtype)
+
+        repeat_cols = 4
+        repeat_rows = 1 if quant_config.per_act_token_quant else a1.size(0)
+        # TODO(bnell): always pass quant_config.a1_scale?
+        a1q, a1q_scale = moe_kernel_quantize_input(
+            a1,
+            (None if quant_config.per_act_token_quant else quant_config.a1_scale),
+            quant_dtype=quant_config.quant_dtype,
+            per_act_token_quant=quant_config.per_act_token_quant,
+            block_shape=quant_config.block_shape,
+        )
+
+        _validate_scale_shape(
+            a1q, a1q_scale, quant_config.per_act_token_quant, quant_config.block_shape
+        )
+
+        orig_a_scale_block_shape: int | None = None
+
+        if a1q_scale is not None:
+            scalar_scales = a1q_scale.numel() == 1
+
+            # pplx requires 2-d scales even for scalar scales
+            if a1q_scale.dim() <= 1:
+                assert scalar_scales
+                a1q_scale = a1q_scale.view(1, 1)
+
+            orig_a_scale_block_shape = a1q_scale.shape[-1]
+
+            if not quant_config.is_block_quantized:
+                # TODO (bnell): use group_broadcast instead?
+                a1q_scale = a1q_scale.repeat(repeat_rows, repeat_cols)
+
+        assert a1q_scale is None or a1q_scale.ndim == 2, (
+            f"{0 if a1q_scale is None else (a1q_scale.ndim, a1q_scale.shape)}"
+        )
+
+        expert_num_tokens = torch.empty(
+            self.num_local_experts,
+            dtype=torch.int32,
+            device=device,
+        )
+
+        expert_x = torch.empty(
+            (
+                self.num_local_experts,
+                self.max_num_tokens * self.num_dispatchers(),
+                hidden_dim,
+            ),
+            dtype=a1q.dtype,
+            device=device,
+        )
+
+        expert_x_scale: torch.Tensor | None = None
+        if a1q.dtype.itemsize == 1:
+            if quant_config.is_per_act_token:
+                # (M x 1) -> (E x M x K)
+                final_dim = expert_x.size(2)
+            elif quant_config.is_per_tensor:
+                # (1 x 1) -> (E x 1 x 1)
+                final_dim = 1
+            else:
+                # (M x K_tiles) -> (E x M x K_tiles)
+                assert quant_config.block_shape is not None
+                num_blocks = cdiv(expert_x.size(2), quant_config.block_shape[1])
+                final_dim = num_blocks
+
+            expert_x_scale_shape = (
+                self.num_local_experts,
+                expert_x.size(1),
+                round_up(final_dim, 4),  # round up for alignment
+            )
+
+            expert_x_scale = torch.empty(
+                expert_x_scale_shape,
+                dtype=torch.float32,
+                device=expert_x.device,
+            )
+
+        # This argument is optional, defaults to indices.size(0)
+        # There's not much point setting this unless it is != indices.size(0)
+        bound_m: torch.Tensor | None = None
+
+        self.a2a.dispatch(
+            out_expert_num_tokens=expert_num_tokens,
+            out_expert_x=expert_x,
+            out_expert_x_scale=expert_x_scale,
+            dp_x=a1q,
+            dp_x_scale=a1q_scale,
+            indices=topk_ids,
+            bound_m=bound_m,
+            do_send=True,
+            do_recv=False,
+        )
+
+        hook = lambda: self.a2a.dispatch(
+            out_expert_num_tokens=expert_num_tokens,
+            out_expert_x=expert_x,
+            out_expert_x_scale=expert_x_scale,
+            dp_x=a1q,
+            dp_x_scale=a1q_scale,
+            indices=topk_ids,
+            bound_m=bound_m,
+            do_send=False,
+            do_recv=True,
+        )
+
+        return (
+            hook,
+            lambda: self._receiver(
+                expert_num_tokens,
+                expert_x,
+                expert_x_scale,
+                orig_a_scale_block_shape,
+            ),
+        )
+
+    def _receiver(
+        self,
+        expert_num_tokens: torch.Tensor,
+        expert_x: torch.Tensor,
+        expert_x_scale: torch.Tensor | None,
+        orig_a_scale_block_shape: int | None,
+    ) -> mk.PrepareResultType:
+        if expert_x_scale is not None:
+            expert_x_scale = expert_x_scale[:, :, :orig_a_scale_block_shape]
+            assert expert_x_scale.ndim == 3
+
+        expert_tokens_meta = mk.ExpertTokensMetadata(
+            expert_num_tokens=expert_num_tokens, expert_num_tokens_cpu=None
+        )
+
+        return expert_x, expert_x_scale, expert_tokens_meta, None, None
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        hook, receiver = self.prepare_async(
+            a1,
+            topk_weights,
+            topk_ids,
+            num_experts,
+            expert_map,
+            apply_router_weight_on_input,
+            quant_config,
+        )
+        hook()
+        return receiver()
+
+    def finalize_async(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> Callable:
+        assert isinstance(weight_and_reduce_impl, TopKWeightAndReduceDelegate), (
+            "Weight application and reduction happens in the combine kernel."
+        )
+
+        # This argument is optional
+        # There's not much point setting this unless it is != topk_ids.size(0)
+        bound_m: torch.Tensor | None = None
+
+        # TODO (bnell): fails in test_pplx_moe.py, figure out what's going on
+        # num_tokens = output.size(0)  # M
+        # assert topk_ids.size(0) == num_tokens, (
+        #    f"{topk_ids.size(0)} == {num_tokens}")
+        assert topk_ids.size() == topk_weights.size(), (
+            f"{topk_ids.size()} == {topk_weights.size()}"
+        )
+        assert output.size(0) <= self.max_num_tokens, (
+            f"{output.size(0)} <= {self.max_num_tokens}"
+        )
+        assert output.size(1) == fused_expert_output.size(-1)
+
+        # Set weights to 1 if we did them in dispatch. This is hacky.
+        if apply_router_weight_on_input:
+            topk_weights = torch.ones_like(topk_weights)
+
+        topk_ids_u32 = topk_ids.view(dtype=torch.uint32)
+
+        self.a2a.combine(
+            out_tokens=output,
+            indices=topk_ids_u32,
+            weights=topk_weights,
+            expert_y=fused_expert_output,
+            bound_m=bound_m,
+            do_send=True,
+            do_recv=False,
+        )
+
+        return lambda: self.a2a.combine(
+            out_tokens=output,
+            indices=topk_ids_u32,
+            weights=topk_weights,
+            expert_y=fused_expert_output,
+            bound_m=bound_m,
+            do_send=False,
+            do_recv=True,
+        )
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        receiver = self.finalize_async(
+            output,
+            fused_expert_output,
+            topk_weights,
+            topk_ids,
+            apply_router_weight_on_input,
+            weight_and_reduce_impl,
+        )
+        receiver()
diff --git a/model_executor/layers/fused_moe/prepare_finalize.py b/model_executor/layers/fused_moe/prepare_finalize.py
new file mode 100644
index 0000000..9bb976f
--- /dev/null
+++ b/model_executor/layers/fused_moe/prepare_finalize.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceContiguous,
+    TopKWeightAndReduceDelegate,
+)
+from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
+
+
+class MoEPrepareAndFinalizeNoEP(mk.FusedMoEPrepareAndFinalize):
+    @property
+    def activation_format(self) -> mk.FusedMoEActivationFormat:
+        return mk.FusedMoEActivationFormat.Standard
+
+    def max_num_tokens_per_rank(self) -> int | None:
+        return None
+
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    def num_dispatchers(self) -> int:
+        return 1
+
+    def output_is_reduced(self) -> bool:
+        return False
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: torch.Tensor | None,
+        apply_router_weight_on_input: bool,
+        quant_config: FusedMoEQuantConfig,
+    ) -> mk.PrepareResultType:
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1"
+            )
+            a1.mul_(topk_weights.to(a1.dtype))
+
+        a1q, a1q_scale = moe_kernel_quantize_input(
+            a1,
+            quant_config.a1_scale,
+            quant_config.quant_dtype,
+            quant_config.per_act_token_quant,
+            quant_config.block_shape,
+        )
+
+        return a1q, a1q_scale, None, None, None
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+        weight_and_reduce_impl: mk.TopKWeightAndReduce,
+    ) -> None:
+        if isinstance(weight_and_reduce_impl, TopKWeightAndReduceDelegate):
+            weight_and_reduce_impl = TopKWeightAndReduceContiguous()
+        weight_and_reduce_impl.apply(
+            output=output,
+            fused_expert_output=fused_expert_output,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+        )
diff --git a/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
new file mode 100644
index 0000000..8f05828
--- /dev/null
+++ b/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -0,0 +1,265 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from enum import IntEnum
+from functools import lru_cache
+
+import torch
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.model_executor.layers.fused_moe.config import (
+    FUSED_MOE_UNQUANTIZED_CONFIG,
+    FusedMoEQuantConfig,
+)
+
+
+class QuantMethod(IntEnum):
+    # This allows interfacing with AITER QuantType Enum
+    # without importing the QuantType from AITER globally.
+
+    # Note that these quantization methods are
+    # supported in AITER package. However,
+    # not all are used in this module.
+
+    NO = 0  # a16w16
+    PER_TENSOR = 1  # w8a8 (pre_Tensor)
+    PER_TOKEN = 2  # w8a8/w8a4 (per_Token)
+    BLOCK_1X32 = 3  # fp4x2
+    BLOCK_1X128 = 4  # block quantized w8a8 (per_1x128)
+    BLOCK_128x128 = 5  # block quantized w8a8 (per_128x128)
+
+
+class ActivationMethod(IntEnum):
+    # This allows interfacing with AITER ActivationType enum
+    # without importing the ActivationType enum from AITER globally.
+    SILU = 0
+    GELU = 1
+
+
+aiter_topK_meta_data = None
+
+
+@lru_cache(maxsize=1)
+def init_aiter_topK_meta_data(
+    n_routed_experts: int,
+    n_shared_experts: int,
+    top_k: int,
+    tp_rank: int,
+    tp_size: int,
+    shared_experts_score: float = 1.0,
+    max_num_tokens: int = 32768,
+    is_EP: bool = False,
+):
+    global aiter_topK_meta_data
+    fake_expertid = n_routed_experts + n_shared_experts
+
+    # all layers reuse same buffer
+    # This extra element when EP is enabled is used as a sentinel
+    # to mask out shared expert processing for tokens not owned by
+    # the current EP rank. This is necessary to avoid double-processing
+    # of shared experts.
+    total_topk_ids = torch.empty(
+        (max_num_tokens, top_k + n_shared_experts + is_EP),
+        dtype=torch.int32,
+        device="cuda",
+    )
+    ns_topk_ids, s_topk_ids = total_topk_ids.split(
+        [top_k, n_shared_experts + is_EP], dim=1
+    )
+    shared_expert_ids = [n_routed_experts + i for i in range(n_shared_experts + is_EP)]
+    if is_EP:
+        s_topk_ids_list = [
+            [fake_expertid] * (n_shared_experts + is_EP)
+        ] * max_num_tokens
+        for i in range(tp_rank, max_num_tokens, tp_size):
+            s_topk_ids_list[i] = shared_expert_ids
+    else:
+        s_topk_ids_list = [
+            list(range(n_routed_experts, fake_expertid))
+        ] * max_num_tokens
+    s_topk_ids[:] = torch.tensor(s_topk_ids_list, dtype=torch.int32, device="cuda")
+
+    total_topk_weights = torch.empty(
+        (max_num_tokens, top_k + n_shared_experts + is_EP),
+        dtype=torch.float32,
+        device="cuda",
+    )
+    ns_topk_weights, s_topk_weights = total_topk_weights.split(
+        [top_k, n_shared_experts + is_EP], dim=1
+    )
+    s_topk_weights.fill_(shared_experts_score)
+    assert aiter_topK_meta_data is None, "AITER topK meta data is already initialized"
+    aiter_topK_meta_data = (total_topk_weights, total_topk_ids)
+
+
+def rocm_aiter_grouped_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    num_expert_group: int = 0,
+    topk_group: int = 0,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,
+    e_score_correction_bias: torch.Tensor | None = None,
+    num_fused_shared_experts: int = 0,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    token = hidden_states.shape[0]
+    device = hidden_states.device
+    if (
+        rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        and num_fused_shared_experts > 0
+    ):
+        assert aiter_topK_meta_data is not None, (
+            "AITER topK meta data is not initialized. "
+            "Please ensure that init_aiter_topK_meta_data "
+            "is called before this function."
+        )
+        total_topk_weights, total_topk_ids = aiter_topK_meta_data
+        assert total_topk_weights.shape[0] >= token, (
+            f"AITER topK meta data support {total_topk_weights.shape[0]} "
+            f"tokens which is determined by max_num_batched_tokens, "
+            f"but got {token} tokens now."
+        )
+        total_topk_weights = total_topk_weights[:token]
+        total_topk_ids = total_topk_ids[:token]
+        topk_weights, _ = total_topk_weights.split(
+            [topk, total_topk_weights.shape[1] - topk], dim=1
+        )
+        topk_ids, _ = total_topk_ids.split(
+            [topk, total_topk_ids.shape[1] - topk], dim=1
+        )
+    else:
+        topk_ids = torch.empty((token, topk), dtype=torch.int32, device=device)
+        topk_weights = torch.empty((token, topk), dtype=torch.float32, device=device)
+
+    if e_score_correction_bias is not None:
+        rocm_aiter_ops.biased_grouped_topk(
+            gating_output,
+            e_score_correction_bias.to(gating_output.dtype),
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            renormalize,
+            routed_scaling_factor=routed_scaling_factor,
+        )
+    else:
+        assert scoring_func == "softmax" or scoring_func == "sigmoid"
+        rocm_aiter_ops.grouped_topk(
+            gating_output,
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            renormalize,
+            scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+        )
+
+    if (
+        rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        and num_fused_shared_experts > 0
+    ):
+        return total_topk_weights, total_topk_ids
+    return topk_weights, topk_ids
+
+
+def rocm_aiter_fused_experts(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    expert_map: torch.Tensor | None = None,
+    quant_config: FusedMoEQuantConfig | None = None,
+) -> torch.Tensor:
+    if quant_config is None:
+        quant_config = FUSED_MOE_UNQUANTIZED_CONFIG
+
+    activation_method = (
+        ActivationMethod.SILU if activation == "silu" else ActivationMethod.GELU
+    )
+    # All AITER Fused MoE kernels are expecting the following datatypes
+    topk_weights = topk_weights.to(torch.float32)
+    topk_ids = topk_ids.to(torch.int32)
+
+    expert_mask = expert_map if expert_map is not None else None
+
+    # w8a8 per-channel quantization
+    if (
+        quant_config.per_act_token_quant
+        and apply_router_weight_on_input
+        and quant_config.use_fp8_w8a8
+    ):
+        # AITER tkw1 kernel for FP8 models with `apply_router_weight_on_input`
+        # This applies topk_weights on the GEMM output of the first FC layer
+        #  rather than the second FC.
+        assert topk_weights.dim() == 2, (
+            "`topk_weights` should be in shape (num_tokens, topk)"
+        )
+        assert topk_weights.shape[-1] == 1, (
+            "Only support topk=1 when `apply_router_weight_on_input` is True"
+        )
+
+        return rocm_aiter_ops.asm_moe_tkw1(
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            fc1_scale=quant_config.w1_scale,
+            fc2_scale=quant_config.w2_scale,
+            fc1_smooth_scale=None,
+            fc2_smooth_scale=None,
+            a16=False,
+            per_tensor_quant_scale=None,
+            expert_mask=expert_mask,
+            activation_method=activation_method,
+        )
+
+    else:
+        quant_method = QuantMethod.NO.value
+        # quark moe for mxfp4 w_dtype
+        if quant_config.use_mxfp4_w4a16:
+            quant_method = QuantMethod.BLOCK_1X32.value
+        # w8a8 block-scaled
+        if quant_config.block_shape is not None and quant_config.use_fp8_w8a8:
+            assert not apply_router_weight_on_input, (
+                "apply_router_weight_on_input is\
+                not supported for block scaled moe"
+            )
+            assert quant_config.w1_scale is not None
+            assert quant_config.w2_scale is not None
+            quant_method = QuantMethod.BLOCK_128x128.value
+        elif quant_config.use_fp8_w8a8 and quant_config.per_out_ch_quant:
+            quant_method = QuantMethod.PER_TOKEN.value
+        elif quant_config.use_fp8_w8a8:
+            # Currently only per tensor quantization method is enabled.
+            quant_method = QuantMethod.PER_TENSOR.value
+
+        if apply_router_weight_on_input:
+            assert topk_weights.dim() == 2, (
+                "`topk_weights` should be in shape (num_tokens, topk)"
+            )
+            _, topk = topk_weights.shape
+            assert topk == 1, (
+                "Only support topk=1 when `apply_router_weight_on_input` is True"
+            )
+
+        return rocm_aiter_ops.fused_moe(
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            expert_mask=expert_mask,
+            quant_method=quant_method,
+            activation_method=activation_method,
+            w1_scale=quant_config.w1_scale,
+            w2_scale=quant_config.w2_scale,
+            a1_scale=quant_config.a1_scale,
+            a2_scale=quant_config.a2_scale,
+            doweight_stage1=apply_router_weight_on_input,
+        )
diff --git a/model_executor/layers/fused_moe/routing_simulator.py b/model_executor/layers/fused_moe/routing_simulator.py
new file mode 100644
index 0000000..a01cdc4
--- /dev/null
+++ b/model_executor/layers/fused_moe/routing_simulator.py
@@ -0,0 +1,310 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Token-to-Expert Routing Simulator
+
+This module provides a framework for simulating and testing different
+token-to-expert routing strategies for Mixture of Experts (MoE) models.
+It supports routing logic customization and includes example implementations
+like uniform random routing.
+"""
+
+from abc import ABC, abstractmethod
+from typing import Any
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class RoutingStrategy(ABC):
+    """Base class for token-to-expert routing strategies."""
+
+    @abstractmethod
+    def route_tokens(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        indices_type: torch.dtype | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Route tokens to experts.
+
+        Args:
+            hidden_states: Input hidden states [num_tokens, hidden_size]
+            router_logits: Router logits [num_tokens, num_experts]
+            top_k: Number of experts to select per token
+            indices_type: Data type for expert indices
+
+        Returns:
+            tuple of (topk_weights, topk_ids)
+        """
+        pass
+
+
+class DistributionBasedRouting(RoutingStrategy):
+    """
+    Distribution-based random routing strategy with configurable distributions.
+
+    This routing strategy randomly selects experts for each token based on
+    different probability distributions. Currently supports uniform and normal
+    distributions for testing different routing patterns.
+    """
+
+    def __init__(self, distribution: str = "uniform", **distribution_params: Any):
+        """
+        Initialize distribution-based routing.
+
+        Args:
+            distribution: Type of distribution to use for sampling
+                - "uniform": Uniform distribution (default)
+                - "normal": Normal/Gaussian distribution
+            **distribution_params: Parameters specific to the
+                chosen distribution
+                For "uniform": No additional parameters needed
+                For "normal": mean (default: 0.0), std (default: 1.0)
+        """
+        self.distribution = distribution.lower()
+        self.distribution_params = distribution_params
+
+        # Validate distribution and parameters
+        self._validate_distribution_params()
+
+    def _validate_distribution_params(self):
+        """Validate distribution type and parameters."""
+        valid_distributions = ["uniform", "normal"]
+
+        if self.distribution not in valid_distributions:
+            raise ValueError(
+                f"Unsupported distribution: {self.distribution}. "
+                f"Supported distributions: {valid_distributions}"
+            )
+
+        # Set default parameters if not provided
+        if self.distribution == "normal":
+            self.distribution_params.setdefault("mean", 0.0)
+            self.distribution_params.setdefault("std", 1.0)
+
+    def route_tokens(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        indices_type: torch.dtype | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Randomly select experts for each token using the specified distribution.
+
+        Args:
+            hidden_states: Input hidden states [num_tokens, hidden_size]
+            router_logits: Router logits [num_tokens, num_experts]
+            top_k: Number of experts to select per token
+            indices_type: Data type for expert indices
+
+        Returns:
+            tuple of (topk_weights, topk_ids) where:
+            - topk_weights: Weights based on distribution sampling
+            - topk_ids: Expert indices sampled from the distribution
+        """
+        num_tokens = hidden_states.shape[0]
+        num_experts = router_logits.shape[-1]
+
+        if indices_type is None:
+            indices_type = torch.long
+
+        # Generate expert IDs based on the specified distribution
+        topk_ids = self._sample_expert_ids(
+            num_tokens, num_experts, top_k, hidden_states.device, indices_type
+        )
+
+        # Generate weights based on the distribution
+        topk_weights = self._generate_weights(num_tokens, top_k, hidden_states.device)
+
+        return topk_weights, topk_ids
+
+    def _sample_expert_ids(
+        self,
+        num_tokens: int,
+        num_experts: int,
+        top_k: int,
+        device: torch.device,
+        indices_type: torch.dtype,
+    ) -> torch.Tensor:
+        """Sample expert IDs based on the specified distribution."""
+
+        if self.distribution == "uniform":
+            # Uniform random sampling
+            return torch.randint(
+                low=0,
+                high=num_experts,
+                size=(num_tokens, top_k),
+                dtype=indices_type,
+                device=device,
+            )
+
+        elif self.distribution == "normal":
+            # For normal distribution, sample continuous values and map to
+            # expert IDs
+            continuous_samples = self._sample_continuous_distribution(
+                num_tokens, top_k, device
+            )
+
+            # Map continuous samples to expert indices
+            # Normalize to [0, 1] range and scale to [0, num_experts)
+            normalized_samples = self._normalize_samples(continuous_samples)
+            expert_ids = (normalized_samples * num_experts).long()
+            expert_ids = torch.clamp(expert_ids, 0, num_experts - 1)
+
+            return expert_ids.to(dtype=indices_type)
+
+        else:
+            raise ValueError(f"Unsupported distribution: {self.distribution}")
+
+    def _sample_continuous_distribution(
+        self, num_tokens: int, top_k: int, device: torch.device
+    ) -> torch.Tensor:
+        """Sample from continuous distributions."""
+        shape = (num_tokens, top_k)
+
+        if self.distribution == "normal":
+            mean = self.distribution_params["mean"]
+            std = self.distribution_params["std"]
+            return torch.normal(mean, std, size=shape, device=device)
+
+        else:
+            raise ValueError(
+                f"Unsupported continuous distribution: {self.distribution}"
+            )
+
+    def _normalize_samples(self, samples: torch.Tensor) -> torch.Tensor:
+        """Normalize samples to [0, 1] range."""
+        if self.distribution == "normal":
+            # Use sigmoid to map normal distribution to [0, 1]
+            return torch.sigmoid(samples)
+
+        else:
+            raise ValueError(
+                f"Unsupported distribution for normalization: {self.distribution}"
+            )
+
+    def _generate_weights(
+        self, num_tokens: int, top_k: int, device: torch.device
+    ) -> torch.Tensor:
+        """Generate weights based on the distribution."""
+        if self.distribution == "uniform":
+            # All-ones weights for uniform distribution
+            return torch.ones(
+                (num_tokens, top_k),
+                dtype=torch.float32,
+                device=device,
+            )
+
+        elif self.distribution == "normal":
+            # For normal distribution, generate weights from the same
+            # distribution
+            continuous_weights = self._sample_continuous_distribution(
+                num_tokens, top_k, device
+            )
+            # Normalize to positive values and sum to 1
+            weights = torch.abs(continuous_weights)
+            weights = weights / weights.sum(dim=-1, keepdim=True)
+            return weights
+
+        else:
+            raise ValueError(
+                f"Unsupported distribution for weight generation: {self.distribution}"
+            )
+
+    def get_distribution_info(self) -> dict:
+        """Get information about the current distribution configuration."""
+        return {
+            "distribution": self.distribution,
+            "parameters": self.distribution_params.copy(),
+        }
+
+
+class RoutingSimulator:
+    """
+    Token-to-Expert Routing Simulator.
+
+    This class provides a framework for testing and comparing different
+    routing strategies for MoE models. It can simulate routing behavior
+    and collect statistics for analysis.
+    """
+
+    # Class-level registry of routing strategies
+    _routing_strategies: dict[str, RoutingStrategy] = {
+        # Basic routing strategies
+        "uniform_random": DistributionBasedRouting(
+            distribution="uniform", mean=0.0, std=1.0
+        ),
+        "normal_routing": DistributionBasedRouting(
+            distribution="normal", mean=0.0, std=1.0
+        ),
+    }
+
+    @classmethod
+    def register_strategy(cls, name: str, strategy: RoutingStrategy):
+        """
+        Register a custom routing strategy.
+
+        Args:
+            name: Name of the strategy
+            strategy: RoutingStrategy instance
+        """
+        cls._routing_strategies[name] = strategy
+
+    @classmethod
+    def get_available_strategies(cls) -> list[str]:
+        """
+        Get list of available routing strategy names.
+
+        Returns:
+            List of available strategy names
+        """
+        return list(cls._routing_strategies.keys())
+
+    @staticmethod
+    def simulate_routing(
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        strategy_name: str,
+        top_k: int,
+        indices_type: torch.dtype | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Simulate token-to-expert routing using the specified strategy.
+
+        Args:
+            hidden_states: Input hidden states [num_tokens, hidden_size]
+            router_logits: Router logits [num_tokens, num_experts]
+            strategy_name: Name of the routing strategy to use
+            top_k: Number of experts to select per token
+            indices_type: Data type for expert indices
+
+        Returns:
+            tuple of (topk_weights, topk_ids)
+        """
+        if strategy_name not in RoutingSimulator._routing_strategies:
+            raise ValueError(
+                f"Unknown routing strategy: {strategy_name}. "
+                f"Available strategies: "
+                f"{list(RoutingSimulator._routing_strategies.keys())}"
+            )
+        logger.warning_once(
+            "Simulating MoE routing using a %s strategy. "
+            "This should only be used for performance testing. "
+            "Model outputs will not be valid.",
+            strategy_name,
+        )
+
+        strategy = RoutingSimulator._routing_strategies[strategy_name]
+        return strategy.route_tokens(
+            hidden_states=hidden_states,
+            router_logits=router_logits,
+            top_k=top_k,
+            indices_type=indices_type,
+        )
diff --git a/model_executor/layers/fused_moe/shared_fused_moe.py b/model_executor/layers/fused_moe/shared_fused_moe.py
new file mode 100644
index 0000000..6ec8b33
--- /dev/null
+++ b/model_executor/layers/fused_moe/shared_fused_moe.py
@@ -0,0 +1,97 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.distributed import (
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE
+
+
+# TODO(bnell): Add shared + fused combo function? e.g. +
+class SharedFusedMoE(FusedMoE):
+    """
+    A FusedMoE operation that also computes the results of shared experts.
+    If an all2all communicator is being used the shared expert computation
+    can be interleaved with the fused all2all dispatch communication step.
+    """
+
+    def __init__(
+        self,
+        shared_experts: torch.nn.Module | None,
+        gate: torch.nn.Module | None = None,
+        use_overlapped: bool = True,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self._shared_experts = shared_experts
+
+        # Disable shared expert overlap if:
+        #   - we are using eplb, because of correctness issues
+        #   - we are using flashinfer with DP, since there nothint to gain
+        #   - we are using marlin kjernels
+        self.use_overlapped = (
+            use_overlapped
+            and not (
+                # TODO(wentao): find the root cause and remove this condition
+                self.enable_eplb
+                or (self.moe_config.use_flashinfer_cutlass_kernels and self.dp_size > 1)
+                or self.use_marlin_kernels
+            )
+            and self._shared_experts is not None
+        )
+
+        self._gate = gate
+
+    @property
+    def shared_experts(self) -> torch.nn.Module | None:
+        return self._shared_experts if self.use_overlapped else None
+
+    @property
+    def gate(self) -> torch.nn.Module | None:
+        return self._gate if self.use_overlapped else None
+
+    @property
+    def is_internal_router(self) -> bool:
+        return self.gate is not None
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if not self.use_overlapped:
+            if self._shared_experts is not None:
+                shared_out = self._shared_experts(hidden_states)
+
+                # Reduce shared expert outputs if necessary, since the MLP
+                # should have been created with reduce_results=False.
+                if (
+                    self.reduce_results
+                    and get_tensor_model_parallel_world_size() > 1
+                    and self.must_reduce_shared_expert_outputs()
+                ):
+                    shared_out = tensor_model_parallel_all_reduce(shared_out)
+            else:
+                shared_out = None
+
+            fused_out = super().forward(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+            )
+        else:
+            shared_out, fused_out = super().forward(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+            )
+            # ensure early TP reduction of shared expert outputs when required
+            if (
+                shared_out is not None
+                and self.reduce_results
+                and get_tensor_model_parallel_world_size() > 1
+                and self.must_reduce_shared_expert_outputs()
+            ):
+                shared_out = tensor_model_parallel_all_reduce(shared_out)
+        return shared_out, fused_out
diff --git a/model_executor/layers/fused_moe/topk_weight_and_reduce.py b/model_executor/layers/fused_moe/topk_weight_and_reduce.py
new file mode 100644
index 0000000..99d4038
--- /dev/null
+++ b/model_executor/layers/fused_moe/topk_weight_and_reduce.py
@@ -0,0 +1,171 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+import vllm._custom_ops as ops
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+
+
+class TopKWeightAndReduceDelegate(mk.TopKWeightAndReduce):
+    """
+    Useful in the case when some FusedMoEPermuteExpertsUnpermute
+    implementation does not perform weight application and reduction
+    but cannot address the needs of all the compatible PrepareAndFinalize
+    implementations.
+    For example, BatchedTritonExperts is compatible with both
+    PplxPrepareAndFinalize and BatchedPrepareAndFinalize. PplxPrepareAndFinalize
+    does the weight-application + reduction as part of the pplx combine kernel.
+    But the BatchedPrepareAndFinalize needs an implementation. To facilitate
+    this case, the BatchedTritonExperts could use TopKWeightAndReduceDelegate
+    so the PrepareAndFinalize implementations could choose how to
+    weight + reduce.
+    """
+
+    def __eq__(self, other):
+        return isinstance(other, TopKWeightAndReduceDelegate)
+
+    def apply(
+        self,
+        output: torch.Tensor | None,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor:
+        raise RuntimeError(
+            "The caller is expected to choose an appropriate "
+            "TopKWeightAndReduce implementation."
+        )
+
+
+class TopKWeightAndReduceNoOP(mk.TopKWeightAndReduce):
+    """
+    The fused_experts outputs have already been weight applied and reduced.
+    This implementation is a no-op.
+    """
+
+    def __eq__(self, other):
+        return isinstance(other, TopKWeightAndReduceNoOP)
+
+    def apply(
+        self,
+        output: torch.Tensor | None,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor:
+        # Weight application and reduction operations are already done.
+        if output is None:
+            return fused_expert_output
+
+        # MoEPrepareAndFinalizeNoEP needs the output to be in the `output`
+        # tensor.
+        assert output.size() == fused_expert_output.size(), (
+            "output shape is expected to match the fused_expert_output shape. "
+            f"But got output={output.size()}, "
+            f"used_expert_output={fused_expert_output.size()}"
+        )
+        output.copy_(fused_expert_output, non_blocking=True)
+        return output
+
+
+class TopKWeightAndReduceContiguous(mk.TopKWeightAndReduce):
+    """
+    TopKWeightAndReduce implementation for a fused_experts output
+    of shape (m, topk, K)
+    """
+
+    def __eq__(self, other):
+        return isinstance(other, TopKWeightAndReduceContiguous)
+
+    def apply(
+        self,
+        output: torch.Tensor | None,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor:
+        m, num_topk = topk_ids.size()
+        k = fused_expert_output.size(-1)
+        if fused_expert_output.ndim == 2:
+            fused_expert_output = fused_expert_output.view(m, num_topk, k)
+
+        assert fused_expert_output.size() == (m, num_topk, k), (
+            f"Expected fused_expert_output size {(m, num_topk, k)}. But got "
+            f"{fused_expert_output.size()}"
+        )
+
+        if not apply_router_weight_on_input:
+            fused_expert_output.mul_(topk_weights.view(m, -1, 1))
+
+        if output is None:
+            output = torch.empty(
+                (m, k),
+                device=fused_expert_output.device,
+                dtype=fused_expert_output.dtype,
+            )
+        assert output.size() == (m, k), (
+            f"Expected output size {(m, k)}. But got {output.size()}"
+        )
+
+        ops.moe_sum(fused_expert_output, output)
+        return output
+
+
+class TopKWeightAndReduceNaiveBatched(mk.TopKWeightAndReduce):
+    """
+    TopKWeightAndReduce implementation for a fused_experts output
+    of shape (num_experts, batch_size, K)
+    """
+
+    def __init__(self, rank: int):
+        self.rank = rank
+
+    def __eq__(self, other):
+        return isinstance(other, TopKWeightAndReduceNaiveBatched) and (
+            other.rank == self.rank
+        )
+
+    def apply(
+        self,
+        output: torch.Tensor | None,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> torch.Tensor:
+        assert fused_expert_output.ndim == 3
+        num_tokens = topk_ids.size(0)
+        num_local_experts = fused_expert_output.size(0)
+        K = fused_expert_output.size(-1)
+
+        if output is None:
+            output = torch.zeros(
+                (num_tokens, K),
+                device=fused_expert_output.device,
+                dtype=fused_expert_output.dtype,
+            )
+        else:
+            output.fill_(0)
+
+        assert output.size() == (num_tokens, K), (
+            f"Expected output size {(num_tokens, K)}, but got {output.size()}"
+        )
+
+        first_expert = num_local_experts * self.rank
+        last_expert = first_expert + num_local_experts
+
+        for expert_id in range(first_expert, last_expert):
+            matching_tokens = topk_ids == expert_id
+            topks = torch.any(matching_tokens, dim=1).flatten()
+            rows = torch.count_nonzero(topks)
+            rhs = fused_expert_output[expert_id - first_expert, :rows, :]
+            if not apply_router_weight_on_input:
+                rhs.mul_(topk_weights[matching_tokens].view(rhs.size(0), 1))
+            output[topks] = output[topks] + rhs
+
+        return output
diff --git a/model_executor/layers/fused_moe/triton_deep_gemm_moe.py b/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
new file mode 100644
index 0000000..b8e0837
--- /dev/null
+++ b/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
@@ -0,0 +1,163 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
+    DeepGemmExperts,
+    _valid_deep_gemm,
+    _valid_deep_gemm_shape,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe import TritonExperts
+from vllm.utils.deep_gemm import (
+    get_mk_alignment_for_contiguous_layout,
+    is_deep_gemm_e8m0_used,
+)
+
+
+class TritonOrDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+        allow_deep_gemm: bool = False,
+    ):
+        super().__init__(quant_config)
+
+        self.triton_expert = TritonExperts(quant_config)
+
+        self.allow_deep_gemm = (
+            allow_deep_gemm
+            and self.quant_config.use_fp8_w8a8
+            and self.block_shape == get_mk_alignment_for_contiguous_layout()
+        )
+
+        self.deep_gemm_expert = (
+            DeepGemmExperts(self.quant_config) if self.allow_deep_gemm else None
+        )
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        assert (
+            self.deep_gemm_expert is None
+            or self.triton_expert.activation_formats
+            == self.deep_gemm_expert.activation_formats
+        )
+        return self.triton_expert.activation_formats
+
+    def supports_chunking(self) -> bool:
+        dge = self.deep_gemm_expert
+        te = self.triton_expert
+        return (dge is None or dge.supports_chunking()) and (
+            te is None or te.supports_chunking()
+        )
+
+    def supports_expert_map(self) -> bool:
+        dge = self.deep_gemm_expert
+        te = self.triton_expert
+        return (dge is None or dge.supports_expert_map()) and (
+            te is None or te.supports_expert_map()
+        )
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        dge = self.deep_gemm_expert
+        te = self.triton_expert
+        dge_war = dge.finalize_weight_and_reduce_impl() if dge else None
+        te_war = te.finalize_weight_and_reduce_impl() if te else None
+        is_dge_war = dge_war is not None
+        is_te_war = te_war is not None
+
+        if is_dge_war and is_te_war:
+            assert dge_war == te_war, (
+                "Both implementations should agree on WeightAndReduce impls. "
+                f"Got dge_war: {dge_war}, and te_war: {te_war}"
+            )
+
+        if dge_war is not None:
+            return dge_war
+
+        assert te_war is not None
+        return te_war
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # Note: the deep gemm workspaces are strictly larger than the triton
+        # workspaces so we can be pessimistic here and allocate for DeepGemm
+        # even if we fall back to triton later, e.g. if expert maps are set.
+        if self.allow_deep_gemm and (
+            is_deep_gemm_e8m0_used() or _valid_deep_gemm_shape(M, N, K)
+        ):
+            assert self.deep_gemm_expert is not None
+            return self.deep_gemm_expert.workspace_shapes(
+                M,
+                N,
+                K,
+                topk,
+                global_num_experts,
+                local_num_experts,
+                expert_tokens_meta,
+            )
+        else:
+            return self.triton_expert.workspace_shapes(
+                M,
+                N,
+                K,
+                topk,
+                global_num_experts,
+                local_num_experts,
+                expert_tokens_meta,
+            )
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        use_deep_gemm = self.allow_deep_gemm and (
+            is_deep_gemm_e8m0_used() or _valid_deep_gemm(hidden_states, w1, w2)
+        )
+
+        experts = self.deep_gemm_expert if use_deep_gemm else self.triton_expert
+        assert experts is not None
+
+        experts.apply(
+            output,
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            activation,
+            global_num_experts,
+            expert_map,
+            a1q_scale,
+            a2_scale,
+            workspace13,
+            workspace2,
+            expert_tokens_meta,
+            apply_router_weight_on_input,
+        )
diff --git a/model_executor/layers/fused_moe/trtllm_moe.py b/model_executor/layers/fused_moe/trtllm_moe.py
new file mode 100644
index 0000000..132d35e
--- /dev/null
+++ b/model_executor/layers/fused_moe/trtllm_moe.py
@@ -0,0 +1,143 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
+    TopKWeightAndReduceNoOP,
+)
+
+
+class TrtLlmGenExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    def __init__(
+        self,
+        moe: FusedMoEConfig,
+        quant_config: FusedMoEQuantConfig,
+        gemm1_alpha,
+        gemm1_beta,
+        gemm1_clamp_limit,
+        max_capture_size,
+    ):
+        super().__init__(quant_config)
+        self.moe = moe
+        self.gemm1_alpha = gemm1_alpha
+        self.gemm1_beta = gemm1_beta
+        self.gemm1_clamp_limit = gemm1_clamp_limit
+        self.max_capture_size = max_capture_size
+
+    @property
+    def activation_formats(
+        self,
+    ) -> tuple[mk.FusedMoEActivationFormat, mk.FusedMoEActivationFormat]:
+        return (
+            mk.FusedMoEActivationFormat.Standard,
+            mk.FusedMoEActivationFormat.Standard,
+        )
+
+    def supports_chunking(self) -> bool:
+        return True
+
+    def supports_expert_map(self) -> bool:
+        return True
+
+    def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
+        return TopKWeightAndReduceNoOP()
+
+    def workspace_shapes(
+        self,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        global_num_experts: int,
+        local_num_experts: int,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        # The workspaces for this implementation are managed by flashinfer.
+        workspace1 = (0,)
+        workspace2 = (0,)
+        output = (M, K)
+        return (workspace1, workspace2, output)
+
+    def apply(
+        self,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: torch.Tensor | None,
+        a1q_scale: torch.Tensor | None,
+        a2_scale: torch.Tensor | None,
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_tokens_meta: mk.ExpertTokensMetadata | None,
+        apply_router_weight_on_input: bool,
+    ):
+        topk = topk_ids.size(-1)
+        local_num_experts = w1.size(0)
+        intermediate_size = w2.size(1)
+        local_expert_offset = self.moe.ep_rank * local_num_experts
+
+        x_quant = hidden_states
+        x_scale = a1q_scale
+        if x_scale is not None:
+            x_scale = x_scale.view(torch.float8_e4m3fn).reshape(*x_quant.shape[:-1], -1)
+
+        packed_tensor = (topk_ids.to(torch.int32) << 16) | topk_weights.to(
+            torch.bfloat16
+        ).view(torch.int16)
+
+        assert self.w1_scale is not None
+        assert self.w2_scale is not None
+        kwargs = {
+            "topk_ids": packed_tensor,
+            "routing_bias": None,
+            "hidden_states": x_quant,
+            "hidden_states_scale": x_scale,
+            "gemm1_weights": w1,
+            "gemm1_weights_scale": self.w1_scale,
+            "gemm1_bias": self.w1_bias,
+            "gemm1_alpha": self.gemm1_alpha,
+            "gemm1_beta": self.gemm1_beta,
+            "gemm1_clamp_limit": self.gemm1_clamp_limit,
+            "gemm2_weights": w2,
+            "gemm2_weights_scale": self.w2_scale,
+            "gemm2_bias": self.w2_bias,
+            "output1_scale_scalar": None,
+            "output1_scale_gate_scalar": None,
+            "output2_scale_scalar": None,
+            "num_experts": global_num_experts,
+            "top_k": topk,
+            "n_group": None,
+            "topk_group": None,
+            "intermediate_size": intermediate_size,
+            "local_expert_offset": local_expert_offset,
+            "local_num_experts": local_num_experts,
+            "routed_scaling_factor": None,
+            "tile_tokens_dim": None,
+            "routing_method_type": 1,
+            "do_finalize": True,
+            "output": output,
+            "tune_max_num_tokens": max(self.max_capture_size, 1),
+        }
+
+        from flashinfer import trtllm_fp4_block_scale_routed_moe
+
+        from vllm.utils.flashinfer import autotune
+
+        with autotune(False):
+            # Enable autotune when,
+            # https://github.com/flashinfer-ai/flashinfer/issues/2023 is
+            # resolved.
+            trtllm_fp4_block_scale_routed_moe(**kwargs)
+
+        return output
diff --git a/model_executor/layers/fused_moe/unquantized_fused_moe_method.py b/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
new file mode 100644
index 0000000..d3b0f79
--- /dev/null
+++ b/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -0,0 +1,578 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+import torch.nn.functional as F
+
+import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.config import (
+    FUSED_MOE_UNQUANTIZED_CONFIG,
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+    biased_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEActivationFormat,
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.platforms.interface import CpuArchEnum
+from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
+
+if current_platform.is_cuda_alike():
+    from .fused_batched_moe import BatchedTritonExperts
+    from .fused_moe import TritonExperts, fused_experts
+else:
+    fused_experts = None  # type: ignore
+
+if current_platform.is_tpu():
+    from .moe_pallas import fused_moe as fused_moe_pallas
+else:
+    fused_moe_pallas = None  # type: ignore
+
+logger = init_logger(__name__)
+
+
+@CustomOp.register("unquantized_fused_moe")
+class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
+    """MoE method without quantization."""
+
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__(moe)
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        if self.rocm_aiter_moe_enabled:
+            from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
+
+            self.rocm_aiter_fused_experts = rocm_aiter_fused_experts
+        else:
+            self.rocm_aiter_fused_experts = None  # type: ignore
+
+        # FlashInfer CUTLASS MoE is only supported on Hopper and later GPUS
+        self.flashinfer_cutlass_moe_enabled = (
+            has_flashinfer_cutlass_fused_moe()
+            and envs.VLLM_USE_FLASHINFER_MOE_FP16
+            and self.moe.moe_parallel_config.use_ep
+            and self.moe.moe_parallel_config.dp_size == 1
+            and current_platform.get_device_capability()[0] >= 9
+        )
+        if self.flashinfer_cutlass_moe_enabled:
+            logger.info_once(
+                "Enabling FlashInfer CUTLASS MoE for UnquantizedFusedMoEMethod"
+            )
+            from functools import partial
+
+            from .flashinfer_cutlass_moe import flashinfer_cutlass_moe
+
+            self.flashinfer_cutlass_moe = partial(
+                flashinfer_cutlass_moe,
+                quant_config=FUSED_MOE_UNQUANTIZED_CONFIG,
+                tp_rank=self.moe.moe_parallel_config.tp_rank,
+                tp_size=self.moe.moe_parallel_config.tp_size,
+                ep_rank=self.moe.moe_parallel_config.ep_rank,
+                ep_size=self.moe.moe_parallel_config.ep_size,
+            )
+        else:
+            if (
+                self.moe.moe_parallel_config.use_ep
+                and self.moe.moe_parallel_config.dp_size == 1
+            ):
+                logger.info_once(
+                    "FlashInfer CUTLASS MoE is available for EP"
+                    " but not enabled, consider setting"
+                    " VLLM_USE_FLASHINFER_MOE_FP16=1 to enable it.",
+                    scope="local",
+                )
+            elif self.moe.moe_parallel_config.dp_size > 1:
+                logger.info_once(
+                    "FlashInfer CUTLASS MoE is currently not available for DP.",
+                    scope="local",
+                )
+            self.flashinfer_cutlass_moe = None  # type: ignore
+
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
+    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+        if self.rocm_aiter_moe_enabled:
+            return None
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        assert self.moe_quant_config is not None
+        if (
+            prepare_finalize.activation_format
+            == FusedMoEActivationFormat.BatchedExperts
+        ):
+            logger.debug("BatchedTritonExperts %s", self.moe)
+            return BatchedTritonExperts(
+                max_num_tokens=self.moe.max_num_tokens,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+            )
+        else:
+            logger.debug("TritonExperts %s", self.moe)
+            return TritonExperts(self.moe_quant_config)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        if self.moe.is_act_and_mul:
+            w13_up_dim = 2 * intermediate_size_per_partition
+        else:
+            w13_up_dim = intermediate_size_per_partition
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                w13_up_dim,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+        if self.moe.has_bias:
+            w13_bias = torch.nn.Parameter(
+                torch.zeros(num_experts, w13_up_dim, dtype=params_dtype),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_bias", w13_bias)
+            set_weight_attrs(w13_bias, extra_weight_attrs)
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+        if self.moe.has_bias:
+            w2_bias = torch.nn.Parameter(
+                torch.zeros(num_experts, hidden_size, dtype=params_dtype),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_bias", w2_bias)
+            set_weight_attrs(w2_bias, extra_weight_attrs)
+
+    def _maybe_pad_weight(self, weight: torch.Tensor) -> torch.Tensor:
+        # Pad the weight tensor. This is an optimization on ROCm platform, which
+        # can benefit from tensors located far enough from one another in memory
+        if (
+            envs.VLLM_ROCM_MOE_PADDING
+            and current_platform.is_rocm()
+            and weight.stride(-1) == 1
+            and (weight.stride(-2) * weight.element_size()) % 512 == 0
+        ):
+            num_pad = 256 // weight.element_size()
+            weight = F.pad(weight, (0, num_pad), "constant", 0)[..., :-num_pad]
+            torch.cuda.empty_cache()
+
+        return weight
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        super().process_weights_after_loading(layer)
+
+        # Padding the weight for better performance on ROCm
+        layer.w13_weight.data = self._maybe_pad_weight(layer.w13_weight.data)
+        layer.w2_weight.data = self._maybe_pad_weight(layer.w2_weight.data)
+
+        if self.rocm_aiter_moe_enabled:
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                layer.w13_weight.data, layer.w2_weight.data
+            )
+
+            layer.w13_weight.data = shuffled_w13
+            layer.w2_weight.data = shuffled_w2
+
+        if self.flashinfer_cutlass_moe_enabled:
+            # Swap halves to arrange as [w3; w1] (kernel expectation)
+            w1_w, w3_w = torch.chunk(layer.w13_weight.data, 2, dim=1)
+            w13_weight_swapped = torch.cat([w3_w, w1_w], dim=1)
+            layer.w13_weight.data = w13_weight_swapped.contiguous()
+
+        if current_platform.is_xpu():
+            import intel_extension_for_pytorch as ipex
+
+            ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
+            layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+                layer.w13_weight,
+                layer.w2_weight,
+                use_prepack=True,
+                experts_start_id=ep_rank_start,
+            )
+        elif current_platform.is_cpu():
+            from vllm.model_executor.layers.fused_moe import cpu_fused_moe
+
+            if current_platform.get_cpu_architecture() == CpuArchEnum.X86:
+                from vllm.model_executor.layers.utils import check_cpu_sgl_kernel
+
+                dtype_w13 = layer.w13_weight.dtype
+                _, n_w13, k_w13 = layer.w13_weight.size()
+                dtype_w2 = layer.w2_weight.dtype
+                _, n_w2, k_w2 = layer.w2_weight.size()
+                if (
+                    envs.VLLM_CPU_SGL_KERNEL
+                    and check_cpu_sgl_kernel(n_w13, k_w13, dtype_w13)
+                    and check_cpu_sgl_kernel(n_w2, k_w2, dtype_w2)
+                ):
+                    packed_w13_weight = torch.ops._C.convert_weight_packed(
+                        layer.w13_weight
+                    )
+                    assert packed_w13_weight.size() == layer.w13_weight.size()
+                    layer.w13_weight.copy_(packed_w13_weight)
+                    del packed_w13_weight
+                    packed_w2_weight = torch.ops._C.convert_weight_packed(
+                        layer.w2_weight
+                    )
+                    assert packed_w2_weight.size() == layer.w2_weight.size()
+                    layer.w2_weight.copy_(packed_w2_weight)
+                    layer.cpu_fused_moe = cpu_fused_moe.SGLFusedMOE(layer)
+                else:
+                    layer.cpu_fused_moe = cpu_fused_moe.IPEXFusedMOE(layer)
+            else:
+                layer.cpu_fused_moe = cpu_fused_moe.CPUFusedMOE(layer)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+
+        return self.forward(
+            x=x,
+            layer=layer,
+            router_logits=router_logits,
+            top_k=top_k,
+            renormalize=renormalize,
+            use_grouped_topk=use_grouped_topk,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            enable_eplb=enable_eplb,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+        )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.moe.has_bias:
+            return biased_moe_quant_config(
+                layer.w13_bias,
+                layer.w2_bias,
+            )
+        else:
+            return FUSED_MOE_UNQUANTIZED_CONFIG
+
+    def forward_cuda(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        topk_weights, topk_ids, zero_expert_result = layer.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+            num_fused_shared_experts=layer.num_fused_shared_experts,
+        )
+
+        if self.rocm_aiter_moe_enabled:
+            result = self.rocm_aiter_fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                expert_map=expert_map,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        elif self.flashinfer_cutlass_moe_enabled:
+            return self.flashinfer_cutlass_moe(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            result = fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=False,
+                activation=activation,
+                quant_config=self.moe_quant_config,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+            )
+
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
+
+    def forward_cpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for CPU.")
+        return layer.cpu_fused_moe(
+            layer,
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            global_num_experts,
+            expert_map,
+            custom_routing_function,
+            scoring_func,
+            routed_scaling_factor,
+            e_score_correction_bias,
+            apply_router_weight_on_input,
+            activation,
+        )
+
+    def forward_xpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for XPU.")
+        return layer.ipex_fusion(
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            custom_routing_function=custom_routing_function,
+        )
+
+    def forward_tpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        assert not use_grouped_topk
+        assert num_expert_group is None
+        assert topk_group is None
+        assert custom_routing_function is None
+        assert apply_router_weight_on_input is False
+        if scoring_func != "softmax":
+            raise NotImplementedError(
+                "Only softmax scoring function is supported for TPU."
+            )
+        if e_score_correction_bias is not None:
+            raise NotImplementedError(
+                "Expert score correction bias is not supported for TPU."
+            )
+        assert activation == "silu", f"{activation} is not supported for TPU."
+        assert routed_scaling_factor == 1.0, (
+            f"routed_scaling_factor {routed_scaling_factor} is not supported for TPU."
+        )
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for TPU.")
+        return fused_moe_pallas(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk=top_k,
+            gating_output=router_logits,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            renormalize=renormalize,
+        )
+
+    if current_platform.is_tpu():
+        forward_native = forward_tpu
+    elif current_platform.is_cpu():
+        forward_native = forward_cpu
+    elif current_platform.is_xpu():
+        forward_native = forward_xpu
+    else:
+        forward_native = forward_cuda
diff --git a/model_executor/layers/fused_moe/utils.py b/model_executor/layers/fused_moe/utils.py
new file mode 100644
index 0000000..1f946d6
--- /dev/null
+++ b/model_executor/layers/fused_moe/utils.py
@@ -0,0 +1,332 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+from math import prod
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    per_token_group_quant_fp8,
+)
+from vllm.model_executor.layers.quantization.utils.int8_utils import (
+    per_token_group_quant_int8,
+    per_token_quant_int8,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp4_utils import (
+    quant_dequant_mxfp4,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp6_utils import (
+    quant_dequant_mxfp6,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp8_utils import (
+    mxfp8_e4m3_quantize,
+)
+from vllm.triton_utils import tl, triton
+from vllm.utils.flashinfer import flashinfer_fp4_quantize
+from vllm.utils.math_utils import cdiv
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+
+@triton.jit
+def _count_expert_num_tokens(
+    topk_ids_ptr,
+    expert_num_tokens_ptr,
+    num_experts,
+    topk_numel,
+    expert_map,
+    HAS_EXPERT_MAP: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+):
+    curr_expert = tl.program_id(0)
+
+    offsets = tl.arange(0, BLOCK_SIZE)
+    topk_ids_ptrs = topk_ids_ptr + offsets
+
+    acc = tl.zeros((BLOCK_SIZE,), dtype=tl.int32)
+    for x in range(tl.cdiv(topk_numel, BLOCK_SIZE)):
+        mask = offsets < (topk_numel - x * BLOCK_SIZE)
+        expert_ids = tl.load(topk_ids_ptrs, mask=mask, other=-1)
+        if HAS_EXPERT_MAP:
+            expert_map_ptrs = expert_map + expert_ids
+            expert_map_mask = expert_ids >= 0
+            expert_ids = tl.load(expert_map_ptrs, mask=expert_map_mask, other=-1)
+
+        has_curr_expert = tl.where(expert_ids == curr_expert, 1, 0)
+        acc = acc + has_curr_expert
+        topk_ids_ptrs += BLOCK_SIZE
+
+    if curr_expert < num_experts:
+        tl.store(expert_num_tokens_ptr + curr_expert, tl.sum(acc))
+
+
+def count_expert_num_tokens(
+    topk_ids: torch.Tensor, num_local_experts: int, expert_map: torch.Tensor | None
+) -> torch.Tensor:
+    """
+    Count the number to tokens assigned to each expert.
+
+    Parameters:
+    - topk_ids (torch.Tensor): Tensor mapping each token to its
+    list of experts.
+    - num_local_experts (int): Number of experts in this rank.
+    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+    from the global expert space to the local expert space of the expert
+    parallel shard.
+
+    Returns:
+    A tensor of size num_local_experts, where tensor[i] holds the number
+    of tokens assigned to the ith expert.
+    """
+    assert topk_ids.dtype.is_signed, "The kernel uses -1 to represent invalid topk_ids"
+    expert_num_tokens = torch.empty(
+        (num_local_experts), device=topk_ids.device, dtype=torch.int32
+    )
+
+    grid = num_local_experts
+    BLOCK_SIZE = min(topk_ids.numel(), 1024)
+    BLOCK_SIZE = triton.next_power_of_2(BLOCK_SIZE)
+
+    _count_expert_num_tokens[(grid,)](
+        topk_ids,
+        expert_num_tokens,
+        num_local_experts,
+        topk_ids.numel(),
+        expert_map,
+        HAS_EXPERT_MAP=expert_map is not None,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+
+    return expert_num_tokens
+
+
+def _resize_cache(x: torch.Tensor, v: tuple[int, ...]) -> torch.Tensor:
+    """
+    Shrink the given tensor and apply the given view to it.  This is
+    used to resize the intermediate fused_moe caches.
+    """
+    assert prod(v) <= x.numel(), (
+        f"{v} ({prod(v)}) <= {x.shape} ({x.numel()})"
+    )  # CUDAGRAPH unfriendly?
+    return x.flatten()[: prod(v)].view(*v)
+
+
+def _nvfp4_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    is_sf_swizzled_layout: bool,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    return flashinfer_fp4_quantize(
+        A, A_scale, is_sf_swizzled_layout=is_sf_swizzled_layout
+    )
+
+
+def _fp8_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Perform fp8 quantization on the inputs.  If a block_shape
+    is provided, the output will be blocked.
+    """
+    if block_shape is None:
+        # TODO(luka): use QuantFP8 custom op
+        #  https://github.com/vllm-project/vllm/issues/20711
+        A, A_scale = ops.scaled_fp8_quant(
+            A, A_scale, use_per_token_if_dynamic=per_act_token
+        )
+    else:
+        assert not per_act_token
+        assert len(block_shape) == 2
+        _, block_k = block_shape[0], block_shape[1]
+        A, A_scale = per_token_group_quant_fp8(A, block_k)
+        assert cdiv(A.size(-1), block_k) == A_scale.size(-1)
+
+    return A, A_scale
+
+
+def _int8_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Perform int8 quantization on the inputs.  If a block_shape
+    is provided, the output will be blocked.
+    """
+
+    # If weights are per-channel (per_channel_quant=True), then
+    # activations apply per-token quantization. Otherwise, assume
+    # activation tensor-wise fp8/int8 quantization, dynamic or static
+    if block_shape is None:
+        assert per_act_token, "int8 quantization only supports block or channel-wise"
+        A, A_scale = per_token_quant_int8(A)
+    else:
+        assert not per_act_token
+        assert len(block_shape) == 2
+        _, block_k = block_shape[0], block_shape[1]
+        A, A_scale = per_token_group_quant_int8(A, block_k)
+        assert cdiv(A.size(-1), block_k) == A_scale.size(-1)
+
+    return A, A_scale
+
+
+def _mxfp4_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, None]:
+    assert block_shape is None
+    # TODO: native mxfp4 is currently not integrated in vllm,
+    # so simulating even on devices supporting this data type natively.
+    # Once integrated, `current_platform.supports_mx()` should be used to
+    # control quantize+dequantize, or simply quantize here down to mxfp4.
+    A = quant_dequant_mxfp4(A)
+
+    return A, None
+
+
+def _mxfp8_e4m3_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert A_scale is None
+    assert not per_act_token_quant
+    assert block_shape is None
+    return mxfp8_e4m3_quantize(A)
+
+
+def _mxfp6_e3m2_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, None]:
+    assert block_shape is None
+
+    # TODO: native mxfp6 is currently not integrated in vllm,
+    # so simulating even on devices supporting this data type natively.
+    # Eventually, there should be a check based on
+    # `current_platform.supports_mx()` here.
+    A = quant_dequant_mxfp6(A, quant_dtype="fp6_e3m2")
+
+    return A, None
+
+
+def _mxfp6_e2m3_quantize(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+) -> tuple[torch.Tensor, None]:
+    assert block_shape is None
+
+    # TODO: native mxfp6 is currently not integrated in vllm,
+    # so simulating even on devices supporting this data type natively.
+    # Eventually, there should be a check based on
+    # `current_platform.supports_mx()` here.
+    A = quant_dequant_mxfp6(A, quant_dtype="fp6_e2m3")
+
+    return A, None
+
+
+def moe_kernel_quantize_input(
+    A: torch.Tensor,
+    A_scale: torch.Tensor | None,
+    quant_dtype: None | torch.dtype | str,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None = None,
+    is_fp4_scale_swizzled: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    if quant_dtype == torch.float8_e4m3fn:
+        return _fp8_quantize(A, A_scale, per_act_token_quant, block_shape)
+    elif quant_dtype == torch.int8:
+        return _int8_quantize(A, A_scale, per_act_token_quant, block_shape)
+    elif quant_dtype == "nvfp4":
+        return _nvfp4_quantize(A, A_scale, is_sf_swizzled_layout=is_fp4_scale_swizzled)
+    elif quant_dtype == "mxfp4":
+        return _mxfp4_quantize(A, A_scale, per_act_token_quant, block_shape)
+    elif quant_dtype == "mxfp8":
+        # TODO: `quant_dtype == "mxfp8"` is ambiguous,
+        # should be fp8_e4m3. OCP MX also defines `fp8_e5m2`.
+        return _mxfp8_e4m3_quantize(A, A_scale, per_act_token_quant, block_shape)
+    elif quant_dtype == "mxfp6_e3m2":
+        return _mxfp6_e3m2_quantize(A, A_scale, per_act_token_quant, block_shape)
+    elif quant_dtype == "mxfp6_e2m3":
+        return _mxfp6_e2m3_quantize(A, A_scale, per_act_token_quant, block_shape)
+    else:
+        return A, A_scale
+
+
+def _fp8_perm(m: torch.Tensor, idx: torch.Tensor) -> torch.Tensor:
+    """
+    A permutation routine that works on fp8 types.
+    """
+    if torch.is_floating_point(m) and m.dtype.itemsize == 1:
+        return m.view(dtype=torch.uint8)[idx, ...].view(dtype=m.dtype)
+    else:
+        return m[idx, ...]
+
+
+def normalize_scales_shape(scales: torch.Tensor | None) -> torch.Tensor | None:
+    if scales is not None:
+        if scales.numel() == 1:
+            scales = scales.view(1, 1)
+        else:
+            scales = scales.view(-1, scales.size(-1))
+    return scales
+
+
+def normalize_batched_scales_shape(
+    scales: torch.Tensor | None,
+    num_experts: int,
+) -> torch.Tensor | None:
+    if scales is not None and scales.ndim < 3:
+        if scales.numel() == 1:
+            scales = scales.view(1)
+            scales = torch.repeat_interleave(scales, num_experts, dim=0).view(
+                num_experts, 1, 1
+            )
+        else:
+            scales = scales.view(num_experts, -1, scales.size(-1))
+
+    return scales
+
+
+def _validate_scale_shape(
+    a: torch.Tensor,
+    a_scale: torch.Tensor | None,
+    per_act_token_quant: bool,
+    block_shape: list[int] | None,
+) -> None:
+    if a_scale is None:
+        return
+
+    if not per_act_token_quant and block_shape is None:
+        assert a_scale.numel() == 1, f"{a_scale.shape}"
+    elif per_act_token_quant:
+        assert a_scale.shape[0] == a.shape[0] and a_scale.shape[1] == 1, (
+            f"{a_scale.shape[0]} == {a.shape[0]} and {a_scale.shape[1]} == 1"
+        )
+    else:
+        assert block_shape is not None
+        expected = (a.shape[0], cdiv(a.shape[1], block_shape[1]))
+        assert a_scale.shape == expected, f"{a_scale.shape} == {expected}"
+
+
+def activation_without_mul(activation: str) -> str:
+    return activation + "_no_mul"
+
+
+# Torch custom ops can't deal with outputs aliasing inputs so we need to
+# disable inplace for torch >= 2.9.
+# See https://github.com/vllm-project/vllm/issues/26378
+@functools.cache
+def disable_inplace() -> bool:
+    return is_torch_equal_or_newer("2.9")
diff --git a/model_executor/layers/kda.py b/model_executor/layers/kda.py
new file mode 100644
index 0000000..2e7500b
--- /dev/null
+++ b/model_executor/layers/kda.py
@@ -0,0 +1,448 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+from einops import rearrange
+from torch import nn
+
+from vllm.attention import AttentionBackend
+from vllm.attention.backends.abstract import AttentionMetadata
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.weight_utils import sharded_weight_loader
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadata
+
+from .fla.ops.kda import (
+    FusedRMSNormGated,
+    chunk_kda,
+    fused_kda_gate,
+    fused_recurrent_kda,
+)
+from .linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from .mamba.abstract import MambaBase
+from .mamba.mamba_utils import MambaStateDtypeCalculator, MambaStateShapeCalculator
+from .mamba.ops.causal_conv1d import causal_conv1d_fn, causal_conv1d_update
+from .quantization.base_config import QuantizationConfig
+
+logger = init_logger(__name__)
+
+
+def kda_attention(
+    q_proj_states: torch.Tensor,
+    k_proj_states: torch.Tensor,
+    v_proj_states: torch.Tensor,
+    g1: torch.Tensor,
+    beta: torch.Tensor,
+    core_attn_out: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self._forward(
+        q_proj_states=q_proj_states,
+        k_proj_states=k_proj_states,
+        v_proj_states=v_proj_states,
+        g1=g1,
+        beta=beta,
+        core_attn_out=core_attn_out,
+    )
+
+
+def kda_attention_fake(
+    q_proj_states: torch.Tensor,
+    k_proj_states: torch.Tensor,
+    v_proj_states: torch.Tensor,
+    g1: torch.Tensor,
+    beta: torch.Tensor,
+    core_attn_out: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="kda_attention",
+    op_func=kda_attention,
+    mutates_args=["core_attn_out"],
+    fake_impl=kda_attention_fake,
+)
+
+
+class KimiDeltaAttention(nn.Module, MambaBase):
+    @property
+    def mamba_type(self) -> str:
+        return "linear_attention"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.gdn_attn import GDNAttentionBackend
+
+        return GDNAttentionBackend
+
+    def get_state_dtype(
+        self,
+    ) -> tuple[torch.dtype, torch.dtype, torch.dtype, torch.dtype]:
+        if self.model_config is None or self.cache_config is None:
+            raise ValueError("model_config and cache_config must be set")
+        return MambaStateDtypeCalculator.kda_state_dtype(
+            self.model_config.dtype, self.cache_config.mamba_cache_dtype
+        )
+
+    def get_state_shape(
+        self,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.kda_state_shape(
+            self.tp_size, self.num_heads, self.head_dim, conv_kernel_size=self.conv_size
+        )
+
+    def __init__(
+        self,
+        layer_idx: int,
+        hidden_size: int,
+        quant_config: QuantizationConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        model_config: ModelConfig | None = None,
+        rms_norm_eps: float = 1e-5,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.hidden_size = hidden_size
+        self.model_config = model_config
+        self.cache_config = cache_config
+        if model_config is None:
+            raise ValueError("model_config must be provided")
+        kda_config = model_config.linear_attn_config
+        self.head_dim = kda_config["head_dim"]
+        self.num_heads = kda_config["num_heads"]
+        self.layer_idx = layer_idx
+        self.prefix = prefix
+        assert self.num_heads % self.tp_size == 0
+        self.local_num_heads = divide(self.num_heads, self.tp_size)
+
+        projection_size = self.head_dim * self.num_heads
+        self.conv_size = kda_config["short_conv_kernel_size"]
+
+        self.q_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+        self.k_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.k_proj",
+        )
+        self.v_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.v_proj",
+        )
+
+        self.f_a_proj = ReplicatedLinear(
+            self.hidden_size,
+            self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.f_a_proj",
+        )
+
+        self.f_b_proj = ColumnParallelLinear(
+            self.head_dim,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.f_b_proj",
+        )
+        self.dt_bias = nn.Parameter(
+            torch.empty(divide(projection_size, self.tp_size), dtype=torch.float32)
+        )
+
+        set_weight_attrs(self.dt_bias, {"weight_loader": sharded_weight_loader(0)})
+
+        self.b_proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.b_proj",
+        )
+
+        self.q_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.q_conv1d",
+        )
+        self.k_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.k_conv1d",
+        )
+        self.v_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.v_conv1d",
+        )
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `set_weight_attrs`
+        # doesn't allow to override it
+        self.q_conv1d.weight.data = self.q_conv1d.weight.data.unsqueeze(1)
+        self.k_conv1d.weight.data = self.k_conv1d.weight.data.unsqueeze(1)
+        self.v_conv1d.weight.data = self.v_conv1d.weight.data.unsqueeze(1)
+
+        self.A_log = nn.Parameter(
+            torch.empty(1, 1, self.local_num_heads, 1, dtype=torch.float32)
+        )
+        set_weight_attrs(self.A_log, {"weight_loader": sharded_weight_loader(2)})
+
+        self.g_a_proj = ReplicatedLinear(
+            self.hidden_size,
+            self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.g_a_proj",
+        )
+        self.g_b_proj = ColumnParallelLinear(
+            self.head_dim,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.g_b_proj",
+        )
+        self.o_norm = FusedRMSNormGated(
+            self.head_dim, eps=rms_norm_eps, activation="sigmoid"
+        )
+        self.o_proj = RowParallelLinear(
+            projection_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        num_tokens = hidden_states.size(0)
+        q = self.q_proj(hidden_states)[0]
+        k = self.k_proj(hidden_states)[0]
+        v = self.v_proj(hidden_states)[0]
+
+        beta = self.b_proj(hidden_states)[0].float().sigmoid()
+        g1 = self.f_b_proj(self.f_a_proj(hidden_states)[0])[0]
+        g1 = fused_kda_gate(g1, self.A_log, self.head_dim, g_bias=self.dt_bias)
+        beta = beta.unsqueeze(0)
+        g1 = g1.unsqueeze(0)
+
+        g_proj_states = self.g_b_proj(self.g_a_proj(hidden_states)[0])[0]
+        g2 = rearrange(g_proj_states, "... (h d) -> ... h d", d=self.head_dim)
+
+        core_attn_out = torch.zeros(
+            (1, num_tokens, self.local_num_heads, self.head_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+        torch.ops.vllm.kda_attention(
+            q,
+            k,
+            v,
+            g1,
+            beta,
+            core_attn_out,
+            self.prefix,
+        )
+        core_attn_out = self.o_norm(core_attn_out, g2)
+        core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
+        output[:] = self.o_proj(core_attn_out)[0]
+
+    def _forward(
+        self,
+        q_proj_states: torch.Tensor,
+        k_proj_states: torch.Tensor,
+        v_proj_states: torch.Tensor,
+        g1: torch.Tensor,
+        beta: torch.Tensor,
+        core_attn_out: torch.Tensor,
+    ) -> None:
+        forward_context = get_forward_context()
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+
+        if attn_metadata is None:
+            #     # V1 profile run
+            return
+
+        assert isinstance(attn_metadata, dict)
+        attn_metadata = attn_metadata[self.prefix]
+        assert isinstance(attn_metadata, GDNAttentionMetadata)
+        has_initial_state = attn_metadata.has_initial_state
+        non_spec_query_start_loc = attn_metadata.non_spec_query_start_loc
+        non_spec_state_indices_tensor = attn_metadata.non_spec_state_indices_tensor  # noqa: E501
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        constant_caches = self.kv_cache[forward_context.virtual_engine]
+
+        q_proj_states = q_proj_states[:num_actual_tokens]
+        k_proj_states = k_proj_states[:num_actual_tokens]
+        v_proj_states = v_proj_states[:num_actual_tokens]
+        g1 = g1[:num_actual_tokens]
+        beta = beta[:num_actual_tokens]
+
+        (conv_state_q, conv_state_k, conv_state_v, recurrent_state) = constant_caches
+        # deal with strides
+        conv_state_q = conv_state_q.transpose(-1, -2)
+        conv_state_k = conv_state_k.transpose(-1, -2)
+        conv_state_v = conv_state_v.transpose(-1, -2)
+
+        q_conv_weights = self.q_conv1d.weight.view(
+            self.q_conv1d.weight.size(0), self.q_conv1d.weight.size(2)
+        )
+        k_conv_weights = self.k_conv1d.weight.view(
+            self.k_conv1d.weight.size(0), self.k_conv1d.weight.size(2)
+        )
+        v_conv_weights = self.v_conv1d.weight.view(
+            self.v_conv1d.weight.size(0), self.v_conv1d.weight.size(2)
+        )
+        if attn_metadata.num_prefills > 0:
+            q_proj_states = q_proj_states.transpose(0, 1)
+            k_proj_states = k_proj_states.transpose(0, 1)
+            v_proj_states = v_proj_states.transpose(0, 1)
+            q = causal_conv1d_fn(
+                q_proj_states,
+                q_conv_weights,
+                self.q_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_q,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+            k = causal_conv1d_fn(
+                k_proj_states,
+                k_conv_weights,
+                self.k_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_k,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+            v = causal_conv1d_fn(
+                v_proj_states,
+                v_conv_weights,
+                self.v_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_v,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+        else:
+            decode_conv_indices = non_spec_state_indices_tensor[
+                : attn_metadata.num_actual_tokens
+            ]
+            q = causal_conv1d_update(
+                q_proj_states,
+                conv_state_q,
+                q_conv_weights,
+                self.q_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+            k = causal_conv1d_update(
+                k_proj_states,
+                conv_state_k,
+                k_conv_weights,
+                self.k_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+            v = causal_conv1d_update(
+                v_proj_states,
+                conv_state_v,
+                v_conv_weights,
+                self.v_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+
+        q, k, v = map(
+            lambda x: rearrange(x, "n (h d) -> 1 n h d", d=self.head_dim), (q, k, v)
+        )
+
+        if attn_metadata.num_prefills > 0:
+            zero_idx = non_spec_state_indices_tensor[~has_initial_state]
+            recurrent_state[zero_idx] = 0
+            initial_state = recurrent_state[non_spec_state_indices_tensor].contiguous()
+            (
+                core_attn_out_non_spec,
+                last_recurrent_state,
+            ) = chunk_kda(
+                q=q,
+                k=k,
+                v=v,
+                g=g1,
+                beta=beta,
+                initial_state=initial_state,
+                output_final_state=True,
+                use_qk_l2norm_in_kernel=True,
+                cu_seqlens=non_spec_query_start_loc,
+            )
+            # Init cache
+            recurrent_state[non_spec_state_indices_tensor] = last_recurrent_state
+        else:
+            (
+                core_attn_out_non_spec,
+                last_recurrent_state,
+            ) = fused_recurrent_kda(
+                q=q,
+                k=k,
+                v=v,
+                g=g1,
+                beta=beta,
+                initial_state=recurrent_state,
+                use_qk_l2norm_in_kernel=True,
+                cu_seqlens=non_spec_query_start_loc[: attn_metadata.num_decodes + 1],
+                ssm_state_indices=non_spec_state_indices_tensor,
+            )
+        core_attn_out[0, :num_actual_tokens] = core_attn_out_non_spec[
+            0, :num_actual_tokens
+        ]
diff --git a/model_executor/layers/layernorm.py b/model_executor/layers/layernorm.py
new file mode 100644
index 0000000..7bb535b
--- /dev/null
+++ b/model_executor/layers/layernorm.py
@@ -0,0 +1,578 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Custom normalization layers."""
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.batch_invariant import (
+    rms_norm_batch_invariant,
+    vllm_is_batch_invariant,
+)
+from vllm.platforms import current_platform
+
+
+def rms_norm(
+    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    from vllm import _custom_ops as ops
+
+    if vllm_is_batch_invariant():
+        return rms_norm_batch_invariant(x, weight, variance_epsilon)
+    out = torch.empty_like(x)
+    ops.rms_norm(
+        out,
+        x,
+        weight,
+        variance_epsilon,
+    )
+    return out
+
+
+def fused_add_rms_norm(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor,
+    variance_epsilon: float,
+    residual_alpha: float = 1.0
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from vllm import _custom_ops as ops
+
+    if vllm_is_batch_invariant():
+        return rms_norm_batch_invariant(
+            x + residual, weight, variance_epsilon
+        ), x + residual
+    x, residual = ops.fused_add_rms_norm(
+        x,
+        residual,
+        weight,
+        variance_epsilon,
+        residual_alpha,
+    )
+    return x, residual
+
+
+def poly_norm(
+    x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    from vllm import _custom_ops as ops
+
+    out = torch.empty_like(x)
+    ops.poly_norm(
+        out,
+        x,
+        weight,
+        bias,
+        variance_epsilon,
+    )
+    return out
+
+
+def dispatch_rocm_rmsnorm_func(
+    with_fused_add: bool, dtype: torch.dtype, use_aiter: bool = False
+):
+    use_aiter = use_aiter and dtype in [
+        torch.float16,
+        torch.bfloat16,
+    ]
+
+    if use_aiter and with_fused_add:
+        return rocm_aiter_ops.rms_norm2d_with_add
+    if use_aiter:
+        return rocm_aiter_ops.rms_norm
+
+    # fall back to CUDA implementation
+    if with_fused_add:
+        return fused_add_rms_norm
+    return rms_norm
+
+  
+def rms_norm_qk(
+    input_q: torch.Tensor,
+    input_k: torch.Tensor,
+    weight_q: torch.Tensor,
+    weight_k: torch.Tensor,
+    epsilon: float,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from vllm import _custom_ops as ops
+    output_q = torch.empty_like(input_q)
+    output_k = torch.empty_like(input_k)
+    ops.rms_norm_qk(
+        output_q, output_k, input_q, input_k, weight_q, weight_k, epsilon
+    )
+    return output_q, output_k
+  
+
+@CustomOp.register("rms_norm_qk")
+class RMSNormQK(CustomOp):
+    """
+    Root Mean Square Normalization for Query/Key tensors.
+
+    Computes:
+        q -> w_q * q / sqrt(E[q^2] + eps)
+        k -> w_k * k / sqrt(E[k^2] + eps)
+    """
+    def __init__(
+        self,
+        hidden_size_q: int,
+        hidden_size_k: int,
+        eps: float = 1e-6,
+    ) -> None:
+        super().__init__()
+
+        self.hidden_size_q = hidden_size_q
+        self.hidden_size_k = hidden_size_k
+        self.variance_epsilon = eps
+
+    def forward_native(
+        self,
+        input_q: torch.Tensor,
+        input_k: torch.Tensor,
+        weight_q: torch.Tensor,
+        weight_k: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if input_q.shape[-1] != self.hidden_size_q:
+            raise ValueError(
+                f"[RMSNormQK] Expected input_q last dim = {self.hidden_size_q}, "
+                f"but got {input_q.shape[-1]}"
+            )
+        if input_k.shape[-1] != self.hidden_size_k:
+            raise ValueError(
+                f"[RMSNormQK] Expected input_k last dim = {self.hidden_size_k}, "
+                f"but got {input_k.shape[-1]}"
+            )
+        if input_q.dtype != input_k.dtype:
+            raise TypeError(
+                f"[RMSNormQK] Expected input_q and input_k have same dtype, "
+                f"but got {input_q.dtype} vs {input_k.dtype}"
+            )
+
+        xq = input_q.to(torch.float32)
+        xk = input_k.to(torch.float32)
+
+        var_q = xq.pow(2).mean(dim=-1, keepdim=True)
+        var_k = xk.pow(2).mean(dim=-1, keepdim=True)
+
+        out_q = xq * torch.rsqrt(var_q + self.variance_epsilon)
+        out_k = xk * torch.rsqrt(var_k + self.variance_epsilon)
+
+        out_q = out_q * weight_q
+        out_k = out_k * weight_k
+
+        return out_q.to(input_q.dtype), out_k.to(input_k.dtype)
+   
+    def forward_cuda(
+        self,
+        input_q: torch.Tensor,
+        input_k: torch.Tensor,
+        weight_q: torch.Tensor,
+        weight_k: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if input_q.shape[-1] != self.hidden_size_q:
+            raise ValueError(
+                f"[RMSNormQK] CUDA path: Expected input_q last dim = {self.hidden_size_q}, "
+                f"but got {input_q.shape[-1]}"
+            )
+        if input_k.shape[-1] != self.hidden_size_k:
+            raise ValueError(
+                f"[RMSNormQK] CUDA path: Expected input_k last dim = {self.hidden_size_k}, "
+                f"but got {input_k.shape[-1]}"
+            )
+        if input_q.dtype != input_k.dtype:
+            raise TypeError(
+                f"[RMSNormQK] Expected input_q and input_k to have same dtype, "
+                f"but got {input_q.dtype} vs {input_k.dtype}"
+            )
+        return rms_norm_qk(
+            input_q,
+            input_k,
+            weight_q,
+            weight_k,
+            self.variance_epsilon,
+        )    
+
+    def forward_xpu(
+        self,
+        input_q: torch.Tensor,
+        input_k: torch.Tensor,
+        weight_q: torch.Tensor,
+        weight_k: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        from vllm._ipex_ops import ipex_ops as ops
+
+        out_q = ops.rms_norm(
+            input_q,
+            weight_q,
+            self.variance_epsilon,
+        )
+        out_k = ops.rms_norm(
+            input_k,
+            weight_k,
+            self.variance_epsilon,
+        )
+
+        return out_q, out_k
+
+    def extra_repr(self) -> str:
+        return (
+            f"RMSNormQK(hidden_size_q={self.hidden_size_q}, "
+            f"hidden_size_k={self.hidden_size_k}, "
+            f"eps={self.variance_epsilon}, "
+        )
+
+@CustomOp.register("rms_norm")
+class RMSNorm(CustomOp):
+    """Root mean square normalization.
+
+    Computes x -> w * x / sqrt(E[x^2] + eps) where w is the learned weight.
+    Refer to https://arxiv.org/abs/1910.07467
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-6,
+        var_hidden_size: int | None = None,
+        has_weight: bool = True,
+        dtype: torch.dtype | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.hidden_size = hidden_size
+        self.variance_epsilon = eps
+        self.variance_size_override = (
+            None if var_hidden_size == hidden_size else var_hidden_size
+        )
+        weight_dtype = dtype or torch.get_default_dtype()
+        self.has_weight = has_weight
+        self.weight = torch.ones(hidden_size, dtype=weight_dtype)
+        if self.has_weight:
+            self.weight = nn.Parameter(self.weight)
+
+        if current_platform.is_rocm():
+            aiter_rmsnorm_enabled = rocm_aiter_ops.is_rmsnorm_enabled()
+            self.rocm_norm_func = dispatch_rocm_rmsnorm_func(
+                with_fused_add=False,
+                dtype=weight_dtype,
+                use_aiter=aiter_rmsnorm_enabled,
+            )
+            self.rocm_norm_func_with_add = dispatch_rocm_rmsnorm_func(
+                with_fused_add=True, dtype=weight_dtype, use_aiter=aiter_rmsnorm_enabled
+            )
+
+    @staticmethod
+    def forward_static(
+        x: torch.Tensor,
+        variance_epsilon: float,
+        hidden_size: int,
+        orig_dtype: torch.dtype,
+        weight: torch.Tensor | None = None,
+        residual: torch.Tensor | None = None,
+        variance_size_override: int | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """PyTorch-native implementation equivalent to forward()."""
+        x = x.to(torch.float32)
+        if residual is not None:
+            # residual promoted f16->f32 automatically,
+            # otherwise Inductor eliminates the casts to and from f16,
+            # increasing memory usage (and complicating pattern matching)
+            x = x + residual
+            residual = x.to(orig_dtype)
+
+        if x.shape[-1] != hidden_size:
+            raise ValueError(
+                f"Expected hidden_size to be {hidden_size}, but found: {x.shape[-1]}"
+            )
+
+        if variance_size_override is None:
+            x_var = x
+        else:
+            if hidden_size < variance_size_override:
+                raise ValueError(
+                    "Expected hidden_size to be at least "
+                    f"{variance_size_override}, but found: {hidden_size}"
+                )
+
+            x_var = x[:, :, :variance_size_override]
+
+        variance = x_var.pow(2).mean(dim=-1, keepdim=True)
+
+        x = x * torch.rsqrt(variance + variance_epsilon)
+        x = x.to(orig_dtype)
+        if weight is not None:
+            x = x * weight
+        if residual is None:
+            return x
+        else:
+            return x, residual
+
+    def forward_native(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """PyTorch-native implementation equivalent to forward()."""
+
+        return self.forward_static(
+            x,
+            self.variance_epsilon,
+            self.hidden_size,
+            x.dtype,
+            self.weight.data if self.has_weight else None,
+            residual,
+            self.variance_size_override,
+        )
+
+    def forward_cuda(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+        residual_alpha: float = 1.0,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if self.variance_size_override is not None:
+            return self.forward_native(x, residual)
+
+        add_residual = residual is not None
+        if add_residual:
+            return fused_add_rms_norm(
+                x, residual, self.weight.data, self.variance_epsilon,residual_alpha
+            )
+        else:
+            return rms_norm(x, self.weight.data, self.variance_epsilon)
+
+    def forward_hip(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if self.variance_size_override is not None:
+            return self.forward_native(x, residual)
+
+        add_residual = residual is not None
+        if add_residual:
+            return self.rocm_norm_func_with_add(
+                x, residual, self.weight.data, self.variance_epsilon
+            )
+        else:
+            return self.rocm_norm_func(x, self.weight.data, self.variance_epsilon)
+
+    def forward_xpu(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if self.variance_size_override is not None:
+            return self.forward_native(x, residual)
+
+        from vllm._ipex_ops import ipex_ops as ops
+
+        if residual is not None:
+            ops.fused_add_rms_norm(
+                x,
+                residual,
+                self.weight.data,
+                self.variance_epsilon,
+            )
+            return x, residual
+        return ops.rms_norm(
+            x,
+            self.weight.data,
+            self.variance_epsilon,
+        )
+
+    def extra_repr(self) -> str:
+        s = f"hidden_size={self.weight.data.size(0)}"
+        s += f", eps={self.variance_epsilon}"
+        return s
+
+
+@CustomOp.register("gemma_rms_norm")
+class GemmaRMSNorm(CustomOp):
+    """RMS normalization for Gemma.
+
+    Two differences from the above RMSNorm:
+        1. x * (1 + w) instead of x * w.
+        2. (x * w).to(orig_dtype) instead of x.to(orig_dtype) * w.
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-6,
+    ) -> None:
+        super().__init__()
+        self.weight = nn.Parameter(torch.zeros(hidden_size))
+        self.variance_epsilon = eps
+
+    @staticmethod
+    def forward_static(
+        weight: torch.Tensor,
+        variance_epsilon: float,
+        x: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """PyTorch-native implementation equivalent to forward()."""
+        orig_dtype = x.dtype
+        if residual is not None:
+            x = (
+                x.float() + residual.float()
+                if orig_dtype == torch.float16
+                else x + residual
+            )
+            residual = x
+
+        x = x.float()
+        variance = x.pow(2).mean(dim=-1, keepdim=True)
+        x = x * torch.rsqrt(variance + variance_epsilon)
+        # Llama does x.to(float16) * w whilst Gemma is (x * w).to(float16)
+        # See https://github.com/huggingface/transformers/pull/29402
+        x = x * (1.0 + weight.float())
+        x = x.to(orig_dtype)
+        return x if residual is None else (x, residual)
+
+    def forward_native(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        """PyTorch-native implementation equivalent to forward()."""
+        return self.forward_static(self.weight.data, self.variance_epsilon, x, residual)
+
+    def forward_cuda(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if torch.compiler.is_compiling():
+            return self.forward_native(x, residual)
+
+        if not getattr(self, "_is_compiled", False):
+            self.forward_static = torch.compile(  # type: ignore
+                self.forward_static
+            )
+            self._is_compiled = True
+        return self.forward_native(x, residual)
+
+
+@CustomOp.register("rms_norm_gated")
+class RMSNormGated(CustomOp):
+    """RMS Normalization with optional gating.
+
+    This is a native PyTorch implementation that supports:
+    - Standard RMS normalization
+    - Group RMS normalization
+    - Optional gating with SiLU activation
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-5,
+        group_size: int | None = None,
+        norm_before_gate: bool = False,
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ):
+        """Initialize RMSNormGated.
+
+        Args:
+            hidden_size: Size of the hidden dimension
+            eps: Epsilon for numerical stability
+            group_size: If not None, do GroupNorm with each group
+                        having group_size elements.
+                        group_size=None is equivalent to group_size=hidden_size
+                        (i.e. there's only 1 group).
+            norm_before_gate: If True and z is provided: out = norm(x) * silu(z)
+                              If False and z is provided: out = norm(x * silu(z))
+            device: Device to create parameters on
+            dtype: Data type for parameters
+        """
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+        self.eps = eps
+        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.register_parameter("bias", None)
+        self.group_size = group_size
+        self.norm_before_gate = norm_before_gate
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        torch.nn.init.ones_(self.weight)
+
+    def forward_native(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        """
+        Native PyTorch implementation of RMS normalization with gating.
+
+        Args:
+            x: Input tensor
+            z: Optional gating tensor
+
+        Returns:
+            Normalized (and optionally gated) tensor
+
+        If z is not None:
+            - norm_before_gate=True: out = norm(x) * silu(z)
+            - norm_before_gate=False: out = norm(x * silu(z))
+        """
+        # Apply gating before normalization if needed
+        if z is not None and not self.norm_before_gate:
+            x = x * F.silu(z)
+
+        # RMS Normalization
+        if self.group_size is None:
+            # Standard RMS norm across the last dimension
+            variance = x.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x * torch.rsqrt(variance + self.eps)
+            out = x_normed * self.weight
+        else:
+            # Group RMS norm
+            from einops import rearrange
+
+            x_group = rearrange(x, "... (g d) -> ... g d", d=self.group_size)
+            variance = x_group.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x_group * torch.rsqrt(variance + self.eps)
+            out = rearrange(x_normed, "... g d -> ... (g d)") * self.weight
+
+        # Apply gating after normalization if needed
+        if z is not None and self.norm_before_gate:
+            out = out * F.silu(z)
+
+        return out
+
+    def forward_cuda(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        from vllm.model_executor.layers.fla.ops.layernorm_guard import rmsnorm_fn
+
+        return rmsnorm_fn(
+            x,
+            self.weight,
+            self.bias,
+            z=z,
+            eps=self.eps,
+            group_size=self.group_size,
+            norm_before_gate=self.norm_before_gate,
+        )
+
+
+class LayerNorm(nn.Module):
+    """
+    Layer Normalization.
+    """
+
+    def __init__(self, dim: int, eps: float = 1e-6):
+        super().__init__()
+        self.dim = dim
+        self.eps = eps
+        self.weight = nn.Parameter(torch.ones(dim, dtype=torch.float32))
+        self.bias = nn.Parameter(torch.zeros(dim, dtype=torch.float32))
+
+    def forward(self, x: torch.Tensor):
+        return F.layer_norm(
+            x.float(), (self.dim,), self.weight, self.bias, self.eps
+        ).type_as(x)
diff --git a/model_executor/layers/lightning_attn.py b/model_executor/layers/lightning_attn.py
new file mode 100644
index 0000000..9985368
--- /dev/null
+++ b/model_executor/layers/lightning_attn.py
@@ -0,0 +1,729 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+from einops import rearrange
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def _fwd_diag_kernel(
+    Q,
+    K,
+    V,
+    Out,
+    S,
+    b: tl.constexpr,
+    h: tl.constexpr,
+    n,
+    d: tl.constexpr,
+    e: tl.constexpr,
+    BLOCK: tl.constexpr,
+    NUM_BLOCK,
+    CBLOCK: tl.constexpr,
+):
+    # This kernel computes the diagonal blocks of the attention matrix
+    # Each diagonal block represents attention
+    # where queries attend to keys in the same block
+    off = tl.program_id(0)
+    off_bh = off // NUM_BLOCK  # batch-head index
+    off_block = off % NUM_BLOCK  # block index within the sequence
+    off_cblock = tl.program_id(1)  # sub-block index within a block
+
+    off_h = off_bh % h  # head index
+
+    # Calculate base offsets for the current batch and head
+    qk_offset = off_bh * n * d
+    v_offset = off_bh * n * e
+    o_offset = off_bh * n * e
+
+    # Calculate offsets for the current block
+    block_offset = off_block * BLOCK
+    qk_block_offset = block_offset * d
+    v_block_offset = block_offset * e
+    o_block_offset = block_offset * e
+
+    # Calculate offsets for the current sub-block
+    cblock_offset = off_cblock * CBLOCK
+    q_cblock_offset = cblock_offset * d
+    o_cblock_offset = cblock_offset * e
+
+    # Calculate pointers to the query, key, value, and output tensors
+    Q_block_ptr = (
+        Q
+        + qk_offset
+        + qk_block_offset
+        + q_cblock_offset
+        + tl.arange(0, CBLOCK)[:, None] * d
+        + tl.arange(0, d)[None, :]
+    )
+    K_trans_block_ptr = (
+        K
+        + qk_offset
+        + qk_block_offset
+        + tl.arange(0, CBLOCK)[None, :] * d
+        + tl.arange(0, d)[:, None]
+    )
+    V_block_ptr = (
+        V
+        + v_offset
+        + v_block_offset
+        + tl.arange(0, CBLOCK)[:, None] * e
+        + tl.arange(0, e)[None, :]
+    )
+    O_block_ptr = (
+        Out
+        + o_offset
+        + o_block_offset
+        + o_cblock_offset
+        + tl.arange(0, CBLOCK)[:, None] * e
+        + tl.arange(0, e)[None, :]
+    )
+
+    # Load the decay rate for the current head
+    S_block_ptr = S + off_h
+    s = tl.load(S_block_ptr)
+
+    i = off_cblock
+    q_index = tl.arange(0, CBLOCK) + i * CBLOCK
+
+    # Load query values
+    q = tl.load(Q_block_ptr, mask=block_offset + q_index[:, None] < n, other=0.0).to(
+        tl.float32
+    )
+
+    # Initialize output accumulator
+    qkv = tl.zeros([CBLOCK, e], dtype=tl.float32)
+
+    # Process all sub-blocks up to and
+    # including the current one (causal attention)
+    for j in range(i + 1):
+        kv_index = tl.arange(0, CBLOCK) + j * CBLOCK
+        diff = q_index[:, None] - kv_index[None, :]
+        s_index = s * diff
+        # Apply causal mask: only attend to positions before the current one
+        s_index = tl.where(diff >= 0, -s_index, float("-inf"))
+        decay = tl.exp(s_index)
+
+        # Load key and value
+        k_trans = tl.load(
+            K_trans_block_ptr,
+            mask=block_offset + kv_index[None, :] < n,
+            other=0.0,
+        ).to(tl.float32)
+        v = tl.load(
+            V_block_ptr,
+            mask=block_offset + kv_index[:, None] < n,
+            other=0.0,
+        ).to(tl.float32)
+
+        # Compute attention scores and apply decay
+        qk = tl.dot(q, k_trans) * decay
+
+        # Compute weighted values and accumulate
+        qkv += tl.dot(qk, v)
+
+        # Move to the next sub-block
+        K_trans_block_ptr += CBLOCK * d
+        V_block_ptr += CBLOCK * e
+
+    # Store the result
+    tl.store(
+        O_block_ptr,
+        qkv.to(O_block_ptr.dtype.element_ty),
+        mask=block_offset + q_index[:, None] < n,
+    )
+
+
+@triton.jit
+def _fwd_kv_parallel(
+    K,
+    V,
+    K_decay,
+    KV,
+    b: tl.constexpr,
+    h: tl.constexpr,
+    n,
+    d: tl.constexpr,
+    e: tl.constexpr,
+    BLOCK: tl.constexpr,
+    NUM_BLOCK,
+    D_FBLOCK: tl.constexpr,
+    E_FBLOCK: tl.constexpr,
+    NUM_FBLOCK: tl.constexpr,
+    CBLOCK: tl.constexpr,
+    NUM_CBLOCK: tl.constexpr,
+):
+    # This kernel computes the key-value outer
+    # products for each block in parallel
+    off_bh = tl.program_id(0)  # batch-head index
+    off_block = tl.program_id(1)  # block index
+
+    off_h = off_bh % h  # head index
+
+    block_offset = off_block * BLOCK
+
+    # Calculate offsets for the current block
+    k_block_offset = block_offset * d
+    v_block_offset = block_offset * e
+    kv_block_offset = off_block * d * e
+
+    # Calculate base offsets for the current batch and head
+    k_offset = off_bh * n * d
+    v_offset = off_bh * n * e
+    kv_offset = off_bh * NUM_BLOCK * d * e
+
+    # Calculate pointers to the key, value, and key-value tensors
+    K_trans_block_ptr = (
+        K
+        + k_offset
+        + k_block_offset
+        + tl.arange(0, CBLOCK)[None, :] * d
+        + tl.arange(0, D_FBLOCK)[:, None]
+    )
+    V_block_ptr = (
+        V
+        + v_offset
+        + v_block_offset
+        + tl.arange(0, CBLOCK)[:, None] * e
+        + tl.arange(0, E_FBLOCK)[None, :]
+    )
+    KV_block_ptr = (
+        KV
+        + kv_offset
+        + kv_block_offset
+        + tl.arange(0, D_FBLOCK)[:, None] * e
+        + tl.arange(0, E_FBLOCK)[None, :]
+    )
+
+    # Load the decay factors for the current head and block
+    k_decay_ptr = K_decay + off_h * BLOCK + tl.arange(0, CBLOCK)[None, :]
+
+    kv_index = tl.arange(0, CBLOCK)
+
+    # Initialize the key-value outer product accumulator
+    kv = tl.zeros([D_FBLOCK, E_FBLOCK], dtype=tl.float32)
+
+    # Handle the last block which might be smaller than BLOCK
+    split_n = n - (NUM_BLOCK - 1) * BLOCK if off_block == NUM_BLOCK - 1 else BLOCK
+    left_shift = tl.cdiv(split_n, CBLOCK) * CBLOCK - split_n
+    num_blocks = min(tl.cdiv(split_n, CBLOCK), NUM_CBLOCK)
+    k_decay_ptr += (NUM_CBLOCK - num_blocks) * CBLOCK
+
+    # Process all sub-blocks in the current block
+    for j in range(num_blocks):
+        left_bound = (1 - j) * left_shift
+        # Load key and value, handling boundary conditions
+        k_trans = tl.load(
+            K_trans_block_ptr - left_shift * d,
+            mask=kv_index[None, :] >= left_bound,
+            other=0.0,
+        )
+        v = tl.load(
+            V_block_ptr - left_shift * e,
+            mask=kv_index[:, None] >= left_bound,
+            other=0.0,
+        )
+
+        # Load decay factor and compute weighted key-value outer product
+        k_decay = tl.load(k_decay_ptr)
+        kv += tl.dot(k_trans * k_decay, v)
+
+        # Move to the next sub-block
+        K_trans_block_ptr += CBLOCK * d
+        V_block_ptr += CBLOCK * e
+        k_decay_ptr += CBLOCK
+
+    # Store the result
+    tl.store(KV_block_ptr, kv.to(KV_block_ptr.dtype.element_ty))
+
+
+@triton.jit
+def _fwd_kv_reduce(
+    S,
+    KV,
+    KV_HISTORY,
+    b: tl.constexpr,
+    h: tl.constexpr,
+    n,
+    d: tl.constexpr,
+    e: tl.constexpr,
+    BLOCK: tl.constexpr,
+    NUM_BLOCK,
+    D_FBLOCK: tl.constexpr,
+    E_FBLOCK: tl.constexpr,
+):
+    # This kernel reduces the key-value outer products
+    # across blocks and updates the KV history
+    off_bh = tl.program_id(0)  # batch-head index
+    off_h = off_bh % h  # head index
+
+    kv_offset = off_bh * NUM_BLOCK * d * e
+
+    # Calculate pointer to the key-value tensor
+    KV_block_ptr = (
+        KV
+        + kv_offset
+        + tl.arange(0, D_FBLOCK)[:, None] * e
+        + tl.arange(0, E_FBLOCK)[None, :]
+    )
+
+    # Load the decay rate for the current head
+    s_ptrs = S + off_h
+    s = tl.load(s_ptrs)
+
+    # Calculate pointer to the key-value history tensor
+    kv_history_offset = off_bh * d * e
+    KV_HISTORY_block_ptr = (
+        KV_HISTORY
+        + kv_history_offset
+        + tl.arange(0, D_FBLOCK)[:, None] * e
+        + tl.arange(0, E_FBLOCK)[None, :]
+    )
+
+    # Load the previous key-value history
+    kv_pre = tl.load(KV_HISTORY_block_ptr).to(tl.float32)
+
+    # Process all blocks in reverse order to compute the prefix sum
+    for i in range(NUM_BLOCK):
+        block_size = min(n - i * BLOCK, BLOCK)
+        # Compute decay factor for the current block
+        block_decay = tl.exp(-s.to(tl.float32) * block_size)
+
+        # Load the current key-value outer product
+        kv_cur = tl.load(KV_block_ptr).to(tl.float32)
+        # Store the previous key-value history to the current block
+        tl.store(KV_block_ptr, kv_pre.to(KV_block_ptr.dtype.element_ty))
+
+        # Update the key-value history with the current block
+        kv_pre = block_decay * kv_pre + kv_cur
+        KV_block_ptr += d * e
+
+    # Store the updated key-value history
+    tl.store(KV_HISTORY_block_ptr, kv_pre)
+
+
+@triton.jit
+def _fwd_none_diag_kernel(
+    Q,
+    Out,
+    S,
+    KV,
+    b: tl.constexpr,
+    h: tl.constexpr,
+    n,
+    d: tl.constexpr,
+    e: tl.constexpr,
+    BLOCK: tl.constexpr,
+    NUM_BLOCK,
+    E_FBLOCK: tl.constexpr,
+    CBLOCK: tl.constexpr,
+    NUM_CBLOCK: tl.constexpr,
+):
+    # This kernel computes the non-diagonal blocks of the attention matrix
+    # Each non-diagonal block represents attention
+    # where queries attend to keys in different blocks
+    off_bh = tl.program_id(0)  # batch-head index
+    off_h = off_bh % h  # head index
+
+    off_nc = tl.program_id(1)
+    off_n = off_nc // NUM_CBLOCK  # block index
+    off_c = off_nc % NUM_CBLOCK  # sub-block index
+    off_e = tl.program_id(2)  # output feature block index
+
+    n_offset = off_n * BLOCK
+    c_offset = off_c * CBLOCK
+    e_offset = off_e * E_FBLOCK
+    block_offset = n_offset + c_offset
+
+    # Calculate offsets for the current batch, head, and block
+    q_offset = off_bh * n * d + (n_offset + c_offset) * d
+    o_offset = off_bh * n * e + (n_offset + c_offset) * e + e_offset
+    kv_offset = off_bh * NUM_BLOCK * d * e + off_n * d * e + e_offset
+
+    # Calculate pointers to the query, output, and key-value tensors
+    Q_block_ptr = (
+        Q + q_offset + tl.arange(0, CBLOCK)[:, None] * d + tl.arange(0, d)[None, :]
+    )
+    O_block_ptr = (
+        Out
+        + o_offset
+        + tl.arange(0, CBLOCK)[:, None] * e
+        + tl.arange(0, E_FBLOCK)[None, :]
+    )
+    KV_block_ptr = (
+        KV + kv_offset + tl.arange(0, d)[:, None] * e + tl.arange(0, E_FBLOCK)[None, :]
+    )
+
+    # Load the decay rate for the current head
+    S_block_ptr = S + off_h
+    s = tl.load(S_block_ptr)
+
+    c_array = tl.arange(0, CBLOCK)
+
+    # Load the key-value outer product for the current block
+    kv = tl.load(KV_block_ptr).to(tl.float32)
+    q_index = block_offset + tl.arange(0, CBLOCK)
+
+    # Load query values
+    q = tl.load(Q_block_ptr, mask=q_index[:, None] < n, other=0.0).to(tl.float32)
+
+    # Compute decay factors for the current sub-block
+    q_decay = tl.exp(-s.to(tl.float32) * (off_c * CBLOCK + c_array[:, None]))
+
+    # Compute non-diagonal attention output
+    qkv_none_diag = tl.dot(q, kv) * q_decay
+
+    # Load diagonal attention output (computed by _fwd_diag_kernel)
+    qkv_diag = tl.load(O_block_ptr, mask=q_index[:, None] < n, other=0.0).to(tl.float32)
+
+    # Combine diagonal and non-diagonal attention outputs
+    qkv = qkv_diag + qkv_none_diag
+
+    # Store the result
+    tl.store(
+        O_block_ptr, qkv.to(O_block_ptr.dtype.element_ty), mask=q_index[:, None] < n
+    )
+
+
+class _attention(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, q, k, v, s, kv_history):
+        # Forward pass of the lightning attention algorithm
+        q = q.contiguous()
+        k = k.contiguous()
+        v = v.contiguous()
+        s = s.contiguous()
+
+        # Check CUDA compute capability
+        capability = torch.cuda.get_device_capability()
+        if capability[0] < 8:
+            raise RuntimeError(
+                "Flash attention currently only supported",
+                "for compute capability >= 80",
+            )
+
+        # Get input dimensions
+        b, h, n, d = q.shape
+        e = v.shape[-1]
+
+        # Initialize output tensor
+        o = torch.empty((b, h, n, e), dtype=q.dtype, device=q.device)
+
+        # Set block sizes
+        BLOCK = 256
+        NUM_BLOCK = triton.cdiv(n, BLOCK)
+
+        CBLOCK = 32
+        NUM_CBLOCK = BLOCK // CBLOCK
+        assert BLOCK % CBLOCK == 0, "BLOCK must be a multiple of CBLOCK"
+
+        # Compute decay factors for keys
+        array = torch.arange(0, BLOCK, device=q.device) + 1
+        k_decay = torch.exp(-s * (BLOCK - array.reshape(1, -1)))
+
+        # Step 1: Compute diagonal blocks of attention
+        grid = (b * h * NUM_BLOCK, NUM_CBLOCK)
+        _fwd_diag_kernel[grid](
+            q,
+            k,
+            v,
+            o,
+            s,
+            b,
+            h,
+            n,
+            d,
+            e,
+            BLOCK=BLOCK,
+            NUM_BLOCK=NUM_BLOCK,
+            CBLOCK=CBLOCK,
+        )
+
+        # Set feature block sizes
+        NUM_FBLOCK = 1
+        D_FBLOCK = d // NUM_FBLOCK
+        assert d % NUM_FBLOCK == 0
+        E_FBLOCK = e // NUM_FBLOCK
+        assert e % NUM_FBLOCK == 0
+
+        CBLOCK = 64
+        NUM_CBLOCK = BLOCK // CBLOCK
+        assert BLOCK % CBLOCK == 0, "BLOCK must be a multiple of CBLOCK"
+
+        # Step 2: Compute key-value outer products for each block in parallel
+        kv = torch.empty((b, h, NUM_BLOCK, d, e), dtype=torch.float32, device=q.device)
+        grid = (b * h, NUM_BLOCK)
+        _fwd_kv_parallel[grid](
+            k,
+            v,
+            k_decay,
+            kv,
+            b,
+            h,
+            n,
+            d,
+            e,
+            BLOCK=BLOCK,
+            NUM_BLOCK=NUM_BLOCK,
+            D_FBLOCK=D_FBLOCK,
+            E_FBLOCK=E_FBLOCK,
+            NUM_FBLOCK=NUM_FBLOCK,
+            CBLOCK=CBLOCK,
+            NUM_CBLOCK=NUM_CBLOCK,
+        )
+
+        # Step 3: Reduce key-value outer products
+        # across blocks and update KV history
+        grid = (b * h, NUM_FBLOCK)
+        _fwd_kv_reduce[grid](
+            s,
+            kv,
+            kv_history,
+            b,
+            h,
+            n,
+            d,
+            e,
+            BLOCK=BLOCK,
+            NUM_BLOCK=NUM_BLOCK,
+            D_FBLOCK=D_FBLOCK,
+            E_FBLOCK=E_FBLOCK,
+        )
+
+        # Step 4: Compute non-diagonal blocks of attention
+        grid = (b * h, NUM_BLOCK * NUM_CBLOCK)
+        _fwd_none_diag_kernel[grid](
+            q,
+            o,
+            s,
+            kv,
+            b,
+            h,
+            n,
+            d,
+            e,
+            BLOCK=BLOCK,
+            NUM_BLOCK=NUM_BLOCK,
+            E_FBLOCK=E_FBLOCK,
+            CBLOCK=CBLOCK,
+            NUM_CBLOCK=NUM_CBLOCK,
+        )
+
+        # Save tensors for backward pass
+        ctx.save_for_backward(q, k, v, s, kv)
+        ctx.BLOCK = BLOCK
+
+        return o, torch.cat([kv, kv_history.unsqueeze(2)], dim=2)
+
+
+# Apply the lightning attention function
+lightning_attention_ = _attention.apply
+
+
+def lightning_attention(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    ed: torch.Tensor,
+    block_size: int = 256,
+    kv_history: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Apply lightning attention algorithm
+    to compute attention efficiently.
+
+    Args:
+        q: Query tensor of shape [batch, heads, seq_len, dim]
+        k: Key tensor of shape [batch, heads, seq_len, dim]
+        v: Value tensor of shape [batch, heads, seq_len, dim_v]
+        ed: Decay rate tensor of shape [heads]
+        block_size: Size of blocks for block-sparse attention
+        kv_history: Optional key-value history from previous computations
+
+    Returns:
+        output: Attention output
+        kv: Updated key-value history
+    """
+    d = q.shape[-1]
+    e = v.shape[-1]
+
+    if ed.dim() == 1:
+        ed = ed.view(1, -1, 1, 1)
+
+    # Split the computation into chunks for better parallelism
+    m = 128 if d >= 128 else 64
+    assert d % m == 0, f"Dimension d ({d}) must be divisible by m ({m})"
+    arr = [m * i for i in range(d // m + 1)]
+    if arr[-1] != d:
+        arr.append(d)
+    n = len(arr)
+    output = 0
+
+    # Initialize or clone key-value history
+    if kv_history is None:
+        kv_history = torch.zeros(
+            (q.shape[0], q.shape[1], d, e), dtype=torch.float32, device=q.device
+        )
+    else:
+        kv_history = kv_history.clone().contiguous()
+
+    # Process each chunk and accumulate results
+    for i in range(n - 1):
+        s = arr[i]
+        e = arr[i + 1]
+        q1 = q[..., s:e]
+        k1 = k[..., s:e]
+        o, kv = lightning_attention_(q1, k1, v, ed, kv_history)
+        output = output + o
+    return output, kv
+
+
+@triton.jit
+def _linear_attn_decode_kernel(
+    q_ptr,
+    k_ptr,
+    v_ptr,
+    kv_cache_ptr,
+    slope_rate,
+    slot_idx,
+    output_ptr,
+    D: tl.constexpr,
+    qkv_b_stride,
+    qkv_h_stride,
+    cache_b_stride,
+    cache_h_stride,
+    cache_d0_stride,
+    cache_d1_stride,
+    BLOCK_SIZE: tl.constexpr,
+):
+    """
+    Kernel for linear attention decoding with KV cache.
+
+    This kernel computes attention for a single token using the KV cache.
+    """
+    pid_b = tl.program_id(0)  # batch index
+    pid_h = tl.program_id(1)  # head index
+    pid_d = tl.program_id(2)  # dimension block index
+
+    # Load slot index for the current batch
+    slot_id = tl.load(slot_idx + pid_b).to(tl.int64)
+
+    # Skip if slot_id is -1 (padding)
+    if slot_id == -1:
+        return
+
+    batch_id = pid_b
+    head_id = pid_h
+
+    # Load decay rate for the current head
+    ratio = tl.load(slope_rate + pid_h)
+
+    # Calculate offsets for dimensions
+    qk_d_offsets = tl.arange(0, D)
+    v_d_offsets = tl.arange(0, BLOCK_SIZE) + pid_d * BLOCK_SIZE
+    cache_d_offsets = (
+        qk_d_offsets[:, None] * cache_d0_stride + v_d_offsets[None, :] * cache_d1_stride
+    )
+
+    # Calculate offsets for the current batch and head
+    q_offset = batch_id * qkv_b_stride + head_id * qkv_h_stride
+    k_offset = batch_id * qkv_b_stride + head_id * qkv_h_stride
+    v_offset = batch_id * qkv_b_stride + head_id * qkv_h_stride
+
+    cache_offset = slot_id * cache_b_stride + head_id * cache_h_stride
+
+    # Create masks for loading tensors
+    qk_mask = qk_d_offsets < D
+    v_mask = v_d_offsets < D
+
+    # Load query, key, and value tensors
+    q = tl.load(q_ptr + q_offset + qk_d_offsets, mask=qk_mask, other=0.0)
+    k = tl.load(k_ptr + k_offset + qk_d_offsets, mask=qk_mask, other=0.0)
+    v = tl.load(v_ptr + v_offset + v_d_offsets, mask=v_mask, other=0.0)
+
+    # Compute key-value outer product
+    kv_outer = k[:, None] * v[None, :]
+    kv_mask = qk_mask[:, None] & v_mask[None, :]
+
+    # Apply decay to previous KV cache
+    ratio = tl.exp(-ratio)
+    kv_ptr = kv_cache_ptr + cache_offset + cache_d_offsets
+    kv_cache_old = tl.load(kv_ptr, mask=kv_mask, other=0.0)
+    kv_outer = kv_outer + ratio * kv_cache_old
+
+    # Compute attention output
+    output = q[:, None].to(tl.float32) * kv_outer
+    output = tl.sum(output, axis=0)
+
+    # Update KV cache and store output
+    tl.store(kv_ptr, kv_outer, mask=kv_mask)
+    tl.store(output_ptr + q_offset + v_d_offsets, output, mask=v_mask)
+
+
+def linear_decode_forward_triton(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    kv_caches: torch.Tensor,
+    slope_rate: torch.Tensor,
+    slot_idx: torch.Tensor,
+    BLOCK_SIZE: int = 32,
+) -> torch.Tensor:
+    """
+    Perform linear attention decoding using Triton kernels.
+
+    Args:
+        q: Query tensor of shape [B, H, 1, D]
+        k: Key tensor of shape [B, H, 1, D]
+        v: Value tensor of shape [B, H, 1, D]
+        kv_caches: Key-value cache tensor
+        slope_rate: Decay rate tensor
+        slot_idx: Slot indices for batches
+        BLOCK_SIZE: Size of blocks for processing
+
+    Returns:
+        output: Attention output tensor
+    """
+    B, H, _, D = q.shape
+    assert k.shape == (B, H, 1, D)
+    assert v.shape == (B, H, 1, D)
+
+    # Initialize output tensor
+    output = torch.empty_like(q)
+
+    # Set grid dimensions for the kernel
+    grid = (B, H, D // BLOCK_SIZE)
+
+    # Calculate strides for tensors
+    qkv_b_stride = q.stride(0)
+    qkv_h_stride = q.stride(1)
+
+    cache_b_stride = kv_caches.stride(0)
+    cache_h_stride = kv_caches.stride(1)
+    cache_d0_stride = kv_caches.stride(2)
+    cache_d1_stride = kv_caches.stride(3)
+
+    # Launch the kernel
+    _linear_attn_decode_kernel[grid](
+        q,
+        k,
+        v,
+        kv_caches,
+        slope_rate,
+        slot_idx,
+        output,
+        D,
+        qkv_b_stride,
+        qkv_h_stride,
+        cache_b_stride,
+        cache_h_stride,
+        cache_d0_stride,
+        cache_d1_stride,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+
+    # Reshape output and return
+    output = rearrange(output, "b h n d -> b n (h d)")
+    return output.squeeze(1).contiguous()
diff --git a/model_executor/layers/linear.py b/model_executor/layers/linear.py
new file mode 100644
index 0000000..f7d2d96
--- /dev/null
+++ b/model_executor/layers/linear.py
@@ -0,0 +1,1496 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+import ast, re
+from abc import abstractmethod
+from typing import Any
+
+import torch
+from torch.nn.parameter import Parameter, UninitializedParameter
+
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_gather,
+    tensor_model_parallel_all_reduce,
+)
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.utils import dispatch_unquantized_gemm
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    BlockQuantScaleParameter,
+    ModelWeightParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    PerTensorScaleParameter,
+    RowvLLMParameter,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from compressed_tensors.quantization import QuantizationStrategy
+
+logger = init_logger(__name__)
+
+WEIGHT_LOADER_V2_SUPPORTED = [
+    "CompressedTensorsLinearMethod",
+    "CompressedTensorsLinearTransformMethod",
+    "BitBLASLinearMethod",
+    "GPTQBitBLASLinearMethod",
+    "AWQMarlinLinearMethod",
+    "AWQLinearMethod",
+    "GPTQMarlinLinearMethod",
+    "Fp8LinearMethod",
+    "MarlinLinearMethod",
+    "GPTQMarlin24LinearMethod",
+    "TPUInt8LinearMethod",
+    "GPTQLinearMethod",
+    "FBGEMMFp8LinearMethod",
+    "ModelOptFp8LinearMethod",
+    "IPEXAWQLinearMethod",
+    "IPEXGPTQLinearMethod",
+    "HQQMarlinMethod",
+    "QuarkLinearMethod",
+    "ModelOptNvFp4LinearMethod",
+    "PetitNvFp4LinearMethod",
+]
+
+LINEAR_OPT_SUPPORTED = [
+    "ColumnParallelLinear",
+    "ReplicatedLinear",
+    "RowParallelLinear",
+    "QKVParallelLinear"
+]
+
+def weight_quant(input):
+    assert input.dim() == 2
+    qmax = 127.0
+    abs_max = torch.abs(input).max(dim=1, keepdim=True)[0]
+    scale = abs_max / qmax
+    assert scale.shape == (input.shape[0], 1)
+    quantized = torch.round(input / scale)
+    quantized = torch.clamp(quantized, -qmax, qmax)
+    return quantized.to(torch.int8), scale.to(torch.float32)
+
+def adjust_bitblas_shard(param, shard_size, shard_offset):
+    bitblas_tile_size = getattr(param, "bitblas_tile_size", None)
+    if bitblas_tile_size is not None:
+        return (shard_size // bitblas_tile_size, shard_offset // bitblas_tile_size)
+
+    return shard_size, shard_offset
+
+
+def adjust_marlin_shard(param, shard_size, shard_offset):
+    marlin_tile_size = getattr(param, "marlin_tile_size", None)
+    if marlin_tile_size is None:
+        return shard_size, shard_offset
+
+    return shard_size * marlin_tile_size, shard_offset * marlin_tile_size
+
+
+def adjust_bitsandbytes_4bit_shard(
+    param: Parameter, shard_offsets: dict[str, tuple[int, int]], loaded_shard_id: str
+) -> tuple[int, int]:
+    """Adjust the quantization offsets and sizes for BitsAndBytes sharding."""
+
+    total, _ = shard_offsets["total"]
+    orig_offset, orig_size = shard_offsets[loaded_shard_id]
+
+    quantized_total = param.data.shape[0]
+    quantized_offset = orig_offset * quantized_total // total
+    quantized_size = orig_size * quantized_total // total
+
+    return quantized_size, quantized_offset
+
+
+def adjust_scalar_to_fused_array(param, loaded_weight, shard_id):
+    """For fused modules (QKV and MLP) we have an array of length
+    N that holds 1 scale for each "logical" matrix. So the param
+    is an array of length N. The loaded_weight corresponds to
+    one of the shards on disk. Here, we slice the param based on
+    the shard_id for loading.
+    """
+    qkv_idxs = {"q": 0, "k": 1, "v": 2}
+
+    if isinstance(shard_id, str):
+        shard_id = qkv_idxs[shard_id]
+    elif not isinstance(shard_id, int):
+        raise ValueError(f"Unknown Shard Id {shard_id}")
+
+    # AutoFP8 scales do not have a shape
+    # compressed-tensors scales do have a shape
+    if len(loaded_weight.shape) != 0:
+        assert loaded_weight.shape[0] == 1
+        loaded_weight = loaded_weight[0]
+
+    return param[shard_id], loaded_weight
+
+
+# TODO(Isotr0py): We might need a more flexible structure to handle
+# bitsandbytes shard offsets.
+def left_shift_bitsandbytes_4bit_shard(bnb_weight_attrs: dict[str, Any]):
+    """
+    Separate the BitsAndBytes 4-bit shard.
+
+    For example, given bnb weight attributes as below:
+    {
+        'bnb_shard_offsets': array([0, 4, 8, 16]),
+        'bnb_quant_state': {0: ..., 1: ..., 2: ...},
+    }
+
+    The function will return:
+    {
+        'bnb_shard_offsets': array([0, 4]),
+        'bnb_quant_state': {0: ...},
+    }
+    and
+    {
+        'bnb_shard_offsets': array([0, 4, 12]),
+        'bnb_quant_state': {0: ..., 1: ...},
+    }
+    """
+    shard_offsets = bnb_weight_attrs["bnb_shard_offsets"]
+    offset_l = shard_offsets[:2]
+    offset_r = shard_offsets[1:] - shard_offsets[1]
+    quant_state_l = {0: bnb_weight_attrs["bnb_quant_state"][0]}
+    quant_state_r = {
+        i - 1: bnb_weight_attrs["bnb_quant_state"][i]
+        for i in range(1, len(shard_offsets) - 1)
+    }
+    left = dict(bnb_shard_offsets=offset_l, bnb_quant_state=quant_state_l)
+    right = dict(bnb_shard_offsets=offset_r, bnb_quant_state=quant_state_r)
+    return left, right
+
+
+class LinearMethodBase(QuantizeMethodBase):
+    """Base class for different (maybe quantized) linear methods."""
+
+    @abstractmethod
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """Create weights for a linear layer.
+           The weights will be set as attributes of the layer.
+
+        Args:
+            layer: The layer that is using the LinearMethodBase factory.
+            input_size_per_partition: Size of the weight input dim on rank X.
+            output_partition_sizes: Sizes of the output dim of each logical
+                weight on rank X. E.g., output_partition_sizes for QKVLinear
+                is a list contains the width of Wq, Wk, Wv on rank X.
+            input_size: Size of the input dim of the weight across all ranks.
+            output_size: Size of the output dim of the weight across all ranks.
+            params_dtype: Datatype of the parameters.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Apply the weights in layer to the input tensor.
+        Expects create_weights to have been called before on the layer."""
+        raise NotImplementedError
+
+
+class UnquantizedLinearMethod(LinearMethodBase):
+    """Linear method without quantization."""
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # This method creates unquantized linear weights.
+        # The weights are not quantized, and they are not sharded.
+        # The amount of memory allocated for the weights is
+        # sum(output_partition_sizes) * input_size_per_partition.
+        weight = Parameter(torch.empty(sum(output_partition_sizes),
+                                           input_size_per_partition,
+                                           dtype=params_dtype),
+                               requires_grad=False)
+        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        if current_platform.is_cpu():
+            from vllm.model_executor.layers.utils import dispatch_cpu_unquantized_gemm
+
+            dispatch_cpu_unquantized_gemm(layer, remove_weight=True)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return dispatch_unquantized_gemm()(layer, x, layer.weight, bias)
+
+
+class LinearBase(CustomOp):
+    """Base linear layer.
+
+    Args:
+        input_size: input dimension of the linear layer.
+        output_size: output dimension of the linear layer.
+        skip_bias_add: If true, skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        quant_config: Quantization configure.
+        prefix: Prefix for parameter names.
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: If true, tensor parallelism will be disabled for this layer.
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        super().__init__()
+
+        # Keep input parameters
+        self.input_size = input_size
+        self.output_size = output_size
+        self.skip_bias_add = skip_bias_add
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+        self.quant_config = quant_config
+        self.prefix = prefix
+        self.opt_flag = quant_config is None and envs.VLLM_LINEAR_OPT_LEVEL == 1 and \
+                        self.__class__.__name__ in LINEAR_OPT_SUPPORTED
+
+        opt_exclude_layers = envs.VLLM_OPT_EXCLUDE_LAYERS
+        opt_exclude_layers = ast.literal_eval(opt_exclude_layers) if opt_exclude_layers.strip() else ""
+        if isinstance(opt_exclude_layers, tuple):
+            layer_info = re.search(r'\.(\d+)', prefix)
+            if layer_info is not None and int(layer_info.group(1)) in opt_exclude_layers:
+                self.opt_flag = False
+
+        if self.opt_flag:
+            from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors import CompressedTensorsLinearMethod
+            from vllm.model_executor.layers.quantization.compressed_tensors.schemes import CompressedTensorsW8A8Int8
+            self.quant_method: Optional[
+                QuantizeMethodBase] = CompressedTensorsLinearMethod(None)
+            self.scheme = CompressedTensorsW8A8Int8(QuantizationStrategy.CHANNEL, False, True)
+        elif quant_config is None:
+            self.quant_method: QuantizeMethodBase | None = UnquantizedLinearMethod()
+        else:
+            self.quant_method = quant_config.get_quant_method(self, prefix=prefix)
+        self.return_bias = return_bias
+        self.output_padding_size = 0
+        self.disable_tp = disable_tp
+        self.tp_rank = get_tensor_model_parallel_rank() if not disable_tp else 0
+        self.tp_size = get_tensor_model_parallel_world_size() if not disable_tp else 1
+
+    def update_param_tp_status(self):
+        for param in self.parameters():
+            if isinstance(param, BasevLLMParameter):
+                param.tp_rank = self.tp_rank
+                param.tp_size = self.tp_size
+
+
+@CustomOp.register("replicated_linear")
+class ReplicatedLinear(LinearBase):
+    """Replicated linear layer.
+
+    Args:
+        input_size: input dimension of the linear layer.
+        output_size: output dimension of the linear layer.
+        bias: If true, add bias.
+        skip_bias_add: If true, skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        quant_config: Quantization configure.
+        prefix: The name of the layer in the state dict, including all parents
+                        (e.g. model.layers.0.qkv_proj)
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: Take no effect for replicated linear layers.
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        bias: bool = True,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        # If MergedReplicatedLinear, use output size of each partition.
+        if hasattr(self, "output_sizes"):
+            self.output_partition_sizes = self.output_sizes
+        else:
+            self.output_partition_sizes = [output_size]
+
+        super().__init__(
+            input_size,
+            output_size,
+            skip_bias_add,
+            params_dtype,
+            quant_config,
+            prefix=prefix,
+            return_bias=return_bias,
+            disable_tp=disable_tp,
+        )
+
+        # All the linear layer supports quant method.
+        assert self.quant_method is not None
+        self.quant_method.create_weights(
+            self,
+            self.input_size,
+            self.output_partition_sizes,
+            self.input_size,
+            self.output_size,
+            self.params_dtype,
+            weight_loader=self.weight_loader,
+        )
+
+        if bias:
+            self.bias = Parameter(
+                torch.empty(self.output_size, dtype=self.params_dtype)
+            )
+            set_weight_attrs(
+                self.bias,
+                {
+                    "output_dim": 0,
+                    "weight_loader": self.weight_loader,
+                },
+            )
+        else:
+            self.register_parameter("bias", None)
+
+    def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
+        # If the weight on disk does not have a shape, give it one
+        # (such scales for AutoFp8).
+        # Special case for GGUF
+        
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            param.weight_type = loaded_weight.item()
+
+        # Materialize GGUF UninitializedParameter
+        if is_gguf_weight and isinstance(param, UninitializedParameter):
+            param.materialize(loaded_weight.shape, dtype=loaded_weight.dtype)
+
+        if len(loaded_weight.shape) == 0:
+            loaded_weight = loaded_weight.reshape(1)
+
+        assert param.size() == loaded_weight.size(), (
+            f"Tried to load weights of size {loaded_weight.size()}"
+            f"to a parameter of size {param.size()}"
+        )
+        if self.opt_flag:
+            loaded_weight, scale = weight_quant(loaded_weight)
+
+        param.data.copy_(loaded_weight)
+        if self.opt_flag:
+            params_dict = dict(self.named_parameters())
+            scale_param = params_dict["weight_scale"]
+            scale_param.data.copy_(scale)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, Parameter | None]:
+        bias = self.bias if not self.skip_bias_add else None
+        assert self.quant_method is not None
+
+        output = self.quant_method.apply(self, x, bias)
+        output_bias = self.bias if self.skip_bias_add else None
+
+        if not self.return_bias:
+            return output
+        return output, output_bias
+
+    def extra_repr(self) -> str:
+        s = f"in_features={self.input_size}"
+        s += f", output_features={self.output_size}"
+        s += f", bias={self.bias is not None}"
+        return s
+
+
+@CustomOp.register("column_parallel_linear")
+class ColumnParallelLinear(LinearBase):
+    """Linear layer with column parallelism.
+
+    The linear layer is defined as Y = XA + b. A is parallelized along
+    its second dimension as A = [A_1, ..., A_p].
+
+    Args:
+        input_size: first dimension of matrix A.
+        output_size: second dimension of matrix A.
+        bias: If true, add bias.
+        gather_output: If true, call all-gather on output and make Y available
+                       to all GPUs, otherwise, every GPU will have its output
+                       which is Y_i = XA_i
+        skip_bias_add: This was added to enable performance optimizations where
+                       bias can be fused with other element-wise operations. we
+                       skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        quant_config: Quantization configure.
+        output_sizes: list of output sizes packed into one output, like for QKV
+                       the list would be size 3.
+        prefix: The name of the layer in the state dict, including all parents
+                        (e.g. model.layers.0.qkv_proj)
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: If true, weights matrix won't be sharded through tp rank.
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        bias: bool = True,
+        gather_output: bool = False,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        output_sizes: list[int] | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        # Divide the weight matrix along the last dimension.
+        self.tp_rank = get_tensor_model_parallel_rank() if not disable_tp else 0
+        self.tp_size = get_tensor_model_parallel_world_size() if not disable_tp else 1
+        self.input_size_per_partition = input_size
+        self.output_size_per_partition = divide(output_size, self.tp_size)
+        self.output_partition_sizes = [self.output_size_per_partition]
+        # If QKV or MergedColumn, use output size of each partition.
+        if hasattr(self, "output_sizes"):
+            self.output_partition_sizes = [
+                divide(output_size, self.tp_size) for output_size in self.output_sizes
+            ]
+
+        super().__init__(
+            input_size,
+            output_size,
+            skip_bias_add,
+            params_dtype,
+            quant_config,
+            prefix,
+            return_bias=return_bias,
+            disable_tp=disable_tp,
+        )
+
+        self.gather_output = gather_output
+
+        if output_sizes is None:
+            output_sizes = [output_size]
+
+        assert self.quant_method is not None
+        self.quant_method.create_weights(
+            layer=self,
+            input_size_per_partition=self.input_size_per_partition,
+            output_partition_sizes=self.output_partition_sizes,
+            input_size=self.input_size,
+            output_size=self.output_size,
+            params_dtype=self.params_dtype,
+            weight_loader=(
+                self.weight_loader_v2
+                if self.quant_method.__class__.__name__ in WEIGHT_LOADER_V2_SUPPORTED
+                else self.weight_loader
+            ),
+        )
+        if bias:
+            self.bias = Parameter(
+                torch.empty(self.output_size_per_partition, dtype=params_dtype)
+            )
+            set_weight_attrs(
+                self.bias,
+                {
+                    "output_dim": 0,
+                    "weight_loader": self.weight_loader,
+                },
+            )
+        else:
+            self.register_parameter("bias", None)
+        self.update_param_tp_status()
+
+    def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
+        output_dim = getattr(param, "output_dim", None)
+
+        is_sharded_weight = getattr(param, "is_sharded_weight", False)
+        use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+        # bitsandbytes loads the weights of the specific portion
+        # no need to narrow
+        is_sharded_weight = is_sharded_weight or use_bitsandbytes_4bit
+
+        # Special case for GGUF
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            param.weight_type = loaded_weight.item()
+
+        # Materialize GGUF UninitializedParameter
+        if is_gguf_weight and isinstance(param, UninitializedParameter):
+            final_shape = list(loaded_weight.shape)
+            if output_dim is not None:
+                assert final_shape[output_dim] % self.tp_size == 0
+                final_shape[output_dim] = final_shape[output_dim] // self.tp_size
+            param.materialize(final_shape, dtype=loaded_weight.dtype)
+
+        param_data = param.data
+        if output_dim is not None and not is_sharded_weight:
+            shard_size = param_data.shape[output_dim]
+            start_idx = self.tp_rank * shard_size
+            loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+
+        # Special case for loading scales off disk, which often do not
+        # have a shape (such as in the case of AutoFP8).
+        if len(loaded_weight.shape) == 0:
+            loaded_weight = loaded_weight.reshape(1)
+
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+    def weight_loader_v2(self, param: BasevLLMParameter, loaded_weight: torch.Tensor):
+        # Special case for loading scales off disk, which often do not
+        # have a shape (such as in the case of AutoFP8).
+        if len(loaded_weight.shape) == 0:
+            assert loaded_weight.numel() == 1
+            loaded_weight = loaded_weight.reshape(1)
+
+        if self.opt_flag:
+            loaded_weight, scale = weight_quant(loaded_weight)
+
+        param.load_column_parallel_weight(loaded_weight=loaded_weight)
+        if self.opt_flag:
+            params_dict = dict(self.named_parameters())
+            scale_param = params_dict["weight_scale"]
+            scale_param.load_column_parallel_weight(loaded_weight=scale)
+
+    def forward(
+        self,
+        input_,
+    ) -> torch.Tensor | tuple[torch.Tensor, Parameter | None]:
+        bias = self.bias if not self.skip_bias_add else None
+
+        # Matrix multiply.
+        assert self.quant_method is not None
+        output_parallel = self.quant_method.apply(self, input_, bias)
+
+        if self.gather_output and self.tp_size > 1:
+            # All-gather across the partitions.
+            output = tensor_model_parallel_all_gather(output_parallel)
+        else:
+            output = output_parallel
+        output_bias = self.bias if self.skip_bias_add else None
+        if not self.return_bias:
+            return output
+        return output, output_bias
+
+    def extra_repr(self) -> str:
+        s = f"in_features={self.input_size}"
+        s += f", output_features={self.output_size_per_partition}"
+        s += f", bias={self.bias is not None}"
+        s += f", tp_size={self.tp_size}"
+        s += f", gather_output={self.gather_output}"
+        return s
+
+
+class MergedColumnParallelLinear(ColumnParallelLinear):
+    """Packed linear layers with column parallelism.
+
+    Similar to ColumnParallelLinear, but the weight matrix is concatenated
+    along the output dimension. When the weight matrix is loaded, the
+    different partitions are sharded separately.
+
+    Args:
+        input_size: input dimension of the linear layer.
+        output_sizes: list of output dimensions of the linear layer.
+        bias: If true, add bias.
+        gather_output: If true, call all-gather on output and make the output
+                       available to all GPUs, otherwise, every GPU will have
+                       its own output.
+        skip_bias_add: This was added to enable performance optimizations where
+                       bias can be fused with other element-wise operations. we
+                       skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        quant_config: Quantization configure.
+        prefix: The name of the layer in the state dict, including all parents
+                        (e.g. model.layers.0.qkv_proj)
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: If true, all weights matrix won't be sharded, this layer
+                    will be treated as a "Replicated" MergedLinear.
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        output_sizes: list[int],
+        bias: bool = True,
+        gather_output: bool = False,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        self.output_sizes = output_sizes
+        self.tp_size = get_tensor_model_parallel_world_size() if not disable_tp else 1
+        self.tp_rank = get_tensor_model_parallel_rank() if not disable_tp else 0
+
+        assert all(output_size % self.tp_size == 0 for output_size in output_sizes)
+        super().__init__(
+            input_size=input_size,
+            output_size=sum(output_sizes),
+            bias=bias,
+            gather_output=gather_output,
+            skip_bias_add=skip_bias_add,
+            params_dtype=params_dtype,
+            quant_config=quant_config,
+            prefix=prefix,
+            return_bias=return_bias,
+            disable_tp=disable_tp,
+        )
+
+    def weight_loader(
+        self,
+        param: Parameter,
+        loaded_weight: torch.Tensor,
+        loaded_shard_id: int | None = None,
+    ):
+        # Special case for GGUF
+        # initialize GGUF param after we know the quantize type
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            if loaded_shard_id is not None:
+                param.data[loaded_shard_id].copy_(loaded_weight)
+                param.shard_weight_type[loaded_shard_id] = loaded_weight.item()
+            else:
+                param.shard_weight_type = {
+                    i: loaded_weight.item() for i, _ in enumerate(self.output_sizes)
+                }
+            return
+
+        if is_gguf_weight:
+            output_dim = getattr(param, "output_dim", None)
+            shard_size = loaded_weight.size(output_dim) // self.tp_size
+            start_idx = self.tp_rank * shard_size
+
+            if loaded_shard_id is not None:
+                loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+                param.shard_id.append(loaded_shard_id)
+                param.shard_id_map[loaded_shard_id] = len(param.data_container)
+                param.data_container.append(loaded_weight)
+                return
+
+        param_data = param.data
+        output_dim = getattr(param, "output_dim", None)
+        # Special case for per-tensor scale to load scalar into fused array.
+        needs_scalar_to_array = getattr(param, "needs_scalar_to_array", False)
+
+        if loaded_shard_id is None:
+            # Loaded weight is already fused on disk (mlp).
+            # (e.g., Phi-3's gate_up_proj).
+            if output_dim is None:
+                if needs_scalar_to_array:
+                    param_data, loaded_weight = adjust_scalar_to_fused_array(
+                        param_data, loaded_weight, 0
+                    )
+
+                assert param_data.shape == loaded_weight.shape
+                param_data.copy_(loaded_weight)
+                return
+            current_shard_offset = 0
+            use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+            shard_offsets: list[tuple[int, int, int]] = []
+            for i, output_size in enumerate(self.output_sizes):
+                shard_offsets.append((i, current_shard_offset, output_size))
+                current_shard_offset += output_size
+            packed_dim = getattr(param, "packed_dim", None)
+            for shard_id, shard_offset, shard_size in shard_offsets:
+                # Special case for Quantization.
+                # If quantized, we need to adjust the offset and size to account
+                # for the packing.
+                if packed_dim == output_dim:
+                    shard_size = shard_size // param.packed_factor
+                    shard_offset = shard_offset // param.packed_factor
+                    # Special case for Marlin.
+                    shard_size, shard_offset = adjust_marlin_shard(
+                        param, shard_size, shard_offset
+                    )
+
+                shard_size, shard_offset = adjust_bitblas_shard(
+                    param, shard_size, shard_offset
+                )
+
+                if use_bitsandbytes_4bit:
+                    index = list(itertools.accumulate([0] + self.output_sizes))
+                    orig_offsets = {
+                        str(i): (index[i], size)
+                        for i, size in enumerate(self.output_sizes)
+                    }
+                    orig_offsets["total"] = (self.output_size, 0)
+                    shard_size, shard_offset = adjust_bitsandbytes_4bit_shard(
+                        param, orig_offsets, str(shard_id)
+                    )
+
+                loaded_weight_shard = loaded_weight.narrow(
+                    output_dim, shard_offset, shard_size
+                )
+                self.weight_loader(param, loaded_weight_shard, shard_id)
+            return
+
+        assert loaded_shard_id < len(self.output_sizes)
+        if output_dim is not None:
+            shard_offset = sum(self.output_sizes[:loaded_shard_id]) // self.tp_size
+            shard_size = self.output_sizes[loaded_shard_id] // self.tp_size
+            # Special case for quantization.
+            # If quantized, we need to adjust the offset and size to account
+            # for the packing.
+            packed_dim = getattr(param, "packed_dim", None)
+            if packed_dim == output_dim:
+                shard_size = shard_size // param.packed_factor
+                shard_offset = shard_offset // param.packed_factor
+                # Special case for Marlin.
+                shard_size, shard_offset = adjust_marlin_shard(
+                    param, shard_size, shard_offset
+                )
+            shard_size, shard_offset = adjust_bitblas_shard(
+                param, shard_size, shard_offset
+            )
+
+            use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+            is_sharded_weight = getattr(param, "is_sharded_weight", False)
+            # bitsandbytes loads the weights of the specific portion
+            # no need to narrow
+            is_sharded_weight = is_sharded_weight or use_bitsandbytes_4bit
+
+            if use_bitsandbytes_4bit:
+                shard_size = loaded_weight.shape[output_dim]
+                shard_offset = loaded_weight.shape[output_dim] * loaded_shard_id
+
+            param_data = param_data.narrow(output_dim, shard_offset, shard_size)
+            start_idx = self.tp_rank * shard_size
+            if not is_sharded_weight:
+                loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+        # Special case for per-tensor scales in fused case.
+        elif needs_scalar_to_array:
+            param_data, loaded_weight = adjust_scalar_to_fused_array(
+                param_data, loaded_weight, loaded_shard_id
+            )
+
+        else:
+            ignore_warning = getattr(param, "ignore_warning", False)
+            if not ignore_warning:
+                logger.warning(
+                    "Loading a weight without `output_dim` attribute in "
+                    "MergedColumnParallelLinear, assume the weight is "
+                    "the same for all partitions."
+                )
+
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+    def _load_fused_module_from_checkpoint(
+        self, param: BasevLLMParameter, loaded_weight: torch.Tensor
+    ):
+        """
+        Handle special case for models where MLP layers are already
+        fused on disk. In this case, we have no shard id. This function
+        determines the shard id by splitting these layers and then calls
+        the weight loader using the shard id.
+
+        An example of a model with these fused layers:
+        https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
+        """
+
+        current_shard_offset = 0
+        shard_offsets: list[tuple[int, int, int]] = []
+        for i, output_size in enumerate(self.output_sizes):
+            shard_offsets.append((i, current_shard_offset, output_size))
+            current_shard_offset += output_size
+
+        for shard_id, shard_offset, shard_size in shard_offsets:
+            # Special case for Quantization.
+            # If quantized, we need to adjust the offset and size to account
+            # for the packing.
+            if (
+                isinstance(param, (PackedColumnParameter, PackedvLLMParameter))
+                and param.packed_dim == param.output_dim
+            ):
+                shard_size, shard_offset = param.adjust_shard_indexes_for_packing(
+                    shard_size=shard_size, shard_offset=shard_offset
+                )
+
+            loaded_weight_shard = loaded_weight.narrow(
+                param.output_dim, shard_offset, shard_size
+            )
+            self.weight_loader_v2(param, loaded_weight_shard, shard_id)
+
+    def weight_loader_v2(
+        self,
+        param: BasevLLMParameter,
+        loaded_weight: torch.Tensor,
+        loaded_shard_id: int | None = None,
+    ):
+        if loaded_shard_id is None:
+            if isinstance(param, PerTensorScaleParameter):
+                param.load_merged_column_weight(loaded_weight=loaded_weight, shard_id=0)
+                return
+            elif type(param) in (RowvLLMParameter, BasevLLMParameter):
+                param.load_merged_column_weight(loaded_weight=loaded_weight)
+                return
+            # TODO: @dsikka - move to parameter.py
+            self._load_fused_module_from_checkpoint(param, loaded_weight)
+            return
+
+        assert loaded_shard_id < len(self.output_sizes)
+
+        if isinstance(param, BlockQuantScaleParameter):
+            assert self.quant_method is not None
+            # Assume the weight block size has been set by quant method
+            assert hasattr(self, "weight_block_size")
+            weight_block_size = self.weight_block_size
+            assert weight_block_size is not None
+            block_n, _ = weight_block_size[0], weight_block_size[1]
+            shard_offset = (
+                (sum(self.output_sizes[:loaded_shard_id]) + block_n - 1) // block_n
+            ) // self.tp_size
+            shard_size = (
+                (self.output_sizes[loaded_shard_id] + block_n - 1)
+                // block_n
+                // self.tp_size
+            )
+        else:
+            shard_offset = sum(self.output_sizes[:loaded_shard_id]) // self.tp_size
+            shard_size = self.output_sizes[loaded_shard_id] // self.tp_size
+
+        param.load_merged_column_weight(
+            loaded_weight=loaded_weight,
+            shard_id=loaded_shard_id,
+            shard_offset=shard_offset,
+            shard_size=shard_size,
+            tp_rank=self.tp_rank,
+        )
+
+
+class QKVParallelLinear(ColumnParallelLinear):
+    """Linear layers for the attention's QKV transformation.
+
+    Linear layers for the linear transformation of the query, key, and value
+    vectors in the attention layer. The weight matrix is concatenated along
+    the output dimension. The layer is parallelized along the head dimension.
+    When the number of key/value heads is smaller than the number of query
+    heads (e.g., multi-query/grouped-query attention), the key/value head may
+    be replicated while the query heads are partitioned.
+
+    Args:
+        hidden_size: input hidden state size of the transformer.
+        head_size: size of each attention head.
+        total_num_heads: total number of attention query heads.
+        total_num_kv_heads: total number of attention key/value heads. If
+                            None, assume total_num_kv_heads = total_num_heads.
+        bias: If true, add bias.
+        skip_bias_add: This was added to enable performance optimizations where
+                       bias can be fused with other element-wise operations. we
+                       skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        quant_config: Quantization configure.
+        prefix: The name of the layer in the state dict, including all parents
+                        (e.g. model.layers.0.qkv_proj)
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: If true, weights matrix won't be sharded through tp rank.
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        head_size: int,
+        total_num_heads: int,
+        total_num_kv_heads: int | None = None,
+        bias: bool = True,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        self.hidden_size = hidden_size
+        self.head_size = head_size
+        self.total_num_heads = total_num_heads
+        if total_num_kv_heads is None:
+            total_num_kv_heads = total_num_heads
+        self.total_num_kv_heads = total_num_kv_heads
+        # Divide the weight matrix along the last dimension.
+        tp_size = get_tensor_model_parallel_world_size() if not disable_tp else 1
+        self.num_heads = divide(self.total_num_heads, tp_size)
+        if tp_size >= self.total_num_kv_heads:
+            self.num_kv_heads = 1
+            self.num_kv_head_replicas = divide(tp_size, self.total_num_kv_heads)
+        else:
+            self.num_kv_heads = divide(self.total_num_kv_heads, tp_size)
+            self.num_kv_head_replicas = 1
+        input_size = self.hidden_size
+        output_size = (
+            (self.num_heads + 2 * self.num_kv_heads) * tp_size * self.head_size
+        )
+        self.output_sizes = [
+            self.num_heads * self.head_size * tp_size,  # q_proj
+            self.num_kv_heads * self.head_size * tp_size,  # k_proj
+            self.num_kv_heads * self.head_size * tp_size,  # v_proj
+        ]
+
+        super().__init__(
+            input_size=input_size,
+            output_size=output_size,
+            bias=bias,
+            gather_output=False,
+            skip_bias_add=skip_bias_add,
+            params_dtype=params_dtype,
+            quant_config=quant_config,
+            prefix=prefix,
+            return_bias=return_bias,
+            disable_tp=disable_tp,
+        )
+
+    def _get_shard_offset_mapping(self, loaded_shard_id: str):
+        shard_offset_mapping = {
+            "q": 0,
+            "k": self.num_heads * self.head_size,
+            "v": (self.num_heads + self.num_kv_heads) * self.head_size,
+            "total": (self.num_heads + 2 * self.num_kv_heads) * self.head_size,
+        }
+        return shard_offset_mapping.get(loaded_shard_id)
+
+    def _get_shard_size_mapping(self, loaded_shard_id: str):
+        shard_size_mapping = {
+            "q": self.num_heads * self.head_size,
+            "k": self.num_kv_heads * self.head_size,
+            "v": self.num_kv_heads * self.head_size,
+        }
+        return shard_size_mapping.get(loaded_shard_id)
+
+    def _load_fused_module_from_checkpoint(
+        self, param: BasevLLMParameter, loaded_weight: torch.Tensor
+    ):
+        """
+        Handle special case for models where QKV layers are already
+        fused on disk. In this case, we have no shard id. This function
+        determines the shard id by splitting these layers and then calls
+        the weight loader using the shard id.
+
+        An example of a model with these fused layers:
+        https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
+        """
+        shard_offsets = [
+            # (shard_id, shard_offset, shard_size)
+            ("q", 0, self.total_num_heads * self.head_size),
+            (
+                "k",
+                self.total_num_heads * self.head_size,
+                self.total_num_kv_heads * self.head_size,
+            ),
+            (
+                "v",
+                (self.total_num_heads + self.total_num_kv_heads) * self.head_size,
+                self.total_num_kv_heads * self.head_size,
+            ),
+        ]
+
+        for shard_id, shard_offset, shard_size in shard_offsets:
+            # Special case for Quantization.
+            # If quantized, we need to adjust the offset and size to account
+            # for the packing.
+            if (
+                isinstance(param, (PackedColumnParameter, PackedvLLMParameter))
+                and param.packed_dim == param.output_dim
+            ):
+                shard_size, shard_offset = param.adjust_shard_indexes_for_packing(
+                    shard_size=shard_size, shard_offset=shard_offset
+                )
+
+            loaded_weight_shard = loaded_weight.narrow(
+                param.output_dim, shard_offset, shard_size
+            )
+            self.weight_loader_v2(param, loaded_weight_shard, shard_id)
+
+    def weight_loader_v2(
+        self,
+        param: BasevLLMParameter,
+        loaded_weight: torch.Tensor,
+        loaded_shard_id: str | None = None,
+    ):
+        if self.opt_flag:
+                loaded_weight, scale = weight_quant(loaded_weight)
+                params_dict = dict(self.named_parameters())
+                scale_param = params_dict["weight_scale"]
+        if loaded_shard_id is None:  # special case for certain models
+            if isinstance(param, PerTensorScaleParameter):
+                param.load_qkv_weight(
+                    loaded_weight=loaded_weight, shard_id=0, tp_rank=self.tp_rank
+                )
+                if self.opt_flag:
+                    scale_param.load_qkv_weight(
+                        loaded_weight=loaded_weight, shard_id=0, tp_rank=self.tp_rank
+                    )
+                return
+            elif type(param) in (RowvLLMParameter, BasevLLMParameter):
+                param.load_qkv_weight(loaded_weight=loaded_weight, tp_rank=self.tp_rank)
+                if self.opt_flag:
+                    scale_param.load_qkv_weight(loaded_weight=scale, tp_rank=self.tp_rank)
+                return
+
+            # TODO: @dsikka - move to parameter.py
+            self._load_fused_module_from_checkpoint(param, loaded_weight)
+            if self.opt_flag:
+                self._load_fused_module_from_checkpoint(scale_param, scale)
+            return
+
+        assert loaded_shard_id in ["q", "k", "v"]
+
+        shard_offset = self._get_shard_offset_mapping(loaded_shard_id)
+        shard_size = self._get_shard_size_mapping(loaded_shard_id)
+
+        # Note(simon): This is needed for Qwen3's fp8 quantization.
+        if isinstance(param, BlockQuantScaleParameter):
+            assert self.quant_method is not None
+            # Assume the weight block size has been set by quant method
+            assert hasattr(self, "weight_block_size")
+            weight_block_size = self.weight_block_size
+            assert weight_block_size is not None
+            block_n, _ = weight_block_size[0], weight_block_size[1]
+            shard_offset = (shard_offset + block_n - 1) // block_n
+            shard_size = (shard_size + block_n - 1) // block_n
+
+        param.load_qkv_weight(
+            loaded_weight=loaded_weight,
+            num_heads=self.num_kv_head_replicas,
+            shard_id=loaded_shard_id,
+            shard_offset=shard_offset,
+            shard_size=shard_size,
+            tp_rank=self.tp_rank,
+        )
+
+        if self.opt_flag:
+            scale_param.load_qkv_weight(loaded_weight=scale,
+                                        num_heads=self.num_kv_head_replicas,
+                                        shard_id=loaded_shard_id,
+                                        shard_offset=shard_offset,
+                                        shard_size=shard_size,
+                                        tp_rank=self.tp_rank)
+
+    def weight_loader(
+        self,
+        param: Parameter,
+        loaded_weight: torch.Tensor,
+        loaded_shard_id: str | None = None,
+    ):
+        # Special case for GGUF
+        # initialize GGUF param after we know the quantize type
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            idx_map = {"q": 0, "k": 1, "v": 2}
+            if loaded_shard_id is not None:
+                param.data[idx_map[loaded_shard_id]].copy_(loaded_weight)
+                param.shard_weight_type[loaded_shard_id] = loaded_weight.item()
+            else:
+                param.shard_weight_type = {k: loaded_weight.item() for k in idx_map}
+            return
+
+        if is_gguf_weight:
+            output_dim = getattr(param, "output_dim", None)
+            shard_size = loaded_weight.size(output_dim) // self.tp_size
+            start_idx = self.tp_rank * shard_size
+
+            if loaded_shard_id is not None:
+                loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+                param.shard_id.append(loaded_shard_id)
+                param.shard_id_map[loaded_shard_id] = len(param.data_container)
+                param.data_container.append(loaded_weight)
+                return
+
+        param_data = param.data
+        output_dim = getattr(param, "output_dim", None)
+
+        # Special case for per-tensor scales in fused case.
+        needs_scalar_to_array = getattr(param, "needs_scalar_to_array", False)
+
+        if loaded_shard_id is None:
+            # Loaded weight is already fused on disk (qkv).
+            # (e.g., Phi-3's qkv_proj).
+            if output_dim is None:
+                if needs_scalar_to_array:
+                    param_data, loaded_weight = adjust_scalar_to_fused_array(
+                        param_data, loaded_weight, 0
+                    )
+
+                assert param_data.shape == loaded_weight.shape
+                param_data.copy_(loaded_weight)
+                return
+            shard_offsets = [
+                # (shard_id, shard_offset, shard_size)
+                ("q", 0, self.total_num_heads * self.head_size),
+                (
+                    "k",
+                    self.total_num_heads * self.head_size,
+                    self.total_num_kv_heads * self.head_size,
+                ),
+                (
+                    "v",
+                    (self.total_num_heads + self.total_num_kv_heads) * self.head_size,
+                    self.total_num_kv_heads * self.head_size,
+                ),
+            ]
+            use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+
+            packed_dim = getattr(param, "packed_dim", None)
+            for shard_id, shard_offset, shard_size in shard_offsets:
+                # Special case for Quantized Weights.
+                # If quantized, we need to adjust the offset and size to account
+                # for the packing.
+                if packed_dim == output_dim:
+                    shard_size = shard_size // param.packed_factor
+                    shard_offset = shard_offset // param.packed_factor
+
+                    # Special case for Marlin.
+                    shard_size, shard_offset = adjust_marlin_shard(
+                        param, shard_size, shard_offset
+                    )
+
+                if use_bitsandbytes_4bit:
+                    orig_qkv_offsets = {
+                        "q": (0, self.total_num_heads * self.head_size),
+                        "k": (
+                            self.total_num_heads * self.head_size,
+                            self.total_num_kv_heads * self.head_size,
+                        ),
+                        "v": (
+                            (self.total_num_heads + self.total_num_kv_heads)
+                            * self.head_size,
+                            self.total_num_kv_heads * self.head_size,
+                        ),
+                        "total": (
+                            (self.total_num_heads + 2 * self.total_num_kv_heads)
+                            * self.head_size,
+                            0,
+                        ),
+                    }
+
+                    shard_size, shard_offset = adjust_bitsandbytes_4bit_shard(
+                        param, orig_qkv_offsets, shard_id
+                    )
+
+                loaded_weight_shard = loaded_weight.narrow(
+                    output_dim, shard_offset, shard_size
+                )
+                self.weight_loader(param, loaded_weight_shard, shard_id)
+            return
+
+        assert loaded_shard_id in ["q", "k", "v"]
+
+        # If output dim is defined, use the default loading process.
+        if output_dim is not None:
+            if loaded_shard_id == "q":
+                shard_offset = 0
+                shard_size = self.num_heads * self.head_size
+            elif loaded_shard_id == "k":
+                shard_offset = self.num_heads * self.head_size
+                shard_size = self.num_kv_heads * self.head_size
+            elif loaded_shard_id == "v":
+                shard_offset = (self.num_heads + self.num_kv_heads) * self.head_size
+                shard_size = self.num_kv_heads * self.head_size
+            # Special case for Quantized Weights.
+            # If quantized, we need to adjust the offset and size to account
+            # for the packing.
+            packed_dim = getattr(param, "packed_dim", None)
+            if packed_dim == output_dim:
+                shard_size = shard_size // param.packed_factor
+                shard_offset = shard_offset // param.packed_factor
+
+                # Special case for Marlin.
+                shard_size, shard_offset = adjust_marlin_shard(
+                    param, shard_size, shard_offset
+                )
+
+            use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+            is_sharded_weight = getattr(param, "is_sharded_weight", False)
+            # bitsandbytes loads the weights of the specific portion
+            # no need to narrow
+            is_sharded_weight = is_sharded_weight or use_bitsandbytes_4bit
+
+            if use_bitsandbytes_4bit:
+                orig_qkv_offsets = {
+                    "q": (0, self.num_heads * self.head_size),
+                    "k": (
+                        self.num_heads * self.head_size,
+                        self.num_kv_heads * self.head_size,
+                    ),
+                    "v": (
+                        (self.num_heads + self.num_kv_heads) * self.head_size,
+                        self.num_kv_heads * self.head_size,
+                    ),
+                    "total": (
+                        (self.num_heads + 2 * self.num_kv_heads) * self.head_size,
+                        0,
+                    ),
+                }
+                shard_size, shard_offset = adjust_bitsandbytes_4bit_shard(
+                    param, orig_qkv_offsets, loaded_shard_id
+                )
+
+            param_data = param_data.narrow(output_dim, shard_offset, shard_size)
+            if loaded_shard_id == "q":
+                shard_rank = self.tp_rank
+            else:
+                shard_rank = self.tp_rank // self.num_kv_head_replicas
+            start_idx = shard_rank * shard_size
+
+            if not is_sharded_weight:
+                loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+
+        # Special case for per-tensor scales in fused case.
+        elif needs_scalar_to_array:
+            param_data, loaded_weight = adjust_scalar_to_fused_array(
+                param_data, loaded_weight, loaded_shard_id
+            )
+        else:
+            ignore_warning = getattr(param, "ignore_warning", False)
+            if not ignore_warning:
+                logger.warning(
+                    "Loading a weight without `output_dim` attribute in "
+                    "QKVParallelLinear, assume the weight is the same "
+                    "for all partitions."
+                )
+
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+
+@CustomOp.register("row_parallel_linear")
+class RowParallelLinear(LinearBase):
+    """Linear layer with row parallelism.
+
+    The linear layer is defined as Y = XA + b. A is parallelized along
+    its first dimension and X along its second dimension as:
+               -   -
+              | A_1 |
+              | .   |
+          A = | .   |        X = [X_1, ..., X_p]
+              | .   |
+              | A_p |
+               -   -
+    Arguments:
+        input_size: first dimension of matrix A.
+        output_size: second dimension of matrix A.
+        bias: If true, add bias. Note that bias is not parallelized.
+        input_is_parallel: If true, we assume that the input is already
+                           split across the GPUs and we do not split
+                           again.
+        skip_bias_add: This was added to enable performance optimization where
+                       bias can be fused with other element-wise operations.
+                       We skip adding bias but instead return it.
+        params_dtype: Data type for the parameters.
+        reduce_results: If true, call all-reduce on output and make Y available
+                       to all GPUs, otherwise, every GPU will have its output
+                       which is Y = X_iA_i
+        quant_config: Quantization configure.
+        prefix: The name of the layer in the state dict, including all parents
+                        (e.g. model.layers.0.down_proj)
+        return_bias: If true, return bias together with outputs in forward pass.
+        disable_tp: If true, weights matrix won't be sharded through tp rank.
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        bias: bool = True,
+        input_is_parallel: bool = True,
+        skip_bias_add: bool = False,
+        params_dtype: torch.dtype | None = None,
+        reduce_results: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        return_bias: bool = True,
+        disable_tp: bool = False,
+    ):
+        # Divide the weight matrix along the first dimension.
+        self.tp_rank = get_tensor_model_parallel_rank() if not disable_tp else 0
+        self.tp_size = get_tensor_model_parallel_world_size() if not disable_tp else 1
+        self.input_size_per_partition = divide(input_size, self.tp_size)
+        self.output_size_per_partition = output_size
+        self.output_partition_sizes = [output_size]
+
+        super().__init__(
+            input_size,
+            output_size,
+            skip_bias_add,
+            params_dtype,
+            quant_config,
+            prefix,
+            return_bias=return_bias,
+            disable_tp=disable_tp,
+        )
+
+        self.input_is_parallel = input_is_parallel
+        self.reduce_results = reduce_results
+
+        assert self.quant_method is not None
+        self.quant_method.create_weights(
+            layer=self,
+            input_size_per_partition=self.input_size_per_partition,
+            output_partition_sizes=self.output_partition_sizes,
+            input_size=self.input_size,
+            output_size=self.output_size,
+            params_dtype=self.params_dtype,
+            weight_loader=(
+                self.weight_loader_v2
+                if self.quant_method.__class__.__name__ in WEIGHT_LOADER_V2_SUPPORTED
+                else self.weight_loader
+            ),
+        )
+        if not reduce_results and (bias and not skip_bias_add):
+            raise ValueError(
+                "When not reduce the results, adding bias to the "
+                "results can lead to incorrect results"
+            )
+
+        if bias:
+            self.bias = Parameter(torch.empty(self.output_size, dtype=params_dtype))
+            set_weight_attrs(
+                self.bias,
+                {
+                    "output_dim": 0,
+                    "weight_loader": self.weight_loader,
+                },
+            )
+        else:
+            self.register_parameter("bias", None)
+        self.update_param_tp_status()
+
+    def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
+        input_dim = getattr(param, "input_dim", None)
+        use_bitsandbytes_4bit = getattr(param, "use_bitsandbytes_4bit", False)
+        is_sharded_weight = getattr(param, "is_sharded_weight", False)
+        # bitsandbytes loads the weights of the specific portion
+        # no need to narrow
+        is_sharded_weight = is_sharded_weight or use_bitsandbytes_4bit
+
+        # Special case for GGUF
+        is_gguf_weight = getattr(param, "is_gguf_weight", False)
+        is_gguf_weight_type = getattr(param, "is_gguf_weight_type", False)
+        if is_gguf_weight_type:
+            param.weight_type = loaded_weight.item()
+
+        # Materialize GGUF UninitializedParameter
+        if is_gguf_weight and isinstance(param, UninitializedParameter):
+            weight_shape = list(loaded_weight.shape)
+            if input_dim:
+                weight_shape[input_dim] = weight_shape[input_dim] // self.tp_size
+            param.materialize(tuple(weight_shape), dtype=loaded_weight.dtype)
+
+        param_data = param.data
+        if input_dim is not None and not is_sharded_weight:
+            shard_size = param_data.shape[input_dim]
+            start_idx = self.tp_rank * shard_size
+            loaded_weight = loaded_weight.narrow(input_dim, start_idx, shard_size)
+
+        # Special case for loading scales off disk, which often do not
+        # have a shape (such as in the case of AutoFP8).
+        if len(loaded_weight.shape) == 0:
+            loaded_weight = loaded_weight.reshape(1)
+
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+    def weight_loader_v2(self, param: BasevLLMParameter, loaded_weight: torch.Tensor):
+        # Special case for loading scales off disk, which often do not
+        # have a shape (such as in the case of AutoFP8).
+        if len(loaded_weight.shape) == 0:
+            assert loaded_weight.numel() == 1
+            loaded_weight = loaded_weight.reshape(1)
+
+        if self.opt_flag:
+            loaded_weight, scale = weight_quant(loaded_weight)
+
+        param.load_row_parallel_weight(loaded_weight=loaded_weight)
+        if self.opt_flag:
+            params_dict = dict(self.named_parameters())
+            scale_param = params_dict["weight_scale"]
+            scale_param.load_row_parallel_weight(loaded_weight=scale)
+
+    def forward(
+        self,
+        input_,
+    ) -> torch.Tensor | tuple[torch.Tensor, Parameter | None]:
+        if self.input_is_parallel:
+            input_parallel = input_
+        else:
+            splitted_input = split_tensor_along_last_dim(
+                input_, num_partitions=self.tp_size
+            )
+            input_parallel = splitted_input[self.tp_rank].contiguous()
+
+        # Matrix multiply.
+        assert self.quant_method is not None
+        # Only fuse bias add into GEMM for rank 0 (this ensures that
+        # bias will not get added more than once in TP>1 case)
+        bias_ = None if (self.tp_rank > 0 or self.skip_bias_add) else self.bias
+        output_parallel = self.quant_method.apply(self, input_parallel, bias_)
+
+        if self.reduce_results and self.tp_size > 1:
+            output = tensor_model_parallel_all_reduce(output_parallel)
+        else:
+            output = output_parallel
+
+        output_bias = self.bias if self.skip_bias_add else None
+
+        if not self.return_bias:
+            return output
+        return output, output_bias
+
+    def extra_repr(self) -> str:
+        s = f"in_features={self.input_size_per_partition}"
+        s += f", output_features={self.output_size}"
+        s += f", bias={self.bias is not None}"
+        s += f", tp_size={self.tp_size}"
+        s += f", reduce_results={self.reduce_results}"
+        return s
diff --git a/model_executor/layers/logits_processor.py b/model_executor/layers/logits_processor.py
new file mode 100644
index 0000000..14ae9b3
--- /dev/null
+++ b/model_executor/layers/logits_processor.py
@@ -0,0 +1,109 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""A layer that compute logits from hidden_stats."""
+
+import torch
+
+from vllm.distributed import (
+    tensor_model_parallel_all_gather,
+    tensor_model_parallel_gather,
+)
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.platforms import current_platform
+
+
+@CustomOp.register("logits_processor")
+class LogitsProcessor(CustomOp):
+    """Process logits and apply logits processors from sampling metadata.
+
+    This layer does the following:
+    1. Gather logits from model hidden_states.
+    2. Scale logits if needed.
+    3. Apply logits processors (if any).
+    """
+
+    def __init__(
+        self,
+        vocab_size: int,
+        org_vocab_size: int | None = None,
+        scale: float = 1.0,
+        logits_as_input: bool = False,
+        soft_cap: float | None = None,
+    ) -> None:
+        """
+        Args:
+            scale: A scaling factor to apply to the logits.
+        """
+        super().__init__()
+        self.scale = scale
+        self.vocab_size = vocab_size
+        # Whether the input is logits (default is hidden states).
+        self.logits_as_input = logits_as_input
+        # original vocabulary size (without LoRA).
+        self.org_vocab_size = org_vocab_size or vocab_size
+        # Soft cap the logits. Used in Gemma 2.
+        self.soft_cap = soft_cap
+        # Whether to use gather or all-gather to gather the logits.
+        self.use_all_gather = current_platform.use_all_gather()
+
+    def forward(
+        self,
+        lm_head: VocabParallelEmbedding,
+        hidden_states: torch.Tensor,
+        embedding_bias: torch.Tensor | None = None,
+    ) -> torch.Tensor | None:
+        if self.logits_as_input:
+            logits = hidden_states
+        else:
+            # Get the logits for the next tokens.
+            if hidden_states.shape[0] > 0:
+                logits = self._get_logits(hidden_states, lm_head, embedding_bias)
+            else:
+                logits = torch.empty([0, lm_head.weight.shape[0]], device=hidden_states.device, dtype=hidden_states.dtype)
+        if logits is not None:
+            if self.soft_cap is not None:
+                logits = logits / self.soft_cap
+                logits = torch.tanh(logits)
+                logits = logits * self.soft_cap
+
+            if self.scale != 1.0:
+                logits *= self.scale
+        return logits
+
+    def _gather_logits(self, logits: torch.Tensor) -> torch.Tensor:
+        """gather/all-gather the logits tensor across model parallel group."""
+        if self.use_all_gather:
+            # Gather is not supported for some devices such as TPUs.
+            # Use all-gather instead.
+            # NOTE(woosuk): Here, the outputs of every device should not be None
+            # because XLA requires strict SPMD among all devices. Every device
+            # should execute the same operations after gathering the logits.
+            logits = tensor_model_parallel_all_gather(logits)
+        else:
+            # None may be returned for rank > 0
+            logits = tensor_model_parallel_gather(logits)
+        return logits
+
+    def _get_logits(
+        self,
+        hidden_states: torch.Tensor,
+        lm_head: VocabParallelEmbedding,
+        embedding_bias: torch.Tensor | None,
+    ) -> torch.Tensor | None:
+        # Get the logits for the next tokens.
+        logits = lm_head.quant_method.apply(lm_head, hidden_states, bias=embedding_bias)
+
+        # Gather logits for TP
+        logits = self._gather_logits(logits)
+
+        # Remove paddings in vocab (if any).
+        if logits is not None:
+            logits = logits[..., : self.org_vocab_size]
+        return logits
+
+    def extra_repr(self) -> str:
+        s = f"vocab_size={self.vocab_size}"
+        s += f", org_vocab_size={self.org_vocab_size}"
+        s += f", scale={self.scale}, logits_as_input={self.logits_as_input}"
+        return s
diff --git a/model_executor/layers/mamba/__init__.py b/model_executor/layers/mamba/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/mamba/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4bd53083ff9f9f3592781b37a8c02b3ac97f8798
GIT binary patch
literal 177
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV1?ZRL7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>E|R?rWO_J
x=O*SRCF;k=XXa&=#K-FuRNmsS0jey`Nwq6t1zNxe#Kj=SM`lJw#v*1Q3jjaeEmQyi

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/abstract.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/abstract.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f412e682e5febd705b3086e0873b693dd38e8478
GIT binary patch
literal 3273
zcmaJDOKcm*b#|9r@z1p=OHP<H8`rkXz#?HAj+4SJkjSd5*cAde4NxAsSnUqQmG;BT
zE@hK(nzV3%0=+aR_2`}&!#Vg^AVAP#fL_GrKw(j%DbfV!jg6d3PknD@DN%~zIn2J_
zym|A!`?q2-M_{?B-#hDBLcT;~ywVA<`zrvph)rzCC7#rjB!p#G_LQc=VZ}{(>1LY4
zDOYW(z)!nVUZ$DhG}X;|xn_>TQ*PcXGz(s_S(FG(GnCD^C9m8pOGGBuiJiSi>>SNK
zRK)#Ft(U6h|AR<Pic98d7%|g|JQ}qF8z`COh%$54r2rS-`o)_|#^O(x7H=%CTwei7
z?rqog76ZTKtN}LtS`<+~asvOR*`w@rGo&>+&fj=@(X`t1R)<<~_GhNIY9a{o+MfLD
zrnNzR+Y&a3T}_bPuL0O1lr$xqH07UzqnZj$(e!#@Qe42c+>)OGkWSgk75rxG6wQKk
zZp=Y$OSaSZQV+!u(#+EWmn#BY-KX#IOPpJ_r;@XoeVL}ld1%eaMBT(^d?)D5PMn#B
z093%P89U#f0&7xs;a;kFyqB*P69=K|`uB1=EChASHN#ME1x)AuTX3BXs=MgqP`}-F
zthOF@JDq?<deo-+=6Rj^YmQIrT*I>8rp$@-77IM!J7J>EY3aS7t2<uDr5?mhH+8EU
zMj*sBi^KIev$1Jd7{FL%H0m<nk|v&rAg0o83brlMlWKDRQ+_QPe~q@ljF4Luw#^RJ
zgO)%dGfK=uxu3wxJj{&oqqv!1X*cYeuG<6C&RT)LX@q$0oF0ar0Bd^G1@ncisA<_x
zo(OI`rwfC_$-@S>V?u=>)b>@ZJRlFGI2BU272;F%|Gn9WyiTLzbQU6$t<h-VPWSSw
zuWVeV4cA$1bb3%Leq$3#q2UEKbq#ulTHPpM4H2RSe_CT)TlG#aE`t{F0&#u+86H>+
zcKr~m3MPb*CgcM$Dv@k)7eMmV7=ZaJOam!)3^wrwRsk^1aZ8M-*P;EH{TuhGr$A~q
zxlD!2*l|>YUF@khV$?5Pry~8#aTm~6MOjazFOMs~I7zbaF;qh*fFj>Wbo8IyH}^2F
zhBjhta%-PzC}DFbccgPBVq$X-9T^kOs)LdcJNO6Wi%fxE8|N_r49HSwhAWl~%<;+q
zz-#1pkWO3VuCzYpOniU60QAXI32z+>>(E*s_r?jjEp19HAHkRr%a$J|b^03#H1k0;
z=85l7{qsHfdt^%o&m#7o5@CMvb(gGTf*o4p4hme%qeE+tE8kT>V)hUl(4#%Ysz=k;
zPkdLy$Ek;juWk`rnZ#;oKEU3&P5q08PwzziOCm3CI}x-~m{48UjGRrX+tdnd$6wQ-
zANfHvZnf0bdo-#uj9E>MRo+*^Smg;4#<^8Dur`d)>C;&2m}``SM#r>mYBMx7p7p!X
z#`bSA_>mB%!1N?lq*PoGy(Pi2?N*X&P}IEXV9Lgol^|LkH*{(*F&416z}xp&Toctk
zVcx8ue8))4B{qZG^SB*ta}>bj4r?hkjWR#L?Hq2{NkYtB?8>719K*sLPZR#|e)V8g
zA7EZU4WGaUMOK&_7G4?@UfM3ayrWfz+S!42cBow#Xcvas)q!^PufH5<xBfkSdPlpy
ztH_noh{(m#NF~qB533gk)r-UGwL$gTcIL!R^~{*^#-REJQ2tRqu~V5FR^|tl`Oho0
z1MuAZ&hra9bJeZ)KYSmw&Ac$Iod0{}{750ko*QcQfmR=CO9O4`Njb0OMkJrjji$-$
z+>^=}<*lJM8)po|H$7??an3LxUR@XAf?>P^^DW^_8HOELKu+_S2A_ag?O1&a{0mVm
z8;0pa{y|a(erOmBTM9!D$BN@eJWz3_!-5WFQ7=~DM^1z+g_*%{jKpc4oFbf97Ythy
zYv9IPBJcKC$PE9j_{K-bXMp{d{8v`e8JI!knLjLT-Td(8{U2`6oF0_Ue4aY<MY=MQ
z)pYUxiH}Y{QXbuUlzGq?y!fMU2+(#FqRw#cNF!=#2SufH@sEq&5cqH|ZlzHQQ1CJe
z%b@Di_WY}Zlb{2TL<c~l3>N^=`^WEh|NQQs-hH&VJ%4%d;w$^=xc-rPJe~WfIU?}+
z%Z<-Y4X&&_L0F75d|&NYteC47cVt|)0@tM$cWxc2+_Nh94oaV4uV<HF6K%dOs*s@%
zV?O!o2Pc1BO#b@bEHpR)rddcC&e!-^92fP?^Yy))haghcGA$~ig4Gx6Txw5CJ(-3f
zSSWtf`D_-^IvBw?b4BFYkJ&ZQgtH*TK#vqjlD<`m^ul9u>M_y3B!#cY$;V{npXBPl
X6zy^9wI}M!Qf^y2`7MDj_tyUbKkGS)

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/linear_attn.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/linear_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8c5a5a8d5b8c8a4beec86d3b9672295c58762541
GIT binary patch
literal 20236
zcmcJ1YjhjedEgA*?-z*&DUbw3N+d{%6sh-vk|<HOWr>t!IkAmc!9tuN1qu&p0NN4@
zY?Rd9fVHzCn{-KS+KOtkYpT|+={9MYb9y%NzLK6jXM+*61u}<jm5sYS`LX9fmJ(<4
zr~7?(FawYtD(N}Sm3ZeqzWdF6&G)<)|HEoEQ4nI9x1#^^07d;2Gg2Tmka;|+qNoLm
zp%^+wh4870(Q#EsMN_Pb(?MPxQ^z$S4ZW_8z-vQV^3=ukV*npFgp34A6EnrlAu~y9
zW7@brq$g=z%o4YTtR$_E+2Zz)J?;oO;?9thlo?{KcwMNDq>ZuqxI5&IdqN(PH^sbh
zU&t442sMzrIo258652x2mY6@@6l#h$hnh*=8f%FMLV<W|sFmbxv90m8P#a0xW9{*6
zp>6T)q3tB^h;_s}L!Bh;j0NLep)Qhk#k%7?p`K6Af{J>UV(Q+cn0j{0yJ~SdLpw;R
z8%jOz!hB)~^^!6#l=)cw<QK)#+L&#7S0m;_JDCPnJ9)9TR!lREo0M<aq}<OAFii|S
zZep6>)P#2Z7Vx$J-rXvS?P3D#E~asUW_RChl}18S*XZEZpJC@mgS23M>D3obhEF_q
z^2F&=qt8NtV<??w6X|F&aXd11nN2WIX5`oi$3+qoEM!!P1jJ4mY=limm`FMjR14-4
zk+DnciDY6tIw6=xk_;QGWV{n>Iy^SbaezAfdMp+Xj}a)q6oA*Il3X~B;NhtV7m39n
z0dbgPndvb$s1lm7xiTDd>$1?kdHownF2;mY(HX>JdnU=f5#bo<Rhqq;7V5CwxLAfg
z!b0eh;ly+*os6HIf+lsb=)|RTBAS>8N2Hk%{IO^PrX<X;W6*0ELz;`GlL=^4e<B&1
zjwfEI4CV}h7Mw38-&kJ+?=p@=;uj;wBPr}(1Ie6EN7C$Y`q~tGA`%;$jz!W*uD0s@
zrATcRAaR|Wj=-ADL~z~2DTmSqCd#p6X_&@|Xe!NeumCu$aB>PNy<(?6wTxr6TU@3=
z$7zcCDo`Po3egM|Qo)~^u`)EPVN|S^Q8SuxU5*;38SR_akdD<eI@U1hszoKH89i&7
z^eB`Q42<DT&AXM#kcBaB2CG~?u3=2D^Q}gTv2EJctlXB-%;+hgq{_9dZIg1vv5c!4
zU<`<FT*p}6)Q0Ri>M9*_oTq|z!7~y~L`Nc5UxJ;sv;W1B^P@>F{?ZGA`BIc&*aX?A
zf|{L52|A8VPjiXUu?h(z^J0J)^N)cZQh!J<P-#+((X2W{eN9VI(ge~}8ggQg$}&_~
z#+EiJ)XFW=R;hN<CZ(#+v{OneEppl|)n@1nHK~(w)#r>E`UxYzu<;3fgjz8`YoC;^
zKA}`$3xzEbL`DTT<o;iy?$Dz_o1jfiPqCa}2!~+>(%~?N5P~5+6(%Ht!{&k>vPe-l
z?6hFSuQkrXrz2?L8yveNXp#vwC8(o`w4i%~Mam#p#b-E{j4%M`cs;^JBZ)CK42u|z
z0XfhJniLxw=b8W|*G%w+!(*{XDisc=kiP^1f$P6I-<OV0^-V>mcBCU5kfj}0r}rJ$
ze|aC<7mHr(o4S_1luYy?<?Is)C3}?}n}$yH#Uj^OF4Y%DG6JxKE&-)V^iEyl+5r1Z
zi}IH1l_sJOfKuZS{qj1sX0Xocd4unPp>fT3xZpdI)4Xk6^X@5l_d&|C=J74W=40R5
z^UlHB2k(xpbl=nb!1{re9~de0juzU^7CbKinE7FQXR&=R-@Z4exnZ6)KQOeG0&O|X
z14C2EV0#R2q694x`nX^vv&MwQIUK8SW`v+{E0V4LSCD{>UfC|y4W3n{<;^T@@T@vR
zPgZy~B9Q_^<2RX6&A=P7nlyZyV#ug7ni+UgM$M>Z5Q5|+2_dV6t%jf6hA=5_&}s#2
zbuGR_+Rngdsi1n4!y)|)`ySMh9VhNHZ3<~P?8#Vkj1@G<KLzbra_U+b!1@828^EX?
zqiqlgCTPHkd<<G)I)z&lwhjaimyqj*Xr_IW#a_2bLDZyD7a+P$Juy-B`wMjka)ve6
z&Vp+or+?_)T6A~v?#^W=@9ti{%DeaFOluDJ+{BWJ_jE14ymIBv7gnF=d!8vcp3P}X
z2I~#etf^@5!M0g!TAJn?c04fj!a{R9;SB<PRe4qa0On+Yg4F_`jUlUoa(Qj5wP|@}
zm57Qo^H~~N%fzkPnxQ2KrS)S}jQZ*L?`kAz5_TCiDU+L;H)t;p!$SDdcBw3*mfoq{
z0tq4R*(#}?bVzNhPuQiD5~0N%E8)joj3Wog`f5ulg|$jEno&vZu`O^Y-RRHAj{PSH
zFM&v>W}<OHf0<>cFrj5oD&ckm+Mt;mf`_028q|Ra{WyHf>0JYYdMf#bpoz1Qgt&k4
zV-d7m>I#?UdLYepK@`+*J1~6+D@{o*IuRzg1%pICCDJJFZlK#0Ic;-#RsnbhP^NA|
zbe$?2D35pH<@uL$rjo^aV|aG>8}5as`KE%UB}bR)>KFFR?^$$yegDGX{NU1yEA@Z<
zx$j^2-i5irLfz?{p=7q-7@Qqk?7wgJuX*>a8VcT_d&55%`Cx?ip36N42*06SFwdJ8
zpIb^7I}Y>k-+#E^800O3fZS@Et6$hMzhyRDv;=rdV5zZS>49>)BWDo53<JleqRcdi
zc(q#{)A;vzFGTQxsJ^U!9#p?~A&22BxWF<g6w5Hq$eSA$Q8hZVqas=am?WDDB$DX>
zu)nD!mkvm84S>9x0Pzqc#@-;!odP65b#+m==b<2lJ&_0utgt94&opmBWGeONu_aP1
zSO62{@a63-dBY3&))xv8+gnQZx*OTq?BclsmbZ|}2+|W@`@i2=`sBZ_9N}7_WzdO?
zIswc#92QJrR1T(Nn6`w&S76F2H5z<!L1-Xo$@U{0Pq3swf{u;>=f0F=2rK8d1B|#&
zbuSTpgOE!yYT)hDQ!$o1gJ`T3);z|7{t>=IbG=ZS!U;bnQdvJD!U(r=>c2ts%QvZ#
zx$XM!BaK08Upi5y;IYh-$7=fLm@C&)I#*d`(%MUQ=Z(y4rmTkaL$7}!GoLAIAzju{
zCfmn)NIh0duw|cF>wIW-+&DaYxU7XV0@-i)XZ?@$m<v$B9gp-nZ9s;BG{DsP7JBA;
zmg;%ewlY@3M<6y^)Go5OVmD*UC*M1B=S;qNKkqxh8xMS91R$~sWL#q~BsoYT{NsC2
zR2BbOH3->e5dAfil8PWVA!4+0xn>i1?Iz{AP0IDGjxoR=O@wx%GSs*O)B&yZ-Gua@
z_F6!TsujOQ73eg}CD_=gKwlB)%L4tnV7&Z#cnme!6tLY`a*73!FwF|4i?QU`Wl=&m
z5~(X3Wv+59F!C{3pnwdr9;A7X!M=cButw>7O(T^hK}lSZiLwU1_FCMPHqxjV`f?|b
zeM82;?E*+8rdK8K$ZVeuL1$FI1_C5&r4@e-7<1N`HD%3NOU9D5X4I3i{9WlXJQ#Jx
zl(A&2k||<RW|LJIX=GVjRmaFc&q1cwWV9I@FkzH?AiM@Mn6+nZ@UA+sq&Cjj!0<)=
z9w@3L*4F06iJ+#`!%F{<>OqiJfu=HcrBO3P(PPxO1}UV{I;r<xp=)#?`=nRIR~s|(
zx-fc4+yu&P82uT(oJfr#n^kdWm=a8|Coh2(pX9D_N1$M){$eCOb}4{{jX)gq`oKjt
z&_Cn26i5V^z>XvE=)4qQf<X&+91$Xm=1yRA6e7Vmok(4oX4x5*+k<&Ma0Mcfn$QXo
zotREer#MvdxcwM`^Z+oG7C{I1Di($?`T|C;VTAG|=_?n8l%Tr|hL(wxU`t&}PJ;zz
zD#C<OgrF}9^d*5#2s9(mEO(K>Ca2R=)9Dn7KEQ3(1wwU&hDlJ_D#}fT%Y>&mc077@
zX4j^lbnm8(u&=3qf(SU2hw=m#F3ev5rDpK<V8PuFvO+`SE%#0LH@!<kH~l%=kIfAw
zhm)}Sp|9I=Lr=-LJt%F=nsRimKNp#Ef{*|_-`!kvZ|B|Hm#!?gE}vVW3+{oUdysd-
z+m3>4-Lw<IuFSR0g_fVcckqc?)okJojXB+%3COw8b;CYuUo`z`|DQ&dU4MS=FX*Ks
zyl<fBJIMPEuJ*4+?l}v-6Aui-CA%AW%i_@NmzG-Z+uQPnL-}oo3J}}d*6hAT&#mU0
z&C7J5p)22Wq+maqHyjnIK4G{9ZUp9o8^!1>MlWJSwhi)g!eqH5r0!5+t3E7!MT&3>
zq~3xEm?7{c2i3amk=>^~MwcoKOpO_tQ(*?iW^oecrYBhgRo}31c>ZwNNU|o%-MDaO
z{!H0SvKGqiD_cp@M%8;4>*o)a$qUM^3VZvw4r>Yje5Asp*iY=@I-Z7lIEKf+1h!sl
z)MC|W&>B}Usv0wt7Rq#t8dW=}(SU(T4<!cHs3c}rptJyGCQt^}g8#-zdqyXkh5(OV
zG*lUZS&09bHZWOP7!&-N;Sbs{R`|2QpB?@jtc@`cZs%m}m6VHhR8n;SQ4fD^Fvro1
zVcbtlaUL+mIawFug}$Qrvmt=dTe%!D=$M9@Ij9FLjW7xov!$lg&G_G>LLR0GVlUIY
z3AUC^$^)B}<J%2PE6k7YGsd|Ua5fNATq980cEPVeIAn9E$ktKrs|`q-9|NxgwhrQi
zYE*Dk4KAY5oSTAL5F1gsA!1`ieK8UHOc>RtnU1HuxVHunaUkivPCc}@in|$KK33Z;
zlp{#DP*ejq5e@DkDo$r<;998ARZI|I@%4z}jyy!kzONFtqg|=@_5NP48;Qf{y(k+0
zQ@zyzCb+Bcil9o=5ip&?msiXWf&*>oXm|=&+Rp5F>Nq!o|4T$@hUhx=q2b&^`?kDc
z8yWMu;o|toa7C*Sh$B$2F<e(YFDgpdzYRgGtI@YB;zTW&GFBx^5I`!tLrGYuGI>$K
z(FqpOkOvGG-6a+xaaP<S9NIT!FN3@)Vbp6_QBfAPZ>P9h#I~YxJ`GK4cb*+5x~Abw
z&#zsU8tC6eY%fD}odUhBXb<rAK;GVyH}pXK>5?^jXVHF=x1TIo97RhLZ)qx8+IUM_
zO}3A>^gY(99i}p+Hk!x^_pV!F-0@_I6OgDi{3%T}EC6na4FO7(msP=-cbAsTIz)2@
zn};zm9S>h(BTS0egHgm1446j&CaC35oZED9h#19v1wc5QJMK-4p0Xwc{x@C|0*!1o
z1u`eBNp-$GjSGqS#4__<>`v_7OFy{q!3B^baFSJ(NggEzXu(-=G(<u9=ZG>Rb{6{y
zTQYJrJe5pE(JCMco(?h@qH}^MJzNGylqKMxii1B-+`*#QClN$hKN57JoHkbLM!;nt
zOZ*40cpKapj*V`Nj2X=N@>iD8)jBcI-W3KMVn91t7`G1zpfFHjc^i;AS(PF#0(mo}
zWd%YK;Gw0g*rsLiy{1;S{=rtO9hvlQWh)%?MpW5S5{3HB+rkV$uVl3f-YfU8@=|y}
zsob+_DY0-<VfkIkP*B=fZ6l>BZDmz0V}M@BHp+|<a<VfhV}+b#GN95ZJd!}Hl5!iV
z6y`#O*oj(b{U*g|{#bQa`)+0Z0F!LT{0%UnYKb^>8*sR#x22IIlK|sX=u3u{`=Q@}
zLtg(hTIQdEgE8DSN^~CjkJ2CsX*8IUFu6}kRiDrwg_V?)Pf&36jOjA03}*(V)?8T+
zv_O%N@Ia{vz7c?$0X%3?#wUn|P`?ox-nGBdu;u}!zM5<$38kCv2PJrTKeXJuRU<Wt
z*4_=F=9@y_7zt_AQAv<$Cy!MMY93iT>^J-5@tUGa@^y-{rB6!b4453gN&T^`aH9!T
zxn0J37#e}!#wz-4xCmsQnKAZW0quK=OHKlF&|Hj0Qrz!D1@|^YGnQUac@0khYX(rr
z5zvW8mwuZ2&M!YY0=88g7}4e@xc?f;n5gp68P71-9HV2<CO}AK04<pZ1Hm?KD+0G+
zMD%Fw@iS*noEDvjU%^sBsO{-wIuZ-ZjEegzRv~c^xegKm(Q$+hPLY=xa1?}@8L^Cz
z^eQnYqv4Pc3Iq^`E0}A>#^L8E7^LwLTcMyyfcu)`u%<42aXN}eEr`WTJggxa1z6G$
z-bt!B-0XsDEE%7Q!qEm`G!+IScto?UWayU;WC*6uM`F|LNsdc$L8mBvq7EmHS)LOv
zhh<;HXci-xO^J(zlgYh>5iXn9v44xHUWigi!q%A`Aah+b_~KH`Y<sHABzaQj5Y>Ja
z@uWTpP)3{NOMTd|75t*MlDh>SrqY(}=nVChDy6;vlv+zIomlEGwGQC3dChyM;2ne-
zOV$7S5Jj*y-rlyvyc4?}<Lv`0k^A<2dBeWEeP7AvFZz0TU(br>yO#GYyzekU>+|2T
z-Lx&&zt?o9iT8m^7GBlRbgSuRQ>Cl{%WNe-d3}TY^!TCJ{E@GxWbqR5Z7Xltx^#}W
zY%e)IrG{-KkALo!#aHun9Z$@<1{30aVx#<E%cz3aLcW%->jFqWK*HDow4qBzi*25Q
z)ZJZ$bksl5s@?cHBls>oU`RR1yHDO@evtSeQE-0_j5p>ji&yTO1EuE9<>&b3J-Okp
zoqgEc2}YZ_Q~B2Zl_9=$4`08RckErQ=N*HO)T$O+Zusr9V2*%kvEQ`AyKbDBJ+rv`
z*5FNW=5#I(qq%&wpYJ(bad&r*l+~&R(?6Q(XS?3&DQhXC6$Wphn)ei%_7<B?@lB`l
zhQ^ZFnRj;--A8!%Z$7f-^5<Ljtc<U`l5aXva2?HCj+PD|1Gu80pEvZcY`<?fAnJI?
zWr+WGo#zzgB_cCjhXk0F72QA*y#!Nlt&#{WFi5q;U@1u;uw6HX$qEmyEw4J5(6cS-
zFhC8Fo^Z(2h@lXaL%H+oltWj=|6DndgkJxdzNdaupKkDX@Rk&EQdEcQZ_Lcjyp>tZ
z7F+uHmi|J^uKV^~dBd)}eb)w$^aDeO?2L9Ms)x8ls;I1aAbJ0)YJtkB;7Akwrs4Nh
z)#C?BT8N681<Sa^veVF73`)AmU6mvvC|UM1APzBVNh7H^Wi_Mgx`{F^66(jlfC!~$
z=py)jpWel4_moyw+8LZdg~oPyDCa>&tHCQv)8g<juBlbnNmWeJ<jjE7omG*y$Q&7_
z56)k}=?vI+5*$ney!-b=!x`*$s0GH+NTG}YirQvV@~@$qSV4Z{=>Q=V5SuCNm>A=%
z!{HM7Bd88yn7W}JQ%z7~steEt9rvI}sIet>eO~ppMFVwN^?8VCl6r$!U<RRAM3_JU
zA|6S@L84f4VgS72<WQxCy9@wut^<z#q_GgVqCiJCc);C6kw@;D0v+uQ(B6{c;ena4
zr+!8XOu6?k_^~3f)REpQLZz~rm;57iFEt7gSOI(uOZ2zW?_9fmZN>R#nUx6Nu`j=E
zKOfkiZ$1DP={ar5*EFYH8`!r>f4j5bJ@kI(^0`Irl6L9JZ9~D=xzfpd59J+){@;D?
zA!6KGu@9*<9GM~9KyWbNTkzoi9YlgDnu60>X?6lnV1a`d1ORcaxIf2g*H|o>VpAY+
z$<ra2s)Lf|ufoXxBQ%*A{w!we{{W`cb%=g>o%&d%wjKsf<fy-KZT8xt^Q}zLzMZ#k
ze_-$YvA1XWT*2Fycl15nw*7AVdtG<BzWvg7Uw!}8)hmDbTA}MWzwLP5vGphQ!F<=@
zLjB;6J%J@>e%n62bzi}=f7Q8Kzd8gw%5x-t^yPcb{K=R3p_lWXS01Tp_p5YSt#-Ny
zzW@Pq2>K$ri!>D{cSZg>ffWoy;M!k;hoB=eSc=2RNFh531S*d0MaazT{O3;3M~LSb
zL@*UkG*+YQNi*g0F8JsDKel-C-p+z0_-*%ho8E5%YlI6prgOF<?`m5*2Yv`s7jjN?
zeLFlkt7z(z6?DJ|Uzo`71nB1iH9=+dRbo>;`jr7cFnH5&ED$8}F-*<T7k0rn3ck^r
zFIlH#7n0gsehnr|O+(9sZ(S>`0)#%JQ!)r<jZm&YCP7gq3K{BzS<};D7&Q_(0%-=H
zXKhOhP#jS9K$SA%Xx9fk!X)z+*-%i0k%&C_XH}m87Vx}&23YK1rm?{BVd6{8I?^_&
zzmq7FZwR39*)sMFn23~)LqRF(C>sKlqBV6x07FA%uVtMX{iLj_SHUt)B@eMQhtiI~
z-SYNc4W+yr7!^4X)(L&sQpGH#MD9WS+B(UropnKPP`lX>fIYgTwFS$*J~fzbkw7K`
zQmXm{czUv}nwL`Gqpk>s;|S3%l~<ooy1kl{Qg`*z7j~Yid2^>!UwwihLUq?5_4R3U
znAK<Wz{-uIf&~>>VkeBnQdQ?So=YNn+Yvy2M<wVO_H{TfNyr`eSdKzz(9QjOcnEqR
z`(P*M1a*u}2zKyobJx)7&4JrEIVL#q1(nnK=_FihND0O?Fy9myJ6Vne45BL&9h}@v
zjBa3rFBf!?sVTSz0Y`%>2%?E`;77V>0-B~pdaGsQQ|W8mpJ1bJV}ul0(1B$XRQzC_
zsI<O{6(Nk!Yc3e1V<tkqXmF1v7#Llua?wGs5@!k=Vj|Zo1f8g{!wIO$MB(WZL6;mK
zPqA<sSsbjO31e6FK;_d=FQ~4h1l48udp#vM$zjv5XqhD*1Hp*eym$uHTCod@V@#oZ
zxltj8yy%Vh$X$pem~cFL6__+kiJ~ihNOmbHH~JO4C{=<z39fh@<*Lu=*8HvC>R8^f
z+WbRjVe9Fl|4i;o$-d=}QcHuywqtzTu|mtxefyB$aFfz}+rC1}{`>a*Sb#@Yck}Mu
zxo1dnfOik9>|H&>?|P1RpMt`=K(THoU$=9`v)aS=Kl4K;-~T)hXZ?mtaIkgn${D`<
z81EU%JzH|R=JqbO&ovjFLEafeuYJMUS9Biaod*lf!@1+10YIR0*}KxV?B@e}^OmNM
zeEmh=Y2J6b<Zwy<TT71m1?#*OAEtRzsj>N1@6Fz_ooYBkKc)-~w%jRjep~BqjLeQK
z28)fod}D8+ap&J!`pbP((+FMONm&|-<}TjcwS4ZrxwqsG6#c!tzZZ4k{<+Aa4<>K5
z>9JbXWXp}f>{n2=E?#(G>Hdk`y#`0g4$U80qL=#L*?W8M^432)xcH@&E8o5P{?&U|
ze(=TzZ#<|wo41_($mv0bzc{|!`oP&!bnfGw`wGqjIUSrxP-5(O2npHs<BPEDcm|k3
z@(BeS1F*RYTd%FDImauD=+%0OK!Xquhkt$xctPO*t>9H>;E<BCV9<!7k9>4XW*drj
zV<f*aYXjj&bOEDy{j&f>aJ>9`@ZiQULb@lItE4f-q4A#3zo1cxW^wnh{sWBuGe$qe
z=)XXe!rsaBLNuKHH5AQsJzb!zrKnqBH>6N51tr5`&D;9stVKs3@94{0b`~uMc?+C&
zDOd)JmgjiOa|O%uaIogH1#@lBcN|}CDh7}9!Q*+?iJX4TxkEad^U7lSR`zCgd18fw
z55{H6>1qX6K_Z`olBc)?3_~zVp0w1M2J%us>5y#yDM-}b;8C(HC|M8`?FK{>1vvwB
z(TzbmZ&x+kXhp82PQpDS4Lbihv{?|#sB|#9fCV@V?g2!SDkU-ia#VK1Rf7$O3wkT3
zwBUXwmFfZvpdP?kCfg0;tnr3z)>brh@L-s+G?Xl^lEsZSx6`wye{R%Pyp`)_497%f
z?C;=%uk{GaAG-!lSt^(x-~xyC%Of@Nzcww)=8}X`am8(N)dK~?tacp+)JsU%h(XEq
zmeDG?2T{Jy>JoO4wG>=Y;$@XAI64(iHWG5#C~G?89Hbuf9Q~y1?5cDS9%)(jRdU%#
zvS8L&1J_t>Eu|*?QmXo#l;zKAS;i=1G-XVat<@SS1-;yK#4z5i5?uAksK(_>6j@W%
z8LKF}ngEA_^g02~J+#n(WGY|ccnx+Go>v8JNc-jg0PQ-f@03!ot8njb2)HLIYh;7<
z?b%Qb*{nT{$Kyx<vJPj+B<VTp$T+|SJPhAeY8?z{u`-Oa#?k1IW^|ak@Csmd!5ar8
z+|_5snQ`H+BKx)O=`f65hOE!jXX?=Ym32d#-Bo;2supj?O&~oPPsNE%zx_ODW3_Mg
zGBjvtUO2<0It(b@4r!=$qpX<;5l7aS(O!SGW>xn}Z>~Nw=BMl#<vKmi!zS&FSckg-
zG$6C0JJdXRu=;i>b=M@XPeY<F<4bvA&mdpj5Wp1+4#zLqzGTm6Wv#9O+_cmrDl8j<
zGBm&*+W-jJ$rGP0%QQ&)BijJ2PAWhs(Tm2cA^ofbJNcZHsy;J~65dP$&J|#9P@*qD
z!4&37YD@Zbx{6gwReO!pOBB?$fUO2xujY#D6;(cBGUdL5slUMJdl=y+?G^2Xe+kLp
zb`H-b5P1acg`kzC@%klPs*8@LMQ2|l00^!c9WyNIfFi;@*!&w99ml8xBb;gR4yb8-
zIzcYUL}KXeh)n~-jIwWV^8f)BTX5p0#WOzlu)y|uluN_?6wtyZ;3}plD*Y8ALoJnC
zMHoYhy%Gj3HO2iWEc-S_Lm2%CBb1uB1&mH%^oI}$^fRE*MJM9PD8v05C<ty5g|qcM
zTChteqe1P&o9yD85Y;y_MtW6IebwLz7U-~`g(qCt(!m1&HlFIfhwuLYBYE-#bFJ>F
zzfw^;wO5GNX%w|?RKU%ZF5ox?n|N^|orGJjaBE&LSERmVB6f{PkAeoB=P5Li$TH-o
z6QWd!v-0cQv6Xq)i?W9f$UKofwt#Nbm$R3;4;H(h<GY{BSxaVL-rT-c*R&YF`_hBD
zfxKlPUpG+l2bbI5>%P;?`}gKXNbQ3i!w>3C<}D}lbtfM>nu?B{ykqCeU~$)rJp6aO
z_()Azo8g*GYi}{Iix2DqA0tuf9y-Zwv&C$F$I*Q6(R|CXf^%qAms97?l^k^ox_R9<
zrWdmF*@9zRPP+zLlyBZwbhh)(_KM!Qt>D}VYLwH9H^~;qZbffKmua}bGyLAjosrc6
zbR;^Dg2oIM*Y5f5#qp)|JK5XWrQ|BjZ$GfgJ#ZbL)r&{b#j%#WTkw5L;o`OvJpA_#
z-#f>9pM}e8Z99u?C;2uQWZ<JMTbBk`dhfLswhR;1dl7uhEo<%F%Om+iqxl!k7203S
zJ6hM;I+y)_+qQS^bg8+!*nEg@K2-7rmqCZ!hdx!$+_NAcH+2>L2YCMhsb;m6_Z@=j
zCePeSsBYc9tiNraJN3}Ft?29JeZBd<WA_g6eWSeZY^kvgEZq(5Wi{o-J50W|rAWcs
zQ3?*0{5w|6ydUv&H7?o!&w+!BhNb3}x_s;I`@TKpR;qp9lXlA6ycl2p;_A7A=jgqD
z-ZPvtlUWF?!NKw`%zpuN_yzC0chNcDxOnc?%Qs(MI(IX)-1=U}osN~(J6(L!?!05q
zYUKNuzIW+|ksnR`%><aRJ+|3r9>GEN7I2{#8+P*zyG!-%xhspUi?8H64y|4Q)u7Qe
zuY>M3HWwSZ`G#(V`Z-h`T%Lu7`G%sijd!*!JyURY!#cY>Mb}o|1=FAJKan3ek#8F=
zxK6?nYI2b^=q)r@-2L^IrM+O25Vr-E3>LTa^02#|eL3C3&Yt(IcdRSph0a0Vuq~&{
z+go9+@`kOqheT(AZgjLlVNqTd%r)nGfvk++=RS(jS*$g{DG<2tnZ72dQ)!NS9m_Q2
z3Mfht+)Ee{dP(Tlb<74a`d1jCO30z;&iOEE!{|kf&SP{7BlJ1cki9dQC1me&nEE_K
z<RojwL&0GoM%S?734Gmn^-gOot7z@k#S<S>@WA8$Hd0X5skPge+VdR;_^k&YQ;;c}
zbXwDrdujTe-?{xeeCw{q6y(bewOF`(ex+?CwS0kxbv&Q%IL5aQVJlPFPxb69b@!D9
z_QJi8QlPcuX?xUkhSm<z58+CJmZV@o{Vip^n1=n~EgQwOiK_FI&0^X@c^k`CF>S-^
z40bW?ptdxZonqQWdABYN^PbLfomfyW7r4a&59JLm@8&&yWv^J^!`FdH2s%`5L{wYE
zw4ZX;m&J~jo8fxl&s)TDV7Yi3Q4N<Bx4qMIy9dtUYVE7j-_Lw6Lz4LyUiuh|a4JPO
zxW$R7I<03p^)UsHN)@C&?%EE~3$#J&Dc2jcrc%?^Td&=Gt*plMuKnLV{QhAvedgSc
z&iu_8l748kKGs5gx&9cfJtDUt8L0`$NNq3!jXr@p9oi$}840o%Ht;`_Xxb!qLQy$c
zr$d4aBkGV}gv38bhs+QcG-{Gcj&t#DTJ;Pux%RIb1$W!}&Orf+DPV{OE=Z0(v7#k5
zMK(N`W!A%UzW`|NBaHCi;-@bAr?Cd3Ysln!ApuOzLUkN0Y(I4UY{}eMH23i4p5+j4
z-hX|#q%nMT<jW&VKp1{#ygu^3G%t$oHVw3^4Zthq`wik54|1OYYyt|sTW=E(+*L{<
z-XRE&M=rD6uK?wn*hh4?fQ{EeY0csiV(;O{G4#nPa?zJ0P}qV~$kTYvJryPw$c%_4
z9F0%Kf_sQ-SkM6lg5Treu(v{h++C25$X72eL@ol!La_!1NvM=iM}EYkH<9SA3U%W3
z;5CH#--u7gMiXEb5wE=2)+6U|41$>yf`9|Z_C@+eC>@#wgjQ0=z(qYSdT~0<GQF_a
z@#zGf^uv>G$tli^a4nyL!{5UoKYT<iNaR-{#9t_>C!iZeI~!mTcT^LpU;m>Zz49;p
zaHwqyK_wXSwcrJhn%_4{h?o9c)v;_qEH}d686n37#dCpAdjq+n&?~Qp8<F=srAH#X
zc(Y+T9R-h&2S@A0b{$V?M^2+xegui|9Kl1N365T}_F)kpYJePa5e`)Ya+Hzye+1nK
zxoA$fjL4^+AOQK=a3_<`LEOH5kQEGvVSeCd`Vr0ndmR45w+L}rP1E#a14Uatqyj%t
zJ3iD5{R0*FDP{S4swGdgd`S5}r0V~H>iK)>6i=P{kQ)6&rKVM%K!cO?htz<a`#j{1
zlHAXs?peqk{*ZcJMEFFvgAOdd@`QrNC;x(Oq>s^$D2$&R%&O@lO9Ss5xP4$b`UH-t
z&_~M03<ml<{N#a;+^|z)<{{j^gL7_WEoOj$Imq?FvYuoO$UKZB3B=#@*i4ch9c`9z
sKw3rt=^6}}6A@raY!9hNE{bj}S(-~0f63K2*I2T({lciFRb)Q@Kg0W6EdT%j

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/mamba_mixer.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/mamba_mixer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..688db0484776913b82c82fecf8d4f921fa901b8b
GIT binary patch
literal 19928
zcmb_^TW}j!mRL7l1o0qVBpxIHHu#VTK0s0wB}<|uk<`PMCEBuV&n&GS48(3ypa76=
zfVQM*tTnry8EQ9Mma>_ZRGW$D9cN8Ns<JXwsmPV79c}V4Q?;oCJ<t|<I&wubqhxC;
zNd=1Jc(NaxoO2u903qlxJ822G&%O8Db6@A4d+xcX`PX*4g@Pw#_@m_aW+>{H7*U^=
z3h?kP9YtNDSc;`nRGOZp)4Ew5O>s1Df;3%9pEk@IXw28AjI%~~8&bx!Y1Ty2jH#xy
zdDcu|Q>r;_nYE;?v(~h2)<)8rQucJqY)jfP>mYG+%9(b}y3+1hH;Ff=Jn7ciRsvg6
zZE5eUm%!GPFYTZ8rvtNrbo*>ONwcLo(!tpvf$gbKIy@Urcg}W_cuR^&M`k1GuGuaU
zcci-0J+nRO-q~IfccwO_H_vV+uq)M<j?P92>`wKk2WAIoN=I?6i(gd-r}}0+*J&lD
zqYhGR>jxCu#s#_7>jowDdIfcMh~#@A-^b~$>y_l$80+VZi(jiC)x6li6VltCklw+K
zutE5R;1}j%^DS)W2Zq^EmU#kx<O%6r+!i*>>gUaDH<TayEz0*m`K>T+QP#tav5^Iu
z+j^r{9T%E9qmOR-74|r)lkIQ(&TISQ(=Y9xe&ywvgR*5Nk>=PpR+dv-l$M>7xg3|t
zC6_W&iMdl;hMj>#T_yuz^J@tnP;(p~)yvlD#N0`4dMPuXT#&6tmRK%TiTD<{TzqbY
z=YdT8-Bc<apCedMa~QLLe0GVCr?E(U8Azs50Pu;-DY@s#`R^_9DK?%>p5=f}%Yh~S
zy#&ufjXCagPWE8Ac_j^N!$fGXd3q(ATS~vW3~<xyM~=-b@o8v!>-17;C7r?EVAY3{
z87{%g?MFC%fdi5a@?5Vky|)n^hvP^heIhZH$YP5EByud5$Z`8}XO_9?L~3p&mB=me
zwOPkbCTg>woO3R*l1-$r(eIA3@%fD0x-n&CnFX4F>B@2`ZZ4O6my2iT5*bAG)+Axg
z@d`4`VipGEJubO$G8a$ea(our8(@<>5Qy{KLNW`J2y=v^6JNsN@sakAYLkD2%O#-V
zgltV?FXQRtX^x+(Su#|p5_#AUBI`RKv^Z*(W~o^nOV8??soH;Rgw=Bf)&M^v{7mp`
zf}fc)vd!?bz|RUl8)ste@NVInSl!tsieep{xdJ)4=K0_%HBYmy5A3rR*3DTL{k6?e
zU|@cG<DB0lbzUC;a`OfdFoxL{5HXGG@-|L~ay}^M_y?5pLpkR^pj-gTxhj3{d3;nz
zZ**)sV0j3Z9Y()nUWe&0UK*^V%<I@7V778?fZGhQ&<6%huzDfQ$A&8uQRw+0rSbTX
zIfU{IU<FpG)AVfnF)G?6TL`ZmL5^Da5ahXqfoFOty}Xj+m|v`ZdyttNWTpn0=|Luu
zVVQkQ?j*-#k-?ela$=5SP-qZ2lqCprN>M@vQNLc104s?Uhzk%JSTy_f7?Rz`BzTTV
zW}q$zS#B959LOnBwlB+Z3~3wGu*~ty+oQkB9K$uYlwrnV<FPGF*UKPV_+=he2T5I;
zXC}KyVURw|dneB@lT0$3*_>mvr5RPag#D@3Jych7?qo6x1(^hMiaW!w$@zH>#3yw1
z1ebe{<1&?I;c#FNQ$%Djxn!Cnl_xXrCir9`lVgr;RR#@cVQZA$Kx7U@9ZQh=`?a?9
z_t%bVHcIkmWb4T!3!_4$t=y8$rj;R7;!YG*@lzb10jZ7hSav0GP+$*9q6{KQE!Z?D
z#Vsp>-M*6Lh>VM$NG7tf8KVTUA;hP%@eIgj*`q@7lZk9ae#tg1kz3Bnj$}5TTH+IN
zE|WL`U6O6eMgpzEoyaza+frr6kxejD^U2e5&YCp=a)m;L;Nfl~MSYk4j^`4U)3VRE
z3e+D%y2|e~B^U)N4iZjz1RcaG>I6jzW{6c(4~SVI24yRlHi((Dm>yzSGkF99#LQ|e
z=TRX+4>_hAw5qTG7Eu{7U!WFSRlMqZ(OZR8sF7S;>`-&7Z&r7`qD(zM?YK=XpHt;O
zCD4LlfoAn*q3=S|4MR=q9U68-g`kH<L8oA!g+$i4p@d7ts~Hue0DA^&y3wSnGcYc0
z6^}LNHfeBku1|#*`&Fp=2FYys!0?Bj->l542X-Cn2e!O3H>A>1`6KVj4XbI3T07Jf
zipoV*cyUC9s&5zz*ID2#L08l6E!BJ#x?xktv^rz)b~X38Td++nQGKf|Q0b~~7~!Cb
zmD{C4z$Y)LaP`gF&wG;e^~xHdsSWsBt9UBJ+6CtZ{94|ig(jHkmYSIktK|eU-;&#-
z#f*YQXujc4M<xTh2eg{e@;74Z8e&&#eje;Dm3Ho+3aNas_>!7ZedpbRLvSx1s-~#W
zyA<@~h#F&^g5%Gq?`f;?_i2G@TuyLIK%p9*f@5U;vp}hH_`G=YDATlcBiJFPajnn-
zF>NJ5f2jC?TH_fi>Y4#{+Cp|yMebXdR&ublDiH%p_+O!n`4uupl;)AQ54;i85kR(Q
zPbHVhHV{v+tZXFPx@=D^C0N+C743Dd!d9eG6sIUGAO0l-AhwY-dDLmh>vEcK*3v-q
zE^0zrEkRL>nmDee33Nlu<|>8?0j4IJ)ie-hG%7}d9v3xB-_WUxLLjP^Ix%n>qoVp5
z9=mppmi25h9X0V*i18?1Wdl*XjdM%OXX3IkyPQhq;DtwrsDZ~t%x_1urd(xnMF4l*
zEcOz0slPimoJ%hcFDI9WatS!p<c3bKY~S(1sqNfwDtTgf`AqKQQf3&BX2Z(n$(`or
zR^Y5MoJySG`0Oyz`IS)7{A0^!WP9a2LFR`)+h5h<V)1w~lg!2Av5C|YXd2nwu?@J(
z(5~!T5S*j#dbbw6+g1<W_3kWsCsq$iHrI!T&L1k-f}$-bIYT99m+0&&Ir~Is-+HJN
zoe-lFw~mU@J-4@u(L;sTjuxDKMd#~MYsUk<&gK3>Z?LyK1j^I~M!~5ijB*@+@6wmR
zpl}|zyvi_(wQPmO;ejdDc5fvGLzRux$+J@Gq~bJQqj3coVd&;g%6jhfvTU4(@ySK?
z)rsP#fJ_$ol3~vAlkk=ulj`BDGMIx;9n3oHGf1xsf?uDber5|??)|v;ljuj$^&_Rh
zJ>uY=;^1VlYpM{L`WxFcKMiPbyfd<RC?zdXS089?xKcr#!gYrSVK`*!QN^-Um9Mkj
zeP9<z&Y|v2c!SA+=Dm}N4gyE607coX&OP4?Rq@y?9)*c)N#J3XsLA{Qrgme{g8^>x
zvPn7e$|i+Xc-&>==9NtLofVEd%kj9w%T38le3@Tb<Z(7-(`gcso7kL^iu24LAX#q^
zs{&a-Jjw~#$fcKaXXGX_A7fi&dQvtlWw@+N@8eM$lFcBi6f&qD$~GWMx=1up>xtUP
zTs6YuvX|X>=19W%9*zd8vgyThMslv+4k26KN~Bh}{X7r00Fz?;kj<ywjT23k9|Uqd
z>J@wpf@qs;0PTF9$DK(T%<8a_0Y)W*-;4o{GLMp)M*+>hh5;GqjU@S(F=H<V2@H@M
z<>q*NE|th;<MC`8#8GI}J$n^a<zI#Dvz`X*xdSq?7jzW$f6h^ldZ^}>^G%}Jf5+S|
zg$Gv+cg!8yJJ^TufYjczYWPPEsWXPrpu~*eJ0wN6;5&TZ+b{VxOa7?j3O{Nx_$+{I
zExW1i&7TZ>G*If=Dt2uxb?p$lc9goN#jfewz~u*44If(1TTAA4(cFH=+<D(OD%pI6
z_JKlRaQz)IFmm(sBfZX#q->8Yl&?>+g(O@1<*%(L#L%#48<t#Nt*%E-%0CFXh2YT5
zeLpd11<U59=9Z5GWeQ$D9RJb8XA=(*EW7FEee}mW$`rnT_~ws}e|G!}0zWcQp6x~V
z3#(0cU7kz9i^01f<X$=disX!}eMNK*O3v_IZ^xzd#Wd6n;!AIGV+&1>S}1ob;{Q|b
z>f)8fLUiY?1u?q67(P&R9YlotX8+~ZtKKW#wc(pD79x{(%u{!3lJ*oL(|64K?!ypb
zH+_;TAceagH5&s+-u|GSat0q+DSIn4Kx$>Aj@TDif7wR4y=4d0Y==pDz&snt|6E9q
zTB-1OF|@4|dRYv;TmZhXx(aQZOKrPF_;1~P*BvZ$j^CWW`PD*bchSA4VA~^2>;=4%
zc~mry-rOXbciazzuLiFK*G?1z(HrBRPF$O~r7I5XD)=X`L-$n1Qs3U-s^O2VMCQr#
zY1stF^c6m{VP`<mfTH*zZqb+UR0Waxhwp}T#HxFqZ--EnfV?gPXUWD?)V)N-%xS8~
zqPeb0h~k;Ek+K1)+G(s>s&VRqp4HvZtGe=W=v!W&H{{`LyQp40R7p_$cOczalTZQA
z=?+n-oi1vpuPTm~*Wi?@<!Pt8YB@pwJiBfll{nl3>K?)HT&3Z>y@+zI?h%a7RT@Xh
zS639Gf_~#XE~4&N_pk;yWdo<-lQ#(_JpIn=!3t(n)W2W-UwC*FrN8=nfTDIqg1-p~
zvIWgp$%U1rl`Prg_!l9yZkOfpGJ}s}@O2DO$&#CMU`)?0FM(mYiJ!;hlbCElLk`ig
zvw))7XJmRxrl(~$o6OF^dg0<)P8PYcvMVTROG_L{5b9v=N}pAX-o%g>+nDtk6wSir
z4`_U46J>Ljtero#cHRqwu6A7MSUdX3@sEyw|7*p-)|*Gg!1nWpw2VIsuhU|nfA!Ga
z_RgyVR|X`TSF*cGc1E-_Ydxi|aj|RsX0EjTkhuL&!3Gl54I;F|a^A7pd|~uLqHG~`
z1%GM{N*-Uy(<6F%3Z9XIZ3IG+(k*(r3!dSEZ5YA^DgI!|9~J%4^=PSox7feC*uS^v
zpIm)ea<-P7jOb+6T%QC#3VuIabdIb}J|Q&}xqAG{@%3migdGfRFNG$>(B$o|+b4>O
zBy>d9M%NMr$L4~0vm&nSs>zMmDrJ*$j+(0#La3Y)(Uk$9)@ap8nQeHE(Zmc8s61f2
zLGjW+?5M&5)m(l*phu00s-<579npZN2OiJnL~psKR~T&t6W)cOqVF;a<1|(7X3n~6
z6p2b&0kKiFfy05>{$ca^<_}xWx0K9XqPa`51tgnWvN>`4gw3kiLPl%Dus}&=SPTGM
zQX6}X;?cUau^BCuD&rYY)ZXPb@bAW~5|+gQKSxPs+vAm@C?a$5130!dJc;T-uvHd5
z;A&4EMG>~N?$JbKgS<uDwCWxrx*Op(m`M;khHw694qB=_f+44E9I9~2Dxw`**I+|H
z$(A>4prCCJ^%NRy4*4b!)D1R<JQz?LnJ{7O8eHy>Rx}IEEICa#G->KtgW8@vn1@&+
zDPx7&HFK6a3eY1Pq$3O0J$W#JETRHl_XxBm@SofQ1FP3s&?2-fcGnSsC>S#hV9cy=
z$8mV)9eF3z+4DGVBctM?W}d0y{|2S;j8OM%Fa<wvD;m);sUxKJF7FZy=e7!tMa^_t
zt@?Te%!65JQ8S}f^PyBDvvth~tF<W{ag2ib9I2L9Auz-l78{sV^BzcVV4%#mJ^{Z?
zaI?Bo`(VDjf~Nxc1h?QpQIq%Q&@4k9FqAppH$zVA`}XUV)te6pfkx)jd^@D?R7+Oh
z`3^{*sK!+&AB6PXYOMOshai1#HLgPWFr-hZvFbbDDVX?$97=ZbEFMsy>Kn%4rD{xt
zgf^jdK?e$Dle$L`9%k~9XHq+)(x|?lK&>m^4YePx;;B%+2hwNMSoNLn&DdBv&%iGN
zzb^Q7!><Q^y$e)+li=m$+)))@Xct^hSTnDyIMp{`zEO>-(EFD6Z9@3{CZR{@79v8g
zV7y_zZdY>io1x5CRLtsI*!;XaO_cP$d^Fz=lzyj5L4~x{Gmv{*O%pc1Zx#9g|G1h`
zeGAcN)hzTs6N75xJ+p{*g}O&=oe&fT*k&Ot*n}py_#q>8!*acH5XcV-n-=Hlib7Nv
zR97}!!1*rF{67X>O$eQf+~c^cQD7Dq8l|f=R9Uo`d>U4M=!x{Z{=d+VWeh?m){>9q
zPN^*sIvS3-jy0;Se&6!jbE?oObP3E2>-CCu@T@xX!%yJe;f5s}NMypjBl*$%mS=Kr
zRRX2dQK`P4JwECz=f`qOYB^X1jaynXuEI#ezSLqgUPq$>_6ZMOb&n8wCPiEeLqbd#
zgDbs?qyP>ddseyp7_5_b>Z*e%s}sglK7ot3tcoFQQb&a~p6UaY+$d~P_Q;I4Mn>mU
z{OTL<^i|y?zZH6l>U`b9j|*EHwz-BAp1R{B-9|h9R;}Gc!^)3mdY**&torLI3FC0>
zObh-F>I@yVubcz*-J;q&Uth@(zY20X85(7d9XrCn?Fol|7BP#4b`1O(vRZ5iA1yWt
z?j_61sWXJm0@%yhp(BT1Q$01%hFx(a$t@8SKJlL7h7!|AY>6?iflZcVR|;?}IFf)t
z99=<jC;6q7g_9&3ZRg;qhUVu4I9n!9Co>C*fxb#^EXEw*fB-s-@LYB!g&r@J+KHpu
z&@tjoLwxs`KIn6lIRW=Kr?OQVTcJrD4`-uvg^c3Y2dz27{NmdeaG?4$XPy7>PojON
z6(5qyz(Q@%5q1Ue(U<{VdEk=+jRCieEO^}z^Lb5e<4~J2P--VDMUvUtfj9w<iQ1q+
zO_e?=M`nggpWs*)#{=%w;8FmFsAdYM61lmP%t>&hfw^7KsF1nT0xkJ9bRS8jh?fz|
z&4I@vR0d9w;HU#$M9{T4E{jb&0X{q6{({#eEHnM)zDbRO;wO`3U<jELOSwj~*QZ>B
zL`f~kd2o-gz|{=P%L;SOfu|t@4o3-`Z>*Gb1xx1=aQy}yCKV8u7p2WwD>k$}I;bFm
zi(nS%sZGQ#DHnl2yv8>wbw;C8@jpuPj565DI6w=q=WwXTR&mf(WLA!uPa<<xrlrEr
zWH!`gr`W)F+zfe?{rngPsF4$sSkyu;HDoIeP{oT&cH!j|-Zmz|Ym#_&$#%u(2b!FO
z`H&s3UidSZ$HR@z(wy8$xH_I>Psitzd=_q}!9|E&0q3DOnN2xdMSx3@$MfN;tfoFB
zBzrO|=+{bo)+%JOvPYqVcd<Y@4(?|QnKz<lxdl93bBTC%X+F1{0&CvyV-LTH!5=^%
zTdKwQ4>0vx7<?N7xLbsqCbjd>ZPLS<e1mL-Yb%wo>>&dZC!C>T%RUyngm$I63_VOu
zbb`n8zHA3C(M%ki>WJ4TxsZ~bY2x}>ZJpevI9<W58M;-G8!X^E@BqjrGf)FaDY(2&
z&gF<rh(`}0*;O|i@nyMHX-uUz6@OqJRXe%m-6W4P0=&BxK=$%z>XKU@n{v3bl-)Q3
z%iuTw)2Q%wmPaLBHqM<~$(-U*)#p){2U}H=dk^l_U|RSzrv5IbD&>_0uJA!tb|FoL
zn3`lG)hK9LIYMsZE8_@LTv=>!SQwRZvU`IiFFrMmZG9|_l})%wK%Vku!I_s#(Z*4M
z{Kn~Q)g&y3>ezQ9TM}-OBUPM+YXB;0YrxXbL9~1me+}h^5p@RHp;(D=O%wkO9?dNL
zECzV;;PKEXn-a_DT}e84lH>VfnAoIV@1lK2wvap8cq$1psGXDnKH~VCtWR+nSr1Z$
z*u$gS>a2^hLp9f-^n-1MzW}BAi%7z|kvUaALH@gl@u!Gk#~aqTdIL-B>=p4MH*3z0
z{AI+yg80sg?9yCGWoP|-$_AWG@IJ)Fs$6Ji`R^fxe}=(TBx9{IR~B3>L5x+nN4aoU
z*iK<VxH`v0pzJkrtIA~+&Llj@e}shp9E0y;@G%De9D~1rpjPG)k+zX1;_R~!mSsg3
zAX2lDPy`as!dT|lu|3zYJysmp%BE2nafkuewLX6F0IB*Z3~=cvo}?P5!7T<lzbj>f
z4VMfHk`Fu^<j@mxl~&X=f^FCc78?P<Gz2Ybr9d|e@wN?d7~2ydtXTd-=xKHv1nLI&
zo4plVxlLp36*h5J@yl1PSZXt5tg0PMOK|xfqXyufV$Z5W@^3Er$3_46s{NkBQ*tn(
zgDE%$3+6!xrH;;0$Dr6TSn7CD?0B(Y_Dhl8Qe=x5*;0zUBt~8;n8Ww1{(`mVt|xRk
zedCQgo-GC2mV#%C6pXI-d^&J#Kn!kMJwkHt4DGw)*<Y~jFL?G#%utEhBQkJ<8<M(5
zO5OX#ZpdP!AanJ|l_TrJrT&*h_#b?E^@tSMv<CO`(NbVc42<2Jg6rJCuGK@5zjrMm
z`upIXrItV>R*FoDk;#HB47W%?ZsN+sy1m%3?dCgT$Bt6RwAe9yd+H~;V#h0_JENt@
zb}_R37JZ8^M79?rQ=&Nx8JBzR`8qCr<Kj0;zNqMnmV7bM7pq(<lx$(q7B1PkMO*jU
zWYM;1-SDaPnzhuoQ|#MW>f0ms?YT`C`=%ZeHv(JPOxXejD|4@NxYW5*?A%%GoG5_f
zlE-)H#fxwy4=vawMt0qrx~(flri-3^w~vaRg9Y2cd!hbP=tVIE<K7PASqknFgS!gg
z6yfVB`9?+G=&DWfc9*>4qIZ1NDtY_XM@8=-Ky91WU1D4RsznOM3ZqkEa0*J@@7yav
ztv06w!)yynHa~<9?M;lOU=Eg@RCr4%v`-A}!^%RVRoK;Aat(^E!Bvw~14hP6k;7u-
zFff2r1OMC_x$kVdWW8vWS|g>_J!0z~sf}41EVK?w{s7#&x!e!*l>G=@uniQ34ukuI
z%d27U6<hZ<!hRL72Me(oaO`k}OU^x_b59wF#9)4Vx0HGgityhSxfcW08<3Q6cnpe2
zN;tB$U>lNp`U-&K^{-lgZuQ;|L?vgJ<OJ`rR;*sRrUP!jy64IsDY!}M+9rj!O3bJ<
za#R|ARqC3QdUi-XTOW0_w70AtDl=4UOKE7YIJ8%CwwIheqO)i1^>ugAIS6weYY}bz
zz{_jhYguSwxT_Qz6+@%N(Aeq>xOub>KpDvykeoeOyXm4ya(XV=FWN7kSnDb}d+TEa
z<&y29?N3@Hrx)EYI=iuP&_rlo$AH$vN8N7HxJ{JZudwLlvv+L$zp%Fb%+V_i?=KA>
z7KaZ@t!)M0wvunJ=-YeSRrF0mi$~ml>keGpd^z$b{beKN8iH1j9;8bnN5qjM1b=(U
zH!1oiZ%2y0eSkk&#eV?!G2rl#19SnrR7MUIoJ02mLom7}=OFm4tRKBe7oA&3m+M9w
zI`6pXkh*s$BmBtK+}`q~n{xQiCoj{NNB?N4?4j(wvj4Xj>u`4|G$e+G3bDPV*dZ}?
z=qIB;NfcwR6+=f?XYSg717I4|2|T(EE$xSCDLG@JGq(QD%}CL?wK_*IF<Qi{UhKm9
zcW%N-2{Ka8Ua4=t)Y|n$M+<n!gsJdgDKsvI#&0HWxr(7(t26g(zRJYBvlhE!8wGCY
z>{=TrhGRD)KMjwqzH*uV!<iqp{V4ER;P$S<8*km&@fBe7=5XbT8n45F4@*7MVvi!j
zdR{5@ye0O$RqXjHaJS_4UK+YMRA9!7ZWMR!9p|U-X=#eQy{)@FRb&np-7o#bCAwc(
zoxa!Gw`wXlA_ZpzE>D$POByx`^)UhfW)JG&JqVuU{G#1N!o5`eqvYj~4tW~gOoF{e
z&8~Sjx?u*)26a5a)uj=pc8gi9NWGCbR=Klos&TMG4-nZ+4mG2d1CinuiMJB6OF8W*
zXGxMSw<$@ey3{0Jqlq?}#gVPtZ#(e&Lq**nCC|1W!K0J1ZP(@f0Lo?Op)6c2KfXyn
zmU7q8S90tU9lJo<muw-?7E(5=nkaE(tLBc0wy}pz2B)P=sTbz4xmq>=twCXfa{$y{
zUN@SK>SSvsed-C*UNJ5MQSE^#wrCLzfG=DON(4M%bTd(dYzG(S>KC5GOB6Icav&n#
z6DcMD#Zm#j(q1TCH<QFaT5<pEf!rG3NeQA)m@HE036n+g{tZqRYINY7piacy_T9zy
zz2I3_3U3ubc>6j^zJAfyFQM<qkmw%*k2@TEqw1|tJN7_I8G9T6@K&Iq|FTKpNj?v0
ze0_5*3KOFL?%B2)wyGxoJ8UGb$#c{_hmS0K9-|v39oG+8`{=s`UzpSIH934?o~Ob7
zOv5x({L#Tz*h?y@ehOOo4j8<HH=)x<?A_5A7z>ndgkxxngF{|6Mw&B<ADd?Q`%neA
z86%SuIE$4tm9^r;^+2o*m9l3$YI;?l`D5&x6^fsuJ~tn|=jbh%dmk5UIGCh!9|KU!
z(Tzn6t9`A)?`(|G$VKCuXo_wmhOqX!r_sj+>iRhbJ}NNl<V+2$-vlQ?7!IEJZYc+C
zJU-X+0sk)`aRaN?ox%S-jubjk1FKry7q(uSxHz%qy<_cLf8*2R*N&Hlc8f#13qyxc
zSA{IaIjZF87d`z&&mgK;4i6dGXww@D4^IAa^<Vw^{%*9Iq*e~h%*a%<1AV>G{W~6)
zEphyQ8%$^b+v4$e;IvxFX^O|$r8!8}gRxmQoLE{)5pw|FjGaOeA?vfy+gCAq00X=w
z1s8h!{+vha0{;yReh-5p1}L5RpJDKyA&|{*76ixh+!_8C7&Q>b_Wz36I6|_$;@LdM
zrBd-Yd~<?VgJk*dCFd)iK~xOTBO&|OFlxX4fO=ps8_nfDsy7PjTJi)WrdJvm#{XXb
zgUIjE#?ZYsf7yrtC{%%9xru;gsv}%(CZL51c9yLKv>}3>fGw0iSauN5NqKx_7XjUr
zucPcCAUMf(mD>pDrF_A%kAUq|d$`;|z#!%8TH7aj`^q5_4{PyG5@#q^>ldVj<-LYB
zV;^`lqYH6a5AeO_merLHh4aGYH;F?U@t`d@wu{X#JTyXnIc79k*4{*KJP=n#%dLuc
zGl1n5+Gt<j|LNgthrz+wXusY2<H5fge28G#^p@TjUGM#L@Y-ORLio1v$F{$+JtS~>
z+0+C?+tyY-`Nl`z5F=yYEDhw`CM9wG*v;<suYUCYE#s}Z+hey*e_J_v`;hZG>d
z$;H%C*3m})<>~(gRrw$4)r7K1Z``!jQ`ig+;5#2u5Gh;q#@4kq^v1hs5F=Z^gv3@w
z_~Go%!B2ZoHsJH{-$GFRQvFSe(>GE~;2U%rJujY^t9xp${;9c!r{)@;nrp(`GfiMp
zcE6^WB=?b9iDUSU(9<nKGq7#`Hz>{jcMSdq2G!N)h=T<)vsAf|iN}?lXd00wG5Asq
zeu_c{olm|+N&e7P+Z9{U&{G3}qx<3Whl>U{k7`gba`o^PNb8dn=#HUJnI=N@7Lxu9
z1GLR4HZwGr5z`xwH}-QT2-F7!2$A&gS5ROk;fq=0SxCy8p7CuDZg`Yn`j$@l#vNP{
z^u&dw>Jtr;J>Qf!KZ6eaTy&cAmS@n>L2KZ<R&0AafuJ>p8V_x3jWutpYG3fJaT9*S
z2#yri8%EWs2sUohOiZ~!*#Wf3H)Sx>A0hnb7<?ZC+!m|GLHIa{O#O?Pijx3t$4{Sz
zzeG$zju0l~2;sj_31{&(dxN=4;hZ%@z~Db2=ln+iz$4g61;ApkNA&M07~0_A6dU{W
z?Q3sKV5#vG!Xt&w5ex$(@D+g6+))S(7tAA)tpzL&F_UQMFBrT9e?NTA0pC!(eG!V;
zR*x0j;OE<ep}j{m_ZIqg7A9s2n_n%w`4#w%!)yBH%((-r2cXQhUH|&+e+gxRh0xwY
z=jhGDVkdlaFbVZsK3*{QOEx=Hvkj`*QZT@mAX^^UD6p?|4B>xA8~*PchyRc4O*RvJ
z5n?nctgQLH$`<ks5!oj<xTzYT>x6NS15m4?sA>VYxHt3|RlXerztM)S?(nH74eB(o
z3qIt_LQtr6yw)I?Y;wWl$}ExlswC{$%2$45cLk?j4VC{pAi@6tgLw#uN=c?vnaVI`
zU;tm!QCYmb2iv2C+Pt&4Y1g?|C2M=hIw)EP*JnlR3+MJp26M^KCK}q-j@;S=)BHDv
zNitL$1_g;Js~G^zcb7;XX!pj3ZFJ?W+)d$4C?B6sz{%k6frJHHhF;FVWERS(d<ud(
z*3vSW5dzGwWai+n2CU%eA{&SABf%XWDa4cM<y3SWzR^0f47XZ5HjKw<lNqA-Hc)yK
zCqR_}V?9x~l|_ZZN_LYE0%Ms>O#4$6JT^<V5=wAO0Dr51C_{=`gl8nVljMOpJjW+b
zz@NfkNn!HGamY!i<_pnQf~whrD|aBc1eM7Sk^GI{cE+?n_rg1{x}HWj3TMQ$@8EcJ
z^OYk{LnVKTf_&0PKG{>g)Qdi)1UV_hw4rOo8U~+<PfEqX;~|yh+pweL47lZ)<-l1z
zw&5@8C>L6OtTpyrrInh&2%y|@wPVRZqmoMF&}CKjl6;a7BfL;)c@SIvUoZ$Enpyo@
zJc?FIHpH)B?*GJK4TA?5kfnzVUbivJ<_Sd&-_3hKzQTVhy8vNXPt)|5W{MvAx!(D?
zVe*%h?Q^R2bE@xesh36S<u7%5T8G*D>CdSxpHnY<sWZ^J2NVQfSSWfgT|ppN5PSis
z+dro!KBo?Wc~Iv$=P%K2k#=8ru}DWA=@KTo^+Mn>=x_*u&Zg@slf*|a*-doxa{D6+
zUS)R|ZIVD{r!J<-dVud)93KvzA1oUI2Bo@#xjJ}du-t?(GiuPy2w5nPw`@g7(W((@
zp-ldV4ulTTP4pBkdHi^yDeEzEPf<L|MvMSiS8KV6fM&{MdDu+ARwHfI3IVK@0k~2G
gA*BRB51bU;PQFF(N$&Ow?NUqle>WRx9T8~%4;LmIQ~&?~

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/mamba_mixer2.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/mamba_mixer2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc340601bdfffb6e9201a5b84c98285743dc675c
GIT binary patch
literal 28575
zcmchAYjj)Jb>;;DkRToeNP+-Jf+YAB_$EcYsRu>s{jy@kc4#{=#0yHK0Fb@_WsAO8
zl3S;y8Yd>xbVMcTh{|+gs&<#<nRHp6>1x!OS#7%JM{!NHK<-i|?9`psv(|J$kz8ly
z$IN{DTwDO8KuMmsb4i|ip8GuRIeYK3_dbXJ*<vwrc!Iibjyt}?aeqqz^)aPA_y44T
z<F0T#$7_OINHe0*Z~=`_h;Tu$Afz49YA8(`)Q#xy)&+GT{fM5$>5*PIQpo&;!J?31
z#1JYTDGnJ&j4ZAwXbPD}%puE&B~&s}60(k1L$(ncOEUyZLuDgnq4JS(7A_9jLlq+x
z%x?@jLe3Fq$Ti{$RgP4$I8(4HR6SD7{N|uLR5MZ&svW6iVN0+s<QegV>PPBXxFpyR
zY8+`~ervEP)I8G6{I+0AsCA^3`AdTvLf#QC^OptNLhU2%p^lM`Q0GV|iz^Ryg}O(&
zncp7l3H6TjGJi#|FSK!FqlPQs0u>Wy)xpfZdB?jNB~-v2;CSa79PbKLysK5>-c4s5
z*~C`{HV3u@w&G{on6?t}^v72Pw(`~Za|hbT41CQSx{>Yc)>ONyraIK*2~?vl-I}^~
z6m$FrzCNIvcr{&p&WmqYC%!STlW$rlO*>PBwz_%kn2~ROLqD?XpS6Y-)UX?)(972b
zcJU2oG=bgkwW__;a2K>*@2AuwuST|<`r1?bd_xEK4IMdj`~V_sgVAUp937tw@AZ$K
z3xxUOh%5+);g)8Sjs>EA-XHaQwX$i*KYBJWG#MTnKO>utP4a<YI^aALi26pS1p(lE
z=YzqJZ<OWo>g7Uy{QNi{kZUOms*6ktz7Q4lP5A|XFbI#}51*5p)=z(BQV8<C$oNb^
z_T+~EIKDIf=-Ghqs2oCopB@c(3*?ghlfo;0fk*43fmfq)In_O;#8JyB5`$nEnvO&#
zLno%tcl*#}a5@xzD&6Lz<Kci`kgJXbgfjua$&*(4mC09DX9vjQWB$--|6YHDno-FD
zPe=XHz;N`!RA9&-9GwpOqmx2z($i=Cxk)Hz8}&~|{6T8z`Ci^P7MAU+W2UF@#R90V
zL<mKE;YlGxqZ8l}<A?-;fzjyr`G7A%75g%IJt1nEZ}jYR_?#~?>JI~c=rsDt`_B7?
zV1TAY*~w`?Cd`bVCJjap69HpWa&*$q2Za68VE~>C%MKKrnv9^}D}nJdXQRF#OP4Dm
zXEEq&qXE_y!T6{1`lC@Hg1Ab4TtGv8Lg37JBpMJfz35~3CZ~|-WFy!2&?J>BLgTLn
zgg&LaKDGCwIcu6LP6zJ)6FhGMy9c-t4bP1f6eEc@@tS~^FTkHRpyPD`{g`2v8`JRm
zH!LHCd|{wy!j=n6@$*Ib<HvNo0a&W|i<aYy^TP`m*NM;Ds<8sXnuLwU3V9>iVVdP$
z)r^>*=DcRP>=+xUuN-^&IHtz|njNxjY#Qt6>^RQ{!pd^9u$Zv#j4(Mp6_L%;kw9ip
zWo=+8GOEuR4b;RDF2C;q)%;z}6)u`dysQ_wZy~RW<276~Q&No+IbWI*a9mXVN|_Q!
z&6E%|2o<Wp5h|ELjfkTbu!nL?WOAsn7!4(#L5*SgO4LyHoz9nOg{T8`#xGDFQHzku
zBcR?1N4BKu6TTLu;b+f8mFmmBqcy63qE_`~-+-BCo~blVeWMkbT+v3gG|GBZfA-C5
zqRncEFHj+jYu?3((4*nPWhmLIgmPV8%X8UW$Yah;Rs4v}H`<8f3(jrexJc1q@JH&G
z{te9q&Z|EzTUOx*fm$LLDseL#Pcd5IQK^K7Q2`H80Z$01z@yL=k1}0Ze3#cQ>m$=s
zpaKS;Z#+C6_4x#9tXveGViQ`RkH$hoa|G(FY-E#LneTR#W#nkpDllXgfDM>%+#end
z_%Qd!gOg#w3lIWLOu3kleJB7_CF_C0N6*T-$#5VdbW)Cbay*o+EQ8RfXDq+BP}Tu0
zkFoX$7%ff#+eZ0|eZJA4KN9izA~eDtdM^F1Q{B<fRQJ^QRA<x=3KZ>pb$ZLTt>?A`
zx`X4VyQeNh&rXKBi4b=yv^MZ+V00R->JIuZ1cXR8!}W^mQ&48t)CHj%70gsWj2XJr
z(cF#<kx$_K>Js;$gexw&TqGG>cMMf`ojaDDJ7;xoneRF`Ejzc6FX`!-)!i}FB&*t%
zLQ>TZ#95O~{kL>KF@I#1nuaN{KIz)9H2nUF8z&?eWw5Mx8kIus4fL)|nyd+v`(u;)
zlPdSMj;kHNKmE?k^_iPZiM}IJ-;w3kqsvvtW{2N8a@Xu$ICbs$tIsd(zB6z#{*|Yf
z2TsM?zWP_@XHtcnr8Hq~l+2Bb2bcIe=8Z{fdBWNxS(_H4?}*n$$-438%O6{}rnrJ)
zW70f$UyHY7-FhGW<YdjOvW|%7Xa+YSmc9hTbUgUUE1amApuB6Im{!z8)2oZ)CeoZ|
zZl;M0zRJdm1rr&plZ}mLa8JI~r><u8J%b4uBMg`avqehL+B`LgTDA1kgwZm1CEEsG
zLn~SM5mL*tv8oTL!$>^==oM;Q_MOEz6V7a`>H~(+y{A`kOiY)>oT5%`RSXm)U%jX=
z4|e6*u7Qn1p{N%NXRz>NMd60Wwl0H})wThHQR@mbtt-M;B{agGytumvE%l@`<h*9!
zS9_y;q3}QDAL;x(ogr*mbZ!fJVh|02IS1owcx|SAn*1X&r};V;D~=gOBcM0sG%M{T
ziWf5#&|GeLIQ0xC7XMHqn&xR%<taU{`NP6*b1}1Me$3Z@lJPZvN#koqZ_JPAjWOM7
z4MwvU{UXe}=0PlB;WZEYdKS@=zYKlnSc$0N4aiaQjRJ)aW9zYF4Il(D-j7_3R2Mk5
z;^Uvv*7;MyC!hWwJg2Y`(DLIUx#(OVFa?iSBkV&WqoQ42r>y5`PodBz<5-$E_Xk00
z#)H#x0f+%+5{Tg#xbx`7K857;6NDa$*G^5oB5NblA%Tzx=qhbPWL+rW56gNX^0E*W
zHc@5^IenBxcYZwZim;Kwz2p$#^I8R>8Nx1dcEgcP<Ke04sE;*HHU=k0v5`S75!rMm
zIC)wP=tn1~!%^9w(p%X~o3}8J-G?taC7Y&%z}Wb!K6E=G8`B&s4Teb}=1S?}R~5z;
ztgRlK9U%&qHOxn>Xa*yrSw|S4rj@8$z%ceV=L0kKc_`uPEYF}=gg(qAF6HK&t}AEe
z&&-;VX3KXAu2|+R30s3?Ygp`mXUp|1?`?X2=Z&4qjoX%O+a>e%Sq-B?o{z1bWV!uH
z|9t;~X}P>9Zf;sJS>N7ydFR65$EF(Od0V_JF8DvT)~(dkUi<3RuP*j}|G8@~Tzz5b
z^sT0a7nW;w&l&I5?z%OzTzh!VwBmAKGha0?zWmNB*I!u@uD>R^`sVb>>XxMnsk&?4
z09xp-xwh%*rp40lZ@sqj>dvLIo2M3bE>~}#GbC-L-`#iR$o!E-!%}~ueUF4+&z@!b
zpky1oJh)Qd{7%jFnw$0y-5<E6`kl8+rTV?IM}KCm{>0vY^W?39W&4gf%}VPAs#!8O
z%|5@-maJ-8(!FoJVU?=3%pOU)Y8N!u3a=K%U56J<aF(8jbF1km-5+&->^eMqDCzWE
ziOt6rPcA!K6V49F*|GGMTlToKW7)ZD_F&Rg|NHyiIdc8TO~bAJ#Ez#V{PsMx+;mcM
zokUq%?OgGdlKGOjZ7YD=wl0l)Y}-0J_&3(-q|2Rf^-8YZo5LR-{ottN+Jg~sR4?#}
z+AR`(9b4wKNqfcI=)$JO@`Y`4VaeW%o?zr(yZqY1$!n*so?2{QuIZAjU2#K~u#;v=
zp%92p3*l8ffdL7OC-@QO!y|YCZX&}IphWtK90yg=siAzlbY3h`Fp;4|YFX@^GW>Zy
z`ma(T^_>qwmKRX45Aa+begLs~_y9(wG(@E$*8JtLBS5M^yNx`Y0`2BhTJ|&-b*lYh
zJ2jUY%D(ebe@-j_baytF>f^QV>E0#o4G*xY{y0OI!XSeCy*gQUdfXq8H8TQZy=_c#
zayo!DA7By%V6*+mnPvKg0~9<+&LMILqY8(~$skhUMG6v&!VsdYBVigtonGA<+$fwx
zt_aNn!b}QIGOGw@bei|i)I9<tQHIL|;1A#c9~rawi1=N?G%Mxy?+UcW5>Bt=^e#2M
z-+H6<$ITyhe$ctxwrANnm~akD&f(k7FFQ|4<tO9jlPi|ew_m*cB3Nsn9LeHc@_%gZ
z#zH#w!Li#XKknb3EO#c#Tcq-q#g~_wmdm^2=I&3dH9&w#v+eC8myaaOZprLUmR2N7
z%91vF!qzO=nv*pR4=hDCV~Q&(HnIifEjV@NTmR#a7C-;9o4dRg+P#IbHS+mnqmP7z
z(?Rl^eZH5c{lRpKb{zCUcY1O%DC-#sW4jlHrWGoCM>h1>j7?7k0|JjxkuB-X)Mx;L
z4&M!pu!9DS2<sj;+yb#a%-Ko_--Gk3H@K9Ut8GYDRNgaH>5VH@H7PybK&7tgR1x_M
zoU=MrOg<x5QvMm`N^R}ccdwXiZx37^Na^86cB}pE;N{@`A_|RZ>;R>v!=Fh{6;a5*
z8Le--FS{4?3xR9FtHGsx?;pK!G+w(^a&41}w|!oWOl;&>V`U?gtob5Sfl)@i6$1Qq
zG=CL}qKVH?)JyQZ$-Sw0vjEBsO;${k4>j=xk4Xo6JXSc%%@)jR#<UQWnX&QFVsRDD
z+#eDG*gARq9%WPSQ3Qb=%xOj1=sDll<vDeBJmSG-e_9AcJkhiMD4c+2N|>A=LFHsP
zVx;BZ7XqHqNl2JSqrnTFv?S3Jnaq^9;DOB2b2{LOOa;fI9!!r(&#N7ty&ayRF3+K;
z#~+MLGDxecg5;Q0r%1Sz8X{AZVSYS(#sdg`&)I;VSL*Yiol`;oXn<#MqLbKoL*(pv
zWjuP;Gal_?v9g}+>tze;t11E&=vy2g&BgrmG0O3G|Igt3u9iN;3&evL#I%>q!`zGD
zEndLKis@qdSfQx9T*5f?BC${?;0wZ<%NE)Nh((MSErvv@nDL#)D9vW}h((ZE>1T}K
zF^kDnv1-f&TuS=@6P2i<-Cl0H)Y1jOp)AKY3ZTm<APxyJMKfUdVg;x#4V#6vZ#}2u
zAk)zu_ZBD^l^~{BQShmu@vtz87$DG>DM5fE8%~4A<Nd+~*_s}!OoV~S9f_gSLliIg
zWgCx0JU&VS>$EIVo${m=&@l~yDGeoZZhT6%sR82qeB(TJ@lpS|fG|nbGxn6Y+=qC<
zOP4Mwc(;(17iPK?srdOmUtZyL*8t;SBfGkk{O=Ob58*&SveL9cGStr+=DP0}a(x4m
zxpVg5Tp(W4nJVL|8Wx|GDm!Km-z(uNz4N_GXJ&_i0;=m4tE8%SFiUk^H>;((fw<ZI
zppdgW=VlhSE(N5<jW^Fpjf2bOdy(D7mDVP0o}?Xe49VV}((6h~QhLr(_V(e+hm$tf
z!okJp)e~`B$I@ur)_YG|U@1Y(mWl<VWNrXMWv*U$b*WjZ>z2&jmrvX~p+O_l*jOQC
z=g<!jDK=y@TFSUxq%IPXdg-N?(nPBE(SsyhLheQUMQBU#zd)ND9r~W{2Cf9>gDDQ)
zA8-0_;DZ6?y*>On#iU-)aOSd0#}szUtiV?URWy$>Pkq{VzYP;ESD4RhMzkc*U;D$?
zrv>{uUJn6(A^wU2dftG)V)%{tGvUu1DC8}HBEAIi)_{R8U`jn(pg8R-4H(nDvOv+8
zhp7n4p&~Frh0ws;1LnMJNyR$xj&<T$tq|Tjq2w$1XMyYjWa~c*<VrxcL1kNtzBOgO
zSH_b+R@o|#74X$iSCq5TrT7|dB_6Oc{!C6%1KR@?$XkSRwQppE%p(rOIr%!0!Xw3l
zd@iN{sRV6mg#MD$T?#)n{Wg#$!`?&CTup;w{ny#w>hKII)T6`W5A&X3Mkbif3={@L
zfJvsA{5HZekkSi97196#_EK7r2$lsn3i?Y@w?$s+BCx}ZoUxrS2o)cg!oC!$Q&x6E
zBoOeh#-Rpm;62axzUX;cA%&ieU7Nc4JPn7Sq7<+P21pP{&*YeAuz?jO%KFOL3!XvH
zs&H%6lhO8hl`auA%+}qxrsgP7V*L6&=K>cXU>_R`K%<MUo(@D`2?WCFX3=mEi4HO)
zs3$reQhGfeR<`R=&(r<NpaB-OM(GU#*z5<>)U&NE)3&xYPtLeTysRh3WmB#usw5H#
zr8SmJ5o{ynrw<4{3<WZaDFww32%!K!PE>+LSx8^SGBUp2Ktb{`?p!VoPltR&-6OJr
zUL;L`oI%x?Lc%W_{iG^ogUpzI*{q1u0h4s#=223JQw=Nx?iAvQbf{1fQH+*mraZ^d
zW(_2ryI%|68U>l_*Hw_kO2H1SuZCg5Tc(C7AR<N2Z)m_GJg$UUEaJ8KR5(vi7JbUM
zl}*Dd7Ok(7T1cPM9&Fok)O@67BQ}XWq6wjlz?>=MXv?jn6(cPpMx$}aQP!c4Im)_6
z_n0=OZCUYiJ}kaozccJr8FG{nYqhH0yh=ih4;Ztx53zJ8n-SiNpi{`1XFE$d(>0M)
zi#_YLFTF8`kW&aoRk}&4OsF>V!OkChMl0%hPPBa=qUhf%c+c=IT0jrlo0;i3&^3Vm
zh2W!By8<!SJp&QGXl1n)uc<X7f|%2Ue-tH+9(zbdn^!oW+j?W()@NZ*>+?cU#ynq3
zSxRnObL+^oHUHQmHjg41EH|<6>(7+*`W(~7$}v+kya_%#^5+@HbZSM^n;9o=qCxd%
z-}!{zyjh*$P~H<G#~#%4#O0&inNoJKTr9_2%8MVwQq?3ZS3UjMHWQ1w=J`Tx&RhQ1
zYqMy*^unrk=i!7V^47b~SU++3RqbY@EmmL^eSz^_=ga14?L^<2VMlO+lmlxXD5=t$
z(<g`R%NS8aNw~(I2@=k%d7>oAVb28ZRM$LFQa!L|JsPQwcXYd&b7GI`%f8>UsQI!z
z@nvx76Sr_U3sLp0*Dl)ht97Yw;MzvD-2cZqGjmTgqXo^G7UbfB{c3FX&6}gg)DW*x
z`><+dpHS2D<>X7=$cio;t1!=AwOsbin?=Ve*txAELG7C730ikjEdpww5es>1niAPS
ziAq&rGDakWQ=?zaDM9?kVKtn6i^liL-qk5#lx<g2qF+;eDpxcyqQ+$3F{fw~of9u)
zV^rUHPAG}`)DT}zH1qc|=04!~xcucr8!elhRrHbyBl|v+nTb!DZ;bdklD4pi6sEom
zt`JKQB5k3PW<#i74MCJ-S48tOy-#Qd1ZJLz>LOiCnm_aGp|P~FDBGx!p=quO5kCoG
zV|X%SMnro7MY7aEdz-K)8=;sR1xWVn>Ft`CT-%_u-785Yr>CYS1(?z?2`AeQ(ALkx
zHVqNaWEgqIAKffwEQ^+*H%fE51e)bDMP0Oy>E&TjYg9C-Y=>i>oQ{$@l>!mrCFB(5
z$eE`yhOY6jkL0Lcz3@ATkWD$c*JR!=kZu|haazHnX*3Nl$I&EZa!Q)Tu<6UB<&_$8
z6KRH!imHz~mDR;>g6`#p=D1g@i0ie1SEqytWQGcx6va#+pB60{27=h9^Zs2kEjb(Z
zj6qUX{-);pW3(?qY}6(0#}yw|eo%R<_a|FE+VbzWE%)w|diF7a(y5u^E)0b-Haa#E
zGPaL2kmHezU2=9L(XKW?oN)}RQb-T8qw<h0V!Ow?N$5hdqJSXfn<9fZk?$Mi{1!Ri
zBIiwVzDdq+lS30;aKe$@OwO5}f@F)#cBYEZF(OwebHTS}6KtS4LEBb=K9F3fOcA*#
z{n-WLH{~MOT9Z+&^1+E%F?pO~mqx-gxp+Dpd3ibzm{F_+gw2$Ps4b+gp{eKv!AKE@
zDMB+S5b>2Y!+;xAHq(Un1P?iN<Ph5_8`R-d^b<PLqzSY^lgmg>GL9BOaG~y%9kl%)
zA6;vLEgPTl2d4x31OXP&g;8b?C>ze5_pxoa@NKH?ZE|R~dn*-f+8Y#+9d$O~vlMrk
z95&!==-Eeji{jXaVV%fA%q$`%^OOtILT5XBD__M2qva^H1o%3uB@b$}g$WfhxvYNG
z#90v)3pc28rhp<IhjbkI9z`C_=GKfo-xBx~g(J^m)%^-Kc`Z3Mc@I3CYe2QiE9+S<
z>zgfFvAP!euMJ!skgTmsy&qdU(nfE)nbBJuVFOoMna*NsT^jt@+IiD;>*T+wNpad@
zW2!)7>A0_jFK*ohwOEN`K}QA$lBH=$^D)$e{QJQh!CU^1yLR6mhz~uR(&|yDP-EGn
zxnBft()=t+)pe3-Uv<_#u!&3qSL*vHx;E+ZkRf2QvH`D>m2}8dKF5>1STZ#%`ad?c
zJ}_{O?nK2Asp1HUx|_&05Pfiz%<hLAy{38byyWhLVc@ZqX74*MUVriCsl=v(5`LQx
zQY{Thmv?FKrY_NQSi*0|VF?xpsC8v+J$I}6lhy4j_U5GBm9Te7_O6U4RivvegUZj*
zn5?N!R(Td&i_W;y`=H!dT|y>_4_uskGi)zd;XLI5=*sc=<0(@iz?5)~+GLGa0pp50
z+a5U0Zh-mr(FYA&bvN3ObbGEHyLv2H(XhHYQ(?L~8|UspbxC*UP2Go<4=j><=WX4e
zm;7mo<UXFPs96o&R7lX@I-08GN-Gk!Hp$ioE$x+>`I<$SRO($imFV0f;n%i@hIeq@
zg5EZj#LXUbxMj;N&8<!Grop(m9&Ney^{ZcBI(btccW<6O_Q1?p>~q6pN0P8NNzhG9
z-Z5{6btbgGS4{J!gv}$_JS+CbJIzBY?%pJt?Ct^V$|?Y^tf9%2bk*Ir8d@AFt+BN1
zf!<;%c~F}Jv_-PFELrcEx8?#RJDV>E6g{`O<JQJcY))koCtU54t9{9L$F}n>sa0H8
zj?N!V*jpug>x!%Oj`zTdXH$}X``K?NK3q*LJ{(5i=+&c1cjNtXV_Q{9Yp!rS&|6E(
zQf*vg>pSh&+Y=4_QbT{DVVl&jEzvL}H4NPzTyEGut9#pY*_1F;NrtLBhC0mXGW!+x
zy!)=XlvL+;ZH~DMi%suzT<=)6b>DSVUkS~J9_Y1}lKWbHnGv(K5QD80`9a{?#MOzV
z%A5R$!4HCxckgoT&~hm(Y~L!p>#V#Y&Wo^}Ieh)_(uG^YKRNo*QK|dja?_z@C(U_t
zGHq)6iNUpCzvj5=SnR&D@!(HOmp2}X*B`xOICi(H=dQVav3}XyB(?0rDyufmTA`LI
zu2l2i+#RnUx?>o=%RsoVy77Uw9slXe%iB)ITfcJ0@bo7xZ_*6A0B5qaG6`jRWpmQu
zo_lWLYw_|{*aB2icPtOexQbR}gIda-@NSp9+i#m6XbUPRu^7WsyJ@**bE4*uRC6e9
zs7jhj;}xxmid_<ZO}p-vx#M-4ZjRl2E?%>1xomgbygNCt2l*0)UdhmVvqds&`=qk=
z8XC8Fdb!dId#r&Q1F&0a-w}5WQ1vUS$+7x&xMy|WGASx3iz<v}Qhd2k;iP0^XnM+b
z9>RGTe5bj2pkw7>l3t3u0@bLn0M8BXM%w1%-y$UZn4CX?v)bl^nJvsz<>GqP2t+YV
z`x&t~MJNYNnwcxMuokYWo`j~X`YCvF&tc@_*`C-k8J0QN%oqT2%>#R(bmwv6OzA3E
zPR2oKCm}}HktMqDI!ZB8E!=`{b)R8|s2snVDbLgIzo8Ddp%5q>I$ZL0@#W&TOD>lr
z42_bZF=?($n#<A#CrPv8vtm%1hsT8Y5;i7(QmUv5vz+X^NTMeOVP(D%is>)swcox}
za2P`L{Au|F-?74V^5z-SSdplI{m-(Nu%bR|*QE*}BCLLqT9*+PD?K5XxQdv56$G1_
zx*7t?XGD`~4u~9e`9z2eDl89p4f*m~bHiRhg&!+MP8};_6!jCXEOgZeYXp5hF*|ID
z_4&loF$>~r)zaBFEN=A^o@`k4#jJ?WBchDi5Z|Qc%D$mS(dV-nj+J4Qh)Z1ah#8Rv
zv)(9&=vDi=9^y?cv&<-uwyOmuXot1t5z7IUHV<na#P+O-LXd<(NXcxWvpF7_pP1e?
z&-(e#;Pe}8@oA;tVHPMAF-Oda60|Q^^W+o7O=LuI+00*{G#OZ~d9q@oUlUHDx&zJ3
zPpE`(y07RBL#$HNUlK$|-WjdI*(HoUJrfyGq7o)o#UGC?JD4q_`qZ*92dvdA#mot5
zHu9QSRje9)9#V5>-w;JrsBMZ74%(MZQ+;dZrW<q9jnf_ai9BMuSPkM2swK1USS{jd
z@3-cO)rmFAnU9!9tWEps#X7N;R3Nd2$IN>Nlt>M*J*pM!&J^&PoEe94jy1-b9#h`=
z$nwpxmPePrXv&nY$y0x8Y=c-NoOv`1jLXqAgMuJ>ln<ge*7jIv$DbHld#nSsKlO0_
zSSRAYk|(|^Z05O`7k_Q|YsX&){yOp3mD8?M50_NGC}!9f!XwE4%)`(KC!Q(5nTO{d
zPD5-SQ72T4X<QWR&S_~rT-v?PZ0d>iik`UwVN7g#+zO5LMaf>5Jz}5eLND@RJ+kIo
z^C0I-YoZXmSbWheZV)@g4zW$_f)Z1I(e_^PyJ>3uxYl5f)>Uz_CWaZBRNTcd!^T*D
zY!klTX3_lm*DhLwXT=S%Ets=C;)aRQhugvH#I}h*zIYX?ic2QWJStagOU^eq`*2PX
zvyA6pF-Z4faAS<}Uo?tahywr?SHI-u=sC5lxG^8S5bM62`KHz=wg6sGtuy-;``4{K
zoXw^B0An4hjPq^jzKNT@Y=~p}izTReN^M2<%@a2uWW%cOB2?uUOD~p*n_;|R<W13O
zH3bS$@Y3`^G~b)QrF;RP=2^RH4=)<?tzO>pgOYD+Vp}l>{}A(Bu~yv{eMPAac(F#U
z8MdvMp|R~)726qSxC5(0@ePOr;to=G$99T4)8`E}Z@I97wu?K&fy`N|UE=n1s+QNp
zc85)v-(`r?QCWh?XwYtPx44abN_=b&Rv@bf=K--piVcc`3f&S67x!EoRN6cPaV&Cf
zy|_o*Bkn|bU@U?mZu<s1QyAMT?uG5_E>f4g70_|wR<Vp~MBI8Suj9*Dc~oCmkJ?ZV
z`Neu*wBs0Uzu3CYiuZmQ^~Q$Qh2Q?Az#k6l#8#>$hD$KeG4_a!7mI&=>?^j4?V|U+
zl6TYlt5_q$q>buKWSDecY=7(kX8adg@3Dg@kq4h-u%A`Aw<Z&2I8lk4cunnP_PySk
zLoH%9m+Dhj;>1NYCi{-kKAAlem(re`*Lya#@3BK-^OLu3z4oasi8Z68c`#9?hV*!R
zk-n=GDRvmJ^J2d=rTKMW9})NG!-9N)cn~SSku!8@ud<sJ4>HBPO3(I-2iAph;EACe
z5clPWg8qLAyjSL1?Tdax?H6eCKCxLmB%%l65%3#_dE>>Qi^F11zLtQ`e++GaLfoRj
z)(~wPQtQdS#cr`e;k`58_lb5dB6te1p_+@?p&TwtpW7n%pZ;&0hGjZmXfKBm!4#&e
zRG1_yV=B!51P`;jOcOzD=hE9cBxD|uyR6A46hkZt*48|1Q?AJ;7W?w@V^gkqFT-NM
zep!25puP(~fuoAr^z7h^qGBXAMfg2RERaiAi7tJ6eM3xB7NMSd((0w}!9UZMNA!kk
zcX<E9T2`>6T!i)+zq-Wz@$^q#`{*^uZCB`kSBqq8!NIbQ8y%8uGduD{x&=isB-yq<
z90TD$4kj46((=!&hCLefKp0a*<Myb)`ElIYWMW!6*~Ao{iX}Dr<&UsiKE~<PFv(?Q
zi(-%qlWG)-$aSZ2I^!Ij{_u^B3lXTvVXjN3$#`FM5*J>{wb=}~W8>j;D22zP8Sv~F
zNjVt?j4HO?X)qDFT!BMcctG~S;`>ZkHo!QXU7aOcp<NX&P#bX;1x-4Y;jv{LV;l39
z$j0=wO8_AJYYeO4C+A0S<f2I6WmdCsbQ(IxmvIwQ1Xn;!t2Z^JW6D?u6fkQ4OI9^M
zB3CKLRxxO~mePtu+XQuPWO6Jz6`Y1WGy=i#&^S&^L(nao*yt)}wsGGRRJc$(D{<+n
zgr8D-{{l{z@Gszc3$r~C{+hZ`uH--MkB**21C$Ts<Y~~U0lrlULXuz%2{tNef%ZD=
zQwNi2d}UjRT~?JHcDW)D_MgT%!Su;+ng~$N!dN0Q9!3qYV#m?T@zJOvfo=p~;SULV
z$@y_13eyf>AbbY)>~b-V8-;NKEE16ItGbxJyiB$~H0@wAAeW=wsnxSFBK##)P@MjL
z$W*#!9#GVp4~Z!I!(S4;TBH_}NL~0-a^56|t@3|KzTYP28abWhJOzgi`r~YreiYZ#
z1TevHt=agQ>B;GcutZtjp)6*a%xuJh!H8T+AwDpQ+u4-$5s}MsGN^GiYZlGw#lU8Q
zT%XO8cjcj*6?qmC+VZccao;3|gjB+RB!|StiunTR>Y<HiSG@^8q(D*HbV1g?g0px5
z!A*I8pBy5Y%3`8*#0*SubAdm6CLj>QE*HY=1V<SZV}V1I<uEzN$f<_oJ*rp~tk%`Y
zR#h28BT7~qKc@o!1&-`kJ^3)DXiD<3g>LupsfG*eTcp<yW`}yNLHLB={2e*}jU1Xh
z!rzng59EAG&VPp^+tNoPGiOR<jgQ@}Ap8ePF5sg$m_RF3Idq9-&j>^2N+Y)3i44%q
zaRt7;_#0viPWVSEZ_3Vsh>&72G~?5=1h*|9piB~F!r+JmEgyzZfe9ZXHa<RI<P=sT
zZh>I#6mF$sI3SG{)N2Cyb>gRT5xcTjR^elS&B6TnGEB*y>;z>Q)=&n3cwCMt;g=X3
z;XaL!9ixMzEx61A#$U`zhtMWXhlgSTIe+{Vvwf1Ss|RpO*6zh((GKAQ+@Y$<)H5%b
zH!2#nC>Qi8m=xEvrHM&Yz{QI~oLc$k<PeUQZDAkldV~no*my8Vmj}`*mNl^^W!*AR
za=8*<bPXL;B5P=(Ooua(tG)rw&Ws7Tu8%EB*`5FUq64tGl55sUP3u_Kj0jI70%yp_
zE9ZE$gYYp@sU7z55t7Nil+Tjp|1pl82W7{{XI$$sNdE|aGV%|_iVcpLtL|E^>YlZN
zsp;5}Xg?^mADp$|LJ1tgm#iKb*~ASUaFf+_iRuoix+77&Q>xw>H@K4Z&58OxslG2!
ze^9DF7>6;8$rU#>-7T+K2)%dePI+J4+!rtJOS<Xoe*2AfiA*k7>YdKvJLUW0=6&(<
zeQ8UPrS3%AK?%R^L$k+LDse<#s`Mr*H%gToZ|;TSyK=|u;iRj1(J#3+;0BGxo<!q5
zsSz+dtNab!ip@gYT$ikDNmTYqmA$NB!qqLgx>3^8negnEJW#pUtn%kTgiTIeBRj~x
zbGde#WT-}O7wT6`6>(F2vab7Pn{w9mla}^(&Rsv3G`sWil60raqWvBBb+=^eB!d!M
z_@P)xNVcvlANjy)Xf;AHJgbYB)Gd~!?3~Me<+b_Olv@uH&MwK>mARjwRx;P7ZwDJ(
zHn-ry64MP+V#9W6!}i36-O`5Lw>8Tf_QL4FWt=tNHyT=uaYF+@nk(Zb54u&_kg&B&
zw)UmLrI(j&y$RbE$+l(Lwk=^Bl58;axQ*CDzbJ8Cp7>^vPUqI%E99DY$9J=<OU(7N
z#}@h)1o~o!t{z$p-8{AI-aZQ>pUNvQ&cC?0bGf4T^8VSOxzc30WA-qrb2TTNy^^zc
z)|_-SCLEh2$0l4jQ`45H*(udv4pk)`4T~owM+;&rJd3^azFA|^O^1oy193wotSI`o
zeYoR;9bnhvwLS5=p18R;X>rA?I^t#wY3YL^T|dUICyq~4)AIn<P1RSPpMO4SE{R*~
z<F@*^xnWIqhw(BDG-i2d=C|+uN%cq7NwX(jzcJphF>dZh-UUEzRUmH%<jt7XanI&^
zX3pGz)|5KPDky2MPuO=$_TALxj<~%$>8eCaO3UtPIm<Ck+}s}TJo*3!p0m04NcKJX
za-Tr%j(FE`9Ca?OP1trzw%sWJ>B87G_a&MRNcc6^uXJH4wI>y~8!hcfDsE3djYHE0
zm^Ptxp5|+>U43l@clbOn*?P!8s&>8>_xTK5ACOABZ}xw<^Mjo*kxG$O4lL)&J&Cer
zsjN8(PkF1vOj|sdFK#qFGd636FK0}CS;Co}xJRh8DPikmGrV-J7c;N4WOfkdHjNuG
zib>mQODZ6dYrC)RPP$u?4V#m-{mGt_$?g-$hQVahHe9xc6`S<*KB%!amV92zSzVXM
z7c>jK-<*us_QvaaQ+3ux^u6w01DI`1eCV0w4bMvE=GhYqPcJrNz-k+2k0-5-acj5K
ze<0bsBW`Q>S-Cgq-JS66m%RJ&k>b_c6V<~~_3-VJ%hd<a);7oAJ8I_7EckzC0<*oM
z742?leW&_*b<)1!4@#GYZ#Lc1#k~WPeP_~6Gf=Yk;_{vQMY@Kvxe{C{ShF)}t4r9L
zBwJGwc3!&oOKz0lj-ZZ@I;0Kzf2#XS%U@V%M9OI8RS*g&oG(n;%C8va4e`qMrBm;}
zc;m%e{7-@(1*OizKi#`*JMrk$l+{sFf}`{pzcR;_mU(*N#vsKGtv*@Zk*x1aHf~AQ
zbtc;fu}qUyH9weM{Ob3`cx6Y@-j=X;OZM(~&)(a6mBuaGpGmr#ubsGh;+O4!JbUb3
z4`*w^-0<|=+%DDaoHJuYJk5(Q{B>R5+<}$N&%)XbNAtHh;`WW87n`5aC=r_x(Fg0E
z$}RD2&q=Q5Fo!Fekpb5w_I~W_fRQ9dpkpuPPP(?lw>}ehJ(JREDxcHb(`q|VcmoQ%
z>K5z2BPLr~ubNg`TH|fIZoTr;(vMz~+KxyqM;1(g(7ySWS!x@;{W9o8+}?@`D!Z1>
zNUqKCZHFY+A*!_xjdyLr4T;XJD1ctOx7`|%+y~I=%Br}l9c3D@UfbhcgLKp53sTj#
zds<ER_T<1pYS1BSP=jOcFxs<aP&0QZUfcIE`Z}rMJR4J@hO20ZH*A*dTT;bbX%!pN
zUYZm%w{|3|_es_JZu^(358|s=Wari|2{`}@Z`!MwD~?z7NVeWz7IJ3C&#cYK?tO`F
zShyX<yox(FC!BjE=bqc8%g!Ny=qdaAvda0^h5FxV!}KieM2~t8Xc9fgq@H6e|CWSv
zP;w65u3vTzBY$r;|2^dIN;$Zm{Tke<knGtXw{_C0+>*34CT&#@ElkW!>%2ADxJ_A)
z4@!$0VLw@S&yjzvfkfeA9!z-i4YTCzpFIc)NR#_JFE2DLYUe~Oh##K(1I<$Z;s{XD
zFG`*Bj)j7SVKND&>$-MH?YovscmJZae7@`l&DT1wcFvV8mu^TEaTXiCklpn?&G&j2
zc-;L^-k2zFlgitc`j!L*gDsa2&JHIXRb*fL!`?-HX=rgka`Yq|bUD_o0+<XQ`{>xR
z<M8Z(^cwkI>B8`0<APf%Ye|%KN@bl(r*Af~TZGE?%nl{XDz0pp-vGMy>Qedpl{YGH
z_TF&ca!KC7<+8nxPp<7u)b>fWeMwsx>_}lCyU4#2ydIS7eagK<_$qZJvnPO3Eg1Jo
zpbMY@Eb{Cxt>8LZt4({78}?;Z=}ptEuiUo(dCi~JEZa|fR$T&=y@5<li?0@A1_CYZ
zJQ3e@BEI#hW!xxc!OZY>zHhl<xfxpCFf19GXA9F5(9m#wkeQdUOI=n88lfvvY|K{R
z!5v`S1m0^O#cB*`B!FA<C~4Wdk@E>0^Fz%ifXrV<z9Yx$<TS5o9)hYA`RTNsUr~-7
zz60rU857Omz7)2lQ!XK-t-M^S$ZV9|hI0R3g%U-3;GAg4akryD?lBN6-O!!`5x3N4
zuW#sDlQ^zL;W0qC#3`5Tt>U^L;=}J+Hzce(BrA9#Tf$r;nQIh&FegY?q~ruQO6H9q
zS#*PyE^TVqwQ3$<C!ov&+L1rOnHe3jt$CtFYJ_Sbgl}X}<FaqW8nYqQhuA#d4zVR_
zj_ez;wroiCy{CCM-2#Z43yyn>n8-=C;3nnlef(?AQ{Wyd_R*Q(Ns-kmyH#(oa>`}(
z+`x@GxZmPU)W~jWUIQ%W5C{J4#Co%V!B}rLC>79bID$$paoI0j+mNX3muma(R_$7@
z0w2lPZ9;+J`LG&tRwtZolCzCnAlNCnI<c>yPi|1HOVO%T4=UpB)2D>NuLff#7b;6Z
z_z-cz+D;gixlfmL&Ny;sb2dIkO(&d!%Y>{>1?Ld_RdbE72&=ga9=b&e|C<E=t0bn;
z;BHYxRX|yAYraxT_SXFLe|><8poI){yUzD^LDZ`JM~JS|%D;q&C>J30`A7&WY(tlE
z!xODe=2vtG>7!aUT82zkn=U)!&h6IP)YqwVCP2Ex{oHVJ#o8P<G_x*xjZB;K=_RCn
zx(CjgduRW4_K$w`$u8j_LZ^-&KQ5<{4+PqX5ooOoXW+<1J|90hifg~mQq(v(go1IA
zDGor<>JeyC3pM0)lfxvc=g3EPKf)iA!;?eGU4ihH(1lJ5{cvOhByX6pI1#mlf;x7=
z>JCZ{QAW}r=UyiFn-ob7NeCk*d<9%4cTZ=~8&XYNWmU4$ope=^HGGwaj&!tl({JDA
zq{DTuF|5_stW>yCdh&o4Rk~9}%xmDPYg5I{YvkN@DHHR8*K?;V%v-{hJ5yHXwQ=Q+
zR4Mb8;S#A-IrG{nwt{&boYS3hGOvq6ZI#ShMfcfNGcPVRZCD(Z92-(KEL@uj*RimN
z!!?5alA}9S&%zB{sr@t7_|(}VuD$zSaiQL_;&jsygp?kBbOoC@^Sn7#L?HuLQANir
z7W;9^;yz_gxmYn1uE$f0!Jku%LTidqR0At^L9gGZ$rNOvoT5s2O<^VSys1cUT&!4}
ze&@C8uif1D;gJuH#9Mbu^?UAfNJy0xE2&FQ-)vlZ?)t@B`dg#7H{Lq?ku~0W0HT`v
z95R48EG)qhDZOi9=$9N`_qA$7s!*$MS!{~8;ta_4&p8B?)y$?yM!<~waOrw>cKIPY
z7_iEyKf_#*^;s@ac^6@N)-zuh**}871={+2hcj^^SR-nI?y(-}ArpQ=_*x;;F4h)A
z5Sf6`carJ9#-VIcZj)yV1{$Ai{vlcubh1JCpX4xVUI?Eef>R`FuTu&+Z=&KzFFee;
zzjga^%Z^JYlBTMJsY5b#ER9H}t(S(AIzvKNA?Yd>kKJnd=}25x@mIR%*ch%FBS2A*
zA)(34xeJDXag$k|2Cg}Vkmga8o5p-&bYt8B^yNF$M8X{G#D!it6N39fizcVo$6_A3
zV;L6&O)K(sT+1JkiwS~nJTw(#=RdrAaE$T76!cO84YurIXg3ee^`8d5f?!>sZYVg4
zzP><XD4SR*NceH-kb=$_Vk4eIwy`uG|1m`vKaJa{c;)OSp;?8-TF6ICfNW=3*D5ot
zl+M0$4NG7B?*qCr|Aa-rAqq~e&zDD;6kW>gQ0xpUJD#c>4D~*u1S5Q1nZ8$04IPio
zuaL{>=y)(95Cf`k8hwu~hl43ytNv|{qGn>Mq5dZ-%{rR>?>g*~SGntniYko;-^(;j
za_<uribNoKPybIIrstAdA5kuS{9L)biU^+EnJ>5Uft4evUFrYFp$uj%4Q3rV9x7d#
zue6f0p3)sGokeu9|9|0A5*rA@b}S;Hk+K=o|9_D_862d!%7`r^*+i{{OXU0}IgB#z
zp~A0Ikk+EYP3@%M036vcfG$9%zf15T6~A2M-@%3KL8JN1z-j9LMr-@IZt!n8^Upc^
z-*LNs!5xygL!TEEY6?E%;Cx=fY4&M;&h>p>pwkrG<KTQ|<TQIUpBHG6YJfvvo<f$B
zpA{4!RLE%#AT>AlmY;J2Kj%osQBZ!#mC%$)nzDF#+p?zp0j%3K#s$}XaAq1KC_+I;
zibbW4Yqx3WQrx+(E^J)XE`D`kw^RX1az~2dSFml@;|=OnQkp6vpMfj1-!CTL4F1Jh
zrkc53%bJD<1!G1{%ba)Nx%(XXsGi0Yi%gAFaINk4iVd2tX_DoxD+BWbDJ=z7aL(}P
z<)bM*1&B)8Q$@_nq_QB<3sK3|m|_JXLMSxeH?ibe2Ch(J%0PoZ0}TE&Eb^@ZMNtYQ
e`0kZ)nyRE3zpi9i)m&Awr0$=J^_l{P)&DOEd~$FA

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/mamba_utils.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/mamba_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b7703a82e01f68f681a4ae9596f37077b488ec4d
GIT binary patch
literal 8024
zcmcH;O;8)xc~{a(yZS)_@sEJT*uerDTpQbD;<z~2j)NPLfd5M3YGmzVWb}jI3Ky_w
zGaVmDd#KZk$xJ&{PK9v~WTw;l&;y-bJk!f=I7GAK&M?#T;F}Dd$xJWp_q|<-6$t81
z(v|e>w{PG3-h1Ew_w+ZP&&|M<aQq^Ey_I49fe*#YVIo_TfIMO(Mq(4pINoguHfbBT
zv54Cf_M~InL2*ZdOFGA$6z3AIBtOn4g>ivpY|Pt?<b1$LuE#cm>bRS>@z5re+B|b?
z*!>(kjD%U;{cbdQD|-IQ+_X%e(vqB@Pb;kMl;Zc|k{q__jbm3vBj>OD@cj#sEAPQ~
zbm)@ts5jo0Gm)u#kytb~DMvDC5}S-j8K4$3mS8}S`LHFy${sN?GtNrPxJ|Z8tn84v
zJ6>yN1D|&>zysMO*=4?R56LlMYl6-bPKkTqcx;jw7hZ{~^OY#`lFLHb{hd<gEtEaq
zDP_Sz+51YAUxmkR3sv8@qgq*>C24vrGgZCHOcM^tYZ>F8^M$MQCaT$EnP^5nj|w>y
zO~hsrQBYCclSDN)^i;1-q6L@=OjTER5;-$NQoS*|MK94(@p)?yz#}GWlh~=l3`0B_
z78>X!*&dtt&)7_9Y}S@#i`KVb&)O&0F(zyu(OnaXbTo6~_<YaA^oir5f-4m#(nL(g
zQ}JYUR*WlRDxDGM<cz4yOi!mtMwY-B-PfXt8TkSsX+n6Icg3OGV+n<zkrA{c-9u>^
z`%`e;B3%C(>&qmk`=;a5M>A0ZW_xsY=Je|WQ>W#=MEq9Y^ju~#o$9-nNF@6V_Q<nx
zYzElXmx#{EMCqe^GGJsT6Hh3;({p+#5l_ic5{YIqaw-!~ry`cQ=TGe^gWmnd1z^d_
zQ2-w^g(}9|niIbCgrC)f)Yjqkn#-#9^0WG0wQq2(XT5%8(UT9fEdE60Ten~Uqt_YY
zRFtGuq_Lu(#XcPTs3bvrC`sl{NrL#=xUwwB&HmVw;uy2Sj(|(7iJ0V3SO$Yv9Ha(@
zY_p#<z+;K+q!ym^8anKIWz0FUH*<FP4gr-d5ddXLAo!L4kmf&>_co|a-RhBZTXtK(
zU0`g2o76+6Z@*oFo|QBsz^N;4=lK7$owD9tNVpBbuH~YnsC0$_dBkj6SD76-vJg9{
z{W-Ia1upBzauc>OCSyiEhRND-2itGLwh`SC1$_?NsMQdNFHG23Np^Z5mQLNXZceYw
z$Vo83Xu{g6IDrJ3mMBswlNNZM-$$&wmFGB&P%Z)Zn0Z;ng!<L~3v2h+TgFtrG4By`
z7r*p$=Q~fRUa`P4)g9`AQ>y>8%AbD8F$d46XFkw6N8#N@KrFp6_*wEjK)J+E5gzvB
zr|Fld*jHG}q3|xn?gR=uG@)LZ1iuv7$*}ojdn<S45$BLLG7vc7-N6aipZ|c$AJ}Je
z2mZ_E!0m#17+U=r^d;3eAM&OoKE35O7_}6E(2$8nQjphJUD?UKH?+?%)L{h;i0-PP
zugq&LeW?1wDj(iwTW`V8{bZH}xozwG9o)~3Yr<h}J8Y*?)j67^5kK^+#03A86fN6$
zc<+tx=sE@@m4g5(Z+5xo4>NyS_+mlzUr_lAbkif@fX+uEsc2G;M09r~0+DAXfw(sk
zxjPe0m~T9>L=-%_3?WJ)xJl9jK<8+<CaCSOt(obBOzQ9@B-soR5uid5>TJS@9RaXn
z_#DGxF)=3ykR8guAr3rX@?4-`6S%gGy7t_m-}QXnqtzWPaL`b2GNIQBF2s1o?O&Yv
z<^50YFAb^wc1;jB1!&*0GtO!{xKK|qo^zLzfd-QdVmu>u7X-xIy9s)r-6V)TYX3h3
zz1%?g3ZcPVA!5b~5v#O9Xg61gJwkMaPOh_@AT*c+5v#;GXgA4VkAO+0dncLh5}9r*
znG3(Y{MlvI-=ztMHw7oxT_V+8B6X47N$Vm@iEX-^+(nj-cws}7swLHk7-&T4!dQaW
zRvuJjX8{9ciUZ0NhXkbzd>r_hpy5Y?phQa)9tyMV62%Egtqc0|@Dt$YwvIJM7<A0h
z1`W4lO^jU@8eSL=g%n-GzVwRgGU)~+pJi3Ng<^#jnfs`+jKEUM5A(wQAq5Xu-ax4&
zFj6z!Wi|AufnN}QweYKhUp<Vdk{TXxrLql5Ab~MHQVShd+!2m%q~#z|FffzGHph2!
z&C0=YsZ2QNUIJ2+Wq$8mV>o0j8pbB0WkrLKnn^|`<*20SuFP~qiO<VAkIxY)o+Lg{
zj^47g3%wHlwi*FImI?XfJY*;6u_x>cj;sUg03#rsfF5DaNJUNoPEI2j08mWj6<myh
zi7SRHBi-0D_okh#x%ZB(?3H`daX*4N6m+08(QNF<y{$F$EZ<n2RqF@0b8TuSx)1p9
z<1|S~1~;nXsf<jLvJ}VUm@>$1giwlmXp%4`la!o@;Z}+lI&{jZj{w;#+GRn-=fP7?
z*cQ0TIU$Dl1!tC%SQIbZ4YPs%SuX3u@V{aod5)<*!7P#B62dNn>u0dxO$28Vd>=qr
z7D!pMD+{Ep3MP_NDn+@JC;POMH7gt|SFGN$WS{n)1d7TB03eVCnAT3Uvwt<Y9y-4^
zrCz!Em$ce)4f4aU#n;rXfhR}T#Y<1S)%L3@AKGZ?Sw5$=^s2`O*Q&K+Lu$(qblmW_
zs~sm*|4EfUX~>OFMQ)Sy%(N22`muPG%A%h`3n;98kHW~lUCz!!Pbg`j6wcb`VSLt!
zkhbz!mt;eMSqfo(dnAZTu)J|>zoEjiFSxTp){R1gQu#TR7v@4x{)Xh)42hZ>h(Nte
zjWPm^Ba%WeB@cUc3iTqi5^7m!R2CWYR437Zhw#OD01DR8rabXxE#QhZ%&W<?toJOE
zM!|wzH8ZuLrPx<(XSKGoPiCLCuD4y+g4Y-Mjo`uD-Q|JLv#WQsu0bt0xX444YCXK%
z@!5O7zqWemNpk(@57d@-L8vd?Oh;F4ZWY8oxOVvIu-bkd6d=D-)MXy2WM{pwjJ@m(
zJQGw_C^+y?)OP53g>8f&{|%!ttEO$EL3<&?2#}3C>mq%3kzg>;QY4J+Fp6D80v+)y
zq>h;!7)BLS+pISCEZ<xYzOl&XLtV(F<r`|tDJ-7KN(SAPGW8wZOz}dcqHYK4P}4z!
z`j}-UJBJ4Vlo6nVw)yl>IypT9Cp4K!S&XM*M2;$mh?KGj!QmDhl8BkK7>&i!GpP(7
z<+zJ_MC9p2JQl?R5*(8zl1z$ylhe`E93_j<M1+lkBKI0Tibe*zq0S?)Od1&!Ty;@1
z$vg0{pR?c3Tz&&%l@0))lwQUge0W{+gmUbco{oI57E~|Lu+*UWMU@u~$Kk;kIAumb
z`f$&DaMMUQg|SdK@Ou<DN@>ICn=un<C~!br=6p)J`7x{pgyDc_39bY*5#0)BxEI5*
zSiHZ*p=6zgyUDt+7rK|MU_=18(`1ag9CZKm0{2!rm7}KzR+r-#Ay||fDo>pctfJhn
zypQkEN0U(mSo@GG2(BV1*}^_9Wsh>xFbzw&xzjW%mz#9h3e2r!0f0Q~ncB9TM+^2W
zN3~$zYWI`-+VNp6IK0Sz?X7t@uyk|X+mrW(mhNg^F*l%jdkUOA<ObV;Oh0s_LL7PN
zWPHJgZ{&RI-rl^o9=-*aLxd3_7y<TH7Gp*#OZU&PHk9tiwyX_24F`8S#Akpg=LH@m
zK`~)ZDHpQ<x21<*k)^YgCs<Bqt!GDO2IkGW%}l{v$`ssLkJ;uawRy783Lh`6q|c#r
zsWSL1L1sI&P_>{MQBnq7m?r5vhVpwTIz=C-uheTSM<>vZZcwiyaPmqB9H^R=IBixi
z$1FM&dN)ForDCW3<}DTb*bcY4U9r=ye+7!l9|2H(fx|>kTfVt-@p9f%r+QlRO&yEF
z8?~)DUaLL4DCFxqa>H7E@1p1H(1G0R%aD<rQO}O3AB<{eM^$=e^{nk+?n8)4ZG-At
zqw3Xb+FRGuRtQYZ&pNu6h1ECLJI<{QJiVcckifK7&Q|iReXFe2dR*<lxOP|Te@AV7
z2gYxBLwRo-{dN=t4$nF{^Q<$>Qdb#vjEp=-FJe6T2%aAkjC7<A!7%{39WqpcXKv&T
z1Q!roM({2I^rYlEf}04?_ZsCO9^sOcMSw4rUxQaLj|yCHR1mB$aBv5gSyNYVA;vS%
zCLm@M&JV|yI+v7(H#L7}ZcOzb)`ak;2VR@iDt4@)g|Cl0wb9UA;NXrWYJ0(j7|+x-
z76ioHOnp<qgP50|86e?@H$M4kj?2ZCPvj;)_pAOsO*ppcgFYs8?A=DGH<;AnZc<0g
zSS(_0rnaHrLClLA@F7-(bNdks;M~=S)l`^!)t*agV!!I|*MyUsLFi^qj{}a=>3KLD
zz|FzkoE|YA$-*&6r-fIzB~57Ggj0~>;Q)3pPC*2&WA#LVf!kVe6L023fEfobHB3|U
z3tT9j4d-{_94^F+*${K%#>~wEW^T5nt+?4>{U*}bxeG7T*_H1&lovbljZH7ATj7ic
z_XKyC1=#08%wQ>ED6pmePsa-$eDcDaO9ww4F8J`Niow|s3n06ZRz=pLSXb*-l_x{1
zvtP8Y9eQeiI;M_Zed<FC^Iy}1>zhFsOIP~B2AH9^sIy_OaadN3f9>>wx0#6F?xla%
z8V6@(?ew1?dcvj$Xn!fLWJvrLBt8<&t@V1^Z2bRY{M}1&dYo<?tV8N(T1&YF>HHbv
zc<(HcpbJJ~1$z|iEX!{34D0(RbNKK0?fk}OXKmkjFSG1L_60+4-+W{{Z)4q?3_`lQ
F{{SrErX&CW

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/__pycache__/short_conv.cpython-312.pyc b/model_executor/layers/mamba/__pycache__/short_conv.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0e474fbd4fb853e73130441a52ff61f6d762511c
GIT binary patch
literal 9617
zcmcIKTWlLwc6a!G4Br$*N|a1JEQx+dma}%^N9<U#6MJJjn|082h;&(+Gm=U3mEq8_
zv_r(Z$YN=1x3T(w>@F6Ofdyj22G&0<(y#7+e>jy34h9ZZ!ER9){b4GnS+qdgbMA0R
zN@kpWpks69+;i_a_ug~QJ?GqW^-nIBgTRwB{W!C4l#pLzL4Ry5VDsk;A*+NV9Frq?
zCc!X-X9NqB4LL*Jm@qO}XUv%rCit2FXHJ+Y&YZL4tqE)1maygR2|LAEa*n(+;iRxN
z$L3uLSKgg))3Pn+$$JxC3fptOyg%X32NHpNFcG9UN3Jg)N`xrv%=PEPiEuuWh|n^d
z8^{kP2J_KGl$Kq&q5N=Sn8NPdj(jW;V~Bz9-t3${!OoZS+=n^hV<4{)&ieu3e0+%a
z-ZyF3``U*jMmaxk%D&nvc73?OSKx#EIM>G+7i?VU15;w>A3@&_^b;_HVa~(v<N}Kf
zKk*=}kB}it#(3ljjwsHkuD9O))~V$D=~MHspE>^;AiO6;kuQjuVqq?ozQPx{^MLfV
zk>_|Z#ihhl+^9O|Q|Zh6e6g^QSyY|piX5M775W!>F`2Fi0x(Km&E@jRG;IZ(#<2=I
zC>Mof9!Zj=l#t5h0C=w`<hW!xv&_d0s{7TV@Lo#bfTPG?6V(9HEoeC8hDcy%o3E6`
zV*ZU1j3+o>%vJJ*Z?*WH%@p{Qpbnhlg+(6t^r-WFyZGML=D^Z^E|tHOnoE^&7!g{y
zAf`nAq_|Y#=To_KC6^M5LU+}L%c<@vp!23vm2xVFBfUDyB^L^6a4V)#0x9y)U4+XB
zd|FHj{9>jo@&d>WXOt|KpmN~C<)R>h46Z)20IH*mb+m_cmwFLrtFZZ9P}Cp6cH~Kd
z;Yh+@C-{#Gat7YW8R2K*O&qgqC4@8c<`!h(EennsSztKp2d;#bv+=g9zni@VbN1f&
z1rz50<#YT2bWWgi{sD9>(6OA0cfp9FJx1zYFhl^oVBkE^(nDLiVD>G1tIi8`Ufu__
z7HH}Fz|`Kze!vAdf2&;p+68Om8k6X|K;nI>y}d%`RU?<ltM*)K305(~T~k?2!9fRb
zhp=hfF0GxQT1o=Hkhzuy>9-$*jquytFc9)L%qkJvRX1!B`H7hjeN+sQ7>OjIo%TpZ
zC?PF<Bm<OM28lq+EH&MFZL1AQT67GwaO-gA3p{kgPQ-wYmq?b?;m#L(%z8Uz9g-|R
z1!wRx!vlkEet>IxG(Z#7TXw$LPzTnbY*>dn-|S!q)*;TQo9Ex1cd|VnaY*L_^D!(k
zoM{<k{+yYaVP=-DnR#@2aYToZ({ngjx5>t*(}_EENMG~pgpTQat5(S(S+i3ej1FBT
zf?M3JmpB`)#Lo=6bbbKZ)0<AR90ekAuTGhr)}hXKk?4FDPz&2@BblIt8-+fS8A=1~
zk_Afb6<Z>4`}t+-v}PaUCe@KClqw>%{;IQB5!(gRrA(?U3<H}d=y;!?k}un)GlgVH
zC}!g(AqEJQ?II})5T6iAvTUD*3fgixbh1*)Wzt}EV|0tg3aLDQI2Mnp=5nRP3#u)d
z%oH+WGO1d$Ei2$~RU3{miCdec(Agy2$f{Kb>=aFhNjr8Sl?jom<vl*Lcv)0U=rUD%
zrBHsi!t=|#fZI*Awk9E<+Nd^tqyp|b)t@frOBrxA;E8pk5h{Zt%A~jZLDlgmsa%CW
zB?#b_%;1~SmsN}AV^!OgtJ-)4w2cBPIF(G?uA0hxZb3lR5pb30Y`3)%UVsYKo=m25
zsd71)EZd<RYdzQh>)SJ8zBE(Hl=g}#aI)gwYn2xdy>#V8ekPZ>G*em<FBc0l=>KOl
zOUPg2(-j!s3|)ZoOddV$OvjH+mzIP{=waF4wyM+mqKpH+{3fWtZ?BW5eqwjuu*$aZ
zBin!yiq=ej?o=Y9@Np~QLHM|o{-H+yF1ddf6j&uV&<Kvp!Eq?qe-oTi`Uh8~6$zRu
zzP{DSN(5Nkym;$7^}x=jc5|Ntn>B-EWar2BJN8CwpB&rQh#in)2O6>Ca_smonf2IQ
z&Ge!DhP`16(?JaVrhiuHA5aE{ZuPDCZb!E8y;u)S0N*h3WuLMnvJ0DT>-_C{U=kWd
zu#xMjn+zXVA3E3=IwKFAslyzdzIxweqwkmu|DDGk`=j+82OcgwyjUMPw(dV(XOAmK
zUx9WF+pKJxeK;Z84n2+xe-ynPUAwd%iPyusk?lrws%Cm*izxaRCHE8OCP<d3uFDyY
z;|obtF}|!?v<;PR`xI;h5A{#zT2{#txyPKpNA4MgLr@l8#@8`;m9Y)zh;RhHs#_1*
z3ZS}I`Q>nDX}8vV2T9QdUMEclv3mrxLtFX>Tdeh80HE7DX4`%cDq2sr?f-NPA=z$k
z+d_jMMf=?Lbe-1sTXTninFy}{K5iBc!bde0OJ&uBdM)%rneHcH4xp_wx3=cD?0aU)
z-^IqL>7dInS2ya?hwdBhhHXT)jVNqHVf_m0{qXf0uYX}R*&WZy!U@E5EkfYMK^ABm
z>7#p#s!=lbl1tSjnZCayqAcknnZ$M+aK9zTvf-NqJOo(tUUESLUo~yv(DvxtIP{Jc
zjJ=`_%GE4E9Ewo3?FY3{;+r#ocW;fbYLQI6;!^O3rd}~c72>BXF4ne3VsuaT4sfp8
zs}9MY#Q|)4I1^`hVAgwo2P9v0R@tfxxVAl9hon~=n%&W<*P-8ox*bpGv>=c6*#AgA
z7F`DV{HkurbbVTKN-m6lvSXb-b*Qan9*LDa*s2PVKz65I-}!Enuoooky+B}<dPOrn
z!1st{s(!%l>hRQ|YC!UF%$1YSdr<PXpgzej1(u;nHT3)_MsjjQ3Jnl!zi8kXSl`x;
zr@GKz4Sx+i`&{}+b>M60UC*T-tVW+t|GpJQ?&~q~q3W;{6ha`geY&JNU&-eroOKy?
zEJtwe2o>ObSlzKmsxhEjkit@wu6wUN2<O7KmW+rP9?(Y`k=$RQh2PNIbiN#U-}1gq
z8U_oq<ALoy1{Lu1-1A-ifwTexr0S6dS{gSh#j-DIwB2uMRM%%XCG`n!Nd3~_*Xr?@
zcu40VjlFOA{bnN#J+R+zSy32Yq-%WW1GhaK10!tNF{V4xMu)fUkz)E>ez*N48BnJN
zN!0-nw&T2j-8}hUc%J+Zyo7Nm#u*y!J;5pgw|3m3I#OwH&NS9koiv<ng#o_HsWOd<
zGmy-nIMt<{V>1OVlZHUSmTzT*R1d_q!V<QEv_!6$jvIutz#b!62%sr3u%cA)9RfNq
z)s+&(LbA=lktt^i(6Er^A!N>^Ma{M1c~E!>+q<u31hE1`;R}n9-cjwMkSdf*#WJr3
zw{*}-F{#04#$Sfhz%24Ir!Q9uR|Guh2zbT;kDlS*gQyr1P^tsQEM^uf#Y$P&kCkkp
zk_SpSv*&VU)rTdHPeTGLDHb71R#yF84O%!YS}>R4*dYpUVm|?VjUqows#JpHnt<nD
z)dI8T1yQwJg-N8Z#K*TqRH{c0m2g;)`4TQ5nF|B>q#oeYF}LI_T*Qvv#zw}u`D-eZ
zRGB%InO7OeO3>xd4kl&QFn3MuYjFj^!rUPRM?*jXgA~=-nQ2-0Gm1fxwj`lCu%HP-
z6ACC2u1`xS#<?U1BS@B1<2*w12wg+y8bI_o!|OVsX9c;hz?W3tHU$F~UOJi9;V%aX
zG}SbRteGVWaAnl^)_LW*A1zpA+j6dOspZf!aT_G(xKsvMmfr?fL4&u!>Ggq`ny1N<
zJx3b5Ps_Vc*IbG-Tz8H?4h-GOKX~g=V1J$6Uk~h8qVc=qzu0|mw;VlKJ4b6D?S1W0
z;B=imT@RdAqOp(8-9C4Brm^d^4F98NYUh;5#M--ZB;JU;AV*$!IQNNRJ#wV>O=WCf
zW9*bXcB;<Cy5S8t&O}$DxAN=0JvS^hW9`iif8T0+C4TF~+WwpIb^pW-YmKSR)>0dA
z1X@~IYV=Ra{gaLUJ#zmZj5p8RIMZOGG8=8MBQiU(HnPr+uW=t|?qnJh2jz)_jfo@j
z#F0-<tWO-<G#cPU!!~V%jntj74S(QfYGr4`HzxbW)_pr`b4qk*&2alwn8f7nkE?g8
z5C3$1a$aV~>%ezb2~5@5sg3^eM*pnbKU-s!&{!jMKn@+KIhCPZjiHz2p_lRC6B=E6
zQw~i4wlB6eyOOLql;~uA*HJlov~G()@EnY+9$7h}u&%m0R`<k!yW$Gh2lmw2y^7cO
z)M^SkZrDH+7yjScvgGjbe;oXWK?N4W6}|;MPij3McF4Aab=z<~cJOmI@eVeP#5K@h
z<1!n+d-U$!Pe$ZjN9wy?uCvE}Irz`)Sy;WMmDmSBm7>FSTlh0)ND21e8e2Kj2u#U=
zsk^?rC)NYgwUdv1BZ@buc%$%MwXfJ$-79WoaEB6|P(}|b!`}d{QDU=C0}j9Y%OLTD
zZ)9#Uw`PA_tPjuDcg!~X9R3$-bImaE1#ezjvDHo}xZYzjJGOS>5j*jjv#;H4Tn@z7
z1G}-yowUn=XL}tx^weebyMd#(7ss`CAF=VL76Qjn_BLDJd0;(!u;yx7NPO=vT=!fL
z^XpS5W!ui0rS2K2dq?WF(K{#TaYwZXyjT$m)9Lov1~#4vei)@~{yn@_F*gU_?ay`X
z{6c!2f3&*J=_T7f{dBnW=GyBl1T9;hyh9C<48&C1AKl|$Xq_c3U8xofw7}}M^Z6}j
z$>EKIYSunJnk><BIZ2AT$51y>M)9-`+aA0n(HtRdvK;A{ux(WeP?hn_eVr(tK*JN0
zVe@$Q)NOm<{Ve9OXR6^jE_;rHnP{*>GCQQHOjmJ6W@k3dMz5nujQWwad+G4VNtX_n
ztoz8?ON5;T(vKP->fTG$<LLf?(L;Gi(i_gh<&aA(bzLy2z6|(LA<uIe$ab`{j?|T0
z;e`U9gOfg9dh}S6GG6rv7_ka*eC@{9kKpwc%Rt-rUItpVfuzXkI%$je@xZb5fmf8_
z(U0=C^GZ018wU&-3bvgK=oTzcYl6ki0eKk)rmSTqP5|PW(K$3tLgiWxcJ!lz{WqX0
z<7!<e8=gVB83km$Wh0{6)73;l!JRJycf4@tTV?QS0;F!#f=|5RYWLB;#A;nF!bRCG
zOruO+ot=hAP`h@VzNFndmZ!Tm1jdQNUqVk1RAQh`;WCav&og;ZziBwxqF?S@o=tDB
z`*$ELV+4Agd}_P6;hC!2rszCj*ymLe4`DJG^TUt~b|mqlvXVoXO(x%k@TOH`1SJwM
zr6izYs>ZS?(DbDi_gUVex17Q}Hh2wR-^W&F5z^4S@Iyq@@bwpnwLvl)^h#V3Zer1d
zizECsg05EbHO=R8$s`2thXG5K?G+lc2$-#)FN`b8aQ#hw`vGaX$)0`6?inQ%{@gQb
z9s+yo_BE{t*+{UzX-CLG`bXDJ%Au*I6N_xS=)$5Ktoav|c7ZXQJsbT|Oqw>$00TE)
zXq8=IH?3H5+s%%4HNaifSPJDC^C_m?fR?(NXyxx3EoR4B-&*D4@7?*{!}<E;i}J`z
zn*@+euUV_Pd*R{O-HUhLmq%XQB!GhvTHH+oV~*aM{|^G6O{0!zT8!rS+IW5PkUV<$
zO9BN=i>a*IiAvR>-PPf83O@kpZOJyG##04<2Y_yKr5mKL%CJfFz7g|mS=>b19=La5
zz&xSq!h^X*G*E_4`ZR9T&PKjM5%T_c2f!z_d^uGhFiq_V2y4JX;PHi<g6>%w<!YLN
z`7UY)KF7)#c+rS;^6>h^k?U_L&Vhz=kL=uYHz7M;x_(kI*&3!k+0?go?vshSsqbG*
znjhXG6yUMN)M(C3Ksy8D-a4?Y*-%f{ZeB=%nf*D?{5SkMIbX9=+k+<6S}f7+M}dV(
zAq{t_6?!U3!bL+_wIhdQCSS_MC*i7Nsgx-!3b<HmjM|eP#w2wKwkMoUs3oI2RKV3y
zos<A<KitvMeXQ+hbSkQs)^TvG5Hgo4BF|C7uLdc)eN<>2$<XI(D>p>zw_bTnx3BdD
zylzxSdbQD(c{)e`azVg*BzjS#-4Df|LqTo#bbE?;5v%U`+V+~ouZWpkS-=oP^LhKf
zmJZV2(_8+UK|9ydqil#$Q=ZfGCMv1%??e87g)cnKt2X`59W?XxQ>^$~d{Lc6)u1}1
z?OJ+|U^}W=;bX$zK`mH0Qho}rrjcQoFKmPv`ON73)O6z4g#A}?>{sNBOwN2tPW+0T
z{FLnf(qLi?pA&d};ULT_%$EiuWBAerFQk0=Q}QO*BSYYNxWV{k#((qZIum<pc-_dv
zZ`yBx6+#G%i(#Zmk<E83R%VV-0^!x8D@U6~ENrm856|8>+caYVty{2ZrJ#*i9Gi9u
s2F;AKO$2b82H+M6LK+1?pL+>2ps-<u4JrPCn*)k_=s)dd#z3X=f7K|spa1{>

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/abstract.py b/model_executor/layers/mamba/abstract.py
new file mode 100644
index 0000000..e68b09b
--- /dev/null
+++ b/model_executor/layers/mamba/abstract.py
@@ -0,0 +1,71 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import abstractmethod
+from collections.abc import Iterable
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.v1.kv_cache_interface import KVCacheSpec, MambaSpec
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+
+class MambaBase(AttentionLayerBase):
+    """
+    Base class for Mamba-like layers which support the v1 engine.
+    Inherit from this class if you implement a custom layer.
+    """
+
+    # Contains the KV cache (mamba state) for the layer
+    # in the shape specified by `self.get_state_shape`.
+    kv_cache: tuple[torch.Tensor, ...]
+
+    @abstractmethod
+    def get_state_shape(self) -> Iterable[tuple[int, ...]]:
+        """
+        Defines the shape of the state.
+        For mamba layers this is usually a (conv_state, ssm_state) tuple.
+        In this case, returns (conv_state_shape, ssm_state_shape).
+        """
+        pass
+
+    @property
+    @abstractmethod
+    def mamba_type(self) -> str:
+        pass
+
+    @abstractmethod
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        """Get the attention backend class for this Mamba layer."""
+        pass
+
+    @abstractmethod
+    def get_state_dtype(self) -> tuple[torch.dtype, ...]:
+        pass
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec | None:
+        if (
+            vllm_config.speculative_config is not None
+            and vllm_config.model_config.hf_config.model_type not in ["qwen3_next"]
+        ):
+            raise NotImplementedError(
+                "Mamba with speculative decoding is not supported yet."
+            )
+        mamba_block_size = vllm_config.cache_config.mamba_block_size
+        page_size_padded = vllm_config.cache_config.mamba_page_size_padded
+        return MambaSpec(
+            shapes=self.get_state_shape(),
+            dtypes=self.get_state_dtype(),
+            block_size=mamba_block_size,
+            page_size_padded=page_size_padded,
+            mamba_type=self.mamba_type,
+            num_speculative_blocks=(
+                vllm_config.speculative_config.num_speculative_tokens
+                if vllm_config.speculative_config
+                else 0
+            ),
+        )
diff --git a/model_executor/layers/mamba/linear_attn.py b/model_executor/layers/mamba/linear_attn.py
new file mode 100644
index 0000000..0a2742f
--- /dev/null
+++ b/model_executor/layers/mamba/linear_attn.py
@@ -0,0 +1,402 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+from typing import TYPE_CHECKING
+
+import torch
+import torch.nn.functional as F
+from einops import rearrange
+from torch import nn
+
+from vllm.attention import AttentionMetadata
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed.communication_op import tensor_model_parallel_all_reduce
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.lightning_attn import (
+    lightning_attention,
+    linear_decode_forward_triton,
+)
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.linear_attn import LinearAttentionMetadata
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+
+class MiniMaxText01RMSNormTP(CustomOp):
+    name = "MiniMaxText01RMSNormTP"
+
+    def __init__(self, hidden_size: int, eps: float = 1e-6) -> None:
+        super().__init__()
+        self.tp_world = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.weight = nn.Parameter(torch.ones(int(hidden_size / self.tp_world)))
+
+        self.weight.weight_loader = self.weight_loader
+        self.variance_epsilon = eps
+        return
+
+    @staticmethod
+    def weight_loader(
+        param: nn.Parameter,
+        loaded_weight: torch.Tensor,
+    ) -> None:
+        tp_world = get_tensor_model_parallel_world_size()
+        tp_rank = get_tensor_model_parallel_rank()
+
+        shard_size = loaded_weight.shape[0] // tp_world
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        param.data.copy_(loaded_weight[shard])
+        return
+
+    def _forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        orig_dtype = x.dtype
+        x = x.to(torch.float32)
+        variance = x.pow(2).mean(dim=-1, keepdim=True, dtype=torch.float32)
+        if self.tp_world > 1:
+            variance = tensor_model_parallel_all_reduce(variance) / self.tp_world
+        x = x * torch.rsqrt(variance + self.variance_epsilon)
+        x = (x * self.weight).to(orig_dtype)
+        return x
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        assert residual is None, "RMSNorm does not support residual connection."
+        return self._forward(x)
+
+
+class MiniMaxText01LinearKernel:
+    @staticmethod
+    def jit_linear_forward_prefix(
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        kv_caches: torch.Tensor,
+        slope_rate: torch.Tensor,
+        block_size: int,
+        layer_idx: int | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        slope_rate = slope_rate.to(torch.float32)
+        should_pad_dim = q.dim() == 3
+        if should_pad_dim:
+            q = q.unsqueeze(0)
+            k = k.unsqueeze(0)
+            v = v.unsqueeze(0)
+        b, h, n, d = q.shape
+        e = d
+        kv_history = kv_caches.reshape(1, h, d, e).contiguous()
+        output, kv_history = lightning_attention(
+            q, k, v, slope_rate, block_size=block_size, kv_history=kv_history
+        )
+        kv_caches.copy_(kv_history[:, :, -1, :, :].reshape(h, d, e))
+        assert output.shape[0] == 1, "batch size must be 1"
+        return rearrange(output.squeeze(0), "h n d -> n (h d)")
+
+
+class MiniMaxText01LinearAttention(nn.Module, MambaBase):
+    @property
+    def mamba_type(self) -> str:
+        return "linear_attention"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.linear_attn import LinearAttentionBackend
+
+        return LinearAttentionBackend
+
+    def get_state_dtype(self) -> tuple[torch.dtype]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.linear_attention_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, int, int], ...]:
+        return MambaStateShapeCalculator.linear_attention_state_shape(
+            num_heads=self.num_heads, tp_size=self.tp_size, head_dim=self.head_dim
+        )
+
+    def __init__(
+        self,
+        hidden_size: int,
+        hidden_inner_size: int,
+        num_heads: int,
+        head_dim: int,
+        max_position: int,
+        block_size: int,
+        num_hidden_layer: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        layer_idx: int = 0,
+        linear_layer_idx: int = 0,
+        prefix: str = "linear_attn",
+    ) -> None:
+        super().__init__()
+
+        self.layer_idx = layer_idx
+        self.BLOCK = block_size
+        self.hidden_size = hidden_size
+        self.num_heads = num_heads
+        self.head_dim = head_dim
+        self.total_num_heads = num_heads
+        self.hidden_inner_size = hidden_inner_size
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+
+        assert self.total_num_heads % self.tp_size == 0
+        self.tp_heads = self.total_num_heads // self.tp_size
+        self.qkv_size = self.num_heads * self.head_dim
+        self.tp_hidden = self.head_dim * self.tp_heads
+        self.model_config = model_config
+        self.cache_config = cache_config
+        self.prefix = prefix
+
+        self.qkv_proj = ColumnParallelLinear(
+            hidden_size,
+            self.hidden_inner_size * 3,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.output_gate = ColumnParallelLinear(
+            hidden_size,
+            self.hidden_inner_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output_gate",
+        )
+        self.out_proj = RowParallelLinear(
+            self.hidden_inner_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        self.norm = MiniMaxText01RMSNormTP(
+            self.hidden_inner_size,
+            eps=1e-5,
+        )
+
+        slope_rate = MiniMaxText01LinearAttention._build_slope_tensor(self.num_heads)
+        if num_hidden_layer <= 1:
+            self.slope_rate = slope_rate * (1 + 1e-5)
+        else:
+            self.slope_rate = slope_rate * (
+                1 - layer_idx / (num_hidden_layer - 1) + 1e-5
+            )
+        self.tp_slope = self.slope_rate[
+            self.tp_rank * self.tp_heads : (self.tp_rank + 1) * self.tp_heads
+        ].contiguous()
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    @staticmethod
+    def weight_direct_load(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+        assert param.size() == loaded_weight.size()
+        param.data.copy_(loaded_weight)
+        return
+
+    @staticmethod
+    def _build_slope_tensor(n_attention_heads: int):
+        def get_slopes(n):
+            def get_slopes_power_of_2(n):
+                start = 2 ** (-(2 ** -(math.log2(n) - 3)))
+                ratio = start
+                return [start * ratio**i for i in range(n)]
+
+            if math.log2(n).is_integer():
+                return get_slopes_power_of_2(n)
+            else:
+                closest_power_of_2 = 2 ** math.floor(math.log2(n))
+                return (
+                    get_slopes_power_of_2(closest_power_of_2)
+                    + get_slopes(2 * closest_power_of_2)[0::2][: n - closest_power_of_2]
+                )
+
+        slopes = torch.tensor(
+            get_slopes(n_attention_heads), dtype=torch.float32
+        ).reshape(n_attention_heads, 1, 1)
+        return slopes
+
+    def _prefill_and_mix_infer(
+        self, q, k, v, kv_cache, state_indices_tensor, attn_metadata
+    ):
+        hidden = []
+        for _prefill_idx in range(getattr(attn_metadata, "num_prefills", 0)):
+            if _prefill_idx >= len(attn_metadata.query_start_loc):
+                break
+            if _prefill_idx >= len(state_indices_tensor):
+                break
+            offset = attn_metadata.num_decode_tokens
+            _start = attn_metadata.query_start_loc[offset + _prefill_idx]
+            _end = attn_metadata.query_start_loc[offset + _prefill_idx + 1]
+            slot_id = state_indices_tensor[offset + _prefill_idx]
+            qs = q[_start:_end].transpose(0, 1).contiguous()
+            ks = k[_start:_end].transpose(0, 1).contiguous()
+            vs = v[_start:_end].transpose(0, 1).contiguous()
+            slice_layer_cache = kv_cache[slot_id, ...]
+
+            out_slice = MiniMaxText01LinearKernel.jit_linear_forward_prefix(
+                qs,
+                ks,
+                vs,
+                slice_layer_cache,
+                self.tp_slope,
+                self.BLOCK,
+                layer_idx=self.layer_idx,
+            )
+            hidden.append(out_slice.contiguous())
+        if attn_metadata.num_decode_tokens > 0:
+            hidden_decode = self._decode_infer(
+                q, k, v, kv_cache, state_indices_tensor, attn_metadata
+            )
+            hidden.insert(0, hidden_decode)
+
+        if not hidden:
+            return torch.empty((0, q.size(-1)), device=q.device, dtype=q.dtype)
+
+        hidden = torch.concat(hidden, dim=0).contiguous()
+        return hidden
+
+    def _decode_infer(self, q, k, v, kv_cache, state_indices_tensor, attn_metadata):
+        q = q[: attn_metadata.num_decode_tokens].unsqueeze(2).contiguous()
+        k = k[: attn_metadata.num_decode_tokens].unsqueeze(2).contiguous()
+        v = v[: attn_metadata.num_decode_tokens].unsqueeze(2).contiguous()
+        slot_id = state_indices_tensor[: attn_metadata.num_decodes]
+        hidden = linear_decode_forward_triton(
+            q, k, v, kv_cache, self.tp_slope, slot_id, 32
+        )
+        return hidden
+
+    def forward(
+        self, hidden_states: torch.Tensor, output: torch.Tensor, positions: torch.Tensor
+    ) -> None:
+        torch.ops.vllm.linear_attention(
+            hidden_states,
+            output,
+            positions,
+            self.prefix,
+        )
+
+    def _forward(
+        self, hidden_states: torch.Tensor, output: torch.Tensor, positions: torch.Tensor
+    ) -> None:
+        forward_context = get_forward_context()
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]
+            assert isinstance(attn_metadata, LinearAttentionMetadata)
+            num_actual_tokens = (
+                attn_metadata.num_prefill_tokens + attn_metadata.num_decode_tokens
+            )
+        else:
+            num_actual_tokens = hidden_states.shape[0]
+
+        qkv, _ = self.qkv_proj(hidden_states[:num_actual_tokens])
+        qkv32 = qkv.to(torch.float32)
+        qkvact = torch.nn.functional.silu(qkv32)
+        qkvact = qkvact.view((qkv.shape[0], self.tp_heads, -1))
+        q, k, v = torch.split(qkvact, [self.head_dim] * 3, dim=-1)
+        if attn_metadata is not None:
+            kv_cache = self.kv_cache[forward_context.virtual_engine][0]
+            state_indices_tensor = attn_metadata.state_indices_tensor
+
+            num_prefills = getattr(attn_metadata, "num_prefills", 0)
+            if num_prefills > 0:
+                num_decode_tokens = getattr(attn_metadata, "num_decode_tokens", 0)
+                for prefill_idx in range(num_prefills):
+                    q_start = attn_metadata.query_start_loc[
+                        num_decode_tokens + prefill_idx
+                    ]
+                    q_end = attn_metadata.query_start_loc[
+                        num_decode_tokens + prefill_idx + 1
+                    ]
+                    query_len = q_end - q_start
+                    context_len = (
+                        attn_metadata.seq_lens[num_decode_tokens + prefill_idx]
+                        - query_len
+                    )
+                    if context_len == 0:
+                        block_to_clear = state_indices_tensor[
+                            num_decode_tokens + prefill_idx
+                        ]
+                        kv_cache[block_to_clear, ...] = 0
+
+        decode_only = getattr(attn_metadata, "num_prefills", 0) == 0
+        if attn_metadata is None:
+            hidden = torch.empty(
+                (q.shape[0], q.shape[1] * q.shape[2]), device=q.device, dtype=q.dtype
+            )
+        else:
+            if not decode_only:
+                hidden = self._prefill_and_mix_infer(
+                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
+                )
+            else:
+                hidden = self._decode_infer(
+                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
+                )
+        hidden = self.norm._forward(hidden)
+        gate, _ = self.output_gate(hidden_states[:num_actual_tokens])
+        hidden = F.sigmoid(gate) * hidden
+        hidden = hidden.to(hidden_states.dtype)
+
+        output[:num_actual_tokens], _ = self.out_proj(hidden)
+
+
+def linear_attention(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    positions: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self._forward(hidden_states=hidden_states, output=output, positions=positions)
+
+
+def linear_attention_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    positions: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="linear_attention",
+    op_func=linear_attention,
+    mutates_args=["output"],
+    fake_impl=linear_attention_fake,
+)
diff --git a/model_executor/layers/mamba/mamba_mixer.py b/model_executor/layers/mamba/mamba_mixer.py
new file mode 100644
index 0000000..b6345b8
--- /dev/null
+++ b/model_executor/layers/mamba/mamba_mixer.py
@@ -0,0 +1,535 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING, NamedTuple
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+import torch
+from torch import nn
+from torch.nn.parameter import Parameter
+
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
+    causal_conv1d_fn,
+    causal_conv1d_update,
+)
+from vllm.model_executor.layers.mamba.ops.mamba_ssm import (
+    selective_scan_fn,
+    selective_state_update,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.mamba1_attn import Mamba1AttentionMetadata
+
+
+# Adapted from transformers.models.mamba.modeling_mamba.MambaMixer
+@CustomOp.register("mamba_mixer")
+class MambaMixer(MambaBase, CustomOp):
+    """
+    Compute ∆, A, B, C, and D the state space parameters and compute
+    the `contextualized_states`. A, D are input independent
+    (see Mamba paper [1] Section 3.5.2 "Interpretation of A"
+    for why A isn't selective) ∆, B, C are input-dependent
+    (this is a key difference between Mamba and the linear time
+    invariant S4, and is why Mamba is called
+    **selective** state spaces)
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        ssm_state_size: int,
+        conv_kernel_size: int,
+        intermediate_size: int,
+        time_step_rank: int,
+        use_conv_bias: bool,
+        use_bias: bool,
+        use_rms_norm: bool,
+        rms_norm_has_weight: bool = True,
+        rms_norm_eps: float = 1e-5,
+        activation="silu",
+        is_lora_enabled: bool = False,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.time_step_rank = time_step_rank
+        self.ssm_state_size = ssm_state_size
+        self.use_rms_norm = use_rms_norm
+        self.activation = activation
+        self.is_lora_enabled = is_lora_enabled
+        self.conv_kernel_size = conv_kernel_size
+        self.intermediate_size = intermediate_size
+
+        self.conv1d = ColumnParallelLinear(
+            input_size=conv_kernel_size,
+            output_size=intermediate_size,
+            bias=use_conv_bias,
+        )
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `set_weight_attrs`
+        # doesn't allow to override it
+        self.conv1d.weight.data = self.conv1d.weight.data.unsqueeze(1)
+
+        self.in_proj = MergedColumnParallelLinear(
+            hidden_size, [intermediate_size] * 2, bias=use_bias
+        )
+
+        # selective projection used to make dt, B and C input dependent
+        self.x_proj = RowParallelLinear(
+            intermediate_size,
+            time_step_rank + ssm_state_size * 2,
+            bias=False,
+        )
+        # time step projection (discretization) -
+        # In the forward we need to apply dt_proj without the bias,
+        # as the bias is added in the selective scan kernel.
+        self.dt_proj = ColumnParallelLinear(
+            time_step_rank, intermediate_size, bias=True, skip_bias_add=True
+        )
+
+        def weight_loader(param: Parameter, loaded_weight: torch.Tensor):
+            tp_rank = get_tensor_model_parallel_rank()
+            tp_size = get_tensor_model_parallel_world_size()
+            param.data.copy_(
+                loaded_weight.data.split(loaded_weight.shape[0] // tp_size, dim=0)[
+                    tp_rank
+                ]
+            )
+
+        def A_weight_loader(param: Parameter, loaded_weight: torch.Tensor):
+            weight_loader(param, -torch.exp(loaded_weight.float()))
+
+        tp_size = get_tensor_model_parallel_world_size()
+        self.A = nn.Parameter(
+            torch.empty(
+                intermediate_size // tp_size,
+                ssm_state_size,
+                dtype=torch.float32,
+            )
+        )
+        self.D = nn.Parameter(torch.ones(intermediate_size // tp_size))
+
+        set_weight_attrs(self.D, {"weight_loader": weight_loader})
+        set_weight_attrs(self.A, {"weight_loader": A_weight_loader})
+
+        self.out_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=use_bias,
+            input_is_parallel=True,
+        )
+
+        self.dt_layernorm = (
+            RMSNorm(
+                time_step_rank,
+                eps=rms_norm_eps,
+                has_weight=rms_norm_has_weight,
+            )
+            if use_rms_norm
+            else None
+        )
+
+        self.b_layernorm = (
+            RMSNorm(
+                ssm_state_size,
+                eps=rms_norm_eps,
+                has_weight=rms_norm_has_weight,
+            )
+            if use_rms_norm
+            else None
+        )
+
+        self.c_layernorm = (
+            RMSNorm(
+                ssm_state_size,
+                eps=rms_norm_eps,
+                has_weight=rms_norm_has_weight,
+            )
+            if use_rms_norm
+            else None
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+        # The inner tuple is (conv_state, ssm_state)
+        self.kv_cache = (torch.tensor([]), torch.tensor([]))
+
+        self.model_config = model_config
+        self.cache_config = cache_config
+        self.prefix = prefix
+
+    def _ssm_transform(
+        self, x: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        if self.is_lora_enabled:
+            #  Lora kernel requires contiguous tensor.
+            ssm_params = self.x_proj(x.contiguous())[0]
+        else:
+            ssm_params = self.x_proj(x)[0]
+        time_step, B, C = torch.split(
+            ssm_params,
+            [self.time_step_rank, self.ssm_state_size, self.ssm_state_size],
+            dim=-1,
+        )
+        if self.use_rms_norm:
+            assert self.dt_layernorm is not None
+            assert self.b_layernorm is not None
+            assert self.c_layernorm is not None
+            time_step = self.dt_layernorm(time_step.contiguous())
+            B = self.b_layernorm(B.contiguous())
+            C = self.c_layernorm(C.contiguous())
+        discrete_time_step = self.dt_proj(time_step)[0].transpose(-2, -1)
+        return discrete_time_step, B, C
+
+    def forward(self, hidden_states: torch.Tensor, output: torch.Tensor):
+        torch.ops.vllm.mamba_mixer(
+            hidden_states,
+            output,
+            self.prefix,
+        )
+
+    def forward_native(self, hidden_states: torch.Tensor, output: torch.Tensor):
+        pass
+
+    def forward_cuda(self, hidden_states: torch.Tensor, output: torch.Tensor):
+        """
+        Run the Mamba-1 SSM pipeline.
+
+        Steps
+        -----
+        1. Apply the gated-MLP linear projection to the raw input.
+        2. Pass the projected sequence through the convolutional mixing layer.
+        3. Feed the result into the State-Space Model (SSM) blocks.
+        4. Perform the recurrence y ← SSM(A, B, C, Δ)(x)
+           to produce contextual representations.
+        5. Project the contextualised sequence back
+           to the output embedding dimension.
+
+        Batch handling
+        --------------
+        Prefill and decode tokens are processed by dedicated CUDA
+        kernels for both the convolutional (conv1d) and SSM stages.
+        In the case of a mixed batch (containing both prefill and
+        decode tokens), both sets of kernels are executed independently
+        and their outputs are concatenated before the final output projection.
+        """
+
+        forward_context: ForwardContext = get_forward_context()
+        attn_metadata = forward_context.attn_metadata
+
+        assert self.cache_config is not None
+        mamba_block_size = self.cache_config.mamba_block_size
+        prefix_caching_enabled = self.cache_config.enable_prefix_caching
+
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]
+            assert isinstance(attn_metadata, Mamba1AttentionMetadata)
+            query_start_loc_p = attn_metadata.query_start_loc_p
+            state_indices_tensor = attn_metadata.state_indices_tensor
+            self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+            conv_state = self_kv_cache[0].transpose(-1, -2)
+            ssm_state = self_kv_cache[1]
+            has_initial_states_p = attn_metadata.has_initial_states_p
+            num_padded_decodes = attn_metadata.num_padded_decodes
+
+        # 1. Gated MLP's linear projection
+        projected_states = self.in_proj(hidden_states)[0].transpose(-2, -1)
+        hidden_states_BC, gate = projected_states.chunk(2, dim=-2)
+
+        conv_weights = self.conv1d.weight.view(
+            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
+        )
+
+        if attn_metadata is None:
+            # V1 profile run
+            hidden_states_BC = hidden_states_BC.contiguous()
+            return self.out_proj(hidden_states_BC.transpose(-2, -1))[0]
+
+        num_prefill_tokens = attn_metadata.num_prefill_tokens  # token count
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        num_prefills = attn_metadata.num_prefills  # request count
+        num_decodes = attn_metadata.num_decode_tokens  # token count (=request)
+        has_prefill = num_prefill_tokens > 0
+        has_decode = num_decode_tokens > 0
+        num_actual_tokens = num_prefill_tokens + num_decode_tokens
+
+        prefill_decode_split = split_batch_to_prefill_and_decode(
+            hidden_states_BC,
+            gate,
+            state_indices_tensor,
+            num_prefill_tokens,
+            num_prefills,
+            num_padded_decodes,
+        )
+        hidden_states_BC_p = prefill_decode_split.hidden_states_BC_p
+        hidden_states_BC_d = prefill_decode_split.hidden_states_BC_d
+        gate_p = prefill_decode_split.gate_p
+        gate_d = prefill_decode_split.gate_d
+        state_indices_tensor_p = prefill_decode_split.state_indices_tensor_p
+        state_indices_tensor_d = prefill_decode_split.state_indices_tensor_d
+
+        if prefix_caching_enabled:
+            block_idx_last_computed_token_d, block_idx_last_computed_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_computed_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+            block_idx_last_scheduled_token_d, block_idx_last_scheduled_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_scheduled_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+
+            block_idx_first_scheduled_token_p = (
+                attn_metadata.block_idx_first_scheduled_token_p
+            )
+            num_computed_tokens_p = attn_metadata.num_computed_tokens_p
+        else:
+            block_idx_last_computed_token_d = None
+            block_idx_last_computed_token_p = None
+            block_idx_last_scheduled_token_d = None
+            block_idx_last_scheduled_token_p = None
+            block_idx_first_scheduled_token_p = None
+            num_computed_tokens_p = None
+
+        ssm_outputs = []
+
+        if has_prefill:
+            # 2. Convolution sequence transformation
+            conv_out_p = causal_conv1d_fn(
+                hidden_states_BC_p,
+                conv_weights,
+                self.conv1d.bias,
+                activation=self.activation,
+                conv_states=conv_state,
+                has_initial_state=has_initial_states_p,
+                cache_indices=state_indices_tensor_p,
+                query_start_loc=query_start_loc_p,
+                block_idx_first_scheduled_token=block_idx_first_scheduled_token_p,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_p,
+                initial_state_idx=block_idx_last_computed_token_p,
+                num_computed_tokens=num_computed_tokens_p,
+                block_size_to_align=mamba_block_size,
+            )
+            # 3. State Space Model sequence transformations.
+            discrete_time_step_p, B_p, C_p = self._ssm_transform(
+                conv_out_p.transpose(-2, -1)
+            )
+            time_proj_bias = self._time_proj_bias()
+
+            # 4. Perform the recurrence y ← SSM(A, B, C, Δ)(x)
+            scan_out_p = selective_scan_fn(
+                conv_out_p,
+                ssm_state,
+                discrete_time_step_p,
+                self.A,
+                B_p.transpose(-2, -1),
+                C_p.transpose(-2, -1),
+                self.D.float(),
+                gate_p,
+                time_proj_bias,
+                delta_softplus=True,
+                cache_indices=state_indices_tensor_p,
+                has_initial_state=has_initial_states_p,
+                query_start_loc=query_start_loc_p,
+                block_size=mamba_block_size,
+                block_idx_first_scheduled_token=block_idx_first_scheduled_token_p,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_p,
+                initial_state_idx=block_idx_last_computed_token_p,
+            )
+            ssm_outputs.append(scan_out_p)
+
+        if has_decode:
+            if prefix_caching_enabled:
+                state_indices_tensor_d_input = state_indices_tensor_d.gather(
+                    1, block_idx_last_computed_token_d.unsqueeze(1)
+                ).squeeze(1)
+                state_indices_tensor_d_output = state_indices_tensor_d.gather(
+                    1, block_idx_last_scheduled_token_d.unsqueeze(1)
+                ).squeeze(1)
+            else:
+                state_indices_tensor_d_input = state_indices_tensor_d
+                state_indices_tensor_d_output = state_indices_tensor_d
+            # 2. Convolution sequence transformation
+            conv_out_d = causal_conv1d_update(
+                hidden_states_BC_d.transpose(0, 1),
+                conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=state_indices_tensor_d,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_d,
+                initial_state_idx=block_idx_last_computed_token_d,
+            ).transpose(0, 1)
+
+            # 3. State Space Model sequence transformation.
+            discrete_time_step_d, B_d, C_d = self._ssm_transform(
+                conv_out_d.transpose(-2, -1)
+            )
+            time_proj_bias = self._time_proj_bias()
+
+            # 4. Perform the recurrence y ← SSM(A, B, C, Δ)(x)
+            scan_outputs_d = torch.empty_like(hidden_states_BC_d.transpose(0, 1))
+            selective_state_update(
+                ssm_state,
+                conv_out_d.transpose(0, 1),
+                discrete_time_step_d.transpose(0, 1),
+                self.A,
+                B_d,
+                C_d,
+                self.D,
+                gate_d.transpose(0, 1),
+                time_proj_bias,
+                dt_softplus=True,
+                state_batch_indices=state_indices_tensor_d_input,
+                dst_state_batch_indices=state_indices_tensor_d_output,
+                out=scan_outputs_d,
+            )
+            scan_outputs_d = scan_outputs_d.transpose(0, 1)
+
+            ssm_outputs.insert(0, scan_outputs_d)
+
+        scan_outputs_combined = (
+            ssm_outputs[0] if len(ssm_outputs) == 1 else torch.cat(ssm_outputs, dim=-1)
+        )
+
+        # 5. Final output projection
+        if self.is_lora_enabled:  # Lora kernel requires contiguous tensor.
+            scan_outputs_combined = scan_outputs_combined.transpose(-2, -1).contiguous()
+            out = self.out_proj(scan_outputs_combined)[0]
+        else:
+            out = self.out_proj(scan_outputs_combined.transpose(-2, -1))[0]
+
+        output[:num_actual_tokens] = out
+
+    def get_state_dtype(self) -> tuple[torch.dtype]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.mamba1_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+            self.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.mamba1_state_shape(
+            tp_world_size=get_tensor_model_parallel_world_size(),
+            intermediate_size=self.intermediate_size,
+            state_size=self.ssm_state_size,
+            conv_kernel=self.conv_kernel_size,
+        )
+
+    @property
+    def mamba_type(self) -> str:
+        return "mamba1"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.mamba1_attn import Mamba1AttentionBackend
+
+        return Mamba1AttentionBackend
+
+    def _time_proj_bias(self) -> torch.Tensor | None:
+        if hasattr(self.dt_proj, "bias") and self.dt_proj.bias is not None:
+            return self.dt_proj.bias.float()
+        return None
+
+
+class PrefillDecodeSplit(NamedTuple):
+    hidden_states_BC_p: torch.Tensor
+    hidden_states_BC_d: torch.Tensor
+    gate_p: torch.Tensor
+    gate_d: torch.Tensor
+    state_indices_tensor_p: torch.Tensor
+    state_indices_tensor_d: torch.Tensor
+
+
+def split_batch_to_prefill_and_decode(
+    hidden_states_BC: torch.Tensor,
+    gate: torch.Tensor,
+    state_indices_tensor: torch.Tensor,
+    num_prefill_tokens: int,
+    num_prefills: int,
+    num_padded_decodes: int,
+) -> PrefillDecodeSplit:
+    num_actual_tokens = num_prefill_tokens + num_padded_decodes
+
+    # In v1, decode tokens come first, then prefill tokens.
+    hidden_states_BC_d, hidden_states_BC_p = torch.split(
+        hidden_states_BC[..., :num_actual_tokens],
+        [num_padded_decodes, num_prefill_tokens],
+        dim=-1,
+    )
+    gate_d, gate_p = torch.split(
+        gate[..., :num_actual_tokens], [num_padded_decodes, num_prefill_tokens], dim=-1
+    )
+
+    # num_padded_decodes accounts for CUDA graph padding when applicable
+    state_indices_tensor_d, state_indices_tensor_p = torch.split(
+        state_indices_tensor[: num_padded_decodes + num_prefills],
+        [num_padded_decodes, num_prefills],
+        dim=0,
+    )
+
+    return PrefillDecodeSplit(
+        hidden_states_BC_p=hidden_states_BC_p,
+        hidden_states_BC_d=hidden_states_BC_d,
+        gate_p=gate_p,
+        gate_d=gate_d,
+        state_indices_tensor_p=state_indices_tensor_p,
+        state_indices_tensor_d=state_indices_tensor_d,
+    )
+
+
+def mamba_mixer(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self.forward_cuda(hidden_states=hidden_states, output=output)
+
+
+def mamba_mixer_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="mamba_mixer",
+    op_func=mamba_mixer,
+    mutates_args=["output"],
+    fake_impl=mamba_mixer_fake,
+)
diff --git a/model_executor/layers/mamba/mamba_mixer2.py b/model_executor/layers/mamba/mamba_mixer2.py
new file mode 100644
index 0000000..fb45afa
--- /dev/null
+++ b/model_executor/layers/mamba/mamba_mixer2.py
@@ -0,0 +1,928 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+import torch
+from torch import nn
+
+from vllm.attention.backends.abstract import AttentionMetadata
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
+    causal_conv1d_fn,
+    causal_conv1d_update,
+)
+from vllm.model_executor.layers.mamba.ops.layernorm_gated import rms_norm_gated
+from vllm.model_executor.layers.mamba.ops.mamba_ssm import selective_state_update
+from vllm.model_executor.layers.mamba.ops.ssd_combined import (
+    mamba_chunk_scan_combined_varlen,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import (
+    LoaderFunction,
+    composed_weight_loader,
+    sharded_weight_loader,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionMetadata
+
+# Added by the IBM Team, 2024
+
+
+# Adapted from transformers.models.mamba2.modeling_mamba2.MambaRMSNormGated
+@CustomOp.register("mixer2_gated_rms_norm")
+class Mixer2RMSNormGated(CustomOp):
+    def __init__(
+        self,
+        full_hidden_size: int,
+        full_n_groups: int,
+        use_rms_norm: bool = True,
+        eps: float = 1e-6,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.full_hidden_size = full_hidden_size
+        self.group_size = full_hidden_size // full_n_groups
+        self.per_rank_hidden_size = full_hidden_size // self.tp_size
+        self.n_groups = full_hidden_size // self.group_size
+
+        self.variance_epsilon = eps
+        self.use_rms_norm = use_rms_norm
+        if self.use_rms_norm:
+            # Register norm weight only if we're actually applying RMSNorm
+            self.weight = nn.Parameter(torch.ones(self.per_rank_hidden_size))
+            set_weight_attrs(self.weight, {"weight_loader": sharded_weight_loader(0)})
+        else:
+            # Avoid checkpoint mismatch by skipping unused parameter
+            self.register_parameter("weight", None)
+        assert self.full_hidden_size % self.tp_size == 0, (
+            "Tensor parallel world size must divide hidden size."
+        )
+
+    def forward_native(
+        self,
+        x: torch.Tensor,
+        gate: torch.Tensor,
+    ):
+        # Three tensor-parallel cases:
+        #   1. n_groups is 1
+        #      In this case we parallelize along the reduction dim.
+        #      Each rank computes a local sum of squares followed by AllReduce
+        #   2. tp_size divides n_groups
+        #      Each rank only reduces within its local group(s).
+        #      No collective ops necessary.
+        #   3. The general case can be pretty complicated so we AllGather
+        #      the input and then redundantly compute the RMSNorm.
+        input_dtype = x.dtype
+        x = x * nn.functional.silu(gate.to(torch.float32))
+        if not self.use_rms_norm:
+            return x.to(input_dtype)
+
+        if self.n_groups == 1:
+            if self.tp_size > 1:
+                # Compute local sum and then reduce to obtain global sum
+                local_sums = x.pow(2).sum(dim=-1, keepdim=True)
+                global_sums = tensor_model_parallel_all_reduce(local_sums)
+                # Calculate the variance
+                count = self.tp_size * x.shape[-1]
+                variance = global_sums / count
+
+            else:
+                variance = x.pow(2).mean(-1, keepdim=True)
+            x = x * torch.rsqrt(variance + self.variance_epsilon)
+        else:
+            redundant_tp: bool = self.n_groups % self.tp_size != 0
+            if redundant_tp:
+                # To handle the general case, redundantly apply the variance
+                x = tensor_model_parallel_all_gather(x, -1)
+
+            *prefix_dims, hidden_dim = x.shape
+            group_count = hidden_dim // self.group_size
+            x_grouped = x.view(*prefix_dims, group_count, self.group_size)
+            variance = x_grouped.pow(2).mean(-1, keepdim=True)
+            x_grouped = x_grouped * torch.rsqrt(variance + self.variance_epsilon)
+            x = x_grouped.view(*prefix_dims, hidden_dim)
+
+            if redundant_tp:
+                start = self.per_rank_hidden_size * self.tp_rank
+                end = start + self.per_rank_hidden_size
+                x = x[..., start:end]
+
+        return self.weight * x.to(input_dtype)
+
+    def forward_cuda(
+        self,
+        x: torch.Tensor,
+        gate: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        input_dtype = x.dtype
+        if not self.use_rms_norm:
+            # Keep gate in float32 for numerical stability during silu
+            return x * nn.functional.silu(gate.to(torch.float32)).to(input_dtype)
+
+        if ((self.n_groups % self.tp_size) != 0) or self.n_groups != 1:
+            return self.forward_native(x, gate)
+
+        return rms_norm_gated(
+            x,
+            self.weight.data,
+            bias=None,
+            z=gate,
+            eps=self.variance_epsilon,
+            norm_before_gate=False,
+        )
+
+
+def mamba_v2_sharded_weight_loader(
+    shard_spec: list[tuple[int, int, float]],
+    tp_size: int,
+    tp_rank: int,
+) -> LoaderFunction:
+    """Create a weight loader for mamba v2. This ensures that the projections
+    are correctly sharded so that they can be split into x, B, C. It also
+    ensures that all the groups corresponding to a head shard is placed
+    together with it.
+    """
+
+    def loader(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+        # - track boundary of (sharded) param, and loaded_weight, respectively
+        boundary, loaded_boundary = 0, 0
+
+        # - iterate over the shard specs
+        for full_dim, extra, duplicate_groups in shard_spec:
+            # - full dim is the model dim (before TP).
+            # - extra > 0, means there is expected overall increase
+            #   of dimensions. This is so because of replication.
+            # - ratio is used map the tp_rank to the actual shard
+            #   rank. This is useful when there is replication of
+            #   groups to accompany head shards.
+
+            # - size of the loaded shard
+            shard_size = full_dim // tp_size
+
+            # - compute the rank into the loaded shard.
+            # - if there is replication, different TP shards will
+            #   take from the same rank.
+            # NOTE: currently we only support duplication
+            # in the case where num_groups == 1
+            rank = 0 if duplicate_groups else tp_rank
+
+            # - leftmost boundary index into loaded weight.
+            loaded_skip = rank * shard_size
+            loaded_start_idx = loaded_boundary + loaded_skip
+
+            # - take these many dims from the loaded weight.
+            take = min(shard_size, full_dim - extra - loaded_skip)
+
+            # - always shard on dim 0
+            # - the ignore is for a mundane mypy error as it does not
+            #   seem to handle slices well.
+            # https://github.com/python/mypy/issues/2410
+            param.data[
+                boundary : (boundary + take), ...  # type: ignore[misc]
+            ] = loaded_weight[
+                loaded_start_idx : (
+                    loaded_start_idx + take
+                )  # type: ignore[misc]
+            ]  # type: ignore[misc]
+
+            # move indexing boundaries
+            boundary += shard_size
+            loaded_boundary += full_dim - extra
+
+    return loader
+
+
+# Adapted from transformers.models.mamba.modeling_mamba.MambaMixer
+@CustomOp.register("mamba_mixer2")
+class MambaMixer2(MambaBase, CustomOp):
+    """
+    Compute ∆, A, B, C, and D the state space parameters and compute
+    the `contextualized_states`. A, D are input independent
+    (see Mamba paper [1] Section 3.5.2 "Interpretation of A"
+    for why A isn't selective) ∆, B, C are input-dependent
+    (this is a key difference between Mamba and the linear time
+    invariant S4, and is why Mamba is called
+    **selective** state spaces)
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        ssm_state_size: int,
+        conv_kernel_size: int,
+        intermediate_size: int,
+        use_conv_bias: bool,
+        use_bias: bool,
+        n_groups: int = 1,
+        num_heads: int = 128,
+        head_dim: int = 64,
+        rms_norm_eps: float = 1e-5,
+        activation: str = "silu",
+        use_rms_norm: bool = True,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        # For TP, the sharding plan is as follows:
+        # - for the conv modules, since
+        #   conv_dim = intermediate_size * 2 * n_groups * ssm_state_size,
+        #   we shard intermediate_size and n_groups
+        # - since intermediate_size = n_heads * head_dim, sharding on
+        #   intermediate_size is achieved by sharding on n_heads.
+        # - IF, world_size divides groups, then sharding
+        #   (n_groups / world_size, n_heads / world_size)
+        #   also maintains the invariant n_heads % n_groups == 0
+        # - HOWEVER IF, world_size DOES NOT divide groups, then we need
+        #   to allocate extra space in the shard, such that groups
+        #   may be replicated to follow the head shard.
+        # - NOTE: currently for the world size DOES NOT divide groups
+        #   case, we only support the case when n_groups == 1
+        self.tp_size = get_tensor_model_parallel_world_size()
+        tp_rank = get_tensor_model_parallel_rank()
+
+        assert num_heads % self.tp_size == 0, (
+            "Tensor parallel world size must divide num heads."
+        )
+
+        assert (n_groups % self.tp_size) == 0 or n_groups == 1, (
+            "If tensor parallel world size does not divide num_groups, "
+            "then num_groups must equal 1."
+        )
+
+        assert (
+            (n_groups % self.tp_size == 0) or self.tp_size == 1 or quant_config is None
+        ), (
+            "Tensor parallel currently supported for quantized models only "
+            "if tensor parallel world size divides num groups."
+        )
+
+        self.ssm_state_size = ssm_state_size
+        self.conv_kernel_size = conv_kernel_size
+        self.activation = activation
+
+        self.intermediate_size = intermediate_size
+        self.head_dim = head_dim
+        self.num_heads = num_heads
+
+        self.n_groups = n_groups
+        if n_groups % self.tp_size != 0:
+            # - for TP we shard conv_dim by sharding on n_groups,
+            # - but if n_groups cannot divide tp_size, we need to
+            #   extend some extra groups
+            groups = MambaStateShapeCalculator.extra_groups_for_head_shards(
+                n_groups, self.tp_size
+            )
+            self.n_groups = n_groups + groups
+
+        self.groups_ssm_state_size = self.n_groups * self.ssm_state_size
+        self.conv_dim = intermediate_size + 2 * self.groups_ssm_state_size
+
+        if n_groups % self.tp_size == 0:
+            self.conv1d = MergedColumnParallelLinear(
+                input_size=conv_kernel_size,
+                output_sizes=[
+                    intermediate_size,
+                    self.groups_ssm_state_size,
+                    self.groups_ssm_state_size,
+                ],
+                bias=use_conv_bias,
+                quant_config=None,
+                prefix=f"{prefix}.conv1d",
+            )
+
+            self.in_proj = MergedColumnParallelLinear(
+                input_size=hidden_size,
+                output_sizes=[
+                    intermediate_size,
+                    intermediate_size,
+                    self.groups_ssm_state_size,
+                    self.groups_ssm_state_size,
+                    self.num_heads,
+                ],
+                bias=use_bias,
+                quant_config=quant_config,
+                prefix=f"{prefix}.in_proj",
+            )
+        else:
+            # This is the n_groups == 1 case,
+            # where we need to duplicate groups if TP>1.
+
+            self.conv1d = ColumnParallelLinear(
+                input_size=conv_kernel_size,
+                output_size=self.conv_dim,
+                bias=use_conv_bias,
+                quant_config=None,
+                prefix=f"{prefix}.conv1d",
+            )
+
+            self.in_proj = ColumnParallelLinear(
+                input_size=hidden_size,
+                output_size=intermediate_size + self.conv_dim + self.num_heads,
+                bias=use_bias,
+                quant_config=quant_config,
+                prefix=f"{prefix}.in_proj",
+            )
+
+            # - because in_proj is a concatenation of 3 weights, we
+            #   need to interleave them before sharding
+            # - use the custom weight loader mamba_v2_sharded_weight_loader
+            #   for conv1d.bias, covn1d.weight and in_proj.weight
+            # - need to set these settings, to assign the groups
+            #   to the head shards
+            group_shard_settings = (
+                self.groups_ssm_state_size,  # expected model size
+                (self.n_groups - n_groups) * self.ssm_state_size,  # extra dims assigned
+                n_groups == 1,  # if there was only one group
+            )
+            intermediate_settings = (intermediate_size, 0, False)
+            head_settings = (self.num_heads, 0, False)
+
+            # - the weight already has a "weight_loader" attribute
+            #   which set_weight_attrs will raise if we do not
+            #   delete before trying to override it
+            # - ditto for the other two weights below
+            delattr(self.conv1d.bias, "weight_loader")
+            set_weight_attrs(
+                self.conv1d.bias,
+                {
+                    "weight_loader": mamba_v2_sharded_weight_loader(
+                        [
+                            intermediate_settings,
+                            group_shard_settings,
+                            group_shard_settings,
+                        ],
+                        self.tp_size,
+                        tp_rank,
+                    )
+                },
+            )
+
+            delattr(self.conv1d.weight, "weight_loader")
+            set_weight_attrs(
+                self.conv1d.weight,
+                {
+                    "weight_loader": mamba_v2_sharded_weight_loader(
+                        [
+                            intermediate_settings,
+                            group_shard_settings,
+                            group_shard_settings,
+                        ],
+                        self.tp_size,
+                        tp_rank,
+                    )
+                },
+            )
+
+            if quant_config is None:
+                # - quant layers do not have a weight loader
+                delattr(self.in_proj.weight, "weight_loader")
+                set_weight_attrs(
+                    self.in_proj.weight,
+                    {
+                        "weight_loader": mamba_v2_sharded_weight_loader(
+                            [
+                                intermediate_settings,  # for gate
+                                intermediate_settings,
+                                group_shard_settings,
+                                group_shard_settings,
+                                head_settings,  # for dt
+                            ],
+                            self.tp_size,
+                            tp_rank,
+                        )
+                    },
+                )
+
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `MergedColumnParallelLinear`,
+        # and `set_weight_attrs` doesn't allow to override it
+        self.conv1d.weight.data = self.conv1d.weight.data.unsqueeze(1)
+
+        # - these are TPed by heads to reduce the size of the
+        #   temporal shape
+        self.A = nn.Parameter(
+            torch.empty(
+                divide(num_heads, self.tp_size),
+                dtype=torch.float32,
+            )
+        )
+        self.D = nn.Parameter(torch.ones(num_heads // self.tp_size))
+        self.dt_bias = nn.Parameter(torch.ones(num_heads // self.tp_size))
+        self.use_rms_norm = use_rms_norm
+
+        set_weight_attrs(self.D, {"weight_loader": sharded_weight_loader(0)})
+        a_weight_loader = composed_weight_loader(
+            sharded_weight_loader(0), lambda x: -torch.exp(x.float())
+        )
+        set_weight_attrs(self.A, {"weight_loader": a_weight_loader})
+        set_weight_attrs(self.dt_bias, {"weight_loader": sharded_weight_loader(0)})
+
+        self.out_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=use_bias,
+            input_is_parallel=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.norm = Mixer2RMSNormGated(
+            intermediate_size, n_groups, self.use_rms_norm, eps=rms_norm_eps
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+        # The tuple is (conv_state, ssm_state)
+        self.kv_cache = (torch.tensor([]), torch.tensor([]))
+
+        self.model_config = model_config
+        self.cache_config = cache_config
+        self.prefix = prefix
+
+    def forward_native(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        mup_vector: torch.Tensor | None = None,
+    ):
+        pass
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        mup_vector: torch.Tensor | None = None,
+    ):
+        torch.ops.vllm.mamba_mixer2(
+            hidden_states,
+            output,
+            self.prefix,
+            mup_vector,
+        )
+
+    def forward_cuda(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        mup_vector: torch.Tensor | None = None,
+    ):
+        forward_context = get_forward_context()
+        # attn_metadata contains metadata necessary for the mamba2 triton
+        # kernels to operate in continuous batching and in chunked prefill
+        # modes; they are computed at top-level model forward since they
+        # stay the same and reused for all mamba layers in the same iteration
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+
+        assert self.cache_config is not None
+        mamba_block_size = self.cache_config.mamba_block_size
+        prefix_caching_enabled = self.cache_config.enable_prefix_caching
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]
+            assert isinstance(attn_metadata, Mamba2AttentionMetadata)
+            self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+            # conv_state = (..., dim, width-1) yet contiguous along 'dim'
+            conv_state = self_kv_cache[0].transpose(-1, -2)
+            ssm_state = self_kv_cache[1]
+            state_indices_tensor = attn_metadata.state_indices_tensor
+            has_initial_states_p = attn_metadata.has_initial_states_p
+            prep_initial_states = attn_metadata.prep_initial_states
+            chunk_size = attn_metadata.chunk_size
+            seq_idx_p = attn_metadata.seq_idx_p
+            query_start_loc_p = attn_metadata.query_start_loc_p
+            cu_chunk_seqlen_p = attn_metadata.cu_chunk_seqlen_p
+            last_chunk_indices_p = attn_metadata.last_chunk_indices_p
+
+        # 1. Gated MLP's linear projection
+        projected_states, _ = self.in_proj(hidden_states)
+
+        if mup_vector is not None:
+            projected_states = projected_states * mup_vector
+
+        gate, hidden_states_B_C, dt = torch.split(
+            projected_states,
+            [
+                self.intermediate_size // self.tp_size,
+                self.conv_dim // self.tp_size,
+                self.num_heads // self.tp_size,
+            ],
+            dim=-1,
+        )
+
+        conv_weights = self.conv1d.weight.view(
+            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
+        )
+
+        # - get hidden_states, B and C after depthwise convolution.
+        split_hidden_states_B_C_fn = lambda hidden_states_B_C: torch.split(
+            hidden_states_B_C,
+            [
+                self.intermediate_size // self.tp_size,
+                self.groups_ssm_state_size // self.tp_size,
+                self.groups_ssm_state_size // self.tp_size,
+            ],
+            dim=-1,
+        )
+
+        if attn_metadata is None:
+            # profile run
+            hidden_states_B_C = (
+                hidden_states_B_C.transpose(0, 1).clone().transpose(0, 1)
+            ).contiguous()
+            hidden_states, _B, _C = split_hidden_states_B_C_fn(hidden_states_B_C)
+            hidden_states = self.norm(hidden_states, gate)
+            out, _ = self.out_proj(hidden_states)
+            return out
+
+        # NOTE: V0 put prefill before decode, v1 puts decode before prefill
+        num_prefills = attn_metadata.num_prefills  # request count
+        num_decodes = attn_metadata.num_decode_tokens  # token count (=request)
+        num_prefill_tokens = attn_metadata.num_prefill_tokens  # token count
+        has_prefill = num_prefills > 0
+        has_decode = num_decodes > 0
+        num_actual_tokens = num_prefill_tokens + num_decodes
+
+        # Separate prefill and decode by splitting varlen input
+        # Split along token dimension
+        hidden_states_B_C_d, hidden_states_B_C_p = torch.split(
+            hidden_states_B_C[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        dt_d, dt_p = torch.split(
+            dt[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        # Split along batch dimension
+        state_indices_tensor_d, state_indices_tensor_p = torch.split(
+            state_indices_tensor[:num_actual_tokens],
+            [num_decodes, num_prefills],
+            dim=0,
+        )
+
+        if prefix_caching_enabled:
+            # If prefix caching is enabled, retrieve the relevant variables
+            # for prefill and decode
+            block_idx_last_computed_token_d, block_idx_last_computed_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_computed_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+            block_idx_last_scheduled_token_d, block_idx_last_scheduled_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_scheduled_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+            # Prefill-only variables:
+            block_idx_first_scheduled_token_p = (
+                attn_metadata.block_idx_first_scheduled_token_p
+            )
+            num_computed_tokens_p = attn_metadata.num_computed_tokens_p
+        else:
+            block_idx_last_computed_token_d = None
+            block_idx_last_computed_token_p = None
+            block_idx_last_scheduled_token_d = None
+            block_idx_last_scheduled_token_p = None
+            block_idx_first_scheduled_token_p = None
+            num_computed_tokens_p = None
+
+        # Preallocate output tensor to avoid memcpy cost for merging prefill
+        # and decode outputs
+        preallocated_ssm_out = torch.empty(
+            [
+                num_prefill_tokens + num_decodes,
+                (self.num_heads // self.tp_size) * self.head_dim,
+            ],
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+        preallocated_ssm_out_d, preallocated_ssm_out_p = torch.split(
+            preallocated_ssm_out,
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+
+        # Process prefill requests
+        if has_prefill:
+            # 2. Convolution sequence transformation
+            # - It will read the initial states for every sequence,
+            #   that has "has_initial_states_p" == True,
+            #   from "cache_indices", using "state_indices_tensor_p".
+            # - It updates the "conv_state" cache in positions pointed
+            #   to by "state_indices_tensor_p".
+            #   In particular, it will always write the state at the
+            #   sequence end.
+            #   In addition, "block_idx_first_scheduled_token_p" and
+            #   "block_idx_last_scheduled_token_p"
+            #   are provided (which are pointers into
+            #   "state_indices_tensor_p"), it will write additional cache
+            #   states aligned at "block_size_to_align".
+            x = hidden_states_B_C_p.transpose(
+                0, 1
+            )  # this is the form that causal-conv see
+            hidden_states_B_C_p = causal_conv1d_fn(
+                x,
+                conv_weights,
+                self.conv1d.bias,
+                activation=self.activation,
+                conv_states=conv_state,
+                has_initial_state=has_initial_states_p,
+                cache_indices=state_indices_tensor_p,
+                block_idx_first_scheduled_token=block_idx_first_scheduled_token_p,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_p,
+                initial_state_idx=block_idx_last_computed_token_p,
+                num_computed_tokens=num_computed_tokens_p,
+                block_size_to_align=mamba_block_size,
+                metadata=attn_metadata,
+                query_start_loc=query_start_loc_p,
+            ).transpose(0, 1)[:num_prefill_tokens]
+
+            hidden_states_p, B_p, C_p = split_hidden_states_B_C_fn(hidden_states_B_C_p)
+
+            # 3. State Space Model sequence transformation
+            initial_states = None
+            if has_initial_states_p is not None and prep_initial_states:
+                kernel_ssm_indices = state_indices_tensor_p
+                if prefix_caching_enabled:
+                    kernel_ssm_indices = state_indices_tensor_p.gather(
+                        1, block_idx_last_computed_token_p.unsqueeze(1)
+                    ).squeeze(1)
+                initial_states = torch.where(
+                    has_initial_states_p[:, None, None, None],
+                    ssm_state[kernel_ssm_indices],
+                    0,
+                )
+
+            # NOTE: final output is an in-place update of out tensor
+            varlen_states = mamba_chunk_scan_combined_varlen(
+                hidden_states_p.view(
+                    num_prefill_tokens, self.num_heads // self.tp_size, self.head_dim
+                ),
+                dt_p,
+                self.A,
+                B_p.view(num_prefill_tokens, self.n_groups // self.tp_size, -1),
+                C_p.view(num_prefill_tokens, self.n_groups // self.tp_size, -1),
+                chunk_size=chunk_size,
+                D=self.D,
+                z=None,
+                dt_bias=self.dt_bias,
+                seq_idx=seq_idx_p,
+                cu_seqlens=query_start_loc_p,
+                cu_chunk_seqlens=cu_chunk_seqlen_p,
+                last_chunk_indices=last_chunk_indices_p,
+                initial_states=initial_states,
+                return_intermediate_states=prefix_caching_enabled,
+                dt_softplus=True,
+                dt_limit=(0.0, float("inf")),
+                out=preallocated_ssm_out_p.view(num_prefill_tokens, -1, self.head_dim),
+                state_dtype=ssm_state.dtype,
+            )
+
+            if prefix_caching_enabled:
+                # The chunk_stride is the number of chunks per mamba block
+                # e.g., if mamba_block_size = 512 and chunk_size = 256,
+                # then chunk_stride = 2
+                chunk_stride = mamba_block_size // chunk_size
+
+                # Save state for sequences with more than just final state
+                for seq_idx in range(num_prefills):
+                    # Block index for the first scheduled token
+                    block_idx_first_scheduled_token = block_idx_first_scheduled_token_p[
+                        seq_idx
+                    ]
+
+                    # Block index for the last scheduled token
+                    block_idx_last_scheduled_token = block_idx_last_scheduled_token_p[
+                        seq_idx
+                    ]
+
+                    # Number of blocks that need to be written
+                    n_blocks_to_fill = (
+                        block_idx_last_scheduled_token - block_idx_first_scheduled_token
+                    )
+
+                    # Skip sequences that don't have any blocks to fill
+                    if n_blocks_to_fill == 0:
+                        continue
+
+                    # Look up the state indices
+                    cache_blocks_to_fill = state_indices_tensor_p[
+                        seq_idx,
+                        block_idx_first_scheduled_token:block_idx_last_scheduled_token,
+                    ]
+
+                    # First chunk index for this sequence
+                    if seq_idx == 0:
+                        first_chunk = 0
+                    else:
+                        first_chunk = 1 + last_chunk_indices_p[seq_idx - 1]
+
+                    # First chunk that is aligned on the mamba block boundary
+                    first_aligned_chunk = first_chunk + chunk_stride - 1
+
+                    # Calculate the number of computed tokens that were not
+                    # already cached
+                    num_unaligned_computed_tokens = (
+                        num_computed_tokens_p[seq_idx] % mamba_block_size
+                    )
+
+                    if num_unaligned_computed_tokens > 0:
+                        # If the number of computed tokens is not block aligned,
+                        # then we need to shift the index accordingly
+                        first_aligned_chunk -= (
+                            num_unaligned_computed_tokens // chunk_size
+                        )
+
+                    # Get states to write
+                    from_where = varlen_states[
+                        first_aligned_chunk : first_aligned_chunk
+                        + n_blocks_to_fill * chunk_stride : chunk_stride
+                    ]
+
+                    # Write the states
+                    ssm_state[cache_blocks_to_fill] = from_where
+
+                # For all seqs, store the last state (note: might be partial):
+                ssm_state[
+                    state_indices_tensor_p.gather(
+                        1, block_idx_last_scheduled_token_p.unsqueeze(1)
+                    ).squeeze(1)
+                ] = varlen_states[last_chunk_indices_p]
+
+            else:
+                # update ssm states
+                # - varlen state is a (num_prefills, nheads, headdim, dstate)
+                #   tensor
+                ssm_state[state_indices_tensor_p] = varlen_states
+
+        # Process decode requests
+        if has_decode:
+            if prefix_caching_enabled:
+                state_indices_tensor_d_input = state_indices_tensor_d.gather(
+                    1, block_idx_last_computed_token_d.unsqueeze(1)
+                ).squeeze(1)
+                state_indices_tensor_d_output = state_indices_tensor_d.gather(
+                    1, block_idx_last_scheduled_token_d.unsqueeze(1)
+                ).squeeze(1)
+                # for decode:
+                #   block_idx_first_scheduled_token_d ==
+                #       block_idx_last_scheduled_token_d
+                # at block boundaries:
+                #   block_idx_first_scheduled_token_d >
+                #       block_idx_last_computed_token_d
+            else:
+                # Without caching, read and write in-place to the same blocks:
+                state_indices_tensor_d_input = state_indices_tensor_d
+                state_indices_tensor_d_output = state_indices_tensor_d
+
+            # 2. Convolution sequence transformation
+            hidden_states_B_C_d = causal_conv1d_update(
+                hidden_states_B_C_d,
+                conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=state_indices_tensor_d,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_d,
+                initial_state_idx=block_idx_last_computed_token_d,
+            )
+
+            hidden_states_d, B_d, C_d = split_hidden_states_B_C_fn(hidden_states_B_C_d)
+
+            # 3. State Space Model sequence transformation
+            n_groups = self.n_groups // self.tp_size
+            A_d = (
+                self.A[:, None, ...][:, :, None]
+                .expand(-1, self.head_dim, self.ssm_state_size)
+                .to(dtype=torch.float32)
+            )
+            dt_d = dt_d[:, :, None].expand(-1, -1, self.head_dim)
+            dt_bias = self.dt_bias[:, None, ...].expand(-1, self.head_dim)
+            D_d = self.D[:, None, ...].expand(-1, self.head_dim)
+            B_d = B_d.view(-1, n_groups, B_d.shape[1] // n_groups)
+            C_d = C_d.view(-1, n_groups, C_d.shape[1] // n_groups)
+            hidden_states_d = hidden_states_d.view(
+                -1, self.num_heads // self.tp_size, self.head_dim
+            )
+
+            # - the hidden is reshaped into (bs, num_heads, head_dim)
+            # - mamba_cache_params.ssm_state's slots will be selected
+            #   using state_indices_tensor_d
+            # NOTE: final output is an in-place update of out tensor
+            selective_state_update(
+                ssm_state,
+                hidden_states_d,
+                dt_d,
+                A_d,
+                B_d,
+                C_d,
+                D_d,
+                z=None,
+                dt_bias=dt_bias,
+                dt_softplus=True,
+                state_batch_indices=state_indices_tensor_d_input,
+                dst_state_batch_indices=state_indices_tensor_d_output,
+                out=preallocated_ssm_out_d.view(num_decodes, -1, self.head_dim),
+            )
+
+        # 4. gated MLP
+        # GatedRMSNorm internally applying SiLU to the gate
+        # SiLU is applied internally before normalization, unlike standard
+        # norm usage
+        hidden_states = self.norm(preallocated_ssm_out, gate[:num_actual_tokens])
+
+        # 5. Final linear projection
+        output[:num_actual_tokens], _ = self.out_proj(hidden_states)
+
+    def get_state_dtype(self) -> tuple[torch.dtype, torch.dtype]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+            self.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=self.intermediate_size,
+            tp_world_size=get_tensor_model_parallel_world_size(),
+            n_groups=self.n_groups,
+            num_heads=self.num_heads,
+            head_dim=self.head_dim,
+            state_size=self.ssm_state_size,
+            conv_kernel=self.conv_kernel_size,
+        )
+
+    @property
+    def mamba_type(self) -> str:
+        return "mamba2"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionBackend
+
+        return Mamba2AttentionBackend
+
+
+def mamba_mixer2(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    mup_vector: torch.Tensor | None = None,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self.forward_cuda(hidden_states=hidden_states, output=output, mup_vector=mup_vector)
+
+
+def mamba_mixer2_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+    mup_vector: torch.Tensor | None = None,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="mamba_mixer2",
+    op_func=mamba_mixer2,
+    mutates_args=["output"],
+    fake_impl=mamba_mixer2_fake,
+)
diff --git a/model_executor/layers/mamba/mamba_utils.py b/model_executor/layers/mamba/mamba_utils.py
new file mode 100644
index 0000000..831dab2
--- /dev/null
+++ b/model_executor/layers/mamba/mamba_utils.py
@@ -0,0 +1,225 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.config.cache import MambaDType
+from vllm.config.model import ModelDType
+from vllm.distributed import divide
+from vllm.utils.torch_utils import (
+    STR_DTYPE_TO_TORCH_DTYPE,
+    get_kv_cache_torch_dtype,
+)
+
+
+class MambaStateDtypeCalculator:
+    @classmethod
+    def linear_attention_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, ...]:
+        # TODO (tdoublep) requires testing
+        if mamba_cache_dtype == "float32":
+            raise ValueError("fp32 state for minimax is not yet supported")
+        state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        return (state_dtype,)
+
+    @classmethod
+    def mamba1_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+        mamba_ssm_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, ...]:
+        return cls._mamba_state_dtype(
+            model_dtype, mamba_cache_dtype, mamba_ssm_cache_dtype
+        )
+
+    @classmethod
+    def mamba2_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+        mamba_ssm_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, ...]:
+        return cls._mamba_state_dtype(
+            model_dtype, mamba_cache_dtype, mamba_ssm_cache_dtype
+        )
+
+    @classmethod
+    def _mamba_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+        mamba_ssm_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, ...]:
+        conv_state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        if mamba_ssm_cache_dtype == "auto":
+            temporal_state_dtype = conv_state_dtype
+        else:
+            temporal_state_dtype = STR_DTYPE_TO_TORCH_DTYPE[mamba_ssm_cache_dtype]
+
+        return (conv_state_dtype, temporal_state_dtype)
+
+    @classmethod
+    def short_conv_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, ...]:
+        conv_state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        return (conv_state_dtype,)
+
+    @classmethod
+    def gated_delta_net_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+    ) -> tuple[torch.dtype, torch.dtype]:
+        state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        return (state_dtype, state_dtype)
+
+    @classmethod
+    def kda_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+    ):
+        state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        return (state_dtype, state_dtype, state_dtype, torch.float32)
+
+
+class MambaStateShapeCalculator:
+    @classmethod
+    def linear_attention_state_shape(
+        cls,
+        num_heads: int,
+        tp_size: int,
+        head_dim: int,
+    ) -> tuple[tuple[int, int, int], ...]:
+        state_shape = (num_heads // tp_size, head_dim, head_dim)
+        return (state_shape,)
+
+    @classmethod
+    def mamba1_state_shape(
+        cls,
+        tp_world_size: int,
+        intermediate_size: int,
+        state_size: int,
+        conv_kernel: int,
+    ) -> tuple[tuple[int, int], tuple[int, int]]:
+        conv_state_shape = (divide(intermediate_size, tp_world_size), conv_kernel - 1)
+
+        temporal_state_shape = (divide(intermediate_size, tp_world_size), state_size)
+
+        conv_state_shape = conv_state_shape[1], conv_state_shape[0]
+
+        return conv_state_shape, temporal_state_shape
+
+    @classmethod
+    def mamba2_state_shape(
+        cls,
+        tp_world_size: int,
+        intermediate_size: int,
+        n_groups: int,
+        num_heads: int,
+        head_dim: int,
+        state_size: int,
+        conv_kernel: int,
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        # if n_groups is not divisible by world_size, need to extend the shards
+        # to ensure all groups needed by a head is sharded along with it
+        n_groups = n_groups + cls.extra_groups_for_head_shards(n_groups, tp_world_size)
+        # heads and n_groups are TP-ed
+        conv_dim = intermediate_size + 2 * n_groups * state_size
+
+        # contiguous along 'dim' axis
+        conv_state_shape = (conv_kernel - 1, divide(conv_dim, tp_world_size))
+
+        # These are not TP-ed as they depend on A, dt_bias, D
+        # - they are typically small
+        #   e.g., (h_heads, head_dim, state_size) = (128, 64, 128)
+        temporal_state_shape = (divide(num_heads, tp_world_size), head_dim, state_size)
+        return conv_state_shape, temporal_state_shape
+
+    @classmethod
+    def short_conv_state_shape(
+        cls,
+        tp_world_size: int,
+        intermediate_size: int,
+        conv_kernel: int,
+    ) -> tuple[tuple[int, int]]:
+        conv_dim = divide(intermediate_size, tp_world_size)
+        conv_state_shape = (conv_kernel - 1, conv_dim)
+        return (conv_state_shape,)
+
+    @classmethod
+    def extra_groups_for_head_shards(cls, ngroups: int, tp_size: int):
+        """Compute the increase in group numbers to account for
+        replication in order to accompany the head shards."""
+
+        # in the case ngoups % tp_size == 0, this will be zero
+        if ngroups % tp_size == 0:
+            return 0
+
+        # for n_groups == 1, this is exactly tp_size - n_groups
+        return tp_size - ngroups
+
+    @classmethod
+    def gated_delta_net_state_shape(
+        cls,
+        tp_world_size: int,
+        num_k_heads: int,
+        num_v_heads: int,
+        head_k_dim: int,
+        head_v_dim: int,
+        conv_kernel_size: int,
+        num_spec: int = 0,
+    ):
+        conv_dim = head_k_dim * num_k_heads * 2 + head_v_dim * num_v_heads
+        conv_state_shape = (
+            divide(conv_dim, tp_world_size),
+            conv_kernel_size - 1 + num_spec,
+        )
+
+        conv_state_shape = conv_state_shape[1], conv_state_shape[0]
+
+        temporal_state_shape = (
+            divide(num_v_heads, tp_world_size),
+            head_k_dim,
+            head_v_dim,
+        )
+        return conv_state_shape, temporal_state_shape
+
+    @classmethod
+    def kda_state_shape(
+        cls,
+        tp_world_size: int,
+        num_heads: int,
+        head_dim: int,
+        num_k_heads: int | None = None,
+        head_k_dim: int | None = None,
+        conv_kernel_size: int = 4,
+        num_spec: int = 0,
+    ) -> tuple[tuple[int, int], tuple[int, int], tuple[int, int], tuple[int, int, int]]:
+        if num_k_heads is None:
+            num_k_heads = num_heads
+        if head_k_dim is None:
+            head_k_dim = head_dim
+
+        proj_size = num_heads * head_dim
+        proj_k_size = num_k_heads * head_k_dim
+
+        conv_state_shape = (divide(proj_size, tp_world_size), conv_kernel_size - 1)
+        conv_state_k_shape = (divide(proj_k_size, tp_world_size), conv_kernel_size - 1)
+        recurrent_state_shape = (divide(num_heads, tp_world_size), head_dim, head_dim)
+
+        conv_state_shape = conv_state_shape[1], conv_state_shape[0]
+        conv_state_k_shape = conv_state_k_shape[1], conv_state_k_shape[0]
+        return (
+            conv_state_shape,
+            conv_state_k_shape,
+            conv_state_k_shape,
+            recurrent_state_shape,
+        )
diff --git a/model_executor/layers/mamba/ops/__init__.py b/model_executor/layers/mamba/ops/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/mamba/ops/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cbd0b3b6c23cacc821e3ac72860973834a2bddc7
GIT binary patch
literal 181
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVh3J>$7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>E|R?rWO_J
z=O*SRCF<uF6zj*wXXa&=#K-FuRNmsS0je&|Nwq6t1zN%g#Kj=SM`lJw#v*1Q3jh?-
BF4+J8

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/causal_conv1d.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/causal_conv1d.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7ff3f7f4f1559472a1f017a0418b97f760035565
GIT binary patch
literal 38667
zcmeHw32+<Pl^8$*#7W{LK!O**8$3mdmncyZMN%Rq4XJ~Y=8(*R2vCAVf}92@QgXwj
z*4`a(##xb`-4YagGm!1A!FVRM9NU$VH%=_OoZZ<Y*=|BHVXRW26Q{PODhFq0cC*<^
zW%J%|bmI^pYNQ#jQ<awZyZaySzyJRG@BjY)y@x-`&sU1znwGro{>qO<qW_F9{M8+Q
z`1oJTM55awr^qRu7QHAY_na4V;GQ#`J0p2fBF41bY3WSfi+MA$7iD5mj>sjuqU8Z4
z?(f7Oof22x6@4O}e{xD8-pIct?#{d{`DIz+<yqntS>lyh;#FDV)mh^6v&0u<iPvO_
z*Jg>=Wr^2ki8o}4H)e@1%o1<P5^v5DUz8=jI7_@GbNp0`v*arho@-uIImPg=)FmNz
zd<LF$mQAUg<*uA7MG1c4pPUt0;;mWY#W#T0owh8gm09Aevcz-HsvnzL<H~n(`Sh*=
zXYFJ2);%`0{;{d{$E8kLoDE-*zNp!8+%^J^j~lz0#&lEWzRfzOo3rHqyvKS=mU>&W
z#P7-y-<Bo5Jxlzjl>wjkSl^um&ulWFBTN2lG9a7G$R-22oSjKBKr4)Wv9l{K3CgCF
zStUSs7QTNv$x!3cx$=pO;KpoE7U*2+p2wzUlO|l*UKnX85uRbpPZc@$!l>3?7u)xJ
zh$3;+E{>^A^bby)K0Y=+F*0b+iRJjFV|hNx?VI()a-Hs(Sf1DQ%CyT9(|G1*CMF$|
zmt7OnZjZ|wQ+pws(>1X;f!PX#H{a}4$j+xOq@*rPEV!M%%Q0O%x7+J;_*@fEMS2v%
zG^FO@02||x94c;)(><Al%xp?^vlCny9=VItvy)dRW@4&2hjYR^J?oorJ7e<U{?ikO
zM*2_3)W?QSjSd~3I5#plJ{;4W9yxwyqJLm~<ZS==$k=GCVC3{f|A~Q#q0#<B$A<=E
z>NBT@CV1+_)T1ZbCr*#|j}ILm8jZ;g9UmJwHt`()FgjVo&p~j{gTGw(`}mJwj=C+P
zbNw~6#9vDn`s-+uzn(Vx?Q}WJ0<aeIH~7SS$tyYhQ{qm`lF}uKc>c+m^G>|{4T$2O
zufVL9e))umD{|pcc;HL=8<XnGgpWKa{fY7MH|<bL%-2s>-;jz#Nx8{-RX~$GICJRg
zcjCBVtNqP%BVBs6UL>N#*OSX;!at90Os15-C8@5*<cHpZns_Yzt#m8hLi$fbm(W#+
zvws(DrC!|unj)?CwjJ^-)AG0PkYAmae>c6G-gN``(ceMuqB{u2owSDT#HV;l7qq2|
zq;%6=&KyEVDcudJ$e-PGJKaW}dUmK=l~(s2kJ6dr?}5K|_}c@2ZSdDkSJ6#`UcJ72
zzF#3uL-%4We82kl(jvNr)?-ejJl#y|_-FsV9Wbc{ekkH|(|eM8?iof#A8n)Z=)MG}
z(KYZ^C)CqS*YnT*{j?Y`HVE$r=q8S`t5V9h1NPEXI_`jR0Z+rkUEtD#^ubjzHAwHL
z8#rl0+XamJ0l$K)!14Y=Ad7NIuNN=%`v-QwZeZz<Q}PZ<H@N(RP*zIH_I&EHLv+7W
z9LESbZO5AF^qTWX&F4OK&4-_<X2d)9nedh&-q169KQ-n@o(Xeo_tRsJ?Up`$yFEW8
ze0CnBbn<MFVb_4Jo)XidO#20y_6pvW3o?V_#?P~cA!tM1)z7nr!%&0lbFJYB-9T%u
zS_lWWf!u9CxtlcV;Vu1w8Ml(BGD=hbFp<u~L^2Z@4PWM>--JD)shna+C-HHKjVYLx
zNb!%*!ypZTim9dOVZaL{QfllCSl{rnDh(E-_>U%Go@xFbp^qlXt7A#IcW9^ocv9X>
zkW*)wc5E{*d3TW6k6V8|2eZm^nP-*M*3-wiv6x0J?440aYj~8BkD=mNQd>;`BJJXL
zWW>pQl41Xa9;J`bWBlwO7OhG=UtPjE=ui^;9qFEVUQKO1;jrVhhTO@lmVpi@V1Cvj
z9e^HO&J0x9fxnU|lZgvX&|^-?y9&O|{*ySm$a?7%y)PAKz~U69aI2aO_>S;7GL8<u
z^sjP^JSi_&(ijF_=`s2weN3RsX;_7PUL2d56HljbVy@@Nr{cl?*L(3Fo8CE|TTZ3_
zAia<7jjuh0wY)#m+Oy<I*FsL!yXtr1U!F<p&wWo-o?C-*n8C<=vNh-<7;x**3r~ds
zw-$XC47l~^vp~Rg6Iqi|UwW!GaI4a1!GK$tJ_`hHb^0t22H_ix?8(qQIA_4D)dF9^
zJ@B=PGJ6;Ka>A#lT`vu1llw3)lW*J9*#c*_tShDXw_93?U#Im@8=0Bo6vgNNzcxx;
z8_{LdK{|(SCjC6lug&~tl4hw)>y2^x46HZu`FVARm1gOq^D^HL{<EIiq`I<vhb8SA
zW`LFS?R6F<ePX}He@<u-x4(ejOb6)$@Figs_8^{5sy|a(pU1t1q_x!xP+t6L%Hxhf
zQu!A_&PmC)l@%c6ei}$=n7kx>2O=ctGe9~o(CLD&g6}PQFW*apAcrpO2TAaSrL+Et
zr5F4!FAe$~Np!RFWfFI~JW=`rEZzMV0b6c|r*7$@Q%rVEZZEwEu+A-gA*s(Mli+6R
zkIAJA?-slhPw_iE^Mszb@7gB7l@ho^kU9l%T&<3!m!7$<1BBvOS8s;8b_sP!NnMAb
z{#uCR_NHu0=byFyrHLiS(#wQ%Vb{_>@zsAW5eZbyU2^ybJ%s`_q)S8oL5Lgjs06I@
zNZeun5X2v*E2z??38y%T-j#{|<DcjWl^``yO59Lk&Cp|e$u~`W4#4jhzmv{~-O^qn
zbH6}B3qQ($zl!;1zbmQ6Osi(s(gf{<K92A2!55tPtNjwub&*{&`XN*#qOkWr#Ne;s
zk6a&O<_~d2_91N6iryB-q)y-UITt?6`YyYu@f*1<lMXnGD&P)vW@er4DYuJyJ0~WY
zad@v%b)*>805`jyLP#;m^sK`fQ_fMdmng>!p5x^BW@A#f$Jf;n%X3f;&m~tZcgF3B
zNg%E*CcWXJX1!DmmQ}i@T{A9^Z^CyymhW_3oWC@2(LqsAV@&Gx%~GzIbOF$E#bi@Z
zi*I*(Ov=H7LoJ8TJvkAF?pmC)PsOB*6LUT&xj=66i*ARPJn7vYx6kdEo*-vjT%0cD
z)QV&?U55M_vKn5QcTv}|Fy)(ob1RZrana$Myv&s&M_Ut<m*+iKCuXOnye=P!uiy^3
z+|I>`DL3WyO?ctR&N)Bra>ftC$`cu;9U0PfDaZh27h?u;_BT5-H}B)Yc%kpGJ_^sW
zC_GN0aMyxTU;wKi5e3XBqSP4RHa>;>(3A!PoJlAh2B;lC88AQ{AF2=o{Gz1H7$E;q
zxLZV7Fet$Q=a`sga@KP#nXINn1dx)P2ohQp@@IuYesa{9AsUYxGeiT8V+!t!63;+o
zNL4(nR40=?rXa+2Iegxj5mM(}o=G^<BpnCXxE5o2A=c$_B8Cu`cWA=vzTt`)Cg&*%
znUU+QcmY0=^bi+UBmkL&o|txFS8yp68B*dL!JnDBUYSUg;?m&A7Ge>h_<ISdY-)ab
zdV*sSj>EV*G#()mFrA)`6{gVK4M(Y@S!%9O9Hh$Yx<p1AQZH{2hMCtDGbc(S=L1s#
zZnKm#rcF*DS@RaSA{rd+kQb^Uy%AH-QSMoa<7jUz52eJ!LMi}YPH#*yIXk_Jgl!~j
zC*kgx2D^-)>Yc!5BXXnw2Wl}U#~Ojciz!(V!B|l;nzQr1L<3S<hTtZE2`;&OL~^CJ
zo1}VY=c!3oOql=}%RSqFJXYXwEdWh;CXY!_sKgYcmE=+7m;`}9xrh){aCDt$bH;#P
zTr03RG#uXH-WI>N$M3u2pcb(RVP1|+asg^gKI4FM{Y9WA|FjqrUx`5_1Z5~8BY0qK
zL;`rdQ!ps4zmn_kUugBs%(c$B=bAanHZRV1@9DYP?P{HNUu>Pb?z=qeX}vZ*J<|%4
zh--Snwdk6h2a(=7?YQouysa~inTw9r**S0Pq+{L-!WpUD=4_d}9xDdzhNP&8sRif6
zRTt%PO;fK!15tE&8zEd4ZGS;5GTWEOqGc_N#1buSW+cUY*b2{Ea^vbNth{JDS0pX?
zL@UzhZe3crwCetL<y*~no7csW%68V&9x2$pS<uB6bbX(CfAPJ=NWsD7BM%LQx4YN6
znUc2eAA0|}_ny0Ni*yXKC4&*e(DLz5@<ckr?fkX;pd+HShPqj8!@H;c;DxteSbybS
zU8MOCt39+lvL!26ZQPKRMdby*EGc`l`%X7g)pgIzRvnC#^fQv8hs7mtn(vqyTgUnW
zYukTc$J!1>iU$~pX)C{isqA9&yOs}cmDs~a*pl7Lhkqd}{6s0Lu)TTd&LyUH=mQyB
zI~FNF!N^M<mQ}oY?#?-;X5juMw&uA=*(f8oJglmDtNU&@)42b>nQa`7RE;ol>$Y6f
zI3T`%mTfr3$m^mNHB9{xw&DmQFO6EPOjS2)>Au&+7WW4VqP0Eu_OrE6sA@}996Y(9
zDvve{eUQgCj56vvfK$@Uv>swDhXNWPhOO!?*<Be^zvtc&wtgUD9c1NYTb7c5CR$bw
zxJ0csMqU;zuK;ADwRH&7U<saQ4ff^Z5A}tsmx9;AYPO;yqVHTj2Cx+cjJ7)TC05(X
z$~*5V?jL7+PO$P5*oi8E22pu=$jmezU~LCj`2pt8IaYq|<J_EzyuZqm-@N!${jH*v
zqAyQxOGVPskK`h`F{-KzUENT%ZK?HJax=U!HNC8=_oG~~V&9g^$e5d0Rnte(97PM(
zQ@E`b6&P0Cp(fVU!sfRwAKq31kkwZrvZ7yFO5d!zQ^!>H-0Nm54@E2ko0h|@<?v6b
zKVJCpLc}r_(8N@ht&+y@^?Pk^`<a7h*p@SF$(g|MXkmHCur?7m9MzNrU)j)DqgAbp
z*80#~e0yPSfvIR+H{CNt%zdkpoikLmuG^TdV{H2|w(8jD3FJvDiaf44PXgpK$+ITe
z&J$@%33Y!7bX{Cq44Fg9^_uq^-)r1#A7<N!ADBlH1V-9_-g$s^@=ZZgL|p+-*4nUw
zt!VrHsrO%a?}eyVx4I9wwyWSHQBFlcU<|llXNnr@!v|Pn?>!G|IR2*&=H!_VF0uNv
zz^b});w?jIkY){y;qmXbh0n42PT*Nx7w~Mp0eDt#3-z<Qns2@mt`04*+SaI{GISPl
zf9K@7gv$*;x)6qU?LcVoJGRgfR*!72YbGFIcokWY8H3kC*TUY2d3Rv=VY&59_Z@dw
z9Nrfx?+J{-fUj?OYvJxfR9hR>7c-^1Sp6<Uu5C+Sji72i&Xv>`{7*TE+m(yIqrY9W
zR`mMxwnCI&vt1z4S)+zVre%ON3}BfdY!Fk?!5TWahUAGfhOhMpE`6ks)R}=^IxABN
z0=7F=pjkCSv^2+J{z#EmXJ*t@+ged!b;!*cTfeJYA6z%HhCTOQ_`vXki4U9`<4Cl9
z(Dt)|!H4RCO?4@&E`6Xbhv!?vE5l4-Q~2^d$<Ne%e+~Rn@yp8Ux9oTA;r=iksob}!
z0VXP}j+$GTw!^IXFd$kuEZ#DMjO<~}J@=}ABEDD0nhpUng#%*9TU;NmWs7z(9V4uH
z<WJi^aDLFunofTt%Pkxi16_6X&~Q_8c!@3CA1$gQdDkIp-ygnmzxv(+YdRv-5Zb-A
z6qbC)5tgy0T?oGo%cJOrULaC_-#zCCRS(KWSCw0)icl?Us$b1TbW4IA-_!-W*T%4h
zDz>P3y__{4_=)cRAj|-!5v<`TLB<SxVyX#w*}{gfgDvD~XWSDt*M<$OxhZ^&HFtjZ
zm3!4NF_{iv!GqZN%&3_GwbF8&-a=jBuJzrKlI~UcFSYtjt(DbUA80Ed!t79Vw<u~X
z3O0l;1G87^R||m83u~Z0#=f65@BfMTe#d=i@G#aj5~r9PscL77c7ONeJ<0kxpw|83
z4^IEM0s#F}+bU2jr(djxVN;}Em2eZXd`-?2?^<uUU;Q)fkx%3zm;#gg^w)-5z-#8a
z=CFxKds`n+1G?|?r3TK}6)+#0%R;5=V%FBS{sq=Lz?ugF>Zr~VJiS&C$cw7X!L|)m
zX|$q|QI`q}pvLgo_0t~|J}`_02A?ELMPt~p-omyVWGfDS?r=U$Wm}JF*Av0{%rb53
zMft_SHV{Z5O+?iS-LGpxNexS)w)L~DelLsz-M%e-35vv0j=2?Uil8lcKB8>^$ym_{
zQ-vC*3Mlmj*1(SueIJ(G|M)oqM!AkPHGHQ(?1QysVF#?R27aK4YK>oWtjb_m_26V=
zDhM2gil1pRs6q5=p>;-U$i^C~Kpx`UAceU>nL0P9aBk54n#~Ol)P28@X`&i)(9UYA
z0+Oh)ER?%87EnAi72UqHb}8r#7vHOTVA{WF>Ss;;II$dEISK;KtXxrn_<@zh<+aNp
zS@6d9_3vBWvpg{E3#hiVreJBffGzG~wOz|2K%4?|(6BPGd^jpItiG}#D~jr17zV$@
zmNc`vmO$P^_|h=1nS-W~DeQfq+YRG%#|%#l>4`IHi-QAen&pv)g_hvn&BD5XB3e)!
z$lWp&2jo$MIUq+gE7mGPr9T6t`-SDJ!59>OtqZ<1R)?cjdwAqt0o!z#wH{s_c?h2}
z3wIVm*VnH<sOVoCj_S%nx(!`rG`UDc6(kgzg0`=n{p?_TDxj;wTWZZ}Pw+BpsAbi)
zD+Ak|B7N(2k4Rm_2}?uC%3u^m^U00;a-_syG(!v*9T@zD$`aKV26f*!_2$_-XG5n$
zgI_<-7TZ~ULtr2Zi?T1WhK8uRFqpeC1_RNc49Gxm=j)@Is?ap6X<vVV)$G6D!WNu>
zVV-|dyrn4$?qfA|FwXMruuf2DK2eJls$23E`Kl>s2z77D8$X&6i%j(&!#6W*)q362
z^M_+%*z;O&xi4MzQHvO@N^Ed=W16(x&RBlRPH9Z{$S!G2>6rAnufcxotcMx`fYf0O
zj$kkh!DRA*6&{=rh5LHgpM16P)uvaQZzriLff9ZE&?2E=Oi5@NmE#oqWzL+}8bRGK
zu2KMygv+mmc-;F;yXf3Zx%opEzsQHXq~yASTcv3iEo|!hb#%eaI=bKrZlk7Mem$)R
zyb7*lQ1JB|AU?VM@v?rS=N2uwf;+Bh7n}l-D^qKnxdP^ebm41_PKn=?)PfA=nY3w2
z>=RUje7G^pLC<ugAi9FvyJ^?EQbC2o@GGp#2>n@>h6=no^LPqyY7kj+$&zvn!f^~9
zyqF<x`J)ie1HZl2<S(Md*;4(*ehY1J%8061iO<HvxKhbKCGK<yU$egy`WFv5(yrtd
z5Qt@2+90&lU!En0&`N&=VE<TZ`K?)UBw*N_dHzcHtAf93_^WZs!4M|*=5N6mdTcwu
zWTpo4WT34x4-XB<A!gl5Q<gk3Ax|Ms<t#ZBBq#8wH|MD6H^h+Z@olcmk|WXPsw_Da
zLN8X+RUD_q>(pJrBe1lKAG1ycX=@d&+X1t>EIAUG)q5&;%##gD0{ePedQ(SBACHYk
z483iqHK0a=ytrfg;*^jqbG;yWYzd;Q6ff~aBid`)iQ7~9Bj;u#o%5s^01xIoo|m!z
z;@C<7vh+zI(`AtNv7;mja^B4fIxkaho{#9VDRT55$0T=Ic2wk4@~Oc2nMb?8J;@Y;
zHe050GE284oXlRVLzPrV{!JsD4=VH^KPe3yTGyg+61*dY6p&Y)l(*KOPZumpocUi7
zz1Hl>br#?~&=_b6G*9I^HD8hY8)!qO*#-JK!<=&!92`(xP$JWep0R{5UJbPIDM}fA
zc790H4Jc(mX<iH}Ke@D&&Z8wXK&2J5l2*}bS_c#@0*O~nSI}14MpuGKR5fj<>*#ty
zC74fW`BWL5<II^C(-vCh)Ls+OU|<DrauSx(wN9N=;naUa@!Mjt2*!D)c53-Hofg>*
zjy71Hc<1NlW+|WbnuCH<JZqyB)@?qwXMT3xYbD3gZqFqvoR@p7i&nSS+CFIYxjf!k
zN~y#np~YTnJshq!P0r)N=>$NqlXy%^#98~SzFD7R8bUB0^;&1Atd8kvE0pkB-5#s&
zvct#KC6wilJiS&2<wBGu!I0Dge@^QZH9KRSc1`&Jnw7!@r*&$UisMfJaLdp*W>#X7
z%3+nXB!$$LmX;>Oon){!TifhbH!3a&NX*YUNsVxbIqjHqS>03Clw~Wy%`@w>f||lL
zu$6TRC0}y;tn*%%_2rcOFC)fqUI+~aV0fO25%@x~Az2a_l135A@U-A4PADs!9ln%O
z!AtH77f3lM((HyN0r-n9#KdWJAgPly7PvlrWZexQptr`U`2-oTMytaEAf|jSitDWe
zo*6LkxS&3+YVT$Dl&_ie7DC`Dy5RO*h8~-qcX_$~tXr%Th<AZJrF}6#e-Um32E~5z
zfZB#oU>qqpKQliKUkle<$X4Wx9+<>)$#<Es8xon1M?wf?F@XSX;>ZMOb3Fr9%nC(X
zpo?8|aF`AayLjEYt3@d9o)R7xfp9N%Hd))a{}-(Lnllb2t|5ILiID<GBrr;AI0D_(
zWCgfgP1f!vYY%}-+Jh<xI666mfqO94<686yc<+T?c2B!V0-l3&G>364APrrMrJ!k#
zKq3Wrq6r0F;;34mhNiu_&Dz(;k&^2`<Qg29u0;pxGxS>1N)VwyO<rypC-S5oTG<Bw
zyPDd%FW8%e`W9QfmmPDiJ|bq?y5j?x7^*|N(K?)G4ZAgsFGxC!U@vLn<SZy+c;{xh
zmJ&S!j&g~*rrlS8O=f$OhhbmRi#LtgIdvVk^8(l6M+Q>@vx~E{(?XLHc!696>Qh$l
z<=OdZ7&Fil+?ll1=KxgjJ+3NZ<q%GcVgVYLfRrZL9n+I!Ak2Cao&1s)Iv3agv2Zy&
zT(<xT1wH{nkkX_<y=3@X0pMZBwAaP84fPVBIVdl=E=YWy_gY;roS_w?vmO@~tHd3F
zO73aF?Y&GM1(A|uoZpKbCN$&`@e0$;oWl#ks|kj(kL$%ac|h92EH!l<GB}e3FT{eP
z7iNViWdRgftSFyB27-tNRzX-oeJRYDB1dt|C80^ib2|*eq__l+6Vd^ylc4<4M5q|Y
zQK&v%Hw-ckIY&~PITp6=A_8_d!7ZV{l~KcsXR0Q9la(mirE&c@FwNX75Egob2(gr=
zHKE*xDHVBzfRE2Tq|&(1Mg<@cbkHVHOv4$F6L$%`h$c~*;@M}17LhyLjQ9jtrA%t5
z&i2_Ml8ggPcs>Wz1>zP-7q2xwD$^;IL7(nPu!3S2q0>;1bL%9>H05$QuY&}NYlJ;I
za+5d)_02%(X~Hq>zT`<ATF4U|Ein^zGs#4nLR#tMS^@)SmOuo(r(UbqF$3Zdr7x}?
zUS52eBvJnama?O<+{w9lw+MF4>^Yp;WuDV@4a70g5T)?D{X^UsqHu5S#-X88r^Zh8
zT3>!dM81q{h6@yAOgD%mTs*+4Z`wNxt0!Td<9+!?<!F3aLCt%B{?^IM4i9MWG!u3K
z{U1R2#vW`aQ36VCE(elZkT~7f++O!Z6o%JH^W&a8CWReBz!z7}xQq7j|At*faD^uJ
z=Ufu`bKy@yi&e0WcXDQ~P(~&4OW`XGbz{>m{!8XcT$wgGnNRcQ_@sRN6;!oMyOL6c
zUA9CPpNfB`rSHTs;O`I<Z;?MY$<cz4Z%}jrdItBY{CR#E>?)xGRNCc3ElzUL!dD;<
zUo85n4OF1P5gdNmJZ{f12}@z85fzxJ^O;hdk{bZeFBc%A)@a&A%XuuWpeAYB<r8)x
z`CRZdByvg#o}U%8r)xDDL41{O8K{3J`cI&YMRWx<Vbd<3uqTyiM=Xg;tZ4<|l@?(0
z^x*Fay8Oy;k??h=-w7@pRjV?z0rm(;|5ZPl#zR87?!)%-ef{)sqy$b5d?U+7IeA93
zlLr7gk!%!fUx+BoWH-cez4J4mh3<3B#Bw}yu{``x03FL+kQ&Q{#d1vH0>SR0U?Pp>
z!Qvd2+SDFQl!Nplis~^LEKE^&$D}y*PEaT@V$#Xkx$6)G>W!0^V@mw&od7_f$|wbG
zcE@$91#(fhA+RfAlIMoT`(rX#twW98ST1~S$D}jU;D9Nn<dk*EvjhM@D$J6xTzHJ-
zfhH;zzyk|huak><4Xal{I_RJh{rej=X}Xi1mVLN1nD*{(Ny>H&Mz!~cAc&SlQN1BB
zuw^s_hN8tKfumcdveoB9#*q7N1zWg_F|-8+xAdml^=tKSG~8}oYmMlu0s{|?rrRTH
zBj31)ib3z@h6mqKM9SOO2P4KkfuV<`H6iCe8(WjF=B}QOYAu^u8>_WFG!_S|-Z=U<
zxj8yL995Myfo_l1xO$A$ST{9rz-o_Z8sD8<uX*RnhNkCXacS_(*DWE(o$}Q@IGJ93
z2_S50?X1=wu8nBhHnpe{^h4DH?I5Hwh0UzCWmAhss_WMx+Wni_K~_8X)0ZA-Pi|=p
zX?1wlJKwpnq1nTO4cWdu8Ls)(6@~{3m~I-YS!4CLPrdd0-RHxuZ%ssuou3fI;iSHh
zt1kS?_jj+)f3KI}t4l9-B~r5|V(jJ0$wjuB&`YefZPVJpT07Rq@729`VY73D?Hq|%
zj|K);OIUSTw7HFGKgu>A+iV_Xn@17Bb8GpV+G<u?4adqY1%W|EXJ^$7c%*I)9HqVr
zy`M50A~%xRPzn7D?ySH$hf|EB5&yWE&<}foDY0ZE`*YJ`C0GLI(3HGHGQ%vI8cW9e
z&GJmKP&$u{(9{xS&mYoc{OHAeSmWbnXIet$qSLg*DJL^eo=^(gop#Z}`N<Vw-cDrk
z2{Sk^lZaF!cx74zJQcJjY0-HQ3@v;+oC;b3vx;ygnZP$OGbHeQOm1QA0J%{%Dn~h^
zjqd<N3Rg6scaBm9cLAw)F_H*OA}et{NF=FUO5MfhZ({H*43Ny!w;{00s4(1O3J@t?
zaP&6mqXf{@_b?X$x(-iXT%je4E9yOnctSCC2gTH}xR@#l4u*>FjDfyl_zbJxjY6v|
z=nU<-Gs_xV!V9di8$?)<EmR%4ez%n^YG2>W799wTY!z3AI>L&(2iW4>>&H>M`6!;7
z8-wmU6(DxPjjX1N(Hx3aH;0|;d)}U9tM}jgB3pfIRYIgrw5|7E$9=^Q4zO*<qQ)jT
zmTw1zGfoC<7m;zetrLNAn~F75ZyK6eLvzH?x^CYv?2VRzrp=uTtA|ndt%Nn!Y#N(c
zV{>>4#L1>{FKgWU!($JO!;s1px3R|dO=B-=eRf5Rhc=DFta13yOCA`{Y#GdHu=i{j
z_VFM?j<ABkqCKp!=U(9h;{gHOdfWO7jPbyxafmez-M{j{crt1*@lqqc28FKRoZu0u
zF$^!in|m9a1h3@Mq7^Z}E=@8;gAPf*R&s!UiIm~<PXW)poij>ogx=1faQuO_2dwAq
z5{_>qV2t7A43>}^yb=hk%gf8$d?vXB?hJ2~XP?M0{XJw2+_nF^WzjFx=Ab0#jHs&~
zs`a;ytsD#H2FFA8I};Ig^R_fstK1glDwITA0y_9n1m<P9-SMFa=wMeovAvTLr%>3%
zx#aTN3u8+7Jn_IA7#V?K2yEDpuPbh{|9z}P>6)4IT?a3Xu+8v&h)9gGm;?;#reYGb
z@rkb?U;|)xJ6R-vr$^X*aDwq0`J&_Kr@`IAiMiPY7X@ZQ6JS1r>ky8HuLEp*3-#Mr
z#Vrg_t%F*{U=4$>Veke9zk>lW@fyOXR7H)Lf!jAo`8oyT6PM2cyX%fvK5PTKai4vH
zylQ7*OW*AQ(+zMuiM#Q!T==j{Ybf<L)DzP_*Z=&)=$YpxPMjJ$a;pEi(_qWv1&cZI
zS;(3FD7Z5ST!o2YDMfbrsWB|9_RO_&#zvT^=C+Z*8VT(0p2WzFeA<#lA$}uqmTst#
zLH!{HKfnMd10t5ZxKN7=t0%b~Ja~{}S#3JAQvV(xJpk_VDuMm~ep&R%(HxOnzuNE(
z=L1>Q+sbHRNkF-!(ku^dnTv?_zr+}oD{e_vB!QPU^UK-%@`$`*x&NV3v#GSON=vXU
zqAXh;h{`mKtR!kI-89y+##+$B(iEX;TH@Vi-?SZM;lI3mOK;oM*RuNBh`xSP-^l74
z!$T2$dq5V|n4nMz7-SUv(pY@^=-Sa}ei@^#_;$(nhu%N--mwqFe<A-9IV@cYl>r5)
z0an(%Ww~p~lBZJ1$jd=bsfg307r*hvkb^bXh5P?t`0e5KlkXh6XM1~$HSGg4okG*?
zb8F{rjxG-bildssTl5Njb9lLbc|NKw42stjpkQVw-Za?3G$d?~7&?}ZZy72#4Rx%c
zE-a218p0=8L(B4U&=I@cv(^*re`7Da0MO^xo)0?ScxibwYAC+lx7HWZMGRG#RC4>m
z+J#VCq_76kii#OYVLY^yFcNdrWCo-PG|NY#GCd<J2bIc_+D%IXYiS6#MJ&w$&6c_(
z_{GhNU2Mg!bsbx=dqcfDsx_>BanoGSn(IN2(%iVAZH!|dd}*_+g)M6dzrvQaZD`xJ
zWfFyQJ0~Z<9jH@QzggPCmO^5rw2hI2nNnR^M7e#ld>2~|6-CN-qp6I>8tUKB)G+cI
zMpF}&DPLW<x$x!dtNp+6rKs6*`^MUhknIgWDDW1SzG=B*3H5)yY^7i;OA46ubPX_F
zW5K@7l2*2)bzS_Rq@6i)77UU8lgt>^Xm8E0%)h=6w7o_{)d4!HDQ7edjJyFtc;3`h
zvYN_>raCO%(AXKdozd8_(BjHsQ2hEAgN_YNMX2qqp1VEa{%`GFw{28G3wAS_-BFc>
zQI&vV9Cp|ny&>J#4lwG<)dMgU1*_k*-?0PQO&f+<MqSGoYNM(mMpYd(ST_yTFr7vW
zwPD)^m<y;I8AD^#P!a0etm<T|I@cYMs-6u)52Nm33_Vd*DWj^7;`EE06EQTdtHVnh
zhW(6sKV#S*HIy@khHX(!enC__4h!l00(=Lxf731hia&TVg1B#Jsu_7Tqp8OJJrkgV
z*WRS>&>NaYM&8J18h;M-kPkA}!H9e?uoP95GpYu#fVzKjqZOw2x^Nw9Y+HA17`o&2
z9E;b}4P9T=07GjF2d?>JiB)0#>%(G`!u+?pBvK`CoLsjlGqW;K`h2tJPS1v{3iM2G
zA748j(xKXX#Ml61+}6Em>t$`d_u78c^Mjs<Z4gG>FD0=0VI@^tas`-}Mdj+K+z^!)
zMuD}!zDceF1F0w&dC6-@Oi5I(+LEhCycx{mqH<F-9zuTj4;f1Nn3CWEE3e&>8@30;
z&C<N>!(x%%6dY%CwrHUxT2#r@b~8oYQFG_LamL&qEwqMVLDUp2v~6k4Kt33rAHP5f
zo)?SMnp<5fU5vgmqN-vfRb&#5Njd4wiTAi^FtO*Qj-x1k4ueq$z>1g5gq-+C!`3t(
z!|)XyQ-C+%v;C*g*{>EJPoEeXm>3)y7#kcJJ(Ahk@81{T*U{rwHBQ0NEzxgM5@!@U
zI;~AO`F+GaF0OIXE^v{N>K?Zi9MdK{nialM5(Q~FU4vgg{CA7LE~y=v^2^fl*L%Q8
zzrPOt>USt90WAkJ?~ni--6hqU=^Mo-Ael**Qoz?vSAla@J6(dBB<KbhTr323z$7oV
z4bM<}vJ>Y_)PkCvIoQ(AsI`rt69TS&Iafre??-h0^7$CQ8l2D(mqPv~cp|PK{LLOC
zP+pCc2fdjFcmjO<jS#0HaZT_<oaXwQA+=GUqmA0L10AKG6&-;_&=!A-2laAWKu^Y=
zaI8Xu`)r<T!2NP9t-|kiaJmeRm}!%c(ngno(-HjsEvDQ2$?lRf^-DXwE6F+JZYayS
zhpC{!RdEv3PY0(1;BZbt5l-$?!|4P#oGVa-BYkQ(T>wW;Xo7I^o*GVf5+7uiJA#u?
ze@|NPCG`>ClWESYfE&TtmJM{Wb39^>J2^}<I7-|DoI#uyLkYsibUt!JT25Fe^L&z4
z7o_-mlUkFBH}-(zx@6};dvVMW{@e$8TunH70J>J-ygs@wwHCl_ALdUu_eyn;3QnTq
zIlv_kaBM2}d>XC()Ga%(L(BGq%c6t}=YvVP)zGN43-@*KN^$)OGhO-x&Y$+u2YJUa
z{{AGWnW&pO3)Fu`a`6yw-J#4f<B`50G9#7dL?R9V<uh>86LJ!M1EyW{0Nqdb@|1zS
zvr^*ttCrL@$iwvy?Le_XdI<PY$-~)Uw#x9sEW%uQIK}Z7ez&Jx=zuwC-pv5(T@}A8
z1I~=Z&<4)&9>DP*5n8kh<PIl`4=x>nRY}4f`tS~I9Y(pF<hW~uJ_7Ri>B}DlOyZ8e
z0F&HjfOHHXakAYCkfhH5={P{*q&q^&dj?3)0VGboBP7`~KpLg{{9{7@ok;2>!P+Ci
zDzuvCDB`5-e?#A&TsrJOwKU>Cy|mjuo>W>mkxeRHmQorP=l(O$4$fhied!Fiz=f3@
zXpeU<9R+w}OD8!wN=D7uB-ojx%h{z9;3PD@tLPtJ6~o#GIRMv&?L2HMk3jAq=@N+L
z>i&nNW6xTj=RZJgoKw)fLTysMHqXBk>XMSWI{o9GpF$jm-;b7#KXd)R2laCfJ%=*X
z|Jxbr|B6t*l+@n^INg9at`+l3&pk6vrvWE9>4DJ<I1OgNsW$^oy9Au11gCDmvlimG
z*4mavpB2xgQ%mDZr^&3I4?KAa9H5;5JqMmMbC<^byFJ`W5xGga)ZyO^aUCAJ(C0D|
z*Xi$o_)brm&=(3JzRTYUX<Z(TKoez3TDQLo(!1$$a1(dRnUlormc$6+pXgH=+{B%N
z@j_M({AecDO6Ne|oH(2W*UaRr07nz#NH~Z~cFCA&E_;6I6nzfHR{U&?IEecP;vg<R
zeo{_OdQj<yvSMJvpb~>B2tLHoO4VY3yX;go28|Hd3y9x0su?48VbFvD?wnGs7<6I)
z8vLNbk3kOxyD`{<K`#b-A+Wzdj^(L7jMxtWIGq!eh|t9mbqpiTxaAJ+kX&;Kk7p$H
z5SBZP!4V8bF!&h;1aUldBHPEDGqg>7RbT+iykw7PsrwC76jOhWL1MF*Y?q@pN|Hyk
z7`~#cr2Y~E>}$?JS}8uAz~B@F$qv$p(=6&7CSAlNU9yrb>}-H1vbgOfdIIAj<cqvZ
zF!?P1l;qlq^P3e<pe7OYB@Cu8xQu}tgDV(Z#b6o&;&-b94le}1Td`!XZN#?}=MIZF
z%cAD7;57^!7<e$4#b6GD1qfpLM8|n~G#`N(cfhrXrLJRu98EbfpfT`c@FfhEFj$5l
z?j;M{2ompEozxdG<t7Hdfx(wC_zDKUiNSAS@G1rY3|1iUz5v0K?BqXH9&YcyG|gQV
zr#a7itom<&z<<pFOb!A2!7%`AiGdfYnU$Gff25!scb*GYYc^!CV^;th?O;W{gIg)^
z10^^h+P!{>t?Y|f_6IbNI)P&4mLwlc0Gsn2mFhR?ek&_K30sv<;x_3QGVMd~^l{|Q
z5vIBu{GU|!M@kQEmJYF{LqEOv$CrP6IZ`?X8`}?g_eh=h%=g=VP{LLYMJ$ImEhDUD
z<j*VrqW(|nBbL*!vkunurtkr#Z<K8uWo=`u@dRvig148d4p!FzR_+FL0cGe!`*QAS
zMZQ&96`Ep8n{fNw(iom%Egj&~BJN8HGjd*~0`e_cQE+TS)(AxXh0Od(xhP+A>&VIx
z#@HCX#2Pyz>aI=o9#*~Qhm}97|3Q63J#gQ_s==j*NP#}Gs$eI$0`7_@a1*5z?Dw|}
zRZMLkdV8up!y3-O=>u<FUji<#iXK9*FRUyua4=$8H$*g@Z~&9Y5VoO9oQ46mWZ>5~
zFYu7wc)NHFTvr6ABf7@rqp*Gb2$7UFrg{&n+yh4GieA`dR~K@=wZhKt_5<~mUEl^n
zf!pHwX11dBjtv}MsP`e+RA*x9{D3cju3c10@bLqOC*X>!WZNiG+Cm3dMSD~YZj@Mc
zMQ9KB>iUjj-N?ZM7hc`q!fVyLav(VPO<V8?t3*FUiW)4g0RJ?AHMme<id)x>_f9|1
z^)DaYQW{pLSY;_3sO9TdpJ(&SLdD_ptZfgQ-wVFJ^1zfn;QQLiz`}|qcodxCls2sw
zuqC{s8p|*%A4cFRP-0RVS0`BoH~?T3<=+&CIzlp5ULRF~5kIRc2~M%9>Tf#2#t^i;
z1+4ZJtywWe-)34pGRf*SaKGdQg{bA>hmyQaiIJ5UA4p8UEHsmoE@$ZIx;#?2XL%I7
zOu%RZFLJ4)nmIJi%JHPb@~Ag7bDXiu7;7i1>O_=~c**|H@<cM#YyHdUf~i~sEmRno
z!Uk5}5X+MVj1Vo&(QBZ4$~E9~4;&lin}fxyy7HU-As={?QZ=nB?hU-Bxo`Z*E8uvj
zb%a%oEDu66ULC$U%;Z;vzOX+2K+^kBo=C3!jD2eWs;NHPqTqJx*Wb4WF9kj`w;teQ
zWO*dYyX=5b3;s&*gmh}Num)so7RMc%k2vml;|Uyhd@Y;f4oLV%b=>i!9z`DU2J%S6
zXW_Tx5uiIqJg(X_uOzPxY<uB|u66qwoVR^?za)=1Fd^<r9_Pv=DZ|cAO|G$qnhZ`&
zR)@j=QSf?rKU;xQF*t53W&6&s>a!qN!I23}ziEz4{5c|1Ejd5@@E_nJ3)AGKr*J$-
zoFu1xGQ{#{9E%g&k{i@WCgF=wxbQm&zmh&)h7*@pt6r@J%}F(7p%rlp_l#PJiIYBV
z|AVvD_8}Z{(Gs78f9Cf$DA4b7=FWq9ol^o<_hP@qBc~-d!NS-ny~f*}i!xakfPHml
zy+CoM-28rxUj)|2;(5`cm@=T=;1v~*QR4ni{E^!~@E6bpln!zx(}&L?SQa4MWz3af
zclkU};I*pPs{I-dcpr#UP<jPFr_wH`U>opS6~M}rL-@(m*Q#l`Ujx?rnQDa9wO<P!
zTEv-P@a;pq{Cdb|fWH0CN;SaBRHJ|s?tjGX@5Pz4Qk{aAg?RrLqm4e`04Emd7mvf&
z!NUIca``u~<2TSc?j#LQ6}Z{}vyAOX@LLjQ(q&VY+(J86st9Z&ddyg<f}iV?W};yd
zOntlr=iMPEQ+pD)B=bHk@*9Dwk7+-#VJY;RfP3uF<B!XUy=C?n`HR7xf2VvFe~G`;
z)35_X<dR~45qLE*?*J2XmikK|r{(eeNqDNvUk?6PI6oU1FimhdjCeWtVadA*J_NX4
zr#0Lizl8k;kCc!18+@pbNv=#kq(~ct5pD}q1*)fVoNDl~Q0X)CrRd6Hc!bk0^kD#f
z4qgmo#D9Ttr3yGq1DvO)&EUtNm@cGE;Jt$LW?+Gz$StK6Q>An+$PF>A<0KQ2B4Y4i
zfN^;ww9yK@JM*0daW4iaH;h-X+O*4=kQ+wGfx9qi7oE?y2XvJ+j<3V!jS@e|!9Z{X
zy^_cM7{txaCc!LLu(_R@ot~auKwCeeE9vd!Oz)emFTX@|Ou+EcJ#*n@FtCps))IR?
zv=K+GW$;)<DoV}XgvPcoNhB8oTUoGL_qoA5nm75&00Z}`ID^1My=ab@=A?nQ>`Y`&
zw(~}##VkG;h_QUSBL>of#10IYFQU5yY&SH7{Hiy!1uRfGYf>S`y1$QexPbl?2#l=G
z7#^`GPSnOvx;q(7j!Y5rUbH*rEN>Ga(5%p5oksucU>Hp-%)zK|Hg3L2dXY4S;D~I2
z?g<va&=G87y<nFE-I$V>xUlzHy>qTf{P7Cn1|U%zk1%H_i{Q?9U7&_b>@^)|L7v`Q
zR_`SEvj8vmpO0;AV$U<K-o*D5^1-j%!1l4&Jd>4e+Jfv;F%0<VAjA<o1i;9N+u!nF
z`B6zs#lc`+;1=F30ve(sNeM$GdVl;fuwUG;6|*4Q@a`#`u1WX-6wjsP9!YQ#DaH96
z5h?=!4yzZmq>&{-EIDTvz{nMhUn#D}<UL<7%i@WEt}>d^ePui{WXLZx5M(cb^9*8H
z>)@TiOgX@R$1KziW5Y+9gt~G_F9A1fJdFM{M-;BC&ILG(Q<lxCrpka|T6>TrXvNPD
zb0jT~2O&N{bI;7raODKdKt6%@j|?4@WW}FaHI7?!LhuN?A_kw<69EF_4gR0R8v*7|
z^+@n28jrXour{^tvNk0(DB+d>;SuHp+@H!d0SAESMy9wYAg1A*4-+yU*wN8L(mOxV
zaq)@Sh|3JA8Li4kiDBh9v7?~=B~0bSaGd(@_ykKQ(TD#BzRqq8$L+}Br+Gj^b8__(
zaaF|0_9?KuY=${1&6Q4l+=<5Yb>LMrg6NBh?UTvtDm>o7)zQbj5d3b=ZLm{GI(0(?
z(yq+*Db&A!Y}ES@*mH?dO5*Uy3yV)QM<Lt$#7y8uWvYHZx5b~ZtVDy9Z^P%Fw-QSJ
z-Lhy)t=rKOh5A=m_an9^F^J82vSiPv{tc%82!s0=)L_tp0n#O=nD=;LOuE1_<c~1&
z0}SA+Rz&?V26z|&rl(vEdktqXLJoLtVKO<J`5k=v9~f+7u!g}$7?5+Y!}xRrgFnOI
z&oTI03}DSBqF4+zFpy&~hQYtZK!t%CgG~%@4al9u{T!e0LyR-bz|YR4A1ETnaS@FB
zLkxa~0k+eN%|@=@;o{9RjG4NR`a1y9jJ<XPI{bevi#~!c4N#!gSQt$$Bd>)pUBw;F
z1sF}mLzyma#}TcthsVL2|JvDg--<E{8>NbhsHT_!GXPBsBX40eEsvUayttWP1{=;1
zdHHgGR9g}1V6=4`T2P$-gQ2&F-Z`@V%G<}6M}98TZmIK$EmO|xV*zngW&#5R_&p7D
z0uM(!0cpUyc6du;V>Hc-ycxo%wsKQj$7<11Lfa6Kf?dO{sg<eKldro2xlvs?9H}H*
zTx?ahyft=rEK=RcN^Hwxt0#ksU!Wm?es${h)wQc&THr~j#A}K-HCC|H4e5Ck08n#R
zD5C{unRAZKbC=n3mm}w{FlVnaSEm{E4D38Blwcu%I`+lEp-}&w5y6gO3u?G>dv<L$
z<cOH+H#GH(yq?j(hItvIs)-uPZXbXjCTNQoYQlvZh89NM!Wde%jK!-xOhwyfMK@c~
z4NCTmx|=a{Z)wUyH5(c@U8!R<b=bNL>imF%N)6lmRra^~?)H7_04uRBA75?RBJ|wq
z?0WzC_n!aWi>$mopkAF0jYd0r-hc7E7r%Et9&>jT0My&xTD-gXtsAVoI#3W)N6kfG
zby3&w){VP2zC|ZTZXG<jdGI8A@MPrRX;#t)<|d4}o@waYs_$j$55rHPY|3q{+!nGu
zkXL`uk0%Jl0A60g$ZDftAKkw;0%u~jyB5~iw4#7kV@yDiZWHr260jTqPrp)I2u=n-
zPhT(q&`06dR#2564g@&8e^C0*2i1RKApj-;oa+B$wEr;)761FijiC5Hm|5{(Zwnh4
zeY0QyP~5aW$Q1X00f1l&pf!Aa20?uEJd7z_v_N<3>dMt%<?FM+i>iW0O#;9=UkVe@
z+;!?3ILLn=f>;^;d{B$S2j2wvrPgxMF$q5DoZgmspL^QNna$})9+)Y7vz`eq9=F{%
zo4MR8ZeL6Riv+I^rXh;@DW<%Rpz}CSR^Sl;elRW<Oz()j7LkvfTt(UNHn@Pm60czi
z`9Am^Blz*Q{ZtOjMmQmPzW{=DJ69|gf2<XW4Sy+8{})l`e-zb2kLIYCO|M#RTE1Mm
zozpK9H*MF7l<HfhE2Z0Y<h33TB;i*mw(aD#0e9%nubtm+B(E(Z`0=5pwWjS>^14d|
z=RRN%vfV~r+xgVp<h6rO?If>V=(3$&qqn=sYY+drhrIUUaZ%}=((S$Eb)N`+n5gMa
z({>+u-OoclKwb}udC>i05^+d~7~mq%F2s1dbggvz2p4gb9BxmqOm83KB94oBn9p$$
zqu`C2YwH*naY6ukl8ZPc6gkaBj0+KGxQMf2QGxc>`IYnA=eP*qF)re-Umy`5=ZbO)
z;*=jR5H+-bWqq`)Dr&Bb?mZCg-H)%WyTKAHny-uM%^%s$NW|4qnfg`wCcT}DFED}M
zI=*szTZ%6zLbSJ<R+@rFR#~<!BXM$(-b|XVAg@Z1sf2W)ioB{tU{<$pZC?n?m}<B4
zNnC-bs0_O%<Ydha+ZqxFKJSgI&Nbz>j=btc`oe7kc{GY@8{ayA_x$=GThp^$Na9SQ
znufQI-#xzG!B%%~n@L<z3e;i}XAxN{u$#jYwz%oz5)wBjPvJ_x1h~=y);ZfH<gt`z
z&@%E$PRx-2739^52a{l|w{0V@m3$vok=I(jkL$>5J^yMauMIpGHImmRKDC*=w(zN~
z<aHPRmdL(4`?lN2YdinCo4j`Lubt$zi)Y_%^4h~g-a}q{`PaSVbst|*A9)4lj<aq*
zY{LUBK-9qrJ+kf)7Xi#2ABIP`h+%<sN4N;!_BdINaS_1n@uB)07XjQ3zXCA5HoZN@
zMF6+Qfu7_dlDVDW0o)$v<ufEloR>-3uoB!zM62tgE$zs^jjiCZ1DTrRXkg@$t2s%G
zj4xZ-!rSUK^|lmWfRXd{gs)}fRi47v3K9puxKp_5T~h|f!R5v_m~KEZwWzrKP4yjh
z$j25nZiC7-#1$m-*tUkmY2$++G{_d#Z|g{$9!%u74dl^?++9c>(>R&LrEu~m#TZBA
G@BalTveI+_

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/layernorm_gated.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/layernorm_gated.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..651df9e8aae8b0d5a7e3d88da7dc2936748c95bb
GIT binary patch
literal 7212
zcmcgxZ)_XKmEYkm$>o1i)E|rbM@n*R+LaZ@K3hp-r<A40QX=InDM+lOB`EDmqQpPa
z?#iOn<(X;&gnQ0GE3|-CpR54)K|UKz0<>s8wqGtNdLKwpJuwS^Fi-<UJ`_-E7XkXE
z_hu<lj7lZ(U2r3CcIM5S_h#PAy!V^Y?`$?R0VzV=2}i04;t#k|Omzo^CqG97u|Y5d
zgCfK@{^}wqsvFlu$#D`9I)Wu<>0+nDFGDiadqf!Bhu%0H%co}y<$NGb8&jcIF=vdd
zZq{0?9ex@57`o{gy7?Ho<rumZ==MW>#S%jvL)RZew;e;bSEf%@GmiJD`v>Zde#dDO
zQT$`780ULv++-pcH{*hmc^Ubuzra0*{W?`AL{x*og@t%brLPA@gFOR*(aD1~(ZuT@
zC*k+R3E2iA!aCPOi6IuzDB;%)tElH5aSy3fh@0kl+|&EFcRGdWeCK?4zC!>iD|93l
zFTdC|cbV;sgeN-ZmxY;ltn*eR677t}88#AR6YS)o5a&80p=FliJENiKM5r@9&ld=>
zI2R30hXj^6H@~dX-4SSJLRUGw;1>AtHpo)M_Sna5_ild5WIKAE0D(~TctYdPIGb?}
z?^ezPSz$IDR-x(AGOV<yuzj1q=l}F#_RK3B9)fD+!ITUeOa!_3QmMB5mD-9{LqjSW
zR*gNczj5ug;IQf(eq&@P*wgpw8zX(e{=itDY8e;}jtq?kal>R42rni*6twj)8}NDv
zrL~&HD|I9>rSp}n`UXy2@gyeQA|Y0Z#ud;cx<w2Au7KPXm|~I;5wy`2+mPts>>>s2
zri$&9=;CQn4>HY~Oe{|?8op9Dh`N$a+^!St94(Sxp^;@Xp^i)#stgis_YZ85tS;jP
zdmT+M(`r07v0AjuK_7;EK;6gIg*1z|z>y@B>Xp1u$$~XtiMK>2|K>Mnr@pHFfxbBI
z|AX#Yu|}*d(_6tSinYa&YU=>ID_H|;6D#Xg!KaBe40>QFju7?*oQq^#Ss&~mjwD#^
zD$Txi#eS%K$CmHwgPz5efLYY7fTw53;(8=cl<BH8z7ygJJf8}qtdCtT>-)7@zZ-pw
zu1p_9&Z9}J7p>SXrFFoz^py3fWJ|+=Ej@>}ELtnsP}aB7KGz-Ww1)3wk2S)nEVpPS
zjpTQ#u}SkCHMg}rA$ssS$0*n%S}EDAd5LDR5z}usVar16K|R?5r*TYlawFehqvC1&
zZfsO5w)`*7VN2N<EA0VvVAU28kMh7%A!3>E8;3dU^uECHU>bf}f(TDVL;Reoj|(#_
z=SN%v(ET`CC&Ikn!eI%jd7g_;bD?N3%&3MC7m7`@Diw)`7=Q<H)i?!3;lc~5kq=Kt
z<G@4mi&0h2L%?QL{SwFpc7A~q{9YBkt)iPMdW$oHU=GhfrH0s0Or=J6f#F=3iq9YC
z#u+{tTn%I@$<Fg!Ev~`}5*$9>97dSj3CL6uhg1DD7hjxLsmXYRS5ZPmD=;@rbYddJ
zspKulC=P4Eb5zliiY8QjA~+KgRJ6={f$05)q=kC5F{r_ipawgpmYCrA`4G<s=U6Vr
zM!1(jjs`mZ1I(Qwo<2`lY-=4-hk|luPwLu3t9@-q8d7{YYh$V}PwCU{w3szDDC|~f
zGn_S@%2KCNf#c|(8?AZTlpdA4v$mG4liR)z{aM@DEPXbOKDX57X{)SP(7Gv0*QcpG
zMW_4ZfHaV$YEr#eVvX#Q>Q{$TfzOQ&Eapx5hICW1r_o~=;)~LY@(sn9vv^az4{7t7
zQ8LO%?p>!90Y;YC=6C4}d-SC&ed!n6uU0-;$<aMnkTqL#63?k$>X!owwSIl;B8;kQ
z*ZRFZYiHKl`3v2z%%7NZ)|b-=tGw~EstwP&M+yA2DQj!a(#_hyA39uXx1?KgND1va
zyj$n9j`lQ#2SH1;T&<AMVQiOf#cT;Fp-{@gCcWj`Vm>^*eJ$sB9(e7}wJB*z9#eYP
z-`QH&wfnaNS$l^>K0eZAH0SUi%bq6l7V8Jx+LE*+^UCP@a?at)T6|y+%JBa6)$8do
z`I<DYRPR#Fk1P(^Cw2XUsdnl1J^ECZKJ`HNk@=oEM_<saeZ)e$*3)~|vsvre2R$DR
z-W$wWFM}CQKA*lJS4(dz)jQUvk3*lfe=?Km`@G(l*2_pT$$@{hZ7psue7Ib&y36-1
zWFBMj#|P8V)X58q@ZVIs22dx<Aq_r!8j$=i08tp&&jR6SdKWf%(v&odhLlb;Ck-N$
zR>0jeXzn!NVBH|`W2DhAp9N$bxTJD9ObJ>tWLYn2)h|-d!e428qDeGQ>B^*{id^QY
z^6{c)(5hQKE$W_y|6AzSuQrJKihLE<K$~41wzPnqqn2hXh1?RH09dVmhB4Fp#WKki
zF6*MD0O_ZYPy*bQ05Gh71-N+#sbh#ClGgtpT}d0Ghw(Uy7CZdjKPax?J!=<mOwy8Q
z7jRV4(rhKrW+=k7A^=M|;QHd2>xDRF5sD8Y1XJRJ6)Q;>@U2-(qJuGF-2gQq$BChf
zrKA&fv}H<{bd_1!Q{XDkXYqaWNUCi8*~TMmP%X~mp9p~CEyZ@xg@*`NB0XI4ba0Wg
zine1;bm>}o%sxA8r&e9ZobnP6><R?4Ho!H{AsR(mbUrZMKd>9Z4@&S?v=73ggK<rf
zqeL5V9<Jz1Iz-%rc_88gdxE@4EFr)701Evb5{HckFi6h`%k!*iVAxyXNj6LX|H{R&
znK19wg1r|9doL4b`PeDJ%P-E)$2q|}#fF4Mj`cF(sQ2m>@1={c^_=?xdJ<pYL*l0j
zh~*Hcm|~03;8KX2=lxCqNHZa<vG69K>H#iI&ZuTKIxj2-BjGu~PFk631zFrHkf~NS
z!baJc5ah!vtV%}1F%F+M)e&P8LU2C5#B#y-RPY7WI<goO!cn%5<Kh5)qM-!fqD3a8
z>ccUHO=uv+U&WoroefKDczQ-qsfloi=Q^;m7ciZSFAAzz162imP7Ux(uv38RwC5Jp
z66S+kl-H0@8CWyMv|c=S0Smi?h1rJ!ZwFs}bF{BFI65%iS1?QuZlR{(NrcCk?;pWe
z0dF~u;4SWLU><@We-q9}irB9uthTkw(&g3OR3NpGH@Y&$`g~1o+6>`5y&_#zZtPf^
zGgNcN(ww(D<d>v)svnxxx}+|-=T5hBe#g?7p&B!m#=MbECG!ra1~YVbL}g*e;my$A
zjKhnm01TA#N=SL`kZN(QbxYk!K)JYMX~|G68B0qZXjh~wN>$F%xP^8sz6|BdSbTY-
zC1b41JKSqOl76JTaOd`xZ^zM=q1!T!HcVZSRzURFj>DIseHn-Ek<pyGop)5NElbNv
z;BNnBe~JCE-MwdT&f1%mg`C}oVT*n3CFv!3;!gQo|7;+f4NpnJWM8vL7Wpk@Vf`I>
z_`%7KI_`D+8hu9phW<T0@W|%cHxhc&Q!`<8t-UP0tQfa^n-=+B9=!R{5AOZo*XKX$
z`c2oa<@HqWqZ*GAx*OY!<(kiBYtE&HAKG2=xqp9dueB@N+V!a?*V>!2_km@NF1dfl
z*znNq$u!)^*+(+;$YZDbXV*aTg-!c5%2l7)4&<EYQUiIbExnZP1{4Kj^hlmPlP7EP
zDCh5XZFb$gx_R~YrZW%e_N}ojeFj+bR!81imA5*zGUT|hc3rwI-?;M{G_DOwgYv?i
zp?pK5awQ!ow0!W|c1Yu|#oenL@=YE26K(n0mcO=Dnap33g!%0LX~OD|DVa&XlA%0b
z`hk=&o%x&gi1%4{z%}3@f9uf?v>7MyrKOn6P|)DfBRKEJ!K0+{I0p&zqNK8K;qA2O
z%-}VRm@S3$L$<?LJ4QEm8IG6}_{zt2z*-DsActHX6Uj;%MPnH_A}fLdRJrGov68^`
z?Z!%e?N~_>eQi60o>eD6uCJS~PACCc2v>z*MM7XOXzzCi0Onm-y(A6b)g;oD<}DhF
zVG!Q2^~2m1u&Nd<#=x;-56O+-Y!qi>kooo8HTbATj@3Ln2Vo!X&XaNQ#M6uMMPBn;
zezWFvxi@gPf5w?6N^`p<d8#=P)MNzV-u)65gMvKXaEC6k;2P~k?^}5O=6(n~>+s|M
z02z2j15xGPs9Uc~4L+hxYbLlxw9284>Gf%4Vtp=0x57=+NWY(0O~|^Ri1NaY@dQ3n
zuS>7r8HW2>(HUa5cV@@Yo}t?_j&{s3APvY9itp~J%~M;gn`d*@=Yai)N6kB38`gE}
zPwnYI-sawe+n%jCXY;0BJ#>V(rQ11&7vIO4;Hr|R?Qnz5)0Vv1l6N=d>;3ua6Hi?x
zhheoJJNC4%;OX&AbsX-g8Op2OT3~U8hsR#^Q^V8$_NQNNefggsUmYHUw~Icof$GBl
zMmSga4@PiN2uFDBO`{Mu%`@yG7v_cVB(IXQVF8Cn;nGFb1dGNCY+|0%BBi!)nr#bj
z{}@{p>`!;YKPVO>>{X5d8h%>g?U3)22%#rd0@?mZoQ6fvxl^@!s49!9<iV`BC*!`B
zL%n%aRigH1n_kJdzn?>aJTkuTS@rDey3xsfC*iKyIK6&)--T;c#hM$}s*AN6T&pE$
zGhWC2I$S$ZtkvUMBLTPLccpjtn{cg}fGcrCitM-GnwNmPI|Q(OAFj0$b@dyO^~io3
zuC)_Y)f<iLjej`_wI?K@v*N4=;k*y+8!*px9bvTKRdcxWHT8LC%@cP3p@#iI9WjW8
M(NnSk`Lsp)ACOt7!~g&Q

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/mamba_ssm.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/mamba_ssm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8ff8241c2fbcb674f8ef4d40321741e5a16404af
GIT binary patch
literal 19389
zcmch9du$s=nrAnk&6g-rPs_I4l5ES8^{`|+mLIZBJ^YX@*|8-jQJmpXYD%I^k#aX_
z$(q)Po@Cc#yjamQyJsp{!1CMxk&!G$v%80L76Fny9B?_@;f^h3S4<;|^WtW)@IMD8
z4seJ0<L<tyW;dHMB{`3|wppzD>Z`B5`o6EayM9&Ff414o1YCaIJ>MUnAc+5g3i4H&
z$vmgE1o41i2!`|%gXml1Cnq$68WQETe(i*AP>=IEzhS~SXvBHFpPDcYnkLMH<_XK7
zg(SSDX_9Rw2@T=ZjF-!uWWT+Z@rrCo&V5Kqxs6&e2ASi=b%Gcy@D{K|AgNMrpZ#Wx
z?+_nmii3p#=LTGqnhSchj8|u6$T`NunBO6Mq}=z0d=|#~QhYY1;HCKNOyNuMIT)v!
zZ-cQGdClXy<uPTync@xTB^%I98_+Eq&}|#g?HkY?`ROBtOzAs1*{3i2Jy^t$_+J@H
zy+(!{p_uY_$iZSY9oKA=C?i&;!b^<TXDuY>Ml{U!cl3j$x5>I4&k(V%juefzye#Jn
z1|Vy34~Mx>aKas&<WTXltIK`$;-!A~`K~&xXg=q<>h8aCzW-96s0sN+Lx}Z-f`J+R
z!KMRE2Zl3|kNct^g;_{E{~Jgi5Fw>*T!ZU#5*}vi4VX(Ig*vWNvPx#$sAQGQ7A;H)
zqmtnXc@8j|8KBA~pd)?Znk9JRDp9BH`xmKv==3wBeVv{~3W)ltF)!;CbrYV@n5gv!
zM@6l7dh#(TYM2m*80p^+G>0Z8n<ssfjUf*^>J2qchmRa>yK%(Z?Dq{dPu>oV1q02u
z{QimNi6G<kyS>xi;czI(Hv2ud!4=IDo{1q(Gq^y?xjAm4Y4Wy6alw($q(98DMbM2C
zKHPCgBE;`(_W9Riug8ZHUH8X-UHw7rquLMlKidD%&~HW`kN)Py;~P(^KMa0G3Qexn
z>W<GkR&8ganv~rUH9d#sM1H@$2Q_~{zh&bAMasG>>!S_5qv>POgCOG+)(Uyn28pN#
zkF-p(c0?$IL~;p>tcA^n6LdG{S|Q1AyT(V2f1~+#hTj^N*}pcgRv&+IWz}{%V=}fF
znu!)P6T14{9p_zFbL@wr8^=BB`vF7}LvDi{Lxf3)DNUbfVM6X9pNDf#hS<jhgpCeD
zgi~oLQYZZ2f5vl?-3cwxgMll6Btk6fmfsQ%bbfwFIB-c)Lyy(?ZVKqTP}eMabg|o!
za2&Iefl!CI*Ikf#j_esBmUb^qJ#Ksw66!luoeqA-PG?@CQyTSNg%WJzGBmiW{jUCQ
zcZaLL^PKy9U)TB0?(b;tGA`r^dEG;v(D0bs7hrtDUTpg<3{V4Va42Yy*^`I+z~m`=
z(brnCrC8F=(Q)xo=LPrG^Ml>)F05saMRd><#{r76mzhT>O5|vlBE`U9)$24Ynj)e-
z;GGV+CxcU7)*T#iw{GmbeZbD4TSSET^{utqcA>WY3G-Ro$AK?udnM&95V}_{o$0@P
zap0;*^`Gx{pX)l`D_T`!>K#4;668y{o$FwxZ8aQ*{754YW%kJCw|+*e;%(c4SEu4V
z${%L$@fN;q2EugKqH2juzwY8KvOZfpMDpB><d(C?c!EF1J7@F+!5`&|&^LO3pwH}a
z-kj0IyoDxaS>6xO<OFDPB9A7>5=3AJ)V4{rNH?{vpr=x&rehltJPGYeGvg~$#)qVm
zyawvFW$G$&>NI>SOYvHew*%7=zn0fQxl$?Xcs;bQ%CvXPz-^MR&XJ<$4ZyKGhht9;
zhk-xD7Vs2s)n&NqbLuJH1a%FWy2hM36MuwnK@^pD@IoRtP#BVL`7rZ>g8kaQCI2fj
z|LjSyZ96P5h(FRW#E1q>XucS0a}rSzJwq)~bVIRoia-9n+MNb}we#h&tXUWMsGZ-g
zlshthY3Fw;v`+pY_{s>rsl_zpD<k-7z23V}Ex%rGT9$)t(*-^~$=ArV*>3RQNq(<V
zK9lLIo!_U>&Vmmq@L@Z@U!k1?zqRvCO8NW?+SqTPcv-JaA)?N}(`&W|?gi9b&)f;#
zdIRoSGw`^a?NNCy-yPx9To0rF$e_IRUD%v|&ILMRJ=CqXn8WC;WZfmt{@IKC0q%cp
z(Pzhx+-EOD#PPY_Eqd+zaeKx0mR`P@wS>@18NTLv6+3LDP1kpgh9Aj4eJU%Vce!;J
z-#6ErJJ(VCDx<m-_)OJ4U;HUg$R7|x$e)L|@+YsAwfg=&{V*T$x*x8=>`V9~*8`i|
zf36$uRrn6_BgM<*E&4n2Blq_z++Ef0OL<~!?(B~{lV`8M-FvG(&;7`KUWNN)(cI<S
zCuqL87tqaJp6f+1Fxx+OVeS&j@%?ibU!0}*>2=||-dDDK%AnQ4x@+z<XwvhMQGUvh
z>h}+{$XR#s7v^5g9Vr?Gen-x{mCO#Hr|R6m+{L*os1DD}0r1Oqpj}nPpbUnpdf>0h
z^ANWLeP;($E%NDqer`bar+O5(i8`u}MJfSEr1MPsIMxD%XNWQ?_gJSvAPILv)CWTV
znbeUiS_{=#B^bp#$p%MR&xG5@h&q4J!vLZb6!pG9=#@jF!NYn2qh8TC0yUw7t<uUJ
zJw8M|z*7LfXu0r&XykmO6G0zScTF@&%RE@wiu!4^))Wn}&_)Yg^d2VaU6`itkiI%`
z4GlHyZd7dyh9%}&RN4*;FZTw^M$t0qVceWQ7($Bc@v>4h1jf7`h7+}nZ-Parn^-JS
z+<{Rx7@p+ZtS96PicSsyGsdfyEjn^&NRC*TLjsv%Q7#4RCKhCf)6(Krv?*mQ#i|sM
z1be20&<C^>R$2oAv&*fatnLx<BeVkZ$ok7f#3;9ONi1@&E-Xdv6-v1}cdXN*!;KB4
zsM)c;LFc*#o$DHO$_-?Fx^ngD!urT2n^|YFnOx=>%q+VB#fD@vc{qrI4I;}!1TY5M
zfFi09B~2(PLkR+K*lLvQK?z!%i~30)<DQVdhNQ1CvFL@cW2Qx0mWYBHG*F=#P;Us1
zjBp@I`VNR@i2-;yu^^`{CmQg?;6x+%4>MS0N8*wJ&k<n5lLWr;EP-zf7{NEja5$05
zOcoB$XEY%}C6SzF9cXBz3xH6UNOp*1r$}~*<P4NML@hMpt^ou62e~kOCGK={UcYxZ
z<huoPY}gZUhbI|it{Yx9;PtcbK=&9<J7hrE$hZ9(0)W%rSa0Iy7uKps_gB_}4NG5}
z32Il0s#y#RR6~-g`KpqBIJz*J-0NDc>{zSp7Am{{!_a>m`@6B#%1cRVd#b!DW!;sm
zJ|tKVEr*k*E(=F43)ahDYc<=<QCr$TnCQjB0<|wm?fR->$HUr%+GO?7)rw<l741Sr
z`zJ%6j(t3~T5&dNPf?DzJ6U^FC^`D1JJ~fLoEQ*F1_Wv#W&$a;(u6)qw+iL0g0*#d
zAlcq0090k|OKS;JDeA=;A4u+O7D}3z_au*95Lzz?B^LzhLe%tBXNnHQe<Ijw7QIUo
z!rtS8?YN*j9_dc$%u#PVC=~2j(k~YX`%Vf4Ck5Tf$eAyV&J<M?4<~oE3T3SV)f%;=
zu#mR|TeYC8Mokr&;pBlXp|<Pu0%7kp!FEm1UE8wyOQSVK+2SRMO2JXPv}d_ds6Qn*
zP6^bhs6M5$M8nClTEUKLnuU6oV0Q^RSLEzdn=^i0uvPuK<Ad{$&M$eEcdYI{DcC^Y
zufVr&#NLSCOjhh)wKYV}q#P9~s^Hz5@!ip>m_1ohFHrSM*Ot5fwrct8V|Vh@6`}Ep
zKwSYJISr8>uwH4+OY)Z*B7MMLP!zwG@CzmNf~_99D=3cNTC@pejY2_V<Sa5@S@q(z
zWYcM3&uO9TbkwShc&FglD^Po3oHnqrqGF-}h)bo*y1())8z1j_a!RP{5vU$eu)q*G
zBX<}SN*V=QBXkI+xRy|gNV=mmQM%Y5Y-<u6O;N*(l$0GYGzr@d2=)V!b1AFy7cFrn
zek67&F)UcC7Dtx)|Egu_wMW4x24U|>!E!3n^`)^gMOowa#p6O@lRz~^b!gh0jh&76
zEcP!KePKNu>HZyMo;SvfaYN$T;_$+Cpi+m|s5XIW`^5Qa#m5z^R9D3HrKJeD=(X5u
z@z)k#S?YXrVwwBGc6`l--1iCl>CDG7tG1q~=1WUy%3APe)ema#*CrakVZ)EFe^&H`
zvwO{XPH>+4FV6o~@t-PIo&AEfKiUDzUpclVs(-m7+L6%<29?<RE5~BjV%b9TQm0VS
zynN=#p?~jqa^$y{J{u7ZT@<$UCI?>sR;#g@|HW*LRsYGA`N7!Wy{5FDFqyvvw-(M{
zi(QMm5}Nl~5=`RAg600DRom{E25q|_^{?G?ui179wq3v0d|-ZLUbXFCr}h3-=iW7E
zo#3qdsQNeckLy>RhXw25yxPXQ@Aa)&cM8^>e=+oMd|`amS{EgeoiZxiKXdOVQH|Qb
zBMa{3&M&C8HR`xP9si``)1HreR;jZQ*H<bpY{&#LA^Y#lV(C)NqaDjvzpx%%vz`#F
zCqB9I>EOqMtJZT-@@4t{sjemJh#vZdBYGrO5g&Tbk?2a4-M_J7s#?DJr1iJAA{{BK
zBi<3~NjMXpUy+N47L5zz3%dmCzDW1e?-zbL!`*Xt&P9Kc7+5O)dtK94X6yXk*j~7i
zI1-0`<p6(G2#%VisxQn9kxn!PC`<Hayd@TnS)*FH{AaBXj@>_&@cgn}u+suXN3~yN
z#J(QqB)j~Bt_g$ZXNJ*kjC?7;_$0gl-z~jccDEeu`iv|4TQVbn1DP!Bb;3&k>j19I
zj$@VwUiKAW0QMotP334aa>y;@0C@XSax`1W(eT=rlB3NlM*#s4IQ&v_ba~}u?E|3l
zOUco1AqSx6JG*(qrm{2{TO0Dq%8t#z8$p(FQ(3a#jCo~c$7kdzkVS1OOV*3ZD=VuP
z#oIQOBkN?#D<`Xy4Wc#=)NmbWvjy*#zgsqIhp5fN!RXLJ?A_A*wXxDzd8}*%Yr$!H
zh@YdF%_Aj$Yvh|uD{a13NH%ZJk*>?f$6(NYwlG%C7tX*tBBR5SjXeaM+R02(&@6A;
zSSeq)t`B{_KJvF#jlgiH2x2kM*s+DMzcXVs-q{Y3mWOjoD^bt~m9OOseVFe!d2?RQ
z(h+<g%jjYOKFg+jI_y>RtOX+Rd*~c3jh02rN3@Lb9ctDAv#b@yjt*q3yBH<rH>g))
zd4qZdE*;SZNQRnq@^;3APN%RM#vCYxk|k5J2JBF>Wl9AB3QG1&sSw&at^*!2TQpk?
z_sx8oI%POUiZeKEcA6wM;4ONAw;p&kFDbVec&V4+oh=EWCmO!S^K6if!-moN3!*L0
zM#s4NDVb>^kKr%@Kp0vr;){2nJHseEHSd!=2_Fr7DEMgMql1qgJ_h(0;bVi389o;H
zSnrduQuvg^rwqz=l!uuMR)-Ricf3k;Y{;R+$A%nAglx#6oU;QCa!Wn(bEx&m&!N^M
ze<Y|!o1a77OMVV@FVvmt4dO`YX@h#DpAikr4BfB5yIa~NKZha-Y@44$t+8&)Uh;FO
zd&$qC?nS?4FZnstz2xUm_hJC+8#eE0gL<VO#rjU^c?>pmN>4qU)1sLOIosyFY{;SX
zvmu9iJSN~OfltwW@-GccF<<N>|CEHYxO((Y-c~1x+xi-!1&%3A!TH@c;Ld?4)7m$P
zDYCA_a}!>n%?MI*v7_M$Zy<CGmk<TxQpf0h7`tnr0iS~e6YJ<8tI#E+Hn(1pF`d(X
zqjq%)KNI?n4P3zgf@Yhl)S>Dj&uApTSsAIKS?Bj_)|Jsu8oElc?3ia%l6?~|V<QYH
zZ!K7bv>&5kV?Y@T@~&@$9`+26dF3-*w2z}FJsjs{8fd>a#L=+lKuf?M4VZf%<QusS
z3=HFCa^ye_>+>RZPl%rK`TcYt7@~)~H0)2nQ86Shhkpb@$2;wrnDl#(t<#{Lep97#
z1KrX<w;pIfoyr>qZ{>*c1)x_@d)UKy8`SzLYGibvWhFi9Y#<$HqYu!Y07D;Cgag)k
zjK0izJ$`?17ywX)h7+VTP$$D7I^+#-LAHr@aj=Err8y5u#ypc=+QZS)O^Og?Wcqxd
zankP@_R<oP%1G7E(7F}x_^>S~2M=7LZ>C0y4tfGk5F-OJzFR)dH{|!yL$~S7Mo7*X
zIoQ4;&@r{=aFCz)bM02g%3>P%G^KoRh><bvh!&rg!+^VdR8BVxeb?zkU2k{4i#-F<
z*>fm43kiqbJ?Tg!l0ES_vrh#ZV|-m2ZPN*4K0kL7GSZ36YFO5DJ3zqyju3xQ`f&Tg
z_Qk7kKJsTm{mIpBr#>tB+#r-oM>FfR*ecoN89GEzr+G%h*E6I8dk+)XcTxUN5cM=B
zJVP&F5+Q;KIFAz;A7W(x6q0BE7p`aj2NKZ~2v4}DJS-g9HsOJarf`6}8TNW-ya3N5
z---rl|3}or?iuX<=!V0L2e!z(x8OV^+I3^R(-<GG+s2~pQTC@OL9b{mkCLCEWDX?}
zl-z*?ZzG_+A$+7&KAMcSs#H4^Qh<tO*_{Y{H<l+Y+l{2XjiixoY3IzCi4;*c3VUUu
zX$E%7(54wDZK?bM@lqk5*FA<dT-Ny(J-%?<zL1<geOlThD9!I{_TNC$Bz!m?7Jk2v
z5b1LyLD}x!zH|HSpT<2a#<Eml$pia+`y#noSPe+6k-8hc6MlOtUiEW6Wwp&;h+RmK
z_xhq_%4oWK>&~sWr{gU@pG^UBcRhAJQFYG^=Z80Gv$3>IY9g}<$HS6^lK0CNUGME!
zrv<fXZ9&plk(he;(}kbDKf6q>>}p9lx2-vA1ZT~n3((4_F=aI0ow_si_U*Xq=RZpo
zIOZo}6A9O9L1k3?bZ7O$Hy7R%bQKX-<W`i6pFv$C2-p?t0T|C>oj(#g5)UUv7Kf9i
z^(&V8q^>?`sZUvK^KG%V_{|4X_or4Yl}TM?(o&hqu-{5>i)WIh`&TUcle+y$%l=e>
zeSS1H8u!G;BWF_<NBpc{*`Bz$Vxg0|v&rhStB_h~xp_D-x_B#D+O%S6O6r=DmL|Ev
z^I-J;=!#`$Qnxc{*$F;~%%<#x^HZ^@#4C#j6OAkO+9Xw*wAbcTRiQnZ6?;{Zs!H0c
zQbuGiK+ET6W3vDU7A@LV?2SpPF==m187q>;y(xS3nth*O-?ucdbZ*6dC`lbk+7G3S
zl}TfL%D#8a-XPc;mP?kY6?<EfYD?PN0Kcz!1@?bZmV)`Cv7-s{p>e^uV%e3{?Mhm9
z{j=p#q$_p&#FO^8<3aiT@<i1yw<kOg#}>vGZ@zzHspU6qkK2}A9|8z}<a1x-eA-M{
zo$)L0p7<JeehSkRQCOOAzRN?&R{V5F_2STb7w_+VQu^7!zuo!x*5}v0wh{Urk&E%V
zbTMGu^HhwAJMUQ&q(E)^hR~XJBY&QYor_<&cQN4tEczQQ5T63he?E3TK6I})@v300
z{6-H%7=^8PzAx67XkE2dE>;QFnzV_~+rG6DX8U|atYXbnA($!>Ef3ok+8&-<IQjRc
z`md-xi;O_+PZO;sGr+-VEqp(<+R}RXMgr|=Bg#=AI&DHZGhr)8TTsr5ayFDJKsh_g
z6{4I2<(w#2gmT4%tuS4Ja;1cgPM4uvIbqwK-iC4&gsnWi9p!cqHfMS#%2g7!qVz75
zqfy%`l&eOx8kE}&x%eoUBE1I{_d>Jzi?NFd$GuDGT145Wrqm%yy_&KgQ5w{gMnq`>
zg|Veyy>}tqj3@`xlomv3RZ|Wk$|1CGiCp2icQJh!QC?9~jvz{#nsO9TjuCCAl1F-?
zqw|4SAo1#I!LG%!4=Nv3E|aTOt%B`f^75<c<B0Kuy2ExvIjN?cLX^{_n&cu8ts{rl
ziD_Lqv~Em0lS4a;X>hkyS>imV_2kelVA{nTS}&&ckwin|QhU@hKNcH{-@JE2inc}9
z`>?B7`^1yJgxM}b(^9ybTui@;%U6{0Rb1{@$^*E34a$Y{J+U4T*_(b1(_YV^y@6?i
zIkY!1?K;rP({JJYPat2CcH{iNg8a5`JUBl@5@qx^!zlm1w1j#8nyFqe)&HJD5X*lp
zIahG4LHiF4`fG=cJ_6nsL<8#$h1tNc`j`$nLWJJMo>xG+(Y^ztpb?A)9gk%T^Y1*!
z2q)}2<lQgGBPZ{Ufg(o(xOyS1NRfu?E``UCe=i_UUwL-}6geC01>}*FcQ-(hqu&_6
z&m$`@g0IMegVp2c9e3R&*E164Uc{Rt4&cm(5Gw2GS=|=0FjCEetUDXY(tnuQlLA@#
zm)0vkDv{MozlAKdUioEZ_0orw-|OYW9^rUB>_EX`b@WpK*c*Xk<7W5)h!u{(+xP<B
z4*0v{!_4deywe!b@S3ae4eJAg=Y0^3mp0+dx|0qCLmt1|?+uKG#_DLath?o5p{T|N
z@XDO?-UM=Xz3Z8r^rIEy@EAIy#=**z#%m;LZ3HVV>3kQLvn*B?<ZAJ%<+M_-tiLwz
z27Wde^8BEotVbSj#|T`=ynxFZ!OC=FODWpE@WQ>0kU?Q&*%A)Zpf)W6DCFu4PV@h(
zYX#)M!$EikcKjyeR?wptA|!L9DkDQeLx4#NA6S#Iw^4YoAvdfofe9~%=>2p{9YQz`
zwkihg2l!$*JQ4Q8$-!H&Lia-304&6%faU1m2u2KKItoLjErLEWs8<*O3~(US!U_*{
z5mZDq0mR{*^g;y#z(;6|K9F7f=b#+xw5HoZAS@!A`Z1EQ@67`ZE%5)9hL$65)n&nw
z=_b7LY{#~2IU*S#2eOfezkcYh3`QYo<pq?79`*t-15k;F9uBgsmzxZN+A2iI7eLSk
zLP0VphcXS($kA{9GRA47UxT3n6YaX3g~aOUMw;^lMggn9%h!y#CcUg=N7@(iPUJ|)
zX--dg;AmZt^T8p{0EdL(aneKJ;~TO9_!a}04AVRXznb<c&gw?v3j_m=GhQ|b_aJ}R
zD>Z>-G#)TQxiX@_d+4YvJ;DYj&}f_Cu7#z6M<nNs!C6gT02G0H8y-s5$V0)PU+Gn`
z@nmok#h4re!2s$M?1;4Cvfjj21U7`bq43Ju7hp3)$od8Bn6V!RhW0an1u5O)a0Hww
zqoQQ(Cb|zGH^91X`54p~eh`bHTmYmHL?ye9M*XnfS`Mt0D*%gE!ECu`;rB)gkuDkJ
zO&P$;z=S!ICnw@z>a2qZ>4w$=bc0IwEJXNy;6W*Jz=di^5Qm|g^UVNasfJPemAFE6
z=q};$`$iEc3GPHu2e=^ua{wF-VgpEme9W|a#K)pD(ugPQ_cHEK@P;=ahgw4&JUc?S
z0a1MMmNpp#8cZvEC(5x+1C4)Jk9)`B6`QLk6DSGL;t1fhpdH*0G61I({8|0{o<F2|
zNV<B8E1GVqUCy+G)8pB_g&%A$m4y^thJ%5S2l|8{Mh?xHaW7a-T3cjinsgThhkpMD
zq51`Y3r|i4SpenXK8@jIc<`Wav|)o4X5;XZEFsE&jB*OBTxVea90;Nr4aYYc4#HnQ
zz*z1t5mgI+BLPm;=N|eUnPTdkA{mCW(8{}*sK+l%8-tl<T#q*<;M_ENxpFIzrhVN5
zP_*R)uIPB-ri*b+(VU%l;;w9L=AAoYWtJgd@QRKX!Uz96U2SD4FTtFS^+pM>{}wEE
z0|D4!NC4oxs39oR-RV2ian0L&{N{?W9Kk*SYDg%i^)7#hk9VvZ%MvXs#vK5Et`*Wk
zAuYq70Hdkdsf{IVR)s;z@`dun>i2gnIaapSuM?_ZtO<Lvyct!hfL0YWimDH8Uj3a~
z|4wII(^UY(nW9W^EE%VeQU1d@-O?0QmZC~h)V36bjz;6OHbw0P%C~!p^aenHC{yHi
z%3d6`KD8G{DSUpgu8jTHD0WSgp5YswQJ9}BS|E!$^anv$yfg3tD(^()CQk_VYtU;&
z(-5%3%No}d4*C2Xix!rm1M^6Kg~ct=0lg;hFKnd08la!_u$&kEu8TYKM_$}+(J1{1
zmxH2q+!w+>tr5**-Z1OqLcU>6G{IEkLhv_DSiB>Ek#W%=z3ky2lKyl8!XBhpqfWq|
zF@eXxN%rr6hE|!J6}E)ZT9PE67Z9ZFABmm+Ow{}%arnOzhXmr#Q*-f(`C6heQTwoQ
zp>fHuw(pp*@7QX^@h7uSraqnhc=q$xR!<EG6$26DKWWWR^_IJXcLu-KX!OqKTEb9>
za{vh%thw|w;sCm)C{nscIt9`h?-gn;C5tYvlCP#nr$Rj|?CeYyb*+-!TT-7=RbLb2
z?&7pot2aE?>NOfbAhR8$^yNZDZ&KIyT&sa91EHbrR@|vbYlbvrb9#&<oW&1z+~1M*
zk(dA{@a&Fxf6Sl0Arbr}QB?Av;eJDULLvl|CP9fXNfH3No`{`D-;@ZfLf|9<{DKR9
zi*SA6dO9o-ZjnTJ#RL96|IHL8fYCJ8=SGc2^V|jlK*cj;HoZcoE3kI2>j|SJWdKCB
z5GH%7d`D^rohsZ8r@f!=d|gAD(_J!yy(m>wo+>U+IZIQe6^I8YyZ5DPYN7b`9*!g(
TfRGw2cdy^M{%tKP;>iDhGNos=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/ssd_bmm.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/ssd_bmm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6fe182abfcce63a2523c8f204c36c7118a6abcd7
GIT binary patch
literal 8508
zcmcgRTTmNUmbdkOwIl>cAdnF+gLr9h>_9vY6XG~F7(3%}vbGsJ8bLQgpa*WXjG>wt
zc{f`|$<!idG6iH^g|anOgEy`kQk$)K=4V~=vr{uaw8?ImE<QXpsoLVN9kZLQeC+PI
zEm|~KGWO42Rh_=)+;h%7_uSVxSAQf)6M_=ad=UPv8==2oL@tMSDo-}m2rVEAQA7j{
z;;$+~L{)>TsCrOMAQht3V+L7h_bbsQ?YlHwqtuj!(o(uRYD!NT?ioJ;?YI=>*8;yu
z;x|*~=ipaE4=={AeIb7B3+p$%pnjR(LXpogUK4mTH{R#t*XH@nO8p^Y2vOF5Anw^d
zQRQX?=GBs`DIsO2Rby5qC0D0PiqIWJ=%qln7tm8ygkD}mkFyBBs|dZKh@Q$K{O%(3
zsv`92BKkc==!c5XYl_glMd-DK=_3tP-Fuo(b{s8#2aQw%RsS9_XqqB?ja#_&yiX;l
z*odHGnJ^oVZKZ&=g$MwzLCvQYEUyo|b@FWBV&CAYz_~rx`90X#Exe_-@R<NAO|fJ&
zkYIx$Iw2TweKN>QB(}VmMT3DB1H9y*3)ApuGBzGagr{kNI4c<YE(T8azH_m602Jwm
z<FS!&C?TlF=_#fZ1eh`af<6{v;>n4GU`v4I6dec#67=;59TUhrVU!M1f>B1t^Q=Sr
zS%(69Sck?1`;JsR$p$3r^1_%RahrEpqJjd6G3D4mBNb-@6gxFRGuS7L5d(ZO4!Z!z
z1yix#o_t@2k6RWTpDSZK+fl~xmm=<|KH1?I!w%e6*gQT4+V&S&a>m8EIQ=x}pQ(Ua
z1=K;;G?+G1sp!AJ;m&Efa`~8;aVvNW*{a^Pm2*qIRlSe|j9{jkb1*ipnk&Z^a#a*D
z4TIv!FgAV_+(}F+Jyzh_;nZ9OmdTIZqp;x_{JEa;QinLic{qb)MI~pH`~_O4Nw5)d
z1hkoV+AMq82(Bt;t)kaLhpU<^ll_XVovD$>e4t!@J|sEsf&5OnpP5=1Qw?0}=x<dN
z8c|hZ&*ny0i>a8tLp9~cgl(&X@k$&DIZ_(Ecb}Z(6Kt1cTRnG(^GK_#L1ATqD}^iL
z%12a+wOru3xTndFqmjjjf>bEALUW<@tK;(Hm*w9;*Zv7cbyy);XkFAj<*SBqSoJwi
zD14>k4s%Y)U!VnZOv8SqwD)v!z*A`7a;5o|)^va!^-uZ!sUErg^B`IJf_5}>jS5Tf
ziMy|GO<c3=Luns0a&?@O%dHi>FY35@z@?QTwb%djpEa<D|9|%b*I3Zssxjxj;Q%^T
z@iZ+zFFsBMC#6+d=arl-za#KSRnTVNzdj1?h?2Y<bT!kW@UZ*ozPT38w_hu#l~&#U
z8J4JchVSX+bw;2m<TIS#!q<h55H!J?;RJ)vX+X5nwG@)Ogj-e<4JO6~ZJZsY86Uwk
zV?HZ`FDAh>!NfyMFd7I`5Gce2Z8*lhd{od3Q{fweCK87$Ru^P~u@Eh2r)egh5cDHJ
zWnVfXXmeyW+=NV%q>GNwQ98y3*eOAqVB-w!YZbJ?zy!+(+9Bzq$M-A7%Z8J=n|J53
zPDoT;?vmdP1Q<MP3_iUW>_essgK7*s7#zZ&1_Lh!wHVZ4fbVFg9)rENv!I&@Q_!)X
zmA<*pXfB4qlvs`u&3$5mV<&czVh<egFsxwTL!)Ehq4>y1A`spA#&*8r;5j_1grJiK
zpU6u>Bov5*qhVH12Zx6RVq74C0x=}0!8?Ls$3=-mE7<RS{_^cbKO3F!PlPAh!OjrP
zw%<&4z0y72Mf)S+A^*e_I~tGqZ$u(de>6_fkpO*@9!|nE`6Iz8no0Ph!RS!XAD>A0
z6A3CX6peOFObO+<vNKg9lT=`wW@2=N`99c&PxnL!mQf0AzpFx4``oqkwJh-kS@$K`
z$diq~9QxJh$D`|{KlSE@#gPf|7EkIFuD!E(X+FSP8d9e=?T!WgynfM?9ay(_rusH5
z*12=(bBou%u+(O+@Rkl>QIh(2OMB|npY-+(vpsWyH`ioOt@M7}w_45DzxvSpDk%S|
zvTE72<XWpec3;cazPeu7v!-!wx+)hY=O@={URtI3n(y8Z@-^REcfGczDSM<bu8}oa
zKTme9p1OaIKibEWeY~a*3@zI7h;(GG@?`BVU;kC#$9*fo)#~+z9-i!hVHR!KByDq7
z(pNIq7u(j!rX1(UM;Edha7BE@#yh+2AAV5wyXy~Jzw!URk3aqn?|g?R|7t&@k#}~k
zzIp%X?@I1>efrjeIDd4P(bcrpa)NiAfKh#AvdlH7n==F1wzX3KXUyl*pH6>adOdY=
zTZgQrna&S~7DDr(#bCC2-P!T)q<@ycUOt^Z4G!FJRD4vj_{O4Z-oMsxly@B6u$5=1
zk9sqq^iQ%S*$XSxeB&{`_84zF_E=3gx*j>ow~boT^o<Fb$#mW9l@HoQGcuaCEeOW^
zl+JAL3b8W4H+S<5-Mph)p?s~jlecwZoi7#BDO!-x@>6E+M*2o3xLEQ5#~Z3<)f)zD
zrY&2^J6d={%dBn>n%0Rm$od_z4v+gqC+(4moI9L8oN+C9<~?7Q`1lgvx~U~~azkUD
zO|H3`cw5s-<Eo!;>E&&`yrwsGdc)>iY+cd)<Mq{smC3s{-mRS0v;6T(y!#SwyPP_+
zsnOj&bL-58!M<TIZ&=HIc41MIxs;A)O}w>b<;E)Y+uqgC-Jd*g^Zv6uIq+Y4jaK&r
z_8S^j#{T*IA_g(@ZPjhdZE^u|Xbdy%D_3Ek&gkAJXY?FVsJ*b%INTKpRX_S`0^0F~
zv9C~se1}r1@h&)S8;bC$_wm_*4{Y9F<Wv^N-Ot%yVZNvPBc9nG!RlpOIE5^ZXy3PR
z+LQ(CEf90Y2u?d=V9l~@p~sc9B~7MPY1N1ZbQFq+4fnM2y*^_s+z$(O<VvCE6={|{
z;IRT09xTb&S;w=q$F3Y`Q-KKbIc+K;xyPmgJTaTX<^s{)jA>RiYndfS)RgW$!;D$s
zg#vNlm`xu4?ziw<jTMOG<duC4-c?u}mPmy&<EVx5gb}6Z(9a3Vz!3nAoDrajQv)<}
zI)Ik63Lwep0b0`}KpXU3Xs_khCGg<=Q-~-3f&e@vMR**t#lTZqWS=SfDl5XH?5n&8
zkFqZ(XDn#5vM*N=9%Ww@MR+O|<8l|_$)8s+_9{*Tu$nXdocKF}K=33DKRN3m5NEuI
z>QN_35R)nbU4hxn(Qc}*ph?1aDEK3YzD+nj>t#Yo9QYoWFiZ&^_crHZ**5RaQ&yXI
z+?Q`3I-q^`$?UinBJ#YPGHMRMb65iO#3bfKYiHZ8{^4LU5sZNBi1%$KNw;|+^pANV
zvixDV%{z9@I}&HSVQ-Ij%sUy5M7%?^H^>ZyStiI#wRz*Q$kbE3Ctd~SAVcR(!NUwC
zac;oUH05RESj%vnVd!DDL*n`Y%_f=Hu2Z1<U2_$F*&S?~cekD!%+~)xVH#m8N$CxK
z&(u-$jqorn<s8E}0g?;88S!hu6BfWP)Caw{rQuGa2)s+>Iag$CIG5U2B!1~7Mdru(
z9-QoI{2ftUgvZYFyZMGs#o(t<rX7G!BWTW@db?LjY~XP-H)B$AlfX>gR4T>11r@<?
zA_7r373`Vz?hU*<PDJ9v!APP9DmjkNfj{wG0RNprn+EHgIc?7LXEoV(dGFD6!?8`1
zeXcd#ni<PBWPi-py}WMfg4oK~{m5X;H1USY$9herj=2Ex%*z<S?Twgj3|_(DI0o38
z(t~WlJPh9&&rZg+{s+(A-i+)n^4TCg91Tv;f-d*S3QxrG7#j{H<4Jf4hGm`0C$*59
z;8cx{POwwV+t8a}7?QHj&X;r9Yc3ZBtP?kChLcnfXRs7~Q%X=E$vum09KZmN1v0RG
zX{VseZ56=+t8)U9)7+b`H2QulVZ`ZJj(85MsmDZ32p*-GOBl!3Ndn*MUhj`!N94+D
zujOXbx_1s49C-Z#3;Y<?*S9GoRv@>OuJ9UX>do2HnF||c%UoBwD-*;4`a`p4P2*WJ
zdp7ij+c$6B%&7i`%Upk`uUNdWe0k||Hu(2HT<Lx2Y2UDra|7vt56;gL&(HalwPejv
zw{ES^26<~!>hz<krnM@6hFH-5Ouu>+QZbVaub&O0J=3&!JUhK+IC8)9U%G$O{rgw8
z)he?tby74T=oqa1kY0$*#~zv+R)}Bg@9IB0_Ib~zJrA3Ex7EmKo-@C177fT=GB=r?
zywkYczSRB@;^xj@cirv!jQ%|OY4l<1N#KNJq5u8<uS!Z6-1BacL|W^AIy4qt>Wys^
z0#n>+_m@UDZ*(tqE_W|=FZV3<{F||5)8JX8cticysN87!lcQ8r!}rhd)x!6&4wYAk
zdR#N0x+9_y*G#C)Et+x7f-34n64$KAW*2R^W=G}KVhPkl2l5<RKC^Ttd*RMmu@qCv
zP*wGE^HOuR^G>T+jww#$s#qAEA6>lu;kf9+lnSL(C8oHQQdO8zt(5X$${}>9c6o4V
zaD}*YO{~EbFY<Vo`<ME&*YBJYYcZt`RaP&XmQ2|rcdTMPrZgxijX-&P7`Z%R6RtHQ
zm-n#`YTu}lsa5Pi7F(+S8~<+o+XTFAp?@V#*7Uci|IniCKdSes-aPL!GXbCrCHR@3
zBlo9KAjyU!32DPgCz@ag!m9zBjKTgrDgAvTsK?+f!w8!=!O}M;7^V$$NIOtk@ysAb
zrITjojDz=wWQ6WvCZGYI;L?5&)dWF2aUg>H57aE`kg6o*yj^pv=8>U%RyRkc$qkQp
zwf+IaTlzO#6&p_1wq65nFd?H;Zm(G_eK5pZ`iiw5B=23Vd#3!s`VW$KJoo``IaAEO
zn$;I?zeseDy070QkkPjtBsx_pk%B+)4Y%F5+@k6NLFhy~f=y+aw}>SY>Ocn5ZSEE)
zmP%+Dez>`szABbWs1rFW7B0_U7F`lrfy$f<-SgdIrG&bX-7&|dIk8GYt7T@7gdUQa
zYb4YwGuKLJ9fDUF*ezncgf_^sjS_koIm#9)<}1V|32nw`^?bGHlh8I<Rl9_C$f#dJ
wzk^E47ux3A#7+r4BBL)!=+PbY>th&wqDCsq6IycA2!ScvqpBXlCaur^13aMrK>z>%

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/ssd_chunk_scan.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/ssd_chunk_scan.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2e72d7d8bed54014689d7f69bc921e1a76e82e86
GIT binary patch
literal 17232
zcmdUWX>1!wmS!gJ`z9q(x2*f3CF{Oy9kwjVvdfli`79PKQnD<Gl1SRJ)v2Mp+k+CT
z3S+9fW=+)=U`}Cxk-G{g)?fys8Vt6*{mXj*%aDvUoA3`0rWXzGuXLBEr?LBE_eCa?
zN~xG-yL)?pO#zP)U%Ytn;>C-XkuOvKMXOa2aLq|Rp7{@51o2O}!d>sD3f~RL3E~0a
zCfwv4F;8A5Nn94qiRQ(Z#q*NO5|R)R9`Yt5iR;Y%dL%bB`w?9Gl4LQVUT!hRF?*FD
zF3W*Wa?|jAISg+4KJJ#drEZy9{<+w#a4Wx3eJM_lC%Ku4Uk3bYhF{~>yam4mMtC=V
z**o#eeh>NVeBVxgEdO2j@oe8^zIe7Qzt*jL3wx?Tn|I-trTH~{`P1rY!ma;;{L1j9
zh+T2;8%qZNFnYu{Z5eQr0B#n*Edsa|@azooZ31|f0G=%%KSzMyE`a9>$jKAn&lkW8
z1mqM7@D~Z-#R76l1o#gL;H3g`$^`h!1@H<1Ih6u<m4KXT0lY>)POSicod8}hfI9@_
z9~R(m5WpJ+@FN29n*{J?0lY;3Zxz7X1n_nNyh8x*6u`R#@NNOTCo?{E)qV8Gk}p#m
zp8LJ5RTB8m-RJK8F?m^c_gGc`OUzS6Cgrz1KL5;uw@Q>01?G~nfNv(S;9Ze6);HE4
zez^urFA2CwzC4E6#Ys)ysWbf}&at7($DO15YNz+rMqc7O-Ae`TB}%Hix8|MxfNR?0
zPbzVF+2vdGzbwKm5=^9+;7C~|NvbAq-15#k{WB|`q~wNsW<Du%L*IZWsT>+}_V=D2
z>pcZB<&z8EshMeiQatOq>%+0tXT=0Z)1<|F!{c)Mo!)8R!mUNW)8`7zEF|@Qn4R0>
zoV@O2#z^Y+0L-5>?$syp_|Ez7L$hfycbtCD(wxVe)TX-KaWYbPRjfTX>dHa(mHq5c
z#q6983%3GX2TlTpm=X2?{4v~t12Y3)Uk}W{Sk{!%+1(33suMRfi!uEUurXaNsje`4
z=ZyPKsxzlkKc_WkhW`B;^gC0lY39V>wdGXc#$y)T&-Ofs;R&a8U^}NoW~W5XcxS+P
zY}0jDVDd&XD?<x2!Hf-fgq#dLQp0dF8({SFWnqt#p6nfS4kT3rPFy%SFf__Smwig?
zmH0&JQ)5OWZwC#GjrWcpPinxg$IlIopE>PpY)tB~fT7bv<4oh&WGD3EE-VXgtnU<X
zczi$vQpZ<<xS2X;aE$oZO@1Zfj;}ZI4m)rK()F9NbTM7vdaic9VHEM+D63sOUcC1Y
zT$Gk-;SNNr-8|k*+DrE2Qr#=SvD))aJz!3&M=65pq>L*td#Z~vU@4Rd*H%EY6)kY^
zZJ6P)fl^bQm^W>WV>}&xfZt8->(xt<)G^AM(!;h-1Co+}js>Z<!hLNLN(yboskV}R
zZBj}OGRsnJ?A*%tamcA2su?3ZoijWHxg}IHw<=ic)jmoFqn0wVu#IHA{+Z@1OIxS^
zO`ISVBv74h5<gJ6rC-UoN21jMs>7EZ><<piw!&U9Q>tJ;Rm;r>R<DjLuO6rBS5Hum
z)j_Y7Qeat(%u22uc&oTF@KytF&FWyVH+T&5t)8TgQZ2Zhr)y@bq<xjK$`Fq~lNF@F
zKI#xRF4aeAX2ILs^1T_pVGrsKY!<%P4fDp%@c2nJQ!P^>-hR#?>njDf#;YU0r(c}<
zJuNrN(>}AM+uX`oJFL2hYV(p*Yg*IOlswo6kNCu&irmDMC<knk^7zvj#dr#>;4IIq
z)fwK186LBP!)cFwkK)GuEw4|8^$ngms7df7Ug6+DO>`Jtfym5X`_;2lhyO_0yX$#l
zWm?ZRyq=Ui(<5W1$3@=Sp7SmSj|YeLTPJvevkt56o;8DmT+8YhPp1s?r^YB|rh9!U
zW~S7Eu_$fE`JbcCW%B>GpJRH(&hhlj@Ms%68$8GPPw>6{zJuqwIua(mxxcrKa=Bd!
zQBwz=no8&l5ZC?*WRLT7%V5K|_aSN=$Eu8$d^b;O{R2E{;tjJIJLpZ6E|}K)pb!4>
z{USKR)AtRY!QA^tf@i2!rgSDamMV>X@;@X*aO8WQ15sp^FF$h}+lyT1DdJ$fpv>6+
zsPp^xCS~DvAQQPRz)6AO;O#T!-0(enX6@@Y0jG%bR1t@*UWAjw`Mvwm>LsedFAARY
z8Uy*92U9)lDTO^F1W$6iX7zG_@8y^IULGc|{q0-$`GxPzow*wZ56)d9?B|)H#Sh=%
z(h=ec&kr)~!b@No-pKqo{RfPCmEw<^@vgH!8c|pGdjj6^+#FW0zwzZ|n#aXI$~>-7
zSEy_3_*8?h?%+xW#}BR|_FH_KTYaBr_X5t#_I|1NgIC;gE@G};30}!$ZHj!`yB=q&
zH`-}})p&151y8<noN~S?x`5T3+zv`bmkU&DYIoyP^aW}H>dand+9!e+q0a7D+<q~5
z3F_<#64x(<$xpT=#J~1gjcWA$PwI%TkGGZ?e2-GXDf=)NZGuDC2dE)7#{WOsPak;O
z-bDw_8#4LSTgHtK-Y_0{a4)c{`NNT!I&gkvPmOPPYWf4_;tGyXuHXmE3Sn;=p_+Uf
zlqh(N%ElP1UJkc<j5mrX5tSW0wLd~Joc7@8fj9;I@p?1&tLtyD*>&oG%+&l3$jp2?
z_yguY3G<)i=~lEChqw|o$@vUp3FZz@iNQj-DGTN8vyhk)Q@NQebkIIje!3qFwd&?+
zQNoSA_e;4!(|5Gd-is`fxJy*2Prt;8AjsxQTz6*tJ~LE&@DM`0{6BC(u2eGb^3Nuv
z3xOLR-!wNguuI*6yNezl&i+)9zT^1E<iiQsq-xQ(Fzs{ALxK<T!V5|1j5pBIl$1=m
zXKp7Ya|@6xmAQN_@3bc=pMq-ONMlmE;_)p&KGt(*(KpBl@yvPVJ>Gyba5pJ-F9ecO
zwug9r#+#HbgEG+DKQleQ0Ha9#fd!wZ%9E5qdUi43OG@vsKP$|S949|9EQ1s#{?+0v
z<*j)?WRr1K&1EB*uKf(AN~Hi9Xn=uqI5o(FEt9v{{ADU@>Bn3Lv&k|x&+D_pq<r{j
z<jcbZAEbQvKIbdMqzIE@Oz<lE4q;M?Nf{>Pm{ed=iAfbE)tJ;^Qj19)CiR#&Fgc7#
z1161_9KoaslV(g>Fo8q~;cLUB9g_}Ba5mD1bB4YyOu8}IpMv!DVC*O+$ABcIi!*NL
zB>QuN&Cg>5mI(jMvp?RXDV3LJa^5(*>I)<d`!J6eykcQ$$`767sr5)|(hKAB+)nBj
zfpV!?ye<Ylz$Cy;d?b}|<;KA|`MH_-nLuhBZ&J=CtLKwq*W_eU#f*+!Wu8}t3_XL-
za;aw-;~#!da?&-2v;1U#Qq3E7zgD28KS|D}hMa{r4~&EQlQPCbK@97X{-kc7Px_P6
z5$9;{#iVHRI;ZDsQUc7g%w9{9cakKejPE#o9{-H{mJ43LFwPF6tt1sGhxhwEut-J!
z8rT22><G*+Iu>UZ>tJ=KJ%PGAw_4lVW?MauxtZ&Z#k+wU3tq?Vxw(1A{DRvv=k(n1
zOx}WR>zH%hh1W=qdDr}Pmt$ek@9_J<rP%j4lP+)l;@zZ;S9eY=yPdNhpVu?zyAQL&
zDG+}P95dF4*OZvh>hF(+Mk7m4HO0>~rASlym*@WK;$K|c)zq&Yf3DG`8=+<}J&<q6
zBa+D6uAydah~FB$gbsFy4k1n5+VO-$weAToAYIv(HQsmvRh@WJk18)B-9;q1xOU=s
zPVU33&8&EF^R^Tfckkx(#3i=pSve1uH<sgtM`9jS*tzXOg-3U@j>RRGghUzF7DgRN
z+YmdxJ&Kx!kah@3hW3pkjp<Nj57PA@NzdAegv1y=AJ2Cnt0Ptx?-)UiBgi^}BqM91
zAT6P=N1RAen@}6#mP(|q+!{ry_E%z3+3`v&mde(S(>g+D4qrvu;=k<stD(Ob+H%G6
zc1wGZ7G%GW=)=wNTn92cki@Yz@?2-QKOLG5&+h6<)&`%Otq)o^S`!L$+*XYg)iLXK
z@i+FzjjzQbi)`)GD+QsjMOveCJGqT7H1>qf8qYqAbcbPZZNm#4bgDzTx>r(>ww@Lf
z%4}Li<Q<7CvJ?3&NMWaCgf=Tu7A@YaidS@?oDQVv*ghXWK7qO?kY<AIAtUnYnH~*s
zh5bcVMZCHTWp#laUuaDNQ%X%Cp|D0|@!}&W`v_7T*)D(FfjUOx=P!cpdfBgKihI{T
zG2OR^?EltFO9`pwwSrJ<?^lK@!>6LPakJxZe1Es{&B{|%-&+3*qb-t$jAdVmzE(a`
z#)@NCcPsmlv2SfSA=vU-Mp&~R3~dZ06v}u}Lu_oPs12#}w&%VRi>$J>QJB2WoKWaK
zS_+r0FNgFI2U1jRjc%9zg50h^wSAABsCFDF#$Sm=I@#I@&`xi>KNXq^Pkg+vHkgoS
zNBVc<h1h`yLxTy8DPhX~%orJnWNkR&rA^4xl+foz#=mHYOdx&PmJI3ZVNpznUzn_~
zl~S#0oqVMu3<c5Ft+|~;9lx^YJ*?cUOc+a|r{ac&ZR^i-zs-Hteg?Il0c+*zLL;<>
zFc!fW5zA*wdt-n|WAh7B;TL4IDJn;%%6LsTGIhg(8+%~+wE3@9L~j1Wip`3Ip(tTH
z^hIwp5FJFe+O6Bj)(lHx`Nh)XtZyAp22jU)$a*$m%XuxA<m%Q(z*BO|AJ%WyZ&|<2
zeU$sG>L{u@x@$kSKJqJYP;7^@5%sRFG`jq=rC90KGOB1ry4H`xw1Uv)C3KeX_-75_
ziO@p4i06;FpY=upkwK&@jaRfIT|0Kn4(w(*pr<J-yc8*q*8X>+W4$*OC=v!+!j|{h
z*{CEkv9S=ZY(uuTgt;hc`C=)Wh0Il3Ct_zG4I^_47{b=}0<>33jk@*TR~o`n5?zkf
z?o{+VFDQC=WAjGBS{&_)TMlnaf3E&k{jBXYYC8?KEi`SYVQmYGA5L#hCoH82d&SSl
zt)?wGvLBAMZ1;ZCf$ZIhto(@ki{8leMsUl5vg%+oyW@pDA4V%Qh1IY&h1Czeo8GPS
zUtf82<yl=ns_Wk^7znEq8vUn@4_Y=_BE^v_yXGpSsao#`X9>?CP09L+geEVlL7G~m
z$)jrs(_y-nP-@nff3g%Q4KE{oAyO2si+=^-^-|~(7^ikuTLHmHXW_YR++KqeHCt1$
z@xO0~O*~qNA3KZc&mzTH@LRoXZ7{Q&pNKX6y)oAM=*;#!svSX!k(8GMx854Q9o3^O
z2husf&#fiV3-S76sO%WB9$P#8N=6uRUf~t{mDUh0ixh8EMJQyfiPv@SYI|roAyvUr
zLa=KHdm>k#X{*=C=b-;YXd<C8^R`HI7@6w9zRYg>=IG<g@pEJU@qKh;3>n80utnq&
zo$6n3KnRt5a_;`+(B+ToY4{{U4Z<NJR%}#6>bGuhs~(^IR)-uXo=iS9oqJ|Fk4)$B
zh8zwJ!zMSY*5%;EO7$n#*?r5p5wezT$zzhgcE#if{K?w3t7}J!_I1&7*x$>c<?wR!
z!q(00hDTmh*7dmmss7|M{Rq;J{MWw!HvFH4cl8tNl7vFF?hdKeMZZ*A66T!GiX-EZ
zijAXD*H(GV^4CkTtVa%1-j2-e>jTe?<_Fmu*^$zyDB8bktX%I)fH}^G&WD>HbZ&G$
z1D7yY?Sh#^LXjl4gi70xscrkh<AMKN{CMzN=aT^H-m?=9C3u>ePki@phi-?jM~XjQ
zMT)$2aYCUFcg0JNATy4?>vHg#aBZ{@nGPex;dL3)47WjZ15z~LR$HVtUe$^0ok-F7
zk&bR9bTxDbY|D2Jz5giJ{8DXAZ((ah8r7ogI%KGe$&jH1X5#+#TKwF3*nURcuXTpd
z^-oO?>>Kuvy|1K%RtMV=tcH&X(x`Mxi;9|2cJr>G<(Z)!8QTA$<mc7jR__{)Ly&*~
zKd}LxWlZR;KXFAY;ptEiCaA|dm-DP^=*T&wKL=Y@J5Ihh7^Jstk0rlwJ(ho4_@oJf
zEi%4`y-z8%ss2T^-}}^r(hM6N_UB5ZH}oe+k-sj6i6#`<xbaYQ0U6=+@mP!6Mv-w8
zDMr_&aBE6vaw9i?X51Rs%0dMVNYfA-eLVamuyg*xlVvn8ftv7b7Pg*AwJwAE6?g`B
zFG<BbWGcf!&(xOC=R``sAR`q>UlJWh`YM=@sfN3mWYAT`>beBsr(>fd;`(Vf(ib5`
z(YpABL><=`$4i@$9;>WJZD)}F43eCI-LAJK6giRMFP63-u%kS<B|2i&+vC4z*q%U*
z$Dim?;{;M*jSaH3lc2Fw{^7}cCld-oLZMFRQa3=P1L;jj*R*YCT^6;U0-tRkL)!7*
z$|X|ScW`_pPEYbv@;GJ1d?;ao&k#N|e`xv8`l0OsK`GYc!|-7Q_hr<-AtBv}dmp&2
zLf=)*N4AeFlt{2$`;qk{GbIsjU)8PZLpDmc0uR`3(JVap`9;G7jG3_yq@;C}eoD;a
zBQnVjSt(t}95PQyc$~_6hbU!6Zd=GQ#g1(f;+P_Nl2rF{DODy(nJvZZnbA@qTgVE!
z@@FN^Bs~M4G$WrCI4xi&{_GW*Ir;NiH?LdPt?RZaiCg?*#j1f)-D`w-Vjnqhxziub
z2((MMw2?r&lxv?7dr7x!)kvxD^-=0KjFq{4Z>-Gi>9GXl%hS3@Ko`ZTDFDek_M!|q
zP;mFp5N;(!{FHR7C=#feQUTRaa-dpD1XM?ff$Av*Py;0aYNVt<!JmMdDK$_FB?Ag8
z4HVV~XcnahnoVhd<}kYeGEz{sQ^XHj0(f!-c+%DYo;(4bv_*g?Uw|iV72qiVzy3il
z0G>ht9=<+B0z7<uiYcR;`G^5zmOxp8R{+X~pe#+5OW~FHoAfCY;Nk02F2KXrrvjo|
zrm^^PDg}7by9D&F65!#FRZWTCI981S4}Yv$0UrKXb(A9GSbRD45QQ_%ozLSC;Njcn
zumBHVp9V_$#<3a&c=%%-5#ZsE)g-{f_xWbZl=j0GD06<;3T4g@+n_8@`D8n#yk~^F
z#}C>I;tP%z9qvw`U6j&I+`{ps8~U1|FZ}1u!Hc^KyQTOp0{wB%9!iz!c{G6Ymdq8v
zpH4DYrvKuh^jws4ALCxZfu!C*`ZFk~K?G*y{u%t&5G2h9POp>(Zp`?LX66^!G&TN4
z*jwcDEZv%cgj`W7Z^<OmC(|EVf)Y4gj#KR4Edu#-$(ugI43QL^IItx--FPnqaF+hS
z6%qkI6D2r){5l~d4oRlOWAF|3>AiGrmB@#~xo-qWl{6_CJwD#cB(IZl{BbM(j8*Ps
z(r}QhWIu`a;|@h@aQXfWN=Zf693<`BuAY_R0|~nNuDJzBkNSI{z_R=Ztl)2lUcXx-
zo-1_s)gg6wI4X(0kBXXh70u68hWj<4n(%Za5Iv0wkL;?N;8dw>excCAqrxktG)LwO
zLvLRnCfI^iV#c~Wg3oYO5*~mJ#8xlj(j`nTV{!!(c<W5~u3>`zMa<{K<O57xm|VwX
z5)%t1>CeM`Ze0EUCYwKgFrAO{_b+kIbT5hjh^SJ)E0i0qMR<Y2e!0wKR^h!1IDvTH
zb%*hkq~7bf1Mg23mOVb_!j!WysZ4)(T$SbfQ!H~GNK)huB$erGw(mz61G)H1ZAkhb
zcxRFnL$2C4k2{Aj`2=$_Z(3$tbE#xMWAh~G1czk5$!9;*mrTPK`AH>w8_#^2?@!wB
z3!1%d9L}!br&#)*WAg8S`0=Zb40-WmaIwy<Kj6|n9C5B<FTM)f;D4_XbRMBG$JGUK
z$%%N;iCv)Tf)@paICq02xoaoZPlN{(`GpTJZbE9<zSg_899AWA>^MD)BsQilOQ?<E
zL8Q)&EbXX^;*z4cx+tO6+;0uFhHpofw`6gfV@K_XOB`{vBLNx7woqF{9?jaSj@^uB
z_3o&9<C5OEx;G(LtgR;W2Ang9v_xAW5woMO*;@K~`O)%r%XZa{qd%_bkL&yQF&5)o
z+zvc`DT?7Cj1w=5%D3$Ctfn1xQ(V#%S2rcpmitFTM<cf(hoy=abnd7-<C4y}x)YSY
z-xcbL3__A(A~qGz?cPy$$0glyb$3E-y5Ak@j!Z;`chu!^NqJmd{#%JuBU>AQ{Bu|L
zc6Zpw<RXfHnj3N9lvs4>-_LF}eBJh_E!O*GCo;4?nOPg64TQ!XSC`RhLYw<cQ;aml
z(c)cAX+mRv%Nj%ur3$CK?X;1Q=DxN8i8LWe(Qk-$sqB|}BQ1vCf7Iz|Df~i4NpGO#
zxCGDr7Fvl*D#Bo*)wrY~vWjReF6jts9<9eE1MXqOB@<z>(`H<<V9bh3HX^&6&cdZ^
zqM)A6!6iFkDWG$4DUZ-u>3m!&APhFT5SNN@sTfLh2~hwKzB~E#^dVd=CE(S9a#I;C
z{#-+sVWgbMwm-PLaW`uGl%gvzQi&6+Rhw1O-p_04DvVU~ks6HD65xZ1O-0oBxtgxS
zNIj92{ouyNjmXlcv$O*vhxteYMjDBnl4$W~8u|#XHGv_b<WJ`4W?XCGYOT1|M&uSe
ztlq4Sp8dRzZpTOmk(2jOwW*3We6FQCG1A3Hx-rtjpWRW693%PD>m@PPNAlVF8Ek+g
z^2(m&)}Y*)t=^}(_4IKDK0y+>rO)iu$X>nG@YG&M4>It{gWN+5JWLV=We?xqd>=%B
z!ABVI6pXfKs!;|zP4Z21hQZ$3$9I;&&XGj^p@*ZJqg%yK^J?ia1{{aMOCEM_c5fM<
z=GM^X8Suh>aDo9Zf<C1WuWeof-Sg|{OAL6KBud)0$(`a3`U(R;G%9Y5E$tMw)7Kc_
z{XM|R03VRVq4sU#PDv;2Vu0%;QC<<f7Itw9zD@p)p2SVB+$3SnqCE`T6bUXI4ut0E
zX{LUIBudMo-Qk7@%^S@>ZH>5o(iL<6j-Fu}Z>E`NasBlin7-iisb>XEsGuo!VYi@b
z`}$LRFFlW2|Jh3twnBP=>A47NT)s7qvKn43F#w!yq-y3y4`-Frr>pcy<)UkH)-^o?
zksqHRlScdsv7Y@;Gv}?q%$%S3=zzULNf%u{zbC17I#d6d=5+cV;$8|DylM>G^1=<S
zpZV9Xr1&Ph2v)-Xf%yaYn*-l4urYT%CeHgdag{l6q)s~U((=}vr^oj<(0~tg{vG(%
zffkb_`OhYTEci81`9hPkKFGXZEPrONMfTcVO<gQMmi2e}-{fyE?=}n~&ET36vf3i!
zn(f2Fdxb9))^*u^ZAhEQFNz&{>_eL2L{@gfmIWDS2wIRwwQ=o*G4tc=NHZkV{-*v#
zv63I`|7Q7r?Ea?5=aA;4(EJKx@7_L5wrOR*@sWhG<@GJHQzWAAz`yt_KD6Jn)1p%n
zQbrfx+^%LrLl-jDBK*#;HdIR&Gu0BD13eWwMIU0S<v5boZr0KjOtqS@Wk0yMagnZJ
zs<rq9-^q=WbRAQz$Fb|q#vR(hR1f1SwL#GhOtq2gdxWVr5f<Bnwv9HrnW?tmYS%^=
z-O5zkIOcYy+QBh*GSx1Qxtpo>aN{0jst`j{TK19*009($s~cD8eine}nc_Ik0uVP-
zGZ|z7h?uD^Lo5KX67EEB2Z1oj2!%MAn(ZhHK#&9u&8CJv!vYW?Q^q^X0uUZk!;Y~4
zgvOK+&a(i7#niA9EC3-9UQA|hW<xY&hJ|pL(&GvXKsZbR*H{3;VQN?>3qUx8muqm^
zfN03bfN%(J<luw`F^~Zu2&MoJ3qT|+DtSn4QV<Cl4hV&*^_gJ-2zLh4eJVsjfMYly
z!oiClI2l2dV*m(qDMwpk0dUF`ho1!??!l|1+KpQJ77N@?1IsJ`zMJB>%L4FUA}Oc(
z5erahj#U=;6J{w-ZJhc|kO96E6C%xbcbToQ!m{`jgj}7FsS@U_*Ew?}$;RIQ3!aC^
A&j0`b

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/ssd_chunk_state.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/ssd_chunk_state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..021bd33392eb5144905f7b18f8d34f7abd563cb7
GIT binary patch
literal 27541
zcmeHwd2k!qnO`^V`yvUF-~rwwctN}miIhkk6sgO)HJY)x6hTsyct{OU*ET#Hue~D1
z6B8WomO$533FCEksLWKB>)I-F99OK$rZ(fGQiT?^Ar_@S<cbs5{0Ge_p3NqI<ojNu
zfd<$RrI}eLm2$K6;eB6!?|%LI`+o1e)_*b@brf7PitkVV_*)e9Uy%{6!9?KmZyPA;
z9_67t^bB<oe`PcDtn8v}R(?@VQy#fTF{7AOUR2VQjGB;N0qx9-$W572it;Eus%iQ|
zn!ob`E%i%jX<kZ8`%+rEm(tRww5C)ZgU2`}`^fa6jIR&0g+-#y#tGRKn}pnuMQ+X_
zw`7r9L7pp-zAcM>P8NA?7I|Kl^zB*X`B~B_$f94EMefLwPEi(laTd8Ui@ZcyK3U}{
z{jTD}M1u;y7xk|^)}5X*kKR-Mp4?O6(R@_-p`1@L>!{a*zK-atJ?fXxcY2(!sIPw|
zef=w^uY1Mx1^p_I>Lu!{gVyBR=jHVENqx0A{VDAf<*EKLz2kFRBRxJmwOQoZp69wO
z`Yw=5J-78)<PBNUY0RSElttd0B^`Gb{asn)Em`EPS<=V(NUFYVS>)|m()qgPk&Z0s
zcV>}yNy{gjJ>3%Xh2anL#SZfw&R(xF-{I5$D$oBP<_l@N<LjC){$G2Zd*Jz$nqPXe
z$aiOv?~#7aJ$+g9zpnYQKTG<1v&i>lkq>}e%HI5%<~z@zbo!I~Jo_c)L8FKE9Pk{3
z+0f)UBv}5FvPrpT=)3eqvzGFVcn(9z0-+<GVF+1o)2^eR;^cAMC5y>?GclEqnfA@k
zeTsgAi;ii$^OL@7GYj6BVesgQ{YOSm4_`budiYZ`!#`CZ(I7!v{L?Zd`+&rB<Choa
zu8w-A?@Yv0bC)N^JYGm%Jw87-IX&f#$*)e_j;TDp(b?%a{&(zF%;JTdJrkoK_D)=%
znV5^2QW8ueW=!w{qlC>#-M%zE=H-R9lyH8*w@ndcq--%!Y$7COwF<EZM#nP~BqBa;
zG80}#qUsNv89jaC(3x)>J$pK)KRj@H6a<6A1E*saQN!&&eD?T}@j_@L;nG3?t<}#z
zQKBd4OZaOPbtU2H2#WaYp+Axd{dxuTGcR9Ka7C32CIdoDf8h?f$Wyua9U@)q>Wqt3
zvW0g*mQ1_o<@7!Bv{=O~#TK#pJ5Z-PMvC%Nteh=mElFO^DuB;P@(R|$<|8M{jd<JX
z#q-c?zTh!pe*Tgj^$P@je<_ry1Uz!;dom9-DZ@@<4VWieic*v(q<p#IKFPz$(rgK9
zBxS`s%b+fq>6j(cu?lfWI^|I3%y>4*c)4luD%fJS=nk}ozfx3NslIb=OJ98zM%}jh
zRig9`j7*Q>Bc<S5?J)i%kc#9OsbcNS$PQ(bK^vNcdO?_!>}$%unyq51(|eYTx+*r0
z5x1EHs=|Ulbkzal&I(;iF1AXj7laair@u;6JBjxL<gaCQlG;*vW{!d#dI`#?kW5?R
zjm?%rSza!EjW7y6QVXfm;^$9lgq3~GJy!#zt;y&)cq09^qV~26J(K!nYdtupC1zBA
zok&}%O)A*BuhJ&BDVOFrgPA>`V~Vj`(_RM3Nc~nQ&jVRZF+1kH8dJ{uE>AF1yu5wi
z1DdIUu*<;UFpBA}G4oT**zD-E2j0x{G3E4}ud_X-n3;!np=yj7o12=5sV9N;wYA2S
zHzBDB2B-a)a(rfN_F7Eo_02Qz0v=zO^)Af1T;x@I&Bw%)1Ect(hgU6mb0VVy24932
zHhSR2Mj{b5cYJ|=X(nFGULsZTZ)wI1IWjnE864<L4iaosCJzaA29uAZ00~Z_3_Ly*
zQ-q`#NePltBu*r1BxOKi%4^e}(Q*Fga?F;nDTr+_>h+B=zL+IVHZce7GCw&9Z|=nJ
zcuWn|f+~4qDpF@JsdS>AUZ^xwlvKx?Obcw5(V6MlX<tm{@sar0MlpH-_<@*`#PGVH
zd}S|t{nP7i-|RK_wdre3Q0l1(U(>CHuAc6zT@&t^=}Ycww|$rA=iE1DW@g>9^PY*B
z(TQ6V;|tJt?wPUM6O7kAJ2rc1%sqe2>-Kt~MR?oFH|CpYzIHoSkPsv~Z1SdO^y&mN
zH!;H;fkL8T=FNfev`9U_NK;1h^0C0N(DlcL@-0IZXQ=wgsShr^e__+mym;`5!IZqY
zc<?ucMfdYp^CRUQ8%nOcZ?mvJqOd>7FT8hi<z~d$wm!i*cW;bw&b^!Y`yz_mrwU!f
zR2Hdh<4kRwqHXa|RACBMM;uL@t%*}KEsjJL*5KJliJQxFa|-w3v8P5`@D0vb{*%EE
zhTk7v8(S~ltm@~C{fmd5Kp|fXycWD3anx@b8z3oDZd7A>`+Bfy>1MzjYUVU`Yn|&=
zKd0AgAMB0v9pf5~ahhY#<TA5raVV~$OgX`Gp;<1kfg`bP#iG~|M<b_cT)VOE`T4;5
z)Ppx817|q*8BTKsqUWd<k3e*rGflsN(=@D2uAljN%li2T^O1e0xaL!w<`n4LREr~^
zUr-mR-^1nafmZm9R==Dd$d78wQ08|}h7`f`f%&kCGu3P>u<>}*WPPqy=u}^5D7E&j
zOYhj09RbIm%*C~oQvFOvX>y*}a_`ly)J6^Yp_)i#C+Fzo44oV29!`Ed8aZ?RITTp;
zTb&_L@y@B`i-C*ZZ;mS|tpy6C)h|uGI~K|fPI0DEPE)!h`v<iRTlGTVLhw@Pz{-`M
z)UCDtMdP|`)7Z8o!$KDX3W62E$<XAcwt8{!2``Ci&F|8|_Mkf840Uqa^6=!^nV+_-
zoqvBm(tVh#Im~H>KWY8M`?*}EQ!NfYS3$Y&9)9a^RFf0c=(0D!#zn4Sh%+AkA8LhC
z^;`$VT~-IwK~?Bncye`geg9)k_m*Zir`i3B!C#JiJhG`7S{#T%oyHP{xe{<f5n-?n
z2Zo_KIF@1XDpY*lwy4IqbKbwhyg!F$gZgw42?fTDOP=QA982Slr*TI<#Tgo08r|H&
zEY3w!6W*8>!#Bs6Yu-<Bx`*Txmp#+7FzbSXZ-SpA&%qt$Jdju}?-z~EO)>Ke*Sw?5
zm~VPMW=?n@w*)6haC&a>zKn>)v<3A`nd+B#_0)a75J|U(6v><Lg#>>lAtc^arVMk-
zO%yJnmq=2`17=#@JrWDhH)2j;rN4pXB#?2O>xC=n{=5U`!|%!cDHXl`6DEOB9Q-Aw
zLc$I6J4L!u29BC7PMQ^EB3-F;6)CrhExQ96{_<Cf0q=Hyg(!xE!vpSEDLM~=Nt)&Y
zyg=VWr^TuQ7p9UozgZ`%!?Lo(WkD@sD%0Q`Rq_rSXb`t3d5;2zr<Ao5SH;QZ2}V4L
zhmKq+xQysVIoX1=dkQc{i%=q}ql6pbQLsfqn`55-Y8G6cmx`C{D-y3}$9zhJeEhXg
z-wc<5ck#fqe33I)2Q5hqR*}0%+*&@K$hAy5JEUwbXv13G#U*^bsH{@`s9-hFhj52=
z2yH5ifgKz*35P?7>2HAEs!gTnZv^wZlDL*lqVh;A#DX(lJSh{w5fZt8E17so{LMZz
z8_5N|+r*X#4#oj0NPqK9=wr7iKdJiHZR;J?RUEaMz0<_HvHW<CIJByiGvnX2LmsYe
zeI`n6TQ3tQEi;d=&=)N`l&%qaN>m<LhD*9>Um@4l9dfPzXUVlql&h43*1)!6FAC$7
zZNo9|Z)aQB_6+9`d=h^P+alEhEOkY~RlI_JO2#GR11U9&O6JH=1D4&zwg{t|%y-S`
zN{WE3I@Xm0HW27?vGu?cD2wRVvyH&>&oJI^4ASp>M?ta8k~NUMat%6I8O*-~XoC5d
zz)3j2ki2ET@A((Xk~yamh;Q4oln!upZi~e~>zVUx@(J{JiFyrv&WwxgWINcdk2J!p
zLsPe@2ioJrYiBAznZZ{-@#p~(S9*N6uT3yjD5^$M2gGG2PCJ8+Aybc}0Z2?S?wP*9
zG$P-Gq#1=uFp1{9F(vQ8%O`GKBN#wTH!(9YJ2B@Q_1%uiJ@Y=M1+-n=G371da4Rp7
zA6>%w0<V^7!!)~)bR$U`m%OdngR%=qUPE#b$?HhoK=Mr_urG;XMv?pxk})KgkPzp6
z977%?8QyxjLC5r>%5EUM4UBI49PhTz@;`IT9#rW=72ZP!vzU15fd7-<t1%U+B{=G&
znqFofDkmKDnK7>~W=caPyvzYqkdKXz$LOmu`c{m-1l~IF=dZ>TV2lF3;vFBG0RV(=
zv6w#9a*)mVC}J>PY`B+o<TLe{5iCN!*drem`QP7zy9@BodsjjH?>X5k_}@<~wtMOo
zbx0L9Y+9NYhsEA`_%$xmVGj>;h9+=>Ud?NdDzs6JBQy#waa3=K<koTey0v4RuIHJY
z*7iP=%ay9dgK-U|)J2TWu$wcstRLJs#<dS~#$iq|ym&CG&@D{_=Q&gLnsVL5)%A0x
zeog^SyvW^Oua5K{;aZPyc}F<Kkr#RX(Va1YP~)bt7LqrDpO=CJnmA4ETFrXyPp_}%
zKX7lH;OdWXnj_$%n^cR32qFO5OTKqc5&*%?X<TcEe%i9`S?_vqVq>0bOyCCzZF64m
zM%c{dyE&74ap;LP=U)CweyC)ve*OA`=E$Dooa;DOczn}(V#|7pvz~gQ(Jku&I&gy%
zfPlR+d@j<wkE`Ct<?UNM{xrWf1rX>A%XNXe;L&hnB**<X%+K!p^_|DM!NvVgpz19V
zd(E0*%h<6*V{Z=yhN1>r)K>5#Yv@2If5ja>z}f27&aEH#dHMR#gVD&|6OmJ=xxJ^k
zrqi7DOw^VKaDq{{M1xNa&i=OOk*fCf>s(bgXX^$K;lO_^e>n8<=qES0zO$V5oDdtp
z2)$7RDQGFJ4${lX<B<qQ*dD3x-8jkB_jBd_5682B5P$_(Y|A$TH-k5^Df%B;x#mHx
zdhnCV$L8Z(=98THB-U^wFaoV+(Jd(;0yMK~MHRdg9^&#FHZ6^7KF-p%q>O5`OK0D0
z33`HEfp2k|q9r<NFfJbm90=y!D_SYqvet6e+D$_p$Tj+RnB^OR8^N)V_4_R9%AaaX
z!N#zYv+d$EyOvZi3es6~a1RXYoEA>gvZRh`?4ibpYd7aW^x<t&yp1w-#ycsKb@^Q2
zTySJ7w~EWH+RAlvx$aHluEj%7QyAB}GSWT5?Hb{1Bb;Ic;I6Dg`2}}&K&sAi?z5cc
zYznC|=Or;F1!t;Sv#%?DI<~HU;N0lsTmzhO5WqAZ7g>5eR1?1OUlh&EQJk_06OOzH
zN))hw0;yXB5s<!vxPU_{jx^wKY0Ni%IVL1EJvR-jy@-x@NBKMXiKN7LNbZt1Fms_U
z;uwj%O}Gp@e0=!K=`#ao4xS#z7qxIDfrp3sR|6i>Ru909$h^|v1DD9~fR{k#1*<^S
zg1P7yyLeLRis6HL0v|MpQr|fS!Uv6_7`RlBaRGc#hvr}g9MHrzC7eqF1^Ao6sci;W
z0E})P767AGPe1~G#THT^1|@<7f*!we>PoGP5)BGWz-E437t+WyN9AyjhY?&7FhVmA
zA3!_;CnU{Sa9J4*s|I;FafQ*0R<jLk6>_5bOTancd{znlf$90(V2)S6RJ>$Al6YcQ
zQaYa+As=umDAt|swj`jJmJDbi1+!q;TA>$qWoYn*J&7lR7E;g+#%qH%Z()-rwZC1|
zCQ@TU4sK<l7t!fTj0E0gf%F9D=n6bXnU@FvkN|RonEnm`J6c3wM`wDDY393B2@|6>
znO?W3MiRgS+nrV)MY1P)MDe6R4Olf!12rV-Bmy;h(?E?bwnlI-2&nP5&=b2w`AOBQ
zb=$ZgYp`tQxaeYci$RTT_j?le!S2rlB>a1JC_@{cnrJkMa@#ikv{zvs!aTOcdO;b!
z!pP~{q4b?Fu0-Wc14X|4c<tXIR|F!y{#^Hpa+Lx_T3AsVr<VYGL=;;B_5cUCKMhjZ
zi?g0bC5&1BKDLkDmp)6~L2#vy?UU+109Pb{lq-(R86q`*KuW!$GD^AWd)PkVStW0e
zUbdC3Nr2Bd%eS&^!1J>m@@;H8@cc}Nd^<S$H6pO36Tp?f18^ldAK>Wq0`MB7nG%o6
zKfu;{O8^4RoSg|gvu*4X=$gERppyQ<xnO#_%$HB;D!k3=V95aAx0z+BKq=<Btvr>&
z9r8vR6qN=%XJ$au)>3niJf;87H0$qBf;R`Z)s>(9GT(X0Ip=G7y7!A(M)FB{b3pv0
zz?0F-?q~Or*2YoR%l1k>5vo^yA`Y-B=y$TT0oF`OvOh5w)$iM)fwE+dy;3aEwsGf7
zmJ^?YgWF>5(2M><qV^Xr6(*(*_8@zJJ(LdCF_Uo9Wf4Jemq8%H-3TH_z&G_QY{;2i
zm}RC>;|dZtlB-B?D-JV*WEKg*--ehu49_D;;%&*@BE0W{n`TU~ONQSPLpGE!*C0a7
zgkDJscFIKPUILtZF%b8sSgN~7mXHLHyp80Kkfh+e?<4yTl7E5Z2S_qNyk(H_Xx$}(
z<uTV$i9zDUTWZ)|16z@9@n|1fb_{}B%nc+rk=#PE56NvLIPLHtofcYv@nK}#!<z`g
z4kL#7W7J`h_>p`Y2`u+e%p#Jvfbg&%xQFu#bDlBgcFb}Oz(B!iBwKs*A_?;yjQA%=
zz6-=V1SAu-`;t75_Bqnfz8hl<>{J#u+`I>w<-)7h``=+kg$*}@axvhSxx?m5B77#x
z@>F0dI2T^v?2T*JIs2|nQ_JE|)R-H*9(X-;ku%gHE(gG#F{tBS4&7Ti8@$MUeF$Gv
z0ULIV5sM3fwu6!Oqg>-rPIDB13#AHn$vo3g8atqh+Wb&;q@ss&^l+M<B~$htLD?ab
z<X)lwYq(%klNZVlcdYetl^tAR#|F(6_C)$la0Mqg%?W}D{#K<C?e0-hN;4pm+c3h?
zaNe4OD{tfS+n|Yrv0+-v;|iKLEp7mSbM5y=Rz^a%*E-gFxrRQ@*|%|hGk0L|*l)fv
zs2Byv)AOT&;8ftvNO{Zp09W3@nL7Xkwsk#C-3m9Ymva?uoVo3pQfBLbTIATD>s17D
zH0=aAin0jXIdd&0?t;YmjY@$xvnKw9Asvx4A|h$}Jt2~s6;0Hb6ZD6#bNO|g5zyC2
z=b=xmT;~YaG{PB<Ac}b?a46UtR&zNBL$0-R26xn8{#>oF>Xwvo*xsc33i#zV!19&w
z%K;hz%;Pkr%L$%^nIW(Ck+wEwa6Bz6UNZgKToQG<qZa$S*F#mon=9r>MK5RR1-v<w
z`=jfKH%DMYo~<7`%DNYp0?JIBp*U`!EQO(ta4%QX^vK*4t!#_tI)2m=@`SopPDE<@
zx!nG!y*PB{$1S1rEAx@MLC!u13FPgkA%!X%XDNdgscMbp7DkHOx!iV8{?W;>f>++l
z*&!o3Zy)_soW=lWAAkXuHwbAcs%#NR!$jqlgcibgIA_bFoR%lmwI7^+|9rHdI$Bf}
zURb-s)%I{jJsSgDQD0=>H0L-CsTQ80KbOmE>|dy;{KAz>@7eA<RvkZ_i>s-;N&vWF
zW8>7yRMb$M9dF;b!8IM^tcQ50JYOdPmFGS;q;TxxTz=~&4`J(<{y21&Ggok$3c#d|
zmjBQ2<U?dJG$x;(n;ggOyTX;kSPKCAysN)!xJQ9sDBKnOz5#xhU;Va$rKRo$43qTL
zI(V(hMyT)5tl}*jt9S`Lxs;BF#x2Mm8Cvjf>wUP5k6c%vgqc^s5YPiwMoFEe@j;3C
z>xu-v_mTWVu#EBYYkm)TXqWU$hDn)6@m-ByCn_1#G4r}2?w`a>=^9FXYeGQSI$*z~
z&n%?P>PVZGPQy1RSn7wgN5#@W)vN-jhSdPovRa@zRt{9ps(~5;2B1b(2Gqo=_<n(~
z8N%eO4TLRFGOLhF>erL}ss-p+v*;wxNr8?H#??;g<iNPH!nk^&-W=`0n&q;Z7wdse
zUKSm3x$IeV@`ZMWbP8DQj(HVk(Gln6$f6_8tB6%Xj>W9PLoHxEOHv4?)M-yvl>QHB
z_*x116A&7jg4GSpr0g_RNwrX3`lgJgUW0LylHZcQM%|=cPX4R}*=+$wBUGM=8`I<b
zv50Xnrjr+<6u3?7^Ijl-F1tqsXpyIwd>)hfQ~;h`eq0G<!qT{8$H^Ik2Qmhqc?La2
z+^c)+;F*D#dX6lKdC92;FU}5Si;KMBuh|2KDlU1(`tMXGT!7S$`{q3}^RU&x+YbR=
z$pYo^Iw1Z(E>hvzk2?Qq_k-Q*H#U3^kHdoPX2Th-{480D<6X*jEJz2EP9&)v9X-h6
zgZ3p(Sm3;rxp4#iY5tf+8H65CE<J3LxIA`kBBq4%2Cy=xoS41lyUm1AkNC@q@deKq
zo;~qQ+#)9ma61Ja)FiDJGtW)jf)f_=Hz%0U`N`2%mytP$anbK0Wd=_<<Maq~2=0+{
z7|FAx8rZHu&Rj59VRB9d&S=E6$sHdt;}qm6w7Zx22_}#2;sq>(5;=7H_VK-C6?FMy
zEU+ts`5Vyu-{_s4gTDEni&Wf3*$eJnSh?`l@x?<+hoXAJa#x@$cq2IdNbig&oDsb<
zsy0Q`j;Ptb><{?E_OSMm*%i^aB4$_ARJvuVf<@QxNzPQeR?e9kV5@-9w)}eFbu`-4
zA;;R_UkyJP{>9l}e)HpR!a6x_F2H4O`#t@NURuSfS{w$IymR#8u_sy+o(I^{IykK(
z)Ox>Xwdelc)xCeOZFr(73zu*j_h(e0R`(A%d2u=X{@RukSHkZz6;)UkS7S&+6_m!c
z7}8NiRdGFr3{*vH+=wACp&W5DhAbGeV#r1nRK#;26wjq{i$eqN?vCdnXBW79<O-<L
zviq;Cz81dz-W%~klsKs3QY>Kj<a>MKMJOqzii+>ot=5HG-fM`Lprn-Q?2B|94y!*f
zy>D8({<y5=ld*q{JMmT-RaSG~zv^E*`Pk`>m!qhHDzE*(_`Y#%>~YzycqNLe(nQrL
zs-c{9TcyohX)`2P+7hotVI5WG+H$%%r+b}#>}-v@P*|TKYyjc2MyjwX-h{WCq0z!V
zuAm|A2KM<bs<djWq>U?STOWB`viDgF2)~e1x<=RxV8{zjM)buIMe!G1nUa4Zqw#NR
z59o&a<o}^hd04BKwudON4(=N7n(mtKTEHffw0hov*#~SQ%iAVaCS}Qx`<l1Sel5HK
zVQ6Pw{C&UfZDYU!Yqc<Ydc;<gWE{Ymbphj~Tx4xY<{hvE%&ay|Ptw|wF1aXm<y(2I
zQmXU;Gvr}{vM7l5A!7Nd7>mfdk+9h2^wPGBUu@|~*lVfWpf4n>CRPty_Y=0FU%6yl
zGA)^xERzb494sz_s7w+of|6LUWG+`snSGdA9U&H1(l%iY#Nw&|i%UUlEy3=>_qUqZ
zR2pJyX^9P{3z$Hz4;X<Oh$UtuHkgTw444f;ZibrU+co1#v$ZT)bgUwK1#K;<baF&G
zxzI~eI%2ynFN=;iFMAdpabEc_zIMv1Ad8MTufi-k;=CMLbc#fEFNSAgr}C6!(Gi!Y
zG>eY7JWf`=V_s!hbi{d;XVDSmC29XDC2T*CCG5V+gxz-^hMcsahY<RoD|R{+wB5|x
z!7PMrDZGmzn1#4t5s(KIlk(Hl1Nm_gGX7&IflJB!1^n=*w$!*83AP=HED-ecz)DQm
ziOjzQ_D)3_N(|P=b_;P3EkrbTz(RbYF)ix@`ruILOt_gVY1!1YKG9j08v+e*CeIV@
z=So{Qb!~uRXxpE{*+Px!nO0e-;tj~u>I61dYKh{dw*+JP`F+8}VtfPH7jF(eg(@#z
znD|Rjap{;3P;(6l8k79`$^#6Ak^CzpA0qi4l8=D6tTB3!Uko^ivY#UP*GRqt1V0Hv
zHj7QqjZR)`Yvs*FdX%>`)rq5YF+)O&Y}Ae^&~zld$82CiDccd}Q<3dhR<;i=-hQ-X
zb|CXhP<CUV{R+tc0`pNtIm_-(txj=@BD5caL(vlF{R^uXIE7<zVDV;97cF$)5n4`R
zC%h`Ew+4qeeNpK8BYjy!Q5MmcC5_I|%{5iT?tY|qM-=Xe-W}B&m%9Vqu>DuP=7{9C
zKhn2H6zvgxdsLshyf?5nbm{)()yt3cH4#NkL|^k%ZH%Z30b^Ze11v<bujg;nM4SVU
z%mWe4K*T)o>$=WATe#<c*S|6F%b|~lmJCn85QY7dxNI;PnhM{D7@F6w|LoRZ-+IV`
zv1-#TseY$X8dQr10MgQ#MW$%W{qEK7`~9o^f3K~7qH%^5oTmCSsu)aBFhS+;OH5Jt
z1yd9ZP&I}$RIWX)#Sm|bVu&|IF=V1_g>f^6cvBQZyeWzyFhw2lJP3gqT2Z&w^{Bix
zo{ww+RZ@EY@akc(I*-H)QQ{C=okb`~w?k1<DvsquNtrlSIZ7(TI+ZBNFg{UKlV-Kn
zq6kb+ks<3sQ9YFTgOc}4z(6f;i8r9AQEV+Yp`@9Dku$tH93Fe`XxxpGU1CWKN?J2)
z-8K}qXPC7eDC|rZKI;M@TCWZ9J(R(=c<hV5RG7C||9!zh>u{U=S8dASzAP4N80<&1
zR_|Kx+IFy5ZEstp?Y@LXs`cyOy$w%O=9Rdwf7>FB@1<dPX3$AkWa4yiHo?oU2-sjx
z;>%jS`hX?Pnw7SCZTQuWG`%lr^-9&A)dp+<E0lw`czLW-1@^H@N*gTJZQ4GZ$;l;!
zSPC(~Mv<_9L8=pCr+xv)gciihZ(vn#4MJJa-_E#FHe#0hNt`IleT85jWx1~u?oTQJ
zfm8X7XnikPmuz5xtHA;{`I5eXlnwm~7Puv&YQPG46AL_Pxv?f<fj5B#t|1mUcwt~g
z>xk{GC$_hNplL>8fty%FI|17SY6)0@LQey=u{xkRWURt#1;V*tKfkbzK_@SZPO_ar
z$DTze+18+w56|IFc@<>Q5$9EyMMs>M1LlOC@+!)rBhCx$XQ_0=d6j^@Dy1X#FG{oM
zi1R}GSt=cIUS;s)Na=|4D$k-L&Z{DejySK%EIP^O1NyXzHSAcP>MT0q^1!}2$#lf!
zsm-DzE>9f`U!}um1<D4yzmwR0J%kkrc>{!%iEty}{{(%O^e7Ax9tFq}9!0YVNp{J2
zYcmX4^T+qlYIP~dDZUKymAnsmCdj;l_ko}^S>Q<XK4{+iV19<h{V|r5_c~%qaxOw-
zz7o_EXZlQ^qe^s|W0c>Rvfb<W0a~y<5c^fV4r4a2qYX<;5bJj_^g|@X6Zta?okMaS
z34$9ha~ko*e#M_+DtD1AA$g?@Ps<qNFM%W+6ZlNw{G4xkYGHoC%R4E=HJL)SFcNe~
zL{7?kz`Amnk5NjtD<wS?NGZAbD`pV&gO}d{Ha#|z*s&Bd_~w1ck<S=0{|3_{4hd<V
zUm*J(ATc{`97{!m*oe7%nSYBK{|*UhRN~N(5rJ=}G+##S%?RI4Lgy(lG?-sOglQZN
zMtFJh{!Dev2Se`<af<TAqrsX`?T-G8!M<fEhFt-nlbpdBF6RuDu=B_YXR>NIYt5#$
z4vs-(cX`<G`L)T2z2lL-BckYt=sRA~<%#O^xAY~Pz9d`=AJ^&HI20-0|46?-qSznN
z?|-V!i>S+^=8`RQC1<W&Q^FU2Za!2+YKI<~ha#Gxh<WHY0$7hD8^72C)a2MQm2sxB
zsJUnhR_o0b&y8wwD6ot&I3oJ$xSlc=Z5g1Z<>B&8Lsit^cu5W%b}-FNlnJ1AN?G(f
z`%Cy%72$UH)X`^DO~SW=U*cQAFZfpAQK>PcL2zG-Astm(AJ=2ZKo!@-jTkba4`#-Y
zg(|L(TQOuqe=7$=yl;geJ3{~Y5CXSK@UjY#b%=eTB9x^2R46GGdr(f4l!;@NqohKt
zQ;Cu)u}(EgYQ&yVElTRdevk_#^<qf_N*Xgfqb3wKr#nG$Hwt%U2wPCtO4YV))%0*R
zJsahZYxcz3P}ok@v~E>*bJg7&*2mSm;~gmM%n){=u$!uD->U89YI`?Y9@qB8dr;V$
zwpOtlMSIeG!#))Cr-}BWXdj*CFAmTs9Hgn5JsSg$s{7;niQoWDRqx(tc~sRGKS%_J
zQi35OI80NueH$kq)$ENA6Tt`#-M^m86?Hs2f&$(l{07Z?gePH(P(wVy@jl_-QHOet
z$>sl9t~_Q`!<y+C7k%7iBhzHeir*@0=06lWy5O6h@$x%w(F%`g$=Aw8z1~^=V|1D^
z_>`G%VGhn=?<e1XjmfXT$JMkj_j-MJ_MM!RCrgVw4208cOi8|LN7n2J@<OI7GI{f;
z*9a<U_Q3bj7G@^;84g%nEB4yKw~5PXn*Q8I(Z=6Wb^ncW0#YNhF52%p-*P_H<SnU|
zjR9lu+u`dGyK7TZ4;%PiQN%>-^_!Xoam4JRxKV9X#VwT19=sLNls(VU$z*_J$TW8y
zZ#m+!b2P1j)iyY<do*w~4l94a+Hnt&VZ{*7Cv1Umw~(+7fh{6zDQ;c5ymC42By1U#
zmw)f*%F%c^VJl#oxVL9zPrQ<_Rg|One(`E?yqd5z6dV`VtZL%5gssE71*-*d7h&rK
z<p#nwQU#8Cw^nY&n+OX_W_(;XVRs>GST)332-{A<x66uGisK!G?G)H9!gk~Cy~dTs
zcn@KFu?jOQGoS57_H#KUGkl(p%~U{cgR!=)`=TXf>y-}~&M*?qFNoUn;p8(sD6rYi
z&i5s}y4G_ZUg8YH+3xQYzihqYh4FVzf2a7iho?Bh;cVq|uD|;I({!^@_1U**O6z()
zMz=r<df@+!NsP2<ns&pIH{gnmfyQ_aVN(N-u&IGZSb)<??l-PB#)}ABnpiH6I|*Bc
zL#unGJ6=xM)JP+2m7rWr*cw5(mauhr_l=b|;x59Hk%j}Wfv~VH%MYz4!lp(VVRs3o
zY9VYZ4*0_>hvRL8Z5Q(GAZ(|QQ5Rvmg)!Vi*j^!{-GtpEjNv}Q!d#pfrUNt)z&xA~
z?B@kA5A%Z04iW)BbSFs5Px2}kU^HjWJ%1RyQiJ=2gO`!P;I#{bH=nSnd6BRVVb&}n
zELbW0;4L9+nJ_NO2}?#R4&F+_RteK&HDPN6<yykl34_-~*m_}1H4wH@7=TTLZ5HCX
z3A;;BZXs-|FaX;K+b#^i4#IW{1F(y*-Bek{{adTI;yr}zrJUsm`p0(@c8|dJ5w@Qy
zul&I9z9GJsurPQNllcHm1Tc6LPt|^20E0InILHgYh)6Wq5HA2DB9Y@TF90I~wtm18
zNBjscIGPk3;{~wS7|P79vhfqV;FR!)#82~rGfBZ&UT`icIL`|%(1~~0XRi@K`cp+J
z14yUQ8nxuXCp1?&LU}*j6ET*3Zr(+g#4pp-VfrX+_3ff<@f$R?pB|#0%TLp^jo1zU
E2Ru9>a{vGU

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/ssd_combined.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/ssd_combined.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc8fa0c3cc3655596707b5aa2f6b286f5b5f1ac9
GIT binary patch
literal 5410
zcmbtYO>7&-6`m!R<dRErNr@Cm$&!|qWr@}gEd_~OHFae>up7g6k@zQp8h}`FmlQ4j
zd3R~a!V-|$0F@D-QqY5CB!JbM3<;=%9-^GuV~ZB(iZYPJB1Q$YIpn6q>ZO<V%`PcY
zKNbvhBo5!qy!YnKo0<1L&R;zq7lM){KgoP`0-=B6My+_O#7mYy=n>)(Ph`<J{<dU^
zoMqfXVA`6s=E!l<pvkN)XCJo%ZR71(M~)h&4BC-(=3L`0gQl`{&OPqVdB#0P+nM#|
zm~n<c79@~&+1ljwZ^3@|WW80R*1#rQUM0o5Y8+D^AvE5^(;uVpW}c}2xf>`C=m_xM
z8h^^d6Dc>(d`yf7kL3a#DT?<2U&{j`=Kl_xb0bFRPEp`Qk;|tAXgKZ*qLeA*fwaqF
zMlR&P!<IwSo0!Pu63NL@ekzfg=AnnFwxlGNH@YmkzuJ{7<)l&$cj~?xm(0mRRkA4|
z8Lc8GNtt{a_s-ge2ZsmGCaZqJ#vu|uR`|TU3e_Vd?~N%)wm_Fr)~eJDAvO_6fnA?^
z2O((DxCL#?ES#BHkcE+6gl?jk^@fOrL_1V5i|)#R5nxb0Dd^TrUVcjGL|(#^vH$rn
zF6WBzVx~ACb7ESM2WCnmKRP!xBE++qiFomWJXy%c?`N~Qc&@+;*@Q47BujEZjAywA
z;K_K7%S~|cLQ#rK5}!yGaub=nzz-H5=<bY^fXNcY!gOL-Y=YTB@R80yHHW^TgG=1!
z&0BPPg+9L$UEzM$4aDku&!W$`FS?)pV&lEd{_`q%{v~ju%V}KWg3V7Qo6Uw%<4a+<
z@I%`H7usqENOD{S*Q`~Aen}|k?w)h&nmz(8<>qpr98|2Y9B(Oy%3&p-gl56Dyal^k
zvRp-=^GF$`SqUlOl(m76I7&D01yYULEJtz$QpN^XXC#m0Ins`X`KkFfg*sC5NUt<V
zI_A3+$B~i&C0Mn-=~W#2EO*bJRNO~u@*dU8TOzPcycHkweR`~SVb2d1o~-RVZ=D)}
zOW=dOaUA4AsCFL8R)u^`J>;=^NH|xoW6!Bq@L3MojgFlUDb)Nq*vr?O^Ju=qb5h67
zNhyx`Q?SRcGp7&uj`O=i@yy|yX{+r7+#=U}RB;`324rV#2Nh4<PxwT@Z4AO4BkLzs
zruTRW#iH00ui{jEihtd{R<-9Nxc}uynUFnuoK^^>gc4D_yknhO!+{e@xm9LN3L)8F
zqm)+OSqsWo0<3m7jJoQhd4flZTWOlNC{1}9&KZt^2g<suVYbFOXeGSvUc<2s3Rn^}
zDOfS7Sn;almRir<aE+>euY1<2yHswI+iLwvTXmhJ(h8Q_!8(URDXw+zn%m?7P@zSO
z(s~mC2ZL`O019(sw%bHTDKjguxsoKa69Nn2T}TTe3n3orLW&)(<IZ>gg)%#MK?0lv
z2xRYbVphn5NU<cd1Evb8R4is6u*p(F67IpM6tn6MUQSG8I7z30kP0cem@P><1&wSb
zmyvH_q&C16qe~)Hd}DYvFgQ5K7TG*IaGu3vFVHbi<;~<Xa)!&AU@Yklm?e?nXLM(w
zBqw<JK~XSe4S||82#a{vVInv1fw?9tC?wv|iCGalGv+lAO}9ytTv5>N666xRpu3WV
zyqrmw3ShDo79`?hE5a#7B0iKN-c8+R%q-%wsM`Qalasn5l`U}c8^a<6ov{--F{4{}
zStl;&#6_LB1bU6M1Up~1f>B~8*2dxrgQ{VY-YN=mNz7x=6~vstXK+4Zx=Msx5`mUI
zN9#VIt4dAR>rGislB<20JfBGll8Dchh|hpdn+c6!IxN?a(e3$3f#bok_>0fvbRwZU
z@@cV9DoVPYH$-$Ne<5L}OV~|dlcZZNU6imz>@h{ecR}w+7zswrRGf&_atxeQi9Z1*
zydTo{aHZ$a?iu6`FT0-8T`GA^?Y_1JHQl9kbUsNxPH&QJbC(w`FI~|htxrOaLz`sF
z+=aR6CA&uZm#%EmZOiv6G^>)VO0yd6UL1KivUGoWdeyGB#4B`MCF3d`*J#h;xrgVL
z?JIUQ)Kj5*RI*2<d-nL3G8MX0B|BBRv)0EwN`IQJ(CsSOuF~zAgPJRAjBj!J;q-F!
zNzdb+3KLbSsLDk54ZXE8qPF%`n7-9}zn^|Oz46vYtP;PZQkPWblIHNLj#iCnSu8&+
ztI?saqa&Nqkqu%qItqzX^t{TBRhTiA8dI4uQ2Ohc`I#lluau>G6-QWedls)fy!OeB
z1>%^YZOXYwJ*1YJK5;J-6)LjKJ(+wwxpMEbsnz!?9fR9-CBV7hfra!w?p+!Ftba9H
zY3+MPd`W#lZTSB{Z``Y#9c$n=mbmPH5`G+BIr-U%RevRNrqLogsM1lDys38G+=7~p
zZaadiBdRg&Uo%~sOxL<~_39e45#8+l@y4A$eema$+H<?Y+*YaEDsy|c6$MXgluM(W
z8r7sxVa*rP0-c&avdd6G`~3B}cNfInF!FW)$HLIU#8OOcAK2h`tro9+?(%K`dD(9$
z|I%r-_3Rckq)~p*u}w!*x_j4(!qJrub?D0T(9gC#eylm#uSU;(+PA^|G5u9~*YB+9
z2rb=LJKx-BdF~klrFP^BFB8i{%Xif?qkjwjz5Ork&z&F4T?9L9fts;kGRy^5d$H9N
ztx=5TqVa#I``;0d&HjA{qE2c|aKW?91l5+_O(v#NF%f6N`_f?_bQtOII1rDJVmBbR
zG5K}Q83}9SZw&xG3qT49pyEn76dFLm1K{8X*t8q)zyN$U@s`iszah%aN;Ce2!JUC=
zT=@Q85Ywfcke5e|7VeoDWqZvC(a)L@qMxlsh}a$zFCXHn4_<&VQ?lN7v60`5G5xF=
zW9m$oUWch3Oh++<?U_^$kDz6OlarHdA3M}v*M2Z&Vk-@0(gDW9p|qy4L0c7#>Pi~M
zAjU)gtDMLd;U{f2TS!7Q<yjM?SQ+rMAnq;Z9jw;~&voas1#z#lzN*<{X4+F%MdiBE
zy8M2W1rEb?hqnIkW;Fo(DEq;rAWuRTAs1NA$O>xMk9+v~CjI}OX+W}3_SU4p@|?`E
zI2*tz3>d*mQjRsajOD*?z-s+?o0&`%SzmLxvqSa6wU<5>#ln5a8h9372@WSoG51j@
zFUH|w8*nb3#nce4hH<rr)#4k_j1dMl#sVVzMnz%_SNNy5*oUirTn*srfD(+#;vlY$
z$S@kFFs#7y=$?J<kOI($W5B^;!a4hDG&j|VV<5i*AE^Y@9NHNtkh{gegga{2oh|YX
z&>G#O(j6+<0rkHE!$#mVgFZx1GxXCtOdx3A@gdrcqbNk{P`B3g6HGL>Ymu1NHeezH
z)Ian9>)iF7e&mj*WY`F*v5<Hg4AAXDCJ&DrX5!{7a>*$!4cV+n;z2)t7a25PkrE|2
zla)lAazma8Pa*J_WTtpt<6*?i-ynZ6Qaqh$=)^fuJyF#Cc*s1X)#oE4chqe~PLu?l
zP9&;NSc!!0y!HOOw|;&jF>F4t=r$vdG<M$b<Wpp<#&kaQHay{!vch@sI#`LHf25~S
z?N|wdc-e#q&kJ<o1#15mo%$Aay+D2cKw~e^(6&3WaAooO!|ThZzi#c{Z0+B24?Jss
z7W%UNi}sD_t)VNM?kjW7AM6D2)15GK(3;()xqVu5Nb5X>38q;KMzm0y<_l_G|EF&*
l2Y>sv>R~ls;APK63vp&=g4`!{fDM%R0=qqz2_j-F<$n);F;V~k

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/__pycache__/ssd_state_passing.cpython-312.pyc b/model_executor/layers/mamba/ops/__pycache__/ssd_state_passing.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2947522eb9b0cbcf224ab52a6bd327fad058f5a9
GIT binary patch
literal 6480
zcmds5YfN0n6`s3yA9tUy%f8tcFT-MB0l&dGIF5r&Y)1vxacG^@n!CWlvfz6c4Ctb+
zt4M~lDr}<)P%VL_NXD|I5~))78L2;#s+GFe5J9f^LDWi>|6K=5Nux^bnY+7qZL`Kz
z`>TUE_ndFe%$YeebLPzcNw3!+C{g(@BEK~w^j9ooOL>Ob`9X%z9HJ3TL{S(1%A&-e
ztV=dXc98^<p)lD`Wg9*FO1RYfGYoSyNy{U|10s#SLQC;lTFTebQoWWI^;%l$XIi~V
zTGLBB)II<Y;R2q}rMX;6Yr?XALoSl$X<Z&%4|w4o`i4AsL7sjJ^XMD%;HEtN6y?!3
z=fN#``myHGx8=d@dHQkW!JT<<a&Nq+lrH{I{vhM%?6*s;MruU6Y1fBDmu8&sdmdwr
zOMaOki$?`zoQcGTVuI$)3-6wJC)jzu>+IuJsDGTm1i`kBz>xqV#{|xWK+=&xXsqfU
ziuFW#S%Dk~j|-aazLD5Kkc~`)g(4REq{Bfr9*T$Apj0E6o(KEFAzCm#k3qjeVFnr+
ziDw!X<RDTjLk@tOWP71c2fNvzq>?q3hMpfl29ri=%XAfqMdF#!UJu2)`vmLD6;j8R
zmvKA<a|UL^H-Zs*EHiS$xznA&^Ow$F?!0{Z^4ZRA2Y57FRKSq%zcU4XokQ_V_&}&X
zbM&%`_)8NHW!V5T>DWh?%+Ymnh;wk-2?atEdW0qsCj+?<%bc1fCLo+~CaD&zNE$MZ
z01d-#3xacUb}Z#sg%Q74Xp*yMgT@3@P8NgZVosOsd(s8{7IOu=vYWFpZ5#=<%vlWT
zEm?ljlVeZ$qBR(`2eg#~;451GQ1JkJ5=y^1{mrHEU7>%E;JxcrZ|p#h#XW)^XYV0i
z-Pc29)&rAXnw<2-3$ms;Ro2d1XqLEk9{f|1V{Nbbx&FuVE8WN5?*95Od|0-R4LMiB
zS+gsg^~hv7=i|x;jv>U1z@E4Wd!n2x%4+?;?hmdU_Q$g`zsKdsm1RA|d9gRRQt4cI
zb6T0Q`|H`4b93J8&UvWHo(lqTE>0tzZx=)WW9Fp0IlaWWXNg~4kfU+rr!GClgYpxC
zJTw+z861mxv%N#imk);60YNbo?+Y`aq@d&D!(l(ccyJ>PgO8!08D@rhnb05vLO~f~
zLb2YkAde0~xR=F;1XT~P@k5P*Vj|28v4SG4K!(SL1qB-)V#59kL6eEa!*NDX;hO+6
z>U7}7tRW{}V_BPxyI3%HkEG*o5YT8i#^Tltjtqh-CS3)rpiEaW_?$Bk7!iZh83rF%
z2CoHU#02}7DZ&I&NyJz%v0`Gw#EuCL>5LN-SRy1Sh9h*aFZ~%5ltVo|Y;X{Um%a#L
z9IQZP=EDjF&(8vnO41W_!%TP-j~?G80?{pKV&R*a+Z23`uQ@@Lsb(v{uJ3iq57z?m
z!QsGgWVkjSVtT{z+Od&iCyoys3kRZ+>w)3%c;8SgFdB^x1_p=da5NYm3wMveiUgve
z@i4;%21A3_LxG`THo&rUdN{%15X(kly>-Lmg5!B8*mIK(4uqLlILf>MW5f<-Pr`;u
zpr=;|q%WAcIDK*c#=5Q~adt~*$dR_?hS`dgvxYa-@ba2O`=(q!Ye_k(d1Li*|7yei
zSgN&yukGNC9lX3Faeh;-of?__8DDUKmmf&9ZR<_5UA*4=N$EZRUH|gw<%zY@CSKo^
zcze_2njcM7o#4GEc+-i*JDUa8dFxUg@2KYs>J#U_QCYTi&P_v6%38x4YMzjUzINMS
zPT3?$A=B52BvRX->X6AiXG_}Vz00Gk<bCe*L+i%24P!fRZ2xoPUz+~dv}U|At^Av@
zXwIIr&o|B2K4gA3aerdn*fgcwE;1)BY{3YR&3rILY*}n`?<L=x|H*DgmbMK`J8#K$
zWVte>*(x;6sgkOB^;%)+MqveCSn<jAd;NF&*9se^6k9Nq%4FsI!DS*<)5=%1^3K*Z
z)9ESIw$?U(?2)$g>jL+-xpdR&PWg`U)?+X!%kgb%amsU;w;q0?kXeq1N@R1VyppUU
zK_-#W2a|NV7Htc*CGX1U=j5l{mxtCJ?`}9cct^*U**e#rY~LYePE%6(l){?!1^ZId
zQtj`V&n7;dSa-ZRtK7DErgU521Z&bdulU%#WaW*O%dm!rr<7ZiW`>%kX6^Gwmz66;
z_jO-UN4BY=l&zYls;9J@lrd$g<f+Oj^(IxAGMDpI`A5`~L&)ITflY+EbMH%huBANc
zpFnTxZtLd|hx)PF3+1O!KdJmk|B;R(_Nu1|e3mCwd)H3uIVGp+AqT2p7t7kw&k2rv
zMK2VmNa$c3IDWoRVg#p{RK#((kV=2<Y%&<9oYqh4dPwMDkB2CyfD8}M8Oo%ZlizCO
z<o(*ToJ(nP_XgR!UcOJgB3s`>#t2$DshQGE>3d|f>O*Q$8{f?W_j)4kl|}45o4p>A
zS-VHz`4PvVSSp+ruMq8vAe!RP#{{kB)Ic>H0aVM$f$BICsGgGnHB9S(7H~?Sg&cWH
z#!)Z}TyK;lRYo$wxL)Z!Xi=0$XV-(EW6q<q>qXG9aO!<+S@Y=R+Op-*$+cyNoxI<?
z9C>tdZ8`Jk<k~9cG&G4<2j&Qw1})F<Zr~Le-UBCQzwvlEIgLhOJ%2?I_=g$z%jVRO
z!>Bt^8EQZ*aZ^U1_hE0Ou`%*}bd&IxTzdR3D3GNn>F{WzJIwfCKvD|BxPW_%52K$<
z1DKb%?%gB|5PT@{eZSKL<TtYYo@LVn2TwCRz3d>TWj(S^<d<EN(gDAW!G}bUchiwk
zKPkvBp1piJorx%8_&Le4_!#>V3FZ{mqfSQQilsxRCdyyFOY2TXhq^;i_7pH_ty|EB
z#kt4#33SK0SiDfY)VW-~%<<JH*BmXYqrClXrWLB0YD^AdQiDk?CUuwuFu@U&smG)N
zlmA^xbRYTEkkj>rhSN(SC?J`Dx3wZXI2<2m&VV(X^5CBez(pf;NKiy#ba+fk7yJh1
zI98CdzL7z81b!NLF|lJ>u!fWjMnchSf~3X?mXw&LXC+MtPfZ}9MzG?n>zO*V!UJFh
zc`tm^&Nv6kEY4SQ)2i0i^dgyFUK-{q=tgm)DD10$B#>B$T&0UA7f$kWd!lXX%53MR
z(K+W$dY4SRu^ciQt$F5+={M#_mu{|TQl92V+UAtJIi+ph)SG9nO<$XD<n<m%SbYAJ
zuVGd>r~9>TWjt|yOH(j&aQfiv%_ZeB30ca@mCvqydhJX9y5@4?j7TA!Go`J7`&(n*
zP<wc_Xa2^Tx@76pM%i(`?D(p2t*m+VgN>FBzNI78d3mkn$2@gqTW=LrNKp(IzOIc(
zytSn^%s8i=8)_%7cFrGNY*}d8D6Zp+>%LM4wy2UNxQi>lMGm#*Ynxjn;ror*CMw|j
z1kwnfsKOkDT-Bl)a~kCEiCWC*P-&y6$D9Ef&0+!O3X#Pn8i5l{$WxJW*C&szguWMx
zFk(grYEu=*lM}0eSTJHmC6)K|clFDmbzi+`!;l^M4lGVCOfLUu-5U@c7;++S#p2+?
z;PUBpPn}qdAs6zLEOsq)EfaUHiEfN|klVM|zR<pO<IY9VixD4kc^8`&nwCO$TEr5J
zlp=4{hNq7A)Ggmw_cVxQ7%WFV|Asffdjl)Py0=lRz~F%wz)B2Op^E0!hDYTsq92RZ
zsJv;l<Wbp4@gNp!P}zx9<D=4Mu@;MUsMLSYbJqi%mNbe14Ap}VSIm6zktYoxeg|t>
zFCIm@f<*gw$DZ*&u=wrr2mhH<Z4KlX4T`pA6~vxPel2qWaKVU^`MUJ)d%=--B+5!J
zv~*CSLXg|XM`B??c}DsnPayjvaX}5g>alTnjWPH%#*ZGBPNTHLnRe(j9Z@pj3f>7L
z(eNoI2o*SvvR?odNrE7DOo-6`9aTYgDKjRlx4pN#+mvNWIisJ}&vHv0DQndl<=@PK
zI#X8v8dd$DLzh$5>NV<MZo>>D>Q#CroJCE+l<H}bMka$zB%^LSZ#hNTy97}I`%a^q
zaZS6#B1yC($X9hqo#>E6S0=L+-IC}*j^agXffBuv=tFkr9GB$85=ksYHpg6FvQI3N
z#ByY{&s|Mk6)Pn10D@HiLh^!GDT!6M?O1Y5^h;uOw&#PASc65~f=;ZJ#5&~hEnZ!?
zDh4F69=W}X=N8V14U*W1Tpk>0#6yyJ7!|u0YZhw6Ba(PLYxjgCHf1LGZ8H{kNF>wk
Y*sx#hQguv*%=S%#>8ZYfD3BKV-x0%O;s5{u

literal 0
HcmV?d00001

diff --git a/model_executor/layers/mamba/ops/causal_conv1d.py b/model_executor/layers/mamba/ops/causal_conv1d.py
new file mode 100644
index 0000000..83c2c5f
--- /dev/null
+++ b/model_executor/layers/mamba/ops/causal_conv1d.py
@@ -0,0 +1,1240 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao.
+# Adapted from https://github.com/Dao-AILab/causal-conv1d/blob/main/causal_conv1d/causal_conv1d_interface.py
+
+
+import numpy as np
+import torch
+
+from vllm.attention.backends.utils import PAD_SLOT_ID
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit()
+def _causal_conv1d_fwd_kernel(  # continuous batching
+    # Pointers to matrices
+    x_ptr,  # (dim, cu_seqlen) holding `batch` of actual sequences + padded sequences
+    w_ptr,  # (dim, width)
+    bias_ptr,
+    initial_states_ptr,  # conv_states_ptr
+    cache_indices_ptr,  # (batch, n_blocks + padding) The second dimension contains
+    # the block indices relevant for each sequence
+    # plus potential 0-padding at the beginning and at the end
+    has_initial_states_ptr,
+    query_start_loc_ptr,
+    batch_ptr,
+    token_chunk_offset_ptr,
+    block_idx_first_scheduled_token,  # (batch,)
+    block_idx_last_scheduled_token,  # (batch,)
+    initial_state_idx,  # (batch,)
+    num_computed_tokens,  # (batch,)
+    o_ptr,  # (dim, seqlen) - actually pointing to x_ptr
+    # Matrix dimensions
+    dim: tl.constexpr,
+    seqlen: tl.int32,  # cu_seqlen
+    num_cache_lines: tl.constexpr,  # added to support vLLM larger cache lines
+    # Strides
+    stride_x_dim: tl.constexpr,  # stride to get to next feature-value,
+    stride_x_token: tl.constexpr,  # stride to get to next token (same feature-index, same sequence-index)
+    stride_w_dim: tl.constexpr,  # stride to get to next dim-axis value
+    stride_w_width: tl.constexpr,  # stride to get to next width-axis value
+    stride_istate_seq: tl.constexpr,
+    stride_istate_dim: tl.constexpr,
+    stride_istate_token: tl.constexpr,
+    stride_cache_indices: tl.constexpr,
+    stride_o_dim: tl.constexpr,
+    stride_o_token: tl.constexpr,
+    stride_block_m: tl.constexpr,  # Stride block to align divided by BLOCK_M
+    # others
+    pad_slot_id: tl.constexpr,
+    # Meta-parameters
+    HAS_BIAS: tl.constexpr,
+    KERNEL_WIDTH: tl.constexpr,
+    SILU_ACTIVATION: tl.constexpr,
+    IS_APC_ENABLED: tl.constexpr,
+    USE_PAD_SLOT: tl.constexpr,
+    NP2_STATELEN: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+):
+    conv_states_ptr = initial_states_ptr
+    conv_state_indices_ptr = cache_indices_ptr
+    stride_conv_state_seq = stride_istate_seq
+    stride_conv_state_dim = stride_istate_dim
+    stride_conv_state_tok = stride_istate_token
+    state_len = (
+        KERNEL_WIDTH - 1
+    )  # can be passed via argument if it's not the same as this value
+
+    # one program handles one chunk in a single sequence
+    # rather than mixing sequences - to make updating initial_states across sequences efficiently
+
+    # single-sequence id
+    idx_seq = tl.load(batch_ptr + tl.program_id(0)).to(tl.int64)
+    chunk_offset = tl.load(token_chunk_offset_ptr + tl.program_id(0))
+
+    # BLOCK_N elements along the feature-dimension (channel)
+    idx_feats = tl.program_id(1) * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    if idx_seq == pad_slot_id:
+        return
+
+    sequence_start_index = tl.load(query_start_loc_ptr + idx_seq)
+    sequence_end_index = tl.load(query_start_loc_ptr + idx_seq + 1)
+    # find the actual sequence length
+    seqlen = sequence_end_index - sequence_start_index
+
+    B_size: tl.constexpr = stride_block_m * BLOCK_M
+
+    if IS_APC_ENABLED:
+        # Handle the case if prefix caching is enabled.
+        # In particular, if prefix caching is enabled, the program write additional cache states to "cache_indices_ptr"
+
+        # Get the length of the completed sequence so far and compute the offset.
+        current_first_index = tl.load(block_idx_first_scheduled_token + idx_seq)
+        current_last_index = tl.load(block_idx_last_scheduled_token + idx_seq)
+        sequence_completed_index = tl.load(num_computed_tokens + idx_seq)
+
+        # Compute the offset where the first stride_block_m-aligned first full block is
+        # Value in "token-space"
+        sequence_completed_offset_token = sequence_completed_index % B_size
+        seq_completed_offset = B_size - sequence_completed_offset_token
+        seq_end_offset = (seqlen - seq_completed_offset) % B_size
+        last_full_block_token_index = sequence_end_index - seq_end_offset
+        # If the sequence without the sequence_offset_index is stride_cache_chunk-aligned, then the last full chunk is the second-to-last one
+        if seq_end_offset == 0:
+            last_full_block_token_index = last_full_block_token_index - B_size
+
+        # Get the number of blocks to be filled for the current sequence
+        # If n_block_to_fill = 0, then only the state at the sequence end is stored
+        n_block_to_fill = current_last_index - current_first_index
+
+        # Get the index of the init block
+        conv_state_init_index = tl.load(initial_state_idx + idx_seq)
+    else:
+        n_block_to_fill = 0
+        current_last_index = 0
+        conv_state_init_index = 0
+        current_first_index = 0
+        last_full_block_token_index = 0
+
+    token_offset = BLOCK_M * chunk_offset
+    segment_len = min(BLOCK_M, seqlen - token_offset)
+
+    # base of the sequence
+    x_base = (
+        x_ptr + sequence_start_index * stride_x_token + idx_feats * stride_x_dim
+    )  # [BLOCK_N,]
+
+    # cache_idx
+    conv_states_input_coord = tl.load(
+        conv_state_indices_ptr + idx_seq * stride_cache_indices + conv_state_init_index
+    ).to(tl.int64)
+
+    if USE_PAD_SLOT:  # noqa
+        if conv_states_input_coord == pad_slot_id:
+            # not processing as this is not the actual sequence
+            return
+    conv_states_base = (
+        conv_states_ptr
+        + (conv_states_input_coord * stride_conv_state_seq)
+        + (idx_feats * stride_conv_state_dim)
+    )  # [BLOCK_N,]
+
+    w_base = w_ptr + (idx_feats * stride_w_dim)  # [BLOCK_N,]
+
+    # Does 2 things:
+    # 1. READ prior-block init-state data - [done by every Triton programs]
+    # 2. update conv_state with new data [only by the Triton program handles chunk_offset=0]
+    if chunk_offset == 0:
+        # read from conv_states
+        load_init_state = tl.load(has_initial_states_ptr + idx_seq).to(tl.int1)
+        if load_init_state:
+            # load from conv_states
+            prior_tokens = conv_states_base + (state_len - 1) * stride_conv_state_tok
+            mask_w = idx_feats < dim
+            if KERNEL_WIDTH == 2:
+                conv_states_ptrs = prior_tokens  # [BLOCK_N]
+                col0 = tl.load(conv_states_ptrs, mask_w, 0.0)
+            if KERNEL_WIDTH == 3:
+                conv_states_ptrs = prior_tokens  # [BLOCK_N]
+                col1 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 1 * stride_conv_state_tok  # [BLOCK_N]
+                col0 = tl.load(conv_states_ptrs, mask_w, 0.0)
+            if KERNEL_WIDTH == 4:
+                conv_states_ptrs = prior_tokens  # [BLOCK_N]
+                col2 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 1 * stride_conv_state_tok  # [BLOCK_N]
+                col1 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 2 * stride_conv_state_tok  # [BLOCK_N]
+                col0 = tl.load(conv_states_ptrs, mask_w, 0.0)
+            if KERNEL_WIDTH == 5:
+                conv_states_ptrs = prior_tokens  # [BLOCK_N]
+                col3 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 1 * stride_conv_state_tok  # [BLOCK_N]
+                col2 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 2 * stride_conv_state_tok  # [BLOCK_N]
+                col1 = tl.load(conv_states_ptrs, mask_w, 0.0)
+                conv_states_ptrs = prior_tokens - 3 * stride_conv_state_tok  # [BLOCK_N]
+                col0 = tl.load(conv_states_ptrs, mask_w, 0.0)
+        else:
+            # prior-tokens are zeros
+            if KERNEL_WIDTH >= 2:  # STRATEGY1
+                # first chunk and does not have prior-token, so just set to 0
+                col0 = tl.zeros((BLOCK_N,), dtype=x_ptr.dtype.element_ty)
+            if KERNEL_WIDTH >= 3:  # STRATEGY1
+                col1 = tl.zeros((BLOCK_N,), dtype=x_ptr.dtype.element_ty)
+            if KERNEL_WIDTH >= 4:  # STRATEGY1
+                col2 = tl.zeros((BLOCK_N,), dtype=x_ptr.dtype.element_ty)
+            if KERNEL_WIDTH >= 5:  # STRATEGY1
+                col3 = tl.zeros((BLOCK_N,), dtype=x_ptr.dtype.element_ty)
+
+        # STEP 2:
+        # here prepare data for updating conv_state
+        if (
+            state_len <= seqlen
+        ):  # SMALL_CACHE=True (only move part of 'x' into conv_state cache)
+            # just read from 'x'
+            # copy 'x' data to conv_state
+            # load only 'x' data (and set 0 before 'x' if seqlen < state_len)
+            idx_tokens_last = (seqlen - state_len) + tl.arange(
+                0, NP2_STATELEN
+            )  # [BLOCK_M]
+            x_ptrs = (
+                x_ptr
+                + ((sequence_start_index + idx_tokens_last) * stride_x_token)[:, None]
+                + (idx_feats * stride_x_dim)[None, :]
+            )  # [BLOCK_M,BLOCK_N,]
+            mask_x = (
+                (idx_tokens_last >= 0)[:, None]
+                & (idx_tokens_last < seqlen)[:, None]
+                & (idx_feats < dim)[None, :]
+            )  # token-index  # token-index  # feature-index
+            loaded_x = tl.load(x_ptrs, mask_x, 0.0)
+            idx_tokens_conv = tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+
+            # Compute the offset where the last block should be written in the conv_states
+            conv_states_output_coord = tl.load(
+                conv_state_indices_ptr
+                + idx_seq * stride_cache_indices
+                + current_last_index
+            ).to(tl.int64)
+
+            conv_states_ptrs_target = (
+                conv_states_ptr
+                + (conv_states_output_coord * stride_conv_state_seq)  # Offset from seq
+                + (idx_feats * stride_conv_state_dim)
+            )[None, :] + (  # [BLOCK_N,]
+                idx_tokens_conv * stride_conv_state_tok
+            )[:, None]
+
+            mask = (idx_tokens_conv < state_len)[:, None] & (idx_feats < dim)[None, :]
+            tl.debug_barrier()  #  NOTE: use this due to bug in Triton compiler
+            tl.store(conv_states_ptrs_target, loaded_x, mask)
+
+        else:
+            if load_init_state:
+                # update conv_state by shifting left, i.e. take last few cols from conv_state + cols from 'x'
+                idx_tokens_conv = tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+
+                conv_states_ptrs_source = (
+                    conv_states_ptr
+                    + (conv_states_input_coord * stride_conv_state_seq)
+                    + (idx_feats * stride_conv_state_dim)[None, :]
+                    + ((idx_tokens_conv + seqlen) * stride_conv_state_tok)[:, None]
+                )  # [BLOCK_M, BLOCK_N]
+                mask = (
+                    (conv_states_input_coord < num_cache_lines)
+                    & ((idx_tokens_conv + seqlen) < state_len)[:, None]
+                    & (idx_feats < dim)[None, :]
+                )
+                conv_state = tl.load(conv_states_ptrs_source, mask, other=0.0)
+
+                VAL = state_len - seqlen
+
+                x_ptrs = (
+                    x_base[None, :]
+                    + ((idx_tokens_conv - VAL) * stride_x_token)[:, None]
+                )  # [BLOCK_M, BLOCK_N]
+
+                mask_x = (
+                    (idx_tokens_conv - VAL >= 0)[:, None]
+                    & (idx_tokens_conv - VAL < seqlen)[:, None]
+                    & (idx_feats < dim)[None, :]
+                )  # token-index  # token-index  # feature-index
+                loaded_x = tl.load(x_ptrs, mask_x, 0.0)
+
+                tl.debug_barrier()  # need this due to the bug in tl.where not enforcing this when data is the result of another tl.load
+                new_conv_state = tl.where(
+                    mask, conv_state, loaded_x
+                )  # BUG in 'tl.where'  which requires a barrier before this
+                conv_states_ptrs_target = (
+                    conv_states_base
+                    + (idx_tokens_conv * stride_conv_state_tok)[:, None]
+                )  # [BLOCK_M, BLOCK_N]
+                mask = (idx_tokens_conv < state_len)[:, None] & (idx_feats < dim)[
+                    None, :
+                ]
+                tl.store(conv_states_ptrs_target, new_conv_state, mask)
+            else:  # load_init_state == False
+                # update conv_state by shifting left, BUT
+                # set cols prior to 'x' as zeros + cols from 'x'
+                idx_tokens_conv = tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+
+                VAL = state_len - seqlen
+
+                x_ptrs = (
+                    x_base[None, :]
+                    + ((idx_tokens_conv - VAL) * stride_x_token)[:, None]
+                )  # [BLOCK_M, BLOCK_N]
+
+                mask_x = (
+                    (idx_tokens_conv - VAL >= 0)[:, None]
+                    & (idx_tokens_conv - VAL < seqlen)[:, None]
+                    & (idx_feats < dim)[None, :]
+                )  # token-index  # token-index  # feature-index
+                new_conv_state = tl.load(x_ptrs, mask_x, 0.0)
+
+                conv_states_ptrs_target = (
+                    conv_states_base
+                    + (idx_tokens_conv * stride_conv_state_tok)[:, None]
+                )  # [BLOCK_M, BLOCK_N]
+                mask = (idx_tokens_conv < state_len)[:, None] & (idx_feats < dim)[
+                    None, :
+                ]
+                tl.store(conv_states_ptrs_target, new_conv_state, mask)
+
+    else:  # chunk_offset > 0
+        # read prior-token data from `x`
+        load_init_state = True
+        prior_tokens = x_base + (token_offset - 1) * stride_x_token
+        mask_w = idx_feats < dim
+        if KERNEL_WIDTH == 2:
+            conv_states_ptrs = prior_tokens  # [BLOCK_N]
+            col0 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+        if KERNEL_WIDTH == 3:
+            conv_states_ptrs = prior_tokens  # [BLOCK_N]
+            col1 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 1 * stride_x_token  # [BLOCK_N]
+            col0 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+        if KERNEL_WIDTH == 4:
+            conv_states_ptrs = prior_tokens  # [BLOCK_N]
+            col2 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 1 * stride_x_token  # [BLOCK_N]
+            col1 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 2 * stride_x_token  # [BLOCK_N]
+            col0 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+        if KERNEL_WIDTH == 5:
+            # ruff: noqa: F841
+            conv_states_ptrs = prior_tokens  # [BLOCK_N]
+            col3 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 1 * stride_x_token  # [BLOCK_N]
+            col2 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 2 * stride_x_token  # [BLOCK_N]
+            col1 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+            conv_states_ptrs = prior_tokens - 3 * stride_x_token  # [BLOCK_N]
+            col0 = tl.load(conv_states_ptrs, mask_w, 0.0, cache_modifier=".ca")
+
+        # Store intermediate states aligned with stride_block_m
+        # The additional states are cached starting from the last stride_block_m.
+        # For example:
+        # If n_block_to_fill = 0, then only the state at the sequence end is cached and the process below is not involved.
+        # If n_block_to_fill > 0, then the states at the sequence end and at the n_block_to_fill-last
+        # stride_block_m are cached.
+        # For example chunk_offset = n_block_to_fill stores the state at last_full_block
+        if (chunk_offset - 1) < n_block_to_fill:
+            # Store the states at the chunk boundaries from the start of the sequence
+            idx_tokens_last = (
+                last_full_block_token_index
+                - (n_block_to_fill - chunk_offset) * B_size
+                - state_len
+            ) + tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+            x_ptrs = (
+                x_ptr
+                + (idx_tokens_last * stride_x_token)[:, None]
+                + (idx_feats * stride_x_dim)[None, :]
+            )  # [BLOCK_M,BLOCK_N,]
+
+            mask_x = (idx_tokens_last >= 0)[:, None] & (idx_feats < dim)[
+                None, :
+            ]  # token-index  # token-index  # feature-index
+            loaded_x = tl.load(x_ptrs, mask_x, 0.0)
+            idx_tokens_conv = tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+
+            # cache_idx
+            conv_states_output_coord = tl.load(
+                conv_state_indices_ptr
+                + idx_seq * stride_cache_indices
+                + current_first_index
+                + (chunk_offset - 1)
+            ).to(tl.int64)
+
+            conv_states_ptrs_target = (
+                conv_states_ptr
+                + (conv_states_output_coord * stride_conv_state_seq)  # Offset from seq
+                + (idx_feats * stride_conv_state_dim)
+            )[None, :] + (  # [BLOCK_N,]
+                idx_tokens_conv * stride_conv_state_tok
+            )[:, None]
+
+            mask = (idx_tokens_conv < state_len)[:, None] & (idx_feats < dim)[None, :]
+            tl.debug_barrier()  #  NOTE: use this due to bug in Triton compiler
+            tl.store(conv_states_ptrs_target, loaded_x, mask)
+
+    if HAS_BIAS:
+        bias = bias_ptr + idx_feats
+        mask_bias = idx_feats < dim
+        acc_preload = tl.load(bias, mask=mask_bias, other=0.0).to(
+            tl.float32
+        )  # [BLOCK_N]
+    else:
+        acc_preload = tl.zeros((BLOCK_N,), dtype=tl.float32)
+
+    x_base_1d = x_base + token_offset * stride_x_token  # starting of chunk
+
+    # PRE-LOAD WEIGHTS
+    mask_w = idx_feats < dim
+    if KERNEL_WIDTH >= 2:
+        w_ptrs = w_base + (0 * stride_w_width)  # [BLOCK_N] tensor
+        w_col0 = tl.load(w_ptrs, mask_w, other=0.0)
+        w_ptrs = w_base + (1 * stride_w_width)  # [BLOCK_N] tensor
+        w_col1 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 3:
+        w_ptrs = w_base + (2 * stride_w_width)  # [BLOCK_N] tensor
+        w_col2 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 4:
+        w_ptrs = w_base + (3 * stride_w_width)  # [BLOCK_N] tensor
+        w_col3 = tl.load(w_ptrs, mask_w, other=0.0)
+    mask_x_1d = idx_feats < dim
+    for idx_token in range(segment_len):
+        acc = acc_preload
+
+        matrix_w = w_col0
+        matrix_x = col0
+        for j in tl.static_range(KERNEL_WIDTH):
+            if KERNEL_WIDTH == 2:
+                if j == 1:  # KERNEL_WIDTH-1:
+                    matrix_w = w_col1
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 3:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 4:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    matrix_x = col2
+                elif j == 3:
+                    matrix_w = w_col3
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+
+            acc += matrix_x * matrix_w  # [BLOCK_N]
+
+        if KERNEL_WIDTH == 2:
+            col0 = matrix_x
+        elif KERNEL_WIDTH == 3:
+            col0 = col1
+            col1 = matrix_x
+        elif KERNEL_WIDTH == 4:
+            col0 = col1
+            col1 = col2
+            col2 = matrix_x
+
+        if SILU_ACTIVATION:
+            acc = acc / (1 + tl.exp(-acc))
+        mask_1d = (idx_token < segment_len) & (
+            idx_feats < dim
+        )  # token-index  # feature-index
+        o_ptrs = (
+            o_ptr
+            + (sequence_start_index + token_offset + idx_token) * stride_o_token
+            + (idx_feats * stride_o_dim)
+        )
+
+        tl.store(o_ptrs, acc, mask=mask_1d)
+
+
+def causal_conv1d_fn(
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor | None,
+    conv_states: torch.Tensor,
+    query_start_loc: torch.Tensor,
+    cache_indices: torch.Tensor | None = None,
+    has_initial_state: torch.Tensor | None = None,
+    activation: str | None = "silu",
+    pad_slot_id: int = PAD_SLOT_ID,
+    block_idx_first_scheduled_token: torch.Tensor | None = None,
+    block_idx_last_scheduled_token: torch.Tensor | None = None,
+    initial_state_idx: torch.Tensor | None = None,
+    num_computed_tokens: torch.Tensor | None = None,
+    block_size_to_align=0,
+    metadata=None,
+    validate_data=False,
+):
+    """support varlen + continuous batching when x is 2D tensor
+
+    x: (dim,cu_seq_len)
+        cu_seq_len = total tokens of all seqs in that batch
+        sequences are concatenated from left to right for varlen
+    weight: (dim, width)
+    conv_states: (...,dim,width - 1) itype
+        updated inplace if cache_indices are not provided
+        [it use `cache_indices` to get the index to the cache of conv_state for that sequence
+
+        conv_state[cache_indices[i]] for seq-i - to be used as initial_state when has_initial_state[i] = True
+             and after that conv_state[cache_indices[i]] need to be shift-left and updated with values from 'x'
+        ]
+    query_start_loc: (batch + 1) int32
+        The cumulative sequence lengths of the sequences in
+        the batch, used to index into sequence. prepended by 0.
+        if
+        x = [5, 1, 1, 1] <- continuous batching (batch=4)
+        then
+        query_start_loc = [0, 5, 6, 7, 8] <- the starting index of the next sequence; while the last value is
+           the ending index of the last sequence
+        [length(query_start_loc)-1 == batch]
+        for example: query_start_loc = torch.Tensor([0,10,16,17]),
+        x.shape=(dim,17)
+    cache_indices: (batch)  int32
+        indicates the corresponding state index,
+        like so: conv_state = conv_states[cache_indices[batch_id]]
+    has_initial_state: (batch) bool
+        indicates whether should the kernel take the current state as initial
+        state for the calculations
+        [single boolean for each sequence in the batch: True or False]
+    bias: (dim,)
+    activation: either None or "silu" or "swish" or True
+    pad_slot_id: int
+        if cache_indices is passed, lets the kernel identify padded
+        entries that will not be processed,
+        for example: cache_indices = [pad_slot_id, 1, 20, pad_slot_id]
+        in this case, the kernel will not process entries at
+        indices 0 and 3
+    block_idx_first_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the first cache block to be filled is located.
+    block_idx_last_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the last cache block to be filled is located.
+    initial_state_idx: (batch,), dtype int32
+        The pointer into cache_indices, where the cache block containing the initial state is located.
+    num_computed_tokens: (batch,), dtype int32
+        The number of tokens already completed for each sequence
+    block_size_to_align: int
+        The block size to align the cached states to
+    out: same shape as `x`
+    """
+    if isinstance(activation, bool) and activation:
+        activation = "silu"
+
+    args = None
+    # Store original dtype to cast back at the end
+    original_x_dtype = x.dtype
+    x = x.to(conv_states.dtype)
+    out = torch.empty_like(x)
+    if metadata is not None:
+        nums_dict = metadata.nums_dict
+        args = nums_dict
+        batch_ptr = metadata.batch_ptr
+        token_chunk_offset_ptr = metadata.token_chunk_offset_ptr
+    else:
+        seqlens = query_start_loc.diff().to("cpu")
+        args = seqlens
+        MAX_NUM_PROGRAMS = 1024
+
+        batch_ptr = torch.full(
+            (MAX_NUM_PROGRAMS,), PAD_SLOT_ID, dtype=torch.int32, device=x.device
+        )  # tracking which seq-idx the Triton program is handling
+        token_chunk_offset_ptr = torch.full(
+            (MAX_NUM_PROGRAMS,), PAD_SLOT_ID, dtype=torch.int32, device=x.device
+        )  # tracking BLOCK_M-based index in the sequence the Triton program is handling
+
+    is_channel_last = (x.stride(0) == 1) & (x.stride(1) > 1)
+    dim, cu_seqlen = x.shape
+    _, width = weight.shape
+    state_len = width - 1
+    np2_statelen = triton.next_power_of_2(state_len)
+
+    padded_batch = query_start_loc.size(0) - 1
+    stride_x_dim = x.stride(0)
+    stride_x_token = x.stride(1)
+    stride_w_dim = weight.stride(0)
+    stride_w_width = weight.stride(1)
+    stride_istate_seq = 0
+    stride_istate_dim = 0
+    stride_istate_token = 0
+    num_cache_lines = 0
+    BLOCK_M = 8
+    if conv_states is not None:
+        # extensions to support vLLM:
+        # 1. conv_states is used to replaced initial_states
+        # 2. conv_states serve as a cache with num cache lines can be larger than batch size
+        # 3. mapping from sequence x[idx] to a cache line at index as specified via cache_indices[idx]
+        # 4. computation can be skipped if cache_indices[idx] == pad_slot_id
+        num_cache_lines = conv_states.size(0)
+        assert (
+            num_cache_lines == conv_states.shape[0]
+            and dim == conv_states.shape[1]
+            and width - 1 <= conv_states.shape[2]
+        )
+        stride_istate_seq = conv_states.stride(0)
+        stride_istate_dim = conv_states.stride(1)
+        stride_istate_token = conv_states.stride(2)
+        assert stride_istate_dim == 1
+    if out.dim() == 2:
+        stride_o_dim = out.stride(0)
+        stride_o_token = out.stride(1)
+    else:
+        stride_o_dim = out.stride(1)
+        stride_o_token = out.stride(2)
+    stride_cache_indices = cache_indices.stride(0) if cache_indices is not None else 0
+
+    if validate_data:
+        assert x.dim() == 2
+        assert query_start_loc is not None
+        assert query_start_loc.dim() == 1
+        assert x.stride(0) == 1 or x.stride(1) == 1
+        if bias is not None:
+            assert bias.dim() == 1
+            assert dim == bias.size(0)
+        if cache_indices is not None:
+            assert cache_indices.dim() == 1
+            assert padded_batch == cache_indices.size(0)
+        if has_initial_state is not None:
+            assert has_initial_state.size() == (padded_batch,)
+            assert conv_states is not None, (
+                "ERROR: `has_initial_state` is used, which needs also `conv_states`"
+            )
+        assert weight.stride(1) == 1
+        assert (dim, width) == weight.shape
+        assert is_channel_last, "Need to run in channel-last layout"
+        if block_size_to_align is not None and block_size_to_align > 0:
+            assert (block_size_to_align % BLOCK_M) == 0, (
+                "The mamba block size needs to be divisible by the BLOCK_M"
+            )
+        else:
+            block_size_to_align = BLOCK_M
+
+    if metadata is None:
+
+        def num_program(META, seqlens):
+            tot = 0
+
+            mlist = []
+            offsetlist = []  # type: ignore
+
+            nums = -(-seqlens // META["BLOCK_M"])
+
+            tot = nums.sum().item()
+            mlist = np.repeat(np.arange(len(nums)), nums)
+            for idx, num in enumerate(nums):
+                offsetlist.extend(
+                    range(num)
+                )  # chunk-idx if a sequence is split into multiple chunks
+
+            if META["batch_ptr"].nelement() < len(mlist):
+                newlen = len(mlist) + 1
+                META["batch_ptr"].resize_(newlen).fill_(PAD_SLOT_ID)
+                META["token_chunk_offset_ptr"].resize_(newlen).fill_(PAD_SLOT_ID)
+
+            if META["batch_ptr"].nelement() >= len(mlist):
+                META["batch_ptr"][0 : len(mlist)].copy_(
+                    torch.from_numpy(np.array(mlist))
+                )
+                META["token_chunk_offset_ptr"][0 : len(mlist)].copy_(
+                    torch.from_numpy(np.array(offsetlist))
+                )
+
+            META["batch_ptr"] = META["batch_ptr"].to(META["x_ptr"].device)
+            META["token_chunk_offset_ptr"] = META["token_chunk_offset_ptr"].to(
+                META["x_ptr"].device
+            )
+            return tot
+    else:
+
+        def num_program(META, nums_dict):
+            tot = nums_dict[META["BLOCK_M"]]["tot"]
+
+            mlist = nums_dict[META["BLOCK_M"]]["mlist"]
+            mlist_len = nums_dict[META["BLOCK_M"]]["mlist_len"]
+
+            offsetlist = nums_dict[META["BLOCK_M"]]["offsetlist"]
+
+            if nums_dict[META["BLOCK_M"]]["batch_ptr"] is not None:
+                META["batch_ptr"] = nums_dict[META["BLOCK_M"]]["batch_ptr"]
+                META["token_chunk_offset_ptr"] = nums_dict[META["BLOCK_M"]][
+                    "token_chunk_offset_ptr"
+                ]
+            else:
+                if META["batch_ptr"].nelement() < mlist_len:
+                    newlen = mlist_len + 1
+                    META["batch_ptr"].resize_(newlen).fill_(PAD_SLOT_ID)
+                    META["token_chunk_offset_ptr"].resize_(newlen).fill_(PAD_SLOT_ID)
+
+                if META["batch_ptr"].nelement() >= mlist_len:
+                    META["batch_ptr"][0:mlist_len].copy_(mlist)
+                    META["token_chunk_offset_ptr"][0:mlist_len].copy_(offsetlist)
+            return tot
+
+    def grid(META):
+        return (
+            num_program(META, args),
+            triton.cdiv(dim, META["BLOCK_N"]),
+        )
+
+    if batch_ptr.device != x.device:
+        batch_ptr = batch_ptr.to(x.device)
+        token_chunk_offset_ptr = token_chunk_offset_ptr.to(x.device)
+
+    _causal_conv1d_fwd_kernel[grid](
+        # Pointers to matrices
+        x,
+        weight,
+        bias,
+        conv_states,
+        cache_indices,
+        has_initial_state,
+        query_start_loc,
+        batch_ptr,
+        token_chunk_offset_ptr,
+        block_idx_first_scheduled_token,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
+        num_computed_tokens,
+        out,
+        # Matrix dimensions
+        dim,
+        cu_seqlen,
+        num_cache_lines,
+        # stride
+        stride_x_dim,
+        stride_x_token,
+        stride_w_dim,
+        stride_w_width,
+        stride_istate_seq,
+        stride_istate_dim,
+        stride_istate_token,
+        stride_cache_indices,
+        stride_o_dim,
+        stride_o_token,
+        block_size_to_align // BLOCK_M,
+        # others
+        pad_slot_id,
+        # META
+        HAS_BIAS=bias is not None,
+        KERNEL_WIDTH=width,
+        SILU_ACTIVATION=activation in ["silu", "swish"],
+        IS_APC_ENABLED=block_idx_last_scheduled_token is not None,
+        USE_PAD_SLOT=pad_slot_id is not None,
+        NP2_STATELEN=np2_statelen,
+        # launch_cooperative_grid=True
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=256,
+        num_stages=2,
+    )
+    return out.to(original_x_dtype)
+
+
+@triton.jit()
+def _causal_conv1d_update_kernel(
+    # Pointers to matrices
+    x_ptr,  # (batch, dim, seqlen)
+    w_ptr,  # (dim, width)
+    bias_ptr,
+    conv_state_ptr,
+    conv_state_indices_ptr,
+    num_accepted_tokens_ptr,
+    query_start_loc_ptr,  # (batch + 1)
+    block_idx_last_scheduled_token,  # (batch,)
+    initial_state_idx,  # (batch,)
+    o_ptr,  # (batch, dim, seqlen)
+    # Matrix dimensions
+    batch: int,
+    dim: tl.constexpr,
+    seqlen: tl.constexpr,
+    state_len: tl.constexpr,
+    num_cache_lines: tl.constexpr,  # added to support vLLM larger cache lines
+    # Strides
+    stride_x_seq: tl.constexpr,
+    stride_x_dim: tl.constexpr,
+    stride_x_token: tl.constexpr,
+    stride_w_dim: tl.constexpr,
+    stride_w_width: tl.constexpr,
+    stride_conv_state_seq: tl.constexpr,
+    stride_conv_state_dim: tl.constexpr,
+    stride_conv_state_tok: tl.constexpr,
+    stride_state_indices: tl.constexpr,
+    stride_o_seq: tl.constexpr,
+    stride_o_dim: tl.constexpr,
+    stride_o_token: tl.constexpr,
+    # others
+    pad_slot_id: tl.constexpr,
+    # Meta-parameters
+    HAS_BIAS: tl.constexpr,
+    KERNEL_WIDTH: tl.constexpr,
+    SILU_ACTIVATION: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    IS_APC_ENABLED: tl.constexpr,
+    IS_SPEC_DECODING: tl.constexpr,
+    NP2_STATELEN: tl.constexpr,
+    USE_PAD_SLOT: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+):
+    # ruff: noqa: E501
+    idx_seq = tl.program_id(0)
+    if idx_seq >= batch:
+        return
+
+    # [BLOCK_N,] elements along the feature-dimension (channel)
+    idx_feats = tl.program_id(1) * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    if IS_APC_ENABLED:
+        # Get the state from the initial_state_idx
+        conv_state_init = tl.load(initial_state_idx + idx_seq)
+        current_last_index = tl.load(block_idx_last_scheduled_token + idx_seq)
+    else:
+        conv_state_init = 0
+        current_last_index = 0
+
+    # cache_idx
+    conv_states_input_coord = tl.load(
+        conv_state_indices_ptr + idx_seq * stride_state_indices + conv_state_init
+    ).to(tl.int64)
+
+    if USE_PAD_SLOT:  # noqa
+        if conv_states_input_coord == pad_slot_id:
+            # not processing as this is not the actual sequence
+            return
+
+    if IS_VARLEN:
+        query_start_index = tl.load(query_start_loc_ptr + idx_seq).to(tl.int64)
+        query_end_index = tl.load(query_start_loc_ptr + (idx_seq + 1)).to(tl.int64)
+        # revise state_len and seqlen
+        state_len = state_len - (seqlen - (query_end_index - query_start_index))
+        seqlen = query_end_index - query_start_index
+        x_offset = query_start_index * stride_x_token
+        o_offset = query_start_index * stride_o_token
+    else:
+        query_start_index = idx_seq * seqlen
+        query_end_index = query_start_index + seqlen
+        x_offset = idx_seq * stride_x_seq
+        o_offset = idx_seq * stride_o_seq
+
+    if query_start_index == query_end_index:
+        return
+
+    if IS_SPEC_DECODING:
+        # The rolling of conv state:
+        #
+        # Before forward, the conv_state is:
+        # [history1, history2, ..., historyM].
+        #
+        # After forward, the conv_state becomes:
+        # [history2, ..., historyM, draft1, draft2, ..., draftN].
+        #
+        # After acceptance, it becomes:
+        #
+        # - accept 1 tokens: [history2, ..., historyM, draft1]
+        # - accept 2 tokens: [history3, ..., historyM, draft1, draft2]
+        # - and so on.
+        conv_state_token_offset = (
+            tl.load(num_accepted_tokens_ptr + idx_seq).to(tl.int64) - 1
+        )
+    else:
+        conv_state_token_offset = 0
+
+    # STEP 1: READ init_state data
+    conv_states_base = (
+        conv_state_ptr
+        + (conv_states_input_coord * stride_conv_state_seq)
+        + (idx_feats * stride_conv_state_dim)
+    )
+    mask_w = idx_feats < dim
+
+    prior_tokens = conv_states_base + conv_state_token_offset * stride_conv_state_tok
+    if KERNEL_WIDTH >= 2:
+        conv_states_ptrs = prior_tokens  # [BLOCK_N]
+        col0 = tl.load(conv_states_ptrs, mask_w, 0.0)
+    if KERNEL_WIDTH >= 3:
+        conv_states_ptrs = prior_tokens + 1 * stride_conv_state_tok  # [BLOCK_N]
+        col1 = tl.load(conv_states_ptrs, mask_w, 0.0)
+    if KERNEL_WIDTH >= 4:
+        conv_states_ptrs = prior_tokens + 2 * stride_conv_state_tok  # [BLOCK_N]
+        col2 = tl.load(conv_states_ptrs, mask_w, 0.0)
+    if KERNEL_WIDTH >= 5:
+        conv_states_ptrs = prior_tokens + 3 * stride_conv_state_tok  # [BLOCK_N]
+        col3 = tl.load(conv_states_ptrs, mask_w, 0.0)
+    if KERNEL_WIDTH >= 6:
+        conv_states_ptrs = prior_tokens + 4 * stride_conv_state_tok  # [BLOCK_N]
+        col4 = tl.load(conv_states_ptrs, mask_w, 0.0)
+
+    # STEP 2: assume state_len > seqlen
+    idx_tokens = tl.arange(0, NP2_STATELEN)  # [BLOCK_M]
+
+    # With speculative decoding, the conv_state updates works in a sliding
+    # window manner, at each forward pass, the tokens are shift by 1, so we
+    # load since idx_tokens + 1.
+    conv_state_ptrs_source = (
+        conv_state_ptr
+        + (conv_states_input_coord * stride_conv_state_seq)
+        + conv_state_token_offset * stride_conv_state_tok
+        + (idx_feats * stride_conv_state_dim)[None, :]
+        + ((idx_tokens + (1 if IS_SPEC_DECODING else seqlen)) * stride_conv_state_tok)[
+            :, None
+        ]
+    )  # [BLOCK_M, BLOCK_N]
+    mask = (
+        (conv_states_input_coord < num_cache_lines)
+        & ((idx_tokens + seqlen) < state_len)[:, None]
+        & (idx_feats < dim)[None, :]
+    )
+    conv_state = tl.load(conv_state_ptrs_source, mask, other=0.0)
+
+    VAL = state_len - seqlen
+    x_base = x_ptr + x_offset + (idx_feats * stride_x_dim)  # [BLOCK_N]
+
+    x_ptrs = (
+        x_base[None, :] + ((idx_tokens - VAL) * stride_x_token)[:, None]
+    )  # [BLOCK_M, BLOCK_N]
+
+    mask_x = (
+        (idx_tokens - VAL >= 0)[:, None]
+        & (idx_tokens - VAL < seqlen)[:, None]
+        & (idx_feats < dim)[None, :]
+    )  # token-index  # token-index  # feature-index
+    loaded_x = tl.load(x_ptrs, mask_x, 0.0)
+    tl.debug_barrier()
+
+    new_conv_state = tl.where(mask, conv_state, loaded_x)
+
+    # Get the state from the initial_state_idx
+    # cache_idx
+    conv_states_offset = tl.load(
+        conv_state_indices_ptr + idx_seq * stride_state_indices + current_last_index
+    ).to(tl.int64)
+    conv_state_ptrs_target = (
+        conv_state_ptr
+        + (conv_states_offset * stride_conv_state_seq)  # Offset from seq
+        + (idx_feats * stride_conv_state_dim)
+    )[None, :] + (  # [BLOCK_N,]
+        idx_tokens * stride_conv_state_tok
+    )[:, None]
+    mask = (idx_tokens < state_len)[:, None] & (idx_feats < dim)[None, :]
+    tl.store(conv_state_ptrs_target, new_conv_state, mask)
+
+    # STEP 3: init accumulator
+    if HAS_BIAS:
+        bias = bias_ptr + idx_feats
+        mask_bias = idx_feats < dim
+        acc_preload = tl.load(bias, mask=mask_bias, other=0.0).to(
+            tl.float32
+        )  # [BLOCK_N]
+    else:
+        acc_preload = tl.zeros((BLOCK_N,), dtype=tl.float32)
+
+    # STEP 4:
+    # PRE-LOAD WEIGHTS
+    # first kernel column, configured for weights to handle BLOCK_N features in range
+    w_base = w_ptr + (idx_feats * stride_w_dim)  # [BLOCK_N,]
+    mask_w = idx_feats < dim
+    if KERNEL_WIDTH >= 2:
+        w_ptrs = w_base + (0 * stride_w_width)  # [BLOCK_N] tensor
+        w_col0 = tl.load(w_ptrs, mask_w, other=0.0)
+        w_ptrs = w_base + (1 * stride_w_width)  # [BLOCK_N] tensor
+        w_col1 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 3:
+        w_ptrs = w_base + (2 * stride_w_width)  # [BLOCK_N] tensor
+        w_col2 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 4:
+        w_ptrs = w_base + (3 * stride_w_width)  # [BLOCK_N] tensor
+        w_col3 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 5:
+        w_ptrs = w_base + (4 * stride_w_width)  # [BLOCK_N] tensor
+        w_col4 = tl.load(w_ptrs, mask_w, other=0.0)
+    if KERNEL_WIDTH >= 6:
+        w_ptrs = w_base + (5 * stride_w_width)  # [BLOCK_N] tensor
+        w_col5 = tl.load(w_ptrs, mask_w, other=0.0)
+
+    x_base_1d = x_base  # starting of chunk [BLOCK_N]
+    mask_x_1d = idx_feats < dim
+
+    # STEP 5: compute each token
+    for idx_token in tl.range(seqlen):
+        acc = acc_preload
+
+        matrix_w = w_col0
+        matrix_x = col0
+        for j in tl.static_range(KERNEL_WIDTH):
+            if KERNEL_WIDTH == 2:
+                if j == 1:  # KERNEL_WIDTH-1:
+                    matrix_w = w_col1
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 3:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 4:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    matrix_x = col2
+                elif j == 3:
+                    matrix_w = w_col3
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 5:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    matrix_x = col2
+                elif j == 3:
+                    matrix_w = w_col3
+                    matrix_x = col3
+                elif j == 4:
+                    matrix_w = w_col4
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+            elif KERNEL_WIDTH == 6:
+                if j == 1:
+                    matrix_w = w_col1
+                    matrix_x = col1
+                elif j == 2:
+                    matrix_w = w_col2
+                    matrix_x = col2
+                elif j == 3:
+                    matrix_w = w_col3
+                    matrix_x = col3
+                elif j == 4:
+                    matrix_w = w_col4
+                    matrix_x = col4
+                elif j == 5:
+                    matrix_w = w_col5
+                    x_ptrs_1d = x_base_1d + idx_token * stride_x_token  # [BLOCK_N]
+                    matrix_x = tl.load(x_ptrs_1d, mask=mask_x_1d)
+
+            acc += matrix_x * matrix_w  # [BLOCK_N]
+
+        if KERNEL_WIDTH == 2:
+            col0 = matrix_x
+        elif KERNEL_WIDTH == 3:
+            col0 = col1
+            col1 = matrix_x
+        elif KERNEL_WIDTH == 4:
+            col0 = col1
+            col1 = col2
+            col2 = matrix_x
+        elif KERNEL_WIDTH == 5:
+            col0 = col1
+            col1 = col2
+            col2 = col3
+            col3 = matrix_x
+        elif KERNEL_WIDTH == 6:
+            col0 = col1
+            col1 = col2
+            col2 = col3
+            col3 = col4
+            col4 = matrix_x
+
+        if SILU_ACTIVATION:
+            acc = acc / (1 + tl.exp(-acc))
+        mask_1d = (idx_token < seqlen) & (
+            idx_feats < dim
+        )  # token-index  # feature-index
+        o_ptrs = (
+            o_ptr + o_offset + idx_token * stride_o_token + (idx_feats * stride_o_dim)
+        )
+
+        tl.store(o_ptrs, acc, mask=mask_1d)
+
+
+def causal_conv1d_update(
+    x: torch.Tensor,
+    conv_state: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor | None = None,
+    activation: bool | str | None = None,
+    conv_state_indices: torch.Tensor | None = None,
+    num_accepted_tokens: torch.Tensor | None = None,
+    query_start_loc: torch.Tensor | None = None,
+    max_query_len: int = -1,
+    pad_slot_id: int = PAD_SLOT_ID,
+    block_idx_last_scheduled_token: torch.Tensor | None = None,
+    initial_state_idx: torch.Tensor | None = None,
+    validate_data=False,
+):
+    """
+    x: Input tensor which can take the following shapes:
+
+    - `[batch, dim]` - single token prediction
+    - `[batch, dim, seqlen]` - single or multiple tokens prediction
+    - `[num_tokens, dim]` - continuous batching, where num_tokens is
+        the total tokens of all sequences in that batch
+
+    conv_state: (..., dim, state_len), where state_len >= width - 1
+    weight: (dim, width)
+    bias: (dim,)
+    conv_state_indices: (batch,), dtype int32
+        If not None, the conv_state is a larger tensor along the batch dim,
+        and we are selecting the batch coords specified by conv_state_indices.
+        Useful for a continuous batching scenario.
+    block_idx_last_scheduled_token: (batch,), dtype int32
+        The pointer into conv_state_indices, where the last cache block to be filled is located.
+    initial_state_idx: (batch,), dtype int32
+        The pointer into conv_state_indices, where the cache block containing the initial state is located.
+    num_accepted_tokens: (batch,), dtype int32
+        If not None, it indicates the number of accepted tokens for each
+        sequence in the batch.
+        This is used in speculative decoding, where the conv_state is updated
+        in a sliding window manner.
+    query_start_loc: (batch + 1,) int32
+        If not None, the inputs is given in a varlen fashion and this indicates
+        the starting index of each sequence in the batch.
+    max_query_len: int
+        If query_start_loc is not None, this indicates the maximum query
+        length in the batch.
+    pad_slot_id: int
+            if conv_state_indices is passed, lets the kernel identify padded
+            entries that will not be processed,
+            for example: conv_state_indices = [pad_slot_id, 1 ,20 ,pad_slot_id]
+            in this case, the kernel will not process entries at
+            indices 0 and 3
+    out: (batch, dim) or (batch, dim, seqlen) or (num_tokens, dim), same shape as `x`
+    """
+    if validate_data:
+        assert pad_slot_id is not None
+        assert x.stride(1) == 1
+    if isinstance(activation, bool):
+        activation = "silu" if activation is True else None
+    elif activation is not None:
+        assert activation in ["silu", "swish"]
+
+    original_x_dtype = x.dtype
+    x = x.to(conv_state.dtype)
+    unsqueeze = query_start_loc is None and x.dim() == 2
+    if unsqueeze:
+        # make it (batch, dim, seqlen) with seqlen == 1
+        x = x.unsqueeze(-1)
+    if query_start_loc is None:
+        batch, dim, seqlen = x.shape
+    else:
+        assert conv_state_indices is not None
+        batch = conv_state_indices.size(0)
+        dim = x.size(1)
+        seqlen = max_query_len
+    _, width = weight.shape
+    # conv_state: (..., dim, state_len), where state_len >= width - 1
+    num_cache_lines, _, state_len = conv_state.size()
+
+    if validate_data:
+        assert dim == weight.size(0)
+        assert conv_state.stride(-2) == 1, (
+            f"ERROR: expect contiguous along feat-dim of conv_state (currently stride={conv_state.stride()})"
+        )
+        assert state_len >= width - 1
+        # when above happens, we don't shift-left to keep any records in conv_state
+        assert dim == conv_state.size(1)
+        if conv_state_indices is None:
+            assert conv_state.size(0) >= batch
+        else:
+            assert (batch,) == conv_state_indices.shape
+
+        assert num_cache_lines >= batch
+        assert weight.stride(1) == 1  # Need this
+
+    # adopt the strategy in vLLM that overwrite on 'x' directly, rather than creating a new tensor 'o'
+    out = x
+    stride_w_dim, stride_w_width = weight.stride()
+
+    if query_start_loc is None:
+        # X (batch, dim, seqlen)
+        stride_x_seq, stride_x_dim, stride_x_token = x.stride()
+        stride_o_seq, stride_o_dim, stride_o_token = out.stride()
+    else:
+        # X (dim, cu_seqlen)
+        stride_x_token, stride_x_dim = x.stride()
+        stride_x_seq = 0
+        stride_o_token, stride_o_dim = out.stride()
+        stride_o_seq = 0
+
+    stride_istate_seq, stride_istate_dim, stride_istate_token = conv_state.stride()
+    stride_state_indices = (
+        conv_state_indices.stride(0) if conv_state_indices is not None else 0
+    )
+    if num_accepted_tokens is not None:
+        state_len = width - 1 + (seqlen - 1)  # effective state_len needed
+    else:
+        state_len = width - 1
+    np2_statelen = triton.next_power_of_2(state_len)
+
+    def grid(META):
+        return (
+            batch,
+            triton.cdiv(dim, META["BLOCK_N"]),
+        )
+
+    _causal_conv1d_update_kernel[grid](
+        # Pointers to matrices
+        x,
+        weight,
+        bias,
+        conv_state,
+        conv_state_indices,
+        num_accepted_tokens,
+        query_start_loc,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
+        out,
+        # Matrix dimensions
+        batch,
+        dim,
+        seqlen,
+        state_len,
+        num_cache_lines,
+        # stride
+        stride_x_seq,
+        stride_x_dim,
+        stride_x_token,
+        stride_w_dim,
+        stride_w_width,
+        stride_istate_seq,
+        stride_istate_dim,
+        stride_istate_token,
+        stride_state_indices,
+        stride_o_seq,
+        stride_o_dim,
+        stride_o_token,
+        # others
+        pad_slot_id,
+        # META
+        HAS_BIAS=bias is not None,
+        KERNEL_WIDTH=width,
+        SILU_ACTIVATION=activation in ["silu", "swish"],
+        IS_VARLEN=query_start_loc is not None,
+        IS_APC_ENABLED=block_idx_last_scheduled_token is not None,
+        IS_SPEC_DECODING=num_accepted_tokens is not None,
+        NP2_STATELEN=np2_statelen,
+        USE_PAD_SLOT=pad_slot_id is not None,
+        BLOCK_N=256,
+    )
+    if unsqueeze:
+        out = out.squeeze(-1)
+    return out.to(original_x_dtype)
diff --git a/model_executor/layers/mamba/ops/layernorm_gated.py b/model_executor/layers/mamba/ops/layernorm_gated.py
new file mode 100644
index 0000000..b592906
--- /dev/null
+++ b/model_executor/layers/mamba/ops/layernorm_gated.py
@@ -0,0 +1,172 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2024, Tri Dao.
+# Adapted from https://github.com/state-spaces/mamba/blob/60dadf2e0ee730ac337035d5533de10bc26e4847/mamba_ssm/ops/triton/layernorm_gated.py
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.heuristics({"HAS_BIAS": lambda args: args["B"] is not None})
+@triton.heuristics({"HAS_Z": lambda args: args["Z"] is not None})
+@triton.jit
+def _layer_norm_fwd_1pass_kernel(
+    X,  # pointer to the input
+    Y,  # pointer to the output
+    W,  # pointer to the weights
+    B,  # pointer to the biases
+    Z,  # pointer to the other branch
+    Mean,  # pointer to the mean
+    Rstd,  # pointer to the 1/std
+    stride_x_row: tl.int64,
+    stride_y_row: tl.int64,
+    stride_z_row: tl.int64,
+    M: tl.int64,  # number of rows in X
+    N: tl.int64,  # number of columns in X
+    eps,  # epsilon to avoid division by zero
+    BLOCK_N: tl.constexpr,
+    HAS_BIAS: tl.constexpr,
+    HAS_Z: tl.constexpr,
+    NORM_BEFORE_GATE: tl.constexpr,
+    IS_RMS_NORM: tl.constexpr,
+):
+    # Map the program id to the row of X and Y it should compute.
+    row = tl.program_id(0)
+    group = tl.program_id(1)
+    X += row * stride_x_row + group * N
+    Y += row * stride_y_row + group * N
+    if HAS_Z:
+        Z += row * stride_z_row + group * N
+    if not IS_RMS_NORM:
+        Mean += group * M
+    Rstd += group * M
+    W += group * N
+    if HAS_BIAS:
+        B += group * N
+    # Compute mean and variance
+    cols = tl.arange(0, BLOCK_N)
+    x = tl.load(X + cols, mask=cols < N, other=0.0).to(tl.float32)
+    if HAS_Z and not NORM_BEFORE_GATE:
+        z = tl.load(Z + cols, mask=cols < N).to(tl.float32)
+        x *= z * tl.sigmoid(z)
+    if not IS_RMS_NORM:
+        mean = tl.sum(x, axis=0) / N
+        tl.store(Mean + row, mean)
+        xbar = tl.where(cols < N, x - mean, 0.0)
+        var = tl.sum(xbar * xbar, axis=0) / N
+    else:
+        xbar = tl.where(cols < N, x, 0.0)
+        var = tl.sum(xbar * xbar, axis=0) / N
+    rstd = 1 / tl.sqrt(var + eps)
+    tl.store(Rstd + row, rstd)
+    # Normalize and apply linear transformation
+    mask = cols < N
+    w = tl.load(W + cols, mask=mask).to(tl.float32)
+    if HAS_BIAS:
+        b = tl.load(B + cols, mask=mask).to(tl.float32)
+    x_hat = (x - mean) * rstd if not IS_RMS_NORM else x * rstd
+    y = x_hat * w + b if HAS_BIAS else x_hat * w
+    if HAS_Z and NORM_BEFORE_GATE:
+        z = tl.load(Z + cols, mask=mask).to(tl.float32)
+        y *= z * tl.sigmoid(z)
+    # Write output
+    tl.store(Y + cols, y, mask=mask)
+
+
+def _layer_norm_fwd(
+    x,
+    weight,
+    bias,
+    eps,
+    z=None,
+    out=None,
+    group_size=None,
+    norm_before_gate=True,
+    is_rms_norm=False,
+):
+    M, N = x.shape
+    if group_size is None:
+        group_size = N
+    assert N % group_size == 0
+    ngroups = N // group_size
+    assert x.stride(-1) == 1
+    if z is not None:
+        assert z.stride(-1) == 1
+        assert z.shape == (M, N)
+    assert weight.shape == (N,)
+    assert weight.stride(-1) == 1
+    if bias is not None:
+        assert bias.stride(-1) == 1
+        assert bias.shape == (N,)
+    # allocate output
+    if out is not None:
+        assert out.shape == x.shape
+    else:
+        out = torch.empty_like(x)
+    assert out.stride(-1) == 1
+    mean = (
+        torch.empty((ngroups * M,), dtype=torch.float32, device=x.device)
+        if not is_rms_norm
+        else None
+    )
+    rstd = torch.empty((ngroups * M,), dtype=torch.float32, device=x.device)
+    # Less than 64KB per feature: enqueue fused kernel
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(group_size))
+    if group_size > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    # heuristics for number of warps
+    num_warps = min(max(BLOCK_N // 256, 1), 8)
+    grid = (M, ngroups)
+    with torch.cuda.device(x.device.index):
+        _layer_norm_fwd_1pass_kernel[grid](
+            x,
+            out,
+            weight,
+            bias,
+            z,
+            mean,
+            rstd,
+            x.stride(0),
+            out.stride(0),
+            z.stride(0) if z is not None else 0,
+            M,
+            group_size,
+            eps,
+            BLOCK_N=BLOCK_N,
+            NORM_BEFORE_GATE=norm_before_gate,
+            IS_RMS_NORM=is_rms_norm,
+            num_warps=num_warps,
+        )
+    return out, mean, rstd
+
+
+def rms_norm_gated(
+    x, weight, bias, z=None, eps=1e-6, group_size=None, norm_before_gate=True
+):
+    x_shape_og = x.shape
+    # reshape input data into 2D tensor
+    x = x.reshape(-1, x.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if z is not None:
+        assert z.shape == x_shape_og
+        z = z.reshape(-1, z.shape[-1])
+        if z.stride(-1) != 1:
+            z = z.contiguous()
+    weight = weight.contiguous()
+    if bias is not None:
+        bias = bias.contiguous()
+    y, _, _ = _layer_norm_fwd(
+        x,
+        weight,
+        bias,
+        eps,
+        z=z,
+        group_size=group_size,
+        norm_before_gate=norm_before_gate,
+        is_rms_norm=True,
+    )
+
+    return y.reshape(x_shape_og)
diff --git a/model_executor/layers/mamba/ops/mamba_ssm.py b/model_executor/layers/mamba/ops/mamba_ssm.py
new file mode 100644
index 0000000..53fd5d5
--- /dev/null
+++ b/model_executor/layers/mamba/ops/mamba_ssm.py
@@ -0,0 +1,478 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/selective_state_update.py
+
+import torch
+from packaging import version
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.utils import PAD_SLOT_ID
+from vllm.triton_utils import HAS_TRITON, tl, triton
+
+TRITON3 = HAS_TRITON and (version.parse(triton.__version__) >= version.parse("3.0.0"))
+
+if TRITON3:
+
+    @triton.jit
+    def softplus(dt):
+        dt = tl.where(dt <= 20.0, tl.math.log(tl.math.exp(dt) + 1), dt)
+        return dt
+else:
+
+    @triton.jit
+    def softplus(dt):
+        dt = tl.where(dt <= 20.0, tl.math.log1p(tl.exp(dt)), dt)
+        return dt
+
+
+@triton.heuristics({"HAS_DT_BIAS": lambda args: args["dt_bias_ptr"] is not None})
+@triton.heuristics({"HAS_D": lambda args: args["D_ptr"] is not None})
+@triton.heuristics({"HAS_Z": lambda args: args["z_ptr"] is not None})
+@triton.heuristics(
+    {
+        "HAS_STATE_BATCH_INDICES": lambda args: args["state_batch_indices_ptr"]
+        is not None
+    }
+)
+@triton.heuristics(
+    {"BLOCK_SIZE_DSTATE": lambda args: triton.next_power_of_2(args["dstate"])}
+)
+@triton.jit
+def _selective_scan_update_kernel(
+    # Pointers to matrices
+    state_ptr,
+    x_ptr,
+    dt_ptr,
+    dt_bias_ptr,
+    A_ptr,
+    B_ptr,
+    C_ptr,
+    D_ptr,
+    z_ptr,
+    out_ptr,
+    state_batch_indices_ptr,
+    dst_state_batch_indices_ptr,
+    pad_slot_id,
+    # Matrix dimensions
+    batch,
+    nheads,
+    dim,
+    dstate,
+    nheads_ngroups_ratio,
+    # Strides
+    stride_state_batch,
+    stride_state_head,
+    stride_state_dim,
+    stride_state_dstate,
+    stride_x_batch,
+    stride_x_head,
+    stride_x_dim,
+    stride_dt_batch,
+    stride_dt_head,
+    stride_dt_dim,
+    stride_dt_bias_head,
+    stride_dt_bias_dim,
+    stride_A_head,
+    stride_A_dim,
+    stride_A_dstate,
+    stride_B_batch,
+    stride_B_group,
+    stride_B_dstate,
+    stride_C_batch,
+    stride_C_group,
+    stride_C_dstate,
+    stride_D_head,
+    stride_D_dim,
+    stride_z_batch,
+    stride_z_head,
+    stride_z_dim,
+    stride_out_batch,
+    stride_out_head,
+    stride_out_dim,
+    # Meta-parameters
+    DT_SOFTPLUS: tl.constexpr,
+    TIE_HDIM: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    HAS_DT_BIAS: tl.constexpr,
+    HAS_D: tl.constexpr,
+    HAS_Z: tl.constexpr,
+    HAS_STATE_BATCH_INDICES: tl.constexpr,
+    BLOCK_SIZE_DSTATE: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_b = tl.program_id(axis=1)
+    pid_h = tl.program_id(axis=2)
+
+    # If HAS_STATE_BATCH_INDICES is true, then the ssm state's batch coordinate
+    # is taken from the state_batch_indices_ptr Otherwise, the state coordinate
+    # is the same as the batch id.
+    if HAS_STATE_BATCH_INDICES:
+        dst_state_batch_indices_ptr += pid_b
+        dst_state_batch_idx = tl.load(dst_state_batch_indices_ptr).to(tl.int64)
+        dst_state_ptr = state_ptr + (
+            dst_state_batch_idx * stride_state_batch + pid_h * stride_state_head
+        )
+        state_batch_indices_ptr += pid_b
+        state_batch_idx = tl.load(state_batch_indices_ptr).to(tl.int64)
+        state_ptr += state_batch_idx * stride_state_batch + pid_h * stride_state_head
+    else:
+        dst_state_ptr = (
+            state_ptr + pid_b * stride_state_batch + pid_h * stride_state_head
+        )
+        state_ptr += pid_b * stride_state_batch + pid_h * stride_state_head
+
+    x_ptr += pid_b * stride_x_batch + pid_h * stride_x_head
+    dt_ptr += pid_b * stride_dt_batch + pid_h * stride_dt_head
+    if HAS_DT_BIAS:
+        dt_bias_ptr += pid_h * stride_dt_bias_head
+    A_ptr += pid_h * stride_A_head
+    B_ptr += pid_b * stride_B_batch + (pid_h // nheads_ngroups_ratio) * stride_B_group
+    C_ptr += pid_b * stride_C_batch + (pid_h // nheads_ngroups_ratio) * stride_C_group
+    if HAS_Z:
+        z_ptr += pid_b * stride_z_batch + pid_h * stride_z_head
+    out_ptr += pid_b * stride_out_batch + pid_h * stride_out_head
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = tl.arange(0, BLOCK_SIZE_DSTATE)
+    state_ptrs = state_ptr + (
+        offs_m[:, None] * stride_state_dim + offs_n[None, :] * stride_state_dstate
+    )
+    dst_state_ptrs = dst_state_ptr + (
+        offs_m[:, None] * stride_state_dim + offs_n[None, :] * stride_state_dstate
+    )
+    x_ptrs = x_ptr + offs_m * stride_x_dim
+    dt_ptrs = dt_ptr + offs_m * stride_dt_dim
+    if HAS_DT_BIAS:
+        dt_bias_ptrs = dt_bias_ptr + offs_m * stride_dt_bias_dim
+    if HAS_D:
+        D_ptr += pid_h * stride_D_head
+    A_ptrs = A_ptr + (
+        offs_m[:, None] * stride_A_dim + offs_n[None, :] * stride_A_dstate
+    )
+    B_ptrs = B_ptr + offs_n * stride_B_dstate
+    C_ptrs = C_ptr + offs_n * stride_C_dstate
+    if HAS_D:
+        D_ptrs = D_ptr + offs_m * stride_D_dim
+    if HAS_Z:
+        z_ptrs = z_ptr + offs_m * stride_z_dim
+    out_ptrs = out_ptr + offs_m * stride_out_dim
+    mask = (offs_m[:, None] < dim) & (offs_n[None, :] < dstate)
+    if HAS_STATE_BATCH_INDICES:
+        mask &= state_batch_idx != pad_slot_id
+    state = tl.load(state_ptrs, mask=mask, other=0.0)
+
+    x = tl.load(x_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+    if not TIE_HDIM:
+        dt = tl.load(dt_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+        if HAS_DT_BIAS:
+            dt += tl.load(dt_bias_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+        if DT_SOFTPLUS:
+            dt = softplus(dt)
+        A = tl.load(
+            A_ptrs, mask=(offs_m[:, None] < dim) & (offs_n[None, :] < dstate), other=0.0
+        ).to(tl.float32)
+        dA = tl.exp(A * dt[:, None])
+    else:
+        dt = tl.load(dt_ptr).to(tl.float32)
+        if HAS_DT_BIAS:
+            dt += tl.load(dt_bias_ptr).to(tl.float32)
+        if DT_SOFTPLUS:
+            dt = softplus(dt)
+        A = tl.load(A_ptr).to(tl.float32)
+        dA = tl.exp(A * dt)  # scalar, not a matrix
+
+    B = tl.load(B_ptrs, mask=offs_n < dstate, other=0.0).to(tl.float32)
+    C = tl.load(C_ptrs, mask=offs_n < dstate, other=0.0).to(tl.float32)
+    if HAS_D:
+        D = tl.load(D_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+    if HAS_Z:
+        z = tl.load(z_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+
+    dB = B[None, :] * dt[:, None] if not TIE_HDIM else B * dt
+    state = state * dA + dB * x[:, None]
+
+    mask = (offs_m[:, None] < dim) & (offs_n[None, :] < dstate)
+    if HAS_STATE_BATCH_INDICES:
+        mask &= state_batch_idx != pad_slot_id
+    tl.store(dst_state_ptrs, state, mask=mask)
+    out = tl.sum(state * C[None, :], axis=1)
+    if HAS_D:
+        out += x * D
+    if HAS_Z:
+        out *= z * tl.sigmoid(z)
+    tl.store(out_ptrs, out, mask=offs_m < dim)
+
+
+def selective_state_update(
+    state,
+    x,
+    dt,
+    A,
+    B,
+    C,
+    D=None,
+    z=None,
+    dt_bias=None,
+    dt_softplus=False,
+    state_batch_indices=None,
+    dst_state_batch_indices=None,
+    pad_slot_id=PAD_SLOT_ID,
+    out=None,
+):
+    """
+    Argument:
+        state: (batch, dim, dstate) or (batch, nheads, dim, dstate)
+        x: (batch, dim) or (batch, nheads, dim)
+        dt: (batch, dim) or (batch, nheads, dim)
+        A: (dim, dstate) or (nheads, dim, dstate)
+        B: (batch, dstate) or (batch, ngroups, dstate)
+        C: (batch, dstate) or (batch, ngroups, dstate)
+        D: (dim,) or (nheads, dim)
+        z: (batch, dim) or (batch, nheads, dim)
+        dt_bias: (dim,) or (nheads, dim)
+        pad_slot_id: int
+            if cache_indices is passed, lets the kernel identify padded
+            entries that will not be processed,
+            for example: cache_indices = [pad_slot_id, 1, 20, pad_slot_id]
+            in this case, the kernel will not process entries at
+            indices 0 and 3
+        out: Preallocated ssm output tensor. Assume same shape as x.
+             In-place updated.
+    """
+    if state.dim() == 3:
+        state = state.unsqueeze(1)
+    if x.dim() == 2:
+        x = x.unsqueeze(1)
+    if dt.dim() == 2:
+        dt = dt.unsqueeze(1)
+    if A.dim() == 2:
+        A = A.unsqueeze(0)
+    if B.dim() == 2:
+        B = B.unsqueeze(1)
+    if C.dim() == 2:
+        C = C.unsqueeze(1)
+    if D is not None and D.dim() == 1:
+        D = D.unsqueeze(0)
+    if z is not None and z.dim() == 2:
+        z = z.unsqueeze(1)
+    if dt_bias is not None and dt_bias.dim() == 1:
+        dt_bias = dt_bias.unsqueeze(0)
+    if out.dim() == 2:
+        out = out.unsqueeze(1)
+
+    _, nheads, dim, dstate = state.shape
+    batch = x.shape[0]
+
+    assert x.shape == (batch, nheads, dim)
+    assert dt.shape == x.shape
+    assert A.shape == (nheads, dim, dstate)
+    ngroups = B.shape[1]
+    assert nheads % ngroups == 0, "nheads must be divisible by ngroups"
+    assert B.shape == (batch, ngroups, dstate)
+    assert C.shape == B.shape
+    if D is not None:
+        assert D.shape == (nheads, dim)
+    if z is not None:
+        assert z.shape == x.shape
+    if dt_bias is not None:
+        assert dt_bias.shape == (nheads, dim)
+    if state_batch_indices is not None:
+        assert state_batch_indices.shape == (batch,)
+    if dst_state_batch_indices is not None:
+        assert dst_state_batch_indices.shape == (batch,)
+    else:
+        # revert to the default behavior of in-place state updates
+        dst_state_batch_indices = state_batch_indices
+    assert out.shape == x.shape
+
+    grid = lambda META: (triton.cdiv(dim, META["BLOCK_SIZE_M"]), batch, nheads)
+    z_strides = (z.stride(0), z.stride(1), z.stride(2)) if z is not None else (0, 0, 0)
+    # We don't want autotune since it will overwrite the state
+    # We instead tune by hand.
+    BLOCK_SIZE_M, num_warps = (
+        (32, 4)
+        if dstate <= 16
+        else (
+            (16, 4)
+            if dstate <= 32
+            else ((8, 4) if dstate <= 64 else ((4, 4) if dstate <= 128 else ((4, 8))))
+        )
+    )
+    tie_hdim = (
+        A.stride(-1) == 0
+        and A.stride(-2) == 0
+        and dt.stride(-1) == 0
+        and dt_bias.stride(-1) == 0
+    )
+    with torch.cuda.device(x.device.index):
+        _selective_scan_update_kernel[grid](
+            state,
+            x,
+            dt,
+            dt_bias,
+            A,
+            B,
+            C,
+            D,
+            z,
+            out,
+            state_batch_indices,
+            dst_state_batch_indices,
+            pad_slot_id,
+            batch,
+            nheads,
+            dim,
+            dstate,
+            nheads // ngroups,
+            state.stride(0),
+            state.stride(1),
+            state.stride(2),
+            state.stride(3),
+            x.stride(0),
+            x.stride(1),
+            x.stride(2),
+            dt.stride(0),
+            dt.stride(1),
+            dt.stride(2),
+            *(dt_bias.stride(0), dt_bias.stride(1)) if dt_bias is not None else 0,
+            A.stride(0),
+            A.stride(1),
+            A.stride(2),
+            B.stride(0),
+            B.stride(1),
+            B.stride(2),
+            C.stride(0),
+            C.stride(1),
+            C.stride(2),
+            *(D.stride(0), D.stride(1)) if D is not None else 0,
+            z_strides[0],
+            z_strides[1],
+            z_strides[2],
+            out.stride(0),
+            out.stride(1),
+            out.stride(2),
+            dt_softplus,
+            tie_hdim,
+            BLOCK_SIZE_M,
+            num_warps=num_warps,
+        )
+
+
+def selective_scan_fn(
+    u,
+    ssm_states,
+    delta,
+    A,
+    B,
+    C,
+    D=None,
+    z=None,
+    delta_bias=None,
+    delta_softplus=False,
+    query_start_loc=None,
+    cache_indices=None,
+    has_initial_state=None,
+    pad_slot_id=PAD_SLOT_ID,
+    block_size=1024,
+    block_idx_first_scheduled_token=None,
+    block_idx_last_scheduled_token=None,
+    initial_state_idx=None,
+) -> torch.Tensor:
+    """
+    u: (dim, total_length) for varlen or (batch, dim, seqlen)
+        applies changes in place.
+    ssm_states: (batch, dim, dstate) or (batch, nheads, dim, dstate)
+        applies changes in place.
+    delta: (dim, total_length) for varlen or (batch, dim, seqlen)
+    A: (dim, dstate)
+    B: (ngroups, dstate, total_length) for varlen or
+                                        (batch,ngroups,dstate,seqlen)
+    C: (ngroups, dstate, total_length) for varlen or
+                                        (batch,ngroups,dstate,seqlen)
+    D: (dim,)
+    z: (dim, total_length) for varlen or (batch, dim, seqlen)
+    dt_bias: (dim,) or (dim)
+    query_start_loc: (batch + 1) int32
+        The cumulative sequence lengths of the sequences in
+        the batch, used to index into sequence. prepended with 0.
+        for example: query_start_loc = torch.Tensor([0,10,16,17]),
+        x.shape=(dim,17)
+    cache_indices: (batch) int32
+        A tensor with each cell is a correspondent
+        input and output ssm_state indices
+      - Without APC: (batch,) - single state index per batch item
+      - With APC: (batch, max_positions) - cache block indices for read/write
+        Each non-zero value indicates a cache block to load from and/or write to.
+    has_initial_state: (batch) bool
+        A tensor populated with ones and zeros,
+        indicate if the ssm_state at the corresponding index should be
+        used as initial state. Not providing argument assumes
+        there's no initial state
+    pad_slot_id: int
+        if cache_indices is passed, lets the kernel identify padding entries
+        that will not be processed,
+        for example: cache_indices = [pad_slot_id, 1 ,20 ,pad_slot_id]
+        in this case, the kernel will not process entries at indices 0 and 3
+    block_size: int
+        The block size to align the cached states to
+    block_idx_first_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the first
+        cache block to be filled is located.
+    block_idx_last_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the last cache block
+        to be filled is located.
+    initial_state_idx: (batch,), dtype int32
+        The pointer into cache_indices, where the cache block
+        containing the initial state is located.
+    returns
+        output: (dim, total_length) for varlen or (batch, dim, seqlen)
+                supports inplace replacement
+    """
+    if u.stride(-1) != 1:
+        u = u.contiguous()
+    if delta.stride(-1) != 1:
+        delta = delta.contiguous()
+    if D is not None:
+        D = D.contiguous()
+    if B.stride(-1) != 1:
+        B = B.contiguous()
+    if C.stride(-1) != 1:
+        C = C.contiguous()
+    if z is not None and z.stride(-1) != 1:
+        z = z.contiguous()
+    if B.dim() == 3 and query_start_loc is None:
+        B = B.unsqueeze(1)
+    if B.dim() == 2 and query_start_loc is not None:
+        B = B.unsqueeze(0)
+    if C.dim() == 3 and query_start_loc is None:
+        C = C.unsqueeze(1)
+    if C.dim() == 2 and query_start_loc is not None:
+        C = C.unsqueeze(0)
+
+    ops.selective_scan_fwd(
+        u,
+        delta,
+        A,
+        B,
+        C,
+        D,
+        z,
+        delta_bias,
+        delta_softplus,
+        query_start_loc,
+        cache_indices,
+        has_initial_state,
+        ssm_states,
+        pad_slot_id,
+        block_size,
+        block_idx_first_scheduled_token,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
+    )
+
+    if z is None:
+        return delta  # output written inplace to delta
+    else:
+        return z  # output written inplace to z
diff --git a/model_executor/layers/mamba/ops/ssd_bmm.py b/model_executor/layers/mamba/ops/ssd_bmm.py
new file mode 100644
index 0000000..ac5ffc1
--- /dev/null
+++ b/model_executor/layers/mamba/ops/ssd_bmm.py
@@ -0,0 +1,211 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/ssd_bmm.py
+
+# ruff: noqa: E501,SIM102
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.autotune(
+    configs=[
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 64},
+            num_stages=3,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 32, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=2,
+        ),
+    ],
+    key=["chunk_size", "K", "IS_CAUSAL"],
+)
+@triton.jit
+def _bmm_chunk_fwd_kernel(
+    # Pointers to matrices
+    a_ptr,
+    b_ptr,
+    out_ptr,
+    cu_chunk_seqlens_ptr,
+    # Matrix dimensions
+    seqlen,
+    chunk_size: tl.constexpr,
+    K: tl.constexpr,
+    ngroups: tl.constexpr,
+    stride_a_seqlen: tl.int64,
+    stride_a_head: tl.int64,
+    stride_ak: tl.constexpr,
+    stride_b_seqlen: tl.int64,
+    stride_b_head: tl.int64,
+    stride_bk: tl.constexpr,
+    stride_out_chunk: tl.int64,
+    stride_out_head: tl.int64,
+    stride_outm: tl.int64,
+    stride_outn: tl.constexpr,
+    # Meta-parameters
+    IS_CAUSAL: tl.constexpr,
+    dot_dtype: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+):
+    pid_ch = tl.program_id(axis=1).to(tl.int64)
+    pid_c = pid_ch // ngroups
+    pid_h = pid_ch - pid_c * ngroups
+    num_pid_n = tl.cdiv(chunk_size, BLOCK_SIZE_N)
+    pid_m = tl.program_id(axis=0) // num_pid_n
+    pid_n = tl.program_id(axis=0) % num_pid_n
+    if IS_CAUSAL:
+        if pid_n * BLOCK_SIZE_N >= (pid_m + 1) * BLOCK_SIZE_M:
+            return
+
+    chunk_seqlen_start = tl.load(cu_chunk_seqlens_ptr + pid_c)
+    chunk_seqlen_end = tl.load(cu_chunk_seqlens_ptr + pid_c + 1)
+
+    a_ptr += chunk_seqlen_start * stride_a_seqlen + pid_h * stride_a_head
+    b_ptr += chunk_seqlen_start * stride_b_seqlen + pid_h * stride_b_head
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_a_seqlen + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_b_seqlen)
+    chunk_size_limit = chunk_seqlen_end - chunk_seqlen_start
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    # compute a * b.T
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        a = tl.load(
+            a_ptrs,
+            mask=(offs_m[:, None] < chunk_size_limit)
+            & (offs_k[None, :] < K - k * BLOCK_SIZE_K),
+            other=0.0,
+        ).to(dot_dtype)
+        b = tl.load(
+            b_ptrs,
+            mask=(offs_k[:, None] < K - k * BLOCK_SIZE_K)
+            & (offs_n[None, :] < chunk_size_limit),
+            other=0.0,
+        ).to(dot_dtype)
+        acc += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    out = acc.to(out_ptr.dtype.element_ty)
+    out_ptr += pid_c * stride_out_chunk + pid_h * stride_out_head
+    out_ptrs = out_ptr + (stride_outm * offs_m[:, None] + offs_n[None, :] * stride_outn)
+    tl.store(
+        out_ptrs,
+        out,
+        mask=(offs_m[:, None] < chunk_size) & (offs_n[None, :] < chunk_size),
+    )
+
+
+def _bmm_chunk_fwd(a, b, chunk_size, cu_chunk_seqlens, causal=False, output_dtype=None):
+    """
+    Argument:
+        a: (seqlen, ngroups, k)
+        b: (seqlen, ngroups, k)
+        chunk_size: int
+        cu_chunk_seq_lens: (nchunks+1,)
+        causal: if True, then out[i, j] for i > j will be arbitrary, only out[i, j] for i <= j are
+            guaranteed to be correct.
+    Return:
+        out: (nchunks, ngroups, chunk_size, chunk_size)
+    """
+    seqlen, ngroups, k = a.shape
+    assert b.shape == a.shape
+    if a.stride(-1) != 1 and a.stride(0) != 1:
+        a = a.contiguous()
+    if b.stride(-1) != 1 and b.stride(0) != 1:
+        b = b.contiguous()
+
+    nchunks = len(cu_chunk_seqlens) - 1
+    # Allocates output.
+    out_dtype = a.dtype if output_dtype is None else output_dtype
+    out = torch.empty(
+        (nchunks, ngroups, chunk_size, chunk_size), device=a.device, dtype=out_dtype
+    )
+    dot_dtype = (
+        tl.bfloat16
+        if a.dtype == torch.bfloat16 or b.dtype == torch.bfloat16
+        else (
+            tl.float16
+            if a.dtype == torch.float16 or b.dtype == torch.float16
+            else tl.float32
+        )
+    )
+    grid = lambda META: (
+        triton.cdiv(chunk_size, META["BLOCK_SIZE_M"])
+        * triton.cdiv(chunk_size, META["BLOCK_SIZE_N"]),
+        nchunks * ngroups,
+    )
+    with torch.cuda.device(a.device.index):
+        _bmm_chunk_fwd_kernel[grid](
+            a_ptr=a,
+            b_ptr=b,
+            out_ptr=out,
+            cu_chunk_seqlens_ptr=cu_chunk_seqlens,
+            seqlen=seqlen,
+            chunk_size=chunk_size,
+            K=k,
+            ngroups=ngroups,
+            stride_a_seqlen=a.stride(0),
+            stride_a_head=a.stride(1),
+            stride_ak=a.stride(2),
+            stride_b_seqlen=b.stride(0),
+            stride_b_head=b.stride(1),
+            stride_bk=b.stride(2),
+            stride_out_chunk=out.stride(0),
+            stride_out_head=out.stride(1),
+            stride_outm=out.stride(-2),
+            stride_outn=out.stride(-1),
+            IS_CAUSAL=causal,
+            dot_dtype=dot_dtype,
+        )
+    return out
diff --git a/model_executor/layers/mamba/ops/ssd_chunk_scan.py b/model_executor/layers/mamba/ops/ssd_chunk_scan.py
new file mode 100644
index 0000000..661c884
--- /dev/null
+++ b/model_executor/layers/mamba/ops/ssd_chunk_scan.py
@@ -0,0 +1,456 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/ssd_chunk_scan.py
+
+# ruff: noqa: E501,SIM102
+
+from packaging import version
+
+from vllm.triton_utils import tl, triton
+
+TRITON_22 = version.parse(triton.__version__) >= version.parse("2.2.0")
+
+
+@triton.autotune(
+    configs=[
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 64},
+            num_stages=3,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 64},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 64},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 32, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=2,
+        ),
+    ],
+    key=["chunk_size", "hdim", "dstate", "IS_CAUSAL"],
+)
+@triton.jit
+def _chunk_scan_fwd_kernel(
+    # Pointers to matrices
+    cb_ptr,
+    x_ptr,
+    z_ptr,
+    out_ptr,
+    dt_ptr,
+    dA_cumsum_ptr,
+    seq_idx_ptr,
+    C_ptr,
+    states_ptr,
+    D_ptr,
+    initstates_ptr,
+    cu_chunk_seqlens_ptr,
+    # Matrix dimensions
+    chunk_size: tl.constexpr,
+    hdim: tl.constexpr,
+    dstate: tl.constexpr,
+    seqlen,
+    nheads_ngroups_ratio: tl.constexpr,
+    # Strides
+    stride_cb_chunk: tl.int64,
+    stride_cb_head: tl.int64,
+    stride_cb_csize_m: tl.int64,
+    stride_cb_csize_k: tl.constexpr,
+    stride_x_seqlen: tl.int64,
+    stride_x_head: tl.int64,
+    stride_x_hdim: tl.constexpr,
+    stride_z_seqlen: tl.int64,
+    stride_z_head: tl.int64,
+    stride_z_hdim: tl.constexpr,
+    stride_out_seqlen: tl.int64,
+    stride_out_head: tl.int64,
+    stride_out_hdim: tl.constexpr,
+    stride_dt_chunk: tl.int64,
+    stride_dt_head: tl.int64,
+    stride_dt_csize: tl.constexpr,
+    stride_dA_cs_chunk: tl.int64,
+    stride_dA_cs_head: tl.int64,
+    stride_dA_cs_csize: tl.constexpr,
+    stride_seq_idx_chunk: tl.constexpr,
+    stride_C_seqlen: tl.int64,
+    stride_C_head: tl.int64,
+    stride_C_dstate: tl.constexpr,
+    stride_states_chunk: tl.int64,
+    stride_states_head: tl.int64,
+    stride_states_hdim: tl.int64,
+    stride_states_dstate: tl.constexpr,
+    stride_init_states_batch: tl.int64,
+    stride_init_states_head: tl.int64,
+    stride_init_states_hdim: tl.int64,
+    stride_init_states_dstate: tl.constexpr,
+    stride_D_head: tl.constexpr,
+    # Meta-parameters
+    IS_CAUSAL: tl.constexpr,
+    HAS_D: tl.constexpr,
+    D_HAS_HDIM: tl.constexpr,
+    HAS_Z: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_DSTATE: tl.constexpr,
+    IS_TRITON_22: tl.constexpr,
+    HAS_INITSTATES: tl.constexpr,
+):
+    pid_c = tl.program_id(axis=1).to(tl.int64)
+    pid_h = tl.program_id(axis=2)
+    num_pid_n = tl.cdiv(hdim, BLOCK_SIZE_N)
+    pid_m = tl.program_id(axis=0) // num_pid_n
+    pid_n = tl.program_id(axis=0) % num_pid_n
+    cb_ptr += pid_c * stride_cb_chunk + (pid_h // nheads_ngroups_ratio) * stride_cb_head
+    chunk_seqlen_start = tl.load(cu_chunk_seqlens_ptr + pid_c)
+    chunk_seqlen_end = tl.load(cu_chunk_seqlens_ptr + pid_c + 1)
+    x_ptr += chunk_seqlen_start * stride_x_seqlen + pid_h * stride_x_head
+    dt_ptr += pid_c * stride_dt_chunk + pid_h * stride_dt_head
+    dA_cumsum_ptr += pid_c * stride_dA_cs_chunk + pid_h * stride_dA_cs_head
+    C_ptr += (
+        chunk_seqlen_start * stride_C_seqlen
+        + (pid_h // nheads_ngroups_ratio) * stride_C_head
+    )
+
+    # M-block offsets and prev states
+    #  - logic in next block may override these if there is an active offset
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+
+    seq_idx_ptr += pid_c * stride_seq_idx_chunk
+    seq_idx = tl.load(seq_idx_ptr)
+    seq_idx_prev = tl.load(
+        seq_idx_ptr - stride_seq_idx_chunk, mask=pid_c >= 1, other=-1
+    )
+
+    if HAS_INITSTATES and (seq_idx != seq_idx_prev):
+        prev_states_ptr = (
+            initstates_ptr
+            + seq_idx * stride_init_states_batch
+            + pid_h * stride_init_states_head
+        )
+        prev_states_hdim = stride_init_states_hdim
+        prev_states_dstate = stride_init_states_dstate
+    else:
+        prev_states_ptr = (
+            states_ptr + (pid_c - 1) * stride_states_chunk + pid_h * stride_states_head
+        )
+        prev_states_hdim = stride_states_hdim
+        prev_states_dstate = stride_states_dstate
+
+    chunk_size_limit = chunk_seqlen_end - chunk_seqlen_start
+
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    dA_cs_m = tl.load(
+        dA_cumsum_ptr + offs_m * stride_dA_cs_csize, mask=offs_m < chunk_size, other=0.0
+    ).to(tl.float32)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    offs_out_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_out_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    # Faster to just do 1 iteration with larger BLOCK_SIZE_K, up to block size 128
+    offs_k_dstate = tl.arange(
+        0, BLOCK_SIZE_DSTATE if BLOCK_SIZE_DSTATE <= 128 else BLOCK_SIZE_K
+    )
+    C_ptrs = C_ptr + (
+        offs_m[:, None] * stride_C_seqlen + offs_k_dstate[None, :] * stride_C_dstate
+    )
+
+    scale_m = tl.exp(dA_cs_m)
+    if BLOCK_SIZE_DSTATE <= 128:
+        C = tl.load(
+            C_ptrs,
+            mask=(offs_m[:, None] < chunk_size_limit)
+            & (offs_k_dstate[None, :] < dstate),
+            other=0.0,
+        )
+
+        if not HAS_INITSTATES and (seq_idx != seq_idx_prev):
+            # if no init states AND starting a new sequence, we need zeros
+            prev_states = tl.zeros(
+                (BLOCK_SIZE_DSTATE, BLOCK_SIZE_N), dtype=C_ptr.dtype.element_ty
+            )
+        else:
+            # otherwise read the previous state
+            prev_states_ptrs = (
+                prev_states_ptr
+                + offs_n[None, :] * prev_states_hdim
+                + offs_k_dstate[:, None] * prev_states_dstate
+            )
+            prev_states = tl.load(
+                prev_states_ptrs,
+                mask=(offs_k_dstate[:, None] < dstate) & (offs_n[None, :] < hdim),
+                other=0.0,
+            )
+            prev_states = prev_states.to(C_ptr.dtype.element_ty)
+
+        acc = tl.dot(C, prev_states) * scale_m[:, None]
+
+    else:
+        prev_states_ptrs = (
+            prev_states_ptr
+            + offs_n[None, :] * prev_states_hdim
+            + offs_k_dstate[:, None] * prev_states_dstate
+        )
+        for k in range(0, dstate, BLOCK_SIZE_K):
+            C = tl.load(
+                C_ptrs,
+                mask=(offs_m[:, None] < chunk_size_limit)
+                & (offs_k_dstate[None, :] < dstate - k),
+                other=0.0,
+            )
+            if not HAS_INITSTATES and (seq_idx != seq_idx_prev):
+                prev_states = tl.zeros(
+                    (BLOCK_SIZE_K, BLOCK_SIZE_N), dtype=C_ptr.dtype.element_ty
+                )
+            else:
+                prev_states = tl.load(
+                    prev_states_ptrs,
+                    mask=(offs_k_dstate[:, None] < dstate - k)
+                    & (offs_n[None, :] < hdim),
+                    other=0.0,
+                )
+                prev_states = prev_states.to(C_ptr.dtype.element_ty)
+            acc += tl.dot(C, prev_states)
+            C_ptrs += BLOCK_SIZE_K
+            prev_states_ptrs += BLOCK_SIZE_K
+        acc *= scale_m[:, None]
+
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    cb_ptrs = cb_ptr + (
+        offs_m[:, None] * stride_cb_csize_m + offs_k[None, :] * stride_cb_csize_k
+    )
+    x_ptrs = x_ptr + (
+        offs_k[:, None] * stride_x_seqlen + offs_n[None, :] * stride_x_hdim
+    )
+    dt_ptrs = dt_ptr + offs_k * stride_dt_csize
+    dA_cumsum_ptrs = dA_cumsum_ptr + offs_k * stride_dA_cs_csize
+    K_MAX = (
+        chunk_size_limit
+        if not IS_CAUSAL
+        else min((pid_m + 1) * BLOCK_SIZE_M, chunk_size_limit)
+    )
+    for k in range(0, K_MAX, BLOCK_SIZE_K):
+        cb = tl.load(
+            cb_ptrs,
+            mask=(offs_m[:, None] < chunk_size) & (offs_k[None, :] < chunk_size - k),
+            other=0.0,
+        ).to(tl.float32)
+        dA_cs_k = tl.load(dA_cumsum_ptrs, mask=offs_k < chunk_size - k, other=0.0).to(
+            tl.float32
+        )
+        # If there's seq_idx, we already set cb[i, j] = 0 for seq_idx[i] != seq_idx[j].
+        # So we don't need masking wrt seq_idx here.
+        cb *= tl.exp(dA_cs_m[:, None] - dA_cs_k[None, :])
+        dt_k = tl.load(dt_ptrs, mask=offs_k < chunk_size - k, other=0.0).to(tl.float32)
+        cb *= dt_k
+        if IS_CAUSAL:
+            mask = offs_m[:, None] >= k + offs_k[None, :]
+            cb = tl.where(mask, cb, 0.0)
+        cb = cb.to(x_ptr.dtype.element_ty)
+        x = tl.load(
+            x_ptrs,
+            mask=(offs_k[:, None] < chunk_size_limit - k) & (offs_n[None, :] < hdim),
+            other=0.0,
+        )
+        acc += tl.dot(cb, x)
+        cb_ptrs += BLOCK_SIZE_K * stride_cb_csize_k
+        x_ptrs += BLOCK_SIZE_K * stride_x_seqlen
+        dt_ptrs += BLOCK_SIZE_K * stride_dt_csize
+        dA_cumsum_ptrs += BLOCK_SIZE_K * stride_dA_cs_csize
+
+    offs_out_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_out_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    if HAS_D:
+        if D_HAS_HDIM:
+            D = tl.load(
+                D_ptr + pid_h * stride_D_head + offs_n, mask=offs_n < hdim, other=0.0
+            ).to(tl.float32)
+        else:
+            D = tl.load(D_ptr + pid_h * stride_D_head).to(tl.float32)
+        x_residual = tl.load(
+            x_ptr
+            + (offs_m[:, None] * stride_x_seqlen + offs_n[None, :] * stride_x_hdim),
+            mask=(offs_m[:, None] < chunk_size_limit) & (offs_n[None, :] < hdim),
+            other=0.0,
+        ).to(tl.float32)
+        acc += x_residual * D
+
+    if HAS_Z:
+        z_ptr += chunk_seqlen_start * stride_z_seqlen + pid_h * stride_z_head
+        z_ptrs = z_ptr + (
+            stride_z_seqlen * offs_out_m[:, None] + stride_z_hdim * offs_out_n[None, :]
+        )
+        z = tl.load(
+            z_ptrs,
+            mask=(offs_out_m[:, None] < chunk_size_limit)
+            & (offs_out_n[None, :] < hdim),
+            other=0.0,
+        ).to(tl.float32)
+        acc *= z * tl.sigmoid(z)
+
+    out_ptr += chunk_seqlen_start * stride_out_seqlen + pid_h * stride_out_head
+    out_ptrs = out_ptr + (
+        stride_out_seqlen * offs_out_m[:, None] + offs_out_n[None, :] * stride_out_hdim
+    )
+    tl.store(
+        out_ptrs,
+        acc,
+        mask=(offs_out_m[:, None] < chunk_size_limit) & (offs_out_n[None, :] < hdim),
+    )
+
+
+def _chunk_scan_fwd(
+    cb,
+    x,
+    dt,
+    dA_cumsum,
+    C,
+    states,
+    cu_chunk_seqlens,
+    out,
+    seq_idx,
+    D=None,
+    z=None,
+    initial_states=None,
+):
+    assert seq_idx is not None, "this implementation requires seq_idx"
+
+    seqlen, nheads, headdim = x.shape
+    _, nchunks, chunk_size = dt.shape
+    _, ngroups, dstate = C.shape
+    assert nheads % ngroups == 0
+    assert C.shape == (seqlen, ngroups, dstate)
+    assert cb.shape == (nchunks, ngroups, chunk_size, chunk_size)
+    if D is not None:
+        assert D.shape == (nheads, headdim) or D.shape == (nheads,)
+    if z is not None:
+        assert z.shape == x.shape
+    assert dt.shape == (nheads, nchunks, chunk_size)
+    assert dA_cumsum.shape == (nheads, nchunks, chunk_size)
+    assert states.shape == (nchunks, nheads, headdim, dstate)
+    assert seq_idx.shape == (nchunks,)
+
+    grid = lambda META: (
+        triton.cdiv(chunk_size, META["BLOCK_SIZE_M"])
+        * triton.cdiv(headdim, META["BLOCK_SIZE_N"]),
+        nchunks,
+        nheads,
+    )
+
+    z_strides = (z.stride(0), z.stride(1), z.stride(2)) if z is not None else (0, 0, 0)
+    initial_states_strides = (
+        (
+            initial_states.stride(0),
+            initial_states.stride(1),
+            initial_states.stride(2),
+            initial_states.stride(3),
+        )
+        if initial_states is not None
+        else (0, 0, 0, 0)
+    )
+
+    _chunk_scan_fwd_kernel[grid](
+        cb_ptr=cb,
+        x_ptr=x,
+        z_ptr=z,
+        out_ptr=out,
+        dt_ptr=dt,
+        dA_cumsum_ptr=dA_cumsum,
+        seq_idx_ptr=seq_idx,
+        C_ptr=C,
+        states_ptr=states,
+        D_ptr=D,
+        initstates_ptr=initial_states,
+        cu_chunk_seqlens_ptr=cu_chunk_seqlens,
+        chunk_size=chunk_size,
+        hdim=headdim,
+        dstate=dstate,
+        seqlen=seqlen,
+        nheads_ngroups_ratio=nheads // ngroups,
+        stride_cb_chunk=cb.stride(0),
+        stride_cb_head=cb.stride(1),
+        stride_cb_csize_m=cb.stride(2),
+        stride_cb_csize_k=cb.stride(3),
+        stride_x_seqlen=x.stride(0),
+        stride_x_head=x.stride(1),
+        stride_x_hdim=x.stride(2),
+        stride_z_seqlen=z_strides[0],
+        stride_z_head=z_strides[1],
+        stride_z_hdim=z_strides[2],
+        stride_out_seqlen=out.stride(0),
+        stride_out_head=out.stride(1),
+        stride_out_hdim=out.stride(2),
+        stride_dt_chunk=dt.stride(1),
+        stride_dt_head=dt.stride(0),
+        stride_dt_csize=dt.stride(2),
+        stride_dA_cs_chunk=dA_cumsum.stride(1),
+        stride_dA_cs_head=dA_cumsum.stride(0),
+        stride_dA_cs_csize=dA_cumsum.stride(2),
+        stride_seq_idx_chunk=seq_idx.stride(0),
+        stride_C_seqlen=C.stride(0),
+        stride_C_head=C.stride(1),
+        stride_C_dstate=C.stride(2),
+        stride_states_chunk=states.stride(0),
+        stride_states_head=states.stride(1),
+        stride_states_hdim=states.stride(2),
+        stride_states_dstate=states.stride(3),
+        stride_init_states_batch=initial_states_strides[0],
+        stride_init_states_head=initial_states_strides[1],
+        stride_init_states_hdim=initial_states_strides[2],
+        stride_init_states_dstate=initial_states_strides[3],
+        stride_D_head=D.stride(0) if D is not None else 0,
+        IS_CAUSAL=True,
+        HAS_D=D is not None,
+        D_HAS_HDIM=D.dim() == 2 if D is not None else True,
+        HAS_Z=z is not None,
+        BLOCK_SIZE_DSTATE=max(triton.next_power_of_2(dstate), 16),
+        IS_TRITON_22=TRITON_22,
+        HAS_INITSTATES=initial_states is not None,
+    )
+    return
diff --git a/model_executor/layers/mamba/ops/ssd_chunk_state.py b/model_executor/layers/mamba/ops/ssd_chunk_state.py
new file mode 100644
index 0000000..11cc125
--- /dev/null
+++ b/model_executor/layers/mamba/ops/ssd_chunk_state.py
@@ -0,0 +1,700 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/ssd_chunk_state.py
+
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .mamba_ssm import softplus
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({"BLOCK_SIZE_H": 2}),
+        triton.Config({"BLOCK_SIZE_H": 4}),
+        triton.Config({"BLOCK_SIZE_H": 8}),
+        triton.Config({"BLOCK_SIZE_H": 16}),
+        triton.Config({"BLOCK_SIZE_H": 32}),
+        triton.Config({"BLOCK_SIZE_H": 64}),
+    ],
+    key=["chunk_size", "nheads"],
+)
+@triton.jit
+def _chunk_cumsum_fwd_kernel(
+    # Pointers to matrices
+    dt_ptr,
+    A_ptr,
+    dt_bias_ptr,
+    dt_out_ptr,
+    dA_cumsum_ptr,
+    cu_chunk_seqlens_ptr,
+    # Matrix dimension
+    seqlen,
+    nheads: tl.constexpr,
+    chunk_size: tl.constexpr,
+    dt_min: tl.constexpr,
+    dt_max: tl.constexpr,
+    # Strides
+    stride_dt_seqlen: tl.int64,
+    stride_dt_head: tl.constexpr,
+    stride_A_head: tl.constexpr,
+    stride_dt_bias_head: tl.constexpr,
+    stride_dt_out_head: tl.int64,
+    stride_dt_out_chunk: tl.int64,
+    stride_dt_out_csize: tl.constexpr,
+    stride_dA_cs_head: tl.int64,
+    stride_dA_cs_chunk: tl.int64,
+    stride_dA_cs_csize: tl.constexpr,
+    # Meta-parameters
+    DT_SOFTPLUS: tl.constexpr,
+    HAS_DT_BIAS: tl.constexpr,
+    BLOCK_SIZE_H: tl.constexpr,
+    BLOCK_SIZE_CHUNK: tl.constexpr,
+):
+    # if dt is long, may cause problems, so use 64 bit
+    # https://github.com/triton-lang/triton/issues/1058
+    pid_c = tl.program_id(axis=0).to(tl.int64)
+    pid_h = tl.program_id(axis=1)
+
+    chunk_seqlen_start = tl.load(cu_chunk_seqlens_ptr + pid_c)
+    chunk_seqlen_end = tl.load(cu_chunk_seqlens_ptr + pid_c + 1)
+
+    dt_ptr += chunk_seqlen_start * stride_dt_seqlen
+    dt_out_ptr += pid_c * stride_dt_out_chunk
+    dA_cumsum_ptr += pid_c * stride_dA_cs_chunk
+
+    offs_h = pid_h * BLOCK_SIZE_H + tl.arange(0, BLOCK_SIZE_H)
+    offs_c = tl.arange(0, BLOCK_SIZE_CHUNK)
+    dt_ptrs = dt_ptr + (
+        offs_h[:, None] * stride_dt_head + offs_c[None, :] * stride_dt_seqlen
+    )
+    A_ptrs = A_ptr + offs_h * stride_A_head
+    dt_out_ptrs = dt_out_ptr + (
+        offs_h[:, None] * stride_dt_out_head + offs_c[None, :] * stride_dt_out_csize
+    )
+    dA_cs_ptrs = dA_cumsum_ptr + (
+        offs_h[:, None] * stride_dA_cs_head + offs_c[None, :] * stride_dA_cs_csize
+    )
+    chunk_size_limit = chunk_seqlen_end - chunk_seqlen_start
+
+    dt = tl.load(
+        dt_ptrs,
+        mask=(offs_h[:, None] < nheads) & (offs_c[None, :] < chunk_size_limit),
+        other=0.0,
+    ).to(tl.float32)
+    if HAS_DT_BIAS:
+        dt_bias = tl.load(
+            dt_bias_ptr + offs_h * stride_dt_bias_head, mask=offs_h < nheads, other=0.0
+        ).to(tl.float32)
+        dt += dt_bias[:, None]
+    if DT_SOFTPLUS:
+        dt = tl.where(dt <= 20.0, softplus(dt), dt)
+
+    dt = tl.clamp(dt, dt_min, dt_max)
+    dt = tl.where(
+        (offs_h[:, None] < nheads) & (offs_c[None, :] < chunk_size_limit), dt, 0.0
+    )
+    tl.store(
+        dt_out_ptrs,
+        dt,
+        mask=(offs_h[:, None] < nheads) & (offs_c[None, :] < chunk_size),
+    )
+    A = tl.load(A_ptrs, mask=offs_h < nheads, other=0.0).to(tl.float32)
+    dA = dt * A[:, None]
+    dA_cs = tl.cumsum(dA, axis=1)
+    tl.store(
+        dA_cs_ptrs,
+        dA_cs,
+        mask=(offs_h[:, None] < nheads) & (offs_c[None, :] < chunk_size),
+    )
+
+
+@triton.autotune(
+    configs=[
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 64},
+            num_stages=3,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 32, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=2,
+        ),
+    ],
+    key=["hdim", "dstate", "chunk_size"],
+)
+@triton.jit
+def _chunk_state_fwd_kernel(
+    # Pointers to matrices
+    x_ptr,
+    b_ptr,
+    states_ptr,
+    dt_ptr,
+    dA_cumsum_ptr,
+    cu_chunk_seqlens_ptr,
+    # Matrix dimensions
+    hdim: tl.constexpr,
+    dstate: tl.constexpr,
+    chunk_size: tl.constexpr,
+    seqlen,
+    nheads_ngroups_ratio: tl.constexpr,
+    # Strides
+    stride_x_seqlen: tl.int64,
+    stride_x_head: tl.int64,
+    stride_x_hdim: tl.constexpr,
+    stride_b_seqlen: tl.int64,
+    stride_b_head: tl.int64,
+    stride_b_dstate: tl.constexpr,
+    stride_states_chunk: tl.int64,
+    stride_states_head: tl.int64,
+    stride_states_hdim: tl.int64,
+    stride_states_dstate: tl.constexpr,
+    stride_dt_head: tl.int64,
+    stride_dt_chunk: tl.int64,
+    stride_dt_csize: tl.constexpr,
+    stride_dA_cs_head: tl.int64,
+    stride_dA_cs_chunk: tl.int64,
+    stride_dA_cs_csize: tl.constexpr,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+):
+    pid_c = tl.program_id(axis=1).to(tl.int64)
+    pid_h = tl.program_id(axis=2)
+    num_pid_n = tl.cdiv(dstate, BLOCK_SIZE_N)
+    pid_m = tl.program_id(axis=0) // num_pid_n
+    pid_n = tl.program_id(axis=0) % num_pid_n
+    chunk_seqlen_start = tl.load(cu_chunk_seqlens_ptr + pid_c)
+    chunk_seqlen_end = tl.load(cu_chunk_seqlens_ptr + pid_c + 1)
+    b_ptr += (
+        chunk_seqlen_start * stride_b_seqlen
+        + (pid_h // nheads_ngroups_ratio) * stride_b_head
+    )
+    x_ptr += chunk_seqlen_start * stride_x_seqlen + pid_h * stride_x_head
+    dt_ptr += pid_c * stride_dt_chunk + pid_h * stride_dt_head
+    dA_cumsum_ptr += pid_c * stride_dA_cs_chunk + pid_h * stride_dA_cs_head
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    x_ptrs = x_ptr + (
+        offs_m[:, None] * stride_x_hdim + offs_k[None, :] * stride_x_seqlen
+    )
+    b_ptrs = b_ptr + (
+        offs_n[None, :] * stride_b_dstate + offs_k[:, None] * stride_b_seqlen
+    )
+    dt_ptrs = dt_ptr + offs_k * stride_dt_csize
+    dA_cs_last = tl.load(dA_cumsum_ptr + (chunk_size - 1) * stride_dA_cs_csize).to(
+        tl.float32
+    )
+    dA_cumsum_ptrs = dA_cumsum_ptr + offs_k * stride_dA_cs_csize
+
+    chunk_size_limit = chunk_seqlen_end - chunk_seqlen_start
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, chunk_size_limit, BLOCK_SIZE_K):
+        x = tl.load(
+            x_ptrs,
+            mask=(offs_m[:, None] < hdim) & (offs_k[None, :] < chunk_size_limit - k),
+            other=0.0,
+        )
+        b = tl.load(
+            b_ptrs,
+            mask=(offs_k[:, None] < chunk_size_limit - k) & (offs_n[None, :] < dstate),
+            other=0.0,
+        ).to(tl.float32)
+        dA_cs_k = tl.load(
+            dA_cumsum_ptrs, mask=offs_k < chunk_size_limit - k, other=0.0
+        ).to(tl.float32)
+        dt_k = tl.load(dt_ptrs, mask=offs_k < chunk_size_limit - k, other=0.0).to(
+            tl.float32
+        )
+        scale = tl.exp(dA_cs_last - dA_cs_k) * dt_k
+        b *= scale[:, None]
+        b = b.to(x_ptr.dtype.element_ty)
+        acc += tl.dot(x, b)
+
+        x_ptrs += BLOCK_SIZE_K * stride_x_seqlen
+        b_ptrs += BLOCK_SIZE_K * stride_b_seqlen
+        dt_ptrs += BLOCK_SIZE_K * stride_dt_csize
+        dA_cumsum_ptrs += BLOCK_SIZE_K * stride_dA_cs_csize
+
+    states = acc.to(states_ptr.dtype.element_ty)
+
+    states_ptr += pid_c * stride_states_chunk + pid_h * stride_states_head
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    states_ptrs = states_ptr + (
+        offs_m[:, None] * stride_states_hdim + offs_n[None, :] * stride_states_dstate
+    )
+    c_mask = (offs_m[:, None] < hdim) & (offs_n[None, :] < dstate)
+    tl.store(states_ptrs, states, mask=c_mask)
+
+
+@triton.autotune(
+    configs=[
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 64},
+            num_stages=3,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 256, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 128, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 128, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 32, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 32, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=5,
+            num_warps=2,
+        ),
+        triton.Config(
+            {"BLOCK_SIZE_M": 64, "BLOCK_SIZE_N": 64, "BLOCK_SIZE_K": 32},
+            num_stages=4,
+            num_warps=2,
+        ),
+    ],
+    key=["hdim", "dstate", "chunk_size"],
+)
+@triton.jit
+def _chunk_state_varlen_kernel(
+    # Pointers to matrices
+    x_ptr,
+    b_ptr,
+    dt_ptr,
+    dA_cumsum_ptr,
+    chunk_states_ptr,
+    cu_seqlens_ptr,
+    states_ptr,
+    initstates_ptr,
+    # Matrix dimensions
+    hdim: tl.constexpr,
+    dstate: tl.constexpr,
+    chunk_size: tl.constexpr,
+    nheads_ngroups_ratio: tl.constexpr,
+    # Strides
+    stride_x_seqlen: tl.int64,
+    stride_x_head: tl.int64,
+    stride_x_hdim: tl.constexpr,
+    stride_b_seqlen: tl.int64,
+    stride_b_head: tl.int64,
+    stride_b_dstate: tl.constexpr,
+    stride_dt_head: tl.int64,
+    stride_dt_chunk: tl.int64,
+    stride_dt_csize: tl.constexpr,
+    stride_dA_cs_head: tl.int64,
+    stride_dA_cs_chunk: tl.int64,
+    stride_dA_cs_csize: tl.constexpr,
+    stride_chunk_states_chunk: tl.int64,
+    stride_chunk_states_head: tl.int64,
+    stride_chunk_states_hdim: tl.int64,
+    stride_chunk_states_dstate: tl.constexpr,
+    stride_states_batch: tl.int64,
+    stride_states_head: tl.int64,
+    stride_states_hdim: tl.int64,
+    stride_states_dstate: tl.constexpr,
+    stride_init_states_batch: tl.int64,
+    stride_init_states_head: tl.int64,
+    stride_init_states_hdim: tl.int64,
+    stride_init_states_dstate: tl.constexpr,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    HAS_INITSTATES: tl.constexpr,
+):
+    pid_b = tl.program_id(axis=1)
+    pid_h = tl.program_id(axis=2)
+    num_pid_n = tl.cdiv(dstate, BLOCK_SIZE_N)
+    pid_m = tl.program_id(axis=0) // num_pid_n
+    pid_n = tl.program_id(axis=0) % num_pid_n
+    end_idx = tl.load(cu_seqlens_ptr + pid_b + 1)
+    pid_c = (end_idx - 1) // chunk_size
+    b_ptr += (
+        pid_c * chunk_size * stride_b_seqlen
+        + (pid_h // nheads_ngroups_ratio) * stride_b_head
+    )
+    x_ptr += pid_c * chunk_size * stride_x_seqlen + pid_h * stride_x_head
+    dt_ptr += pid_c * stride_dt_chunk + pid_h * stride_dt_head
+    dA_cumsum_ptr += pid_c * stride_dA_cs_chunk + pid_h * stride_dA_cs_head
+    chunk_states_ptr += (
+        pid_c * stride_chunk_states_chunk + pid_h * stride_chunk_states_head
+    )
+
+    if HAS_INITSTATES:
+        # if there are init states provided, we differentiate between states (which
+        # are boundary conditions at a chunk boundary) and initstates (which are boundary
+        # conditions when a new example in a cont batch starts)
+        initstates_ptr += pid_h * stride_init_states_head
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    x_ptrs = x_ptr + (
+        offs_m[:, None] * stride_x_hdim + offs_k[None, :] * stride_x_seqlen
+    )
+    b_ptrs = b_ptr + (
+        offs_n[None, :] * stride_b_dstate + offs_k[:, None] * stride_b_seqlen
+    )
+    dt_ptrs = dt_ptr + offs_k * stride_dt_csize
+    dA_cs_last = tl.load(
+        dA_cumsum_ptr + (end_idx - pid_c * chunk_size - 1) * stride_dA_cs_csize
+    ).to(tl.float32)
+    dA_cumsum_ptrs = dA_cumsum_ptr + offs_k * stride_dA_cs_csize
+
+    chunk_size_limit = end_idx - pid_c * chunk_size
+    start_idx = tl.load(cu_seqlens_ptr + pid_b)
+    start_idx_cur = tl.maximum(start_idx - pid_c * chunk_size, 0)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, chunk_size_limit, BLOCK_SIZE_K):
+        x = tl.load(
+            x_ptrs,
+            mask=(offs_m[:, None] < hdim)
+            & (offs_k[None, :] < chunk_size_limit - k)
+            & (offs_k[None, :] >= start_idx_cur - k),
+            other=0.0,
+        )
+        b = tl.load(
+            b_ptrs,
+            mask=(offs_k[:, None] < chunk_size_limit - k)
+            & (offs_n[None, :] < dstate)
+            & (offs_k[:, None] >= start_idx_cur - k),
+            other=0.0,
+        ).to(tl.float32)
+        dA_cs_k = tl.load(
+            dA_cumsum_ptrs, mask=offs_k < chunk_size_limit - k, other=0.0
+        ).to(tl.float32)
+        dt_k = tl.load(dt_ptrs, mask=offs_k < chunk_size_limit - k, other=0.0).to(
+            tl.float32
+        )
+        scale = tl.where(
+            (offs_k >= start_idx_cur - k) & (offs_k < chunk_size_limit - k),
+            tl.exp(dA_cs_last - dA_cs_k) * dt_k,
+            0.0,
+        )
+        b *= scale[:, None]
+        b = b.to(x_ptr.dtype.element_ty)
+        acc += tl.dot(x, b)
+        x_ptrs += BLOCK_SIZE_K * stride_x_seqlen
+        b_ptrs += BLOCK_SIZE_K * stride_b_seqlen
+        dt_ptrs += BLOCK_SIZE_K * stride_dt_csize
+        dA_cumsum_ptrs += BLOCK_SIZE_K * stride_dA_cs_csize
+
+    # If the sequence starts after the last chunk idx, we don't need to add the contribution from the last chunk
+    # If HAS_INITSTATES==True need to consider two possibilities
+    # - if start_idx < pid_c * chunk_size, then we need to take the past_states_ptrs
+    # - if state_idx >= pid * chunk_size, then we need to insert initstates
+    if (
+        (start_idx < pid_c * chunk_size)  # first chunk
+        or (HAS_INITSTATES)
+    ):
+        dA_cs_boundary = 0.0  # default
+
+        if not HAS_INITSTATES:
+            past_states_ptrs = chunk_states_ptr + (
+                offs_m[:, None] * stride_chunk_states_hdim
+                + offs_n[None, :] * stride_chunk_states_dstate
+            )
+        else:
+            # - this seems repetitive, buts its to help the compiler
+            if start_idx < pid_c * chunk_size:
+                past_states_ptrs = chunk_states_ptr + (
+                    offs_m[:, None] * stride_chunk_states_hdim
+                    + offs_n[None, :] * stride_chunk_states_dstate
+                )
+            else:
+                past_states_ptrs = initstates_ptr + (
+                    pid_b * stride_init_states_batch
+                    + offs_m[:, None] * stride_init_states_hdim
+                    + offs_n[None, :] * stride_init_states_dstate
+                )
+
+                # need to adjust the boundary
+                if start_idx > pid_c * chunk_size:
+                    dA_cs_boundary = tl.load(
+                        dA_cumsum_ptr
+                        + (start_idx - pid_c * chunk_size - 1) * stride_dA_cs_csize
+                    ).to(tl.float32)
+
+        past_states = tl.load(
+            past_states_ptrs,
+            mask=(offs_m[:, None] < hdim) & (offs_n[None, :] < dstate),
+            other=0.0,
+        ).to(tl.float32)
+
+        scale = tl.exp(dA_cs_last - dA_cs_boundary)
+        acc += past_states * scale
+
+    states = acc.to(states_ptr.dtype.element_ty)
+
+    states_ptr += pid_b * stride_states_batch + pid_h * stride_states_head
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    states_ptrs = states_ptr + (
+        offs_m[:, None] * stride_states_hdim + offs_n[None, :] * stride_states_dstate
+    )
+    c_mask = (offs_m[:, None] < hdim) & (offs_n[None, :] < dstate)
+    tl.store(states_ptrs, states, mask=c_mask)
+
+
+def _chunk_cumsum_fwd(
+    dt,
+    A,
+    chunk_size,
+    cu_chunk_seqlens,
+    dt_bias=None,
+    dt_softplus=False,
+    dt_limit=(0.0, float("inf")),
+):
+    seqlen, nheads = dt.shape
+    assert A.shape == (nheads,)
+    if dt_bias is not None:
+        assert dt_bias.shape == (nheads,)
+    nchunks = cu_chunk_seqlens.shape[0] - 1
+    dt_out = torch.empty(
+        nheads, nchunks, chunk_size, device=dt.device, dtype=torch.float32
+    )
+    dA_cumsum = torch.empty(
+        nheads, nchunks, chunk_size, device=dt.device, dtype=torch.float32
+    )
+    grid_chunk_cs = lambda META: (nchunks, triton.cdiv(nheads, META["BLOCK_SIZE_H"]))
+    with torch.cuda.device(dt.device.index):
+        _chunk_cumsum_fwd_kernel[grid_chunk_cs](
+            dt_ptr=dt,
+            A_ptr=A,
+            dt_bias_ptr=dt_bias,
+            dt_out_ptr=dt_out,
+            dA_cumsum_ptr=dA_cumsum,
+            cu_chunk_seqlens_ptr=cu_chunk_seqlens,
+            seqlen=seqlen,
+            nheads=nheads,
+            chunk_size=chunk_size,
+            dt_min=dt_limit[0],
+            dt_max=dt_limit[1],
+            stride_dt_seqlen=dt.stride(0),
+            stride_dt_head=dt.stride(1),
+            stride_A_head=A.stride(0),
+            stride_dt_bias_head=dt_bias.stride(0) if dt_bias is not None else 0,
+            stride_dt_out_head=dt_out.stride(0),
+            stride_dt_out_chunk=dt_out.stride(1),
+            stride_dt_out_csize=dt_out.stride(2),
+            stride_dA_cs_head=dA_cumsum.stride(0),
+            stride_dA_cs_chunk=dA_cumsum.stride(1),
+            stride_dA_cs_csize=dA_cumsum.stride(2),
+            DT_SOFTPLUS=dt_softplus,
+            HAS_DT_BIAS=dt_bias is not None,
+            BLOCK_SIZE_CHUNK=triton.next_power_of_2(chunk_size),
+        )
+    return dA_cumsum, dt_out
+
+
+def _chunk_state_fwd(
+    B, x, dt, dA_cumsum, cu_chunk_seqlens, states=None, states_in_fp32=True
+):
+    seqlen, nheads, headdim = x.shape
+    _, nchunks, chunk_size = dt.shape
+    _, ngroups, dstate = B.shape
+    assert nheads % ngroups == 0
+    assert B.shape == (seqlen, ngroups, dstate)
+    assert dt.shape == (nheads, nchunks, chunk_size)
+    assert dA_cumsum.shape == dt.shape
+
+    if states is not None:
+        assert states.shape == (nchunks, nheads, headdim, dstate)
+    else:
+        states_dtype = torch.float32 if states_in_fp32 else B.dtype
+        states = torch.empty(
+            (nchunks, nheads, headdim, dstate), device=x.device, dtype=states_dtype
+        )
+
+    grid = lambda META: (
+        triton.cdiv(headdim, META["BLOCK_SIZE_M"])
+        * triton.cdiv(dstate, META["BLOCK_SIZE_N"]),
+        nchunks,
+        nheads,
+    )
+    with torch.cuda.device(x.device.index):
+        _chunk_state_fwd_kernel[grid](
+            x_ptr=x,
+            b_ptr=B,
+            states_ptr=states,
+            dt_ptr=dt,
+            dA_cumsum_ptr=dA_cumsum,
+            cu_chunk_seqlens_ptr=cu_chunk_seqlens,
+            hdim=headdim,
+            dstate=dstate,
+            chunk_size=chunk_size,
+            seqlen=seqlen,
+            nheads_ngroups_ratio=nheads // ngroups,
+            stride_x_seqlen=x.stride(0),
+            stride_x_head=x.stride(1),
+            stride_x_hdim=x.stride(2),
+            stride_b_seqlen=B.stride(0),
+            stride_b_head=B.stride(1),
+            stride_b_dstate=B.stride(2),
+            stride_states_chunk=states.stride(0),
+            stride_states_head=states.stride(1),
+            stride_states_hdim=states.stride(2),
+            stride_states_dstate=states.stride(3),
+            stride_dt_head=dt.stride(0),
+            stride_dt_chunk=dt.stride(1),
+            stride_dt_csize=dt.stride(2),
+            stride_dA_cs_head=dA_cumsum.stride(0),
+            stride_dA_cs_chunk=dA_cumsum.stride(1),
+            stride_dA_cs_csize=dA_cumsum.stride(2),
+        )
+    return states
+
+
+def chunk_state_varlen(
+    B, x, dt, dA_cumsum, cu_seqlens, chunk_states, initial_states=None
+):
+    total_seqlen, nheads, headdim = x.shape
+    _, nchunks, chunk_size = dt.shape
+    _, ngroups, dstate = B.shape
+    batch = cu_seqlens.shape[0] - 1
+    cu_seqlens = cu_seqlens.contiguous()
+    assert nheads % ngroups == 0
+    assert B.shape == (total_seqlen, ngroups, dstate)
+    assert dt.shape == (nheads, nchunks, chunk_size)
+    assert dA_cumsum.shape == dt.shape
+    assert chunk_states.shape == (nchunks, nheads, headdim, dstate)
+
+    if initial_states is not None:
+        assert initial_states.shape == (batch, nheads, headdim, dstate)
+
+    states = torch.empty(
+        batch,
+        nheads,
+        headdim,
+        dstate,
+        dtype=chunk_states.dtype,
+        device=chunk_states.device,
+    )
+
+    initial_states_strides = (
+        (
+            initial_states.stride(0),
+            initial_states.stride(1),
+            initial_states.stride(2),
+            initial_states.stride(3),
+        )
+        if initial_states is not None
+        else (0, 0, 0, 0)
+    )
+
+    grid = lambda META: (
+        triton.cdiv(headdim, META["BLOCK_SIZE_M"])
+        * triton.cdiv(dstate, META["BLOCK_SIZE_N"]),
+        batch,
+        nheads,
+    )
+    with torch.cuda.device(x.device.index):
+        _chunk_state_varlen_kernel[grid](
+            x_ptr=x,
+            b_ptr=B,
+            dt_ptr=dt,
+            dA_cumsum_ptr=dA_cumsum,
+            chunk_states_ptr=chunk_states,
+            cu_seqlens_ptr=cu_seqlens,
+            states_ptr=states,
+            initstates_ptr=initial_states,
+            hdim=headdim,
+            dstate=dstate,
+            chunk_size=chunk_size,
+            nheads_ngroups_ratio=nheads // ngroups,
+            stride_x_seqlen=x.stride(0),
+            stride_x_head=x.stride(1),
+            stride_x_hdim=x.stride(2),
+            stride_b_seqlen=B.stride(0),
+            stride_b_head=B.stride(1),
+            stride_b_dstate=B.stride(2),
+            stride_dt_head=dt.stride(0),
+            stride_dt_chunk=dt.stride(1),
+            stride_dt_csize=dt.stride(2),
+            stride_dA_cs_head=dA_cumsum.stride(0),
+            stride_dA_cs_chunk=dA_cumsum.stride(1),
+            stride_dA_cs_csize=dA_cumsum.stride(2),
+            stride_chunk_states_chunk=chunk_states.stride(0),
+            stride_chunk_states_head=chunk_states.stride(1),
+            stride_chunk_states_hdim=chunk_states.stride(2),
+            stride_chunk_states_dstate=chunk_states.stride(3),
+            stride_states_batch=states.stride(0),
+            stride_states_head=states.stride(1),
+            stride_states_hdim=states.stride(2),
+            stride_states_dstate=states.stride(3),
+            stride_init_states_batch=initial_states_strides[0],
+            stride_init_states_head=initial_states_strides[1],
+            stride_init_states_hdim=initial_states_strides[2],
+            stride_init_states_dstate=initial_states_strides[3],
+            HAS_INITSTATES=initial_states is not None,
+        )
+    return states
diff --git a/model_executor/layers/mamba/ops/ssd_combined.py b/model_executor/layers/mamba/ops/ssd_combined.py
new file mode 100644
index 0000000..ac905ad
--- /dev/null
+++ b/model_executor/layers/mamba/ops/ssd_combined.py
@@ -0,0 +1,230 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/ssd_combined.py
+
+# ruff: noqa: E501
+
+import torch
+from einops import rearrange
+from packaging import version
+
+from vllm.triton_utils import triton
+
+from .ssd_bmm import _bmm_chunk_fwd
+from .ssd_chunk_scan import _chunk_scan_fwd
+from .ssd_chunk_state import _chunk_cumsum_fwd, _chunk_state_fwd
+from .ssd_state_passing import _state_passing_fwd
+
+TRITON_22 = version.parse(triton.__version__) >= version.parse("2.2.0")
+
+
+def is_int_pow_2(n):
+    return isinstance(n, int) and n > 0 and (n & (n - 1)) == 0
+
+
+def _mamba_chunk_scan_combined_fwd(
+    x,
+    dt,
+    A,
+    B,
+    C,
+    chunk_size,
+    out,
+    D=None,
+    z=None,
+    dt_bias=None,
+    initial_states=None,
+    return_intermediate_states=False,
+    seq_idx=None,
+    cu_seqlens=None,
+    cu_chunk_seqlens=None,
+    last_chunk_indices=None,
+    dt_softplus=False,
+    dt_limit=(0.0, float("inf")),
+    state_dtype=None,
+):
+    assert is_int_pow_2(chunk_size), "chunk_size must be integer power of 2"
+    seqlen, nheads, headdim = x.shape
+    _, ngroups, dstate = B.shape
+    assert nheads % ngroups == 0
+    assert B.shape == (seqlen, ngroups, dstate)
+    assert dt.shape == (seqlen, nheads)
+    assert A.shape == (nheads,)
+    assert C.shape == B.shape
+    if z is not None:
+        assert z.shape == x.shape
+    if D is not None:
+        assert D.shape == (nheads, headdim) or D.shape == (nheads,)
+    if seq_idx is not None:
+        assert seq_idx.shape == (cu_chunk_seqlens.shape[0] - 1,)
+    if B.stride(-1) != 1:
+        B = B.contiguous()
+    if C.stride(-1) != 1:
+        C = C.contiguous()
+    if (
+        x.stride(-1) != 1 and x.stride(0) != 1
+    ):  # Either M or K dimension should be contiguous
+        x = x.contiguous()
+    if (
+        z is not None and z.stride(-1) != 1 and z.stride(0) != 1
+    ):  # Either M or K dimension should be contiguous
+        z = z.contiguous()
+    if D is not None and D.stride(-1) != 1:
+        D = D.contiguous()
+    assert cu_seqlens is not None, "Assuming varlen input - must supply cu_seqlens"
+
+    if initial_states is not None:
+        assert initial_states.shape == (len(cu_seqlens) - 1, nheads, headdim, dstate)
+
+    # This function executes 5 sub-functions for computing mamba
+    # - a good resource is the blog https://goombalab.github.io/blog/2024/mamba2-part3-algorithm/
+    #   which has a minimal implementation to understand the below operations
+    # - as explained by the blog, mamba is a special case of causal attention
+    # - the idea is to chunk the attention matrix and compute each
+    #   submatrix separately using different optimizations.
+    # - see the blog and paper for a visualization of the submatrices
+    #   which we refer to in the comments below
+
+    # 1. Compute chunked cumsum of A * dt
+    # - here dt may go through a softplus activation
+    dA_cumsum, dt = _chunk_cumsum_fwd(
+        dt,
+        A,
+        chunk_size,
+        cu_chunk_seqlens,
+        dt_bias=dt_bias,
+        dt_softplus=dt_softplus,
+        dt_limit=dt_limit,
+    )
+
+    # 2. Compute the state for each intra-chunk
+    # (right term of low-rank factorization of off-diagonal blocks; B terms)
+    states = _chunk_state_fwd(
+        B, x, dt, dA_cumsum, cu_chunk_seqlens, states_in_fp32=True
+    )
+
+    # 3. Compute the inter-chunk SSM recurrence; produces correct SSM states at chunk boundaries
+    # (middle term of factorization of off-diag blocks; A terms)
+    # - for handling chunked prefill, this requires i) initial_states and
+    #   ii) seq_idx to be all specified.
+    # - When a new seq_idx is detected, we will stop passing the prev_state
+    #   and switch accordingly to the init_state corresponding to the new seq_idx.
+    states = _state_passing_fwd(
+        rearrange(states, "... p n -> ... (p n)"),
+        dA_cumsum,  # (nheads, nchunks, chunk_size)
+        cu_chunk_seqlens,
+        initial_states=rearrange(initial_states, "... p n -> ... (p n)")
+        if initial_states is not None
+        else None,  # (batch, nheads, headdim*dstate)
+        seq_idx=seq_idx,
+        out_dtype=state_dtype if state_dtype is not None else C.dtype,
+    )
+    states = rearrange(states, "... (p n) -> ... p n", n=dstate)
+
+    # 4. Compute batched matrix multiply for C_j^T B_i terms
+    CB = _bmm_chunk_fwd(C, B, chunk_size, cu_chunk_seqlens, output_dtype=torch.float32)
+
+    # 5. Scan and compute the diagonal blocks, taking into
+    #    account past causal states.
+    # - if initial states are provided, then states information will be
+    #   augmented with initial_states.
+    # - to do this properly, we need to account for example changes in
+    #   the continuous batch, therefore we introduce pseudo chunks, which is
+    #   a chunk that is split up each time an example changes.
+    # - in each (pseudo) chunk, we detect if the previous (pseudo) chunk had
+    #   a seq_idx change, in which case we take states information from
+    #   init_states.
+    _chunk_scan_fwd(
+        CB,
+        x,
+        dt,
+        dA_cumsum,
+        C,
+        states,
+        cu_chunk_seqlens,
+        out,  # in-place update
+        seq_idx,
+        D=D,
+        z=z,
+        initial_states=initial_states,
+    )
+
+    if return_intermediate_states:
+        return states
+    else:
+        return states[last_chunk_indices]
+
+
+def mamba_chunk_scan_combined_varlen(
+    x,
+    dt,
+    A,
+    B,
+    C,
+    chunk_size,
+    cu_seqlens,
+    cu_chunk_seqlens,
+    last_chunk_indices,
+    seq_idx,
+    out,
+    D=None,
+    z=None,
+    dt_bias=None,
+    initial_states=None,
+    dt_softplus=False,
+    dt_limit=(0.0, float("inf")),
+    return_intermediate_states=False,
+    state_dtype=None,
+):
+    """
+    Argument:
+        x: (seqlen, nheads, headdim)
+        dt: (seqlen, nheads)
+        A: (nheads)
+        B: (seqlen, ngroups, dstate)
+        C: (seqlen, ngroups, dstate)
+        chunk_size: int
+        cu_seqlens: (batch + 1,)
+        cu_chunk_seqlens: (nchunks + 1,)
+        last_chunk_indices: (batch,)
+        seq_idx: (nchunks,)
+        out: (seqlen, nheads, headdim) preallocated output tensor
+        D: (nheads, headdim) or (nheads,)
+        z: (seqlen, nheads, headdim)
+        dt_bias: (nheads,)
+        initial_states: (batch, nheads, headdim, dstate)
+        dt_softplus: Whether to apply softplus to dt
+        out: (seqlen, nheads, headdim) preallocated output tensor
+        state_dtype: The data type of the ssm state
+    Return:
+        varlen_states: (batch, nheads, headdim, dstate)
+    """
+
+    assert cu_seqlens is not None, "cu_seqlens must be provided assuming varlen input"
+    assert seq_idx is not None
+
+    varlen_states = _mamba_chunk_scan_combined_fwd(
+        x,
+        dt,
+        A,
+        B,
+        C,
+        chunk_size,
+        out,
+        D=D,
+        z=z,
+        dt_bias=dt_bias,
+        initial_states=initial_states,
+        return_intermediate_states=return_intermediate_states,
+        seq_idx=seq_idx,
+        cu_seqlens=cu_seqlens,
+        cu_chunk_seqlens=cu_chunk_seqlens,
+        last_chunk_indices=last_chunk_indices,
+        dt_softplus=dt_softplus,
+        dt_limit=dt_limit,
+        state_dtype=state_dtype,
+    )
+
+    return varlen_states
diff --git a/model_executor/layers/mamba/ops/ssd_state_passing.py b/model_executor/layers/mamba/ops/ssd_state_passing.py
new file mode 100644
index 0000000..5481bab
--- /dev/null
+++ b/model_executor/layers/mamba/ops/ssd_state_passing.py
@@ -0,0 +1,157 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2024, Tri Dao, Albert Gu.
+# Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/ssd_state_passing.py
+
+# ruff: noqa: E501
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({"BLOCK_SIZE": 64}),
+        triton.Config({"BLOCK_SIZE": 128}),
+        triton.Config({"BLOCK_SIZE": 256}),
+        triton.Config({"BLOCK_SIZE": 512}),
+        triton.Config({"BLOCK_SIZE": 1024}),
+        triton.Config({"BLOCK_SIZE": 2048}),
+    ],
+    key=["dim"],
+)
+@triton.jit
+def _state_passing_fwd_kernel(
+    # Pointers to matrices
+    states_ptr,
+    out_ptr,
+    dA_cs_ptr,
+    initstates_ptr,
+    seq_idx_ptr,
+    cu_chunk_seqlens_ptr,
+    # Matrix dimensions
+    dim: tl.constexpr,
+    nchunks,
+    seqlen,
+    chunk_size: tl.constexpr,
+    # Strides
+    stride_states_chunk: tl.int64,
+    stride_states_head: tl.int64,
+    stride_states_dim: tl.constexpr,
+    stride_out_chunk: tl.int64,
+    stride_out_head: tl.int64,
+    stride_out_dim: tl.constexpr,
+    stride_dA_cs_head: tl.int64,
+    stride_dA_cs_chunk: tl.int64,
+    stride_dA_cs_csize: tl.constexpr,
+    stride_initstates_batch: tl.int64,
+    stride_initstates_head: tl.int64,
+    stride_initstates_dim: tl.constexpr,
+    stride_seq_idx_chunk: tl.constexpr,
+    # Meta-parameters
+    HAS_INITSTATES: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid_h = tl.program_id(axis=1)
+    pid_m = tl.program_id(axis=0)
+
+    states_ptr += pid_h * stride_states_head
+    dA_cs_ptr += pid_h * stride_dA_cs_head + (chunk_size - 1) * stride_dA_cs_csize
+    out_ptr += pid_h * stride_out_head
+
+    offs_m = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+    states_ptrs = states_ptr + offs_m * stride_states_dim
+    out_ptrs = out_ptr + offs_m * stride_out_dim
+
+    if HAS_INITSTATES:
+        initstates_ptrs = (
+            initstates_ptr
+            + pid_h * stride_initstates_head
+            + offs_m * stride_initstates_dim
+        )
+
+        states = tl.load(initstates_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+    else:
+        states = tl.zeros((BLOCK_SIZE,), dtype=tl.float32)
+
+    prev_seq_idx = 0
+    for c in range(nchunks):
+        new_states = tl.load(states_ptrs, mask=offs_m < dim, other=0.0).to(tl.float32)
+        dA_cs = tl.load(dA_cs_ptr).to(tl.float32)
+        seq_idx = tl.load(seq_idx_ptr + c * stride_seq_idx_chunk)
+        # we have started a new sequence
+        if prev_seq_idx != seq_idx:
+            if HAS_INITSTATES:
+                initstates_ptrs = (
+                    initstates_ptr
+                    + seq_idx * stride_initstates_batch
+                    + pid_h * stride_initstates_head
+                    + offs_m * stride_initstates_dim
+                )
+                states = tl.load(initstates_ptrs, mask=offs_m < dim, other=0.0).to(
+                    tl.float32
+                )
+            else:
+                states = tl.zeros((BLOCK_SIZE,), dtype=tl.float32)
+
+        prev_seq_idx = seq_idx
+        states = tl.exp(dA_cs) * states + new_states
+        tl.store(out_ptrs, states, mask=offs_m < dim)
+
+        states_ptrs += stride_states_chunk
+        dA_cs_ptr += stride_dA_cs_chunk
+        out_ptrs += stride_out_chunk
+
+
+def _state_passing_fwd(
+    states,
+    dA_cumsum,
+    cu_chunk_seqlens,
+    seq_idx,
+    initial_states=None,
+    out_dtype=None,
+):
+    nchunks, nheads, dim = states.shape
+    chunk_size = dA_cumsum.shape[-1]
+    assert dA_cumsum.shape == (nheads, nchunks, chunk_size)
+    seqlen = seq_idx.shape[-1]
+    out_dtype = states.dtype if out_dtype is None else out_dtype
+    out = torch.empty((nchunks, nheads, dim), device=states.device, dtype=out_dtype)
+
+    initial_states_strides = (
+        (initial_states.stride(0), initial_states.stride(1), initial_states.stride(2))
+        if initial_states is not None
+        else (0, 0, 0)
+    )
+
+    grid = lambda META: (triton.cdiv(dim, META["BLOCK_SIZE"]), nheads)
+    with torch.cuda.device(states.device.index):
+        _state_passing_fwd_kernel[grid](
+            states_ptr=states,
+            out_ptr=out,
+            dA_cs_ptr=dA_cumsum,
+            initstates_ptr=initial_states,
+            seq_idx_ptr=seq_idx,
+            cu_chunk_seqlens_ptr=cu_chunk_seqlens,
+            dim=dim,
+            nchunks=nchunks,
+            seqlen=seqlen if seq_idx is not None else 0,
+            chunk_size=chunk_size if seq_idx is not None else 0,
+            stride_states_chunk=states.stride(0),
+            stride_states_head=states.stride(1),
+            stride_states_dim=states.stride(2),
+            stride_out_chunk=out.stride(0),
+            stride_out_head=out.stride(1),
+            stride_out_dim=out.stride(2),
+            stride_dA_cs_head=dA_cumsum.stride(0),
+            stride_dA_cs_chunk=dA_cumsum.stride(1),
+            stride_dA_cs_csize=dA_cumsum.stride(2),
+            stride_initstates_batch=initial_states_strides[0],
+            stride_initstates_head=initial_states_strides[1],
+            stride_initstates_dim=initial_states_strides[2],
+            stride_seq_idx_chunk=seq_idx.stride(0),
+            HAS_INITSTATES=initial_states is not None,
+        )
+    return out
diff --git a/model_executor/layers/mamba/short_conv.py b/model_executor/layers/mamba/short_conv.py
new file mode 100644
index 0000000..04efa8a
--- /dev/null
+++ b/model_executor/layers/mamba/short_conv.py
@@ -0,0 +1,264 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionMetadata
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
+    causal_conv1d_fn,
+    causal_conv1d_update,
+)
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.short_conv_attn import ShortConvAttentionMetadata
+
+
+@CustomOp.register("short_conv")
+class ShortConv(MambaBase, CustomOp):
+    def __init__(
+        self,
+        config,
+        dim: int,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        self.conv_dim = dim
+        self.L_cache = config.conv_L_cache
+        self.bias = config.conv_bias
+
+        self.conv = ColumnParallelLinear(
+            input_size=self.L_cache,
+            output_size=dim,
+            bias=self.bias,
+            prefix=f"{prefix}.conv1d",
+        )
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `set_weight_attrs`
+        # doesn't allow to override it
+        self.conv.weight.data = self.conv.weight.data.unsqueeze(1)
+
+        self.in_proj = MergedColumnParallelLinear(
+            input_size=dim,
+            output_sizes=[dim] * 3,
+            bias=self.bias,
+            prefix=f"{prefix}.in_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=dim,
+            output_size=dim,
+            bias=self.bias,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+        self.kv_cache = (torch.tensor([]),)
+
+        self.model_config = model_config
+        self.cache_config = cache_config
+        self.prefix = prefix
+
+    def forward_native(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ):
+        return
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ):
+        torch.ops.vllm.short_conv(
+            hidden_states,
+            output,
+            self.prefix,
+        )
+
+    def forward_cuda(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ):
+        forward_context = get_forward_context()
+        # ShortConvAttentionMetadata contains metadata necessary for the
+        # short_conv triton kernels to operate in continuous batching and in
+        # chunked prefill modes; they are computed at top-level model forward
+        # since they stay the same and reused for all mamba layers in the same
+        # iteration.
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]
+            assert isinstance(attn_metadata, ShortConvAttentionMetadata)
+            self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+            conv_state = self_kv_cache[0].transpose(-1, -2)
+            state_indices_tensor = attn_metadata.state_indices_tensor
+            has_initial_states_p = attn_metadata.has_initial_states_p
+
+        BCx, _ = self.in_proj(hidden_states)
+
+        B, C, x = BCx.chunk(3, dim=-1)
+
+        conv_weights = self.conv.weight.view(
+            self.conv.weight.size(0), self.conv.weight.size(2)
+        )
+
+        if attn_metadata is None:
+            # V1 profile run
+            Bx = (B * x).contiguous()
+            hidden_states = C * Bx
+            contextualized_states, _ = self.out_proj(hidden_states)
+            return contextualized_states
+
+        num_prefills = attn_metadata.num_prefills  # request count
+        num_decodes = attn_metadata.num_decode_tokens  # token count (=request)
+        num_prefill_tokens = attn_metadata.num_prefill_tokens  # token count
+        has_prefill = num_prefills > 0
+        has_decode = num_decodes > 0
+        num_actual_tokens = num_decodes + num_prefill_tokens
+
+        # NOTE: V1 puts decode before prefill
+        # Separate prefill and decode by splitting varlen input
+        # Split along token dimension
+        B_d, B_p = torch.split(
+            B[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        C_d, C_p = torch.split(
+            C[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        x_d, x_p = torch.split(
+            x[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        # Split along batch dimension
+        state_indices_tensor_d, state_indices_tensor_p = torch.split(
+            state_indices_tensor,
+            [num_decodes, num_prefills],
+            dim=0,
+        )
+        query_start_loc_p = (
+            attn_metadata.query_start_loc[-num_prefills - 1 :] - num_decodes
+            if has_prefill
+            else None
+        )
+
+        conv_output_list = []
+
+        if has_prefill:
+            Bx_p = (B_p * x_p).transpose(0, 1)
+            Bx = causal_conv1d_fn(
+                Bx_p,
+                conv_weights,
+                self.conv.bias,
+                activation=None,
+                conv_states=conv_state,
+                has_initial_state=has_initial_states_p,
+                cache_indices=state_indices_tensor_p,
+                metadata=attn_metadata,
+                query_start_loc=query_start_loc_p,
+            ).transpose(0, 1)[:num_prefill_tokens]
+
+            y = C_p * Bx
+            conv_output_list.append(y)
+
+        if has_decode:
+            Bx_d = (B_d * x_d).contiguous()
+            Bx = causal_conv1d_update(
+                Bx_d,
+                conv_state,
+                conv_weights,
+                self.conv.bias,
+                activation=None,
+                conv_state_indices=state_indices_tensor_d,
+            )
+            y = C_d * Bx
+            conv_output_list.insert(0, y)
+
+        # Merge prefill and decode outputs before passing to gated MLP
+        hidden_states = torch.vstack(conv_output_list)
+
+        # Final linear projection
+        output[:num_actual_tokens], _ = self.out_proj(hidden_states)
+
+    def get_state_dtype(self) -> tuple[torch.dtype, ...]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.short_conv_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, ...]]:
+        return MambaStateShapeCalculator.short_conv_state_shape(
+            tp_world_size=get_tensor_model_parallel_world_size(),
+            intermediate_size=self.conv_dim,
+            conv_kernel=self.L_cache,
+        )
+
+    @property
+    def mamba_type(self) -> str:
+        return "short_conv"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.short_conv_attn import ShortConvAttentionBackend
+
+        return ShortConvAttentionBackend
+
+
+def short_conv(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self.forward_cuda(hidden_states=hidden_states, output=output)
+
+
+def short_conv_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="short_conv",
+    op_func=short_conv,
+    mutates_args=["output"],
+    fake_impl=short_conv_fake,
+)
diff --git a/model_executor/layers/mla.py b/model_executor/layers/mla.py
new file mode 100644
index 0000000..50d9304
--- /dev/null
+++ b/model_executor/layers/mla.py
@@ -0,0 +1,159 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.layer import MLAAttention
+from vllm.config import CacheConfig
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.quantization import QuantizationConfig
+
+@dataclass
+class MLAModules:
+    """Modules used in MLA."""
+
+    kv_a_layernorm: torch.nn.Module
+    kv_b_proj: torch.nn.Module
+    rotary_emb: torch.nn.Module
+    o_proj: torch.nn.Module
+    q_a_proj: torch.nn.Module | None
+    kv_a_proj_with_mqa: torch.nn.Module | None
+    q_a_layernorm: torch.nn.Module | None
+    q_b_proj: torch.nn.Module | None
+    q_proj: torch.nn.Module | None
+    indexer: torch.nn.Module | None
+    is_sparse: bool
+    topk_indices_buffer: torch.Tensor | None
+
+
+@CustomOp.register("multi_head_latent_attention")
+class MultiHeadLatentAttentionWrapper(CustomOp):
+    """MLA layer registered as CustomOp to allow OOT backends to add
+    custom implementations of the outer MLA layer (including rope & o_proj).
+    Note that currently MLA ignores the enable/disable mechanism of CustomOp
+    because there is only one in-tree implementation in forward_native.
+    TODO: implement this with a new PluggableLayer mechanism.
+
+    This class takes positions and hidden_states as input.
+    The input tensors can either contain prefill tokens or decode tokens.
+    The class does the following:
+
+    1. MLA Preprocess.
+    2. Perform multi-head attention to prefill tokens and
+       multi-query attention to decode tokens separately.
+    3. Return the output tensor.
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        scale: float,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        mla_modules: MLAModules,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.num_heads = num_heads
+        self.q_a_proj = mla_modules.q_a_proj
+        self.kv_a_proj_with_mqa = mla_modules.kv_a_proj_with_mqa
+        self.q_a_layernorm = mla_modules.q_a_layernorm
+        self.q_b_proj = mla_modules.q_b_proj
+        self.q_proj = mla_modules.q_proj
+        self.kv_a_layernorm = mla_modules.kv_a_layernorm
+        self.kv_b_proj = mla_modules.kv_b_proj
+        self.rotary_emb = mla_modules.rotary_emb
+        self.o_proj = mla_modules.o_proj
+        self.indexer = mla_modules.indexer
+        self.is_sparse = mla_modules.is_sparse
+
+        if self.indexer is not None:
+            assert hasattr(self.indexer, "topk_tokens")
+            self.topk_tokens = self.indexer.topk_tokens
+            self.topk_indices_buffer = mla_modules.topk_indices_buffer
+
+        self.mla_attn = MLAAttention(
+            num_heads=self.num_heads,
+            scale=scale,
+            qk_nope_head_dim=self.qk_nope_head_dim,
+            qk_rope_head_dim=self.qk_rope_head_dim,
+            v_head_dim=self.v_head_dim,
+            q_lora_rank=self.q_lora_rank,
+            kv_lora_rank=self.kv_lora_rank,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            kv_b_proj=self.kv_b_proj,
+            use_sparse=self.is_sparse,
+            indexer=self.indexer,
+            rotary_emb=self.rotary_emb,
+        )
+
+        self.prefix = prefix
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        q_c = None
+        kv_lora = None
+
+        if self.q_lora_rank is not None:
+            q = self.q_a_proj(hidden_states)[0]
+            kv_a, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split([self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            q = self.q_a_layernorm(q)
+            q = self.q_b_proj(q)[0].view(-1, self.num_heads, self.qk_head_dim)
+            kv_a = self.kv_a_layernorm(kv_a)
+        else:
+            q = self.q_proj(hidden_states)[0].view(-1, self.num_heads, self.qk_head_dim)
+            latent_kpe = self.kv_a_proj_with_mqa(hidden_states)[0]
+            kv_a, k_pe = latent_kpe.split([self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            kv_a = self.kv_a_layernorm(kv_a)
+        
+        # NOTE attention data do not have position, pass it here
+        self.mla_attn.impl.forward_prepare(positions)
+        attn_out = self.mla_attn(q, kv_a, k_pe)
+        return self.o_proj(attn_out)[0]
+    
+    def forward_cuda(self, *args, **kwargs):
+        return self.forward_native(*args, **kwargs)
+    
+    def forward_opt(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,):
+        if self.q_lora_rank is not None:
+            q_latent_kpe = self.q_a_proj(hidden_states)[0]
+            q, kv_a, k_pe, _ = q_latent_kpe.split([self.q_lora_rank, self.kv_lora_rank, self.qk_rope_head_dim, self.q_a_proj.output_padding_size], dim=1)
+            q_c = self.q_a_layernorm(q)
+            q = self.q_b_proj(q_c)[0].view(-1, self.num_heads, self.qk_head_dim)
+            kv_a = self.kv_a_layernorm(kv_a)
+        else:
+            q = self.q_proj(hidden_states)[0].view(-1, self.num_heads, self.qk_head_dim)
+            latent_kpe = self.kv_a_proj_with_mqa(hidden_states)[0]
+            kv_a, k_pe = latent_kpe.split([self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            kv_a = self.kv_a_layernorm(kv_a)
+        if self.indexer and self.is_sparse:
+            _topk_indices = self.indexer(hidden_states, q_c, positions,
+                                         self.rotary_emb)
+
+        # NOTE attention data do not have position, pass it here
+        self.mla_attn.impl.forward_prepare(positions)
+        attn_out = self.mla_attn(q, kv_a, k_pe)
+        return self.o_proj(attn_out)[0]
+        
diff --git a/model_executor/layers/pooler.py b/model_executor/layers/pooler.py
new file mode 100644
index 0000000..7dd02e3
--- /dev/null
+++ b/model_executor/layers/pooler.py
@@ -0,0 +1,817 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Callable, Mapping, Set
+from dataclasses import dataclass
+from enum import IntEnum
+from itertools import groupby
+from typing import TypeVar
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import PretrainedConfig
+
+from vllm.config import ModelConfig, PoolerConfig, get_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.models.adapters import _load_st_projector
+from vllm.pooling_params import PoolingParams
+from vllm.tasks import PoolingTask
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.v1.outputs import PoolerOutput
+from vllm.v1.pool.metadata import PoolingCursor, PoolingMetadata
+
+logger = init_logger(__name__)
+
+PoolingFn = Callable[
+    [torch.Tensor | list[torch.Tensor], PoolingMetadata],
+    torch.Tensor | list[torch.Tensor],
+]
+ClassifierFn = Callable[[torch.Tensor], torch.Tensor]
+
+
+class PoolingType(IntEnum):
+    """Enumeration for different types of pooling methods."""
+
+    LAST = 0
+    ALL = 1
+    CLS = 2
+    STEP = 3
+    MEAN = 4
+
+
+@dataclass(frozen=True)
+class ResolvedPoolingConfig:
+    pooling_type: PoolingType
+    task: PoolingTask
+
+    @classmethod
+    def from_config(
+        cls,
+        task: PoolingTask,
+        pooler_config: PoolerConfig,
+    ) -> "ResolvedPoolingConfig":
+        assert pooler_config.pooling_type is not None
+        return cls(task=task, pooling_type=PoolingType[pooler_config.pooling_type])
+
+
+@dataclass(frozen=True)
+class PoolingParamsUpdate:
+    requires_token_ids: bool = False
+    """Set this flag to enable `get_prompt_token_ids` for your pooler."""
+
+    def apply(self, params: PoolingParams) -> None:
+        params.requires_token_ids = self.requires_token_ids
+
+
+def get_prompt_lens(
+    hidden_states: torch.Tensor | list[torch.Tensor],
+    pooling_metadata: PoolingMetadata,
+) -> torch.Tensor:
+    return pooling_metadata.prompt_lens
+
+
+def get_prompt_token_ids(pooling_metadata: PoolingMetadata) -> list[torch.Tensor]:
+    assert pooling_metadata.prompt_token_ids is not None, (
+        "Please set `requires_token_ids=True` in `get_pooling_updates`"
+    )
+
+    return [
+        pooling_metadata.prompt_token_ids[i, :num]
+        for i, num in enumerate(pooling_metadata.prompt_lens)
+    ]
+
+
+def get_pooling_params(pooling_metadata: PoolingMetadata) -> list[PoolingParams]:
+    pooling_params = pooling_metadata.pooling_params
+    return pooling_params
+
+
+def get_tasks(pooling_metadata: PoolingMetadata) -> list[PoolingTask]:
+    pooling_params = get_pooling_params(pooling_metadata)
+
+    tasks: list[PoolingTask] = [
+        task
+        for pooling_param in pooling_params
+        if (task := pooling_param.task) is not None
+    ]
+    assert len(pooling_params) == len(tasks)
+
+    return tasks
+
+
+def get_classification_activation_function(config: PretrainedConfig):
+    # Implement alignment with transformers ForSequenceClassificationLoss
+    # https://github.com/huggingface/transformers/blob/57bb6db6ee4cfaccc45b8d474dfad5a17811ca60/src/transformers/loss/loss_utils.py#L92
+    problem_type = getattr(config, "problem_type", "")
+    if problem_type == "regression":
+        return PoolerIdentity()
+    if problem_type == "single_label_classification":
+        return PoolerClassify()
+    if problem_type == "multi_label_classification":
+        return PoolerMultiLabelClassify()
+    return PoolerClassify()
+
+
+def get_cross_encoder_activation_function(config: PretrainedConfig):
+    function_name: str | None = None
+    if (
+        hasattr(config, "sentence_transformers")
+        and "activation_fn" in config.sentence_transformers
+    ):
+        function_name = config.sentence_transformers["activation_fn"]
+    elif (
+        hasattr(config, "sbert_ce_default_activation_function")
+        and config.sbert_ce_default_activation_function is not None
+    ):
+        function_name = config.sbert_ce_default_activation_function
+
+    if function_name is not None:
+        assert function_name.startswith("torch.nn.modules."), (
+            "Loading of activation functions is restricted to "
+            "torch.nn.modules for security reasons"
+        )
+        fn = resolve_obj_by_qualname(function_name)()
+        return PoolerActivation.wraps(fn)
+
+    return PoolerClassify()
+
+
+class PoolingMethod(nn.Module, ABC):
+    @staticmethod
+    def from_pooling_type(pooling_type: PoolingType) -> "PoolingMethod":
+        if pooling_type == PoolingType.LAST:
+            return LastPool()
+        if pooling_type == PoolingType.ALL:
+            return AllPool()
+        if pooling_type == PoolingType.CLS:
+            return CLSPool()
+        if pooling_type == PoolingType.MEAN:
+            return MeanPool()
+
+        raise NotImplementedError(f"Unsupported method: {pooling_type}")
+
+    @abstractmethod
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        raise NotImplementedError
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return PoolingParamsUpdate()
+
+    @abstractmethod
+    def forward_all(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_cursor: PoolingCursor,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        raise NotImplementedError
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        pooling_cursor = pooling_metadata.pooling_cursor
+        return self.forward_all(hidden_states, pooling_cursor)
+
+
+class CLSPool(PoolingMethod):
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify", "embed", "classify", "score"}
+
+    def forward_all(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_cursor: PoolingCursor,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        assert not pooling_cursor.is_partial_prefill(), (
+            "partial prefill not supported with CLS pooling"
+        )
+
+        return hidden_states[pooling_cursor.first_token_indices_gpu]
+
+
+class LastPool(PoolingMethod):
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify", "embed", "classify", "score"}
+
+    def forward_all(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_cursor: PoolingCursor,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        return hidden_states[pooling_cursor.last_token_indices_gpu]
+
+
+class AllPool(PoolingMethod):
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify"}
+
+    def forward_all(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_cursor: PoolingCursor,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        assert not pooling_cursor.is_partial_prefill(), (
+            "partial prefill not supported with ALL pooling"
+        )
+
+        hidden_states_lst = list(
+            hidden_states.split(pooling_cursor.num_scheduled_tokens_cpu.tolist())
+        )
+        return [hidden_states_lst[i] for i in pooling_cursor.index]
+
+
+class MeanPool(PoolingMethod):
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify", "embed", "classify", "score"}
+
+    def forward_all(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_cursor: PoolingCursor,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        assert not pooling_cursor.is_partial_prefill(), (
+            "partial prefill not supported with MEAN pooling"
+        )
+
+        prompt_lens = pooling_cursor.prompt_lens_cpu.to(
+            hidden_states.device, non_blocking=True
+        )
+
+        # Use float32 for torch.cumsum in MeanPool,
+        # otherwise precision will be lost significantly.
+        cumsum = torch.cumsum(hidden_states, dim=0, dtype=torch.float32)
+
+        start_indices = pooling_cursor.first_token_indices_gpu
+        end_indices = pooling_cursor.last_token_indices_gpu
+        return (
+            cumsum[end_indices] - cumsum[start_indices] + hidden_states[start_indices]
+        ) / prompt_lens.unsqueeze(1)
+
+
+_T = TypeVar("_T", torch.Tensor, list[torch.Tensor])
+
+
+class BasePoolerActivation(nn.Module, ABC):
+    @abstractmethod
+    def forward(self, pooled_data: _T) -> _T:
+        # shape:
+        # classify (& score) -> (batch_size, num_classes)
+        # embed -> (batch_size, embedding_dim) or list(embedding_dim)
+        #          (batch_size, dimensions) or list(dimensions) if using MRL
+        raise NotImplementedError
+
+
+class PoolerActivation(BasePoolerActivation):
+    @staticmethod
+    def wraps(module: nn.Module):
+        if isinstance(module, nn.Identity):
+            return PoolerIdentity()
+        if isinstance(module, (nn.Sigmoid, nn.Softmax)):
+            return PoolerClassify()
+
+        return LambdaPoolerActivation(module)
+
+    @abstractmethod
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        raise NotImplementedError
+
+    def forward(self, pooled_data: _T) -> _T:
+        if isinstance(pooled_data, list):
+            return [self.forward_chunk(data) for data in pooled_data]
+
+        return self.forward_chunk(pooled_data)
+
+
+class PoolerIdentity(PoolerActivation):
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        return pooled_data
+
+
+class PoolerNormalize(PoolerActivation):
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        return F.normalize(pooled_data, p=2, dim=-1)
+
+
+class PoolerMultiLabelClassify(PoolerActivation):
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        return F.sigmoid(pooled_data)
+
+
+class PoolerClassify(PoolerActivation):
+    def __init__(self, *, static_num_labels: bool = True) -> None:
+        super().__init__()
+
+        if static_num_labels:
+            vllm_config = get_current_vllm_config()
+            self.num_labels = getattr(
+                vllm_config.model_config.hf_config, "num_labels", 0
+            )
+            if self.num_labels == 0:
+                logger.warning(
+                    "num_labels should be > 0 for classification"
+                    "models, falling back to softmax. "
+                    "Please check if the configuration is correct."
+                )
+        else:
+            self.num_labels = None
+
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        num_labels = (
+            self.num_labels if self.num_labels is not None else pooled_data.shape[-1]
+        )
+
+        if num_labels < 2:
+            return F.sigmoid(pooled_data)
+
+        return F.softmax(pooled_data, dim=-1)
+
+
+class LambdaPoolerActivation(PoolerActivation):
+    def __init__(self, fn: Callable[[torch.Tensor], torch.Tensor]):
+        super().__init__()
+
+        self.fn = fn
+
+    def forward_chunk(self, pooled_data: torch.Tensor) -> torch.Tensor:
+        return self.fn(pooled_data)
+
+
+class Pooler(nn.Module, ABC):
+    """The interface required for all poolers used in pooling models in vLLM."""
+
+    @staticmethod
+    def for_token_embed(pooler_config: PoolerConfig):
+        head = TokenEmbeddingPoolerHead()
+
+        if pooler_config.pooling_type == "STEP":
+            return StepPooler(head=head)
+
+        return AllPooler(head=head)
+
+    @staticmethod
+    def for_token_classify(
+        pooler_config: PoolerConfig,
+        classifier: ClassifierFn | None = None,
+        act_fn: PoolerActivation | str | None = None,
+    ):
+        head = TokenClassifierPoolerHead(classifier=classifier, act_fn=act_fn)
+
+        if pooler_config.pooling_type == "STEP":
+            return StepPooler(head=head)
+
+        return AllPooler(head=head)
+
+    @staticmethod
+    def for_embed(pooler_config: PoolerConfig):
+        resolved_config = ResolvedPoolingConfig.from_config(
+            task="embed",
+            pooler_config=pooler_config,
+        )
+
+        pooling = PoolingMethod.from_pooling_type(resolved_config.pooling_type)
+        head = EmbeddingPoolerHead()
+
+        return SimplePooler(pooling=pooling, head=head)
+
+    @staticmethod
+    def for_classify(
+        pooler_config: PoolerConfig,
+        classifier: ClassifierFn | None,
+        act_fn: PoolerActivation | str | None = None,
+    ):
+        resolved_config = ResolvedPoolingConfig.from_config(
+            task="classify",
+            pooler_config=pooler_config,
+        )
+
+        pooling = PoolingMethod.from_pooling_type(resolved_config.pooling_type)
+
+        return ClassifierPooler(
+            pooling=pooling,
+            classifier=classifier,
+            act_fn=act_fn,
+        )
+
+    @abstractmethod
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        """Determine which pooling tasks are supported."""
+        raise NotImplementedError
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        """
+        Construct the updated pooling parameters to use for a supported task.
+        """
+        return PoolingParamsUpdate()
+
+    @abstractmethod
+    def forward(
+        self,
+        hidden_states: list[torch.Tensor] | torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        raise NotImplementedError
+
+
+class DummyPooler(Pooler):
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"plugin", "score"}
+
+    def forward(
+        self,
+        hidden_states: list[torch.Tensor] | torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        return hidden_states
+
+
+class PoolerHead(nn.Module):
+    def __init__(self, activation: PoolerActivation) -> None:
+        super().__init__()
+        self.activation = activation
+
+    def forward(
+        self,
+        pooled_data: list[torch.Tensor] | torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ):
+        return self.activation(pooled_data)
+
+
+class EmbeddingPoolerHead(PoolerHead):
+    def __init__(self) -> None:
+        super().__init__(activation=PoolerNormalize())
+
+        # Load ST projector if available
+        vllm_config = get_current_vllm_config()
+        self.projector: nn.Module | None = (
+            _load_st_projector(vllm_config.model_config) if vllm_config else None
+        )
+        self.head_dtype = vllm_config.model_config.head_dtype
+
+    def forward(
+        self,
+        pooled_data: list[torch.Tensor] | torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ):
+        if isinstance(pooled_data, list):
+            pooled_data = torch.stack(pooled_data)
+        # pooled_data shape: [batchsize, hidden_dimension]
+
+        pooled_data = pooled_data.to(self.head_dtype)
+
+        # Apply ST projector
+        if self.projector is not None:
+            pooled_data = self.projector(pooled_data)
+        # pooled_data shape: [batchsize, embedding_dimension]
+
+        pooling_params = get_pooling_params(pooling_metadata)
+
+        # for matryoshka representation
+        dimensions_list = [pooling_param.dimensions for pooling_param in pooling_params]
+        if any(d is not None for d in dimensions_list):
+            # change the output dimension
+            assert len(pooled_data) == len(dimensions_list)
+            if len(set(dimensions_list)) == 1 and not isinstance(pooled_data, list):
+                # if all dimensions are the same
+                d = dimensions_list[0]
+                pooled_data = pooled_data[..., :d]
+            else:
+                pooled_data = [
+                    vecs if d is None else vecs[..., :d]
+                    for vecs, d in zip(pooled_data, dimensions_list)
+                ]
+
+        # for normalize
+        flags = [p.normalize for p in pooling_params]
+        if len(set(flags)) == 1:
+            if flags[0]:
+                pooled_data = self.activation(pooled_data)
+        else:
+            pooled_data = [
+                self.activation(vecs) if f else vecs
+                for vecs, f in zip(pooled_data, flags)
+            ]
+
+        # pooled_data shape: [batchsize, embedding_dimension]
+        return pooled_data
+
+
+class SimplePooler(Pooler):
+    """A layer that pools specific information from hidden states.
+
+    This layer does the following:
+    1. Extracts specific tokens or aggregates data based on pooling method.
+    2. Normalizes output if specified.
+    3. Returns structured results as `PoolerOutput`.
+    """
+
+    def __init__(self, pooling: PoolingMethod, head: PoolerHead) -> None:
+        super().__init__()
+
+        self.pooling = pooling
+        self.head = head
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return self.pooling.get_supported_tasks()
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return self.pooling.get_pooling_updates(task)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        pooled_data = self.pooling(hidden_states, pooling_metadata)
+        pooled_data = self.head(pooled_data, pooling_metadata)
+        return pooled_data
+
+
+class ClassifierPooler(Pooler):
+    """A pooling layer for classification tasks.
+
+    This layer does the following:
+    1. Applies a classification layer to the hidden states.
+    2. Optionally applies a pooler layer.
+    3. Applies an activation function to the output.
+    """
+
+    @staticmethod
+    def act_fn_for_seq_cls(model_config: ModelConfig):
+        return get_classification_activation_function(model_config.hf_config)
+
+    @staticmethod
+    def act_fn_for_cross_encoder(model_config: ModelConfig):
+        return get_cross_encoder_activation_function(model_config.hf_config)
+
+    @staticmethod
+    def resolve_act_fn(
+        model_config: ModelConfig,
+        static_num_labels: bool = True,
+        act_fn: PoolerActivation | str | None = None,
+    ):
+        if isinstance(act_fn, str):
+            if act_fn == "classify":
+                return ClassifierPooler.act_fn_for_seq_cls(model_config)
+            elif act_fn == "score":
+                return ClassifierPooler.act_fn_for_cross_encoder(model_config)
+            else:
+                raise ValueError(f"act_fn [{act_fn=}] not supported.")
+        elif act_fn is None:
+            return PoolerClassify(static_num_labels=static_num_labels)
+        else:
+            assert callable(act_fn)
+            return act_fn
+
+    def __init__(
+        self,
+        pooling: PoolingFn,
+        classifier: ClassifierFn | None,
+        act_fn: PoolerActivation | str | None = None,
+    ) -> None:
+        super().__init__()
+
+        vllm_config = get_current_vllm_config()
+        self.pooling = pooling
+        self.classifier = classifier
+        self.act_fn = self.resolve_act_fn(
+            vllm_config.model_config, static_num_labels=True, act_fn=act_fn
+        )
+        self.logit_bias: float | None = (
+            vllm_config.model_config.pooler_config.logit_bias
+        )
+        self.head_dtype = vllm_config.model_config.head_dtype
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"classify", "score"}
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        pooled_data = self.pooling(hidden_states, pooling_metadata)
+        if isinstance(pooled_data, list):
+            pooled_data = torch.stack(pooled_data)
+        # pooled_data shape: [batchsize, hidden_size]
+
+        pooled_data = pooled_data.to(self.head_dtype)
+
+        if self.classifier is not None:
+            pooled_data = self.classifier(pooled_data)
+        # pooled_data shape: [batchsize, num_labels]
+
+        if self.logit_bias is not None:
+            pooled_data -= self.logit_bias
+
+        pooling_params = get_pooling_params(pooling_metadata)
+        flags = [p.use_activation for p in pooling_params]
+
+        if len(set(flags)) == 1:
+            scores = self.act_fn(pooled_data) if flags[0] else pooled_data
+        else:
+            scores = [
+                self.act_fn(vecs) if f else vecs for vecs, f in zip(pooled_data, flags)
+            ]
+
+        # scores shape: [batchsize, num_labels]
+        return scores
+
+
+class TokenEmbeddingPoolerHead(EmbeddingPoolerHead):
+    def forward(
+        self, pooled_data: torch.Tensor, pooling_param: PoolingParams
+    ) -> torch.Tensor:
+        pooled_data = pooled_data.to(self.head_dtype)
+        # pooled_data shape: [n_tokens, hidden_dimension]
+
+        # Apply ST projector
+        if self.projector is not None:
+            pooled_data = self.projector(pooled_data)
+        # pooled_data shape: [n_tokens, embedding_dimension]
+
+        # for matryoshka representation
+        pooled_data = pooled_data[..., : pooling_param.dimensions]
+
+        # for normalize
+        if pooling_param.normalize:
+            pooled_data = self.activation(pooled_data)
+
+        # pooled_data shape: [n_tokens, embedding_dimension]
+        return pooled_data
+
+
+class TokenClassifierPoolerHead(nn.Module):
+    def __init__(
+        self,
+        classifier: ClassifierFn | None,
+        act_fn: PoolerActivation | str | None = None,
+    ) -> None:
+        super().__init__()
+        vllm_config = get_current_vllm_config()
+
+        self.classifier = classifier
+        self.act_fn = ClassifierPooler.resolve_act_fn(
+            vllm_config.model_config, static_num_labels=False, act_fn=act_fn
+        )
+        self.logit_bias: float | None = (
+            vllm_config.model_config.pooler_config.logit_bias
+        )
+        self.head_dtype = vllm_config.model_config.head_dtype
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_classify"}
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_param: PoolingParams,
+    ) -> torch.Tensor:
+        hidden_states = hidden_states.to(self.head_dtype)
+        # hidden_states shape: [n_token, hidden_size]
+
+        if self.classifier is not None:
+            scores = self.classifier(hidden_states)
+        else:
+            scores = hidden_states
+        # scores shape: [n_token, num_labels]
+
+        if self.logit_bias is not None:
+            scores -= self.logit_bias
+
+        if pooling_param.use_activation:
+            scores = self.act_fn(scores)
+
+        # scores shape: [n_token, num_labels]
+        return scores
+
+
+class AllPooler(Pooler):
+    def __init__(self, head: nn.Module | PoolerHead) -> None:
+        super().__init__()
+
+        self.pooling = AllPool()
+        self.head = head
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify"}
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        pooled_data = self.pooling(hidden_states, pooling_metadata)
+        pooling_params = get_pooling_params(pooling_metadata)
+        assert len(pooled_data) == len(pooling_params)
+
+        pooled_data = [self.head(d, p) for d, p in zip(pooled_data, pooling_params)]
+        return pooled_data
+
+
+class StepPooler(Pooler):
+    def __init__(self, head: nn.Module | PoolerHead) -> None:
+        super().__init__()
+
+        self.pooling = AllPool()
+        self.head = head
+
+    def extract_states(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        pooled_data_lst = self.pooling(hidden_states, pooling_metadata)
+        prompt_token_ids = get_prompt_token_ids(pooling_metadata)
+
+        pooled_data = list[torch.Tensor]()
+
+        pooling_params = get_pooling_params(pooling_metadata)
+
+        for data, token_id, pooling_param in zip(
+            pooled_data_lst, prompt_token_ids, pooling_params
+        ):
+            step_tag_id = pooling_param.step_tag_id
+            returned_token_ids = pooling_param.returned_token_ids
+
+            if returned_token_ids is not None and len(returned_token_ids) > 0:
+                data = data[:, returned_token_ids]
+
+            if step_tag_id is not None:
+                data = data[token_id == step_tag_id]
+            pooled_data.append(data)
+
+        return pooled_data
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"token_embed", "token_classify"}
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return PoolingParamsUpdate(requires_token_ids=True)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        pooled_data = self.extract_states(hidden_states, pooling_metadata)
+        pooling_params = get_pooling_params(pooling_metadata)
+        assert len(pooled_data) == len(pooling_params)
+
+        pooled_data = [self.head(d, p) for d, p in zip(pooled_data, pooling_params)]
+        return pooled_data
+
+
+class DispatchPooler(Pooler):
+    """Dispatches calls to a sub-pooler based on the pooling task."""
+
+    def __init__(self, poolers_by_task: Mapping[PoolingTask, Pooler]) -> None:
+        super().__init__()
+
+        for task, pooler in poolers_by_task.items():
+            if task not in pooler.get_supported_tasks():
+                raise ValueError(
+                    f"{pooler=} does not support {task=}. "
+                    f"Supported tasks: {pooler.get_supported_tasks()}"
+                )
+
+        self.poolers_by_task = poolers_by_task
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return set(self.poolers_by_task)
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return self.poolers_by_task[task].get_pooling_updates(task)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        poolers_by_task = self.poolers_by_task
+
+        outputs = list[torch.Tensor]()
+        offset = 0
+        for task, group in groupby(get_tasks(pooling_metadata)):
+            if not (pooler := poolers_by_task.get(task)):
+                raise ValueError(
+                    f"Unsupported task: {task} "
+                    f"Supported tasks: {self.get_supported_tasks()}"
+                )
+
+            num_items = len(list(group))
+            group_output: PoolerOutput = pooler(
+                hidden_states,
+                pooling_metadata[offset : offset + num_items],
+            )
+
+            outputs.extend(group_output)
+            offset += num_items
+
+        return outputs
+
+    def extra_repr(self) -> str:
+        s = f"supported_task={self.get_supported_tasks()}"
+        return s
diff --git a/model_executor/layers/quantization/__init__.py b/model_executor/layers/quantization/__init__.py
new file mode 100644
index 0000000..ffaad80
--- /dev/null
+++ b/model_executor/layers/quantization/__init__.py
@@ -0,0 +1,177 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Literal, get_args
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+
+logger = init_logger(__name__)
+
+QuantizationMethods = Literal[
+    "awq",
+    "deepspeedfp",
+    "tpu_int8",
+    "fp8",
+    "ptpc_fp8",
+    "fbgemm_fp8",
+    "fp_quant",
+    "modelopt",
+    "modelopt_fp4",
+    "bitblas",
+    "gguf",
+    "gptq_marlin_24",
+    "gptq_marlin",
+    "gptq_bitblas",
+    "awq_marlin",
+    "gptq",
+    "compressed-tensors",
+    "bitsandbytes",
+    "hqq",
+    "experts_int8",
+    "ipex",
+    "quark",
+    "moe_wna16",
+    "torchao",
+    "auto-round",
+    "rtn",
+    "inc",
+    "mxfp4",
+    "petit_nvfp4",
+    "w8a16"
+]
+QUANTIZATION_METHODS: list[str] = list(get_args(QuantizationMethods))
+
+# The customized quantization methods which will be added to this dict.
+_CUSTOMIZED_METHOD_TO_QUANT_CONFIG = {}
+
+
+def register_quantization_config(quantization: str):
+    """Register a customized vllm quantization config.
+
+    When a quantization method is not supported by vllm, you can register a customized
+    quantization config to support it.
+
+    Args:
+        quantization (str): The quantization method name.
+
+    Examples:
+        >>> from vllm.model_executor.layers.quantization import (
+        ...     register_quantization_config,
+        ... )
+        >>> from vllm.model_executor.layers.quantization import get_quantization_config
+        >>> from vllm.model_executor.layers.quantization.base_config import (
+        ...     QuantizationConfig,
+        ... )
+        >>>
+        >>> @register_quantization_config("my_quant")
+        ... class MyQuantConfig(QuantizationConfig):
+        ...     pass
+        >>>
+        >>> get_quantization_config("my_quant")
+        <class 'MyQuantConfig'>
+    """  # noqa: E501
+
+    def _wrapper(quant_config_cls):
+        if quantization in QUANTIZATION_METHODS:
+            logger.warning(
+                "The quantization method '%s' already exists and will be "
+                "overwritten by the quantization config %s.",
+                quantization,
+                quant_config_cls,
+            )
+        else:
+            QUANTIZATION_METHODS.append(quantization)
+
+        if not issubclass(quant_config_cls, QuantizationConfig):
+            raise ValueError(
+                "The quantization config must be a subclass of `QuantizationConfig`."
+            )
+        _CUSTOMIZED_METHOD_TO_QUANT_CONFIG[quantization] = quant_config_cls
+        return quant_config_cls
+
+    return _wrapper
+
+
+def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
+    if quantization not in QUANTIZATION_METHODS:
+        raise ValueError(f"Invalid quantization method: {quantization}")
+
+    # lazy import to avoid triggering `torch.compile` too early
+    from vllm.model_executor.layers.quantization.quark.quark import QuarkConfig
+
+    from .auto_round import AutoRoundConfig
+    from .awq import AWQConfig
+    from .awq_marlin import AWQMarlinConfig
+    from .bitblas import BitBLASConfig
+    from .bitsandbytes import BitsAndBytesConfig
+    from .compressed_tensors.compressed_tensors import (
+        CompressedTensorsConfig,
+    )
+    from .deepspeedfp import DeepSpeedFPConfig
+    from .experts_int8 import ExpertsInt8Config
+    from .fbgemm_fp8 import FBGEMMFp8Config
+    from .fp8 import Fp8Config
+    from .fp_quant import FPQuantConfig
+    from .gguf import GGUFConfig
+    from .gptq import GPTQConfig
+    from .gptq_bitblas import GPTQBitBLASConfig
+    from .gptq_marlin import GPTQMarlinConfig
+    from .gptq_marlin_24 import GPTQMarlin24Config
+    from .hqq_marlin import HQQMarlinConfig
+    from .inc import INCConfig
+    from .ipex_quant import IPEXConfig
+    from .modelopt import ModelOptFp8Config, ModelOptNvFp4Config
+    from .moe_wna16 import MoeWNA16Config
+    from .mxfp4 import Mxfp4Config
+    from .petit import PetitNvFp4Config
+    from .ptpc_fp8 import PTPCFp8Config
+    from .rtn import RTNConfig
+    from .torchao import TorchAOConfig
+    from .tpu_int8 import Int8TpuConfig
+    from .w8a16 import W8a16Config
+
+    method_to_config: dict[str, type[QuantizationConfig]] = {
+        "awq": AWQConfig,
+        "deepspeedfp": DeepSpeedFPConfig,
+        "tpu_int8": Int8TpuConfig,
+        "fp8": Fp8Config,
+        "fbgemm_fp8": FBGEMMFp8Config,
+        "fp_quant": FPQuantConfig,
+        "modelopt": ModelOptFp8Config,
+        "modelopt_fp4": ModelOptNvFp4Config,
+        "bitblas": BitBLASConfig,
+        "gguf": GGUFConfig,
+        "gptq_marlin_24": GPTQMarlin24Config,
+        "gptq_marlin": GPTQMarlinConfig,
+        "gptq_bitblas": GPTQBitBLASConfig,
+        "awq_marlin": AWQMarlinConfig,
+        "gptq": GPTQConfig,
+        "compressed-tensors": CompressedTensorsConfig,
+        "bitsandbytes": BitsAndBytesConfig,
+        "ptpc_fp8": PTPCFp8Config,
+        "hqq": HQQMarlinConfig,
+        "experts_int8": ExpertsInt8Config,
+        "ipex": IPEXConfig,
+        "quark": QuarkConfig,
+        "moe_wna16": MoeWNA16Config,
+        "torchao": TorchAOConfig,
+        "auto-round": AutoRoundConfig,
+        "rtn": RTNConfig,
+        "inc": INCConfig,
+        "mxfp4": Mxfp4Config,
+        "petit_nvfp4": PetitNvFp4Config,
+        "w8a16": W8a16Config,
+    }
+    # Update the `method_to_config` with customized quantization methods.
+    method_to_config.update(_CUSTOMIZED_METHOD_TO_QUANT_CONFIG)
+
+    return method_to_config[quantization]
+
+
+__all__ = [
+    "QuantizationConfig",
+    "QuantizationMethods",
+    "get_quantization_config",
+    "QUANTIZATION_METHODS",
+]
diff --git a/model_executor/layers/quantization/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ca49f34f3019d01cd4b9eadbaba97fe4d2e71e28
GIT binary patch
literal 5204
zcmbVQTW=f36`m!R_p3<VuWMZ_(UwSCc4EbmWy`W8E441R<vP$q)|7T7Gu|cFvrApv
zUBGPvG)5olA}A7|Es6#x;KDC`4Eh)PLc;<gEF#oJn}@tHQGynE>N&F{CHaORi{;tx
zoS8Xu=FH5QGyF#+5+v{_{I7GKMne9LO!e_pz}}|-J|;JaL?lijD!0U`t|b?Tyi0Mb
z{1VTwTk)vgB`-%@MCN7RW6o*6<d->#Zvkd003|{Ax#U2#wEA5N$w4`cwd9E88HI0-
zEJY=+9A0%vz7P1N7-GpU$7L_pTIHnxNbA;!6#SH1N^FHv;jchWQZCzfC1=PqtJwZE
z*$}gIO;2%lD3{L}qEc8}lPR!?tHo^I$lc2txk7%TkYCNMr8;eQcH^!cl4M!aHCdKc
zHQR4!MKPB*Mr`-0He&lVLt7CM1y`5XWL0I@zp9CMQJ?Ks3zDo9G{X*85!5(s`<8RY
zvXa$per>I|YDd>J<F2S?sglc!!>8@g0p1QXrrIC~CRJ)eV`%n$Vx^#JRMvG_8ZzX(
zUZA=ihU$7YFD-8wvTnO?-@R*x<xNedhVEF;=QMfK_JEc2jvY`7vbd4Yo_y2x83np>
zJ6rfZm@OKGAzCQrCEHDnyzS2AS8R{EiROni*#Ph5*OBpTj9|<9t2f5y7H5{m7iZ?@
z#M#Nk%k!76+hOL1ieFbMO91BuRs|t$`0XWt{0bJ-hh&wLxDWgmXL8qJ-m;TWd`(`<
z=`edjR#++OMnTQplO<tYQB>ieW?_X*SvnXL;JJBQ&O?Jk6;#={U66#FF60Y_pcgf*
zKn+l}yv4K)3R{Juu#(LS^kqFVwTJXM9STOFs!PZjmF~x3g`H(B(3nH526Tg_&I*gS
z<-_udb@{9+SCmX{W>rm*4=5TN8xvM(L1p%)*>V!)O?d_8iKdn8mQ3~Zq0VwDj!_t>
znUYSY(W2TAokd!i9MKuk;Gx>78uw#+$1Qizs!BIMT5ozetIHK7!YfC3^@ZL1nsFVn
z<wAA-UuN|{x4PxXyZ1eVUR{B`tP8VStY0U547_MVYJXK!r$U2v2m3#Wg;)6QrB;kO
zCiEY&p?{3&JGAdGj3;s5{T;~fxR1#L&H&^*>x4ENxHH-Fel_G*1@M))2b@VB<IaVL
zBl(8?*6;fq=|TE{dtBM|95Djb5|bG0ph5m|r9VAnM5^VItJ>-p(3=sh${%oe6qp3!
zgM04Y@~ieyf1lnjWECoBr7c0;gb1Pw5DkTmoT3QJvQSu;=?2Xi5H2wQ7|(CV%I5CV
z)AuG`=%Z4oLO4QQSqK2jj`Itv!mSr){Z=~Vr+r|y?RAbD+qaRW`CNX@_GUFrh5#GP
z=~X4vi#3Bk%_>EClF|aTyTyqc*B9q!XO<=}RpP3+I4`nrD^ASMP0dWhAs4@kOTMx(
z#1%!SM?sN}z7_6&e=}pKT1LxhLk66GvN5z-JoDDboilPq$t`EJEr^Zz3`W(=;kc4<
z;!1`ouLO#W2uBD+e=)6X*?w_@;vnd~^y@ZGdQ>T_WEFiZU9JBUv~C5+|L&8WP}6o>
z=1C~?ML6-Bxd(G)7gu-gS-gEGE_@g8M55nDN#w}q;r=J#{zu{M@EiY$wUk<qZ4ZuZ
z$IgF|fND4P+^%G_Ok9y@*-J*RaNGW4k4B&PM|NUeC4bi*bVL3MM+)-^J&9eTV{Qrb
z1bpoF*O^XFLlxE}1^}%6_H^7MlzU0I{{B22#`az+8%3Hww9T+GZj!w#(9_4TWcRnp
zI!B{MWdq@cGRg1B9}g^e$tAfJm+H1S$fJ14qwuQ7!u*Ptyoy)#S#E}XieC*_m}~Kp
zUkR!q%foO$39Atc@-C1Em8crCd<=(_xLRlV84fE6HE9JHjwtnNgB4^rsx+!iR*2!4
z(yX>vVTR*MtJ-Eo7_L*=)ebAla6;)+yQ~<)NkvePSaF8ym2S1is$;l8=~erz1jCKW
zQMKPnGTfvLs41(S;b!HSdfaMI2dzfNw<tqu+G=9BRmrF)tY(JWl#}YP)xvPQa!NgI
zwKCkHyrI5nwK3eOoKZ)tc80r@x74#%2g8E$wmNEca*#<%M@;ueoYZalf%cdkKzq#)
z&^|K=^r#sI+HW=h9WWb#rc4jeV`c>CakCESpcw}`WX6D|O&(~*i~>Dj`hcD^y&rLA
ztC=tZX1&RoO=i34GTY3g*=)9$ozn0hB7fnmF0<?XpTQb=?lH`&pc(`@Vs@DX^IQmg
zr{?Z;%;eXzN=|xN5^+|bxVACHg;+%IIH%E97=%F<8;5k^8fJBl97KWfn^$X0447G#
zht@=qi#g-smGSE}K>`H&cwV}Q$z@I2G*L@K7o9A$R#bNhGU)4=K~F903n!g?bOw^?
znlLtXae8ugc1qh91r9QisRb5bYYl?a(>JCLa0`q3W2u`4?s?<mD12^&iGA7d>6)_G
z<*UzE49v_;)XIZ13zP3wIG0^Fi<$nsX4K5JlU32&`job>H#%F8Z_bUMe6yx0G>chv
zjg2p0c73=}WMOe(qNW;W?b_m8twm%Jv-a`%eF1uPQ7hI2p_`bbJ1oUxn);F8flTov
zreP#_{!%<_DTXf^M^c9bb99PX1Fc8WfCTP`gf<~*29k=<5Mo@Uv=vDkl6E8=NIH>p
zArX)qLDG$+2T3oG)OmJH(jmb1DLjpSK$eRsFTLYXdInpvn~TV9F7z$b&4zmx5wrVk
zL~LlIh|qX?4v5{ie~}U^7pe4%B07c*nD@>jVq?94h`Dea5%cIpM9iZTh?pNQA!3f3
zM8upqg^2lf8WD5#Wk7Ziu5Fd89-YA==CgNL5nkV%OqAkD>P*@dM6*bk$LA0+7taH-
zJ?zp(7f{Nk>M9}u$u%Twg03TCt6~umP7A#O#P$|7DGL{|G%zW_IY`mnj*FRhnPZtx
z(VdQ;n2RnT%N)ae!rZ|;!JNRx&xVepc1DVWbOyFRCN>-#i8BOdJu{ry%*<t$#+}QQ
zXcQ{hkS;(Yy!X8BaWa9XSEStZJy3BAe)^v{LLg)DB{5_1Wxj|um)b@?YyT`-YMFi-
zy<GBN{?1E03*49d@m;=i7wOSm{=|1Km&c1GnOz=Ur>uXM7uXAup<RBsDnI&9{=zPw
z+U2`<d8h*~C;}}2y32gmIq!}?^5It54d|J_q0}@`_5g&;Cy;zNTlOLLlRy-z1P}*F
zpy6Sm96}s+>O>Gn0hj9g$}wc(B+yi9K3=XvCP4y;hv&*k#PuW)dl)P?AZ{c9$h-#2
zO~^EpKx3(?zubaMD{G!Aw;|K+bl8Eo(`nv?SRjFpQs*1xBgk~K7RSmx$n=ti?wwfY
zPIGD}-nvuQzSGdNlN5Fu`*vc@_=2RVALuvdpmvF`FJI({r{QzH?Frwu-9EO>pMMr=
z`{c@#P^!eISW=eaolH8(&WlRwI?Mh9(AjLVSTmPO+FoNzgJhh#VR|VK#1668<0R`8
z??6918XdTuI{o`a5pVUPNK>d^L~XnRHxlPc;09pFL@}F(za`k8PdZe^O~&$0n+M}$
zX0PpoT8aXtr?7Mw3CmvnqmZ)~6?u&2KnBZ`=)VL~c5@u}Uq9jcN~HHo(z8ph{VP!a
z@ZG0@&imeHjU8oIhbR2CyQ|4nBFV2WaHOaI&zq$a6HoguJ?)+>k@|<yC#Qa!drBr@
zVI3VPk?yj0kgI>B?-BTv-{WRD?%1QAGQscPdP`?!o(#XU$GC6ab$LRrpZl1R{|A#}
Boc;g+

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/auto_round.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/auto_round.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6e6615a01264502dfd545ea11682506f9036772f
GIT binary patch
literal 17005
zcmeHvX>c3YnP4~WivUP~00<reZ-N&{krJtk5-Ew4EQyj$%C_hOf!Iw76hP7qP!bs+
zQXFlWn$fJO)Fh%ePKBCDjp31IL(k5{O3iMKW@@M6J$|4Cc>s0f9jW5oTK|I%S7KM~
z@qMow2VqEdvbDAIW1qm+@A%&Lj(+dE-q-q1B_%ovLO}6{{+|z0)UPp<2}&vP_~($g
zN--2e2dE%DLDQI)1!O__ggmI2P>{Slpqx-axjdkrP{UIZ&;+#;T2iMB=z{tQeb6vr
zAbC}wBxsy422B$tl2-@J!P1FRlGX&uf|dyjNoxbvVEIHjO|fzgaq9xMpnbwlQ!<Lx
zvX1MtIKqhv88t#N`im4}V2#)1QmJ!M?k@QZGj3YY40FE8uzzmWEfY${PaNCt-FsmF
z-a`jRM+Euc?BXbZ=>4<)us1L_J<W0er914OWqsU`FT@J=<Fjup_-4cYC6*D3kFeoW
za}0o$Jug=H5c%G@*(v|DV975NAw$rC@tBYE1p;i~@R0+okAV{N<O0XBvtjRiz!#pH
z<AP9T2u=C|KF%9noM*9B$xEz%`cyb{#5X_Ba+BiZ#MmNb9{)#JiMQY#vD5_3P!lqS
zo{*n{cl4+9go2Tuq9>G$f>EB5O{kz$1*K{&mHWrkGa6RIXyH%CY8gGNgLTxg@T`Ci
zmedr*s7YMHVtL7w49lf5BS4$r&&;T&%9g1qnkl_lGGS!QtZquilwDLzm{>F9N+D;t
zsJJc-d7_Mz>RHQ7i&T{NK>Pr2&4Vu|@ERyB&nvY_Sjb4B&X!kahdTR)5t|umO2Iht
zU>r;Z8K)D*SwU98%xVFq67o)_fvJLLCDX`Mi?f89nv2SbstqNZprjfhpnn&@*D$p(
ztAV`fNXeN!Uo9i;6igkot6iqf(GzuJl)FhV4K9S|UYJ{$WyCGDbWD7@CIh}u$OT))
zm4)ckxgfm2PO-3+CfV(-Q{nJ@XuHSb<Iefdbk1?po_S`<v$>~hTW8mnE!|rQ{D1-m
z^O+1IJTRY;tOino+&>%s(&~c&csU%wc9NW)55KWwDJ=D!ePaOj2lb^6Qrm+*F5sX2
zQjf4wMvy~=pul#50?P%3f1W)js6^ONL4THPZ|_NeI3(z%p~rb|2+o-x4=n}-<GgS3
zw10Nmi-*G(7HlU2bCajNv%Vnfh4Ez$rC?ysg*l&hQapcJ#uxUH10<+V0s?lH5mX!-
zUf^aYwJ_RDP(cDG|9Ak_;Rp0pDx9gIE@>mw9{~l->{ptK&=G0|SE(SJp}ER1t^o-Q
z9ie{&C$Bi{kEkCjGF0nLI-&+BT=IfYfKeV%OBjp57GP8WMncgyqAb9uh$tkCMPLgs
zY5=2QBR0$xU{pplfKgQ(wg4lnqc^)=5m+g2c3u%V<g#xl0<-aEM;NweMiEhl9hvlX
z+`$mI(ui`VQcUN^j5@R4vvfoW_>7s_2#nTi%I4r*c+J@y%-UO;$%Pv;DMk~aGd%)C
zhW=8Elv_KxRB?PZv@kzE$AwwOmA9?8yOx~oE{W6!7F~0*5J`|O*Ag(7T(j)Xg+^8R
z6&nu%)RyPhO1m72E8AU9?Mk5AKXbuc+*UyeU9y~@@p=i@^9shX<HwF2ePMk6KJU=M
z@i9U7qA#$(?&r8UPB7={_95>a6H0R>!$)5@G6)UIaz#Ufdk^g&-8aV7Kxf=0jIdj-
z79v6C5BX<9VIPnxIOAashB6=Uhq*e0sK=-QBV2P152v8Vse7k@ea~@jouCM@fvIAc
zi(wG7UN0e;UT+9@5>iSME_`{y6AsRM=Kb>>VIMcmhC9wJ^lj@u-N$+Y{*#{hMd0tV
zo-=_!&=Z_v*npQk$4&wj<2(W1BFlw5673;;-;<+@o%4%a8}zi~7~Dw0J2Ok&4z-~f
z;Ml*tKs~WhTH_@(uW{VbI8%DtDwC|~=HaLBzE@V2Dr<`!itS2M^tQHCn<v>ez_$&=
zTX(1Bbm<`dST461)0Di#nAT8+^3{FGs%{>BQd4)#9jk<<TiR3YUCH)AzI`y>HiS+0
z6*P6OS(CMWJpA;1q}R^acjBD`&~~@j?I7Pa7;i1w*0S1=bawOble%q=sn-^vX}8#P
zh;JK;x9-Jm_vd%3qpF&h6?Zg_l(S)3aoLoz*x;c_)wE-2<r5WUcE+7ue^r0Sv^6cK
zO6rq_7T(Yjv)nOs+%IiTt0`^C9Zh{&M^(GAMMbKj4iFeq_8NE??p4;W4aM|{%HCzg
z#~R0DSaNDo5*IN|Aps(!|3yfEaErtp%L{@;CM6=1UkNoptco!Ns8Re_4QyOFx>QxL
z30m^V!mg!~c2|z!?OIZ`yMX8I5@@$uUa-O4G`9tM58)JCTpz@EbUAjO^LmTzG_mFt
zY=Z4BQ1^|kvEF3c4!&(iymcqMpIy$Bv*stBcRcZm)>zZJ^+U%8j&<G5T6j|>yV7#G
zR>$>2%MFVLd2!K@4PK=dX}4^2Nr!vCgGdVRQ}5G)d@>N)FitpIgkgVmoS7OQpbMe8
z0pm1Pezjj*e)6)0NWVEQJyYbx<kjLZ3&ON)3<f#smJ3Qa%af-B#VKE4O3<8~3e5S!
z-CH@7+wzC+z(Ho|vlpn4mm#A0QcJ<R?R**}izv$>x<GwuF2Aa~qI-A$Pe$Jvjhouy
znzpY_7l%xyo43rL?Sw*Z7e<96EW>_-{#oy&Z{By(543b~sjk@AHp2J;S9Z}$zd8!s
zYGf41o$-WB)3B%Eg*);opCod1&V=S>ix1C=!xIHF@035lqU;u0YA80qLZ~1PQ4bO9
z3v+AUatSICbTa?_BWEWA-UCCw3OZs0{vn+$3=tY9ljGx0fsuU!82JVm?7bjBUy5m(
zQD(GK7*TO36{DV(G1S+>X#m^TLumm@_qDk6i~;&A$-vz(UY8^>c+sX&L4h)P0sH1`
zFhRm;1#3nC_vVE1P#y=z9Z%S}U_dtNm1Gpo3FU500f8g3K`{=F`a15QDQ+(4J<TqL
z1oMWh7lZ;Cw;TI93{ePogi9ikdeTVTDod4xJ1(#C4Q%<h5M7`in95R)%A~{1JKR7Q
zx30G&96M5WXVTun+goC`_4f6egnduSY)P7Hd2{VrQ*2ADIbq(Ms;o&?diY9D%4~~Q
zxZ{r2c>B;}xva{VR#6Sj$@)INzK_&($9oRO9nXEV4{95*)>)mb=-?|lVpHqiiEkbL
zNRg;GlCo7KZLPemHMVvA(E6@hjS1U<l+~WJw(wRQhWqC0@$SPPO(m?ypH!5Xb!n<Z
zBH4nDNGOEnPUdeme7WR+T!#29>Ma?ZY6C;(2qq&7XAjhrf++LyizQL{rJ{U}vt5!E
zuQ@|;8aRIPOR|jcJx1kJqzE0Bwi&2bQhx?2ssLPBVIM{+1+FGsl1VSiz`UTis3{J)
zFRQF&dL=lKh!zCyBBPAZGg(z2S3Q$e0rJYSVt%eHqZYzUUoXA}`>3~-ld@@QQubOE
zMMagMp5TEf2)PyFw76oRq9`(Jaz%EzMnOeY&{oB@<<y@rT1QBTs4_FnJQ>yL7B~se
zf>9$Ftb0}|Vl<azAe(4^EYCo{Nf#eG_Y)|GQ5S|86y*y-W+nDfuf0i8ufqF`s-v2S
z`jYGn@X^cqOR|~Tf+moSWYscp!~p4vXkg8>(wbQTj~3e27i$~Q=B<$p)<_rCMs#^A
z4m=~OEV7;@0IQEGi>{?UvnrXVw3h0KUR=vb8NG2mb!0vD5#2@wSAnbt_I~b7j=?UV
z;V-H@n@MT2DJXN70I@~BC}=Yl4Q2ytLunOv;p6`dC-(>RTZ*gHC1o*rHPjWMIRn&X
z&v9=3W`XTVwMEVZ)XJc?1lpomq##Vm$3Wi2IP#R9;Ut8Lk10aoPK?STvYD)EpF__m
zo;~8sn|?}bILBnZPnprzv{pgu(&97Dv=nEap9`ZzLPE~C@CS<GbDzo5u1uSpNeNEO
zUrQ%O9+ic2rU-dBONBE1a@KH`3N0&u3TiHDBJ!_NJUB;fS}L5SG&9Jq3qoFP){K$^
ziDaomBukyY>wC)T|G$2BxYLX5R@lq(%*sv4#dCZ4Lj{=d{_mcRdMXTbOAIq8<`jem
zuxQZK3F`9yI7^+ApP<gtU^e;;U-oDJ3&J=z3dx+nwPb8<+x>b&i~E(=z8#Ic`sxN<
z3>kS3{5@`h=m+#6iUyfCLcIp8H44WZ$?p&8t29kr)+xX~^%wH9G&h9kQHKEaN7mUT
z(367Yh5aM@U-ph2+rRhV;9<BF8GK<Zgt%R<3!<K>-8s$9vghWxfu)f`5eg+SQP>cL
ztj?Wap7jMn14I`pEXyMLA>a=oU;6ETM<Ym@lI<wFyLH!k>B?ZdqWzAw{e$T*LU^LT
zXDp@NMp35RXiF00&^OqRAX56nY%s)i13b4GA}~46E($V^6;vU(zyTdkJvkSg2h~GR
zvS`n8t2os9xt9p=<kYmFp7({rEH}%&j^$e*3gNbLLD(ZLgAV5^iITm)&pLb$vHl9w
zkuNS#DT_U6X}E1^c+k?lvM*_ExNU7%=k7Llt?avc^!rEGPu_L8A$j1+fwWrTC`(g{
z(lU?}yL$7oM#^km35#MWZ)!=|oJm_VZ)=Vzcw5Jc{JzzGb>zy(>hLeLYx|N7y|){B
zZ*d9hb09;K^25J45o`FF=g&PK4JE8cGo}0AUtH^bum4(q!n!xFFBP?WFTJ7YiGiwb
ziZ}Ho>iXk`O(|DH($&qox|6Ox-qrVyu5DKgE9zCtJ$vn1^NpT6cF$jh9!qZ-gx(!x
zPbgVG&ZxXPt<aWM-?LX-UA(gR)3W!R*POADL~ZXnld$iI+ehwKZTiW`J0okuf2WP@
zOSbR4-M;f9E>ZPDN-976cPG{xKJ@&hCqDjSqUxng@%|4MW4%A?|MUJ^Orq)#%*5q<
zL@6qqU`lcvpwlL*cKgEys<CrLku<w*n_cUh@7A}kD6X2mZ(6UrTh$0j%@qx_vx0?9
z0TwnD)!voM{`QHMayYM^yK?RkB`d9dV693k;rV3<iS)lO9a4{!$bMO38L3zPvW|v$
z!^y>sO-}9}NaUSdAlgwlx5c&5j8Gz-Y5RsV4Y!0ku&8q3&{==@6c~?Q1<c|eABWV2
z^UQgnWU1$y@8ImI{WpjTWx4FBtuo&2A6r+f=#u6}-rTsxB+YGn|Cn@kD{J7|b!s8R
zGQm0aGt|R5luDLLhq26cWNyEU&<<Dg(w1fy$G)-P=h%=7&REDF3d60aiwHwl0GF!d
z&I@i&!Ek=ELo~rI8AVKBpIr#BfTsByqH)vX?lO^9C{E7J1w;Zv2nh0aQ4O8M)K-Yl
z(nc<vyn-??cNR!U088ay%HVtm)PY$WTB%vaD-I^)4Z?LTTwHM{u~In+7inQZ4Q9E3
zZ<2Kz2#o=BXiDbr9dRhl5sF0Ko1lj^lgJHRi@_?w?J}yrf(GU<>cMI$C1^20%qoH&
zlj4GfLU?WSE!Ve@ijg4FbD}=y6YZtkRpMT<)P#8FL%a!yLjO}FT@Pi=TI0K8X$l@U
z#y`hLdYq;V=A^#rw!Ui384D*pdwBTO?zwBJUY$u;+;M{&47wHdYg=w~CLG)1)@{q$
zl-`uoH{I4Z-E&j|X{a)$`gbP#$8PtJ5uF)|DvZkq!M>Y^dEsa0-#?%9jPRb3q~{3l
zIg;=k<!g_^;jFGrR(0I2>UgYFR2m;tb*$_I5_@&`mECLG?^rq?Dyh=S)!wy=kIikV
zs*bdhDsjNEt~5T>QRd2f7TX_(R(B-q%?V3OZ1A?FBURb7_QpE{ajW~D&6NU@s#}YI
z$+UNnhPZqP?bvo8%5osehV1xKE$zvcy?o2wWXnOm<={WI9OBIlE4tMKDNFU5^R}gJ
zU6<_I!*}hu<xF%PjvsqI(e?a;qc6d1Yi)OrzI1D3RhM+M@{ZQn_Vu$LJ9d9`4v1BG
z4KT-A+d~y~m_AM?>W=@1ZMS-_ZI3bQ2S2VK_-Nb8p?KZ#dv@o$J*(eNRJJAT?d$Yy
zdv|J6Ypna7@7#8D+;cXhoGmeD%m72*(wFMnvwj*(ycK(K5|uWXM7b?pO1Tfy539iB
zzS_FxPnf#mnyxP%?SKXP;!z!R|HUH}RsSL#DuaFS_dT`4eTsi5sTkg=`iFM&2(8+n
zso)7m@!>IUJ`hMi=Qs^z#B#`;fHG13kdXsGY(N_<Hm1o_EL`?vwV<U<g@mdAAO$Ex
zC}aauH91#b;7yz2noXiL6UUMXI3_Z#pF;u#rDEFCcU@o=K&XOH96Cdi;UX{#50FJP
zk?+<5-t3iU78plS1Ue6Ib_R<e!V&S!tsvA%&;fY~EP4Y#DGBw;6fpkDFxbOTgb_+l
zP2nXuF}@)=f?F#@n6ZwPiYW4`mud@F`zs*70t6wHo?yMn3Fh@pasB30>yBjWFyA_y
zGFy=enA>1qw;7lB-7z%7@g!%M*H^{$Eh!WdcJi*BH^-B^M)_T%3D?o(eIFaDVYeIH
z<i!c9d5)d(pPS5IoUHMx3|<hLqrn3Sypf{leFWk@dLu=ZK}A#rH}%v^Rz-u6N&)Wg
zWf`U5RltE}3NRZ`#Z<JMc_LJsr<l<>#Vm|xfrP0nR!)~wt*%S8WANg_HYr2RWKB1j
z67Zu@z#TYUOkF5uf&rfa4VXV9r3dCJXOw922`S+AT@Fh4(J%_iB+R&^MBXE>wl1$&
zN;2wqWl<gUp*sV<D4Y>Jt-vG&B{*>G*^sq8NA>wDlQVX3=7=8Jg69{s1qC~z$*g)*
zKPzK2QGG<uIpLjY(bFqx2wI~h!SblsmqDDLfnqd%YMQ#C%gi)tnzce3J$ise%|S;L
zyu|>&IRk&gkg;M%%bqf>{m`#PMx8gFH^F+Nrce+v;{;O&&6EV3!OExwc9${J2cuz3
z?<%9#h-GG5K~u;^teJy5v!h6D-tGgVTu#~lx;<3}qXuK@`I7Ud4E`~g`T5fGWw|`~
zADBmpbOjf18X^^ec=f(au!-bSbhgP|V+ot2au6~$)`diU?#r%M8bhzS#=!?|yQ?wO
z?izxt05LU!E;_C;aM2O-V~asd5VJm44KoMwgJLj;s_-yqnx?^*o<Bl7gGBK{D9;w;
z`_c&pES}phdDf|N7X*TCiRI?J^K;;sB$UEU!YS~c%kc<7KeZ4DNK%hr%LrgV`DW*c
z%65k3fF=rBz%Pvehm_y<hWpkP7&k1V@yHze(&%9KR<R9-C%~-~41_m%gT((YPhrPa
zf?67!yGCe0y4tzXb)Zv}TRTCVBa$M^En}<g&j6J;A@MTkTnPIEp-$<Akqq|-fPni$
zjG`Ew$A}2B$Zj|!gB(&$K_&V%3QC4OxiC%ST5cX|k#`Ep1z6f%@zF1A{-)yr*Dh)M
zaDRlj{v}3lBf_@d0R{KR*z5<`OqY{-h3;>P0^6LO^}*fkRYWv~h=`Dz|EApKqQr3q
zLH-3s#K8pDKW_~SYz(*~y~J7c$lx(S2XE~u(=8Rd0zVQI{Lu+6e^R+hafIZa3bZ}o
z#6^NArI(AG7gtzpPPWccV{ryu0QPIZ9r`86>ldg`G=sm9!DT)O(jcEU@8p|z-aLM5
zIMIBF*EB5aS0>ghDU&5>s^?AhYlrTby6%}ORvUlXdSf<TyX%f=;GVrRVeg8YyYAa7
zKh+rDHe52K3<D`cS;|oQ_R&j6lZFP~(2z3NQwCegV0u!bhQ7>{!Ll-i+JGiD!n=At
zwQNdS8hK0Oy-ebvQeI_TJ`9d4l})j#xN{5W(M}`3<N1`iYV{S~?2c`}*|UBYgovHS
z<>#JgP&92^bKEhtrmC9(wx*14Ka{dotZoO8j<PE_Kj)_9=kDsue<K5Z{UIvt4-Hgp
zSE{NxRoR%@RJYofs%uVF)ufu;Fv?mZZ>auF892{?4&bcMgL<M?II&NV>}@OT>dSZZ
zO?OQdckT7@hArz0$-WW3ZzN$q5H}zA#PBl6HnmMDM}4ZMB~{nBI-RO?J=Cjg#^vF(
zk+Rk$EgifCuJsa@ElJBTZyCO|05^7)<8j0BPxa+1?7K5JI^)&b?&!CZF52TA0}1=?
zxOw*jd(+xd!oE2U_lhQqD9+|fLug1xLG^Lf|CffIB@K<|$vZAsuY!<Q`z&clJ0+7O
zB2nrf5>W(7b5hX_O;-N+{p2ETRxZ*#T`pp@jMh*2sT=z1k~#r$Q8`E}hGKG&2z{gE
zI=a?Cc&cQy?{|`nj9JOZBuYlmkNKaiTvRH`MciAk0Nf>vE@On&c}ZH4<dt!FqR281
z)-=^AU&y;OkJ5{I<k<K|@x_)a$(JDnORhX8#;Ehe7?nTd1qUzg3iKjq7&bJC?nHu`
zSp?&af0Fw?l!Kh2Lp+k8LVC~d#jVUCB#5|moXH0m{SYHGs{_y~rZ-+EaPMGM4fn6G
ziZH$(Vd@)75Zt>6{9}x^Vw4je)I@kV*)M1@(SNdgbHC8@O_?{kglAah4aEBw82xLA
zg!bPB2ltoQ4o#HYpJ4Q-7-i)F?x&Fby+nW#d>L68fcrB<yK$V{dsvq1K9=qIoA7y?
z$mhv2<TLuF;*7o!ZW}Q9(0}=7#OW)WMJJehnCRv!yMfbJ8<&p|PQMn4SG2{V@rs=y
zyB~ZhWv*WRc5H9Fri(XsuW$dT{?_ypxon6=28=GCU&Hh@#hHG$#Ln$bWcd{}DTfmn
z{}Yo&<oZ^L>o-VX8JH(}72*6KzHH$9t?{;<H`(OCC_gZoupf<^kAAL@f$dL6HG(;@
zIaSvVzCWo=4Z!)GWh*M+{Enuiy_>gpuQw&^+miO@csty?RIF|VVFhn<pfQLv*hzr^
z&=K$4ov`nToA*4hgVix%?}?jx?q>u5WcZnYB%KHV%kc7vJqw<N;VUK&c~k-3B*k6O
zviH7V@{kw?D7AE0GBr?C&TD6b$pdu^60S>6G<g6^k_A*jbyOA9MAboUR6|q01J()R
zTZ`1VAb^1bRQQM*>g5r|4MmpeqW6pn3?tGifC`WEd=>^}5e#Tr$zsTPiI5K)ir@mj
zkF1B&n=~llYLVFh+pruww*Tb<EmP28p+woOm`37~Pu)c&Qx0Fpi0WldA3?Id)Q6wW
zxFkQi4WAK&T%ZEDe6x&eIz0ad-j%@DGVLc9!mjDLunX=Ro~<2zV~r07ASxu>-@u5t
ze~Zz-!>AUc4v5^kLQN|-3l{<vG$d3~2NgM8NK}C&(wOT~G)*i$g)|nz{SaPc=sw^D
zOJ#H0|DoywN`+PjN`+P@=>@rin=)Bf6-h@M4?k1e-HLk90b-|b%>W%kY5=BtM_X*G
zB+HlDS9_C{ojm+XI|*!U?Ay1N@?hIz!{V|3)aFXdXuBun=}CHqc+XJ06W!>`i5q?9
z`awro9Yj0eP_f<M?U$tx3NZQtg^+P4;6wmaVc?DwF9-jW0T3GTq{)bhQ47XKFk|7a
zCwcmEY4Mg3ISR(bEa{9a=b6FCPs2SWc&zm1C_{#Zh&~&NJg>nSG-DKm40NbI=UrIL
zhcF9gg7F#(kU*AE;C#3;sLdMYa!~nHRH7^9Tx})=-fl)hbBf>xs)e}GDpn8*aN`G5
zPs9C`kE<lyXig{y8*vlrw4@>isZLQcJOK^3DvXf2h_pv9-i3Y(3vk6boQ{B!>*V|b
zd7hhJ5N#*7u$mnEUtsEeh~RbtZyv~I6s;`dkR`4hc)H2CCbC%ZJ4aCf5^3Mh@%TQ5
z))%O|`qC8!oEvW2no~7($r{g{8qbREzO`np={ESnK6i8Y*4A4s@$H8aU=zr?LFjl}
zPtw-M+xl**Zpjk1z2N>}J9w{hGkg?s+uEDfQk%NqFqc#(4fVXC{*IyXo@rCk)Wn;b
z?tnXm$?|sOQe^eaZByfY^w#L)EuFE2b<o~-#SObsFr@Khc?%CeeM@Y3o%t~EL4a=`
zBAy+Eux9k}Xy)OkZ;owQ-}m9+4-WHfdk8Es5U}enCM-MShMjN;(mqI&6YW-w6KCtu
zQ4U|O=r%3mzK3ZeMDR%nDlzVQB8m$-uXOe7^$G?r(&&J6X|48pnYl^$TBIGDc4Fkg
zs0$;4dJa=)5Em49p(H5q7KuXwLOx~Uc3_pBd`BfQCZyNg9*p*4osxVK!3|@<L5vPz
zgqFBG#&Z#~xJx*)Uv5E4kj>5tsw3q7p6m;uMEYK9k_D5l7v_k{MhNx-wMX1Ncsw|a
zaPp!51~tFENIjIvl$u8x%2sz_H07vXIU844Qx%?g_i)@X5?7Qzl4+c(xWbmMqRJ~$
zHNB~AyHcH-Q8KhwKeTixx7;sxq?Paldk&=3n9@+jva}XcI;x^7t;ZA?lp5BUSkE>8
zHPd<n@7kI!!D1t2uUzd}ldtw)nOzI>wzjkhi_MhPo-V~y8C6!E#(vUPN@x7M98<5;
z3Z-tf{xJm)K&&bSYOkyU|EEV3JRi$5B`_qhu03Xru|GTg{%PL59bwwDFzs2Gvb7$p
zD$7=(la17TZ9G<g?L_gGMx}1ex;7c>Svz$NuACto@7@0hpAsfWrCsB+vU?pyjL&oc
zhU<#;z_qf{wch&}ACFZk<uUr98S1U;P=n7~76Na57?8b!#e35fK5qdUe5RLVHA=_&
z-p3R?(tBvLa@QLB-l=P+-kZBNm!=?lGxQsLh+Ga|yt`7+PDx+$hr~|=Rq#a)I$J1k
zbKt%elpH(Fp5quSAX`*Vv`Ntl&Y?^z)ILMM1Pd;>j&a0@j$}}1eg-fhTmB_tqvy2P
zBOZ@u>cD5fP41+3Ui$w4yln6!%P=?tJ+?HG&NBZeKuDy)W>Of+{pSFp>E2arV1&wt
z#QOq5EJSsksPN<f?ZQ#^V<dh{wi8-_56u9F_vv`rLU@cp+@R^tH59$+pQy%PQ)R!R
z4F8p?|0n8sFe%eAtT;-4LbZKDxgW^QpC|?%Xss(RC$u#eR8Ld^6}>BNYx$hQ1nKI3
E16H$YbN~PV

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/awq.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/awq.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d1788d8033a42a42f3826ce9666a6659e6dc9bd7
GIT binary patch
literal 12290
zcmd5iTW}lKb-Mr-Z-5~90w0o=;!7Y!P}GZh*m5X}dW)7tDz-66HXwFMfx?5jyOc>7
ztQ}XKP>oYbopwY|otkPhV`}WFnV&|U=`_lpXZiz}$^hA+rt&16j{60f@;K>7+jH(>
z0g!@YyX|y(3EsW;+{d~1?z!i=|KxJn8Awsnk0O8D#W26Yik`SaVf_gdZZjeyvQZ|+
z2HBV)XowkuMiya)s3~ZIr!mUK%s~r<nWEO1Eoi4@F6xLmgHBpDM_n;@&`ryhXjRM;
z^u(%z)iH0-OJUY%O{_Lp8><V}(Yh^KA8QCU(6T-1i!}xtV@<&(T6aX7V=ciJmXTQE
z1pLnEme|(dR@&x@Zj13jo@ES-<dj<9W3`<Gw;PxfjOf0`h*eVUd&UB^jY2&Dt(K~b
z(Dpfl-}@<c@f%gw*vsdKg`tzfLuXEnoKTH}@i~>d7>^|4BYsvj3)nmgC5I56k(ESD
zNKDIEjl?605KT-@N(8Fb<1?}(o=XhFjP|pUxD+BsL$aiLwDLJgxs(toq~T)x%1kJ(
zM3RzN-sm@|-WRlnkOJ6;67h-1WDzEnrT}!Fh%7`ya}p8c%aQ46Nrch96C^P+O{W+Q
zhoaK?5DCR3MIvg=`B3<>Bwjsx_FNGNlWd!m6hRJ6K%cmrAhIxxBV+*vg~X5&f-W`X
zE7Degn|Hk^MJ6vP^0^S;CSmQcwcJsttbYsM%nyOKBqqp;Owb^*L8FZkeWFn^i6;2x
zBu+F-X35eBLqtQ;0=Y#rOxPEg30AaTa|NxUMY2p7MB6n}&?YvDc6izWW|kaNzH+2m
z8RvoC4(R2Q+|bViHRm<cdxfsSD#=4fQ;g8&Dr>8T5pKyVS)`f?16`3tWF|~vRau`}
z(F2&fpT<13^Jy4RoCUBoh~CovCd^_Dtj;GkiM8--gwv>lUiI)#_Ye3Qu5rPp1!k5F
zHjgs?X4N+M;tLunB+qD1J{%3nGCz?ZJhTPub{^6NX+k1WJS-jJFDc5je5kK4L}nvb
z0|_$O7aEuQcJJA>Kd@`p!GQy`|A^{%g}y^!Jfg^|eG+L$kbx*wdr~3^VLB0sD{6f#
zA<jf4Sx^!}JfR5TMEt5m6xB>5WroDVIv>I9V;S$=x(eA}vbPxpo?5!jrI;T>yZ$Cv
zCdH;0!JxON3{WfFS%yg&p=K(!nPyqpz%r8zK#TZN%v7<5-V^ADy*$7$q)~C{FcD_1
z)bp=^tNp~NbB{Mz(Nwu#64nTKfi|@?$N0ICPZ4$U<j@R(BUhqxJNZOBI>+zrg|p<f
zW918XoL*%<BJ=Xh^mKwKlBmD9o&5NW!cQg?K56FhB?La@VOqac<)AOzTB{&X9wU$j
zfD<Hmf}}*6AXDw%4n=3AVL}o_bxgzk7A8VrB|-dV)g(*NiHd`4f<TE!5M(n<f`r4r
z{_hw1l-P9NbY!|$2@&84y|Xg|2M=5xkouyL@xJLfU|sRPtI=qz52!(k3ev0;o&i*S
zlmp3q<y-9wy>cZmJx6$$KItveZb08lC&1-bA^Y9y%o8_bb6>Y)tiA`<rd)I9g6V<P
zmuqTYFuhr&KRTcJxbx_J12(lia#Up<%^64Y;+2mb{F=8VZ(ytW9N(VhcV+lp>23Wh
z^?4&(eQ@1qta0ZVqsyJQGA&z|YO}5V8Td8#FPMI1^{oSXCR`94SY~YSPf2$g3Lp-F
zIHwT4DFM+SITgva)Qsd*nSh`LNehpAQ-T)mCpNg`=8<H5@uYT?UCU>auAO}8X3}cu
zaz2}E+{stIpU<kS-*2i!0(V)`2J4V<_dMx<9O;Zm(?k$9zAp`S2s@vJ>~-dmyM1Xa
z+p#axu`k`eKhLlOO}VD6@ASRZmu~EaYR{%>XRfn5+c}u&987l{z2BO*7+u3`-pJYP
z1gT)d3xK-z0`O+tX69JGVMH|oE!|~^A3z({i()GdqOE+rI_xNRMlSI>ldGzI8WFxb
z`lhjCIg6_FR!a=55(}9$j52rG5fJzsT!!!^)jB>AO@x&G{i^9w2yWo!h5M+y)%kz`
z*HsXexoJsGZZE$6z?bzI#*Nj{jjeg=Zo6-}f6BdUzhh5V^`xymPj3`@K6Rp>o&g}~
zg$!i4F&vf4kJXEqW0ANJ4o!!~BhiR5mu%U%u8plHVICP7<LgY`%y_)o8lYZG#luEL
z6t9(Nz(eyJN0QZ)X`nm-B_}W?C*sN40w0mep>(xchD4)LY%MNT8!Ajhq7o8=oZPx`
zv76h^!Em`2GP+zB|H!#LZ!vl7dB#+rNY$*33FEr;gcp|*%-=)dHpqgha>h~Um14EM
zy;m4Hk8GlHKci@xG!*+G)2Q5!n`Dc<kb&SDHYLDno&?=W*K6lF1FR2ZsWD|raqr<(
zf&}Mn8Bw`cP|&L;D(#(Dgc4WTBv?R^bm8$%5Kwh5OLMa7*-#Zw#1N3O3^|Nh1=%Fy
znNitN;4lt4nRd9zy3%VZ17Cz8GTt}fGxd$x`mRiU*Rpw~;a+EY*WhaX(FI4Y&X=w0
z%+z%*U0reCcc%N!t=5e!*vrAr<v&`jI|8uQ_H66EOzXa!)0?jAP1goiOzTF&c6-{o
z^)ZlY&CSD0_T|&*10$<d&!?@=Q_592D$Z2%G?6AEvwj0XRhGCR3zr{0QamMyD7<Xo
zAjQ|0VwED{=&z0(P)aHb5(OU3rUX#yCJ<Cb_I-o?3W;68wa}!iP@_yq$w@J~A_LI!
z_2A;QQH7O}H4z99O}Keu%sy`dlgcPkGj5)vWopLFo6)>VnNdlb+N#e{dg{BAzpwB*
zbgE4+m7by{WdJE>Eh$=n!v=G<m-^_X%9sF(*M3tH?V{stZr+mOrjW;ON-2we8dE)+
znxG1MDqg?Q|E1NyDl5EK(fPJ{-kLI2T%%QA<Gc+{+LW@T*h)r(e$t~1D4wp7G2q)C
zwD^QqBFZH}o*9=F@+rP?xVBYrvCf4^G@_f1P6Q-|HM0#yy3Zw~7e@yB_YYC73y^K$
zOA=^~v4kYV=t!87s;LF*GHE%BMke2tJl=&$ESLagitP9t8Xz#KhBd$+4@Cj{BtH)7
zD6b@VXyPeC{<1{kQdABQG?b3}In}B0e=s${E+$6+TH-^hB^nbhNg)v!4XPfSnhA1p
zss#HRRC`2@#APJ}mJdNGL#p&fwH~!%Nrc^LCQJ;BRahNyLJxXa<<>Vr6;QQ<#!)y4
zg5r&wLZ}VT=aqP<e?K{mb?=N4fxQ$?j8@1Q?2RhAYSw%Ls`Hf)i32_%for2|l4|cq
zu@mK~<wu~}5sAhk{dTIOks+M(7-q$_&;@A7ko&4z3X2FQV$)!1j7Rl31Thj;)aufH
z3UkYNNE&a(oXS)3ZGa`4N_-g^e)-}AXqN*(W}vg18E5@X>FwYH$BwnCZ8=YU&QqK9
z^kh6er9x}R=Qhsce&S?&eX9+-(w<#wHQSf=uGZ{GJ9n(P8Wy>?XCJtB{Ht^Dp|k&?
z^UNnTyI1zzYyU;xhkXxfPOo|Dv!1q$r!7~%WpQHhB~UFp4?<RV@QKk_?akYnj_zCw
zpKaNhY1x_E-uZ6doj(1st^KjX+~mD!&bt|3XSSg~)6l=tx!Q0r+i*J5a5`7pxVRrA
zfzO*~3^0|IY3<DUTC%<!8Q+fF*6r^k-b(0?W<J*)$aW8Bx`!XTEWPfu)1UV+t-G@P
z;S7H`=jnxcS^>HRBuXux=KELnW%mqa_6)7o97{Wo<*I5lg{UYK;1E%6P}%W4C{Ser
zo|_YC1zv!?HYMOPn;=-#`3M-P#nw6C7GxJxL5OL_B9MM`PKZWi1wd`kqE=s;K%*Yb
zI-q!T<H)$u0!aYn&=F<L$>tJ)Jk|JTFjU674Qe-9X`LTCI&<BJv)#ut-N%cB0Vmeu
zUO4tEXII|HIJ-2l3xtnGCF*dhl}K0NLc@(I-#<!6dTRd&B>1JL#?CP%`CCa}FKey9
zt;<>~NaIQ4ys;#MQHH!<uAZ5WF*mrd;Sv)zd>3x|JO`4g=z@UN7m{cYjXFmcO~?)Y
z-0)_jiJ3RU2-6g@u1!go_Bj6yOV~&;9Aud9z`L49322$B-ZTWNA_q!gf$nD6c`M-+
zuih(VMZ78FRhHC!gH;}eRoW1vf;I?EpdZ+hz)mVtU>ICBVZ%K43gl2S&RehywyvKg
zNU16tASd8SaGfeg4I#gSk}K&)kfmTuk=>=*p4|jD0`4by8VnSbizre|R*k^0)MjCH
z@c8i9@W|-%7e<A#=izr@=%jEA{kN)#l74}&;^ouU;GWTZu?0I!wd$@<)lPk(8daJ#
zKZk0H#KGw{jteM=FRh^xPgQGTp}BEMn3)Dos?L;?TS`}`Li1n1%rZL9$}f@A``e~%
z@ASUa`+nUATkmfDhq_;E`EX0R@x+3A4Y=l^kE{=BURbdHdhpb0_32;wRu0|l&U)K2
z-nONo<?2;$&+_1^H*nv#U`|(`1}m+j_uY{@BM;j5KH<3S_D|aPW<2~&`{J=&<Cb@P
zZ~2zGmiMkUBE!DPA=mcwEDvWqyYB@uo|AbC<7&t{w`81K7Q;*ZtIm$4(5iDsu6=Kw
zV{CPg8JG|_epk=({*|+to^P#o4x+cE?f0KmG2S!m@7E2`K}O;GOLxmqt?8G~9T{pg
z>ujnS;G_mJ;7{MdGFoc>7IaP^XAlI{E)*m=l$`>~r)Z(YA_!t43}7R=EKTEyM3h8e
zxM~FLh<c((H%=MA3~7tLL$VjUIH*6YpoSbkh!eC4B@!-x(Ep*DP?!=Ejy#HWLp-jU
z&r!94pn6XQDETgy(1E173U0Qr6pac35PUm8sjdAjP2kpJSIl^9@B>@>-8JU1!N^(j
zwanfFj~!la_oF&ro`Wa6H7HrIWM%3a^ENEmnbwY_(L1)~W8nD8WB0t1vAaKaVQGh%
zvoE%-Gw@jVuv}f<%yK)I+m~lPc=hh9neM~u4Afy-b9LTe;JizFK4ajqZqxyQ$L!4;
zIL^M*z9irAf5t!&n>8SaRvc;J&a+FkOX1}`OPB6!%`;eEIrABP7Un`w-rLL7=IWYm
zzjW)R+rlj&Z^U|_pFSVi-07-;jP1a^y&2nc>l`$#e~&eB?#E6Sca&WY=NWw78@<2x
z!{8UROoawLyD*$xF(F-HT7QPhi1MI=XrO@rBRJeS2t1glidK;}1oJ6RsjQbEKw*Ob
zg<Y~C#{^ftO|-(l4Q9Ysw<%3HX?Vi<jW9SwC%F6}3=woeXr%fZjdjC1S~e{Lsu2FF
z40qB1i=%SugjMuF;Gt^H>GzWJFirAhO*`hbd!Re53(<x_GASRjqXLOZQx!Gc^$<UH
zNkX$=qXS%P4A3Du^VDD)oGmB|sH8_O50V~(1W?kFuG6sOH2@U!7+NmZTr|(K4^~jF
z-WUDPC{QWC1|Hk80~u7KMo~l1p!y>5=^2QLK^Q~;jR*r`N(6&(YJFlx!KNaFc7ni3
zX@u%1^r2A{XCatI1zWfnKL9MKUO3=?eGInxW$H{NcVr>D(NI|ttTbZY8aJd&V1yb{
z)+8uBqJhRo93`g&C?s%UFulPl#Z{(?(0Ln}rWF;>N=}O}!C@-l0EGqjzA1^E-ecZg
za%(6>g{ac?ggt$el>uof#fv{xREJ6ndEc!2(Lhau$lcf9b;|y}^}T{hIq#rn4cO+L
zUwbFc|Cc*)l~ld2coVpO^TzXoGqLIJt9dsVG-v>CN}@gG(A89o2v+RlNV&eUk2B>i
z^`VZEPyZ7VRV|YWG9-FSdAyjq8zU5rOvWJ^hmI6pfi9GbVNhO=;K`Rl(^3HV88|+|
zp*TM-!2_fGJUBj-M1qfEw2aq+=R98bXjF<)B!T1%V%7M;{~=n{Rfrxz974qJ5;RQ*
z^=ym_Vo+bTX&g(8#8i8MVbOBITY_a*p{zv|$pQ{Hk?Zgve~Q_UFhi(nxuPLd%~vom
zC97r`KRuBBPRf`ypH3_GG|DqEvK<FbVun_Wrss1~Y+8X&E<kq!^&aK0>Lt=7n5r5B
z2JH_@{wiv=YCe%4;NUkf`(w<mVfH7Gsa|PTAt9k~2q8rwvgVX&EMv_ZIXm44LHkv;
z$7f=iV_YUTaL${M$;gDLm@8#k6v7=Q66*FEHZA_JLFR01|2v%Qr@(9>{!q_2Jy}Of
z#?g{>bY&b}%ey~z^nwnaZS2l8c4r&+Wg7QgKmDk&ZQ=AIN88d=#<6Q<@MFh58uK(%
z?^rjQFu-YYp^v3wM|#JR)%NGo*4CV(eM!l79msSY$aWpez|V2)Blcs*siy~mzS!84
z^#wA%!18OWzULNPYu=8v>iXNwx0-XF9XXGGc`Vy|B-48&+j}|#KhNp4`sUl0Z(V+3
zF?rpffj0PZ+OKJAwy7u6)RS!*$TSV)n!29UIcn?+mV6UaA6RM1)E!>1|F*ilIC<0m
zbaJnK!Th9&@pf;RGFQKS<I-Ru)i&%4=WTOmt$fDHFEuWocwpU|v$_g(-}3$k*4-QG
zzq0PubOJO=Mm8uYXai6M<@@j=zbbq<RdoHss6qlRSHbyENtV(80LT$cDYo==1O`d8
zR7v802~IH6H>a<Gv$+2M7EWCyFGKt_a28Jo__%T8I5??YM7lB)A@C8(BmtkWMKj@E
zg=tmWdHowFdV@6<RlK^oiioORxr(T6nI?&_B+L5M6+#opY>;V!!#3HwS$X_}-G7g>
zUxDm(X3e+d9qU`xtgk!c>t5dX!LxUt&GtN->3Q~}i)ml?s&90Gd(*Yn&~khB)@-)H
zpK0(fcYLt(?#^uYVKB=++LvzduQt2@ot$5z(~q5$NL6+gqk17ZjI^mI)G;ZY+JS;l
zk)G09%AWHkfEOsN42<q8wvq#F-V8cX@%@xWRC=r6nlemPpgQ=Pk8Og0N5wXlx~42i
zpt}h+2?$Vgt>{Pt2i%v>pz8wjHqkI|PuWTTSLiPgElrsr5C(rGJx)Py1Wi-ui`bMv
z<0<Mc^Nx658HNhRA@rs=Qm9o{I>8EGv%POBttDmrL3PS8h5Tq!DrxGVK{+a&RjL?j
zf=DnoLVgG{9H*)gs0WDG@7694N;^&Np?yVVHGGPMN|0)S+eZsV`1nzEV^l$eOR0Uu
zsEKiNETqI{qN)`eC#6_S6TGI7C<>qrwBeL^5y?+5`)kZl=u#Q0VciZ@)dqrE&~Vuc
zNJU{*-FEzZ|9;`z;Mlo~XN8l)7cZO|9XmB73_U+`?9|w)=iyrs7)PB;B`K}DvN`Il
zrg7&D;+cZ~1CYx91{p|YCsX6Q-FvHd!IA?x*mA37!CWfTH)%oXZ2g{0{T>KM*Vf%W
zaqGn5(Bg%gXO~XAd+yG;mF=1KefJ!h_Mvp!aHe*6!IrD5zy0#9mlw%W|GNWs29|f<
zIlNlew_pbkOV6&fwd>c8?lo^+*4v)(wlBT7Jh3uyFLb~9KKSg8FAS}D8*cBswR17K
zyl2(hcYWx$-nv44VCDF|<GF3!D@u0YWM<%Gc3?C!F#5#E)?8#4hTt=)w4*uath#aX
z`pKJPZ;s@uyf<FG{_5hv)vAuPwL_C_yI{|L4?)I72xc;7$mpqaMRS``XBl!@lEQ2T
zGxV%!YULu9-iAyykI^qk30l{iKGvY#1e*O68s!XR=;|_otINr9{-u}E8|BZNPqEyd
zM^&{qX0OlQc<uUYc@6>Kq-yKTTWAqtHPq#mx6!H{y<!epbTajgc^56Z8Q`v<qpVla
z>bJqAc7a{l_wxfkJMi=8e)b%E69)DB$~t}Ky-bJyvCYSIZa@rm!0W8O@yzvS@)oRF
z8CY2KdUSCt<8IC408oGIRX19$w>)t`O*_%^ur+^&YKBjGFwBVTSMwR77}YLGb=lXp
z0s7GpL2f`UL8h88*h0_-Cx3%=2i5~xG?5@fSGy@hi<jsh;RQ4wbYKE46O80)04<)`
z`UeI?=|{?1&=gH_EiSs}4~!^Wc=}0WU>v?~F2ocGhC1kn66(RPJ6sE)YMvu4f{J>!
zx~0;1>PbN(fLaICbWpd_j-c$vW$?+zAbKTeQ)*r%Elki=X|}?7m2ZYRo>jh5Z+h5r
zKwBcp0qw?&VTpQi@vUzndDZ$141>>RkB|?c6*NUgz6=?Bo5-?XSQ)lA!|ePG<9x^r
z{R`9f5P#2oVKA|V#|&g&*o~~=bLjOV`_Iga51G@S7(EY7XC9i4d}6D;`O>Ow>+9wx
f=0O8{ludiKKVfL;$w?Do+0Jx*=jRL-C`JAk@t5r1

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/awq_marlin.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/awq_marlin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d718abfff8792187b9aeda4ce93bf43373f4b23
GIT binary patch
literal 27763
zcmd6Qd30M>df&rJtR%PrBnXn=PH=%XO4LG0*1l7+CEH`fHU=UdC5Qk)KY*4*gSC=6
zr&KaImYS1@I+>}cChgFXT65ZIN7JT>Cv6j_X<9r}Il#OlcQhwHX?;%H16y=v(tq0D
zci(#eNIl8cOwyBQ`r^C${%!ZWSAXhs+Bkf1<FCdJT;aICAdmW)6yQ-o$8k5fC>Pbm
zxr8pH(-EwX>l22MAz=&|6Q+=fg&E@JkQs5tctyezva&E!+?KG1>`J^N<V3tV?o3pM
zs#sV>+?A*fRVQjfHOy~`*Cy&hbquz~>l5yfJK+g=nBNv}NHm5T8ElVx6HTF}gfHYv
zG>4iKEuj_`?ufT0{2_m$E!381549&cLLDsJ8ShMVg}NAA8ShT?gnAOap<d>%iU$&X
zp*{w?;{Az%&_H4^G?)m6f{AsZb&2(%^@$Ck4T+7RjfqX6O^Kn<P-1gvb7D(qOJX=Q
zoY)%L%JNpnw<WfRwllaUz9TUb8ewp4d}m@;Xjfu)XgBlM#h**;3GHEUeSB|XUuYkL
z-SPd21EB*tjyDJnjFTsRFmWh!h{ZL;4=0X<jxg8|Kbkl;rq^+a<DnBePS5dm{OBFb
z5`CeQdhQSxZG4A|dikC^1|{?q3vEKEk8dl6KF>m%5!%B0ilHxDHUwHfrHlccWZ4&q
z$0KLse83<%&%AQ#KzQHb1N)9089gK!_Do)uEGMVZvE*bVK8nQVFr_#R$a*RwL=t?O
z7vQmn$EH*1WFnlLN(J;%<-w$IF(O3wB`4GTrL<Igj!%cj<*@LW97wrhld*I-o;-IB
zg;1{P6dyg2Jb-NDv2#+b>VJMZGMSbGk;^qs$-;?<5RXlU6G=W`lq_mesYZoP@agl(
z=-x<*mwZYX|1uvtcRqc3EE4BWPftxHg)|?P8eg1zgDQy4@X^(oQLycJY?6-%tQeOJ
zmlf<O%UT{Oxl-uxMOIrll1>XL8n8VtKd*E`FV(O<#bzQjv`T-~Fuqg+vQ-QGR6H`q
zho_3;?UX!`sj2woaOC0}>NsF5&`zn5g3?JfbcPp_;i+V7GM$p#W9Rv?2{k5F?0=J1
zcq$x^T;>I-Rf$aUYci?{JnB3|CipO)m`Yy`p9{yLm!!t>h>J;KA~i+5nB*^(qEPA-
zFC?bZd^kmul9FnbTx#&ySR^IYuL)GrHe>GD5NP+;^CmCE#xJjFHzwSt8IcO7&PS$r
zT3|7ybK%rPY-);+BCL{Ddpyp^kDoZqN1|A*4Tpr}^c0&$wxEjJL8?6!8JpmvZyrB>
zq8LcUj!g>!Kba0=I@8z;34}SQD-j`_zC6X#8fm4Cl8TIDTTP~tLQ0<WR2cg#5{;xI
zNK#wAa^#glIi2#_PMyHY;Ds?6DadZ6;(7F+fI<ENFg?$ObWtv(kLp4O-gtpgi1G{^
zhfv4r5b{O!-_(aHq6Xd)HR690Z;hJqe+6&j?Tr*~nW=zl<sH18caG~>m@R4<ubkt?
zby52}j!<P3X~*?Z$2-PQ74M3+Ml0Vj-chOwRU^cP(rPYrD?w#HR2p(tm8Gv^=`9F#
zm4((TrLZ<3uDUGFjkuaM?c>Ic(b}>!9+tl$>Qrj1D~oH4)}wVpWzAB+3tJu!i@JF`
z`qL2gu#(Kt2K3s8(i_WLfEIeoYG{u7qfJQH5^Vz}w?~`tKO0xHvgI99sCACJqzm~^
zbAfiL3Ml0S!-FyknQ4-L{bTV+D&@x_^CN{{P7=_6YD619wZM_=3UWFd17@(Dqoo{9
z0Ru|563URO<B9NjtoCpbKT7UIGCGZoN;qaRnI>e8-IN}c?Bmn%IC%+kn*}~SEliGK
zH55OBiB>)OJ*>jt(B0tD#i*+l8SdA>ji~DYG*Fk(&FDEU!-e6>Uq%m~LhTS^fRFma
zzKjt*m7n1<I{3`RIMXFv3bgbbl~!y~#ta_~1^Y6b)_O;1jhdqL`=(CVl&)9(QM5`c
z?{9HYv`{Pm1&^Ay^sDy#x43T^RXYDm=!I5(?fPhip-07Cn{HA|NBRa8F8w03I6|vJ
zi(^s>y=zoC2OW2r3z$Yf^&@fy)UQZI{FBp(FfAtkPXCN2=r5Aj@`!+57)D0Pd_Iy2
z&rAg>B@+q&m9d1wj1>q=b`Xh)@OWe_ofKGNVJmV7+sL6ECTu5X2OP=5c$E`-PD!?x
zBJpYdfFL9V$vDAZ#)@VumZ4Rl2Z;j~$(Z8f<8m3)h_Z4^MOwpQwsXSa6b*x4{;vF=
zSJtHyQ|qQ;Q-kS<02DoVX?l3u)`?+$T|9Pn-PC1p8k6hZjK>q}us!&An7_o2O``|v
z7!ggaQ}z!d_UlSSJ2-V&*n@gz8rJONpgJBW5S#ilI6u9@t<-SV%BvNkrQyECn{R4f
zXcC(S=8X3(4S8?pobek~>QCE73T??Zb<45cBOi6|{XkEi4mI$hy((vK675Y3L*L$c
zd#7k$|DeW~uL&%6=K8jaecQ8v9R*G|(wpxcc;ES+GuOLa?A^ZHJCg0$Sup6TcRw;1
zYAXwz!C6_baZRna25$~78gso{Mf`cUQENW2wB{YIcTZkDxoCX9>b<HDjDKA9gQ~wW
z=&iO#=nyxiu(JencKpwf!><5<C_+o0!q<G*RJ7fSD4`UsY_}ppSQP{0ptabM$AlP-
z1&<i>x9mW%6{9mvYv!i6w6u24I0yVC+{wHp^tp4UZovN-2HiQ+IN;YtqB|vBAYc*>
zqU~#!J}uFJPB?_06pfo-I0BdU4Y)%g9M)Pva?Au}`2{#vxQCUP-uKtNw=Nslj>+BO
z&3jvJt-HA{+t>$h{~B*wzO5_QHY~OcXZ>3dzpXpp-Iwd$BX;k}cJ2M3tzb1e59kU8
zv(+XXMft*dIIAWVetA-9R&H>YbpidTWGgNI_qg|Tl3^^KTGb`ufF>bWJl-WWh6qQB
zkUhFo)x;`aRWB_MwwU&^dP{UhYvGi|YAl{}`qOCSC?q2jw)5C|$#^~zAD1j=$K%OJ
zdczjsd1_19j5II?PUWq`z+>SkWA0{p*Q}%9lTu!yB8k3S;XZNI->_Y`ee=Mr(VL^$
zs{X8{|MBi3<zvJA=_v#X%vsyQ8mcz|$!RPy6*(J=$I_Q)+O^uYI!y)z76-lh@mA0n
zutBHoL_7GL4*N$xI#Z`I4+?V-ypT#xYB#NpnkKUl;qh3Ur)7|u>C|f6+EiDld4xr<
zCS2Xws-CQ+hc!|%%Sp$|kp{JqHTEHZ8=#vP%8?Pm=*#G+6L*w+vxIoGQ|Zf65zW_5
zWhhHU2#M-n^PxuLIbGCr*R0apSwc|SDJzhYE2cB+(F<@$25>?q@HV<T3U$XMSVkoy
zk>(Ookt!6tbP$q5MU)?pOvlrVv_i0P(kzS%5at;vb*=J-lR}_EcmWL;!sIZTtU*sx
z#Aqq>Q^r+xR-`-`k0I4yS>!v&nfeVlm`ZnJ&fO!rdlt=0?j_5zd)u5nU*C|c?-uL3
z7v5ZQEdIUa`dxE2%`jhU&bMCltzUBA3*2k^kk9(oFZ<49EsgoM&RpAOv2AnSQIoA7
z%+>{$jE@ZZc3alc@|l@))#e?Zyu;1@n)8l!BzxqnaM=o6g@WtG%BO@d5nD{_G4W4c
zOe$M9Ysl!M+%%Z@ltYIpi|QtNIr2fp2A`gMv&M`;crjxXPDc%z)6ZQfGP|f<`BWwn
zOXexD#RY9j7a70{R<(@MZ^opy80~s$iKoGg3tqI{NNpGDpI&aXtXwdY=26Kki}%7w
zR6eu&%z2*ZBOmw2QhqEK5-(!VPWjVG|68;E=(G@<Jm(jtp|DBtLH~;>@*-k_7bf|5
zP%?nP%>2%NNYG=@?)cN^BWXBlnPZVj%Im)vOP}|bNYQ}*eDWfXs{EIe)Be;HKNcI0
zA$K|BwiC(y{H3XQY%G?JUmozMk|be`QT>RbrtpttP_z$B6dRAEpe^&qCdYZ`0mk@%
zNos(qq0|cCzQh!mMD$iNlZGIY7EWVOB(tm|lZ?ol44B#elN{&AWx*^wHhxaBK`AE4
ze#wqr5+0?YlWI}Ln~``d8ZJv=NTklCX!_+XD(_HV5*dV8lvm|F#;=m@0gAMlfwgG(
zX{mn`MW=4Uxxy7JoX4AUZxr1dmqwP|&&}B%I^6S}Sx3u9j+YktmMmiXRzUZTemEeG
zyi_o7R^Mk9&fyW8f(4_ly7Nb!eYX!TZhC*@y^%Y+?rr*mk?)WE+g;0@M++v-=~}UH
z&f0g6T|G8$xbN`gYuz_Su8;isuB@Z&$9DJp_Qm>-nt~4;HI$;DH&l177);<;9h|F9
zCJrW9%VnMt`0>~!!HX8J+S@clY;XS;wztzo)Sl6$iv&g8Q7PZ5cq8(%PmLFDVILLu
zoEnQA^Xuv2{v#n*OCf{MqG(sj8P(m@-%;ujZ0RaBM#TiDxpcJ}MnbWcIH|TSbs$}*
zrqvQrA<pX6v^p+L@+SK((4ejPP?K*>5WFfrxzPG}99mZ_9j$ItQ)G&{5L!O^?P?0O
zO@ce!rG|kN>a<iyYTDBz#u`V@fcm*e#}_7a5Kc{>O{ImI7mkzW)8EsT>LC;aEr-7(
z=AOMw8WmZg67(O0N|3hySqQC!pQb01(3K}hlgtz^GEPbb19g%u21J!gN3ib&8fT%8
z946NW2qF$&a+CB+x@|?tl7KP~<qK{~L8B&<@HnM)K*2tV$Z(R1Bne*_Cx^+#jA+Y(
zioAWL`eL)o71e@^6-9B$1F|wvvXNR<rqclf6FCH8l7(qFDcTIc84O_vZ^1KD8jpQU
z`NR0y@~W38-yg$)2y5mX?rZ!vL-*~y4**SnbMn4paH%u5@$g3*4}VhCns>SLuDYD7
zUv%}CfVQqLtR`3Gii2xdx9nM;b*=xTHn=#w6#ZWEJIVXC2OqfHIai11>d4of&)0cZ
zOor+jV1|aaoM%Av3@o0>4ek^NcP@K&<vb@v&&hmU<NOv-{DztWr$<sVR~J~UTdoae
z9l-}q&%EiIm+m`zSG-)Ef5EuG=eoCu-CLGxhqI31d{wQCIUI5q<#AfYTo(C(=NQhw
zN-VBh41)4Sb<yH_*P`(14hGw)o!_ADCh!y5DT<0Da1+`oij;WPlrC}%S{O=gO-gs!
z3_4#i0gg`~*zk+SjPV!s8PgT!!@eihdd&xg8Di6RHCQ`U#y}{A*w?!jm8}KyY8{o7
zp;i_$Cq$60#LFHOV(??79xMj$rU0{K0Ou;1;vnpTFo+<j0;F(kIvNr7QPLKcO6FzX
zrhs3hG!|8nRjOevp%h3p@whzqBvPJ3>eTPT0WCCh4V^hpkLc-Hth}dR_Uy=c_K2Q6
z%btC6j(lxvuC_z0?N~UtT-!fq$=A2#>bu1Hu7&t={U%~^SNpMDa#cNIRnPsZK)$x&
zq1`jT`6Ig@AgXcHW$jJ#GuhS+OQG!MLoB{_e$%ayn<JvV2i{Mry7C_Hjm-7T!eP-f
zc(3on(27A%OfD2OvUpb{aA-U2dqxOf2f&zI{I30kHY_wswdTWwuL&Wqx`3gzEXH02
zVisP67pg*r5pD88S3H(VBZ%}LQZ@J<XrD>l2JVVZJ5tnA1u03@a*nd-nYJSCQ&7}n
zNeU<+H2~)dmnY3w_eb{beBX{--$AkOU=a}kW%O6h?f-K}57-okB3}YslFE-{Rmmdo
zZvxK)BbSc?Z3#AZzb_*M&C$RX;YuvU1%;?1XYnhG)nFpZVl}qlIm4`>Yy*PW-YrSC
z*uwj{cTHpZ^W2#JH4nrOQ^s_`S**ASMD<aFN<yPX+OGdl|BXf?H)}=?<AoyoQOr=(
z=u`RcR*V@~4Ip~2V#a1ovlW?&3q=N{lq+h2WUH*cOS)N$;7=Fz@EHq369yoa`e$h6
z4z$urHI_8@kdm!4wkNGaI(;A0&zdg61!S15AQ<8b)NtQGQzc#SQ^M;4wNo-NB~QRE
ztEXS0pbAw*^tF<2(?($(`OHEJVg!&=EX^lU!r!N`rts-K2M?S%Fnapr3#Y?pPU7!{
zeTT#QNy{x6*#@x5)c9ACTy8_<w0v}}=$Ir6a3nh?lx*y@SYDN8Sqm*BDBm@zOTnme
zcnV`cG+p^*Spes-m(TLy=_#B#s@%X#$J%|Qk?5~bSW1FZzLOj^pLm&$_-_6CE$_Ab
zUi}|5f4@1~cxbNjLG8w+?H^k1*FHaI`Qe@;%hgAJ(6F@qT3@cFL#*jo*tb}{T+_d}
zXSpW$LBpImTYVI`t!wbxqqj%zcMh$XOzpNGcMgdz|25nE{(NKet%jQo3q6ZN%Z<b(
zTr<IW;ObvIAi6f*3yQA8g$mB;$vK)uNAvvH!iHr>*Ft33(VOoaf;eHV|BOR{U^9C9
z7q=`O7yF-E?%p$J{BujkUw>Z3)g06P^&>qJq=*y$L8WhBo$&{|ckOF512c^vh-p9p
zUnO`0ISiAvk(!p!LpUti!U}H(*byc<E3U*;gu~I~81%V8WRy(PII<s-f3`AmB^eL`
zJx($i7f8C24B%BIV>C9F7KnDUg9PCO#n{;yhD<J*{3y_ZWHT?kLeQ(^5F(d3M#3gS
z3XY_ooRrKb81u=PJ4We*U!nMKQoK_+9~t9u))#(HCmcp7Q-3}ubA+2HDLMNo;=9-&
zKYfS$p|J}>pravYZx-#%dAmmjJ~J6y<|~H_HlNA%u)d*S!Y^hQPz6C2uD-EgCCJA4
z`~^Ef4z8_h;q-0m;(pP;zTl*wO3v+_@0d@`_g;U!P(>jw&Q|$FH9;d4Cfj_+BMv`>
z8qQq(xn5`TJu(0)5QNHPXkf8!k$->Uy$La}{c}!d8Yre2D5j}d*hEn^#i*KMRPVx>
z#g5yrP;_rGx>t#=GT9dD7RDAgEu6pIQsCgt4juTMewCzv3hk^R9#h>zYjw7!N3`~S
zZh}uq0jRLC%T$-I_uly0^{?FsUk?`y<PUCOzbsR?Xzh7qLTF)B$4YaXY)kv^)!rMs
z*YKUu&pCLN;s{!AG*y1)aGLh&7RL%4{oXtM!O-_ZKVdK<|7;q^Fpb5pXh*Q0(XnzX
zf~cN1Mh#IT&Ztc|yEeftz<fbXUo3#*E|9#j=7ar!HEO}Bzm+gMtOu+(Gq*<VD8aoZ
zDaBJQmCSy?@l3VIt#hJvPAeC!ex|&YXp4qG8?AamxRKdG7_?)@EwENFg{m$a12sYh
zU79&3i)4Oz%dR=L587;mnfD0iQrj6szH;GXyPs5MK+VcI|0*36Y0z*YA7nWN#^#Qo
z%F$I43z0C!pb(V>b4SPLfaFhQ$aE~X!h|unob8g&F<XiRqFl%<o@P3+ZWy%zZSeIH
zVr`U{8p)T?g-uRP!}<l%Gg$?Z=}S6B=24P6Ii04cVhBrwQ{GYz$*!bfMhp%{{ZcYn
zTxEqoyb%c^kNVKz8{FSBl_?cUB9#Sv2@S}aFRD{{)>$ifS`8jeOL&4xm&7H{SI;qP
zo788Fv$is|kOhh%W5#yZpsIVIf+-4A=_0SDwdau2@`SoIb|YC`q=~?>PfKA`vIYR3
zW{$#+LUSZE%FbBtR;cF^vv#!0Mzzg4zH(0-e<yq5Eb)|IG85E(^Xl=#m{`;~ovnoY
z1pa&N7qw>WDnATmymlH}#`&db?3v24G*B&+>_yNrUAVZ8G7k8P_#4VH$Ef5~Oonjs
z8Rdmf|1UlmNH&)3yVcuP_~+<{utW~lKaNpl4up`6@Gcxk=ti<>ldSSKj>Zy_O(~7R
ziZYB~rvfX6A>XC!M&TY6^?h>w4LKAlRlFfLQ!>9nNAW4ioMM)RfhurJ(+S3F%Xp9)
zCG?U*f*<3NBonh>6!ua{CNNxJ*!u~t5%_ZuL1nB2Rt}Kdy?;%yHqsd|JAhQ6s!U_X
z2H<@voQ=YF2>KVSI2gqWkyQqw0+qzNAS)jJ9eMu)IloWNAHYeGfJNB9?320m$}xc_
zK3(p5`H|@=JiI!Ui?H!kIM7Sfan6PZojuuJXx4XUEp7RRzFb34YzQvCz1*;S&IxA5
z;mX;4qTQFX_dtWNxbY+VAQ<jkW1raAmuuWCHg3Lp^kHMi+|f@go%!zF`L3OLPaFQA
zy0h9=D!JP32i5KyP1l?9uHL*WKuWn?;^3~_;878OuA>j!O*ba4PpniJYsjX=(~y_{
zye&Czzv%7Hd51;saNgUqQg5%d%~ce<oIAMW73+7***>Z6EEewlc?++x&6%P5tLa-+
zWZvDrx@l-gwUyEq+_1~ZS^T2KztFgN=)PqrZ*eOAhQ%%SEgRSR9|rc!neJPlVc18%
zJ^7}tIn$q88W=HLMVW~;XOwv!#D*xdmLf&VtU(JUM|Dhe);xpI(%a2It^gV+Y6hcv
zXd~%-LPPzabvnV2J836Lz+CfX3^OPtY9P{hO(%T(#8k)^)sdKv96%j#(H>|tNvEk%
zE=#E^GxO6PF%9Ab9cZoE$P0BURQg4I8tf?Ap*<cNN*G33i;4_QqdXIcgThwKn!mI?
z-csvS=x?z-6+dHpbXu&l=9(pq?3xeS;L?bIM19rupD~jXNqdbv+l>9Peq2v1Gs^O>
zX&k&-{m4}OE!3?cerVPWv+O7JTkT1@L+u9)PRyC2u?bkp@)#)RR6YEf7)z$8p=So6
z)=@^#W4Ndy>%$-=Ttgj_ISPH~7#|cEH7gRbK!+Sa^cyCiWOgr;WTLw=A>2YywMD)^
z8l{si;_ZbGDa}hPCnNAO9sWZKW#p15rOaut`kKhQNDl2tp&gE7EnY{E47jiYm2v4F
z1+3<91}7Y3>6k3SOlP_%GvgSV32LKglYG&khW&(LuAhb#D-<%g#!vwZSGxB>hBuLv
z(23*$M~O3l6<j=aZju?ysxT8=+NL6MSD(yPQUA$I7FO8`rvqIdJTkY#V435QDrLKh
zVmhbdSE8+ocV>zyw91$Y#k#P0N=TwJDV41VN5+W*BK{AvF|$cq*n4WG*NNxQW0^n#
z>|6K#;Cq9)z7er+B-giB?A!an2C?tJhsNCDSH#1w<PP&9{`z>CMAkRa2}tY0P_AQ0
z?11~6h`;*h5NZc!(kI&c7DJ+a_}+$P`$&GnmfVI@;)YY%)31peUdw(xB5sIe$EU>g
zQ`yw4xPCV47|iz``S3vQ_=JeR-if&b_Z?lNV0rEOYq|P>SRa@>NIJ{@oBerTTh6y#
z^li`kc79No+w+3B=Y`y!*G2sKUVqTu^X>lI{rQf-iq+KQojV5YA+j~yY+~64MBl)d
zX7hUIj%sGhqws;-1G)B1V*93C`!=zCn_Lm)fHG`McV3q}n-tF`b7#}y+4LODAhOM`
z&-1yKonp({#<skUxNO7gq9dG-jOQW=F_Oqd1TiAa9le&y`d*uVG1ojIHjjK@%suzK
z_}ufk=Ux->*ZdmdvYyvO$Lsm$4*ap>2M#$}&NZUu%KApKo)OWp^8s|L{K6|s_WO<z
z8UEVh%zel9ayW0PWXz7FyCf`QL60d!4<N_UMrBOT0#?hDm>zbhiG{TG!%2iri}{%)
zIaP~sq1x7bIG50CF&DV8r}N^7QZr6wt}2K<8Q0CA#97Gfnx`l@eR*;Ts(dzUEtzv@
zY0WZLkb1K8!`%tZeia#wQs-bSqKv?-4M(@t8QX>WQmhJPih2;pnl`N-0R3ZT=)(c6
zVO026fN(5A=n+RC4A(O(%n<O~2xS75@F#$z3W1jq{-2T0LYVg)pGdIGk`dT1j3Vfq
zPc}OEZv@c_SzGL0%5DXkl&@_`Hl^HX_!5x%beb81mf<v6P%^QTzcTZ~Rq_#wq^_l?
zM-Yp8x!Q&sgVzV=D)NwBeAj(*<`UqBRTJ4J=G>b^_a-t-bl-US`pfgD=g(eyb>Zc2
zzjphzrHx|OmU~TN*ZyqhA+i3@oRt#2a{ZNgVPV6!hi?xrZoIu?xqclan9AyR<5%PJ
z+ZQe_neUnNzMiH1xuFB%(1G00DRJo3ia}TPf^N<LyL}w&<{ee<9=>|`+L>>R=BsMn
zee3F5^V^oIy0VroS)azv9bCe<Xx#o0Ik(7JAcvIm@>v1VP?<8mN6>GR^PA)l=@$No
zoR8s1<}>Urn(&tta*CXz<QyS~)R)XL)2Mv{-#grAdZWowaOg~dg)r>KO@VuLkLagh
zKCCl!Kdh>I_tMo%@4kKY?ShE{AX;{G7b+NNQS|!-EA!guFu=}02j^}qI2l;Ud3+=(
z7OI%H2I~GtwG4b!e@tiEwY2$rTfejQd%M50yTFnEgY+ZzTR5xdx&ohBTh}xKeiCo1
z-yOL+Qm7!Gg+n80HqMBZuydy%8)vI}*LT&oVuw#20P6b~{x5z(1$y+4ftOa_v*Qh<
zAs;ugdvFHagEQd<-B;I;mu}jTrrfM0o{Za~R_M0v&s450YKO+2?&3L~Eg$cU+DXTa
z+@w*jv~o}TFWUZ0rIWV3r8ufZfN9&c!d*Bmpqqm=_`jA;4w&}6t_alwazCL=Ijx7U
zR&q7)HMpHui<{NjZIIJ9p(Y<vHsiPDsVQ5Z8tZ>*tW7%>cfmE=rX4EZ!en#R7j472
zLp{4c=mzHQ5N0vBjPsTZF#1|$v_J%y5n)nTt+}oTBX_#42a7$043JV1X9h)b43bn%
z(3L6FB2%z_2H6noB~>@<qLfm9NtZ54_*(h})QBZ0e{|Wdbe)e`_X$IYl5Y>Fwr&38
zWc;#f&6n~IfwhNy-^JjWfK_-7sb$2-C>9AI!hUjSTMM_zIS7Xt+A3DPP(d<E#WH+K
zDGtL)QP)9vuE;2I4}3Gs`c7>{@jQf#N>ihV|0zu4Z0hZ<`P%!IW_CVuAGYdbjUubv
zdPRHh;vT5oa8oPWyl=T?f7Y@8fww#79T2^^2u2scTIP(uRwbjSG|H9iq?v@xG7N!J
zlKp%v8s#VDd!DV(ZsO`SAB~aXkO?}g4qcd{a!g?tP?XG;v7?i(WA4G0nYHcO$_!Dy
z>KeecVs*|TX<Aura7xDlnzN6~4w!W#(^7F-2OnB&6Vt(zR+Sc$RMa=Hix|q921}^Z
zVwR#LB`ayrc8}V2uw~}5@UPw{SpH-8RI25ae*Z>$Lz)x~)-Otuy;g5<Y*7k-VhhO#
zb<M|gfW)e5_vuMF%8tIibQPfVDANj->xx#*o&5>DU3IKdHh1>&-af;61XKOQHsC--
zbHr^KM`>is+Ti#Z+hG0wxF?)X=##ztD5|Va&Y!VQG_Km~$F*j;!TU4sa5{X`+7piQ
zL$k8pRF?M!c{Q}LTAI(<s&uQ`>P%I%cxVSrd$Bj5UzM;<$6YKKmExpmGBuUNn<vad
z^;6oP!uR0N<t?YczcC$y?1S^CNEFxlH*6~Edu$gsmcfWn6+Z}9KpRUhtB$OcTvn+O
z<qT9yX4(8pAS@}F4!v;l#Z!_AcS)vsS((Nph#ydM7zNx*&>xcX@5v!tD67mK5kz_`
zrhXItGoXO0OvwA66!pKz`QPLa$07Vja#+R{KvHGth%JmZOU`otM&S!e{a57tgq)v}
zLlvfINXw)^2Fi4q1RPlqEYjuG=VKC4=OjiOf*`J5H{~pCqNVL&Th{~sNY1}k^zY62
z4~zc8uw!yo;$jIq<?{F+K$5_9le`NDUHGfc)@>49o0ihK;ltwa;oR^U5r3{T>T#D<
zzL3)7U#YTqY;$(1N<B?#h7QFt^1#wC-<0j%df&3`llqqO;@6>u`E;&zz1X@w*E%BN
z&o!b|u-i6A7Er~4eNf0)wo}30Y}fF8%hrdDopgPBo7lT8*SlZDU*rC{%6!A{y`kKW
z<Km9vxg9Ty_-lB1&I!wUcWZewTJo-SOKs>RospII=S!>oq^?;hXx_f?+S0KPGWQ*4
z^4?Zh@YmbstPsSCO>SC@p`Fy^#%w1J)rPg2@hpS=42@$G+5A-po3*@bupevr!)kY~
zx?QYp&s7J+>cE`&fp^o=!Fzj_y}Ra2D*HBq<+<8Q2LUoiPHYvfQ!D0$E%Gk;69me8
zjP1%r@><AY`;&I1<fhH8p{%aQ#(z9mU<#W0GSxWU3sKbLrTxzMWTs@NeJXU2!*(Ov
z%ERPk`?8y$(&qdKUdciYDk{j?alTZ6#!yf|F?J<3R$vH%_On!@D6JXZQuN=|YFG)~
z6@yAx&s9pLAU{<fPG!wZNsdwisKkj!EFlgVWso{#rjOL#MU?SWZTB#chjM3HRd}vC
z-9>R4Gs<)<s+|>ezueAB^0Mo=@(Wm)k8(q>nVwZmdvd}n)GiX8*o_3`E}THBHqaC3
z&X|(_9K8&KTklih3CWK8igX<@PA|l`P`PaFfSXE)pO9?i%0ZH=BylJqHRs~Vvk_Rx
zmx&@aStcR-eaWLd9Y!_NDbM)y<QOyi!sAFuy6nk9q<Yq}D5G2~ki8KidFbh=q(C;x
zcwLEQWa~%r$wvN4f8?ctyHYr!fhiddU6AxmcEM4y<DxmPT!!(^)>+A=w2V$U!f(d#
zT9pTvFJrJFp-Tr-=P#!iObxGBBd{rODKvs6;8yBbIS)a6Jd>jT5PK0aQ#B-AkQMnW
znUmqE7ngkVH&t;Ir{Z^%6bQHBuCQ*lK24>tPmR-(uxH&Fw-8GgrQ(b`O*lZ#he@YT
z*pR80Z|Yvs;pw(ADGR2XT*-hb<9?b!zbdcoFPiwPA+w&zzOowp&<(h?WS6LUVn5w`
z7Vu0UQfNqGNYM*5x@QtMi)THVdSN%XtU9?D<t{?q<$f7vb^;Bhdy3k5qZOp8e{u;K
ztID0vHfE|;&0bLn4m|}SK=x^Ie6X1?Kv7TX`U;p?*<oDe%v6G-)lg>Lwcc^aCB2Fn
zpY_f*&H6G1t&?YVg`#=31>=&$fr4MoRqjSB$lhbNwREa`p|d<*hBHl>mbV+;ZoF$#
zEe~FWd_U`-ZJTYM?U?P%bX@3pJeRr(<v9{grUPo43w<h7`pq<FTE}5Ka$%qpra}k}
zs&MJ|u3bHQ#_jTES<0X7EbGboQd$+Fp4=@;Q?G(ds=X-7w^2=9`o;XTWjZlG{=3dQ
z=sSJ0T^Wz?uq@w@9A55by0C7D{;l~Cx^+zuyit-bwm%+@bwIR!&39qfngDol{8W``
zzw5fAXcK0;%i8zc<LNWq#XZ?mmQt%HJ!sorjS_Shut(Q^tS6)kTl0POo@CnA^rW|}
zeTUZ+3vZ_P!ZD3dtcz&1x=u3QjPq`d>YEK@0$4fi7fw8$PhGpS9c8tSKA!HG=eOf;
zXohR=C>p9~nPK38@0RVtQyTqI_R-rv^In`SpC_#md)9SCBlh#Jq+aZbx;u8c$Dk(u
zXf>l8eP#3ebF8XN-`#o@H_Gd(tlYmlqtJf0v~J4h>F4PA+Wi!8kIwWRICXsQnp^So
z(BRk0na{8LFZ1aj-du~tr)SzvlGgon?D&iR64ymn>x<Xwg9leV;6%I*ol`z~70xkE
zN1PM)8fe!no&~%hPxC4_%9ZgFIxV{>qyR7Ro4Ol19rulHBOasrXNHS-kcwU38-=EY
zY09Jg7%p?BBnR=T>`jPxoZhq52iHrw^eR5wI&zMm1g|LUn&~R<d62Q4!I5|pEMsa{
zu$b(3i0LN$|366GU*NdmL;BBPK&CsW&qn#BH@-Lfo!JlGfQsOw;qZsg|JT?5<n`?9
zVev$Gc{r>j`)hWx@JoFII@W4tb2W2h54{BIm)Tsu%;w^l!_U~<$KNl&OpTN9pxzaM
zB%@qA2?iXJQ#~O_<4_<a;C&j7*fUO`n;SwUIb<~~RFhLjPCYqpa`1vPE*2^VQ0(PB
zdY6|;2C-<0iEvUC9zcMVl)_@iqLP!JjF!BZjt?<F>;M`t-fosfKRk-oO{LqSsWfrn
zDPc^7CvY|`8D%L1!4!)`>`J(#9~})?$&8yAezPJhS}rQOFZnd5;$m1<c`-?~pK6>y
z6C`&!Nkub@cDcFGuuV<NrVa*SJvGP9I;WIdNkU~wE`j(;X@m{rY$S)!oK*98vBD;b
zU0uB}gfQ4aXcQp~Q*w<wk{R+7dMf8N%6T_a;w^9_V<M882n3|s(Pa8aVk*uj@Dwc{
zWsfEbggPZB4A$_TvT}n|xI{DYPbtEHS1#l`hi0byO9^dMY&#WO!B2&upPay3p|s#v
z33&#*ASORBQHi$~A)6IXqA&~)7}d4H?#{~AA?Dbnak9ws%5P94&>tRiim9N~{3Xa}
z!Uxo_m&o~3a*8WP@;o7v<e~`7Vg!p#UJZ2=a&aiKVT&xJk`2n6vLb~kFPNf&DLH6j
z@Jui8SeUXWrsKj2Rm+qbq-VtI#3)N1d#FdE(|F_<7Y!sM6CMp?Q`3@GZ3(8B3G|n#
zK}i6Y_grbavE5hNb9h3X6KcuP*nL6+Md0;xPVkb`M2?S~W;oF1LT<<S?I4exPC~;n
zzLTuVw#0_4U>g#Eqik`f*jAKuxW7t>QC`EcQif@5gH)o63?P|CfX!AkRTQP^aFOkv
zH6b)KPGwr;GNn4jy9y7%+A*yT@P=~F#&XXlsdhYuSIWa{@+wn8%RkkR5iTipz7&$R
zK7WZ!Gc}Ln_+KW3{x2bAT;V<o;=!T^HC@^67nW;IXC0>>RyEGQ^ifqu)^a4<bz~WC
zRY$%Wk8NhFd!X-Y=wEIa%r)!~8+Ob&e`s%bfaHUB>+V+t^Q~Qr^*7)C9PK=$|L!JW
zevpa#u|#(AEv(6;ZXeMM`hjXZsXL&@S|kbrAJV}cI;6jDf7sHwXu6sFs3o;DnA><v
z+<5H6h`8}2{Mj>++?h%7%w$$biDyzs>TR7nM(-`v<QtlAId3`_O}XCPBK~mg<H!Sd
z<NW4ZJ8$k>+<>=6mrS|!heZ5&4`q-1!m|6-xkEp+_n_OjO<UcM#}R4=@Op%EV8wzf
z+PTghV&{&$w+S~k^38+!8c)8VgKmTXMtEaazI~VhxI(gCY+S$6=;+!A{ra5a+W7@t
z!N+y1&$VwB@n>nBvt2v(Lwhv}yVY~EXQAz8AM7kExoS_&wLx@k$TzmZUMlYo<XgI+
zf3B|l%xQL3=3Tf6;#dEgaZ%Xi&sBAZRUNRDTCD!4s_y~ph~B#X7Fm@xW$Om>O}<-O
zZ*Em;!DSD69>!Q*14GN^p2d367o0l*Gfk=$SIL8Nt@PGR<!5#%@yqL5adH0cT<aFG
zbqkGvrzh{}gy9&vzhXE0@y?v@vpQNaUVqNJS@dqsyZiDUU(VAjdV2GXExE>k*ciw+
z`7tNChF-CuH{aBnYZ|~D<eG-XreS#Vo~C@y@Jg+%sS<<X<(k@Z-a*kjxHz%w-9C5h
zlVZ`{E)<k&>KB{(^UdwI!Z*YD)=n6w-a2{nWWKdSJw4bVw(iKcuA`FscTll4C>FC2
z$hGeh+jr&NZ8>+h=<Z&aS=xNBec8Pe77F>+Aq-PTW!BMJcuCK>u-w}VNA#Q@rxBaP
z)=kT;o3jqzm-n(`)0cO&-p)GeTia2rU6=boOUJE=n-esXcrc}B5!1Q(vFU8Bxn@`9
zk3BD>Jup4PPaT`4ZVb;C9tW0%k82Gq?iE{t*X$3v2Xfte#qPa%Z&%LSCwlu9w=YfK
zJG<=NllKqgJGSN<JFzl*YO=15!WMa;RsvjWSFUB7*s=||wC3nbnu2Mnx3f;Qa6N-h
zuOHJSS8kIlXC@+ns)M7l@#g5LRFO)KrxTG&=YZ|-6?Tsv6k37Tkz_RBS!+s2+_~T+
zXAe1y8ZQ#`9yz~F&NXuWh#XRz3zg*9QK0bO3Hlv!h|d@P2^`799?O8bc^aIFY-#wr
z6nO_u3Yj?NeF0{$M9!ZfFx3eRjQ0f!dYh^Bp}VVK!Y@quDt%v65Y+GsI@9h|_J$OI
z1TZD6U?5Ji@WucGZCu}A!OlR3Vqo~l$-FcALpsxbUAb8y3n05f1{7Y<8`j*;hyS6~
zH=h=*9gj@#6dJhp9z3X<@9EFCcjo(o`At}7@b=}0cjN~*=DmI_yZrhg@^0StS^sH+
zsbf{sDF97Z%@mmzPh2(A3qA!a^I~pm3w8#=T+&-`GO!ZQGZ(5D=z=}veCPF}g=*%l
z;hI_&j5qrVwai<`HTw(o40Lm_gg<`$_`;A_*HiGYF!Z2rasTbsLL>8f@v2{;iGe=O
z-&JU4U<<nWZQpI*l2L3MDzvgNKc3Slv@x)q3_3d)*hwwyVqiDd<i9m=6R$7;e-(OI
zSnsNW0xYZ#_1wzb%q&L5){O-=M1=vxE_2>A&)<sQj4vK||M+{yvn^Z2hHavC+fN25
zr)&^K%O-GIsv1k;-*I3E1*u@<>=;{xk{OTmf_oQ0&N=x#4KqQsu%+s<e~=-_o&gp}
z!!G;=MMA>CyTHN8Np{*Mb<(>-LHS7_^%d}-{LV^{310LMmVh@zDuL8^@+n&#%LUnt
z{?QbAdyW3p6oHgLGHY&U@$w^(0_lgP{;yI`P`>;xZ&ccV(&n#}O=)QHA6OCS;;Gd4
zmGZK_GOk~!ruLIwU#O-0ZBNM$$qD~@iTp4gou9}r-gzk7(|XEIzm$JOC5V$s_6(l1
z=_wVh%5fI|IE?broj|H`_Wq+Z_*JvxxGJ6!NcAsmf2KS^<)l$Az(+MVlSAhL@-u&a
zg4)PwC#Qp)PI9`)=_ZGi^6dJuwC&j{myZnPx=CyQ)bV-~Qr%hhuaM9`eu97C<t)!G
zD6!`YrDm;~+1m^3hBUF;>~ghK$r7sn@JUL3j?KjaNp4pD1r+)1n-&(#tX}91R6Oq$
zW{p)>^EzsCk5<jfJ}aMN_9l<y*GkPcX(}iW#0DzVN75(N7%aZgicKq@MyBYRy7F+V
zWG#jY`-r4{i#i%7hY`jML4<DBn9EC+5mbtQK4X`VK{otxDH31tqP|Y|g@w~~{fJv9
za_jzrb9~J0`<QF_3$FiTuH#4Cez-r;8+3X~bXxZly-5dVAI?u4D)fbe)9po!lIS?V
zO2l)j^94a)v~aqYbsux1KjL2gn92@(%pLu)!S%86*vH0QKjH?n+~AL`b=SVOY;Cz>
tUNOI|N10i7?+VADmHp=Z23>d7H?YDHurg{sX4Z9NYrDSS2w-^j{{aJ!>Ouej

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/awq_triton.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/awq_triton.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a4ef815eb964d4e0684e6018eaf4b1f67bf05a20
GIT binary patch
literal 13303
zcmcgydu$uYdEe#xEs+vMy=;koNTRKW<(I5Gon_gw9=2>*=eOf4OKT}v67^bAwxwGI
zbaH`7Us_4mq+VZ(hBi_heKv6PA;2-008#EQH!V<(>Gp`l0TtQ;f&Wut2Waz8`^_wu
zTGEv5yF3=saK4#uzWL^xZ|0l%?f$dbY@p!rsoo!98Yt?&Fd;of>C7{Wf}(Cw48_ns
z>H_{%_~>!P1;x1Xf|90&DMophzM%3dM~N({x%kVdyoym%b{VD^b^h`p6{C4ibwAzU
zf_5FL+Wf5<-8$v^b;=F-%ZGG~QKp4XPw6S9oH2Q+QCps|nAa({tW#d#H86$nZ_Qsn
zWMXXZsV^9Duh4G=Q<R_YYwJ_IjvPDaQUd=D_%D5lUN)u-^fJxTuF9v_498sxK@so?
zngBZzn4EB_p8g*^PphHo=>ePsArVXm`}z+Zb)W3LaM*n=i#k832L|cUKt>7w&r(|K
zZvk4W7zO{!eHi+I;(nTAUjGVSrHt3W893dXnv%;`<w^(tq&eOFbiZ>@J#Xanoc6Wa
zX|vjyI5lU4HA8(*!B9hrGLVI(a3)-aOVeez4>M=vG-J@~yoG~yBv-&$vRiWnIW55o
z^M&7VR90zJjOz8qCh}#C(8j1ZH5rpNTT@bI%h48(vxu{%$63tTIJGE~jMmN-XUpL1
zIqmUiOJwtny(Z`3D9()Mj4Nc+_pwL8Gw+bK(TQd9lyh(nX;gm}-n>4?Xe1pN;%nJs
zmyIBQ>x}1R+YsAg)F>aVm}gX(6;#TViapMk$$H7NZ*yhYI&nI2RWPa{g`|6yj65-c
zE5ohCS(mqhIVhWh9f8r!;aPS_KFulTU`@#M%0GIg)IV9T<&tN=svVcH8fjMn>$N<`
zet5lBWRIKhR&wQ>M$~Q$ui6b9v?jTY+=gr!+{T>tc!X6l-SYXdf~&;+a8)utu9mgQ
z=f~AtwPc6+KL>9<AF0kezo1#x{8s-#^Xru6_Yc^)Hc5LA=ggihvU6?9nK77&`OTa&
zYsR;585v~Ww{lyuC2?DGq~Lk4k<DSgd8fI}WZr9J^Ij`!lh5Y0d2L<`YpQw<)*x4l
z#{_H2F<S8APQa-~3tueFch<@581ntJ_{FxIiYp>xaBwBk9!yiSluLh{#bNaxEvP)#
zM*L5~9@JCp$iJ3^JjL}-@fv@MRdpFzyoU>hDRy$0^^Chm7(wG<Jrl!TLFJqDFoI!Z
zBH(3xUe6V;pk=-O%bqE(V7kOY-Jr)Ga0e#glrkx(0<%zV@cO*t-U%q371aK~B<pq6
z3C8KG-jU(U0rymZ6%77CkI(BTdHtN1ofNZ%VRmw6%IzPS10m4Mj8A0OP0WnD2Pb`g
zf#lf9t9}+AYgoMV3F@g4#(hovnHBVtLqmRV!0(o2uL;_8sh}PA_{VT%Is@%UiBOpC
zZ>@Q5$u+@}&6A-enNqz-UlUAeez6DLh-d-7P|A9*cv-*K?YTPbo@5y>>kfD){FAJp
z@n0Sp3it&JHi~;qmuwm&%j?sWq=i@~>0lt7q6TVWYN3EwUnV`L;F@60;*dzGgLJLb
zgHdD_yU>U;>#u{EseaAp_vf1e<5NvjBU23l4?FA)G+di$Y27#0;%)McTxyz{4P2g_
zXu9I_jW>-?GG3qCd(AsI1Af)y^UQ)Bo2F+x6M>OAPhbT2uua9oa^uvjV8<lmO>=nN
zV_tT`>thdtdN^GByI~OospsXCxnSW~_!vL^#N-Sf{>o&LQL7rtTEd%9;g%n>AI;vG
zjag%T$=VK7*b(ea724OUv6S#-cbg+jqy?32N0#l;k+|w}Ph5){4<O5dVE2l}!Pg<n
zreJp}lUp$rebBKOSnNioO8#mj@bN(8DynKirl#OwP@{AM&mqV52bVq>xi=E0<88^t
z9^~jrsESjLN>UZ|AV<?rHht!L=!$p5xknz<-k;og0y$0q(~3?X>Is_?j@pmu=<cW%
zId&l3j>N7*%bmY+E_b6{eMr~0s-)CKt2(NrCaOdB9l_%%`_`x~)_l)|?7M*~a^7`D
zPDN@_(YEMc#5=!m#=B8NCo1X;_C427g|>yO;j4@9M$RHfebgH}nJj1x_Iy=fU6>Eg
z^XDShk_9_nO+PnK2Gc@WxNNa`(er*4-;DH?Jae~$A4a;G2ewbj?v=%wW1jm}pIhUd
zaR+jBAYI3QXw27#L!R%BuBs{ZhE)?~sfp6a><V^$1(WLzyZJMb&X1ju?%VDt7x$s2
zBab=~jmMMbev#us_yVtqR6?BxHMJ+I4<yYU!7e=cWqcPZ+!Pr^1+HKZ6qHo(7m?i+
zy@2d3Ki~8V*H2x`9m~@{YeM#3Y_4)r`{3Xwz4v-!o_J-lz6;sAu<0uJiH`?js_0p?
zaStlm6Sph}el@Us747RsMg76Pl_F=PCuTrf-atif1pC0$ksef34>{|G4?U4$7{0Y8
zS{Y+L?}!Z}*M4N(A3Op^hv9XHyBB*SCRAJ>9gS~Jn)a_b@z#hvX{voax<A~{ACC0J
z>X)r(=fTA0LrGI7@jOe>;!xNfQ6kf3LW8^cP|3FFC@R_a^PRtF{b}p+z$5x+?Wp8P
zus;O`BDDjkr12-V&&nQ_#hc^4M+0d8@nmy9D(MHF;!1vcsV~z0X>*K;wV=&!qT)B>
zlaH9kr%pc_M*Gj8;xoZxsp8F%%du^!rVSOhNu>3T4;AkO%2sukj_i(Tk*zNJR=oK0
zX>f(@9mv)ZJPKB^6fT?%pIy8VX+ZX-SVep=X+9|T1z)Uhxf$*5Ol&=zG<Qiey$2Om
zN4ikKwqQ@Hz_IXd_+9>uAGP0Z|FU8as@Rh(*c<Et*=p^Lp6flK3w$Fo*G21MegCHF
zcn14P_Er2?)>Zs?7Ijq6o;=ald&+%u(2N_V9~`F14ShGnwy$+VH_J{hIK1aPj52es
zu*f*`ob%!IWyqXw3pg`ZfbRxy|HU~tOU+w3#b};0)o7lx^1MyfSH63So-+(7INJkN
zrpF>#i#(?=hK3VcdVGuqpSZG5f3Ix4cK;*TKn5`Yd*wT~G1`pXis9x=dYre*ddYLD
z%e_$p=3s!kA81YV)yi&Ua!Hn)DFc$T<F;~su8`AXDKZW6T8Yz3R>Eh*`4X-qeQ$CA
zG9c6Dm2%R&S<>Jx%W1?BjbYy?`y<FK$2UEh%nB^?wMLrpRx;8`t}=~$Y~U=M@wFrv
zvqra(({d%*cML4$h5IG8Yn7z4Set`Dm1g@U(XSe?lPZ#Pax~l=u#`;!2?+*NOg1C=
zR;Ly`!i4pabe4WQsYS&*$3WU<4n{!cWeexX9*1~$l3`-_uC!IwW4?Qa6K+_#2YTs_
zF<<k-4J-$-AlQQZHkD86CayM1YMo4r5->{6!_{$h(n#n3WW17X;dY2;JncVtjsVdF
zPnYSKch$izo8Ftqyt*>p;mV!|BAs9$vblg>=C^S!@IKNPnZfPc_Ux7~pd@$(>p3O2
zjr7<c(=eaa8@T!`t2fH{^I5%-Ym`Pb|L5S%x0^QR?17CCq4L?YGS6yj%CYATZbyzi
z35q0}1#Hh|xLY?7d+wCkC!alca?M%x+$H1BH<n#FW7!3MZ6}DFfvlQ3t}%;lg!)E;
zF6_cSGY_j^6a(Bj&+A9zOf-|Pq4FGYKyo$Ea}h*l<Nfq51eo$hX?@JWnPq+>AT{Z|
zh|o?zYSOgi_gH6Aw`o!F{SzvREBYg8zxx};!9CwFs_f+yup5x*FCy{SJHQY3WP1}C
zFRs~}#}`|2xy6W_%PU4N;tl&`-c*@qj#{|g+`b1UX=f(rk6A>2SiC>6_(<WR1vP_#
z8P<x6@Y^*OqdqM5Pk6ng!Z&w8JsG&{Wmz1Dpn-mJCg3KGTr>+Yg>n@Th=|2&Ku`@b
zBUji8$g)@~whbqCoRs1O`=_8L@DYpm6xM+g>|=tGnGCQSAm?fo)E<KWs4s~>gZPK7
z#;jGCl|ClW#|8Q*>%>LfIO)MjFHVj?A}9g)5n-P>L60FK3<OPxCFA1Hgkbdy4$h3v
z_&k6Yh$9k=vLbdj7PkkBGe~fYXI#*U;0EL}rI#k8QpjaW=Q5>`%ar;vrI5=YQe$gb
z&sz2pKy7&FenCSl;TPyJ37yJhJOb^J3NH!tCBY~u>z|W}os(3A!Zg4&ClCaP0Bn9T
zQ)^uVo+geH=0DBu7eqKG&3_0Rh8`60Gxy-Ql$j7TWWGS@K{t`n3Y@Qr_q@o)cH({t
zFjh0{9Uqran(I*NgMU8<+X$dE)s)e^&=79m2c8(Jf`=rO#+fu#1`j{iQP!ec+9fSd
z^KHq(x?t~$sbH}cfRy0j6y#jt{@~%2(hWZ{+%|k!+JH(M5-R)iLaNAqt8S@|?~B$a
zDq0flC!W{_;QIJS03Zx62Ozjd)2RIfY8ptKJe6oXoiv}xfguvrZAtT6<X&oX@Ri8A
z^?~9O{XKom8M~OQJBX|YgGW*YWqe2Y+rgd{K&a}YPE@`fS?eFLpUmEyja%b=k2+A>
zv1HS6WIdi{j#zKQ?RL{QZSg8K)`!Cit&2xKoQ`baucG2wR9G8z#X3KC#=6nAHdNRK
zNSf8Q=vgY^Tkj4;RRAAVG@!zUm?6IV3v0Xu?Kp%A55bh0ZHwoTd1J6EmC3<e0XotA
zgG;xDmxg&yq%x*O&X#1!zAw$KAv$HN;5|zXA#KW5{$VrE@GZ!;IWin&KJADOqnf?Q
zwl}23o`eyUu81S1d}7)iqE~EXA3FI{d@ZtVikwSxZ(WZ&<B9x0(o_|qUqu7FW-bFw
zOq(JD$W#-x$10KQEo6EtWp?~Vt#Fk7cX{QHT(@13j>z=iHQ|zNAtMH!9K3Vs4FB%O
z%~2-Wf~t0*;$5-P<>D`<mmO$tFDmX0=~G1;Bi6|1ohnqcBc#h3_2p>b(}Cz!R0B3>
z0gKo-M#_+VTgdQLp^dB@L(~yhJ}GPqsd0&U$;^8rr;~--Uym+WDu}3~rkF2Ldnj4h
z8B(tl+j-;Njz}QVjY{h=HZ>RD@&z5QMNJ1$@xia9Ye{va6_wP7j9<YjcPu&hifBuG
z^Aqd-kOr4jEmcKIqV;i8!gV-l?FwmD%$CKP@VEFw2v0}~mPZY+fEU$<)G4U5htKmh
z$W#q=Ci6mPxO35dt9+^aOKS~aY=D=AXn=VfWw(ZwhWLR99eFeH#?dDweIetD&boLJ
z24vrkblYJFI?G~x!~qZ#($$4DYh<(|X1&*iY`c(d*G<jpX_~UUv3icC^u-I7uw`-P
z*4)zEmyUXXNt3#UU`Gmk*av9vkKg|2{GIdB=~#VoYdf;EV{~}k8dw9T`GKYL5$n=B
z$PCUDb$n`#b;bY@ZADvKk-0VAoyK<C`jEK~mW{>!frl?%97Yy!6X-8;HSH9&EpaER
zeG{46U>{Ox2)=b@aezPb@2V|q7v7(>=~p-`jtXKZF<tUa4vvvGHt-5YPR$A$)*F~%
zCkA2f&O8`%C-4>r*Q6VU8^&7{M~!Bx*D?%^PZ9HKj?P<4KJu8?ysYgyEs0zLXldcq
zBs~U^hgHLImE`=2Bh+{3m$igf*96EJgBKjEZ5>Xc9US9;CoNHtcN9dIEQxkF$gde8
zlVj2n8S<K5CKtvq1_!HjFWNx*@<~xwD8CjilIk_yKxQ8Dfp;&pWd0c<I)O$Y7h2~5
z|G+wi%n&jefcm5hh3;j&-ZZXLOZvTO2pK}gAqAs;PX`|-Wgt{ekNpN978(xhaFGrh
z!bZ3ps~%|Xr$2<E;VOTUa%t1YWPCy<$6+`LYZ&j9kwGup2W5kB56nCm?ZhYJXO|)Q
zq2g7zY?$T%$H9t7cW2o-J~Ks7oqoa!;3vb9_=gmrqVo9KTh4n57F&%y0f|c~sE!>z
z)gjR51p2%muczu@P&`BF+I*hzON?j#Ty4&quk<^yHdwG8pMQU&#HfXV`Wr#U{{*S8
zbe08U*tiI<p!nnPqA97X&r|dpwX#e@wgi`AO+%L!UiOmr!qpvT2i&LL?mg9i+<o%&
zi4*;ApE}&>?tZ)f^a=8b+DSnThw;J7g4#Pi6_{mj;DKSAlh<-C6Z;*U&ulX6cQN@M
zPR`-v3{LQ+0PisP9kHMqW=9zIeO&&1Nc<*9)()8m4v417eHADgg#7_9KgF$Jho=5F
zNUd5Zec^&RY+m#rT`6qLU=vf=v^Wqh0K!^&Ys1n8ei~Vwkux7%ymK+;yyHgJ-N7R(
zMpJ0|<{sEFtsk6DsLDg_DWi3vE!@V_;dVHdym5Q-v9Tdm^I84F`uOz2rsaXhJG&C9
zu7t5GWh`8HGyLY_ba+3+nr*k;kB#*)`)3soE8+tWH!e3nqJO#fadU4%)tfN(ri^yp
zdb2&<gZ)WaD>AmmFFb1g+?`PMC5(OKJhbqw@V8RBg3LJNd3c?st4tM?EPOls?Ubc>
z!58*D*Q+fWIBLEy_B9E?j^`?+NfYdZgSNVy--1+CAQY^V(wS2_8_7U4)TiuD`1@Uv
zL9JOWrA)TqF)@0mM<%9b0)l2*d<kv#Px(dy?lJcWd|2Sm3LWEF)I=6FHYnd{@HLi%
zlYhbCM0LY-!@OQVxd<FLP4l{SwrsLm83o?VZkpHOQIf4inRkOGbtJ6l!)8WF!U}u^
zna-)hCNcNY03*uR;VqlBucHIe6M9hKzScH(?j>5mS1Wpn8|3EaTu*NPaFo_mCfBx3
z;7ZF~(=@CKs~8$1S{UH~tKiY9p-ef}A_X#_RI;$9=X7!^C&=MikRe(&WD1!>sv#u_
z3x=16JkZ1xHV-L5bGc7}OW_BCPrl%#k+7C|qb%qcGC>Ci8wHk&tq!4G!)e2+2ip7T
z00qIvnD;Hy+S@rJXN0|9cbs51B2WWUO|duz<qt{|Q1e6OpFSwz#SvCYp=k|~2}A!b
z6?+qFNjB%RICl#YKaN=to5bM6{uNMj&de=;y@<3IN2FcAn?E8wxbn%n_uhpU%FOb9
zwEyj7(@CT|nbO&_!V(E5IIw_XYno=TBbSc-Yp7%waI%OKf?;J^vDcwYQ2J-aT^9C-
zxc)mhAu;K1aSo4;<#BQwCm-U3L?<WC{S8h&z)8j)etgitLFq4X0*@4y)=-ahK>7z@
ztimSvdq{o{0jZcWS#f;0-Wlu&PQS2|zkXEWrz6cD&LmV@62>hlqix}>@LRkU87uhd
z$HwZ&*^l12^G>W8ZQTRNf#;_skGDdQX-^nm8OI(ue|hHd&Z7y{(S-5n*9dy0{IO^U
zs%${U#+dW5aaY{@$ohESk%a0<!gwTQEaeYAHf~I)HYSW4Um5g%myS&s3&63DZ-`o>
z9f`8W*wAObhrUO9{<ZC&+Mbxt1-o$gDqieFsxlI|#0UmK4E{*?!l_LRVmK|_@Vg2N
zgtBT1A|?Jrgns{>VAqP#nvQF51i~wmBrfGzUMw&Z=Mt>=<E2J%e%&*H5uaZ~Q^}DI
z`=Fp49SI2f!O01Kz<X_qB_|=#2{ot0Ps5b(2_8ADu-HNFQ6#ELhd%f&YR2c?&;BD+
zf!9#}tB|fLX_|hfqiFN5sk;B%ygNZvuWBfT?ne3b@>Rt<G<}d>CHPnUQvIq`q-_`v
z1Nyf`gnp)^6efxH01)ZMS7>@G_@&6ZYA0lgL^=prDv@P`EXUttTnu0QZ3QONa!Jhr
z6;)P|DlPwwv5~d`tb@5$m5^Tnx9<!0t*RjpiUS3wsZ}kebW~BvsvhSIIEP!p2R|C)
zjf>YWJ~LzL8ZAo2f~`A2Fr2Y)b0y>fMIxQ3ArFFq!rf>w1;C6*=`m%XiXE#)oHOBW
b%s6MkxdNO6+m)<h*{im6*UyW9A`|of2tb}N

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/base_config.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/base_config.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c4399d00ad398e8bcc5514b4a7efd9ff5a6d1123
GIT binary patch
literal 8171
zcmcIpU2GKB6~41GyWU;z+Qw@fVjvle1Kk4aBqW7Elt2t2gy4`s(q!9oG@iMO2WDqB
zcV@xfI0~w$lKx4}Lkp;?;z(@;;-TcJk@`X(sz&OI$&X4$X-j`z`nJMUjUrX*Irq+t
zXU)bD4_(Q3?%aFsnRCxQ_nhw>|DjmS6ZqN6_pR>?6Y>vyiGJy@v-or9oFgVNC7V?7
znX;vNs+y|HRawG!*;eZ5YPz1OX85~g_f&geT(NuV*=klIG|h_ep0;!Kd^OK$GInph
zP%TKrNzr08pCSi{*>jedS(>^mi!WFE%pC2feRspFnWqCa#q2$+R9A7@0?-x{w1cx!
zx$j@NaI%~V<h@T!1bzCH=QG{#>(rliO&Bg7d-=$IZQ`l@6Ne5?9snw5wk!oH$APx=
zTvK;^tEKyv>m24QJQyy1om$7IeebZ|Xi#Pd$wV6~Xh=c@QBsvmQcamsRi=uWqUjTb
zB)RCH=(~NamNMnD%H?pPn!U5trUG9Y?7~$s(+RHmJCSGwo*6iTUf`AKwi8n^d*GO|
zKvS6QDd&R0P^(mE^a<Ugtu5H9hOK*^T639dTD2Nw)bZ6<#Su_b6-VY(g0!vAg5Fb!
z{eiYgKm0ACD$fx=p8B>_mRc`OFsl1hJuS|Se?eC{mr6dbhQDLeOBAOq+g7Kj>QP_S
zJyrL8W=%DH>Zxu`^?^_<z63Th>G}uj4V%_MT59fR%w=UIP&{ha7#?=eD?Y2~?6?;U
z(iyNnEgAy8o~Hm6%J6x0+^;vr8&+eR55&~pHq+ek$j*~H=(uf7jW=e&WS#L-wp|~u
zyC$_YIzx@7@3L_&jW-_Ziks{B6lhd4T&HFouQX<ZK7;EZ{Ib{DaQi7#I!RW8SRVR<
zGvrnu=^tIlZdimj5@Z<lo6Na`1DM&{XxOt{anTuAj?kg%yL{Yo8ckpIspGjUaVYy|
z8r1MTwNo@)G_9Yaa75Hm4c)fEKBg#G4pm(zaX<|1;gZ4z;2};!;m43Uc^aRw>RAal
zmWB&$&$iZdQ4OED2Z$n#<b_5UYUvI%@xuc;m=9BFeTtf<<sA1^&_rxeDxR8&d$1hS
zGQi%#+5e+@*c#kcWQ0N!xmdo|x-Qy?XE(vp#n48w35`s4s04@zI`BpO$T<RTIn_FS
zgt@RkFJTm_Uh_dUwyUFJ5=L-r+5!vE9lViE)DOA{I-}#Y+sX}y>5kWM!G%QTg%pNc
z2b<!zp%UNn$xEc1TCxWZy@;xcU9WElnW9Ugae=f@pw|6eG_m4}t-#ysf#wWp=Si-g
z8%wzuWHrsv>r~T%yr#ibZra!{Xxghy-417ZG|hAkO=GCDAPu+Nm}bZ;$Q<S?*bsj?
z#%~N;3omRvHXE=}u|d=18)LoL!v<r5_kC#2l0PXA-$<9*sZ4tG`s$H$FTMTJIqhxj
zrVQ_kGRX|_nf3thDe2Mk55KeX!p?UdzwmgQ!0XlY?+d>z+{A834ZU_B5;otNxiIt2
z8yDUXg!_O0%x|ArM8b9<o$kN#;IAKf?~yiv?$x1N_z-fUbU{J*c#Q`F2Izwr=-Hzm
zMpte}E$D!kkLOM#V?jvmqvH6_l*|}Fye_T0Y7QVxf;u&qGE+@yMq-LY=2CM~Q#wk@
za_bXrPvH7h@I4|%Me#{Eruc@a)>3fTs(LP1sOnI#VQ^u_G&N4b1<-xY&ho*iEf2gM
zTCdw=>T&B7_&1@Hiu!ekkl_lr4^y*hT|WsIMfIBC_RxjYnvQ``g>##RxFy`<wC)_o
zOT*kcCqo~zBv#^na08kw%R!F?*9rV?&<9ZngP-Q%Ju<irm1R~2y#{?e!o(X5`uVA8
z@qmX%1z}Cxt#B6_h@~Y|vP90tf&3x(^PYePVore!um9ufE!S3W`FQJNS9?D=_R;F+
z&rE&_gTq^|4R5{p&G&bIpnNoZ_{_66dPnBR7J4^**n8yS<5w#STaGL!M}%hvR`D+v
z_7*<`!+CQVJbR1O;NZ_@s{ox$nPvchDG8|5!$-3;cLJ~7vLB*Rpie@pURvNQiZBlF
z=yJFsdRF@Y#o~9ebRb;a(}ijk=aQv^bbyv>DUNz&lK`B`b)g=j1(e*(x4=)pcL5p4
z-&;-l0Y@kK6ryj#no=!e78BIND^T~*5?_%u`x7hfg53;&cJ5!M8hAbN;O%4PDmnmM
zMnYLL=3s)?TC>Dw2f|s!90KsTE=O|2Tw|_={(5s5uz$+D3;OrGMP{Vxy>Kn>j-e&D
z=?RW~T4PUiLQC+mF{XzQf%wR)bhsI`TkdA|K<CF&5>9?snj=31Hx%hrB7Ow<<FPrS
z;cEVyC6}a0fP-nT38?})e#^0ZaP|sBcRv_z=*CHEhB3g?>Hss~Mu!0^$Z5h8YMKaB
zXM{I@7+AN~hQTPY)k?&D0th^e>Ytq<pJt2S?YWj+^Ko|MpO5bO&695_pJX=*mwTIk
zMSsdS-W5fwlMu5a{M(_$&_M~XCGp_uA+PZ2XTgc^fY(*%X!0po5J8Dd0!nlo&B_vv
zJp<koB?N6ZTn2Dlg;dWv#dV~b{%nJK6)q*)1z$_bxCX_Dmuav}6ZEYuT@?LA#D{?^
zdlVZE3sKtWx3c7aKMZzJZ`RcVM_vG=)6l0Z+wuW1yU|{_=kBKUr37Yw<#=VQy5oKx
zK3;TfUx&Ac`P;E31H0O)?i7=I>tKy^2^4XF#ptU|i}5^0h4^ANA*cv!ZZtg~V#mY_
z`}V3QDRZdp2^<D72;xqRt-6W_5rF@=-XVLI4ckj<eh`&ew;XM0+pYV)K<Axg&x39w
zI6j!Pm`LaNTv_isB8#b6HbvwGcobAlbwFEOaUuNX`4(iQ41%J|W<w)Vfxoy)Jbf6#
zod}Pj#r#^EzhE!R312~Gm|<{^K}O7X;OLe2vOCOj_0X$D>2wtK`5rcV0<DBajgVCA
z2i(pc{Qf>@I&g6>LWgi?t$VucCoyjzhj<&4M(he<9Dm%uAT$f}fd9tUvyb{b)w3|e
z1_SJ3O*{z*Z>g$>@Q7oghHE(jMWL|)eyZy}LL~PTWz52Sf?puW9+-;I#;RH19lCvD
z+qPIDE{1S!syFR6ZOqIdkA*Y@`JQH$4+$%N#%oS-^dk~BI%CiV0x{i=c^MWnnstCt
z4rD#?=p;w#fT;F>MuNh04O0LItf+Q8$fL00y%S2U3pYi@WO$UC5VSSk<$P9JV8NH8
zBxQ&U3<>j7PSRPg!}wzGjplKV%t`ymD@8(H2Z%gJPJuK1L3R!xGGY`XC6S{<NdR<H
znv;GCRl=XimqVurg&Dc^zyYkUsHb!roK1{RS2EOAX+n1#z}+=SkX7A*6RxSPu_#Sm
zX({-g{EPS{QKON$owGxzco}z#mI<~a;A#=?GB<0SYN=h6+CkBT#olgc&XC0n8Cvt!
z#P$BcAJxA1`t`fkpEurq?Zbi5b{fWSL1?@Cdf$fmvH9VJ&4(5W&n(KR{(PIHa(SWo
z9+TGertNp!9K106=Ah3z2S8}4!gT`2m;K-%q|0GWbd+o)OS#Y(VQI`{jMU3;M5oD&
z{4zO>HL~6OC>+%d4fjqC1?=|$kbpgl4aPtiKr7+OWk;absoa4M)oCtkZTvF*0?`}D
zrveRR(-}Fp_S4dRe=KdkR@#2$$@lktRNA{x*!$V1{deCaQf}?_(#ZEF+cNY%_pk`}
z?bU0@`QA<PFQiSfr~_phjMl7~4lS?fU-ca@jY`5yi{DbKMZ>HHg9hAI9x;;B=50mB
zy-;=96<>caH$kyWJr)%eJDEhuU&j(5x>!?dLIR4BD?(<x78u<JOxq~LEn~?yKF^DH
z%Y?wMFWXZ^opc?@6GgpKWTJw%=~B<x?8nH2FYFL71cdRJi2d?X*@YeLZWNqV<jKCs
zD3U~PBA>7THIl#pfr2{ea9}{$5q${T4kN+=hZUh0kz2AN)Q^^G=n!Hw56X<RHTqm4
zeV7o{)nzn4K_=)e&yef=C4Q+_lmn_^x(c=xYwI8sl37hRggtSW#$idbVd81R02GY)
znR_Z2G1kcq2xgYZ`_ZPjhB`w$uOzz6g!l)>3d?K=w%nGnpo~nZt-}9Cng-N%=@O{i
z)zFz<S0OU_u7;#MNug{PR392psX%lwU0c3h{R&<KsOC58)QmTVqQ#$x?DbUvbjm1J
zS5a^k{=!%(jw)Dnn?xN4w~7~RlLEKKx*XkYR2T5@!jj!E$rXi9&U5wf9Olc8vUM=t
z?$SA;dk}}mLmm7>fmb@k&f(xJ-_q^yyp~XT$A;NAm)mBkuFp<UO)!qo*`_X=>_Yd;
z#5S|hHUa-tVVq%|q^z=0>~F+o44eC~!PJviBv}@F81MqchOCQWB{)d)oQXY#{ay};
zgeM4OKxb?(4i`ivDH?~BYy!sF*RaW8^CUJ;W5eSKMm%2lWSg<qi_HtzyoAj+u=y4=
zK`~604Qkt(R+iXK80Cq^9+5Wl5QWViocJBwxX-W(TDhgj=?Mu6v{>^@rAHS=w%sJ~
zTohGM=(V%a+{Lkr&0oEC>9uQL-Q9&|)pabW_M}JWx8Ef2;2f}7)mGrOJxDTxoCJ8z
zkIj4UmY0|y*<f1<za}^#+0eXkar^xAyY~P@0NEaTs&ff&j+V4jx%AMD+`9ArwcN&=
zX?PKz#^LrbatG1!=gs-;7v=e#7o0YTn7^{`{nC2}dH3o@6gn>iK~gSnJC#naO-cc;
zSN!)U-kZf5?%EHw^T)!`7jNQgxEOlvKCZJuM|HU^<9p=+{=AV}d)~a38@-u^L0kyx
zhhBS~lpdO&XcKr`oVYS}>FGu6wllry;`I&pFUs(2k0|NlMdLqERTejt<BxKQZGoc=
zWPQqDh>Aq*JOg<@;D3fLSy&j_s;H%JMvqeww>$c8T1EUft&()2+}s21pO#be#a^Z9
zTeioq4l|KG+G(I*$stgtT-WC1O#zcsoW}xzfSTDyfdzQ<$CwRcV3x$gToBNUBrRr%
z)c;qq@vr2*e~`kT$<W{Afj=vU{-Qi~V`Tk;a@VcQy;A@A(k%jy_C6^mJttjxXkq8m
e*R~&O6MS1Za%_=zZml^XNyYP}e-nK2&;Jh)DNgnP

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/bitblas.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/bitblas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..470320981fd815917383dcadb292dd694ba1f293
GIT binary patch
literal 18008
zcmcJ1Yj7J!n%E59?>9gI1gRk@k%UN*dRek4OEzhddXln5+H1q-gF(!Y0)+=X04Wg*
zdbN(Sq4s=dF_)a^tT(3jE_HO-TgOdOwYpTUPWiDLr&37)qBejhN-a0*tBR}g12Vbg
z&88~J_w~%+K|%65l}w3^etg~i_4L<Yf3MNMH=7L<JaN?@#s1^-6!mK?$d6jeY?UB$
zn_?-Jj#CLbL?;v>1&w7zTp3cruQIMms6%Q}r;2M5+K`sy)p1=yAJQibAp<FE;>Lt2
zWJ;JrW>VJ1EeUJLny`gz346$%aD*JBUKe*JTp<_9>*MZ(C*(;qg_;uHkT>BA`AEGX
z?oTv_nrTWwaau0$F)d;nYEe+9Db{#{VojXsW2IEvN@~qeYvBx)+Fc8Zp!Ev`2`U8T
zU~)mwU7XFtQpresEJzF5d5%v*39`mmGL{L)Q`6HN53q&{u_PDahazcCu!;FmE^|4>
zVhyxAUYv_0GqG$02YWu1oQh2g&e}Q=IvrFAzM-=dLl*|e!xvweI6HbaG#nlo9-MgT
z((t(8mz&04df|nOmnMc!g~whR4MXj?;C{4i{MAvRY4q&a*-;UQjQaBMrSY>DaW$3~
zB77ts=i(Pe&u|eIrnV!t^A|3RVoQR{aJ=Au{&FOl<l+R^@n|H@RolF$`PAHOqZa22
zk?0kUts4qvw57RB_$n8hzMKh1G8sM{6?a2SEmC3Y=dgAE00@kuLNrT-6f7N5a;h0Z
zn6(`!Dx_f*AuVjUj#F{kj}>BTNY5%m23ExxSvCA=vRaB_wVX-H=_)xrXO`*=PzR7x
zmL+P6W=%ItAq#8d%u@>1d_xtoayBU0p=7zC`dC6C<RG<9z^uC-D=hio58$me@NNQc
zgj!ootw$QgEcLM0v^8;FJ;erC2j}C=oPSDzFszevas--naelzdKc!>cH`EopnqkEH
z9!8d$Qn8+zkppB_ySRG5sHvu{h4sRkp21brKQkxm%UEIoGr)mi{RDpv+YIlkZHc-@
zhuX)fV2fZLie-@SM5511zf3e9NvD~q6wgTQeFg&q&n0e(<GEy%8(=PHGPCJ{{{HD$
z=JMQRUo@5IAB{!%R5~@4>6dzuK7uNi%segV-xSXn#|lP?$R=Z%v|yM<G7YC=S#C_w
zv0OSDjzlwpCYBDT7ZQSrbPEHy!*Lbt@kIDCoQ809Fb&UT=J;e3sHpPjAcw4E%LVB_
zrf*ZQPe7}2YEhe!SPVtYs4DQ4OinwasT3+1nOQx#Zw6;2j|_hWD4us@jB-7zsKWe!
z`k_LGdz;o%IVG>nDOk-FpjKYNY8RCm`NUB-O*!h1+bBw=A)3n3IV!A|$IU6AR5^b+
zC6p?2=2TEJRUp++GFM6(C{<?3Q8Ny?rTUv`mGkp7&txinSzTlJA5g5m+6PL8AF8YC
zgg#z*yy|a;k@Gv|FgAvVQBBo84d!T<$E*G>8Zvw25^J96lJnJH;2u=YaH{f_Wvu1j
zMPtqY@5?3k0NnP<`RXq~c;r&fn4_~m15npgsl%PCyaO2HpxjdZ1qi=fTA(_pOl5C(
zQ+(^9E~i`6*X)Ecr-yf-s--PfU4830{o4wbTGYLzyGmcBt|?!ouF^s47?12Ydl1gx
zBph}|x;vRznz_oSlGA<63vmwa8zz=aXW$-UB*2p=vM)~X3$f%hlSwgi0Fb%N$&Jh;
zUMxwrmzkW)FwxXpoMn=!3=>PtrufWN;1mRUDix2XuHq0J&!_kSCOh`H=>Q(s!}QL6
zz-<zdBs;*oF&mqG6h(o4<BR_d&q%gQ;zSIa;?e|{^xP~W!_@E~<^+><_c0ff@r9k$
zRwlx8jMRr?`?Bqi9Z+OgIF?x&3-}il1u7~DJ7iCh{~Ut9tszLxQ#9P9IqG$wk3~91
z&(uN^@am~g)9<))^q<kUX_|V+r=k|9A1klYAJIhgiKW>XaAJ^U6n*;zI-17aWtiW+
z+@DFz_QOlsmx=JxTxQ?3xueIPzH*f7kH;qaXBU90Ci~~(@kD<j#d7g5ca4kAWm0^9
zJhA}NRKLV$iD1+(kwD+<f}nq9noDxmX8DuZp!7z>E2J+RCbCz!@0oZC1d{a0z6vM@
zIHmC-`ft>4uT%N<^B*PF?04S$+l9Yg_?vJ4#et6!|09h&^lkSpdPTd74mJx~X-Xc2
zTR}Y=;X#5khQkuIhQmCvFTr@05ZEwMlVEr`5})J5yc%{6#3Y@J6pyp>c)0jxOahp+
zV1jIpM?T3TixbS_6BjQHo*oXLnt1hvVL=I3n4p?T#gc+K4X-CM&4t;_!Yn5^0q*%T
z;d*eV3<IFi%Mzq<77j;v3NAN5Qk{gA!Q~ekzI1UsJbLleuwck?aC?SvAA)8<mFD78
zUxRKBVoGy@S9(if@tnaXMmZuE^G_j!NyY}}6!hURx!uFzG_Djb^~!Ud4?+!p0Fta{
zs8%qj?CL&fOaBb06gIHzu<LvOv&sLt)${J+&Bc{(6<hWfTJ~>P5B$s1KOOza=mT5V
zmQwMQ<x5IovutaqruMRec6UGMem39rTv<uGhv+S(vdK}Vly*m13qTJU%H&!xtWMtZ
zc9%7jw`J+f=Q{IEZ9(U~uk)9hJC{`Vb>5PH_mb)zYst&NkGbRtz>l#M=*C80sqG;C
zwnBH4t!Qj67@O~RoG2JiJa7a`j$?Or7YEK22F~S=oi9`L1-kP==X3czgODGh+saCX
zy=_aWa$3ri%4{i{V2F2*-#mW5^-#fhhzxLeed4FD{p7XvQPQLJLF=J>%i;Blup0X?
zt_Hg*p{s%NwG_R33*Nm;<_Aswm4hD~eeY-iDSo5<{6_Qnjiw7rrp=bUh^xQU(N*j?
zUg$WEC1$g^YwdWU`3M%gB{we80IO-<^+Er8{Y$Dpw*Geeb(*p@e@SWey``@1ylFR}
z2Cvq>ue5JC-#b#K6sPIn=fUUl-Gg`SWv$YF3Q$u6Y6i;HTQ;iAz5lbUhR(lB<3;rM
z2Cc&k^)p64qE-GZ=o?Wef38qNzK(05JV7L???VQZOSr{mAh+{@dkAEa8Du^?9%uo%
zq>;>pcNerYkh`D-<dvC<TvZ(sS~Nd2f&{A_%lhjmwY!F|pU9efnW}hsB5UkrWC8O;
zR^JPk9m<#|vesUvR?Ivh(7~Ykv4<~6^C*6&kykV1$RLB^xmi9Oe)Qak^|RRF6-cgA
zo0jf1S21|35ImOe9soKz?l1XUadY#&y-@7&mb`%v%<q|ReFsWio|4CZ`^xf_TdzZ@
zBTx!3#lXHoU|+tuZ!J>RtIP+=N{!yI1!LD=G+05l4CUP0)B+t;jPb}aKB7LN1!Xjz
zu3G_I4&fxIl{;4;*DpZNG_qk>fz`{Of?OSi;GUD|@Ls!3Wgr!wM$}N#irDRVrWNB9
zkJ4IDDX0kx6;zia@hL$!ITcSuG6#<Er=hhLeJ`R}xu#Kr5V>wT+gV2*eUF1%!~xxq
zT&F&_xo;bm4et+sF!tV9-rAGb^*p*<fPCcbelY@-JV|!q=fHUrv1B+JnT<@w;<3y^
zR@SYgi}O*4@4|3t)N6p(YABoIQ7n)I$xFvGg2!^2hC`tk%erI*DI6u{jJ}z4D%lt{
z7fvifg{NY14v8RLk#lO0+X?eML=PDQP=u{BZ|%zKx(JGbMg$d9SGa|=pk=wK$Xq-V
zMNH)f^8|C0p+N+qPf@SKeYB`V^<^IR_8m|#a!S0fqhP%nr&Lr9$RbE*51i&QOoW-o
zTb`NXQwbtd67i)gEuLe^k^>SbnsWNcx`Qfy0tVw>!sKO01SMjJ<cAlac#h5ZE^y2+
zwq=_irJYJ6GQxBxB-g1e;H%!H=Sx<{t*P%XmYP~tqRZdDXKOF3p&oaxX~`n)T`gn8
zEhBFLjBWS^s7AtHj>bKeO(%=UTyf8LJOHJbrdg$IDTBB8I5-u+sVi{EcpHzWse?l{
z+!#(<gB_@oGq|E14`8Rm(LT{v<^`h=?5+a#T9s4hG&$|Z8nF}XuwhJ4O@eSFifQdo
zPh_<bK?%H?2y22?G6Mi7#+?i*_*daau+{BeIK>Bb{2A;|HvWmC9}zrdK}e(pBiU+^
zgtESRN~mf2M=(M9N07iN@c4?Ju7am)O|$M<*KK%?Eg4I0Z_(XZaCffGubbB1y2Ed{
zhn5T_r>E%LU2yJReR*wW?GNrewc#9G(v|G4qP@LfZ(lvKHoSIpeR#t@u%sz9`HM~6
zg{JN`&w5|}z~DyH(2}VX*i{VdF9i0ld+r49G=IwF1N%1u6M3EQGpnOyYFhEHzOpvI
zp34uv3^JI_05XBzAktv%4k14$G}tN9U_%9jrDYYERiJs|8l48aZ)0VJRkErIwJO1&
zLCqn&3E&m1TIvm!XDE@e7FA&Qcqymi$5~B7+M#9;#~shdQW@y&39S`8)ESAo!01yk
znpB6(RSXn>*Aqt^2c-){4#6J1%tf!vf;s@)BE=^n8FH}-b`U6lbWx#}>PH0C^lawM
z?2!r3k_nGO4Li;8u}B;&UM%RY%(oZO(guU{F)yW2D~5_I91mvQzMxuA0#OSZX_m8q
zwV)C0+GtmsN(D89#0AskDbXkvj!sPr22jj-vCL0mA17c295cp-t1W^uk)BTDs}Tub
zB>O-Llq){Qa<Yw$=zfv`F1xq>96Skj6$X|L21wE^!D67d5a=zLb^$@Q7&gtGhiXMj
z6DS8Qr|C_9XVJg6;NP3?IeAyT;U59ksrQ4tYHnKDoj0}KGrhRFcU@CxKLWWsdq33|
z23{;HDShCfjxx0r+76c-=ZcOO3yv2{Hs@{AvguDPtIEGLeQ5e~3(V%UEIkkUhuQh=
z`J3lgl=n>mIDfaFS$^hEPv%W+n^vcIYpIFOD`;kUZYp+7a7s(9^%vA#VR&_r!^1-c
zB%TU`%+Z+&qnC*=9jI%^zT}bH`6eK}3Yp5Sz`Kl@3d!au`5+=8iV~7qFvNgpz(xaB
zSssN2-iis)XH$?1Dv7kpC$KgNNg8p69T&Ho@XT7_H``jj#mG}@+kc8f^g(i+f_G~2
z+~VF3-8XhWfZW{s$@`{#>${5w&)hqB=5uG~YG%XPn>Y2Aq*pAW+=1dUN*Up>U<jka
zI~T{iDU1`vr50^C%%-9sSD%Nu1g#|a2}V)hCTcm4wlhHs7^1s^KLRCw028#Yz$KDO
z#o^L`7Sw3@=dsdAbYIb$%p0(p94S>imd*%jqSEtYSp6a<<Jbk%XE*{;$pWonW6=zc
zuaMk1d>C_agi|Dwf@YK~hR5yYkt_tWq;5yKcsv}23+p+kC6eoNWCM7#7LtU)hW`LW
z^xGTMLxobU1M+uzZ|_^)cl~_H<-b1qnZIpy&sxid|7c#-1Y(7w<@&j@YLHg%-E@1)
zYRo{b+q<%R`CM5`iaN^KwBlOsDeFnmK-t~5GRwxYkrYi7Xr`x@XUb+$v`_)2Y$aJ6
zWw89lPO>8kt=h2Cu|>g8*+FUSplPaod0+3B6#Q-}<r<h;Z0lWft#N;K<)bTw-~ht(
zR$zKX7!|E{tRBK9$Ces9VMV2T_v*x2$A_<Cb9bdDS_3qW&F4-%RBF{tC7bKk_)5pE
zSC%bhQtsTlcId;Hm>)PnemC`|FVz5xLpaK?h9(Jlz1pzqT8*w9TD|;XYng)L`o%Bt
zN16<BWe-`3OYPd!2Uao#eaDw-C`bU1EB9*Eu9Dk-`<3NaZikn{IHRl72bviCZtCrM
zM^{1L{T0mbBCLh%Zxr^o@}SuYpRG>d6gz!sAvO5TG@N$ECIZ!_tP<)SwKZZM{At=5
zSA%*r)FX}UcnEyO4qa_zH8FL_4E{I^_?>j<U1Rky0#k*Mb2II7uKLRwI0yKfoSXxt
zEpX{NSTp=tU<42xc0R0?wM|)A@TrB||Nmy0GO-Sr!2>>^X4ZLw4mGi^8&pX2-F=g_
zxnUK^adtec=P~s*;@Pw|ZUwJk(+zdV58k|H@X|H2kAu^&e!xDkU<<bJ$j`G8@j_xm
zhSb1GH^@(?2Mpq!&Paw0QH&j6Pz;gydqY);beoXa?V*GGRhW?<#RNSVvNui~En2zc
zpb7KH6}ON!QJ(`R2IRy?zN~2edr$%5I@(W2Ub0h*tdJNU0}Za-iuv(BLBBMz?dudV
z`29lX6Au{PZh|+KoSg$R00>rLF#CqVT%3uaOJDG$<}%n+sUbjMf35Zqj1mlX7fb*d
zNu)(10>2AJAFJ~);+>4D@0Jb((A(5os<+fRElVTSgMS7UA;|4~8VR_vC<~r1OQs^s
zf)!0u?;(85hz%r$MSV_xUBRlrM^u#@l(OWoXvpbV)s>_0{{5hU>9a5b2<BLJ)XcBR
zDZs|2C7vZ+)tB@(+Wm0dJ02LxKvrGxG*$svJqv!bhVMh>f>mJZ6XVAy#K1#S8M~OH
zsEkw2HR5qFdIJtOgPXDAk>5589@T~zRs3$%j;#I@^T(3B##&f4Yk5pxbSCV09)nrM
zr&<N)TOI@Zq*Yk4F$s!)PWOpTesAEX#2p5H3w~rvQbl$dj_0E3Yu=(EXM*>l`NS@-
zHm749?<*F~P;VjQSu$-h#t`@5WYsY`XZ{QNPv}KU(vs<@X@j@Ky53jFt&e$QyX79$
zU)D`#iv8YuZ$htZ!@X><ALxz!#(OWFO5FKxwD-DCJhEA1(V85{bjhpy=KJtTldLB!
zS~Ed;oSe0?GYVD-bb!?9eP1EN5+%JyhOYjyzMS!EVf;DE*TOXCtW}r=Ww0fZhdbbT
zo{MC_+bWwNS;?s?29%)77?j>PiO6D7z^93VnU*3<@Y=#lYHBVSMb-_lz`}{LoMyn~
z%ZT9~kY`X52Z#v2fQG(I1Rz0quFP7w0Y#5Mx|c~~fE4`VFvQtb0l`QYzy!7Ix-l43
z?PJ%N1eh;lv+-Dz;My4L`fC^0QN3L1uOsmq#(RcIO%dxQfn+MTQ(px!9H#NzHNac|
zodpLF+pE1992wpx_LZM1D&pjs6gc$>U_A=mb4l1BHdx=g=4O0ccL|Bc{cA7Ns$?SL
zhTF|XG7$zHsxmsH3&yymnQrhibI}YKOCaK45&{m;soEzggn(&fp_fP`P>t+^GYme4
zPBJiSg;pvQ+THc0NG@H$-paT*j7U37cbAxf<|-LMEg`3_I%FcTG`9nns%LtDIXeZx
z3pGN<8)z89V2L;C*7pVjq#3KBk~*viW=Kasyfp+Mjl{<0!8R}%hxm*ILT1DlMt1#?
zQQ%0vL0*UC3V5SR0fJfbse$i><@oHO7v%WEnr%zW0Wt2}95D`L8WuIiw*&tXV@~{M
zQA`twuO9F2Y)25znmAG&_EpT8?yMr%Hv;N*27Gkyz^H;5d={|EaApoU09ubDX|R$-
z7Jw-E*APM#ons^5P13O3d<^U)Z;@_1_vT!T=hES6KEi&1=9@467etK&wSo%iQP7L0
zhK(fzgLDK)9v%4{8^*j@%1ds2`=n(3%YY+=$e8?}z_1|kqM4XX3;7kyV?F;*#76w#
z-@^noGBD{82vR|set=EyV?suw<v}YDf>t71K_k+qpe7W_kKlM7B5I3vjeZ;jr5vz~
z%q0Y$wB2(&SFv0I&jWrZn1{y(hb|0<CteymJ9b+1hN2iI8f4U5Vm7lNSmXsuo!r2l
z`4~6P$$_Nl%MsXP5HBhIX`IzK%co`|({MqACwY|bcvKkp<Cvhj%cBk}ICyRvxSJ@$
zi?OajTa6uS2_bJ{@_kJH2opjI4(?ipkI0jgC|2=JlO_9V7+F0_=Km=SA(+GsC&ZQ(
z>=N0NHyVcUnKb_aPP7V18ga$bSNn(-HD{FEe-aKrTxkE5<B)2NiG2+KKf|$q0a6OM
z{Dx>We;P~Py=%`FyvLW!o5rS<OmWx#!mj<rU1tls&Ti~FUof60feFKR<9GisZ<`?I
zPO$bv41$L8_(k7C(S4xcJ^*e9qdRYGDfyb0&V9bSE8l%`WB0RpT^m%dIPMvn^UTwC
z1`5pZr}lfyIWlT*UWzE7Pt*OS{$p$LJM9?jaIz-U!9?lJMO|k>*I6>{E}8a}e0#v3
zUG(=B{JkZ+r{ruZ+1;XFqiF9d*!#*>O5e3j>GXzeFXilfVE5c^UTy}XPSMs;uyqt|
z#|pM%8@A)%NCV%u=us(pju$+~ORXK-dbI;1Gn%|5@gGjrQ}Fi`{YMM_qp)a~x9IFF
zI6I5ZgZG>V!AcCX*AIMW=$`G_O}B5;-?iOlcN&(o<!-8_YpwlWpm+Jr{K0dd&J+&5
zvSixUQDEaazkI%A3zlpFf=@dj;6?;mdmdVKEe7zofMLnxT{&>i7<l0BFSsw=Igoc>
z%0KraWN(gq?%oHx;jxsO18ej{CFb^>B)>}|WiVbtj7p$j3>1xB1tY|L+%q0|;Ocq+
z)4sO+TFJ$fT>I8t#REfy14G3FV+Hu<8Y?xokrynk`q_g2*;0Ggwo&78lr2<q0A|8}
zt?k9u{z7YivGsVN72aIWw$JRg+#KF!D0k-raB&-#jW9aSf#Y?;x*!V2MD6O`w(8uL
zrQvNCWo{|i+?&Ct?%3}I2R?M&rAzG{57iK@v#r(uf!Qd%rKn>HI%d_kcKW{Va7hQ0
zK+4{=BlmR&tL3J(J-^WHC%Sr_9<2j<M}2Z@4HDu6h2Nb|qX+_)CVGMw9f^&iO27b7
zaW773VpL9xddfJJk+e(D1JIeeb1En|nyp?J|42E;M*;G8zL%1fm;+Imko+VJc$?AG
zA;y;d7<0&Y!5>L1AH){_I3C7-1dt8<k(PRPQSs0}fu&5tot8$U5pWY%4Xp(W#^Bn^
z_l$>1&YoL`i_V^cvj=v%Wa}>3I!iWx$p*(U@X)MtS%9RRdw|j*N9oKKAPQ$o$<ecR
zs@Qv?(0iiTd#=!XF5h!LZ@W-sJ>ouBtPg;I75+dqptd#vB@9%6k5S;`ltn#pxk=hJ
zv{xR{^}lFfm5WCBLw&u0tz!o1XU7BjYGYW#4nQa_qAuTP+(vc`QK#-=)qs(D5x!T*
zX^}1#t&bU_fpvr5i)#V9iqtdNUe$9+MD_29OFccp8PEf@)1V1kbGn>?)swTKU=2yE
zYrMh+He`rbHs#F3A#VXYj9GkNi#8YmBV%?vIa{vc>IGvTo?`NVi_|1W7sEFtrcokH
zJWm2KM#!m|5L9#EI3-RRejU1qrbRW>9Xbe+kMx*8pBJ=)QrM*STT(_3m$#HPMxxQV
zgk+q13Wg9&7+f62n;IoR11X6T5V`pEqypta{vYCuC~gEz#A(a_3+!)^zt16#rE&4_
zVpmZzAt9n@Pawxw^gHbeqiZb1hoy5VOG2Vbo8tL@hLhOIiAO`@6lldDW~GUtQ7#av
zg};R(FJnTmLy?vLSC|mo%<{;hd+J|f!{1<1#qY17D40bVOp@r*C|uP_CnPT#T7Lvh
z*?mJ|gl8T9c&s>h9a)JTlIzrOJd{4T=?xUUJq2&i+J%Dm7|13~0f<U)`$5QX`*uhj
zk5m|~@~v0pM9sUFE|h#NOXnc^ZDnF*<W^$oH24jRR;FNOiq@`s)~-@Z`z-@RKCG%%
z=2v=`wVz{1=hv_za1et$V)2zM-jb`W<Z3Q?c9lBzuaDg87<f;6*IaXx9xM2dq43hw
zhW|YNlG6v7?PiP5uw*W`QoA~etwV*@p_0kBasrs$F2j=Q7rJJV*&%b2A2b*dW(T)Z
zEwfW56pJeO8V(G0ab-fas7|OCHTXpwL?B3g7cnxX@(~l7l4qo2C=ZUmGPHCFIsgh8
z?2ad=&FQM<8GxynQ>%cvN^A!)8?V6ZN?;^9R`p3WN(h(>p9FSCqe=LOO8Atb!aN!>
z2E)fdC-?w!*UvPG`P!7#K`c-eM$^bt3s~suuy3v%LCn{$P{Pmv7#hC@Lu1YC`f&&*
zC2KQ6Pt(`*G&SsL`sO`@W{F8Ez-ugOT)qf|-iKMRdO-MMaz4h!B4IIXAL9D$$Zb$9
zorJG4z>$%;EV!rRsmVw@EOQ(PE`-385dhYR-3VjJ+NFceTm(%l0@ej4Ye8d!s4g>o
zeSKe`(goaFl}XKB$+ln%SX<CcmX6Geb{Bc(zO0@R86JEL!GQN^4xqqz&=8frphe`d
zKZo)8e+!8qGqXN|EB`4r{5xz=5x<KAZ46=ro;)MZBFq#f(+JpfIl{A7;j@fzgrrko
zNkoJNWrSq~2VxALAmEFXURKa7N?j8;1YxxmbZX|We4%-2aAI(1aC|uY!r;W2>cucI
zc<J=;1YzoeMbwGIqr>Cl@R5LEhBAEZDHnAh1*X&Rjld%j_F~Wle-|*x9%{&cpM0nM
zbL7Gpt970FrS8Npb?1J?9N1tE<#jEe`3`RQ4lh|sMy6=oQ!wt?0CfU%5(v0yE1C`$
zOovOhJ*#hRD^WAlQU3m-?_j}qaQ(=JZvcDw^2WB$S~^xo)=%bNeEELMx0c2}vj$2X
zhu2?TKXYd+-**0%<$=wETEoiNeH)02twr0Bg6+tip}g(LecQ7ze9;yx*n(@F>wWia
zgQWa)!S-~?6<j+B^MZDvqacb+vwAJxe<AN0Mb)eoVo2;wWYp37w!I*2+FD^XWh2$v
zzc#;ic|DeIe(sh|p83pu+a4H2gi%xep0y)u-T8x;@=fDQXC9awB)~^^-_%yJw!koi
zH4F4La<@inrA(Bw2#bCPUM9LL8)*U%oJKd&1{T#&UppEMhR-5+&1Ne4g;<9vM9V80
zNvfj1P-b$AT9C6E$fz?7WKrG)u#H(h1XNbSEOp5z!sRrwrw6|&YlQh@@P-xnDd^Ea
z`ew;juv2sv)-AJ2xLTCowZm1==mM&ECh@X>@K4aKh^g?;V1S^W*k!6_7eO^2<E{#7
z(W>-401-doK~YOk!TApd4K*rO2?3TdLGun7M$o)T<U&DpEqss_P^d)5Fl04imbjOz
za+7G&F+^r(;|roGM~;uGlbfpT_wk6LSPMFrNebXu(t;u6c3?RG(VU{SV@b1VwY@uk
zbN<%kO4|or?{%%Vzt^*2g%4adtHM#oJ!1z*Lz0|zYQ5{ukqz(A&9hb6i`3nP+H*^1
zH|_r0t;?;e^j~T})UGMl9IK{v{ZFkwvEHQ%`-k%VrwYue4f`<6Y_#T$%_ZrysP3Cu
zHm&X@vv^okXy+0%SAexnr|SazQK~_b+d@O+|AngV0NLU(sye9WivM@&IsaFHV4VW~
zE2t0^a48t>zhcF&AxR?>fZZ0iSxvUF672iv4*z%D+)K~}HrLQtp>Dr*`1Z5Q&#s=z
zI}fdm6r6|hrbEAvph{jp#D`r))b>CE@g8Z+XE2$=WF8aLvjh|T?*o<pc!2+NtUr&*
z-^YZEFp9Ygn4tW{|1BoyBo|}hzKglHF*$?@e*8d;)BKMy_Y+Khgvnh<1kD7OOoKi{
z-Xgv){_iju!Q>PsK}=F|@^2uMz5y=^!`M_1#^$12`>tOoxxCj$H+ANB%{R@r7Qix8
z%~)<)Rt#8UxM{d`R?du+!K9_RK32BT>fq|@TM!TyENd<()CV@Lu6M89y!P&QZhoh%
z#tN|db##`sB&(y^_N<P7s4weD(EtH)Wh2R&D37mfCRq#B6u^&a%2rZzK)BnMlVtxu
z)ugu6O#o$Se9Tpc$C5ZY=ET7<Cy%{l#nLI7at5}X`_+aoS(;I|mM_rMp5Q~hNA0Pb
z1<Ejs$^Py$H=ikMv81D5nem(Pm5G9-t&AODI)nAyz|Fvx5lj0Gh^eEjhF|FG^pv%j
z(@8+vdMJq-gnJWYKq_3A1@%~rUR2?JA<+nW^kGD%u?5e#V8ri1`@|q)9xqCvjnt6v
z<;oYLec~6QeV}l|f2|=#p5lEVbUguBa<~yMDv$Od5`!rm|2@0(&4FJf-6!kAq(lxx
z^~+81gU~}y7;qjwOP$0>Ao9O!gt^2d$FjJ1WNt!Bqn;IKr0Al+YfN-oII)YbQ5O+6
z7ebO#JcT)O0LekAKRkl&88Hg>B>xcL;OtQ8C?sHNr|GXW6y5e~%Jg5TmcOGqeo3AC
zN};3`U+L7eVvB<0Hzta{NPnfMEg$`r-gWDh4Snl%&9>$b6|^hw>fEL<vpuAqQ_+^Z
MfA4Q7%n$<kKd-Bd?EnA(

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/bitsandbytes.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/bitsandbytes.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..67d8e0c59181106416a6b0e551dcc933bd9c7c8d
GIT binary patch
literal 25303
zcmc(H3w&GGdEdQwzX5_Ez&F7+LGhsn^|U0Lk}NrrOg|*YG3^9~h)W6-`0xd&2LmLE
z>(-!`RZ^N%)RN3}*0t2EF3Q?1%3ifsuXWeoRzQ>o_*UJNHQSnB_kc{fcGGU%|2r4=
z0-!+E?$Y*1JUHh&k9(fq`CjMzuHA0o;G(*}6FK)R$NeEi6vt8!Ssm4I++{Azh50Bq
z#gFnlg*8#lly+1*r5n|;xHhUE)dQ}J8m5e+Mh4SIO;hGk^OR-O!s3Rgb;>qso3fAE
zS=<<POgTrLQ?60hRMlwJlzY_8;HGHxlxNg4RWn+{;^wG#$~Wp`VN0}js&2H7=QP|Q
zE^K{;3)=+Gn_9WiqxE6C&=7VAjY2~mK;ycw^A+7_Q`q$iH`>ffRH1}haH%C)!qtL)
z@)5awsUP;N1Fu;J?p+7&3v0(M;aaq#^>64~b@*1B86zarh3kdZuy=wN+63R^!P5T8
z;cE?V>g5p6q5Y5DpJVcH1=!L1VWVAad>b*oO@dt=-@rL-J12B^aH4UvN9cK(4{Jwz
zp6@xspW)7GpX1K(f#x4mWdU9??GHtxp%YOdppmr0)8{1pGt-fo=@BFuPYYrUVWc<?
z&c%fA<1>%$pP3$yOi0yA{HeLnbX*1^n@IsnZYA`%5I;E+-WQ4q0i9$y8krVCBE=+^
z94@9yzGtRiqUs{^Lbx<ha>ayr@Qe_dI2jLy;&CyCPr2EbBlDp+TBx+D6ed?3LqA+&
zbD}6r$Ah!cP<(twoC2&a91(@Fcu*83BC)t22FK=N@tLXM%<Nd{DEkVL)e}6&y^0Mf
zaHD*f8`XsQQLUM~|6jO1tQB-&9scx!K5W3B5q~Dc&G@t6&nf^)8zronH^R3G#;`rC
z8TY2RaX##L#Xf4nhSHB~*fuf?7R0QGxn9w|S!m9vjX@29eX_B%xpJ6oLQS};B)^m8
zccB({3A9RZqwYd$kXBuiR*e!K0ozfi8P~AZ+QYQ9YfAEX!(Oyt;Qkg&ZoD5B_F)|C
z*c`RRzK<Kiv~B8B+*y9K;TRWaklgzs@!0Tmc;C6W5R>P1J|zG8$D*NF%#RuLmuB*p
z&ia7G;)i=$7#A?*W5O=~$#{G=wrg-OB%Y0&9+(j)216%egPXT(+&ZvnXv?M{mVZRD
zMQ1|cU}QSD<3uE0j15uDdt&-TkV3(+nW@>ixDX7-&&>)YaJFuPSV3ZFLXfJ}{4$(n
zu2X^7O2P2V9QIt0rAz*3bPAu2?+6Ohv=xKnvs*R?$7bh(GvnjbE~!?{aWWJ`@}_Nt
z{UFt-DX~+L+2GVncrGf$B)1BVpA?1I$(d+aGKfNaPMjXImQ0QgVZ!698Z7W{@Rzx`
znz&$1aDNwgN?CL~m*5jz5a*KY5*ow`X8^|~w1`n{%q4V)6>uEV^oSYMGy`H-__9kF
z5i_YV6JlmHW<JZu(69*(P~~Lg5*EbNJ|wtFHAN|hO~s$)#o9QnH0Hu+Yo&bO<i4$W
z6Fn#QGJlQ>XbJJ@=V&tKJD!=2&CSlvh;bq8S7)zms(1MVc1e$1f+(4Sm_w|Qpjd<2
zL@#-SKg3${s3~GSc@5;zwiTPmYlbITJ{yY836F~6j2N&<x|k3h|0~pD4hGp42?k>}
z)Jhwn;LiW#`N8<q?BHx<wm%*cCxm$a*}3gIcbwWT3`Qd-24~L!OHU7;#;O^_5)z_8
z;jAz=hxI%d4V}X=Fvz-HK(~X~3bD|1_yq0If!T9nJH9sGu<yQ|JD>~+Wr+PEypPXw
z_v$&bW5Jj))!s7I=Nfxbx?83?^|xy`#oKerZ~Hci`*VSP^xKu&_$2-I=XxHY-_Bg;
zuA7~Y+&Dpzwp`l~{kGh(I<wZUjJ0bylCf^T?QYDuw_T5Cw?CcP{&afVv9#;>s#a6&
z$a5OIBd_IbJ66#$Zmh5lD9qXM$M(f9ApklID}R#UYuq=1#F3)ziDEKRup=hb9Z{Bo
z-7%@|hq4sxlu30rl%-(TR9?Yh<G1ZVou-lbGPEe;%$`!TwrAei=T`uP&-TpM^%Ylk
z8FDL6DqHk>=Dj7Q<Rn6Id**9Vy@JY0(a|1>4+ISBuV~r`S9!4$KQWpGzt|0*c9ba0
zioxJIYfDZXrc!h8&U1Gh1IzL3;3JvAN74hsd5+)5H|84s*~b1%V}H6~0Fc41Tvu<l
zYdF(2obKEQz<&OINPDimJKO$Hrv0IG+iv99gLM|jc0Qcxd^p|l$Xk5gs<-dw^ID_X
zBKF|RWlINfdFjyHU*^v70S%6q(k*k96E`5OtgG0P!RgSHP_e5@;t?uEXcb*`Hr@Ye
zTCr@^zKB36F0Zsgi<rLBDlJK^uu><q$1q_dAnEkL5o0GMBb`(6Et?C0P1_{X2?pA<
z?Y_R&Qg>9$8VrF9W9MmXenSNmvR>vV(8U<x((~MpTs4>Nm+aq~dp&t2c}@84^wsIK
zb5Gi|=l&5w{`)59$3&uwgYba+wPVp(>BP9{`%|C`#zM296Om{ner~>Voo1G2JBA9?
z$*Pi@0+8xxp|i=N@x6>g?ieR-Mv%2c_GoR%Tfsxk7-PhDa6A$PoiHWD=DXKv$l8qH
zGPxKXxwLMoQfAf|$slJNE5%-PZm>pmpm{{_hCPfd<zF!;H5v|QJ|EUhfS<UgQ@D+!
zwgA@yZYY843UDLfrV_Zm05=0}DS;aba4X=p61cGdw*y}KT~h(>SOYf~;LbI0O9Aeh
z;3v3}`mF_c74o}F;5H4nKy-}`^os#>iYZ|R?O{#Wu2sKTpgDkdYevRsz!XQDz8Zh4
zpMysPm6==6P10PiaS4!9Zx)6=sZD6VqDf#=B{avlb}p_?30OEi2rtc;<~ghng?(e|
z1Wb^fR>imozU7o~E+%&169K)r7eA7YAd)>SjECl;@!)BqFC;zt5qBX2TbV>1oR=4v
zgYC1>xFBbp-&SF1u`kJsW?*-8W-Jtq?HwpD_j#)NVR$&`^BSGKGgsS?tqo*q1Iu04
zJ63A9U)1OPooWB3i*sq$f$K?lAK$KS`heq+)z@*;)sfdC_>-6mb^J_C19ydQ;J#@M
zXqWkbmK`7m1H8B&iHyKHE>l=T6lY{sD}{*GlC<NqL+cV;{~bBtY99$$)<2cjqt=SM
zG+<|A$wpj!6cv8@%3?%myjUR9*pECP){?=VZ+`G(JdY}3kkrtif2h-&JMTKU+ODPX
z<u9cN_P#6J@*Pjv-uHDXfbcEfF#uWzb2fLnra$c&xDmOh)wEgCrslf_u5DuxK2ZX1
z>1XiXv}ePOt$?>6e*^M&Zej3^Y0sv&Y5?y9ycO`iT@1cG?b-3J9`HWEdjRj)%;1A*
z&&Ib1-T}BD@Irg~(w_bsPXpcxcoX2weJp<<?diSI4tO)*^><C2t2$TLN&nk-(trP!
zT-U?7{>O8jdva~tb1j?h)mUAYJZCMO(UP7~vXWs|6viWG0~(QVom5jgv=DH}VuSm(
zG{cF%g#tKL)y<sXiyKwh%HoE2k?$eeu)^u7=C#CCUPs}wj&bo4-bUd~04@D0wVXM%
zCU4xSzzDHS()L;7l)T5dbMiqGFiVz5EHWL7hrlU|^jXOhi3Qm>1&Mx}6~aL<J~E?1
z3stHu9j;O#jYvHai9nGoQ!_&0tiqlpqE7q_d57V}Xdto7<wfoy<RKG~Q%p`Y-(Fh(
zes<n53{#rvt5na^@W4wLIGgvP@U78X)}GtW_N9Z%2eN$!GkphdIS<|T4XpS!rd=Cv
zS8rH8uu{D#ZQFF)?pxG<>+CIi&+Y1-WzX_lcJSfM;KM7`kECsn<eb&)U<_Ce9v2x(
zVc3MIgM$YTj);d42s9E^N~doyC|QC9ej8z1kUA1Aq!@$X@W%kwotT-4O4?Xllyp%@
znj}4=iWtWv_Mt+_%2+nJ`yx%7NWv3w3#I89T_kR&uogV2_z;C`n6P+ctWabRfpp=>
zSX`vDM|_Opn(1lD@HmqNh_oEVrwD2<@P}hUG#U(o;O+vH5j&5t`4Bynl{_NIW3LcK
zd4;>H(dtck2iM%5YiiAP4d%M~bL~C3-of0aZMnceZu7QWNB3P{quz1HTc6kCH*es4
z4S6GlOk8V6-b^72g{%~^am}rHJB1uvM^D~KAs4q{FkeL>H`m^sucnZP^LH%mzjAJQ
zDAO{SuOX0^Yii5Wr}DL&#qnVsg?5|tmc{l}4nHVjsLE@2eRI0LA7_fbc~z@G&?q@=
z?{dfT+;_it^^2L_hbYfpHP2o(k9%ngCArlkHzm2LYWGsdQtXX@nk)kgB?t7DCC}2>
z@|LBOZ#3sQMAJi$eL%m3nh?sr$eZ<^TuuGu&t3Z5<=~}YUQ6+TP3-rM*^zec%9tOz
z5zd(ReWXVcTa@zL&=z95v5aUVhLItt|AfG+hRYC_RH8V-yn;?%GsG!Bb14I)j+$3Y
z3I2d8>QV9~HAQ5`@@Zc&#fgq&u86!A3`z;*w?bXoVqKto3g|4UE7k%+OFIv^k`~sT
z!pcwT6B=0zl+c6R(vL{|KpDS9J)zyQN~`%B{1J`^l1^}+$EYOv1izp;&HW;OndiB$
zT692tzp6dMmz>~QNi(ofvdVHZwy`A(F~T#`kQm2eGP)|zNao!W!nAO9R@^(^T?tPX
zi6S-Qx6vlXrF{HHj3nYTKEwN44=<fcSuf7tGPP#59{$r9?c1MmRPklqqG4v;I$GW>
zuslhKpes%A0>sippU<O2y*iAA&Nrd+Jary8IgAV=Kc*=F$D^B^iA)1Hj;O>(#FO|f
z>$eyI<P-P!J5;;}p4{Vf?X#IjK6_)+V)g5_S8A7fm!DmJ>H4OtbLqCN*}82=Ds;cK
zgBOYF4d@|Hn+2OCX+zLPXd(KS^kQflVpT2Jo`8`ZBWw=<5zd_eW(|&=6vj?T4$=}7
zr%tM)ctvr9WRqzCxuD!(8g4&x1zb1+fJojV{$ek|19f$$%6GZ(Qsd&-N>$tW!#I6B
zzSY8%LZsv~AmTBcKYGu?dFxhcpM6LF&e*%Xzd3X3k<TKwQuFNjk=y?EbjQvW|E{#I
z>2|d@?b~>LZ^k#gQoZl3P^S9O`J;ENzMIzW#ocLLx6CsZb_yE6akNs{P9Fi3?Q;e$
z_r%AGySox=pHP=ZCE}!{Ea8<ku1N4y5=JRIw^F_Hm|c)DD&DCi=K9-gnaooeq$=!e
zc1B00CxWxs8u7weJRX@IpTU6+DW{~5P(*CS=-?P-^fygYfvl+kXEZhkWm7@G9~4PT
zB_=61{$c{W^IXno%Nm<+8k=uBJr};X@WsWgE6&!evn%85y4LyK4Och(y72u|-#fL^
zyD!^&D1-mbLuu2YAAOq4@&dxwRHsmmt1e7OxjHMX5p+-jX`ztOLxE+Obf~4&Kqa~o
ziY_x0T^7O26gx)5O!zaS29klVapShI1z)h4p%MO6U$LP+;>gxGQeahtTbXjrQ8{(o
z1m&83)bY383Kv@8{9A8D6<XmsXAM+~BvqTAlnHykOkv)qa4YE8hQ*24E{lva{W5(n
z%LaD&kDnCEWYKbRL3`jYNDx?2$yQpjjH*#_T@Gy`IZ7DEUX%k(Qp6#YXN^l}Dq$Z5
zGd;L$SXBm{!uAlYMcO2+Rcd&dH_M7JmCZXx5*rm)LSj>u)RvUgDJ2uymo;H7sr?cT
zVMUU2RX@Uxy?MjNfuU^!o96cueo=HQ{(=VHABp+Th%?g@1O6wY0<`CT#<fMG{?gog
z_sDe&%tt;!F8}FB$p0b~LJzF#MSpz84~1pfhm`3Q!~sb4N&hPv;7R(~kO<AbH5e?k
z8w`;3GoYo!I8$wjUq-HgPG$)y%*skyK@=GcL~BWAMB0%!-&)EGmhzgaTIu`9RuKK?
zHFmS__iZgda(XW$7m|xFWSh2Tnt)Qb{Y&3(H2t9It+OjTpS<aO^0v1XRD8|Qs#fcB
z=Q(Ya8yX<jQ#=@ora(&fo~iERdrr>P@Bybc`)<3N@)}K5@2XY@b&(0Decr6I`~EDi
zMdD9lByoCqSU2qC-gcUY1KPK1ZNnYfw>$I*GnQAXjZ8yd9E`!FAqX8|5CasCki~-J
zotcYMk_us&V&KTt5|Xu$hl+z{35lVpm@FzEQ;Bdifi?j#@2meB-mBcJnpd^28eX-M
z)(RFwupWBN%5y1eN|Vw;ma7AXHziFhW*FCob%>c4Dr%}KZ6uMTuBJEfC2~p2G)ZU8
z#W-XSBnepK!uo_okw5UI5)MnkScF6WYLK@B$WqH^po4vq^?9tcHmaQoSl>b58@kJ|
zxLM$f(vgaq4t1+8sM~l!6IW}k)X!_YBHxDiR^8lck&3#wu;!XpDV5~nBrstv0Shhs
zgE<I%<G1w19w$H&L31Z2kndnX3qC#+4@s^yN`A<3Md776Sggc?6JjXLFot*vWsZYf
zHp?p}9GQ|Vg#|-l>uhN3RB#;Hl^Id0A)A9zTp^n|Scsot#0e4BvdBT0nvE0PJvSxk
zNDa<5t*oymf&d>hz9ie?h$M&+e~!FY$?JqCi<QsA$r2vlm?$ths9?SWqKSQa{;_p8
zccFw_AXen5)~V?|`szt|AkW|T`fr1;e*V()w>`de?ZAp>Fz4yJUElJ0@0H$rMxECU
zF+^Kewsmu+b#u1$NT&5juDSi5)8uoc4&8He_NJW6cc&GKWM}|8a{ZeSxN9|3x$o)C
zP!)SPPeW?texiz&2V0V`q~pG!Efo<i=oRdr<QBBW(`P|F73Q%xiBC;%^FX3uo_JoI
zJnE7yo=GqBaYD1qRa}yU1lG7Bw?3(mekD2BS8>vXwIwxIAp43+k+A-nL0P^yiK~>#
z5@0<^Ngg(aP2bWfIY@JX1#T{!aeIj_V5`+nD2-0F>6y4c6pc(w!^GlDB!1E#M;1mB
zkQJC;UIhNw$<VAYz*fAxRX}uK#HWwrFu8<Z@oVJ$0=x<<ofO>xGo!x6%apH!JX-8x
zkV=>tk`Z78CX$5$BkD!A)D4nVrcT%vku33<cqq#7w0MPb7MK2Oh{kAgaDqK>?NeiZ
zI%}V5`eXWR!K~tT{or-mO8uVHkvnypetmy>$H>ai6PdavQipTSy2T?IXZP}^o6f%5
zUVqL*_78OWX|S?QoUifn$xA1*-kyxN=QdQS)=SpK!^;~oja#q3^p5_wt#4azxsGC=
z<n^2{u*zxKW-*m-mH}**yJkJ@6ccueySP&%gFJ}=gXBb$RoZ4?dRj&xj1VA`8Og0$
z<FT`jO$nO_TZt68IOr*q5f{j#;g{UP*|-=gvlA5m9;LoP9-A;iSj;r$MgNO0`u+It
z_si_Q<S0iw<*L;(;-fs{?@*Ob!uxaRUOb$6@FSha-0&xTUUNf!BWH7Et&JILW7ZnD
zX$`#Z?O*W@E*$zH`%N8!(9rD2n*14)f2nqP`z_O!+osw@U%GARJ=0c(W+3c3ODtz7
zCbr-kW2N*iVF;pxS4rHno-Cl!aVS<pKB(ds6fQVm1Lz=?0}Q%IZnBijSSOdvH|ykM
zLY~H8Xm&Pwj^TO5OwC<@(W))L6hiPbs95|J@|NM16M~YSRaLG4E1M0LZUf$pksusO
zN86e~&sF=f)xDYO-sP>=TdyBqsos^g?YdJ5C?odLAtqXb4Y414yGTzZbyJ!oQ_EJO
z9FhjGAao?GaY<uXn=~QKvL*phh&m5o0NRnNQVqpipq@07s(z;wt{g53!cA(z2KEgV
zF&A^k-AZ_pMEq-<Qd80l3a$d*p0p$^lSJ^YaY-xS75MU`4e-V_nGsFe0VkWcH7@C>
zJZfQ{qzXxAyj3ZXuuT$su*NAA=mGA6YfLl2jcGoQUM5`$SJ+53RGJaF?n|1ldUeR3
zbg5%d6{q8zxycSCRQydi6ICUn*;PzYLg-765-$E;Grd_@T}gMCPgch_C~5J2C6ur!
ztx$dsa2NT{$Iur~!j|wnxG%|?gaaf5z8%veWTcSzeNgDC>2SiH@a)FNm?Z<N4HgZa
zu#u1m)m_g~4hjW*@R(D-TVYjI?y1stwJvq#0I86X%NjR1v<85vS{4#-*{xG{hmv0W
zRm+khi#b^1Dg9Dcp8}cOrsOLAhRtk8)~R`R71NYZ%n~*z=|RHJ%q7f|!%DdLTU5Rz
zy_gSu!uyxcz%`44j1%rK?tlEOCQ*%lH8fX0s~Oj@d89aSMzWgCJg`VibCLgQ{U;wQ
zk@9a=`ccW8`#j~?ujbfS?3EH?IgTqiUi2xU$qISb>vsdz`BzWtxP*JM(mGRBOi6db
zB;wu!@}akD9c+b-7%P1}_Z=QN9*8wB@xN;Lc@FhyzoJjTXXEHjSkCg5FckI(#(7K=
zRO?K*k0H)8+;N5rSPQ%>>~bCt#i!<?N8`t!sTCx{6pJ4GF-UFh$A1BLoYAsZHB59Y
z8N$Np$e1vp^o2~2NyjS$+GXj=KSql9UGhlOj6|Y`CEYafc}6ntW>F?4(16`zv@NY^
z@jH~gifosWM+}oaIkX}%P+|bdv@QFPWRsf+6Lx%7{05aJS{Z`wxG)uy3FEB<{WbDl
zB2T1r&HjCo_SpV?^6^hQOERk#=Q7uLfq+&>)j^%XKze#YG7&dAONw#x+;r@vIYEGY
zL%aX%K1p{vBAf~MO2|ExFc8&2knA&JWFj&RTAW$dJJhH=5T3$_1ViI=vqSC~sHpMa
zSw;p*Mr9ZZ!bjF=FxjPJ5MzTNnZZ#9G0Z{e2usIHg>RCy$RgR5J0_9ouy9tKq5&e(
zRMJliXM$&AgiDFqtl(sc*FQpra{I?JGUtAhitK%2UQj3JxsM#2dHbE(y4Q_Yj46Ar
zuKso36<^AcYw1Xv8go|Lg>4JlE)Ku8E9a`ZY`$b(Y+DSyK7M6<>FIAyuDAlJVOYDS
zZT_6obs@eG|N5hsM=p)5INMXYJ8s|QzDs>6W6oWdb#KVHHz4S1&iV#2zJZi2SKE@U
z?aS2m;hQy$*_!T5O?S$2$5V6p(4|9*!<P=H%wWTFI}T)b9M0@Gd~3(i72D&P9Y>cN
zQqM0|EqozsZ_U_Sms(fs9qAoMGq%UUmDE^LW~kMm<T$l(YB8|%9F!na-<x`O`1c<B
zoyTrDo=IuZ&y@XkmG|qh#oa5uo@^C$puTJAr7MHk`oRpiAU;#SIduf$I#>PTQ?Gq_
zsrNenox%6pH~xc%FWMJF8J8ax49gSOLsutnY=3LhTQ9x6^#^;?U55*aw_NSH?k(4c
z-}rL2duOJ5=Z)6i==nj<O80&>odg5f{=J$0z1jY!GW}1f3B4fbVO-p~Ez`Lz+xbMM
z^9is_Rn0k1&0Q^6tslADa)U!^?!G%7bUx$h$a)4co`LJtH$6kS#=vrGrm-*ExaVf$
zo;w?dE<Vn(-179_@zm19ENxoxbfzBt;l9Umu9}Ny7SEvL^UH^>58vRw_vqD;wC|y}
z_N1SBI<x;6Or`eoj@16I@fY_j?YRzX=Dq3ay=m9pjO}3zj=g^I`HZb6^*F*+4U12G
z-I1$pluh-rwfk<>?#rpo>&|$(Z+f;A0X-Q{4_d2qAnobSZ9nkVQ<?3DvfGbjwja4@
zTr@86S1e1<E<bg>>gqFZeBq{RDE}FrbNA+t@|@FsVSHiy;^$W!?J4aKtt~ls{l)gn
zJ(qgY?!Aj6%UhQBr5gtkzFz(P+V9ogX#2Iso9?}-{V?lKTN`pV=f$CgBZ!)uSyTN@
zQ$6O?)bgIG{*Kd~vi#`>r+Cgj!ZU9CH@$U7t)?=ri8vZY(%%3w2G^vS1YoU8>HsHX
zy~ZW=Alrz%FOYGi$zhF3!qYd_IFKKjih@y9AX!4f>)1CcNpn;gP9^1>LUbjKl?}ka
z7?>tiCZO0rko=}fECERVilY!_x7U)^c#%LfPZGtr#+8udwi1%umav5ljEt=?!gAdz
zNv;yZNqbS8T8Z5N5o?b>aCFd@3hc-=qe_xH;zbgUjD0N$hmr<4mSeKQe1NP57A6Pw
z#lVOX$E2SD$~+JybWK;wh!V$x*Fk|OaWJ9;J|jvT35QB**g$HSMh=SC@d@#J@QxSd
z!QwwbJW$2R1o59zhJQxh_sP3K-Vewtrw_z`L9l;L9v%7OzasA!$)mGga>&fQa{o#E
zw*Us56;J5jqC&q--n-<HXhfE~{4Rz59eMwry#GMn?~#{=7bALV&ABL_iL`+J@-wkS
zq%c8e;&ymU4uEs;ukAoAIR%Sn<4^zSoBrPPyHEYz=YHpNw;Z2MX>Xgn7vqc1E=?@Q
zAS=o_s(vbHRK}WhD$@Kn+v*<mnPjm}mH0GG(=qanllKgHBt8&{2QNxd#TP010(qY!
zkLXnKm*Gi<<HB@oMij3Rgs2>mrghEz2Bvpr9<Aya&IpbS4|Om+w7K+wbm#U}4!`-1
zVP3!O4yc2(3uiBUdEv`>Jppj+ws+-?EC_?c&ZT2-nDb^9wQx1Hc`FOrV3U)#v!H`y
zo~JIIT6MDMh=%J7+%=o^50zDoIBK?4UD&;_J8z_zi3pSELUi$X#?hLm0?;Q|oEI7w
z8dt3pYi1RV@cQbqng~!*6^pK^i@}POvFJ&;UH&z-Azo4$#n#kCAf>8%R>YWOOCDoJ
zPZL`p??>8z_lp))xz`6sE|q)H9neaLpL{SDl?_GpcS2QwD5&xP_xYnhm`3oxvSh}B
zkF0S8sSoKIb!5*B!6eH|zhP}rR#8b>M$3zwQoqVWYYRNI0k=6!Wjr*+iHA0Pb%aa=
z13Fa;X)W*sgk%`c20hsTDi^clG0dqlLk!_cJSiJ0jWR32Fkyzusw_f`Mq9;yvf9j9
zp!Zd*`#$o#M%e8a5P+oF!RZ5cs_U}VflPJa{85mY=O4dqcYl4$#l%W=$A7eUrudw<
zZE4e`nXGq1#=Bv8IO82iS?^l7hY#~Pn>}^<;>2R;(&W<i<xR^kUETV|-n4Ub);W}M
z4nbvp!}iuwKX8H^f7p`JzBZgnE+&`1m}%Js%Tx$YGbY*>X76G{#?-N3zgx{Yy6%^q
zqMb6KMYIyG!IfNYg5<Zt0IiYyde#g9RGFs)@%K^L8#E3^1Q?drTjkY#3jk71&dkbI
zoD>+Jn;rveJ4Z}yEQourG09BT1S3<kQOOpL#AZYBv6FOrW(>tuM>9-r^#hQKYp?y2
zofIzl>&JEMW|Zy~+o%CHP{vBOQI*IovX#Q402WwDSzsk)tR!v4+ZD`8>QmKg73^Uf
zSv^6=Z-<Q)teYP6FWmL1YImTes^m-_9`eJ^b>J@au1avxyB~Og!y>l~PYNiZ8ic&-
zlx4lZg8@~AQnh%fpiZd9yBd|-Am?wuml~0?3BSz`%-Qn5RR050t(8;pR6@nJRfft>
zDzLfg4Y$Jjs^(M8#V1=qZCC@|zlM6-QLpb))ocB$j1E?D2fkGMH}a)Ue5sB-Ls1Wf
zbvL`nGCzU)Kz|cPa7=h6X>o0)^1Y*vvCr1L&47F2^fp66HCW>n133+h&j>j(S4r!U
z&{onwDW~&;%NC6hPJwxYnF3Bt*;O!*Q(M6d<W%O28OZ5MN~%m$LdOi`bYIdH4dleH
zp#FeKY{QRCbF$+X`Z!K}nY^DN?-lY$kqmpZP9-e<7YecLKT9Ff(<n-M<=!K!vRu8W
zUIJ6i%zlFo9IE1D+&Ho*uNN#<-!j2G?Elm33^!U7vorgrFgyDi%+6Z4w_D7^JGF23
z*oKF+Zx87amd(zr({odJ!2uR$ko8(mM#5oXn%ON#Eima3#3>;h!I4<OE{&<u$7pmF
zN3&?f-)aKhr&2T9p@X2qe~n8Tr)@|n{YD{2l5EK!ydX6+-MSsuN4SLHm-wIOd4+xe
z=|I!W?paEnV7V?{Hfp*LO0*kR5L*|Yp~62R@4u4w-^hE7ynhH!GQn^=N>oG4gs4K3
z$;{|412W&SujGx3;zB8J#(T6}4kJ706Zcwew67uS+nDifTzKq`5==ezzR8udRpo3x
z_J2dpR(scqw*{cfcDAnCl~)EBojy`#Ba4r$M`S^{p!PV1&5G{Gv}HZJGz<}Z7`N9H
z3w7BhcYb5#{;gl)k4tDV1LrE-Rr(ct4mN8Lj6?n&ota=J^KlSlrz9($<-rq7u=#<^
z-$jam3FM=ThDbj}Ha4@TWRT=4uHpj3JrSKb0kMBE0S1%uI)|8lR`L~IaiTAi`99Hq
z%-Yfx8-tRd0Fi1~%fi7Jrkep}BRL;71hUcHMZ6cq3c_YC6q6cd5lEpw1xvP>X*~A=
z3r@*`(vj2b9V*FMc)&-Pjh>KPg_f}wH%PG|`DiTgQS>!9d-7b2g{k2+N&=p=hyscx
z%uUC~YG{57&VgT0qulCV40#DphS%B>Rb>Wasz?zAV=4}=coNV)GqC&ZB=Ew`cIfRK
z*qaqNGMIoBF!&2-Mbew}C2NsW#p+5kp=qa<u5n@w@>Z<@B3ir%_5zk@vMyOa?Lp4!
zPm&Y3q6V0vE>RC%D(I1f3wn9Fq0dzkX2NWZuoxW9ccaSR*~i&NDB#NZEss8VbRRQH
zQ{Sgx=I<|7+!rtU&k6AXJlJDbP%L9K#Q%k_h<C~R-{j@VBTiaeCGStj`-nU`*Tp}D
zC)uDjf(8&eGQ6X5JYW^+IVMSSW)uE4OE$JC3I>sqiNzw}m}JBPjD~P^_s^)JpOANt
zybsA^r=eBqpf`O6%HQ-Ekl*wfkoyiKAOgX1QuWA89M;-VVG38@gs^O~P0T4>t%}lX
zY08n}mYYy$vwTUlh?c8Ml~rLFuHsEMsmuU~fPlHy;-5f65ogIPA{)x$D6&B<4rQ^o
z6$Vuv5H>V_P6P6P$os$K{RMf{Wzj$$-c7{Cx1gjwvuO*xwjf{FQ?P%9U->||hFZ#B
zYbhQG3}NJ{Dq{G-uMcqML;Me|-rMfZoa<3=)`jPXV1C!xpY3=k)A3NQz9CoNoonjP
zxqZ3X_MESk!hqw7J1(?Speb9oF;lnkUY)(uk}<WWY!^>1@%hHJXN<Q#>m2~UzdX0%
z-MVlnwf~YES97!8{*1SOSy=H75$vM-eP<(m)9KDRtLP&&O*v03eKznYuFq3|J~)u6
z8@T7Q(N%hz^4v}7*-f~D(Fa4=!KJ3JMad6jJ=!o&hOP-6^Nn;FENLpaOjdzTsAPOr
zG@xAvpP9m%l3FX_F|8uh59_X}me|bdNu_1cqk@Bdhgng~z;2x+)yx6UsAjNh;J~Rc
zgq8cLN$3jw){bi-xgz7(l5#}ll#GX^q~$-Y@v!_A$HQ9ES1YhAuI9>AS;c<vmE>??
zbHZA2?5w3@2WgvSMAl`T!qCd*z2dhJlq}ef1zW-6pzD7`$(P9c8l~C`$cQW(K<JWO
zO#C(_n9pohEDTMu)$bNc3zGNu$z!^WRto(Rd30O_N-a#;hboYV;_JvMIjB`dOJK=L
z@q$IXWXHEl(kzG;lGeV+CKF@gk5T1(Z^hGPU@dh^bnE~&PV6`k3pf!s=j&TOy5ilL
zvO*qbuU%|icp}}rCu7@_v)A6$YwGJ#4(QS$>Mol1LYjSK;YiNakaIP|9N@OMf#l%#
z%z7B@+PDUP-pOoyO+E`Mbr;Q38<)R$%k&VLr#7U!cHA=UL=eR4otEBQQ%|nBCEYfh
zX&%1gX~}uETn}YD+jE|lyiwOi2KW9Axj_Hj8mrxLPwxO#>*wk_)7=L%bqC*lC{z1c
zX!GT}@UjKL?UE+K9KT`{y*;?@@3o{X7z1-%&gNz9*qv(*uoh4w*86yKu}=-llX6EE
z>!DzH&$L4pVwNH|477~gXpxjYsP(dZha7h37UY3YSf#bs<t~`WvT&NnC&(Xtipi&E
zDT$1a5l&;1?`*?6D{_+oR~<E<(TP8YhLzBXpeR5w;r*scJXs}N8^+xrW&f^IinydT
zPAQ?h3RQ`g`~+XCfVnGSeD!O<PnBw2r`;8(Rz?1Sr<io>)KsZW52}f9CT`S%-Yi`5
zgI$-iKo5cYVK0g@1#UsHAo*yHmAikS&Sd5#6cw8=m0~q{-^XyvY6sB$(8R&Ri%-SH
z$8uIt5+h`A<Z^7u$qUYbg!!Izu#L>*Fm0+#pM8mz+Y)L3{Q`Oa?jJguz@=twjTu{G
z*4B}+bu2x-T(x2Yzp6s}GPb@|z19i60iNh#1ui_X@I=<up0Twr?OWzoY`w@X!!~4W
z8<5#yNoh!h<z_ZNo!R={Onq;*en+N$$BJWTN}IDgFN`jXF6v)*UU6n?w`OX$uGqJw
zG@x8A?n|9XIqu&C=%>61*4ejW0}avtK(12OSi}q2+<f4H<3sx}SeV2MCHoOJOX_|M
zI1i4Du$dhhk&LmK@%U8e>;ygrmw$NVARhRPMCXua1O)HX09I7666?0Umi2i`C7Fas
zn^63p<h@7UXUQW3AU;dpbMWv;-yFz#Sp`ccj!2kCq}9N>EQTn00$%B3Fh>YT-VNl7
z-9%s6V=zo7>w)&k+mqMh7e|ky@k1kp`aF6|ncfp|Btz|rWDBMkAv1+6TyKBgN+Fw~
ziM3O#PrK$}6vXeC8yDjlb2}D_-h*43ZQZ%n&Rq9~Tw6!3cObWAd#(}D-rV+wa{Zfg
z_5NIAYi{EZMYry}yJ7d579oxnDLP$>nYh}f%ZW>gyqRJaJS&yAQV8ne`n;V&4z8gk
z@1&3m+T_KKONaAS6mxS8%}cr~z4>a2dAKHjzJ@|x4(Hj?OGlT6U^kWb5eUuhT|V$e
zOTLa`^_;Ih-$0>8&fl4DqEItB_A8BVG+x(bT8Hv21oCs;8}h9bY9lRnJB2!^Rh<;-
z!fE|_-<7^)Po};<-%X&NvN{3;>ct0MPh3eXhchjk^E4d!zJkVjQNJj>9=#G>e)PLX
zuO3Y|@5t2d%$Rqs_EV+=-o@1KESpRM6lRkJ<>_QWc|KXNIH4?hSYy_=l~sdyp%x0s
zl~72ogF?kBDCTwQePxg3Ab!W}NX=bHEF>16dHsbeFQlD;jJbDJkCc3yR^L{Z9r23U
zKf-!yW0-?2@<6ZT9Gi&}n~UqYv4PNuF}8~&16XnhiR8zX2%j>e2gyv=D?_kCosjQ7
zZ}=p9_JAyA6WP|LeJk~TqGF6+mtWYTLr7|UKq*MH@WeWM&5ONoCK6l2h+L`r0mT@X
zUbvwz5}(7~qLLh}i1KiHOst~Mdl?WSwrFgCJ^vYGVbM*+m~jY0J<JefgkVYXo*<8*
zC{kuKO|EzcAsEok#$fpiIfY0{T*)zvH{K&BAUtFu2uY8dd6394d^AW!d&ujitft-a
z!##V&jX+ZP&&8gFk2eH){zDVTcm8Lt=?^*EA8<_{>9oA&BY=+cA8GWwW|f2Ykqtn~
z*Y^k9?t6x_Jnu=@ZMcWm$azoxwAR7*ELG<@{M<PHR{Ia0TczL!Z94uj{+{DmEnl5(
z8NA0)ARjk)_)fg&@oM5LiM$r!JHRnV7mfl&@|{@kj_M09EW7|bh?uFc0f7q<vv3B>
zs+B?m2HvVxfv{Qy!X;HutXKub<SHoSw(_p`bs(GlIaf>0+i>yOoVzPm)0wT=oT=IT
zq1B)_0G)y8f9}$Am%ni73o`ut$UWPrmTyZp4t&T_;N!d*^fjKi;$1n5^ZXH9ct=pa
d@cx_iI}S8+?=<TV^lIN}*Bt27zSBwJ{|Ci)5o!Pc

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/deepspeedfp.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/deepspeedfp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..369bd8e2e931362ca8dcc9c58c6b0899fc6e6471
GIT binary patch
literal 11053
zcmdryYj7LKd3(SeaCi~m`yo;~O0+0YB&a8Ct9rz;EZMZBD3N0)Xj2%%9Vn1^W$!47
z2&gEory-lBvSyl+nK)y*)0s$PcOrK><K$P88P7PK_6Hy;1#(rUnn`9_|AS3>;z|GX
z`}S~$0|hzl^j~*?y?uQ9?cVP9-uvf3z)K*d`ERGPgM|DBD`pbvg^gc8VTH&<=F%j?
zMY)V4>fo^MNIRoW_T)1{RH(PPGC~6SGw!I!TAXQ5#vAprGN1Nk{84`<5Dl=pkZ#Ka
zqrprl8e(-<x;@ho?cj)moFTINH6n{j@NK8Dl4vJu^+2mv30SRNtknmtenpraGne0Z
zT97>pj&R^Z><Bw_=Tq4QUHp7rOXafh^tmvnyDuwLg&K5vUr1$@I6WCx6+L8>&nnub
zoQy5d-|>a{cvedl;yC*0TsE1S(L3#J2DA!TL#m?1t|+OQOIj?hX;e)#Rz`@sUfI~g
z5%MkAW`#sKnM55j7j=4whsd3>L*Zp7{CQbOx|T?ilU=U`qJqpTuA~DtiI2J!5o#W&
ziLdc**HK2j(CSfqic9e)9sSS>7)X+ry*8MD+$H+~LmR^oR6?^m?aMRDI2LdRY~wl@
zJP)mHw$@Ii3)T@-T=fw_TVJ;v0_@`tW1o#Y+$OgxF2K|$`xqvd+yQIsUm{nz=)eUM
z?$+B+DN6oAUQy)J=Z*a@d|*7KWR6N!uXOsn^flwG6dIA9(<F61pU+WEm6G`>DV~+#
z`9#F)l^{JuXVfFCgthvaT})}}5lOqGNLrlED4L0m9leCT<I<D_a{?9|hG~Z8=JPQ%
zRZxx?WeLk{W%b3xQ(7)NF3CzVKA+YkEhp_iP)DHqY%}ZL1}@!26>Xko&n4;%!S)T=
z6zd!R3fXtL6{4|b%$A)+@*U_mDS{(Ku1I1I6QJmTnuSXf&GuO)6wI3OwDtO%d$2Zx
zm`qwGMKa4j3?p-wIohwan>{j&X$ALvB0GQJd>i-y)2rM93G?T|jt^Z>`w-Vyxb*Zq
zrAk&yFN{mMY<fYOnt*d)XTS=^{xu&|oGRwgD{$tIppp8qT%6aWnVcpST<m}&VUI2V
z-6&KSW3f~=rNv@204t$wkm-V!qlrtpcrlsI#kKuYy4x)HF2~a;Ii@Y-6;=1X6i?49
z&rq79VP5A|C7rY(@x)?@bX-+qF%|a?i0Jz7qmx=DKbcSECk)b?xH|v%lTXY&u1uy=
z7bo)zAds??m(%IYWF{vo>6mg=NzB7yCe!f+5M`4lt)Y;bl!0MXWSC?=l3$=*xRC=E
zpO{<}G2d?+^s5=jKD|yhy~NYD>@JIa_r!tfw%tqoJ+ZGkFtWt|W$^ys@SEqpckZ2M
zesuQs+0wQntnYy@Sn+Ku`?jr3m3`s+9fLIo*M5q7(Ait*+*R(}Rq7a7J6#hT?c*Cx
zzO$`H_&{6DN&I6QFd<3Qj~>eeH-nM)5h#Eb0s@}J_ALpB2Fb}H?MC<a$q#rC8P0Qs
z?GL@}9vi0}E3}2jZJc}Twxe-8w>dfhC{<jUL_t#$qy(zuX)M-y7mYp?cWM~2>*PV(
z_^lT!6UWLE$4cYJYlJ&7P#xI*=H&M#OZ{UtCl?s6Ih`Ia9Rld49e}#A1Gp6{WPuAi
z&gnkeao#4kIo+8^t4+%TQ5DO^GfJ!FnSBQUqly9qmKPjkQ|qn-Q)dbLR$7N}ku3o>
z+I~dPhN;NO+zj`2ecU1*M{6jD4a(^NX#sM``Hs^Z35Ug>(|MGvjKAm(Kn{vDfU8c@
zTqZWBEU00g?uK@{2Q!NoP2Q=Wk&l5JFH{(M==dYH?kT{dJ`NddMNfaFXSCciddqdE
z=Z?7E^W>7R+TB;_-d*nAy>|JI|JJqj?&C||Uj;i>zka81FL<&fo-{VE*EWaUY-l=A
zBxgp_eNX^-ZS7K#m{RWo94VM2bOIo#1eyJ4+i@e(%s`1{m{n5PWt-PfgOP`Tjv^Y|
zsq5r^aQB+F9vm-;;}6pt9w1xZNhsLWNh|JZD4SNIe8zEs&`CfOcG7Nm==`NPNWC5?
z(#IgPzf~VDxUQTPITlZ7F_{U@!dUB<YXy4(k>X6($!|m5E8d&lH=aT9R0{4biF+S@
zSAcwow?4#;q9d4XU1JBXF_X&167hWeVk(`|778P+SJw>nG+<LvKVBy_7YTJ3D}lO|
ztX)Uli*inO;O?Q^YG-mhW{`1YR?TG#U8YTAZ#CA;7LG#15K~>aWMgP7nMx}t64b)(
z){EW>_bi}MQB$yG2c)WhXH9U1yftD<DqUc@Mt9|@l1yD~vP^gw$Oy?0-8MSsw7Qf4
z+oWEiJ`DvCOLjh3FbPQarqonc)#BNNLeUmr%mIXjf|)*v8P22PjG#S@w-4dl8{1ds
zl%1{L+z#`3M1wLOG@pz3dtO)Gh~D$<x!*Z<>(F}VzLI}mHQ32cFzlcm0G9%H1zZXm
zgtD=!ZKxh_t79?U8;gN@o=;=hAH&t8>pkvROwJ{s*_p~}Oe5<~Riktm@aR5f4j8MZ
z9>hF~&AgmSXcS+PqH>}8SYtW`;~0ktjA`gW>_eHR`(ewpRHBaP32bs?v%2dnTNA}Y
zqQ|f`P`5x5N;(~jf$(7_01BtivCX7t_pz)K3ThAZeEJ&s$RP+~t%D2>RR@MXatDRB
z2i<)&0iHnUP{Nj)NW5*Ic(AmS7rd*xHV8awe&T8e!$24+^^bo{;JM*6TVO2qIfbXW
zwXU_qt%GZq-r5dS2ldjSGas`;9U9v<yqqvmAHxabx4LdAKbpHeR}LRRykKP1@s1lX
zJSTLl9mKAV4FS8b0lPYC4p`XQ$eQ|A_+wlnjx-u;enIG}b`Pw4`R12bVmD(oC)OkT
z+4F&?z0|R{>>2-^0IiHP*hVE_qpXCY7t;o~#lYcqM-N>*aHX8!<OtyMg=9f-&7y6&
zCC!GmG(c5$DIVFacoh%2O5iVh!0GdVhwPd~IlCn#{j%>hA?p8M&*BGs$Z1=W9C$=K
zUjT6@x3%s~igFNE(YC;c+Zn?YR6|=z2AMY7=S?nLD^JZ}UPE{pu9}U>o85rA5M`d4
z?zazYGI%U$EW!J(7;cmG<}#QpG2{!DOabMfXQ8gU43iS10h3GErXsewL^AB|hJSkc
zyxmN&tnWX?VdyDcC)L3{XjAuBdj^*H@Aw#Ton!J&?@ML#^Pn`rw~T>v63fS_mO^7+
z@5#+;*k!daAn-vNBXnOK28Zi@fQ)BUL**tcPY_msqSgohjsJw~TkaKdO}NI}WVz+3
zEqXK*ODr{H`7Dm#l8T<9Bk3@0ouUgYMf;3(=yy0XaI@&ua0M(Cy)rP0%)j9<H3xdN
zvnF$yVDOZMqPGFF<YsXbanV=w6-C*NO5TpOC^lfh;}pT;q%Q&tJJk>Iv?(4V#C|-+
z9?GeV?yYYjlqqVBCK^I@hNkPrzd(kL`LgiMlklog+nN@6Xty@6(Q7*HKyOx~1Mq;!
z%z?}8_*?GpT`5v@{vG#M9Bcz(vEUko1eoHD@r&p|S*o@H1)FF&@Qqe;1?FLK#H4p{
zVdc0M*8?(8jlwvI5fW6*N=)Yy^Kv}w(gj9ddH@_`8H_uFM|2(nDyr_9yTYEq98Jw2
z#l|x+19ROwV}q!Qgd}0QZs_(-gL|8R3QyZOzlpOFREcX!eP%UsG@VPt)9Ud^3nbTI
zA~g=#r-rpQR0{5??i~H$*jr<-2dhInD?|IrL;Kc;4!kb>wf9${p;cw=tEJGXJ1^c1
zo%-=hkX6V3=*M6BY4j)2QYeftt7ohJ_KJUd*}r{tv9e=-dB^_s9S48uKV)bM)DmGg
zsQ&qk-ep_=dE5#`Q)u0Gz5x5n$dRIrsCQ6h2GqX6_Xc3tZ?lHZ0}%ZJW?#hY0%nY&
zaX!66xvJ54Q(#i>w@HL%fx@Vp$}mtxD}Wt?B)x)9<1pHq_qWNw{ETzBh!~e3!>#Ti
zfxfE0=l;lOY0vTXkrO3x_<s9i_x<fRrkAHnefvuXpD*>ku<k!w?SHJ=KUC=-EBB9W
zy7><8k_$r={Z)U*gQ4x!?K?gaoPoAY!R7JR+8}gM5v8&yt@YiSx+fmk<VDZnS{Io-
z$(6)`)e~iL?|rdvwWl<E@Ry=-B06^!{m;0{EV=}mNM=IDK}OxU1Q{xZRtyL1%zqX;
zFA9G^K01m*(P>IQ(}m)VL-=EuSm#dbt~B!i!!FyAr=gE#Fhgmia|;cosh^V&&*#$%
zO}=o`@v!c1!(bJovT!JV($Tvzcyn;c1-o1EOJ%>b?%%n@-4BLtTwT7p%B}8SmDhv2
zO5!eqnkQjgI7pAfgQ7b|KZn^<m@xwq-3dm}^f@d|V|Eg=)0myXYz{Kr^`eqhbCgnS
z8NtkQYM9BuvX`M<{Rha<5aq!T^*e-ZrN^c=2s~?jq<7m#?W4ls2f;2}?2T_Mf1@Tq
z9c;Z_yK8PNiDdY(wF_@~Y96e4(PZ^u$xnLvYXK~^k>0_TxtntvL99hN@>uvIk0^{Z
zA%!|11yVh_e6;4qnn+;M^m2Oj#d6zl4F>>rZ}7(8^5CWqYR2nKz}k@?tz@dpjXTiv
zu$9;<G>ex5v$(fg5(LoQNtY~uRVjj%$j_p$vL%7li5Cc7*$-CZqaeIstNA_?g4vV{
zVmLsPFhQZr>?@lnGmS6^y)prhQcYqG4n)@Dnv}}q(@F+Hx)_#!ViH303`1R!7@>CA
z3}8m2m)UiSDzTt01Uvz4Dr=hq!n+xW3^N>O&VNZAXMz4iJS$yPAm(oBCmCQSAhJJ^
zgc$ObOG;MCLVOgEU0h%Re->3WqWYlfQ9G%Z;$Uc5c0p^=Pyj<=1+Q-4A}382`G#54
zDn<gL!aQ@^*_itFv&YJo5j6*Mf(wm)B1^Jmmc0sLIhjuj8P_7*&}rzSvee3#0C9%C
z-Iiq907d64GVhjzZ`-;DT3dJ^1rVXK3rETB0^mwIG|SVO#faFJ^p0hiExK)xEqsw#
z6cAeySW51qdv^PlW~iFtby0*%5iw?YRz)Y&tV;?APl70J_1^Dz%rgRbi?a~dEJ~{_
z$%fzY2ncKEi{b^ci!?4=MhI<RblJ{Uux56>>X6Bz>zeBdcZFPaeuZ4&!rpVtQZ2al
zMfM+x94H*K7)PpKa7rmvx<Yf=nTT{gt-y^Ya1TTY(rMt0`X#~fW5(zR1YUio&&R${
zze6ir{6iz8%c;2Z3S3$|8tE%|-!%`@TGJ)-7WdK!i>Z8wS{H&4s1V?RBogk@J=O?{
znwZ&@a7F8j#p<sH!4%(f8NA?Q7cKgLH6W79tC3{hGEOPI0vPH+6D5<^7IYyypHb3A
z&>0;Hork#06I8`wTPzcwQy@Tjk%=umKtYV8sG`PZXk4cAi0do@`t5Vn#RiMXggr*Y
znt@s(gf8GnT#D`lOOHmeio~rVFQb9Ql3`^*z$mL+fh&i>Q;q9S%S;6Ck@fxnM{ft0
z1=V-J)BA7!!QTdZZY(Y@u70I5bf7$RU_E&7A7|dnyqo#iv+Gl5?*`A_?-{OkUD$9s
zdOK>w(cbZiiv&(=wvkZxjju0%{XuA;5|YXxX+5-aEnV4ttPH=<v1(|r5*jUsMsJN*
z#!i;u7drW~csX?D7sKVy^AIQm8%!jfeJf)($2NVgkavkUP!^YqmEc%8ICksc9sZ77
znR>Q7_3V1^xh1}Ssbu=RzZx99bF^}Bx_of@-r)0w8$7yyiLZ$LWwHOBI8q%wXs-o3
zmwcaYj*`%}kBQ*vz27lZb2!?=#wC+Tx_WCKKG6GL5VP_0{$534^XgOHQxbV!@|-&2
zd_U|zb=dj-VFAjzOJn9olShYgni+osu(^*i{#r%JWo~W{9P1FsS0w8#NwegCD>rx!
zE+tgQG+cy&--d?&mek7i1xQP#Ho#{ssn%$N6}7+#<1LBSfNd!SEjQehNi1efzY4=Z
zbhy42!+V^tPj|`6<y1n^d5q~BW*){X>2=JI=yf5H%P+*}pJ7=vRkY#nATyc~m2W}0
zDWdWx&`=m|$q;s5^k+CO0~v%=g5AgsmEdqWIK1}K-QeCkuJ`=!`rj8m@c!I;ci(hL
zoGt~YA<BDWVR-?q#;QM5@eh^#Llyt-vVV6q)U)Ed>8ti`tMu+E_wK3m9xC@9stF`8
zx<P>KH=F_n$%XoL-Z{gM0F`GY%a4F>U67PoI_|AVsTBd$$!qixSS<3gX16JqR>zOT
zYLQ$E!*bR#A{rQ5&yC+3v@$eWk=Hv8Qzat_6<+q5vhR!Rs|P7A87wJ53{Q*0Eqr!{
zS!s5A&IksmQZ5Nypye!Mv+->PBhA|m-34+Q{9U>X?-2GHa`!KwOws$<N}!A=y^Wb3
zCd=1hR1;aEpH{HnHZ<gPQ^e$-aNsOtAgx6b>OzvM1b38!J1W7Ea&Y99>uxY|=g@mk
zzWd~RC*D2rzVgBB&u8x*JYN#emxAYkMk_(79F!`-z2)Fupwk=AEkC!K#H;4x<%#2!
ziRtphG~BI+#=$2-qI8&d%qYpsWJ$KJ|L^38*V2})XTCmZDer(F>(ZJL<h4f<B)AUn
zbqV_t1-}zAi4gpnS5jHHuTj)jn5)vDAKAjS2TUO~ep!*8J$Y7|I4)iI;!|g(i|}32
zm6WVq3U8rXdIOgHKcm(z_`pO-XsOGJEj(wVTjSzPch^@)837|r0NWYXMlaB5D<p;S
zM+w_j(02i)ih&8BZ}0zwz7Lm!hwJqH`W3i_2fN`+dFo7M>Oy(y0#Z17{dNjBZk_`z
zLlI2(%)qJ)PG^ycKgTK>dlXd)MFytd#cTw#M)V<xRm}bd{wz>vMIVNRt_NNHE7Lcp
zYXX!ZBw)l2YHqBFq<7DT2TP|pH{3HF{^8NLj&2Yre$)Zkt!IAp!tEF8by4vCc>brw
zpA<I<6ph(&&Tuc7CJT8Ge#RvrQmA3XitIC_NH)s?D|)9{jU?x@KnM7hqwZ~#X%0r}
zo_stp7oS0N%%C2|&xs<<pA$ul&xs;Nz{$9Kb>raC&j7Z&?o`A@qCKnkw;D39rP3-3
zY8oM;3AQpzUb4O3atOM3)VNeVPTvG*kXl522{QPQhU0!G5^nf6#Q$s3{qJN)iR}0_
z8Tt=0{X2(~b9@4Qk8ir3;<&C--`FO>!sfG%qufYodt{TqbMqQ^isQVi2i`pTy`!HH
IEVJ$ZZwBP4-~a#s

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/experts_int8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/experts_int8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bce4ad16bae59e300fc44296b9ff9d15f6a3b730
GIT binary patch
literal 10786
zcmb_CTW}lKb$0<Quy_$52#^FH5-5qHKvAS9(UxQ@vSVA4ZArBCuxle})*yB%fm%Ft
zcPWt=&|y-wCY!brC(V#<lbY^y8mjV)-9Ne0nW!I~x@l($MDh^Xs#A61nZ|!`Dc5fM
z(Vla6@gN1Mw#S#lv**6fo_qG*^Sby4uh&JOD7GIYzZ)UsS6HbO-bB_u2V{{*MB)^Z
z;$j?!xJ9v~tTAiK7PGOsRpDbiwA&PW$`Ny<gqXnEdBvG>#at<O%$@SYJgm*GcvDTW
zrj#${V|9n(Pc_GyQ-N53)di&`6^sQL?o>jl)>vz*E!M{BE~Pycj)gg5AxDYizDy*K
z+<M(=@EYr2tzKwtl0DVdPRS?p6Z<O*t34%u<Mwfz)O^_%>z=ko10Un?D5ncg#}y?$
zrpQr?ZvAF@S{Gi(YRODGu8cy<rn9mpYI0i5P%)K}WJS!zDNF!_#?$9@59`m0XK7|K
z8@1}fkx5mSPGk=2O%?3vOnN+dRu5F_CuHqhMtUl);u~8kttThrY0VtknM`Z@#Y_9+
z!;ivCW$^;`i3vsr=D3b0({h|51-<R1H0w>~WXWhY$iu=~7|CQVj;k?RRhS*9Z?5oW
zw#jw8ak^iHwO^8xXU}P3T+^tUs7aU*hgn&(aD==88%ZWHP9iaj#Ko*q(;OM+B<p2Q
z%qH`aMYfMyB->@%b#qe8!CD2`IT5TUYT#jbz<9oHyqk^pK&!p3)oW5|GG{pI`e18F
zg6x-@<mPb;_DdFtzy@&EjR{CD;9&dx98B!EzfE$>O|X)X<Y8~KOJ3MYt#f3Gi?y95
zQJ>y?cq%JXO??i&o*~%WPU9I#C~;MdjAv*BJ0r3&Fk*f>_Jsy@JC(IbnofW`s|61L
z{;zET@FQ-KXw|NHE>C_R4s%7O9GNE9INY?nIth&Ef+!}_Nlg@?$)?K6xb751#)&AZ
z7N8TE{qJuLX{qc`HksX}#VPFNT~m|$4(va_PaaZ|V?)_#*sAHFi;9vOGIqZ_B_}4e
z3>{M9(=t_u>Q^viE(_kO?H|leQ<PJ#<36bjR`}Ws{c00{&u7UU!8`9L3hf^X9c$1+
z)=2>ym=tV)ERtz1Y8ll%^{=}IOV_OlMO9IH5!wY%7w~YV<0-ij6O}#`tcp5umfZDq
z({8}ly&DC^-u)CH_41#<o(-k;btaJ24dtxmG@)(K2#SISAtui0!q~WyiEG1;>b7%n
zWt{dvZ~YS5kxlrV*$mZWNsK2nQPQTfvYP9^U#<@tiyK@G0hlEp`9q6M3r&B<|J3!i
ztKi#N5O&_bWEgp$xIcao8fgT<MjiwB-c&LzCgR!nSW-!9)46Spxm!P~AE;GD-+VtG
z_$is_?SL$jv&0l%V>W`whM^?I@uVW-hgWmk8#A(T+#s@oDh+o*^PH10quY&PiTW>H
z-4A}ol!fH0C$OHqsD*BU0hAHOIT3SHy2oiIW%8NpzMs3g?maL~bpn_r|K<z)U~<l5
zu*I{(r`xks9#2luW*Ct`IaLa7JtnuyfWVeTIkJ-HwCYl>n;3Oz6_229A?xO#_*tpW
zY1NP|R`MjzO)zhx(qcR-V^4!xGB&+kcO}(iTGis|giO6KjN;*^0suW&CkZg0h9S~j
zX#R|k5Vg_{96gMHNd}h~sfg8&U!Q3sF~tmQZc81-r<v^>+&Jb@prGypFiY;)iKq3d
z{Nvbd_l`R){kK{M3Z8*G-nJ$F$5Xex(A2kLTai}>4;2Rw-D-KF;CZ6tYhj-QzBHb#
z(P%qrT-<e{sJldT7bX?NJt8uum^}_rlrjlXWZF@8Gkt7uOnpFxZUvy*l%%TBUPO6z
z-YFU+-3pqO?qnEr(_L(+luT$8KRMlvbxS&}+fT4}Q~a<L*Qa|;&7Y7JMHH`bv=dsH
zqIr_(N{VKf0o0u8KLhyuGWn(Lkxy+L-&wX3dvn>s@tX?af&U=zT(eeMs(k}1!4>)4
z^ViN7qmSX3f$Ern>X^XtUhE1~y8?AxXI8ep{py3dL(9SC#LC{~b8l}d1BFmw<R}ge
zRVjtab_X9Ug*p~rS$JhpToB7vtPc*e=Ur!WA+WvZ?E8#|R`%W4Y7?-~YQeLLWi1D1
zW4%iwTfy|(#%)!%hL>!zeFFFIhBASAVMCF4*(urK-vR#u%xmEEjJwb^iMhWNU6<^U
z+&R!&;MjOzw%17>_9t!mQq;Y`DQ<@i1$^+v?LJtYU-n7O@E-u2aVE7?u^?cf2h26b
zw#t5UR-4=`waWo1{Lt|o@TN`}*#*z;hmPFz(B91t?R7Qom0KRr-cUM*6Ux3-zZAL5
z$AaKW_FS&&+&WisD}4k+u6qo1W~e{i3aW6OmPhr6|7)lWH@JpY!!^uXuA91_11+5=
zVpaQBbh4GU!)&ID=uyC;HbcuIPM<}<6a}gmP_?s$u3&y$z3Hkd?5b<`O_-pfz6RIs
zo{Kn}m~*$(a$D#wb?un5eJF&DLx}2Jcc&*)qHH+Dy8B#GlH|0gLQJD?28}1vlq@CV
zn#`I+aBVRN(~=n1=pKy6QmWw<C90MRsG?bM!~fcDkkbF>xXm~uE^og`RLk?^`+!Lt
zE^<cDaOJE_pm(sLfJ}voottsyojC6xjHz=2k&6vw0=e2yYW8-*v!M&Bd5dJp+j5}J
z^VYoM9qV<IE6Mf_Uwyv|>@Zr84Mno&U6nB$(a>37CGX1H>)I>LWa4Y$7&x^(kXQEu
zcy;96bv)I0b$@NV2C56KA~osOeYXZ08sv`W4az#XdmgYBA@8YMi!l-4SCDT*p7YkP
z#I5%M+&c5#8n@FV>KfI(X6z3EiX_vIQFlZ+dI%mzAidzF@`cGHl~u@n#3kKzX?U-h
zEYO{o_S8^lRugeW)&*!~Sk!HJHa3hC4OQ1}#*xYN*-FO2cq@GhUZ*=>#6vEFCeV2~
zmDQ&80F}>zi)5$*ql==LbUr83jH)|WShaUgw5iT(d>#hSV+f8TIDz8>@{~s7m6x(K
z2e_%gn4wYV3pglriN>>8h`-iJgq}hwrxBb%@DczP&Vr__D@H8Zl%O)IFoS}c+gj(H
z*3{?vLC+z<dC=gXLj$C>b1}9Mn{(auZ7OUTDf&hV!brh4QflvCd7{|<_?-7nWMnmR
zq8K?*@-$!l#+udA<0=T<;9w0s!xe;%r6-EQPH=O94tPkbp}u0M?~bSW%CY%lC4Xnh
z-&_dpE&BH&-Ws{*<h@O059y4QeWZ2A8WCDubFOj#H2JC!DGHJ0u9e(v;jueH`%*`t
zci(McKad9J>)C~8SA*M&!R_^=f%?!!qM<$@8gk7!>xp)*B!LnV4HvdOdRy4{Q83(y
z<kHDP&y&UOC;yTEC-2{T?^!LttR0zk5~RyBx}F-d2HlTZ+86gP>|br^Ew=QU{4Kec
zzxCJr&%Ez@Z+niEIyRSi65PH<tU=eDP!?(wI#yo!P<Yg^S<KyE7Zjr1VYV1e=K6@M
zQJMhGVAZa`1hYVvmAu1MbUUP!ETd5y9GhX|*s%Sj^H9xY;jsrE5EG%bsBJ%pMXEuP
zk>W9<&JGNH#xXZ}Uq&%E)Nm_4c*1YNE7h$4Sk&a-i9R>@+bfgrzJBfXn`a6qUxE+f
zca@37>0$!YxhYT=nMpjZO6F`*Q!)LK70>H#DyK6v6<5&K`++?pkqTTw|9Rbo&}h>A
zH6Ouj37l0jV{t{Sb*Q?_@FK)iJgc`QCRGh$ZG1B-mhs7S!tfc?M21#c^bq4rVnSw(
zkYveFy$#$A7>3~|r81i+jwR!&-UX^anPyaBJ*Gy;q#^5-oz!#}%uZfp89m(%IS5EB
zi*i;O)BPrAsMo}cN%@lAhOz+F2x}Fy=cZMLBjce;2Zfo?3M@>fwFGXvO2NQ`ZMa_p
zvPkmH)LnBSB(CE2eV>D@r&ZxnmYEP3|Edeq$Oz>vV6yFCwE4UvFXY{MPu`nv%9BRH
z{X4enrknC@;9{nArfsGjG9e+L!8LSXxJIE;zBS(_@p*sV2d<L~-qav;ddGg<beG^j
zI7V}O4!?N(sYp7bMXFgbmREhP(I$Q^GA(O^)UaH-*VzBYcTl4q-COZAHPFl|Jqx0w
z69~>BNFq3oKtYf}kVS9-0R^CYl4*#(!31JT?o3qBJ#538I$jr8Eh&LHg3Y1CA?txQ
zo2m#>2+|19*N!^%meGv%Tq>)`DH(iT=`f|R3%6nJb#Q&|b<oJY4pxsd%^?}|+w>;L
z^TKAWI@1Az1(Qu9l~6TXy8pi0g>X%O&~c>7gi@0S6HiSjwM8@#kFid+;z=ZR5y2${
zQwSK-Gl;zoK<7jiUG6%=xgIslD9;Yxx_oZUda}OX1tRL70GK783=&V<oj`BN{|s2e
zmL||h-lk7MsUPJ&+BUGd?eXHa$4ecZrH;N*_pVZ)t<=7?)YgMIw1<03TlO)edo{ef
z7~Xv^?Co_Gg`PRj)pN_-C!2`ByX5hLtzGqW6+K;mTzO&s1)LY^E(P0>QuJ_X^DrV|
zpfOks58i9@pknlxigBF{aRJZlNM8ly4e|yg`z5Z<$E(I}&~286R>V>_r#>Ds=SWr!
zcM2<#O~bbuIA6oZU2|lPW0x(S8A~40)^PN6o`qVvmw9FtUr2YG8W7W4x}ctmQ%Oup
zy3<s5NhwiHFT#6J1GT{a+MmL5eq^aPmDd>?piTIBS0kf2W3MGDK}XqHIK)dF?jxgC
zabRa0HBDEc+DPNg2%xRp=4<O75Y(Ar^9+}V#LxL1ut|?--pUXN`y6Pjf7@aN_0`c%
z;QR}wgz`2Cv~7jL1j=MX$vcgANY?dl;Yj+Yz?F@0_1xFZ6@;*+Y`-FJuL5uO`z2<q
zCGS|jmKl^-aKpl(+Q<@s#Oh@JB_-CR;k^qhk|S^ZWAc+~YUKNzh0MD#jm<2e?Yg;N
z@jfjojDCz;LAP8QW@ZGCz4S$+WlwI~Y25CSq!dYks}UKKBgu5+Te}B_2lo7CWNcE4
zoCP}-^-w&9Earf#IWXul#bcn`CHW#$bc>eJD_4OsxDg^V6=FOsiRgr}m`P<mo^F%k
zT3qK7nJhRU7;osVm*dK$%!~!RXbxXAj{wym{Q-jC1E4#!tZ`xOGEOK<uJ8<}Kg0oc
z^EH@{VL^|I2EL|(XN}yCzS)e_WX2zOFG|G)G6J^T%Z&{2;Dh43!GlT$h^U7uBOXNe
z?|>Wi6nqOzC^eC`M{cz~I(M`b-n1G%R16=Qd;U%^ywtb+e6eHjy|x>}f7yA{Rowmj
zt>Ce_!*@bGKm5*WsJ|HMpF2|OimrAI6uSmiUcS{eGI!#xuWf1M7rxDR!Ut~b`hfrW
zg%5<{V<&HgPhGW_;I7QK;9K=?EBd!Bzxp2cUjKWZLhr$%{~N3Rr;GllZyx#i@CWe^
zM*imbhyIgyo5M?Ie$m|X1qiuroV?lb{&xzyj}>~475&Fo{illlQ>9?X9}O?Xmqr$j
ze`>Wf2O#<gbks=xocrLB^}NA7-l~6V(Z6;1xxcuue7xu%UiI%Q`uE+i|J8+?JvX%X
zJs<iHf7BW&Y(4sca5GovId!Y`bisf6m!9xa?{fEh?i;V%oc_>rlKJRSI}6HLyiH$W
zJK_xc*#mtND)b2e5N%X<2mJ{&sA#TUd(8+j=x;zJx9dxN{l7&b=#Ko?EGgT%oTs=u
z^&wi>icKGNM&3I3=D{+L6$mmry2}oR3Z$*0>}05mw0Hie8`1JX;vXsqgT|tKM@C0K
z{$D7gqq;-QjBBa*6nZpJ%1?|Qfot)kG6`eg@`mE?Naz6sk0C&<MDdo(NRIX*hRF!}
zGy;?dONG$a5JMwEWd!JX=(e#;MxiJjCOw^J*$4=FCc(X<zk@?Oa1Ev<6Xwki%8ovR
z;4pytdznYD5y6w#@jrL~E|apw&PVUI_LX^fLg3rf^{E3f|9*boU0?9Z)cn+y@6La>
z%tIZzTf=1sVgh1L#9X9*SJ{o2hqQGqo?ke>=Ea)E@w{u@9SYR%I=hy%qI2sS50!Ek
z+0s|)=`Ho`EN$6V>K`oa-B;>@YJX|p<E34DN*$3>S5Im82v#3C@X5{tK%kx_r~^yj
zEFGLbSax7dAno0Y`GtJhi8UATx0Kz8c}QzV*^5{c>D*lQA?7Ec_N8qL&zGCA79gFQ
zmThnLms_wFB;Ap62(eboL>yl@zC2P4_LbYPshw=;UwP*3&E+uGI&kZBBGyGBz2$Di
zHo?Mv+VytVd$wZFNO?0hMM&Syat~r#;JxLoh;2izdJ)?W35T}^-h_LvV#ls>A2#h+
zM<a?&{qTaf@^9u>q~hj1WfVtwfVg~Dy5_r<_$B!*<xOSf@Vm#a9WQL!Uu-{6bRJmS
zg@Z0~#2)y>vY8*kE3Uvj#EkR<?grg%xLxe(aoz6~c<5zrWIybcdjG1CPgUnCHb_WR
z{F;ddZsZJCi#Hqf*Y#H2P2kKdaA%HY6^aBAYJFlAV}LxDg98PQCu!)NRV_DMYLJPl
zSH{ROaNR^%e}j~Go^!)HD&8WDLI;;0rGEhP&cKgltWq+iJI>2;77!zP6wJ%mWHJrE
z;&~Yc!i7wHO1H+xRItj)iz57d2cmQdo^Yj`%8H;Z{~U+eF2XqaV?dd@1dD21qWlP2
zD1u*O7Y3W~BN(^;%H#8o|Ka3fZXtKey=B$Cz3ARP`^+70;L5A>uR{Cu!t`?Mt+pL2
z@f*S0-a|Jo6usZP`ApIK?Cg=dHrE@+zIW`Z{kE;G1o(;Xow)phiCi7I+Pf6IZQFF$
z-8_53(2bjPUm^p)WMiofbud1bU>ZxeLof?@5aUW2cayPnKZ`^qyq8XbYa>gBSA(7m
z{T>4R%!b0mm_pzAMIzTh<8sT;pXhMtJr9|tu;0DaemS7`J!G)yaj;AbyII%we!<a$
zWAMv5^H&GdkE?1%&ccnRLuN@)S?1X=7<e|B4Pc*^MzD%MDKes0;h^!OfJ5|sXu}hr
zVg{gW<v0%FQm*%3N#s|=^Y7%j&n!01@(BU(nac_QI!|%`LXLiBff^3ochBC#1q<!{
u_Xs@iJ<G`!Zm7_?>mEU*{30)Kft8ou{r0tQmkFRZ<ew?;EB6p({QMs?#J!XN

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/fbgemm_fp8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/fbgemm_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c09489ac71b859be39b37256d43cfc894c72d361
GIT binary patch
literal 8582
zcmb6;TWlLwc6az3z9~wgD2mp@mL<`4NXL#HIqNvx#C9HjC9#7h?4}c%Gn6O|AA4t%
zSXw%9TcefH1c?i5l>iGwMi+=u8|Z!-ML)7YfDO<evQj~2pa3p51)4wZN`V(eKYGrc
z8FH*JMsgvYd+(WZ?>+Z%p8WSfz)PUWj=wK_HAu+sv11me(b)PwXsi&Ch@4D{T!t&!
zGBytTHrbxBLv5EGMQ6sza1Pm3bZ6YG?UebVC*xslm+US2GQOfe<1Yp>0fuwS!D1*A
zVr^ay7ke^2#YiT?`X0Hr*q7-m_GkK8-z!Ip1DSzhEE8jWpFCKMXX3@7%uq3rNidvW
z-c=mV3>QZ-Bdi~gM~h>bF^<@X<dJsY=JXw9_Snd?L=0XhVo2(_Z8xyv3>yY)kK}J-
z_b%F!k#CSBY18aKEiG#Ng^F4zm$LHtB&WH~mBj^Ff|lpSEX@`rRie=G6-otFkjpbO
z(6wvcvxSnBrB7!SNek=kbCNn+78z#XmD0}_vL&^!B#G9KFi-DG`iCs8s1H$qkBAlh
zOu3XV%(QV*XJ()r$W|)yqL8ml3&kvz3nc;mffX%Lp;9GFCH6_qE=p9$m#IMn1HI4E
z@<Qd}Y_<X{7ZgD!QRWMkiX_68e5WhZI<prlTB4X;yetVhDrHqk5T!Q@IY}sp66{G`
z)DopKEoNodo*+F|Je)5HYT0NlEWuLoXJ)gdk|eWDUCd==seP1MADpiw|G89{nN{0Z
zIGAv5fl`=XsK{9r7%%4ZThyW3=xl}I%Kr`?uS7DONHR8&g9mGq9Fh}WJ3L&;m3J(Y
zJSRG?`!jBd7oCzPZxdbD9k-1sGG2ytNWQt4fwELM3(&hQ^Z`a61T1gChKyO*y70|o
z`4)z6Ua3cNN|C&c@#Pdr-XZ!dG`*r9IGD05Z8YcheHSMNBq!`7Dh3&UE-`f7kr`Mf
zSGY{<B1wj|(CMe2J$3FJT%rDWmJ)hBnv=7NG79H8s#A;tNeW)`3|yfEPe)O;V4+l5
zPz43=Nm#g?GsK5+fo=TXssi{Ww?b5gMsUMkCGUYsG0&AFRgT)KT#1_@RU+6-!m15=
z?KxGCiJxPN%IxX2$eAMT$2nZ)*F})k^WVG%-K1M{Dhm~fYP=vYnG|Ro@N@{l006Cj
zHmjIVHkYkrFBfEdwB7|pGNr+xITT6GcSdR+L10HE2#NzH866$H_P?*C)nX-GDO4U&
zvvfvMAGxyd__68v$ECDfxSXymg1nc~Z_08pUBovnNLQrXf?B3&CR$3`&;d-;)A`FY
zQn84_nW`+(5m;j>w&T)L=8jVERXGOWPuIvMAGqPJ^RW#+{^h<SAN}O+p=HMgA8QUD
zz<Ow#CnM>`@X7k{$<JP1AAYVDe{R|FUT6yj6U{{>b%B<0hMGhiE9^#bn=53IgOk;~
z9qv9QpK_W#Co2k$8l~d^H6C^^lt3ANmuK_K<3OjNg}FxVg@))}Xg#nlz6ZAM)6lTK
zqq+7=fe%LMys|lDb4Qu6T?8i2gU)ioY3F7&{&HR}XVpiKYHp)JQHZQNh#{Zwa4Kc0
zN}`a>se-63RwQL<YUeF{ALUPQ%6<UX$k*ZimEg_bubrO+ZUt(gRE<x4cgM)}&XfM;
zML^Odf}I>jaNQ#4^Uj-H+TD$}2Wg&yx!UL6^Ib0R78w^POe<uDTqG3VS9d1*kck|#
zKSI7BOL*tX(s(yEc2YfqjG&&z2hg+ZVXSB_oh)a)WV}+w(q(9@fS}Lqe4v1@aw0dw
z-8RNu1ts!5R5lBh-3GIP!m;16n<GIzI?iiRkWjGd3L2_XnQie+iK<#JJcPoVOhVfV
zFlp=P1u#qjJd!*u7lnCgQAs-Je&CKyBWNogQ)d|B;$!6c&X<OE9-ignvoMQ-?+VT=
zI@pL#)}xbauG*u|*ABk09zC<{YYrwFgZt`(`__)u9(%ra_=WYsGt0p*Ly-@EareYV
z=!F{pf_~0UrgJnGI05;>6&ip!A5i2dne5E}0U98F?GvwZYWr@?Goz2INY4tY@42=j
zHnDI&WRCCj%+?*w^s}f}^_f`HL|h~)GR8`kn5zCFVd_0;r}&n^95LG@>JEyc1@fS{
zMbO-pN})6Z`rlhn3MEC&mU0qB7HAIwybCQ_$>!#f*tl(D5Jgj?^|vqL0iVoHcjNdI
z2$(S8F@gTqHD4HSpDA(yTtRT~mJCDMHnpjp6z5>PauUEbvh5=N=m*lTG8?|B&Cp15
zU{`ZwPh%uqA4xZdcQ=NQ)rXIL>vn{L+g=h&uMZrog%57_PObH=_oiz8R5R4eZZ|oI
z)(&M+5Hzn~Y!BLg0eO>+FK$5)%Q-+hm|eFkD%G4!Au@ZT`Iv>%w?Xl8=m7+20Gg9&
zLwX3?_CiUeNAMFWb<H6baw^4Bp-*DpRw_|^9u(!6o<>x_u%0<dmIWcn(LI1=>i5ss
zF;a9}7(n4swgLR<I{DHu(Q>$*&vUCM*LrU~-y+z)yYMZmTM^>wY1ueuqBeNoj|A#1
zyNPMJj8=NBZ%z7_`A_HT$tRE|-KI&mX(FqK@l&MzDPs9_X>HG~*SdeUJI`>deXF^(
z!>hBmhFb*twZ~5Vku{9T5ZChhoPEvy_{ys{UtJMy3N1VKQ;)Lxo~Nf4nW%dv?>hm@
zE|VQY4o;w5{6>p8w^r9yvV&u316R)hj;(Xfq-zf(WG-mw7){Z^TvLz4<Ee`-=%FLb
z!wh}jrOx}&b<Ox-1-IxGec-10q3`z)G5n)e1s8P=g>Xj^gWrSqErGEBH@WMmJP$6e
zGZS3&C41;8m{RlWLijLqavkWvoN(YdwwX}z-LfKbDn3|Nx+%0fHdFn<_%>xniFG@E
zQ?bDaGeSXSW<P%#qM$H389LXXt<*wJ>+fJ@Fc=dQjK-2YeFeCp5d>iX5P6<@S-5oJ
z%qjHDAkfnzJY7(GP~C`9KD!_rE{x_WgZs|p7fcsZW;maMYTZy{y1zNxRROlW&Y$6+
z!vL<4W?~Ax%fZd~-sY~||F*C3#QFLY=eO;)A@8!|-4Lj?_()^$V14l5`XKnD?*;Xj
zjXG3|8Q}y*hv26R5R*dC2+^(<1wJv-Xk!Egh!jxhdH@0)&1cZy7tIfp*&;ae=&9w}
zCk(4#8#UNg4R&cYXXcGSG~%9X-#t(or4wOX<==L^?X(y=yJ?WFdaCv+*NIuc1ah4h
zQT0HtV;)`5Ynw+kWUiy4QDS8d?{!CkIczFkH7ni35?-Uhy=WI5RsN3iw(%yfdaK+V
z20A;6=&E|n7t9eAWuKLYbJA`9BB&h;cU^?KBP)zIx5?{OpJla#$w8-n_^jsn&kc7*
zn60W0(o$pyq`T|h`Kr&d_s+?Vn&Uh5+@4O`Y+1M-H*uXBT%Czd&un#z-5<U`%c*(p
zwD0Pwzv_oK)K<-)KYZu4z*{Us0vV^QhzTfq0oMHny*7$+orDNh%&J+<qsxw1C~96q
zbf8UhK%=?zIl!@!aNG<6_Q7vV&O-jv5bp)3^z(%R1^;-4X2oPb?ZxqSP&JxeStx2j
zNPHC_KOnqS5Y<_QzK)*<Euy+Z(!FI`n9;?SMsZo)$B>E@2*d--C7Cu7Mp}eQGmwVR
zHHDsUqZnlwvE1Q9;KLM3`Lbq*z=yt!v!T3cE>$WiWvc5=jQ*1WizkO1(!WH2wt&8Y
zAPYc?NLN&v6^s+esw!33q0lmt%pxctz!??vR>2kQ6x}Hd8hJ5&5^H>9^(<2lQsK!f
zhu{XmE$kzny&L>QGq$f0OVwkkwRhHIPb~+U{^*Ck&GE_F)QR=+r)vDzy^$l!&J8|s
zFZolfCz|`7!FsYeG>LT#6meu?vnRSTbaSW~PBz0+o6(_0G+B=(x806Nu;nEKu_pY*
zC%1b%5%03A1xp7T{AisYU5%|B-QW+w9I->j9KXudc2BPlAG`Z#ZP$~Zzw*1+fBX7I
z&qZSbw<G3V_JgN7H2U%WkM{ps`lNWPxE_D35udKdr<eUVUs?_|`G7I`@NW_u{0U|$
zK8}49YYgtM5ANUe_q>1h#@P?Y8}a@1`2I%xiF*8r&yW1>$=^P?;eV+aA89#B{J<8m
z$GywJ7EeY~%g+Dg6S{Rl89e_$Ac<Po4*y&K1IKE$0-z;ON_LcPxdf5xNF_)i3K%Qa
z0I8d|@B`*T&R79%+7`mZ5pvb`@LZT_$>`ITpb0Edx1EUu0$yXipFw@qcGZ5>QFZ)P
z#Ig^^j=i?+sfEVAgQnYg*yh@{t+N}G+a2ROXF$5y!ETn12GzE8tG4rjm|c9szlh$I
z<NRql2P=bKYl|!9=i5n4Py~41x*Rjr$LMfYpi@|aJYQN^qNsD}FA&YCx*i!r3>tAJ
z|4FAsqqNszBNTjlOfTpvVONEgbCRMMibWB!c~ohrz9DK|I^5m$dg!2E!V1dg03hGA
zYhrbwF?p;$d8{#cqCR=z3u$B5B~$_N&4JO?{!bFO5{<D#^|3>r?cEr7ZrS;+{~l<C
z#LdLA>ucXo!#7#?O>X#-n+MNA47zrzao|M#z=<zTf=Bmgu<n0k`Sb^8SNB6)6dtOD
zCN{?(S)2c&e`EZ@2hNS~*yh;2wd0>HY>b^-KDFT={u&mHeiFMC`=|KbBO3#tnBMg_
zeW8XgQTHWarT_3vZu+Oz`ZxUPd*S|ic)aB%{wXHH8h1r=TrOmloCCIH7R(6aJK1`H
zNikSk^NXeK_Uh?Li}!+((M8Gt%Uh-~nt;WWz>WggE+H0Ry98N~V&ZNa5_A!hA#I<d
zGwB>!(H#YS$sfTd=_Vl}dO>JbcNE~s*5L`F5KNXcxv&U|=dCiGS0GO!X)biKg_2Rv
z(`zta(oO#ws?Gq4VF7#cdWxM9`7P3dhhriC8|*S$%1m$ux|);yW~I->EVaWTSMT6}
zYXB5{6ev=9%HVIIXGxwtU|HFG|BPe)5x_Ol@)Ljfffv}juNfU^4kT8pH>(iBG<K!y
zyV77_K2Cp>26SWKXno))YaFQ$9BK9sZio23V2kj9AehK--}~>}c&8B>uZPB)k=|x+
zY~}dP<ITZg-HbJ(@s-leQZtrl4vjX3()FQqv!}lmBH_JTgb#aR8jn{uT9|50hUl|U
z(dQ66kAS5^MzDpBk?z!>LZL4rID_B<f<**x1JGQTbZ-YwMNi%C#nw22QzrNeXej>*
z;5up9oX*3m!WMz56+Gxn-3#@-f91v%+*iv9eGv9N6D>Ekcrvzk_2Mm0%Y!{H>5sL1
z*z%L;U@L&FAc2#dzd64Z!k)<WI`{tOXp2B~SKPv?b%^Xu{=qZo^ggf-^kE$^`p0h^
zZ@IC@6W~L>A%A$O9vo}o09eo)dOvX^vF(GNermX*<OH~Qi<tA%b5Hm>bU%`3S^t!g
zhSDNtH^st5{J~cD5PkUDOiKUFmZGd`V+`})uQe(C*P4_OWTUpAsFL)g;p9U`u-Lw^
z#InaMpQauDfz+wX@WZi@XQ!xhSi)92@k56%s0CR`8NdIs4jMJeL=ml*cI?N^q-QDE
zL@WcrQmWeYkDKJJ>Fl(i&%sg|sQs9U)pm88sB>B9?XxgJ3o=6U7hr|`p2uWIa~apj
zB!@ltB#vqefyN)#lfEY?+D-IZlnQ{Bo#VLsJmJQEPyAnzp|8l)f0I4;Z4S=%2Lj+*
zFX5i!?%V8~?LOZD=I8rfz<mqD5B!&>?}Jy@J;T>r+pb5rzFKr@n?Sw&1~<!b-df_o
Kw*(uEqyGm3K#r9F

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/fp8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..282e00939c37aa0a744de0f6500b31444daf2c6f
GIT binary patch
literal 48847
zcmeIb33OXmnkM!@5+n$K1V{iRxPv>vRiwCSUrFuM?giy4m?A)l6hP7spcWQbwtHL|
zxu&X1n(7(J>FTjuQ$40*&zN;mGo_qPX4Kv38Bb^W1dpT}sMmB_bw-_}l5_%>RPD;-
z%uK%jzLn6UY`H4uOiluc_uY5jUH-fO+x_o<S5#!>@QdXAovG6)j{CRtqWsLV=TRny
z<8E^yE@X;uQB%NVB7aUKCz>0`W&YeqUep{gGk;zrKUxqdh*|=cXknm`g_$GPfE8)-
zBetkLU}s?kk)mjEpjiIyh&lsK*<TVZoyak9Q5SRF%=HAy*jG!WJn9WpFn?jBGFla=
zVt#9+I$9H`VSZbrHd+^`V}5(Y7p)J}Gk;N}A=(&dj5Y<DqRoNkXiK0a+8St$wguYQ
z_u_~@+8$_+b_6=2oq<jk=7@Afy93?K?~L?Bw*<B@e@Ub_+85}HZVhaW_6Pb|SZQP+
zIv5yaeph5DIvf~|ZVPN<@9xO<=#Ib+=J!N)Mt22vMRx~wNB0EwME3^vM)w8wMfV5x
zM-K!JL=OfIMn?i8EN)q3G<qm-D0(<>IC>;-BziP(G<qy>EP6a}JbEH<B03fri=GUe
zWO2(Qr=q6=r=w>AXQF2VXIYpxaxQv4a6bB6;5qhQ5qUoPLg0nyi-8xTfj}VomB3e`
zF9lwTel_sb=+^>YV{s}Y!RX6@m!so>@#uxX1r}BnnTUo0A?B}+grk#zN#?JKT#Q}{
zTw?y($W(MXFde-dxXj+`B9Uk`5M_Q}WF|Trm^E?X0zMxjp*}JfeI@V;zBPmzFXjaJ
z94=fJj=gV^##|tt!yV#6O>c0a=5X%&xpL@ys3m+Q)Eb_j%nP->kr%kiV)+rPJv^+&
zy2e5~5ZW2us)k-?p<M{=4mYcz3oNt;p<BW`)X=YAH~V{kPKEkSqUFGNBr<*>5{5r-
zWM)2!XTjV!AD<eJ_;bagb1$A62_85+a^TpJu|s0+zM1Qy<>Xv^YIbHkGKRSMCuT$Q
zEOp_jaeh1+j)!>!+kzAGvG{B>I6D`^YcW4N5e<${;iDYVbTJ$c#=|qQSw0w@4TU2?
z6bew_xjM^7Lc!S70>NaPnwg3RBeNGTvV6<0pxJ{{vEYUA_{62))XbG}erkLs?#~x3
zqw}$F=)~-Z=v93CCgM|9#tGQbSw1=*7fY2dC&KYdv!VUtv9MUDgq;fW(fN3I<l0=A
zkH^l>;6d+Vr5b?`1IX~cnb7DIst*9gYWZ9E`S8@mOYyT4<B{;$`MJ4SJ{}IC{ai}g
z)ANAx!0gQA)J3u6%<O!8YUZK@#JTHpVX<OzZa8>#czhU*5e~jWk%JQ~Hrl{BNi_>b
z$N9+A3`Ia##rYW)3qXXFGNk-as`dEPOn97U)pJUIU4_eaN%bF*tBZj-wZPg;N)q$u
zh^6{qxe`iPSj!n1lu((+o;xr;aY_E*FBILQk@482shP<ze_}Sge|+L{cqSw^kI&6T
zt_LU8Z$UJ;G9+TukU=zx*n44q3d2Dcjhbp=K8|!T)>?B?w*)7ZPN~#I)<>l5Drwy5
zzEg8wkRht(!xyJwG)5_uKtLx2C&wq^vwTdf=V#;NaR8+OOps92tE}^5Vs$JW2~VKs
zWa#Mo#c&h@HaZs(9kHw9bHS^<TZ8f0;MJ|Y)H2Tx?;GA9nVq;iIyWr!#mPCbY=RH7
zl8}6AW^O*tV8KAtg-Z=Yb0$htPOQ>>lfYpUO8VFm3Ww(yAak>^cyJE0F^t9|@Z`7`
z2nMk+I)42^IQaBP^_wLR#^OA{zIa`1Fo+`0bv2In3Ys^hRFjn-j9nU^3uFA2%R_^j
zR~q!_2@GhlTJ39mii}@JS549a!Xk-2<tz0GRW3UQhO+e#KRZ8nmI@M`SVyENvCC6)
zbC|FNqD|isb}UH2iO6g$9PACDiREsUfTaRr%2XFU%Eyht)l!Sfof8UQnVJX(r$XVG
z_*DG5SUp3_5-lXbaDQ~`<P41r$v3|sdUW$46jo+Cn#apV44ac|!BH1p(T&wO9Ff){
zEwubpm_Nss+Ktg^X^CMv$YWqU9_MMXc23OmJRl6tMaJW3UfL4uG~UKBJ+WBPicp58
zqd_GN@9=PROOV#6tZ=n?kVEOEaf~=^?x2qlT1260Mid|cA3K2|fMJ~<!<?I%5DP-r
zXU3yb6BE*2DY^1?$~|hs`)w}F1xz6>kP|Wmazi<Ryijhy9Lfvihs=S3P=3G?DhL!_
zw_w&4p^s0f3lTPFj{7;~^>gN<?fB<;<PeJZ^L#jCeyeB+1_41h7!<8ROnTb%;I{{9
zv5v@J^2Sb%jff?q$M>B*d}M5N<V^6~nRCaFpTNGO1synl4lid#%fXS6Q-?-QoDl2f
zpy2-FCl4G8o;|Sd_{hQFp))7XpQ0y4$v?60%<&^*V*a@^N6wubdyjhru(*GBrY9bq
z>zSLH>xz%_SlPO+%@1uGzC0A}iA-JSnY)fnZl;H}%pPfv4POgmoX+w+Y}m(o<Uz%j
z`yPzk?z!vy7&2zgEIcu4+Bdkg&HmcKw6`Le=Sf#oCiBYD4(Dr!({27_UURyr__a|u
zuaELCD@jG0G)GweVm=>^&+{`AN`E01N3BeMj{<1w+gx1zHcg$7^?P4_=l@I>kGd%9
z7cwa*R?PD`F>{od{6CCS7qj2AMe%7*{(Eto@}|P^X1pjnY|)f3#fz2DX{X}To|n;<
zd~>{137PgNKJ6LGRp2sl@iHZR+N=1q=UFbn@xITgrP?06EncOh4dp3i{Fdo+pfM{k
zH$YRZ<fJ{%>U*$O3s-!hd?hD4cg++7F{EpCpAt)ZF6QWJ)}VzeKD8%uLIsOCiJZ@E
zSBp~qhMF`f`DstoL>mt+TDaoF7N>ou*^%|*PorN>#ygZ?1=3iVuC2S2ui7(Is6jZ>
z6Yo*JDCs}9hE^@TZscrH^3k3f`s!)3ZKtjeo;ut3R@C|PMz+lmzCH~u#RvGFK1b|^
zIrS^)wdYyRU$k)9>cj6W!_0i~OJQIMQ$QH5`$kU<`#>)EWb}_k8=H-XxBD1+&=s2t
zPfSftP535(22iA!54*W97N3ele6thSC4J*@A3u-1JR0t1$$uU~;Xe<+S?E0<1NP_}
zr5*1Gp}uN)(w?9c>%$J~JA0yc%a(=TGKd_%1bpS<B_M%ng3xR@=9`&~`{eD_$JSb(
zel73zor;8kiTkiA`<}xN6x3}%Cr*w8_wPG!Y-H@<F6{8(nThMZsTttC<Du?_p-sV-
zHz^ei3GQuMdKmCOe-V`)UGPcCPcVdRLsYr77rG7tZJ<3({mKKk38VOs?*eK`6&t@Y
zKE;UA?u7;^!zU6^=}MN{q&Np8^vuVwBZldOd<@$QhYkS=SIg5UmEk?dPsL|vjAHn!
z_=BjKSOA1)Vm>r3x*6uf@VJTbx$z5A5yIs1!ZTN5VijxZ^Jho0n;Vewhmj3W3kpx`
znP@*ZGIsXlnKS2tgdpTg6s}kZDrq)2J2MfM_F-yO(fZtYWIjB?^RqlpV@vc%SW`9-
zm8|%4BWKSAM^BzP04Pok2W7;8;3p!S|0-orssc(#h=gL4u`n7OQ~@=dKf<8BI?m4!
zHN-$WgdqMa<h(@A*Wmbb`3rc61qv}`#n6)x^B8UPn1lQ{#c(kS49GKK>2hrT8ope|
zU+njR2)xEUF6Ig=QWl?J@vT`J9@?u@_Flo>yWF^DA6$3Tr5yc&qks9#nq&B(-I=m?
zuGl-*?X_!m-^0?*)za=81!-I9T3LIlY)B{@TCokS+e=gSYQbKetU0x2KfUhqrCfc2
zt1oHq`<bJ1t*$3kcTlK1c>nBL-I4V&UnVElQ}-y>Twa>t%q69d?Oc&dN&noM{dtyt
ztKiz2v~PWE;fiWf_CCShx7@dCA52;Xf5DjwJJxNEl&xK`wP(zn*@0LVZ>pe9D5zU2
zs84$;Z&-g?P_k|*PFcKy#ha|yv1Zx1?x;>V8U;sV($e@ipR?Fg1+^;$wLk1nHSS(%
z-2I0;5aHXevbxj>_PV6+<j3|?>qU)gMa{Yj?pw3(X8`&Imp^Iuqi9`Qu5W0|pW4eG
zYA~Ezvz%uz>=qomla}3p!E8(AxrID;(lfM{H@t51rfhYBtuC2Y$B?}Vbea0I$-YN-
z(1(9J3n4G$q<^9EP;NLclovLK%;Eg7xdMqoISU1F^YLDwdoKv(Oj>Vnlctd6jiP`h
zTo@_{TPJfug>U33n_|GmLi5A+=}Hw2)kAq9zEu~$n8hzZs7)8@kaJ<s;G13d%^C8B
ziolI4L7d`nY1kZgP3ABt3ql+?bq-xzcgP7y+EoBl&vd8iRXw2+v_V0*JXFfy%n!Lx
ziuc#b!Hpa$LLQc{S!z{4SccHb8$i1PRoD<K#6pli5))^^BRzc+#7tp35tfYZF|nFf
zyG!AT%X70+AOsmr8wR6|NY#*70*;8xR|99_QaBnGi>EGvmIaeaA}qubJzs(G@^~66
z6AIUzT7l3gMgsUSUjCj5L;!`d-<#$H_Z`Gl`q{)KObITiA}fg;4GFtq;)~;jO3IKa
zk@LIU@2TkhZ{Zy&)p8TLKtI8MzX<d>s3LNSyw?vUOfj1-A6*V{hmw0jMV&*rmxr+Q
zd37oBjN<(+7c&2ziqsP{p?sFop-WjnFo!G~;^hH8l^nUw`3uJuYR}K86tz$51E16f
zzJ=rGfZZ@;pzG=sHhw)u;G3O^0C$o273k`@;jWn4qdu*#*&vviz1q#6LZuf*Da#G{
zNXQ0pXMMAiKB=31Q80Ubm&UJzeSN+Vu%Ve4c&@QdwxM6dhQ46a1@p%#=ks42Sef=W
zs4{Kk09IF!>&aN%Ao<OxIoJsx;u$|V$bTI$h^6}uoICQ|zH>)Tj)CevJaS^>EKgJ~
zpCD(EqU1)xGyFH;1BW>e?7c~rQj5U8iG@M1iHIK=jM13FUgz_@#<n~Db-XW>s#C68
zf#44i9uwgFO4{y<-z>mJux6=z(0TYq-kQb#z*fE1G$_~x*GsFDb-R+gPbPPrO4giS
zEj^R8pGnvEQLNf@ZRbjD-*OJURHbdzNn6`bT|I0MGkMw{<>t~JmWw^i!Z}?@SJSGa
zd8uT@(Jsg6Snudg_Uv8l*q3bIf4?J>Yx0~lX{j<uRe$%$ila-8zu)wrye(PgPx^Oe
z%sHOjk8<;<fV`5@jFoHHdL!>+ORcmsU`}uNv6)U(#BJ`n$)7VO=3)%;K?J;K5_2aa
zu^6S0aRdwD2*gy;x11983F5_QLchj6aJZi=jaCU(+J1QStBMh8L0faC3An7^#hkMM
zZwx#)Gq@%bmqg2j$;j+@ymwH{yEKl$a03bSfO`o@b&>`#NrNHAGh1lThQMZVeny!Q
zQ{Xl3q0@7__*U@`&F@;@u_hfINlV9*6(wM^oAu{3ZCSHE0b41R8-)Zx!&?`sH$t`X
z>t7)&wV_L%ET1}zl}}^-HkQ=09RKZ2i+5A;l1u}vdQ2;HZ)~A<BLLaoNlX<3a=`k!
z<VK+cgt`yl0|CH*AT0DYR`qE-vwyGGCrr~6E9++*TOlv80;}<_13hJx^XEtlgH_^D
zM<6gj&>M&-mRy=71}+m(MH&AxMvy9qZ;6yb_j#d8tNjxn{~AeSgg3kf_8V}?TESME
zw6&)jwx$|(3k|#P#Z!CE2z$<~Hk`e2@MC*jCYQ5IgG9`insGwkPU>#^zaUH2PT4aQ
z;R#d7bkX#_oNh5E1lGzGZZQ|_WE?wJ7aKd4VH=x5c^AQ$RpgJ0*xNUWXWkGmKVgo!
zH;tRWA+9+GJ)g);<R#3B{0|D=&qHPK1HNM!6YXpR3qlqGnIHeR5uUw%mq`rW7<C^A
zP#UIJAOw6b&uFy=`@4w7@+1%W=H>A9nCRT_8l2_*1^k;-%zsYK_sOCCCaY97uGv<h
zj1U{kQtG?~k2W@R!Ji_Z*bm`g@hh)PmA47yZA)d#-O1j4tL6J|*wd|@%l2gJ&ZMO&
zU0s)|?h>lImL`)!N0WocR;!OEEfwjC>QqISP{D!^B?k|G)U;Z0@<uU>zD20svRszj
zej>STEP3kOYV~=f_^G2NUE@pD^a?e-X=hooqBrU7TR!+GH>bAv#@MI%*jdv4k#ucO
zy2=mtaiQ611>sa^WwTW@Gn`P&hjeCg>Kg9@@DuvEsE*7l7-P`HFhTnQniz|uePIga
zk|xGtUNmnJ8W<WY7URN>jIw?RRavmwCxjZXV-c#dnY6ec<SAokF+Z*{Xu;Z5nX$_3
z;QQl*xU(POn46SgK$m=AR^|e4jn^o7D7fxf4r4hlp)yRt4%5S-GFMeN3K1WpKB3Or
zjVThjYD`<aUMVfXDXZLBtZe@LF(wAVR$RC*4wewf%t`S3!m0BZhI%Qn=#av|Ig=#6
z{69dR@8$CU5D#f-EK=mvb8}!B_)A1Lt$E#$FG(49vjM^XBP0;}*r$!s3F&*RTaR~k
zPtAp|NrG|yT`FmboCR_Wrj}@(0{0EFBVwdfQKVrwV%Z!?dLc<?;u}bhvFHLqp89~N
zAtE|a+l}Ju0=BmEKcFbAiUhU>f@qxtD?^&HPflpI=UtndmnHhr3Y5L)Wq-%G=VJc_
zN_ma@Wj<H9^|PGZLhEBIS5}wyccuJC1^>}>Z9}TIU#RU*SJkDex`nE4H3YM-%zDEL
z4vM|(X88MoHCr1vCh78;bX{Yru1~1zV^OyWwcCDKkmoE$#@?RQ@-0c{mY=$s?@q6}
zdXx6v^`i1S=I>uyD*`szaCiIC{HkjpX&+$0cdoA$`PW^IcMq;I21DB6lD1|2q$d1~
z-XHz*Cnj}VCB~*{>Sz6wX~36aN~vU>772u4jxwMz&~3^WOi^_~P`>j+I+ASjDQdI~
zsA@TwqU!WhU_-g(YPq_Jv;i7bW}`xL;5Pt`N0Z|KrKwh+(4N|~j@K!n*c$bVgRafK
z(BhCMEe`zeBR~E<IQ|lznu5(>i9MPRh5^Pg|04?i$K<H9j;#s&KcO(1XQCr(L17b*
zr)5&K5=&5;OQIdov^C~KeD>!VO~n{(^|Xsh+(ot(>-YPGN@R3^snT@QHm(0wPc!Y0
zkY1i?4{cQ`TZ3S0ShF>yUF9iPr{L;bI=?)+>e`XC?^w5ao^eL4WAgN`y4sTVHf=_I
z?sV*3_N03E32aACI>F4VyPJ16yz1&qg3U=2bF&#J<`Gi80qvvKVe_z`%|nbCJhOkA
z+>|c^%4fR5VfGm!%%R*+o-&>xf&Bd3%umfNKUDBcxmli?TVcrhxw)xQs7-5V4;5*-
zTrc)J#+%V(OuR$G>;SRFd{-|4nS@LSj*ltf_^9O}AA(jIq%#x@-UMD5Kjm`I72gD@
zM1fTUy{4F&+0=}0Vm1oIC<f(;E^Lobhl_Rlj!YtlshAJ{DW?fYayosI5ZyNwkNF@l
z0sjpoR9wwT2SgYOY!ghJa@}_Y!Ud}uX}cC{yAEvayHv(@sU9T0(h{(W9D7b*4@ixq
z0;pZ+w@}m#%{EnGX`!I|GASEPFSupT#?M8B63pNeYZb)4qQsUwhOw`xv0qVQOCH16
zugI~hh;<WW#Q~rT!3|)Rc0U>Blwe~Y7<gkqhb+)ri(Q?HUlI$Ta~2t&2+O1&e-Be?
z1F`2|)Gqb83_-=lWrz(2>C;YHh5kM=c#X@Ha(3r;cfGmmPTiW#zch8PU+CV0mFV`)
zTRW4!!F!HX*Wsl7FzCVGY@}qx;F@hnEvO$<!K&*>(thNDytn)FMj6{~49&pb0j&H{
zIR0w>Jo%p^=Xp3{K`<Daoq%FY-i6uOh?om?FENj3WHA?vWX22=ZH!eWQ)7hA^4}uo
zJCxqcxF!5e3iuv5e~+BE=u=*3Y9h`PFMxlC-g9PVc)|~O;*v@m&ritrU(?4TnISh3
zh6Y#gJrn;;gfd3WUWqNoFh_D&&(W7(y}|u7uMQlq?yc$i_H;*2y1VaFo6o%UK?`I!
zcxLjs>bgt;`7B&T&7HGv72Z84c-u0C6lCS9eRp%;+IBZCRCQ!1UB=E?i+@=}zJn$%
zza*1mGJBF0oe&S1J&$sg5M(QT>s)d#g+ILf-etkRo#J$=aXQsFrFXZ|r&9G(sqWLc
zrN(z&%=-K&KgWE|1c0dwhuM19eRpDM>)lK5)MhxmE+6{^J>=}*%QRG*-H=b+e&N;&
zw}ZEWnOu7B?q$yhg(b<-7NM~9kr|<xofTP8>7AnDsf&uY%wVb6efL0y!(-{da?^W9
zKO-+g8yONmfu2x*3Lf{!jc&=->k8*VK$8oR26Vf^`9|cP5g`U)Qy~OQ)^MRDy1^R>
zlnRl9O4zC8bCY%w8U^eq!4k5C>=2@m2&kx#3za-msl~|O07nZsHVL;gL72_>>!c;*
ze8U`YT(|p6`5yz?@gIXxBhh9)X*#h*nnXBkNk6M_`@ymd(Q1w_I#z$oM@t#>8A!uU
z;pDTm&Nn_2VmZj1_Z~UU2AKo)pKfVu*%yh;YN7?DFqwLTSby|X?_kgV(cVEHqw}5w
zK`w?BnN<eB?)II-CMZi92tKNcq?L;rKo{de7(3AvX{?iY$~Qg<g;<ssZJtt*QtFrw
z>f1g7FdUL$KRy+mq6UDtVmnLI+wD846P5TNHjp>wjdGCCeApMC#ecAcyQPI3gk@A|
z2dM}8vNB`L<6&9F(+BO>aUXGqeM)A47sm`_fFNIC5Mg6|qLj8v@%UV9dr!|rbm9Dk
zZeS6l?nl6=Pe^Jm^z?=Mhc9g1Hn?SLe{b)2fA7S=mcD`T<c07+-{kPNfx#^ohWmzw
z`v!VQ5u_)^PxS0N2hR+e<Vv`QG#+~PL$c95F*nzEe0ZS03(lZl?sxv8+-S7<ONh0E
zy>Dk-CXWEty1;Wt_g!ihg(D}0ZNOJmX3*aNYXzH<#D40;j1wlyehMXquUI3b-xs4R
zk%Dky_S5J!BW99@6{|XHDs#zbjX};Ty{gOEt(2xc73g`0xHqIysme`bs4OQVfwz(h
zd8&|VRG{vw$_@jKt%0TbrW;hR>Or0*$_r8%#0YWo)LSYwy-D6JN-o+H!qhe}pShsg
zR>mdpb(&sXh}g|WP%t6Bg25wCb$y@NhZHC$`v)ZZNo~8bc)JpBdW+)Io*VM@=;HQi
zaTK3EE+A-9!nG$KG=_}NIm$s~Y*^3N*thtAl8e?d#_@lfL?a|l$oe4^yGZsAp$7Zb
z2l?;Ia|d-I0-yb^bMbA8AL$HQ*tle{>E)7<o5}_SGtx4~UqptZ{4u!vNpdKnKTj-`
z)e0_>62Ej@K=hE1O<H_(!Tb)S5GzRuNji3fEsf3%sj@ks^G+?Lw88QJhKi}>|1}j!
z8AwQJ3E}dg@Z|V>L>A|Xg&-g#$sXf>@N*QIrV{@OIakTy$#IZF2n|ylla4VkeG16G
zBH<AKXY~CLeJ>(dRaJN<S7s_zOllz78LT*BL7O!{L<vX@Blt>CU+J9`UU-TW&rd?X
zPqZ>GQ#9i{=$nU~F=8@&>4XG3SHV;NNt{dxLWQiMhR~BWk~G_!#lcZ!+N9wf`&~E?
zSyi`@NV;OZV|2BH3AEeRD{4~}TZD=&s}+!4f15auCG{!ipx_)_=2xBDlXgOTi+a`_
zu9Tx&aCAd+s<7zW4#b1flC4p&HLls3)3uE^4u1ROy2PZBULLj&r`k^l?I%{-Pg1F^
z>or?fYX-<$`JlczRo^Gn_oeC&3iSsmtd?<2dxfgrd+ub_E(-Fdt9_ENBvrjfsNQpb
zSg1ZmA1avat$xK;zuw%lY+CM5Z9O7vJ@Qe#u=V(A^9ho?H2?*7dsD8a6<5=mfA^Yy
z@4A0$%D+qS@4A`yv9skNz3mqKyKm;LIa?l(EU#+CR+TQVg7{_y;&gjk($&WJO-yBr
zaaxnEfp!0`^~SEHc&cYa=ov{ij;34MQ!P7%mYwO&Eve4qLg#T%DXEU5LdQ{XecOu(
zm=-X8>)O*wrPU;l&AD}m@ST$q&iw=GaIbv0h|Zq?&7lKBIF<rbNGy}-V>N`S@WjAY
zmyRPLg=kY~XnL_TMgfj;5IQqKM4Iv=>dc0}NB@Rx=$cBgvK>LHqi*Y9N6Opzq9su<
ztul(0%%CNvs<bZ_Lf&TzYH7i^(zf;lSVcOmA4o?uZJ!X(il7Q37AJK()XL$vAza-=
zwQy<KHU6g0HSSW<0EHo`WDcM;%<+Ah2@V}6Zd%;{mDC((M4&+9Nks%u)0{-1B2ikj
z&NOQ*Voka<t;&tGoLS2J4|0^W#N101LOLZc@{3k5`0BOziZ7I(P#JB{1odB`h6ZgN
z>yI}odB@f55$%<Oo+^A_9tDfGc&idCVG9+6EK@2|oAkpBA+;oI$|hstW?n@32HTUm
z&2HM?I`~wyfZ#Lk(O(nhLOslzK-?AYQrjXI<;ffA6K!Pu0&Qf~mv?=$mc$8nr4$n+
zhS;WUV`7oKA2X7Q2b<-O0o8^bJCBGQQfnrzAXLLdtGsN$&;KQ2i}_L>qLq=J?1Y(U
zm-A&oqEr7yXMX8au*zlhm-D+QpWN7dRLsRzEfzzWdJ1%6@aj}3eksQPls;GJmaDAQ
z&N|CaU6gn8Z%_p;kh7H>h6#L~eBI>iBS&IXg`;!O`z}?FjIsrgj$-oEGyHyX4v@1-
z&R%i|`|{g$LJR_o7s>exa@NWD1ddo5zJ{}u8xH32{~LX!7ULgM6f<j^7@-zKeJMXl
z3Q{Z|IFuSr(z1~l1(M9Rd*k=Ni$yo~f5Cw&nwu+ZUbD13Y-&xm?Otu#leE;Qz3nM)
zx8UtwdUe&i=SESwZs3M_%~GBA@1ti+y8Qq>Thmpo^z^11TIgA)ZFM9|*|4{%`_he(
zHGAW_y(#VVq@9&%XI0wSmUgzJo$i#gMR2w}E-EN0&bYxAP1&ji8}NW_E4FRxo-Jvo
zKiP5M{#T)eP*(irD9K0L*TJ{?%B`=Y-Cb#SXS%ZGaY0@gDW+9br}4kG<8eu0S@Dfg
zWLF5qYtk;i>s=aLv-E*Kwy}T*1aaevt8v}ix9;vpyW1&8w>Ryse`L$AD7|UMK3h_M
z*Rxc;{EcMW=$i8oYLIfa3C^~q+IyaloqHaTXtr~usx#^AOqO@D?Y>JW?@E?$OFFl~
zWmzLrIqQ_WT_FFa1w2p+Ncwl&JHO^U0K5au<nXOHeCuAQ@r~SHT=ky6X<m2w7+{OZ
zwvjdGs0LWgJ@d!T-D*BdHTQs@?8@vjarW&JUNC{-G`4{tw<07Le~)V6l6D5Pf+UR~
z1ZMyEL9AEuTBQFbt+1gS9P3i|bgbA0;$MUk#*p<>R-TuT_aZbw5~i2)X8tA0BIvSy
zMx=afKoh+h?Lfw`gt!k>-3eB5K1$A?R(E!-U<H?1%$xbTabAmg2shZ>nKqP4qG~zD
z4(WDy!XHdV1i!YwLvt%n)3H)^@R!hM)Lu-3%cx)6iCh_@$(>fk#Tpc9y`Wk3^m^+w
zOY){0v>X&)C<l0j3<2;Y8d2=0OK1K9>D2yC<i1{{ON#@)TK+T8HbWVDMub5N^9~(8
zp;Ia#T;k<Y?1P4^5#Ap6E3iYTjy02h@{X84c5c*f;y*<Q|3AZlI!zIsZkmFC4|Lji
z$nTN%7Pcq!QZ!o2`TvO=b*m9`VKf6Lvq@A4!v|0=VbrZ?iu3;?MP$S!@frC46^>Yd
zEf0b%Ud)Y-U*oBP_@9wO0Pw^f;J3hmM%o+X{{bAF<|dT?GSo162xwSD1_xy?7Q7<w
z8iXOs+lsWS)Ib`>3<t;&f{fD&;~b2;ywH_R7CtpPow$x&XL}BoMkub8Ro<{^J4P09
zROP#I{9)rkEM>Rtx9oSqlJ*PM{-$EV?z=I1^Ej6Ik}_-<SQJakQY8&SNkgh+&q~Rj
z^`_QT)3DGqe9!YQs{gC%kIt<%oe}KyHxAu=DebAg{o<_`zxS0lN0Gd&>h?>wUb-=w
zuJWa-x`e8(8^^IPxV^Xc{M|k4{m-S{m1(yx?XF0<+XQ#py1VMm$lYDbO{?yqM}_8r
zQo-4KGyjhL?q$e*6ml?K)sn30OS=2urW?B6?RlqXwPEYcV`)zn30S@txG{=DHs1QX
zW$#wKQ+01-4Jv%*Z`;>vTJ9!Nt;0g=@JHsgnlai<D`~Z_N;+B|=W<15H!m-HKDG}%
zDDh+pu$h5QMX3-S?)lc9b$i>AXW71H--U%f>8wxNOVwswxA!cYKei8&u4pw|@kP@$
z$m*uXV-tDkZsk`94_oxVg;4$JY-K^XY2puWveX|(xIQmAPnB>oSo96`d_c|_E$;{=
zoG0stPy^&Wk^6y3As?8wg1UTY$)`&+zv9!KKQ&mgl}XQ*bOTs^jU3Gh^R&tXR-n<2
z!Gv<y8S;E0C>OAiF6Pf1M+%h`+%!c$VpVEi6<;Wql45D!^cySBL*-4Y96BX69o$md
zLWahyL8fa%1JZNar{$vfrW+NX_5_KQKi#aoD?Vi$f?*(UC3GHsx<&b}J^6#W1^ZdY
zRJ)ds;=@SmRQ%c#p+q2L{V@LW-j^8-3_hbR_&?qG!WnVCe*<%sn>ON-Z#IL?3WEg7
z-1%dEvuI|-pR{wb4UuhN{}FAkqdW_E6ZRG@l2{0{QkP>;01d;a2yK5e^7ArJN&Wd*
z3HT&ssAlc2lvueJD3lS2DfmP)Q`^^yVF|<>2;zuJ<bRvRfmN+AbRmfPH8T@8V&VKu
z42Pb>3t|3GD2jD*eg<di$fy>M0!uvEUr`2ZukR-x&a80~4alg*G=&j}`i-6c4-`t(
z5v?-K4D^9v4WdmBxG>o}_=KV=58Y~xX`FAM5?SRMF=%7ZG3G!VIyrme$Iy)<4sG2E
zsg;6<xq+x*A-zI*Z>oGqC?85!R$)7Rd*@p_)AcQ>`mI9!*0irV<?9uEz3GaYjE(aS
zKjQMeI75_=Geo6aZR6W7z4g-D!MB1Rod57^?|p5xX6H?7x~?fz*DKWZrt12Iy8a)Z
z|H;>W^tIKxgE#GIS6#~0EV!CiU9C&KE3VE54V_B~p<&0ZV;Lt`(VX(OK|^EJ+rBiu
z;_U%bI#t~*RCh1EB2@P-2T}tg!obM=abe)_O7&rEu&uqzI~4}+>ek~z%kj5ta<I^{
z=Z<Z?y!!UFTh~(M?Lv8bs+{V%T)+I4pM3R4U;QtG_d~1Y$CA!t*lpQ9>}pS!m8X#+
zaVwFoX-L)d2sJ(F%DT6E-s(Ycs(er=A7q{Zp?o0isd((LxQjEKMJ0F{oA?RZnbD?Q
zf~za#qBF=wg;du|%xq+eCU*Cui7DrN<m?2^_}y3Ed^P205*$tGQdipLCH0~-apyaP
ziVh%Rw`Xq6q`fsMuV3)`)4(x`IA`-Cu7K3~3uLu^=`f5lO96=gZ)gNAkn=h@Y!=WE
zmsEBBkbL*a`D1c^LC(L21G_d%_l=E1>Gaae^lhA+A1lsj4AR)2;q49XQ|Pi-G7Vkk
z;=3<C;_%3P&2-*m-i-rc-@W$cHL767OabV<#+FP0^IEw2=DTO#Da;hIS1af7W^BxB
z=gKNFMa)~wp~o)Yy8Ot&UT1QK%|pwB84izop-1${Bureh|I@-lCbM-zc@%*1>?Pmb
z`R2|{0eiJ@fGF~2<jy&vxIV+u0M)cQzFYlf^<x`FVQ3hu<OHgw{*>+HkrNwS_G#)+
z4$e^LhRsH(kP#v@na9pi=e=Qv8Km5BfvgTgC#p#i#%x5HPFm@tb->2rTSGP|!Qfmp
zlwz#mA|v5o$VSR5lR2!UB9!F7dFkS3ff6}8C-dn<b)e)K)0N7l=Rrj#FW?Hhk(URG
zLM6J>*=1^IsV=l!Ihk(!47ENJBrdciky}~6kb9GG58A&h><N|Q&kH|m!%&6ltAwv=
zleALY>TrdeswP|+sts3#>Yf_khmz_MvjNY>r^al0>euF{ezh8Z4OedxZrEzlIeRv$
z+Cwc+eX3!n*lU3ZwDJE8O*}r26@g5+{QufdUrzgJ-<Q?kk+>B<Kp$*4$_1K4q8s;O
z(aJi~5Ahcr=}+VsQHKg00p<&7#2~fwWBNZTH3<ygqI}VwhE$^d$iE?*P}WvasZotV
zh*AuwIt4;Nr^0}kP7Mylr=xrfs7IoxkcUl)4OSHwRLlF^91SQnMx&L*RecRZQJ=1i
zncx20QhW+@+LM*?imsFf?VIAus)<@F<vTX>W|VC}h2x-~=^~?UWA3A%D~)3@!wzz0
zuwB-y<QrG%KBPnYX8#as01KGA@;C$B9wiOpKD|#nm6+O7?o*X=|J*zbwg@>7m6nHq
zEpP1Suc45C*SA3-QNiQMVkZ;J`*!W}eWkZ=xYGyctDQbFxB%^zTpXqms}-e^SU3!R
zA9#t9?gwKof~KMTB~0y~l8+{|G_^H3*foTSHkMSflPXyz`YJ^w@<c4#Xw^}*>GLAR
zpi#m{$O%x~0@;cbPb&pa9mtcCuUL|m$K(vNFC;o(dTaKoPA%po%B58bRZMQ`suYsc
zVZb*fbEnFQA;wx|b^9igD<_6tlhDi85yVIz^|X<y&jS0&Tr2?ie)Sr+ZYg3G8t!;f
z6@H<@zh-GCGd_9WwkoPFs?vpC(}WZ;hJ^Z|d+}ub0j6oPUe!%H9eaeHJ*!oFS<r*Z
z+Eit`P}%-LG}XOd!2inq$k~xTaEQJ)G98pE!B+MC#Z=vHp>FqzZTEWn?o|6Rq5T+X
zeYB>FN>W8NLQ%~RYf|<5g!+9eMf+HcQK5bG#=$kjc!FkIZd{HnSFV)rU<M+fon8)F
z4KgcIj7e7Zku8XRn1U!NO_uL~`G}UTbtlAA-rI+79Zq-krn+_sUArJ*Yk^wH8kAt{
zoDWo5k5Je1<6ROBCDa`u@T(t?jV7|b^uwZ*@1%hL_LJa178ZSM>6e(0Hjv0cI=2GD
z%cAYlR0tMQ+1M8AaBKi}n8TqdG8M}R_YJBlOkO&nuHxuRTAgWiee`{BF`+>U!AlUY
z(vPW(phM+1QW-%X%Wn{}Xgd!RA?SA=gH_9DRpFg+l@n>Sk}!dfDw<Hr#yofptA@I>
zXyGc~)ZiQ7RUv%xl;UE6agHGq<N6tv7GkE277L+%lb5h8pj|^IX0E1GJMkETFbL*q
z@SPdAQEfy*QxW>Cmk**Yl}KH<NosH}k**+7n4MbJZeFeaif_6~@o7(O&o&}Rpgw|H
z5N8s-ZvLQ95sHPZAE-(pOvR;6%Te)#?0OX!ouJ8zgW2+kf#Q<Z)4w5z0V#N`o4{%V
zm(d8;BE15K4py5UR*VIMQ5X9szg8U@l=jk|)atrCo3t;A54Dr`-3>iq*QI*))-;4f
zm!mNpa!+o6qiB;>E>76Bp5G*nBcYxhgu2l$bmjksYD6RYRSWS~VBQNW66PrCAdT@?
z3w7az6s{}Zxc+%kpKPfA{{#JiQT+tWY=zM3@#W#&tiPOJpubA={e>A~w8pErr80ie
z_N9ca#U$<Q{As`TMe!NWHoiLK(&>sDV3I~sgelWZ)rNEi*rRbeg=S$&dPa3Kz=~ng
ztX{2!UB80p!i)6b&(LmeYB&C`H%Vat4NS7BSaryw)Cai#ue0+0=GKbhP1b?3M6tG3
z=-RDV-){ej)WNYy9m*39!#X(hbqHBOJE=SKbzGeToJ6Hz*qchRX2<n=WxE2T;lI#H
zhrDz;dSqShB5=M|9NL-*`R3=~kw_okF5kjdIvY)<Vnb6`VCn<+m-sGRSH5pJcO(%9
zGe{(wU{01w(Uh2}kkIVanO`gK%gCEq%i|xQBBT6cxRAf#o(BnDh@ScsuTu+_&Wwo;
z^`ji%&W^$~9$i_{D3Cvnk|gs&$KYEyIyyU#rZPILM@Aai;XoWnmaRJCXgQ9jUmcfi
z32VjxLF#n_EWoeRvJ{H}fbJbfe`|q9^SG3V<EzQ}YXXLmjf~u4N|VI?7mGHWdXp4j
ziYW3dIe$V9txf#@PR{>9&H*@L-t0^`CKj;7Tl=I_5c%_SbY%oj)VgS9=JG`|PQuSa
zs3+Oe<y#3BTzLe#RCnnN8J56_3yhPH->GTBNRYESu-be=rDrJff;i5XkY;;<Jb)C>
zWxk$DXdtJNoF;PAQe(tCkhNyiheT+Sw1Zjv(g@9sYM6JhWyjvdp3Dw{_ntD5-bYuu
znrT&5s81s;OPy*YX|Iq)m>b6>vXPD&JRw8M(!VU*zFM~P#-Rs_*5%z-1gBrs!DMeZ
zj8Rr|;}FS@dX~!t$MC&<D~??-3z#n3pDrIvmJMY%)9^rgVCV9Yd#A}b;9eLK)L92~
zmftD)*4LADyYH6^b%#INw^DcFA*CMv{M3(&NjV1!GbvB2;Avflgyq<q$C$EcNz%Pl
zaBd}kSp!Z%K*D9`s(cv-SJw83vydqqNEKCe&+4UxHOuyOi}y}tvUzCDGW^h8K?H5e
z-6FVK^ch1DwI@4EPb;$YSZ@^Sv#eU0LOzsbMY0LXq(cw^ky<9nN1@!~YkvFMTh}D<
z<vP@tthcOpb}X5G?D<K}k80MOdp?>6DeUWe#O3&kllE$)sB3!r(p#5OwOfSREozDn
z!XHN8i>^6$el&vkb-jp>^BgBpRuN1aHwpG8)F-*^$eR6V+FqiBz+%A1_QMa6V>S$F
zcU{`;Nmg#VcSxu_01;^Ap^pv;6=wzaxwOZ3cS!KGFP#=V-OEFQd;2<smR)akp?M*r
zwF5vjFM({4KrS@`nF@F!qqL`g`KsXAeZNHT?7x3iaE}>fO|`SI+Lh{Rw<Edh#F~9f
zSG(=^POjOHv%%dYxSCR~LBTb6&%fe2khC92x(+~ltFS6%sTVBuuwx+g2pX@rdaY(#
zs%DQ+vnN$EBH+J$^g*d_tzmbnVMJ&cNi`f38jdAPj)S>TXvKivs2U6l%E_9pWDm2m
zY_Gl(Om^>Gv+pCppQ@wWE!eu3+g5Dbb-?XgaqW|>Xm)EBHlertrTZJbyJkNOcoY~O
z)-=5R!dov$lIBf@PVE*99kScDVdxAje`C!)N?Cm^*|lfQz8Brx+DYa-8=+v<>?bwt
z`gCI}J$(;aI@lLUayfxzZKKLCaVm(ydo%<7w_bb9NHtj1<k6e=<&0E=Z|3qHz#I+u
zAVzpQ_!cUTuHDvQBpg*B!0k4wE*Nkk18Nze1{{5a8mN~lG%i!Y%~^yAyA8P;(1XZF
z#g)){@(-aZXI}|}Mwm=Nv)s*#`HKZJe}J~B)nX{V*DvevPs3VG8{oqVrVWMddL<|0
z+CMcl4rm$OU1F4ml)8=TZx}a!<{)Al^pIg}()u#!H^aD_K)e}rFcL^iZ1w}^BS%vh
z2ObRmqx93oAw^|XsT^@ss!SILrn@)9QRyOGocydfgix^`MuAM#D<SmczoQ+zGt!d#
z;;o6824mN#E#C(^LqDcEZ&@siV?IhhLlfz0J1Vh=yOC8(two<bufnXn)K*1{b!ufQ
zzMBR7A86;opQ(Mm;8=_IDrF(}KE<y+l{u)L@m5wU%}6C{TPu!z^(g7Sc>f@#!FprV
zlfN-Y?TbaaF>KB15v_OCv4Deq8|Q-2e6eT6QF~TbR#8?Qb-vuppZQmt>?(swn`+OS
zIk8i^-DFt%qWF|PS}fM|PN%mkU$y5mjHqJmXam+`zmmr$xqiXfnb7BIe)hSkgJY)x
zk@iIGc582nPglxbB}{ulGhn~=rublUK;G-JdQjc9;)j&D#-%Fr=pgsi??Y$W5kI2D
zpFXPiwC6MQiz5Vn$2V~tirh)2ORbbe^Aeg2Suv=gkpDrgG{u*2(6`Tp?2GnoR=LEG
z*#Mb&6UdG$@Mup7vTy%`JWkhp?b>(6XQZY5lpXQe*Y8btMdKasW*+|+UuMrk{}{CL
z|6BI5n|U)YZ?c-HE2q+9;A0mse(e8%IvZfHuiFt`t;JS+ui4_nv17lGdaoLIvZs|$
z<NTBn$a^-#G$=ud8S})?D0xnwSA5!2e`ng47@dZ-o_=1-U-2nxde#bLQ@($xvJL9}
z3}vhQZ{2RBhAD7qCr5BzXLJMoVSqcM*Nj#s!&Xw(WSP2gej)0{Xmv3hVH<KcFP1D8
ze2Es`92<Z3wa1y&^XlG%i(^{81Z;U(`TaU0Y14J_OTbl<1(z!ON)&vldO{yy10|!5
zP~)*C>pGaGU(iOd;#(w(v<BnTXwEQsCfKs{n+`}%y}Rgo2Att<0cUWB?28^P4J^dU
zxdW$o1>ei!qz=V?fYNAgxtY#|C*etyE+C$YH86b(<C-O;G-Yh}20lT*#q!U=5y}%T
zDV=`DdRCYS7g_W&Sb--mdcF;nsc(NX51NXGwB_~x@9nc+Vs5#z=7P3{81rosXl=b-
z6YGCa@{-*zRi#OP2zdjq#$Xg0(RRv6#x1IbaKvAh3+ARTC_e4U@CSQ5tb`<TUR95I
zlP<4OiN>RGgLSz{B|q)Sm&B)(Hyn0XZNRhR+R%)7xtJLxDIQ}|F-Zysi(xreU%_8Y
zERigP$*O|v`fm&AM$*;QOl}90SAUHB#eC_KZf1LI;ppl4@tODmX1WmfTg4RFnqI;v
zT|PC*L~pRjC0~ptTY6>&C&wVk>Ry<Vq;onM8d-OS2##!0k|+}g#m6H|NCycVyP1^T
zlh7^SQOS&1j$fOK&PQ>_6+at;9cW2oj-?61*04`Xz>dM;9J+-hQ?zg}>7;)^vqL6d
z(4Yy$_$?HdI#^QwOpuROTbNprE{dO=nP1?Erjz7fWD{GGdND~@3%!!mjV~vM=mY*|
z<Pg@0o9{2pPfp^(Y)K#*(;W+{r0B%Fzzs|DbCIwlK^&!|BtaAlN%53fl@hJY<Vr9y
zbvewpBbitN6<An#(diEI9hBWRa!58On)&gWi(&q6D7(+dVZypu@)1eSN6DEd=iiY-
zGC(n($rEGz9tvqChi0mz!%CQgbS95@1O5t~B#}u4H)|D~xR+WW6ogz=v}tdBVo~TK
z1u7Ea@(r(&OqfZ4?eswvB$w&mv{?LZRt0HbX!1!I*SR##ha`z+G3*4e5+w^VVxbfp
z*V5y7BJL57ixw$10t!Q~D1e!QG1`e#p=P#65^~aMu7&ndo$Y=yuD!X{fL0LqvH#w}
zP8Z_*-9W14h|qFmwS^g9Ym|j5RjaZL(@@OAE(Glm935+pu7~a|?BE)m`eU9x!Q00?
zU4pmkQ9+)k?9*JXWWVXAHHn*UdT^rA(~IwKJKl0Ec~buUf`9-0k<`H#go7`@x_}gW
z&&|SQRrimIad3-F3v>!4oyn46Na||4md;Chu&J*7Lf8J)ngchj>#c*!^QocJ!qDl|
z&~w7jbE~b-C!M&Br~d7eZ=Fn4(-k{63)3wfsg^xBRG4ZxDB!=d@c|tX>=J6aQZ;=-
zO&?A@wsxjk_X(~0Qmvyx>!_B8E_KpLH--BAOO^KraCa$*XR6ozeQ9UY^2p=d9N2_I
zNDB!S+m;INd)8_X-57!Kyf)n9)3`i<7=9L`84XP`%XZuh_poz&s`IGOd6bztXcF8_
zDYsv6`<Dhj-1FX^RL35nV-K393kDDTH|=*WLp8X`|L*WR!>Psrp>be2l05T#vT<Ow
z@r9e_HK%XAq4nLiciK`7{X#?k@>i0l&L<oCR~w$YY5pAt1awqt<Eo?ap?f>CyU+pa
z*{P~6Le&=bIv`XHq^h<HRomCwVY(o-<&d!D&}#eP_4=XJ`fU(MN<B1mvnW|N__&nw
z?4aYOd*0fUs_GG{a3K+d;r&8Yf2wMmP_^x;c?{gNCu{pLAey?CzWPz~TH`4R{;t8a
zyW<|URX5E3tU24!nvI=H$6=YFVT@|A-Z=mxKKGgtqYE+q-07DGifn^o6*efmZ7DAe
z#Z_<rjU&tuBI%GXHK*FQ3+>xe?R$jwJ@>D#Rh+(Ybe#@f()eBSd|3Bhon%Px{)=ng
zlQ)i#8g|FKFTC?Ys(DCg9+E|TtfM*vcZV!YO;<I;@{mx~2>~X%m=6NmBCZ7oZ402R
zjRDbsT2}e)np3_Z!8i2hmBTmlAG*sWyB0JHwh8`ilF7n*SN`agKdrx)5d6ni-6v@3
z9KqDNGx&qvAB^AGNyd&)g}p-i-uq=j`(c3R@haJ9z~7tvqwzm2xfc=q$5!3PDU(B{
zn}v5;eo+5|(|0-rXDgLS1`_XGS@Dl%3c0FnkofBb=gaLMjU?-OSL@D5BOIrMRT24e
z#YfG_+AXWKr)X$1HTU*aqhWkE{O;^Kv%is{`}ZB0Vm5Srg2R_`^a+l><x4A$-8f5|
za<vJ#@WZubc_h_;Sm-~T>_4?$*#!0aib05dtID8l?<qq|d7JKzq?)z~P21MWxBs`W
z10@?4!7w^tD#al4RHfXlg1a@7lT*?DI2TJ7gvI{u4=wLmQf=FXw(TqlP0f_MOK^9s
zx_j=CGJ$^wB)on$R-2JcTi3hS-no`)-6phdQwvGCI|X;=s=NDM7%AGeBSjla(S#IE
zREgHpj~!hE2Ca|sh*UbeIko?JVgK{$3b~t>)6S(?+?2dwIi*g$Z%*w!C+t0^M&5zG
z-?KD^xEt1uX<8a+-N4d7>jrA-eb1Zn?-2Yu(r&D00JME40BvW0lA#xOW75^V-r4)%
z;r9-wI(G}5yVKs*Wom=2J&4#<c5`IS?MEFN+jMKtiywvA5_FDD-nK4%gJMz4YC$Td
zA?fN`@7VI;@O#6lj$J~>uC%vhnHsKhH;U<G#k4_UjxNkHb4G`%cMBD}ZyaSOz_$uD
zTT?YdLe0><eaV`k)tcRs2EvW8^_qse1F6RCLgV&7uR#l?y%jLz<!in>{*Np-53l<M
zv`(lHyjzz??v30(D(oCf_K&TcI-Tr4EqKqcD9ldVb-}ys9@dZpkIcFCWjBvt;NaFb
zZ>QkxTzc_d@%`(<@aa|W8B9gb8Pm;?l$)0MyDtiEtg-jZ_pQS4(d3q+f4VQZ<pgvz
zlBZ6i6+D%90vL_AMm{a!>itj$s@<9Ks=LPe6T8N5aJv1D<6(2Vw(O;ywM*3cw4&w6
zE1JBOv<r^*q+<}^!k%kY$4XU4(%F$L?^t)@9-lSm*7X`ZpV+dQmPWVW>R#&`P4%4>
z`p&Mn&aS%$mZ$Ig*WAa`ZG9g)-gDeEr<^{)>05I)D@Xk8bUP3h)a}gFPBY9C3C<=g
zVD>8hWgtRi4_E!=!AFveM}LG+IvWXkOZ}*MVt#}Z(w_B;)gYYm$oj=q8qr8Ig3)It
zX3Xm8X$`o;EbTW?swz*@ie~5dRBnzIZg7szAXe5nz7i!p$}*r@jUmwZN{gnrDseTk
zo`aJrhCF>E>8HXqA*vF$e5pLzH$feLXP3rL#Svul7+;E><Xv!J`O<^OLQZoG>V=G!
zx{69k#E?clcqu+3vY4J^6GfrpZ;TERt)cLR`HR6>y0h+^^ocm${A+N;s_6Lj3t`+>
zcNvy?arF#HMi}pcwGe11`g0i-B094_NOzvlkn<^*5uYO<+cse5Ps#b;Gu#~Me}&5?
z=?quv3Oh&k-B-W$s<h8ywykyVPj#OZx=*e+PQo$;JBZdM6t%5&?oD+b7CH~F6dnFG
z&z@O1-)R%H5pP>=S+tX9=3Ghp%)%A9QuZ3bUUMguZ0b)n?G~DLr<x84O^2Wzm3B2I
z?Trsz-djUZ4qJ5%C+)**Zt~~R78?#Pg9wo(=osp)zlSoKgZn3Q>HbL!MT(X6i`fxw
zFoF029A(W_ga^!!yTMdanVtp{B~IF;>}NDF*aUqOgWIFT(w<7Gi}{Is^$3}PkcWp|
z;u%;d28&%4dl?<I!Xzp%5(c5>21-YUG4m1Er$MOrLaKou6Wx4SKsQ-VH!5GXr&1&2
zV$h13n3x$_qN$bj(+&w69T8@2`N9Sx`kh%B;MKTngmym}7v}A0?%}s+(Y0-_6sC7^
zsK@d}TT!<_S+GDoz0V2(*%$4d&H6^(Hdx=#&AkR~k5Ge=^?_<58jGb(QuW70+GYFM
z9ciJ1;qcrcoY5VTPkp-O@N@iBe0D|&Etg(T@>$Urww)N~VJL~64LEc1K-9PI$hna-
zDlbhn^Y3GK+~B-$AO3vT!}0EgJ<YK;tkZPM*)?4Fdl{Bzm_cChiZ1VJrd#XPqt)z{
z&YO~{eHIlVqo@Vrp%CLqN-sLdADV)FDY^iTk4ap#Gql`V&f_Z5i@xUA!p==9BSG^y
zrGh{CuQ6zNVwm|W#HOd*o2qj6_~#Lse}SAA$zgjE?M|YT6yhb8sB{SnyG=mmT?VDA
z>v-Ci#bUW%)E=Q$(`v4^90N?+$jodbleRCmk+I$GD+B@K4zdlA?S-VvBJF@|S3HX-
z{z8eVM$5Bw9zClPFBANBiDwlHPDSS;VuAb?D@1-OUy3oLU`I0?!F71-JUENJP_tqG
z%l_=ffREio8Lx4lS)u>?DMw1cWYUrBKrZ#CI!0GIMl)Pap*3wk1fr%8_p^`6=qH&}
zN;<YAEnDCM2`#Eg*}DaM_qwAs<rowkgTKf%6_J8?>rkp?OlTQfZ8?SQDeY=cx(1W>
zLAdw`qyFu?SK4>Onq~6f3qW*>DnP>&xxRb+&Esk3>9n&t<!lz5KsViVNqoxL3K}|1
z|7D}ez(bkc<WHR(ELPSHrhQvdzP*BP@2YQqx~5)YFo8KhHlgyE#(Z&UswjKcepm)R
zlC<ek#;io$x$pAg8;3wwsGINfQfsPxhtR$w)qYTD$C2=nw5#&Q*h71%1ov1LxH?!#
zZU0j=afb?A8fVFU{erI__ZAS8xkbfn*WO^7m@Mnj68nflcWs7G^T2-N@<PlOaCt#P
zI`zksrh|${tHIn1owzmF@Uh@+mWu%zz;ZEKHjORbnT$@2qeKJDSa03ZpF_6sELVHw
zV?-A4iW!4fw2Z4^<4TxKCkXLdrG<g^5(ztHY;1P8h4J+_o^W9tdgX$UA0UnXf)KHi
z?n+S?pbbmRLhFW!w|T@fGzI67GtR+~Ry|o$1Bv#~(S}zttxATuF)d2UQqJ}jXZr(B
zWy;ebcslU8yARaeO4lwT*8D3@|NVi~ffs}WFR(c6IMo274JnUb@c7eSP{c$nKQ6bE
zVKcjI*lYvQMq_~uG3xKz+;!7?Ib-LTfij@{Zy=1_DJb7PTO{u~u^=voyudD=)sFgX
z_%?~`9+{CGh_!NiGRE+R--crOC_YPu(PrS=P^x4M19Bz0kTR>(4c}<c@^h5Y%P5H%
z3xs`QoVmjWM<(-Od%+x^oeN$TZG3o!t}i9}LUhhUPR4GTfmscFzbsnGm4Za4CVr7a
zN-yH#v5j&W$Zps+Pd9Fh<rDL<_-r&tC1YpAXpw9mLP#<JOZ;+(=wXmSW+C197L;y$
z6U*sB%~{YtaCj{2Fq#-7`?X><vsTD*MSWx|Dfq|)ZlYBa&51VYBpB-@(J4blR*ZvJ
zrovana^?Df_-t_Q()Ad-N`L_OC?DwZPlN)5`I-2H9{VQS;H=}Su{dE#D&cDrr855Q
zlAmtrsR_+-b#;!?^$LC`A1*drXg;6hhq_N!!YLnturh->&W%Jj78HY}ivJbv0O2C}
zi=IUB>s5*3X@>%r_JmMZrAo9=MT|_gw-@PHtif^xH3^MSH^3N;6z_~^k;La1J7Tze
zT_V>AdL0Bl4SL0=)dEM>i=n`2+C+feq@>WEh})vQDL#a@DSqvlC?xY5pmj_}s_+Ok
zqCE^v%(A2ZhF{RbTeK1tU!p8g1od%3?eGJwWRB$|Z1RZQDut4gD(X%xpup*X3Nj&A
z_(26_K=M(%P(CPJd3#;-ZunB5*`r^q(6->|K_#{J47E;ipn`I~XA0p~AGk2H0oRtu
zgKJNi;T9zd;1(w=a2*L7TpaL+izEDSOB2O#U8wW0maF2!7k8ort|wuITb3w=3q={Y
z-h>-&MWPUHe!>g4AW;Fg5`91t;;i5IOuubftV~ogwYRFp>P2G8k+w|Mj~~K3s*2P_
zeT$GOgQ~54%2+ZQHC2h~gfrnt;CQv6QgpS}8#hfe1Bi7n3k1CKas3*QzzPtm`Mn&4
zj)uafrZ~O%NH>6v6rRyOho3AFp+^lua}%gf{J8REdQ9<Y&*@W|U-6;-g=hiO^cf{Y
zdwx*+zPvUqme2fC)E|3W_D{D?p3DBmacq@1rf(sb9s5G7WXz+VH3@sDj`E7pI_pc=
zpIB#~f3j>E4b&!~dh{~Y(eXip)}u2gFnSszozbqvIyQRho_+L$npn=8jv%zyO9pUp
z(_ecs^n>R2<>L~I<q0n?YaGJZs!3G5UZvZ^%HuC9DV05p@xNNM@s=o0)J*1J%_%1f
zj$>k8Y$`Ip&^Q9rfZbQ#O7E>uZc&wJF3iW7IWy`0zY?)n!5L(9#jd;)1|V5Kt|$D4
zA+VZa3SBe66Ri9-a<0M=OP(++B^Jr3!0hB?EF9<eQru~Z>r#r5>`Y2`6fszU5y|)o
z=vG38#UjOe6)t56$9Tfj_#5OH0KvaXxjSG5dRDf6MU=JZ)CbUoYW#O71D4el^0BJS
zlaHz*RqE^HgJoKdUnJ)na76pm3@**a-4iU6*C~8~oZlknZ;|r`IRu&LB|J_-+)4Wb
z6_Z*c<~NC6-AQ^Wit;UAv@={#R_qZi>}@I(<6onkseV$C#JgCiWqM8;Zw7n@pUlSr
zqTCJorAXpQ5WLVwk<zn<V{qpXparq1i_zJs&_bJj;IN=pXk9T3(nmO@PZ>R<$hbhp
zk0rRYED1u?uxLZI&iRX2lS6Z?7k_>H_oyDfL(Xk-Slw728!IUBK&lXBVfR_qh`tUV
zb*8GRMY>+m`8X84BG(Z(5t)zSo?X@~;7uu)2jgBy((m*4^8XkQp3p5F=OjX}#4i!I
ze-S27x6ZU)oR3E$(IA*Vd_Gm=k14CaL%#2j?{6s6JjzsT)TPqMIYu=ys*-F8^5qoY
zO02oFFfaJrR!RNJXa+LPs)F!bkeF=J%wkNTMk@CIq-=_1MvOeN#8PP_$pcur7XB7N
z%J^5?zEI7d7`9Y#y6lSoDmhoFaMEeg6s7nPdiCS0n1k_01CD2$stWSGM9v*@nA#e3
zG`|au-=|Xq`wx@@o2%M1WwTbBtJ?50n6=WNXG4t5*sRI=eJYf?Ow7lvGPseH|7{BS
zE`=1yZ76?GN3B?@Us2?*tR1K_F&`lIea=tP?t%z}TPWQ?#xtsG2D@+U_u;(8ecH|0
z%Sr0u>Pgyr;Od!MY0`}7Pulz8uDfdPgn#(LnyWi$?}i+oT~g8_*jm;U%Z97AV`*2-
z-Le%|EBI|i#pzN=WS3t`I`@O^R#cosu%tjlrWXFfc^Yrto@DuUum(JxDR;NvhN1Tl
zufBJ6%{}x0#^wvSk~XO3K&^^tUO{(??73gRb^Z1?Zha$Fencog@}L|7tv#vkqeA!5
zmGYy=si`;BxK(J}`s0zGocPg+wZ{DqDq7O@!(?@xtkRRc!?eFU<v$?!58!Unw`bp)
zO}BNW+V%-;`_j<3sH{sj52Wk-OyTR8&~hvdg{ZD~x|W+$eMbcRZ#cp}?GjpcF|OC3
z;2TW0?MOEcXIeS$QPU%^JYXK*T~hjKCs*B??AV{|7)v_GlI3IT6}u__hQ@S555c4_
zuJ^=am$kC=X8vO@SJiO0IqBbiZ{KR=?i-GEybdJWcis!FRvk!Mybry;l($Fl_WS}?
z(5*kMtjgr#`LoK_j2X{Qq2|_|DIlMPb9pm`<bygvQ^rO<JLhf46p^o(;yK9Y<eGP8
zO2}8rRkmbY<a2YVkB59^^tBv5Xb-^dWyO}2iY=K6`cg@`R*|ooa;+g>E#+EAJ|Cs4
zCtm~Q)kwZ3n4!otldpxV>CCi}uZ>dp;mfo`St`|hV5Rv$rUUOciZWZc!2>42(s#pt
z^HS2+Ck?q3TgxwVFrHAqvhK9Agx!}$f_}Pf$Z^Y&uJNZU>Y-GX?m9xQ%0P8l%Zk4>
znknOoOTQcZR!|wMN&9n4N0)Xcht4Pc&#l^@!#G{{fLZ%w#!feQqO3T&>W+CNzHSY8
zylJO*y|z77J1o==r)qZywL7T%#sLCBx<ue{os+J<%QOIhC)u|OIGar!jg|IO+)|_)
zRq67^yVqCBw;*9jX}WCpy~Mqlr27Qs9GL>$f*DjM^V_64Nw7lsgdmgP>pGHgab=y4
zIJD54qrdcWMaN7(^E9Mu>zIaAqu>J18w~YZd*sIT;)Xt!cw-Z*Y~TlA`?>cD?!Av|
zP-k4>*8m-hJL4<1I*5FeO?%hN>+iOF(7eW=#!BHlB`*=gg?CpbtGb}VleBj|a8=wm
z!PsAZ$LQGD&;KKSV`IQ6W+&qiY+S@jh+k&U*eL&>VXZ@yF@N3WcO0-?^G}dMy58V*
z^8Fz>Y-9Ze`A8vF%!yv+iS@ysL#8}2iTDuthzY`9hEKFWOP0)^Ug!Tgh0W4eo*V}`
zL}2s(0*+{A_K?`FBVCs8FX_|2f<s#lw^v%H{}~0669r=_b_>q0=*|Qy?o9Ajo2_?W
z%y4)t&;R7wkFNdX)gQh3OM1=hJdtDWeBkh8%;Z7C;ZlSG=EcmY$P_ZKm22<H*qGO@
zT$ND7UcZ)iF4x>lcO}r1E=!<iCX(+lZ(BN(>N+ZP9sTH>&~^Hk96~bPJI%!pD*H2L
zJW-a@qh8!lKp_^+>VH&7zJ#gNYz5nv3;^8@-U?=N@&2H&`c7OZY<y(KOQwy>FNTJl
z*?lLDE2PctN4ZJ>a^Ccln`>x=(cW}xN4lXY-QJzvI+U))YkPVKbFD93>4Va4dP_gO
z4s83h;~P2V$_*DjPyh;0E_`6G*n?{5#*a)Pd$n>-SH{M?xMZR-Q^dT*Tvc7h!MspF
z_TFi_bu?4LUQ4;E+PisgwP#%H)y>uTG9KnFg9g^^<F}6A?I)eUau(+08rqi*zEhW}
zV6T;2d1a=Gd8?s6nW<skT2%Ah>UXM_^Mv~TOdSjJajhMhdgg7QYcLv_w}~KZX5JPk
zh`!zVR_BsisO-wLvaq%d8TnaQJLzdA-byTmgu1>AYobi2e80sV^PTY9k+&jCBOe}r
z?|2d`nRlB|xb3qpN-6Q6X^c+bPyNwIr{5#uni*YtAzv_&iwh>q>^gva5R-ZQhlsv#
z#7bDq+4;G-Sr`)b$rsc4E??=I!0CuEJCi}OSc#P!^G))zQQzpPVV`CdE!NHQV6xT?
z!X^TY{vI{K$uezE%0b}f>yP4G=cEf#a`@K}pPAT}6?G&r?l%z{qx@9eoY(QPPyyWP
z*mDO6TKT5dAQ;$F@nEnY1u)}cP{vVhQCEL#X^~d5g3T8x%9uA?CaBR^%k@y^gbA}{
zA_vQa#bj>1`{HMqOs$`iBXt)g@Fzsa#B79ws^GoHy2md}u=PpI3xkB@fdta24dUs~
z&PHO)(6^Wmf({MO=Tm{;jB~t&99lk!WaK9<b<fPOHI(pv>9t$CQI|N?Vj)BM!!uW6
z{4~99{X!%_bT%{}8RvsIGctoqn2PZpj)1fc!+7{CkIR<EuR~l<0LMV`f<9nTbV+cl
zF(74Fw~b)_8!Fqu$_|cCk>~`sHA*LIoGcVt0C9c_v?r*zB8qHd!QfcnBnnSTK4SY*
zK)*m51a#nIoS(wkBk9&DMtCqXu!LYB-nz7luuX*o5Mswu@>DC=EeZRjeTS$wo`inl
zz!yp@=fd<Z7zs%O=Bahj%4N;WS5kudrxYe%eMJT(`D$`%C`Id2Qs_@&@wF8DY2!j4
zyZgd8<XUor)KOtRO1|X_7S?_FN|3E8d_5)G{Y8^O<`s$QX>t}IoiS=8C}@3=EaMaF
zRXTx0iy_aHCEDQ=hn}%89HEj*>7aZ_wjf<nO<GIr@D;lvl<%e2K5|G9@T^seN&|xx
z#JB_floN>x_(96<X(aoGevw*8VgyNG4^bw>*cXSNt>#yU$CavYqdeH5uN~wgraiki
zTsqT6hrPraqs+BcXfGw%N6vnVU11bkg7*M@FJ|8%l#P=*O-wpXCoK`gLBX2DxN;*D
z*UjQe6%T=(!n9TRQ7Vgg^rA=iU1QAfhv{3n?i;jWu=B~CeT2UH*w>A#UN?J<bxXh!
z!=C>wa?X<zC5IUF5+Ztyd<*3Km>k-#*^ZHQNtbBZ$yVC%Zhi&pCH`}<LvV44fXVbr
z3ukKng!6pD)%+#bBXB+cma~7tRei#>{T1i^OK$I<b9+DG8b9IMKjHSl17ggS^I3iY
z9F81ko+$@fIHsImS~=5M(<j`i&vNuZhfSa5<l-wzISH?o(!u#9IiHnfy($Smvm(i7
z77Im&^C>x>l`3DUq@ho^j!!thn)kpbT<_0vouB0Geo$6>w=n5xPjaO{D|Fv{VYRUK
zwfx5b*m3jVV}R_)xObX-ch6-wJeH!5=<)a)rsr}@?xeHfF-M-qeBO(BCTp^+<uON|
h$JZ>cT1}NnSMy_zJdY2S<(pcQ<!!&@@MOF1{|){f?+gF{

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/fp_quant.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/fp_quant.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c23880069591c3bfaa5a7f31a4490c69957eff0d
GIT binary patch
literal 16355
zcmeG@Yj70DnKS#G-I;x8cZDSM+Lb_Pg;;@j8U!{NgAGX70XvR@y;<#y#EN|}vjR!C
zx?qPpOL1bM<Z_6!Qx=KqEC+HSSE)<x>Z;EE<y>7|-3*Z0%@nTVD*Ool))ubha#ff6
zzMg$)S=nIcM^beI`lkEqp6>p-zy4m``)@Xzm4YW~cr~)Km!f`!nZo1ACzj?76m^l}
zDV~l}F?x`uF|CX026gb(NA)qopn>2FQDe+BXo{H!%`s+>iCG3M1aFL5W9%Rs;|95y
zZO}$=rl>vU7<7=dIqHnn4Azh|6LrPhgKm<xL_M+E!CI2GMpwn^2J1+gjn>B+1{-Kf
zM;)Yi?mWfYgqkaQZM=i43Dyo+hrkuFjlA<bHQ2=02)fao1rked-n9bWEwu0+p|yHx
zb?mUN0U91=_}cS^K`*}w`t|83p@FXxyd#w06Y56ymwGOwuGU{MYH6Ucp?b^w>J{*f
zE8v?}z&Ede_f*FZb9@WX($2R6Eo%rZUZEXmS@Qt2JnW47s*m9_uR<G)d@bJ&Bkv$1
zUn8uAk#{`6$p83OVJ*<Ij_&|kIteZ7gmpkm=jWiMbA{RVuYm7b0l$6)eD?}?-K3eK
z_zf$R;;svjomX|Y4tw|>m<j)c&cE?4ZW=$W>i5Pc2H<UZIwXc-LP`+*2DLUkmWqZX
zDJX?QQGpK*C$|J+G1W0VCJFpAW1)B|GAZ<rS0Dz?sP0%O6&s5NW8=eHf<wcbwgpph
zzh1Q-iNuAFxGy9Ls#8n%3#pR{o?z;pji1i9$(I+xsNDI^La9h1u6-f_+EtEzJP{v`
zi~!b}N(6_ZiSQ|bhn!OqQo*xAWaMNj7)qr?{LUF36Gb7O3MQkW)Nn$K0j`0Mh(b6O
z6orw91mp+9V^S&+3nr4`f{ekpEuUH1LsQf%AlL<Jkme~6=JcT6LKXh;9$qgPc!OZ%
zjqqm@OuShz3q}-eyta4@uN&s3sbQM8oVN`!JR=x~b-Wc8#v)iD$3l)hZ@7~0aF8Qd
zvtS!-%A?9&L}cnfn3w81NPPpeVk^Ts^R1APK$*R)tOm*)f=e(8ZcPaD3{MRkK=hYd
z^?(YnjdqoFollN--;V>eU<69)G>V5!yc?*ipQgs?!G>d$zgD#!c$zGswsw;Z+S?mO
zrt`wWc=P3f0o8pn#D`)bkq?fDiLqo*0@hP)Q0FY-_|!yFQ0;{*FfeeH>Pkw&7@x><
z6=5EARV=}eMFlAcToO;Dg5gB`j3A~|lPILd#CX_LMh5Cc{9Ae%z<212RH|4wV@gxs
z1dUTz9-2ziX)35IR7mR}m)EHjmDWQJ>;Uaa8z7h0R#0YyT(Q@*L1a^oLQS5&0&IrQ
z%k%{0*9}Z|KYbrb-iYJ{O1#ooGMNxl0#9b{%#kDgenvF{RuEMt7>vXtsbEk<yF{!-
zunIvPf_ea|^|?@VOn5>R6QbX&8YCe)ymDnrFh~|D7?eN|QC{+#``s6NQn6%DGLqbo
z3W*~^YQy;0_D6P{+Aj1&BSSsO30ReQ&zWd6)&r{`M1#V(03s$K_C!Myf++QruT;-)
zGDz})<b;SUKe=idw*(3#`JhZX0^qmjsC!PzVxKW9O#Mw}b+&!mwBaV>%{F)8dv&&@
z8{duDwk`N>&35$RyZyh|=3A~Nx%u!7*AbaJlG9UM%M!Flh4Yh-X^MqE!VF)B1Q>L%
z+@pxEcwUG74JAcJC>28qu)%1N4VIMvON<toU|9*U$0$?66jIQd>ANiKBJ;px+p>x2
ztg=&fPddAiElQhZ_hd~8qwSa7leOL6`?t*Q$%bxk^<A@DrTu>6ifrPi#TFQ^gwyC1
zy#SFBMIk8$gZHndhTn`I3;{St-L`MM=E-b&O4;<3yzx+uq7T!}*=Ap+xkqX4k()LG
zW>ZVHr7hF4Nom<6H}?W!b6d8pBh&VX()Nh#+X;wW9odeqOvhfOW3Rk+-@Cq?#bA4a
z&go4StB9PlY>gqWtuZdrMQVbEEvGUCMtp~Q2NY#EDlH=j*gO~qm03wp0pABrNx0jA
zAV<Ufed6R0zFI^2EQy$EJTyWdgFy`Vb*d4zP57kB3=KyUq12{rVkh=fHq-SufTBzY
zhCsIwDJe~MEMu3zO7$MY22m89qwY9sFWTqqvZGaITJI+T>fASNcX>dH>kw3q%!NJ1
zBJp52lnf0;qLI|ZWI@tv8i0&xd5!(hQgIqx_m81Cjkt?0QX|wcN<@`ZeFz>L0*HRF
z7=pu*sDKM7RqP`&h{`%o;xJI;;cC`QTgX6ElU6NUzU#3PS=THiE>f_IaflU9n&#;d
z`bz%0DU=-5Yw5~rp%kfJOJ7zCB}(;LhO$~HU8>hImen%pVEmxc^q{(oX;Z<~0_kHK
z_=MfB+HjhOMKGgI2@{gvEc$_daVvtA^iY{T$%_n@G@#A!WW#daEh|C|AiV|vR;I<5
zY3Wf~dajw|M+W2_M{l$|ErZ;zZ_L#Dm3seT$F)c0-p6m$@1M418=5i=T}ngO;x>89
zetGi~HyRF1+q2EyOmjeK4lJILcN~$o_upt9kU@j^)?|FWim&(DHo5P(yzAK;zUO47
z<(CdumTS#&4Own=mTSp!ZA+}lY0XguA)^|Jf>TXNQ5cSlhl_>*4A%gEgiqdr#49?&
zDUhmsUg}I0zna#8)kvRbVC^caL4JSHC@B~ZqBT`CHwp&JF)D=|N}e>GDr%SlFM=6@
z8c!>y3N0O@h#9g>Xd(e9wU-_P@E!UvMH6;^0gQ|(dPY~By$TKfHGL5xBHySpK*K-O
zpQXv31#_Gc;=FV=k~#@)gD$X9HE9Y+#NdO36XErq(=>{uZ$yX-<4JMP<fi4!fy_rN
zh@ht50)5~Wgrd@(K=G3ovAI?Nzx_3u4>?M=%lgaS{zcRDf!U)oN9PY@xOSzt|Gy<9
z@@tJPwBMvzOZrfJLc|GDtq~~_mr|j4SP(6UaOX#{%!knvO(;GB70PM&ibjL8a;TFn
zpG?Y^p&e-e01nzjan20ep|Bk?+xrt~35m$|Zp-xcU+?W-(nIbZrQ2b>XQDjoZ@9Z<
zuKNyKdqH?(@Fv@N%iXb%(vVq)n@BUi@vawIR*m4jCAX;N(2x|2g~ksI_*bL)Mo}3I
zs@7moTM|ffL7eAkzQi01@`*5@^^tf=)k`T+H4G&ZQPmIy&x)9G;u`FLB_^b{HX;WY
z5&a5r1L>UTDzOI<5L%<eEr>Pnk#I`H<rjBgUKfw6rha13i&n($N31PxoQ8#HG#CUU
z1Q%FBDfbweZqbcZ5fJO-F(~=%dFq#j_8dd4>Bu&($+oP^ws&SXZ~xHdH1^ZCo4q+B
zCSa!P8*^roWT=LwoP{K<RI@L~k|am@)-D{oY+2l|csJ(A*Eu_7wSVj&#cRw)>wNnX
z1+ScoGS%dCv~jiE(ESkw?<IW!1N~@a-bK%%@S{`joKpNdv5vP`$6Ku9Uf7I9?qZR<
zSmatbzSw^GOIYkG7Q6DroYA`ASqLv~UO0KVB}YN_+R=~jm9Gh@T$9!4$=0sE`25`S
z7lU)boF4OmP2_#s(lEbYv3P%D1SDY`GNoad*5ZSUiq8^6I6)|s`^vmdK;Kjk9-$HZ
zWYef!t6C06o#i<#4gRzR{AsITA-=R3at!=gpapbjDjo>Ep-0VGDBk%{y>QUp>Wao7
z3!&2Lc$NfY?A1#lnCUog9JEic{u=RdXl62`2?wvn{L5Tjs}-H8z2b<plcX@GNij_Y
z?(`l%DHO~ltt2u@d|R(pAwWJ;x$=*eSte+0;2v6X0RVl2jw__JXF@ZZVAp&R5PqE|
zw=gZ?cV0~?YYtgc6-ifg%M$nrZpw31wyAU4@C!yWeu)fJ>m%{x7}%%a#RtJb4JJck
zDuU4+byZ?4g+)aSsU(4%Eq<Z0`8p&Bz(LJWOwz2|a8ap2T;MlX55D7;Ahx$(~p
zY11bg*r&FGXkbg~vfKklpT3%tR?R(|gdTa_eXZ#Wdhca)AFDWgqc~#~4{taFHs>LV
zHx`ulLw#*J)d@7|dGiz#-}4Z?GWqW;@LgNkj94GMjn}E~>Pi%+3c)ifRWv!PZTnPB
zVFJ>{`AS1DY!Vo-Z1s?PE1s*x6ARvU)m|`VrYtE8c#tP;;T^mV{#f4mh9PanZCj{^
zF`Q8hh*Ug$P1;hb^ZBSqGoP6XYZ(;~s6#5!%tKJ&N?RYE3f@sR;}|EZcwol!&dahH
zXUoRQ@^0P}p&xLrYtw9@MVflhx&Dl!<jO|LJ=7>yrHgbw_$XJ{H$~ICG_?;=)3gH5
z+sbIOJrr$qY1_lEz(b6<y4<Ta3oFrPFQd)=P_)&ji&B9`SEgZLvgc?#I^ivZQ81XA
zKOF#UF?`}3nkcAT5&3=cRaC-6BY9B?6=JZVXk;V~5m@wGyeX(clrU5P6gh+NN+&}}
zApklYI|{|ULjt_;JO#T*B@*5!MozscAud7u8&z90Dnv;q0q;@Kn}AkDuXHLBjY6l=
zm>>l}NgseQsmAyjFxV%%2tmYn_lDxUmtegiQ79t^W9#w6S@NCu1bi%_1#lPbt=~01
z8!yqlEM~aVdl!iZ+u#{^9RN4YCJLv=;NV1psC<aOi((zljVzj~<|8rHn%C4Moebfj
zOc2v7rh~%}l}d=J`Ls4Us!76wCP}r!EG9%D2;s_jBtCLnb>~lTMxu$KP*gjQQk@vn
zT861B47V5pg@Y(DGOpGSL3bqhSyAG*5r0Drz{tgB1Ze7%MJLelQ;k9_nVJA!W-O)}
z$H1-GA!1-mbrnyGhz)|rW~!M4<Tm&E9c3=xm$1=61n9YmClI^<Ky?Y@DKWI{fJ(KN
zPB_E})*M9;MG!*}M?lOg90b~jWsl}i+QXs{O2GsYrYl9Z%6-zn@;V~4CAENE2p*+}
zvejp~Rkzu?H@3dH=hB|*te-^42X45I%G}W`+rGeOI<_kv+cO=975L8{{`u+a?9)&w
zr_<Fux}-O_?K#R|v*$R<>B%^}io=_61QbU=?%l6A_JgBsv1Yj);GJ5mGUPQMwn<@|
zGHjQ^b}f!vXSZe>8fOk=Z8aHNi(+fZ*t!*4_cil%+jdfL$JLZ|ZCK<pfk&0VqnSXz
z66lvV49L!-&?<JXv)S)4l)LE`S2KHf=I|}2TlRF_aIVifI~VsV&JDL#HC{Y5cj}%Q
z$7!V+z4vTpw{_Z#hX@eLao=u+=yEImZ}om?F%n`Nz7K6Co9~{{VzI(BS?n3ct1#Y$
zhQ)(7nJsr}R#)rnkmB4{tuvQ(+LZ6iRo0pR(>kkP+;)@cz0<NT-`PC<R_)u(mz!^L
zJ=xW*_l){hD}=j%b|j-!ZtK0aU-msB_YEk%fqOXPFx`cb%f4;$j>9*ZBX=6ttkhf+
zG*_Q*u1Rj~x#p2uw#kniR$30<-`r+->k~Jb19#fi=bOs{12}z()0c5>Rh(NZv#Z*c
zEkHZ;)taA_cDZBQ&kXX~-ST5!P}Y9o{=Rm~eaCJx$M3Xvf2O|HKwsW`Uu)!b+kfVf
zJNC$Xk0~9;?(b`ty!+W-FwYTBcR;1bA*c}vNg{foVH6UD2OSRLUEP8N92pi(U2q@h
zYB7DlmVcjb2e4J#1He{OlzPBdaU4J?7d-I7=-^$=<X)j>761DR#<<|ghu8fUwWg@!
zf_d?~veY8Nl^i^xMeaA0iO6w4h!X%vtPLfaCd!PVWHLHY4E!#WV5I2R_zec~;P?-u
zjW5gDvasX(XZrDVWabFGGTd5)TT2pc3fGq9oFwg6I6tH_T(iP8XSi;K>n_W#SGe^{
zZYu_It@+a;Ej;NEpTxmFh2Ri^!w5)JsR>gU!4i)lIF8^5f};pfZHi|BsHWpY!Ha3c
ztV7^K;6;ED0s>A#Li#5F=cx~M1|yT>Xrq7Og(ZmR_;aQdZTupA+u@lVpBbP1>daSj
zMuLI8-QJNiYiTAQkIGrJyp^i0&#_vXqgFNKY+Bk*)it3kTyki6h&8VTG2}E_mvsPn
zl+-n|eKUO+2eU%N3<eOLiOwHa>~OY*C@W=k%r?z5-Gh*rcE(1CsUCtrmjXlHX?hY;
zJUt0)3~4Yk;BY}VAo74E^8-g-bV#L#%A*h}6BZ&-uqV!lFG0Qkfj<fP3L*}i?E*dX
z#D%>xPtE%jwox`Tk_lE#<H2FL^r1Q`>;UaFoNQ*?yoCqD=43Ntq;T10#;}R*DqXlC
zM@9<<kx7f_fQf{=*RK~}hL`v?1jzOhHdbWq8gh|Fi&0}BBsMPoC6xajD<U@mL&I!0
z&Tm_I^k;i+vWH~DAwtEn^8@UM4DnkaX;wOCDupp%rxzs>e3^gvqMOd^aq_1OQ~I=?
zH;_fq;i5nq@Bm>-ri^I=Z!9Y_k}@MHGnLLMs>-$M{TDAfeCqg2*jEbvw5O_+ta@U8
z)qKUEeKTeLlrh2?S6L6$C2JKqT-F1VHm8|k9k2y6Ks*MGlhM?^dkz5(MH~X~j*f^0
z)x-;DB4NRAg1Z;M44M#0VlA}H#8&~p1s6Q*-4PUa#5NAc$NZKG_EHUE;;f_^!ilJa
zCN|H5xlK@o3@I^>p9~7Uu}vyTKwA<Dbzn>FAyP<PbsuwrxqeCz{|c%afrX^MhXm}j
zn!1aPbB*)Qe7j{~)!U7i8yBDXe#<pDBilN?=G^|Qr+$9(+@Xb<xq$^qad$0-71yS7
zhY`JL?#cPnb4M1QQQRGiKE<{E+~GTR_w1>eQ(4A7%g(SD_P%PLH@(STVi)$lZig!M
z>wmKKr@MZ<>)kW&PrWw<8roqxcMx_6NFef+`@)y68Z(`JN@w4@&%OV`doSdxfRN(c
z7Y@oLF+jGN->8}sNphY+62oKhu*${8QeZesLGZ#P)q)fUBe7&u<@kt{45h*+@hDS7
zWu?+*Ro%Fx>R`r=p=k1CD2(Ew@Zgk^efcgVDn&<${~)kMU)2>H?$PoV@-3x`c0e`V
zUkI<2wW$BYw3s%Oo%8AkR1<hosYD#^K$y{+f&)6Z`hmMZ#L&HJI1>@hYFztG$iHJG
zlO+BPR(Ku38wkD&fE?o!R?|4mS$SJfd<$wdBab}|36O$z3XWG93;e&uxGwb0kKbfE
zGt35s*>F|J1okO`eK(lLKcOhg*x*E#Gr@_h(WHsc@`)~rP#j|UQdKk8M(`*fcW=c5
zx4G%n)c5G><{VFMHP6vMERR1I7q-+Cv|UB8@cK7&uhDSz!!U67_wZ;E<?HYnOf#`I
zP*A{SFAOedzAVZM@%sQOXS=p?wzX~j1E{(IrhI89B+gN{Sm*4nnO!pb{5<`p`I31-
zzu=nZAiEHHd*t%SV(9Xy!ao1c#(%N@qy6Wn|6}}L$FH-`%ZBGQGX~dB<;q?2Whx8j
zo@@=YmdfWF?SQndq*L>!!6F9rm+8{0fcRux8b2fc9aP$hTvVY;uN}F;?v)LD|6iB>
zN$b+D!19XI2xbtVE){W0z!Cj7FkRdiWeU_*P@r34n}_4e^e3{E_!@#)1Q!s@A@~-8
zZv%J`Eg3(fZKoeY{m1^8wd5|PbJx2E-tT{}e`PI+8)%tMLraKk+!ukg%8gs5f&M@`
zt(rC@cPMcj6%TJf;~lJ0unY^@v}{CwAf5PmN0c^{X>+cE1jt^=s|4+4)ti737ZALS
zfCq3FwF6wFLJ>;zuJ}Dn5njKBsdo?r5L6TX1yu_%VeMkR_!Fr5JTmHEKtfZszDia5
zpBCGU=Nm%C?gJ<9hNX?<r-v^1F0PwfH}9M4TA=580AJF;5Bdct=39(y);?ojs%23>
zvwzb1S^Qg^_{EiGzo2@Hv#-gDe}MWiSOW11e&|Dht3skEsx2S+)*|C&QD6*}XrW+q
zdBbRK7M`N%c@j3mN-iOGhR-N&=!%CJkT4>ArYvyEs3&K^Ln(uXgRiRCF4ZiTQMT|!
z>7BNuO=)vM%b$QTPFbhe&(OB5)Mg=-wt@x0f>CY2%ZlibPQnNZhU^p<9|LNPpP3pA
zxK})c8p9uenwpA+A^WM+*i&fRkcT&=ndRs0aA}hp^%TlWZ(_k#xhw+~teIG_T(zq-
zycq>7TClHCQ(W5kk}(Z%64n569C38-{x8_35Ck!UZ-A#f;sN+VbA0i5Nem%CQRe4V
zD_mAdMMlOFV-g;jz)y38I1yv2K9K|$7Jnr`+%)105L-^$737eH2t5>aaDGDqhY@W0
zrwF15VhBn*q!@7|{<6wwL7?Di)s|1?&z<NA33)2-2bX!n;-6uI2qs}$NZSFxG07^*
z?wCC>bK=z(Gq!fc*1ot;wzc1|^_)9!+w7S)UpKejYFqcV|FZw>z~w-uZJ*M%FUz@P
z&-%p|;fSK$sxYn7%!Li$!rEN3Pt80vJ1{el;V|r&<vefzL2i^n2;U~xV0c=o*{;Bm
z32U-hXK1`uRyV)yy2ZCbAM%FXpSu%?jXN6T#%<T8t|jD#12^mkW#-^*#y(BYnr2Kg
z({+KqXr43A>*rk;ILOY2-W<6!vM_Y%)ODuo+}^C2mCbdaO{R~}Sf=UQEO+inBH#R7
z;7v{>;b>30%(nq1R&|jZ?SXhaP&`Z%QQoLd<b^=#2U(J){ZIlC&wx0gs*luyJBek#
zD+y@7D+xr&@6O2eOzoZ^N+osOCw!5QX_I?Z<Zhz6`2lMOhT!LI`Mc#Ja+A9CLBBkm
z|GC{*DiW16uezbyw^}*MBGpdH3%_HNL?<Fw5hSS<Ad?!@zCa11g{dFM)Jq7a5cC6p
zUlfcbqk^{QFvufbLhu%XA0R+$P(-^{+lQ#Nv~96Ge62El+Qra4;=e-`*eR5B4P<;y
zPt)|r97WgtisC+?I)7s@(z+!GCFy>{8ED;y6o8Md6#XRq0riCss3RXx+diPye?ax!
zGaaO9kL>BVM`7aLaoy88+A6Q^x<_H+qhSM0H{}>T{5&Kd@XzT<X8pz=^}W-V&pZXc
z>p|>oqjh>K#;@mV-)y?nB(rN3W5<#ai$3Bwy6M9fiiS(vaGSe1TjS2!*JNvanVNu7
z6Zn`l(Yl<=Mw_x`?v?aQ>6{+YxASQuq{*?`EH}gD%$S4oH#^B$FlQ~q%~{NGl!<-i
z#7ifZY>@lNOVeMXKV(SHaDBXq^xR(Av!32pP9bDU6hh|Uk@wT@!Jx3(id61<Kq_5j
zR6@E)C8W!!#9WC=%$2CbT!~7^ebn_pRCdv};`~DTHi$+Lu{k58p=VFS#lAT>d%zq+
zt!~9N%vmsJ#UqU9Tr|gGj-w!e(LK{W?@_GHIUAzvR7?AtCoY}HIWXtMlaLxrxhPLv
R&W$Ngeo^k#LXHTk{{tJrIRpRz

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/gguf.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/gguf.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f8a892f048c698ecde6f70e1b12b8a64524d8f3f
GIT binary patch
literal 27392
zcmdUX32+-%c3?N|qj7@(Nq{7Hi3CMb2PNy4B}>#vQIbX3GJL=gyGelpNU8zqpuw^1
zcrsw(jmdG%lG;&La5A-~VojOeP1Vqq*&0vPR-$Ax6F{UxxWn0zH%`rZw<-&Va^~8q
z-S>V24UlTeb~dv|OZ<5MzTbb>|NqfsGEneERKFYk<EJU=Z_!iu?0I1Mpq8ShD3)UB
z2o<FRG>xz#qKGO3%BU)!B7S8=9Z*BKGNK7+$gei4>s8QHR39*q6sm|iY78(0R!2-x
zbHE(61T4g_iCCkyfSthFh$HF@I0>walto<uSJWMF6Td!E9<2yeL@NW8#BYdrqTYZv
zS{0~@RtKs{m@!fl^#yzcW+JuGx<FmDK2T5mrbt7yG0;e0b7Wn#DbPe<OQbpK5BO<H
zL2*v5<sDk=dtkkSI!v+F*C^J;)xD$4hqkhIu8nnY?Oa<01of#{=WD9K296ncQA|<l
zLg@KYzX(Gp`*7$5WuOCME<79qp#!p^5!ui|+0bFxQ2yc23!1=AsPXc{F%WuHHgr@r
zG$9-MwTDA5r~~_;>{lO-fza1vLw{Q~G$|YUJF=m#%ZC1*Z0Lk+=r<n@y`T>q<92fU
zMq$@*$IuNNU*+#A_yZ@{GEOsa^Wjoh*Baq&?j&0-AJ?a2D_|X-`e!b)63RTS$DQG4
zJ=`ho^c`<uC(smkD)8i*^;OBYldWDOyk?DX-x}dK7PatK2fJ~tF|o7t(EhXkkGHV_
z+W1s{j2pSL+*2#Y_-x>5J;ipc*@s81m31&aO)!45GHXnUt8>kfW7y``)PZOIuhi^^
zngjXqXyKmW0xQPjnZUCIFRur@+{#rIR%75f650l#?Odf4`aB8U0HGVX=cLdVNa!XA
z-OO2}(BL&?J;j}Apm=SdhwFKjW|e`SXM3*DSE#GXXQ(Um|4yub%cnRAep=8S2t^{H
z^AXOk5S04|uL-)7!}0LYU?|cJvChMXPjsCg2@S@>qah6Lxi*X`^`}C7D9Xh-UT~cq
z3=f9m;ZP(z%CS;7WHttSM`H1zXmDsahF(k-j12Ynb37DbJ~R^J*b_sY2Zjdw!u^7y
z;3w6IfsjmB2o~%G=mZzPFvLC)igA9WVCV`Dav>glf>nfz@q+v8;3cv399tR*&2f}=
zOUx33`s}5_`KA@ZxMImrfa|HD-q3mMa3sP-I-}<~mJJW~LyR@X#e-M4aQ}sPFcgpT
z*!v1L%yYf*AkX!OV=!*TvFR<{4zLTzw`_%T{~JK-a8!V1sepo|14`D$DmfLW#*>~^
zkR7996@98C)km}H*Gxd|Ky06a)xaLs0;~gA3$Pww6=xW5<x4O5Ayk8c)j=wTGeJ5t
z<k7#TdMBSIU?HLTS|QF*5@&@tBWL5(oV`y$TBTx<24PClI9L<Z++0#+9vo<SIE*!O
zYG{LtwUBmcfZkCB+)3&x9VkCT`R#(?@ZqzE#Az9IiNC(yNGKNb^$qbpjBM`~93#b9
z4@QUBkq8$PG&~m{;RkyaCAA_Ig@4Q2!TA<FMa8AaaYcgq7ix+si~~(2=&N)LsK|aQ
zK?S8!u2Hw?Zdixv*vK&K23;^nmU)n`grXo^72_g(#3Sf~LDJM<Fou=-eAj<<W<xwW
zykR&z+!hb<{an25>d3Yo+b?e8HblbbHw<5cg+939awHPn0NvmsLGCKoI}#t_H$+0$
zI6k%^zqrZP+|b`Y($_wGjjw^iM;*n1YA>`2Cn4qm=NH$hC7o$po6(go=qj`IkKL=^
zJy(}heW>#-Lp0T!Cpr-(9~mSSfK${p+OOyyWs1c&`)|V-@IHu*VLl&U2QH2T&kggz
z;HsvGfvuPthL^fdWi3^FJwRVrsi49h@{N#|Ux)ciYlFcH4gyMAQClH!1Ewz2R`zgh
z*gew47Xc_;1q0GNLqz^7u8{#8kyT$wtY%ddc>9%SD832+ze-TUJoa7?R2M>#K0$ZB
zFESL0Z+cA75};%ALtQM#-oPpw9^&I18w>$5VdH>~W25!O$!K3I(PpTW%souKwQR~T
zX}H;WtNTXxoz8bp+&+=E>`d!+K0GkkgVl5Y>23%lvv8Xhl)aHy={(r6{%CkG*c%!S
zoexLC@oS@1tD3hmdMh?eoSXX=+rv%3NhVFe;hciqmmfiK9duysl6Bz3`g_TV66^~{
zI9w93(VA5)Se;-8mV&7FIt6V=>PagEjhJi&#=!MJT4M!Z3MkQpgds}X<yY`qAOVkf
zC5Cx?`CVb`<KaLQ3m$cqG^-?h4`$MXbDjFwV*lNdBqO#*O*Xxt8RogZ@KxRkDSELj
zg%4LFY1{t*09G*$3;7asTw2HP<RN~290y&D2V6HGvs$IJhB!8dd<A@XhKd^tVK4^y
zx*)W)R;G|bD#;kP6vEcbg+og|DVHnmD1;>d4-a71SAB)FXQ*rW9cB~^;aGSu77q>f
zay(Wml!aqKGKj(0#qjVj>>`3u5LNRwOkl+sDJ2y6G7KijR65~BDu6d(j0rOU5hI2P
zhUgHNpIyI_phSKb7LHpchI8X9ECeeqRD!;PQ9{p*dP-Kq>d5_=A9?ZX)B_F0xF)!p
zfdymplBFT_)J)G}TW6-NbHQ?G$=yEh-k7#-TyoT>4$eFLX~w@~a!;!lYPK$z9$Rv(
zOU36Mt!bu}gx<WmU}|1+_)^Z)$YRsBOw+b`$M!U{J!^506(?e<3Pk0&kAgwL5X_&a
z05d^se<UBH4F=hvUI<o2fW8rwu{ci-BEAV)&7%N^$Mc>?#4o4`;^H?VY$Ru*I0k|;
zJQ(K@Bk<cWPQ`|M<2<fwekb}BgM)(R1Ub-oT)q533^nD?)m|<V2?pUPs)bO36!wv$
zh(}t2IE@(bQ*eIq8ugLN_nAte-ZOJ>)^YpjoGR10J4b>4uIh9A$?0fy^>qC*1wT0r
zt#+j=+tA}e&#sw<nUQy2y8Tk7WfunS%4sN#EvKN>_Eg6|K!AN&SqLbJ>Y1s3>zTEp
z%U~9IXF5_B-m1<)31zcgn6gYNs4S;3s-4-g%Bgdc=ca;_!JHEP?VHH&eZ4JhUzgE0
z{ag*9;_Q)b6J(7Gd<7blPz6p0l9|PAONdGOHC=)}D519E_J*^6#W{^@8gcM49?0LK
zk5e=hmY|;3QPdcnpvM)LseegN(KPkCK?OVWyUHsxSycpk19_xq-zXSG5{;~}(w%Z$
zBqa2^`?*2x>M*}|v{`olw(pJrB_4_GZI@D>g4V>a|G)SzNbID|U7792XFSQ5ru!Bw
z4FLZ#hC}dMW*ZH(xiU0(4KTJeR0LzcC}M2>aY#p;lUOFA11NCGXr3o!f;(^QN~^la
zkPGxxL3>H0`~@Zt1o4pOk?dN5t?{@a*!mc_FlLG(<#3te-GJpJoDC`SA4_AWSj9zH
z_`HHu4$`b@OgZTKQmNIDS~I2uT)%e7^hF>N`NPGtLGE05R0)r23FL!yvHF8h!|E`K
zx}$vuX9&JCI5yHr0%Kz#XMkCZEp<mB2c&*P{}RfJuow6ZP@;6oK#5Jo^F{7#NzhQE
z;!!;-v~^6CP?7dZoYtz+%S+oU!vBQQaX*s}N*|1S3%-Hs0#y7>5WWn=5!9G^O!KHd
ztP!Wf6_?PALJ0}=C}7<_#hA8aynMyF3J~;2(XU8o{{Y5KZpJ6+?`nRJ8q>k3>IT-B
zM{y+M^-`IN0umZi#1W5^kJTp>-==<FihGsz8@hR1-eC%egimp~eTp;vDTaNDG|p`W
ze;j@U4a;2)_i~>iz4EJuvx5?4O}I#3DQD%w9lX=$cL<K7C-(O|dGuWH^x6I0J;9!5
zPIaCE*6%_HcDQ)5ana%UHBtkA9;>mP?IvlD209Ps)6+eI^~8y%POm6L2|^OV(cd49
z1fwJH7m5cjbG^aPcENJu#LA?W6{#SF>0oC`dw4(A3zW=>u6zw=pz<?<n2qJ~J>vw!
z(?mppA|1ieJrqA09gc8OZV<SOPM#m){d)cxD2flD^DGvsk47(F3dTZxoIqa_4Cevw
zUJS-S?jz`NhzQ8{VM>jN1PK`nG>`a+_}mffL&=ZSO+tcQgG?ynk4?dRT&LjB)HxU2
zEg5Y~w!(L->PA)SQl`Q`bMRip#>xG&=g0N;Wr9OVJ!aH@<H{>nl9yf?ojCpK%S#sL
z8!wH&G`;E8wj0}0n{Mn(U3q)#t+CnDK<&(3`oWd=uiU-#S6Bc1>VoB5T6gZg*0JDj
z&S;yn7VE^esU4F$#>dh+?|rRKD)X6p+UnHqg^mN6`U6XhWs#}RF!ia!GpA>nx&9wS
z-;dtipV`|z&zwxsIUmKCt{=%&Q3lt|nvA}gq_4>^H7V_kZKi9k=?87^x80>PJCDsX
z$02>CnBI-)t1|j^OTLCh-`0$8>ue<BJCM;;B@Gitv$pc7s>!P9OBq{jYTMg;-r6&3
z%hY$wUdz<)`(S6L{zTf^om4N`oQt-GjIAN{^h_je>zX?Y&IkMd?C=i{-?MckHCe_q
zp_$T6>c+dEVl%1ufto6>OSR6sHzb)Qb8Wie$X)MUbGq*7c{2_UIpS8FVYr{j88!hx
zDG?!e!T>JFV{}L?ed37*xM%G+S>8k*v)oY>F!34cwo=3dd<ZJ@tI7W4`vE2^w75lq
zP+z&sW7s8FvEp(qmszgCzR*REPe8I8@E1eg8VGX(#n|51HNI=&($tm7E7O-IM@yz>
zZqpC8y}#}5roY<$=i3*IJ!w^sNTlJy2RcYQG)(9p0`!dx_6mBeBN&D~DJZUNg1^lI
z6CWDBm=`R@1Re2(*_dD|r8G7R1`rK|FB6$iZ|Ql9XDFGiUjY{Xh8Fawbdlzeo3TDc
zQVWtr#cRx%j#aWM)U%H1=@Md54!almx-mmS6PM2R%hUwTyAtYEAtsnf>2!w{=08?h
z0T8Pul+Lf^(~wimIL5&0ktyLh=<Aqi%nb1=xp-ECHH=w`9O-~W6BJs3XP$KKSb^Ku
zCsYY*!c>sblR9i;_Ay6EDah=s`jBEt*b?@HBcV>16PASWojgZ9=7dsp38z$x^9xFH
z0wp4rq)8~&?iZ^`7!wveuZuM$oC8R|uKF<Dqe?3Db-=wUBX|?a0UX3tAC|~!3i)Jv
zCQ&fOtO;krP~hT0+G+qgN>ik5fYMolwIk6w;9vMZv?}DNDx6Ohj2q6T@g1b);d|s<
z%9Vn1se+k$<V;HQDAn@++dRg7WO%?Cs4qapUshXKA%IyV$}ZkiNRdz`RE2d>NO_QY
zeww1l{x2i0Ys?LMtPB^U+!|+r)|B5XELBO3Lasu|W92M0R#8&BE8#BG4z)g&ueEZ_
z11rEoFo-vf6c_mt<q0of48*eVJ-i-ZzQsIMC3&2Qs)V##WOrGm)Vk_K#dT$(daUC0
zLy3xk^<q7xZlb!77I^M+Dk@QtFeJ)$Lz37375HFR`Sso8z+1t`1D>Ez#<u+1K!2eo
z1jehh*gRa|Kam>%{$4%}oGX>EKl*4KSD@DOqX9D`bH>Ane3kQEDUGdiT*aygx7u2i
zZpv|za`QeQNg<1!gmp$0W*YDhNa~>m^*^}=lqatG9<HItN3oi5)hbR#+x_YPgpUtG
zF@%T#Wl}gY0%{O0GBR3T%CZzsd|*=yB7uYah)C}szeBhY{vtqvB6vVxu%uvUkdWa5
zgC$Bn!&9Ni2q&@tYO+)WniZI#k@)ZkXdsZ;5tQKLzYe7l(LIv)d1;LjnlkDw&`cl=
zC0Z#-LIbhi!(4v^&M!ds!<gPUJbrlMiSgspn=*_yNoU>VgnEjl6cdTmr4*ZSw;(m@
zc;n*u#p%|W(7XM&`{zPGxbXgk1@qygGHWcGcHJ}9ECKCxbo}TWUE^JgOk;*=1Yz2y
z1*R=$psbFhA*ZLz<<pPdGu5t{P(u<vP*RSnbj`Lo!)zj5b#UI^nPxggQVm&1kQO;n
z#tYi+{=s080s3?wMDo4hj1Kl(;CRj#j`;?Me0i>tXeawZvA7Rp#Xg`N2e}9d>mA{F
z;J8+@o1!qZ-FFBy%b-#Aoe%Y1^u?jD$j}uZQiOy{BLrT%&rg$T{VtIK)%0+Ku_0b)
zN3CJ|O08kLs5NZQ^It<;5#ry3rV9qby#^y;XkipPguI-%Xxt*xi4zKf>te?RqZ9$0
zsFvr%^`Sy0R#06Ib5{f{4p?j?$|FX}v!P@Rw<C)yXhf3$fw>am!IYpsI0W)~LC+12
zL^(bbhqX2u9v18mGmU~O#IiwujYz&<$ELo5&a3GB7COkZ@~@$TOO^j7I;5jESiZpv
zVV30vgP<UYgMQcm^#$WY7h(7WIw;Vc0^N-|y5ZnO!SF=a$pgoO$VY>6U(~;mq(LOV
z4IrH4_&9-G#ZrR9L$P>p7~06O{3KK@C?StPUjZpMdlg09!-6wE|0~)8wEh)A5e~x`
zhy{-f3&uRi4qX`(Ood!x(^21xI}pAXiTki4vND!c+me4Da();7V$Fb~VLRrW2DRh$
zkv9_KiO(qjKd+?JJ@hB#Rg2}#neyft+kE-@v<f8AlpYw`d%ET<Q-1U0J!XAjAMYPO
zHf{f%llRLjZfS35$4$Vm?$6qtQ_Yjj<Ju&h+>{Jut>shZNi(po)>>dw%gPtaHfG8;
z&U)v|_9hJ<KYk|5I41^DwaZGyKH8Ac?M~~;r(4qNc7x)>Vt-?3d<ZJbGUhDf%`&bm
zQwMDzAvW+XI}8>>Qu&z+l1|kB?uDds$!rtzSXSn#0Ph<|#*a*#9zRa9yQa%BOm)71
z92P(@PD_fLdGg(Jx6jRnZa+J3-mz%jn=$W&Iv1I$3{y2dFw;0|n`b(pxmYtaQqR0$
z95+rJNLREh=+@^>(G*jaR(W$LY0BVUsBFpTTV@gqkDttJIGO#@<MfHywrH-+m}^tD
zsV8U3XSdF^-lgyEoHsv}RDNW(iG7t4Wf{waed65orBvIj{d?u_mCx0_=b0P0yEU`-
zRKB4whyPqX+$?tR!3IiiS=4zlI!{iaFl~9DROt=C6jwKWCpNQtu6(}fiNCHoFn%I=
zV6uFocH&Id?wB|*xo)a`vOVRTq2JZs*3QziiWy_3wqxGDC3zrQ-;`#2OO;jAp_Joa
zub<RRC?=lBdaI}T8;2(JpSYT595dlL@4V~Kgz_U-#dQ6f7bcYVt9>c^jlK!vl5ca?
z>7MqaqR``7`_JsI$%YC3&E}k%vVlg2ayF+O8?x)SXPnLVoz08Rwv4lFCi<ascg{n3
z*5$m^x}9m5-`;ynU9O(0K1k;p#D0omkW$7PHjl_y<B|KtVvquXRxkxnh@y!p$n4jB
zS!5Q&1{5~BxV@dLwznvy_!CG67RsXP0;Cj9kWwrfJsG2CdjGt!I<2Y}PdCH`g0X-T
zL8eC}B)v!&7CvM^u&>K=P~Jl-3)dGAdO$7~$SWcuN8u6qfR(!$m&Q|$gj*%VrUp>=
zy6Sr;?;q0wnMKQqmGh#e5>Yl1cQM5=>Q%a=?Q%i@5P~GMcZ$TPu1L7aDhzZ$)+!TP
z*;WvNJg_wRksZ^cSV7J-3k{9rN&vCCQWT+sx*a(X@+Bl8IFQ_^Z6Y75dPqR7?j{5S
zk&=VKo01Jj1$B6k<*xE9<nf#N3-BXS6MC*-*2WKEATm1qFgR$Y0;X-;peXKTNd6$$
zI)RNFAsF~enDiz(JUTIOfHHjsVM(COe;>VsJVoIze+3*tb2W%%3u+>$7PNVZbqobb
zg#}*_&Xom2!^4qlgvbmQ+xn-Fv;)_?0010oW+F{Sxh{%>UmkyX`pOJFZ)r*ETC)1G
zM~PbPQx%gHZ+bvpYN?#=zZJa^o!OtMZlCpMs&~x|WU7zcvm8n5j-)L|z^Z1^T9>ib
zrMAt|bFKyJJ~-X%WsCO4jJ+|-*d}(TJTraoMs7#uHr*bY8v(53FeJ5riLBn_6+Cj&
zmd(?rZ#{kEX#i3e?^!mdb(=qN*M5;ewseO|0$J2Od@&}HW61Km1ek7l#;jDt%D)8F
z_*JV#t5`V*T-TawiDk%3SSw{GQN&(%p{QdxlZ^lX_5wlmY8mUUSq|jdM}Bx@!FVFA
zIw4{+TmilCCw&D0;c|rFt`%mL3Qh%vjY=>zMB_t^+@6yY4YF!Z&uTaWr^ijmYQd+2
zKRuKnssE(<sXhixCj-n^sR3GLggj`L`K4P0dBFTKU<PAp`&Y>ark5Hy1tM!%Biuv`
zP_6Q@Z~?#uhSSz-CclH<2ct0htY}u_6PcT$xu(H@n|eRrAKOVF^pTyPx1-tV1Aa<I
zCnwrawUa!cYey^Je2x{C4#>2TGYh4%aAv_Ng#5Jl6-<R_{x2W^OaOfFL*N+Z%VQbQ
zpt54MX^>=A*^lcJu@msK-e$C-tPmIBE(jCKfzC&^8BWw7unE8r@NqDg9vT!}d5&5N
zA&G#WDCQ811+E*FYz(9fMPs7bUvFL<2z5{tDp8H_xBMzu-5^jb>1FY3ODGGp2Pj|R
zi~?1zzNqSFY1rG4AHOj}Tq-|dK;eHv&#L>u{4NY)Sv=iX&CL>VZE5O+ws6j)(d<B8
z&@GlLx~#TT)LS$pi%aLa+#ZZeB9&r4iiQCLGGg~Tx<X4x-*8Uh8#9))*2u!14}+qC
z)!&rFj39_C_TKm<`eOhgaK3aJ%v}7&?n7W4Y2rcI3TEH2U_T#Xi>Gdn-yrD4Nyfw1
zke_3O88}jb!OTlp%wX?=@{_#IM=-OYcnDW{JOoznU~LS{HqQd%3G$pg1e)VvJ`KI(
z{}P=ap@Ziwm_^|^3wEcDm4y=X6v3D`S4TCjU=s@~4KjncV~FR1c^;i`)^MC-MPTbS
z5)~?Od&pk};1L@NcFFRctYW-7z~dkn4-Y{J_L_ov1Z=>z`x$XB;ub3D$&b<dSLl$M
z?cCKkA6j8*FI1H5n3Wrj|7*-B5g#!;5)j)IK9Pzx_wpPF1PW?4(RQ@dB(QyDf&tw9
zStttGXR6AdR4wQ#mKvJU&3oq?9#89P@0V{%cN|Z<yFiR(Z=Kt^VBeqAF6n@2b=<G2
z&Q{lCeXZHLb=kTG;BB(LI`p<4%(m?NtjuUKKTw;2i>jvd71Qo?-IfL2)~wF7sPkoX
zzEs7`;RW56PuxC~X&oOwep8wDZk{ji`2N-(?0SFK0&_T9S@S@xEH@;X2RbMLxYqkk
z>$5e!Y-1DD_?cdf<?En)JC^TFH|<!^?JSmGJ?s5Yx0m3u6*v{Ajo{Qf03c39!OrSW
zPN6ua0K*$qA?0N_)xlrF2gIt1hNdg%S;TGRW5KlK+h72dputuCzNDOc6@}3f_9&zV
z1r=SuXk=fix<~6v<)*l3SIXXS1NcS_zVM)rNXvWz-R{?llBAzNxgv2)h+#t4{vL!0
zo?w1Wh|-?If+P!lg&pX#kUEA#2Ww7TZdJqlP%jsY71moY)Q7i2z!)4alZ>`Mbm}}Z
z{kL&3J`d%?QRMb6y8Riqf6=`)<KCKNvR3bcZ&Sv)Y4*AQ@O)<LlS`h)RAk=Mk?dNs
zd$V@1F_?YfgPnJ|yHBTk&ZezTA%SWJlSq>pWT<*rbIloD^Gw-?x($z55lQIWS}Ou)
zUv^a}AzWG&(D?i}rYgb03OQBtReDTX0W6KGVo))EEulV0y`kw<TmYNL=iy`ovnP!l
zSNToF>sA#trXACi)FUaQpgiOb9mlBRsf1i$sgVAid`p3UloSdjr<7DyVGWiVP653M
z%H@Y`EXQ<lNlDA9)<~m|OUl>*Ig>Jd0<Qifv@oufh0!ej-YF`m3~{`SK)$%7pe(BE
z;&oE24Ae(d^y0;z!bpr66Dm-X!4d?uyE4HbWjtmo>5&F|1n0l0l9K7W8Puujgb8yE
zAjQAxV|9g*9EF%MRKKpBR@(Vv)<QZ^g@N+@>u@P5Vf{K#Kf9q6qK>!rDM8K3p#SwC
zsL5nk+d$K*=76`*Z=e{8N<agvza!B`W48GELcWA8-X_5ktyQEPN>j4NgfUDP;{eNU
zDC8~vvP{BOOmj_pO^X-Zdlh4vE0o_fy6XTr%zPqV@`)!p`0|(cBr4o@f`jWv`73fF
z;%g`L%4qFDAUS*z$>F;Yiut19s~qbSFQ4r6t<WRlHtvAG<-OoY*1)i!(Ha<!%GDn$
zX<qYo!fvn=rqNCq$njoC-3^2k=)FccFx)!}e!^C+AkUwM(9y>qLX?ld$ubth{}$S|
zjO$J`7_Qp)UiHlW>Cmmd8-1zMx5DpL|8g1o_Nu3f{!MilI*2r6H~;tG@;Pw+`Mde=
zpqu<>SpGkt69VTq)gAr;*6<tb%fE-dkSk5%lzC2pM17`qdjG9MHx8vX-8u^1Uy^Q$
zc3_A2d(a@z-w;Z9sIL!iX(F|Z6rsOdBn$;?^GE3XEjmcoiSj9O&a1!<Juaxic<)si
z4PE8$V|*((f*J&-Lordy+Kr*dNN9Wnv~~Om4EXOPpf>`yRYk&=kj1LYAwI_cXNdFL
zOGsX96JKl$wgYZMz*Z!!5sZ04BNk>kxIqCLGq4vGJ^2`t_8+m7_b{&|3~U12%92<I
zHRz6bxTnDlvSQ1CxkODB@~6OKA~RK>i;KU6Wa0lS#ErIomHqZ_aHjqo9JpU)cTcrV
zwk5S$clDxsea5{WC=*BJqN6_Js88y^us-EptlgHW-Ilg&OMY$MxP5NZym9wOtvlzP
zyKZ-<4o>t;1>OwIbSFF0&Rt6m*Tl%1J5#oAK29i=?;Ok8J7zm)x23JSfPQH-FC+aj
z@i?eu$|`O;r@3!?=ADhn&QB_<GPuR(tM<)T?n@pACBq6or1$u4t-rB8Yx7QDOj}!K
z8$ZzgnfZt22TFy<oIDQXw6Ebi2kw;JiT&|`?>lD3GX6d3hCP{@z4JBu(v0_S+%*%*
zY+d_IEK}DpVOc8oWIU&4zLwtGJ@+y!%X!bK`SMc}>a5E%JvbB0RPR}=ej-!-#0Q(^
zt2;BUPRQ$SObun+k1e`)W!$^w_RqWbPN=dQ_d@oKCnt>4ovHfiqp6V@Rca*dZOvHQ
zvi|m2<!n#7d1u<{OF8aY8*?VA+y|mhlXH=&%P@6|Oml{5USL|5JPoO5KTt1t4gu-M
zc&DGcvt?HM&YlHk2l1s__onxqO0Pe?z&r_Z%SEOk!!)FxnPom?_T;uv%${Eg&RsF2
z+JC5W9C}<OT9XK>^WjiTyyk$2vhbl?1PR{dU%~XRMH$Lcg<wk0r-0s9fqp>M4>bQD
z(1YLu!*E%CV+^DdK<Od%aS@Iit$ZpuIy0d~yiZK|bYprjTBPMJJ;>3YVosoWGy}#$
zhl{^Ox)J0hYLK_+f${(o9Hcx5g(K07#XJRi0^|ueYVZ{(9x&&Ls;DA$DJSnpXjtVP
zNs2MX3~rDgg)#LSeFU5N)gMSpB)*FDLuwgPc(2$JjI7C$BxwQ}5CcX>>TZF)1iX+A
zmVrQn8vHUj-NBwh6}lRZ0l!aB9zneXZ6T|~|0i$+4aoQrP5mKy42Z(Q{UbvoF%j`9
z0rl~OGy4w2`%NWC^cgHd0~LxG9V@_V;IWZNoM1&>iE;2~5Cn_ofyn1gLc$n!x`_Dz
z68SYXQ8<WKH&;jnNcdeSD~2a42m=_(SuwR|a?hf}pK<t;x{r;H`z>v=<+nGy`SRS=
z<Pq5XQ_;z2@^H4yojfFBjK-F?pMUH5#l{1f#seRKa|HAW6Y7cB^r37`!(z>*OwFdn
zngf{{jI22_0X&^+$~0+Oa;^ha^7OXU))_}?$4vjs<(d9;{nm`<u|?1RjA#G6=fDTg
z0X{5qeXdm5>^Uu9h6h&4Q9k9L^iLm}u`Srwj~}=%HOS*z^t5F>ZHt~A8P5)65F1jb
zXSATBx9<hLtkIG-dO*ia^yfXVcV{j3q(KyUB0J%?@tyF)A42CaI!DmKB`;nH!~>H*
ziOwl>$mw_#q2uWM44wam4jwf8x6rZSL?J^U)`H9kzpvoDh=cwi_+FzvQ>fIs97C)9
zsQ_Ng^XD`h)Q{f>rO(yztEl+Nslg9Am-=-%EkZh~wlQ_)EqzXpJ_A)&o--oEP_Bxc
z2_ZA(_D)@#ytr&Z-+5ZE-Z;DUd)wdJ{=LWFdwiJ!Z_edY@0~3}J^S}+-m6)rz?<u$
zsYd^2dav5CqIU2@?I5n%J-$1qMW2p>)<wo6(><Ww&tV2=hQacNcij8H2tKjL*x6qA
zlfL#mv^)qj<3kTcfJOtJicsgDhETo6z|#<FPAjLyki#RW)c}2l0rVNb%RoLPRaSj{
zhP*!GtCVYm2O}8N8^9wGCQ(bFr`G<*)_tW`o1vu=7h7yDXfWi%t<XCgXN4!Utnh@E
zL2Mc8l%O(zTx;Ydy<pv(EuX8Lv$GYPgROjIdJoj(g_KqBTm8tCHIIz-Ju=oP9}CZk
z$&Q13sCY(^xoTl+L6=iTp5br-F0bdGfYBX2hqi3L33U$9zyN_g#I3k(f(Ii0EpG;A
z)oUGKyNR!L6orPUdRX~Rhj^P=$>RzU@z7rY1lmg<1|ZBk5Y5yAL~e%y&c7~Fyl7!1
zqI~J9x1{~~d&EAKkl+{O3W(lJp4FIkEa<9av_VF+4-;*<Vnq8b)PT4ftnD~9j8f-^
z)kH+n-75)6p(0eMAi1&p+pzV4q=L6$5-POxPbmA8AYy_Bi65%~lZCtw#7a1J<V)yS
zuxw3eSq+d?+MDX40HHJu*d#;w_z^V@l)w4|t7=KXQmQg33UTGcZmg=r*aKzotG+w>
zLcOH@`8I%}s@Q%|yMn?-!y0ZX3u&SLlK3ytc4I=S2l@wg_>UYtLrLj|FEM&>^QG7_
zAhzU2k6EDv1EeT^zmd^1mbBma1)~S#>=(A(v`XP+?j~l+B9BcdJ0i>I0W*LF=oXL1
zv#5VrM2PUS#w(jTg88dU{NF$@kcUecOQ^Y@0wh>Vl8A~b!<Eg2Jc6YNlSq)$e~kI@
zv?46^Dg_h&2}G>WES16T5RFh=2%%Dm|2uU48l7?st3U@0sCW-J@=7B@vy6I?B`zX}
zm1?4Y#LVZw0m{%$RRBGe_8$QP@9z4v`>7=JiEHEB$bzdgX(XB<_bScMXGRUGYV@G0
zaiXfmlU}!dLARr*s;QbaF6efD;%UgMf~M*3l)deF%L5kBb7z5R^%}s85{(l<3FOT-
zG|$=YvKi(KXosLk)D5L8{OR?37Ib^1GSjsk>8+g$x<mKN>(h+~Ke(87KM4&j+c3v1
zlpRbONJCv;(9p_s<F*CecB#;mcV-lHOrKQNuhCGCA!*6C)3dsrpoXZJu1UA-UeN84
zN=(;oo;~@Y?x08~d0^hUS179>Ks+^60KoG_;_D#d`vZA}|1O9r6}1VKXyYtdN#~#G
z0LBB}DI0BGIm>IO+ya;@|ELTa`Q#sEK%N8?!=R)jTAu!JJjVYKh8e*Qe29;dXVe5M
z+>iyO@esTz#ez}tFqj~d+kPZSuoe#yF_B>Jj|`m;MS{hMqFFMCxCD3pB{r-VO|0>T
zA+bSVV!cCrAw(!6?P7y5cus)?g1J7}lDpwtf@Juz30SL>j6vk~1+Qp*mG4bnUpzDj
zk|r>DAU4-vxIBoj%LTdN$a%q<w_--^R*=|+yTSN747EWggToiD#R!ZoE-OU9dr=Vx
zg}O%u<Gp1tRE5tB0HFttz_x;O(8e1}&OS-}52`^cyqJK>9PKes8Wvb=2)C@rp(>n}
zE6f3L*{u4|`~i$0RKV10fvpF{LBa%T1lfBmplr#XaYVpSHU>A9iWnYBqUFv=2$eY*
z6J-f}=>hw_>XRevAtg%jR(-N5t?%f>WI)_$x<}V{p6Yr6ZZE_O*B3zAkI$>UxMJzQ
z=)1<n+xc<GIa+seFmlazCfs$_SG<aXS0JQY_3fjF_oJzvPh2boRm9LBXj);hh}R`n
zRY-QAX!=tmHQW7+U@DlY64QMi9^0jOA3C^`_!@+2(WyfRp4f%=!q9;Sb}7CY9DxCQ
zMY#MQ6ORo8u}%~p^f8Mzj0GA^u#2~B^T~<MLogRn1G&6T&Ixivki&u;UwBx6P}zqK
zLi{3H!;zL28%f$+Y-v5VuK^vIHuLZ#aQ+@c3qtGBX+@_Eoma7r-$LhYaAK$w1o~C>
z6KPsxsl~_AibodN&N~oqAvt`V`mCK|+)MVx^tv<i_MSA;bKg=i{nR~6eOh-k-FS2!
zTuc2&#wJJtkKfq*%St7xjFoU!8K}m##fDv(hF#f8PqwltTh*4eyR+r>S$8eM5MI%k
zt=mR`s>O<pnTm}MDol-F@n4%{CN8At2VTlrEn4=Aw)R9A>4jTD#NyvcyrN*UJ;SsU
zZ*7LDU1ZuaOdDPXu<5Oa90i9aIUD?zL*3nc5<1r1EofsyeQ}WB_k$O{+~eJc$V!GJ
z-G2Al@(ZN9*A`+N$Jn2tgS(fn!ihoo1qernh9W#7tGr%-Jo3i>8Uu)I<1|7~f)j&0
z)IM>Fp1?qKeg=WD&%l9qi}E54joN?T<;$tz7fu(m_j4^m*4^q(dWFCN10VrNGqeQM
zA*d&yfof^X841V~gd8T~P0-3!PYr?pzTP_>&*<xy)!@mMQ*}+*+Qux{lYrq$OMA9s
zTh<HSmh84&*|yEuN?+Dno87nty<2yDwtl<Xu%cbyFA;>GPe+wkO(iB1IX(LD+E&hp
z5Qt(bb0&n$l&2<VLC6Y%n(2ngV>ui8?3AZErMl6QbD$55aD2Hkgj^K7mee)bmD-YV
zHs#zH1kG-lIrvsht^$3Pl)EzLLC8z_8go?$RYS+#_P*tvRb^_o<Z3X;M>Va_)gn}f
z0-}0^8n9K32(3d^LF<jy8E2-lE!TuW%`3|AV^9lJa4T^mF~eqRHs^3Sa;<qW&$N1)
zyA`<+ndyAD>vmVVdV8jPM@GNn=WUQkq-t;t^unL?71+V$I}o($kx-ER$Q>zi2MRtX
zDtDZK-KcDMAFy2@wb8L(r4G2@4ALI*4CyruTyWSAO&)zgdQI&&BS9#lTn|*YLX3b1
zIw2cSKDm}gVoX_Nm}GSZKmrt)q{2N8C4Uu46zD_z2k=`EEEHRUu?4|`Pu$^{P<$Uz
z8jlm?HMn-knEfS0$6iPWCOtOSly}mb)GS%7;-e<hee;&aw62jXla+KY@{^>SDFD{&
z<{GaW$#ofCj#9`eMnr>gFxEl21o`5I0z@b!G$fayX294q&lLmJ0dIBS0vFjpt*8rl
z76Zs(irkps6p2k@4=Ig~c&sAd2Arl3Gm!Bnx&)H{`w+Iu;G77TM>iocvwGAYX<YR(
z&crb&4`!mM#awM=<*HhAwPai^Gn+E5wxsbB3vfE7<dtbAb#czQxZ_x6$1&i?@L*CD
z4km-_dDDu$DN4!l93cx!l#Mr{w;r83bZ}D<2k%11y1*x$6bkja>5*GkZ(P0g@{O1A
ziMw?mzux^GdF^i92c3V`^}{aElB(C`bXv8cDB8|Z;Qb)}0Dr`aunwFg>BHrP-|}PN
z6tU1*ic<#Q!C<fqmmyVA4Z!JGdN=%DQvl2VF#tp$&<zg`b)u)JIKV{=*Bv83s0{_r
zbG<`wC6s6i$l#Ep)e?k@%RsA=>##9+bavIqkmAu9$B{wNz}Km)v+DYZth0Q&?3VY2
zH{)Elpjs#Pk)$R{j28t<?-0D~OxT@Rd+2;GIll!BSO@}dB)&?B3s}4qgAEcK<Vn}|
z!9loKD>7K22$@2`P!h0%hD?aT$;}v~FyS3o%p}?6h;j?0$>9nu+~ehOYl-)8jpSah
zcx9HyeI~5`Qa61??v*F>3xnBOzEn1114$@j9_Lc1eMBx`8PT=@wVJ#Y9UJCodPI)=
zQ&eQ?$QzMD$CpgqejXnDMso&W$$1A>hN{a)X1|QjbrbUje6PFYwh;1^LWNw#z$`~%
zqWQ9m#FKz_GGRe667BHBReK8|qU1sxAuiL$v1sL?j?Lh}+rFwNz$F%>g6i~^;6~zZ
z0(UEcw+0d3PT=hTJJ0m&?>@Ny$%89i3R9il96S!`I*7Z4xLb+)7`V*wlBd7~_0iLt
zf+xhEGlKRgWIcE8jG!R^yj+IAB)o%!gTDj(5WOWRCfgG1?&3M@&k#BT=tR*W=!j_U
zuAw)9&L4s!nD@hr=i&1p-ykmt2x_qN2C>2WnBY&)>A>YrDCIvz?_G3uVc0%|o<L_m
zIv=C6ax)9M-Qru3d-*Wrfd5qNGMwi*B~8<x>nOVMr<Ct+DdXQz%ulJBG*$Bxs^h2B
zzQ3dDe?ry&T%n{DKZis;^v@M4TJaeL&gTY-J_3G-!u(IuKcOD`3AOuUy>sH+yuSLn
z=7FY(cBXCh4=DJ}^*}u*=u|zt&<VeD2S0GUe-!kL00a5z@=d)k`9do2_6u*lFdO(@
z@V#K#*_ozn_f_U^oP6bE_KSaVCT+PQO*w(0Ra?F&PtK^ZDy}m?3#%=QDrZLJgc?c!
zS4QO`A!Qj=*&0z&E-4KHIfuaw&2Ru!Y->y<GS-gtV@EUAqt{JYN7GDe#_?EsM_0zt
zm8Ps&`??u##=iBsC8zPxrmU9vM&gx3PKj`JJyNwIymJrvy{|TW<GEL!TUJAS?hvh}
z&(cyB^xQYu-*|5Pxttn3z#lkVIV}Nol*UMM>WSB?r>!5Us<PI`thGLCZ~0uSQfq)`
zsBBBCTsdZdrmLiK(Q{vCdV?8fa%%KIxq374YKd2eityIS)|{Sr4S9uZ&PcorHo`<e
zGv##WECjStHfPR8KzpHS4&n_c4RnoEIlxlg0GCvazGBVjD^`p?v0jA4Y7r7^MW|RQ
z`YH><QJb~az?2k*!_|1b8@Qm_#?OpS`kCTTqemKQ^yG({fI7-vmeUik@S@qYGh?jE
zkusoN`I#`0B-=^pTDrSfI(nqi(UUKofMV$cTva*=E0#{Y&O*nUaH{RCg^qbQrB&q*
zn1c%1k#;vdpb&V_tvaTl4Qc1P2NVJi0xCOrD_b5=@cW=eK{usqx54ASbki?#`z@5t
z1rO}f)~vyD{rImDgIIr^>r%-E2WXk#U&W39{<%w=PHd(AqQlg!qW*H1soO#QXsf!L
uR{m(G;>2#{k9H&cW0ktws{FBD(QQ=z*hpZ9y1PdC<8noJrSiv>2>&m~35QDn

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/gptq.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/gptq.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..56500fdb7b20d7302b2c2b9f5481898ebca0af45
GIT binary patch
literal 15138
zcmch8Yj7J!df*J+j{)%_K=3^jpAbn<eAv`mvP4OiC2?(0eqnbHfiOb~6dv?oD2ohe
zYd21oy!Ecc+uIYJc*|7Prc9T8wc5J6SgA@~l&h`FR^9!;i1Yz9krTP%RK<T%kjbsh
z=1=bXdN2S;4Q=nA8&N&oUw_^Gbx(g^e~-rhb~tPlJPE@O<NtDiqW%#J>SHWrHqX-(
zb(`WSj!sZveCrZak`B`}=Jg3(QXkfnydhyo8pFn<DQrrb!)5}b6PB<A@Qev-(iXN8
zm?^;|9bpH_n-eujXV^vZmV`U$342K1n(!uT!?h%DOZbxhu%G1ZiMnJU97xuO>q(hO
zG$b3tjU?|#G$otE&B>N<OR_cGnq<RlvMt<3>S_{ulI`Jkl6NLLlAYmBn&ORu188$4
zx{}@DZc^t?^dy7fAWfxo{N8Z4j^aIh?}xAg_=Nj()ESENyhU+dKJcNw1nno#T7dd^
zx(p2ws2`wpyuS<`n4^P%FR<Zwkd_UnQnN{TTTTnnm>5r|f_m9;>DA{?MNU3@>g2hz
z<7Z_3GpRY*_+knxY1tIP+6l;6pN|UBBroy;6zq}MY(`8cBk7q87UQY77)hk3rbw;j
z^lXObE~HOEmFs*w#Ycq;ym%$eorq@mpicI@FdI#Y@%boHa59~mj8Bzed=(}w*G=)z
zFX<uj8a9dm1<+B@C^wwE5>2J}1nFxc7ESPF0_DINAw4^zRpWa;8oSDKC)0`9WUA7@
ztAMYaKYyVDbX`opz6}D?X+?rE(Mec`R3<HCA~U!u86+#pMa3wf*y0%=IU`2WlTh+j
z&sCWlu9)LxK0b9t%v^}h%<w`?`LIgrEfqHZ1a`p>fD?EsOmkFN$I)TEmBN2q6Q}15
zoB{qDc_U|n|7PCAEB_6=ao$W(le&87NJ%*hZ|1B#qzL15SkKu2X6JO1o<(Ys=9sq}
zVJm0n&67IL@s=TM<Lyvlpj7jg;lmP1VF!U)_?qdK5~%8>jK?{v@LdGo0KK@XpzcyH
zgc_)GSJio-&O_$nEzxf0s7V9ot-`70YJq~iRYRAu(|u3EfJb1Sd>!Yn%ze_t)xjJC
zTr(GdcRkm_)dN-o{3mMz<2Alz3^y!N*XeNM1Ql$RZD*dp^n$Wi=g%u|HkOEHGVEkp
zV6ie}v$618<R^K7PsR9y>=jX*$s8OQhzi%^*FtGwY9M+!GcYtXxGyv~Iy^K?@W*BQ
z>truPF2}`;Y@5QZ8_C4ydD+78nOFoERdy$mkt=+ZQ<wniIN8k2rJ~7rOm;_S#WXZZ
zagl4hkO7vGo04g6Ho<2i@l@n;A|1OL5!2<SvO9K#k6oQf$AO)I_+(U+O#&~@3aOa2
zYW+|iqr};qgnjr^`Zgt&E0?TU>PJwo?hBgA8naYHry^u&D3zoYMP+qRGL-A|P*P<*
zl{G-gq}GW}HOD~@(`C2{g%L|*Kr4$1)yCv>*Jz<$RJjRG4sE<Yqd3FQ^s2=D{x0Kk
z#;ZLPCHTZzb=2uPHCK6aCbb_}5%YCAqob)Q3TS0ioU92-j&jKYr5d#~M+ME}U$9UN
z8ot1Jet}E)1+Lr|INAAcotzb5Yl(@uJ~o|7%&|iQ!viA&`}<+%u*xQ4iIgmfRyLkt
zGqW=@X+h+<@;>cjFVBkXR9a-`O)T!YkPyV)C#!lFukh>$>2_*Hd@VA?CzI?|UI1}h
z?gl%*JUcZt7h<1J@F3XP%<FM6c7+wwENPUC3Lv>z;0{uRkuC$jgn~}l2t@IMY>B}B
zgmWVzurR*Rgh?|dC|iV9OmOb9eFkK9WD@uwEy%W)qKR4llpsLfq?|Z1^LkWB#Zyy}
zG_akp2OG9w(hf<`CL1z*Vp6kvwv0*|A--&lL<nC;A{o?Gkfq6U<KHF*#N^DtOnjza
zj0$iL^k1JHJ+S}kC_j*hUmlp5gM%qGa4nHY4gmY{i3oq4k0EOgB%*V`m;=?HW&qbD
zG&3il#G3b3giA<WltHM-{4FH^dV|^;qbY06l3B6@HY^Q=x|T)5+svcJu0_L!B~WPS
zfTFVyVBzH`v<)G&<zZv{>WMW&zGuJGvwywufP!jw=IxD=y>a!hWFL6wX)5Yy_dsD_
zI6rVq8aS2<9lviX>S_10^rl|#ttnD^M@^BT7?;v&<+TTP_95fRGp!QSifxb6TYAK?
zQT=D>2YuteK7r!|izaH%Fd+kKF!zb2WfP`C#Y&0|<|$-$+~J%50}@d9ko6$9^8p40
z0Ww`;{OVe$L8dN?mP#Em^{(s=qH4M<Jhrs~=A0%9Y6Xfp=*<i@WhSoFLXG8TPB<W}
z<MVZukJwWs(T~hK`q+w4KQeFcV^z6+WZoC-W1o=iN9JvSqlot-^R0dCSBZ0_k0(U>
z5t$AK&AadV@`ex60@-T#WmsVtQe;elpAjOF9UD^t3V@RNLr88=k7_zsxqR2tQrFYD
z&e0-8?{6qHw7fU)&OokyFBE$Ng+SALj&~fl-h@(jTcNEp-!>|>jpo?>060)rsB65P
zUC!Q0L8-H^(6=w&cR}jAkn0@>z_;ja4errJhsklMsJB>c!U&ANZ8Jex*-W?_Zd0K3
z>c(XQa@hye2ehn@B{G@nDWV<+=O@2yiYjmc`pDoJ1ygkTo*WGKBH6ho$Y7O&QEQi0
z)oSe2DcuCnHx7EZ5ky7oifp+&nMg;)!KY=zl_<!qLr6;%<pH9Bs!|=bg9s<i&G4D|
z_R0nf?S}L{?9B(s4eE23?{>{{&CiYR+wRzM&fc7*_sN+8<`c{M#bE#n2Qk@6oCn8E
zg4Pj>&O|TA6LE2FzIg{(+pGT=y2*e#3Iu`FaCx320q0H@8+jJR#1st-ryHNIEeTXU
z5+gQ5XgZTlY137UbSYSo$#{atFQ1uj-9gz-g#U=N*$HirTwOV5ch1sH=#xzfYOGo)
zq2M5N&H%-?;nbf-%6B|j8tIQyAL&#JZ9$jS-O$CU6rI&Uo|?u!c0ABZKSis$&jJcP
zZ7f3-779RZEMpZG3PWu=O;a>yuA&o#qc)}mFs)UXC@i%xZGc%lchG-!!L;w_)2f3N
z&FVp4G=dJL%bK&6to6f^7>E79j1w&aOe-_TPex}GqHI9rrlL{E=8~X2O|%1<QZ$8j
zSZlCJUARLg1u$u^@^hI8Xcvxckf2Q<+x{$|@2;=3VQpEoZdV{m!qrX&QTETgziJ0o
z!G8?hWNfg6Ab&i*yr)a@bgf>yYhC-p`zLaqu656uMROt0y5d~kv-a|$`H{aq@9&oU
z-D{@1{=1fS|A9q&!57H;x+EXAW7ghS_Z?ld6}<kuw?p!FtiH51z4o1T@4-b&p{X_B
zv`=c<ch`R}c(3u-e6DHVdefzxrM_HKU_3crPp&q2cc`eRng=&2U9$}kfM0uh^WBG}
z?n4A+I9EGzj{}sR!+_EQC>?;(%qsow*2`nydT)WLD=_{7Q(It~3k(z??SXXDZFSj-
zl(i)BWg}6gWYdhmPsXp~XTt@ob}<O3Rm7_IJz5c1-uyq1fE82TnORya^RLQV!by$>
ze-rqa7SP9poTi~F08~Rw;J_N^Oz#>O3|akjS;vP#OHbCIS_ji*J4dYpD+%~trDB2-
z-D(Z&dZ-aSYWc&`Ap(0ItOcA5?D?7tY5wK$X9k}>NhG0g0Kk_{gO`LMGP2|~5zYgc
zFodkn%q4{j*w}^+i+Cy{Mp1c29Y?k%(|qLhRCMrZ;bm-5(ac}KYQiep`gI}JB}jrs
zqD%-E5io%X=>VCAoTo&SCQ63z9e~X@R_%Xex9VQexXkd7fc|Tu82>H)-B&j3UH`-k
z7A;g;H)t05K#vsYDYWc)Fa1s$REa_(``B*s*DRhc)=;&3^4@;Q+rKus?tLonJuP`p
z-=F<86kg0RFMjUqS{2t`ynA}%@cDJ;g`DMra_*G(0}P9MhU}aF02w0B;l1<uUR##d
zl(L$ttor@I>MM6NN6k^fF(?LgL~_VBa0w;mhzkiosGG^|E0bu!qiqpM5|2>^DP>C{
z#jUics-ADETG%IQQQyuCKyrgBpheIp+52+#{e^wc<oBJI_MI=dYV)o^$u+pC*A3Pz
zj(x)P16MN#l(WyKST}ft$`*mY2D=CBu4;}$jv*`eZ?HXgTRGvRSZ)LS1Wk56Vri#W
ztbU<K8*_}hslRE6>8Gfe?z?bc!wIP$qrMC6ffo(S`nOF6>TQPs<idghPtWSr7t3A-
zEl#hh)!_K5S`Fi1O21&Ncr=iUKdPMJrmShY%;S}rs~#1Yk@==2roVzS0&e~eeD4MG
zf+cI2_Exaf9H-;To{{VHf>mHEeu}IW{a#rkctd<yv!>TV&lyz7!x<6#Kk42+WS|yo
zIHFkb)!4N6Zw$N~%F4bD)RMeq!TdTEG=a-mxD5TtMxvt1bVzs!iUMxlAfp_V=thwZ
z=r9$IW7b?!e}!i%rQspLk0oPV<dYd$528YDj7&Up`qZUU;}hSyI1#z@E%>{5^4Z83
z`m4d8m6-wMGiX=DQ4|_0gqSn4mvJoFfL+NovnfU7C@QpUQT@2GjW~9Ri2%4M@RM;!
zK}nt}7Cq4o74JYru*u$JbnY@AnVkWDu&SEQw^Z??M*Xj#@62x?Q91H~z3-v3ex)Pd
za7b!6^jDWQoF~AP?&!(4k3DD~+cFxS@_g1lwqpJ}wtL0!rIGU0KVrL!_%5`MeTmh#
z3>&UNXyfpH-q8A9|2zF3`F_#zLCatH{<`@un{)MN7Hb}QhwdKywPnNm!lDHZ>dyZ6
z$M1}9bc}2njeBgLb&N<Z_LgmBtWe+lUf`X;YWLd6di}nfYu_y+BoAG^Yo{dF(7ll4
zdbVh$9Cdl7Sz?-3VylDeOy_EJ9S-o05g^IxdrU!xTMX4dc(-Z2?<l$hg1_5r1tNd9
z>47S;j(_1gIcWNytw&Fenu2;^9M)o-q#y&4T?O2iikxgh0~N(jBqG})5yd!$JQKn5
zBT=d`M<QH024Fq-IYAdprxUV)i-R*&4_i%`#P0eq8HGf)6Q7R~To3{XK7z?{Oz^`C
zCowsV$+MWC&=AOJs7s|}(*@#h70`|$2b=H*m_y4?c9i@{F+P!qM1UcN07?wH<H|wU
zh^UzKV#P9u%zu50daTnMEyVz}r=xJ-NTIF$vG<s9_>nJAG{PG`7UayBvryi;q7`#C
zs);SyF~?9I|E<`{$f|yIVr}G3c-1L2?#uc2N$$a-0}*Pdrq-epb1tg8cWwAi{B8%B
z@I^O*JXndN6>BM5&2M~|JE5~0Z7c1Y6ugRl%H#&$kI|p2@B5O1_oiNj0AWg9-&*Y&
z|BI_1T$O?c5vQ+=)2HAVXrpI!7^^&+Mr?$Da`T?mOKa_SUd8I3a?74lb%W8iTDuxs
z8(zI~r=>_i@$UIA@m0cvTyekKI8GOQ4Yyxee&u##Ia1UUKxk0OJhIm0oTHL;|Gg2(
zdTi5(m784#W6fix)_80!R;1u{Z{q&QUxt5+S#t1^Zxn-XRDMv5;j@V@kxHBfVt9J3
zvqY8cVdK|gn7$Unj2;e|Idwgeh$f>GBFLKYphcJkN`z~eybg(M;33{88!$p3n_e7$
zapKgN?09kf?D*MBXP-HLHVj4M#Z%9Wy{eeaBiL{llkcm^-$5pW{^7T%g2TUf>E^3T
zum14cH%=F7n{SQXKD&JOC+BWlC@{Xov72X?&i?S+_f9E`g&k~LEcJlgJWP~=>Yx^<
z<1s{}hfs_Wf?B5OvP&E~DLvDuWA1n$_+^FQmyIV!9E8BE5a_Z(pvyFk$Hk6klHqJH
z0`q%~VCNVJ24O(V0bw`y@71;j=s?wZ$HO^yfiom5XV<Qsv_J^W7<SGvK@U;2=fAC(
zJ**<M%6|D$80r~eDs#}L9!|<3rx=|F*-PNv$Ma}=ut2E|kv8f%r@*$kIdIdX;<kwn
zAW-fw)Ki`zD8njKlwlBRq_6gX3Q`pyf=~yz=gcH9aBT?W{Su%H?U2Y0h#g0+4V5BO
zB@LL=SL?ir-@G1YQEmN|z32Z7U1eG!fdjRv2VK!<uD0yWHy@Ik58a!SnxDmEs6pAR
zXs*bCcxq-Ag1Zo1i$Hh+BfDZ8Bh<1#Ju6~W8A6aCR##~u+e<hkaL1IQ!bGcx;i;fL
zR>**Y3O;X8t8P<o7(pcie%SeNw5n=>%D0R6Tg&e~59bo6y9!5|U>D2da#i6i5h)-~
zwhUdcW+9-b_2sn8TrEHNF5{LBUJ_Q**cn=LfKVIKU$+ZI29^HGd%>2{Wep29u`D;V
zq{V_AoJY2KpkjgHs09a<l$AR3%||NH7TTqSr$UpO6Wmo))vD0Sd%>PE!xvWR(k(c|
zI<;0rorgTr4Qj6P-gRGS7%DjHtW`wChCEtw=_8Zsk_2-C0^z&NQKR>)<s-|7s1d=l
zP$MGSk*A7&wgjqriOBBc0mny)2f*xc#&pDt1C40GnRV_$g~l$xIWFtoZU!??x8VHR
zxt4Y#%+vCbRh{{QtBPi=HD`VwPC<&kmJXDq@MJBV?Ool1`x}gJs(h(ZD^J#OV^Hi=
zdIAaHg^L~LIGy$Uoc=Mr;1#>8YRn{-RhqpD$F~-*bIiN?tef;wn;H^P4<HYW06T<p
zysImZQQoyshx-Sez~6L~ns*KAC~$(H9=zk>oY@-HM1|10HjXRn`dS=!w)SgrJXvoQ
zjy+39%G$)7V&KC50`s<ZTy~TKeGswXc!Aip^CBLv<YZv+Fu*u@3WDv?M0_d*VR#6V
zLyR0y$eD~+In>a7=1O#i55egSEn?9Wdzpt9-lSqL&p}i@%_cDH%qlmJSUh492?)sJ
zAffqL9921k{yz@;#lOP?HVrY6UV@JnG=Y%?_n>5}ayD}Dq--l4jU<n;e4dM7-ciac
zk$vGO*jz9C6kfuA!Gr*G3IOxMZ3P2g!U`tuAV5dpq)E`AwA_v%n_p8tlWd%d#JTIT
z>9u)YNM~eI2Ct1}i0&J#6VL~xC?ez*LI{drE6yf`e#}`xljeme1nCsz_)id<+*J5u
z%%Nyk92iDEIU~XqIxsuIZ-KEk*`$0k*(gL)a77ONK7tn$JTPRBz)yioLQy%utc9HH
z;1$I_0)APM5BjRysz1VpKgQ%HCbuwIhD7%8*F_;3DQ(H9C<+;}hH`zCZn9mqQKBP%
zj;+09F(Og8Mue-Q+&~KK0G2<h@Tb^@jthT=Z@aRf5!jy@*<B)_)D%F%&j3ky7ZMVB
zRF%?gZzb|v6BBs!nkZeAB6QmnyzL18f_>URghKSNmU2M2d2c=tk^-T%H`fEl799n9
zI|isnrLNI@*9i&!>?iI=AK1^3yAL`ySeFL8=U{NuY}u&Jo?Oq-^^RjXOIyL-u`1@f
z_e<UT^W9@o_gKDrT!KIQc<$oF1N+32?MwG0nk0Ku-rg<QyVr&u*!#hGlCR$@)$h&M
zKPA;awe;Mh`u4@=9tJw{fgvd{1QfRPtUV{SJe{*N7TO`e$Ub8HxrU(!%n<Rywn?tG
zysJ-g_1)Dya1DVD3%*$=D>>P`Gx)$6e8~3Y*<pztUUooT_p$qXrLOZiS9_tiFX!s{
z+|&8c?Z4f)+*ok+tc~USj!1n+@_lC|_;Z~txPlM;jkm8ZU)?erJa~ztE>KYZ8d~xV
zy;4JOzF|~q7%en(Z~5$A+oE}^fpWKDmrct};FND^&$S=gXg<7Y)Vn>OH6LD~!B6b-
zuhdr0dA;_jLi6Frh_Yp&>YB)ab`uO(g9Ad}UYpytXxs`=V6dNCK34$pUBR_W`TnC)
z|IvK^a}xZyo~zL6Lt0yUA3Mx-wnh7vXIs01e-BKjf}(_~Toluhv-dvq4M@I=_Xcym
zi@D=3Kz8x;Lm%8!F#2l>jZOI1vM1j%AhitSTMkJrhaQ`u2AwP|kFAhfI=$th{GlSH
zBlv6dV?E~jkCOM|X;>0}ut-4&qR;@*2(1pSPzlsShowk`3vTx0Ev#f=SL@f#Y*<DL
z7DuUEx7N8~*;gqC)}G$54DBpGYUy1xeqw3--Ir4|tZ@bvvH!)e=NcHH1G3}WtT(Va
z6zgpUm}Yx0O!KtX(6cxiLcOJv9nQwG^->*J)4IB+sq1g=tE3Bo)>Q5l&Uy?d?0CLG
zUuDX-^`)V`euKVn)yM<XsD2C;1n(*hU&Bj*w(l)kzzYEy_QAA<O(2}F*Z|XIoxL)k
z_L`_V^fdYscRXTQgVECb)t1`*R<3oX&Q{TdN8gTz(|`3i+Wk+nJGz15M+Q|R*KSjx
zscP-_JlPNI&yrmNU#U~ApYBp~l{bu2#@q(g*nPWvN%+n?A9WTq1o^<{VH`h=cfSSx
zwb{4;*K?<YC<odTG83pV9K2)`2NAUxp7>~}lS5O{fbhU2r>%0D;+b8gh%8}|Xd}lV
zC!6skhHIa)4)m2dtXsw8E+#*KMApN_eVHNtm&}#f$;kvyqP(iR1sx*Q?iRUuMo7o_
zOh!GKBhg7zSWxeUi<k4ECmb<fiH|}fQws^)LaJj|eeXBjY09?^No_;-J2&c{T{OPU
zJPfq0cD~<#r$4`EMA|cQ|I|j{Ie<GJ`de3x@7wR#^Xxu}-FM%(;Xe&<`@>!O0pZQK
z^Y#|W-tzOl{GP+op2O?*!v&{z+bP=K^Zt=LNACJQZv18Adi#-l`*ErL_^*6_TmLup
z>+R=m8E@N{?Vq^V&jIhyokNA%0Nk3g-m%{8{J8g*z4@UrX=rRquj}wAm>Vt@PJ;FU
zh4jT!8%*m%#+hfDB&KQQ#rMAZ&Ue>N{o>pQ=kC?!4?HIwcrJh7CF#IRpD-^M-4t^~
ziL%ny@%~CQ6D!Lx_#`O3P)2V4UsyZvz3EV8-TA-|Oy~x*k+iI@oybt;Xmm47(({l)
zxKuY?mUb0nxSOdx7HO-V1`zHn`<%3-HeB7&qza%Kav7i+vKF9aFHeO&fNDtI%B2Y{
zDXaJ-wLHbZ-x^X^%Lk)gKw2<m_1|+tNEa=K9Z$v229~QyYjrCZL&(K8;XgwU<eD@Z
zgo>tZ25~`3{|)M7D`8x`m8}Q}qF<vXE>y$<vbpd!CPX%%BN_q$92bFGp@RrU9vA)s
zlaH~^3PwVNj3L`fgK-hCl@!~7T+u5j?24*xB-aX*8%*0YbOINU!|y}CpqMkD65c+u
zd}ih3%EepfS5Liv;m(D8$EegXdQT^H9LlvHk!p`DS_^>n>hh~A!s_7rqjyHvhVC3%
z_YExCKxy>&ZZ|K(l_0nw<i2@f3E~azo9CC#SG~?Hor98cG5P0*^X*Sb@W(t=fUC<)
zi^Q~$48|w(Oi*HiaIeT?TQq^qz_@buM!1`F6M9%NY{11Mr|;$)OK+^i*PT5%OON6p
zJ_a)hx^_fYgzEq$Q6VLecpQswVDcs=MC?vt4h6gLUorXbkjSP><hMh@eS{puWCW98
zOfIR(XOPLPLxQnD1H=LugYhiA8s4PvU1ZV_RD0yCy?K4<`pq|&-Ygms046|tSJ6ze
za7U(db>fb-XeC7(h79c_%TWIMqJv~X11I|UrjryeLzwIp`tDO7@BiigkB|NGSdqf=
zeQ}e#iy^8r_}E%!3~n13$}lc`k;6-ei)JiYC?G7clvueW)wC6{0cgB7=gp?2rY$>^
zl=<RRgZqR(f|r0oO}0*!ew3C`?){tKS}Pnb0?H#L;EK{kIF7jPs^4IR$i-O!4{G5m
zR(c2^luCt&A07>Aa+=Bpydoo@tPuzw*|8i_enlXlTVCEvAj%CF_5OZHiS~yk(H8^Z
zW?lg(cct3CqCtZEa7}Pv$HQNNSMmgrpTmVN!%rznS5*a+bmT&ty#JdvpB3YYOo+$_
zk`+)c%FSBMD~m%M5~!RiUWr=F5ywRfX$M|~R0e-31ixa4C<7>gA>~#^BSBK(;FBW1
zEL0GMIvl=RYxvTtR!^Qp-epz`n|zW?NSPBJSV9()SxoRMlfsAJ#~k6I?R+I$4lCCL
zjtUZ>fN-KRC>!C&4m7=Kp=jn)%J(VN@()y>MD_h61;vw}Qa%4fwSS6#$3CTw{#K`_
zb-%IbXx(p3Cdg5k)KK&}`crD?Grj9m!@0jV9DUT#oHNvYX05&T%DT1XhH1-`)X~Rs
j?)EJTGh2UP)YE}mBU==_wwNnAI+&~L{tbm0!WI7yTu%>=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/gptq_bitblas.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/gptq_bitblas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23d313af845fefadd9e90af8ad3981a2d71d333e
GIT binary patch
literal 17169
zcmbVzS#TUjmRMEa_X#u_jRsI4&L)8dc!?)?iQp+hln801*6fs;T?MegKA@@wN%S;E
zlvZnl_UuxO-8G>djt6qgc%T&>1KDE_#~Y5N{V|>h|8xnoyH)1coLJdm{WS&1+Fgf_
z_p-YB02&;PGk~l-UcP*p`7-mpm#_bW-EN^EBy|5U{^c=>`fJRnL0?X+F*HTpr8tVC
z6I7Cp&`C{1Lt|c(&_=ZI)h2XFeMC>nbO}S!7%`HxK4D6lBW98|BrHj5#G154Y)N~>
zPRfi4N75N_CS4I1$(s`Hq$lD@dLv$vHz%5s%@H3-TOi#M@sqR_(yfu!WFQhqwnf^K
z!AOvl+Y;@`jz|Yd+Y_BhCc-4UB3;RCk!{KDNO!U)(nIPTiQZ&iq>rSXiT>n3WPqkL
z6mRB3AH!HNM7C?F(-h}=kK)|C^J8tfbO$N*K&h9vRZ0ivG@+(15G16LwZ~I)vgyT{
zOgx>6CdNawY`n$`BIF=xz8DpvNj}31kg>*7@eG?tPfbBqD_dTOr}(IFA}aE-OG#hg
zGgs1_QX=vh_BtP*x{_g|nT#MpSDu$<qp3_h8^yk!Pp2m1Q?j?VOlgmx-V^c6i5HGv
zQt+PVg%qEVy%#Pj`4^&dyr3Wex&kN8P9Q9M>6MEYUwnCD>?Aw>$^{lmFF|ed=GsfI
zUkK^smJ4Uc&t6afN%L37UcPkp#c_Gt<#^_DA}X>1Kf^~etQd<Xc#%z~*k~fb3enV6
zQErJ{;bT`>6;hm?nMn&7o|FABdGX1)%{4%Z17|al;1e%gIKxM|kX{Zve<hlNp^-_r
zg#A<|T=t(9(z7#-YML)bV^?|Z`E+77nW{GMD#h1cc;P~|(DicqdR+<7;fl=)0-wsT
zGl^(sGA$&b%!Z?k3T$R>h8JTB`zW!aoLT!nz-xaWb{0=XXpV|#I69)`b<<==);6Fh
zD7Dp>V2;z=(?pECY1*^7E@I)d5i6&Q*nqF?ya~8fqd-L*oIc{@47`go!oP`kb7uIr
z@E*>ZH3C)}<m{Yv(y>5I(wyTxTg1!RdC#PVbH1mGH1W-l^Fhw_p6=sv$B`CN>IYhO
zZKkCaiU8hS10NvpE-3ZXl(v<zc*-rjHFZI#YvS8^58pAV!Fr&Pn$&U4H87o|y-yhj
z;P%zjF<c8!cVaVj(<e8VaekN$JKxQ<5=snQ07l-!_d;325kg;WHGTB~9l=^!p}xJQ
zzJGzbK}QBIQK1gmefr|WOXba}?7(ch@?~PMXG8}0i9r~q3>4CYG+*d|<_Y+k@GI-%
zsm$(OvJO7`W%FCgp#XcwT0SpeSBbJ^3fZ3(<5^xdaln&oG?tMKagi10lCq7oV&Q0l
z17}=zCz9+H*ivj2nL*$)vqCBcEK&*BJsyo~GZ6n7eU~!BCBab%YTlSBADI+2jl^yU
zIpefpLlI=v!}r;3GuSH$D*RPoZNZbVs^y%f3iEyH2O1UbUD{0Lw1P3G;S5&?ppAwz
z&TBL3hNNy;bJQPo0Uc#TG?k-s6l+%T<}{G2Y|oq)a+N-FI>=QvX-*G0d!?NLa+O|k
zRHF@>=}@7s(E^jHwB<~V;lEFD=4u<rS$?3ejuYDWReaTNhEdZS`hamaf(NX&YMTaq
zY*X=7zcA9uag^y-%Q^dWNKIG2aJW#=^Y&_qnmSoo19eR5cixh-<mfD{IP~OG;mJC+
zRC3hxh?=f`0UmcV2>`E~gw>qhqn1>^FgNa+`FG}M7`ZE_15VPZRJ;p((WtG07rTMp
z+Eko#R5z8W@J$aTbj+J_rg?KsFWQ_LdePPLEvK)pXwLkuhNI?9-!)yQuTwX)uT$6Q
zkb7K!X`r&Z%C{y{mNS^R$XplFsi`n?F~Ng4!NgNy1};jb40vQT`_hCk7f($wnKUyC
z0GTViTFG3-%P_?aGM8sFOe{T{;Fwf8!^D$#BVUhat`O+SbRv<yjwpCRNDBv<?D$sQ
z0X!T%QybgG(#d2r#T{hcoQcnDCQ+u}{Nn#YIF;=$pL`6L=0!qFSv+8B&NpV1$u@_X
z7gLG3jm1tTD)3B2qzGrXZHZ7h4H1{Uj0+A&$jVf#EEtkC#j|ZU{I8vW=sZQkC7z>x
zANX&c&e7AgkOaJXqKNeOnsW3%qVLi)^}SXdHAnq3?REMinuv*Uk&92oGa#*L!Xq*r
z6LEDJ=I`DZ&Ln4sVUmV2QDKVD4BeRBcVPe3ef)4DetCFi4vy^9@U=uDIh;&$e1hd~
z@UhuUS{P2CSSJpb&u}6o4o}Tw-cp6B@XVZSK0L*z_!~3Ak?hc>t0>H}L`G%9hZAX#
zXT&4n3ix+{I1yR=e^7sOlgfL~OPz-nyB@stS98CZ`#0bD)8ml+TM>`ycbhxuMPnzO
z?RzCvSp=q*DBv=bT@NA)ilbS>AOo{L8VbtBGQ$d}i^%$!r~tCDm1WC}&a#3VE39V;
zZ;l}&%9dB7iCJDr>!CkhkWK0^gdPAFdNJz52+t=0E&@ux(@E~c2|zh_3+Y!5YykiQ
z@W#4{7hgVpdW=0e@%qIv*)GCzM5lO`Lvc{n!bL6Xrql71+(IxufBxbGd#SF8bq2N}
zI|+9*j7guunUO7#v6o-G#9nyu<d|&9@<Li<am8g5cEVmbeo?k4*EsePvdKD;PfR|0
z%))axaGIC><*8<seGW_%<B1Lfl5ClHBtkZ`ERjoCR>a$msfL>Z9;U)!h_Ym&PADpe
zBF$7-3B@f@1FQ{PQ}VdYga6qU_}uBcJ%4L{@%IYtBU1aws&nVhPXGMECl?;O`q#9Y
zy^b#_jmxoapjx(-G<5U8<AJ03{$nLA-F$*x(`s8hB}(h|l#BrMl%Z@*i<YI!pZW(%
z2Fl;QaOQK9{gzQO`5&1A#kRf$-6NB~80cBhea~6+Gw`t&eL?tGi@^b`Y%O-}!fyvO
zx48<|Hp$xdsQZLuJ@MEREP4(+=qVgLCmlSOKXAT8(J#<_kNd{*y{903n(iuTHSVr8
zt<LKxQ98S$WCIkp58XQSsAIom-A@qgS(*6x8=t(fasgVLpgSIS?9aC!c+d%>ai7D{
zU{ftLwNM?~3hjrb_QOa`;PaM1(dM{)`qpX5dwwxf=sfgk=b=^a`BmF_m?FPr!3HgY
z1Ive`w&#>FHsjzdFp9R$9}a&oj01jRYgzQ=t<19Sr}mHRl65bkX#az@2lj`r{_51P
z_UBy_fDK8|00|~+I`qNNa@)#eeqdAz99hu)k@IiXlQiXO`;s!62aEj!d0P))fpu{Y
z6^F+1gD?}C({$+b(6Ri$@rUk`QR_Yl<I)3C3)M7Ovg+-F|Er{j#(yWGjPeJ^ou?es
zFCFGnd$qr8X+1Tf{pE-r(sc(eidjU^{0EQ#TLfOeklGmF3dKtu&&>@1YCv3TB#Pp-
z3pEYIQK$hiZn`3FR#8HY;RjZb-;Lwhj!mcLK+Ux@nzauyRmpoaYaL`%;d?Y|3Mm)P
zXx2HXoQP!!d{m}GA^nzH_aj<32h@mo(=cS);TZ?&wZO8C_nuOB8ymd_(M{@!V{mz*
zFf=L+jphfB052X56ayW|DEZdyklo=g`h!2Te_((AZOHZeioU?zt9P!x|ND^Z4i<w<
zAvh!jhw^RV<!H&Qv+pcv4Q9(4;I6+av4E@`Y5{ktIXa{nmu<DT&_~oqw5*LK#Jb_Y
zJ;$cNRMKcTYTY8B6!B_+;W*ocOOUGL8sr1g_X$Ycr7{pJp%I7F)FP=H!j$F`C7@6V
zh8jJbhp{WN?n*Q<DVr`&CeqQ&&gX>RgWB35_>s)Yg@@Xfa{P<g?VDI8ycO&{MA{6|
zP3m)3^Igjw%e}E5j(;$ockalWc5EIpKyI4uFD^o%@G3?dY4l*f$#{y5MQ5Uy<B51?
zF5A<Xx_YQ3z*d=h_hvefGs)EB?!gT^MZ<Q{jAxrvjgnO^{qVGyPBkX335ipn*vWW;
zM|KdieT~W62=^l-5RVPu4Od^@*`GJ{6EbCk0vfA5C6G#mOM!3{<{AlcIU0wd+EM25
zq-h}P0hFc&3QwKJP}&+OJb@ZR>1v?xG-?c`uYm$(a~j98Apl*5DVj6hH>q~Zd7}nK
z3QDaOlvjPukTZT<J_TW^%;T~Sg^sGUBx^w`Bhr#=ESm>TfuYOD@srWn1d6S8T(C(Y
zon)`_bE533%d%-9WD@Z35jc!`FxpBKBZ8wUS||scl^|BuF5AAD32LgB0kw!b2iD%#
zTJZHtzW!yyif_fV>N~JtEjIfL&3#gH-_o@e+wyl;n~yA5ie6vA+aq~<mR?<+UjEjq
z_uzu5=x!>ww@L18OV2HjE$>@(?_MwzTLOia0jXtR*|!qT?>xTRa$><&40aZRBT{f=
z#rGiepzT+DJ~*-(oXDG6KXZDDaOVb=UR%DllFN_13b(7v0ym`DqU@R4g~F4JFyRO+
z^43hK>Y(#luwziOU`i5gV5tD}A=)$`2ZngaX)rgh1AE6SIh}Bc(>7!ZY8rdp5LEjI
zFw!$>D;q(dsa&4Z6<bLaWv*hE0J@%u@e*2R0zkWtSZA7_jhCyzJ4b~K<3yGfUV)yo
zM<+m`CE5@w!@xA4F=XPG6QJp)neWUq+^m4At1t`Z^CTZ;UJ)@16<3L6JS^+*hRXiM
zNifyNzzhv4Y&1jkUIl3^n!?5mQHN_Uvq9!c`Z^E2F>~ozMx5be@yR%}uT^(Ou>k`*
zS0WyZXA*Ou?xfMo7egAb4(Z`HH&N9#ViKH;itvg6YV#xyrso)s#%~ZNYH5M9GdTlV
z9}HVIpjkSa5nhMckqye50~!n`(;)-dl(Oy0q+;!3W0O;|1*`&sl9#P8T0Dnw4rMQN
zaxI#Ob8HQSHYrYt$OOukRW@ue4Gn}i$E!v}qJWkKoNRdW4t^H=&j7jjAw-}wm?+qU
zzCDs}&&sz}eJ2*IAmiFw7JKrx4p0>AgGFcS;_H&L?@KLYo<Qc?l5<DNNST9AK^||B
z+QKCr?e6)nJ=;G#wY>YMhd(;}@sS6+|LX8B4*%tm)t+-DJ!N;Tn<%^Y_W4`q7qyRU
zK{y@m9=>z<PmbhmUB9vV77s4_K5ZL*Z1W&QNuzc5tZVf|+;=r8myDk1-m+mv;3wlZ
z6g97`57j>H#A^4y4u(hezW@mkS1Lz+j?PprD|Oe2!Mb{EOM+T2w7_1g>`S#4j$CV|
zvPW|ji|Zw@L@45oUbe(xGl0Dam`cEVQ9$v7D9FNhAQjRQ*;AOq(kw(G(hLi)tU5XL
z6)jXTCTF*8UTM4-YGEWq6Ncy}1zMiX_db6w^2j>y7*ezMQjcsyD?No>XFlC^=5z1%
z<vpw3k-TlB==45A><9oda)iQnV^AeIT5bcC`}s3fjlWg{7hZyPwep;oh<&W84HH#9
z+q-#i4ZvhXg$7_0RJ{e~u;d)hn}!uuDVyFKNF|jE;m?%|p`mGsqbnDJrm^vfs~EuH
z%4m#3Tfw2*0-|F2oYz0wJg;6JB0Z<iY2Gp9wD0J0x_2}={Y_F*HoP`qO)$IyMAZb^
z=p}5rVi>Qks@mhXV3W)n=8ZW6XUM|b<&4OlXljM6;H<){DYe~IXh(WRV-g9Cw+={3
zU^FJiUG06Ny3s&ZGK~w9&`yzNrZCk9(Wx)c<ol6EIIGr$%(50(UqGvwY=na}Hp@kY
zGg$ow7U?iAH{<T$_-pYPUn7<aQ3Ufs6f!GP)VtWkl$uTAy-=3ZDxJ&vWON!WM<BMt
z$Gr)kh^K&ZT&sImNJCL}a5G15eXsl%Xd(U@A~==}R1;J1c1zywrBkck9Uwn7cNLm@
zrRLtH#A@?ykg*(rf}=xnbS%!UI(iqhMQ>*r{@ki}c)<i)-^CQ1{gSi)kuy~E`q2W@
zl()7mX7impS1zr*@$gLk<OEbau{FIPTR6JZ{gc5D2PJD5ilDK-{ciS7w$QRqYT38i
za^RM2LBB9t40bJ@_~6`fvlI-2KvuK{7sW#7Ua52MYUjRBt^1Uwu6_{g?&j{~Ku{Bx
zUX)t)JPfSYi)x_|>e#4*u&iuh(egH%z_g9Uvn)}rF|sU|j)5{Bgjtb|vta7ma~WRc
zFtPvg&RzR!*4tQC9c8O>4iRIa@H{jWj*`~E3Ha78+{B_&7#+uQ-Q{#T0pd8+9LB<z
zvCvA)a>|)2plMFI>vf5^n3475v=Y9J#e|V!*hI(0V;KRDZy|xv4J_28QnKL!8JvK(
zihzb**)$`h!IYYr6W+lx<P_OnHU-9bc*bW#v@i~(<itEi?gF6$K{48i75|+Eo8NoX
zXS#m4!I4$^C2v3Bfso`4J=JSnhMQ-=M&$M19lA4g^ZXN&v!tc;LEwUI19@G?XWK%{
zz4@KzSGT>8*L6avr~T%+lI|?6Kl-HEU(#a&N+D?^NfYI5DVa&qLb;nuR+6-V@UVFD
z&UDF6vJNW9l$<2#qAZTD+$8y`#;CU}cCS(JDS0S^8_Zk!j(qFjmlS;0v}y@-r_>ED
zH!br&z53BrDRdBF1}iXw6&TObZmjZDsyvmdfu)J%?hjwb>VZl%+Ak5iS#MctT8b_2
zUb^yOM~Q-Le$VMI@mmIkRLMs`1Nx>X=HOyRGIxKehfEm&Ql<SyeN(YHaQC%4uia(u
zuq7?#!(g?6?-R2-@7W=l2iNqF!vQ;Rz#~hq{N#-f-$1HH5R+0^rm9VES>Yb+eyDx0
z|C7|06l6(f>l#RrdyOnSvRNglFQ98zfD@{253hiA039D9dT>=RsE0B*HW+vl9=5!h
z(;%C3THeCxI6XZ28{j$K3hoQGX}sq*glXJ)8v?jFIKj=q#XAurI6F8wEBxC4!?q2e
zSdYCpI6L&>`JH-EsB=I&FT8~RZf%`F3utT`1LxYJTu+=ebd75#P2g^!k2KHeLtY}a
zWv?n?C!-t?o4g9b77Jbm$Au~JAW30P5z!RE<RF7872XZ1BSM{mQhve-leTgj7y!`2
zh%LV*itJ?`lp9nTI05f1VLL?QbtV`*Yw##q%RvO98@{|lN(ohw1FmMZu;$yyu)76h
z1Ht2d#i&Dr91K<};ST|KNT-n61nHVPT%(A;IEwNEopRVAi)P6LHIVZwuOHwTM~P@h
zyh*9=4WFBsVoRH1RVcLVmRfdi$o@~gwrnmSLbvRXr)Flsv<RLYES$+KJd0)G=mIAD
z(z6+?s+15QcsQ!Ikga7H;s{~`$Y@ej43l-P9Vi}H;eYL+kt~Oy#y+Zn@(tnYKA0p&
zreZDt3%#M<^`fy%)yTRIrVGTjg#y#4#k?s6vKdHvnw%*M3(RQ=hQ1nlbU97gp5K50
z8sQ{1{)&l#JouwLw;|L%;^(STv;{0`WEAsOaCK=QdveB##BIw|<xa4}fm?zmXCclB
zjVP@+S5yfB%UwfNuhFQ8J4qwF$mJWtee=h#_88{vIrDVI*+MD982a^Bb7~6Y__0jo
zV4iMQ%d20`(iopAQxii`1I*K%RUB$+3rw)jFc3_Q#*3QmhVcK-cbP5~)fOw!V0O2F
zY(Q7es#<IX6K9=w0B@Pl0cPHrGICnTBiECBrdy?>Y8;sEQOl}dXwjHs`l>K$in!WX
zYIc8vOX_~b7nak4Umn`L8_jtG>^a+ghiY}6cV%{{z5X`(e=9xZGYV+2-LLrX&bu>1
z->?TKxEUF0#$~$iQn_>9lNnaA<UDcEGk;9yKwRM5_cTAQxk`S^7_f(LJWsd^zje%b
zeL~3DIL|%Jy!RXQUo*mTtEQae=FSWX>?CmQ9C&}m>0Hx~=s%`m<mmRI*4R1wHy;7l
zbWfY}5-iQBU75Xgc(h#eJx!&L3Kv7~$WOmZFTQ&^wHL5tz&)}ta4osYO2X;T7{;G-
ztE;^wOl!{bTVVpZ<|+)lwwQBvu7zvm0-V3`%-wHOcLRt&6+sqY_ir2rI949oT!wcC
z*gs77gCC<n1p!1FYp5goDKN+L0=Qp;3l)*;KziWHo>GdFDF|m^PG%Cs3!Oo2j~Hyl
zvS^3`A&P*Lv#A&g8vqMJ2Uvo$fD!z-7{xyn(hRDV01*}DP%O+u0WvjJFICp|4)$;2
z5k5%J5WkiRFnYfNC1|}y>v)xNG-k(dFiCiMilZT&(At>ldZ8A_Q5A>k1t>+xMahUs
zPZD!Kfn+N3lp^0E3Ji^<t<6XjxUH~MiBVc+(%`GdY$jr0HihzYs38pqzE$&b_l?`v
z3V>C~Um2gW;9N8lWzeHYofFaof5RX$1MrGbejrIRm+^H4UdF>^vj$LFS;v=&^KgxB
zfjt~=%qe8zt1GQ|Q$Sz+Zz;+C&|n2GqEWa9>XigkR~ZRP2}AYQ5fhDz{03U8USkKD
zvy<SHSR)v}iH}I=1Nmm%_}*lIIpZ~aQb!e`3^@tdx4QHyCN6#r%<T9eb$O1Am-vW~
zRo{dKHszbOs@R)V4#@7lsQ#dYsjgFUR?KW#4aJ{x3PvH|9jLgD2F{`?p)gxLodenK
z5bQ1mQ605aN|}MICKQ(KWq%j&gW!1KRLCg1CuhMVR4x{;M8W6H2NSAjDfQ*5k2-OT
zGoh0Nridw3w&K#UGvFr&&Tr-`@C%YDHqPD1_9)MFy;bM<1}Yc0R0`jRfqsFKV8{T*
zF5qL?tn4-}o|G-+?Mu?=ZO3ygrtRgl;(I6j1vb|T{~YJ+UtmNEXxT3CZ_UO9_#w-b
z0KYxaD3w1$XpI7mfC4Gdl8^8&vEW}R5Lix{fSO6rl7b3^Y%DXotS4iZ4GMG1hPMbm
z!*ieGI{OxCdeJ1YN@8BD%{#BN*_qk`_jPs(rmwcB2~5Z2r#ZF!1@tcib@=`t6^Uy`
zsDl`&g+E224`TE#M!g7SEvx!u0kz_6QuupVhsGX7YeuP0_+yOz2}W;WgfCpOHp+1V
z>N5fwWn?{{oB{jdNi0BlT0j*-Ksi!C#Y;f_LqMfKXn{!f2>cY7HWmF>`AwB<P-v0;
zip^qH;MF%%7VZnUD?+}S$EzP9t{-FcPcixlMr7a~{zgWKs(ea*ZKc@u{~dtHt!2K!
zBe(wgkey&D7t+_s4CC*T2(QR3$r)C;RaLWyLY~~BtSJk(CoWZ$H9hqe*pu)8$@>LH
z{~D>VDty3#N3bZn)vbp2C@B*D5`aXUGCYSi2j#KO5hD^od8GBeHMP%_;d(eHY$>rH
z<O{I+pP(t5|K8poj(#xuDZJRBi{#kD#KUjbdlFiRD`il!1`F1H$=biX>r?Acv9-O>
zx?O7BUTEDbweG!j?n!I+!nr5b?xktTI<j*7)3Sf!V7}~E2p*Qh#o^tB;bYS9vBL0q
zY506T{KBtJpzq|xdf!PfsQCIMU*CfD^Pc|v0KDrS&6~QO1bXrV$E3iq1@QgcUhsz{
ze|Y)rRsYci`{&#C7CS@Bhw>f!p11~zu24y@?LikvAkrU_{Goz>kL2G2ZyFn{Gev(p
z_{J$tCI#P!<QrLUwsu?crp{6TUYiTnPRZK2lqvL|mf+8Ny8LRK_aAv^EgYMWj!itW
zy;1~EQ`?|q8!XsHB-_YJTVdyzv~%o{?G%_>(F^q(O&z|Sh6$>6$<|)5^+~qAWnE$5
zfHZKRFmO^DIQcLQuNpQBSlRn`<Za!>t{ux+sq27b>wuA>FDDcoco31gPQzn5yn%cB
z9=m;a+wQa#T?5M}3xlK5;Amm+tOS3qvoJ}IeQoF!xNg*W(7m(8UsV1A9fiOSDX^mu
z*e3<{6$AY+Ctk~falM0bcU4iU&GlMn4$u1FnA^W@H@Yng`t>Ht)Arcr#uxUYYa8@c
z^lgKFh-YjY15h5zf??f7nOloCPe}t6MNdyj3*RU0dx{;MUn1-}_?cSPeH0kJ&)+HI
zLAS>v($JB@&^ZbIT<26OjJjsxcDv)L-PmGTu&#UR+9~~4LE2%BTftav>&{!ZKW-kD
znqPjfGvEAj{@6>9TsZZ(8T=^qK1Z=Fh=1VC+c7M43>P{MNgaot8leV;?Cp4JhSaT7
zFcM!F9D@k_GW}GGsi7m}yKo9t))y*K1}F=(HAZNLN>~CwXob|msS-?$qhMkr6SLI1
zeEN}TPtjyA=UbM0ADKp~dH?crk4(EZ=6~bsDgr~a^%UE>i@}~^M{lvKx6rjq>e>a<
z4>JT#)1@ZLY`<;2Wi6NnCDUNh)>E|g7F&CZZePhvnTNij^s1|q1`Z=Npr(rdYj~M#
z^-kZ=VX5-kjiy?~WkDnSd%z;M!xL4E7e)0nW22LJJD^kossmhV=KzXWQ0wfrt5BNV
zTl45yckn$E=YPU;unF3OG1p{MW?`pf+PTvEA5Hs}$9?*S@NWSi28U%OV44h`gT(JP
z_?$*nC(*O(9d}OG$V01Yhy>+Tr@A|6m1$~?&dem{>K%oY+ey~Jh0KE6ab==}M?fJN
zfUJdEPek)Bxl5GmLr+lEIpft$9;yBeCrPn*gFC#_d;99Gs|Cky$+3H7?7_}e$0$4m
zTb=OATeLZEpSgAB{fY057oDDk@+%VYx%DaX!)>JIeT?p4gsuPrxstW;<7h>?ScEd!
z$-<Qi^17nG!donPh(rUuBF6jxQ~wyF;~4!pMkp!@5=O`nvSETxiD^Oj3`<_c=n_VI
zF#3)f{clK!e+$tcQcpEHy$QzW?YnvYv%%qy$KZ)_$-8vvL;tF7XGv#(N4wtVU<2zd
z5B99#r{o&b>Mc*4O}B5{x^esMTW^>2SOCX;cVEd!k|wIF7ciJhW|Fnw)25XqZIrLI
zWG6`n)e^)bxa1^R4?JS7c}a5IK<f{z?EU%vPxk-(=qE=@@QiohVP*|KB?r|TdTKW7
zy>$dY9<Lks?ZdYYmyDP*Q9xkgR$_5Na&(oj0UR+F=k4IF;JOuZ%B<jogob1Th=8!u
zlm}&Ga>c8`jPi7J3Tu#mWRIdmrBY!cyrLpWq&(S*zhMe1zG(tlp5-o5LR{`DziJ9A
zziJ9AJgayp;bR3666OA9v?!~TgewGm+aS;6^3iYDB&-ORVmKMU0jdIccEv!21LtMJ
zhbZsLhrTJQ*-ShkhE?I4<OF;r5JoX_VRQr|H%3H6_F@Xp8hQ6KI=KeF(z;v`KUqF`
zndk8IBR*Vmd!v@sMIZt;%GQdMjY2t*!DR<&r~bHIRQy+5q!0zw@~_;9$Ahv_iHuJ+
z9oZ}O`$sk%R(vOp2wy-Ka6C}r+Yo^iN7G*$D7x#fDci59_Fq#2|BdSYTBD;iPbrAL
zwrC+TLG+bL1CaruuMK)yvqnMmm5ribq`%e}AW325py<J0Q=#9Oo8EtI)!cE@ux>c3
cr7d~?_H_yq>#rGjE$z*BgukLNL0I|!0b`j7PXGV_

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/gptq_marlin.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/gptq_marlin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a9cd5133fea0ed46ca3336af928b111b35215600
GIT binary patch
literal 36625
zcmd7532<9yekb^FgE)wb0C*F;3Gt99>Y#4Rx@C#hWw)DlHyYx5q#yw#^#EED4Yt`m
z-80n0iKQg7qAJdsp6c4BW7U|h>fKf+sck1)HF0*b6+Dq0VBV-V>S@nxxu$j(vefBJ
zYHN3Y|L@@eAoVEAJ#kf@s1M(LzwiJ5{@43=PN$8-6F2@=Z2Ucr`y~a`r=s9_WHfNx
zEsp1SU7SnkhIKmf>*M-_Vc5X@hPW|d8a5@&!)6vX#x27Z<T1sqiHc!cA<jPRK%6=5
zNH~WpS)3*AO1OvJ%x{f*65e5N!Z++=;fi=w!awY1ep@_{2o47m)x*_^n&Fy6?QkuN
zx5w)e^~3dvhT#SlcElSKO~Xyh?~I2M&BM)!mf;o_u8g-P+J@T_?ZfRX?230JI)^)%
z-yQEtgone44Z|A}-NW51&J*uR^bYqX`iA=w8;3V0HVtn|^bhwZHV<!33=9vjJl^=0
z#Ma@hiEYE%65EHjCkBTH6FY`?uryzMXJXgzF6OU_?@sI)-oyO<_};|6;eE^>h(DLu
zKfIs$jq&Fb2S)TdE^%=9kdD)Hf?GKJflgV2;Ujzx9~3MXZ>Wn?`sJ&IV|)$%*J`Ja
zTKT%~nTC(^y-%%Sz0zjB9;IL4`}hX!`uWB$Y`+OLoZvS;wTAWE525r)zL{^~ThW7e
zN+VZ&7yo<JSNi4Kgj0OGa2liU_?~h2jGjBf@txn}_!go01MFvdhR?FtF2sg~`eN)k
z7P|ql-9mLS_N8ma@TSkGSXd`p4@Bef==r!neqInJM<yn(h4r#w|M)f8`r>3NHZdNJ
z4<XeYIrsHbht9%hkBm$uQxl2E#AK3!vGG_c5}z0w6GW7(JUo>Y_>&Wd4or-X#>Qly
z8a_Q09ZxBdDCHidY>`A%jK{_!i3uTWl&xx3*{k|a3aJYd{PWSIAlDb-gs%y)u?wlQ
zBhk2Uc4~5RLQDy~T=UZSWojTcE%2)gqfhP=v2h_PmR06X3aQ8yR#7CHN{KWOAM0Uk
zI!c39@+MK(TOM5)lo}_LszgrT$x}*0C!*H`v5+-5a$#a3DMS*J5sVbQh+GoHaUqTd
zJ)$rfkB$hD$*34j2r0~;L9QA@&-iQO(L`({GV!_~iZNc0gA`jR&&C-+e$0&QQnN%x
z*nEdAa$w|wFmg$q+GKHxnhNm~=!`P$g|uWOP92tO)YXVy5+YY7#7oIZ>fN|-rIdui
zlY*F-N(qr9tw2)t6-uem=VQ^N++2vn2!&{>kTo(f9>I2th|%#&NjZqI#YV5K>5IUJ
zO>*sl3(;}R5u16o(5KWHlB<u16H}8~DgIN@kxK%9U?M)17%vs@DbcT=IB~KR={_@Y
zWmODq$&o2h6vk5#EJ|v0LQEjeL4(AarLIj1v`3m~9g@*eEY^5(LQE=4m!#E*^3hZj
zS!^-PXDpeDOpMA_Odz@xxguM~rxKC#u~bsFja---zZ6Mgr^;qgNKJ|3BZc>vUP_Lj
z6@?%5=?Pk;xr-FL=6MY{W(+gN856Hd>!y)&#+){$&C@3MEW93Z$ieHU0TpMgsbc*X
zjcY1GFl|U%(xy>E3biQDMYHNF{h}Y%Qb_gPF{tOtOhwAB#`5S%TCb)Y<i7DCdSOfJ
z%KG6@^Ok<owv<Z^rEO{bGy-Y!2Zdg()4oY<g^k>vwqNw9b(DU2Gq0zA9~4GE<3Me`
zQo8EnjVhc<JEpM?Y3nrL)<wUXUiy9dT&cCpI7@Sqc51C7Z>&M3YJSXA5HnSocBU&S
zK3&0Ec+2<on2k!B4c?MAf8U_QjT&|%=B*kd_ig7}9~qJNEEl#;{lDn2ErjQ!keCp!
z^$Me-v5^>db!cjwHe+mjEQGxs8aNnIws0TIjl&ABV=5VX_4%IA3!#l0LzFo(8XZYZ
zh&`d9Z-ipwse#RfGNJ$Y&wp3RsU{5;QhHczS7JDurc$Bv;zX1mi6&Fj>V>H>foj3&
zA@H$iN+=XbhPtA!PsI3S=*1ULhWl)+hW+ALawqfASk$*@X9&F+xzM+&FB7Ao<b~*@
zux{6t5mG(sJGe76G?h3nh#{1vcQS;ttI$YDhzkjtt}dZ(tgk1uC4|Y^jBZhRdP;Ba
z&d||`E1^Vm{2Emf8l!V5i5?baIuuQXCdNmEP*+Nf^1{R@+7eP%1YtasoD>8;6dmV7
z3ARe=sL!y|plsmEnhAW_z}1<izL$-g7DDOdXCds1&j{aoUoV?@I=N&sFT5Tb5kz{I
z-q(p+DaZeZXDDo!O{^B##HLm@35m(nHQ9(M9%T7s6OQXKRDlziehrD(xNLkq2B1(e
zHJ-dYB?vgk^r?xkOYA|tVlO#;aAe){vh@;9NIC*#-H>cA+f%ac1=*O0CNIfWb&#?y
zCfkx1Vxy_Z>(O{pHZy-xHnAy}br+L#Jg`M5IsY)cF_oCyI2oJlO+`hV&b?Qsw(l6c
zv|ZR3kDcE*c?~;peB<l!cw%E>f*0Zu;i@n)g|TjAFfX~0LDK@z-#9jzx?BKAeUsN@
zuhO;1rO5ecYUBbCo|O0^`fvdMlR-@JESIn60*$x6dGnj!8JgWcd-aAV=dGHz-t3!w
zA!l{p*d<vTXZPnE&KuR&PtKo~?2WSrADcP1|Lr%fzcIgm{_;Ze{Ej<^K0N;Z@w-=l
z`sPpGTyecPdlWe;eK-1VTw2)qH_pB}-2;Ea4@^IFyysXv{UgKD{=2r1hCY5_dDE%P
z*Q435Uy#0jVI>rk{INOP15e$prkhO*-i6bPy2buwPw$-hfwwm6ZIirh3#XU8or~Kf
zZ~xLc$+IKt-Xpp9{HgHMi$A%z>^?SUdTiyq!5dSz-njY3LjTQg|Ba_(ZhvlI@UG{h
z!MUTqdwSk8fBLpRQ{A&r2j`EX8UMz6j!k(3=k0uG=A7Pq9ap(A-^e+tW?y`S`Qb*2
z-~<5zC<KHa#W8D71!{T%Yek@D0&p_1qa8>1DxhXr1x~cUnhA%z1|S2-D)fx%y{KLe
z(K+?ujcdS#6*U!so0<#9vFQVP&G5`rq$>a{2xM3o$Z#t0<!%|ss4S0H{KcAVX`3bp
z(*uZ^c#8_cw7^$d53p-g0pbjRAp;2sbdnukhl;S^b%D-x!j;zp3!yHy<wJl9Nua}p
z1MnXUO#G8O<^NGnV6h)-DsCoc8#&v_p*{B*bLc$?+r&YN-9gSCa_CGJ_mT4)Is3`k
z1xL0N5Np{Y3hby3JIW5)=P4hZN3w2QJj8x4iAN~%1q!$dpi{Uy32=jB*rlGf5d~g}
zN0BW_*jVXI4TZ!ZDqOkx_!EZ_8K>-j4hKhH^%oy~4^|z0c{Aq<zT<zl{&xMsrMq1}
z-T0G@D>cWZ%Hvt*Dam;%bNX!NrI$0Wd_D8(Ys=1W%pOMmU{f~GB?Y<`J<Eaa*%uL0
z(}hE<nhvqxj%;9$6i^Sbz%iEYZpykkBv;46<;CX3(@VN#*XFEir{vmsxBqVRW6!ed
z!0gcncHiua;wc)W?y7>NM}QoRlpiDX!m}f*7VcAzEMVclzRftEaNO{^OI?^E%W+`e
zAD{|)zN=%YSbgB;h628BP3vc?N*HkphmrE6b?RZD{?6!A7By813&)GkU1anxHJ9>x
z$EY54Gy1f(tPU;gTlYnEuw%HQtQL)940jMy+Jd`8@!-AaUfm}Ot<zEwm&aW}6F*mK
z$NUu5i8s?>J7X`+9RZGX@lFDK`VP_^sUilScBBpLUZE?_j1#lxNIPo@@2)8LTxFvS
zX!PF>OuSO-2<ENqUxnJki-g9nd6ZG`#XRbPeX(v$Mg*TekH!7rF3mvNt$EL=SaZ*4
z#JqR_Y8swwGwtSWY0s#h-9TJv5B<_@Qf*Dgy%jQYZ~YtGIcxwh_UX$uIy;`Ya3}zT
z4j@AR=}r(DnZONu1Q!F~%M&6mhziQeE*<JsVoRuZZ}D=maU;VS@opAwAW8vtn*Kx6
zP$&UP6wvArAA3EPjDe07I)6>Mx}b=14znY80Au)!&`0qsIqYnvW4RAlD;>nLk*@3_
zU8&faESr_vk#a240WF)R1#tq{D7$<pC-q*6H;+YA7eGBRD`zY_xn*ON=ObaS_$pQS
z8fB|s;{|d#$&h1_9o&a0`5+}5M<#&s8mB-@Q%-KPa&pTRS0jaUADB8&+>~q(#(B9S
z#$Synh_PM4nU#Q%P-pQZs!V#}lppGfUpd;{%Cwf@wU?3mZ7Mc}R|<!_jdQu*9=ksF
zog=_&FV8jS?2fss*LTnN-?P_ejQcW;`<CI_>k)s$dVSCA!JM72+`Y30A6VQOOZEM#
z>UaF}SO1`CxhgzYao_E~<+$mX|N7$P53jy|b;Uh6d+dSJ^ZSQxow#{op?azL$6X(F
ztyJxjoV#WZ-*<Z7e)amR^Ud?87mV}ucV7DN)%Rch*z*_Fe^$NXJU)9k=l0w(-!$L2
zj2!0{2AADEi%H47dG;6(XP~f`=erh;|BYwkoauh0=SKVd210%>ELU!vGvulo=7og=
znX0b2id>+6{-uS1OrUel{;8|#?ez8Z{4oHH@P~cx_ucgXTAaQsE^l}~yWyC$;n*k5
zpX~pH&zyZ}dBe-guCHZX!;))w<<)OxUmcZR9bI;f%^B}|0yk2(rf*I!w5aH_!~6CN
z*I$@7&YuOM|MG3eqJ3%q`;}7lwx2n+KP1#S@8rCj@?Os2oju9m(JE399q9}Nfs*@l
z5X4A9IC`H3f+&?h5J)p$Ip8Vc*fV+%gOqkHsUlWf0&z2hThoiV<^kSML?o+vkb=Ba
z0)bi}rGhu5^;$InZ>E1w$DCPfr9A493_xV#84(CROIZ)9)^r!aG>t?H2p8vq-8VGG
zy0(YF+-+$)9k~}l4qE&0mOB;dQLF`C%0Nc#+OnlX93(IY4sToZ`crQQtIqJ9#bcQr
z#$R+$GpMkdkaM++kWr#0JxR&v2?^1W3q@MYrr!Rop)MS}TgnJADqtul=4|OD$WkET
ztRm|uB%>}~7>!QFQ+o!>Dk>h#J3}hNLjg`iVky=|@GCa1^h-IK6_QxtD)R*C<_jrR
zfOloktqiV--^8*hHwSi+SPikn2vR|2Ht?}TxKg=Ae2WScVV4-CAl)Zq1BR`DDxTs5
zau_f(Bmo}xQ*Z=M*jWNp;uyuQhEC!Iii^RK9qP14sOn1;#UK=$L<YG;!atJqs;>e*
z3fw6aSKy9#6`B4G<!)ABPVJY4InNAgRM-RvQ5C##_4oG7o_MeditJu?Z(;z%6Cgm9
zvwA>)iQO8%Ij+!B7SAsS`m=#SDFBMd-Tik{AD>wc9DQWad(5-P04zPV^9OFa;Kdck
z_xms1dhO<G3q4Dhe|+_$t1JHJq{`>A&cl-P@W+<{NKR)?omqCCW%nCb_53!evN`MQ
zkenThn={UiWoKX3*)KW!f7Jft?vJ{coqJ~wKd^fW@If{!d>+|-<kY#-CmA0Hw{qgN
znG`OLc~TTcV^`%$Fx3iNqR2=*x$161_%j16pTKjAOJVwzCtbwyW{jn~2}mtef;}qU
zEFLKxhd8SBcZwJ_ucsT3=uZ_%D`}n9!KfZ$XSuXqbd~`Js;ziv5(k+91MNBh(C9hK
zUE{(=;#1n#EJVOR6Ap)UVj78Ii%8uk&P;3^I24GoBJEF+Fk6v;iEN|EQf5{pG(2n)
zuTkO~<WL>r3>?`x5}z0cKS#-#q$?ZS<jUq|tUIcxoI@x6Gi17t|4Dj@X1T`>&fhTq
z@^V$%?8#3pz)#+(Ua_=bUpkv}?uJ}l^JA02S(&$jNcee$(dkG2s@}zyvb}qx-aX5{
zy&1>eU)VjLI_l<6E_M9OvEvu6hWSJ>-L*Gk-J7$!6kGxg79U^1_vmvh_P@ZQ3*4}d
z=Z5vXZrC6gwH64m8W%-g|BimxQo->d-Y8gk6aJe8Fe>ohivJaYO|Y~72u%ZKD;EjH
z<!vm*Q3%-ur(mZ=;0=_MckqT$?;JO(<DK7wXa(;O?4x?V5^Qgm;6@0S65jPaqk63#
z_Oe)~;Jb(oxAviWk>6dG-_P<}5$h?74HRl&JwckcEG>vM->N=C^kdY>SC!?dX5~G~
z7*O6{mR7?D(7P>b`v%BP*OE04#2V}vWj$Zb`flcHF!Bb}UR&M+v`|;pLL<Z)xZx(O
zMgvMW;y;^9^pS)WLUY_z-EcD?eX~gS-syVfun3LBqsb)W1kpJXQVx=^KCJ(YUX^qB
zwbCz$_606E@kwMGBN{2ZONa|3M<QSl$!2golh+cmC!UC05Td-Y|B1RNTMC?P**-c2
z&ad*`$n_w_Pl0y~7!o-jp8%sNHBl@iZbZW)#j^teq9w4?>NRZLf2G5Dg$U)jUXkX0
z8?T|dC3H9|L`xc*nw>%5`OO%BMsktDIRP{cbdCts#vYtpT%>rmsk9lym8dbGtwf5{
z44gz<q=<+D;pQSVPfA@Dgo^z}JH}C>%V?mAuj@ols)*VVg8T;{CZ~;m!2My70|}au
zW?7|P+8}7H_<E+TS9M9q+>B9d3C*@>-R~JPT$m5!E+V8jL9IiKSb3P;oTocp8ZSx@
zgv$9OxW^O3*~yq^d#24jAuRtM*%Kwk%EZ(-A1RQHWiIT-wRH+4OxYU2azj!iBEE&r
zi~oY0e@V_Ea^}dnPR?(U^V@J_D@mM0PVPS?+g^^wr-VbII3db5<#Z*!miRlA%>b^C
zcmuw$O*STl_^48MsYccctCqD)bt@$+B7lr|4<eByA@1xbCuf$O=i=`nZn|bIob6M`
z!C^Nh|5xPsdz|V4uA=g~MY2|}SZn{i-8XMrIDfCY3)nz)!`#vQX0Ezv&iIz&L0!k3
zam8AVyC;J72Xze#by8iA5?9-XI9IMZgdb<Fc{9Z}<_aYqID+$mj6Jky{LuNnQ?hTp
z@2$^y2k+M1b$<NvCx<^7%(%}18}U`<IXwd(bxrT~-tJwjTN=%D?U8EtQr!=Fj^67T
z`s8`4IsBlx=Z8)2HD&q_etdqp`PiKCXVyjqY!tBpjE(jZd-r|-4`k<PSHidU!TzPa
zUVO_+=}5slqa}BM6uf;}EE@JUXv!NP1#hz!utJLE51qvD7@DqMyJlUbJ+o)p*`x4k
z*)g_f+TIgVPqIDJRXw364zWGcHe^vGa`sF&^@N^wdhL;Q;jmf!?=S&t_cYslv}1vm
z%;P6X^IRac<K=*;j2MY%?l&cAFYUJrC^O4FsNAr)<->jN@5^l1mFIN3Yjd@Y?{2)k
zF;lYv!S3o@b^W`}+s+$rBGlQOYi`drZ<m_4XF`LB*b&SH>u#lQrf-ZR)ZUZp*_7=$
zDfOJpbPs(J&D%}R)4IIDQek^?H=uE4H_(xJi@T-^>j5FkxTf!ey(}AmZmt>}3C$2f
zrZG4*=_n134qXh+RsUqmw6oYge4e#jf&f~3t}K;0y5<?vpG7Z+!Ul!XXS@)NLsIAb
zXnZ1?>fa_VAbWZ5tEr2{bC3XDgfZ2V)8Vz-tZ%)nCunp;gr4O-1trXO)Ar7xcZY5d
zWnA4EYxk3*r5>}<md*2Lrw}Q=OU?qE@-BL*UGU{2Bhks|`B*%bx;EXa*}2u3PL)r(
z=gDp$S?LDBIC}ZVba=t^L(^3SXrSWEeHW7x<Jx^=NU;JhBBQamK>Hv$-LBcYwb{;5
z|LkZRo5J0Zadl>_ovfD(IbX$Krt@3bA1K4PHPrbvPg+Mqh;es{vPs~J=x6mYZd{kv
z!_Qr$I@UZWWf&{oZh%j$m&;g|i%vG}x=dxch()cP%UqU=PCV_=SjKd`wQMxNK-S4w
zft=;zw&GT$+^bB$kAN`&udseV>x_p8LqiNq<3eRA&`e|_p@5}BO*RnDXDJ+)hZ#gA
zSxefBqawsZFA3L@5dduGs+e$v_#T>2u2&^YKnq&aS(zk+stA~sdzPJ5uWXhl&-%Wy
z)K@TV$sB6H2J-r|-VVvzvGDp*#o`+uKcDe-EPId4S#s4)^RAmMi(i|wJP6ce1D#T!
zbJ4sMSh6k$cFfsx{_3p1L-JEO$Ktn_{d?zZIbR^_Ym<C!3okETTzqZWw{y;#^HgO$
zEt02YVcX)N#qG<UfjM)ozA0P3Nvhwp6u29{Tla~Oso%6*e=cLK$#rhXcJ7iocjX-3
zjDH|gwdF1kS&FXRk2rmoEn{tiOoiK*a|CmaK+aKxTscQW&Vd+sx*mBd+_pSdp&rrY
zTZqn33P0L}v9JFksF!bSXFbnN;g*ne0C_GT&Ip-Uh+XApj6kYiN*l$qyg_rjau<u}
zGFmP?DoTzm`IJ<ZoG@c5qgxh{XtgdNyG2<G^y{fLf}CIwYcUdIfecYZ-Zf=C%IXCI
zY#x%$is-6Hve?u6&Rq})-V5<iEJ<iDNy#xj6Xd+!m<jPyA~CnbDM%hCguc*ApfHS4
zf+FPGCmRVkPA?vWz~~6%ltZZt5DNpps8H!hbesw++_5q^+7r4kaYaC5p=%RUBri4+
z8;zlOITpT$@`u26ibKLL6~6{7e1dLtBh&>-qwWY#7AXigvCH2mg!9lyY<yIJ=<A38
z;oBPA=E{14J6mEBBGKTj$!3y@ji$tZjj55%ipV#Kij7VH<)OD)c3c=OP(MaS$7CC1
zyhSA}+c8wS|Iq}>KC}TwRg906<uD|YV@X;p<#kuy_4=ZGbNSE<bgk*$C&0+lvQN@!
z@CRrB>@6!7tjz`nq`<(^iRHllIXh5wXK=nP<7m9+_}apTC9Bjj2;be~pY%$*zlL|S
zqW+<ka|ETjzPwTAY5Uu@4euRZ9Qbhe`@28bdw1ZcyMMC#Pxdai9nYIMryH_VP9J0a
z7*-thI4*AOzPbDNK)Y%Fg*`C8b1`tQZsUE0Ih5BMJZ+B+CLrw&&RwN|w-VWjkcL$}
zq2gtD1AD*ANO!uDgpvAIi6XC46kKMY;8ISI!#hMEbIqfcOCC%))Fe%w3Qi3|-~Z5{
zo+EVe){<L7JH&@v^Qfh?L~8+v^lCrOa;0lBz!g$b)oN8LX9#(SV#l6Bo_aN0$`dvX
zF{Uv9TII<J;cG+t`?nonx7caR36g#fbxt4Yq?derA{8p4d&Ev=du&2bNF;rs!w_Mo
zH|#tZ+a&FY+Cr?l!aJWNp7Jbuz-WweKgk~Ut(HCPQ)CbO%C|JKK<Iuv3Jmmrp~A$N
zSAgvw!zVkgM8$D53mJM)FMmXd?2gR9Evu*SPB40->?^$(P{mNR6hvYN$$?UeqO71K
zhK=k_QbzEkUL*<sq}Nfo5dT|*rkhI@C=<xA-tsQ|7QJV0BQNg7X3i0~A-wa-ioN6K
zj#obQZC=`Xw~Yz@_>SLq2eR%~$=#X@G|Z3Azk=IH#|}9D9ghtLj~DM~bw@VXF9rLT
z+OnIUmo`7Y96XQ>Lh$EYuBv8!8}7T+Ufg#*ULxyvEgBbvrI%OsoLcss&NxorhX_z=
z@uj81E4$AuyUu2;XW6?YJCv^CC;|y%6%JVhodqF9ofa-dFO<4HwSb`t_JB=lmoL6D
z0KM8diZmbqUhN!3pfv-gu4XUI>MJ&5F3E;y-L=*JCUw_{Zf3o-9b1e1hVMX_@H>#_
z`3}SiXITui1PDhiV2N1Z;sc5na+FECYvv+h&VpQt5lqYiwSZxp>ar+mE#ghoEPhB1
zLkyS5N7SLi;*a6JuP<G&0eNmA3fvC>Oi}D2zXjlBWQvc9zmJeervX?11fRseB<J6e
z(@W0k%9BLcquq{2+3<G}F}>l54Zkjge1~@apQ8})&0uRb*eL}&7c1}TmxH^q!TnNj
zKQ{23Bj;<%`dTGl>%!q>UpG)ke{<H~F8SLR;>-R4pqG`k*~&(#vT=TDxw0Kn3&s4$
zmwg-Ote?6d;?^m-I#*oboUi(UJvhJZp1m1f05L~Z#$Go+ooVV{I=l4h$44^<&ru#n
z)s2z4eG9EW?0K(8viBkCQ&)Q~SW9$(g;y4n3olB+Eg#oDHs}en)T@|fVTmvz1*>G3
zCGjWM6NvjxGd3jUTJvDrtcjtZx=BHXET&!qD@XhRf?>TvrL#pRC*#+cP7R`naw2<x
zW`JZ&M=MFxfD)Lbo~nY29;HNC@^s4+i}*yI|B)7th|jYeI4D^==BX!RAIxpqpWSpq
z+H@l4uFAUmC3ip0o&L(XgFkch0xfXtP>vOFkVw3ouD7yPgt$G4&8~vn^xClb`v)|%
z-u#IN%Ghq2bEd(H>(ZXxgWTJOw~Zr)G00+n!w$(0L)rk5I3s+<wDG3lEi=TpoJQam
zP$VM4Hae(0*UAOYsNZXzGF)8)izrJiViBbZ#tgvqi$rIF=_S@7iBW1{5$Yj@5n0~0
zju<Y`h<0$?YgqLe3uH*Fn!<Rv*{FxiRozU57)n*C{YW!`xU>lemp^UMl(R7KMe#}A
zL<INW)xWjN2t_7pv2>`WZQ8q-RA7~vy@K8{zjelPh3*(20Ir}uaSI$-*Qbc1(FTTS
zFI{@YZgRdw4hD(yOr=fz52et+W^n_BOtF-ZNGfMwUF7Wk!-vit8an&pnX{2|FXHda
zfuoUwL`R3NSrRveRM@Tn`emw}dLdhqQ|C$g4VXNtBB@^mLMl`)*{bTc$u_2^$hNrn
zCsdsEzW`4al!j4j*a50I3K9<$!E5J*$kZfM<W!Q;blVeeq(-hkp?C6EXiI%3@7a6q
zyK3g!vbDRU+FgHoZpHOHxbJOU+17*iS`R)p8Mk_W(Ry&+@*hH-^Ty9joWJHls1rE3
zzb4mu@N-JOVO(+dqm0w{X)U9X-|>Ig_<rM``hVK+lZH&qk-5tIz*2U8VqNi_p0naa
zZSVcz(0fBGZCf6jOf9xwv~7{xp&PdOgSnc9cdKt#FLW+$S+3cXac{a|f^*;9y?6-H
zXm|T0_tCrsmx`>TL2@+Ak1X^rJK7hb%Z{#G+ZJ@G!vBy%g<$aZ_Ak{h_kcwIGi&(2
zK59ZI|LY?!lGtqiPwoT#=09)Rdtkd+ITl-pl|tuCBqG})(48e-8vKq3UA5wc6iXz+
zPmF-99A;}gMbb0p2cfeA&*1s~&4UVXOi`-w{KQ0DHu5nr^9&G!6bTbj_8;*;#CIr@
zov}&^@R_*D>>9{6DBB3)4=L`C$hkw#kI4BmII@0xTsEI%-4yBiA`%`c5^NRkk@Fwn
z$j$;UW<&s=Fajl|+lXaE&gT?ZOzca>!~8WR{2eyN-+zz$_r?yOiB+MjuT%1MGC&!Y
zeBp;CgWEiN6v{a}_dfLPHXVl!O?BQx9xN!l7Us2bzF@wBc_G2!&)b>T!PSTIPUfxT
zyn!1d^IH}S3uhO%yf?hylIk{P0-GdHf8ND%xVb>>eCvF2zU$^U^BxxE<vP0;2i}V<
zwMiY@@~riI6=$pbm7gW2bykyYzV#7@AH<tIdA-hrjo0%zhu=pAH3l73(s~xF7KINl
zy?;px@1#6E#XLR5Jl=%?O7a$yyv3xhg>#Fo?|q$;yNb!gnWEbLCfh>Q!pP#l!iD!5
z^BjViEr&m+-$GXS@_j68wW;bsMg4qAs%ZV(gg_w!eEBUd(>YzvUwiA7o3Gr8+>GQ6
zETXSp@jR&TfY>HgbUrdse7=R%7ckkD&fRUjo4nig(KkQm5G>RP-{+f*rpkwoD$~Bj
zkvxZ=yJtV%@{{3Tlb3<p5$u8DQ(5pm;u&C71sh%h!Ft#L`vWC`0h3@9%yg6s(2?DZ
zU)})m1tV_)yW9+BJBcyaE(VG<7d;n?*Un-T2XO}{#2qRHC)Ehi1}6`J1~Bk#7aL2t
zR3B@l5`qoJVfUA6Md=+0L3ki^;r&u&UFb`j+Jn+B?_MX~#KbU++NrQW;DJbi@0uy>
z6F)(1(=p`+2`xs_MPDmTpsD0je)-xNBI+7}fr9+ODq2;6$*c&*$#n&_c}R{yop78_
zM$QX#9VROR3RX{;+t8}}91tA^;Yz~;go`-;@F~w1p;=lSOKmhu>sD1lX>=r+q#qLh
z3eDn@%`PA<@R!|S6r`3Vm7}o=|GB9ICd=>ZMK1JzAP7nF?0}H<UBua~!ELxA1Rh^D
z*d+zKvcUl<IIt%8cP2vt#b-BuxjHsJIR!Qsgf>XOpVZn@F|vao2cXDHNyQkJ38EmS
z60*IJhv~FK#1GaCk_wY-q$n$a9#-H#&`|Et{{#54O6sh1C$^F-8QnplQfJY+Nbp7N
zm>F9c5{7#!?xxUkVK-EQGHV{KTPsP1Xsw<WX^io=wd&PCaUs1{7&mlNN~o?~MHET+
zb{)MK4PqHk)I%l2RTEV;YS*VCzl>zAQL~o#@H#bNm(jy&(wYU0YXEOzw1nWZ&+&|N
zT%R^VYrc%2r@1~FbN=kDq$^bMZqdq<){immWP<UoaSLxoSg(dtM1*5cs!8=-45_}-
zFG^_dBYM%-Jk%0&v5F8v>wLarQF{nk9f;RGd+li(=qiQvnQ^B&)yBW5|6kZ2^qL;@
z#dgQ0_HM@W1@*d^P`uWDS!ZUxupb4|0>tv|@91Z|&(OZPG@FG|zI5eme~R#8_V9iP
z9$I6%wC@MH-_gxfrReshra+(T*=L`3zGFyxSuOtY%_$-=mFh9`mG9__Z4`GFTBkMs
zGOf7YF{-VA*g|k`&BMFX?y`4ZJC7&r`NBNjbk!H;@umHxJm4xj(sterJjKU*?o@qH
zVEqB|7BMKm!@!X2EXWl?>H>OThhewI!$brN(TY)mKnd!sidTganQ;RviDWQwFe2y4
zcGA;|OitjQlawniM8VC9Kv`<KRpHIGm!uvQihem%Evf3_0z$W2b~O*1aW{f-7bsmZ
zC<)1X*;W8~%&+JJM9A+f_!Y|;;y<7c2%6yf&xzo`a7u(;iJ(N$h*;#H9}zrPPK4z#
zB7Lz4DgvZ|m0X=ewp><bL^iSE!CHc1j>mkN>8Zh-QstG%WyL;?LX|?eV6R3AyRJm0
zC(AQ<u0+O2t&9P1<(mI4^}j}(qMj0&RV3V4L1Na3I0Y%;m*jj-&L5LQL;~3WRXDMk
zf*s@#K||b0&LMILkr(Nh5?je>Cx<Xr*((ZTAWA5>2rj$u$>xITq(B+3;xUyV3W4}{
z<k00%{ChaESGWqp8>@^w$u(t&${IY!1){DvafJ;&9v9+lrR3mRvrVc9t6k|z*}e-Z
z3lM>xHO*^jt9Vx@5RxQXXr--iWV^Cn5g4yX${ux>(^|49v4V2i;3R44%SbC_UWLk1
zIU>T=5|~KLtko(RoAN#0w>sOWRCNuGRWNI+xc0707r2=FGS=o?ZCj@6IjQ!!Imje#
z$X54B)qRU^E?4iHbAH;gHP;kg+?8qE{=nUpbBFULLmSDg*ED3S!%}rPTfIf9-U7Pz
z8niQ4-H;1_?@BTjSzMz7n;!e^t&n$UdR)r|`!aopmIH_9><{dLti4IHH!Y;Hokt}6
z*^d<1rJ3qIci+hFJ1gxwyW%*PbGWmP9?8*@b!?Ixo0jUb{fDIfLn{ta9Y>nIUb5F`
z?VXanb8+)MdoM^f*_sVf&4z5vR;gy|_2Um}TIY@fUv~7es)$gNb#zFMjzwd(Ylqae
zBinUQ>N@!G1PJ2}8>mK|-5Ez~uDN@0T58@QIT|tO&Mp?U<L<E3d<6VsROjn}GT^Pc
zn{_#N*W$r!&mO5~Pqycngg^H&%-8)u-K|SEFFm#xy_KjmSe;Y;Y8$h)-BN9LwsyNz
zyFFLiiRtm#<}8ovIZtz`O0~Gjfa2g}S5r=>#bcW@VGVH)f8pi}Id=;hT0EES-7EF(
z&GsIb@aI0R7PT1t)N*6@L#HKZo3lUmt}2%cw4igPEDczr8q!m2&Db~G_ivQ^XYTfA
z{AV)HorZVr@O?i74^4r}TwOi=HMV3MH%g5gvyHo?#$69BNI^e+jSnl}yMFjFs3v{j
zGO+xMx`zhx_3mZAbB8g1fpDHPBd)eiyTS@2qW7rK4&U72yc^=TS!+nLh8AiTkE~d?
z<gCs@IJnrpV%<~<S1)c`v2I=){zafUhlQ<c%hk2!>f3US?T_tdOpNij?Fzx6fB@kg
zEaQaGIkp}pU+eNx(tD(9p~~g(&^gdBDNc+CkVP)MzLDrC9exBJanA+EYaVT}%i5|t
zBJ4$S(_7ZLBR;iC9wSOtp;BBNt&X?t*X>zrzhv!SYX6yakd2usg^}1-bhY*n!E_uL
z+#{l(e7WHRQ!Z-fpItoxPK6;;82&1L^s8t`gf+}H{Ak(4ij<3htvcvf>KF}^uq_CE
zkbnhQ-pRVUBv;p>e@VBrW!W{DQOElOWD8d*Q0!A`^FNXEpW%Qk3L$d_+5QU!T@jq~
zkQ89H0wF)n2$Sr>t^m0IlM4P{<fO>?7C8)`sKY2kS~S^wj+u}XTPTL$tTN|A<Rj_|
zbMDcg3B-M$d#E>>tPepf-t@ttjIn9Kw{Z5o>Sbep-e>{Uu6=8s!|&a;NA#2Tep_d<
zJ%Cp8)$3Q^e)Ia9c@st8P;BkUTbS3%HMgUNihKnN+K4J@XI=*vsL4B-w~`Ci(?OMY
zv7i@J%tt=vea@&e?O59S<H3&xf4uLbec;-gc6^+AL_hgTu08y)!fe{Hssjkqq3n5k
z_x0U*3x%v4IvBqmpFal;xI7iWJ8g5lU4OkEFP}+atg&ezETQ=H6?~8W2ur(GlZn?0
zMiBK(jNE2sx<uyhIfkMC3zM6q>b2(4l1>3(&qjJoq^$&!o<)lwIBMe^AjvttRJ{r*
zk4S*dFIP^e<QZuWWJ;zDRRLPc`v3UWFIBq>BMhyX76d^g)Q<OHR=k1-dQl#}3VwxX
z=r8&L@R5mEtvZ#w)q=NBsz&fZyQzw=duslAwA6r{jreVPYR=G8Q=6ZfYSc~@{OiPP
zj!+SAV0v#G_!f{$155)e2qA|y@h>o~(`^vQQR$rp!YQ+j!6>5zLu7pn#fGi534y6Y
z4Xt7%)7i_;-+v3w8ht3RaY-KvB2+jz=mEus=$=LJh1;xANhx<VsVo|d--2FML#jyc
z(NYmad(=PnkoHGOM+%JPB0UUpG=)BXR|nlq@%zYM4$6vxOE9AszoyD$B}wgi3p1Wa
zoGgfIUFkaqq2k{~Y2^TBBv!he$Q6v9$;6iFwlDr4<oqj2A<4vo9Ha_qSTUGU<`m8o
zO%hP-S%vw;RDsIWN{W3e(qRcICtpFKzXu|1Q?-HSeJj=ml`hMq3Q8Dh*4{7K`<G7N
zvv0fKxFOrPS!&!ockrzjaR}ByTj;l4j}4r!A=7Yn*?TVIIH!PzH>me^7&n0-I}mDd
z#kF6E@w_muDCIR_PKpK=HORT_YBW+#kfBAk<Nu@o9ZL#eZq^hhDiK{t#JsqfP_FQ3
zZ7K&z6_XsXF>N7P-12R)PAytnj*)}KF;czLY+0iWBj*uG<r#Y_>eCje02rAaH|<jE
zwPJhvt8h_ePN@@x-x>ROBX5|o;(vK*E$F0K8f!%S*EJ8wE`TrZ6kjUHdlGiX9xVu_
zMf@!pO1fC9mM#4f^0v;L)|YarK3W5i3yoy;qO2!H!l#;#<3OM*97#}SD2j!FNUpos
zT*{^TV4TQNA~>a5)p!t|ipFBUlChIYht_^tXY6UiZ!~J>I-|CyotmR|e#N6E@-th*
zv}v7ns$8eXj&!AFk1N089@|LFaGk!o*6FJ=?b7V4YgJ!Md(FjHuCp67fNQL%JoJ_9
z%hC#csr~sI?N0YP^XDojIG4SX?p5>mkAEJ~T7UJU_N+5%cR2~YY}B4rqb}_l&p)AE
z^TnrA0fk$2CVSVJ2~XOq`TlrU&BQ<c`WwG+7i*2ex6UZMX`kjOd|&Y>ezUcxT4xl#
za;8n$uB`fsNAa7jg@2t<RF$)p%0}TY9|g*`sqnw_dyyCoYo3_^*iQZ-Iq)QcOl&8G
z@v|9)VETdyh|5ke1i(NTPfp_V4ZL^;X`&9-16Y-jouY7gDh9iJu%a5}VI!k|AfobP
zY*#jy`H@gy%v2!0;B^pHFQTx!Hp@0vTCpxjnG}YATtU$aZ^w#Q#TO_>M)3K86u1l!
z+QUZ}{A!L>(cvoDFgY=)@N2GP0N`LHVa=M2c#Z}{moeFN<jjjNosvz^$eI#l%Ymc&
zhlUQFkj;v`W{IFBSDaEm!?2cv<EDF)mulQhzOC?ugC&xs*iErL<n)q53>wi(zKw8X
zXMsaP*R}ouFs{^@QZ6;@BMg{pO5QA6A)p90$JjNcsR62G3prcK*-p+NIrw@F7)|8h
z+chwcMGo~VNt`O&?6e-`vPU$!a)I&EWp6d><h#HIlm8n4K1hpRu4PL>$$s$Ea`Wko
zwedlT3O*<`4rXcxKj-wdww$9ov+<DRI7B*S&bNp#uEnXShgfO0d$-iRJKKFk!e9N7
zxsxEERaGmhr&(X`Jzp=32zojn__vUtX&o+(^&3hQ|6@|`F{$p@+==_afoyOGnad6C
zlY;xMAAL~YFn1D^^+M7vNmWmnJNm#{o3%De*5;+bPk5>2?27f=r(jlGxOqXb!+ReD
zJeV}hxxw0~n@?q%Hc3sJvQ4`s{JD3-GGnG{KynYLY=#O&udObWcX7cmWFCpvfXOOS
z>l>ErE7sljt=02&nU28~>yA$qF~Y3BQ}TC~x3+O<OLpL(G;lCGa7x0T`xJVh)lQ%b
z?F4Ldpn{g#sb8F4vF@aHYBTNISFD5Uw$o4?1TjI%2k?v)SJm7)dh=+usza*kC=6iU
zzVO=8u8-p@j<dPiCK5;Pe8d_2wz&$desM197Gvlb^|2<?1}4S!PszLR&82hMt%s$p
zhqGH>l(xQ@X*;!IJ^c*bUrJ@SAC<Nr&2B#@;m>{UzhSa8#>BQjz1A+!YKI1FWdkl-
zlrJ;j`|EX~xCbmo=um=o0^waYzZTY98E5E;=I;BdZw=lY%=+3TU;C=PrVgRJ&Z-X3
z)~jrg2`{U&cJY-J>o!`m>P+ia@-}z;u=>5~Z1aHBJWyVzW<OiDpw1RB*BZ+z%{1@G
z>^i+-J%eg9H5)Vi2Ue^H?}yrdXnoI`4Q-Y}o6GCnsMXiz0o2=!dK*^NJDAz|;)?YY
ztG6$+>G>7wfd`&|qPL#)ge6b-x|z|LR>@HkxrorHN5s-vm*1mtH5OM{W-d|t$}Gp}
zwB+*CoUnUMq$&0=87nnV_NzsI9D_BQf2}L~HjSY~b%ZqssI#jQOt_GF)XKD20YET{
zNUNHU2w9p0mFiLs)t4#~b+ia7cS;tojb$SxLW5dC+3&NARLkDe2ZcITtKHyQUu+$-
zU{M>wh&4zw#T7A^^^@e%)M917&(hBs%c>Qzq>B=7&#)q)vc?MDuV6*2Wg{h0;**VX
z&oa`du1LkIS+JHQ6PeU-#nANb5@)xFg%HWRTuV7rv|rR0nv4thR$2)5A45>}u`-os
z1$8Cr`e*beE80e9DG16O_Zh7`6q3eR5+O-Cau^=Pa4SNl!k#i5(l<1bI+j37^qm}m
zXI8n`w*eG{>?&1sh#Yz!81^VvFkCktgU}2^)tKxMF?5;y4?c-C0s9GKQxj83k+n&v
zT-a8^ALS~BBNwD&)K3_!j)jpV<x4YW$~!%&VC780Y2=dZBgA@b`SQqOaT9W)G@<c@
z!mEvg6;wkR<Go*FdHSBpb@$;2O`gH<fHQ)cSi=0;@7de$d)ssFp+^Rt@01Q4Rp%+)
zr%k<!Lbh+8)VFWB>A8%x{(e(;rsuhjtFrsgNc+!Z_kUB`59JA1eR*F07-;PQJ>{|1
z%(pKzWHudKu^xhYkvGV`3ggc<_e;(FOIwIxn;keJ4IKHaslR^XFW*@4ygFyTA0W#m
zMU?ZX)P3~cx%f&Tkqumx0#}y<({pyE;`+rmR;;@|ZR{ypoos~F$vW^bGTnRcrn37^
zN&8M^_q`_Vd+pxXo9I>3e)OuYP&l)Zpbl9<a@}+-n11Mb&$U$b<ED?A6w#f(dg-rU
z{mWNZ++T<FZh!Ma`(jl#yc3Eq+3;a0eE8m(i!1(1S^w*j|Mg}6)j69|Y2D(*pIH@l
z@hZTD{igsf;OGEc1&IrV+1`jXD3_#=YnhoE(kGzL5vo=!6cYh`TI;-i{x@ln>Ak`t
z!;VYAr~^qc;N}PsG$z+EMg|q})uqYECD{(+8)RA|jvJ2bCf*b?w1}=C{gP}WSBa9{
zCEiaV#yb|DI3I=TX&F<<rf`QyIaUr9KG#Sslgh;C)c6P!?Z>?eAAu>v$bQx{p50Md
zB>VQ49HbBZO^Bqn$87gQCjj5E!zcdg6?u)qcnYr;5}DweY(weT>r6aCw!`QX%!fqq
zwZrqWyU;Us1!kX-3c`>`3<7VY(K~tJT9Wyx<9;;(?<Q=VM9~G<SsC$T9@U5VBMdbm
z#WJ8K9-tgpSmi0H3c#46n`gFc*oQd`Do8}U4c2dTGyb$++y~I7fy5w|w$GY}eGDV8
z3T$eW<&D!Qw|)&c@C&78f@#;Pz86*ezpG1CsEq@8De^c(;*Wr5xAvK>UX|aXwjc(P
zUqf*IJLNNGRRKL(Ei!7g<R%y|2%G`>+y{ib?eyV{G||L~2(ab>Pp8l>`)pzLOwCL!
ztc7SGR!pC_Zl)fqF#&7t8ab2?=FK#e?1E^iW~FP=^=}5=3_?`Buy(Hj*3C4|G|hx&
znrB+l%~~JZP<I7yCvGJ^`dAdw)<TKWb?F9DIk^~GGh74_+wx@W9fyi`!bVY@!d01R
zDH}=KlVxZmcZ!^!*DxA&6zR~#&L{J$W0+|!s~4kL`(XW=(k)oO#ygd&koHV#S(y!M
zOJG#3*g-uS@w$tuOio!M?@E&`fK6pl1uu5V<|kvdtmN{LLP>}2cs?lX^O?4?9&UTG
zj&z&4e`ngUhkjJHf`b~l3v2M^Z@i8(9cBH|nz44w00{}Mc@Rsob8DW$jO|?$jo`D-
zSh@)_)`2<meqdMX0sp;`_tB1?=`8E*a~iF5Ts)u=i&^4*>dsA9<2~<$V1MDgn(0b+
zm0Rh#_)ljR%J)tAI{i0{{ElCp2W8w)WSH(hbn3+O<@h+vbkP?!zomgQd@FQKNWmyr
zG8UhjZh4W!TF%B!yc8+{OR_*zv_7O*2AKYaMopppWE3N$K;Mu8eIX|U;TS0EJ!!@W
z9U3LnMio55Wul<9*(X~GUuGcP0-TpT(<iiAWCn`1z(A3LcSOd7L}Jajsc=vEB?RA0
zNQND<Q<YJHz@(5AzYY*Bk}+p-n4DM1`35=PBqvJFd2&X`;o-=R0->A9+ta6_8AgPU
zhBC^s>|$TWDTu^C+e3CjMYI%DEI;WP`Im`dg2sQD>h6XEQ|}YhgpJ2Hdx3%^#SzsH
zMN@o}M?t|5O{vHPjfN|iW&O|)><!~<K$vgYtSkVgvOwZz+MTjDH9=J{O#@Y2#{#Vj
z`jC)fdxnq|@h5oc<iL}8VTNrA<{Ic5SK=Gwq{(4-ry25nn;b^QFI8h!G#tb?DQ!C{
zhIkWIAluoD75Z681osk>$37SbB^1`ucc|od;e=a6vRf)!gh}?vX4v<hAT+HE&lKsb
zk}XiOp^s>b^rb;@oE#^`SHc)GtlkwRl`tJZW7U;p<|UMmFPURkNAWRnxt6vV*_)%!
zOSAc)+`?60j*1EjQyw{wx=Tw56%Fk|Fhe^zCA%pVb5B|s%34)v?PKNY%I>D@=F5b^
zXln5VXuPXTsUtBJSJ)oKD=K3&$bPD@pjaXb{1iT!O<&j8htlD2=?<%WVuNk{(ynJO
zL22tpXzsp6j>bzM3Y0KP&KNlt$cd3dB3oeB;MyQeLg<aY5)~2f7FgI@0FR?=@sn)p
z%Q_g3pp{g%T^WPs3RUJN?h?CxU<2cYN*3{UV#1JtKum1`lUHJBvYmyAR_c_i3c*z`
zKfVHsPh%@O#r@@h&E<gsx)QOeWZ#JOjmGd9`pBw^l3`46=vg0yvqQ4h<wl5$G?hMf
znfV^w+it>{<sSCI)*ri%A6R8p+g&^V@;z5;#(FH%ery@8t2O7TTiBBEbk3RaVFqZp
zkmcn?Q?_fLgg>au9J?Q=ncw>Ep4)pC`(f;R$&}r6M8aR~k<77ImjkcO9r=a56HUPm
zgr}Pt>meK7J&$2Su<FL4`JF4!M%nt|-uL%rx)1%;_RQH=GQ%S)FYuYzcsBOB6ni~S
z*Z%{0*4b|o@!(sGc<?P96e-$!vu(Siwq2x2QQMho=*@Y9x$4$ju$labuW8S<Y-b*5
z#%z*mHa)I!v~LFgXU=is!h#MTbZy;~ZP_Z}&)PI+yYT{zv9|8r&fA>}&9^tqz3{k_
z^8^*UNV%HkTzzLQ6ejJ73X`Yuq0{WF%(-iG?vVP|kgw$2p{%P_a<wkI+7~_dTpR8~
z$Q)mt&H0<~ZP}_`Fs9xeyggWG1!^c{<jn|sa1O4abI~u=_syLIRfAfEjg>y7ReUuA
z?ZI~Ss`kJR2!T5_AT<pvH*L*0>M^OIj%?F5sc9QcNw6~)Y|D89m=8#thd?i{e_X`{
z8?u3ZDbSzucEC=S!fu0g3&loPE?A#y+6en|*{U|Fs%@=;Q?M@Q3+7q}pt!@-YU){S
zVJQ$^>|PFRo3oP<N$-7Fp6R~bjh!<uNS@Y(S2ON@r~uu%dh=>75WF>Za}2|-tHkU&
zV5cVQ=#(6tIcTT^>lK?~xthjzn{GGd>OyFWww&v>D_7T)t?R)C%hqj|>bB?Vy3w~>
zuqD^I{Z~N;SR?gZUHhV5s>Pz+Z|Tam?3G&fqS9=jLke^(Ov5l=%W_~3gjI7*P~8e)
z1zRgKj;8!J&W-)v@;J=ZHD_zLO0`>mv#xY*$E2`9VN->l-adw}G;UKGXH1E(>+q2B
zfr6nSSS^|uO(mjNiEfD}zi;TUNOt>>Whh)N{t|KGr{w%6a{e<pbQc%tCb7Pv#uiE?
z{x8$f5DA4A$%wGnPR?f(#PPt1{{@b0VrH2@!<hmxRMF%3zbO$f<SNTGe?gJtOyaVi
z?1RHB*T9ab)711J(2+Oc7lfk9`n-jFRx%b-LB7Tzy=lWLEeeW2R%mEgnAb|)3g)$O
z8+!A0=5-YGHXb=y@VxP&&a|^!TZ6)+u0g-~R}2PI)hhEX2&=YU9+?opr(Rn+VMadJ
z*_~@?%Wde(4Q$WVBe)^AeOIn`bFMa&t8dP2+CsstJ05l?^rqHT{iX=?TUGyHLD+X}
zAp3Lq3Kqmt`|@_?g$hb--pRa`5QfgXnAZ&*mHD=t$MYT*^m28L3&z_U@;(-<;u=DE
zKl27imyJFwxJ9b!%m-N<MzCS=;CoH^8Wx1QVQs#SdF#1Qd%l5r8!^lu*1uQ3WR#k>
z<eOMr2s(fHX69`nC7D*{ZKEExGj9i2j_>x|hM69zwm09&;<{E<6lQT7(9XN*+v!DK
zYTBG<Q<U#1=)26D=7o3Tx8sY4K0NXMiA>|5RJ}v0*zxOLD#<oK+d#luzfYU#3>?tx
z$q%&cpW|mpiPI~A@XN9bACx5Q3-r2VU-bM4+qd+Y$;oTV*O1ImnFb1|*m`1&0m80i
zPck|RW!rHe0Leb~5i`+(cu}Urwx<{~W%mmro#N~8u*)Y}sepmdIy)<+m<tw(mL+#T
zOFeyxiB9E>r8iOD`b@<N9buowqW*|Pe3CajQ(0!kO!+tzkrtVJjPix3=BJbgDlJ4s
zkvNG=2uALFO6GDs50T`!<$-6+-FF_moq__gNVGALNTKq+XDzO%EGPRCv8zDs@R_g?
zW~5Nj=_aWdx%XMC0wo!r86^gfJou%`^fA-YO7R*RLM=IURME~aSCL|-JEBxYGT4gA
zTw-2|WUWICk<&~L(c<I=t?HSoJL#4y>gR2gyPcd4ayqG8B`Y@>kEY1_byBe~>SmF2
zi;99yNS~r1Y*cP!(M)QLGQ%vT(m!=86LCbYW0_dL5wE_ag@JTaj(WNeQSrW_VeUSa
zY7d(R#Yp0-DYSfCCka3?sQ1UHLV;H)^1VpTFgcgWVeGk*dLjd4MmB<fM#<CUd_oR`
zTC4REW$SLm+T338e@1io<C4DvH*e7CbicCVV<JE2YW|iB{gQM1oICJKuKVX)EB=11
zH|X?~d{*~sy-BBk#KHNsgVUYX{hT|(Qh#kNWI2H>MxFj42j|x|D;y5aLvnuYHKQ7i
zoJvmD^K&lzbME-hxy^se^=7!<UsP1xcxAbwan}6M+M%mj@Y6Y-=it5TV?Uq3k{Cjn
z;YfCPR2m+AM4^Xgbd9>I`Ip{(?e=SV4&J4+?B`?uU)29u{UeHbcvx4j^Uj;zb=-F3
zIe3>0>?iXQ3>G7piH>HY2`QR*M4^X!H|V@K*k^6?9K4GM*v}`Xzjpkk;}ON=U(;3V
z+&QR@8}R$U?tXjl`rzC9uJ6m65C)8Ny7LzDSz)yBQ3ZUDx4mM}?aKtik2&%@e%<`4
dUbiFD(EFGp&*QXlzeU%YsqOg{M;-<){(t7ZYYhMZ

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/gptq_marlin_24.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/gptq_marlin_24.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d26dad767f2f85e97c82934276b29b7d058f37ea
GIT binary patch
literal 12232
zcmb6<TWlNIbu%P~;$!&M`{j}Kr1e^P6<h1b^82xCt^Cp^4*QtUoRLh4q_i_5$Kq01
zXX~O8nyptz1KG`{meB&Mzya#?C+=6bK!GmMAC9en%)miaWDC@PbmU-zezZO34u=n!
za-0Eq=iGD8J@?$#x#yfa|L$@*D0pI)zl<IUQq-?8V?0bA*tXFWwMGe)K*y*!9iro=
zkcq~;DP|6t;cbpt;!KDkI7`eLuL?mGz%wy>+!1mR*cx-j*$^9dg<K?G6?4ZuAy3>J
z@{+tQ=8OA7{&*l1h*yWI<29igg15(N<8`4rnle$ML#%%QvfvYH5FDXK!5M0Tf3v`b
zTEx1UQN64*1?*U9UWcbmAx>}!PI$MOs56w{zC{Th(euEpmxuNetQW98(N(~<FPeh>
zXGjt>Y35^zMa_18UWv{n!m)`Ut=TVxrEpwSL<urZKC&Pyb8&udUdC)R5moru-1Ib*
znl#6FG$Dqi<6&9UygK}@s9c*95Ci4@iwog|5>1AY`-!>4RCHPkl;U)1IcU**SmpZo
z_`8MHwZ;?I!ij_!BNZ-3!ZEQ}R)0pCTbQp@61WhK%!)!8E0CO(fk9Z}mBo2ce&&VF
zKf8&^QB3|1o(KSirz#I^AApJa3s^QH6`}<yWD;mtDkjk)nBi{`m?`TrHAM^7TWp9C
zETVPFBvjq9gsMav<m`~M-LgE$GYdHg)+w?xjfIv9Km$NPZ!e*D6M73^9VJ*#o{KeK
z!&y@1g)&z3iB{1+Wx{fhk(#myt`eF6sc#pUB=iz^yGzQdVfnB#`wBu8fSJAmSO5gC
zXoX(Z2|gl;Rq#X4>zAn;bg1Dn6%1(pGZ!W=z8jWe(Zv2?efpD)`kRZy!m`Xw%}Ja=
zFrYcVBSxpMDg4!_B5RImoMB#$CPmFEiOPbMn26*THW2~m2=m)dVUB)CuTe@tvK32;
z`WQC8G4eE}Sd79Ms{s|?C8f3^)_?^1Q`3yo$Q9oy+StZR=9DQ#@deH)^Y?5iv*I>r
zuhUYk;xlrBDP{f<sGDLr<SajC3~nFMDQbo_sEcpKZ@|EhE8)jfrU$OpVx5=TFoVQI
zZ6a5p3V2i-{EP3I+9GT~NfSju-GYRI4RS7{RB1LKz<LZ=;S30{g^^G?O0WR~7VJP%
zkY$kyIwpdqXE=e+aCVYC`ikNA4|BqtD07K9g_9TN=jSAadmj}J+2q_|E?G0colnFT
zxsr8-Xb%^bM5Br*47`$KaT%6!EMjFqKjT0y3A+`gK+a%|#(+Sgq}h0$XiQ#0jiXg9
zL=(#J)e+5(z{u61{Ue%rT2!QZEbYMU!oPd$()imG&^i9{dlxR8zchL3B!BU}V-u77
z<hL%Ix~w_A5sod0rzB}kdPR*hm(IU;fxrBA2x}AvMYH36(l?lM9uy@%6^<yt$*x3W
zqQ2Rhc8KvVNHcl%(y3!7`3cPxk0$s8uUwPFupn!%pgpJ4&hAco><WM3*rj9R<EO?o
zHXgpg&%?nJi-|GK24ffJV`3u6Xck$FO-Xe)z&J`$7Y>!3=ZOO0c^S`l4xXF;^CyE!
ze132~I^VB^B^cHI8w&^D8ks#P4#uKa2j>^zU`h;LkHzAH@i{?^@!}0JvH+bQjD;6P
zNggD_ls~Knr{|UT`8d&CFc$;!i_#uwC`meOXe?co4H$EblF48eP`|rLy>L)=_ezy&
ztKYOWe(7n-c-mD@`%?ruRZr)0#$4<8%1SxiEA7j(PaKW8D#{+nIjE-2Wy|+HIV;81
zrkyS8jhk<NQ*Ha^Q-5>Tf9TPnM}0YpK0|js?RqEOc@E%lx-Dlm`P#P4mVi4)SzK=5
z!Fq2WSvj(~_q6Ifov%6k&qx00Ncxao<(1Xhq6p2c>(!s_xxXjVc1VR^)1hU{rmY@i
zYitG~-7l<E>syFwEP-rP%Lw8cfUKcq+48Y#8%BkS<n0}Vafj%NdjbHk$mp5UQlx+f
z)DfteoeyBK_KxR4o)Qin(?qhbe0q9{tN-u^OMP5%=R!6ZG;3BkgyLa^EG)9bg0wUQ
zEyySpC%p+N?qf-umw0}c1)vvx18ePt<R+E%9L{)7s-BZsn2qx*=kHA3<L~m@W|P;E
zqfB;(Gz?^AqXKz-RIr0<)FKUi(cI<B@F&zyXw4jn$z`&^Qs)z3u~n4KDEuSfO7_Z4
zYRj|d<>s-o<TULd%@@zoO4Be+Uj|7)D{BnwpU5@MaxDy-^y}D0$*9$1<9W?23Or~U
zULf{YviD`nU|=_59=YOCdXxInTeId^bu6dSwx*Z603<Js;Ij*Wln!CCQ#wC3i0Uj7
zo)2G*#-hq%vU3-?%E{1Fl+paSNx?Gr`d=2MFq(K^;S$FY!^K&hS27|WA?EPFj69d9
zEMGOsr&IA$pq+7w<z)9R67D3thBBhj0`u+dN_)D~wr(P)X4Od}rQ6E_gk<)=4Zs?1
zKJ3AcCq-jFjLo)W+Lg*wLS;4qH?WS(Mm-n@^MqzW8!x}xG#B=CN&+uqR$K&UKtc~l
zI*Um`@5?A6>Un)bItjVnlVod!F)1mJK~4D}Brp`U4Vl_*wYGc1`mpw)?Mdxh%g$^~
zeWs>Mt?637{*c}H?vt9aWydc){!hNX?s($qP1}0)>BZqO9z1i%aQ!a;FkBTim{2ee
z1=DN~MWK->Pzzul%Pb8;BA5{iIq*0kXCX9}lv#Q&Wsxom%uH#E`IceG4S&{<1>T04
z`|46-0+tx1V5rX6OV}7~6bw<2>y_<YrocF}PH4W!H8C<fKL<7quPal{UN|~63+gcG
zE#RI!FnLYn$l=RHWlk2QXgCJ;h`>b?+y_hO4S*sZ;NFv?iD^X4iW2yL13^YYttuVB
z<S-<fRd+!(OEfVx7qpTEqp{bfcwN~?rlvK=0`S-KS|BPH&vHXVL|%vX1-^vR9G9nM
z93EV1#$s!pyDmynR1kG`c@u#L9~oTT<Y0x>_o@mKaF_oa63`wtYEN&bbwF($NDm%=
z(t6_a57gF6pxi*Mxa#h7q}kTT?3ML>53TCn0{}hRmp*$%J#-~!rtHnnZ4|plZ9kCp
zzmxG_RQ(sT-oP5W%KpH;ZvKqD&;Feoj+=mc`2-x#uE6bcE9dT*H`(TFpmuF^b@T^g
zX|`?46VP=6LrfseIxmS+(HmNQX_rd<`Z5Qspfpgug8Nla87W#RC>LYZNlvA(a#NJy
z>fj2JjzD!dhaFLvc3BB0BBEpil!QlC&`i!^>05{hK_cU>D9nr(HHSXu`PpbM75#*+
zV|Nna;LGTyfSrbx)+gepp-pGc(?IXW$tQuKG&_{d4@|HTkABp=Jg+%;9@g#x*vY)c
z^4M%FUsA>M!dwK<X4nG6P}Iz_B1x!pG$*lCb@3$B$odkt#G*iQ6e$>TDoV$(>=Y(v
z5Ni>l5k<o8O5>PZL8K{>(5&wgDI^?!=}!^s%A3OxF&5)_uwV8AmYl>#iMo`~iz7)p
z7IeZ){q7d^OG`)2GQhNK)zs%0c*CLts0tw)<#7Mjj?lMhGvm0^zD>akY)h*zXQCM{
z-O%?N3f|jh0|S-yvgVEI4e=jle=@5E4<Su+fu>ofvCxcv{Y@<LZ!=g45ryhK>ysPp
z_rHb3J%yS*`C>EEw_d#-*?4pP+WpoXh}4%JKKmPd=Scy|3+ZL5x9rV#6xH7T8wN6Y
z0)TQI3{#!0X<WOqdS#7Y<#T4t4-Ap_mfe^3_o?>&uNc6R%|XU30^?SA49|Ca6bAC;
z*bu~2%n%77@t~PP44_b(nn7Q1$0IPJU9duE&`zQ@Rgkm6-!57!dEiqlMub8vMx0)|
z1*gF3k)V*v4gtYGsID8@Dfsn8(IHw?8P8&DNpMy!ow5nuTTIBa$OipnlP4p(j^Xr8
zQXUm@I8YHElcwcE1j1Zi%ah%Gh{Hq0u=(|(yoTm<`(S|7)7a8lW!4WWE8J(>7+}HU
z9O4g!P8te|mg0a5nsj}Hu#ENcXN2w@wv{TMQoUL55&s(NVbld&gyx=Q%P(vV`XWOG
zr`1Oj^9x`yqmK?QFgnCa6l14a?c9QbMFk8Yf+$(BhUU!EkdPUR&U9SX4ekgUtHy&z
zKB}SZ5x}ld-(^x&0*$L~$(FLd+U}nPg(kU+iX0+Y)*n$nHW}*tBU&l61QuWZKv=S;
zAfhvaI(^48Q;0tm3zBg9f@y>;b(OSaN!cNSg^{k;<b%<#vY6U#G8ntLC<66L88A{-
zNrno1UXlTA=1O%dXo+29u%%4Eb+^7$;Pa9Ul_jX8lN@9gj$>@IqSO`Yyi#iC>+^X{
zsS6R&;^ghpMs<<GfCM%PbAi#!B?qifM~Unu#){xF)-kN^I-_pU*qOno)Q)G@5vw2t
zwhxj(y6Y~fR11u$U3yw!9g;TOC40NV{liZ^573~1M=%Rs!Tb8$ccH8xb;|Zr--En{
zSaQDpXbS$~C>dh~Zx{oiv{w~QsGYrnp0Q<8u)9cKVQmYJ*&fhJCc&Gi-*tv7)I-^q
zT)$_<xKeh(ow63?P1%INr=}%$$|ZP7yKV&|kmL~>g=)bYrBm*|r~isx@+90!TS=K0
zX0YZ{lTo_sx~imoaUE9P?R$+Dif^2OC9l$HU`qOk!O$H~%3C&DFqS(X=sljp@W31e
z4A)`F2M%_xjxSAx+LY6v0avv$O<jupy)^YH&+nyaNcoC1;Py5_EIfa$5St4NqLkc+
zc8GrJa>StL;&64!T@|@0piqVm^l?`g6mA-BD<l|YD%t)`a^1z19NXomKHMxMJJD0d
z8xA3Q9UP>qF_F8v$dyImflQ+ZlI;~KOM?8!Zg0NLqS^3=G+7Ad11kylcXDsVMvF04
zAbdtTyZ=-;a*e~d{(?fTgY`hHK1Px#gLlo%B{&7fPzHC4o1S0LERh8v3_(V#AYPAx
zS2ztVK0~7-SOwluSP5%(y&pm}t~v6<NMP(WL>v)z<>CBAhc_RXDBO2Q3&2o9)d9BM
z2M80yl8(Tal!8RF9EW=V&3YW&{;)>Nn*BR-(yR>JMH0UY)=Ec_t|~v<QU~VD@<N;#
zjuI|l3D>;Tj|sWUcmpB$V1bhGqD*7N_`I^HG2leLxu3j-4oG;hCgHg*4Pt`YU1O4>
zG$%{wlxTiQoCZ%)w-#aK@ZR2E;xx};t$9q|#{{Dfk_?IF7jGz1n9ncbu%bvZ>AKdi
z>w?t$iG?_iLnrIY2BuT1dS7RuS;)w+`jn6*AZxxnd%S%YdAOF5H7kK-&5u_;g)t=d
ztaJ+mlkreTE5H2F<9_Z4Ts$daUg{m;&@zj=oNx^p|2HTX2)a~LuKH~KzKtVl{nwXW
zS!dm+U%Pks?%~G}0l<5f(MNy$Xd>-BN1`VXtarKLGN-dA-81&2<4D@pmUVWlE1B*Q
zwR<GfeOiT|^Yj;OkDcd8?XP76eQAF`+|3NMXWP3o?ZayOaHjpZ+I~E}_r&KzImYBW
zO_$%-bQbxYRJ%{A&XZrzkDYJt<kyyM>&&$6SKIby+Q!tju{3w&(fi2ncqu<O#dfR<
znXZFs*TGEJDHVRsQ(yQVJKrJvhO>cQ@NhxC{@0U_rCh!Y+oG~98Ma4ddp3?gW(Ts~
zo{iy5@2J{4n&~~G!q0o=i=oHf@h@=%OWNSFTt|i*Qn{fFH>z@@={<)ZT|}9Wmdo6_
zH`6kpwhUxi4yr8&;nKutvRh@lH+(9)@44C3>PXufAr!!Nrn}!#oo_w5_}DoHy-K%S
zeB!^9W-mcBC(!lOSG(4<+JqvW%=8^r`wnON&ZzK15moPa)*H<FYcu|K)!&}+_pAQ?
z=VsbBuobAw1Ul3}M<(!w8hGP5$T$RT)we#aZCaaMoqge|^1E|hs;)k({~B8}jlF7P
zZ>I5}+ITSA(q{BvL~R+#Hg>;g@dO;pRWCXyZ+nSM$5e0sL!av1|1hk24}vfoh{@Kq
z812{@XooFnrzzXgiu@W}UdOT}2mGot9!~Xe8Bee3>D`bXdxoByDVKZ87u=Z4^pC0i
zW10T9RrvYd#*4+87j6pT9p_fhWxdVV{koQH?cNu5rUn~o?S1aCwZPCe<opy{e`n~i
zv-xSwpjvb3(NMbPQu^pc09Q_bSp$pORO`+*HE+-`836T<k@xax;Nt4qsLlirLC_}?
zJgdTwJzFx1`)~poQ!9ki8(-L{8e@{uErXA&|0@1l^k1Tzz6;n%#$4lAwnGrd?#|da
z)yA#YZq#kshO#zSK3~5vylH!*m=CN^ZQA;a`KFENFKi>aSB-A%M47LTHZJk?he_<F
zXt99(fCtr%r_yz!K>yTa*a9h<&wII4Spc-sS0=B)D{uYm;00dF&gV6FVNc0Z*2fAq
z-)ry!J5PVW@-a`GhVQ9dlKB2Y6b^2FS_%sgf=3eRdzg?z^v@9b2ou!lM%V<S9Hn6s
ztz}-Ci-@vpD0DtNg-02hRB#87Jg{p(<(2i|J3C6o$S7PH*0kPPxR<<}y!YYV4<Ct}
zH7A#u?>nCQo9>*tcjoSyd*gS<A2FN$F~C+mt>e~fK5M?;tZUiNJ2&gj0-k-^*uH-1
zv-9`QXF5jIj*%~z&Blpk=3|c@JEw2pZB|&06b2j`#sCXhW?zzJ28#<2JD(*><wdu|
z0KSx4zT%P<@P)gZBDbZgl&R89jz9yx!i4ML9%BhZ*vD3pihMu@!JEpZW)d=Tq^uR|
z>ZMKvtrzlC3R9+RDNBk;SyLENso*%xRC4d_DQC*@Ab)SQ#HQFvJ>R9@a1q-`L5)gd
zLL{D|lOV0(@GrUGLoQ#+HB*!CM9Hfd-U8Rd1(%wZ31Sfw(_TU@L8rbQ$R;4$0e6CC
zxgHh21K$T-3(t$189uAj0_B(d{InR)+l=T$X_l}c@IiNpNp}~}(%)cm8<S5k`2i++
z12_2n0$5oXM2zR(v-x*Iv*(RFB+)@~w_eHCV#4$DvBmP+)iM){l(*tu+k)1?vSO(~
z{o20Oealr@PxbB8N^04Xh10lhwQkv(t!`L5zj}VzzUA@WzP@t(ldE^y?seboUf+AS
z_lc)#*|O!US!-NvymM@|1*pq2b!*M5&3D49dzP(VR@Y^!d)4Y*I9{@BfTaE`TT^n{
zpqY|o0g1oufP<VU^_0J9t#!3^o&K!qe$|F~!@tfxwEx`mGtcL=`o{6};7OG``NVf>
z*}CQQq@7JrmE4(GHrbXfPtCGRKT*hKl~=;}u=H(A!kApegj}+qk1id>B#H@cdt#?c
zQwX64BmEGQJCJDBNiiYMNz!MCIfThDCiuw-35=8EW5~&mA-P38H(3~4j-{Dky7S;R
zT#*EG*6-5HTU#*NH&$-k{&3~P9D@ijT-v*GRRpwAZJq0v@7r^Bl6BxEkCT8bRojqr
z5ztN5HKUcY?IGEt7KS-bKm6LyM}9W)^CLeylA|#Hxw1{(xmv0-_}spisV!?5@@Sm-
zZjY{v=BhAfqd>6OO6<<0>Tb(n1vuCpp4-hU%`cpg)4NOV`8qT!d>R5eU%&A}?MH@D
z^OG-31`>$@;#;GCL(Ur5Nbo6_gz8ZGTSzn~<_GkPVF`mwS{uQXf9y4&f9y37BVR7-
z7mcV)wC-0BlbeJ5rGkXYgWTh3EtRSir9@Y)#C;<!o|jZX4=DdFGWjr2UrrZMi~yc^
zB_9D!zCC_Q+J~I_Fd4vv!=w$9c1$q*qAxxi$sOxRvyJMPmSfUCLMd!kN=B`bGt)Hv
zm5rj?eoe8zqI&*|YX240{vXskUzyCb=_?yUn_#kO({EXd-uIvO>QAmbvA5o|Zq?SO
zsX(^1Elo8UDF^UY&v2$^RP7mk6w8cFs$-Ms?)TDEN496*#)<VsfL>UqX}UVy(EEZy
W;Kig_Hqo`|J%hgmgMijo!v6zeIj~#+

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/hqq_marlin.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/hqq_marlin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..def2b4be934f9be7492c5c99a306b40c355dbbdc
GIT binary patch
literal 16942
zcmeG@Yit`wdb@ls$)!j=C{a&SwqCR?DSjoE&vxQhoH({Feq9pQ20?RIG9{9tXDQoK
zsK%Ew8tN{o<7=;$+q9N@*G7iZ#s&(+D2g^Hu4wMAXvN3}G7A-OaaW-J$D9=S+8=Gd
zZ}ve-S~<R6alIcMNV7BFJoe+vH{WZ%{gK=4WFW;Y--><zDTet8R<vYO3k!s0m}`u{
z2yC25upu^K3Yl1}o8sn>8J_02C1DNOD9jSKC%6zt%htFf;S4zwu8=Fihj<FJ#odXD
zPz5d9<DP^!<V{qDDrudIS0$=L)rp!=O~M!QC2B*piMmi7ZF9u^iTY4IEj!~4iN;VP
zExY1PiRMsqq9xRlSQA=9VSGH0XbrWpjENCBaqVruA5&<Zi8;s!?#ql&A$o6{RcIT9
zdI0Jbn{{ZrP$`;+4l8}ibD?S#c(q^}un9GnEul_2qYq}R71!u9c2Q^@K>cEi4h>Rh
zJwO{omkwP&W(qbw#McH*vUyK(Oy<6tO2<Z$k$8WQm0jWJsFWT_ghx^mR%6LnIvgJv
z927~=EISX!l46AHjYy*GRmw-i^w|-CLh4Q?&y7Zs>Dag^lsCdW)kl?v2);=fBEkEs
z%E9|ak^`|p9VV7$4q9dZ!Iw`Q4IkNa?C^{I@OU-+@}6UR4j(>ncv%ayo_OKdfj#@f
z{c>F*LgKMxI1w2Z!(t+p9t#hKW5PwbT5U*)Br%#6!)Ia<N%k!RO3_GM#5M37q0_uF
zLWZSOBq{>PF_=o93qxfX7Nrt@{Q1L&kGvcqk%X8Q3E)IVMpN|19mi=(E!8i>AW>M-
z9VX=QZ4nYqkEKK@T22%WwX(1qXzeXHEg}<Q1tw$?*pS)52sMIPv<MdXw~AKLRuA0;
z)3_aS8&D0GWd>Nme%T$e3pUX<U=lc>B2IKb%?UNfWy@{#1tAxOT19@Sp&S9FjPpW&
zXIcLW+TQ|DR~gi!&O$MPHomOQ3vF((QnZOx115^8O<)ErLPc4hYQZDg0J|E1djVG;
zoECm)<4TN%dRD^Jv3{Y7;%gJCVTSrFbCC@-9A|<)+4I8Dqsn$F)HdFzJOj~qM3Mpn
zBP0Ml0!o*D*>ypT4W3N{futqbIf$DYmVmrrzlLL}aAHIl1saiUL`;v8WYkiI5%K{1
zU-(PNzQbN)(t6{hCBwX9Wf*PcStbL!Io!oClKl|uo(6xD&9H)5hwD3q@C*|+X%l8l
zP*Zsh?7KC?jzb&3bbQj37i0e+UK>?<LQkL<C1uP|<Fwis6SVa|d=9GPn@^k-10%`!
zSU?(0rAA0v6zEdXMG4@d1Y%MkI!cI`Ohd1yxAr{5_m6*Nm4Pa&pd2B93%p_qm>~c&
z1Rb&!-U-Kw3x_E`3KOJI(g>OC!c!O?h(yyPgw!F#IvPu+x5`fX0(zoI6Ha55Es_`?
zD2=6H*%1!Y%@2nq*b^oI>C%6^)|*bGdQ-7fcRE4_#dP<@(P#R$4?iRJ#$#uCQ)9sM
zlD+5S@kB4sfEW*p7sco(V9*<njEO|*E&p-7XV0Aj9)zr@CpAXa!Ar*d%jmF2`(;Sz
z(g<Wfzr-x^jH6=Gp5y%YxrTzLe(Kn#o;9=F$=TMEbC7%16g&-65r7pLlfzlyUtBQ5
z6W~RTY3j^c?sNV^LtEDJwx`h8Jl&XU+(=>b4ITN0jkyM>K}%Ct*79SnegR&|L{)Ky
zWd;|667WtafRF}~8$$T9^ant&(4rG#sTo?#e`tkcXXzhrT=sjrN}IE5+`TbSI$FDA
zHW)OK4w#2-aF8XPP?iw200}~lWI)6e35SiAQEAzYL$LED=0QbprtQPtTfMWv9Yu!y
zN<*Qc<wo!I-r4%~Gp$84>+UX^%?>A7551Qx0MwNQKr+6@jIlvezifuhyv5vNWpgwx
zEkO#XB%B2PzY-~}Wk1YAX$+9^)U13Vt|49Vz4V18hGDe2Wvz(cvNUKq4oLQcbg}|f
zM$gKYvyu3K%$*sCk3`a&o+g`MKsow;L{dN5VK`1<feNGXu4P--vs%v=a7rI!mzbY=
zeb<~<o$npE(SN;v*0W)j+pzNIBFgmVmaXr@mjOsXUu0HbScUIRfH;pvQjs&Ucq~0O
zzSao0rF~G((igpQB^F3m6boc}NalkqkgTbHyhc64VmL|_lb#`IBx#IV4Wg#>3J=8M
zB9ehL-e!c{@?Q9RB^P8s6W)$lPv<PxNs*LoO4n%l$<ohch9V2%fmH-P<`Z}h%TF-C
zFoAF}53;w_c_x6tuhPp>*2@BOTj{J;6NnNJ3zm#kQzBu3Z2dB?oM8n`xmp#K3NVGL
zkR)4^$k^#QR(LQgyK$`s2xyqY;+Pb)k<EZ2c@{F+aRGHI9Jq`}OK314V-Bbsz(pre
z-n@dh^prK8fPvC+$Y6PE8m4yVYSzzgcrI77C+jHG*5_+GbG4l_jynhM^v%`o%DM_Z
zf8N)T^L0#*-Pw7kXU?}L>nzkYPbG78-C6!KPu06$nRd<`p7Zq0a((JHrHD8XySQYV
zkf13|y$OZ4OxKtUYqaD7tJx3VT!n=S%qV-2B`qwI#;vC*YXXhVbeS_|y8CslLYo^l
z%iJ%sJxh2SVz&kU7m&|>hkc1*f%Y@ZX*dKEpj}Lw&NIKqUSnD2ZKs79WB$y1fhF6Z
zE2V$nDyE*NWS64;P^Kq4qa%sbND^efB;n*BL=|T3*f}UB#fvGjdwk3C0}+$LR9=Qr
zn@Wj7&(8P==)uzN9(_;*=8{m*|NP%jB!Z;d=KQSh(9DMHOH(`U^X<95L;o(}dViy$
zl0|kWrGPUilHD9hjs?wBe2|0Cg&e`j6zrZ;u=6fQVH}m3at*O(d5=>#$pOd!od>?g
zYp1TBnqD{O>&QBbHpW|%_XKjDz>H<qv+-w)$?N=!>IKBP(6=k!cj(i;Lm;EKIRUiU
zNu{<zL{_>C1a-40;-@8@kWv5v6;eOl88)r+1?^;$4j>7gOtdNR{A;8@oM~Or)0E8P
zOj<KBfB>|f$6?dyhJ)7Rj7hPil#V2$BEjM0C}udQOr2JYHEp$zVGmq#b+y%F>&3IL
zFbJ@dz-(N(+RJ;0I0;fJs6#e}uYFg1FLdA4Rq#~jJ#9Hp+w|A&dp6G3^~}{hHS2w9
zzIyHS*177gSsr`PwN-vaBPtEZmcwD$8CDf{DDz>&C$6^G!(m}03Scv6kg_EnlhU$T
zN)xKHk#4|3c2QkX!JeR2O%OTqG`3l(#3X$P*ohfxA+kk?MbiX#l{`=DXGTWibPZ)w
zGAY}RP$PoiR+Fz`2e+z_M#XqM9KOYpE`U;5tq?6iwoEfraHJj}il1L*KC`qJd1igj
z=MJwm_`v5cTHy&42_-w0IHs;~YRlEwbX%^rqlle~PR3dBg$qk<7OQh=-2wv-n8a3D
zG_h9SY&}pgJQvIw1g2BkHqO+{h#wB$8qNiGV4sb8pN)E-s_8A*RHZjn=}leJCuY{&
zd<~ns^yV(L*=pS}T{9h>*)o0hW=oNQ>g?77Kf|Zm6-vblyVW@@6&ZNUq!;i}tg>5c
z3ciMGuU>uiTKH<XXvTWaCi;BfsGP0p$T>P6Spllh1+HQg{`I6CsD(Iy%I$3M%Aj(v
zEP-un0_)N$u&cJ4q22bFb_=xI$E-n{TnSv~0D34&o&q;$YJw<)6}h@Zz91&3Gb|v{
zfM%*3Rmz)hsr>FNw8*yM3t+uy3|T#d^*C=hA%a;WfYK5lO(fNKjBi+hMbE08&*A%#
z+gxG_98Z^Y1&&Dc1~`Ix-w7=Qag=b?HL>oeZzCfYs2UKDgJGro`tkLvU}n%46=RaX
zjB51St^$CjRo0E5Z6hJV0Sy}u#pc}bc@2ryRgfrkxd7u!@9qzB<Q0UxirH(JQ9fZi
zAtoiTR*}vK+Ij>RQ&BAuXDXV=AeJyg-Y=n+beX|(>Ao}iQRZ%D0S=G5Xv4brQT%Sa
zRG&Hd;i+4v7O`ESbeu%CQq794IcWyKlFh>3O*hLAg>pGlQc>PS^Jl!he<Xm*B9cIg
zjGT`Ff$B~Z`T}%+wSq&-`L#%VR6Ib)2!ZXEVA_@2&5PI!-bI{`oQFQI!@pDk*(GM)
zSu^X~Ip^FpYuTmjB!KmV3L&P2S;&@p#f(p*U^0e-mkCd)6+CD*@SvgR$u?k9y=FXk
z&A3&@nP?x!Wj@4xNgpTlaePT17xZybKa~sgHD0a)Qd3C3#1PD{gwL(qIy{1O>;4l8
zsKX&4FHgqarIHFUgp6ca0&{{L($=}GO)w+poG_>Htuz^NN5PUYj{|P2%t1|yK@)hc
z*deDjPwDxAO*1tn&=9eYgNzf{anLz376FWrMwnON5DI3ASzw@Ufpv5AlK@OI-hMKv
zo3a6_Z|DxDt^~NZ182m*)*wOF@Q`MxSKTs^Fg#?NAfAs!#fL>~^*{zT3UxOrG9H~v
z+d<7d8%c?>m3o!QZ(=X2!qmo~tW0E)(qc+BgCj|IEU7HGVl+v;R$IY33Xg6dN5-;j
zw|ka$`3B4?VFuh5Ri8CE&zk8?pL*J6xg)b3N9G{+w4v4Qy6VbW3!bVgW0PZ3m6MsQ
zWxk^N%JAgy)TXKQ_3hKg-+%4qYcuC=o|<jge6Rfz^FKL%;JjaPJZlDXXzCEC1~Z#-
zzKvOP_CWRo*gii0)Q+659qRi5;)IE_il;<&<1YXSqIlk9r&<+a3A$QKe4$9Al<)o!
z3e*>h3r^Fd6?~yUec;hFfiKt`gPr^y``aw|M9~web8nz)16l;Afn-Mdgcbw3q7=!5
z^_f<k6?xFIq|93G8&y<G2U!a}$vVs^oxBMp*%3>oM!|;y%kdW0;UWd=3fVYEM$>Am
z%&TSE0;JZ7^WYGY#f;84jHNEfN`~+yMM&UVsR6v4d^CUJJ2(o}O0ZVuIXCqtPBqUs
z@9fWU`|dseDYviC*rB)z8`s>}aec?M@P6`UGS|56o+ZEiP!9eY4=L?Ufg6XeADT|T
z|HjQXa!t=rx1l0nP>?T?Cw2fRf)+L!HyjpP-*RYEQ${y{(dZm9Yw*&OdL0dzlV<Y_
z;hUBv0sI|W`vhBN-Jl24fGFV2Xm~A43Y%M{jb2{dR`G&&Ae*3R5{UMl0Fv_n3#4pP
zNO_F8W$AzTUyw)!x>3dxbdcYIvTP?J-FosZtU1yol9W;-l1Qqtr%q4`k)g(L%Tm&w
zNQp8K8BkqRy1<U(8x7bB)oF~Bzu$oo(i@Ngp%na0dH;r-f5Xg?IscBVyWnrn`@3`g
z?wK=p+VY$C<~Hx0^Y6?1kL3JEK8eg8JvQe*o^{XrTMK-Bf%oS5rX1e{<vhP8$FG@Y
zbNt$+wFQT@-kEjl4({MgcaGb8@98;i?@Fx=w-`xd0j`FBDPn@{Hy|ZYaa1nzYeGyq
z@0kRz&^xV2OqyBFqON}h)<UHoauv!1&p7!uW=1rF3TC-gpfD0#P@P(^3swG?a}i1{
z20Hd1!2oF-vd0pOknedm*YoVhRdfFRd4GS--~Y+E*<;7&{3m`XV(FS`{xSEAF`fKB
z(<x&*D=7te%<7avtq{rwmNFBBQ&+nod6cZ5TSyiES1e@Bv^&Rbzf(KMZKtFW<c(}E
zLU09;@si)b4CUu?J4`^B2wAz$<st$x`#Lt@fdQXO(ZX4)r`zA(cynWsf#RKQAML!m
za{-IR8jE%NbhHRAmF;)HQ2~!ns=vTTk#|`4v5FD*1%u^ctphqyD-HqMvEHXxagU(h
z_c>;Yq(uy(@UJI4$Cwr_LG~nu(12pNn84t8jO&6LH)iPb821J3V}U+)YPfKqfLmoB
z$efT!MwW&>P}^^bhM=p2xY|@hSj9ySOj}n1p{tq%MFOiWAc1i{ny3T@dA>pdoBPST
z(1S|gphe-FsH&ADD>0ybDoA?`f7I%}k$W($)C(D9k7cs+qxE;!-#dD@d(QtHus}r}
zd#vokgNR$aa0ar~muZznQZI)z`3B2`^U*|Qi+j0jftv!VoY0k8xkyO%<U5e5juKVb
zpyH$FF>7QXLH-J7Sr6HgB@#Xyx;1pK@>b#=s1&6oT8-oX%87{lK483ZT^`Fg+aI$q
zCEocluE&#-%nDxTSe@4)0hc+M44K;$_QC8U#9{|z$lOe(GCqanB4;Y`DJWuH=TlJp
zoPkW?Q#jcYKBXx&3(tWPSMFSeFh7%sK}5P6W=QJ`b7*PEtCdPmaM#c<CeeYWnP7(+
z1~xfF+fZ$(msS#-f@`1x!;wNfI(we@EjZ2sp?#K+8^WzBf1$Az@SY|OgVGbjlnmi6
z8o1>&ZXMttAj%r@jJbkU<Rr{C-mFB~1(fRu-4Ul;U-ghZ&}RwLMRrNKNfi|ERuU|1
zC@D$1@L}mV%}0xKl>2C@#4HPOQ0{&7@Rd)nJ8)kHuIf0ZIap>S9s{WCSIuCE^$9~n
z5Bho2F^mb6YgIc~htNPPh`K6`kX@RsOhd4!zfn@c6sTXUKU!`L;sq5|2b1uV%YB*|
zv!+hN&j)H$5)GnK<q5DwyP+|_ra7&@&Qv)ZX=GO#S(R#FmX2q-QkyT0x;srnHCn0k
zG&WsUd9MNWEAKUuq-mrDnuh#Zsr3B7q&eaQvjDErCx7EAJ<*_DmNMK2*4yfeOgPf$
zoTlkZS47_}Z3OHaV|1=FwzA)Wzk&k?qbdp~oWJrny1=Wjri8Or66_g=MpfYcGVa4=
zoL}0<k#Uv!2+j#U!|!KKZw9BW+j!QDJKd^b@%U8-&x(3tU=8)Rl-~CCRty&i^8K<~
zF&0$sK16XLr%{xP43vU)xEPH<aNRc%{5ED;%-+HbiG=(KWFTt)6w9Sf2qoxal`Z3-
zW`ZLY<7<On*%G-JlVm=6Hj+%@y-^H8l-(GVfC0YrVpgsalTnD)6T)zrjX=DY#n1w>
z59i}Y1~51Zug205nHzzi=mhc^J9;)_$wAqr++5QaYSD!h2PedZCWSDT$(uM;HAGN@
zTSvX>Rs&=zRgdoZn0P@&$W6-;DNLiXfaTI3OMiGJTs)5^<oYs>x0GR$8~7$O+?Ugv
z6Uwxeh{!66p%jiFPD;EgwOr`s6Zr=I;5Hm<1yA;t&B|h<yq2qoI0#qX3R_kpndt>o
zutM=TAqS_gCDT~CiP;}x_Fc$ebuWVRO1&!!N788`(LI#y=M++qt++xEEvw)sSH=dD
zuuMwG58fL|vV}%Yq5KC|R#{SlH7cS+#Eny?lg3*>vr=T8DutG||07HzT?KN5(199e
zefMnlzPaFj^ksGwx}L*l`vd>_yuT;s@0oey`}~~$NEU9?7<c=OCEwMT>*~vQ?a#p<
zzrSc^9PazvnnjMOZlABLz1DcOu>i3i-tL^Y`%X=M)85>sz4=Z3Ir#JT)0Uo`w`ab#
z@!Ig!;YGWpsse7?>-+`fuc0O1up!s5A>Z&!uHhN#Z42i7!MuN4&cChD(79O0S39%z
z#U`e*qx@|+C!M@A=j|-iu3b7YjH`51I<wZrTBfS=7aUjR%-V{z5O1320y!=)?VGXR
z=bkEXZna)J<GauGmg;pg9rw9SMXs{hISbLFZ43m!>@V<@dA=>jw*iv#-q!DpzW@5o
z*Y9ll?r(m4`o8!07gn>o;&U_fH1^$qm}VBf4LNEiLr__sjKtT3sbu;Y-4F<6HjmL=
zLB>=P4REK03Ik0>!rK@tyr(b}I*gIh3Vn5ftGx@NvJFK3ZM1G64b>^n^1Kw%Ghs=i
z_Dd7sXCPjObb+e%17+D<@_PO+VBb=jSu1Jc^-Hj~F2O#ajV?WZt+BVI*J+rRb|k}w
z^&MWNU03zs_L2?jd!MmE4FhOt%0L`{SXbrJXd5bUR<LLSmu!YTe@bg9J-^<b-lElv
zd+1`^aC}&&qcITYAkeL<Utj`er5+U7f*;KU8>uX&7ocV01zl^h8NMKrtLTR^O7J@d
zZG$LPBnVoXip;`S$tDn(s0x!A%)X5omCWyB$pe{eRX*LRqK`0yPo&{n01)Bu`9*~~
zzb0pRwXTR8w^~!Bj{R&zLg7Tdk5i*rNu_SkUXpRL8Loig6OZzDIMrD$gwM&GHlys&
z-jtG1fmJ1zBCVPsKmxFnG;tM<44`O56$7-1@$Tiq>#^O}ff$qUYdN@_f&1LpWGr9N
zlB;ORnjtFA-+b-$tFKRQ`ryEaFW!3bUi5z5-Yh?lp{yHnz74>Xue><<VuAP5tC?Vq
z57NT=9KW6xnsa<}o=5nC%U0`r#4|4U<l5}<Z*>;kjH7z7f~kQKl~-Pxd@0Yj=J?j>
z*6E{jeCK1Q>&o$6aLZHUeB>-m=VBa{aOdNL_f}pxG<hh`2XcI1x^jBY9N+OI)A^Q9
zR|VMB^~^-)YBy)CZ@cE#?YOsPZr!t4>wPZpU`-I8O@-zTd^QwX=(F*suBvypO?BLN
zwN8ug58WJ^?btcrvguAcI_KtEc4ZGBYVUj%WPazaSyw9+Rx*2$63mioZ9KSCX#F`@
zB1<exL!V{I`Iff9NSZY33d0<X#M1;Y0VCUT!j>@^iKq#C#-7&wCq@Ej_!*%1(=b|R
zLK-d%^Z1b(%YeWT>n}0dnz8*7qit!OK^l2^Fo*zF%)pWbF>Qr5V6jF*5}*ctnv7-0
zK(wU;+KLUW)k>u&tSoBR%aRhO526+*WqAT<$8s2mXz+-^zv;FrOeVM|+S$qsXSBK*
zyS{r|h67K%MPcYCo)6X#d;_5j87YT=SC}FHfZ2~QqjuZVP?GK1$0L7_@V`Tlx17HZ
ziirgIA-16#i2MLM*rh0mq@!o)r&**O;csGw)(c!>c4GM$X7@2eo(!J>XkS{Azd_(%
zQ{V`R4bqRfWQ`SrX(XYON4FCczH5!7Qt`2IyofkLKe|$l0}6f~`KVv934jr`>6~z$
zZ-c)DyT#|sIv@tNsxDvImaA;b+6rD@-n%yET?=tFHNI;HuO7@g9=K}Wv)*uDcYo??
zFL*1jS*}`s_vE$HS5MD**Jbw<AS(Q|tFOH`dSl}H#GJ1?`+T9M{@M#yUwH52jnmgp
z&(&<m9{4G;=U~nUoYf6TP|X>cAuU%a5S8iDHmX(gzC4fIdY<>^`Ia2t0)wv{oILpM
zp2<V{FQEmM%fnDQm3N`Ny4DF1>gyTaSHir0-Hqn!&C_FZ^_#MX9(d|OlULlg+hAFP
z-sMi^5bg$Qo65Br(gZn!SrjvRpLPmMlw$rCOLLeJ%;qseO+|S@5KAYu3`t4)3^EL3
z?krj?5W!sAzF>uCkw4B_E8ugfD;Fm(UU_5kjiMC+V5Y6>DB5X}V_Ms%kKc3@9klAi
zkY^Vy@=R@g(M^jWCYsO|D|%?P3PPV3s%de^)N0)gH+S3bZvW`nyU!LGsD2DF#qcQh
zvrK#Nb4RzeVF?CM2LwQd?VQ|Mv}2890K@oXeCkB5qP2(vFuK}vrD?Kh(FHZ-SK|*3
zZjf#8VHKzVN=&!~U`kl11-~aGsP!vn%Y}8gWWsN+2}%sPl|q(&aoD4Lao7W27s8j>
zN`O8(DU|^I&c}?P?u^(t{Q#4OvddeZuy@ZH_~Kdp;EABgM88~+cRcCv(R3^>^{BcN
zttd=~vLDp;6uk@;LiySM`J~~r2*LZv-Q>PsY!=1SqhN+|Qf@XHPaV+cxFDzr5Fci!
zu*+WB8x>CVlWv9ky@G8vbwlYn8pI*=e4NM9Ma<9@qa2N;$3^CLDj(eJCJ&(t@GwR~
z{s^Bivg{*{VOxK~@c+uJ`)6j|Ba?+Sea=Akg_B`lU>}*xtmzSFgF1s*g$Xhn!@dkH
z<vrK`i=*b<SLYlpmu!o+eJoouTidnBU}3S}#If#Ke{hk3XR(%LcTZVw@Ynew1I0Th
zKRR{y6fJ%%Kp--^dy(J7_Q3}Piwry$<E#s6O<NZkcrG?2O>Dz#ZO0c37U;?NZzN_n
A4*&oF

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/inc.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/inc.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d058b82fe6bd61265b0f1369f7bd56f5750fd48d
GIT binary patch
literal 2568
zcma)8&2JM&6rbI-*WXU!Bz!dq3q^oYVv9yC^aCo20HKz&B|<`bS#5U5VZ(m7v+F9h
zI3ScmrC!R(J#YxOpd8x&qdk~{RJx*4BzozkN^7b}J@viWwPOQC9mz9q-u&jhH*bFP
zygw8QSpv;Yd~N-hCgd4TdMz0XT^EElF^MVI#1T}%5miyZxoAtO1fygpoTQp`WL4(+
zgq?EIYTC)D89q<iStqCFxGdXwr=S*`qFNM)NG=gGwMNV|Eo@4WKXs%jmNUQOq%4Ng
zIky?6KdlFr=j!$XXwnxOJ~gj+7sCD5+%Fos8(1xB_LNs>aKkeJmi@$Xsm?yqeH!i^
z07mK<CWPakM;3H+5NUnbT^dxM_uQJb+}F_vhL(*e<fu=@lkOiNv<W4uU=md{1y!O6
zQ>4k7Xi95|%^0T2T$`fll~Sx481{n<_{0D{3-~0>(L62GL|ivTlhhKXJb)>hXm4h~
zP%N$}FY6%dd5CMw%y4hAnO#e$B_7o{_|6U3ouHF|OwoKCSAJk^PqR=ihMCI?=c7cm
z=A%(DY~A;jn#YujpPg13zU3|}m)(Hc$^vaL-B!+fPMuNT_gE#A84ViDHG~)9L{@YY
z(6vcZD2ofBWVyxz@<0eB!}fiIEB{=r22Q<Nx9W3&&X#E~x7s-M?&+JSXw|lss`Vyt
z!mWO3+fLQ-OloU%l^Tt}V^v#kQs!4<8gUX-!G5I<qysyet2?w+>L0Dr(;Wr3K0c7!
zWNT!i3j!I69K+&~9|56F0tE23BKD-+aamY|^B}jA5R-8uOfS`JPY+JM!;l%#8QBDg
z;XVw&Z`A7^3#h5-MxdENvrhfi;o%@(g*k!7MxeV*ejA-^7w;B3BL_R_gKQ6)mJLpG
zV=%z}F^Yf~JjNY??E@9uLh+pMQ--hS0%IO4i)<Vg*c5a=no^V~@?4F1ju!c7P3{Ie
zpsoPC3snf?D^7LNQ&C_^eo3JWRH<33EC&E1t`#5>l7Ju2^&Jo($UcK^2|@obo3X^Q
zL9ecn-b-8@-Xo(?Z2dixK_=1=a!Xj@6|*;w#?9F0B54wyn6eyZEg-xf=&nH-mIj6=
zW9XcrhcN4SG|op^3KKrHYwR$tz6qU=2U2>u8^v4a9Mv3N-&zND6ZqoVTe$sg=x&qe
zGRg1xhTc;j=Z-%eKk;aMwv(TITG;z-^4{v>0;py;uKhfB=Hc9#N8@KZ`Lj<(#(BzL
zP38aK0K;nY5>ZPSmSee^q1W{#%eI1MYic;?;nnxi$|3BKjRySst<OTtTbnGC#VE;a
z4CYaXdm^4qpyP;UTFtU4zF@yKGwk}s^$%gYkC%kcdF-nUk71#_H%x211ZY~A)ikIb
z4V!|T*YGxMG!3(qrkS1rLXH=_=!O_FhD|~jCTz<O7#7Yj$sa3wgR4!;2to;#7+yA0
zP${}@C|}`z81kAOM=g}RfZ^*6^FXM;GGZUIh~P=+pPv;_haIQUPav$3UlM1wlB3(A
zkeux7pZ$x#*p-Mp#x>h=EGZik8}z%I4{kmzzlRv5k5T%V>Gg?qV`F~(#{HRXfJ}e?
zF(Rk?$mwl4m7I7od7yp$?)A2ISKF3wUOCCft;|@bbo627ST_mU?NaP`dVT&SD?~0~
zbfxtp>;C;RE|<_r=}%Ph>*0qikA^bTKlo>flE`z$Q+)!<ePy`ZSE6!Xso@s{Tqlhb
z1CR31Yj)ZEgJSnBhsRz69{fk)TnOj?C%Uo(9~Lo#8P*zJ@uGVjzUwgkK}5;33<-?S
w#Giw1TM`6e=O_^lJtO&@gd~VNX(C(|ekGT7M3_C#&j_W?=;6N!j69eB0u+&TH2?qr

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/input_quant_fp8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/input_quant_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..78337bf59ed257df3dcf0e43532f8e603cce4911
GIT binary patch
literal 8415
zcmcIpYit`=cAnw;{iZ}w5;d}@#B?O;VOx?VJBlBYZ8@bJ+iA8++9}N$+NAl)aA->`
zg*t_c(%Wt=^#M^x04ach$hCp>q5;+cQY1eM^bf~$!Ra7D1r$Y*{$ijMUF?sx=gx3Q
zTBeOQ=w4fMU+13tI_Ep*9{z*bY``ETRDT+~(uHCFf+}*-)C+sRk7L*dMqw15z?P&O
zPbwk`97`&fR5)r;B-BaGl2$A$6S|~+NiUXF2}9DjWE9KlgehrWGUJ#6qs{Rid75Va
zuwGoU0tFT)nmuxfwmyWlptNKcx%j18>sRK&C@4+JNZaGDwf0KoCD;FAv{oE_sLkjO
zN=LgWeO`@Wc_XZ)6S(Q)qc2iY26?>->?}qZ?_iXP)<0BAl=4cKx>oRj`8(7Y3gCi~
zjO4OxI!UH8S*Yqxi?ziJlnrN@bS`uGdN@Nv%@)Zq44q=hOd`xi(@gT3#5eJlT==?P
zsLj?3x8D-<ALha^CYqUwNaWJjRIluP0w??@aNjhxgj3j(g2I=SdJO%eY?P8#Q7T$Z
zsc8+R$ZIi-(m;zA{={0;P{g7*rMqKZ(uyPOl%Ceb9jy~dWy<i9c8RO;mAxkVC8OJq
ziYh>~v8awR-%&3ae{<`KYA6fLV0!7Ef84rNl=Y5k$y~&i@g>V;EZ`7y@1QH3zc`iu
za{~cMtj6**5ldxqEWy&LY?>k1Gyx>U!3@m|OHD(BSWe%dQ$qw$pxQMgQGuYy=gRe1
zmXO7b$mTMcG{a_zt7-N+k!8bdEJB1+6hW<|!bvELf)vX`dpadC2niaAPB4mm$t)68
z!Jf(`Nfu2@X2KK|OI;J3k#r)LOp(cOJk5~VNH{@f1${0{lR0`SIU13{2T2Q37xcHc
z2BP`b_y)$JRx#bx6tJIx8p^7KV+Fi`kqWuLpnzIk-7u`6gqo_+r-B-cl~O?swZ^Ok
zMcgX)G;?_tpw!8&1uSlp%gvnWF5rxI0U%Qz^G7)FY@-OkON3xFc12lGupKg&xJNEE
z^Ojz3vsEr#SKP$1iUkbj!Wr*#yxLITIEZ0cv_?hi8e3*)Gd~&wE4Iipt|$Yl@E^dn
zi1LGEaXJ%b!pXY0Ov_>e!q!e|_K#{2n(61nix7JVQJjc_7w0aKR~9eKg@y>RI2XFS
zcxkA?3@rmD3^P|_EE8r{h^vWo<OY!i4GA=e>g#+#GN*})VTxd{)1W^fumlxLf;xeO
z6X__C&at9`rGX%pZSX=9BJPcbI`cL%K26NS(xlzA>JR9n#9LAY(BuX)#9iV<h}uFR
zs1LJ^{`~M+q{GjjS2~qgX=<>1_Q^Cw=Z`I-z9uRV^(pK6PE%+C`QlpF7z_ohf*QzZ
zM$nODEEQu(l0nkT7|{or5XOu?NInEpEK33@DQ;G<Kus)>B1=IDTM`UX3pzUnX`-NS
zT&-YeUajCkz<_v3AQFp`^&JJYf+|ZVqAy>Co+KlQa5hVlSuj@^I!uDN{p;TwVUwAW
zOe{0ZhM8+LJG`8mJT`S>k{(IKu8w3@*z4)k$jw9|IfBkCLDI`~B*&(ikwkcfX0ju#
z=Q1L~uCy;?SA&@q#tw7k?eElaIw+qO@_Mp=2cKWv#(p?}=`DA)oX+!1=jA(kimE>|
z^4+f$RnK%DzJDC$K7L>V<pke#0J<%^zChJC!TBaCzA4n+%^R&%qwlHF_fMU@WmBl!
z7pj;-Yty_hu$A6S7tj1`ao6d)KV2P|<OU|c^j43BxMQL6fkn=_ST-$|or^GTyZduP
zb##s!oqO6pSHl!$3vauyr-Z!hoU3WD;i)gDt22un{2y8@p7}>pU=KEc3HUMy0|IVA
zCuU^ss-R(LHpiqQ4Uh#wbnGI0{|(^82Ea!g4d0iTvjxRR`v8+tP|5^&nycVr7F2P>
zXJ0~KA8$Z$vlChypxSI@WgiEvp#fpd{zs~Zb#rhTD<~)|hq$)^cM&)xm{orCW_z0K
zD73eMd)6h-7jFQ)+=5|<Gvh2M<H%vzmt>Hp)Xn+XZkec^KMkh?<}dD(X_`4QgmI!-
zmrIW{%@YV{L%;U7K^AZk!iihqm8^{D46?T1j_N`5$s8L?WCJS34Q(P82x^L50o6t4
z{T&DZ7Enq+(T6CIi3!*lCuG7fQn%pq>K2sLE!e7VL2(Xd0FCKtf<g<pASG;Bfq?`+
zh&*%UcP`F}%V+@$bl(iR2tf^&fKCWXaJmJXD9;pPBWbm?VsWu*2Hg$Qi$3UN8F3$I
zF<Hb+gck-~i(mp6y%lCCaObIT-rc~0*5+9>j)%`}tY*SYHc6Rzr)TX%*>tXa;9SLY
zZtcXkCQ##^s&j&KPVhE6-`%%0yE)7I4_5uhIsfr*ItbqD+X`+5Yevj9xrb?7mKvrp
zTWU7U-ch<zw)JmQpWXQM##8H9SvOX;j`7ycvbB%5xi*Y{VT7z|BRCszf1&E1;`~!j
zZBx9>vte1cRBXid$)~o#npUMZ)G(FJ@Ph%fIjhzI&N{%G%)H6Y`wmonM>yXR-rdU&
z2C9RnxWQ9D7&SJa*XRulLcI2H5Co8TDI9?JvL6mWWE-9wFs-Ko{t!tOq!y)Zg&(O?
zRIR#iBq?nh8c}H*K45(yWNZUs+QCXgX_4vMml{f|Xew<%ar@t4FF$UcXaRqfXBtO#
zXJ4X}0BrR$`T%rwRkf-HI7K?QFHuUFE{^nfUwXA?D34rK6_g+SF7R(aQ<F_W`AFTQ
zOD+80_adL?Z*cW0wh@{@kNbA}U>lGMfLTA;RR!$kN1qzJ4f>nsB$wpfqCmr{rl4uN
zmIE?%bKMW?@1M5o@yqm$mBSmVU6ACXGi*be+Ec)a0y4K|PHAP%c`(9ItFLBN%f2B~
z#fRilGcRZ;E&5l`MpcxK(m$+gDB5{J5mms`*AQaRc9}u=eD~jw!0af&Lq}OMy!-%V
zv6N_#1YIPZg2!lz{Wp1vK&NDAIwVjBr?c*nrr-&ClWu1g7_>h@8NQljP<RJksHyCS
zIhxMXf`Uy8YVZgn*9C1fkq)zm#|1UGn#l|}$H?IP*2$j;ol@z1h`fCI<lE;%XUX}K
zr>`tt5)2F-iDj5H_)jwV`49u<Uvi_ttA*tW_`INm7jr<@&gcm0Wq3X>3pfc@E5{1j
z`rA5-&`PvJ@R3ZBMYcK8PV=2F7$d2Jgpt`VL84!2j(BHh)fwcR!JQ8)&atv-Y}e-g
z|Fts67TSv^cq^EiKF-=Fd$3QflYDp2*3r$QA5U)0Y|iYAmu4#6!FAo5dhJ8r)4OHe
zwC*S>o;RwVAm<4_%Kd!x!D_{GVol9EyUWhk`JVo*3!4{q&Xq1ydXBEo?RvVl)SK#$
zwOhtb<HzQzXN2>NJO&1btDXtYGx2%um#e=326JobUAOm>pK$KMs%waI4Lut>S9T3m
zT<42(H63QP-J|YOe|2=@#QKSfrGI;_>OaEyk5v2<oMob@<Sq7lvAeNPboUQdEN@gT
zLCz9<l&@H(i^{su@8^vDW#jNS9bF}V)jP_0M;{;l<<u{xo}B#K8P5CW*LbDlRPpRL
z4(G<;`d~>}3UAxDPj25T_l`XFKDk_RoGhN+wK~@3iutmxOES52rGpD?@xXV%fP%@z
z+j-z3fQjVKe<&O|JgZ94XKdwKC(A<)(LYdi0Eu?}&;~{Uf-P-(5wxix_@cZq39?V1
z65_S0VUar}rgo;XfK$qXCaR!Rlo~)-h6)IL#P#yHW=`QRn_rH_t^(}D0q*xF8G_?&
zj5~!>+DAGW-Y6wHr&k&0Rb4^HHr^A+xUA~oRNA}}m>ITVO4_{>T6)_AX<B;QgnbHn
z8J_p&uo`_FIkx*!i@9rzT{RT61%tQ;W5L*V6d|)|?pZ#oIP#bGCH6(bWGa|ma+_+I
z)2gW<JNkl&GEflY`(rQ`qRhTzd_f`a97Y@BukTw3R3U69n{@+Fv@vq%eMsS6c$Y?T
zqya7TSp3k79GOwzGyGyZWrVrvS`#06vA-dI?Z)DiQ63BT0ecaRq$$J%fstq=MN`Ne
zM%5$m2`B^=dSD6ao8d%`z7kL{Xih<UgQhcJN0~9G1;6_*WLZ7%x<}Dl=^=Fzu{ecj
zRX1bwEoK7MMU$u&jURIyHK0cxb4;Y7mowvnDniE+f+~@|HqOkTz7yz!9zDzy`XGBJ
zXl0A4WoT(eq-%m6Vt1)*CY_}P1DJ9)b}g6AWdr7>DHIH8CU&hJV>VomQ4|E2VHbh{
zMfJq@U{)|7t4LF*otYQ;E=yfBC1}8|BMWMfB48vFz6AknDHg3;mZH*>pk0>yg)CZ@
zY*)oxG_K51XwLUFENXk_;-^5A{amuF8myyp<GuCwiU!`@feNKd>+eIQgV;Xu+3csY
zT*vt1cesv;Cr7@T{bH7LFCfCcZU1K@pN??uv7%wu=q`Dm8VAsbX|7`!OoPq7p<Y+7
zg-iXV_ewoG3r`}?Y^RDRcU|s{`StnIcqzYg<ma;wW-G3lqMo;VH+t85|FW-Y_j7jt
zj^pu_vfW>?Pd^#s>?f-B)13Wu#XeWm@b2zUu5<3!U;#$!y*GdQ<~LowE$^oH{@iB^
zpDuuT%|FOLIaC>$tN7<DU1y66yrZXTAK>f*&koL(?E@A2TSW~#T}wAP=U`FCJG>jg
z_27Naqp6DHNYydPIVQg}R2-*^+FeK2#?bmuiP@g6ID$nj-`HYrDY8AYy|6t~_650)
zk>XjtPMWVc4#7Zs=Z0_Hx2>qy2VlYVnqlYg&Z%wd<LSr495E{`1BJ>4(5bn*tL{NC
z<=a<x4piL3RreI<o~pQ~tL`(L`^?vu{@zh>zg?W)wRV&=#Xl_Te4<4SC`0q1fFgu~
zpb-6ppFn7m6bvK@3YANsvWY}@pQ!g}Ns>xOpjmY_olZ#MO=T>_ilISCNi<i)UuwXO
z%w-ZZgM4D<Eczgk63q3;WrR*7NHPEseI!E&m)?>D4;eZJeUPol`k?1mcd+kOO0}-$
zzyia(Kfw17esAtqU&ME9u9_MZAfDGj)U;wzhxPPryEdn5da-K2d<SYqv1r0vo|1ok
z=0C*2wYPEXwL|>Dq3`uRH3*;W-toJ~YicM1H=Fxj;clTsan=JhEo#zXP7k`uZ5QVl
ztf3J#17@%mb0XclTOVwGP__m*{h>W0>YH!y4ye5i-ca7p8#O)0dryy=ejD#s_wn|Q
zjh^+Mni9&pddrJ*{U>a`PrOF)zye<B0-U1%9!#Zz(OfEme#ZiLT#-r%hGv~X&<Cgo
z!6^pC9~gx0LT|fZRpWPC2Kghxv34{s4QNR*E-8Q}NsC1sFaNlkWl+RGin2)|H4#14
z(O4>)2027ej`{PU`9;A9p>`Cyil%aT5u+t=9!HB8u@|ARpkwH3u`Ek7;)y)Kq|*^2
zSGwbpOuxz80!k!t*+=lHDRCU%(_y&zpRv9&*7vX2z_-}=x7fvRu{YpqEC<Wx-m3X^
z&is1C9Jp=Z&7R`B_ujwze#u)g`=Ra{ExY_x*C^*2edZd!d-RFnE6W#_+dAGoRtCq~
zJqF<R%zgOo#1rpVzAt>x;qBe_?96ffW1M%qjCF!YD4e%FRoubhj<uNz-uHvzT?O7(
TT;9V_zNf?##P?#8xSRh0e=!;Q

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/ipex_quant.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/ipex_quant.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e30fae9a604ccc03e18255db9a0e7fc819259575
GIT binary patch
literal 22177
zcmdsfYj9lGdDz`2_KDpE7Fg^9z=C)#o&*UIph!w21yCeKf}}`M5@P3ix%UEGa2LD0
zyC4Y|v{Z+VLEEXwI2nSC9D=Gc0*8zZPn$85rZMY3VVrhmuK;(~H&D&iYCFnIXI2I^
zQkAyp_nrIL2QMHgab`L_z<&3<?|FW&^PT(GcDscF7t?<`x@DN6eu)9u86?m8X$?i)
zpcsnL#HhGtOrt@+Hl~g1#&mK0n4W}nF~gVv;`K3Oyke|^#2I3yxOvP>{Kl9iZXL4{
ze?`m|w~tj4zbWR3JI9=H*O-fh&9SO@^;k9WTVn2b%~(ymcC0q;8S{`hYpgEr9rMP0
zV?GkL#r*NWSb+HLvHEz!SVO#VtdWE(W5IaSSQGI(Vq4<PW6i|xjJ3pD$6ATs6>E#P
zkF|rpYOF&`Jx?*!S188KdhhDQ{*Q%7Yz@TLvQ0{CCyDhyY#kd=V!KGJ7h-*EqY~Rq
zV*L;sV4X^A&x|fq{{g-vq!CQdg=4YsnHU?=3c7t$GlJ<@G967!g=3?TT5*BpQV;^K
z@o0jXhHM(ad_2sB<7}GcuzWPhUZNAp6qK(zFr8wVqluBDZ2D}1*&j}^LO_aRUuL5d
zXVWJm;TU^zI+;vxX_kTV)pD5=)8VP~bBU?(=tM{-SdK)e*f2+`aEkt-N<A-4oyY9a
zS(YhI#5Rz6qO)P_gjk(WT^uJ?lY&<}_Pu<fthD(+a!4xV0B=dEMsPlV{8VWPh>ND^
zSa^oz=+wDrGD-U6OtESDBIz$3PNzA1nKLrYaqLu@PR7FN@dOv2HEiqM(YrMwEq3y7
zNrCk_Soz<Cwa-#x8ipFvGMX_Rqh)lA{!Q(e-b{&qjGr;G2Bv~FGA8($*$UR+g(?`s
zYz06IYm$6c#b;A|cE&L7oTtV$Oyw2(n3=J&hH)+9xS}7kuvQ4!AmqHFzbiFq%uZq}
z*viQUDXQp!Z-xA>qWn&h-w3f)MX@fn3hI{H32D_uY1L4|&AM3wTQjaD{jf9CxSpvg
z%2O-0P3#wxuPsXRFdk^#)}m%f-pOrG#=-6}Kudg#m$co;_@L+hdFqm8EO3$v1q92X
z<0G$#Yhm^)hel5g1*IiNR#q@VR%$R33#U@S=~Q%TB8UZoFtx$-SvL6G@t68uIsQ`c
zOgM6monpEzL2%KjNNk$Hys-4TgSeb}Nx}y(-xQ|>a0j+w_~Lm%KaotI9~F$S&tNMF
zR%tn%iKbJ6Wr9mgC+QR{f1x%`wq=S=C+Mj}nud14o=poThD}B2a3n3bVsZK`8)j%_
z%LqnTw5gf6VC2~JG&dD76^##KU&KJ`$DvKXuem{`mBg#2IqG*HU0xF!YECmp(b#O_
z=Clx!uop$m=^&(6()5=!DXoT@pdePp@YI|ELPjNz5kjzXMK@OgA*E#uylGO&Dd(Z6
zS$I3-Gs`jRxftyQ4d+eQ$hjD3n_6vu0CePgy1O_V;J%LURC*xBA!H0?wL!bp@|D*%
zLxn0vKL|n%A<YL^@9Y3sGbIZvB_hXEP@M4~&Uo-Q2EN=KJTsjRP9)MnLDS0xu=LhV
zO8*8dqV6CrqN0)^t6+foSxzv~baX13rfIGbYT|+jnh<P3(2Sr3K`Q{knuJA6kHcb0
zaDwG@I5y3Wa9n~5nFW1{jg5bvI?Oap_6kj>aISDSpnLt(SNqcOWM49x>`8~Y2{zqx
zX?k$y(78djFBU!1mz;s+Kh<|37K``6N@rs<dx?!qLqqxq)=l*l4_+T3MkJ;;Im30s
zi)O0}`?y!`bRQ(7ehlD~*Qv*D%3OK1f;ZKzntZw1z`XuD)||g>UcYLp%lTR$=*YG0
zez$G^11-ii=jwtGXU{cl!(f9_qJGhxZR+RY-``IPKe9TqRzGj`FK*|pZEID5yjD}~
z&-oj({x06%mGN~i?aS*luD*4huDUW$>Fkwx3uSY@vFqxtg#>Tyfg-u8{SOBIa@W7x
z^`PhB`Hb_#x=xE(wUAXu*?QNZ3sgi}t>~w4_mJIt8a%)|;R?q1G6yRY_Ufdva|_9k
zf_p<{)sxj+0l3jHI$Kp3)D96t?U}WA7vU%j1`B9vkDv*KbY<%#q~XX!VEcnyKR{fT
z9Gm25x@_9S$Wh3W+6mxw>QQBI(fyA9wtvx{r!>7K!wL~SzMQY&R^QFOjJI>CDR0o)
zd-6KH*}@?uC>byaivxx|zCq1sLfTP5kL&0Tbw?xUBC%AexPh=j=_%lTN*X9fz65oo
z5V=7E9W_tB49A<y&VKT;0%ld4iK0}M*_hCtg!YXBt7L%95IHND&Wy(r;dK8Fp+fR-
zI8?=rufujq_=RPVIM7UbCdsB|n+x;VyHTcBu{Ok@uT$?kYi?9tuYB9^j{UYh<LJ$p
zdY|kp<SZT8JKE6?{vI4R1SwB6t_t59k518%a58)*8jGf9X6wtERhs-|s74uWm)HP&
zsqB=|Mo|Oz0;9!I3+YB@T?9uUu>^LrcQTcjnsrNvge{I0n@ZY?D@R<UZfvPolpc@9
zSX>UN*~YTAmS+e<`IH;L>r~!I*@HRTmb^jdw7|xf)}>$+%S4K|B_d0*WFEsRyaA+c
z5?5oHo6|6w3C&%p+$82Nb27=ktew*`+H)Pym#=JC7qFQVTDi8%hz``>X<&>+`Sg%a
zA?$_ML)$7QfQgmGkIO*vH^^s#eCB%=Ij4=fY}7)JfvwQZ>E{fLnK929?@A29$&JTC
zUl@x`T5l}MwQ<|6rER(lOvwhVx0U4tW@&?*cF0*-=x1>+fju$-<5SejkYiM^iOW^Q
zv|K$5u3)%G17{%U2}5W*PZw})fsPB7S(Z!C$wYK2eE?*T3WgmIPsh?ig~SpPLNDlm
z6+8uq#E$EFoJ+*%bL>n?FvJoUfm3jn#L`Ihxu>B8+(86t+yn9qBKOb?z7ldTp?NEL
zi@4fnYl}8cQT$mfI}8gCaH-3kb#38YTNZaLjb^%bt+;k)UHf_0{uS5oyfJ5WU3=+U
z&*psfSzj0L>smUn{PO+r%)rQs@4);EId35A?c{+B>{uRsa3r(+#ESRD`NO%^j%@2r
zzIA8LS)1|pXX>^s4+C*+tIWW*G*VEPw}<!kER8SEEl)jUGv1yR@2O19srdsxudanM
zIj2A8^yQpwIcE*|uU&VT+(4R5K$_i@$Cs^b=WE-SjLWslrj^>A^VVEVUACr;uW4Jn
zuxwlU+Dgqc^OjtoF&o&*2evNP-VfdP!+Qc-R|2OpCU35~He21!S7QynW!nQbQ{BE&
zePrI0!?9@PU9F4bOVdje_tP0yD;b8LJF0TFs%tMS`j%c?uFLE?@^BnFg!n}()4gK6
zfFy<BmA?QFF!{<3S0hC-_DIzf<-;1voRUv71ERsC!pax2Arh7`%cR1z7t-Y#VBhK(
z-35ws!Y;BF(q*5V?<56GwSJU43<&~7*y50ptHTfqIg#Wvd0v924i++Z5>mKb0781Q
ziUr%*aZxa$BjXc-1r!*Z7$#Mwu#?EAikLr;0NIL*GOR315m}HH_vLJR(L&xV<2Rtr
z)CmB<e3~d{FzaaJ9c`<Qj@ABs+5Urk|H0M%!?|kDBTsYI)6RR^mn!dTS3JA2o_)M$
z--_qCdD|naXW?1i+6l|##_sF8zxzza*7V3xO=uu&T+~Mh#w5p%M=x=e@TN%d)FYB6
zQ~zJUQ#|!^nzTZC<VoUam;jZjW;BF|>_{t<jMCqv392k}5KDA@rO`5y=PYTvoKl$7
zv_p=Yqhx7}Abho!h~&(gmbE897z$-zdFVz7%H&XQ0V0bf3etKi9iED?9KKq_VYTSn
z0zjxmX$RONS+I_WlSvTSIc$<Zq=_=Uk>JLOe?m8;Bit?bn^-XoAcbSDEG2?gi_!Y5
zzi9a&&Mi*-E|zBjz>+aiw%Tj#n`5iij+~?Vjjvw)>H_<&qj{~mIp_8*3}*v_d|>dt
zJG=7~zw^{%oz`6iMFQJb`~w;Hz?!FXX<)^(HRIeW7ao7t(X!_0S{h#Q^k<y?5KWd5
z>?&}fdgRHG!=Y)xLQ8`JejAMqj7cdKG|eO;5M6_vpijKCZ}b#>bmY{*W5e{(eaC^s
zq&YzcWJu7*qA4U>iA0RZXWUcJE5S-+Ly5lOJd!=iJ%ecm!lQEgFm?nZY%qE0Xhh2W
zJVxo6Xe7<y;^2@6=a4lNv{O?Yu1*dYJcpwv*d-}6!p34WeMiHgwurFEd&v&xe3%tM
zD<*sku;M3Is1LPTg9&6arz_`leQ40t8#8(@VEKWeT(Bh<>d7^1`OsBwsC?wC&Kuwf
z1f<rRuRx!Ps;SGH(PyEWS{F~=HZKkH!L4~KM%k!p&w~4USKf}HN-7XsY`M8B@4%3g
za@AZ*U$^G5;(Qflsr;xKea{#SmWAeZ3La3x=mMeA02HkIR}?(gb#e?eK}_pgaxbwz
zICtk9A9@<|fV3&6D0!+Dw_{S3l2nCBRe7!6U|DQgOx+IsiUKbti;>WBtlbC6?#0N`
z_QkWe8}bwcmyi4kA5ul&%MX#9R)hPIIk1rC&CS0uKtRd>zP!(7aOY}#H(t5^$_@HD
zo!4Qwx1T&8nO&Kx7T(<Yu>oSqvLurefyq&vOhwiOh$>f^vU*Sw>Oi$;VDzkU5^-Uf
zn{<{%K#&2>78H*aP|j?o80!}*3#!;j<nzlMsAtvVjYL^%P){8<F_tTaG3$&mWaAj9
za&`wInqZ8m$AjV?_#FDjUYUnf5it<w6M9eu9uP55r>8W2hT`@>0Jh3Sd}u|ahW-?m
zlPII8Y9ZoUIUZD$E`J2s*O3yuPUQj}^ZK8eyyA=!4A}+=qa~6L;%3sUw_#snvnC;;
z+@)*~uMn+5>J&&Em$fi=@Qi6M>k4E_l|<=ONtDDBZC*BQliw;6opaD0uDU?N7;PaB
zs#l5?jAl@is;$6DoQpE2wyHpyQZJA6tjtX!TU6#Q8#gGAIIzr3qSCR<U9L!@2tXVV
z`k>@3dZf3=0hy&pX%C}nRlVJacgx(I5!A#ecLmE5AUKKZrp(=|xQmnk++`E24v=-r
z-DGEZ4D5Lm9t6y3Xl3L!cw_IAWjS1hDhCf_6`G-^s5~fhs<S>&mI;EBJ5=IOvs32O
zdkV2nmt}+?#O_v&RU4~kpUlZ<<h2epp_aAGfedRV>|n4g0fK5XR#+pGd!H=9n90nj
z&;R}>^K)9p0wZs|XS-_^Q(;z>RX9U6Q)z_`w1DpWvc71q>Pz;jp(JGdo<Zri{_9%6
zF#50QFKRAQmvpaE7d0XKC^^FUbPO0BqNz@^Q+Rqx!=Vrjnrzh51*H?!U=%d`Tw-dX
zH+Ve8!bvF{4gp^ii@|fl!q4pCaOHm5{Y8p=+84YK4F|shD)!I!j!%PM38oW3R9JGP
z)dTEqDZS~vqZe$FvX?Mtf*EuLNn{RLp%T@K67LFOQ5!J~ttR|8hjNdg4};1fWE3jS
zi{wZ!Owdv05^6KTDY3+1%vUMB<a{b}mW{KaX2Fi9tf2V_r|2-laPyeUzsZPkcw{6P
zl3@<cqOCM7jXrRy&ZCD$X~M0Z9(nQPp<|<h^-vs-rODBTL@uRsWWoA!;`|Zl;!*6O
z9!~>>N{D)yobe8$4wb|X2o8wd7fGMM(`k~q>iEcu^!|OPo;ye%dXC<I<k)jBaA9Z@
zA*Y0y5n7SkmwK9*ip@x)Cyfm)%O6eHlZx|VMmWbg8-}+!#pCzsbaEP0yKo@LHDl%9
z#JoB<G!ZNp6X$7>TM!6+7TbIb-a{H$I6@aht&CK^F@-1fDZzLibx0{V=)uY-v2sMw
zf=xVX5o-=view#}6K;?+0EA`kw=np11XmFJHUey3$^rnyA<2mXc72jdMA%eH8V;D`
zaWFHWL9vaernB4B1g+jp%PirmOj^QqG__@$2HtHNn4f-Q_FJ>};cO?bcbGkYW83k*
zqxOx<S1&J|%GUSr^*t+&-hb`+QT-3=SD!t$(trG2$MLn=ro2{LGw}YvaAy0+gA;J1
zP;*eTuG4#}@|50H1;;VY6PkPjRpZUNTX}bD*4@v$`?KyHynDyI`H{z;^>px_j;v>p
z_Y7t|yLr!U5aYd|XF}yv*84Q?eLCws%6pH_SHAD?F0_cstb1dtj-iZcDB~E)Rn=yz
zn)#~cY}FyY>QK(xnyYQh`9rxv-P?K3_Pm*@KCA%&q1rNE0gU>V_IK)U*F(qorh(-b
z`KF<H10Gv7HfI~R@{L=wjXU3M+<DD#!}`0{`{{YZBRGIMc=ce`*2LSIvbJvC)}6H-
z=52?ww$r@rH0Zi+*st61VY_ZCdO&2>xrKLbS?phNwn9SI*~Wu<tgbOv>(AAA$+=fI
z@9)m~2YLVCT77%Aeh**2=l(cfKa%U{&UWnNJ9cI}_P*P(_vZA2@w|t!zYN{5k)tki
z<<CsMPagMEPXDhcquH}oRS$xXYwOz9y_vp!aNx6FvuAD3(ai2q@E_A`1I@Z?+q%vG
zhh-MZ?a5mWcF*7Cbx`ut6mmgt?sFb&qaL=I4>@!X`}~J2y1%j*z%OVn5u6f{7zoHp
zQ3m)CM)c3X1B|FvO&ty=ZCW)(l+hsZl3Ab2dLWosUzwZJ%Y+3OI)hsM8`KUAt`EsM
zqPa3Ru9<}xx!#i$_Z$QPb60RI!5!R92y<^C_!pRBEZW0=gs}v<TBO_zeM!(Irqd~W
zlelNaEo%VvNNi@-r@A#s+8UHtN5vbQeAuX3&y82Fzq-IJ_P;ZDdvIyn?OiK1eV_`h
ztj<;jc{tYdtyFf;>vE1NqT1-cHF$Gyar@%_h22X}WxMwAUHdYf&+-1}Rvg0_)37K(
zpo9YQ(KtM~2?S>mL=pH9Ad5nj30w+&L@Dq#_yprApwJ19yNA)G$2>&ZA^?Xd^;G~@
zsGsZi=JgswXmM;E1m;lQxD909r+zf_!=WEN`@?7R6a*in*YS~0YN*!Ghh~#uMDxhu
ze&f>BOK-e(^|ibKBS5^ix!%})b$7mk1Wgp=h+T~>oZ>5+@}vx`TZ`k3z}3KGD`pY<
z$v`6_@Kc;3`~EkGdeUI%A0zz|)1Zngw*OZoU}BnMgX23JheI&?)DvvU=MjSm*)0(>
zfi!%k^vlgaCJwjLlR|F*7k-&WP?3567R%w%*;LX+36da~?*rN?Gr2K~CO31MdkW8u
zW;bdoSt1LoAOb}e297nR2U%F+ih&o$H<vk(Rut~IkR+p#&C8}0U5cDvl7*|~niyRn
z4>2exGPWVIu!`nnQjy5yTA<}>vMkENYUL3JlsQ#d7G+_z@~Aj2b850E$imHXHjo`#
zWPjnAZj=2oK~Q92wfBbP+=Zti3#-(wCe_|EmB_+~2+Q0g+F+D9#w^dDdOy@;-B}=O
zAZH=9BM!!LK=v1&s^hCB;UY3FbCY;(Q|301KR1$ZQK4Ms)N4>36|FKV8a0U?q+UD%
z`J6LTSPPST%bEm1#)1R6L2dh=%nvfJ752I9p8YQJ)!?3xc@>S4B=Z*bq@iR_8cRYI
zpCR*Bf|;;*#({{GyNsX{!PgMHhTwGs{|td2K|KN#1G#Si2pL3?0GW+~<i}mbq-L%Q
zW8X&bEd(Ufx6y}aj{6RR-$C%t5xjxm8iMNxeiy-a5&Ry4-v<Du%d#|9CWLV}Fb|4Y
z+ya8z2zn48Z^Zopf;SO-55XTIxP@R5!6brK1js6=3q#z$#Pr`n@O1=N5d1a*)Ekuw
zL$8Zx5!mn9el_y4sl@X?u)a!|jZa>u)=YLZZR=Sc$(VXpO;11irx$^O|40#NnD-9<
zT1B8rMFiT;H*H_ux6-r&Psa}PI}c}fp621d=`@jv{s}~%P2?VyuOC*Edul|v$674+
zZ2xu1J%0>xPZ#yD%Y4YKdpO_+iRZ5z2JmwV!~g%S<iov#o9zy64n!VBA`IdFXT540
zjmR%>cZ1^o7)zrXmmG(L>|b2i;J%Ng?;%Jdm<Eu7swwH{F@li@{yQej0f3{&pX;A3
z6*vY;1r7*4NPk4ZBM+t-zZQYx<063rn}a{aDFVlzK~$;0!Rp4fL}<{0(4c2@U|+9?
zI|h2j2*+qfIEt}AT!pIITOwJ?TfhUi8Y<KdLExr?dc1h&L9d<)$7p6aMzath!U{r!
zRj2~%{IV+^PYMS*XbJw-k*Jq(=0NMw7=EsZFP9F>LRyh<A-4rqugGAD>OO+%u|6<-
z7I8dgne{)}6h(sQgB6lOwz`1L>lOk(Gqr6hQRtxnX?F%Z#A*<p<xWjqkvg7+K8a3E
zsQ}!PNlq_3849Emr2pW)1kcNO;-*L$XmNN?C#M5nf~_O2C=Xn3DanI-lsE=C8I;(G
zn-T4Oz?jWI6qE<RM%T`<=cl8frvM|kFcUJ7u@(Yo{&SX%oFnFM^muZJ2HT!!IEETe
zP-P@jf|FFikTjyP7L20ylfynLDsGZXutukdjuq9SU_3-7^*14#$S?dDe5J-hgl(DK
zsxq~kQtxdz->0EAG$F3eI)c0d421T)>)5l_(w=P@;#-F9*Zer}r-6s3R$E>K9o_u%
z*S_?=zh&{|`y;FV{qrN=IkMK&xwQMi^lH=5`H@vy1K23ckNnJ5pSM!ZXT(*bj_q-f
z$)dRro{bJ%)fNrWYAKTng(at&*N|4GR&6P%9mG!B<r)i5V72w2a|4m@uC!p`DANc#
zTRVCxRKfiP<OHjbFx)A?sS%Ywe~ytBatuSG`dX;ORWZTF<MhR$aQ_Y{SD031j7VLi
z7QqM#FjxdB94V221jTKPSbermWv&SU*@bg@9I_AvSe55S;CetbXaws;Pax|F@t#oD
z)608$=WT1Q+8f^MUeU-e>l)x)138<0{=&8N!k3l?z@)FrGH(P0lCyT+UPO?d(0(C%
zFDkyUwIUP!4Ej<CK7$th3Fbl2i%mZV9-u{NYSO;=>PMjYYR?-h46VyM@)SJoGwb-s
z`w0E98fr`QT@Wr(cVVbZ+l5iGvg>0jgv4Iq+avH(9LfUd*7pO3DJMOQmes2+9h+FF
z7>?@+nbHB7s(^Avu<n41a_}?4uL9~(B&9;BaSLMtGG-z9&5Q-eniay<FY;cn0I@L^
zwDy3~HYjbEFY>8BnWisPyB%5{D70AiF_jy{JD|5t*1@>oR|S63GNxMbxxrVnL0K_x
zE$fs@c~}=*sH<YUo96eyoBWV70MGhOb2e<6+PG<|Sv_^UlL-O~P)%3>Hz0~Ff<xS}
z%7s;tNF!1&v6n=gNbuqT@RTtDU>r}F0IixrPF5F4_vEk+;$${KUtkjiOFSXpJRr@G
zNeo)ri1IaI9uUg{<|*bLB($USLSY>a<KAt60>!LDP1YOYy`fc8XNeJxV4a$d!`&*l
z8wM8)t!JYQ!%m4e3>)!ym5Z}XG@NEh6b-p(I8seV@sh1z18+E<67P~k6zmQ!Mly<Q
zz<L_`4ip7WKWGSw4vhLWG&E5PX(1%B5WrL!Af${JVF48Sl2*7yHTC7BL$0y#EU+1B
z+$XRnnmIjDU+Lxy_q4LYjM3fG%S;QH{c9!_g-M}i1`Jc=JQ}KSzmS;lOTB^kUwezi
z3lST%6^&lh+G?CLskYSw*A0F>ZB<d!;^-FjUqx*Ty^v<QWW>!yrBsmkXUwx|ONwe#
zZ-+DrCGD_mFq#!}=EA6LkjFG<DavD<MEzHpW6Ws<X{+6=o(z^1fMB#p<RE(kEoO-$
zA%%Q_?XzX{1MC!-?<L`JfcsN`U=z^4T{>YG%on%GUS}bi7I|KWk|;)ShoN|=n)~<g
z;QkuHPf2|VE;=D@f59bk(Da#D0`80wqk#g~LD*^o8&9TZges1m08?NQlZc-a;5=BH
zJ~0J$2jV5R?b`(7bQ0J&mP0%O=XE2aCy%`-7%t!?RKbBQF5=6<U}RfyIAkqi=&-3`
zqe=7s1J+l?UP^Oe+4zFo)#rH3_b!4J1gij2_;QKi!-shCSsCG2M2TXLQ?m_a<fOMW
zeH790?*RZVu!`zGu0f?!PcG1oPp|UylW<*bOB=>FzAu`_W^3B{n)Wp~HGJXf3*_>N
zE92hIJGZ01cFSY40rW*S${)--sM?No%2aEax4>)6m044eHw701OS7Q=TQk)y_%f}7
ztEQp%-QF7quOH01+jw_dam8@4rLVlons%tN#xid%uF}60g?g|`Z>D9(s%a2zGX$D$
z4c#2d`g?eP4_12k>fvi&UEFu?r5}9x&X-qhyB<CTmJ$KDxT+0UGNwAPO!o(Gb=>U8
z`nq{vw^HI>>koSF^sL&39vUFOzX$UBE%OdwB;^ienzm=28d)_R$eHY77c))UmXEEP
zh98-HSyK~lYRcLDtMxmx^?UjHz1jK$eEorp?RhYWH(P)OZED5gtp_`ZdBe|40g>ly
zgJ~``LPgAt*a_?@zL+3=O_O@KxhQ=XszrBMo0hdIsy8J7x2WMil|#BYZ9xnN0sOOS
zb&BsVhH6KDCAI3)iukX_CQsHB*CzUl+M$M(HEKtBMQ>3#yn~}91!orCr%p$Jk5D**
zbd#JL##Ds@$o$$c_2oBVUJQlfJheleFEB6oeH!W;aQupJT!%+H^1D!70@S=L$8N|0
z^&|6E=H?8T_L(jFymMRj-X~gy*Dg!iF0~AIN|_T|_MJb}Q$@3<(4s<SwKam5y$akG
z%$dSP{sZa)-D62z%8CWEek$e$JprY5RH|yos-CmA&>Pu@{3CFQMzy0+wZp>6r{t1_
zr}~P5Se4n_V0CEJ%xfX<j>21HAH)vH{=$<n&Q*W`wKQfh6L?%l9B>n+Q7!|1&~GN;
zAs89<LNvmPTm><GJq1Rcwu}8Dw*Zv*0)(~|hr%Uk;o>wa7@X2@XAQ4k2~J5Ap}{7W
zOM`J}s6mv@{tdiXyx(U=<&AhZ2ssSFLih@>bv(z4H2f!+l@M~G^1v=}KgXOd;7!6Y
zx=7;T1Wf!T0wnr^feTMfu-u<x#J@#=TmbiNOwxg%CRDIV8nT=dTv&-%oz!A-Rwz_R
zx5otQ^S~l7M~@sodTfOIPgu(@uof#ZpB#q|$H2#xOhsJE-(nVp1rdy5t)e}pU3#lH
zC@Jia%#;+J81|I2A)D$OzlmJQCxk13n_r5)aRu~^bsgEdZG7FfmAZlXLu=j!QF2^r
z&2~P`cRro%e3tKg_QA}m_r(0+wYvIjT?b#+u~hSe#ygGK&>lXt=fSJ1b;srpJvLEo
zUGKbd`;~0#Am2K;2Bw3S>z14w3?;jGch{P)@m9~xo}9lm>qq;*#}#N!X`vch@^-3i
z2vkdLm8i$u^4JNy!lEG?9OQ$8|Is&e&G^3ClXZ9SZg^`pw383*%!Z!fL(km5@RRdD
zZMr|lhmNeckAA45T!%E*EDJl{>VGS|u$y;wU>ElCoqHeD@|_2vd2lmVs;1ER`{O?e
z|I~Fq#)n>5aUa1-p4VJ6FSNbY^wx=mZr<6B?-bwmZs-6QUHW%EuB3vkw=Uhhlx^(i
z8~c|#AC6=i`&SxY#O4Rq8k%pNy?Hj<u$6Dvy6k<}nrYa&(r_FUw#WX)wCzz{;Fjs8
zNgBj~9}L|Y%65(L@LxAFZ_fpSw+`Msm<@FEf$nTzhz|_qY_6;=z}o`gdE?mCV>z6k
zKHl3$JiWZPx735TnR9i4TzzNWMb+<Ir_A*h<b1?CI3*TQu&hL$2Ssl9B!+n8Ma<)1
z=PMf0VpAx=M{bG34#s<v()C#B8ws<W<qLA-yx+&wi26$Mkp!o7<qK7@pydbUE3pNh
zz;7VIS1*$EIl&6w)Pj#`5v{)9L<~YM!b3A4{TwQLljp=J!CBbvQcTrEEODk35dan;
zIuNwF7Ce#ZR2r_s<D0?!m>!>=iijGIR0KpGDMqLvEn^6pBaz~Vay+0cfo!PNfiHiN
zg2ZrL2oR+(sTKMo$xCocfCw^z1xiORkc-8F6}~M2pJt=kWbBNL5{WT1eId$T6g;uS
zL=-U@eETVRb|yvq*zg)T0kCNdVxbAsQ|U-CbEYu117wnc7{Jh%J5aJ4L1_c*2`Ds7
zb5>w4CBi@y?O^#qK`D5wL&;E0VQq-#$)7+h_dgMQis0`M{4WIm8^QlU@b?I?5>A5v
zJ`hE5It1`>Ke)Jwz=#08>ql`W1n^Zq@iQbc>MMB`spD(PmmL}Qe}%=d&#=OJDKJwe
zCoG_0&ylT^vw3qiPtI10!IoXHSDa0-SMVCWS-M6aavT^P<%Xe((NUoyl^9RQ!<Qx?
z2rmEZ=m9j9k4;0KQ5cbNh%7Qmt;Qfyt0F_xZVbi{AW`N1GlI7fAlJ`*jDTqCr_hJ8
z2zL&EU?5+4+2lO=FEJ~EL)hhC03bSiEm*I<3Lgb9gqEj&bm@nee)QT8U;7AydDEbw
z1wLDoH^37lExf{tJ`?)P=(A9rJ$WnoY?LQ(<J|Rg>vjxrnpQZK-jS!^frkO`$d77t
zW%oKEEZ+fLH$Wg?2ZkBBrq*10S8hv7uCq6{eJ~e*U}tV{SFUGU&KJxDnsQqQF!<EY
z54(Z}OUcOsgo{oVFl3_Y>Tk?lpUayu1Q&Lz^H%hM)v+&cM_(o7Z_GQ;=LEFB&~p87
z-i4tm%HOc4zuB3u#*mw;59VvoS4)BXedPL)#R1;kp7&rBG`n+Y_;zF7iy<F;>mlz)
zUjVRwz8-xIXmJv_9az?b&3(QRqk>d>SH1~-TkuA3Gx}PvRjuf2Ln*lXX7`et_x0r4
zF{-1aju1w5B6*p+Ik&{{job1#9Qkg^NciI(2#GQ*&UmO-a6}TZn22>!z2P$vvT_6?
zTvY)SCEk<<j#XTYf*E<P@C2qH<1LuT8CkD%e_E)LgS|x4i(h^ePe?2AyIj5GEDb*a
z$)Utam?oixq~L|1!WX-G#V>aC0@ovw2@a8vsMzWHJo$UY+d^bx2u+)m5O1Z3xBF2}
z7Vqx2Z&HFB|4O%gIApgu7XV?iW)&Cdg|Dq~DC>Ow62QH31Rc1sSoh~_TQ7dmjYC8(
z?EJh%fOy4Hy`;G`@pCAL3tqMIVmi^oiIXdTt};cKZqd*VMRL(RK7zhKK|rt#$`j%$
z><6D<+AVUy&u|TZec+!;-2wm~J=17DGEth=Ur@ncQnvS~`u8aRdsN4Nr8+;>>NHwR
zJEHkmtJi2hqyT(uks=RjenGwX9(CwF>hycmj`ygpN7cRz<$P?M)o9!qSMy^EJ&$K~
z`!$*oO~&8#m?FN%hqc2Pv(WdLBA&;i+B!|`LgQl!9*=h%)@m%7+K!JX^pFnxUq!2H
A%m4rY

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/kv_cache.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/kv_cache.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..19f4fc56622172eef12a9a968c36b1074f06cebd
GIT binary patch
literal 6894
zcmcf`TWlN0@$SeYPb5WAlC1~zIzMEKvPi~uWUGcBNgUgW9m{t7YJ~vj6YnTdIv(k}
zqhb+M;RgATn-rGNqLR@DR*C?T>i~9u0CCZe_%lHBA&Lx09Q5I$=|_GFCUQ`qU!C2%
zBPE%Q9i+&D+S|wM?Ck8!?9AwIwY4q+ie!H$_EHN$`~!8YLYs}%A!y7I0wItRF@(O9
zM8>HhibQRjWQ*H}>~VUC#(lfwh&zXzBta1(B{FwO1IthiMVuf6`fWmRi1b~XIqI4u
z1J18eXD~qO?wB0YI4LnQA}Rq&Z#b9YWi6KGwOB$vnvkQhk@A>$TGU1p!b`j=!a`pp
zr6{7TaY>2Sq6sA)G4LC;-R!L9p)p5@#1JVELzF-c*#t_oM=8Pfwta{e?4o1LyLO?`
z9`ijp25V?oQ}aXCz`-43o2uZl3r@i0{$aQTCTbUIV4Y`@3Aprn#EDavj`ERFlQsN1
zz<L)81+$TjV}`NXD6g@+AgJsWZk$siyd+*>d0Bw&M7gVJN^Cf#i7KllV1<a$yr^lw
zVz>%c;wMD~O{uA5GNEX!l;DM!JOZEzRb&xT)Qj>FEupAvR7u2Hper(-OvGeO4PkT_
zMn!f!Z0^av8IvS-SY%VGC;;XI7z7a?WUm@hU_eLE0a>6!i2-%PB3w3X$WIu%i*b`+
z7Q?MUB8X2%6BV_{Xc-Zv8qRK_!nh73d4-P~6mbzOkp~ceSU#Cl5=kY-YofvKbyADh
z>K;sixhz7h5d_pm8nM~{)f|x_GXz(jo+JV!D2Gx5BcK#^Rg|K*qoQRj`=85UEuIV~
zW67Y#D<h&7yq4Pkvw`vbVpxg|hm(_VDROv1lH%cbLJ%cRye39ca4}(gjcV9r4A!#n
z_ymVp7fMd*498)G<kJ2pq$_02wE+<-G9uTBVtdcD{Y$2G6?%kDWAy9Ji7W~}=NBNF
zbA*QAa2Z?64QtG@KV~0&G}D?8#F%5vu-O#IyXL$=ePp|9;>?hoWdMG<9m}-;WM?e%
z<0sqEY2Co2JwT_0va%gjM5G2=-xOmbquN%shaczJtA=gqV@;cbO^&Jjf$~z&W|(04
z^_Ir47swcl7+aP;I}S#_Rso%kDWb}aD7-KjV00R!Ix?zLvaHvfMVcyVqM|#%Y^e!F
zcbYWlPLl@RX%e8jKzoM`3hz*g8+K9ZpfWW~@jzSmM)0{f<5+5%eNrdZLv$hxzlZ8N
z@z_VScHU-gF@=`iY)kJ){r3*uIrzYy+jZ#ki%TuNxt8<O^t-hyEgk<Cn6KK{+XJ@-
z3T?q`Tks?Co^(fg@O&=x!qVA`OKrhi+ofsxOQuCZPo3^iL@lMr>(msf3s%$P&;T_p
zD_w@Ds;Fi40&uhZ0i1>RC`%pRA_LT5x;+F|QkrDd(L_oTSUI5~gAZ?oBnqK`P4~Q>
zg6AbJ9#a&!ts0JtNW7|Y9I`_)+$F~;en7wOQfQ1a-TdTT;E6s2&q8&bSn>Mjh1>Ei
zxzO34?d)Ib*tfLr^`*A+Iq!uf<^pEM;5sfK@y1;E7pN98%40CFu?Xb&eu9{xln~5U
zF=8{6x&>yca7duWUj{L|4zp#|tzb82uU20>hTeh=MX*`i9z*iGq1-k5Q&jc+egsCF
zR%>lm&3m$TR{oly1bZ4@IH191wrukK>L-Nr12>gT)u}aSX@Q;sKWxe-|K@*U0UoQ=
zN#ZS1tGB4E4qJUE>k*l<XY4<MN7Rp6{j3~zRpYSMSUxwUmAy~vT#9eayzR+()vYyK
z>jj4;VQ-PZEeIDj7V}>AYe-LV8SAiGm9OBm@Q_HWkeS?2#<px2fNrL2O<)yBF}L<U
zw?7I0R2<~kj%Qp|)+}@9G8Z#8pkuRz1-MU-_kh&)fP5RRZ2|))v;fw8CrD-UQ@B*K
zj!V_KjVws8`dv)X&#0Gl1|lD<m$cx5^OUW<jC6|z?8u64D5ibdQGIsG@r-*j8Hc&I
z1MlV#+;0<8PKwAlGqiPng~9!@^sSRgj|GKg@>yl6jGH9Z$Um)xtYeNnXSFKdiq2%{
zvAvaXt7Ta_nalv!*2(Ad7EI+^RX)pS#F|k7F1LhQEMYs~&ai~3G;q+6wf3jTlQ%=d
zt6Z0HK<#^P4F@vh70{<EAj?-g@Ye(ZNBy8~=OIQg{VnhlY>{N@YxKZbF4&Ru{xdRq
z&CL)nDJnt3(b^FIvB;^5CI{G4myA#<ee-BJ7G#A4gmK6f01s>;CO{;`UfqBo#GV&5
z4aH?K4TX26_ZDI=jK)+pfryABj}b+hu+{Oi18gN!9p)qBq72b)PZYd~(I5cIEFuW?
zVsaD`4I$kw_Q&_6XD+H}6N}6ZRIs~4&sj&|#OLFCL+q<ji2Z;B_@!hBY+)Z!=wl~D
zB^I58DG0PH0q(}2n1{F(#f+kYm?&y&OvaI9B~A_<kCb&07;lF^WXo3<p<3^iX=TsD
zlF@6V`Xb17d3}b^(0W{|`5TpWN;k+JQSGg><Qse*uyWT(#fKr?7T(I&f;<la>)_Xj
zh=4<P#elu4#>){=r=yTD&=eHz>W&MBdrr%#xG3rMF_pu!a2FiT7l5lzUQ-bk*6_rc
zgAyMf7Wl*I7oYU|fTs}=+(y$)=lCc{2IQ1*f+BQKN`S+u9)^a2Vgk^r$j`k_{BCTa
z{)1z=rrvJ}Tl0>Uy4LwEf4q46jazTz>R^cS?I`-{=bW?7-`32ZoArKcgONwR`hss;
z*0(L^>n=HA74{?3ho4O|OvMOVnF)bC7e;}IZUc2mw;AG?l2JBgSb>mAu%ak7-H76+
zFvu~2Hv$(n{VT|#Xroxy$`O>QC2@Wdln;_CEFXbf86TMhsZ~>=8e-2%BBYK$g~lO~
zk^-r`iiy}D{wj+EmY?8b5<e`7mb4<hUL&!AHr;Dw5I8}bOp1CVkRM4wT2AC(2Irep
z1^E;TdeU@COF)2@kYcK)AU_y#fN=lG0WK=1(z-3qUsD1IxEIa2F7Z;zh!2z|G~h6D
zg}UcWUI7gp;Sxx?7|x3H=tv?t$?0Bez>q8eup&UlN_qi|IcCCmtr?@Qv?3~yz$&}Y
z&i0rl#&tJW;eUXs1deMC*np4BX$ek9C8byd7=dZW2=xXyEwVb2s3l}$CzS#GDA+~C
z5crPo73y^O2WmkWHc-1Ewz*D}T!g2-;O@%0yB7B4+=2Vug*~TodrlSWHr<@MF*UC)
z*KJ)$eK__0)O~e%=YdE5uG_&|!Ggax>+fCc&-r&3`~zA4K+b<)###Kn$(6=!g~o8U
zF`RGQUEI_*e|7e?nG<GX_C&G1X|7|oW1(@me*5C)dmVQ=9yBfo4wf85TPH%?G3x|M
zTRP^ZW~Ua^<>uZcU++?L?@D)%2~B@i`<L2W_wgm))}p_!;16g0;rn#Xzpvmwl=UCV
z`Hvtp|6}6&Xq!3lRb$8e$Oox>WAKxqht4lH=ljpBG_l1^r&n!Mb3=)s>KjT7;oDs1
z*NU&nFbXA#+Wac{*k%U^7Xe4~&Uy>J?OEUUh0A$gu(&fcL+5?l;gq!vHwSMF7Cda$
z!!9)EJ%OU9e&fit-sxj`4_mapbxrfze*MdZor~xH6uN)uVSnN1<t+UAFR$DGq`AKb
z?)m1S8;9oiF1tI6O>J}W+4%H{mAbA%-L7oiu6$jv=xd(eJ?jBJ^#rGned+0b)YLkC
zqUiP&+-+HR+k9l%y`|XNS!fMpTLaT4*Dv+Y^Rsocu1Bry(<i@i*lKr_Y(!1lHy*;b
zbzx_|t~a~q<%dK0J!e-M+Kaxkz_~^*aIV%1e5vu?^xp6mnD#8wK7TpSbbr;^v)KGe
z_osay_vJf}OrN;<+Kt!V9ej8hq4egNcHnjmz_(_Z)&kR&Wx5tzd1e<T6w7h{vb$$-
z<U!+~<%h1%Bg-$GTk$j$JY88&SFs_uII{SQrG2j!8#`wDfP${QC7Z2&?_(Pcw0Pkj
zrcVRwD^=Fhj!k-?R$-CayEqP#s3{4O5xR%tz;a7QYC?B%oREk>jsm^23JQr0Yk{6@
z-EkT(Qc$uK+Ye<6Y8`{>4uLnoimo8l#})dQgNg!&w~22khGt5eNIJ08y?>Q}Z^_}I
zFOv($K78f<S3W%R{+U$*^-Jv}eUY5+N2#CNM{XS{0q8|?F?BC<Cxez<BukD6Nq5}u
z|8(HvflrTo3=pXQP<xEO1{sKgfZKSP-6&}sGEA(3QX%?YJhDEG95T|#p|xq`&@enH
zW~SR<2ug_RUcB7;AB~C)KIW@30Mo|lPofq|O<8Zf!SBP$AdDd=Kt-;3$wrdoDnpR9
o|0K5ko3fGAchKqkd(EbqpXX{iuR9()UZThj$gO=xpa#bHU)oI(dH?_b

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/modelopt.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/modelopt.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..22cd77ad2f90d14a45728b52b8c47d0f319aab36
GIT binary patch
literal 63209
zcmeFa3wT@CeJ2Qz1c@gB@ckzECioO7N}}GPBvKDcq-;q}%-Dfx0+dJrq;dgT5(6eq
z>Q1TDZKSptORZDW-L$60-bCqU8g-gZly0W+WcF)u1$uzo;WldPX*XYIzo8?gNz>i#
z{{H9O7oba7j-7lv-?vxd!MW$2_w#@L&;R6d*-d!DdA~Y6>@l1EmR^*{B75$AD#v7c
z*%UMd&0$l-JZ?6VKPQ|M$sNy)<c;S=EaMgymK)9=&&RjCa6!a6Ze?MXuq|RAx69uh
z5$Cv5_PZj5lR0Kn#LZj}bG_q5>}!6wI8riR5-A-oW$y*yvPk)OIrCe?6_LvE%1G6C
zRit{nI#M%U6R91qW#4S!x=8(aJ@ebczDUD(L!@!MG14^N#KIim=19wUOQdzYHPSZT
z#=@N8_K1Jn&-|`%N2GJSGtxEQ#oi0U-I1R09_Dw4dn231H%0o!`y&10{VdEA-W(Yi
zABb!j-xAq6zBRIKd|PC2d@!<oe0yZa_>RcV@tu)f<GUie$9J>%-teBt-toPWedGHg
zL*qk{{p0&tcv1L3<ly+h$nf}ZWMq6Ka%lVz3oi~IjvN_35;;14l)aaPAB!9tKNdMY
zew@9RhDRe~<73QU7CsSqeEjjq6XQ=rPL7{6n?kt)jYfI+ROIydX|pNE6e<rr`G%Q~
z>-a~46~W3gIpZG<R-7@9Kb2!TWC~WjXbM(`I^W2Z<BYS=8idw{TGh~xvCuk%)`uF^
z(5G3b51|dZ9G+pJjR<WD^{8<_&O)0J+M>%hz(QLQ+NR6**-N?p_8(A%{AS5|U?Loz
zcrG0B=Sr?qPn{SJ95_6D;ISj4hos!0*-Mgj?0jr`ZgwI(ipcrL=YsQyYL;v#CWMJd
zC>9d@Ia2B5d@MW>jRvBV6X8%WFm-+)5Q#`0-RmdjCuU<v=a`<Ijs?PVXU-s{MJgPb
zkA{NB=Y|i=%}!09k&2b~$0@!X=zU^tJ~lmj=6EP}b}o48()o~7Idy(8aA9y_Fc6sw
z1z6^RNuEX7?DMSrtZ<a=nWDl1kqIF@JxdAEWUEr3RHXQLG5aT?A*n_V3w<OsedcWJ
zBsK5k{Q2{9LM#+SYWuP2+0cZ*;(EAWm%9A)EUVe{LMW*Jh^iE`_DwHLP~Y+-QFLUH
zK3HzO5*E^OMh0Fg^RXunOiZ4YKcG5&&&^MV(ft^Uv(vLvA%TsAGC0&z=Y`Pu2_Y1i
zn#PEtUQ&q=niGPEd7<yZ=0I#NaAEU>KB+7k3Wp|R0p68oLXk*dI&wbjw@W1>YUao1
zLi;Bs&xK}#Qp?2o^WjVSg3lw%SZFpnC-6yunhYA&Z!qxC`c>%~qmM}0Rh<dN^kq^5
zpOb6UI33l0it<6jBnq4f&pkI04n(J<8X<IMI*KXGCJ{|m`aU%=8JiQLQiCuTn~0&S
z)CN-<Skwz_HbkWwxto-V(Ra18BzN?}#Ci0q+^v27JgHpnCt4qT7NST@AgP?HtA)zd
z4F#ndb;R&BJaLJ}6n)B5OFrc*HJ#FD$3U6(L&Dtr`IBcSux!+YN^!M9JSd%~jGmi5
ze;&maMK4S*EQHaY;kn6kY#n2II!4Y9@`*flUaAyA%IpqYn2w!Aoi6gRM$8gy6rnI*
zHR?_wm7fR+r`V)mD@px;`Rt@JCNO8Px}%uN6}oO`#jCqY;n@lO&`L#_?`&P0B^NI{
zdK^6-5~SRb6N8dv^vRJE1Cx9w=B`bCx%VtK@n6BA95RiYgQoGEpm{vkW}<(=(qL{V
zFPImy1alS&Os1eElpnHGBBA`AAIzDuE}5px!GafE;{_pWFh69Q$_ZLu%zH!5e%#JN
z^FxlA3OPvkLwO;-O&8zA;uj*+t_yX`xv<jl&7u3|36=$&FXoMVdHK9<h~v`5DZ;nH
zP;tl-Dw)b*Ex>U$l^1mD;*<tGXlZ^Z58+<qR~9Tnt$TFUmAx~Y9t@MyRtAe%oAQGt
z$f0V<bkRIsebVGFm%MCV;7Gwt;``e|9sl)B(h1_j<n}3Xd>FKzQK<&A6T95xx$|?=
zvsmz0WYLf?&GxULRC@0Dz$ER0@+lBuhlJz~U7QTh2Sb<+bYexNd?6H@7iK5(bhV~K
znf~s*2<HptmrXJC<K?`#>DK_TDI;h$#m#XO&Qtk`=ip5~)J>*%?nQGHpw}4_Le&!D
zW}z&`z(Gnh<5JRUzd^GCJeW<F@Xwz!x)3;sQ*{#Oi`EZlvQO)Q9^Z*@2)n;;b}kn3
z#m-K|;Do5>BJfT}eW8n(^3##fY-}Rzo0tvyCg<kEaL-Q6o(c8%3nUAcJ{E;F5MZZq
zK-hyS346)e2S>{1=d)CBVM3V2o`{1w4_n<-c05}kz(y?)h!Sk;!}G#VKhhhEobNq9
zeZD(3Az+8@zBs>a`{224q2BQHbG_#;;S8VceLftH^kQg2;XvqO2>a)p(93q9Xs^7f
zu#=HTnL8irIe$qwh$0rMl*yq^pdO_aPvd*^5S*X9V7l)#*$OWgh}Mc#YgM}I@KWBY
z)t_$JLBEaZ`kp)W12-G#rRIB%wl!zb=SMG(uIHG&`^-Pe&2<&7=bD`D_mGuoQU>nG
z&mJ~kXoz1nT{2_5Br9tM>UhI+!z|@ahNDqR;}ed+m8^6|%>q&~s=4wljF_wkUohQu
zR|-e*no%yzI#%v}c=WS$MxBrNAV1n1o>6C_^37yAlXDW)9K{Z6L7z{am8{QAh36(>
zeOslxvlAHNQN-0Zpn@u?9u)x`j)5TCq!&6K9Ey$No~KMp;k;ma$5Z-p;nl(~Szfol
zW>2^~6V}cL8%*`h?&u#pg+SprIoWkAqH-gE=_V)6Pdqmro{n8wXg020W-RKfdo*>a
z<Gl~og9eh-!wL^>Z00j&bRQOJ$=Rt4sIzA#IyY-vxe}@zhfM)?g+nwMq6@9Y)ys}|
zkt*om74)<w+-(VK8?UB*<f)3RnjdG?jGJcgoBe#IA#R?bSXqy8Y-L}<ex}B!9ZGlt
zuQzh|K4ItJOc+2Ef@tYUUUUqgNLt?j2<YsMQcZpGa`5sLy3Y$u5B9_Zk>beWUKgAf
zOlgNZ<){}O^$AC3x@jQQv{!7}dpj?+@07UjRI=&x(!sZ#K3czByr1+fruD%3DIWv-
zGIsPA%$LmQmFzW+Xu+Id?i+F+8}*uUE-dE8bAx&3wqaHxub?Gve%>T>$Kj(Ba4|2Y
zT>4G%yjVVh*rVhul*jW7OV8IzU$g`Z;uhp;zLd9NZ8PHQ%Cy92=4O_ek)PkXaFQQ5
zzUe8PBRD>k@xZY`cQRk}EIU4)3;F2!<a-WBPtZ3vYp3m=9{q+br@^W1WWfRXI5r8#
zPzgCuzV=9V9%UkYW=`0F&p2jsu~;Nac<us@C;N1CdNvxHn4JtsdBN$)n3Nlh2{-bE
zF_x9K0;kSMc2rH^D^fV4l_ak_f!0HmdY@HTo{Kee&xZtI8Zd&s1#*oSdX#R^4w{F>
ze}PK)Jvc9z)(cI}iiD#+U0lANZ>nfcmA8rIZ7YSha+2jcQ{_Wq`B1X_z>*UmofX%1
z+;Oz<n9izePm2zJx*BoC>TOHM*4&lXy57uNb$6$0{i)h+v9^09d~1KQcJCE?y13%n
zQL(r+UEPB6JSFQkQ&nrK(l1u}SGrJA<<6y}l)mFjldJBImHAtCv3GyEyy339n5_#b
zpO5aOejlN^%GSr1*!l=!ZD8J=#|~kzLNLd%9V#<<F(;<3w0KU8RvLSh?@>n#urq&x
zIm+(xS#vyRMuEYV&-e{uO(`j9g=M6+yl3isCB|aj2Kg7LF)XtK*a6<V4#sixB^k%C
zY9+;UHE8g8vrw$-5u5hqcT7S17ju<VpEU;^@!aQ4i}^W#E#vv|ytqX{`T(MKjtbN0
zub&PK1Lk8uW1D_5xA|goJ}le`AFUrk;|Q00)3fp_Wy?Z1OX)k0Pe-xZ&iHup0IkV3
zimA^{P9_y+f!u5X??X0H{`8sIIU)4ZMrHB%Cg%kKfN1y<b__T&AQ9c+`{_(Z-cc&-
z`D4e9tI#b2co}5-thUtIj>HbzXMJ>-viriNxp~1CAz-pC$}^Q~IxjFNvWM?3`I3u{
z;wfP+5;zyS6cr+<vM@{awm&%$o(~NR!ki$SqX5U_r-w#Q1%{3t8awGPU^|X5Ptl{~
z&<>-4%M2=x((LBDi@d!!SV4T1Ez~L<qU|QS&&x;~U5A6s1DitCwI@YK)7|R2RCSkF
z-L>-M&Dq43;bip)wuIu^YvDH!t`_&LmH844A4!&dG~xLuwv1GDr&!&&a_m-PvU>N@
zvF{bvvk0Tfvay6`EZw{*)jS|J4<xo6O*TK4a5mhn>qyo0h;==Q-hIisq03|IR#Q#m
zt2?gmSPtLZpQP<4-Q4l|(btY9dJiU>hgp*5S7)xztW+fH`j^J;I?7-9r0D2aE2>Es
z4SelmH;=EIa`&6t;CkEc<ywjh*G(2c(oR!*_f2P_ZCAqD{MYWHL~(DTZ{#g^(*4nd
z^`r7u1T4nX^hM*X=<m=iII0an8alpp+YT;hMt~1O)$ItG$&a##aIE4gXO!-s>6y(q
z!gFxdGt&VdHNRvd|MRA3E4B=EJ5zF`ZA)3Uh+9u_jW-r07IHGbv>8{woIJWr<V}1Q
z`>b7_MZN=c=cQA5!pE*gx`SB0+y;F#i89tvkDB~2ZhpA<`ktGMoyC<9fV&U(!$}|p
z&-mKun$57GJnN{R-4mnp&*6ln2ujQzyPDrAf(`g_?!!$|%Ntm<d7y6i3XHOhBJ<(c
zG*%?;pKM)5`85@Xw3;1VS;M%H&QF|Sm-JAWkXe`pJ-!iC?tvV-eA6+03C31IkcyTS
ziog}$M}W1jolsFg7qgASFn>Q?k+IoO1>}D85d^FC+{mc~cV^NazlA}(LN5keDmza|
zMj(<oYJtJI=rqX=U`2=la~3-*IfYOJ@B(j=KbHZ=!e=OTzMPDXOAIx?CVEv2oHDdV
zaPb3?zJ)xZpN4~tqsZj+D3Ea*z=QkPNouZ*EFVlY4~or$x0+KsPK!HEuR5OO;6{0M
zs;pzRtYc~9uDkSFS<+pf_LN;~6+OPYB~_`C7O|uy(Yo#JlEHLE-EwQHaf{fvC9(BT
zvhnbpio@>$u&G%uHkEg-mzX@Id>vcZG!?2)pGg%Mz>5l26k>YQEef<Q(7hIOBRPwC
zW|MXd#?1!c>L6Ap-GH*5xC%rF_Lz!VQNZ$(Sc~x-tS=z$=+`(-%&lY^H@$(n(Q`7R
zKJnam-c*hPiU^LFm&XFiXM+^6A|-~J${C}pFMDu=t02=!T&HeWMg@YvfHJiW#eguU
zLt1hkKQ^R$dme!B+$^qD1Qk2wH@2?)4ylChQauw&+8#azzluDCm&jp<9F;Hp3OVI)
zr1Il*SaK|!o-iR*=ssi+7X)gRjMe4oK(pZl2`r66l=BifG{Xh8a1|>g&vFl)zZ~f2
z8_9wSC}`(mcAURLmQl+01=El7b8Ytfc9XO0O6ZmGRY!Z;U7T{ai0+o<DL~0<<vq#r
zO$pDYyYAZMGSS_(vgg*5V&?%he66@+WguC+DdF6-<|@BtS+=e0O4JXoy0)(scdi^v
z7WXBbeeBCC7gt^FYsGCVc`Ko0@j${kfTGwe_vem`j^egENiE$D$6rH;G}?Ru0m&Ya
zcLn&J0cvYl{!$PK1m`9ZocG+^Tv(VxN-2-_9fsGE91M}hdqp4|v2cQ%lN8Ou5H7-#
z<j(~PRA88pXXty79KvESI7XnACcHon4YrgsJ1fvJCD7GJ_)Q9O$tb(YP&gb2+%OA=
z5z6pA``At-?53#XP$AKeVpaU)Mbr24+5sQ*Y)*G=!vA+|g_gp*tsUzY`~qO{H7%dI
zzOY_EZ&p)P-L=W<mCL7a6IrK->vog9@J9~v`Aqp<VA(8HiOQ}Yn(%usR|!Ej{9D&b
z$x7%e=Wd)6{W~a5ml~%_jZ?I|nLZV%pNiB^?aQZDnqGT~KDVo%+wbM)Se`Vaa#TjG
zrR1)y=2}d&HT}?n7daYy>w8#)I?Ge$<&x#emCeg%U#nX;(R*Ux&<~kMj!j|f`^?pr
z(v{qG6Mk;y-J_rN9mSTCbZOPgAHDj~mjhP=>$&va)5m`A+PsOPR?*h>V+%srbYfji
zb4h)ivhQ96`aY8&5zGN00#_rT<}E<16PiAMrch0(dS*PTSM>x7LbjkaWDnU0F%h)k
z4gR15Ih3i9RL_)?5fhv!!77&sLc+KU<Ph)sDzy;#*QnX5o}hb!@H|Fh$u<5uWes{>
zw2Zqi<@t+*E68l(D*A};U<zoW5)gdYr=}yIaSA@1%dzQ6132j<CksY>K!FAc?g7O?
zhiQ-c=qy)~bE=<@QKJaTVW14as_Ez1ErWjm^fC`RLrA&l_##9&W_Pe)5O@=+Uhoq3
zgy~6^p5+#m!K`DbFI9DJHoAj-?d$Q4>8?#apwqfJRW+kAzTi9v0dx2djBbxYg^xs(
zN^sDoKPxka_Z<v`1|plMW_`g4lnmk<E0;jfA>j<JX?(Zlx0oHiQ-GP2BO<c~JO(d_
zUy_C}KBE~hJwf3F7u+KpBB9^($VCl~51KXf!HkMBLlXIUQ$3IM#1;@waz{_$9Q6>2
znpc~TyHu)$oFQ6hAWFngoLlTN*N1F{Za9+t#PAb=Q^TVt$DWYvQy?>O;;f9?WU=+g
zOiqwc`vWJK{w!6=5++R1Xan*G?y{zxXbzQYRW0e-hHq4*wvUS2NAKt6RNI&Ge$CA{
z1Ug5his{+&^T4}f`UWuQ0TAtD(+oB!18_^9)DRXa3T&C0LUPD)D7oZB%!x>pW9=vD
zI8Yw)6J&L7KSt$c)2H%2Wr?A({E4e~nMG^7zz7AZ5w8|)fRoG_#4)puIA+B+8hiEt
znzJi@?RQ4m^|T<9;EAbwo6(LoYmVnH+GE8^5)GQ0DN(|--?$a`F+1iC%|JY~tHo_^
zTHcUrw&=iZji95fCzv01D3Bb8fRA4LAIE5;WzWNF7OPg`X??D1xxwzKTLHE=3zXU|
zI(6mLDS2wY56|-rdE{q&S_;J%cLu?sR*e;F*hAL1Q>g=>`CoLaT|c*0yB^wVTim6!
znh|g9qmqjs5@2we08<UXt5?v6KcKE<VE&CfV6w5%N;bY)gVPboE-zO2g)bwbl+W|P
zw)2OSj)ghpeA#h9OjK-lAa*3b7ijVM2uE8Lf^a*HP%vZ!V`rnn3guU++YK@|6TSg5
z;x7X<T^UD$u$fX@LXq>aOHz@_E5o)EV*C;Y=zA_GT2cW^xVc}lfU#(5PRa$D&0nay
z7f?ln8|3^Oa^4{4O*m3f=weKm2*}ODHAaXEe?ng~n#}>=e@o$Cr&JbxY|{2XN0s*Q
z+jQZi5F*wco@*wtEn|<)j7L-<2JzxHU1Guo!LiodmT2FTY~Gu&Hl!;$QWZU7MbFBo
zlNEcHT<Q8POBN82)BYj)ZB2I^px-utqMnkJ+b6nxDfjL>?%nruO|GJpv;K~={;s!n
zy})EE#T}-ob<JD$a`n~fw8x+5Jn+^o90NrJO_x`s@xQ9=zN?_fzLdZ20VO+S^@&#B
za>dHlRcrrUqJY(ij+&HX`yI#jcdGl>0B?Tm>c_rRoM_pZY}obf;qM&(*74QSC(?DD
z_bs_Kg-gfoTTS)Nub#Vp?#-63bl>Ps)(xiWc8PVnmX2NbE{&y~-juUhbT%)4{N~fE
z&i(I{bUr-G(!!--w4tK*<xgJy<d?R*zWcS^$@0Eb`4+K!%hK@GhNZ(=me1TAe%rZY
zz24;9!49|#kU&KZ+(O?INMMAB0}9S;MCqQP)L9SBEP6mSFic|{8Z^_cb*>#;8u|m0
z<)ra|M0;W?oxr%J#<?TZ;K)-BB5--4wxFM=NDR;{RK$c_1^g&23+BA3QYLY*su6VQ
zbF<>eTf51mi(@uAQXkf%S$SHOf&qBtaU{kF_#a%v6*et|qJcBQM9^;&v_+c>1~DlY
z+@?Z5(hC2M9Lhy9$Anw>_2=m}3`!<Bh^6cThi9X7PSZl?OT6~HFgF<j%c;D^0~1rk
z$S1?`3tJQ@H5)2>XtJ%e0ni2oPz{T-=4#DSe!2{JvUahoJyq5vmUSh|dX^k%Pie~2
zD0&)~L#ft5v32m4S8UxWdUmGV`$YG?Rrmh2#+``tvh%9*S}0YwNvzv+vnAC(BKD8m
z%gt#j6rJ@;k6kMRimswzx$O0d*DC&}s#{xD%dwNZ<Xo$5UH;_lmetzBw4YS1)wEDC
z+r-vwDHPJWGugWPt<$SDCzmX5TRF3cWWETr!t_KmgS&}lG6T0i1<yt(bR)oyA+A+`
z4T<Fk^Vk3!N2od%l$gX3^``j^d3}OTl`{(Bu7w?2+KgbME+mi$u=pR~N3t-=e^!i)
zdGVKs#*$>t2O){@3@S^;KF_ipqR}NLCv5Ld?9re9^yN>d+|8o9IbBo?gz3w>uI@@#
z)}<;t#mdffMQy6WFIM=|-qLl4$<uPrl<%>xoAPaT4yMx`#_tinK=t|8<h)GIHF6jV
z<skX!R26=g92yMai{$(^IRq96e@@O{z>)GfS0rl%=OQ^u-;R(&_gv=OhbQ`7I4_#s
z&9Pam>t%Tsd!l9Qx(UCx2JX?%y0gc!^RBz(^A|5)r1q^_@Qy>Jsdc@8d{$FK%ks(B
zZ0k09vztmQ)*a+?n#wBIUF0h?mDjv{?&`UFZhCvxY_ps)-$WVodn<U4{jS%UTKw<Y
zoECdVQFupDPVeV;UEZ}`KyOwPsuI2&zIIA1Y*?oRDAVr#e9h&W`wqPEuA~-D;!k~g
zWZ%7KF@LkUGC2|?WHGuj7$HM~K$cA9Gycr{7oFo)aB|v=E(k#jp&q7kWKK@!xC7`C
z<CwYcr*z~&_`IxVDxdg0$6eqpee{;tLxn)t6b7C6b0M7pkUwP)79wBI`^uMkh;f0A
zd*5HWP?6kgc|gqMjTdu{*^S&_%lpdRix%QU&VIm;Y8+mSUMUHc221f*20t6mV7cn6
zfUk0cv^;KAs7y{(9V!pjgeoAUVO$oEUx$+F5z~j?hKI&%eCXGvhkga;u~9#SHfW1+
zY|ih?W_U-i8AvpZE4Nkn4fOHCp8%u(01^#2G{%L?utGlvY#Ga!VVYFD)6b4^T0%2~
zAvmMP<fnBU0LEOtfVd3KJLO7@YkwxUFCnhf_>7!oiR3Tll0Xoy@bZL39QCve0&x&f
zA<LLYj$)cAQheI4@cSCMNXbk1?U;(1P{Q;%0xdyzp{ysS?mII?lgoMt+7<R8r2&G$
zXlIFb#C%E?Gfj$5`_+iwKmuqbH)}BzpT6erktevYjaoL-s^q2pf^Wv6@y&34YQU!X
zGJ(yk7k&T-xgy20@X^t^+3qvAE)v7_FcF8rSFK=9WsEJZv)y4tnVr1E2-;m!0AmSX
zOyVYlc|8j(Z+Gl0u#0ET;%d$!{nUG!vDA!^0Lc*&$MG##edj{LY$zP{mk0+?cTW7V
zllTV5pmH)=6rZF)M%jyGFiCUrUbKfT5}A*#2f|U|Xb+QyVqPId$;)&S6ne>+ywL3P
zQK|Y#@Y)1UpBxU192+`$_{iu8aG%G=@OolU7^Irf5DWE`lau2_pEwmj8r<#YLQ)|}
z(S%h68ax0}y)aDifYg|p3(OI}UcrIWr;zVS$?`mL)+jVWY8P)IRZ%z$N2L+Iz`-4Y
zn=$}7mC&eSREa1R6%p?zVDz>tjNaEuIs4nHwFC5*rM#Ey3cB@2IXO1_yH*oG=ayZZ
z1N^`t`fXaHt90ibN9XFM{i~Y}u5}ztc8n|?Ty?hH#U0+$DSA3rdk>^~Pl&xI?s!h5
zD{5Y~Ubm(ydhb;9zT+uNd3+$3gQ8Ws^L}oww+OfF-UH@T&rz}G=#{)xPv<*MT>NW9
zCs<^fh!DS5Y~Gt{9u~n*(=>AXEI4z1l$!%4nMzaNuo(=k3?9m0{ibaOK#+-1gJ|=@
zg1~F`6I0pvj5ad1)XkUPJFU85Y5B9XL%NHvAqG_0Di_T$6_aapi6xdo!;7cEMyO%e
z;^4ZDsW{!s*o=P-2zzBC<Q&;KEm6Ny_%En9o3z4Tk?(KFX&~qO<gi(44~CwbKf|Ue
zn}8gIr^P5$M<y;k2X2&!a}P?&-QYYNl1CA_Qbg$ZET%Dn^aG#6e~*`iO}Z<nHisWl
z!t*q(FCZzVH6Ul==4cfit*ae-QXP+p9gp2{JO<8<w9A`vwTrIy)vkT1uES#2;XAIw
zYxO76o|2cXSFN~S`U(@y8eA=1#VKd4=&ZdKOf(Oqn)is!ds5AZ#O6b*&co^Ari8QU
zo#KkC+r;9n$>PC;bC3h$KR^XCj!$(4{t>=xH2+@6IcoZ>o)^oI=gN5QD&xGE8&l_>
zA>Wiao@<0iF}esSdE)5KW!KN2TKQ&-SyCW*Xg}1$8A2P{rp*!I@933wCpI~5$cPE*
z8n$~$1x&;y7R|hbLg1B)O{y}03oV9|AUoPG)5z0Z5d&{$*h9LNCfu76)=hBNih9yc
z&*u+c23F0JayE$0hI^LWV*647HXNHfWvvvg;PhQSqhJa4iLLuqtwU*d*-{}JRmm|s
zAAzI|NJ+7%<TyJGTI4Jv97*+HC<qCWP;i<srVkRF7@Brc9T-&7ia!Vb?h%=8qX}Vz
zuLD7cCKG#%FbN>&SQZQ7`No5<ZZTF&BfFB1_G>f^Ag-Mg&szW<V$n7W-=a+;7HC}Z
zMjH|!J|b!r0M{nh84>|`ajTACWXD!ktd+0$Krpgv)9-zh2UeqpmPZ6Cqw)%}2vkZ%
zbiYQUam6f*zmJ}@#B(6$n6v1d1w$2B5a83`R9#;hFcW}$WYvwl3L9z_L@(0@iU&Px
zQ+jXF^~fdUK>G4$E2D6OUbXAVI~&At#0!<WVx!5QQ3-jxE#wBBF%`Zxf~seHT3p39
zt&<A;1@wUX7f^<0gC2Cn-MSt$p5KLWj~0g!+T5dzJoEzsdW5f#bCaB}!jbGGaLtjz
zlI=pj?4=VK&-z}0PBF=&MdH|H$*o4^0bGj2P4RTZHmMNNbnkv|770!G2C`?gIDVSk
zrPs~m{3$vAo*YIt%bS`9BK$VqrTqExpb3Tq0&su{Wc&xh-{J+iAHoj@nAgeoE;&CW
zhlppw|4Poc$@wxI-gK}x5GC<P6#9=8T9(~b&i)|$gkt;?IX@-mpW#HkaDZaZd^k+=
z=lGPtld8cqnN+mjpu?;fLxaPt;=M^>IPfYvGYD&-Z+(97@?gr*c*oJ0uB=Mb?h-3^
zT|RoZa&YPBJEeY=ZU)j>RoYXXE^EARvw(Ky)M#hL_A>jDeZ5Shoz<)?tXg-xQ_`+a
zjvRW8lb70;Z2IKYE7PmiK|Sd$>DbN=YeKcA+^u)qpa5>U`H6&oyXa}XD|-{3*0uVr
zL`)mMI-V}+NSBnaRn@=ReZBjBL0(xAGN|tYp^t-X9+Mh%xq7+qX6`q(d~^37?_MoE
z!U=ixg-gVyPsBtb)+JiDCAJ?~bskk|Z9oR!as#>p7S>gta<+)hmbABiwPAOv;h@-X
zFx7BWY&e?mJO)yus}MJ*_bv_qM%@;<`i6C?D_k1Qs1vV&u1Z^Oe(G)K$U0Q27!d#o
zn4qoy9`Ptbv=x(wKiDwTJB<<s@|+4lXkkIKjvvAtP;<!0OAo-vNgp9E`B38AB4Oy|
zS%i=`I7cku{73;Ie02Q4=3u_EP2p(0i257cX|9+*bI$n7OsUo)#i!hGf>yePA=kDI
z(i$APLC)u=q_pFxH#m5W5JS;|qYyz-%7%!RVM}Iem0D`QLED=S1xzzK>>!S1JgN_=
z{{m*gq9xX#l=41u$R(n#QXfcjM3EB&B^L{{+=8lj7QRp5yOmIQ#%09wDZh9D{#h2_
z`{kTqL9pPL0Ti)t!(NipSXoWv`MhXD83bPD@vq9PAwux`EqNE}v1n&C0{M8c;3ZH1
zUz*R;ucN%I^`VlmXInE?h{0@qgcYLZma!64ejuSAEoww1v!2gnmTeH@5z401iai-+
zt6Vw4R+QbW#L<2~(~;3`gBV70TUifTy{YzEMjceJkkz48D_ikp)xjXf`>2C@DZm=X
zK9T)=<};7J_Jy8Ur;^@yE*g!Cvc`;4==cH+>lf=%N;Fb4!thVNSf3KdxD13E?C{FU
z!ahwf7<(XpA)gRH5f}K~3ooDGoCJ*bmoUIGM}d!V6sVlROwvlzJEG$f)&z(2yt+{m
zXX=*mv_K<k`a5K<Vq!H`i-M94g%el-zD9(%P+=||0^L>YGbzCt<d_TS%qb<#P|gk<
z2&&3>7+^Ol+^56@7B38E1AvMk+1ZKbL%x0=a2BL11QiB`n&Sw#uqN>;tB7&ZZ9#zL
zKT*Ca#OSYLEF2u%{6qT0U``K1T|=`|GzMYIx${v0=cY-JC<0DRlT-kuJ;dzAp-?Eh
zBc3ke%GH6*MCz9E8U8pbSp-sEl2tlK_tBKs;rwVV2`zB^4juT+%4bCvGNuy1^}NF+
z?*j-B$;NvjFdam#NTy4&qH;oz0&KxgDAx;fAnHIl%7EdQgUUqGU+6c){5+KX<R8!t
z(RXnQFtm0}%kt?|%NDU^OR8mu*s|lTmeuML#1T@lR@JmT{QB5yV_dT9Ez4@vC>TfF
z|JAyMp}GOtIg77sNmO;c?dT@HlfxqYKLu#h3!F7XyjoM94$;$*^mN@cCp~@XlFC#`
zhgi~)D%m8KY`W<cOE%y9M6zV?Zh7^~7q4DSmG|5!?;**~B0_fi?-8;)fe^c?u`SiG
zO>EefYS<|@?7VGGG=Kwbf2!e#*l^?u$$qqSaLLnD^A53j$E`lGdG~Fv*t|dCX;^D$
zU7k<1Z4=wJrP_9jZM$zxh;94+bHmV;Bk7vjE5mEe{*{J5IDF0e*Uj70H4UknF0rO-
z<teddTiVyMVo7Wo65EFozM((sOZX1Ho10Tx2f(+sF;&wq*7V=pF4pY6bylo7bkAmK
zsk&x+x5@<h`KN9b-o7LbKAx<3;$4TOvg*<ErOYeq5)J)gMgMinyG^E+?sbc)aliR~
zm#Jg(%{__7pIr5S<cj5OPwPAWeqERLiY2|b<^gke6kV~bdRhTf^Wo`Sb#&b<P4$h4
zeItp!C)S#~8Dmk4=xO2ObE^fZTEJ_!>TGzlRDRLpPkK6UZP6tJO9q<_9jlJco0in3
zgW{%xiA^Wgnz~qV&7!9{<!Ki^?MY7uE3uiC=+oh#6OMk!KWR6ewf1edEUCf6;^5)b
z;Bj&Ac(Q%;iiMLyRy{3DEUQCwcdYj8PxXw6J!5y=V{4v1nv46z{{6Ryzcco&u~pBh
zHEZ+o>9-XPFqrx3Lko-D3-(}9Y=mTdG^&SQzHr8>mY{lYb{L@(RdzfzqDpZ<3IlR0
zLRG@9mc~f!lLAX1g$h4tDK-ox1VPq=xJIxu-H2q!4A}47(GkB*vR>$uaUHfZeGu?J
zk1ZI1{c2#p8aScGgzpU7Cnf8I8WTP_u$WFDq65a}pa)Psm>!_Q5Hlm&=%p&oiY#Xj
z9zlk42E#H`;1xtaF&_#+T!&5=sg%c*%jB9RCj{-_k%}@gF~G_^uLx=^Ap^ajhO8)%
zw3m=}xD3qyLa*UI%@hR~CfJQx8vR!&0q6~^EMp?gJMMPSAXBBCVreI1AlxdJZB3Q!
z5zF=@%l5HP9b#z*`_w0v^`*+Ti)GuBWjixJb&6%3EW|IC`dQ>2v8)H1-~D1cF{9ZP
zW;Ei81M4OFjPXF8nFf|0`kl@P&PfiaUm(q3OxvReO#)*kWMI%0_<l~Zlgoo7k47Yr
zLyBZ&iP{GUn#hMEwEIZq@(E8RgB%{1nxAEACP<y%90`)M5UG^aEXZaW3&fO}gVICL
z8xW01-%t|45(bEiQL5nzfaLaYAPEFJj(L;pNG;1;Ne-w}g6`5l=zRD&$s^Z{m_P&1
zPlql@<qAJMR1%#(dnw9z<Ei4M$_MDf3?md(n4gVJ>hIvR!r2aF$B1JG@<RF-dl7#$
z*%#c8O-7gs9m3lHGG$P0Tig@OAz##v8+UHp^E;+5<|umu^0f$@s;1ttATgDL+i4-Y
zJ3=Za?tU{*Tjw#_GudNA3SlXk`VgeE#vO5I+=ZMB*(*Tgkg2#&qX!mC7t0pQ-?Nnl
zdmn3MBU+gcNo;CkL3SH8=^fP1950QR1+8%p+Gj`GY+Bob_Mjtdk2n?~6lr{$;S@;R
ztScxdBfJJeRaCsvQ@C+cnNE~xh#!$_;(9~wTkNKVqYM4RCywnmU=w-PXfJuzcPSL>
zfdakh@ccs4u&Sqp-rIcIT=qQ&zL7IvJpt1+?O>8iA=8l>(x}i#K(bR=X|zs+b_5Ac
z<UsMVNoXYps+CPQoC2{jvm`<b`B<c8^07!PdI!CBk^|Mu5P^duIj3i#DF)ozBns%y
z5w@^EArzkP56sRHtH;6~wF$bqg9Qd^W}sD}y^Xc2%h#q))aLI}S~mhl-~yn~!xNJs
zp_d9~t$?;@UU%if<6`P56q@BJzg2RwtxCQ!NmlkY9gGS)DJjbd2%hZh{BEgubS`!T
z+H2V@ClusbUa}Yke3X*TVyRFj&hot^Di!f^<Zj`DD1Sq-8!2|rLwIy}190H<s6JsA
z)%Cwoauq@Euhd;r7<)5~v~I-M0BXagb(g^avf<~Qv59i&BL|wbL4+U&I<rjzK~#d5
z9I8!}P*b`qOs1D#Xp)GMp}$bW{j;5VjLyVQA+r}u@AjCS<!ePPY0p8hB9Iao;&0iA
zn*n0_cZ#7h2656wTW-$Wd^+LTk94lWL~$GGm;jeT<CVQ@#e+Eg(slK~gQsf;(oI|F
zwV@BnuhQK|a2S@L96M0jRRGFU%{#^Bo$0D-$k3!~yVFJG>53+3z9K)uD_hcy+nA>|
zRk=y5+;qRv)nXT|4NJ}|XP3=jZO%B;N5qbiJC2cbac!buyI8y(mmstUnj))F__eO}
zT(cK)<_Jp^ZwH88(v$Xh0am9yHEB-;n8>M$sBTt8e^g;|oi^VsE>9J=i^c5;reOf?
zUl;p$dJamH2!Z>m8`{6pm5@KGp=@d!QnmeJZNHXlxs#gjba7Ju4L9@?{NVq=Gdc>G
zYHliq`>ya~jNs@9Th91A>aXEkFaMfm;>+Y*BWE``C&|%x)(_%U%88tlszwMN!pNWC
zI;4kYgCnvQX@SUVQoR}h`~-kRXrBPP!RcB2(7W*8Dd#Ve^9nhCP7d9b1p>8&2AYwp
z<hxD|9lcyjf`ti}0iK!18s;qWuhPe5IC{+mzd?cIoS<p_tC*9}T<~s=1)TDQHBeYk
z*0yfJFQ7J0smdQ;Kp|GrP+%k9E|+EdU7I6igOq;jN{MLe{*eVi>vaxG`Q56TRMj@I
zYTLR6Z&}$;2(odeY@MR5^PY{~t3G1395QFH$g>b61-E?x_gl$t<9@rTqkG-K{UBy>
zK71E{7jjNO8N$siUmyJH;Mezlb?-WwY3aHhyT^XlgE=0H9k8ONcL48-nuB{5ysY=*
zvYu{eNw;;T8=KP|J?YKc(lvPPNN?Mj?(R=l`EVIdZyKQ2E!*Gi{J0sNrWYlk0D^gC
z27mTyB_Xi*)%d!Ny@GqCc-_Ig5GklycQJ3Fsk(mM&Ac9n99(O@dUV~(UW-iCb<26z
zJJyTYYl*4Ww_eJ;WhOM{*wtgp17b<rdN~WLFg13p9DJ>Qy^_6FnaZoytC_dP<ZD^4
zW!^e8^Yxn7YHsF<4Fl`-EX-$W>s)VO-bRvnXky-Gs$mQBwwkJauXbIB@(Ho3d%cZ?
zwP$4HXJH*E=hgW2_)1W$?_XzKwB994G+eV>3%we?9$p##%CQ^A5_N-O#dguQ{m0#u
zQaGy2&PjOGM*-RHjbqMcOFBT=LYX4%5afyxG~LtrArK$Hhhb;(3RY;IhO`2dJlL}|
zNjq3*e#mJA64BnDrDM8~#V^RxF71|cQ8Z6O)3gGpLe`+1v`j<uG%KIi6zL&{pvEb}
zH+P2S=>n#C8d3vloYEjT{?P(bZ&8H&%7VqHb&uLts>e|CG*4R@EMaZR50)YajmN!0
zDpp{#(dS3b4;)~M<Q}ejdZ0(D%Tzth)!}PMVBr$#G%D<aE7@h$0;F(a2mzB|I#M6n
z%;@jl=ip?qpj+NU(X?6Ud@sH@4WkX3k}05;3`khVgpQkojtN~+H+}9wb<<2ux(;Ej
zs^t5b6iyRVIK^~g^!TkB)3X438=NCk7(u59qx4Gs$-2{@&w(NqNe$(Z4kMDL%u~-c
zTw^fCD%bG;LO{x6Nc$6@R|^%cVNws>bBvgQJHO}f>oh?hHG`!WM?I+I{-uL2jiuXm
z5Myw2x~ZS5nDv^R9c)!kqUIS78|gd*DJr6!5n|$=J5S2X2Mo0YGi^T$hV>^@1nCg^
zbE-cLE$J$*eXwM8jy=mtj=|-R;q6rUXh>1lr8T&_o&iTCQv(daJO(VBLT18ga=t;%
zC>(Y!%jobY@xIVyG&IySl@VX3TKc=xRH83usf&JdIMuaR?An`f?@L(sJ=g_E!Izn?
z^M7yxfyRCQ6uxMRn05O?4^=EvQ}kb;O2Rm0MH_j>kkjz9A-BS#D2W!Hrntw+$?lJ5
z5V+93QGakT08LZ$9V+<aln*NyZ|b9tIDOs-NBSYEeHNZYIl^;r^w>3~gGys`)psLD
z<IojJ)&>2asWBnSg*Ap6pgc5WtQYC_gU0-irkmONq3C8V4%*@tBXxJmDarIeqb$FD
z;UgRAZHAExSplj->3e^=o4J0|vltNJ7&+7A%#gE_oX0UhWKd%OoAfyf2$K^bXO^5f
zIFbeOHBb?89)4}FmNx|2UNrW2{e*d#hGhwJCraG_#H;fcqG7q}+6*pd>1sc8Fg%Ke
zWlj)D4jvVIkEY986jjSiacqXxg95aI&GmK6dfG9Vp5=cA3M%_3LB#(-^epGSkQ)S}
z&TNOK$O#(H?Pvgd6jHnZE@#9l*N8H~0-aWZJOz|ts8G2#Hq;WWGVd(r$MaFXZLwgs
zURQp;rt(Htem-J3Z6=K~JFaPQF4#a{wBw9P$zjo|E5Z7py2ofr*EXlFZE9_^+O~m`
z*q~kmws9P--g)t#Z~q&YueRtz?0@5uT<@d*^>gb{`af3_Ey~i$U8sG5bfH_5E`(NY
z57WwRi`#@gdHs^sf2K!dG3N}_<o%u*j9K=Brq4Sj@jjXJ4AA&cGUb3eQZv;40tJ6H
z=Oss;Y0-&Lr%<SyHAQh}<{SZ9+XPg!1&I3sMIPa#smY{W3^bY2shnn$Pzjb7+GW@i
z)G0{S=DNOwpy{(Y7fcs(pE6xA|9o;KV}z4Ai;fE>e=*ltE|92`rh;6!NUsFyFLW5_
z7l%UNC|9Egb$mow>SDNZb|d(Khf+0Z7cedIEN&mM5Ew_~==&&UbCzu&Ejm*KEJr04
zKjD+)#L1zf4|;qvuPF;h`CUmbj_Ff0pfC-?Q*&WhGeCWzt~?YDGR?zA>dbfez^<}L
z1!)KAr|6ZPu<S_9Bb+?LpGme;@Nz`<Z&RdCQ{`MnYRaW@gU$>H6Bk%lONCmeu|U?m
zeUv5Lyd<~W7VsUh+LL}Kv_dM3aCPx=aFh^u8Hi(!H+})Z3-v~ju1@*+Pw8B*#Bqpo
z9e84{{2XYen)*joe}4D9)Sn}_w#}*5tzzre#I|F}*5i<UOS@rCr3YF}MNiY3w>nX?
z`D-Uvz1!2RyAkkCnJ-<oZ>^kyljQ@6vMoULmTm*0x4ek6!8lD&pe~zaNY?IL8cn-v
z6K<eq>#y38-L=s-53G7OrE5E{+Sl_eUf)^+lq)402Cf{1hK>48RrmVs#$?^_(irJ=
zpL;X5T08)??dh@|-x#><PVPLB*ztIx<Ov|esn{HF-#D|Cv{Tc%U!Qqx23pmVt%p98
zhBd!Betmq!nXKLNKAY9T^~2xnPu6XH^fqD8D;`mmd`I8SV+lVlf2|-6I6GEmZ|93W
zBX_GCmV3nNzNKSQ-IGgWf8ErN9;++-UQ_?ImYbp5yY6fq`wh$TUKoXORihj03X#}T
zhmHmwzq~u$y))6Zi^g}4Hoor?A~WsmNIUD(&g!(Y3`|5saktp)Ke>N0$5h$$r6XW~
z`XN}Nd}~$B>8jn|2;Sb4-19_Y_sK-XDU@Gbb{9xbOHL__(IC=4-#=!4|Ed139}b|p
z(PpfpKilOvTx<FdyBtTXrtkFIj%?2R&aOPTZ`HORvE=?oYx|K+xlH|X2Bb;&0uE`y
zlgVChOwdIrVAAYIk<MZ^ZeSTF41HC`>A^-lgmaFRE5d3;)B=k*^lN^}3E@qZkgeq(
zgc4f?vNHUh7t|CSk~I&9mR9ir>7^>wMoB|p>@-86zSVDA_<~*8mVWWt^v{!0ZedoZ
zOJAwWDMsWRmCPNIxo08gY5etcjNm%eizYGrm+(vQf$0%P*F~v-m=r)Rm24z5#8mSu
z0`;GvXgLA|?&Z=X8%q<wA*o8%%h#@7L0sc|`U869=P+lYbWLNH)HYTle=px;s|J%`
zs=RZxymRT$U3bxyGnYTLT)a~7dv)oWrdP+VkF6ZIS(>cbma5q+*6h8Vd;4^<=CLcb
zba5%^TY?7et#23ie-BH=VXElD{w6Dv=R!|as6vJ?vO1rM%>AG$dCW-_>OoTZ(Nx7l
zkU*V-P&WVI?ZgkJ3mvpX*G+mpkUDu?i9o?ViaL2+iU;o(LKW%=VSY_&kCe(Av4LS#
z(AsD9hvlx%!2=Qb&*Mi^(ayEPGnj*zU$}nw%8VmhuSrX|N|6|$yfh<{Li-cGN2SQv
zTVi8idy-Zjj3mIsD7QBH0Ak=b5nnUhrbi4ALXHb;a~0{oL=*J45M5RZzitODhx1#l
zj3i4pFWJ`|rLvOv@3|{g4e%RlhVNQAl`QU0IQt((Gd!|PmshV9w?kR^e5!Y^*t_?3
zX|fo{?;%xByjl1d=BPlG+<@GAow|oWJFXLqQAQ8a>+g_5(mI+Fcuq1URO+K@f7j7)
z35m<pzYB(hQ=Ck|^uW1Epcql2WR>rr+tt47@LD$CZSPvQ;1|$FUBmLg_3`xrdQ+6W
zuiNO2YZD`%ljx}~^0mrZ-RoqH?{%{JbhCxnX}QMtA#;|>_aU<yYsjod`#CFp7t9vB
zUg<l%CkBrE5O&urcDX*}T|b*!#Ff6|hm^kKXT7~FOX)kklhSwm>Xg3YjUhf+XHQ~K
z)JI;Yrh7#0%BBMn4KTzsPRZKIa-qiz8qHu;wEzrBd2CTG9AQV@13H?{J>SjDqcZsd
zb`N39cd)cdrem`7o$K^>XMhn@J^H)X3@3|zMcO#9EoaD8$n=36johP{K#3v)fl+WM
zKUHG}P5XrgWk-S1#tiEdDh=l~B#P2)?<X&q)~qgO;PYC|+tyartspObfwDK^YG8Am
zEiS_)z_vAVUZE0vR08o1<bZd;YPPgNurjgznAmdc$FM8V_AWVmASuZt{?te2o8$Ug
z{(tTLYQMmfp}jwXU1s8waQNx+fZ{Qo_I`H7<}>qw*_}<Qlx1tkwvTr61}ro`NlN*5
zaBD_70qz~L&U{&aaTi-9uw~T678B<++u>uSv;zu*UQ<ZQK$>R)c9ky0LVh2!tG&bb
zvA!<fN4tENdi$TzrR1#DJ7|@44-XvQ+@(fG+^3%D@=ctZU{W{C$~Kn((wEHB2l_Xt
zC6D^y>*-g4tQ|NHh!g|5u{w}IcA0cCwt312Bl)Wrwrb#(0!j&1sN~S)F#BbVZ&eqE
zXw{e<{F!}4L!+v3egjtweVordoa5F|8<A>CP}uzN)cTShY*X|Ycw6(0FGLK@Cbt6`
zavs`W!Cb~M3pI%u<vEmoP}&|XVZ5}4e8-vP8P_RjX65Lt8EJB`s3U=Q>@ku_27zjW
za`k2lN&TANF)HQF&dr7viZoSZ-LUmchQ6f&#gor%+5gm`i?mR!Q<?^iYzi8Rna^0L
zIKcBDU2U0Pj*QOvATTx^<V)6fX!!VXrlTzc0lO)%cn4Kp25w%EnGVF|Dh64%h)**g
z+_R9+^#v`sS($vFq3nRBqccn@Ak}ZkR#>CAa;8p=#R^cY!2Y2Fj}4C=6t>~3K!>`}
zLC%ZhFudL{`Tm-m*WqLkROy(~EF&>6SPz4%r{PUHtNuG8YnCPMme(%jL4`2sHER<c
zZ3##3n!9!tw!P{%U&;G|bIsej>TOTgxAT|wRc}YSzKy+*UMaum@~2z_qHEyhGpnux
zYt_KPZ6jNx2Va8e!G=}R8ufUhZU60o@9g^4uG>9{mdBF_C~jI)Qm;I9$F((G-ON+8
zuNHSCoTn2#Be!GUiGM48dp6N^I*EYd4$|@fJ+are-f=X*h9I$2ZU_E_I7Y#C0TDJ*
zY*YaQ-q*G+H^1KXTGw*j%BK^Rd*7A`|NMfuLLGR6oPR?OEfB7-NPi6^KdqsAzlRRv
zb}lf75s>{DaZ14SDD8*r(R2N4=ylC%1GAK&Ufz^c&>o=LDw8c`s5ug^x~3))=zX)M
zCK76Pau)!)%jSjk^-%XMCVik4r233n0`*G-I<dz{?nt($LDxX`XcEoFm&*-gpcDv5
z$p*i{e3IhVm2RMk0Cp@eI`jmgq8FAqYzm=+S>~wb-}G+Ku2*~%BYqL~JiOkqdL^DV
zZn~QJl&{*aW?=)hQf+}OI&tYXs+BXt8pbcWR;~?d<<hG&(ohEv?<;0A#dxJOYW<`5
zXpCWDW#e%qRZB)aR;X8_gmc3^`qRUF!_A<pTmaC;ne#)zE}vpWDboxQPJ|5Yojpu5
z4!?<`dZvZlr)O1;BW|10cj0V^$V9#=*o**>h(f@_r|1D?b|}Gj?3<hN^=;)+)n7qI
zn#Lint^AKD>=qoT2nvzOCk1w61}k8$id}pdI~&{n|Cr*RBj?|d!}hU1A>T=IzCq4r
za{d$!m?=QT8q~B03E!kox5*)bjo+=4AlPU}<jR6r5nrZ+-zMkZl0&r?;>d?pHR{Hz
zf~b^#bsB&&`Ia({rA#$I-=)LpkB}?KI^38BlM3Z#G4|eZ@0B<G9lA~5YHDeJ-}W}{
zI+~WB6CLd<Lw6kAWR2D{2K2ikc|eNZQ?fA*D)qjBF%G9@jN>k8_U{#;6^J}NqNnF(
zgXr13R#r_q(GAoLF%um+HACD)$9<Ub=#do-y>c?quq|0T_-)H~T;Fo7dPm8&hb6b%
zzT^M`MYZiwd(*LM-GzizeGgAqWnUtWbtPe<q3`CNRqKAFtmsm88~M|o_LYOFuH9nS
zZmuO#^c*HlM+JFMlw{WwC3$TXc9<g9wV>`MF4TM2^)>?spxz4pC6C_<3{Oyb562u*
z9|dYPGA^MJuxG4l0@d>drVl+ZjzQ-)dvGdd>ibbX5E9hj>@hNM@FCPFS68FltQx62
zle##DhE0rXOzH}=a#W!iEl1oD4D(z-PyOsYomH+nCMZk26{sC<GE$?j8__Z?rsAV}
z2h%U4vVAiM#sD4&TG$=MqqB~s)7%j^KU;u5+%f>k8Kur=ssDGd$XmmO5%*$V#Ip!B
z6KIFQ$u-lg)KB{bON()vjp7!7^@ubFL8H%1o0f;-)Ab43pZzGaJZ@D8Va(XO1y<KS
zguG@tv&+LNT`<%2V5m}$_bAn1RF#y_tfZ~ef~>iu!o|8c`B`ziO07WN=vDm2<Diyl
z)8%K&%Fn3GN1g#$dFkrrw?mfdE!2-ISn2-=JMn${!*kFE&cx+amXa)_k%9>lp2ya<
z;MHAuV?qqHJudwSBZkql^HWn0YzDPYn7$a8kczWHqEms1AH0A%_$&Ac{$2Q`9LQBO
z2;w&0xM~(U*<o0P<ozYL4)sM6^X$auqy+|YTtr-fCJgK!lGbu4^ac~>rz!LWau~eu
zhx9#<<g0~6${XZKuDZoaQ8wYL->v~9l1pD^KL<3ja{M~w=nkEqhE(=^C;)ZlXt-1g
zOWF$yVMwa$A*!eyku~^4r*UPQf<Aum#{5vVD<wG3qW^%pgRx$*`jV>X7Av}w6}_nn
z()aPTEnnaL)!oU8p(PiY<B8nfvRZS5bg@+4C4({DVr6%#vQMn+OIB`9Rc;k4w|;H@
z>x*AqOjZsr6|U8{uhiY1U#&k*DQey+14{wyZINo`WlPF8AmYDs;Px<7b^s`_yyU>;
zx1l5LD!fvf@-~Y2?`ljrTSaH<m*!tzd~Gr5+;aOgA~zuNs<jsUB!E@i4Whdt<!*!3
z<2SdYI`@d3d+xaRfZM@lPdoPkAhOvLcqc(jcI_U#<7irQwy%_~ItkXfLN<*=PXn||
zfBxyqPbX?O-EnRDvEAf4V!jJGtf#L&ohoe=OIw#l($&6Hb+=gEovQ8^tNWLZ-K}d_
z8v9-;OfbKG?zMAYYx#QTS38rfd%(X^dSYqhuRTr6$5PE(#O5tu3w{0ESI;Gz_un2%
zdQN@cTXD7gS`D|hlk|3d-&=aM<hMepGQU{nPkKAn3rw!c`%Y71=gKa0Uc+(Hf>O6u
z-MsuHEG1PBEe-$Lv3Huc-keWuJ0fm7l59Sja6+R@N1}6I;>79Ih9}kdr(b{iwWm`p
zTg8^Gw?nJd$0#Mo-v1@0l8}ItVK<2;7=bbOeh7CXwt5+bHm2hRC9!i%rR)cxDnOup
zL#TSVW`t7dSr6hG05%9M%!-It*j>tbL(cgm)XW*FB!L>f9HZkr$Q0%wUxQX`9RExX
zsOl=xfC=9l9T9Z<!b3{#7QumwgHlCC@Gs=*>_!mjKkH$@15=5xK^;Fxjs@>gpPH=7
z;5DN@24nmIbF6!?#P`V2_h1TL9SNW@7+I);*l30t)ByYo`9O0SBL$isEFWCV*jecj
znvGM%TKIQDbSZIzrYdOcj;Y{J+zLJ-+qC)D!Bab1X`D}xfqYS}GQ+Rr8MppADM-xy
zj0Gwsau*Q1Xa}HXpXpFyXuomGuY=RWUogr}XHXOG;G51E89PaB7v_X>(euQPlh3rJ
z&&t2&*iOO@aNz=-gzPY#htFTe{Zy%}?1YynCcBld(AQVUVdp6A1Hy~+m7V8w(sH!G
zFOlyy`$`T&1#BfB0XxFK!q*JNXX+j&Ik`$5ZU|U?V@J1Sxk#dElJjDKk)pWDpMppv
zFd>|YN=_Nq&E(LeT;yY{_$-MUWbu1uU<jBz&=JhR=%1mQT#iF`92G+$PI($)&yXih
zLyuQ&uUOlgu5V7&Zx-t}r=d5u_j)hBr^>gA<y)DD3{Iv?EAM-4Bm-}Qyk429qVnYn
zS1&9%(-oDk7F;h_Hea_xUD~nNa13n~abkQzY~G$I-?8MxmASrm<rAcp>X6ufC|P${
zv{o-!mf|=jAtL_C%b$EDL^d<;xcv#MKjHSLAq^eB9OsAamrlR_vDZF!M^VzBc2_Im
zsg^;pW$=!BFku}`xCfDHgX1}2-Gf7!az$AjOYx=Q*N?w;{EoXXVeLz}`@sF+DgwCh
z`D2%lrJWTFaHtcVbrkg2<;M`T?kXTl01#2(Cp*+8i;l+S-K!3$N2q^w*Y#a*=B_|L
z*N#N{u0-|jrDJPF9V>?tMMrNvEfyWUd;m%a7$es9JH=fIXIG-QYptklr94s8w{!qF
z`h=r8T~vB4?`p@=fwa4PDN2&_*J={ro|UQYTolmQ5}rnNXOsAMX@=5Wc0)^eTmb;h
zBQ864lzd0XA%Zb;ejlfD^lbzYf!+!NeMyC7$ed^yTsM*D)~S2!cYWZn*|Il7ew_l)
zp=1k>c{O8r?3MGcFfTWU$Gn<7Job7jXS3xvGl)mOWDt*j*99}Ph}UOn%P0}=C{PiY
zr?)JNcod{r#KRj0OsKJwXrlTM1&N+}&!hE5{2^pn4VLZljbH+!Q-k;}r>v^2J6q5a
zvKyiKfx5?l$$TeP@SQk=whdywuhNl+!3htmcy`Eb!**N9%_YzwUH*RZb%wmKjOPs&
z;?IrVXy)CfcVQuq*{TbAUo?%EyszA;&$w)Q>HA9uyK=lA^Mb`_U-?EB@_2Z#{e9(L
zf_BoaE9-$BJmc^(^i6rl9jw4#CH$;r!79~P4PVU$X?fh*P^FxzE>r~zc-63gXIvJK
z-++=D5wi)u%@2*)^3boX5B&<=2uA%7+Mq4Qu`}%CwZTqaE#tGQ16<%2X0a?6ID-c%
ziaj2Rot-1PvH%W`0pH{E6SFbJCYPPAs1Gx2#|a!PjgM<1U`aTg;QJU$PT(AZZ#3h2
zqT*q%p*F;e#SGAyBId<B2>sx2<<DjCBm5fVGBoB_!hV6TK#jrl0Z?x2Vc08^(M7{(
zOHlx|MGM4L4Zv=cL*NK|5Tiu#Yrlx0UUd+|;L3m)DmIB3&{Ho#)4=)#Naln+00#~7
z7j|nD!8g>H0X2`93f#^#$e(pT#DQUiS2V&NLNqK-6AdHI2hgxAs@b`UAdIC$MIu)o
zLHY+}0+f(OfeTHFML0H(GEf)_Pi>FCNZR`lMN@hznQRR1!NO>^XzX}=nk}IM!eMg0
z07vr5EE!4#LqSsT$JjOG+N-29$pZs;a~A>{mPoRbZb8n=!SwP<WdX)`NG9h={SWX>
zOtqLmw*+R2i?cucEnfWv9AOltPuk?CI!pPyY*x=G0S_Gc^8yD84kBQo&bZqGC~`U$
z2)u|XA0>j@PhK$n$O%jc6gAljIrCsKFer+hIH=D7^Mw6-UjIt-S9)&rq&kMgj-jM?
zKdeBvb*I|)ifwyIQ$%yx*P8Ne6Mft0trm)NQdON|RVNa=)2$uMvRr!PF#jb^4Bs7x
zPiI>WS|&EO3b$@DA2RpA_4fRTDWI^JoDG~BgWgadTEzebO!uBe=*D*8qJGR{`Rc8v
zg-57ExVjT)Uv!vi8Hu2M;}>3HJ>MYDkH2T0>WbHLr3<Psr15tl4+FG@y5E>}wEAK#
z7sbcy%NgtjM*E9`ZKr(^_T^M60<$l-MQ>kD_^-&{UnqQ$*3c{D{1*i1bWZ;by%L6i
zPu^kj{T(^#;^Is1?<ws6fD@&$Q@LL$c%jdD5<kRX-0#x7CJt20>onMD_I_?JHxPEm
z*#L8J585vTtbdnT5PKlPV`A@PcVHMK-{gDT{BtuUrygB@fl6<LS^FTS<S=;*@G!7M
zPTh?MCg#*>Z6rwq*2LULJ_6-sh3P{k=5j~<W<EFm0R;hh@Zazw&>_R;1e-QS6XX9x
zluSEvOi@~vViNT%$hIB#Rhk4(BM)4s4Q<D@XWNcbRmg!D%#6r!UaR*sBA21`1O@W_
zhc*$e=Vsw42EowwOyJP-6T&nAqNoq&g0D@F!VmPf`4r(O0-kU{baOTKvO;`LLy2mN
z^-r<eAUgOEO4I3<k*bk-G=n}6=nu$wZ?vKwlH{AznRLc5SyYeAt-p?dEYnNI2JuEQ
z`8Jx?M!WDvyk(3lOrElU;4I(@qi$vornutO{UV0?rinEfO=ZyN)LqzUrv-8^e@3Ns
zshMW-uo=h5Rd;E-rq@-Y&KW^zWJ-=3=!-*SkZ}+dXeRc8`HT}x6?tczVC7n!6d!cP
zs(e|1fz@;2y~-wWtVbx7IK7NYwPkR6J#wj9i;c(92<~J(qccAEK+h20mr)%v%-FrZ
zp7{`KN1R_qwfjXF&}&j=$$QO)piW(h5#j*zQeKnb15~ZdEV?&nTcO^xUF?x-p<A8J
zO3k%j)ImOWGU`C)^^E%0tv8+b2nGsUwUQLyj8E}tzj_0Om?ePVvY(4)p%g2zQwc|`
zF2%3?s{4f(+O>1yc5tBPEEYX-Ulsj~BUZdYZ+YUyO7EiXk2+#SKhubnY)}VpyhN)5
z?vX{K0!hhmHb$oU_dfbB%jlt|OqknK`6r5UhMYfw16BE|NkoM!QSxTlI}G$|y7m3#
z+1!fk1bmY+JV}m5j5tTHo5>+YMb4qfbV&T)^h$uZWZ8dg?7(BppdmATDBPw`|3VIf
ziD;HHc-mj8aSaFtXD;Vp{5GPaMS31fu9W%9ln?8nACd1L$@vL6tT%q2I`I$SNG`gk
z%6jdiQ&NTEg%yHOK&R+l>yKzDvLUeMfk(#}*=!8HXEH_p2OQ&3Gj<Wc7e!f|i4XEa
z0-mdFXIuu*08GDC40P)eYkSz+8b~Fdy!y!{=Nb`9Hi@;c7hILD=*Y09n6B+j)ovDR
zHzx)TCu@%&MwSUhZ=z%~SRC(qs;_+l*35}X(2)-&K_I>>()bT<#Zm{erdXje9WHZg
zinuOhnq#cK>*>AOCwc~qb74jmb-8e(itkkSs(gzu$f&DNELFcrtlyNX-znn1XJ@*s
z-JotY_Jp+prY1Fx$jyl@!>iVjcd8T~OtKQ`VU-(5Z9XV&KA74(CgQ(m%s9(x`;t2&
z$NrmRtJZ^etyL*&19U~FUDd0#+f%iB#oE28+F`MFIN=-tO9n$Nz+j@c?B(jK)z?0@
z(!e=KR=q=<>$47ZtpX81tLv7;wj-<7qwmygR#Sb=@^#l&!6~|jr>RAn%8WDviLHlL
zt%o0|&OWhrU#fOQtQ~<MGOG@fRn~H5mLHmOD($QNr`Q#-O?0+_DP*&K$pvK?I}Vw}
zrY&zhmazKXQQ1!uwXkNH#k9)$MPGZ~FYi=tk}Hoy-#GovXa4w^RqtcG_D1ZgZ(H|s
zjD~s{!vZ6GA)T-HiV&*9YJwUH3}<dQCz88pi{vfZ&4?PzW3ZqD@v|PC{rQLB5sV<*
zcmasa`NVx0huR8)xRmoAy#BdH*ToO1EG8YHmgO>5a`8dR!VMxnt3`$JybrrYtdz{Q
zxX+jtJ^1tDuLys|8UzYOR@jZ{IcU0)^UN47=Ow^FlXRH@{sz`6m}1}esIvhUSt$iK
z1e#rV7E9xvnM&^0yB|UsrAG1%ai@{p38h|Ck(qjZJ-Gi3IY^0THa(<wTpzr5g87i#
z!0|-SVp-g4)I+F&6;?w&=tz_q_LA$v=%tL_BAcg1bE)tHw?IFaii~;+mQ_AzFB#9J
z!VjaD*j(DEcibPi=8mknRBY5kY%YE9vW(}F`@`rZZ7yBOdFct*R8=WXGd{LVG928r
z<o#^X^Byt1O3e4z%|6KamAMal-=juFN{w*)dUz{~m6#uP-3?BUVp!$z#*5;`Q+YtJ
zT2+c#4X17~P9^z5!)!Q)LojIR&ym_dhPw0|fP5&8VI(MU5W^;XUp6I5YM>an2xU>I
z0vD!ZXL(BDGjwmbkCA3FWH7qvW><u8EJ~>Y(J2^d|7D8vCLF0!qlalmUwX*KmGD1P
zq%V_0ELu7-uV0~805veWK@MZ7&IhLy$rgVWAyR%Y^gL|xNOq`(j!mDLpPPqqFPNpA
zJco-KAw(tDnNTFsC!;~5{8h1hAC+qPSH{y74TPs>LlXjVdj&{?f&5vuvzGmt<2{{J
zGkysqpVpSkR6%b>@r;qIe1kH1T(xdmT!RXb**0CXSe0ca_@GpoQ2@0@{lt=G6rp`%
z$<(qkl9{I^ch*FZij)9w+sow3DB)QixCrt9b{&-bP!n-}0%pxHMzQHhWmp10bq6??
zKWhpo!3%qhFO83!!43ec(QmT*BuvWKcKtXf*Jj7H(RRX|uBycy2KF#JQZ+qdP0yRq
zQ?y^~-Jh&Ekg9o1tO4&>`898%wnwb&x#_s|32_r~iSxS#c%=53Q;i43#)E6bs$MTT
z>+!M4{`Yq8<+jX(g1Bi2-yC)r!?gLJ`sbkqRwr7w!3JpSuJ=(EOVcm5?#?KtwLM{N
zOgDoKts&jgruuOYx$?=Bw`pkzD*Wn4h?d3aU};aoGDP`c>XK|^zS;7X&KsRc&(^f3
z{$4>|ec{p=y3N&=a(0VOnBnAcWu9~r{Y!cqm-nWcw&0$G%U5dasJL}B*);Yp?EgG&
z{(Eor)vDjD0X@Z4_%2x1kLZhSTQS4bDwit6&Cc;vN7Azk#io6YkSA;`OgQV%Yp&Lm
zvrBY#eb3XCF6mqu5=(l%Us`$f)GIBoc3$sHmbS8cJqaZwdWKUy$Hbmv$%^CeT5?Ov
zehd>bzN_QE`Sd+UzPIRpt`(IiG1c$WSK=4f_5=E2f5C14M{4^z=u}0`_rZPJ+DROm
ziN42@EyplH-r+oxiHg3Yv;X@p@8wg!)siY|5sO-quGa6nN-lro%Ey))FhRw}ZMUl5
z$`Q98O}ZXiFEH5}A&2m@WY(GJ-FF*{ZY1eC#PXqm#`<YVJ6qwdt2!n5ZCJ+aGO&Vf
zw(K^11@~go!D2-9F`_9!F{2@yw_#l3axoy73SLde320GVzEQqCF$Vq|5K`5<H|Z&W
z9YO^!t*1n3adNZbsBP838wT(W+TvmTk>LbQLDMhi1TCCd>!ES-c^sv7(bD(OZlc~w
znXKS@mc5v#>xaCoHmcYS<6f3=<SO1Cu~Z%et+@)kMVwZ`<7le^+vLM+#T(r%b+`nd
zR+8dVN}Op@LbP9$->khUJ|)Fs{_KHAuOV&;s$Ps4Bg%upt@zPuzL>8Y71+EaoX*eQ
z4_TwC-YB&)p!+AE$=&|UHO?x75YFt8$J~H+^8cAJhcbPPxj_vxr9ly=M`@Mz`=O4E
zx_UB3rr<*z85M72yr!?1g{O_zacn?o^~_eqr~MKa6w>ZN+U;7X;zQplUfnN3cj#Va
zFG6K3j{X}$cj@1`-#CYvy${CJG~Xc2gP%<gPZP8<`t_ryRQ21uLChF<o<^G%t&6rr
z`=Ud)gAehqdN*iOb|cX6wDZTBwZa;dG`cwUtT>GZaco&})ICy{k0UFNx?}3%m}mNx
z+_hiyE#^V?^P#Sh7A1E`&)4Fw4u60yp3PxgeaDoq+OJR&18$Z-dL55Q0~+SD75FQ~
zUnL~AAJ^g;%|T^c7M;3&aAx(D1{dgaGnl(-ZZ2JJuB_Zt9$#G?!&PGh9cATJtF#VO
zS^MY@{sk5`1#n!OWJz$UI2Q*$0!%{&eX^fRgEPg=KEg!kiI@F7zM;v<d0}Gm5;R3$
zA~U)ZQ&V6V4h4G{;$fi!W;UmzXQ6eFUvWu^C(i;(Ji$J7>WNd`$BrHM9UmJ8k2)iM
zl881Zelij(Rh<ii6ZsaV+{59?@Eq*eF{<b=g*h)w2(!o;X0~CMmu4*Iar`OyzDo|_
zB81!UN%^piI|1wjLkQR?xCD+=N@Qleus7pN7XFzM6XjJXqgW+bcH4O*Iyi;DBInx_
zlM!$KiOPc6WEj-@JNojc^yQo6{Cje4!-3U3*_M1@l5=O$ImBhq3mI;Nn^Jb_F$q$U
z{*5D$cu(A*d|8WGrCEWjELJKju$&sH$;bs18Fi@)?J@|D5>T6oF5pDtzd-oH=8f+E
zbFjgz@U=w)6I0x-`$P~U^hb2(_hUbVxH`$gwTb0zsq!wdybB_4L<lBgZ>n}stcCnp
z6-2mX{^Q;QFiM-K+jR3ePzE;@;;y-LEK$`3Ug(;Z<)?3#u2vr+s&WOBq2B!#M5s^F
zdmV_p5Qh8I<xer;vu4rR{CkhDn3qq9(7z9RYzM`zgMaq;TjtxR#IB>r*<(inS20H#
zkXE-Y#g1NGQ>u20Si9v9CvJIf2F2Q)sNPyrSE76GTl1?;r>QU>5EhR>uXGYQ)LWMF
zw1}P-exXl#I=Q}{H|M{ycw;f?*`4wn6g>xTpH2-wDGooG^nB!9sQ#%zLI@PrZ5Hb`
zr|Pzeb=z(YCF-^%>-MDThQ+$!6l4JF4*zeZe_8t<Ym;>!ff0kMrnIXjQQs%J`clp<
zqLakfBVUaqod+S12t7U^iCSKA<AT_>iA476MVBw-q+Wu2;4`m1lXPyry#?LU#)S2o
zfRs=x-^{QP?V_hWN%(<o(bN5A=qr&M5#R?>o&%!i!0qAG!PDZw(@D>hRQYODo;tBl
ztnFJGWi_k57E0A^5%J%(CFR^MI=6qL<(u7q+?{kD&Z=H(FIBHjbk(PvO`@}j3mW1k
ze7gnJYh~4Ir28rGJq<}C2I8dW1eg}Q(2KN3^z2~@l6=H4AR8$rg-NZVr<Hx6fssF?
zJk-$TCz76aH4PuR<>!(f|H|V~vXuQ{0+H{zt=__S9Tu2|_H?8@&}c;Nedv<H<Raw>
ziMpe!&d1*A9mJPg)QC-mB=g^e`L}8NgJBfUf2$PndRe?q#CtHzZu0rlm|EUW(c8Ha
z`pVpmInj%`G$eY4zTNVj?r(LY8`5=67<nJdrUrcmoRb?(NU%01SeH;oK$k+`bAfl9
zT`Q+ootqJX#ge0T;vIM)RHAMBt<u!?F>(7?vh@TEc&xRcKiY22)3C528nH%O2X9$Y
zgU7|e<H?p$7{y*|29~PzW(bj5SfmEz1Vs~;uefixQ|-IN_FZocuhu;QWd~yqVi)LU
z%CHNxg>S^M8m$F1s-DM)C_kEvkrD2I@$-{<dQJYvJY!eVYQKPWoZ6e>L+B%80T8!H
zNvHiHRK1~Tp<n@*@f@He<cvZ=eKGCz;8Ej;7dxAT3VN-A0}1Lcl0S>hpU?q1o+3K+
zc*5_J?>~{_gOj1mvjG8F#_m*JZX!QSfgLFrAh95J5(c>a$DOEc^f?sA7?ClN#y&U3
z^rv-*?vB--{i&WYv1ja#dkif7@4)O#sjU2-c{;>WNK#k7Ja=_Y`$?7ciDi9wPnB&F
z%QoG26_7oX0-K%94uOe@H&P3l$Z000g`8G$+Q?zNRethykkd&{7dhSJ^pMj_j)CF%
zN%caDCJ{8kCZ7q@5R=a<IATc0AMK(6#ZaDL4%1&y0Cl&yZ^$v2!YG4jc_l|^!Gy)Z
znEk}$p$8IxCVtk#u3k9;Y$*p#Vap;UJA;;RexzU#;0h*_0SaibJYG7ZvioY;0aaGc
zNT1X?JWr#RixrENu=!PHG%4pzi&ZGWfN5c|`v0x%`eNcZ&iE{Fz`=2M+#TV#{~UK5
z9KOTmk1?jf*cjUooPTyAQl-6Mb4jrIV=dH4EC}hFBUOrN71@^BI#w%%w2|UeYV*>E
zK2?3GbQ@dU&B|7sCTSj8wd-)mYM=W1W^cXVZfqxQZ8ZDM>^I-c&dtnz^V@H}Sqi{i
z=bZ(u73c$=;3kfcUgqYI55*`<SFB)(n8A4>ZcygcP_AK+S-xDp<XjFdg}xtM3f)Ii
z!jxc8h9pR6umpM94Nmh4v+U54f2qmJb=6|b;Io1pjM7eY8eHbp=s#%j?PjV$eZ_L@
z&Z6DmLm#qOxP9}Q5|l~*Q7a2rz^W{8?lNm*P*$A(O|4Lh1-M{U3OFs6XJ5fNXw=ud
zT5{UqN)2b-LH3ZzX;4VrXVB&qsr${CLDAyb`VMdP;8Zmn%?5SusR}}OmcvV7YzLzc
ztNh=ILk4AD2^3!fu!xV=Rj4P<?}J&46SL2l$zxFO*8H;cqI(we!g6Fex*P+i)l&P+
zrlmH)_>UVh%qvo#G-C!;>On`1xOoNt(`L+|Q2WSI6!#{K6!VJIZ<{fLT71@^PJGv(
z%<GBgOxmE9TrlRUfwW^rig|?_-O?5l_$abeGQ?x|oy(_8c?QL2yb;Xcj+yS+o@Kmy
zA;ki(()XCb1f`j_+B|qW^H#Hz2ng8CpVx)00VUW8rv_C_IcIjx_ATShdY_ua|5r6Z
zo4a5_c*<xK^Q!l6Jg-F$vgCKsc$jkWF=Q>#O&r!OXep78uy^Z?5dme)^XQrGk;ljP
zZS~vBfsN-ZSI5uAUdb<J#a^fkXX1~|&AbvjGClrO45yk*pT_t0dHC{$3tt>RJTGz#
z1utO+yAAvJ%;fB35BBXJK&$~rUg4X*v3jTTh~U-cXnRm~iXaFGfiJr0#RajCRGOU#
zRPT$^Q&agl{#hTJ&bU2=_-lS=GoVnq189O<FC3emTu^IuT6e-{+{iCZ8m1G+Q8yfl
zG(9`LDE{V-MAL?Wm!(St%0Lo*x-%aG{UC-(QEl3q`obi(U6*c^GL&o|N~t=8LmHo2
zHJ9UOLFx)08GNW-_%ocG$pP)ji;KDW=bvB5FRJx=;$}m6QUX;M_u98O51;r8xvA+{
z)oV1QeqvLOPOnsJr{-~H<Q!b|1J&7ueC<^*SDBeVhI05r?${dbQtNcJm~!W)r*t*b
z)I@(kA_O&H+TG-g9qXi0!@vWoJpc8|UfQ9Sz0@T>j2z-11q<jH;s8-xZ8e3GDod6=
zcS+LCfUZz?a;U<jS_zyF1>o96*SjTiO_@Zg!mKLHslrKB$hY^4d#FUKO~hnIq&8da
z^Pioc%FirhXLt`5uaN*+ai|V5VBzgU&B?X$ztBxuLaCK{hgWO%=kuqI<nt$=?$$9p
z!T>ptC(`?Z4wWmdK-9n{^OVijRcK1xYU#I>p$d(SlkMhoK<-y0Z7WD7{*fwSu8zLs
zx$>uQ!sy&d@iV&Vp<F{m?WKS(w&;yuxs!#XlpI0qB}oo`SW8bX-!;4Ad9@6kf_j1Y
zXSz3F)qEJ-d2wNrL6&uI5&ueJ{zhW9KaiMB{X_ga<%Ov_Yi}`e$N%%HN;f>?-GNrF
zYW>y;iuz_`YZ4z~n@qq|4{e6g`&F(qUPa!8__X&XJ(M|M>M6<_iJo?$1uYf3|34k>
zyb9(sLCXm}%iV$<rWNl$p&`A-Ze^LH@wx{9(g;j`3{T#GA#pbBhpv`F^=KhEdKICo
z1$f~-0jp0P;m;kz+^uJ~<nKN^dea?{-6_ePQhW`HFRY|HVVF_hw$3W*J%q6h35B{y
zAvOqqTJ>#f{c^{+)G=Ogk88LWMQJT<a(qCF4-_2Hk6g{yTl?hJL8*1H;HIkhQrFT0
za{7RjKJcOU0J79aWH(`CKW}(Dd^vp0-FdSij`HdPFg6NxpB;zOu!1Y4L_036TwDQi
z`RY5bUX2c(b10sW>}i!et+HpY<k_o4w_yj666sVD`{cwyDRJ<+uSxc$Bp+?!NP52T
zG_9t71cnwlGAI$2IV?qnl|;Lo7?u*la^jGbI3y<yONql<GosF+n1a7xREf8K)BMS_
zoa~j7y>fE5l-!LbeXsMKPB}d&r3aN{`t981oSf{JlKo033;aRxw<*D-5>LtTgHrq;
zYDpf?u8hb%k4X4SJi>4FOL3gVn^s~8CDDf(YQqBa?i1Eo9Q|Rxz+CQIBSPF;e|A_q
zATVF!*|E<O+vLQ6lo(I~L2Nxy!WqTWsQ6oy#%7|C-h@*7I1!ecwo6Uhi%oUO8f@n|
z>p1t~TY?rL7iw^#aNXO2ZAf=8Nf75<s{r_X{O><u&M<&=#qH<Kw^NGj<OG4T*KtNL
z2btx_ZYi=`$&4y3z4Y+9E4yNghrHH#V6&9gyYW}~W!R`F15-8g`DJgL<ZUZ>dkT&o
zgr9gbN+hayk=`Pq+Ft+pJ*#`DvoztUo8@qq6z)>|VJcKFIx|{qbWpL5I_E}=)jcBs
zLb^-pN8Y&N@p1=y^mTz;@~y0{+$|L%Gov>>-t(!|)P?5NG@AQ-=W3_yNlEY^CrI!!
z_k`rhLeeG<*%OyMaoN)*dD_<MB~M2&=%m^>>zq0eh2NRAM=cL>8>jh))>69l>`#fJ
z@53Uk`$TjDCLW~V3yK~h>K{a1q~K>1{RvS&rr`G!@J~(j9Y!RZXR(=Bt`SA}jeaoW
zD5Z^2Kogkt@riSEn}X#EOkux(zRAyytAJ}dhu`MB`B1xN!xdxA8PckV;_e0ENAHc5
z*H<(<rN9TAbEB51o_bsV+LLl-Ov;S?;i!~(VuK+?YjxNfZw5kgpic_)X*R?l58q`B
zDOHqG&1xL7y+g8htlKFbs<8Ri;13TM&9NZZhJ`KO>39mnJk+FB=`<_}n>4#l*RXU(
ztJP@-Ll=M*<a!;Ce|e((3>}5|a`|wX?TB!t_k&&U@A_cR`+GFT6Mnb2t`pi=h1*sG
zQ1bl5>csinYECOh{H8s0VNtTTtlJRLx>!7=G$)l*hZ0XH>8#R?@s4O(=^IcoUGT1>
zgqoG@JrwQjztu5chBk%EMB~YAlz^u&yzKF4HS>qbjihGhQ98|8tK}qI`vtT*PU3jW
zsOI9Nn>F|^Bv!|?dLH$#VC1cei)qcvqdpdnX$_owh~Z(zSI6J#!Q`to@-#n-r`Psh
zj%rOj8eok9Ey&3bizT%%CnI>ww?mghS1P3D9xck#Vl366HFGkK3TQ2yOi&GzoNQ&m
z*rjb3x2^f4Kt@aPw6-mR+Id<U<y>02xU@DUMY}ZKMA|l1<9Z|Xdgy}fLjKas#hJB{
z_r~8DFGO}p{(i~ce>+1t^)W}Cw;kTWkK?d<e0jziY9Tv$>^L6>Y9&-}tcOH&ZYBav
zVIsk)d<d%5a5sMZ#q8W1ABU>Ph-P8`JPExY&cg|DRqb4#%Fmr%(2vXNejxn{YVY^3
zs>z+iDa!d796C>GFqR{EC|>iTTB+-G;=fRPesdGEJ{wfh$fWNOB7J~RYk8?y*S&yx
z(HdRtc%XXdki0(g@R@@2Ytco4o22wUkd%^|Jt@M(p74H=^j$UmKzaF->PoYhiuF-e
z%cVj|*VWDVMS|T$!k6`PeN*=+th9{aD`<Z9ta`5>X)|~B*d&z5QX>%_AO@&<_tK%a
zWIuVjwAX@QICba&>sWGhwn>$z#Spb?h^oL%9wH=g@EZ#R4luKzdwGhH%w`JW6p-qx
z8%ZRIYNa4WK^uavTcYkWEyqja3rT{+_2c3?h}uRn`@h~(@CMdJiWw4;rGQXzZX6-1
zMD3uU3xOK8l5URSZer{qMmJ~FAqBpo7x|K`fhY4P$eO>1NQkz60v;jOYRsyX(%M#U
z>we1cCIurDtWYlBBTwgs_YNN#$vyGZ-bat-_KqKX?1=a<-9Jac4=LcP!75R+H0Jp$
z`7lKZkkz+kRDX-lC;34!idQta*g_XVty~a<jcO(&KW3d0>->~CZm{4D*7iB`f6Rvd
z#D+d*`){z8+hvtP*#@J)$%G@q?Xn7?>=r|CyT+h4YM5{ccgn#8iH~hzss$&z6ZmaH
z**ZgT+hJ132V;I=Lb$=&P5IbSP*H!QV(=5Y@7%;yd*roBy#CI;P;f?GtA%QJ?xh0r
z6)Pvo1Yg0QE;1sDrz@TjgqlJmTVzBOUoQKOO>h>1nIa>iI8-}b4t|(_Fd~W*Rh2@j
h5ZzwH1Ez|er^*qFAx1>;RON~tnM2tPMg(uue*=Tx{TBcL

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/moe_wna16.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/moe_wna16.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8308243337739aad0599beca19b0ad7cbef4fe97
GIT binary patch
literal 21307
zcmcJ13v?UTmDmh^9Q=s?j{r&VPmmNp5+zX|OQQ9&C5y5w$#&=@FvJ;>pa7B{fcntj
zMki5fs_SjUq*+mEwuaK26DsyL%%1ct+jH7F+im0RZnqdhDaKRfth#YdR{cVjTxYXA
zZSQ@90YC`U+Sz0zzPayz-<$XDz3<-p@TX?8fr2Nd`R!=rG)4UsBg&&K01y8+05>R>
zV(Azar$=cTVO2~OSC6XWno$jjt7F<xEu?E=x_HfKO`I8JNV+zrj~hk}apR~lZW=X_
zG+oRbuN|$8TShH$>!>wu8?}-2nwUNA7<I&*qfQcMVy?J*)J<T0%oF#HdgH!PABh`c
zb#ecwpTNdgAYMOOPheB5A>KIJNK-26D8-tuQfw{feOoP$Wi-fIxF*)hHFHfqNE+9$
zwyT=a7E;y@WgVQgShn@DI^?{M6+^Vd9E`+bk#jLFq>|Lb)0ZXY<ZLoJGaZSIKuW^|
zmkcMl>BI~lj?b`MEIb?Gp#lJWWcs{hBKfo734Ug7Hl&suN9Gb7dt&DBskz8>^5D$$
zcyvPYN2im6;fsTjfgR8Y7k&-%!egb(q433_YMCL8#3&6)wF*>d)vm-(aLLIT_UTB1
zlLCb_?j<fdF_}C)7Kw4E=VoVT_$0@|a175yr@07E%6iUD6GWo(94jZw4Z)l^2=>wW
z2u_5Ynt<B&@?-^zLK;`X0vhm-O>$%B!|@0oi%y3VG6sooEOMFSA={dOS-nV53`del
zK7natb3D(%yv)WT$?+LJJ|=%zIkXlc50f-Sy#b4sqef|#8db6MsG3!A8dl9|Sq=PY
zIUTEmzZ$NF)8JBInfV$B^&G=#IQ_Vaq#0Od+`34O)2#8TY1F_OSp#PpSFxt6nzsvG
zjhabn4OctWP)I6!kwvD0Wmqb2CFQlyN^M!Ht<Va=1@bIqd3MONR^U}wx<xD;q`pZW
z1=P2f)ptUkqr5)kJInH2tP8O3DMPyePW3*X#=2n^4V;(tkg@4lFKi&+B6W!#tvgMH
zd{XU+8SbT#;ej3Ur=KspgJZEsA`yg77CdqCaFCP;cD^(O1^ZqagfJ8=tTVEldL;*}
z30Q=MZ4f7`S27ls!?|cOAsNVa3MXJ`O1jBNB0N7U*<$hVBo|@jYPe`6H|)r{7?%hq
zXTsAnWJg`#_~eLW9G{EDlntiix#S!_J;sy`85RVEl;hz(6-9lWzCk66nb&Gl)b9X=
zR6YPrrBo>@4CUk}rG{96>QGcl12K(~$I>Zksu)vJDQX^SLpg=+QYkIObV_~-YK0La
z@}z1YR>YOXzV%8Ts|G3z6n6nBu$tAzOmXvqp1`^oP~8OsU`tKaD&<RWw&r{%Me&}L
zVXCQ=sz9llw_#i1Q{LP3l}*}WNL%B{7P$^ZO|>de>8;G)f-z;hqGI*amXvX-qm-{e
z#d4+;GZj)&OYdU7Ib}+j&%;de_GGt`&l*zZe?+mylnFx9?`f5Be34G+r?x1iO7BfZ
zYAkEfT-Ju}3NwLo;!#?-Or>-i<DuG-`}nzz@VG>7(~^GprBm__frtenCkPcRCRvX@
ze`Z6Pq?wpaz9y+77hk*o|KOQFcV?2?uxEnuCJ7?*xHt`*BG?^-(!ppV2<tvrpsyTD
zHenJf7iekl=<{cLgD0ZX(fC|EI2M_WoQuYy$;-Qg^X}f@L7CugNSEl|U$&OInVF7V
zR+<kYmcht0i(U7Iypk6B<#>q+hoOUHILz0<1n_<g0uV@6*vmt}FM$z^N5+yfJYSD_
zNL~0wEMNd$S>O>;_k~z2-Yc_M?h-dP2jzPSzex0MARo{<kIPNk`YCD@dg0r#;<is(
z5eKZ)gxy0)zGxy`mIxFkJ_|$*ga_V@`7V?OSnfh}j0=}$Thal20uey6V|E-EVp*Qy
z#Yk+9JIwPlyyS)EVR#DLENdMZP{<-_5?pLtp1_TBEzc~LA~Q=Shzyn|cw0*yhLdx%
zF;22Qj-{P+y%9ToI83N}IGnIR<G~Hjm0!NxmyFN$%|>UpBqKZwZp)>)ox6t4@8tSo
z(Q|#Xmq9L>?!(#c+xTJo<PY0d{$Zg=VR84)UgrCtw|UP-hSRGov^L00Yz2z-i!0P4
zC#A2wRwFRpJ4~JEZ(r2hVZ35p>!RjOi|7u(%P0n$(r0pQ+XeU^+>Qn6#ip(JZV+2`
z;5%5V*oYN>#ytBI=Ea{dFW)m-a>f?H*pj}mZrma^^yV6#5gML(&!25LyLjk#PKst*
z&fF%L+g4ob=H9!FeYwWNLgV3V<I#*MaL?VIarZ8%GJ}V5gU5xz<JrLzc{OEj$m^))
z?p)JTLeo>(ru`XHgJ=n6TDGrSw%>IJ^D33A`(F1`nXY|#ir(KXcJIw}J+*c!U!!&%
zpdYHW9($hB+U$7~)d=Vu5gLxX`+BzFG@|o?J&>tCn6)3um=4`DHf4+<v8!kC(2q?W
z_qq;{_d}REYOFx)5hf2|g~+#VP?zc3su4+F{1~^9q^ZYZi3C;(@&_Q47+lEHkvR9*
zCsH!bLa_w$yDQW^OC3K9(1u=-R+3(y2B4h%PGL^PQ)155nCpb<G~hS_!nYP^#@M99
zoEwkLM3MtLB+X<5_RA4yt{i(WB3Y!FVIWOmHhFoLOU!pvEV#`Ieg<1~L2!lo!0NhD
zyHxva?RN~f3>iyzhUtEMv^bs(a~x8Q+()$d!x&T`$PYo{d{Y%%HqwsIL9yZ-+aB)~
zKN#s1*%KV|=m{F+IMv9!v#{@gNRcy0?^I%Dx+*G?6Q@8f6&{bqIQ-~|`IaiURThdM
zc18$b1z6iNmW~Y5L2#6Ga?!E!FO4D&!Sx(qeFKFU#J=K5(Kv>;3-uO2G}@$;s;m@<
zYnzl(mz4rBZVLOac%Vnk1kGyS(J6<=1#L=I6s9(7nJKkwq84-$)I!bl5Y*EX!Krgo
zj0~lE3m|4}f{_t0qKf#`OdFF$!ICwVgclXeB8aYP5K(m?aMq;gw+lihtOE0hWFo5|
zT#&ytD0ma*E!7kx?IUn1t6{nE$XqPRqhuzj6PM$B7ea=4j-Lt7&H!8E3EM$g3$~yc
z*ULCR6Az!~E+-`GhG-Z>fL&OQ;g7<L2fai=94K)!A|jypK$=b9(p8v_OnZ!^b$JQR
z*HtXUvOErICVmb9tiOh)TtlDG(6_2vYsd^elWll5!}vwFFX!$M+#M^rRre~Bb?;g<
ziY{-?)h@W&(-&4vE5DU>?OQa6fyP{*UkLQCy4ON${`a^{pg$WplVN<Ku_4{QZtN6&
zft;^P@O7>1SUtSDGwa)vaqU?=BDQr1re@I`Odno1hpIFUB|39$yM(q~qSc-84P?Aq
zR}Vc@tJ-U!-Xn%`)EBAwf3es_Q=@3|h$gpa0=Qm;rcL&T7RGAGQ;gmq@Bi{Oj4;_#
zX8_oIPbn*AL7h_bE?A{BS*6zM>rWBKPg9pE{vb3AdI1l}Epdf=mkUMDV7`WYY{@h^
zt|&gnCy3}*H~~t=u?UDnGt+o>OK6}9esK9?2WB9VkFo`wNkJn~ShMrp6<_~Jg|9%n
z30$OCs60b?>T>P@!9B3rlXdT3G`??iFYjLQulol@hx^9frM+L<moYVo7Kco*3Ol6=
z*+OjPDVE6=U5(VRG^<jGR<$jyOeqkw>h;xSpQw5XO|gWgL=2{MfL+B?>`R-{!l_IP
zr!wtS@qAe-Tr3C56t*U&jq4U_;A~klg<@dEQ!LBC;vr|lOEeFs(v-#o$^#y>h$%Iz
zzd$YMA>V+D3sON}2&u+GObanxiaGyTidrzF^q1&_3Q`O}s7xa~$`TUAzlbk}<q~7a
zviWX^k|P)2f)LWD+p7EcLHK42kWBGW2ttgc1~MdRV>1_FF`=N&@4#Ru23s*`#Q?c(
z$S6}L786Ln%=BD5Olac-rtQVxDGW%ReE>-oawI58>ryRB(xo`zf(j8+mNp-Ts`Kp?
zD|nNQbPdWT{tN<GygJI;n)7rBo{p8;HC5KLC+8U!Ji}Sf!9|nkXv{fU1V>ByNY>H4
z$duy8vW~t*<^z9s&Oa>phqL~J8OD3h-kh;_U3)sye<0U?ROmmN?SB>oRDIn?45dFt
z->YxW)$bDOcV+AMWSF{pb?qzdLS6rQ-OFp<)z8A~-O0=gFK3RtylA;+@-811OidqB
zD)W$N^)3%DnLktme9zjHY1=7Scjjv-y$57gYva15Ki!*Q`sKZ)B}V~CH_LP5(M!Ao
z204a1N_jK@kRA3{!1h5<EQ$rFm8m8yDm#rgly-u$LQhl40t*C92c1ObLLQ~gb(;6%
zZYAqo4SE%tRmVW%y?~l<5Cu@<y#Q+!U~LSv-U~WdrPLI1uZoA&5h8jHa*>%;JbZUb
zH-$&wiU&#uE0Q3p?CmLB=oJs>j*7J9H0YInBdt~+p{!B5w8;pElWhvBsNb4uS7N2N
zGV3rKn%@ZC>fc1GNu)I7VHxGie39O;u8{PQr#M1)vZ#v!p^UDkepSjMV-4v?%19ed
zB#2@L)EgZn0z2OUNrdFdWR3`5UdavQgKVd8;(T;=mMiE=WdRK}=#n9th)ySxk?Apx
zM@n8s{<dKhzmnARY4jsJkM#yI0K#4n=LQhM<B6>2AyQzuw8=X$k7$Ze9^{P>l+??z
zB|$QvNFnpwPz}Ea%gtagivgj&h^^c|cAdbjT_CeWdf+cW!hB-|iA9OD9G7ol)l)!L
zK$oDSOwH-`mDXI>VWI2r9pjO^j;^euCu8clYxXQ_zd8S7bJx#ICq7cC%(WlsDD(3)
z0YRX!I&+o|!P2p^W8E?!Iy^V_e|5iz)OM%f-zj<nId7-n?F88_;QqP0U2wOj=T^qE
z?(KQ4%C!UP2ikM~0l`18+M3(?w6OJQAkaDg8Nq)>^wuw5AocQ;%H;;~Z+GWxA;A_}
zIlFG#TIlLd$J3(Iw><dP{+s(Bsa2hJC>Ma<cL@F+pQQJ;oWEc2_pds01H-}qu!pB}
z{?mg0bVctVlX{vmO-HltXEN4j<T<%?$J}|>(Ufjo(dIgbgwCO?V^_wsOA($zepC?R
zu`wK$3}G~)fyy3WQy4!(tdLU^4zn|3kgQH5c}b1hGR?V}nV6)BMH2wCQDFJV3y5Y2
zL`JkZ$VV66hRM%ha2x_jOAhn=2qqv;=U>2pti~~fknu{Y>1j!Kg5bjA>4~fr$y`u(
zjd5T;2;Zjp{g6de2M6R8<;9{Hpoo!JgjMs4tJM3N19?rab{H6DFt0@bX5a10*AS4Q
zT;9B%fCkFu${Pu2q5{FZnSixaQ(OA<E&a+NA=sa{kTfghu3K(dPAqpWeLim^Np{Lm
z`;miyuhNvxmRHeQf5zAIAqDS;Y9$4_mh*a6oGaY-&fh*Sgmz<@o?@AvVi|jS8)n&y
zS-5WG>YeE`D=oJ^gW0fbmBd1}S8GT+(_<^!(v!Cu@)Sft$Mqq;3q=9S50Xkct@EBf
zu$&b1EgxzjQYZjW-bxC%wF9ezYwESrYs~leeMmvHPz0cSf2Y<dy6SGcy!7&o@KQLh
z#(3`ldEe99GWK>s-|?{)Qi(J{K8;Ku@KCxz!%!3?&>V&q#F8jM?11!DCPg1Antc?~
zPBbPPR97gCAhCRi<mc=3af&8~tIvTnu|TKjYpM&>@6tDDntIcq0b2h1>Wegg42lv3
z3mlPEz5SB0unlna6MPfcYA|?(EHg>JcY>SdF3s}$=0nwKdhg!Y3>bG4`+AE-{~TIK
zpmO~ee}#(COzlZwXk^8|`1<nr9ZM^~e@zZoU#hjyz)jSV>B}KiX|56=UQw^g$1Xkr
zFbVzxwuy=^Xz;GFHcQ%sFl#)S(VUczoRC|56tm*PFG6$G&9tnB)v~&A9hvkRFurP8
zhSOEESxs4s?G^zr<Lbdksb`JwXM%djNh+Rk1Da(=ji0JrEoWkNXeb8H0WjZ=n)TF^
z{;{o}s&xxsT15^7<8SqJ8;s7*S-`k!VVwXI%)pqdKyH9Mo79!ddO2&MmXEWsb)22`
zKe2oOda8$#4e)M!V#(kWbDN%+3&#0s^T0VaNv~R3HsO<R)x|bn)s8wj7u#~RxOGR}
z#Axk-t=q<5gvBxc4`lxa#f<ieP1Obi$`ix<L}E9AFeb|mvRtw|h?crfV)YKn6?#cC
zJPSxkYLIVu6F__rf{_iU9;62N_YjY#74~URXrg@@<o?202+kmALB<VC9#G66y$Pv#
z+>V4{k{&@5L!>C|o&O33guNkQgmKBFr^4_ei(*B?iwH#%$o`NVFlJ(QS$3d3CD6I3
z`7z^@sW6IZk`WKiK*La}BN->7EX#o>2wL<TfxB~joMWSrBuA3MPzoJul2LRxkxb}g
z6Hmxm`7s@|raVAnDHIkT{t@g{qS8`w%HAm&S-kwf$wL9l-qp^H3t)GzS{CQ0;#pu=
z8nhXj6f+OlCA6SqB@kbqVptVg`xls$9w0kFdPq~FW+S0GMuA<rP>ZME^c3sSZ$eGL
zyZ8-LdWhi)AW!L}I%QDOO7AILL=_KcQFPUGH7Ntq-*1+!9afjpT~KfXZ4Yvg1!J;E
zd#4-~O+yscn^8HhESSJ95B2s!da_83r%=sO@l0XU6;BeG3wf%YqCsDzN@?bCwX0J#
zIIm?rRH3Ku)Vy8zTCC<Brih^#PF#&jKczRTPnnf6G?i>pa#H4$t}Ol6J|?1)|J6rR
zyUAz_soFBEOQWg%wT-4(nW55q!xv(RpNn>ruVC2(Z)3_*6>rOL7H{$uo{X_|6O2tM
zYgLS`<rr^5O<GHHr$BtJY*l~yee>k6Le?3fGr#KYv28L7=9I1KEZE9t;nzPhg%S`t
z`m2t~zR8$sQ}(K3vX_r(lP`<Mfr^K<5G~+uvsTtNp;~ZkQnSjMNYtbpteLHyP|cfx
z9y?NwL)7P3fSiA)8Lg(Nw3oGrdX$O>b~DT}J{xGNtNIM4oGF)5egjQ)mCxXt<9IRx
zJ(pwTJ_<4Sv4{IX2#&y+gy`MPaPCQhi)~_d1{`W7bHP0j4Erp)kn&%G!f=c+^W1B5
zQ678%C-?{pUW5bN!mr6?CBwz7WiVtU&>c1*=^?!U8c2DxWy;B~5l}XE>M?I39Az&_
z4AdYHbd0EmTtuMa`vI11rmm95VwjCyP#m6Wp@5`4`ohVx&r8}1=;<Tr=4M%tdx&5v
z*-#s`VQ55$!C%FC`sYy$;-IXg<>Ir+%aV2uM5iIi&T|u>6_I5oxde}VRMN`mBWEOD
zLXsBBZ`&Gjm#NQ|F!QSzd<}zt2!UkhF2P(Yh!Bt5(%ATKV-W`QGJy8PW&Rr&bzS5m
zM8mid`EO#AzlXs;#^5as(iq%=K(a@tVGg1!@u4nQh}B>xmb9|KhqMnQ(JGI8EUq2n
zITRV?J`?lxifXSQrf$r>3#}zYkfFe6Vy7CKbM?JKeea@{_z5-U{5^udC+B}k@IM8n
z5Ygq64Zk_pfZ!Sct8cI=!_?;ul%;pouwJ`+?fiSk*7v<A`dZSj-E3SuCYqYkrvy_w
z+6f)?Y5TgPC1YyII9kBafmO0{mF&J3iFOaW^@{C#@ZIu(qc7*!E;zR59D4-E9<b9e
zbvdR<V47Bk-s6PkGk2J?_bd&W=0U+Sm|+GpmO;_mwX$FE?pZY74ff`O2ZZ2(cU|w9
zv%wbuOR*QMId#kX1*RKRn4Z9m$)(AhyHjv?-Zk02a{StH(drkiwv2O|VBH3Arm;`3
z_T6>+Z=7E`|46Sj*MecjAIw`QPv{}Vcnph1m@$2AjtL4(FkQcDyu<9h%XpXlnf9SO
z%r58z>Vi%t=jsq#9p#-sKYf{P2L<cFYR$Vlp?SAq(NNxeU}gRevm2YQ15?o*X6OT1
z;q!Ror4cO83)Yb6Zr*_WCv4s6yYbA@GdX9w;B2o%eRa2BeX6ouR|jD2GA!!LvG%V-
z0ae7>mucN`huKM7#R7sc01jj8#+JLjhPS*oy*XdE;Oo8%PC~{dqv&iDovw^`r{LU~
z*>hZQ9*30lZo#?bZe8PB-8Z{oII?3`D}0N(9_Y5NcJUZ=YqsZ1t%9jF{n^#scTD^4
zngYwCnb4j)roA6{>)&E-GC6OT;O#2!r!mvAO>k}#o!eID1?O<J9(>)<gRge++43G<
zSq(w6*u!TsozU5yvVrvr#{ShK>&D%n2W;tGna?!sM(;I;C+BDt9IZJ=_qwB7v^J+x
ztFL6*hXw0!#@hU!J)!IByBpAiPjGzccv|z$;qM*4ef*Ad=shji9T6Rs&wgDCt=rr=
zYo}oCTyd;$cdUbVt--Vl(D|`-&jTan?aG@e(;iv<RA5f9*(nN-hveAY4qRok<6+gq
z9~u)$6B~nS{$}7OQSgxfCJhG^WbuWgo#H#8OBN5U)7sMEZ9xM*IT~P`RSt2GTICoA
z9vLRcK{itHOoI<lA-8x`D;2?9Rt+`b09yG>sNT`MjXH05Kt-Y*Ay#tPXik`$7WmzO
z%pnQqBfL`5LK?W?Yk?KQ%Xkj-kLSaQ$;d1hGRWMJIPnnPqlcz>9Aq^%Kp197TgH-#
z6{T8PO%gsg7mWd*C*Ey@9mouzj<^%y4V%aA(aeV`n8D^n&%okH+yLx|HQnQvy?}D=
zZGw9nxB%H)Ia{+}YnH7ni#pL#w;WlwG^Y2gHm$d8%P`wAmTj;^t$vdH5qNZVeqie%
z2JQ!7;BEkgb<Wi$xY|&24O;8>+k39J<?PMt_U6^r_uIO!x83ObYTv3;^wljN&INje
zKu^ZI<&jZ`o;<pOCyzv50^w$64!L}6W&&?TfP3R?_`GC<TQYDx1{f*mQmp7gO=J(4
z6UaX=88DQSBx^|rQ%JE-#AeP#V&PH-+_sRlG~jkTD|yD|5=rph!k(kk6XEf>=`mR+
zlNg)fl@!TEFk{IgA&JDlTk?Q92a2KD4({@hir_mDNk{<@7Gjr4t1zB|%rG+zUeU92
zNyz}UqZi2S5XlHGhTu;f=4NB(Bx?aPl={LKqTEHvgL4659A5dDoxGeNFe2_!GI*#7
zser=VbaJeyUVzVyyNFPS{|f+62ODoJ*#KBtQKx+o900)VPsddYE>NvmSq<6YHODAc
z`!>|Xr`+H>g;b~FA%1r{*z4$b$E4tT0w@*WVo9}~559$ko&Q<DZo$3aS?~g#08gw<
zXhKzbkaDLyY)#4niX#K`Q-vmgLZm=<VAtzM=6eo5|J>76?hm}WaU;DNyv!wgWw96J
z?QydE6uq7%5sl5wH=o370;i+Toeh@0BwkJ^I@$JyOp;mA0VY9)OYr|1ri}k14Bo}y
zhZy`D4E`8{A7Stw27iLVzlT6FMW?|Gh}V6<S@%q+MlzA5UXTVQhQy+5LaKpf6^nq0
z`%kg%zs2C+VZcHV(o2q!ndGx^@Pd!Sbu*5YeeYYJVDy&9jOyBTYz7sOQZ2aR!wN5I
zIPG%p1q@{qWKkNHtWa6;ej^tAkgtsX{VQyh%*VS3k*OdvQ<{&`AgauaJkCGEx@fTB
z{~Uw=h(QJeg7kkvC<lQ=hl!P_ij*xU$)r|GcI>=!<6`I~sgp=RzYA?$p&s;7CeK}a
zTc-U?)_yi)I{P!`$UTd1`NefhONMzi)Ano@LQBit)}CDJ9-(!QSmzh(I>h=dqTM5U
zTSQM2!jSH36PtGupg!m87kvGXeC9R-$i$1L>yv5vK?7w4pGUK3vgJ(m0{TA!5D-iO
ztmonA3?SZo}?7Jbk}ui)!_<T4^nH7eeb<+1`Ct7U5N0|4Hj-k{%5zo9`d>8sS=
zhZ}_uYV;IqVAV;;m!E2qLp2G3)s)pKN&-qNaF8yO30Pf8K45E-g&m5w7L!GJVBEB*
zUeqj7i!>Og^jFQ`C<s39A>+sf11ENby4r^f40AJg&k~s<?$byPE1slANvP^S2%jFG
z1*+s-RgD0m7uAI7$!%>y4%J21X0UXC7(;zorG(>ZR3WF-^B`cbnt8xwftrBn{1&~S
zf!3;w2E7**eT3XfN+a8k7SMC6N(~U{irQaNruZ4iz)4U|v#ziPs6)$MkbFZCe?9bV
z__Dfi`P4`>+GS%a<;|11O@Uwrt(cJU@BwJ0P+uOw<E>!*^1M<j;OH%T5=Eim+bW_q
zk#zFqpZgX_17B?16|xNYy8zus(U3>+=svEf`#44S!P-K}9+%AkNi_u(3y&4#vdC~G
zovc3rk4s<-Af0HCXUiH5oF2FcMQ&2_Kg9@rMlyi7myAx#&CDf0ApD=0YAjr~Mj8({
z%%GKisU|TQ9Y-~Yo9DnE7$hEaup}4DX80;%q8*w=XJS%JZf|~X1tEJ(@lvv=KVJKv
zAi;y%>Ok=FPRivcrx*HbBa4Sch`h4&%C}wL@!#@iU0W89JOUq?z>U~aEIpilExqFh
zu0QmD-~aB5Kl<DcKX=D{dhsY+O8UmBZ_(+&<xx1GuN(!Tb2TBjb}t_J&_K0=-*I!H
z&9pszD(mX_E}iKf&U6k7uBXAJT<$LIT2W<P-HS&+40Q+OlX$1#>dd;jAPr<t|8jKQ
z(jod9p`(HHU^)VSH8&eqwhF#2tGYjU?Vq=-4X?GVUif~k;M;dy2hBL^7Ek20l)XO9
ztlPk&y)jLvHBeXctw>qT?<dx5tBHRxT&yWNe2XXKgIIwwz(=GgTtkEw)k5lKv?y65
z$JL0aB8~y2Dels06sbUIp4b-b^eRHyJ0(g3_EUNPC}Dxp(B+f{%4n6HrIaJoi7u4h
z*oIb41uHzvhEfm6c1_ui<o^;TivIuuvX%ZTK(G`32PPcH0Jja<7-Y|YauhcS{}2M=
zu%Y<LdzCdyT#-TPHyD<;;{4N}e%)8L@h7<Y7of{4)Z@z?)jYq-VuzNNBTJ)XNq=Mb
z8?U9CmX9ul(-*!Q`2*YP@XExkFRa;xjy(doNKss5JThy^Otipk;T%!CI*!gXpr@RS
z@GNL;C4J%W0AQ_r1spDYje-1_c+8|smTD(_rmqtTAO$WwJlvV#;dFl*KI&=enrR9;
zu6(M=0|}5A9<N_wmI|Awwv-oiNjy1|M=1wpX?n`2q?X>GPA_b@1sbrc!lV|MO|Zsu
zP{kvkari@<)TnZrV717cWW5KNka5NgD(ad6*jAC@F3{5-v2ZD%EKjX4W61k?b^Qe7
zNSokM4RiTU)ekqRQ4Mp0V(u>BJyac!sq(X9VZM~FGUch5K!_&MF@ikROxdNcHGRG?
zC$B)ie}{HH#fZtb;vMjPjBpFAux_g9hG6ak)n|h>5)wvFqduyNR*9@aRQ^;vaK+;g
zP%QX;4qOKb4QnFn0eh)pl7}%>ZKJemSTm_VQGM>9ey{=oh_YxhZ>f@QROUhvIa4*n
z{Xq{`Q)JVf2hP(~f8HRa0sR}pTG8bFW!1Q9FEl^x-n_I@78!<In$Q=UOkY?#8P$>M
zquK;}hl2fPqgF;GGpkgMEI4j99vneAPOw_c=&WA2L#Tbn`F7zf15C^{B58?5><Itg
zpkC>=jii&$<NSS0{(THW7))Y-JWkTdwl_YFDczW&x;Q|D$TP%DR8TeW{|B-{4q3H`
zi-IRYD2k3e;vuQvw(r+4hM!FS?ScP=P#%K{4*G3KlWd?G0{anO#pn1K7rDSmHOX1x
zfW-fIET93yTqIOWm<<05Z04^q_$3B^g8`x>3$Iv_`~Z+a<~Jy)%Dnj_Eb}o2=mtfs
zWeKEPrStX`c=!X5BzaIRKz`6c(TU0S&H3R^&b2pbLO`bdPhoNX0%TSzW%Vp~3zoL`
zgT2@1GS;EhLlB4#Z_d#sINEZKo^?mhs(0-bVc?k!MLuvfeeLr(SC@c-<z4q+*1ZEH
z*g#0uTCTj94Gb=x5Pc0f-#!o|!BhciQCH5=Bv_hqmhFON`<iRrvQP8`a-NXj3FSQ7
z1<&?1+q!3W#=1M>*)2N!%dZQLuJ>DatS-D8&9*+jbV76m(ni76EvHRpTTd>XxYs)H
zos+i!5Wz5DYY}WMIonRbwsURAx^1|!dAH!%pRw-Gc=jvJi*of`>pr1%U$*r?uJy3c
zdiamIAD#c<`E2V8r9PpbT<Z>@b;l3p{_yqhzn*P9c>P3W^N9WXod@2n&vu^7b)FJB
zPu(=%>)if5%WcbAlhC;bVsdxaPk`wU4H?~nwR<J9ZtWADI5cOsg4ey^mRxYZ5Zn*W
z`#EQy;Otwqfv<m){kj>dS_3dQmM+oPE?bdS4u9{&?GtNT*A{a7PYL@^WnMU)-G3(Q
zJ1aW<57eqUyDZ3qvo#na#r=n`AHH#H>Dcn+OxK>3V{1*fPXdr>+_Uc7d#{wa(zQn4
z?h{Ck;N1Iu<Cg2mjCJSgAOxZf(Y1Apo!fJryM@l(qO(c1o26gNIzublzxUMbr`DPQ
z<B<I??T+g&UGI9JRfQU^Yi}5q49mL&Yuf`I1xv2jB1FAyFj#1a7{dahvtDc&cx0~e
z!mk?C*zDve5u%U4jgRBFeXe3~8~2LtjC^)PL6rY3488yX2+PH7#>21TP<(O!5#zzD
zuLchsAe)U}f#UPQzingP!hM74o4>h2eW+>G*M0aLt<%@#15|71f%zD%x8HSmZwxIB
z$y+C{#-tDY!MFC_+?&^81gxWV_4yhC;!V>$T&06l1LgJSjRZ7N^-Uj>w(=Av<X=`%
zR=6MEE|1=FWMqU8#*q;?`p%3e<B>}ffDt_T{Ub;CEC5hsB;@5U1IQy|=3mDkg#n5o
zveRd22EUAHWYWHb&_BZfPelB`!~pJU%CpJiNsGrBmbBzI6u{<yKNrIP1tyu`;!rX=
z1|A9Ub7N#W`M-zd-+-X}lEg(!#6Z9d6Vjlo)B}}9%j8WeZ7BVDxXGdoWp*DU@Ar})
zVKmQNptXDNS)5<FbnVhtzHsdec`YX30T*sk5RgGoPe23JwIy#Ppb3xLV8?!FCec~7
zU2E8IWdP#J4TOhUh~#%r%^hM>o7mAUHn)mhz2df=VgRCD;?6zdmaSr4Pz*GQ{eu|Y
zzUx8vPH3PUFNgzLU|HXLZEwB?V+`f3zmZx><@FddP*z9Yh>!`capcVi)l&Y(yagdE
z+y_~1T{@PxVa!hX8`7GaU3mw_oD|$3aUtZUz;^W9(sSuS!P$}bV3L<=?pir?t1<7x
zSRJk`KSBX2*p{zHr~wA{oxrWYszzuU%r|0Ekm~5pHzCxF_fT38YDKKt5NZdj|64sb
z;i`yGw<X_!Nu3+o2w_qebnsT{W@?2M8n@<gI`Tb~!Sa>BwZO7=nR_dCGX|vTx!ccW
z8ioY#E<wNR;T9~!!!;HA1J&!awgazp*dGy)tZ}kDLT!>|YzBTyj~I#)y^(WcWC4Pj
z=<+OBmE`+As7fHTK(Z1QJqw;MeDoX`##kZ;5V7EiKOa<7-}k~P8GesXUio;^A~s5?
z>yxPd<=-MAx_{Ye8}-LLGIpuy3H9ZlI+O3(;aNoLctT;~T3)#0PHr`Q@}DX?2fzMT
zxGcw`bWSePO1nQ{XT4zTizRvsKi5Yh<cgl;tJZ*=kEbK4mgFnH*q4wmR}%t6$n+J&
zB!K~;35O9H#^3-160=vn1+$NbAAY3ZKb1f#mRHj>4L6YKw!ff)Kc!4Rr=I;-rJ+?1
zC<s0_Xld0$3WASK6#WAI6YA*4DmAV8h*3eHqv)MKp}+}dQbjv6u8v0(0{IuUH2plC
f-j=8E{jTQS(?8TdB=95VIW64*B|oANAjtiH>8Sza

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/mxfp4.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/mxfp4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a67723967fe287c9fc3f03469d9d4bfb93d70446
GIT binary patch
literal 47430
zcmeIbYj7Laxggj80TKWK0t5kq4}b(okOcUClOpw&NQrt-Z(E_0AP^g*NC70>04<3I
zVol1ap*P75xyfBgH@Raf<t<a!nl(LpcOuWaD$2}M#dl_EE}CGbkzTr@>{a%b_s13-
z$?Me2?#_PSX*3#yniS>7otdgMiPNXg^E=;pecyM!bI!jt7<3do0oC^=|F3^eQGbUY
z;-gMk9zRh~)J=+}XhnbuDn=Cwv?~M3V9sa`vF8L-LG`Gb*j0ht(OmFX2l9fNQ4Mj+
z4QPY9Q5~`81@eRXQ9ZG10)}A0XaTWn1ID0f)D$cnEex7R&BRRyZbhROV$Tm)gT<r8
zLEES;STb4?EFCQ+?)pGkuza*UXdkr)9itB7W(ZUSD@QAdy&&KWR*hB>yD?B5tQoBd
zx<*~(+Z3n`){WK?dtsnH=pJ<kJ)<7-Z4NX98%G<7y(rKWY#wb6wv4s}TSr@on<dZ|
zY#(hWc59#`*g4us?8SkuVE1S@vD*SY!QRncVlN5w1$T|^BKFcie{f)QfY{3dyMud1
z_Yiw|U~h2W=spFdr2GZ`{qF$Y@fkg!q>fOu{dJ0V_;cRLNx2@REBpt?m2~Cns?kHV
z(|?$JtLQ5D9wafUAx4egosKa?TwUN=>o=!ej}X^7aIN<rNxL4suJX7)#;iOFUUSG7
z2>31q{9soNPR|9=?bK{|a%S2W7=aJ%X&>VY`on$(L-?m(3BlVo;SYPq<`~959rnHw
z2n4-jGt=Xf6X2CUIXxNn24*HEAVv<a8JY|E>60^qe1T{?M1t~W@%yAde0hdG=nEkX
z1;H75F5qLlSNzPhKj2aEMPj%!bH3?tDzZIzZG5)Ni)NoUIOF%ejGied_>}L}E?;}k
z)4sNuu~~@ulm|d-Ip_<IT?Tl4Oki?)@Y<}O35R&Y=1<c&7RehVVK5Z{+jQ!{@Ofr3
zJR?RzxARQ+L?C#?pLSF7x)YPrejkH{<!u+H3DlGGep+xAFac4ENLeT6eOM2IYsjPI
z&6&<38dGlmO=xt^GX7Z~<0pkgOa*+`{fu{fhDpH<g*AJ}eAC|0-0bWO6DFwa;tRZ?
ztCREd0f>kQ=B-%Kvp$-hoSyLd0+SQdL8x*p++-+~X6VY~?5v+gw-5xr>Ytpr9QOLc
zVFp`@No*yv0bdxh$M&TUjrp*O!`Em17^dK|FXSB$_(GQ_r^iV<GowqG;4{?_Fr0>&
znVY7)bF*N#LH^+xX6&-p4@eAnp<vVgtA1uo=t6>->SfepH+<iu{M4v|rbd;tVl;<V
zj;iRKQ8lfCF-<+1N9T@e=)6(wb&W^M>rZ0g5BkQg_@`+`36Vd>q&_A#?4%#7(7<8z
z<6JOCJUU+E^-e=S@p^fk7qAYE80~s5w#-1vM>TS4WRNdEce1^$%{w&gJ$Z5HbQdxE
zyywrJKXKwDZ<qBvbm9Do1Lw~1MOnTFhuV91^SP6|GLj>1xhD^tJuy7O=bk@1eE!tP
zUFtD_N&Uz3t>NHo>+IxgbJ)i~)iz(7>)q9NrPtpYn7q_FdmTFBbSw7fRw#i#;Pqeg
zkIey^TS@Z?wL)2@!>MN3N?J(E>~+QiNfToaSVFB}yiO(Z^*0VDbEz6vOjVgc)0rqM
zkEv{l(z2MU7<>whH-^aT9}O`BVhVgN;}6d<)0?UhF^<2-KL+C_6&9<Nn!*andfrKW
zhfHCtB=SsQC1pM5sIW$Kn#vb#(wkO@gS3LmNJ%e+5N+ouk8*xO=Y(fuChUaq)JZDV
zc}ZwMA!n+OIZw=-J<#Gj=MVVD!jf<JvJYZ0e&?0xnXA*z@C-@nvhNi?i6F*qA<pw1
zFJYG?xc8<q@Lrt^Uxp!<@qNR2Ap||uDGXR*7M?t&8i3{VpwEoW(LSNVI?*Xt7^rzI
z^t>7G%=DO_=>vDB9}Q9~yD?b#HhD4!A;d}eg?hobK|Rq?dOMe2!{*nl=hto+%Q>Ty
zH9BJ&=OdMlQ(0J*C1xF7R~_5Pw{iIuY<@*dRYCIN3)2M=ho!M}T|?UGcJKo9yqi>n
zVsuhl5bGW46~mEdD%}D^7m5<YEh?D*HzTA>3z1p?voEX_QxM}b-C;stq5G6ft6*xw
z1!A13LeVC@X=O(HGK=n07SSfXH<d^Z&KxnNXTn)5r7GH<38zX-9r}R;XNeeJdOru8
z4Knz2X5h0-N>#Kmri|R}qO0_Nj@(;ia(`BBsb#THA>}XHb`D3#y5sg&`8323TWVib
zV(!wL&dq>WYN<F7WIdtQ3^-g_p71HQcsj2XzG%%A7<D1{dNHKv&*X=3CLj;36>|?g
z3$r>g<fiu3Af_a}0kcwx<$6@UY)Va13ZiXO9kqzA(mP$EXTh$Q%~2k9X;f;HauRLn
z99w1Z`Yb4(r`%Ex?hx~q-Y}CHMm`<|hxsO9A{j!eY#6Ds)SQOYg*dM`fu3_B@$oT@
zQF^wBf|FsNGeyE=#RWoWer1bzGFd_JCg%|3I_?VrN8$wf9BE1)%v;WxX@G?U0A3_C
zNrN}gqhXv5UjWL=d*R%mcL=Dcqr)RZgJ-=bPYq_$Uwhh{oIw4|O<ac8WXKuxU3X3f
zXMHeH`^JEV^^IL`ng1(cUI%W*2|@hR$T!iL@zEI|ftl8W0hsZx`hftrG#7Se;0{7h
zBWdu8Z;~)uEza{|CX7Ec7YI8ir=7Hag7MLiU`DB0oTmeRU>2O;0-_B9g~CW)Acgjl
zL@<BjTcjo~`9oo+kX)!mpjvU(npbzU^tH6jTjWRs(N*AG#LAgZkr9)#{%e2<<b^~p
zEbYb97d&NT+9z}cvk!9NEkIn*{#Pc){J>Vs`YufdCd1bm98Q=#^snB&60owF{TTWH
z8ib@odV+7<J|1aY-c;jax-mx04q`A}m`e`^*I)H9)5zW+^}}09WKz$h#iZzH!UsKF
zyjn~J2SR~r+J))m0wS)>&Jk*hnHdW*NN9N!%prJ%keqQcgr+Kdil$=DfbZ8Z*dqvc
zgZd<w(v)r(8{)>Mn5OAbo{h_^Wb-P2omce;C@g(Dt8ZVeUe|YTm@3vy&JB}=Gxe^S
zdLQY{oZimr?J>vkb^VErqDro)gDvWa={ux&HS7AGjClLkO#3t9U0Bz@K;rFYi+0EK
zySI$jw`S^lgc%I5MFTPYz=pxW89G=)$7<)gq4$H4_1z~nL~xSIoI?AP9JQg~iJr1J
zxuQ<Cs57ST%u3u?$r-y?W7q20bz|R#*|~16CP`GX`pTqIS$ItGBu52lm?%Rbr>|Sn
z*KJ^wZr0cxH}>9Fu*UxTXV#2+H;QW4i|RLu8diGOiy)IUQaac5U8HbzY*AfIU$>3d
zhPIT`I$5oAU0c1ODd03EtfnMZI<T(UO$gg+)>s|WRFhy;thQ=hTeI%&Uw7}$2;91^
zY0C`!2+3YMn{SV)?1bzcgBnji*jMm*{QrRQk29Ip0$S<M@vF!jteA&z<H`kUTtVl&
zZWvYjb7|G<>6v;o55CoY4Tz9(Uss89%cz#P>cBNG!!@6{=J@qfGE^7l2H`as;R{mX
z2_)dB&G0kQI!MO}k+PmC8M=ec_p1O(Gp#4N<kAKZZxt<2*A$}`n2C&hK4HTJImZZJ
z0K$hE1_UnxFFFQPNczFK6@QO$YW;Hs@Q7)zH<S_T2f#0gSWr+AMTGLEV_&E4Dn>vW
zq6Q|-&mbF51Xy0?JR||`s*pc0PCj_8*E<IDVaV$ZVP;O}4bqdDi|{dT$pE%ROyn=Y
zCxk@zA8$|_8p9iT(0tZ4Wr>QW1=X)L<wEtRL4j~+Cj~Kq<tBVa(tw|%m>0m2ux20&
z${7oU_*|IkK<pO6XwKBQl0VMOi1N63TP9Q)9(N!@2xo^I)bEVu@69df1#S;H_)R<)
zd<y`nz;ctiuJ9;FK0Xb00>@ni^L4Oi4r^vItW8d5%mVWjnNU3K|36|9P(=XDLt~+U
z6dWisAA*z&7<hFMWi$e#>VuG(FlaCjl(}rK718xB1{d=yemXzQo8;#LOJ-Y=lQ&E#
zQWXPrq9zh4UUO+YFyjlugq96h34)N420%*&>cUGCDcHO#8%1)V{wV@(1mgzv$Yi})
zuv8E;R>m}y+Y|x$#hcUwmDzfp0?UG62~Ej6J{bVQCg=~%JF`K`4)Gp>g98?+w*@T$
zgIAOO$>)Lua(wa{Qx5)Ph)wZ9#1rg(0C<MQ2L&uRz~Vy`797IpN1lixoaS`jNp%qB
z#RxT(mf46Qp(Qqj^Tn?S^me&0;3~tT-%E?!L6U%YC672#0GEKhkUUdGqD^|!nVhj)
z?99@n`TBHe_J(a@T2nIIv<L-b4I>K46H!drMZ5GCc@TiNQgnT0$PCybIcb=z&nR&Q
z7kr)a<c<(36Qr@)1K}{pg+W;D$zg&3gfL(lL`nJVED%`prv>sEs7VlkJ4rJ^IvOcs
zAhiR26fFb!+YHow00K=AniJ$<&MgGxE%T>@6hYW5<i2I1Aaz4AH71%V!z6Swq4x<i
zEglnZLE^e4oni~|U}m69ylxVNYe0dclnm>R6q0eGS21u3S8!2)2!2B#WG9(1Sh380
zG)|y_e7Ha}p8^|i9tHxN^fF*61o=I$!_^F-r||`w{X8lLsY51!2Ej6d6~a*wWRI!g
z--Lacl+ha`3oG;X?0%f-`@dicAAoU#`ZSl)c0S6tF8Y5ux}NV&7>hV#^_sDIy}mbL
zb0jKjxXKQ;vLjJZ%~kATD|UUFr*ap7w6CN!ZflE~+MZ}ALlLJJ=rl!P<CB~mAk#FI
zr7>RA6w^0t7;LxHKfShYa1(;9jy2Y;8{Hc=&q^)V(9bsX$87^K)4(HJ?XsV%>tXA9
z;<nzHsh7mNb$#97A(Wb!ejiCcsi903GVqYu(PL%WpfF538pz@Ds=#C@%;$u{44J3-
zd@_X#sA0Z|A#x_C!^|a&fOH7sM`Hp#)MRXCCeh&vIw+^7`P`GFiW%%c%vE$Xq{xCX
zVEnvZm=ckJCezV=fj&5gLDBdrdaz*p@pbAGrBdCz99}te=lW_FTi^RB1>aDb+`><k
z3bpld4%m`t0~xtsGcR}kfl{c=X)kly%N8qbLO)yD&zAOcu2@$5?_Rlkh4u7f7-u?+
zGabgfe14_o&extwzEW*TSj%o+T)KGEyW~yg;CD+qc|X(^#>{oBw*E6UxC%9ZWgLTF
z`VnO-kN*!C!#7d03V%+DepSA%$E6s*T5g1%N=tmwX;QSxuR-dT&V^qd#7oOGq%h+;
zq*+IGK%G*f`OlR)P_T49p|4f69?~$-27kenjHK^5Q!SWsO7Mxc@m#t9@+br<Sm!SS
zYTB4VO<T0oc7L?%xganBreq{jbm126X25QdzlgTL&kA;e6S_EUvw^K-i?~AAQh#wO
zR+-;Mm-|a-`?ld7kW&SOtc167+mKb;`c`l2tCRQjmu}%Mi?wkjjuoVpG|)A#t4GTS
z-%<{IOD*#Xc=0(fj&I^oaF`}^&v~GG<av}x=9*K+3@x{QCC>W5%V5gnk*9q!<mxgs
z&=pu4g)~IIlL{A#sfiSbT>p|=r+`%Q#kkLeM26zI0`i`a^%ziuK)s}?KQTp$`U$9}
z{AG>^)prz=2)9A>2YMuDWZs3dUl2J1adFK3)SA+s`DqVK{IHZfJ>wjk0U=*_5(IfE
z0VfLgQtN6?w<N-A6_(Um1womoB_);vWr49P&g(OC42T0?nPg_j`nc0KO*_NPb*FE_
zH#yznDPUd%Fv<KwWIVhPWJI`L=S|5FdBY}{1@TuO#Nl<IYmi#9XOQ;g%?L3_5s}yu
z>4dVN?;2Uz0|DafW#qhI4b|@rfo1`3B7PYzL>|Q#Lnr{=3p{UdF6;-Umj=;Y2*@`=
zVtfbTCG!|I+0C4;z*D9vmNc`QfRG{Nc>gFdySIwgHI5BO%SwoAJ;=5mj5`i3sE`9L
ztKiC-*s`X-)^lx#SokjkkMA2F>1*QpT29}`>ianTIaYrznL}v}kO-ORIb#)Tta|I~
zTx}0q+p}iuNm44UE>QsDCa!ac?Hr1A97$5jqly7A4FivJz&8e=bkq^WumXAR8eyhF
z5{l0Ubr)FT1{8pjNB-qWn)ZV}1R|{xNCH5NpPuvqZqNx41&R<%coGrM>%r;^g2WTK
zx3SE|ij{=j;PH>4OTi)~FeG016rOO3m4PM0bf*>lC@Pxw41W!+h-xFMs1CYUW}af|
zY367O3C*krJ38}1INf0)Dp-O{!4u73f2Pt*kCcGe=@>&se9)mt$IqG8Z}LgA6w#cB
zI->BRsDV6y4~2w}NDh3ZVU6hED?NlvfBei+$_*k=%8=ukF=a$u1V5!2r2wKNT|Qlg
zdrpRX&h-EA%)De+Hq2`WP|6S;GEhpjuo+6pJ!krm#NJLhQ&o}iO4n~qxJGmq-J<y!
zWmiS=<#CeXzPT-^fK5)fGN@t7n<m$w_9?0MGunQg2!r&V@<?{kma%LpL)b)=v^t`j
zhiNpDL#yWjhDhGM+;>v_j?TNMNyDXw38z_1ReICfh+Yf>!iiSVC!&w!X1Ggz`b&p9
zq9t%^wt(BP1>CxbAp<@MZo@we+!-~A%vja~Wx+WGo=tU7utiz&BL%W$Dfnv30&P?G
zj8<dZ0%Co{C=0RitB3d*?ZvbO#D<7T7Gl#^4e{q{DTP~<q99TzTZ+QWQUIA~9QoJ@
zt?%O-Xiz|mf4m=TOd}Y;yhq?QbXUO}7*H&ngymE(uFCSdtL>dB-A3Ld*}bUB=;t-)
za%s{R;<Z;h#9+p>H5Dok959fll=&X!C<qzmfY#_^zKaex#tAElIFd+$BIeKV^ZRK0
z0FCtGC0X!ffNrLk(`calk1u?RcwwUGi4+5`p7%2|A>PdRCqOPD&@_U2FH?nqE`#AQ
zXULfdq*B%h32*ja3j^_*sp<*KsDk1rp@{f=f){~2;`39)ZD3~X3h#Ley3M4O*EcSJ
zMe|xvJQb8qnVSgPEi`VU@fT?P1Pvlm!5IZ5V4ELdnYCby@gor@fESu~5NVi1y>9mY
zdq^qtGZ>$4P)RdouSa6FWW#2^`RdZE3;K=X@|#zdt}NsyEtIWvA^&05xtOLsk#FSk
z9c;eiEjw4$#a4B#<##<XQ@ai*5~kMGqQ^PPT?H|H_mf=8<m8N^*sG#$`PJ1!@ru5s
z{6}f~V*bOb=7qs^eMQ3Ah;N7ZerVbSl(514YkfOV!npET!RjmCYT~MovDL@c^v8&}
zPNa?p+1kN1;~)s<WS}UoSsqx;iI;V~ar~j)Bqem5tv<e{KfWoU!))#0HRIt&efzV^
zl938o^sQwLwd;oZjgsbgN$bM!h7hAPqx2+(HeS~M#_?2oAj%SO14XJn4)poDrXo>Z
zN09zVkUMeKde&OMp)dU5@i&eqOyvnvVa&3JHSGcWt(RGoGf`aqL<?)mNj+8WOd6?T
z_hU*^tXt4Q{b^yv*2!v|%l4J|bxr?<rsP&xthRSu)Ay*{`DWkkKCZl(EpOf;^;cO_
zL!!89Q|k5>NZqcBX-YDZk5zTXx(C-aLy$qN)Dvsmv##0usHo&--%=k}RLd6C%H)7;
zX?kh;Ngk|a1AhXr8z@WNV=B+0ThJs;66|Fw7uPjC2zyDarW>r#kN`JFmyU9lI@VH`
znKqzj*ZniBX>T@Gtn~o5Rkxtc0DHN7WfD+<DVN4vJ?om@M`e|7x^KG$&g`jlUt
zv++^h4C$8Z7K|C`#;Q72PpxYXW5SiOhTZF$J&(+`o9-nyXLhk>*QSK!&`?whXeiPx
z<Yl6vbmhpprVG=w#j3l0t?4F=+$ISNG8sr(JpLIBq^KV{1s~Z@#*`z&f)VmsA5Kd{
zG9@zCpPiy6J2#3Vq<+OSVM#MVQVJMzQO69B6|&r5UQ`KNNnpJ{pb2WpYME6GyZuTM
zt(t%pZ@JZdB#y(lJWU?CwWWJ%aY~&^uPuq;r8RXr_g<bD4p_J}0~y{agqnX~2-7mI
z9Yd)72Zk`sB+<I43J9JZvKH^8Du>P|E&19OF=f~#T7eQx`F29mI{O@H5seN=t4V4r
zqK!6St0O6To+Cv=3OaE`K}-(bkRq^Pm|{qIjQS2r4`tX6IR;V&TXHc!FSd4?*3PlD
z(-gPCRz&p_wmLG9nX>KxTXTSCxtN~^Tc@5QEfHHXEg{{ib_$n>C;4`o-Kvo6&U$u$
zCoG#>OgTL5q-;A)Yn!skw1J+ig2CsuWit?5W7*_l%9ZU|;|q=kJ55W(lYG6U#+USH
zfP(a_X9s0F0r1Gh{5)l=dycfkvTf16)1{Id3;MH)37=6Azsj~hxv;qqR&J(|3!4XF
z<@%XiSPg`gt6Q0{Q>cQL^=wb0h$~?r8keuJFE<w*T>-1KifBG4=jBJ#bXs&0RTG!I
z43|9OqNUR!tf+Q^it6EKfL{UpjPNtTuaGW`n#23Vg3HgtVo48Ei#gwT8S1tO(gz{x
z)P6CZ^p503ig3=HIwZM?whVk87Tu(`m`fzRkvM9J=%<cIAw=7kkcUOCz9V^4N5wp(
zw+I(0)p5yPw28C17!EgEZ;2iC7sn25zE>oQlcUy%K@LLzff5!#zGzKYWwE6GGO)BG
zY-v*^I4R;<dW%?}LXD=Zhc2Mg0`!d5R2(tM;VSZF<Wek)DeaemscqYn<_p(xW^XHy
z#m^VdL%z3ZzH;p3esSz%^){m%hDdMw;(5vUw%jiROFQaqx-Yf2St5mUxPqlPVO07e
zeOkUf>Ann1DPWHKK5V?skZqjK8eZTN7U)2Lj}I)K+XNfTd2%5QVo14>N`Ahj4e~rJ
zSyZH^WGFO&vKAM(o-y~H72%cMB8*Y>GfGpC4yk!YNTV2X=jDb{%au)*pa0TIoGZy<
zB5)kTCW%s!h@p%y>Z~wnWq^z@pd+{`9V8vdlMyC2D@@tbVV;3u)AM6kq6o8cPwRS1
z5I!UK!Y?uRw5q}mWS!?lJV|dNgL$^B^93n}Xv3I`8m3;h)ajZPLxarcPcls^tL6Mj
zrYSX#l<iM4O$H^va*~42BgH@o@J`bbr5M{vXc(0F>@-DDo+URk{Yj>oZu_)|Cwa{O
zNv4^`lxPt-So%*gO%WyVe&*QuRme1VDtoj=Y&0BI_+2HMwBfrs!q<2XStSzv^iTUm
zOQR(j^wh<S0;jBzl1S-<lGfj|h%1`WvWys`GBL_%0|}o}Yx_F%v1obJo)JqfAA6)c
zD<21phF`suv?5X=U<*yeov@c7?V7@x;2L#CE1yx0%7`<o990=H<nUDm_$mPWX5y<l
zT9Xk=4qr8qYRCuU0e<n3lk{XrHoq=}$}~kvIqKSC-jR_MM{6UsoAD)lrP`Y4C)d{M
zqjk?HQ(dG!3wQ2}7;?CC%d|C5v>_vw9PSz-o~(Qtfyc{4P0F639kB&{&-@;A5UhdL
zU|X~a_R=@X?J0^jgCwR2{64qrS*$5pp0!!@jkZ8N%B_dV)njX<bsJb)zj9dHB;F?C
z$fDil_}iAOFePGjWu)WE3M0ckM%uE%l!@u=fXCa4Q&TW!=;GI@Xgk#L_Ukp<tS@|i
zj7K}5eYHnA((R!0Iod&PB=^4v%v}WLt~AWu8DrHYu}-A-R9bgNa(hNEe`-d_s(GoE
z6^m(3?J(!a)-CP%)9TEEOKREApH_EPS{bc-2kn~{@gTj4BtpU5hEdKI=nQs6dxG6j
zIOunaxq186pO&Xc>8I;|tJTWSpQ0{fWYA{eMQ&u!WrayY3v)w2f>^XoO^Y_^eN7Q6
z2HePppOwOiwrF3Zk0}W=;`dZov`KHe<O<Xxqohlx6?9p2*R&GN@KrGc)PxM32(B`m
zWMo&G$^dF3niuVl4s1$EW(8Y*EXhhq6Wtx%13kJoG5}^zr2k&IShM%+B839mTXu_3
zldu@0C$f8su<4qIbydon?yV6Ge91{J^QIzV>e72kX70<X=XA;$?M3rB(@Mj2oeIAu
zLP6sOEb$}b{S)dh)2Cj3N8zbVpC4hLeuZq=L=AC4Sspedf*LrSefA0-uUv)OIzf9r
zYqz3s@G05IIH9>`AEgKW(>~_Mkl_&X=U}2TH$2IG6N1IQpIHPOgPbvg0uZ9}|M7o@
zXOkW&>V+bX9-CloVJkh-C~Rb-6<2^3WeTK?NRf2;B8quPBC5zZ(<JQ&o8llgqK;OQ
z4L-094jW1&XDY3E3ZJP5^2x!pr0sTOB~t#Jlbk=JqSznv#n{qYOh;^|(aiH!GGK!?
zx@Fq1zgZ>J8o?dGq9+#)PrB@z_47G!bPRJ1a)d+BrbDo;lFx$;6vRt49+;ek)4Ube
zc$M$kWQh5nFqjt3Z1$1>S*KVOg|7N$z5ZAH%yn=0>Wr6}xf+@u&Qjf<h2z!ya2!)g
zwLi6U0FK_l)2dr`Lu2v<LVH_elKPiWv7sLV1UINeN$Hz;xAPX&i6Yyrs{g)kqrBqQ
z+)w&fRBU<E;$hIWc2q4}e{y_Lo2af|QQc`=Eo7@Z7PYrrOU8t$lruR&2YuPHqPSDC
z(!OqLh9ecM6^jRM4lfPgx*oH578MDL_2$sh(5<fJs@r{Wi)&G_VRxpIv^f`FzIlD=
z`m!fxYl@kgh)(mz{~t6+W(lDC*aQYNe<Rtb8VHBTR*BF!IOWijc$9YWCD|^s=?JG>
zNQ5-!e*=~+n=`5irx-E_mVU626Q&xD=}El_lT8zm8|>}F&H@i~2jvtfUS&V1uuQ{F
zyiMV@&nF{&$erX0xk1|EP>y*)Lrfh%BlTpa8FDAR8@4fH`(oY$gU?Hi8gQ7G;wqn)
zYH+;aYQ`8thY%*%KO$@zsmSn3Z6}9wu*un9q2R8z`SYKzC2pVUU&B}uiUJtWC@U)8
zoVY!)cqHMfeS7%MaH6DgS#evpd}QUoonx!E`-Sh7-GBML$_MSRfugo}@g%gm+78aO
zi*@a~Uv>Y?1I2^(xNC6nWWv=hxNc6M>dvXv7w?~WZ}dUcd*76juzO+_H)(=!mQ~(R
zz<=#f_!@6K&G^UQ<eQo4L*%frNj#*Cp!#DC01J&!!(4`)(7vz_qKVspQv0IDArbFb
z_}YK8UYJgwXeI8i?{~tni1#p!{n`7UkQ9-&Iq~JvVV5m9QDmOs!`y|id}(F~;e7rX
zf6Evg7{~k-riGnA*l?8#X9b037_tS6&m$*wb$0M7JQ$nLpYR8R?Xc%)_Og%H2_KjI
zVIL2NHKGTc9TS}O1}1}(VPQ+szrbWkQ~M`q`#u`C(D(~9$PT63X!|J`yb5u|E5kFq
zn(<A;{RsaZaeZadf0g-5wC2L8L2%+cpDUa+$?M=8pz!3x+{|2vSC0i|ru{;TR>L7g
zu$9U{fbaAAyMmqL)6!lrI2+Cvh6tDErmv6<UA#`h4)ebvJlM>bU6^O-=419-g1&HY
z4$jk`2r>T>1N|#BzJno6cof0xY~Y%BBtLIO7uxTi^#f7@qO)+`XR&aQCY-W*__X)X
z(F-HTz2}BU2N~Sc%v*5392^iPv@7u#gCd;avmNt7aHyJZ!q4ko@CD}lgA6mnc=l#&
zP{Zmcb<7(=<KEPG2s`$LdLUImc8`%7NmmB*&k+v0P_5zwBJ5KOU7j0<c1z=_=UC~a
zDZ`OY<Wz~YCy6TV^?S;fMD5rjYEi0T!B#++{8E__M`3@U<Y@H6Q4cc{bAE3aj%D)(
zdBr4e%p!t#v*-ZDPaWgHTSPb9Z<uyflZ}gf?gZHo$E)UMy;u1n+Aq;sv{wkCy4nt2
zs;jW)kv9`3VRs+SrEu8;Pg1&+O6d|w>5^PZmw4r+cKCG)n<fb~o6>+Y3<)$Ll14}_
zjS#O4K^mb>I3FIGjj*#Yl?Z9gyl#e>oDk>;-YSL3C>9h2Y6IF`s!lRSVw(9SHU-_)
zPO+-_V#%HvkZkT0S_5R0uHB4mq%H%;RfgaQ5^|deUcv#S4jeWCN6pTLgx#VzGD3o4
zfnZ+hfIBe2O_NS}FTk~VOXKr?3A34FTS95R>3JrzZzJWj1Z&MONy+Sc+|W0zT==!V
zbJNDct#&BJjf20}pZ-XH?vc~80p}U&m-M&%w_aQhbM?J&A{OiD{b24F(f6b4rjwlM
zENeO&H=R#Z)I3q=R27iTk#M+}6m#s>h2`^HZ8r=5j_waG{Nfw$e`DQroHLzfO{e3g
zvqDTKiD`$J^=)FFJBwLQV%ES`MMvcV&bWoe0`<q4T&&3zH`T3Ft(h7VmQv2*Vl6Jt
z(!g38R@zxh^QwhwKftyhShF11%KHf0e&oX{w*B~;<@i=%Fo_3e*!H0{%TSW+d4v;n
zk0@a0BZ5-Ln(8=H18iE1o0?V?Yo>OR4g$eh+E_~)P_CBF)iBq4gzY`DW;wEz_er+*
zWbE`Aw)f1M<;+%rFpUrQu)P=8EEm(Td`*Dmrg6#0nQB;5P25zwQn&`&C@rNoPc5C|
zEFRY4S*c<zO{*%dZ9m(#f6cQ0b9fH1Z9{;qHpEss_Y)!}YFSe)XY#NnPu$eF^75Lg
zjg$iO<}9tOrFB)oS~^x~u4jntL1fB#13SPKdDtS)$~V}e{y*d>tOLnB+-C|nA0Q~l
z^EWwDHEXJln_Me^a1WMbWNC!6xLJ#P1<>8N66RX>v90^oEc@g=2iexa4;5_d@S0^f
zN%n%0BaUH5Xkqb9!;*nBRk5b3xT$6t%HhT|PA;9~EcL9Veg#U=utIY!d)bz~YnHv+
zdZyFf2T40?xyo*~vYV^yXDj<-dOP$DuA-Bz=;SK;*owY|Q;E_FuGGVpdbrXSwzOs8
zSfa%7rt!9sD`{d&nihr=uqFE2OW)>f4Xmw!vo*7}=6n8kgLi{*+wKL}C0c$nxD@1y
z-E6U&D{f?q8}ALid-Cqdcya&2k;j?>L-Qw2%Gnv~JoMmfyz(eO@SD=6mC^g=c<Jti
zW52OAtn{s(jobPbjsmnzEit`2(EvvX)+ZX9C403irmsv0W<}M)sSRt{tuC&-ku7iJ
ztWArG-&G$<SW1K%Pgp8$y^M&%9kXxEz5VK)SL2q>gr(+jo~p*YXheKBbEZz#1db%=
zZ>^<E=YLxJX5;O~xV3KiHLiXaTfggm1J{3??LQu`Kk*4Pi4n!$TPv4FfAn?O##?Cq
zL{HTn0e&x?r)&8P)DvfEf(C!@!n-fseJO6)1(_yXb+D_r&KxsUV@qn{OdYJL<2RPJ
zL<u&VlE&YbI&NEj>VNaf?JM!phJ?L^v$wPM_E^V3u49<(7>?VIeWK1OE&EJEmAP)0
z{lxw_Ki69PBu4{4SSa^!CJ^>pXO@n0mRi<Q8%JPB2T-mah+BGu^1A^J7b3tV3?B&#
ziSk=(+0um{z4%+Jed)zpXO|0q^v#&7k8=&Mu7UeUe{t&lQ*qacPt;1l!DqQtv6Emy
zs|ElHsG7r>061>>mQDx&yybuU%AG55OUD+NCqcKsyoc*Q#`YhJ*B?jBpWGhvHOmK}
zqB%<=^g(EP$L}7GTl%)gJocxOhAl9^+RAktWjl_>?Zew3esj6YZyi`VCd>tKgr$YG
zw5%|z?Qu)@=HjREPGUTb_vKTZtA};<tX}>3x8M7A+%<$~KPsX9|3<VY&nc<m<|p4$
zQm~1;{C0V)_CUP!;KDIHC^&y9KW6WZoBDoRSh8dz4HRc6kWAcCaV0G*{99Vm&MOAi
z(hdE>Z2n9~nTwY!KlXFQ9=6yMFKmDf_6Elj3sqY2X8!H`m}`H$<iNu4ws}Br5HbS`
znGu7mWni1+?U20Fvr_h;d%bcPr+NEEZA+|m--mPSwHNTadZVI#Mf<?IUU6h$@cXAW
zT+J&pA6{5@okP#64M!c$>!ir7aZ?*->SIlP_buG6VRqN>haGX#h(HNcz<mDw5g-J1
z8o>b(esB^xO6KVcTOFDZheH!2+T_1}szxVJHJU$BHGiUN{+py~^l&JKNO&Wqw=kF}
zcmAyK&Y@-B@}a*fTrLH&VCBL;YhU%P()SBj>3?xxwV!R?yLfnEXrsFRZO<Lg$_uOK
zS4JKv)~gQ!VX*;292rLY?pHl1TrWNJ#<7LNi>{5Ty0=U3l&&0Jb*=2ae`dXEUrb-|
zP^9~iEE7h#d)@Euxw{9Z`%Q2x7vJ8qQv1&otL>{@07%zr-rbh1A%IgpURru7Rs})t
zpIx`^e`9Fj;G%M)()H%`+t*jBS1zrTtTOAB{aoc9wsOx0{$EVLKOL_;3Dgt-B!D4I
z_nTn&Jh;e&<jlHtUkVau?c3Tr+LewKX2pG9vF-#?((w?FjTX<L8DVQj){G+`nf5$%
zv~Z3t*3q@7`;8k&)!H<g2JQ~TExjOx^qBwNT)I?$t08W#O{%HFI$*U*9GtC*wKZ|J
zcGlLus7g4h-W<I>3W?P3fe8!6>?tzI(f~=gvy!NV;oa37YsSf==E9;HuSxL$@!`2|
zeUhVWFr!Ny$oQ)pV~qnJcCS~RSycbHV8acpll#6Jf_NavuT8bU?U{?Y!Wy=)=B)@<
zKg8A##S4f2pwbq4lEqX-E9You9qoTz`}4;48sm<=oZ}GdIP|Xve|7wq$K#IE0Ilc9
zhq}1uT+CGWu)3bB?q#ccx$50)_3lMu!rsW)TUdL`y}5T^z58n1KET=cv-bV}+WM>V
zUzW%1Cl|H9aSuJX9(SLKnQ9-^xZm!()5q0xvo+lt(C%=dA-sJ4R$x`JZs~YX3#SCR
zdLC0s7b%<*3s?Vk$(<6es*|k(;?}h~2tlg5AV@U?`Edb+XlQ-6<ZcP)8DKpF2}{F$
zOr&8qgpe@gX?a(3SHrpcS$99d9|Z9XKoAi_1C$w9(ftalz|0vcSwrPpySbVkwx%a;
z==rVw*h7(FaI-e|J?p!UyAC+rJA+lIV~de6kKT#Ki@O(&JaW`6U%NlI?ij>bdc$73
zJaPZRy8RG*olF)`71eKEynT^#^stVeHOIyKu3xy{cXRz0+5U?QBfl{^HmYj5s@-hW
z?gu$*RfldL_^@zE`_S%K)IMt2oiJHb%Qm%Kbst;Zci#g|r?r69H!d8zrCIg>Mw<E|
z6!NjlR<5dtt?Ie2g)mJJ#=S7Scy(FxiH7p@B^-6{*&evp+mB;YDOfnXuCIkld)&PV
zN9}ug4{Ymg!{Fg29xiCjm7aye-#-Ph;5D*Q>0T)laL#%5v!4C2(-+n&Ul1rBq;NR*
zF4nz^bMIx{dq4EASDXj(<J2RwJyzMZdY<b(!ge2tbsdd4hU4aAG5s;&VADMyGaA{n
znu#llxVZ6nKbTuB|AaxNFFbMwlcG)p)0=rJ&J>FNvmRJC*JU}uC%EcmT??Ley{8bD
ziO%5~<kJDD3^;LZEbAd~4nRzEmIr*oq7fx`YH>8@bCydP$$2h#)4DAZY#F6V>%d69
z<H}bM>uJpmz~p~<tmDE=)-$dkaHdzT|3ToCZB@7?FLz=*)N%UsA{xW&9FJJbIq#$v
zHp%KYEMn(@bR0$5!m<t={wD~f84CzU85+>zQS<r2EepaG0ygx(H6W%0Z5YmD%3kxr
z1}z+KM?#WiB(i*g>om;&j>g}ifeMepVviARJ!s(OpH0_8r1QyIST93Oiqy3nS=VOI
zd$I(<TL=A5FkFPDpcHUSUM>ZP$Yq~@w^7uJ5~G6K1^6=DHV}bQD_h!1EGSa~35ca2
zNeM@{WltJwhMt72oU^sDwl<g~(Avt{S{IJWBwUp!#Y5VjPHaP8!s)wMxa|uq-K@Sl
zsm^ifKB007bU+xOxaISJc!F~sW?hG4HG`~SPzD~5oNZOm0z%NBv<wSn7ib$S6v%jL
zvY{d6%Fo4e<r)ge@XniHeT>}eJw6Hdv%@Nv{M9<I2t&Q%8AGTFT20m?cdj%UR=*9y
zr%bnb_Tlo(QRr~kQnMa$+XX1Y<lGPrZldJQo)-MVX{9AN(m^4o94V#;aLP;#FjV6t
z2oGG7linx{gMn<R;Hdc=IBFgmI6iQslx&)5sJF+9%+QV)CFehHAG1uzKhq?2aT;_j
zWCmhzl{qmQT%DOI2zDq@_0z7j>ZhuxDqJi2Kqxs?J6UXuE8#$X)mw@`gA1|bvATn{
zVwJ9tmB+bQCp*ZaK`e#zCfKuvQBQ<C&&p#*Ek&K#Qa~#O^h^ry(0yF+3(vq6@*zQi
zhn@_<RReJ7J`>{g!t5a2^D}QBp3c0702i7?9SNs<z7lUMV4Q=e!HujZI#XxXqcbem
z!?^$Np)}0jq7g&m4KU_4Vl<D9FNB-MCSMWm3=ksm%HS2gWN0qrr{OHr18MIek|bYn
zP{?XfI2}K0s^V>%%SY6bK&9ad+%}LksW3>2F%{60_#(I+eOS8ZiLB&HIv#RmV31}a
z$_ET~f1<F!pkA~`Ehqq#L%PCsNG{AF_X;eqPK3zaZe*!cSpPJ^6@GBzx)+z-y?E2q
zd}Y>5mmQ!1#){C-AW4|t^dRx%^ewEuWy4s=85>w*183aD8h62(kf9%@Ke%@@&G7cI
zwS8;GzC=Sm*Kn3?I2&&`A2Zb_Y%MWcf6UYmCYj5SrH$G8Vx~SYH*AfGn*M~VOPE(c
zzMDYq1-TAbRwyyU9S4PGxH8iQr;&E7c5$79Z0BICV<<@}jwsr|w6;CY$+1DW91sKR
zC|G|ea<fJ5SW#C@-v#DFycrbNson~3bt7!u$QsB%ad``mCcS6pJj1MKc&%s{I24zM
ztLb8Ex<J{DtL^|zw}huf;7%U8n>hC#*1hMG{M<70V(t@|%iJp}<O)|^T*na>{%vPJ
z>;WSNi>-xLiCykz>-*OV`!{SZT%he|Yg0Ep$p->0J0YXEZEwu9_ffHDbFm*>j#*9t
zGlm6L7MjVtxJlm)+K0gK;PjTdvhcicZK8rSo6M^M4RF=i3~GYS!ri_8)LmK9>A;(O
zzlN;>NkP2tu1Mgw{%81vv!Z9<4h;sb^q820t0dqWz*+AVKA-W!g_S`vO$*916A%ux
zCty^Vy~69zgu|u5i8o0%QKVeV6M>maz5p3S#49Rvf(0)Z<85PepcoSb#mG6l;uuJ}
zY3RdvGeroLo<tYkN+6>NeM%f*Aedoz8(eCEx>2Bc!+^pKxl05ITHX%o9f9j4RVYvD
zNN2cc1n@H#=5^9A!siQDmw5fNflIt81sUpIdQqQ=w;?V-{}RgToxOZLMC=H-RrCNt
zCIGGg!rXLtEOWO*l~{rQ0XRqCSPS81ap;S}L#OY^A=7f2Zx#LFMAI}`vn4U}W9dG1
zS)LWB{zz^_1t&M<f%bJi9QbdD6x>t3lhUgFIy8i+HCi0CWn7K01@8gGiVQgdt};9-
zxLTxgh&FJQ;T^$MhOhv*t&w8fp%zXP4|1e}ETLe86PQd99q>EIPQU}C64nKI03V18
z9bls%Vg!tsBIZa@#PUvxyAS2T%{}S6W_M6GGUNv#i}3u2?Q7K~!X&*h=AweRNyDii
zfuf)#3jELKO^0y-$s|KOgqy_t<W5H+unT0YGFnPg(X#2_Ga=Xl2h3?GM;?@;BnmSe
z=wp||Wftk{D#-rQ(r6jDmrZqwFiGzWIFVJ%dPD+BZl~!4oK_}x<{`8vZ5j151+86D
z{L@^}Fvq-0KwEtvD{=VD$i3xhUom%@dad-eGHAmxQlKr{yL^w?{d6vn0_sj>J>a@O
z%LzWgRla}9^)A`|iM@@cpzo;2o0>W(o6BKY*P*9fQ>P0ZecFeluZEp5I@lSbrt`zc
z#W2v)PKb8tP3y#+DEIX5q!<QTT?zrB_K2O3(A)R45h*Rvw!=PpS`06}NgvH&Yyi0-
z;0ZQF9dN0NR`lQDI9zbA;2oV1M;e8n+0V8p2aFgEGCeJyHj2!m*w-YMVd@1DV(AU}
z%hVS1rHfJ+(RNQdFS0_urBA&ihLzqTbNh_`{&gvaXcK!}1ap&V(_d9?6RK!sq%`Ub
zdqqg-{KytP{tLkHEirZJoi4F#&;Dxix>qPluA^1c*PhuPx9A<rOJ8v2c@9cpLJ9Sw
z%&MQQ#$%Zg@}6{FVO2)&xFpqsXp1PfpA+B|&D1Cqt%iBULDx@GwB<GDk6@p9r1%+g
z3@zp&y~X<9uBIXF;)oSY+xD<Qh>}P(n5C~(f{E={W)=dUa`2I%-N45VJ~DF@_~3aD
zGV>JpU|-!Yl}NOKPbIXiaq(MvPhFPmq76bjw+JmG7lhDNTZ9gXDN1h$UA;wUnRyOE
z*X(?*`jO(bDik9{ZIS97%u&-4RH6-M8m0$Ec2}S;xGP#iXs8;zicgl_kQHYEC5`mI
z7OyOm+oc*Y-m4X7BA}DgyHn{p2ro0MX6=1+kIYvNo<4C<yZ~F;9D}kRve&?q&l|)`
z3B#bVA7UDT3u0Q(fTI^+4-OiwXtbfxiAEP1-DvcH;mP9-DMpg$t+#Lf?BET8913qS
z^iI+Y>~n^@lhNoyqXUfjw$vTljGx@pEdh!bYdXp0*@75rjv)f37V%Q>vM>{dyR^O8
zJ3B!{1e=Bmu#A1;P9Fad*$71Ta-9d?qVU`_-g}uTMFVHMw2uYuyA(ELr57_iI%Y3I
zy;Ce9g2;wY*oE{Tpy|NE4%yHm00ykC$TjmC!v1<g<Ggu%tUYyQq`2)6-8!<|Km=$3
z(VF*am%z@8DKSSe&tWuv3_0>@fv+wmVnVMVg#!72$ncv5cOvU2N%%o>2n;{);;E~Z
za)mEZo|xL4P?!NFvh@%RoYFw1ob;iqlM{it)NZHz)EC+ABzlpZPJCW?R=5@uEkw+h
z2OECKMVV+p7v?aO2`XswZX(?H;Dz=KQaL(RJG}BL?B%!$Ef2PRphO~702N9@gceQO
zA2vOv5)INOKLl(EBAne!9lCxO9Xx3Cp@AeJUyu^xrO?OVcr0ww%G&#L3q8ovS`Eh2
zlYLZOUVlfheVkW9KX70GWS)f8wU5wt5VMV-4Yw1MeO1gMbX&(y9u3@XDC`DXL)*Vc
zLz2q=6a4%d#NZ3b*3?Yd4)Z<mggb+M*NE^oV=tGL+(!>Wo<OKYYW>V0rlW!#VIk6X
z84lw^a|+{LHn_?)3>TlzOi%DSe{eQ@9k#4p@iVU?0N+951%&%WG%lh+HiGRV8Nmhi
z{s1&UKXk7drX}FJ4&v&TbRTP(m<@YpV9)L5U1M0$%qS*Ri^lIE505Kjj}}VFgnlUv
zTx1-RMlY$>WyUd~5s)!y7iQ3p#sC_-!Qk~ol$P4X#cRmdBpu=vUQ%m(-Zf#IK?~_3
zq~iF()BrUB*S-qPP(Z6`+;;_U#KmqV1V4?rXvQZ~axlGc|Cu0dW=<g-SojbMCU&w#
zM-WS^iL7njk|m2KuHQgW<9`NO;|=PQ7D{j1FxSTFj>OHNDu48$+`b!k8|U7~y7$4(
z(L_aKqN*Kq@Duj>M0qXR!QJ6W)D3{;iB0bTHI~|i6Sv&U2cFm|&;vFVrgdUcYA^VL
z?G5;XO$fvn_m>b0Zm&p~90`*>VJb;fRKx#9MFUsS%U1Mq75!{Qf1-IfQPYiim)Ab2
zG2;rR*--GrO_{0_u-QOgESfb5J^Z^9`V!F*KC7OT8cez*Wzg<TmQnh>kIT_Up__A)
z?(MewiuP<$L`z+WmavuFyt;Jtt=hL+?zF7g+G3`*n5`{QR=$`AHxe)9ZIVczV(U+>
z6`uOY)cw1f_SLG@3-Ou(*zCQScgvP2J9Ml5&8FK;Z_RP_DBg~j4RB?6iE*s#g$HMT
z_2MsI{P5g|mmYi_K4a%Dtd+g6nD;v;=oC2w&7-%hZ&%!@0PW<2$&xVH$bU*HDHGSJ
zDiHR75D(mKPAv5-EGq~qO5|IplvHg&n!<lI_=$E{14vaNR_U^ubM~_EZ|a2r0#riC
z-&mbXie(>sY`D_0`1>!%T?d}*a#R&0`zfR8lL1FnAt?JLcT<+ynBKK%yVo`<(ZAOp
zd$g053eD7-pV3T{_D!oSs8$$9wZc@*oWI`@ui2Zb8`O~Nztb;njCt_#ude;_+Ir3D
zn8}%;7TFCt?x1$aS$4CQ-LP5grT1ZP#xSVI!7dtMn-XW~Vl7>;OM<fufX4a<gTFZb
zKI|em3SnT&k<+}W2R$@<&7x+bvL?~cl5n^Z^-aRgHLm_3TYoTKf0(NuX6uLlUG3jC
z{7pl={sIJe`?Wi;mE-_he;{6eh^s%!)*t<M*1s+Lo3eQQc~D|-nwRvj;*_myxK=nM
z-*jR53DsUvuRaYpC^-=5bQCDO5$HV4Y0y$2z`_!SfmNmAa?V=IT5Fempnv%7yWd{7
z?p+xAjj8Dml)13rH^mjn9C$yhZ^bP$f8G7_UGMFR*Y6PkU#~xwRD&<5yt&$vd0+#r
zii(;yzxfy6Olr|xN0n40^U<cKDjJdoumR4Xep-Ikk~HF%3BQ_u)|@QFFEhmE94%{(
zmShorTPR00XKz}wHzlq34XT#l-?irGO4{(dgerBsskyD;O5AHD?qn&tm2Gw_M>qRs
zHwU^^Y<8;zw<k`j7M8Sx)u;O}ue%N;%oU&1fX~8#q?@voEu2h%?*At3Mo?7wRH-x+
zfIgt583*4Y+s%DT`|!1QX)g}N)-oK2h2hXq#W^}yM+Xd$(7<tA%!hHYj4E<$r_^`X
zI5aXs=;M(QJ})#g9!5F=MM5J(yec#qm;?V2kDY15X|^4W4m9%7KoOKcu|(1KZ8QiW
zKuDRl@zaVESOMC~&{hQoUnVXMpB5BO4ouTSDU}nxGVLc^9zQ575?`23Z8~P$n1Tj&
zoq|L7I<LAkGZSDM&@uPCu=yUQH;TCq2CpW>7p$4h%?2Pe0)XepFgL&;3w8U+Y{|TW
zj%XmI6Pg4L>yNKfNu@zOthhDuDTVK3#Ra9h=b_Q^!)tF``{8SEyp~j>1N4#N(qta7
zYS5}BRvp#QoXjUySX;H@#h#B1`1yxv)vIdtaYb@Izgb-X^>_2)(#4zJC2ukZz8`As
zx5BKp=CK++lHXJ`tIZF~>|9wdTh^NdH#4pXThkEap^Jvn={ap9t8IL&#qVz_s9e}c
zs8CyOh5tao>v4|g0Bydy9@c*o^^LH#4ab$v-h>@K8xp+(iRO+(nKNOpO0;$1XZNm8
z8b@;g)J<h3E&v7GnYsIo-N`)R8+EB~MwTK;t?;d*Ohw6j!49K9S<)cb3#jtSq*1V&
zC~FBEbaE_ND14i#@``2E?S^EL@D2UbnY0S_V!V{{#L|gn7&YsYHo>uks%}_0e5W#5
zDtwnwwz6coV7J3I#H2&8SD=!z{f>QA1=pu0D+Na<Ro|Gb671CgNwP+;yAax1!CnU!
zXW~4(Vqwdgll6k5dsAv2!Lb3ddoyx7vO=?!9Z3Og$tFr?{Gt5~`z`e?|C@o^ftA5`
zPux8bgH4bnyIAe6&zebGVWk(_-WdGSPh-mVxCt8LKZb=$KQ*eLsZk}Z@WY{+3)DEA
zUh=wr6z-AttL2nn<%AKm%CDi-@XLi?9>kLoH;wB^+8Rh(_grafY2CPr&VOAsny;m{
z`=g!Dm98G(lo2h{hArF+pln9Jfi}Uf5bU~nP#&etX<HH4EL+4C!dm?WsaVB+BW?4W
z=#p*2mqJcu5V9QJ_H9Etw)L&p)>kX<JKjK7zOEiET%fKgM$Mo^TE&E+?J#p-Y*N+6
zQ4xQSarpjo#Z3x>3C|lKy!rv~1DO|+MnEskn-(=)2euBv!qGP`!b=$UF$Zw?8akkz
z83iMC)XfcHT*diezI=Gre=Um-@dC3m8TNVyR1n1mq5gP-+Rzx@$YbFS*0ObtD^ccJ
zQ2oFt^bV8}5+*j|n(99Tw=q0;MSM_27$>F2C=Vs&gW+Cy-hd;|egHW^nQ-wPL~rA2
z&?n19K_D#U!X;N*mK5hO-hxL!-~{CrMP{HJ>Ct5Hpx=XFS->%O(2d|k1GW_FmO>0B
zJ6|P(n9Vmv??d!-Ls&o$-1@97Km=7J^o0q%jr=zPck@Ypo>m8Row4c<2DF)|+O`GN
zuQgQy@}5@OM|lQm3CEy*Z{oGDQ~*`j6>_3QIhB36gT%sENb<-nwuxeM`8*`-gTG!(
zM|ywhFv#SQ0fVd{S9T#+KBUa3ip#EeFq@nhUrqsI3fEDy9(ml!V+>r&vZBK$xY}i1
zD`Z`rPrHInE2^xg>Kd-&O(}Cw)b;e?ZRg?4Hod5}4*mQU_>xXWc}3Df2hnHhY#UL>
z2ac=>`<O6Di#=w(9M3*MaS@)W1lmU^?DNiE2g%XcWkK@B0)T>qYyxfLNZ<Vh+Q@Ju
zNW)P1Nsx$%g3la~8}oS}i<%37>@xodNWbZmCr+O{HJEX#&uvWRr(p2;lQ4XtRy%-@
zsRhrg(1SOmgp>m0n-$^-@jKrp)6KU%H03Pz`oDp^Z&3f6rsE+TsNig4oo$@6n{{?`
z&VJU}|3UXJ2HqctJC7`=IZX)+n(G=z0`~5`cKbE1vXias<SP5v%DxY*zbJpdJYG4t
zp#Gup4dc4To+z;kM=i9nC9SKjpSQjTo6pa&@LzIn!H}>!-#mKzD6mDWy@|8;vGzU~
zY&gB0MafFx4^O=z9Nw@=1s#dlZ!Uc^bwWhKTAFY)Bnv6WuE&(tp<7V@T2m^ivwd}f
zx=mVM=^+k<d7$NGg3}b;fK}8ZQoaMI#pgQ;N%Kp7U4_m`uO3>r*Zi7F4}U`1Xv&_G
zsH9b(MWviFNZ~{q9AuZ8vgQH)ab-I1V(7RsO74+jqDPh^Xp)h0I8#u->XwbxfZmAg
zYSDL<!ujh{>CP)cAl<r+DF88{9pSZt?0&{KIp2S3I&j^YlI4SgQ&QQ(r6y_h2A7$J
zPY+&n3d=j7@<@&xB#SqM*W`6lDzHL=!q*m$mO*`R<~!JpNry(J5{?&3X&?Fme9o+o
zMy3=F;Q9fELUzqlk}(f|#j;>y#{BO^Sk%|>MV5v_NTjA_`KMk2IfTt^zC>m?AY$1u
z?Djv0L_jaNg))`hdTGt*1~pWzE}=gPI;mP+%;<*ggXJ~LU0ls>wr2PJv3S|R1tT6w
zpjpxgr{ZuXl-{i<Rt~JZ_Mq@r#lI~6Q2DRQ*w*8*#uIVV$ptm+1mQ|NY>9`E5!kI0
z`cgtn5Xq^n2KsJk1N7Ze-GTu)#?rdwu~_5K%6YDNh;1GMYpiaFEjhxKoMlVS#!Jq_
zuwk^vG<Knr&p{bIMPEo-5W%W_6%C|P2q(`(@pEeio{+p~^dk~KfWU--SE_55_kK#j
zE2$||w{7BN;XB2=qfOx5(I&9&XcIa2PYw80XH@G}yMNyIUf<96y|*t(!RLeUV|*ps
zo|CPvSHn)`3_${XXRy@xB{9_aC9u<I6PRhV39K~QBt{y)BsLnq1ST47Su8X<Nenc8
z3G6f41m+oSS*$ZU35+w^1hyG%0@IAPES4FavKVG`%3_z%No1BkYlbhOC1G`XhI!-I
zOaL|PVfqcV_%4l+M!~E6FtIaG*&z0T1!h?6V}Qg;ox%u9n?NJ9Oi#DKb|zoY59-t8
zj7DCC%TU4*g85`cN?2TGaM<Jp7tkPv!xI@)9pha)S+yd|gMv5=$w~$Xc0tV5xRdB`
zjO6tA<b)t1!$F=weHgOmj_=-40;%;g9}}3ICTnF#e+qjVENH{6bYx=#-@2ppQVUnO
z>Q)T#`KoPVL6&|W!ypI8;P}VaZxfiP15D17g?t7HT)uOMp<6D&I&<nIM+OO7rW~X1
z-Dz}Tg)=Cih<u>p0E5IZzw0>@AtyDGG=!C0q@5Yu0s6ct3EB}tN=}SlDhG++Uxoe!
z#2@w&gkgRShL~z}G!aK!N%S#ZRJCAgz?q@3(p?z9MgovzT3~<543O7CnziVgxdIH^
zeJ-c`a3bc5Gh&h+mGZ2|42U>*KibGb`9ZXiG5ZYK&Y^)qEkPL3kG26cc7wrdb_>+^
zUgli@6aJ~t{|QDiN1;%BnoB8aKccK3QRRO}=|7^}zejuPM^w#cN|i$S2?fTdI!ZC5
z_)Mu*C?8W`e5RLtl;90XoK*alI`a{A<TGUsIB3B2vs@_<rFc>C5!Le%)%X$R`G{&G
z_J)tB{@-aWix=bCiW|94GzNunvFiy1ucT9}s9gR!%!!K1WXXPo!m(mWQutnNdQ9F=
shLn8@OU&$gLc#mVD~fL!6vq`YYyA_7*q#iPpN8PKDn6y~O>pu51IxcyApigX

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/petit.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/petit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8bc19a421205003d1aec8ce563c774ab3c1cff88
GIT binary patch
literal 14343
zcmc&bZEzdMb$0*`-(Lj3K=JD+N+cnXAVo^DY%7vw$+Bfzv>eHn1IIxj+<^pj`0(9P
z5>YT#J#I=RPHi=9D9?DtbSItAV`U<@nXxnN4|S%QrtOacCNqRD%9NeBo%$baGUK$r
z`rh6Ljv%Di?R2^l_V(lL?%UnB@4bC*`A<Hdn}Q(NzLS1@gra_p89gvsV#7{T)FQ=E
z94$~8I!0$KF$;}(i(rk}$d`#R@U;r|j3eeCbvD77am8FD%?R#{C+5j`W8RD}<|Acx
z!Ji4l0wnDaf|;gRQzjG(k-SrA&a}i@NZKW|X4+zHnf6$FCL9ZsGPlr?*%8}8(jK8R
z(-rH=bjP|$-YfKEdSksbWubT%&%O(|V~F)xs7EQz_X@@N`KEWRTIo(w8i3Lu-(r;Z
zlhP(A4e?&1bl03E()<ZFj93)wvFx1Ud@3)ebJ>J28KD)|nS_|g@G>t##*@yb<+zZW
znu4rVaX*>P@(J<bgv2XBHGP_wr*j-BX@4gB;%p)-rwcr1u7rM?pH?dpIF8yxg3&|f
z;^Vn&Dm`VC@wJ|zgC-o|iD!=|lG9oRpc78y^TJ#_&&z;h_EIXpKQ0gimF~RA=My5Y
zmnP<TF`mkaDy-6Vi5JtUtu3Y5d_E`2JO`r%(^6a@ZKR9od>+ayO3UdS#|!8A^whL$
zERoWFh8NHASt%!;O(q21sK8E=v!cjn<#=95$S`&$scx1Ud$i2PKN70ssTj>sF$+h>
ztS(CZ$8~X5-p1K@hO-nL6vZ*TT}#<{2hVgs7h2xISyFD!`3e(ra^0Nk6<f^3yEzB%
zNm)4eE4FvF!D3!g>fn7dU0RXpgZ%-##{?fB@OCKmno5IOF9ZXq^O@?Jpw7>Sc!qCI
zSqO#>j!N0MfC;9BwD+jEL;Ikqt`+K<wzlVO&^}~>Y2%t<O=@f400=wR0<&)CT48Qu
zrb%hZnepvqq!$OjgKHx*w{z{#Lno}7wzhy-7)rXJ1XrK~(%q0|AiV?9JzF3<p`;g1
zR*w=qgY-Cg>12MtO45Z+^~)xOge0**3M>I(PoCKyom6^&*np~&7xTF^P>V{(5)f!Y
zz>}mjU%V7gBHhQy>53<Wshr}T5_7ZpxC9VNfWMLyW;s5d$#Js+FDZ7BmuJOnQs;a)
zb>tNI+xRv_i&T-C(KrfZjiA#BO%>@P6*nM?wAd=!bg&tq#rnX}I){R`R%mNL7cG!8
zFe%y~XV+WL0SlTeyl?`zO%hHXOXkkj79+}@5qLQGY&IwJtUR5NA>wfbGmuP6EPo{r
z3zdOWmJrxPmSd&a3p3CcE9an_M0SdgMjT4Jy1w!0gveb+uArTDu^kXm>?(Ux98i@_
zXQxD@1~H7$4u~R*Vv~3wMS#^}0)TZA&WpwHU*|^UOnx+<&X33maf+8muFT$d|DlWb
z@uNce!f1XDxMX(pk|1P8VV8Iz&R^k^vvN)xC45F2)i@_%kfVg7Mf1R!<8i`)<AsiT
zs*37W5k%x9L|3V*pK|%uoV&`-U8~N4O7zJE+p2T#N1n(XZ|JqjYm-$A-SiN>X|?+N
zRVUTCd%^Z<pwfR3q1Z}qbiwuuXV(VwL?w-_hm1iw4?|{=l8w3<3&L&<Iths$+1T_N
zalA~!5wRA2<|c~<(X+^i)4WvMT#ak8`exxa8@!plFh?jrJwF!`$%}lJiyFP1n+9O5
zl(ft9N$4IpvoObUyp*2G0+rzbJa+m7`{<cxBtkUM2nfvRr8ZhFOGZ2X%!y;H&c$n^
z75@4h5aS@(tU=bifo2?j*RZC^H5`sT3FuBfd+NlgV+7-2z=WKMSvVI7mP@BnJc^mE
z2!H?wu?&4Dr`d!AoaWFld+hwv!z^_6=$Ug*M<*jzu?4nHaUlDd<r0ef*@Q65KO%}b
z@f})Zp-#e`X2m{;#cqfSL)(dv9M)|o>p^Ti2+>t)(@%N3);#@XPyecC_nlBz)naYx
z+^{mu{wl=)AzCT#fY=YPTZj(wD!)QTvPjL*z$p|DS!<O=zC*o3E7qhSnXpuxaPs0=
zP+uCH7rp9n=#U)TtJHd+Yx~GZ)Pz%N<PKRiG$MCducT%Sj%O56Q<k%UB`meVz)??5
zE6xikA(xQ%9aL=73E(Mv0oIIv7?CvSFP=!saZaAg^HL$QZRzg@I*EO@LUfh-IM}-A
zzwZA5^F#OB?owcH$+>s?d=XtTU(-r|5`#i<4@UJUhH%_WItwx>pSX|~((+uPzaes4
zfxZfzNhmphP1&hnXgeZEZ3Gb~BtTK8r|7dpK(tJ!G})IVI%0H2%4Hj4*MiuoQ1Mh+
z;E@)j!tRFn)q|Z!3_S$H_257$Fj#U95-b(F3Ys+YI}~CB+dWWvH-TEDaTf1t?dB~-
z%M7-u3!Ft4p7Yik*DP9PLs05Hh?b&N^2jc|1J0_qe3>p<XAt?i@UE7hx7}rIo8H4b
zV;Y;0y?RIb*jvVB^j0t~GjEpzIy4A)yWRp+fyVQ->#eWQ5?;X^^A6M4j_vc_GPYB1
z4P!gzop%|-HAU%o%)5%NtJW!M-klvYjpLGoI@UTQs5#Ag87R(F(RG5-S5O~Sv=&{^
zlX(|Bdfm%3=PlYUQS%-Ps8~f$(OI+?-8X&jYRm!X**~dx&9Xvq*VMYgeW%ls1Ud+^
z>2&rIXn-6$SgRj|!mWH>I}k)?DI96kx~3=&vO}O?MzD`Y2P#UG8^x9YwWKgH*g)$X
zWHYmp%w9mbBgrD-nNG2JF?T7=@m!RsOIw&YY5)`P+c*r-6BJF($qOKM=INRiQKV(#
zT<QDpeR`3msaM-<)ExCA>t$LTg%02n=1#-vNOB^Z<P|HR07aJQm_lEXunSg|Rf_BI
z6rTmvP&`r?-FEU*VlJa`i0EM<2fBfDBx*F6g>Ixyi2j56Eifv|GU5JcXkuyKtB=3_
z;+y?z-kx_n|0&^SzPzK0hE=Llz0E5mq$T-z!0`ok2zE1<Ny~V-j4I6Jv!M7#Y>gDk
zh+FX?2O~&c<mV*C3R&?e3@AQ?(EvmW16NgERIIR@B9gFT!?6@As5ud@IE--jW3lDM
zq!LuAN7V=7V&bw!eQ~u!@z>}BYY8DK?F}}c)S_0bc=SmlJgUKDCK56X(CCan^ajOa
zTJJ*Fy>{byXfN#nApmmO7hLo8lzlxnE-m{@gZHiY4lP*LJG<XH_{PDd;g!zOk~4fK
z&{5j4=jQR%z*zavW1v@*x}RMMoiBOMSK0^H+DFRmBP;Er3*PmP&bQj$Xj}5Gbc`(c
zq1BD(&HmLu6k1e*XEv-B)I%(whuEpMT?_7yox7I4e(Ql%=aKcDyM8$E_CP6eWM${k
z4|krreX!*0C8O^9$;4{lJ~HH2S3+k?-m{gS10`qYdRurgbv;$;j^47Yv`s8{DxS8I
zr>7Fxd+n(^zV;iQADmnD?YSv^s*x28KH=V^EMsmMym!yFr#{A6XkD&H#%?`Xiab<u
z4*Y8%RM~r~!cJ7$`zl>~H(gB74Z4%dt;$fdL_yLdQt96z@kMoYiJpTC-;ANJLsKnq
zbg?GAtRP_;!5GpDxOppH{~AIWl1k(Gwno=To!5f2vT@8MN({n9)sS{NR+Pb$&jNpl
z*e6BQH$`MJ;%SH!3Y6OunDCx{>ck^YK6U0?9FCmg)N>K0ru&MyWJWxRO&`SwtcP&r
zBZo-w*4SifN^yh2EvkBm_yl%t!<%^R3aHY1R}O4TBJe{MGF>1yI_<O-Mz$S*dx8HU
zj3P}z1X{F{3bJc~!E#`5H4v#Zx3Bv;)_mP%U-ymdvasTNaKTauh8FGD?XMSCg1bHp
zo>;d0*#3@v`I{?4M<925=UU*2a^Q)T!082B#S<tsA1ZqeRhrut4_`n0y(1-WUnS72
zDm$ul(pcmcmB%2iHvuP5dFVzqge@e43J<Dvb)ly4Xe84ZYCFl8NnPvHAQ>P}j=4BQ
zQ6OZuk%V{_zzI!6EVbPRCQP^`vL3Rh;@2QW_&c&Obw@kkf|NIz7?Zh79yaxYz!&yx
z+s?bf{t0&c7(~e3{uf&pXny_jwU<iH9!)a^LuV>|C23w5JfnmMd<zn=O_meX3vf2(
z@%%R03>vmWlfVt@t(;A-pSQ`zNR2K$p#2&ALZV+iOjC0V$Z&haF{#keg5~Q`h2B%J
zME9IK36~-V7-@wBh;oa_E3VWmSVt0aavF{w3z&=FzzF4w;(!GQgLGDLiTo6QB@R-x
z{@gXe%Bv<@O*(OfosD*9E6fe(T|()4mHK7-z`~=IaPM1zHv-Gn<!4sH6KmlI%i#w<
zIDWfzCH&~ZsXKwD*NWGQH%={G`b8l6QF~|AL4^mwkP>WFH-jOaizo=UY>07gK86~+
z*nr0YJP`9%V3t%PW@*s0O~xA&37{t7y@&*TJH!duqnCl5&DbU>1pWH-n%dV4Bf4u!
zyFT7oN^a7ji<GX^La7OhqSYAPQ&X1B(7=+dlOj?SSixP#VCTRmkjsK@(}D)DDDEXG
ziK^>01CUC)$iFz72HTvjTxiBjRrkU1MMO<Rb||7mP}*wSYxXuMt)%>9{?Jx;fksr*
z*q%@p8P=f<S5Hns)WXcFQ=zXm+;R05S`YFTbS<SJx=Q`VPPr!5Lv3rJXgL&J35_i{
zKK8V}&c7L3^$gt!^e)+#9iX_}I<dC@@$&x1E5WuKj!moOfPd3Yg-2J~$4bGmJI#^h
zT`SF_CGRLI56q3ZRbS*z^U!k3N^`X2jp_`0i^gr-q3wXjA~glfkm%0pZFvweL=cU&
zk=wF_jth?18t!#lt_Qn?ec`@br7D4@1(&LenE4BG3c`nQxycO~zV+d1TTT0KbQEf~
zL*OM~O2%EQ55VxPlZDZmCX41gR^sIc!RVJt%nCAIRlp>??;tV$5d}Q@398PZC=hFI
z52VFjjOy1Yq!VVX`v&%o?LdD8ok;@_!TNXtuN}R1wB*^T*<nkaPp*1TSDIU44_|w!
z#?H5FB_1HMd^;g=x8>86Db-LSegz;Sv}&ZTpGT*TVgud2FuaYp?*aW&7)5G^2zS0&
zRZ2b#>{|x?c;9v^umK>M#(qecHB#71P3k~}5!4C6-Cd(3jebFDp8^>5x=}YZQGl8T
zwn=>obsXhy09wL}%vI_RNYfK*Ekos&p$}W4%MY&v;ASyO<`A)+oSdA5Vev9J8DY^B
zkH;e(SKM*U(*kL49Jz#`)i~mDE|-L2+l5?CP;YD~^Htn&ABi1R@eogtdIJ;PSd40?
zI0liz5QCpMfdvOKI)tS*E}fJ`Tu1R~jEH^i1x!t0wI!QX?BJjT_m7ARF6J>3F~S?I
zco`#HCY2BLW2z6MHa$X0l}fPauTUS^c7sqGJ5bpZt@Q1#43B;42{NPWL&H@DzHn9P
z>08?WMy%?<oRew|-`I8i@u~}RZfZx*jpQ30OXtcRkt#N;dMUSm!w0F2T|UNN?V;>V
z;D%tjOC7_XQSjZc>Lt*#S~tAhvdsVZ;yV}1kp~cF*nk<<U@S~%Y2q^qK3Wx|02Q_Q
z(9*f({<pt|Er*PjLt4v0#=X?Clw6)zntr>dN<p@?|Kw-*)j%Ot{VGkmax*RKuC5z$
z+139U0~rkhQq?d4urj^3&VA7Tf%L)9d*7&1ko~#sGyG_fkgB>Frghm0*EOc~1Mc?3
zPtzp%^Aj6bQuPOzmP+f6#pkX+w-~=3uUau5-ABIbuBK9GpzIplV4$?RlZHui%M)*>
zH(+L=s@=x)E*;;X;8XR|%=q$IEFZ7hX=V%-F!@f$CgjINve~%LN%$E7NeRQo5JZ0j
z2h;3<<}Bb*wJcC6nzO#*jWG+<6*^`IHfs~J0A4udM)mlt>M@sCFllqhVJ}`9A&yEG
zWd#<bz<`|-!Q}}y7xY1xTziu0M-fr=-g3!6#PGMV3!*=xfn&f|4cCDGe;2e{&@nac
z05U<9Z(s;wz-|s#FFa+y)miwE&J|ZYPL5kVE@8hcdsQWU1T6G4R2B^1+Rp$+LOJnU
zU=~i_HAmSQzR~pyr|PhXIK(-q6AKvqK1M~1$eF_46`wYAk{5({95^#-<U{~Jq~d_9
zNtX0BR-mr?+gGShEf&UEb<)gWY4?H8VGjpC#Yo*qY>|YY5m4L2umQ?;!)=5uw866$
z8*iWStDxq124`0n;GuyF-0N=Mg|ZRc+%C=uKNs|XbE^v}FFrAddB4;M9?lC+eRwz!
z^SLOl=}Wcs10G#<NI;eg+@;)09#420*QT8C{D6rC=Dd-Rn1OB*hb$DODwM3sp-nnN
zW4b5$gqgP4%V~L9b5#pM?lPVQxU<YA!7a}};3mBk)n_B@BnTBeO<E|jTtZHu&qpmN
zvaB?nFmh_sk^ey`s!h|`{4BVbQ0LQ!gl`eFBk)f}iFayZ9P$W}5H%dsrkBav7gH;e
zEP`_qj4MND9~nQrFM?e?zi*g*ZkU}L9e;t<Mpc{E4_ic@F!IR$(-Yb_?DNp>YcDhy
zRc#s{*GK<d2osFaJ*$okeqNE+E$83@21dbN0ORjPHkU%JkQaD-M4&OHW8#$bfC{ad
zK^|bSFA%W20B@!Aj)-Z8)lBeY#O>@1h)HE<AxNOj1l~VDN)0;mqDebYHdrVpX|p|>
zu(U#NO+_<bcMMilfu<7b5}=iJ4WTQ)L**EF<59xezQcPFFlN9zsDucQRNz*owB=@H
zBnhL0JSvgE)UHwrzA*7<Fyy(37a$WENp(yn9niZTFpc-ojc);?U8KHg`zF&^VQ-}P
zfr|$X7bMh_{+DUf-P5oKfz!v)$Shd1D}l?$TBJ?yPArhaI}r)smZ9SY=0yu<EkGS-
zyLcZgzZnm+o2%i~qtQ&nV9l{KgWFygvUJft@0QU;OG53=-H5#ct`^Q-06H@Dit1}!
zxarVe_;F6oR&?ET=}xD44_N9@jjaouyXevH@-!u*ho6Ld<0IoOi3G3&Xkyre8LL&A
zK7bjX0tkSWG2*=UE?9YsULF4b0W05Ku<{jsHLUJJ)&1%$&9QD-nfHI0{Vw`(zrk^M
z_dN~V1y6r5P{R`}F@ed#W2$^2)(p)a&0dB_A@Hh+Ji8iZS#Az)FzMu0#-=`tsl88$
zDn5;mqrwNO7HVe1&QtixGg;%+0!tn^v6rX$EV>#~d;+B&3<sP9ALZcPJcD;~c*ml$
z-%pS{Ks$N~KA#{-MQm{40Wqk!R3^lwGm2Z|L68<-2N=b!A_H9WdyrMj;JvCL-W0!C
z>cqztuQ?CW9#v1(35S;-@F&iyjsV3EFT(KAQ2cV5lcy!|+gROU;(=RPsCsYn5!rbt
z&hO7mq_QHOdxhaMd3g@}b>OKxq<|%13jA~`_XVjBDY2Q14DS>ahbDW;g)I_PMFFu^
z;qc;jFnSfE?_%`F5Gf)4iYzAL+O)u|CQ9O)SWDJNpRRhJ{63a1Vsrx|V)S?eQbfDe
zrK<iV%BkW{im-RQ*8i4Q6k8<FR<K`Ur#E32!F}37q1THT3D|M~{1-<*3>+m-fas<N
zHmp{3y}?_wO*gfBs5EqBW!KS?v#%1~vlfn)!_noJR>DUYeCxdj7MN9M*Lvg_eg`Uh
zj^lT*;^|+yQ1%QhAN$ZVLcDoTnY?*kD%i3XsExX5rF@|^Z|{fR-u0$#u-v*@H@#G7
z;7(K9V(0bF^<bnDgs#fLkvnajix;n71TS0254YF$a0UMF7~E`jhujPHY8&P9uQ}PW
zlU)igA6#{gf7~{rb@JxfQr~?m-G}~;`Fr2r`c|7Ju^D4+cQ1J0W^6R;zU5hU9{#vv
z?B30GxEJu1p5Cm~x9`@GRp-O&tsQHv1Lf9%wbuK~t@p3AKDgk%)4o^htD?^1@pABB
zrETY?!v=G3*XGdV3cDA)<~j7-g6qr?RZ~D2F}dY3hPDK}G;RDTxm*CxflPg9^rS`S
zdyPzbwdWl(&icN<wWrAxcq~KDpgvO<{*Okp%7(oh<Sl*EaEXAXU|?W^vDU#Dx{C>>
z;c7LWRRP-9^=RlPHF<2l_!jBkL+7V;@+4T<eVVOHicg6NF5)65U9n~oR}>3q_G2&u
z@y{_LhaYiOn1qmrH<tKt2d?!jRuWCoXJVo8anhj9AqJ1@b4gy3bjA=*q>!m;R)E6(
zyC|ynY&8J8E+KNDy@tEj!jW<~vKAgGheuYzqif;ua(MhF2j2h6dtX@zA6xKMI(pVR
zM#>!{YaRQ_9s5=~Ce}I*mOBpqWcK~}_vTkR9sx&x*Y2gv?E|Y_r;u56-02-!?zug?
z+IyPtk~?j^6>rm;x4Z1^USihR{bl&?-GBQLFv7!eWnT4w!__sg#IHJs0T7_n6Y?-%
z2*$m1LQ3M%&;$A-$T2}yy~W0fM2ym{E<mZdy;cjQhKgEi0HqC%36wTC97XF*`dy81
zz+7XQgxAju*-()P0Oa^&OBFkc<2YCi$@il8BdCekMYIsqfvO?}XJ)1o5to9rs-q5u
z{85JasmB&!L2Acwx3L3oYy+bns)U*=&0%y!lbzjL?$}%DWY;=J%blZ8vDQ3ZZXPFz
zedXqTm8RCsfD@lUIJGAb>hqxBy{$3oDfk0K`(=zC!-yD_QST7{0;8J{DR%W{F8(E!
z?7;{XJJn!=76M`>_y<Tx{|ph@YrJ5u>7tnk*lW-R7pdA$(ah2HK+9`au3bR`f0e-k
zFhTYYR2?Mgr22L*oqgL?b&;$a%&1ilNqVWaj;fC&{ZxAw%A$<`$v$gwGd;HsynpDu
zL+>Ab?`V~R>}`1iKUJ369r@JdXWUyxg**)EZF=qSwZl~h=A0B@C0rA3oGbhLs@MSJ
zgFEnA*R`%q59HLj;xr?>6+74=z;>b9osnP_hB#owB&1cfC!`t<ve_uP780d~@D~s9
z^{H>`MI>vbkCYJY(0Kl?x&Wo9K>lt=MA8+J+Eo|d;5}NH)mdUgS0=t7bo2uJNr85;
z7xBJIJhsZ%7j3RPP(+j%%Kcxo*{qxvq-dVJBp_+^upt9hUvYiOo>cFo+7r4)mF`BE
z)OH0mQdQsd6F~hzyF}i?sAq?`!HE45?Tm!b>rQ~;JPbPseug9BZ2&=GE#dj8T4|d8
z+)dGazotUJq`bePhW?G}|J-7uEuT^l{RXNYqd&J;A?c*(ryyyrI#2%#b^ce>-cRk6
zyY=<wR$M(-?VIlN7J97I9@(TYu_@c^^kAuLWRrsLX6Q0ayGz|8zo9Te$o9VhB7+yK

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/ptpc_fp8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/ptpc_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..023bbd1662d236a5d54c262eb34fbba1a3e18391
GIT binary patch
literal 6947
zcmb7JTWlLwdOkC}-$Y52EYX(aQEbPiFQgRtB44nHEL)CaTT)`h3Ao$Nj%E&}k%vR(
z%+QtyxiJ<7Ds>w;c_{3nEug+7u#3$C3+z4=MIHm}3%Sxl+<}d{-L&YwF)JHh>{I`9
zW`?2!W#RDQT>f+Zf6nE<eE;FEW3e!TpXU9k%6B02d)je-KBuwqf6#b<6r^w(%5zyR
z&u4j#_Ib^d^+4^>ym?>N$7o*7pATe%tnJf6`EWMO+I}sPk7lF!ST@G`0j(t;&&F9h
zsI}(XvTdv#(%SQhY$D&0?Z|g#I~gsk?aFs$yYk)HZq|=z$^7o@Zq|-!d-6Tm9%#pu
zmKi?V%Of1deUCVM_1V2Vx`dSYJ*2ea#3PSG6&SS*sO`A3LG54QQ;9#&DJkCajOYti
zaH43c1zpm{Q=Ao=l!%naCMM8{h;qp=3wg0nG-y}VRa4XoGcz#CTj8s!jwNzlGO*S4
zzWz~3(oMCD6`Onwo3jN4xDxN$0}}m+O{K!x9Wu5_R7%QYg~p1*qXj*u&RDI`ymDhy
zl4qSMRvai>gu@yxkwU3>eO4-Bt5r2bO<KT2G;XTJBBmdYG*~8z&~24Vgkaqii<)HS
z3M6m&4HFh7TLEQ3m-4DC+lObD0jIO^AJF()&<~8VoPx5v!eu=n6hcai;=x|Ui+$Le
zggFXd1|G$y@Hzhy%5jSSUM%a!0mX-dIbI3e^FDG!W<x*?!Yz7nB*!yepMr8;CDb%0
zs)TWDuE$|%s^<EdI!;rGz)F0$Rf$q*IlmIS=gqb)p?NObejTOaR%~)=a<p;2<+to}
z7GzB_3;_;9n8f7RRN*GpkI~lXtfcE$6E4^XBQ#&50AkYPR+}W7>MeG$q5=1m$5x9v
zqZbHP?3*wwKfz{+=(3}fY^~JjXn*5tDE@(afJ{e`5t`%Kj4g$GWJbhv%@xelRsNrF
zP2B!1jI5*Z?#wOx9+&zPZjn>GHxD61n&ta8$IYNCb=k9sKIw!D_Ahda{NsRYR2*7B
zso;2dplB9lF;^TG9AjWdBdCU8l#0ayF|i^PbZr3&;k}8`eEJW64Wi4}z6aaLwF|;!
z-7r;MHic`KhXw|OOOx*#f}|^gj&Ea<CJ8F@L_?-z2!))W7jE01c2*)d`o3kQ=`k?D
z9xx-gOZjH8pn|2qZbSnURnn+!lP(ZWx}iw<Njp?l0H%|IoVUU^B&~!m5>g;m=d5Ii
z3cjVvSd^urG_7i?xnTL=<Cs`MQDmM(OnEJ@fwkPGR4XKkOd&<l@Pc?j5bpl@gN&Ik
zW{PU@m?@DNY#y60ojN^y^Ayf#>U5^K0FFk_+|smsCSOpnCgOQ4m&^jmFmGUFnlB^c
zo=dv8K>Fbe<y~9MBJHm2H5fBADE@R8JrAQ+VLg7Z8b7!ePd#bxsq{{)wog`~li$Sm
zuE$SQ<0rnHUW=cGky@*`;o%c4b;QS7>V6dMT?zgsa)|Lvt+u~kiN60$Ft!}12D@vi
zbgeH_+mosXP$>BVc|+k1_#ToQ)<ApkW41z1;{jUWQvA3TbT{z@0;lGYHN&7h0@)9x
z6@()a!I|OhTXX5BV3t8m=`MN}Pm%+a$uBdnD>vI;!%h{L@c=ENx$P?hI#>@k!##5N
z?(i_H+16nO{lP4L23)6WF?T#X$XnzWJ&!#uFE}ah_@*kP_~y11qpQym2u3&Yf?>68
z>52uC@{$yMh#a9sLrYyHa*ig#1lU_GC%0aF)6iLvVY~?i98k~R^`2wZo@1ZqDyQD5
zoV>EybF~so){;Hz$z#<dBVVeVeEaMDtI3I_mfywOD+f+~^*3wr8<pS<`)GYk4K06>
z;G8;7A|Q8*JM;p9UGXoV0T=|1ieivE9u93fyhYAzI5+pe$PqIHEbIqIiRKv2aVd7)
zm>V`@?uhG9uOl<=(iV~H@POKIv*6|$*8}dcZKv7b`aI)=-aqJKXv8!jzCxr=g{%&0
zlWEDNq}e%;A(&}}RYL_YCh0OJ)V-2cT2Q}2=$5R6b2rW5p3n`zHB-wZ1GE^V1(mn$
znwfGis}}*v01PSjZM|!%Jk8@HRK_(Z?xGid6dL*_()lU==j<97ZhY^G|8wv9p|jOP
zXV>EAo^+*Gy9O$)15XmKub8Weqm}5<C$X-FzK08IvDA~qzLg8BiBu(;s>KuR`az8W
zbfWQ8g8DsbmZE5dMG;(8Nu%wkNSC5HBLPuV3NnyAhDj{1rb5*Z{8ogyMSDAhUNkvO
z$zDa3O+wX&WN6<9eovmYcwM*r*Vrcr)h|MA-ikTSRmPeoieGSKA5fX=c#F9XvWrfo
z#a=q_Z&3W{9{Qd4oq7<xcBFPB^KBsE3qRY_SNA~;-Ywbt@cKW7RxVV#57p@q%nP@?
z2+`JI<Zr9<oNsp}dGwD6>J5)e0Y*CJ@qNIpbgamq53S7pYhNAF{+APfWVJJylIr1z
zucOwv`@x5wefU89OssooKRw9mXQ8%A`|H)v!IwUuvIA%9mtpCRpKBx={|lt;FizpI
zH^(!u=D8Qm`T)%N=UN)Pjm8|+&}}~edVYXx0PC_L0E3b5#T$h0P|eu(Q$pWC_uJ5N
z=h0kH3E%T&BMk0E!IMVGNf0dk9oVI9LxQb3TY(;f4b5P0Y;t%D&`XCQ0t*uqvpB%P
z5VV4%sQQeH901dt9~(R=u-GeXA_qgbt(vng&R}vj;i6#304VgCv@lg*0)?^3on#yp
zN&r5DJftClQN*&ETVRsRf&gCp7AB@(&f;d~+gP2MH5-cr2vcC|vv)EDlbspP3WOZ2
z3c&AeRnvrNEKp?PfE_`~K^|m(5BTg2+S~xR2xcF_N;=G@TvhWb%_R!DafT5F(_0Qs
z$icyx!y-POAIj;avY<$&B$x|DEGQ)`z%uDhw1yNwZA=WDKeOpHKx|0^WS!3ohh|N)
zXq?GpX5ffR(`mVo&rm=~!4S3o%(PaR&J4=~CkBoyr*cEN=>d$7%Ws?l(&>}Z33*7C
zurfU`IQYitoRpEkXJ-r|XGW%=p~EI_;f!2Tq|A9p4$^Y5xbN!V!12M9z0(mg<7|;C
zhwVr0n0iK_2h1pH*#^J%fPMN_w0ZIttkDR9G}ZbZIYHnZnhQ8K1i1i}!+y&U5I=#4
zvB*7cWB`yr1A?Dx;CXj0LSiH2ZH7t3V>bN2PS*d}>ju|FB)UF^W&*zPa(ajOMe_iL
z{vAtV$$*^)q&PALiy4Egx)s#XiA_#w+PO)Yq1moz&~!HyX84=*0v{1*LBj+SLukfG
zXs{+UzC%ub@jY>B;>yKwD@@@$7#`&9DUTgV>4)t=K%)rYZ95cDY2}_Bw$VVyBFr#u
zKmiCD!ej#<1N04rYteIngG1p;JoOwRY70ZWD_SMky%rpLcKQcP-t}Oz8cePQPd?dw
zpw|1^zaL&dGhRJ2{@law2`_m+iQCSc#d(_0j&D(y1~mOMM=_HL6YSqk3FKVka@|=}
zE#?|{YLmK?YA95J9C*9PiS&@z@6{#jgv**%9Camb)-)Y8-T>A1G$FKCUhz)fdj#i1
zfB%FO@4tAO45oqU=4d*%?YHwD6?oxz?02F3kKk<X@OL~-sF9z8BzgPK{pNR_XA{3?
z+nk6iOM!b68|MY478oA`)EOiAqmoLnA<hs<DgSWPe&vCnwS(tWi|4P7T)%3j1X8$t
zTQ#sSgTbXXTc%JbnZ=SRD9k%U_B_pe_u$F2P;O!AJPSoC`2Hy{Ss!!ERyTwy5%OEn
zq;DvqniHKII~5~u!4Aj>EvPP9emjZ)dV?5X`Pg@?p!*eaj?VGGqnp+0_<U-%%y(Lx
zX+>>rJ08$iIasURX-3CZ;3In;`2fUiL&&{F$l0-Bh)y^YS*U}zJr>%_gFD&%Uu2o1
z-}rARz!!A&JedD%e!VMI?Mi)q;Acm_IJ$oLZ1wQjuTNCEQmb9>F8TgG`YhgYe{p$n
zJuXz^kXpZ9jlcf*z|YcOq<<41wjD@|x;B@u=*GHUuIlA={o|_s@k@jX+!+6@T|u^d
zle@&%;n|3Ln^tf0H)s|6fOmY)@be(*-@h&#uL{R&(YE_nm#?mPe`SJ?=?_<fy-R^l
zdmy*(?yp4?_b)GB{^^yK5{z|+=?cMZ^&MPU{OZJ7@8u=mT5xx*M_BUxHs~bG+`Q$T
zRwYAjL>$;WjV#nbY|w`TmN7%U{kLO&%!8>lOLCaL(*O}<&fFu%g#q5<$5VdG$5eq#
z0yDdG@*%X~Np4d?#L_hR5fDL9uFx@`R4i%>n;gvwM1Dx+(Ais+hx`~wjqJHOLrXJh
zi<E<^@Lg1oqSlW4A1{Br9^YS$@2|BdYKiU#=RP}EOZKfNk5rRKYTZ4xJ$q|yo%I-M
zJ+OfSt>HQfgu-_2#EpaP41*|gnigkhL6dVkQK2D<yhRIUS?6gh3x(we7-JL&TPPW&
z<O@(VCpr`yGlV=r2j-!GMCV&R<_p&QLcZ|IU%fz3)pxb}`oBE!%i*67|MJbBzgb7n
z{mR^+RsASBkoq<hgLDWqd474G?y~NKK4dqbY3G*D)dRE_L@=%`YY(TYE&X-MP!FSU
z{C>}J&&vq(>@Y{ylX}hagTnz-Z0B=S9oY7)cH52Vdb;So&f9*(OEYXjwSY`PVMSQR
zZNJbH`g(2kGYW&Qjdw9S5jWB{4zTlYmUSQe3zM5c9m_whp;w%po`$!5(Z+%7^}{;y
zs+{2V2zB=?^(PdKS*Kr>w`8iCk+uORYcnv!9vZCS?<eH;urw^%GHAH8S{S?gAA(^&
zgtm{2PF=n+GIe=kT)aN|_Qh)#uQS!P{LX#sq8nj~2hknb_r9Ns3!a1ffyaO!kOFjR
zpf)fRbq~jJFN28d|2>L6MTh<e?R$#${U>_&DZ2C&z4wy$a^MM}cp3I^{0o@)F8352
ydA6%>B~<A=TtV&s73%o(!_`pVUH^0cF|Om&%g+&1&wtFF;ld9yFA!908UGLEcd`ip

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/qutlass_utils.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/qutlass_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c6e8a44f152e45dba83505663f14f59079fd9337
GIT binary patch
literal 6465
zcmcIoU2GHC6`rxj_Sj>`aU38&Bn%LCG2~}q8^~s}lq^XhKO10S7b!%w#=eupiT^q?
z2I7t@Z$$;B4+LqeWYwQ_+m~!vsXSHmsXQX}#e-LhHKh{Lu2k{nUD&GHKD6iFnQ=@A
z%Su(R>^tY)d(OG%-nr*|=gwb!J`V*Y&ip*)-cC`U<AzlNCh=s7rl=JPQHYLH33{5Q
zF>Q<6rfu-F$L$Gbnjw8m+>vljI}@&H7fp$-g+@!&#uGV2+d|Vu+oF(D^dJ}f*%yqv
zVax-6PINASrJD=#ZrwlIh<sO>+a~+87d5;<zklogSq3#;Wu|>7aFv>Fa8qbIYTB9;
z1w|S)x57;5MY^15+f~Q3f5{fw@fceaqIK6~Oc5m^J_R&)SrXD=MT#k@WXPu5l(_CR
zTDn_~3UM)<RwUhHkW%WhY|+tF9OzU=NoN$o(-=!)5_rNgXh5PKG)E)xRCLkm^t?TJ
z`ou)|-P0G&=_Y;R^yIlHYi<{QIN)!G|C0e5J_QP#1*0rLdvihbZF4-wzJ$|O<8;??
zGMhERZqlmrwmBEFBm2*6$UbYs`<(N<RMJ&1iDgYmPGwbR7S@*Ys&3UqD4*(8Jz1=`
zLG`H|q5NutN-x6fs$aF?XBO6%Ypk2s`Mkv{1yT&wiFK%cQa2*zQ^#$*lTdO2)q|W_
z(3fi>6llo>)gU64s7;8iNgH-F*Ueb}b_{it+N?T_RaooIZF`AC;5muyR!?pR?8y#n
z0ql~)vLx41r;$Vrb8^cDyV^olx{cJ^ElX%>$sTeGr(m%j9?H9-AW1@UPLz2?Ov)*V
zM}i{ovr;O-!-4Hd2n*1sq<C^vd&p@=ynH#9&BjH3HYFtlrPo7L4NG(KAfd40nu`qb
zXHu~wxE0o-%!@qn24mcubCVEura^uxlZb#&Y8KlegA@@aYPS}{epfFB?Mx#1?UEZ_
z`ka}@(B`Q&yYe7^j<_@*5tYlLn0&@qW2MHv*4DU%>p!Q2Y<A7^tu5Jz7WIp^_DbND
z7`&kU(NrQ0M2`|nh<r4alocVVglfhZN^qE|S5mig-$9QAXNh`@BhA#DbqFC~G6_Lm
z)Ey~!<<eswvtR&vjAKg3Dd9k-d(u*BP7)H~7}A{rIfgnDPYFnONuoS2q($8!D=A3~
zwMs4!kg&5!Zd~CbFLAi?;>w4s2B>sbI)-qlH3(RV&fq=K8GJk-aw~#FLa{|+4sI@<
ziU@HmCf6F6U&5%XdySV)j-ITuQW(W9g<n66sYD84%8Nu<3CEHs78PYZP~QsA#sx*^
z3}LeYaejC*JoVl?qm#PVz<|{3tSl-r4y4$7wk+Sw^eKsSUpkiVfmO_jO3#(d(KiMb
zkBWWqSfnq#q|B$1eV5|#L?75C#>3(jF`9w>>x&CZq9phIC<8A)mKBs3@ck&G#06On
zXW*d7z3C;r*+93j;kl-ZOWj}*MtJ!&yx~0c^fk&KxS1#<R)@<Co%xdw8yf3cUvR#g
zZxr5GKD+8Eb9;X`TvUoDHLg29^6;5~;>aI%n*&uR6=+#Kpfz^o$106GEUKw}6=_X-
z@)MOB^~j4yy<KbVcd}Y&SmWN#k9-l_wsQ2=(Fz+_o+#}(tTi9j*u!@&YV7ffFHmU+
zJasY6&irK6OEoqxONDIyRK*`$jue*ir(ojdovV>sZxsjDgx?Nn!M;0PTJT7I@~M+*
zZU5Nwk*7Fx=fK^pc6hAZGEri-J#1=TIdJR1>de~s-8QZJM7e1+KLJ{T9jjTbDFmhl
z+g2}X!ToC|OGn1E?lCPmo}c`Jab7$1!Kn({v^=A+yGvdD8rxrCgI_!B4(AitS2$kA
zh8tl*cS@p?k&;mpxiJTY4?9797F_L``<mw(cg?#(snkL}7h$C+E4xDU;(mB-u5ri?
zt-hbqAY-DQ$xa^DIN`QiEyBG;4lsj}lFr!_?31J{Y=wd}Vl33j*<ZqILyj6RquLR{
z>l<E`K?Lz`a9}rQ&9?C@cnjR@M(*NJZ8;}$V*74*Znz7cf*a#yfrBUXVLIo!?!NB1
z&RzFHF6p|;=3q+|96d-;a0nsgwz;z^i(L|CxAJdu96yv==Dg5c*KLwD4YX=g9sh$o
z<Pvx#pR%{jU8X73agG8M{|y*PLU|pE3rT)-;GNejG$&_kGn^Z+4R}n1UykhO=VP*o
z^*m5=CZ-4x1OEB*2{FM7G7m8?D#aoq!bm;!{@BRaFppBvOhQa5B;XjS!MviR<-xu_
z7?OLFmtrU;^a4ipMKef%Dgq&?58|kJrFULQ#P_0}4eMgbxt>`e3h_+tfq(|6_~N|7
zaHc_i3}@cfUVvc`;mwrB+=I(8Wu71CiNq9MjEmS<+0gnfal^WVrnbkZPTz)gu<&QI
zBC@v<#=Pvo(JN^&ssM{Q2QSC6BFU;m{tzEoQUIw3crZc^Wp_Peb0Q-vkXvBrR$_CR
zR7QTB2bIz`s6saBkVQWeFEF?U;s0a?s$VcKyC)Qwg3a>2x~vjBW^*an3$(>KYlAaL
zPk|9Q=>~iSR17(E=AF^=!vu;6DC=BWKuAPk0>4%R1Fej$<nvIZgIEDO6c-W^Bpk~g
zG=V5_C2WABWF@J+LvUdd;_@*d4CWk&%3V<XD^ERS8*Xw1Zh4~ER%W}OZGGvmw>qUB
zU<89}*+PiZz2++k<5!~lVlr52Z8c;cI0+#OlwQY1x|8DNu$V|IOA-!@1RZteQcS$8
zJK$hO=XFO0lHGxjPwK_v9k}YmlHMe_0FnjCxCI+xEKk<$aF#cc8J(GfOX9{BO8r>L
z5vXKrcr7(J4#n8I))#J=bOI#a$D*AOEB>9Qsyiuf%R1Mkab0EZm9^auxPw*7=5SWn
z{wH>LmZ0q<Ec-NW-)G#bC1$)78ZSf5z4|E7u^!l~1@?Y0o*%j11xVT4w({n!H&>P7
zxpFX+pL`f>HQQ&)!B_K>m8Q;OP;2VKINn(d5JZ3E*}m@KH4k4rxc1}H?l;Sxq5KJ$
zvt?(AX|A$VXP3sb<;Ryj(AU1NnAO@2-MM&gT<f3G+D@049sgwPUT1!!>Y*InS0_Ge
z>?$++ib!J)R@mlswpC+Wf3@%9gC89%v#(TGFZppd*#i6Fww3l<?Pa#3!nRb{_DZk=
zeqRUN4rg^c<@M*s$?1sJpL$Fa+-(5@<E={L+Z3X+fXG0@IQW2Vig@`aK<Tug(-9fV
z@w|Dgqhc(MGe+qY^e)3+#=e`UDqi0*T^L;+E{v`2*0}Z((@rd~(oMKnNwF)sD<VV}
z#Uz4b`xeNNv-pgW*!zf)e}Xp*M$!iGORXEOtWp*jeH-|n!?L!;qcBN>f}N8TWLN25
z+J0RFS&|fNam^-4fenBjr{|=owz>p>sq44bfxQDDo`8MMsX7d>&$(18#{y`=hXs5I
zp0$xg#x_pD-0W6q0M>z}Z=1==0``+l1v!xmvB+)l<lL%z!M}+Kn#hA3h^y1J1@MEO
z+NX>c=-`mI_IbghdcJ+%Lq6g6&p|ma@Nt~w^Tt5{l;9%}2p0hcc|a?OGUlaR=7l8U
zg>*W;1Y-nt@HM*@G%=|0X+eQ2c+$M8pA*H6oBID9l8x(=v5ZZS47Ym{V)^~2y7>zm
z_fqrF5Au6RRNcexKeKcm$5*_N`4A7^B=#6V4~EW@Z*=@3tWS)GzB7Dp%>DY|1D2P9
z9fuANgu3}dM>hH{bbl{o*k(WhcEoJRw2`+U+A_7ywr+kdrSKalZCsUccpxF;G4|WX
z|A8W5xR!7h8FG`Dt-J8O5z-jl^S%(zh@+B}lB7Y*h2w}c1QlFyMJbVi_lk2=-L1e4
zT27~AF~mt@m}wkWH3*WvkDJGFg~5ctitaSvS$CSi<f$DSB;$m;hBj6_^C&3;wnQXh
zVEGXK@;6Wcw(Ox;|MLC^uC|B%{cAhR{v+%DW19b1*?+tQH!^qQ^2rD8_J<8ErS_3~
z7w%1zTF;al&X(A-n{ee}uzhu;xVId91tSWkcb9`*aE*h@)~@IA#MhetLB-p++;x3u
zbz-f()ZYJq>n}0=C9WSN8k%ojEL>dOS(Mi%@9r-9hSq%}ns4OZ+57bUL-&QU?+i!>
zcC2*X>MYud!$oQBP&v@E9yqE6j^3s3LgTIVz^E1&y%)K^=YFIdIGZ1T#BE#WIyA1M
z%<U>MyGYm$(d2A|8sRJPQW_jl!Y`M^Y~4o=aW7obB|$PW2R(rA>Afa!lRG&1CPI|x
z_Jx?DJI|93a=IN{U3ZgjH{zAFL~;&tMvRkyUxGA>E1ca}xfFZ=$i&5C(hs2zLJKAT
z4XUc0rs=PDQgr+0l=tt{zJE~rVTWw&wYCr1s<t88S@AdDR10d=4)mkOVATOn;0QEV
zU6^92!1fjIEpOG0TOMjhTb09<mul;%`Y_c%1%iabk6Vpq>#G2?p4cgym&{WA34N6I
zuZ{k3@{`Fb1?1iL{xb9DnJ1Y1N&yphg6@;_Y5Gh1KANvI?O5r))m<fY=(W<Jx3$m-
T(t70ZT$}k|=BWd?$m0JCrz1oS

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/rtn.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/rtn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6a3a7bcf64559b2ebc07e1a1784697467a30095a
GIT binary patch
literal 29542
zcmc(I33MFiec#O9$1L{1eJ?-)#F99~`_w`4kSLO{dD#*qd9}n2NPvrjvkQ@c7cuH6
z2@uOBU?=5LvLBbS{Ismp2y&Ar+I1T$O=_oouf=esx9bVhFtz$#nI3N?&~=jLHU0g+
z*_mB{3yR9iYlp-)-+cG^zrSz)z02j`@I*}C7?h85+%M=udsqxUmSzkbcbN-wVLrn3
z(c2K=hYfuOp8Up$aoE&n8aDTt**71t^jTS2Tb~VYQ^Y>(=yR|*bHq6;^a;#wiMWQ#
z`pSmgeQx$`jd+H=eO~6bMSR2MedWUyeHHB69;qCz>Z=;A?yDZI>8oL3j!5lrU0)sZ
zJ0tbO4Sfy6jeU*mTZl9bH}^F&zboP&Zs}_oZtZJj-(`_C!)yE2@|=Ma1+ndIUhQsQ
zyPZO~p<b=~g?HE;_PmWTpr^0n0qMM9pPnvY$9RR-8@Q*qaQQ1-xI%1r+n6t70}HK0
zXqBG6lZ90ytVVR`DZ5x`Ekf(WYCW`@h1MgqL9Eb2d%}&PZRjPnj$$|5ByJ2h<IgW{
zDxIQq=zyUX#SGZOEw7mRHm_QGYw6smtz>HkEa5dMZ%cUXD_q}JjQQ5L^NoE0<I}gT
zZ+qX4a2w)whTGxp3a^8^JKO<x&jcR`+@;jL0ba4~3q>NK(-ARXP>g#=CKTHj#$tn`
zBcTW)?OzN@p<yv5O89UNjts_vk<l|}@M%!W4vt5~@X^r&`$k6w2G1zv+V`>X&`3-T
zL@v(&B?}IRq{!e%aCnsJv1v&apXNI%#?Fq0pA1FCfKhQA85|Kq5`8Hi)nABLJW(+g
zydVyqIU5UxVlgR-TFP0agOed@x|%kMihRYv`F3hyVxdSB;FZL&NT^>7j_Ex%DAl2{
zvB*SFilO0Z`_Tt9OsUnn6FMgbFN{j(qGObIM7)5aglK;#5|V<ki7_#%2**$M276B(
z4L*73<Ozk}p_Ea;Q^&t>>Wje>hx!gE#*LeH^ylY}y{!3<rB3Xs%h*kQe3<Jqg!w)r
z=Gi2gwcW<PEZWzAA#4y$VI%%bVKdf;<rOnvh)J{|#)`FK7ajO=;>-4mNn0&_0t<DC
zWkXHHjZpn;<r>2FqVyh?-h@&dMWNn&DYkqLXHlFFae`Pb+QbTVFQ9$gfGO-MN>dpw
zLkl|ZZ^2Oa{b6CZXhTnG!X8$eCG17-YA4JApJK=0s`ETqslNUFkx(@19~hPVi0f9I
z`IU2eFcwuDXQa{bv0!v?QdBIG7#o*Hdi(S6h1F|@OW#WX)0m4mALoL4gW?8!<sl!(
z#knCprr-(l=eBd4)UisefyLIws2=u&jipn*4jk}3qc+!HM>|T^W;oY@+Nxp}t-K+d
z<}19>YCV2}D@v>3szOrqsyJ=H+<VuA*t=Bf<gtC@k|d7AA`_kd(UHi6e@hoe)sK<h
z!940n`_B_R$Zt*mVALNS9~&E$Vq#dElurNY@tFV2Xv{xp@zcC?2dq*fYLIA2DvmFO
zBIDu#Ng9=;DhjZV501okoW{OUtmNHtdWYg*wXi)00Ah-Yk%2-HQJO-(-~YGAdt$?5
zJ!6AoU9pgKMvQe`9N)fk$GPodPh{|P&)5WD&`8hAk;rh*@Mu_!1jUPD|9EUv>WPFV
zL@C-++?5`Hh3+xH%V3ZJ#^9t+UwqwK*fvxg{dG9gT+YEYteY`?XsgNAt(`Hw>b~Q2
zXPou2vp#YDmeZd+nQ7Z9w{5-Qz16nswyz;);Jw}1?oFBQ$K>wE7P}t5@p8_{d!OQ$
zjK=b^9A|Wu<pgfshD`f5xqaJ>mRs$+Up<l$T4kX%XXNazZ@O>qJ(}5jO5S@a|Gk7}
zaQ*sv#fQGS_uvDx$ttS~YY!`ZD380T6zxHb@q6YIT)@;jS*7>BqiBmgI_c{47k1gB
z3UH61Ff##OT8F}-)GEJ(wad|X0v1cb72~OfJxz(*;Y@RP%GPRQwzziN!tl-gKmEc7
zUs&9Ca`EJ;Md3?1qrvWw)+6b%F5_F>(6o#%b3lcLUd4#1yv|+c6=Q!Sx~wf&Bf$}1
zz~Z^p!j7VZC=DUn;;y*ADjF{aJDy}!#o($>sgW#-rIxLD&KORhdA(TKW~|2kvx@EX
zKx8x&+qg|Joeg2BZ$yUThSyLd^^Fz`^~Zu?hL0v&^=ax}EzL11tP;*N_pzt)a@l;@
zo94G1*Bp!P4U4u7_ji;U%Q{*#rgy)HK<N>3R<_MY^$vp==nsvBP7g)~V-u4N%UiWP
z_7qCd2ikjo{j_*k{RGu6b7!~{oV1l{E?IpARo~BOmf*l(M5O7BPBtxXz{>dNs0oCa
zX|BC9cGd{Rq9*Gv-WfCotT8Xa1B}5974JBN(G%yx{25-OTBm4tl}=?SN(Jm6=YVsJ
zT0ZPMW3OT&h{+%&Xb%^4Za^9x4xSSyq5+e%3AIU&lcNLFC^Zq#Fu&iNEV<f~$;!eo
z6a~MC3{jvl>U~vhrfQvBwJv2@s9Lb4t9H&fvz0ZO%67T3J^Av2kovWB<zq9BpSyi?
zyOWM|VaX_F21FIhm?RDiUX*+&ZyB!DNA5QfbD4|jBNFFh`Uq=%mz)Kh8Rs;-cw%`j
z9n0yts$zB&&K`^<KU4zaX=zVz6Y4SwSQN)#bZ{gZ3yt)Pk_)*NH^!-$FqNDXO0*sb
zVwJE|93Xb{3oT$|U{2bPRMG)B8b(q<o`+^lMPS2>4xX$l%)`pKe#*WR&NO$=!U<J#
z;&=N#bavb>Z%uAVmv<}*9k*T83G;U^e&|AAbJCO)RUDBn-@Yhp&$`Rm;tkXhq@~3l
z3@VNwDD&`mg#1E~ni9#!ScAdvXg`9DK(vZYCuAK33RViBF^Vx7lcX;4IT^*Jc0}?Z
zMA}TjrpO?Y5JFVU3>Hb$35igT^cYJJ9_)`vv<jqs^lca!Q7lJUvm^qu(qVGgo+hx)
zhE8fAA30P<6pSzT3ioqU^Cvd0p*eB!^+$hR*O(Z3z2_6F$LzRMS(7v4owIQ8QAp0l
zIm(vo<XdYrI}&S_IJ|(VEneVXbLC=f=cgRrOGYgOdDXbiR7FaB_uTb!a$pyw>D1G7
z>S=t*%@pO+qkKhCCsS*#Jy$x~Xzol_B>PjFlV`6r0o9v37Y=_)uY5u9<s4RXMYgi;
z^0V{LUJlL&b4L2^-pJl}?A}FRyKG-~&x}wu-E53#>FAF}7%t5rXgQlfj6|ueLCi(T
zaFb{Wo5L0`xx{E#!C-I@TiD?e)8Tl9)7cGY*ttp>l;0E<kYAXv1YC@iKPiqxN2ST|
zUjGFNyqGBYM_-1c2K!@YLoq+#H<;Jxaw>Clq$_q->>2<~dV0b^u#WNpV}=Ju&LE%Y
z?;jnT2>R7U+RaiZrf?`0Qq07?iHe|ZM-?ne%^0HIep;H^qa%0XPd<Y&07)Oz0azZW
zTsKNDAg4s2Rr(5?>n0UMEDv1{tJzLtq=-5KI+-b<fM^{YkeOKAwIDC;SR8mcvJD+G
zrjKm3D%vdW0xbZBss1xO3{&B~@+n2DfTsbaCV}4^;lsu$Q!ykS(qV3)q#+&V7Q(<u
z8RDi%3`^XozBLI9aA66kylNT7qI`wob)Oc?XjG{c;dcqI+@<*lSlGy`nDKc8uqjb2
zBO&k_7ueJU%xqQ^V|Z{FO9Na(OtFAwI1@XoSO!2=jY^C%p(Uo`Q%OWYlODkD{2ZyJ
zO&~OS2F^5>t*TQ|Xr^kjT(x=O{H>}T^WGbw8Ov>VO;+$+Iy8GIBQ(fDL*hiTEw$}h
z&%(AFUy?WPOAGrc`kC2hGD4#)G$#6!TT|_6VIxA-kR_|h<H&I)jq;^lY7c=>Hr-)(
zmZ8^@q<x&PMLJAI@si1xrN@<+?81OE8Vn?eKC*?y4i<pOe#J;s3N=zEMuI`$yTO<^
z4Empl5q+WS!T$uwqm+A^!+0esuGU_uO>Vx@l&W~Q?t0zAzU$35)@F7cmUkUayN@i|
zj;IS?Cnk`QTFpkngV4{j@TZ7DDls0V7X6A%Vkja!c#T{Mn`k3V8RJH2ZHy=g_6!M{
zukZ%JXlC=lhnYArZkWV;BGgEs1G-=U1kl5kqvcnHlLoCt*d~@<woN2L780$MyEIl3
z+b~vjhnS;hLjcAEw%F!TjMx$?YB!yLECrKJ6C{n2GYCg<oestN&jvyIMIkU)0o5qk
zBvDlP$!4X$g1{)vHE2#x#bx`v{jz)BJ!5{r?y0Fy9C+Q43|(>0xPI=exm{j!dDr}|
z#CY=9m5Zs$)cNZ*3kQL%ZydPU@}s90n+~MQ4=xG^KVFusU2cA4q3s6$UdLk7?sWN{
zMPUzHK#Gg72LzcaZ@Y}-*LRk>o{9<AAsV|CkA@2$el4w%Qp4ay<!ig|1x(kJ0V}IC
zFeMsx#S_=p08hKVY(+FaOM>N6CF!e?*GXubB9Ig{FFz3#Q~!84R9HZaeaWvahM861
zn_oszRIXUht0S)ndFcYf(<@fe1*9xqNvy1IAuvj-834oInH6d?LX#{sr3JqZH#0&&
z76L_|9kS2?VA|r4ZH+V5xdw<@?5<1pS^FjTtUF=-(B{wDgiDTD2YqL3jYyV=e3WO7
z11{+Zs*{eA(@V}5$YG?fMP1`6-AaTr!xvHnKE*aBjbdBHCe)2XomollGFVE^F#e)L
za9-g)F&NCYoXu<wWGiYfADKUrGm<~h{cgkc2GxI{m%Z=UT}x)feOhKQJ3jUB=A%3j
zq-CENtma3Fwk*q$FXyv?0Nwi5o@;w@9J~wr@6k)8BdKy4O#RVTA)_OI3-Gj9V7(e8
zIbfLK1^~TY5&A5vrGbdIG_`3Ktzk>p3ThLA>^_@lXJy%6v1vQ2&oRSY<old}W)8-b
z>1vD+)MVTWYEq9>2})HA93^S7I#>RVP$}{=z^KLxXT=de7;rxkk0jj;_4kWWXgs?8
zUl#o%BBY$Lvk2DcSCT^${mGJR1nJmWXgXMNBu4G@M@Rh^K%$0F@(6S<{o+{6k2Wxs
z2cukxiX9jq=_hT6zk`W{y7R!3EqS$Vp^>nkX)snJj#a{!?YsK`8ljOTU?=W(c@PWw
zY|jFue3MWQlVQAL&;SmTMH~cPC;C-!N#gnOK>+*U87UNoBE}3^lqf0SCZQt<1~tJ1
zOKdrJ0m9g*Vh;ux=NJrXyLwvX@dyh{R$xB#nF8U<%1I(7S_9{=i5RGuy)gT=L^M@#
z<J8R8((ZkWwtecF)rsr}5%PW%17d(=`tYd_XwxDIza|eb6bKn9goIji^8_I6YDT*h
zH&+!Af1gs9!(nuKRsH=0I+myY=y>Hz2x8Nq#}))4v!F@7i9HCIU4j}zsJ1`#VmYob
zX)29oR%x_pBw_Pc=wF^tlYSjhDxsF26Pme6@3J|eC4HUJ`QczfK6cl9xAIE$m4;;O
zt;uVX3tKXq_sg62r`-n@Z3o!I1cX%qr8J2`B%1jmQ2AB*WNXHiUn~7$BoYi>=hX(%
z@I0ZenJG$2&K3McX#xB-K}r)KrNEo_^NFoj_gvZYOK|7=0Rv4%u#@~6>?A+IPP`fH
z#2c8vQU-O9`5+|m@ZMuyb)8Xt%V48M$t~?c)9#0iP@)+D!OVbkmXa8kq$ew$uvxT+
zEuurT6Xh4S;tLQkY)1)IE0W@KKp-_;pYXYAaE1j{J=f=g`rZ4v@|K|;4fnSLD!bC*
z!lV_waF&h*g!e#+>7Eb*KIv(cI{BO`bjvgDngXfY!GPypK#^U{N8DI31Ha3E5-=C5
zbvYzdx%)g6Bx-gU6eNn*h`%M0RIX(4HCVtiB1YRLR7NpBqcZF@sJK{IsI%>VK*@>O
z1yfkerZYLAQZqO*HV!F12<jk!Cuyd^83E!eRiooEiqb<^BB(P9ITU9;4byE3NEsTA
zsycvvjJW=gpMm<nV=J_XcGao4DI1^&4aSP66epBdch(XZeb_uC1b`sHFlCSFEh}(K
zrKrxhEpCrn-qBhAu<0GMCbpe&tWvYK7mIokwiF36tW(aITZ{b6`khR4VTkF_b*RK%
zEwnJcN~_+nX|Q-ofH;~^!-^+tj|*DgcrHe28TQ15K`w6n0md!t2s^)P_<^oY0R3LN
zBq8o7l!P(lgEaH(ncxDh-n)N~hw*&?sDyJ4;{7$eRfaH3zL(%A7L^oHc|wC?SC<`$
zNF4c92fs?f3lI#C537`Z6BR&6DlY{VhsQwcHc|jVPQ}dhx{6N{&p=eHu6Wh@M52jN
zYKxZi@*M$+dmR<CpPb(&=Nsg_O3pXQAs#^Si5Fv1XqoAV^css886O6v0#kq}E4P0%
zqM|_JU8V29i4vbfP(^=K$$eSBB!*(J0b#V6szzG2)tATLprT;Kg$;kNf@|wo?077_
z_VGnq3&?O!MaJ!y-TsVwgY4drl5V*n%;j8dDO09nr`)kK)3IOf*ndmdf5+>~Svh<C
zJ%RJq-4?u;4$mIWdIF0Z9=-X(J);47VGCF9zh^gl9W!R2tLpky#7!T28*h87F4xc3
zBYWygvS)MF({a11{_?r`bN8$!Ul|19<u%#b#!T&cxpw_Mx6S96vE(W^ds)Wjmu>!J
zO={bRwoSL8(iVI<gUMBv^{oZAbd}v{Y|1t@e`<vnGHAOa=PP8YPPKh#dnCJl-;DVq
z+d36<ssh$xAfppMe}ysoTtXT{kvx(wNfhy=h$1k+1nu!K=9%Q0`t~4w9rSMbcx=Ps
z7|1b;VrZeT2b-`2K~@UQzfE)t9<a;Cfa!0$j*GA+I+v&S!BK#WSD9Ug?~XD{B>y>4
z8WAJWZniwxYV8f!3LLdk28B6F(N<<5nM6QFDPshwZn~sc!s5$={bF9;scs~;Gimj+
z;#bHyl}2!@#Oi1@1VaO~XY)MGWY<ch_rT=;6}3da42Lv~%fzEI&W~%_ljCp2uf-Qm
zz5o1s&)?jTuIZh1%~<BlAKPjZZTcc4zq+<QwpGoIUyjemGu7+m>h&65uJ9L0TN;Wk
zljIZrWoSMH&oa5F0aIAKBoR*!LQSf#*e#gRl%}~$;xWFotgqA}i5uVH-_BzjFk1%9
zwqj<0SDo4kG)A%O6Dqain?W}f9{vEISRWM>s!ypzT~^o3^5mKTkHOP7DG}vg&gUp*
z##=H@XBo(2!Aq3>5F9`{f%B}(`pUBqwC$PSldWyKT7RYfc2#p0kg2*uuI|WGZ<eb!
zXWL=SazJiBkZoI^Y1=2a?aO*A?|JPc(YEI$+A6=|Dakev*~thlhF+v+>GL^qzDN!k
z5iq1CeUE(KCx`JE#Imduvph{<<oq7~qW=L-5%Um8KDPwEA&|3lgL#1I$EAz27cYHn
z_G>va1pxZ4Y0p`i*T%K9B~M(l=j`m$L3&3g^9o#5ZO+BKWn6Uwf!rlG`+SMFL*%mc
z{T=V^c>nSD9!KBJoi}4k^vX4HZGlhhZm2SgYsEJz1tQopyC-L*FB^yW$ZRBWQZ8%B
zQ3il=hx<~)Y{NY#zEq$~9qh-S{&eSkOK)J=FBj#AMiSEum~^qtKZI$q=h+p@5Us-%
z&wzvM4Evm)i`@X}qbUtPUp~<lb`tB6XLQQ!+=KpwTR&In!~_wsv*KY)P^oYa7&x!!
z3H$I@4nJ!dY@Ib<C45z@l&Pkz7QOjgHKH$EE0)93xpW)U^!2Ez0Vx~tZhBzK<_E_5
z9~kQ>9V=F>5?->!s?8{ytM#y<HuqIB;a(Mh;2Mb_3<F?_5!M#V%t;8QGq}D9o>hcc
z#WHWmQSQ^y!fs=lY6y@+%$)`p$uGT4&acDK0ApS@La7;8)NMg@j?V&AuM4bfu34*W
zt4Wl9XlpFN|2c^&6)%!RII1|$4u-?xh-#|Z%*2AjVt9~f&-)ofM(*|(Qy(@oiD;H3
zQb>FrYHEcV%L?R%Vpcw-5F(UY+c7@1Btv`HJUT0AduUb=A{6M4K`nxzF@p`vqvo*X
z9jnIdOxc05b-Jw3_AuB;Ee&Y8hh_c>HCk2u^=B}FdYizsmK=$9>>B+D=CyQ79mT9$
zj3_wvfUUF?dQiIb2hNS@;q!dP+?0UmWUKaoS#hq?S7+Q==+nc`3hGkl!}QSe;Vj+z
zqWK`Eywu7OmNDgp`4EcdgE7@Bl&KO~+eq_p4ocsK3zBW)<{%^QRo>b`-zqz)*e+~R
zqmXJ-J}}@^2{uNY6EZ1q)Y4`8yh0A~(^7&Q#yOiOMQJp;j7$FK6iMWb^e#EyBIk8-
z2Fdv@Iq#A4LvsEFIlm8Q6+W2JRFm}}`3oR#Ip<4EZ}f+Z^93)sDoYA7WfeZSCb1<`
z-znF3X6m=g_1kX=+jTw|WL1;S2ZNXOE>>)2%xr76sug@Nvy=u$?6y@pX6(hRXnkt%
zL)(szD_e9vxR8C}W!dv+)&oLSWr*!&FvJ2^-cVqOz4j`{jH8$#Zb(gjXxjybI8nFQ
zwjE`!-l5J^EYtIZ-19`H=dj#!_?B?Es6!Qvg$^a2UtGWE=8<KreT8ENg6slMU6*?H
zL)*5GEBwVBsZXE_ZCOvx$}ZFwcY%#b5l^p<33Z_scGVx*wtpsvK7eWcJUC_Q|1XD5
zk_Gl)Z<i1XBD73PQFyPA4w$Db%VYq?xLJeYE2IM^Km;N~@F2#k`WO>gjGyztLnLZm
z@f1l1%&=IxifDCHvh7Kml5Nl4fTIX7B$uZm0LAvNx|6Tb=NoWv&Y~bUV-SUH_vIx=
zNh+I{d#TEm?;~Jx{j%NuK<>VmHb23oQrx}2J1cne_D<r}(JP~=uPzx4s^;A>cL+AF
z_PRt{QrlU?<>$9;6O{ShOJA7%LgLibuUz>`>UrdAhQ_{r#y+=0%cm`8%9r0IBpt|9
zuam3SWvaX7>h6zhJ#39Hlm4T%D)~qR1r7=nnUrhN{{4t4mi8-kWUHG$?*`l7VhzOP
zx@E()dcv1ztZ2lUiqMm{-h2}Q(5gZJ%0w(@=<pJb0*nREDNY>08I^`Z5jw==!C^a9
zk_l54#Gg|f<f=i6r$ABWLwsi<qo+fWU?Bop1eNB*k+(6Wx_>+xgEcwT45c$Vrz)N4
zklU!Fg(#J*WnqS_SRk{EQ>sCnA{kjh<Dd}JRtHJ`qBJlW0V@^#QL$ZcbOZ-!pw>_v
z$UXQnJIbdxRr}5$PUoFgJo%Q9j4Al?pm;&4#&N_!7;K`i!LhRwQRb(HS85RugGCUE
zCXA27`gQR+#*_9U?aZYS6@GbPQx2c{gmojWuk*3|{)Gt)Ert~jqjD^9Q`{W4g4%J$
zg}5tT2Fjwu{)WCh4{_*}=2YcW)l_vs)qs*pTBMhTQw7S1%)r9BQg>N6PTFbE2c?uy
zQ6RJg%mFP`8LvVgN>FvB)Qm%<gJ1E)-Jo|JF|tZ!4`}l|g$>Tl(mT2Sz!#4^=^w$V
zFa4YflW)FMyis2APl&PZfS|ZE{wD^OCo262MM^&*=f~vyOLG1dIsclR56Jl=a{diD
ze+)+v21j6D4vPdj1_R0pR2Ex`R!~;t378d^x?w3na4;<W3FZAma&D57f)glH%6ms+
zhla-@;xG)^#ISlSjaVzC42RCJ$aR*@$9A4pt!na4!bTN(6W~^?fCF@dRVB3;mBlzq
zlEx_pw1HJxQv{?55U9N`bexStq4$L*mly}NSO1nu`6)R+Bj-=a`FC&>fweiW%}{J=
z55iG}4>GP**M6+<sA%CjN?_K>1tO5`a}m2LN>xsCpLBCV^=)6<V*By5@5G{T;^VcQ
znYFv+wY#%*_1U_0*~YG{uR2?^CR^P?euUSyWm~s15A+a^$hD8$t97*j%D2o2b7zzM
zy(Z2BLoSz&MDjS{wopEIAh9bMOADQ<e`hkB7B=Lg>D4>i3u~~f0PRIZwyr5tw?VGk
zkg3}y*KNzx?Ud_wW&;PZ%^T4a2rKV3dq@!J$qOO_?t{I(jF|83Rjkp`f!J{9;u-W2
zPww&FgE)dX7#T;J-az$AX(ba>5=Xwew34)MMS@B@eUkEsi7X++9)*UApptX~j$&qq
z!GI9Pu`VT=2I)7+`7Jo?R9N09;t&OrgG&Z*1O-Aq7)9h@J_eCyj>Bu=E5D>y&h{j4
z-my%^NC6NsLTG7aUK@Gs%<JIRcjcVS3uTik%5<^MrwtzSBgLXje3B>=FFJ3r{QLsG
z@7Nm>G1<Om$&8O&4cEFZ+tQX@w;|iQHoLw%yLo%I0iWx$+jnQXHf8Jl*@l+vBU|Wm
z>&{O$>|7xh#dncdl)h|SO(UrVa(4Oxt5KeFk`Kbzx}1xAWn6u8&P_fKWVMO4^UvhG
z^yTB~o06t0>vQGwRlzm-bCu+);&225CU?m#a>cq_H3gyB>r?x$HRo#StB$L#%hi*w
zf%CWJ8p+p$j=j}ztzp3=w`|EZQ;;7gIdd)KYb6=+8uG2BR<)6@9s0bhomX(=M6T<~
zt)rlhWn}~?Xgw;p8ov@xh2`c=IU0^!XI|)=Fek*Tkt>nZfp?EwKeE`gL$28=+jst|
z3yD<no>qloiLvt*ijBwt{a6_@np!4WBl3h+-_jevhs#tZC6)df1*^)E$lN*V1#Z#l
zaFmpP!n#0i3MWhB{3LeClqqh=%aU4=3yXH;lQ)en9mfo$nS98=Bp8I5S1n`8Y$ro1
z>fefIm0YSZHe}%%mIYs6*RqyW`B;FfNj62}hetK%p0XC@D#eqO&Sm?IT-G67rlr<K
zE=euviQ66&t4UxWJA;7{8$aACFbVuM31m0rz&Kgr4(5lvW{7C16^~ZW6yoE!mw-lp
z60#KfE@|ihJ*rxRUbi#u_}p{xfY~j~(oiuSm~Xe<UI*Iu&?`V&+e6hWx{uEyIaCSy
zNXrSs58;9Bfeb2aXND?Kj5-Xu!j9h{qYrY;cpHDiIKWnU*glC>wIT)56{T=a0`ikA
zoz?o#z04mvc+l9g`CVm~u-0iS{vrBnjJ9G->hB-XBKQDfmd{Ax0444iz{%-=5E?|c
zkE!<%i2jgYg>(LKoa#K|hk(6{8Grb3z9%-=&y?*Hp`Pz4X<VijpqiC2rX^pbYD-4c
zkp@DMhFvw_$JvK|93zFnu4V%a``GbF%->O<e_y7X4xsUuRBPbnRMrl<Sz$|{P(|Tb
z{VspLbBt-idHc}FIIbYU$?8Jt;=&FM_+g+Miuhxr{;rLkelgU4){iq!us3Gb$;DkF
zqvja1atS+%%h3FxC@y~x)ieHiQ@Rn%95W7L=SNhLXFtMDf^#0gTd|%K#WC0joykw}
z6H*I&y>|&*1<Ir`yqFC<u6h`Wo*x%Qu(nnV7dv*c4Y5%7435AFT~v&r)8K`{fR2O}
zGYp7_#}o$)`(lG<#z)7aiUHQqBnSnOrWOP#=zpT}|AHJQK$TeZ`5;E^jHozh=2T-K
z&7f`|5{hY7PE>E+;E8H?v7rL5d@+c2FhdFT0vPb$DmQCmuW0c6YO>RDY6v;kh$`C#
zFbSP`9g!cFtHKo_UD1~E$`$LUkK#;A)?1zNw#eR=WJ}t+cE)n2%sp2#dv5wEqI9Yf
zzFW?Ey6wSzNthMpj^U_6JJAiv^H+LgTOieU%eMWFtNhXnvo9oCW`nRIGP`pQ-fX+$
zt-jne-;}hxC0r9y$F8{->TVoQd!Lwo<~A+>z}cI``c%up$qzldZft~9bo$V0!8m|$
zX#P-Q@apiD;nzn~6Yox4pL+Xi>59jvkAl=r?30D&<aSiBTNZkz4-n~TL(40gl4iNQ
zZTd*Iyg5_e25-829llJSxu+86=a0xHe^FdAl&W6Xc)dPdzIFP@9nkSdXO9;8ncDX5
zp6h#V@Yf%|@nl+fJR>|K3(us5Bhv@6?)r>-jqF~NJowg;Ye&-VjT!eA*}diWnORBN
zy?6TQth+knZk64wY4_Ucr|($Za~r=tg_FQ`;Z8-vYscQ;lN*y;lA+|5M4w#Ik=iR)
zbS-rJc;k;lAC%wRc(eS*PI=RTpBd#%hvo7kGq!AbeWrYkT)qa@QJ0R)9!Yp1s`}E^
z7p}aJYPk|z;N`}R3)|k`^WL7D{Ckf>cEyCc7>$NZdAnTRj>FtDw!g%jYsDn@rpwz=
zET+UY?@ENy9{-H_j<bC3)Xd|HraG07dl3t1nIMZ84I(y{;&4AVv1W)H0E|DASc4eh
z!Q>o|6eZA2Shq4=CElc=Ng_emd8QJ?8xy9OrXZAs5au)L$y<DyVR34i!u3c{8WE9c
zi{nfQi!;YT&P_rnGG#6zuZVG9@i38(WdLMqNilNCGgJk_4}_I9Y-Tmq#qFgCsKT`d
zu;{eMape&sp+IO%*+)c1sFGZF#iO=LO{=5aBD+x#K>#!K?B`y50%gH66{l&8Am)g;
z!zdFG5w=W%jQxibHF|4NCJ~Tf8;BL=#vOQ@h-BG=HoW?z35FLK!O}f3h6}1u9;5Wx
zsq95_ri-4ax9Wp&)a_)6v|Xh{a~$)kjnfbb##cN#vFOD9@Pc4$UXcKwMZ^k7UXUS<
z$sg<|v`e=keO@Xg`VS;Sm}XI>Q}RU5g~8a_Vw#7JyXQ$AR6<x?D&TLz+A0!nB_Cnw
z>ju?~>J9i+2}r<Gz}V6+5KO`kXdDSqt2#+0&Y%p^1#&*7G-ifwrT<2L6AT)50G*FV
zq`#sB{~ZnvhcG-%08JtkE&We8ikY1xm41f;ewQ4E$NvZUUZ8k>P(#mQ@qCncDe98;
z<gIq;EFz-wQz88yr1~>LzVE{U@-2Hf<V%1UXHt`V+S3X^3{%>=`MSj3?=&VW->SP-
zm)iUNM%mjv{Y-XEfX>np7CSJrb8hHPMNx`d72UJv7YO%gs64Bpovh6Z3|=;4|Jdod
zw0m}U)?PMePwZN>wX63|+-(18*9TqD3JR9#{Sa-~JcO+B#}emYms<z_oHem=UXX1K
zv!<Mh&{!VPo0Ag@>w$K9(%vU=?%Z27cmAK&%<Rp!tV?ZN;1~A3XTH8$ZrKKG@86SY
zenM`3f-t^g-T^e_FT3NZreZ%a8~lwk`@ik|_TIVkbFoCrTx_oHmVh&doUbltBf27w
zok{g_JS{u|B<ysPnHmHVlc`N<XZQ5}+vwiT*`0GI6I;{Hmg)U;+E<tt5@PbX1;=9J
z?zCr5#`Bcyc`EHWG<}F@po+#!MVnmFmJFpUI%e#5oE3|v{QXOqNc|y@4N!(tY;fsX
zpsAwUVG8nnfWdiyK_2mtzlWKWV9FRaBD@#jxJ{3RT2$b;;>$dV3JPJ!jc)>?CBs<i
z0TW6FxR^4>4W*6;hk?Wxzinh?TUF~8@@oKz=U#0waj$;SRNNn3a)Q#=p>#`Wq#ZZx
z=Pp_M4QD_kyoeE+vH}g+;uZ$@QOCUDRl$U~DQi(}0o3*#)TSfwAtEYPJOy+$Rb;(W
zD&-k2Y=1-7uK*0&hMX%3!)Mr`wIIxex!*9v?W!eMDSHeZ9NP-okCNIBn^xwO1M^+1
z@6r2<@p}a0!UL$6AZdy;L`69+S&Bx~g7so8F{1iSjhMepCR&d|QE4mZj|T@_qW-WG
z^S7)vT4`*(SZIyt^H*FO<`0%a&`b>&Phf6&Hoq4%pQYFr5PI+WQ4Rz3VAqJ+DqID?
ze0NEW#LQamLZwYs#Vk=+%XJr9C7*{7$zAHjU0OOQZjPc_$)C@~5DW#}C9#>rqrkf)
zOu9=Fle@KW0(R-I@lq_%C5YhhEI7qMZ^OtKOpqlhG@;{@m&J&Bw8X(KuL2`CHi4UD
zOyKZ`rN5&>%;epOd)`JPz$B5;{&TqeZS;b|4=MZ@4qziTh%$-sgQhhihF%sGCks`v
zr{Z7;l}?EaE8c=1MtCD<a19OF3Te28y;X$cpj$0irl{0_E;=z{(cfdpChK$o2D*H6
zo4)nj44?J*aK!;I!N%Ev8RMT-*3TTc;{hH>c;`>eJ7L<Qc@v>|xBi(pHvimxpUD>4
zvu4R|t|^-{Lc$H~L{Rm3a?O=zQ$}dZLkn%!2j#}?A9;3s;zBAw?W%@*9?n;t#|5}*
z1Sd<bi|Lvz*Ts}K;l*_%8?Su%_4<@3*KGMn*!l^B^VM8g^}Pnp<0CWZgy|c<HvRN%
zZ~5h#`I=jGo6_FRz<<P5HOubiq&4mC_-EeKGpR<|y*=Z8RCYg_c0Y~`zUqvxRra+e
zccgut(}%O(a<HBll#Snd7K38*Wo)&wt@a&pVedO<({<agpGA8%CeEWh<FD^bot5jh
ze*{|_BUe^+r>1VvR9Td_Rz0gCZ#|Z7ISzM$PqrjO*V<Ao-w!NqJtnst|HyVi&FZX5
zI2PA#U36|;G;RHxPiwhaxE`*4$KQNv;aX4dQBsxuk<ES3Ed23C_d$o_PdeNO-Hv6l
zah=_2!jfOjDkjV>S7Gc7VW<^P5#dPod8Jb5#3`@{u{;k<Lu|v8C2Rt$FU_Wr{#ZZ#
z!jAiuf;`Jp;Q(IT%q%>QfsEEML!m2iV;E#~95&-R%q4<*)sn*&&32O!<|Rvv<C>`g
zVa_l|$#ggrSDX&`E#KC!uGUs6`5(EhRGvOhrS31%u@+&#()}<Otc+s1UO*eqLg^}o
zRNX>4RVqAX8|itd^2@Zj`;7ASbXxhVm;TTr088A`BS2Oaw0>b*L99CS4d^!@vz1b6
zMd`Tt0c%MsnaV{Oh0&xuV2exZ9<ZuogaFx7iha~(wNT!&+0pZ=qgS%mjv=jrqPI3H
zXc<^(COG(B;W%h1s|;9ilq@MP%`Y9NY7&?<f4~^i?LSIdc-V*PiW->r7Fo|aV>;_x
z5cGh)LM~_lpxr4R8R#vb^V4-1wz$A(Qb4vzv|`HnY6Ga4(wZ59G`a@vfjf<KQMeEL
z1n8ksEW0*$&`~XG8$=eMN42)aoyF}Y+Z#2G1R5*yQOecwS+uwk`Sdc00$Nd@-j)*i
z^fF82)7!%GJ<Le9+&{YyUJ=?FeYiOQt+|rEB>GP!5{Y!gX+&)JB3e=vMNqRCeJcGg
z^0ks<LdJksy*TGr2vDp<qLH~A2^&<Y!We}+Rf}qsg7X!9<ViTitVWqZJ?6<t=?|!g
zzai%hau_)ZRRh!>Ond>2!gnZ~Bo&JJJX4(iZ}Rga3V%+qtI7mOL=;mD7tSg?>}f85
z?!@iz{CP%~u0}Vy*%40Yi}Lr+OI_&Z28>BGf_;Ho0}6uW=>vCcWtW_@&bhtcD4X7!
zUG@RG@zmwM`MxCoofl<K>-3>JM0I9uu1l_2*IWps-QKjVNzGL@TQ+w-(ULfpwlyQf
z>Y3a7^<RU54P8q&H=a1145W@NR`r0J2W6HIW+f!fr-hb6*mz<v<y)-kObcDbfuW>t
zZX_+V&G2_t7LD`|TXZPtof}RIYcoO*Gzqu@uegfSZ?1XsT)K7BV%6rfu;quxe$4-5
z_u|%rvhdU_f2YuqH`jdFz9ZebbFpeyTG;*Ly+1zx;gcs9_nef4Qz*@5r|X{PwkBE=
zp}Fp~ttDgYlx>}9TQ?1p7TJ=BT?r&lLTF;TzH=eG=-ZvP?I|SaN!wZrUt2M%l>At#
z;@Y!|J`~!6NQZNJU)JHev|)Aw4ey(6Z*91?;rm^SRga_{8-LjH!(%@&FKmz<k7XPO
zWyisr(VtFyFp+i~Lnf;*$A5iNGZY84ypJhgLNG^J^H$(mAhq{e=R%9zx_MF9@{<F9
z_{@)<`PupZc=1m!k|nughKGf0f!24;m4Ex#YdnbREs0QK%Us`lb8>Hrzji?O($!eA
zdzny28$A(xgf}g$$q3!D(9M<tOk@PtOlW4y^x>SFbFo_tzi}7?SyTVo-q+59=3bjT
zmRy^72Dh{EzuofN$L9Ds)7-{6)6Du=*Z=E8`9)CZM!PJuzd26V)TD(?8R1b`cofPb
ztWl?+_DMAm#_rP}ozVXxLW}h(rOZn}#+&q<x<_RLR*6$hOG@Wcku=i>07>iRl`=U+
z>D1B{4~#MMEW;FEATgKe26h4ILLdh1029BcE=UiEwlqWtEdlyoN+9##Hfd-AViI-_
zA!!^KlILID10>HwR&KiwHMF1$4B+4Wd-4&~hxs~_F*Eo)iU2wh9oxLA0H#&=Y?R)j
zNQ-)ZgbHz~`{2-3{=6!GSbhg!H`KN;Cf>XWUTG7$*GJ&?caR!aOu2lQo}YallGsc2
zv-Ob9HYF<QEHf?`Y)VzWTYtTN;n?*i2u%Zf7HyB-E-SxuZuVRjM{(n`aa^cSW|=;C
z&%u?IYiw=V+}78;ukB5oPsEY{4T(Crd~Gr&mv6}UdSqYE@0;IuzUNH)pdY-s_XD%+
zJ0RN*%vu<)O8Q>k^ig$L=BE;E<T!m<?m}qsvcy6_PgXwqRIoc;nQhiTj=B%0<QR?m
zGy7-C4NJA_ffgqwqHbU-1ggDsuT+aLYz-1cv8SXh7FSAf_l|yE12;hE_ETY<=K%fs
zJhp}z8^Z|Mn`#q<mN2!Mk*Uo}SVOJSPHmHyn3?cH_7dZO+}d`A4OQ`WHRH>yE8AW)
zaU-~x2mR6&Y2d1G6R(z=-FyMHDCVqE8@afpq#E#nBde_{?G2fNt+a~sbI(1y1~tq$
z!EoX796M|ZTfsxp!dUSXNmHP5{frb=C<v|0X2{-Kqy}TKrym8Y1Slgrby5}NA5oSn
z?fDDxF`#srd}Mi21dSLiN;DjUEDSiQx-N%wky0{U7x7F?;iY);cU}g^M~Dy<!>SOo
zObb>6^Y$jV4T_Q!GN~|ac?h$h2}ema0^pZ_7z~t>R4q9J1n_<rjRe4}s7_d~x~{m=
z744}OxnhHAgyO5s_}0k2H84o<wa-{r=)tVMxzH_ZH8Y#|7>296uk6mcDlWY^`(k3F
z>}pJ0xH@%ZDs@b5?g4Sqym{fv@4xuoi#IpQTMytiR!9ObZ<ybZEw8)$*!*JvnhlOc
zTMeM5PO5ZmxxwE!cGLT#Q$KRbUHg8<%bkZZ8;;8xj%Pj9s$qoe@h8{4)pe~4HWsa$
z7LLiS+iqC@(DftN&5*p~>7VVDcN~QttFvrTSYgz0OXyIAn)t1jHK_OFHJcVU@4I>G
zXNS{ko+bTV@7xi(7~b}AbysR6)BU*I{rDf7f9m|eneIN4u09GqRF+N^^~lvdS({s>
zuIY&Px~pARx>CGcw?1`Ru6tym74_Fxko*(C@!D+thD`ltxqkD)-gNyo)SIndld0Yy
zS8qt|O;>l%2zT%!F)u7S1B<4>{e%b+7K8zo*24kBhpRr*uENO`Kr3DG9pWbN4_An2
zLjDxeOSIwfb1ZM*6~*LpDr%IjQ5-q5v@B?U;buRpXVF@7yP_*KumBz0j#)c!QvQnZ
zz@v&`G^)5EVW-m&uy>1ghfeo1YjqeHPmDoOu3qv_avO!%tg#6Rzh;-e70RdHW;uf2
z*3o{6i=A*)ob<aq-RjSeNhB>(Hn5Q8ztq#M{!&l3ehRBQe}y~YMTv9_%GQU<mM=j6
z*)oatjI#cr^0GFtpM;P|Xs5J1AXkL_q8R&C35g_Y>Ve&L56F>MTQgHX_WKIT=7&t(
zeH!<S=6{kxA|%CrghT0i*z7n17Ky6&2krV?dAjqzm!=j_K{eBIQ#`B`QlsR5FOB`c
z6FV<~Yu4E>%_$bBPQ;OyrDK%qI5}*&Hjod9IDgjpY4RN+hqPeol`nrzzHxF$!Os*g
zQVT6K{H7r%`N=83;v^-xM$RMT&|Xq$L)#wpr!gLr4kHKtgZYMwA7kSAB?rel{+wI;
z7o7hWobS&#;m^5_|H7^LmBGjxere<Q6Z~IrCw^rx@rF-0IKM>lr+Gd0NWr`QFYOg`
z&!+87(-s)T@g^egDrYt^#rRi}C(_Qqv`vdBtDZT2>ABhG7OU5#D$}l>X$L?OZ@MFR
zrtSAE+xdz`PwPDn?_b6E0N?ouc6H~yXL%ogke}OmkE8d!^(T4Wu~^l9k0Z~$5yNu^
ze3!S~<H(b{Xxh%#(-9e1t>uj5U%O6yZ-tfx-*?Q8nXOEbUwO6RO2eYFO*XeLnGutV
z@m+kSdc9_jgLlFFzVM#Fyf-U<+VDZc5`}*H5?{w}`(zile#_epGS@zBp8o1$Mf<0g
aPTuqBS9m+``?SW-uU|UI8~L4VHvTVL{7Rw#

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/schema.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/schema.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6fe6b7fd5f75f242b73a98998eb08dc4645d6a9f
GIT binary patch
literal 4340
zcma)9O>7&-6`tkpk`(o8{aTW3jr=FkmBd*7lV#U+BRO$oS$1p31%xz<6?Z7Ey<F0}
zOW9(nHcb=2L5tQwftp1TRJk+>?1K(Pkz<YpdLgYKViyLQqNm<y%SC~n`rhnPq7*ss
z0(`ridGp?zH{bi2zcn^S2t0=LOZ^{Bg!~KtR3F*@Sf7TE2Sg*YL=&`tA*2Gcfs{Ba
zrleUZCC|zN36R%`CcZ~Bi3J{t-n!W!AC+M=STh=03`N6ge}It4^`vgogl;ezPn(Xa
zn>KZlj9y*TRMXMp)Q%@vN(Gj*MHf^{PiJj<JBxEU)zQ=Du*D43VOk`kT55_p%(6%5
zkCM!!DupSw0IXXUP>02nrhYriC}_4bEUqVXrVXK5o7IS+s>P_0RyC$k-Q-q*5h<EZ
zfas}fS7xYcq|JF-*BGBnr8Q>IJ4~NXI(9@gHL7OkQw-GOhWuIGNm5nQbTnNxKrV{p
z8=)p+s0uflwHc~$lByHgFn5Gr2RR<UHw*T2JM3gSYiM+iZElCoEz-0JQY_GHu}Ia8
zzLP;ul38pd5_t_c*j+W1G1w5jgMLG6FWsPV6+DkF^1Tg9oHTvy>e%pw<Cl-o!FblP
zU~>lQF%~14v~BBiaExh_{_x5~D#{(|Z#%A<Xk9wvZ5!73t^uKU&?QxUV5e&6<~&WP
zaVHH&8TmH?DJr>juc|h?j4pN~6KOM{&rj-c$8EX+{2F)Q8{kW~nfqB;@J7>C+{2+q
zH^BTS`2T<~GAjU}18)*0GD#E8!YGqjkpDu7KsWsND9i?MHb7Wd6CX(r1^5GxR<8x$
zlOB41$ZXv==0hx^$r?#WTDXR<{#*F!YWNx!Bhd!8_0o+AJc}P7>aX!|aAnO|%rLjf
zcbDS1%azpx1i)v4E1?_Qpv9c5WyXDLxtS7B49@i#AP-2M+~mVsi6-0{B*gBRB3fW)
zjz2)Ce<W6S{;rTG*Wi?9+{Oe%j5DUN<Edi_Gk0Rzi=S=B3b=QeSw(yG@G0LE{VvV*
zQcDFGS{MN)-6FC-Dp+-3Z4@?XGb3T+=IH<4j5(=HETd<J9o3p=&hXvrsncV(PO+Gw
z&&4u}PBLxA77Qa5^8mu`vUnB{7BkdENExx(loIoTWhArcHh{b1w-nu05}C1F-#1TU
zq?Vx<OtDV_d53)6-1eK?2f2dsxOu2T#JWhiVWRAf-7|_kCn}=QcxqjQi6StBNlW{^
z`gK@ITnTeR98%-PgV~uM*{@-*aAd+xN46Bm2duy31Db%aT@vAo19(Yta4mn}DDn8W
zJykI0MSkf0aOmR8t^pWGc@e1mkz5Ogo%GxcZBq<?t7|67kB13)3wFIEF9mC~2RE#f
z&^k-_6@oIDmqBMJF98kj#LX=VRi(cxNW?+V@Fy=;Wr9{XvZYWyw6kXxP+u$87XpcO
zwSbo(bO7>^88_r)6kE?RcbAz>DM?+^n5lTM%I)*<uR*TDjBhQ{BowpjS1GQbxluZo
zb?Ef;Wy;KX9r88g+s(vkWla;4Ay1LjHLfs{+sKzt9#w<cG^J*E;Q%H}HE+?}Zj_W#
z4J;Q-8=)8OLZO2)Npp?Vvu%jZryZKBrzX4->8z=ZL}fRG1%lmmT+v{rg~)Sd-C-%)
zl|k@4i-xUTFlcok=|R$kWH%7*2-NOIxCRA`vRy&9!!Swx$7)5+CNFBhama7y`d=7W
zRh9#=%#Hy5A+%aM9}ImsbT9Px`qpyi-hy809K82>nGO^O&y?udV#D4iZJqa>wXP$j
zt|O~$-}&^;<F=C!gN;q))>r=AwsL*##KqEyi>pW9D84dPA;KkLQYcSe`r`CozYkHl
z>xuwj+1ONsHDNM1v^Fqa8W>+2IA0n#|JA^&rIrKtLxr9vT|I^I-~Oz4<jiW<nF^71
zfh8wb?yTq_@4P_E^k}hfbY-~8);X|zyCMfVj;xEoT7)Gc8JrNFH;~TW!l~cAeP1Yd
z?Ji8N?TMB4#2$CWDkR`ZyuA|tytmkXVO@lQB20*+^PrzDtak9pmPCO8#uG&WKE5?k
zoY^T+KoHcX9gu-fUgQZycB<8r<TvUc1P~ap6wE_F@?Z&L^2i4vSawJYe#iu8tbHJt
zV<s1!;H?YCpbjn5MlJAx4fyr&N^=d^g;fD=p;1xMgCN4x+KU6B?daUl<hFRA^yDHo
zEeb1a^w}0{wtCp~qmTnMcj$%qtYtfm@_qv3WiVRqJFwO_S^|`uD)pTyHtc!Q(NpXl
z`l@4?gQ2)*=y4ZT4#dItz7RgQ0a+75U%BsaK?g920)h!<i@*h-7^y^f4dI}ei3Tia
z<cWom7j1OIief@<tSD|oQK0^14g79U6sUTJKO@?X<u)sdYQkCYe#!<O2@{tqLb-Nj
zUWTn8%56h}c(D4B90c+i;i`FjbG@7(qx}Jp_er_F=@(OAWk+|Rt)ML*`&3>YFYOyC
zc8`?WW2;i^pK^O);7fV`vw$qOuZtvjpn_jdn@F&OPgDYJa{KbR3V~Pg<kT~K`+V^A
z^vEV(J@EasLf};#pLvFF&i6C`U!Ildm^l14o+`N4=U}L|HH218)PzTYYR#CHn5>C8
zfDH?35^otp@Fj1whrvgoDz6r1by^*7{~|SQU1U*=*1IjdpSy~;7O$zZpaNoB)1I-?
z(DXyH=BH+7)Ht(e+=$n>@V+m6YeC`txm6EqtOg`JBjc%WNeOsdFP#!@BImXTZhPdR
zpBA925Pv?97k93fynEOU2_V2bf){XMYS`K<Koyl|tfQbe*L0cRp>U5_zjEhzdGzmK
z7`Zi91GrG&^$SPfUZUxV1YBs~vc=s*xd>P2_fv!`LQlwbM5XO10yW#%7hxLk>QjrC
z12#RL>)(D_e&e^vas|bxK(<AHH~nMp?|YZuS~<SjJ$7%Z+}vGkK2+}NU%vi{^0D%`
z>$qP&4ld6wPebBAy8r9_hd+sZ94q#ZuJmKoIN?`~<Fzp!t+x(=GV3ss0VKEux4|<A
zsyN(`tU(-)B0<1=vCG32n^casnxKv07?O+dvnPSPPo4%z`@WUYFWXMOGhJ?JyRUs1
zS(SRqO>|YF)qt%8A`owHR|vd{V-T0{_Tvq{JOwCrCK`4_ilU|CkXXVQ|AKEJ=D6)%
zLgD#^Tg&ainAo(@4WEVmLHaspjl%@A1H>Kz0_ji?o(Ag$>AyWhm=;#arRTv>p}o-k
UoWSe(O`%n2zrXk&0xvG@|AN+0>Hq)$

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/torchao.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/torchao.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..275ccf081c7d91269848d2be7755dc49fa8929da
GIT binary patch
literal 15833
zcmb_@YfxO*wdOwEr{4|TKtuD^5nzc1)PUZSB{?90B}+n1L>!yMX|?*ChDQCs`!tdu
zjU&5!CupKX=spHC@h#)2TXRv_GsZPDW!;*We3PpDm_OYH1$-`^tEu?@$iKEw#wpK_
znYH$LbR)Hto2oe!`|Pvdd+oi}`qtXJ|3_JwlfV<_e;WJwUP6A0ANpg}BAfq~BV?Y4
zMC9URM16B39Q!tnnBZ-Sn-ly9&taZ9Zb?{2tO?tQjeT=*`-p>;b&fdM+m&!fOdLs+
zjg+$zeB6`pj(Azz60b;9j#RR^HC~nQjrdsH7Ozg!jMOCjBmP9~NG(gV$LkXHBlRrq
zh&Ln}M;a4NBTekv8E;N(8`;JY6Onw9@Bz#KpONjN>m4%EBDx`L70V!O6U(LNM31y1
z%8TB2_>rAr1$<XZ?b35~P=n=I#VW`NKwCRSpWYU=!ECDI9f{77PL3qaVhyy`X(BHY
z(f<w+Yo*2y%&b!~(k0eO&hZiTt2h+vB`fsc9Iq`-RpaArPo_n!VgrmM$a-mnUYaDo
z(M$If7ij(+RvHR$iX$3JiXnMIiUdrGxi2}T*w0O*W2s~~4!O3=5|!Zt3%(qt;e?cy
zD15kL$yhoRPmPYkr&)2Hi6x~l?GMY6;#K2krSw=zWGVjdCf}G0C)2TMNi5EUcB;Ou
zW`wavwTcYms4PxCo=QezqehxkXc-#t%2GOXMT(7%r9<I#n#vJV5jl8>BXKt`Krm0z
z+VT>Tflc~>R#JAQwFSU*ec5DFhMXs93shv!xW3Kx1bAmi#%Sd{xnmkq?4gh>#iOB6
zfLCl|VHt;{*dyV1JbW=ODVFrqgd{6Ybqd4q0h8sUlgWr;PF)<AaYTaf%`4sM#6<T*
zY+_eBOh={kuB(#=4jsI7K<bXiE_P2$0cDfjm*eq7cOoT9@sM;?icF?cv^yT2g7xaw
zsLhDl4e61wa4I-4rBsD3reLuXY-vL2R45XcX+8A04gTd02(FP0Tls8yZe-Oad}v?x
zeOUg$Q#I@Q(&Jn6Y|DAJE%J+z6;DUj-mwX#NyH#1d?2Y9vHvGT=1Gjqa2YZV@yDMN
z<n`|pGGi(xd&Xoe2Y16;AUlxQ$eA&xZF*Z7v$0Utj5)()Oh+K=#;&3^&4neV&Crf{
z+^*LyyeA3uLJpH|g;b0gZGNw){nvR&KTl`{6bM*xxy4u{9SYGZNKkCBR=DES2Vb-j
zlb{4HFWV573FIKfN2N%Lijr8oZx!<;X-eVQ7RFsGz(Y~6C>0@SwYaEEk>hv5zdQxO
zHIlcI#^x+vyYBJbeDlVev*ry~<=no7*88sJjjH;EeT%ItRXb)+Y*aNYocPOQ>s>ur
zZ`<Pe&%A++irNL=!t`oI$I|3o{=b*~U0JSsAa5tTdOtdQ=d51pL7_t4PrS|fTH+S6
z{5IMEy>DSR2PCi^kb%fNP-?t*e?S^OAE++^yC6Ww4`9pBm|$g#Sg^3-l)F*2buSd}
z0AN;)g>~7+ksF;nnId<%Az(mDEG;EuZD~MGu%*H69^k0}FS;E9#evD8B#1WJ3g7Zp
z>Q{%TBm)acTUP*i<uH~$0Kqk~-q5|)urJrJ?>7wxu6t%3b9*;DHFJ{-vHPC(4R_Vt
zz`~)`9f$6=-LtIh7`*R(@hb~yJjm#$cr^YDX_8j4QYk%2lciZJ58V~ZG1%f7iRl>!
zDG+fSXYtsRHY8XnMi@61pir&Qy57sPdnicHOFsbea#JP;nKDnATS?kru(Y;hgp9ij
zJ?XKisf|!GM_z+^SIAZKYvc+S;D;2OMy27wfQ{lvDNaT~jslhAh$SXcG!4R0v4e06
zi{W%wah+m`1C*wyQhq9VIUJ9PujuNGc0zp_X{WJS?PKcz+9VX0!g87d-XY(@(n$zV
zKziruR&5P=lhsiN%Y1X@`pmnptu=M$n!4AT4&<5++;yxp^{;r2|LV%GXFi=-_io!X
zn@)1&4~fZJ4!m01n72XfD>rdh{Na&>R5ZT(y|t!2xu!i?&)$cGbJTraRhu`%`x_Z$
z$j|!heRbs1y1Kr7=1=!>5GvLQDn(;g6}NmTHW30PFd3J&YCc04qgX^%1a|WytD!)>
z)D8p$Xf?%&ri|$q0L=c{3^Ag{E(2X|_%Rn)$sFLri$EqP3Z(C(E>6m60Xv<DB}WC&
z|FOtnmL-p+CgXr3AgjHFX{DeVswyei8+;=)K~v)`U932^ra#|*X8G3xg3u}q(@E){
z*H2F{rFA5HzeS5;8@rA@rIE`qc`_V-+GwE>wLl9t^7K}oIb~=>Cj)EdsbeYCN`Z2Z
zH3O{-hU2nImtlnq4&EUFGu;OZPWMBgaI%c70>f4{iK}Rl=<|?s2L9!P5L_dhK2lyk
z%dNXA=Dz(epZ~ndzg|{8`^Ic!u44A!LdC-Vh4#hmb2Fd0+8`_MfU<cfY+okArma1}
z-hIIyKx4ZjsU*m;G-8X1aO4u`xU`g%Q#5oDprIH_B}0)(N~L5vG!~}fl`yD6O@6^B
z2*EfGc@w!Cb}b+<x&xy05CqUZmo8>m`;mA!aZwB(qc1>q1pb-uzD7RnRdo}j7>|w|
zHh&16`~(`82-+rKmvAFy2XO!z7tIncSs0o(O+$H+2h?p5O;PJCiE^U#ow5;|Xpt;Y
zlV}5UZHKr6;&zBTA<j##QurL(gHjGCRVI}~IS+g}-{EyVIO3HmSZ&rb<hhFSDxrp3
zs*)^{FKS{Vvxo#Nkg}pO)ljBfvcO0&$5WJ3136wJr=lpw50;B-yvLx95gFfYM2(0D
z{lf_BMIW1sRjh`&G;A4j4Wu;AlB?WE(|Ho8Rmz4Db@rW8vHNtL`W7Pbuq+GF6csdS
z8yr%%st}VykufQ9X(APa&7sR;S)wrz+h8})E*MUvSgYYaVS8m5B7en!Rx}2DozIY;
zfdte^%psT~Aw%<IOjkJ><liXlun@Mv9)NiyWb^<=k}3SJp^71|Knkgo5{mJ)K&5z0
zl7&=KP`A1uPhMp6l;ogrDk&h;qXntg3R4%PB$@*P2*e4A3XyPR48>`BEG7#{NfKp2
zPKT3XIG##MLL`-#h{aVdN0AweBC!~SLK2K59s>4CN>?P>-m*J*FxV3mrOPb=RV-r#
zd{S~yN?wl9RPy^Rubeq^HZ(kNemHb~xNqo0-<fkm1EJ&R&c1x=%s|WQ!cn26x5bz=
zR#wftU@RF;wQtG5%$D!UIChORhlTS}I*kd>>g8x}OTcNg1av)j;@n{%WFmE062eh1
zF@YA6x<>?2nvjyBl#EQlyoJdLQ0|h5M1;v2Z9Ic0Mj0F}K0u`d!Jd|Y03;TYsr3I3
za-KMKzOVm`LB`PWzT+qVI5D3|yOK>Z%Bj;3grR^%vB;CKh0x4k7I{c1*Lep-F__Ja
zy=Xsda45{9ZAu5>qmZmPLSP00TY}|^paC1d#`FapfY0d~ZDmys4(k2HAWz-}!5^-X
zNA1K>e%+R{*RI;@*PFX$`Bi(vdSm-%jlrdU{HR;+d3lz<Z{MYg<zk7CVwrLAD-Z$a
z(Nj#uUziY|j2j#bg|!EAfNx9TUC818+6LmtGBn+?Wftv7hu~I19i8@d2`s%BQyrad
z*HZtOfI6yh0nol%iF=2mFTyytC@nA+r3o4eJxN(L{cWs(sO=hgP~N*Ryw=o{YwF21
z?#}Lhad~)c-(YUvV0Q1xJmF4p``0~HYo5J1&)#hL{^c-$#<D|sv)SQ%lF&#lMrf39
z^8oGwrXd=HIMc24G{m+H6OB$ZiXI=Po<55eaKnK0<EeeJKkSS3cL5^B!nxEU7DRWc
zg)GWNT=3X4YSuskT6}Cx6<ai(3a9t%)*`+875hb&)Vu$QiPqwTfQit60E7|-YhGkt
zn&}-|_Dt|;<$em|k<k<e)4*FjUv{hP-O2Z6ZqIxueU!YD%zBPy?MI&^4^HCo<@g;g
zf(~`e;F~F4kV@=75d#1fo(Nxz#bfEIX<h1Sy!m8_pF@M%B0cb^Xf1+0>(66&YZUNS
zfSZ0x;|xJeNpf;$8YJ@@lQ9aSSrlWcYY?;&N*5stnn~^wu1Lb921HSQTu^g^<8mr_
zL5R{+LKvGI9R;-z4M(KI!UcwNLt3e^s200mh-!6D9)e*q%Bk?xhx1eGgs@-So$_Ox
z%~t90GJg*3$mp8@SBaB&D`y?7RmG|n+~UH(9nIEdFUXpCgoR)u#Yuvj0lWZmMu(A5
zOn)+*Xc^^1UUx#w@EKm@C%LN}MOU{q!(S#dmZ#RWZK-R`Sg+Y$BBEW#E^l*b96Eb4
z)(<q<DLR-9$BWL473?*v;VRU~SVbp7wHccUti6m)uQg)_myAnmtmq}WM-5ksj*Mm;
z8C%J+Wig}dj5A%PH<NLu%k{YKmXS^11axMcCEF=4YR6U7j_WDyxH7JBbh|zF=(7g<
z7N*SHN$#1lOxau94M)Z?j()kvo{U?k2e^wGcyRrLO>ECNG8TOW&lB)ipqyk6cqA&o
zL4`YmJ)+@y%$VN>9W!Ho(|m<9ycM45?&DMfkiswwgNg>XASZ;A!dO&b9H6CBRBPzV
z);BH`V}8Zy*Iz~#ge1h000`r89W@_23KmySut&HY3kw&(PyDn37Z4`_XX+KVAlKlK
z;%39s9KuW+C{8sAMc{N}Auc4)^1mnvcv29H#w77~xD^$fC`H4Q@$~e;fvb>%&@7dV
zPeC9F;L#LzYWX{1h-&X4Y+69KDIPM=DWwKzf&L3L8Uc<Wi=z#xSVGK?<5ROk(KnJ<
zLZwl_sZ?oFDhSS02?B<8UWYMJG+`7kN(&S{AsB`X7+Eoc$WY9XtT<zUSrKAKB!$P3
z(4APt8lFI?87QaU!)CxoO(-^~m?cW-5Am}fKOKg|q9OJj)`z9SDipDbvoLJM!mNMA
z!Cs+AbW}!GK}lJ7G!vbTSe?vt-Btxulyw`b%OO|*bpBc${x94|^5vwqVa?x}^LH){
zF8?sQ_ryJM#eaI%{lHzj$Y<ScpSk;&>Xzf#K!4s$9073iR@bii+H=14rJCig<>q_7
z72n{j1C)8z)0VZL$nH3?0->jE!&5nT=%;TkR($4ZS)5uvmD_nVPfQNyx_b~DTMj3v
zIPhxKY+IPhRR?CBpZnStM^=12vkvriHP27qn$ETyzT3azf8jI#z`fnGZb+|am@mIo
zzHnv9wBqfYwQP9m7M}YX->PTFy02z-;6Zi${A;&f%Wm7ZOjoK8&pI)`<8Q=OPv?4F
z!|Y2BgpM_#Cnxm$M%bNmH_i^s9fD!!Ji@xSan0MB^R_My-1m0mEoA$iuk6HIHFszs
zp6xob;yIhOpZ&w57dhf>cu07Mf1|P~Z{jM>a+_vz6*}j9{=Cgx=Knu=Gvt0FgUgJ(
zZ9RUJ{PL*dgx~xttNTQy`B#+|h$}92nV2rxqC*g*Fdec1kz#KxoEB;Fdmnn@OwabY
zg1#}08&U_F(jHyn6(5I`^5_<hNM?8u@Uv(fq<~g3i~NuI7#HK1W-6f*KpJXeMQPXz
z;P47)z}LV<15#7aJhPT?BNRFXXMw7jt{eDF&KXh<bahY|xEfAO#HE5+df`Gr->Z}a
z({m7k+rbl4pxa}SJ`fR?*&&vi{5^Kecbsv0`zQ@3C*xrXIOyoh68%o<N_!yS)cGlz
zL_1cK5Sq+jaHOSRcV3C5#{@9IlkL%Dm(X$rEkbZk6h?@RMT1wM3#lEUOi-LmOvvrp
zvV$x_(V=|?iaIZz8I$cpOis`+EFc^j@z^KYV$vmr2TdU=Jhl!}A{7>8N?9pY1j!Ir
zxTs={g3$m4^)1I_Rsu3*+-vHjRRQ8Hk`ioZPB%YQim?1&Vk;LQ06VURlvmDmu9h_~
zZeMqo-5k6=IM;jQ)OvNz{42L!`HNR)2RG`Q-|M*DvG~eLeb?;iuWh7!8z8Ehmc>&`
zKgzZ~pY<I<0aAJM$Jc+nFty?dWbJ{k%b-xUtoa)mH`$E?eJ$osTP%H@HbdRvWI{-R
zElh+A#Fz+=!;6`yl>Ja(tQqj<p;Mb}Z8Qu^Fi?Rp0PdQn{}b%r7^qipGnLxEY?TEZ
zA9!UbVAw8U6r2V~XJfl<-Dn{=$^}&jJ5Wv~B%$vdo`S2}R#3ByicjBGC7UeTWJO!b
zOs@is=oAKQ_wefOc@q;d7_hB^fCjgUx>2f&H;S<Y)2&b6Ek>c=Ktpmb1h8e?#NRMK
zerr6ty?3Q%_pEEZdiygrgNo)Sa7fHejcPE0tE@kU=<H$eyXe54D;yjd@RFNS;khYc
zo`FN7BA|@U0^`U@ZyX$gh_v9LMZi@Tr{_W3&hSM&l5qpjs<kkLy`#7BU!ji@CC0sl
z(t2zLe6urP2xKgm37kdqrC@0RR#JrXhJW~NE@R2?49;7Vr!y7+x_c4Y13WJQZVRoz
zAx?F=S|7o9jUFq!GvLh@Nj=H%`kbInH}qyxdxP65RdC*I8OP7Z9?>cq)P$K?-|9-E
z4a}a5wKVl1wNWoqc<Z2h#-7G&2<*w&3(BWp8WdKlsHAaW19;gsq(kY7vkX%XzL6YG
zshl@$rqbc*Qz|MG089$%X$bQG0v4oc0TsdpD0Kl0+Ob$<jQJbk*n&B%Ropv;u1zY9
zN>_h}+ZOz88omv9DZ0cc+G>hVW8NUc&#`Hy!|2<XkH;=5N<?u;2Qd&KP@HTGGLAtp
zQ8?3#PQnF`a5^$Z$FNWz2K`vFN@LM2S7{u~(L@WZ#d=F&CDuF_QEC(6sf&_!TFBt^
z1RQ-!G^y0+hca7*4zrn6<zk2p2CIv$hR5{_!tUby2QUP=15g483oG%~1J0{o^>nRQ
z`Txm&_)AyK+~tMz+P0qDww_g2??zR}N>x|Z-Swcl0Z^Z-dQM!c3FK-5+0G-YuA}R%
zJJ(wG=UVr#wVuwkp3b@f@cCx@);)FErrw;VcfH}cwT7NtL(g*cYQup%F;`Rqx~u*c
zqPvR9tp5Ol-oR3Q&bRj#_uHNmSzp(B!=AN<W4VT7cPCdH2G(nZjk<>S8gDmdcO1L>
z#$B4-(SPry`*r6YH1=eBPvsh4THrpfZOWIC-T^M}BXzshYI}0EJ<IiXhgWL*=lULa
zyt6YKf&J^g>bdlqzdh$~Uus+HIG5`<2UxkIGV9#|RH*IDcJ{6K`?KEuFa5z4KU~P@
z`4YhO-W5-K*53Z4w+P6mDnpcy^Kfoad@lBcON%*5WVm#s`LmwtD0#e$8~Tya!+}1%
z3e8Ode!{^(GkTb@olr<|hV(rYQrsb2?6{U=gX=IUxa*?u@tB-e%%Cq7{$eT>XRc(5
z$Bh&Z{pk<}FGHYMn6r%zW8B63(CY0Z#SG^_^i@oD181aT5jCA69H8SE@ED-Jqca#>
zgFrDQlZsX4eTtf&{tSbgm{q3vxg%0M4%cxwdJ<BZhwWQTBdQ#RY!=0g?*c9U@DBN$
zZv}+Y5nS)x|CPgU`8EeOg1=#5&#l;ETdrnD-p11Gq_aD(W;=<q{P!-Fx|_E+7g{$7
zyz*|&QkSjYwMpQew{n(aOKnS&AN}agk8&N)W8yJr*IEI))l#{*2QC3vDmTq~0%pNR
z<{_(XQGP!FmW!ILCg$C&;7-dBx9D4pEbUnwd%rnP@O$~(L-y9%!le9nI9A+i=~&v6
zC-7Q+;UT`XG7!tRu@W}OI-e)-x*K|kFRcW`@|7Kyz&coIuikofK6ERTH{*A(m%Sf2
zDzcS3a*myw7D&y%%Hf>Er9JP*zQ%c}7y#+4Ucx~UxCQyyA%P*kpTiR1kwC!#2XS-!
zNo^0ezYGm#e+drzeqkK_z0JY37!<YaDRt!pG%fUl&pt413KvyM>h=;2s6SGpgpLM1
z=u>+v4n=nU`;<HmRj_FN(57okeav9m+3`=GKRPLY%!{mi$e1^{xXge)jLV8pN-I+e
z7nCsgIyHmOG5vqPtzG35!on~++h=;Sq=%{CED|nG=_NF4Otr)M=%`#UxY+%;!{ANE
z>zo4n!uzH|D$0CmadycRU1#7fG9dI;opo4X?j@+fl#r%-*-;-HDaNP(7b+(cZ~;L^
zr}Y)Ml?vlB+CpWgy36$Hsuxe4C@ZET40kcC2j`tb>rVpdhj)<Z1z52`$lx!=!tzkS
zO(jU6?_uy~7%XDIFar~WRyehdMI`zQNLHNZ!Q&2t1gl!Hs(Kzy`o_W&l44b<6R;Gx
zM{N|_Q`}&pCZ<9vrHu1D4e~eWq%wxeNX*=9^bS;qyVXSgTZmjEzxNSK?-zXVOVGi|
z#rUdgPnJJ<w>*2`#TEW!*0m>ZGF$AA?8NE0*?7HiE_&b51YfmH^H*<OUGsP3{2d$a
zikl~|pS*eQ`niRH_fFqFy~N!fS{nH1^qtdpxjRGms%OuwxL*XVSnHg1f9)X7=De3Q
zw_ZClSMk=lRlfdnzHBzWFto~duDkpT-1QgMT-$T5?OA^N*VRxs>uCB$MrHCzUw!}c
z=D&a5a-6qC;M;gG6Q9i^OpX-a_Yh4I4>v8$aBIPWw>(PndI=m4cOD#~RdPxW#*a4m
zvctavS}1|9qi($CG2(_pgo;0@7dNzr_Y@y{#ImQPyVz}&^3u6cJKPDejFkULBPbVL
z+C6vAlq*n4uftHL@2WddP&M(EYaFGxne8%-+YbxF`hk8prSlep#hRC>3&e?PUIVL#
z({Mu~0#}>mEu6{j1fcV{6nCS09Ij$Wmyx9nCJ(X(bU(N1x!Iy@(3oS&rV=7}PY&*Y
z7-XMPZyy0xK+_{&QZY8hwVT>1a2SAu>BbVM+&C>ifQ*IqC;+R*c03BNE11GcZ7ex4
z35Ss2fC#~1KHQw5X?D)0)TAcUm}R7}LU4h+P(yKPWw5&9W*jZ6N0^b~!zzrUKG<ww
z+)%J{pM9mX_`dB2P!k_GQnG%?>6%D1eQ4OkaKJ=Lxgty1;&8{KaCr2zdL`^@UDJWR
zXlUb%UF5-*wZ3cM0MKw;N&DCawk0k)JfQ81T7Y9RBYlbl?C|3VIuE4=?{G?)b^<Dg
z!0jk9(XQ$N6Wl#zizmhsic?z&h*OlJ0VhSOYd}{@Or)m(6Hg}CZeq3^le(%A=z)?-
zC770goYg%5Xd7aIV$1H|VRQc;gO4y+#^7TJluGGpnufRDQN|&ZGU3W2?08BmTsT2h
zx%({paX@funZvk${{^%MMx2jSHlS=jef{)?w<_!F01y7Uw|%{)<&ljqD+jdPAUrCw
zRXS&_Akf|3HCJQK)wt$5`kCwKMs?4+w`PG~s}1C818cPhbF~LS1Jsny4ubY@)GgF3
zy>XArZSP;TAAevkTeAx}yRcZhw13sUd&6G4P?O!h=e~U}<DDUeyGs8JQlJZhEmy-3
z`7@?I0g*rIJ2b&g;i2GT4|sa84S4kX1!jdCRII9QRTr2qvbz5Zlw{*!mk<$2sE#%Z
zoGQhqjKiEQRAyPPAaT)o!rW=ziknxjUtQo9_PuxH_K_vuiYJ)02UU|$+n+e5!mlmV
zgKFSAmb^76<twGMaFhv0*9In(!JAgZ?OZ87)+GS^cEiAyMO^&MIzVMa_K!WKH1CH7
z7iYM_g}fqOE!k4R27s%}f67b@gkE}tPoZoH1h2~vIG8ceK&cy{rH;dks91EoT#7nH
zy%eOExp?+455pH%AU9mCGUPN;C}199o0$FwC<AAnsMb`Wgan~&7@!DIW!Mpn{YMNs
zFhI1Z$}I%147Ad}gBbj>;zdlDz+gKDObQ`;6*!^^?mb2%xN)XJSvkb6{K2ou!XmiW
zrh7|i(q~q|E4}gt^a1MC<=G-|*zaH3SF1oo)qsd;+qeAPPk!+64^~?H!F%*&L)(V8
z|K7e|ANlmiiudL9=GOP(x8rNg2XoB_A6d+e<+B4f&OCCGvX;f?{<iD=u58bVRrkQU
zyAoOwdY7v|Y5cfxW!tf=z46P6u62-!XRe=FXj`lA%++_U)gR8)9|qxuf)IQ@mHzqK
zTeWKyt+|TU4fnCTmsi|_(9)V)$hn10i<uR35=ZkwG`r*Qs{Q%(V)=L9zFP$hJ7AXJ
zYn(&U-ooI|G58A%`Y=E&!W53WChy|sZ4CYr1Jq~qKSQ8cRg;F^!<4_r;1CA5Z&Xl&
zh>yX(ZY1un;p-jpmC0hU=gT=uVDWWyS_Jaeddt2C@UtTjS$OD^x4<{JD_X%Zf-yVU
z{@mjE_Z@i$emUX9Iq$-lo7B|h%P>|>{EhRMZe7~+;Mcb}@?796ht<-(rBV2XMuEOZ
zt{=(U@XJo1)A;rH!f>v9dmbx5>#8lX>B28>vt`fnzE2K*eDISOK7Juj;PYPk5x&$p
z;`9PNv<GL&PEXKNu9O=;BneKYV{!IN6U7P^CG1Pp--N0~u`mxX{Rvja{jc3c2qu$3
z{IQpMMM|^eiW2@C7Iomg_%PmuQh&ly$&50r%Agyne8zE#3xD7jRPWwWl$^?TmICH)
z(NF$@+7Amft>nNVA<(2KpOu}@s8MVmGq0So=bu?Rh?n^_U{4XlQG{tqU8(9wMwueG
zVS5(TC;QDP`_-W;W0*YoD=hG@FxZO$+pNz+OxdZ~tU(X}=@i=bLG_w7_OJb9Dj1%K
zQ6``m3;YsWU;>Km;jQ~xu^&<W2gm4VP!9Gsksm?;S0_0Res;iB`~z|Q195*r+WwIU
zza^Cr|3|VdOSXMMn!X_I|3q59Hu0S4D+0mqorF8deQh#B)K0hq|I6W<dv(Rpe9ijM
zYT-H`dcB<RaEBSn<lPRgVkwd*@LCo(@s+Rja1{&YJb~BJ-evQhLo9mNw}~lVwGqB?
z;pD3Mx&Li4S*&o2;qU;L<@Z0bj+(g2tZ&C7f|2~NrIBk{cX=6Wm@yvc%H#Wi#rcz0
e-+Fb;;?G(9n^@}6v9lbvCtKg~dx8<h2mcSy$E7|1

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/tpu_int8.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/tpu_int8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dbab6a1a606cf08e7774d7c0309bd175af74af69
GIT binary patch
literal 7400
zcmahuZEPFIm9tzfx%?JMeVdjkS++%gkhP4HoyKwMI7ws2R-D>N8lDflHFqUZUVeCX
zX-h1XxPgJAkQR=vcaVa%s0<vg4s76jKMt3lm){2*$jX7(Jr!qM3KagwM9wAX{kVH?
zmRwN^(+;G!Z)V=iyqS4l^Z4&RpPN8Y?eAyKh6wo#E3G0lk<GsYWSPiB=2Vj9l3do7
zv~gIsseF=$FR$9OLQ-IDcGZz}CY=lyR59yHy0Y%1o7EkvC+kgmv%aK{)t#z88%PEK
z7iHJ9E!kxw-zT#BHjzDw_dai~pA52AFSPm;x78Y&x5fNVkR)a^_|v(0Lwv2EXYx5o
zos4mY<3e68stRDPixQQximp%~bf3@U6p6kdX^PQh;ujQsCNE<P^oL$AN;y4Kl5nOo
z`P@`y+6cF|nbaE0+YKuy>RU=?dPcXFFzmT}PBEPFd``+{(rI%GCUiC{o4*0%Z{S1~
zlH_EPw8>nOcM-WuwkdX*m+e#b3Yp?$;kGX+$h_j1vdNCy_M{VVQE|<7w@+%~1MmSV
zCs4u30i6$O;%)o=CTY^I1lVYMlhW1J*99ZoN>H&Yp(z{o0}o`%E_>Q&!m?NChVuvh
zlpfj7W^u>?Sg*H2=D1|vB@zo7zOy;~#N|TKJh)N<tI_t;i<&*rv?^&@bSh7ymoL5%
zeL+fJQ*v_L2uf)^bAz3IN=wfuS;cTrMK99aWZKr;3V!VHkJ7Pu1;F2P%S4B-Sr%<&
z@>7u9*3LOn=5(ZI<pxLndg~rQp3B_N$uDj9IkWdYsFz8~qMirQnk)^yk<*HWLZ0f1
z9Nl6tYBCs&35Edu3N^%3DwE6Tsgw~qedhAnH&0(a``Tpc(wSFYy71B^!~LeD7L}JM
z%~RS1>&1A(t|{sis~E0Sik(R+rQyb+(OZ9fE1_o#i9)7uM3?Baq92(n9)IS<wc|=c
z&0I|s=0R$6i5se#O=M9JQ_7r@F6w!jP^Ec=YKiM@lAO>BMPN=p5iiVBl%G=XwyTP_
zSnq>AZ34j8x5!hGxcrOGn%MtH9ISgHk47hIo{5c6q`K$1>Z#YN&t0tUetj+UgR1uj
z_2Kb~{Znyh6GoDB^EeS_g<Tb%>N1(<;7ARz#m-0MBaX5)aZHq=Tp1#4HU;XV>}0al
z9tA25t<x=14-C*jz_zW4qQcgE0g!g#m~9s#=)<xlI<wZrn>`4pZI^(>Nw_Qljy64G
zIH%OSq#vCy#H&q=4gsCk#(zKZX^Bh<L?$Kc^94mK?caXr-$u6=C+q=mi)?iDEc=#x
zzbO9doe$rs2I5sQ{>}a3UfF*80fGHm=Pz?xqK%?_?D9+o)UKEVHOuFs+DyKv%F$e2
zk6u-xX-QQ<!f$5unRcxNOBbHZ>u0kC74$I&O2A|on)$S<weLHG`^jc<skBs(u4dGX
zK3|G{bI02$_TygtY_Grf4_8OtTJ!&~D*n*iBs5zEH^nyT0A!g=lS_mS14?&W00qGm
zp>AX)&CGXdDx)eWO<HN>o6PK_IS5l|XdrHp$AMtQ#rQBBCRt}2^j)A{CS@{f9Xm8M
zOPQ0oY3_bg>=tY`pex%RSQZDYCO>JK1Frcoe8~G0&1X~BlzA=2(=nKg9!7w6qiG+S
zy5eDkCVQoU?fYx%isQh20AO2@J?oJpwaAfsQ`O_=suQoSMb1~nf!_u~)qN9>0>`W3
zadXoGvm=J1K$WS?oDl{~jq|rV%`{#}tDyF<3o;L6OA5gNTYA?z3hL2Y;RPH?OG+=1
zdGk_1-`p83lhbr5msTiV2ptCir-9ajeh0x(0NYQa3y+T3y%acn@am<Z?MJe+{}@gY
z0RYy{LA<>mD8EQP@{DbS_pj<};low$;d&s<jw8lVFVMyM(afVbfth!wQeb)^$^hJ(
z!iCjlk295$^J!@2HJvhpOEJ!(djJ@AH3O|9hziUwP`nw#!yJIgx4~y}I*nno7tTP>
zq|J7Eh)p18(mKVnrU?Xik`#}h{sjQT*YqW6MO9NNU>wZ?Q`GM<?Vtf9MSz|_`wswL
z-zLAcKhqG&$k^wCQ#kf`*H8n$4F_@izjPuN;)KEK;E_!N--d$|68A>$760i+AN{Cy
z@L6n30Ieg~uyMlM-0HC}pyh3Dlee0%H-x>R)zMY$ZVU-R*l#vA2it@btKF;Vd&gF1
z?hZ8wR3E<f1%8?{0oD)&p}XF*tHI-U-x&Kob_J`U12xy!R|2%M3u7Bh!``fd_lITk
z1<=&((HBNu5Hax(&j_+zama$=lpPRlIaxg9gc{(ot8?@<1@RL`UJ$jqX7R9h6o{RC
zoqIaBno$@;U_O}D&-n4meyC%-6@W-F3~jF2=#FKeI@{V~TbJC`c@;VME$#ji=o|3d
zaW7M%9J(zegY*7aH&e;dFsfM8Gz(EvOs&X{#eQ+aYwBbND~g7J8I7xefEC5~%i<m4
zGm^5bDp**nXA9}%v}M~hu$fep`S$ViU|eGM$(N}QMqdU?at6Len6Z{ADd?x0v8QQ?
zZKkO~Dh=6;nkLr_pCTQsp%p}(!Xao{AU=tVRqT(%f%;zdjn+MZbx)+`iL86#HBbCu
z>^Gig>jw^1Ui{QM+Te-zq$#^--;DlDu26(X0-1yOGF6bMo<YZL^yZ5YLFrp9j7S5U
zX^k*EO&T0-cwwxR)yy~~Z3V!v3gRC4-~2}aZ~@LvZfq-#SP*r*E>^ZI_$>P59YuGw
z8p?djzL#xf2ROgx4EWS3iw}hRXu6;*xXRot^0K4Ij<T!eH#odR=cM7g$=+Ql2*zZ1
z*m3kE40?jHLh-I*cEc`9x@5S_6Ol7n!`(a(!0CCQF&yR`F^9o}U!b^h(<&?3f<6zn
zyO=dXRG9{IZ61H~8R>3wLNDW}?<05x!C3_702m=<PN!0;$)}|2RAbB1*P&NKZxFSL
z8MOG*RFQP0IRwI$PBONg=0%+AO#rt@qnivITJMk7`s4TBUF(0o;@b%B+X(h9?^@cm
z(G{+CA6)A?RPP$A_l`Vu+C%<^oAmY9;cxK3)1WKlt~g)@mw#Q1*2L&)|GkM%#c@*@
zkzpDHur2;U!NH5%e9EjTTpd()mIWKMTLQDyd%ua!T0y{8pKb}$thm+M!djxV0Fl)K
zFWVO2MOp?yD#3}CfZoIw;N9Hb>LCk`&cbDJf>vQikp<cDz}XVL1t%y6dd(fBY=0nH
zTmem4D1j(}qF8D+i}CG_($<Sn-HrlrqpK|9JS8}x*6d|RS!gNGpE)_m<?Jl2SwPLi
zS$tjWDAq}IxRbIKu`Y;Z7(WHiqL_Q~30~0j=QE#G{^jf6pL&9tM=t<)@_$e+V_pUo
z&v{Kz3V`5~0fPT&bKS=CF%Q#Pct;e9h7F!qBhb@)U>zGbc<HKU*rlvAX9y4)WebKt
z^TnKO*daDLVK}wxMMWtov8Fbnlp5Zqy0Ngz5OS%j8QtKOf@U~j9((}<0xuL3ftDMR
zYB;WI@b-bE&2@8hN9F7?<4Ux}CRJ&)lX~u?`b*$S`)>fCpbpYMv|L^)SG@IL-}2zn
z;Ljq<dzSY6L(i{w-`%|yOjI28u3$x|`$HAJ9ty7rtK5gKT4-eT^;&3u#aZv}S=qNb
z{9&xtJz5RzgN9K5^1-EpKRdi0+FJ|ly=Qy)Vl}jPE%Xd_4J;p7I<k7^gClF9F{lUo
zSB}?$BNfL+sBihu(xDA+@Xo7?udX;&_ug~dJzVQgta-ol@W98%H+fsw{Rg*qapWg&
z+(|Ab-;Xy0;_3qCVYQ*9p|#-fdT_KB99_M#790nb1HCJb%DYu@h#8A-$<w^ZY()E$
zpwm;lqc7*cVW40^DRXVn0M~H_%XXL}5P}UNvz9a3Y6pAJoOi2jOV_SI-vYm2FY}#T
zQky>TW&59@u($1-m%n8{Z8Y{BG}fNL_3@K0gBtm$a=n<Lik6zDk{okVBw>z)P6B2)
zWaUN%-c1E;{%dRzn25)OHqWJDXC6Tg0L!N^hh#dV-36LYE1K5wMk#3uogn&KP~p<i
zPQw2uhh%Y)c>s{q=!>rQ{5o<svOYXs8y^3+eUJKHsR%y-wdh@rEJaND0?`^AS|3c*
z1``j3fA#*ecWv;w#X!aRK`#n7$o<NjYoSpT?Y`xKrGb@+H74FLb>GLrqrOu(;YRPC
zRmVf+QSZr$@KX;HP=lK@>{m0AmbL>gt%B#roZ0^XvP>YvhQzE&;QF~vLdl$obuFz)
zKwzA@<+5hc#qTJc!t;(U1>z)dBxJUOYk0t0@se2Pe=L*%mS7z)%;F`omu$VYN5N|^
z2wU-*Y#H&g@SaU33&K0XP3|U{<KHGXIS7qe=v4aKi>d<2@F;tIt7??xy;5_k6umkR
zfxW8cZ-N9w^%;|d7FjY$i%NQQM%N44cM}PC`)YAaO~$26Ldii!QdcxR0a2C?LsRgg
z#bhcbC66>$VL9LUjGo2yqO_Qc-Z+2$LKKozAZT%j?_Po}#$3jz#Z6q9gP=HrDJe;f
zr;D1-GA1;qsD=l!RgkYWldUX#!7QKYU-&$D10J?x^t3{MIhB?4Y*A$y(&kESigE+T
z-UMK{tkuD(P-<!%PHpfITxw`!cEogoR4AzPrGZZB!n$yBZ4m%C2(Q!C_n+S54L<=R
z4T^vcp=a5%<f#Z7{_vg5V&+bEF}v<RTJs;RdwrD~9~2*su8*Iqjh}<JLtuQ9*aGef
z54PIdRrTzuhk91*O9v}w>VZ(j{q@sbq-)m~L~!+OgmyP<w&4Cv-X8YDqrbba;j;Vs
z{uiFouD(BNm|=O(etL*}GUPgag8$@z_w+ITlVbwlEaMgn(Fq`-#}S-B@C*VBjm%UB
z1`re<LG)P!BM2})r*8o;9G8`xmZy+VEka7sv{6Ouu;p^}$4JI9dR8)zy)qfV*|h%x
zfZ2*e4ZB@9y!uz01U?OK4<s!DJq-cAu>ZaL8&1STGQ4l~(p^`>g*7+n>2G)t^OD|y
zh7U16>5D91Te`Lxz*@XZ*i-M_wX80w4Ic2vE`OzXr@UBRdE-}CKD<&5#A>dCn*#JS
zMxDZQ4<{M~J|D}Q_-PE1eX-ABrSRiG_no=LxjXMJzKa}%@kWAoPA;BAuEM|-^s9^N
z%H^7W7+DJgYwp0E$YSIvuxBQm%zRhaa6sx9l*UZ=pv^MHSY)CYha<z&HbSjxoW1n$
z*DmH1jA5pR+kYX5o4*jmRrXt$nO#G>WgPeu#7$*kib_$^Sw_p)-D$`c4-ml;iovES
z9+<=1alM9k(oCYAqVGd5KH;=i05o`x<GvCJH~bm#{*LVW9U1!rIro)~=WJg>>+_F$
nBP*F|&sdd&o;pUk?rQh`rv$!FC%KCp7p@K-{E{HTtp5K4YlW|%

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/__pycache__/w8a16.cpython-312.pyc b/model_executor/layers/quantization/__pycache__/w8a16.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1fdd539fc0fda553d62e4e4963475da3ccce1304
GIT binary patch
literal 5386
zcmb6dOKcm*b(Z_#^8b-2Oa3TwA{(NkQ1B;~^8Yw?(#BTO+Nl#Z!D7u_O3N%inO!E9
zOaX4;gMu6qou~i-BB2M%aDY0eTzl!M7YTL{Vxb}~(j0s#=t@C>9@@S)OHwOZa@zs+
z&704g_h#n(X8#n41PK&V_{8Xo5b^^y+C^+38%u!HiAFTeBt<UE6@6J>k<ao)AuDj$
z?=!`$2sLj?MSs@M`UF!h2C_khi)N@8&W4MTY=pHXGg^#gV+{A3@nRyIC?>N>)|Snl
zVsEyWBR=vf(E`_q7Sv-mc~_QfiuHz|H>^iGy?ryjbmSgRNed4DQfbB!UNLgEBb+rX
z+mYX>*haaenv-eH3B0LNwW!-Vg+@rpRV}+*RLT`A?Q?=>jgqd?msLx5;x2wpx2MY*
z_Q3SyFRE(EHfB{^?o_#yH>QB9|5aM9R@l(_oNDSF22RhLYVLhq`|#}9bDd6DCT{7r
z@{w*#P1}lU+tkXrn{%PR)!6tOAa$aXET@sIPvf$DfCPw^(1dGn?wU^*^FB=kTx#JG
z;C{emJy7WNF6rU}PyvM>W`$r@7;qWzh#tjLzS$zk#`HLxctRKTWZs7~nolEnK?_|I
zI&*s9^aF*F7Kx`S9Pu<-s20&h;Mb=`nFNv+1Fn0RoMKC+IP~<-@ad!zx;UX8J?Wn9
z>_N94%9*NV4du&ph>d1~Lr@rSB&yq0TAIvpU5rs-HUt25GDB`~lQ#f3f~A{z3#ShK
z^TL>2tc+ER$`iIqr*!*?%hmCxCf*;{$4ukWSY-z8y)^crX%@$dWlc8~{j#2`+GRRs
zsxvyZ#y;@q!q`VBb*3`o$ckc=3|moVdp$eJw0rSdEWF{Xq$!a=WCKw0P}#Y(Z<5Ag
z7DZZ`0^n|d?g13}QN2PR<mdL{`C4elS4ks&fMWB%a&ttsn_c+9Nhu{TpzZr>_wM)b
zi}gLo&j;h|W?lxQPHcc~Dd0#~@r>d{c9kjLc|v=jGtE09+)HlS5vEl$@5q<(W?8k5
zo_yf2`cX`)TB($&t!s*!vlY#rsp!`1u=lcdoAn4Vv+x40lJ$719$W~1ar(>2&nH)7
zkFUy)Ke$;G*sF$kmG@qU&Yh1oiF}JjNy(`d^^##4_RQ>Hw_MxDABDx**BeW?5+K)h
zK}}~8NPyJI6looqD*#g{R0&s=dXayQc{L?(m^$9FHS3z3YlxYhW*mYAS}J`vmY5GP
zDICdNDCfOa#F;dx&UNtbwT{>E$^|Z!&zTlY<HATYG~@~x%2ROF?!vQsyeH!sU{nF1
zx=Q{MOMX(F54!@1%xoR0LiN0H*-0>RuaD26Xzhaf#zcJ@5YW?(cd2o9XG=F*7!BF&
zP>EY=%{>o(r>&ns!!k;it(I~+McL>WfHY705Pt$e27rYe!Lzx$jpJc6C!;{Pf*>@z
z-@E1RQC!8^3*ajGYbf=Z{zdjqXk@)-c<I9Jo+GQ_BaK+kgBtp9{pj{JOhGIRajxy`
zq9ENfPM~D2&uerPB<-UK=$}jvpbNv56vYWD3i#TpiFjDS&6}+ezoKa69Qe9^AaZ!i
zrgR@*bPxd^J{<z!h|HYnV~F!c$)<-93&Y9VM$SD&ic!l6v5?a0!ONz2_H-1-e5H~j
zonvxPv>SR10q(*zn~ue}ZW)z12A}mu0N2QUpHGyVGA~B%f_oRCZU#B=k;TV02vkjp
z6Zg3I9>hmihF7Y;zjEWs+L32)!YFnomrfy`ga{!e@B0AT-~nqQhJ6XdQcJx{xs~Hf
z)60WRn4G$G?(bOPOn1B~31aV(etmj*`g(b}+$7L!92{=)Sf`J!9y`63KC^+XW)yj9
zE610OP2|h;gl#SdTk4c>3)_I44{XAlm_RTWAf4bLjEkC}OND5Ms)H2ppt_1C>H$sC
zgL(iDRr5m&k{2xiE1+p~m3&wW0*5dpLGk~KOBmKe)95OYm_&CTVbbg}mX{%c5wo$G
zP&&cvcy`crBSWq_u{`A?mJbBo93|{p@xwe~5=5($8doDqN65DO;OI-x2L{8u1>#<>
z$Sh)Z?*s0vlX5(V1eoMQ3b21<UielXa4#4=hSP79Dpd%I#;mSXbgEQTY8#l|I(_A;
zjYFLtHpy~=TNF;HH3!L^Fw9homK#!Y?KBpc5X3|9ZG6Zy$Ky@;wzr&<ZL~mEw!CQp
z?XRoU<eJY$lVznKx3R7IE3W-8(0pI<Z7)3+uu%q9Y5`5qL{0j_*B<4_|H@wzKmutO
z9zhR}AUueK?L2B+0UlZ1Mf2AJ9yvTx*8E%jyU@zD;MN>3cQ5S>NeAHZLou42ffq=G
z>K{}Ms$0qwRkeF?D}-V&gU}mruU9jQPOx>mh)eE!#gUkIx6*!a!qp<hn{ByXy;!l~
z-34BEf};65Nvco5^UGDL){`sb33;cG_7w!D5u8ErDgY;`U$&{b?S<qFcr<OhqSA9n
zI0?YQlY{u#E^Zu+=BTdPdTY6MLgS76ne8)P#HG-gUnQGCa%g0A<oVmfFRaQ3*Asi!
z!--E{|M>MrJl%+otoQA!7ZwVeejyTV2Fbpm&4@o4oR>D^BrwnjCmRO_8-tJB7x`3l
zlNSQ9%`i#s>#UH#Mfx7ynR>CWF>s)<cOMWx8r&p&AOs8o(eLD;HF;>Mf92#I`PjPL
zzu32W@c141L_?13IP|T2g4z0{!(DcSONMH(sGIAU59|_63{7tXp5M#|6`;{w<^)i`
zPU5pQIw#hA1@CIDAy9p8FR2MTj<Hu|o|}caa}v;dT}7Lo+htu2U2|LE=lnKiQ>+x&
ze~fm^t!w_8P!l!&E8%8K#yPph|3(A@<{5XnChx?(Cbiwtd6E_<@BJIfy?+64d>8N^
zf&@>|qH3q5E!}fOYg(=7jvtJQAw2w2aKa}0p`fsEkPdj1|5qR(y$HbZf8d%HQ(-3n
zdak%D1Y1jK%4LU#ZVUI?*6mi3D5{l;Inzppx9Kz+m;wsxw*cU|DU+W5`sl*wyuXp?
ztM6afKQA>>ef5hA7Z=YjUi$3arHj|!TYm4>v9&`dSBEFoQWNt59DirwokhBI^!oVn
z_{y>6XKts)=7a0e#COrbwdmmD?8^A9Gk-X7C;Hkv-w4H4L;D)Z)S|F(Wd2kmmi+X}
z$5$4gx*a>TDj#xV4tuY~>60K5J&9l(!2|;K#>MoG`4jp)VlN<g1_8_Q(0$Rj065YG
zy=0ZCo1f{}z5Ox60y6`+w)Hyzoz#pI(@Vd`1S{Q?hQ%kBPG5g*`L*kBEWgnt&}<w%
z(d41NJ9hlmsT(s*5%DuWV>KjShen!y=mBivxo@s~ePx5SE^s7s?7lxF9&V)e*56)u
zyRIxKO&;2J-Lr0rfCEwLz~Wn9zWe#RYrRLBI32pipZ&)C+T6sJdq(VSu*Z?$WoneB
z+{6^s*F6K4kq$xANwP<8rc}zXz>B}Mm_K#|{A)omFjCAWoP*fTZ2yaqasOguTm^L>
zC1^p;@rO+I{_@CNf`4MI#~4M&>m1mLa!WK!A1OvZXJDs^Roj3!9|jIr6YvzeF4d8r
zb)N^%(-Mqg)UsX#(BwIe`<{&6CZj))@Sn-ZkL0oM$<KfCaa{jD1de-=`;na7ln!&r
Z)#UIdfqL_o+|%6Q)&7y62-NJ@{{vxKzcl~=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/auto_round.py b/model_executor/layers/quantization/auto_round.py
new file mode 100644
index 0000000..f1943d4
--- /dev/null
+++ b/model_executor/layers/quantization/auto_round.py
@@ -0,0 +1,454 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from fractions import Fraction
+from typing import TYPE_CHECKING, Any
+
+import regex as re
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
+logger = init_logger(__name__)
+
+
+class AutoRoundConfig(QuantizationConfig):
+    """Config class for AutoRound.
+    Reference: https://arxiv.org/pdf/2309.05516
+    """
+
+    SUPPORTED_BITS = {2, 3, 4, 8}
+    SUPPORTED_DTYPES = {"int"}
+    SUPPORTED_FORMATS = {"auto_round:auto_gptq", "auto_round:auto_awq"}
+    SUPPORTED_BACKENDS = {
+        "auto",
+        "gptq",
+        "gptq:marlin",
+        "awq",
+        "awq:marlin",
+        "marlin",
+        "ipex",
+    }
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        sym: bool = True,
+        packing_format: str = "auto_round:auto_gptq",
+        block_name_to_quantize: str | list[str] | None = None,
+        extra_config: dict[str, Any] | None = None,
+        data_type: str = "int",
+        backend: str = "auto",
+    ) -> None:
+        super().__init__()
+        if weight_bits not in self.SUPPORTED_BITS:
+            raise ValueError(
+                f"Unsupported weight_bits: {weight_bits}, "
+                f"currently only support  {self.SUPPORTED_BITS}"
+            )
+        if data_type not in self.SUPPORTED_DTYPES:
+            raise ValueError(
+                f"Unsupported data_type: {data_type},"
+                f" currently only support  {self.SUPPORTED_DTYPES}"
+            )
+        if packing_format not in self.SUPPORTED_FORMATS:
+            raise ValueError(
+                f"Unsupported packing_format: {packing_format}, "
+                f"currently only support  {self.SUPPORTED_FORMATS}"
+            )
+        if backend not in self.SUPPORTED_BACKENDS:
+            raise ValueError(
+                f"Unsupported backend: {backend},  "
+                f"currently only support  {self.SUPPORTED_BACKENDS}"
+            )
+
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.sym = sym
+        self.packing_format = packing_format
+        self.block_name_to_quantize = (
+            block_name_to_quantize.split(",")
+            if isinstance(block_name_to_quantize, str)
+            else block_name_to_quantize
+        )
+        self.extra_config = extra_config
+        self.data_type = data_type
+        self.backend = backend
+        self.pack_factor = Fraction(32, weight_bits)
+
+    def __repr__(self) -> str:
+        return (
+            f"AutoRoundConfig(weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size}, sym={self.sym})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "auto-round"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantization_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "AutoRoundConfig":
+        return cls(
+            weight_bits=cls.get_from_keys(config, ["bits"]),
+            group_size=cls.get_from_keys(config, ["group_size"]),
+            sym=cls.get_from_keys(config, ["sym"]),
+            packing_format=cls.get_from_keys_or(
+                config, ["packing_format"], "auto_round:auto_gptq"
+            ),
+            block_name_to_quantize=cls.get_from_keys_or(
+                config, ["block_name_to_quantize", "to_quant_block_names"], None
+            ),
+            extra_config=cls.get_from_keys_or(config, ["extra_config"], None),
+            data_type=cls.get_from_keys_or(config, ["data_type"], "int"),
+            backend=cls.get_from_keys_or(config, ["backend", "vllm_backend"], "auto"),
+        )
+
+    def get_layer_config(self, layer, layer_name: str):
+        def get_config(name: str, quantized: bool = True):
+            if not self.extra_config:
+                return (
+                    self.weight_bits if quantized else 16,
+                    self.group_size if quantized else -1,
+                    self.sym if quantized else True,
+                )
+
+            # exact match first
+            if name in self.extra_config:
+                cfg = self.extra_config[name]
+                return (
+                    cfg.get("bits", self.weight_bits if quantized else 16),
+                    cfg.get("group_size", self.group_size if quantized else -1),
+                    cfg.get("sym", self.sym if quantized else True),
+                )
+
+            REGEX_SPECIAL_CHARS = set(r"*+?^$()[]{}|\\")
+            for pattern, cfg in self.extra_config.items():
+                if not isinstance(pattern, str) or not any(
+                    c in REGEX_SPECIAL_CHARS for c in pattern
+                ):
+                    continue
+
+                try:
+                    if re.search(re.compile(pattern), name) is not None:
+                        return (
+                            cfg.get("bits", self.weight_bits if quantized else 16),
+                            cfg.get("group_size", self.group_size if quantized else -1),
+                            cfg.get("sym", self.sym if quantized else True),
+                        )
+                except re.error:
+                    # Invalid regex, ignore.
+                    continue
+
+            return (
+                self.weight_bits if quantized else 16,
+                self.group_size if quantized else -1,
+                self.sym if quantized else True,
+            )
+
+        # 1. Exact match from config
+        if self.extra_config and layer_name in self.extra_config:
+            return get_config(layer_name)
+
+        # 2. Determine whether layer should be quantized
+        quantized = not isinstance(layer, ParallelLMHead)
+        if self.block_name_to_quantize:
+            quantized = any(
+                layer_name.startswith(name) for name in self.block_name_to_quantize
+            )
+
+        # 3. Handle fused MoE
+        if self.extra_config and "fusedmoe" in layer.__class__.__name__.lower():
+            moe_configs = [
+                get_config(name, quantized)
+                for name in self.extra_config
+                if name.startswith(layer_name)
+            ]
+            if moe_configs:
+                if len(set(moe_configs)) == 1:
+                    return moe_configs[0]
+                raise ValueError(
+                    f"Fused MoE layer '{layer_name}' requires "
+                    f"consistent quant config for all sub-layers"
+                )
+
+        # 4. Handle fused QKV or other patterns
+        if self.extra_config:
+            for fusion_key, sub_keys in self.packed_modules_mapping.items():
+                if fusion_key in layer_name and layer_name.count(fusion_key) == 1:
+                    sub_names = [
+                        layer_name.replace(fusion_key, sub_key) for sub_key in sub_keys
+                    ]
+                    sub_configs = [get_config(name, quantized) for name in sub_names]
+                    if len(set(sub_configs)) == 1:
+                        return sub_configs[0]
+                    raise ValueError(
+                        f"Fused module '{layer_name}' requires "
+                        f"consistent quant config for {sub_names}"
+                    )
+
+        # 5. Fallback or try a regular expression match
+        return get_config(layer_name, quantized)
+
+    def check_quantized(self, weight_bits: int) -> bool:
+        return weight_bits < 16
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.block_name_to_quantize is not None:
+            self.block_name_to_quantize = hf_to_vllm_mapper.apply_list(
+                self.block_name_to_quantize
+            )
+        if self.extra_config is not None:
+            self.extra_config = hf_to_vllm_mapper.apply_dict(self.extra_config)
+
+    def apply_awq_quant_layer(self, layer, prefix: str, backend: str = "auto"):
+        from vllm.model_executor.layers.fused_moe import FusedMoE
+        from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+            check_marlin_supported,
+            check_moe_marlin_supports_layer,
+        )
+
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+
+        logger.debug(
+            "[%s] Type: %s, Bits: %s, Group Size: %s, Sym: %s",
+            prefix,
+            layer.__class__.__name__,
+            weight_bits,
+            group_size,
+            sym,
+        )
+        if backend == "auto" or "marlin" in backend:
+            AWQ_TYPE_MAP = {
+                4: scalar_types.uint4,
+                8: scalar_types.uint8,
+            }
+            use_marlin = (weight_bits in AWQ_TYPE_MAP) and check_marlin_supported(
+                AWQ_TYPE_MAP[weight_bits], group_size, not sym
+            )
+
+            if isinstance(layer, FusedMoE):
+                use_marlin = use_marlin and check_moe_marlin_supports_layer(
+                    layer, group_size
+                )
+
+        else:
+            use_marlin = False
+        if use_marlin:
+            from vllm.model_executor.layers.quantization.awq_marlin import (
+                AWQMarlinConfig,
+                AWQMarlinLinearMethod,
+                AWQMoEMethod,
+            )
+
+            quant_args_marlin = AWQMarlinConfig(
+                weight_bits=weight_bits,
+                group_size=group_size,
+                zero_point=not sym,
+                lm_head_quantized=False,
+                full_config={},
+                modules_to_not_convert=[],
+            )
+        else:
+            from vllm.model_executor.layers.quantization.awq import (
+                AWQConfig,
+                AWQLinearMethod,
+            )
+
+            quant_args = AWQConfig(
+                weight_bits=weight_bits,
+                group_size=group_size,
+                zero_point=not sym,
+            )
+
+        if isinstance(layer, FusedMoE):
+            if use_marlin:
+                return AWQMoEMethod(quant_args_marlin, layer.moe_config)
+            from vllm.model_executor.layers.quantization.moe_wna16 import MoeWNA16Config
+
+            config = {
+                "quant_method": "awq",
+                "bits": weight_bits,
+                "group_size": group_size,
+                "zero_point": not sym,
+                "lm_head": False,
+            }
+            return MoeWNA16Config.from_config(config).get_quant_method(layer, prefix)
+
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if use_marlin:
+                return AWQMarlinLinearMethod(quant_args_marlin)
+            else:
+                return AWQLinearMethod(quant_args)
+        return None
+
+    def apply_gptq_quant_layer(self, layer, prefix: str, backend: str = "auto"):
+        from vllm.model_executor.layers.fused_moe import FusedMoE
+        from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+            check_marlin_supported,
+            check_moe_marlin_supports_layer,
+        )
+
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+
+        logger.debug(
+            "[%s] Type: %s, Bits: %s, Group Size: %s, Sym: %s",
+            prefix,
+            layer.__class__.__name__,
+            weight_bits,
+            group_size,
+            sym,
+        )
+        if backend == "auto" or "marlin" in backend:
+            GPTQ_TYPE_MAP = {
+                (4, True): scalar_types.uint4b8,
+                (8, True): scalar_types.uint8b128,
+            }
+            use_marlin = (weight_bits, sym) in GPTQ_TYPE_MAP and check_marlin_supported(
+                GPTQ_TYPE_MAP[(weight_bits, sym)], group_size, has_zp=not sym
+            )
+            if isinstance(layer, FusedMoE):
+                use_marlin = use_marlin and check_moe_marlin_supports_layer(
+                    layer, group_size
+                )
+        else:
+            use_marlin = False
+        if use_marlin:
+            from vllm.model_executor.layers.quantization.gptq_marlin import (
+                GPTQMarlinConfig,
+                GPTQMarlinLinearMethod,
+                GPTQMarlinMoEMethod,
+            )
+
+            quant_args_marlin = GPTQMarlinConfig(
+                weight_bits=weight_bits,
+                group_size=group_size,
+                is_sym=sym,
+                lm_head_quantized=False,
+                desc_act=False,
+                dynamic={},
+                full_config={},
+            )
+        else:
+            from vllm.model_executor.layers.quantization.gptq import (
+                GPTQConfig,
+                GPTQLinearMethod,
+            )
+
+            quant_args = GPTQConfig(
+                weight_bits=weight_bits,
+                group_size=group_size,
+                lm_head_quantized=False,
+                desc_act=False,
+                dynamic={},
+            )
+
+        if isinstance(layer, FusedMoE):
+            if use_marlin:
+                return GPTQMarlinMoEMethod(quant_args_marlin, layer.moe_config)
+            else:
+                from vllm.model_executor.layers.quantization.moe_wna16 import (
+                    MoeWNA16Config,
+                )
+
+                config = {
+                    "quant_method": "gptq",
+                    "bits": weight_bits,
+                    "group_size": group_size,
+                    "sym": sym,
+                    "lm_head": False,
+                }
+                return MoeWNA16Config.from_config(config).get_quant_method(
+                    layer, prefix
+                )
+
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if use_marlin:
+                return GPTQMarlinLinearMethod(quant_args_marlin)
+            else:
+                return GPTQLinearMethod(quant_args)
+
+        return None
+
+    def apply_ipex_quant_layer(self, layer, prefix: str):
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+        from vllm.model_executor.layers.quantization.ipex_quant import (
+            IPEXAWQLinearMethod,
+            IPEXConfig,
+            IPEXGPTQLinearMethod,
+        )
+
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if "awq" in self.packing_format:
+                config = IPEXConfig(
+                    method="awq", weight_bits=weight_bits, group_size=group_size
+                )
+                return IPEXAWQLinearMethod(config)
+            elif "gptq" in self.packing_format:
+                config = IPEXConfig(
+                    method="gptq", weight_bits=weight_bits, group_size=group_size
+                )
+                return IPEXGPTQLinearMethod(config)
+            else:
+                raise ValueError(
+                    f"ipex backend only supports awq "
+                    f"and gtpq format,but got {self.packing_format}"
+                )
+        else:
+            return None
+
+    def get_quant_method(self, layer: torch.nn.Module, prefix: str):
+        if prefix and self.extra_config:
+            for layer_name in self.extra_config:
+                if (
+                    layer_name == prefix or layer_name == f"model.{prefix}"
+                ) and self.extra_config[layer_name].get("bits", 16) >= 16:
+                    return UnquantizedLinearMethod()
+        if (
+            current_platform.is_cpu()
+            or current_platform.is_xpu()
+            or self.backend == "ipex"
+        ):
+            return self.apply_ipex_quant_layer(layer, prefix)
+        if "gptq" in self.packing_format or "gptq" in self.backend:
+            return self.apply_gptq_quant_layer(layer, prefix)
+        if "awq" in self.packing_format or "awq" in self.backend:
+            return self.apply_awq_quant_layer(layer, prefix)
diff --git a/model_executor/layers/quantization/awq.py b/model_executor/layers/quantization/awq.py
new file mode 100644
index 0000000..1545c72
--- /dev/null
+++ b/model_executor/layers/quantization/awq.py
@@ -0,0 +1,278 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING, Any, Union
+
+import torch
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
+from vllm.model_executor.parameter import GroupQuantScaleParameter, PackedvLLMParameter
+from vllm.transformers_utils.config import get_safetensors_params_metadata
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.model_executor.models.utils import WeightsMapper
+
+logger = init_logger(__name__)
+
+
+class AWQConfig(QuantizationConfig):
+    """Config class for AWQ.
+
+    Reference: https://arxiv.org/abs/2306.00978
+    """
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        zero_point: bool,
+        modules_to_not_convert: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.zero_point = zero_point
+        self.modules_to_not_convert = modules_to_not_convert or []
+
+        if self.weight_bits != 4:
+            raise ValueError(
+                "Currently, only 4-bit weight quantization is supported for "
+                f"AWQ, but got {self.weight_bits} bits."
+            )
+        self.pack_factor = 32 // self.weight_bits
+
+    def __repr__(self) -> str:
+        return (
+            f"AWQConfig(weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size}, "
+            f"zero_point={self.zero_point}, "
+            f"modules_to_not_convert={self.modules_to_not_convert})"
+        )
+
+    def get_name(self) -> "QuantizationMethods":
+        return "awq"
+
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # The AWQ kernel only supports Turing or newer GPUs.
+        return 75
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return [
+            "quant_config.json",  # E.g., casperhansen/vicuna-7b-v1.5-awq
+            # E.g., abhinavkulkarni/mosaicml-mpt-7b-instruct-w4-g128-awq
+            "quantize_config.json",
+        ]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "AWQConfig":
+        weight_bits = cls.get_from_keys(config, ["w_bit", "bits"])
+        group_size = cls.get_from_keys(config, ["q_group_size", "group_size"])
+        zero_point = cls.get_from_keys(config, ["zero_point"])
+        modules_to_not_convert = cls.get_from_keys_or(
+            config, ["modules_to_not_convert"], None
+        )
+        return cls(weight_bits, group_size, zero_point, modules_to_not_convert)
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Union["LinearMethodBase", "QuantizeMethodBase"] | None:
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(
+                prefix,
+                self.modules_to_not_convert,
+                self.packed_modules_mapping,
+                skip_with_substr=True,
+            ):
+                return UnquantizedLinearMethod()
+            return AWQLinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            # Lazy import to avoid circular import.
+            from .awq_marlin import AWQMarlinConfig, AWQMoEMethod
+            from .moe_wna16 import MoeWNA16Config
+            from .utils.marlin_utils import check_moe_marlin_supports_layer
+
+            if not check_moe_marlin_supports_layer(layer, self.group_size):
+                logger.warning_once(
+                    f"Layer '{prefix}' is not supported by AWQMoeMarlin. "
+                    "Falling back to Moe WNA16 kernels."
+                )
+                config = {
+                    "quant_method": "awq",
+                    "bits": self.weight_bits,
+                    "group_size": self.group_size,
+                    "zero_point": self.zero_point,
+                    "lm_head": False,
+                }
+                return MoeWNA16Config.from_config(config).get_quant_method(
+                    layer, prefix
+                )
+            marlin_compatible_config_dict = {
+                "quant_method": "awq",
+                "bits": self.weight_bits,
+                "group_size": self.group_size,
+                "zero_point": self.zero_point,
+                "lm_head": False,
+                "modules_to_not_convert": self.modules_to_not_convert,
+            }
+            awq_marlin_config = AWQMarlinConfig.from_config(
+                marlin_compatible_config_dict
+            )
+            return AWQMoEMethod(awq_marlin_config, layer.moe_config)
+        return None
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.modules_to_not_convert:
+            self.modules_to_not_convert = hf_to_vllm_mapper.apply_list(
+                self.modules_to_not_convert
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_to_not_convert:
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        layers = {param_name.rsplit(".", 1)[0] for param_name in metadata}
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_to_not_convert = list(layers - quant_layers)
+
+
+class AWQLinearMethod(LinearMethodBase):
+    """Linear method for AWQ.
+
+    Args:
+        quant_config: The AWQ quantization config.
+    """
+
+    def __init__(self, quant_config: AWQConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        if input_size_per_partition % group_size != 0:
+            raise ValueError(
+                "The input size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
+            )
+
+        output_size_per_partition = sum(output_partition_sizes)
+        if output_size_per_partition % self.quant_config.pack_factor != 0:
+            raise ValueError(
+                "The output size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
+            )
+
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        num_groups = input_size_per_partition // group_size
+
+        qzeros = PackedvLLMParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        scales = GroupQuantScaleParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            input_dim=0,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.qweight = torch.nn.Parameter(layer.qweight.data, requires_grad=False)
+        layer.qzeros = torch.nn.Parameter(layer.qzeros.data, requires_grad=False)
+        layer.scales = torch.nn.Parameter(layer.scales.data, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        qweight = layer.qweight
+        scales = layer.scales
+        qzeros = layer.qzeros
+        pack_factor = self.quant_config.pack_factor
+        out_shape = x.shape[:-1] + (qweight.shape[-1] * pack_factor,)
+        reshaped_x = x.reshape(-1, x.shape[-1])
+
+        # num_tokens >= threshold
+        # FP16_MATMUL_HEURISTIC_CONDITION = x.shape[:-1].numel() >= 256
+        FP16_MATMUL_HEURISTIC_CONDITION = False
+        if FP16_MATMUL_HEURISTIC_CONDITION:
+            out = ops.awq_dequantize(qweight, scales, qzeros, 0, 0, 0)
+            out = torch.matmul(reshaped_x, out)
+        else:
+            out = ops.awq_gemm(reshaped_x, qweight, scales, qzeros,
+                               pack_factor, group_size=self.quant_config.group_size)
+        if bias is not None:
+            out.add_(bias)
+        return out.reshape(out_shape)
diff --git a/model_executor/layers/quantization/awq_marlin.py b/model_executor/layers/quantization/awq_marlin.py
new file mode 100644
index 0000000..100a58d
--- /dev/null
+++ b/model_executor/layers/quantization/awq_marlin.py
@@ -0,0 +1,869 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+from torch.nn import Parameter
+
+import vllm.model_executor.layers.fused_moe  # noqa
+from vllm import _custom_ops as ops
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+    UnquantizedFusedMoEMethod,
+)
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+    set_weight_attrs,
+)
+from vllm.model_executor.layers.quantization.awq import AWQConfig
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    apply_awq_marlin_linear,
+    awq_to_marlin_zero_points,
+    check_marlin_supported,
+    check_marlin_supports_layer,
+    check_moe_marlin_supports_layer,
+    marlin_make_empty_g_idx,
+    marlin_make_workspace_new,
+    marlin_moe_permute_scales,
+    marlin_permute_bias,
+    marlin_permute_scales,
+    moe_awq_to_marlin_zero_points,
+    verify_marlin_supported,
+    verify_marlin_supports_shape,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.parameter import GroupQuantScaleParameter, PackedvLLMParameter
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+from vllm.transformers_utils.config import get_safetensors_params_metadata
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.model_executor.models.utils import WeightsMapper
+import ixformer.inference.functions as ixfops
+
+logger = init_logger(__name__)
+
+
+class AWQMarlinConfig(QuantizationConfig):
+    """Config class for AWQ Marlin"""
+
+    # num_bits -> type
+    TYPE_MAP = {
+        4: scalar_types.uint4,
+        8: scalar_types.uint8,
+    }
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        zero_point: bool,
+        lm_head_quantized: bool,
+        modules_to_not_convert: list[str] | None,
+        full_config: dict[str, Any],
+    ) -> None:
+        super().__init__()
+        self.pack_factor = 32 // weight_bits  # packed into int32
+        self.group_size = group_size
+        self.zero_point = zero_point
+        self.lm_head_quantized = lm_head_quantized
+        self.weight_bits = weight_bits
+        self.modules_to_not_convert = modules_to_not_convert or []
+        self.full_config = full_config
+
+        if self.weight_bits not in self.TYPE_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {self.weight_bits}. "
+                f"Supported num_bits = {self.TYPE_MAP.keys()}"
+            )
+
+        self.quant_type = self.TYPE_MAP[self.weight_bits]
+
+        verify_marlin_supported(
+            self.quant_type, group_size=self.group_size, has_zp=self.zero_point
+        )
+
+    def __repr__(self) -> str:
+        return (
+            f"AWQMarlinConfig(quant_type={self.quant_type}, "
+            f"group_size={self.group_size}, "
+            f"zero_point={self.zero_point}, "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"modules_to_not_convert={self.modules_to_not_convert})"
+        )
+
+    @classmethod
+    def get_name(cls) -> "QuantizationMethods":
+        return "awq_marlin"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "AWQMarlinConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        zero_point = cls.get_from_keys(config, ["zero_point"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        modules_to_not_convert = cls.get_from_keys_or(
+            config, ["modules_to_not_convert"], None
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            zero_point,
+            lm_head_quantized,
+            modules_to_not_convert,
+            config,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> Optional["QuantizationMethods"]:
+        can_convert = cls.is_awq_marlin_compatible(hf_quant_cfg)
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "marlin" or user_quant == "awq_marlin"
+        )
+
+        if can_convert and is_valid_user_quant:
+            msg = (
+                "The model is convertible to {} during runtime."
+                " Using {} kernel.".format(cls.get_name(), cls.get_name())
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        if can_convert and user_quant == "awq":
+            logger.info(
+                "Detected that the model can run with awq_marlin"
+                ", however you specified quantization=awq explicitly,"
+                " so forcing awq. Use quantization=awq_marlin for"
+                " faster inference"
+            )
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            if is_layer_skipped(
+                prefix,
+                self.modules_to_not_convert,
+                self.packed_modules_mapping,
+                skip_with_substr=True,
+            ):
+                return UnquantizedLinearMethod()
+            # Check if the layer is supported by AWQMarlin.
+            if not check_marlin_supports_layer(layer, self.group_size):
+                logger.warning_once(
+                    "Layer '%s' is not supported by AWQMarlin. Falling back to unoptimized AWQ kernels.",  # noqa: E501
+                    prefix,
+                )
+                return AWQConfig.from_config(self.full_config).get_quant_method(
+                    layer, prefix
+                )
+            return AWQMarlinLinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            # from vllm.model_executor.layers.quantization.moe_wna16 import (
+            #     MoeWNA16Config)
+            # if is_layer_skipped_awq(
+            #         prefix, getattr(self, "modules_to_not_convert", [])):
+            #     return UnquantizedFusedMoEMethod(layer.moe_config)
+            # if not check_moe_marlin_supports_layer(layer, self.group_size):
+            #     logger.warning_once(
+            #         f"Layer '{prefix}' is not supported by AWQMoeMarlin. "
+            #         "Falling back to Moe WNA16 kernels.")
+            #     return MoeWNA16Config.from_config(
+            #         self.full_config).get_quant_method(layer, prefix)
+            # return AWQMoEMethod(self, layer.moe_config)
+            return AWQMoEMethod(self, layer.moe_config)
+        return None
+
+    @classmethod
+    def is_awq_marlin_compatible(cls, quant_config: dict[str, Any]):
+        # Extract data from quant config.
+        quant_method = quant_config.get("quant_method", "").lower()
+        num_bits = quant_config.get("bits")
+        group_size = quant_config.get("group_size")
+        zero_point = quant_config.get("zero_point")
+
+        if not current_platform.is_cuda():
+            return False
+
+        if quant_method != "awq":
+            return False
+
+        # If we cannot find the info needed in the config, cannot convert.
+        if num_bits is None or group_size is None or zero_point is None:
+            return False
+
+        if num_bits not in cls.TYPE_MAP:
+            return False
+
+        return check_marlin_supported(
+            quant_type=cls.TYPE_MAP[num_bits], group_size=group_size, has_zp=zero_point
+        )
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.modules_to_not_convert:
+            self.modules_to_not_convert = hf_to_vllm_mapper.apply_list(
+                self.modules_to_not_convert
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_to_not_convert:
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        layers = {param_name.rsplit(".", 1)[0] for param_name in metadata}
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_to_not_convert = list(layers - quant_layers)
+
+
+class AWQMarlinLinearMethod(LinearMethodBase):
+    """Linear method for AWQ Marlin.
+
+    Args:
+        quant_config: The AWQ Marlin quantization config.
+    """
+
+    def __init__(self, quant_config: AWQMarlinConfig) -> None:
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        del output_size
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        verify_marlin_supports_shape(
+            output_size_per_partition=output_size_per_partition,
+            input_size_per_partition=input_size_per_partition,
+            input_size=input_size,
+            group_size=group_size,
+        )
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        num_groups = input_size_per_partition // group_size
+
+        qzeros = PackedvLLMParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        scales = GroupQuantScaleParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            input_dim=0,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
+
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.num_groups = num_groups
+
+    # TODO: Update this docs
+    # Checkpoints are serialized in AutoAWQ format, which is different from the
+    # marlin format. This function is called after the weights are loaded.
+    # Here, we handle the repacking
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.output_size_per_partition = layer.qweight.data.shape[1] * self.quant_config.pack_factor
+        align_bits = 64 * 8
+        align_size = align_bits // self.quant_config.weight_bits
+        if layer.output_size_per_partition % align_size != 0:
+            padding_output_size_per_partition = (layer.output_size_per_partition + align_size - 1) // align_size * align_size
+            layer.output_padding_size = padding_output_size_per_partition - layer.output_size_per_partition
+            device = layer.qweight.device
+
+            pad_qweight = torch.zeros(
+                            layer.input_size_per_partition,
+                            padding_output_size_per_partition // self.quant_config.pack_factor,
+                            dtype=torch.int32,
+                            device=device,
+                        )
+            pad_qzeros = torch.zeros(
+                            layer.num_groups,
+                            padding_output_size_per_partition // self.quant_config.pack_factor,
+                            dtype=torch.int32,
+                            device=device,
+                        )
+            pad_scales = torch.zeros(
+                            layer.num_groups,
+                            padding_output_size_per_partition,
+                            dtype=layer.scales.data.dtype,
+                            device=device,
+                        )
+            pad_qweight[..., :layer.output_size_per_partition // self.quant_config.pack_factor] = layer.qweight.data
+            pad_qzeros[..., :layer.output_size_per_partition // self.quant_config.pack_factor] = layer.qzeros.data
+            pad_scales[..., :layer.output_size_per_partition] = layer.scales.data
+            replace_parameter(layer, "qweight", pad_qweight)
+            replace_parameter(layer, "qzeros", pad_qzeros)
+            replace_parameter(layer, "scales", pad_scales)
+        return
+        # TODO(gyf) Marlin format is not support for now..
+        device = layer.qweight.device
+        layer.qweight = torch.nn.Parameter(layer.qweight.data, requires_grad=False)
+        layer.qzeros = torch.nn.Parameter(layer.qzeros.data, requires_grad=False)
+        layer.scales = torch.nn.Parameter(layer.scales.data, requires_grad=False)
+
+        # Allocate marlin workspace
+        layer.workspace = marlin_make_workspace_new(device)
+
+        # Repack weights from AWQ format to marlin format.
+        marlin_qweight = ops.awq_marlin_repack(
+            layer.qweight,
+            size_k=layer.input_size_per_partition,
+            size_n=layer.output_size_per_partition,
+            num_bits=self.quant_config.quant_type.size_bits,
+        )
+        replace_parameter(layer, "qweight", marlin_qweight)
+
+        # Permute scales from AWQ format to marlin format.
+        marlin_scales = marlin_permute_scales(
+            layer.scales,
+            size_k=layer.input_size_per_partition,
+            size_n=layer.output_size_per_partition,
+            group_size=self.quant_config.group_size,
+        )
+        replace_parameter(layer, "scales", marlin_scales)
+
+        # Permute zero-points from AWQ format to marlin format.
+        marlin_zp = awq_to_marlin_zero_points(
+            layer.qzeros,
+            size_k=layer.num_groups,
+            size_n=layer.output_size_per_partition,
+            num_bits=self.quant_config.quant_type.size_bits,
+        )
+        replace_parameter(layer, "qzeros", marlin_zp)
+
+        # Not-used
+        layer.g_idx = marlin_make_empty_g_idx(device)
+        layer.g_idx_sort_indices = marlin_make_empty_g_idx(device)
+
+        if hasattr(layer, "bias") and layer.bias is not None:
+            layer.bias.data = marlin_permute_bias(layer.bias)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # return apply_awq_marlin_linear(
+        #     input=x,
+        #     weight=layer.qweight,
+        #     weight_scale=layer.scales,
+        #     weight_zp=layer.qzeros,
+        #     g_idx=layer.g_idx,
+        #     g_idx_sort_indices=layer.g_idx_sort_indices,
+        #     workspace=layer.workspace,
+        #     quant_type=self.quant_config.quant_type,
+        #     output_size_per_partition=layer.output_size_per_partition,
+        #     input_size_per_partition=layer.input_size_per_partition,
+        #     bias=bias,
+        # )
+        # TODO use awq kernel temporarily..
+        qweight = layer.qweight
+        scales = layer.scales
+        qzeros = layer.qzeros
+        pack_factor = self.quant_config.pack_factor
+        out_shape = (x.shape[:-1] + (qweight.shape[-1] * pack_factor, ))
+        reshaped_x = x.reshape(-1, x.shape[-1])
+
+        out = ops.awq_gemm(reshaped_x, qweight, scales, qzeros,
+                            pack_factor, group_size=self.quant_config.group_size)
+        if bias is not None:
+            out.add_(bias)
+        return out.reshape(out_shape)
+
+
+class AWQMoEMethod(FusedMoEMethodBase):
+    def __init__(
+        self,
+        quant_config: AWQMarlinConfig,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        if self.quant_config.weight_bits != 4:
+            raise ValueError("AWQMoEMethod only supports 4bit now.")
+        self.quant_type = scalar_types.uint4
+        self.use_marlin = True
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        extra_weight_attrs.update(
+            {
+                "is_transposed": True,
+                "quant_method": FusedMoeWeightScaleSupported.GROUP.value,
+            }
+        )
+
+        w13_qweight = Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                2 * intermediate_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qweight", w13_qweight)
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+
+        w2_qweight = Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                hidden_size // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qweight", w2_qweight)
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+
+        num_groups_w13 = hidden_size // self.quant_config.group_size
+        num_groups_w2 = intermediate_size_per_partition // self.quant_config.group_size
+
+        # WEIGHT_SCALES
+        # Allocate 2 scales for w1 and w3 respectively.
+        w13_scales = Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w13,
+                intermediate_size_per_partition * 2,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scales", w13_scales)
+        set_weight_attrs(w13_scales, extra_weight_attrs)
+
+        w2_scales = Parameter(
+            torch.empty(num_experts, num_groups_w2, hidden_size, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scales", w2_scales)
+        set_weight_attrs(w2_scales, extra_weight_attrs)
+
+        # WEIGHT_ZERO_POINT
+        # Allocate 2 zero points for w1 and w3 respectively.
+        w13_qzeros = Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w13,
+                2 * intermediate_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qzeros", w13_qzeros)
+        set_weight_attrs(w13_qzeros, extra_weight_attrs)
+
+        w2_qzeros = Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w2,
+                hidden_size // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qzeros", w2_qzeros)
+        set_weight_attrs(w2_qzeros, extra_weight_attrs)
+
+        device = layer.w13_qweight.device
+        layer.workspace = marlin_make_workspace_new(device, 4)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        return
+        # TODO(gyf) Marlin format is not support for now..
+        num_experts = layer.w13_qweight.shape[0]
+        device = layer.w13_qweight.device
+
+        layer.w13_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+            requires_grad=False,
+        )
+        layer.w2_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+            requires_grad=False,
+        )
+
+        marlin_w13_qweight = ops.awq_marlin_moe_repack(
+            layer.w13_qweight,
+            layer.w13_g_idx_sort_indices,
+            size_k=layer.w13_qweight.shape[1],
+            size_n=layer.w13_qweight.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w13_qweight", marlin_w13_qweight)
+
+        marlin_w2_qweight = ops.awq_marlin_moe_repack(
+            layer.w2_qweight,
+            layer.w2_g_idx_sort_indices,
+            size_k=layer.w2_qweight.shape[1],
+            size_n=layer.w2_qweight.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w2_qweight", marlin_w2_qweight)
+
+        # Why does this take the intermediate size for size_k?
+        marlin_w13_scales = marlin_moe_permute_scales(
+            s=layer.w13_scales,
+            size_k=layer.intermediate_size_per_partition,
+            size_n=layer.w13_scales.shape[2],
+            group_size=self.quant_config.group_size,
+        )
+
+        replace_parameter(layer, "w13_scales", marlin_w13_scales)
+
+        marlin_w2_scales = marlin_moe_permute_scales(
+            s=layer.w2_scales,
+            size_k=layer.intermediate_size_per_partition,
+            size_n=layer.w2_scales.shape[2],
+            group_size=self.quant_config.group_size,
+        )
+        replace_parameter(layer, "w2_scales", marlin_w2_scales)
+
+        marlin_w13_zp = moe_awq_to_marlin_zero_points(
+            layer.w13_qzeros,
+            size_k=layer.w13_qzeros.shape[1],
+            size_n=layer.w13_qzeros.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w13_qzeros", marlin_w13_zp)
+
+        marlin_w2_zp = moe_awq_to_marlin_zero_points(
+            layer.w2_qzeros,
+            size_k=layer.w2_qzeros.shape[1],
+            size_n=layer.w2_qzeros.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w2_qzeros", marlin_w2_zp)
+
+        if hasattr(layer, "w13_bias") and layer.w13_bias is not None:
+            layer.w13_bias.data = marlin_permute_bias(layer.w13_bias)
+
+        if hasattr(layer, "w2_bias") and layer.w2_bias is not None:
+            layer.w2_bias.data = marlin_permute_bias(layer.w2_bias)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `AWQMoEMethod` yet.")
+
+        assert activation == "silu", "Only SiLU activation is supported."
+        use_ep = expert_map is not None
+        attn_metadata = get_forward_context().attn_metadata
+        if attn_metadata:
+            if isinstance(attn_metadata, dict):
+                only_decode = (use_ep == False and all(t.num_decodes > 0 and t.num_prefills ==0 for t in list(attn_metadata.values())))
+            else:
+                only_decode = use_ep == False and attn_metadata.num_decodes > 0 and attn_metadata.num_prefills == 0
+        else:
+            only_decode = False
+
+
+
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+        if apply_router_weight_on_input:
+            raise NotImplementedError(
+                "Apply router weight on input is not supported for"
+                "fused Marlin MoE method.")
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype)
+        
+        num_tokens, num_experts = router_logits.shape
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+
+        # expand + reorder
+        # TODO use kernel
+        expand_hidden_states = ixfops.moe_expand_input(
+            hidden_states=x,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+        )
+
+        # w4a16 group gemm 1
+        # pt_output_1: (expand_tokens, 2n) dtype
+        if only_decode:
+            pt_output_1 = ixfops.moe_w4a16_group_gemv(
+                input=expand_hidden_states,
+                weight=layer.w13_qweight,
+                w_scales=layer.w13_scales,
+                quant_type="awq",
+                w_zeros=layer.w13_qzeros,
+                group_size=self.quant_config.group_size,
+                dst_to_src=None,
+                format="NN",
+                tokens_per_experts_gpu=expert_sizes_gpu,
+            )
+
+            # act
+            pt_output_2 = ixfops.silu_and_mul(pt_output_1)
+
+            pt_output_3 = ixfops.moe_w4a16_group_gemv(
+                    input=pt_output_2,
+                    weight=layer.w2_qweight,
+                    w_scales=layer.w2_scales,
+                    quant_type="awq",
+                    w_zeros=layer.w2_qzeros,
+                    group_size=self.quant_config.group_size,
+                    dst_to_src=sorted_token_ids,
+                    format="NN",
+                    tokens_per_experts_gpu=expert_sizes_gpu,
+                )
+
+                # mul + reduce_sum
+                # final_hidden_states: (num_tokens, k)
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weights,
+                scaling_factor=routed_scaling_factor
+            )
+
+        else:
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+            pt_output_1 = ixfops.moe_w4a16_group_gemm(
+                input=expand_hidden_states,
+                weight=layer.w13_qweight,
+                w_scales=layer.w13_scales,
+                quant_type="awq",
+                tokens_per_experts=expert_sizes_cpu,
+                w_zeros=layer.w13_qzeros,
+                group_size=self.quant_config.group_size,
+                dst_to_src=None,
+                format="NN",
+                tokens_per_experts_gpu=expert_sizes_gpu,
+            )
+
+            # act
+            pt_output_2 = ixfops.silu_and_mul(pt_output_1)
+
+            # w4a16 group gemm 2 + reorder
+            # pt_output_3: (expand_tokens, k) dtype
+            if use_ep:
+                pt_output_3 = torch.empty(
+                    (num_tokens * top_k, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+
+                ixfops.moe_w4a16_group_gemm(
+                    input=pt_output_2,
+                    weight=layer.w2_qweight,
+                    w_scales=layer.w2_scales,
+                    quant_type="awq",
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_zeros=layer.w2_qzeros,
+                    group_size=self.quant_config.group_size,
+                    dst_to_src=sorted_token_ids,
+                    format="NN",
+                    output=pt_output_3,
+                    tokens_per_experts_gpu=expert_sizes_gpu,
+                )
+
+                reduce_mask = src_to_dst == -1
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weights,
+                    scaling_factor=routed_scaling_factor,
+                    mask=reduce_mask,
+                )
+            else:
+                pt_output_3 = ixfops.moe_w4a16_group_gemm(
+                    input=pt_output_2,
+                    weight=layer.w2_qweight,
+                    w_scales=layer.w2_scales,
+                    quant_type="awq",
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_zeros=layer.w2_qzeros,
+                    group_size=self.quant_config.group_size,
+                    dst_to_src=sorted_token_ids,
+                    format="NN",
+                    tokens_per_experts_gpu=expert_sizes_gpu,
+                )
+
+                # mul + reduce_sum
+                # final_hidden_states: (num_tokens, k)
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weights,
+                    scaling_factor=routed_scaling_factor
+                )
+        return final_hidden_states
+        # return torch.ops.vllm.fused_marlin_moe(
+        #     x,
+        #     layer.w13_qweight,
+        #     layer.w2_qweight,
+        #     layer.w13_scales,
+        #     layer.w2_scales,
+        #     router_logits,
+        #     topk_weights,
+        #     topk_ids,
+        #     w1_zeros=layer.w13_qzeros,
+        #     w2_zeros=layer.w2_qzeros,
+        #     num_bits=self.quant_config.weight_bits,
+        # )
diff --git a/model_executor/layers/quantization/awq_triton.py b/model_executor/layers/quantization/awq_triton.py
new file mode 100644
index 0000000..67b4dbb
--- /dev/null
+++ b/model_executor/layers/quantization/awq_triton.py
@@ -0,0 +1,337 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+AWQ_TRITON_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+
+@triton.jit
+def awq_dequantize_kernel(
+    qweight_ptr,  # quantized matrix
+    scales_ptr,  # scales, per group
+    zeros_ptr,  # zeros, per group
+    group_size,  # Should always be one of the supported group sizes
+    result_ptr,  # Output matrix
+    num_cols,  # input num cols in qweight
+    num_rows,  # input num rows in qweight
+    BLOCK_SIZE_X: tl.constexpr,
+    BLOCK_SIZE_Y: tl.constexpr,
+):
+    # Set up the pids.
+    pid_x = tl.program_id(axis=0)
+    pid_y = tl.program_id(axis=1)
+
+    # Compute offsets and masks for qweight_ptr.
+    offsets_y = pid_y * BLOCK_SIZE_Y + tl.arange(0, BLOCK_SIZE_Y)
+    offsets_x = pid_x * BLOCK_SIZE_X + tl.arange(0, BLOCK_SIZE_X)
+    offsets = num_cols * offsets_y[:, None] + offsets_x[None, :]
+
+    masks_y = offsets_y < num_rows
+    masks_x = offsets_x < num_cols
+
+    masks = masks_y[:, None] & masks_x[None, :]
+
+    # Compute offsets and masks for result output ptr.
+    result_offsets_y = pid_y * BLOCK_SIZE_Y + tl.arange(0, BLOCK_SIZE_Y)
+    result_offsets_x = pid_x * BLOCK_SIZE_X * 8 + tl.arange(0, BLOCK_SIZE_X * 8)
+    result_offsets = (
+        8 * num_cols * result_offsets_y[:, None] + result_offsets_x[None, :]
+    )
+
+    result_masks_y = result_offsets_y < num_rows
+    result_masks_x = result_offsets_x < num_cols * 8
+    result_masks = result_masks_y[:, None] & result_masks_x[None, :]
+
+    # Load the weights.
+    iweights = tl.load(qweight_ptr + offsets, masks, 0.0)
+    iweights = tl.interleave(iweights, iweights)
+    iweights = tl.interleave(iweights, iweights)
+    iweights = tl.interleave(iweights, iweights)
+
+    # Create reverse AWQ order as tensor: [0, 4, 1, 5, 2, 6, 3, 7]
+    # that will map given indices to the correct order.
+    reverse_awq_order_tensor = (
+        (tl.arange(0, 2) * 4)[None, :] + tl.arange(0, 4)[:, None]
+    ).reshape(8)
+
+    # Use this to compute a set of shifts that can be used to unpack and
+    # reorder the values in iweights and zeros.
+    shifts = reverse_awq_order_tensor * 4
+    shifts = tl.broadcast_to(shifts[None, :], (BLOCK_SIZE_Y * BLOCK_SIZE_X, 8))
+    shifts = tl.reshape(shifts, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Unpack and reorder: shift out the correct 4-bit value and mask.
+    iweights = (iweights >> shifts) & 0xF
+
+    # Compute zero offsets and masks.
+    zero_offsets_y = pid_y * BLOCK_SIZE_Y // group_size + tl.arange(0, 1)
+    zero_offsets_x = pid_x * BLOCK_SIZE_X + tl.arange(0, BLOCK_SIZE_X)
+    zero_offsets = num_cols * zero_offsets_y[:, None] + zero_offsets_x[None, :]
+
+    zero_masks_y = zero_offsets_y < num_rows // group_size
+    zero_masks_x = zero_offsets_x < num_cols
+    zero_masks = zero_masks_y[:, None] & zero_masks_x[None, :]
+
+    # Load the zeros.
+    zeros = tl.load(zeros_ptr + zero_offsets, zero_masks, 0.0)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.broadcast_to(zeros, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Unpack and reorder: shift out the correct 4-bit value and mask.
+    zeros = (zeros >> shifts) & 0xF
+
+    # Compute scale offsets and masks.
+    scale_offsets_y = pid_y * BLOCK_SIZE_Y // group_size + tl.arange(0, 1)
+    scale_offsets_x = pid_x * BLOCK_SIZE_X * 8 + tl.arange(0, BLOCK_SIZE_X * 8)
+    scale_offsets = num_cols * 8 * scale_offsets_y[:, None] + scale_offsets_x[None, :]
+    scale_masks_y = scale_offsets_y < num_rows // group_size
+    scale_masks_x = scale_offsets_x < num_cols * 8
+    scale_masks = scale_masks_y[:, None] & scale_masks_x[None, :]
+
+    # Load the scales.
+    scales = tl.load(scales_ptr + scale_offsets, scale_masks, 0.0)
+    scales = tl.broadcast_to(scales, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Dequantize.
+    iweights = (iweights - zeros) * scales
+    iweights = iweights.to(result_ptr.type.element_ty)
+
+    # Finally, store.
+    tl.store(result_ptr + result_offsets, iweights, result_masks)
+
+
+@triton.jit
+def awq_gemm_kernel(
+    a_ptr,
+    b_ptr,
+    c_ptr,
+    zeros_ptr,
+    scales_ptr,
+    M,
+    N,
+    K,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(1)
+
+    # NOTE: This doesn't work in TRITON_INTERPRET=1 mode.  Use below instead.
+    # num_pid_n = (N + BLOCK_SIZE_N - 1) // BLOCK_SIZE_N
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    pid_m = pid // num_pid_n
+    pid_n = pid % num_pid_n
+
+    accumulator_dtype = c_ptr.type.element_ty
+
+    # NOTE: This doesn't work in TRITON_INTERPRET=1 mode.  Use below instead.
+    # accumulator = tl.arange(0, BLOCK_SIZE_N)
+    # accumulator = tl.broadcast_to(accumulator[None, :],
+    # (BLOCK_SIZE_M, BLOCK_SIZE_N))
+    # accumulator = accumulator & 0x0
+    # accumulator = accumulator.to(accumulator_dtype)
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=accumulator_dtype)
+
+    # Create reverse AWQ order as tensor: [0, 4, 1, 5, 2, 6, 3, 7]
+    # that will map given indices to the correct order.
+    reverse_awq_order_tensor = (
+        (tl.arange(0, 2) * 4)[None, :] + tl.arange(0, 4)[:, None]
+    ).reshape(8)
+
+    # Create the necessary shifts to use to unpack.
+    shifts = reverse_awq_order_tensor * 4
+    shifts = tl.broadcast_to(shifts[None, :], (BLOCK_SIZE_K * (BLOCK_SIZE_N // 8), 8))
+    shifts = tl.reshape(shifts, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+    # Offsets and masks.
+    offsets_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    masks_am = offsets_am < M
+
+    offsets_bn = pid_n * (BLOCK_SIZE_N // 8) + tl.arange(0, BLOCK_SIZE_N // 8)
+    masks_bn = offsets_bn < N // 8
+
+    offsets_zn = pid_n * (BLOCK_SIZE_N // 8) + tl.arange(0, BLOCK_SIZE_N // 8)
+    masks_zn = offsets_zn < N // 8
+
+    offsets_sn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    masks_sn = offsets_sn < N
+
+    offsets_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offsets_a = K * offsets_am[:, None] + offsets_k[None, :]
+    offsets_b = (N // 8) * offsets_k[:, None] + offsets_bn[None, :]
+
+    a_ptrs = a_ptr + offsets_a
+    b_ptrs = b_ptr + offsets_b
+
+    # NOTE: Use this in TRITON_INTERPRET=1 mode instead of tl.cdiv
+    # block_offset = BLOCK_SIZE_K * SPLIT_K
+    # for k in range(0, (K + block_offset - 1) // (block_offset)):
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        masks_k = offsets_k < K
+        masks_a = masks_am[:, None] & masks_k[None, :]
+        a = tl.load(a_ptrs, mask=masks_a, other=0.0)
+
+        masks_b = masks_k[:, None] & masks_bn[None, :]
+        b = tl.load(b_ptrs, mask=masks_b, other=0.0)
+        b = tl.interleave(b, b)
+        b = tl.interleave(b, b)
+        b = tl.interleave(b, b)
+
+        # Dequantize b.
+        offsets_szk = (
+            BLOCK_SIZE_K * SPLIT_K * k + pid_z * BLOCK_SIZE_K
+        ) // group_size + tl.arange(0, 1)
+        offsets_z = (N // 8) * offsets_szk[:, None] + offsets_zn[None, :]
+        masks_zk = offsets_szk < K // group_size
+        masks_z = masks_zk[:, None] & masks_zn[None, :]
+        zeros_ptrs = zeros_ptr + offsets_z
+        zeros = tl.load(zeros_ptrs, mask=masks_z, other=0.0)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.broadcast_to(zeros, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+        offsets_s = N * offsets_szk[:, None] + offsets_sn[None, :]
+        masks_sk = offsets_szk < K // group_size
+        masks_s = masks_sk[:, None] & masks_sn[None, :]
+        scales_ptrs = scales_ptr + offsets_s
+        scales = tl.load(scales_ptrs, mask=masks_s, other=0.0)
+        scales = tl.broadcast_to(scales, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+        b = (b >> shifts) & 0xF
+        zeros = (zeros >> shifts) & 0xF
+        b = (b - zeros) * scales
+        b = b.to(c_ptr.type.element_ty)
+
+        # Accumulate results.
+        accumulator = tl.dot(a, b, accumulator, out_dtype=accumulator_dtype)
+
+        offsets_k += BLOCK_SIZE_K * SPLIT_K
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K
+        b_ptrs += BLOCK_SIZE_K * SPLIT_K * (N // 8)
+
+    c = accumulator.to(c_ptr.type.element_ty)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + pid_z * N * M + N * offs_cm[:, None] + offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+# qweights - [K     , M // 8], int32
+# scales   - [K // G, M     ], float16
+# zeros    - [K // G, M // 8], int32
+def awq_dequantize_triton(
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor,
+    block_size_x: int = 32,
+    block_size_y: int = 32,
+) -> torch.Tensor:
+    K = qweight.shape[0]
+    M = scales.shape[1]
+    group_size = qweight.shape[0] // scales.shape[0]
+
+    assert K > 0 and M > 0
+    assert scales.shape[0] == K // group_size and scales.shape[1] == M
+    assert zeros.shape[0] == K // group_size and zeros.shape[1] == M // 8
+    assert group_size <= K
+    assert group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES or group_size == K
+
+    # Result tensor:
+    # number of rows = same as input tensor
+    # number of cols = 8 x input tensor num cols
+    result = torch.empty(
+        qweight.shape[0],
+        qweight.shape[1] * 8,
+        device=qweight.device,
+        dtype=scales.dtype,
+    )
+
+    Y = qweight.shape[0]  # num rows
+    X = qweight.shape[1]  # num cols
+
+    grid = lambda META: (
+        triton.cdiv(X, META["BLOCK_SIZE_X"]),
+        triton.cdiv(Y, META["BLOCK_SIZE_Y"]),
+    )
+    awq_dequantize_kernel[grid](
+        qweight,
+        scales,
+        zeros,
+        group_size,
+        result,
+        X,
+        Y,
+        BLOCK_SIZE_X=block_size_x,
+        BLOCK_SIZE_Y=block_size_y,
+    )
+
+    return result
+
+
+# input   - [M, K]
+# qweight - [K, N // 8]
+# qzeros  - [K // G, N // 8]
+# scales  - [K // G, N]
+# split_k_iters - parallelism along K-dimension, int, power of 2.
+def awq_gemm_triton(
+    input: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    split_k_iters: int,
+    block_size_m: int = 32,
+    block_size_n: int = 32,
+    block_size_k: int = 32,
+) -> torch.Tensor:
+    M, K = input.shape
+    N = qweight.shape[1] * 8
+    group_size = qweight.shape[0] // qzeros.shape[0]
+
+    assert N > 0 and K > 0 and M > 0
+    assert qweight.shape[0] == K and qweight.shape[1] == N // 8
+    assert qzeros.shape[0] == K // group_size and qzeros.shape[1] == N // 8
+    assert scales.shape[0] == K // group_size and scales.shape[1] == N
+    assert split_k_iters & (split_k_iters - 1) == 0 and split_k_iters != 0
+    assert split_k_iters <= 32
+    assert group_size <= K
+    assert group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES or group_size == K
+
+    grid = lambda META: (
+        triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        split_k_iters,
+    )
+
+    result = torch.zeros((split_k_iters, M, N), dtype=scales.dtype, device=input.device)
+
+    # A = input, B = qweight, C = result
+    # A = M x K, B = K x N, C = M x N
+    awq_gemm_kernel[grid](
+        input,
+        qweight,
+        result,
+        qzeros,
+        scales,
+        M,
+        N,
+        K,
+        group_size,
+        BLOCK_SIZE_M=block_size_m,
+        BLOCK_SIZE_N=block_size_n,
+        BLOCK_SIZE_K=block_size_k,
+        SPLIT_K=split_k_iters,
+    )
+
+    result = result.sum(0)
+
+    return result
diff --git a/model_executor/layers/quantization/base_config.py b/model_executor/layers/quantization/base_config.py
new file mode 100644
index 0000000..c8a8424
--- /dev/null
+++ b/model_executor/layers/quantization/base_config.py
@@ -0,0 +1,170 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import inspect
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+import torch
+from torch import nn
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.model_executor.models.utils import WeightsMapper
+else:
+    QuantizationMethods = str
+
+
+class QuantizeMethodBase(ABC):
+    """Base class for different quantized methods."""
+
+    @abstractmethod
+    def create_weights(
+        self, layer: torch.nn.Module, *weight_args, **extra_weight_attrs
+    ):
+        """Create weights for a layer.
+
+        The weights will be set as attributes of the layer."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply(self, layer: torch.nn.Module, *args, **kwargs) -> torch.Tensor:
+        """Apply the weights in layer to the input tensor.
+
+        Expects create_weights to have been called before on the layer."""
+        raise NotImplementedError
+
+    # Not required functions
+    def embedding(self, layer: torch.nn.Module, *args, **kwargs) -> torch.Tensor:
+        """Gather embeddings in the layer based on indices in the input tensor.
+
+        Expects create_weights to have been called before on the layer."""
+        raise NotImplementedError
+
+    def process_weights_after_loading(self, layer: nn.Module) -> None:
+        """Process the weight after loading.
+
+        This can be used for example, to transpose weights for computation.
+        """
+        return
+
+
+def method_has_implemented_embedding(method_class: type[QuantizeMethodBase]) -> bool:
+    """
+    Not all quant methods have embedding implemented, so we need to check that
+    it exists for our given method. We check this by making sure the function
+    has been changed from the base implementation.
+    """
+    base_embedding = inspect.getattr_static(QuantizeMethodBase, "embedding", None)
+    class_embedding = inspect.getattr_static(method_class, "embedding", None)
+
+    return class_embedding is not None and class_embedding is not base_embedding
+
+
+class QuantizationConfig(ABC):
+    """Base class for quantization configs."""
+
+    def __init__(self):
+        super().__init__()
+        # mapping is updated by models as they initialize
+        self.packed_modules_mapping: dict[str, list[str]] = dict()
+
+    @abstractmethod
+    def get_name(self) -> QuantizationMethods:
+        """Name of the quantization method."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        """List of supported activation dtypes."""
+        raise NotImplementedError
+
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        """Minimum GPU capability to support the quantization method.
+
+        E.g., 70 for Volta, 75 for Turing, 80 for Ampere.
+        This requirement is due to the custom CUDA kernels used by the
+        quantization method.
+        """
+        raise NotImplementedError
+
+    @staticmethod
+    @abstractmethod
+    def get_config_filenames() -> list[str]:
+        """List of filenames to search for in the model directory."""
+        raise NotImplementedError
+
+    @classmethod
+    @abstractmethod
+    def from_config(cls, config: dict[str, Any]) -> "QuantizationConfig":
+        """Create a config class from the model's quantization config."""
+        raise NotImplementedError
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        """
+        Detects if this quantization method can support a given checkpoint
+        format by overriding the user specified quantization method --
+        this method should only be overwritten by subclasses in exceptional
+        circumstances
+        """
+        return None
+
+    @staticmethod
+    def get_from_keys(config: dict[str, Any], keys: list[str]) -> Any:
+        """Get a value from the model's quantization config."""
+        for key in keys:
+            if key in config:
+                return config[key]
+        raise ValueError(
+            f"Cannot find any of {keys} in the model's quantization config."
+        )
+
+    @staticmethod
+    def get_from_keys_or(config: dict[str, Any], keys: list[str], default: Any) -> Any:
+        """Get an optional value from the model's quantization config."""
+        try:
+            return QuantizationConfig.get_from_keys(config, keys)
+        except ValueError:
+            return default
+
+    @abstractmethod
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> QuantizeMethodBase | None:
+        """Get the quantize method to use for the quantized layer.
+
+        Args:
+            layer: The layer for the quant method.
+            prefix: The full name of the layer in the state dict
+        Returns:
+            The quantize method. None if the given layer doesn't support quant
+            method.
+        """
+        raise NotImplementedError
+
+    def get_cache_scale(self, name: str) -> str | None:
+        return None
+
+    def apply_vllm_mapper(  # noqa: B027
+        self, hf_to_vllm_mapper: "WeightsMapper"
+    ):
+        """
+        Interface for models to update module names referenced in
+        quantization configs in order to reflect the vllm model structure
+
+        :param hf_to_vllm_mapper: maps from hf model structure (the assumed
+            structure of the qconfig) to vllm model structure
+        """
+        # TODO (@kylesayrs): add implementations for all subclasses
+        pass
+
+    def maybe_update_config(self, model_name: str):  # noqa: B027
+        """
+        Interface to update values after config initialization.
+        """
+        pass
diff --git a/model_executor/layers/quantization/bitblas.py b/model_executor/layers/quantization/bitblas.py
new file mode 100644
index 0000000..be15f20
--- /dev/null
+++ b/model_executor/layers/quantization/bitblas.py
@@ -0,0 +1,502 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any, Optional
+
+import torch
+from packaging import version
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
+    BITBLAS_OPTIMIZE_FEATURES,
+    BITBLAS_SUPPORTED_NUM_BITS,
+    BITBLAS_SUPPORTED_SYM,
+    MINIMUM_BITBLAS_VERSION,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.model_executor.utils import set_weight_attrs
+
+logger = init_logger(__name__)
+
+
+class BitBLASConfig(QuantizationConfig):
+    """Config class for BitBLAS.
+
+    Reference: https://github.com/Microsoft/BitBLAS
+    """
+
+    TORCH_DTYPE = torch.float16
+    STORAGE_DTYPE = "int8"  # assume int8 storage
+    TORCH_STORAGE_DTYPE = getattr(torch, STORAGE_DTYPE)
+    # "original" or "rescale" or "quantized",
+    # gptq_with_bitblas prefer "quantized implementation"
+    ZEROS_MODE = "quantized"
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int | None,
+        desc_act: bool | None,
+        is_sym: bool | None,
+        quant_method: str | None,
+        lm_head_quantized: bool,
+    ) -> None:
+        try:
+            import bitblas
+
+            if version.parse(bitblas.__version__) < version.parse(
+                MINIMUM_BITBLAS_VERSION
+            ):
+                raise ImportError(
+                    "bitblas version is wrong. Please "
+                    f"install bitblas>={MINIMUM_BITBLAS_VERSION}"
+                )
+        except ImportError as e:
+            bitblas_import_exception = e
+            raise ValueError(
+                "Trying to use the bitblas backend, but could not import"
+                f"with the following error: {bitblas_import_exception}. "
+                "Please install bitblas through the following command: "
+                f"`pip install bitblas>={MINIMUM_BITBLAS_VERSION}`"
+            ) from bitblas_import_exception
+
+        if desc_act and group_size == -1:
+            # In this case, act_order == True is the same as act_order == False
+            # (since we have only one group per output channel)
+            desc_act = False
+
+        super().__init__()
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.desc_act = desc_act
+        self.is_sym = is_sym
+        self.quant_method = quant_method
+        self.lm_head_quantized = lm_head_quantized
+
+        # Verify
+        if self.weight_bits not in BITBLAS_SUPPORTED_NUM_BITS:
+            raise ValueError(
+                f"BitBLAS does not support weight_bits = {self.weight_bits}. "
+                f"Only weight_bits = {BITBLAS_SUPPORTED_NUM_BITS} "
+                "are supported."
+            )
+
+        if self.is_sym not in BITBLAS_SUPPORTED_SYM:
+            raise ValueError(
+                f"BitBLAS does not support is_sym = {self.is_sym}. "
+                f"Only sym = {BITBLAS_SUPPORTED_SYM} are supported."
+            )
+
+        storage_dtype = self.STORAGE_DTYPE
+        storage_nbit = int("".join(c for c in storage_dtype if c.isdigit()))
+
+        self.storage_dtype = storage_dtype
+        self.storage_torch_dtype = self.TORCH_STORAGE_DTYPE
+        # 4 Bits packed into 32 bit datatype.
+        self.pack_factor = storage_nbit // weight_bits
+        self.nbits = weight_bits
+
+        # Zeros type for the quantized weights.
+        self.zeros_mode = self.ZEROS_MODE
+
+    def __repr__(self) -> str:
+        return (
+            f"BitBLASConfig(weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size}, "
+            f"desc_act={self.desc_act}, "
+            f"is_sym={self.is_sym}, "
+            f"quant_method={self.quant_method})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "bitblas"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    # Need to figure it out
+    def get_min_capability(cls) -> int:
+        return 70
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @staticmethod
+    def get_from_keys(
+        config: dict[str, Any], keys: list[str], default: Any = None
+    ) -> Any:
+        """Get a value from the model's quantization config."""
+        for key in keys:
+            if key in config:
+                return config[key]
+        return default
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "BitBLASConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"], -1)
+        desc_act = cls.get_from_keys(config, ["desc_act"], False)
+        is_sym = cls.get_from_keys(config, ["sym"], False)
+        quant_method = cls.get_from_keys(config, ["quant_method"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        return cls(
+            weight_bits, group_size, desc_act, is_sym, quant_method, lm_head_quantized
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        # compat: autogptq >=0.8.0 use checkpoint_format: str
+        # compat: autogptq <=0.7.1 is_bitblas_format: bool
+        is_bitblas_format = hf_quant_cfg.get(
+            "checkpoint_format"
+        ) == "bitblas" or hf_quant_cfg.get("is_bitblas_format", False)
+
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "gptq" or user_quant == "bitblas"
+        )
+
+        if is_bitblas_format and is_valid_user_quant:
+            msg = "The model is serialized in {} format. Using {} kernel.".format(
+                cls.get_name(), cls.get_name()
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["BitBLASLinearMethod"]:
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            return BitBLASLinearMethod(self)
+        return None
+
+
+class BitBLASLinearMethod(LinearMethodBase):
+    """Linear method for BitBLAS.
+
+    Args:
+        quant_config: The BitBLAS quantization config.
+    """
+
+    # USE BITBLAS_OPTIMIZE_FEATURES_CONTIGUOUS
+    # Instead of BITBLAS_OPTIMIZE_FEATURES
+    # If you want to high contiguous batching
+    # performance
+    OPT_FEATURES = BITBLAS_OPTIMIZE_FEATURES
+    ENABLE_TUNING = True
+    BITBLAS_DTYPES = {
+        torch.float32: "float32",
+        torch.float16: "float16",
+        torch.bfloat16: "bfloat16",
+        torch.half: "float16",
+        torch.int8: "int8",
+    }
+
+    def __init__(self, quant_config: BitBLASConfig):
+        self.quant_config = quant_config
+
+    def create_weights_gptq(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        """Creates quantized weights for use in linear operations.
+
+        The function initializes and returns a dictionary containing quantized
+        weights, scales, and zeros
+        for performing quantized matrix multiplication operations.
+
+        Args:
+            input_size_per_partition: The size of the input partition.
+            output_partition_sizes: List of output partition sizes.
+            input_size: The total size of the input (unused).
+            output_size: The total size of the output (unused).
+            params_dtype:
+                The data type of the parameters (expected to be torch.float16).
+
+        Returns:
+            A dictionary containing the quantized weights ('qweight'),
+            scales ('scales'), and zeros ('zeros').
+
+        Raises:
+            ValueError: If `params_dtype` is not `torch.float16` or if the input
+                size per partition is not divisible by the group size
+                in `quant_config`.
+        """
+        del input_size, output_size  # Unused arguments.
+        weight_loader = extra_weight_attrs["weight_loader"]
+
+        if params_dtype not in self.quant_config.get_supported_act_dtypes():
+            raise ValueError(
+                f"Parameter data type must be torch.float16, but got {params_dtype}"
+            )
+        group_size = self.quant_config.group_size
+        if group_size is None:
+            group_size = -1
+        # Validate output_size_per_partition
+        output_size_per_partition = sum(output_partition_sizes)
+        if group_size != -1 and input_size_per_partition % group_size != 0:
+            raise ValueError(
+                f"Input size per partition ({input_size_per_partition}) must "
+                f"be divisible by group size ({group_size})."
+            )
+
+        # Initialize or retrieve the BitBLAS matrix multiplication operator.
+        self._configure_bitblas_matmul(
+            input_size_per_partition,
+            output_size_per_partition,
+            params_dtype=params_dtype,
+            enable_tuning=self.ENABLE_TUNING,
+            bias=False,
+            layout="nt",
+            bits=self.quant_config.weight_bits,
+        )
+
+        # Initialize quantized weights with dimensions
+        # Quantized 4Bit weights packed.
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                self.bitblas_matmul.retrieve_weight_shape(),
+                device="cuda",
+                dtype=self.quant_config.storage_torch_dtype,
+                requires_grad=False,
+            ),
+            input_dim=1,
+            output_dim=0,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            bitblas_tile_size=(
+                self.bitblas_matmul.retrieve_weight_shape()[-2]
+                if self.bitblas_matmul.propagate_b
+                else None
+            ),
+            weight_loader=weight_loader,
+        )
+
+        # Compute the number of input groups for channel-wise quantization.
+        input_groups = 1 if group_size == -1 else input_size_per_partition // group_size
+
+        # Initialize scales and zeros for the quantized weights.
+        weight_scale_args = {
+            "data": torch.empty(
+                output_size_per_partition,
+                input_groups,
+                device="cuda",
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+        if input_groups == 1:
+            scales = ChannelQuantScaleParameter(output_dim=0, **weight_scale_args)
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=0, input_dim=1, **weight_scale_args
+            )
+
+        if self.quant_config.zeros_mode == "quantized":
+            zeros = PackedvLLMParameter(
+                data=torch.empty(
+                    input_groups,
+                    output_size_per_partition // self.quant_config.pack_factor,
+                    device="cuda",
+                    dtype=self.quant_config.storage_torch_dtype,
+                    requires_grad=False,
+                ),
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                weight_loader=weight_loader,
+            )
+
+        else:
+            zeros = BasevLLMParameter(
+                torch.empty(
+                    output_size_per_partition,
+                    input_groups,
+                    device="cuda",
+                    dtype=params_dtype,
+                ),
+                weight_loader=weight_loader,
+            )
+            # Set attributes to indicate how scales and zeros are applied.
+            set_weight_attrs(
+                zeros,
+                {
+                    "input_dim": None if input_groups == 1 else 1,
+                    "output_dim": 0,
+                },
+            )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("scales", scales)
+        layer.register_parameter("zeros", zeros)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        if self.quant_config.quant_method == "gptq":
+            return self.create_weights_gptq(
+                layer,
+                input_size_per_partition,
+                output_partition_sizes,
+                input_size,
+                output_size,
+                params_dtype,
+                **extra_weight_attrs,
+            )
+        else:
+            raise ValueError(
+                f"Unsupported quant_method {self.quant_config.quant_method}"
+            )
+
+    def _configure_bitblas_matmul(
+        self,
+        infeatures,
+        outfeatures,
+        params_dtype,
+        enable_tuning,
+        bias,
+        layout,
+        bits,
+        out_dtype="float16",
+    ):
+        from bitblas import MatmulConfig
+
+        bitblas_dtype = self.BITBLAS_DTYPES[params_dtype]
+
+        with_scaling = False
+        with_zeros = False
+        group_size = self.quant_config.group_size
+        zeros_mode = self.quant_config.zeros_mode
+        if self.quant_config.quant_method == "gptq":
+            with_scaling = True
+            with_zeros = True
+            W_dtype = f"uint{bits}"
+            if self.quant_config.is_sym:
+                with_zeros = False
+                W_dtype = f"int{bits}"
+        else:
+            raise ValueError(
+                f"Unsupported quant_method {self.quant_config.quant_method}"
+            )
+
+        matmul_config = MatmulConfig(
+            N=outfeatures,
+            K=infeatures,
+            A_dtype=bitblas_dtype,
+            W_dtype=W_dtype,
+            out_dtype=out_dtype,
+            accum_dtype="int32" if bitblas_dtype == "int8" else bitblas_dtype,
+            storage_dtype=self.quant_config.STORAGE_DTYPE,
+            with_scaling=with_scaling,
+            with_zeros=with_zeros,
+            group_size=group_size,
+            with_bias=bias,
+            layout=layout,
+            zeros_mode=zeros_mode,
+        )
+        self.bitblas_matmul = self._get_or_create_bitblas_operator(
+            matmul_config, enable_tuning
+        )
+
+    def _get_or_create_bitblas_operator(self, config, enable_tuning):
+        from bitblas import Matmul, auto_detect_nvidia_target
+        from bitblas.cache import get_database_path, global_operator_cache
+
+        BITBLAS_DATABASE_PATH = get_database_path()
+        BITBLAS_TARGET = auto_detect_nvidia_target()
+        if global_operator_cache.size() == 0:
+            global_operator_cache.load_from_database(
+                BITBLAS_DATABASE_PATH, BITBLAS_TARGET
+            )
+
+        bitblas_matmul = global_operator_cache.get(config)
+        if bitblas_matmul is None:
+            bitblas_matmul = Matmul(config, target=BITBLAS_TARGET, enable_tuning=False)
+            if enable_tuning:
+                TUNING_MESSAGE = f"BitBLAS Operator {config} is tuning ..."
+                logger.info(TUNING_MESSAGE)
+                bitblas_matmul.hardware_aware_finetune(topk=20)
+                global_operator_cache.add(config, bitblas_matmul)
+                global_operator_cache.save_into_database(
+                    BITBLAS_DATABASE_PATH, BITBLAS_TARGET
+                )
+                TUNED_MESSAGE = (
+                    f"BitBLAS Operator {config} tuned and saved to database."
+                )
+                logger.info(TUNED_MESSAGE)
+            else:
+                _message = f"BitBLAS Operator {config} created."
+                logger.info(_message)
+        else:
+            _message = f"BitBLAS Operator {config} found in global_operator_cache."
+            logger.info(_message)
+        return bitblas_matmul
+
+    def apply_gptq(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        qweight = layer.qweight
+        scales = layer.scales
+        qzeros = layer.zeros
+
+        x_2d = x.view(-1, x.shape[-1])
+
+        if self.quant_config.is_sym:
+            output_2d = self.bitblas_matmul(x_2d, qweight, scales)
+        else:
+            output_2d = self.bitblas_matmul(x_2d, qweight, scales, qzeros)
+
+        output = output_2d.view(x.shape[:-1] + (output_2d.shape[1],))
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output
+
+    def apply(
+        self,
+        *args: Any,
+        **kwargs: Any,
+    ) -> torch.Tensor:
+        if self.quant_config.quant_method == "gptq":
+            return self.apply_gptq(*args, **kwargs)
+        else:
+            raise ValueError(
+                f"Unsupported quant_method {self.quant_config.quant_method}"
+            )
diff --git a/model_executor/layers/quantization/bitsandbytes.py b/model_executor/layers/quantization/bitsandbytes.py
new file mode 100644
index 0000000..e5a741e
--- /dev/null
+++ b/model_executor/layers/quantization/bitsandbytes.py
@@ -0,0 +1,658 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Union
+
+import torch
+from packaging import version
+
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE, FusedMoEMethodBase
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+    set_weight_attrs,
+)
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+class BitsAndBytesConfig(QuantizationConfig):
+    """Config class for BitsAndBytes Quantization.
+
+    Reference: https://arxiv.org/abs/2305.14314
+    """
+
+    def __init__(
+        self,
+        load_in_8bit: bool = False,
+        load_in_4bit: bool = True,
+        bnb_4bit_compute_dtype: str = "float32",
+        bnb_4bit_quant_storage: str = "uint8",
+        bnb_4bit_quant_type: str = "fp4",
+        bnb_4bit_use_double_quant: bool = False,
+        llm_int8_enable_fp32_cpu_offload: bool = False,
+        llm_int8_has_fp16_weight: bool = False,
+        llm_int8_skip_modules: list[str] | None = None,
+        llm_int8_threshold: float = 6.0,
+    ) -> None:
+        super().__init__()
+        self.load_in_8bit = load_in_8bit
+        self.load_in_4bit = load_in_4bit
+        self.bnb_4bit_compute_dtype = bnb_4bit_compute_dtype
+        self.bnb_4bit_quant_storage = bnb_4bit_quant_storage
+        self.bnb_4bit_quant_type = bnb_4bit_quant_type
+        self.bnb_4bit_use_double_quant = bnb_4bit_use_double_quant
+        self.llm_int8_enable_fp32_cpu_offload = llm_int8_enable_fp32_cpu_offload
+        self.llm_int8_has_fp16_weight = llm_int8_has_fp16_weight
+        self.llm_int8_skip_modules = llm_int8_skip_modules or []
+        self.llm_int8_threshold = llm_int8_threshold
+
+        if self.bnb_4bit_quant_storage not in ["uint8"]:
+            raise ValueError(
+                f"Unsupported bnb_4bit_quant_storage: {self.bnb_4bit_quant_storage}"
+            )
+
+    def __repr__(self) -> str:
+        return (
+            f"BitsAndBytesConfig(load_in_8bit={self.load_in_8bit}, "
+            f"load_in_4bit={self.load_in_4bit}, "
+            f"bnb_4bit_compute_dtype={self.bnb_4bit_compute_dtype}, "
+            f"bnb_4bit_quant_storage={self.bnb_4bit_quant_storage}, "
+            f"bnb_4bit_quant_type={self.bnb_4bit_quant_type}, "
+            f"llm_int8_skip_modules={self.llm_int8_skip_modules})"
+        )
+
+    @classmethod
+    def get_name(self) -> QuantizationMethods:
+        return "bitsandbytes"
+
+    @classmethod
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        return [torch.float32, torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "BitsAndBytesConfig":
+        def get_safe_value(config, keys, default_value=None):
+            try:
+                value = cls.get_from_keys(config, keys)
+                return value if value is not None else default_value
+            except ValueError:
+                return default_value
+
+        load_in_8bit = get_safe_value(config, ["load_in_8bit"], default_value=False)
+        load_in_4bit = get_safe_value(config, ["load_in_4bit"], default_value=True)
+        bnb_4bit_compute_dtype = get_safe_value(
+            config, ["bnb_4bit_compute_dtype"], default_value="float32"
+        )
+        bnb_4bit_quant_storage = get_safe_value(
+            config, ["bnb_4bit_quant_storage"], default_value="uint8"
+        )
+        bnb_4bit_quant_type = get_safe_value(
+            config, ["bnb_4bit_quant_type"], default_value="fp4"
+        )
+        bnb_4bit_use_double_quant = get_safe_value(
+            config, ["bnb_4bit_use_double_quant"], default_value=False
+        )
+        llm_int8_enable_fp32_cpu_offload = get_safe_value(
+            config, ["llm_int8_enable_fp32_cpu_offload"], default_value=False
+        )
+        llm_int8_has_fp16_weight = get_safe_value(
+            config, ["llm_int8_has_fp16_weight"], default_value=False
+        )
+        llm_int8_skip_modules = get_safe_value(
+            config, ["llm_int8_skip_modules"], default_value=[]
+        )
+        llm_int8_threshold = get_safe_value(
+            config, ["llm_int8_threshold"], default_value=6.0
+        )
+
+        return cls(
+            load_in_8bit=load_in_8bit,
+            load_in_4bit=load_in_4bit,
+            bnb_4bit_compute_dtype=bnb_4bit_compute_dtype,
+            bnb_4bit_quant_storage=bnb_4bit_quant_storage,
+            bnb_4bit_quant_type=bnb_4bit_quant_type,
+            bnb_4bit_use_double_quant=bnb_4bit_use_double_quant,
+            llm_int8_enable_fp32_cpu_offload=llm_int8_enable_fp32_cpu_offload,
+            llm_int8_has_fp16_weight=llm_int8_has_fp16_weight,
+            llm_int8_skip_modules=llm_int8_skip_modules,
+            llm_int8_threshold=llm_int8_threshold,
+        )
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Union["LinearMethodBase", "BitsAndBytesMoEMethod"] | None:
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped_bnb(prefix, self.llm_int8_skip_modules):
+                return UnquantizedLinearMethod()
+            return BitsAndBytesLinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return BitsAndBytesMoEMethod(self, layer.moe_config)
+        return None
+
+
+def is_layer_skipped_bnb(prefix: str, llm_int8_skip_modules: list[str]):
+    # Split the prefix into its dot-separated components
+    components = prefix.split(".")
+
+    # Check if any of the skip modules exactly matches any component
+    substr_check = any(
+        module_name in components for module_name in llm_int8_skip_modules
+    )
+
+    # Allow certain layers to not be quantized
+    set_components = set(".".join(components[: i + 1]) for i in range(len(components)))
+    set_llm_int8_skip_modules = set(llm_int8_skip_modules)
+    prefix_check = len(set_llm_int8_skip_modules & set_components) != 0
+
+    return substr_check or prefix_check
+
+
+def calculate_quant_ratio(dtype):
+    if dtype.is_floating_point:
+        return torch.finfo(dtype).bits // torch.iinfo(torch.uint8).bits
+    else:
+        return torch.iinfo(dtype).bits // torch.iinfo(torch.uint8).bits
+
+
+class BitsAndBytesLinearMethod(LinearMethodBase):
+    """Linear method for BitsAndBytes.
+
+    Args:
+       quant_config: The BitsAndBytes quantization config.
+    """
+
+    def __init__(self, quant_config: BitsAndBytesConfig):
+        try:
+            import bitsandbytes
+
+            if version.parse(bitsandbytes.__version__) < version.parse("0.46.1"):
+                raise ImportError(
+                    "bitsandbytes version is wrong. Please "
+                    "install bitsandbytes>=0.46.1."
+                )
+        except ImportError as err:
+            raise ImportError(
+                "Please install bitsandbytes>=0.46.1 via "
+                "`pip install bitsandbytes>=0.46.1` to use "
+                "bitsandbytes quantizer."
+            ) from err
+
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        from bitsandbytes.nn import Int8Params
+
+        def create_qweight_for_8bit():
+            qweight = Int8Params(
+                data=torch.empty(
+                    sum(output_partition_sizes),
+                    input_size_per_partition,
+                    dtype=torch.int8,
+                ),
+                has_fp16_weights=self.quant_config.llm_int8_has_fp16_weight,
+                requires_grad=False,
+            )
+            set_weight_attrs(
+                qweight,
+                {
+                    "input_dim": 0,
+                    "output_dim": 0,
+                    "pack_factor": 1,
+                    "use_bitsandbytes_8bit": True,
+                    "generation": 0,
+                },
+            )
+            return qweight
+
+        def create_qweight_for_4bit():
+            quant_ratio = calculate_quant_ratio(params_dtype)
+
+            total_size = input_size_per_partition * sum(output_partition_sizes)
+            if total_size % quant_ratio != 0:
+                raise ValueError(
+                    "The input size is not aligned with the quantized weight shape."
+                )
+
+            qweight = torch.nn.Parameter(
+                torch.empty(total_size // quant_ratio, 1, dtype=torch.uint8),
+                requires_grad=False,
+            )
+            set_weight_attrs(
+                qweight,
+                {
+                    "input_dim": 0,
+                    "output_dim": 0,
+                    "pack_factor": quant_ratio,
+                    "use_bitsandbytes_4bit": True,
+                },
+            )
+            return qweight
+
+        if self.quant_config.load_in_8bit:
+            qweight = create_qweight_for_8bit()
+        else:
+            qweight = create_qweight_for_4bit()
+        # Enable parameters to have the same name as in the BNB
+        # checkpoint format.
+        layer.register_parameter("weight", qweight)
+        set_weight_attrs(qweight, extra_weight_attrs)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.quant_config.load_in_8bit:
+            return self._apply_8bit_weight(layer, x, bias)
+        else:
+            return self._apply_4bit_weight(layer, x, bias)
+
+    def _apply_8bit_weight(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # only load the bitsandbytes module when needed
+        from bitsandbytes import MatmulLtState, matmul
+
+        original_type = x.dtype
+        original_shape = x.shape
+        reshape_after_matmul = False
+        if x.ndim > 2:
+            x = x.reshape(-1, x.size(-1))
+            reshape_after_matmul = True
+        bf_x = x.to(torch.bfloat16)
+
+        qweight = layer.weight
+        offsets = qweight.bnb_shard_offsets
+        quant_states = qweight.bnb_quant_state
+        matmul_states = qweight.matmul_state
+        generation = qweight.generation
+
+        out_dim_0 = x.shape[0]
+        out_dim_1 = sum(
+            [quant_state[1].shape[0] for quant_state in quant_states.items()]
+        )
+        out = torch.empty(out_dim_0, out_dim_1, dtype=torch.float16, device=x.device)
+
+        current_index = 0
+        for i in range(len(quant_states)):
+            output_size = quant_states[i].shape[0]
+
+            # in profile_run or the first generation of inference,
+            # create new matmul_states
+            if generation == 0 or generation == 1:
+                matmul_states[i] = MatmulLtState()
+                matmul_states[i].CB = qweight[offsets[i] : offsets[i + 1]]
+                matmul_states[i].SCB = quant_states[i].to(x.device)
+                matmul_states[i].threshold = self.quant_config.llm_int8_threshold
+                matmul_states[
+                    i
+                ].has_fp16_weights = self.quant_config.llm_int8_has_fp16_weight
+                matmul_states[i].is_training = False
+                if (
+                    matmul_states[i].threshold > 0.0
+                    and not matmul_states[i].has_fp16_weights
+                ):
+                    matmul_states[i].use_pool = True
+
+            new_x = bf_x.unsqueeze(0)
+
+            out[:, current_index : current_index + output_size] = matmul(
+                new_x, qweight[offsets[i] : offsets[i + 1]], state=matmul_states[i]
+            )
+
+            current_index += output_size
+
+            # only update the matmul_states if it is not profile_run
+            if (
+                generation > 0
+                and not self.quant_config.llm_int8_has_fp16_weight
+                and matmul_states[i].CB is not None
+                and matmul_states[i].CxB is not None
+            ):
+                del matmul_states[i].CB
+                qweight[offsets[i] : offsets[i + 1]] = matmul_states[i].CxB
+
+        out = out.to(original_type)
+
+        if reshape_after_matmul:
+            out = out.view(*original_shape[:-1], out.size(-1))
+
+        if bias is not None:
+            out += bias
+
+        qweight.generation += 1
+
+        return out
+
+    def _apply_4bit_weight(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        original_type = x.dtype
+        original_shape = x.shape
+        reshape_after_matmul = False
+        if x.ndim > 2:
+            x = x.reshape(-1, x.size(-1))
+            reshape_after_matmul = True
+        bf_x = x.to(torch.bfloat16)
+
+        qweight = layer.weight
+        quant_states = qweight.bnb_quant_state
+        offsets = qweight.bnb_shard_offsets
+
+        out_dim_0 = x.shape[0]
+        out_dim_1 = sum(
+            [quant_state[1].shape[0] for quant_state in quant_states.items()]
+        )
+        out = torch.empty(out_dim_0, out_dim_1, dtype=torch.bfloat16, device=x.device)
+        apply_bnb_4bit(bf_x, qweight, offsets, out)
+        out = out.to(original_type)
+
+        if reshape_after_matmul:
+            out = out.view(*original_shape[:-1], out.size(-1))
+
+        if bias is not None:
+            out += bias
+
+        return out
+
+
+def _apply_bnb_4bit(
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    offsets: torch.Tensor,
+    out: torch.Tensor,
+) -> None:
+    # only load the bitsandbytes module when needed
+    from bitsandbytes import matmul_4bit
+
+    quant_states = weight.bnb_quant_state
+    current_index = 0
+    for i in range(len(quant_states)):
+        output_size = quant_states[i].shape[0]
+        # It is more efficient to use out kwarg like
+        # matmul_4bit(..., out = ...).  Infeasible now due to the bug
+        # https://github.com/TimDettmers/bitsandbytes/issues/1235.
+        # Need to change  after the bug is fixed.
+        out[:, current_index : current_index + output_size] = matmul_4bit(
+            x, weight[offsets[i] : offsets[i + 1]].t(), quant_states[i]
+        )
+        current_index += output_size
+
+
+def _apply_bnb_4bit_fake(
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    offsets: torch.Tensor,
+    out: torch.Tensor,
+) -> None:
+    return
+
+
+try:
+    direct_register_custom_op(
+        op_name="apply_bnb_4bit",
+        op_func=_apply_bnb_4bit,
+        mutates_args=["out"],
+        fake_impl=_apply_bnb_4bit_fake,
+        dispatch_key=current_platform.dispatch_key,
+    )
+    apply_bnb_4bit = torch.ops.vllm.apply_bnb_4bit
+
+except AttributeError as error:
+    raise error
+
+
+class BitsAndBytesMoEMethod(FusedMoEMethodBase):
+    """MoE method for BitsAndBytes.
+
+    Args:
+       quant_config: The BitsAndBytes quantization config.
+    """
+
+    def __init__(
+        self,
+        quant_config: BitsAndBytesConfig,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        try:
+            import bitsandbytes
+
+            if version.parse(bitsandbytes.__version__) < version.parse("0.46.1"):
+                raise ImportError(
+                    "bitsandbytes version is wrong. Please "
+                    "install bitsandbytes>=0.46.1."
+                )
+        except ImportError as err:
+            raise ImportError(
+                "Please install bitsandbytes>=0.46.1 via "
+                "`pip install bitsandbytes>=0.46.1` to use "
+                "bitsandbytes quantizer."
+            ) from err
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        if self.quant_config.load_in_8bit:
+            call_fun = self._create_weights_8bit
+        else:
+            call_fun = self._create_weights_4bit
+        call_fun(
+            layer,
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition,
+            params_dtype,
+            **extra_weight_attrs,
+        )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        from vllm.model_executor.layers.fused_moe import fused_experts
+
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `BitsAndBytesMoEMethod` yet."
+            )
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+        if self.quant_config.load_in_8bit:
+            w13, w2 = self._apply_8bit_dequant(layer)
+        else:
+            w13, w2 = self._apply_4bit_dequnt(layer)
+        return fused_experts(
+            hidden_states=x,
+            w1=w13,
+            w2=w2,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=True,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            quant_config=self.moe_quant_config,
+        )
+
+    def _create_weights_4bit(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        quant_ratio = calculate_quant_ratio(params_dtype)
+        # Fused gate_up_proj (column parallel)
+        w13_total_size = (
+            hidden_size * 2 * intermediate_size_per_partition
+        ) // quant_ratio
+        w13_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                w13_total_size,
+                1,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_qweight)
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+        set_weight_attrs(
+            w13_qweight,
+            {
+                "num_experts": num_experts,
+                "input_dim": hidden_size,
+                "output_dim": 2 * intermediate_size_per_partition,
+                "experts_shape": (
+                    num_experts,
+                    intermediate_size_per_partition * 2,
+                    hidden_size,
+                ),
+                "pack_factor": quant_ratio,
+                "use_bitsandbytes_4bit": True,
+            },
+        )
+        # down_proj (row parallel)
+        w2_total_size = (hidden_size * intermediate_size_per_partition) // quant_ratio
+        w2_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                w2_total_size,
+                1,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            w2_qweight,
+            {
+                "num_experts": num_experts,
+                "input_dim": intermediate_size_per_partition,
+                "output_dim": hidden_size,
+                "experts_shape": (
+                    num_experts,
+                    hidden_size,
+                    intermediate_size_per_partition,
+                ),
+                "pack_factor": quant_ratio,
+                "use_bitsandbytes_4bit": True,
+            },
+        )
+        layer.register_parameter("w2_weight", w2_qweight)
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+
+    def _create_weights_8bit(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def _apply_4bit_dequnt(
+        self, layer: torch.nn.Module
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        from bitsandbytes.functional import dequantize_4bit
+
+        w13 = dequantize_4bit(
+            layer.w13_weight.reshape(-1, 1),
+            layer.w13_weight.bnb_quant_state,
+        )
+        w2 = dequantize_4bit(
+            layer.w2_weight.reshape(-1, 1),
+            layer.w2_weight.bnb_quant_state,
+        )
+        w13 = w13.reshape(layer.w13_weight.experts_shape)
+        w2 = w2.reshape(layer.w2_weight.experts_shape)
+        return w13, w2
+
+    def _apply_8bit_dequant(
+        self, layer: torch.nn.Module
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        raise NotImplementedError
diff --git a/model_executor/layers/quantization/compressed_tensors/__init__.py b/model_executor/layers/quantization/compressed_tensors/__init__.py
new file mode 100644
index 0000000..6655f89
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/__init__.py
@@ -0,0 +1,3 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
diff --git a/model_executor/layers/quantization/compressed_tensors/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1816ed7ad0cd0a25bf6fda8e25e35d28667f5dd3
GIT binary patch
literal 203
zcmZ8a!41MN3`}T|5K;%>QSt;N#0abqh1P<A+l0hLEh{hpGcXGq@MQwjA1~Z5Ct1F;
zPj}BOn+gV|H;cUAgZM|E^5rf%F_YVe2qRYg;Q1aERbF}Pb24EMl()@dwLC3Aq1`Fp
z(ZSW~f>^1_m4F&rC>nA>q3Iw*b#6>e_G-wouW*$Q5F?bDppK6JTHD%^)^p#zCTq@U
T5H?}V)siO;<daA#L&EF_u~j(K

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6d8026a7ccbccbf69047d7bcafef1536e6b325f4
GIT binary patch
literal 34493
zcmeHwdvsg(ec#2CAOI2|3BExR6rYetkm5@e^`t0LZ%Q_4*@lzCG;t|WB1q)|k|l;}
z<Q(sm-rN)Uq@Cq8UFa-Z>Dg<T)3j07?o3;ER(EMPT#*UjJEdh#y{y^U*<eXtvTo;W
zpYQL!0Ps?FUi)j8;P3wK@A3UT?)Ue7{T}x_MMX{y*PQk5%_d&wxWA?c^|C3RM}K4D
zxHq|HxF{Dj&2ceP*kmHVdCnZOge@^^*c!8iZ83Y;9xDhJusF+{BkVvL>s(>X8Ft28
zVOPu@cC$F!Tv4nzTpaU+Juz?C%fjq)C9%?Qsgk!W<_r6nzhJIBRuQgXe#cy8tSVf^
z{DpJXv6^sAtTtR5^N0N`%sE#Vs}I*RziX}`76=Dojp0W2?4H{ZYYI0pf6-iXtR>tM
zYYn%?+QMzI_HcVF7!JmEhIhtxg?Gg|!X2^BaAzzO4#m2{U9s+PcWiffH_KZ**Awdv
z_s06deeBsY*B=`Q55)F__rwOngDlKDw>LHv9%BBIxqY$y;r+~CI(Hy;FnrL&@fN|3
zzA2kK6gwO~Y~suuU%?N*i(aNHd?f0-U<!{!%fm-`TeQ3yVf<*cVn5x-_+#w9c*acO
zQOjZh$I1TiaWi*}i&nnMMXUJ0yB0*_3ZG!1)d=<RwOZ&&7FvVQT7F0iJ$1tp^#6#m
z1x=D8e)Y-~fse<7HmPXx`E#R@k>jHyr%sF?lPtsYH>85ovk6|9nv)!7uOwy{=HatW
zPsJ1CL5ox}vJhi=5k9sc#HJEb^~9AaAwHY9krg$vFh4VUK`K$BCKAHc>BLom2MF&|
zSEuF^vx`#%dsw&-mweeFNII3^FWksYH+ka<kE(kng{k@Y3<{P@K#*&8el`)AText6
z7pQS#SL1y2%)%&2a-N=@=cj}tQ*mDM%KkHa;^IP-g;YK>|2erPd^9@}K+3W!Bxi{S
z%~EN0u+l^|jMpIpK#kfLd~}kZk1q&u)JRSdERy`s_6_eIm^e55^u%aSUu5E$bLY-J
zJvn+ba^%G1gyeg69I^SKWm_Qj^huRl0w<;~@-bej+7f{x`^K*H8OIEcT^Zaa=EOYS
zuo1M~0|c(#IEuY@9yK(m$lx$5&HyN4P~4zVd4uQ@s$|91@~F4)a$2{<$S+mH7`gi;
z{{<fC!Vn_@RFknO5@-Du2hx<y%+5z6Kx~9WBZ(;i>7~Zmcw}liF?)?6ZA8Hv`GK$z
z!=NmFapCG*G%|Z(enH?Pb5l1MK9&%!ojN}<1#k)in56RQtBJX(csw$5r7uFGaY0D%
zQQ(bt`l=xC^NGlnxv2yJMp)6a{OpB`iTIhRD_3|ys@tZWO7lE%Wi&>n<uT}Ecy?m)
z`N+uG@v#%fBICnnMyH7ss8^Zdd9(u3@@rrSJQp@axv;sAqrYf>)XZCWD{oUt6L06O
zj7V8|Yt+W#3Y0jz7FUpy$3)~T>M#f^+!{9HUFK#?QRk~gU^N3#_p8=$Vblf4&Px?)
zrS&`2WX2pVLMk_3gmfUG(c)LF?<z^c9)x)j=0S>*=$@z-_tIzyptb5yRNtj`)u-R1
zrD&&%FOQb7vg}bGAXK2N-1fMl+>A9^o>g+?)--%oc7Lh8CHEe3S7ha`HppFrG?iIt
zYFUew_klK6WySgN?gpdPd~vjfuLC=%LmTR598v$Pws3v4j&F$8^9_L4fYt=Eo&$Jp
zRG(QMd$bW@JMzMIAgn1btO;Swd11{6Ysm|1L0D^ESS!NX^1|8>)}9yEj<8@}SP)@5
z^TKu_Y!~`quNJ-w?@`7?SF{5?(TSeuU@3kYYzXO4fD;`GPILiQXSADPic$*tb~ow}
zVtr_i_Q2o8cWX70Yl3&6)Tx&*P;1BDQ{SsL4TpCxbJtDbo(V2EWI*+0UNkP1$mB|)
zW*}l$B)d$HBsZg35sg@>R6-_vEU8Z;9V!i*jVC0}<!g~?qFxGA$*vF<uTDMXkm*8w
z$Z#a3(Ep=9hx41JH@Sos`C8!;_v?^B)yA2)CG!#&F{=rdEO?^4>{>G6$*Mis@ubSH
z+>#Yfb}i0^Cy*KWS}MSkLwj-vwF#BbahH5*xPD)9sB#+exzz9*kcV@h-!Y8`-I5Jd
z8^qWVi7@daBJ?ANFhEWpIeW?3L(U*ML*#hiNX4;*C_fjuHZ?aJg`6YoLtxM;S>ycN
zjGR@6q~~Yg7!XP?6-FY{jDJMpB;^Ox>(<{Ux)QM~T~}tWbjqmEdHw31y@Qwc@LhAW
zFLhnH0qJMH>)PC0tV^y3f1L*}S`fMzzlwKdbGEK&Mb;xeC`&O0L7^)*ghQyrVqgnn
zlF>4x_R%;}#d$bCxy3!M;0lXhD-a!38;+WEg@4)lx-0E(U$$;Isy7>Z=w6?02+`f2
zZW^F_Al*Dj_eLf84_vhmntM~tN5tkM$&rcm=E>!w-*q=`Hn+3;BNW6*c7cc3IX|t4
z;1s5#W)&WQm|ENtr=q|FCmcXz&?I!>_Kryy#w|_>1HuSgsU%B^h%uRRF}Pj(w<Ntt
zz>479;vRT9RwvgzJxNE8a1<fN6@3vg*(2zZHdYX!T>ALBq>UCej>{T-m$dPs$6m0g
z4Yo=)V8ir9sbFSqVJgwvqj+`?NRF3S(C&eEOp;}KE}q>TRn$gJkReei5=}s4k1uvV
zsaK40Tt>CxwQ$fm-tsq#-YELY)vw-s>*jm>H|F1&PkIg{9S62{6}5$t8*2NT+znIE
zJpQ9G_}}3KhId)-u9PYpo1F()yE66C>>N~=#hp*8W^USfK#da#y2WjJN<Ljx7E7nK
zvDB%IC1C<EgkuCPt8xyi-27CG-+nx)DFnSDX-|_}k!-}E{$PFbD}etdw`96R<>XyU
zoDnjq;{c>j%Y*zH;njg4zX3vJ<)<33YuoZQBCVzbYfwr>`5H2BTRt;%=y}PPm0znf
zYU<8SMNh9ZZd)&d)LC$~R^Q-mDAb}razaL*yAg@bPA3>KR|Dq2No5w1OVfj9Mp>ki
zi!+hLLWBr2v0|{6IK9b$N^NAYS<%~5n=MJN0#N)-IJdZTV^6B_fY^B8ZZvgpQam`h
z-uR46YAf1O6+L1_&syKN_kDBUdc`3|kem8aO^3v$Lut1+<!%<;&5tbRW+x-Y89Uc9
zkZL|GHXmlOEuy;xu`MjN5wXbPY7kuwN!PBl3g@0Rb$C)dJh|TV4AJO7#=^Nf7~)Dc
z#(*R{j0-cf*M&;dcUnUoJWzKtWd1rs=BNo)Dp;&;T1;F*f5oPR_FCRmhJtVtFFso`
z0U){{SD4?ksHtvR6B^H_7-M8XXtA6-+kIC-(a)g7o3@+wM2Q-!N;o$QmaMOoLRv9J
zw3;N!)l@p$xml2)hO=wQwq&0%s|Y7lB}mR>*QFZOr{5v%SSg2EmkDmEU?QhymbA7C
zu0)-hQ!hI=b)sHPq4tnak!V!IF6~f#`h5vKs-~U5kO*4G1$qV0U<-#6pm}8O0lt3*
zVUm-*ZARyUrIL>jJ2a&x3b9Bb!V=ELXXoRIsrhMMC}jbR(=csaXhQ%Kprnc`Q`46r
zra-8<I>*P^7@D2GAds9V*<~4*v2w{WHGe~BrC|4run<!fe*;5Cj?ymBI~7P^kct`m
zSl}Zv-w!(25N7QXK1-=s#T9v5E?RQV&R@Bjh$LoWamlrCHK9Ey$z)J*qJ*j}C(9XL
zDohsL6)~gzNt`M><tqRd7vbFEK6Y}2y&t;DZ}VRXZ@AhwYa70L=&eI*<@W~e99pkE
zxqSLT>yfm#{PwjwiBv<M*wD8YO$|IH4m^bs-Bv8Ro0d=BaXof&p;6O%=h*V;w5K-d
zX-hZkx^4Rn_k)K0cPG~yj@))XwsYRH+b36C$+C_OPv?Wm1F6cBV&%!SFR;?F=Dd3f
z;HpY9oVlbl<K(KElins)sXNbaxY{0+?OtnMFWZxJ?|Hy#`rL-A^+8!@s%*blh7#`e
zua})jx=*A%Wm{PtjVeYRU@*=R=@JSRfCQv55*kP#`kJPIN9Br|E^sOitM{8`T|m@f
zY?EIbuUc;CGRD*gv<G#i>n60AOB(f&!^mAS>1kBjvQ4>G4OW2}`U+@)8Cn$R0ccsl
zd$xC#wnBZhk25|b*=0=-60W9J1PiuTK=ed*fv{Av5=)aTU~7^EI4U*g8pU+AGQx(L
zqBB-RNbiIysj8oHIL6Rf0F|qv>px7B(itYHJ_bX?l~urE({`gHE78{p&Od;2i~G<Y
z_`2`w({ER=j(y|gJ15t!-z#13IJ)j1UA8}{to_Q!O2zNgyj`<;e7&)My>ejLo%T1R
z{6|Iq(f7xaex#d7I;zusds2PlV&8bWtQrih|E%c|XYO~3j@?N|ZL)4Rc%gsCSBKsj
zO12KJ*X~U^s(#=pP1koJdAhnK9q3Ir_LIM^^RdU_b!Iq6p>r#S6OUsU&M^!(7Fu*{
zSMlMx>83gE);XlgkuJbw28yqZflCHL*pi0LH_c1tO9o=rbyM64{!6M1yHw~$xi49!
z&9mIJ`Ln3^O$%_*{AKg&1y<lXp3FvEbURo#ZN%BAw$o-4{%=}d22YvVg>G=Fv~mdO
zG!+ZT$TSp~yvPS$%+_QTTj+}c63l2uL%0zjgivyXF2xt-bzri}I20HTB(7eW;{z|x
zCN2gNFE0f6IoQ_c6LBpmmA^ZLgjsM&d;{wV$ohAH@v;C3^zlGqA&|Jp&k86OR^IrP
zh50B_=0GEed4nS-zK2Sqp%++~$%idlZ2}nB8VD^fMpzuLNZ1WWvNHLU-luSwo(tr<
z#)Z#O5RJc}J!?RAQyRORMk-;oQ;k8yXqkm0PI4DjUJ+RZk~$Yd+l@wJGH@4p;<w@4
z;xZLn^UmKHdV6RibY#70B<UTw?Sb>4tn$kPcY1CQCEax&*7T-oj)*l!?j2gMnOOF0
z_6(<bPKZ4x?)Oam`Q&%bCwnHqZ$?bc4|*n6?aO1g&w`O55M#8k222Ps7@C2uR71bm
z(0{+-&>#E$s3Hk-gC~&OF_82OBpn0)^I;*SW3BsFWzOM!)@hBQpq?~**r5CtLbELi
z>OcVVpm=tDBJ(i4t1yHt=3&gHvRIN@l9tE1WHn+qYPzG`Z4*f;8bh%gGD4j>6)Y7T
z<v#l%hOuLo40R5guGEEPBb{o=7^cRg)OHdyV#ZM`!Hn9pXFEM_14Zj4EwzcIR$v*n
zM$2=vaH;SWSAr~Y>{=>R>oV`m3e{Wh+@=<GHQ!Cwk~3~ua>Y%re;ID8Rx36`a>=Wf
zq~8-H$Fj@F40*X7L(ug4AD-mCX!@CYS*w{^L#;-vS6~036&Uck#fo<caiC!FhfaCe
z1_Hk<D*6i}jyWV96LWD!>t2?p#{yIH(Et;(1NuyzPO60~=yIt@W)YDK!ot-nap4Aq
z6(|5;K9{BRtn5LTa2;uw$Rm)wg;7z-h6(amTp$C1aG0DR9LY)+FM$+9$u@TS?C@mJ
zokc~NFvASQHz|cFqMGF8DzUl<iv*0-)JrxrS)7+8HQ@`0i&K&6`=UG35(KjSE$-iz
z*yi+`v1Ila1pF504@|SAT<7k0#~|4lia?;u)eT>DzU5pw^sS@6H@052Z@DPl(2;8B
z5gU4-J-l{yd3bp#U9lro(JEH7uH0C!*u8x0Kh`wfwx>HnNpIsytLP0r*mEqk=e)S*
zJamJUuUYgpuROo*>jJ?ZELGF221RdQ#=#vijhWQ2<jw=4_h5S9NNQkA92mQIeSP4Z
z8n@amdVAB=J68w9>Yh|J+<~?0>(z&E+X1AiK3N%jY~jiW)@C+*2R^JGy1Re9`go>*
zD{0IWb1l15&3$5XU$X!Bdh-cD{GhDqe%s(jPR`%C>F->f5&ivZv!efS%0DXlM;|mO
zY~zu|R5y^ZSgLC>X852Z)pe%)`$Ye~bf6;@=oSOr$=yfS1EXkJT|HP2s@E!3?N0WL
z-me;axR0ydk+E@s{>*U`=WR?n0<z?%Fao?3j^sU=$q<Wule@qvwp!VKm~Y(lk;158
z`ONGb&m@n<j_q*6D0Lx9j1y~P2F~R|*+5gAYXy~TydW$Hl8eohNBHZ&*J&#<sTT>9
zj5j9X$>xoQ_C_TaR3Ymt=fJ@<la2~bpDuzxXc6k6+?a?~-n1{7h4LkPyi6Bn$vCuR
z`YkM?S+c>k{<c+J2=hhLk{zZI%KI55Zzb}U=j25!a@l{|5-m{jTXOT?a0Cm-7lTh_
ztz!wu!zwTv56mwl0-9l)QK-dMh<yQNYCmx7+%uuT)BNYI&I)`qpxdB_0*e))z=*s6
zASYZhg%%sPfH*TdpOb3Q911M@jPj2KtwJX{QYxp{9p$ghPV-sDZ^(8Fn8r#-?x(N9
zN)zKp>CHkL97Y~tnVi?i`MU(dt5-O}#AC^+he(B5!x;i8l!_54sWJkq&Gcn;a#BmV
z*tH#UZj+&i@RQ^j&?@Lw9jV%3v37X9b_A-`rmHsTYD-rKQ`OyKb@zI8&+^F+JT+;5
z>uN~!58f{Ppsecc>IXHg>8g=*)!}q)Fj=!Rx%2S7ntSf|hm%#~j|!}{6&cQ2UXiKc
ze052;KjY!*+6;2n?7KUj+;{5z9^^{bgjN?<=k7KptM+F>aLN!i%c|rt<d#{DOxJ1U
z64`+mb<VMMl8DKM&i_VB$#DM)^sif{8zyLdh|0fot<PxY$H+WS1LwL)Xrr0eUmQee
zb|xb|5+z}MAW9;VkauCgn~XHes9C9_hvg()CGV0`fEbvJM9_q0r!^A66xekPwt<=d
zlXHXYm@a98oL;r4C8yrorhrA*f_^DR4eYo>i(V?g-Hy8rcWAmxR)}ZT@v$Fy0sTir
zS>JJD=^iHCX?2`HI=AGW937uH`*h^k(`TPKC)qHme3i!-yb*(~P?(*ToJ`J%#Ag?I
z;T2?H!in%j%IcWE8jHL%n~1CS%io~*-=wH=EOwITsAM@wL030|b<kcs>ChvXA1p!$
zn<0#l93&Ouv5%EtV6*W=DDjoPslLekHQX25wxt2N3EOGxW2Gp@KFu*yC0z|G`;tuq
z>9Q(37geX+jiS48qh)WZWlU@tOSPO9@pGSk$eD`HnbO|cl($**HgB}=Pqm*A+fSt0
z&x-hY&w>jV){~sjoT}^;D?9I39$VX$>NzI%99woPpqrpTt_Y$#c;9_;^>Qk7R16(`
z-z<hsl1f>P%v64z=&svn+?{INBjV@YLnZHH1qVcLV57M&)jTBP=N+OVE0C+aG35)2
zzToOpqAzsccY1AKs`r@Kd+hz)V(;nYLMnX6L(W=Mm-f~@wBWw!t$t|39Wf=14-3fW
z;7aN;F1u<u(v(iTPmP*j0WG5@QSPb<IA#Tonc*k<%rB6xun}!E(rKg`jboLK|BT}p
zBguFqG756j!NwWZA1_(aW*Toa&S<<jaHsJ`<B!Ih4dcx+F3?PwaEF|?-~<b0E~t-=
zVj!eK#uw)2ZU`%s^lfs!M$SJX=j(9dWRq4HpgND|RnZ>nJ7v7z)|#K6a+DDN_W_b2
zeogD@WU_kq{pu5Im+ws`2Tm*(Z@R0tLw-WfdLWC6+sp3F+O||}k67EY_L5jT2)>y{
zTvbr43T|{BNOg{g_*IQSuqWwU!%Z0%Yaenp!o`+{7Th<1lQ!H57i%6CkPo=n_^^<C
zPQuEf0wb&>3}rlSRl!OlK4i?Drp?z??qI|EYlc7bX0i@4OeTEKyL8iw5jQmAOEMLY
z6NfYz39MNV4RCrph$P+u+ho4`<a!!#rEQ_o$kO<o-gGzdcnC|z_EtBE&cuVT9-r|X
zFKa7to4iXI9}t}1!J-Np+87mI#Z4e1y3C0RMvf1UkB^=fzJeghCNm_v%$}rz=nbeL
zv(v(FQ(i@`)JGI?ib2LHB#$z(R5r)Bh|G(a7c+s0+3BsaWd#ivIZ|a^FAq))KEVKK
znEnMCWd9bGWP?nj%P*ulhsDm}@A<~=J+<K*TQ1BUYr|s8aH{2)h@blyk^2)SOpv8K
z&7wzUG)KhtBdPY|B7UCZMD?pMGK&0^^kg1S8WGz^WX>ddPf*fQ45#XrR8@yq)sggd
z-1i+{dm+_-T<kxd+<hDa(!qJF?|aVPc^=N{{?x8van~@s_hyrhv$8Ik%?q?q_fP)+
zsKaZPudK2BiyC#ZylXHffBG>e{8Q9&%YYN!Lns?;!asvgvQ3^nH99VQgF+2QnXpDt
z-=wq-;C^D^GCz-L>3BpLo7;>jC00%!`Q$ORHGPc6)W1Zz|4+u$efM)Ku2i5;4D@Xb
zo=y!uEe<}N8hlQ~FYp}k!4fd4n$}cxr&!&YEbqKuK1yQVsMs^Q?9>L+b2OMbQacZe
zI}g)f3L6e4O|bgf69$vap4g-p`XK*Olo(Qip3Dx&_LFyQ#||)&_KRj)HpU=+(QJ!U
zD1#xw*w*#~NLHMn0x(ue%!>rLPhwtJ3`4>llk3QIuysJuFp>up8(M!rkNR*@7J2AQ
zi}W9bS;<<C<U@#VI#xIu8*#$72^gE*BJQaQg|b<shFDkLu<4r`B!kRi&y%zw<2=7g
z!|nShg$*}<d#biutnFTdg`}UvyoQ~rhF-CuckOdx1LQt`E+;!Awj4^ejEeZVM~OY1
z%Hw25#rC7A_LCxho|8H!`}sy4cwrssH??VRGwC<Ao8BtYZ)!=VtV?-eFK#6*rxxS0
zq;?xE$BHI1dGZgG!T9soOl0X#knIBioPRyp;zGHZBx*2dx6_UwjcubJB{ZI7G+44?
z4J5a$SOZJMjO7}W0R{V#Rlpp(V1_A_tW1WM8o_jfRsk5bsQ}>yQgBx32E&~7l7neu
zq<uNq03Dlr$C+oTVC+mDiJG`6{4U-IV}X+G$mz2qr?#qTB^XuA8i5)1$dv^$Z<ZlQ
zGhir#SE6yO2#)e_mYNZwm_HT-m>{R-=doZP-k0VUV7^pRRptQG$GudA2uuU1AoLg`
zh0rald4n=%ZGO^lpSdEZ`ujA%{|4>H0C(hBKz<erL=B)c>`K-5iS>P0u!2QhGKEOi
z_7cJ9+L!7&Ds~-x;0~nRZKAu4dD=yHJM*-P?$%6!^#tb9Icv8w>FD^#%@x&u;BETA
z8~DK62h%4;vAZ(ms=x25PnT8VsVS7&u}9poC+TQN!{4+=Y}&K2?`&${c@e*+^Oyxm
zds^>%Mv}W=(jD0<#cGUqQ5oyNTr<O5Lpz4TWNF<={y@gFY_VhG@)yQ}F_y`S_h}fW
z!MNFuu``>aMh*0)WHC&GSY{tF7=NhW_Doi`nvk`G^i{H!5R)Zq30X~Oyb?o&bux>i
zI`VWvCYZ_`HIJF*+f;-<LSuwKCWi!6on11!%9F<pSmoj;j~k@==QM8q1Hj+nKEgUh
z|J(auGfa~m<cSP24PmjSORVYI=slL|JtOv>N%c;M_^~A??%JP=^`$GDjI50q#!p~~
zpU4WerD9K`wU|EOE}`l97tN7HE$?YFV|cA(B;zh+tBXn|S`e+SFM$!jHvXe9VnD0S
z`os`c_I??G!k@u;$C76>ixW_YJ+j18q7glkbK<eR-P^Bb-;z{BTOJJp9FuRnzLaN|
z=-HKa7vJVreGu@y9aw$mbv}f%Z?m{GRooyJH>|i<FRvHF;A$@1x0RgylKV^e4t0sr
zJ%0+n@bBSl*Cnu8eA+Hilcv!nLXrR<g_ARr^h<795U3DEnPZc}Ur_n?$=TYvQtd6u
zRo>m*z5Rxpt!e*?My|mt_uRg^+WfP<aw{szq(z!trx~`Nb$0DCmZw58qM11($!MDy
zF-Uvc%zHgqX3C2F*`z&8ohx*l=sMAHvU;0A$4NuSs=r}+gPN8j{A+sr6LS6yocu+8
zQc>2++C8w?@+st(-2*?Q*LfS@bOA=5y@3JS<riK4jX-xQFdzm7?z@zEonNGUl7V~@
z0C_0tPkRFoEx2!Dl}Uls$VjaT8fjD)X!1*#F444gl#qXAsTrg<=3Pbz$As!_P>ZP;
z^xBDy6B;P5U*73x*NwS(wk0NeZ$S+R&id?iWPV{DM{GdyRmEjCH7NWZs=NhhDhX*`
z9-qP-h&+L)<axq60OJh*hY*RDtjelx+iG*NHbiRxa%Mt)dh0CB<Yk#$Vea)b-1i(w
zHuu53Tb*<qVT6{g(-QnBKWE*GwkGszAPB%23lveyybGK)@BPsu)WlEZxPo)*@@=eP
z;fz)~W^-!cNP?!I*ah-rAZQ}gKwvbs${^H$<RH{Qv3$?;uCjiI)w5i!g?`Ver?g~A
zRH$*6s#KqTH`?$-m@b?~`3CJu&`V+0HS8%cZcp6IR#-NuDUr&!FAU%#twCSBXI57U
zq1D+f3aDl1_ibA=xlN09sCm(%BZ(IE$vE}4Z81;-jN5|HPk671Hmwf&YFSKg-8Ko|
z0d5A>SpA;!&PNlw)EF|y(G~Y5I%FTmT?(l_{f=?4TYXaVU<*T!8g{8)_38JhR=4bJ
zf>A5B#DI9v#V{01Jpan6EsqxM%};?<(6l3kU6=N&KK-uNF=~IWK$V_JF%<lIJ}L#2
zSe~RisOMFEZtgvYnip*)?#!-j-mv+SF^obT23j(rLecLzt!@9LI$?|BC)LFMUT&GA
zdReM3r_3FRV|uvJNQ`1jlaT@JJ!jUa<1U?0q3HLYvK*`@{1oM!(&4MVoN`WliatD}
z=QN^X+q`2#+JlW=#<h0olsIu#EidX;vHy#vV9|KcmZiDV<dN_X;Ybdct`>wSPBF5`
zvH_d&rKrUTb(NudOi>`Zfc-65D<84ik)3c97(YLDt`F-Sug=fYu9z(nB0CBTCrO1S
zu~D?*;#3@lZ(0?1VQ%52sW~hboSNguuuJVVlnWh`L{q5(@_=HqlM~B}FA>cwgqxI9
zsWbT{kCIAV7nRdsYLGz5gdf0J>=|Fc_8j?)Gd`;B)n`GNdVUGpfs~b=FHh0(^Q-gG
zP_SJ-_+yoT1jr#XgHTTn>oZm>tz(71q=*OP5Py~mV^adoql)zO$;J}e5g{~EOfl_h
zl~-S31y@w4p%|k5Y`wYgkI6?QQ?l~&*W!}@{OQwYBF{{WMp&muMkXVpXP!AdJbB{m
z_=HeL3GMPZX_EWpDS_TcWPvu;GNqJh@5E+=NpjfKM>F|I_7%QGP7^tQNY1|?hj^z{
zHolNJ5yLhq+8M=1bC!<kdc+k<|92=oEiO|{nfi$l>;)K2LDGU%WyLz%!H11riTD$y
z^$pXzAjii$q3=OZEXHQMWNqgg6>EK|-lJmg(PcXsD6v^RAi4r8{?*TKxb{6L>sT)f
zCEcM-mnY?F6kUzjzv|j>?SD|V3w!ob)giGuq<hFj)GgL@Giws9s?nkzyX?N=3}-JY
z&UjfNZKA7f)xCCk!*yiSTd`5ID^=4k*7T=p_K7w7?tAxX3vM<#Pl&z~o6JCTzp^vw
z?Mzl;M{R$)E|{w85$k$%4_Ryn#D;;#1y<T!YsKzbH&;^0fDef^L#dj>V$I?E-oshI
zhehA;hn1Z=5DjeoPT3aB48a6eOM}J`e0xdhV=w1FaQFOr?NNx^lB*Vba#Nlr(bKeY
zdTrN+=iq~~_KmWg??qFgv-d-1AJq1)WA@3{|DmrY<!cjtZCEQ`eekixQeN@c!TI~&
zKe|!-RMPj<CV>fv9{DwR_NCi9QtdS5^uX7V@*NU=ht_?=@0Ua65026%%OJK2w7{6>
z3!;d0%kE8o+kOAYnk&^kB6g1?J4PNC*!)<`YePAuC@0<6nQ9ym8wb+82UERcV((b8
zYwWSjLTOMJ^cvZd8by!%x;^{T!M^*!b9Y}z9XKZ*IG5autp=?RD!a8FN$(m)cIp%h
z+tN(gcZ!~!tNZWPZg@s>lXj(>yHd@2#pb;^FY1YTy0_005<Q{SrMoX|cup8svrDh0
z_HtEJLB(~**{{{JBe~=JdhxSK$Fs7M^CAXqj!8+=Z;}{L+3WhT&&cpB5rkR+B=3Tb
zfc$jP#8MPe&`k@BB8I1l2=OdU1}poGQyFccR%Nhl>R?fiOMqNvSn`sMs4)!h_De;q
zvN=vv+tCI+&Nzi8XQFM!DYX4sFw`3!FY%;y=|@c<uYts_^7%z*F*hAi^UXs2*a=<d
zQd9NA8kX17j!)HdMtX(ZbA_-n<4=`8nT46UH1EO&Ve3*M<YW~m_F$i$XQ|LgPl`I2
z?gyw$tJZWq9pp`CLf7joQ8O)fjni^hEBRSjPROSUR^D{YcPv?MRU`r`giB4TPrpZ<
zYA=~MOoVcmh!5vo1o;aE@43`gU~eFINz;?`#7izC{Yb@Cy_~EX?b36rzNi~;G>u6O
zHP)SAzgKz|z2KVQnz-FKb?9YSfS$)YH*v53`E|?l+{=&#r~F`+PIZZbfh45t+aPIg
zK5%t@mUgFM-yQ92hCDPkx9~E_c`r}h7;<W0l>NoDXE|pB9^0xdU~A0OeBdQMFrFJ5
zc=_V&^u+*=!{;<eRI!Uw*Z9CxAbVGvB9w&!qez?s1*zjmtZtcBYLWv_E=H-tRAA=n
z+?>3%nw?M5f!qRrfxphS@&FPY?5V^o2swbziuw7_8FmH<+wvXKyWl9F;HML45)KRF
z1*(w-hc*o{Ns_t|$CIdA$FZSN1CK*(Sq~dD8qLkxO|EP*4=4wiDzG#-*n*Ce=BOt0
zzP3o?6YOA>03D&rnmao`!{a>CX+ESufRx=2WRr?!D3yBB$~d+dy-2}!`3M$yJL7*v
zi14fAe1RO20wI`dVxgoTRw~PQk}ZmJ=J=phDpVQ@saH>4C7)TRA|*ERD?8m5uMJO6
zqgmJ+fk0MsU}vWWLqU)D*6mp@-N@>Mz@&W2T_`X%H3yOWLf|C`;MAkr9Tl9_7}mPQ
z%4cw1%>|{rp+JkgMYSa!tP*xo7f{y;QF8jofe{PR`(^${T;85fh6o(0f!!N4-yvA&
z(RrS>buhsihs?@{#lq04oFEIWfeF_`l%9@F6Mjg}e<tU@ki+EqN%*L9U%GlhI6{6L
zTu3_uBN6OTC0$-VzUD>p>HS@-Adz|su1k@`+3^8Xs^rzqDo~FQ_-_Q_BXW2++w51J
zM%3btE!a20POJ^-GW-n^+-VaOc6zmP?uN9x;!fhLpMUG~cbii~&xk|Md~7khX&1kb
zRvEPJOge(g?%SVFGpYT)tMNe{Wb&4Dr9WNePgRA)s!*z`SFGw?uj)_N??~0}73=pt
zF0|DbFONepsBMtN__cb7%gd+IwXJkY&gxzWuQ>9irsb<$Z*^h+>3YpUM3x8MjJy$9
zd2YQtv^)lbu|JTi?G<Z#Q?-LwQNLb0^v4s~=VBdne#DvmSRX+ZJuqxq_B<#m|BXxE
zEy}KA`<6<%xrU}x{eW0Mu=cBB{n+x^AA7js9hp+5OEihDCOSc+swwT?g^jH4=Es~B
z-BHT<nv!KZR~M8WDg}_iKeBKo<(uWzZ@%!x3rJej^4QH)1Tne28co*p+^;#acKLl@
za^MVP#<agJ9UMltR20892AR0HCW%_QOH=L!(cO?Sn@ffsW0h7h)-a>n9b83Cs=Qk)
zC#iVt^Y3FbELX7`!g)n8`o+x^7Ns1`qN91`e5&Q3*m7{a<?x1M_<^JNOYYa)$@0*e
zJ=J|!>^_|8J|T9Wcz<ZaaX#%SUoQIbXH94+O8#4hLx0j9Jm$Cjso!?2r9iS0>gF88
zK&+ew%cB)IG@oZY<^3*Di7ugnHi*KMT8fmEFYk(4Ald=<=z@Xplc8bl))S!FqnZH_
zCu3pr=u`_TqEXZl+7_vC2BORIaVFGCg^uIw5XN5Vq-jRpE_Yo6*95f&sey$=-{(%7
zLbsSNLV*)AfB-&&A3?%#?tBN>8l8<9z$UN&ZAZoSG3fAGwX!O~U%vvD0iFPIc@0Je
zovkTn22fRpvZ}2C8Bz~ZVWfmeV-{FCspQo8>~;_bWCf@K$YN1QIWCK}bFm<FIdVl<
zxU}d~Jh{<Dbc)zKqSVya)YP)aF!eP#^*9a@ckuJkIGy(*6$m_xThlz)9ixx`3#gED
zCZC7MlzK2OdT#qIY<UU4M?~!@fP*!H2J)8<ymsJD!-gxkI(xTI3?0HEsW<n(u|F9Y
zxa(OjJDzkO2R-}bL{OgP`F{n+33oYdT##)F<HB$f%4h_r!YGdZ0L!{b^V>ECF~^DO
z2Wzk$s;^hV3~4YAo^Ytyj0~M5&g1xueiE#$9KKY5ljBHem>k2bBe6-z&UQ8`Jd#<{
zNE;LG!GS!%-Vbpb#=3GBR+N!NkuBVVtRgSni!bilj`J8K{vo}s(*Tas6G7=JI>d^O
zR7I~?(fhrM{^hZBZ6h7+v@*M1+r4~x)9V+#?b&9QROd0V^VquY*bgdeGeunG0Qiiz
zTvn}#RpzMHM2Q#`dl7}wbTeC(V7O{6YigL@ao%P04%pPN<;ictC|_0%cV01gG|F+&
z3}si{-D+r-Ub154DW*c$nmz6oR!N|xP^w;$eWrw0Ey+l!H7YYJhfmF`-;HuyFhi~9
zZn0@VlrP^oqXXub?AJ`R#v`i?16A9ojI10+)0ze&1+}96jM{Xl-iD<DxfU41WCzZ>
zkjEf2Z>JpFn=GHBMXUFw_5jT^N-cAtS>hACa<UYdg|<tdNI%7lD0cmxp}xQ=Uck~=
z9Ri(aMFMzyNDCu6-WfQ14Wc<t6(;%*1yD{k6qo=npbv)xCe+V^5Pt&XyzE)hH{)DT
z=%6%eRm)5LEISV-K$|mjbwt3%3`OU5`6krwFa%^ek(*iBkv5BI4k}#U*~ZSCQFgxN
z)k25HCLca6Ft&{+57b#|$zTARwR53lzn(0Pta98*;VK{adEO_zJ19cXJQwihg_mdJ
zyjC-;_#ze&ES5?&6#!i%f8<4QAxd&gK6^GYcJ`U4<!KF?>k$4sMW{!J;nOE*Q*0`J
zSyo{fP5)g=_8vKm&a;)HG>L+3>Y8FA5apC=F_QqkFdNlR6Vz%TmB=xwD1;BN;B=q-
z^irdS3+i4DrZQr3iS4q-%a(LBQzoYJQ*7PcE_{sYZO>$sGP6~<3}Z52+z<(%=ims7
z9m<Awf65&a-Jy-1kyOuVvFCKE=V=i?_tOxw3!8D=Oi_KxP5aVQ?jSa%KXBKj++Cu(
zE9LGN-TfJxr4BkrHRSN3_WSN<SI?$8j))ycl4H*%JDw#FH6LLEVWYbKigweVN;dD2
z*J;!4`leM^vYl4S;-rnDMtKEz%H1itJGFJ-at%>bCyEL}EAaYpIB3$*Mn{BtYLcGT
zq@xvX+J#l%G|7_0&U@F1ZDG=q@|3$nbawz|2Vk}XCaoZ6rwO+m6J5uUcT?SAx#~)_
z?-$$mf6p^~&m?+=la688WlR>Ee#Rl#38REjU4%zwAx!=d^G}Y+tDky>ALChaMwAm|
zBRHKYLNjl3vX(5L0wqvJ5`*M}@@QoUJNjNYPQH_HpkuQ`pw5xs#m?xLk8PDK*nuF=
ztd&#Z^W?lhsm$~9l3lhL31nLr=E=E6Q8sqK3Oh<q@;~*=@c873Fq_SbOyG-6XGSAu
zhR;Rl15WG!DB;&AkM*U6g*jR2Cw47Q5|Z>MPvPmacYjJ@e?|_Qtz0MH_sC)MeQbJ?
z*$<{E?EjDhYax!DkSAW{RxwP+DnR*b1hBx&MItyX{|HjEGtCbRBb2dMb!f&rehvc5
zPhRCPA=Wd18J={{z(-|Owjd6rU9qf8tT^5}n6cp*dU8qm?TI%EGX?bI;3{h}h2(Q`
z^*dIYl5K~RI}VF=!x<L^lA^rQ`_^oxh@OhMn)*A_E4_CvzE!{4jJdjuhl0Hf;+>}3
z&%IH+;uF0snGy;vh30=JzA|#>`dgvZJ}mYAnCkPW&t&V(*iE*BtG-qK8<*d?ECz=j
zad<|}>?N4OvX!p%Vw04u^pQmkp!ChjnodgB{K)RKoi}Bw8g0H!kMB#@U%URLFTD1J
zj1AA!IA5lKd=Ac8nk;P<3)>zQ(({;!0V}aNS9~ketGz21->%Pacue-4c}RDqH26R(
zs3N7dJ?Zl5J56`uciP|hm5c??n}x;8iQ6N|>Yk*pNA&crP2O$#=JQF<L9y`ALmLt(
zK;X-?Ga!3yjX6N@yjj@t(1yE`7QW0ixpLI>$<?N}pU-c;gF9_{%Jh+?+E$&eZ_Kd!
z&X9aRdYs)i3yU7v5T6;SwK>!Nj*Nxw`*1ce?wKK<5=eIn#68pDwc+dzO3FO@PRSky
zi9#~X9yI~;Py+I>1mwx=s8GPtouYAPvAActci4`~;F*V_$;0BwgR{BHmF#q<c-&bu
z?wOFywvSbg?i7hTi^M%s{If?^DrM50z~aup;-2Yo+D7CmGY>_RhsBd86Tl$(sBq3?
zd(O03(VDR_AFvMo0@;tfbiUisH=G$c6^50w>5)s0`xOg!*mM-{@dcBuB3)kd=5ud6
zN9L}K9MIE$*ZR$!^226fNwRd8SlIE%Mu{_v=3<*~WhBGlwmP!b{LaZo<jn*ew(^z9
zM;vY$A7`g+?J$FVRB*_4#FVaRUG<3-of!)~ZI-vJTE%iue|kclYk<CD_1+9iOXH>Z
zVIf5kUY0&KlUG)#h|UnX(k@kDc@zNY(!XmJHSrdFE6I%S@mQl4-e$Dk$Y>2v6kof-
zH+}5L=lH4e74U`lR+N)3q^YlHA)esJSAlFsg8qz~eeueT?*w^&s#1yo&p-)?7H<=7
zW1kqb<GWb4aPbXWutYu~y-YEi%U?H>=WB9|Z4g#uHI=j=GPdC>4O*A0-$F16HRyBI
zdP4qe>xulunC(8<c7}aWMf+|{A9P~&og1j&^eLF{DyQVhHf!SS<2m(1a=Cs(O8qWr
zwbMODMh_fdk9yJtQ-tzO2Q#x{OLZ_hP2-b^stqABHG_}$;Io5MbcC<k%+DZePBXEC
zlv~`l#oQo&nNDfu6Cv-Rwv$GSwmXW*W}0&Jh>o7M{_i^WGOWjjL$+Xw4tZi551~{g
zm>MQkD5f(lgq;KxS5Kp-9NKC0?7_{9bJ&hdLd-NtBkD!cJ4yAAs4wx(3!ZFX#j!hv
zJKBwmNWdTcxN-+p(JJNQ9l#W{`1_j9@l0Hv1KZM_%B&SWsJAdZi{r7P@{!Fnaj0mr
zn8KMBctmNyNSB@G>6Ox9(5&5<p%di!8chWb1txetko~&obAHSM%d%+TqI_a%c1}0L
zN=32~$uI;<=n7<HB|0R~IZQ$WIgRA(Ag37)zOO0I0+B6CDwZp(BAmLzl~61T0t2Xl
zkxKdNP+e4I2DVTk&OjUNp%cgkZE!GTc4I@ibr>RKJd6rJO{wRqcga&Kt6x~JI)tNw
zRP<~T9Zl)d%5-I8y5&H+X)n!BV3wk$4F~BJHh-)gZ!VdxLt34kisvk!C-IsF@FQv{
z5f`Ju3;UAwmP<ccS+_&tfJei_BWZEwk|leIcF?l;UG4R$s3i{=Hc!paMeTj2=ri+&
zW?NV03T52W0OjMLhDkJw$Ue=&tSGR2V+CFmco&b$$cls-5c$k-HmpN|Pr$%{ig{Y@
z#kOH({xJ}{ii5&2u^z=YRpyl`U42wwRV5v#2CO556CT5nisaA7D3($zlpLlghIH7?
ziU~_{C^`EA5?KfWOvaaNETh5s`#Jc;5={~s4FCqvsERACeAEAif7zaPl`J28Q0h<C
zjjfj+OS+F?8c11GHoCfdtuN_mTKC|{f<c+rA3*+~hpBC}j}^xdk;62NLsaFH<djet
zwl#9Jm7k+SA{5mPJ6o}m5{_h--=naLLMABFQF2DeA$^fKy;S3G;R$LB<o-QaT1FE7
z9uoJ5*80Ca_|3s@ANuB@48n%)B`9hrW3Pg|mM!+<8Ny5x1TgYBxW<;1iMI<$r*T5~
zDz73%#tB8HqMDQ#CzO~<|C^WJxcmsZi!-yIYYBc-=&|k1fr)3pbeDW-|7-g*1@z?L
zQ0Clgb9W}i;>O36fi-9vmDesBV{|<lhm-xm&!{Pk<ubf=#>_szX?fKhw(<6;l`r5O
ze4+A*Pg!g*lNhAV5`>-X^MqJf0z!8YKo>v5&`~jh#RCeT3|zj}sn1%GHE@P4G6vO^
zPvg&Dcgvt)mTUSl+rl50mmvtRq6lM_Pr5yQZ4g#cywLp1m?^!hq{QMUtD56ASfhU(
z1}P(vz$#TS>k`;WB=6&h@^}9Z0t%CG)X52|udEdVk+?wMmW*G7s0PzUIUk<Uq@X#%
z!Di(635fy_16o8!%gS7;^@!MdWWzD?z){4$r+3HyT}P{o#Cwr?Jm-sYWO1e{JfZ<W
zy~Ji14EqX;wv>Ls?2mB@ZF2>_4`GU0*<Q#BY?8AvUr82y#`1I=sSC^YZ*e$`SAh#!
zZ46iY5+jz?S)zpuT5%RM=aL0*wEAre$EB7;{34zW!M$Y7g@6yn6)paylMysH=jG2c
zVt$h5D2a$)*5_O43(KJZSO!)Kv3SVH2?0x=2%)p-xRxhdqE={gyaP!wnM=mxmw3vl
z*&?@0f+~}&dAK&j>ZMvZv(~C>#mdVyv__2!ui(|QCFzolosGe4xQh{GH9xG(dL1+%
zIdvx!x^iylfkCtYV&VY?sUvW4;bk6XeoQJ)^Rw5$Y_x=n1xiY0(#2`RY?aMooY}RN
z5(79gLs@K(4nps1v_a|Ne9E9r9AnLwIy<eHZEv7wSP>n_iv{`tJ)9jTviM?7$=Z=1
zKXt*!l_o2tsM`yM0?-HI)YX3j2RxL<A&hzGtVq^|fVUBv$3=xM42{J-TLj!(im)B=
zxk41;-vKK4YO!KPc9(8?8&cjT(c82#w(i}vY)hBzNR_pUWvwfV>t#L5j!l>M_Obh}
z+7-v@@YjkSl(x_ckCx4r&Xtp^7uNW-XR&L(<lrNVwG0c{Y1xMx%S&<~q+MmVuitky
zD0vTV9vr(Hrd%hWqGx5RYD-n_6f1YG?pv?iv+VxBQ>*0Y*z6cwh1JhovM(zG_VW7~
z9m5hOvd-#kUMh%0q6^cJNEW}ZK+ok{X{k4bN^<DL*ldd=@hHZqW~k3dmVia_BeTWk
z$T-cmwq(oxk2&1IO<}1pH`<EVn%ClYN7k-?Gjy*HN5Vej5T@84;FHNM0S%tUdDtKa
zki+r8Re1rI9d91^ED&>%&BsKBWn-^{d?c$#)%r+Q&W?$PWaXP}6A_%0l1;2M7^KV|
zrSf+P*lbEMLG~M@*S_5=f0ee7eSwX3kq94B78iS#H;V`~87noj5P1Qf`q5bVLv8Vp
zvJ!BCXJ1K^8lR991Dl@`*r(itGHMa&wo=;@a^$p(Z0Az%r%WAs3A&oHLQtrn!YV2I
zQ=c}wLAPxU!h``Ye;4k^&jDAa)Nz6AL-IBswv^9LkF;?|-b~a$z5qFm<m@1)i5wCO
z*v25~)Xz}~4JSg%TWTe+ZE&Q+KL^;W2`I*FrK7xUX(s{f{<Hv9rYG#8Y<oX#Hdbhe
z;Z8)ZKnLY7X8F}!YjOEh{D2WqhUxK;oR=nxWE%8Cf&%h`^`Rg?yXnb;r+G{)GkaMa
zq1P!jn=8WUbc#;GR0&3Pa&-*Ju^%Pjn}r93lSqso7yk*IjKyR!{SOCc3j7s!@Vnf>
zzvkROHd{^Rk2p9#cB(#n*w3{0KXFyx=bFCH?bTCI_;J&Z%@&jSV}}_z?8R_6)%lqD
z>Jj^6M>eRlrjN}?{jr@hb^O5M{l4|!4+?#^pIa}izh&Qa?Mym%-747ZJ(}cvw=X2?
zyTpp_b?#^yGcO~UBbiS2jwC}PV({p_gc!s$;wiD=bdvKwwokiEM@-53?#CSSJw9F8
bZQ6_N^p82*AJ3RNOvTBTfsZ-d872L{!{}s?

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors_moe.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/__pycache__/compressed_tensors_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..503c191b8e974acda41e891c0c830a97972bedce
GIT binary patch
literal 127709
zcmeFa33MAtdL{^v1PKxV0T3iX5<I{IB*9apNQt^nN}>)*rK4KKt}Zl1KoTi}WGBFq
z!~(6d-Q7d=Rg#a9WRIs*w#P+vY255xds^P{j<s*r>#{v>jg;6<RGQwE$J#gB``*m5
zTIzML-|p;wf8+@;NgbtXkN0hg3PeW6@y8#Lkr99V{}+Gma1@wujpuxG^a~wXroW{d
z<+8}0C#BgY(+yMD6gH2WhUhnI+#Jms$}*Ebd)ySw9?E8Z^LWls4#INAEz#VeToz^-
z&x=}ztkL|Td^t`*)HY<3{r0G11o=b@nd@Y(Ysk%>=8hLdJwwIJpEq6-EgdRle(Sh5
zS~gV1{Q2YM(TbspsBg%}?hD2%qg6vy%x@d7j@As-MEyhlXzfsKv~H*_T0c}DZ5V1`
z&+X%ZXyZ_0v}vd*+C0=84GsmPEkiBQ)}dDR+%eu3Z69i9{=)H&Xy;HT^E=1aMZ1Q&
zqTNH?(e*>?S(t0QC)zvI8{IIpf!({uH%9x0`k23Hd{cDu&}QcMjBkl<9oib*Hnc6e
zeP}xiD<0nw-8r-~x@%|`yDu5v9o;juC%SiNZ?u1?pM{l<?~Cpq+Ryyn@dMF;p#kPE
z8$TF5G<1mh%f}B#j|?4&4h{`Qj}9GWVHM-YqOT3T#{9nV<IxjCC!!~ZPO|&T@l(;)
zhhAs?s_`#GPY<1rzA^NM*_369R7Hk9GE410^hMV4Z$`hwTIa2y5KCbmm)kMRwBHo2
z{;DZl6UqJvJ%z5JFP}4o{l94*8fH&x@w6^dr#?NyLhBLQ5ILiUj<C=GLK}6VVHVni
z&}Lm|goOqX+M)|R%R*Zb+NKLV$3oi?+Mx?Q&q6y9x=t55%0jyk+N}#6W1;I2+M^4-
zaM>K}{Sj4nFlZL7dxpoyhtG^h;Lquwn2zGty=O8y#YJMV(aDK@lU#H-9?TMpc8$bG
z-yV)5>?jwGaHA9F#NyYchbQ8rGc5E(oEwfu&Rs?Zw$R9QEIt_xO-{vdTgXk0L_@=)
z@dzh}G@OgXL-EK&Y?2E_C&Q8P(9|#oLg2YL$&H6YvC)|b3N1wO7l*m<p2>-L<WgMp
zP`a~HSZG8Fr1C~5M&qIJ$#dr-TrgL(?wgK9!bc|i#WKaG5ieB;Im>a7_1V#LVv%xx
zBoaSA8Qwh{i-<K!*s%x~osLKPFHJ?bc<j^!e&}ATlp{pG5E(spK7L|kcsz1qdTMHt
zi$}sB#G_=u_#~H9es-!abg^%^4>ga3zCs+Nst^&r(TR9Z=wi=s*M^l3EAViwgzTA7
z!qSPi&rbEM$dDQ)78#F>#6uCOVh9P0#zJookB^2!XUB(Q=SL^bqRmF8<G6{1&JxQg
zpJ29Fyn8r4avoeB=Eg@SWX_0=^jnvlg2iD8v&7;r4DJGzCr%wZcJ%nk{=K2y11C?2
z<(Z);-#FHPB6MWeF%acBJ34`Kr2<3oVGg|j!EP=xH9kBNVSOhWLGJ=xU1z38(SLN*
zQ{9ys5XaH8(b*y)WQvN;M8sk)GD$r;bg}E=`cQl_baDN~F0oYRjl{fjk!UnD8l4(P
zr>v0J6}re8Jp_)8Opb%Ru}My><RVgw$`7X_ebIHH(FsN<$g2U*MlP_nh)P_EN&O`j
z8XvwK;ly$|I68bGLhr(b*c4T9B63lCM3s<wU?@gij@~i9QZ1??RheZ+?+PfRCR!P%
z&nQk&?BeLm%y=YpW_)tw0?Qs`+wpFOM#d*&kx*Aytel`hfp`~+^hDR6ogk)3zUdjU
z1hgsdc39#Dz079O6~oIb^JO?5=VIWcZO_#7E^g#JjXa`jWSZk5cpbp4I4GyF$W9~-
zBg4y6sArbwrx8HqcPJhm4uO($6X=-Icp{dfLBf&9REV`1<3IJ=5gPH7D@*n~IR?)S
zQ^Yi64x5Iu@CC^pvnr9a-;ZSPkmZ>%axuDQiO&7UPQE6+3n$_j6$gWPqBRtn7>-6l
zA+aEY4iKIOlS86CL_@&1{3Itre8?G|j!%lY$NP`%+H**>9Pi(?_l-NICq%^GU+RoU
zr#h!br`o0Wp#9SH#!Y<}Hby$fN6&OlUB=)w(fRiHc(hX*S0k4q==_shC+iQfPS!i+
z5xa9l9_Ll&#SDU|vvy2f=K4@PbG`^qtP;*wO({p|+{yRexcbI7zxeLHl)Yqb?|TDR
z2flge=li)`N_14cLiwOX!YA3FAH(1*4YXqIif3Qw+ts&ks!xkjXBcGw!=V-@urdyf
zGg2F9(P~zSrjk>=GD6R;o+FbHnOp-}dUo}t(UR8F^1ueVo*ajx^|VNK*c{FZXGe0z
z*i4qiQJpcn>Qy~q%uvtfhAm&sQF~+F<=kK%w+B%~d)jxzyP^{Ex5pw4GPztNKFv*F
z=AvChC{2T&d=(RDOq<OK)0p;D^}TK4K>BRfL;_Q#tlu=xW`|9)If?AOrZ0WPWSX_a
zDGzofEQwX}7*nR`N>uzRl|rexx?tIRH~XU;$vc~s$a%NYn6|O}l_?Wh%7kz>=Uc}U
zIWLp)LNj{4`CDH(X!-?nj>$NOD_P|z+=zm3j!HqUaoWV{X)S8nJfyW5)Gs%Y_mSL=
zoS4Wp>N=OqF<SKG&RXM6B?q*PRZUkMcPrszMT$@RRoaHTg8YlMaK#rdReWP*ickAx
z+}nth6<V0$i_<W|E~AvXr`1Y4?e}aJ`l2mftAvE}6kh#;IbNrPjs+B-_8Yb;G0moU
zlM<dVCCp=J>C8*v(h1Wua?RJ}+N$L8>|D{V?MiIzH=%FWl6a@`WEC3aMb8Q9on1;?
z?N^^$tO0S>YtIy4TAU)p=~bR+zxp^_X?&yd<hg3ONr|of>hp_HnOn4HiccSh+Zx}h
zgpX}keA+K)qVEp7o=sDnhR)}V3)=dX*xGLzZKd)3%9H0Pdq9aBE=c75x+!c+<o&wo
zH`KA>7tBHXpqP7jbRsg0dF_mgi)`*_2~S>}zyx-3tfNH^IfvPW5>m+GOi#)8!5pzb
zng!DALd=!s9Acg{afpcyWp+L_MT@ySX=)Y|-I%UU$3w&FdN1~){|DF11~x~>x70rx
z^G{61{qoc`682vlji2`;0h>o}JI75<Pj!Ybqu9}rj+wxz81nb8_$DdYNnh5P)-|KC
zIjs5}pQ$=Ep_MMLvLgN%X4lckX8+%3wfTbq(Jj>!lVl3UJa~$u(L&6*5V;%^OEIy&
zz}7P~6^qeh#)oXoFhws->n{${LX6cWG;)4;Vj?mw7D%_WKILez;OI>f^AMXBxuP{D
zuYx)Ho{E<J$B&*mCR!ENaP(~x^Y*?mxa-Kk9<ku{;qmE6KgVI^kSi@;#eA%}CPR}G
zBN2|elUP6#dTD*g?V|uEk%k%ma8HP>O}GOT>Xt&~1!63^X`NV<5!AJA9j2Qsu@sHl
zODRh!NNy}l<S#@f*y>aYk74#YI-*SHY1JxXj`}vZ_xj<(M?y4J3mrMyA3AlSKlBAm
zgha#nlQvJ|=p_;>42tZ*f*31Yj@}E=eta5og{Z`uU_N&Uf!q;#QkcFB6zx(cmS(qN
zp|XOInq0K$o{DyP?ZKu>Br~91&ThE3kadh^4}Rt1cC*rGwLuMl<t3y7Gr<*|SnZM>
z=~2fi$M539{H|%)WwIAvO9<Xx9)GspR8`>W;E%1Q%Gb?vhf`IxbAx|X(|XPJxV9%%
z(~|P}Q<cp^<z~KevrxH%uiWvla#yOZL#XTL>-wMOTk49g6)qQ<itCb|U@Fih1orTO
zJwjkVAK3qK;lscet`9!)1?S%s+7I#VhlKW{eEZQ<S>u!Jtd7zrrmV`+Wm8rOIq+4P
z{B6q(rm_Z!w1o-Y+b?(rc<;c+!H3?HbM{neolx4tm-Z~Y#h30CN)Pa*2U7MLWacfH
zvn^Xq_A<fN$=f;??DsA#+73P{4+!P!`0{lR$~P?Ro;&z7*HqH8(0_09V)4EuPrcx2
z<vp#7p7v#g*9yf!zBstpzDsD|&$sV?P`p0{O3K>#vi7C27NKk%U$$<sd#})anD0KE
z^d9*%+gv_qMwY%ns_YnO@JV$+h}$c;{JhJbtUa*k8d&mfSV-JICG?--`%gXezMgcw
z{@7Kj#28$39bNKnO%?lZ2ZXwAzOEZtl@);_?jq1tSRpuqydyZ@cF(rx*t_KES_lZ;
zyZP?j4?TO5_C1eKWqS*6Z<*hE&$nprPdR;pvx9eb%qQ-BanU)z?wfgM^L*vPJB!Xe
zk3BsLZ{F_}_MG7NoOtLtnY5owIm!jcI^MBvq4M54i;hDdCxoLMf0Rqct}L5OyR(jD
zJvEt*nFq6$oF2j1^1#`$<n3J;zuzzHJ<0Dq`OteR={oh;yXjur#}?thY5u_Jhu$}m
zt~Xe|J-mYo+_LC6y5!NP@|;TAPdzTGP8FfG=6~+q@%y%Wvq{$x)ZSBw+B*u_l5H?(
z<>*7rZ6=34$5?{1K|p#1L<<J_k@I5K#Dti8gsoz^%M^7dIrQ;mZw_0PFy{h-Vw4Y7
zix&5C)}Yx^m@4gD&L+<zXYqTNu3mcY%GE2&779QM6g2)gkGxN^O}Ry%viMTI^tB$r
zfA#8+eNWo3==dkP)m7LW$v&GkXF7{D)>rM2?Po_UMib+)LNzbd6V8cP!xsF{#s55{
zGnf#cEeKn`nln`JLiy&03(n?*ZAfPe=SS>D)8TNz3_cq&<#teB7<Q}@^F?Yzr5R12
zbHjz8#`R*gh`41cbHYxfF3LBp^)KA;Lb<!Z??$yLR8QEwN_Y|4$P+0J7vp~k{EUC$
zQq|{$uWXgHQrz-LiJYn;QX2L}yy40<<5!`iYQ(I;uYb*$wQD}DTk~nY@zcmEbuo^8
zmMtq;k7^0mf7LQnK4-dQ9;!HD3I?P}LpDBbX+i+JN0Ja=37%gylNbQIW~L|>{8%c<
zOK_9vDwfgTc9^hW(w00~rbHGd$yT+|RF9E_LrFKAoyazNGZUr|O`zC?7%s)H{UU~1
z7GfB@rHG*l1j5<4Qzb2zO~IT&j#kZ(FqVZOI))Hjlak9b%O6pxL7TXP#AzMr;<OHF
z!qK4@r*%xnN5^9wEAruf9{GqC<O=yNq=0O*A|&RAAW<c;dWa3UqFWJCs}oz%s{~1T
zY7bnH$4*|<Nx8)W$T($5FPqH-En*HN*k`#bC|sf-SDr6^9U(Ci!O&diU1_-f8g6Hr
zR?KcNrPE|z9SZ4xL>Z72@Tc#Zev*}yU+~mw$}hZ{$6L#8dKRr!pSXkb4d3gy(;>9%
z;#+n-bnl+aO*OR(O*{Ce9dkL0)`pb7QSfi%{Tu17DplbZDq8u9*14Q-Ia3vtb2;C3
zN<%)I^4TC0RkkQZ+xgLO7*kZ5fQvPlFhUR>36Ih$h=NEkPWu7zQQD{y?X;~F#q^fM
z$0IcPRxaupHvE6`JLp9>sPCFX$}<y*uCQGwUs}I65=|M2eB#7ib{X~kL>7c=IWvfp
zfGBMS-7uV`E5ktc2l1DjV>s(>jv|nl&4VyN73e4>A~%aB62e=nigprtiCiVE{%w9$
zwMt|sa-{k^qc*vUFfXk()>UegrwOXkYGeI;YooOhMm2-ch1yM5PXn>oUE_M@uToEI
zB42AAh|9cMiz>cweq0r>8O<NYRB@V;!ekoNjnTTkkpKB|kNUzZ=3Bukd@D#4{0#X9
zVU1RruKo36i_H9&8yR$Y8qC?yr|27vEA8E}t->2y!lqIC9DT~qvQBeepikL8U*0^E
zGxR~nmBtzSDx9$=>_0=!*gs#+gw4<7jZv?0til^d!tpcYjpOs>%`-V;)N2Y?;Y?wo
z@Mp-GLOo|NXLSz#h=|>X4Q2=F8H_?l2ja=$uxMcuoI7Ujm+@S5U+h}1Y_v;4PCWS)
zdg8j+o&EqJT3oi<uWTjC%YCPoLVE1gB{(-ed1iQAQbG_*wU`;<C_xgorG=Lu{>tE>
zoBK8><*t$Q4mk-TJpUL?<VeRuv_zs)@ynuR8k4_1v51SD8;y}>5u55!430KH*d!Pt
z?(xZCXw68<31aT_R2VZw&O;G~DPIeeU8W;q9*eiWTg*M#KX~Hk@t~9YCdHxor$o<p
z$oC#OM44CwZ6t13;U&{%5DPTUi1{irxLcIy*I6Phg2b~>H`+>V5yoExIVqaN8HweE
zDyP_ejOKhach_CAxN?Mx&`emC<j=G}V?v)E{m+qY>^=qxh%AdtRn2pjMQeGgDoDQ-
zk4q|UoW6cqC~4wLnwISD_YPe>lydn}E_bqcJ?~oo$mP5F6^P(c)%8oIz8e>=UwG=s
za}+}M>GLmpOr_0FOa-L{a|O$#SSkosKW~M!u4iFv(Yk91%Z7?%VB?~-?{RVYjRV&Y
z2*r(jaihKz-y>J&LKpAqQ8KsXBJ)DZ+-)jpdSc2iDVWP&F4kqfe&LNp>ki7iJlU{e
z(Yg_W!phqB`)>6KzINW%uFqaqiTL|hZe8JB9VkdB4f3VIr~0BQJ5W?*LDE{5URJWV
zf6=-xWvvjbwY;@9<?t<5Z4#<>@Krm6s(!wzKWX3hG@F)6xu*Q`WO*>zx^2<A{c%Oj
z`^~qSg^D)5qD@Z_t8dQ_c6@&a@7irlimx4{_zLEnX_Ry?99^{TeO^Lt)+AfDE?T#N
zs_OdpPv1H%RCV%IoiZgiZMR>$8~I-JPIS?}_2d5KY*Y0*$dId1{R#-`w07K_+&Z{u
zJ-VXQoqW|!p=uvrwJ&MkudjY<vVF&*b?0NW$AMc1gvt)SvO_KOZtwTD-PyKi-}G?_
zimd8HkyR+NJgvx0$t{N$tw)}}$d+W=cJv3-)aPHp^OZFv?q)IW>MOeG9>_lQyoD;<
zeOzAse%Y-up}dtZZ(XID6>TW5qF|0Bpc-TQ?sY6$2cEmU>SS=s53O6Jweuie=fO1T
z4$V<%9`K|avXvXAIK0vYMbQ<Pk&*_!ibnHXRSu(N5;ot>QofW}ORMYQIHX3>l`x01
zl^9spDZ!=}pv6FXYb1ZlphcxNjTUuPZKf@BgY_QwwRnj_B>14pl9Vtgf2cWYVTh?J
zM`)o&F~b&ZZvQ6QV>W9x`z5#n*}^KESBrmc4nsPTmKVuO*cDf0BSvZ)sI!5pM;Kc7
zU&{*TNm9u*<5;CQO7Do3=oCR}6dJVOuwL;(4SwEQhDq-5OnPTf_Y7{RGRYTjC01sg
zN~-EH>K6tjtGyFFwNXv1dN_MLsNCo!w3lDvEsM8mIT`h2MUI=n8?C1($)EeZPAjoZ
zO|E)YDN%jP(3%};WYuG&6ce`Mjgx!wShpHg^%yC@=-PUN8d3Eqxy|P2;yvfsiawD;
zZ4LVUYKE$Zq=gwgR%JaeUKYve(%$SUrJxtji}mHLN_y>Au1kX!qWGvTFVEWy%GL4U
z#VH4;4d~9u->*=O^;f~*KJHg>&;3(!Zo>J|e}-br9kZAn9*wg7gdb6VnmKW?OIaG|
zmpuL`tRnnOfx!<=b6FihAEU#+YXm9`!y}gw?Xv$&#6NuYEH)=1;f`RfwjAPa69Ghp
zn1cn)F!x>Z=E07FRw9ft?jwqFl^kjUwhDnB%J?|b;^zJtg+<^%D`J?NfPRjoa&ni#
ze}kNVNzOOOX(gwf99qS2{~V5(9UZ<T=CZ|8Ow7WT@P`zdf36GK*i+|+V`53hB1TrU
zcwdUvtwbwMU)o5qf);J{C7Lga<`^qf-LvpZtDPz+LXE&mMOp5IhR@PE5G%eg>NB(T
z8H=AaQ*S~$#;j~D^ceF+b<vQry9IkaZ?6~Z&Ah$&o&_^hS`%bd7SJ-OjHdUlYnG(9
zWzpK2HoIpj>v(&eU~l5>O$*aVsZ260-*T!6gNxP{%mM8#!RCKp^DlXtQmzt7c|mXm
zcvs-|w9vGTZ`vj_?dF?yf1HJRb#dX<y>q+fzJg5rf%h-nx+K(e@ikowwfB3IHC+#D
z2Il$~?UhS`mJd&Va9Rj#<O3V;nLjSUn(JZUC_SrtjE(r8yZUpC$RKYIez$i1wfP3#
z-nmdBbPe)dgMapw<na?9$N8?4D9=U97>7r&*YNh5<t($i?P+$lqwuNS)DZlz?}I*}
zzL&4>P1zmSEP|_@ceQ_ac)>j%#xjw&ufN}mnm23!&l(ud{MbFJZ~n0PgJz+whp+3A
zleO`#Ho=7@Ul(uhx=$;C`d*}|XK89k_r&$yj&JN(vbW8jTC}fE*^59^UDJnUACw8T
z>-pOCOZMuU(?U%zU(@^0zTtiZIn?zahdP!+HA<~*{LuP=Rq%K7{%$#T4`0*s(B6Ch
z6k^w|N9<Y_yK1=rc?-4M_}Xnk?JmA{*ZtvS?XHKl2ZY+AeC<)8_BdaAoTm0iu98MY
z9o8#Uf_|xyDs(1`n)$-!`F^2oFONUR-c&`+vW0bnY^*h?8x)wD+CDu0!Fi#vk8kWt
zIqDZ^-PN=Sq%<*7>JcR)+iL-#sGY}OVLLU~0Um#j1A_f9Z$G@`D!Jjf?f^|#FVos*
zIiHnhk;^MIHMVNKBIPI&9L>C=`5rO6u@9v-qSPN+>)4uNM4k8HHKyHQwwhRkhxUpw
z8-XwL;>?%niNRMeR;bD5u43<)c9dz<q6^Bl>fS9<8_c%VZ>>45?wA?whM6(Wt8+Ce
zcXEy9_{xkEYXCEL$+HG$vI4PSfiw)VvGl7*Df%!rpP}7WnCK{GH;Oe8SC1IdrYjp>
z3&N2z)AHc@b$Ud~HNk8)z=^IEsVPc~xT@~V{xNQ5Ha}x5TZ5pl(Ma|>GWqGdrj*S|
z?@Y?$O}R@1cjE(h<C3TB`bOTf;i0E5Y43aNJN)s<zc~G;ryu%Whm2#%3Q<itZ!N#s
zko2z;{F{0IX2HLQ_wOMYgR>@St&!H6e}eo+h-~G;Ctm6tNqAQ48t-P2Mt#0XXER_L
zqi&UP8Fws%8Z1Wdnw1R_ET7Z`nUUsvILlb|z(^@b*D<ouF|uJf$-b>KR!M0Uy~HZI
zNKsI4hrtC<5veb*&O;r7`ya^BdP0u$sUrqT3XXZQF<y)qK@vXcV+Z3YW~!$eqRn(Z
zqfcZec#k>)?QuiAS734#3(f}K*^qRuOIp{#O+gS>)SSYodf+OQ{9J;)mbceJJyEFY
z=Bv7&=H++_=JGK3<U8d)(Q^Bo(72Ir+$c2e<QsQFl9zIp&Pi%yX>tc@1~yXsD|lAx
z3^Y#YI)d4-BN)mb@P4ZejRNEgp$4M{Le<eiiOJ^N2C@WnCAovKu^^bs{kKTM{Sh27
zf4D1jPLj^%4|gkGE9QMtpcV5P=7TyNn?#jUQZ+sIZ|L?uIjVU0PL?+7iP3PWG<^kW
zmdd)?89i)f(=$53>Pi1Ob%!G;2Hk<C8}h*L*cnJcemi-6Qu`4~yZF*B+zX}a_|kQ$
zk_w@ul`m;!o)*5O1)^S8!LlhYzkm$~qWKawC?;VcOS7?aqwyGN4NiqFh&Gt_DYk>6
zi&R#aIyKp!O-@}93&@p%M3<)ZA%_&nGiB{TOe~OXF`>Lo+A_@Om`bJz?b+!GsIZe3
zNNi-1?3G!FSi&fSi7^ZdSs+u+7QIj)K{V2}h7lr57&<eGnQSHW!pAQ|y_?lXp0rO+
zND_LnKvR<!ZIKDGqz=I>^^E9}DWmCV=<QM1Z+eLrD3q)vr_NuFF+UMrqC6mjR)m5C
zs6UUW;wCf_?O3o^=qX&hLT*^Ts2}67y2bws=7cMpb)gwen|BZ(2g>IZ7BTARZ1`ef
zEQBpX4isOYZjrDh><LGraFr1@=Og(QdJ}ohmduvUdJ)s$735~(Hqgy3Qm}dcSC526
zh;Q)OMyM+OQ1T{4nnX#W6wivaFvW+^QpK<RzPKVq!kNfVkP?E?w!GydS<Qx7;P|z2
z6dxB2=Z5pf-O-|1KtSlMj$Vi_%D0WRu2pMY@E>iSc}d?_DCU*D821@34RZ|VCtQpR
z&btL4$!&WAmStfZ0bR_NW8zfs^VIX~&rMtTtD+6<lVv3O3Fp$-i*_>@;tk_FD1O+%
z6ts+UER=IJ_>>st$SAn$R5)fNi~{WjA}D2&iw}@%aAs@&vBSGFEN@^Y?f>%HAAv9X
zFGu1XPzM|xpPs2ZIx&9Pe`56TDYDm*0UgMoM^!HDxMLR`ik2N2FUL5V;d25xKP2Zb
z$w`s(2{}vT{53iM6FL7g9MKMo{ZTB=ncX%lfE{`%M_2l7x9E^&O{An38Vz%gC>xQS
zzoNYIRWo=+WwSzO-mj=g(&P(PF*9xZRNw;to>M0e?>ce9&kTh8WVu9UOEjKil*LG0
zyDw<tene$t!QwybVz+2#Um$t^RJ5|Y(Qu3zpuoyUvg7CeCXGNwFBD0gnWVhc&u|s|
zw0BL|7NfDKztgXMv54)m!3x?W-J*)xb?s*D;C_k7_<cA~QZ)~YxtM)`1NiNxU+%~B
z_z5|O$aw@uG)G1AglN7Xnj^sq(K9$19{{KUtfQbv8D@q^9K9wS3B<)BsrqtDG8F@9
zGD9OElQ~IJrdxE&WJ7n!$0SERl!2XXtM`N=-O;YIViubAKT!ml42xUV(5h7@I~~Ri
z&He9`jgOo^rM%WXS6;g2;eJBNEV1*$&=>tf%I8<$1S_-|826AuS;zk&`B<N4uYlI^
z)h=rE3NU_4J>}n127gP=V{-l%a@58V%^|5eL{g0SPLqD)OIiw8*o0)J;The7#rl^t
z%L76ZW_h1>nC#xAqCm<usM&mA>gTGs`T7HAebPFR3=BMk>#Tp=&?Yo&;TyK3DtxJm
zrc_mXs>quvt512cAZSk^ygZPq+sHgslEu%{az~&5JKuBmYv*s9m#Y==jHezd0;&WH
zo*T~V&XlW|{XwqP$h#WZV-jtpTvaJoWy)0sEdrr>17E#?d3yQk-lggmp?V`<y-}#%
z%vWztwGX5qVS*_TcF;R-bv~^xDuxwH5riBqra}lY>K-`ipqmV#l+{$c2{c^m6+HF4
zr~dY-4?`b>n9z)@Uba7SZhK<EFK&<nB9{rCX5Q1B^z<a{J#hcV)1IoXNqG=X>EXGt
z<N6NhMWo8L<x#4viinX&Y9Dy&wG%mZN8wK@O^!Frk33aLPhi=U1NySE+%P$Uk3tGo
zmiH-Ws81DnQr=3z+r)dD;JI<-`jyNQ+Xo&Md2TdaZ@O7~y#?)aqw{*FP}Ia1HO-s(
zqL%sB_@WMEql+OF)$v7j0)$XS&GT-)s1=P?T=;htCa3%AnQQJF-s|3PURd@y92IOD
zf5*9RaFF`~dgS1sm=~Ko3$Tq#{{gqSmUloFPJTog4Ei!mhB%tIabF|n9dZ)n%)$|~
z$;6M|HEw~Ne@kIm(F<Y)8=^5nACu5oc1?u$$@nbXA5+XCa{ip0Vsak9fwB$*lMr*x
zOiqq-G{F_KVSg!F*sy~&$25jE&VpA!bjZr~BM|_ZgrE*ZEASZ2pm(yDirGUjhgN1W
zAU&CW`c>0%R)MAJ=HO3E_*pI+H(R!)87xr%UZB$Q<vixKk~g1u3rsET%Qoh<o6vsH
zhk4>)w{K=2G+PQ5dVkRO{XWv~ST@o9{rD61yL>v!YVpq>7upZ<?FT<T$+y4u6B9y~
ziyap4ql!wQVk2L%aoK`9dUZ=w>!~~nv6>3(LVhcs-})q<?yDV^0xZ%<apy+pdT2Qt
z_mA=`Z^rrj`X|VvV7U!q%~Wk5)zq4*Ye=<pq}FdtRpPcKwQ)<Ty&IbOsmj{ax*odi
z-SlZ|%xtMh;{gTG`qBN~)~j2W^VqG`R91B(aXqn|&u$@X@GRSy*KR7USavWkba!f&
zoy_Ypm6Y9VxPEZi&2EcKzUtdKw_27x?6%lc<zFsg-cl1PbNKq<+dX`7)3TR^m6_^V
z=J$S3vs}(@D@@*sWgqiaLKwbW#k|!d8Ls@Gav_JW?OCp2VSZCn>vApg)`5WKdgg5)
z3IojBNOIP;TW#~jd`0_m6ANoj%P7dgT1e=gxRro_yQX`Yu?T!EaK2Z0weqIrX5{_x
zTjTTn-#dKgaI(6OFWbcDZ~D7-N-4?C4xq!0;J<ox$i64t=+fzCZ45Fb`)m#~ZOdV%
zZ59~+7|lZsX1lUUn>B2OSrnNV(My$a!L+S_nYO)1zP7L(rfm*p+GbnDV9l;GZ7XD^
zZO&C<zEH^#CqPkL%#7{D(z(MDMLA*jbC|I;!6fkc`CMddkOfmUWAnCRv_}aH%1ZH{
zOx74>FkDl7<?vOkl2(fAgBhFTtAue{70lSG*NiWjua$;tQQ~T*Xi|RlYv$9i=2M&T
z)6ZbW79caWNJZEdDL$JOZq$L{_?U59C00t!%&uLU^d3g{W)j#m>2wZ4>2vYqv_;yw
zh^ueGRSPyE5USzE&}IOP$4DZ_F08dFea2-Ziw>J<ooHkR5LQuXkTXh?u2+(Cwz6hK
z&a(ItwK3d6F<KGFRhf&?=s=RCOJ=T#DM>x&sPpU`VFdUx^wC5h<NA#B8OVt!N5VIX
zy_Lv`z4=mfswO)cv6O3!?S8D1Bdr56F0`jQrmvF9Kr;1iKJBqUnwFlrG9z=`hE3Dd
z&(-!v8AdH^P==jy*UZdJV|6QY=NyR~$SecO6Acv!vdJbT)JTdIRxyz5=zFmmNY7f-
z_-%?$`$hkBu>R@S!W18))T`X-%3Y^~X}^jDi^~fGw<)BhTCc<z>rs5#uaXKWXno2q
z$euPSe(l$|4UM_3>^~vbDkTTR^ecYtmw3eW(3my0O$$|gFH<IXZfE@5tmLBof}R@X
zj&aGa+(BI?Z;(5NTkaG&ufv&%?1NNe-?2WOK!(}Tw)rnc{IW%ZKLRY72<OMb+%F;e
z`H@J5U%5CMi?sP=uo5W>0hajF%y5772Flt8eVMOP!Cxci5IGdgy-ChRaxRhcWpeV!
znTI3h?K!Y(aIpWdXgPWGQ2(H4*?ssZAo!dN3^9bY#q<b((<0E?m#`n@aI!_slc^GI
zQXnHq^vD1zI(7aS7pC&47l|cMl>u1c+Ypt7Muw+`&y0?b#xHXd^sIs*teosWaWb^;
z=<z-MAutYrn8yzf3`$ZM+RNkeDQYo+x+vhBA!!#PESBnES4lc1hjU|;#I3`D3B{to
zhT%pj+(w%+vZO>T3XjI59StVPB8VL9f_;<9WgNXiDGJEsR>oemkzZ~rX^BOjASTRs
zS6XLLbIi1?6kTLs{;9Uc4fyU#%dvM&wE3trGX_oynGctzD*ZxbJ73u@;icTS@|6QZ
z<q^K}$j74(D^E*td^LivjrX+)zU{nk`@KuN?||St%=->YcqUNaK~`m0k2|2?Q^nh>
z1bZWIZ(MBIF0}OX__O!_*kpDLm?5}Ov~hyGOTsTXz_%aZT?e4bk?%3iVjthKkGJom
zEDjiEK@cdsYd>XC3<-eSck2SS=><;%?`aS`?YyUbv8!L`I>dJ!df+*fv>!@(4y6J?
zA+UiDY!Cwb_`troy-?)QC2He6ZArGR5BE_ZC_N`ebn(8fd&NoLHdg6JO|3%HM!spI
zWT2g_XExe?C<_R-`Ukf9JGP~wO49P#@gzH&utG@H$7OQY3a$;jYr_Kf(6u>f-~3}p
zQvwXKgy2w6Q^<25Oet>QiyM-zhUGj{z5@y_c9Xpl`SP~<MOy&kow>c=I{LV=M`#@2
z8wVaX9wL(Jv7!XzP3=y;b|>44rUtng7iv2Bnog!(L$Rt6%ikacCVibhHf2{9q*Qp8
z9-(zB-@5f)SlB+uZy$VUKT6DROcAC^fOiIn(++BK(mtBY`Jtl9KwF|lCO>J`<5onn
z;s29gf{X3AoHXn4Y`yh3vn<ypk7QX+Q%`o$CRa$EOvcsyYNHSDEGDK#6E^N$gcCg(
zm$dm~{4A|h^~3#<oCEC24Re&Hv#UH~SQE4Pv(REqSZDCohs_r@f|EsYk3twQ7;*q~
zhUaiCzoCBCv1yryP0PKAU4hj3tE9&EB+}(2@-tKG_+~IAG_s@Cwj~Yq*Rz-|E~e$!
zR<zvBSFP0x?yA<bv$PSYe&CfFqSki3HF8}0Sf|?!Yc2hXC}#H7tI<l<!A7(?^wz;T
zTGQ-!(cT7AzA?X6XT_(3M{H2Sv|pO?azFk|ZPlpdrucxRVAbV`GBPi;pZvas_3cM?
z!A3kO)Y}E?a(?l4GNe|QqcN@WNRdV>+36b5>ddgyZOyDZ`lBnZPLan9TE%F)G7T|6
z>%r+Z%vyMw{qD7_iQ$*(F$NQG)?<FE<Jc=|1Lf@o>W20n8n=c#Hm9}5KTyvBR>;fI
z`>J}6K?}X|-eaEF{ZhTBdu7k3-gC{&Rp{FI751Mi))^ET&YD3F!uJkut%T=tC0`ew
z&oDy%QS~v@C8J*Ki>!sce4SoZKQw6TSKSZM2YXibDDID6eP7b$XgmTLeGdqo!03D6
z)}s^XzUOH;0=g1k(fgpw@%iiET%`_038y0LfS^bF$~e=p5ZKIF<pH}>MOqL&cqDW$
zrW`TTcJh405A8jI`y`Ag|KwRe!R9u_{KFGr|MV0*(t6&%%|EkVLAMQ$zC9Wng_el_
z%w^@dUe4f`*7*}iB$_*B>ZlZXnJ*VYXuY2)?+eIV((<^0?kF1{eHY$Ly^CL?u-_%;
zdvJnP5>ml;DB#<0!~*C)o|90pxC-ogO53u(P0uUomc}SaEWx&FZ`17u<op&nUF0yC
z$(PBeiA!=OC!ihlAqD;ma%ig0{SG;$lq(e7OdJk1(v#-WsaOzc93xT%R^aX+3=qXr
z62MoU%wtjZTrku+Q7ayEA$6wegd}%Zz>}GE&z3u+Ln6F|*Dn^qN`OHkbR9F3kxzT7
zvPr^5P=0;vzARPONZ~b)Y3II$_qNR0AJHP(_rT_3>+&G)2_`+gNqaBcRAY<KxRr0*
zN(MLpP1yXfbnD#yM<iY#rHI==QwTC)gL;Q0YiZToeqbs948hAg`|j;};M}%U>Q9yK
zPI)&ZOE)f?%zeG7-mMD*_g-7JWR>hRL({+uaMK)sn_?f<d(-`mcak;R?|b>010U~t
zP;=xlrS5xn>ZgS!s0FWu06}OFrFB54g^q)r3{9L2^})(eABt3?_S=>7GmF;E&jtFB
za&=~ANmvh7hV`J!(l<W}@CY5$1MNt|fU1(WLDmr9ZGpw$HX*o|5AJ<n+nZq}MHVsz
z*9&fLnK%Dl$q%Z&U$yAk@$odwU;N!LfAJS4?Ul$5hB0>7Lp8u=D!FN3(SC3VfC=Ys
zofoRt@zv|pJY={8mjstk(}f&r3g?cdWw7C%bJ2d_k-b{52Y7oR<*r#ItD?Pp?Ovhw
zAYXeh={f}c6bM;RY*n(VJ=wWy(Y|}hUU@T=?AZC2_Fa!4q;gdAj%vZt#5<Z6TXzVp
z`}x-W4;=fKY8o^HFqy1WaZReYBw4nRFWv~x5>#f|Z?&VP&?)Sung+BK)zvE1wdi^4
zI&WKe?GGb=6#awfqU$guIq05L;cQl6t1g#SD%{W4_6xO#_}W8B*Wnkha6jML|IpFD
zMujUj-P_Ms?72V8SM2|IKVN==FFu(n@!#GEm364clyoeBBb#3hJBY_CvQ7d0_#$7j
z{l1$o*?s>aUp#137%|Ptn5Jj_DooqM*X|K&2l(27r0d`sOk1??l3xN6;eFQ5s`NeN
z`nal22Na^bJL&yif(a>{8%*o>y$e6LXx~R!y#@G>AKG_5YG|ghuQpZRG}r$_yI<0W
z7{o}Oj$2_x2-~jxci50x&3*)PeUe+r^ChHEFQe_+I3!fkWh6VJwS&ApXJ|$8^Rxyu
z*c^M;rX8@MSIXDn?iuE%Y}s-pX)z5-P+|fTK~>%uD^cpA{c0P`m_@1EnnuztqnRXX
zr><JGJjc}8m=>nU48z$PE+wRk_+m=eOO<U<?-wXrZP~cGHDx5NQYc5i*%z-@=ta#9
zq$CJ6lI9q4Ns%@&;|O4Q01H5$yTJ?@xwk0gYrhCJ;6qyOmf76dyqDlG&K*i?Ewv}T
zL|)k$d8yLgM9$AQzC?b&>Q1BWv-BiOMqcWA=OyUM&B#lA=Ms4@RnNSP{M25HF|1AN
z1&Z(G#xV44vVJw_yYlXUAyx)t_=ahW-a&?1gBd<uV+InU+59+dbg~P%8my|75e)}O
z{UTH?3c`7_HZ6^IRF8bXlwEh|jPbi#KuR|-VX{fG3}DVM<QWxr#(*0MDUF>{Dyz>~
zM|_h+H)^(7@oB#>kb*goJ_VunppHi4$Eq}KMTWD5j8+GHwr|1g^IKobd6_XgKch!!
zZ=%Tv=YsoAe1}q-v7L%f`!%k~*lsO`;zLY>QOzi(!dr%K<eYWA#Czz>sO4uFyMTP3
zHrA-)!vq~LwpXd2_RG0+NBpGWS0&6}#?IcC>42{TT71Qa_mFn)Ui`g2sN|si(yp31
zH!<jIV~4f4if`5(_bUD|nqOsH#&70X8as|<M8$2wt!uaAE1zpSW>61Nzicl}LC4Ax
zUWfv9SLEd=VE8r$G%$JZi*Q11{rDG^8Yy!S?(fk%NHZnl;{GFA;H`{6+)AT&d{}v6
z97`ElXN%$^x|l|N#`vu^7%7e3>O_$;E5Te-U($1q3ZP!?B?_GwbB$=ymlRRrBE12n
zO6{=&aPIkHV&1BbnQ?vY2Gps!`_gh>BPMcJ=M0xk(mx;y%^ZA<P5_q9XY@lI$S-LO
zrKvQv`Oi$p{bykn9M)UyF#~f5F}a9;5R$l#nbCbLieA~sA3r|~lQ%>m`!YI?bsQOS
zejGx~4C0vnRfk`KF@WL~aEC69MyI1FhntMWWNWn;OA{F$Iq#Pe$g;@a2WPqenjC!l
zOiWaHCriwgG@2xvsvb!KXrOJS2`nYiBfVq{lZg8R^1VZjCXW1X=$7UZIJt?=zv>H}
zotU2CIw|<O<lG{M-YCfwjmayST=8EcOtf&r6X&3~g;Q-|fvqzk=V;a<X5*x498imA
zutlfLnWUGiCE+Dgv2w=FPoF&t<8IkDko#9u(l^MV7n`f6m`vcg4n8sG?DY6JlWmF?
zn7nN05le^9kOJ9gI1=j$jVRu3(WZrWiv{X~E^Y&5%cQeRV(X#;nkbAqJJ$;*=+OyN
zH6HvfJ=YjP5@E3brf!^ctTr8?bqQx3ua^J{Vq(5*kvIw*VRSw&j#JE7Yy{+ozarO|
z%b|MNWj2H<1JS14b#tuVR#_u%CPuGPrYIKok~H?;;^EAWXG>$(#Ay0I(dS~nh6RF*
zU;wS6hc?(}L2HT(wFD0-KrOD@E37-juhVHwIaTP3wgro@ZZE%XZ*tvXh*6>AR07ki
zY!aAeyNk$j%zxV=_<MPO@1keJAC5CawFchR0Kv-+63@}WQ}w*79!6ayjZd>7Wqn#;
z0?g8Z4-N<o8~BC|s%e|xB5kpUuGV|K5G@8aLNFL8WYQ00lZKi^Xirpz;A-Yw%@18I
z_X0>E0Vc5&1eioRR873C>4&x;k<p$iE|)Z|Zbu}c^1X<#{RF@L1hl2xMW1Gy9GmA3
zCd-=VJ3-*)*P(*O4DoK42(=sd+70(CLf>J&?=WI-F68YS<_4}^nJ3e^G&rf2kNX*%
z)N!Ia9Zo9c@-Gk;mIN8Z$gG3#$5oTW=~d0`-?QGa3eB7O=FO?%`UT=Za0@sPEV^b{
zbOlfYNG(-i>O%R)fn@c%ht<dC`oDE_3Cz*4vu2(|vwHqfG1W<Da0$Rkmp-^8G;QLW
zHl>Q|7Km-ln^8<NE2aUm&Q*lM4{dvyeP6nKzPwr}-_DnBpF5bUsuQZ#^HuAGs*QZr
z#(TSxRU02xZI_UJ=LVOm>TdT6^_%(n&3{?7<ywBKto)i~$sf2q{5#fb2bTQ3unrW;
znt8CloG)9C1JU~LALO?VCVK`S9D6O<^BP}voJHy2%R1&S!$jyFBJX)($*wKEHh=~z
zuN2DK__DV7H|`bQzs&c&_OR?Y+O*`j`C7l+>~HYJoeP$Gmiq;K-@)X%gMYRwx$X!A
zj>%)Mfk7n|H-}&{b-n*nx2ZM=L2dQcr={u0Pp<0uNM-{TForcgur)qz-XJvZ<D2)f
z4ozpRDPUwDUisjP(6ohb+Jep#MCS?29lqI`*>&1Jj<BwCQtCQ-+4+JG-HMtU-Rj#%
zA=-W~^o<aM^;$qT+x*B?k|fJexDC>7%0qcKWlhyc!YB#wB>|zNjW21N+xNJo^Ls6K
zT2k&(!QITeo0F~<R+U=bRh#lwDX`M{mexYjlWc;XBKrQ!t(g@mdU;oGS_(f)QHd1j
z#bdX|(o?vpi8k^0b8SjX28l0JAF;1uuUoX$&*uoueGi)ZSU+sxJuOMkhNOK1T<j*@
zJS9~1@Krqzy}fe>mh8<Ljlgbcmq>86@~&3c&jPIn+Xql)#SRjC(WN1UMI=L8!PUYO
z1LTN>CRfXRKxo;?x9nVW?pg{Cu<@jYFK$7jwy@Wy5pSs!YX{%5W6`;DsrdklMW^^t
z(<9aoUG&bmcA1xhrr@Tet)5AA(@?{*G4j)Yb{_WXs9`ZXX2dk7$ha6vP>vFK6$T6G
zs9|@^gTWl>v&_ETUqw`AKpK?Mb-s=O30+54Nd994%xru1r)Uj`tzSfiV)e-9rz*tO
z&9G3t=|S}-e2pHbA#5>@aDRfxX%<NZ2w-eEjPKcMB5qZs(||EpVxD7%b!A1fXS1U@
zv-n(NVr)ac8JDu?fI_LEh%sKMBrw8XVM<xQ`V8SS+4HDEXC*gG=?yGl6p?`01e_8|
zSE0pMd`3r*0I9|}u7R>5V)~W5v|ohQX?Kbbp#}@2RdZ01>3$(nuu8YHxf4J43{Fuk
zUWQY2xQ-F0{!6HRu2TDiC7erYy|5s0qc`S`(eyRrQhFn^%uxj}iCmz{n1Po=s4{st
zyWAYMj(ekJvsPw_(w&hBZrOlgAYSAoE3237>A!$?1Ok`LOQCu;Kanpl##KR-;dV^^
zOSUuAo!5Sgk#8n(xR3WKfkvWBSO{S?p^HOO$czj4KJqXND8{wxW_!uHSwA=0)uVl2
z4eF2&`pXi__Dsj=z`fnWaU2L8mcUtJ`=<ItxBNs4nyFkZax<|0aJZgs+1ABvrnT7?
zS|4c(xNc@5GgGo6Ysx@EZ83}0GA$>$(fH)VQEqP}GPOSvjmm@oRK~l?qnWa_q;djA
zT#mHDqctu&&N(JJ$q!qeDOPh%hO==>hX{sIW{6+~XMC%a#d0-s$56pw4MSXE%U!YI
zd0<z#1H_yGa*h&*+#2jq2!aTpA#+ajJ+UyoStM{`3q#M;;1ZcBujr=gNDKK0Gfaw!
z*3k)By@`-}bq(T?agAc~34&z9#5E8hd!L8;jx$nc3B_3pg(f+eYsvhggQ2;@l+~u^
z%1X{6J^c|PmrYejmLPg*ZLYN(JI)Z2iwlxTSP?S`qqDa6_V*tP?e9NwL_UaHIfGjb
z2Wsgzks+IDNXOWuw*&WQ^pvRQ7zso0#b_3SHM)FBOZ7iT*i84c=SP`vlUHd{)QOo2
zR_AsDxJjlMg{l1CWx<>XC%M#g3f0^B>g^A!cQSn$GB4`pUENEbR>8BG_iX-gw%NUf
z7Q5aX_Ura!)s}lF|LCnhcuUxJlHYc6(RJ#Rif-5&Nyo=@@WmZiX{z@DzBrJAt&o2U
z@87~a>v;dVR82h{_JSXwW;0*289*4)a`>q`-&b@!4@)Gau%3nR4<^1pA#6CpZ#c5(
z8vLZ9^`$d+<oSxO<>Ay8xBoVlAN3Dh2j({lt^4@aeGgj?B%2Ok4()J5Ck&=Z#lE@0
zpXB1)80Js_U}!oXcsds1Ke+N=T}fK^C7t_7%L4Xl9lX6`$=M`0H}K94;Fe<}9>A)r
zagc8ueAsv_X@_t`x2~`ky?6NP;bi&xg_A#c>-%pBy@&bU!;AJKpLn`bH5*a{__~w#
z?|kUrt)hTFCWEe4zPR;4@uA<#kpwGGZFz)sgTsEFLVv|0<+<Tr&L0*2L7~uhl<zyb
zXg~Ie2dfQew$b9lFq1qBWdhwXY003U;gbA~&5d`WkFGX1UL9um<+e^|v+#AI_aWnY
zMsD_u=(wdBGq7lBkYg9V=Pt#s{UTKT%BF>?bE33RgE=D%&0u(DG{**zX`Yl?0y53x
z{sOmL5)L5YRmf7{m@)yV=pidk4Aau*LlT7os~CaMqJ?><93mUKG7znxLt1oYh<Uv<
zzA#BFQwSvixCVHtlmC*06YDlMVvzx!=tv_$bnEO&rP9;kak&RbWQ6#hX;!*A9_nAy
zcy$%o$kId^5A{(QWG^JT5z4ywvaZG60ipLOkH4~`a}J&5=?1=X!{X*aVe{)e{wjf<
zT>jYEyb>x^#Y|<MAYT$p`P)-f9Zdey$(MCLby^8a)hc7De$F^#X&|Fy3CLcwA4`i+
zH&>k~k{6vG`L|e}?xMk@D`AeSFRQYcllCXqh8zvojAB}!$ogfRFrCPT3jk8MIf)#&
zmV^avZXypZ07>BjloW1$!Vb3};ecyP6v8DrfxO^QD576HA$tRPA(ru^FyY2?XQBYE
zD^Ud3o$$adN)-RH`8(z`SW}}Rz~Ci+_M&;V43rwY;zn9Ny4(z2e>R|$BR7LVfQtbD
z)<ZF31qV$D7i=Yqe<Mp-t^jI*6c*UUU^fkxkl<RS5=Z-$0a=Zfmxkw+U?>70>)IB9
zM!R+Z@svPTQG?9uZplaTAj&{iTQZ+xY&jS%4SUB+quyDJD1bdJXPi)gHfX0O<C1za
zL=P1&#t#OO>H@U|Xa|FQ@0NW;pDkRB)^5qKce($|IHmla8C#&dl_(wCpwC6}hfAqh
z!{ryyp4?&Zpkll-S~cs-<N@mGd+~aPeE@x>b}`l?fqu<|c~w4CDxjxW&;yugye8_O
z#irH^wN2%V(`?LJ244HDTI^oQU*rZcM&^akeVJj<jxgN0zFYkf^n2)Hd|0J@jHy=p
z=x1rW)%vNfeS-c$28R0LaIf6|hKh-0v~H1LC}{r>8>#Z@jQjU^%&=TDQ851l9{hc^
z0rcsSVGiKjv_sv2(_sE1rGG?@NX}o8^Pk9}FAo;UWjdq_i2%9eV7^qNWs3YMIX@=n
z2|0g5&LeVIeuv=u5q&RkoR1?dlan$?EN7I<Q_4WgN~4eRTL}u=2RwLsk_jPu5Z_a6
z)yf^B+ntm{gIEA7qzUZHPK-n}Y*y|+QzmCA+S*gDZ%{lMwhb+3NMOeOHaRBBit)4-
zzUN%gu3$T@h|g0_e@c0>J@Goa%_iqHaxRcV>u)ZLoN;o}m+Y`!`X;5OdEn<f`_c6V
z+TG@8r-BQU!z#gOB?@Dt`K&C94S%JzGC@twG(CH*%%EAZ$}`3OH5?h5HRY*KdODN#
zPPqDYT1tmSy5y<48Tswgi=K|8y(8)AP=Q*1Z1MyOKB@36XXE#8Dw>up`27^8dUh=5
zk<V)Klr86z54(vC%Qo`aO=We<4)PUJJSX{Froh%^H~ET86^+Xt@)euv`<6?{S4vO4
z@GX~_DzH1c?m_vw<#M{Oz-FQl*z+K;XW2(FE2)$!@>NqQHRSVCDYfLQqkQVg*Fbp(
z;M1UETTJEhZt06pxv@bg&D*PPmp<?`CGD@zADrKs+;}P(eEp&Q^`xh1>E!@v8T@P?
zU)?8EZ{e!}jhO*ITjQeTs|%8h1_nRd{J_!7;Ad&cUYl&_eW03sk$yrN!0acU*3|)K
z0V<2K;Hn34cnYYf0u)ujimH0xsA5VFX_?ZlIP@F>51fJd=I?df>A2_STejT$%7d1j
zf9)E4<ZVbcZ+hU}lyq%MdN+OIZAjGt-8TbpwiXMM0M<CEnqaEyND8~^gcP&=LDTkI
z@%slgX^Gcf28{{3yXYsCP&Pn~%L4k`Q(m9oZR5RdNpD}$)d%+zZzJrGRGkHQZXCUS
zG*#?R6<4a+QmL6mK2wDA)K^Hf6oQsIlj9J8cm2;|K8`G24c)h_k~punwb}$Ky00Xx
zz+0bou{Bf<f^L{Dn{kTJNogoIvvG}q&Pr-9qC*o-;>ZZ26J0XbuW1Rsg)*LCsfH2c
zk<-Iy;c`I?M$k<N<u;SEg&Y?-UnA!oa+p@tEcx;gJp+%IE1)nNIe$!1Xw8y=yvy0?
zDNxohveVN-@;S+Ik;4#ot<c@UsvT%nQxt{`AY=tc54yXT5|dMp4|(h=90t1EXK8*^
z+PQ4OFS>DI<xld+7dO9=g$FpO?9$as?_IfiW!XXjh(Q3n%qs!#GOq-{%e)!@FS~s^
z=RlUFNDshE_XNO8zso0cax9xN0C*9yY(H+c6zULo>6TtH9Rx260tRpJNj~$Q&vIwr
z@8Vv=-^I;x&kN%34rPG|JqsuRWGMK%>{i3yWw#RkF7rzGyUZ)$?=r83zsqhl{9Se{
z;qNkU2L3J!)9`oMt%SeJyb}H{^Jd`hvM>pMmw6@pUFMbWcbPW>f0u=2;P0}q4E$Xd
z_6+>pC+#fOr5sZ(0J+VU;+t`xLs^QSWFz1y1xRlb_019dSFaA)_vAOxS^v>t^S%g%
zEpU8Qgxo?P<T~<AYyAt?zYs#M6UeYeVg}bL;cg({7Db#u&~=6hEmy*(Em3`?@Of8B
zE5$8~xa3sj5jW6ui^9G&<5!}jD#WbDZ_S!9{cAq0UGpg+<QniHLP)_z;fA4-X$!+w
zZVA@`A-9-e;g&$!+rags$4X0%!{j5#zBJ7f5}vUSmK{Bs6msGSkgluHGWh?oaETX2
zf;$o|eFiMt)dYLlz?uzcrV0><8ty|72pXOkh$4U8^cy)J;X_Lopw$fH80``;4GdXG
zVS<8sFn0xh=Np9IIWTx~1%PKP4Z-t8z&ibs$~t!%)CLP*46>8$DX=YuFj8|6cS&#)
z%K5Qup-mm0YoteChfh62R@VNaInhk3;fifwBHjo2!;wh*{A5_gqx_{DWb%I?)ldK7
z@F-stOw#3(0US3yQXnOhMS<JLna&~K+?Q<H1h5D<6gYDT-jNQeu$!9OR)9kO&?=i~
zv!(gBiLu`y=RI<+!7;{2{5RNq(hn;}dVNqv!)fz`{0H<woKDSrR)z}*^&2jqo+k1L
zZD|JO%;ryE&j89dR^SFo&yfc9e#-L#JkOae(1tRjZM!jfQw$lZmv*Sy7|DV%E}+c;
z!;o42<O3NnM^TYsR*)Dz>6#_9J)7j$yV%E2(F37;qrPac{mWJMO%Sdoc?pUO)x@et
zqga<Stp+kK)P+6*xYFuEcJ4-Xv8JKqX?01*h?6pe`x13A<UV#43RdMi?e`ebny*L6
z)A2nGw@$|$yx^JFGkS_4-xJxoJfENAgzaQhi-I(4CynE2*iIPijdqxdGwTBdF?H|A
z=u@EWn&|5A;(V!CS+3R}!!}*s22-6?-Y&w8GUAUt4L3?H_$7LtA=MavUXEVZD)c%M
zF72&{YNU!)pptG17sma{olz?psjsGCH)_2k4LwWu4!HDV4|-37Ql9q9{rGdDPA%fq
zwb3(sl+hUHUZsVc3AfflI-a@pJkyo<ir$YzjxJB*_rj<aMXS^T``d=KDAL#BGCOWl
zvwmcFYQ;(eVJhez{LxO_YF2*S4czJg$wVA|yPlnw$}G>sJe)yCr>8PSN1e*YuTd_)
zOV0P;1WTAaO3Z<YT%XR??*oePTjUV*m}r@az!p)oo?+)Yb#2JRB4hKw7MkLHNNN5B
zIb?n&L6Kzukm+sazD<$Rr!W!#nS*M>MWVwv#xTN(cGO0@D^d<e1k77#YB(H@gvCbG
zAi_l>;ZXp~G3+v?x;F)Dx=}iVR*ola!dxU$KcccPk&hWJ{yN>Nj9J@yZUJ#;x}Iaw
znhs{RfF2tAC3GIlT#M+4rkU$AKqxD#zkLS!EzoB1Zn#&(d$-KlQ?|03yB^r8QnhUh
zSqop{*X;)C5O1%3RNI!cSEp>=n_UlVm8ss7$<ss0FOBl2NBQ0{-roHPA@*+Q=;@)t
z?pnTQyJJh)y(zmR>FVU|ohjr|RQ)tRC+G(#*~YEQHii^tDcv?#fSG4L4juRNR=)vK
z7|venyWS^w0=y@%1ew>NtA_}7%;ioNujgIs$%<#<`UJCnLC(M+bC`-7pP2HB3+AkV
zO;dBOm_NN}-9Uh0Wy$(pcppOqec<{5p}3JRZv5@(58wIV9Y!&T?v`k6CR#Ua0j&f<
zW+~Y^m#?RF1q9h+oXFOEy;&$~;ENjcwEB#w^aMa99k8vZvV4C3qP2&p^d{?i7OlM`
zZ-h|a&pZ8sGsrt7^!Wk4ec*v}fDZ6;4lLo!s=ix&g0G$TwNtSNuO0-8ZoZZTntIjF
z`?deB_b;~n={ANOh3vqhd{boyDpXm31K)KuO4hDV_VzDY_Yq`O^Q~r~qK&U;lXJZG
z&h0}B?mrCtQTrdX1IrAD@WH0c*ADP6U%{LcI{*r&leOIoM{!vEBWs0Vt;Hr!%HdnA
z+9Xu%;;VKERr~p>{Ym=)P?KMPZj)c0EDt7Iw=G(?Q>|-~En63@bi^9j?GcU@dX5a5
zW}J=LanSr&Z(IgMw~Fsq5CgvWdzK$KzVCRNZSLOjXvbdAE1|RPGaJIQ5lj`Ktz{x!
zA(w*h7a+rA)z<&M|4)wmcSn$8*9r5Z?R$`=1bo$RepSd<c+n-{41HX%n_%Mh(TK4V
zcN`B#e@-|%OmAlAa|{b>TGe_j>ZU@<YG-25w8PwK(L^7hCmb9s>p+im;R7Tufs_#X
zMX14t5uqe^%D50}FzpYU?`C}jqUeG|D|_%H*7vFcBli|DBt*`a;oy-M@r=gQl?;1;
zn5&q6r7!+h*BYz<VKFkcz?e$*anGml*YMPqOG<vZ{{TvUv{+&7R|H-|n|Ae+#0%&|
zpxKf{3Af`#+Lo5bv!!u$ac!Iy(8(YK&kTBpw7^!TEwkRZtV)H2Bo_FY7nFmH&n`ER
zjor;oJG;DWwtN<fUq;6&%=!}9MtZsox~6ir3S5~)N`r-6SUL)!T08i_@Ko~hMAenj
zD_(7x^Ct1FX4XGjJ6ktfpQtlBxPT@NbcHRnM8mNwsyd&MHCUoDQGGTGR2obpjca{3
zR}lk1ZLLxgb<Ec5YGR}Sh??BZQ(Egyw5L*wMD19uM6cde>M&cU%ePJ+L-M0t{fT<O
zPuI|N)M#mP*Q)3>vsP)C4I~;2TO^;@gghEoma=+$CRlpoMN_Rs0g0z(8+9koqYX1J
zLnxH?%vh*R1LVJrI0LT$0vnqmh?;GJ;HzP_Nypg^gS1V?wMqmKzRn=NFHy(ZpnK)B
zu>Gz>QFWYchVp44>zU0u3VK$iN;I?l3{)8t{;&xrrOV?zYuDgx%Y;5Z8g4VLwet(R
z?z%sczc)&biQwuj4=!xZC;+#s$5(sG3#D3%f>+v8f`&b%6+I<5+lq1QecdRsb!EMk
zap1~Jk0rBhy53;aA6tz%o@hb%b_0sgA2BwV$9ArK28HmpyG0+#-w7z1)`at^N6xnE
zXxP0nU7~HQ-yjrYU|2ms1WK!pMEhNj`nGi>I$#}1OHFne!O$mOY29@1nx3bhp+0wu
zl@WiI)h1Xn`1d>ej~(7^pp^OLXU{Fa?7tj|cSx)L{}oKRlOrix(n?!&GISZm5D(}w
zj>v?fBpSlu@HBnoIx&m8lclA)lgCsz#e#5*3{pZdZbb3p<hPiZLx<D@--a8Zr-;Oo
zLbWD3IT=4MW8AP)tVQd{BvYh}1EVM>I*FD2?+{s8CkKQ11k(e6crjPP_kls7oD`A`
z#b=j6<iqjHQxUO9GOlFnd_~dq8z3IXQA6+{=1RtmVt(x6=(+Lf$>GsE7VekvoV!KN
zcgUgW61lljtUI}@N3k-C9Fz>xK9<j~Q0iYL=bw^ugPfb>uxwc=zlK{eS0WotLCHiL
zF-!*a5ev!UXLRCR=qz%d<iM8U*o8aUQUSk7nf(@=U_JML6Q}ZE`N*sh*HcE>(b0)a
zjnrSECM0c7F?aORSprq6prhwTCZk|(L^dcQp~|IDWD2KsPe&z<q!}t|9i{WG5?{<7
znVJ?G=qb1j;Qo*Vb0r_UC$$j;LXyPfDBmSg5=3^v+3AT9lEMs+i`fv^h#t!2V&8CI
z=o~jWEm^-xO9m3nh|M|^Rkig(Mg@@&ORUyKH;Tk0Js%J?OvpnrAF+fekh>E!rKfTJ
zA9x|=ygeGZ80`F+DZq-k(>U%AEs-z3ns_Pm*h`7mku^V4m1fGZ)U;xOW}B)zB<<T&
zC0A^ci$m#~y%u<#fu|+C7EBx#3!OvrrH4?1I^@QbEtOrPeIZ4>7KbP;Cgu%GO)KV+
zs103JEX|A)LKi+aA=;+m3QN26H{EP`2pcl>arep;0JD<Yf!+YobCyn@PbVeT2@V))
z|E?aW(+h5X_UPHc6oUhp{KQUU9xW>dFBJj)<~Sf$Xmb{@@DQ&QRo?DNx|`;5Ke4%C
zIrhHemSf%`H1FW?SGHqrV5zkHX7BskZf%>#QGX2OYCpdYSm^tc17Cbt`sUpJrTSJ0
zuqajGOI0+bs@hXU-c%WMKx@h0uq9O<NY!m*o+>E%^5yHEmfIV;A(or7T|0gAE6bH8
zchQZ!>v?mQR9&Y~*URJ2S~FL0?a<$VrV8KtO}CnE*WPNGI|PUu!pZ95U0td2S{$B`
z@&{AZ0m7dz{M3=_C``E^q46t!RWJqyypXe=ch*0I_Nw~<Af&vNH{QAaPO7Blwl7)S
zp7K?akV`HF;y%*(q$3XOrmCj-627uy?g-#`sMHSL)ghJo)RK+zY%np^mj|I93|(v1
z^EK-q*5G7@N-X08twO_5zTqhG#@m#Fa;&?Q7*kRXL6=a`$ybn-9@ANd%<N_pOnC{9
ztCqLb-mb%81M?+9a1$TgBm{Tx!5#Or_~4!gwmqp*pHSM!mo^HeZG36l{Bgc?U2^>%
zVf_HVe&FLee*F=?^axr8@L{JvI4uPF_&}c!*vbdCCbt~{j8pQ&(8r17nek+NIvLpd
zFz_~SuX_{#$#o#vTP2jPLx!oMW`-a{0BEU_N=+P5UY)AxgeESka-;fsH57)QdJ4P+
zb2exZ+e>fah>C`#h8CgW1mAEXRm$pGT`yF3^VQucUu&wo3L=XD(4A`M4&5rl>5s&t
z0ls0tFfJJW)R8Agzgf0iWU_mu(->|Z=WYJm{U09v;Hc2BiEr3+ua0ln_Q19c+_^D%
zeNrfG<x5-Vck`v43#~%;9=?0e{oQ=`e!g@+SmO_TX#Kz{_}BCP^@4vR@85XOc7OO|
z@BKHEr_UtEE+qXMANt2}R^%gpYtmi?{dap2i7#7kwWi#@n-Sh!fBTC`bVG01jZ4=r
zrAoaw&Rsu;{^Kh|H?_lhSvvJIRf<-xym96F73w;K1J=QpcK`(}RllCNQBrZ^OV__d
z-1OG{q{PNlv3-I0EWQHWeW|WlsN2rhZ3k<l2ERSC(0i}$Vd*yN`!zi{CjfoF9tTU*
zK>yQKpS0FJZ8G_4g^C`&qUX8GM*A_cD@^slwF^WArP5%BPo+t^jif1jr}Q&v3ey%5
zGrfHdg<xY1V48Dt<Xp#i7xQBV$TWbxmYrs%0!$vre@O?JdACN)89KlefEc6$%)F8g
zF!M?}z|5=Z0JGb{Y_r9oR{_Q?X#nGAIX6E;X&3jJ(k^bG;$PPUHFapir|KF~Egh-#
z8&j3IZAoo}Wk7eT!k?<FO|9#p+ulu|wqDM%)Tb%!QUFP{-S2I^x^+2^-D*m^>{e3R
zWnM{Xmw6?nUFOx4cG<0_w99TKrCsLDP}*f-n$j-2m6UdwS5n$#-VCK(7A7g}GOwhx
z%e<1(F7sw6?Xs{8rCk=*Lhx#dTZ#EFU(>zJShV~MrQN@4r<79Xr7kmq|LWB$`<`^8
z5B=j%%#GMo1zQIcZ0&2Q*XEnTbuXk~TL=Zx3Y9ymCrpaBM&T|f(7GdqP_iwAlC7d(
zo33hGx=LC}!PW~!Sxwcpe9gEOD8&bb+)Dgbtr@d=&8MW8Yg8MF4nNd)Nx{}2#@Uu|
zEfi&on4+u)+Y0sE6qxi}in3pa_&h^V7Qkiy-&2$&)zgqB#y1qc8wthU%?ev4N}x?*
zAgnivk5a5k2VEtVfmRbzsrj$1&4ie$CQLXtoEOdsTmKnaEJRx&?9!z-5^$SBs+b@2
z8T6)b{@V&ByK$}Sl#;aHc!T0M5=)cFD%P|LH`dM#DKjr7lBL`XwnWC(&aEXgFA2~D
zD$1%*8h8wbwT6l^L4z5T`CKZ>27*GSqFkm>1ich{ri!w3THY5BMUp1{K74nw#jL?W
z{6ES463uzC*bn#T@X!1cS);kfKQ%mZq1(R?>*25lj19f!$%*mHei$;f%UaETs6aER
zfnS2(hL}e_9Wcg@6QrnYF)Kf3$l02N0Fk(eUpC{4ggesopUa;^{~0S=P%6u7xVKP0
zEZ#3iqY=PMjfgHud=*kdB;Y6)1CIJa&#u1EzN5#F>^dph2=Pk>;1UZZSruVpP0<S5
ztwn#m|M-c4ql04J+Yv4X5eoNZ;w_B|(iwll<TKL2meE`e(Q~GQ{dM>h)E2$=wSm1X
z=v=9J{kOC%{zWv}PhUdwI%O|;l5MW?(z)^Fk9;+PuMG=h!MC0FZNGPk_Z<*?hk4)O
zl)VPgDr+fP*&|;i`(=1hUA(_b@Neb)Ta*61x9UD_5DtEkKlnxA;936Q*}0r=Id!oJ
zWQtN&Em1-1c;7lHpN7DE*Fr5{-9xv&B{GX_=e_MnZD+^Q*YM7o+go^NN7CAnbap&)
zmk91U-d!iSTX}cuV&@*A^AO*8=z;qXu&0D#0<{u~3F>OGd!NvKnD0LPp!hIWsS5IK
z2aY(?9+e!HwZPwiRU~Xs2|jlfHSlcDRv=(IwqkMo>eRr`xSvlA976`y0+|;brK>53
zKQj(t3(7k_`kbIHj^U9z2gUMiwrc}u34)wqJI;hYx_ZgTMp8gO3&nGM-kvKR#f6f(
zR8~3LsU~}lwM$`Y>_}NKvH4jkSga<BrPgBA+!-xUi^p#HT5<GB^Xg|=<DrrAt)>HF
zG}r?;#B$f7><@=?wY_4dD(}?tR(u5Zqr`_wJo=4vrK`%X(!y-FhjVDVG6@^@NNvh4
zN1BTLi`S1<ycw6)6XNO<BWND*fb=eKrSX7N?2UL}PgAkic#x)IulB8ty0TwQtw_<{
zxYZmJ8$MHM1``6N*1t+=tMJE>rq-|VCrz#Yx%-F%eI#3HpU<O@q?rS#%J))#Aa|AC
zLFNEPy`wPA96+mmnmNELZzaOSQ>R}V?cp3Ys%C|46E%ooG(mQ%F$&rEV-Sap@bXx!
zqufAu1-z0+(6l#+OaqK~1@I!>Xrk`cCY-NuTrld>uZCOny;y}?X?^PX`9vlOMtpMX
zO%inDrz`#4Sj8NmXsx~xa~jtoEcJ^DouPxla%8MQ>uZW{qFk4zQ3=(4jnbqUM`-U%
zx^aXSo@pGhYR|ux#Wk*4KQd37*7fHXADxZ+7JbE6=@-geKv!zB#u>%8%3DO{5JtVj
zlV%Q~y+!Wyw+K`jEE!{8*U|E-IAB<Rxku4h^r9op^Ye&|EsS_noMvpH@u+A8j|^H4
zlv7{fJ_k-c?-=s@9Pq5dfs%yBaIE!Yj3LIo<QG4Ox<9*@yn5~wufm<uM6n@viZi%l
zYz{^vtZ~0VyWyBKzw%~}{fx#?(6j28$ThD@E%owpZB~CJ-JnVxf3JA-CQ1_(x-XJB
z><OE6vo-BaGlxs`Pu8R`fTu=dm7caVGbtU-#cR-3tfwH2>Qem^l-{PanD)D>xn0qV
zw{P0_PAy{W#m8R*Q5>x~b#JTj?89iiQ?kmt;Z2n2-VL=E0BF<LJo;7D;#uZ)#;dl{
zRccX|C^f7_slFByh0MTCeRtTMs>zLh(W5q&>OrW1JcH>qn?f?58EQlMAon(eWRi>%
zLKEp!zD#>PCjErqke%}u9*s&Gdl`mlOpJPqvS5l!zXqS^A<H-@;3#rNIx$ZyN)IG+
zJ%n|yi04iVqiCARThJ$If?X!!|3`8jkdvU|Z<F%@Ilo0t7aTD!7J-6Loa314*gF*W
zhvbk%G}8`{83_IkJs75>bRysSZZ1jDnRQ?b`Iyq!_bAds+y=cmB`nfjG_n)q5|nTj
zj+jp@U{Kgl7zB{^`C$lxzf0*dn5ywJMTtKlM<nO3$We)id69M%y&_4eXaNys+E*$S
zr3p{dEdb5vLb028b09%w`_0S(Fjd~5AVKiuefM_rW!qs4Shn$AkFezskH4}*A9K9-
zHL?qI3N{~a^WBV-F_yFPw)ue*3Pa8FwaJbnd<)c6zL*S+2%$+Hf5#@1v1$J3^fLOT
zd0*D2Cetze;I3+a*7f{HTB?uVNxpSPcx!^k-_eO=<>a;eM^4|(uRL&KBfV+fm)!Vz
za_B8#XpG0-#<AqY6u)6A8N0%7xPsg&cV%6-K4S4UoJzj&CE<-x9)BA~lfE%LC~vrZ
zVWA6I@auKCtRG93U6>ny##1t|_x^?CsW*gE5gvd4Z+q_o7uR*)iO&oS48sgFyoVVc
z!<*s#l0YDkkc3`XNU|i$wk%_$8OcHjNf%_<XeLVgNp?}<)KWGZLy}e~O=6TNF>c)&
zx7k{5x{b2^>}D=t&zRyyPSkC?Pi*0Jn|AyEe}CuBeavtNkYu}QyY~a<o^$Sb-!tc)
z^Lu=MTRr~FV<X!!JWF*LCwBx}wnE*@wOxA~nt*zywWwoSi_l$*s<jwCYV)Sl%R9#t
zC-%;oYG4}b6VhkA9n#U9hj5r-%n-1Z^S1IEYhG@>-a7egux$r=Q3-Usb?xXyRt0S2
zWo^`6+JRnY<*qvY$PUObNZnqd0J*f=J4P=|bj+HnKMB=HNbh9l%bJfjJTITTesZcJ
zxMA}f-q*di&Q5RG^LoDjP*31cAAg9Z(Db1*{38c3f6i++(WKm}+o}7AZU<<lhHmGz
z2Xw)fR)70pzUA=z#?Bv`-!w1A$JFfBLI|&IlQyJ08JoRXOWKo0X*gu<NrT02b&gj|
zoSik)-BGGi-Z=2`q3egH9KrTYZ}h+3f2()8efR6hY@(mwA3xzgb$a^o)BJ%)(6(pL
z4BQ^m9i}EerhA&27`i>9eOeb>w`G3AmN$H_`_Q=RZfe|m7-36bDw(m4O<L$=D%&RL
zWX>Bbmo4LtiQZX5Exk#Hq@j7M@u%y5vfh8_iRrE<{7<<9Po3tUq9610Q|FY*o6|Yl
z7D=z>QEHV}`y{oBZY<;$LT+lf*`vdROE{*xW3Z`dcoJ+UBw<GDW)ic3WJutC;|0@}
zqWO}Fm!7`%bfBb}FKPZ^`Wued9XAgJx9s-sI~dq^gvZ~OBf%}5{_V&4Eyw3~?*3`T
zPbx41EeB}?wrL-tAt+sUR})*hOY4V~PNN3q|Cm`#zpLH9ao?<U|GYKRZ>yL%G?hPV
zT`$0BPN$YhLU>Jlanld=ZzR5+c(W_GW7kjfev;>Z;>qb9PrljVcVkG-qpw5S&D7V>
z&4Z9io7O4YL{>6mOQ=l+VQp&jZ`eC)eVDbWe4=YAdDhw*HXfpEU|6%Z9Q7YR894q7
zkH0O?V0h$_xbIr!kx-i7eD&OG7hbt=vo+Yc<HtR3_CWi4y7Tcjwf?7Q9p0kbPH%pT
zZXb<C=+>*<rweZEn%~;><CAZm#Jg$Ur+7DH#xu5<#vwm!9M=2Wch6e)uyJrrv`%Sf
ztu1(?;WKo@Pd50Ud}_Musijl$INkx8a$LKEnnE`g+AV~3vnjcUP077FlEbnJvkyA$
z<7qGDUCW!?G@ZW|8o>UXT7NyPL3T2KjlXX5Tc#~{uz+{^9kr81v!*6m%@L@XOq(^W
z#fm2vv_DYXGF{vv<(xHbVg71=?WVU(n?t1t8AGL1PsYxgNXh$Ow7T=G$;lY7)x4v6
zVkl6vfybX?<4EjV2Ad$<)s3A^cbL*KB37>l&D46=t*|kQuF^Y!O%ivOHe(&Am75`F
zmYlc9d7GR7IYDyXA!m-9KPP9NoOj9j89BGfd5@f*lk*F5?vV4B<opGkF#8);M9^0L
z?l<65s#c3ClWGdqP|y_=bu*yK^|o8%!$GPKtn$c9EMtr2FtBEPHid$&&8-y=ErZ(U
ztzl1eiYGZ<n-8r10d1^ir8-`)9o0RpIjTFH$?B36c)d0enodnR=*zn2vtl(+%C#x*
zR<gt#V55T20fk*Vx5k?(*ckC<2+Rin@wvdZk%)3`{pXa7!(~TAEPsne93wHt=NPE*
zW`dL<*W!dqS*9Awk~?JTkZ^F3A}w<KiS5VQ?-<a#V^J~~$WSu2a)}DCzj(1`0QY4u
zwQK2+D3^z$rwSQ}sa<Ce5mGt3kV+-5J7yS9qnF@K5Z|{iXGp>%>T?QZDqY5!jsrVc
z?}ddHux3qOGZb=-LK<d6C6^R|p=hi^j`HP0y;_B=&(t$X{W*iFSF5CO$IzkIS2R>A
zwx$oWBJ%R)c?&OQU(C6YAhL>>dUdg{#8>Jo^SQibeHD>;G}8MQ-W0c6mT^*5?JMvW
zG4<-&r6sBN8b%dEM|G%I7lhQSU5cKlDA-a@px{d<d0b4rI@AlV1B{2?QYRO<O*Gf=
z{5KS(tEt=Syd_>2-eNIR$ZZyCQM&FJC>`R+NEdrM<xm<eS9^EvBziNLTP-Ycm=irc
zWJa-CG1B)F_m_9M)-Xld${~r+*0(;aSuCKYV%kS*f5hc2hee`Fs9amXcC?D~%2x$N
z+H$Cu%JXqkL`DR?RqB0X>Y-ay(&u|gNqeix6K&u2rLpYo?OYnKK06Tm(9*O}k`A$&
zpbBbnr_c=Il(Un*%Mq8in$^4~A{s$&32X+%Kv@=_Q@YsPsqxhgC`)`;c&2n$C@~FX
zriZEhqfBp2^!bHR+^;NO@JCM{F(2<E?{cmASm$Gn>U^xje5~=+tuP<!)W^kJi}**D
zj+a-MkB_Q6(e^#A5?g|Do=}O8M%-L}KGrLGLj=Bv%Uj>q8xe&dt+4JSamDrKded%X
zh#_Btw*hN#Y2VSM`NUm-uS`+veXX50GQ(!-|64g%S~=ZI-^P8coMo7MpX$nq_4L@%
zmcs^ENbX#*o+{_mJ+G%XvciBdXf;)qcOR?i4SVGJyxi)gzGkdyEj_9JB@*^29DVu!
z*{-zMtG=b!DL%b)CWw2zi}$@>^eI<BwO`4-ujlkD`Bc|)^<Rm%{)XdwNy3=n<WwvG
z$oLu+YwrWB_}<1F+0sspt@(;_|3!_XVzp7ul?NER$gky5SnN8g^V!bBz)bg?iI4!!
zaGql)`uhjx5-H^N90jO`fcd$VY-vdsoq8JZf0wodT^cO`k7*7U;T)&MER>ST9=GP?
z76z|Rr)gDSIi$e;^sCwzwOY;dC9z;JeLv>B7RnuTQtHP27ia+Yb2vcz&{fyYX@`_(
zd2<Qtk9!6HKESmPH?2S`Vp{pt>zT#z!S-q?qaRz_yL8z3Yt7%nYOF@nw2df?ec*EW
z-JZ#_ulZi_-8{=TZJ%!HxwZGFPyXad|C2rZuAZ5uo=~#CyBmw_zg}LcWzGKO`qd+^
zDA{}h>dJNFy_xT0B&yHTC=uogH$u*r(VXiBp&SMy@<ob$o*V*s5MWsdyJXHBLaz{1
zM;O2g_W~uk4ClIOd5DrZ<9RTL1qB+gPT^+|uMx;40x$RLD9;rg7lm7(N`I3ojTb6a
z!B^p~QX-b}+vK}M$<52Rk^6vB-X({PgaoJ}G>b8tzd=ubiwaA6@WRHauxoH!YdAWH
z&6&a99_WE)Pp`XosF(Xgii>}`caYfLz`X$!4Ab78i|O|a%*FKf_s_-lp8x=kH1ip1
z3-=u=mk?XHm&l>Dma~)d6>?%IZi1Za<b0Q$3-myOWZ{S?C2-@vPre_}Q^wl%lJ5r;
z_cELitV*L2R^=H1Rz+rYGj2F7O57_fANhWVe6;Hp<P2nPI6<Xwze~=m<lKOxR>>)W
z^M4H`VCcR`1??i|lO^49A5oirkJ^;%_IS<=dORlqKNGUl_#HH0F7cV({&PUR!J8VK
zGoKjj8SFg;Fr5D0L9CdhSQc6`x!<RvUL!{ZbcLIu2eJ$T`yswgaeqM0ACmJ!a{dE3
ze?-n3<lH3ZO>+L29EOqkBl7(TIe$vde}pr*22FL|&!qr2DO$}EdIRg_;1vTCKd9DZ
zRnFL|0=8D()(UZhWJd_m<h?{2RH=a85X>qGWL5E5Rc~k2T-ML0+DF%nSHG27_v-N}
z&&|Vct=$(atMaE6zmo>de~rBs{Gs+PZJ=#0-?n$QZQqQ2Ki{@*vhy2_<NB|+1{^gr
zjv9a4zL74!egAxR-gx3ncIBj&&#oKU^^PU`oy;=7walMc7R&>B$JoUWFe2M@uQp(r
z#+p8R;*@{j0$50=!B;{Q-R{z@Q@1EA_Xr^!+(w8tB)*qg6fAU29Jsb&y6~dEX?vh)
zKi{<9fACSh=~0R~JP<g1fj@k~|Cx*Y;fq(gZWolovFD9+y_1*$v=@JgdnU!>H+cw2
z<r719DQaCzHx{+Yh%UCMh%SUO^Uns+<pUGYMn)S0jtbrZw)>2ucD}4SP_~aR+eeoE
z0N>#tyX<7yFDoZVASVrcZbQ(SznGlh0>Vi#Kww6XFJv$fnquBk40vn{-e#bxjjw78
zRBh&~2$Q60+pT=Qs%zTP#Xw=of&CG%*Yft-$rPY?OrGWK&HmP|K<i$<b+7;7{e0^I
z-hSY6{Jg9BW!rUIz_p%ttq-_1@~(~kj=lc<2mA-0^zZBOA3NiJ_Bp?6<BV&Vx0c*?
z!9run9lKM+2C0;dG-f#&GD!`eRU;ykI0KGG-qFY!RL|Ri+>%FFB~M;?lG$J^<$-47
z$h*2>Y{O!fnZQF9ay3@_=%Hy#85^U6eA&UEosCODX`o;&U$B-?V{-C?Ma2Mgai#Fq
z;>(F+j{-j2RTC)N#h2|;PY$z@$YC*ra*RF-2pFp)z>urQQ+P|!g#KmAbxWYEjW27P
zI>MKA-0a}XI;Sn2X#3Tgu^ItoXA+1i4U@gRy=kf<(9*@Xbluv-x9sNayD^X=W4ehi
zY6=v!@<pvvUAOXY9lVw8f8v;b;IzM}b*AVHZ_U45R09UHVi1=Dcfk-g@QwyHgmt{V
zE)4D^khydS7jsvIzmh^|FR+%#09Y1|$3&nG-C4yHrSX*KXWFmM`~?1xj9&9`&CsAN
z`>JWo1cRPzq86-fq5`Ezo~70mXQ@1??_r9P?(gIL&d0HtpWfN?iA`9b7g;mr0cL)3
z>?8qS74zvN3zxQL3HnuD%H_lm+*LUb3~D=;I4Awe$$V>0K_I7|dQmjp|jf_X)O
zye2-ci7k9<_}n%01BcL8&R7nX24T?*<`rJOICc@1U#~ti_E6AK@?nkz;93QmJQt9e
za;q;V&X-gMN;dH&oAC1w*lF#XXqh}Wb!5ig5p-4r3!5QR2#llB6q34W31J*nY4VB#
zxnxB5V{Rel2pfU|O=;Eg%>oiqX@(#P#D0i>_d%yY<2axl#Lh(XW`1^WLhN<R*6wb0
zoWU&~`=joy++X1-V!Js5!q?O87c(gh#jF6AM5a^Kk&@0(W^&#mJ^25IbcB=?>kyHW
z$OF+4LP}!Z^&XwRLkp;_?bo&w+}47IMcgb5d4ffy3o$GzxN}#?cN_9WhprvEt7q{G
z-FlrqjV6a}%yu<zEN>x(!c`k@Hsb3CJUV?EzLF78NcC$83P}wI3HV6wR~(6rfI^}O
zl6VP0A+ewgg~Wma6cY0aP)N)xKp`=&428skG87UE3Q$PQ8v%vH;usWC<F(v{EEW`?
zkeD|ceS0bUTJ~ftpWnEU!{Tx^r4<W#%<I&o+ZOVfw?LC&UnpeWBA8UTS~*rZk;dDr
z7K&M1NmxOpEUqjJ|H#GS$`QA~hDd@!`lyPY2$CrD^268_)rg?$ZXD<<|2!~{+@@o(
zZbCasyeBlHCB{gBW0cgFD|BD!-eajreNJU=!GA2yZAA-{SHNQ`zNfm9fkOm(SL6k}
zCG~j1U`q3(y3_Gb#!W?xCDCU?9APY}l_{jPd(uL=9G-L_EoCsIrReE%QBxjLI&mkX
zrO{IsEc>)@*{6iZq*AhnjJK-AtHy>IJS_r_la1jxWdX;jgxiWSUKNhhv!E14;5b1Q
z?9;??^1;}rnj93ci6jXwSR7PML+a8<M;|VBAr(<}A}*vLtQK}5g;n&+ccj3HT)2=T
zMfA&eq>$yeV$>v?2IF^X+_56xlo=h3mGg@}HBbZv7(S7tA}%$<1xzY|RN+FBM#?Nh
z(ux2)rs|=5@tIqH@AUw^DDF3P?s&P(uWP;+>ea7nhYG~9)my?OVKhC`XadqgBiq*k
za#4Z;x#(}4DD0QDy9sGX0`761J=Z%hbYi%dfQy|c24&13hA0GloL@Q!yeJA{(VW)#
z%i<-uhMx8ycYpus^MLtr9yu{I*y7ypN{b3RG-n{XKBb#86YLP+eFdOs?kO}`AcP(v
z-%qh0nKQ8_hd_lmn!$5P46G>B6^~o6$VGBxoSPgcr7;TG7(Md~hyYGDqv3T?ii?yY
z4#3^VP8^SJ!L@oR`Ki03ZtbpK4&c^Hp@gRKn;10G7Ah)~5cVV~86x~nBcI$j`6!><
z9!TEACvUpBZYFuxNL<jCd(|>#0ep`+n3FfY_N5KiHejPo;68TcGdjIj@b(IZ5~Rpu
zNe@`^rY(7X!#;ohz8ScdJXC8=4w!O)VHz-%^QQ9I>J5SFZoaxZP`#h8-al>HAGD^u
zXue{e&0oV?*W5|T4qB_`Q;Pzr4SZ@tAaxy|y3U`{GL`R#IJ>oJKDE@JQg$~%PuRhL
zzQr-Y(Kxx~wOz05;_aJQi|n~0v0t(XTMR}vl_`xc&>Of6N8PY%3zh{ia^m_hl93lg
zN<*<Q=o;5Y44{b1P51~Z%Y-}T8#*yBL^`Dfu1{K~<bqVuXru*C6^#aZi>Oy+sSLxP
zkZV<0GNWkD8^EYamD?uz@Y6Sl;(O>%x)=|kNu_3^T;s>pPtt3S(og7a%Jr?jhY3-7
zm>`RdhV?K(*+aA@L+rbJhv2RSEIxHjVk3zK`ix#9r}M@SXkpTq0OeFlF~Jh|AkIz@
zWQ?Z|1QuJfSO;>b&9X%HA%TtiXSF_)5BM+06B2*ZXa;g2(5l)dnk7CHn?ow%wd|=`
zF}C;qF0;jU%Xf&{nng?phRPG_PZ;_MA;qZ8K64mSj6D0okz(Z8@Nu=6#)uGv)Y?i&
zEoyB|3PWm<+ZvA0p@?@|yhdm_<DJm;Nvsyw)`UtA8*Rc+QR{&<3`0e3X&9Es1I-U<
zjtYGymk_8_TS-_RYOPET!}5?@8Lo-{Aag>sm8)2FLf?t7u_m+)wO*uzp>4>$2-n&F
z_<Iqncz^0^r&=!vF+;5vsbPp2axcQr4-_@t`|tDPd>4dlq1KDEFk}n47hyOFpFl6}
z?_CfEfm$zM>rVU~g?-1uFbGKCxkpwsp^!8S<YR%_VHPQ+T5$x(=!PkaC1zufo$K%4
z50MpO7Z1VM%HWyPfF$L<hTpjWZu%m8A<Mg8rN~io4#Js>4?&bh7~P#S^`Gv=#vKLs
zoUfm=Ks{a5-X|?}V1`0<J!;HxnDTg5nMsJqpiIo$Lv}yF_;#N-3NCj#N?#i7N`v8*
z(`N+JyiZYsnTP?C9~h_LHFC^YX}Nc?ZIspgxg+#|<OSvuFd)D^MK8E=q?t?TC5?N+
z9}rmE&6Kj8QkqV&eSZ&F@k1V0hC(7hWoyd}{&HzlHIr$eQ!Hmga4w1T_^EvG?P2P7
z&P-<^2K_on<Cvrj)-{9>09bqcR7MsRX{Ul1Hh?f}gbl!aTn;_Xg)>O|8Flu%Leal*
zbtjx~eSa{<HG>=Q1%`A|il(43kl)1TH~E|Q%;fL&8*-s@DXCQE7KBa(rcI(XR;2=b
zm;u|-p+H_8k3U#aP@3L7dF3RC{;-CCLxyv~!qnpp8AcfOO;IRDH%|7=8an1-IK%EQ
zZkjbThuPj$R#Y?D7-;C^@n`LX#Z|JK8(9U};x(ijVT)H;MZ@G{vxW^+MV7y4?W~~*
z!U4AI7kyWJ)0yoPX)otp&jZYXt9``uUP(R7X!x5CF2raOGLa0dk5gl({Pv0uG&;L6
zXsYnnbn>Q7dTf54Os_y$wCz&c=#J^c;$T&^-vm=5qus$==g5{X?Y^B|KH+}(^!3wx
zcH77<!bRBf^6u-q`JC2~?j^kx4D$x9xzZR0GYZ1SZ<U=}f+B#DVW4-{Wb4iTS<^l+
zsG#IeW{_i;8RT%|yxU=5mj)_i2bp=tyC)y=7k11VHiapyhhEKS;`rVfQ|aV6jESQP
z&;iWkuZ#pBn*61rLKb|N7$t_?W@RyCfLJFOAXc_cG(fCS8ecMsq6KJacErbG0)}iq
z(*VY^*&*A0hGu@`>{v2@VxcwSlv5U}W>A{?95Ir2@=IQ_U9$!98~FSN<*Zh1X+a}e
zS^yKwxe5c&{`__R*1fZahcT4?EK)y)CFMJ!5tMq~S+6WtwXyjPC^sMF=7g2o>~Dcp
z<~^)jQb?XPY`zUTfF3Z$Svj~R&F54GavJ!Yh7tW+2D?BU=*Bt~u9izDZQASHeN~_Y
zsETr`DXqG-Oo>m2?=Z4QUTWtxkV;h%a0Eo(%UbT46|BUn)+Evye6cI$R@p^Kx%DgN
zj_e}BQtr4Fb1zqSysY%<mFOl=^8J0BQw@rer9Fz=6!p>f8tC1Kty9}44M}@YHDa)s
z6K8S5dX%(c8&rDtv9&=jv|+iPQah=~jAR=prH|SwD7?z)q54XFe10lcBdhUxwIJF{
zmUOX`%tR7);Rz@dq7qWX6TLS!%9A*+ghHj&T-FZMD&Bw!6{61})+gT;Z$Xv9;MN|~
zDM}?)b;RY30dli=vN1rh7JC=Eu&Wh3a1|x|Dzr;F`~8ZwOFBLLinU8xBZdmaSE_!F
zQ8QVA-<ZUH5p&b*P)n=&O)#=wphiudo8hyszNExZN#$}oM4zZY<x2?rRhmG-49#u)
zDp%@#rC6GLM?al%Nc16ACGCCoezhg7ruW9M-kZIWVmf+XqiB7t=$G&J@J5A}sM?fP
z9RsoD^>S^Z??#eHN%ScI6R@6IfE6#lIc3`$#k}$zZC8m^ZHqV?RoddVGIezmb|flK
z2Z(Z9Cf6zYLUVYv^{;L$OkwXa8JO|%Sb%meT(Az1qFAk^^&d2d)NZDDGN)(fTFya-
z(rj|1<Ecw0=n2%~%pD>-{2q!GXb}<t!WGN?F=FT9=%n0pGISphID})Ao+uPdzW;BC
zBJ9c$>SEdlRJ3r=C#t}l(R1p|&~rWgCr)~Vw$#&cKfaecPLu}jhg1-w5)_cnOU^hs
z*T|9D%{5Z4jN@m9&cdz<@d10t<|^kQjwHt#&gcy$>Mf(8&}t#5D-gXw&_!^O?|;E@
znIp*vtkqI=0u?1>0#!Kc6QM;J!TkfunM(;ZhUh0}1**$jvKUvtG)g3Lz?`a_N+3%N
z5|1N{av%^4euU`Z&8s6AoZ(J`Yy*OZ=fv@+hX#9kj}3vILIfjlh%aEHH<-uh2h4gU
z*{uv@)bknjlXZN?nvq0UlME!6^2w!v<Z3>-dL&LhAa9#VECh^Jpm+^myk^o9So;va
z_Mw^LU9eXP(cM5%BVW`wc_6T6C%<OrOi`ELls`|hi8Xv)&7?k1yOpoqI+M2zve*!T
z4CGcr>~P{-pk@nSvt=f?b7c3Obo*%Q+v%m3weyvAFYmg(YpOWVvWIWk<KO!*-?DF}
za(|%mAYXZKJ}v9Tt}9)TR;z+AV#)Yf-s)P6(;!dV^|q<>z`AaJUH7fC{JOm}6%Pk0
z4)7HR<SdoQQas+vTgk#;DMTLE^Cj!2_VOhgf@$S2t(sQ#evFQU9G&CIJR}|CG$j>)
zed3E-rt0|OHh=p*2zK-BkMP9@FI#|>2)M6wP(>DP8guTb2h<P$x*fBoo%5y~3ay>8
z%$l}`0)PTLFl%}w6apaDzPC;L(QqK5G3%g&05)$;e=+e&;^-m3FJ@Q1+WA`7D_ytZ
zX05v++=(MUp^U|pB#m^=!bGS+1KB=^0tSlK@<nS`$Vs?dF~uxrK5}BPny)tpD%$vp
zwiR+#wj*aH%UOn;6}2yyT`voiujk9xuaL8%4LK`V&eBDrCO1Ej)5PaA1x;Xw7xJb;
z<|*S%Wl~JQ<l;@PiG1EvNjOp+JpN1_YL9~;+U&Zt>uzFPE{?)>7^F?Gj~4s$8~tl>
zYTp5UkU;iYK6@?8TL6L(^OW+YQYj{2qPi!Nc~ixNJ5arm$De7V+GDx098{JiRR(It
z)>*^0JK1Z3NvVOPB0i~znQATPQ_BOXwR~#rWHMOzEY8KJx&o;+d}<AJR8s39y-&tS
zK^zi_G=<t9Dsmno|5RilpH#@Qm+`4(fz)a~wR++#pIR3zD0!*oTFvCc(*;c<LoZzX
z!o{imfwtXz+wS*cv}t=`4#*Zrjm#6OGBJ+PWu#uz`y02+8anSlE`RG($BeywL?03!
z2m|b*6C!<y?*2L)Qub6k=exD+JF0z7GZgx2vHc=_A0jS%x23(j{0IOe8YV>`ok!(o
z$8|Si#JwKG!eYC*Dq86APx2){#f>8>?VSF6UC;0t-0E@Tj^LZ&(sS&aKxA3rbMSTY
zv2OwopHhpIN%IbGT-{O|9dhhH(>l8aWrI%3;OL0L*fE`$0~o$}OF48n0_hceIvJh~
zq?hyQ<-wE;`pdG9Zn?U9Y`5Q53Bh-(aX}N8U=)ZoKSpUsrBOw|h=2A*Zea|Tc_U?L
z3W;;+h!9Q}#JO~8J0!2JhenfKNTKq6kV1NwLy3yCQmhz9JWMtDj$^tlnipb@>W&kX
z7-}GaIk)DV_KNO#Lo6vH$B5L15FD7Qxw+5kc2Y02YSIux(wRq1^i7Sv!Q=+cqBQAL
zFZV(mGau}j2(=E;QG{KfGicRL=3*ZFM$~8yIyE6UjF#G2OV{TNRi?NhZGj>f@}jn)
zrLp+Ugnmo=G_s=nuSCmYMWBj(c<)RRJqC*Cdf|6HoWjiXh0N-aY}@%pmx1fX&zajz
zP8a&hm14efW#mZPHjYdVL%VqS=V`)<z&4HFrIOfwkzO44_f+~%$oDY$NT`gX<2|>J
ze2<fpO+nTQmF+ca07s~8Sa-fiDe0Fh=&!y>J}P36Wa-#OPuSr78G^%WSGVd6dip&_
zhkBT~zZ0j<^v}^+Lj!}g29ot@FZeF`7>u*u(Bv;{nt=;QX9x74>Ul@~h#rRUz(EjH
z+lW9sZ%LWx3{<Y?E7wnX-Z=gGX}+R+CUrO5@!rcFqx-+S%U{vWr|zD$?C~4+_$_;w
zX}comeEBW4enTzX+pv~ys^(4A^Ood*rJT2v2Q2G&%eoI@wB{DtX*C5(y7`jsnUXzz
zeE3t#{i$pHrnPV(&KAsD8-&Gn=SJSSamKj`%4s3}7O|1Cy>9H-N;mVRn}gVum2~hW
z9YK5U)#|ZoDEg&A94-Oka2c93;8)*A5$1R*BHo<zcOR5$()NTjNNkCnd4~JdJN^rL
z-ApO}Hu>Ho=jY`7f}A_#{3V<)$VmD~u~nVad9kV|15OY=;gV(Wu=-gAO8KC1r^aiA
zaBIwODpq*;`>RHKSA+WVCSg@jS@UniiXdVP0x;c|;mee1k0?p2Cb)}Om9>w)?|7mj
z!-iOC-4=U`Z%7QR1!SOIlGv^MOl>9iT40;bh_YxDBQC_MP%sgzBBqR3`i)0ih*evo
zHGR&Aga|@TDnxO`UL~%3c=PIUAXMaB1vm(%wZt9AY~cPHRk)1Y|HO^EP0k!Se-39Z
zj-6HOLihSPvyz)%7apu<Ct+d9Oct;O=-mil0{=)p>acLOW-BB+__N)Ul~!E{Xlc|)
z42oiHic|Is6*f!GTjab=PJo;sIq#4o^+SQYy2_ss_W>1fmz-F%YmnY{*jZW;5LR8%
z%^I#)-KxtVL;jJLT70Xp)V^O0rDUjf2dxKi6eVF?9oUoxQfho;+EVB@JUn3>_xc<5
z`imc)F+A+I6y7PS6tr5Qc^$Nu26L){DVe~l4`yP)stOjh2D6HT1x?J86UeINvudH#
zTWsVF`6H&wPmgP%m}+$fO=fmRkxo#;>Bfpfigb2i9-N}`gQl#Y$rd!F(K^YLa4UIx
zWzf|b%&Vhn>6kz#6X}e>J`8Jl`&#B%!`s(@Oz`6AE2o1Q_7?}P3@p0RX;YdmZc5`Y
z7B2h!s?Yt1-WB~!1RXl|sZB(Q9R1um`X+KF3Yy8GMUhJ)AH+*FoRysD%5_^QH90&<
zOdP~yCFMF@wm$E6M$LjAcYKyewT^u2cj)wuw=HQeJbUR`f+}CoQv?!Z0EvKkVLTvf
zA%S^~n)0fJMCLVVGP6m5;jWnlABo+g)o++w^IG#O&97~EWy1o@Bj`8W9J<Ty3vOMa
z-bmWpk6wB7#hxoY3o!`aPRJe|;u8w*>JeD57wD62+p`1qCTK`6=n+CAtm#s_;wi?U
zF`5Di6?{U)-2@6hqK#D9YiJ^sz0z`3t-bdvHfd3>vbPk0ibRz?7L--?SWr;eV_rdJ
zk9h@^J?52F_E=C>*<(RLWsi9yRQ6aLQ`y^cEpH)<1qGEo=FKJzx*X=s4O6<yV{uN>
z-pgm+0@B_qWZoju-YaI_k}&PPQWjShR*;Lum4|8Xu_2OF_D1!io~!+1{S%!pKXm;e
zKNMbV>-dCqA5~FK;c!MX?I`}Gt2*Sn`%O%}e_fh<D`?pj-jkM{1zKb(pJKN)N_;Z3
z=u$iucPjqVBrUsi$w!)Zq?x8xrl4hK^H@V#c3GZex80NCb}XAd8#U!1WiIY{%cgWL
z`;;{FqPL2)>{On5QlrGHrVi7xD}a_=8q=~%#}=iC+lCptDlI$0ef?LaWv8-X6;R4U
zM2h>=!$TQOw4q?cjOcoJ`tOAnlV3qSytw<)!;6O=o<Us?FG7=!i>G~NIXMP$638)<
zlL*I^997XxIN&pe&{H(CpCso9IX|VHLlPB1hj7k9zVDDv)?!OWoODE2nzk>CvRORc
zxyv*3^l5i>59DS~4E6MEf&A1UZB+jDQ&32|ZAoVqR!XNWF2BL$x442z6*ZN|{}h^P
zU|=M#6+V}{Xt-5Gch$AhhOz68u9b$<A>LNx<<^DioW+XI)lRs5cvq3v5X}vCsh(~H
zoimjaF4H-S5rE)_<XTl05S*(+&)xbPlHM3}>$H8zV%_rH9S<p^P(Q)Zm!!@C)i32m
zyj)|PoLBVSS3gPTEJ{D2{UO)4`W}*2omvmWwd&*^hH2G7V=N)c8yD=vo7_g|e;Iv=
zZgA~;h(^vX=zmeZ(3xC}r90E`GBW+IXipOr{k->aRij1dV8cE%OQ2JwJ`>1}yxKU0
z+mV;YDa?-iC(vRVqiAh4M`>%gO?SDiVK&_rv)SxUa_htNzvLNq?;|h0effPuvnodX
z9fkewNZU?rv@K!Uc5)BGwe3EwR+65bS}UVkME`_Whm}_VI=15q8*9?FQ|m=kd*z>S
zFJcwH7WH*Ztrw(=r`C&<FkL)(#)RwQee5%46|1pYFGv?ptrw|bx_ELg!gcXJ{$AYQ
zyC7XWwO*u!>Eg+~2-C%5`d`vFj)h1Lhh5l?rg!h>(rJ_UWyC1Wu6~umj4YZ-kC_nF
zL5h>9q@;Ev>kX-qN?l3!p+m(sv!pY{<x>R&1PaWDFH+snwpM~x6ytT#ae^zPj78)W
zlT$(t@y`{lRpG7;(kD_uN0qz+L3I*OhoeC^NPFaPm8PS#Qx0Nkf_-KC*P_03JF9sl
ziHs!vE6_aZ^cS|w8e0FK=8>T6_ODFy=u1h$k*^y|L%6OH?dRx=boZ~Z_P{tEyuzh+
zo>Mb`hc$nddqTGs(l4lmE;WP^k-*X?t@}b+auw}T*&B$`DllRsY3xIPBJ`yV%N?p;
zE*Wi+PMLBndZoe%RXe+V>b=4_T(}ftvie@B@o-g6-mC3Z#E45J-B;Vv#Gc9b2O05*
zwn^s@>?R=JB1u~d($}uUNZo1LSj;6zy5e(2pd}5RIDYQ*xj_Lp{hLT2>^$VH29LNf
zNwyy$Vz_N3g4MF(!at{Pb2fGtpViy}bYj`HvOqy2U(hIVAOof<-c&WwJDEIVY6zIx
zc~kq0X=A`d8n%DpAq%lHriTT6)xtFp2Q4&`{7D`JNl~1nOerxg1Exxn{oFgLoiWu1
zOl`cWZN{`AVA{f)w*1L~A0K-2(2QxXP#o!3#uTvPa__CUTcqbo*>z&}I1N-g4c80-
zC#hgc+|z)mf`mgm06A@{3z*jPru8$X_FEogCoN1}K5Bo<ki*tDby>-2yn+=Z^O8Z8
zK&r?qB-<g7hSgJOncQ03kn{^2(97o-pH2q}JoOb4vC=PDu9wMPl1`>HTjghvy^K}J
zUWR0}xD&JkrRuq6xDdLM#Vm>WuGk0DhSe1#?@;HG1OTv}Bj--^yFJ_>EtuF$3fo8;
zw&9kQW^Q!p%eypfPooefeW{R$8sGoY;cJH{d#53&O=3|^#9oyJrap|(n9J@YS3=7^
zA@hBc2AbUWA*eZnia$9ihcICw`XC9PP<WOT7IK5^(XTzF^QD7G2#&aLsZE2ZqCqOt
z0+S+iY+|B85DfC+zypyTnt0NIO012E0;_yNA>fng)_Xz1V8S~Zwa*_2q=`Z~;8n$U
z54YW;IE{Gr2no`#Ion6G_pedveh3zRfV&_&vPi!7$hl39ERfQLpesR;lG#gnPm)6&
zQpn55XTqOQ@+^7Ef5Jj!LTlu1FcFw6v_U$eMS2u6FvTnV)|m8*9#dd&97QUnUv|sV
zFCRkHf1CD!#a!Npm`jejm<t4C(sP1oHj-VDgjlj5EK|*ARWD|mNH)c!luhA&Oz$WK
z&LI9Z8-+eIRwp@|X`vtv6B7=}f$#+hhv1HNfrLZI*Y4BmbHl_XC;|ycID~lx;SlB(
zghQBD77k&-&%{{tMx|^Bf+QM(+d_dgLNEkjSug~Fh5CCG@mLoj;eoJ1z=J}vd<TUD
z@ec9{(jDXzggeM5%XUym7VV&rAlX5_2*D1DlI1!mB#3p8Pmt;$UxZKxMF}z;<P$_X
z$R|j2kS{`@gQ6njIVdVZoP(k&HAc$|*_X1TN^>BQa8#k0aTNd3RT1*t9l%rx7v^|8
zhL%=$tS9zZ?1<)=7G|nVkL%rWo;WorN42HR9q&nS8}Ofie<Sj#>_v|m-H8lh`CiI3
zxy^uPPC`D@J+;T=F}uyf_(&kP1-X+}5a=knr_!zHVXic?lE<AKB|ZhCk_wTGH2kN-
z&sqimWzm-jpDjvWAuWk<2tGlWBNfoe>TM8G<)Efqh<)VY?p!uy{<2RCmVIhce|oIk
zT^J^qQOxbYAoUJl`7+W9zIo4qDkd5a5L72DNrCC?JU2)J^6uvbdQY7=>TIk6ysPt6
z@6f4p{Z43H4tV+poj{!J;7&RB^!E;teJ@s2mGhvWBiP~uYE`4NY;fo_=W#oG2Pxd_
zWVVjT?>to1T-kKE(kURuI)_d>&#@E(CypEenvyG2+&+e_)Z*NFrlFo;+HQWjcL3F&
zKQZWWRyvOyt6R&WnQAJF4B^N!NZe2%n@;os!*(C+DmlqWmXlCqsY$1~6UR>s^!7VL
zijAS<9Y=>wJj3!M*Va7^^);KQ8gVdSQLAd`^hwWvv#g`pxnp3+Rmn0sMKoUY7bc!g
zxIIpS(iMh_rC60L%(K{iMaaU$s~}FR0#>RKFTk>-{T#czT7+VykVb8{rnXrZpjgyM
z86bktR}dEiUr{*(++%r?vJR=os4aNQE8{Tf7ZY--EO~<prEq{DhT07Ym>4xN?q35q
zrCR&|7Gxz1C{n42d&4?B<ZvKppDBzE*j4dzjYFi%!7jChOC%kIwb!7U+ZifGaT9Yd
z4>QLOdV3QzLnUHXHFfm9a`CBrR|6~X>F=YQYPn3&=hHJ5yF&~=r-=*~YKCgXr$t~n
z_~M2d#IQR-(TYYfR=z`_!T6if{PM>Ay3Vcf#eF93y!O22*_g*P=d~`A0&$yr1X+jM
z4#J3H6_zF^t&Rg8k9$yMCFqrw3~>=)>qoVq(N0>0!)x|G4XEwV@~YHC8VoJ3p+(49
zCc<gAHM**YYnJY#(IBik%@Sla0e_2Yc=fPh&vW}vb4Q<c4sUn%LydjV*@Km<N5Ic6
zcQ(>We)`N{t1)u(PGM%6uD{>ei=LkMa87oXuHNd(RtQBgv~2@S3<C4JcTiZ<9>Y*^
zPmuEzIr!3RxJ>-OI0rdy3Ni*0JI&Jzn~MWd-_bMY=F;fQ4Np%m+I(UNYDnie4_8k~
zVmcn)CD5^$ntm*R`Ud7Q6ul8XNIlf0Ifo*i;fYghNMn62sRPy!PaHWn<mu$N(;UZ9
z@rgY>&wxw-<n*2%E(h(zneB_z(k^mXFLme7&gpv3GU5NZ7!NZ38$27NRW3AoN=Ysi
zvH!?dB?)tN(ZPqba8!i3VARMkW(e3^yv@ac!?Vi>FFXqy?4*={IhQx*2F$g*xpvaV
zn_B|rcHZ1R_1uhk$A~TnU~u&W{tXY$nD>q7XwRPXLhGg0S$nl$Fl;)paca{WJO5zk
zJmG{Z4qw>9SJjZ(yuY$@wBTyh*Q#y_XyA!vDqu8!I?;hV{+#_YDF^(f1JFFTIs=vx
z-cm9PV`229dnRSK-?SS~pw5+8%O}>(B-X!r^0m{ioSshXT+qdv9i&OW<I0W~yRUQy
z($?{5>!7W#jB4l8+AnKyh$zBfyk&5XuVJ^pT};%Z6?~wHMF|-NL7Vei>4E%uKEK}Y
zY*^4}8!O<XSKp0^$xK0)ZH|Tbm}JM_FT^1IF9+!m`zLEU3|q~bKQ$+8T^IAG8M#{<
zWB#;J4}VmCXP77%j(M6y{NMdQU>N+{6i`ZZ5VVT%8A9SjcocbkA;qngNo#JM?8inw
z1snaC&zXEinc$}OHCH1cuOL_!4>+j=1}tJwl&wNbi2}r&r~nU3REkZ2BBRD2Hvnvf
zs3EvM0r4?_X?YXws~;vsKf(l?qVyvHKq*o`E~U7Q?3-y-)SV*qQt1v@6wg)mAU?C=
z`6^jWiuaqLtV{5FrS}UunGrDZSXAipnxnkWB*i!+xf7+H>D(slZOkXM-nefo;IgBP
zPEwc<leDM2k2$N_Coe>E(VK)7dt*`b#&X}iu_!^sL9ixTbHv4c|AF3|${taEa|{GM
zv`Y_zwT>p%6b>Oyy2R`P#q;A5-BfEYiKr4>yIM=5i7ti1h|4Vv6J3fj$5I|>#8s%v
z?o@F;DMwlUl`H0wy1J%fbfdI6?Vq&GDr6AljKJEd0HT(@3)&uO9S6N!D_f*t=_L`T
zOAzep5vQ7li80M30y62Cr<XQugIqTr9t|x&EFCSMl>IL0nb4v3k`{O#W!PTn+`4^0
z{J5kgSy>R^V+3=00wZ%HQUg-zF+7^n9v3)}!bWS(+%q8HE%zKf-9I?IedXP8b+~Mh
zY@$7^q~~crM%x1H$AY%3(TBelf4R<YY8pQ|2`C?EmNyB6ye}h(Qef-56s9AWu+#q<
z`IzWdIU29vR-MPNaLiQoS1Ab%4CA&!#)@r>6X^K`iuIB+PR=!Qo}&kK<oj)MULxlL
z#W7i}hp3ie3bJBJattusfP+%J76Ek%me{2i#Zar2DF}s1nZT8*U^1u()icSjIc?{h
zcKe)eM>j|MJ99CpmwTUDkjS8?dfY^3A@G!jp24|T0=nYlVK{^=gETin8)?NYL{evx
zUv>BVg3r;LOvVz0HwkjD**2mLnlj;-E3rQY$j|OeyGLLJQJc{GtwC%O6Pj-fen>a4
ze4)Yk^rfc*Nlre=DIytbN9#tpv9;rMH#%S5d41=ssp%$hdoB53*IJAtG1%KCWR0f!
zb8BY}bwPtUU~s}*@_6>d;H;tHjydIpM=w1ZFz4~+JY|VTZs=b&UN_E~8g8yZX-Q6$
zmSh~!38kg@b82P{wQ^~Wi6bZ-8}c$(*Zk)BuXtWO_2p9lbLxJjdnEA=Af60Y3;}Ba
zZ!Mro2;2GWX#VJtv65?5V0;(UPgTsCwhCPC<U(+{lfh?3e-og~n;bMdCh{k^@0N}|
zHhCV~c>kvTw3*k(BoIkIAxY>EK_VX@nJYodGhoT*E%}Pd#tu)^&*W53o}4vp@;^*a
z+13K|$!Z*lWql%L;#F2uKMC}pbxf4)3vKhzhkf?Svw=((pXn0ep*lv-j@OSpGx5Z%
zwdGbZ>avxiE?d&bcI@@dDFIUvZz>vpe9|^+YMF<n=12Xd>)^cu#p9>1JRQg=<1@;{
zvbrW5QxDBrcL;b`nJ$b@X41$ubX_XwvB~&ZQ!^EG&|lI#Yg&g|#Bm9l^1hWW%N+;+
zTQ{}8+l@iMn9bxrDng}WmZS?h*#3HgN4hP}m7pp2TY6bo;MFy+wZ76ib@q4L{d*tr
zJL_kh2g8dXYt91BGun|~K;jQM!Tf^php%OjKR1|{Pxow?s}`O)vPr7I7ENl3jso;a
zziY+0{of|xD5HvltR_RHz-X4XfG8<+fh4FZPX*GRs=R<tk9d{O_7{?HSdtDbYD7VI
z%nHwAS9q==?gUK0Npe!|IE6oc`P|1$BS|>E8E|}yJFfA?<KLjrK+w7+99&p3g1$L=
zsd6+R%pxF;N}pTcRvN{viIh)ev&`}t6&OMiNfrpt_#(g_QoI_b5H{FxXo>i;6nC$P
z$w{B>h%59gfg`;Em0k$XagZRS4N1a7+;*YwhGp8KwtW%X;*4krf}yq;SzA;_M$s0U
zSp`c=5G7FL_C5bKpfpP|dusSc*tTnLNJm_sX@%5=u+(M+Vv^QvQp_vtiXyMRipUuB
z89X@PoZ{<Am$((jLAz9lA(05T<vz*<hi=7kt@mE8Vst9S7Rq-SeP$K4C;yYyp7Kvx
zd+MiMyElQ`5H_b0KJ^wDxs72hFn-!Cc#aM^X(9Am3wQvHJ)nBy-rQ5~o=af6+(Gij
z6D7Q-&Mh2SOv<gaa41p=<r4Ln9g1#Z-%f`j&>P^3yyTw-K8t!1rTaV%O}NK=K1R^G
zcgGInvn@R%phM{yea_SjDlUII6_-I@+$E!1zl7dJEswau=v^wGZl-)nn~R7Gs;8ko
zgJP=tEcyj?O5F-AR;gbqWd)j`+NME`dWlaW=!>lP#J@9KA{9jitQ<mNVE{1+GK-P~
zu7DwV5dC!}%*FJ&-2xafJKKE|v5F%cu{F3oSjxGF;Xr8j1o>&7#hoOF4!~SLoVl2x
zQ)lMPj6>cN;*fJ5dJrc}LT-$TVrMEMO3R0-(6QOn!+0WKm~bba9e!jLhpJ_Tcom0e
zMY;2I@_Gx^)5$AElUfi+DdtmvjXRT4HnKUGoBz%H@x9~wC$!`H$4h~I(#z-8Og8+^
z+1CrFI;ILIpLwN~&uI^2Z{o8zg*N991j|Vp*#+W%W!0qayG`FHCN9Je^=~A-o;1=G
zOwWDsi7QWxSIneWk8BM(3Pv|vX`GCI&G?G(hil$wd%bO@cE`w;`BdAB>#nSOvHePW
zAhnH8Z3{va%$flUsloJ&(Sk1@ysU-YprAGTt_0VHy?<eKWTdcrmJhJMOYf3S-66nh
zI(sXuLyb|8V69x4LM%hEK1^@)Npc7mQ#kswnZZDb7!lxa=}pSjFkI_62+Mf}+yXs;
zQ5&da?kSo9dRVXmSaktKgwqaO7R4#Pm+Cu08FV}9Ig%~rhzcQ43j`qyplJ^dG1`DK
zY$8q{o#APXn@eP&dV%%#52$m_NY8`}Fk)37@(Od2$bIr$Bwy%k|06t5gG61zFI#pR
zzC{zxgw+KTj)_=j^Mo2m@Kxh=ys4N@{y+vM*eW{zgLhWQn+u6c25&xZ&L@HZ5>Pgf
z1Y+$8uxV3p^@*`37GmJPgQKVSig!T|KhCf?Jko62!l#!l#8Z?(W6xPgARkN#<t`+W
z&!kC8ec_2qPkd-bXrV>p$QgmT9LER>%N;#8-Zzt3H=Vg>((~HDD+9N-_}A_kG0kTH
z*?Ii2nT(q0j9rtRWOnyfn!j-u4))0zm(PCHHUhk2htREetl7b|tUy{3pH?)!mrpBY
zp>jTiH2sci&E-zwq>a~2rxi~%2Gi1mX&HbtPEJ{jF#t>~MPo)uG$1JHHrQ;tuk0T0
z;L}Q2IW9hpppw%n-zjTAIlHdx8qc3jE1F6}AyNYTOp;SRi~%qraH>=6i<LAmhprqN
z&ztO>O>Z7ChM=*>lO{W6)7Fk8+%YgJgNe~UwqM#FFy->5+|l8wbiXMVviOVfu?a>D
zVS=5A5vE)sD#*#6o6@sn?Lsm_Wk#~g>sNc|W~p0Od%jj{!Z*%cy)brRqVDUTnF5y+
zE#4f_;+(J+M@jy^QDd?JsXJ&*4_fWCzDXpTZ>@Q$^;+x1+23xzneMk1%viUf0&^1O
z$P{yAt&rnGrUMp(9BiEm(;dKXO*r4v5&cE%X}GPl#%x50<Kcv<cuXTgO~qr$FEhHV
zd<Q;3gV=v)@EIWVP+{eqq3UMIp-;rejno$=!%oy}+H>6f6ZDhGuoGCZmKILB1fWY;
zf2Y_OMXd4HC`MtU9s~g)3tSKcuwDum#2Dj07wb!xIdkeV?l%mgj5$$A8O)``^XpUD
z&8QJS)TFLZTV|icOA%WI)iAkqiI5>b757Szj@PQeUq(65e^Stw78y{KN%&jE_DOfl
zBf7vINa!9eiz1&NCZF@1XQ&!VA%BHj+}CN6|0bN_^4$ad&pG#<c<4aQzVj!xJ#=83
z=sB>>*~@vHAxvP8yL!0Q^DG4XhF}ijOikw==fLS9Cn4f`PI+L3(`^*LW{`L!nHv%X
zs$wEFkjAOz{+Q}r!UdttKilwcfrqyHAs&eKIaoJ$$FOa-_PJR2g)O)Cxi|$rD}?_b
zxMYw8mwsJ~;b0vT*a)njZ2QT&O&p5hv;zYt2Tq?Ka4H0oO6RntE-e$r!Ht^A1lXNS
zfPF5Z2T6NQ!bInA>ngT~OnP6j4HPpUqu>5ol>J%FZHx8t_AmH?nYJK&T`*!F@^1aY
z1^7rlB(GtzW3pkg*Pqiold{flTE~_OY=r*?B?yZ}fPC_b5v1Td<jj-vE;)Ze&d=ar
z!^6-V**=OGm<s73UC-vZw2%lVlNh3N99jEd+w-~D{?h};WhM&ST7~v#_~o*Vn(I@<
z9sMj-`T_OeE}Yfkj;cUOEm^kNi`!0bi8iE6?IJDDZ`kQ~?wm2~9Jv^@WchQ}^Op5M
zA5DO5%VzAs6O4X@A>CsK>@%@U$SDE?1U`z1GbFTpBXvQ8+qY6-Ycrt*n8^jTD}s_j
zy`lhEq`8Dex|mI<l+Rsy?gj59Z@^N^TWXoYM%oK7wD=AERpXd(h73FadQ@rbK{CW3
zV3XpJlQ#j;6dvgjZSR7nvU!u`O2TOQjJ0^iRB~5EvjbLO*U^x-kkblhF21M7eflWG
z!)P_-K2HwYt+Rc$kAiHfeT96J<j}rW0Y4fQYBV~^D2Zk>`Roqb+*&aYph)t*E?#d~
zNGa93m^KOScpIcmLcaal!&-e#m^ukXAO)$DFt4Ca!n}ey3G>S8BrLcwrcbL+QtFdX
zm=sFrzVK*_UXLS_0&5guS)~L4=wK9-2J-<ES`jQL3YJ#~S3nKj9EloA5oouF8p?vQ
zRtXCVY9-7o=#?<9pjg7ZvStYj%Bm$SDCm|jZ-jCQi<7lWSWr+eVO~MMgn1(rOjw+t
zVZywEiV5=yIws5;p=841BD73cT!fklixc%sKB}Uiu$`iLauom4C5qGD{VmLyaE%fV
z2u4hkL<dchSa%En9wlyylwYGpB7qi)0pOYj=wle5RianhHb9fa0G$rwJ(UZ+6l|gd
z4U~InPl5+%Tp>*o6KXZDph=Q{PpvYmLtna+qQqM;Dpr7WCgVQ^e%3PRmWV!r3r&xb
zS4f)yjS#_?37rxfbVRb2O>aj{4x|(yLRBF-L*?ZzTTV1sQK2mf>Ukdk8q^u4fl@G+
zw`7m;P~Gk`Ly}B0lfMl+#n6VHZR(5QiBOQhKI%)@WqGyY)=?{-av(<XIizQ6_w|sr
zFp2gGg1l6o(<#u%Sd!tTpV07jNdmkt&?htn`9XUiPI}U%cpk=#Q$_9V)k%@k8Gv@V
zcmD`YSqZQLQuatHTxt;feRSrExa5tb+Ia)eWm*AP5L8Y54V?rZsDPee6kKX!#04z~
zC48X7GK+u@lyZGsEhhSF)V2~3pjul&)fHK0V3o;j4FdvvpwUf|Ix2bO(RIfw%2qj<
zMHzX>VyX596lz6p=xD(%FBJa3GNwt53;h&4aPMR6Rr>?OI``KTGN7RLUJ_wc5}zx&
z&|bMGM)X87Bnzf-Twl77O6h`qDlvW4BsSIbasUK~Z7*G6^B_SfC8wAlMrAyM@sh@c
zg`_h$7)9ppC2(HfMLmLa7(1Uans9)QrPOD^cpyoPxvavrlF53pz2!JPzedh)lf&e{
zn84Rd6r86bzD+(FF)o9G-yz=*$axtKj!<7D|1NUAM9y!J^8z`S$+=FB+&qa|JxFg!
zJmlgoXgAZ|Rt1DBVrdK)wEOocY4AsA8e1Q2IWG=h86GhSbX36A2hvOV^ioJcC0<X2
zd=~clerpYHsv&<$?qWi$%L(F9)B1%(7{j}((Py-ckS4Jxb_4mU;aNiq*^jrwM&7KU
zIn3(&x6ZwE;o1dOE{d)YN-U!i*S4ZWviYu0Uq6zdEYUG>0>w~?S^lE6vxX+LH9P-m
z^H_7hQN=r|Zg^hqyWSVxR`YyH=8IKVs?gq=e3ag{NsHpiRJ}fXv(|60DJp<8kbh0*
ztYPcC!9vymD<;lDrfc4wceQM+EMO-y3O5eC{P^|9rxJtBn}f~k=G!;Faq9I`i}5kl
zyR_g*tnbh+BxoE}cQvt&P1+F)>Jx{9Y|Fz~`xX>^*)r~!=!NvyZG$~v$cL#1$X(6m
ztPA9H@HriUoNas#EGBMWjL|0S)ZQVZ@h*Qw+pM9TdY<PmUq5STyX`CzB!}_}NpdJ#
z*m8Db7KGz1A!7BE#UIfmS_&Q$F^QHX`2QGliu*O1?j0yBY<qA|O<_dNrDz}#O^Ht7
z{7=-5vtm2A8C3o$kv3`hp#}c#G3<93X)~HFA0v|sO82I78?g9>7Fil4@j`5@=$G%L
zDB{bI0X@|7x^=_I61@cZ1EsX=qek9TC!B&Mu5v<w<*`sK0|&ABvV3+hjcH6GE}sKx
znJOPzMuyGy<zQ4!Bd1CVw=N51`Euotk*btamN(~O#>Gq-XZHyjw>+QIm+vd^6?zN$
zG9#LV;P*mNAv#}=EVHHdsq$ufbC2oJ%Iu{jsrMR?CZUf%WUI4<jh(Mh(GxZKD)a<4
z+e7o?3Csww7vB87{G~OEeee}1$}L!$4)4|JEyPwWk3N)Ya#SFWhc>M2trYo+6(yFa
zlvspv%2eWu5nrwn@9-8tBqHI4QM6a*D^b*-B8}uNVQsBeDa(nH5^tD9`*N(srM@!E
zqpv95Vy#Nf(0jOe-|y1rQnXraTuRaZdX<{X5Z|a0k8$xj-3eaT4fFRBgy+~|<++oH
z674Hj)JBBdh|BBhBO+PEMYGMFB+fps&1?3S->`_s315Y`0=5FB?VXynckg}nLh*K$
z<MaS6zhM>oA++0-+|7NC)_S&w`)l-^`#c5N9<GLbBjj8n=gV-QM*8o_{}ponJvm<`
z=S6Zx$@u~~Un7UO6WnjX0SM4)^Ndp-5-;Jdk?-4-J4b*J`VK`jkn<8bv@R-eguX&S
zCWSCTPp^~nU2+&nlPM9@Qjj*t+zoQRPtFf0+a&qec9HEAe}{s!&lL8kv?d6<+25rH
zuflOvDmI{>?DvuTJ*xEg$$5>OZ<2GDnnZv_f?@J0^2z()FH!Jya{hpvKP2ae<opM6
z{)n76$@yb)2nv@YP9pao$sr?pgS2=!@8J@*(M0tfUJ8s9vF%_K`u~C*#$YB^b0sj+
z!!j@uwu33z<Bk60(vi4#5|e|roU7(B^MpQ7wt>f=ZNtcp`HZa5HCNll+F*p*QAzf)
zxAFM1Z}aasG?Vef$hP^yia=otU)ZuDp*~1}NP_h+Q&BzC8%7c@KRS9A1mEP87vrzQ
zkLZI1HGzUPJpK%MBgV^J@1ae0$JNrY(((MU@{ums22RclSnGIeT`(&@m|Yrlx`MgI
zuvVO$^u9UHoCKzL5T?jNe>s2(B3<G_-cmSYDV|84wv>}5z=bOpg6VnV4u4uz(2-4h
z^H43|nA=hoG_lDk*m38SPNehM)g!wgjzP6n^VVviR%kV#zC?X^eb`9DT4Y`WpVu&x
zw+80KvGXsk2o&w+i+0o4WR?aqi(tl_Frw14m>shk-d?k4F)&kV*yfLxg5!~y6UeCL
zGirk=1<d+cA)i_pOwX19-?AW@UjsYMu-FUpl9|SlL|FOGFAX?5d1q%ZB`27i&I+&Q
z?bTE%>PpX9G{@(INs>cD{(hRqltL$lim{4dvSZZ4Cl`(%@?%UhZKNd;%*cH4_?6=r
z3<u<+(0g-gz*NGUN`e{rK@1=4L(@29<qGgt!JL9%VMEYSL2b$`_%PK7p$?nIQ9PmJ
z?RaVP1psGk=L_1AJ&;ktXOxT&Pp+9Nn8|3PH<;HLOn2f97AE;kc?-1~D@@cCEEZ}U
z`GR8k%9UaiSVL`^Lf7&&p-VzFp#M`f!ij`z#i`?Q{Tr;#964X2A5siFgvS*d3*0TU
z<3l~}3#M9q(Re4>JAY~SwcQIE1aB6yTd=5fAqK(V&Ry(&8)nfDT|0DFkGKW5R;xEF
zxg-b@lLWVgI2~9dS-DqjW45b#V|fcP6t3EMvyrdbhTkq&B;bqP6N}_2oxU)PwL=jK
z76}W=ED{zJSR~9Vut=C!V39Dd%pzeynMJ~a0*i!sBUmIXPG*s?pui$wUV%lzyb&xC
z7ALSsm{(wtFt5NOVcrN935$zhk+8V(aKmaWPGpfph2o-A!la>DaTM#fbXA0WcdPN_
zSD$m@Nt8Gs#6K~uzyWdI69>cu%0F?=BQ7^_M%3byz~QiXlE4K?0vAN&dxY~s(xT)Q
zcn#^`Xvn+}GNh(fkC4KKTC%_~vExoA)S{=%UiN9uvQKltUm*^NO6kDT$^$1Og&8?Z
zg<wj)8YiQEc}@nMy4e|?wpJ^1GC-o&$X3+Jmc0z<#GXl~_#vbC+SE?Z$R{xf2wx7U
z$og*powbLU5bVOKoA!(mmpcxkQVcZ~M9%mSk&|se@pB37ivJTW#Qzx%HnN|i*w2&m
zUnrKTx4uQb0gB_vH%-nAIU^_|gw(nM8zyW}B{mEPg23QoC^&)*Ln?7ldjo6=EK}qD
zyak^~+)VS1ynv&Ychm~cii#)dCiD5+MhZHZ8R|UVk~iMUTdMtrYPiCp5si=<h6zFg
ziO-GZ?xT>yTA7=J!?7x5o*8`74x<e4UQ`Vz3sAn?Rx&*!@o%D*b&OC+fD*wFsj?Ws
zW%-)X1#kQ?CKGZd479A2gQY5^R8nh}Z;K8+Cs<%<;-bRPMSZ986ub**dWvb(0oN6r
zt`Lz(PLKW=7;*v4SX@f&e;@HCBs#wEoTV{@@g_*7kX=BfP@({+zaPPHlvzIVdW~)X
zE{X?B9Jj^y(eyw)O%q!s-=V=z7!7JYO&nPJK((oj>oT=P8CO#nK8!rB;n*^(9anq|
zA+Z@Edxi15KAw4_b4zBm6k{jxo#b(kg0?~?x722rS&1&Am?sc#P|g!YogZ6&VAe-!
zwwhV<C_N#ATxvZ@@|wlj7RJLfhrb!{@QAV+aY0p4`pl{kI@R#;!gzS{{0YPK8It3p
z83xn3t!||Pr9_^B0%da4Cn-^%q$-~<?w~|oW+Ayn8Z~mL`btkjru^Uw3Te;Kr;}(+
z0>_bl>q|f>{)`?6$YFG=?@<~?y!kr$zD7=vp3af;4mp1g2gnbM9K=|W?EB5W)lr#}
zj1|dfM~pN1Z7P-qQjICezW6Xs^hJ6e?Sm>nOC)ffQ@xNy1?1XaP}6=!4x>MX_hXRu
zE8%pQ<vEt&yNGa(<we>{<T08HBsxTnWiY*QDmKu(oyTAL_FJ3ywC<6FV4@|E=-?9_
zqeIh)g~6<%@m_!V4!&f^tycfzPX-?E<MG$k=eM04*%7qZMmxUn8Jw6W9R8+9<mXL&
z{(&?6+B5z^FTd97clfRtZnH#d5BMKD9C+*mkH57i{Ej|6Kout^>yV#sP!!P+s=`+2
zFWz$Vr2oKUfdd{Me_K8N%wr?lRoShRJAy4+!T)n@*WLy@RL>Z!I>um?aSfI-Si}1~
zZ%Vzqb3Ack@2sijc4FG7_6zOvAVM+Vx^muDeq+tct=C&8pAEL{Kvk7p+S}{eQB_t2
zfEuzkYA@};5aXo0+VmqkaOf4eonUZAuxgjKZO7<^iH=!QHHaV)Ox%;#Pfk??TUznw
zZ$Hep9G>6U`D62&X7E{Sb`zhKn79dyi5nYY;wl-fYE0ZPLquTW9=d*L$`M@G5?r@s
ze#4eGe6Rb6iQD}kOx*GI*@oSLhJ$>=!9c@dzTvRH;K^A-516)U4BR{51MB^nl@o4&
zkPuTCfr^R!vxa)LK=}mlDC)wPzJQOoO*`dk-cda<6sXz2<Ik~?p!cHUNZ_ZqdTwwu
z7Hs$rG&&3R$M~^6I184f#<|<%yhqN@$@v92cgXoma!9&7OuK|ub#{FFBQx9OV`&mD
zTAJumW48Lzu>&N4hYYZc-UjYyrZ-*9RF7B&pd0eA|F<a^u{LP1gm!g<+UKodPb5=B
zc#`9_`7*Vd0c|YoCM;ja3$~-Wr@==*3}z+j3NeH5#j%M}GHNW_FYBJqiq(MmYEwwc
zWQjQhg$6KY?c5q~X2=qC22LMk8Vz79T-YN>y9hv=YZPDVWm_wjzeQrBiZMRNK#ez(
zEAz^=II+XdR1;Qp$DQ25+5tn#NRcMIF{O(XXer9nyJO+%$n{#IA^CbU7<=8OEJ5&N
zw<PUs<fn|io-O15B9%&Bcg!%dL@z<XUe6iAJQ1!wr|6UK?Ccgt5_6Et12Uu61YAJF
z_d<jM#zxO2hA$Y(1#&LY=gS8hy+{nncgFrCHg^VNqpPHF$I#BjS0pR&tFmtMyoDFD
zFXr4x5Ltzcjb7|4@qxMOb9u|uATY$=i14Pk-9uGk%lfKCpL_?ivxu?L)tIxYy#`A$
zbe;eky&%L!cPV<J#%x7TWKa;sMi2GE>$t4t{wsEOjdGhrpW8%p4bR_Jl&;3Q)Okz1
zF1*EJ#-MH%^UHUbhcb(7ZuWM{eHDr_TjZ3Y&s&c9wO$O#cW(va+vTw6^X4-a?M5*y
z-;sWk91?x3rTDEyUg{%(*sYN%H5vetgwCA4N=0wBFHPyKWcBS-c><=s+k)}2hKU<g
z`KrBDYIED2%=X;czK52U6+OM%M89lCVR-`MaUXe?YYow2d^JOrVvG8^MW1}{+avo$
zU*A5_C*QqQ?l^DFF`YXFRFG8hcjv1e(0QwTwTe+zn=`fQee+f$e!pCY=nKu6N5rsv
zNBT$Qkm$oK*Y-UwhUEKw&Y3zzZ=R4#6Mf#gz8=vp-{}|cP8L@HZ>~4(Mw%G%)qCr)
zCY1K|%IQU)xGMR|6t&*hZ}~=g*h~%oB_9#%lkfNOOD55fjdBU153!%nFBxypE!HC6
zZ)AKAdnmdd^!I%uGfXt+llyg_RG*8&O3wYW{_W#y{+8lfdQ5mTN>}_EUcB!ws!#cw
zRGZ89zQWL4{!~{O^||b=yJ7ntkt1+nZ&~b4X8Xtn#cJ>XYmm3$MwYZzvsFk@?!TyU
zRICZgx$*#G7rA~P)oF3&@!8I6T=s76=R{ii1vx|~+j>+w&LKqGzy|!^rP{mjT1k8R
zFt)osEhZh}A}_Z_alBBKx<v|X`M#=sQLEKFUlOZ%PW%0s^IGmNsR93$oWFt-hRE>W
z5HZ}mR9`Cmq#U7;z5cjo0GjMv`~SuUiu><W@c$r3hZb}HlYIY+oX?XZ%dmZ!p8ju&
zd!HO8p0-Fn#_oH8e3!}jHaSe-?L+dB1RM8%$hii`)ksV^4fhd6{2}@NmVAFl&N>SI
zl6-$p&OeaD#-6=}|4UD!3bB2Ko~~AYjZrOS`L+K`6@8ZqU?fmR_+&KC^YnnRD1V21
zFH;iwk_%8eKVWg>Frq0Vl@gUyK=PG@-2`d5f20SD(RmF8U=+Sc<uE$u4Ebisd5fI4
z$qA4XB<CG+=E(VTa^}flitVeUP6#9YdsO}ZN6vSs01e(WrzHnwJ3n#pxHqWYACbcZ
z<w!=3Ny`n=p(mU^ySmWw0&^-;|IaYz1_{6v>L%5itjZZ%RlwHD+geA=kdz8Z%DtCp
z3p$JZKw-%$31n6ASygXm)m+xkr`ku?j90&vTKDSlDbLNrZ>`-IEUWUT6~B`P4Qh?O
z7DU1JE^VM~FW<Izwr$^xeLvr}Z?f|njpO>Sw+0+FGmaX6+rE)5zkUCFcHVg6Om^j@
zmd~ym+4YVk`<=`(zqQPtSr*JIo=6|N_yI;_o9@+y_cfZPZMxYLr~CsKKGJATYd7l<
zMYp?j>(niRl%(BCA*6%bxJ`E@@x9cdV4-W`z_kt2g%|xz+XGGe`KJB;gOBn}k5bIx
zfxzJl{NW4!&s^jWU%b+FyPy<~J#VDzoy3g!lwyC0dnU!>H+eo$sllSw#dKp)n=C14
ziz+Ed?f7RSDfod22s@*V0Y?Szfd0;mqjtWmI#9NcFWVQ)%_B)VM;YY(f{tQ{Oaf6j
zklVoLHUNkhl5VafKvF@taP&B21!Wnz5(wr6GD~^L`(-(qXddDFilTYWfTNLjG%~Tk
zdfr|ibmWl^{*zapgv?$jn<MY)hOrHcS!O0nm&-&Kcko3!Nd68Ygw%?9J{MUls8Nvr
zLvtXyi00&vbdB0zZ_(-qSe(4YIiA8>iYD|gTdrFIWo>*}+td-htm9?}U)DKo=|m&0
z){NBz>?Hg+2@ydcckuS6sfs{L7vIta)=0~4-oE>C{Cts%#OeY?O?**Pps1BEYMtu3
zm4EBtt!)1j$NU4Q{Y9-aMQ3<x{_Ua~zcv4k-6={8Lees-m?Flafp;{pv8dzib<`n@
z#o;T5qmRXE<O)+rd~rVjt4XkMVMk1aFzB6CykU&zC;WPYunJ@vGc7uj*jp}G@hwAc
zRDQ)Nt9-?`iUK<y=XXBtf3jzKXU`}0!rup$NXC3_;nkC4CrO^S7^;9^j-{<xBGj9g
zayc<1#aqr>%Y%0O!kjeSgE__cjRbP)`JDP-eo3&jDVSFj$ZO*Bn%InA!{@FcX<P7^
za>gJF1YQRHW`lW!S1*oT3}!p8J~Z}F&{6VXjs-Hq1)4kntMj?lmlNkpDgz~(_>xUQ
zdvU;C4nf$7mdSHdM`r9DL1#s<uo>Jw2)&l3_^pKicoT$Pt2BAVf!t<37xKs-YYXwd
z*$@<HN~@M{79?a#GpJ1=3E98<U|YP#aX>o=IU>!Q`Pql;u^h?4a<Sy3;0ry7f6;#J
zZ%`yTXXrcnE}k%XS);y&$;;xtVBf0McW9Lovn+ySW|@ac%?dt}n`J&pa+ZY__UP_i
zK(>BuFuOR|)Eca+589o<?EGMDBL&y23zn9@U$HqhLO_-x6aum=C=1B4U<gBm5{58D
z$Q!~CA+IbT%hJmNvMd<F5TS$-0<!Ee6Oe7Zmb;L}f*}kMN=^7EFJ)iLo{Z)58y9le
z<6KQ?#X=tQIyLFGg?#2M&}7&b3YoV^g9%?bRymQz+p89eSzJk2L8UCNEKDla#o|a(
zc7Y9%WUCe!B4~;r)JE^y)z7WRG?=r%o<={cufZJJV0G`2qa2-mxL9&XAYd-#=;>2u
zVB}-a<L-eSw!zcfAP0)4W-f2(gKDJ>PLAduvj{hr@JxUIscO%_GlNVPaIS%cPn~vq
z`g=UjdXAohvC!)N-sfPIt@_wGstNc^)p&lcznAL~3~A0Kg{Pm36Ee&tNI6&%MHbG8
z={y%pm2n1YOe2LYtn!{-*qq~fU=WWZ?$?}^#kv86DcFm1b0EEH=F(U+K)=rSa&DL&
z0T$S^LtG*iMrWP5ME1P@^zq}6SRj%X$IN*XIe;T>mjEC{5+Ga(IjL~wDp;oQ?kw%T
zVAWm#6-uYP8RURrr{Rcm#1XZ6u6}hz!OWgCN`hvP7DK@~sE9SIDk7A<m+Oc95JJz&
zrZ(h|lS`!>TBa1`tf*F*HG@Z=2F%)^%A=n1-Mw{dIpTD2PO4_(15|Tv=tTb@mruo1
zt+p5;Pr*G^&GJ+q>+c<W`ozF7OtNEV8rhH)q8JWD1PxbA1vcGNBdU*`Y3>o4Q$j_Q
zQV}ipR>Udc^$Deb8lmA_<djoU?e||4b&#ug@IsooN-AXCy|skRuF%L3LvXJ7-twPs
z?iB}?xQJX0Im9!Z%Tg;y7`!@qp2VJ?3E4p&WX3DG26`f_CIr!p^^2_GaC9CHttP_!
zaC<ywdX9Teo#NKu5l0LIflA_`l-VbqCELm#u9{6D&%jX+R>lEgnVw6KB5Cyt#d1u$
zk645RU)I~-5BRdpRO)tewvf|F&KYvHlCzDR9po^r8MYPJNWl(rHo=)QtY@pRr=6R^
zHv?;iV7zi6Myu7{HE6V^cQr-tYSMq9fv5Ion*D#NvHeW5@omk<cQu9YYRcc$bo@-S
z1^$n8@mk$S8gi_n??bCb+pYajr$c01tQLo0I3F2fw7L%si2E>3qkTyGkuL1XM+PzY
zp^>EtC45Yg@I#|U+w?O{^Sc_?M>>=SJXK@*<ws`{az7jQGfkCWQ}wRKwiu_=+Ag~n
zHMo6XG$iUi8^4&bN2^T&TEn7-Jd4M4NAy~NOl(-xkY{mc;>iSUn!jw*qJ}(+Po(bB
zYYY9Z&5IiHEIwsC6^}5bC(q(jmeYEz(O<cBQA3_ZcjAQ@giAIqYRI$bjo(SnDL;7@
cA2s&IAU{1P&*IkjC#n3BjUQ^r!`{mO5BdEXXaE2J

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/__pycache__/triton_scaled_mm.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/__pycache__/triton_scaled_mm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5e50fde8168bc27f6c00266ef9cdd66746acd90d
GIT binary patch
literal 9368
zcmcgRTTB~SmQ{Y+WgFYrypsUo<v<|hMIcY|>?DM|$S7eLS;kd>!4Ie^n!sFdJEPtW
z?w%De+7V7`q<C7R8Q4S$JK7IgT4~aw)^zXej|-!Tr<4y`+tRB4=uKAI-Jjia%Pv1?
z6SCc_De%4LoO|xM_niAY=l+YyWFX-4sXp}nb0tCiD@Nqckp^D<fh34Uf+lFvNA%-d
z;UoQueuZDzuOtat$q=JDxl%SCQqZdRRsCv4Icm&OWr$WYiczzSWpi4y4PCnpUAGNg
zzYX0`m_B5rsrOY+(jDp7=?VFdE~SlyHKa}3(9PS>i?*R#7(JBOvsRFyasX)SHnqqZ
zEtJ|AiY|tq9e$3&oI`fH<b8F&ahi0NeT_x;Iu)XV_lX*w_42`hNZ$9r5NAFOKuY+%
z`aL9z1R_RrOVez!sX`=_E7HWAETljrO-c$V#+nG?KFK;r0%!_M<JB@Ntw4$t-;=bI
zu>pbzDP>MNzqTZCOKnMFUTqap-6uH(w5PmHEGv6iEc$D#g;ObNI8d8rL^U_!9%n?Q
z-+kYyW^so^ZK{ZaGVct-i54&C3Iur<&$<KLc#va6BTzCJhbvX%@4wkL-ap<p?j7IH
zyV+re-+zCyqx0BU2h-;B4z`U?^CQ7P+q*uWzs(<{8J~-}&v+*JAlv41PctmnHZkcA
z@ZK3W?*%?j&_B*H9LLZuo(XV4C{K-)i}SdBK=u1u$EQUb^ks^1kGVWSs5?9voa9(5
z^aw9$E(l4ONScf0Mj|60j)pHKji$LvkxStV$<p1?iG`Wi&4u^YO0O<mTIpWC@=tqL
z-OnA*Cq6ApbX^fzuEbULWN}5beW5F6T{yi~d}&F$LM|Kr(X(2!dgpojCwCJ^FA7Z;
z!#zo=bd73`S2o90&99(ILbP_DJ9p>Wou2N#>$hCz`|jPiAR5p1Tt9c!b^CJv1=qDa
ztTzw4D%x^5Z=dV#x!~$9Ks)P^_a@vTtb){Z-L1#dmCsDpLer8apDLcDIYN#cUKJLV
z{~;~1%F`-Tf*h!12If(yRDxiUgvwA+s60moUN~DmWI@&;1uB24%t)$0rN}Y^Qzxfp
zf&G&vkwvaEN^KDfD4!t}+FxZIXMihIi7Jt14EMbXl_Bd}wVl!Yd$zp`?Lu0q?cF=-
zYy1BChV~#ms)RF&_-h4C3`tu9))yJj9!$mbELE~jHKI~wTWT25u5D`6?5IhxtO+Wn
zRb%I&{ZgqH(zr{l)}q?<nC#tAnmr@Uo|aZ7Ns~rWl2(W6(pIiV1ge&34TwZF64Zzk
zs8)iSkP_8NkdrTxClF2M^q|l>(4ox8$UQkv{3rtRX&>5ybYpmCHKVG0tE1*E)`L|S
zYRPHIBDbH-Q3Gmus+QXb?N7<bjtkmdKxXR>G8<8Aj?A_kZd<lx8AAI}8>)cys(F&O
zM5qFEw9S~H_j{m!He|rIm+%JE2so9&8-Mztia>kw?U2)6!BtMHWPM?5!IJs4XRy@{
z<j5#wwWj<!=zuIS)Q;LmbN9-$n#e+{hO+x0aG{DF)_I9+p=_SnW56C@rTY9{<n;Ni
z_0CzHSnq>5G79PK%x@7L%;<dx9V)1|HBWEMRhHF9hW;OHQP7%5HCiFJk<CY|vak%v
zmJJ<7YPJ#W3LQaebVORWN70e=O7GagI!94Q#vaGeVRTHIvxooUr%&f!{LJY>ojc6t
z0v<`m=AEePd(`eiDr7>P`7=}6Az*Nk8Fk^3oOzD-5-15B-&!YiI&9@njlHxhoX8pf
z-SW)I=IA(#`3czh@Kqi@l9(o(+SFCpNs21>eJ=;On&zj+85S>5O!d3DG0647N!}%u
zI4vv|AR5Nm;4tg<yS%ih^3dLQMfD8B202mVhRg9V0}e${RC@#b(ZixTMN#>JZdz2*
zL0&WtvH*MB9NeXYqIL*M_(KOpvQJdu=0yYJWBg12N~huO4fkTkc~VrnUE@3}st2Wv
zlJ35)6fKRUO4J^SK{x1ia}q>e6UknYyejHb_j#Awp9RM<;9w3I$WT35UQd862Hjcg
znXz~qW$`Y^mf{5O8=`U?tf3D~`dt9H0-_pc{!|tat!|HJ(m&~QgFY!^ic}6sGz5o+
zIELqN_jK6s5|p7124pHgdYKpcEQ9VWI4D|VYT8VG(VP;Q!MAXL&^!*nHIi{*NF}>+
zqA|zh87y5!j)~e-0~x?Al5UweD3XJsDX$0MU19IV<<6%M%5<pW5sk7McrZo1Jft#+
z1&S)EOp7^PFj{E<x-ZQG=)T7#HGC3=Nb=6UYr^6~N3=-Y#!i=Oj9~+ekEMZ(?+)Bg
z;f@d{ULPPR)7<{Z{^-qh!=CWDuPnAj?SeK+Mo%OxP2tNM#-jO7!B_>Z7eLO)_3(v_
zGG|=ncxkgQHZ3$odzM<_l^yZZH`Z-8!&f)Wgsn7MC0Og9DxT?=^(!?i1Bs@yFPbh0
zO&2~J{CwookwnvV!FoM>C0SG+?T-9a_?-=F$^Wqi?xcP}AFYWFBrN-0SoRB+{Z9v<
zjVzBOEFIy?NlSV3%EuE+b+IX-s!g!8tvFY`U#R}*{z5C9x*;6AAy{stxGsO}Ub4rA
zg{oG;(z;T<+Mnh+c|&MValJMYdTLG|(a+b!9gPWHQ<B;hBL%7^c1JMmTN)4yo!=-)
zeb=UvP&+ntL`lOEDL9<r-q)J%SaHK-o4+TRc84z}Gtfry?s!eRP}~kqYZm+p%G>{L
zaB+BHIO>j7B}!WVWNMowleWsJdtv{qHfgK)s69$YI|SR_*zgkl+wP@dq2Z`tJ36a<
zX*6Sxdj4XpblvEjB{yv4AJs(rqK$&BHg-47TVI$LR4XlC99kHP-i(p4<MFPm>m@z2
z)P~MFKOpF8X7x#(dA=o9F4*=7x_z^nJT#)&tR&0_HmeE8-jCa3bgV<LH$P>cO)pQc
zT35TDy!YHHw4MEZ_jCUFC84!Pu=j+oy);|qh9krCzI26>=A|Dc%*Vr*z~DtCFU+-q
zxi;3bQWM{MIAJ~l;R0KE^y=f@N4-xEKI>ZUN>pJz!dEx!wcEG&{QMtl-lD~%*-@~)
zMdyMuI`%m5DDd>wv;O7&#O`B)?HDWwm<IMabHqG9xj3^h^P;pxC~ZmT_J_N_(GWUI
zvb1K_n6y_#5m*5XXRnU63--EM{mUZj+*D+0emdq%6t&E%k~;ltUqnAkg1{pCybm<~
z)ve#$`{li*iItW_{plC=XNCH+pB?=C*r&%5^*w^Q2h3nDep^Pz+-PL<7q-V`kIE9}
zT3q#86g(MYrGIZ-I=@sZz+`l^3#Rs!%g?pxHFM^MaQKE`x&ian?D&~GYM&n#%)4V&
zJT_BH{BLhAO$m)1t2IL7alv#VeDN!l=HWXJ-kJTu{LSbO{-mm7@vekV;qggc)J!qn
z;Srv_3pBPLC%bUs!Ysx?U(hq=!ci_buX3?K9yTUwScacu10E?(3{~-m4?rnE_-nYm
zJhVS_NI^oWC_fnhf93;w$biVv`~nF}h5bHoL>v(0I}cqmAVV5bN9-wxQ(Pf_LT*!E
z^6rrVhZoa)1w)Zg8~U;J%c-Rp1wFQYa)6U2$Kck^+K^%tN1C>Lw2~&}TXuj%3J7~D
z-%6VDEu<+S45}#9cW7f9jaUoRfH>IJPu3=FC&l*T0s4YH**cK3RS4jz@NJ5Rv%iTa
zV$ZR#vY@O~cvx<)Fpo6GnfBhm6LI9Ury4EbbEb7yKd>S7&NkvRF*iiWzClVtP6?S`
zGHai8NberH5XD2pAoUe`=ZM%NzzMzrF<QX0&EDEWMq2Ye5i%h?dluG7Dw1aA@wHU?
zXdR#N??(&x=n=czLwS~lick@)ljgJ*nOOy`50JDWWC_@SPDykntq0ryxG{~J09VlF
zkmWtg0Id9wCZrAN6a;uWnJ5BCB4Gt+LRN{cl-o_ywILhm`i7awTKJ4FUdT@l6y=l`
z@R>u!{2tjVh{BHy5D9}72@x+Ng8d}ofEXY#S|jshb2_8LHszU7hMnZi^$VA0>l=5d
zU${J5zZhvCDy>6SWP4ilBt7!*%wZheo7G2#kV+nd+l157EBSb-myrK~?^{nkcuu|Y
zLGp9OPEqs-Jo@B6+T{461$L&00{HWuX|P8;L_)vdaVFzlITb8is0kL2BRtfou3hNs
zW)ES?VMsW9<Wz^lsav`3gwO3Cq}``xYQOb1asm!Fw~ss3D)Zpok2?U#e};*dI`bSA
zq2{~i`Dm|D+MLj}Jbm}skC%VE+P+FZKP8;Hm1w&y=x%?bRFrF^0~NXjZ=-~$p_zBR
z9wyIlSXs$%y#Q=?3~qS`v%!E71vkXhW+%OP-6mLk+&D?rkjn58#X(ezsFn=C;s>6$
z(fuEAy*fz3M6~^J$D@u|`=hQU>!Z_am8X^_o=q)JtxPP>tlnIHFJ5^{($`B=!)qD*
zU=Y4O0~yOf@-;*dfRKX2n2KK@B$S;5C|xAMG6B<b2<q%mZ}Fs^Hc8Etot3l~ygGOQ
zliug7@X95{3%r40*LV;j4ALW)s0OdvGa{-P|2RL*j^mc_jxEg~u_(aY=Ye~QVO_x?
z*Fh<U!NR#F-HssiAo*}C-j3K>NSq}sgW(~Z6u2<4!?<7sCtgTI(<H~ZMwm&~%kf?h
zdj!)|!|<$#?@QdIj~5Li5RAZ{qni~CpaSQ2`+Tlm(YmE)@E~U3z2Fw7v^C{i%sB9r
zbJ0Qe4DLX7LE!zqkZ*hDOxknZx-!_mff|1cKkg4OasMk!Y?cv5>)i3k@dxL_-QfxF
zGUkjC<NVD?QMh}9GR{tXa0ITF)}P&pPQ=<jnvARJ;#6Idvd*1|oQRT<(^2;twI{CH
z6Q}khDGL@9ZFt=BsAY|6h^rdnRKrG7+cRpJdSY6&t~GVd4$lQ6!RTPDX5C!(Tnl&P
zHy3YEwz-p$lhI3$uRXf9Mmd*;U$lZpb7{Txa$I#ePF+r>8LR?T8J$?8s$;{y@&D4l
z(hWY^YRy{1@ztr{g+2*=aZ@;bJ$}1y?Q~yUbtg{U`R?`XFQ|r$c1fye_C)mXi^_JP
zvVFbsP+WB=P91tl?TRw%R9(ti7#mur>f@^VI92~zr7&v3=U?jxbMf2{BR>TH`)0Hx
zHofZjUDYR5>!yq0i(gt#g|B?6wI>}VQTxK(S;Nb!Ju$_vF21Pi66(5E+Y@ys6IG|;
zy7DAd6;rHHwSV4s_|dM_*2tBlX?Lu4%~Y2xZ%83~*G%=v^2W%Ojq;}1D;sT{f~qCl
z1Ae9P%ksUkOY7w=3*9R%;cI`+!!{b4Uo@N)8cwb^oc@L4vEd`bXSY7T`{`YXSU|tk
zj`==8Rgu)0V74T6MbbY2MsTm>e^Y7}eF%j)pn1*|G0nRZx-vY^c81H7j+*p;WmB@U
z=|7rF)SAr$gwZzF8R?wAmyo7jYKvC)vMgR4nWWEYVyA&3TJfuUYkDP2!cyZ>n*ly)
zL`|RczMk4ql%rl=)Wc&s$20fG+0+)X4@;G{e<j{}@B&%}Zva#A#ZA<mfCv3aA9ISu
z>k9ABTqmTPN|GdB83@w!Z$#6kMoqRv>+!;PMF6;IAr!iY6%Q&l6_X@c4}N@E#Uffj
zn>7+zOB6d6TNYY2_eyA;jMhtNgN!yxXcJLh`Plf#xapM8eQEUHn=$%INhplzM$V{+
zn)+l}Mf%@X@{Qv*Nmk=!3yXPEiIEN140<9xn`(@Jmke`sATqG2l~8HQVpK1o2Et;W
zzp!|9;i^zny-7(lBLUJ{A}vw7VA!>3l4xe4xMZ_P0xcM{N}vsc#S&OTXsCw+4+dVB
JVpKBi{{qL*3%mdT

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/__pycache__/utils.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b57e9de15148d5872304744381842492c90dcaf8
GIT binary patch
literal 7738
zcmcgxZEPDydY&bB`7Me1{)()X6kDPaQBM33TefwlIM$tWvC^~Tv`}F1*4(8;dqpz4
zOW6{rLd^xOd~p#6XdC5%LzRCrlD7WQ0`5QmDUd_|kd=L6HV)w8?nm>Fjtult6lkBB
zSyGfNr)dgw0nX0s%)Il?%=5nU%*%hSsR<A~y7+GL-7Z3YOAF;E<YcxM1wuX`Dp3WU
z%n8%NoNL-8(6UQ+&xz9_%e!@H+JkSR?w#{Z``9;0_s<2U1IT-{pz75^2~qXEBTm=2
zh*tZFBOZA%Nj||C^hvl>Kiaw%y@aR%P0)hv_^Jjqmlo9Ocq!px->5vF8hS^X4zoTr
zmDaSzqt;@i`d!k6D(Q7vK;7=M_Xxp6Kn-Jr20u~T)Ou*P-J?MZVNQ;&(4-OV8Y}IZ
zP{UhLEt^r-#Kvx^X!(>8`P|W`75X<XxFhXf(S?b)Y~NW+Gn7lZW_!;mnM^V@6A|pN
zll=oDeQjZCA)`&;WBuv$T*lB$Gnr0}r;Rzq!bi`!w3<a{PlA21J%(mwja1xOc{&IY
z@pI$1^&2D~5DO`PF1yOP?e}Hcde>9c!?UXj#s8s)?|<Ecp?7Dmy~dakmxLV23G-x<
z+!7`t9)l`p*QJ!?ycT;atE8;tqNdu?yrO3{yC#{ks=n4G^t4j_p(!<=$Q+Jkl=zkH
zW)YV`^|$5N*y*XWZ;VZyeSISK(+gu0Q)j1nVf^*;=f<WcO}dn_{2w#J)?8*dlgtcR
ziZP>EL)Wq|9Y1#EC2d$wUK-9UShMNW@Vu_i4bP=jO^<2Uw0PD^8^gM?pc&?{qqbsU
zlZWHZhHGlf(o$v`^;s*ao6*dI-IFw9O594$v!-Q@d4XfWXoO1C-pwf_%j9>y_Dx@;
z;EQbfh6}#o2ejB<@bz!{h6=tRR@_w^E%>6FzQYCI;gVk(@Z`m3OCb_!$TuI!2an{%
zBU_M5>;O|emQv;b!{kgVZD6qzSrb~%aYV-{`pOSoPlm>Q%md}fvao=Cyj+b~r>*KL
zdl1!4y~C0_=gzt2iSZ`ecft6>oGZs`#GLpFc~6SFW=Pz1u?cM@$gCdMkqHUXCl2o4
zcim_a$&zPDQpu7x=Xr%(d=5Q*mgF=hIbTlrR4lh&^5?wE?wo(gd!spr{FRrmxWbK2
z3x171s+1Eyf@jPTq~2diW&Ph4M3Snhk_+5c$@N06>s9i$kn>JLe*wQG=_-l%CdO?c
z`qh8ox#cpNF^28sxH1=?8&79bs;tOrGLg^>EoI5o;E~PvtTv~aGQc1&igGd~FFqHQ
z=U;p6oNQ=sWs~qEvZCv<m6owrvNfy8CbrP&7mbLvWM=fFWqS=RqbqUE?tnxX2RbWy
zEN#RLZAQC>J+|VrcHj+aWM>Q`ZA1c0Q=<jy8m&}kf5u2(<^Tzsvx=d{Dj!U{Zr2w(
z$Ujg#nRcT&o6hQLjN>ZCpk@cQTkLMYYE0@u<jP|-P)+ui6RMZ_pGcNTDL{M;d2f5M
zuBqfB^_`nxxe%7u8aKlG*De*pk>#@hys!S|xq`Q6?eZN@;lOCIb6~x_(0M5DYkL$R
z&mP{A+^vCs?K^a{uH+^)t(&2Jh0wm$h4tb4p^;+Wp^`-WO(lXhkks9m_jP{Jv47>&
z2fZhYo%`44AG=+BwfRst6bbj`>jsMlju*mxB@b!XpC34}QGen=i(G6OE4KFMTL#v}
z_38E3N<=t*qU3fppV)GXtqmn2);BzAC7lNz50LKT#nztnqmbGiz)+Y|s5>7V%!`9a
zi@|+)ao;yzj|tGmq!7Q={&GMxo<S~NeG*j8i|0}EXY|CV*yajJ2&(W7tl||?KI_XE
zpTu#t_;!FU`)LXkQ@%Q@0agYuy6qz5q$z9H;JNe#nITCAJ{3R`Sdtl*C}NqEWJ2a(
zmrcAa$V*zYa=)RC^i$L-sfBVqz^x}uE6Td<IQ!@{58=0U6v<x-KOq9<lOq?yuybL1
zUe{eYp={-UC43+V<VJ%?7RcYYuL?#GU2h3?TMRCDFYrg)wkvwj_Hbnx_)Y40WO<oE
z&-S03(NfyAj4`@6^mH4Fp48KEMK?#ImFDLm#q2=x`+p<9Uncq5^S|!D>$z9gzaF?f
zzFBwT*Ztp^bhm!q(k_4uxUnQgC+$PG^Jg*#emC+4P0rC8ihhWC93Y{(4Jr@GM(})I
zJa52j65E4w34|g}#g-qsh;%|*pCX~lx9n1dr7Bp!9lOfQcTF%43e|POccmFQ7aTqv
z2M?swKuX22(h+j*a_th_{c@e<=WRhH-OS;NzjBws2v;fskdkr;6JfCUv8HE$#Y8rR
zQ!|~S2-4H(D{?jioF?P5axdS%Ug|2TH{3pbhn&-w!z-OiBxle<v4C3!Y&13CPBZD0
zYC>)_z#5*{u$%C&yy275(2Ghk<yi%un3m#N#*)*Cs$pU?Mmn1@pQol|XtJh2PiIIa
zC129YE?-l*aa5fKObR~)9EJG&OgcX%h>y>QKzHa0ftV6330lY+tPKmshhyHDi5!5v
zGHb>8u|03_R<@#)#mKC2gc>%>QDLAsP@R)i)6r)<X_ywKhQr5zDW@Itr)yv3FPPCQ
zj-@jVCN*fT?%k22x8GzVm)C?(ob{cWO&YtpX4r05jYxe<Wfd5ak-1nt9qwhQn;RU{
z^+7Dc9Cn_bztyeexh$5EJ2WhK+E6L@n6Kj>G0G*4=|n}D*?1h(K9SX<@>o^Lk-%9!
zz=gF*&}FL{)tMa=HIh*bWv*)ZMymF&x&>Etgzrl<m5QEYW?$XJfeR!!fGFeV$(@pw
z86}xAt?KSO7~lxzk&zQddJYB%W>}>awHP@G?_OC)^GPwLWhj<5voKOdWiL#tmm;he
zKCd?_pG|<pP!O_;=lLj14qaWgxn_Ac61)+G<<4<=1J=tXQ;U5UQuJa*^-Cl{wb;Hf
zpfhUEnbo(r3(SZbcr+r}^)V^|3AWB*O#WCbt}CV)i`l*yBS*+J@X8opJf^lG!^=e^
z&Z!O}&kk%(tZJD`^m@QFVuw1NFZcX*BO7#Q8{-&6T)@x#V<ezJqYedXZe0mH_7H!^
z>fqYUhA;Xxars{s9t59RePgq0sL(aE*>$wgb@Yz+Zqr6^{A)L@{avtY_40cE?Nb}U
zv67cajg&66<h@-FYTJsnFWery{S4^JXaq@3WXtWY3xEpw17JI$j=b2;P8_2Kdf2u6
zT*Qi56iGX74D?#(#*dxhIDWuA7{hmOpWiqha5MN+C?61D<qbJEWzv(l{w}y8ZsnIC
zF>Gtkvl}vqF|#902TO+SQXj>)l{sv_Xr|2Wjt=Np?=p9xmQ39?CoW0?w|GuX7#4TV
zhH@TLvnY_JjI8!N6QrnWk{(0=@`B9T!!tt(Sh%AIKu^(z&d#zpUfwyMm}-tIb?lyf
z8UbBm9WflWDFp`y^QpVccn_O(VDx=We&?)5D*TTg1Zg&XmAY0ld&$v|tukAUh+rJY
z7Ec(1NFyQx1qV9)Yz!e`Os4{FgR(l7{3)$_7RfT%>L86BE1n0zzO^&!NAE^|6Z~nh
zvHch4z``3lz^X%G4mm1r2gE=UIK=)Q849sIucN{z4iPrGa)Rno-5t1+S`?b>*(*o^
zSdua`GK2+jLCU#|UdXR7n{sbbA=J3IeoHN`zg!M3%~uAn2CNkEEIwchd3rbX<_P{y
zth@S<rBLMd@C5n(|3*07^F=pk|5tRWC#J@6Hw|#DC^@iQ2slU#O17k@uWCjaKXjWJ
ztZZ*av0$O8T^Pb`pBOax5I-}H1P-x*_-Z%3Z3S=JYV$pBcd?;uwSKkX=HQC=L9ph%
zW7m(}{L$)#d%?b9V=E1Z)ISQ6KwB|b|K7>#C*K`iz3|s>e)#4`7Yn#>p#d;g5A+4X
zH;??HyI9v)3~~tCHGFmXjdrKMqnl4>x^)0>d&>RGwSE5rX?AXJG(Li8imMzIK}1BX
ziin8UpB53RL^zy?h_ocmATE-V;Avrhpxe~v_8{l2ieZR3Z+T?++i=da7i`hSF&Y7P
zuNwm**}L6#tOu=5h-91G=R9QzhLrR0NYEtW)Rjnyh)9X3{2dm7S-?3OkdT!ph{iV0
zD3f*OT~lguKB*$4;c${<ib>hAJyCh*q2bt6ijPqab2;}2hD4BK$C>iWz}dMBKWK1f
zq#XXi8d4p~?8agFJ5?`>LzIUp<}jb9a2M9(JF~zYll;D3|Nlbtn7U`KDRgzr5muts
zUPZ=F$-UsJnjYmGE_yI(YI-6Db52Fyx-!oqNxhYhJ0>KblHdH6&b%u>jOn1epQm@d
z^8LFy3SVRz?}${;BZx&R#*wLtRJ74Z#dX(S2NGfyj%~sInsb5^x#-vtxj<aNr{Q8s
zU1h{=(3p<xzM?HW8K*F!s9W6sBn90gGVxDnYSN&B6Pc+0$;Vx*eYXcUUp!NI@yy-$
z{TE;Ti@uM$zA<UI_vbA=!Y{o&!h}H`73i>tXozL(LxFi;+k-eUbVL9{*CReobzi2n
zEPN<2gxTI~if3w^3}W@xECPt-qGKtXEYNX(=4>gCgU|?&L6g75&-@1@G!7CaHT4@*
zdnBJtZG_G*pDB7n%S-Up2%nw!vGAGnFC!CMh_`t@ADLLcx)Rv*brgIZt4G%Q@B0Sx
zBNK@GNeIKC0eEfXx#ictXp~pHU$peCj6Xo6#(TTve%-NRxO+2vpb$Q=Hh(W1{XE<Z
zy4?CKI@CO~8R{*Bde;u$4-J%RNK?<_FzMaD7Q5GTWaS5|FBF1ZdGQB#4kP*I>n;q!
zNdCv|FV~6@VLZ}e*TvI1;x&{?no;Fa+@ME?LD6JO7XCUi4H~|&B}P<@QJQbq4n~y!
zSm6Ji_}Dca*Fl4xLAD!?$rdlA(>nVv0rIl2Q(L4LLLN_Lu_bz=;B<_gr*w&L5l*yd
z<kj|_<hRXH<Bw3Jh&BHlX~``J!oT~75dD(${+2X+Ne+HVI!hj}aCALhB6!_ax9ICp
z8|mu(=trLqow{>rV`%J=_ps1i3^(3X-w%}B$Uh7<-JHA*l7~DF+@{XeLu=yN<j4Ni
z(L&>3i8jYpdIDR1no9|iFe$7bDiQj=({{J-AG>(|v%_2L8^(){@}c}up`$Vs@()7|
zB?)f~Q`>Sge*I#}OG~~d2BjUbyB_~mkmgi@{7^U}JaUJHa4}e0V(<2zwZ0F#c>dT)
z_I@b&Ru2Ek^p=Enr2%qe<dM5UsAoOsyREat%0n-(_e06QCE<H%a8UT606j}?nt9mR
cxqABjQzeNO_F5439V_CeV?FlMBHOP21~(NT@&Et;

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
new file mode 100644
index 0000000..3336771
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -0,0 +1,914 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from contextlib import suppress
+from typing import TYPE_CHECKING, Any, Literal, Optional, cast
+
+import torch
+from compressed_tensors.config import (
+    CompressionFormat,
+    SparsityCompressionConfig,
+    SparsityStructure,
+)
+from compressed_tensors.quantization import (
+    QuantizationArgs,
+    QuantizationStrategy,
+    QuantizationType,
+)
+from compressed_tensors.transform import TransformConfig
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_moe import (  # noqa: E501
+    CompressedTensorsMoEMethod,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    W4A16SPARSE24_SUPPORTED_BITS,
+    WNA16_SUPPORTED_BITS,
+    CompressedTensors24,
+    CompressedTensorsScheme,
+    CompressedTensorsW4A4Fp4,
+    CompressedTensorsW4A8Fp8,
+    CompressedTensorsW4A8Int,
+    CompressedTensorsW4A16Fp4,
+    CompressedTensorsW4A16Sparse24,
+    CompressedTensorsW8A8Fp8,
+    CompressedTensorsW8A8Int8,
+    CompressedTensorsW8A16Fp8,
+    CompressedTensorsWNA16,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.transform.linear import (  # noqa: E501
+    CompressedTensorsLinearTransformMethod,
+    get_linear_transform_schemes,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.utils import (
+    find_matched_target,
+    is_activation_quantization_format,
+    should_ignore_layer,
+)
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    cutlass_fp4_supported,
+)
+from vllm.platforms import current_platform
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
+logger = init_logger(__name__)
+
+__all__ = ["CompressedTensorsLinearMethod"]
+
+SPARSITY_CONFIG_NAME: Literal["sparsity_config"] = "sparsity_config"
+QUANTIZATION_SCHEME_MAP_TYPE = dict[str, dict[str, QuantizationArgs] | None]
+
+
+class CompressedTensorsConfig(QuantizationConfig):
+    def __init__(
+        self,
+        target_scheme_map: dict[str, Any],
+        ignore: list[str],
+        quant_format: str,
+        sparsity_scheme_map: dict[str, SparsityCompressionConfig],
+        sparsity_ignore_list: list[str],
+        kv_cache_scheme: dict[str, Any] | None = None,
+        config: dict[str, Any] | None = None,
+        transform_config: dict[str, Any] | None = None,
+    ):
+        super().__init__()
+        self.ignore = ignore
+        self.quant_format = quant_format
+        # Map from [target -> scheme]
+        self.target_scheme_map = target_scheme_map
+        self.kv_cache_scheme = kv_cache_scheme
+        self.sparsity_scheme_map = sparsity_scheme_map
+        self.sparsity_ignore_list = sparsity_ignore_list
+        self.config = config
+
+        if transform_config:
+            self.transform_config = TransformConfig.model_validate(transform_config)
+        else:
+            self.transform_config = None
+
+    def get_linear_method(self) -> "CompressedTensorsLinearMethod":
+        return CompressedTensorsLinearMethod(self)
+
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.float32, torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def get_name(self) -> QuantizationMethods:
+        return "compressed-tensors"
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        self.target_scheme_map = hf_to_vllm_mapper.apply_dict(self.target_scheme_map)
+        self.ignore = hf_to_vllm_mapper.apply_list(self.ignore)
+        self.sparsity_scheme_map = hf_to_vllm_mapper.apply_dict(
+            self.sparsity_scheme_map
+        )
+        self.sparsity_ignore_list = hf_to_vllm_mapper.apply_list(
+            self.sparsity_ignore_list
+        )
+        if self.kv_cache_scheme is not None:
+            self.kv_cache_scheme = hf_to_vllm_mapper.apply_dict(self.kv_cache_scheme)
+
+    def get_quant_method(
+        self,
+        layer: torch.nn.Module,
+        prefix: str,
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        if isinstance(layer, LinearBase):
+            # collect schemes
+            quant_scheme = self.get_scheme(layer=layer, layer_name=prefix)
+            input_tfms, output_tfms = get_linear_transform_schemes(
+                layer, prefix, self.transform_config, self.packed_modules_mapping
+            )
+
+            # choose quantization method
+            quant_method: LinearMethodBase = UnquantizedLinearMethod()
+            if quant_scheme is not None:
+                layer.scheme = quant_scheme
+                quant_method = CompressedTensorsLinearMethod(self)
+
+            # choose transform method
+            if any((input_tfms, output_tfms)):
+                return CompressedTensorsLinearTransformMethod.from_schemes(
+                    quant_method, quant_scheme, input_tfms, output_tfms
+                )
+
+            else:
+                return quant_method
+
+        if isinstance(layer, Attention):
+            return CompressedTensorsKVCacheMethod(self)
+        if isinstance(layer, FusedMoE):
+            return CompressedTensorsMoEMethod.get_moe_method(self, layer)
+        return None
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "CompressedTensorsConfig":
+        ignore: list[str] = cast(list[str], config.get("ignore", []))
+        quant_format = cast(str, config.get("format"))
+        target_scheme_map = cls._quantization_scheme_map_from_config(config=config)
+        sparsity_scheme_map, sparsity_ignore_list = cls._parse_sparsity_config(
+            config=config
+        )
+        transform_config = config.get("transform_config")
+
+        return cls(
+            target_scheme_map=target_scheme_map,
+            ignore=ignore,
+            quant_format=quant_format,
+            sparsity_scheme_map=sparsity_scheme_map,
+            sparsity_ignore_list=sparsity_ignore_list,
+            config=config,
+            transform_config=transform_config,
+        )
+
+    @classmethod
+    def _parse_sparsity_config(
+        cls, config: dict[str, Any]
+    ) -> tuple[dict[str, SparsityCompressionConfig], list[str]]:
+        """
+        :param config: The `quantization_config` dictionary from config.json
+        :return: A tuple with two elements
+            1. A dictionary mapping target layer names to their corresponding
+                sparsity_config
+            2. A list of layer names to ignore for sparsity
+        """
+        if not (sparsity_config := config.get(SPARSITY_CONFIG_NAME)):
+            return dict(), []
+
+        sparsity_config = SparsityCompressionConfig.model_validate(sparsity_config)
+        sparse_scheme_map: dict[str, SparsityCompressionConfig] = {
+            target: sparsity_config for target in sparsity_config.targets or list()
+        }
+        sparsity_ignore_list = sparsity_config.ignore or list()
+        return sparse_scheme_map, sparsity_ignore_list
+
+    @classmethod
+    def _quantization_scheme_map_from_config(
+        cls, config: dict[str, Any]
+    ) -> QUANTIZATION_SCHEME_MAP_TYPE:
+        """
+        :param config: The `quantization_config` dictionary from config.json
+        :return: A dictionary mapping target layer names to their corresponding
+            quantization_args for weights and input activations
+        """
+        target_scheme_map: dict[str, Any] = dict()
+        quant_format = cast(str, config.get("format"))
+
+        # The quant_config has multiple config_groups, each containing
+        # an input_activations key with details about how the activations are
+        # quantized, a weights key indicating how the weights are quantized,
+        # and a list of targets under the `targets` key, dictating which
+        # layers are impacted by the quantization details. The quantization
+        # details follow the structure defined by the QuantizationArgs
+        # pydantic model, which is used to verify the structure of the
+        # quant_config and also store the details for later use.
+
+        config_groups = config.get("config_groups", dict())
+        for _, quant_config in config_groups.items():
+            targets = quant_config.get("targets")
+            for target in targets:
+                target_scheme_map[target] = {}
+                target_scheme_map[target]["weights"] = QuantizationArgs.model_validate(
+                    quant_config.get("weights")
+                )
+
+                target_scheme_map[target]["input_activations"] = None
+                target_scheme_map[target]["format"] = quant_config.get("format")
+                format = target_scheme_map[target].get("format")
+                # If no per-config format defined, use global format in config
+                act_quant_format = (
+                    is_activation_quantization_format(format)
+                    if format is not None
+                    else is_activation_quantization_format(quant_format)
+                )
+                # TODO(czhu): w4a8fp8 is in packed-quantized format
+                # but needs input activation quantization
+                input_activations = quant_config.get("input_activations")
+                if act_quant_format or input_activations:
+                    # The only case where we have activation quant supported
+                    # but no input_activations provided in the config
+                    # should be w8a16fp8 w8a16fp8 can also run for cases where
+                    # there is an input_quant but it is ignored
+                    if not input_activations:
+                        assert (
+                            target_scheme_map[target]["weights"].type
+                            == QuantizationType.FLOAT
+                        )
+                    else:
+                        target_scheme_map[target]["input_activations"] = (
+                            QuantizationArgs.model_validate(
+                                quant_config.get("input_activations")
+                            )
+                        )
+        return target_scheme_map
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def _check_scheme_supported(
+        self, min_capability: int, error: bool = True, match_exact: bool = False
+    ) -> bool:
+        capability_tuple = current_platform.get_device_capability()
+
+        if capability_tuple is not None:
+            capability = capability_tuple.to_int()
+            if match_exact:
+                supported = capability == min_capability
+                if error and not supported:
+                    raise RuntimeError(
+                        "Quantization scheme is not supported for ",
+                        "the current GPU. Required capability: ",
+                        f"{min_capability}. Current capability: {capability}.",
+                    )
+            else:
+                supported = capability >= min_capability
+                if error and not supported:
+                    raise RuntimeError(
+                        "Quantization scheme is not supported for ",
+                        f"the current GPU. Min capability: {min_capability}. ",
+                        f"Current capability: {capability}.",
+                    )
+            return supported
+        else:
+            return False
+
+    def _is_fp4a4_nvfp4(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ):
+        if weight_quant is None or input_quant is None:
+            return False
+
+        is_tensor_group_quant = (
+            weight_quant.strategy == QuantizationStrategy.TENSOR_GROUP.value
+            and input_quant.strategy == QuantizationStrategy.TENSOR_GROUP.value
+        )
+        is_symmetric = weight_quant.symmetric and input_quant.symmetric
+
+        is_group_size_16 = (
+            weight_quant.group_size == 16 and input_quant.group_size == 16
+        )
+        is_float_type = (
+            weight_quant.type == QuantizationType.FLOAT
+            and input_quant.type == QuantizationType.FLOAT
+        )
+        is_4_bits = weight_quant.num_bits == 4 and input_quant.num_bits == 4
+
+        return (
+            is_tensor_group_quant
+            and is_float_type
+            and is_4_bits
+            and is_group_size_16
+            and is_symmetric
+        )
+
+    def _is_fp4a16_nvfp4(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ):
+        is_weight_only = weight_quant is not None and input_quant is None
+        is_tensor_group_quant = (
+            weight_quant.strategy == QuantizationStrategy.TENSOR_GROUP.value
+        )
+        is_symmetric = weight_quant.symmetric
+
+        is_group_size_16 = weight_quant.group_size == 16
+        is_float_type = weight_quant.type == QuantizationType.FLOAT
+        is_4_bits = weight_quant.num_bits == 4
+
+        return (
+            is_weight_only
+            and is_tensor_group_quant
+            and is_float_type
+            and is_4_bits
+            and is_group_size_16
+            and is_symmetric
+        )
+
+    def _is_static_tensor_w8a8(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        is_8_bits = weight_quant.num_bits == input_quant.num_bits == 8
+        weight_strategy = (
+            weight_quant.strategy == QuantizationStrategy.CHANNEL.value
+            or weight_quant.strategy == QuantizationStrategy.GROUP.value
+        )
+        is_tensor = (
+            weight_strategy
+            and input_quant.strategy == QuantizationStrategy.TENSOR.value
+        )
+        is_static = not weight_quant.dynamic and not input_quant.dynamic
+
+        # Both symmetric and asymmetric input quantization supported.
+        # Only symmetric weight quantization supported.
+        return is_8_bits and is_tensor and weight_quant.symmetric and is_static
+
+    def _is_dynamic_token_w8a8(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        is_8_bits = weight_quant.num_bits == input_quant.num_bits == 8
+        weight_strategy = (
+            weight_quant.strategy == QuantizationStrategy.CHANNEL.value
+            or weight_quant.strategy == QuantizationStrategy.GROUP.value
+        )
+        is_token = (
+            weight_strategy and input_quant.strategy == QuantizationStrategy.TOKEN.value
+        )
+        is_dynamic = not weight_quant.dynamic and input_quant.dynamic
+
+        # Both symmetric and asymmetric input quantization supported.
+        # Only symmetric weight quantization supported.
+        return is_8_bits and is_token and weight_quant.symmetric and is_dynamic
+
+    def _is_dynamic_token_w4a8_int(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        is_weight_4_bits = weight_quant.num_bits == 4
+        is_activation_8_bits = input_quant.num_bits == 8
+        weight_strategy = (
+            weight_quant.strategy == QuantizationStrategy.GROUP.value
+            or weight_quant.strategy == QuantizationStrategy.CHANNEL.value
+        )
+        is_token = (
+            weight_strategy and input_quant.strategy == QuantizationStrategy.TOKEN.value
+        )
+        is_dynamic = not weight_quant.dynamic and input_quant.dynamic
+
+        # Both symmetric and asymmetric input quantization supported.
+        # Only symmetric weight quantization supported.
+        return (
+            is_weight_4_bits
+            and is_activation_8_bits
+            and is_token
+            and weight_quant.symmetric
+            and is_dynamic
+        )
+
+    def _is_fp8_w8a8(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        # Confirm weights and activations quantized.
+        if weight_quant is None or input_quant is None:
+            return False
+
+        # Confirm weight scheme is supported.
+        is_floating_point = (
+            weight_quant.type == QuantizationType.FLOAT
+            and input_quant.type == QuantizationType.FLOAT
+        )
+        is_symmetric_weight = weight_quant.symmetric
+        is_static_weight = not weight_quant.dynamic
+        is_tensor_or_channel_or_block_weight = weight_quant.strategy in [
+            QuantizationStrategy.TENSOR,
+            QuantizationStrategy.CHANNEL,
+            QuantizationStrategy.BLOCK,
+        ]
+        if not (
+            is_floating_point
+            and is_symmetric_weight
+            and is_static_weight
+            and is_tensor_or_channel_or_block_weight
+        ):
+            return False
+
+        # Dynamic quantization is always supported if weights supported.
+        if input_quant.dynamic:
+            return True
+
+        # Confirm activation scheme is supported.
+        is_symmetric_activation = input_quant.symmetric
+        is_per_tensor_activation = input_quant.strategy == QuantizationStrategy.TENSOR
+        return is_symmetric_activation and is_per_tensor_activation
+
+    def _is_fp8_w4a8(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        if not weight_quant or not input_quant:
+            return False
+        is_weight_4_bits = weight_quant.num_bits == 4
+        is_activation_8_bits = input_quant.num_bits == 8
+        weight_strategy = weight_quant.strategy == QuantizationStrategy.GROUP.value
+        is_token = (
+            weight_strategy and input_quant.strategy == QuantizationStrategy.TOKEN.value
+        )
+        is_dynamic = not weight_quant.dynamic and input_quant.dynamic
+        is_symmetric = weight_quant.symmetric and input_quant.symmetric
+        # Only per-group symmetric weight (4bit)
+        # + per-tok symmetric activation (8bit) quantization supported.
+        return (
+            is_weight_4_bits
+            and is_activation_8_bits
+            and is_token
+            and is_symmetric
+            and is_dynamic
+        )
+
+    def _is_fp8_w4a8_sm90(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        return self._check_scheme_supported(
+            90, error=False, match_exact=True
+        ) and self._is_fp8_w4a8(weight_quant, input_quant)
+
+    def _is_fp8_w8a8_sm90(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        return self._check_scheme_supported(
+            90, error=False, match_exact=True
+        ) and self._is_fp8_w8a8(weight_quant, input_quant)
+
+    def _is_fp8_w8a8_sm100(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        return self._check_scheme_supported(
+            100, error=False, match_exact=True
+        ) and self._is_fp8_w8a8(weight_quant, input_quant)
+
+    def _is_fp8_w8a16(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        # Confirm weights quantized.
+        if weight_quant is None:
+            return False
+
+        # Confirm we have floating points.
+        if weight_quant.type != QuantizationType.FLOAT:
+            return False
+
+        # Confirm weight scheme is supported.
+        is_symmetric_weight = weight_quant.symmetric
+        is_static_weight = not weight_quant.dynamic
+        is_tensor_or_channel_or_block_weight = weight_quant.strategy in [
+            QuantizationStrategy.TENSOR,
+            QuantizationStrategy.CHANNEL,
+            QuantizationStrategy.BLOCK,
+        ]
+        return (
+            is_symmetric_weight
+            and is_static_weight
+            and is_tensor_or_channel_or_block_weight
+        )
+
+    def _is_wNa16_group_channel(
+        self, weight_quant: QuantizationArgs, input_quant: QuantizationArgs
+    ) -> bool:
+        input_quant_none = input_quant is None
+        is_channel_group = (
+            weight_quant.strategy == QuantizationStrategy.CHANNEL.value
+            or weight_quant.strategy == QuantizationStrategy.GROUP.value
+        )
+        is_static = not weight_quant.dynamic
+
+        return is_channel_group and input_quant_none and is_static
+
+    def _get_scheme_from_parts(
+        self,
+        weight_quant: QuantizationArgs,
+        input_quant: QuantizationArgs,
+        format: str | None = None,
+    ) -> "CompressedTensorsScheme":
+        # use the per-layer format if defined, otherwise, use global format
+        format = format if format is not None else self.quant_format
+
+        # Detect If Mixed Precision
+        if self._is_fp4a16_nvfp4(weight_quant, input_quant):
+            return CompressedTensorsW4A16Fp4()
+
+        if self._is_fp8_w4a8_sm90(weight_quant, input_quant):
+            return CompressedTensorsW4A8Fp8(
+                num_bits=weight_quant.num_bits,
+                strategy=weight_quant.strategy,
+                symmetric=weight_quant.symmetric,
+                group_size=weight_quant.group_size,
+                actorder=weight_quant.actorder,
+            )
+
+        if self._is_wNa16_group_channel(weight_quant, input_quant):
+            if (
+                format == CompressionFormat.marlin_24.value
+                and weight_quant.num_bits in W4A16SPARSE24_SUPPORTED_BITS
+            ):
+                assert weight_quant.symmetric
+                return CompressedTensorsW4A16Sparse24(
+                    strategy=weight_quant.strategy,
+                    num_bits=weight_quant.num_bits,
+                    group_size=weight_quant.group_size,
+                )
+            if (
+                format == CompressionFormat.pack_quantized.value
+                and weight_quant.num_bits in WNA16_SUPPORTED_BITS
+            ):
+                return CompressedTensorsWNA16(
+                    num_bits=weight_quant.num_bits,
+                    strategy=weight_quant.strategy,
+                    symmetric=weight_quant.symmetric,
+                    group_size=weight_quant.group_size,
+                    actorder=weight_quant.actorder,
+                )
+
+        act_quant_format = is_activation_quantization_format(format)
+        if act_quant_format:
+            if self._is_fp4a4_nvfp4(weight_quant, input_quant):
+                if cutlass_fp4_supported() or envs.VLLM_USE_NVFP4_CT_EMULATIONS:
+                    return CompressedTensorsW4A4Fp4()
+                else:
+                    logger.warning_once(
+                        "Current platform does not support cutlass NVFP4."
+                        " Running CompressedTensorsW4A16Fp4."
+                    )
+                    return CompressedTensorsW4A16Fp4(has_input_global_scale=True)
+
+            if self._is_fp8_w8a8(weight_quant, input_quant):
+                is_fp8_w8a8_supported = self._check_scheme_supported(
+                    CompressedTensorsW8A8Fp8.get_min_capability(), error=False
+                )
+                if is_fp8_w8a8_supported:
+                    return CompressedTensorsW8A8Fp8(
+                        weight_quant=weight_quant,
+                        is_static_input_scheme=(
+                            input_quant and not input_quant.dynamic
+                        ),
+                    )
+                else:
+                    # note: input_quant will be present for converted models;
+                    # will be ignored during inference post loading
+                    return CompressedTensorsW8A16Fp8(
+                        strategy=weight_quant.strategy,
+                        is_static_input_scheme=not input_quant.dynamic,
+                    )
+
+            # note: input_quant can be None
+            if self._is_fp8_w8a16(weight_quant, input_quant):
+                is_static_input_scheme = input_quant and not input_quant.dynamic
+                return CompressedTensorsW8A16Fp8(
+                    strategy=weight_quant.strategy,
+                    is_static_input_scheme=is_static_input_scheme,
+                )
+
+            if self._is_static_tensor_w8a8(weight_quant, input_quant):
+                return CompressedTensorsW8A8Int8(
+                    strategy=weight_quant.strategy,
+                    is_static_input_scheme=True,
+                    input_symmetric=input_quant.symmetric,
+                )
+
+            if self._is_dynamic_token_w8a8(weight_quant, input_quant):
+                return CompressedTensorsW8A8Int8(
+                    strategy=weight_quant.strategy,
+                    is_static_input_scheme=False,
+                    input_symmetric=input_quant.symmetric,
+                )
+
+            if self._is_dynamic_token_w4a8_int(weight_quant, input_quant):
+                is_static_input_scheme = input_quant and not input_quant.dynamic
+                return CompressedTensorsW4A8Int(
+                    num_bits=weight_quant.num_bits,
+                    strategy=weight_quant.strategy,
+                    group_size=weight_quant.group_size,
+                    is_static_input_scheme=is_static_input_scheme,
+                    input_symmetric=input_quant.symmetric,
+                )
+
+        raise NotImplementedError("No compressed-tensors compatible scheme was found.")
+
+    def get_scheme(
+        self, layer: torch.nn.Module, layer_name: str | None = None
+    ) -> Optional["CompressedTensorsScheme"]:
+        """
+        compressed-tensors supports non uniform in the following way:
+
+        targets of config_groups: There can be N config_groups which each
+            have a quantization scheme. Each config_group has a list of targets
+            which can be a full layer_name, a regex for a layer_name, or
+            an nn.Module name.
+
+        Detect whether a layer_name is found in any target and
+        use the quantization scheme corresponding to the matched target
+        to select the CompressedTensorsScheme used for inference.
+        """
+
+        # Find the "target" in the compressed-tensors config
+        # that our layer conforms to.
+        # TODO (@kylesayrs): support ignore module names with ct matching utils
+        if should_ignore_layer(
+            layer_name, ignore=self.ignore, fused_mapping=self.packed_modules_mapping
+        ):
+            return None
+
+        # Will be empty for models with only sparsity
+        weight_quant = input_quant = None
+        if self.target_scheme_map:
+            matched_target = find_matched_target(
+                layer_name=layer_name,
+                module=layer,
+                targets=self.target_scheme_map.keys(),
+                fused_mapping=self.packed_modules_mapping,
+            )
+
+            scheme_dict = self.target_scheme_map[matched_target]
+            weight_quant = scheme_dict.get("weights")
+            input_quant = scheme_dict.get("input_activations")
+            format = scheme_dict.get("format")
+
+        # Find the sparsity scheme of the layer
+        # assume that fused layers inherit first component's sparsity scheme
+        sparsity_targets = self.sparsity_scheme_map.keys() - set(
+            self.sparsity_ignore_list
+        )
+        sparsity_scheme: SparsityCompressionConfig | None = None
+        with suppress(ValueError):
+            matched_target = find_matched_target(
+                layer_name=layer_name,
+                module=layer,
+                targets=sparsity_targets,
+                fused_mapping=self.packed_modules_mapping,
+            )
+            sparsity_scheme = self.sparsity_scheme_map[matched_target]
+
+        if self.supports_cutlass_24(
+            weight_quant=weight_quant,
+            input_quant=input_quant,
+            sparsity_scheme=sparsity_scheme,
+        ):
+            # Have a valid sparsity scheme
+            # Validate layer is supported by Cutlass 2:4 Kernel
+            model_compression_config = (
+                None
+                if sparsity_scheme is None or sparsity_scheme.format == "dense"
+                else self.config
+            )
+
+            scheme = CompressedTensors24(
+                quantized=weight_quant is not None or input_quant is not None,
+                weight_quant=weight_quant,
+                input_quant=input_quant,
+                model_compression_config=model_compression_config,
+            )
+        elif weight_quant is None:
+            logger.warning_once(
+                "Acceleration for non-quantized schemes is "
+                "not supported by Compressed Tensors. "
+                "Falling back to UnquantizedLinearMethod"
+            )
+            return None
+
+        else:
+            # Find the quant_scheme
+            scheme = self._get_scheme_from_parts(  # type: ignore
+                weight_quant=weight_quant, input_quant=input_quant, format=format
+            )
+
+        # Raise error if device does not support the scheme
+        # (e.g. fp8 needs ada lovelace)
+        self._check_scheme_supported(scheme.get_min_capability())
+        logger.debug("Using scheme: %s for %s", scheme.__class__.__name__, layer_name)
+        return scheme
+
+    def get_cache_scale(self, name: str) -> str | None:
+        """
+        Check whether the param name matches the format for k/v cache scales
+        in compressed-tensors. If this is the case, return its equivalent
+        param name expected by vLLM
+
+        :param name: param name
+        :return: matching param name for KV cache scale in vLLM
+        """
+        if name.endswith(".output_scale") and ".k_proj" in name:
+            return name.replace(".k_proj.output_scale", ".attn.k_scale")
+        if name.endswith(".output_scale") and ".v_proj" in name:
+            return name.replace(".v_proj.output_scale", ".attn.v_scale")
+        # If no matches, return None
+        return None
+
+    def has_blocked_weights(self) -> bool:
+        for scheme in self.target_scheme_map.values():
+            weight_quant = scheme.get("weights")
+            if (
+                weight_quant is not None
+                and weight_quant.strategy == QuantizationStrategy.BLOCK
+            ):
+                return True
+        return False
+
+    @staticmethod
+    def supports_cutlass_24(
+        weight_quant: QuantizationArgs | None,
+        input_quant: QuantizationArgs | None,
+        sparsity_scheme: SparsityCompressionConfig | None = None,
+    ) -> bool:
+        """
+        Check if the layer is supported by the Cutlass 2:4 Kernel
+        Conditions:
+            - Overarching condition: Sparsity Structure is 2:4
+            - Unquantized cases are supported
+            - Weight only quantization is not-supported
+            - Supported weight quantization strategies are TENSOR and CHANNEL
+            - Supported input quantization strategies are TENSOR and TOKEN
+            - Only 8 bit quantization is supported
+
+        :return: True if the layer is supported by the Cutlass 2:4 Kernel
+            False otherwise
+        """
+        if sparsity_scheme is None:
+            return False
+
+        is_valid_sparsity_structure: bool = (
+            sparsity_scheme.sparsity_structure == SparsityStructure.TWO_FOUR.value
+        )
+
+        valid_compressors = {
+            CompressionFormat.dense.value,
+            CompressionFormat.sparse_24_bitmask.value,
+        }
+
+        is_valid_sparsity = (
+            is_valid_sparsity_structure and sparsity_scheme.format in valid_compressors
+        )
+
+        if not is_valid_sparsity:
+            return False
+
+        # Unquantized cases are supported
+        if weight_quant is None and input_quant is None:
+            return True
+
+        # Weight only quantization is not-supported
+        if weight_quant is not None and input_quant is None:
+            return False
+
+        supported_weight_quant_strategies = [
+            QuantizationStrategy.TENSOR.value,
+            QuantizationStrategy.CHANNEL.value,
+        ]
+
+        assert weight_quant is not None
+        assert input_quant is not None
+        if weight_quant.strategy not in supported_weight_quant_strategies:
+            return False
+
+        supported_input_quant_strategies = [
+            QuantizationStrategy.TENSOR.value,
+            QuantizationStrategy.TOKEN.value,
+        ]
+
+        if input_quant.strategy not in supported_input_quant_strategies:
+            return False
+
+        return weight_quant.num_bits == input_quant.num_bits == 8
+
+
+class CompressedTensorsLinearMethod(LinearMethodBase):
+    def __init__(self, quantization_config: CompressedTensorsConfig):
+        self.quantization_config = quantization_config
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.scheme.process_weights_after_loading(layer)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """
+        Use the CompressedTensorsScheme associated with each layer to create
+        the necessary parameters for the layer. See LinearMethodBase for param
+        details
+        """
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.scheme.create_weights(
+            layer=layer,
+            input_size=input_size,
+            input_size_per_partition=input_size_per_partition,
+            output_partition_sizes=output_partition_sizes,
+            output_size=output_size,
+            params_dtype=params_dtype,
+            weight_loader=weight_loader,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ):
+        """
+        Use the output of create_weights and the CompressedTensorsScheme
+        associated with the layer to apply the forward pass with the
+        layer input.  See LinearMethodBase for param details
+
+        """
+        scheme = layer.scheme
+        if scheme is None:
+            raise ValueError("A scheme must be defined for each layer")
+        return scheme.apply_weights(layer, x, bias=bias)
+
+
+class CompressedTensorsKVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from compressed-tensors
+    checkpoints.
+    """
+
+    def __init__(self, quant_config: CompressedTensorsConfig):
+        self.validate_kv_cache_scheme(quant_config.kv_cache_scheme)
+        super().__init__(quant_config)
+
+    @staticmethod
+    def validate_kv_cache_scheme(kv_cache_scheme: dict[str, Any] | None):
+        """
+        Validator for the kv cache scheme. Useful for controlling the
+        kv cache quantization schemes, that are being supported in vLLM
+        :param kv_cache_scheme: the compressed-tensors kv cache scheme
+        """
+        if kv_cache_scheme is None:
+            return
+
+        type_ = kv_cache_scheme.get("type")
+        num_bits = kv_cache_scheme.get("num_bits")
+
+        if type_ != "float" and num_bits != 8:
+            raise NotImplementedError(
+                "Currently supported kv cache quantization is "
+                "num_bits=8, type=float, however "
+                f"received num_bits={num_bits}, type={type_}"
+            )
+
+        strategy = kv_cache_scheme.get("strategy")
+        if strategy != "tensor":
+            raise NotImplementedError(
+                "Only support per-tensor scaling factor "
+                "for compressed-tensors KV cache. "
+                f"Expected strategy: tensor, found strategy: {strategy}"
+            )
+
+        is_symmetric = kv_cache_scheme.get("symmetric")
+        if not is_symmetric:
+            raise NotImplementedError(
+                "Only support symmetric scaling factor "
+                "for compressed-tensors KV cache. "
+                f"However found symmetric: {is_symmetric}"
+            )
diff --git a/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
new file mode 100644
index 0000000..dc21258
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -0,0 +1,3534 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+from collections.abc import Callable
+from enum import Enum
+
+import torch
+from compressed_tensors import CompressionFormat
+from compressed_tensors.quantization import ActivationOrdering, QuantizationStrategy
+
+import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoE,
+    FusedMoEActivationFormat,
+    FusedMoEConfig,
+    FusedMoEMethodBase,
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    fp8_w8a8_moe_quant_config,
+    int4_w4a16_moe_quant_config,
+    int8_w8a8_moe_quant_config,
+    int8_w8a16_moe_quant_config,
+    nvfp4_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.cpu_fused_moe import select_experts
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
+    is_valid_flashinfer_cutlass_fused_moe,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import (
+    BatchedMarlinExperts,
+    MarlinExperts,
+    fused_marlin_moe,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes.compressed_tensors_wNa16 import (  # noqa
+    WNA16_SUPPORTED_BITS,
+    WNA16_SUPPORTED_TYPES_MAP,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.utils import (
+    find_matched_target,
+)
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.flashinfer_fp4_moe import (
+    build_flashinfer_fp4_cutlass_moe_prepare_finalize,
+    reorder_w1w3_to_w3w1,
+    select_nvfp4_gemm_impl,
+)
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    expert_weight_is_col_major,
+    requant_weight_ue8m0_inplace,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    check_moe_marlin_supports_layer,
+    marlin_make_workspace_new,
+    marlin_moe_permute_scales,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    prepare_moe_fp4_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    prepare_moe_fp8_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import swizzle_blockscale
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    all_close_1d,
+    normalize_e4m3fn_to_e4m3fnuz,
+    per_tensor_dequantize,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.scalar_type import scalar_types
+from vllm.utils.deep_gemm import (
+    get_col_major_tma_aligned_tensor,
+    is_deep_gemm_e8m0_used,
+)
+
+logger = init_logger(__name__)
+import ixformer.inference.functions as ixfops
+import vllm.envs as envs
+
+
+class GPTQMarlinState(Enum):
+    REPACK = enum.auto()
+    READY = enum.auto()
+
+
+__all__ = [
+    "CompressedTensorsMoEMethod",
+    "CompressedTensorsW8A8Fp8MoEMethod",
+    "CompressedTensorsW8A8Int8MoEMethod",
+    "CompressedTensorsWNA16MarlinMoEMethod",
+    "CompressedTensorsWNA16MoEMethod",
+    "CompressedTensorsW4A4MoeMethod",
+    "CompressedTensorsW4A8Int8MoEMethod",
+]
+
+
+class CompressedTensorsMoEMethod(FusedMoEMethodBase):
+    @staticmethod
+    def get_moe_method(
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        layer: torch.nn.Module,
+    ) -> "CompressedTensorsMoEMethod":
+        # TODO: @dsikka: refactor this to use schemes as other kernels
+        # are supported + check if the layer is being ignored.
+        # Check if a using "Linear" to select schemes
+        if "Linear" in quant_config.target_scheme_map:
+            matched_target = "Linear"
+        else:
+            # May have instead defined the linear layers in the fused model
+
+            fused_layers = ["re:.*down_proj.*", "re:.*gate_proj.*", "re:.*up_proj.*"]
+            current_scheme = None
+            for fused_layer in fused_layers:
+                # Check if one of the fused layers are defined in quant_config
+                matched_target = find_matched_target(
+                    layer_name=fused_layer,
+                    module=layer,
+                    targets=quant_config.target_scheme_map.keys(),
+                    fused_mapping=quant_config.packed_modules_mapping,
+                )
+
+                # Only valid if down_proj, gate_proj, and up_proj
+                # are mapped to the same quant scheme in the quant_config
+                if current_scheme is None:
+                    current_scheme = quant_config.target_scheme_map.get(matched_target)
+                else:
+                    assert current_scheme == quant_config.target_scheme_map.get(
+                        matched_target
+                    )
+
+        weight_quant = quant_config.target_scheme_map[matched_target].get("weights")
+        input_quant = quant_config.target_scheme_map[matched_target].get(
+            "input_activations"
+        )
+
+        if quant_config._is_wNa16_group_channel(weight_quant, input_quant):
+            # group_size=None means channelwise
+            group_size = weight_quant.group_size or -1
+            # Prefer to use the MarlinMoE kernel when it is supported.
+            if (
+                not check_moe_marlin_supports_layer(layer, group_size)
+                or current_platform.is_rocm()
+            ):
+                if (
+                    weight_quant.strategy == QuantizationStrategy.GROUP
+                    and weight_quant.actorder
+                    in (ActivationOrdering.GROUP, ActivationOrdering.DYNAMIC)
+                ):
+                    raise ValueError(
+                        "WNA16MoE is not supported with actorder=group/dynamic."
+                    )
+                logger.info_once("Using CompressedTensorsWNA16MoEMethod")
+                return CompressedTensorsWNA16MoEMethod(quant_config, layer.moe_config)
+            else:
+                logger.info_once("Using CompressedTensorsWNA16MarlinMoEMethod")
+                return CompressedTensorsWNA16MarlinMoEMethod(
+                    quant_config, layer.moe_config
+                )
+        elif quant_config._is_fp4a4_nvfp4(weight_quant, input_quant):
+            return CompressedTensorsW4A4MoeMethod(layer.moe_config)
+        elif (
+            quant_config._is_fp8_w8a8_sm90(weight_quant, input_quant)
+            or quant_config._is_fp8_w8a8_sm100(weight_quant, input_quant)
+            or quant_config._is_fp8_w8a8(weight_quant, input_quant)
+        ):
+            return CompressedTensorsW8A8Fp8MoEMethod(quant_config, layer.moe_config)
+        elif quant_config._is_dynamic_token_w8a8(weight_quant, input_quant) or quant_config._is_static_tensor_w8a8(weight_quant, input_quant):
+            if envs.VLLM_W8A8_MOE_USE_W4A8:
+                return CompressedTensorsW4A8MoEMethod(quant_config, layer.moe_config)
+            else:
+                return CompressedTensorsW8A8Int8MoEMethod(quant_config, layer.moe_config)
+        elif quant_config._is_dynamic_token_w4a8_int(weight_quant, input_quant):
+            return CompressedTensorsW4A8Int8MoEMethod(quant_config, layer.moe_config)
+        else:
+            raise RuntimeError(
+                f"Unsupported FusedMoe scheme: {weight_quant}, {input_quant}"
+            )
+
+
+class CompressedTensorsW4A4MoeMethod(CompressedTensorsMoEMethod):
+    def __init__(self, moe: FusedMoEConfig):
+        from vllm.model_executor.layers.quantization.utils.nvfp4_moe_support import (  # noqa: E501
+            detect_nvfp4_moe_support,
+        )
+
+        super().__init__(moe)
+        _nvfp4 = detect_nvfp4_moe_support(self.__class__.__name__)
+        self.cutlass_nvfp4_supported = _nvfp4.cutlass_supported
+        self.allow_flashinfer = _nvfp4.allow_flashinfer
+        self.use_marlin = _nvfp4.use_marlin
+        self.group_size = 16
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.num_experts = num_experts
+        layer.params_dtype = params_dtype
+
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // 2,
+                requires_grad=False,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_packed", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_packed", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # Weight Scales
+        w13_weight_scale = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // self.group_size,
+                dtype=torch.float8_e4m3fn,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.GROUP.value}
+        )
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+
+        w2_weight_scale = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition // self.group_size,
+                dtype=torch.float8_e4m3fn,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.GROUP.value}
+        )
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # Weight Global Scales
+        w13_weight_scale_2 = torch.nn.Parameter(
+            torch.empty(num_experts, 2, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w13_weight_global_scale", w13_weight_scale_2)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        set_weight_attrs(w13_weight_scale_2, extra_weight_attrs)
+
+        w2_weight_scale_2 = torch.nn.Parameter(
+            torch.empty(num_experts, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w2_weight_global_scale", w2_weight_scale_2)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        set_weight_attrs(w2_weight_scale_2, extra_weight_attrs)
+
+        # Input Global Scales
+        w13_input_scale = torch.nn.Parameter(
+            torch.empty(num_experts, 2, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w13_input_global_scale", w13_input_scale)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+        w2_input_scale = torch.nn.Parameter(
+            torch.empty(num_experts, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w2_input_global_scale", w2_input_scale)
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        set_weight_attrs(w2_input_scale, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # From packed to weight
+        layer.w13_weight = torch.nn.Parameter(
+            layer.w13_weight_packed.data, requires_grad=False
+        )
+        delattr(layer, "w13_weight_packed")
+
+        layer.w2_weight = torch.nn.Parameter(
+            layer.w2_weight_packed.data, requires_grad=False
+        )
+        delattr(layer, "w2_weight_packed")
+
+        # reorder GEMM1 weights and block scales for FlashInfer CUTLASS kernel.
+        if self.allow_flashinfer:
+            w, s = reorder_w1w3_to_w3w1(
+                layer.w13_weight.data, layer.w13_weight_scale.data, dim=-2
+            )
+            layer.w13_weight = torch.nn.Parameter(w, requires_grad=False)
+            layer.w13_weight_scale = torch.nn.Parameter(s, requires_grad=False)
+
+        if not torch.allclose(
+            layer.w13_weight_global_scale[:, 0], layer.w13_weight_global_scale[:, 1]
+        ):
+            logger.warning_once(
+                "w1_weight_global_scale must match w3_weight_global_scale. "
+                "Accuracy may be affected."
+            )
+
+        # Take inverse of global scale saved to disk
+        layer.w13_weight_scale_2 = torch.nn.Parameter(
+            1 / layer.w13_weight_global_scale[:, 0], requires_grad=False
+        )
+
+        layer.w2_weight_scale_2 = torch.nn.Parameter(
+            1 / layer.w2_weight_global_scale.data, requires_grad=False
+        )
+
+        if self.use_marlin:
+            prepare_moe_fp4_layer_for_marlin(layer)
+            return
+
+        # swizzle weight scales
+        layer.w13_weight_scale = torch.nn.Parameter(
+            swizzle_blockscale(layer.w13_weight_scale), requires_grad=False
+        )
+
+        layer.w2_weight_scale = torch.nn.Parameter(
+            swizzle_blockscale(layer.w2_weight_scale), requires_grad=False
+        )
+
+        # w13
+        w13_input_global_scale = layer.w13_input_global_scale.max(dim=1).values.to(
+            torch.float32
+        )
+
+        layer.g1_alphas = torch.nn.Parameter(
+            ((1 / w13_input_global_scale) * layer.w13_weight_scale_2),
+            requires_grad=False,
+        )
+
+        layer.w13_input_scale_quant = torch.nn.Parameter(
+            (w13_input_global_scale), requires_grad=False
+        )
+
+        # w2
+        layer.g2_alphas = torch.nn.Parameter(
+            ((1 / layer.w2_input_global_scale) * layer.w2_weight_scale_2).to(
+                torch.float32
+            ),
+            requires_grad=False,
+        )
+
+        layer.w2_input_scale_quant = torch.nn.Parameter(
+            (layer.w2_input_global_scale), requires_grad=False
+        )
+
+    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+        if self.use_marlin:
+            return None
+        elif not self.allow_flashinfer:
+            return super().maybe_make_prepare_finalize()
+
+        prepare_finalize = build_flashinfer_fp4_cutlass_moe_prepare_finalize(self.moe)
+        logger.debug_once("%s", prepare_finalize.__class__.__name__)
+        return prepare_finalize
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        assert self.moe_quant_config is not None
+        """Return the appropriate GEMM experts implementation."""
+        experts = select_nvfp4_gemm_impl(
+            self.moe,
+            self.moe_quant_config,
+            allow_flashinfer=self.allow_flashinfer,
+        )
+        logger.debug_once("Using %s", experts.__class__.__name__)
+        return experts
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.use_marlin:
+            return None
+
+        return nvfp4_moe_quant_config(
+            g1_alphas=layer.g1_alphas,
+            g2_alphas=layer.g2_alphas,
+            a1_gscale=layer.w13_input_scale_quant,
+            a2_gscale=layer.w2_input_scale_quant,
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `CompressedTensorsW4A4MoeMethod` yet."
+            )
+        assert activation == "silu", "Only SiLU activation is supported."
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        if self.use_marlin:
+            return fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                None,
+                None,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                global_scale1=layer.w13_weight_scale_2,
+                global_scale2=layer.w2_weight_scale_2,
+                quant_type_id=scalar_types.float4_e2m1f.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                workspace=layer.workspace,
+            )
+
+        # FlashInfer fused experts path
+        elif self.allow_flashinfer:
+            from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (  # noqa: E501
+                flashinfer_cutlass_moe_fp4,
+            )
+
+            assert is_valid_flashinfer_cutlass_fused_moe(
+                x, layer.w13_weight, layer.w2_weight
+            ), "Flashinfer CUTLASS Fused MoE not applicable!"
+
+            assert self.moe_quant_config is not None
+
+            return flashinfer_cutlass_moe_fp4(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                quant_config=self.moe_quant_config,
+                inplace=False,  # TODO(shuw): fix later, now output is high prec
+                activation=activation,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            from vllm.model_executor.layers.fused_moe.cutlass_moe import cutlass_moe_fp4
+
+            assert expert_map is None, (
+                "Expert Parallelism / expert_map "
+                "is currently not supported for "
+                "CompressedTensorsW4A4MoeMethod."
+            )
+            assert self.moe_quant_config is not None
+
+            # Cutlass moe takes in activations in BF16/Half precision
+            # and fp4 quantized weights loaded from the checkpoint
+            return cutlass_moe_fp4(
+                a=x,
+                w1_fp4=layer.w13_weight,
+                w2_fp4=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                quant_config=self.moe_quant_config,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                # TODO(bnell): derive these from arguments
+                m=x.shape[0],
+                n=layer.w2_weight.shape[2] * 2,
+                k=x.shape[1],
+                e=layer.w13_weight.shape[0],
+            ).to(x.dtype)
+
+
+class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        self.weight_quant = self.quant_config.target_scheme_map["Linear"].get("weights")
+        self.input_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "input_activations"
+        )
+
+        per_tensor = (
+            self.weight_quant.strategy == QuantizationStrategy.TENSOR
+            and self.input_quant.strategy == QuantizationStrategy.TENSOR
+        )
+        per_channel = (
+            self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+            and self.input_quant.strategy == QuantizationStrategy.TOKEN
+        )
+        if not (per_tensor or per_channel):
+            assert self.weight_quant.strategy == QuantizationStrategy.BLOCK
+            self.weight_block_size = self.weight_quant.block_structure
+            assert self.weight_quant.dynamic is not None
+        else:
+            self.weight_block_size = None
+        self.block_quant = self.weight_block_size is not None
+
+        self.static_input_scales = not self.input_quant.dynamic
+        if self.static_input_scales and per_channel:
+            raise ValueError(
+                "For FP8 Fused MoE layer, we require either per tensor or "
+                "channelwise, dynamic per token quantization."
+            )
+
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = (
+            not current_platform.has_device_capability(89)
+            or envs.VLLM_TEST_FORCE_FP8_MARLIN
+            and not self.block_quant
+        )
+        # Disable marlin for rocm
+        if current_platform.is_rocm():
+            self.use_marlin = False
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+
+        # cutlass path
+        self.is_fp8_w8a8_sm100 = quant_config._is_fp8_w8a8_sm100(
+            self.weight_quant, self.input_quant
+        )
+        self.use_cutlass = not self.block_quant and (
+            quant_config._is_fp8_w8a8_sm90(self.weight_quant, self.input_quant)
+            or self.is_fp8_w8a8_sm100
+        )
+        self.disable_expert_map = False
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
+        params_dtype = torch.float8_e4m3fn
+
+        if self.block_quant:
+            assert self.weight_block_size is not None
+            layer.weight_block_size = self.weight_block_size
+            tp_size = get_tensor_model_parallel_world_size()
+            block_n, block_k = (
+                self.weight_block_size[0],
+                self.weight_block_size[1],
+            )
+            # NOTE: To ensure proper alignment of the block-wise quantization
+            # scales, the output_size of the weights for both the gate and up
+            # layers must be divisible by block_n.
+            # Required by column parallel or enabling merged weights
+            if intermediate_size_per_partition % block_n != 0:
+                raise ValueError(
+                    f"The output_size of gate's and up's weight = "
+                    f"{intermediate_size_per_partition} is not divisible by "
+                    f"weight quantization block_n = {block_n}."
+                )
+            if tp_size > 1 and intermediate_size_per_partition % block_k != 0:
+                # Required by row parallel
+                raise ValueError(
+                    f"The input_size of down's weight = "
+                    f"{intermediate_size_per_partition} is not divisible by "
+                    f"weight quantization block_k = {block_k}."
+                )
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        if self.weight_quant.strategy == QuantizationStrategy.TENSOR:
+            # Allocate 2 scales for w1 and w3 respectively.
+            # They are combined to a single scale after weight loading.
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, 2, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+            # Add PER-TENSOR quantization for FusedMoE.weight_loader.
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+            )
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        elif self.weight_quant.strategy == QuantizationStrategy.CHANNEL:
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    2 * intermediate_size_per_partition,
+                    1,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, hidden_size, 1, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+            # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value}
+            )
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        elif self.weight_quant.strategy == QuantizationStrategy.BLOCK:
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    2 * ((intermediate_size_per_partition + block_n - 1) // block_n),
+                    (hidden_size + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    (hidden_size + block_n - 1) // block_n,
+                    (intermediate_size_per_partition + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+            # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+            )
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        if self.static_input_scales:
+            w13_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # Fp8 moe kernels require a single activation scale.
+        # We take the max of all the scales in case they differ.
+        if self.static_input_scales:
+            assert self.input_quant.strategy == QuantizationStrategy.TENSOR
+            if layer.w13_input_scale is None or layer.w2_input_scale is None:
+                raise ValueError(
+                    "QuantConfig has static quantization, but found "
+                    "activation scales are None."
+                )
+            if not all_close_1d(layer.w13_input_scale) or not all_close_1d(
+                layer.w2_input_scale
+            ):
+                logger.warning_once(
+                    "Found input_scales that are not equal for "
+                    "fp8 MoE layer. Using the maximum across experts "
+                    "for each layer."
+                )
+            layer.w13_input_scale = torch.nn.Parameter(
+                layer.w13_input_scale.max(), requires_grad=False
+            )
+            layer.w2_input_scale = torch.nn.Parameter(
+                layer.w2_input_scale.max(), requires_grad=False
+            )
+
+        if current_platform.is_fp8_fnuz():
+            # Normalize the weights and scales
+            w13_weight, w13_weight_scale, w13_input_scale = (
+                normalize_e4m3fn_to_e4m3fnuz(
+                    layer.w13_weight, layer.w13_weight_scale, layer.w13_input_scale
+                )
+            )
+            w2_weight, w2_weight_scale, w2_input_scale = normalize_e4m3fn_to_e4m3fnuz(
+                layer.w2_weight, layer.w2_weight_scale, layer.w2_input_scale
+            )
+            # Reset the parameter
+            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+            layer.w13_weight_scale = torch.nn.Parameter(
+                w13_weight_scale, requires_grad=False
+            )
+            if w13_input_scale is not None:
+                layer.w13_input_scale = torch.nn.Parameter(
+                    w13_input_scale, requires_grad=False
+                )
+            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+            layer.w2_weight_scale = torch.nn.Parameter(
+                w2_weight_scale, requires_grad=False
+            )
+            if w2_input_scale is not None:
+                layer.w2_input_scale = torch.nn.Parameter(
+                    w2_input_scale, requires_grad=False
+                )
+
+        # For Per-TENSOR case, Fp8 moe kernel needs single weight scale
+        # for w13 per expert. Use max then dequant and requant each expert.
+        if self.weight_quant.strategy == QuantizationStrategy.TENSOR:
+            assert layer.w13_weight_scale is not None
+            shard_size = layer.intermediate_size_per_partition
+            max_w13_scales = layer.w13_weight_scale.max(dim=1).values
+            for expert_id in range(layer.local_num_experts):
+                start = 0
+                for shard_id in range(2):
+                    dq_weight = per_tensor_dequantize(
+                        layer.w13_weight[expert_id][start : start + shard_size, :],
+                        layer.w13_weight_scale[expert_id][shard_id],
+                    )
+                    layer.w13_weight[expert_id][start : start + shard_size, :], _ = (
+                        ops.scaled_fp8_quant(dq_weight, max_w13_scales[expert_id])
+                    )
+                    start += shard_size
+            layer.w13_weight_scale = torch.nn.Parameter(
+                max_w13_scales, requires_grad=False
+            )
+
+        # Property to determine if AITER is used
+        if self.rocm_aiter_moe_enabled:
+            # reshaping weights is required for aiter moe kernel.
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                layer.w13_weight.data, layer.w2_weight.data
+            )
+
+            layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
+
+        elif self.use_marlin:
+            prepare_moe_fp8_layer_for_marlin(layer, False)
+            # Activations not quantized for marlin.
+            del layer.w13_input_scale
+            del layer.w2_input_scale
+
+        if self.use_cutlass:
+            assert self.weight_quant.strategy != QuantizationStrategy.BLOCK
+            device = layer.w13_weight.device
+            # ab_strides1 and c_strides2 are the same
+            self.ab_strides1_c_strides2 = torch.full(
+                (layer.local_num_experts,),
+                layer.hidden_size,
+                device=device,
+                dtype=torch.int64,
+            )
+            self.ab_strides2 = torch.full(
+                (layer.local_num_experts,),
+                layer.intermediate_size_per_partition,
+                device=device,
+                dtype=torch.int64,
+            )
+            self.c_strides1 = torch.full(
+                (layer.local_num_experts,),
+                2 * layer.intermediate_size_per_partition,
+                device=device,
+                dtype=torch.int64,
+            )
+
+        if is_deep_gemm_e8m0_used() and self.block_quant:
+            assert layer.weight_block_size is not None
+            # Re-quantise the expert weights so their scales are UE8M0.
+            block_sz = tuple(layer.weight_block_size)
+            requant_weight_ue8m0_inplace(
+                layer.w13_weight.data,
+                layer.w13_weight_scale.data,
+                block_sz,
+            )
+            requant_weight_ue8m0_inplace(
+                layer.w2_weight.data,
+                layer.w2_weight_scale.data,
+                block_sz,
+            )
+
+            # Ensure column-major TMA alignment expected by DeepGEMM.
+            if expert_weight_is_col_major(layer.w13_weight_scale):
+                layer.w13_weight_scale = get_col_major_tma_aligned_tensor(
+                    layer.w13_weight_scale
+                )
+            if expert_weight_is_col_major(layer.w2_weight_scale):
+                layer.w2_weight_scale = get_col_major_tma_aligned_tensor(
+                    layer.w2_weight_scale
+                )
+
+    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+        if self.use_marlin or self.rocm_aiter_moe_enabled:
+            return None
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        # cutlass path
+        assert self.moe_quant_config is not None
+        if self.use_cutlass:
+            from vllm.model_executor.layers.fused_moe import (
+                CutlassBatchedExpertsFp8,
+                CutlassExpertsFp8,
+            )
+
+            experts: FusedMoEPermuteExpertsUnpermute
+
+            num_dispatchers = prepare_finalize.num_dispatchers()
+
+            if (
+                prepare_finalize.activation_format
+                == FusedMoEActivationFormat.BatchedExperts
+            ):
+                logger.debug("CutlassBatchedExpertsFp8(%s)", self.__class__.__name__)
+                experts = CutlassBatchedExpertsFp8(
+                    self.moe.num_local_experts,
+                    num_dispatchers,
+                    self.moe.in_dtype,
+                    ab_strides1=self.ab_strides1_c_strides2,
+                    ab_strides2=self.ab_strides2,
+                    c_strides1=self.c_strides1,
+                    c_strides2=self.ab_strides1_c_strides2,
+                    quant_config=self.moe_quant_config,
+                )
+            else:
+                logger.debug("CutlassExpertsFp8(%s)", self.__class__.__name__)
+                experts = CutlassExpertsFp8(
+                    self.moe.in_dtype,
+                    ab_strides1=self.ab_strides1_c_strides2,
+                    ab_strides2=self.ab_strides2,
+                    c_strides1=self.c_strides1,
+                    c_strides2=self.ab_strides1_c_strides2,
+                    quant_config=self.moe_quant_config,
+                )
+
+            self.disable_expert_map = (
+                num_dispatchers > 1 or not experts.supports_expert_map()
+            )
+
+            return experts
+
+        # triton path
+        from vllm.model_executor.layers.fused_moe.batched_triton_or_deep_gemm_moe import (  # noqa: E501
+            BatchedTritonOrDeepGemmExperts,
+        )
+        from vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe import (
+            TritonOrDeepGemmExperts,
+        )
+
+        assert not self.rocm_aiter_moe_enabled and not self.use_marlin
+
+        if (
+            prepare_finalize.activation_format
+            == FusedMoEActivationFormat.BatchedExperts
+        ):
+            max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
+            assert max_num_tokens_per_rank is not None
+
+            logger.debug("BatchedTritonExperts(%s)", self.__class__.__name__)
+            return BatchedTritonOrDeepGemmExperts(
+                max_num_tokens=max_num_tokens_per_rank,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+                allow_deep_gemm=(
+                    envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM
+                ),
+            )
+        else:
+            logger.debug("TritonOrDeepGemmExperts(%s)", self.__class__.__name__)
+            return TritonOrDeepGemmExperts(
+                self.moe_quant_config,
+                allow_deep_gemm=(
+                    envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM
+                ),
+            )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.use_marlin:
+            return None
+
+        per_act_token = self.input_quant.strategy == QuantizationStrategy.TOKEN
+        per_channel_quant = self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+
+        return fp8_w8a8_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            a1_scale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale,
+            per_act_token_quant=per_act_token,
+            per_out_ch_quant=per_channel_quant,
+            block_shape=layer.weight_block_size,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+            assert isinstance(layer, FusedMoE)
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            num_fused_shared_experts=layer.num_fused_shared_experts,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+        )
+
+        per_act_token = self.input_quant.strategy == QuantizationStrategy.TOKEN
+        per_channel_quant = self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+
+        if self.use_marlin:
+            assert activation == "silu", f"{activation} not supported for Marlin MoE."
+            return fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                None,
+                None,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                quant_type_id=scalar_types.float8_e4m3fn.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                workspace=layer.workspace,
+            )
+
+        elif self.rocm_aiter_moe_enabled:
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa E501
+                rocm_aiter_fused_experts,
+            )
+
+            assert per_act_token == per_channel_quant
+            assert self.moe_quant_config is not None
+            return rocm_aiter_fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
+
+        # cutlass path
+        elif self.use_cutlass:
+            assert self.moe_quant_config is not None
+
+            # small-batch fallback on SM100
+            if self.is_fp8_w8a8_sm100 and topk_ids.shape[0] <= 8:
+                from vllm.model_executor.layers.fused_moe import fused_experts
+
+                assert per_act_token == per_channel_quant
+                return fused_experts(
+                    hidden_states=x,
+                    w1=layer.w13_weight,
+                    w2=layer.w2_weight,
+                    topk_weights=topk_weights,
+                    topk_ids=topk_ids,
+                    inplace=True,
+                    activation=activation,
+                    apply_router_weight_on_input=apply_router_weight_on_input,
+                    global_num_experts=global_num_experts,
+                    expert_map=None if self.disable_expert_map else expert_map,
+                    quant_config=self.moe_quant_config,
+                )
+            else:
+                from vllm.model_executor.layers.fused_moe.cutlass_moe import (
+                    cutlass_moe_fp8,
+                )
+
+                assert per_act_token == per_channel_quant
+                assert self.moe_quant_config is not None
+                return cutlass_moe_fp8(
+                    x,
+                    layer.w13_weight,
+                    layer.w2_weight,
+                    topk_weights,
+                    topk_ids,
+                    quant_config=self.moe_quant_config,
+                    activation=activation,
+                    global_num_experts=global_num_experts,
+                    expert_map=None if self.disable_expert_map else expert_map,
+                    ab_strides1=self.ab_strides1_c_strides2,
+                    ab_strides2=self.ab_strides2,
+                    c_strides1=self.c_strides1,
+                    c_strides2=self.ab_strides1_c_strides2,
+                )
+
+        else:
+            from vllm.model_executor.layers.fused_moe import fused_experts
+
+            assert per_act_token == per_channel_quant
+            assert self.moe_quant_config is not None
+            return fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
+
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+
+class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        self.weight_quant = self.quant_config.target_scheme_map["Linear"].get("weights")
+        self.input_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "input_activations"
+        )
+
+        per_channel = (
+            self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+            and self.input_quant.strategy == QuantizationStrategy.TOKEN
+        )
+        if not per_channel:
+            raise ValueError(
+                "For INT8 Fused MoE layers, we require channelwise, "
+                "dynamic per token quantization. Found "
+                f"{self.weight_quant}, {self.input_quant}"
+            )
+
+        self.static_input_scales = not self.input_quant.dynamic
+        # if self.static_input_scales:
+        #     raise ValueError(
+        #         "For INT8 Fused MoE layers, we require channelwise, "
+        #         "dynamic per token quantization. Found static input scales.")
+
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        params_dtype = torch.int8
+
+        w13_remainder = hidden_size % 64
+        w2_remainder = intermediate_size_per_partition % 64
+        if w13_remainder != 0:
+            hidden_size_padded = hidden_size + (64 - w13_remainder)
+        else:
+            hidden_size_padded = hidden_size
+        if w2_remainder != 0:
+            intermediate_size_per_partition_padded = intermediate_size_per_partition + (64 - w2_remainder)
+        else:
+            intermediate_size_per_partition_padded = intermediate_size_per_partition
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            2 * intermediate_size_per_partition,
+            hidden_size_padded,
+            dtype=params_dtype),
+                                        requires_grad=False)
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w13_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_bias", w13_bias)
+        set_weight_attrs(w13_bias, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition_padded,
+            dtype=params_dtype),
+                                       requires_grad=False)
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        w2_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_bias", w2_bias)
+        set_weight_attrs(w2_bias, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        assert self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+        w13_weight_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts, 2 * intermediate_size_per_partition, 1, dtype=torch.float32
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        w2_weight_scale = torch.nn.Parameter(
+            torch.ones(num_experts, hidden_size, 1, dtype=torch.float32),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value}
+        )
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        if self.static_input_scales:
+            extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value})
+            w13_input_scale = torch.nn.Parameter(torch.ones(
+                num_experts, hidden_size, dtype=torch.float32),
+                                                 requires_grad=False)
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(torch.ones(
+                num_experts, intermediate_size_per_partition, dtype=torch.float32),
+                                                requires_grad=False)
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        pass
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return int8_w8a8_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            a1_scale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale,
+            per_act_token_quant=True,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `CompressedTensorsW8A8Int8MoEMethod` yet."
+            )
+
+        use_ep = expert_map is not None
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+        topk_weight, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype)
+
+        dtype = x.dtype
+        num_tokens, num_experts = router_logits.shape
+
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+
+        # expand + reorder + quant
+        i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+            hidden_states=x,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+            topk_ids=None,
+            smooth_scales=layer.w13_input_scale,
+        )
+
+        if i8_hidden_states.shape[-1] != layer.w13_weight.shape[-1]:
+            padding = layer.w13_weight.shape[-1] - i8_hidden_states.shape[-1]
+            i8_hidden_states_align = torch.nn.functional.pad(i8_hidden_states, (0, padding), mode='constant', value=0)
+        else:
+            i8_hidden_states_align = i8_hidden_states
+
+        # w8a8 group gemm 1
+        pt_output_1 = ixfops.moe_w8a8_group_gemm(
+            input=i8_hidden_states_align,
+            weight=layer.w13_weight,
+            i_scales=a_scale,
+            w_scales=layer.w13_weight_scale,
+            output_dtype=dtype,
+            tokens_per_experts=expert_sizes_cpu,
+            dst_to_src=None,
+            bias=layer.w13_bias,
+            format="TN",
+        )
+
+        # act + quant
+        if activation == "swigluoai":
+            pt_output_2, a2_scale = ixfops.activation_swigluoai_dynamic_scaled_int8(
+                input=pt_output_1,
+                bias=None,
+                smooth_scales=layer.w2_input_scale,
+                dst_to_src=sorted_token_ids,
+                topk_ids=None,
+            )
+        else:
+            pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+                input=pt_output_1,
+                bias=None,
+                smooth_scales=layer.w2_input_scale,
+                dst_to_src=sorted_token_ids,
+                topk_ids=None,
+                act_type="swiglu",
+            )
+
+        if pt_output_2.shape[-1] != layer.w2_weight.shape[-1]:
+            padding = layer.w2_weight.shape[-1] - pt_output_2.shape[-1]
+            pt_output_2_align = torch.nn.functional.pad(pt_output_2, (0, padding), mode='constant', value=0)
+        else:
+            pt_output_2_align = pt_output_2
+
+        # w8a8 group gemm 2 + reorder
+        if use_ep:
+            pt_output_3 = torch.empty(
+                (num_tokens * top_k, hidden_size),
+                device=x.device,
+                dtype=x.dtype,
+            )
+
+            ixfops.moe_w8a8_group_gemm(
+                input=pt_output_2_align,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                bias=layer.w2_bias,
+                format="TN",
+                output=pt_output_3,
+            )
+
+            reduce_mask = src_to_dst == -1
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor,
+                mask=reduce_mask,
+            )
+        else:
+            pt_output_3 = ixfops.moe_w8a8_group_gemm(
+                input=pt_output_2_align,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                bias=layer.w2_bias,
+                format="TN",
+            )
+
+            # mul + reduce_sum
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor
+            )
+
+        return final_hidden_states
+
+
+class CompressedTensorsW4A8MoEMethod(CompressedTensorsMoEMethod):
+
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        self.weight_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "weights")
+        self.input_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "input_activations")
+        self.pack_factor = 2
+        self.group_size = -1 if self.weight_quant.group_size is None else self.weight_quant.group_size
+        self.weight_symmetric = self.weight_quant.symmetric
+        self.gemm_format = envs.VLLM_W4A8_FORMAT
+        self.format_mapping = {"NN":0,"NT":1,"TN":2}
+        self.version = envs.VLLM_W4A8_VERSION
+        assert self.gemm_format in ["TN","NN"]
+
+        if not ((self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+                 or self.weight_quant.strategy == QuantizationStrategy.GROUP)
+                 and self.input_quant.strategy == QuantizationStrategy.TOKEN):
+            raise ValueError(
+                "For INT4 pack2 Fused MoE layers, only per-channel or group scales"
+                "for weights and per-token scales for activations are supported. Found "
+                f"{self.weight_quant}, {self.input_quant}")
+
+        self.static_input_scales = not self.input_quant.dynamic
+
+
+    def create_weights(self, layer: torch.nn.Module, num_experts: int,
+                       hidden_size: int, intermediate_size_per_partition: int,
+                       params_dtype: torch.dtype, **extra_weight_attrs):
+
+        params_dtype = torch.int8
+        w13_remainder = (hidden_size // self.pack_factor) % 64
+        w2_remainder = (intermediate_size_per_partition // self.pack_factor) % 64
+        if self.gemm_format == "TN":
+            if w13_remainder != 0:
+                w13_shape = (num_experts, 2 * intermediate_size_per_partition, (hidden_size // self.pack_factor) + 64 - w13_remainder)
+            else:
+                w13_shape = (num_experts, 2 * intermediate_size_per_partition, hidden_size // self.pack_factor)
+
+            if w2_remainder != 0:
+                w2_shape = (num_experts, hidden_size, (intermediate_size_per_partition // self.pack_factor) + 64 - w2_remainder)
+            else:
+                w2_shape = (num_experts, hidden_size, intermediate_size_per_partition // self.pack_factor)
+        else:
+            w13_shape = (num_experts, hidden_size, 2 * intermediate_size_per_partition // self.pack_factor)
+            w2_shape = (num_experts, intermediate_size_per_partition, hidden_size // self.pack_factor)
+
+        # WEIGHTS
+        # use process_weights_after_loading to get get right layout if gemm_format is NN
+        w13_weight = torch.nn.Parameter(torch.empty(w13_shape,
+                                                    dtype=params_dtype),
+                                        requires_grad=False)
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+        if self.gemm_format == "NN":
+            setattr(w13_weight, "shard_dim", 1)
+
+        w13_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_bias", w13_bias)
+        set_weight_attrs(w13_bias, extra_weight_attrs)
+
+        if w2_remainder != 0:
+            w2_weight = torch.nn.Parameter(torch.zeros(w2_shape,
+                                                       dtype=params_dtype),
+                                           requires_grad=False)
+        else:
+            w2_weight = torch.nn.Parameter(torch.empty(w2_shape,
+                                                       dtype=params_dtype),
+                                           requires_grad=False)
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+        if self.gemm_format == "NN":
+            setattr(w2_weight, "shard_dim", 0)
+
+        w2_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_bias", w2_bias)
+        set_weight_attrs(w2_bias, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        # Allocate 2 scales for w1 and w3 respectively.
+        # They will be combined to a single scale after weight loading.
+        # The following scale or zero will use permute(0,2,1) to get right layout, init here to avoid rewrite data_loader
+        w13_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                          1 if self.version == 2 else 1 if self.group_size == -1 else hidden_size // self.group_size,
+                                                          2 * intermediate_size_per_partition,
+                                                          dtype=torch.float32),
+                                              requires_grad=False)
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        setattr(w13_weight_scale, "shard_dim", 1)
+
+        w2_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                         1 if self.version == 2 else 1 if self.group_size == -1 else intermediate_size_per_partition // self.group_size,
+                                                         hidden_size,
+                                                         dtype=torch.float32),
+                                             requires_grad=False)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        setattr(w2_weight_scale, "shard_dim", 0)
+        # setattr(w2_weight_scale, "load_full_w2", True)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value if self.version == 2 or self.group_size == -1 else FusedMoeWeightScaleSupported.GROUP.value})
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        if self.version == 2:
+            # INT8 -> INT4 weight scales/zeros
+            if self.group_size != -1:
+                w13_i8_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                                    hidden_size // self.group_size,
+                                                                    2 * intermediate_size_per_partition,
+                                                                    dtype=torch.int32),
+                                                        requires_grad=False)
+                layer.register_parameter("w13_i8_weight_scale", w13_i8_weight_scale)
+                setattr(w13_i8_weight_scale, "shard_dim", 1)
+            if not self.weight_symmetric:
+                w13_i8_weight_zero = torch.nn.Parameter(torch.empty(num_experts,
+                                                                    1 if self.group_size == -1 else hidden_size // self.group_size,
+                                                                    2 * intermediate_size_per_partition,
+                                                                    dtype=torch.int32),
+                                                        requires_grad=False)
+                layer.register_parameter("w13_i8_weight_zero", w13_i8_weight_zero)
+                setattr(w13_i8_weight_zero, "shard_dim", 1)
+
+            if self.group_size != -1:
+                w2_i8_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                                    intermediate_size_per_partition // self.group_size,
+                                                                    hidden_size,
+                                                                    dtype=torch.int32),
+                                                        requires_grad=False)
+                layer.register_parameter("w2_i8_weight_scale", w2_i8_weight_scale)
+                setattr(w2_i8_weight_scale, "shard_dim", 0)
+            if not self.weight_symmetric:
+                w2_i8_weight_zero = torch.nn.Parameter(torch.empty(num_experts,
+                                                                1 if self.group_size == -1 else intermediate_size_per_partition // self.group_size,
+                                                                hidden_size,
+                                                                dtype=torch.int32),
+                                                        requires_grad=False)
+                layer.register_parameter("w2_i8_weight_zero", w2_i8_weight_zero)
+                setattr(w2_i8_weight_zero, "shard_dim", 0)
+
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value if self.group_size == -1 else FusedMoeWeightScaleSupported.GROUP.value})
+
+        if self.version == 2 and self.group_size != -1:
+            set_weight_attrs(w13_i8_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_i8_weight_scale, extra_weight_attrs)
+        else:
+            setattr(layer, "w13_i8_weight_scale", None)
+            setattr(layer, "w2_i8_weight_scale", None)
+        if self.version == 2 and not self.weight_symmetric:
+            set_weight_attrs(w13_i8_weight_zero, extra_weight_attrs)
+            set_weight_attrs(w2_i8_weight_zero, extra_weight_attrs)
+        else:
+            setattr(layer, "w13_i8_weight_zero", None)
+            setattr(layer, "w2_i8_weight_zero", None)
+
+        # DO NOT SUPPORT INPUT_SCALES
+        if self.static_input_scales:
+            extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value})
+            w13_input_scale = torch.nn.Parameter(torch.ones(
+                num_experts, hidden_size, dtype=torch.float32),
+                                                 requires_grad=False)
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(torch.ones(
+                num_experts, intermediate_size_per_partition, dtype=torch.float32),
+                                                requires_grad=False)
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+        self.gemm_format = self.format_mapping[self.gemm_format]
+
+    def get_fused_moe_quant_config(
+            self, layer: torch.nn.Module) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable |None = None,
+        scoring_func: str = "softmax",
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+        routed_scaling_factor: float = 1.0,
+    ) -> torch.Tensor:
+        attn_metadata = get_forward_context().attn_metadata
+        use_ep = expert_map is not None
+        # unsupported ep now
+        if attn_metadata:
+            deepseek_instance = None
+            for value in attn_metadata.values():
+                if hasattr(value, 'num_prefills') and hasattr(value, 'num_decodes'):
+                    deepseek_instance = value
+                    break
+            value_types = {type(value).__name__ for value in attn_metadata.values()}
+            is_same_class = len(value_types) == 1
+            if is_same_class:
+                assert deepseek_instance
+                only_decode = (use_ep == False and all(t.num_decodes > 0 and t.num_prefills ==0 for t in list(attn_metadata.values())))
+            else:
+                if deepseek_instance:
+                    only_decode = (use_ep == False and deepseek_instance.num_decodes > 0 and deepseek_instance.num_prefills ==0)
+                else:
+                    only_decode = False
+        else:
+            only_decode = False
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `CompressedTensorsW4A8MoEMethod` yet.")
+
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+        topk_weight, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            e_score_correction_bias=e_score_correction_bias)
+
+        dtype = x.dtype
+        num_tokens, num_experts = router_logits.shape
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+
+        if only_decode and self.gemm_format == 2:
+            i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+                hidden_states=x,
+                dst_to_src=sorted_token_ids,
+                dst_tokens=expand_tokens,
+                topk=top_k,
+                src_to_dst=src_to_dst,
+                topk_ids=None,
+                smooth_scales=layer.w13_input_scale,
+                output_format = 1,
+            )
+
+            if i8_hidden_states.shape[-1] != layer.w13_weight.shape[-1] * 2:
+                padding = layer.w13_weight.shape[-1] * 2 - i8_hidden_states.shape[-1]
+                i8_hidden_states_align = torch.nn.functional.pad(i8_hidden_states, (0, padding), mode='constant', value=0)
+            else:
+                i8_hidden_states_align = i8_hidden_states
+
+            pt_output_1 = ixfops.moe_w4a8_group_gemv(
+                input=i8_hidden_states_align,
+                weight=layer.w13_weight,
+                i_scales=a_scale,
+                w_scales=layer.w13_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_gpu,
+                w_i8scales=layer.w13_i8_weight_scale,
+                w_i8zeros=layer.w13_i8_weight_zero,
+                dst_to_src=None,
+                bias=layer.w13_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+            )
+
+            if activation == "swigluoai":
+                pt_output_2, a2_scale = ixfops.activation_swigluoai_dynamic_scaled_int8(
+                    input=pt_output_1,
+                    bias=None,
+                    smooth_scales=layer.w2_input_scale,
+                    dst_to_src=sorted_token_ids,
+                    topk_ids=None,
+                    output_format = 1,
+                )
+            else:
+                pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+                    input=pt_output_1,
+                    bias=None,
+                    smooth_scales=layer.w2_input_scale,
+                    dst_to_src=sorted_token_ids,
+                    topk_ids=None,
+                    act_type="swiglu",
+                    output_format = 1,
+                )
+            if pt_output_2.shape[-1] != layer.w2_weight.shape[-1] * 2:
+                padding = layer.w2_weight.shape[-1] * 2 - pt_output_2.shape[-1]
+                pt_output_2_align = torch.nn.functional.pad(pt_output_2, (0, padding), mode='constant', value=0)
+            else:
+                pt_output_2_align = pt_output_2
+
+            pt_output_3 = ixfops.moe_w4a8_group_gemv(
+                input=pt_output_2_align,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_gpu,
+                w_i8scales=layer.w2_i8_weight_scale,
+                w_i8zeros=layer.w2_i8_weight_zero,
+                dst_to_src=sorted_token_ids,
+                bias=layer.w2_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+            )
+             # mul + reduce_sum
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor
+                )
+        else:
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+            # expand + reorder + quant
+            i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+                hidden_states=x,
+                dst_to_src=sorted_token_ids,
+                dst_tokens=expand_tokens,
+                topk=top_k,
+                src_to_dst=src_to_dst,
+                topk_ids=None,
+                smooth_scales=layer.w13_input_scale,
+            )
+
+            if i8_hidden_states.shape[-1] != layer.w13_weight.shape[-1] * 2:
+                padding = layer.w13_weight.shape[-1] * 2 - i8_hidden_states.shape[-1]
+                i8_hidden_states_align = torch.nn.functional.pad(i8_hidden_states, (0, padding), mode='constant', value=0)
+            else:
+                i8_hidden_states_align = i8_hidden_states
+
+            # w4a8 group gemm 1
+            pt_output_1 = ixfops.moe_w4a8_group_gemm(
+                input=i8_hidden_states_align,
+                weight=layer.w13_weight,
+                i_scales=a_scale,
+                w_scales=layer.w13_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                w_i8scales=layer.w13_i8_weight_scale,
+                w_i8zeros=layer.w13_i8_weight_zero,
+                dst_to_src=None,
+                bias=layer.w13_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+                version=self.version
+            )
+
+            # act + quant
+            if activation == "swigluoai":
+                pt_output_2, a2_scale = ixfops.activation_swigluoai_dynamic_scaled_int8(
+                    input=pt_output_1,
+                    bias=None,
+                    smooth_scales=layer.w2_input_scale,
+                    dst_to_src=sorted_token_ids,
+                    topk_ids=None,
+                )
+            else:
+                pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+                    input=pt_output_1,
+                    bias=None,
+                    smooth_scales=layer.w2_input_scale,
+                    dst_to_src=sorted_token_ids,
+                    topk_ids=None,
+                    act_type="swiglu",
+                )
+
+            if pt_output_2.shape[-1] != layer.w2_weight.shape[-1] * 2 and self.gemm_format == 2:
+                padding = layer.w2_weight.shape[-1] * 2 - pt_output_2.shape[-1]
+                pt_output_2_align = torch.nn.functional.pad(pt_output_2, (0, padding), mode='constant', value=0)
+            else:
+                pt_output_2_align = pt_output_2
+
+            # w4a8 group gemm 2 + reorder
+            if use_ep:
+                pt_output_3 = torch.empty(
+                    (num_tokens * top_k, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+
+                ixfops.moe_w4a8_group_gemm(
+                    input=pt_output_2_align,
+                    weight=layer.w2_weight,
+                    i_scales=a2_scale,
+                    w_scales=layer.w2_weight_scale,
+                    output_dtype=dtype,
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_i8scales=layer.w2_i8_weight_scale,
+                    w_i8zeros=layer.w2_i8_weight_zero,
+                    dst_to_src=sorted_token_ids,
+                    bias=layer.w2_bias,
+                    format=self.gemm_format,
+                    group_size=self.group_size,
+                    version=self.version,
+                    output=pt_output_3,
+                )
+
+                reduce_mask = src_to_dst == -1
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weight,
+                    scaling_factor=routed_scaling_factor,
+                    mask=reduce_mask,
+                )
+            else:
+                pt_output_3 = ixfops.moe_w4a8_group_gemm(
+                    input=pt_output_2_align,
+                    weight=layer.w2_weight,
+                    i_scales=a2_scale,
+                    w_scales=layer.w2_weight_scale,
+                    output_dtype=dtype,
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_i8scales=layer.w2_i8_weight_scale,
+                    w_i8zeros=layer.w2_i8_weight_zero,
+                    dst_to_src=sorted_token_ids,
+                    bias=layer.w2_bias,
+                    format=self.gemm_format,
+                    group_size=self.group_size,
+                    version=self.version
+                )
+
+                # mul + reduce_sum
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weight,
+                    scaling_factor=routed_scaling_factor
+                    )
+        return final_hidden_states
+
+
+class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        # TODO: @dsikka: refactor this to use schemes as other kernels
+        # are supported + check if the layer is being ignored.
+        config = self.quant_config.target_scheme_map["Linear"].get("weights")
+        self.num_bits = config.num_bits
+        self.packed_factor = 32 // config.num_bits
+        self.strategy = config.strategy
+        self.group_size = config.group_size
+        self.actorder = config.actorder
+        assert config.symmetric, "Only symmetric quantization is supported for MoE"
+
+        if not (
+            self.quant_config.quant_format == CompressionFormat.pack_quantized.value
+            and self.num_bits in WNA16_SUPPORTED_BITS
+        ):
+            raise ValueError(
+                "For Fused MoE layers, only ",
+                f"{CompressionFormat.pack_quantized.value} ",
+                "is supported for the following bits: ",
+                f"{WNA16_SUPPORTED_BITS}",
+            )
+        self.quant_type = WNA16_SUPPORTED_TYPES_MAP[self.num_bits]
+        self.use_marlin = True
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        intermediate_size_full = extra_weight_attrs.pop("intermediate_size_full")
+
+        # Will transpose the loaded weight along the
+        # intermediate and hidden dim sizes. Will
+        # shard for TP along the transposed dims
+        extra_weight_attrs.update(
+            {"is_transposed": True, "quant_method": self.strategy}
+        )
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size // self.packed_factor,
+                2 * intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_packed", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition // self.packed_factor,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_packed", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # In the case where we have actorder/g_idx,
+        # we do not partition the w2 scales
+        load_full_w2 = self.actorder and self.group_size != -1
+        w2_scales_size = (
+            intermediate_size_full if load_full_w2 else intermediate_size_per_partition
+        )
+
+        self.is_k_full = (not self.actorder) or (
+            intermediate_size_per_partition == intermediate_size_full
+        )
+
+        if self.strategy == "channel":
+            num_groups_w2 = num_groups_w13 = 1
+            self.group_size = -1
+        else:
+            num_groups_w2 = w2_scales_size // self.group_size
+            num_groups_w13 = hidden_size // self.group_size
+
+        w13_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                num_groups_w13,
+                2 * intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_scale)
+        set_weight_attrs(w13_scale, extra_weight_attrs)
+
+        w2_scale = torch.nn.Parameter(
+            torch.ones(num_experts, num_groups_w2, hidden_size, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_scale)
+        set_weight_attrs(w2_scale, extra_weight_attrs)
+        set_weight_attrs(w2_scale, {"load_full_w2": load_full_w2})
+
+        w2_weight_shape = torch.nn.Parameter(
+            torch.empty(num_experts, 2), requires_grad=False
+        )
+        layer.register_parameter("w2_weight_shape", w2_weight_shape)
+        set_weight_attrs(w2_weight_shape, extra_weight_attrs)
+        w13_weight_shape = torch.nn.Parameter(
+            torch.empty(num_experts, 2), requires_grad=False
+        )
+
+        layer.register_parameter("w13_weight_shape", w13_weight_shape)
+        set_weight_attrs(w13_weight_shape, extra_weight_attrs)
+
+        w13_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_g_idx", w13_g_idx)
+        set_weight_attrs(w13_g_idx, extra_weight_attrs)
+
+        w2_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_g_idx", w2_g_idx)
+        set_weight_attrs(w2_g_idx, extra_weight_attrs)
+
+        w13_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_g_idx_sort_indices", w13_g_idx_sort_indices)
+        set_weight_attrs(w13_g_idx_sort_indices, extra_weight_attrs)
+
+        w2_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_g_idx_sort_indices", w2_g_idx_sort_indices)
+        set_weight_attrs(w2_g_idx_sort_indices, extra_weight_attrs)
+
+        layer.a13_scale = None
+        layer.a2_scale = None
+        layer.marlin_state = GPTQMarlinState.REPACK
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        num_experts = layer.w13_weight_g_idx.shape[0]
+        device = layer.w13_weight_g_idx.device
+
+        # when running models with grouped act order,
+        # resort to g_idx values provided in checkpoint
+        if self.actorder == "group":
+            w13_g_idx_sort_indices = torch.empty_like(layer.w13_weight_g_idx)
+            w2_g_idx_sort_indices = torch.empty_like(layer.w2_weight_g_idx)
+            w13_sorted_g_idx = torch.empty_like(layer.w13_weight_g_idx)
+            w2_sorted_g_idx = torch.empty_like(layer.w2_weight_g_idx)
+
+            for e in range(num_experts):
+                w13_g_idx_sort_indices[e] = torch.argsort(layer.w13_weight_g_idx[e]).to(
+                    torch.int32
+                )
+                w2_g_idx_sort_indices[e] = torch.argsort(layer.w2_weight_g_idx[e]).to(
+                    torch.int32
+                )
+                w13_sorted_g_idx[e] = layer.w13_weight_g_idx[e][
+                    w13_g_idx_sort_indices[e]
+                ]
+                w2_sorted_g_idx[e] = layer.w2_weight_g_idx[e][w2_g_idx_sort_indices[e]]
+
+            replace_parameter(layer, "w13_weight_g_idx", w13_sorted_g_idx)
+            replace_parameter(layer, "w2_weight_g_idx", w2_sorted_g_idx)
+            replace_parameter(layer, "w13_g_idx_sort_indices", w13_g_idx_sort_indices)
+            replace_parameter(layer, "w2_g_idx_sort_indices", w2_g_idx_sort_indices)
+
+        else:
+            layer.w13_weight_g_idx = torch.nn.Parameter(
+                torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+                requires_grad=False,
+            )
+            layer.w2_weight_g_idx = torch.nn.Parameter(
+                torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+                requires_grad=False,
+            )
+            layer.w13_g_idx_sort_indices = torch.nn.Parameter(
+                torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+                requires_grad=False,
+            )
+            layer.w2_g_idx_sort_indices = torch.nn.Parameter(
+                torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+                requires_grad=False,
+            )
+
+        marlin_w13_qweight = ops.gptq_marlin_moe_repack(
+            layer.w13_weight_packed,
+            layer.w13_g_idx_sort_indices,
+            layer.w13_weight_packed.shape[1] * self.packed_factor,
+            layer.w13_weight_packed.shape[2],
+            self.num_bits,
+        )
+        replace_parameter(layer, "w13_weight_packed", marlin_w13_qweight)
+        marlin_w2_qweight = ops.gptq_marlin_moe_repack(
+            layer.w2_weight_packed,
+            layer.w2_g_idx_sort_indices,
+            layer.w2_weight_packed.shape[1] * self.packed_factor,
+            layer.w2_weight_packed.shape[2],
+            self.num_bits,
+        )
+        replace_parameter(layer, "w2_weight_packed", marlin_w2_qweight)
+        # Repack scales
+        marlin_w13_scales = marlin_moe_permute_scales(
+            s=layer.w13_weight_scale,
+            size_k=layer.w13_weight_packed.shape[2],
+            size_n=layer.w13_weight_scale.shape[2],
+            group_size=self.group_size,
+        )
+        replace_parameter(layer, "w13_weight_scale", marlin_w13_scales)
+        marlin_w2_scales = marlin_moe_permute_scales(
+            s=layer.w2_weight_scale,
+            size_k=layer.w2_weight_scale.shape[1]
+            * (self.group_size if self.group_size != -1 else self.packed_factor),
+            size_n=layer.w2_weight_scale.shape[2],
+            group_size=self.group_size,
+        )
+        replace_parameter(layer, "w2_weight_scale", marlin_w2_scales)
+
+        layer.workspace = marlin_make_workspace_new(device, 4)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.num_bits != 4:
+            return None
+        return int4_w4a16_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            w1_zp=None,
+            w2_zp=None,
+            block_shape=[0, self.group_size],
+        )
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        assert self.num_bits == 4, "only supporting w4"
+        layer.w13_weight = layer.w13_weight_packed
+        layer.w2_weight = layer.w2_weight_packed
+        assert all([w is not None for w in [layer.w13_weight, layer.w2_weight]])
+        assert self.moe_quant_config is not None
+        if (
+            prepare_finalize.activation_format
+            == mk.FusedMoEActivationFormat.BatchedExperts
+        ):
+            max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
+            assert max_num_tokens_per_rank is not None
+            return BatchedMarlinExperts(
+                max_num_tokens=max_num_tokens_per_rank,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+                w13_g_idx=layer.w13_weight_g_idx,
+                w2_g_idx=layer.w2_weight_g_idx,
+                w13_g_idx_sort_indices=layer.w13_g_idx_sort_indices,
+                w2_g_idx_sort_indices=layer.w2_g_idx_sort_indices,
+                is_k_full=self.is_k_full,
+            )
+        else:
+            return MarlinExperts(
+                quant_config=self.moe_quant_config,
+                w13_g_idx=layer.w13_weight_g_idx,
+                w2_g_idx=layer.w2_weight_g_idx,
+                w13_g_idx_sort_indices=layer.w13_g_idx_sort_indices,
+                w2_g_idx_sort_indices=layer.w2_g_idx_sort_indices,
+                is_k_full=self.is_k_full,
+            )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `CompressedTensorsWNA16MarlinMoEMethod` yet."
+            )
+
+        assert activation == "silu", f"{activation} not supported for Marlin MoE."
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        return fused_marlin_moe(
+            x,
+            layer.w13_weight_packed,
+            layer.w2_weight_packed,
+            None,
+            None,
+            layer.w13_weight_scale,
+            layer.w2_weight_scale,
+            router_logits,
+            topk_weights,
+            topk_ids,
+            quant_type_id=self.quant_type.id,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            g_idx1=layer.w13_weight_g_idx,
+            g_idx2=layer.w2_weight_g_idx,
+            sort_indices1=layer.w13_g_idx_sort_indices,
+            sort_indices2=layer.w2_g_idx_sort_indices,
+            workspace=layer.workspace,
+            is_k_full=self.is_k_full,
+        )
+
+
+class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+        # TODO: @dsikka: refactor this to use schemes as other kernels
+        # are supported + check if the layer is being ignored.
+        config = self.quant_config.target_scheme_map["Linear"].get("weights")
+        self.num_bits = config.num_bits
+        self.packed_factor = 32 // config.num_bits
+        self.strategy = config.strategy
+        # channelwise is not supported by this kernel
+        assert config.strategy == "group"
+        self.group_size = config.group_size
+        # grouped actorder isn't supported by this kernel
+        assert config.actorder != "group"
+        assert config.symmetric, "Only symmetric quantization is supported for MoE"
+
+        if not (
+            self.quant_config.quant_format == CompressionFormat.pack_quantized.value
+            and self.num_bits in WNA16_SUPPORTED_BITS
+        ):
+            raise ValueError(
+                "For Fused MoE layers, only ",
+                f"{CompressionFormat.pack_quantized.value} ",
+                "is supported for the following bits: ",
+                f"{WNA16_SUPPORTED_BITS}",
+            )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Will transpose the loaded weight along the
+        # intermediate and hidden dim sizes. Will
+        # shard for TP along the transposed dims
+        extra_weight_attrs.update(
+            {"is_transposed": True, "quant_method": self.strategy}
+        )
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size // self.packed_factor,
+                2 * intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_packed", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition // self.packed_factor,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_packed", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        w2_scales_size = intermediate_size_per_partition
+
+        if self.strategy == "channel":
+            num_groups_w2 = num_groups_w13 = 1
+            self.group_size = -1
+        else:
+            num_groups_w2 = w2_scales_size // self.group_size
+            num_groups_w13 = hidden_size // self.group_size
+
+        w13_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                num_groups_w13,
+                2 * intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_scale)
+        set_weight_attrs(w13_scale, extra_weight_attrs)
+
+        w2_scale = torch.nn.Parameter(
+            torch.ones(num_experts, num_groups_w2, hidden_size, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_scale)
+        set_weight_attrs(w2_scale, extra_weight_attrs)
+        set_weight_attrs(w2_scale, {"load_full_w2": False})
+
+        w2_weight_shape = torch.nn.Parameter(
+            torch.empty(num_experts, 2), requires_grad=False
+        )
+        layer.register_parameter("w2_weight_shape", w2_weight_shape)
+        set_weight_attrs(w2_weight_shape, extra_weight_attrs)
+        w13_weight_shape = torch.nn.Parameter(
+            torch.empty(num_experts, 2), requires_grad=False
+        )
+
+        layer.register_parameter("w13_weight_shape", w13_weight_shape)
+        set_weight_attrs(w13_weight_shape, extra_weight_attrs)
+
+        w13_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_g_idx", w13_g_idx)
+        set_weight_attrs(w13_g_idx, extra_weight_attrs)
+
+        w2_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_g_idx", w2_g_idx)
+        set_weight_attrs(w2_g_idx, extra_weight_attrs)
+
+        w13_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_g_idx_sort_indices", w13_g_idx_sort_indices)
+        set_weight_attrs(w13_g_idx_sort_indices, extra_weight_attrs)
+
+        w2_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_g_idx_sort_indices", w2_g_idx_sort_indices)
+        set_weight_attrs(w2_g_idx_sort_indices, extra_weight_attrs)
+
+        layer.a13_scale = None
+        layer.a2_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # Reconfigure packed weights and scales to match moe_wna16 format
+        layer.w13_weight_packed = torch.nn.Parameter(
+            layer.w13_weight_packed.transpose(1, 2).contiguous().view(torch.uint8),
+            requires_grad=False,
+        )
+        layer.w2_weight_packed = torch.nn.Parameter(
+            layer.w2_weight_packed.transpose(1, 2).contiguous().view(torch.uint8),
+            requires_grad=False,
+        )
+        layer.w13_weight_scale = torch.nn.Parameter(
+            layer.w13_weight_scale.transpose(1, 2).contiguous(), requires_grad=False
+        )
+        layer.w2_weight_scale = torch.nn.Parameter(
+            layer.w2_weight_scale.transpose(1, 2).contiguous(), requires_grad=False
+        )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        assert self.num_bits == 4 or self.num_bits == 8
+        config_builder = (
+            int4_w4a16_moe_quant_config
+            if self.num_bits == 4
+            else int8_w8a16_moe_quant_config
+        )
+
+        return config_builder(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            w1_zp=None,
+            w2_zp=None,
+            block_shape=[0, self.group_size],
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `CompressedTensorsWNA16MoEMethod` yet."
+            )
+
+        from vllm.model_executor.layers.fused_moe import fused_experts
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        return fused_experts(
+            x,
+            layer.w13_weight_packed,
+            layer.w2_weight_packed,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=True,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            quant_config=self.moe_quant_config,
+        )
+
+
+class CompressedTensorsW4A8Int8MoEMethod(CompressedTensorsMoEMethod):
+    """
+    CPU-only MoE method using dynamic 4-bit matmul kernels on Arm Platform
+    - Weights: int4 (stored as int8 values in [-8,7], packed to uint8 nibbles)
+    - Scales: Fp32 for Channelwise , bf16 for groupwise quantization
+    - Bias: Same data type as original weights
+    - Activations: FP32/Bf16 dynamic per-token (A8 Int),
+      quantized inside the kernel
+    """
+
+    def __init__(
+        self,
+        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.has_bias = self.moe.has_bias
+        self.quant_config = quant_config
+
+        # Validate scheme: weights=W4 (channel or group),
+        # activations=dynamic TOKEN (A8)
+        wq = self.quant_config.target_scheme_map["Linear"].get("weights")
+        aq = self.quant_config.target_scheme_map["Linear"].get("input_activations")
+
+        # Must be dynamic per-token activations
+        if aq.strategy != QuantizationStrategy.TOKEN or not aq.dynamic:
+            raise ValueError(
+                "W4A8-int MoE needs dynamic per-token activation quantization."
+            )
+
+        # Weight can be channel-wise (group_size=None) or group-wise
+        self.group_size = wq.group_size if (wq.group_size is not None) else -1
+        if wq.num_bits != 4:
+            raise ValueError("This method only supports 4-bit weights (num_bits=4).")
+
+        # CPU only
+        if not current_platform.is_cpu():
+            raise ValueError("CompressedTensorsW4A8Int8MoEMethod is CPU-only.")
+
+        # Arm: check _dyn ops availability
+        if current_platform.get_cpu_architecture() == CpuArchEnum.ARM:
+            try:
+                _ = torch.ops.aten._dyn_quant_matmul_4bit
+                _ = torch.ops.aten._dyn_quant_pack_4bit_weight
+            except AttributeError as err:
+                raise RuntimeError(
+                    f"""PyTorch {torch.__version__} lacks _dyn_quant_* 4bit ops;
+                    install a newer build."""
+                ) from err
+        self.static_input_scales = False  # always dynamic per token
+
+    # ---- parameter creation ----
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Shapes per local rank (TP/EP):
+        #   w13: [E, 2*I_local, H]  int8  (int4 values in [-8,7])
+        #   w2 : [E, H, I_local]    int8
+        # Scales:
+        #   channel-wise: group_size=-1 -> per-output-row, single scale per row
+        #   group-wise  : group_size=g   ->
+        #   per-output-row, (in_features/g) scales
+
+        E = num_experts
+        H = hidden_size
+        IN = intermediate_size_per_partition
+        g = self.group_size
+
+        # Per-row scale columns
+        def _n_scale_cols(in_features: int) -> int:
+            return 1 if g == -1 else (in_features // g)
+
+        # Register unpacked int4-as-int8 weights the loader will fill.
+        w13 = torch.nn.Parameter(
+            torch.empty(E, 2 * IN, H, dtype=torch.int8), requires_grad=False
+        )
+        set_weight_attrs(w13, extra_weight_attrs)
+        layer.register_parameter("w13_weight", w13)
+
+        w2 = torch.nn.Parameter(
+            torch.empty(E, H, IN, dtype=torch.int8), requires_grad=False
+        )
+        set_weight_attrs(w2, extra_weight_attrs)
+        layer.register_parameter("w2_weight", w2)
+
+        # Register scales
+        # KleidiAI groupwise kernels accepts float32 scales
+        # KleidiAI groupwise kernels accepts bfloat16 scales
+        scale_dtype = torch.float32 if g == -1 else torch.bfloat16
+
+        w13_s = torch.nn.Parameter(
+            torch.ones(E, 2 * IN, _n_scale_cols(H), dtype=scale_dtype),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            w13_s,
+            {"quant_method": "channel" if g == -1 else "group", **extra_weight_attrs},
+        )
+        layer.register_parameter("w13_weight_scale", w13_s)
+
+        w2_s = torch.nn.Parameter(
+            torch.ones(E, H, _n_scale_cols(IN), dtype=scale_dtype), requires_grad=False
+        )
+        set_weight_attrs(
+            w2_s,
+            {"quant_method": "channel" if g == -1 else "group", **extra_weight_attrs},
+        )
+        layer.register_parameter("w2_weight_scale", w2_s)
+
+        if self.has_bias:
+            w13_bias = torch.nn.Parameter(
+                torch.zeros(E, 2 * IN, dtype=params_dtype), requires_grad=False
+            )
+            layer.register_parameter("w13_bias", w13_bias)
+            set_weight_attrs(w13_bias, extra_weight_attrs)
+
+            w2_bias = torch.nn.Parameter(
+                torch.zeros(num_experts, hidden_size, dtype=params_dtype),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_bias", w2_bias)
+            set_weight_attrs(w2_bias, extra_weight_attrs)
+
+        # Placeholders for packed weights (will be replaced after packing)
+        layer.register_parameter(
+            "w13_weight_packed", torch.nn.Parameter(torch.empty(0), requires_grad=False)
+        )
+        set_weight_attrs(layer.w13_weight_packed, extra_weight_attrs)
+
+        layer.register_parameter(
+            "w2_weight_packed", torch.nn.Parameter(torch.empty(0), requires_grad=False)
+        )
+        set_weight_attrs(layer.w2_weight_packed, extra_weight_attrs)
+
+        # dims for 4 bit fused matmuls
+        layer.w13_in_features = H
+        layer.w13_out_features = 2 * IN
+        layer.w2_in_features = IN
+        layer.w2_out_features = H
+        layer.group_size = g
+
+    # post-load packing to dyn-4bit KleidiAI kernel's format
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        E = layer.w13_weight.shape[0]
+        H = layer.w13_in_features
+        I2 = layer.w13_out_features
+        IN = layer.w2_in_features
+        g = layer.group_size
+
+        def _pack_matrix(
+            int4_as_int8_2d: torch.Tensor,
+            scales_2d: torch.Tensor,
+            bias_1d: torch.Tensor | None,
+            in_features: int,
+            out_features: int,
+        ) -> torch.Tensor:
+            # int4 values are stored as int8 in [-8,7].
+            # Shift to unsigned nibble and pack pairs along input-dim.
+            tmp = int4_as_int8_2d.add(8)  # [out, in]
+            uint8_nibbles = ((tmp[:, 1::2] << 4) | tmp[:, ::2]).to(
+                torch.uint8
+            )  # [out, in//2]
+
+            # KleidiAI groupwise kernels accepts float32 scales
+            # KleidiAI groupwise kernels accepts bfloat16 scales
+            scale_dtype = torch.float32 if g == -1 else torch.bfloat16
+            scales = scales_2d.to(scale_dtype)
+            bias = None if bias_1d is None else bias_1d.to(torch.float32)
+            return torch.ops.aten._dyn_quant_pack_4bit_weight(
+                uint8_nibbles,
+                scales,
+                bias,
+                g if g != -1 else in_features,
+                in_features,
+                out_features,
+            )
+
+        # Pack per expert
+        w13_packed_list = []
+        w2_packed_list = []
+
+        has_w13_bias = hasattr(layer, "w13_bias") and layer.w13_bias is not None
+        has_w2_bias = hasattr(layer, "w2_bias") and layer.w2_bias is not None
+
+        for e in range(E):
+            w13_packed_list.append(
+                _pack_matrix(
+                    layer.w13_weight[e],  # [2I, H]
+                    layer.w13_weight_scale[e],  # [2I, H/g or 1]
+                    layer.w13_bias[e] if has_w13_bias else None,  # [2I]
+                    H,
+                    I2,
+                )
+            )
+            w2_packed_list.append(
+                _pack_matrix(
+                    # w2 shape is [H, IN]; we need [out, in] == [H, IN].
+                    layer.w2_weight[e],  # [H, IN]
+                    layer.w2_weight_scale[e],  # [H, IN/g or 1]
+                    layer.w2_bias[e] if has_w2_bias else None,  # [H]
+                    IN,
+                    layer.w2_out_features,  # in_features=IN, out_features=H
+                )
+            )
+
+        # each packed tensor has identical shape per expert; stack on dim 0
+        w13_packed = torch.stack(w13_packed_list, dim=0)
+        w2_packed = torch.stack(w2_packed_list, dim=0)
+
+        replace_parameter(
+            layer,
+            "w13_weight_packed",
+            torch.nn.Parameter(w13_packed, requires_grad=False),
+        )
+        replace_parameter(
+            layer,
+            "w2_weight_packed",
+            torch.nn.Parameter(w2_packed, requires_grad=False),
+        )
+
+        # free raw tensors/scales/bias now that they're packed into the payload.
+        replace_parameter(
+            layer, "w13_weight", torch.nn.Parameter(torch.empty(0), requires_grad=False)
+        )
+        replace_parameter(
+            layer, "w2_weight", torch.nn.Parameter(torch.empty(0), requires_grad=False)
+        )
+        replace_parameter(
+            layer,
+            "w13_weight_scale",
+            torch.nn.Parameter(torch.empty(0), requires_grad=False),
+        )
+        replace_parameter(
+            layer,
+            "w2_weight_scale",
+            torch.nn.Parameter(torch.empty(0), requires_grad=False),
+        )
+        if has_w13_bias:
+            replace_parameter(
+                layer,
+                "w13_bias",
+                torch.nn.Parameter(torch.empty(0), requires_grad=False),
+            )
+        if has_w2_bias:
+            replace_parameter(
+                layer,
+                "w2_bias",
+                torch.nn.Parameter(torch.empty(0), requires_grad=False),
+            )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        # CPU dynamic 4-bit MoE path does not use modular kernels or
+        # fused_experts; quant config is not needed.
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert not enable_eplb, "EPLB not supported for W4A8-int MoE yet."
+        assert activation in ("silu", "swigluoai", "swiglu"), (
+            "Only SiLU/SwiGLUGU/SwiGLUUG are supported."
+        )
+        assert expert_map is None, """expert_map/EP not implemented
+        for CPU dyn-4bit MoE."""
+
+        def _act_kind(s: str) -> int:
+            # 0 = SwiGLU_Gu (SiLU(g)*u), 1 = SwiGLU_Ug (SiLU(u)*g), 2 = SiLU
+            if s == "swiglu":
+                return 0
+            if s == "swigluoai":
+                return 1
+            if s == "silu":
+                return 2
+            raise ValueError(f"Unknown activation '{s}'")
+
+        # Apply topk softmax on router output
+        topk_weights, topk_ids = select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+        )
+
+        return torch.ops._C.dynamic_4bit_int_moe(
+            x,
+            topk_ids.to(torch.long),
+            topk_weights,
+            layer.w13_weight_packed,
+            layer.w2_weight_packed,
+            layer.w2_out_features,
+            layer.w2_in_features,
+            layer.w13_out_features,
+            layer.group_size,
+            apply_router_weight_on_input,
+            int(_act_kind(activation)),
+        )
+
+class CompressedTensorsL1OptMoEMethod(CompressedTensorsMoEMethod):
+
+    def __init__(
+        self,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+
+    def create_weights(self, layer: torch.nn.Module, num_experts: int,
+                       hidden_size: int, intermediate_size_per_partition: int,
+                       params_dtype: torch.dtype, **extra_weight_attrs):
+
+        params_dtype = torch.int8
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            2 * intermediate_size_per_partition,
+            hidden_size,
+            dtype=params_dtype),
+                                        requires_grad=False)
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition,
+            dtype=params_dtype),
+                                       requires_grad=False)
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        w13_weight_scale = torch.nn.Parameter(torch.ones(
+            num_experts,
+            2 * intermediate_size_per_partition,
+            1,
+            dtype=torch.float32),
+                                              requires_grad=False)
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        setattr(w13_weight_scale, "shard_dim", 0)
+        w2_weight_scale = torch.nn.Parameter(torch.ones(num_experts,
+                                                        hidden_size,
+                                                        1,
+                                                        dtype=torch.float32),
+                                             requires_grad=False)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        setattr(w2_weight_scale, "shard_dim", 1)
+        # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value})
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        layer.w13_input_scale = None
+        layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        pass
+
+    def get_fused_moe_quant_config(
+            self, layer: torch.nn.Module) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `CompressedTensorsW8A8Int8MoEMethod` yet."
+            )
+
+        use_ep = expert_map is not None
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+        topk_weight, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype)
+
+        dtype = x.dtype
+        num_tokens, num_experts = router_logits.shape
+
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+
+        # expand + reorder + quant
+        i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+            hidden_states=x,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+            topk_ids=None,
+            smooth_scales=layer.w13_input_scale,
+        )
+
+        # w8a8 group gemm 1
+        pt_output_1 = ixfops.moe_w8a8_group_gemm(
+            input=i8_hidden_states,
+            weight=layer.w13_weight,
+            i_scales=a_scale,
+            w_scales=layer.w13_weight_scale,
+            output_dtype=dtype,
+            tokens_per_experts=expert_sizes_cpu,
+            dst_to_src=None,
+            format="TN",
+        )
+
+        # act + quant
+        pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+            input=pt_output_1,
+            bias=None,
+            smooth_scales=layer.w2_input_scale,
+            dst_to_src=sorted_token_ids,
+            topk_ids=None,
+            act_type="swiglu",
+        )
+
+        # w8a8 group gemm 2 + reorder
+        if use_ep:
+            pt_output_3 = torch.empty(
+                (num_tokens * top_k, hidden_size),
+                device=x.device,
+                dtype=x.dtype,
+            )
+
+            ixfops.moe_w8a8_group_gemm(
+                input=pt_output_2,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                format="TN",
+                output=pt_output_3,
+            )
+
+            reduce_mask = src_to_dst == -1
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor,
+                mask=reduce_mask,
+            )
+        else:
+            pt_output_3 = ixfops.moe_w8a8_group_gemm(
+                input=pt_output_2,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                dst_to_src=sorted_token_ids,
+                format="TN",
+            )
+
+            # mul + reduce_sum
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor
+            )
+        return final_hidden_states
+
+class CompressedTensorsL2OptMoEMethod(CompressedTensorsMoEMethod):
+
+    def __init__(
+        self,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.pack_factor = 2
+        self.group_size = -1
+        self.version = 2
+        self.gemm_format = envs.VLLM_W4A8_FORMAT
+        self.format_mapping = {"NN":0,"NT":1,"TN":2}
+        assert self.gemm_format in ["TN","NN"]
+
+
+    def create_weights(self, layer: torch.nn.Module, num_experts: int,
+                       hidden_size: int, intermediate_size_per_partition: int,
+                       params_dtype: torch.dtype, **extra_weight_attrs):
+
+        params_dtype = torch.int8
+        remainder = (intermediate_size_per_partition // self.pack_factor) % 64
+        if self.gemm_format == "TN":
+            w13_shape = (num_experts, 2 * intermediate_size_per_partition, hidden_size // self.pack_factor)
+            if remainder != 0:
+                w2_shape = (num_experts, hidden_size, (intermediate_size_per_partition // self.pack_factor) + 64 - remainder)
+            else:
+                w2_shape = (num_experts, hidden_size, intermediate_size_per_partition // self.pack_factor)
+        else:
+            w13_shape = (num_experts, hidden_size, 2 * intermediate_size_per_partition // self.pack_factor)
+            w2_shape = (num_experts, intermediate_size_per_partition, hidden_size // self.pack_factor)
+        # WEIGHTS
+        # use process_weights_after_loading to get get right layout if gemm_format is NN
+        w13_weight = torch.nn.Parameter(torch.empty(w13_shape,
+                                                    dtype=params_dtype),
+                                        requires_grad=False)
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+        if self.gemm_format == "NN":
+            setattr(w13_weight, "shard_dim", 1)
+
+        if remainder != 0:
+            w2_weight = torch.nn.Parameter(torch.zeros(w2_shape,
+                                                       dtype=params_dtype),
+                                           requires_grad=False)
+        else:
+            w2_weight = torch.nn.Parameter(torch.empty(w2_shape,
+                                                       dtype=params_dtype),
+                                           requires_grad=False)
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+        if self.gemm_format == "NN":
+            setattr(w2_weight, "shard_dim", 0)
+
+        # WEIGHT_SCALES
+        # Allocate 2 scales for w1 and w3 respectively.
+        # They will be combined to a single scale after weight loading.
+        # The following scale or zero will use permute(0,2,1) to get right layout, init here to avoid rewrite data_loader
+        w13_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                          1,
+                                                          2 * intermediate_size_per_partition,
+                                                          dtype=torch.float32),
+                                              requires_grad=False)
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        setattr(w13_weight_scale, "shard_dim", 1)
+
+        w2_weight_scale = torch.nn.Parameter(torch.empty(num_experts,
+                                                         1,
+                                                         hidden_size,
+                                                         dtype=torch.float32),
+                                             requires_grad=False)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        setattr(w2_weight_scale, "shard_dim", 0)
+
+        extra_weight_attrs.update({"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value})
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        setattr(layer, "w13_i8_weight_scale", None)
+        setattr(layer, "w2_i8_weight_scale", None)
+        setattr(layer, "w13_i8_weight_zero", None)
+        setattr(layer, "w2_i8_weight_zero", None)
+
+        layer.w13_input_scale = None
+        layer.w2_input_scale = None
+
+        self.gemm_format = self.format_mapping[self.gemm_format]
+
+    def get_fused_moe_quant_config(
+            self, layer: torch.nn.Module) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable |None = None,
+        scoring_func: str = "softmax",
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+        routed_scaling_factor: float = 1.0,
+    ) -> torch.Tensor:
+        attn_metadata = get_forward_context().attn_metadata
+        use_ep = expert_map is not None
+        # unsupported ep now
+        if attn_metadata:
+            deepseek_instance = None
+            for value in attn_metadata.values():
+                if hasattr(value, 'num_prefills') and hasattr(value, 'num_decodes'):
+                    deepseek_instance = value
+                    break
+            value_types = {type(value).__name__ for value in attn_metadata.values()}
+            is_same_class = len(value_types) == 1
+            if is_same_class:
+                assert deepseek_instance
+                only_decode = (use_ep == False and all(t.num_decodes > 0 and t.num_prefills ==0 for t in list(attn_metadata.values())))
+            else:
+                if deepseek_instance:
+                    only_decode = (use_ep == False and deepseek_instance.num_decodes > 0 and deepseek_instance.num_prefills ==0)
+                else:
+                    only_decode = False
+        else:
+            only_decode = False
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `CompressedTensorsW4A8MoEMethod` yet.")
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+        topk_weight, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            e_score_correction_bias=e_score_correction_bias)
+
+        dtype = x.dtype
+        num_tokens, num_experts = router_logits.shape
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+
+        if only_decode and self.gemm_format == 2:
+            i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+                hidden_states=x,
+                dst_to_src=sorted_token_ids,
+                dst_tokens=expand_tokens,
+                topk=top_k,
+                src_to_dst=src_to_dst,
+                topk_ids=None,
+                smooth_scales=layer.w13_input_scale,
+                output_format = 1,
+            )
+
+            pt_output_1 = ixfops.moe_w4a8_group_gemv(
+                input=i8_hidden_states,
+                weight=layer.w13_weight,
+                i_scales=a_scale,
+                w_scales=layer.w13_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_gpu,
+                w_i8scales=layer.w13_i8_weight_scale,
+                w_i8zeros=layer.w13_i8_weight_zero,
+                dst_to_src=None,
+                bias=layer.w13_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+            )
+
+            pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+                input=pt_output_1,
+                bias=None,
+                smooth_scales=layer.w2_input_scale,
+                dst_to_src=sorted_token_ids,
+                topk_ids=None,
+                act_type="swiglu",
+                output_format = 1,
+            )
+
+            if pt_output_2.shape[-1] != layer.w2_weight.shape[-1] * 2:
+                padding = layer.w2_weight.shape[-1] * 2 - pt_output_2.shape[-1]
+                pt_output_2_align = torch.nn.functional.pad(pt_output_2, (0, padding), mode='constant', value=0)
+            else:
+                pt_output_2_align = pt_output_2
+
+            pt_output_3 = ixfops.moe_w4a8_group_gemv(
+                input=pt_output_2_align,
+                weight=layer.w2_weight,
+                i_scales=a2_scale,
+                w_scales=layer.w2_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_gpu,
+                w_i8scales=layer.w2_i8_weight_scale,
+                w_i8zeros=layer.w2_i8_weight_zero,
+                dst_to_src=sorted_token_ids,
+                bias=layer.w2_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+            )
+             # mul + reduce_sum
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weight,
+                scaling_factor=routed_scaling_factor
+                )
+        else:
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+            # expand + reorder + quant
+            i8_hidden_states, a_scale = ixfops.moe_expand_input_dynamic_scaled_int8(
+                hidden_states=x,
+                dst_to_src=sorted_token_ids,
+                dst_tokens=expand_tokens,
+                topk=top_k,
+                src_to_dst=src_to_dst,
+                topk_ids=None,
+                smooth_scales=layer.w13_input_scale,
+            )
+
+            # w4a8 group gemm 1
+            pt_output_1 = ixfops.moe_w4a8_group_gemm(
+                input=i8_hidden_states,
+                weight=layer.w13_weight,
+                i_scales=a_scale,
+                w_scales=layer.w13_weight_scale,
+                output_dtype=dtype,
+                tokens_per_experts=expert_sizes_cpu,
+                w_i8scales=layer.w13_i8_weight_scale,
+                w_i8zeros=layer.w13_i8_weight_zero,
+                dst_to_src=None,
+                bias=layer.w13_bias,
+                format=self.gemm_format,
+                group_size=self.group_size,
+                version=self.version
+            )
+
+            # act + quant
+            pt_output_2, a2_scale = ixfops.activation_dynamic_scaled_int8(
+                input=pt_output_1,
+                bias=None,
+                smooth_scales=layer.w2_input_scale,
+                dst_to_src=sorted_token_ids,
+                topk_ids=None,
+                act_type="swiglu",
+            )
+
+            if pt_output_2.shape[-1] != layer.w2_weight.shape[-1] * 2 and self.gemm_format == 2:
+                padding = layer.w2_weight.shape[-1] * 2 - pt_output_2.shape[-1]
+                pt_output_2_align = torch.nn.functional.pad(pt_output_2, (0, padding), mode='constant', value=0)
+            else:
+                pt_output_2_align = pt_output_2
+
+            # w4a8 group gemm 2 + reorder
+            if use_ep:
+                pt_output_3 = torch.empty(
+                    (num_tokens * top_k, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+
+                ixfops.moe_w4a8_group_gemm(
+                    input=pt_output_2_align,
+                    weight=layer.w2_weight,
+                    i_scales=a2_scale,
+                    w_scales=layer.w2_weight_scale,
+                    output_dtype=dtype,
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_i8scales=layer.w2_i8_weight_scale,
+                    w_i8zeros=layer.w2_i8_weight_zero,
+                    dst_to_src=sorted_token_ids,
+                    bias=layer.w2_bias,
+                    format=self.gemm_format,
+                    group_size=self.group_size,
+                    version=self.version,
+                    output=pt_output_3,
+                )
+
+                reduce_mask = src_to_dst == -1
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weight,
+                    scaling_factor=routed_scaling_factor,
+                    mask=reduce_mask,
+                )
+            else:
+                pt_output_3 = ixfops.moe_w4a8_group_gemm(
+                    input=pt_output_2_align,
+                    weight=layer.w2_weight,
+                    i_scales=a2_scale,
+                    w_scales=layer.w2_weight_scale,
+                    output_dtype=dtype,
+                    tokens_per_experts=expert_sizes_cpu,
+                    w_i8scales=layer.w2_i8_weight_scale,
+                    w_i8zeros=layer.w2_i8_weight_zero,
+                    dst_to_src=sorted_token_ids,
+                    bias=layer.w2_bias,
+                    format=self.gemm_format,
+                    group_size=self.group_size,
+                    version=self.version
+                )
+
+                # mul + reduce_sum
+                final_hidden_states = ixfops.moe_output_reduce_sum(
+                    input=pt_output_3.view(num_tokens, top_k, -1),
+                    topk_weight=topk_weight,
+                    scaling_factor=routed_scaling_factor
+                    )
+        return final_hidden_states
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py b/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
new file mode 100644
index 0000000..ca28667
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
@@ -0,0 +1,35 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .compressed_tensors_scheme import CompressedTensorsScheme
+from .compressed_tensors_w4a4_nvfp4 import CompressedTensorsW4A4Fp4
+from .compressed_tensors_w4a8_fp8 import CompressedTensorsW4A8Fp8
+from .compressed_tensors_w4a8_int import CompressedTensorsW4A8Int
+from .compressed_tensors_w4a16_24 import (
+    W4A16SPARSE24_SUPPORTED_BITS,
+    CompressedTensorsW4A16Sparse24,
+)
+from .compressed_tensors_w4a16_nvfp4 import CompressedTensorsW4A16Fp4
+from .compressed_tensors_w8a8_fp8 import CompressedTensorsW8A8Fp8
+from .compressed_tensors_w8a8_int8 import CompressedTensorsW8A8Int8
+from .compressed_tensors_w8a16_fp8 import CompressedTensorsW8A16Fp8
+from .compressed_tensors_wNa16 import WNA16_SUPPORTED_BITS, CompressedTensorsWNA16
+
+# This avoids circular import error
+from .compressed_tensors_24 import CompressedTensors24  # isort: skip
+
+__all__ = [
+    "CompressedTensorsScheme",
+    "CompressedTensorsWNA16",
+    "CompressedTensorsW8A16Fp8",
+    "CompressedTensorsW4A16Sparse24",
+    "CompressedTensorsW8A8Int8",
+    "CompressedTensorsW8A8Fp8",
+    "WNA16_SUPPORTED_BITS",
+    "W4A16SPARSE24_SUPPORTED_BITS",
+    "CompressedTensors24",
+    "CompressedTensorsW4A16Fp4",
+    "CompressedTensorsW4A4Fp4",
+    "CompressedTensorsW4A8Int",
+    "CompressedTensorsW4A8Fp8",
+]
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2795d5ae5b65f82b694ba05312de453d3c5cc9a5
GIT binary patch
literal 1227
zcmZ`&O>fgc5Z!gYKU><gO+{PIITWjvl^6+uLTRL4Le&IS+RMsqwyni(Vr-{0+&J?C
z;LMHR!arE4;=qX;qN<QMF|#Qgh+{=hZ+D(&-pn{(DwQIEN2cHVgA5_x@bLGs?#RtY
zARowp45%cEGD?wK(o!jwGCU>ID#J2{r)5^<SkCZ_%&P(`s3I$xb5@pAnUxLC$%?A7
zs^NLLpcdJp;RSh5EwLrTi*i}jSWT_46>~1hRkg;}C^;vC@+ZpblS-rdor1jv)oXhr
z6@(&+#Go&R(I||1rx!vA2-Rmo$4=Yn1kSve+X>vcv4dgUu=EC`*lG3-+ef|qU5EEx
z9v;3p>hC}2&kp)My_HlE<bfAPVi)VKCoATfa@%*N5?+KDm_o;i!JQ_yW9iy)7cBp8
zb#>MV${^YDOaz=)!W7IqtRj>V@(3ja{FK59LJna8p@5J^$RfZuM!Jo4y?**{Sv;O@
zi$`W%CcWNFh`(_>hYv5$0>>oO_med)KMPz_XuiT9#>US)1x#tznRbEg>8<2aAe;KZ
zE|YV)-qa7yMsFmgK?V46%?#&Bpb~b41K0JWEM0G>Ih{RjMz17jpd(y~&T;NZ$@yn;
z14r^Zv||<6fgfzgUU)9z?W=L?k^8D8Z0Voa!6d#I4ed)Qm90htA-T8`r{j1O+R~ed
zFtT5dy<zOX^<p1%vvuw1UL%`Bn|{ps!(gKGk0IAsiYMU%uz>&Is0r{RMJc__6Z-U;
m>|K*K{C-&}YT;FfnhUtz`$~>(vxK&OrmH3ET`t^&SN{N3h<1hm

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_24.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_24.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0d803c5628008b6ccddf0969a3550c51dbd3e5aa
GIT binary patch
literal 16077
zcmd6OX>1%<npjoecQ?r<*<_Pqk>=GrC5n=$!!jv}ltu?_4XLry)=azARV170gRUxC
zBGL4C4KJ3OosFbmcV!{Kng$lJ3@aGTpNtj=vXkrrn;=2bMbhb>0vA!TULek|)=-9b
zHh=PcudXK5l#l(BC-L<=zxTcCJ74{0uh&IENLl_c`SlTs`a8^M!Kx;<zktL&iltaO
zMWyK|O=H@WGNsK?GfA6MmZ$~FEGcW+7PY1AQ9CKOrW|Q!)R}fgU1@jJP0DO3Pud&x
zlC(YLOZ%e%l6Iu3($&%GbWOB|<ejNtx;9!%(ymlpx;|P@((Y6!-4JacX-}##9gc?6
zP0=Qj_okZD`=a~OEzy=V6J^q^(N-w;&C<~}z|Nm~Dcv4zrzsP4mSO`RKn+*>nOT`-
zv}4H}srnK#5n6Vfj;B)bYbg%W=CRDuWW*#_ozA8gcuo+K*~~<iPsc^se<{myDXl!q
zN6d2I@?tzACYR$PG#le*1vyw=G9~hHk(*uG*=~Ai0Y~yBvgvEd3>OpT;yf!ri9429
z6vS*gmR%44g~m%9Kg+SFv#G^&=CwEvNOGx*&?C;vRhKXPXlD`huh($n*l8{!WO-pK
zF~_BGFb6?v;<XV-yUz02#f7Q4IG|yY>k`?_I~*^@#B3}v7tdt4)QzOT$su7O&I=r%
zB&Onm5EB*`7P7p^u@Q@0bt*1!?_9ii2~kLMBFD>(r<J~BoT)@S#Tj)$vT(0+$=Ny4
zD6M~u;}tY_HLrPY8biZ?b|A6H^IS%ZEu`Y&3~Wh4*-It%sG03)6CPiViqb3<H90Be
zAKSp1I5TVJEG)fjr{M7FDJy5?Y@B_@)Bqrq+8GCH`@kA?a8B0Fxn@kP;{(fQ>HtwU
z>*PH1jcT^+XTGT{qb6Aw=VINQpK}rD9>{s2H&dadkE@#Tu>KD$(dzFsf}N#jEO5Xr
z(HbYkHh!nRRe(!(1zf84C|B0bUbz-ltp--DcF!4NzX~%4?1O-P9jtZbdJ|g<_4RCB
z<#E~iJ<7k!KJ7iH5R4sKq9b9x9#(2ncD}9Ld5)DmH^`ZekrLUR%q%R5Y9^FMViAKo
zu2B(4XJ(SK360R=vRmK}Nz(RzrSa6}=o}TpauRYT$U(W9GeZu}wh}}*!%CQUXer}2
zXZcL+w_?p%S!$8KN%IG2DrcQ148UlKsd?@0log9UEi)g`QpWFmwUO3R*WnxihC2Kl
zH6PUKj9=cKvqCGkR+6Ln`JDOpW}!7+kX=E$b7EMlsC37)R)_&VmNU=q(^?z99%{vw
zv+)6u(aPrAw3P9i@t4)N8|7MR#V&Sf>6|TR|4iKvn2|o$B})1CDLomf<&jMAh&_+Q
zfww^<*U#`k<DWknvY(LLq`0IW71@SlE-vzTWaKK9AP)`4t|i5ET(~Y<--)LdIXTE?
zV`?SKX>jGh&J&pB<v?tfQ_p9N6@d%!Aq4E4Sr}3BvYlPZ#M8+HkDD&LUK{^mY<hfh
z>eV00PLh80!uTZbC!NTdk3rXnL$(N9YG(Ibo1q!siEV9y2n;eI+h>v2EpP%JSw;>2
z_|ri#y)d|tT<90$!0*KVn~O(|j$A*&4W^RU1{apZxol?eom474s7#2v$pKHw@`I`P
z62}XJ>UAV6cu<=?$Hqj31r7>?2MQIcVnf3N3rn&i7E5N5Vl1}YbXvWxIs=6kT5T^N
zEuhHs9#!&DjW4ZQe(ozab+1}B9Sy~BC;o=E!aarXDJgua=xN_Jo0?pCN2uhWyv=K8
z@}BPBQYP=wVt^?G_Dg~Ng}@OhaAeER6#PSyf2iOek^Cc1&2-h#l9h6LHyy1d7v%{Q
z-0kb`_G0_+>X}VX>r)%$tt$q?`9N1O5G({bq(H|;plh@Dc%gS(>K)(cJ-Z$_`=p`0
z(9kC}^yO>&RwsTlc<7Jk3w6Egb-n-gSmF4q((zYU&u%q$tj#=_-Dp0%dghNNOHQil
z99=R~RoxJI>$YK<ux~skF7la#PJ^%%0-;z)y6#ax7fq92Mj`zvN>b)TN)WI)!|#V!
zuEqnGPG(|>_(J?zG6iRQxwFzDKi}>L&|g3*2g_}v0@eHw0<@A%mt6{}6_U%GT$f!G
zk?w-HA|_D|i(#=Khm1BcIO;~d?1857w4k1OuS&#I**MGb37xRQaF|9?wY>?cdz7dz
zghp}%w}^{D0!wQ|_kB8N&d~<320~89^maK5<Z$&!0K$hO><T%n1`9|F5)BeWym?Bh
zN=sED#bT{in=|WhEHF|9LjTaD$;7Ogwd8CMt)Hp5tvH}Zod(JH<^Qj!lWGu?sGRu>
zrLBiHnqWUqv39NWecDMGBwTzU?yQ3~i#p4xMD7iY0b8d=f>)gXwAEo9%RtP(^BTGS
ziKDu3)Ux?jU|q(1pW7jKj-GEdc1BCF?wr0Z!1OD(@#I|E+U?oKn{$`7q2?>F%sVvy
zXRvDR+StY~pQ&6vk33;l5P@|oVZKL88Nc&=Mp{b|X8*D{sO4XLsw&+G);wb>TY02c
zy8^7d%HYY(@M$+?#gn;Nd2alH%H`iMXC!UA!d`P0Oy{ZhY4MQO{2S&CTD}qtO7Lyx
zyyJFx_BciUoJU(DI7QU_h&G<_3n%1g<(m0pMk_6KhZfrQX#L`I^WE1_7b;)8hCArd
z3s1?874z<~Vu763Sh38*vfVhLt%317|B8{;Qf1hVYGuanx5t*PdRVPtvf}yw1dngE
zYJ05g&a+sV>eb{N+MH<+)FZ*k<*QR54hS4``pWdhv8gF0lNA}=*fGGMnS)7#U52^F
zG1nH8DUrF66z8D%nK9<T(7+Ir<r%O@a6BVsnMD93&LstAhKqyjgr*lO5w*WW*?~uL
z0`?ON8yDlUQxQ<uWLkEqG7O~olh9^|$c2)_LHOH7GI)WaQBkCR47_}W&Vi9*8RP?&
zMtb<C^gWuUe(tkSOQwHqzClOKU!tT<MxEpjLlW#grh)ykZ<nluXfdkD<~%XWWw@IQ
z{K@4*l_a$U4>RLpiqIqsoJeKC*dv@A(7R;;n9u^z|EB%{WH-uG@B7Wk=?9Z{d}~!w
zplvPwd7w)=IsH2U<&5{MgY<IGSSrQnC<*#%v&naoLK5t9%(W$EgaKuU`I4-li9ZE>
z$x87Pkdm!LuaI4a_%GX4B`IQ78lTa6=vupgRw_+vCz*+e0$KL*+}n#uF#pA7`8X@v
zl-WjF`Dz@^^&?cf#(5reDqku)n*>0y8%b826L=(PJl<rvifCJvL`_xl<WWqMt)R*z
z=430EUJ#dLv#^-vJFwgg=03iLv`A*e!^5(55q?MHYMz@-3UJ&|pjC`-hUO(Z1l8oo
z<Ic<W)91z}C&w@H$e(%CQDyrK2)g3IA=##Ac07uBvN^?N6csgsSyLth8lMJVwq!G$
z5b^Q-2<0e7WSYk@g>&U!#t09tY`cB~v^askj3pPaq{`S7_0;f}uyPWkS0NJ6)}U&G
z>W`v5_;#MP<+g7=j|fzF6K>3V)UzNJ=-%{4wyK*-CeW(3&E^_ki86bApjR=6SFM|l
zree4Qe?!H{82)w^dj<+Uqf*c4ubVb{CQ+qpd}gDnJGZLp?uGA$w*oc!V9!RNw;1Ry
z)-@LDx~01AXLd_9f~*e};eTV-vnpq`Yt>c?>dM<zP2E%V8h}z*?|Vj>f`Ez1d*X@z
z__h^(Ap<3#+x31C?AWSpy!YnaH`l7x#vWez#hahLxmkO(xUct_)m-aa9e?JaS`VpB
zwu1Hf(7;A;uo&!nL`%T~#m0Sw#y+XB50I*>2Bg9;#U|`r<!trkJ<ZSRsQTW$dT%wh
zeAIitw?f}~-|E>?9p$Yqc-kdT``YUdxJ}P+(Nm@7ujUVeb~<hp{If^)P0t9-$P>7I
z@()iwL0z?VJ<wVVh6=$BDcDg64oJa)&7q0H(4;gpSs0p@hNjnp(_ge4-D=qPQTTp%
ztD!01d~l;-_)$C`8u@GM-+2GM_nFz$SO-v<)?(Y>Gq;VYzUwJfQ?(5MbUoNn3^f%(
z5h)ZYgodQh(B|Rug~OMn!<P$(UzZNQz8-qLWHnb+!)d5}gNA)&j;KTZ`BXmg%0|cN
zf3f~I?|<@cHv9;oTg^=M9S^LbKI@-6y1MB(1;fK^{4E>)mIszX_lVRzQs^Gt=pKDi
zA1>5)N%dWY`u$S<{>|ZYh2dAF;a3a8SES)9>-AUifh+m?D_i>p)nV5zKjeOq{xrSW
za6%cdrTUH=2CS+p1iGa__k-rg?#}~fV8@$UKN`6|QV91;;eOn`=-ucV{jl~I&7U@J
z)*kuwA}H-m1KX6T$+vnDCKhHs>b~EtoP<4^hx?&<*tdECPo1`{KYny!(=%%9qB7wp
z4sXH1NDgK#^x*L4jv=CnCy)?p0XUFi6vzNgNA5JQ)s+46$Dv%;f{hB`=Fn?*fKr6I
zE9B^hv?hf^3#4(oLQFTW=IFOT?|#cHdbK9NEp>^WKlTkKP9(j%0*t7e`HZScCRNt_
z(4xs1pzW6%MJs94zl4>kP(F|5xm`hQ)Cwx;#+6K;L{pmh?z0tj%@XF_rj2U+LMd{U
zT><O|>dDx(2D;Xt`F<;30fTR`^7^QiPfI1etdc{7pZX5{D`>E+?fO;VcKccT9&q#%
zVl3ykZ^=4vkC73J$e~G?AJ9_9@3)7j*>SGIUapu{%-{X=<V?HvU%%tu0~R>$cHAfZ
zUMx8yu6PtgYnLWJXd(im3aCtc21Ro;?j<v`1I!eNTO4DEBx*Y*o?#jAWX5$s2v9L0
zyY#YS3t2(z2R{x=42{P??gta}zzyA)&#?rMQjFl3IM3<b5v0J0s3(YXFG4~cm`P@^
z;g0@_M}PqVolAf-7A0eZbz1S#GS@jC9Jqqs<ronX6+DkI)6kOOrl>I3QClX!3G|x<
zKAQlaH^&-t2Ko6S93e$!BeEaLY!eZhe+_;?U?y_h6gD{z(JcItpe5d$j5H_`ZAZ-T
zPG~NSvX#?>Lt``|L!JU?vVATt#6^+ke*`)H8b%3>5EaF}@?%U9ZRagaA!Xw6@|U4E
z3R$@-Da42b45uNskOh%ib|ghEO-#vVaJ<X)y2l&V4jtgCPe8WdhDI!g6bzb#UdypO
zQGD>2<31}AY_qzcnz|Gtr!l6U#^nRrX)X6Rys*n(0eIox!GQ<Os!kU$i%ffgIWIBi
zi(#e^?v=v5#ZdD{-uvESUASbYS})Msl%*Af$J-ZgUEK6EmjWPT<O57GP<zJ<@`9)4
z&Y=(cH{IP^OvfjVj~xYONMeSd7KAn_&{_y|N`cNt97q|h2SIE=NC?G25NKL=Hx>Og
z1wSL9FC!xPBb)tWh5mC=|G7f{q|`sT?w{Q1==tQ0kKZVC9FaPXYz2FY9X(3A*wt6)
zIxck`NAb1}K)%#na#Nin+mx-d`i}MUK-;rws<YSVTnvJ+*C_=%3&CC~*!%bpV1><1
z*nBh42J(}q>h_6SCkpOn$=zIV53aihAC3R&;x8{2h9{)q2}LN&Pff26PZy7$R2HS+
zX_h?AA95e1?xza-2Bm$2kA|gvM<mb47tKtec|>X+d0hLKO@Gl;IC@?>dVZt%g5+pi
z_1s~%>YMJ}ynC}yACc-K5Bh%1<?ACG^%qyIKlh;I^~T*d3bkEQZPx?K<MDiL*GBEB
zRqG$Q6lVr~Q?^`7#)X7V8)0{y@P|^;_Wyxh-cy!(-|#ztRD*JjDp{?doxdC&fWjc^
z(o`j>iO2|TqV9>P<S76zhUKAI<L<<<Y(Yl=I99E!m89&MGv7EmDto&Ej;`1>p|{Sl
zjYd01COpZuV$b-1pP@d!E3DXarWIS+Tq?+H;Jl?PNnB8>^A-ba4!O22ca@c!D#>6u
z^F!Nb=sAJ_J`~41+Cp{(%`>9T+A&2%?D2nD&c}X8TyFv)?uv0pV+v>nLCRf5$cK&%
z>l9yc1V7K=gg$0A`3^@o3NRM%m}%?{$rT1<fp{DZ+W$iC0fREn4W^@k0C(~hFpaUq
zhJ(l>QC&o@a5kfNQAfL}@TqbXHI7N9yt_T3taQN?HU&l&XIU6cWwbli&*-jrH<hkC
znlRZJV}<qhgxO4@L66vqh*gargN=>YWjZd~u8FbCvH*4`@OT2FknN;dOix^soiK{(
zco(o=fEaGTEe_3*xm|%m!r^2KntJ#&<iYKaW-1n3)Z&Qxw!}*q*hq{UP9L1f@Msn!
z$jKp{bt!$6?TMw+ia7=ul)?{35waIpA;>afa&|GhC`6nFW8-;ji8%6$*wO`jF{Uh$
zY=0Y2fxS~kG()L?Bn$VO1cmW=;|mL^C5`PZw^m|wJDPkAFogdF5iqtkVm0{L$*o}c
z!|}D3AGL1;kF1VAK_1g8`CI?|$|uo}qwD^`EhNoDQuENG1CPfyn@`<w6&u^vF5mCJ
zV=wOOeo%Ekeb-Hta-_`<uN3-6rT)?N`q6w~G+#ej?CSmG-H+dW6o0(9_U=a4xD;r=
zW4|8;76eSRu~%yBUA<7Ot6x3)g|DjM>ydmtMPF^PCUoz_-4nos?w!ATz8GxL*%36o
zH+y%sSXKMX@9?`;&0qius9bT=-<Ef@<^63%fAy+D{CDWjAZ05wA5Ca`(R=~4*(ubm
zRZ0&{^`Oy{DT+sG15z21E51ufqf$UjbOH{f$|n3Yq?bD?ZOn6q%MPGS0=g#Oqkz-j
ze)nhZ7HeAao)*IP+a-VdhQBlK=u`{?&{hwKDq&_B7<uoBp-T%UhS=>2?-6%bWu~In
zRp?jIcu<isR%)3r-83Onf>%>kcv4D?>lstRL=%%cIQ{X&lK_lYo$p>VsHCKdV7ynt
z{2uI(KT>(l-xFG(%)L{AWs+l6X%#D|rDeERV5~%t_<p$W1+5(S3PzGCs%$s(=ML}F
z5z8cxzJcX#O*hJBQcId=M_@+!!9l>3KOS1{xm@;|m%#^8JDowOY^lH^9>eHP?B=o~
zvzSJ$M&N%4qskWYz6#HYY@N9H>e#fRy8ILi%s-f%=2svE_Z06Yc!Gr32<g1zhT`>I
zZr}5UDlf2zcc}+2=s!Yp{etEl&8zR~VtL-*mv{6*OiEfLe@ouqn|Jg={A8y^_ECFb
z=#(^csxWjx8oKb`gRlL^w>N{YtvdgwKLm#KeDm3j>T`L|IkXyr@fU^Wf~QULv~6}C
zE_9xdI!~;7PLP*LjD!!J@O{!|<Y*!CiWGTeJ@CpGHK9UHr&QCK_jFc<aZKtww(dDr
z3C7D(<mL6i%K+ovvAf5>n*D_@ly4Z{@J-|$6NLB}s_G7z8jmp{Lm$E+{{!z{gs2h$
z`k9xdMO~h*L@Zd-H`JS7Tt8!5_0G_&<pa-(WtLj8!k-QP?8dRqnMM5~8rN^euw`<h
zZuP80P~cgqxzaOELze%B{-$r}Z>wB?hPv%Ym}aSj>BsP*2W4SsSAqP@nC_Z>UTuLn
zLmMl9r0lhZ6=ZLlrrQ8K=WW+*Qv%jWfq4~nb;Y^jS}~a@cvt1jxpKNDq{4JVt#idB
z;^SQs;7yB4vR6Dg&lGjbTj}Yk@m^`K)l+nyy=Ig%ffj&g4#Ljykc}ivD~=lwL&^g7
zHNfx&Y5@NVI_UD|8T~0I6E7F%%j9lFz}6IlMFDIYL~vDIpD5Am;1p?>RD)l0F(nQd
za{e^&STAN0D33GX&dnNhl6;*2vb15lfi`7*RjC~Xdi-31V-<mVPb`gw;4D`W){#UB
zQW0AFhlY_r<1<%%@>zZWOjzJthyQGHW`@Jh0T_Huy92;mx)i+Afb$k}V=kGPLm#~W
zOKLz+UWhW?L!kbM;JVN9JK%BfdBhTMg3L0<XBjR9UsS-b;#^#0cn&A6WKpTf@?d2I
z_c*byDb_pY8hFUB?*Itu#c%|t0*>unQ^fV3gL!F4YW1MWB*E&KK-i!^?EnWxNn(x^
zP;UV=`^)hZ2K2V-PN^V`ZPLbouROAeB#gis=E1VvQnk509Ug9$z5v?MdoePqMN{8V
zFf<|*EhzTZ=P)K}pMtNd^v-4BorR`eW;jLFE4N=NX5SsaH50I2c&uCjG>$g_+w1Te
zn8^+5s+Ac4H3Q})xbpl#h!X1kM;bsOg|30W?Nbo_30?l0G=~rWO@?P{#eB<BNy<0g
zaDlzRH2JA&nME%<G0(#54hx(SQLZv(qaqct^8Xy0>1}1VvV1Y}6s3k-I_2fLa*yHT
zA;cJW<~`LLAJZ(8!U8<xUA|mVFew{(&lNHrjqC*Z6O>|lVbp&B?>+dgTZ-XfuwWKL
zE#Q(SzDgGr>?+iZNHrsm!y7f@dC$1Q_EC1_??42P6gn~e#~7ip7@j$hci`}37^n?A
zM9(BR-ix&;gM%)QbK$43039f@c{#bjBe&)M1x9xv(jGn-hG}93{}XKPCH*x$SIeq1
zm)%M&d7Q$3fbeE8!cCBCjFkfIo={mq_LLWrNj(2JVw7wLp9CPwN5A(ToWix{A%e9o
z4O1;I74{vJ_8lzjJ1gxwn|Fju7MF8^-s<Z6B=>QyWX22_itEDnuHL;`vXiWX^3~kF
zdh6;}PRy1<RR7?rx7arT5v1H-xNGlloBIYg4_wGMU)*$G+5#{3h5HvCxE_rchR;dE
z=Qf&tu&S5ZAJrBPj7tZ`H<~6^FFhHXD2!cMAG-n%Cc?hoj9q#B(w&++T%m4QsvBMp
z9LkSf!H4Q0csLREJq1H_17LUT<zldP?f4^nCUC6!E35S--%|^uq~M`^uw!lU!R%9b
z;og#O+5f2HasB6kv62aD;kCV&`7H&FpLwXJo_x>C8{w0y7hyhuCR~VGs%fwg9+kqQ
zTY+G)CGsTHTnP0^p}q%~rO+T4+6$q>Qs^)|EeNCiy1D(C*Ire<ZFZtF9*qD9<#)dw
z1Vn%L%mu>;c=G<kNbNXf`Kz|tajPR@nV6iMR5bSn{2T$k!Qf&s*%gbyCl8A$OnYKz
z{7I=bmTTE;ibo?OIic`u2+T()rSb<LlHCdXWDl%Rb6Hk4gXM_FcbSR?at#~UE)lr0
zB?V83_))AxTE)*|^fpF+iqY?5gmwaANgzj#JR?&s-F~b<v5G`JkP!Y14%7$uUO&tf
z_YW5b4;GJ|eClqp9(htzU$Vk4RMmGq2ugMRB|ByvR9)u-i&WcJa$?p+z0|cPJUG2}
z^Wy<9z_%UQ#?GY^l&uQ(%38g45Wb<X!s2QLC5J#;4?gh+Z{NIi^Y%|~{j_Ao0vM(?
zRI-yKyqD=%oBG&Ua*`|z(OGhnq=y3I{q?)oOJ0)oQ6XmAPm=TIA?s=S(V<_B{Bq=1
zul(|r5{3C+i`(S4v_MlGk*Cf+Yt4?4ArAv9-iMMMa}EkHOWjI+I4${FOV|OX=<?rg
zy4AGp#@tofZ0&l${o?wk*WqcBwd*nWm)HN|`Zgv@t~%>kdadJ=-j92?DNL94Ptew;
zCt!QJc=uw-iWwNMy8d3%-KLVAWF1tXR$mIZmC!;P@R=L4Wa}cGvOkf9&q;~ECk(`|
zCCL8EHqcsulPgDwkk4vE0?@vwA)g~DpE9*PUpr8)QY%N4xaEi{9IDWMQB0-;LULsb
ze&)lw@kpg1l3Ou9u=BH@0U`nj11a($ETQ6rp3A3R(6}6@feJXN-w5$&jggOhTR_VD
zO+^id522I~qmF*t-elg&YQ>Z_040f%N4{JC8zb=%wL5xFln08<m0%E0Fn+5`UKNtZ
zfaC?D@&M2ti@}3KAT&PGSNq0RAfJdSxBM`|AHoQ4zU(-m5T}#;zkw`Vd`d__R5H^v
z{gs2FJN}lc`#Z|>Kd7;<O%~epl!E9h7ex>MJ@wMpCNpFlCWveleTn{C>NQgIwZlrA
jwke28KFZUYceTD}|9h(Une8W5x+&jy;42Cf1d0C#2Im2k

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_scheme.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_scheme.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ae6949237fc54814405bc16f9d4b0aa04d1265d
GIT binary patch
literal 2420
zcmb7FJ!~9B6rTO{`RubXNeDjyO{^r+A$$iyQH({15`&@?SO|iMPLWo7vvYSF?;kU>
zw(qJ4+)+hBG9{w3Qb4MRiWZ3`bkSBwsnT8SAS5c@%<k<u{*zd(=I_0E^WOKqH}glW
zRz>gy=6C)}HbPJ2Wb|3ZV0RG)TgXG67NAgTX`$ZIH96M<qh)wTS8JI%x{f?^6L|*J
z?i=~emetqm)>ApD>zQ%&+HyAIwz*&~5g`@5*jvd?FUMiRDCg9>Nh2OJ{srmLkdoX)
z-d2jq?hXvL5JfG`LoMCYS_U<#<>}P!=$^4@-Y*nKeQN@w;8i)Vz}%vfcTN_Hd%8QX
z?3olp&j#IB4_Ti$V!bk$K&WGTlVe|6wf}b}L{i<ed!}EhPcfN`!S_`R-_-&^Oahm4
zoC0!K#Mq;pFuzT)=ux~*{ccZS!l*0!IKpn^;ZDrfUFP8gb}2(~2YY^}Lm7<({yKFd
z;SX|ku2R4;Pm?5O0uE^R@qt7&l$Fe8RHQ5-+8&tXSdw6O2AVA-O3^o3T^qcsHp*D8
zQ-MQ2^20QQ0M>j$F>w>O?FYW-=k}%Aww9e(iN%dD34j_AIP?i)F{^8tK?2U@Y53o7
zn<7k_iJvS8mvyOF*hnvZu(*1OHUq!iO!~mLsJRvdVKa<98aQ-=l2pX38MuAQcyliT
zO;WPb5jicJ1t^DzoLtmM`q|5Humce}<1hwqA3!drc;le%oWx94<X!Z98qLl>s+`@G
z*c||ORw^C}?w2LFU+p6S5I~V5ahdQ*8n_G>j^i6qk_s+qBziu_oirknH`US>n}h@F
zMrLvvbTShF=9#?;eCl#86AejX)6i!#igVP-8OR40jtc%oz1LtblkqSaS!Su6WZFh%
zwtbhc5EE8M-?8L!yC5#z{ydFT$a}dj3*jgnZp!H4U++OxlvZ+-7I;F5-|-1BRdFR}
z4CaC+ytztQL<1<9UYrI{FBH2;68O|>j6qxi<lPXf*p>inMtY4XYJ3`dX#h3ri=Og}
z(XJ0h8I)atqO9N28(9!B6gh)R26GfNIc7AVYf!;?3aJ$B%W=8C@M2>L`!egJ9m=cy
zN)r4fEZgy6<9KpXm`t*kosx~bLfL6(xJ;PzG-pLkg3&KYasDV$yr6bg+9`_ROkNC%
z9YhDg=sT7SgH9RHvKs^dsM`U!M%QByyPh9)Wx{2>2LPoaha2_ba;0vRCXf(Ultv;-
zJyj(!At@W*PdO0!7zi$190mVo!eRn1+$elUIpGwi4=x@B#<APpg9F9|Q=iQ$juQbJ
z94D(f4%~1+DHu;X4sbOnBomI~#RQh8)Z3B2!AzzqGyF)fnlvh(#>`Ue%=9SA?3|yO
zoxjgamFgRyw4E2L%CLH%R5Jw<{u4Bt=$UR<m0=axbC0bPL*2CIe|&!jLAPrl`=o5<
zh9*ph(=dIeTZLdKN5dId8|pP{{_&~Tw{G3LwdLG%hK8Ki8$X}fK9i3xU;FL$ueX2y
z_|MCq?MR`rthNo`QU<`(FBcy!K3IHs<-wI5G&)0_rr1=sGsA5YCT}qX1)GOa22cTG
z948O#f)vV|DW`Mg!yMp`SRK|R1-T^a(9ksPp9<2>JweldO`UsGJ%4xNx&4kd{{#6O
IL8nao2R7k=g#Z8m

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_24.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_24.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f8198602a70cf817c05d49a753939c174e5380a7
GIT binary patch
literal 6711
zcmb7JU2Gf2wVqw>lFR=e{aU1CI+iRkj-^;}94D23BgIYZ$g-rQDR0rmio232@h`JW
z+agHBEnI*?@4dcyl8xlT4p5*n93T#Gf#g12-?sqwg^UG=Sg3%2ra*O{=*mHXzO-j%
zxum4faXO%8&YU@OX6DS!Ip2)_&+T>~ND1z@@&9i_=#QjgCcZ{&uK}@wWF#{Qlw_g|
zLufX^Mp-B=2}_cTa+Jp<_@p&zqcooolJ=;b($<6{>5Mv)uBeOFZ3%bM6ZIs$QE$>0
z^(FmLKjjOFK(Zy;0<?XOiMGlPrDgs_b2^PO&P3Z;q;x3l^G6$8lX_4i9xw(G-N&Ny
zNOs-?t&07DrN-@AWFxLEQi(9S@TQbVNHYm#94ht+2}?;uQ!rGVVl1m_>7<y>s8H>A
zGo8#}MO77fT1lyCtWL$QC`l#4>cR69)0f3}&rV)^dt4ko2Gj@Q#M#NS7cY)o{C*?I
zO#gIp?ChvG9^rKVIZ0KnUcC5jeQ3Sw%_~wWr6ewArIa=mlM+g!t@AuiXEV)OS|+5}
zf+Fuy1=Dt^pg_W+wwO^=z2|$2_}Q_uM~_csB&;gK$F?{yO3W~mk-KV@?I_rE1t}=X
z$Ov}7MP?O?Y*9FwgFhx`Lul42^Ede@uUKWP!p*X>?IvgLNYo|^iZCD8soJ3DTffhf
ztuiyq$@ZIE)cH^KbHH4jic8`4fl?Vt*$tz1H5tL9cxGL)7e?^@QzQ65U$}`r|1<d1
zGGLFUy=DbD05k9}GLcs70j=Y@plVpsl(|J+NM)1aOk7iS#~j&nQH|%67}+2*S%Dzm
z^!7K9t)M)UN21w=@)oGo&H>nhw6SJmp4CWSnyxaqO|zRdna#5w!^zgDZy?-{(SLI0
zdHOZe=$B`SjX`T&Qy$HmYIc+|w=jSZ?u6F*_>JZp&K+a(jd2#yB8phYw|pR)>v%7v
zW;2;I))YBxS|xlkoa-12Pc>`Md1|rTaKmunB%I~&j1r!UUsY1!YgZu4s`1oZ*fe;U
z3P)_%4`bpM$aK3FPbk#x`T^sdz^R@ZgA+dW-o(VE$?36Car);IV^eVACv?aAQX;F2
zVVuT#=vm_D-kzS)9UqdDO^+ma08UjBv&N|8e9)m)vd>{ifBVglmdp%g;+Z3wgy$6P
z$o1@Nub)_WO&LnWXNEG1+Ld%_=xQR797?8TB_S%;l~`6w<DrDKs9<%74i(QyS{&qJ
zbr&XTh7TK3sS{J1G>O-aNk@-^KO4-z*C>kdR9q9qT>lTdkU>-M0IWbQKz0LFI>SZo
zU)`0iUMRekeL*NZo6eTC;7HjyvJnVX0+H2$)vhXHjty)KjF$Sxsusq7p4qloT0B)`
zaeJORP;lg{pO(AEh>A_8_twd!lef=*<2<;^eeS*QEe)IoJ*Do;j{}n>*JRa#B4?PA
z^WZj20O?k&Xjz<!)z1UrLZYXKn0f`l8Dz(|CV;+A!h$81P*oxx#@&$X0WiIojHkqy
zl#yoQiMY0yJNg_;e7_5cSt__nuu0X5d;z?l=;rBG#daPKGABB@KLfFXwED#JOtWJ&
zPvrL`nfZ);P}7-b8m?fMuKM9^bp8>#$joTkrAsimjq*q6s?Qt_yk-2Y`;6|!%7@uF
zL|SnUOLBzAL_~LAQ{r=1G%-V?oX*LTCK<s^sq-LmOA!`_Kpr20OeM<?*LJWwgVQkx
z-=d*N6{T5-^I{?`$>0WZBhT5)AMAac40Z{!8|d4f{#AZ`;3wsQpR5m@DG!_}O}w|(
z^L~+E6M`Gvhwf$9`(H2jzrNmos@#9-Yh|r_nlyE7wDsK1-p$>~-Tmm!M_(yxZKFm0
z-yFvG;fSX)S<Uc6?dhyWDiE->I62dlt?Hc(88HLPs<-PdAf==#$^-$_%}AE5;28N9
z%|wEL6aKbYFgS!0UNc*ox^CjuRogodTFfB-YX-sxYPRR|O}?`nY)(OFxc|JxbpHjr
zM&?0N;|rTNp@`W8WuAlaNZ{O)h;G?J^1S^S5&&`Y0+HCUN)m1Mq|Z1LHp)D}5^G*)
zt}k!>%=VyW&4L4Dnn0Z!tZYqr=$xChQhPX`vtB2xhi}X&Z<U2l*n+G1c)#*$0PKw<
z2VnNRZ2yGKyMD*~J5z9{+*-$uR)=hjGiIAcVmnPgJRblGrXXqtvtXuRVUoZ;f=L%V
zKYo8@XJaqT9fcBhZ^y{w!0$;78yWistGDdhBQJPT;(hld*_C&g^JD;0HI;GaJ<pZ#
z<lWDe@#eidWb9hloDBUgU#Qn$wFRHnXV!P@3Gs4!Qr@@2GH^!srpBJgzR&#T_yvF7
z4^g82y?{4v8P8pq1wWx3Jsys$;hI;L!?S4|PD(ftPYoXn$Lfe8O!0>bkWA6S)Y+T_
z7!tcOSkti;hM8=U&jG?KPX#ckZIRdpu<I}sy4`SNay+R!YMzeLhSwJf?XJ<YQVjI#
zK4U6k9jf71h(4C;GwC;gg<mHbp|(h*!sK?TyJ}HIy&{3ve2MUnK=u|UhQkLTi?r)J
zU59R~Ed&RFt=kD4H}JVd%_cGNPCBn7Guk31=St_}DeaYEismqJXP7{0Oq?ujI)026
zM~~|Ptjxt#5{sy(Cbv&aXGq+M5&Za^g43#Q0hPM_S{g5?U<4%+XoNaEM1)@^837r1
zm}JBfx^>|i07q4K61#~ttL>{9mo8#=ys&*}*hF_3dqH8bs{2h#k^87fHCoBlQc>|~
zG8QqL9!N^p#rphcXu=nuK_&i<z}el&fL5LuR^ZBG#^v0R=S1S&;v+=89X=$0RISJt
z`Xqa|aHsH%_oXUg?T(7;=i3%2OHdb3$G+R6cQ4(!v>tl348QhQi_VSS{?fpy$GxXZ
z!hvrCeH;GvmEdx);u}~U{e1lXc-i;HS5nz`y5fs87z<_J+Z*k{m4)Snr#3F&sX9<c
zXT|t+^;NnL-2LU9Usk&MpLV!f97S6-jC`%PK3e*y<URDng4~`>e`Iy~bMd}d_K#F;
z$lmtUgW9@QE-YWD_(CvJrTqoa+eY;E9Dd@qbvsJJzG?uue78<7oh~^KZL}SM)wO#n
z!O$x6#6qYer)atK)>8qszg%vc{OV|_ZL)OcGLXf$zU>&Ot?c&Y-zmRe_;g{-Km6#(
zQw!VaD7v7F@8FJ=pDp{2JoJ}+!w+HUuaTt_&NEjWtaSGntMxgGTs4I3o^>Hy7Q*-T
zKkQ!<-lz!fTD|9CXiYe^v);ZYoM_bBS6kPFK|sdtLu--IvTJn1)&GQNdj?8E7fiCP
zXT#;cbz$j3sq@AE>iaVCMP$u2^7R<3qRmmXL$_crfF`d2nwaZ4HxrlCT{mWO4k@fI
zfzu&3=4Ln60@oa57kJ<kEV?HZtiW#qa0<3OJ72$9H#)&xoSi4mU{8`65_RhiS;z}b
zrRcr8V1Gudh3EhPVr|;jXmx6CbLeK^2_O!a=kwOQ4PZqRNCXhX2|=>9G5{a0W~+S0
z8UZeLA?VR;{d9J-OpaKgcHt?w^Oj%v^X_?aAK#N2fDr<<dkRIk@vXl@qEQ8(0O^Q>
zdU@)b4ChXqk<ML>E7x?M`h492uX}pSTt@p)tVI&I-p?t?q~Yc{NtVTkXNRMG4^-gy
zNk#y_p?i{0hVJX)u&i6DUrpA^g<6@??KQVcL<~|T=(U+wbW52`VzKTNUwV#H+$FsX
zI@Jxx=ryyYb3M>k4)hgm6>saU+)}Q{Rs8Mi{)1)z!J@U&x^Lyu@};7E)9br+b?NGV
z%-lY3xBpK6y%+8re(XI|<Tm|nD_zT7x6dwjgY@o7$4Y29bX!{9U$lPP+OghxxZHZU
z;__8oEi?~QTx~$yy0mnu;(`kKZMQh+Y3)RT;7ZSO&pqb%woh%Vmes&L*F*c4-Y>k5
znDWc#N<*XN@aSXzSkVfX{gN{XUCGhE&8@k*H@$5|H$CPNW;_xgj}s|)wiQL)A&LM)
zvJjy}-6e|f_>ri!Sm2!pzeDz^2Qu9mOGv5;7se}T853lM&k#17O6k^jsRleq7+eBE
zGk%Q-5XXV13Dask0ArbO2uPrFq0x*!<IyY(eDyDo-9%4V4?o4+YpEhqKC~F+qn1b7
z|8{Lt9>fT%zsj<F;NB~LK~QX4Oh#4U_%Y_;t6!e@;>4Gyzc^h*r2a_Tre)PN#qhnG
zu(8*du9F~Bg%S8(aE5K2RU0J*bfE9v)Tj2UomL&_;GwFMk}lK{B2ldBrd1E>3~zfW
zInVCr+ba;1K3M)>MO+rE7E+H4ejd6XGU$`%{^u9}{fn<h%O@u&W7F=r6<P{C<w4Nc
znxO8Dr4tDyMy{#qpfnRROn3%tq6-E#Or;Ef!;u#(3^*6ze<981NPTeki`Jm=qBXel
zMQgBuKg}1d!P<)!CN5b&{$myG_5he-FM`7K?q(VqNR7Bb1KN?`V!%Kj?Xu(H9TSJE
z+e8um*8pFpEek;I*vtvsNxCFR8@He=s+hb~8(+}wuSyq2jL-TMz78V9IjTv>;FXMF
zz7r7B_ebRV1M2w`I`|#SGVEWi7RUsiVYd-v-?<R;;->R($??(++a|}~$gkUiWm~Xn
vVf)w;I`G7b!o8*5vGv|}%DwMA?!EYU|GOm=dTO0unf6lO$ajbkbXWfY0FVr^

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_nvfp4.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a16_nvfp4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5c2c5ed9c9658920f304ff6ef7e069bf8f3da2de
GIT binary patch
literal 4861
zcmcf_OKcm*b(h>Fm*kS7C`*<s$s%p*Lx0FvmMtlkow#ls6t!ii&Ie@<+ZA^uky?H-
zyNpGFMttx=M%%bLsfQjEAZQcFKvSSVdkq>O1$rSX1tbP85Hu&>=t@R`p8DP{f0C#q
zy>uYWym|BH&D%HcH~gE|>t>*7+|Lug^)t*jIH@<j2JB=3SZ5SQVKpYj##k0%n`VpI
zV6<!Y6c^)69H;RqN6cZuyyi>^F(KuOxy-pkbEiBpPfCo5DR0aRIOhTz^Vyi!8AW&q
zGu5$aw@!?8<ZWTsGn|B3DqNQ}O`g-#S(v!)$V5)5hDu;^^m-<hC91Bg%A0Ch&k+4?
zd{IrQVH-UvXR}&fn$J#1DVb=Av;_aEOy~e?$jU@Dmoz!A5@|j|YD8f>?R}kOa@jX>
za@x2Xmo>F<9zAj^qo~?DYGPs0Xkw4vQHgc<KJvZ;!o4$b?fj)1*@?LIl~!-6AHbaf
z7L}|rF;-zfv3`YB?ejLp_K=TpDzDg82h6yK+-7Ze%&G9IkPNgkv*6^BgE+;ZdQ?Xr
zETEzl0e1Gbp>nC-dAH(z$i;k0ry|1G;bN4)|8$ZUcn90?_8o%vtT;g`d;8USLFoVu
zbml$bF5&^Mv}aM)r9?WLGo%GAGbd}3j`tL|wH%2s+R{!Cx^<?&78nU2t0_1GWm_%J
zgl)6W!1Q4xUKpr*0WCn%6Dw#)oUUr~=7Nq~gTeo-MvYW9noVTS88TT=jdRPn$?2)3
zNj0h^=AzlWv6x9m-`BKMG=&Busmp3SXJkm!v^G8Z9@<u7MK%&Z7jIawWLPE~)lD1L
z+bl`<Cgk&%r1bk>){$(U3KA$HVMx--i9?MoQm4VY*E^wmz*I(NR=I8AWaZevD)-Bd
z9Y8YFK~y70((#675DU%JBL~1blV?#^cL4qr9n&7ybREfq1g($;Kp9dBTrDnV<++5G
zF!C#B4;Snp^&oK3!5Bcqs)O+d2pTfwO}){cOwPbd2j?{ss5|q9blPj#0$!Jt1#fPw
zQxQNprAvyD&#KgW&-7eL%gBmK;tpV4Z+Ily*3LiSiq{#Vp@M>Kvj*RH7HkE!X*LBr
z%o-+FaKfw>ycouC)fpSe)oe+z4mHPi=M?M;y8?WTdR$<VzUGcP^u$&Vm5N>A3j7m(
z6K@FGeWAc6@s{^B#ZeG8Yx1&;(N$mm4hg&KbWKgPNY+zdZH^#W?G%v8S%>et4v|VI
zxau?@6`H8ozC)@u_XGFAB#+hiH^+Ut9B8i8p>NTp`w*#J1$R?wIQMv+S92sc|L;2X
z93ri|;Au*mXCUBtW}o3DfeZ7dZ#+YV5);KyPLU0nx-73!5-IAgIUc}d2nZXVl$GO4
zssds26mB<{x@u0=8kwnBLz;1#1`fvVu%FuXT#EX%%t8W!xpXg~7>hc=ctHDV#~*ZX
zf__GM2(9r&%B!iYk*9nvkv67ifT#-z9jXKj2Ufj6(4(kbQ`6Kr4?)1VFir#%9AiKA
zny4vBok(4nPn+>REE04i(vKY)jwuhp%eFq&v2+g-fKJW<hB~Z|BxAT7#_lw9I=X$Z
zrCE{E7bmK0sFJluUl}_*O75jRfjn=*bv<Bq1I+MPaqQ~WsaJ|Zs4{eMmERTyD&cE5
zj#N%x$8mJm!30L0cJ{3Iuk}CmcNLGE-twQR_{ToER`Q>F+S9+jw6?VC<O05`n>pHB
zfxly;yPd9pd(}}r!nk~8Ay^WE8$+LsYzx!CZ0J&r*>CO^Lz7#BQ(y33dO!DWch2HQ
z-ah0m3jI}~v9lPuRGj+pwr~^n_P*3kkRSg3_NTW?{>vatxhGue3AYia*S#uMdm2nP
zj(;|=EnNND(^2+}{M|G1G&J?J``G%sYwv#CRUE#&6`J|twJ&ddervn?Cza!8K&lhI
zqIevn@&?M{sgiiAI6PgveCsQ5w(4QTQ8UfV?kONJJD7>@L(uh}jKC&q@eL>%Em@1c
z4FmuR+Y$>~vO|IW8QYBf3gnR_n&G~dY-En+!e$LjVwtk98I3HFM0?)X>RD_BxbBmy
zk*h#14q{oG+L656!o5w*Pd4Il^H}(*HudHA&{HE%8t8XsE3kF>S&UxX><x%qUZTF2
zOF;22Ef85DCxJ5TBX|#F6gx8}T|x*wlG;=9GPOadh#=|$qI|7kNgB6`KU+F&IxfMQ
z076?M0@SKM%YO&6Bol{sN8N!Xc^+d8mKKTh!ph{~?)<GAe+p;nA43P;Eik>IjqY-2
zq7<4aho(!R>A!YwAHBWG|3a*Yokej794Z*Dh~8iEWq-Kj510Mtz@@kR(XxNM<RAaz
z#Xnv7!<8-nwUT(P_{Q72c3aSGMhK{^yn&)P-1MH&v%g#ZXt_K(T^gOP_`A#gv66qx
zV)y5_s&;1V<sHU0=39MjTRa7FxrR61`bs!s6=&=+<>nHy9!JgB8%A2wdo}>r<2_JA
zweugqw(hU-0c>lP*2K2)7ocraOf^Cn0Nb#q7OedVyIJFL7t8;!KzTDO5z}DI=sg4U
z)O9aImUPH-Ds`CoCtVwt$g8j(b`lhD-!5_;ahMd$gc0VNMnqmg?5oh}_`R4HEQ9h|
z&((T97(Lv8_7J9!(~qD7gAp13XeH29>FQmdS(~Z!9WVEtDfOMH^asoR(Ncf30>M7B
zmVxzh*LbOG+yu^-y3SWRyCLHH-Brfra+|jrW^aJ$W9<h|?%8kv9~x=MqLM`2k_4}s
zoQAL{N${4@YAf7aCZiE7EU721$+`}&^u>%q?U0ZOR%Vv#T|oi|Jf(pL<upjr1d|#;
zdm)q9T{S7JH#NC|7>p#QV5YLnXQ0_3UjGYp51HpS8$bAo0fx#CLZEkaRsj*%xbQDP
z1a|CoL{+%R-)6t=IP!S;(emRD9(_>d5dl6C8s513k*n%7rvh_wr0Oz3NQ(oQB&!~C
zDl)yn9WR1AX*R&0t-izzho8GTc=sNrFbAGu=i`}2GgT+f1O^V(9%;XRv*Zg^aRX#r
zcgN#_M+3Vam|2SV(~fvXgV!uRaP){g7q=9HQHuu5N+*&|N18<qni2g0zBVI!Uz-u@
zwHaxBZARh;UYn8HYm?xQJ@o4LWt1}#njWeBvSLo~_Y}(;FmlqtcAT1GqxYHRn^l!L
zB?*4xktFMC_g*&@W-N=lO5TQDm}_)2qN<%`*%uCm9sY(9|G|vC;B2hz-wr!;0>|2(
dGtgB<Nbg1W=mY1jLt$BWF*x}G5+G}7`@b8;JIMe5

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a4_nvfp4.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a4_nvfp4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..faec8ae36c6110469972276d090f958374edd224
GIT binary patch
literal 9136
zcmcIqdu$s=df(;yu@qmTM45V!dXjoj7hAUMv+Tr{rNovkJGGrlh+G#GcO{WpKC-*C
zB!arQfq|p0cX14~wS(*7l)vJ@29f{=Tn;E&2MCZ9El{qh1KEXw_;BeT{*Q?iq)7j0
zzuD!IluYFTTnF;(%r`UNeDiVU`_1=_|IK1CVUQTj-$tWd81`pWQIfV&*!~C#w=oK%
za0ZLxAsk0#6{8BN;HzfTaZN~5p=sl~kWMOV7=7FjGQ^D`qg2;2rnos|mdZMYh+9Gy
zsjO$3;?|H=DjOJE+#a&W9U+HQH!{w6bErA)3c2Dfp%#f|Vp`+wkUQQMYQr%VMw{sa
z_i$O#kcToa;GuRE_AEvbH!#XfTkfeVZ5^wsfaNi&1aQ$X8D^O997E4S#ds;qhT}9(
zvjLUpillia%yA?a2{SZB&Zox6cwDsARbNSm6FiJFM-x$=WReRDFcKGACzJ6MOLH7e
zU7-_PlI1Q(7U?(*P0egNK_;#tUUWRog!yPP!PQTOTDWv7m1KFE5*^%fG?QUya*jzx
zmZX^jYSH~Hn@p#kN0VPhvQ?!Pn=d3On)wMGU0CF6)YeNhD+{u_JIw2zhb1mX6Z15?
zXPr%pVUDb|itZ;C^^>tvW7Dazh^$sQm-Y}8x0~UYxQ)?R2&XXE9rz6_q^32Liq_7n
zDD@4^y~?PNj?&Qjn5~|PT#h-Oq)}ShL~Glifzr`hN)IDj8uT*I#Jq_z-q3_Bl$A2W
zx5<c6wjVST0lYgK@V4wjH)Zr7m8x;;yn$-Ep$*wqO#wS=2d<IIMwKQ&#|v%F?O&**
z<ArB2QffdM4>UQ&G)k%Vz23{iv~p5Z${HwDJ%_{}c;gd&-lf#L`n+8?kMbibgW$_r
zC{2BTP^Xr{7~LA4_(k2w1`@{5a`z-kuN+kN(6^7SpYzF;a_7%slp%}7_V7p5Ut_;f
zDH?eV|MpoZ^^zaf*tc6JPil>8hWU)&XTHXLC|sJy%sUl<DU+fJkg-{z##)t9?Ms;(
z^ZYd!xZkK1E?^ifpff@lw~F;(e3Me^#aR2Ainl6tN~es=s$K&VzNY$_Y8hX~R@5(H
z%Xpw^R@5Yt2|DAb*@2OYRTT9~K{r3QK*!@O+NYVw>2PF;PEcN%=w<0w(orylm3nY~
zY<_HR{;4D0WQu0Pe3BjZUSjAlM|-0Qjt5ihU5@gLKlY}gsVYTgHL{ROk1WuMaP%8<
zoj4iKG_qi4kp=TcIb}i+Ajx_&?n&8(KiP72HtD?<W}=jL_J!$7W8P<{E?n@=DZ(ey
z2`Z>a2DUr0<XugsS#Js~HZYERBjHqdF3Lpt)nG<<m5U}8ycw%BXN}!sWYhu{QD0#z
zYUso@PHcVQ{P_!{)Qv>5lBZ8i&P>goVNrJ$ojuVib-8+Zikv=;x`-xO2PEh~G@p$l
zbeLk<BrBRgX)F&Y!7qxY7s5=Mmgzbfj6@@t_9U51L}<~pfKY?vq8S=6M8na{Jllb0
zQ`0LE4%r{C*Za-SNBMYa6x2Tgj2CErWF<X*?C8=sJ<3GqMpLW&Vlpv$jbY-WaRfCa
zy+XrANV20$c$H?kQ3(>G841`%BUKzEc^L>tISC2522JGhSa?jv#$akyG?1i(s$|Bu
zAMym1F5MtJ*9Ru`I#z1!$Z38_Y?-Y^^MGI;$eTyEtR0)yu2R>bH#C1wY}xxa?fz1i
zU#eK_MT_sD#aHt5<j(x^d|9Qlc(!c59Rh1|6fFV45-3{61k2caKi#xUZh5+jo^io5
zj=F9+eVfjnJn?*f;PivBk0(Byco59@JzoHVvu6wOMWgS&^w4so<mr`1_&1${dE#n5
zIQ@YCIQwDtK_WkVwEzU?;3Kp3=EVBMog)v;zAZ<4S%uq=ZL8JJrZT3sH0_u$qqS&o
z3kLU{BOASM55G0M(RugPeB0BThG$9#+H;y;S^s-y0Bi3064Ss6T71C3^&AcyS{-E_
z=Ju5JYP;uu%4%r+hI50uK5W*U@nawPjZ-T1M^6!FPN+XRp@p)jV`)CkCUyZ70xJoi
z`k`<e;~|$*tO`yF1-3B0io*>{J^T0)5Fb;J1yt+-_=xS*eJyYQ$t&d4g{$XJT{(Mk
z_A=a#)Dec`&}3c~%_KTt1CsG*f~+04%+S8O;mOXYfeDB3=Q{Q|+7QDJ&BG<9t7LU-
z0}&Io(xw$#l4(Ab=E)Qsr6{_QNr!|J-O&UhqZ31dxvI5`1au9@Ig;X6Q?zJVmM&ay
z0Sr?#8_^-&m4v|A4F9%20ZoDCs<59`DW-Q#pH*dXveu%8T2-%EJ=BoyrBs6?9&wdY
ztZM8P3S1g$+^X|r)fAoqzI+wlV^v_Njl8c??#YxIAYXf5d#?iOYlbY|5X^O1!@Y{U
zI97wU?~u@?%vsY!on#Gebs$+~7LZD>l-G>=NM*<xl|CR9x-v@XJEUr;HvnF=efOk2
zx@_Om4ApPZrD-3jjagHj)YWUkcS!x0(xrJHsZ3dOO{!HaV4i)9ehN6TTImElMrxBT
z00E7tp~8F^0S`JmR5UJ{D#r`T>=<;co|hDYTMCTBF*ICia#oJg0+XBzGqOt}5*4E4
z|A-EmbA6A1RaA57xYz`!7X^=qT#i!wBF7#?v$a*GfASc!7Syf<^olHsS~{NMS4C|)
zn&6L$4whbsa^MJ}Lod68EIKWsnxPY-ejbiGf9N2Kjvm{C=oX1|l%&VvhvpLjg6&03
zKSJ44C_|#KhfpT1Q@6AX@XE2Lfg<YU^|2>V^GTFF4H<`+10+|IY!jOzEFI=)QXa!)
z2KKdwyE{IISe}F*>N>XL!20}o|H(q{(|Loh)O9$g-88h90;kZozce_Bz5_ct%+bGP
zZ@KNc1(@i}HxCwULnWL4?kT}Gven|by>x47N3U@-l}%Wyy99p+26pU5hbgBkH)F=8
zqQNT|yc=Eb^=}%E0kf_n6=wf<Iqw@UbR7Li`?2Li%cgx64b-Z;OnHN+Y^aXR`;O#~
z&TJaa!&vu^8VPdd-HY#B6l}*qm|{ynXbChB$8E|H<(4Ybjn4PlHw`C0?-=`bVLCyW
z1G|JdoF6~?N5eUG6!bV7saPT?V_4OFTLepa8-p_>k#}dYstvEv755~j#8+xf7+*z^
zn4ykbDORyVRkI9P@UrV{Bwpu2R<QzPYk(I2KeFwSrn(-mrVVhX;(~ojX(%lNv7$9~
z+_VO<B#^iP7R1mMW=~qvLf-~<x?x`(rCZahu&g?(jiF2Mo>Zs(1~C9d``H=_X@Qp}
ztNTmviuv{k16APM{UlY9<2z<WmS|5>My~1V_K$AQFNUn6l<N9u_w=dmEC>S(DE%A%
z4%Io4!`^5I=q2Ykm^Cz74`oosH){QUzt@_fZY732D`~Xa@4ff-@TzL1HXnoy8rlV*
zHaL+Pum~C8vWIW8qG7;b)9f_huSIdN$ptn{W$bmHG0*bgrpc(Rg0SUcdVU@viSaPc
zMpwwN=-fl$=E?Bm>o5b04&3Aag~T3(Qotp_k*JP`S40(n<s|BZ;DiNxhsmgg?pNTY
zR)dM`Mbv~G0Coap62c>B6E)YO^fEhzih2kPEQa9%t(89PS=1BhPSl2()M7Ybtf46Q
z0`irhawkV|&$>xw&`^oLl}<(B8jz+*K8ltrx+*bLssfqvrGi5tu|3e*kz$h(2-_;y
zN`~jr4FFy1!NJcQ*%xWQb==QjBJN!YcuO7K#g4;5$KhhfF`?sFq2qY5<D}4W@}JWG
zvi66yLdOLFovohX{K(Uvq&Iu6A{h35-aAqv>_wtaAo_|#Kp+AIVyH+21tNGq{qEX3
zYX#!OCs%jWsy-9y?*q^xY{-|)dx8(m!LLo2<t+Zlb)e|-3od`rH6pl1a?>S`x9AxW
zJR?QVLBVq{cm7eQFL&`jU40w#Z!f*I^t-;_54}HB=s)?uT5w&;P5;T(vvI!Idsyf_
z{5$&hOYbigdQU&NSg>9B%<jI`dZ)eEHYBtS73{;G*<H7q|Bja7xL_YF>oH3kxYON3
zcPAdCH+>g!Q=3HR7F4Gn^lf%Omz(+{(e-)nk@wQY@w3AC*+TERJmD)@oj0@V**hx_
ztpg?hiK73s;6MG~V8K6K^v?+XnSY=9kC}g+DfnN^+xoVAgZZIn@|Uh|`d(0&mu#-0
ztw*r+6m5RN=Knwo>gj1htzA0?tkqj0EN{4q_JCjy+?^^8PYLj6pAv}a(t$3xiL`<y
ze`S`CUc^^K&0I9hMbKVX5<+Bz=iC1P`FHxmr}!$qBTp|@MM8xg*mt}U$^*6PtL^IB
zz+&9T?^R}5(`40uqXjflXJ8Q2G?%fgs*%M7#8fqkyi+Q4oEyuufByv)ph?wZ*>9za
zAMrBWpw{%@Q-XinaP7$3Y`pra6|B>Vc3uabAlC4%fEKeSQPqGc+uL{)?@@--`cl{d
zY|X@1?+aNYc*v$G{yM&<Nxa{f52ck*ZJn>)BVt~KbM4y*-D7>VcBQnxwqjNERr;bg
zk}764XswgTUmK&8l#xH=SD^Iw4fiU$J2s?ns(rIsg)8W*Z6AFZk-j+9ISc~gBg)vU
z@pZJ5ckOF*<BIhwJ!;>q?se=k!pDG?{c9jg=*1#{5MA|-B&pznj9}<S&!V_Hi}s6z
zf$U#F38Abm%>k0Eu*lC2v`Voob{O?SAR_aZP!0i*%xxT%UPKwv2m2DrB);&pim}h4
z3`OB3EEUzs6emq68kG1r`vPi3D9K(y89Lhma}5sVm7yy>j85|+q4?NRKuW1q&~*j9
zU5dm?-7BJ~kH<;mfr>;WI!z|P&E?F%v5Jb`N*K-(PNkSt1r;;>`{LlPes_Tt_rC0K
z5`al^_-)J4UvfB0J^o_PaiQmUskOb>Iw-UbmimW^{YQoVqov+JvG;_~dt%3|b2jBB
z%T1WAIS=vMmbN=*ZpGeEmz*uRbB|ixx0i1%=ZKQK?YH_j^&9w`rj4m$@3_!AE)V}8
zEc8B;Z#|VGz<=x-z5B|0eZ_<4goEb_oil>Llhfw15E->NByjB#h^`Xhmdc$1(Fui{
zGwU-zDqHkUQ%+yDRZz8P?iS458z(l+PnA4fznyq<;=cOsg@XUbc|RcTiQM@u$Kc&(
z^Nw>Lyev4*txuLL_M0!SzkKJ#hnBuAN9*mttw7PyEjYT1jv>JT{<NzKRwY||(dH9u
zzK!mJt*>Ys6l{a{55If-o#O@DxYVm#uysS>w)vJB6j!!j&f#rL?`-<I3A5VQ=iX>9
zG<AMq#Voe618a8Qp13u!aqOXUI8O}cox@v>fxE4F$5XjU2sY=<o|40LM{{d1H(9c_
z=D3?H>nnHK^Va^np<hBi2+JU|0MFvH0XvGuqy0gWqKPCS@}GvQ6)6%V3GseLZefv)
z5zP_wW)5%Yi%CjULo9_20$JYYszgH6!3#AE7BvinS6JzoAS7kaqwJ@MgHC>`W*Mlw
zgGsVTkq_zJRLYQp#Qig5H?S{No!XA_GdQNRmsM)5bK}sL7<{(X3ZZNo)6U?Jtj%bF
zH(y<UwX8)1`00Ip8<*cQmi1EAfc5m3jZzV!8SN;xQ8r6e0&{z}EvUH7;C`*C{4$R9
z1->vI)DG<83Uy!#`v$IFWj(4HFqoBDXYO1PntWw603szO>&^D{_8l|SWHon+)<}|J
z=!o=R0fOPV2rDUM64oa=q}Wt2kqFkpQ0O8e8qpI>5WOeKk#(C?CnIT&PsT}PPmsls
zjE`uR+T;fzR*y!XmMFU)aDws!PO$y~Cm4C+0Vh~_z+nxD(d74Kl!nVV7u@q7A4rKR
z8By`r591_BSs9OR39{SJ(TGV+bLiS6#r)(@o=fU2OIGK(NOoCzi;JWFXtRlWl7zQO
zl9c!0HAF{oAUPsun2-;|N%l3Mfx*K#Wbeyr9LK-XVR+x4G2&Cq|6iE<GwjT#SkG4~
z6|VY92iey;HDm@2uKEIl4DRaq4E`r$^BXS~jGfnYkIa2}Q~!1Sj&4<j59GU!e1)Nc
HH1+=hhKtYq

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_fp8.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e441642f4b69236e4bd6719b3c9081ad3fffa42c
GIT binary patch
literal 6831
zcmb6-TWlLwb~D2_IebebCF()hmM!`r#g=T#57}!wveLws6+d=eB8$P8Gm<Frl{+Kb
z(o%@gW&sK9*6aSr#%>V@SYQ>{#VSC7b-(HY1zMm#WUNB$Km{CZ`r$vil2M>2(4KRL
zL(+<rY)0a}=iGDdx#vF4<KBODyPXVtY4cyC{x`xfe?Y|eELC8m0>Ba@F%p|*GHiln
z5$4idf`i(WHf78SGi@`cEg5UVN?}Xdma!-76t<=v8E3+oaV1<7x25@vJK?6VJ?+VO
z6W)w3;mi0F{!AbdpzV%yFw>N1Vi}H+t#b1dR@WvGlAIH4A}qP&rm1%fRqJ(%O|(Fd
zR=H*Bc)itto>YOFv^I_zVI=-jMsmvbCnlYoXrJZc?pKJ!S<QYyOsB<LX?YZoz`3NF
zx-F`yT=oi)WRl8GK&va2O{qdUH!&d-K*JYunLLpdMV7A1StUo5YspDDBgZ){czNtn
zDl3cRk~k}q3%TrgYC;PqCv!PP7BYDuO^L#^OtNwsM0I6E0&N13^RlQ4N>WVAijd0+
zpp!tv?6eX$YyR`1BHzAr>GGIJ#Eh)UL~Fe;DP}>$hcjYUy@tK&w8#j_&E&VE1joeW
zv@E?P3Y6e+Sdj?oY+hEh$hT(qlYw)C7xRO!%&=fdeF^o_Q$;o&!tO0GGLv8>Cc)jn
zJvAA7kub|9+0p{6vQ=VFL+zk{Qdoj^$t>F>3;eh_8^cIe*<OWgvO|Z)os#`iOTsC;
zB!_Gp=OpK+=9+9C&WU@ft*S>uHPz98R6&V{aoq6p$UfPI8cANjd>~=hHr#$WFz%58
zpPCcFA2bT+J#LnQ(68wS^=kq>_HUy{^A7F$iaEBYj@zXWXb^&v9wA<kszs}(PPm1K
zAS)@tEg6otFayVURI@885mk9&R<mbkGQzEts%Xv$JV=6)nv*q$GMj;;M^Z`6E+*9+
z8b{LFpe^hkgZ8y?hMon9EpT%j!xR{y##CSdtJ*nG%zy!h{uNC3IEl-$1rxMZ?G$({
zs@>q2qMppa^m@97j!@I1z)aQPI;Uis24A6gfm$1{foeu7ajCdU^ph-x|M)YQh3Yff
zZ?j}~1DCbH{fd!nb^27$;H=liN&OY`H|Dz3dY=M^=Md&xo82rEw~xMxLF=pkgYVTn
zfHVu;in&v0iZR`LC@~^`Jd+}FjM8Esqbo?wQQsB2lTs(E?YMoh!$$_^!Z)(YOg^6@
zsw~BfO^yx4=EA+PYugdxF3pvP!y=5+9Va+F62hVx3v>sXW#sCW8)KSdQdEQqAtl|_
zoIe)RGx9JYIif{SU*Xz~v9T*xuMfW~T>sOt;cLR>b7Pu$TAqayMwO<HCvMfuiku$T
zM`@~!LdOdOs^HGX==VQA?^84RzI-ZwNEOM1tRA{MbNs~M^l`Z_ox0VRpH(Mw*}mK9
zbfzzpljO7@-<6XyaA^C|=$4hf#<l88*1Wl(>h8Qxq5fRih9uk>5C?_v{9tb$OhpiA
zWDw@Mc5<4%1`C{2M)_MP?lBb~)7J4g^61QhdDR{%M`8=+zjT*dc0uJS$MzRvM;`5Z
z<^;@JZs}U>KEBpHRD%DOA!K;z^4>qYc=loPD_7U!>%aZ!=RaMU_^NwoJ<wM6UEVNp
zK~II@+@6Y^;hR>Y{UujFk^=GNp5@jG!w&SU_xxzBXSmce{Gw;1xbMA+iS@tFZkSBi
z(d71QI+<wy%3!JW^n&>p-VIQg(X2#PXGk_#vt4Y3kJ>vPgC%B`jdP=~5&(aJLDiH@
zD+;p5NH>&P05(a;K%h&CdGS^%ol<A#4(zyQ-)6o5LKJi{uzFU;7a;pks)cT+=E}{e
z`5B0w=%}2jYz+=o33-vIDU9iq1wve%N65=WsL?eZKry2T62?N!eMe4BOk(60(cRTt
z5sb~l&jr5?4d%bZsI{dj)XaR|q1GLlslbhM1xvvJB{PL<w&hc6j%%uMoGKUesX2&x
zM`%SowtPIelPM!KH_!^!r|gre?0Ki^H%JAi;h5%K1=m!-Xs_2G4-In52kvlKMf0TJ
z6#B6(pTuo1?@84Sv#9AdlBc3u1Od8(r0Tj;N!zTD?)nK2<7`94a5K+C$gyAun0Kq~
z#<)AI;I>i<ZX>benRyRL<1z5fdkY@og&pVTU}q&WhAM@7pMj8qZInapG{%!45h~bV
z)R@syuO*9$C!c=XB`O66NZht3j?!?h_83y?^;4^%`%~MK>It0p6>Q%-qPIcrHs`f2
zSF-<_oA(zyibqA8rJvL+IV5w6E%<-K{uMhP$a>Ux1I-Mp;rumcP}Ktl?Yp&-Tn#!M
zH2TzQ(5ZUv3bv=b0nZ2PdVRP2f<v;5a}8tk)@2(|eGJ^sr?rzY-&A0y4jWwcTJjWp
zh9+=^x99N|0^iHyD+Irn$6siw^Kf8M1*hbZyi!04K5cqZy$(VuQnO@8MM9%-yXGIC
zf$K=s87h+^xW-V;XTII;s&Y~PiJ2k|?lfW0TyrwX3He+qt11MKzGeppO&R98ZzzzA
z#=4c*c#gz&iVUO`dJ){kS7`VUXe`uIL-OFzeY%v&XwItJ2bc`tFmB9ZWT~3RXwE8%
zyk<#M#W+X#$a$2076o&(B4+@8g~LGuC8D^vsm@rHU!AlrSL2P9!h2aAqwD6c(von0
z)31A)(NtfZS|6HG!41%JNB9_{l$a5+a05hKX~eyEgt>fUga3{&0m)cH6G1DAw`wM3
zCPUDlklj#d7RZW{lbU-RVw^fC$OD=F@vNTT(aa0CiJ*aFvV&s_0>KEOS@r9%W=>_t
zbDBw%B;r6`Hx}qeHH)0dtFxK~w!8lb!C*-+S`l=_wDs74W~1ZwAJGCto=7QhwbfOo
zmt1T0n%qp#a}hK*(uW1U3lOv>as-QhEa*mCr|&>MsAw$>8NrqaAKrQk7n1rd-KCG#
za9(+myF=AUr{%QftDkuNnyv-(S`f1mE<a5_tor`eHkGmns1zASH7{Z@0)>J(w4Tmx
zDfNuWlO*sWAXlwRncKIMP4vFa_#VoZ;LP4*HbYEzPqF9Bi#=zH_O5Ss9W8gpmroTt
zj=%Kvlzs7v#k2?W#FqBYypO!=&8=(AJ*DQJayYv5$%9YIZL!ZrAB`3x`^%x$rR;-j
zxw&gI%<py<?VX!#Ot`n$JNzPaal!S{6<Tw3mRy~W)wO*iCHQxZtn-2UA1r=QjGTQQ
zT|0N9bneC~|Kl?6TjLLw_=9WwJ0<>|mFU{x;nLyZRsJHRbn!#K^M2udcI2y`p<iBK
z68>6vesaNC4tEtH@eL0x@avsFg8uhM7e^ny``ML8SC&75TsP)~T(=E0ioi5FdX`U?
z+K(3PtzWyM<=}zksZwz8*}1QRLq&e57#u2hop_cgb&VAHj&J;X%As&M94WW%E4Oy6
zweByq?gw<;A6kk&h{D>GeLc(Xt{psGf`8xX^-y$a`oZ+3%^dJ-x?KV1g0&K3Iu5Ki
zwJd$`-~-CP3z*hI@lq%bY|Wn67F#<g*77>Q_+snPqowH0=l){!X7S=r09?HEO|&0%
z_mrb;%j|0tLWj=Kdg0P0&qU%?T^@e;8~L}>pHHv)k32uLY2qTz1s+oL_TyDL?B+9n
zvHjFP9sTE_e;iu%f2hw2bfCjmc*fybv&TyI*yGNXy{q;UWxKnIcdWFn+RyBW7rO?E
z$3|A|?|mKWD)YO`(f#FUyxi7T?l`#VvWDS)@(UMD!;|PBjSn+k{B4|sVhQs*gVIn>
z)$-zcV}UiYP?nixzF<ee<>GZhYtNHh5+2(OOAy3ybQ749<Lew(cMb|F64P%SWCGy1
zV>=qncMAOy`YM>0-ebyk{=RF`wPrtDvL9aQ{x|!ee)VAQYUW!hQAwJC&G;~c(#hj1
z*AJU~fh(AdRO}i<#zBCw0B$j#PtO|DkDKcgCX>KMQcx(U2Ko`|JjgU)b9;B3{96M5
z4!fhn)~{Ag_kXtdvo&u|$=kEsyuz*wyzmYdtFw-qMz4>?!{kHY)|`R>m+P4{L<Ef&
z1h`VC_4oiG1|EuNkTAiklI9h_LuPX-eVI^z+XN8-Rxg)J(>DaN7sa`fX;D$&iD@z?
zkwefzu3$5l&1%-mbR5l`h6q81kcO*FBrI^BHLLy(OXp1k9o-~-E$~@~zJTFHR5=ED
z!_S$2KiKzVxM=Qt9DIE3^T-SHVX%{3d&^zj<=!K&-7S`(mx1Pr1#0k2!BEA9kez9c
zJlyl({fYxIC)0%3sfr6Ro(Xn8R!e~c8`!yWjIsJF9A^nU?*A_astuFTP_fIb#re|P
zbpP(+-TR*`ep0bu0}K;tsn{rp<5V0JbTVDtprE7TqA1Vo-dk}~(8Gk=&?Qy86!kHY
z*oL2iS52(t#LCg%4}LlL`?Fu3g)6`1#B+56tBTcRIZ<wIUAp<;=92J0sF)Cs_x`T!
zi#8n|I{yzJ{ryM(@@{Epj5fS<c<#3?wryH~kuGVxL-Qtc5D(#*JeO5^#al^zFX(1<
zCcpKR(%bmdqCXkA@L{G`Pag=HjCP*3y!}+ut3TDe)xUQe`PHWyf|nQV>>n$r`h?b-
zN!^9K5FYcBDFr5^Cq^{gIr+zmno(0}rMLQyPZ633Y3<typg9~SH#7@sNQy9R(tNZF
zrVQ2Bc!Jk>YHs8zGT6YBAQKlb>rw|u7gBFyu?wleEw63o|K$2Ldh)lJgl0djTkaY1
z=g<!`X{7)KJO#1r8#}{x|AFEEgE{k`%<eZF$8!H|HL=_qJB2JPx4}U1hG*FQUptz9
zdGm#%<DT`UtGnpjd(ZaLY`Irhvqeg_NCko#S7aiutxPytjP|cZ2TRex7txb1LZ^yM
UaMOB~V^0)2kG)|Kpr`Bq0le9Sq5uE@

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_int.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w4a8_int.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0547a3850d5bd2f1bbda1f1632a9e2eec54d03ab
GIT binary patch
literal 5695
zcmb6dTTC3+_0H^Tc4yzb78cB68`!lm#PJK9*w`l6P5h`^{OT&wXxJHGmf1({3<frX
zVnvArYEsv#R1zgs9H~-?uvGHXq+j)Ct5)i6pkh1n2T{@w|E&vFrTnz#&g?E2L)%=~
zd(XM|+;h*p_q^`>+2e5`D6;jZQd=!T-w>oyY-M151%P=ZAc2xmii%SdfoYkJ)6iOE
zOUfFz8huvTma@m~25gfZDJIUOoN=dt+htdZjk76t+@12oJw~5H_NIJsABAWnT1EdN
zWv&<x2+SxI4+>7vm+YvBv)M{iycTBEiM7c?o4pliu?$qXHPGk+5?t>fff4PC7IQcr
znx<pyV}iseof+U|nID$LD}b<4T2eVVGde0_KpO@!sVo*1MHH@yX(fY|p~RS&5@WPp
zbNT8eDJ}B&5<e~CflPWt8r2&TW0{O1a;YpQ8-v`qh|{7Rv*=9&V|*IGA5HLSbtu8h
z;#D5=DNz-%9=d=t6WN_cYA<I5QNAfkqho579t3kMz=6k{I-M02J@lNIH;<m}eKoB<
zw!$70=B~}!TSnI3g9D#OB8pQ2iqqH0HCQUg7q^NQ(bfp0qFta~hSq8P2@L}D3s%t~
z*x*O!90&<^kr5msGvX4McWiN|=z^<rjL>lC)+#?%U`2Pbsl4`<CfU3NDT9I=czfXI
z6@8+ENFhKg_<=)Y2kL+r81V|hcdVc^-)9x4K#y338kkq}z2?<|9MK)*sN1FAJSFGO
zqa%z^4-(XYLWZy#xa#4u%5cMcVq8oM3O6iD=}~S1bnuGKC@SVvadcW|(i16eSW*?;
zHA=LHQ>2`z*GmegsJtpAI4PZ-P&viWSKU{}rc<DCSV|=9TXq1qh=^&d{|>5oq){5;
zs>7P)4lPh=O0z(3*+>!6tboxKBFzR^*|=bgR+-AkZ3^#G*$O7m8vPNtjm`0-r!uzL
zR<!0L^ebz{kl&^@=V&z130RTHZIo#gvtD`pZz#Ej>uF^oo6TTV6e5))ikyn%>br+_
z>W?wl4?J*?R5hdmSBUfwF(7W}`qisH{PDHHSGa3GxjHz+T|RqNcirIS32_kP4A!mV
z;xwH98^ojyQ;gYlt0KxHCeOh0j1_Y35u<$fZjYME_GG2(A(h9YqIzg*;zVEX_zAH`
zmWF$>)9P3z-E&)(Q#~o-1UPX@OiZX5+#?f@qx2ZdN;$Y}pi5L86{nh>s>i%~Wrrbd
z@+jX63ZiyrL6JCs!0B<hw%y!FcZFmhNUx-!x`Rr7)Yvv_ea};j9LPsr{BZA=F2H=n
zj+bYxE6l!PYd2||*Vvks@R0(0<WaD>7>q4M7n(|lIvRZxJ+m4eEJO#FqZjg>KPXwK
zz-!dH#Zu!fA&bYm!JzPwrQSjlaC_gk4l5$vjzx6>rxR5rB)w1!)g_K@9!*m*`pRQM
z@ELLKmV~S*1dCweXY?SPGMAFlT!PQ?!;&ni)47AYZu)uR6Tn0vq45q{^ZD@}!qaBl
zhR$XtRKwng6}rmSW>{o-Aj@M_B3ES?D){V88ZIkht~#!}0pwE(ClKeZdnOI%4>5@s
zM4YHv7Od@rAF-|VSKtWdky<?%t!g(jPOw|sI0!!D(onK$u`sJ#1Zo_-8FpwcOlvk`
z=QC{Dy)*3$3zp92K!*jI%u+nBfi-J3uxYEt8unV|`ZoBG-B+7&Ywjru(-hKNGak+3
zMl)Wul5!xBm>vOHG$+(3xz$sZxodWf6>Ng-fqk*;17>_GISr#|zKYkF@oWC1k>pgy
z$`mL`eC@UZzG_gd#7C4Q*1N3;j-B}}md_RTvm@suaV*=)E}Y7D2%N}C1K*i|T34B>
zHdLTwr~+-anp3l>^%Z=lX#0Svq(A~hKh5#LwMgs+%1ltBk}W2@wH8<{xMg>a|0zL0
zvu|0&{V_dLqj|AUZLM$>f&vYzdp@SMnqN~tqh@N;9<^=Ds8^sRsxr2VRK91V+F5eH
zR=X)VjWoaJ6MTXn(pK~!uvpeMh$7W{hA2{V1(O5B<UVtayIE)?*Ahu*)QBM6mJ|sx
z$H?$>WHSgy&c_^jU}Qp;xw7plV?0=LebvOD?PtqWhPg9*!VD!wMAF%uh%;O^1HM|(
zonyShjdGGOm21DQKvEECS0W=B9NEo<feW-5UIdc^j#+i9z^lCOG&d$lDcx1}P5|SB
zK%?7DVPdp_;-h39jgLcvkCBQ%RiBh4DT<)GE88SlEv(|5<lZ3uj8AcC$Z!d+Y{h+(
zTrRt{BQVL0!mhS-;k{(xpl(qnQf6!>ZUB=E5)+drQH${AIP4>+-AvhatCSwe=oVfO
zFtK~x2Jtd6rrX3+R-GoJYOfx|;;5uR-fgZ&GH^_s2PVE%x0f^aIvgf_?WF1;RVS&y
z=^-2=)d5nOM>akQ@mtXww}gQ0E*)nkjn!mXl=WJ1WJFA;(ruC3)EeCjsawK)BTPyP
zIDRZ<MV@4EaH@*#-_)LRPs8?C2A42jA*{ItBO}p+CN;;W1#;>nOT;9O>4B}c#*rQ1
zKIm77w=px6ZM7Lgy$K9biDea5a-F*=U-z?wFA?6~fqT1yHtJD(G#@>^yuUxsv=tlL
z^6jSz4X0+^B|CEa@Al92e=z(N8~M7cx8RR{nS5eFp0*N$_D6ry|7m~T9RV_bG=Jc9
z!FT#$+gH8;$QYciqPH_2J(KS|Tl5~xcb&-}JPSF6XMp4sPFEg?+^A{KC#@g0E}Sbg
zcF%f?p^mRYCl+3w^%PsX^5L#L6Z&@Vv0`g%;ideZ6Knox(H|?>Ec?B%a%0OUz7KuH
zI*|2XG1OA54{y}5`&@aZb)yM2bmzMVm+Q~ZvPHIjm2EAst@qW{&I<+jXD>W*2k%~-
zyO<C4KMb#)y<RwbeZ_sF==QI=y9(~ERrd=8_X|tm)x(2@!-FgC^J^`~@_m;JEtm65
z)3<^4M}hkJ@VzjIl0P``mt%iD`KOZ`7CPvK6KDt(;lHVK!{Z3LX6=xUIlZe)q`*Y(
zhZc^nFfRhlo`a8S8|N?HyJ#>t_3(9=T<3jav$cTijZeJD-TWwgq=e{ZZ!z4wKs~V#
z=+J4Sox21{So85h_}0TfK71>G{w9F4m)00hd70Lwjuob_SjG1&HLozIzpig9y7v{s
z2a4fXu{l!Qvv-5FH$ZOqK5HaQiE^w2bud#mBYisw2)sN{(&&D+N)n1~MWZS)o<h^;
zGwKRBsS7}(w`6f90T1?yescT>v2>C>fx`r<s#PmQkcgQX;u`?xj_<0<|CQ-4V6H-5
z4R=tHao=U<*j46mfjPX?{x_!AOcJRn-8wAsN}?QYffykYf{e|R2ln^dyhdx5N+=&f
z_&PAC9Ds+<X65P1_G8w~4da_YhHpWo5HW~#8zzn8faN-N-TX5Qe@Uj3L;+p^V1~7K
z-<*4M)fX-Jq6>9P)Y8#qUvIv=>zL)r`D?Ly+z-^ci{s!GGa-Y=*4-QjZx`A0-{9im
zMQS*43p{Rh9|x`qqO0+&QGnV4P8&`ylaVo5S7#G4uPE@09m@!KKlI=M(oLt+x*fij
zz!JJu2LFzakTG(=c!*TwigmmB8OPYN5o3(|F^_?ygvJ{@0)TP|T-Cei?_E8MgL!M~
z{hIqjpN5vLhrx~P?I?D36(jqfc!IW5Yr(pb4O%#in);H1Kn$u2eX#%DYb7VaT&S(R
z#1e=&pmj2*6h-zxiKc9U`$ztXpjo$6I!g8%l+Cr~tGzolH+A=|xwlF-(gED-8%quY
zB<xF010=jbE@z1~P&eAwQSum|7d14`kKY?F`3%&LLXq`=0cK&{zNKSd^nTv^MgQmh
z@EEi8Jyh38Q?grZeZ{(_`CIpH&2#s-l7-;0?%y_l)@;J3&i&!_-@pFHR|==D8Xap+
z@7?CP<_#MV8YdZR)P0EzL^%j=nY7Z)4=2nkFz$#Yui0)hRAZup`Z=TL+4pU?`M&Mm
z`o8T>JomosF28Rvu_L|z|7B#xMx{F?O^E^rANLZF!)4Og$S;i4qGcymMml4p3M5M~
z^93Wr@Eg=5$d*6HVe%w1lpdcUk~u)3Ar<6|?BggVDLfWQMZRL_HQPQkoO|`!kfDUz
zv{PqZHtpv$&cZxUPNb+%L6D=UrwpRnzd`PQpnXqinxg+@w?M^MDf$V5>ZuD+2flXJ
z{`}UmbI%?78rz<Cb=+~RS#5W;RY$1c2$jI`(|Htn0&yjr4<A_#_ZGsv%i)vD^)Ka7
U&4zuNqWbc!$DhIrn=)_uKZqfp1^@s6

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a16_fp8.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a16_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e2029d49fd2d841bf80c014d833e0b34960f899f
GIT binary patch
literal 5787
zcmcgwYit|G5#Bq#j&F*3(Gn$-vL0rnNVVihbSk-49XU<oD7NL)1%u>p=AC3p$4B-~
zktonj&>Dr*1~BwXDT1Oh5Fj>eApV(O1qu{sixwzp$slo1fdDBA<R4SXD9~S>-Q$t6
zL^+QiU68x8v%9l%yR+ZS?qA(*2ZAJ<f1UV6BSK%0ijgc8V)p?M8%RVVBcmh}V;DlS
zG8<!|G|8r<IcBCjvusIPV^&IAWLuJpaY=j3PU}|Lk#xqKl(xyPq&wzLdSafWH|7N%
zH^;<$l6k(%n7md3x4Tv|s5v&)$fB2#Xuk!cCF^~Y-V$rdvJuCZq!M8??z|w&!gX1i
zhDy`rMIogoRs=PXPR*!TP^Gyn@LSKPlNl^2iX>i@Qc4;tGw~ZzQi`xztB}daS$;MX
z<&y%I6Dc14l7O`!49EyrqD``pl`ub>#+6PWvn8HRy(?jrSJQm_hLB20@=`*PA||cv
zyk4cs%)|v*x+GvBDX9|HnqEtbl6*}{%-v9H+}2AH))hO@{n#PJuSF+Mjb6w^<Hj<P
z(p9PKb}?ihB@|;s1bfFwCXtoQvu4qB%N(;vR?#fkW?9j4%Y45wB*uw;(FUz{SYyY0
zONG6!m=El$R7lY-*+hrrmTbp>BRZkxg3-Y`J>8Ob)+Ksi2A>^?jo)e(FUYK8FQV@V
zzIDY0+L-IN&T?YIElbRwwMLpSSuu@MDkh?}Botmz!EEAuB9&QGd4<|Xykc_nvslPU
zeK!Qz2Ffux!~><L91AsAd_85+J!U$>Vh>cY7c#I4vm(i}HI70=g+ihK{&Gl7W`;6}
z%=4;%=Op#{<;Afx(S<Q-NKRZI%4F3W>D17>vYZ@B64T+OWhuU>rtuK9NoDAreI`E?
zui81U>V`g~e~D73iC>Ber$&i=4`#9&$HS*5RGweyI@0I{jXuXgd8Gle_faVjS~Y**
zF7=MDnjdo~c7cgBE0)wnoQhXhgm59z^)mypfwD}5o&NF?(D%qWHpOK{A>Bh5Pzq^&
zSPDJ~$1yHsgzE`8p=MVGj#lh&?-L+J0doKq%U0y`<7S|z<75|&L=>SKy$xL0Q8aI~
z>?_skh<VcgKw3BnJN&Xr=AkLa%yR}^D}hTvxW*yW{fgw9tZE!!G*3+CK$<5DeIVuF
za6e!T2|0$Z>Xv%(J4mam^}PSUq)<I-*6%cD(_#7Zt%rFAR2`VRx}vaebs!3Vw{>Vc
zJpVUX2e&aw?J%eubH8H!49WrkOkV&icVp?D#RPaFehv#_#H-^0**nd8b!vL%^(&Z|
zkLFsU9s*zpyoctI({l-+_@#uX-cU3P9RK(YjZLLAd(DZMML`ubt3Fa=R0=$r)4($j
zgo&9(OqlGeW}*0@d6ty@?#qBB{SbC!a5@fdlh=hRyf6z+jF;1bm`Kg7j2(R*pE<A}
z=2!j&8K8&LdwXJSVmtV~VsNYw9DC#(+vyl7`I?Kqu7a;?bE?=KEp$hBO>C!Ub$ZW=
zy81o|+zAxJBZctD!|D8$Yx(fVR`{o@Q;%Jp2b!x=ioU*rukYbv*@U`I?;^I#vpTg6
z-5n^<v9Y|qTx^XLS|fLRJ{`C>@af>a!L8?B{BuvfHL}%uY1Q(9>vN~K=<I#u?EPn`
z=M(M@R}2joLc>&gxZn#HeZ2)=??VZshetqqm`d*eW$ZnhZ#?GuDe_<d3ZywIyOCIt
zw3hUuN?Z*D8ES$AEW842MGMsW@EKU`YP;qFQb;PisAe;g=C0TX*$oNDs}Kb95ZVd<
z-QNSeZ6LJ@!#R^-lsCDY31FkvVuo53>T(>^2sF}^v+M^L5nLZ{M2<+UnLcrJG|l@A
zs#bzTvswkWdPnL3V?=l&E1GiF2j=?~P`had044B!Ac>Zo-GD%bz;~VKMXf@^e4V3B
z;d`QXXw_$aL%nqr*;#hqcXb|65vuTAm35_GRgGhBI#Ta`t<Ist@~F-)s>Hw1^ffy7
z82xH{|4sFUJ+K+NgSN-jK0}ts)z|zZh}KnN=`?+Werq=D?dQxsJ)bjr)XHb;WJsAG
zsEshFoCEGCs2!}bu8lZy4&xiBjSL#&Y9+q-e_u`K5!yO)&YHGa;y7I7Vq>94{!4ON
zF)^ly8FxdW*>$WC6G_ccffJzd5a~xY9>AXT!>36`xDb?52BBAiZ={sPOeT$0Net;|
z5;8*KiIw(&P_4DXPDn}!?nEI>0zgd6ArjC`%3>0S2;+Ikv||-T2$~%LFh?3E<|^>j
zP=T-Oayq_1p$`*}j>ANTMM`GWtmd8ta8skabUHaQo6`JPnoB6e15qF(7pi>@)OP+y
zlhe~v7qOj4u+gC-!<d{%Ou$ex$x=#l{6vr!r74Wla2cC<<I<(quUwsaiJ!T8W%BCO
z%dbq$XqMSTYBsHzAo$c{cNcY-6u>cYU6>dl{Z>qjiLR?=U08zfUBRP-Lzcd_L<))S
zAk?oW-MM<=Sb__x;agWu9_>w^?l}qKln=oc-bZ^)sOMz<<k_w6ALO}k>G%t)mTfLr
zicFHSxAfe3QudYF`$!omb@h_+IJhQ%?@mL@M*Dhu$rma4PVTg{7h58QmdKvX?Dv!%
zs5MZ6Ut8Z^gWc~~wU(QZ-BaX31unE1xI4Pd4MR-r@>N}Tv=EFwaz=OBU)X7G+jw*R
z&5uvyd&jrBCO&&7AD;YM^WQuE(y`rqt<)YYb@sy?LC@Mnn8oA2{npxB+nvM3&NGG1
zGmqS7cG`yx361%l?{9_2|2Xxh*Z%O@cJmc7(qbYb!ErZsl>CEt)lYBUyLmTVM$FlP
zoq==t{>ie5X*kd9noNzJGBUY6(6v4EyZ+zwe=L2Hyp!B&J6&vx7TTh#uJy~S-V*1o
zd{pPd;5K)bew6O(ciK)pTak9p>Z@fAx&1{~cfr-Y`PRc%AG^+#oygTk9lpjaYv$_-
zL5Z7Tzl=m|lU_M~1;kUHnFU0s`d_0vBB-{1e5C=n)><Ef0xpRj4<z7LL*-gi&IEp`
z5;M#IEKEminuVfC&3ZNaQW`HP86hrdR(hOMm2v@J08tSuCR)@6;8#eM9svRcfKnvX
z)KAV7p~xtOd=EJb`Y~|p4=|MobEWU-Q}9&B9FcSmGB^Y-<m)T>8%vFWjq&yI(y`9s
zvHrrb{!&Z(MtVIB>|*0^p>dcJrwWayN)63>Ue4zzBhK!in+32)Vuxu=u3C{sav4s+
ziw)0f4xWd5_o7T_7th0OTduU2025({(`gx#i;U)s%Yvf7GtZ5*sF@Ne6}JN$6JJL`
z4R?`VR(JpcX_{FEB*UjjBe4hk5^dBUf$&AbAulU>=twTa^u>Z^1kjYnkljLMmbFZ5
zHkJ_-pNSBAS|-3Gtqp|l-yHcjF#NkFgR$#rvJ8|5&R8ay&%I5zm)DkWzqj^Y*+Lj#
z`OSf{jglM+_iWDGv6t<%>Od!Y%T7wVP-}2wVSS<Ord1CLgm%4@{27CKB461(7ROVf
zp-#?J!|n04@v@E7I0RG6Yx0Lz3!ZS93;-N(cy9;Sf_qM=>D$q)dE;qWmf|EXRtAOZ
zaebAjb2uJ9^vW@~{}lui1Jiy;-b@Ccelr==-%OtBJy=It<;?_Jh@i9IRM4WDkd?v8
zD<Z9sw-x<}kdvlGznvs_o{92Qj(#cZs5iXk2?@05E|hvZ8_&bbD9__@!lz#F9HEFa
zI$&EGH?G_GS^PG%f@eWW3^D*yhIzsvrsoUf`Ug7q#LP16f2<~keZo=7%&=b}$jUB2
vy}YCEecR`OfnwlvA#gfB`s3p0<-+LYeCw4wYTC2P4CBa$#-1QT&|Ur?tBwA8

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_fp8.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b4dc80a86e50d9a8b22af00d09ee60b952757c13
GIT binary patch
literal 7849
zcmb_hU2GdycAgpjlS7IU^+QSgl|;&vB2kgomg2~EEk|||%d%r7o0Q#PKy$_t<>AlX
z8O4@CVV%MSB<zoC^uYm&0uE4MUDyvs(FgC-?xTyoa4ZEJ3{=!W(uce;m4X2K)N}7}
z$gx9pW1u7G{+xTxz32X%^PPM7A6~DUf={&mI=>O3sIPIw`0S0sem6}~_bHy@X^|?>
z8JfmrMr1M!<QCCVux6|UTgFD{R?%K?WE`Yy6P*QD#zo3@(OvLlJf!Rp*@8FYE%-9N
zLPw^f;LrFAote%;SEj2F$OH=AneIYQribu4#oj_+rjL|eVzAJk=`Rdq1`30jK|*tj
zp+YzlE<`esLNpTvnrDU1#01;gyfKkhE`)*pPOEN|gb2{j8MRg}MDv!+2t%Exc=itT
zEO;JS^wvybgGqV6#g!DTInQQAF?&@MmQsx7|6n~^l=HW;a=uhNgH|N1+e}%OQC1dK
zHbBgEIg7FdK^72He5jNwaM?W6xKddHO5fR1p^OAc68H~=qEtfCa&A>92q~A={qgLX
z*?F;)yMC@byO=KuS#+ta_2!TOeRJ2!vs}JdUY9v3mlXwVz(gk$u51jf4Vv0+2>F#&
z+0-~($ZlK}xN=DXD(DBgkj@*7SFr+G{IC{IYD`rdZo`sW%@&J-*kT%L!z7b=w|Ih|
zWyL&i%#n=GNvqki0L$e*k4o$1Wm2<f9`nKs=GJ8~3(D&fczvYxa=C<Lf!9L%Bpd6%
z3!mk40+;6n*h6_EWzm9Uoyit1<K=8_nl^A&pF_L0zRLpAckLCS;E#3{?<HuPYn?la
z@--^^Nn(5gm7#eG42~8oJR?}IS$WGHYsMznd8^>K#_+Z~)<+GIjFYzuuC;D+cY1lP
z_s2BeAvk!azzU9jXyjc`bHl#}dKhTK%?iG2KHdvscklte19HEM;=5mKL_hRB)TZyw
zL+HL+4$#cnzV(`u@492lbZz)jJqS-hV;iUQm)H!o-n<0I2W&CdGzn}&xrQARHL$0{
z_5FWlu&1lg6^bJbIH}NUKz;QC4%is|lWj(6&G4B90diwoK*DN}D-6_{QWa{=XfWk#
ztf|r{f)p%;{(+QnNDLC>pGW0RqsqfP+VSuVUZ+QmSwWvJL!vlZVUS<;8})XFsMuj@
zZ*!o`{mFPB@|jklIWKw8Xk7#BdG#|%bQo>z=kxgoKqok6@aZ{X-lzVSmg5GswKDDd
z`5guHE`z(312x#H86}`bjB+b~Y<bk!Wmt#iPHa$e!r%e9HoCSS`LWfsO97*Y4Ju_@
z`W7EQg!eFI)w&u-eg%6#-63i{*__M~8{kZ2gx!KRur3J=sL2+24x5PK4l#hWBz4O{
zF+5B+!uzE;n_k@}mr!n1>s%3Jju)<F*G0(Xjk2J*N`O72i15y89Su({qxGD;js&gK
zj3Atpza=2N@LDGs+N`kVzPxaS`*2}t`O*~tOkBQnVPT2P17Ty(x<P%BKp?>;p$I;j
zM|jr}KG<5%joIw1$@A;H2rsAR#!#RWz|&hLLA*w0Nz|6GPl&~0fBw6)Tqvi@`SOIE
zMKIfmo9i=g&0e1o(qjH<y1XH;mWt`mM6r-Alz4zN;idq9Q$lGmyCEPcO?IIX5TtWW
zQ0H`XlhP7_b*W7gM|1}zC(9d}lLHr)mpSfM{4fleG+5H0x-<Z1<Tj;-j%-<Xo&9QX
zq!ye|f)iWT-+1@>Beni1rGILte;VpOH93cwhF`=JwfM9WpRUE{mH0fSMO05m%@bEV
z@v3KHFOhyiKlxeh=zGf1_nyU-ql-I<i(Bt}#SVSvq`JorEL7)U&7XMgPkhr8t@Wgo
zo>bjIc{_L6p#zqB<2=1H{x0tH$llm&ZS0~lc5!Fy5+;nkFpZ-24c7XmpZ85y+39Lv
zdM|ZyZ+PONTuUz~>4oa>IW;*}OU^0DIrWXH+8c|?8;k0Ax;Fm4GXDO7%Qoi23MCJG
zRCG+m^O;lPb4`&0n<WYizrC~%OGIgQB*2L*=CC=LKY|C?l<!j;bc$K}_OGG*FF4q<
z<U~or>@hS2sn&(he<5Gwa@lhBYF>n>;nw(}8}wu5%g~90Px5W5Zm0ZRXd3rwBWFho
zHsUz25Uvc7Ap~v^mOx;s^@5Gz5U)ugW+Z9umW1YM@L&VeSQ7L}4HNY?EKn?Ec>(2|
zFsAY0vIqY6{R9r>=F%80nWp3>d{!)v8tt2|ilstxO|awvI=L2~9cm5N2%y^53Cc}q
zXa`%@kAOwL1(Iz*_BL_#?c2;+m>__zSSvOFVoQ6eM~zWnu1&{VaRI->xB_gtAvEYQ
z7Oj;7?79uN4bpu^i`)c}_Or)W3ED8wYnvIuxQ&2e({sqUOvTe07shB4zoDocHuQn9
z90va;dq|&_3TyDt)CT;etV^0*KReAxOTT4!OjnLn2f{0(S)}!X<`YXRd5E038+l${
zl@RPBc-|7quQV`X7zhZ@PP5G~UOIaLVc<mgFlb#!SjkKHPDD;GzAGVoHnjl*hB&#@
zYU42c5a*3B$fmpqJ3{mpPEO$DZJf;E<Rnf`;p8+Vn*I6>@a>Y;Z!(#eEe@T*%=0)o
z3yI`~1kj=N>F&VSxJc-0B;6W4)D^tU_z~{Y54LohI_RZbiCt&%n~~A#kyAS(r>oAm
z8a=jU+jWN2p(M_u>fk8OgWxvrp4>jU8=9(xjw_+#&ppT0KwmA8QUa-J;8>MC25Hmz
zZ7uAw!{4wYs=r6|52*e@)qh0wCsluU&7V~K$pf#$>pSSCx+YXMQ5`+~r|`ao>2hz`
z!85shHD^q5#vTM89^Z9NAK0nj^d6ghApd^z%T0wnrm{mS^vrhF*kOeoR@wf2k3Hz#
zV(Y$^Y~)F3*LezhWBoNx^0_CuH!xLw^Zc{$&cMf87l`nP!j3%n^vQ*<*uSdVD0Y<i
z!=+r)ufRIty~Uno|Id&@z}_~1mYWi5O}_&&jgNSfMY$DD(`#lQ*x&-IXcw%}?SgZ;
z6{gZW+|~>~VFZM~09`kkP0OaW!mKqzLqng|MPZXE{`+5?QJXN8%;=2V^hlulPoB}C
zy5m)b?=^J4{ugy`b7>&D9|y^%kJQJ-DbK7^k{-%8FAT3UH^YDZ0?q?of1cX37K1H6
z$YTU(4c9FFBlS;=fo*V&h#C#BdoiQj%6Y~VtecR|Bxm^va;;0D_4ANP*7_4<n`f&1
zI-(iVB?L~Wu`X!bG!DHs)S8n~S{pS=t^84=_{zMSIusoQ|C{ypYizR7!%hV&r;Jf6
zw6PxzEV3;TSA6bP<fG#CV(CUPW)8Ju21LXlYV#uDm+N_WO@qrtmWQ{3Vdzx{9lL(J
zK=|5ga`FpM)f^D7Wn~#@w5&PKzI$eAX<-pzLr3Rvf^RnnU&A%`&$HsXuz*krAq?M|
z6`rZGL_N*1nw3Z=mO}O>!nl#LnSkjPT){_xfQpVMVdGh>0VrJd8iqq0x8;i~w~ikQ
zFaM|9HVh&?BxnQSeG@@ul+es`&&=M`6+npl>^&B;ntw>~50S!%;vd=b_kCgeV)G%t
z<3GCZvc2h3*om!kf4}%(yv|a+q5GfQ`{W-o+vi?*JMVtF{poIGx)wR1L{2>Sp4gjO
zZuI(vP>W0{k*R+heVX`FxO(}+o#~GNXv}@t59w=GiOfFt&Jv89R05Mv5=vmE%Fa{+
zGke4DywX4PIRg5{uzr9!gVF5^09%1@HG1+X|Hr}~3QxIe_~K62Qk7l8cou)q`}@H!
z2cItN_RVkEe#7pClMgDj(OG45_L*%ryo3>VK=t%iJwto3)Wh-G*a>Cq#IwY1>@r5y
zunE^5&pbKybYge>UCfxMjlHdmy<HnSt&E-C89P(`;OD!skGB@SV#6<DBSf?fj_<MQ
zC$_KH<8=$g&gi!S`le>Rn$Jo(GooQHkNx!i5!lbe(D3t9V1Z3U1n$PS*7P_A1)|Wy
zV$jz>l#1msZA7fg7@?c7eQTWmhq2o}a2<l$mdA_{)h|;i%Tmgw*+|T4GWxTi9l}?=
zlpXyIF1L&`iL0%4Cy8Ux1W+|wwp<oBOuU3`5({9dl+|SIpI|B;LBe~84PCc$FX@9b
z!p7vGcKs6Hzv7PWK?0XYmIPIei#joo2_-O53mjDfN7ddwwJ&tPa<8I>hic)p5>Bh3
zcr7%cgeKIU{<??i{@Ffd@AlOxyVqCuQ~vI|zuNv)tz$&#7*V?dY9M%j?%te=pAE*9
z{&BT;;C}I5Q4NM`!ITnAshvG_FXd0{Qx3noPB~m|a$r*oItt1yrRb$p06$<9;r9-X
z)7%^fPbKRjF0&kdrV{lQgck+Qc&Q|!H*wLE!w>iHBgtxs*DU#>jAnt1MsOQbENb?P
zq#w;H!Zks&>5op>8qgw6KE`}@{UIKGiYdo&g0I+Q*~ybJN$_q-Uqf<-sxwiWubMbk
zryzeO@8hgKPgC~JI>Xqy9vuB23bK8RL8v>YZD;5g9o=_tZr{YqR<~gSc!S|&-9d^@
zDxP?-{H3ezB2_ol6Rdkk5u9d!-Ajr-3byF_z3cT3QuR~8*nTH2?yu6LwwZc{rV^>|
zT)j5;OJhMDJD$$FbK7%u2d+6O&_&!9zxYt`#p_t0?xx%wcSGBu0}s^ny-8{vxsoUf
zIsBd=O=hp=5Lq~~w$a>=-l-<d;7T@1$4@7D2b?Sxb>Qp3FJY6dU$XR9x_Lr<`F(6s
ze;<3P-^n)PHr~e&c68dzPwi-3&Wq9{e&8b|@)$^Nh2#QBu9pOh34ZICP9gvtvS@F;
z-Y8^c8sp&5T$_D8dGgGstBGG5^w&*tgATXrsC5^{Q4_*X3<yWgnuFuumq?D&qmwI`
zehDY<;RHW0ymI_C=bUbbr;r4#fFG3fYe?!Anx?;ZQgq^Liv2I@%70Rk|E9*iXBe9K
z!S05Hg5-OW^iuQ(^bd@cX1=2!`N3_Jus=#x-O1YyIGwisnl++WBh}cfY7N$`F~u6I
l4$YBrRIx^@@!7h=8eyu`z=1Er(C%vV`1kOG7p<Sw{{^8<?BW0b

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_int8.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_w8a8_int8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d7a8f78c234b747a2039ef631ff9d9ea58db7640
GIT binary patch
literal 5749
zcmbUlTW}NCbzhQJ+SSAI6I&R8jcs8g1BruNFb@+aq1X<@5Qvh_&RV;+C9fX2y9VUQ
z(@dLY?6euemz%G+GyQ;p8OT@KuckAdDVcU!36zn#<Id1Y`@x@Do9RrydhV{)53otd
z9qH^n_nv$9+;h+C?w{Ol7XeLSejd-)62vzcv6`*gS@{S$i-bf-q(UUgC`sZzrBG1{
zp0q+InJ8n7F^Vl|kJ^pCO>rdIC~NfXiZkhox{_R!GjNB(C*4tZ(i8P0y-{z{7xj?@
zMaXu!<`!wbHR`8`R|$#zfRLOrdyB4))@G@Y>k&pmq|Tla6-69Z<WWHC&drD^Ej}x1
z@pNiTL!u^6W?`I*r{bERq$ek31Zd-_bTWfvRh6ala!O4jbu2a|C*=^O?-+}TiY$$c
z498Qlh=#?ij83If6Y)vCH8zz_tFoXP6hbm7C<cu%Eu)mIgc!YMP*mm1!^0zIMI<I=
zO-6e2sVOl9vxZ;>@AbL5k+dW$7v=cml(s(FcveQHRGZ0T=I%{s92j(0QlP3uLMEc5
zL`10zSb_AdDrJ<BY1y^|Fxf7VN8u?^vQ468hs4N^3A<$bfQhoQQ?kph2}*K&z^tw0
zBv$4V%~eJl9*MvPq}qkU@yagz9?2!UBo0;vx1i$XnhBTWhIjg(i@RO&OfZrc*3~}O
zIv>c<wS^ot+l+f=9k2uY*0U3=<Od1rvz}0`zT+wTxfnSaIi1oXdP~(BgmE!8EvF<^
z7?<OzNnr+TO=s1rN$L%8RZulB)0hxXWo9%mDr|tdw~A$xU_K}wi!mEEKtUh-z{+0$
zfG@(4V_%#DzsoU+jg-|z5;YA9Kn<F`IzS{?tGE8l5rXCAM5<>SPV`fp_;n6eZxbg+
zj@*dnD8N9$X3Nolt;v!lLd+<_+tcmmhepR<e?xbidhO)s=+JP;sXH$#N-`{`E~`3Y
zz~(o>#e|X5mxOZ{PL7^G9X)ye^y{O-`M1svA*=;dhk*}+dJJkX@B;|hbVikx33G03
zSf?>ttb-tK|NF34OJ;gA@yvcrM3b_%|LV-){>b!UxmSsg_hz!%R65m*h3ZXW2NvY3
za%@IRqh19^3$^#%4MC_kwiapx&5Sj@=2@#-ObJ&aVgxKgi-a>-ofV)9aZ8xpv#r5}
zEt*ykUp)`ted4j5a0bhqr^JN{T<FH7`&{30;6N#GxDYrz|MJHpWw)>7?k>2yZ)ESg
zBgRyu5QyNZhk^F_mwz!*?l?Nn6xp`&uJAnbH5*s~zHl~3)@D#DR*lYh%xH#9V#O~K
zSu#Y8J~{*an>aYrF-27|c@VV#)cv4MAsJ5zF)<^K$CbF2o$c9vZ%<Qq0~Zxr(fdTj
zPWb$2CuVCi6t6d=XEf|f84+o5oB;$iJ}awwQ`M;e5i&AbpVxUH6_ctUY1xddyRR6b
z81jTD$tbqwH1G;+svP`RSTK`C0*sjy05zLdO-uxlBertGXS*MEELdknbc-oGVRQ>8
zyG>e&aL%E5E%KbhN}6+Qj!j_Wf1&|5>;q4<%Oo1ou)i2B(P;J7pAxk-zgyT}p+WH3
zl5+wlgeTfIoT>%|oM?%j1-;KXb54nwJ`8^A#A7+<Ea+zzxXrmzRF0l=Y1p2OrePB>
zS_1pP6HVJ~4df_GLphhWmc<f#toillZJVWG$u2QD+ik}!Y~9f2xEz_-YxXxniOq4F
z^iieXNb~JhfCjWqYsK^LO0rK-8}<cO^<;y6RnN@WmDAeg9G|)bXZUQH_dUstAh6}C
z)DMZDklKE0_FLrcwdmGQ<GacX=isvBpX0YV2QJ53G=^Pn;Z^7p?Vu&av!#{n-%B?4
zHnQ<K_a@o4@NISQd&#!74Oh>4liobr$mY&@)@7rJ9Gi1Uti(yY<d!_Qy|=2d5R&$q
zS3}bFjfQC51EoyNEOM{JRe3$z&URc-q4WvvRf7|06x=q<KRN-&VPt>E7&apmKf)0K
z3Tj3YHBon(@mq=~byqdSLmy!a*X?G^4$&x#xg5X%PlPCQz#!tQf!(Ow@nyiQxS-J2
zeI_z1qqLAoL*~^T;%r6`r9{ZClQG?MMR*q{3^6IBprpsRx(SbO#=UU?mTy?#ud>@P
z7HZZ#a2JWgJwmt=m$WGr;gn`pCD;p}C|eK<W4Ic?5(omqL0`9<w;7#@rzX-mElLu?
z2}-v?ArhO?ZE`ZBWp!GeNn#SHO#MinjH_@bF(tvb6NKGEcT7OS(_T1amQC0yby|^A
z$Z5Q$db#l;eDJ6p0~`QR2L?D?RnKAi3e-xf-nz~0NQjx2D9+?37zx*j<fIr+L9*3%
zZI`1#T1k>6gnbqr!r%oAUId_GMHnU9Ixy=DPYlU$_Y=%>S7*DnHNNm>N^C!BJ9rM%
z7k(o6(!8z62L2fuEC+(0jeI&%+<&sP|8xO<fz#!-&Qja4LfbKzD+LY|0tZ$d%syA1
z?O5fB#=d;t*n@`i^V~zOp~USfaJ!bYQs=7$_;If;^ZsjR7S80GPJG#28ho=b_-2v6
zSmu2tzNf(Vl=uS${=nUq(!rs^!J#7m%EP*z8>mosaNb$w>V8RnbgUeH<=&oq*{{Nd
z@LL7G`(gN%Jm0-)C;T0^`|cdMd1RUQ=6xLx_|7ulz3gvX+;@H7s)O!nt*}I6QyG5E
zovUt#-!*TCO*%a#HdtVTOHDUkDzb;5tm1vw1{Ma2xMak2;e9T$+|svP-@N$t^|ycB
zmhU+FV9&sB-p%hm`RDq-?)++JvHoJYB~WhdhW!UT3&RzjsB2mrxIR#9kCfVv7ut{C
zuRWgUkLPQTFSi`B_|)e29(l0)=pTmuIP&|EV*ML<y^Rid=7&MbHJMuP28!%4L#7hf
zai8m0ZtkvfSgN_b_s;&C`-}CFd+t@5YVpjU0YbOG#J3mt_N5=)JyYaQJgjXj)pp*m
z?ObJv_P*sEt)I1g+Ol-+wtOdXGf~{pe{Ux&ZTIJWL0DVUQ1W#Zd|mm_k^I0&(Kq^!
zhTUaPPr0S7+!89cbd>|)@~$pWU88HB`Is|`&(T;l&VuEb*E6FW{sACRClU!`cr!?>
z)r;%nInt_5NFqzzBu62Dy#~|z&J0S&;8TTV%Yrz8eHhoM5L|(3%`a6fNYJdb(K+bP
z9^T&UpUL&7uvo=K;rm3H<*#uIT!}qcU=QBi`!yReOK$S2&Wy)Jb<+hEU!jcM<8KYm
zw|l6lX{#O?BhXo3U}?ZDW-?0F+JA^y-!Xav$j}%76^Bh61q}a37XX{>+<y0)IDUxN
z<08_$Q`B91Z{fX?x2xdox>0|Zy!+w<ZzNyccBlaj0HN*@1i1RmC=iWxUJ&5Ir<k!B
z0xsO!jQ~x<WncFS0(|~S<C}gur2;iGo=z(Wm!CQpQ$$sTd;U~f(rJj%s11hENjyiT
zQo0>J55X&RMuD)6dhi@pE*ixEpD$dNjT@!0U4#o=<7`Y7crc0qE|k>@fS(b6>*>8U
zlxKD=)h><ws_6l9u)=V*-f~k*g~rdme)Bneb_L^=X2M=mp(vYw>4pCg@K~X(feQON
zX>&dF)?K^0aP``c7k*r^;Q?@=-Ftzxv*IvNmT2p!IE}80Xbdb)U!SgU2Fepn!4<dB
zouEit|J}YXBA-XTIR5$Z3IXVs+6sPD?6j@F41wp;^-GJwb)iCIJQThYxEV0}1B1VN
z=eO_Nd$}-h));u`^jr%p1R#>w`b}kE6@=<^Z!E1Sa?Ch}us9wwRcYvYSL~@PdU)d%
z-uR}VbH-N)GwC91==z{BviTE0*!%>rX?=JL{?$(a2-j75|953%=1w)dmSfGj!6*-Q
zZpFl?LySz1lev-ZjVb}*EN_@HI);0Ov1~RVojq!r_%SpEBqaRRK>!t+B+17tLGJyA
z;QvmX_!rUkn4(DPzjhh`Ya^)@0>HmLgsc9OOAnl_@7q`HDU$5Z2M<3caK|{8{{yE{
BFl7J$

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_wNa16.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/schemes/__pycache__/compressed_tensors_wNa16.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4dd992677a947223fd152f10ffe4adcf0fcbc88d
GIT binary patch
literal 7662
zcmb6;TWlLgl0CyWIeb$jCD9V~aztB}VnvQ+ZzRR<-Po3uNWS%Pvp1kPBZ(4U=^4hB
zLamKO4v_b5&(Q)0+1MQ701K=F8(8nx`o1oo2i$#-u@;;i=l}=1_u)T!CF6kmxvTEs
zh>}g^(Wa-XtE;Q4tGlbJOaI|?+7Xnr@gGtv2N3!*Y3RjN1Ge5~5L!b55|}i~FmZ+<
zFq>xMEYyayA!CdiDbAQSWz2Cig-vNo#u~R$*qpXy>~VX>5qHqGCCz1=aVLeXX;;P_
zcV|3tPsSVfW_)p9#vk`*0`UOtx22mh!FZ5CEE3IP=mE$=N<1vsXPJ1j7@Qx{FuT8i
zeRFqPg9XQ@Y&-&eCtvLY>|3v5>4<iiIVwix&%E0IpoZF!s*^<*kidP61iNT`V9>hb
zU5jkY`HVDTjA}iTNT(CiX>lAHzEep#^<hFz<+4|>AmUVZ7O;*~HYM}v-0ZA~p&2@p
z%jB^rNun?%W~CgKCX;hwMvSql|MJA8R8~yjONm7hpUGusQnP9(IhV^xBA?0gY1+vz
zh&U^zfmKH)fdR*3F)t=$UP>m?qQvL2Jjlf3M0P=nnN{!Ugd~1=>C)wi1Wsf`S;T6~
znYlz3SiD<EWaUXRs@@mAfOCa>qn@UTL~=nC&g9aCOtwD2uc7zO;CU~1eGdkt<%oO<
z%*%^;QBs4isNu)sr;ffEW1ks8v(K#XNfI6F#Z?2g?$YxsqBtX<ID3_xB!j+laieGu
zP0c_mngxa&0UP}%gap6~M$sae;6J-$K}ax*)*56HZ5lLV7pxzf;&#y?*hI?=E7(6a
z?(pUWhv=M-=mOR2`L;T&Ljni$IN`rb^oSNBk>G}w2RL-<H1%5WioO|_;QQDZ_kXWh
zK<*i%;D>R6?=>y}avZA9uR}u9K6p)Iw#L0PRv`!y1mRwUu@`u$t+g}CPm?2)6(oLI
zgv-De;Lwk&R!PPQS)5%|t=U3`pH9h=YM&*?j+atPqH2>CGjLFGDydo%NjXQZQqru;
z2sP{;BDZl%)@&J5WS3ZkiiqDKDl*WjSr_OrLJKIgQZ(FR1vbkR4S=oPYM?R6<j~PF
zPwlAQ(&~j?I>U|}MKr$y*C_>-(BT&7-I;G!uVLXh^g3j>juVW!wfQ-$LiXtR4;kFG
zi^^1Fe+?(L-aqfxDeJX<Qh$y9Wj9wePj1vpMRLml9aUt>`2<}!bj%{E&(x?lW*L7L
z1>$G_2Sv3cHFL6b^D?zZQO!U}Q7nE?NMSKb_cr<gu{NnCY96CG9IcJIo|42peSOjC
zf*hU66|zD!o2v~b2P2vQjDB{aDG7Sz-CX*YLRYg=A)n7-S%k5*vlShQE`|D|lZ`rJ
zoa)HK8Rci_LBl~<6eilhVe%o0Q%x7%yK;3xwaq0YewI%OH&pxIB+>=(9L71UHdC|3
zPhOpvxboiAxwHJ#-%gyH<S(C^P>l=XqNGMNg7`#38averwTWP>jgpw2(S!)?2tmbZ
zfu=;xTa=dn{rP~L$q(dH`6F@y&x-Pq8-?R1h8K>D1L@TCKz>o4%Vh^XOs6vgnVcY|
zdGUsrEWlM7NE6p04eZ{Gf#i-y;$_Vx4M@}{Ne#OA>*I-|Z}#Wm_VPS+ZTwPuV`JX0
z6U2!0{|TR4sOmwHw)^3GqbtS@Ygh?KSB(GYRGK@Xaw*Y6rRd<j&c}9Wxs~RQjh^F`
zo{=*Annwu1Q-}M`*zK{q(_cBF_osgQ)6akUDD_p(*rqR1Wm)g=mci(ERgux@s&a@6
zY_txQ9YfHm_+sn5>n&Bp4E1jIo~rboFZZ5*()+{GYd@+Q81F@9%U~b_4KUD!0^zmM
zUyW`XkTbR(E^~ub1F|`P>E1RY-{JM)vUjLzp@=P54^quolnXeU+_5zT3x(Pza(>p(
zA`@fBpG^S#1qm4p$+RR9@+byVfm9!CAD;m?o=oHu)2VbyUR;XpqtI7L-vJg9F^HgA
zGxGQ_G3%;{ZnNsh736#YA_HPp?Wybz9ISQZ6If1>c!iQkYPe3r=S9r#^s5|ziHyVx
z#C@yI>tbqljzl#HVw|lor(QS!h#}efD}<bDh?r=t6nBi$vQ4g=T|<$bVT-1s4ZaOc
zRngqo)B<+*ytP?4Fl3F)_e16Z(GrwpyX@2;FnV^~{4P6+j(I)E(7T}qZaYS~jt295
zPWI{T`6eBz*8<y^--DW4VD{lWPcHsTWgkv8%~DQ{T#@E%xW?Ke?r)g`7ic0bY1t_g
zGeb*b{Wa!Nbn0O-hn8KyjU$eD*<EyDH|#051ab*R;u0nH9Rx0p;3$RMs?R4tU{<sM
z{|2FzV3ON)y7{OM)$5`SI5r$fW|4OSvqnMJL$faXL(7Aj{+2yO%eT(xE}H9O1?#8m
zvUks@?z((B1aj^xWzqdz<)m}@iZ1C5`8A!h5EN{JF~t<UzhVA~S@y#`4Q_=rE)yF}
z3yd&=#v95b*grKCeUwumJ0u_8GsZ+7P~S37%dUM5lAYamChk+CK9hVzpXZx(FF1E;
zs$U;duVGhex2tG*=+fckrXn+cv`(c%g1hL^Y2XeurtuX0-%8^xHtnKmtbgA={CzhA
zd&V{hJn<R%4PEAM)(?cR-*)0_`XM*&p<h4$%fWr53lxKO=~z^B6zzgr@CZI3@UZDY
zEu{c~BZ*FESwykWc+8@DXA1BHtvLy4E&(nhxZ_Lq;vF?A>Q_j-PlF*Ef2oco5$E`P
zE|rxf+yOHzbzPO<ArbA7AV9>?#$FOb?gL@6(r3g(g3C2guLS{?P4jO;Dx=zKE)ZZ0
z77(dU5(tVyEfiGkwI-o83JEz8V<{azOSqpRj19EHX9(gnL9iO)Z2}uHsa~RZMx+8V
z%0rvAwtQ_imD6=bUgh-`)u6Z5S62#1KsnKwC_8;T4OC-B)pec!fOzplhR?$5pR}dj
zZTEG4DZd-xz0S`<jJpek$xVy3ss^c$!NiB+gXBX4WEz{2jlsm|kcg1X!t<DTMAfV%
zJyc^VJCjol2|>U%LQC8%CU#vlK}edMQ%zzfFE6Sl*ylF}RTEjDgh>#AiKoUSq`>56
zP>MH)R38>+Qxc>yG%-n11Cu9}YOdu*LYNpxOm00MBp-5vFv%_9W8_2fN!qTP7p_A9
zEve1BLZz2NpU}&x7e1+_W*pjVyACXebJwX%>9m+uJ@q56<z`f$R`c+ZA$q5AnOWOb
zRo`Ap!c(E_R1*}&7eHjy{DG#M9}@X#=obP=dlS6!)xt|x5<_xGtX(>3si*O!>EBCs
z1=vbfh|+GM?I7yuE%lB*=^iUtJO0vnOlgm;|De=%{Hdo`@x-boL$|AHMa>63bKi3-
zO&v<8b?xTrO(hcjZ2aDMDSSu?wyb4Wv)fIME_=z^zTJXC{iXhMPlD%H98Vp=ile>k
zXumI4Ub|3+pX0(N=eu+9_Qg_o<nc$9vB~n-<OVmTaGna+SLXUE-0NlT^+&Chqvy&;
z&uwt$A?%GE`JMX<_v68@dPhE)TH}Ake|d7nu7o;D@Nx)^tZ<v{Z^QUI<G07}p8f2~
zy({bQZyDIAy^7cfNE8O?+j`eemJb{&SzEq#v?~6?>+@y*@Z(co`A16JNXb8<bewn`
zFLzuhaczI`b}PY<5(+CVuPH5Um6k*0mP63o^aj^jS6e|Pil=w|Y^Cq5GW<MmZ3bJ{
z7FHLwEk>Vf+v)JxSIpH2YCF6cXkNRxdXdt1D#1=5XmUL_Sq^|m&DFpjiuI|=k&!a|
zJR^#yv(AwY2-;Wd&wa=f-E2KpZoT%Ux72#AbpFQxu3UQR50Tf*W^;cPnOb~GdzAb-
z4^}z{%bkPIEr5g7hdQ3y09rL~yHI3^sKuqUM%J0<1_B)!rS-}s(6shA+HCHtA~UdS
zYk!%e4bW9P;phP96Z3Weg=00<+<o^q;%^r|U)b;tetBfuz=rKB9L#QWRjkpnHG04O
z(ZLPt3B~HHwc8#=HmsvBx1YNGcYgMZpDCQT!gZIq?o!Y2<AWRADUc5Kc=Q*eo2`d8
zn_AX>vicJx(6`yr{@LMshqq0JAX#Z^L}@#`?X*N(upAF^`ZON*|L)QI8{FxygB=Rj
zrL-PWT4PFNKxymSc9=u(8vUh%zN?Zo_X(Fnd*RVn9!Ws2k#L@(_kQMg9y)b=k<lL=
z3|d5AFyr75;?S)g$m3iRGQ;{^<r6c+#*s%BNhPy&qb3nSqS^xzrvP3W+UHt-Bg;R+
zNQvZuZXw0W-ErJ@RIEqK)}xPl{%9T6UXsiW)i|9>NJ%4*>4kWHx^$9a{eDX?vPFX)
zcT6HY2MqM(I}`bQdQo3IIMBKcC#uB@@R5iZ#L`jYhBMGw>fUGRd)O&tFbNE_cXHs)
zN4Gz!xO>a)-u0$O%%h<v?%`5x%`wCH)Oaj}$%|dJ^E_lw3Tbd^D#!DXH%V(Q4*VhH
zD5;+_KvGI|^I+8>BSrID5>Ok!n}P0fxirlqVG@9=j$}F^Ns!%~%L({(z~Cu@X0ut<
ze3{Op8q?s~@EGYMI>s~PL-trTYkx4HtEOI=Zjq)5l6R%aSK^$d;}H1#J^EAMz=Lxo
zWBYyo{mIY6PmD()Ez)^V>F81V2cJ9JP4=h0rm6{QxH|q|)j}XEY6{=&UVW!(BP}~z
zcxe5g>L4u+`FrlmW#8c~GPru0L1r%`UQE9GZ~PTOwPnx|RqJUM*t-LFZrr|c=jQF3
zRTDwLJi+Fwg@R<Fs*Qqn)X@VH+NuuP<WSeas*{2)6p9ezS#{H<2Zf_sUJ70^GNu!c
zj{RZy_rre}`~4W?c1$O}l($G#H5*JP6tDo-R<Et`t9;c!+OhuMMZSn=@W|<Zd;eeG
z|M#=ykqL@;YIEI*+>U^eFrA<}jdiQ;WDcA-{6Qy|mHHFYNo_OeZnY<0NtpHTPN->l
zLkCH}^=lyzCO1YsO)+~Da{XFDZqNAs2K;LYIZPg^>ezQ>RLjKnXHqvHvV}i8B~ubC
zNDJd=$aeC(vMR`_wA5ewixX|oU`{>Ihyjf_X;?<WHZ7E+Q5=ouX#7XxH4hz3BA(hG
zhA>IC(3^+fB`dYSt%8>XuUZOlorb1|RT}|@r;iQ}<1RvBq8(Z_jC;uN8|2eXIs-3f
zXHWlVYLZ@)m+p^heM`IMqj&`dl6Qmj&+vi#Aj7<{BBtlhi2E-z`roMQ1<Nw*|CkL7
z`@%{g3p5dYUU(35=xbZxlWR|GZMV!%9bF}R_brPO?W;tG%F&_6k;;iHW%xxVN~l@s
z8mM#~D|a1x+*dhysSLmN%Ow=~Q>e8RIaZ0BEJsd0iM;hBG*Uu=ZF7NTPLvJ|y+8z@
HNA&*zJJT&9

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
new file mode 100644
index 0000000..571ce26
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
@@ -0,0 +1,392 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any
+
+import torch
+from compressed_tensors import CompressionFormat, ModelCompressor
+from compressed_tensors.quantization import (
+    QuantizationArgs,
+    QuantizationStrategy,
+    QuantizationType,
+)
+from compressed_tensors.utils import combine_shards
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    convert_to_channelwise,
+    sparse_cutlass_supported,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+
+__all__ = ["CompressedTensors24"]
+
+from vllm.platforms import current_platform
+
+
+class CompressedTensors24(CompressedTensorsScheme):
+    def __init__(
+        self,
+        quantized: bool = False,
+        weight_quant: QuantizationArgs | None = None,
+        input_quant: QuantizationArgs | None = None,
+        model_compression_config: dict[str, Any] | None = None,
+    ):
+        self.quantized = quantized
+        self.weight_quant = weight_quant
+        self.input_quant = input_quant
+        model_compressor = ModelCompressor.from_compression_config(
+            model_compression_config
+        )
+        self.do_sparse_decompress = (
+            model_compressor is not None
+            and model_compressor.sparsity_config.format
+            == CompressionFormat.sparse_24_bitmask.value
+        )
+        if self.do_sparse_decompress:
+            self.model_compressor = model_compressor
+
+        if (
+            quantized
+            and input_quant is not None
+            and self._get_quant_dtype() == current_platform.fp8_dtype()
+        ):
+            static = not input_quant.dynamic
+            g_shape = GroupShape.PER_TENSOR if static else GroupShape.PER_TOKEN
+            self.quant_fp8 = QuantFP8(static, g_shape)
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # Only cutlass 3.x kernels are implemented so far
+        return 90
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        if not sparse_cutlass_supported():
+            raise ValueError(
+                "Sparse CUTLASS not supported. vLLM must be built with "
+                "CUDA 12.2 or later to use this feature"
+            )
+
+        layer.logical_widths = output_partition_sizes
+        layer.input_size = input_size
+        layer.input_size_per_partition = input_size_per_partition
+        self.weights_dtype: torch.dtype = self._get_params_dtype(params_dtype)
+
+        # parameter to store uncompressed weight
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=self.weights_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        if self.do_sparse_decompress:
+            assert all(
+                partition_size % 8 == 0 for partition_size in output_partition_sizes
+            ), "All partitions must be divisible by 8 for "
+            "2:4 sparse compressed models"
+
+            shape = BasevLLMParameter(
+                data=torch.empty(2, 1, dtype=torch.int64),
+                weight_loader=weight_loader,
+            )
+            compressed_weight = ModelWeightParameter(
+                data=torch.empty(
+                    sum(output_partition_sizes),
+                    input_size_per_partition // 2,
+                    dtype=self.weights_dtype,
+                ),
+                input_dim=1,
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+
+            bitmask = ModelWeightParameter(
+                data=torch.empty(
+                    sum(output_partition_sizes),
+                    input_size_per_partition // 8,
+                    dtype=torch.uint8,
+                ),
+                input_dim=1,
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+
+            layer.register_parameter("shape", shape)
+            layer.register_parameter("compressed", compressed_weight)
+            layer.register_parameter("bitmask", bitmask)
+
+        # Check if quantized, not just 2:4 Sparse
+        if self.quantized:
+            if (
+                self.weight_quant
+                and self.weight_quant.strategy == QuantizationStrategy.CHANNEL.value
+            ):
+                weight_scale = ChannelQuantScaleParameter(
+                    data=torch.empty(
+                        (sum(output_partition_sizes), 1), dtype=torch.float32
+                    ),
+                    output_dim=0,
+                    weight_loader=weight_loader,
+                )
+            else:
+                assert (
+                    self.weight_quant
+                    and self.weight_quant.strategy == QuantizationStrategy.TENSOR.value
+                )
+                weight_scale = PerTensorScaleParameter(
+                    data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                    weight_loader=weight_loader,
+                )
+
+            layer.register_parameter("weight_scale", weight_scale)
+
+            # input quant will be non-none
+            if self.input_quant and not self.input_quant.dynamic:
+                # register input quant scale
+                assert self.input_quant.strategy == QuantizationStrategy.TENSOR.value
+                input_scale = BasevLLMParameter(
+                    data=torch.empty(1, dtype=torch.float32),
+                    weight_loader=weight_loader,
+                )
+
+                layer.register_parameter("input_scale", input_scale)
+
+        else:
+            # for sparse-only, pass in 1 for weight/input scales
+            weight_scale = torch.nn.Parameter(
+                data=torch.ones(1, dtype=torch.float32), requires_grad=False
+            )
+            input_scale = torch.nn.Parameter(
+                data=torch.ones(1, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("input_scale", input_scale)
+            layer.register_parameter("weight_scale", weight_scale)
+
+        layer.register_parameter("weight", weight)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        """
+        Compress weights after loading. Store compressed weight and meta
+            tensor
+
+        :post-condition: layer.w_compressed and layer.meta are
+            set to the compressed weight and meta tensor in the
+            format expected by the Cutlass kernels
+        :param layer: The layer with the weights to be processed
+
+        """
+        if self.do_sparse_decompress:
+            layer.weight.data = self._decompress_bitmask_compressed_weight(
+                compressed=layer.compressed,
+                bitmask=layer.bitmask,
+                layer=layer,
+            )
+
+            # compressed and bitmask tensors
+            # are no longer needed after decompression
+            del layer.compressed
+            del layer.bitmask
+
+        # torch.compile workaround
+        if hasattr(layer, "input_scale"):
+            layer.input_scale = torch.nn.Parameter(
+                layer.input_scale.data, requires_grad=False
+            )
+
+        if self.weight_quant:
+            if self.weight_quant.strategy == QuantizationStrategy.TENSOR.value:
+                layer.weight_scale = torch.nn.Parameter(
+                    convert_to_channelwise(
+                        weight_scale=layer.weight_scale,
+                        logical_widths=layer.logical_widths,
+                    ),
+                    requires_grad=False,
+                )
+            else:
+                # torch.compile workaround
+                layer.weight_scale = torch.nn.Parameter(
+                    layer.weight_scale.data, requires_grad=False
+                )
+
+        # Set all negative zero values to 0 prior to compression
+        if layer.weight.dtype.is_floating_point and layer.weight.dtype.itemsize >= 2:
+            layer.weight.data[layer.weight.data == -0.0] = 0.0
+
+        w_compressed, meta = ops.cutlass_sparse_compress(layer.weight.data)
+        layer.weight = torch.nn.Parameter(w_compressed, requires_grad=False)
+        layer.meta = torch.nn.Parameter(meta, requires_grad=False)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """
+        Returns the output tensor for the layer with 2:4
+        sparse compressed weights, given the input tensor
+        and bias
+
+        :param layer: The layer with 2:4 sparse compressed
+            weights to be used for the computation
+        :param x: The input tensor to the layer
+        :param bias: The bias to be added to the output tensor
+        :return: The output tensor of the layer
+        """
+        if self.quantized:
+            scale = getattr(layer, "input_scale", None)
+
+            if self.weights_dtype == torch.int8:
+                ops_output = ops.scaled_int8_quant(x, scale=scale)
+                q_input = ops_output[0]
+                input_scale = ops_output[1]
+            else:
+                assert self.weights_dtype == torch.float8_e4m3fn
+                q_input, input_scale = self.quant_fp8(x, scale=scale)
+
+        else:
+            # Not quantized, nothing to do with the input_scales, use as is
+            input_scale = layer.input_scale
+            q_input = x
+
+        out = ops.cutlass_scaled_sparse_mm(
+            a=q_input,
+            bt_nzs=layer.weight,
+            bt_meta=layer.meta,
+            scale_a=input_scale,
+            scale_b=layer.weight_scale,
+            out_dtype=x.dtype,
+            bias=bias,
+        )
+
+        assert out.is_contiguous()
+        return out
+
+    def _get_params_dtype(self, params_dtype: torch.dtype) -> torch.dtype:
+        if not self.quantized:
+            return params_dtype
+        return self._get_quant_dtype()
+
+    def _get_quant_dtype(self) -> torch.dtype:
+        assert self.quantized
+        assert self.weight_quant is not None
+        assert self.input_quant is not None
+
+        is_8_bits = self.weight_quant.num_bits == self.input_quant.num_bits == 8
+
+        if not is_8_bits:
+            raise ValueError("Cutlass only supports 8-bit quantization")
+
+        if (
+            self.weight_quant.type == QuantizationType.FLOAT
+            and self.input_quant.type == QuantizationType.FLOAT
+        ):
+            return torch.float8_e4m3fn
+
+        if (
+            self.weight_quant.type == QuantizationType.INT
+            and self.input_quant.type == QuantizationType.INT
+        ):
+            return torch.int8
+
+        raise ValueError("Quantization type not supported by Cutlass")
+
+    def _decompress_bitmask_compressed_weight(
+        self,
+        compressed: torch.Tensor,
+        bitmask: torch.Tensor,
+        layer: torch.nn.Module,
+    ) -> torch.Tensor:
+        """
+        Decompress a compressed 2:4 sparse weight tensor using the bitmask and
+        return the result.
+
+        This function also supports sharded decompression.
+
+        :param compressed: The 2:4 sparse weight tensor compressed using the
+            sparse-24-bitmask compressor. This is different from
+            `cutlass_sparse_compress` which uses a different scheme (2 bits for
+            every nonzero element that represent the coordinate within the block
+            of 4). The bitmask compression here uses a bitmask to indicate the
+            positions of non-zero elements.
+        :param bitmask: The 2:4 bitmask associated with the compressed weights,
+            representing the positions of non-zero elements in the compressed
+            tensor.
+        :param layer: The layer whose weights need to be processed after
+            loading.
+        :return: The decompressed 2:4 sparse weight tensor.
+        """
+
+        sparsity_compressor = self.model_compressor.sparsity_compressor
+
+        def _process_split(
+            bitmask_compressed_weight: torch.Tensor,
+            shape,
+            bitmask: torch.Tensor,
+        ) -> torch.Tensor:
+            weight_data = dict(
+                compressed=bitmask_compressed_weight,
+                shape=shape,
+                bitmask=bitmask,
+            )
+            return sparsity_compressor.decompress_weight(weight_data)
+
+        split_weights: list[torch.Tensor] = []
+        split_bitmask: list[torch.Tensor] = []
+        split_shape: list[tuple[int, int]] = []
+
+        if isinstance(layer, (QKVParallelLinear, MergedColumnParallelLinear)):
+            split_weights = torch.split(compressed, layer.logical_widths)
+            split_bitmask = torch.split(bitmask, layer.logical_widths)
+            split_shape = [
+                (out, layer.input_size_per_partition) for out in layer.logical_widths
+            ]
+
+        if split_weights:
+            decompressed_shards = [
+                _process_split(compressed_weight, shape, bitmask)
+                for compressed_weight, shape, bitmask in zip(
+                    split_weights, split_shape, split_bitmask
+                )
+            ]
+            decompressed = combine_shards(decompressed_shards)
+        else:
+            decompressed = sparsity_compressor.decompress_weight(
+                dict(
+                    compressed=compressed,
+                    shape=(
+                        layer.logical_widths[0],
+                        layer.input_size_per_partition,
+                    ),
+                    bitmask=bitmask,
+                )
+            )
+        return decompressed
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_scheme.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_scheme.py
new file mode 100644
index 0000000..a7f9076
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_scheme.py
@@ -0,0 +1,55 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+
+import torch
+
+__all__ = ["CompressedTensorsScheme"]
+
+
+class CompressedTensorsScheme(ABC):
+    """
+    Abstract class used to describe the weight creation and forward pass
+    of different quantization schemes supported by CompressedTensors.
+    """
+
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        """
+        Get minimum device capability.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def create_weights(self, *args, **kwargs):
+        """
+        Weight creation for the particular scheme. Inputs to this function
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ):
+        """
+        Run the forward pass for the particular scheme. This is where
+        scheme-specific dequant/quant steps/kernels should be applied.
+
+        :param layer: torch.nn.Module with the registered weights and
+            other parameters relevant to the particular scheme.
+        :param x: input to the layer
+        :param bias: bias parameter
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        """
+        Called after weight loading is complete for any cleanup that
+        needs to occur.
+        """
+        raise NotImplementedError
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
new file mode 100644
index 0000000..dd0f4b3
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
@@ -0,0 +1,176 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from torch.nn import Parameter
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.gptq_marlin_24 import (
+    GPTQ_MARLIN_24_MAX_PARALLEL,
+    GPTQ_MARLIN_24_MIN_THREAD_N,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+__all__ = ["CompressedTensorsW4A16Sparse24"]
+W4A16SPARSE24_SUPPORTED_TYPES_MAP = {
+    4: scalar_types.uint4b8,
+}
+W4A16SPARSE24_SUPPORTED_BITS = list(W4A16SPARSE24_SUPPORTED_TYPES_MAP.keys())
+
+
+class CompressedTensorsW4A16Sparse24(CompressedTensorsScheme):
+    def __init__(self, strategy: str, num_bits: int, group_size: int | None = None):
+        self.strategy = strategy
+        self.group_size = group_size
+        self.tile_size = 16
+
+        if num_bits not in W4A16SPARSE24_SUPPORTED_TYPES_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {num_bits}. "
+                f"Supported num_bits = {W4A16SPARSE24_SUPPORTED_BITS}"
+            )
+
+        self.quant_type = W4A16SPARSE24_SUPPORTED_TYPES_MAP[num_bits]
+
+        if self.strategy == "group" and self.group_size is None:
+            raise ValueError("group_size must be given when using strategy group")
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # ampere + up
+        return 80
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # required by torch.compile to be torch.nn.Parameter
+        layer.weight_packed = Parameter(layer.weight_packed.data, requires_grad=False)
+        layer.scale_packed = Parameter(layer.scale_packed.data, requires_grad=False)
+        layer.meta = Parameter(layer.meta.data, requires_grad=False)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        assert params_dtype == torch.float16, (
+            "float16 is required for marlin24 compressed models. Set dtype=torch.float16"  # noqa: E501
+        )
+
+        pack_factor = 32 // self.quant_type.size_bits
+        output_size_per_partition = sum(output_partition_sizes)
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.tile_size // 2,
+                output_size_per_partition * self.tile_size // pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=pack_factor,
+            marlin_tile_size=self.tile_size,
+            weight_loader=weight_loader,
+        )
+
+        input_groups = (
+            1
+            if self.group_size is None
+            else input_size_per_partition // self.group_size
+        )
+
+        weight_scale_args = {
+            "data": torch.empty(
+                input_groups,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+
+        if self.group_size is not None:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+        else:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+
+        weight_shape = BasevLLMParameter(
+            data=torch.empty(2, dtype=torch.int64), weight_loader=weight_loader
+        )
+
+        meta = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // 8 // 2 // 2,
+                output_size_per_partition * 2,
+                dtype=torch.int16,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=1,
+            marlin_tile_size=2,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_packed", qweight)
+        layer.register_parameter("weight_shape", weight_shape)
+        layer.register_parameter("scale_packed", scales)
+        layer.register_parameter("meta", meta)
+
+        max_workspace_size = (
+            output_size_per_partition // GPTQ_MARLIN_24_MIN_THREAD_N
+        ) * GPTQ_MARLIN_24_MAX_PARALLEL
+
+        workspace = Parameter(
+            torch.zeros(max_workspace_size, dtype=torch.int), requires_grad=False
+        )
+        layer.workspace = workspace
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        qweight = layer.weight_packed
+        meta = layer.meta
+        scales = layer.scale_packed
+        workspace = layer.workspace
+
+        x_2d = x.view(-1, x.shape[-1])
+
+        size_m = x_2d.shape[0]
+        size_k = x_2d.shape[1]
+        size_n = scales.shape[1]
+
+        output_2d = ops.gptq_marlin_24_gemm(
+            x_2d,
+            qweight,
+            meta,
+            scales,
+            workspace,
+            self.quant_type,
+            size_m,
+            size_n,
+            size_k,
+        )
+
+        output = output_2d.view(x.shape[:-1] + (output_2d.shape[1],))
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
new file mode 100644
index 0000000..3afadc6
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
@@ -0,0 +1,124 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    apply_fp4_marlin_linear,
+    prepare_fp4_layer_for_marlin,
+)
+from vllm.model_executor.parameter import (
+    GroupQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+
+__all__ = ["CompressedTensorsW4A16Fp4"]
+
+
+class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
+    def __init__(self, has_input_global_scale: bool = False):
+        self.has_input_global_scale = has_input_global_scale
+        self.group_size = 16
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # dont restrict as emulations
+        return 80
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+
+        # Weight
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_packed", weight)
+
+        # Global Weight Scale
+        weight_global_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_global_scale", weight_global_scale)
+
+        # Per Group Weight Scale
+        weight_scale = GroupQuantScaleParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // self.group_size,
+                dtype=torch.float8_e4m3fn,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+        if self.has_input_global_scale:
+            input_global_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("input_global_scale", input_global_scale)
+
+    def process_weights_after_loading(self, layer) -> None:
+        # Process parameters for marlin repacking
+
+        # Rename weight_packed to weight that marlin expects
+        layer.weight = Parameter(layer.weight_packed.data, requires_grad=False)
+        del layer.weight_packed
+        # Rename weight_global_scale to weight_scale_2 that marlin expects
+        # Note: ct stores the inverse of what is expected by the marlin kernel
+        layer.weight_scale_2 = Parameter(
+            1 / layer.weight_global_scale.max().to(torch.float32), requires_grad=False
+        )
+        del layer.weight_global_scale
+
+        if self.has_input_global_scale:
+            layer.input_global_scale = torch.nn.Parameter(
+                layer.input_global_scale.data, requires_grad=False
+            )
+
+        prepare_fp4_layer_for_marlin(layer)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return apply_fp4_marlin_linear(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            weight_scale_2=layer.weight_scale_2,
+            workspace=layer.workspace,
+            size_n=layer.output_size_per_partition,
+            size_k=layer.input_size_per_partition,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
new file mode 100644
index 0000000..b603bdb
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
@@ -0,0 +1,218 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+
+import torch
+from torch.nn.parameter import Parameter
+
+import vllm.envs as envs
+from vllm._custom_ops import cutlass_scaled_fp4_mm, scaled_fp4_quant
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.utils.nvfp4_emulation_utils import (  # noqa: E501
+    run_nvfp4_emulations,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    cutlass_fp4_supported,
+    swizzle_blockscale,
+)
+from vllm.model_executor.parameter import (
+    GroupQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+from vllm.utils.flashinfer import flashinfer_scaled_fp4_mm, has_flashinfer
+
+logger = init_logger(__name__)
+
+__all__ = ["CompressedTensorsW4A4Fp4"]
+
+
+class CompressedTensorsW4A4Fp4(CompressedTensorsScheme):
+    def __init__(self):
+        self.backend = "none"
+        if envs.VLLM_NVFP4_GEMM_BACKEND is None:
+            if has_flashinfer():
+                self.backend = "flashinfer-cutlass"
+            elif cutlass_fp4_supported():
+                self.backend = "cutlass"
+        elif envs.VLLM_USE_FBGEMM:
+            self.backend = "fbgemm"
+            try:
+                import fbgemm_gpu  # noqa: F401
+            except ImportError as exc:
+                raise ImportError(
+                    "Backend fbgemm requires fbgemm.f4f4bf16 operator, "
+                    "Please install with: pip install fbgemm-gpu-genai"
+                ) from exc
+        elif envs.VLLM_NVFP4_GEMM_BACKEND.startswith("flashinfer-"):
+            self.backend = envs.VLLM_NVFP4_GEMM_BACKEND
+            assert has_flashinfer(), f"FlashInfer is required for {self.backend}"
+        elif envs.VLLM_NVFP4_GEMM_BACKEND == "cutlass":
+            self.backend = "cutlass"
+            assert cutlass_fp4_supported(), f"Cutlass is required for {self.backend}"
+
+        if self.backend == "none":
+            raise ValueError(
+                "No valid NVFP4 GEMM backend found. "
+                "Please check your platform capability."
+            )
+
+        logger.info_once(f"Using {self.backend} for NVFP4 GEMM")
+        self.group_size = 16
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        if envs.VLLM_USE_NVFP4_CT_EMULATIONS:
+            return 80
+        return 100
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+
+        # Weight
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_packed", weight)
+
+        # Global Weight Scale
+        weight_global_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_global_scale", weight_global_scale)
+
+        # Per Group Weight Scale
+        weight_scale = GroupQuantScaleParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // self.group_size,
+                dtype=torch.float8_e4m3fn,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+        input_global_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("input_global_scale", input_global_scale)
+
+    def process_weights_after_loading(self, layer) -> None:
+        global_input_scale = layer.input_global_scale.max().to(torch.float32)
+        layer.input_global_scale = Parameter(global_input_scale, requires_grad=False)
+
+        layer.weight_global_scale = Parameter(
+            layer.weight_global_scale.max().to(torch.float32), requires_grad=False
+        )
+
+        if self.backend == "flashinfer-trtllm":
+            # FlashInfer TRTLLM FP4 GEMM requires a different weight layout.
+            # FlashInfer provides nvfp4_quantize to quantize + shuffle the
+            # layout but we use our own quantization so we have to call
+            # shuffles ourselves.
+            from flashinfer import shuffle_matrix_a, shuffle_matrix_sf_a
+
+            weight = layer.weight_packed.data
+            weight_scale = layer.weight_scale.data
+
+            epilogue_tile_m = 128
+            weight = shuffle_matrix_a(weight.view(torch.uint8), epilogue_tile_m)
+            weight_scale = (
+                shuffle_matrix_sf_a(weight_scale.view(torch.uint8), epilogue_tile_m)
+                .reshape(weight_scale.shape)
+                .view(torch.float8_e4m3fn)
+            )
+
+            layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+            layer.weight_packed = Parameter(weight, requires_grad=False)
+        else:
+            swizzled_weight_scale = swizzle_blockscale(layer.weight_scale)
+            if self.backend == "fbgemm":
+                swizzled_weight_scale = swizzled_weight_scale.view(-1).view(torch.uint8)
+            layer.weight_scale = Parameter(swizzled_weight_scale, requires_grad=False)
+            layer.weight_packed = Parameter(
+                layer.weight_packed.data, requires_grad=False
+            )
+
+        layer.alpha = Parameter(
+            1 / (layer.input_global_scale * layer.weight_global_scale),
+            requires_grad=False,
+        )
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if envs.VLLM_USE_NVFP4_CT_EMULATIONS:
+            out = run_nvfp4_emulations(
+                x=x,
+                input_global_scale=layer.input_global_scale,
+                weight=layer.weight_packed,
+                weight_scale_swizzled=layer.weight_scale,
+                weight_global_scale=layer.weight_global_scale,
+            )
+            if bias is not None:
+                out = out + bias
+            return out
+
+        output_dtype = x.dtype
+        output_shape = [x.shape[0], layer.weight_packed.shape[0]]
+
+        # quantize BF16 or FP16 to (FP4 and interleaved block scale)
+        x_fp4, x_blockscale = scaled_fp4_quant(x, layer.input_global_scale)
+
+        mm_args = (
+            x_fp4,
+            layer.weight_packed,
+            x_blockscale,
+            layer.weight_scale,
+            layer.alpha,
+            output_dtype,
+        )
+        if self.backend.startswith("flashinfer-"):
+            backend_name = self.backend[len("flashinfer-") :]
+            out = flashinfer_scaled_fp4_mm(*mm_args, backend=backend_name)
+        elif self.backend == "fbgemm":
+            out = torch.ops.fbgemm.f4f4bf16(
+                x_fp4,
+                layer.weight_packed,
+                x_blockscale.view(-1).view(torch.uint8),
+                layer.weight_scale,
+                layer.alpha,
+                use_mx=False,
+            ).to(output_dtype)
+        else:
+            assert self.backend == "cutlass"
+            out = cutlass_scaled_fp4_mm(*mm_args)
+
+        if bias is not None:
+            out = out + bias
+        return out.view(*output_shape)
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_fp8.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_fp8.py
new file mode 100644
index 0000000..a23961e
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_fp8.py
@@ -0,0 +1,183 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.quantization import ActivationOrdering
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
+    MPLinearLayerConfig,
+    choose_mp_linear_kernel,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_repeat_scales_on_all_ranks,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+__all__ = ["CompressedTensorsW4A8Fp8"]
+W4A8_SUPPORTED_TYPES_MAP = {
+    4: scalar_types.int4,
+}
+W4A8_SUPPORTED_BITS = list(W4A8_SUPPORTED_TYPES_MAP.keys())
+
+
+class CompressedTensorsW4A8Fp8(CompressedTensorsScheme):
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(
+        self,
+        strategy: str,
+        num_bits: int,
+        group_size: int | None = None,
+        symmetric: bool | None = True,
+        actorder: ActivationOrdering | None = None,
+    ):
+        self.pack_factor = 32 // num_bits
+        self.strategy = strategy
+        self.symmetric = symmetric
+        self.group_size = -1 if group_size is None else group_size
+        self.has_g_idx = actorder == ActivationOrdering.GROUP
+
+        if self.group_size != 128 or self.strategy != "group":
+            raise ValueError(
+                "W4A8 kernels require group quantization with group size 128"
+            )
+
+        if num_bits not in W4A8_SUPPORTED_TYPES_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {num_bits}. "
+                f"Supported num_bits = {W4A8_SUPPORTED_TYPES_MAP.keys()}"
+            )
+
+        self.quant_type = W4A8_SUPPORTED_TYPES_MAP[num_bits]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # hopper
+        return 90
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_size: int,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+
+        mp_linear_kernel_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_type,
+            act_type=torch.float8_e4m3fn,  # always use fp8(e4m3)
+            group_size=self.group_size,
+            zero_points=not self.symmetric,
+            has_g_idx=self.has_g_idx,
+            out_type=params_dtype,
+        )
+
+        kernel_type = choose_mp_linear_kernel(mp_linear_kernel_config)
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for CompressedTensorsW4A8Fp8", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        # If group_size is -1, we are in channelwise case.
+        group_size = self.group_size if self.group_size != -1 else input_size
+        row_parallel = input_size != input_size_per_partition
+        partition_scales = not marlin_repeat_scales_on_all_ranks(
+            self.has_g_idx, self.group_size, row_parallel
+        )
+
+        scales_and_zp_size = input_size // group_size
+
+        if partition_scales:
+            assert input_size_per_partition % group_size == 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        weight = PackedvLLMParameter(
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+            packed_factor=self.pack_factor,
+            packed_dim=1,
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // self.pack_factor,
+                dtype=torch.int32,
+            ),
+        )
+
+        # TODO(czhu): allocate the packed fp8 scales memory here?
+        # the scales will be expanded by 8x via `cutlass_pack_scale_fp8`
+        weight_scale_args = {
+            "weight_loader": weight_loader,
+            "data": torch.empty(
+                output_size_per_partition,
+                scales_and_zp_size,
+                dtype=torch.float8_e4m3fn,
+            ),
+        }
+
+        if not partition_scales:
+            weight_scale = ChannelQuantScaleParameter(output_dim=0, **weight_scale_args)
+        else:
+            weight_scale = GroupQuantScaleParameter(
+                output_dim=0, input_dim=1, **weight_scale_args
+            )
+
+        # A 2D array defining the original shape of the weights
+        # before packing
+        weight_shape = BasevLLMParameter(
+            data=torch.empty(2, dtype=torch.int64), weight_loader=weight_loader
+        )
+
+        # per-channel scales
+        weight_chan_scale = ChannelQuantScaleParameter(
+            data=torch.empty((output_size_per_partition, 1), dtype=torch.float32),
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_packed", weight)
+        layer.register_parameter("weight_scale", weight_scale)
+        layer.register_parameter("weight_shape", weight_shape)
+        layer.register_parameter("weight_chan_scale", weight_chan_scale)
+
+        self.kernel = kernel_type(
+            mp_linear_kernel_config,
+            w_q_param_name="weight_packed",
+            w_s_param_name="weight_scale",
+            w_zp_param_name="weight_zero_point",
+            w_gidx_param_name="weight_g_idx",
+        )
+
+    # Checkpoints are serialized in compressed-tensors format, which is
+    # different from the format the kernel may want. Handle repacking here.
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_int.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_int.py
new file mode 100644
index 0000000..aa0c52b
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a8_int.py
@@ -0,0 +1,153 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
+    MPLinearLayerConfig,
+    choose_mp_linear_kernel,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    ModelWeightParameter,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+__all__ = ["CompressedTensorsW4A8Int"]
+W4A8_SUPPORTED_TYPES_MAP = {
+    4: scalar_types.int4,
+}
+W4A8_SUPPORTED_BITS = list(W4A8_SUPPORTED_TYPES_MAP.keys())
+
+
+class CompressedTensorsW4A8Int(CompressedTensorsScheme):
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(
+        self,
+        strategy: str,
+        num_bits: int,
+        group_size: int | None = None,
+        is_static_input_scheme: bool = False,
+        input_symmetric: bool = True,
+    ):
+        self.strategy = strategy
+        self.group_size = -1 if group_size is None else group_size
+        self.is_static_input_scheme = is_static_input_scheme
+        self.input_symmetric = input_symmetric
+
+        if num_bits not in W4A8_SUPPORTED_TYPES_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {num_bits}."
+                f"Supported num_bits = {W4A8_SUPPORTED_TYPES_MAP.keys()}"
+            )
+        self.quant_type = W4A8_SUPPORTED_TYPES_MAP[num_bits]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 1
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_size: int,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        row_parallel = input_size != input_size_per_partition
+
+        # Compute effective group_size
+        if self.group_size == -1:
+            effective_group_size = (
+                input_size_per_partition if row_parallel else input_size
+            )
+        else:
+            effective_group_size = self.group_size
+
+        # Ensure group_size divides input_size_per_partition
+        assert input_size_per_partition % effective_group_size == 0, (
+            f"input_size_per_partition {input_size_per_partition}"
+            f" not divisible by group_size {effective_group_size}"
+        )
+
+        # Determine scale partitioning
+        is_channelwise = self.group_size == -1
+        repeat_scales = is_channelwise and row_parallel
+        partition_scales = not repeat_scales
+
+        mp_linear_kernel_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_type,
+            act_type=params_dtype,
+            group_size=effective_group_size,
+            zero_points=False,
+            has_g_idx=False,
+        )
+
+        kernel_type = choose_mp_linear_kernel(mp_linear_kernel_config)
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for CompressedTensorsW4A8Int", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        scales_and_zp_size = input_size_per_partition // effective_group_size
+
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition, input_size_per_partition, dtype=torch.int8
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        weight_scale_args = {
+            "weight_loader": weight_loader,
+            "data": torch.empty(
+                output_size_per_partition, scales_and_zp_size, dtype=params_dtype
+            ),
+        }
+
+        if partition_scales:
+            weight_scale = GroupQuantScaleParameter(
+                output_dim=0, input_dim=1, **weight_scale_args
+            )
+        else:
+            weight_scale = ChannelQuantScaleParameter(output_dim=0, **weight_scale_args)
+
+        layer.register_parameter("weight_packed", weight)
+        layer.register_parameter("weight_scale", weight_scale)
+
+        self.kernel = kernel_type(
+            mp_linear_kernel_config,
+            w_q_param_name="weight_packed",
+            w_s_param_name="weight_scale",
+            w_zp_param_name=None,
+            w_gidx_param_name=None,
+        )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
new file mode 100644
index 0000000..904a9f5
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
@@ -0,0 +1,138 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.quantization import QuantizationStrategy
+
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    apply_fp8_marlin_linear,
+    prepare_fp8_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    convert_to_channelwise,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+
+__all__ = ["CompressedTensorsW8A16Fp8"]
+
+SUPPORTED_STRATEGIES = [QuantizationStrategy.CHANNEL, QuantizationStrategy.TENSOR]
+
+
+class CompressedTensorsW8A16Fp8(CompressedTensorsScheme):
+    def __init__(self, strategy: str, is_static_input_scheme: bool):
+        self.strategy = strategy
+        self.is_static_input_scheme = is_static_input_scheme
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # ampere and up
+        return 80
+
+    # W8A8-Fp8 kernels support only per-tensor and per-channel cases.
+    # So if we have a fused module (QKV, MLP) with per tensor scales,
+    # we expand each scale to its shard's channels.
+    def process_weights_after_loading(self, layer) -> None:
+        if self.strategy == QuantizationStrategy.TENSOR:
+            ws_channelwise = convert_to_channelwise(
+                layer.weight_scale, layer.logical_widths
+            )
+            layer.weight_scale = torch.nn.Parameter(ws_channelwise, requires_grad=False)
+        else:
+            # required by torch.compile to be torch.nn.Parameter
+            layer.weight_scale = torch.nn.Parameter(
+                layer.weight_scale.data, requires_grad=False
+            )
+
+        # Weights must be transposed for marlin
+        layer.weight = torch.nn.Parameter(layer.weight.t(), requires_grad=False)
+
+        if self.is_static_input_scheme:
+            # required by torch.compile to be torch.nn.Parameter
+            layer.input_scale = torch.nn.Parameter(
+                layer.input_scale.data, requires_grad=False
+            )
+        prepare_fp8_layer_for_marlin(layer)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
+        # WEIGHT
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition,
+                dtype=torch.float8_e4m3fn,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        if self.strategy == QuantizationStrategy.CHANNEL:
+            weight_scale = ChannelQuantScaleParameter(
+                data=torch.empty((sum(output_partition_sizes), 1), dtype=torch.float32),
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+        elif self.strategy == QuantizationStrategy.TENSOR:
+            weight_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+        else:
+            raise ValueError(
+                f"Unsupported weight strategy={self.strategy}, "
+                f"supported strategies are {SUPPORTED_STRATEGIES}"
+            )
+
+        weight_scale[:] = torch.finfo(torch.float32).min
+        layer.register_parameter("weight_scale", weight_scale)
+
+        # INPUT SCALE (to deal with converted checkpoints)
+        if self.is_static_input_scheme:
+            input_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("input_scale", input_scale)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return apply_fp8_marlin_linear(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            workspace=layer.workspace,
+            size_n=layer.output_size_per_partition,
+            size_k=layer.input_size_per_partition,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
new file mode 100644
index 0000000..ee99572
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -0,0 +1,200 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.quantization import QuantizationArgs, QuantizationStrategy
+from torch.nn import Parameter
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    W8A8BlockFp8LinearOp,
+    create_fp8_input_scale,
+    create_fp8_scale_parameter,
+    create_fp8_weight_parameter,
+    maybe_post_process_fp8_weight_block,
+    process_fp8_weight_block_strategy,
+    process_fp8_weight_channel_strategy,
+    process_fp8_weight_tensor_strategy,
+    validate_fp8_block_shape,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    Fp8LinearOp,
+    cutlass_block_fp8_supported,
+    maybe_create_device_identity,
+)
+from vllm.model_executor.parameter import (
+    BlockQuantScaleParameter,
+    ChannelQuantScaleParameter,
+    PerTensorScaleParameter,
+)
+
+__all__ = ["CompressedTensorsW8A8Fp8"]
+
+strategy_to_parameter_type = {
+    QuantizationStrategy.BLOCK: BlockQuantScaleParameter,
+    QuantizationStrategy.CHANNEL: ChannelQuantScaleParameter,
+    QuantizationStrategy.TENSOR: PerTensorScaleParameter,
+}
+
+
+class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
+    def __init__(self, weight_quant: QuantizationArgs, is_static_input_scheme: bool):
+        self.weight_quant = weight_quant
+        self.strategy = weight_quant.strategy
+        self.out_dtype = torch.get_default_dtype()
+        self.is_static_input_scheme = is_static_input_scheme
+
+        self.weight_block_size = self.weight_quant.block_structure
+        if self.weight_block_size is not None:
+            self.act_q_group_shape = GroupShape(1, self.weight_block_size[0])
+        else:
+            self.act_q_group_shape = (
+                GroupShape.PER_TENSOR
+                if is_static_input_scheme
+                else GroupShape.PER_TOKEN
+            )
+
+        self.cutlass_block_fp8_supported = cutlass_block_fp8_supported()
+        self.use_aiter_and_is_supported = rocm_aiter_ops.is_linear_fp8_enaled()
+
+        if self.weight_block_size is not None:
+            assert not self.is_static_input_scheme
+            self.w8a8_block_fp8_linear = W8A8BlockFp8LinearOp(
+                weight_group_shape=GroupShape(*self.weight_block_size),
+                act_quant_group_shape=self.act_q_group_shape,
+                cutlass_block_fp8_supported=self.cutlass_block_fp8_supported,
+                use_aiter_and_is_supported=self.use_aiter_and_is_supported,
+            )
+        else:
+            self.fp8_linear = Fp8LinearOp(
+                act_quant_static=self.is_static_input_scheme,
+                act_quant_group_shape=self.act_q_group_shape,
+            )
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # lovelace and up
+        return 89
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        maybe_create_device_identity()
+
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+        layer.weight_block_size = None
+        layer.orig_dtype = params_dtype
+
+        if self.strategy == QuantizationStrategy.BLOCK:
+            assert self.weight_block_size is not None
+            layer.weight_block_size = self.weight_block_size
+            # Validate block quantization shapes
+            validate_fp8_block_shape(
+                layer,
+                input_size,
+                output_size,
+                input_size_per_partition,
+                output_partition_sizes,
+                self.weight_block_size,
+            )
+
+        # WEIGHT
+        weight = create_fp8_weight_parameter(
+            output_size_per_partition, input_size_per_partition, weight_loader
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        weight_scale = create_fp8_scale_parameter(
+            strategy_to_parameter_type[self.strategy],
+            output_partition_sizes,
+            input_size_per_partition,
+            layer.weight_block_size,
+            weight_loader,
+        )
+        layer.register_parameter("weight_scale", weight_scale)
+
+        # INPUT SCALE
+        if self.is_static_input_scheme:
+            input_scale = create_fp8_input_scale(output_partition_sizes, weight_loader)
+            layer.register_parameter("input_scale", input_scale)
+
+    def process_weights_after_loading(self, layer) -> None:
+        if self.strategy == QuantizationStrategy.TENSOR:
+            weight, weight_scale, input_scale = process_fp8_weight_tensor_strategy(
+                layer.weight,
+                layer.weight_scale,
+                layer.logical_widths,
+                getattr(layer, "input_scale", None),
+            )
+            weight = weight.t()
+
+        elif self.strategy == QuantizationStrategy.CHANNEL:
+            weight, weight_scale, input_scale = process_fp8_weight_channel_strategy(
+                layer.weight, layer.weight_scale, getattr(layer, "input_scale", None)
+            )
+            weight = weight.t()
+
+        elif self.strategy == QuantizationStrategy.BLOCK:
+            assert self.is_static_input_scheme is False
+            weight, weight_scale = process_fp8_weight_block_strategy(
+                layer.weight, layer.weight_scale
+            )
+            input_scale = None
+
+        else:
+            raise ValueError(f"Unknown quantization strategy {self.strategy}")
+
+        # required by torch.compile to be torch.nn.Parameter
+        layer.weight = Parameter(weight.data, requires_grad=False)
+        layer.weight_scale = Parameter(weight_scale.data, requires_grad=False)
+        if input_scale is not None:
+            layer.input_scale = Parameter(input_scale.data, requires_grad=False)
+
+        # INPUT SCALE
+        if self.is_static_input_scheme and hasattr(layer, "input_scale"):
+            layer.input_scale = Parameter(layer.input_scale.max(), requires_grad=False)
+        else:
+            layer.input_scale = None
+
+        if self.strategy == QuantizationStrategy.BLOCK:
+            maybe_post_process_fp8_weight_block(layer)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.weight_block_size is not None:
+            return self.w8a8_block_fp8_linear.apply(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                input_scale=layer.input_scale,
+                bias=bias,
+            )
+
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            out_dtype=self.out_dtype,
+            input_scale=layer.input_scale,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
new file mode 100644
index 0000000..8400d0d
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
@@ -0,0 +1,137 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.quantization import QuantizationStrategy
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm import (
+    ScaledMMLinearLayerConfig,
+    choose_scaled_mm_linear_kernel,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+
+logger = init_logger(__name__)
+
+
+class CompressedTensorsW8A8Int8(CompressedTensorsScheme):
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(
+        self, strategy: str, is_static_input_scheme: bool, input_symmetric: bool
+    ):
+        import vllm.envs as env
+        if env.VLLM_MIX_QUANTIZATION_TYPE == "TENSOR":
+            self.strategy = QuantizationStrategy.TENSOR
+        elif env.VLLM_MIX_QUANTIZATION_TYPE == "CHANNEL":
+            self.strategy = QuantizationStrategy.CHANNEL
+        else:
+            self.strategy = strategy
+        self.is_static_input_scheme = is_static_input_scheme
+        self.input_symmetric = input_symmetric
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # turing and up
+        return 75
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        layer.logical_widths = output_partition_sizes
+
+        scaled_mm_linear_kernel_config = ScaledMMLinearLayerConfig(
+            is_channelwise=(self.strategy == QuantizationStrategy.CHANNEL),
+            is_static_input_scheme=self.is_static_input_scheme,
+            input_symmetric=self.input_symmetric,
+        )
+
+        kernel_type = choose_scaled_mm_linear_kernel(scaled_mm_linear_kernel_config)
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for CompressedTensorsW8A8Int8", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        remainder = input_size_per_partition % 64
+        if remainder != 0:
+            input_size_per_partition_padded = input_size_per_partition + (64 - remainder)
+        else:
+            input_size_per_partition_padded = input_size_per_partition
+        
+        # WEIGHT
+        weight = ModelWeightParameter(data=torch.empty(
+            sum(output_partition_sizes),
+            input_size_per_partition_padded,
+            dtype=torch.int8),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        if self.strategy == QuantizationStrategy.CHANNEL:
+            weight_scale = ChannelQuantScaleParameter(
+                data=torch.empty((sum(output_partition_sizes), 1), dtype=torch.float32),
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+        else:
+            assert self.strategy == QuantizationStrategy.TENSOR
+            weight_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+        layer.register_parameter("weight_scale", weight_scale)
+
+        # INPUT SCALE
+        if self.is_static_input_scheme:
+            input_scale = BasevLLMParameter(
+                data=torch.empty(1, dtype=torch.float32), weight_loader=weight_loader
+            )
+            layer.register_parameter("input_scale", input_scale)
+
+            if not self.input_symmetric:
+                # Note: compressed-tensors stores the zp using the same dtype
+                # as the weights
+                # AZP loaded as int8 but used as int32
+                input_zero_point = BasevLLMParameter(
+                    data=torch.empty(1, dtype=torch.int8), weight_loader=weight_loader
+                )
+                layer.register_parameter("input_zero_point", input_zero_point)
+
+        self.kernel = kernel_type(
+            c=scaled_mm_linear_kernel_config,
+            w_q_param_name="weight",
+            w_s_param_name="weight_scale",
+            i_s_param_name="input_scale",
+            i_zp_param_name="input_zero_point",
+            azp_adj_param_name="azp_adj",
+        )
+
+    # Checkpoints are serialized in compressed-tensors format, which is
+    # different from the format the kernel may want. Handle repacking here.
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
new file mode 100644
index 0000000..2267395
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
@@ -0,0 +1,219 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.quantization import ActivationOrdering
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
+    MPLinearLayerConfig,
+    choose_mp_linear_kernel,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_repeat_scales_on_all_ranks,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+__all__ = ["CompressedTensorsWNA16"]
+WNA16_SUPPORTED_TYPES_MAP = {4: scalar_types.uint4b8, 8: scalar_types.uint8b128}
+WNA16_ZP_SUPPORTED_TYPES_MAP = {4: scalar_types.uint4, 8: scalar_types.uint8}
+WNA16_SUPPORTED_BITS = list(WNA16_SUPPORTED_TYPES_MAP.keys())
+
+
+class CompressedTensorsWNA16(CompressedTensorsScheme):
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(
+        self,
+        strategy: str,
+        num_bits: int,
+        group_size: int | None = None,
+        symmetric: bool | None = True,
+        actorder: ActivationOrdering | None = None,
+    ):
+        self.pack_factor = 32 // num_bits
+        self.strategy = strategy
+        self.symmetric = symmetric
+        self.group_size = -1 if group_size is None else group_size
+        self.has_g_idx = actorder == ActivationOrdering.GROUP
+
+        if self.group_size == -1 and self.strategy != "channel":
+            raise ValueError(
+                "Marlin kernels require group quantization or "
+                "channelwise quantization, but found no group "
+                "size and strategy is not channelwise."
+            )
+
+        if num_bits not in WNA16_SUPPORTED_TYPES_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {num_bits}. "
+                f"Supported num_bits = {WNA16_SUPPORTED_TYPES_MAP.keys()}"
+            )
+
+        self.quant_type = (
+            WNA16_ZP_SUPPORTED_TYPES_MAP[num_bits]
+            if not self.symmetric
+            else WNA16_SUPPORTED_TYPES_MAP[num_bits]
+        )
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # ampere and up
+        return 80
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_size: int,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+
+        mp_linear_kernel_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_type,
+            act_type=params_dtype,
+            group_size=self.group_size,
+            zero_points=not self.symmetric,
+            has_g_idx=self.has_g_idx,
+        )
+
+        kernel_type = choose_mp_linear_kernel(mp_linear_kernel_config)
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for CompressedTensorsWNA16", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        # If group_size is -1, we are in channelwise case.
+        group_size = self.group_size if self.group_size != -1 else input_size
+        row_parallel = input_size != input_size_per_partition
+        partition_scales = not marlin_repeat_scales_on_all_ranks(
+            self.has_g_idx, self.group_size, row_parallel
+        )
+
+        scales_and_zp_size = input_size // group_size
+
+        if partition_scales:
+            assert input_size_per_partition % group_size == 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        weight = PackedvLLMParameter(
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+            packed_factor=self.pack_factor,
+            packed_dim=1,
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // self.pack_factor,
+                dtype=torch.int32,
+            ),
+        )
+
+        weight_scale_args = {
+            "weight_loader": weight_loader,
+            "data": torch.empty(
+                output_size_per_partition,
+                scales_and_zp_size,
+                dtype=params_dtype,
+            ),
+        }
+
+        zeros_args = {
+            "weight_loader": weight_loader,
+            "data": torch.zeros(
+                output_size_per_partition // self.pack_factor,
+                scales_and_zp_size,
+                dtype=torch.int32,
+            ),
+        }
+
+        if not partition_scales:
+            weight_scale = ChannelQuantScaleParameter(output_dim=0, **weight_scale_args)
+
+            if not self.symmetric:
+                qzeros = PackedColumnParameter(
+                    output_dim=0,
+                    packed_dim=0,
+                    packed_factor=self.pack_factor,
+                    **zeros_args,
+                )
+        else:
+            weight_scale = GroupQuantScaleParameter(
+                output_dim=0, input_dim=1, **weight_scale_args
+            )
+            if not self.symmetric:
+                qzeros = PackedvLLMParameter(
+                    input_dim=1,
+                    output_dim=0,
+                    packed_dim=0,
+                    packed_factor=self.pack_factor,
+                    **zeros_args,
+                )
+
+        # A 2D array defining the original shape of the weights
+        # before packing
+        weight_shape = BasevLLMParameter(
+            data=torch.empty(2, dtype=torch.int64), weight_loader=weight_loader
+        )
+
+        layer.register_parameter("weight_packed", weight)
+        layer.register_parameter("weight_scale", weight_scale)
+        layer.register_parameter("weight_shape", weight_shape)
+
+        if not self.symmetric:
+            layer.register_parameter("weight_zero_point", qzeros)
+
+        # group index (for activation reordering)
+        if self.has_g_idx:
+            weight_g_idx = RowvLLMParameter(
+                data=torch.empty(
+                    input_size_per_partition,
+                    dtype=torch.int32,
+                ),
+                input_dim=0,
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("weight_g_idx", weight_g_idx)
+
+        self.kernel = kernel_type(
+            mp_linear_kernel_config,
+            w_q_param_name="weight_packed",
+            w_s_param_name="weight_scale",
+            w_zp_param_name="weight_zero_point",
+            w_gidx_param_name="weight_g_idx",
+        )
+
+    # Checkpoints are serialized in compressed-tensors format, which is
+    # different from the format the kernel may want. Handle repacking here.
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/__init__.py b/model_executor/layers/quantization/compressed_tensors/transform/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1564fb6320601d40c333504a814995163f6a3129
GIT binary patch
literal 213
zcmZ8b%LxKO4BhbqB3OurHAfZ15^P}@HR|B}%w%QP7A(LTti=wzT7h`;WcKQVm%Jp8
z@E)Vlun@T3)wccBmVbPDvbhyaF;=U4K^>Vst>??YK0&gnWJ7!8vaY7{*>Q^C>>5(T
zhZx}OoChDb=rq>2sW=ii(;#IyRVJ{#7`EcuM4t$A#;s-yIm(^MguIL7L2DZ<YduNL
YbFh$amBS_VC4>^@R=m4PDe8*)0siqkeE<Le

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/linear.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..35e8100e435593f201aa08fa437b19c2e931ebf4
GIT binary patch
literal 10625
zcmcIqYit`=cD_Rn$>BpHB~qkBQzB(O8B3J>lx$0K9LaB6PAuE$D(j^f&Pb-rhcYvA
zY?Z8?AY0I=v6dIxwT#_G6m(H2$Szj<tM0G5MX?P~px~Ic$qrmVi}**kKMFc>k#7IA
z=icFvltOzQY<dCSxzBT7=brPObNSCTH6{chO8-UVWCucD;EWn-i;49q3ZXlQMJyFX
zF=~>EX(lxk&TFFD7(Gdov^J`n)Ik{?)yE8zh8Q!+#Eg^1m}$~P>UB|b%ra>qX??UN
zRy$c6vrbw`-Vn9L>L%+*nu*rO?2~qqHbxz>hRFsBY0weGnm$6TnX`VTRpvG6WG$R-
zHlR+o{GIJDr_~f&!!@zB9K&iC3<$AS&doJ(TezksXfUn8F>B*IP}<BjDEZ2?QZj8~
z>pr3<TPo<-I1Th_;!K=jT8pU=dNf-P?Yv~n>LaNm>sdRr^j+2Z9lyg<^=o8iG!%`7
z-i>my@dy{^_>h?3{giA9g~Ri)`DjSw#{INhbCwUqh3NzzJIK!nvbB^QO~j`oGjd(2
z;AA2k5+jLtMVpE6MJ~nxQ6?e;V<9no5yo}DedyScqi2IBPahmRbS8LyM{wfYn{S>z
zbN0}fY&#i=b0Pi|CtggjZ-fNg*EO1m&GDQdaO_zwE+lxNM7Hi|hz-R;JX@Lsw685?
z&d$$8xiDU?8Z5=cI!{=QLz5JXCN(TIspV)^!|7Npr)Oz$bUMz!F`Th@X!;E~1B>90
zn2+esiUcQ3r1wkuOzT-A9D$iNah6%PI-&A+)>BTaDPThen9s^FgmG#hhgr)C6ntu%
z@^{+8+F*n_U>-DCZ$zx?8;w;DR6EPm)D&xfLAkO^hU&G`4D0wvH|by-IA&VII$>T7
zS80Ev-1)WBRF1rKXv*0yd}8uJc$*K+3BIWp^ii5l`4YTu>RkN2`A}SpEO2Zk4^8<(
zan=`NS%J`t#OLNkQk0k%aZ*&dTkweq9~TiXa=cH7u$(V3?Sl-^j?6^jp{Or3Hy6F?
zixJKwv}6kzF{l)&If1bJxNIUr1;y!@Ae)uJl#HI|#Cbj*)~Oo|U!2C$X8lhf0trZg
z!~+SK(#13>J%y55flktb<~aJ0(x9Y1sYz--(?C-Qya`HlNh+yL(yGLo06CUKo6G##
zaUOSqE7<tfyci7$!uaLGZ|<txF1Z0N>U&CMaC&Z6P+5*&D~B#eqp?6N!E(_ccZCbj
zgR}@lLsvOo2o!go-2OngbX$X>a$N(ZO%5pJgg}&B^U_H1%P<z-h?j#I-EWY!;i$mZ
z;{rR595`ygQK^vt;uT>Yf$%?kpBS6#n~Ti#iXnc66ML`B59}ShG{E&mBk%UjT?KIx
z@53wT+qi;0Wd(heE9m?B3i?Vb0D4$J1?H~GmT5i_D{hdmu=52xx{0p?m7UsQ1;PkK
z*U?utt<m(%glz7+?_`+njJ5l>X5X@BW#OTD-@n?ot(?5~+Wkve`<aa8%rger?2ALo
z?v;14*1Z{K?>bOGVH(H9fRCB*({V`L!JL4CY8?XZK|v6IN&vn=!6Gk#ZUVju7WG~+
zSE73reM*h{b;_xf4n(#V8C|_dvQ6c7wFI;XEpXB4O+5un8J`}HC7;X$gOPYd3<eka
zUU4hc4*Q_HunnT?s9-_O{xtoNY0A6X)AUVieoH6LHm>a*#$Qi<-$<H%#5D6QcuXBR
zez{Ruf&juJILGn9xezZ#h$?dy*HS78;zojcyK$y;yGh0ZEkiLO$ck6zxG-i>HDLT>
zhTnP=)(vN3m@S=w+5~o-`m9)*Vv=aKbS~u<v!(N>DASkIYAR(+8bwCUU8eZDBsEJg
zm|CWMQ>LUTX<(@#$YQBcbxc)lR&-_cz*QiJk~BykJ*)YtK56(l^#h7RqE&4MQc7Ko
z87SAO<>hbEthU(D56$AMzbU9KS?#4U5CnfEVtGIU(5}*c)}_{$zpA<})57v*77LY4
zA!Yd%>A#}7Pt_zXKLKQ$toaH0nKo4`deuo)Um=_TLv%q=m!zz4#;t0f@;6zVw5s|7
zw22k&c<C%EP7BSpm;0!x@=jIR^(yVZ)m{JN=zkl#US$S<#I9pqMgpsyq00Ov`qlFC
zjVbLrVs&n`01Z;MiXK?pk&v{Nv4GkK&ey5dUj=PCF4w%zMP@FF!Du4Ha=c&9gAImw
zjQ0309ChOe&w_sqM_BI2RPcBI3*l4bcgb4NsYHCs#$Ygvp+hi;C3ZX%<AOmR%Qe0S
zcd8BZ99RxPWjsOFM!C4$5WF0UMp#@9ct};5M5)VkG$M$y9vaMpTs12IfzXv{Q00Qm
zM2mI>kL^U+%5yW&1Ee%)^7$yoV}4hl!B(8YS3%Y;MCN2$S!jbMn&AY09p8qVymaky
zJ$D7PeQ^Q7kSOwkvb4HNxTnm}wqaX?m$%Ec@%dO;e+c{_9uO-ixweEMl)lDNUe*hM
zT0}v>ml7+)4S{G!ekW8d?0!YXxbX~*Kv$s+juh0R6SeKmZ5@=h4&L)-w;oH^V1?P5
z^Ylud-kfJZ@(koWuS=fSGoV1to`>xtl6fTWZO?gkNZuV8izmP1jf|yb>6&EeTVuM@
zbdG6~n5G=lEiv5%#28KadRM+<IN!E6?`q9Aw&j~Tp4C8cp%z(NzqCT?xf8jYGtE1*
zO}o;ydB&1swo1&_<&lTXj^}!0v8Kga*KS<Pn!U@d56o>(+$~Gu$Jg#&%XxQ8-rZU6
zK-N8YuTFCB&$*9C?jz|FPh4A;#y&oM_jJy)L-Op%dUj=9yH`V!YcS^;mR!R**I~(Z
zIDItl+qRTiIk<9hWirz|m>z%H=+E06cdWOqd0Ru?)||I>=WU(qW_?p_`WQ^NraotB
zl`O5xfmQ!Q%TT_pCq4Gi;(KbYO^Z3JSF(Du0MNESFt?LA=DdB9w=d`2BYF2^y@Ofz
z-g~W*dno5VD!GpqXPNW#NS>aYXQ$-Znf2_>y7sKTC%N|KTqBZeB<DIJxsJSOo;jOO
zviV+ZrtQ6WrmY1%vO5;-KN5d>JkvFt^^9a)2kvX{*JoT~Qr%cu|HRk+^NAH_X8VzB
z$I-0sSQ!?DD`5w|PXtQ-H6#GGpjr5C4znf5SguKypbV%SY8KPk6jWtAhAzOpOliat
zTuN%n&_z{T0(H}o)KnWur9+{c9W=U%cpnT@1gdiL9G?h-^FWnI!O%1o9#{}Y;xjT6
zz8HzJJP0XMM2N)UBF4iUku-j7Sz5?OVg6l3-UxW9a6y%8c^EPaW3PBEUpkW?0HvZW
zKyHO{uLdM$;GXUwGqTpy@^Q=Emd8#0^sy(_rX~Nwjy;d819@9h&Nd*~1|He=KGPxh
zYYMKVuE_Mek&v*#D8OKloa9LWWiL9(59;8Ai=YkKmqJpbDwh<1z7L2g3N0%+rP#LG
zNh?rMHBW&8nyms^KlqMlR0o6>Rluq`2jG~42z?huPthdSrS#CF#6Kz(1jY`y3eop9
z08#;_Vm11GjpEUnttq!sQz|DV>0eMP-&Lo8;quK<8t6}eK|Ky`Cj(YD!3gU&C@Kjf
zQdvj52K-i>HgcdFu$ztJhe=&Hnuv4I9GJhTl#b)n2^^gwEr?!_^`Jv%#EX>%ufl!f
z&}gCO6}gYh<S(Iz@DC6XQ^{h>nZ1(Pn=x+#S(vl6OSbmqx3adb^uaZ&J)O)jThhrq
zw6ZiymgbzLO|rBtA6nVI!e%Wy(^P>$n1W9-`!eR9Cq27Y+1#EJ(w-BKdrnHW?nT30
z?^4IIGvBu}*Ec5hjpZE;KMXB3EH|t;KWWJ{^<|uWlA}N8*dsaiWF3R|y9!#=e~4N~
zn*RDl>W8h1=a$YbpTGOPOvAQJ{k8|T9;oj<MHRqGu1hn7(|KS6v_W3cP(Zl+H^3ct
zkXYj7>fEYw6iX3!JHdjfT#c*2fHI3E8OD}w!-rIb)GA3l;7>q9gwJ6Xn?sVgfvb<h
zQrIB5Gyum$-E6BqBE4}{B_ppq&ZbrUlW11!VALw@Uv?MDw1}yMLD;5{(teBdZJUTg
zwwiI5qQCh{;8b3RQvpdZTV)kVE#CDFr(7~$Kct|~E6yxQ7f)}X;`C^B7eAyxW>n>{
z>g$=t@<pdO?iL)U<^|DrF?5;p2>`r(#BH(Q-c+hUXdi~=3$9IdDwg(}_+7BG3IsQu
z$Kd-A&nI|UN1(ETr}y9%uqQ}Cv3qd}Ls>8%h{(csPc|uHFV1pTD!{H5`#rIUSD>sS
zu69FyVdxdbRaKJ#%V)t4SNb}7f`M2iRLom#OZ3OqyH?5C^~CARv<_sQgBjc4)0Vd7
z@y9JY7fpG)>&}7O2bT9q_P}cU-}L>u?|!SaV=QYQd*W`-bnMT%hcb?#f)06iJqOVS
zQ1t&3=&iZ7<Xl~nt1IUUNUp$RSO20mZ+DUzUV32PPUdtl>wY8ScmtOY-X6@^+a-JZ
z3X`?>liHE2`#{EVpkPFe+X2Yi9C$yL>71`$^7Ut|{TZfTk&-^xH@}nL0Uy~EELu)r
z!C8Xff(=C#D^4~9gKQ!U#b#pRDSmAp`+j(=D`lFEghg2!iHkgT@$k(!YR5G?a0Z7j
z%9?mw)}K<$GR!=(j<~^y@xo)MB<qzI93E>f9`gg=ha>EaQ+NcMKs=6ck?<BA^+)KL
zMyq2$>g($Y8oO@anzOT@gD(JFS74QvoVyAJoMli$(~^BDo@wfl9K8i2E;Avgd#P>d
z&ob^_sUc7><1z~}?f9|=QtMikWZ^Zl?f{_+U!c2zkO7x58wjl%ahdxNr8`coSsk~o
z+_-|bzMvx|K%lL&U{KNwYVBB__{3N+DtQxXXe^kOv;{ev3N=c)7P&lkF5SMgZYB9I
z$2B^bs}ptjpBWvxx(%a19>%cL-5R<vR50KigJ2fX8_}h+Qf+GicYvjvthYQjJnLqh
z>#^&$uZ})P@KJV~Y&5onWfO6N77f~xQ5p;@?|aU<Q1}wZ7I_B0;?2zgaOSatVFSFx
z(2XeGe}O~0gCYRU;HRrl!0<+)f~u5W#BE6^LrW0Q{|K-SYEp(2lQNbCXi~2VP-wGS
zgnp)!xkCAZhcRiarre;k8kEF90RpI5KeTuW7=#x4phXpxA(m7^H5GLUoGN@>*=Lh9
zfVa-5f?)8Qnh1!z_y=j1d^yUDar_5p>x#60EMlEa0sxz;YXE<vCP_i8{h3bPW2~fZ
z{st5k_;!f`qQ@6%M?>*=0^ZKZGuYIEZL0ishM&%+WNOM^BR7GgD5x-0+5Lj$iy+%@
zRq+8Rh+RAUX_y(0&qg*V&o+XrkIcjqJUmImJ5(Z$A6tmZ;W22Db;rivJa?7|A6b9;
z+*zDC3l)Bg;?oIZdMu7O996tgY?=$vRN!_YZ*@FTZ0DheY$VEzOc#qiMR`@IFxf+v
zr#xPjuS#)IJP&>T9)7}qKm-W89@RUpAJ0Q{;;FN5)sz`JlXXs9KmD|0cV^Gw#~nu`
zrZsI|Jim1INk?Gi+T)G`;BZJEUot+mH7+#)(%$u}p-+eIIsR_T-)?ziJCt`c-Wk6=
z{>ah32AXX6_VB~@-MRMtQv3b~_We(K_uo75xij<Dxoq$G#p6p04;-(pH8kD1aQni;
z&VgL#h}1dqpkd@mVCddEpLb@?oX-Z{UOcgEdf?awewQsBd3X1U<5$g}Hm_JS14lkL
z-A`sF&So0Vt!p(~oCTz5a6W57ov%}X!8?yqg{`Q@wPeni+cR`K5h!7}^`(G;avS{C
z{~V$dh$80Zb?WLja383q7~FTzGsMWF08neHy?;O(kUlA`VrEWje@xw>z!_i$F7{%F
zz%RA$Q;JhSE7vG;EjYs`=H~=i7ZJIbK=hHHR(OZF?B-zNgfTY0Qt=U7j-xN&Cty?U
z-_d`=QR@-Ym@#<sOzj$W0}V^w;hc9=@{T_C9+JR}f>X{r+;>j?=wx~<Z*N)Fuh5zL
z-mInfnHDv)LgYJ4{a(QP_Thnp6t%&m!DcPUM6~`3i12G(H3Pk3zW}3={nEgWplS}2
zvcv`1)|k|ep<8rVGXsXy1&}oaTH~2)3guo&8XMBLH8&e+=#zrJ6q-O7*v?QBP(qQ?
z_mQ6pT?e)>;Tv>>1KAOc`bsyE093&TuH-~G0!A_Gdmmok;mtiF_=o@rkbdJ>cKAX(
z=TqLzp<N^nukzr=E<Vvm_zI$tIDiyR2$)Fcsi`UD?U&?=s>?U*`_rv6*cm-P7X+Wo
z?A9Kil2<coc}k%IQ{;Hj_d?0my)_n{3v8lT9L(<<9`?OMhR3^5IZnAy9j}KJT_EwR
z4az3okE?6gFyhv7%?0pe&BJ-g3>RkwyveeK=VFP=oG?E<9k~LYG9oy!%!EhndHA1A
zP^pn?h&)s>*gId5CA^B4RP=;hgx)-k{u6#e6e744EvS1W*EK42jXv&zYtWXqEXMNY
zhMc)YGPf)xADMfe=~4Ukb)D8x``fnu#S<W1>bB%;U6QS9#get{zGu$bM)Pg`&v1(`
zk+!B5;Cc693Oi_B>7fkm`u&$?s3NoZ<(7kWdVi~I4JV@TzaRX7D+EIChIxE>c&zV1
zt$_DMOeEmX1(?J6@8LpE_$7Z?;IS3M<10vX5RYMw+*qZ@ychwhM4Pp~<i8Ti{|A&8
z6Rcz8Q!i;;`L~2>f2{cWG!&$M;*X$NQfv6n9{7O;10VVLw?a|bBVs%d{E7dRz)xZN
zT0!Lb@8awpoYjf=uUq^DT!6KzB6kUoZ8R8UW=NUl2#<9QRziXq;)0f<sIT;h>i;+7
z`vO_M(&#A7I)doGEQktxMQb6&Xdu$7(R0(3hT5L#9e$2*qHtK}r8@Fv+pWPHgSQUc
zI8e|+e$8et;BpZ7uFe%OK6(lUoMqq{W!b*WuI&6IvfLth`U^%}3`UDNPcvzII-W6l
zB)WM?TpnF%$+Qnh-oXq#_)M$OYu3%U=@`XOfxNRrA*zMUnyxlIzc{hfw=$e*7?iAg
yC9qj^P*HF?sm46aM2o+@+gICG#e1W_zPcKadJmGqHJvft_Q7|a>!1Nq&;JKc-@Hcv

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/module.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/module.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c21fa7e16c6c3478d92d6c4c2ed9c3557b0602a
GIT binary patch
literal 7745
zcmd5hTWlLwc6Ue)-xMiPeCiQOwq?-|Qi&gO96vU3oOtc{vFk?zdW#9g8Chh8kK7sA
zmX<=iTQ64brij#_kc1Yn0<?%0UKCnvfpx#S{c3^!XiPO^2M%grQv~^=Yr9?aqwP5}
z98$JvB@6VU7sT9i?>+b2*Lm}wJRT>3B3gcy{YjXR-(tfkYy)`oIRFcUCp;sP6xJq@
z$(vH9yg6lN^nOdq0{v!@&0AB}ye(zR+f#OJ%pzLyj+CQ;=ghlOZVhHdPrf77p}|(s
zoA;%B8f+6g^IfSf4YrH^e0Qo_gB@ZZA4~-`*eQnc;Z&F*Ch|7nT{j8u7A(0}jE%SI
z+};*!KzGbKl<Jvc;-0UuaVBn3?Z?uhm>v@a)qWx^O&}CEtDXxqU696$H2*riBB`Ct
z<~zkqTFw>=s<+v7J~JWYg*c;HF9-#xNCDb<MUXjJYjOD^FNj<zO<^4Xt`(`sb5eF1
zXE@)<7KAi?BQ0U8qe=3@WC^yxs1ZIZmC|x%f}1RSFqtmMFpcM~2>Cn=1~0*0#?Cbe
zAJ2~oJfAIGfsw%Zi8K}XKM=B4CS*j&3$j2n#!X=DZZsYZGKBmTo>?F%h9@c0MR@L%
zS+EGKU>!F_08Oy*rbAfU0Wxb4jyjs77VP6q8|Uz>;LHUZYiy`;z--SJ-YR%_o51pR
zp+jJC#c}5>8E1IMO?S%6J8zPdj}P%Kp%b2)<vl{@xRvj?$)>t^ui)o>T3<Kxb>6h3
z0>9VFIKN8>@_wMvt<hn}-FyJ(g!mw=8=fWCnN;LFiHFtB6KOu3PgB16O4I-1j6pdj
zrX?wMZ6ceQh)tvmyeL3RyZV?|OyiU6ij|6zT%yH{AW2#q&|>LQNzCfp6f2Hvq-2BZ
zq(tnr0Ph`>i?J~wHYo{w>{?cyh`o2Lm@iQvBk(%6NjeKPH+5Q&CyM-g8aZth8Tb%6
zHr65@1AYLc*l?jJ$Fh0gwLIX!5>tX4*Ji5D7Pe~DPor9;Od1ZSvSNBlpsGjj=J1fv
z3}*|aNm=7;t|U<8csZ+yO0YO7<506lLy|Jq4V+*H7zOmvUjsk>8M8p-=HRW4GWiow
zN_QGP3@I~Z!kG+&EP+--xCxORM!$j2Gw;7i2zALWV}v)|fmN{ln2|j?L`d2E3$xJ=
z6m89Z%Z#;5au%cAs&kz!*no^x-z0zd9w9$~UC!8k0K1#9&p2kBWwvZX4xe!WMZYnp
zRhLa=N7-4nmR)xmYIw#Cn1L3C0Rf)-PU8+{Jb=?-jI`=ps0ABP*;e+H-DUSUtkg~#
ze_^@PI4MIu8neLN=6Z~|t=c#xL#9ZaJ@YkQ=k&p|1rhYwMn=<kR#${Ecz#U<W~F>A
zE5(raq{&jLNP+X>48=2oKDMB0R9Rl0Dhcrpl?4=FE<49%3t5@tC|)_mo1^&9s{c$;
z{%(tdk5gKt6t9AI;V_$(g}kKtKxfKagI~1;JX#N*mebt(!j$Ss^L&dxRR@SzCM%(y
zk8)SjViphu*a32JOEBVI*sUOr>wD_PMez_6^&Z8mSDh`HP@TyBK!X>qt8Pxxj0RT#
z)r@k57DTnA(bl*c(xPqCwQ<k(=5`$%mqD$=agrC-K`qoOH~xzz<$Nhw%9eJ^KvIx*
zU!NR(^}ze1LQ>3*B}-Ev{DtIIQOqZG<0M=cGLv$VCN;s9k_}U%8M<Vqsc;$=O-eSe
z0OwDNLZUQ9`(Pi_(dTqz!g#oCFfM%spWodekA1|^am%LI!|V2FExL8q@{zX|3`6Dm
z(v_^ZUS56uo@?Lzu5C5nJCDpJe@C5|JROhSB(&@9?)BgaM66p$Ffr?_9XRxN-oN!$
z51dvGoc{d4S;f6~_M{TtyV$#Ybw#d4M^>Xs^w8|7TC~3!O)Al3%@>%vx+pKFR(pVS
zPsi-3x}Ai3tD(3Oimwc<?yQ84%$}&ZeIK8?b*k##rnq4j(V8z@3l1#5wiZa%g1yz?
zkP;lKJBVlK31K}QbuW4K98>Qn4o}s-U9oTfXM6k+9F=4mY6f9~3Pn?Kz0kXWf~9po
z{mC`eTB{#ai3BPGl-{?UQD#udv{P9#rWa6Ys=L;@Eg|QbmRikeo?{COp|UC0RHLnt
zmYOxx>NKceSig;`Dl_Ord^Bl6g<?KKasL$WB5v0uSrZ@4o=B<%1wrj=7}SPbOI&&!
zyd2FOfsIuy`LsL%0{Q`!X%wlU(ukWWGNNkJg^{Owpe5m}fc(%T)D&IE>E!c_yy<GE
zk<0{qZjf52XW@tQKdgp!uZMQezFqT&7G9fwt?G{}{`ksv#s5mxKdSggXWs-4_H^o8
zwoh^ITX&BFCvM&Lm-1&*pH8iI|2p!^$laHJ)mzzqMA>p=_D#fGwB2*Z9(Iy&f{wsq
zDhs-4QlO&<Td5#V(n6+b38AyeatA=C1IxYW@!K%nRfd|%%z1pSHkPlfd4{=-795tt
zl0!@WOaTi#3^%*@d(&#eYCn4K|ANYlxy-a@S>9AOkDHp7m61`wY9;40pjKUG4Autm
zWZGGD-V9=3*lEByPrfZh?e1GkHKBGYLVu4L%cggO7V4SO&PRuLw-j7uOFQpCTLGo%
znbKIF-E{qS+|uraKiuSPEIBkZ&lKKbyu!wpGZFbE1JO`rW$+zy14eJFhSLtVS_WiL
zEklrNctvezGn>w4r@@!|_WbexYu^z2uxC{JL?ih5`hTE&{onA>wR4xIohioPx*HS+
zNVTB%29ty|&+*y3>X<Byi)oBRRCBQ;sa;4eQ=~%6n^J8J47vj;*s_JI0+j@nxuAP{
znhM9LRW*U9f-Y&?s_Ali0ANi8(p?DYexDwyAjj#Bk*3>WjUv4UA>4H2dHvoPx(rjK
zdtjkKle@YWx8B~lw6hu=QQ+qqsrkdR?||M0@8IaIql=@8YfII&Lvih>x{``3xq9%P
z>u}BM|M<gOA1+=~yxXhZgyKz9y`zeEbj^FL)<1Z=xKv!ZqV(^t_8(UI4_Eu&Qu^PT
zbJfCqx4lc=71PT1S9{iW9j=6r%(3^wJ=JhR2`5%2E8%@}EFyW9Jj-J%gO%{^Irc%Q
zch3FTO1eW0>$0ulA6avcfEfu!7cS3Vt_F50ft@RFD}lYUZ#{_i-%c(i!30HLsYXYY
z=x8;1^j`Gny!AJi{^8xff46QX9zUEd5Lq}ie`?vLbPvxSf3V46Hf%Zg>z-fs-2L9K
z`qy@SrxJc0w$`0o@7`VMPS(P`i^A=RrHSRMpOrr?SNiv^j^E|M^9lsN3Wn#$76Z3?
zmU=!Z)`C3`ZRS8P?4mPRcauo}^GAivb?#dC#Vfv@weIlZw%fx?!^`_WJM`(H3ix?L
zceeuB&aSVzy5|SyF5>w=N!GeTK(;enH-np|*-VNIs&UFwmJ+R|?wkPt(Pz_fYianh
zY20+4{G2%h85UEPZ@3aIdQZC%sAQ&JdY;XmiaUM^ND@XgH^_Zo*WCV3oQtQ{yu)ku
zVSTSC3UmlRJK^(Gz>G#&+wh;lR?)QQpyS!{BX|3LFhWf?q0Gol18*2AdZKJ@XWZqc
zac}1ZYDON62N<qznr)<?Hf*>tn}xkK!)ilqLzupCzfJ$Kx!)t-xMCYa(^~NxXTNyA
zaN2hJr6=KNaR)sL6@-D1^^xRsAtO-ShiVraX+(+|N@c%$=G?^#s`c!}3s6&ZrB&x8
zbnUcw)=+d>gsHLb4!~&fh4hS?qcIqs9()1sZHOrU81SUOg3k?7_Yrp&Dz!D&P|Y7%
zI68lH%{};~D=;VgMQYtOj9P8x*35eB<!WqHiH+X#j@Cj0YrcU8oq>hE`M&kRJ=MX3
z%HY9!od;{7!8PCD<1XTj{7hW4M<07hM|hE4e`(*kXMbBlh~JhFuJC0?SR<o}#8VMf
zQwD093~Ufu(#}aT%(<Qrl1wKt{R5_1FW|bgaf5T4#6>N7TC~-a4TB;$!}!|I6m$gS
zCO@@{g*3kWBiK(Hhck!f?U};s(Ow((PK)-wC6&!i3K1w+S#X-oxi+h`OEVdg3;L%`
z63Q5TA0iit`6wyl1!|=gGya&tSWu4!@nKXF_o!x3C}@6$Y7w)NtXj1INYZ=;dIqpG
zfud&-!kf|^6AbcHJ$q7;Dg7Qa;}+d{z&WaOJWC~+)1pd8GfOEUd!hHB$Aw#=HNC5i
zP`xlegpwuw4SYbmd%NcLqEJ=5Tb9%JyxZ68+t<9?@B2fG7Bu|2ov(yPD*l&O2NeI_
zs{d8R|7z9$hT?x?*8afdUk?peLkT66xaUgLB7JBztC6G<Nv<+V<dte<REdnvo~-o^
z+`hbYx!Si!>DyE7JE-&>{JihboTKLNT{tp-r0U<H_;*zNyH=gmkz>lpvC7EtivRfi
z=+@=$|9N7qd-x$s`VZGx;!bMP25C9G`gjx*aG0y&IMvDFUmB400ocuPkSh`!BQ}oX
ziy7#)@Y#&4nzIF&x?sBM<+yYK@_kxD36fS?f=*?}A#*INEVy%-3Ds06sMgaOVT!t*
zUc?VN`&vX!QM%{}{Gdcqd>e{3mZAV_8js=&sh&n^EF*{_$H4&-&?|v{Am7p75ygSx
z2YF6nVB~i{ArDO!)(&n*XJGF9Vqz^Ytbm(giPzi%70bW_w{OlrC(K0^cW=egTel3c
zJ05@o;$JMRMRqCOyX!3UfOp~xe0=@Zb@cw~Htd1KQmpPk$Vs*g)m;d=$-uVd^Pf7N
zc%b#~=NJcj^kMG~wqx;9oj|pc(W<*ckFZsLmtolW^4U6p>Ni`o>K}(6VXJP9ussjF
z-OUwQXrqS|tJ@H=6K`+bfsm5~!gUuyZW4^tJqUFWr{|Fup#Ru!XXCoFfp-$`rTd^#
zy_q8XTb04|y_86gW%MV}E`1Egd!Nq=CYo76{YlU$>2HNkr}{A8nBX##l3dJl7zDUB
zH0bMy^OA-G|9QzYJ2nYv;e?Sh=D>PFaz{(~4ro|UXD$<Z<}!i#=QP!g?8!~=HfA^z
zo1G;wDQ87VXXDr=1a&l2>*}6O(5~WNcC9}H1>;XU-RAeTn~7JT{eP#YwKI6FJbv)K
zeopka!_1XxKcoxh5&8i%k>w>+gmp8+FpsQ+asMkx{Fb=?(_~>x4+(spI0+N^H`4zF
qIrjxQ@Wf<-F2H-6`GQ>ff*gHpy<lSEi|lRtk{y-Q6M}7R!T$xR#ibMg

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/utils.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..32d6643f37eb17b61a4316238e80cf589f186250
GIT binary patch
literal 661
zcmZWnF>ll`6n;*eT$T1HMJI}M6%u14+KdIMLSpLHg|b9KR=AjJgq@_eQ#DKsFtM=p
zHz0lr3sM<Qo{$(28`9B*iD#$11rJ}oFV_3M_g?a4JWc?QpdYFi1mK4gHz&F#%L61A
zP(n!rNRkuccpw59=AooHMIFvb9tCg+C4GmAlh5H$oyUEY#=o3MiA|0Q$;;!e6+8{>
z_*fOSe$^=XRL!;BT*+s%6E3;EwR+(zW`pB^*Y>b{i24FJ<fMc=cn&<|v?Q)&9w7@n
zi;;zn^)!uCjKr>MAHr(v$i{=Pw7^D=(ve+b{(>=^FeaO_6CC*lW2apqTnVaB8)Y{c
zE9$y2g{hiaGp5|u6h-(1OGNm4ni<(<ZPo4?bmwOGyxV{L==DC&MD;Rjdvns%*_jYB
z!yGOcKj*W~G%6EC&y~(Fu{PBkACS!&*($CzFPY)BZt&jREHUd$CG=j~`vE<;kE<sL
z?_seuxulcD#`Ka-7s>WFx~;bG!VMdnzOCxHayzv<|3~btBK%-}L_5O4g}{N`Hq~th
z&QINOCTj=7&Yq~dDDlSv{Q%*2NC>%#f!zNIhu_zyUz44;qd##-?tRR!03Y7s9|k+L
ANB{r;

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/linear.py b/model_executor/layers/quantization/compressed_tensors/transform/linear.py
new file mode 100644
index 0000000..bd1964e
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/transform/linear.py
@@ -0,0 +1,260 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable, Generator
+from itertools import accumulate
+
+import torch
+from compressed_tensors.transform import (
+    TransformArgs,
+    TransformConfig,
+    TransformLocation,
+    TransformScheme,
+)
+from compressed_tensors.utils import is_match
+
+from vllm.model_executor.layers.linear import (
+    WEIGHT_LOADER_V2_SUPPORTED,
+    LinearMethodBase,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors import (  # noqa: E501
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.transform.module import (  # noqa: E501
+    HadamardTransform,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.transform.utils import (  # noqa: E501
+    TransformTuple,
+)
+
+
+class CompressedTensorsLinearTransformMethod(LinearMethodBase):
+    """
+    Wraps `CompressedTensorsLinearMethod` or `UnquantizedLinearMethod` and adds
+    input and output transforms to either side of the original apply method
+    """
+
+    @classmethod
+    def from_schemes(
+        cls,
+        quant_method: LinearMethodBase,
+        quant_scheme: CompressedTensorsScheme | None,
+        input_tfms: dict[int, TransformTuple],
+        output_tfms: dict[int, TransformTuple],
+    ) -> "CompressedTensorsLinearTransformMethod":
+        from vllm.model_executor.layers.quantization.compressed_tensors.transform.schemes.linear_qutlass_nvfp4 import (  # noqa: E501
+            QutlassNvFP4LinearMethod,
+            is_qutlass_fp4_scheme,
+        )
+
+        assert input_tfms or output_tfms
+
+        if is_qutlass_fp4_scheme(quant_scheme, input_tfms):
+            return QutlassNvFP4LinearMethod(quant_method, input_tfms, output_tfms)
+
+        # hadacore or dense gemm is selected by Transform module
+
+        return cls(quant_method, input_tfms, output_tfms)
+
+    def __init__(
+        self,
+        quant_method: LinearMethodBase,
+        input_tfms: dict[int, TransformTuple],
+        output_tfms: dict[int, TransformTuple],
+    ):
+        self.quant_method = quant_method
+        self.input_tfms = input_tfms
+        self.output_tfms = output_tfms
+
+        self.input_transform: HadamardTransform | None = None
+        self.output_transform: HadamardTransform | None = None
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # get weight loader for transforms
+        weight_loader: Callable = extra_weight_attrs.get("weight_loader")  # type: ignore[assignment]
+
+        # HACK: UnquantizedLinearMethod does not support weight loader v2, but
+        # transforms (specifically SharedWeightParameter) requires
+        # weight loader v2. Until UnquantizedLinearMethod supports v2, we must
+        # hack around this by getting weight loader v1 so ULM can load correctly
+        quant_method_name = self.quant_method.__class__.__name__
+        if quant_method_name not in WEIGHT_LOADER_V2_SUPPORTED:
+            weight_loader_v1 = layer.weight_loader
+            extra_weight_attrs["weight_loader"] = weight_loader_v1
+
+        self.quant_method.create_weights(
+            layer=layer,
+            input_size_per_partition=input_size_per_partition,
+            output_partition_sizes=output_partition_sizes,
+            input_size=input_size,
+            output_size=output_size,
+            params_dtype=params_dtype,
+            **extra_weight_attrs,
+        )
+
+        # validate schemes
+        num_partitions = len(output_partition_sizes)
+        self._validate_tfm_schemes(num_partitions)
+
+        # create submodules for weight loading
+        if len(self.input_tfms) > 0:
+            scheme_name = list(self.input_tfms.values())[0].scheme_name
+            location = list(self.input_tfms.values())[0].args.location
+            transform_name = f"{scheme_name}_{location}"
+
+            transform = HadamardTransform(
+                self.input_tfms,
+                layer,
+                weight_loader,
+                input_size_per_partition,
+                output_partition_sizes,
+            )
+            layer.register_module(transform_name, transform)
+            self.input_transform = transform
+
+        if len(self.output_tfms) > 0:
+            scheme_name = list(self.output_tfms.values())[0].scheme_name
+            location = list(self.output_tfms.values())[0].args.location
+            transform_name = f"{scheme_name}_{location}"
+
+            transform = HadamardTransform(
+                self.output_tfms,
+                layer,
+                weight_loader,
+                input_size_per_partition,
+                output_partition_sizes,
+            )
+            layer.register_module(transform_name, transform)
+            self.output_transform = transform
+
+        # compute partition ranges for slicing activations
+        starts = [0] + list(accumulate(output_partition_sizes))[:-1]
+        self.partition_ranges = list(zip(starts, output_partition_sizes))
+
+    def process_weights_after_loading(self, layer):
+        self.quant_method.process_weights_after_loading(layer)
+
+        for submodule in layer.children():
+            if isinstance(submodule, HadamardTransform):
+                submodule.process_weights_after_loading()
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.input_transform is not None:
+            x = self.input_transform(x)
+
+        assert bias is None
+        x = self.quant_method.apply(layer, x, bias)
+
+        # In most cases, input transforms are preferred over output transforms
+        # (@ksayers): confirm that this is done concurrently
+        if self.output_transform is not None:
+            for part_id, (start, length) in enumerate(self.partition_ranges):
+                x[:, start : start + length] = self.output_transform(
+                    x[:, start : start + length].clone(), part_id=part_id
+                )
+
+        return x
+
+    def _validate_tfm_schemes(self, num_partitions: int):
+        if len(self.input_tfms) > 0:
+            if 0 not in self.input_tfms:
+                raise ValueError("Must have same input")
+
+            for part_index in range(num_partitions):
+                if self.input_tfms[part_index] != self.input_tfms[0]:
+                    raise ValueError("Must have same input")
+
+        if len(self.output_tfms) > 0:
+            scheme_name = list(self.output_tfms.values())[0].scheme_name
+            location = list(self.output_tfms.values())[0].args.location
+
+            for tfm in self.output_tfms.values():
+                if tfm.scheme_name != scheme_name:
+                    raise ValueError("Must have same scheme name")
+                if tfm.args.location != location:
+                    raise ValueError("Must have same location")
+
+        return self.input_tfms, self.output_tfms
+
+
+def get_linear_transform_schemes(
+    layer: torch.nn.Module,
+    layer_name: str,
+    transform_config: TransformConfig | None,
+    packed_modules_mapping: dict[str, list[str]],
+) -> tuple[
+    dict[int, TransformTuple], dict[int, TransformTuple]
+]:  # [input_transform, [output_transform, ...]]
+    # there can only be one transform input scheme per (fused) module
+    input_tfms = {}
+    output_tfms = {}
+
+    partition_names = get_layer_partition_names(layer_name, packed_modules_mapping)
+
+    for scheme_name, scheme, args in get_schemes_args(transform_config):
+        for part_index, part_name in enumerate(partition_names):
+            if (
+                is_match(part_name, layer, args.targets, args.ignore)
+                and args.is_online()
+            ):
+                if args.location == TransformLocation.INPUT:
+                    input_tfms[part_index] = TransformTuple(scheme_name, scheme, args)
+
+                elif args.location == TransformLocation.OUTPUT:
+                    output_tfms[part_index] = TransformTuple(scheme_name, scheme, args)
+
+                else:
+                    raise ValueError(
+                        f"Cannot apply `{args.location}` transform to `{layer_name}`"
+                    )
+
+    return (input_tfms, output_tfms)
+
+
+def get_schemes_args(
+    transform_config: TransformConfig | None,
+) -> Generator[tuple[str, TransformScheme, TransformArgs]]:
+    if transform_config is None:
+        return
+
+    for scheme_name, scheme in transform_config.config_groups.items():
+        for args in scheme.apply:
+            yield (scheme_name, scheme, args)
+
+
+def get_layer_partition_names(
+    layer_name: str, packed_modules_mapping: dict[str, list[str]]
+) -> list[str]:
+    """
+    Get all partition names associated with this layer.
+    Names are returned in order of their partition indices.
+
+    ```python
+    mapping = {"gate_up_proj", "gate_proj", "up_proj"}
+
+    assert get_layer_partition_names("mlp.gate_up_proj", mapping) == [
+        "gate_proj",
+        "up_proj",
+    ]
+    assert get_layer_partition_names("mlp.down_proj", mapping) == ["down_proj"]"""
+    for fused_suffix, part_suffixes in packed_modules_mapping.items():
+        if layer_name.endswith(fused_suffix):
+            return [
+                layer_name.removesuffix(fused_suffix) + part_suffix
+                for part_suffix in part_suffixes
+            ]
+
+    return [layer_name]
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/module.py b/model_executor/layers/quantization/compressed_tensors/transform/module.py
new file mode 100644
index 0000000..f5589c8
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/transform/module.py
@@ -0,0 +1,173 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from collections.abc import Callable, Hashable
+
+import torch
+from compressed_tensors.transform import (
+    TransformArgs,
+    TransformLocation,
+    TransformScheme,
+)
+from torch import Tensor
+
+import vllm._custom_ops as ops
+from vllm.distributed.parallel_state import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.linear import LinearBase
+from vllm.model_executor.layers.quantization.compressed_tensors.transform.utils import (  # noqa: E501
+    TransformTuple,
+)
+from vllm.model_executor.layers.utils import dispatch_unquantized_gemm
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.parameter import SharedWeightParameter
+
+
+class HadamardTransform(torch.nn.Module):
+    """
+    Class which handles weight loading, postprocessing, and application of
+    transforms. Meant to be used with `CompressedTensorsLinearTransformMethod`
+    and attention transforms method (not implemented yet)
+    """
+
+    transforms: dict[int, TransformTuple]  # info parsed from transforms config
+    weight: SharedWeightParameter  # container for shared tensors
+
+    scales: dict[int, float]  # hadamard scale, usually sqrt(matrix.size(0))
+
+    def __init__(
+        self,
+        transforms: dict[int, TransformTuple],
+        layer: torch.nn.Module,
+        weight_loader: Callable,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+    ):
+        super().__init__()
+        self.transforms = transforms
+        self.scales = {}
+
+        if get_tensor_model_parallel_world_size() > 1:
+            raise NotImplementedError(
+                "Online transforms with tensor parallelism is not supported"
+            )
+
+        # Similar to row/col parallel params, but tensors are separate
+        # to allow for loading with shared memory
+        self.weight = SharedWeightParameter(weight_loader=weight_loader)
+
+        # create shared partition data for each partition of the original weight
+        input_size = input_size_per_partition
+        for part_index, (_scheme_name, scheme, args) in self.transforms.items():
+            output_size = output_partition_sizes[part_index]
+            weight_size = self._get_weight_size(
+                layer, scheme, args, input_size, output_size
+            )
+
+            data_key = self._get_data_key(scheme, weight_size)
+            self.weight.add_partition(
+                part_index,
+                data_key,
+                size=(weight_size, weight_size),
+                dtype=scheme.precision,
+            )
+
+        # validate that shared tensors and schemes are correct
+        self._validate_input_transforms()
+
+    def process_weights_after_loading(self):
+        for part_id in self.weight.partitions:
+            data = self.weight.partitions[part_id].data
+
+            # required by torch.compile
+            self.weight.process_weights_after_loading()
+
+            # precompute scale as a runtime multiply, not division
+            # do not fold into weight in order to utilize FWHT
+            self.scales[part_id] = 1 / math.sqrt(data.size(0))
+
+            # FUTURE: avoid runtime transpose by processing weights
+            # prior to apply
+
+    def forward(self, value: Tensor, part_id: int = 0) -> Tensor:
+        if part_id not in self.weight.partitions:
+            return value
+
+        # use hadacore if possible
+        if self.transforms[part_id].scheme.type == "hadamard":
+            if self.transforms[part_id].scheme.head_dim is not None:
+                weight_size = self.transforms[part_id].scheme.head_dim
+                value = value.unflatten(-1, (-1, weight_size))
+                value = ops.hadacore_transform(value)
+                value = value.flatten(-2, -1)
+
+                return value
+
+            # sylvester transforms are symmetric, inv => transpose => original
+            return ops.hadacore_transform(value)
+
+        # fall back to dense
+        else:
+            weight = self.weight.partitions[part_id]
+            weight = (
+                weight if self.transforms[part_id].args.inverse else weight.T
+            )  # linear := x(W.T)
+            scale = self.scales[part_id]
+
+            if self.transforms[part_id].scheme.head_dim is not None:
+                value = value.unflatten(-1, (-1, weight.size(0)))
+                value = (
+                    dispatch_unquantized_gemm()(
+                        self, value.to(weight.dtype), weight, None
+                    ).to(value.dtype)
+                    * scale
+                )
+                value = value.flatten(-2, -1)
+
+                return value
+
+            return (
+                dispatch_unquantized_gemm()(
+                    self, value.to(weight.dtype), weight, None
+                ).to(value.dtype)
+                * scale
+            )
+
+    def _get_data_key(self, scheme: TransformScheme, weight_size: int) -> Hashable:
+        return (id(scheme), weight_size)
+
+    def _get_weight_size(
+        self,
+        layer: torch.nn.Module,
+        scheme: TransformScheme,
+        args: TransformArgs,
+        input_size: int,
+        output_size: int,
+    ) -> int:
+        if scheme.head_dim is not None:
+            return scheme.head_dim
+
+        if isinstance(layer, LinearBase):
+            if args.location == TransformLocation.INPUT:
+                return input_size
+
+            elif args.location == TransformLocation.OUTPUT:
+                return output_size
+
+        elif isinstance(layer, VocabParallelEmbedding):
+            if args.location == TransformLocation.INPUT:
+                return output_size
+
+            elif args.location == TransformLocation.OUTPUT:
+                return input_size
+
+        raise ValueError()
+
+    def _validate_input_transforms(self):
+        assert len(self.transforms) > 0
+        location = list(self.transforms.values())[0].args.location
+
+        if location == TransformLocation.INPUT:
+            first_data = self.weight.partitions[0].data
+            for partition in self.weight.partitions.values():
+                if partition.data.data_ptr() != first_data.data_ptr():
+                    raise ValueError("")
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/schemes/__init__.py b/model_executor/layers/quantization/compressed_tensors/transform/schemes/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7d6b88bb564184c53091c655c87f0998b9f38953
GIT binary patch
literal 221
zcmZ8b%LxKO4BhbqB3OtA%~1uh1X~!!HR|B}%w)wCJFoz2uogS;Y6arWli8~eUh<MW
z!g~w`{X*b6SKIVgQ~vSk$mUkm#ZWEp1+`@QG@kDT*e6Ifjo8o@d335Kv*~_<;Oq)g
z&AS-j=$r>1*XT5!u&g)|I8!5KI8-LEJsY;-E2B?@IpbP0h8*S2WJ2CV@{r3Ndd#4;
e4VJYYr~28O%h$@`g1Qn$33DUfZKV{oMg0IRk3XCM

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/linear_qutlass_nvfp4.cpython-312.pyc b/model_executor/layers/quantization/compressed_tensors/transform/schemes/__pycache__/linear_qutlass_nvfp4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..306d6c83749f918b92c41b3faba91725ac290ac4
GIT binary patch
literal 2667
zcmbtW&2JM&6rWjp*XzwD8{#BTl+r)~VG*$bxuu|#f(TUoNScyVl`N#y;vFX&)*qQ&
z(<E|5gd#N&YLi1N(o-)SK)G<}p*{5v=*0#kM<WiAdg5jX6{x4a*|iNRL8{bI@^;>v
zH*aR%d%ySmM{BEsU^wBM_LmWa{^U$!NcG894kovdg)Ho#6#ohi&I&0Z8%l*R=R;07
zE2hM(l#+lCTjHdUidYg6EIbcZtq74xlt>xjEwE(CM9D~2bTOQ25zt4-QWlXV5^+5g
zoR?DPu-@{RGo!k|cAw8@3zWDnu_j2)%~N+gJw>vF?RjnCtK_-l#X=G`9eQo;Gdo92
zIzi2xo5|Dc2=S)!7Hew?CW-}zurAv*W{RF;x~`EaBn`KI)E9wl^xDO-WMHXoK%FU?
zIj^Co*ttT{GrUaJWfCP`k>=7u@G75%f$~>w{Q%?^@~|%jQbJx+FN4?X^I1&a!^jhx
zT6n#_!@^e&BLwS*Fe+io_v>^cUJZ5lPRp+_^=S!B`!V0X!tITtyP?s?{0Pc#pi4}#
zT|4J`W-d)AzdQ>$B*&z>TjVKXT83q3nKDW9#e(75^F$YDlw06uxZF%{@83%aFIz|y
z?82aD(n;bC&K6IedjIN4l5p%RiNYMjBA2-4IN3xtZxP2Jvm{;g@-*R?bA-AH-^up8
z>Di!{ZsvpG1qqSx8evTYH*>)*4|g+`xoZ&3cwvr0HX@&N@av5LSwPPe6pgJ8Jv?x_
zynpC{{J~QsL@(e+s<x`!{CsVuqV_%waml9Iy*jfzQdN6FR8{qgs^7U>9UQK}pE_KN
zghgo!45BnAjlq4v$JT8i-$Kv{N?{A7ge8>07G9K7p(sGY3X$+mVVPF_-P?#22Hm!8
zBA)>e?JO635K23*W@Ia}D5m5kNT*bE9O+TYlP1kQ)fimR0{>f=AUS@-+cFnVH#4`P
zj*!Qb#UC%T*%dxPH?Y^VyBsZ{@7f{vaY-nJO5u`Nk}{HwN|D?6d;E>ObDk~)R$3eO
zch=g;J=?Jp+~&XUu48Oh<J^~DOK4aw?dXeXo@)OZ9BuU*$m59e*XRn>;6wQd0oFvf
zSRj<Or71BzVth^P$tlleTD{0La-M<@5tD*t7UmeFG2b9C#K|zxM-kf-?BnYO*fk0!
z^=ytP)}1eUylyomK9F5NzhBPy4%SlF@fj5~&8%x!-dusO4l)Y>tl!TtJ&(F91l5m4
z4I}NBQp4rdptms=XeWOpZwB)NZz`?v?a$r^%I+^fUI1XbQTyJtgFher>F7iKT>0?%
zhuUyi9xiLckJ@6(la;pq4RzOs3iQB++P$If-ca{EX_Yml)`qnGPc)b<g=(Fsy|b$I
zRkXgcmMF^!ppUeU)nqj`P>BsxWAREX{y<CIJAPkFmgQtwOKxbfU_(_qQqhjwIbP8Q
ztJ;Z*cH-Xg2im*8cKzP-TTk`WSmo5%eQm5PkCnBtO|4@|p<QtCQOe)I@GJ{ou}zn9
zK&6{F0fytq?+)ECc@<;p!1Hkf-^HUkX0g${_i+~bRhHyDVqKs#PxUZ;8&v!==m4KV
ziXoTV=Wh2s&P20NaOURsz0v3X`f0wArzCh<McRP}ZGC0A&wm3w0%BcZvSH-REHMnG
z7zWhrqQmE^0R`7|f)zi!OoS?)o?=1{y2gmF$E2W*)1zRDwboN4O&rHCbZBV&aNdH>
z21&w8k6)1Z>)cB~UM!+#!d@{}JB!gl{Yg|3`!}`DmD%OlmFvsbYa;M938}kQhL(qF
z5zfg7)}3W%ZKBe)zs5Jz6r^Y?J<C1MTY&SQrnk~#V4aQdJ`~^HhvGpWioe>2;;;9i
z9YmA|G=TG`|HE*z!Nr5dM)_|7${Rk57>3Dx$HJDK_E^Zyd5~cFyc6^~?!UVz2p&fr
zlZS$MouNa(a!<RLfz(16<1HEC*5~067M{yMz)Nahx&KUA`EVgplVmJybm(`6D;>vb
qAz(J!J6Ffo;^nTxm3F-*f&~07DO(YkJ?rkn{pEKq{Dt7_pZ*WSkdmeV

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/compressed_tensors/transform/schemes/linear_qutlass_nvfp4.py b/model_executor/layers/quantization/compressed_tensors/transform/schemes/linear_qutlass_nvfp4.py
new file mode 100644
index 0000000..f0bb47a
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/transform/schemes/linear_qutlass_nvfp4.py
@@ -0,0 +1,64 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors import (  # noqa: E501
+    CompressedTensorsScheme,
+    CompressedTensorsW4A4Fp4,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.transform.linear import (  # noqa: E501
+    CompressedTensorsLinearTransformMethod,
+    TransformTuple,
+)
+
+__all__ = ["is_qutlass_fp4_scheme", "QutlassNvFP4LinearMethod"]
+
+
+def is_qutlass_fp4_scheme(
+    quant_scheme: CompressedTensorsScheme | None,
+    input_tfms: dict[int, TransformTuple],
+) -> bool:
+    return (
+        isinstance(quant_scheme, (CompressedTensorsW4A4Fp4,))
+        and len(input_tfms) == 1
+        and input_tfms[0].scheme.head_dim == quant_scheme.group_size
+    )
+
+
+class QutlassNvFP4LinearMethod(CompressedTensorsLinearTransformMethod):
+    def create_weights(
+        self,
+        layer,
+        input_size_per_partition,
+        output_partition_sizes,
+        input_size,
+        output_size,
+        params_dtype,
+        **extra_weight_attrs,
+    ):
+        # initializes fp4 qparams
+        assert isinstance(layer.scheme, (CompressedTensorsW4A4Fp4,))
+        ret = super().create_weights(
+            layer,
+            input_size_per_partition,
+            output_partition_sizes,
+            input_size,
+            output_size,
+            params_dtype,
+            **extra_weight_attrs,
+        )
+
+        assert self.input_transform is not None
+        assert len(self.input_transform.weight) == 1
+        assert self.input_transform.weight[0].size(0) == layer.scheme.group_size
+
+        return ret
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError()
diff --git a/model_executor/layers/quantization/compressed_tensors/transform/utils.py b/model_executor/layers/quantization/compressed_tensors/transform/utils.py
new file mode 100644
index 0000000..2f353de
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/transform/utils.py
@@ -0,0 +1,13 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import NamedTuple
+
+from compressed_tensors.transform import TransformArgs, TransformScheme
+
+__all__ = ["TransformTuple"]
+
+
+class TransformTuple(NamedTuple):
+    scheme_name: str
+    scheme: TransformScheme
+    args: TransformArgs
diff --git a/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py b/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
new file mode 100644
index 0000000..25c7d33
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
@@ -0,0 +1,224 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.triton_utils import tl, triton
+
+
+def is_weak_contiguous(x: torch.Tensor):
+    strides = x.stride()
+    sizes = x.shape
+    is_not_transpose = strides[0] == 1 and (strides[1] >= max(1, sizes[0]))
+    is_transpose = strides[1] == 1 and (strides[0] >= max(1, sizes[1]))
+    return is_transpose or is_not_transpose
+
+
+@triton.jit
+def scaled_mm_kernel(
+    a_ptr,
+    b_ptr,
+    scale_a_ptr,
+    scale_b_ptr,
+    c_ptr,
+    bias_ptr,
+    M,
+    N,
+    K,
+    stride_am,
+    stride_ak,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    ACCUMULATOR_DTYPE: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_SCALE_A: tl.constexpr,
+    BLOCK_SIZE_SCALE_B: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    pid_m = pid // num_pid_n
+    pid_n = pid % num_pid_n
+
+    accumulator_dtype = ACCUMULATOR_DTYPE
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=accumulator_dtype)
+
+    # NOTE: Some tensor inputs are so large, they will cause int32 overflow
+    # so it is necessary to use tl.int64 for all the offsets, else SEGV will
+    # eventually occur.
+
+    # Offsets and masks.
+    offsets_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
+    masks_am = offsets_am < M
+
+    offsets_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)
+    masks_bn = offsets_bn < N
+
+    offsets_k = tl.arange(0, BLOCK_SIZE_K).to(tl.int64)
+    offsets_a = stride_am * offsets_am[:, None] + stride_ak * offsets_k[None, :]
+    offsets_b = stride_bk * offsets_k[:, None] + stride_bn * offsets_bn[None, :]
+
+    # NOTE: BLOCK_SIZE_SCALE_A could be 1 or BLOCK_SIZE_M, so need to create
+    # appropriate offsets and masks for each case. Same goes for
+    # BLOCK_SIZE_SCALE_B.
+    offsets_scale_am = (
+        tl.arange(0, BLOCK_SIZE_SCALE_A)
+        + (BLOCK_SIZE_SCALE_A > 1) * pid_m * BLOCK_SIZE_M
+    )
+    masks_scale_am = offsets_scale_am < M
+
+    offsets_scale_bn = (
+        tl.arange(0, BLOCK_SIZE_SCALE_B)
+        + (BLOCK_SIZE_SCALE_B > 1) * pid_n * BLOCK_SIZE_N
+    )
+    masks_scale_bn = offsets_scale_bn < N
+
+    a_ptrs = a_ptr + offsets_a
+    b_ptrs = b_ptr + offsets_b
+
+    scale_a_ptrs = scale_a_ptr + offsets_scale_am
+    scale_b_ptrs = scale_b_ptr + offsets_scale_bn
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        masks_k = offsets_k < K
+        masks_a = masks_am[:, None] & masks_k[None, :]
+        a = tl.load(a_ptrs, mask=masks_a)
+
+        masks_b = masks_k[:, None] & masks_bn[None, :]
+        b = tl.load(b_ptrs, mask=masks_b)
+
+        # Accumulate results.
+        accumulator = tl.dot(a, b, accumulator, out_dtype=accumulator_dtype)
+
+        offsets_k += BLOCK_SIZE_K
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    # Apply scale at end.
+    masks_scale_a = masks_scale_am[:, None] & (tl.arange(0, 1) < 1)[:, None]
+    scale_a = tl.load(scale_a_ptrs[:, None], masks_scale_a)
+    # Need to broadcast to the appropriate size, if scale_a is already
+    # (BLOCK_SIZE_M, 1) then it will broadcast to its own shape. Same goes
+    # for scale_b below.
+    scale_a = scale_a.broadcast_to((BLOCK_SIZE_M, 1))
+    accumulator = scale_a * accumulator.to(tl.float32)
+
+    masks_scale_b = masks_scale_bn[:, None] & (tl.arange(0, 1) < 1)[None, :]
+    scale_b = tl.load(scale_b_ptrs[:, None], masks_scale_b)
+    scale_b = scale_b.broadcast_to((BLOCK_SIZE_N, 1))
+    accumulator = scale_b.T * accumulator.to(tl.float32)
+
+    # Convert to output format.
+    c = accumulator.to(c_ptr.type.element_ty)
+
+    # Add bias, it's already in output format, so add it after conversion.
+    if bias_ptr:
+        offsets_bias = offsets_bn
+        bias_ptrs = bias_ptr + offsets_bias
+        bias_mask = offsets_bias < N
+        bias = tl.load(bias_ptrs, bias_mask)
+        c += bias
+
+    # Save output
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)
+    offs_cm = offs_cm.to(tl.int64)
+    offs_cn = offs_cn.to(tl.int64)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+# input   - [M, K]
+# weight - [K, N]
+def triton_scaled_mm(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    out_dtype: type[torch.dtype],
+    bias: torch.Tensor | None = None,
+    block_size_m: int = 32,
+    block_size_n: int = 32,
+    block_size_k: int = 32,
+    use_heuristic=True,
+) -> torch.Tensor:
+    M, K = input.shape
+    N = weight.shape[1]
+
+    assert N > 0 and K > 0 and M > 0
+    assert weight.shape[0] == K
+    assert input.dtype == weight.dtype
+
+    scale_a = scale_a.reshape(-1, 1) if scale_a.dim() <= 1 else scale_a
+    scale_b = scale_b.reshape(-1, 1) if scale_b.dim() <= 1 else scale_b
+
+    assert scale_a.dtype == scale_b.dtype and scale_a.is_floating_point()
+    assert scale_a.shape[1] == 1 and (scale_a.shape[0] == 1 or scale_a.shape[0] == M)
+    assert scale_b.shape[1] == 1 and (scale_b.shape[0] == 1 or scale_b.shape[0] == N)
+    assert out_dtype.is_floating_point
+    assert bias is None or bias.is_floating_point()
+    assert is_weak_contiguous(input)
+    assert is_weak_contiguous(weight)
+
+    grid = lambda META: (
+        triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+    )
+
+    result = torch.empty((M, N), dtype=out_dtype, device=input.device)
+
+    has_scalar = lambda x: x.shape[0] == 1 and x.shape[1] == 1
+
+    if use_heuristic:
+        is_small_N = N < 8192
+        next_power_of_2_M = max(32, triton.next_power_of_2(M))
+        if next_power_of_2_M <= 32:
+            tile_shape = (64, 64, 256) if is_small_N else (64, 128, 256)
+        elif next_power_of_2_M <= 64:
+            tile_shape = (64, 64, 256)
+        elif next_power_of_2_M <= 128:
+            tile_shape = (64, 128, 128)
+        else:
+            tile_shape = (128, 128, 128)
+
+    block_size_m, block_size_n, block_size_k = tile_shape
+
+    block_size_sa = 1 if has_scalar(scale_a) else block_size_m
+    block_size_sb = 1 if has_scalar(scale_b) else block_size_n
+
+    accumulator_dtype = tl.float32 if input.is_floating_point() else tl.int32
+
+    # A = input, B = weight, C = result
+    # A = M x K, B = K x N, C = M x N
+    scaled_mm_kernel[grid](
+        input,
+        weight,
+        scale_a,
+        scale_b,
+        result,
+        bias,
+        M,
+        N,
+        K,
+        input.stride(0),
+        input.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        result.stride(0),
+        result.stride(1),
+        accumulator_dtype,
+        BLOCK_SIZE_M=block_size_m,
+        BLOCK_SIZE_N=block_size_n,
+        BLOCK_SIZE_K=block_size_k,
+        BLOCK_SIZE_SCALE_A=block_size_sa,
+        BLOCK_SIZE_SCALE_B=block_size_sb,
+    )
+
+    return result.to(out_dtype)
diff --git a/model_executor/layers/quantization/compressed_tensors/utils.py b/model_executor/layers/quantization/compressed_tensors/utils.py
new file mode 100644
index 0000000..f880921
--- /dev/null
+++ b/model_executor/layers/quantization/compressed_tensors/utils.py
@@ -0,0 +1,216 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable, Mapping
+from types import MappingProxyType
+
+import regex as re
+from compressed_tensors import CompressionFormat
+from torch.nn import Module
+
+
+def is_activation_quantization_format(format: str) -> bool:
+    _ACTIVATION_QUANTIZATION_FORMATS = [
+        CompressionFormat.naive_quantized.value,
+        CompressionFormat.int_quantized.value,
+        CompressionFormat.float_quantized.value,
+        CompressionFormat.nvfp4_pack_quantized.value,
+    ]
+    return format in _ACTIVATION_QUANTIZATION_FORMATS
+
+
+def should_ignore_layer(
+    layer_name: str | None,
+    ignore: Iterable[str] = tuple(),
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+) -> bool:
+    if layer_name is None:
+        return False
+
+    # layer_name = model.layers.0.self_attn.qkv_proj
+    # proj_name = qkv_proj
+    proj_name = layer_name.split(".")[-1]
+
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    if proj_name in fused_mapping and layer_name not in ignore:
+        shard_proj_names = fused_mapping[proj_name]
+
+        # Convert fused_name --> [shard_names]
+        shard_names = [
+            layer_name.replace(proj_name, shard_proj_name)
+            for shard_proj_name in shard_proj_names
+        ]
+
+        # Layer should be ignored if shards are ignored.
+        should_ignore_layer = None
+        for shard_name in shard_names:
+            should_ignore_shard = check_equal_or_regex_match(
+                layer_name=shard_name, targets=ignore
+            )
+
+            # If shard_idx=0, set layer ignore to match shard.
+            if should_ignore_layer is None:
+                should_ignore_layer = should_ignore_shard
+
+            # If shard_idx=1+ confirm scheme matches prior shards.
+            elif should_ignore_shard != should_ignore_layer:
+                raise ValueError(
+                    f"Found a different quantization schemes for "
+                    f"{shard_proj_names} in {layer_name}. vLLM "
+                    "requires all to use the same scheme."
+                )
+
+    # Unfused layers like down_proj and o_proj will match
+    # the safetensors checkpoint already.
+    else:
+        should_ignore_layer = check_equal_or_regex_match(
+            layer_name=layer_name, targets=ignore
+        )
+
+    assert should_ignore_layer is not None
+    return should_ignore_layer
+
+
+def check_equal_or_regex_match(layer_name: str, targets: Iterable[str]) -> bool:
+    """
+    Checks whether a layer_name is exactly equal or a regex match for
+    if target starts with 're:' to any target in list.
+    """
+    return any(_is_equal_or_regex_match(layer_name, target) for target in targets)
+
+
+def find_matched_target(
+    layer_name: str | None,
+    module: Module,
+    targets: Iterable[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+) -> str:
+    """
+    Helper function to look up which "target" in the compressed-tensors
+    config that a layer corresponds to.
+
+    Recall that a compressed-tensors configs has a concept of
+    config_groups, where each layer can be quantized with a different
+    scheme.
+
+    targets in each config_group will be a list of either layer names
+    (or regexes corresponding to layer names) or names of torch Modules.
+
+    First, we try to match the layer_name with a target
+    Second, we try to match the module's name with a target
+    Third, we try to map the layer_name to a list of fused module names.
+        *All* component module names must match in order for a match to be
+        successful. A successful match returns the first component target
+
+    :param layer_name: layer name
+    :param module: torch.nn.Module
+    :param targets: list of targets to match the layer against
+    :param fused_mapping: map from fused layer names to its components
+    :param fused_strategy: either "all" or "any". If using "all", fused
+        layers match if "all" of its components match
+    """
+
+    if layer_name is None:
+        layer_name = ""
+
+    matched_target = (
+        _find_first_match(layer_name, targets)
+        or _find_first_match(module.__class__.__name__, targets, True)
+        or _match_fused_layer(layer_name, targets, fused_mapping)
+    )
+
+    if matched_target is None:
+        raise ValueError(
+            f"Unable to find matching target for {layer_name} in the "
+            "compressed-tensors config."
+        )
+
+    return matched_target
+
+
+def _find_first_match(
+    value: str, targets: Iterable[str], check_contains: bool = False
+) -> str | None:
+    """
+    Returns first element of target that matches value either
+    exactly or as a regex after 're:'. If check_contains is set to True,
+    additionally checks if the target string is contained within the value.
+
+    :param value: string to compare the list of targets against
+    :param targets: list of targets to match the layer against
+    :param check_contains: whether or not to do a substring match
+    """
+
+    for target in targets:
+        if _is_equal_or_regex_match(value, target, check_contains=check_contains):
+            return target
+    return None
+
+
+def _is_equal_or_regex_match(
+    value: str, target: str, check_contains: bool = False
+) -> bool:
+    """
+    Checks whether a value is exactly equal or a regex match for target
+    if target starts with 're:'. If check_contains is set to True,
+    additionally checks if the target string is contained within the value.
+    """
+
+    if target.startswith("re:"):
+        pattern = target[3:]
+        if re.match(pattern, value):
+            return True
+    elif check_contains:
+        if target.lower() in value.lower():
+            return True
+    elif target == value:
+        return True
+    return False
+
+
+def _match_fused_layer(
+    layer_name: str,
+    target_layers: Iterable[str],
+    fused_mapping: Mapping[str, list[str]],
+) -> str | None:
+    """
+    Match a fused layer name to its corresponding individual layer in
+    target_layers. Returns first value in fused_mapping which matches targets
+
+    Implements an "all" matching strategy where a fused layer matches iff
+    "all" of its components match
+
+    :param layer_name: layer name
+    :param target_layers: list of targets to match the layer against
+    :param fused_mapping: map from fused layer names to its components
+
+    Examples:
+        layer_name = "model.layers.0.self_attn.qkv_proj"
+        target_layers = ["model.layers.0.self_attn.q_proj",
+                        "model.layers.0.self_attn.k_proj",
+                        "model.layers.0.self_attn.v_proj"]
+    """
+    # find layer_name in mapping
+    fused = next((key for key in fused_mapping if layer_name.endswith(key)), None)
+    if fused is None:
+        return None
+
+    # expand path of unfused components
+    unfused_paths = [
+        layer_name.replace(fused, unfused) for unfused in fused_mapping[fused]
+    ]
+
+    # for each unfused component, find a match in targets
+    unfused_matches: list[str | None] = []
+    for unfused in unfused_paths:
+        for target in target_layers:
+            if _is_equal_or_regex_match(unfused, target):
+                unfused_matches.append(target)
+                break
+        else:
+            unfused_matches.append(None)
+
+    return unfused_matches[0] if all(unfused_matches) else None
diff --git a/model_executor/layers/quantization/deepspeedfp.py b/model_executor/layers/quantization/deepspeedfp.py
new file mode 100644
index 0000000..4f742d8
--- /dev/null
+++ b/model_executor/layers/quantization/deepspeedfp.py
@@ -0,0 +1,218 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from packaging import version
+
+from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.utils import set_weight_attrs
+
+
+class DeepSpeedFPConfig(QuantizationConfig):
+    """Config for DeepSpeed FP quantizer. It supports fp6 and fp8.
+
+    Args:
+        weight_bits: the target quantization bits, 6 or 8.
+        group_size: group size for quantizaiton, default to 128.
+    """
+
+    def __init__(
+        self,
+        weight_bits: int = 8,
+        group_size: int = 512,
+    ) -> None:
+        super().__init__()
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.valid_types = [torch.bfloat16, torch.float16]
+
+        if self.weight_bits not in (6, 8):
+            raise ValueError(
+                "Currently, only 6-bit or 8-bit weight quantization are "
+                f"supported for DeepSpeed FP quantizaiton, but got "
+                f"{self.weight_bits} bits."
+            )
+
+    def __repr__(self) -> str:
+        return (
+            f"DeepSpeedFPConfig(weight_bits={self.weight_bits}), "
+            f"group_size={self.group_size}"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "deepspeedfp"
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "DeepSpeedFPConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        return cls(weight_bits=weight_bits, group_size=group_size)
+
+    def get_linear_method(self) -> "DeepSpeedFPLinearMethod":
+        return DeepSpeedFPLinearMethod(self)
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    # Need to figure it out
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return [
+            "quant_config.json",
+            "quantize_config.json",
+        ]
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["DeepSpeedFPLinearMethod"]:
+        if isinstance(layer, LinearBase):
+            return DeepSpeedFPLinearMethod(self)
+        return None
+
+
+class DeepSpeedFPLinearMethod(LinearMethodBase):
+    """Linear method for DeepSpeedFP quantizer.
+
+    Args:
+        quant_config: the DeepSpeedFP quantization config.
+    """
+
+    def __init__(self, quant_config: DeepSpeedFPConfig):
+        self.quant_config = quant_config
+        self.weight = None
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        weight_loader=None,
+        **extra_weight_attrs,
+    ):
+        del output_size
+        del input_size
+        output_size_per_partition = sum(output_partition_sizes)
+        weight = DeepSpeedFPParameter(
+            torch.Size((output_size_per_partition, input_size_per_partition)),
+            params_dtype=params_dtype,
+            quant_config=self.quant_config,
+        )
+        set_weight_attrs(
+            weight,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+            },
+        )
+        layer.register_parameter("weight", weight)
+
+        def quant_weight_loader(param, loaded_weight, *args, **kwargs):
+            # Calls the original weight loader (if any), quantizes the result,
+            # and then loads the quantized parameter.
+            if weight_loader is not None:
+                orig_param_data = param.data
+                param.data = param.ds_dequantize()
+                weight_loader(param, loaded_weight, *args, **kwargs)
+                param.data, loaded_weight = orig_param_data, param.data
+            param.ds_quantize_(loaded_weight.cuda())
+
+        extra_weight_attrs["weight_loader"] = quant_weight_loader
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        weight = layer.weight
+        y = weight.ds_dequantize()
+        return F.linear(x, y, bias)
+
+
+class DeepSpeedFPParameter(nn.Parameter):
+    """
+    DeepSpeedFP quantized parameter class that implements fp8/fp6
+    quantization deepspeed. Weights are stored in quantized form on
+    GPUs, and can be dequantized on-the-fly when needed by the model.
+    """
+
+    def __new__(
+        cls,
+        orig_shape: torch.Size,
+        params_dtype: torch.dtype,
+        quant_config: DeepSpeedFPConfig,
+    ):
+        try:
+            import deepspeed
+
+            if version.parse(deepspeed.__version__) < version.parse("0.14.2"):
+                raise ImportError(
+                    "deepspeed version is wrong. Please install deepspeed>=0.14.2."
+                )
+            from deepspeed.ops.fp_quantizer import FP_Quantize
+        except ImportError as err:
+            raise ImportError(
+                "Please install deepspeed>=0.14.2 via "
+                "`pip install deepspeed>=0.14.2` to use "
+                "deepspeedfp quantizer."
+            ) from err
+        data = torch.empty(
+            (
+                orig_shape.numel() // quant_config.group_size,
+                quant_config.group_size * quant_config.weight_bits // 8 + 4,
+            ),
+            dtype=torch.int8,
+        )
+        self = torch.Tensor._make_subclass(cls, data, data.requires_grad)
+        self.orig_shape = orig_shape
+        self.quant_config = quant_config
+        self.fp_quantizer = FP_Quantize(group_size=quant_config.group_size)
+        self.fp_quantizer.orig_shape = orig_shape
+        self.fp_quantizer.orig_dtype = params_dtype
+        return self
+
+    def ds_quantize_(self, tensor: torch.Tensor):
+        assert tensor.device.type == "cuda" and tensor.dtype != torch.int8
+        return self.data.copy_(
+            self.fp_quantizer.quantize(
+                tensor.data,
+                q_bits=self.quant_config.weight_bits,
+            )
+        )
+
+    def ds_dequantize(self, fp_out=None) -> torch.Tensor:
+        """
+        Return a tensor containing the dequantized weights of this parameter.
+        """
+        assert self.data.device.type == "cuda" and self.data.dtype == torch.int8
+        return self.fp_quantizer.dequantize(
+            self.data, fp_out=fp_out, q_bits=self.quant_config.weight_bits
+        )
+
+    def ds_selective_dequantize(self, indices, fp_out=None) -> torch.Tensor:
+        """
+        Return a tensor where only the weights at `indices` are dequantized
+        (to save HBM -> SRAM bandwidth).
+        """
+        assert self.data.device.type == "cuda" and self.data.dtype == torch.int8
+        return self.fp_quantizer.selective_dequantize(
+            self.data, indices, fp_out=fp_out, q_bits=self.quant_config.weight_bits
+        )
diff --git a/model_executor/layers/quantization/experts_int8.py b/model_executor/layers/quantization/experts_int8.py
new file mode 100644
index 0000000..5241f9a
--- /dev/null
+++ b/model_executor/layers/quantization/experts_int8.py
@@ -0,0 +1,240 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Optional
+
+import torch
+
+from vllm.distributed import get_tensor_model_parallel_rank, get_tp_group
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoE,
+    FusedMoEConfig,
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    int8_w8a16_moe_quant_config,
+)
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.utils import set_weight_attrs
+
+
+class ExpertsInt8Config(QuantizationConfig):
+    """Config class for Int8 experts quantization."""
+
+    def __init__(self) -> None:
+        super().__init__()
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "experts_int8"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "ExpertsInt8Config":
+        return cls()
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            return UnquantizedLinearMethod()
+        elif isinstance(layer, FusedMoE):
+            return ExpertsInt8MoEMethod(self, layer.moe_config)
+        return None
+
+
+class ExpertsInt8MoEMethod(FusedMoEMethodBase):
+    def __init__(
+        self,
+        quant_config: ExpertsInt8Config,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        int8_dtype = torch.int8
+
+        assert "weight_loader" in extra_weight_attrs
+        weight_loader = extra_weight_attrs["weight_loader"]
+        wrapped_weight_loader = ExpertsInt8MoEMethod.quantizing_weight_loader(
+            layer, weight_loader
+        )
+        extra_weight_attrs["weight_loader"] = wrapped_weight_loader
+
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=int8_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=int8_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        w13_scale = torch.nn.Parameter(
+            torch.zeros(
+                num_experts, 2 * intermediate_size_per_partition, dtype=torch.float32
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scale", w13_scale)
+
+        w2_scale = torch.nn.Parameter(
+            torch.zeros(num_experts, hidden_size, dtype=torch.float32),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scale", w2_scale)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return int8_w8a16_moe_quant_config(
+            w1_scale=layer.w13_scale, w2_scale=layer.w2_scale, w1_zp=None, w2_zp=None
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `ExpertsInt8MoEMethod` yet."
+            )
+
+        from vllm.model_executor.layers.fused_moe import fused_experts
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        return fused_experts(
+            x,
+            layer.w13_weight,
+            layer.w2_weight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=True,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            quant_config=self.moe_quant_config,
+        )
+
+    @staticmethod
+    def quantizing_weight_loader(layer, weight_loader):
+        def quantize_and_call_weight_loader(
+            param: torch.nn.Parameter,
+            loaded_weight: torch.Tensor,
+            weight_name: str,
+            shard_id: int,
+            expert_id: int,
+        ):
+            tp_rank = get_tensor_model_parallel_rank()
+            shard_size = layer.intermediate_size_per_partition
+            shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+            device = get_tp_group().device
+            loaded_weight = loaded_weight.to(device)
+            # w1, gate_proj case: Load into first shard of w13.
+            if shard_id == "w1":
+                scales = quantize_in_place_and_get_scales(loaded_weight[shard, :])
+                layer.w13_scale.data[expert_id, 0:shard_size].copy_(scales[:, 0])
+            # w3, up_proj case: Load into second shard of w13.
+            elif shard_id == "w3":
+                scales = quantize_in_place_and_get_scales(loaded_weight[shard, :])
+                layer.w13_scale.data[expert_id, shard_size : 2 * shard_size].copy_(
+                    scales[:, 0]
+                )
+            # w2, down_proj case: Load into only shard of w2.
+            elif shard_id == "w2":
+                scales = quantize_in_place_and_get_scales(loaded_weight[:, shard])
+                layer.w2_scale.data[expert_id, :].copy_(scales[:, 0])
+            else:
+                raise ValueError(f"Shard id must be in [0,1,2] but got {shard_id}")
+            weight_loader(param, loaded_weight, weight_name, shard_id, expert_id)
+
+        return quantize_and_call_weight_loader
+
+
+def quantize_in_place_and_get_scales(weight: torch.Tensor) -> torch.Tensor:
+    vmax = torch.iinfo(torch.int8).max
+    scales = torch.max(torch.abs(weight), dim=1, keepdim=True)[0] / vmax
+
+    weight.div_(scales)
+    weight.round_()
+    weight.clamp_(-vmax, vmax)
+
+    return scales
diff --git a/model_executor/layers/quantization/fbgemm_fp8.py b/model_executor/layers/quantization/fbgemm_fp8.py
new file mode 100644
index 0000000..6ba18e5
--- /dev/null
+++ b/model_executor/layers/quantization/fbgemm_fp8.py
@@ -0,0 +1,195 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    apply_fp8_marlin_linear,
+    prepare_fp8_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    is_layer_skipped,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    Fp8LinearOp,
+    maybe_create_device_identity,
+    normalize_e4m3fn_to_e4m3fnuz,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class FBGEMMFp8Config(QuantizationConfig):
+    """Config class for FBGEMM Fp8."""
+
+    def __init__(self, ignore_list: list[str], input_scale_ub: float):
+        super().__init__()
+        self.ignore_list = ignore_list if ignore_list else []
+        self.input_scale_ub = input_scale_ub
+
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = not current_platform.has_device_capability(89)
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "fbgemm_fp8"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.float16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "FBGEMMFp8Config":
+        ignore_list = cls.get_from_keys(config, ["modules_to_not_convert"])
+        input_scale_ub = cls.get_from_keys(config, ["activation_scale_ub"])
+        return cls(ignore_list=ignore_list, input_scale_ub=input_scale_ub)
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignore_list,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedLinearMethod()
+            return FBGEMMFp8LinearMethod(self)
+        return None
+
+
+class FBGEMMFp8LinearMethod(LinearMethodBase):
+    def __init__(self, quant_config: FBGEMMFp8Config):
+        self.quant_config = quant_config
+        self.fp8_linear = Fp8LinearOp(
+            act_quant_static=False, act_quant_group_shape=GroupShape.PER_TOKEN
+        )
+        self.out_dtype = torch.get_default_dtype()
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        maybe_create_device_identity()
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        del input_size, output_size
+        output_size_per_partition = sum(output_partition_sizes)
+
+        layer.logical_widths = output_partition_sizes
+
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.orig_dtype = params_dtype
+
+        # WEIGHT
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition,
+                dtype=torch.float8_e4m3fn,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        weight_scale = ChannelQuantScaleParameter(
+            data=torch.empty((sum(output_partition_sizes), 1), dtype=torch.float32),
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        weight_scale[:] = torch.finfo(torch.float32).min
+        layer.register_parameter("weight_scale", weight_scale)
+
+        # INPUT SCALE UPPER BOUND
+        input_scale_ub = torch.nn.Parameter(
+            torch.tensor((self.quant_config.input_scale_ub), dtype=torch.float32),
+            requires_grad=False,
+        )
+        layer.input_scale_ub = input_scale_ub
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        # required by torch.compile
+        layer.weight_scale = Parameter(layer.weight_scale.data, requires_grad=False)
+        layer.weight = Parameter(layer.weight.data, requires_grad=False)
+
+        weight = layer.weight
+
+        if current_platform.is_fp8_fnuz():
+            weight, weight_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
+                weight=weight, weight_scale=layer.weight_scale, input_scale=None
+            )
+            if input_scale is not None:
+                layer.input_scale = Parameter(input_scale, requires_grad=False)
+            layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+
+        layer.weight = Parameter(weight.t(), requires_grad=False)
+        if self.quant_config.use_marlin:
+            prepare_fp8_layer_for_marlin(layer)
+            # Activations not quantized for marlin.
+            del layer.input_scale_ub
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.quant_config.use_marlin:
+            return apply_fp8_marlin_linear(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                workspace=layer.workspace,
+                size_n=layer.output_size_per_partition,
+                size_k=layer.input_size_per_partition,
+                bias=bias,
+            )
+
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            out_dtype=self.out_dtype,
+            input_scale=None,
+            input_scale_ub=layer.input_scale_ub,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/fp8.py b/model_executor/layers/quantization/fp8.py
new file mode 100644
index 0000000..0479bec
--- /dev/null
+++ b/model_executor/layers/quantization/fp8.py
@@ -0,0 +1,1333 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from enum import Enum
+from functools import partial
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoE,
+    FusedMoEActivationFormat,
+    FusedMoEMethodBase,
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    RoutingMethodType,
+    fp8_w8a8_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.layer import UnquantizedFusedMoEMethod
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
+    FlashinferMoeBackend,
+    apply_flashinfer_per_tensor_scale_fp8,
+    build_flashinfer_fp8_cutlass_moe_prepare_finalize,
+    flashinfer_cutlass_moe_fp8,
+    get_flashinfer_moe_backend,
+    register_moe_scaling_factors,
+    rotate_flashinfer_fp8_moe_weights,
+    select_cutlass_fp8_gemm_impl,
+    swap_w13_to_w31,
+)
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    W8A8BlockFp8LinearOp,
+    create_fp8_input_scale,
+    create_fp8_scale_parameter,
+    create_fp8_weight_parameter,
+    deepgemm_post_process_fp8_weight_block,
+    maybe_post_process_fp8_weight_block,
+    process_fp8_weight_block_strategy,
+    process_fp8_weight_tensor_strategy,
+    validate_fp8_block_shape,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    apply_fp8_marlin_linear,
+    prepare_fp8_layer_for_marlin,
+    prepare_moe_fp8_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    is_layer_skipped,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    Fp8LinearOp,
+    all_close_1d,
+    cutlass_block_fp8_supported,
+    cutlass_fp8_supported,
+    maybe_create_device_identity,
+    normalize_e4m3fn_to_e4m3fnuz,
+    per_tensor_dequantize,
+)
+from vllm.model_executor.parameter import (
+    BlockQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+from vllm.utils.deep_gemm import (
+    is_deep_gemm_e8m0_used,
+    is_deep_gemm_supported,
+)
+from vllm.utils.flashinfer import has_flashinfer_moe
+from vllm.utils.import_utils import has_deep_gemm
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
+ACTIVATION_SCHEMES = ["static", "dynamic"]
+
+logger = init_logger(__name__)
+
+
+class Fp8MoeBackend(Enum):
+    NONE = 0
+    FLASHINFER_TRTLLM = 1
+    FLASHINFER_CUTLASS = 2
+    DEEPGEMM = 3
+    CUTLASS_BLOCK_SCALED_GROUPED_GEMM = 4
+    MARLIN = 5
+    TRITON = 6
+
+
+def get_fp8_moe_backend(block_quant: bool) -> Fp8MoeBackend:
+    """
+    Select the primary FP8 MoE backend
+    Note: Shape-specific fallbacks may still occur at runtime.
+    """
+    # Prefer FlashInfer backends on supported GPUs; allow SM90 and SM100.
+    if (
+        current_platform.is_cuda()
+        and (
+            current_platform.is_device_capability(100)
+            or current_platform.is_device_capability(90)
+        )
+        and envs.VLLM_USE_FLASHINFER_MOE_FP8
+        and has_flashinfer_moe()
+    ):
+        backend = get_flashinfer_moe_backend()
+        if backend == FlashinferMoeBackend.TENSORRT_LLM:
+            logger.info_once("Using FlashInfer FP8 MoE TRTLLM backend for SM100")
+            return Fp8MoeBackend.FLASHINFER_TRTLLM
+        else:
+            if block_quant and current_platform.is_device_capability(100):
+                raise ValueError(
+                    "FlashInfer FP8 MoE throughput backend does not "
+                    "support block quantization. Please use "
+                    "VLLM_FLASHINFER_MOE_BACKEND=latency "
+                    "instead."
+                )
+            logger.info_once("Using FlashInfer FP8 MoE CUTLASS backend for SM90/SM100")
+            return Fp8MoeBackend.FLASHINFER_CUTLASS
+
+    # weight-only path for older GPUs without native FP8
+    use_marlin = (
+        not current_platform.has_device_capability(89)
+        or envs.VLLM_TEST_FORCE_FP8_MARLIN
+    )
+    if current_platform.is_rocm():
+        use_marlin = False
+    if use_marlin:
+        logger.info_once("Using Marlin backend for FP8 MoE")
+        return Fp8MoeBackend.MARLIN
+
+    # deepGEMM on supported platforms with block-quantized weights
+    if envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM and block_quant:
+        if not has_deep_gemm():
+            logger.warning_once("DeepGEMM backend requested but not available.")
+        elif is_deep_gemm_supported():
+            logger.info_once("Using DeepGEMM backend for FP8 MoE")
+            return Fp8MoeBackend.DEEPGEMM
+
+    # CUTLASS BlockScaled GroupedGemm on SM100 with block-quantized weights
+    if (
+        current_platform.is_cuda()
+        and current_platform.is_device_capability(100)
+        and block_quant
+    ):
+        logger.info_once("Using Cutlass BlockScaled GroupedGemm backend for FP8 MoE")
+        return Fp8MoeBackend.CUTLASS_BLOCK_SCALED_GROUPED_GEMM
+
+    # default to Triton
+    logger.info_once("Using Triton backend for FP8 MoE")
+    return Fp8MoeBackend.TRITON
+
+
+class Fp8Config(QuantizationConfig):
+    """Config class for FP8."""
+
+    def __init__(
+        self,
+        is_checkpoint_fp8_serialized: bool = False,
+        activation_scheme: str = "dynamic",
+        ignored_layers: list[str] | None = None,
+        weight_block_size: list[int] | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.is_checkpoint_fp8_serialized = is_checkpoint_fp8_serialized
+
+        if activation_scheme not in ACTIVATION_SCHEMES:
+            raise ValueError(f"Unsupported activation scheme {activation_scheme}")
+        self.activation_scheme = activation_scheme
+        self.ignored_layers = ignored_layers or []
+        if weight_block_size is not None:
+            if not is_checkpoint_fp8_serialized:
+                raise ValueError(
+                    "The block-wise quantization only supports fp8-serialized "
+                    "checkpoint for now."
+                )
+            if len(weight_block_size) != 2:
+                raise ValueError(
+                    "The quantization block size of weight must have 2 "
+                    f"dimensions, but got {len(weight_block_size)} dimensions"
+                )
+            if activation_scheme != "dynamic":
+                raise ValueError(
+                    "The block-wise quantization only supports "
+                    "dynamic activation scheme for now, but got "
+                    f"{activation_scheme} activation scheme."
+                )
+        self.weight_block_size = weight_block_size
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "fp8"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.ignored_layers is not None:
+            self.ignored_layers = hf_to_vllm_mapper.apply_list(self.ignored_layers)
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "Fp8Config":
+        quant_method = cls.get_from_keys(config, ["quant_method"])
+        is_checkpoint_fp8_serialized = "fp8" in quant_method
+        activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
+        ignored_layers = cls.get_from_keys_or(config, ["ignored_layers"], None)
+        weight_block_size = cls.get_from_keys_or(config, ["weight_block_size"], None)
+        if not ignored_layers:
+            ignored_layers = cls.get_from_keys_or(
+                config, ["modules_to_not_convert"], None
+            )
+        return cls(
+            is_checkpoint_fp8_serialized=is_checkpoint_fp8_serialized,
+            activation_scheme=activation_scheme,
+            ignored_layers=ignored_layers,
+            weight_block_size=weight_block_size,
+        )
+
+    def get_xpu_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention
+        from vllm.model_executor.layers.quantization.ipex_quant import (
+            XPUFp8LinearMethod,
+            XPUFp8MoEMethod,
+        )
+
+        fp8_config = Fp8Config(
+            is_checkpoint_fp8_serialized=self.is_checkpoint_fp8_serialized,
+            activation_scheme=self.activation_scheme,
+            ignored_layers=self.ignored_layers,
+            weight_block_size=self.weight_block_size,
+        )
+
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedLinearMethod()
+            return XPUFp8LinearMethod(fp8_config)
+        elif isinstance(layer, FusedMoE):
+            return XPUFp8MoEMethod(fp8_config, layer)
+        elif isinstance(layer, Attention):
+            return Fp8KVCacheMethod(self)
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        if current_platform.is_xpu():
+            return self.get_xpu_quant_method(layer, prefix)
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedLinearMethod()
+            return Fp8LinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            if is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedFusedMoEMethod(layer.moe_config)
+            return Fp8MoEMethod(self, layer)
+        elif isinstance(layer, Attention):
+            return Fp8KVCacheMethod(self)
+        return None
+
+    def get_cache_scale(self, name: str) -> str | None:
+        """
+        Check whether the param name matches the format for k/v cache scales
+        in compressed-tensors. If this is the case, return its equivalent
+        param name expected by vLLM
+
+        :param name: param name
+        :return: matching param name for KV cache scale in vLLM
+        """
+        if name.endswith(".output_scale") and ".k_proj" in name:
+            return name.replace(".k_proj.output_scale", ".attn.k_scale")
+        if name.endswith(".output_scale") and ".v_proj" in name:
+            return name.replace(".v_proj.output_scale", ".attn.v_scale")
+        if name.endswith(".output_scale") and ".q_proj" in name:
+            return name.replace(".q_proj.output_scale", ".attn.q_scale")
+        if name.endswith("self_attn.prob_output_scale"):
+            return name.replace(".prob_output_scale", ".attn.prob_scale")
+        # If no matches, return None
+        return None
+
+
+class Fp8LinearMethod(LinearMethodBase):
+    """Linear method for FP8.
+    Supports loading FP8 checkpoints with static weight scale and
+    dynamic/static activation scale.
+
+    Also supports loading quantized FP16/BF16 model checkpoints with dynamic
+    activation scaling. The weight scaling factor will be initialized after
+    the model weights are loaded.
+
+    Limitations:
+    1. Only support per-tensor quantization due to torch._scaled_mm support.
+    2. Only support float8_e4m3fn data type due to the limitation of
+       torch._scaled_mm (https://github.com/pytorch/pytorch/blob/2e48b39603411a41c5025efbe52f89560b827825/aten/src/ATen/native/cuda/Blas.cpp#L854-L856)
+
+    Args:
+        quant_config: The quantization config.
+    """
+
+    def __init__(self, quant_config: Fp8Config):
+        self.quant_config = quant_config
+        self.cutlass_block_fp8_supported = cutlass_block_fp8_supported()
+        self.out_dtype = torch.get_default_dtype()
+
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = (
+            not current_platform.has_device_capability(89)
+            or envs.VLLM_TEST_FORCE_FP8_MARLIN
+        )
+        # Disable marlin for rocm
+        if current_platform.is_rocm():
+            self.use_marlin = False
+        if vllm_is_batch_invariant():
+            self.use_marlin = False
+
+        self.use_aiter_and_is_supported = rocm_aiter_ops.is_linear_fp8_enaled()
+        self.use_deep_gemm = is_deep_gemm_supported()
+
+        self.weight_block_size = self.quant_config.weight_block_size
+        self.block_quant = self.weight_block_size is not None
+        self.act_q_static = self.quant_config.activation_scheme == "static"
+        if self.weight_block_size:
+            self.act_q_group_shape = GroupShape(1, self.weight_block_size[0])
+        else:
+            # Use per-token quantization for better perf if dynamic and cutlass
+            if not self.act_q_static and cutlass_fp8_supported():
+                self.act_q_group_shape = GroupShape.PER_TOKEN
+            else:
+                self.act_q_group_shape = GroupShape.PER_TENSOR
+
+        if self.block_quant:
+            assert not self.act_q_static
+            assert self.weight_block_size is not None
+            self.w8a8_block_fp8_linear = W8A8BlockFp8LinearOp(
+                weight_group_shape=GroupShape(*self.weight_block_size),
+                act_quant_group_shape=self.act_q_group_shape,
+                cutlass_block_fp8_supported=self.cutlass_block_fp8_supported,
+                use_aiter_and_is_supported=self.use_aiter_and_is_supported,
+            )
+        else:
+            self.fp8_linear = Fp8LinearOp(
+                act_quant_static=self.act_q_static,
+                act_quant_group_shape=self.act_q_group_shape,
+            )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        maybe_create_device_identity()
+
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
+        if self.block_quant:
+            assert self.weight_block_size is not None
+            layer.weight_block_size = self.weight_block_size
+            validate_fp8_block_shape(
+                layer,
+                input_size,
+                output_size,
+                input_size_per_partition,
+                output_partition_sizes,
+                self.weight_block_size,
+            )
+
+        # WEIGHT
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            weight = create_fp8_weight_parameter(
+                output_size_per_partition, input_size_per_partition, weight_loader
+            )
+        else:
+            # For non-serialized checkpoints, use original dtype
+            weight = ModelWeightParameter(
+                data=torch.empty(
+                    output_size_per_partition,
+                    input_size_per_partition,
+                    dtype=params_dtype,
+                ),
+                input_dim=1,
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+        layer.register_parameter("weight", weight)
+
+        # If checkpoint is serialized fp8, load them.
+        # Otherwise, wait until process_weights_after_loading.
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            # WEIGHT SCALE
+            if not self.block_quant:
+                scale = create_fp8_scale_parameter(
+                    PerTensorScaleParameter,
+                    output_partition_sizes,
+                    input_size_per_partition,
+                    None,
+                    weight_loader,
+                )
+                set_weight_attrs(scale, {"scale_type": "weight_scale"})
+                layer.register_parameter("weight_scale", scale)
+            else:
+                assert not self.act_q_static
+                assert self.weight_block_size is not None
+                scale = create_fp8_scale_parameter(
+                    BlockQuantScaleParameter,
+                    output_partition_sizes,
+                    input_size_per_partition,
+                    self.weight_block_size,
+                    weight_loader,
+                )
+                set_weight_attrs(scale, {"scale_type": "weight_scale"})
+                # The weight_scale_inv name is intentional for deepseekv3
+                layer.register_parameter("weight_scale_inv", scale)
+
+            # INPUT ACTIVATION SCALE
+            if self.act_q_static:
+                scale = create_fp8_input_scale(output_partition_sizes, weight_loader)
+                set_weight_attrs(scale, {"scale_type": "input_scale"})
+                layer.register_parameter("input_scale", scale)
+            else:
+                layer.register_parameter("input_scale", None)
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        size_k_first = True
+        input_scale = None
+        # TODO(rob): refactor block quant into separate class.
+        if self.block_quant:
+            assert not self.act_q_static
+            size_k_first = False
+
+            weight, weight_scale = process_fp8_weight_block_strategy(
+                layer.weight, layer.weight_scale_inv
+            )
+            # Delete the weight_scale_inv parameter to avoid confusion
+            # with the weight_scale parameter
+            del layer.weight_scale_inv
+
+        # If checkpoint not serialized fp8, quantize the weights.
+        elif not self.quant_config.is_checkpoint_fp8_serialized:
+            qweight, weight_scale = ops.scaled_fp8_quant(layer.weight, scale=None)
+            weight = qweight.t()
+
+        # If checkpoint is fp8 per-tensor, handle that there are N scales for N
+        # shards in a fused module
+        else:
+            weight = layer.weight
+            weight_scale = layer.weight_scale
+
+            # If using w8a8, torch._scaled_mm needs per tensor, so
+            # requantize the logical shards as a single weight.
+            if not self.use_marlin:
+                weight, weight_scale, input_scale = process_fp8_weight_tensor_strategy(
+                    weight,
+                    weight_scale,
+                    layer.logical_widths,
+                    getattr(layer, "input_scale", None),
+                )
+                if self.act_q_static:
+                    assert input_scale is not None
+                    input_scale = input_scale.max()
+            weight = weight.t()
+
+        # Update layer with new values.
+        layer.weight = Parameter(weight.data, requires_grad=False)
+        layer.weight_scale = Parameter(weight_scale.data, requires_grad=False)
+        layer.input_scale = (
+            Parameter(input_scale, requires_grad=False)
+            if input_scale is not None
+            else None
+        )
+
+        if self.use_marlin:
+            prepare_fp8_layer_for_marlin(layer, size_k_first)
+            # Activations not quantized for marlin.
+            del layer.input_scale
+            return
+
+        if self.block_quant:
+            maybe_post_process_fp8_weight_block(layer)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # if batch invariant mode is enabled, prefer DeepGEMM FP8 path
+        # we will use BF16 dequant when DeepGEMM is not supported.
+        if vllm_is_batch_invariant():
+            if self.block_quant:
+                assert self.weight_block_size is not None
+                return self.w8a8_block_fp8_linear.apply(
+                    input=x,
+                    weight=layer.weight,
+                    weight_scale=layer.weight_scale,
+                    input_scale=layer.input_scale,
+                    bias=bias,
+                )
+            else:
+                # per-tensor/channel: dequant to BF16 and run GEMM
+                weight_fp8 = layer.weight.to(torch.bfloat16)
+                weight_scale = layer.weight_scale.to(torch.bfloat16)
+                if weight_scale.numel() == 1:
+                    # Per-tensor: simple scalar multiplication
+                    weight_bf16 = weight_fp8 * weight_scale
+                else:
+                    # Multiple scales (fused modules like QKV)
+                    # Try to infer correct broadcasting
+                    # weight is [K, N], scale could be [num_logical_weights]
+                    # Need to figure out how to broadcast - for now just try
+                    # direct multiplication
+                    if (
+                        weight_scale.dim() == 1
+                        and weight_scale.shape[0] == weight_fp8.shape[0]
+                    ):
+                        # Per-row scaling
+                        weight_bf16 = weight_fp8 * weight_scale.unsqueeze(1)
+                    else:
+                        # Fallback
+                        weight_bf16 = weight_fp8 * weight_scale
+                return torch.nn.functional.linear(x, weight_bf16.t(), bias)
+
+        if self.use_marlin:
+            return apply_fp8_marlin_linear(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                workspace=layer.workspace,
+                size_n=layer.output_size_per_partition,
+                size_k=layer.input_size_per_partition,
+                bias=bias,
+            )
+
+        if self.block_quant:
+            assert self.weight_block_size is not None
+
+            return self.w8a8_block_fp8_linear.apply(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                input_scale=layer.input_scale,
+                bias=bias,
+            )
+
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            out_dtype=self.out_dtype,
+            input_scale=layer.input_scale,
+            bias=bias,
+        )
+
+
+class Fp8MoEMethod(FusedMoEMethodBase):
+    """MoE method for FP8.
+    Supports loading FP8 checkpoints with static weight scale and
+    dynamic/static activation scale.
+
+    Also supports loading quantized FP16/BF16 model checkpoints with dynamic
+    activation scaling. The weight scaling factor will be initialized after
+    the model weights are loaded.
+
+    Args:
+        quant_config: The quantization config.
+    """
+
+    def __init__(self, quant_config: Fp8Config, layer: torch.nn.Module):
+        super().__init__(layer.moe_config)
+        self.layer = layer
+        self.quant_config = quant_config
+        self.weight_block_size = self.quant_config.weight_block_size
+        self.block_quant: bool = self.weight_block_size is not None
+        self.fp8_backend = get_fp8_moe_backend(self.block_quant)
+
+        self.use_marlin = self.fp8_backend == Fp8MoeBackend.MARLIN
+        self.flashinfer_moe_backend: FlashinferMoeBackend | None = None
+        if self.fp8_backend == Fp8MoeBackend.FLASHINFER_TRTLLM:
+            self.flashinfer_moe_backend = FlashinferMoeBackend.TENSORRT_LLM
+        elif self.fp8_backend == Fp8MoeBackend.FLASHINFER_CUTLASS:
+            self.flashinfer_moe_backend = FlashinferMoeBackend.CUTLASS
+            if self.block_quant:
+                assert self.weight_block_size == [128, 128], (
+                    f"Only support weight_block_size == [128, 128], "
+                    f"got {self.weight_block_size}"
+                )
+            self.flashinfer_moe_fn = partial(
+                flashinfer_cutlass_moe_fp8,
+                moe=self.moe,
+                use_deepseek_fp8_block_scale=self.block_quant,
+            )
+
+        self.allow_deep_gemm = self.fp8_backend == Fp8MoeBackend.DEEPGEMM
+        self.allow_cutlass_block_scaled_grouped_gemm = (
+            self.fp8_backend == Fp8MoeBackend.CUTLASS_BLOCK_SCALED_GROUPED_GEMM
+        )
+
+    def create_weights(
+        self,
+        layer: Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            params_dtype = torch.float8_e4m3fn
+        if self.block_quant:
+            assert self.weight_block_size is not None
+            layer.weight_block_size = self.weight_block_size
+            tp_size = get_tensor_model_parallel_world_size()
+            block_n, block_k = (
+                self.weight_block_size[0],
+                self.weight_block_size[1],
+            )
+            # NOTE: To ensure proper alignment of the block-wise quantization
+            # scales, the output_size of the weights for both the gate and up
+            # layers must be divisible by block_n.
+            # Required by column parallel or enabling merged weights
+            if intermediate_size_per_partition % block_n != 0:
+                raise ValueError(
+                    f"The output_size of gate's and up's weight = "
+                    f"{intermediate_size_per_partition} is not divisible by "
+                    f"weight quantization block_n = {block_n}."
+                )
+            if tp_size > 1 and intermediate_size_per_partition % block_k != 0:
+                # Required by row parallel
+                raise ValueError(
+                    f"The input_size of down's weight = "
+                    f"{intermediate_size_per_partition} is not divisible by "
+                    f"weight quantization block_k = {block_k}."
+                )
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        if not self.block_quant:
+            # Allocate 2 scales for w1 and w3 respectively.
+            # They will be combined to a single scale after weight loading.
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, 2, dtype=torch.float32), requires_grad=False
+            )
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        else:
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    2 * ((intermediate_size_per_partition + block_n - 1) // block_n),
+                    (hidden_size + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    (hidden_size + block_n - 1) // block_n,
+                    (intermediate_size_per_partition + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale_inv", w13_weight_scale)
+            layer.register_parameter("w2_weight_scale_inv", w2_weight_scale)
+            assert self.quant_config.activation_scheme == "dynamic"
+
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+            if self.block_quant
+            else {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        # If loading fp8 checkpoint, pass the weight loaders.
+        # If loading an fp16 checkpoint, do not (we will quantize in
+        #   process_weights_after_loading()
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        if self.quant_config.activation_scheme == "static":
+            if not self.quant_config.is_checkpoint_fp8_serialized:
+                raise ValueError(
+                    "Found static activation scheme for checkpoint that "
+                    "was not serialized fp8."
+                )
+
+            w13_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+        self.rocm_aiter_moe_enabled = False
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        # Lazy import to avoid importing triton too early.
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+
+        # TODO (rob): refactor block quant into separate class.
+        if self.block_quant:
+            assert self.quant_config.activation_scheme == "dynamic"
+            if current_platform.is_fp8_fnuz():
+                w13_weight, w13_weight_scale_inv, w13_input_scale = (
+                    normalize_e4m3fn_to_e4m3fnuz(
+                        layer.w13_weight,
+                        layer.w13_weight_scale_inv,
+                        layer.w13_input_scale,
+                    )
+                )
+                w2_weight, w2_weight_scale_inv, w2_input_scale = (
+                    normalize_e4m3fn_to_e4m3fnuz(
+                        layer.w2_weight, layer.w2_weight_scale_inv, layer.w2_input_scale
+                    )
+                )
+            elif self.flashinfer_moe_backend is not None:
+                # NOTE: weights have to be swapped since the activation is
+                # applied on different half for flashinfer vs vllm
+                w13_weight = swap_w13_to_w31(layer.w13_weight.data)
+                w13_weight_scale_inv = swap_w13_to_w31(layer.w13_weight_scale_inv.data)
+                w2_weight = layer.w2_weight.data
+                w2_weight_scale_inv = layer.w2_weight_scale_inv.data
+            else:
+                w13_weight = layer.w13_weight.data
+                w13_weight_scale_inv = layer.w13_weight_scale_inv.data
+                w2_weight = layer.w2_weight
+                w2_weight_scale_inv = layer.w2_weight_scale_inv
+
+            # torch.compile() cannot use Parameter subclasses.
+            layer.w13_weight = Parameter(w13_weight, requires_grad=False)
+            layer.w13_weight_scale_inv = Parameter(
+                w13_weight_scale_inv, requires_grad=False
+            )
+            layer.w2_weight = Parameter(w2_weight, requires_grad=False)
+            layer.w2_weight_scale_inv = Parameter(
+                w2_weight_scale_inv, requires_grad=False
+            )
+            if self.rocm_aiter_moe_enabled:
+                # reshaping weights is required for aiter moe kernel.
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                    layer.w13_weight.data, layer.w2_weight.data
+                )
+
+                layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
+                layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
+
+            # DeepGemm scales need to be transposed and aligned. We try to do
+            # it ahead of time for performance reasons.
+            if self.allow_deep_gemm:
+                dg_w13_weight, dg_w13_weight_scale_inv = (
+                    deepgemm_post_process_fp8_weight_block(
+                        wq=layer.w13_weight.data,
+                        ws=layer.w13_weight_scale_inv.data,
+                        quant_block_shape=tuple(layer.weight_block_size),
+                        use_e8m0=is_deep_gemm_e8m0_used(),
+                    )
+                )
+                dg_w2_weight, dg_w2_weight_scale_inv = (
+                    deepgemm_post_process_fp8_weight_block(
+                        wq=layer.w2_weight.data,
+                        ws=layer.w2_weight_scale_inv.data,
+                        quant_block_shape=tuple(layer.weight_block_size),
+                        use_e8m0=is_deep_gemm_e8m0_used(),
+                    )
+                )
+                layer.w13_weight = Parameter(dg_w13_weight, requires_grad=False)
+                layer.w13_weight_scale_inv = Parameter(
+                    dg_w13_weight_scale_inv, requires_grad=False
+                )
+                layer.w2_weight = Parameter(dg_w2_weight, requires_grad=False)
+                layer.w2_weight_scale_inv = Parameter(
+                    dg_w2_weight_scale_inv, requires_grad=False
+                )
+
+        # If checkpoint is fp16, quantize in place.
+        elif not self.quant_config.is_checkpoint_fp8_serialized:
+            fp8_dtype = current_platform.fp8_dtype()
+            w13_weight = torch.empty_like(layer.w13_weight.data, dtype=fp8_dtype)
+            w2_weight = torch.empty_like(layer.w2_weight.data, dtype=fp8_dtype)
+
+            # Re-initialize w13_scale because we directly quantize
+            # merged w13 weights and generate a single scaling factor.
+            layer.w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    layer.local_num_experts,
+                    dtype=torch.float32,
+                    device=w13_weight.device,
+                ),
+                requires_grad=False,
+            )
+            for expert in range(layer.local_num_experts):
+                w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
+                    ops.scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
+                )
+                w2_weight[expert, :, :], layer.w2_weight_scale[expert] = (
+                    ops.scaled_fp8_quant(layer.w2_weight.data[expert, :, :])
+                )
+            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+            if self.rocm_aiter_moe_enabled:
+                # reshaping weights is required for aiter moe kernel.
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                    layer.w13_weight, layer.w2_weight
+                )
+
+                layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
+                layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
+        # If checkpoint is fp8, we need to handle that the
+        # MoE kernels require single activation scale and single weight
+        # scale for w13 per expert.
+        else:
+            # Fp8 moe kernels require a single activation scale.
+            # We take the max of all the scales in case they differ.
+            if self.quant_config.activation_scheme == "static":
+                if layer.w13_input_scale is None or layer.w2_input_scale is None:
+                    raise ValueError(
+                        "QuantConfig has static quantization, but found "
+                        "activation scales are None."
+                    )
+                if not all_close_1d(layer.w13_input_scale) or not all_close_1d(
+                    layer.w2_input_scale
+                ):
+                    logger.warning_once(
+                        "Found input_scales that are not equal for "
+                        "fp8 MoE layer. Using the maximum across experts "
+                        "for each layer."
+                    )
+                layer.w13_input_scale = torch.nn.Parameter(
+                    layer.w13_input_scale.max(), requires_grad=False
+                )
+                layer.w2_input_scale = torch.nn.Parameter(
+                    layer.w2_input_scale.max(), requires_grad=False
+                )
+            if current_platform.is_fp8_fnuz():
+                # Normalize the weights and scales
+                w13_weight, w13_weight_scale, w13_input_scale = (
+                    normalize_e4m3fn_to_e4m3fnuz(
+                        layer.w13_weight, layer.w13_weight_scale, layer.w13_input_scale
+                    )
+                )
+                w2_weight, w2_weight_scale, w2_input_scale = (
+                    normalize_e4m3fn_to_e4m3fnuz(
+                        layer.w2_weight, layer.w2_weight_scale, layer.w2_input_scale
+                    )
+                )
+                # Reset the parameter
+                layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+                layer.w13_weight_scale = torch.nn.Parameter(
+                    w13_weight_scale, requires_grad=False
+                )
+                if w13_input_scale is not None:
+                    layer.w13_input_scale = torch.nn.Parameter(
+                        w13_input_scale, requires_grad=False
+                    )
+                layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+                layer.w2_weight_scale = torch.nn.Parameter(
+                    w2_weight_scale, requires_grad=False
+                )
+                if w2_input_scale is not None:
+                    layer.w2_input_scale = torch.nn.Parameter(
+                        w2_input_scale, requires_grad=False
+                    )
+
+            # Fp8 moe kernel needs single weight scale for w13 per expert.
+            # We take the max then dequant and requant each expert.
+            assert layer.w13_weight_scale is not None
+            shard_size = layer.intermediate_size_per_partition
+            max_w13_scales = layer.w13_weight_scale.max(dim=1).values
+            for expert_id in range(layer.local_num_experts):
+                start = 0
+                for shard_id in range(2):
+                    dq_weight = per_tensor_dequantize(
+                        layer.w13_weight[expert_id][start : start + shard_size, :],
+                        layer.w13_weight_scale[expert_id][shard_id],
+                    )
+                    layer.w13_weight[expert_id][start : start + shard_size, :], _ = (
+                        ops.scaled_fp8_quant(dq_weight, max_w13_scales[expert_id])
+                    )
+                    start += shard_size
+
+            if self.rocm_aiter_moe_enabled:
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                    layer.w13_weight, layer.w2_weight
+                )
+
+                layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
+                layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
+
+            layer.w13_weight_scale = torch.nn.Parameter(
+                max_w13_scales, requires_grad=False
+            )
+
+            if self.flashinfer_moe_backend is not None:
+                # NOTE: weights have to be swapped since the activation is
+                # applied on different half for flashinfer vs vllm
+                assert not self.block_quant
+                register_moe_scaling_factors(layer)
+                w13_weight = swap_w13_to_w31(layer.w13_weight.data)
+                if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+                    rotate_flashinfer_fp8_moe_weights(w13_weight, w2_weight)
+                layer.w13_weight.data = w13_weight.data
+
+        if self.use_marlin:
+            prepare_moe_fp8_layer_for_marlin(layer, False)
+            # Activations not quantized for marlin.
+            del layer.w13_input_scale
+            del layer.w2_input_scale
+
+    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+        if (
+            self.rocm_aiter_moe_enabled
+            or self.use_marlin
+            or self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+        ):
+            return None
+        elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            if self.block_quant:
+                assert self.weight_block_size == [128, 128], (
+                    f"Only support weight_block_size == [128, 128], "
+                    f"got {self.weight_block_size}"
+                )
+            # Wire block-scale flag through prepare/finalize when using CUTLASS
+            prepare_finalize = build_flashinfer_fp8_cutlass_moe_prepare_finalize(
+                self.moe,
+                use_deepseek_fp8_block_scale=self.block_quant,
+            )
+            logger.debug_once("%s", prepare_finalize.__class__.__name__)
+            return prepare_finalize
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        from vllm.model_executor.layers.fused_moe import (
+            BatchedDeepGemmExperts,
+            BatchedTritonExperts,
+            TritonOrDeepGemmExperts,
+        )
+
+        assert not self.use_marlin and not self.rocm_aiter_moe_enabled, (
+            "Marlin and ROCm AITER are not supported with all2all yet."
+        )
+
+        assert self.moe_quant_config is not None
+
+        if (
+            prepare_finalize.activation_format
+            == FusedMoEActivationFormat.BatchedExperts
+        ):
+            max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
+            assert max_num_tokens_per_rank is not None
+
+            experts_impl = (
+                BatchedDeepGemmExperts if self.allow_deep_gemm else BatchedTritonExperts
+            )
+            logger.debug(
+                "%s(%s): max_tokens_per_rank=%s, block_size=%s, per_act_token=%s",
+                experts_impl.__name__,
+                self.__class__.__name__,
+                max_num_tokens_per_rank,
+                self.weight_block_size,
+                False,
+            )
+            return experts_impl(
+                max_num_tokens=max_num_tokens_per_rank,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+            )
+
+        elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            # Select GEMM experts with block-scale when weights are block-quantized
+            experts = select_cutlass_fp8_gemm_impl(
+                self.moe,
+                self.moe_quant_config,
+                use_deepseek_fp8_block_scale=self.block_quant,
+            )
+            logger.debug_once("Using %s", experts.__class__.__name__)
+            return experts
+        else:
+            logger.debug(
+                "TritonOrDeepGemmExperts(%s): block_size=%s, per_act_token=%s",
+                self.__class__.__name__,
+                self.weight_block_size,
+                False,
+            )
+            return TritonOrDeepGemmExperts(
+                quant_config=self.moe_quant_config,
+                allow_deep_gemm=self.allow_deep_gemm,
+            )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.use_marlin:
+            return None
+
+        return fp8_w8a8_moe_quant_config(
+            w1_scale=(
+                layer.w13_weight_scale_inv
+                if self.block_quant
+                else layer.w13_weight_scale
+            ),
+            w2_scale=(
+                layer.w2_weight_scale_inv if self.block_quant else layer.w2_weight_scale
+            ),
+            a1_scale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale,
+            block_shape=self.weight_block_size,
+        )
+
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+            assert isinstance(layer, FusedMoE)
+
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+            assert activation == "silu", (
+                f"Expected 'silu' activation but got {activation}"
+            )
+
+            if self.block_quant:
+                import vllm.model_executor.layers.fused_moe.flashinfer_trtllm_moe  # noqa: E501, F401
+
+                e_score_correction_bias = (
+                    e_score_correction_bias.to(x.dtype)
+                    if e_score_correction_bias is not None
+                    else None
+                )
+                routing_method_type = layer.routing_method_type
+                return torch.ops.vllm.flashinfer_fused_moe_blockscale_fp8(
+                    routing_logits=router_logits.to(torch.float32)
+                    if routing_method_type == RoutingMethodType.DeepSeekV3
+                    else router_logits,
+                    routing_bias=e_score_correction_bias,
+                    x=x,
+                    w13_weight=layer.w13_weight,
+                    w13_weight_scale_inv=layer.w13_weight_scale_inv,
+                    w2_weight=layer.w2_weight,
+                    w2_weight_scale_inv=layer.w2_weight_scale_inv,
+                    global_num_experts=global_num_experts,
+                    top_k=top_k,
+                    num_expert_group=num_expert_group,
+                    topk_group=topk_group,
+                    intermediate_size=layer.intermediate_size_per_partition,
+                    expert_offset=layer.ep_rank * layer.local_num_experts,
+                    local_num_experts=layer.local_num_experts,
+                    block_shape=self.weight_block_size,
+                    routing_method_type=routing_method_type,
+                    routed_scaling=routed_scaling_factor,
+                )
+            else:
+                assert not renormalize and custom_routing_function is not None
+                result = apply_flashinfer_per_tensor_scale_fp8(
+                    layer=layer,
+                    hidden_states=x,
+                    router_logits=router_logits,
+                    routing_bias=e_score_correction_bias,
+                    global_num_experts=global_num_experts,
+                    top_k=top_k,
+                    num_expert_group=num_expert_group,
+                    topk_group=topk_group,
+                    apply_router_weight_on_input=apply_router_weight_on_input,
+                )
+
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        select_result = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+            num_fused_shared_experts=layer.num_fused_shared_experts,
+        )
+
+        topk_weights, topk_ids, zero_expert_result = select_result
+
+        if self.rocm_aiter_moe_enabled:
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
+                rocm_aiter_fused_experts,
+            )
+
+            result = rocm_aiter_fused_experts(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
+        elif self.use_marlin:
+            assert activation == "silu", f"{activation} not supported for Marlin MoE."
+            result = fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                None,
+                None,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                quant_type_id=scalar_types.float8_e4m3fn.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                workspace=layer.workspace,
+            )
+        elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            assert activation == "silu", (
+                f"Expected 'silu' activation but got {activation}"
+            )
+            if not self.block_quant:
+                assert not renormalize and custom_routing_function is not None
+                assert scoring_func == "sigmoid", (
+                    f"Expected 'sigmoid' scoring func but got {scoring_func}"
+                )
+            # Delegate to CUTLASS FlashInfer path; function already bound with
+            # use_deepseek_fp8_block_scale for block-quant when applicable
+            result = self.flashinfer_moe_fn(
+                x,
+                layer,
+                topk_weights,
+                topk_ids,
+                inplace=False,
+                activation=activation,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            from vllm.model_executor.layers.fused_moe import fused_experts
+
+            result = fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                global_num_experts=global_num_experts,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+                allow_deep_gemm=self.allow_deep_gemm,
+                allow_cutlass_block_scaled_grouped_gemm=(
+                    self.allow_cutlass_block_scaled_grouped_gemm
+                ),
+            )
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
+
+
+class Fp8KVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from FP8 checkpoints.
+    """
+
+    def __init__(self, quant_config: Fp8Config):
+        super().__init__(quant_config)
diff --git a/model_executor/layers/quantization/fp_quant.py b/model_executor/layers/quantization/fp_quant.py
new file mode 100644
index 0000000..15a253c
--- /dev/null
+++ b/model_executor/layers/quantization/fp_quant.py
@@ -0,0 +1,420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Supports FP-Quant compression, see https://arxiv.org/abs/2509.23202
+
+from typing import Any
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm._custom_ops import (
+    cutlass_scaled_fp4_mm,
+    fusedQuantizeMx,
+    fusedQuantizeNv,
+    matmul_mxf4_bf16_tn,
+)
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+from vllm.model_executor.layers.quantization.qutlass_utils import to_blocked
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+class FPQuantConfig(QuantizationConfig):
+    """Config class for FPQuant."""
+
+    def __init__(
+        self,
+        hadamard_group_size: int = 32,
+        forward_dtype: str = "mxfp4",
+        forward_method: str = "abs_max",
+        pseudoquantization: bool = False,
+        modules_to_not_convert: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hadamard_group_size = hadamard_group_size
+        self.forward_dtype = forward_dtype
+        self.forward_method = forward_method
+        self.pseudoquantization = pseudoquantization
+        self.modules_to_not_convert = modules_to_not_convert
+
+        if pseudoquantization:
+            raise ValueError("Pseudoquantization is not supported for vLLM")
+
+    def __repr__(self) -> str:
+        return (
+            f"FPQuantConfig(hadamard_group_size={self.hadamard_group_size}, "
+            f"forward_dtype={self.forward_dtype}, "
+            f"forward_method={self.forward_method}, "
+            f"pseudoquantization={self.pseudoquantization}, "
+            f"modules_to_not_convert={self.modules_to_not_convert})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "fp_quant"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 100
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []  # no extra configs.
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "FPQuantConfig":
+        hadamard_group_size = cls.get_from_keys(config, ["hadamard_group_size"])
+        forward_dtype = cls.get_from_keys(config, ["forward_dtype"])
+        forward_method = cls.get_from_keys(config, ["forward_method"])
+        pseudoquantization = cls.get_from_keys(config, ["pseudoquantization"])
+        modules_to_not_convert = cls.get_from_keys(config, ["modules_to_not_convert"])
+        return cls(
+            hadamard_group_size,
+            forward_dtype,
+            forward_method,
+            pseudoquantization,
+            modules_to_not_convert,
+        )
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> LinearMethodBase | None:
+        if self.modules_to_not_convert is not None and any(
+            prefix.endswith(module) for module in self.modules_to_not_convert
+        ):
+            return UnquantizedLinearMethod()
+
+        if isinstance(layer, LinearBase):
+            return FPQuantLinearMethod(self)
+        return None
+
+
+class FPQuantLinearMethod(LinearMethodBase):
+    """Linear method for FPQuant.
+
+    Args:
+        quant_config: The FPQuant quantization config.
+    """
+
+    def __init__(self, quant_config: FPQuantConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del output_size  # Unused.
+        del input_size  # Unused.
+
+        if params_dtype != torch.bfloat16:
+            raise ValueError("Only bfloat16 is currently supported by FPQuant")
+        if input_size_per_partition % self.quant_config.hadamard_group_size != 0:  # noqa: E501
+            raise ValueError(
+                "The input size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size. Or other skill issues."
+            )
+
+        assert self.quant_config.forward_dtype in ["mxfp4", "nvfp4"], (
+            "Only mxfp4 and nvfp4 are supported for now"
+        )
+        if self.quant_config.forward_dtype == "mxfp4":
+            group_size = 32
+        elif self.quant_config.forward_dtype == "nvfp4":
+            group_size = 16
+        else:
+            raise ValueError(
+                f"Unsupported forward_dtype: {self.quant_config.forward_dtype}"
+            )
+
+        qweight = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            qweight,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+                "packed_dim": 1,
+                "pack_factor": 2,
+            }
+            | extra_weight_attrs,
+        )
+        layer.register_parameter("qweight", qweight)
+
+        scales = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition // group_size,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            scales,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+                "packed_dim": 1,
+                "pack_factor": group_size,
+            }
+            | extra_weight_attrs,
+        )
+        layer.register_parameter("scales", scales)
+
+        weight_global_scale = Parameter(
+            torch.empty(1, dtype=torch.float32),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            weight_global_scale, {"ignore_warning": True} | extra_weight_attrs
+        )
+        layer.register_parameter("weight_global_scale", weight_global_scale)
+
+        act_global_scale = Parameter(
+            torch.empty(1, dtype=torch.float32),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            act_global_scale, {"ignore_warning": True} | extra_weight_attrs
+        )
+        layer.register_parameter("act_global_scale", act_global_scale)
+
+        forward_hadamard_matrix = Parameter(
+            torch.empty(
+                self.quant_config.hadamard_group_size,
+                self.quant_config.hadamard_group_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            forward_hadamard_matrix, {"ignore_warning": True} | extra_weight_attrs
+        )
+        layer.register_parameter("forward_hadamard_matrix", forward_hadamard_matrix)
+
+        backward_hadamard_matrix = Parameter(
+            torch.empty(
+                self.quant_config.hadamard_group_size,
+                self.quant_config.hadamard_group_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            backward_hadamard_matrix, {"ignore_warning": True} | extra_weight_attrs
+        )
+        layer.register_parameter("backward_hadamard_matrix", backward_hadamard_matrix)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return quantized_forward(
+            x,
+            layer.qweight,
+            layer.scales,
+            layer.weight_global_scale,
+            layer.act_global_scale,
+            bias,
+            layer.forward_hadamard_matrix,
+            self.quant_config.forward_method,
+            self.quant_config.forward_dtype,
+        )
+
+
+def ceil_div(a, b):
+    return (a + b - 1) // b
+
+
+def fused_quantize_mx(
+    x_flat: torch.Tensor, hadamard_matrix: torch.Tensor, forward_method: str
+) -> tuple[torch.Tensor, torch.Tensor]:
+    return fusedQuantizeMx(x_flat, hadamard_matrix, method=forward_method)
+
+
+def fused_quantize_mx_fake(x_flat, hadamard_matrix, forward_method):
+    rows, cols = x_flat.size(0), x_flat.size(1) // 32
+    padded_rows = ((rows + 128 - 1) // 128) * 128
+    padded_cols = ((cols + 4 - 1) // 4) * 4
+
+    xh_e2m1 = torch.empty(
+        x_flat.size(0), x_flat.size(1) // 2, dtype=torch.uint8, device=x_flat.device
+    )
+    xh_e8m0 = torch.empty(
+        padded_rows, padded_cols, dtype=torch.float8_e8m0fnu, device=x_flat.device
+    )
+
+    return xh_e2m1, xh_e8m0
+
+
+direct_register_custom_op(
+    op_name="fused_quantize_mx",
+    op_func=fused_quantize_mx,
+    mutates_args=[],
+    fake_impl=fused_quantize_mx_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+def matmul_mxf4_bf16(
+    x: torch.Tensor,
+    w: torch.Tensor,
+    xs: torch.Tensor,
+    ws: torch.Tensor,
+    alpha: torch.Tensor,
+) -> torch.Tensor:
+    return matmul_mxf4_bf16_tn(
+        x,
+        w,
+        to_blocked(xs, backend="triton").view(torch.float8_e8m0fnu),
+        to_blocked(ws, backend="triton").view(torch.float8_e8m0fnu),
+        alpha,
+    )
+
+
+def matmul_mxf4_bf16_fake(x, w, xs, ws, alpha):
+    return torch.empty(*x.shape[:-1], w.shape[0], dtype=torch.bfloat16, device=x.device)
+
+
+direct_register_custom_op(
+    op_name="matmul_mxf4_bf16",
+    op_func=matmul_mxf4_bf16,
+    mutates_args=[],
+    fake_impl=matmul_mxf4_bf16_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+def fused_quantize_nv(
+    x_flat: torch.Tensor, hadamard_matrix: torch.Tensor, global_scale: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor]:
+    return fusedQuantizeNv(x_flat, hadamard_matrix, global_scale)
+
+
+def fused_quantize_nv_fake(x_flat, hadamard_matrix, global_scale):
+    rows, cols = x_flat.size(0), x_flat.size(1) // 16
+    padded_rows = ((rows + 128 - 1) // 128) * 128
+    padded_cols = ((cols + 4 - 1) // 4) * 4
+
+    xh_e2m1 = torch.empty(
+        x_flat.size(0), x_flat.size(1) // 2, dtype=torch.uint8, device=x_flat.device
+    )
+    xh_e8m0 = torch.empty(
+        padded_rows, padded_cols, dtype=torch.float8_e4m3fn, device=x_flat.device
+    )
+
+    return xh_e2m1, xh_e8m0
+
+
+direct_register_custom_op(
+    op_name="fused_quantize_nv",
+    op_func=fused_quantize_nv,
+    mutates_args=[],
+    fake_impl=fused_quantize_nv_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+def matmul_nvf4_bf16(
+    x: torch.Tensor,
+    w: torch.Tensor,
+    xs: torch.Tensor,
+    ws: torch.Tensor,
+    alpha: torch.Tensor,
+) -> torch.Tensor:
+    return cutlass_scaled_fp4_mm(
+        x,
+        w,
+        to_blocked(xs, backend="triton")
+        .view(torch.float8_e4m3fn)
+        .view(-1, x.shape[1] // 8),  # *2//16
+        to_blocked(ws, backend="triton")
+        .view(torch.float8_e4m3fn)
+        .view(-1, x.shape[1] // 8),
+        alpha,
+        torch.bfloat16,
+    )
+
+
+def matmul_nvf4_bf16_fake(x, w, xs, ws, alpha):
+    return torch.empty(*x.shape[:-1], w.shape[0], dtype=torch.bfloat16, device=x.device)
+
+
+direct_register_custom_op(
+    op_name="matmul_nvf4_bf16",
+    op_func=matmul_nvf4_bf16,
+    mutates_args=[],
+    fake_impl=matmul_nvf4_bf16_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+def quantized_forward(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    weight_scales: torch.Tensor,
+    weight_global_scale: torch.Tensor,
+    act_global_scale: torch.Tensor,
+    bias: torch.Tensor | None,
+    forward_hadamard_matrix: torch.Tensor,
+    forward_method: str,
+    forward_dtype: str,
+) -> torch.Tensor:
+    x_flat = x.contiguous().flatten(end_dim=-2)
+
+    if forward_dtype == "mxfp4":
+        x_flat_q, x_flat_scales = torch.ops.vllm.fused_quantize_mx(
+            x_flat, forward_hadamard_matrix, forward_method
+        )
+        y = torch.ops.vllm.matmul_mxf4_bf16(
+            x_flat_q,
+            qweight,
+            x_flat_scales,
+            weight_scales,
+            1 / (weight_global_scale * act_global_scale),
+        )
+    elif forward_dtype == "nvfp4":
+        x_flat_q, x_flat_scales = torch.ops.vllm.fused_quantize_nv(
+            x_flat, forward_hadamard_matrix, act_global_scale
+        )
+        y = torch.ops.vllm.matmul_nvf4_bf16(
+            x_flat_q,
+            qweight,
+            x_flat_scales,
+            weight_scales,
+            1 / (weight_global_scale * act_global_scale),
+        )
+    else:
+        raise ValueError(f"Unsupported forward_dtype: {forward_dtype}")
+
+    y = y.view(*x.shape[:-1], y.shape[-1])
+    if bias is not None:
+        y += bias
+
+    return y
diff --git a/model_executor/layers/quantization/gguf.py b/model_executor/layers/quantization/gguf.py
new file mode 100644
index 0000000..78625a4
--- /dev/null
+++ b/model_executor/layers/quantization/gguf.py
@@ -0,0 +1,651 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Optional
+
+import gguf
+import torch
+import torch.nn.functional as F
+from gguf import GGMLQuantizationType as WeightType
+from torch.nn.parameter import Parameter, UninitializedParameter
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE, FusedMoEMethodBase
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.utils.torch_utils import direct_register_custom_op
+
+logger = init_logger(__name__)
+
+
+class GGUFConfig(QuantizationConfig):
+    """Config class for GGUF."""
+
+    def __init__(self, unquantized_modules: list[str] | None = None) -> None:
+        super().__init__()
+        self.unquantized_modules = unquantized_modules or []
+
+    def __repr__(self) -> str:
+        return "GGUFConfig()"
+
+    def get_name(self) -> QuantizationMethods:
+        return "gguf"
+
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16, torch.float32]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []  # no extra configs.
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "GGUFConfig":
+        return cls()
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped_gguf(prefix, self.unquantized_modules):
+                return UnquantizedLinearMethod()
+            return GGUFLinearMethod(self)
+        elif isinstance(layer, VocabParallelEmbedding):
+            return GGUFEmbeddingMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return GGUFMoEMethod(self, layer.moe_config)
+        return None
+
+
+def is_layer_skipped_gguf(prefix: str, unquantized_modules: list[str]):
+    return any(module_name in prefix for module_name in unquantized_modules)
+
+
+UNQUANTIZED_TYPES = {WeightType.F32, WeightType.F16, WeightType.BF16}
+STANDARD_QUANT_TYPES = {
+    WeightType.Q4_0,
+    WeightType.Q4_1,
+    WeightType.Q5_0,
+    WeightType.Q5_1,
+    WeightType.Q8_0,
+    WeightType.Q8_1,
+}
+KQUANT_TYPES = {
+    WeightType.Q2_K,
+    WeightType.Q3_K,
+    WeightType.Q4_K,
+    WeightType.Q5_K,
+    WeightType.Q6_K,
+}
+IMATRIX_QUANT_TYPES = {
+    WeightType.IQ1_M,
+    WeightType.IQ1_S,
+    WeightType.IQ2_XXS,
+    WeightType.IQ2_XS,
+    WeightType.IQ2_S,
+    WeightType.IQ3_XXS,
+    WeightType.IQ3_S,
+    WeightType.IQ4_XS,
+    WeightType.IQ4_NL,
+}
+# TODO(Isotr0py): Currently, we don't have MMQ kernel for I-Matrix quantization.
+# Consolidate DEQUANT_TYPES, MMVQ_QUANT_TYPES and MMQ_QUANT_TYPES after we add
+# MMQ kernel for I-Matrix quantization.
+DEQUANT_TYPES = STANDARD_QUANT_TYPES | KQUANT_TYPES | IMATRIX_QUANT_TYPES
+MMVQ_QUANT_TYPES = STANDARD_QUANT_TYPES | KQUANT_TYPES | IMATRIX_QUANT_TYPES
+MMQ_QUANT_TYPES = STANDARD_QUANT_TYPES | KQUANT_TYPES
+
+
+def _fused_mul_mat_gguf(
+    x: torch.Tensor, qweight: torch.Tensor, qweight_type: int
+) -> torch.Tensor:
+    if qweight_type in IMATRIX_QUANT_TYPES:
+        mmvq_safe = 8 if qweight.shape[0] > 5120 else 16
+    else:
+        mmvq_safe = 2 if qweight.shape[0] > 5120 else 6
+    # HACK: when doing chunked prefill we don't generate output tokens
+    # so input to logits generator is empty which causes invalid parameter
+    if x.shape[0] == 0:
+        return torch.empty(x.shape[0], qweight.shape[0], dtype=x.dtype, device=x.device)
+    # there is no need to call any kernel for fp16/bf16
+    if qweight_type in UNQUANTIZED_TYPES:
+        return x @ qweight.T
+    # enable MMVQ in contiguous batching with batch_size=1
+    if x.shape[0] <= mmvq_safe and qweight_type in MMVQ_QUANT_TYPES:
+        y = ops.ggml_mul_mat_vec_a8(qweight, x, qweight_type, qweight.shape[0])
+    # Use MMQ Kernel if it's available (standard + k-quants)
+    elif qweight_type in MMQ_QUANT_TYPES:
+        y = ops.ggml_mul_mat_a8(qweight, x, qweight_type, qweight.shape[0])
+    # If there is no available MMQ kernel, fallback to dequantize
+    elif qweight_type in DEQUANT_TYPES:
+        block_size, type_size = gguf.GGML_QUANT_SIZES[qweight_type]
+        shape = (qweight.shape[0], qweight.shape[1] // type_size * block_size)
+        weight = ops.ggml_dequantize(qweight, qweight_type, *shape, x.dtype)
+        y = x @ weight.T
+    else:
+        # Raise an error if the quantization type is not supported.
+        # Might be useful if llama.cpp adds a new quantization type.
+        # Wrap to GGMLQuantizationType IntEnum to make sure it's a valid type.
+        qweight_type = WeightType(qweight_type)
+        raise NotImplementedError(f"Unsupported GGUF quantization type: {qweight_type}")
+    return y
+
+
+def _fused_mul_mat_gguf_fake(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    qweight_type: int,
+) -> torch.Tensor:
+    return torch.empty(x.shape[0], qweight.shape[0], dtype=x.dtype, device=x.device)
+
+
+try:
+    direct_register_custom_op(
+        op_name="_fused_mul_mat_gguf",
+        op_func=_fused_mul_mat_gguf,
+        fake_impl=_fused_mul_mat_gguf_fake,
+    )
+    fused_mul_mat_gguf = _fused_mul_mat_gguf
+
+except AttributeError as error:
+    raise error
+
+
+def _fused_moe_gguf(
+    x: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    qweight_type: int,
+    qweight_type2: int,
+    activation: str,
+) -> torch.Tensor:
+    def act(x: torch.Tensor):
+        d = x.shape[-1] // 2
+        output_shape = x.shape[:-1] + (d,)
+        out = torch.empty(output_shape, dtype=x.dtype, device=x.device)
+        if activation == "silu":
+            torch.ops._C.silu_and_mul(out, x)
+        elif activation == "gelu":
+            torch.ops._C.gelu_and_mul(out, x)
+        else:
+            raise ValueError(f"Unsupported activation: {activation}")
+        return out
+
+    # lazy import to avoid triggering triton import in CPU backend
+    from vllm.model_executor.layers.fused_moe.fused_moe import moe_align_block_size
+
+    out_hidden_states = torch.empty_like(x)
+    # unless we decent expert reuse we are better off running moe_vec kernel
+    if (
+        qweight_type2 in MMQ_QUANT_TYPES
+        and qweight_type in MMQ_QUANT_TYPES
+        and x.shape[0] > 64
+    ):
+        num_tokens, _ = x.shape
+        E, N, _ = w1.shape
+        top_k = topk_ids.shape[1]
+        BLOCK_SIZE = ops.ggml_moe_get_block_size(qweight_type)
+
+        sorted_token_ids, expert_ids, num_tokens_post_padded = moe_align_block_size(
+            topk_ids, BLOCK_SIZE, E
+        )
+        out = ops.ggml_moe_a8(
+            x,
+            w1,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            qweight_type,
+            N,
+            top_k,
+            num_tokens,
+        )
+        out = act(out)
+        out = ops.ggml_moe_a8(
+            out,
+            w2,
+            sorted_token_ids,
+            expert_ids,
+            num_tokens_post_padded,
+            qweight_type2,
+            w2.shape[1],
+            1,
+            num_tokens * top_k,
+        )
+        out = out.reshape(num_tokens, top_k, w2.shape[1]).mul_(
+            topk_weights.view(num_tokens, top_k, 1)
+        )
+        ops.moe_sum(out, out_hidden_states)
+    elif qweight_type2 in MMVQ_QUANT_TYPES and qweight_type in MMVQ_QUANT_TYPES:
+        num_tokens, _ = x.shape
+        E, N, _ = w1.shape
+        top_k = topk_ids.shape[1]
+
+        out = ops.ggml_moe_a8_vec(x, w1, topk_ids, top_k, qweight_type, N, num_tokens)
+        out = act(out)
+
+        out = ops.ggml_moe_a8_vec(
+            out, w2, topk_ids, 1, qweight_type2, w2.shape[1], num_tokens * top_k
+        )
+        out = out.reshape(num_tokens, top_k, w2.shape[1]).mul_(
+            topk_weights.view(num_tokens, top_k, 1)
+        )
+        ops.moe_sum(out, out_hidden_states)
+    else:
+        logger.warning_once(
+            "There is no support for fast MoE kernel "
+            "for current quantization method. "
+            "Falling back to slow implementation. "
+        )
+        for tok, (w, idx) in enumerate(zip(topk_weights, topk_ids)):
+            inp = x[tok].reshape((1,) + x.shape[1:])
+            current_hidden_state = None
+            for ww, ii in zip(w, idx):
+                expert_up = w1[ii]
+
+                out = fused_mul_mat_gguf(inp, expert_up, qweight_type)
+                out = act(out)
+
+                expert_down = w2[ii]
+                current_state = fused_mul_mat_gguf(
+                    out, expert_down, qweight_type2
+                ).mul_(ww)
+                if current_hidden_state is None:
+                    current_hidden_state = current_state
+                else:
+                    current_hidden_state.add_(current_state)
+            out_hidden_states[tok] = current_hidden_state
+    return out_hidden_states
+
+
+def _fused_moe_gguf_fake(
+    x: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    qweight_type: int,
+    qweight_type2: int,
+    activation: str,
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+try:
+    direct_register_custom_op(
+        op_name="_fused_moe_gguf",
+        op_func=_fused_moe_gguf,
+        fake_impl=_fused_moe_gguf_fake,
+    )
+    fused_moe_gguf = _fused_moe_gguf
+
+except AttributeError as error:
+    raise error
+
+
+def _apply_gguf_embedding(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    qweight_type: int,
+    hidden_size: int,
+    dtype: torch.dtype | None = None,
+) -> torch.Tensor:
+    if qweight_type in UNQUANTIZED_TYPES:
+        return torch.embedding(qweight, x)
+    elif qweight_type in DEQUANT_TYPES:
+        block_size, type_size = gguf.GGML_QUANT_SIZES[qweight_type]
+        x_flat = x.flatten()
+        assert hidden_size == qweight.shape[1] // type_size * block_size
+        quant = torch.index_select(qweight, dim=0, index=x_flat)
+        dequant = ops.ggml_dequantize(
+            quant, qweight_type, hidden_size, x_flat.shape[0], dtype
+        )
+        return dequant.view(*x.shape, hidden_size)
+    else:
+        qweight_type = WeightType(qweight_type)
+        raise NotImplementedError(f"Unsupported GGUF quantization type: {qweight_type}")
+
+
+def _apply_gguf_embedding_fake(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    qweight_type: int,
+    hidden_size: int,
+    dtype: torch.dtype | None = None,
+) -> torch.Tensor:
+    return torch.empty(x.shape[0], hidden_size, dtype=dtype, device=x.device)
+
+
+try:
+    direct_register_custom_op(
+        op_name="_apply_gguf_embedding",
+        op_func=_apply_gguf_embedding,
+        fake_impl=_apply_gguf_embedding_fake,
+    )
+    apply_gguf_embedding = _apply_gguf_embedding
+
+except AttributeError as error:
+    raise error
+
+
+class GGUFLinearMethod(LinearMethodBase):
+    """Linear method for GGUF.
+
+    Args:
+        quant_config: The GGUF quantization config.
+    """
+
+    def __init__(self, quant_config: GGUFConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        self.params_dtype = params_dtype
+        output_size_per_partition = sum(output_partition_sizes)
+
+        tensor_shape = (output_size_per_partition, input_size_per_partition)
+        qweight = GGUFUninitializedParameter(requires_grad=False)
+        set_weight_attrs(
+            qweight,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+                "tensor_shape": tensor_shape,
+                "is_gguf_weight": True,
+                "data_container": [],
+                "shard_id": [],
+                "shard_id_map": {},
+                "params_dtype": params_dtype,
+                "input_size_per_partition" :input_size_per_partition, # restore shape for qkv and merge
+                "output_partition_sizes" :output_partition_sizes,
+            },
+        )
+        set_weight_attrs(qweight, extra_weight_attrs)
+        layer.register_parameter("qweight", qweight)
+
+        qweight_type = Parameter(
+            torch.empty(len(output_partition_sizes), dtype=torch.uint8),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            qweight_type,
+            {
+                "is_gguf_weight_type": True,
+                "weight_type": 0,
+                "shard_weight_type": {},
+                "ignore_warning": True,
+            },
+        )
+        set_weight_attrs(qweight_type, extra_weight_attrs)
+        layer.register_parameter("qweight_type", qweight_type)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        qweight_type = layer.qweight_type.weight_type
+        if not (qweight_type in UNQUANTIZED_TYPES or qweight_type in DEQUANT_TYPES):
+            qweight_type = WeightType(qweight_type)
+            raise ValueError(
+                f"Unsupported GGUF quantization type {qweight_type} in layer {layer}."
+            )
+        # For MergedColumnParallelLinear and QKVParallelLinear, we need to
+        # materialize the padded weight parameter for CUDA Graph compatibility.
+        self._create_padded_weight_param(layer)
+
+    def _create_padded_weight_param(self, layer: torch.nn.Module):
+        """Create padded weight parameter for GGUF MergedLinear layer."""
+        qweight = layer.qweight
+        shard_id_map = qweight.shard_id_map
+        shard_id = qweight.shard_id
+        if len(data_container := qweight.data_container) > 1:
+            dtype = {data.dtype for data in data_container}
+            assert len(dtype) == 1, ValueError(
+                f"Data container has mixed dtypes: {dtype}"
+            )
+            dtype = next(iter(dtype))
+            # concat dim0 and pad dim1
+            padded_side = max(x.size(1) for x in data_container)
+            concat_side = sum(x.size(0) for x in data_container)
+            # Pad the quantized weights to dense tensor, and create a map
+            # with the location of each shard in the padded tensor.
+            padded_data = torch.zeros(
+                (concat_side, padded_side), dtype=dtype, device=qweight.device
+            )
+            # (dim0_start, dim0_end, dim1_size)
+            shard_offset_map = dict[str, tuple[int, int, int]]()
+            for idx in shard_id:
+                id_in_container = shard_id_map[idx]
+                start = sum(x.size(0) for x in data_container[:id_in_container])
+                end = start + data_container[id_in_container].size(0)
+                size = data_container[id_in_container].size(1)
+                padded_data[start:end, :size] = data_container[id_in_container]
+                shard_offset_map[idx] = (start, end, size)
+            qweight.data_container.clear()
+            padded_param = Parameter(padded_data, requires_grad=False)
+            set_weight_attrs(padded_param, vars(qweight))
+            set_weight_attrs(padded_param, {"shard_offset_map": shard_offset_map})
+            layer.register_parameter("qweight", padded_param)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        shard_id = layer.qweight.shard_id
+
+        if shard_id:
+            # dequantize shard weights respectively
+            shard_id = ["q", "k", "v"] if "q" in shard_id else shard_id
+            qweight = layer.qweight
+            result = []
+            for idx in shard_id:
+                start, end, offset = layer.qweight.shard_offset_map[idx]
+                qweight_type = layer.qweight_type.shard_weight_type[idx]
+                result.append(
+                    fused_mul_mat_gguf(
+                        x, qweight[start:end, :offset].contiguous(), qweight_type
+                    )
+                )
+            out = torch.cat(result, axis=1)
+        else:
+            qweight = layer.qweight
+            qweight_type = layer.qweight_type.weight_type
+            out = fused_mul_mat_gguf(x, qweight, qweight_type)
+        if bias is not None:
+            out.add_(bias)
+        return out
+
+
+class GGUFMoEMethod(FusedMoEMethodBase):
+    """MoE method for GGUF.
+
+    Args:
+        quant_config: The GGUF quantization config.
+    """
+
+    def __init__(
+        self,
+        quant_config: GGUFConfig,
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        tensor_shape = (num_experts, 2 * intermediate_size_per_partition, hidden_size)
+        # gate up proj
+        w13_qweight = GGUFUninitializedParameter(requires_grad=False)
+        set_weight_attrs(
+            w13_qweight,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+                "tensor_shape": tensor_shape,
+                "is_gguf_weight": True,
+                "data_container": [],
+            },
+        )
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+        layer.register_parameter("w13_qweight", w13_qweight)
+
+        w13_qweight_type = Parameter(
+            torch.empty(1, dtype=torch.uint8), requires_grad=False
+        )
+        set_weight_attrs(
+            w13_qweight_type,
+            {"is_gguf_weight_type": True, "weight_type": 0, "ignore_warning": True},
+        )
+        set_weight_attrs(w13_qweight_type, extra_weight_attrs)
+        layer.register_parameter("w13_qweight_type", w13_qweight_type)
+
+        tensor_shape = (num_experts, intermediate_size_per_partition, hidden_size)
+        # gate down proj
+        w2_qweight = GGUFUninitializedParameter(requires_grad=False)
+        set_weight_attrs(
+            w2_qweight,
+            {
+                "input_dim": 1,
+                "output_dim": 0,
+                "tensor_shape": tensor_shape,
+                "is_gguf_weight": True,
+                "data_container": [],
+            },
+        )
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+        layer.register_parameter("w2_qweight", w2_qweight)
+
+        w2_qweight_type = Parameter(
+            torch.empty(1, dtype=torch.uint8), requires_grad=False
+        )
+        set_weight_attrs(
+            w2_qweight_type,
+            {"is_gguf_weight_type": True, "weight_type": 0, "ignore_warning": True},
+        )
+
+        set_weight_attrs(w2_qweight_type, extra_weight_attrs)
+        layer.register_parameter("w2_qweight_type", w2_qweight_type)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `GGUFMoEMethod` yet.")
+
+        assert activation == "silu", "Only SiLU activation is supported."
+        if apply_router_weight_on_input:
+            raise NotImplementedError(
+                "Apply router weight on input is not supported for"
+                "fused GGUF MoE method."
+            )
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+        return fused_moe_gguf(
+            x,
+            layer.w13_qweight,
+            layer.w2_qweight,
+            topk_weights,
+            topk_ids,
+            layer.w13_qweight_type.weight_type,
+            layer.w2_qweight_type.weight_type,
+            activation,
+        )
+
+
+class GGUFEmbeddingMethod(GGUFLinearMethod):
+    """Embedding method for GGUF.
+
+    Args:
+        quant_config: The GGUF quantization config.
+    """
+
+    def embedding(self, layer: torch.nn.Module, x: torch.Tensor) -> torch.Tensor:
+        weight = layer.weight
+        return F.embedding(x, weight)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        qweight = layer.qweight
+        qweight_type = layer.qweight_type.weight_type
+        hidden_size = qweight.tensor_shape[1]
+
+        return apply_gguf_embedding(
+            x, qweight, qweight_type, hidden_size, dtype=self.params_dtype
+        )
+
+
+class GGUFUninitializedParameter(UninitializedParameter):
+    cls_to_become = Parameter
+    data_container: list[torch.Tensor]
diff --git a/model_executor/layers/quantization/gptq.py b/model_executor/layers/quantization/gptq.py
new file mode 100644
index 0000000..9332fc9
--- /dev/null
+++ b/model_executor/layers/quantization/gptq.py
@@ -0,0 +1,393 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+from enum import Enum
+from fractions import Fraction
+from typing import TYPE_CHECKING, Any, Union
+
+import torch
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+from torch.nn.parameter import Parameter
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE
+from vllm.model_executor.layers.linear import LinearMethodBase
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.gptq_utils import (
+    get_linear_quant_method,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+)
+from vllm.transformers_utils.config import get_safetensors_params_metadata
+from vllm.utils.collection_utils import is_list_of
+
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+    from vllm.model_executor.models.utils import WeightsMapper
+else:
+    QuantizationMethods = str
+
+logger = init_logger(__name__)
+
+
+class GPTQConfig(QuantizationConfig):
+    """Config class for GPTQ.
+
+    Reference: https://arxiv.org/abs/2210.17323
+    """
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        desc_act: bool,
+        lm_head_quantized: bool,
+        dynamic: dict[str, dict[str, int | bool]],
+        autoround_version: str = "",
+        modules_in_block_to_quantize: list[str] | None = None,
+        checkpoint_format: str = "",
+    ) -> None:
+        # GPTQModel use `dynamic` config property to allow per module
+        # quantization config so each module can be individually optimized.
+        # Format is dict[str, dict] where key is a regex string that can
+        # perform both positive ("+:" prefixed) or negative ("-:" prefixed)
+        # matching of a module.
+        # Default to positive match, override base quant config mode, if no
+        # prefix is used. Value is in dict format of field key and override
+        # value.
+        # Negative matching will skip quantization init for this module
+        # entirely:
+        # non-quantized inference. More details and quantization examples can be
+        # found at: https://github.com/ModelCloud/GPTQModel
+        # Example:
+        #  # last 1/2 of the layers 10-21 has 8bit vs 4bit for 0-9
+        #  # last 1/4 of the layers 16-21 has 8bit and group_size 64
+        # dynamic = {
+        #  #`.*\.` matches the layers_node prefix
+        #  # positive match layer 10-15
+        #  r"+:.*\.(?:1[0-5])\..*": {"bits": 8,},
+        #  # positive match layer 16-21
+        #  r"+:.*\.(?:1[6-9]|20|21)\..*": {"bits": 8, "group_size": 64,},
+        #  r"-:.*\.moe\..*": {}, # negative match (skip) all `moe` layers
+        # }
+        super().__init__()
+        self.dynamic = dynamic
+
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.desc_act = desc_act
+        self.lm_head_quantized = lm_head_quantized
+        self.pack_factor = Fraction(32, self.weight_bits)
+        if self.weight_bits not in [2, 3, 4, 8]:
+            raise ValueError(
+                "Currently, only 2/3/4/8-bit weight quantization is "
+                f"supported for GPTQ, but got {self.weight_bits} bits."
+            )
+        # Somehow gptq_gemm 4-bit is buggy, maybe fix it in the future.
+        # For now, show a warning, since gptq_marlin will be used by default.
+        if self.weight_bits == 4:
+            logger.warning_once(
+                "Currently, the 4-bit gptq_gemm kernel for GPTQ is buggy. "
+                "Please switch to gptq_marlin or gptq_bitblas."
+            )
+
+        self.modules_in_block_to_quantize = modules_in_block_to_quantize or []
+
+        # used to identify GPTQ model quantized by autoround
+        self.autoround_version = autoround_version
+
+        # GPTQ v1 and v2 format deals with zero points differently.
+        # Currently GPTQModel stores v1 format checkpoints by default,
+        # but provides the option to set `format="gptq_v2"` in `QuantizeConfig`.
+        self.checkpoint_format = checkpoint_format
+
+    def __repr__(self) -> str:
+        return (
+            f"GPTQConfig(weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size}, "
+            f"desc_act={self.desc_act}), "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"dynamic={self.dynamic}, "
+            f"modules_in_block_to_quantize={self.modules_in_block_to_quantize}), "
+            f"checkpoint_format={self.checkpoint_format})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "gptq"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    # Need to figure it out
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "GPTQConfig":
+        dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
+        dynamic = {} if dynamic is None else dynamic
+
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        desc_act = cls.get_from_keys(config, ["desc_act"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        autoround_version = cls.get_from_keys_or(
+            config, ["autoround_version"], default=""
+        )
+        modules_in_block_to_quantize = cls.get_from_keys_or(
+            config, ["modules_in_block_to_quantize"], default=None
+        )
+        checkpoint_format = cls.get_from_keys_or(
+            config, ["checkpoint_format"], default=""
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            desc_act,
+            lm_head_quantized,
+            dynamic,
+            autoround_version,
+            modules_in_block_to_quantize,
+            checkpoint_format,
+        )
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Union["GPTQLinearMethod", "QuantizeMethodBase"] | None:
+        if isinstance(layer, FusedMoE):
+            # GPTQ MoE support: fall back to MoeWNA16 for broad compatibility
+            from .moe_wna16 import MoeWNA16Config
+
+            # TODO: maybe update this for GPTQv2 format checkpoints
+            config = {
+                "quant_method": "gptq",
+                "bits": self.weight_bits,
+                "group_size": self.group_size,
+                "sym": True,  # GPTQ typically uses symmetric quantization
+                "lm_head": False,
+            }
+            return MoeWNA16Config.from_config(config).get_quant_method(layer, prefix)
+
+        return get_linear_quant_method(self, layer, prefix, GPTQLinearMethod)
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.modules_in_block_to_quantize is not None:
+            self.modules_in_block_to_quantize = hf_to_vllm_mapper.apply_list(
+                self.modules_in_block_to_quantize
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_in_block_to_quantize:
+            if is_list_of(self.modules_in_block_to_quantize, list):
+                # original modules_in_block_to_quantize: list[list[str]]
+                # flatten original modules_in_block_to_quantize
+                self.modules_in_block_to_quantize = [
+                    item
+                    for sublist in self.modules_in_block_to_quantize
+                    for item in sublist
+                ]
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_in_block_to_quantize = list(quant_layers)
+
+
+class ExllamaState(Enum):
+    UNUSED = enum.auto()
+    UNINITIALIZED = enum.auto()
+    READY = enum.auto()
+
+
+class GPTQLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ.
+
+    Args:
+        quant_config: The GPTQ quantization config.
+    """
+
+    def __init__(self, quant_config: GPTQConfig):
+        self.quant_config = quant_config
+
+        # GPTQ v1 and v2 format deals with zero points differently
+        self.use_v2_format = quant_config.checkpoint_format == "gptq_v2"
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del output_size  # Unused.
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        if input_size_per_partition % self.quant_config.group_size != 0:
+            raise ValueError(
+                "The input size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
+            )
+        output_size_per_partition = sum(output_partition_sizes)
+        if output_size_per_partition % self.quant_config.pack_factor.numerator != 0:
+            raise ValueError(
+                "The output size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
+            )
+
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+        exllama_state = ExllamaState.UNINITIALIZED
+        scale_and_zero_size = input_size // group_size
+        scale_and_zero_input_dim = None
+        if (
+            input_size != input_size_per_partition
+            and self.quant_config.group_size != -1
+        ):
+            # For act-order models, we cannot use Exllama for row parallel layer
+            if self.quant_config.desc_act:
+                exllama_state = ExllamaState.UNUSED
+            else:
+                # we need to partition qzeros and scales for exllama kernel
+                scale_and_zero_size = input_size_per_partition // group_size
+                scale_and_zero_input_dim = 0
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        g_idx = RowvLLMParameter(
+            data=torch.tensor(
+                [
+                    i // self.quant_config.group_size
+                    for i in range(input_size_per_partition)
+                ],
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
+        qzeros_args = {
+            "data": torch.empty(
+                scale_and_zero_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scale_and_zero_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+        if scale_and_zero_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
+
+        layer.exllama_state = exllama_state
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # for torch.compile
+        layer.qzeros = Parameter(layer.qzeros.data, requires_grad=False)
+        layer.qweight = Parameter(layer.qweight.data, requires_grad=False)
+        layer.g_idx = Parameter(layer.g_idx.data, requires_grad=False)
+        layer.scales = Parameter(layer.scales.data, requires_grad=False)
+
+        # exllama needs to shuffle the weight after the weight is loaded
+        # here we do the shuffle on first forward pass
+        if layer.exllama_state == ExllamaState.UNINITIALIZED:
+            if self.quant_config.desc_act:
+                layer.g_idx.data = torch.argsort(layer.g_idx).to(torch.int)
+            else:
+                layer.g_idx.data = torch.empty(
+                    (0,), dtype=torch.int, device=layer.g_idx.device
+                )
+            layer.exllama_state = ExllamaState.READY
+            ops.gptq_shuffle(layer.qweight, layer.g_idx, self.quant_config.weight_bits)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        out_shape = x.shape[:-1] + (layer.qweight.shape[-1],)
+        reshaped_x = x.reshape(-1, x.shape[-1])
+
+        # GPTQ v1 and v2 format checkpoints deals with zero points differently,
+        # and require different gemm kernels.
+        output = ops.gptq_gemm(
+            reshaped_x,
+            layer.qweight,
+            layer.qzeros,
+            layer.scales,
+            layer.g_idx,
+            layer.exllama_state == ExllamaState.READY,
+            self.use_v2_format,
+            self.quant_config.weight_bits,
+        )
+        if bias is not None:
+            output.add_(bias)
+        return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/gptq_bitblas.py b/model_executor/layers/quantization/gptq_bitblas.py
new file mode 100644
index 0000000..92f10bf
--- /dev/null
+++ b/model_executor/layers/quantization/gptq_bitblas.py
@@ -0,0 +1,482 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any, Optional
+
+import torch
+from packaging import version
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    set_weight_attrs,
+)
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
+    BitBLASLinearKernel,
+    MPLinearLayerConfig,
+)
+from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
+    BITBLAS_SUPPORTED_NUM_BITS as GPTQ_BITBLAS_SUPPORTED_NUM_BITS,
+)
+from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
+    BITBLAS_SUPPORTED_SYM as GPTQ_BITBLAS_SUPPORTED_SYM,
+)
+from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
+    MINIMUM_BITBLAS_VERSION,
+    bitblas_repeat_scales_on_all_ranks,
+    check_bitblas_supported,
+    verify_bitblas_supported,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+)
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+
+class GPTQBitBLASConfig(QuantizationConfig):
+    """Config class for GPTQ BitBLAS"""
+
+    # (num_bits, is_sym) -> quant_type
+    TYPE_MAP = {
+        (4, True): scalar_types.uint4b8,
+        (8, True): scalar_types.uint8b128,
+    }
+
+    TORCH_DTYPE = torch.float16
+    GPTQ_CKPT_STORAGE_DTYPE = (
+        "int32"  # GPTQ Default Checkpoints use int32 as storage dtype
+    )
+    GPTQ_BITBLAS_STORAGE_DTYPE = "int8"  # BitBLAS uses int8 as storage dtype
+    TORCH_BITBLAS_STORAGE_DTYPE = getattr(torch, GPTQ_BITBLAS_STORAGE_DTYPE)
+    # "original" or "rescale" or "quantized",
+    # the gptq_bitblas prefer "quantized"
+    ZEROS_MODE = "quantized"
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        desc_act: bool,
+        is_sym: bool,
+        quant_method: str | None,
+        lm_head_quantized: bool,
+    ) -> None:
+        try:
+            import bitblas
+
+            if version.parse(bitblas.__version__) < version.parse(
+                MINIMUM_BITBLAS_VERSION
+            ):
+                raise ImportError(
+                    "bitblas version is wrong. Please "
+                    f"install bitblas>={MINIMUM_BITBLAS_VERSION}"
+                )
+        except ImportError as e:
+            bitblas_import_exception = e
+            raise ValueError(
+                "Trying to use the bitblas backend, but could not import"
+                f"with the following error: {bitblas_import_exception}. "
+                "Please install bitblas through the following command: "
+                f"`pip install bitblas>={MINIMUM_BITBLAS_VERSION}`"
+            ) from bitblas_import_exception
+
+        if desc_act and group_size == -1:
+            # In this case, act_order == True is the same as act_order == False
+            # (since we have only one group per output channel)
+            desc_act = False
+
+        super().__init__()
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.desc_act = desc_act
+        self.is_sym = is_sym
+        self.quant_method = quant_method
+        self.lm_head_quantized = lm_head_quantized
+
+        # Verify
+        if self.weight_bits not in GPTQ_BITBLAS_SUPPORTED_NUM_BITS:
+            raise ValueError(
+                f"BitBLAS does not support weight_bits = {self.weight_bits}. "
+                f"Only weight_bits = {GPTQ_BITBLAS_SUPPORTED_NUM_BITS} "
+                "are supported."
+            )
+
+        if self.is_sym not in GPTQ_BITBLAS_SUPPORTED_SYM:
+            raise ValueError(
+                f"BitBLAS does not support is_sym = {self.is_sym}. "
+                f"Only sym = {GPTQ_BITBLAS_SUPPORTED_SYM} are supported."
+            )
+
+        self.storage_dtype = self.GPTQ_BITBLAS_STORAGE_DTYPE
+
+        storage_nbit = int(
+            "".join(c for c in self.GPTQ_CKPT_STORAGE_DTYPE if c.isdigit())
+        )
+
+        # 4 Bits packed into 32 bit datatype.
+        self.pack_factor = storage_nbit // weight_bits
+        self.nbits = weight_bits
+
+        # Zeros type for the quantized weights.
+        self.zeros_mode = self.ZEROS_MODE
+
+        if (weight_bits, is_sym) not in self.TYPE_MAP:
+            raise ValueError(
+                f"Unsupported quantization config: bits={weight_bits}, sym={is_sym}"
+            )
+
+        self.quant_type = self.TYPE_MAP[(weight_bits, is_sym)]
+
+    def __repr__(self) -> str:
+        return (
+            f"GPTQBitBLASConfig(weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size}, "
+            f"desc_act={self.desc_act})"
+            f"is_sym={self.is_sym}, "
+            f"quant_method={self.quant_method})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "gptq_bitblas"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "GPTQBitBLASConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        desc_act = cls.get_from_keys(config, ["desc_act"])
+        is_sym = cls.get_from_keys(config, ["sym"])
+        quant_method = cls.get_from_keys(config, ["quant_method"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        return cls(
+            weight_bits, group_size, desc_act, is_sym, quant_method, lm_head_quantized
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        can_convert = cls.is_gptq_bitblas_compatible(hf_quant_cfg)
+
+        is_valid_user_quant = (
+            user_quant is None
+            or user_quant == "bitblas"
+            or user_quant == "gptq_bitblas"
+        )
+
+        if can_convert and is_valid_user_quant:
+            msg = (
+                "The model is convertible to {} during runtime."
+                " Using {} kernel.".format(cls.get_name(), cls.get_name())
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        if can_convert and user_quant == "gptq":
+            logger.info(
+                "Detected that the model can run with gptq_bitblas"
+                ", however you specified quantization=gptq explicitly,"
+                " so forcing gptq. Use quantization=gptq_bitblas for"
+                " faster inference"
+            )
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["GPTQBitBLASLinearMethod"]:
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            return GPTQBitBLASLinearMethod(self)
+        return None
+
+    @property
+    def torch_storage_dtype(self) -> torch.dtype:
+        return self.TORCH_BITBLAS_STORAGE_DTYPE
+
+    @classmethod
+    def is_gptq_bitblas_compatible(cls, quant_config: dict[str, Any]):
+        # Extract data from quant config.
+        num_bits = quant_config.get("bits")
+        group_size = quant_config.get("group_size")
+        sym = quant_config.get("sym")
+        desc_act = quant_config.get("desc_act")
+
+        # temporarily disable on ROCm platform
+        if not current_platform.is_cuda():
+            return False
+
+        # If we cannot find the info needed in the config, cannot convert.
+        if num_bits is None or group_size is None or sym is None or desc_act is None:
+            return False
+
+        if (num_bits, sym) not in cls.TYPE_MAP:
+            return False
+
+        # If the capability of the device is too low, cannot convert.
+        major, minor = torch.cuda.get_device_capability()
+        device_capability = major * 10 + minor
+        if device_capability < cls.get_min_capability():
+            return False
+
+        # Otherwise, can convert if model satisfies bitblas constraints.
+        return check_bitblas_supported(
+            quant_type=cls.TYPE_MAP[(num_bits, sym)], group_size=group_size
+        )
+
+
+class GPTQBitBLASLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ BitBLAS.
+
+    Args:
+        quant_config: The GPTQ BitBLAS quantization config.
+    """
+
+    kernel_type = BitBLASLinearKernel
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(self, quant_config: GPTQBitBLASConfig) -> None:
+        self.quant_config = quant_config
+        # Verify supported on platform.
+        verify_bitblas_supported(
+            quant_type=self.quant_config.quant_type,
+            group_size=self.quant_config.group_size,
+        )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        """Creates quantized weights for use in linear operations.
+
+        The function initializes and returns a dictionary containing
+        quantized weights, scales, and zeros
+        for performing quantized matrix multiplication operations.
+
+        Args:
+            input_size_per_partition: The size of the input partition.
+            output_partition_sizes: The size of the output partition.
+            input_size: The total size of the input (unused).
+            output_size: The total size of the output (unused).
+            params_dtype:
+                The data type of the parameters (expected to be torch.float16).
+
+        Returns:
+            A dictionary containing the quantized weights ('qweight'),
+            scales ('scales'), and zeros ('zeros').
+
+        Raises:
+            ValueError: If `params_dtype` is not `torch.float16` or if the input
+                size per partition is not divisible by the group size
+                in `quant_config`.
+        """
+        if params_dtype != torch.float16:
+            raise ValueError(
+                f"Parameter data type must be torch.float16, but got {params_dtype}"
+            )
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        if input_size_per_partition % group_size != 0:
+            raise ValueError(
+                f"Input size per partition ({input_size_per_partition}) must "
+                f"be divisible by group size ({self.quant_config.group_size})."
+            )
+
+        kernel_type = self.kernel_type
+        # Validate output_size_per_partition
+        output_size_per_partition = sum(output_partition_sizes)
+
+        is_row_parallel = input_size != input_size_per_partition
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        mp_linear_kernel_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_config.quant_type,
+            act_type=params_dtype,
+            group_size=self.quant_config.group_size,
+            zero_points=False,
+            has_g_idx=self.quant_config.desc_act,
+        )
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for GPTQBitBLASLinearMethod", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        # Determine sharding
+        if bitblas_repeat_scales_on_all_ranks(
+            self.quant_config.desc_act, self.quant_config.group_size, is_row_parallel
+        ):
+            # By setting scale_dim == None, weight_loader will
+            # repeat the scales on each GPU in TP>1 case.
+            scales_and_zp_input_dim = None
+            scales_and_zp_size = input_size // group_size
+        else:
+            # By setting scale_dim == 0, weight_loader will
+            # shard the scales in TP>1 case.
+            scales_and_zp_input_dim = 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        # Init buffers
+        # Quantized weights
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        # Activation order
+        # Ignore warning from fused linear layers such as QKVParallelLinear.
+        g_idx = RowvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        # Scales
+        scales = Parameter(
+            torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            scales,
+            {
+                **extra_weight_attrs,
+                "input_dim": scales_and_zp_input_dim,
+                "output_dim": 1,
+            },
+        )
+
+        # Quantized zero-points
+        qzeros_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+
+        if scales_and_zp_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("scales", scales)
+        layer.register_parameter("qzeros", qzeros)
+
+        self.kernel = kernel_type(
+            mp_linear_kernel_config,
+            w_q_param_name="qweight",
+            w_s_param_name="scales",
+            w_zp_param_name="qzeros",
+            w_gidx_param_name="g_idx",
+            bitblas_quant_config=self.quant_config,
+        )
+
+        # Initialize or retrieve the BitBLAS matrix multiplication operator.
+        self.kernel.configure_bitblas_matmul(
+            input_size_per_partition,
+            output_size_per_partition,
+            params_dtype=params_dtype,
+            bias=False,
+        )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        out = self.kernel.apply_gptq_bitblas_linear(layer, x)
+        if bias is not None:
+            out.add_(bias)
+        return out
diff --git a/model_executor/layers/quantization/gptq_marlin.py b/model_executor/layers/quantization/gptq_marlin.py
new file mode 100644
index 0000000..0699b12
--- /dev/null
+++ b/model_executor/layers/quantization/gptq_marlin.py
@@ -0,0 +1,1099 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from copy import deepcopy
+from typing import Any, Optional
+
+import torch
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+
+import vllm.model_executor.layers.fused_moe  # noqa
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+    UnquantizedFusedMoEMethod,
+)
+from vllm.model_executor.layers.linear import LinearMethodBase, set_weight_attrs
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
+    MPLinearLayerConfig,
+    choose_mp_linear_kernel,
+)
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.gptq_utils import (
+    get_dynamic_override,
+    get_linear_quant_method,
+    override_config,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    check_marlin_supported,
+    check_moe_marlin_supports_layer,
+    marlin_make_workspace_new,
+    marlin_moe_permute_scales,
+    marlin_permute_bias,
+    marlin_repeat_scales_on_all_ranks,
+    verify_marlin_supported,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+)
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+from vllm.transformers_utils.config import get_safetensors_params_metadata
+from vllm.utils.collection_utils import is_list_of
+import ixformer.inference.functions as ixfops
+
+logger = init_logger(__name__)
+
+#[B,K//8,N] ->[B,K,N]
+# less memmory
+def unpack_k_batch_opt(packed_w: torch.Tensor, num_bits: int = 4, chunk_size: int = 2) -> torch.Tensor:
+    """
+    Memory-efficient unpacking for 3D tensor.
+    Converts [B, K // pack_factor, N] int32 tensor → [B, K, N] int8 tensor,
+    without broadcasting huge intermediate tensors (avoids OOM).
+
+    Args:
+        packed_w: torch.int32 tensor of shape [B, K // pack_factor, N].
+        num_bits: Number of bits per packed element (e.g., 4 or 2).
+        chunk_size: How many bit groups to unpack at once (tradeoff between speed and memory).
+
+    Returns:
+        unpacked: torch.int8 tensor of shape [B, K, N].
+    """
+    B, k_packed, N = packed_w.shape
+    pack_factor = 32 // num_bits
+    K = k_packed * pack_factor
+    mask = (1 << num_bits) - 1
+
+    # Allocate output tensor once
+    unpacked = torch.empty((B, K, N), dtype=torch.int8, device=packed_w.device)
+
+    # Process bit chunks iteratively to save memory
+    for i in range(0, pack_factor, chunk_size):
+        # Precompute shifts for this chunk
+        shift_vals = num_bits * torch.arange(i, min(i + chunk_size, pack_factor), device=packed_w.device)
+        # [chunk_size, 1, 1, 1]
+        shifts = shift_vals.view(-1, 1, 1, 1)
+        # Compute small chunk only
+        chunk = ((packed_w.unsqueeze(0) >> shifts) & mask).to(torch.int8)
+
+        # chunk: [chunk_size, B, k_packed, N]
+        # write into output
+        for j in range(chunk.shape[0]):
+            unpacked[:, (i + j)::pack_factor, :] = chunk[j]
+
+        del chunk  # release memory early
+
+    return unpacked
+
+# more memmory
+def unpack_k_batch(packed_w: torch.Tensor, num_bits: int = 4) -> torch.Tensor:
+    """
+    Efficient vectorized unpacking for 3D tensor (batch version).
+    Converts [B, K // pack_factor, N] int32 tensor → [B, K, N] int8 tensor.
+
+    Args:
+        packed_w: torch.int32 tensor of shape [B, K // pack_factor, N].
+        num_bits: Number of bits per packed element (e.g., 4).
+
+    Returns:
+        unpacked: torch.int8 tensor of shape [B, K, N].
+    """
+    B, k_packed, n = packed_w.shape
+    pack_factor = 32 // num_bits
+    k = k_packed * pack_factor
+
+    mask = (1 << num_bits) - 1
+
+    # [pack_factor, 1, 1, 1]
+    shifts = (num_bits * torch.arange(pack_factor, device=packed_w.device)).view(-1, 1, 1, 1)
+
+    # [1, B, k_packed, N]
+    packed_expanded = packed_w.unsqueeze(0)
+
+    # Extract each group of num_bits using bitwise ops
+    unpacked_groups = ((packed_expanded >> shifts) & mask).to(torch.int8)
+
+    # [pack_factor, B, k_packed, N] → [B, K, N]
+    unpacked = unpacked_groups.permute(1, 2, 0, 3).reshape(B, k, n)
+
+    return unpacked
+
+
+#[B,K,N] ->[B,K,N//8]
+# less memmory
+def pack_n_batch_opt(x: torch.Tensor, pack_num: int = 8, order_map=None, chunk_size: int = 2) -> torch.Tensor:
+    """
+    Memory-efficient batch packing with correct bit order.
+    [B, K, N] int4 -> [B, K, N//pack_num] int32.
+    """
+    B, K, N = x.shape
+    assert N % pack_num == 0, "N must be divisible by pack_num"
+    cols = N // pack_num
+    unit = 32 // pack_num
+
+    if order_map is None:
+        order_map = list(range(pack_num))
+    order_map = torch.tensor(order_map, device=x.device)
+
+    shifts = unit * torch.arange(pack_num, device=x.device)  # always 0..unit*(pack_num-1)
+    packed = torch.zeros((B, K, cols), dtype=torch.int32, device=x.device)
+    x_reshape = x.view(B, K, cols, pack_num) & 0xF
+
+    # process in chunks for memory efficiency
+    for start in range(0, pack_num, chunk_size):
+        end = min(start + chunk_size, pack_num)
+        idx_chunk = order_map[start:end]
+        shift_chunk = shifts[start:end]
+
+        vals = torch.gather(x_reshape, 3, idx_chunk.view(1,1,1,-1).expand(B,K,cols,-1)).to(torch.int32)
+        for j in range(vals.shape[-1]):
+            packed.add_(vals[..., j] << shift_chunk[j])
+
+    return packed
+
+## more memmory
+def pack_n_batch(x: torch.Tensor, pack_num: int = 8, order_map=None) -> torch.Tensor:
+    """
+    Efficient vectorized batch packing: [B, K, N] int4 -> [B, K, N//pack_num] int32.
+
+    Args:
+        x: torch.int32 tensor of shape [B, K, N], each element 0-15 (int4).
+        pack_num: Number of 4-bit elements per packed int32 (default=8).
+        order_map: Optional order of elements within each packed int32.
+
+    Returns:
+        torch.int32 tensor of shape [B, K, N//pack_num].
+    """
+    
+    B, K, N = x.shape
+    assert N % pack_num == 0, "N must be divisible by pack_num"
+    cols = N // pack_num
+
+    if order_map is None:
+        order_map = list(range(pack_num))
+    order_map = torch.tensor(order_map, device=x.device)
+
+    unit = 32 // pack_num  # number of bits per element
+
+    # reshape to [B, K, cols, pack_num]
+    pack_num_int = int(pack_num)
+
+    x_reshape = x.view(B, K, cols, pack_num_int)
+
+    # reorder according to order_map
+    x_reorder = torch.gather(
+        x_reshape, 3, order_map.view(1, 1, 1, -1).expand(B, K, cols, -1)
+    )
+
+    # mask low 4 bits
+    x_reorder = x_reorder & 0xF
+
+    # bit shifts [pack_num] -> [1,1,1,pack_num] broadcastable
+    shifts = (unit * torch.arange(pack_num_int, device=x.device)).view(1, 1, 1, -1)
+
+    # shift and sum along last dimension to combine bits
+    packed = (x_reorder << shifts).sum(dim=-1).to(torch.int32)
+
+    return packed
+
+
+
+def get_moe_quant_method(
+    config: "GPTQMarlinConfig",
+    layer: torch.nn.Module,
+    prefix: str,
+    moe_method_cls: type,
+):
+    cloned_config = deepcopy(config)
+
+    if isinstance(layer, FusedMoE):
+        # False = skip module, None = no override, else = Positive match
+        if (
+            get_dynamic_override(  # noqa: E712
+                cloned_config,  # noqa: E712
+                layer_name=prefix,
+            )
+            == False
+        ):  # noqa: E712
+            return UnquantizedFusedMoEMethod(layer.moe_config)
+
+        if prefix:
+            # Dynamic per module/layer rules may override base config
+            override_config(cloned_config, prefix=prefix)
+
+        return moe_method_cls(cloned_config, layer.moe_config)
+    return None
+
+
+class GPTQMarlinConfig(QuantizationConfig):
+    """Config class for GPTQ Marlin"""
+
+    # (num_bits, is_sym) -> quant_type
+    TYPE_MAP = {
+        (4, True): scalar_types.uint4b8,
+        (8, True): scalar_types.uint8b128,
+    }
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        desc_act: bool,
+        is_sym: bool,
+        lm_head_quantized: bool,
+        dynamic: dict[str, dict[str, int | bool]],
+        full_config: dict[str, Any],
+        modules_in_block_to_quantize: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        if desc_act and group_size == -1:
+            # In this case, act_order == True is the same as act_order == False
+            # (since we have only one group per output channel)
+            desc_act = False
+
+        # GPTQModel use `dynamic` config property to allow per module
+        # quantization config so each module can be individually optimized.
+        # Format is dict[str, dict] where key is a regex string that can
+        # perform both positive ("+:" prefixed) or negative ("-:" prefixed)
+        # matching of a module.
+        # Default to positive match, override base quant config mode, if no
+        # prefix is used. Value is in dict format of field key and override
+        # value.
+        # Negative matching will skip quantization init for this module
+        # entirely:
+        # non-quantized inference. More details and quantization examples can be
+        # found at: https://github.com/ModelCloud/GPTQModel
+        # Example:
+        #  # last 1/2 of the layers 10-21 has 8bit vs 4bit for 0-9
+        #  # last 1/4 of the layers 16-21 has 8bit and group_size 64
+        # dynamic = {
+        #  #`.*\.` matches the layers_node prefix
+        #  # positive match layer 10-15
+        #  r"+:.*\.(?:1[0-5])\..*": {"bits": 8,},
+        #  # positive match layer 16-21
+        #  r"+:.*\.(?:1[6-9]|20|21)\..*": {"bits": 8, "group_size": 64,},
+        #  r"-:.*\.moe\..*": {}, # negative match (skip) all `moe` layers
+        # }
+        self.dynamic = dynamic
+
+        self.weight_bits = weight_bits
+        self.is_sym = is_sym
+
+        self.pack_factor = 32 // weight_bits  # packed into int32
+        self.group_size = group_size
+        self.desc_act = desc_act
+        self.lm_head_quantized = lm_head_quantized
+        self.full_config = full_config
+
+        if (weight_bits, is_sym) not in self.TYPE_MAP:
+            raise ValueError(
+                f"Unsupported quantization config: bits={weight_bits}, sym={is_sym}"
+            )
+
+        self.quant_type = self.TYPE_MAP[(weight_bits, is_sym)]
+
+        self.modules_in_block_to_quantize = modules_in_block_to_quantize or []
+        # used to identify GPTQ model quantized by autoround
+        self.autoround_version = full_config.get("autoround_version", "")
+
+    def __repr__(self) -> str:
+        return (
+            f"GPTQMarlinConfig(quant_type={self.quant_type}, "
+            f"group_size={self.group_size}, "
+            f"desc_act={self.desc_act}, "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"dynamic={self.dynamic}, "
+            f"modules_in_block_to_quantize={self.modules_in_block_to_quantize})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "gptq_marlin"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "GPTQMarlinConfig":
+        dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
+        dynamic = {} if dynamic is None else dynamic
+
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        desc_act = cls.get_from_keys(config, ["desc_act"])
+        is_sym = cls.get_from_keys(config, ["sym"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        modules_in_block_to_quantize = cls.get_from_keys_or(
+            config, ["modules_in_block_to_quantize"], default=None
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            desc_act,
+            is_sym,
+            lm_head_quantized,
+            dynamic,
+            config,
+            modules_in_block_to_quantize,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        can_convert = cls.is_gptq_marlin_compatible(hf_quant_cfg)
+
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "marlin" or user_quant == "gptq_marlin"
+        )
+
+        if can_convert and is_valid_user_quant:
+            msg = (
+                "The model is convertible to {} during runtime."
+                " Using {} kernel.".format(cls.get_name(), cls.get_name())
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        if can_convert and user_quant == "gptq":
+            logger.info(
+                "Detected that the model can run with gptq_marlin"
+                ", however you specified quantization=gptq explicitly,"
+                " so forcing gptq. Use quantization=gptq_marlin for"
+                " faster inference"
+            )
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, FusedMoE):
+            from vllm.model_executor.layers.quantization.moe_wna16 import MoeWNA16Config
+
+            if not check_moe_marlin_supports_layer(layer, self.group_size):
+                logger.warning_once(
+                    f"Layer '{prefix}' is not supported by GPTQMoeMarlin. "
+                    "Falling back to Moe WNA16 kernels."
+                )
+                return MoeWNA16Config.from_config(self.full_config).get_quant_method(
+                    layer, prefix
+                )
+            return get_moe_quant_method(self, layer, prefix, GPTQMarlinMoEMethod)
+        return get_linear_quant_method(self, layer, prefix, GPTQMarlinLinearMethod)
+
+    @classmethod
+    def is_gptq_marlin_compatible(cls, quant_config: dict[str, Any]):
+        quant_method = quant_config.get("quant_method", "").lower()
+        num_bits = quant_config.get("bits")
+        group_size = quant_config.get("group_size")
+        sym = quant_config.get("sym")
+        desc_act = quant_config.get("desc_act")
+
+        if not current_platform.is_cuda():
+            return False
+
+        if quant_method != "gptq":
+            return False
+
+        # Marlin conversion is only valid if required properties are found
+        if num_bits is None or group_size is None or sym is None or desc_act is None:
+            return False
+
+        if (num_bits, sym) not in cls.TYPE_MAP:
+            return False
+
+        return check_marlin_supported(
+            quant_type=cls.TYPE_MAP[(num_bits, sym)], group_size=group_size
+        )
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper):
+        if self.modules_in_block_to_quantize is not None:
+            self.modules_in_block_to_quantize = hf_to_vllm_mapper.apply_list(
+                self.modules_in_block_to_quantize
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_in_block_to_quantize:
+            if is_list_of(self.modules_in_block_to_quantize, list):
+                # original modules_in_block_to_quantize: list[list[str]]
+                # flatten original modules_in_block_to_quantize
+                self.modules_in_block_to_quantize = [
+                    item
+                    for sublist in self.modules_in_block_to_quantize
+                    for item in sublist
+                ]
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_in_block_to_quantize = list(quant_layers)
+
+
+class GPTQMarlinLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ Marlin.
+
+    Args:
+        quant_config: The GPTQ Marlin quantization config.
+    """
+
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(self, quant_config: GPTQMarlinConfig) -> None:
+        self.quant_config = quant_config
+
+        # Verify supported on platform.
+        verify_marlin_supported(
+            quant_type=self.quant_config.quant_type,
+            group_size=self.quant_config.group_size,
+        )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        output_size_per_partition = sum(output_partition_sizes)
+        is_row_parallel = input_size != input_size_per_partition
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        mp_linear_kernel_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_config.quant_type,
+            act_type=params_dtype,
+            group_size=self.quant_config.group_size,
+            zero_points=False,
+            has_g_idx=self.quant_config.desc_act,
+        )
+
+        kernel_type = choose_mp_linear_kernel(mp_linear_kernel_config)
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for GPTQMarlinLinearMethod", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        # Determine sharding
+        if marlin_repeat_scales_on_all_ranks(
+            self.quant_config.desc_act, self.quant_config.group_size, is_row_parallel
+        ):
+            # By setting scale_dim == None, weight_loader will
+            # repeat the scales on each GPU in TP>1 case.
+            scales_and_zp_input_dim = None
+            scales_and_zp_size = input_size // group_size
+        else:
+            # By setting scale_dim == 0, weight_loader will
+            # shard the scales in TP>1 case.
+            scales_and_zp_input_dim = 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        # Quantized weights
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        # Activation order
+        g_idx = RowvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        qzeros_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+
+        if scales_and_zp_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("scales", scales)
+        layer.register_parameter("qzeros", qzeros)
+
+        self.kernel = kernel_type(
+            mp_linear_kernel_config,
+            w_q_param_name="qweight",
+            w_s_param_name="scales",
+            w_zp_param_name="qzeros",
+            w_gidx_param_name="g_idx",
+        )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
+
+
+class GPTQMarlinMoEMethod(FusedMoEMethodBase):
+    """MoE Marlin method with quantization."""
+
+    def __init__(
+        self,
+        quant_config: GPTQMarlinConfig,
+        moe: FusedMoEConfig,
+    ) -> None:
+        super().__init__(moe)
+        self.quant_config = quant_config
+        if self.quant_config.quant_type.size_bits == 4:
+            self.quant_type = scalar_types.uint4b8
+        # elif self.quant_config.quant_type.size_bits == 8:
+        #     self.quant_type = scalar_types.uint8b128
+        else:
+            raise ValueError("GPTQMarlinMoEMethod only supports int4 and int8 now.")
+        self.use_marlin = True
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        intermediate_size_full = extra_weight_attrs.pop("intermediate_size_full")
+
+        self.is_k_full = (not self.quant_config.desc_act) or (
+            intermediate_size_per_partition == intermediate_size_full
+        )
+
+        if self.quant_config.group_size != -1:
+            scales_size13 = hidden_size // self.quant_config.group_size
+            w2_scales_size = (
+                intermediate_size_full
+                if self.quant_config.desc_act
+                else intermediate_size_per_partition
+            )
+            scales_size2 = w2_scales_size // self.quant_config.group_size
+            strategy = FusedMoeWeightScaleSupported.GROUP.value
+        else:
+            scales_size13 = 1
+            scales_size2 = 1
+            strategy = FusedMoeWeightScaleSupported.CHANNEL.value
+
+        extra_weight_attrs.update({"quant_method": strategy, "is_transposed": True})
+        # Fused gate_up_proj (column parallel)
+        w13_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size // self.quant_config.pack_factor,
+                2 * intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qweight", w13_qweight)
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+        # down_proj (row parallel)
+        w2_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition // self.quant_config.pack_factor,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qweight", w2_qweight)
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+        # up_proj scales
+        w13_scales = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                scales_size13,
+                2 * intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scales", w13_scales)
+        set_weight_attrs(w13_scales, extra_weight_attrs)
+        # down_proj scales
+        w2_scales = torch.nn.Parameter(
+            torch.empty(num_experts, scales_size2, hidden_size, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scales", w2_scales)
+        set_weight_attrs(w2_scales, extra_weight_attrs)
+        # don't shard the w2 scales when running act order
+        set_weight_attrs(w2_scales, {"load_full_w2": self.quant_config.desc_act})
+        # up_proj scales
+        w13_qzeros = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                scales_size13,
+                2 * intermediate_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qzeros", w13_qzeros)
+        set_weight_attrs(w13_qzeros, extra_weight_attrs)
+        # down_proj scales
+        w2_qzeros = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                scales_size2,
+                hidden_size // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qzeros", w2_qzeros)
+        set_weight_attrs(w2_qzeros, extra_weight_attrs)
+        # don't shard the w2 scales when running act order
+        set_weight_attrs(w2_qzeros, {"load_full_w2": self.quant_config.desc_act})
+        w13_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_g_idx", w13_g_idx)
+        set_weight_attrs(w13_g_idx, extra_weight_attrs)
+        w2_g_idx = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_g_idx", w2_g_idx)
+        set_weight_attrs(w2_g_idx, extra_weight_attrs)
+        w13_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_g_idx_sort_indices", w13_g_idx_sort_indices)
+        set_weight_attrs(w13_g_idx_sort_indices, extra_weight_attrs)
+        w2_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_g_idx_sort_indices", w2_g_idx_sort_indices)
+        set_weight_attrs(w2_g_idx_sort_indices, extra_weight_attrs)
+
+        device = layer.w13_qweight.device
+        # layer.workspace = marlin_make_workspace_new(device, 4)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # Process act_order
+        # if self.quant_config.desc_act:
+            # Get sorting based on g_idx
+        #     num_experts = layer.w13_g_idx.shape[0]
+        #     w13_g_idx_sort_indices = torch.empty_like(layer.w13_g_idx)
+        #     w2_g_idx_sort_indices = torch.empty_like(layer.w2_g_idx)
+        #     w13_sorted_g_idx = torch.empty_like(layer.w13_g_idx)
+        #     w2_sorted_g_idx = torch.empty_like(layer.w2_g_idx)
+        #     for e in range(num_experts):
+        #         w13_g_idx_sort_indices[e] = torch.argsort(layer.w13_g_idx[e]).to(
+        #             torch.int32
+        #         )
+        #         w2_g_idx_sort_indices[e] = torch.argsort(layer.w2_g_idx[e]).to(
+        #             torch.int32
+        #         )
+        #         w13_sorted_g_idx[e] = layer.w13_g_idx[e][w13_g_idx_sort_indices[e]]
+        #         w2_sorted_g_idx[e] = layer.w2_g_idx[e][w2_g_idx_sort_indices[e]]
+        #     replace_parameter(layer, "w13_g_idx", w13_sorted_g_idx)
+        #     replace_parameter(layer, "w2_g_idx", w2_sorted_g_idx)
+        #     replace_parameter(layer, "w13_g_idx_sort_indices", w13_g_idx_sort_indices)
+        #     replace_parameter(layer, "w2_g_idx_sort_indices", w2_g_idx_sort_indices)
+        # else:
+        #     # Reset g_idx related tensors
+        #     num_experts = layer.w13_g_idx.shape[0]
+        #     device = layer.w13_g_idx.device
+        #     layer.w13_g_idx = torch.nn.Parameter(
+        #         torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+        #         requires_grad=False,
+        #     )
+        #     layer.w2_g_idx = torch.nn.Parameter(
+        #         torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+        #         requires_grad=False,
+        #     )
+        #     layer.w13_g_idx_sort_indices = torch.nn.Parameter(
+        #         torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+        #         requires_grad=False,
+        #     )
+        #     layer.w2_g_idx_sort_indices = torch.nn.Parameter(
+        #         torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+        #         requires_grad=False,
+        #     )
+        # # Repack weights
+        # marlin_w13_qweight = ops.gptq_marlin_moe_repack(
+        #     layer.w13_qweight,
+        #     layer.w13_g_idx_sort_indices,
+        #     layer.w13_qweight.shape[1] * self.quant_config.pack_factor,
+        #     layer.w13_qweight.shape[2],
+        #     self.quant_config.quant_type.size_bits,
+        # )
+        # replace_parameter(layer, "w13_qweight", marlin_w13_qweight)
+        # marlin_w2_qweight = ops.gptq_marlin_moe_repack(
+        #     layer.w2_qweight,
+        #     layer.w2_g_idx_sort_indices,
+        #     layer.w2_qweight.shape[1] * self.quant_config.pack_factor,
+        #     layer.w2_qweight.shape[2],
+        #     self.quant_config.quant_type.size_bits,
+        # )
+        # replace_parameter(layer, "w2_qweight", marlin_w2_qweight)
+        # # Repack scales
+        # marlin_w13_scales = marlin_moe_permute_scales(
+        #     s=layer.w13_scales,
+        #     size_k=layer.intermediate_size_per_partition,
+        #     size_n=layer.w13_scales.shape[2],
+        #     group_size=self.quant_config.group_size,
+        # )
+        # replace_parameter(layer, "w13_scales", marlin_w13_scales)
+        # marlin_w2_scales = marlin_moe_permute_scales(
+        #     s=layer.w2_scales,
+        #     size_k=layer.w2_scales.shape[1]
+        #     * (
+        #         self.quant_config.group_size
+        #         if self.quant_config.group_size != -1
+        #         else self.quant_config.pack_factor
+        #     ),
+        #     size_n=layer.w2_scales.shape[2],
+        #     group_size=self.quant_config.group_size,
+        # )
+        # replace_parameter(layer, "w2_scales", marlin_w2_scales)
+
+        # if hasattr(layer, "w13_bias") and layer.w13_bias is not None:
+        #     layer.w13_bias.data = marlin_permute_bias(layer.w13_bias)
+
+        # if hasattr(layer, "w2_bias") and layer.w2_bias is not None:
+        #     layer.w2_bias.data = marlin_permute_bias(layer.w2_bias)
+        if self.quant_config.desc_act:
+            raise NotImplementedError(
+                "GPTQMarlinMoEMethod now not support  desc_act. please fix it")   
+        w13_qweight_unpacked = unpack_k_batch(layer.w13_qweight)
+        w13_qweight_repacked = pack_n_batch(w13_qweight_unpacked,self.quant_config.pack_factor,order_map=[0, 2, 4, 6, 1, 3, 5, 7])
+        replace_parameter(layer, "w13_qweight", w13_qweight_repacked)
+        
+        # quant vllm/model_executor/layers/quantization/utils/quant_utils.py#quantize_weights
+        # if quant_type.has_bias():
+        #     w_q += quant_type.bias 
+        # use  quant_type.bias as zp,(ixformer support)
+        w13_zp = torch.full_like(layer.w13_scales, self.quant_type.bias, dtype=torch.int32)
+        w13_zp_pack = pack_n_batch(w13_zp, self.quant_config.pack_factor, order_map=[0, 2, 4, 6, 1, 3, 5, 7]).contiguous()
+        replace_parameter(layer, "w13_qzeros", w13_zp_pack)
+        
+        w2_qweight_unpacked = unpack_k_batch(layer.w2_qweight)
+        w2_qweight_repacked = pack_n_batch(w2_qweight_unpacked,self.quant_config.pack_factor,order_map=[0, 2, 4, 6, 1, 3, 5, 7])
+        replace_parameter(layer, "w2_qweight", w2_qweight_repacked)
+        
+        w2_zp = torch.full_like(layer.w2_scales, self.quant_type.bias, dtype=torch.int32)
+        w2_zp_pack = pack_n_batch(w2_zp, self.quant_config.pack_factor, order_map=[0, 2, 4, 6, 1, 3, 5, 7]).contiguous()
+        replace_parameter(layer, "w2_qzeros", w2_zp_pack)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `GPTQMarlinMoEMethod` yet."
+            )
+
+        assert activation == "silu", "Only SiLU activation is supported."
+        use_ep = expert_map is not None
+        
+        if use_ep:
+            start_eid = layer.ep_rank * layer.local_num_experts
+            end_eid = min((layer.ep_rank + 1) * layer.local_num_experts, global_num_experts)
+            
+        if apply_router_weight_on_input:
+            raise NotImplementedError(
+                "GPTQMarlinMoEMethod Apply router weight on input is not supported for"
+                "fused Marlin MoE method.") 
+            
+        if (hasattr(layer, "w13_bias") and layer.w13_bias is not None) or (hasattr(layer, "w2_bias") and layer.w2_bias is not None):
+            raise NotImplementedError(
+                "GPTQMarlinMoEMethod moe_w4a16_group_gemm not supported bias, please fix this") 
+                  
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype)
+        
+        
+        num_tokens, num_experts = router_logits.shape
+
+        if use_ep:
+            hidden_size = x.shape[1]
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+                expand_tokens,
+            ) = ixfops.moe_compute_token_index_ep(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+                start_expert_id=start_eid,
+                end_expert_id=end_eid,
+            )
+            if expert_sizes_cpu.sum() == 0:
+                return torch.zeros(
+                    (num_tokens, hidden_size),
+                    device=x.device,
+                    dtype=x.dtype,
+                )
+        else:
+            expand_tokens = num_tokens * top_k
+            (
+                src_to_dst,
+                sorted_token_ids,
+                expert_sizes_gpu,
+                expert_sizes_cpu,
+            ) = ixfops.moe_compute_token_index(
+                topk_ids=topk_ids,
+                num_experts=num_experts,
+            )
+            expert_sizes_cpu = expert_sizes_gpu.cpu()
+
+        # expand + reorder
+        # TODO use kernel
+        expand_hidden_states = ixfops.moe_expand_input(
+            hidden_states=x,
+            dst_to_src=sorted_token_ids,
+            dst_tokens=expand_tokens,
+            topk=top_k,
+            src_to_dst=src_to_dst,
+        )
+
+        # w4a16 group gemm 1
+        # pt_output_1: (expand_tokens, 2n) dtype
+        pt_output_1 = ixfops.moe_w4a16_group_gemm(
+            input=expand_hidden_states,
+            weight=layer.w13_qweight,
+            w_scales=layer.w13_scales,
+            quant_type="awq",
+            tokens_per_experts=expert_sizes_cpu,
+            w_zeros=layer.w13_qzeros,
+            group_size=self.quant_config.group_size,
+            dst_to_src=None,
+            format="NN",
+            tokens_per_experts_gpu=expert_sizes_gpu,
+        )
+
+        # act
+        pt_output_2 = ixfops.silu_and_mul(pt_output_1)
+
+        # w4a16 group gemm 2 + reorder
+        # pt_output_3: (expand_tokens, k) dtype
+        if use_ep:
+            pt_output_3 = torch.empty(
+                (num_tokens * top_k, hidden_size),
+                device=x.device,
+                dtype=x.dtype,
+            )
+
+            ixfops.moe_w4a16_group_gemm(
+                input=pt_output_2,
+                weight=layer.w2_qweight,
+                w_scales=layer.w2_scales,
+                quant_type="awq",
+                tokens_per_experts=expert_sizes_cpu,
+                w_zeros=layer.w2_qzeros,
+                group_size=self.quant_config.group_size,
+                dst_to_src=sorted_token_ids,
+                format="NN",
+                output=pt_output_3,
+                tokens_per_experts_gpu=expert_sizes_gpu,
+            )
+
+            reduce_mask = src_to_dst == -1
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weights,
+                scaling_factor=routed_scaling_factor,
+                mask=reduce_mask,
+            )
+        else:
+            pt_output_3 = ixfops.moe_w4a16_group_gemm(
+                input=pt_output_2,
+                weight=layer.w2_qweight,
+                w_scales=layer.w2_scales,
+                quant_type="awq",
+                tokens_per_experts=expert_sizes_cpu,
+                w_zeros=layer.w2_qzeros,
+                group_size=self.quant_config.group_size,
+                dst_to_src=sorted_token_ids,
+                format="NN",
+                tokens_per_experts_gpu=expert_sizes_gpu,
+            )
+
+            # mul + reduce_sum
+            # final_hidden_states: (num_tokens, k)
+            final_hidden_states = ixfops.moe_output_reduce_sum(
+                input=pt_output_3.view(num_tokens, top_k, -1),
+                topk_weight=topk_weights,
+                scaling_factor=routed_scaling_factor
+            )
+        return final_hidden_states
+        
+        
+        
+        
+
+        # return torch.ops.vllm.fused_marlin_moe(
+        #     x,
+        #     layer.w13_qweight,
+        #     layer.w2_qweight,
+        #     getattr(layer, "w13_bias", None),
+        #     getattr(layer, "w2_bias", None),
+        #     layer.w13_scales,
+        #     layer.w2_scales,
+        #     router_logits,
+        #     topk_weights,
+        #     topk_ids,
+        #     quant_type_id=self.quant_type.id,
+        #     apply_router_weight_on_input=apply_router_weight_on_input,
+        #     global_num_experts=global_num_experts,
+        #     expert_map=expert_map,
+        #     g_idx1=layer.w13_g_idx,
+        #     g_idx2=layer.w2_g_idx,
+        #     sort_indices1=layer.w13_g_idx_sort_indices,
+        #     sort_indices2=layer.w2_g_idx_sort_indices,
+        #     workspace=layer.workspace,
+        #     is_k_full=self.is_k_full)
diff --git a/model_executor/layers/quantization/gptq_marlin_24.py b/model_executor/layers/quantization/gptq_marlin_24.py
new file mode 100644
index 0000000..2fb614b
--- /dev/null
+++ b/model_executor/layers/quantization/gptq_marlin_24.py
@@ -0,0 +1,320 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+GPTQ_MARLIN_24_TILE = 16
+GPTQ_MARLIN_24_MIN_THREAD_N = 128
+GPTQ_MARLIN_24_MIN_THREAD_K = 128
+GPTQ_MARLIN_24_MAX_PARALLEL = 64
+
+GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
+GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES = [-1, 128]
+
+
+class GPTQMarlin24Config(QuantizationConfig):
+    """Config class for Marlin24."""
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+    ) -> None:
+        super().__init__()
+        quant_type = {
+            4: scalar_types.uint4b8,
+            8: scalar_types.uint8b128,
+        }.get(weight_bits)
+
+        self.group_size = group_size
+
+        # Verify
+        if quant_type is None or quant_type not in GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES:
+            raise ValueError(
+                f"Marlin_24 does not support quant_type = {quant_type}. "
+                f"Only weight_bits = {GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES} "
+                "are supported."
+            )
+        if self.group_size not in GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES:
+            raise ValueError(
+                f"Marlin_24 does not support group_size = {self.group_size}. "
+                f"Only group_sizes = {GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES} "
+                "are supported."
+            )
+
+        self.quant_type = quant_type
+
+        # 4 Bits packed into 32 bit datatype.
+        self.pack_factor = 32 // self.quant_type.size_bits
+
+        # Tile size used by marlin kernels.
+        self.tile_size = 16
+
+        # Min out_features dim
+        self.min_n_threads = GPTQ_MARLIN_24_MIN_THREAD_N
+
+        # Min in_features dim
+        self.min_k_threads = GPTQ_MARLIN_24_MIN_THREAD_K
+
+        # Max parallel problems to solve at once (improves large
+        # batch performance)
+        self.max_parallel = GPTQ_MARLIN_24_MAX_PARALLEL
+
+        # Permutation length used by the marlin kernels.
+        self.perm_len = 1024
+
+    def __repr__(self) -> str:
+        return "Marlin24Config(quant_type={}, group_size={})".format(
+            self.quant_type, self.group_size
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "gptq_marlin_24"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half]
+
+    @classmethod
+    # Need to figure it out
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "GPTQMarlin24Config":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        return cls(weight_bits, group_size)
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        is_marlin_24_format = hf_quant_cfg.get("checkpoint_format") == "marlin_24"
+
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "gptq" or user_quant == "gptq_marlin_24"
+        )
+
+        if is_marlin_24_format and is_valid_user_quant:
+            msg = "The model is serialized in {} format. Using {} kernel.".format(
+                cls.get_name(), cls.get_name()
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["GPTQMarlin24LinearMethod"]:
+        if isinstance(layer, LinearBase):
+            return GPTQMarlin24LinearMethod(self)
+        return None
+
+
+class GPTQMarlin24LinearMethod(LinearMethodBase):
+    """Linear method for Marlin24.
+
+    Args:
+        quant_config: The Marlin24 quantization config.
+    """
+
+    def __init__(self, quant_config: GPTQMarlin24Config):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del output_size  # Unused.
+        weight_loader = extra_weight_attrs["weight_loader"]
+        if params_dtype != torch.float16:
+            raise ValueError(
+                f"The params dtype must be float16, but got {params_dtype}"
+            )
+
+        # Validate output_size_per_partition
+        output_size_per_partition = sum(output_partition_sizes)
+        if output_size_per_partition % self.quant_config.min_n_threads != 0:
+            raise ValueError(
+                f"Weight output_size_per_partition = "
+                f"{output_size_per_partition} is not divisible by "
+                f"min_n_threads = {self.quant_config.min_n_threads}."
+            )
+        if output_size_per_partition % self.quant_config.pack_factor != 0:
+            raise ValueError(
+                f"Weight output_size_per_partition = "
+                f"{output_size_per_partition} is not divisible by "
+                f"pack_factor = {self.quant_config.pack_factor}."
+            )
+
+        # Validate input_size_per_partition
+        if input_size_per_partition % self.quant_config.min_k_threads != 0:
+            raise ValueError(
+                f"Weight input_size_per_partition = "
+                f"{input_size_per_partition} is not divisible by "
+                f"min_k_threads = {self.quant_config.min_k_threads}."
+            )
+        if (
+            self.quant_config.group_size != -1
+            and input_size_per_partition % self.quant_config.group_size != 0
+        ):
+            raise ValueError(
+                f"Weight input_size_per_partition = "
+                f"{input_size_per_partition} is not divisible by "
+                f"group_size = {self.quant_config.group_size}."
+            )
+
+        # Check that we have at least 4 tiles horizontally in the shard
+        num_tiles_per_perm = self.quant_config.perm_len // (
+            self.quant_config.tile_size**2
+        )
+        if output_size_per_partition % num_tiles_per_perm != 0:
+            raise ValueError("Each permutation group must reside on the same gpu")
+
+        # Quantized 4Bit weights packed into Int32.
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.tile_size // 2,
+                output_size_per_partition
+                * self.quant_config.tile_size
+                // self.quant_config.pack_factor,
+                device="cuda",
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            marlin_tile_size=self.quant_config.tile_size,
+            weight_loader=weight_loader,
+        )
+
+        # Meta
+        meta = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // 8 // 2 // 2,
+                output_size_per_partition * 2,
+                device="cuda",
+                dtype=torch.int16,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=1,
+            marlin_tile_size=2,
+            weight_loader=weight_loader,
+        )
+
+        # Determine if channelwise or not
+        input_groups = (
+            1
+            if self.quant_config.group_size == -1
+            else input_size_per_partition // self.quant_config.group_size
+        )
+
+        weight_scale_args = {
+            "data": torch.empty(
+                input_groups,
+                output_size_per_partition,
+                device="cuda",
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+        if input_groups == 1:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+
+        # Allocate workspace (Used for internal locking mechanism)
+        max_workspace_size = (
+            output_size_per_partition // self.quant_config.min_n_threads
+        ) * self.quant_config.max_parallel
+
+        workspace = BasevLLMParameter(
+            data=torch.zeros(max_workspace_size, device="cuda", dtype=torch.int),
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("B_24", qweight)
+        layer.register_parameter("B_meta", meta)
+        layer.register_parameter("s", scales)
+        layer.register_parameter("workspace", workspace)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # required by torch.compile
+        layer.B_24 = Parameter(layer.B_24.data, requires_grad=False)
+        layer.s = Parameter(layer.s.data, requires_grad=False)
+        layer.B_meta = Parameter(layer.B_meta.data, requires_grad=False)
+        layer.workspace = Parameter(layer.workspace.data, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        qweight = layer.B_24
+        meta = layer.B_meta
+        scales = layer.s
+        workspace = layer.workspace
+
+        x_2d = x.view(-1, x.shape[-1])
+
+        size_m = x_2d.shape[0]
+        size_k = x_2d.shape[1]
+        size_n = scales.shape[1]
+
+        output_2d = ops.gptq_marlin_24_gemm(
+            x_2d,
+            qweight,
+            meta,
+            scales,
+            workspace,
+            self.quant_config.quant_type,
+            size_m,
+            size_n,
+            size_k,
+        )
+
+        output = output_2d.view(x.shape[:-1] + (output_2d.shape[1],))
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output
diff --git a/model_executor/layers/quantization/hqq_marlin.py b/model_executor/layers/quantization/hqq_marlin.py
new file mode 100644
index 0000000..5fb67c3
--- /dev/null
+++ b/model_executor/layers/quantization/hqq_marlin.py
@@ -0,0 +1,371 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    GPTQ_MARLIN_MAX_PARALLEL,
+    GPTQ_MARLIN_MIN_THREAD_N,
+    marlin_make_empty_g_idx,
+    marlin_permute_bias,
+    marlin_permute_scales,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
+    MarlinWorkspace,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import gptq_pack
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+
+class HQQMarlinConfig(QuantizationConfig):
+    """Config class for HQQ Marlin"""
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        skip_modules: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        assert group_size == 64, "The only supported HQQ group size is currently 64."
+        assert weight_bits == 4, (
+            "The only supported HQQ quantization bitsize is currently 4."
+        )
+
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.pack_factor = 32 // weight_bits  # packed into int32 in GPTQ format
+        self.quant_type = scalar_types.uint4
+        self.skip_modules = skip_modules
+
+    def __repr__(self) -> str:
+        return (
+            f"HQQMarlinConfig(quant_type={self.quant_type}, "
+            f"group_size={self.group_size})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "hqq"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "HQQMarlinConfig":
+        wq_params = config["quant_config"]["weight_quant_params"]
+        weight_bits = cls.get_from_keys(wq_params, ["nbits"])
+        group_size = cls.get_from_keys(wq_params, ["group_size"])
+        skip_modules = config["skip_modules"]
+        return cls(weight_bits, group_size, skip_modules)
+
+    def is_layer_skipped(self, prefix: str) -> bool:
+        # Split the prefix into its dot-separated components
+        components = prefix.split(".")
+
+        # Check if any of the skip modules exactly matches any component
+        return self.skip_modules is not None and any(
+            module_name in components for module_name in self.skip_modules
+        )
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            if self.is_layer_skipped(prefix):
+                return UnquantizedLinearMethod()
+            return HQQMarlinMethod(self)
+        return None
+
+
+# Empty HQQ parameter, will be ignored during loading
+class HQQEmptyParameter(BasevLLMParameter):
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        pass
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        pass
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        pass
+
+
+def error_loader(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+    raise ValueError("No loader provided for HQQ parameter!")
+
+
+# HQQ packing creates issues with sharding - therefore, prior to loading, we
+# repack to GPTQ. We also reshape the weights to their proper GPTQ shape.
+class HQQweightParameter(PackedvLLMParameter):
+    # unpack function from https://github.com/mobiusml/hqq
+    def unpack_4bit_u8(self, W_q: torch.Tensor) -> torch.Tensor:  # uint8/2 > uint8
+        assert self.weight_bits == 4, "Unsupported quant bitsize (must be 4)"
+
+        dtype = torch.uint8
+        step = W_q.shape[0]
+        tmp = torch.empty([2 * step, W_q.shape[1]], dtype=dtype, device=W_q.device)
+        tmp[:step] = (W_q & 0b11110000) >> 4
+        tmp[step:] = W_q & 0b00001111
+        return tmp
+
+    def __init__(self, packed_factor: int, packed_dim: int, weight_bits: int, **kwargs):
+        super().__init__(packed_factor, packed_dim, None, **kwargs)
+        self.weight_bits = weight_bits
+        self.input_shape = self.shape[self.input_dim] * self.packed_factor
+        self.output_shape = self.shape[self.output_dim]
+
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        loaded_weight = self.unpack_4bit_u8(loaded_weight)
+        loaded_weight = loaded_weight.reshape(-1, self.input_shape).transpose(1, 0)
+        loaded_weight = gptq_pack(
+            loaded_weight,
+            self.weight_bits,
+            loaded_weight.shape[0],
+            loaded_weight.shape[1],
+        )
+        super().load_merged_column_weight(loaded_weight, **kwargs)
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        loaded_weight = self.unpack_4bit_u8(loaded_weight)
+        loaded_weight = loaded_weight.reshape(self.output_shape, -1).transpose(1, 0)
+        loaded_weight = gptq_pack(
+            loaded_weight,
+            self.weight_bits,
+            loaded_weight.shape[0],
+            loaded_weight.shape[1],
+        )
+        super().load_row_parallel_weight(loaded_weight)
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        loaded_weight = self.unpack_4bit_u8(loaded_weight)
+        loaded_weight = loaded_weight.reshape(-1, self.input_shape).transpose(1, 0)
+        loaded_weight = gptq_pack(
+            loaded_weight,
+            self.weight_bits,
+            loaded_weight.shape[0],
+            loaded_weight.shape[1],
+        )
+        super().load_qkv_weight(loaded_weight, **kwargs)
+
+
+# Zero points and scales in HQQ must also be reshaped to correspond to W_q's
+# GPTQ shape (transposed - we transpose them too when processing weights).
+class HQQZeroScaleParameter(GroupQuantScaleParameter):
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        loaded_weight = loaded_weight.reshape(-1, self.shape[1])
+        super().load_merged_column_weight(loaded_weight, **kwargs)
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        loaded_weight = loaded_weight.reshape(self.shape[0], -1)
+        super().load_row_parallel_weight(loaded_weight)
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        loaded_weight = loaded_weight.reshape(-1, self.shape[1])
+        super().load_qkv_weight(loaded_weight, **kwargs)
+
+
+class HQQMarlinMethod(LinearMethodBase):
+    """Linear method for HQQ Marlin."""
+
+    def __init__(
+        self,
+        quant_config: HQQMarlinConfig,
+    ):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        self.output_size_per_partition = sum(output_partition_sizes)
+        self.input_size_per_partition = input_size_per_partition
+
+        weight_loader = extra_weight_attrs.get("weight_loader", error_loader)
+
+        self.scales_and_zp_size = (
+            input_size_per_partition // self.quant_config.group_size
+        )
+
+        qweight = HQQweightParameter(
+            data=torch.empty(
+                self.input_size_per_partition // self.quant_config.pack_factor,
+                self.output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_bits=self.quant_config.weight_bits,
+            weight_loader=weight_loader,
+        )
+
+        zeros = HQQZeroScaleParameter(
+            data=torch.empty(
+                self.output_size_per_partition,
+                self.scales_and_zp_size,
+                dtype=params_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        scales = HQQZeroScaleParameter(
+            data=torch.empty(
+                self.output_size_per_partition,
+                self.scales_and_zp_size,
+                dtype=params_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("W_q", qweight)
+        layer.register_parameter("zero", zeros)
+        layer.register_parameter("scale", scales)
+
+        # Ignore extra parameters in the HQQ model.
+        # To be added as needed.
+        ignore_parameters = (
+            "axis",
+            "channel_wise",
+            "compute_dtype",
+            "encoded_state_dict",
+            "group_size",
+            "nbits",
+            "offload_meta",
+            "optimize",
+            "packing",
+            "quant_scale",
+            "quant_zero",
+            "round_zero",
+            "shape",
+            "stores_quant_config",
+            "unpack_view_dtype",
+            "view_as_float",
+        )
+        for name in ignore_parameters:
+            layer.register_parameter(
+                name,
+                HQQEmptyParameter(data=torch.empty(0), weight_loader=weight_loader),
+            )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        dev = layer.W_q.device
+
+        # Repack to Marlin
+        sort_indices = torch.empty(0, dtype=torch.int, device=dev)
+        marlin_w_q = ops.gptq_marlin_repack(
+            layer.W_q,
+            sort_indices,
+            self.input_size_per_partition,
+            self.output_size_per_partition,
+            self.quant_config.weight_bits,
+        ).to(dev)
+        marlin_s = marlin_permute_scales(
+            layer.scale.transpose(1, 0),
+            self.input_size_per_partition,
+            self.output_size_per_partition,
+            self.quant_config.group_size,
+        ).to(dev)
+        marlin_zp = marlin_permute_scales(
+            layer.zero.transpose(1, 0),
+            self.input_size_per_partition,
+            self.output_size_per_partition,
+            self.quant_config.group_size,
+        ).to(dev)
+
+        layer.g_idx = marlin_make_empty_g_idx(dev)
+        layer.g_idx_sort_indices = marlin_make_empty_g_idx(dev)
+
+        layer.marlin_qweight = marlin_w_q
+        layer.marlin_zeros = marlin_zp
+        layer.marlin_scales = marlin_s
+
+        if hasattr(layer, "bias") and layer.bias is not None:
+            layer.bias.data = marlin_permute_bias(layer.bias)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        workspace = MarlinWorkspace(
+            self.output_size_per_partition,
+            GPTQ_MARLIN_MIN_THREAD_N,
+            GPTQ_MARLIN_MAX_PARALLEL,
+        )
+
+        scales = layer.marlin_scales
+        zeros = layer.marlin_zeros
+        orig_type = x.dtype
+
+        if orig_type != torch.float16:
+            x = x.to(torch.float16)
+            scales = scales.to(torch.float16)
+            zeros = zeros.to(torch.float16)
+
+        marlin_out = ops.gptq_marlin_gemm(
+            x,
+            None,
+            layer.marlin_qweight,
+            bias,
+            scales,
+            None,
+            zeros,
+            layer.g_idx,
+            layer.g_idx_sort_indices,
+            workspace.scratch,
+            scalar_types.uint4,
+            x.shape[0],
+            self.output_size_per_partition,
+            self.input_size_per_partition,
+            True,  # is_k_full
+            False,  # use atomic add
+            True,  # use 32-bit reduce
+            True,  # use float zp
+        )
+
+        if orig_type != torch.float16:
+            marlin_out = marlin_out.to(orig_type)
+
+        return marlin_out
diff --git a/model_executor/layers/quantization/inc.py b/model_executor/layers/quantization/inc.py
new file mode 100644
index 0000000..4e73637
--- /dev/null
+++ b/model_executor/layers/quantization/inc.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+#
+# Intel Gaudi supports quantization of various modules and functions,
+# including, but not limited to `Linear`, `KVCache`, `Matmul` and `Softmax`.
+# During model loading,
+# INC will patch layers with quantization/dequantization operators.
+# Meanwhile, INC will convert original weight to target datatype
+# and loading to target device.
+# static scaling should be provided through Quant_CONFIG:
+# `QUANT_CONFIG` is an environment variable,
+# that points to the measurement or quantization JSON config file.
+# The measurement configuration file is used during the calibration procedure,
+# to collect measurements for a given model.
+# The quantization configuration is used during inference.
+# For more information, please refer to:
+# https://docs.habana.ai/en/v1.21.1/PyTorch/vLLM_Inference/vLLM_FP8_Inference.html
+
+from typing import Any, Optional
+
+import torch
+
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    UnquantizedFusedMoEMethod,
+)
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+
+
+class INCConfig(QuantizationConfig):
+    """Config class for FP8 using Intel Neural Compressor."""
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "inc"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "INCConfig":
+        raise AssertionError
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            return UnquantizedLinearMethod()
+        elif isinstance(layer, FusedMoE):
+            return UnquantizedFusedMoEMethod(layer.moe_config)
+        return None
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        raise AssertionError
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return []
diff --git a/model_executor/layers/quantization/input_quant_fp8.py b/model_executor/layers/quantization/input_quant_fp8.py
new file mode 100644
index 0000000..7ded8ee
--- /dev/null
+++ b/model_executor/layers/quantization/input_quant_fp8.py
@@ -0,0 +1,171 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import torch.nn.functional as F
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.platforms import current_platform
+
+# Using the default value (240.0) from pytorch will cause accuracy
+# issue on dynamic quantization models. Here use 224.0 for fnuz on ROCm.
+_FP8_DTYPE = current_platform.fp8_dtype()
+_FP8_FINFO = torch.finfo(_FP8_DTYPE)
+_FP8_MAX = 224.0 if current_platform.is_fp8_fnuz() else _FP8_FINFO.max
+_FP8_MIN = -224.0 if current_platform.is_fp8_fnuz() else _FP8_FINFO.min
+_FP8_MIN_SCALING_FACTOR = 1.0 / (_FP8_MAX * 512.0)
+
+
+@CustomOp.register("quant_fp8")
+class QuantFP8(CustomOp):
+    """
+    Quantize input tensor to FP8 (per-tensor, per-token, or per-group).
+    This CustomOp supports both static and dynamic quantization.
+    """
+
+    def __init__(
+        self,
+        static: bool,
+        group_shape: GroupShape,
+        num_token_padding: int | None = None,
+        column_major_scales: bool = False,
+        use_ue8m0: bool | None = None,  # for Torch compile
+    ):
+        """
+        :param static: static or dynamic quantization
+        :param group_shape: quantization group shape (PER_TOKEN, PER_TENSOR,
+            or arbitrary block size)
+        :param num_token_padding: Pad the token dimension of output to this
+            size
+        :param column_major_scales: For group quantization, output scales in
+            column major format
+        """
+        super().__init__()
+        self.static = static
+        self.group_shape = group_shape
+        self.num_token_padding = num_token_padding
+        self.column_major_scales = column_major_scales
+        self.use_ue8m0 = use_ue8m0
+
+        self.is_group_quant = group_shape.is_per_group()
+        if self.is_group_quant:
+            assert not static, "Group quantization only supports dynamic mode"
+            self.group_size = group_shape.col
+        else:
+            assert group_shape in {GroupShape.PER_TOKEN, GroupShape.PER_TENSOR}
+            assert not static or group_shape == GroupShape.PER_TENSOR, (
+                "Only per-tensor scales supported for static quantization."
+            )
+            self.use_per_token_if_dynamic = group_shape == GroupShape.PER_TOKEN
+
+    def forward_cuda(
+        self,
+        x: torch.Tensor,
+        scale: torch.Tensor | None = None,
+        scale_ub: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.is_group_quant:
+            assert scale is None, "Group quantization is always dynamic"
+            from vllm.model_executor.layers.quantization.utils import fp8_utils
+
+            return fp8_utils.per_token_group_quant_fp8(
+                x,
+                group_size=self.group_size,
+                column_major_scales=self.column_major_scales,
+                dtype=_FP8_DTYPE,
+                use_ue8m0=self.use_ue8m0,
+            )
+
+        assert (scale is not None) == self.static
+        assert scale_ub is None or (
+            not self.static
+            and self.group_shape == GroupShape.PER_TOKEN
+            and scale_ub.numel() == 1
+        )
+        return ops.scaled_fp8_quant(
+            x,
+            scale,
+            num_token_padding=self.num_token_padding,
+            scale_ub=scale_ub,
+            use_per_token_if_dynamic=self.use_per_token_if_dynamic,
+        )
+
+    def forward_native(
+        self,
+        x: torch.Tensor,
+        scale: torch.Tensor | None = None,
+        scale_ub: torch.Tensor | None = None,
+    ):
+        if self.is_group_quant:
+            assert scale is None, "Group quantization is always dynamic"
+            return self._quantize_group_native(x)
+
+        assert (scale is not None) == self.static
+        assert scale_ub is None or (
+            not self.static
+            and self.group_shape == GroupShape.PER_TOKEN
+            and scale_ub.numel() == 1
+        )
+
+        if scale is None:
+            if self.group_shape == GroupShape.PER_TOKEN:
+                x_max, _ = x.abs().max(dim=-1)
+                x_max = x_max.unsqueeze(-1).to(torch.float32)
+                if scale_ub is not None:
+                    x_max = x_max.clamp(max=scale_ub)
+            else:
+                x_max = x.abs().max().unsqueeze(-1).to(torch.float32)
+
+            scale = (x_max / _FP8_MAX).clamp(min=_FP8_MIN_SCALING_FACTOR)
+
+        # Even for dynamic per-token scales,
+        # reciprocal performs slightly better than division
+        out = x.to(torch.float32) * scale.reciprocal()
+        out = out.clamp(_FP8_MIN, _FP8_MAX).to(_FP8_DTYPE)
+
+        # This currently generates an extra Triton kernel in compilation.
+        # Fortunately, we don't use padding if compiling.
+        # TODO(luka): benchmark torch._scaled_mm to hopefully remove padding
+        #  in general.
+        if self.num_token_padding is not None:
+            padding = max(self.num_token_padding - out.size(0), 0)
+            out = F.pad(out, (0, 0, 0, padding), "constant", 0.0)
+
+        return out, scale
+
+    def _quantize_group_native(
+        self, x: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        orig_shape = x.shape
+        hidden_dim = x.shape[-1]
+        num_groups = (hidden_dim + self.group_size - 1) // self.group_size
+        padded_dim = num_groups * self.group_size
+
+        if padded_dim != hidden_dim:
+            padding = padded_dim - hidden_dim
+            x = F.pad(x, (0, padding), mode="constant", value=0.0)
+
+        x_grouped = x.view(-1, num_groups, self.group_size)
+        absmax = x_grouped.abs().max(dim=-1, keepdim=True)[0].float()
+        scales_raw = absmax / _FP8_MAX
+        if self.use_ue8m0:
+            scales_raw = torch.exp2(torch.ceil(torch.log2(scales_raw)))
+        scales = (scales_raw).clamp(min=_FP8_MIN_SCALING_FACTOR)
+
+        x_scaled = x_grouped / scales
+        x_quant = x_scaled.clamp(_FP8_MIN, _FP8_MAX).to(_FP8_DTYPE)
+
+        x_quant = x_quant.view(-1, padded_dim)
+        if padded_dim != hidden_dim:
+            x_quant = x_quant[..., :hidden_dim]
+        x_quant = x_quant.view(orig_shape)
+
+        scales = scales.squeeze(-1)
+        scales = scales.reshape(orig_shape[:-1] + (num_groups,))
+
+        if self.column_major_scales:
+            scales = scales.transpose(-2, -1).contiguous().transpose(-1, -2)
+
+        return x_quant, scales
diff --git a/model_executor/layers/quantization/ipex_quant.py b/model_executor/layers/quantization/ipex_quant.py
new file mode 100644
index 0000000..5ca9167
--- /dev/null
+++ b/model_executor/layers/quantization/ipex_quant.py
@@ -0,0 +1,467 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Optional
+
+import torch
+from packaging import version
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+from vllm._ipex_ops import ipex_ops as ops
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.layers.quantization.awq import AWQLinearMethod
+from vllm.model_executor.layers.quantization.fp8 import Fp8Config, Fp8LinearMethod
+from vllm.model_executor.layers.quantization.gptq import GPTQLinearMethod
+from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+
+MIN_IPEX_VERSION = "2.6.0"
+
+
+class IPEXConfig(QuantizationConfig):
+    """INT8 quantization config class using IPEX for the CPU/XPU backend,
+    including AWQ, GPTQ.
+    """
+
+    IPEX_QUANT_METHOD_MAP = {
+        "awq": 1,
+        "gptq": 0,
+    }
+
+    def __init__(
+        self,
+        method: str,
+        weight_bits: int,
+        group_size: int,
+        modules_to_not_convert: list[str] | None = None,
+        desc_act: bool | None = None,
+        lm_head_quantized: bool | None = None,
+        is_sym: bool | None = None,
+    ) -> None:
+        super().__init__()
+        self.method = method
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.modules_to_not_convert = modules_to_not_convert or []
+        self.desc_act = desc_act
+        self.lm_head_quantized = lm_head_quantized
+        self.is_sym = is_sym
+        self.pack_factor = 32 // self.weight_bits
+
+        if self.weight_bits not in [4]:
+            raise ValueError(
+                f"IPEX quantization supports weight bits [4], "
+                f"but got {self.weight_bits}."
+            )
+
+        if self.method not in ["awq", "gptq"]:
+            raise ValueError(
+                f"IPEX quantization supports [awq, gptq], but got {self.method}."
+            )
+
+    def __repr__(self) -> str:
+        return (
+            f"IPEXConfig(method={self.method},"
+            f"weight_bits={self.weight_bits}, "
+            f"group_size={self.group_size})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "ipex"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.float16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return -1
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return [
+            "quant_config.json",
+            "quantize_config.json",
+        ]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "IPEXConfig":
+        method = cls.get_from_keys(config, ["quant_method"]).lower()
+        if method == "awq":
+            weight_bits = cls.get_from_keys(config, ["w_bit", "bits"])
+            group_size = cls.get_from_keys(config, ["q_group_size", "group_size"])
+            modules_to_not_convert = cls.get_from_keys_or(
+                config, ["modules_to_not_convert"], None
+            )
+            is_sym = not cls.get_from_keys_or(config, ["zero_point"], default=False)
+            return cls(
+                method,
+                weight_bits,
+                group_size,
+                modules_to_not_convert,
+                False,
+                False,
+                is_sym,
+            )
+        # otherwise for gptq
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        desc_act = cls.get_from_keys_or(config, ["desc_act"], default=False)
+        is_sym = cls.get_from_keys_or(config, ["sym"], default=True)
+        return cls(
+            method, weight_bits, group_size, [], desc_act, lm_head_quantized, is_sym
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        if not current_platform.is_cpu() and not current_platform.is_xpu():
+            return None
+
+        quant_method = hf_quant_cfg.get("quant_method", "").lower()
+
+        if quant_method in ["awq", "gptq"]:
+            return cls.get_name()
+
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["LinearMethodBase"]:
+        if isinstance(layer, LinearBase):
+            if self.method == "awq":
+                if is_layer_skipped(
+                    prefix, self.modules_to_not_convert, self.packed_modules_mapping
+                ):
+                    return UnquantizedLinearMethod()
+                return IPEXAWQLinearMethod(self)
+            if self.method == "gptq":
+                return IPEXGPTQLinearMethod(self)
+        return None
+
+
+class IPEXGPTQLinearMethod(GPTQLinearMethod):
+    """GPTQ linear method using IPEX for the CPU/XPU backend."""
+
+    def __init__(self, quant_config: IPEXConfig):
+        self.quant_config = quant_config  # type: ignore
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        bias = layer.bias if not layer.skip_bias_add else None
+
+        try:
+            import intel_extension_for_pytorch as ipex
+
+            if version.parse(ipex.__version__) < version.parse(MIN_IPEX_VERSION):
+                raise ImportError(
+                    "intel_extension_for_pytorch version is "
+                    "wrong. Please install "
+                    f"intel_extension_for_pytorch>={MIN_IPEX_VERSION}."
+                )
+        except ImportError as err:
+            raise ImportError(
+                "Please install "
+                f"intel_extension_for_pytorch>={MIN_IPEX_VERSION} via "
+                f"`pip install intel_extension_for_pytorch>={MIN_IPEX_VERSION}`"
+                " to use IPEX-AWQ linear method."
+            ) from err
+        # Using the compute dtype (lowp_mode) as INT8 to leverage instructions
+        # with better performance.
+        lowp_mode = ipex.quantization.WoqLowpMode.INT8
+        # The weight will be de-packed from INT4 to INT8.
+        weight_dtype = ipex.quantization.WoqWeightDtype.INT4
+        # The float activation will be quantized (dynamic, per-token) to INT8.
+        act_quant_mode = ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK
+
+        assert isinstance(self.quant_config, IPEXConfig)
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode,
+            group_size=self.quant_config.group_size,
+        )
+        layer.ipex_output_size = layer.qweight.shape[-1]
+        g_idx = layer.g_idx if self.quant_config.desc_act else None
+        layer.ipex_qlinear = (
+            ipex.llm.quantization.woq_linear.IPEXWeightOnlyQuantizedLinear.from_weight(
+                layer.qweight,
+                layer.scales,
+                layer.qzeros,
+                layer.qweight.size(0),
+                layer.ipex_output_size,
+                qconfig=qconfig,
+                g_idx=g_idx,
+                bias=bias,
+                group_size=self.quant_config.group_size,
+                quant_method=IPEXConfig.IPEX_QUANT_METHOD_MAP["gptq"],
+                weight_qscheme="sym" if self.quant_config.is_sym else "asym",
+            )
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        reshaped_x = x.reshape(-1, x.shape[-1])
+        out = layer.ipex_qlinear(reshaped_x)
+        return out.reshape(x.shape[:-1] + (layer.ipex_output_size,))
+
+
+class IPEXAWQLinearMethod(AWQLinearMethod):
+    """AWQ linear method using IPEX for the CPU/XPU backend."""
+
+    def __init__(self, quant_config: IPEXConfig):
+        self.quant_config = quant_config  # type: ignore
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        super().process_weights_after_loading(layer=layer)
+
+        bias = layer.bias if not layer.skip_bias_add else None
+
+        try:
+            import intel_extension_for_pytorch as ipex
+
+            if version.parse(ipex.__version__) < version.parse(MIN_IPEX_VERSION):
+                raise ImportError(
+                    "intel_extension_for_pytorch version is "
+                    "wrong. Please install "
+                    f"intel_extension_for_pytorch>={MIN_IPEX_VERSION}."
+                )
+        except ImportError as err:
+            raise ImportError(
+                "Please install "
+                f"intel_extension_for_pytorch>={MIN_IPEX_VERSION} via "
+                f"`pip install intel_extension_for_pytorch>={MIN_IPEX_VERSION}`"
+                " to use IPEX-AWQ linear method."
+            ) from err
+
+        # Using the compute dtype (lowp_mode) as INT8 to leverage instructions
+        # with better performance.
+        lowp_mode = ipex.quantization.WoqLowpMode.INT8
+        # The weight will be de-packed from INT4 to INT8.
+        weight_dtype = ipex.quantization.WoqWeightDtype.INT4
+        # The float activation will be quantized (dynamic, per-token) to INT8.
+        act_quant_mode = ipex.quantization.WoqActQuantMode.PER_BATCH
+
+        assert isinstance(self.quant_config, IPEXConfig)
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode,
+            group_size=self.quant_config.group_size,
+        )
+
+        layer.ipex_output_size = layer.qweight.size(1) * self.quant_config.pack_factor
+        layer.ipex_qlinear = (
+            ipex.llm.quantization.woq_linear.IPEXWeightOnlyQuantizedLinear.from_weight(
+                layer.qweight,
+                layer.scales,
+                layer.qzeros,
+                layer.qweight.size(0),
+                layer.ipex_output_size,
+                qconfig=qconfig,
+                bias=bias,
+                group_size=self.quant_config.group_size,
+                quant_method=IPEXConfig.IPEX_QUANT_METHOD_MAP["awq"],  # type: ignore
+                weight_qscheme="sym" if self.quant_config.is_sym else "asym",
+            )
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        reshaped_x = x.reshape(-1, x.shape[-1])
+        out = layer.ipex_qlinear(reshaped_x)
+        return out.reshape(x.shape[:-1] + (layer.ipex_output_size,))
+
+
+class XPUFp8LinearMethod(Fp8LinearMethod):
+    def __init__(self, quant_config: Fp8Config):
+        super().__init__(quant_config)
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        # If checkpoint not serialized fp8, quantize the weights.
+        if not self.quant_config.is_checkpoint_fp8_serialized:
+            qweight, weight_scale = ops.scaled_fp8_quant(layer.weight, scale=None)
+            # Update the layer with the new values.
+            layer.weight = Parameter(qweight, requires_grad=False)
+            layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+            layer.input_scale = None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        weight = layer.weight.data
+        weight_scale = layer.weight_scale.data
+        output = torch.ops.torch_ipex.fp8_gemm_w8a16(
+            x, weight, True, weight_scale, bias
+        )
+        return output
+
+
+class XPUFp8MoEMethod(FusedMoEMethodBase):
+    def __init__(self, quant_config: Fp8Config, layer: torch.nn.Module):
+        super().__init__(layer.moe_config)
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # Allocate 2 scales for w1 and w3 respectively.
+        # They will be combined to a single scale after weight loading.
+        w13_weight_scale = torch.nn.Parameter(
+            torch.ones(num_experts, 2, dtype=torch.float32), requires_grad=False
+        )
+        w2_weight_scale = torch.nn.Parameter(
+            torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        # INPUT_SCALES
+        layer.w13_input_scale = None
+        layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        if not self.quant_config.is_checkpoint_fp8_serialized:
+            fp8_dtype = current_platform.fp8_dtype()
+            w13_weight = torch.empty_like(layer.w13_weight.data, dtype=fp8_dtype)
+            w2_weight = torch.empty_like(layer.w2_weight.data, dtype=fp8_dtype)
+
+            # Re-initialize w13_scale because we directly quantize
+            # merged w13 weights and generate a single scaling factor.
+            layer.w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    layer.local_num_experts,
+                    dtype=torch.float32,
+                    device=w13_weight.device,
+                ),
+                requires_grad=False,
+            )
+            for expert in range(layer.local_num_experts):
+                w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
+                    ops.scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
+                )
+                w2_weight[expert, :, :], layer.w2_weight_scale[expert] = (
+                    ops.scaled_fp8_quant(layer.w2_weight.data[expert, :, :])
+                )
+            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+        import intel_extension_for_pytorch as ipex
+
+        ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
+        layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+            layer.w13_weight,
+            layer.w2_weight,
+            w1_scale_inv=layer.w13_weight_scale,
+            w2_scale_inv=layer.w2_weight_scale,
+            a1_scale_inv=layer.w13_input_scale,
+            a2_scale_inv=layer.w2_input_scale,
+            use_prepack=True,
+            experts_start_id=ep_rank_start,
+        )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return layer.ipex_fusion(
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            custom_routing_function=custom_routing_function,
+        )
diff --git a/model_executor/layers/quantization/kernels/__init__.py b/model_executor/layers/quantization/kernels/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/quantization/kernels/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/kernels/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..938551aafffc5982cafa083dc875b03fa01253d0
GIT binary patch
literal 192
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV#p{>k7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>E|R?rWO_J
z7nUaGm1I^WmSh6eWv3S9rREgt$H!;pWtPOp>lIYq;;;c~EX_%^D`ExO#|Xs5AjU^#
LMn=XWW*`dyq_#7!

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py b/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
new file mode 100644
index 0000000..7aeb1f8
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
@@ -0,0 +1,94 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+from dataclasses import dataclass
+
+import torch
+
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.scalar_type import ScalarType
+
+
+@dataclass
+class MPLinearLayerConfig:
+    full_weight_shape: tuple[int, int]  # [in, out]
+    partition_weight_shape: tuple[int, int]
+    weight_type: ScalarType
+    act_type: torch.dtype
+    group_size: int
+    zero_points: bool
+    has_g_idx: bool
+    out_type: torch.dtype | None = None
+
+
+class MPLinearKernel(ABC):
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        raise NotImplementedError
+
+    @classmethod
+    @abstractmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        raise NotImplementedError
+
+    def __init__(
+        self,
+        c: MPLinearLayerConfig,
+        w_q_param_name: str,
+        w_s_param_name: str,
+        w_zp_param_name: str | None = None,
+        w_gidx_param_name: str | None = None,
+    ) -> None:
+        assert self.can_implement(c)
+        self.config = c
+        self.w_q_name = w_q_param_name
+        self.w_s_name = w_s_param_name
+        if c.zero_points:
+            assert w_zp_param_name is not None
+        if c.has_g_idx:
+            assert w_gidx_param_name is not None
+        self.w_zp_name = w_zp_param_name
+        self.w_gidx_name = w_gidx_param_name
+
+    @abstractmethod
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def _transform_param(
+        self, layer: torch.nn.Module, name: str | None, fn: Callable
+    ) -> None:
+        if name is not None and getattr(layer, name, None) is not None:
+            old_param = getattr(layer, name)
+            new_param = fn(old_param)
+            # replace the parameter with torch.nn.Parameter for TorchDynamo
+            # compatibility
+            replace_parameter(
+                layer, name, torch.nn.Parameter(new_param.data, requires_grad=False)
+            )
+
+    def _get_weight_params(
+        self, layer: torch.nn.Module
+    ) -> tuple[
+        torch.Tensor,  # w_q
+        torch.Tensor,  # w_s
+        torch.Tensor | None,  # w_zp,
+        torch.Tensor | None,  # w_gidx
+    ]:
+        return (
+            getattr(layer, self.w_q_name),
+            getattr(layer, self.w_s_name),
+            getattr(layer, self.w_zp_name or "", None),
+            getattr(layer, self.w_gidx_name or "", None),
+        )
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__init__.py b/model_executor/layers/quantization/kernels/mixed_precision/__init__.py
new file mode 100644
index 0000000..171d16f
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/__init__.py
@@ -0,0 +1,105 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import vllm.envs as envs
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.allspark import (  # noqa: E501
+    AllSparkLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.bitblas import (  # noqa: E501
+    BitBLASLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.conch import (  # noqa: E501
+    ConchLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.cutlass import (  # noqa: E501
+    CutlassW4A8LinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.dynamic_4bit import (  # noqa: E501
+    Dynamic4bitLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.exllama import (  # noqa: E501
+    ExllamaLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.machete import (  # noqa: E501
+    MacheteLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.marlin import (  # noqa: E501
+    MarlinLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.mixed_precision.MPLinearKernel import (  # noqa: E501
+    MPLinearKernel,
+    MPLinearLayerConfig,
+)
+from vllm.platforms import current_platform
+
+# in priority/performance order (when available)
+_POSSIBLE_KERNELS: list[type[MPLinearKernel]] = [
+    MarlinLinearKernel,
+    CutlassW4A8LinearKernel,
+    MacheteLinearKernel,
+    AllSparkLinearKernel,
+    Dynamic4bitLinearKernel,
+    BitBLASLinearKernel,
+    ConchLinearKernel,
+    ExllamaLinearKernel,
+]
+
+
+def choose_mp_linear_kernel(
+    config: MPLinearLayerConfig, compute_capability: int | None = None
+) -> type[MPLinearKernel]:
+    """
+    Choose an MPLinearKernel that can implement the given config for the given
+     compute capability. Attempts to choose the best kernel in terms of
+     performance.
+
+    Args:
+        config (MPLinearLayerConfig): Description of the linear layer to be
+            implemented.
+        compute_capability (Optional[int], optional): The compute capability of
+            the target device, if None uses `current_platform` to get
+            the compute capability. Defaults to None.
+
+    Raises:
+        ValueError: If no kernel can implement the given config.
+
+    Returns:
+        type[MPLinearKernel]: Chosen kernel.
+    """
+    if compute_capability is None:
+        if current_platform is None:
+            raise ValueError("Cannot determine compute capability")
+        _cc = current_platform.get_device_capability()
+        if _cc is not None:
+            compute_capability = _cc[0] * 10 + _cc[1]
+
+    failure_reasons = []
+    for kernel in _POSSIBLE_KERNELS:
+        if kernel.__name__ in envs.VLLM_DISABLED_KERNELS:
+            failure_reasons.append(
+                f" {kernel.__name__} disabled by environment variable"
+            )
+            continue
+        if (
+            compute_capability is not None
+            and kernel.get_min_capability() > compute_capability
+        ):
+            failure_reasons.append(
+                f"{kernel.__name__} requires capability "
+                f"{kernel.get_min_capability()}, current compute "
+                f" capability is {compute_capability}"
+            )
+            continue
+
+        can_implement, failure_reason = kernel.can_implement(config)
+        if can_implement:
+            return kernel
+        else:
+            failure_reasons.append(
+                f" {kernel.__name__} cannot implement due to: {failure_reason}"
+            )
+
+    raise ValueError(
+        "Failed to find a kernel that can implement the "
+        "WNA16 linear layer. Reasons: \n" + "\n".join(failure_reasons)
+    )
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/MPLinearKernel.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/MPLinearKernel.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3d13d79ee21eb8726c719701d97d9cc83b976dbd
GIT binary patch
literal 4534
zcmb6dTWl29_0H_f?##aJwT;0x*x&$Lj5lcr5HOGwNXpAe3u)>8jK({6&6wE-cV>%i
zZG@9j38$3|U$)gs@kc&D^uv5n^(*aHr2eeqRBT6ygp~H9e@jdhsb4+k?!&vb6P0WG
z+;i@E+%xB%b07YDDC8&5Ea`Wq8X)9rB<fABA!{>$%oBqcf<-byQpku&Q9xR>JQ*n|
zaol6c8E?|damn%}eZZG3C8H))KIXOjnLsii5b71l+r;qQCWi7*tj_VUHdQjnc`ESy
zRCwsA4ktrXQatb<B;um$dGjZy-LO7pJ4{bG8R}fi8F9f?PV1JXk69FO)zBS1W$Cs(
z3RD}Tc}q`GEw3{j<SBze|K*f!>Fml>o~CM(^R6}}S^EUYc|u82Fi28-k5CVlsFW7B
z!#I@<VFdfuF_DjXf$QOzZz9TVwgBKtoGSq)b4&%y+rWH?8A{Smx70V3X&?7MMY$;@
z?ssFC-o0pMsm?CyQ<R;~Wz*)k+m<d^mUfex<JTO`zNY7?+XVq|OvlV+TgL-6DF=e#
zDiBnSWBzfLE95oXoThGInzEdh&zV`rcGYXTt&MA@F*)igxk6Pu9&i;+%R+!P&Gl<q
zCTA2Z#Dki4qo7+gj_efj7Ii&f$c<>4p3UYQ9bK|DjVbU&uI%Jk>Y6JX+zDwcm$O(q
zFdmRKfaJf0gp<i9@@D>^qqA}99Gom1dHv}1BQ#-|V~P9}<U=;`Ys<<czy)e)bdshD
zU^8K1bnFB;lXc8#K561QWm#(3iHtc(4K2@T%Cy0mL_MMxIDa@l#js8|2m@mO48U*6
z(`~&AmzVY|T)lT|RoYwb9a!44WH0Ssd}mcUP;Tp4m3qqI*xdEm>#NfCay0gvcgk&@
zt5Rn<g6N)oGe5mUk-KnaCEWjow2$@G=V(dE5R775y9m{?o|2e+hCt=CXo$C^dIi<{
zq?hwO)CV#ORjJ>QFmb90oR$oE3!Q*URAO`(sO1F>AN(nGO`~DM5DY0DH2k;aWDtA^
z(9lG0)x~Bwv9p<~;#^ZQg6nf9qf~-9J73632xi>9h4t|FjPoytIBcnvR*cAPxe>Sa
z7xE<9h)x@g@vl>i_S;gj<Ato?3T^4zi;Py+cWaH>+Do{3!P>{b!%o;!yWDVVqPt#3
zodV0Igr?{sj@#lIX8t^J8mte62g2wB!HtdPoO2l{>kQ30)Husn4!2lO%Cc=#?q`?^
zZaWmKmNBzhO3&+Kre!))(*v#Z4{sLf0o64uz8Uh|OCq~V$^fquS4fSfYR3m~3Hbpx
z*&g7tK>%@)?L|Bez((!<nscF)p4H6yM@;u_@T-N}j~4bLz=CzdH?<qpvxRSeNZZYH
z<fb;AZysp7sg1+t*)){$f}wiDSo3%<12RvFWTJUBYEnhvVQthF&yx>@qEIASL#`+S
z)d)_}0~A{1ttd?3KD(hYsVL3VEKTq`L8}1p<r-fCYYl&kGElIuRNEBcp^hu;01UX^
zRP`)UFhY0$xPaLlV|X;OHk49%d^kH$iwqKRuPfQqO7pd1LnwX_!7zdZ02`g?=dGGx
zaQ>KC)6ul)Z5x)a&Ugvc#sJKaN|Z!9o<s&#A_GeUUql8=%3vunSnk?(NBVuB+`SjN
zP`wKT=T3Zdq8!^@iVc^7!vM=Lbo`^^<=9{;_HrrsGQjfo{h$*r_YB>U{-JbNb3^8b
z&Wq>i1CbpDH`!5ixH(Vz@+_C4wp}~HZB0+Zg+{Y-x?yI=r-wFt_zy~R<CqIG<X_=|
z^}?ETr7=^tQxdT1?f<JTY29mv*AsREfQ@!=nX0Q4((`$1s_y@$N^9Yw4ZBwS;pXC(
zc)Ez`Y>SilExdC60ti%&_`$E7^_mchqCx6+$`3BIa_TqH_a%`)y-4-ydS7;$DyJwq
zji5|4Y5*pywF$M3t@lNFt9mkoKZ*4@>plr&ivPqtqi@0f8DjKC!DJNfT1+>f9DJ}l
z>W;%0)*HjU+!eD~SADmBuXQE7_{P0WtMCSjzKNo0&Vm~bin?l+-mIdVYAC9~wK{93
zb1YMpnBKJ^r8Wwj1>?2`0BXuhg3(f-=M&$3`M$G!WwrlUssF7nyLT<gOU`Qd(4BMt
z?B22P`X54f&cR+D+F6cv-gW-?-p5xLuRiHZtn?+8)yLsS;m>HPFR|Kp<y(&!3RePT
z;B5hn@`7rqq{edp4Q7Xfsd=f%L}U8{X06o&zCp6Fq;)w$zDIJ4C7%>*d<?-Wp}ve8
ztZ%W|Zq`Xlm*H$0bxB-iXTS~iV+5}vIE3Ie1jhihYzFNbo|m=TJ6~FR(}}uS1n;i)
zF95)a+D<|pch4>y`uN1+iPd2I%V2B^>g3|d&wCR0f4<zY8a!MRdD3%WrRTusJ+Itn
z%ZFBjM=Pov^;d|j`uRG+w~SVgf-V+A-#ZX=0&oNTVOD*&F$_K1hF~88e#!1a43B-+
z18+QjlCUE<h8fQ=-CXY_{<>htIdO$%?HpsLkd2R4b{@ec1b8py4)MK*^&^R32mIMs
z<F`p!j+W(EMHJ-SORs)Ipj-10ZwG?5iUcHNwYRM<Qrh`S1!b1$pU-@{=QHWAKPrt}
zTseGcOT{SJcc8p~=vk;uKKL}Svm!$e*0%Rne26KCsfhW>j=lwFaYrS9RFL%UTIyIl
zRzbZ=nE1nM5ybX_Tinm(*B&2zboBA5N2j<ipE~Qab3S_90Y+bnKU2N(?x&HCxyjkd
zxm&ZhDl*VmrfqX0vm+HBQVIdSHES(gSqTqRPytl^k-6U4-fsdx@o-c`9FO|taJh5G
z{MCC`=e2uU#e?)vVtMev`6@nghWAg^(3%XqN_R;1w<rMpR1KGv&|Gjf*xKE7R+OIF
z5XUP%kJ|UlBm2G2WzegxBd%UN?0WRE6vLgFr;r;-<t&S)_(O6SS(pcIpz(hIYBQ|e
z>ZW-RUx&l3ufyT$>u|XFbvRsbOv~oGtsCV!Hvgvqe;)J4YBgc|(Q<31xynfO0eq7E
z61ccC*>3=-cmzTCP9ehJR|I|sz9zwclM7#weXu5C;5$(f_E!i1h`AW3Ao;xOj3D^$
LUjCL~&tvdExVrk>

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7450b5e90e2b44829ee5ba6602fcb5d590a3f1a9
GIT binary patch
literal 3766
zcmb_eOKcm*8J^{m6yM^*lJ!W`(IbWE$fO;}u_73jWj$QMdZbqC08HJ@YIh{9yboq}
zDOds(I6+aU51`J;0g?dCEk+JaZ$1{e_Ci(%u?qt=(35WrWVb+1{b!d;(URgG)B%_K
z&;QSU^S|bw|F7|Q1i?`Kzf-<TAoNc*@kXdY96SNyA^JIzk<6(`;|d(dXrJoS_yX_H
zyz18ig@8l*)u7f^XmjX*8q&grutNvch!!nG9lA}8Y4Jkbp+jmyYcI4rbXZMlsY1%3
zBWha96f)YG!Wm~CRXeoKLMMkviiAl!;YpMPNE?Z-g$id$7wIOMZqSrHq(_cjfp-|m
zDLGEg$O+ObbK7kQ$?e{{)u5dGRiN<N7MD#wgSBWe%h_ipRdu;2(!2ADPDFZ>P@Sm2
z&s<lm>+_S#N7$(;LzmW%FwahvELAkk_eLkjj*6zYbWu~J(G|ryBFfC%Q&mwDkFpm;
zX`NW)2s^zXQdQAk;`;2w!n>^;JLApg#VtZX*HvW=j7dr*N{Ma>MOCy`4XW8G;oYU>
z<+<zgGs4Z8TZ=RE%XUz5mfLB`(26CC2$EP7R}@vTw(KA!R*CA8kGZWeShn!+99#qL
zLsaJOU$Q(Ix*xTe%o#HG4d+sya8`ptXv5zSx4gb-&^x}e@8d+-C;M1zWqvz=5X}5+
zwhhk?w}y6jE7(|$rqP|h0M}pkZ+JQEiQsKH8P6CSu@-iN+(Z<Y`HlAD5;<@(-seaT
ze#v__ap?CGW$xn{SerVI;aODX?oJ~_-#U4xAKa(y)u^CJsLXwiz6`Wz^K1Afb6k@$
z^49zU;<Xdl36=vCJSO=#w2V&H>lGddmxHjc-@^nieCJ0kF^|a6jgAwvX!?!C(fj%n
zE*ld~P%DCAOsyM+NwBD6FPq&{iLG_f!V>Tmt*8<W5*k<puPK{E$8Ppw$nHa?0|yc(
zpW#a{pL2N9vWQl+Ol%oga`$6UE5x+$U8e?MMaLGQnu(277pF)lJ3FE-kzB-KP0}@U
z+!cb}4Go4pty|CFIG!e^M3thY7&;(2I>LE|l7m%tR+%Czq>07+(6o}sxu)Rw;l#sB
z4yvfWujtmD5o|Q3*>U_cu<5w@O^etrFqq|*NY{vkWwNPAWCSa#c+t=aE}6u{9~><o
zA24lUc~dJ7<@jDXFnm=ksjjOTX2W;4L<O)9y?0wwOJs&pgO205RjeCc99|u856!7h
zEpXOWk-YCk!p)yM<1DpI$Q3uju2Z)Mr$k*hnCUFs5Rwx-Mp@x|#_Gs3R={iyZ}($a
zF~t>?$arN76Ma*mhVJC#rbrbg*zUlTd{|N_xbQId;L8!*aA<R<R=Hy0?H-oqOsQrL
zV7UZAGRE=t!mOyUT_FUkiY{Z(bJPzUkM|ZQFTRaib1jE&5z#bsa~wx(E|QJXI5R48
z7y`QkqAR$`&~gt@=opY45(K!@h#=U0Fx#{{ZqLsz2-9=RlW?6(AKoWou}E~;PBSR*
zYYUDY2lIrcZMJ{IQ1omYWkr}K*&e(gNp|}xSX!b)psu=h&<z~zV@nc8q;S_GmWMF@
zW8^KZm@g{D^KM?BzgN2a&e+|{B(Ewf`QnzfZs_?<Rn_vEArn;~_lQ)o44QY&qM84&
zB<hy3Ewa;^cQ-ZjnsSfGLXi?lF&SSF6kV|dAy?e8&$>lK(29cVX`!L&8=%z%c+8uS
zIQLQg918VR+WMbFdn?hwC+XKJuV3FwPgP=5PZE9miP36ebT9GtE?<i#b|-56Lx23~
zSDjxEeAWB4`R&C=o7MhHl~~`?&aV4Q|40w+25ZsOA0~b?@rAtKH&%sTbgUNZ-H#1a
zV*|Bx=E3a4rB9bCnW4(iOeHz{ocF~O^&pCOJdO2LV&`hf&i!Pzn#}Gc->l@W{VjRz
zY4hVu_rr-#Co1W|%HUWn)4iV=sb)s@GPz1RUq{@9f!e@mrT<br;7eV8&ies2!eEDU
z`@>hN!&e^P-W#5-hThnXKlteH(Jlb^?ZP4UONw26{88oVVkNos!qM(clo@*d7K(P%
zeO&llZREnA<{r&`YwV58e$R8^8{7fUM}u|52Z9ISQ<UWvv#;A>7RVe+McM;Q`zOx)
z<-q3Lz~)*5n`;C%cO<YmQB_UW5>nQ}*f&lK2d&=<w1<>6Joe0K(cqSm)+sbZ{|C(=
z=ULxMStDi7pH?&3ZFL3K>r!?aPwzV7w#bxqb*D$u+|HVY8QSb=&DETSoU%*7UOX+>
z%QqE`0w`t8s-19<y}sRaDz#gN{i<SGwx3;ecDo=r_k~liOsLE}v;vgXo=1rOn1Ky3
zu+SAa6(yBirI%sKZZh)=_^b0A$NejWxb7D|ALn}!{GWgS4)U-Lz8I;8P~dFM-&^y;
zf0svez_gwUU-VT_>cQw|{?C3{?Sc|={s4tJU%dxSaW}Z{`FFTrE%u|j^S(6pc=XQ&
ThkhCe@8+t3?&kqm;AsC}h__Nd

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/allspark.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/allspark.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a86a137a4e544735f554aa6907241a821f62cdaf
GIT binary patch
literal 5581
zcmb_gO>7&-6`tkqa=8>mOSG*&i?ZazbgUoSRU{{p9mRi%EvdHUBn=T{vF5Jim6kuA
zUD}dBCTZb=lopVEl5&cCX&lHv9H2m)qCirhhXB2BAq8XyE?}T83Ijc`k&6Jmv~QMN
zl9K5l0lFY(-n@D9=I_mW-^`zVJ`TaBI)1I3sYmE<v|xSC60tcA#4?hQ#Hc7jbDPS<
zY!N#{X}ju(IU`P!cBrnHJK~P95!Ng_RZonIa4~Ph3uTw&R{0no;bXptk3lwc21)D<
zBza_h&0g#)Qa8thxyQ6H9%hJFh^90>5fc(g4T=FQCsi>j3rP`+F<F;!*hcn_jE+v6
zAGvr=7#TZ%>f$M3OgQnztD_?m!ll<Po|<^==c6Y{SM-V;oe@M;)u8E&prw+@1lDCq
zko38vENEB6qzt+OuZo&{ZFF?(yww2-CS@E;>7_meRh&ztbm1`rBZLNZW9LVexGdsx
zGLFkCX|T$p;+%|6B;u3GRJ1s?V(KXsHaXC+jARsHBowj9c8QT4lQzkA!?9Kpi8z64
zmt9cfmRZ>&Ip*C6P1>5Ee$pX1t0XzeC3~lLml{@O)6G?d5-Bl~1KPW9I3jf(Bzb>Q
zTNe7+Q$wfc8GLihFoT+{CRvHQ;f&PJIl???98uK?x;tAI)P-d|h2v4W-qjzqmrVyG
z%LpvSHvafL(4QhO5_?qDG%6nYPoh_kC3}-fvRfDNl&p8prUs4<&J4)Cs&ctEIj3Jq
z#Cxx)YOFVwkYrVmXXR*0PvBnIWf^O|S5snKSLQ`s0l67-hqd0AG7EN-#Bx;8DBm)w
zp5z?a0i6gjB`!q8q<C3T6@700`C9Ypd0MamhOE&e_W^q74{QQ~2ooKT+9*}}VE>Uh
z^FINxjM5A}ncF|i%rQ_?-L518H8$Nk)wH#1ds_tOncCMg>Kvsy_UU%e!t^9tYk<pd
z<<QbvX$%u6>>Ll<PR}16iRvLNC$J=AB|a63rZAS{x;ht%C-hMHw1zIvg{;-2&3Yp;
zPK1&PC9Z2frVXZRg6R<qyNTzDs0mYoBFz%-Jm?XMdN5rRvJ(tZSLnVA*JWkuie7XP
zgqy;NR8r8Cd6{@iHPnL;R*dQbrNTD6gZ8o$5{>p33Sqjn#1|Fgf)Y!ratx+6zt@^b
zwYm3fk=aF6T!I8F!pkqc{Nc;_hH**_e>j|PIQPhZB+vVDe3!v@tzIzr=btJqjV_J?
zb7^dGjAmyS&u)5M^;`kDJRA<vK{-uJ-(q8Q{-%xn7LM04(#t0=&7@H+t6D2r+BC>-
z|1vgcQ^U$KcD-yvwd`ivw_Ow1q;0zHY3^ESd>KdDF%1!H`<HP7pYF)EPh#f53ZbrX
zTLl#7;h%9SDC15$({9N&1m&~~D7#6y(@5}It$zIaWY}%8HT<=;mKl%UV)c+_^;V0v
z>NVS0^eaYhxA<vRf`}kF?z+}WyTG6-4W1vN0pg3~yz90iF|@DjP{``1l23P5Xp2g-
z(_I!_$tCu##~OErOLMhkrk}6KTa*<Cr^6Pfl9%gVsPHVRYTO4cUM0WFSr(J#gtA@y
ze@9iVxoR|_$|x+V<|=w>t<aWL^y<B34Sg0>$!pIh?X9U7rR~#)D{U=mtz<{<fG?<?
zPug2qwG6NKTk_BH4z<TpWo276)HoBh$6e7dhr-_R$29m5R*MPIL@KTm4ybDo!@+}B
zd3`(aDDfoVH%W;R4uD*lPKwbP3I~-KIB;sjcpoIE0Z;g_d^M$D8G;2CC15yB%ouJV
zZV2L{u4BSp7p@9%K%~Sa$=8%9<WUp)5htLD=oR9KrX-OBY0xhU0DedSu+$Y<BTgkQ
z$+ILFOR2g-E26TdC2(mX&X_ozz{Clt0y58(9E%A6W;EKVR_v4mAQIPfF&>pMMF^N4
zTw;sIiKl{N9g?Vvgn^ZTq3Oz0Dv{EN<C-F0C(aZE&_QAckWF@4a7F;E4Qo;gf0zb-
zOid!}BMwbgCo%Osm>xef)Df;SBfOV#seiyfgM`#4RLKgX5Ld+*@l%c#71a`~CiQXo
z`Zf{DsTN@bjRu8K^;e9nZKX9UDbNIQ60Qb<nh+%b696u10Lz{qY;yoQ(*6mN<pcB}
zuzMxA>iEQW+qWL*$p!k2K>va(&(|-VTRgYGJaM6&Ez6NxkzBCf2=?Eb{6hU)T@RjE
z;PMS^xrQS~!;u9xA8gMB_Zh)`cWg%Rz@130d)R<qa2TW-cP@DHq5TV<n+FWGEx-35
zPzMdR{bAGI1;=mdK!0oJYX6<C&$>VDUT+!9vb!HNcdYKa)A(82r)}%a0}K8~{-$j6
zfsKR18~$Ti_E^?`>;c=B-P3cw;~OUX=3C#gzW|Aq-i;TAHvGd`b~x)F27#5t{lM2(
zzhz&iJ#>6L_|aglrQ2xf&hxD~zQf=<?ga~W)Y`L&Y^@yhT40f{tyq)eI}N^bo!^(^
z`wYHsoj;u82Mm7T5As(tU(RItfpz{YwDmM?ux$kw>Nu1O^&6r7Txh@u4XlTb=0Ycp
z(8=}CX;2FykDA**-v815T=PMr`QRNP*F9o%k7O^rnQcC}-u%{r9|ri+aPH`Yade_Q
zxYgsi&H<xy;C|!%t6ycl%xv0iFL4I@Vo~GD`y1^??p=7oB2V+mzSYK0+HSXH`(DZQ
zoih4PZLp^wuuT^Go<G-j(&#(+Eqkhnh?rU8xU7g;wB-N55)h(>XJVq?gG~VLMzwG^
zAds5)2oMOGE~9Q!pP8f?D-yi}ePvu3cZSWdfO6;=-u6ih@XPVIQYkU?V3wn+=NVFP
zb8n_trv^foiuXyz#5|l{#$C0rR@!5tpdZv!8-=BvrF#Wn6gpzP5_xMPFhC-%HE(gA
z8E@MD%K$_Hiifv-X}h(C3<8N7E0-?Ed$?`5#~=R}KJyAt@luz<Uc!jPb6L1rg!F{H
zTy#C)Wr0a=2O44Gm_o8jGqR)f&M;Q>(%_=Eiuoj|iyt{WbLd6zqUNP0%wvj0ivDni
zKm$SP_Fy_hjkqDe&_@X3G&4-^?f4iZq@nDQuMdi#kw$>xNT^Mjj+r<_NfMxsS18AH
z%&$@Eb(+wNNU>i#ged}vhED^JaHTFKVU~F4qegK6u3}i!=)LV}U+WW-Np;Thw9mN3
zY>{~b^k{#9<O5XTkuOm6oB77w%j37k!S^+_<(m48roMZ@^`?Qvx&`~f#LbSI7aj(8
zF28;2?G?Ow=#zol19uMJetA9EOC4r#`OK{|D<@Vi-W**W$#o4GT|@UT7+uG+og+r$
z$b#olpfMNNZv^(|>vrdNHsyo6^TDQkoj+IioKg4O>Q$pIoZq#3Iejag5AIo+2alZJ
z6<TdIcJ(}HAIUc~E)U-t&bPEb*~RbR7F>l^#MfuNEqQ(i9r=o5gKvB24=%m8_}+@L
z?%$tf_nVF*%#4QvgcZz?EC_@X1b9?PL4*?sF9`6Ipi+bYC2v#}H4UDxt|TO4htP}Z
z6$Ddj2fUDi3nF-+L_#HYO~;r%w%~4>3{U~rn5h(>F$<UEI3NZ5F0BsGgkI{*por-~
zHWPZ%wBJE;1Ld9d1smhsv3le?1lgt?xdJ8wyfmeJPA<FWPys=HPriTh>&|Z+e>{*K
z8Z}-V`;Ib84S*_ig`KCFd;MPwem?lc@z0MJ;3j{X`C8vJ^TN9f+86$pXOA=d(BHT;
zyEwb_{^I)uCzPQlKCm>jI8<=c5{sZ-T~t>t8Fd{6+MvK8&cD>U*!si^rQ(F>T*7{H
z6#%lpdkv<}xOhCeX}M?X`%O>r{idh-{iY|SE2?Hf7&7#e+VqqUU{Qs6?95k!wpx13
z15Mv1D_9IuziV!Aaa*=-6=8>pmU0ZoK#tyLHR>!1c7|a#ImGz>jynH}&V6sQGq&$p
Y#7r>%K*yiBM1~2k9Q!w-xw%gN1DGiC`Tzg`

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/bitblas.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/bitblas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..db087b4f1740a582511b4c0fc9d70ab739882f48
GIT binary patch
literal 13151
zcmbt4X>1!;dNaJq8Qzpc>ZGm1q9sed9p6VRIgTaykeoDZuoIdyk}30$ha(>fnRo*)
zmdYNscF{GB#Wo7MK(x&Q_4Yur-5>QX_D75M2glTc%+x`=+Z09qF_D8TiURHT&2UIb
z9=i?tB))ma_ul*F&HL{6&vv_wfD|`;Cl(tdh=0S1nvB)L%AZ5w4#5&E87IQ{)Wyk!
zF03Q5tdHvxhOj{{8{)=<DQuF<#<)3Q30vf{DQ->J!nOnzrV@0RPT0ftgd^-oIK$3_
zE9^?R!|sG9>;YIaYl(Xk-mo{}3;ReyM{owN;eArUB;2SYP7tj1Cc)Y`@B8{{YtwZy
zM16*pu@EVluW)=imP$gAiX~$L6HiS|aXeH#XJ;cxAvPBgp!@k$axyjrt!|#1iASOw
zGZWz>2~Ge|s}wkPa^l#?(Q)SVnTeC5C&NR`@X*nT^XG=fr8c!|{QQ|Sr_W6c9cNCQ
zJAM8PGY(+mQq$<kv6G|cM;R6DrJ-}<Cr^(_{tGeTLOhaY5|K+B!zE^f>&z4rW3Ndb
zwI`k8g=$-C^dc9%#MF9bXJ()?&7?0zW;m(y@+`++U*F5I%w>E-Mz}u1r6uodawY<E
zOw9<FnafwX*wjTq@~ml`<M>qiGu+*fPI8Q%8Hpvi2!D#>lU!W#s`Zh`b&gl|E2?a{
zk~^xEm3umZ_%@snjtG-15!Rh2IDOc_897q`KsYl?9)KsS3tKoV)bw)A5Vmm?)Qni;
z=;`L_Y^xru3EEp%HB^hN8QR-5+AYu?)M!WejT-INm@(|(ywKbGWG_ce>Z<tLWQ?hB
z1J?)`(^#|0f9xjK&NZ<Pj$)ngbHR_AGsC;OYb6ioSK21&95G3<-kbJtz)G;atPj@R
z`Q*B6!&BNDpVBU`IB8;=ZW_ZaTr2D6Op`h`aMSR9b@Ff<v?88<t{uKW6-VXmCJk)!
zD##AD1y(uoBv#YMo@`^`&0u`%O+$Di+s2vLcKCI`c#Yj;gPc`{x3L=lzLVW}lL&XQ
zosf5btu?!zvI~CgcG#D0Sg!~6yXPhu-jpM*k>TEPA{3Im$6^8!`I=Kt1I5>feL}Ji
zjU7EUGQ>=rA3HgALeeD#$v%2?V)Xn7GjjBm)8{87^JF{~5q4~^7Pjq{EEnV^C>df&
z;W^2nvV!9iubdegACnv^StlYwVm2<3QOR+YxvX#?CJ9^!>*>{X=T&BIW_5%6Dl-Ml
zV|9~HomSxjQJKR<;WX9~mXT|&?1Svj$U8*Flp&Z}w*Yjkq<M3O_@0#@GGs=V(Ps=9
z<NH-<KoZx9pOIrBy+p5GMlz;nXE<K6FpSJ}nUF;?q`CMc-vKl7LCiK_hGfWhV%7zj
zWM!BrFvT>(q%BYnD(S|5CI^MY%-~FHW{VKvr#NBDwb?y;pS!e&8;r*;49;8^E~b)$
zSK{%+U?RnGafZ9bMQ4Q+KNv@5l^&FFtFrpROEN=C4<=&QfJe^oTr`FfVz9bj12fn8
z5G+2|s&OC&YA*y3=^n`bc!Q{Th_-Dx!?Gpt&|;rAixz*Gw&&i+zp?aY;mFx9^*XC<
z1t1B@b^$(XmGzp^(MTNlvgxwScB2M_s3sFU<qz`*Xa!MAf`}y&WER9~hL~OrSsif0
z{33{6mB8O30Sf0>m$JqTIgR_eE=^PG8lbAqHEn;gFJqimnf<CxRV-&sf?I8d17)1{
zsI~g@{p!(r*2-BpbXxB^?W@nDmcF^?DX<MHME#jDPdC+TYDs-x^)056*RM+|OxBdq
zecgS`0^!^+!hYyjVp2a&XzxqbBDAQB0-;%I`}8%xTGq-ES=&?gL_>sXiO(#Rp;*Hu
zVBY*d#yXAUx-JPwy>gmH>Rp#=JNb;$m9-`R3sy18tDMN#<a2CN_ZiOd|6^THMu~61
zZey+pH{AR6ZF9iLGPbqtDA1Gl057wQ*MfiyN>0;A@#~U~0ETG&y653pXK)(X&$^`U
zN&QUJ_E+P}WK7eW*G&M`XO4I#O+S-PZOLX~i@F+XnFhmQeacYk+UgU&Ezm;7hO`i}
zj`7G4K>c=2aY>Gk#F=O+0h~FVo@-Ram?9m6v2<`OmE<H#ijPgjl99M%1~}xUbAFkV
z2GbW)vvD?<ObNjYoC0jE3IL9sYd)U@*@Wsd#|D)Fs37kPzMc*FrDjzKtd<x9vqCJM
z=C=ciJnEVJCdedmLb8ES6=GAfsoAt-xDw;8N?s5;(ThwP9+4@IVR336nWaQ2d>^&+
zwB)K*1U`~XPp0^Uq>s+bN`~kx8{wS@Zc^m6WRp>3P^?KhAtf2*1$b1CCDR0#1S3H*
zCT9~f*Ci9nU5Q0G$@WqtKFba9Jan0G@`w<kc{~sN0A~1o_^p`9ZzR8rS+xkPpra_r
z@%sTpvOrx%K{Cn@{s^?DX~?R=S$^>S2<r#i2~7<3i%s&Wgluoj^&fjuw;FgF^d4NH
z0S?3s;!B#a9w8q&y(Q;H(YdkU94J^`C~SS92)T3MQBzB)saI_3&CwMT;cdIqztCUu
zghWrM=;<qYwu+vu_gYKa&WhX47Cq;3=7+vbOJ;02DQ-Ji^u1W}ofm!Qi@uk0)-vTR
zQSBntUZMs?YOp}<FE=)q8be}ZsMNSmY}{9N1@71v>_2p_=ygqw|8RKb+3!qNjD+1+
zu@N5s9sh#A<n9vPT}5|K&h&_K=MI&<&H3TQ;{|VTf$jwan>tI417hPqj(X_rUYuOI
zRP^pEc@K!*110YX(R-rkJ(;tVyF)o+xgk($=oK4!OAUi!!(gdlpV+W3XDd?;`Q`^y
zXW7?!=hVWfpBmq@ziTi021>rYqHk}}w|{=9Y;Vf%ePHh@d;JA(SAjlK=s8k^+}l-d
z-uO=6-M*i4?<L+%6q|Sc_1V8C?@fr!`#yZ>H%EVS`Tp@=zA84K%nkiu!w=5h?t1$a
z&b0r5z2{R`!yS5o{>ax=_6Ogw-L;kcTSWhsqJOaD-y!;U6#ctO{{5nVf6;%i?C)GL
z>KhtY^hUSmE1K~57Cg64+!<RKE4n*BaeEg$WnZx5+bQ~X!Zvz5UzrF`>q7GnTR(3i
z?4HN1@C^%XdrNIc#I_^%n~QBDMbBt~9)09&%$pXC1!s4`(#<2QkxV=%%<{=78mp_5
ztTmy6bcX;pfNt!wVJQC$Ig36TPp1()s2o-gsF6$}mSm!lnaG7$JSJS9>(M%<Pr@Z(
zmNY8BH;6}0w~SD<s?b0qLDbZ@9%x1NEvo|y4}?#g$m#_|QBGRQO-8S!xT#F@*<*#8
zlAyw0g7tZiP!qtcz7F$a;wL&4?k&<vWOQkoHL%9j5UlAZ`bph5A=H#WP#~YB`Wc|#
zrM_SNnK4`;c^}Mf*6#l?!CEo~z{r5B0gQ&qDAd$Gn9C1yS+(I{E?XT|ol~f(d@#yi
z$4o7;6zY3V>67h#=+p8^sC^n3zmMk-(m2sc2(n)dYh46y1kaWst9ym`?ys&A*YvLt
zSIH1PHX+Nvx$RZ%8LT?4P~ctVQ^~1;;F&lVNprziGA%^n@n9A3(81xkbLt=fM!8o7
z;n=4Q3SPJ#<Y$w~SaK@(8rW6pi29@w`Pv+P79B`I6k@^Nx$Pl&?z;4ZIf7M+=?~VM
zWq(sJ!h=kmqfhXu*_mKEHit9p(U?JFf~ne=v@#8kXDZ~7%+=TAk%lBAxaiWHL@`Wt
zs~Cm{BNasL$pp%GSpxESbR`O97c-LrVV15*V#HIj$%`?FAdmFJqiB;FVQL|Uj=`$A
zR`s;GCuigFHBBKSe-?+KT`T!w>6-AXeFFYGc2TlIq4?rt-myw<+M|&q6HCm*xdaE&
zc0+YbRy!gF)`0LZWBLp*Ghjd+odrv4#Xwm@|4KK1>TJA~ozLc9F12kH+qM>++y3^%
z2cy3jedyW*40o5~3qt2|JO)v;v7#dzdLQ;4E^Ind(UT3w$Q8Z5$x|WpZcoJwK%e^v
zSJxv~1Hid=e(K#^@boQhs~C0efr`=Sb5sbU-SOB#H0}Fv!#`~K<(6XO3puJx(YFrH
zA6%qFst*KE+0&lC{7&|6HlL~x<iL*djzjmhz+&#BWJRyXIrMf1NKe{+>%jbh<&Fa)
zb)YsZb2pPu!murSKJ{)bc;uybRP+WMW`Lz>!qpE}c8Ts1>8{1IBE3nY)*;dzi=;?z
zguYuN^CK%(qss=UTWx=Qyn}GHd_j=bP`R`B0UZRqtfBu*BN^X3>O8I^eygL7yY#<x
zl8{SA*^jV>$=94GFTr8_w)GAn)MOF3Nr>sy0s$t)RI}!)j6rEta<C7zZFW7h*BE<!
zMAoosJ@gO|sssFnnT5F+)m^_DFYpnpfinPH%})TLM}xKVFV?O3RV(5f)>v8{EA<Uk
z!SX8X!rNBxI}p>}I+R+H_eo=xoE03S#+w%Pjlk;xo(rZ1ncTXXooizv)a>_6P0ZEj
z)9PKl0_=qbv*#(HO~suxsqgp}xegoTAnTIWdUb5z4Um1TOCWH9>zbents6C34O$jB
z4=P8Jf)N^4tGfEDaC)<*tQkBHHLLS!=Qm?gN0G!j=*=29nd{IQ%QyY&MriC3*tS*W
z2;GX;iI8~=n6={Al-;04B|>7Ay`R`3n=xyYKqNvuYAZ-H=+m4h#|a)cfIkBn1U5*9
zXQ7lv0uA0!ltIgZcqDOwjU1YLUW@t8@Tn-+qE*J9W+Iai7lKGqga!FIa3G!n^D})2
z3d$sZgVQ7Zfp75F=VkqHt}6@@D5yxFC&g%W(NLpg26Zzc2;e$J7qI+}LogG67&A20
z_$X!^WRmqF#E;}H;ZentTujZLR2;#QNA6|hNK!1xf_0dd%xPr>9_fjH1qXV^QUb_K
zMgDNCA~;8|`vuI<V3bTC+tSw)is6V%12Ig?7=~<$bs0fm8C%)QD`T5LNM}`U*Wyk!
zm$z)Vr|T|o#Tlx6AjGd`WFApIRNFH@#oV^9{q_C=7D-=(Qv=`Xq1&HtSTx91m3yG%
z-X*$s<xFMTb?empsT^6Zo12d<1ns@OGvBskC{kMr)UI+@U+(xa-TIL7Ky%9?Tcr95
z)Q<AT&AH>>9eV_VasS)<ANKBh=xWLv^Fpa(Q0y2iy0(H;4mm`+J2zDDc7u&*cbDi5
zBE4a;d&yS{?G;0Ne|317K2_edH#hV<y6aO|btu2H)Y2!m^et~0x<6UmGP+EUJ=}Eo
zzNxtBL~dxA?!wg$zJ2har@PQowV<lw-Z^yl&~o4N_lJvpr<UmvSa1K~(!Q6)eJ_`3
z_pQ<SQG9@$l&!Q)4}6>Ek1w77t5<*a>WbO0-zHl2<ed5TrS``*!rGkgUi7`!_HNrf
z=d$I<Lrb7mcPv{Dm#IL3>V8PK<+;U)_rCG&H|~Aocl7a!o}haa`^^?hPI3`2;ov}0
zsac^`q2;)1TJfAnh6}MsI*O#ECRFf{NvwPyGKg3Z(`wJErz~(Z1TZ*mwOz_JAy}V8
zc0c24>ryoaVg#q3DPw*g)c{Dyuw*U+`d}l}d9*PUdX?QM0dQzxgc)AArXea0t&l|_
zo+~)uDrVO(yAGLT=aP{NagGsYQBjvnpoPF*;jRej)d7;KN$Y>w8ruGsr$PS{ES(;M
z3?ds2BG6XyZx;QVbM~^kq2%rq-JL)a=#dGE&S1&eFFN~khO&h&S$afEPnm8k(@kX>
zLLdR4oHFf!{7a|BYE$gw)v63?_42p;5zybNFbCWc(Ed&teE^1Jt<bCW#cZrTOTmxM
z*fdopJG3KHS(ma7Xx9)&Rp)mbYlK;iS(=6KjaGBk3GiB~QV`b$8@CFT^w(7<ux~Zj
zSZjrYE7=0?reRBhs}!8!87KU#tW|bP>sVV7+iY3^kqnigGj>p$Oc}?|srRecW?e9Q
z%@VF}L&lXcsHz*Ngtff@5lq)yv-GGOo_t<D$HS5VFA_{hhFP$wBt3cw1FJo&in#+9
zC@!YhAdevj$p}C@wu2c*j!NX1M4pn&N2_#hez{t(!uhTisYo<Bo2XXoYdoqFeKjV4
zmleb=(uGZ~DelQX#g(jb1M&_&3w8boWFfn3i1FXV22|q|>O^?CUkzX?DDyMeK8zWL
zkofOGCUr3A3rg`!ln35bC*&0Pcq8DKm7T*Ow<bMja26zL1*12xgs4b%RW>TVVp(V+
zZ{u%aRzr_}TLxBmMwOYQG0s+#kZM5|l>F<^HMd1e96ps3eGEg=z{!B_zw{B-&?A3q
z$=@gX`<6yT|6ZW~y8J6QwdUw@Lo@g!8#a_0`o)I+wMD9_M0JT&*OKW0HBfHp$c>Z(
zZMhfA{?`0Ne)x7GccScU0jKT*=f-l|#@n`XYsaD?e<k0)VE)w8S_Wftq|`qo_74^M
zh6}C}ASS(F`04D9&n-ltyX^3k937&gqwENj9saU!L)q6-ZtN^~ZoN1BpmX0{^L=}{
zx#tr)03r>*n>OHoV{_RXfWqSrSHPCDS2hwIou&3;V*4@RRr!OkMu#nD_?@Li;Z(?(
z)Pxd9=2U-J%c=AU9R_8={F3iIWsM1A7VbL%9UIkvP1cM7qFT)Yp_!UDO`X0TZe>ZC
zwmkraVSsfhW3GpPfJd69Yk}4}V1`r;6X2898(COg54^*|8h&n6)obX{@#7G*(lE+c
z)6dQ74DuRUAynWyD!-6nw0O!IT!H_Q;F+`jM4z<@HUHamOC4{ul(DT^-8zn*K^$p=
zk<|Y(vKC|loa!T~uRpTJ^>mU+;d)Xa0{00R7A}NE1txhV#>OIyau)$i3ODivHX=kW
zfPW5DZ{ecUFcnW-fH;=Q8^FyBcesWD*rW{Okt2MDPEBx58-&!%r8#$%T!W{p3?(?%
z76jQ3fvQN74W=Vkpd_S%>PiE1fuO>Q*dTH|;GGDLHc4=<F$gYlKE~k~48#Ow1O`G5
zg$@1)7Uu6jR%1ZmVgd~LJa*j04g)&HBoCT7j2y~Q*Om0}zEac02+v*xHy;y`^GUcZ
zhR90#2+K+y#1<}p;HFhK2J{#C?j7EPnM|o6DcP`*xnm8bRX8-%F3TL9IC|{p_z-jE
z=)?>4J2VqV&z%^WkQuM!P;TWgqeJ84M^6mF<&y*$Z4ib_qd-&HBR&-t`2%R3+o8!K
zpUvl8zy#8EnNfaXIrxd?#oq_F6@xnpmbQ-q+lzsnImaU^SfaW`s=G*STH5x20$0_B
z61`KTca~k<i*G#E11GCkh~~jkV7nODes6a%urKG3wdM^UwRJ8I-#b(|`_gjT%ek?S
zoULV7d&#w1bnX7|Si!Y>*>xBuDY-(TE40*eZ(!MVRIWcKx}GchLQ98Wc5vcZh^F2p
z)8e(l;7GwY3aYoe0~~+uraROEl^<Jn^?`2ZY6qMv6wyAobY<ycVfX1m%bDAjhpt8$
z=!IohH%y}d8Hwh;rQJ)th3zjCnoj0kcu0HDD#}}y=?!IP8_c69_T;tbYQ~9WnQ<PI
z87HV8(6Byf`N~*QR`v97(?Y{r2Jw1bGcdMEat<cT8c;pbQVF4TwZd6lcuFrD2pX!O
zCU!M-sE#+^0{1tx7_?^iqt4KP8Eg8@GRE(N7X}!*215qn0egoDBIWuq*%$uVe?tPZ
zTPB`Yp$jft;Z@MOy{-hRQHPLBk(n7T$tsrnUT6uKSJ~@-i68-B9W$VLA;mK=4Z05$
z|F<M-WXe5L1KhoW3rh-Y8ZDnHQ7N{00M?1aEmpi>swy?0pTQMUZAIj%;M<VCz5~;P
z0b(P%L+_n>_f)BCSnL|Ue_8B0S+Ib(Z@6<};Y9xV{JGmBg|35z&cmYbFobbk?%TWW
z99%fK*!^DryZr^{Aebig&@NJBiQ4*r+FCX0^Tv1RyYw>MU3Pcf_9+3}MYiDXLldXr
z*6Z`H=l2%tVaGL>v}#BDMZolFmZ;Xz25Clu6=4u+c5VF=zlA}|x#)nhH%cHrjUga8
zs#AB-)Z#j`5D?O0VNcy$Inu*L*pQy@!%q)a^w7%$v6B>3!F=5e4?cn!9u371Z5TT}
z!JLE}z(b=$V-qTeeIkyr25ap&#u|`A_@TGKDi}!h-g;yHjgqrRboLY+o51zodzysY
z4!NGNwu8$BE&y!YQ*=C6uskO-8=!`<F~#Z*@qY)?NHzv<O3Z@E%t$nY_n+g{m&4O4
ztMZZ|9!m@SO$2u`Oe6_AD_;SJONX-Q4(4?#6_*WoNe__xF&v8ANWOK!qs}53E=J%o
zV=FeIEg>1ew<btNMTf^bB0we=ra@QW(U{}$OUsuE`RB1Tf&i3!)3Iu9oWmBQFbh67
z{xvM?l1b1#<agm`p@DxBGt}yNlv_Od82Jw%lkC+ylTi*rQ%s1IKdT(+R(xhW>KJl{
z=%y>M=YRYbQEuOJW8`+%?es#ZXxLM3Zoe^lduP$m4r)4-b`%Y5k1Y0E_Idm5>*du2
z$GjtN!xr1T?e<BvFkGQb1Ew2ew~yx=-f6kpvKTD{LZWZ;3SlyuK+v>rgudaTVFQ#m
z^_6@3%li&}?xc;jM^t;o2v2ZD1zIa+EP;aGTCrluMl`qOg}coa3Tre0HiGZ&zKR`d
z4x(e*y`5tFo-c8lN*7G~xpkMZ=aDaPXJlcdVuUhG>Tbl#3l%fgEY(_G5M7-s2wX{$
zgvkvdE~9602LywRo)x{?0E4ls&uA;OZ>tdSyvKcb{C?*@8h*XGa9~8-J^BSURtG?-
z@*3G?93t=S`rx@=JomxjUmUIwSidi<$j{0M>4Eq4HC2r8gxMPd6*HDVP`BQ>v~a0n
z#hQ(9dMgx`Xu{@Lu|w&L-ffUgk{!nO$}y6HcXax0U7Npl>&^K$D@LfpWZ<`h7+S@Q
zH49;L-fEq1U9m##t7fBduS_lS5eWI^<1AV6qD}<vPfaPYR0=Q84k-E=j{;ZPB)6=+
zPCKAnryY=u`|5RC`D{yD{*Tbrt5oQ{k@kPBF$1bdQ7&W2^o+7y4*4p+YznI=t>vJv
zeC<lUOvR&_q!1!<3I3;;$y9L$OItAOhfJ~@P`Jk-{$HR9ghHf|ULiI}k}EdgMIRGw
z|4wv%ObmZaocc;<BXwU9kbQ~SSAK##LjK<ByZt9cYx@n;W7Cv@+?yZxlEA0D$o~My
CVCXOa

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/conch.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/conch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6a6767a729f68fb3cb1bc15426e244eca7e98a84
GIT binary patch
literal 4606
zcmb^!TWl29_0H_fzWrFgZM-lp4|yr}2J9vd7!VHwDcHE!1a;GBGTym1V`gTTJG0>3
ztOcp8%2q1@{iqkE733>H^n<7$$!FTHNd4Irre2K_$yJad{<fI(qd)DrvoF6uqRN%#
z+;h*IbME6j?zw-jsqrFcD)(FEZ+?Wnql0qeOUUX9AdBcCl99})NMj-lLvdDRHAlo@
z;|`UJa6sc!UUNpAnk(Y6>AdRJJP{AzPT8e;HE+bL`650BVb641d7^3$)Q;+?i~+T?
zj8}W0Zm*8Y*c2D3#||8j-Ge}qJ+gO-jWpO4AEmJ9G?M*uNUp)&hmN9Dq%r9T)jp$x
z5My~J6<rpMIF7=AKc(oBIuc^7z;VgI*Up_A9+ilsVG|RpIgW{zFtHe?BvF-;v4kmt
zl;4O-szgLH8OO#mhU#Ul+Tqc2ijF06784z-R%3a5PD)~OBBoC&Q&vzsaem~)8FB35
z=;-+i<3lIKOGEFRJ~J+k|8jI_?Ad>zJ-Z3|tj<l0r!SnpI4X|46B!zd0!O8JO4zCw
z7P5#iiZC*Yu-G9pn44r}c8+^kVu|oTbzmp_abY+1$Xv>W&?MUq|0g+_U&HB@o!GaP
z3AZw!%*Y(byXLq^tp~}z*OGO^JX;uA_Pm5{uNii*rPQQb_RjH<`Xm?fTLC!q=;d`r
zaT07Mh#sXjTid9ota1PrQIZL<BhN+we?Z;E5mgO?vJ3xF!=@Gw$CY@GDUm5`_RJ*S
zdVAo?TR5yL6XAH$yd2ZR*Hl#tYcUzCBA&s~gc&1Y@ElBx@YRH*n@UPD72vyKdx;U&
zlo>3Gae||YLFrMt=H7VHYJeF;P0_`u6qhCxRWXyPU7L2)yP1o|ok4^9CR(WrtO9~8
zCOQ&jDOPH9tM;D%0mvdsGt=ciYkIRHag8AzGP5<;$B-$ioFAh<akH%KNVAjd7}ZN>
z+R#jAnPBVXw&nu8e3f&(UbF1<kar%IY<UwhP<7^{JLDNj)m*~L)MZnkfhu&T4uu3g
zW(r0k9*+?d%fdub*mR=%*8H~vT#yJpD4a_9Pm@?8E*MIR>N@tix~3}9Mp2{1+qO>W
zcGqJP#f<4aCBG09!(OYR8>XbHSl%bZRSYRgC{YB(6s{?f@B#Q^g|?NZ4+Ke<1(PHN
zX-ZP`t`Ivu65=i2b^B=S97cR#5X)<?P^9}KwLl=$K|&7FOmUhbEDt6mMnuh+GUz`+
z5J(H9*F+^<R5VzihIKQwW7C=Tu4ACd-uNQ`a8RHB*5QT2OTyut@9;{)j{D4~HJ{XE
zZWIs`KJ>KljcmjI0?!8e3Jz4$Qt+at_Dm?-xHIeDNhJpt2A6gm%J~khG;GgYy_de5
z&gdZ7bBuY~7|u4lK}8R27Jce#x_#-fFPQc1E^ut1Yct16T|1#+Wbt<Bt_vL+S$62m
z0kQ~J<{SdIV*xtSXnJE}0iHAi^hziJq14iB`GR85D<roFptPeZnFJG!tjlLKx*FkI
z{SAOcWLB1xM%6fdSXz+5{v7?9G0U|8ECiA{D>Hv~JS<IYFRl`?rL{vhU5UXet$fj>
zkw}loZfP`zLfi<U6B0Loki+sQdK|7&S<x&n+^H2jE=8|EHU#<u-tt01q~5PbF`?@t
zbP*OOOQvLb!P8A;DiKQ<4;YJ?DQ4)BH=0D!jma3%#OvbK)Tzzh7$>nPHVm;C0){9}
z!gVjIF-cbRsop^~2G_fBq<5VjT3i?h0o+92GzK%$QrCf{#=fk-FWcDnjlb)D*JoG1
z{KeP%pZJIK%`J=X-g$Sqc~7o+&*SFq`D4F3m2YgCKV!SpI#bbY*`_M`(*I*BFjVQN
ze|$r+WG5_;?4n=~1$zO!^r(#=>8Oq4bd~`CuR7`{{-duxXmGQ7v1&rQhO^w@5uy(D
z9mNbA3vm`_V0DrRFeBMVK`#J<0{|JWl;VP~^qExnHJ$7bouTMW&somX{M-+q;76XC
zWp^;=4rcKE@lW6X<o!p(OYY-&w|^t`iTk+iP2{Jb$l@jx$%xVgmm7^uJ4sDK^wT5-
z)jU-8vz+ZDm1r-s(<D{CM}Gx+X8Bp?tZUZIqBNIg)BN-n@t<~XNp*eXPrJ7IqeEE=
zX^v)q4Q<+fqpT-R!)s+@dktxNe{E<lk*?ps215ubD2r*E^`spi1=5~r8l)Q<B;itK
zg){Y3a~#x+O&f|jaSCf%$W=6!m%3mv(OC{~LW{dDrs7t8={}~{uQ;KYM&*X4#w9_R
zJ><2vLEeM%Fcvp@*H)8I1!@|36L_o!n9M9?w&KIZAl>wb6GY(&Lg?*lc`DP8ei+;8
zEl!eUG2|r&C`F)vdRLLb)(y+ON@!q`w*gp;XgQ17+n^St!BT9cJS@fIYO<VUx2g)(
zF`NYz#vcIOL_a_v3^6O6!g6O{uCwpa(Bsa7Id}WKV}9)Rt_<_f!0vo)UB0zrapulU
zzP@qMeaD^O{*&zX-rG%!?Z0n-bTS|8y7%7Q_m+eGxnTct@JKFrB;VF~&v)0i+!oHY
zg_qm<b8Y?k)@_R)-uZC3wI|ow^P<k(;GK6CnvlOf>)V$1H{3eAa5lp&`GYHU&GR*O
zxP_RJP{4AFcH$64%PWdd>L*kTxL*{(Bq~iVF!DuJ$uQs@c{wIq4n;RfD{PI>bFz3d
z0i_Z|Z7il*4#Om5N0A&O(aRRA>y~ra)=K&)-8qhRBSy$cs-TGiTAJ8rOsMzTfND4X
z0$>j1`T7FO@D2C-o+Id19mpB52?eK(weua>?fVM|`bYT7lV9!pn)~bC?BKcFo5Rm3
zu_ORkVX&4z!94oe7XzOUd~x*iqXk6AUzw|RU+6}=L;v!$@+~WMO}AziW^UbBxKZF?
z3={bSv^p!e=*W%Wzq+7i#&fk@1u6iQoVV^)=R)TTAB>9op<4+xS+!6{LU9f+s@{aD
zsCE%*IiV1TtC`RgM}`4dLHf?>UH{JNwR1duy057h>TSj~4|YOho6rPVvPJ@|({J&#
z8?apVXkx(f*yD-)2L_7Oah)hiI=mk2*P9`V#S+;*|MfPp+=E4*I6@*Y3C$6P2B6?z
z80Oz@#O(eSwS9;D-=hoPqR{u~D4Z4_Sms)CTuYv-UxT#exHg;8k>ffF9=@B+qF^Sm
kig<>FyP|vVXMOjTEb7eQ$0+>5d6r>XGPOS-+S^C^KTnoVC;$Ke

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/cutlass.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/cutlass.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a2b2b5c6530f38edf87f56b78e816d3e2a1bafac
GIT binary patch
literal 6374
zcmb^#S!^4}b(UOGJVj9w9m|%KReVGn%aRWzmK52J;`pd7$&%$H0Fz*`;x6T-mxpJU
zwn$K^S{SI5HkI?yT1FDs1q#%Gjl%gT;-CeR{Imi3BU%nfENoOjQxyJVtrQLVlfK!5
zq#Vjkj{!ORX6C&&*SqHZ(eL*lC^G$H>DLVi{h2hZ;xK{LHvzbe1SC*03X`u*rsB4+
zog%PZrsIyVLx*YE8Ltc1>99j~#ob|d+!OZbZKv#w`@%jQu9N-o`fxqKF2OAa;(>4=
z-Vkn}kPRJ0g6AR<ykg*n-IzZd%uuZF0cnh~l;-6kX+=%OxnxR#rfWRSC)6WjeE@ro
z;$%8CafVNctW68P$SdOc;o*@n9`kWg6|ojdi8!8CMJ`3UIGN8R(<%p)4Usg)VnXFo
zGOtFHI1YV2CBn-*=G06|R31<;Jus~w85@=oB9BjqI3dbflhq#PGa^2eOhl!rh_P;?
zcAJgWjlkhYaEu}fQvwRx=1`OpsEe+!U8Dt@=!n_``$hVOi5_-BFD=%=h)Z;f9>I~V
zLnvx%f$=CUIIA$dLY?S~Z88a~KC#xSh6%zfu8VXy;6{S)KcN%cFbDH(eu8J6eto^L
z`kGWxm*BnV2nXlTG!<@~K&)ST;!s+Zc}01(cc`!Wgd^nOtwJO+0RL41s-IDpky;*|
zx98B?G(tH_LOI(nsh?65QY{Gv$yJ>elbFkbD&L#78#berLtL3EgIN3M5x8}yqVlQ~
z(Y#Ycz&J&hFsJ5F(jZWpi{qq(q;edF`4J}MntSZ<Dem;i6Ng7N_c<b=Tr}0k(i*LZ
za#W*vJf&#PvlsNQo8uy6>l~*L1`NZ@{xi{|##22hDYa7t98ujlo!-~qcXprHBTJJ#
zsf>Cindmt$%kiFgQV?ZMoE9T#HHmvbrbVpu=yOV0ST*3C)n!%biA&R>z@@MlkrdJo
z6lC7+R0cP}#93yYJLtAH*a%n(3)R=N=$^|zUzc}nT->_kVy|t#<6^&T>9`*H-SNWU
zSblKqZp-)_{dWB-AS2C*MKz5RYwnT^5Di}?d%lc7$8Dnz!T^7OK>6$uSy9O4GMGrV
z)(B_7#iaxn;ZyviBui>0`^<XF{Wk6sz(XMyGmBONLA;r;q#~mc^U|S-5Lt)5ps!)x
zYSD^SW9g^}S$e8a8LA?LF~Z}KBG_)2LJGL{92F}IVg*qxi)2hU$CVKRo!tjgMP+E9
z^{pKtEf{gYNPW!_Cyanuf3&FNBJ~n$wxG&apRZA<6I`{a-$jD^eS6e40m>HJP@%IR
z!DFu23*#HD-pcoNIL{f|j6G))JXtsm#gVfc5DvnuzS>mpqW5j)oHcA+)d|+Hdir_@
zZ$I#^LH(}H;GL;w1EZ|%NVfgZ%cqBjCMK9<Le4Ot=BXrBMFE=3p_gA8!tJmdg167Y
zBW8=i;<>bhMTLnZ<0)`6Ohs6kWR&UO#dID^rod#dgm(8D+UkiE2K*V*DfY(qvJ4+l
zrSrNTD}<_RD5AndNi2w1N=z|{q*}GU$qcN|SUFh{Az;HIPBN*alu(t&V;{--bZ5#C
zkH>Uod)de1cRhMKFh%c!S@UR^ljP`3gDGW2X7`>xMp7z^&2B%z@Ckt#W#Zt_nMsim
zr1M~yCS{R<eE@nFGX=ZL4(gmHqjHj0cR$B~%Z9@>7HPWe>N_GNk#6GG$u{=0w$r0*
z022k%>Ldk%2Z7g`0T9IVQbeq>Cz=b6S|`#RU`ZoqG`~J&A4e`Cn$X;5c!itdBw<?f
zX5mmd<4`s41yPzhV~}Fv?=_m7gyyMiUfTc>hbj?k%$eA_6VY7OLN%AQL6*i0Fu_j|
zPF^s1QIQAhDJq(eAX_cVSC|IUAK??66i>-w9O9Vlw)Je|8Z=@Dm2aS$MPCM<ECim;
z2cEtgV2e!ydb2kl=)HC7ZlJH&G_m6KEey;Lyca68bmd#R?s&V3O(Uf9`L~`gHXS3-
z{<roQn-1&H{Qmcb3#~iztvl~{cdj&qijD1y=dR9NnORJh5Y^oaRj{|@pquMUi1yc)
z>XFaCFgQQBxc82?z1TFkvUOWw>tG&!u8ukHrPqtz4U0{8ysg)K*OfcW9-U*~?O>sQ
zJl{XQ)OTvBVWQ-)6K;0k<{{kl#a?Z{(tgMLw2puB)1f~c|Lpju`<EKV*C01+G8}?K
z_nm8e0&y9-Pq+yHguv8Auv~%-Y6v%C<=_Jb&61;_zlOia*{pDuLXV-W;XiWre@`jc
z1^ObY;6dQx7+vFSiPIrIe)UVJs-0U7spaKbF_2<Aj($j0qNf~eT(Ak$P5TXVfe>3k
zIBJwy@f2*ah9islEt<;La-=a5*F93oV~?S;oNIO5mO~Iy(xaGc43l-RcFip%z-n-U
z6xTe41u@_hA2|y_5%jYz%>(8q0kK{pB4To4m~2wB!%IVB%wUNV6A_5GIIvutX@(*C
zQ+p>hTHsY)qg2fkNhVZjDxFL#A5a=KT^+~xRm>+8^1|RQaObka>#1o9CnF++god$D
zI6eyR7Y;0-07k!iP)@?zL^;sChT92Pta2JE2+o??7Wum!d+s*vUGnW+YTA3x*Kw`m
z`nlWVpYQ&{H*znuu@LIdhx%`Ke6s!H?Vogh-1*yQ3Iiwe11FaU#tQ=z`GJY$ftQy<
zugneo<VdlpdG465B5Op7=!Py*&PU><?=DgxP(-_+=vq-DGKyL6Cj(8d%VOcJ>NG*M
z93j<;h^mCeoEITAXmN>^qav#Zo)f56yjF|Pw}sAz`+yPdhl=&!=LuXEDtv%6Uw}%p
zfwSo(EfQGcLDIFs5;h{89C?R|<o$q$U~pY&QvR>fq>PifIH(>cO<(v97DF2@zw*v2
zh0ykVX!~-gvk=;m5AC>lxX^Vl-*s>~^a2qfUEq51p`KgRN6rtO%b|U11xpK>UNLe8
z+?c-MHL^x5ts!dwT!vejKp#+}_(^De>rh;SG9RB5_ygIa|D$$Uj9!Cjbay+8J{!^%
z0Srn5S5ZDaouIiuqqzj68VIE55cqNuAme9Ab%<0)Ene`<GhKJvW0gJo?0>b3?~!>%
zpqfPwY1$on=ySM3r3U2o7hG+5SKFd^?ewqS_{AHyM((;^EV_J;?_Ju~_wkM|Tu1cH
z;}?OgMo&t-5;6S&bRa}xEZtfDTsH`yI(qloYKDgXvhr2Na+IZ1uLI8+$Bc8PZl(^x
z_39Z+^ch#q7AyOo3J-yT{_<0*x}T&?EblhsUIz=j+$NNxYk4lgNW4&4;4|Za9n|nh
zId^#n;CN=-GhVgq(`r4!a_*cX=Y;ucnH_J=1;)`dh%>&N{RhFEFBYoo$$}s}Aj$y+
zOsKEcspLEshVB&~d;`VsicXE<HTxuYPOG2f%wUz+8i+K@ZHU~pdY)60XGK#n6|G^C
zBYFz?FGE!o)~h+e=|S#GYvjo5+tg-VFBE(XR;SfL1WWQJkToG6+ykAMY{)Qq0n6lF
z=;iykcpP^VBAOQjj`de55s^JSMyjU>f*o{@REkD%n)3pz3qX3B+aqXh5-l53dProi
zTNTK<7~WqYH%N4_T#Q76pHHRajOBONkE7S1y#c(G-$ONvN<QQdE}WP@F-H|!+6pbZ
z@-4e=g_c|P&DYP_=O!+7TpBM1Hxz=M`C#Xqb0yHQkeSacHZG1|ef7$#*G^q|Z8^Zs
z(Z%M_<)iN$T|BgS>eBGFAtM&PJ)YlsaB0g>zIkZQy|Veqs|T(exW09Ha}Q);=IFWD
zy<l@8xHTW#TC8s@HZ&DCw-;MBU2VP6THL&?*tX>>e_f+z&RJ?izJ?|5=Ay5WEOU{*
z>uXyHgcjbMe{)e<4s<TLIt?v94*Ox7NOp_ZG>+3e90$p!H25M;^Kl%cm}Fx_&mL)B
zJ&6U0)-y>#vqMaTJAeZw4jCR)X?U4{%}6F?&90~z_mVN<_B2}}p*cr%#`q-ZaGn+u
zN)qEK((s$fv4|+k9HeS7QDxl+zMx+iCW#NdB7R)?4OCxWL|@tLj#Cso1f0Q=jdC<z
z+xrl~XVq?Xl$<)$>DaW?zPp6rdrQ3i(x+QKr$2jUX>d6I+{i=HX%YZb3R8`aqtvZu
zKkECi@1uhs9$ZDFUD}1Vv43-Ka<D6b=7s6`>4oplf4}5_Hq77)k~dAMj<j3|#^rf=
z@pQhvqeKW`b)LXN>wN1!ywEbvoNR_|G|q)4={-zLrJ*7FNV|J&y06<v_jOmN`?`%t
zSMSoJ24X?A{_jeiRwY?67;-vnBsAM<(d+t6GV7JVMyuBmtvtG7yu2IqPNIQkLS26+
zV-mpW0%F{v?#{`Z)KEp&pdoGtFfqHt$|*acD%mNDTJ<2x{};67J{rD{#{Ps(-A6m_
XBlfT8;8)HlMX`&Cze9eVGLH3MTy+Za

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/dynamic_4bit.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/dynamic_4bit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f093838d917730520e3545711fe613f16c9a814
GIT binary patch
literal 5547
zcmb_gU2GHC6}~g$@$Wc}6DK4T!Vm()?2-@&e=U?ofgqM7OCWTM+0|&`8Iv*NAMT7H
zb{*JCtmLQ<ArF;<c2|U|60GP$kXB;Vr)|3rTlFO-t!#~`id3qKH!n%0YG2xO$99|q
zhgGXyjqW}7-gD1A_vf7N-1(#1?L?4N%g>cD4?=$<l}cjE#8Lo=ERv8!sVG27TBRa%
zfTjq|s7%BXuteAZYt}8QHDU|cfMzADYLD0h_J||kpb(8tBgu9fNp{)(h$+bqIFpp$
z@sd=A{gmOwa$FUIvJe-s7?E`u`)R|~A5Zk*;P|O%B4X4B6Bx@;T>w5k6vGi1#c4rN
z6|tZv<FfXW0$DJsZs^>g5|u@KR>o0TH5x1RK`|-g{#Z1mTnUzxDCLfFWr+s~StO$X
zC7}Q<GhzE`wi11X3b3+OqGVf$mgw7-M`f0P9a<UL0X<IHC3BJ`WkV=Lw?co&BC)GD
z-I7(V3%9*4JIue{2D8|1TLNAOl3f4IIN0mDaL4QNB*zBrroNzk%~2t{<h;!W8j}`3
zXKXr|jEWH@*gK}^Yj)a-Wj%qTL2?kQ6FKrF3uIXYhfWV;*ctR0f&*lNs-_Wk{#&hE
zkHov<N_?*_;w!SgcOr54=#i_3<!)6O>y9V&@mRF`x~fLHBQZ%<1$jaaCiEEYR>`qy
z-PaOgR98}>t^nUv^XRqih%zBdLLAFMMI-G}Nppdy-W5+84KR@qQKCXnjEiH6s_4no
zo(-1Q^*XN?G}nl+e2AWV>X(2(1{E9*(u67}E0pF2j6-V{=_{KPUd>fzuG}V#N>XVm
zO!jPDN~185xGr6%uvelbruLYR(Wi8XzOZ`k8aKN#w{H3cGC`PIHw{#;b|Qq^V4k|y
z`}F!sTezV@Rm%_sT2e_1jP+GpE0n|%OM$-TN=vm&!HOmJ>S36<9ad?r&Gj+(m^aCW
ze*35F|8*aBInb&#w^TK*P~puLs#=D(ROt#eNhe)N*AAqwc!dsxTfvjkl4I2je1*SS
z!m6B~G9fxhUqTnq4K%@ALN_QsH|(beQcdqh)g<44?jo;fyq1W^V_27^fz+mp(Ulr+
z8V*lfC{M=xV1w(=$D({6j__E%mQb*)@dIj1)DP_E#h|WSH_cAN<VvTw(>Ruh^O};9
z`Oef~KQG0AJsQ(_`MOLLl9cO;B=h>X%!6kilQAC)@k%tF(D{%of(rrmPJ{BN?B|lB
zF#rHQ)mIf#)|?l>m<3aLAtLILgj%v{{!CQUMOEcRJ}Tb;+1J54fbIL~(P6(A6KgfB
ziY5f(3Bz?mR<4ZeCVm)A7cQPV_wM=8QzwOyi+#hR!sw-Qr!E*iV)no+h@gm~%R!<a
zCYEV1edmV^JFLGXfCX<995-yC(#9CxP(oFO@)X**7?%y_6|yw~*&2h1#Wlks>T=X*
zuDuqcu20voGM3QgQy9mv;Sz-MY6QX0V1R9e8;K^Apb;O#^E@UtXt;x7R8S&uRgM5;
zrgm;{rd?~;nqZ{12mI5A=!Iun-m@#`+4Uz+XQ8pD;Nqr_PaU6Q^8C>pe6FK~#+HRG
z2j=^p3_Tv2Ke4d6f1$B|f$M+4ZOL;zIj(1sJMj5WpWJ$U>nS%-sP|@_GtL+FO<DJh
zyU5VKx^Ec9TUT@<-%luzop-h6Ty3-0a<1)jeGdlj59VC^=KG$y4nD7MDl|aHz4YDm
zY_y2zy}swZro3-=&bRv^mGkXcXngBoPm!g)T}77l)fExzu3P31XyMuiLKa>7Kfn4U
z_Bi&`b*f0)-3>2%t=Tg(XR^aH!+GD)obTuz>YF-LzxiLwZsco!1;ZPj`&tXlZJ#9a
z+xF$Q?OSN;DI#kBX$tZt$XQEE!z*O*HWV4){Z=D>?)UzVlOFVyXWPjh=Bs@a<OXYk
z(i$8fQHF^Fvyf*I_;F}hpC)OY@R%u00Z$DCcvQxXNhZyN36ic$67{HzF@yu+H1rWf
zDo`>XfuA5=7Ge{aWu?!I<tlw7Y6({&qE(XLj0!6=TGr`b10`1UXVY|e1u?2qO<L1d
z=&6AqC5$i;NKLcfp=Aw>S<#Y((VMC>Rw&6T(W|th!Zkel&xQeGYPA3F+N3FA1!tq%
zzH?nQ5T&}VRi{(~WopKp+bgTDmT60xt-Z=OpUeiQX5P6+<)~%SrthfCw9yS;wTg}k
zZ?z2XuF@4MZIf)jwpY%s^2VT$?qA^`)>Pv*N~p@6M1IHcOA;EH5$a1~XfKHcnz;7z
z-;f3%XmwX0P`H9c$=_sHgXW{cumMzv;IR$+4dI#qF)}!LQIZTAfPox`!6uZbeuQ*u
zW;fnOTASg`qbnqCT>}<)E9tacSL7RpWlRw@!#-w0OV1(9Ll-6|XMArJbi~ErRTBiu
zaxn2F1|5wWj&qe~m0{CLO8V`FMU&MKCfiv;5jPP4@p1{W49?URUSy=vu#&fytQpQR
zH3rj|5Juh5$Zi4bn5l$4TjMwulr^m^MiaykJm&-eMM;TXNgdn>i{3cw5KN;bO>8P~
z_0wmk&St1*E!*bUIsL)p{mI3agBf?BWoN#{pKI|y+`icIwpst>*u(7)J06Za?3f$R
zwRF$-<XU>?Cx3VT4~<{<eBJovd%43yxt5{)rjgvHk!PHj$X#OS7H5WAwxfpD*`_(m
z1NVLRqPHt!Ei^S}-=BFu<1AVc*F5XZxAx>(d*-+2T6>?mdJ9e8%U+tf^sEGOAf&l2
zGXR{;Te6pDF3&a0jVw0p&I}YhzUkCdYQeL!u(kbO;BMgF2X{Ys2B<VNGX#U$8t$;a
zZ~`#GFp&01;@-`>Hy4|_G6Tz2<ZhTgGj(QqcxpJ$9m;Ws3S3KpYbb!)?@YZ@;F=4Z
zJI{6GxQ@Az9JhOIZOLtOJ2TXBJ#uV@5qEmC$7hcJYUhK_`<?mr-dua{{K%K`LVNFG
z``|J|JDf0`qy7$iN6${qOwLJvw!ejmLpG=h3}HA5uEr&D1;|ZX%E0+-h-?<{4uor6
zk|=0jEv?)yQ3R<f7ClL@q81nYnb?fdmRfHjsr2@yQXps2s;^+0>2+4#I8}94=CbK4
z{<xOMsD)W!5{0cx;6rVoSq&W8Kwrju0li@@kIMgLChci^t-VZJD@bqw`7OivZP3W{
zWTyY}yKomY7&Zv6&0v%@3w)4pb(3r#$%vz>`WM_zs>DtC9r!q*O?PpUP~;+%9EW8>
z*e@B5SV9*{q8V_2h85}%(`#hs%N}ASJ{99}HCgcx8^@<>*ggO`+Gmh`h>9F?o7S44
z3ZDAu<WzFDVRq!+dw1WPJAe1`qQ{@H6nstD(=(@M`)AMJ8Jz3OcO1)g9Q$G<*KuND
zM_<m@mvOwPYq}%PjuH!8ta~fNJo7eZTW4CcZ8L3o@1dL*46MGudBBjS2d4(t+SA(F
zlFQoQ%vg&MN;Xg5oVq!yEP6T@?472~_^DyP&#()o#}@>{DG2ZfBcaMba{_t6s01nm
z0TYNcEC3O`m_!(cE2xT^27klGW0Ju@J0?FIFxgLo)e{ii12Dv5s=;VF#=A(Ld3xU`
z4AvoY65MZAM&+m$!+4PJ5EL{uGyOGokt)eZyY?H%Zll6he|~FMZfn=VmhJ^h>vOig
zNK>qL?!YSq#S(+8Ub6ul9HH9S&1Rqs<-GjG$uD<&ZTan<g=2%cLqo3+G?oVdRs0dP
zlYM*s;FBYdk32c?_{0)|YVpSu+Ufts(ZKqjgMXZunwY*db*soio%mYs^s%X9MH{Kv
z5%jB5>g;H)ZhMgo0AK0!OmCUmvh0FdX<1}3aNAAD-AjHMb*=qn)K&Ur)MY*%%fF1e
z61t*lCB&>V$5j3^YUX3F^l+><dsh8*G|vp1Ap<#<(q^vRV8ec_blyM2mw^R*B+@z{
mD>4*CEjbb8{yRGRS9Ihr$o~&?V%aKElz%q*Pee*{J^umOt+y5c

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/exllama.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/exllama.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b31dc7d7ec08b498e61a4cb964791a9b0e4168a
GIT binary patch
literal 7644
zcmb_hZEO=sn(l6Y+wC}sZCFSGodgohM=~M65QZJdK!BM^vM>a=%kHYT<8B9s_6OB%
zNGy9MJ3<;~ccp-Is~GLB$Vj)EAdrUnHSGPl-Cu`vf83Ld9JM$p(%tFAKi`DCJMEvl
zx2oN-6B=|QZON*x?|Q51t>=B-@<03iUJ8P2|7CpW2Nd<MIAaD!HL)Ip!~!K!A}v$n
z_{+$2f*H5bIBk>d3CFmDr0udZ;Tm@(+~aPNcgUWEcianUr|6P>3E#Lc!H%;u#Zc!d
z(S3&!J(BN{&6sE0KSM{nFK}iwLhC+0no-nLf={It$Z}~RdV{~25t3>=D~bFqLC#1D
zA5W?&9Q7ZLFnZH_f+F1-9v-<UAR!^C64JwI2_-VB#HVo)FAFoNjLO4!tP&Mu0rBcg
zT2fxnFewbsFmiD?o|FXip@fo>tOw2furMQ`GpS@OJ{dKnHDXUSvwjRlSfC_ooEE8Z
zMzT%0>zf&AC?%V{xn`0XcS<gimfSH$WbW7>RjbE6P->IBP~($W$uHWoE{cjVJD@&h
z7aesi8$_oRnBq2%i*r*Qua?0qt~>VeW)CI$zE3~V4Rdt8IvyOMbvcn2q_?b%xkc|C
z$9QPQ9%1$1(6lTI31QRTJCUSjP%?^-raoY8S+_&9K!Lt6qc2WE`XL2JYKzK>f}3-H
zN%pFVbZ<JIKBNk0Qc@31XWkw-e&cPaSB_8grf1aasbudhSx)pOQlcdD(zF!Ks43J7
z3L+t;x2k7?8i#f_h%zX>iTE@qUK&Z!xPr?iL+YONjNS}$@QHYmj|ypFA}+_(nQWKE
zs(M~+w+#eV@Ku|o)&foIkf3xrIvQngsv4Z|CF@=zYL=s?%$m9{;-I{~SG7*0vC2Rl
z-n1>jsJrntMIm~Ic};&C?l0P*7R#|ESSflIq{u>Bk*<#HfW8*0ud?P~Qw?US_O14H
zTF;xKrW$K)&D1R#?Gjz0+q%zh0B@}O{f7FTJ;q#q<1WFN&E`C{Z{0dOU}mp%E11~_
zHLpDZsAqrYz!J>(BMqYnA7g|$myHibRSrohBuXfroaCYzgruY@&v40<$|;$2I)zk8
z<R)ggs<s{EZeN#@oO)g2;>mPI<zkWm_efGW0Z9O&NR4BqhCV_Rr4)q|rCaf+q#z7f
zFSzQw%8xSYrp^h#Vs1j>1TK-0)p%N#xKxbHf^nIP2~oH`+`j(9TrZc*B>0KAszf*?
z1x*B%yDf21A<0EkAbk`|PdZ^4vl2>i=@cNig4Y|Vu7XP?p;dK#3Kx@8g4%ZsL{{Us
z$fZ=yW!X#E7;qTCxqaEb$Q!n#wowG`@m8GRvg~=3%A`33><J9;c7zjCuuXVlrCSo7
zUyR?1ixOEStZ70*c+FdOb)Qa0BFxxm#H)L*3kpBU$Hi%V+r~!ox25>xb(L4H3u#Gj
zie+SZbCIvw086HOurOrvbT=%PSSQ^9TN}NuyQ;gOhc92bc=1OcjSZdUFI^cN9plIT
z_TtcG-8+ew!{ZSm3~GXtL}7>&tV<k+u<q)9I0inRfa6Pm8fDw9AZk;Sop=N%pbnsu
zkDY(#7w;7N$}Rm`OaGHWt>xI$_VS4l?Zn74K|68ro0f|e#t~|$G*GO+?CaEgor{B-
zuWPB}3H`PID}VW|^BVm2pVxdBo(+EE8>zLPKQVXWx8VnE_uIblb*%=6@LWHf`{AOk
z%nfMp^9`&uhF6<+6>mPs-_I9Q6^icZTMKS02M=n&gQey}6$jJQTXEpoDTm(_VVCBE
zE}E}>aqx@b&xbYNTTfu#qZ?!8?&pfh3dI}>t%btnP`4K9UZS<o{!;M3QXd|&XVZ|4
zJ5dPlqJvn8O$d!|4?*ac5PwE}Mt|mApyntmoc@J(&TEC!cWK2b(sLBQf#E6`d?U<3
zxfRkrs<yR4*E|FBY#^*T5}-1n5Kw1<xfr?gw%7C{b|7zuS_|Zz3f5*YQzn%`gDTcU
z5~i@d+Y)lN9H8%O#syZoHHfw>SQ8bW1qoAFOSgm^^Vt5Vinn=3(x<kW4MfMIDyR6A
zR(G4FIfwQ9qV2KMWT<(E+HSTdCt`u;by9VhZEN4Dy|uKN$~i>WW4C#d=3F!d@>tL<
z)Gm7NP<bclL&O}R_9as7ujS2DZetBJm5hpB(6Wsa`Ti2uo#sJvhT2#3)s5IwD>qZ0
z;FH031w#GG^R6wsYqbuS*^{OU-U3~qVm6Vz<IcMa-WV<VA?10)&RCH0oVzyS8+yKF
z$Xg%hJhh%P6j*KDc@vv6g;;N5Pr;>dhy>W3hMCR&evo^M7`;Qp=y7qw;M5FM&60Cs
z25e6XOzuQx63h;<Ln#!Wj3)(|JAZNP5*NKLMQ<1b#Zo8%mR6Po5fcUICmHmVGw3TP
zh@_$qS8cJpFcV=H@nlQ_dJ&a?Onb432D&T86Xzi7N7Btq9B2eTi3D*IDaS{NFMrid
zRI8T@ypIhat8H73GB4kh>0Z_<DRm=lMK#Tym#K&JXvB{2-PK*d?-d|HI-{m^8}JAa
zmYz1;0K?`rsYpmFcz^iYhI!5oTiLxdN&yd2s@7TIg%~)HJTMQuZ#^gF6gZ5^yFIUr
z76UO9eAj2Gmrm*jZ43E(`Nd1i+q=u#_iNktKR){9z{7#%?MF+EN2}(8aD)g=^kmak
zVt!4wvK2P**R}<!wwXCf-PleOD-`Af>Qj2oVZ|$FNnM=<v0Jw@$I8>H>C93&VD2I#
z(vNK>g3?fCWn-rNAn}%9qJExH17?+##mIrbF=w;l)KeSCZuY0B+Fi>5OODtLj%?gA
zo9-d33@fYd1qUCfD^4SfkP)Bm1%EB6r~+s<!dj>MKoNkZ@kw|k&|Tn@395<^-hJIJ
z3aX%cqbYc2n9QUyif)4k2%Viwt2cqfWnwW|LaopeVS^HJB8&{^Fz)J{=5aT|y3ih6
zVpk+Nrr>coj+>pGt&*^M6}p+d@K;jCn+nXM%s})%v()ooTTxhPKfDs`FR}flVE<}x
zdpX#t1v^W@-V)mj@$*niacJ>KxwBvE>|YKYDGdD^+rHSobo1$@XMNwYBdg(U3s>)5
zEr+|baMyBpU*X(yHc)0;HMX^Qb@9s5;Flv0N6H7!Xa~=%uxD3;I|?I2zc*<#-fp7N
z{{V?!)Bit>RyUx*&_vL~s=Xk3i1%|#nA*_YT7{{HIf}3L1}~VJ^3__HsX5w;CxMl!
zLK*0rqh8+_bOgGhqY%L@?#3S%I);m|;6#tm08X925jKHn7ev6yiL%sKxs^gFe>H_r
z@-V6LK15au@!UM@Z`o6?9QEL@&aDPR3rFr9DGCp!?oZu4vK)+**a$h`$PV2JiVkmK
zx(^#X-tgaa&uu=NCU*)Qhe>t!ZT_Z_-3M8ONgBd9Nv@CX#@^CITu=-gw`0#px8nlc
zK_2w<;Al#H-}F@^aR?#sA2H?9U5asKbtakAJsYom2tQQljePBXkyk$i&l^D6r9@ht
zLA^K)k|{*8h!4FB1?09OET!%wUKCt-{7z{4&bq@e?0vX}j|^m35_Agp9>ftjRjgb;
z`x#tz5>6ZUz3q*bCENGC??0YT`7J2tUuLOQwsHQ$xep6;#Yr_b&F6oaUv1l4IQy&7
z=i%1kmBq7PjC?+_96nqQ4`|_m!Z|qUa`=!IKC~ogVep2&9{y@r3!jFHmexAIt}wh7
zXq?Z_<;#J+T43)=p!;P5wPV)<?|tuTxTW}$QfU8bD7-LoZ=@XR(n4KJP2e>>-?{t2
zf%^wmTiRcG96OrtIiSz>{T0R*=GJYF?aknsH8sCvsqoP!SDp_3<H#RIN>{I~g#M;5
z^qdW@Hiqx23m@P6`0q1cOn*LI?jF#(2cGVImML`)EO%ddX=A{vbAw}vebDdhHvh4T
zm-082*>(*SdGAuF92w9e1EqI{0lL<9cNNaAu&r34efRg3cOKMs9(>*yUhv)X70*6)
zeCc`UdD^woI9R%LwPK@M4y{v6OGDv9u;2dB-J#-<a?1g&<-pR9SJ;97vb#MyUxw_S
z{ovPn{AG8W=58xWi(_B>^z)xS8Ch|^x9VoMmVWDgk6abw!e4;%iq`uI;Jp~$;@`m`
zE?`uGf~_HM&oNUQ$W^NqX(+EBty*Qg<!#t=$7@=FZQn`d>{bNJ@C;*g7DmiFK`IMW
z&Cw<*{sd&myYj%e^Ip-G_vJjZt`Fdy(8S$O>7198IBF&82KrhdZqAW&<vcle&MP`|
zK9JGEL$zWOkE*;r&*p4DZ_2S&zG%*7$_+Mzwc1zkk>E6N0K9jNzW84VgkPM?c8=Gc
zsmME8l?~TFyk$F#=cIU2l%_GSw`emK@uK%&0^J2nnmh<O$cJE~-pu3I;p%e`K`sTo
zgIjwD`IwXvi5m0J?Lg@Hh`$cMh;hNXMzBb?PxFUG-Ggz=n9BxutV5*ec8t`zt4fD;
ze@2n`TZehWhtQn{gHkZJt0I~4snQoAot9@znr!`sw5iEwFpg4&XqKw5aAys?!T>Wf
zH&bjbUV3ot{<X!A?*Di>5GmL(uAIMjzIdki(cR(2!SbGy+Mbh7FKK&Dl{yEt&|tx{
z*3nh&7|=QZ9+o>!Ywq0zTjBEEJw+EF!j4@9|5_ke3hXYq&z0KGEkhjGy&Bk73Urj*
z7fO3BEJGaVc-|CRXuH=2=y|vEu3Egj*u8Y*N!uUkfAasyUp{?JJAG~4#x#2iPK-H?
zC11-b+l=Kd+E>`N)j)Xu<GGKE@#Vn2l6#+V)3GNU3F~g27#5z_y*v+pE@Wg0(kzev
zx{@*9<avajb#zw-tlW`_<GKeYj!*O*K91UPg)b@#iUNOMT~CR`Tp>)L5XKC63e3RU
z9hk{fO4e-(kk(FIhdm)Qj2k#d$du>`$&5)!@Qsj!s~d5Ii8VPzgdc`TgdYl(XAs??
zR@)-wwmz+`@5#w>|NC11`=!<oO7<PF1<s}lLpz!m`@f^$vu-mB!06zrJ&v8FU40b_
zzE7m5XaCsw%>JkSrIW+jv61g^VYLIKD#P?y+Hr<{a`fxtUmgGY)K{n0DN;}wW2n86
z|Mcv1MAibK`RTdo`A_CPsW>1Hldw(mC+AL9TsY^ZpkAJni(^_tdj)rZbN2@3TjyF|
z`XFa460a}PP~{f*pB{vv)VNOrIN!7RpPwG%pP!!ke|~y0YFt)~BA%oT`q5_9pIlh{
zpJR;#>W!pf-9L@w=n;lha-PO1Y(5#?ebP{ycTon~VMtQ2ZdGhFO|N??+W+rV=bssd
fX8zkr(U<9ep(6i5oqFlK$k35u&z~v$C0p=+x1{D4

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/machete.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/machete.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f1a185bd7e496a0bece6040c58356a0340ce029e
GIT binary patch
literal 7850
zcmb_hdu&r@mcRG<`fVq197BO5bxI1DM?wgN5J({qUWH_NbX&>W(VZLL8*sRO<h$1p
zyLN}&Wz~co36N%#pxIT^(MW}X5#cWwX{Ca+5|#F!xS_Ij#Y#x+YQ=w^LU&fXEA5_h
zAGVX;(sp(}$>04R=R4o)oZmU;^S}809tx7g{(by!S5nlMSTU2`C_KLmg&9hq1X`jJ
zbd;vC%t%a>fv-)nCD^E4Yhxux!WnfYTv1oT9d&DMcFB|QM!gAN)Th-Ql0VT9ZAdgm
z8@0MqYDxs60Vul!x73_yjy5NP(I8DR)L}~ST%rW8*nG>TuO-@&Wg@<3Sc%Z8GtCnv
z&PyXu_Hwa|tfUfLDlJEBYHRGQ7(2%$c=#$JCuh>>6j5YOKFg;?b?rn(B-!P?qQIRY
zsZ5%a<2h0OZlZ|{pHw&{n-=8=qlVKwOr*8JFo8SIOBqq-;z=ciS?@OWwM_E+Xn;>(
zKQD{tj~^dC!4p0KizaF)Es{hAmJj>n6P(0nQyGPW%{Ij{gov<+w8Sf8DUx_b<B2e8
z!|;jY@ubL;V<Jh4k{UGY$N8*C4y2M}@iQ^~DD~WJRGvG4!we--QCgs)jA#>RksV_M
z<`R3$Ac@+c)h0Ti$0@o*x4`C{6g9@Ig8ng9u-8#~1c&Gyf5jMB_ZeSZS22n(i}Mm2
zZE(X)|Cn)t3+8D5Hb24r9qrnBVfB`y##|t4_GnX<jric$bh%k_mJT8+8Ip|QQP(FF
z&F3s+GgOw2FeA^RP`-)sX^Tm+jO5|}N_H!Wbay(Q-lFj2jHqmx%<SCNcW$THEyYK>
z(^=(gD%pKrk`mpClpso+I4Q<5N{V#DrHe%FHsp&};y`y!yIi?D5uXHsOA|2`m$BWD
z_O5hRZH76xL_EpG_%uHnm*Pq`x6Wc$UEij|`;<}lFH%n%1J9vAsdQ{4#$d@vaPgG3
z?^bA?p_J;GjMq~c#HIkrbe688#3Ngl1m>2(321G3dfc&$0IDPm?XGXP3oI@i`ZPdW
z+OPMW+X<uTtQ}~4OZ%~=G@5PD-(;3+Uvp*WX|i5$2u^D*zXBNhp`3n2{UfN@X<T!2
zZ633vgv=83uQ1EC@3Qr{t+~K@JU^6^xgG@%QcJ+|WhZUb=f%Od3@JEGMSLR>=1{KP
z5WR3JDP_Y38jAu{!w3FyXppqPAf(%7(h+eY6DOh^j-?W5fWUA~j>D<3@UE@l4M$RG
zz{d!|xo~WJFs6iwm?DBm;>j~%10!L+WJ;-<b2J+^X4xFRa8^u)m9t_vo`hM#V<HbK
z4zuz^1Y8H>g8ByQ<YOcy%V9x0ACHOhp`7m|+JG?HfbfP~Pvj+2)HbVG3}oFO&iM|b
zr3s^@0R}sN7z52ZX=Ah%_J@fd_wFYs&Z;vmgAEjTwFL_LO6#;=b)V&B?hF?fCe;<y
zt#KE`_?fecVHN{p8A)2&<TVIz?F6-6_2xv9;?gOwZL;dA8BBt@s=D}?ZW;+9NQ5CM
zxdc&P#(N5f33wTl>W}eBE}lqBVgk%quEPqMmXNd|2QPrbMe2ovY6_Pc*B2YtKW>ba
zgZ*DMzFKPBUToYxf9i2#UpYAP)a$#l`||GDp3<7$;+o$1!Qz@7_d81c!^QsL&-h~h
ziO<)Zs4(`HhDrnF^IsX59(Wu+@L=%K@WbK7@TsEr)YGO=xw(CI;-kX#!fdKS(Oo@X
z1$WF(+$-EIECvrQG#{$inZOacVn-&F-EVN(Gri~WtNS1HJnDbgzxe7%(K}M*l)s*z
zO#-JaJ9SREySc^S{)OfP$mw7mrxy)W)8?|zU-ESpeVubBi@x<Y0;R}cF*5j|qZk=_
zZeyA}6^e0t2&$TD*DS;mbjF*|(D~PJ<{wfY(jVGCbj(oG)Hrl3PnYe}b}Q5-p8~xF
zMqgy!qW*?fP!_agg%FC@?472qxtIuHqS!b}^0K5<(SN*QSr=5zk(V7)jxk!GFS({E
zu8K&oCo4>?aYV#fmg?rSz}qqAJVo9Bz7}qcpgBQ;EeHGs=G+FfQpy^Wz0zuytlX7p
z$8FX;jrtu-*<oJ{xK*wKBRDQm1sk-`Q`DFZ+$C3mg>&sN`PRPLdB0Yxo25Ksy3jPr
z!FP@9H0f*Kysd7eeSBT5$1IWdmvDr$Sf281jboO|QW4k45~m79HweGycniOzXQ({J
z8`R%1)3okwo~CZnBLwXuxV-eF%A%jF<I6=IUtD`6J~1lrZ{`kIK}(vX0LEnl>ST@|
z19zK~QoI0$qic_pit&>CCKPlg$6+QJ1@u2JQgi%o=^NW`IDb8^sh?(jo}t)9XtD`D
zOLl_drtRc&K(1dh^^Q`WQV<ZeWM03ltCkse;l62s5$M~tTZSUS<=HHqq9cmw$-^is
z7YN2#I6c6-dKm>ePfxS@N$claVCq~M=KDG1DXzM9C1CE(N)fHsI9_#m%(0;6MsXbN
z#<EoHd&xLhwS~f3@5P$-w%t7a`u*i8aBdtU+Wl*0_@+&DYhDB=#1pCqA~o<R^fE?&
z;HX3UO`2?jO+bL^;I#-+b&TrYfMH2N@*sLda~tui9`Ngvvce~0B0;y7Ag&UOc?e#&
z$_hM$6R6AtMNqXt@T&$AM$ij^ffje}S7}A{#8OEmekPO3$ON@KVkaAMh-Z@1!&6aE
z9g`etl4h<oVb;Qca5#L?P%FPe_@s;hCwGCH$Q}8A=++WWZ^KIDe}W7Y>`Aa~mVex_
z?QyVo!PmPG?0w?vnCrMPasT9JJzw~S%Z*J}-oO0*leWDN=tqu+j`F_2NB)QY^0DJD
z>`eOzebrNOP^&xVhJM>IceuD}^Hs-_RlDx5EBEjIbj$Czln)*PveifEtMo4%;7F`k
zRSIn^hBn^lxwGTujyruf`)>7@Htj2J+PAoAe`(WDansP^rbFdzz4tcW-H4wpcej)W
z-uyKB`{)a&ZN*V~YVhZWDlV!eG<8J7gC**Z%Al$LB`Ex9$`7iKa0rP;#je^fy$$p6
zs^Zt$OvM0!HAX{ZgaXUf2`o5gTVV+4fefSpf+MO<$ojCl2fJuZQ1m#~@ZRb#PyVxs
zfh@vwGEV$5Dfq&-w;WnA^Uk$*N}+Yd(7MIY2E2rFu*K>MstCLT5!m*pU4p>WBXG_2
zfeS&kTb2MttU^$x9%+@TyEDy#OJU{S7}mjR25<=Mc_s(q1p!(WXKTyIGgg>uI!rk3
zWk?G`V^|wQXzEdpbi*{H7qT<@e3efl-sQ4`5=k@xLTFN*@W#L^3Q=7bIGIbr<Ce-O
zDb+4$L4_t`4o$|$0Fv8)N{1lyHB?p>r7;=rQ3E0ai5lufFqh69{WC#PE`1JWl0Sg#
z`?2WBs@>(Lz>MRXW0wBNf89Ud@xsQeZkT!tkR`Z!_Vu}zPuf0iTWszwHE%CAZ=X8w
zbj9k~)7Qr5-uh(t<Kg+W_ab*Ai=BIlD+WrTqs7qC#n7>(q8tgS4!~`Aw9`Oe^<Lo4
zKmezop&g!wVrNw+yeG-<wn+}an#n=PR2#%*dL*X7Il{f_90T`8>Di&WMvW4A6$c<b
zkX=aOLt=bwjHM)5ZQ^PttUW*C?M-MilOY^~PNwR<z~$0fW5h|0U^Cts*^AjAW=Ao@
z@K3iV7&ZL#r*M(`_UTa4_EJ|Y*Yl&V^$^S;{|{vUeUU2rnywt1J~l;{^?<M(Tv-aP
zEe6*v1iKe}-H<;CzA`g#ZQwU6Z-nOA($;;&t@{=`1|cvj1rHX32me`o6n_|B44#-8
z`m%NF)X>j|!MFsPXFS(D|B%7p@V0m-c{91tK2U5LD7S=4Et`uin{S*fwsg;T6kB@d
zCq8fK`zpNtwym_GuehP_zVbLcbd~*u{~NZ^9s2q;)*bo}pW7X(yh6GCC0AR~)ix{6
zz5U5gKK{x4@MG8hvdd@H3cDG&JOH~Z`8tYV9bdoEa;N=f`~CJWd`Bua%C|~)O*Q+@
zj>dU8R#j*?7=$dm_2-`fB%*UY4wdDpz(RY~cGP<Fv<V~c0ndWH;3zl?E&v<=mE}pG
zp&b=>SrX{_H==_3JE*|<T}|a#D*)8vtuZ<WoC_YHu>f2WfE`p}wzh=4+uQ-n%vwP&
zVe`(5EJnEkRd9ZfBkRuFfr~{nnRn(L&|?uvf-x~prQprm{yLENj^lwWOAvR#{a^yi
z@3lJLyvL-_Ec>(ng`~d-IaHcgZKK=-c>~6){!!zP4Sc$h)dsUFYtE+XtJdK)3SN`m
z!ZFPpz6=|$KN<kYsuP~ZwEs`++D8Wv%^Up-7@{G94kaGb1x+M$?{qD)WO+g0BECAD
zKnW%9Vulcb$Ui|2Yov%PD$S|vB)3ga-T1$UKD9%4tYr*l07t6H@J#r0TFRPno%OrY
z5|TWykxP(Wq$)njA29HuHC$@#Ew=W~A6#thFS=Gu*``ik?VP2bg7=x7&dxT^p8V+D
z>+jB;y8c&-jgcu9bbsdXwZpRqW=~x`J~vnbQ19Gx|75Xq@50)_V$0x^+jx@#2tvS_
zYgr7gn;ODK)a2mG1pp-<;L_Ts!Ie`(Uj<rb+OM_Gb(TBVm)CFjr0{W}+_kOTy{){Z
z>&|;O-+SS;H}9Tu;PX|}f_F{X*Np3)Wgq+6o;HTAd@%jNY<#hC!-8vrjsy|dU?iZr
zI1Q>fPW5mc{Lhe)L@4_>{P#*iy9_mNOyXr3{(m}~637UQBN#prd>mKpN(Nr+RCY9#
zl2n_l5b`?qVR)=E$)xHS)_9V4u)*=Rm;}2-5M8ubU0(`@aRhx9EkoY&?;yKGmF-Ox
zhPF4)^?psk=edn?1hfW#Tr9n2_bjycR4Dk)i}!~fto@9AxN%|6@#2o*ud&e>0Hw+a
zdb|B7J^#kNzPo+*_TJt5oWgnq{(E>m@&|XjJ@T}%<;vvr<dvUI|Eyw%I!xgUT!GiS
ziW6%t3i_pKY4+`6Lq`P%R6LZY@k;A->kBW`^qt@)z(BjlGRc?%CnD>%R67k8|H>hV
zy1GK_#(LM%zjnIxzjnIn|Jv!wC~-;dGSx?`X)meT>#F_$yX(jC(%5r4Cxm`Ia%{6=
zqNzFl^H_@m)CP^v{GU<Qo|*~ztC~pYH;LhQ?RHhy9$mKHB=189f|!gBM#V<c^fxYw
wZvT?<{TsFRj|@vQf1n`yqsImr^qi*umD=?0)ZQ14{R|zM?fQnoug3cS0M*n3#{d8T

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/marlin.cpython-312.pyc b/model_executor/layers/quantization/kernels/mixed_precision/__pycache__/marlin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4996964a8e726ef37be3b74f065b5bb93463e814
GIT binary patch
literal 12333
zcmb_id2AcknV;c(iliv&a3pzT$p>v6zT(LDZO67G%U9wsP8pgrk}2`>%+QutvQ-Or
zD`ktd)ooYuriGQZ*vO3mJBtP4EEb4^T_6Fre~_UAatAJIv{@|tpIW)d?*6m;eQ#z+
zN*;T+Ku6-6H}Ck~^}XMBy!Wq8r;UOqYWT~@<Q9th9e${fS&1wT(G)d9u@p;3sQ|up
zQ97mz=xL1WqlTC<V2qgprkFWkj#&bhm^EOH*#fqhJz$SH0*;t7;EdG-YGST{E9MTk
zNj*c<6RQo>#=HS9`8G!DV!nWn#7)uqSVN#8));7nZ!>F&HpQ9(O|cb$6(rvpeJR!)
zXpXf6TF5sYZH=uA>u4&*1lmZ7ExIb!9%v_Vd$c3AI<T6ibQHImTk`>o2A{xM*1=ID
zgYs8($T~ScTce#fWMW;{41x8mk9BL8U_CFaU3<+K*r211QmpqH#ny36AL!+_1D)fv
zzy1k+4ESlu9t@`hF%b(Ul7inMHTUm7-FIvtc;?*T;K|cx4<8C1J$>@rVDQYbz~M7e
zV<?%7jt7U6;^km0#786XApE!xFTE7L#Dz!IL?M+-CU{W@3YS7jPI4<{BSLUAIFyP;
zr3NJ>78>P(Tr4R9(O`rflbWhCt|s_VAsGsD!8mtS@+w(Lj*q28E_g8#5+vWUL?IlC
za)RVhk_G66Lb+B+N^^W7m`p_Cq9CohoZ|TLWxeLu;N?^(E(XQ%B#^SF;?RZBU^o#K
z{5r{VAS7^C`uh3@LwqR4i5xHa)E*@<DHsinCsJY%=GGlf@jM5VlF^Vjl;C4fpCQCZ
z1CcZ|btM!{aY7KflfYohW@(ku;0ww;LEZvlHT{EqWd2WZe4L9)UiG^#G|uq{6Y-(Q
zFch<$fmsRhXJI^&17|42%Y%bHdUy_c2UAQskK;k6h{PjeFq#-1hT&PT$I#QOk|mys
z!L-A~nRrf2@$s-u<|z^yAw(WqWaWKKXXrHKXLT8Bq^g)2y?}Z8tRbV%=+aO(Yh-m$
z11PY%G@wP+l%Yk1XDMpLpw_FrGf3G~`Br0h^dBhwLb@YXHNEm?4XlpUsXHQT20Hdi
zt{P*F>K@KoGM0=v4U{sbG>mS<sg|j{#qwN?)KpT{SecSFV;%9Rsg*bM$H<!09*uY_
zIch9p%ox;hWo;ST8Om=?9fZ!<7<dj34MoBc;5Ft77Zwvd@)jdAQY1dyP09d2T;X6>
zGH;$>dU|9=913CSPG;aOhHxJva&g!+%y0kVhfqvS?^Tk!ZG_N%epuK+V%W6G9y=JI
z6u#8Ggid0JAsC?Drra+iqH@*_W*`;2$ngwRL{4L1Zz(M>T$GF92-k7l!`+?CR=?7n
z(}WkRdL)mVW2<_kjsWSZ9m3JcJ$S;vEb~4HZqt&9<*r1++>`%-hsQ;If`Q*A8D%sx
zl3_|F*z9rGAFCi!GF*uOLRnLB0T6{tbCOO>NCudRUdgPWgJkA8Lcnk5o1qThf)(uq
z4&+skETgasaj!{qT%t!MLo6hWN+#h_WC-@0OPOeHEE$TkP{^f@GdRpAQb|Fws0jjc
zGfu1W{CBKJj3s-Lkz|(`;)gl0Yb^E3_TJG~xSnX_Vo!2hyp)LdT!}_wJ+TDKMT6WJ
z7f!)AdjQNhUg%M<C?rOp+$aGXp(hp@16WA%TsR_Nx(u-0$?-B~@`<Yg-wS=|fS>RY
z1QXOkBjxqYTBf@vPLyg_%ydt8f9J%+tCOLU#eHLE-qJd;|FOe)qj9Q#_Eg^9I&o;h
zM7bJ%;=9#+vw3dx{<=?kKJIzgbUa^kyyzUvI|p;8&g9O$mOKAO!5Nr10)-n^7VFpL
z>(|YD3iTT%PC`o4y7_JS#!dIm<{P#b>v!ktcmEUj$;iheh5BO?Cm*|7i>@_!*P6M@
z^KJ8|3a*}_>y^CgmHYJlO$FEPiB})ny%Q%Fq3e`HkI7&d1a1wNp$T#jVhHqY1y-4%
zGP;R65h0p96%fnNA1JBnJF62BHp!y}Wd!0ZYKhAG4qb)<05Sz=^#Ef;&8n2c7y(*C
z)(8MXrvWZm{pdPa4fAn|HGH5H{Vq*%q4xm0n(&q}WB`y=fXbSy`mF(X88d6l=(J#x
zHNl@*rK1If*ixm0S`s0cwIKLHOkdS{?b6ZWSB8c$yl~ctV9)^ZrM=5q0rssZl1304
zmOZTbj#XX9k%ncN@F|u>)=1;CxoS-X%5AB3n0y=VS4}7f;Kn_+gJ2;-^;SmK9GG<*
ze>?Hln_l)~VnPOS8PpDk!j}|KSCKQEh>M{}TwvZNumf!THnX)0a8@CviSJ`On6t7_
zs9+~<>`n$%B4$155^jmNIvEyqrrksWRInY!beaR05CFUdMJR!Esv1P4tlF<?IUx5?
z8G`^)raTD=hAR)ULL<Sm91lueatCt^fO3q1XcD9#!*WBQ*g!<Q#4)54iUXNEHVj#v
zWC;}5R9`XBkb#H@^NBTOlvN0%1TqxnZ8<e4%g?u;Cz@U`lS`+M`R&Ay$T)#KOkFA}
z$^+!vfR}g%17H{`y|E%MVL4JUSX|QGiyRYzSX7K8qcGT^@+$F&#YEQe?GSt7f&f%L
zJsXMnosuCM5k$!-i?%h8C7I+A5jn@N#=3wWkUSiMx!@&}EROiKn5Y+0F@8P9jD!b3
z)a}3;J2A;xUKh!b0{v1lAQwqi<RT*XBm+hz>sU~clya0*<H2eK`jD|)w(+kJ;)HRq
zK0g58hu|lG0f_R3p)8)9x$#k5<4=6EWACmk)cGf^kKDc)$FyVijrq%W$8L{3boWji
z15x3q0m-vx;!vr+VP<%G_&X;j4o&(?_PQHmdHc$_O<&kMa)$G{HRlTu+B+a)){?g~
zAfzmmr*_6PZMq@Oo}KG0xH~6~J%zM-r4f35``taa_uOy0f9ip*u;E~F!}0uv<DYNM
zojR9${f)wgK*9Yc>40a&?7?XliMqT$IyZA+`oi40dz(J${jm3;Z&$u%SJ8PO?>z8e
z(}U3GwFPG%h&&7B@XeY)Ru*mTd0YFuE@x{m*ftbx-FaL0oz&fL-u`C6wsYd(V|&fS
zaeh0@Oc;LUM^%p(Z7^Lk6h{SUmI~-NJxg<jA&@TD%2Fa=gj79ef*dnv;jFA74aWPB
zt_g?@8CYXgNgHe8>{_@tvZCB_Il|Jc0qUE<;H|Mzto=`_Yk_uJ%cRN?*7}@u(q|Zf
zX00I$YXigCJ#GM7xVE2|xYZUGk1d5^qLw@$AgDz|`xy#sYu&&TH1=<kT@{WB0v2av
zHmwESD;NW_IUGucE=HmeaXh{H*=D+*EhYdF0d<85>aoj1mQkX^14}G0w1r4tqGTy6
zD#!>z#j-~g{Q^BsSHx+C)>1>t!U|LkEy0@6U7`6puwnGt`R{_Nk<q<N{S+AL42Wkf
zHAQr&9Rym9Xb)+Z16rm^S(T=UFh(Az<yPaBH)}>FeNLW5$<t6JST#>WvHAd)93HU5
ztOI`Ck#vi^l1w5V9cL6D2*7tD&Kx{<X#bJ4;}rT87?hFBy7VSL6Hka$<t~mhj7*`k
zDwTL4m=MqHVA77GsOU2SSa(2Rn+Abr>l536R1st<GWH`!_-#B6Su%rTCY)kJJZf^1
zz1l-!zsg01FUh_T$wp`ev3VZH&LhJ~_24-WBWM`}mBO-}<Uvo*k|e*LKa15~Bh3(-
zLiR%l$h9DC<xS!YhvLCV4CEG?due4(s<&bHk`h;;vhXViCa9+-%FPsAYxAzP4_*F}
zcl%fMz4twzw0zuBs6RSsFWDW}cTeq}v*+y_9=m;|+Sb|2x3V|0vxx<Y?%rJ5y!&3u
zf}Zy5qZf>Zx|#*b;H+72P!8wyT~oUruH2co?<`l#+|10zp<36rue?3E+KmfFooDlc
z(TLTI&YGt+lzT(T;Ve2j@{W$VQ+dZ)jjxq?$I3Z6?^p$S*ZZdW7Oh6N4eDEM@(wo=
z`%8P1*T52d-}-&q3{~0aMDx|!>`I!J8-+M%a3z;L?^vg-TAN*K^RhItDeAzc&_S*8
zR<4kQjjB^2=esnN(Xbl$Z-Cyev3VzS$EokqqF1FhQm4i$?`3nKK}EHgR4~)j*~<{1
zCA-v`@7N}7Lo}<uX30>&vK29Dg;X7DxMs=fC#{fggqVTEOb|1|n9=TE_VBGR=9SA5
z;ghT+qmgb@Eh3tV|Eg+ERy|vG*_?DdTSA?a=d3g;fXg1SGDD~bE_?2jExW8q+@NM=
zOv4mw`56uNlFEl&YF_27atGL!l{UI7`D$!rlNzhM!QQmpv8&Xx77^7&@;q-I)v|n}
z`11c%He;!p^I8xhsB$iQSO=6+Mn_XGSW~4;b@hzCLjMIdHP#PYf(V`P(9}5PcMd!O
zP@vKmpH(S9)?8g8n3xnAV4d>oVsEEv>^$?viUg~fDp|lRQG&1!xH}i?A^0&39uPdT
zp}wb^qGj#y3^>*X_%o2}*AbIIGN4;bz{y}HWZ1XtiiTnr+0dT!foHqlo#Yc?Q2rHp
zA_PN2;Hm}}b%;g(=B{W0+}gq(h{!bV0bv2R=6_C5bD>|-^IPZ5KO2#?-)i*@H7e5c
z9nh5@>#*k|khJ{KQlJ#fBiIDBaN?IetPW9;e@#@6xSm6OO0R{ptPUL6%IaomD5If*
z@YW1y>tv=uwL&!}3vPEUzl*xNM#_p(rL$^YmX61tGZF(C$q}*ay4Id2?U9U>_j6U7
z%077R$ov_4%D_@9U_@fs`%-bqgFL9DqR&cW{y|kV|5UG{Hq<D4X)^S3L;@+Od(qqg
z(w93A9ycmj-p3hK0Br*myBe%%8=9lw90j9VHq-y^=-}B?)ok6*fzOp?E`<d7e2VCT
zA}5H?--v@z4$ht!a?-|Jy#xfnH;xVo;<H^VfJbGBgY%{^r+5sA!UtX&ID`rVUGN&i
z4|L9u$f2J%GBi%A3z&eaRyUJw5W(~p@T@9$HF#Ne8o(f!bPefXSu4A3A>)z<eGz8n
z32G2TwS0m+`vf=E6Xg5bG=BtMU{4v?kQkB-ai9msj#V>+;+zjaAX&@vA<?2_Lw{9d
zIF(4rUS!FNs;7Jc<sC?f$5b7WV-NE@3=>U%zflGl+gMO_hf9_*r8%N{@*ET+wiIC9
zgn~ZKB?C_%tzIknbnX8OK}!hzJvL<k!~q;ysH5t9Gux)O&Fq}sIoI}uw>{@*&w1NR
zF8B59RCbR3!qxUw%iag{XQoe0rG5K9bAIY9o#=aN)U^)KH*DaZfa*JcxU<x@;g|d8
z+4&>+wk<b~KW<rj>%z?o?|!4$vMt}Tt<cgtZF>yPh?eOVXv5PEDsiiS-gCG9cKtp2
zBj<<C;>M%-jYkVDuimhgymbn}`9t%Eb8VY%9DlT;3zXVT8G4bTU-}jeao@LSpwX~C
z*Lm>4{?Gb9?SHU0clzzz`cR?%V$OXL@*3ObR($cw$%hStldqP1Ek)nDyl-8>w|;W}
z4~~?YTj13XEls}q0{Hz$m?sn*RVoWrIZ;yus~{_a$XnzAF+*3wBoVwCs;t%-pbC1h
zl@*W$rAzZ1aEjJaXzv(QV1ey#9FVsILJ}OfS|jl!904Pv+u$r%iNo2FkvK^GX2}Le
zCUMw!uvvN3Re1zfK7oOV0db;P;Bbx@NQ%%T+`B|(F5z0?&&9Pu3A!L0g8;bpk+)?w
z^ssI7L+_THV@uAv<&mRpu5JGE{Zn5$_LhA0Gp|j*R`jjO`_>eE>&S`&Q*E8zIvct*
za&zRy)`HicbNHWKdc+1IdH2EYz@?uuXh~j>vY>78&5&D0T&Sr$ERlKIHSzE{4q7_M
zk1B>4Da&G&21Ti?@FF&WHZ<g~7Gt2?((J1q<+JKEfRmrHB+lqS8W})8HmZ!C)o1it
zXCrD)foWC09WX60plN`3b1PiPN1!o24gpyCZ({rc2H2)#3`Y}jI8eX@gk3&`0fMK@
ze8`3>j9Q7!529?8M?0Gz!vGC<6+l(>t)?3H(#iCze;x!)C;tN*n}h(E@v(pX-R9fP
z_iMlK?_AJRD_$x#ZOS)oy4RL(+FEK_fro^D(9<i{l=dHhY-jyfO<;Pz|N48c|NM>j
z-+b@QpTBi)|402F_7}IF$ZtLI`5SO-SUjK1pHJp4^ZD~ap-G%P{-}X@0h*OzjL+gk
zlqdNJ2z@8dT~0;7MGfb%Ay)Dz>T<=M;%}DB;Mog_BHXF~@fwW74HEeP*#x2vE^Abl
zL$X!0ZJvj=B>UCiFkF$5E1_j3nc*xKZ@9>4p$C0lB9MWqHU9>da0e@^LN0hn)~msE
zlF*Q>#6c5{jB?l;K~6N_wHp2~4zA1)k}e*Xtb^qXFJ_R^I0znnxl%394a1=UXycVD
zBzDOlaM2<DZKSgbgK-SLgTeP8kPO%jr8B4r@ZZNQ<SSV^+aXrAME32IErgaA8Ug8z
ze=5h#KqJE60Q~$Hz?`RX);DK(-}#=i;OQ=UUe0@7o-~yl?&~L}PE67zw`ayV?JT<2
z=G|-OH+|vm1j%UK1HqP_QqRV_ncJE9IJk~B?E$%I-IIg-4)h!Cd}n9L+fekj=Rw+o
zpUBYz;UjP3%<k#kzi62E-7^$7?#pl7S7_T`@E$0759hsy|AqT3@@b^t9h^M$yXK9P
zhknriM?;6z_q2~TSl2&oHCcTNwMcvSJG&RwP)<+L(Uu2HUOiuTxAk`G{njrXuRgU=
zbxkvSr}zHimHC(Nb$rzIVOODj--EW#x<2hH9ypsnaQ5MaQ1QZW{=)D>@1@B@k3fWX
ze6jiX!^RWE#@F(VuN4~4Pab>3tbX6}o~6ia&NG`!buFb;YZr`E+m=O2*9M^80w)~q
zh8w9__E!96{GqGsk-OZB-1g&Nx=(<!tms~scdyI&cjfk+eCQs0Y;hDVEqP1JEH`)d
z{kPtG>t6pu%Yo9fsb5+S5Sbw#ApHndDqOAMBl@A(Ui=v>-}9_CxLibyl!ZH#R-Vc^
z`~{$yHD*m&bJoJr8H1J;q2&-K7n`hLF<4ZZl{eU9x)l`A(vTM{kpV+=8j8coul5N!
zS|VC>iL5J22s^Y;Q)yL=@g5j+*-BGWLA9}~>PpsL<u%gqq-E@I7r>M;XROcy8uZJa
zj2=`UMT%w}8Hbj&nX#2ygA%fW!~h*xND(c`jAw+P8A;~LGSb0C7y0s@=`up5z;|N>
zBD!$-{SN*ecuBQEJRDKLksyvxK~4F9l1MuAFcIM7uVXbm+;5Z`l)H}A7Z``RSd6sd
zck(x}&f6I5zyO;im?Y@|tuYYzzlAi(BttRjA)IT1swca=4P(L0EHsr8iSMBdU>H$+
z+wu)cx%+~qZ+l6JCSY&jb7&LH2M6qR1&!KP7u$OCZN2w>g|@wLX=YMCdFDpPtm$!m
z<Lv%h{WtrI&0F&DU%zG2{ur!=qti!c56+&x(Kolh*s&|$vFrY+e8=8g`+<Djfk`VG
zAmdZxv$eCQZoPi<^|{kG-z>QNlZMCOE|&oe;cBj~;9WC$=&Kq}vBsaT@!#tx`8&yf
zSE;MF)Y)~n?{;5l&HATKldE%5zfeQDYOjw@jn4WDH68E`u6ggI?APX57?Iy2S%O69
z1cQ<-7zB$n73CoA2;v3IC<;gTvWKG~L4cc<U@r52g)4Fn12p9&qnLtI0?BYOk%+?K
zGe{&f(s>k){ExAKsh<$#e?mUw!*?E)DB_Ef0S44diXSWo5Fs~}u2ChUdqGDVYv;E7
zfr8hfo-%nz0t^LXD~z^W>!t+?-uJlshaR+lZuoS4ZdYG^TmK(0QK<m2g*{o?c#yvL
zGM?jpwD-fk3*gm&ga_iH99ifyP^<mFx4vZbK6cezADbGx{_Ux6FBst)8gqE?{9(b2
zUlt1Tqf^n@v-z5~1+1`OqinA0%~Q=!?eHa!35Vm?JwX&1@OP03fjeq&zl%pW<bMu<
zv;)7piSM9%->X}`@6}EGeUUV|@70|WBT=C{Cg1lZAM)uBYSrWjh(|Qwu`wQTnMdH`
zQG)Y$5Wu4wjvOt?+GmSayJgj(Vhu?(q@a3tR*=uCwrkaXey`<2Cb`pSZSV+qJffP+
zL2g10fk(L$%i~=g9yN8TIWmTh5RQi{jf!KXdngqT<53q}Qz$2*BBiF9p$=Z9mb(6=
ze#)AZoz#)9-SRJCKki^ZOiIc>U<%m*y%-z7fbi`ZjBUpNd0DdTlDE<x{-5C!0E7~7
z!9hEr=|vkwJO7<(|61pybzf6zut;Lf6n%#NHMQYu9Zesnzcx|yKKeJ*%fF$zb5!@Q
zsS{A|->h{v&KIn$6Q%`I3tcz6`c~&nP=z3RubsT^ul}U-<IY7)`Tah+lXl(k%`{Ip
jFHjJj_mbCxbDv%K^ui*hJiS04(9_=8)<07CCWH82inMFS

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/mixed_precision/allspark.py b/model_executor/layers/quantization/kernels/mixed_precision/allspark.py
new file mode 100644
index 0000000..3baef45
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/allspark.py
@@ -0,0 +1,115 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.allspark_utils import (
+    ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD,
+    check_allspark_supported_dtype_shape,
+)
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class AllSparkLinearKernel(MPLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if c.has_g_idx:
+            return False, "Act reordering currently not supported by AllSpark"
+
+        if c.zero_points:
+            return False, "Zero points currently not supported by AllSpark"
+
+        return check_allspark_supported_dtype_shape(
+            c.partition_weight_shape[0],  # in_features
+            c.partition_weight_shape[1],  # out_features
+            c.group_size,
+            c.weight_type,
+            c.act_type,
+        )
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale` is: {input_dim = 0, output_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        device = getattr(layer, self.w_q_name).device
+        c = self.config
+
+        # prepare the parameters required for the kernel
+        properties = torch.cuda.get_device_properties(device.index)
+        sm_count = properties.multi_processor_count
+        sm_version = properties.major * 10 + properties.minor
+        gemm_args = {}
+        gemm_args["sm_count"] = sm_count
+        gemm_args["sm_version"] = sm_version
+
+        self.gemm_args = gemm_args
+
+        # transform param weight, scale
+        old_weight_param = getattr(layer, self.w_q_name)
+        old_scale_param = getattr(layer, self.w_s_name)
+
+        assert isinstance(old_weight_param, BasevLLMParameter)
+        permute_param_layout_(old_weight_param, input_dim=0, output_dim=1, packed_dim=0)
+
+        assert isinstance(old_scale_param, BasevLLMParameter)
+        permute_param_layout_(old_scale_param, input_dim=0, output_dim=1)
+
+        # unpack weight from K / 4 x N int32 to K x N uint8
+        new_weight_param = torch.nn.Parameter(
+            old_weight_param.data, requires_grad=False
+        )
+        new_weight_param.data = (
+            new_weight_param.data.t().contiguous().view(dtype=torch.uint8)
+        )
+        new_weight_param.data = new_weight_param.data.t().contiguous()
+
+        new_scale_param = torch.nn.Parameter(old_scale_param.data, requires_grad=False)
+
+        # reorder K x N weight as N32K16 format for Ampere W8A16
+        new_weight_param.data, new_scale_param.data, _ = ops.allspark_repack_weight(
+            new_weight_param.data, new_scale_param.data, None, c.zero_points
+        )
+
+        replace_parameter(layer, self.w_q_name, new_weight_param.data)
+        replace_parameter(layer, self.w_s_name, new_scale_param.data)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+        gemm_args = self.gemm_args
+        w_q, w_s, _, _ = self._get_weight_params(layer)
+
+        reshaped_x = x.reshape(-1, x.shape[-1])
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1],)
+
+        output = ops.allspark_w8a16_gemm(
+            a=reshaped_x,
+            b_qweight=w_q,
+            b_scales=w_s,
+            b_qzeros=None,
+            n=c.partition_weight_shape[1],
+            group_size=c.group_size,
+            sm_count=gemm_args["sm_count"],
+            sm_version=gemm_args["sm_version"],
+            CUBLAS_M_THRESHOLD=ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD,
+            has_zp=c.zero_points,
+            n32k16_reorder=True,
+        )
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py b/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
new file mode 100644
index 0000000..59c6a4f
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
@@ -0,0 +1,323 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+from packaging import version
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
+    BITBLAS_OPTIMIZE_FEATURES,
+    BITBLAS_SUPPORTED_GROUP_SIZES,
+    MINIMUM_BITBLAS_VERSION,
+    bitblas_make_empty_g_idx,
+    bitblas_sort_g_idx,
+    check_bitblas_supports_shape,
+    query_bitblas_supported_quant_types,
+    unpack_gptq_qweight,
+    unpack_gptq_qzeros,
+)
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+logger = init_logger(__name__)
+
+
+class BitBLASLinearKernel(MPLinearKernel):
+    OPT_FEATURES: list[int] = BITBLAS_OPTIMIZE_FEATURES
+    ENABLE_TUNING: bool = True
+    MATMUL_LAYOUT: str = "nt"
+    BITBLAS_DTYPES: dict[torch.dtype, str] = {
+        torch.float32: "float32",
+        torch.float16: "float16",
+        torch.bfloat16: "bfloat16",
+        torch.half: "float16",
+        torch.int8: "int8",
+    }
+    bitblas_matmul: object = None
+
+    def __init__(
+        self,
+        c: MPLinearLayerConfig,
+        w_q_param_name: str,
+        w_s_param_name: str,
+        w_zp_param_name: str | None = None,
+        w_gidx_param_name: str | None = None,
+        bitblas_quant_config: QuantizationConfig | None = None,
+    ):
+        self.quant_config = bitblas_quant_config
+        super().__init__(
+            c, w_q_param_name, w_s_param_name, w_zp_param_name, w_gidx_param_name
+        )
+
+    def repack_bitblas_from_gptq(
+        self,
+        b_q_weight: torch.Tensor,
+        scales: torch.Tensor,
+        qzeros: torch.Tensor | None = None,
+    ):
+        from bitblas.quantization.utils import general_compress
+
+        assert self.bitblas_matmul is not None, "bitblas_matmul is None"
+
+        quant_config = self.quant_config
+        # qweight in gptq old quant linear stored with
+        # (outfeatures, infeatures), should be transposed.
+        qweight = b_q_weight.T.contiguous().view(quant_config.torch_storage_dtype)  # type: ignore[union-attr]
+        intweight = unpack_gptq_qweight(qweight, quant_config.weight_bits).contiguous()  # type: ignore[union-attr]
+        if self.bitblas_matmul.weight_transform is not None:  # type: ignore[attr-defined]
+            qweight = self.bitblas_matmul.weight_transform(  # type: ignore[attr-defined]
+                intweight.cpu()
+            ).cuda()
+        # scales in gptq old quant linear stored with
+        # (infeatures // group_size, outfeatures), should be transposed.
+        scales = scales.T.contiguous()
+
+        if qzeros is None:
+            return qweight, scales, None
+
+        # qzeros should be de-quantized to int zeros.
+        weight_bits = quant_config.weight_bits  # type: ignore[union-attr]
+        intzeros = unpack_gptq_qzeros(qzeros, weight_bits).T.contiguous()
+        zeros: torch.Tensor | None = None
+        zeros_mode = self.bitblas_matmul.config.zeros_mode  # type: ignore[attr-defined]
+        if zeros_mode == "original":
+            zeros = intzeros.to(torch.float16).contiguous()
+        elif zeros_mode == "rescale":
+            assert zeros is not None, "zeros should not be None"
+            zeros[:, :] = intzeros.to(torch.float16)[:, :] * scales[:, :]
+        elif zeros_mode == "quantized":
+            zeros = (
+                torch.Tensor(
+                    general_compress(
+                        intzeros.T.contiguous().cpu().numpy(),
+                        weight_bits,
+                    )
+                )
+                .to(qweight.device)
+                .to(
+                    quant_config.torch_storage_dtype  # type: ignore[union-attr]
+                )
+                .contiguous()
+            )
+        else:
+            raise ValueError("Unsupported zeros type: {}".format(zeros_mode))
+
+        return qweight, scales, zeros
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        is_bitblas_installed = True
+
+        try:
+            import bitblas
+
+            if version.parse(bitblas.__version__) < version.parse(
+                MINIMUM_BITBLAS_VERSION
+            ):
+                raise ImportError(
+                    "bitblas version is wrong. Please "
+                    f"install bitblas>={MINIMUM_BITBLAS_VERSION}"
+                )
+        except ImportError:
+            is_bitblas_installed = False
+
+        if not is_bitblas_installed:
+            return (
+                False,
+                "bitblas is not installed. Please install bitblas "
+                "by running `pip install bitblas>="
+                f"{MINIMUM_BITBLAS_VERSION}`",
+            )
+
+        quant_types = query_bitblas_supported_quant_types(c.zero_points)
+        if c.weight_type not in quant_types:
+            return False, (
+                f"Quant type ({c.weight_type}) not supported by"
+                f"  BitBLAS, supported types are: {quant_types}"
+            )
+
+        if c.group_size not in BITBLAS_SUPPORTED_GROUP_SIZES:
+            return False, (
+                f"Group size ({c.group_size}) not supported by "
+                "BitBLAS, supported group sizes are: "
+                f"{BITBLAS_SUPPORTED_GROUP_SIZES}"
+            )
+
+        return check_bitblas_supports_shape(
+            c.partition_weight_shape[1],  # out_features
+            c.partition_weight_shape[0],  # in_features
+            c.full_weight_shape[0],  # in_features
+            c.group_size,
+        )
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale` is: {input_dim = 0, output_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        device = getattr(layer, self.w_q_name).device
+        c = self.config
+        quant_config = self.quant_config
+
+        # Default names since bitblas requires empty parameters for these,
+        # TODO: remove this requirement from bitblas (allow optional tensors)
+        if getattr(self, "w_gidx_name", None) is None:
+            self.w_gidx_name: str = "g_idx"
+        if getattr(self, "w_zp_name", None) is None:
+            self.w_zp_name: str = "qzeros"
+
+        if c.has_g_idx:
+            g_idx, g_idx_sort_indices = bitblas_sort_g_idx(
+                getattr(layer, self.w_gidx_name)
+            )
+            self._transform_param(layer, self.w_gidx_name, lambda _: g_idx)
+            layer.g_idx_sort_indices = g_idx_sort_indices
+        else:
+            setattr(layer, self.w_gidx_name, bitblas_make_empty_g_idx(device))
+            layer.g_idx_sort_indices = bitblas_make_empty_g_idx(device)
+
+        if c.zero_points:
+            raise NotImplementedError("Zero points not supported by BitBLAS")
+        else:
+            setattr(layer, self.w_zp_name, bitblas_make_empty_g_idx(device))
+
+        # Repack weights
+        bitblas_qweight, bitblas_scales, bitblas_qzeros = self.repack_bitblas_from_gptq(
+            layer.qweight,
+            layer.scales,
+            None if quant_config.is_sym else layer.qzeros,  # type: ignore[union-attr]
+        )
+        replace_parameter(layer, self.w_q_name, bitblas_qweight)
+        replace_parameter(layer, self.w_s_name, bitblas_scales)
+        if bitblas_qzeros is not None:
+            replace_parameter(layer, self.w_zp_name, bitblas_qzeros)
+
+    def configure_bitblas_matmul(
+        self,
+        infeatures: int,
+        outfeatures: int,
+        params_dtype: torch.dtype,
+        bias: bool,
+    ) -> None:
+        enable_tuning = self.ENABLE_TUNING
+        layout = self.MATMUL_LAYOUT
+        bits = self.quant_config.weight_bits  # type: ignore[union-attr]
+        self._configure_bitblas_matmul(
+            infeatures,
+            outfeatures,
+            params_dtype,
+            enable_tuning,
+            bias,
+            layout,
+            bits,
+        )
+
+    def _configure_bitblas_matmul(
+        self,
+        infeatures,
+        outfeatures,
+        params_dtype,
+        enable_tuning,
+        bias,
+        layout,
+        bits,
+    ):
+        from bitblas import MatmulConfig
+
+        bitblas_dtype = self.BITBLAS_DTYPES[params_dtype]
+        quant_config = self.quant_config
+        with_scaling = False
+        with_zeros = False
+        group_size = quant_config.group_size  # type: ignore[union-attr]
+        zeros_mode = quant_config.zeros_mode  # type: ignore[union-attr]
+        if quant_config.quant_method == "gptq":  # type: ignore[union-attr]
+            with_scaling = True
+            with_zeros = True
+            W_dtype = f"uint{bits}"
+            if quant_config.is_sym:  # type: ignore[union-attr]
+                with_zeros = False
+                W_dtype = f"int{bits}"
+        else:
+            raise ValueError(
+                f"Unsupported quant_method {quant_config.quant_method}"  # type: ignore[union-attr]
+            )  # type: ignore[union-attr]
+
+        matmul_config = MatmulConfig(
+            M=self.OPT_FEATURES,
+            N=outfeatures,
+            K=infeatures,
+            A_dtype=bitblas_dtype,
+            W_dtype=W_dtype,
+            out_dtype=bitblas_dtype,
+            accum_dtype="int32" if bitblas_dtype == "int8" else bitblas_dtype,
+            storage_dtype=quant_config.  # type: ignore[union-attr]
+            storage_dtype,  # type: ignore[union-attr]
+            with_scaling=with_scaling,
+            with_zeros=with_zeros,
+            group_size=group_size,
+            with_bias=bias,
+            layout=layout,
+            zeros_mode=zeros_mode,
+        )
+        self.bitblas_matmul = self._get_or_create_bitblas_operator(
+            matmul_config, enable_tuning
+        )
+
+    def _get_or_create_bitblas_operator(self, config, enable_tuning):
+        from bitblas import Matmul, auto_detect_nvidia_target
+        from bitblas.cache import get_database_path, global_operator_cache
+
+        BITBLAS_DATABASE_PATH = get_database_path()
+        BITBLAS_TARGET = auto_detect_nvidia_target()
+
+        if global_operator_cache.size() == 0:
+            global_operator_cache.load_from_database(
+                BITBLAS_DATABASE_PATH, BITBLAS_TARGET
+            )
+
+        bitblas_matmul = global_operator_cache.get(config)
+        if bitblas_matmul is None:
+            bitblas_matmul = Matmul(config, target=BITBLAS_TARGET, enable_tuning=False)
+            if enable_tuning:
+                bitblas_matmul.hardware_aware_finetune(topk=20)
+                global_operator_cache.add(config, bitblas_matmul)
+                global_operator_cache.save_into_database(
+                    BITBLAS_DATABASE_PATH, BITBLAS_TARGET
+                )
+                TUNING_MESSAGE = (
+                    f"BitBLAS Operator {config} tuned and saved to database."
+                )
+                logger.info(TUNING_MESSAGE)
+            else:
+                _message = f"BitBLAS Operator {config} created without tuning. "
+                logger.info(_message)
+        else:
+            _message = f"BitBLAS Operator {config} retrieved from cache."
+            logger.info(_message)
+        return bitblas_matmul
+
+    def apply_gptq_bitblas_linear(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        output_size_per_partition = self.config.partition_weight_shape[1]
+        out_shape = x.shape[:-1] + (output_size_per_partition,)
+        args = [x, layer.qweight, layer.scales]
+        if self.bitblas_matmul.config.with_zeros:  # type: ignore[attr-defined]
+            args.append(layer.qzeros)
+        output = self.bitblas_matmul(*args)  # type: ignore[operator]
+        return output.view(out_shape)
+
+    def apply_weights(self, layer, x, bias=None):
+        NOT_IMPLEMENT_MESSAGE = (
+            f"{self.__class__.__name__}.apply_weights is not implemented. "
+            "Please use BitBLASLinearKernel.apply_gptq_bitblas_linear instead"
+        )
+        raise NotImplementedError(NOT_IMPLEMENT_MESSAGE)
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/conch.py b/model_executor/layers/quantization/kernels/mixed_precision/conch.py
new file mode 100644
index 0000000..53b2e15
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/conch.py
@@ -0,0 +1,98 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from importlib.util import find_spec
+from typing import Final
+
+import torch
+
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+from vllm.scalar_type import scalar_types
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+_CONCH_SUPPORTED_WEIGHT_TYPES: Final = [
+    scalar_types.uint4,
+    scalar_types.uint8,
+    scalar_types.uint4b8,
+    scalar_types.uint8b128,
+]
+_CONCH_SUPPORTED_GROUP_SIZES: Final = [-1, 128]
+
+
+class ConchLinearKernel(MPLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if c.weight_type not in _CONCH_SUPPORTED_WEIGHT_TYPES:
+            error_msg = (
+                f"Weight type ({c.weight_type}) not supported by "
+                "ConchLinearKernel, supported types are: "
+                f"{_CONCH_SUPPORTED_WEIGHT_TYPES}"
+            )
+            return False, error_msg
+
+        if c.group_size not in _CONCH_SUPPORTED_GROUP_SIZES:
+            error_msg = (
+                f"Group size ({c.group_size}) not supported by "
+                "ConchLinearKernel, supported group sizes are: "
+                f"{_CONCH_SUPPORTED_GROUP_SIZES}"
+            )
+            return False, error_msg
+
+        if find_spec("conch") is None:
+            error_msg = (
+                "conch-triton-kernels is not installed, please "
+                "install it via `pip install conch-triton-kernels` "
+                "and try again!"
+            )
+            return False, error_msg
+
+        return True, None
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale` is: {input_dim = 0, output_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        def transform_w_q(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            x.data = x.data.contiguous()
+            return x
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = x.data.contiguous()
+            return x
+
+        self._transform_param(layer, self.w_q_name, transform_w_q)
+        self._transform_param(layer, self.w_s_name, transform_w_s)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        from conch.ops.quantization.gemm import mixed_precision_gemm
+
+        w_q, w_s, w_zp, _ = self._get_weight_params(layer)
+
+        output = mixed_precision_gemm(
+            x=x,
+            w_q_packed=w_q.data,
+            w_s=w_s.data,
+            w_zp=w_zp.data if w_zp is not None else None,
+            weight_size_bits=self.config.weight_type.size_bits,
+            weight_bias=self.config.weight_type.bias,
+            group_size=self.config.group_size,
+        )
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py b/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py
new file mode 100644
index 0000000..8ef6457
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/cutlass.py
@@ -0,0 +1,119 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class CutlassW4A8LinearKernel(MPLinearKernel):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        # dynamic per-tok fp8 activation quantization
+        self.quant_fp8 = QuantFP8(static=False, group_shape=GroupShape.PER_TOKEN)
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 90
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_cuda():
+            return False, "CUTLASS only supported on CUDA"
+
+        if not current_platform.is_device_capability(90):
+            return False, "CUTLASS W4A8 requires compute capability of 90 (Hopper)"
+
+        if c.act_type != torch.float8_e4m3fn:
+            return False, "CUTLASS W4A8 only supports FP8 (e4m3) activations"
+
+        if c.has_g_idx:
+            return False, "Act reordering not supported by CUTLASS W4A8"
+
+        if c.zero_points:
+            return False, "Zero points not supported by CUTLASS W4A8"
+
+        if c.weight_type != scalar_types.int4:
+            return (
+                False,
+                f"Quant type ({c.weight_type}) not supported by "
+                "CUTLASS W4A8, only supported int4",
+            )
+
+        # TODO(czhu): support -1 (column-wise)
+        if c.group_size != 128:
+            return False, "Only group_size 128 is supported"
+
+        in_features, out_features = c.partition_weight_shape
+        if in_features % 128 or out_features % 128:
+            return (
+                False,
+                f"K and N must be divisible by 128, got {c.partition_weight_shape}",
+            )
+
+        if c.out_type != torch.bfloat16:
+            return (
+                False,
+                f"Only bfloat16 output type currently supportedgot {c.out_type=}",
+            )
+
+        return True, None
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale`  is: {input_dim = 0, output_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        # TODO(czhu): optimize speed/mem usage
+        def transform_w_q(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            x.data = ops.cutlass_encode_and_reorder_int4b(x.data.t().contiguous().t())
+            return x
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = x.data.contiguous().to(torch.float8_e4m3fn)
+            x.data = ops.cutlass_pack_scale_fp8(x.data)
+            return x
+
+        # Encode/reorder weights and pack scales
+        self._transform_param(layer, self.w_q_name, transform_w_q)
+        self._transform_param(layer, self.w_s_name, transform_w_s)
+        self._transform_param(layer, "weight_chan_scale", lambda x: x)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+        w_q, w_s, _, _ = self._get_weight_params(layer)
+        w_ch_s = layer.weight_chan_scale
+
+        x_2d = x.reshape(-1, x.shape[-1])
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1],)
+
+        x_2d, act_scales = self.quant_fp8(x_2d)
+        output = ops.cutlass_w4a8_mm(
+            a=x_2d,
+            b_q=w_q,
+            b_group_scales=w_s,
+            b_group_size=c.group_size,
+            a_token_scales=act_scales,
+            b_channel_scales=w_ch_s,
+        )
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/dynamic_4bit.py b/model_executor/layers/quantization/kernels/mixed_precision/dynamic_4bit.py
new file mode 100644
index 0000000..d09bd86
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/dynamic_4bit.py
@@ -0,0 +1,111 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.scalar_type import scalar_types
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class Dynamic4bitLinearKernel(MPLinearKernel):
+    SUPPORTED_QUANT_TYPES = [scalar_types.int4]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 1
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_cpu():
+            return False, "Only CPU is supported"
+        if c.weight_type not in cls.SUPPORTED_QUANT_TYPES:
+            return False, f"Unsupported quant type {c.weight_type}"
+        if (
+            current_platform.get_cpu_architecture() == CpuArchEnum.ARM
+            and c.act_type
+            not in [
+                torch.float32,
+            ]
+        ):
+            return False, "Dynamic4bitLinearKernel on Arm requires Float32 activations"
+        if c.full_weight_shape[0] % c.group_size != 0:
+            return (
+                False,
+                f"Group size ({c.group_size}) does not evenly divide"
+                " the number of input features "
+                f"({c.full_weight_shape[0]})",
+            )
+        if current_platform.get_cpu_architecture() == CpuArchEnum.ARM:
+            try:
+                # Attempt to retrieve the operation
+                _ = torch.ops.aten._dyn_quant_matmul_4bit
+            except AttributeError:
+                return (
+                    False,
+                    f"PyTorch {torch.__version__} does not support"
+                    " _dyn_quant_matmul_4bit. Install a newer version",
+                )
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        c = self.config
+        packed_weight = getattr(layer, self.w_q_name)
+        packed_weight = packed_weight.add(8)
+        uint8_packed = (packed_weight[::, 1::2] << 4 | packed_weight[::, ::2]).to(
+            torch.uint8
+        )
+
+        scales = getattr(layer, self.w_s_name)
+        block_size = c.group_size
+
+        # Handle scaling factors for partitioned weights
+        if block_size == c.partition_weight_shape[0]:
+            scales = scales.to(
+                torch.float32
+            )  # Float32 & Bfloat16 variants requires float32 scales
+            scales = scales.view(-1, 1)  # Channel-wise scales
+            if layer.bias is not None:
+                layer.bias = layer.bias.to(
+                    torch.float32
+                )  # Float32 & Bfloat16 variants requires float32 bias
+        else:
+            # KleidiAI kernel requires bfloat16 scales with groupwise scheme
+            scales = scales.to(torch.bfloat16)
+
+        # Repack weights as per kernel requirement
+        w = torch.ops.aten._dyn_quant_pack_4bit_weight(
+            uint8_packed,
+            scales,
+            layer.bias,
+            block_size,
+            c.partition_weight_shape[0],
+            c.partition_weight_shape[1],
+        )
+        replace_parameter(
+            layer, self.w_q_name, torch.nn.Parameter(w, requires_grad=False)
+        )
+        setattr(layer, self.w_s_name, None)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+        x_2d = x.reshape(-1, x.shape[-1])
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1],)
+
+        w_q = getattr(layer, self.w_q_name)
+        output = torch.ops.aten._dyn_quant_matmul_4bit(
+            x_2d,
+            w_q,
+            c.group_size,
+            c.partition_weight_shape[0],
+            c.partition_weight_shape[1],
+        )
+        return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/exllama.py b/model_executor/layers/quantization/kernels/mixed_precision/exllama.py
new file mode 100644
index 0000000..9fba4aa
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/exllama.py
@@ -0,0 +1,161 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    pack_quantized_values_into_int32,
+)
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+from vllm.scalar_type import scalar_types
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class ExllamaLinearKernel(MPLinearKernel):
+    SUPPORTED_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
+    # In theory supports `scalar_types.uint2b2, scalar_types.uint3b4` too but
+    # currently untested so not added to the list
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if c.has_g_idx and c.partition_weight_shape[0] != c.full_weight_shape[0]:
+            return (
+                False,
+                "Act reordering currently not supported by Exllama, "
+                "when the input features are partitioned across "
+                "devices",
+            )
+
+        if c.partition_weight_shape[1] % (32 // c.weight_type.size_bits) != 0:
+            return (
+                False,
+                "Output features must be a multiple of the pack "
+                "factor (32 / num_bits) so that we can correctly "
+                "pack the zero points",
+            )
+
+        if c.act_type != torch.float16:
+            return False, "Exllama only supports float16 activations"
+
+        if c.weight_type not in cls.SUPPORTED_QUANT_TYPES:
+            return (
+                False,
+                f"Quant type ({c.weight_type}) not supported by "
+                "Exllama, supported types are: "
+                f"{cls.SUPPORTED_QUANT_TYPES}",
+            )
+
+        if c.full_weight_shape[0] % c.group_size != 0:
+            return (
+                False,
+                f"Group size ({c.group_size}) does not evenly divide"
+                " the number of input features "
+                f"({c.full_weight_shape[0]})",
+            )
+
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        c = self.config
+
+        # For Exllama, we need to set a zero-point tensor if there is not one
+        if not c.zero_points:
+            self.w_zp_name = "qzeros"
+            device = getattr(layer, self.w_q_name).device
+            groups = c.partition_weight_shape[0] // c.group_size
+            out_features = c.partition_weight_shape[1]
+
+            if c.weight_type.has_bias():
+                # if the type has a bias we have to create a zeros tensor that
+                # contains the bias values repeated for each group (-1 due to
+                # a bug in the original GPTQ checkpoint format leading to
+                # exllama kernel adding 1 to the zero points during inference)
+                # Documentation of the bug can be found here:
+                #  https://garden.danieldk.eu/GPTQ-Checkpoint-Format
+                zeros = torch.full(
+                    (groups, out_features),
+                    c.weight_type.bias - 1,
+                    dtype=torch.int32,
+                    device=device,
+                )
+            else:
+                raise NotImplementedError(
+                    "A 0 zero-point is not supported by Exllama due to "
+                    "a bug in the original GPTQ checkpoint format leading to "
+                    "exllama kernel adding 1 to the zero points during "
+                    "inference"
+                )
+            zeros = pack_quantized_values_into_int32(zeros, c.weight_type, packed_dim=1)
+            setattr(
+                layer, self.w_zp_name, torch.nn.Parameter(zeros, requires_grad=False)
+            )
+
+        if c.has_g_idx:
+
+            def transform_w_g_idx(x):
+                # Exllama wants the permutation array instead of the group
+                # indices
+                return torch.argsort(x).to(torch.int)
+
+            self._transform_param(layer, self.w_gidx_name, transform_w_g_idx)
+        else:
+            self.w_gidx_name = "g_idx"
+            empty_g_idx = torch.nn.Parameter(
+                torch.empty((0,), dtype=torch.int, device=device), requires_grad=False
+            )
+            setattr(layer, self.w_gidx_name, empty_g_idx)
+
+        def transform_w_q(x):
+            assert isinstance(x, BasevLLMParameter)
+            assert self.w_gidx_name is not None
+            g_idx = getattr(layer, self.w_gidx_name)
+
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            x_cont = x.data.contiguous()
+            ops.gptq_shuffle(x_cont, g_idx, c.weight_type.size_bits)
+            return x_cont
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = x.data.contiguous()
+            return x.to(dtype=c.act_type)
+
+        # Repack weights and scales for Machete
+        self._transform_param(layer, self.w_q_name, transform_w_q)
+        self._transform_param(layer, self.w_s_name, transform_w_s)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+
+        x_2d = x.reshape(-1, x.shape[-1])
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1],)
+
+        w_q, w_s, w_zp, w_g_idx = self._get_weight_params(layer)
+
+        # gptq_gemm supports GPTQv2 format by passing use_v2_format=True.
+        # However, the MPLinearLayerConfig doesn't contain format info.
+        # So hardcode GPTQv1 format here, to keep its behavior unchanged.
+        use_v2_format = False
+
+        assert w_zp is not None, "Zero points are required by Exllama"
+        assert w_g_idx is not None, "Group index is required by Exllama"
+        output = ops.gptq_gemm(
+            x_2d, w_q, w_zp, w_s, w_g_idx, True, use_v2_format, c.weight_type.size_bits
+        )
+
+        if bias is not None:
+            output.add_(bias)
+        return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/machete.py b/model_executor/layers/quantization/kernels/mixed_precision/machete.py
new file mode 100644
index 0000000..b756c8a
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/machete.py
@@ -0,0 +1,154 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from functools import partial
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils.machete_utils import (
+    check_machete_supports_shape,
+    query_machete_supported_group_sizes,
+    query_machete_supported_quant_types,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    pack_quantized_values_into_int32,
+    unpack_quantized_values_into_int32,
+)
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+from vllm.platforms import current_platform
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class MacheteLinearKernel(MPLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 90
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        # Machete uses CUTLASS, so it can only be compatible with Nvidia
+        if not current_platform.is_cuda():
+            return False, "Machete only supported on CUDA"
+
+        if not current_platform.is_device_capability(90):
+            return False, "Machete requires compute capability of 90 (Hopper)"
+
+        if c.has_g_idx and c.partition_weight_shape[0] != c.full_weight_shape[0]:
+            return (
+                False,
+                "Act reordering currently not supported by Machete, "
+                "when the input features are partitioned across "
+                "devices",
+            )
+
+        if c.weight_type not in query_machete_supported_quant_types(c.zero_points):
+            return (
+                False,
+                f"Quant type ({c.weight_type}) not supported by "
+                "Machete, supported types are: "
+                f"{query_machete_supported_quant_types(c.zero_points)}",
+            )
+
+        if c.group_size not in query_machete_supported_group_sizes(c.act_type):
+            return (
+                False,
+                f"Group size ({c.group_size}) not supported by "
+                "Machete, supported group sizes are: "
+                f"{query_machete_supported_group_sizes(c.act_type)}",
+            )
+
+        return check_machete_supports_shape(
+            c.partition_weight_shape[0], c.partition_weight_shape[1]
+        )
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale`  is: {input_dim = 0, output_dim = 1}
+    #  `weight_zp`     is: {input_dim = 0, output_dim = 1, packed_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        c = self.config
+        if c.has_g_idx:
+            assert self.w_gidx_name is not None
+            perm = torch.argsort(getattr(layer, self.w_gidx_name)).to(torch.int)
+
+            self.act_perm = lambda x: x[:, perm]
+            # use `ops.permute_cols` if possible
+            if (
+                c.act_type in [torch.float16, torch.bfloat16]
+                and c.partition_weight_shape[0] % 8 == 0
+            ):
+                self.act_perm = partial(ops.permute_cols, perm=perm)
+
+        def transform_w_q(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            if c.has_g_idx:
+                x_unpacked = unpack_quantized_values_into_int32(x.data,
+                                                                c.weight_type,
+                                                                packed_dim=0)
+                x_perm = x_unpacked[perm, :]
+                x.data = pack_quantized_values_into_int32(x_perm,
+                                                          c.weight_type,
+                                                          packed_dim=0)
+            x.data = ops.machete_prepack_B(x.data.t().contiguous().t(),
+                                           a_type=c.act_type,
+                                           b_type=c.weight_type,
+                                           group_scales_type=c.act_type)
+            return x
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = x.data.contiguous()
+            return x
+
+        def transform_w_zp(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=1)
+            x_unpacked = unpack_quantized_values_into_int32(
+                x.data, c.weight_type, packed_dim=1
+            )
+            w_s = getattr(layer, self.w_s_name).data
+            # pre-apply scales to zero-points
+            x.data = (-1.0 * w_s * (x_unpacked.to(w_s.dtype))).contiguous()
+            return x
+
+        # Repack weights and scales for Machete
+        self._transform_param(layer, self.w_q_name, transform_w_q)
+        self._transform_param(layer, self.w_s_name, transform_w_s)
+        if c.zero_points:
+            self._transform_param(layer, self.w_zp_name, transform_w_zp)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+        w_q, w_s, w_zp, _ = self._get_weight_params(layer)
+
+        x_2d = x.reshape(-1, x.shape[-1])
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1],)
+
+        if c.has_g_idx:
+            x_2d = self.act_perm(x_2d)
+
+        if c.zero_points:
+            assert w_zp is not None
+        else:
+            w_zp = None
+
+        output = ops.machete_mm(a=x_2d,
+                                b_q=w_q,
+                                b_type=c.weight_type,
+                                b_group_zeros=w_zp,
+                                b_group_scales=w_s,
+                                b_group_size=c.group_size)
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output.reshape(out_shape)
\ No newline at end of file
diff --git a/model_executor/layers/quantization/kernels/mixed_precision/marlin.py b/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
new file mode 100644
index 0000000..5783d86
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
@@ -0,0 +1,325 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    MARLIN_SUPPORTED_GROUP_SIZES,
+    apply_gptq_marlin_linear,
+    check_marlin_supports_shape,
+    marlin_is_k_full,
+    marlin_make_empty_g_idx,
+    marlin_make_workspace_new,
+    marlin_permute_bias,
+    marlin_permute_scales,
+    marlin_sort_g_idx,
+    marlin_zero_points,
+    query_marlin_supported_quant_types,
+    unpack_cols,
+)
+from vllm.model_executor.parameter import BasevLLMParameter, permute_param_layout_
+from vllm.platforms import current_platform
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    pack_quantized_values_into_int32, unpack_quantized_values_into_int32)
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+from vllm.scalar_type import ScalarType, scalar_types
+import ixformer.inference.functions as ixf_ops
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+
+from vllm.logger import init_logger
+logger = init_logger(__name__)
+
+
+def unpack_rows(packed_w: torch.Tensor, num_bits: int) -> torch.Tensor:
+    """
+    Efficient vectorized unpacking.
+    Converts [K // pack_factor, N] int32 tensor → [K, N] int8 tensor.
+
+    Args:
+        packed_w: torch.int32 tensor of shape [K // pack_factor, N].
+        num_bits: Number of bits per packed element (e.g., 4).
+
+    Returns:
+        unpacked: torch.int8 tensor of shape [K, N].
+    """
+    pack_factor = 32 // num_bits
+    k_packed, n = packed_w.shape
+    k = k_packed * pack_factor
+
+    mask = (1 << num_bits) - 1
+
+    # [pack_factor, 1, 1]
+    shifts = (num_bits * torch.arange(pack_factor, device=packed_w.device)).view(-1, 1, 1)
+
+    # [pack_factor, k_packed, n]
+    packed_expanded = packed_w.unsqueeze(0)
+
+    # Extract each group of num_bits using bitwise ops
+    unpacked_groups = ((packed_expanded >> shifts) & mask).to(torch.int8)
+    # [pack_factor, k_packed, n] → [k, n]
+    unpacked = unpacked_groups.permute(1, 0, 2).reshape(k, n)
+
+    return unpacked
+
+
+def pack_cols(x: torch.Tensor, pack_num: int = 8, order_map=None) -> torch.Tensor:
+    """
+    Efficient vectorized version: pack int4 values (0–15) into int32.
+    Each int32 element contains `pack_num` 4-bit values.
+
+    Args:
+        x: Tensor of shape [rows, cols * pack_num], dtype=int32.
+           Represents unpacked int4 values.
+        pack_num: Number of 4-bit elements to pack into each int32.
+        order_map: Index mapping defining the order of 4-bit packing,
+                   must match the unpack order used in `unpack_tensor`.
+
+    Returns:
+        Tensor of shape [rows, cols], dtype=int32 — packed result.
+    """
+    # Default sequential order if none provided
+    if order_map is None:
+        order_map = list(range(pack_num))
+    order_map = torch.tensor(order_map, device=x.device)
+
+    # Number of bits per packed element (e.g., 32 / 8 = 4 bits)
+    unit = 32 // pack_num
+    rows, cols_pack = x.shape
+    assert cols_pack % pack_num == 0, "Number of columns must be a multiple of pack_num"
+    cols = cols_pack // pack_num
+
+    # Reshape input into groups of `pack_num` int4 values
+    # Shape: [rows, cols, pack_num]
+    x_reshape = x.view(rows, cols, pack_num)
+
+    # Reorder elements according to order_map
+    # order_map is broadcasted to match shape [rows, cols, pack_num]
+    x_reorder = torch.gather(x_reshape, 2, order_map.view(1, 1, -1).expand(rows, cols, -1))
+
+    # Keep only the lower 4 bits of each value
+    x_reorder = x_reorder & 0xF
+
+    # Compute bit shifts for each position (e.g., [0, 4, 8, 12, 16, 20, 24, 28])
+    shifts = (unit * torch.arange(pack_num, device=x.device)).view(1, 1, -1)
+
+    # Shift and combine (bitwise OR) along the last dimension
+    # Using sum() is safe since bits don't overlap between 4-bit slots
+    res = (x_reorder << shifts).sum(dim=-1).to(torch.int32)
+
+    return res
+
+class MarlinLinearKernel(MPLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        # Marlin uses inline PTX, so it can only be compatible with Nvidia
+        if not current_platform.is_cuda():
+            return False, "Marlin only supported on CUDA"
+
+        quant_types = query_marlin_supported_quant_types(c.zero_points)
+        if c.weight_type not in quant_types:
+            return (
+                False,
+                f"Quant type ({c.weight_type}) not supported by"
+                f"  Marlin, supported types are: {quant_types}",
+            )
+
+        if c.group_size not in MARLIN_SUPPORTED_GROUP_SIZES:
+            return (
+                False,
+                f"Group size ({c.group_size}) not supported by "
+                "Marlin, supported group sizes are: "
+                f"{MARLIN_SUPPORTED_GROUP_SIZES}",
+            )
+
+        return check_marlin_supports_shape(
+            c.partition_weight_shape[1],  # out_features
+            c.partition_weight_shape[0],  # in_features
+            c.full_weight_shape[0],  # in_features
+            c.group_size,
+        )
+
+    # note assumes that
+    #  `weight_packed` is: {input_dim = 0, output_dim = 1, packed_dim = 0}
+    #  `weight_scale` is: {input_dim = 0, output_dim = 1}
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        device = getattr(layer, self.w_q_name).device
+        c = self.config
+        assert (c.weight_type.size_bits == 4) , f"MarlinLinearKernel now only support uint4, uint4b8, \
+                        now quant weight_type {c.weight_typ}"
+                                
+        # device = getattr(layer, self.w_q_name).device
+        
+
+        # row_parallel = c.partition_weight_shape[0] != c.full_weight_shape[0]
+        # self.is_k_full = marlin_is_k_full(c.has_g_idx, row_parallel)
+
+        # Allocate marlin workspace.
+        # self.workspace = marlin_make_workspace_new(device)
+
+        # Default names since marlin requires empty parameters for these,
+        # TODO: remove this requirement from marlin (allow optional tensors)
+        # if self.w_gidx_name is None:
+        #     self.w_gidx_name = "g_idx"
+        # if self.w_zp_name is None:
+        #     self.w_zp_name = "w_zp"
+        if c.has_g_idx:
+            assert self.w_gidx_name is not None
+            perm = torch.argsort(getattr(layer, self.w_gidx_name)).to(torch.int)
+            
+            self.act_perm = lambda x: x[:, perm]
+
+        def transform_w_q(x):
+            # assert isinstance(x, BasevLLMParameter)
+            # permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            # x.data = ops.gptq_marlin_repack(
+            #     x.data.contiguous(),
+            #     perm=layer.g_idx_sort_indices,
+            #     size_k=c.partition_weight_shape[0],
+            #     size_n=c.partition_weight_shape[1],
+            #     num_bits=c.weight_type.size_bits,
+            # )
+            assert x.data.ndim == 2
+            if x._packed_dim == 1: #CompressedTensorsWNA16
+                #[oc,    ic // 8] - > [oc,    ic]
+                x_unpacked = unpack_quantized_values_into_int32(x.data,
+                                                                c.weight_type,
+                                                                packed_dim=1)
+                if c.has_g_idx:
+                    x_unpacked = x_unpacked[:,perm]
+                #[oc,    ic] -> [ic,    oc]
+                x_unpacked = x_unpacked.t().contiguous()
+                
+            elif x._packed_dim == 0: #GPTQMarlinLinearMethod
+                
+                #[ic // 8, oc]  -> [ic , oc] 
+                x_unpacked = unpack_rows(x.data,c.weight_type.size_bits)
+                if c.has_g_idx:
+                    x_unpacked = x_unpacked[perm:]
+                    raise NotImplementedError(f"GPTQMarlinLinearMethod has_g_idx not test, \
+                        Please check whether the model's inference results are correct, and annotate/modify the statement. ")
+            else:
+                raise NotImplementedError(f"transform_w_q pack_dim {x._packed_dim} not implement")
+                    
+            #[ic,    oc]-> [ic, oc//8]
+            x_packed = pack_cols(x_unpacked, order_map=[0, 2, 4, 6, 1, 3, 5, 7])            
+            x.data = x_packed.contiguous()
+            x._packed_dim = 1
+            return x
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = x.data.contiguous()
+            return x.to(dtype=c.act_type)    
+
+        # if c.has_g_idx:
+        #     g_idx, g_idx_sort_indices = marlin_sort_g_idx(
+        #         getattr(layer, self.w_gidx_name)
+        #     )
+        #     self._transform_param(layer, self.w_gidx_name, lambda _: g_idx)
+        #     layer.g_idx_sort_indices = g_idx_sort_indices
+        # else:
+        #     setattr(layer, self.w_gidx_name, marlin_make_empty_g_idx(device))
+        #     layer.g_idx_sort_indices = marlin_make_empty_g_idx(device)
+        def transform_w_zp(x):            
+            grouped_k = (c.partition_weight_shape[0] //
+                         c.group_size if c.group_size != -1 else 1)
+            x_unpacked = unpack_cols(x.clone().t(), c.weight_type.size_bits, grouped_k, c.partition_weight_shape[1])
+            x_packed = pack_cols(x_unpacked, order_map=[0, 2, 4, 6, 1, 3, 5, 7])
+            x.data = x_packed.contiguous()            
+            return x
+    
+
+        if c.zero_points:
+            # grouped_k = (
+            #     c.partition_weight_shape[0] // c.group_size if c.group_size != -1 else 1
+            # )
+            # self._transform_param(
+            #     layer,
+            #     self.w_zp_name,
+            #     lambda x: marlin_zero_points(
+            #         unpack_cols(
+            #             x.t(),
+            #             c.weight_type.size_bits,
+            #             grouped_k,
+            #             c.partition_weight_shape[1],
+            #         ),
+            #         size_k=grouped_k,
+            #         size_n=c.partition_weight_shape[1],
+            #         num_bits=c.weight_type.size_bits,
+            #     ),
+            # )
+            self._transform_param(layer, self.w_zp_name, transform_w_zp)
+        else:
+            # setattr(layer, self.w_zp_name, marlin_make_empty_g_idx(device))
+            #weight_type = uint4b8, using c.weight_type.bias  as zero point,according quant method.  
+            #[ic,    oc]-> [ic, oc//8] 
+            w_zp = torch.full_like(getattr(layer, self.w_s_name), c.weight_type.bias, dtype=torch.int32)
+            w_zp_pack = pack_cols(w_zp, order_map=[0, 2, 4, 6, 1, 3, 5, 7]).contiguous()
+            weight_zero_point = torch.nn.Parameter(
+                    w_zp_pack,
+                    requires_grad=False)
+            
+            if hasattr(layer, self.w_zp_name):
+                replace_parameter(layer, self.w_zp_name, weight_zero_point) #GPTQMarlinLinearMethod
+            else:
+                layer.register_parameter("weight_zero_point", weight_zero_point) #CompressedTensorsWNA16
+        
+        self._transform_param(layer, self.w_q_name, transform_w_q)
+        self._transform_param(layer, self.w_s_name, transform_w_s)
+
+        # if hasattr(layer, "bias") and layer.bias is not None:
+        #     layer.bias.data = marlin_permute_bias(layer.bias)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        c = self.config
+        w_q, w_s, w_zp, w_gidx = self._get_weight_params(layer)
+
+        pack_factor = 32 // c.weight_type.size_bits
+        
+        out_shape = x.shape[:-1] + (c.partition_weight_shape[1], )
+        x_2d = x.reshape(-1, x.shape[-1])
+        
+        if c.has_g_idx:
+            x_2d = self.act_perm(x_2d)
+        
+        out = ops.custom_gptq_marlin_gemm(input = x_2d, 
+                               qweight = w_q,
+                               scales =  w_s,
+                               qzeros =  w_zp, 
+                               pack_factor = pack_factor, 
+                               group_size = c.group_size,
+                               bias = bias)
+        out = out.reshape(out_shape)
+        # if bias is not None:
+        #     out.add_(bias)
+        return out
+        
+
+        # # `process_weights_after_loading` will ensure w_zp and w_gidx are not
+        # #  None for marlin
+        # return apply_gptq_marlin_linear(
+        #     input=x,
+        #     weight=w_q,
+        #     weight_scale=w_s,
+        #     weight_zp=w_zp,  # type: ignore
+        #     g_idx=w_gidx,  # type: ignore
+        #     g_idx_sort_indices=layer.g_idx_sort_indices,
+        #     workspace=self.workspace,
+        #     wtype=c.weight_type,
+        #     input_size_per_partition=c.partition_weight_shape[0],
+        #     output_size_per_partition=c.partition_weight_shape[1],
+        #     is_k_full=self.is_k_full,
+        #     bias=bias)
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py b/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
new file mode 100644
index 0000000..2a885ec
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+
+import torch
+
+
+@dataclass
+class ScaledMMLinearLayerConfig:
+    is_channelwise: bool
+    is_static_input_scheme: bool
+    input_symmetric: bool
+
+
+class ScaledMMLinearKernel(ABC):
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        raise NotImplementedError
+
+    @classmethod
+    @abstractmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        raise NotImplementedError
+
+    def __init__(
+        self,
+        c: ScaledMMLinearLayerConfig,
+        w_q_param_name: str,
+        w_s_param_name: str,
+        i_s_param_name: str,
+        i_zp_param_name: str,
+        azp_adj_param_name: str,
+    ) -> None:
+        assert self.can_implement(c)
+        self.config = c
+        self.w_q_name = w_q_param_name
+        self.w_s_name = w_s_param_name
+        self.i_s_name = i_s_param_name
+        self.i_zp_name = i_zp_param_name
+        self.azp_adj_name = azp_adj_param_name
+
+    @abstractmethod
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+    def _get_weight_params(
+        self, layer: torch.nn.Module
+    ) -> tuple[
+        torch.Tensor,  # weight
+        torch.Tensor,  # weight_scale
+        torch.Tensor | None,  # input_scale,
+        torch.Tensor | None,  # input_zp
+        torch.Tensor | None,  # azp_adj
+    ]:
+        return (
+            getattr(layer, self.w_q_name),
+            getattr(layer, self.w_s_name),
+            getattr(layer, self.i_s_name),
+            getattr(layer, self.i_zp_name),
+            getattr(layer, self.azp_adj_name),
+        )
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__init__.py b/model_executor/layers/quantization/kernels/scaled_mm/__init__.py
new file mode 100644
index 0000000..dd59e5d
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/__init__.py
@@ -0,0 +1,97 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.aiter import (
+    AiterScaledMMLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.cpu import (
+    CPUScaledMMLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.cutlass import (
+    CutlassScaledMMLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.ScaledMMLinearKernel import (  # noqa: E501
+    ScaledMMLinearKernel,
+    ScaledMMLinearLayerConfig,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.triton import (
+    TritonScaledMMLinearKernel,
+)
+from vllm.model_executor.layers.quantization.kernels.scaled_mm.xla import (
+    XLAScaledMMLinearKernel,
+)
+from vllm.platforms import PlatformEnum, current_platform
+
+# in priority/performance order (when available)
+_POSSIBLE_KERNELS: dict[PlatformEnum, list[type[ScaledMMLinearKernel]]] = {
+    PlatformEnum.CPU: [CPUScaledMMLinearKernel],
+    PlatformEnum.CUDA: [CutlassScaledMMLinearKernel],
+    PlatformEnum.ROCM: [AiterScaledMMLinearKernel, TritonScaledMMLinearKernel],
+    PlatformEnum.TPU: [XLAScaledMMLinearKernel],
+}
+
+
+def choose_scaled_mm_linear_kernel(
+    config: ScaledMMLinearLayerConfig, compute_capability: int | None = None
+) -> type[ScaledMMLinearKernel]:
+    """
+    Choose an ScaledMMLinearKernel that can implement the given config for the
+    given compute capability. Attempts to choose the best kernel in terms of
+    performance.
+
+    Args:
+        config (ScaledMMLinearLayerConfig): Description of the linear layer
+            to be implemented.
+        compute_capability (Optional[int], optional): The compute capability of
+            the target device, if None uses `current_platform` to get the
+            compute capability. Defaults to None.
+
+    Raises:
+        ValueError: If no kernel can implement the given config.
+
+    Returns:
+        type[ScaledMMLinearKernel]: Chosen kernel.
+    """
+
+    if compute_capability is None:
+        _cc = current_platform.get_device_capability()
+        if _cc is not None:
+            compute_capability = _cc[0] * 10 + _cc[1]
+
+    failure_reasons = []
+    for kernel in _POSSIBLE_KERNELS[current_platform._enum]:
+        if kernel.__name__ in os.environ.get("VLLM_DISABLED_KERNELS", "").split(","):
+            failure_reasons.append(
+                f" {kernel.__name__} disabled by environment variable"
+            )
+            continue
+
+        # If the current platform uses compute_capability,
+        # make sure the kernel supports the compute cability.
+        if compute_capability is not None:
+            kernel_min_capability = kernel.get_min_capability()
+            if (
+                kernel_min_capability is not None
+                and kernel_min_capability > compute_capability
+            ):
+                failure_reasons.append(
+                    f"{kernel.__name__} requires capability "
+                    f"{kernel_min_capability}, current compute capability "
+                    f"is {compute_capability}"
+                )
+                continue
+
+        can_implement, failure_reason = kernel.can_implement(config)
+        if can_implement:
+            return kernel
+        else:
+            failure_reasons.append(
+                f" {kernel.__name__} cannot implement due to: {failure_reason}"
+            )
+
+    raise ValueError(
+        "Failed to find a kernel that can implement the "
+        "ScaledMM linear layer. Reasons: \n" + "\n".join(failure_reasons)
+    )
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/ScaledMMLinearKernel.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/ScaledMMLinearKernel.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a76db3b138e8c85e8d3f33d53559437bd760128b
GIT binary patch
literal 3478
zcmb6cTWl0n^v-i<-+in|p~be=$11QY8mcJ}A;kEgAA*K#OeWKryL9U8>~d!+-KJ4O
zYC@w);j8c^zYRb7rJsCa{Ap8-n~5eQ_~YL|F(iI@&Yjt97q%E~vge+2&$;KGbI)V$
z{*uk62n<L5#{Mlq$Xz5_Ly3{i&j48=7O@0}RE4ro70aT4wCG4xxh!*Ba+I<{Ws$r`
zEP0Vw%1trae=}B7Ryj`vUV;iYrD(aFXh=ovZzPIhAiaD1M36J4Jf9h+U#0$Z%_<5(
z(lUI*bPUg%G-GXiigl39{Xnh|O3H#o%Hk)4N>sLl30UQr*v2Hp8gfwy22PuXL#<P%
zKC)eEu#b!eWhZKG#XcA0Y)?0*4cDd41>2*+E}%W%@NHAK-TJJrd*(E)(jXsGjVf5m
zY;zLSYP#+kRjTVjO4qA3Yt}(LqwD8q4JYQvQ?;5C<aHg6sG;7P>*@L`*+i%Qoh|v*
zdZ}*L5BLT<NBskHvxnav|NJm5Irdbk-hexCOJ6unwFK&^qtiKR&iXZ0a?k~@1P8gk
zJ<rvaKBo-4@Jb$cR<Bk|oo;`~`3LI_2GJ)RU_y8W0AG_kh20zS?&jd|hCJMSX5d$O
zfc3V-Is%b{RUDfI2>MnaqA*aUB3k02+)9MjTvj<>q6tf&8couaCC`Hy6>$JmRb)%)
zvL|h!yb7`j_-XLNeJS_}mR!kM=|#Dmf#7Foc4m;<)B$Gpb&#CkJ7p`oby~TH%1L7N
zJ(ZRmoH*J=dwz#??kjlSbyr2RdKQ)TO+B3@c$;0dKFw+ri|#xApI1@h81_Ou`k~<Z
zgF?5=3sgq^S>~F;wwps7OM4U3YK8c1)+J$8m|PWt{>hsEezopE5xPFLPBK<w&?Y3)
z@jTo-%=!QZeNa7m)pm8$s2fwZWBZNym%3ST@Nq#@u!*H`kvvdIesoP6;kh3O=A;>S
zHsBKS1Y_B=z-PMw6h*cN@gV>n?jDX!%$kO)+bvh-N4r|rA;WcIW=H1aF6ig=y1|Sp
z?>hm|UI%S=(s^5-uWuLVGk`X%nQdz(_JY>HK=5FE3CIdrAT!%T6-zA$H{(@L{D52%
z7K8<&x8)W@pxSq~AOVFM`B;#FlG~I5RO`D#7F3|r7Oz40eHIh!Iamr*GiufvUH~@M
z05C7c&}qJw<nD4b({dE4Vj_?|>Qs0{*f1z$BM7j7+4Bg-0C;#2!_kOR3fjBv+P<#O
z4|NSyi;V&DP5`(_!amYd_&q<eo*%g}@@sx<O&eRwk2QBads+TA-Q4{mOxZ`KftO)1
z*Bm@}S^iCndTyZb_Wty#w<<FHI<kXk(e~6Es<WC&Jx{+t?Q_$<ryCWYGTo^emhGOK
zf1|5^Puz0=kI=Z&f8|EDDrPQ_r)<MB+hGO~Ob(t_kJtFNvXQrJXK%m`b_jrndN3$a
zNU}z~?lf9n>`+1-GOweOxVCfKYP;id(GPB56A)-ZTiFb`J=4x+V8)~M-g!iFyVFmW
zY-f5)BOyEJMB5%2J4o`^U8iVEvZ9=hD@qL#&;SkJXY3`AWiKNrB6tPCs|a2L(2+iU
zIyTKHccR|m?a*8w7kmemeF^}YYk_17S597g^SdM0k8EU$e`NaqmpXd==tkz1Sn~J1
z``7pG-^d&Y(`rvDBx*7hJyNhy77Hv56U!jT0tnLl85zAS8OA1%Y}aRdQ2?twQ2bf=
zurN%^K!SHD?=}om8(1}FP6wjv2I?vPv}2e`fqI6zUX8K0fMDYYdJyoZ5`IS*zNR?9
zCGR4n(jsXpJx!%Q6a{7U#-aNJrcH^c1q8jJ3}mPR))HCUcQ{0upHAKyyDi<eeon0&
z|9E}kboY&UrF17f7Ai1<mVv=AftZF^60sCwX~Z&Q&rp~}EJuch!#rX=B$eCjMQjud
z;ue1Y){o;qjQ@D-hhyA|TmII$oR78^K<x{~dr4Ipy^}92&n?X@f3@^gr~nP@Oz-l<
z(nOd*N+ZB`mYi#6)^j5vZh)<+{PN(^;QcgE{31dT*L(6xs`<>Gm9tmRuIN|wPy+f+
zGS}3y%bBH2=XAwi*Y?IskKtibP7d9Z)Rg)Ft|d+pj7w1qBxA~CSnE+jq}%^CsK@YQ
z#Eu}q?1&=S8Qnmeh~D`}88&?E6CP$lC<%h_P$R<FpJe1N$-pIu>4%~u><I|~a8gW%
SNIuAn3#n^|{vj~&r1=kIcKd<=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b0bcfc6610b5cbaf7c503a0df73384d94675faa4
GIT binary patch
literal 3691
zcmbsrOKcm*b@oGwe^LKmDvw;+5fh25VWnwlNv^6-p<2IMvQaQ~*DLNwUV1;w>{74<
zDzV!hoVGxnlN-1}lA8@5+M|0*&%G?G6k-=S2<XW-29i;rr_SthNy(yna0b|&H}B27
z_vZcP{XH5D0WuW+ck-DS0RN^7Zv<+<;TsG955YAc0f|vSmd>ogsBD&HD9kCG%4c~8
z<`tjn&-xwMr?jYnY(NcWgU;Hogw$|0?7%HbM2%*n4jfQoYHPMtjc4NwK&|<+o&t>-
z@tX{xBpMhGLVkyG-di_j#G>#fOHK_pa2|xBn~cn7yHGc3MLnn&1^Nhyej6<PqdqA(
zPUawxVp0eNr7-H3n4J~?q=>hB!!JdD<I4_gGs)KHWG`4sGIrmTY$Cjx6BQ&aE-uI#
z67dy;HKY(?&-BW*SC9s#i>4wPMpH6tcQ(V@eJ8OC;x@w5y0#&25@G#oST=R-<d%ji
zKVO(?N@DHEiXxgDI#y@3qH4!;MU0VV3WXZhZWC6PS6AnMyf7<VnZ3F+yRd5ebB<KI
zJ*TUMqKSl@SP<7`MK-r>KSpK|YdMyhs5WS1apXJ96YN7!V(unP5@YV5xR=M%8e*3%
zvG-ynR${1^BzDIK09kQ#wL`vLW)tjkCSThQOb-Bge;up?^wbQv@lSG&FY$RV-s^M#
zOeZ@iA|E-1u7Ua1(>RHjd{1jP$hS42`=8csx&<&SarurWds>=n^9V?RPdV>A1AhO@
z5_9ho+1quRN8Mt+lJ8!!<SQ|^X8^#7<`Q2iFIe&ssi6|{2z=^0CixLL(Q{gA33z*c
zL2R(=-)$-RF|loqREky5T(<P;+lEUmL@w{~BsbpYfl1xw3@IW-^8?<hF_-E#qA}r}
z{uPsqiN7Xlg&-Nzw{+b=P}E?vG=SzU(S$idmDPfRRFVJ$h2W;Vg*50!J0v+mkq$eL
z;DkRp=!Jg@PMIcB3#I{09p+r2l+!vgOnBR=3{ch}DH^H)^$mwv0b!bdqLxFckb{}R
zn?}ZgsO~lS!zVRAp8gp)gNz)O3#P1Vgsr2z;#4E3&@xfyMfnlU)=}f8NJ`borxO|u
zFFRaC<vm$5Z;U{_woGQ=8o5~Q#4#Iq*P^26pw~A=yopRGp)EOwMxeX_mvjxmqJa!}
z^W~CrlWIt}d)9XOP(z%y_YB$)i;8P+%Cly{tD;PJH*9!aRElU8V;yJU{07u?&l&&U
z=^i(yrX6EvZWqvdC;j2p+8Y@fY6giK*V(RVF|82KX>oZ@tAX8hePLlyn3-RlB4u@^
zURQz5jMxm^8G@2*i0kA{f$Q54X<IVZH76*yL@ZOnP8Y=J{i2MC{Tk5+ci;%DS+j|;
zplraMej4VQZZ`Z6r6O^Vo`E|nbD~Uz67z4!ngm79NUul_&j9dvsHNalBpSMAWMIf<
zLdh5oJ69$S6<q%xdoD07v$jt_^z8`<f+ng+5NuXA?3UWSZH}C@eMW&iFScJS6p$v_
z?Ub7;YsXmGQF1Y%p1*de;c}bL>#~*%;3$!XN#6r(PRQl#)(vvsB1QssHMae()9fyH
zen|ozq9<c79iq>O7oh)@)23QT7v#dI8}XxeitqmL2e;ovX+>U77q-n?x|ZHj6g92t
z5>f<o2jz;Uj?+$-8tM0oqGrlFBF*EptAvp@oc2Oc)wCeUnrsR}s<3Sjy46LfQw7%x
zf_n_VMf9Q#lyQ@U++9!|0fBz2W$5eJ;C^hZ92?t<eg8gJ3CHeVt_&qU|JfJakI#NF
z@Ywjvg(q9(p?9pv;6Zoq-Q};_zx!2UY(J4HCo*5PU%KzFgxmgb`J>B!TK_EnN&YkK
z6U`c(`Eq@4aDIPqxjeXRt*q`1u9d@UmB_$;<ZL-|w$k45VD91a$IDhn!b;3q@wp?8
zjmD~e5bdf4KxEJgCo74!_7fB3#Kd0WvK1LRh@Z3K7b=}eYh>~tos$RgGyC!L<@otZ
z&vzbv`0<BU_nX$6<CUHft9!Hxm{fnIf5hq=t@_xm^byCmwO2!+t?ytswLd&w9v**o
zeQ$WC95{DB`rw0qg?lR<eZO5iXs+Glvk$DvB`d!C!cp-Z&@p~A4#HhkmI;nl(ii`{
z{bc*unZ5M<HyjiEDRaniVSg2HKK~&xG)OW_$u}^4pzO=k$ElM(PPsl#9rtmn=Hpb|
ziz$(Il$f?l_QdOR$rXy2wng^Tx8ULSsF*Zez+QTNKC4aIV@&%qOd4!p|LFBOn@-P*
zX$pQDW8G0i9HcyAjw)X3YhYTj-SWkeUf$-Xugy%^{MF^@MVnh&x#m_cUXpXB%`37&
z{`6t6TLr<Xu}&Hrq@Ho)>2wnE3BYeto=GY#FirxbsGvzaL6-DkF#bk<RgPhpqX1w+
zFL;(=U--S>fBYO-1{zDiWJm`2+V=U*GT&+Sq^$0Ag^%y^U1h$@>b+?7j2&BEur4lI
zJxdOzvA-JhU13-Yv^^O6W8`z`@tF0!neyAS<@0k^?_9a#Cx^htu+?@j&nz<Ea1)Hb
g5;<3O=1Y@bcK$Wvzz4pd6&fu2&K&v34(E#h17E2T-~a#s

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/aiter.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/aiter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..98420c7fab65b95ce6adfee8e06fd7d1a49c0a99
GIT binary patch
literal 4849
zcmbUlU2GJ`dG_}9Zufll-Wii(^S8vL<_JEMrUcXQ=OC9j!A`)Yfos(D-t8V<v%7c9
z?!`W9PazRfY*iKXAp)98M13-%Qs4<HRV{fcRbTE170$MiklH*T_2Ci|73Hbl%<Ubv
zv8|-@F#FAXKQr^q_c!~u=H>{3W(0q!KaL~xFEXe%&Ijgy0l-D1B9$>vihKhGV+K+z
zLtxejnp}#baL@>u;Zzu4P7N8nDWn7nhmDBYlxkv703Ajue-5dFCR}4{@>9_wlZZSd
zgP{cDHOZNR?c_{3m$zZqf^!*DR&+<h{!A=Wz*w^!Id3RVHiylJ46p*}`a=cBP;7fR
zqZpbxICw<2GzGt|VM{Xr-M)DKh*H$>p`4Y~Pi1Nwsr7<Cn12SuegNmzP>NAeDxk3{
zqXn}8HE=F?%_mB6Fw1Hoz=Snk6V%{T7@=&S9q`$p$}OObs3EOse4Wp@;4|K_VBmu)
zqXx6VX_RHu@VRKJML=rP_u}Vatxe0w6;_z1`-W32%a!HT$T=<*n?{pNDn5)7QLnv^
z+{j{$)->&fu;vu7l_9sXu#xMY4?=el!G#Bg9;N`kN-mDg7`9EwrEjx6j+yVt>-la+
z!KXB*d$O>5Pw(m7T92Wpd-6qRENAt+V;E+SnNu}G)+V(~!O7tsgIuTGbEcqJjy|P0
zI?$b_S8w;&)F5Qj?4fp)%on{@kS&|KC1;eplGY8~DNgNJ@l465sbjERn|R1s^gxWy
z1AsgxGn5Gs$ZzDZ^whrr;39Gw8W~?m<rCLU%4UiTTz5c4MxYdM>gI^XsiXSDPxAy_
zW<0tWOGY4#D~39e6RP93A`Fgu5*67AG|8Ss6HFpJlnDHEN?Gyv64uTXbgbFZC{^I7
zG%==U#w6XAtehkH{%8~>yO7W4u%oF`&H|Lxee8`xrd0RSBqqluOTG60E~Q(xqZr`b
zWC0>PNyPnbWpS`YRkxKiuq35^ivUs@HmW&}Zk>`we|F@^pbUZr<>SNsa^Jv6|FL~9
zj7o~7E{l_o3=H-65t8I;_)$sKvP!{lh>AvVK_lDz_Q1;9%vn#gXG?a`G&Kk78EK(8
zgN%`(L>LpJ^TN6<lgQ|C^hP|Pe=?)xiPd9bbzU6s291BRMo+DJqHg62j@%HQV6h0K
zcn#@(0G&;2Rgxr3Y};$jD3+|7c|$WH*iLn=xcTHF!Zsr4By?xdzs1e>#jc9jbx%xG
z1HrbIYBVgg{3E*VQ4Ga5-;eFA#CG0`{iqrU0V;-K@%y55SCpy&7REe^bv%CbJc_k{
zjX0s@E6UFT^sP;HeKEKn{YmJHu%8MH^d3k3f06f*(@^i*3c!a9_#b?0Z6@HNUx6N7
z=9=%53@W0l4ETY^fe~xi+n5LSYPKy;X!@x!$Ci~WNkK+VQNeH$tQWL3Ba1hHKu?h6
z3`sn)?5prBRUwuDIkkIb#jU!;OTcWCn|OQ{{gZE=30L^;S?%xqk8vwZdd#F3OzVoB
zA=h1RJOK2_kHOO}A{UJ}LQb7z;i2CK6_kP{t`sVTOT5dgOaYYySFppcK>(@;r1u$z
z$fRw2;cEVz8*oEz*cE=yUh}bU1AQq{YAQwD=zB|Kxq<OUDDnlsr_}5Q$I0%OG&M*v
zsme_Oj~YC^4J>u-3Y4Lxly=}X^giP@JB`4(T!1VfyKNCo%aSd?5NK+$*!On2?8^IG
zZD(}vB5*HrdbgQi{WT&h%P+O8wn9mCo5rDrTiWXPsD{WYrI^co2den$vfLIbt95l*
zu1KlYxG@}X<93tV3g0!<y2ABcfpw7pMB6wC9!r`Vfisinw4~Mf-6ofFS-1I`uUDu}
zc;!D}_7R9=w2iLlfTL0)zS)u@WeYYWmUp0xfG{fMvJDAD%xJFQK=_pQNl<NM#*(JF
zZ5ypCWJTI8DTy7DKTN|gok%2|+%{m5Ri~KO5~B@S6Jr|Iqy?Nb*VM+8RZ;-o*cWW5
zV3SN`70i6G+jfeE){vFP5REd5O;TC1F?*<19z#M|m{lYQYTb@z**V<(1e6Z<4-Pgs
zN!Fvd+-c3CRGBfwg6f%)NzNF~6;6#wG)p#^CVG|L+IdvzlxCWc7*|oaV%RxJ%|R(a
zDhIz_Xvpdt8R$PIrHx$XbX_FbAXSm6Pj=_AmeJ|$km)B!9>QzEJfM;k8rhB38V^bQ
z#KbbDZhmjINOalnst@V=>0zk~YD#_j=t-!xTV+yy*7A^?SFmE*9t*D{FYXt%y5;oB
zv{djoYHyIl#+1C~anx2lKAnZU<-G8c7p?;w*pp_|Y6XE@o2>Ls^m>ewXv15G(nw;%
zounh_(_<&(Go*u+b?Ab+JeBvt%2Zxf)N%YnN-{}ECJA<uV1<VHdyMHZme&fplxrp^
z`wp<oT-u9MI%0zjvNdGNH%5OlZIft0J$y;$*Dp#wZxrk4d$syy5#b&XYJUjv<1DI5
zXxonaUHdCt`)?IK>*}xYTc_FS;R~G?oJ((2BWUf0OU{KiriIVNbyXA)B6HEfc^1CY
z#YZ93vGIO;veKTMJ#)SDx^ugDul?vu3uWK>KwLBJF6MBnA++|Hi-&)Gcv^TMww^D}
z6febR+)L?-D1F>_SA1@^^OMBY#Pz<bJ8rdBw!eJq%-!t=%lyHzcyLZ!_uKv}Lzjmt
z;`UknkGuZ7?+^Pb$ydw#t7Y-kIkMCx=gQROso5=;OV`<(!VTfpmK)K#oA=&s`%A~C
z9e0X%`%aYk6J_zlgQ$3ZU}oTgGIL~_nOit`uu-~l^76@#em>h*+1Op?JLaC6*s%G^
zz~zCDUY~uTvSCM=Z=c(=<%)h;|LFAW(aNS|nP2}E6n&kQu05YeH&&kARb|6Mq#9zI
ze=;8?5DLU1k2+9nQ>|j0WoL&!Iezu{wYRQkZoPOrcw7HWe6!5INoyZW9=3^AkC$aj
zF*RBCBC-t6!Gb~Hs7zeJ@G(uaFoSA(ET@9$S`H=|5|dH`yrTfsEtFBYoZ+#ygYkNT
z>n6B>WqF}NDwCFRUTB2IPW%eNHv0u%Ml%dqPB8dcn58e+gSE<!lpL6Jq*k?WLihL_
zn&V>C0K>I@{NmRLKJzRJ#pwiGK7lrK9pz2Cs|dcg`fqQ&!`@N<8Y#bWtg?6bYclCG
z091X2VYpq_cirs0(R=g2jRRGXx9hg^4f#}C&~u5egah1B=7HFDesX5={JS&nRyi^O
z3q|AS_s;CChUt(;Kw-=nmqscrTdI@?>^dTz-!QY`zfFXsrf_nSL~~6uLGt>>q$0!#
z=sb~(lTZH8)M82tovpw8Z2!>$Pjyl!WB5mcytd(G{?pK#p_;>_5UVXu-y{6q+7<7|
yBY+@vt-T$(D$6j;d;~GgU!u-0(DpCT^IxK!U!a#Cg>;5F%9N#-zd;nDvi=8RtMK0d

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cpu.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d015b9c2843aeb881c2ad7033934e0a753b78a34
GIT binary patch
literal 10421
zcmc&aYitzPdNcce%sy<^@7MYPcx|u^wu3KVLV^wSf=vh}P$#$3&CVEhy|0{^O>Ad3
z<myIO>!y|MU$)gs7^xDrh=ftE1eLB-`m4EWt9n?{-8*t5q^7DO^@n>+{`6PBGqbag
zVa$bGRrkm~a~|LM=A3W7_t}4TIBW!zu;I(#nHGZh58P3TG2htzB{Y@^hG57rF^QkL
zFd5NJ>Pg(zL)$QEklKc@F=CoDNo`};9I;GVq_!z+jo2n_QrjH1N2p0kYFomNh;z~j
zZ7X97yCSYhSHwN(CJ7yJj$rIx5Ddk-?&;-yOjgX2KF9aCGwvfrI~_=Hd@Mr8;v94h
zZ1iLNtUzo$><_SX+>iVbmS+(RRtI9yk6Faie2fm<^hcv?_>&;V!i*<ylMPJMfp~)E
zZiMM+7Qq~hy8{V?*eFi}GJYzCA~0q@6HmN_0yjsaiOBaPY{RD$Jy!z$Fw2aMT?|H9
zKe`~T7wgJLFZyR$bS4&^3f>6FXOU}bzO(yF9VReKOp**SsblpF$r`3~jP47=y*$XI
z5k~c_31-Z!g|#w<IWs{_>FQv9%D@;)AZ?6^wTEi+3rilM`jSq*$&icz)|<aDOgewW
zIt#3G{fKo|Sm(A9%<HYS!MWNr&S2kTT%r+BOmo$gg`vJMPFDWWcj16t?E9nd!U?<Z
z%o==dvF6M>SIhY~&($Wx@(C0TVAd}!SUz_RP%RT6p}O(!FF<>P0Ey8D!W@Uez5mPf
z@{xFNJQzRB`_T=SKRlB-_LHIMV{C6Y_+f8+mcJQ`_I?}=M|vYMh7Hr~3>!%BG1MEz
z!o&4`l<-IS;GCZi0-P+STrVdHA03JGf&ll#XT?guOh<xII^d7{KMaP0{OnxU9_Q(K
z5w;4p%3-zlIq}R@u?r1CBm?6C5YIxvZRx~4&{!t;0yRRVP<e1gd^vKKoYndC<38Ql
zxsH+zc@g_jB8XVdixSajFnYrqi+W+c$ETYBU}OPAqAAE>4F%nO&_y*+ark9kFY@4d
zN5CJYgOPZcjeyFU+h2meR4w(Cfnm+T;pLwb-?>_{t^<PWz*AReZr|x=t~ykW@fs!C
zmz^FHM>_pFoV)b&Nis=jQXo&2lrE_YVJ1<Plpe-Gm8pwDxes7{%8)Yhin1g^lEo^A
zSD<-H84o#?R`EIA3DkR!cPk^IN~KkNqO))gOcqrMVTz~<>f<pLrIIuxjY+*?t57>&
z(NMQZf-dX}Ai(0POOm{o=O~hxB>={&h9F?H3`@HPL>ZP1a@<!bnt|W_JdZ@nC-g^j
z6pW*2Wcb-QD;l`q94oV$2MYzZhJG+~L7okO#Ip#~UesS7dIRAvDDHdj;>9r<xQxDX
z?jn6*^xg5%i=qi^EEqV^6^zCcJk8BU!1|(K0O5}-R?_}>JUmN(!Uk{L<T-3?MMqe&
znKZ!Nj4@(O9K`}G#}#0}>`HJ|s<p8w%S5AMy%xMY=QF{X*zgo;!0$H6FGXJ5A;(4X
z0%wAzS1PguHK}p=r@(Wd!!bVtGC4Q6mqfjE8GawP3f1Stc17(<)tce1<BlU!(UUgi
z+||p}5|uXQTvZF7&VTx4YTl40(?`Ce8ne_9fjW|*`hWH5!&?t-J)zESyFFQV=M#5l
z&h1&YFWIy1?kDc<ZFk4o<#lp>@TvRAv)29D)*+#FC_VC&YR*yaEY&Gco$FQKP`%RJ
z38D2wajsjSy4Od)p^i#oUMAo8OH1;79a^s^-@M{45_{<a9+O=vA*|O_C1h6(Ko@j_
z<Hb=$+O=eyA-~ey%j+CP8cBk$P_QIPEvZ*zj?qt#fWFZewYqc`4Sk@zBV|bH(IJpi
z4gH|ygmKk8W=g4m&d}bCqB9LDnriIhN6^&p>U7)VT#d>JiqAz7{kMv0&Ba-zRiK)2
z56oT#viL+lQ&B+!?~kB@F{Gh470%j&i}owKlDOi4(knh0qR4ZLWOPYI5seiEikSF<
z6%2u$QkRkwcB$tGLgC+(IcW+VesR8JHFjH6<tsyBy#=h8In<^CfNs(<2X=Q3Wc+1x
zOIfA$eJ@>q<i%Nq?kQW+nzZ3J?Xe4UNCUUDGteF>`~M54*tNL<cBrwJq%CQmgT3HA
zh5GkC=^yl!DAhSN_^RZKzpAdKw9gss;mi46L;gznUIneOw^HcW&;!+bz-nkCZbc<|
zd5v27JqnViQ^9Iz*#fKqEYe^p7P-wB8B+<x-*^$?E3={*QjVk}X$bw~MHod2u#}}7
zDmos25x(S&ulkK0dwk=X-~YDKuco5d%c(o8>^yWzX%(Nz*PwohhCE%wptKa~srIJ9
zt;*MAhy?bqwJf(+!CHJ$1Y@~plKbF+w<<F#%4yJ|lyaZxW(l8l{OkrPI+WOtzJdG<
z0);_rkdl{*Fp>$MUeq(eh-jW>**G+$sqeio<!eLuSO~`t2$%&zH3*dhH$@%z#nyL}
z%$G>=qJi=Aeo-H0qoOk$yAgzlnf@fm@HaUe2XImxfUtavP8?+xlVb=URjh_V4#I|D
zfX@5%kT8SD!4g!~V)+*J5&w*6=JElCHAv6J^AScc7@dlVhG3K*5_Nn`G(xNYC@cs@
zMI(wOqKv5L5^%^VaJKP`nfoZgvU99R`2mTa3CW1`kmeI>0*LkVEG>KabRql~D{$Dt
zuv7j-7@ks4LqUuXrr|tH7;=D4bO`n-#RCZ2M+j3mdMd%O3=R2)L>OKtM+q`g(XN~p
zvU{Ri?m&zbqvJ6+0G{TDXdd~4JSQ4pqnv0({^$*s#)MFs_=wUTMLmFs=KO&;90JPG
zhf+&X2<nFMxudTdYvAxmCImJ^+%Ldw|D1SkA}Z_3LXB-pU5=`Nm|$USer%hnSU5j_
zK1($VRP)Nmw`W#o{(A2At<_tP*e$9#LybH)8?3hH9-^Unh0Qh}6`GG`>iakSLjAF{
zYrCd-C9%fbjogW3Y6jBOZ|(JK19wl{IgxE2e$qa?-Ed^{&|_ov^n`GFBGYg+eeor)
zPG(#BgqFU?M(MR@rPuB_3E1U{`4d_D;f($8c75yG{&mm&rj4cyy#B&7*FGF7WnEoQ
zTwUAl)|{s<=c!#DTN>N;)GeQ1I-m6%5IhIgKD~SE&aKSBp|6cwo&y=rIN+|Rd~PEk
z1T(Jiw?A9`Y@Ppi_rQ1UUF(CJ9S?gR^kmxK+H!k=bS)jXr&p)H+JC=mqbt)qxM<JS
z9L&~q2{m26s(RS)pkb?~D^oMPXvj5nu3xx+Y2(r(MmY4g&~zr-cwT5cpK1K*qV;8S
z&+6LN{#2;z**x*^%?EEje*d57f24)}38D7tqESB4%E0a6)nV8{=SF9?>!i?i^3m0;
zcdu=Aoy>Gyf3DY6RPNY_>egj?iC&xC925=?2~|T`&zpkh&5Y-*tY<{<jQq>szn%Ea
zi7n4a#&c~)PgHo|WEE{dE<k>2_0(5`_lGuyvfaZ%_wb{@*5&uMx`#8}*M7jrflLn1
z;;6if^^T`h?>4nh>chhIfu~g8j+>~cDn_B3hKKeC_H5s~Px{{7u4-Jlx;Aom?9N!G
z>S+4xc0=3R;CjdX!yAV)4MXXRx$4H{&{Ama@}}X}qyI4W_hXBpO!ZIG=W^9eYgE=d
zAb1Bd-ZzBmH`3?etvPoU#JgE{tKe?kc2_N1mMmF!o8WF+JN9V*mb)$EKK+B);BY>t
z@>|X}91<E1tus%l{_j-b_I6`Sw(*$Icq~U%DhC2GXDA;CM3!n7sP+uCzkFtWVv9Ob
zjJO4N_ZHQiqnx`AbCWG?cxtHwF|oQAjf?zpYALnGJhgQHma2R)q{gOM3aL*){hA>)
zPPa%Uls7y|A3t9`h%UJIdcF`&?-`^Q-&sgi72g^v1k%N^B-~eM1>M@g?a!}jk3%3$
zhHwH_RTw@0`a3d&aFSG26bC^oEH67j-h@Nippe{^sHKt6Q(TD@4rnzT(U6Aw0V#lj
z^8n!z8ER8)6uL#csxPLohaW*7<L{*b=2$2|gL3B|n|oC$b#GMAohnf1z684K<<Q_b
z8OG0|qW~pZKMeZ8fXDlf`l?HOp&^(<?_dBOeMYQOuKn_+J?;-ovy9|0A?$u5>{E*d
zj7qFT?2RCYlYWJZL(wStB<LgteG^xh6zDXrus9;@&Y}@qy^X6;TwQ|7XHt6`4*Avj
z)FujG$g5DP6OqUVgLA#F;{re?^{+6dUf@+o<*PMcZPRV*s`WOtN@Z)03$@1|y^*PX
zJMEB7^Wwnr@Y3+#?!Vi4r!(6&AhZo^{tR22wt-9=wl-GVj)ef1;rRUVEqiNjU+wbo
zrQ_)l@F%iVhd_1Y+zo$o_4f7E>)EDWp{W;)f$f3q@2G6wTSDJk*s?VBW}2=6B2d##
zqPC^XeaI>H-1o%g`-7baFas)Oylrtw%K5XU&(`>-mP7e|wx(04>0Iyl#?mX_a*#99
z_XrfU3{cYu|B}we47`kkgn}l3fqVg-pev^QuMnsSCVV8qYkY<h7PtWe(mOc(4(#*g
z?`_I*;(OoQl!0L_#(AOooY<iVu#m1+!PP3ccn<LLcFhL2ZHE9aPPRm)rz#|O5u9f4
zQz_Qs1E2!FdP$j5=9GocYXq=6r8r?DxBw+gNi)#t746i$JdO_lYs#9krR)$`+hts(
zHB-3ANKt^jaJ^H6(Mo1Q@LaG{TIt>-m2^zu3n`6Izi7!)&XO~01c}=FfdrNlCxMa{
z;EjArk0g@LD+FBsNr4?2fZh8jxD&xqOF=im&lNaXch#21H&U!2-G9mo2&-U(EeN^-
zl}JVrR(qn6jl}s`DM%FE<rpFnpG%7$MLk>v;ffRW5YR!G27w#;GmK3?gJ)*&;0z3k
zWCTT|@mPZAT+qU7TvFr+25a!S!+WVO&3l}Ou!Oq{mBi1Thq4Dx2?tL-N@Na>3YLzv
zK7D1eeUV?e2Civ+Q?_nUs2j{tjx@J8veI$8d$l`TKPc1>?&@{*wt1%n-T_L>;aoU7
ze|GW6mw%EbrTdU3fojT9Edte&CbymY7N+N?SB|XsR}QR`_stvTr_R2#e%oTtS{emQ
z<H|&~sYht)+0<`ddDQ-he|+t0aPO`>b5*7_#H!%n{Tfd3T4H5NnfSc3p)FRL;)KOm
zRY3ft`^TSC;7;H~f~rK}hb6%78sY;2mKRxIP~G^1&y1#FvBXjmHzGfD#X5-z3jsHz
z5cr$4%#(kP!M#wy(qfQZ(0M41=Rbl<Bxw!{M4oG8jyVVedtcG3I0kIpzXCk>K2#FB
zG___M`-R5-&CyKbaluk2egD?Q%PZuz%d;>$Kf92ePi9?%f(tWEj&k9@miDcd-t_3g
zrN6keIRV29=jP90&FL^>&1ueSPFb5*i56N)K+v>kqw~1}Xj3#keHh=OLeCxu`#COu
zkEsVzA?(N^Om4``B;aBmyo^{Z45<ztA?(7*^u<nyXd06e5C}){QVKwF0z}gU8|7jM
z1@SPJD}+gf@RhZs*=6!!7aidWYcehcdi@I`XLRrANMq$%|L+KR?CJ?qg*32Zl3E61
z{Z{iauo1@kN28BBzSe)u{KmHR_PfH#E5E~o`32D0p`6D4&B2F54~B5Sx<f$sF~5r+
zJKpz6<GxMfL(2opL)Qb>4uSiRM|P#>&YZ5%*tdT5{`HOP_vsCKhk)*5&n|xKjF7~B
z-~U)`M%y#^NHg;@3%BNP?HHjC8w79T<owAUGwxXkm=Di~S0)5!>keK3!LQA=&^X_?
zYsWpWgvevuSB41sC5UiOg$NH75#io|gvhDd5%fzC;hqW+9#RlJw?j|<GWdJ=DrK!~
zz`toh*mla&gzcVq7!UT8|InpJ{-H}x=?`6c5_~Ys$r-+(*ILu_$&i1DmX~As7QHW7
zE`wpw6rB>7@}oCS{!u_}`Ctz)IE$v>M|RQ=0}wXb60b{)sNzu3a#BvPokD*JaKNAh
zhtuObdXgk}Z3OA~Pon)>qUu}X!Vfwfsr$i1kZ+UU65Zbteg8#Ver`IaCv98JM}Hu2
IL!$5h0Sjpn+W-In

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cutlass.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/cutlass.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0393d3b162ca22a78fa363700a0f3ecb566b1aaa
GIT binary patch
literal 6915
zcmcgRZEO?SwKL-xe~x22aXy@o5RyP}2nk;c>5>GNuhO!~!a_E?VfT#&&xDL)kG(Tv
zNV4Oy)uWQrR|)egNmZ55{vZgX1+@}sRjE{}v{e0*S<~7(N}rHkpH}-XuY^DE*E@IY
zi5+9;womU}S$EF8_ndprJ?GwgKKw_w+lfJmkpCup)qr9Dff{C^3c&MA0L)<=#^Dic
z41I|R9wo*sID#z^GD?k6224h*QQMf!fT@T*>KJnXY~^ebXVf|7jJn2LI7VRK#yI<R
zjC1hLdzSnfWArp0bbgH*!$DkkF`<O4#G*_rE<@8N@$m>7;+Z%ru~A;(CFraR#l$PT
zq%ca12~Dt~$VaXUG7lr(P(qS;QDJ~c8IMWPuW^_+Na+6aAvVHuLql&1BF{=^cnOH~
zz~<h!*=b%n9uvof%b`4T`PxxvJa@uua~O|};T$$b@D>i|$#H@su9No)C}R}#T6imr
z*myhd;K&&phK&;e7#}A&ssz)?S$S6&Bwt>_jpaQU$e$yD-gccFt8!qR>mQ=E!#XV$
z=5)NG-{2W`P?2if&N;7BW8P^pNb60<6H0`Y<;`*|NY^UyN<tDtNCl+@DgHSL)f@(@
zCx*X11Mpo8)Mp7rWEr8i{`W+$5{>u9h4^lTl`iwj?y1C~Z}m+c;(H^)rQZ0oG7%Gd
zuS6oz-e`>DBMd*qhZ0Im>Wv^J%Do>aSWyvXSVaK5NkiRouWTFwCK~MpT*P-zd|I!D
z*_o&yG9fn3UJ@dLGCkAtntk=Wj9(2b%jnL0iaqoAo&$jCcxX68AgE9fZ0x)TfH_Rr
zkV?1|tAK1CCmEl{r-`6tI7pnD36?R{D)ApD1c{ehrGzL7;^o$u*m`{A#9KW<;sQ`e
zR+vq<2{K$Mj)k@t+L9kC87<k`D)|tCJH(2N5RFIpDBPTvRw=zOJ)2PL&`fB$PqDvx
zwq`w@ny2%rCzz`_`OFiLYS7%2p^Z&)utUEgho8c=DwTtZt5`)@6y%d6IKW^wq@@yJ
zw866SA&e(2Nm8|N#0-pcmdTy4>xfEjYI7V}I+tQzaqLxGD8^%n77Np5OQJr{%YDEf
zl5bftH5*1}rmTc(%Q~QG;&aq}>%GF>&8HK`#GjY!>k#a7)Mx`9XPW_P*fSi<B&E2_
znZrnHWkt29)HnhBR(On{x59ID-){1dw5nDx1=tS=4pYe=5c#JrX;W?C=CWm=sS@`J
z=N`vYTax(ymwRP7DqBrnRXp5k!o{!2HD{YV0rIpLZ?AD)+KQMaWa=vEQ0-DToa_#B
zr1%Z*D8eQr*C|00RvoY4rf?3DjxzaG;Nzb-w~k6@v$EV?v9B(32gPq1m;Sv>YTd<A
z6WWlP^A$6r$Fr<RAC*a=!o2^46rAC`WeY*`^|w*kZ&Dbi;(*yIemTs%H#nBY#eXf6
zNCk=wiMUGc@WJAYCRDP+KC`d*HP3I7R$bx4#eNeiq3$>Pir@Q=4SKigRO#@Z;+P4k
z?iqL?(QETMxh1O%`azSb_${G7QtUM$Q|?KRTBUl>O0VF84p*4l;0#{Cr1$^iq<CL(
zH!AX?dQ|TW@Pc^yUunWuwwDTLr$npY)MoiA??vn>JKGiRSn1g=!>+(vDfTzN>+(;_
zZcO1NG|vh8Zrm7T(cUT@$-|t5bCyV^(s_58w=`M(3f?Nba8jU*w+g#9c~h$myIfr+
zr(-X3Tf*r#)nRpI9Zq9^f3;GrOk+WMSO-t?>!ZMyge0vK!^5Y*Pj{Q1Cv#b1ISC>h
z6k}1GG9Bl2E5~0ELJ*BfDCW2jwCEO2i0ZaUo{s}y^ak5>8@SP|qDZ>^D)TWTLU5;B
zQN+e7IweoAab6<PiWK<tp$VN3Mcr}Mi~)6A(MgU~SltPspdwsO#1gVj@zJ<4ZOktr
zd#+QVSbUn%EfHSSt0J+>0=WOoRe@6`WVEVWSQVy#h)=IVj&d=Yl#oBK*FmQYd<r2(
z5aS7jkwX*UC+l{>B=;2hr=t*_N<v7tMA<3bCKq<+5SW>Gej!Q_#POI;3Zl}d6G}{{
z0NTF~2n12L$cd;<vw+KTVFN!{qmwcp8JCb(rdzM_!sQ7?$D=wvsZ(*5V<vTHz7v9D
zPPZ`y3=gn8o{)KtfygKk;dQ!zWkf%^%iIUV!@4)$nBk=u6OREqXjtiE6p0lSSto%X
zS$9aRc$sI=woDKhrt;HS07bVI_?D5=-}-XN2O7<BDHh^oxxlE*u;UQVGm#j}LGUv3
zt+McDQ{eGhQsijLzlNaVQ*7OeRR`v47s)&B+wP37CuPmmHKxcPxpJP`8|th&OQ!JD
z-kgh0NwWvj=YDv2e($`raB%V5j}PYp&8ZVVI<rbQ=e)IPWiEL$x$3Q*v){C5y=|Je
zZSmlpzT162fAh|f+efnP16un)rv1p1#EQ2q;~jZH5$;iZ&5n6}>3y?T=6yf>Bo}C$
zzqC-lxObsxiO?Fl($s2m+pUWW7nimzjVv`TAN+0quliTczL!1wk#_c@r_KM8cIFy8
zes*q&Sn@3qiz8a&uCy)Zt)Fw>bkC1J^={7vTGQ6Q%ii*c!O`(`;OHd2?#G&1=J{;P
zKCNY6rg8rRR%<+z@~qak%qJGPJJH+GO#Oir{iUmM@xYzKw-3X{zGxp<ZQA>w`!SV0
zdO<sSA=5OHdVAF#$kDzW?Y%KHJG4ssZk(Pyouykex@BI?Zr!78-Se1Qp<6QasdXFa
zaIRHhfO>fLaMrau<J!I2xNUL!lK->jyUiI`{>(E^&5ciHKgoK!zVLLddbj2Lft<f#
zZs_LFsy{Gy`sV4Ze~0GZvG~cIYqzguI{ThbEB+lB|1iw$t6q0vzJ_^fUb*$Xh3_pX
zfA${uYkSwy8xJ}j^*rp!w7<3DZG}^?wd2<0!sPw!pLN~s%Cx+ZcIE0jv-MqCeb+B*
zA2mH}TB+~K)DNV|T=UMQGoQV4_nl=<>prG6AJ1+%t!+7-+49}A<8@=t0&R;QXn~#w
zhaVkzc;xZL&zavb+Wre#!wBfv*wOrfTLTLNz`@SDJF{K=T30`)=H1biuKrBd`|B3M
zSH0%M8rtWs-MqFGcrc;`-_+{g%+?KRb%Vbj`TXMVF0RxKX6nwREgRDfE)3p(<FmfI
zec4?D+OC1+(8{^@R(1_!c8$J3(}7^z{`ATGx=S5T>E2bk#%KfK(t)S+9#D(dUn2S1
zE%PIbC+-a09?I12OP$KqZJ7(-3@@I0K>p_BZ_oVdOgfyYJDvJ=&Q#alFFboewoPq@
zHe2qtWE%UH4{43Z(l%HMu1(JC&w96M-ff$2&Y|V)#-Tj=!bZBQ*69MD*`{u-se6h0
z6TLs5F2JXB@{+*HA@uZ{1stV(!r%&oj&m3o<c-vci308*Zn~%+qJWo7Qb}vlmb9yO
z4ohGVD4~>tQB*?NnB6qTl0zjv1dOCJ=}OWZmUN4Uz<H>UUP#hKw=0Y|D=R?dF6)A(
z>AtE~)uuY`<M#?2Y^>>4-QVw2ZNMuIE^?Iw!L*30?xd$=wW^or1!tO6T`Hy0svR6l
z%YEV=O0PgUkCjlOyiZvvp|pTRD<mWCTkavd4&^)+BvESCA)7WXXaxg@a%l`}0+)10
z49uh90!Zh8N;-?G3s40qX%xZlqv`{*SL#4RPQ98z`Lqo~23cNNcM7r~g4q>AJU9Re
zNKF}5UAI6|SoamOc!r@e(tOe`m`blL<n+Kqqf{?s`50uId@pt9SN2Lr5i7{JO6O69
zSk*1yjG#)^EnwlnR)h7<Z|6N@cnS?qF|x4_ot%PU-I{k0j19|3*5wAUkY{7#@yN7k
z{9d1D+l&fR%3neCDYiyqJG--;gIed{aw5}tQnPoYEUEM9_OvoT3eO2#XeIql%CYLI
zO|w6#ed^kpYirl&t*PVbnzWFssh>UZtRZmAwqQ$rXSKOC+q_R}-uGbdqyC5ezZlHz
z*`M2UAou3+b(^K-BtAQAP;oFV?Oky-J*y2Y`d4bVr%rv@*m|>LkxLz4t*Oh_bZa%;
zIWOG)np{H@`Zc!a8n)*A^|{)>y3gUSTEiT0>HV0uChO_YJRLdOldhQ$E$v?pKIvE)
zy_g-nq>WyJ7t!ln!w84dcngB~aL}jQ8N(G~7~RPf+!=srh5@}tkk1G$R|sWt!TFkq
zaiBF(k<e+DP)1Ms5Gr_5VzCG~Sc)XoqfV4{kvh?cb;$6Lq<4+R1zwb6k|dyEl+QEx
zFmxwDz=jzW%IL|zgz7q$qr7VbPE{}N{~HFM=N8QBGdk9+21HVgD=mlCF!(N?eBANG
z@`U??bLH5(TL1aKq0RyUKx_0xoI3E}jYoYC`;awR!%+LN^4$2Y9kXEDga75&K{=m!
z{5Pg%r*2%Ey|zX{8&(2S+&|mDW<xDI2IG<0$ovJZYTFtj0Npt~H@3`fS$9Dzzag}j
zpxcmwPNEFDgx*H!BdGM<sNJ(Uqu!IxsP~j+)O!+&5Rvm9dfz`p({r_t?PK!fhKF5c
zkemP4$VSpyLa$g}gNEccYeTp9=RMm&=_=qMYapX|bj^a}_;V+QyZ;kw{|k2J1wr7%
a3oC|qe}$b}x4uK*&Xu-<FE9icqWB++_ty*n

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/triton.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/triton.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..274beae023ebc8cd2c45c2225a5a746c9ec9873c
GIT binary patch
literal 2223
zcmb7FOKcQJ5bd7dj`!nTTP6y|paD4%tH|C&!NO6jK!QRd0ag^7%U(vqOs_qr=R@~w
z@LHDe!BSX7kxvmhas+V+myjbzqFn5JL^Mhyq=W;v0fT~aO7+Z`tch(YeW<SLs;;i8
zS5xytrBXz&sPctdQW5$?2wMx}bZwr7?HY2BgDGl?U82~Nni58i>?l<Bl%|sMDpftL
zsbM6ckC3CSBBwx<TXN>6S?J)p{zwSZbsX31He<w(%#d19D`4Iu3>r`zIMt4*#rceF
zQR19Cch>cZ#m*4s6AJ46+t1Hh9l}lpe#@P+vv)GumkXQ2;P!I}pP(joP*WnZgNf3T
z9BEa#l^ZoxIF*S8ngY>DpQ9`l5Nb*LLElmwwa2pPXr#38YJRb2TNv&Ua@N6)(o(LX
z7Iq4&<z{~$a!UW}z7B64+QDz%F6U|7kj0L-T6!8uakbK{T}6wyIWU9j<#>3Oxl!P6
zFKbrrSYsq=Gv5}_^ezGErUK*|0#K#tM`wV)DbSN`%DFH%{+??@Uf2lTa4fRe9Ervj
z+sEITym*{6sC%IicB1*fZ+u3n*YE;|P?IbYyB!6rK?SC~aj9+jk-KC?F4$d6@#hVm
zc7^GAjVKL!JnY1S;N0|F-?XjJy5Leb>MV`zp4Iq&&HEu>F8X~1J*W<B0)t{~Pur5<
z@+J5*?~j4GhN2fWS?IOOjkh|B;SOHL3!+pnEsi@<N3JW=b?Nld%<j<|j9hBFjBq2f
zF)q)$_PpV8!w(`O|A=VE;O#IBSVSBn@QqWSoF5l{PwwG2@c+HV4c_rQ5;4~{ddm(@
zW~b{i6M4s)%S}6M$5q!4+mZR=MqOeR(6a#`T-3ram?&smu`S<py^s<QKJ=xdy9YDA
z&2msUItpY3{aHG2zjS1ybmZsKXd)>?{Yeqk2JTmlAFD<p$sp^fHq2_`IW_H@ZJ3F;
zQ_Mzz`3eJSuxG0)Eu$|1@@0H0M-rnBx`_dgScPH|79R{*U=z;G%fy|VkGN^IBEn1>
zSdQz@)#X^>gtpi#;4tnpO<PPY)8yho!&pgcz{FHon%pDvJ>NJCx4B5}`3m|?uXGC=
z`q&Nfi+(K27%#@k1=r$sZ-0q4PIG=8n3r-^wsKyUmgTL%JcF2+X8@y^cX7oEL)zKO
zxvsJUaGEB`4hl}pBQ^pg{a_4Od8!7S?FsTW#{v;99)#4MmQihA_wq({^!oW5@85`i
zsvcX<bId{;jCIrWEsvOHTr^FX7i}u|vS~uQ(p*zY5r8(H51d$b{fJe;KhuE3YSe~4
zgmMJ|jb$D&wl6ylm^~j$z8`DnQm-juu{KM59x!GIqe_mgO(-?ZI?l2eU2`%6SqGL0
zBEAFuEs*D{=vTFtNLU@b{`M0D+op`Pf%G8JQm(8HuOB*|AlSeA@b2h6`JVHAas7i&
zH>PHuh{OB>aLEW(C%&1uGkJUR&WYP65^y(hH+m+vq#wOjf83|36A!9GYm42*wJY5#
zi3&2jQXW{F>P{sEA?XP8v`fF9-RM7@hzsx~6{~9_-I2daAU#Gv(ymGqsq3r`X~g|v
zK96txqIot53NWTcuQSnV@z73xj<o2hCsqcd%yBvt^r;NJ_t;yY5Jlt$kVM89Zx#`*
bJVb9iL~s6%-hHYa#1rd>r=B6$QxE?Dnj$X7

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/xla.cpython-312.pyc b/model_executor/layers/quantization/kernels/scaled_mm/__pycache__/xla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cea8b87bffa9507b792c12303d27f3aebb2bf837
GIT binary patch
literal 4859
zcmbVPO>7&-6`uVgmlQ=xmSXuwk=BwNn6W}ewo)sxonPBcV@pwDIcXUKi#2yBt+GG#
z?9vhmDlrP9kdT9vla*6spnz>SK;@Hj6naY0i)b03x^N2vNm2O5MoJF7v~QMNiBhGa
z$w-`eGxOfe+c$5%_vX)yjbQ{u=Rec>VhDXpJAM&r#M(FzH<5}|Mn|b?%cL0SvpQ>V
zDUP9IoX#6UO7Li24;aBz(4z%iG(xEm&;d25hmCM5Y&4`A7{sDqB2~PB)DRBe<Ene5
zB6%hreo8w-amMA-mZ?J9OmJ3L(pb(aL@}^~2@LLq$!nN6vSZ2VF~u~oKB3tdW}4DD
zLa^z`Amn5$VmxJF!8q%-UQ8=GRtE<!XeL(3c}zga-M@A8f|AGNEz8Vkqv@(v)jCw`
zto;sFyNNKOCP=ZEQyI)>Se3oO->b2t1Q_LT0A_+%#37Y01QE)x`(ZxAt3n-TSPkHY
z@qIPHx@P=9U8hE>jLL(2@CKiXsv^jB?7$P+WxT2buZBUo>1RtffOK;Rsf|BL@1LbB
zSZ~KK%!q2_hLGBm=i^bg?bjFH*m{1oQw<R8<cOK3NADNvW%Rd3?R^tD8*?giuSWlt
ziL*n6-;4}jl6>!xR14eEm~stEiUdxV##u+QGC&&HoP(vbl2xu~y5{72C1*^tCGgNO
zOO@;~E2pcHX*tpr%B6$rCBQvfhAih-MpnlL_$XG-5@Jz*=F+-tQ!S)_sY%DkCbL@h
z1xF#H*m+?xcjD!Nk5AyFu3brH^RT>`yr%0$(y&yl%Xku}bB;xlI`v&Uc{Qh)j#f|{
z4fsCxyxdOOp6|<sk(|_(L^kj4ft6)LGv&<>C_KN5ITQcQ+XAZEtx#P@-$f5qSf=sC
zHI9pgD~Jn)*I*pEOnNBIQmR%c?b*KwM7{mT>$z&o{$;Y6JX2)G`Py(@Lzp}ZGl9CH
z8VNES%!oVA@OdE~7>cv!3O&B(z*kEIU(IO*PMYLQQ!_^;%ap(k5|lByBcqx(6+=r)
zO4`w`dB&DJBio)#-;OeN-T?O?yGkW?l&ZrwX##7bV@_?SI6E>F7YH?h8_;ao$>!X>
z(Ao~@la@6TJXE&RW8iCUtk&~2aHGIjw{n~%5CRbK4wfE>B#|b%aAR6AWzF~4!r|R~
zWD6UGFM9wgaF1ALIrdyB_S~b`k=2&hpEN|u4c!kLx>sAyKZ!M!W75NzwAwQ0(VY)t
zovSVHJc;cmd+6SR=h9oeh@PtFMSlb(>%FMR6w!{JRP(MW*70K++Kt!Q@TQ%-XS@OS
z-d2k2cx2lUbXDdn_FipYKe{o<p$7H}cqg^(w&J6Z%6)tWp($<?p*(%5MYa`xk14*$
zkzV+IdLy@$@x9vyplk1SXf*Olk>5od-)?-7A3x}GZ?-D$>pR77v+NF<{tV0VKf$uk
z`g(bm+9@!ix^vjdE%~yWt-3pR*Cv-wZQ(xbkB&d*Q=6?SsDZD7{;4r2kK*FcIe`C0
zAAjUgqNoJ&1@!daP~cjRnij!@%fke#5`-5;8ulUpjYV+JO(!9JIEGCrXT$u2=8Q=Y
z3esZ<m{xlw4WJ^6)0(1d1pqeyHOs^_d^uxSx<V8azySb@af1f7ZDkb4Tiqa_z2Z2;
z6({7YGJqT=6n<U7Ti9hy(+v&#shG>Filexkj!ieJTcaAp8F@leoiUrr+n&4|0Bs<n
zA~f<6dJEm4eKm)10R!Rhrup0<O)g}sf)NEMMIEp9#0iB^aJJoOM$;h?^!sta<!!8I
z2*n*YPz6bVJX_9CyT}kIb2@e-)d_$^NCa)FheS&i=bp_HD-A}Ft4y}6WMBtbw-gn&
zEWETE?)^`(=V1@K1>*X3v>rfv_Rl}Fz~64X)wt4}m<~J^_pe5p=lXA+{`~as58pm=
z>qxn)ztq*g_`!pZ?tipAd}+C>f2He#b&d^%*PGD6j(J?}I9BR7wsPS3qEb3=VmkJ?
ztz$m7px!oa87po5(~-Y499ZbTee%}Ha`)+n-KQTP>|5+z63VZSlwKcMIe2OMLM4Fq
z^_1I=mfDWqd2^*LIUT8Lu^MTb9h@0_9BH0?d*<zOq@xt+m@k$)Uo3ULxFjq`I#wd*
z)`L7K5=Eh=IbqJZIraI}g8E22`dEy4{ZBssWWjkP_SX94wj-ssBX@cpiOF>lg__G^
zXG!c_jkK<|k{<=g5~>i-OuGCPO|jDy)cryeArIs!9^VAGzKHHJLwC_#j`YC@`30>`
zKxI>|jU#L@EpQf9rt1~DcRR2;rg!NQ^s-$?tFfkO(Nk%QCKLocO(@D!O^R#*sEdfa
z3=MgORwtp_s))Fug|wR%KF9l1m<AS4g}MHj$>~^C4SMPPLUr`i_!|(Q1{$wrtUd#6
ziyL|DW$^7OeoB}M&_8%MAf1^CIvXqQlr{bT5f37Upt4_a_iF1+iB6-hN0C!ej_Mcn
zM>bm+-684~#UeM#`fFW8aejzUtB=rRxt7afc{9t3hul3fO-O5(*?Se*ZjXmfGR<!B
zWEK;R=GTgzNat+FGURF=OelK0oRzg*4mjOs{Ph7M6vxQvkTW?0gj$-MqSdQV#Y0u6
zqu8?Pc`gU&NGscAWH+?2JFK2_Z2DXTx2%?09;IZndfrEu-Sem|Y?ojin?Q9PRU+uw
zL*@44rS{{CXII)^DT({1x#^2@hvwd!XVwBJ)c;+yWmcQfW{nx69PKMb`&J{3tC1M}
zmwGB86g#$tgjjf*Ti=74TIbHppP9R`&{OU@R_Z#oc;><2{lTTTzG+=Lxe|MKS$x-X
zLeI<NEv_hg2rSEPSgxTd&=FY%1L`zHK(8UKE4E#I{<s_%k~C9`QBy$d$ib5bZn|aZ
zE@wN0(EP(Y4$@5-0)rkzlb5{C2sUktY#sqQPr1FzMso|#poCr;ucAZtk5Jt}t3p$S
z<%RIV@$V5dYa9wRdjnuSN;L`xmOD;V5VT*PUF!LU`$qj!c=^ruOQ$Y=PX}uPKvg=r
zh4A7_4+icJJb3N?YZV0DC1;H`m3J6MXr90H<>fCfR}hek&pc?q-@e3``p&G;ekH&N
z`{oaS+51H=o!@r{|3Sa2e?3x4yg}#pRifx{{GXv#VVHRmYn`2(nVkJ}=F^Hm2LPY}
zgHO$zssz2Rh=4<%(dS1>@XqpNDq$3k&9=|9uQyPZ>OoO!#2ZPH8pZSS?o7^1S95`_
z7s7&*v2;13TN9qAyD!kkWMb=MGEsd@Ch8xPiJYV9b~PCo_(?K}i2-Fmu8Mo%KkAA5
zZ*1Fp!VsF;d+t&_+O5a!il?ek{8f?yJ_>&}jRh5sVVE@$F-_m1$X`+a-_iLWSe9Xb
b2q32SALzaHz=sSo%q({t`vG~BXRiMMCDV`&

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/kernels/scaled_mm/aiter.py b/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
new file mode 100644
index 0000000..038a92c
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.platforms import current_platform
+
+from .cutlass import CutlassScaledMMLinearKernel
+from .ScaledMMLinearKernel import ScaledMMLinearLayerConfig
+
+
+class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 90
+
+    @classmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_rocm():
+            return (
+                False,
+                "AiterScaledMMLinearKernel requires `aiter` which is not "
+                + "currently supported on non-ROCm platform.",
+            )
+
+        try:
+            import aiter  # noqa: F401 # deliberately attempt to import aiter
+        except Exception:
+            return (
+                False,
+                "AiterScaledMMLinearKernel requires `aiter` which is not "
+                + "installed on ROCm.",
+            )
+        # Check if rocm_aiter_gemm_w8a8_scaled_mm is enabled
+        if not (rocm_aiter_ops.is_linear_enabled()):
+            return (
+                False,
+                "AiterScaledMMLinearKernel is disabled. "
+                + "Enable by setting `VLLM_ROCM_USE_AITER=1` "
+                + "and `VLLM_ROCM_USE_AITER_LINEAR=1`. "
+                + "`VLLM_ROCM_USE_AITER_LINEAR` default is True.",
+            )
+
+        if not c.input_symmetric:
+            return (
+                False,
+                "AiterScaledMMLinearKernel only supports symmetric " + "quantization.",
+            )
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        super().process_weights_after_loading(layer)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """
+        `AiterScaledMMLinearKernel` implements a fused version of
+            `output = torch.mm((scale_a * a), (scale_b * b)).to(out_dtype)`
+        where scale_a * a and scale_b * b are implemented using numpy-style
+        broadcasting.
+        Currently only support per-tensor-per-tensor GEMM
+        and per-token-per-channel GEMM through AITER
+        w8a8 scaled gemm. `AiterScaledMMLinearKernel` also does not support
+        ATIER block scaled GEMM and mix-precision GEMM.
+        """
+        w_q, w_s, i_s, i_zp, azp_adj = self._get_weight_params(layer)
+
+        # ops.scaled_int8_quant supports both dynamic and static quant:
+        # * dynamic, i_s is None and x_s computed from x.
+        # * static, i_s is scalar and x_s is i_s.
+        symmetric = azp_adj is None
+        assert symmetric, (
+            "AiterScaledMMLinearKernel only supports symmetric quantization."
+        )
+        x_q, x_s, x_zp = ops.scaled_int8_quant(x, i_s, i_zp, symmetric=symmetric)
+
+        assert x_zp is None, (
+            "AiterScaledMMLinearKernel only supports symmetric quantization."
+        )
+        out_dtype = x.dtype
+
+        assert w_q.shape[0] % 16 == 0 and w_q.shape[1] % 16 == 0
+        assert out_dtype is torch.bfloat16 or out_dtype is torch.float16
+        assert bias is None or bias.shape[0] == w_q.shape[1] and bias.dtype == out_dtype
+
+        m = x_q.shape[0]  # a
+        n = w_q.shape[1]  # b
+
+        per_tensor_scale_a = x_s.numel() == 1
+        per_tensor_scale_b = w_s.numel() == 1
+        per_token_scale_a = x_s.numel() == m
+        per_channel_scale_b = w_s.numel() == n
+
+        # @TODO:
+        # Maybe broadcast the per-tensor-scale into per-channel-scale
+        # if one of the scale is a per-channel-scale.
+        # For now, it only supports:
+        # - per-tensor-per-tensor a8w8 scaled GEMM, and
+        # - per-token-per-channel a8w8 scaled GEMM
+        assert (per_tensor_scale_a and per_tensor_scale_b) or (
+            per_token_scale_a and per_channel_scale_b
+        ), (
+            "Currently only support per-tensor-per-tensor GEMM "
+            + " and per-token-per-channel GEMM through AITER"
+            " w8a8 scaled gemm. `AiterScaledMMLinearKernel` "
+            + "does not support AITER block scaled GEMM."
+        )
+
+        # gemm_a8w8_CK(a, b, scale_a, scale_b, bias) expects
+        # a to be [M, K]
+        # b to be [N, K]
+        # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
+        return rocm_aiter_ops.gemm_a8w8(x_q, w_q.t(), x_s, w_s, bias, out_dtype)
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/cpu.py b/model_executor/layers/quantization/kernels/scaled_mm/cpu.py
new file mode 100644
index 0000000..feb1e0b
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/cpu.py
@@ -0,0 +1,219 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm import envs
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    convert_to_channelwise,
+)
+from vllm.model_executor.layers.utils import check_cpu_sgl_kernel
+from vllm.platforms import current_platform
+from vllm.platforms.interface import CpuArchEnum
+
+from .ScaledMMLinearKernel import ScaledMMLinearKernel, ScaledMMLinearLayerConfig
+
+
+class CPUScaledMMLinearKernel(ScaledMMLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 75
+
+    @classmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_cpu():
+            return False, "CPUScaledMM requires running on CPU."
+
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        weight = getattr(layer, self.w_q_name)
+        dtype = weight.dtype
+        N, K = weight.size()
+        if (
+            current_platform.get_cpu_architecture() == CpuArchEnum.X86
+            and envs.VLLM_CPU_SGL_KERNEL
+            and self.config.input_symmetric
+            and check_cpu_sgl_kernel(N, K, dtype)
+        ):
+            self.linear_method = self._apply_weights_sgl
+            self.process_weights_for_sgl(layer)
+        else:
+            self.linear_method = self._apply_weights_onednn
+            self.process_weights_for_onednn(layer)
+
+    def process_weights_for_onednn(self, layer: torch.nn.Module) -> None:
+        # WEIGHT
+        # Transpose to [K, N] for convenience
+        weight = getattr(layer, self.w_q_name)
+        replace_parameter(
+            layer,
+            self.w_q_name,
+            torch.nn.Parameter(weight.t().data, requires_grad=False),
+        )
+
+        # WEIGHT SCALE
+        # oneDNN kernels support only per-tensor and per-channel.
+        # If we have a fused module (QKV, MLP) with per tensor scales (thus N
+        # scales being passed to the kernel), convert to the per-channel case.
+        is_fused_module = len(layer.logical_widths) > 1
+        weight_scale = getattr(layer, self.w_s_name)
+        if is_fused_module and not self.config.is_channelwise:
+            weight_scale = convert_to_channelwise(weight_scale, layer.logical_widths)
+        replace_parameter(
+            layer,
+            self.w_s_name,
+            torch.nn.Parameter(weight_scale.data, requires_grad=False),
+        )
+
+        # INPUT SCALE
+        if self.config.is_static_input_scheme:
+            input_scale = getattr(layer, self.i_s_name)
+
+            if self.config.input_symmetric:
+                replace_parameter(
+                    layer,
+                    self.i_s_name,
+                    torch.nn.Parameter(input_scale.max(), requires_grad=False),
+                )
+                setattr(layer, self.i_zp_name, None)
+            else:
+                input_zero_point = getattr(layer, self.i_zp_name)
+
+                # reconstruct the ranges
+                int8_traits = torch.iinfo(torch.int8)
+                azps = input_zero_point.to(dtype=torch.int32)
+                range_max = (input_scale * (int8_traits.max - azps)).max()
+                range_min = (input_scale * (int8_traits.min - azps)).min()
+
+                scale = (range_max - range_min) / (int8_traits.max - int8_traits.min)
+                replace_parameter(
+                    layer, self.i_s_name, torch.nn.Parameter(scale, requires_grad=False)
+                )
+
+                azp = (
+                    (int8_traits.min - range_min / scale).round().to(dtype=torch.int32)
+                )
+                replace_parameter(
+                    layer, self.i_zp_name, torch.nn.Parameter(azp, requires_grad=False)
+                )
+
+        else:
+            setattr(layer, self.i_s_name, None)
+            setattr(layer, self.i_zp_name, None)
+
+        # Different from cutlass, oneDNN kernels only need the AZP adjustment
+        # term for dynamic quantization. And s_b should be folded into the
+        # term. Such as:
+        # s_a * s_b * [(A - zp_a)B] + bias =
+        # s_a * (s_b * AB) - s_a * s_b * zp_a * B + bias =
+        # s_a * GEMM_output - s_a * zp_a * adj + bias
+        if not (self.config.input_symmetric and self.config.is_static_input_scheme):
+            weight = getattr(layer, self.w_q_name)
+            weight_scale = getattr(layer, self.w_s_name)
+            azp_adj = weight.sum(dim=0, keepdim=True, dtype=torch.float32)
+            azp_adj = azp_adj * weight_scale.squeeze()
+            setattr(
+                layer,
+                self.azp_adj_name,
+                torch.nn.Parameter(azp_adj, requires_grad=False),
+            )
+        else:
+            setattr(layer, self.azp_adj_name, None)
+
+        weight = getattr(layer, self.w_q_name)
+        self.dnnl_handler = ops.create_onednn_scaled_mm(
+            weight,
+            getattr(layer, self.w_s_name),
+            torch.get_default_dtype(),
+            getattr(layer, self.i_s_name) is None,
+            not self.config.input_symmetric,
+            32,
+        )
+        # weight is prepacked and maintained by the dnnl_handler,
+        # release the original weight
+        setattr(layer, self.w_q_name, None)
+        del weight
+
+    def process_weights_for_sgl(self, layer: torch.nn.Module) -> None:
+        # WEIGHT
+        weight = getattr(layer, self.w_q_name)
+        packed_weight = torch.ops._C.convert_weight_packed(weight)
+        replace_parameter(
+            layer, self.w_q_name, torch.nn.Parameter(packed_weight, requires_grad=False)
+        )
+
+        if layer.bias is not None:
+            bias = layer.bias
+            layer.register_parameter(
+                "bias_fp32", torch.nn.Parameter(bias.float().data, requires_grad=False)
+            )
+
+        # WEIGHT SCALE
+        # CPU SGL kernels only support per-channel.
+        # For per-tensor quant, convert to the per-channel case.
+        weight_scale = getattr(layer, self.w_s_name)
+        if not self.config.is_channelwise:
+            weight_scale = convert_to_channelwise(weight_scale, layer.logical_widths)
+        replace_parameter(
+            layer,
+            self.w_s_name,
+            torch.nn.Parameter(weight_scale.data, requires_grad=False),
+        )
+
+        setattr(layer, self.i_s_name, None)
+        setattr(layer, self.i_zp_name, None)
+        setattr(layer, self.azp_adj_name, None)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.linear_method(
+            layer,
+            x,
+            bias,
+        )
+
+    def _apply_weights_onednn(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        w_q, w_s, i_s, i_zp, azp_adj = self._get_weight_params(layer)
+
+        # ops.scaled_int8_quant supports both dynamic and static quant:
+        # * dynamic, i_s is None and x_s computed from x.
+        # * static, i_s is scalar and x_s is i_s.
+        x_q, x_s, x_zp = ops.onednn_scaled_int8_quant(
+            x, i_s, i_zp, self.config.input_symmetric
+        )
+
+        m = x.size(0)
+        n = self.dnnl_handler.n
+        out = torch.empty((m, n), dtype=x.dtype)
+        ops.onednn_scaled_mm(self.dnnl_handler, x_q, out, x_s, x_zp, azp_adj, bias)
+
+        return out
+
+    def _apply_weights_sgl(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        w_q, w_s, _, _, _ = self._get_weight_params(layer)
+        return torch.ops._C.int8_scaled_mm_with_quant(
+            x,
+            w_q,
+            w_s,
+            layer.bias_fp32 if bias is not None else None,
+            x.dtype,
+            True,
+        )
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py b/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
new file mode 100644
index 0000000..5879f5a
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
@@ -0,0 +1,160 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    convert_to_channelwise,
+)
+from vllm.platforms import current_platform
+
+from .ScaledMMLinearKernel import ScaledMMLinearKernel, ScaledMMLinearLayerConfig
+
+
+class CutlassScaledMMLinearKernel(ScaledMMLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 75
+
+    @classmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_cuda():
+            return False, "CutlassScaledMM requires running on CUDA."
+
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # WEIGHT
+        # Cutlass kernels need transposed weight.
+        weight = getattr(layer, self.w_q_name) 
+        self.format = "TN" #默认weight都是按T排布
+        m, k = weight.shape
+        if(m % 64 == 0 and k % 64 == 0):
+            self.format= "NN"
+            replace_parameter(
+                layer, self.w_q_name,
+                torch.nn.Parameter(weight.t().data.contiguous(), requires_grad=False))#原始排布是T[m,k] 处理完后是N[k, m]
+        else:
+            if k % 64 != 0:
+                pad_k = (k // 64 + 1) * 64
+                weight_pad = torch.empty((m, pad_k), dtype=weight.dtype, device=weight.device)
+                _weight = weight_pad[:, :k]
+                _weight.copy_(weight)
+                weight = _weight
+            replace_parameter(
+                layer, self.w_q_name,
+                torch.nn.Parameter(weight.t(), requires_grad=False))
+            
+            
+
+        # WEIGHT SCALE
+        # Cutlass kernels support only per-tensor and per-channel.
+        # If we have a fused module (QKV, MLP) with per tensor scales (thus N
+        # scales being passed to the kernel), convert to the per-channel case.
+        is_fused_module = len(layer.logical_widths) > 1
+        weight_scale = getattr(layer, self.w_s_name)
+        if is_fused_module and not self.config.is_channelwise:
+            weight_scale = convert_to_channelwise(weight_scale, layer.logical_widths)
+        replace_parameter(
+            layer,
+            self.w_s_name,
+            torch.nn.Parameter(weight_scale.data, requires_grad=False),
+        )
+
+        # INPUT SCALE
+        if self.config.is_static_input_scheme:
+            input_scale = getattr(layer, self.i_s_name)
+
+            if self.config.input_symmetric:
+                replace_parameter(
+                    layer,
+                    self.i_s_name,
+                    torch.nn.Parameter(input_scale.max(), requires_grad=False),
+                )
+                setattr(layer, self.i_zp_name, None)
+            else:
+                input_zero_point = getattr(layer, self.i_zp_name)
+
+                # reconstruct the ranges
+                int8_traits = torch.iinfo(torch.int8)
+                azps = input_zero_point.to(dtype=torch.int32)
+                range_max = (input_scale * (int8_traits.max - azps)).max()
+                range_min = (input_scale * (int8_traits.min - azps)).min()
+
+                scale = (range_max - range_min) / (int8_traits.max - int8_traits.min)
+                replace_parameter(
+                    layer, self.i_s_name, torch.nn.Parameter(scale, requires_grad=False)
+                )
+
+                # AZP loaded as int8 but used as int32
+                azp = (int8_traits.min - range_min / scale).to(dtype=torch.int32)
+                replace_parameter(
+                    layer, self.i_zp_name, torch.nn.Parameter(azp, requires_grad=False)
+                )
+
+        else:
+            setattr(layer, self.i_s_name, None)
+            setattr(layer, self.i_zp_name, None)
+
+        # azp_adj is the AZP adjustment term, used to account for weights.
+        # It does not depend on scales or azp, so it is the same for
+        # static and dynamic quantization.
+        # For more details, see csrc/quantization/w8a8/cutlass/Epilogues.md
+        # https://github.com/vllm-project/vllm/blob/main/csrc/quantization/w8a8/cutlass/Epilogues.md
+        if not self.config.input_symmetric:
+            weight = getattr(layer, self.w_q_name)
+            azp_adj = weight.sum(dim=0, keepdim=True, dtype=torch.int32)
+            if self.config.is_static_input_scheme:
+                # cutlass_w8a8 requires azp to be folded into azp_adj
+                # in the per-tensor case
+                azp_adj = getattr(layer, self.i_zp_name) * azp_adj
+            setattr(
+                layer,
+                self.azp_adj_name,
+                torch.nn.Parameter(azp_adj, requires_grad=False),
+            )
+        else:
+            setattr(layer, self.azp_adj_name, None)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        w_q, w_s, i_s, i_zp, azp_adj = self._get_weight_params(layer)
+
+        # ops.scaled_int8_quant supports both dynamic and static quant:
+        # * dynamic, i_s is None and x_s computed from x.
+        # * static, i_s is scalar and x_s is i_s.
+        symmetric = azp_adj is None
+        if isinstance(x, tuple):
+            x_q, x_s, out_dtype = x
+            x_zp = None
+        else:
+            out_dtype = x.dtype
+            x_q, x_s, x_zp = ops.scaled_int8_quant(x.contiguous(),
+                                                i_s,
+                                                i_zp,
+                                                symmetric=symmetric)
+
+        if x_zp is not None:
+            # Currently, static is always per-tensor and dynamic is per-token
+            static = i_zp is not None
+            azp = None if static else x_zp
+            return ops.cutlass_scaled_mm_azp(
+                x_q,
+                w_q,
+                scale_a=x_s,
+                scale_b=w_s,
+                out_dtype=out_dtype,
+                azp_adj=azp_adj,
+                azp=azp,
+                bias=bias,
+            )
+        return ops.cutlass_scaled_mm(
+            x_q, w_q, scale_a=x_s, scale_b=w_s, out_dtype=out_dtype, bias=bias, format=self.format
+        )
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/triton.py b/model_executor/layers/quantization/kernels/scaled_mm/triton.py
new file mode 100644
index 0000000..3f4ec7f
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/triton.py
@@ -0,0 +1,42 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.platforms import current_platform
+
+from .cutlass import CutlassScaledMMLinearKernel
+from .ScaledMMLinearKernel import ScaledMMLinearLayerConfig
+
+
+class TritonScaledMMLinearKernel(CutlassScaledMMLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 75
+
+    @classmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        if current_platform.is_cpu():
+            return (
+                False,
+                "TritonScaledMMLinearKernel requires Triton which is not "
+                + "currently supported on CPU.",
+            )
+        if not c.input_symmetric:
+            return (
+                False,
+                "TritonScaledMMLinearKernel only supports symmetric " + "quantization.",
+            )
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        super().process_weights_after_loading(layer)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return super().apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/kernels/scaled_mm/xla.py b/model_executor/layers/quantization/kernels/scaled_mm/xla.py
new file mode 100644
index 0000000..ddac9f1
--- /dev/null
+++ b/model_executor/layers/quantization/kernels/scaled_mm/xla.py
@@ -0,0 +1,105 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import warnings
+
+import torch
+from functorch.experimental.control_flow import cond  # noqa: F401
+
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    convert_to_channelwise,
+)
+from vllm.platforms import current_platform
+
+from .ScaledMMLinearKernel import ScaledMMLinearKernel, ScaledMMLinearLayerConfig
+
+
+class XLAScaledMMLinearKernel(ScaledMMLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        raise NotImplementedError(
+            "TPU platform does have a concept of compute capability, "
+            "this method should not be called."
+        )
+
+    @classmethod
+    def can_implement(cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_tpu():
+            return False, "ScaledMMXLA requires running on TPU."
+
+        if c.is_static_input_scheme:
+            return False, "ScaledMMXLA requires dynamic activation scales."
+
+        if not c.input_symmetric:
+            return False, "ScaledMMXLA requires symmetric activation scales."
+
+        if not c.is_channelwise:
+            return False, "ScaledMMXLA requires channelwise weight scales"
+
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # WEIGHT
+        # [out, in] (different than cutlass_scaled_mm)
+        weight = getattr(layer, self.w_q_name)
+        replace_parameter(
+            layer, self.w_q_name, torch.nn.Parameter(weight.data, requires_grad=False)
+        )
+
+        # WEIGHT SCALE
+        # XLA kernels support only per-tensor and per-channel.
+        # If we have a fused module (QKV, MLP) with per tensor scales (thus N
+        # scales being passed to the kernel), convert to the per-channel case.
+        is_fused_module = len(layer.logical_widths) > 1
+        weight_scale = getattr(layer, self.w_s_name)
+        if is_fused_module and not self.config.is_channelwise:
+            weight_scale = convert_to_channelwise(weight_scale, layer.logical_widths)
+
+        # [out_channel,] (different than cutlass_scaled_mm)
+        weight_scale = weight_scale.squeeze(-1)
+        replace_parameter(
+            layer,
+            self.w_s_name,
+            torch.nn.Parameter(weight_scale.data, requires_grad=False),
+        )
+
+        # Only support symmetric dynamic activation quantization.
+        setattr(layer, self.i_s_name, None)
+        setattr(layer, self.i_zp_name, None)
+        setattr(layer, self.azp_adj_name, None)
+
+        # Filter warning for cond usage in apply_weights. It is okay
+        # to specialize the graph since bias is not dynamic.
+        warnings.filterwarnings(
+            "ignore",
+            message="Pred is a Python constant. When used with torch.cond, it specializes on one of the branches.",  # noqa: E501
+        )
+
+    def no_add_bias(self, x: torch.Tensor, bias: torch.Tensor | None):
+        return x
+
+    def add_bias(self, x: torch.Tensor, bias: torch.Tensor | None):
+        return x + bias
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        w_q, w_s, _, _, _ = self._get_weight_params(layer)
+
+        # Required to register custom ops.
+        import torch_xla.experimental.custom_kernel  # noqa: F401
+
+        out = torch.ops.xla.quantized_matmul_int8(
+            x,
+            w_q,
+            w_s,
+            quantize_activation=True,
+        )
+
+        # Explicitly capture control flow to make dynamo happy.
+        # https://pytorch.org/docs/main/generated/exportdb/index.html#cond-branch-class-method # noqa: E501
+        return cond(bias is None, self.no_add_bias, self.add_bias, [out, bias])
diff --git a/model_executor/layers/quantization/kv_cache.py b/model_executor/layers/quantization/kv_cache.py
new file mode 100644
index 0000000..78456dc
--- /dev/null
+++ b/model_executor/layers/quantization/kv_cache.py
@@ -0,0 +1,146 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class BaseKVCacheMethod(QuantizeMethodBase):
+    """
+    Quant method that adds `_k_scale` and `_v_scale` attributes to the
+    Attention layer to support loading those scaling factors from checkpoints.
+    The k/v_scale will be used to:
+        - quantize k/v_cache entries before saving them to the cache
+        - dequantize k/v_cache entries before fetching them from the cache
+
+    :param quant_config: the appropriate QuantizationConfig
+    """
+
+    def __init__(self, quant_config: QuantizationConfig):
+        self.quant_config = quant_config
+
+    def create_weights(self, layer: torch.nn.Module):
+        """
+        Create "weight" (aka q_scale, k_scale and v_scale)
+        for an attention layer.
+        """
+        # Initialize the Q and KV cache scales to -1.0, an invalid value.
+        # If the q and k/v_scales appear in the checkpoint, it will be
+        # overwritten when loading weights.
+        layer.q_scale = torch.nn.Parameter(torch.tensor(-1.0), requires_grad=False)
+        layer.k_scale = torch.nn.Parameter(torch.tensor(-1.0), requires_grad=False)
+        layer.v_scale = torch.nn.Parameter(torch.tensor(-1.0), requires_grad=False)
+        # Initialize P = softmax(QK^T) scales
+        layer.prob_scale = torch.nn.Parameter(torch.tensor(-1.0), requires_grad=False)
+
+    def apply(self, layer: torch.nn.Module) -> torch.Tensor:
+        raise RuntimeError(f"{self.__class__.__name__}.apply should not be called.")
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # If the kv-cache dtype is auto, we enforce the k/v_scale to be 1.0
+        # regardless whether the kv-scale is available in the checkpoint.
+        # No need to process kv scales after loading if we are going to
+        # calculate them on the fly.
+        if layer.kv_cache_dtype != "auto" and not layer.calculate_kv_scales:
+            if layer.k_scale > 0.0 and layer.v_scale > 0.0:
+                # We prefer to use separate k_scale and v_scale if present
+                k_scale = layer.k_scale.to("cpu").tolist()
+                v_scale = layer.v_scale.to("cpu").tolist()
+                if current_platform.is_fp8_fnuz():
+                    k_scale *= 2
+                    v_scale *= 2
+            elif layer.k_scale < 0.0 and layer.v_scale < 0.0:
+                # If no scales were loaded (both scales are invalid negative
+                # values), use the default value of 1.0
+                k_scale = 1.0
+                v_scale = 1.0
+            else:
+                # If we find a single kv_scale in the checkpoint, we remap
+                # kv_scale to k_scale during weight loading, and duplicate
+                # k_scale to v_scale here
+                assert layer.k_scale > 0.0
+                scale_to_duplicate = max(layer.k_scale, layer.v_scale)
+                k_scale = scale_to_duplicate.to("cpu").tolist()
+                v_scale = scale_to_duplicate.to("cpu").tolist()
+                if current_platform.is_fp8_fnuz():
+                    k_scale *= 2
+                    v_scale *= 2
+
+            if not isinstance(k_scale, float) or not isinstance(v_scale, float):
+                raise ValueError(
+                    "Only support per-tensor scaling factor for fp8 KV cache"
+                )
+
+            if layer.q_scale < 0.0:
+                logger.warning_once(
+                    "Checkpoint does not provide a q scaling factor. "
+                    "Setting it to k_scale. This only matters for "
+                    "FP8 Attention backends (flash-attn or flashinfer)."
+                )
+                layer._q_scale.copy_(k_scale)
+                layer._q_scale_float = k_scale
+
+            # These are used in the final Attention.forward()
+            layer._k_scale.copy_(k_scale)
+            layer._v_scale.copy_(v_scale)
+            layer._k_scale_float = k_scale
+            layer._v_scale_float = v_scale
+            if k_scale == 1.0 and v_scale == 1.0 and "e5m2" not in layer.kv_cache_dtype:
+                logger.warning_once(
+                    "Using KV cache scaling factor 1.0 for fp8_e4m3. "
+                    "If this is unintended, verify that k/v_scale "
+                    "scaling factors are properly set in the checkpoint."
+                )
+
+        if layer.q_scale > 0.0:
+            q_scale = layer.q_scale
+            if current_platform.is_fp8_fnuz():
+                q_scale *= 2
+            layer.calculate_kv_scales = False
+        else:
+            q_scale = 1.0
+        if layer.prob_scale > 0.0:
+            prob_scale = layer.prob_scale
+            if current_platform.is_fp8_fnuz():
+                prob_scale *= 2
+        else:
+            prob_scale = 1.0
+
+        is_singleton_float = (
+            lambda x: isinstance(x, float)
+            or isinstance(x, torch.Tensor)
+            and x.numel() == 1
+            and x.is_floating_point()
+        )
+        if not is_singleton_float(q_scale) or not is_singleton_float(prob_scale):
+            raise ValueError(
+                "Only support per-tensor scaling factorfor fp8-quantized Q/prob"
+            )
+
+        # These are used in the final Attention.forward()
+        layer._q_scale.copy_(q_scale)
+        layer._q_scale_float = (
+            q_scale.item() if isinstance(q_scale, torch.Tensor) else q_scale
+        )
+
+        layer._prob_scale.copy_(prob_scale)
+        if layer.kv_cache_dtype == "fp8" and (q_scale == 1.0 or prob_scale == 1.0):
+            logger.warning_once(
+                f"Using uncalibrated q_scale {q_scale} and/or prob_scale "
+                f"{prob_scale} with fp8 attention. This may cause accuracy "
+                "issues. Please make sure q/prob scaling factors are "
+                "available in the fp8 checkpoint."
+            )
+
+        del layer.k_scale
+        del layer.v_scale
+        del layer.q_scale
+        del layer.prob_scale
diff --git a/model_executor/layers/quantization/modelopt.py b/model_executor/layers/quantization/modelopt.py
new file mode 100644
index 0000000..4765218
--- /dev/null
+++ b/model_executor/layers/quantization/modelopt.py
@@ -0,0 +1,1788 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm._custom_ops import cutlass_scaled_fp4_mm, scaled_fp4_quant
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+    RoutingMethodType,
+    fp8_w8a8_moe_quant_config,
+    nvfp4_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.flashinfer_fp4_moe import (
+    build_flashinfer_fp4_cutlass_moe_prepare_finalize,
+    reorder_w1w3_to_w3w1,
+    select_nvfp4_gemm_impl,
+)
+from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
+    FlashinferMoeBackend,
+    apply_flashinfer_per_tensor_scale_fp8,
+    build_flashinfer_fp8_cutlass_moe_prepare_finalize,
+    flashinfer_cutlass_moe_fp8,
+    get_flashinfer_moe_backend,
+    is_flashinfer_supporting_global_sf,
+    register_moe_scaling_factors,
+    rotate_flashinfer_fp8_moe_weights,
+    select_cutlass_fp8_gemm_impl,
+    swap_w13_to_w31,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    apply_fp4_marlin_linear,
+    is_fp4_marlin_supported,
+    prepare_fp4_layer_for_marlin,
+    prepare_moe_fp4_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    cutlass_fp4_supported,
+    is_layer_skipped,
+    swizzle_blockscale,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    Fp8LinearOp,
+    requantize_with_max_scale,
+)
+from vllm.model_executor.parameter import ModelWeightParameter, PerTensorScaleParameter
+from vllm.scalar_type import scalar_types
+from vllm.utils.flashinfer import (
+    flashinfer_scaled_fp4_mm,
+    has_flashinfer,
+    has_flashinfer_moe,
+)
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
+logger = init_logger(__name__)
+
+QUANT_ALGOS = ["FP8", "NVFP4"]
+KV_CACHE_QUANT_ALGOS = ["FP8"]
+
+
+class ModelOptFp8Config(QuantizationConfig):
+    """Config class for ModelOpt FP8."""
+
+    def __init__(
+        self,
+        is_checkpoint_fp8_serialized: bool = False,
+        kv_cache_quant_method: str | None = None,
+        exclude_modules: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        self.is_checkpoint_fp8_serialized = is_checkpoint_fp8_serialized
+        self.kv_cache_quant_method = kv_cache_quant_method
+        self.exclude_modules = exclude_modules or []
+        if is_checkpoint_fp8_serialized:
+            logger.warning(
+                "Detected ModelOpt fp8 checkpoint. Please note that"
+                " the format is experimental and could change."
+            )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "modelopt"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 89
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["hf_quant_config.json"]
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.exclude_modules is not None:
+            self.exclude_modules = hf_to_vllm_mapper.apply_list(self.exclude_modules)
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        """Detect if this ModelOpt config should be used based on
+        quantization config."""
+
+        if hf_quant_cfg is None:
+            return None
+
+        # Use the community standard 'quant_method'
+        quant_method = hf_quant_cfg.get("quant_method", "").lower()
+
+        # Only proceed if the method is explicitly "modelopt"
+        if quant_method != "modelopt":
+            return None
+
+        # Look for ModelOpt-specific config structure
+        if "quantization" in hf_quant_cfg:
+            quant_config = hf_quant_cfg["quantization"]
+            if isinstance(quant_config, dict):
+                quant_algo = quant_config.get("quant_algo", "")
+                if "FP8" in quant_algo:
+                    return "modelopt"
+        else:
+            # Check for compressed-tensors style config with specific quant_algo
+            quant_algo = hf_quant_cfg.get("quant_algo", "")
+            if isinstance(quant_algo, str) and "FP8" in quant_algo:
+                return "modelopt"
+
+        return None
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "ModelOptFp8Config":
+        # Handle both ModelOpt format and compressed-tensors style format
+        if "quantization" in config:
+            # ModelOpt format: {"quantization": {"quant_algo": "..."}}
+            quant_config = cls.get_from_keys(config, ["quantization"])
+            if not isinstance(quant_config, dict):
+                raise ValueError("Expected 'quantization' to be a dictionary in config")
+            quant_method = quant_config.get("quant_algo", "")
+            if not quant_method:
+                raise ValueError("Missing 'quant_algo' in quantization config")
+            kv_cache_quant_method = quant_config.get("kv_cache_quant_algo")
+            # "exclude_modules" is the key in the legacy hf_quant_config.json
+            exclude_modules = quant_config.get("exclude_modules")
+        else:
+            # Compressed-tensors style format:
+            # {"quant_algo": "...", "quant_method": "modelopt"}
+            quant_method = config.get("quant_algo", "")
+            kv_cache_quant_method = config.get("kv_cache_quant_algo")
+            # "ignore" is the key in config.json
+            exclude_modules = config.get("ignore")
+
+        if quant_method not in QUANT_ALGOS:
+            raise ValueError(
+                f"ModelOpt currently only supports: {QUANT_ALGOS} "
+                "quantizations in vLLM. Please check the "
+                "`hf_quant_config.json` file for your model's "
+                "quant configuration."
+            )
+        is_checkpoint_fp8_serialized = "FP8" in quant_method
+
+        return cls(is_checkpoint_fp8_serialized, kv_cache_quant_method, exclude_modules)
+
+    def is_layer_excluded(self, prefix: str) -> bool:
+        """
+        Check if a layer should be excluded from quantization.
+        Handles both exact matching (for fused layers) and substring matching.
+
+        This method handles both regular models and multimodal models that use
+        the language_model prefix. For multimodal models, it checks if the
+        module name (without the language_model prefix) is in the exclude list.
+        """
+        if self.exclude_modules is None:
+            return False
+
+        # First check exact matching with fused layer support
+        if is_layer_skipped(prefix, self.exclude_modules, self.packed_modules_mapping):
+            return True
+
+        # Then check substring matching for patterns not caught by exact match
+        for module in self.exclude_modules:
+            # Skip exact matches already handled above
+            if module != prefix and (
+                module in prefix
+                or (
+                    prefix.startswith("language_model.")
+                    and module in prefix.removeprefix("language_model.")
+                )
+            ):
+                return True
+        return False
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import (  # Avoid circular import
+            Attention,
+            MLAAttention,
+        )
+
+        if isinstance(layer, LinearBase):
+            if self.is_layer_excluded(prefix):
+                return UnquantizedLinearMethod()
+            # Check if this is a vision model layer that should not be quantized
+            if "vision_tower" in prefix or "vision_model" in prefix:
+                return UnquantizedLinearMethod()
+            return ModelOptFp8LinearMethod(self)
+        elif isinstance(layer, (Attention, MLAAttention)):
+            return ModelOptFp8KVCacheMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return ModelOptFp8MoEMethod(self, layer)
+        return None
+
+
+class ModelOptFp8LinearMethod(LinearMethodBase):
+    """Linear method for Model Optimizer static quantization.
+    Supports loading FP8 checkpoints with static weight scale and
+    activation scale. Future support might be added for dynamic
+    scales.
+
+    Limitations:
+    1. Only support per-tensor quantization due to torch._scaled_mm support.
+    2. Only support float8_e4m3fn datatype
+        Args: quant_config: The ModelOpt quantization config.
+    """
+
+    def __init__(self, quant_config: ModelOptFp8Config) -> None:
+        self.quant_config = quant_config
+        self.fp8_linear = Fp8LinearOp(
+            act_quant_static=True, act_quant_group_shape=GroupShape.PER_TENSOR
+        )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del input_size, output_size
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        weight_dtype = (
+            torch.float8_e4m3fn
+            if self.quant_config.is_checkpoint_fp8_serialized
+            else params_dtype
+        )
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition, input_size_per_partition, dtype=weight_dtype
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            # WEIGHT SCALE
+            weight_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            weight_scale[:] = torch.finfo(torch.float32).min
+            layer.register_parameter("weight_scale", weight_scale)
+            # INPUT SCALE
+            scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+
+            scale[:] = torch.finfo(torch.float32).min
+            layer.register_parameter("input_scale", scale)
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        weight = layer.weight
+        max_w_scale = layer.weight_scale.max()
+        if not (layer.weight_scale == layer.weight_scale[0]).all():
+            max_w_scale, weight = requantize_with_max_scale(
+                layer.weight, layer.weight_scale, layer.logical_widths
+            )
+        layer.weight = Parameter(weight.t(), requires_grad=False)
+        layer.weight_scale = Parameter(max_w_scale, requires_grad=False)
+        layer.input_scale = Parameter(layer.input_scale.max(), requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            input_scale=layer.input_scale,
+            bias=bias,
+        )
+
+
+class ModelOptFp8MoEMethod(FusedMoEMethodBase):
+    """MoE method for ModelOpt FP8.
+    Supports loading FP8 checkpoints with static weight scale and
+    activation scale.
+    Args:
+        quant_config: The ModelOpt quantization config.
+    """
+
+    def __init__(
+        self,
+        quant_config: ModelOptFp8Config,
+        layer: torch.nn.Module,
+    ) -> None:
+        super().__init__(layer.moe_config)
+        self.layer = layer
+        self.quant_config = quant_config
+        from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+            cutlass_fp8_supported,
+        )
+
+        self.cutlass_fp8_supported = cutlass_fp8_supported()
+        self.flashinfer_moe_backend: FlashinferMoeBackend | None = None
+        if envs.VLLM_USE_FLASHINFER_MOE_FP8 and has_flashinfer_moe():
+            self.flashinfer_moe_backend = get_flashinfer_moe_backend()
+            if (
+                self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+                and not self.moe.is_act_and_mul
+            ):
+                logger.info_once(
+                    "Non-gated MoE is not supported for min-latency mode,"
+                    "falling back to high-throughput mode"
+                )
+                self.flashinfer_moe_backend = FlashinferMoeBackend.CUTLASS
+
+            logger.info_once(
+                f"Using FlashInfer {self.flashinfer_moe_backend.value} kernels"
+            )
+
+    def maybe_make_prepare_finalize(
+        self,
+    ) -> mk.FusedMoEPrepareAndFinalize | None:
+        # TRT LLM not supported with all2all yet.
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+            return None
+        elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            prepare_finalize = build_flashinfer_fp8_cutlass_moe_prepare_finalize(
+                self.moe
+            )
+            logger.debug_once("%s", prepare_finalize.__class__.__name__)
+            return prepare_finalize
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        assert self.moe_quant_config is not None
+        experts = select_cutlass_fp8_gemm_impl(
+            self.moe,
+            self.moe_quant_config,
+        )
+        logger.debug_once("Using %s", experts.__class__.__name__)
+        return experts
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Use FP8 dtype if checkpoint is serialized
+        weight_dtype = (
+            torch.float8_e4m3fn
+            if self.quant_config.is_checkpoint_fp8_serialized
+            else params_dtype
+        )
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        if self.moe.is_act_and_mul:
+            w13_up_dim = 2 * intermediate_size_per_partition
+        else:
+            w13_up_dim = intermediate_size_per_partition
+
+        w13_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                w13_up_dim,
+                hidden_size,
+                dtype=weight_dtype,
+            ),
+            input_dim=2,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+
+        w2_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=weight_dtype,
+            ),
+            input_dim=2,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            # WEIGHT SCALES - Per-tensor scaling for ModelOpts
+            # For gated MoE, allocate 2 scales for w1 and w3 respectively.
+            # They will be combined to a single scale after weight loading.
+            # For non-gated MoE, allocate 1 scale for w13.
+            if self.moe.is_act_and_mul:
+                w13_weight_scale_shape = (num_experts, 2)
+            else:
+                w13_weight_scale_shape = (num_experts, 1)
+            w13_weight_scale = PerTensorScaleParameter(
+                data=torch.full(
+                    w13_weight_scale_shape,
+                    1.0,
+                    dtype=torch.float32,
+                ),
+                weight_loader=weight_loader,
+            )
+            w2_weight_scale = PerTensorScaleParameter(
+                data=torch.full((num_experts,), 1.0, dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+            # Set weight loader attributes for scales
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+            )
+
+            # INPUT SCALES - Per-tensor scaling for ModelOpt
+            w13_input_scale = PerTensorScaleParameter(
+                data=torch.full((num_experts,), 1.0, dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            w2_input_scale = PerTensorScaleParameter(
+                data=torch.full((num_experts,), 1.0, dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        """Process FP8 MoE weights after loading from serialized checkpoint.
+        Only supports pre-quantized checkpoints with FP8 weights and scales.
+        """
+
+        layer.w13_weight = Parameter(layer.w13_weight.data, requires_grad=False)
+        layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
+
+        from vllm._custom_ops import scaled_fp8_quant
+        from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+            per_tensor_dequantize,
+        )
+
+        # Handle scale parameters
+        if hasattr(layer, "w13_weight_scale") and layer.w13_weight_scale is not None:
+            # Fp8 moe kernel needs single weight scale for w13 per expert.
+            # We take the max of the w1 and w3 scales
+            # then dequant and requant each expert.
+            if (
+                layer.w13_weight_scale.dim() == 2
+                and layer.w13_weight_scale.shape[1] == 2
+            ):
+                assert self.moe.is_act_and_mul, (
+                    "w13_weight_scale should have 2 elements per expert "
+                    "only for gated MoE"
+                )
+                # Get the maximum scale across w1 and w3 for each expert
+                max_w13_scales = layer.w13_weight_scale.max(dim=1).values
+
+                # Requantize each expert's weights using the combined scale
+                # w13_weight (num_experts, 2 * intermediate_size, hidden_size)
+                # where the first intermediate_size rows are w1, the next are w3
+                intermediate_size = layer.w13_weight.shape[1] // 2
+                for expert_id in range(layer.w13_weight.shape[0]):
+                    start = 0
+                    for shard_id in range(2):  # w1 and w3
+                        # Dequantize using the original scale for this shard
+                        dq_weight = per_tensor_dequantize(
+                            layer.w13_weight[expert_id][
+                                start : start + intermediate_size, :
+                            ],
+                            layer.w13_weight_scale[expert_id][shard_id],
+                        )
+                        # Requantize using the combined max scale
+
+                        (
+                            layer.w13_weight[expert_id][
+                                start : start + intermediate_size, :
+                            ],
+                            _,
+                        ) = scaled_fp8_quant(dq_weight, max_w13_scales[expert_id])
+
+                        start += intermediate_size
+
+                # Update the scale parameter to be per-expert
+                layer.w13_weight_scale = Parameter(max_w13_scales, requires_grad=False)
+            else:
+                layer.w13_weight_scale = Parameter(
+                    layer.w13_weight_scale.data, requires_grad=False
+                )
+
+        if hasattr(layer, "w2_weight_scale") and layer.w2_weight_scale is not None:
+            layer.w2_weight_scale = Parameter(
+                layer.w2_weight_scale.data, requires_grad=False
+            )
+        # Input scales must be equal for each expert in fp8 MoE layers.
+        if hasattr(layer, "w13_input_scale") and layer.w13_input_scale is not None:
+            layer.w13_input_scale = Parameter(
+                layer.w13_input_scale.max(), requires_grad=False
+            )
+        if hasattr(layer, "w2_input_scale") and layer.w2_input_scale is not None:
+            layer.w2_input_scale = Parameter(
+                layer.w2_input_scale.max(), requires_grad=False
+            )
+
+        if self.flashinfer_moe_backend is not None:
+            if self.moe.is_act_and_mul:
+                layer.w13_weight.data = swap_w13_to_w31(layer.w13_weight.data)
+            if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+                rotate_flashinfer_fp8_moe_weights(layer.w13_weight, layer.w2_weight)
+        register_moe_scaling_factors(layer)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+            return None
+
+        return fp8_w8a8_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            g1_alphas=layer.output1_scales_gate_scalar.squeeze(),
+            w2_scale=layer.w2_weight_scale,
+            g2_alphas=layer.output2_scales_scalar.squeeze(),
+            a1_scale=layer.w13_input_scale,
+            a1_gscale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale,
+            a2_gscale=layer.w2_input_scale_inv,
+            per_act_token_quant=False,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `ModelOptFp8MoEMethod` yet."
+            )
+
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
+            assert activation == "silu", (
+                f"Expected 'silu' activation but got {activation}"
+            )
+            assert not renormalize
+            return apply_flashinfer_per_tensor_scale_fp8(
+                layer=layer,
+                hidden_states=x,
+                router_logits=router_logits,
+                routing_bias=e_score_correction_bias,
+                global_num_experts=global_num_experts,
+                top_k=top_k,
+                num_expert_group=num_expert_group,
+                topk_group=topk_group,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+
+        # Expert selection
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            assert activation in ("silu", "relu2_no_mul"), (
+                "Expected activation to be in ('silu', 'relu2_no_mul'),"
+                f"but got {activation}"
+            )
+            return flashinfer_cutlass_moe_fp8(
+                x,
+                layer,
+                topk_weights,
+                topk_ids,
+                inplace=False,
+                activation=activation,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            from vllm.model_executor.layers.fused_moe.fused_moe import fused_experts
+
+            assert self.moe_quant_config is not None
+
+            return fused_experts(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                quant_config=self.moe_quant_config,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+
+
+class ModelOptNvFp4Config(QuantizationConfig):
+    """Config class for ModelOpt FP4."""
+
+    def __init__(
+        self,
+        is_checkpoint_nvfp4_serialized: bool,
+        kv_cache_quant_algo: str | None,
+        exclude_modules: list[str],
+        group_size: int = 16,
+    ) -> None:
+        super().__init__()
+        self.is_checkpoint_nvfp4_serialized = is_checkpoint_nvfp4_serialized
+        if is_checkpoint_nvfp4_serialized:
+            logger.warning(
+                "Detected ModelOpt NVFP4 checkpoint. Please note that"
+                " the format is experimental and could change in future."
+            )
+
+            self.group_size = group_size
+            self.kv_cache_quant_algo = kv_cache_quant_algo
+            self.exclude_modules = exclude_modules
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "modelopt_fp4"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half, torch.float8_e4m3fn]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["hf_quant_config.json"]
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.exclude_modules is not None:
+            self.exclude_modules = hf_to_vllm_mapper.apply_list(self.exclude_modules)
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        """Detect if this ModelOpt FP4 config should be used based on
+        quantization config."""
+        if hf_quant_cfg is None:
+            return None
+
+        # Use the community standard 'quant_method'
+        quant_method = hf_quant_cfg.get("quant_method", "").lower()
+
+        # Only proceed if the method is explicitly "modelopt"
+        if quant_method != "modelopt":
+            return None
+
+        # Look for ModelOpt-specific config structure
+        if "quantization" in hf_quant_cfg:
+            quant_config = hf_quant_cfg["quantization"]
+            if isinstance(quant_config, dict):
+                quant_algo = quant_config.get("quant_algo", "")
+                if "NVFP4" in quant_algo:
+                    return "modelopt_fp4"
+        else:
+            # Check for compressed-tensors style config with specific
+            # quant_algo field
+            quant_algo = hf_quant_cfg.get("quant_algo", "")
+            if isinstance(quant_algo, str) and "FP4" in quant_algo.upper():
+                return "modelopt_fp4"
+
+        return None
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "ModelOptNvFp4Config":
+        # Handle both traditional ModelOpt format and compressed-tensors
+        # style format
+        if "quantization" in config:
+            # Traditional ModelOpt format:
+            # {"quantization": {"quant_algo": "..."}}
+            quant_config = cls.get_from_keys(config, ["quantization"])
+            if not isinstance(quant_config, dict):
+                raise ValueError("Expected 'quantization' to be a dictionary in config")
+
+            quant_method = quant_config.get("quant_algo", "")
+            if not quant_method:
+                raise ValueError("Missing 'quant_algo' in quantization config")
+
+            # Handle kv_cache_quant_algo with proper type validation
+            kv_cache_quant_algo_raw = quant_config.get("kv_cache_quant_algo")
+            if kv_cache_quant_algo_raw is None:
+                # No KV cache quantization by default
+                kv_cache_quant_algo = None
+            elif isinstance(kv_cache_quant_algo_raw, str):
+                kv_cache_quant_algo = kv_cache_quant_algo_raw
+            else:
+                raise ValueError(
+                    f"kv_cache_quant_algo must be a string, got "
+                    f"{type(kv_cache_quant_algo_raw)}"
+                )
+
+            # Handle group_size with proper type validation
+            group_size_raw = quant_config.get("group_size")
+            if group_size_raw is None:
+                group_size = 16  # Default value
+            elif isinstance(group_size_raw, int):
+                group_size = group_size_raw
+            else:
+                try:
+                    group_size = int(group_size_raw)
+                except (ValueError, TypeError):
+                    raise ValueError(
+                        f"group_size must be an integer, got {type(group_size_raw)}"
+                    ) from None
+
+            # "exclude_modules" is the key in the legacy hf_quant_config.json
+            exclude_modules = quant_config.get("exclude_modules", [])
+            if not isinstance(exclude_modules, list):
+                raise ValueError(
+                    f"exclude_modules must be a list, got {type(exclude_modules)}"
+                )
+        else:
+            # Compressed-tensors style format:
+            # {"quant_algo": "...", "quant_method": "modelopt"}
+            quant_method = config.get("quant_algo", "")
+
+            # Handle kv_cache_quant_algo with proper type validation
+            kv_cache_quant_algo_raw = config.get("kv_cache_quant_algo")
+            if kv_cache_quant_algo_raw is None:
+                # No KV cache quantization by default
+                kv_cache_quant_algo = None
+            elif isinstance(kv_cache_quant_algo_raw, str):
+                kv_cache_quant_algo = kv_cache_quant_algo_raw
+            else:
+                raise ValueError(
+                    f"kv_cache_quant_algo must be a string, got "
+                    f"{type(kv_cache_quant_algo_raw)}"
+                )
+
+            # Handle group_size with proper type validation
+            group_size_raw = config.get("group_size")
+            if group_size_raw is None:
+                group_size = 16  # Default value
+            elif isinstance(group_size_raw, int):
+                group_size = group_size_raw
+            else:
+                try:
+                    group_size = int(group_size_raw)
+                except (ValueError, TypeError):
+                    raise ValueError(
+                        f"group_size must be an integer, got {type(group_size_raw)}"
+                    ) from None
+
+            # "ignore" is the key in config.json
+            exclude_modules = config.get("ignore", [])
+            if not isinstance(exclude_modules, list):
+                raise ValueError(
+                    f"exclude_modules must be a list, got {type(exclude_modules)}"
+                )
+
+        if quant_method not in QUANT_ALGOS:
+            raise ValueError(
+                f"ModelOpt currently only supports: {QUANT_ALGOS} "
+                "quantizations in vLLM. Please check the "
+                "`hf_quant_config.json` file for your model's "
+                "quant configuration."
+            )
+        is_checkpoint_nvfp4_serialized = "NVFP4" in quant_method
+
+        # For FP4, these fields are required
+        if is_checkpoint_nvfp4_serialized and "quantization" in config:
+            # Check if required fields are present in the quantization config
+            quant_config = config["quantization"]
+            required_fields = ["group_size", "kv_cache_quant_algo", "exclude_modules"]
+            missing_fields = [
+                field for field in required_fields if field not in quant_config
+            ]
+            if missing_fields:
+                raise ValueError(
+                    f"NVFP4 quantization requires the following fields in "
+                    f"hf_quant_config.json: {missing_fields}"
+                )
+
+        return cls(
+            is_checkpoint_nvfp4_serialized,
+            kv_cache_quant_algo,
+            exclude_modules,
+            group_size,
+        )
+
+    def is_layer_excluded(self, prefix: str) -> bool:
+        """
+        Check if a layer should be excluded from quantization.
+        Handles both exact matching (for fused layers) and pattern matching.
+        """
+        # First check exact matching with fused layer support
+        if is_layer_skipped(prefix, self.exclude_modules, self.packed_modules_mapping):
+            return True
+
+        # Check regex pattern matching for patterns not caught by exact match
+        import regex as re
+
+        for pattern in self.exclude_modules:
+            # Skip patterns that would be caught by exact matching
+            if "*" in pattern or "." in pattern:
+                regex_str = pattern.replace(".", r"\.").replace("*", r".*")
+                if re.fullmatch(regex_str, prefix):
+                    return True
+        return False
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import (  # Avoid circular import
+            Attention,
+            MLAAttention,
+        )
+
+        skip_layer = self.is_layer_excluded(prefix)
+        if isinstance(layer, LinearBase):
+            if skip_layer:
+                return UnquantizedLinearMethod()
+            # Check if this is a vision model layer that should not be quantized
+            if "vision_tower" in prefix or "vision_model" in prefix:
+                return UnquantizedLinearMethod()
+            return ModelOptNvFp4LinearMethod(self)
+        elif isinstance(layer, (Attention, MLAAttention)):
+            return ModelOptFp8KVCacheMethod(self)
+        elif isinstance(layer, FusedMoE):
+            if skip_layer:
+                return None
+            return ModelOptNvFp4FusedMoE(self, layer.moe_config, layer)
+        return None
+
+
+class ModelOptFp8KVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from FP8 checkpoints.
+    """
+
+    def __init__(self, quant_config: ModelOptFp8Config | ModelOptNvFp4Config):
+        super().__init__(quant_config)
+
+
+class ModelOptNvFp4LinearMethod(LinearMethodBase):
+    """Linear method for Model Optimizer NVFP4.
+    Supports loading NVFP4 checkpoints with the following structure:
+
+    input_scale: torch.float32, scalar ,
+    weight: NVFP4(represented as byte) Shape: [1, X, y/2]
+    weight_scale: FP8-E4M3, Shape: [X, Y], aka per block scale,
+    weight_scale_2: torch.float32, scalar,
+    Args: quant_config: The ModelOpt quantization config.
+    """
+
+    def __init__(self, quant_config: ModelOptNvFp4Config) -> None:
+        self.quant_config = quant_config
+
+        self.backend = "none"
+        if envs.VLLM_NVFP4_GEMM_BACKEND is None:
+            if has_flashinfer():
+                self.backend = "flashinfer-cutlass"
+            elif cutlass_fp4_supported():
+                self.backend = "cutlass"
+            elif is_fp4_marlin_supported():
+                self.backend = "marlin"
+        elif envs.VLLM_NVFP4_GEMM_BACKEND.startswith("flashinfer-"):
+            self.backend = envs.VLLM_NVFP4_GEMM_BACKEND
+            assert has_flashinfer(), f"FlashInfer is required for {self.backend}"
+        elif envs.VLLM_NVFP4_GEMM_BACKEND == "cutlass":
+            self.backend = "cutlass"
+            assert cutlass_fp4_supported(), f"Cutlass is required for {self.backend}"
+
+        if self.backend == "none":
+            raise ValueError(
+                "No valid NVFP4 GEMM backend found. "
+                "Please check your platform capability."
+            )
+
+        logger.info_once(f"Using {self.backend} for NVFP4 GEMM")
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del input_size, output_size
+        if not self.quant_config.is_checkpoint_nvfp4_serialized:
+            raise ValueError(
+                "NVFP4 quantization was selected, "
+                " dynamic quantization is not supported."
+            )
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+
+        if input_size_per_partition % 16 != 0:
+            raise ValueError(
+                "Unsupported model when in features size is not multiple of 16"
+            )
+        # The nvfp4 weight is still represented as
+        weight_dtype = (
+            torch.float8_e4m3fn
+            if self.quant_config.is_checkpoint_nvfp4_serialized
+            else params_dtype
+        )
+        # Weight
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                # 2 fp4 items are packed in the input dimension
+                layer.output_size_per_partition,
+                layer.input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # Input Weight Scale
+        input_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("input_scale", input_scale)
+
+        # Global Weight Scale
+        weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale_2", weight_scale_2)
+
+        # Per Block Weight Scale
+        weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // self.quant_config.group_size,
+                dtype=weight_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        # global scales:
+        input_scale_2 = layer.input_scale.max().to(torch.float32)
+        layer.input_scale = Parameter(input_scale_2, requires_grad=False)
+
+        weight_scale_2 = layer.weight_scale_2.max().to(torch.float32)
+        layer.weight_scale_2 = Parameter(weight_scale_2, requires_grad=False)
+
+        layer.alpha = Parameter(
+            layer.input_scale * layer.weight_scale_2, requires_grad=False
+        )
+
+        # Calculate `1 / input_scale` so that we don't need to do so at runtime
+        layer.input_scale_inv = Parameter(
+            (1 / layer.input_scale).to(torch.float32), requires_grad=False
+        )
+
+        # Swizzle the weight blockscale.
+        # contracting dimension is input dimension
+        # block_size = 16;
+        assert layer.weight_scale.dtype == torch.float8_e4m3fn, (
+            "Weight Block scale must be represented as FP8-E4M3"
+        )
+
+        if self.backend == "marlin":
+            prepare_fp4_layer_for_marlin(layer)
+            del layer.alpha
+            del layer.input_scale
+        elif self.backend == "flashinfer-trtllm":
+            # FlashInfer TRTLLM FP4 GEMM requires a different weight layout.
+            # FlashInfer provides nvfp4_quantize to quantize + shuffle the
+            # layout but we use our own quantization so we have to call
+            # shuffles ourselves.
+            from flashinfer import shuffle_matrix_a, shuffle_matrix_sf_a
+
+            weight = layer.weight.data
+            weight_scale = layer.weight_scale.data
+
+            epilogue_tile_m = 128
+            weight = shuffle_matrix_a(weight.view(torch.uint8), epilogue_tile_m)
+            weight_scale = (
+                shuffle_matrix_sf_a(weight_scale.view(torch.uint8), epilogue_tile_m)
+                .reshape(weight_scale.shape)
+                .view(torch.float8_e4m3fn)
+            )
+
+            layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+            layer.weight = Parameter(weight, requires_grad=False)
+        else:
+            swizzled_weight_scale = swizzle_blockscale(layer.weight_scale)
+            layer.weight_scale = Parameter(swizzled_weight_scale, requires_grad=False)
+            layer.weight = Parameter(layer.weight.data, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.backend == "marlin":
+            return apply_fp4_marlin_linear(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                weight_scale_2=layer.weight_scale_2,
+                workspace=layer.workspace,
+                size_n=layer.output_size_per_partition,
+                size_k=layer.input_size_per_partition,
+                bias=bias,
+            )
+
+        output_dtype = x.dtype
+        output_shape = [x.shape[0], layer.weight.shape[0]]
+
+        # quantize BF16 or FP16 to (FP4 and interleaved block scale)
+        x_fp4, x_blockscale = scaled_fp4_quant(x, layer.input_scale_inv)
+
+        # validate dtypes of quantized input, input block scale,
+        # weight and weight_blockscale
+        assert x_fp4.dtype == torch.uint8
+        assert layer.weight.dtype == torch.uint8
+        assert x_blockscale.dtype == torch.float8_e4m3fn
+        assert layer.weight_scale.dtype == torch.float8_e4m3fn
+        assert layer.alpha.dtype == torch.float32
+
+        mm_args = (
+            x_fp4,
+            layer.weight,
+            x_blockscale,
+            layer.weight_scale,
+            layer.alpha,
+            output_dtype,
+        )
+        if self.backend.startswith("flashinfer-"):
+            backend_name = self.backend[len("flashinfer-") :]
+            out = flashinfer_scaled_fp4_mm(*mm_args, backend=backend_name)
+        else:
+            assert self.backend == "cutlass"
+            out = cutlass_scaled_fp4_mm(*mm_args)
+
+        if bias is not None:
+            out = out + bias
+        return out.view(*output_shape)
+
+
+class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
+    """
+    MoE Method for FP4 Quantization.
+    Args:
+        quant_config: NVFP4 Quant Config
+    """
+
+    def __init__(
+        self,
+        quant_config: ModelOptNvFp4Config,
+        moe: FusedMoEConfig,
+        layer: torch.nn.Module,
+    ) -> None:
+        from vllm.model_executor.layers.quantization.utils.nvfp4_moe_support import (
+            detect_nvfp4_moe_support,  # noqa: E501
+        )
+
+        super().__init__(moe)
+        self.quant_config = quant_config
+        self.layer = layer
+        _nvfp4 = detect_nvfp4_moe_support(self.__class__.__name__)
+        self.cutlass_nvfp4_supported = _nvfp4.cutlass_supported
+        self.allow_flashinfer = _nvfp4.allow_flashinfer
+        self.use_marlin = _nvfp4.use_marlin
+        self.flashinfer_moe_backend = None
+        self._cache_permute_indices: dict[torch.Size, torch.Tensor] = {}
+        if self.allow_flashinfer:
+            self.flashinfer_moe_backend = get_flashinfer_moe_backend()
+            logger.info_once(
+                f"Using FlashInfer {self.flashinfer_moe_backend.value} kernels"
+                " for ModelOptNvFp4FusedMoE."
+            )
+
+    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+        if self.use_marlin or (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+        ):
+            return None
+        elif (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS
+        ):
+            # For now, fp4 moe only works with the flashinfer dispatcher.
+            prepare_finalize = build_flashinfer_fp4_cutlass_moe_prepare_finalize(
+                self.moe
+            )
+            logger.debug_once("%s", prepare_finalize.__class__.__name__)
+            return prepare_finalize
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        assert self.moe_quant_config is not None
+        experts = select_nvfp4_gemm_impl(
+            self.moe,
+            self.moe_quant_config,
+            allow_flashinfer=self.allow_flashinfer,
+        )
+        logger.debug_once("Using %s", experts.__class__.__name__)
+        return experts
+
+    def uses_weight_scale_2_pattern(self) -> bool:
+        """
+        FP4 variants use 'weight_scale_2' pattern for per-tensor weight scales.
+        """
+        return True
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        if not self.quant_config.is_checkpoint_nvfp4_serialized:
+            raise ValueError(
+                "NVFP4 quantization was selected, "
+                " dynamic quantization is not supported."
+            )
+
+        layer.num_experts = num_experts
+        layer.params_dtype = params_dtype
+        layer.quant_config = self.quant_config
+        weight_dtype = torch.uint8
+        weight_scale_dtype = torch.float8_e4m3fn
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        global_num_experts = extra_weight_attrs.get("global_num_experts")
+        # GEMM 1
+        w13_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // 2,
+                dtype=weight_dtype,
+            ),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+
+        # GEMM 2
+        w2_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition // 2,
+                dtype=weight_dtype,
+            ),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+
+        w13_weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // self.quant_config.group_size,
+                dtype=weight_scale_dtype,
+            ),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+
+        w2_weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition // self.quant_config.group_size,
+                dtype=weight_scale_dtype,
+            ),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+        )
+
+        w13_weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(num_experts, 2, dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w13_weight_scale_2", w13_weight_scale_2)
+
+        w2_weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(num_experts, dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w2_weight_scale_2", w2_weight_scale_2)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+
+        use_global_sf = self.allow_flashinfer and is_flashinfer_supporting_global_sf(
+            self.flashinfer_moe_backend
+        )
+        global_scale_num_experts = global_num_experts if use_global_sf else num_experts
+
+        w13_input_scale = PerTensorScaleParameter(
+            data=torch.empty(global_scale_num_experts, 2, dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w13_input_scale", w13_input_scale)
+
+        w2_input_scale = PerTensorScaleParameter(
+            data=torch.empty(global_scale_num_experts, dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("w2_input_scale", w2_input_scale)
+
+    def prepare_static_weights_for_trtllm_fp4_moe(
+        self,
+        # args_dequant,
+        # args,
+        gemm1_weights,
+        gemm2_weights,
+        gemm1_scales_linear_fp4_bytes,
+        gemm2_scales_linear_fp4_bytes,
+        hidden_size,
+        intermediate_size,
+        num_experts,
+    ):
+        from flashinfer import nvfp4_block_scale_interleave
+        from flashinfer.fused_moe.core import (
+            _maybe_get_cached_w3_w1_permute_indices,
+            get_w2_permute_indices_with_cache,
+        )
+
+        """Prepare quantized weights for kernel (done offline with weights)."""
+        epilogue_tile_m = 128  # FIXME: this depends on the kernel internals
+
+        # Convert quantized weights to proper formats
+        gemm1_weights_fp4 = gemm1_weights.view(torch.float8_e4m3fn).reshape(
+            num_experts, 2 * intermediate_size, hidden_size // 2
+        )  # packed fp4
+        gemm1_scales_linear_fp4 = gemm1_scales_linear_fp4_bytes.view(
+            torch.float8_e4m3fn
+        ).reshape(
+            num_experts, 2 * intermediate_size, hidden_size // 16
+        )  # fp8 scaling factors
+
+        gemm2_weights_fp4 = gemm2_weights.view(torch.float8_e4m3fn).reshape(
+            num_experts, hidden_size, intermediate_size // 2
+        )  # packed fp4
+        gemm2_scales_linear_fp4 = gemm2_scales_linear_fp4_bytes.view(
+            torch.float8_e4m3fn
+        ).reshape(
+            num_experts, hidden_size, intermediate_size // 16
+        )  # fp8 scaling factors
+
+        gemm1_weights_fp4_shuffled = []
+        gemm1_scales_fp4_shuffled = []
+        gemm2_weights_fp4_shuffled = []
+        gemm2_scales_fp4_shuffled = []
+        for i in range(num_experts):
+            # Calculate the permute indices for the following:
+            # 1. Reorder rows of W1 and scales for fused gated activation
+            # 2. Shuffle weights and scaling factors for transposed mma output
+            # for both w3_w1 and w2 weights and scale factors
+            permute_indices = _maybe_get_cached_w3_w1_permute_indices(
+                self._cache_permute_indices,
+                gemm1_weights_fp4[i].view(torch.uint8),
+                epilogue_tile_m,
+            )
+            gemm1_weights_fp4_shuffled.append(
+                gemm1_weights_fp4[i]
+                .view(torch.uint8)[permute_indices.to(gemm1_weights_fp4.device)]
+                .contiguous()
+            )
+
+            permute_sf_indices = _maybe_get_cached_w3_w1_permute_indices(
+                self._cache_permute_indices,
+                gemm1_scales_linear_fp4[i].view(torch.uint8),
+                epilogue_tile_m,
+                num_elts_per_sf=16,
+            )
+            gemm1_scales_fp4_shuffled.append(
+                nvfp4_block_scale_interleave(
+                    gemm1_scales_linear_fp4[i]
+                    .view(torch.uint8)[
+                        permute_sf_indices.to(gemm1_scales_linear_fp4.device)
+                    ]
+                    .contiguous()
+                )
+            )
+
+            permute_indices = get_w2_permute_indices_with_cache(
+                self._cache_permute_indices,
+                gemm2_weights_fp4[i].view(torch.uint8),
+                epilogue_tile_m,
+            )
+            gemm2_weights_fp4_shuffled.append(
+                gemm2_weights_fp4[i]
+                .view(torch.uint8)[permute_indices.to(gemm2_weights_fp4.device)]
+                .contiguous()
+            )
+
+            permute_sf_indices = get_w2_permute_indices_with_cache(
+                self._cache_permute_indices,
+                gemm2_scales_linear_fp4[i].view(torch.uint8),
+                epilogue_tile_m,
+                num_elts_per_sf=16,
+            )
+            gemm2_scales_fp4_shuffled.append(
+                nvfp4_block_scale_interleave(
+                    gemm2_scales_linear_fp4[i]
+                    .view(torch.uint8)[
+                        permute_sf_indices.to(gemm2_scales_linear_fp4.device)
+                    ]
+                    .contiguous()
+                )
+            )
+
+        # Stack weights for all experts
+        gemm1_weights_fp4_shuffled = torch.stack(gemm1_weights_fp4_shuffled)
+        gemm1_scales_fp4_shuffled = (
+            torch.stack(gemm1_scales_fp4_shuffled)
+            .view(torch.float8_e4m3fn)
+            .reshape(num_experts, 2 * intermediate_size, hidden_size // 16)
+        )
+
+        gemm2_weights_fp4_shuffled = torch.stack(gemm2_weights_fp4_shuffled)
+        gemm2_scales_fp4_shuffled = (
+            torch.stack(gemm2_scales_fp4_shuffled)
+            .view(torch.float8_e4m3fn)
+            .reshape(num_experts, hidden_size, intermediate_size // 16)
+        )
+        return (
+            gemm1_weights_fp4_shuffled,
+            gemm1_scales_fp4_shuffled,
+            gemm2_weights_fp4_shuffled,
+            gemm2_scales_fp4_shuffled,
+        )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # GEMM 1 processing
+        gemm1_weight = layer.w13_weight.data
+        gemm1_weight_scale = layer.w13_weight_scale.data
+
+        if self.allow_flashinfer:
+            gemm1_weight, gemm1_weight_scale = reorder_w1w3_to_w3w1(
+                gemm1_weight, gemm1_weight_scale, dim=-2
+            )
+
+        layer.w13_weight = Parameter(gemm1_weight, requires_grad=False)
+        layer.w13_weight_scale = Parameter(gemm1_weight_scale, requires_grad=False)
+
+        # Common processing for w13_weight_scale_2
+        if not torch.allclose(
+            layer.w13_weight_scale_2[:, 0], layer.w13_weight_scale_2[:, 1]
+        ):
+            logger.warning_once(
+                "w1_weight_scale_2 must match w3_weight_scale_2. "
+                "Accuracy may be affected."
+            )
+
+        w13_weight_scale_2 = layer.w13_weight_scale_2[:, 0]
+        layer.w13_weight_scale_2 = Parameter(w13_weight_scale_2, requires_grad=False)
+
+        # Common processing for input scales and alphas
+        use_global_sf = self.allow_flashinfer and is_flashinfer_supporting_global_sf(
+            self.flashinfer_moe_backend
+        )
+        if use_global_sf:
+            # For backends provide by Flashinfer, the input global scales are
+            # shared across all experts.
+            w13_input_scale = (
+                layer.w13_input_scale.max().to(torch.float32).expand(layer.num_experts)
+            )
+        else:
+            w13_input_scale = layer.w13_input_scale.max(dim=1).values.to(torch.float32)
+        layer.g1_alphas = Parameter(
+            (w13_input_scale * w13_weight_scale_2).to(torch.float32),
+            requires_grad=False,
+        )
+
+        # This is for quantization, so we need to invert it.
+        layer.w13_input_scale_quant = Parameter(
+            (1 / w13_input_scale).to(torch.float32), requires_grad=False
+        )
+
+        # GEMM 2 processing
+        if use_global_sf:
+            # For backends provide by Flashinfer, the input global scales are
+            # shared across all experts.
+            w2_input_scale = (
+                layer.w2_input_scale.max().to(torch.float32).expand(layer.num_experts)
+            )
+        else:
+            w2_input_scale = layer.w2_input_scale
+        layer.g2_alphas = Parameter(
+            (w2_input_scale * layer.w2_weight_scale_2).to(torch.float32),
+            requires_grad=False,
+        )
+
+        # This is for quantization, so we need to invert it.
+        layer.w2_input_scale_quant = Parameter(
+            (1 / w2_input_scale).to(torch.float32), requires_grad=False
+        )
+
+        # TensorRT-LLM specific processing
+        if (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+        ):
+            # Prepare static weights for TRT-LLM kernel
+            # alternate: prepare_static_weight_layouts_for_trtllm_moe
+            (
+                gemm1_weights_fp4_shuffled,
+                gemm1_scales_fp4_shuffled,
+                gemm2_weights_fp4_shuffled,
+                gemm2_scales_fp4_shuffled,
+            ) = self.prepare_static_weights_for_trtllm_fp4_moe(
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                layer.w2_weight.size(-2),  # hidden_size
+                layer.w13_weight.size(-2) // 2,  # intermediate_size
+                layer.w13_weight.size(0),  # num_experts
+            )
+            logger.debug_once("Finished shuffling weights for TRT-LLM MOE")
+
+            layer.gemm1_weights_fp4_shuffled = Parameter(
+                gemm1_weights_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm2_weights_fp4_shuffled = Parameter(
+                gemm2_weights_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm1_scales_fp4_shuffled = Parameter(
+                gemm1_scales_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm2_scales_fp4_shuffled = Parameter(
+                gemm2_scales_fp4_shuffled, requires_grad=False
+            )
+
+            # Additional parameter needed for TRT-LLM
+            layer.g1_scale_c = Parameter(
+                (layer.w2_input_scale_quant * layer.g1_alphas).to(torch.float32),
+                requires_grad=False,
+            )
+
+            # Clean up weights that won't be used by TRT-LLM
+            del layer.w2_weight
+            del layer.w2_weight_scale
+            del layer.w13_weight
+            del layer.w13_weight_scale
+        elif self.use_marlin:
+            # Marlin processing
+            prepare_moe_fp4_layer_for_marlin(layer)
+            del layer.g1_alphas
+            del layer.g2_alphas
+            del layer.w13_input_scale_quant
+            del layer.w2_input_scale_quant
+        else:
+            # Non-TRT-LLM processing (Cutlass or non-flashinfer)
+            w13_blockscale_swizzled = swizzle_blockscale(layer.w13_weight_scale)
+            layer.w13_weight_scale = Parameter(
+                w13_blockscale_swizzled, requires_grad=False
+            )
+
+            w2_blockscale_swizzled = swizzle_blockscale(layer.w2_weight_scale)
+            layer.w2_weight_scale = Parameter(
+                w2_blockscale_swizzled, requires_grad=False
+            )
+            layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if (
+            self.use_marlin
+            or self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+        ):
+            return None
+
+        return nvfp4_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            g1_alphas=layer.g1_alphas,
+            g2_alphas=layer.g2_alphas,
+            a1_gscale=layer.w13_input_scale_quant,
+            a2_gscale=layer.w2_input_scale_quant,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `ModelOptNvFp4FusedMoE` yet."
+            )
+        assert activation == "silu", "Only SiLU activation is supported."
+
+        if (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+        ):
+            import flashinfer
+
+            from vllm.model_executor.models.llama4 import Llama4MoE
+
+            a1_gscale = layer.w13_input_scale_quant
+            (hidden_states_fp4, hidden_states_scale_linear_fp4) = (
+                flashinfer.fp4_quantize(
+                    x,
+                    a1_gscale,
+                    is_sf_swizzled_layout=False,
+                )
+            )
+            use_llama4_routing = (
+                custom_routing_function is Llama4MoE.custom_routing_function
+            )
+            routing_method_type = layer.routing_method_type
+            if use_llama4_routing:
+                routing_method_type = RoutingMethodType.Llama4
+            router_logits = (
+                router_logits.to(torch.float32)
+                if routing_method_type == RoutingMethodType.DeepSeekV3
+                else router_logits
+            )
+            routing_bias = e_score_correction_bias
+            if routing_bias is not None:
+                routing_bias = routing_bias.to(torch.bfloat16)
+            out = flashinfer.fused_moe.trtllm_fp4_block_scale_moe(
+                routing_logits=router_logits,
+                routing_bias=routing_bias,
+                hidden_states=hidden_states_fp4,
+                hidden_states_scale=hidden_states_scale_linear_fp4.view(
+                    torch.float8_e4m3fn
+                ).flatten(),
+                gemm1_weights=layer.gemm1_weights_fp4_shuffled.data,
+                gemm1_weights_scale=layer.gemm1_scales_fp4_shuffled.data.view(
+                    torch.float8_e4m3fn
+                ),
+                gemm1_bias=None,
+                gemm1_alpha=None,
+                gemm1_beta=None,
+                gemm1_clamp_limit=None,
+                gemm2_weights=layer.gemm2_weights_fp4_shuffled.data,
+                gemm2_weights_scale=layer.gemm2_scales_fp4_shuffled.data.view(
+                    torch.float8_e4m3fn
+                ),
+                gemm2_bias=None,
+                output1_scale_scalar=layer.g1_scale_c.data,
+                output1_scale_gate_scalar=layer.g1_alphas.data,
+                output2_scale_scalar=layer.g2_alphas.data,
+                num_experts=global_num_experts,
+                top_k=top_k,
+                n_group=num_expert_group,
+                topk_group=topk_group,
+                intermediate_size=layer.intermediate_size_per_partition,
+                local_expert_offset=layer.ep_rank * layer.local_num_experts,
+                local_num_experts=layer.local_num_experts,
+                routed_scaling_factor=None,
+                tile_tokens_dim=None,
+                routing_method_type=routing_method_type,
+                do_finalize=True,
+            )[0]
+            return out
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        if self.use_marlin:
+            return fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                None,
+                None,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                global_scale1=layer.w13_weight_scale_2,
+                global_scale2=layer.w2_weight_scale_2,
+                quant_type_id=scalar_types.float4_e2m1f.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                workspace=layer.workspace,
+            )
+
+        elif (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS
+        ):
+            from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (  # noqa: E501
+                flashinfer_cutlass_moe_fp4,
+            )
+
+            assert self.moe_quant_config is not None
+
+            return flashinfer_cutlass_moe_fp4(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                quant_config=self.moe_quant_config,
+                inplace=False,
+                activation=activation,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            # If no modular kernel is provided, use cutlass_moe_fp4 for TP case
+            # only (no EP).
+            from vllm.model_executor.layers.fused_moe.cutlass_moe import cutlass_moe_fp4
+
+            assert self.moe_quant_config is not None
+            return cutlass_moe_fp4(
+                a=x,
+                w1_fp4=layer.w13_weight,
+                w2_fp4=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                quant_config=self.moe_quant_config,
+                expert_map=expert_map,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                # TODO: derive from arguments
+                m=x.shape[0],
+                n=layer.w2_weight.shape[2] * 2,
+                k=x.shape[1],
+                e=layer.w13_weight.shape[0],
+            )
diff --git a/model_executor/layers/quantization/moe_wna16.py b/model_executor/layers/quantization/moe_wna16.py
new file mode 100644
index 0000000..2090c86
--- /dev/null
+++ b/model_executor/layers/quantization/moe_wna16.py
@@ -0,0 +1,541 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, Optional
+
+import torch
+
+from vllm.distributed import get_tensor_model_parallel_rank, get_tp_group
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    int4_w4a16_moe_quant_config,
+    int8_w8a16_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE,
+    FusedMoEConfig,
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    check_marlin_supports_layer,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+
+
+class MoeWNA16Config(QuantizationConfig):
+    """Config class for MOE WNA16 (W8A16/W4A16) quantization."""
+
+    def __init__(
+        self,
+        linear_quant_method: str,
+        weight_bits: int,
+        group_size: int,
+        has_zp: bool,
+        lm_head_quantized: bool,
+        modules_to_not_convert: list[str] | None,
+        full_config: dict[str, Any],
+    ) -> None:
+        super().__init__()
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.has_zp = has_zp
+        self.bit8_pack_factor = 8 // self.weight_bits
+        self.lm_head_quantized = lm_head_quantized
+        self.linear_quant_method = linear_quant_method
+        self.full_config = full_config
+        self.use_marlin = False
+        # Avoid circular import
+        from vllm.model_executor.layers.quantization.awq import AWQConfig
+        from vllm.model_executor.layers.quantization.awq_marlin import AWQMarlinConfig
+        from vllm.model_executor.layers.quantization.gptq_marlin import GPTQMarlinConfig
+
+        if self.linear_quant_method == "gptq":
+            self.use_marlin = GPTQMarlinConfig.is_gptq_marlin_compatible(full_config)
+        elif self.linear_quant_method == "awq":
+            capability_tuple = current_platform.get_device_capability()
+            device_capability = (
+                -1 if capability_tuple is None else capability_tuple.to_int()
+            )
+            awq_min_capability = AWQConfig.get_min_capability()
+            if device_capability < awq_min_capability:
+                raise ValueError(
+                    "The quantization method moe_wna16 + awq is not supported "
+                    "for the current GPU. "
+                    f"Minimum capability: {awq_min_capability}. "
+                    f"Current capability: {device_capability}."
+                )
+            self.use_marlin = AWQMarlinConfig.is_awq_marlin_compatible(full_config)
+        else:
+            raise ValueError("moe_wna16 only support gptq and awq.")
+
+        if modules_to_not_convert is None:
+            self.modules_to_not_convert = []
+        else:
+            self.modules_to_not_convert = modules_to_not_convert
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "moe_wna16"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "MoeWNA16Config":
+        linear_quant_method = cls.get_from_keys(config, ["quant_method"])
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        if linear_quant_method == "gptq":
+            has_zp = not cls.get_from_keys(config, ["sym"])
+            modules_to_not_convert = []
+        elif linear_quant_method == "awq":
+            has_zp = cls.get_from_keys(config, ["zero_point"])
+            modules_to_not_convert = cls.get_from_keys_or(
+                config, ["modules_to_not_convert"], None
+            )
+        else:
+            raise ValueError("moe_wna16 only support gptq and awq.")
+
+        return cls(
+            linear_quant_method,
+            weight_bits,
+            group_size,
+            has_zp,
+            lm_head_quantized,
+            modules_to_not_convert,
+            config,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        can_convert = cls.is_moe_wna16_compatible(hf_quant_cfg)
+        if can_convert and user_quant == "moe_wna16":
+            return cls.get_name()
+        return None
+
+    @classmethod
+    def is_moe_wna16_compatible(cls, quant_config: dict[str, Any]):
+        # Extract data from quant config.
+        quant_method = quant_config.get("quant_method", "").lower()
+        num_bits = quant_config.get("bits")
+        desc_act = quant_config.get("desc_act")
+
+        capability_tuple = current_platform.get_device_capability()
+        device_capability = (
+            -1 if capability_tuple is None else capability_tuple.to_int()
+        )
+        # Avoid circular import
+        from vllm.model_executor.layers.quantization.awq import AWQConfig
+
+        awq_min_capability = AWQConfig.get_min_capability()
+
+        gptq_compatible = quant_method == "gptq" and not desc_act and num_bits in [4, 8]
+        awq_compatible = (
+            quant_method == "awq"
+            and num_bits == 4
+            and device_capability >= awq_min_capability
+        )
+
+        return gptq_compatible or awq_compatible
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if is_layer_skipped_quant(prefix, self.modules_to_not_convert):
+            return UnquantizedLinearMethod()
+        elif isinstance(layer, LinearBase):
+            # Avoid circular import
+            from vllm.model_executor.layers.quantization.awq import AWQConfig
+            from vllm.model_executor.layers.quantization.awq_marlin import (
+                AWQMarlinConfig,
+            )
+            from vllm.model_executor.layers.quantization.gptq import GPTQConfig
+            from vllm.model_executor.layers.quantization.gptq_marlin import (
+                GPTQMarlinConfig,
+            )
+
+            if self.linear_quant_method == "gptq":
+                if self.use_marlin:
+                    return GPTQMarlinConfig.from_config(
+                        self.full_config
+                    ).get_quant_method(layer, prefix)
+                else:
+                    return GPTQConfig.from_config(self.full_config).get_quant_method(
+                        layer, prefix
+                    )
+            elif self.linear_quant_method == "awq":
+                if self.use_marlin and check_marlin_supports_layer(
+                    layer, self.group_size
+                ):
+                    return AWQMarlinConfig.from_config(
+                        self.full_config
+                    ).get_quant_method(layer, prefix)
+                else:
+                    return AWQConfig.from_config(self.full_config).get_quant_method(
+                        layer, prefix
+                    )
+            else:
+                raise ValueError("moe_wna16 only support gptq and awq.")
+        elif isinstance(layer, FusedMoE):
+            return MoeWNA16Method(self, layer.moe_config)
+        return None
+
+
+def is_layer_skipped_quant(prefix: str, modules_to_not_convert: list[str]):
+    return any(module_name in prefix for module_name in modules_to_not_convert)
+
+
+class MoeWNA16Method(FusedMoEMethodBase):
+    """Linear method for MOE WNA16 (W8A16/W4A16) quantization.
+
+    Args:
+        quant_config: The MOE WNA16 (W8A16/W4A16) quantization config.
+    """
+
+    def __init__(self, quant_config: MoeWNA16Config, moe: "FusedMoEConfig") -> None:
+        super().__init__(moe)
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.quant_config = self.quant_config
+        bit8_pack_factor = self.quant_config.bit8_pack_factor
+        group_size = self.quant_config.group_size
+        group_size_div_factor = 1
+
+        # make intermediate_size and hidden_size divisible by group_size
+        # we reduce the group size to ensure that
+        # and we would repeat the loaded_weight later
+        while intermediate_size_per_partition % group_size or hidden_size % group_size:
+            group_size = group_size // 2
+            group_size_div_factor *= 2
+            assert group_size >= 32
+        layer.group_size = group_size
+        layer.group_size_div_factor = group_size_div_factor
+
+        strategy = FusedMoeWeightScaleSupported.GROUP.value
+        extra_weight_attrs.update({"quant_method": strategy, "is_transposed": False})
+
+        assert "weight_loader" in extra_weight_attrs
+        weight_loader = extra_weight_attrs["weight_loader"]
+        wrapped_weight_loader = MoeWNA16Method.get_weight_loader(layer, weight_loader)
+        extra_weight_attrs["weight_loader"] = wrapped_weight_loader
+
+        # Fused gate_up_proj (column parallel)
+        w13_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size // bit8_pack_factor,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qweight", w13_qweight)
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition // bit8_pack_factor,
+                dtype=torch.uint8,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qweight", w2_qweight)
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+
+        w13_scales = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size // group_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scales", w13_scales)
+        set_weight_attrs(w13_scales, extra_weight_attrs)
+
+        w2_scales = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition // group_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scales", w2_scales)
+        set_weight_attrs(w2_scales, extra_weight_attrs)
+
+        if self.quant_config.has_zp:
+            w13_qzeros = torch.nn.Parameter(
+                torch.zeros(
+                    num_experts,
+                    2 * intermediate_size_per_partition // bit8_pack_factor,
+                    hidden_size // group_size,
+                    dtype=torch.uint8,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_qzeros", w13_qzeros)
+            set_weight_attrs(w13_qzeros, extra_weight_attrs)
+
+            w2_qzeros = torch.nn.Parameter(
+                torch.zeros(
+                    num_experts,
+                    hidden_size // bit8_pack_factor,
+                    intermediate_size_per_partition // group_size,
+                    dtype=torch.uint8,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_qzeros", w2_qzeros)
+            set_weight_attrs(w2_qzeros, extra_weight_attrs)
+
+        if self.quant_config.linear_quant_method == "gptq":
+            # some param are unused, but we need to init them in order to
+            # load weights
+            invalid_param_keys = ["w13_g_idx", "w2_g_idx"]
+            if not self.quant_config.has_zp:
+                invalid_param_keys += ["w13_qzeros", "w2_qzeros"]
+            for key in invalid_param_keys:
+                param = torch.nn.Parameter(
+                    torch.empty((0,), dtype=torch.int32), requires_grad=False
+                )
+                layer.register_parameter(key, param)
+                set_weight_attrs(param, extra_weight_attrs)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        weight_bits = self.quant_config.weight_bits
+        has_zp = self.quant_config.has_zp
+        assert weight_bits == 4 or weight_bits == 8
+        config_builder = (
+            int4_w4a16_moe_quant_config
+            if weight_bits == 4
+            else int8_w8a16_moe_quant_config
+        )
+
+        return config_builder(
+            w1_scale=layer.w13_scales,
+            w2_scale=layer.w2_scales,
+            w1_zp=layer.w13_qzeros if has_zp else None,
+            w2_zp=layer.w2_qzeros if has_zp else None,
+            block_shape=[0, layer.group_size],
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `MoeWNA16Method` yet.")
+
+        from vllm.model_executor.layers.fused_moe import fused_experts
+
+        assert activation == "silu", "Only SiLU activation is supported."
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        return fused_experts(
+            x,
+            layer.w13_qweight,
+            layer.w2_qweight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=True,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            quant_config=self.moe_quant_config,
+        )
+
+    @staticmethod
+    def get_weight_loader(layer, weight_loader):
+        def convert_awq_tensor(tensor, tensor_type):
+            # convert awq qweight/qzeros to a standard format (assume int4)
+            # qweight: (k, n // pack_factor_bit32) -> (n, k // pack_factor_bit8)
+            # qzeros: (k // group_size, n // pack_factor_bit32) ->
+            #         (n // pack_factor_bit8, k // group_size)
+            # pack_factor_bit32 = 32 // weight_bits
+            # pack_factor_bit8 = 8 // weight_bits
+
+            # 0. suppose origin shape (a, b), dtype int32
+            # 1. convert to uint8, shape (a, b) -> (a, 4 * b)
+            size0 = tensor.size(0)
+            tensor = tensor.view(torch.uint8)
+
+            # 2. unpack to uint4 (only when weight_bits == 4)
+            #    shape (a, 4 * b) -> (a, 4 * b, 2)
+            shifter = torch.tensor([0, 4], dtype=torch.uint8, device=tensor.device)
+            tensor = (tensor[:, :, None] >> shifter) & 0xF
+
+            # 3. change order, see
+            # https://github.com/casper-hansen/AutoAWQ/blob/v0.2.8/awq/utils/quant_utils.py
+            # shape -> (a, 4 * b * pack_factor_bit8)
+            reverse_awq_pack_order = [0, 4, 1, 5, 2, 6, 3, 7]
+            tensor = tensor.view(-1, 8)[:, reverse_awq_pack_order]
+            tensor = tensor.view(size0, -1)
+
+            # 4. transpose, shape -> (4 * b * pack_factor_bit8, a)
+            tensor = tensor.T.contiguous()
+
+            # 5. repack (only when weight_bits == 4)
+            # qweight shape -> (4 * b * pack_factor_bit8, a // pack_factor_bit8)
+            # qzeros shape -> (4 * b, a)
+
+            if tensor_type == "qweight":
+                tensor = tensor[:, 1::2] * 16 + tensor[:, ::2]
+            elif tensor_type == "qzeros":
+                tensor = tensor[1::2, :] * 16 + tensor[::2, :]
+            return tensor
+
+        def convert_gptq_int4_qzeros(tensor):
+            tensor = tensor.view(torch.uint8)
+            shifter = torch.tensor([0, 4], dtype=torch.uint8, device=tensor.device)
+            tensor = (tensor[:, :, None] >> shifter) & 0xF
+            tensor = tensor + 1
+            tensor = tensor[:, :, 0] + tensor[:, :, 1] * 16
+            return tensor
+
+        def moe_wna16_weight_loader(
+            param: torch.nn.Parameter,
+            loaded_weight: torch.Tensor,
+            weight_name: str,
+            shard_id: str,
+            expert_id: int,
+            return_success: bool = False,
+        ):
+            if "g_idx" in weight_name:
+                return False if return_success else None
+            if not layer.quant_config.has_zp and "qzeros" in weight_name:
+                return False if return_success else None
+
+            device = get_tp_group().device
+            tp_rank = get_tensor_model_parallel_rank()
+            loaded_weight = loaded_weight.to(device)
+            shard_size = layer.intermediate_size_per_partition
+
+            # convert gptq and awq weight to a standard format
+            if layer.quant_config.linear_quant_method == "awq":
+                assert layer.quant_config.weight_bits == 4
+                if "weight" in weight_name:
+                    loaded_weight = convert_awq_tensor(loaded_weight, "qweight")
+                elif "zeros" in weight_name:
+                    loaded_weight = convert_awq_tensor(loaded_weight, "qzeros")
+                else:
+                    loaded_weight = loaded_weight.T
+            elif layer.quant_config.linear_quant_method == "gptq":
+                assert layer.quant_config.weight_bits in [4, 8]
+                if "weight" in weight_name:
+                    loaded_weight = loaded_weight.T.contiguous().view(torch.uint8)
+                elif "zeros" in weight_name:
+                    # add 1 to gptq qzeros to align with awq
+                    loaded_weight = loaded_weight.view(torch.uint8)
+                    if layer.quant_config.weight_bits == 4:
+                        loaded_weight = convert_gptq_int4_qzeros(loaded_weight).T
+                    else:
+                        loaded_weight = loaded_weight.T + 1
+                else:
+                    loaded_weight = loaded_weight.T
+
+            # repeat the qzeros/scales to fit new group size
+            if (
+                layer.group_size_div_factor > 1
+                and "qzeros" in weight_name
+                or "scales" in weight_name
+            ):
+                loaded_weight = loaded_weight.repeat_interleave(
+                    layer.group_size_div_factor, 1
+                )
+
+            if "w13_qzeros" in weight_name:
+                tensor = loaded_weight.view(layer.tp_size, -1, loaded_weight.size(1))[
+                    tp_rank
+                ]
+                if shard_id == "w1":
+                    param.data[expert_id, : shard_size // 2] = tensor
+                else:
+                    param.data[expert_id, shard_size // 2 :] = tensor
+                return True if return_success else None
+            elif "w2_qzeros" in weight_name:
+                param.data[expert_id] = loaded_weight.view(
+                    loaded_weight.size(0), layer.tp_size, -1
+                )[:, tp_rank]
+                return True if return_success else None
+            else:
+                # Delegate to the original loader, passing return_success
+                return weight_loader(
+                    param,
+                    loaded_weight,
+                    weight_name,
+                    shard_id,
+                    expert_id,
+                    return_success=return_success,
+                )
+
+        return moe_wna16_weight_loader
diff --git a/model_executor/layers/quantization/mxfp4.py b/model_executor/layers/quantization/mxfp4.py
new file mode 100644
index 0000000..b95d1a6
--- /dev/null
+++ b/model_executor/layers/quantization/mxfp4.py
@@ -0,0 +1,1162 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+from enum import Enum
+from typing import Optional
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm import envs
+from vllm.config import get_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoE,
+    FusedMoEConfig,
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe import modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    mxfp4_mxfp8_moe_quant_config,
+    mxfp4_w4a16_moe_quant_config,
+    ocp_mx_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import (
+    BatchedMarlinExperts,
+    MarlinExperts,
+    fused_marlin_moe,
+)
+from vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe import (
+    OAITritonExperts,
+)
+from vllm.model_executor.layers.fused_moe.trtllm_moe import TrtLlmGenExperts
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    prepare_moe_fp4_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp4_utils import (
+    _can_support_mxfp4,
+    _swizzle_mxfp4,
+    get_padding_alignment,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+from vllm.utils.flashinfer import has_flashinfer
+from vllm.utils.import_utils import has_triton_kernels
+from vllm.utils.math_utils import round_up
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+logger = init_logger(__name__)
+
+
+# enum for mxfp4 backend
+class Mxfp4Backend(Enum):
+    NONE = 0
+
+    # FlashInfer Backend
+    SM100_FI_MXFP4_MXFP8_TRTLLM = 1
+    SM100_FI_MXFP4_MXFP8_CUTLASS = 2
+    SM100_FI_MXFP4_BF16 = 3
+    SM90_FI_MXFP4_BF16 = 4
+
+    # Marlin Backend
+    MARLIN = 5
+
+    # Triton Backend
+    TRITON = 6
+
+
+def get_mxfp4_backend_with_lora() -> Mxfp4Backend:
+    """
+    Not all MXFP4 backends support LoRA. Select backends that are known to
+    have LoRA support.
+    """
+    if not current_platform.is_cuda():
+        return Mxfp4Backend.NONE
+
+    logger.info_once("[get_mxfp4_backend_with_lora] Using Marlin backend")
+    return Mxfp4Backend.MARLIN
+
+
+def get_mxfp4_backend(with_lora_support: bool) -> Mxfp4Backend:
+    # Backend Selection
+
+    if with_lora_support:
+        return get_mxfp4_backend_with_lora()
+
+    if current_platform.is_cuda():
+        if (
+            current_platform.is_device_capability(90)
+            and has_flashinfer()
+            and envs.VLLM_USE_FLASHINFER_MOE_MXFP4_BF16
+        ):
+            logger.info_once("Using FlashInfer MXFP4 BF16 backend for SM90")
+            return Mxfp4Backend.SM90_FI_MXFP4_BF16
+        elif (
+            current_platform.is_device_capability(100)
+            and has_flashinfer()
+            and envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS
+        ):
+            logger.info_once("Using FlashInfer MXFP4 MXFP8 CUTLASS backend for SM100")
+            return Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS
+        elif (
+            current_platform.is_device_capability(100)
+            and has_flashinfer()
+            and envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8
+        ):
+            return Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+        elif current_platform.is_device_capability(100) and has_flashinfer():
+            logger.info_once(
+                "Using FlashInfer MXFP4 BF16 backend for SM100, "
+                "For faster performance on SM100, consider setting "
+                "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8=1, though this may impact "
+                "accuracy."
+            )
+            return Mxfp4Backend.SM100_FI_MXFP4_BF16
+        elif (
+            current_platform.is_device_capability(100)
+            or current_platform.is_device_capability(90)
+        ) and not has_flashinfer():
+            logger.warning_once(
+                "MXFP4 MoE is enabled on Hopper/Blackwell but FlashInfer "
+                "is not available. This may result in degraded performance. "
+                "Please `pip install vllm[flashinfer]` for best results."
+            )
+
+        # If FlashInfer is not available, try either Marlin or Triton
+        if (
+            envs.VLLM_MXFP4_USE_MARLIN
+            or current_platform.get_device_capability()[0] < 9
+            or not has_triton_kernels()
+            or not is_torch_equal_or_newer("2.8.0")
+        ):
+            logger.info_once("Using Marlin backend")
+            return Mxfp4Backend.MARLIN
+        else:
+            logger.info_once("Using Triton backend")
+            return Mxfp4Backend.TRITON
+    elif current_platform.is_xpu():
+        logger.info_once("Using ipex marlin backend on XPU")
+        return Mxfp4Backend.MARLIN
+    elif current_platform.is_rocm() and has_triton_kernels():
+        logger.info_once("Using Triton backend")
+        return Mxfp4Backend.TRITON
+
+    return Mxfp4Backend.NONE
+
+
+class Mxfp4Config(QuantizationConfig):
+    def __init__(self, ignored_layers: list[str] | None = None):
+        super().__init__()
+        self.ignored_layers = ignored_layers
+
+    @classmethod
+    def from_config(cls, config):
+        return cls()
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "mxfp4"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16]
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        if isinstance(layer, LinearBase):
+            if self.ignored_layers and is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedLinearMethod()
+            # TODO: Add support for MXFP4 Linear Method.
+            # MXFP4 LinearMethod is available in AMD-Quark, refer to that implementation
+            # if you are interested in enabling MXFP4 here.
+            logger.warning_once(
+                "MXFP4 linear layer is not implemented - falling back to "
+                "UnquantizedLinearMethod."
+            )
+            return UnquantizedLinearMethod()
+        elif isinstance(layer, FusedMoE):
+            if current_platform.is_xpu():
+                return IpexMxfp4MoEMethod(layer.moe_config)
+            else:
+                return Mxfp4MoEMethod(layer.moe_config)
+        elif isinstance(layer, Attention):
+            # TODO: Add support for MXFP4 Attention.
+            logger.warning_once(
+                "MXFP4 attention layer is not implemented. "
+                "Skipping quantization for this layer."
+            )
+        return None
+
+
+class Mxfp4MoEMethod(FusedMoEMethodBase):
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__(moe)
+        self.mxfp4_backend = get_mxfp4_backend(moe.is_lora_enabled)
+        self.use_marlin = self.mxfp4_backend == Mxfp4Backend.MARLIN
+        self.max_capture_size = (
+            get_current_vllm_config().compilation_config.max_cudagraph_capture_size
+        )
+
+        assert self.mxfp4_backend != Mxfp4Backend.NONE, (
+            f"get_mxfp4_backend(with_lora_support={moe.is_lora_enabled}) found"
+            "no compatible MXFP4 MoE backend (FlashInfer/Marlin/Triton)."
+            "Please check your environment and try again."
+        )
+        self._cache_permute_indices: dict[torch.Size, torch.Tensor] = {}
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        self.num_experts = num_experts
+        weight_dtype = torch.uint8
+        scale_dtype = torch.uint8
+
+        # FIXME (zyongye): ship after torch and safetensors support mxfp4
+        # is_torch_mxfp4_available = (
+        #     hasattr(torch, "float4_e2m1fn_x2") and
+        #     hasattr(torch, "float8_e8m0fnu"))
+        # if is_torch_mxfp4_available:
+        #     weight_dtype = torch.float4_e2m1fn_x2
+        #     scale_dtype = torch.float8_e8m0fnu
+
+        mxfp4_block = 32
+
+        intermediate_size_per_partition_after_pad = intermediate_size_per_partition
+        if self.mxfp4_backend == Mxfp4Backend.MARLIN:
+            # The moe marlin kernel requires that for each linear
+            # n % 256 == 0 and k % 128 == 0.
+            # In gate_up_proj:
+            #    n = 2 * intermediate_size_per_partition_after_pad
+            #    k = hidden_size
+            # In down_proj
+            #    n = hidden_size
+            #    k = intermediate_size_per_partition_after_pad
+            intermediate_size_per_partition_after_pad = round_up(
+                intermediate_size_per_partition, 128
+            )
+            if current_platform.is_xpu():
+                hidden_size = round_up(hidden_size, 128)
+            else:
+                hidden_size = round_up(hidden_size, 256)
+
+            layer.params_dtype = params_dtype
+            layer.num_experts = num_experts
+            layer.hidden_size = hidden_size
+            layer.intermediate_size_per_partition = (
+                intermediate_size_per_partition_after_pad
+            )
+        elif (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+            or self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16
+        ):
+            # pad the intermediate size to be a multiple of 2 * mxfp4_block
+            # for to hold non-uniform sharded tensor as well as swizzling
+            # other padding to increase performance
+            intermediate_size_per_partition_after_pad = round_up(
+                intermediate_size_per_partition, 256
+            )
+            hidden_size = round_up(hidden_size, 256)
+        elif (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS
+            or self.mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16
+        ):
+            intermediate_size_per_partition_after_pad = round_up(
+                intermediate_size_per_partition, 128
+            )
+            hidden_size = round_up(hidden_size, 128)
+        elif current_platform.is_rocm():
+            pad_align = get_padding_alignment()
+            intermediate_size_per_partition_after_pad = round_up(
+                intermediate_size_per_partition, pad_align
+            )
+            hidden_size = round_up(hidden_size, pad_align)
+        else:
+            intermediate_size_per_partition_after_pad = round_up(
+                intermediate_size_per_partition, 64
+            )
+
+        self.intermediate_size = intermediate_size_per_partition_after_pad
+        self.hidden_size = hidden_size
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition_after_pad,
+                hidden_size // 2,
+                dtype=weight_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w13_weight_scale = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition_after_pad,
+                hidden_size // mxfp4_block,
+                dtype=scale_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+
+        w13_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition_after_pad,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_bias", w13_bias)
+        set_weight_attrs(w13_bias, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition_after_pad // 2,
+                dtype=weight_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        w2_weight_scale = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition_after_pad // mxfp4_block,
+                dtype=scale_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        w2_bias = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                dtype=torch.bfloat16,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_bias", w2_bias)
+        set_weight_attrs(w2_bias, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer):
+        if self.mxfp4_backend == Mxfp4Backend.MARLIN:
+            prepare_moe_fp4_layer_for_marlin(layer)
+        elif (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+            or self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16
+        ):
+            from flashinfer.fp4_quantization import nvfp4_block_scale_interleave
+            from flashinfer.fused_moe.core import get_w2_permute_indices_with_cache
+
+            layer.gemm1_alpha = Parameter(
+                torch.tensor([1.702] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_beta = Parameter(
+                torch.tensor([1.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_clamp_limit = Parameter(
+                torch.tensor([7.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            sf_block_size = 32  # mxfp4 block size
+
+            assert (
+                layer.w13_weight.dim() == 3
+                and layer.w13_weight.shape[0] == self.num_experts
+                and layer.w13_weight.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight.shape[2] == self.hidden_size // 2
+            )
+            assert (
+                layer.w13_weight_scale.dim() == 3
+                and layer.w13_weight_scale.shape[0] == self.num_experts
+                and layer.w13_weight_scale.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight_scale.shape[2] == self.hidden_size // sf_block_size
+            )
+            assert (
+                layer.w2_weight.dim() == 3
+                and layer.w2_weight.shape[0] == self.num_experts
+                and layer.w2_weight.shape[1] == self.hidden_size
+                and layer.w2_weight.shape[2] == self.intermediate_size // 2
+            )
+            assert (
+                layer.w2_weight_scale.dim() == 3
+                and layer.w2_weight_scale.shape[1] == self.hidden_size
+                and layer.w2_weight_scale.shape[2]
+                == self.intermediate_size // sf_block_size
+            )
+            assert (
+                layer.w13_bias.dim() == 2
+                and layer.w13_bias.shape[0] == self.num_experts
+                and layer.w13_bias.shape[1] == self.intermediate_size * 2
+            )
+            assert (
+                layer.w2_bias.dim() == 2
+                and layer.w2_bias.shape[0] == self.num_experts
+                and layer.w2_bias.shape[1] == self.hidden_size
+            )
+
+            w13_weight_scale = layer.w13_weight_scale.data
+            w2_weight_scale = layer.w2_weight_scale.data
+            w13_weight = layer.w13_weight.data
+            w2_weight = layer.w2_weight.data
+            w13_bias = layer.w13_bias.data.to(torch.float32)
+            w2_bias = layer.w2_bias.data.to(torch.float32)
+
+            # Swap w1 and w3 as the definition of
+            # swiglu is different in the trtllm-gen
+            def swap_every_two_rows(x, axis=-1):
+                shape = x.shape
+                if axis < 0:
+                    axis = len(shape) + axis
+
+                # Create a new shape with pairs swapped along specified axis
+                new_shape = list(shape)
+                new_shape[axis] = shape[axis] // 2
+                new_shape.insert(axis + 1, 2)
+
+                # Reshape to expose pairs, swap them, and reshape back
+                x = x.reshape(*new_shape)
+                x = x.flip(axis + 1)
+                new_shape = list(shape)
+                return x.reshape(*new_shape)
+
+            w13_weight_scale = swap_every_two_rows(w13_weight_scale, -2)
+            w13_weight = swap_every_two_rows(w13_weight, -2)
+            w13_bias = swap_every_two_rows(w13_bias, -1)
+
+            # Do not interleave as the checkpoint is already interleaved
+
+            # Shuffle weights and scaling factors for transposed mma output
+            gemm1_weights_mxfp4_shuffled = []
+            gemm1_scales_mxfp4_shuffled = []
+            gemm2_weights_mxfp4_shuffled = []
+            gemm2_scales_mxfp4_shuffled = []
+            gemm1_bias_shuffled = []
+            gemm2_bias_shuffled = []
+            epilogue_tile_m = 128  # FIXME: this depends on the kernel internals
+            for i in range(self.num_experts):
+                # w13 weight shuffling
+                permute_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w13_weight[i].view(torch.uint8),
+                    epilogue_tile_m,
+                )
+                gemm1_weights_mxfp4_shuffled.append(
+                    w13_weight[i]
+                    .view(torch.uint8)[permute_indices.to(w13_weight.device)]
+                    .contiguous()
+                )
+                # w13 scale shuffling
+                permute_sf_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w13_weight_scale[i].view(torch.uint8),
+                    epilogue_tile_m,
+                    num_elts_per_sf=16,
+                )
+                gemm1_scales_mxfp4_shuffled.append(
+                    nvfp4_block_scale_interleave(
+                        w13_weight_scale[i]
+                        .view(torch.uint8)[
+                            permute_sf_indices.to(w13_weight_scale.device)
+                        ]
+                        .contiguous()
+                    )
+                )
+                # w13 bias shuffling
+                permute_bias_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w13_bias[i].clone().reshape(-1, 1),
+                    epilogue_tile_m,
+                )
+                gemm1_bias_shuffled.append(
+                    w13_bias[i]
+                    .clone()
+                    .reshape(-1, 1)[permute_bias_indices.to(w13_bias.device)]
+                    .contiguous()
+                )
+                # w2 weight shuffling
+                permute_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w2_weight[i].view(torch.uint8),
+                    epilogue_tile_m,
+                )
+                gemm2_weights_mxfp4_shuffled.append(
+                    w2_weight[i]
+                    .view(torch.uint8)[permute_indices.to(w2_weight.device)]
+                    .contiguous()
+                )
+                # w2 scale shuffling
+                permute_sf_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w2_weight_scale[i].view(torch.uint8),
+                    epilogue_tile_m,
+                    num_elts_per_sf=16,
+                )
+                gemm2_scales_mxfp4_shuffled.append(
+                    nvfp4_block_scale_interleave(
+                        w2_weight_scale[i]
+                        .view(torch.uint8)[
+                            permute_sf_indices.to(w2_weight_scale.device)
+                        ]
+                        .contiguous()
+                    )
+                )
+                # w2 bias shuffling
+                permute_indices = get_w2_permute_indices_with_cache(
+                    self._cache_permute_indices,
+                    w2_bias[i].clone().reshape(-1, 1),
+                    epilogue_tile_m,
+                )
+                gemm2_bias_shuffled.append(
+                    w2_bias[i]
+                    .clone()
+                    .reshape(-1, 1)[permute_indices.to(w2_bias.device)]
+                    .contiguous()
+                )
+
+            w13_weight = torch.stack(gemm1_weights_mxfp4_shuffled)
+            w13_weight_scale = (
+                torch.stack(gemm1_scales_mxfp4_shuffled)
+                .reshape(
+                    self.num_experts,
+                    2 * self.intermediate_size,
+                    self.hidden_size // sf_block_size,
+                )
+                .view(torch.float8_e4m3fn)
+            )
+
+            w2_weight = torch.stack(gemm2_weights_mxfp4_shuffled)
+            w2_weight_scale = (
+                torch.stack(gemm2_scales_mxfp4_shuffled)
+                .reshape(
+                    self.num_experts,
+                    self.hidden_size,
+                    self.intermediate_size // sf_block_size,
+                )
+                .view(torch.float8_e4m3fn)
+            )
+
+            layer.w13_weight = Parameter(w13_weight, requires_grad=False)
+            layer.w13_weight_scale = Parameter(w13_weight_scale, requires_grad=False)
+            layer.w2_weight = Parameter(w2_weight, requires_grad=False)
+            layer.w2_weight_scale = Parameter(w2_weight_scale, requires_grad=False)
+            layer.w13_bias = Parameter(
+                torch.stack(gemm1_bias_shuffled).reshape(self.num_experts, -1),
+                requires_grad=False,
+            )
+            layer.w2_bias = Parameter(
+                torch.stack(gemm2_bias_shuffled).reshape(self.num_experts, -1),
+                requires_grad=False,
+            )
+        elif (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS
+            or self.mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16
+        ):
+            layer.gemm1_alpha = Parameter(
+                torch.tensor([1.702] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_beta = Parameter(
+                torch.tensor([1.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_clamp_limit = Parameter(
+                torch.tensor([7.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+
+            sf_block_size = 32  # mxfp4 block size
+
+            # Common shape assertions
+            assert (
+                layer.w13_weight.dim() == 3
+                and layer.w13_weight.shape[0] == self.num_experts
+                and layer.w13_weight.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight.shape[2] == self.hidden_size // 2
+            )
+            assert (
+                layer.w13_weight_scale.dim() == 3
+                and layer.w13_weight_scale.shape[0] == self.num_experts
+                and layer.w13_weight_scale.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight_scale.shape[2] == self.hidden_size // sf_block_size
+            )
+            assert (
+                layer.w2_weight.dim() == 3
+                and layer.w2_weight.shape[0] == self.num_experts
+                and layer.w2_weight.shape[1] == self.hidden_size
+                and layer.w2_weight.shape[2] == self.intermediate_size // 2
+            )
+            assert (
+                layer.w2_weight_scale.dim() == 3
+                and layer.w2_weight_scale.shape[1] == self.hidden_size
+                and layer.w2_weight_scale.shape[2]
+                == self.intermediate_size // sf_block_size
+            )
+            assert (
+                layer.w13_bias.dim() == 2
+                and layer.w13_bias.shape[0] == self.num_experts
+                and layer.w13_bias.shape[1] == self.intermediate_size * 2
+            )
+            assert (
+                layer.w2_bias.dim() == 2
+                and layer.w2_bias.shape[0] == self.num_experts
+                and layer.w2_bias.shape[1] == self.hidden_size
+            )
+
+            # De-interleave and swap for w13 weight, bias, and scales
+            w13_w = layer.w13_weight.data
+            gate_w, up_w = w13_w[:, ::2, :], w13_w[:, 1::2, :]
+            deinterleaved_w13_w = torch.cat([gate_w, up_w], dim=1)
+            w1_w, w3_w = torch.chunk(deinterleaved_w13_w, 2, dim=1)
+            w13_weight_swapped = torch.cat([w3_w, w1_w], dim=1)
+
+            w13_b = layer.w13_bias.data.to(torch.float32)
+            gate_b, up_b = w13_b[:, ::2], w13_b[:, 1::2]
+            deinterleaved_w13_b = torch.cat([gate_b, up_b], dim=1)
+            b1, b3 = torch.chunk(deinterleaved_w13_b, 2, dim=-1)
+            w13_bias_swapped = torch.cat([b3, b1], dim=-1).to(torch.bfloat16)
+
+            w13_s = layer.w13_weight_scale.data
+            gate_s, up_s = w13_s[:, ::2, :], w13_s[:, 1::2, :]
+            deinterleaved_w13_s = torch.cat([gate_s, up_s], dim=1)
+            s1, s3 = torch.chunk(deinterleaved_w13_s, 2, dim=1)
+            w13_scale_swapped = torch.cat([s3, s1], dim=1)
+
+            if self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS:
+                from flashinfer import block_scale_interleave
+
+                orig_shape = w13_scale_swapped.shape
+                w13_scale_interleaved = block_scale_interleave(
+                    w13_scale_swapped.view(torch.uint8)
+                ).reshape(orig_shape)
+
+                w2_s = layer.w2_weight_scale.data
+                orig_shape = w2_s.shape
+                w2_scale_interleaved = block_scale_interleave(
+                    w2_s.view(torch.uint8)
+                ).reshape(orig_shape)
+
+                layer.w13_weight = Parameter(w13_weight_swapped, requires_grad=False)
+                layer.w13_weight_scale = Parameter(
+                    w13_scale_interleaved, requires_grad=False
+                )
+                layer.w13_bias = Parameter(w13_bias_swapped, requires_grad=False)
+                layer.w2_weight_scale = Parameter(
+                    w2_scale_interleaved, requires_grad=False
+                )
+            elif self.mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16:
+
+                def _interleave_mxfp4_cutlass_sm90(w):
+                    w_shape = w.shape
+                    w_interleaved = w.reshape(
+                        w_shape[0], w_shape[1], (w_shape[2] // 4), 4
+                    )
+                    w_interleaved = w_interleaved.permute(0, 2, 1, 3)
+                    w_interleaved = w_interleaved.reshape(
+                        w_shape[0], w_shape[2] // 4, w_shape[1] * 4
+                    )
+                    return w_interleaved
+
+                w31_scales = w13_scale_swapped.to(torch.uint8).view(torch.uint8)
+                w31_scales_interleaved = _interleave_mxfp4_cutlass_sm90(w31_scales)
+
+                w2_weight_scale = layer.w2_weight_scale.data
+                w2_scales = w2_weight_scale.to(torch.uint8).view(torch.uint8)
+                w2_scales_interleaved = _interleave_mxfp4_cutlass_sm90(w2_scales)
+
+                layer.w13_weight = torch.nn.Parameter(
+                    torch.cat([w3_w, w1_w], dim=1), requires_grad=False
+                )
+                layer.w13_bias = torch.nn.Parameter(
+                    w13_bias_swapped, requires_grad=False
+                )
+                layer.w13_weight_scale = torch.nn.Parameter(
+                    w31_scales_interleaved, requires_grad=False
+                )
+                layer.w2_weight_scale = torch.nn.Parameter(
+                    w2_scales_interleaved, requires_grad=False
+                )
+        elif self.mxfp4_backend == Mxfp4Backend.TRITON:
+            from triton_kernels.matmul_ogs import FlexCtx, PrecisionConfig
+
+            w13_bias = layer.w13_bias.to(torch.float32)
+            w2_bias = layer.w2_bias.to(torch.float32)
+
+            layer.w13_bias = Parameter(w13_bias, requires_grad=False)
+            layer.w2_bias = Parameter(w2_bias, requires_grad=False)
+
+            # Ideally we'd use FusedMoEModularKernel.prepare_finalize object
+            # (stored in self.fused_experts) to determine if the MoE has a
+            # batched activation format. As self.fused_experts is not
+            # initialized at this point, we resort to checking the MoE config
+            # directly.
+            is_batched_moe = self.moe.use_pplx_kernels or self.moe.use_deepep_ll_kernels
+            if is_batched_moe:
+                num_warps = 4 if envs.VLLM_MOE_DP_CHUNK_SIZE <= 512 else 8
+            else:
+                num_warps = 8
+
+            w13_weight, w13_flex, w13_scale = _swizzle_mxfp4(
+                layer.w13_weight, layer.w13_weight_scale, num_warps
+            )
+            w2_weight, w2_flex, w2_scale = _swizzle_mxfp4(
+                layer.w2_weight, layer.w2_weight_scale, num_warps
+            )
+
+            self.w13_precision_config = PrecisionConfig(
+                weight_scale=w13_scale, flex_ctx=FlexCtx(rhs_data=w13_flex)
+            )
+            self.w2_precision_config = PrecisionConfig(
+                weight_scale=w2_scale, flex_ctx=FlexCtx(rhs_data=w2_flex)
+            )
+
+            self.w13_weight = w13_weight
+            self.w2_weight = w2_weight
+            layer.w13_weight = Parameter(w13_weight.storage.data, requires_grad=False)
+            layer.w2_weight = Parameter(w2_weight.storage.data, requires_grad=False)
+        else:
+            raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.mxfp4_backend == Mxfp4Backend.MARLIN:
+            return mxfp4_w4a16_moe_quant_config(
+                w1_bias=layer.w13_bias,
+                w2_bias=layer.w2_bias,
+                w1_scale=layer.w13_weight_scale,
+                w2_scale=layer.w2_weight_scale,
+            )
+        elif self.mxfp4_backend == Mxfp4Backend.TRITON:
+            w1_scale = self.w13_precision_config
+            w2_scale = self.w2_precision_config
+            return mxfp4_w4a16_moe_quant_config(
+                w1_bias=layer.w13_bias,
+                w2_bias=layer.w2_bias,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+            )
+        elif self.mxfp4_backend in [
+            Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM,
+            Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS,
+        ]:
+            return mxfp4_mxfp8_moe_quant_config(
+                w1_bias=layer.w13_bias,
+                w2_bias=layer.w2_bias,
+                w1_scale=layer.w13_weight_scale,
+                w2_scale=layer.w2_weight_scale,
+            )
+        elif self.mxfp4_backend in [Mxfp4Backend.SM100_FI_MXFP4_BF16]:
+            return mxfp4_w4a16_moe_quant_config(
+                w1_bias=layer.w13_bias,
+                w2_bias=layer.w2_bias,
+                w1_scale=layer.w13_weight_scale,
+                w2_scale=layer.w2_weight_scale,
+            )
+        else:
+            w1_scale = layer.w13_weight_scale
+            w2_scale = layer.w2_weight_scale
+            return ocp_mx_moe_quant_config(
+                quant_dtype="mxfp4",
+                w1_bias=layer.w13_bias,
+                w2_bias=layer.w2_bias,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+            )
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        if (
+            prepare_finalize.activation_format
+            == mk.FusedMoEActivationFormat.BatchedExperts
+        ):
+            if self.mxfp4_backend == Mxfp4Backend.MARLIN:
+                max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
+                assert max_num_tokens_per_rank is not None
+                assert self.moe_quant_config is not None
+                return BatchedMarlinExperts(
+                    max_num_tokens=max_num_tokens_per_rank,
+                    num_dispatchers=prepare_finalize.num_dispatchers(),
+                    quant_config=self.moe_quant_config,
+                )
+            else:
+                raise NotImplementedError(
+                    f"Incompatible Mxfp4 backend ({self.mxfp4_backend}) for "
+                    "EP batched experts format"
+                )
+        else:
+            assert self.moe_quant_config is not None
+            if (
+                self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+                or self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16
+            ):
+                # B200 code-path
+                kwargs = {
+                    "gemm1_alpha": layer.gemm1_alpha,
+                    "gemm1_beta": layer.gemm1_beta,
+                    "gemm1_clamp_limit": layer.gemm1_clamp_limit,
+                    # TODO(bnell): part of quant_config
+                    "max_capture_size": self.max_capture_size,
+                }
+                return TrtLlmGenExperts(self.moe, self.moe_quant_config, **kwargs)
+            elif self.mxfp4_backend == Mxfp4Backend.MARLIN:
+                return MarlinExperts(self.moe_quant_config)
+            elif self.mxfp4_backend == Mxfp4Backend.TRITON:
+                return OAITritonExperts(self.moe_quant_config)
+            else:
+                raise NotImplementedError(
+                    f"Incompatible Mxfp4 backend ({self.mxfp4_backend}) for EP"
+                )
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError("EPLB is not supported for mxfp4")
+
+        if self.mxfp4_backend == Mxfp4Backend.MARLIN:
+            topk_weights, topk_ids, _ = FusedMoE.select_experts(
+                hidden_states=x,
+                router_logits=router_logits,
+                use_grouped_topk=use_grouped_topk,
+                top_k=top_k,
+                renormalize=renormalize,
+                topk_group=topk_group,
+                num_expert_group=num_expert_group,
+                custom_routing_function=custom_routing_function,
+                scoring_func=scoring_func,
+                routed_scaling_factor=routed_scaling_factor,
+                e_score_correction_bias=e_score_correction_bias,
+            )
+
+            return fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_bias,
+                layer.w2_bias,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                global_scale1=None,
+                global_scale2=None,
+                quant_type_id=scalar_types.float4_e2m1f.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                activation=activation,
+                expert_map=expert_map,
+            )
+
+        assert _can_support_mxfp4(
+            use_grouped_topk,
+            topk_group,
+            num_expert_group,
+            expert_map,
+            custom_routing_function,
+            e_score_correction_bias,
+            apply_router_weight_on_input,
+            scoring_func,
+            activation,
+            expert_load_view,
+            logical_to_physical_map,
+            logical_replica_count,
+        ), "MXFP4 are not supported with this configuration."
+
+        if (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
+            or self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16
+        ):
+            from flashinfer import trtllm_fp4_block_scale_moe
+
+            if self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_BF16:
+                assert x.dtype == torch.bfloat16
+                x_quant = x
+                x_scale = None
+            elif self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM:
+                from flashinfer import mxfp8_quantize
+
+                x_quant, x_scale = mxfp8_quantize(x, False)  # to mxfp8
+                x_scale = x_scale.view(torch.float8_e4m3fn).reshape(*x.shape[:-1], -1)
+
+            trtllm_gen_output = trtllm_fp4_block_scale_moe(
+                router_logits.to(torch.bfloat16),
+                None,  # routing_bias
+                x_quant,
+                x_scale,
+                layer.w13_weight,  # uint8 (e2m1 x 2)
+                layer.w13_weight_scale,  # uint8 (e4m3 x 2)
+                layer.w13_bias,  # fp32 per expert per channel
+                layer.gemm1_alpha,  # fp32 per expert
+                layer.gemm1_beta,  # fp32 per expert
+                layer.gemm1_clamp_limit,  # fp32 per expert
+                layer.w2_weight,  # uint8 (e2m1 x 2)
+                layer.w2_weight_scale,  # ue8m0
+                layer.w2_bias,  # fp32 per expert per channel
+                None,  # output1_scale_scalar
+                None,  # output1_scale_gate_scalar
+                None,  # output2_scale_scalar
+                global_num_experts,
+                top_k,
+                None,  # n_group
+                None,  # topk_group
+                self.intermediate_size,  # padded to multiple of 256
+                layer.ep_rank * layer.local_num_experts,  # local_expert_offset
+                self.num_experts,  # local num experts
+                None,
+                None,
+                1 if renormalize else 0,  # routing_method_type, renormalize
+                True,  # do finalize
+                tune_max_num_tokens=max(self.max_capture_size, 1),
+            )[0]
+            return trtllm_gen_output
+        elif (
+            self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS
+            or self.mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16
+        ):
+            from vllm.utils.flashinfer import flashinfer_cutlass_fused_moe
+
+            topk_weights, topk_ids, _ = FusedMoE.select_experts(
+                hidden_states=x,
+                router_logits=router_logits,
+                use_grouped_topk=use_grouped_topk,
+                top_k=top_k,
+                renormalize=renormalize,
+                topk_group=topk_group,
+                num_expert_group=num_expert_group,
+                custom_routing_function=custom_routing_function,
+                scoring_func=scoring_func,
+                e_score_correction_bias=e_score_correction_bias,
+            )
+
+            # Backend-specific preparation
+            if self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_CUTLASS:
+                from flashinfer import mxfp8_quantize
+
+                x_quant, x_scale = mxfp8_quantize(x, True, 32)
+
+                fake_input_scale = torch.ones(self.num_experts, device=x.device)
+                quant_scales = [
+                    layer.w13_weight_scale.contiguous().view(torch.int32),
+                    fake_input_scale,
+                    layer.w2_weight_scale.contiguous().view(torch.int32),
+                    fake_input_scale,
+                ]
+
+                fi_input = x_quant
+                extra_kwargs = dict(
+                    use_mxfp8_act_scaling=True,
+                    input_sf=x_scale,
+                    fc1_expert_weights=layer.w13_weight.contiguous().view(torch.long),
+                    fc2_expert_weights=layer.w2_weight.contiguous().view(torch.long),
+                )
+            elif self.mxfp4_backend == Mxfp4Backend.SM90_FI_MXFP4_BF16:
+                assert x.dtype == torch.bfloat16
+
+                quant_scales = [
+                    layer.w13_weight_scale,
+                    layer.w2_weight_scale,
+                ]
+
+                fi_input = x
+                extra_kwargs = dict(
+                    use_w4_group_scaling=True,
+                    fc1_expert_weights=layer.w13_weight,
+                    fc2_expert_weights=layer.w2_weight,
+                )
+
+            output = torch.empty_like(x, dtype=torch.bfloat16)
+            _ = flashinfer_cutlass_fused_moe(
+                input=fi_input,
+                token_selected_experts=topk_ids.to(torch.int).contiguous(),
+                token_final_scales=topk_weights,
+                output_dtype=torch.bfloat16,
+                output=output,
+                quant_scales=quant_scales,
+                fc1_expert_biases=layer.w13_bias,
+                fc2_expert_biases=layer.w2_bias,
+                swiglu_alpha=layer.gemm1_alpha,
+                swiglu_beta=layer.gemm1_beta,
+                swiglu_limit=layer.gemm1_clamp_limit,
+                tp_size=self.moe.tp_size,
+                tp_rank=self.moe.tp_rank,
+                ep_size=self.moe.ep_size,
+                ep_rank=self.moe.ep_rank,
+                tune_max_num_tokens=max(self.max_capture_size, 1),
+                **extra_kwargs,
+            )
+
+            return output
+        elif self.mxfp4_backend == Mxfp4Backend.TRITON:
+            from vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe import (  # noqa: E501
+                triton_kernel_moe_forward,
+            )
+
+            return triton_kernel_moe_forward(
+                hidden_states=x,
+                w1=self.w13_weight,
+                w2=self.w2_weight,
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
+
+
+class IpexMxfp4MoEMethod(Mxfp4MoEMethod):
+    def __init__(self, moe_config: FusedMoEConfig):
+        super().__init__(moe_config)
+        self.moe_config = moe_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        super().create_weights(
+            layer,
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition,
+            params_dtype,
+            **extra_weight_attrs,
+        )
+        self.original_hidden_size = hidden_size
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        import intel_extension_for_pytorch as ipex
+
+        layer.w13_weight.data = layer.w13_weight.data.view(torch.int32)
+        layer.w2_weight.data = layer.w2_weight.data.view(torch.int32)
+        ep_rank_start = self.moe_config.ep_rank * self.moe_config.num_local_experts
+        layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+            layer.w13_weight,
+            layer.w2_weight,
+            w1_scale_inv=layer.w13_weight_scale,
+            w2_scale_inv=layer.w2_weight_scale,
+            w13_bias=layer.w13_bias,
+            w2_bias=layer.w2_bias,
+            is_mxfp4=True,
+            experts_start_id=ep_rank_start,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert activation == "swigluoai", (
+            "Only swiglu_oai activation is supported for IPEX MXFP4 MoE"
+        )
+        hidden_size_pad = round_up(self.original_hidden_size, 128)
+        x_pad = torch.nn.functional.pad(x, (0, hidden_size_pad - x.size(-1)))
+        hidden_states = layer.ipex_fusion(
+            x_pad,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            activation="swiglu_oai",
+        )
+        hidden_states = hidden_states[..., : self.original_hidden_size].contiguous()
+        return hidden_states
diff --git a/model_executor/layers/quantization/petit.py b/model_executor/layers/quantization/petit.py
new file mode 100644
index 0000000..402cebc
--- /dev/null
+++ b/model_executor/layers/quantization/petit.py
@@ -0,0 +1,320 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/modelopt.py
+
+from typing import Any, Optional
+
+import regex as re
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.petit_utils import (
+    apply_petit_nvfp4_linear,
+    prepare_nvfp4_layer_for_petit,
+    verify_petit_nvfp4_supported,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
+from vllm.model_executor.parameter import ModelWeightParameter, PerTensorScaleParameter
+from vllm.platforms import current_platform
+
+# Initialize logger for the module
+logger = init_logger(__name__)
+
+
+# Configuration class to support the NVFP4 quantized model
+# generated by the ModelOpt quantization tool
+class PetitNvFp4Config(QuantizationConfig):
+    """Config class for Petit FP4."""
+
+    def __init__(
+        self,
+        is_checkpoint_nvfp4_serialized: bool = False,
+        kv_cache_quant_algo: str | None = None,
+        group_size: int | None = None,
+        exclude_modules: list[str] | None = None,
+    ) -> None:
+        self._check_hardware_support()
+        self.is_checkpoint_nvfp4_serialized = is_checkpoint_nvfp4_serialized
+        if is_checkpoint_nvfp4_serialized:
+            logger.warning(
+                "Detected nvfp4 checkpoint. Please note that the "
+                "format is experimental and subject to change."
+            )
+        self.group_size = group_size
+        self.kv_cache_quant_algo = kv_cache_quant_algo
+        self.exclude_modules = exclude_modules
+
+    def _check_hardware_support(self) -> None:
+        """
+        Verifies that the current hardware is supported by the Petit backend.
+        This backend is specifically designed for AMD GPUs and is not
+        supported on the CUDA platform.
+        """
+        # This check ensures the code is NOT running on an NVIDIA GPU.
+        if current_platform.is_cuda():
+            raise ValueError(
+                "The 'petit' quantization backend is designed for AMD GPUs "
+                "and is not supported on the CUDA platform. For NVIDIA GPUs, "
+                "please use a different quantization method such as FP8, AWQ, "
+                "or GPTQ."
+            )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "petit_nvfp4"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # Petit supports the gfx90a and gfx942 GPUs
+        return 90
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["hf_quant_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "PetitNvFp4Config":
+        qc = cls.get_from_keys(config, ["quantization"])
+
+        quant_method_raw = qc.get("quant_algo")
+        if not isinstance(quant_method_raw, str) or not quant_method_raw:
+            raise ValueError("Missing or invalid 'quant_algo' in quantization config.")
+        quant_method = quant_method_raw.upper()
+
+        group_size_raw = qc.get("group_size")
+        if not isinstance(group_size_raw, int):
+            raise ValueError(
+                "Missing or invalid 'group_size' (int) in hf_quant_config.json."
+            )
+        group_size = group_size_raw
+
+        verify_petit_nvfp4_supported(quant_method, group_size)
+
+        kv_cache_quant_algo_raw = qc.get("kv_cache_quant_algo") or "auto"
+        if not isinstance(kv_cache_quant_algo_raw, str):
+            raise ValueError("'kv_cache_quant_algo' must be a string if provided.")
+        kv_cache_quant_algo = kv_cache_quant_algo_raw
+
+        exclude_raw = qc.get("exclude_modules", [])
+        if exclude_raw is None:
+            exclude_modules: list[str] = []
+        elif isinstance(exclude_raw, list) and all(
+            isinstance(x, str) for x in exclude_raw
+        ):
+            exclude_modules = exclude_raw
+        else:
+            raise ValueError("'exclude_modules' must be a list[str] (or omitted).")
+
+        is_checkpoint_nvfp4_serialized = "NVFP4" in quant_method
+
+        return cls(
+            is_checkpoint_nvfp4_serialized=is_checkpoint_nvfp4_serialized,
+            kv_cache_quant_algo=kv_cache_quant_algo,
+            group_size=group_size,
+            exclude_modules=exclude_modules,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        if not current_platform.is_rocm():
+            return None
+
+        qc = hf_quant_cfg.get("quantization", hf_quant_cfg)
+        algo = (qc.get("quant_algo") or qc.get("quant_method") or "").upper()
+        if algo in ("NVFP4", "MODELOPT_FP4", "MODELOPT"):
+            return cls.get_name()  # "petit_nvfp4"
+        return None
+
+    @classmethod
+    def is_petit_nvfp4_compatible(cls, quant_config: dict[str, Any]) -> bool:
+        qc = quant_config.get("quantization", quant_config)
+        algo = (qc.get("quant_algo") or qc.get("quant_method") or "").upper()
+        return algo == "NVFP4"
+
+    def is_layer_excluded(self, prefix: str, exclude_modules: list[str]) -> bool:
+        for pattern in exclude_modules:
+            regex_str = pattern.replace(".", r"\.").replace("*", r".*")
+            if re.fullmatch(regex_str, prefix):
+                return True
+        return False
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        exclude = self.require_exclude_modules()
+
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(prefix, exclude) or self.is_layer_excluded(
+                prefix, exclude
+            ):
+                return UnquantizedLinearMethod()
+            return PetitNvFp4LinearMethod(self)
+        elif isinstance(layer, Attention):
+            return PetitFp8KVCacheMethod(self)
+        return None
+
+    def get_scaled_act_names(self) -> list[str]:
+        return []
+
+    def require_group_size(self) -> int:
+        if self.group_size is None:
+            logger.warning("group_size not set; defaulting to 16 for NVFP4.")
+            return 16
+        return self.group_size
+
+    def require_kv_cache_quant_algo(self) -> str:
+        return self.kv_cache_quant_algo or "auto"
+
+    def require_exclude_modules(self) -> list[str]:
+        return list(self.exclude_modules or [])
+
+
+class PetitFp8KVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from FP8 checkpoints.
+    """
+
+    def __init__(self, quant_config: PetitNvFp4Config):
+        super().__init__(quant_config)
+
+
+class PetitNvFp4LinearMethod(LinearMethodBase):
+    """Linear method for NVFP4.
+    Supports loading NVFP4 checkpoints with the following structure:
+
+    |Tensor Name           | datatype      |  shape      |
+    |----------------------------------------------------|
+    |input_scale           | torch.float32 | scalar      |
+    |weight                | NVFP4(SE2M1)  | [1, X, y/2] |
+    |weight_scale          | FP8-E4M3      | [X, Y]      |
+    |weight_scale_2        | torch.float32 | scalar      |
+
+    The weights are quantized per block of 16 elements.
+    Args: quant_config: The ModelOpt quantization config.
+    """
+
+    def __init__(self, quant_config: PetitNvFp4Config):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del input_size, output_size
+        if not self.quant_config.is_checkpoint_nvfp4_serialized:
+            raise ValueError(
+                "NVFP4 quantization was selected, "
+                " dynamic quantization is not supported."
+            )
+
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        layer.logical_widths = output_partition_sizes
+
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        if input_size_per_partition % 16 != 0:
+            raise ValueError(
+                "Unsupported model when in features size is not multiple of 16"
+            )
+
+        weight_dtype = (
+            torch.float8_e4m3fn
+            if self.quant_config.is_checkpoint_nvfp4_serialized
+            else params_dtype
+        )
+
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                # 2 fp4 data is packed in one uint8 in the input dimension
+                output_size_per_partition,
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        input_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("input_scale", input_scale)
+
+        weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale_2", weight_scale_2)
+
+        group_size = self.quant_config.require_group_size()
+        weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // group_size,
+                dtype=weight_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        input_scale_2 = layer.input_scale.max().to(torch.float32)
+        weight_scale_2 = layer.weight_scale_2.max().to(torch.float32)
+        layer.input_scale = Parameter(input_scale_2, requires_grad=False)
+        layer.weight_scale_2 = Parameter(weight_scale_2, requires_grad=False)
+        layer.alpha = Parameter(
+            layer.input_scale * layer.weight_scale_2, requires_grad=False
+        )
+
+        prepare_nvfp4_layer_for_petit(layer)
+        del layer.input_scale
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return apply_petit_nvfp4_linear(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            weight_scale_2=layer.weight_scale_2,
+            size_n=layer.output_size_per_partition,
+            size_k=layer.input_size_per_partition,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/ptpc_fp8.py b/model_executor/layers/quantization/ptpc_fp8.py
new file mode 100644
index 0000000..26ba8e5
--- /dev/null
+++ b/model_executor/layers/quantization/ptpc_fp8.py
@@ -0,0 +1,137 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import QuantizeMethodBase
+from vllm.model_executor.layers.quantization.fp8 import (
+    Fp8Config,
+    Fp8KVCacheMethod,
+    Fp8LinearMethod,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    is_layer_skipped,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import Fp8LinearOp
+from vllm.platforms import current_platform
+
+ACTIVATION_SCHEMES = ["static", "dynamic"]
+
+logger = init_logger(__name__)
+
+
+class PTPCFp8Config(Fp8Config):
+    """Config class for Per-Token-Per-Channel Dynamic Quantization Fp8."""
+
+    def __init__(
+        self,
+        activation_scheme: str = "dynamic",
+        ignored_layers: list[str] | None = None,
+    ) -> None:
+        if not current_platform.is_rocm():
+            raise ValueError("ptpc_fp8 quantization is supported only on ROCm.")
+
+        if not current_platform.has_device_capability(94):
+            raise ValueError(
+                "ptpc_fp8 quantization is supported only on AMD Instinct MI300 GPUs and newer."  # noqa: E501
+            )
+        if activation_scheme == "static":
+            raise ValueError("ptpc_fp8 as of now only support dynamic quantization.")
+
+        super().__init__(
+            is_checkpoint_fp8_serialized=False,
+            activation_scheme=activation_scheme,
+            ignored_layers=ignored_layers,
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "ptpc_fp8"
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "PTPCFp8Config":
+        activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
+        ignored_layers = cls.get_from_keys_or(config, ["ignored_layers"], None)
+        return cls(activation_scheme=activation_scheme, ignored_layers=ignored_layers)
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(prefix, self.ignored_layers):
+                return UnquantizedLinearMethod()
+            return PTPCFp8LinearMethod(self)
+        elif isinstance(layer, Attention):
+            return Fp8KVCacheMethod(self)
+        return None
+
+
+class PTPCFp8LinearMethod(Fp8LinearMethod):
+    """Linear method for Per-Token and Per-Channel FP8 Quantization.
+    Only supports loading quantized BF16 model checkpoints with dynamic
+    activation scaling. To load FP16 model checkpoints, user must specify
+    to convert the FP16 model weight loading into BF16.
+    The weight scaling factor will be initialized after
+    the model weights are loaded.
+
+    Limitations:
+    1. Only support float8_e4m3fnuz data type due to the limitation of
+       torch._scaled_mm (https://github.com/ROCm/pytorch/blob/8c0504d7f3fb0ee4c278c096a5c3caedb01129fa/aten/src/ATen/native/cuda/Blas.cpp#L1041)
+
+    Args:
+        quant_config: The quantization config.
+    """
+
+    def __init__(self, quant_config: PTPCFp8Config):
+        assert current_platform.is_rocm(), (
+            "PTPCFp8LinearMethod is only supported on ROCm."
+        )
+        super().__init__(quant_config=quant_config)
+        # Force weight quantization
+        self.quant_config.is_checkpoint_fp8_serialized = False
+        self.fp8_linear = Fp8LinearOp(
+            act_quant_static=False, act_quant_group_shape=GroupShape.PER_TOKEN
+        )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.weight = torch.nn.Parameter(layer.weight.data, requires_grad=False)
+
+        assert layer.weight.data.dtype == torch.bfloat16, (
+            f"Currently torch._scaled_mm (hipBLASLt) rowwise gemm only support output dtype of bfloat16. {str(layer.weight.data.dtype)} is specified."  # noqa: E501
+        )
+        # Quantize the weights.
+        qweight, weight_scale = ops.scaled_fp8_quant(
+            layer.weight, scale=None, use_per_token_if_dynamic=True
+        )
+
+        # Update the layer with the new values.
+        layer.weight = Parameter(
+            qweight.t(), requires_grad=False
+        )  # Pretranspose the weight
+        layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+        layer.input_scale = None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            input_scale=None,
+            input_scale_ub=None,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/quark/__init__.py b/model_executor/layers/quantization/quark/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/layers/quantization/quark/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/quark/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f20a6cc65932290a1225ce7628ba8c780d8a1554
GIT binary patch
literal 190
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV#p;*j7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>E|R?rWO_J
z7nUaGm1I^WmSh6e0Xaq4`tk9Zd6^~g@p=W7w>WHo+Dda$?TT1|wlM;6F^KVznURsP
Ih#ANN04)qM-2eap

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/__pycache__/quark.cpython-312.pyc b/model_executor/layers/quantization/quark/__pycache__/quark.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3979479ef4cce8d48addafd7e9fbc7d813021af7
GIT binary patch
literal 22202
zcmd6PX>c1?npih3;s!{72Y5Ec6Ql%6rbLkxb<nbIiIT0uGIu-}2;HP00VLG`B@qkS
z8b?*8Jf4-bnO)I4o*KI1T2pH$<|Lb#Ta{F_l~igbTa^U_dH{EEvU0{brYb*RQ?8lW
zs#NlQ?{zl-5|ZW0rYbG*;q~kHzIXKZzWepx*lcD7uCVS0A^Ql!{2FhROD|{EwzCX#
zkKq}f4Kt(os|m9a&8Q}#9o0s3qq>NGRL|1qhEW4N*M`d?#!(|F(}hhD^Qf8R^<hiI
zI%<vBMr{%MsGXD<!j6b@)JgJX;qpkuXhp;|>LT~Xusc#YT1oPza8;yww3_72;hKnN
z)Dx*4t&P-;)<x<^>q)sK+z@FTZHzRHHj#U4n2R)zHj}(9yeZN$+QKq|M#M4ZpV`OR
z(N+y37=^YEVWxPEwriL}4DYzf@J^xPL#<reK}yS^)GpZ6(oRxZ0i`aXQZ4n)uwM6X
zu;GYTC)v)ta_WG8|KS7sj~y8~Bx#2yW+dausaR-oA`q5z!9X<TWhF~!A{6t7C&$MH
z5pInKr=tRYV)B4jE18dnCWL_ad>|@FPMSX<#4b+qq@?=n#Fgp5L@X2+_`-((#PuS5
z5Wv1@lc-lCRTLKQpPU#AjjLrs9x?zZ#~zNI+aCyClpjE$9h!@mVQ91}%+NwgPVPVD
zKXG2ZISnl$f@CF6UhW_6KRDGd+0?ru6S006iIo?GDSvP>G8GU7$rZggIUVNxq49}H
zQSgTYGh``jFAJgZi?Qg5z|<5ea0aJEQJ9GNr^12Q*rXVd$_e1Y*$3%sqp3;0SzFLB
z%$tDE0yE0;%&5l1;6J{V*9clcC+NpC9;nJ|1%sd?IW}Gf_qw8|v`jDP#*A~!7|R=O
z+D6OxHr{wsH)`a|psneWyRdtjM|fiz-UPKQf)(o7;Ldzg_n};M)DC41D6>EfCmB~e
zZ-sn0Zv%*}8zEk5-&h9NsRKA}-a+~^@J@hG3H_B9&7q8E#&mo|LGM*$O!B;86t042
z)qDr<7HoW_Py?`Q#teMbP5r2cuP%Z~*QKUJ8ExZ%k<@<6Hnq^E?pwC0gEsYiJ*-2+
zw^+Bb!g0e48v#nghE;2VRpa1E<F|SzIF>TL37|GZ+a`V!c}F^)tQbISfl_Xcxz3I@
zpJu$B@)n{yb40RU!Cefyglts%<*WW6?nnQ)I5|BfIn;Z(f@LZYyzGw<0ufZ`I3fyC
zGW=V+0Lh=Q_m~*`((9H!!Tb>FD!9lp3C#`7I5VqBunEQwyM|r~4cy5Tkzo>AxYMc6
zba1EkH^ba#N4y3}ADxCxD;fQMLf`yiJ=7N)Flof32@<HLiwfbfQqLrl-yaMIqEWv;
zYJj>NUN`=Jv?mss>X`~nZHWcMaUr(l`t;6${>wXso^a?w&(sW1$BCY+;c%oUGRX^J
zzi?d$PRAz29zs;2J!DBkaY7jJM!ZZ@-_(rQ0^P*jgrd+_;8O<Q15cv6Ao<-5=CPeI
z*>9Dlj5RC9+N{Nsv@~ZMn&w8b^__FN6{9EHxEX)zvQ0kxt<ToA&*?rj)~rEuMly&(
zY+9TM$~*_l^6#exZs6^x&k~Hnn@%%gGd%RNBJS?{tcX-0iWNB#iGfrOYvB(Qb|Irc
zyrFO=8y@dL05(W&Fslx3!JT%rCyni52b2^I4pD$0&-0KeM4d}2a=-)m$|Ke#6+M(^
z3^T4#rlFPe@J@mkrLwW`WFWS!PcmMRbN5+E8w^Ja=T?J*2Xva66k`JK4+LX=J~lHY
zMB}aNr&y}iFpMBt2?@;9S$WTP*Y@u8PhWfIwWPzBH2OBq7za#dj8nMB087`5{N^C!
z?=#|7_$eG(1r99|nt+`-6}S)zhhj7F#`S|Le*OZ2!0mE_dE_X6w(ceU6+~5W2Q(AA
z){Vi4W0(j;gks!PN)PAz%Q~uPe}%6OheD=%2GHpq6T-dET!O;&*CnjA?o#N+3(Tu;
zFwA!V?yPoJ7gMQ0LKnl$ORf*)Ud74;dr9HU%0u`~=oD-RYNH*3lDE5yAQ7n*8x%o8
z9A0;ofOM(|l3i(_LTY@{n8sOURI~boKFYp5ozU|v?m~5xuO)P9{-zGg8Nbp2Go$fp
z0~{=^nNToDKm-!Ru|QDZK!o84nTm3;Np5<I55xp4m<|gZzR)Nq3S$CDJVAlyLK7+k
zKn4{12od8b^^d}HZc^k05kWz-un>%Kv5NwS#E|yFMPuT05Xg^URzVGd02YXF7svdu
zNk3NgM~JjF$iZ)v8xtq-;rjMmCqf3|JRK2u6&6lV?Sh*eBi&!2<MZOMN)AO?77@{7
z#A_tXK+=a|LL@4gL($MgG!}prkaXctG$xs0c;Oi!b&%Kbp`cnq@>=NMYarB7D&H_E
zsfDbZ%u)T<La~efjg{ET5_?s$k#*qxS4mfS7NpQyI*fu9E2g&_9v_3*MgJKjH<+B8
z>DiVvc0Y30WZZ2jcU#8YopN{o(!J%@3v<JBS5_UK`Q~@etT;Ah2aaY2&ZY*=CeOW`
z9yp(L_AU)SboQ;5*Ub;V8(S%FeL{sVTn+Pq_gyQlwruN;OzXZ>>%Irg4_xWi19whH
z)vej#k)K~l4ZoPI*|j|Uux8Jr-FuSmoy+V)_h7D?sr2P)nTCBVaxD*`7m}WEPsuO^
zh!wgn;`Rv^QUl!MgoeCJXb8`Ow#Y=-SuM-t_g$V6#Eej%Tx1_Hm(-oDlrzkw68oCh
zehBdKQuZy-8V4;Q`w=9OOHSoJ|ND_n(a=P5%%zkowCgkzL+(JX1RJYT@=70K8$iW@
zuDd`&(tM;>Y9Vz<uzq#aF%)&kRmjB)drD}PwxT75;?PrT$2hryI(M-q)}oY^(h?F3
z8KFU$`)Ou|@s^E{eFoZ`X*d=GT?!OLsZ6*Y3{Ud{C}sw#gGshAR6_|d2u+N8H6pSR
z$xQHoFdM8(NtJjK9(i4o8#jY5pg{GJx+3Dei1;Dy#$*^16a^(MFenihTdG3A6+0u8
zFRFAZTCgti0TH={WJZn_rRt@D{t{`3sIcPYB5hSf3=<I*Bs(^XObW7CBvS`6AMps*
z!VyY#c?qcU85Pe$;f77`L{OB3P%%4R|042bSz28GbPQoEL2`rn+Q6849~+q3#&`Mm
zd*2Byx-;Ivly@-W-IMa}S)NIIkEA_E=j^MN#;mnse$TQyGjJv~aOP{R#%hLk?(Vc}
zbJDtb)lzv!cz1Ng(wVLF-1Fb{FYZ`AcgLTud|~cjwyt^Zz}v@HU9Age(yp$gwTslA
ze`UqevFd7D;M1<|q_z7C0^<CNrG3@aoN;YUxwbC3mxbi1b1SZwlh&8B4j0|@21>bu
zGTVlEFbpm$+2|iZ`ljhk+ne@#fM%EEZAt3L37==28c-@MF>FUJUZZT|H`r$&51NwD
zH<AKv0W6ikBuckdMGa*O0wF<kBNuE;c|N@UawlMjj%Q}|ci4$zF?D<A>%3(v=vNgi
z@+2;%5+rJ5c*1HKls?rF8De09kVj;=q>?SAEU&aFEoaLL##g468gJPysRS<HI$>05
zL_1^EO8J}(3>#%PjRk$H^<GfbM73q%TUG15!6po)2<C@!CoeF!O>dfRn}gbMCa8I}
zjtY)%nP$xe<1oQEOgD`Q?Z#e3O~QOv^LB#{n9!_w*7TM=1~BL~XNPv?o5oxAjqRd^
zqqQh=c!RxV=k-Y6OX8VTsfPr<2#amX6NCT)Fubi<3(q7hyp;&ACS4)(dlt+vlpKLw
z=|{y3Yr^_{J@jOyJ!u$1>b1atbRRiB)X|kV4QtEFD|C(VI!7dfa2-{s_^C4>ywN;&
zS(xFd^^LnAfDB3a01BH#c%u|xS|pNY6h%5h?>IsO(e6kEL#oyz3nR=$s-SFwQc9VM
z6jBIe2fgsOhHA#2u*Vn{6psY+Y8R{^n^%8tsrwLCw-%mh@-(EBeu?Z(S))H?@3AcN
zcD;^yd$SH0-#^t}W2p+QC5#9(&xuGN1}dmU&VV^q0F$Q1w^gzfj9=1D1!9s_HMT^B
zSQJ+n#MT>B^)?NS3lp%M;+}X{Av-|XSr#>YL*dC_AROJ}Q|taIz=-xk^1J_mR)rj+
ztFHLGV`$#8+SIae{FhDJ=CzOYOl5t>-H~#4ELxUMXWRpinzrSjaPYH^q2H5H{G+YC
zZ2TU+&yp{OyBGk~0-mbFC$=Mw2>k-6AskF61`K{PcVRllO-!m4l~+u447pa6y9U|_
zs4deIDvHRcP^gQ@_~I+FBcMu1-uY3;6ufhMuLbYClvUvt7^616*TQ$I5mDh1zXyp|
zD+b_4DudSs6P%EAM3X}1qr5RufSYggu0DYJQABV0u98*ff6=%+{-bM|>aJ9E*W&i2
z>P+>(FB;`n!nLqPGgq<wFhD4nIgp&fnJ2(7ja2BChN_qJZr!}=0GBn0%itZbPfo|C
zrel7P;-Zscl<H4l8bVsHtb*~1Vm>q}xoGtNYAyZ(phvetqTsEz+WtA`y>s}nmML$T
zKc8&xOEv6V_B`13SM|w*=TZYNXPoCh<Gk|XG;LzzZzH}I;SH6hI21XFQmmkB0ck=k
zj)G21F%|DhK|qbV5Z^hnlZ(k27m9LxXpAV<F`tMuD83Dcr1n|_xrhd0TOl$PoAJfV
zx~}-A#K}uuT`BXW*Dk&UfF<*}KzLd>Ac~XXIw@GvhJ^`93tLOv3pGU~Dv}Q9aa1yf
zK(oF8Pb6(%Vn#&6BjmziuS491RY$SFMk%=behWx2F|WRgRmuzK7!lf|lB2K)`@V=3
zO=QOY;Mlkr#(M{ynqR>gk%v+-0!b9rEuek$`X2o3+egWurGVbWt6waTiwhnk5JV1m
z!QX@RtETa%=6B2s{pp&`bGEFdCTZbTE9!F^wtUZ;R_n6o7_H6z*q9fZ8>rBn+;uGN
zJ)ZWQ0C~Bp_TAnETZY?~;<hbqNpt(sRl{=@u+dr_bFZZ>jSI~WEiKu`O>dq2qONiN
zwRD|t?)YkR+xz@Sy??1)?0;`!Y3!3rKf9D1KAY}4mu?0DxN((hO}6dKv<;=&hSF_&
z(%jypwPCffIk~Af-MD@3WX=GHo^iINoNWt}E1-?Ls@9Ntf6>vscygs<XiX0{j~Si2
z;<1&fZq8|Rm2GQULv=-tF_c$;^4~d_>DZg<*t^m({Iy=^v47q%eD~y?7v{YHDUGxR
zk`>qauk=iLZMI|hE37kj1c14#*BH9p*7WfEn9;g%eXtKr<uJRZg^q!dKqqFVsdJHi
zC!A^Yr5b(7p1tYDeRC(Xj>e>;eYJ{9HlImXolQE=u9=yJ_B+PxmTh;8NssrTvn!{C
zlE=`#<^Am+X+Ju>Xnb!^viCry_eiSu$j`m$-ZSaOvoffz?DqaUjwH7=<=pnUqay2R
z%GP<a_1)Q;md7T&)0|`UCiCyt_QLpyF7@x5xkFAv5phJZ0O`>hQptPFI3t^gsi_m`
zOrg2ejVc!1kp8g{>>o6e#VPOGPuwKFQZ@b~f<a-Lm|W*fRKKwo+hrxafV;HFu7PdH
z=<YzK&@x|&O)28-tTv(j{?>%{l4=Eo#`2}s(Sgm7z5E?u0s4eStOm<sWnSb)`$>ZR
zG58~YqUE6`<n%w$DtbJK*Lu+94WP@%y|B;nra-C`BaNDvjB%<hoRHLbGtx!bfyx~^
zb=Jq704XnTw;tr;8Xp&T@25W2q9+pTI|y_R{S#6pt}riL4F!b)tG8qT`(bDTB&C<8
zVL%Z|@)Tuz78;7LVQXi;Lw{^~DlACme2HXI$4u~r5*bQfs{Nq(gMW+8G4BqDw-l0^
zCsg`R&~+3k9k>AMx-)gdsk-5G-TtJp=8>f?Y3ay%ycy5dlxJ(&^W5CgY|W;HiB!$@
zxg(!B-0!@yTD2+b-kYu3xol7FJoG?Jx{qe7x)ui)H!lT}?*6s1f?elsNLuS3xoRke
zS+5ZXHZ>WbqaWEdA+<$Vh8RY$41y<65N5xR3Nt&yK0#Gf)n{Id>gjb>bfe#{r1G$?
zF5qTqWnEQ>t;{T7W=U9jMG@f*R}pWuBH$({V_+4Bv6k*%g)6c%WlyM+hik<7%o-8~
z@P?X34oZ6B=aGzKQ~iEnd!!fb!G3-QwtXllm0h8@a9<;t!PO|sL6QaY!Ha>32_bw&
z#ElCw5%OYh8L<nCbC4HrK_XcJ8iJ<1IN=UV&9P9>Pv4u=1SNUM{z(<CQlX}}0(hoE
zSE;Uql!KzLY%sR^<<7442m0eRMMzul<Ud2Z=*N(NN?>KIz!RGmb|qW-vaXt(k+FF)
z*7}sSe*WdOwQaFBW$pcnVQo9J&boV!yN-pjw6k;ZXv*0KN`k2p>T{bjO+Bfmo+WF#
zX?L=2Hz0hrt1r_vnCco_9!Pf`02X_c1v;(mHYbf8Uz&llrJA>;`p#m12F6-_d+)8i
z^FwHFa#ce?YtILJ-`l%1kZ#%ipgz@dB5CBZjt*!_5WX~4@B9A%t9kv^r|%OLPk95u
z!6)qj)vRJgcok3FcLnuer<C4Ls=<UeO(WK80iqco>fqM^zXtdP6&|U**F17i`~l*u
z4v1{O_(zZxZ)1W8F8&aon4&Wg5TwOW@QnD!P_Pl-ZGdRlTt;{k+*0L1!Ysvo$pu-N
zZm9qX^DIK=Dnw^_w@?^<g4mnZBlgBR{|m+z{aZ*%ptxZjidUtqJrAwtmX3XL@@FR>
z97=CL4tC1a_H!Vmn5sa^Q8&aZX=_Ka`*6~F7<a@jWk;CO&aTC9$~lNT0>vUvTc)Nn
zRnxgxpRVaky8FIjG?nJ%Km50^|JCbRYt5Qgvk$j}X2?8eg8kFfO$DgMKTJ37T8<?f
zfo0S|xwGM+<J5u&l4Q^GkUp468c#iC3qYh<p0HOHc*&9Mue<VgQx<eRK%Ej|MBWj?
z>n`tv<#YpSeTI7CH}$QO;-~bjS}OUnr}n+B-Z%EGZilDzZBki~`Kf)ctM`q4tJc7$
z^sQO~dD~Ss>UzS87uEX4epTBZ_B-PMD_#6B*+H_$RTkwyP=g>l?!<W%<-lw;2!<F8
zjibT@_<cdcRb>k*{0Xsxgi1&z<Y2_?6MycRK%?xawgImTMjQE~VD0-22dEnFduAZ{
zmb-hOldMs&fC+v&0ZAwHN4CZXpBYwRV-DLAYPbjYkE9)&+Kw_ppI>+mWCWV)jXW1W
z_)Opl_a}=6a5i%U4z!kY0PzeMTMRTn6C@Jh!t^+mC$#J23E8kBGkh~r$jRW8KXN@@
zMFt{kDEV>^aK@+=l691D)mm};_^sop3HLqLf)WfQ$L)cnh}<pidT8y-I%;pfe(Ux5
znY6>Z_y-Ri{a?_wNzaKD>xj(7YciI)l%;O|c-rD!eCeU3XKB|bdw;g~!BD#QRPxNZ
zhrQ?I9+RFISFA6slQq7Zwr*ZB6!i64+TmMjFYN2=iuD|AWmWn*l(w{jF1p41C8M*N
zVeEF#ZT~GlNG`Uv<d)+p+i|(itn>V1tp?@@UM|lg+4)3#isC7FyG1gEs*iQSi+|Jc
z&8{b&#C4)Z20q+EM;1WF>nbD8lzx)XqA?C+VI8<D^g)P;16Kt^cM@)1g499}sxKIv
z6ID9k=up=Ht;-5pmqBkhi*;85WMjqDM_UIqvt@5NV(9rK*PH_!8(MH|I7&D+D)P=N
zMPDTPqv0niK?f&=gD=B5fxlaIW5x1r38&l<6RS{ivcrlg71er4br~tOAzoG`;mTZQ
zjo`##W=#p>(;Y&uLZ2jh$UJKScZLZ}`DO(M#N0R&7IbEuX27MAAA5eps{0345w;Uv
zO6yr`L5qLb*_t=>WlLBSHoz%;0&@S4*IH#+>P+nkyX^GQ%<8XE_YYtZIDf1o;tg1n
z-~4a5ip(#nZ5lmR1-5DMHWu5a!75Fx(@JNuf29)a(JZk?YpDHMybOS3>oc__+M*W&
zA}?EQN*SMfi-_Y`Xad6yz%v680o2q}!h7-xQqE@RO0hy~s_ma0Ik$ZNN7niC3$sfv
zraE?Joc+IOkj>7XdN#i8An{uS^2Xm{6Ef{gc3x1Mi4HBt@opb?_4x4<5LI<$IwV3=
z7MNm5z*bZs#%452b5s}gkyQ}U`dZ{S*Fgb#aM$)g0>>&qwZF=O`V7kcRosv=(t-~X
zp0B^Kma^`k3TQ?owhJOb(d7Yw87JXK9ET)|^o^6bk5gVlP++MaMCP>$4|?h{uWvh!
ztKAOJZ!lR`)%<u0;)?3p7ORtWTa)gstJRJ7UcdYLLVRgwx_VdAxr-V<s;Q+J12yHC
z3A(_NYdk!8ArLMq^x7d{cnZQN#naG@R3-`#;tw%jZZPw0zy}cpXmJ7)#9wMYAI2Om
zGquK}!cPt7Ivj!5NqIF{EMzMn7J==a7{w(g#Za{XtmNxTBnvGd_D0E^zaej0{O1VJ
ziVv05rY3qhTm}aq{tFz?Ut;nxBvGVYvO=Z&P&>N#2|Ot_X_i`pBlt>w4hi}W4NPTI
z#@(87w=SGcyS<B>QtmBtrmV$1uglc*rr^J&H`~;bX&Ov5f!?2LIsjHGQ1(0f!H!%9
z_UD~<PJ%{NUYBuhN;x+z3@lE5>fDp<*a=#btp=<Eb@nf<Op6a{H`qVlwB^oGtX-LL
zdQ(pCV%O5xr_SBkO<TUi$8#sZB8`S>x+6iOLPNC%4AllORA;LWWve@qRh^5v#nHv%
zIffnBmD6e}cNN*L-OUT-DOXF<+VVwn+p5$3qtoxU+&O>OzM!Lq{tUMx#qCJ;9Zhq`
zpo2|zu-boR)Y^tX!Sn9QbnZ)a?)zou^C@TR9qatqXReloqf6FLUArMd=8sRnoV@#4
z>Q)H8zkSj0PlnQ-t#e0L+q<69)yXt>3cBimu3BKdowdn^?J39hY_)GOo~j;9ItRbl
z)c%zA$I{$!Xx{?un^4l}NLt%}|J7+0miG5B^agv>0`L73&q0gsud6%<ojMV@a1jkr
zg`YdJHd)e0r$*gG%b#F&P+25|ovHd~UZeb`n4Fjy21c%@#<Qpf6@_wv_g)p7N`(SG
zBV1LWQQ@L!rwRqi*l2jJQb+8CI*$A^B^N7Ka+h$q*IkOSo;Q3{ra(f0P`sXRhk?J!
zv(pg6P%_e{ppH0HunI<{!zUO<H;PmGe1r^yA)CO-03=}j#jAqJM;66tK*oj=$-1j>
z{Gv4<M^ji1{3(wo)`SM!5w?W($IMUEcl-wHwT}=_s-(LR3Pj_lWG_N^X0sfbAjdgl
z%q>^!xaI;7O@OTwb_`BnI2Bgx!;lQJP1Z&=UD@e<5cnYa6^N>PM*K6#g7AUXF{vtV
zprTDEhn5`jonkDD?--fHp2f=$N)6}HVxbEVeoZTL*I-m6+`-4aOf+se+!~xE&dm_X
z4NA9KqPTorBa^Ws5pZopAiPrG3w*!C&zomd_i*5EVuGT9*oVnaF#$D$5fS@D#81VE
zLcPAS;xF@3E1isdR|!)_dp26)@*Wb&t{4mGq)NC}(4|8k`U{-3>s%|PD<zN-4MGC4
zfu;QR;H|-ARXao+F7|yqcz<wdY^8hmYDF8WvO9~Mx}Ju2&%EFAesrPpo$oH5`*`&J
z=&~`rWjI~){G4sIy6)W<-gmtpT&Q_xWbxp~NADk9dOf}QP`di?ob{2#k+IaLEcNrR
zE*@X83}jn7X@v8tvp(bONjZDc&TY$;z@gf}CCX^pfaErR2_(C1wYp{D#L`f@dSBAH
zFKa8$*g8|T&c%jh>x%8bYD4q;Eeo@mj{a0f|FS3Du|M7L!raKJi_6xuXFIyHU`q!_
zC%1K}F3s(JT&8n_e_97>tC_J^5X}~cV;fj?HO|j2hSRQHN$ajJ?BJSZZH?K+?s-2j
zyDbgb2JiexPOq_T29D<dQ=`sg-e@>PIR>}f+FOudXjG|f4qH?e3qiwWN}bQhhbaQ#
zVoI3^6S`9Rs6zS_4F|2#%HbUy5mCgyfuT|CMa1>$sepADONo?)GB6FJMY2zX9OB6n
z&%kZ5MI?_|KSpdi2o(UE8k#c=5KGdx6o0TI-EbsntOdqdQI#p*k}BVl^zBQR56>B(
z$YjeHTT{l?g>#v<Jt=V5x9wXo4nJ~K&e_Pyk`RX?PO2{NcIfV#jR;~Dx?@4Ds{oFw
zQbHJ{eDUC<E#LvAjr}TL258_AcnUNFuW}op+TRS#_*7^n;0Chc<B8BzRq}~5wDPt*
zlo`9%5vYNsGb^I&ess-p*Dk`@Lp*>2j%IqS1Vv&vNP@~7jYFf>KcZY+?zsv+W_SX$
z77T+?6&R>ogdF?0BY1=aOrY?eIIkf>Z!>6Ncz})z#UK&~^s%eZb^;8R<QNO~r^12w
z7&rq1%;drh(cd;4dcoR*rCJWsKJW|-3?0Jb3M!GYA3Ik#bW{>iK~#H=+k7&MBU6i)
z`7V=Cp}1Sl6hF3M(EJ2EQfgmSYST=~+E>-uG*$;-(@e?QSLE7tc-+!Yx&w9Rg1=~(
z6~2vSPC7R7fDCU00{@M|1Rq6CF8(Xn0-%Go!VlSIMLMVh_ccATN@rGAsOhhJ_~*Fu
z=K&7rGZl>0d3*P*-SbT=V6Y4=Z%_I5g8%W}(A}XV*SG9QyU@{-wK)D^D<wUBE0&#V
zN86KqhtsYjN$U|5_}zq-c(o%VsGX9NRxt5SoH&YAkbfTYXchCaXS|#6<SWq#{gT-)
zA8qjaC95Cx-Y|W#UUS`z5Lz(l#$*d7KfvTUNF)n64ogGjBrW*ysKj8!3ImuN!djY%
z3CVDRoTLzu@QSZs62}CCuRuPVoD5UCP2>+Ea3Hxapz27W#lOYcHu(^4PzZ<pesH9>
zK`DvIk+oH{yos3j@IeeH&F^k9VC~(!HM?y`wyyO{i%sA0sH%3pcR@Sfe|I9MhkIC0
zPs9A_cT5W}fGaLnhD8|WH6L8)oxk`_<6>*d<I9<_*vwRUzD5{pjVv}~^*xL3Md9Pi
z_b<coi8Ti90h*y4*sQ){0o~#HiZ!iLfc2}BwOg<rxUW6>eQdUQ>zWobxjwhvovp0B
zcmD2qJV}w$;=OMh`F&(6Pgb<2OdV@_D9vpq0FSYH^MZRJxY)aJ@x8_zgZE1(z9PSJ
zpIDR|)hPWhoLOvn@0E3f`qE(6dzOMZ27VrZjU0ZGFP&S%-yGMV?<`oYg;=VpJEw<2
zm?SJ>%Y1ac^X_*S_*7+At_+KfjM=_s!rY!({fq3zwpd!KF)635Nw(jocW-PBg{2x}
zF>Q;v@3GtT9ogE3oECpOHh*yaz3U&m{@&~4{*lQx7rfIuckx!^njW6##@GhEd68f0
zUDhu3-=D}aaQmQP4S#ZbO!}$?{RhVPj2}4ObL1GfT|P~I9=y7SceyH;-o3Ct$H33x
z{-xIYM}Lc1%I6UcgYc(bxHa%v;|QNuKK{V7f)+k>pn=2pI{4&+{*qFU)+XsC)l{4>
z<aN9r4(%JDo$*_>D-%q-Q7{W8q!hdf?jX-wpy#SQbR{<iQT@<^6+Tbl{8qi#0A8&E
zCI1T_hA3UG$4^|qrwJVJNeBCk-dj#jQ@MaXsUc;u1-3|fLTQ2sr>HWc^i*`*m7!7g
zthfqK71n_HLe@ZtT)dXBgTjw@s0Z%<4RQlCG=Ln~(uXGzIr@%?e2G+dq-aby9x|pu
z$PkGRe%D{6WH%6@p)0(=11pbRL&R380hnG;fDaH*^(pEPj6py-e5obC(<5<&>*0Wk
zruKJG5bxPIwWmURfb&JQ59VvM-L~GcW{l6JjL$9Y_|!N+W-ispdMh|$Nl+3<Jh2ct
zzE>r4akYeaYw_?baSEgBR<bCZ9&fBfT7pO_v`hxkuB2S(ZnD7N8rq>@9m`579{C7`
zS&%(Txz$Q48Z12~4X0EL3FAka59NMg-L+m_{9mfl(^=W9z8|!4u(m@?_!%1Eej0>D
zkSF2T@nkRrN2Pg=SQ7*gBIP)5IAa_X1$d+aL%DH6z}FZMXQ&v5=N?e2r-CZ6Qv0~m
zg1{AGB7Xmd)FDfyg5!l)AQaBas*+9Ctr08W8#QGjLD2sKt0z9f<a11Zjma07{5MEO
zz(Vm7-ryNS$xa8XAeq-xphrEzS_A?CsDhCygzGUepoHmwI0xbX2s(=IPZ7$gCqVq~
zP$b)v3n%C+?)Tpz0`7yVAbvG6p6*PIFID4Pd_7&W7h<y&lx#^ETe20^Suo_b?asCg
zK%j5d)0VC6$T=8O>(`7?R%Rvky7<=sEU1G-xlkG*d-OYydD0$5`&!W{D|LTD*sJad
zcm?(~z$b(a7kEgt@lVw^reG7re>}oeJaJ-uLM(X#x~YKHqaC&($b+sRa@?CJDS%hk
zz~2R^7KP(7XzhZEDiGR$>`Nc_4M@i+$fmZAcML0rsmOFRh9|aoIFLOdpPI;T1h9(X
z@&lqFjuBUhWTQvYWnxyOum1)sVFOZ~e4HY$uS<H;P!8!YLLu_tSBN=i0szdZVJfQc
z)!(h3Gk`5<ZVyEBCmRl?D-I>Chd>|CI9gJUmW2b0+m^N`9W7}`f6~}b$$B%ihtmxy
z9K%CQ(wGq8vITQQ6#gaVGMFHZ6+gv<h|EMrMm(1clvIfS6QAwCqyv+7Opy7K<X_{6
z(H{enDu|6c7muNQxD$oN!KEFa^#80Mqa$)qHuxZhj|Ovw8ol|E!+rbut?L+Wk<-IH
z2u3aKxiZWdndY{I)9;ybCcHB<l{GmF=ByyS=4_a=Gu8F?F5kVp=D@olrp^1M$*CVG
zf(iEk(^`Ie=+;oK4DXB#^clVto<EbaH$TP(WIjO{yL#ca!fR~=lEQCX@$9G;zHg-)
z(~z%KX>VFb^@0JuX;lVaJu}H)yrM#Y289|_0`M9&lP?lkU?Y`@=b#{dj9}nt`URFK
zCv!kJFS8}Dz@wH7AGLtby2xLR05Jkhs%ROQngnen>LXByd#*I^Mgu2)p6ChYu9BSQ
zLwJ{X!G{J^S_9|Bm>+^ipcHS{Ni|?G2;rAD{K|PBS;(Q^CE5hQh<E~<rxo+{m=LuG
z35<G%4AC-9722Yc=c)+vHDVb;_#N_e;OA{AW7|SF)Bb#_{rMH+{#B!md_`!!{!=6U
z?hYBiNRfXY=Y-v^{TU><G9)a#q&YBus(Kc@%McpA6UJ>Xu-rpPE7<H+?+?(^(r{D{
z3w#I$5Mu)z2vsSD17FB7#<MDwf)h`;zQA7<9(!4_^iVssaz2m)+B`NLCe`3cOq>jd
z5seB7rrNYnDwT;~bTd>9#E7%tf`Bd6;{zK^GV*s$*1hsULb55Qsy$IdxH_E?s)D}_
zFCadmx-|;AQX3Wx5o}gOyxOhAu5acpPF@qPf_+Q`c_efdh&B!5y@QZ1o}387NnE<c
zF#K){^>7g5SblGjwW8xyY*0S#fMV#91LDD^rG~>p6dQ?pP#=LvPK1yD0KEc=H^L8{
z;2%LQN>N;v9CA3Y?iX<%7o+%-cF^w;<<T7jtN>16!O4nE@HK-+&ZdmBCFN{cIFxp7
zp3`S7&O1jRS{h}y!1nC+fu)@}En7a6cMt##b#2O2w52NA7DDNYt#f5rOU0e=L(3-8
zN>jd%eYEe;@(ftg%a7v0Cp;~N)_5&rZ6P$$YhA}pq%yyspA7o_dA0&Ei6q{i+EmtC
zV{rQ7XP8Kk6dFB{C=$wuC)uJya0f<@FEtvyF=y21I~M-nYX*LRdK)Tonkv10sdXv3
zynpHX&wLNIr=C0X6$52xFsOKpPbrH+nBFcD)B$H{W~Shsi}*HZOal^m8tj0aP_mFu
zZP1WJ5#?y9m6Q-CoBGW&`UQ@tPyUq0q(HukAvHgxD(pY_;3WCphKTAH`38s7@st*Y
zNH3xyE%iQQZQliuu@%}2<Qk|IHsAWJ&6T|@qGMOu`K-;z?(vZnKMO)X60+mlwU!-e
z#63qG_0)rh3f!|#pAKX?2Kod!vr9jQLOzn@TlXTV^VCP{qKQ$mlL0H=!Hm+QS%BdX
zngke5<f!{lkK#I!d<fDOi$s!f2q44PruK*|U^4t?qW>5Y*o-W@W@K2$-!VJV%#L3(
z*8j@1{E8X)twzUcAfS`gd~Igf!|ZQ0TF64hlkC?T4XgRBLC<Q|7)X9=m7nbT71RB>
z*7+;lo=29(q`B!v+2<zro%3l^;|;@O!!ZNvPFA!&W-#;kJJxONK(eOuF$2GkFR~nK
OPkOq(X5g1>lK%tz=kvn=

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/__pycache__/quark_moe.cpython-312.pyc b/model_executor/layers/quantization/quark/__pycache__/quark_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..613fbd2d8cfa66d8730d77b8fa246f6a3dd2429e
GIT binary patch
literal 26404
zcmd6QX>?oHnb^ZdVtF7y5?n!mk2^tel|+$}D9Tz$Yo%mKmK8QJ4Dmfmpa77504<3F
z#!BirrBlyX>N1j=lZwt{VruNhbWeJs$)p{1nbz%e!4v6u$U97{WSq|UM^E91KFOIs
z?f2ccV9}#Cd)j$6FYbQ7d*6Nc+pqr2>9kYuM9hCbTydVF{sI%~V^JaxMhz5oonk50
z5TT-maf1Ql#)vU$8aI)+DPkTsL!K#Oi586)kvwyxIBFfYk+>ydk2=O3BwiGuqt0<B
zi5EvoqONgQ)IIKwmX4Q3%f`z{zBN)F^^AL>72_4r%JE8)XNy!ttH-NJ+#ack){fVb
zxFh0?){WOied9iorX&7n{dhfzJ0ncAVZ0&QINlg-8gC+bC6VT6%XkZkyCSX8w(&L+
zcSqWzf$@NWGE$tA>v#|5jL-O{a}-<pUBh^%k$RqD%if^aa<23}lTzA6ay^h+!F6f5
z-6XdXa;tK3doG&-)t_R+fI+hE3q>NKvk?yBraiICWAN(;PRzy=)6wAcOdOIW{PaXL
z7z!siUdeHUW8p+FGJWnG#|O-kb#yk)u}7yzq!Kl@Z#p&^J|~r_>7!iY{4~2a6z8Nm
zC69ZF3!gimI5`oDa3^PHW~TWB#|BJNx!UH1*-$K@bW}4rGZ?%$7#a*lr@7#(SQ4C&
z$Ecc~m<dKNJyZaYyC)H_U^K)>!ZEA>dCUyY&4hT4)W=>Uq02C_$!T7x7cfet$Mzi$
z9z7G>d*s-@!@-jW$44Zml67+8JQu}&?9cPlvoj~phh{hcnub*jPDG~TT(FOo>SEJ;
zG!zNXaY1ftbjxHcn3z^#vvX3#42+lHVsRLf<;Yy1CW0I162XgPRf3^Jg2%;oPt5W>
z2eX}tgc1N`6!PdetXT;9xIDwfVek@IDgFYizr4y)1xdd&xMy&5X0R|@nTM7=A@3kL
zv?+-PF^K#<_}DmV+`v-fM%KWYCXEZ!q=7ZQL64g`3u|J{tc5F@D#`6Yj!(HC&SQ%>
z8(Yj$lUCOHhWS0E!nl2bx?~u4oTLIaz7{ei6TGGgV@`YA;`sNV8G?UoxK1Us!Z(dc
z>UZFHNE+17#6Vq!T|EZx&=Q}8b(XBbAla-zSSNFwi%jx<XfD};@U}wncrX~pz8U7q
zU%%Xwh|cuPglD=EA^sef=(;pJuzm2t0M`=<pY55s3>!Gs^I9Yl?TJpaTqMX{;wEMj
z(|ixvK=B^sMTQb#s0RuDf*j&T>z=vHH^4Y^Rr#-~TZOI{3gftHzqvxKS)Fed3)boz
z<sVyp4<L_{Xwtd5;~k_E<;y4nXl5gvWS94GEEMIWBA!dk^05h=n)=`=N|y2K<P=R(
zQ_9JrR>0q+5tdR}{CQK-G?m+fQjygbJ6^g$4Ws%xct=7#z2Q_=bH8cWpq*K*F>l_W
zhDEDkff*F%!Y;>?=A=cP0bi9+H#CL$Ny8MuGWo64)AA$*Jv#HtFjdf_ORe!FJtj)k
z+H8>u`8N%L;xVaYdNwgLn^4YyxMV&X4#nq=?~}jw$mLFkykv&#wK#JzoH)<qH(^3C
zmcdpG*&J|$une4QOl&&Az}}b7Q>jQkPb6nJmNVR(_r;i2hfxn?CN3XtHpvs549D=`
zOh68+?mH8F6;k=wbmCxiCIY8m3=ZrOo}cC=Iv9=z)gzks!lWfT9@NSaZO3BynC9!S
zkUlXRON65wX&oryTOpHg#~^^kW%6Fm+w@N5U{t!K<@v~|coDQ>$iw3)A(a56<baP7
zyffz`i>aM?-TB2^ph^5+L2!l2(3HPJ^bHHX;X895ZCml3NLg#|JA9&}L2xvr8aJ;x
zwxk9QiUUW5fukQyt`5AoR@Ra+8cVw$n9SuR8OrP|$=IoyO=5MoP~E+BX{CB_!I`cK
zh*e!eRoBw=O4aZJecw?fI+_JX^WxW*kE}ZOtd+Mf`R>qnC&kg1gwdB)%Fm?eGihgy
z=xi38awVsJrBBNIsrsRnvRx^97vBO?2+(-s;VBRdO7<Wu0-g>Kr-O(#BXS9k-vv35
z0GTA<$eNHBO0vL#HgR4u#$r;@QTbpo#S=Wg1L{jo<<Okq0NDj^8~7&3jpH%$99ed9
zfRmsH3ywkXn>VP8(O~i482g-ppG*-|RF*MTSccP;O&JsX-gj4Aw_dYecU^O3ERcp8
z71fzyj9Dpr?XPSQdticA>)47+k&G|_ooi3G5_|AtIJ*kb76-^`(pUpkSR-f3Ntw8!
z$s&T%%z)C00hw8+%CtVU$dpHmY7szY4z?Kntng=pcGX&u7MZlO_BYJq&Zp|v!P1jv
z)(P!Oo~|9|V(B?J521Alw07I5NBze(Jyq{6m|>$fF)hNnH^?uARVm}jfI=-}JrF05
z0cEPjDj`<2L0h?QHCL{*s^QFRE$3mqkE~w@Bl)1FAAai}S(ABWX~QE+9r~qQ#RmDh
zt0wP7@~%4A#y2eEm4pPU0urd19G(0itT4YF1Ef_Z%-Vue6drU0i&sKeKnxWr#E^z(
z4L}$rsh~zo0d}W?*qS_m?Q(loa;G$msbs)U7UM&E4WC1Mgr?wmY<sN@wAaDLtnmWi
zflCJ71<+GdbV2u!lxqNmpx@r~*!HBxyd`Pj-3g6&)gxJBuAFk6lL1ykn?ceXZ%bO@
zEr}`>Vs--vzfG}7yXeg9+thb73J7SVCtqKUwxD6nf?ChegU-3cJ7MOI95{=!lt}_n
zH+iNIPZvC_Rjo<G8;ZLPR020Bd8Qa8lJf(wX!K7`&xoN59+e&7i&<M<t2VXb6jBET
zkJ<`aRH#Kj{@cf-;#Xx-MzUvlEy;oLiSwaYjEl_iqtiSydVEkOei$GP7@3amWTs=0
z%M8@*l6f>jXJJxl3RDtstZ@dIF-E3I;-pGwA`yO#Q2&qyI!vRlx|z}GS)kSa+StiR
zcA$jV%YcQ$6LZ`KFmyt{3=f=P7`owr^5b}fhf&~xaTQQ5hT~i(qjV=%nZCfqRDzHI
z)BWjJU~NVNl{^E#3eHz(DMDaLz|A9RND_P>RFX>6a%B}2;!#;tz8ve=j*pxOo;r4T
zWK6P?=*ZZ~V<)5vSO$eZKZgu*FpeCuWIr8>%*y1RR4!8-z?b2$@@n$9QKgFWAy^&m
zweSRxj-i>**>EJBxGb5u*lTgA_Vke>M}wzEPM!*m9y_sbBnWRWcy!N+BL@Kj;PVys
zT`GnZMu`QFCynGm!c>+506ogZP}IRnl{q2}q*ImrKrxSKuHXRX4`ALw44NQ_BiA7l
zn^$DAhj4a&LShy&-5P^;6kE;#tpp6-I!)P16c%sQ>Py!J7R;;GnzXkKf2;5N8%2MQ
z;O`OrTLk}><%28!VJz^beGQ_oOYn7xzCOX%w;WjU4Pim;ecCP3^#WbLI3&<L_vq8h
z`^BxJ!q(A`I)$yLGbYMb4%C#hRH?K}pnLDpXO>Ti{m%>i&wsQ_=s$y%JfB&qmfp7x
zi8OPMW_~y>_8$`Z4`GRO)!O)35moBFd10-r4k)_P!-o6iRbqLoP~Ms<Yg^=(n#GPG
zp<^f&*p;yuOLymx!!*_2DYgv=Z3AN4PN8k*og*u42UAT45p*W)aEXqldyb~t4y9*k
zYC=ld<SbctQ>6`}dz;|iw#=`%cckbYzoHDzo;6pw=;{_+-5CqO_LghiPSJJHjo@fn
zb+n}YO$+<qI`&EHR<ZS<(0XvC_3(oEV`~#39wiI;%q2%`HVP~}d{&9L<TxK@SuPfg
z0~00Hhk>u*qZ}I!B{-55gjzw6870EV+e<V=Ls8hMD1VvI@EN>dEBra&@4@fF9=VR3
zqag@M`AM1}rSaUzY3E>O;7zlbnFYKZ)Npe`!!dd|W8RWeu3<BEOp2P)PT*`_0%0VN
z9=)3cVNcRL2Y4PJw!CkAPl1Fry>C`I>-l2frL{9x?G13VC0VT20qmgR!enu>C?`KV
zqb~_!fE4)q4Pdoy0Bcdwngdf7R%<S-`Z$y=Mk<5<)fZZO6n7Ooxb``H>fm6Qqe8*u
zy${<4bF?OHIdl9X>#hs!V_{Wj&pcS|8^CHy+Ox1Gi>B%e76+27J;A8CQ#u^Uln!kX
z*5p-rJJOc>mUDKhJvaZVA!gcO2RO(MSkGC3r{BxEYpQ;IIX(Za-v>$4GeP@h?Sxi!
zPh@|;?41C+K!*b5|1@XbU()-}=~4f^>wQy>4ZbNl>BxRlIlJ7EyUTM%{Qo%zdV@JQ
zleF#}=-fG623;UvO${fJRHeEffGa2&`xF=Mwn4HG#61czr$S`MgXj1VE7>phZBg_u
zlI`MVB}&LY$(=2eNmj|F)lf1NA-ya~BlIHFfgW?{T%fEs=cWTy{3`$yk5mHxG6a%+
znh&3oNeih|A;Zr`rY9~CN`&8yb)1ut=}=-&(J1lHVV><c5+xi^E|P_d&H&Y1#&hSw
zaa7t7dIgJkL~=aJ<s|cTjEhUfq^B*LrJ~sx7RVhQDFdnKluXN8UPGc?D&BWs&)C?=
z5&lJN9mOC9LBJ^!%U{C`gk7G+D;NtwAeC{K5_~96p~aua(l7>77+k<W>oJbfcbT$Q
zLPeT8!E;E9Dcsgvvp%VvUn>cH#SZ|k1fgyj)py*mU|F?xrR&=8w?_K~nj6y9>Bd(4
ztzWCE6RSFes*VMEy@;yxUO#i~j9AeoRJ5(prEed8^KjbjO}k4|o-KlV3&txO*KHP%
z`O=h^$+)P>_6L-;(!OAaF>NKHl@YAWV%^f*s&&U2Xmn~*Ed#68!B0Fj*AHAfAbMH_
zPit<+(05N^mlbW$WrcmgmfNLwDGdE!mo=&8ZL8J+kedP%;P49$|6=DoM>jyvwA{LM
z^O9KKC)D??ftb~P&3<F&lHrFHKk|L(TXpaLXckC&X7dBe$dsh$I_SY!CeqCU-3(Bs
zwjW%j53Tu|Zk@k*Ui9}0{$8z*_qh+Ex1+1>p^rwOhx$I~p}u6{SY8L)?zmRz1NUja
zNVf=dOS-gvwPBaouwQ7{FE$(!8V;r0hu2L;pz&c?U&_~&>e;hO?_HzoZUj@^&;2>Q
zCk_0HlM$TE;?aA~zEA3#ADT_tQ=j%!q^bu5&%j!3{jIK>UF*f>(lQXh*EeUJWNyXs
z+}uw(w<X6<`u}9tAMILo9|S%E_zRq#iA)bTC~bW<nBIucFd{Y_78(wx+(#ZUy;XXT
z^1_hy`J$_=E*kXuiLde2nVV-sUytDH+2Dowd*OxoOBTlRUReL~*H`IL?CRxI*Y1z$
z=k7PRFO00x4e6$~g^`bGMwY#Iz-Kj<r=LZp2T9TgNe~?Z(?j8xUHI_-9S(N|apjhM
z0}p+T)ybAzaU_t<CQnxU_)SBOLQl6pRY1j8<ki#}L9H3D$U%R202Mr}rpyHLQA3Y<
z;=(DEixfQiv({ss-cwrUlFES4G=}k+#@3nlQ;e;>uPou9Cs0%&ziQw|vtmA&xeoaP
zxtho@yHxtCq%t~Rh21r8oHxyz^Ll5p?bR6c)2PO?zmTi54tc#>=8NWwpJ9cK1#e5+
zAJ5R2si3bMMe{dWpP@f<L4RLlCxNv`midQWso8ft16)M~eQ5%UWbrf2v$&u?ZP&s{
z)STS~YK*lY;|6;b1TcDg@rv;f1;Tg3lnzrdkD>&f{j2v)u|@A|f^|LCVcwS5q{0Nf
zcB=90uX;l5r@r=g;R~>{)_F&^4QtCOe-+B<1ZrK$1O4fJdv;WUCLQpfbq->`Z3I&}
z2xWzo{>+kc8yZ`xMEJZj(MN`XU~01(%l;;vNnqu3TYMGX$<x9#1Rc(o5Ln?<o_D+z
zH&bu@w)t7kU|Ycs(Y~zM4>s5%cEa4>g3_(od8x6)HZ?Ydn!19AwEU+2YEJDes0>Ng
zp}xm?(=&Wc8=o4wXW?TYD0&76HvXQeDSU|q5C6LfWMarO^_&vP`O)7eQ+so&C{d`%
zJe;dnQ{B0^59eL;k5T*S;&E5O9{M6Dy}O_<?KHiN)YJZl=fsyLo>y~|1~8;j&Nx)?
zz5-{}E5^%c_ePJ+9Rk)!HJW5Vo5IMtmOPD6Cv$c-0qQH%NoAE*s#*(GS7X2&cF#@8
zYO5UfHO?f?hZ35V5!x<Bh#m|~f3hmHZsx^!ICc)|a!fRIDIA@R!Z`eNJkBTrchZIn
zO`Ml?ZlECJCt-es)BY6k6c{<0*l?7`dGZq&p!((0{{s&w$@BS8{uGv@k%m+xo1{wg
z#Sk9@5Q5XO36Aj0gh}RktYiY1WOb7RbwgkQIvJat<56-Tv!{eJB|Pc{%tLmWaOqMJ
z;fLdrg%8EfaZ)L;<)KJ0N0Gpzz(F#B*(}&{qLz>){lhZF68uT*2T4T!1*~P8jm2M`
z<+wSH|0-sp9zk-&&(BUyg1wHy>Plwd%0oPA@Oa!MfzlkFoAA;ESi(VPAx7?8vV-D{
zXJwT}2~0VNq6k^pCfVfo5Dc?mCJFr~B&%E-GHmRt%IJ~-tcDbTSZppivZ>ASQWzzV
zS;vITu={2}zs7-er813RXcFZRAhlrOt;}uF=ieXM=zqXy@fU%P19o0!b&+#QyF8++
zS#UL{T%F4nv3I}FyFb-?WUZ0`9aY6<&?HrrfhMW6Y~4zEm_>`o^b1V?YWcRGMAGgG
z(cLV#n}JQ+ja+DHmFR8~+)ZH3RnfL?0zPuxPPKHrd*Gb|V)Hhkc^hfbBDh;bcR+9l
zR@|HJ^aKCfG63vUO9|nXpqu8vyMylxicS4OQ@=Kb=x!I>?JMq%J1x+nc^kB7CM_5M
z3{_Wcf}`zYM*zX-N_%QVPqW}@UgX5qA)$5X4kr$u6oyYeFd0kBJ~L6y9Set2)$L0?
z0N{?(1{ej+rxq*3hHXN_wmTMa@Q5&Y1ZwXn5$J6T2d}=qR08AV$^(`=J{n2Y_pQ{Q
zK)CDHV4i2*IU}|V2rUC?H?wR3Fk1%!%vJ(sBdoc*KIQ6IYw!BNdfO_t?-1H|q&-c`
zxB`KlP%%(;)w1etff)d&uE`9RYd&g8`FmIV#}`K4I<^Ljle3)lODKWJT|XSgpK=A(
z+B)C8^v)%*ZM)F6J?&{+#${{Y0mHPDVVXhSk`;HXIJ(p2)na)-C=aB{`%`p3gy|Z;
zSTiit3@;o?`x-^x7Qweg^bH8UfjfIrzJV3ru;?2Rd?O2EYre+Cez9qX(6r;veLJt(
z($zIrEo)56V(9zUs|VJY{&clZtZo-z#cPD>Ez2W!M(!RGhQ?A`$L<|}A+_}dq51@=
zLM;9+3)S22K;?Z8ET)Fas|Vp7)zpdAokDfz(pT=3+`TLezOYh#0$yXq3B%P9<xPJ@
z@boNO?pW^Hg~3Cq-b4RsPpbE*;2BFDe*xB{qV~qP;Ay)y@>wa>5CEZse`vj$YTcCk
z&iqSU?mPRKZUmKYNm-5vC5>9sfZz(eKQ4Cd5xVx=bL~ktwTn&Lg{JLd(>|eT-`%|{
zP0y#?%vzxPgX-JWVqm8b*qQb;FONXq9Ye7G9c2Am0VrtMI3P3*h>d%M#yxi%R~kpI
zx*oef04RKMt@j+QpR{ii+ed}=QSzBEf}0WD_<1ePzWe$+ugkh(*u(+Y#4QU)Zfq*t
z!kr&+WDB2?w{WhgYS|0h8@C;7@83Cg-&y*0@LRz(x^wBpW!UaJ!00gLZh>Lp^Uv6*
z5+9Lm<ViI^mLW?umLLK)=Nk6}REL6np+I{e7tW@_2XgUPFL)r=T95@v!2I@yb6Eq@
zlTfA^^<?YFWuOpL#sC8{(-=XNfg;Izu}=|8TS4SZ&V9)m((*!TUODQv(PkromLsy|
zhUCUfur>y3894_GBTzJ=C$!~{V*w(`+r}(%isKro=%5zOZL>xg1RW}-!E?R(xM1TJ
z``}H)5rcvq1)LUvbVaRLu}P@dL?RtRMMr)lAXEg>OtZ*r7MRV;QGwY<%qV&VU+?l!
z!MA7KS?soFsA8L4whu5|0<{3lo#3l;VXzJWo7kD)1<3(!7^+)`<OY)xP#S=N3*dMt
zzaZH$l(QsvmL^bg%Facm&*l>gl3l^V(a?-krFh)n$Vj+M&c?u;2#pQm6QB`La-<3Z
z8DMoFE=VT4IWWJj0y_n$hW6IrEJ7Lv(K1}B3(d?#E`vD?nUA7Qn2yOR2+5wM{v?NN
z0u$tBB4;JH0vRIg;A>&-qErQxRT!xqaAcV|e>qO#2zZ5B0A4i_$ORC<w0lC+!@!F|
z!i5M3Pr#-C0bwavpJ|^{o^TIqkw^DqGJ=-Bh*;ehC#}F3(!gkzz^9?}iNQyqd@w|K
zR54#UUj;RFK0Cf29a+#{Y#w~Nj8w83Ei?3-S|Ar^Qt%`zl9fq!(gnTiSqR$Sx4ef(
z2|UEVK*yGtKc957MfjP=?T4tO8|(v%zhhK|Y9R8=S|&UdWXRkD%sLi;kgKP8HsM?n
zn&3cJ(7}+Y<OMKyVE5m*zNfH6C&AN$wMD>-ZoY=BXwB2FC~GHc3jOM@>-&!P95N7a
z=mFcaW#ssgz4@LGgvWSA_jGxMxy&WHZ_|=fwfg}RcrMPr16}gp!{ECZ{5}SMfWh}M
zxQ)RdVu0_4e;)z~ybxG0R*Mr?EW)jTR<SzAxJ*9v6t)Lkoc;y2GG6S1zs(X&jtrI5
zw~|ztjq^Xi{{I;Utr#p}8*@AynVs|N%<(AkZbSB~8+`Gc^684ENkHDqy}YaTf-28E
zh)x9@1SI~Cu*#1y_+t!y0s$D(#lYzd7^o~fT2BPBKsk@%A09s|sRW#>;ONn8s><Z)
zDC<L1u7uH%wxbVKH}PxHe5kr*+skeZNpwH7hG3@0-@(z&V}Q(#<VMrITx=pUN+{mR
z!Bi-S;$Ox3MqqE6pJa6YE>sWHX3-hH2pRJJ$Zid?Q?mObyEZyIMSc-vAwR&bmNEDc
zgMW^Jw&?sn#3Y&LU5Lf;J4L=q|B<;Z3pwQHyt;e6n-m^Hq{%^Wh5D?UqN~7ZCG8#o
z;tCDzPzeWye_dkpPN8{cy4IVnZA<&Q(q&cY>ZWv61I8i0rX}4tKq5Y|rdO!xU9WMr
z*ad6D0)6%Tq9Nng2)oaX&?VRsdOFkodP12u3FS=?xxV|_?zAtEu4zbnThd(z2`1hw
z_%=gwz1;2rVC<kvtpvIi3AS{(Z?W=Td0UD;y>w`4C^hh6DsXy*KAkFWTZ8`Gr5fR=
zus~_Ihx`wmU8~@3CB;Zlrro}@yDsgnUIXVI|DfO>6#Y8||4sw}xHK5t=fc5V&XUg?
zDd%Cs&&!#OL9eb;peIeWIjmRF*az(_A%w(j*XY<7e+Ay(7}z7nrzaD@gr9>XJel2N
zqx`>w2vivhRP!hn<WW|}?}7lB{_sSC--~H828ck2;ckv7V-Hp|fvF<TVQCVB-@^d$
z9)Al0P~#IHQ*bSto{sQ{TO|w8_X9;U3l3cTM_6?q2Kyn%b>#74CI&~a;5oqC#F3}V
za>Q`I%6ntqV)=~&*S?;yU<R-PkhNvebYt*ZEK^Lffb*#P+(x1=8$t$4`+b+^?MrW7
zdi(V^U(Z-D16ozqWQs}DicuSh+NqANjDtjJs;ch#g=-fcI7xEUbk<;LS?>SQ;D>`h
z+Wq0~429{ti3j92bHHS`*n#pxh5hy5wO|I*_ic4I5`wMifdvwoR;sZr-O!S5+mvo>
zPIq*tw+y7~AlZ=~fSs^8UCX5F8q&R6G1<TUvrS($SW5EX#teWP3;~AT9Lf}vq?M}n
zT~A(1W^5#Br`+Wk2Z_>DWo^buq9v5KKI0-$H@G+5XuftRQ%aI$l-Iv#zS)r}CrJ<G
zV=@&aS_xd=^&{7gEN%tPFH=SGs;S0~rTy>JXKF~Yma3}FcuBO5Vp=jj67|D0->rM6
zZrLm}Y|Ye@Jcer9lxZN*M)a?0BGG1qu!Tfh!F=IX=grO~k5Jo{X(M^<c^w5vUI&bG
zD|s`y#0vGBGh~S}os`}6cHNtGH!L@}TalZQrI8Pg+&+?m@2q;eVB7xdE^H}lk8w*)
zz@PSXE3pSZfIap_Jh#9j%M89x#o+s71FtOm6pG>s9z9wJy|-99{DE%|OG7&y$_PBU
zWRI+pH>h#fQ}yoR+^k#i%PIxfO2I$L#g$JQ!Gk~R1nqg0ua=Es+n#F7a+pO&!PFrM
zo>=<%;Jw6Fg1=Q2{8dAoz{}QXv08|EH)t!@t>Y?{R<aLP75HH3k0sY<V5A1{)@p>`
zrbpIneq?FOBTHTSrCjv}`MMD2d26+Tw^j}D)~W@%vz_>|7B~y!d28Xpjpy!z`w;%W
z_tqjlQaaqxqkXi%Gs-OcSn=Q^CCB2WS(|YdY^{Mu0ekCb_E*xpxQV}#1|iV;i0=v>
zwg@S>DWvKO9=J|Gv)~3FAS6S{1N~@ys(G;gpR^x*Yvf62Tx>!+O;{UCsip%krov@X
zRMs>>SM{pT9a4H6rK;S4-nBWyjI@zd=m0}I5)EpKwX14G;24|KTs;N2%2`7Hn!!pU
zptaCBIn)-!>&s94@{lnpcr>3q9R)c{tfk4@)>abc)LGC4B*BD4#R=3@-^1lB{baDh
z4t2r^I&eY>N)2?Ngc8?xG^IUWCGi+o-0GT>YbQ#__~!v&$%fK1A{&xDypEn}A3eS`
z@F-6+Qd`x)J+)&Qe+U=uFa}5rO2)|<$sD}|p_|ZqTZ7!@Xdm1{a%uD2S;8e0UIHTD
zFQDiOiNa3>CLCv!8%V$@4zCsnXMO*>nd1=-u5@9hXTa$!6l22i_$=2AR<Cd$%jC?~
zU`YO*^Pd7$pwbPw(ST`JyyN0fW7k||Cxh}dr4hMk23WgYb8c|PlP`CX9np5p-3>78
zG&tYoTyns~z|ZY9jyZY;R=EemZOp`U6nx8M|2O6&XdvP86u2HiX0;jZ(iKvnz<G~(
zVgCzEJK-w98;BHY^|=5nR3yTj<q%#L{Pgfz2GnzcG>!}LiVLAKJPa6)G3Viu8@zL7
zA{+;KUiaL#ht@(}3T-0bi%2GuJB>gM&)^Hj51v1Y!59Ykg~$rf7a=AUqZAHUcF=&z
z*T@jQTlMgh6U87~#oJ|MTVfl&Cz(4(`4#LK9xnconQFPdGw&7196uhf{NKU)W%%N9
zm~~{+QRD==Lir8~e8W;PC%*#z8`$uh5NzOTcMQvkL>bSpN4nY-?qSW<?gIm~{3Qgx
zdAzG#4e+uZLQRKQ(=F6=FI`@#*}hPct_Fn->U&hR%}VtET;kyNFK)W$?pp4;yYt@W
zF~wVLKls5lq{<o>8yCN}cnn?N`k&PG?S362)^!PWT}$VLx@}_JuuwOACvo@mO5G83
zjRSwcdeOT{@NQaqUhr-ey+eX`=+3FT+g7}Xu)KP$hWTDas(r_u{VO$l7R+yzeBy(v
zD|QOLooVz3tP{YNla)OQfz$WfiL0QZe<5b4cyooJbbF4!ot<jx6B|c_#*vlA=dphM
zC*Dn>cR=tCta!Jls<!`%GFID3_e}!bbdNr^WR`V-so`Tn`>~A4I1J;wMI)Q!etYO!
zLu)kH%%W>zx~zA#Z;#k_ROmap(swM?dptuKUNE!)J0`Xb3vI)xR^aIj&lwtkM-v;i
z2n}0O%vQKiqrX36DJt#%+++ngg@<yMEB(0-e2(_RGGp;N>=wz9vu*S4z5(7sro+%w
z03^`hWrgxq-UY@K#yQx`Eb$4CE2dwN2Q5HeYhZ~V9Ba|3qn41Gfub?VLXI!lS^)?A
z6e+(?k)XK^iWym!gkbW&fIzu*NYR&*>q=%q6Bj_40A>%0f%`)n9F-#3TK^Nb`9bLG
z3YB(L-e|k$Xh@e=-YC5`a3k~&hEjC>)geqbTpJ{&*}!%-Tzme;tJiid?zvaqlA>Eu
z<t=GX73MA)t_`Q?26-trvggn9bhN{`4)}ZUW0)nZXp!D+Lg34W3qc+|%1)0;%k$RK
zC^|jW7<fKr%XO$DJ&G}F6s$*i!M-pmo{yBS5fJ)<=}7Q3ip}!A={<#lWz8V@S7uMV
zB{eC&x*|xC=6OpZnM<AmZ^<uxmY_$`pC8^>@GSE~vq-)9fu2TP12CS>&M(iy@(aC1
z9d146Et<004E&<OLsb9$*uH!i&?EH;N4Mv!OrG~)PJW)Z;s&do=j*vaoje~)a#sQ$
zfjuXmS}epAORV#l8OC4=g9{J@T>M3h<7Y2f$kllKWz5)3GG;**ImkbU89WAY4E_p(
zpJI@}0QU$#i$N&_pnGV<_(lf~|65q914$e~$dQN>F*p%{Zgg_yy9WJlJURb81Yk>4
zN!h%jwE@J~X{UG9w_Wt@7JR#9(~uNB3dTV;`#KTw{noYLdNQXVk8DS@czD?(_U#q=
z_O7`16*~1i!cXXvC-W0hMoBgAyL(C;IW3HwUU9!vILsq_hj19hcL?<8bq%)$Zw`vy
zF2UP{4oQdJJXGN6v|8UQxO)o+sOtvjq&j=bTD=aUOy*Ym&33W2Q>g9C?F7A=R=4aI
z-1`fgd%K{y*S_F_*0!1(^{I}bRqHNrYf9AwQk!<IT8Hmjow65I3h06UkyYzxI-9e3
z`Pj$S{RD008E;r%e<1dK@O2qG>AR#Dz-JKff5Z?q&KuE`QV$>L>5Pd^8Qc*-Qlj4m
z_h-R_=K=cEXN@=Ki$L3K1RqA&i1^GG0T$h$CA7l%z@tB65D9YfKzWH8&;CAk7J6+q
zfTds-#bg#5*9^F>_=#qrGh)sxbR{F-_;CVx6!PfdDLotn>!G6o*M(4bO!e(-(2oxO
z$#ay@=#poGyiT2M_V<|}*X!qTkZbQJ2XY;m$y7rYHZ}I15+PC%%NWs%gGDdR4Muz6
zJ{V%*%3py>#OfDpT7M34sfye%+YR<Fc<D<w@}(G$^ZyHLA{qi?RdSh(8BJ37w=nwx
z25T4~7Ro_C1Z|+YO;#0~CuZ3Y7`dQlEL<%Ew;BelIoJn>kc{zO`0JBZuo~KnTcJ!v
zHZrF9J;+gvSRbO%A8Ew86^M}dIf8iL-V<bx(sbD`t%JZVffbXdL-2Hno?gMz`=)Kd
zxUl!CA?;;EZ=c}p6TRC6FI<9hXYYp>?;2OU`{2a=skbfFK8So7_^-BZ6I*u*tvm1R
zy=w$3zSid#ETYvfSpBQkru%468W21I(bEHVhFa&f^<r(0P}?KcZWU^`E}yv5_~A=;
z&aTw%S#bTdwsrCKmD+&?SGr}Z*s@({*?y<-&RMYXYZ<|weS*~ocf#C<Sq#59oN~0R
z<@#r8dRfJwk9{}xPHe^94<41GzgzHki~b?OKLm!1=zeNqh>d9-pxIp0QAMXK8|f~d
zdiUjbUS4r;g)VMQ-<+29w>j>aU|kB9mbQ|&?Qh!UiGOU}&}9)NyaYeI29Z4DK1$cP
zPggFje-cA3ZkU1xZE;xYeZzajasg-$jAI}I`2{3p`sfD6Zes9HF!(kEl0$L)CU*>5
zc>E%H2?Ih=X*-nvr;rzitp(du-k`T2u2|MRv_Utvta|}>=P)#tE$iAeF-TgKlIYpm
z)ubzGpys;Eie_|H#f)x3L2A&O{E+2F-sn1Y*#MJ2#s4KF0tWIC64kT93p?Q^<>`xP
zp@xF2xh7qCWp`esml1Hp`B$j>u5y`+U4-P{oWVw(eH*?PGQAi~`fr<kTl~whZ`0LZ
z0EesW=lPms4YB(w!W-7-;YM_z3TmIh?yDH=zHDGowvpYJRkiz)M-12=XZuyS|7F`R
z{)f0d@RQ+x1VO-@V}bJn%tgHc|0fWf0zC1@nD_|>{~7~Q;a!Xo8?7abVf_G|HHYH=
z4d(t^41SKmzr%o-^$^5FIIBO!y#Ii~T?hi+9DKBhx$j``T?~F7gYRMR2N--G0|EdU
z`!**35CcTK#4zpY&5gioWi~+oiF=_J72)ap%16vcP)RX4DqLdO<mfDZlz#=a{zgrX
z+@80S-%6?mN9CLJjDj?SBfLHht&QNUDlb{sm)Q))8VmN%>xsorS^dUsWs4s$_W^q$
zFkI65siH|gwWJ^U-1(0%V|bN2;U{a+!~Yp3_hMki0P&A3$^Xw7!&S<mU-n><!yt(P
zQX4r|JyxJFK*5x_%>P#`_zedC1p_>S`2U7M3IlvW`o=v-4HDJ$4-D{%PQ!a5#y$OD
z?UHNT18Ja3a!q?MN4D(2Sj<ptX<Tdq(`ifN^1cW7lPTM0u#6b;jAlp<bcEJEa$Gj|
zk>j$xj~ve${E+mo4jH|chRhB}fn5)zvvxg@$kb9rC3wlO=SBi<hqHL_x?njY<9SMx
zpMwTVc^>qbfwFAH<cB1)CO;%8oBWWdZ1O{*vdIsLW=(!bGHdcflCsGUi58grki4wP
z4@t@<KO`!f{E%pY$q&hsO@2sJHu)h@+2n^r3rv1UUV+IE$ty7VA$gBA`N3N92Z6gS
z&?~tnrXy${3OcZOcj)YdY>!q1cB){<E`Jq7j$|YDnRwwN{}Qy6%$Vj8x$_H{c9HVz
zzeXYZ%{fS}?ES|hPLj`6E5^vjX2+NVJJ>|3KF<79zE@oS?3~yZk-XIZL~Ru#R_!01
z;8Be)4L_o-qHUD*m4xZ(R{qTjl0YXy;{GS?c)Cs$&7I6fp~#IVI=)9);Oc-PYgOb<
z&|*Lud^#w|KieTU_aF>tRUvyy*64L4*F;gFR6@$tfB7OVD;C`(6Fnf5e*%NA!4AoZ
z`weVW91P;W#u1dSBS&l|8|wTe##%6F#%k6f`EK-Ko`!P}{-@&q2!f2sU@&}cr3@`U
zqbmP`qJK$M|BPz-8Px&duZ<Ri@c{+FuW7Tv_!$Mk=XT0)(f}9;GK)-*hNdqVer?Px
zANU!y>1R~n=QhvPGb=X#m7-tR$F3Bw7u6buQ{Zbz!SDKxpv6#fV{9F6ST>Zb?|00b
N4CQ!hI{p%<|1TBf+v)%S

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/__pycache__/utils.cpython-312.pyc b/model_executor/layers/quantization/quark/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5deb13241e7ed7c241d10e1a7a51168d1446b4ec
GIT binary patch
literal 3631
zcma)9Uu+b|8K2odxA)J!KQ{J(gS}uJ`%Jh?VhCU?OT^%c6ljH^ksKjseLJ=fukS9i
zd*HjCD~lk-SCDX|rd$M7oQFz>Xr(+<6}&}xYSfpz+7+j*BT?n0yq#;RhQ74l?B1OX
za?_49-^|W@^UXIizwgifv8l<8plHI)`0tw#`j&mvi!}oun_mIBgH)tq4b9<kJjac5
zn0<2^KPQX}R-f0zImfue>I<4Q?o>tMP#sVu;+k@(&KttGn?pp1qX*dDVhXD+;!%aH
zgplecn0R)>gz6z2@er^5HN{zDOomhS-Vn!|tTjyyZd-aYNN;u_wMF%TL_gF3aalV%
z)gY|$WrT3+Q?_lGGo5D)LX}C4n9?~Vm5L{(!`SrKx<97L`OL*kioh6uGLboNifTM&
zykR$Qnhr{gG)=@f`wSKpfbvi`_rS?MLLcEf$f%tWp?u@K+s1JH4$_$73^v$mtK^Zv
zq*>)bZ4Y`hkFLNSy<8sD2J-m(W@nEgWbNUquU|q-c#2cG8_qmBh3Zo38jYbBw5g*2
zHMD6r04a9acDAjt#@S~35E_H?=ds-j^XErnje7wJ4yXfAH{S;G3HL*U0cSaMxecKO
zyzREQ9A+rU^LAU;<d^sk#^_c^KpFH~{u;iI&%>j6RYFn|vE*Dzp(HGrT;z2V&r)`O
z)Cojq_bbbbi~kyr8gr>=DxNxID0G?_hvw5qj~|;oN}^hPGMdU5Gs#5ss;13F=aMSX
zCdfRArHv$wYD$JsJ^DdfNf`00V#I+DKIm*TZNxP_lFFE_p=pvJ^C>!<?b@zTWJpWK
z6ipwFG#CO*seM4c`y2Xh5tV`?k1jpLzZhB(SCr44#hx$l{l3R71CK5}w^aY|l`b5X
zOu+z*n(nwBPw0k{h!Im@I5mY?lF?0G(KJ)g;<{n-Ix)iBw(~Poz5hP-LqplCS;PY!
zJqhIbB3hR`OQ%2l>AeGm^xcDHsi)#=U6%sOJ@;DIq|S=Re|s=Lcyp+5<g>v~2k#F3
z$<teD39b8rYfSOg;K-_Pq~sh~ceN~^zIS-dCBxM6k(=3jV=KGvj+cGCC1>vwUu!|k
z|E%QPy9rw&({0`8L_(P(rXxO`NK#@pO{I0BPR!XB8f#bx@Uv&M?5z#Z#1OLxHk3nG
zwquLQg`#qGT&q08&;p<1bKF%#-_3D3dql_yr_gON#!aIbcexdKM3A+8KT8rquu`mJ
z?_=&(n}8M^3!;h^q@3dvx_l5;It{VLjB?H#{*6%QUvTB5MLy?RkZ$eDL7!Qrj&F4s
z4ZBvwoNyPZjvN9i{YtFseH{xZ(X>r2dO@xPa=CZVb)1vNKz|H%LA-{-&hw)tjy(N0
zl=~dr16rAq4Rbwva5R}tsInrf@u?|7Ny3n~V_DW?Gh~kF@>G(_SwW5`<m|zSeD&<v
zb223#q~jFk0AR9_l;MqJV}{5&JY8*F1dLA9Q(D|GB}!770@&OG5@WLyuvpP1l5~QS
zX)+IQYs6+u_fHfpO-@sqq+z$EDeVAt=_^cUSBfUD*ue1XGYVBF8UwoNduhb<*aHkl
zy4j-7B-5HYVdH7Sf|%*v;&_?Cn$elRlN-ghl76NRBO$2zKY%Qvsv9|jC22PpN7ab}
z9gqET*)OlOtonOaCd>Zt;+d)!IRne*%F@0{M_+MwxnrQ@3~jj4fy0|3-|qfv_rS8R
z%A=<C$KKAex3iEbM*r*`taJ}lMdWI&BH#fLUEL*T$6xmJEWNY7f2h*YQ@r|&=enCq
z-Y(F<-(B+cS6)3{_IFnuDA-f#JFyx#vEC+E+D=y5drNJ7MWHxeJX=Nh_=zgd?K-i^
z3+=%w5(2@EcGU6evp&>yywbj}_!da*a>G_|7;jg}(_a$$fmS@7C86{A-%n!DMrYXm
z_3pPF0%h)M=MeZB%zOk!x#hl>5CnRB1I%HkU=!xD*WK*CM;JnM`PvKtJW&AWmQRr5
zx=iMkn4x843qmpgQvoajh-3>y462rt_>^p;Tn4X54UiW%X5?N<274J?l|-gK52$AT
zF=8!yAuO?DT4Cue=zM}3VF^6u%VDW*-nCE^tcN1%g{2UTLKAU)N7RRT+6*kF!`9Y<
zz0Q0NL?#<_EG%RX{dc?BA(C8#B|0<pS|n+{@OAH(jx}Fz(f!5fW8aCddut)2Z8v7=
z4crEm*%~V($o9SmV1P36BQ^t}m<6S0Zshf?GI>B&Jr_#C1<Ks1DPCp9OJ8UGW?R`<
zGGQnXm0ob!Ea<Z1ZT=1jxNN+mvu>mgbZ-u;oXYP3hrN}KTwzjPD&Um2QWKmJGGdOS
z`$2xgv2HD>r#j%?zh@SLgDnR_3QJt<udpM#zB5j(8~FbqTEpJ|LTW@lGbO)xnM^(e
za)#lHG)-Q!L@25nXUPZn;*8C&%gg}4A2*DELVC*<*ItFFmPG*g8JDHHZ2?&xY~(3>
zqVpF=!GpVP`(fr|auAM1+gXcR@*1IGfxZcx*0WP)DyEcD49Kbzwd_i+fho$k7<m_}
z9s>fNGl-nckEKvq3Ke#(NnMp-s1PUwm;0Bbbx+gnWBFstKPX&U^K@5Q+Q9*O0~;RX
z4plsX+e7)Go5O`mpS}0#dv`CF!8-wi0~o+zy8X*Xe%@8_wLpGiAv26e!+z5jOKKX4
zu}jh;%4CeP15ySfQ)CI0PMNWT6=v9P0A&fODO!GoLV!l5FquqhR)Pe1ltF1b3|f)E
zvJmTJ_mQ=qWjv;H2vWtgMusU%X<0s^e+8t<V~qdlL^$#d+W!q|`xXVO4ma*B@KprO
z%81nzPi?ZV4H-p-A5N|wI=LYo#$6SE%d+~hyUIiViMMrmEPt*lLLW}v+EEx-5mv@N
zcNK=qE&Wx-4*uKW-gL2E0*iPI7YC|{wGTsIc0bx{_y2Hs(;9=PI5N1w2XUa{X|7sr
UsKag#y<xRaMAtJB=B+dS2O-;tg#Z8m

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/quark.py b/model_executor/layers/quantization/quark/quark.py
new file mode 100644
index 0000000..f59e5e2
--- /dev/null
+++ b/model_executor/layers/quantization/quark/quark.py
@@ -0,0 +1,528 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import fnmatch
+from typing import TYPE_CHECKING, Any, Optional, cast
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.quark.quark_moe import (  # noqa: E501
+    QuarkMoEMethod,
+)
+from vllm.model_executor.layers.quantization.quark.schemes import (
+    QuarkOCP_MX,
+    QuarkScheme,
+    QuarkW8A8Fp8,
+    QuarkW8A8Int8,
+)
+from vllm.model_executor.layers.quantization.quark.utils import (
+    deep_compare,
+    should_ignore_layer,
+)
+from vllm.model_executor.models.utils import WeightsMapper
+from vllm.platforms import current_platform
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
+__all__ = ["QuarkLinearMethod"]
+
+logger = init_logger(__name__)
+
+
+class QuarkConfig(QuantizationConfig):
+    def __init__(
+        self,
+        quant_config: dict[str, Any],
+        kv_cache_group: list[str] | None = None,
+        kv_cache_config: dict[str, Any] | None = None,
+        pack_method: str = "reorder",
+    ):
+        super().__init__()
+        if kv_cache_group is None:
+            kv_cache_group = []
+        self.quant_config = quant_config
+        self.kv_cache_group = kv_cache_group
+        self.kv_cache_config = kv_cache_config
+        self.pack_method = pack_method
+
+    def get_linear_method(self) -> "QuarkLinearMethod":
+        return QuarkLinearMethod(self)
+
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def get_name(self) -> QuantizationMethods:
+        return "quark"
+
+    def apply_vllm_mapper(  # noqa: B027
+        self, hf_to_vllm_mapper: "WeightsMapper"
+    ):
+        """
+        Interface for models to update module names referenced in
+        quantization configs in order to reflect the vllm model structure
+
+        :param hf_to_vllm_mapper: maps from hf model structure (the assumed
+            structure of the qconfig) to vllm model structure
+        """
+        quant_config_with_hf_to_vllm_mapper = {}
+
+        for k, v in self.quant_config.items():
+            if isinstance(v, list):
+                quant_config_with_hf_to_vllm_mapper[k] = hf_to_vllm_mapper.apply_list(v)
+            elif isinstance(v, dict):
+                quant_config_with_hf_to_vllm_mapper[k] = hf_to_vllm_mapper.apply_dict(v)
+            else:
+                if isinstance(v, str):
+                    mapped_v_list = hf_to_vllm_mapper.apply_list([v])
+                    if mapped_v_list:
+                        quant_config_with_hf_to_vllm_mapper[k] = mapped_v_list[0]
+                else:
+                    quant_config_with_hf_to_vllm_mapper[k] = v
+
+        self.quant_config = quant_config_with_hf_to_vllm_mapper
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
+
+        # Check if the layer is skipped for quantization.
+        exclude_layers = cast(list[str], self.quant_config.get("exclude"))
+        if should_ignore_layer(
+            prefix, ignore=exclude_layers, fused_mapping=self.packed_modules_mapping
+        ):
+            return UnquantizedLinearMethod()
+        if isinstance(layer, LinearBase):
+            scheme = self.get_scheme(layer=layer, layer_name=prefix)
+            layer.scheme = scheme
+            return QuarkLinearMethod(self)
+        if isinstance(layer, Attention):
+            return QuarkKVCacheMethod(self)
+
+        if isinstance(layer, FusedMoE):
+            return QuarkMoEMethod.get_moe_method(self, module=layer, layer_name=prefix)
+        return None
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "QuarkConfig":
+        export_config = config.get("export")
+        if export_config is None:
+            raise ValueError(
+                "The export key should be included in "
+                "the configurations of Quark quantized model"
+            )
+        kv_cache_group = cast(list[str], export_config.get("kv_cache_group"))
+        pack_method = cast(str, export_config.get("pack_method"))
+
+        # In the export model of quark, the quantization configuration
+        # of kv_cache is stored in layer_quant_config. First, it is
+        # judged whether kv_cache_group exists, and then it is judged
+        # whether layer_quant_config has a quantization configuration
+        # that matches kv_cache.
+        if len(kv_cache_group) == 0:
+            kv_cache_config = None
+        else:
+            kv_cache_set = set(kv_cache_group)
+            layer_quant_config = cast(dict[str, Any], config.get("layer_quant_config"))
+            layer_quant_names = list(layer_quant_config.keys())
+            layer_quant_set = set(layer_quant_names)
+
+            if not (
+                kv_cache_set.issubset(layer_quant_set)
+                or any(
+                    fnmatch.fnmatchcase(layer_quant, pat)
+                    for layer_quant in list(layer_quant_set)
+                    for pat in list(kv_cache_set)
+                )
+            ):
+                raise ValueError(
+                    "The Quark quantized model has the "
+                    "kv_cache_group parameter setting, "
+                    "but no kv_cache quantization settings "
+                    "were found in the quantization "
+                    "configuration."
+                )
+
+            q_configs = [
+                quant_cfg
+                for name, quant_cfg in layer_quant_config.items()
+                if any(fnmatch.fnmatchcase(name, pattern) for pattern in kv_cache_group)
+            ]
+
+            if not all(
+                deep_compare(q_config["output_tensors"], q_configs[0]["output_tensors"])
+                for q_config in q_configs
+            ):
+                raise ValueError(
+                    "The quantization method used for kv_cache should "
+                    "be the same, but the quantization method for the "
+                    "kv_cache layer in the config is different."
+                )
+            kv_cache_config = q_configs[0].get("output_tensors")
+            if kv_cache_config is None:
+                raise ValueError("The kv_cache quantization configuration is empty.")
+
+            # Since we have already set kv_cache quantization configurations,
+            # we will remove the quantization configuration for the
+            # output_tensors corresponding to the kv_cache layer.
+            for q_config in q_configs:
+                q_config["output_tensors"] = None
+
+            # In case q_proj output is also quantized, remove the configuration
+            # to keep qkv consistency.
+            q_proj_q_config = cast(dict[str, Any], layer_quant_config.get("*q_proj"))
+            if q_proj_q_config is not None:
+                q_proj_q_config["output_tensors"] = None
+
+        return cls(
+            quant_config=config,
+            kv_cache_group=kv_cache_group,
+            kv_cache_config=kv_cache_config,
+            pack_method=pack_method,
+        )
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def _check_scheme_supported(self, min_capability: int, error: bool = True) -> bool:
+        capability_tuple = current_platform.get_device_capability()
+
+        if capability_tuple is not None:
+            capability = capability_tuple.to_int()
+            supported = capability >= min_capability
+            if error and not supported:
+                raise RuntimeError(
+                    "Quantization scheme is not supported for ",
+                    f"the current GPU. Min capability: {min_capability}. ",
+                    f"Current capability: {capability}.",
+                )
+            return supported
+        else:
+            return False
+
+    def _is_fp8_w8a8(
+        self,
+        weight_quant: dict[str, Any] | None,
+        input_quant: dict[str, Any] | None,
+    ) -> bool:
+        # Confirm weights and input quantized.
+        if weight_quant is None or input_quant is None:
+            return False
+
+        # Confirm weight scheme is supported
+        is_fp8_dtype = (
+            weight_quant.get("dtype") == "fp8_e4m3"
+            and input_quant.get("dtype") == "fp8_e4m3"
+        )
+        is_static_weight = not weight_quant.get("is_dynamic")
+        is_per_tensor_or_channel_weight = weight_quant.get("qscheme") in [
+            "per_tensor",
+            "per_channel",
+        ]
+
+        if not (is_fp8_dtype and is_static_weight and is_per_tensor_or_channel_weight):
+            return False
+
+        # Dynamic quantization is always supported if weights supported.
+        if input_quant.get("is_dynamic"):
+            return True
+
+        # Confirm activation scheme is supported.
+        is_per_tensor_activation = input_quant.get("qscheme") == "per_tensor"
+        return is_per_tensor_activation
+
+    def _is_static_tensor_w8a8(
+        self,
+        weight_quant: dict[str, Any] | None,
+        input_quant: dict[str, Any] | None,
+    ) -> bool:
+        # Confirm weights and input quantized.
+        if weight_quant is None or input_quant is None:
+            return False
+
+        is_int8_dtype = (
+            weight_quant.get("dtype") == "int8" and input_quant.get("dtype") == "int8"
+        )
+
+        is_tensor = (
+            weight_quant.get("qscheme") in ["per_tensor", "per_channel"]
+            and input_quant.get("qscheme") == "per_tensor"
+        )
+
+        is_static = not weight_quant.get("is_dynamic") and not input_quant.get(
+            "is_dynamic"
+        )
+
+        is_weight_symmetric = weight_quant.get("symmetric") is True
+
+        # Both symmetric and asymmetric input quantization supported.
+        # Only symmetric weight quantization supported.
+        return is_int8_dtype and is_tensor and is_weight_symmetric and is_static
+
+    def _is_ocp_mx(
+        self,
+        weight_quant: dict[str, Any] | None,
+        input_quant: dict[str, Any] | None,
+    ) -> bool:
+        # Confirm weights and input quantized.
+        if weight_quant is None or input_quant is None:
+            logger.debug(
+                "Quark model is not in OCP MX format: "
+                "weight_quant or input_quant not set"
+            )
+            return False
+
+        # Input and weight qscheme needs to be per group.
+        if (
+            weight_quant.get("qscheme") != "per_group"
+            or input_quant.get("qscheme") != "per_group"
+        ):
+            logger.debug("Quark model is not in OCP MX format: not per_group")
+            return False
+
+        # Input and weight group size needs to be 32.
+        if weight_quant.get("group_size") != 32 or input_quant.get("group_size") != 32:
+            logger.debug("Quark model is not in OCP MX format: not group_size=32")
+            return False
+
+        # Activations and weight scales need to be in e8m0 format.
+        if (
+            weight_quant.get("scale_format") != "e8m0"
+            or input_quant.get("scale_format") != "e8m0"
+        ):
+            logger.debug("Quark model is not in OCP MX format: not scale_format e8m0")
+            return False
+
+        # Input and weight dtypes need to be any of fp4,
+        # fp6_e3m2 or fp6_e3m2, possibly mixed.
+        if weight_quant.get("dtype") not in {
+            "fp4",
+            "fp6_e3m2",
+            "fp6_e2m3",
+        } or input_quant.get("dtype") not in {"fp4", "fp6_e3m2", "fp6_e2m3"}:
+            logger.debug(
+                "Quark model is not in OCP MX format: dtype not fp4, fp6_e3m2, fp6_e2m3"
+            )
+            return False
+
+        return True
+
+    def _find_matched_config(
+        self, layer_name: str, module: torch.nn.Module
+    ) -> dict[str, Any]:
+        proj_name = layer_name.split(".")[-1]
+        if proj_name in self.packed_modules_mapping:
+            shard_proj_names = self.packed_modules_mapping[proj_name]
+
+            # Convert fused_name --> [shard_names]
+            shard_names = [
+                layer_name.replace(proj_name, shard_proj_name)
+                for shard_proj_name in shard_proj_names
+            ]
+            shard_configs = [
+                self._find_matched_config(shard_name, module)
+                for shard_name in shard_names
+            ]
+            if not all(
+                deep_compare(q_config, shard_configs[0]) for q_config in shard_configs
+            ):
+                raise ValueError(
+                    f"Found a different quantization configuration for "
+                    f"{shard_proj_names} in {layer_name}. vLLM "
+                    "requires all to use the same scheme."
+                )
+            return shard_configs[0]
+        else:
+            layer_quant_config = cast(
+                dict[str, Any], self.quant_config.get("layer_quant_config")
+            )
+
+            def _matches_pattern(layer_name, pattern):
+                if "*" not in pattern:
+                    return layer_name in pattern
+                return fnmatch.fnmatch(layer_name, pattern)
+
+            for name_pattern, config in layer_quant_config.items():
+                if _matches_pattern(layer_name, name_pattern):
+                    return config
+
+            layer_type = cast(str, type(module))
+            layer_type_quant_config = cast(
+                dict[str, Any], self.quant_config.get("layer_type_quant_config")
+            )
+            if layer_type in layer_type_quant_config:
+                return layer_type_quant_config[layer_type]
+
+            global_quant_config = cast(
+                dict[str, Any], self.quant_config.get("global_quant_config")
+            )
+            return global_quant_config
+
+    def _get_scheme_from_config(self, config: dict[str, Any]) -> "QuarkScheme":
+        if config.get("output_tensors") or config.get("bias"):
+            raise NotImplementedError(
+                "Currently, Quark models with output_tensors "
+                "and bias quantized are not supported"
+            )
+        weight_config = cast(dict[str, Any], config.get("weight"))
+        input_config = cast(dict[str, Any], config.get("input_tensors"))
+
+        if self._is_fp8_w8a8(weight_config, input_config):
+            is_fp8_w8a8_supported = self._check_scheme_supported(
+                QuarkW8A8Fp8.get_min_capability(), error=False
+            )
+            if is_fp8_w8a8_supported:
+                return QuarkW8A8Fp8(weight_config, input_config)
+        elif self._is_static_tensor_w8a8(weight_config, input_config):
+            weight_qscheme = cast(str, weight_config.get("qscheme"))
+            return QuarkW8A8Int8(
+                qscheme=weight_qscheme,
+                is_static_input_scheme=True,
+                input_symmetric=input_config.get("symmetric"),
+            )
+        elif self._is_ocp_mx(weight_config, input_config):
+            return QuarkOCP_MX(weight_config, input_config)
+
+        raise NotImplementedError(
+            "No quark compatible scheme was found. "
+            f"Weight config: {weight_config}, "
+            f"Input config: {input_config}"
+        )
+
+    def get_scheme(self, layer: torch.nn.Module, layer_name: str) -> "QuarkScheme":
+        layer_quant_config = self._find_matched_config(layer_name, layer)
+
+        # Find the quant_scheme
+        scheme = self._get_scheme_from_config(layer_quant_config)
+        # Raise error if device does not support the scheme
+        # (e.g. fp8 needs ada lovelace)
+        self._check_scheme_supported(scheme.get_min_capability())
+
+        return scheme
+
+    def get_cache_scale(self, name: str) -> str | None:
+        """
+        Check whether the param name matches the format for k/v cache scales
+        in quark. If this is the case, return its equivalent param name
+        expected by vLLM
+
+        :param name: param name
+        :return: matching param name for KV cache scale in vLLM
+        """
+        if name.endswith(".output_scale") and ".k_proj" in name:
+            return name.replace(".k_proj.output_scale", ".attn.k_scale")
+        if name.endswith(".output_scale") and ".v_proj" in name:
+            return name.replace(".v_proj.output_scale", ".attn.v_scale")
+        if name.endswith(".output_scale") and ".q_proj" in name:
+            return name.replace(".q_proj.output_scale", ".attn.q_scale")
+        if name.endswith("self_attn.prob_output_scale"):
+            return name.replace(".prob_output_scale", ".attn.prob_scale")
+
+        # If no matches, return None
+        return None
+
+
+class QuarkLinearMethod(LinearMethodBase):
+    def __init__(self, quantization_config: QuarkConfig):
+        self.quantization_config = quantization_config
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.scheme.process_weights_after_loading(layer)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """
+        Use the CompressedTensorsScheme associated with each layer to create
+        the necessary parameters for the layer. See LinearMethodBase for param
+        details
+        """
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.scheme.create_weights(
+            layer=layer,
+            input_size=input_size,
+            input_size_per_partition=input_size_per_partition,
+            output_partition_sizes=output_partition_sizes,
+            output_size=output_size,
+            params_dtype=params_dtype,
+            weight_loader=weight_loader,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ):
+        """
+        Use the output of create_weights and the CompressedTensorsScheme
+        associated with the layer to apply the forward pass with the
+        layer input.  See LinearMethodBase for param details
+
+        """
+        scheme = layer.scheme
+        if scheme is None:
+            raise ValueError("A scheme must be defined for each layer")
+
+        return scheme.apply_weights(layer, x, bias=bias)
+
+
+class QuarkKVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from quark checkpoints.
+    """
+
+    def __init__(self, quant_config: QuarkConfig):
+        self.validate_kv_cache_config(quant_config.kv_cache_config)
+        super().__init__(quant_config)
+
+    @staticmethod
+    def validate_kv_cache_config(kv_cache_config: dict[str, Any] | None):
+        """
+        Validator for the kv cache configuration. Useful for controlling the
+        kv cache quantization schemes, that are being supported in vLLM
+        :param kv_cache_config: the quark kv cache scheme
+        """
+        if kv_cache_config is None:
+            return
+
+        dtype = kv_cache_config.get("dtype")
+        if dtype != "fp8_e4m3":
+            raise NotImplementedError(
+                "Currently supported kv cache quantization is "
+                f"dtype=fp8_e4m3, however received {dtype}"
+            )
+
+        qscheme = kv_cache_config.get("qscheme")
+        if qscheme != "per_tensor":
+            raise NotImplementedError(
+                "Only support per-tensor scaling factor "
+                "for quark KV cache. "
+                f"Expected qscheme: per_tensor, found qscheme: {qscheme}"
+            )
diff --git a/model_executor/layers/quantization/quark/quark_moe.py b/model_executor/layers/quantization/quark/quark_moe.py
new file mode 100644
index 0000000..30772c3
--- /dev/null
+++ b/model_executor/layers/quantization/quark/quark_moe.py
@@ -0,0 +1,683 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any
+
+import torch
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import (
+    FusedMoE,
+    FusedMoEConfig,
+    FusedMoEMethodBase,
+    FusedMoeWeightScaleSupported,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    fp8_w8a8_moe_quant_config,
+    ocp_mx_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    prepare_moe_fp8_layer_for_marlin,
+)
+from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import (
+    OCP_MX_BLOCK_SIZE,
+    OCP_MX_Scheme,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    all_close_1d,
+    normalize_e4m3fn_to_e4m3fnuz,
+    per_tensor_dequantize,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+__all__ = ["QuarkMoEMethod", "QuarkW8A8Fp8MoEMethod", "QuarkOCP_MX_MoEMethod"]
+
+
+class QuarkMoEMethod(FusedMoEMethodBase):
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__(moe)
+
+    @staticmethod
+    def get_moe_method(
+        quant_config: "QuarkConfig",  # type: ignore # noqa E501 # noqa F821
+        module: torch.nn.Module,
+        layer_name: str,
+    ) -> "QuarkMoEMethod":
+        layer_quant_config = quant_config._find_matched_config(layer_name, module)
+
+        if layer_quant_config.get("output_tensors") or layer_quant_config.get("bias"):
+            raise NotImplementedError(
+                "Currently, Quark models with "
+                "output_tensors and bias "
+                "quantized are not supported"
+            )
+        weight_config = layer_quant_config.get("weight")
+        input_config = layer_quant_config.get("input_tensors")
+
+        if quant_config._is_fp8_w8a8(weight_config, input_config):
+            return QuarkW8A8Fp8MoEMethod(weight_config, input_config, module.moe_config)
+        elif quant_config._is_ocp_mx(weight_config, input_config):
+            return QuarkOCP_MX_MoEMethod(weight_config, input_config, module.moe_config)
+        else:
+            raise RuntimeError("Unsupported FusedMoe scheme")
+
+
+class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
+    def __init__(
+        self,
+        weight_config: dict[str, Any],
+        input_config: dict[str, Any],
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.weight_quant = weight_config
+        self.input_quant = input_config
+
+        self.weight_qscheme = self.weight_quant.get("qscheme")
+        self.input_qscheme = self.input_quant.get("qscheme")
+        per_tensor = (
+            self.weight_qscheme == "per_tensor" and self.input_qscheme == "per_tensor"
+        )
+        per_channel = (
+            self.weight_qscheme == "per_channel" and self.input_qscheme == "per_channel"
+        )
+        self.act_quant_group_shape = (
+            GroupShape.PER_TOKEN if per_channel else GroupShape.PER_TENSOR
+        )
+        if not (per_tensor or per_channel):
+            raise ValueError(
+                "For FP8 Fused MoE layers, only per-tensor and per-channel "
+                "scales for weights and activations are supported. Found "
+                f"{self.weight_qscheme}, {self.input_qscheme}"
+            )  # noqa E501
+
+        self.static_input_scales = not self.input_quant.get("is_dynamic")
+        if self.static_input_scales and per_channel:
+            raise ValueError(
+                "For FP8 Fused MoE layer, we require either per tensor or "
+                "channelwise, dynamic per token quantization."
+            )
+
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = (
+            not current_platform.has_device_capability(89)
+            or envs.VLLM_TEST_FORCE_FP8_MARLIN
+        )
+        # Disable marlin for rocm
+        if current_platform.is_rocm():
+            self.use_marlin = False
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+        params_dtype = torch.float8_e4m3fn
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        if self.weight_qscheme == "per_tensor":
+            # Allocate 2 scales for w1 and w3 respectively.
+            # They are combined to a single scale after weight loading.
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, 2, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+            # Add PER-TENSOR quantization for FusedMoE.weight_loader.
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+            )
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+        elif self.weight_qscheme == "per_channel":
+            # quark's scale is 1 dim.
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts,
+                    2 * intermediate_size_per_partition,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts, hidden_size, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+            # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+            extra_weight_attrs.update(
+                {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value}
+            )
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        if self.static_input_scales:
+            w13_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+            )
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # Fp8 moe kernels require a single activation scale.
+        # We take the max of all the scales in case they differ.
+        if self.static_input_scales:
+            if layer.w13_input_scale is None or layer.w2_input_scale is None:
+                raise ValueError(
+                    "QuantConfig has static quantization, but found "
+                    "activation scales are None."
+                )
+            if not all_close_1d(layer.w13_input_scale) or not all_close_1d(
+                layer.w2_input_scale
+            ):
+                logger.warning_once(
+                    "Found input_scales that are not equal for "
+                    "fp8 MoE layer. Using the maximum across experts "
+                    "for each layer. "
+                )
+            layer.w13_input_scale = torch.nn.Parameter(
+                layer.w13_input_scale.max(), requires_grad=False
+            )
+            layer.w2_input_scale = torch.nn.Parameter(
+                layer.w2_input_scale.max(), requires_grad=False
+            )
+
+        if current_platform.is_fp8_fnuz():
+            # Normalize the weights and scales
+            w13_weight, w13_weight_scale, w13_input_scale = (
+                normalize_e4m3fn_to_e4m3fnuz(
+                    layer.w13_weight, layer.w13_weight_scale, layer.w13_input_scale
+                )
+            )
+            w2_weight, w2_weight_scale, w2_input_scale = normalize_e4m3fn_to_e4m3fnuz(
+                layer.w2_weight, layer.w2_weight_scale, layer.w2_input_scale
+            )
+            # Reset the parameter
+            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+            layer.w13_weight_scale = torch.nn.Parameter(
+                w13_weight_scale, requires_grad=False
+            )
+            if w13_input_scale is not None:
+                layer.w13_input_scale = torch.nn.Parameter(
+                    w13_input_scale, requires_grad=False
+                )
+            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+            layer.w2_weight_scale = torch.nn.Parameter(
+                w2_weight_scale, requires_grad=False
+            )
+            if w2_input_scale is not None:
+                layer.w2_input_scale = torch.nn.Parameter(
+                    w2_input_scale, requires_grad=False
+                )
+
+        # For per-tensor case, Fp8 moe kernel needs single weight scale
+        # for w13 per expert. Use max then dequant and requant each expert.
+        if self.weight_qscheme == "per_tensor":
+            assert layer.w13_weight_scale is not None
+            shard_size = layer.intermediate_size_per_partition
+            max_w13_scales = layer.w13_weight_scale.max(dim=1).values
+            for expert_id in range(layer.local_num_experts):
+                start = 0
+                for shard_id in range(2):
+                    dq_weight = per_tensor_dequantize(
+                        layer.w13_weight[expert_id][start : start + shard_size, :],
+                        layer.w13_weight_scale[expert_id][shard_id],
+                    )
+                    layer.w13_weight[expert_id][start : start + shard_size, :], _ = (
+                        ops.scaled_fp8_quant(dq_weight, max_w13_scales[expert_id])
+                    )
+                    start += shard_size
+
+            layer.w13_weight_scale = torch.nn.Parameter(
+                max_w13_scales, requires_grad=False
+            )
+        # quark's scale is 1 dim.
+        elif self.weight_qscheme == "per_channel":
+            if self.act_quant_group_shape == GroupShape.PER_TOKEN:
+                w13_weight_scale = layer.w13_weight_scale.unsqueeze(-1)
+                layer.w13_weight_scale = torch.nn.Parameter(
+                    w13_weight_scale, requires_grad=False
+                )
+                w2_weight_scale = layer.w2_weight_scale.unsqueeze(-1)
+                layer.w2_weight_scale = torch.nn.Parameter(
+                    w2_weight_scale, requires_grad=False
+                )
+        # Property to determine if AITER is used
+        if self.rocm_aiter_moe_enabled:
+            # reshaping weights is required for aiter moe kernel.
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                layer.w13_weight.data, layer.w2_weight.data
+            )
+
+            layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
+
+        elif self.use_marlin:
+            prepare_moe_fp8_layer_for_marlin(layer, False)
+            # Activations not quantized for marlin.
+            del layer.w13_input_scale
+            del layer.w2_input_scale
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return fp8_w8a8_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            a1_scale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale,
+            per_act_token_quant=self.input_qscheme == "per_channel",
+            per_out_ch_quant=self.weight_qscheme == "per_channel",
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `QuarkW8A8Fp8MoEMethod` yet."
+            )
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        if self.rocm_aiter_moe_enabled:
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+                rocm_aiter_fused_experts,
+            )
+
+            return rocm_aiter_fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                quant_config=self.moe_quant_config,
+                expert_map=expert_map,
+            )
+        elif self.use_marlin:
+            assert activation == "silu", f"{activation} not supported for Marlin MoE."
+            return fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                None,
+                None,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                quant_type_id=scalar_types.float8_e4m3fn.id,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+            )
+        else:
+            from vllm.model_executor.layers.fused_moe import fused_experts
+
+            return fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
+
+
+class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
+    def __init__(
+        self,
+        weight_config: dict[str, Any],
+        input_config: dict[str, Any],
+        moe: FusedMoEConfig,
+    ):
+        super().__init__(moe)
+        self.weight_quant = weight_config
+        self.input_quant = input_config
+
+        weight_qscheme = self.weight_quant.get("qscheme")
+        input_qscheme = self.input_quant.get("qscheme")
+        if not (weight_qscheme == "per_group" and input_qscheme == "per_group"):
+            raise ValueError(
+                "For MX(FP4) Fused MoE layers, only per-group scales "
+                "for weights and activations are supported. Found "
+                f"{weight_qscheme}, {input_qscheme}"
+            )  # noqa E501
+
+        self.static_input_scales = not self.input_quant.get("is_dynamic")
+
+        self.weight_dtype = self.weight_quant["dtype"].replace("fp", "mxfp")
+        self.input_dtype = self.input_quant["dtype"].replace("fp", "mxfp")
+        self.fp4_dtype = getattr(torch, "float4_e2m1fn_x2", None)
+
+        self.ocp_mx_scheme = OCP_MX_Scheme.from_quant_dtype(
+            self.input_dtype, self.weight_dtype
+        )
+
+        if self.static_input_scales:
+            raise NotImplementedError(
+                "QuarkOCP_MX_MoEMethod with static input scales is currently "
+                "not implemented. Please open an issue."
+            )
+
+        self.use_rocm_aiter_moe = rocm_aiter_ops.is_fused_moe_enabled()
+
+        self.emulate = not current_platform.supports_mx() or not (
+            self.use_rocm_aiter_moe and self.ocp_mx_scheme == "w_mxfp4_a_mxfp4"
+        )
+        if self.emulate:
+            logger.warning_once(
+                f"The current mode (supports_mx={current_platform.supports_mx()}, "
+                f"use_mxfp4_aiter_moe={self.use_rocm_aiter_moe}, "
+                f"ocp_mx_scheme={self.ocp_mx_scheme}) "
+                "does not support native MXFP4/MXFP6 "
+                "computation. Simulated weight dequantization and activation "
+                "QDQ (quantize and dequantize) will be used, with the linear "
+                "layers computed in high precision."
+            )
+        else:
+            logger.warning_once(
+                "The current mode supports native MoE MXFP4 computation"
+            )
+
+    def get_packed_dim(self, dim: int, quant_dtype: str):
+        if quant_dtype == "mxfp4":
+            assert dim % 2 == 0
+            return dim // 2
+        else:
+            # FP6 packs 4 * 6 = 24 bits on 3 bytes.
+            assert (dim * 3) % 4 == 0
+            return (dim * 3) // 4
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+        )
+
+        params_dtype = torch.uint8
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                self.get_packed_dim(hidden_size, self.weight_dtype),
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                self.get_packed_dim(intermediate_size_per_partition, self.weight_dtype),
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        w13_weight_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size // OCP_MX_BLOCK_SIZE,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        w2_weight_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition // OCP_MX_BLOCK_SIZE,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+    def process_weights_after_loading(self, layer):
+        if self.emulate:
+            return
+
+        from aiter.utility.fp4_utils import e8m0_shuffle
+
+        # Pre-shuffle weight scales
+        s0, s1, _ = layer.w13_weight_scale.shape
+        w13_weight_scale = layer.w13_weight_scale.view(s0 * s1, -1)
+        w13_weight_scale = e8m0_shuffle(w13_weight_scale)
+        layer.w13_weight_scale.data = w13_weight_scale.view(s0, s1, -1)
+
+        s0, s1, _ = layer.w2_weight_scale.shape
+        w2_weight_scale = layer.w2_weight_scale.view(s0 * s1, -1)
+        w2_weight_scale = e8m0_shuffle(w2_weight_scale)
+        layer.w2_weight_scale.data = w2_weight_scale.view(s0, s1, -1)
+
+        if self.fp4_dtype is not None:
+            layer.w13_weight = torch.nn.Parameter(
+                layer.w13_weight.view(self.fp4_dtype),
+                requires_grad=layer.w13_weight.requires_grad,
+            )
+            layer.w2_weight = torch.nn.Parameter(
+                layer.w2_weight.view(self.fp4_dtype),
+                requires_grad=layer.w2_weight.requires_grad,
+            )
+
+        torch.cuda.empty_cache()
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return ocp_mx_moe_quant_config(
+            quant_dtype=self.input_dtype,
+            weight_dtype=self.weight_dtype,
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            a1_scale=None,
+            a2_scale=None,
+            block_shape=None,
+        )
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError(
+                "EPLB not supported for `QuarkOCP_MX_MoEMethod` yet."
+            )
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        if not self.emulate:
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+                rocm_aiter_fused_experts,
+            )
+
+            out = rocm_aiter_fused_experts(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                quant_config=self.moe_quant_config,
+            )
+        else:
+            from vllm.model_executor.layers.fused_moe import fused_experts
+
+            out = fused_experts(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                global_num_experts=global_num_experts,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
+        return out
diff --git a/model_executor/layers/quantization/quark/schemes/__init__.py b/model_executor/layers/quantization/quark/schemes/__init__.py
new file mode 100644
index 0000000..7620d6e
--- /dev/null
+++ b/model_executor/layers/quantization/quark/schemes/__init__.py
@@ -0,0 +1,9 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .quark_ocp_mx import QuarkOCP_MX
+from .quark_scheme import QuarkScheme
+from .quark_w8a8_fp8 import QuarkW8A8Fp8
+from .quark_w8a8_int8 import QuarkW8A8Int8
+
+__all__ = ["QuarkScheme", "QuarkW8A8Fp8", "QuarkW8A8Int8", "QuarkOCP_MX"]
diff --git a/model_executor/layers/quantization/quark/schemes/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/quark/schemes/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..75a62bec0ae21c218d8efa70f388e53c1d96f684
GIT binary patch
literal 450
zcmYjNy-ve07_^(DDW#z+F90G)#bbk1At5BB4*ZFsD2o*u(^|C?<2cZ;G4lZIY&;8Z
z5UC4HY)BOg6OKzOzTtHD{oGl8^Sma|#q1|KfB<|{Vp+96GVf{f3}O&N1~?2Mtay#p
zxD{H4Tg>K8=ooIZI(I`Cf)R+F7Z^5*y6=8!Z{Wjn{UVR#<m~7ipIoiv<#0?m(XwTx
zgWxbY7J=5@O7{~L__nmQi*zceS72#4_1DVQZRLv7p}>4<y31B(tj%4yvDmr~q5$8B
z!1$Eye@&`GjB)8=95IIRE12sD@I#Q|0tqTQDv~3jI@7$nA56LgF?x+ep~h)~?ik~U
zr!ireOvx};sYEO)h|G`<NfdpE6xDks5iMSpA&hB46~=p_C>uR}o-=YF+d8%SvTRes
bmjxmGZUDGF16wn&GXuNt&Hke+Jw5ydKGA$P

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/schemes/__pycache__/quark_ocp_mx.cpython-312.pyc b/model_executor/layers/quantization/quark/schemes/__pycache__/quark_ocp_mx.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dd5d669b8fa9b3ac8e8eb1a000e890462bc2f001
GIT binary patch
literal 12598
zcmd5iTW}lKb-Mr-Z-4*+zC?-y_<|t5L{U$RrY-Abxe_ItvMXcK>_FHh32O1s?ouKd
zs8%yhOC_F)Y?G2s#}ld_H9b-r`pfD^r*fxFG}9kKln2NTJy9mgbo2+C@}$j2+jH*j
z0w4p~mfMeB5_j+O+;i`q_uYSUx$G1q!SsW8yo;iKjTJprX@!k|k)jqTj^b#6O3)FS
z#<D>$B#aRwDH{b-f{8E*bHq&QCc%=hMy#aF2)2j~#xsIF;fNV%D&dT{NRL@?C#oV<
zq-+s932($p%2uH|;fweZ{)nH{Z9+|=Hd33Yi`0?2U8qkqL>dy?BHKvaAv7kMB29_y
zk?o}J6q*w)krpVsIJXc;1S3J3GElsiZ@opUdy2I23|Gasj~Y17+ooIEMk5_I+?iMC
zOoSpK0;^iskqAe^r0f%RCb}YBr0f^E6Fre00=Gk-FIr)CjnJFui}WRSMRvi+THZEs
zK|j#alVe7WTpjdrr8d39)jy@Z;VJFg_;#)l`bKpKr6<SCSSX5Xddf_-x2kgQsGHmV
zHWS&yF;CmY|KT2<hT&K5?djMz1NM92z4ve}{GKt2-^;g52&J>pOSc2J7`2RV^902O
z-=?@$K6neL9#iDtG}A`$`}qT-hIUG{z*}Xe=tx&2{3i8I!xd`E_$GCQ4!1qV!C_jl
z9*GJ<^n$=+`M4O3$?;S&Y*3h3G&asFmUL8<<52;6jfa!d!|*im$;%Qv9r0vbW`)$)
z7%##E7sp?kj3#9^F*TarqxjUyrpB$K_Ej3S4@P;<968ILKF_{%>dcWpU`I|yjwvp!
zX#}uJ@Gz$SgqWI4zluwa#G(R!HY!FFyv&P=?`$-7k>@U-I(53(2>5zplcLB2f@vWt
zkEX=LV`MMf2mlc;s(=-<$jg&rGKR;aCj%7lcsE4I7ARR`ONyGno-IjduPIt=r778@
zcTbr0Qt1g}Je$T?OMQB2g!+IU4l`mkG$@w1#EPj{Ld1be;0@R!``Vc!r`gv>j<JVN
zo;&s$d;IJk_VCDQ_QbK%rxjm?5g$++2>W;OJ~@%@OUKhaa#S4S<({d@{Ra<R+|Tz3
z@e6(FX?Z-A?7J)oiM~XN;{}$V;$xF?O6(J&)4VA4kry1Fi6X&ZMZDN2k(Wcd#EWby
zmIh+zO;0PW8rp0$4ljrW`e36{f*s=%36@VH^>Jb|;1q_R)DPJ;>WP`MHRP;;tTnJ^
zZT*}w*gDpoo}9Bk>+JvB2(?F8YtK5{3l<Y&7MpN7t+=J}$<a}PXRq+_v2ht%Tx69f
zta$}~(BR{ylhH&xrV=VkwgJrzTwLU1GAr_9aS5@EO-gbq!KTtcY&I3ho-2Elnl$wF
zPYvv5NB5|c+3|S#xI#}UW_3};sXkc==~8LL7sgIXe1+XBw$!A|a`JSVSFBU&1SwWd
zDfprZ?fn-}-2#=NCZJ(!;^+owx@yiC#kVrdHLt7*0}94-hTFzl8l8R%o>whbtw~b`
zo*Cw<Rn~+F&~o{z+5#CfXPSXB2xgcGIgHNGPsbo*nW#X)8Pjd^EsYPZ+GK~0ea4cZ
zGuDh@!lk#Ao*C<eyHwLlx<bs@U{{t~8pbpQbt+@tMvYLg`zqP1kIzv0jA!1t<x6(?
zzdZq85kLI|{CZ32nK5N-<vSdq!q#CCU*tKUR*OdGk6WPOaR4%)QZvV2j>mX~Ap`}Z
z92e3euZ;{l6h<140`<1TXoUezj*Tk}pGeEoVjnb#ZP;$Q9OtiyyRaU_EP##lxv*XA
zz-lLEA<TAQh72q2giN7NE5<4I5@wP@PfK=a3>1^N9mmuWF1iwz$61{R3HOPIpmz{{
z(tksCjVgF3m;1(v>nG+8Uw>tm{)MA6UsbnS)$*uu*NXSf(Fcu(=dE+b`H_dUb#umi
zZS$P*iIwu!E;!~Ld2jXHYxA{>FU`A`s<WQ9r8nOH*3ECN1aGo;M*b=C50QJ*PmBhy
zd-gEQaMk8LzPUFRN0z#CtpnNCft4d4o&50RTI<kV`kwrS(cp3y%#^=o?zOq-+}_z!
z4+#?MjlIj4)*Ab_qOk6%AqaSU3$}UNVsPHMIQkReU17QZ-PB6#qlphE?%B%L-nQ7b
zczH=$KK0Y#4~FlYynE?^^JL!VpM9A~vP~iY$()FQx1sP=>Sqi^gvM+zyqLh&qqk9i
zLj(I(>NTJMnWz8GoMB*o1yKM(L=!4Nh^FDk{|$*yW7wcl3zAUSBo4qs+=JO}%t)(w
zEA1e~ln6+|<y2Bp>7?l?bi$5CFY@9LjOO4cA;o~A@KBzb8{fJ9oxHPqHhN?1`q*4-
zPMj51o!yJae{$;GQ_J3W&t#q5D<|(pe?I>4IJ^Uoy#V^ePEMN8UYJoVsWb~}0W2OU
zj7}zFiZd}OM`d1OK|4x{4cBJliL{_Nxww>$%CT|wB0n7iB#H@%9@B<Mgf&k^XpV{)
zIGQ)|CY~83r_343YojL4__iqmf|j>%3~z$E8R}Nv##wj^Sp3#9i{H-Kc*jJ&x=49G
zv8}wOmN^S&2WSp}=6<GmPQHq_AU$v{z{w3O1}Z?W;=QAG^hYAq;D`91X$3F9L`kwG
zan(<0w-dj>Qn`23%K5-{_D|cxHJUA_+KP%-)5Ao_uu__jDV}&T4H~!964R)fpaR~9
z%4sH0bYI13x}le$SWUgciP2CiLIm|ju|;mn7@$^Ew;7rv)KE$JaYoLht8AEqSdo-5
zeC;_!H7pmE%|s<7Lrr*e=%pt}fJ(|&+a+LBQsEUxa?C~04x*1U!&s*dS1!^hv=-qf
zUy@OUkpvWLy=^Pod1)@{B9i1*y;K>?isxzP96Hq7PQ6r)1;DCs4%$APa(ih_ws@Y&
zU2+L4)P^KghV)EW6;}Y$s7r@idU7t^sBwa<XKVEySh-s-m!6_SMj1>J=hkO_mzL4Y
zCTRi%^_Ha5wv(Eor2rUMPdlIe6pnzX2#hGc(-JT^K^Os87T>)Lbv5a0Krb5aBmorE
z9b1yrD?g_<{fSvdxlhuy*3#Z!CMt$4Y2w8#4N(1SimQ6h@T?~x)yOaDuqKY_rP7o0
z=n%o7`&wr!p8c{@m8!n%M8*EEz{Xn{HtfB+GF<5Ky~mXHFiqiK*gve;(BT<FXPYQ`
z#W0#yOz7k*3~}`zqg;550_QO*a`cvxlL=mof`zF#I6j$5#FM0ANK7fj;a0`3>h{>d
zH`J`bne(rr8>vd~0NRNG2~==A79dhPK>R5w5SId)D=$n3k|{ZWS{Z@@Ntx$*17`(3
zD)E6-nokCzNf<0m^1U-}1w;r>fQKgqh?^XcQ-KRSz=Z__a6bbO5CB-o9zHP%;Q?@I
z1L*Yzb#Nj-%8NK@T$a<)bA5edfZgPU-dHNp2M&0mk9f8OiUv~!!tru6E=avIYv;y!
z9qoV~fe3IZKnS-WO{UW+Q4YXC#V_-L)91mB@56jw0G0riMZon2M&blNKv>mn0WH9y
z`Qfl*E`Twd%j)v49(^^igPeAJh9{lH@q8FgSP<|Oz&GW()$^7COCg@*qhdgH^R?w+
z!FVz-4nB1NT#8s+f)nbUiB#N_winpgmu{vzaA8sofI*k!1xY(O)Xjt}o}Z~E=xQ2V
zYy0~^ROHEdP4n>D;f0R@nW?y8xaa@b`GnhuIjndgy25h&XmnE0wnrQ%#d1jvn25)L
zZ^RRjDHf3j;s75`k0Gc`0<pH@(TG(z&@(DRaH5=%Txz@pf(RHPQ(S2h1p}Ko28<}8
zX$qFB7NbK0S47K1M3xm%&x)wjm1+%Q`8agX6(j6H@u}>{s@SOPsQ89c^2rhh9uq}a
zjzp^*Iwe4;MX{)y#gjmfYW$ZROdHF_gs3F3tYT$}9S$Y48e4>;h>FR0a*RzSV|>`C
zm?T~pEuEQ!_7=Dgs_y{PNnDbh@s|mcUcEH~V<ij*kO<SZmR!TGY{Ra#hTXHKcij29
zR(Lq`L8v{jHs=Go@VWhAQ_u2PwrO9kX(-z?bVt7X##+-U>}kk1b}gUCHtxwa4rUt%
z@0`24Z>{ka?5TgWeP?d_q3rfUc??rEWt~lnT&}q<+uXNdG&I|B%(jA+f=)+M*3q<N
zx$g+&`*+VCec)_f5A@6){lvNbQ82u6_-_A$;4!T^wC>ryyeHQ+nC%+Obsf!i9ld+*
z-tM)oVen~!ZXC2-gV~sMG%jAb@913bJczK`9(DGtd)ij~x&Fi1{=>QcliB{0_u5y_
zzP8ps0<%M8b{ovzaUd5ulnouab80Pga<%OwVj6hpsLDCo?mODnt2+t?+PindX!N-Y
zl+opW;-s3obB+76jr-Rc53bf7giu|*y}0WoOV$~>?>wQSeb<uhI#DoEHrG2&aKXEW
z>9wvixW<l$RlXaU?`Iwa_pAm7|HZZX;_Hv9JMzA|g`xSOoNs5=w{x|+3;ee3S7^w+
zuh1Jt6XIYZICuiNs;+ER*Mq8_b!T<X*^+g(6bwf1-X}%|2Dm9_Q_c~}IzkT|;WFgz
zJ3}SR?suJdRGLeB2lIn3<_1q?2T!dYI$faXVY)rvz9ZMZH`~5<wQV14fB)VB!+7_8
zVYEP~fT6lyreSN&oy4(Jj9fe+o&$Q@<YJ%$fCRfS0~y5gz&RwwauqrRGr*0U5$lrS
z73#a-tV0_RE5x-7oar(p)<6r1!g1ybWAz>~qZFm)EExl+ck6pbUA=#o4%>#sQ-FbZ
z8Z*@3LzpRcRO$Ozes^M^SRP31evBwTMu9PN;`OA))*yGw<PYkHa*jipr->jqi0;4`
zXt}cC&(Cy$v`#_9ejHdEb@~-Cl^p8^-B>|?hiUNwEFLzBad?OqF~g(X%=_-mYtC$Y
zIzB(c$(JCzM&%u~i=q3DVBS}|=$+rc82yXERcFiGAl8HP2WHRYUG=L?2ePgM5B+t}
za$@n){PRnP@B2DdogJ&bj=b8sM9&YcI)gy8$RTa{w%(;4Aevpl0tB3bC1O>h4mGfJ
z41xrk5}^w`<OOP)4jYCa6TQ#~4G_yS#so>i8JeK0#?69d#m1uP=!Litm#1f%w{CcI
z|0gh8LIS)-J*@JoRLT%FKODoiuO}N62rfT_9Nb{Nz2bexMA4-!4#OBR>Xj|2Qf!!`
zZySmZ8C~W&QxkeHr3{LA=o{fubR$ckz6LJE9ZWyPxe*`3KEEdHs|Il9D!7;=E^WMO
zg5ILrSHd!5<cuWpZsM2>1ctOSxXHJ)pa6l3#Iz-GHV&L#&V(*C=hR0})NL6CRox9E
zkSgMkDF!318ot5#gM{1kj*I8|^{M14BV#;@qzuEkZo74wfgZi%>r*GQ1tX+&lBT~I
zt$$4#s1&68vNy5?%i_6#TUIrE97KXk_i4aAi*jNw?19Mh$4F@6FlK4Y@U0RVFQ%aM
z7#UVP0~v&Fr?HF~fHQ+Afa|ERTeVsZ$)sW{UZ9f5zhdH|a9POVq!4Bp_D}=8d!Yok
z#k>enQ(m#hQb{>JHkq1~L=5kU`ydOORq1^hhx*I!$XM-;LNQ1Q_$3v$-mBi`{a%E4
zdm1j)c(51MaS)>&#Vb1@73Dyi%!JG3;Fk{l1>hom55(#<YQ3&$VQPLVR~OFKg_k>i
z+WkRyZs(!w&O`V1uGWRu>Rz2?-f@B@bYt-QgX_W0_v>%g=Yj*-;6UC}lk>D@J*_!U
zDC-HWOo9>6x@Utjw7O@Hed25etIFfgRrTGk>U$XK&V>$ULkDxAp=@Yq)zhAD=*cw<
zWE%$N&2xsim-3-QxzLN*(2IG0?PBZv%Zt&a>ZR9~`)~f?a&*PJau}?~9n~-mE+%#i
z=0ZoZp(A;?p}4ddTzqwjUg}?pk`e!2-88@RFT24e@pfoK5$N6OyRWT<UWWPW9XsDY
zfAf5<V}G_|f8M|24g*Mc9sr~}tLK;pp4Nh$Y7M>Lbh9ZJ+?@^Xo^!7U`&Qg{ryc~)
zLb;{=CsXfE<y!i)E&VIKt7l(dZRuZYd1H?Gk@L}J$PGDvXV%}D^LJ(aT{(YG*58x!
zAISO-tofh2*HOOcC!SVSCDj5EqPIgnJwR8SmB4$IlzPqWfC`H-iDJLvgkm%SaRhRa
z>e7e@seu<aU8SIALqBKZui%xJ2Y55ZfDqh^8ZtCn)Xk+EQn?t2t)xBRHj|n_*jrM@
z2<;Ulgf7A4B41YupxvhRYZuM{VPOa%SJEOG=C(<{E4*q2xmrPvg9fqcYeI;ss58ED
zS4O!QVnqG(EcgOmWjDW1!OH^ooSOAPW5~%0ADO6EN=3N^lH-rzSQVS*2FDYMT_X~(
zEfsso&J_O$#);Q4>x2w0q;R761I*sRjC7&w3Of~}G?`G`;AO_)qMp4H=j3ro#LMHd
zTP(B@#Wx{Sm`MmY93TrQ)y1y_2<72tCn6EL7z2g7(m2jSIVb)pW`Bm+EM~a8V!j9-
zE!-(JXnR2N-b~R1c_LyfUZlEXA`fv7UHWY{bT{|?CoCxaGi2cKR#P22R(A}owZE`x
z4dz?+&N2_IP4J;bb;ml~o;J=m<~`v&h$>GT+?=kq58mN&Luax>XVyGt*J~RWF3w+k
zVlh>_K{V9W=hgph&ADye*=^nVZJ{SMj%xd?xlm8p-0FuLOZCh99$0t73iZ3nSJ?5O
z`}wTr`HC<Bj@MRipLG`eB{<D1O`lkYRLi*oPtbHB9+hGyDC!A$lh~}631<VJ=sjgm
z@l9wiYWq?LP-ZzSt)sGi0+t%aI=3X9OTm(>ECovPg^`QjJ5=I$xPUcf$}U^wqSZKo
zL6t43(xpx%n*wFpGwhM7bjb)iD~9n)Xy~7#jZh+5mtZ|`@DRU^8M2^iDD1)#3z<S6
z2SbBI7*#XFm`Y3V)d75GM6O~>*TUuIf_j1cBb;yIF0oe><`O)ne$Os&Mbl|vy2uv|
z<#xcPt{_l}^ydH%zBX_|7zUL(1RHX`_N=dc>2>naz~0=zvFyOHyO(}`<>M=BzB98&
z^Zt5Oku4uy^Y_jkTle`F4$L1|JhrrF*}vxNU3K<8^3^XKoIj{WEe>XV2lE~;7zhi_
zd1uj1AUw7!>)8c`1^2vr!(sMAB*W}-t0Yd&u|^!l?b=xu0@0K3MH8zySq%6Icufs8
z6Bm!kAj4!)MB*2b;1wgtC=q3r;vfMv^siH#IEe!WFv9?tVm?hkir>SENr3O2RDp}E
zA^wnzIL9X?h~vG7E$D%&nBiv};xRq@4iqF4oaEb7!SFK8xbwk|rP%Vo()i8hf{`>F
zIdRW;Z{(i!<Dm`GP&j9BG47?d0tJtiBOCZAG*f0TIL%D;(!l2wJT{DaL&4n4RIlv)
z=)i{uK6>H97YY<q@5&qaD7;8_GA}%=^52-cK6T@*>u(hpsDrTsIE>u16)ae@Qf-|D
z8<s$3HK7D6II!lV>H`}tES;yRj__wTFXP?>3hDsL>Af*{eXwA`nw5g3gzLiMxvV=_
zzzG1;UUj4CdeajJ)YJpQvk5<^RK-$ot3bY`lzO8VVj`X_d_$mpUn!B;E7TzjE2mO|
zBr?!XVzG)DY#6X%)pv@oO!1LVb$XM@UNRmGqNt$0M|)Yr0z&vPW+<K%2Xa)e8bK9p
z*m97xZ2p$7R}J#_0$G8*u71ncJ1OIh1-aW{NtpzX)%fr?0J2X5f;NyyV#&`v8zx#@
zTSWyGtQrB|UJ1$;b&Sefag%}ior|Q#rk${5_(o9+!21y@@|!q@GfWrYrI0|i;w2Y5
zy&$A|H7A8QG)i-+T^8dq+=i&12x{LMiUEXE`+I}PL6a}5lv;w8df4O*Yv<I8GZ`|I
ze3GSpuVuY33ihnrzfb&I=vUblKbs<-!-z+4jsv3baEC+!@QVAe40yo}3$F&`3Da(7
zWW_qDik2bqA7MUPywXRI7mPGbe_^HQj!&uPUsCO#QnkOPoWG=6R;iZXP&J=YZND`b
zX~S==rHrD_)1OjZzo9yQW%JLSU$Zq|GlK#*SPBM)HZLFjoPr0iwboGZ9H;5NPffc%
zH4T1hdhR!-7k_05Kd^ND()t{*X3y^Yj-H>oKXB)Fbbkg+T9bExd<H%=LiwR8OOe@Y
zfJ1?)g?Ry)y#_e6b0;!;4KSv^Vd2pHp(TIT*MS^g17JZgch7f26GZ3`YQe3s??x5Y
zKoGQc=DYi~wLf#&8GCVIC>Ixoa@oRIvudylHmunZ4F{H-o6tajWott1vwDhYCN@_n
zUsIQ_?#<V9<Z5<jYj%I(Ff-;SwO0(Zd#>vX3ZMT`uu*Wf-(Iz}gOH^A@;iH1P4Hj$
h;~soreZP~?T>f~^kr$4=K>h0rj^i%l&zv;m{{!+?3}OHP

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/schemes/__pycache__/quark_scheme.cpython-312.pyc b/model_executor/layers/quantization/quark/schemes/__pycache__/quark_scheme.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2f06e5bcf6aee016572bf0057f35a94408b23448
GIT binary patch
literal 2321
zcmb7FO^6&t6t4c6+1c4Y)+Cz5HB?p+2HY7%B<o@fNtBR-i_wT-2sAa-H8Yj%KdY*D
zcjgpi4*@Ucv{&)A<e)hPPhJHtdJBCLauPgDb|Zo(Usd<~WRomd3{~~|y?XWD_r6#2
z>)c!w!3f-M_+KT29%*4XKsMuG6_#D(Bi{;8Xf>_SZrYZX?Z9a|zSFUqu8poB-`zpJ
z!>oHwey~~U*|pN2TBzBXbMeyUY@W2F5`?Odsc!7AXEWDQA~rs!T^2H$AIs-TAsp<(
zW*0Hkw0zXGeXHp(mz8{*mD{%O?6~&|!{OST0xd)`k}DvW*z~RAh2g|<>*Wcd*!pF#
zJ^7sPQ!n^l=}#flF8kBtSekSH?@q|1I&pfwSE<bijeq}66~nk#poVEcq{OLYK2|aI
znWTcZ7*<_|w;1nq6{dm_#p4K*$j9wiY!Tt(1Wp-8aU1)*-DZMC3V)T7Nb!DdE=>s}
zmT8j2Lcs;C9yZ0Po0C~tFqMjkS`*Ody)O2_JWRVtjZ|M-HLL%&IjG~m!W0g9#KSa%
zpf@>Xn39CFc)(RJ_pi<NtnAo&tgePh0Cb2Th>wMcMa{|_8c3;c!~gPz3X?{{lNCio
zhpCnA^xXTa8|PRf;H^f|171aq%^(OHVeGTOW7~|TDi)1^^q7#1$*i>?HX23lx#Z<i
zJ?UjHfqM_)_Qt{X&lpT{!q%VFFKRS&Pu)gOX3@g(Z<VtL8kJ{YThNBjh3$(GY+oKK
zDU{QcIw3-Fng&GRB3OJiN>U{?DO8tB+)g8^Sx_DM64P*D&B<KJf_CNtbTTV%06RKT
z>JkF{ViwkH-Y|%HIiF<z^kl+M>rR2a&^ZX5O;$1pXV!M+wm6aN)P=9ZaU@kp2h^ib
zKT9K%<|KPHm0y(mb)7N%wz|OUk(V5q6`3%~+nfULOy%?XW2smo8yieSECAAX<1_%q
zGfa{s;LNX&fm;K#Nr+8uYXGpI-Fg(&KZ*S`fUe`JYvK~D!@;S5#wn1~9XN_c(>sPX
z70`>|j)A4bf(2|7dN3~=)2c&t9i1<t*j~e2S9*BDM0MCmgTIFLJict4Pfi3^Xr_u2
zdeV=ecm*b@3#KE@nJ}lp=#7YQYLW;~sm|)N1?iV^(i=ul8x+HFBmw&EQ4*I)5CDjz
z4G;|<wIC)wk2<=@G}f<!VulbT>cNx9NR%c}1foVxBF22v4Kbyu7{4%i^7c4+sY4tl
z{8}Pn%A_2o?3p0E;`V-R5`ZI3-vOuN#;7f170-*H>YkTXJrCX`pbqS3Jr6h;6q+f|
z^J5C1XUr>~|3eC0lFZ?e5_8(A{u9eehJ~3OMOiuLVOGA*A{h%|TJlve+RK~LRMPyF
zm}v$y@_U$e&|}*vRR&d5UVK<OHn82&@^|m<BUla`R6ee!#eoarU>3y3cBxPd^lmT@
z-v;(vY5C!a)4MnB-q`i-dILwxwfYZBdrSHL{H337{&e$~kA6S@>AqGP&*s?RjBx<2
zethr2>iyLR7w%u!N5ebJZH7U$a^{d075arTP>5yNWdIeh#PjmR-qcF{0_C)=e2@eD
sp{T((O*@HU8aS3^{Zm2K8;{WJA2TQKG;U8lDZgbcfBX912o~evKSDfLYXATM

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_fp8.cpython-312.pyc b/model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..253bf975844e99134e7ed96784fa78593ca9c92a
GIT binary patch
literal 7144
zcmcgxTWlNGnV#YB&f!JW#ga&hly!+H+LCPfB3Fu2HI@^{wtP_%yL7tKF=r%E8V=br
zqu4Si^a4M~Xo}dt0*<jQqF{rq3maHJ^uhb)E($cjzHlsMNemQh&}1L-#;g<+SfFVC
zbB04wDitJHY)8Vmpa1;l{O5e%e-8h{>vdD`N!FjI#ZHR)3}?*GR!MCA5)$_*ff8tm
z%Fs!g#%YUW$uLPKV@+B~o{?-x8<blmd&ZG;kTRR(%(#*+lD13kj3?<KX@|sSyh(4y
zm-J=)Nk1ubN`XvMvMCcx1~bjcW>V&oS~9K4R!F<&=wzFPdW8}^w;?CG9x;Y?$$iUA
zoc#i4;<WC3nU^H~x+KOeIx{IR>(&&nsMAp6y2v9wBdQ{TjOWr4j}~WA^I}GXtos#|
zUCPbO^Eolj=$_NLv2$rz<k5wk9+tBx!%OK~A}1cnjLyoOnysXkZs{FJ{LvCGtGN0`
zTAk-I{7p_t@i0E4cfLH&%d#lJSh6~U3#%&VE$6d>C|wcLbMtDgbl*i0y)Md17VT^f
zDh5(Z2#K=F<s@F61)X%3%;Cz|<QV9iG8V%KiA5o~HAZ8*iBysnsH8=pMMkuWwpmLD
zR0@_IIp&swqGqjv^|m!>7af94bk14?`)%u^isYnAXc8Py>lU1%XQ91PTo*0C{@MKr
zF3~4C$#`zjDR`h~*X}l;3o8a@-GUdSH@PSw_^n3pfy~|pGW~m$lbOQ&8uprX3W3|U
zWHaokW)uLay7vY#5|_%#v*|gVP0P6@wUV1oRW>0R-VPzoZ`mz)*;QD4<5MATe0h4o
zJXB^8!~*@O()LlMWuD@yk_8LotY&k8f?QQb-tyBkb>pyRtGuP*ILz*GSS+n7yG~L~
z<HnL2X<XBaT5y`0)MA#pNh3Jwd1}GjptVYXjl}_qT4C}G3aCD_VgZ|A*C+ey>Vvx~
zAqz9A%2)T9^)PA!ouIVEY*C9J+v@C4T~jq=wpa+8sak9v6BylZmM&9q`?T)(kwS3h
zwC+wToUknOnRH6`<V3`!41fTv3h*hFBT&LADz8F=)>_FNMkh`o@DxCJnRP}{k<QGC
zs_v`o&&nuz8w_HI;Eb(mjIMi)oY~BJJ)4yfUJ^jYsmt8!7tT&i>u!>qnx46E8R0{V
zT)2UIHaEse1QB(cnnkI3y$Ocq1aX#Mk|0)>bE59b!nq*HxK+0*qBM)Jbx<=I15a1Y
zE&{mW?G}UYe;0?<Ol~-r&K*>F1o95vTsnSYZ1K1_ETyjx=a$v^tUUa-BxQy(7%VyQ
zrkGlS;fE!DSwzZk1$kk$pdDn;;;=DSQiT?|8)N(!2f7dCmUSlw%aK+&?pA9(ZVs8n
z*rduQ5d4JNwo}ob4@Vz*ivuULffG;T>jS6OyQWsH8_rPaz#$y>l;Q_*+*$JMD|mV~
zhYtVt$kTA~#2M|xnU4;vpSZF<bhR*eb@kK+`@&{---oG(6UD^1mKc9}W<7Cwz55kh
z(^a-pO|8X1LJK4cY~ndP^Tb*l`JOiNy=NJ1WTwneuHctWs&D9>*NSZHIUD=!cZ#F0
zYNM~>8t;a4KPVdNFGaeGkufbYR@&cR+&`i1pV+oBA@{2F9sjnI>WmgUMzoHR^^U`<
z)?fIxV1krxN20of<Wv=)a4CEQys&xhQ_FPRGX2H(A^jUnt4vB#6x=+9;FMB&5Su@f
zmbnz4<FBWsw7PsNx?^4cw!vZOr~t{p3d6($K{N>IR266-gLgL3Aq+~~$3OuEyFY=(
zK!N^Utpel%R(aQF9!K=5iiad$o)#<uW%>;(78P&qN=+k30<f+gezPUOi{&w6%6JQO
zSYcMID;5CagjzlLd5d7J0}-05LXX_uSn7%u%B!$d8*PPA@%bTNp2_1@jR4DD)d<!T
z^kM3BVHT<&XiB0ebA5K{S%vVr{@@erm<y&k^2vYR!$J;Xq5s@-M&HbGC%=*9n8xeb
zz)Ch^rFh-U_O?=6W2ue2o)sIcLIcl7t&&6|kB6*KFmGGvHdnJ23r@jh63~jRPT&8l
zC2f0JvR&;l#~0j<t@=;YuPmnf@G~0P^qM_tF{(cUbR+U!c%jzXOzp83t7m2zZX5Z!
zGX%8i0jeU5LY!sYV=|rLc-sw1)Y%F(5{Dd(!g!|v%e>fUPa{#`<`6H$8FU0H&`}6<
zpOl?TgQE_<yr9l22p^m;{sP|@82fI8-;fvO><u|q&pa`Mb7Jupge{IR2!KKgCLV59
zhD(A2u#i_(gz)*UjfU_+B3dC2P94V`X;rrhJn$i5U%Uh;hRdyQr^Oq(`%PY25~mQ#
zA{4>J4BR*3cGQp4HbRSrKs+VggD)dDjOz%QpMpok)Ele7cqE6iDN#{4W1$p|pN0Do
zCuMmdEzjK=+=1v{+ZHRY6kwGA+?^B~D0;dyPuJRk=boWWf3)aNX#T{8|KMg<-<tUF
z2Ty@dC+~VTM=z8@vG*q)Oq9C&i`}DI_h>1W*mhWt1hv4(UHf~UwQFTJ)e<c<4{i<|
zdXo6)jg5hsyHg*x^nKdZQ|ubix<>ALN*!JAhaZIR+CSevUfLHaMFvXI-ePoAi;jY*
z9-qcWSI@rJw#`!EzO^@hef5K@|D1ffv=N$GoqFfoX7}L3@n_;j_qo-nj|n6Df<<pk
z^TyWBKldIgwRYZr>)u<dr$66&5=SnULfyM2a1<tR2qwU;E$%e|tm7dqdZ-vZrbUn4
zWlR3%qCc+r<ByZYgOl39$>;vbQZ!MFj%d-5C&4F|)}zPovYVmaznR15Fo%g}OB>zi
z$sE8dXpR)3<4;c&CoX6c7YgGS3z19f!OI2qG7vAeP5*OG|7I-yu&+2ct__YC2Vc?#
zUs@lWEL?hXBX$K#iF_LCB{5-XG>P|98#s9Q?vvw@n#N8Sr@*~e(c3Gh4_|`up{&;H
zEF}31IK9L{G;dOPdx<Dj<q?pLIT{~=Eg86>{_2#kV$O;qZvhm*2a$YgjjO5*-_XT(
z<QcU(RwIsmOq=Wp{sEJ>J+?locoZv6-~q2WVl5VId8dic<U&)uu++7&6O12Mo6NEr
zpEc66cKNE!xlZo}7ah>M;yn?q9p)@nT=Hvx&y93)Vx1JrYt+wZwe=h7RrMaey<V`E
zH70Y_&A-9x!Pn2#WS&M$n|Hyh6BPoEXlN^UzN!PURh5^``2)u0|L&{d{(oBy_t&n5
zC+{|Q4NWb>U!29SV>WU`(Fs@+gf~^(ie7|BcNu3}NN03+<@iGyy@J~j-o(2DI21QV
zXK_HPu&*Dt7^S2D(<`B-xF7DWOBup;2p=tkJrCU`W^(GX?wtj2P{%3{Y<duhb7=)r
z5&;tYcxR9-_RDn#X*_xu;hnBCk|^u8*|a>H1zJqYgdpP{!i@yK&?!9H6b??~0PCgO
z7jMAbQ_(vrlf#I%6U6EW8+#B6hABd!Mqu2Bd?_UID!c)bw<6_MXa{rdtju94KO|JS
z9i;jO3IiwCdtWLzyGzldtF{ei7yvxjzuDAwKXflt3dBo+fz7s1u`RB(#evX*K46r6
z?Irl{d||uE6?CuK%Po}4S9HcSXKbzg;js<pVQ5n&;e*dT!<(U_o4{q)?p^z^r_evK
zzW>GFi+{-cF0;}4dMOkxbz#;G`|g}8vs6oavAJJs?tggTdGoOXd#uoWY%_G&?A=`G
z8(;69`2Ex$&j0TGM(btV)y9N<tLK1Vfy@&R5+91c&U}zr?>tiM9Md|-R@r-(R{bTX
zx1wOzlkkS~WIYpg9{PIeA>Zm*xXX6+ynpS%wa2ah8u?9RJ#xGl8P_7?t7jk3tJ5X6
zsmS(fZ136+o}B%d{chPyu`dwn(&?MJ^?I6DQWZ>x)u$-zSm9g9);~h9*G+Q)x7hVz
z4r+AYgwiU<)Vcr)SH0M}(uOy^JOg-Mkud{@XF6`zZRGUT?Z7^eVt9C0AqAe_eu#7%
zpUX+hjhewR?#Ep)f1@in!2POEFvjNflJ3>L+qq-!?x_10-1#&F;N`JYpyk~k-}!OT
z->dn1OTp$+bNl^?dlTS}6+04IN21i$d0)OKm)ax6_PEv_FEzD-Spt1qlq29SQx2D#
z7zkh@0TKa(rsFO6nFij+M2^$l90$)nOA=1A9DW;<Dm7Liol+6Lav^L}6o)|fq$FNZ
z;C+8SE9gvGR?!Hqdl?4=VJxz&+u_w6B<fZPPz9aAb=bz}O$c<m@$!z|!X-mEzz-B;
ziO5SZ3Gf@B@<#}6Q)NqwZ4_Q#)_T^IwSfo!P-bv`{H15ivzceke>?fnDQ*1X7A`Cw
zpzKX$i^UdP8~q;&qAkWO*m54X^_3BQ#5PHP>Th}X=AD~(QOh=50B5ATZ*ArSSJ^?b
zPO7KB>>^2kfbjjrdy8cc$+A>?Y|BfM;79buzjS$R?j7<VkB?l_yAyXN$_|`!QZSx$
zM|$sd&DUMV9RM`k{&&N7!rLCm8P;jn{i&=Zi7D*xDMS4A6j?Ie4lW(s5ey4pSIk&t
zCwU$ml4Wwc(U0QiyP=)WcSFYW-4Iw5|8PQ{?{Ee!4ppA-kOSoDC%$RlB{eN6hB%I-
zjc3iVZ`YqZ78>30yO42N!(gvR8VRZq66PX<$p{bmNNe*~8pXH|Iyeq~m*O~MBkkN=
zx^u$V=qC}T2JGM}uR>5}Xqx`YNzr}(MTI}3*iWdg|EA7=LS6im#Y$Vgq#*c{+f04s
drsxBodO8a3&Yw88?N=?d`|kKx6po1<{|W&U1GoSH

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_int8.cpython-312.pyc b/model_executor/layers/quantization/quark/schemes/__pycache__/quark_w8a8_int8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..30759d20465ef44970562c05bc55a75ac993bca2
GIT binary patch
literal 5708
zcmbstS!^4}b$7WWm)s>OQD;m_qN2m1ZHZRmLu%x>IaD{gV%IhjFbNhb?n+u}d3bge
zTMFF-g<D8y3fW(3zN!HIh#><}zS4d*1_C5KfRYviF$;aTNcxdKwo(wF=ttk|az#?1
z(i{VFcHYdJH*em&dB^<K<8c#E6#Ccly#|8#3<FlNmm0f2hsGKq5+bP(2{KBOxJ@Zk
zl!C8Ku_fpzZS>KKJ>iHt63(d8fb9yCa7A54+o8A<Y?MuKQ7++$dJ^8Kmn0}cq9xx3
zX|5ElqlgQH=)6UUjO5y|m3r$Jsj%w{41`IYc}7qaVOo)<0AS^$tno@}c2+`RN`K^X
zOi(0oa&kgWN&=b?7A5pdDmf$1>g}<)R7#b2)xh8r30^U9_<0E>B?Z&Ev>>4Q%dt5r
zA%$tZ{%Jv#UY(ejyeJ?cA!!oQk32IcBmo%^lbW$qd8~0VB}&Q*k~}-7m3vz*O6ZD|
zR8y!LJ!bCAtc?SJ=I#=RVU3W8C@B(A>M9nFZKH%4r6rqWe*_@OA(A8T6)DLs+9an)
zFF66STdf&~=(t5kL4cxDa?emAbBo@m!ip}5iytWwt@y-)6+o#ex+S0F#%qeK<Q6%Y
z8LENhk?LpMq8HZme<$j|`3x=kU|z#_npX#W^wr>_{*ZoCKF->sGmPj54w@F}aD(nK
zRN#f7r-q(OYD0RUq#XRT5Sy2hqRLN8a&nemP$f}!UQ-QK(VJzJS2aPCW4xS9FKD1*
zScRr^UkO}HfchXg7NaYerl5`Wdv^e;H6lZ12!4M!LjhE}69kd50fh05vPj$|r@}Vm
z0|?dOsvas(SXz~onFHM_UNQvbKT1SPq$6oL-LDB~R?_-!ESw!4nm;Q=6nQ$5UexAN
z$;hjUl87X*BJ<J>DYl@cP(;C(NR3>>IxjE5HUSR+G#@edX$+xx{`!zG1Om{82GWZ<
z!$T8pCco5NCDH+_KLC8GxO#&qazty#GW{l3=p9+6^GsKvV_=#7gbD7#Frhn;q%ELi
zY+oF>7m6V~yuCGIkqlE)UyMWhF18T1n4+o}J%pN|*8Q+uJ|QRhn2;8xWkuE&mqOKS
zeI26*W~y+nFoO=F&W~C!DZ3#Jy*ag@;ge1aNRzQdcvW7KRK2xy;sEez36;ln4p4=J
z%8S}!TGBn&4LbpbOAsX#a{y_pFwkJ(zxyUwU(gFGLzeYID_KO)2_la7exQitJX{PI
ztE5=M5vc_{g6SV9c;ueVvbHy!8eZQh8K-5LZ!#Gs&RPBCFHrQBA*=N&iAFW7n?{L)
zUpZJrx;DLylAe>8*BX@L_(TtsLnxILh9oq6bVkvzEi+0j6R5RWqZ!KDcgCi*TD|dh
zt5yEqvs-c#9ilU1zsGEp&gG^nL&iJHm{v=4Wn5LeJoFsV4Xw+X_1!tI;Je$RQvL$p
zB}p4xyRBW^bZd`VST|XU$gn?X<=PUfy)u{l6`Xl3X|PzURceg*1*sjixcfhRg)O}D
zS$<oIz$tQ;bU+@x7NwgWkca07t^1Ags9KjhM0-3Lx5XRWk=h#O&Fu4U+@l)S0Nv7#
zTl@Ov9f^+bB{%OOy!kTTGXLL;hi@-K-yuBIWqf5G;7pl}Q*?<Q(I?i4_4oW6C3%6@
zZMI~zNQ4`vbQT-+m>C3K3EOlpxc(A&T~?*CJ6<|+RfR|))T4%GQmES5fQPahZr}@S
zp%A_d*n5kDCg?8HfrxTKcb9w&v=P3Ny2ErD;QHY<5a<}Li~%?1N;9I&Fl7!J{ane*
z7$L7-UxJn-l;YDV@YFbZHscitn)Nyps2Fw%OKDyZ<6(zR#&qv>{u*{@LV{01Jd9zr
z3YM#3pUlJbiV6M_xr)AUi|&QsU51#Pzb=c~oQiPHaUh66_&jh(f!F1Egx!MfFoS-b
zmXk9n-6n`4!f~{2hnOWcr`x4OT3gg@>OumeKrrV=(yXjP7;mnR1A64bGn_NvhPB5Z
zL)h)<HbqJz>?CzZDKn@;jQ}F7cBlhaAzWe0UOJcg>kv_?dix=%1s^jr5Z0u};|KuZ
z%ZK`*(pxH%is;3QR<?m~V5m1<v=WHQp$MLR5-JrtSsdS07BlMc#*idv5^o;6x)iLA
zc&bOSGO1TV6(QR36QMK9_B<2(Jp6Pa82a7BTNCe0=7Ph8?!N8r^SSQxADqf|UnsP7
zZnq8Q+6FhTWZQ=Kob)kwmg(K&h?djY)0elJuPn0<+2(DwBgb~EYuiUJ<lx6%*x~%E
z<16FY)>E7F+h@jdXU6i}c!8_i=1%0e6WiR$9Cvavust}M8ywAZKiP8-{@$JX=C#0`
zz)oF5w(;0j-SKSy=-;mXJ^JV9o{jQ*Av$YmEx_-{(LImT?_PGm4qV=CCX{1B>#gsc
z$uo}u4p+B2vNH19a}U_QoxtgxrXy=F-FfNvUD@7|tw+y&D1DT;pU5{|DFlLr_T#Xd
zpm%v<&rKYCip+9dpN7tUeM0<xJl}L_e?q4>$F)Hy+t|7`a%W_H<UvCu%SEyck)6O}
z*5rn4&l6jnBOi`_G<knA-}E!Ql-*`5#Sq<3WVz6%p;KQ+9=ku5Z+hND?(}A18K%6!
z_RV0Pd9uKG%nfHdPi4<s$TL4Rw!F>uK45!yjvOx$U9Z2_^KSp${(RHW#~zSgz`HyS
zh#vno*PY|K*I(Hj&vQTiyyIjg{;|8q@=d2dcm?o7uzIj!Lbm5@cKEqGH};R_&Vu(u
zA<$I_gbRVbLU5qa(Fe!T;$EhI!y2)3476*%U@vb3@PB~@&VJ&hXl)+@8X}~@WjkFF
z`;sDA?yns)p!P#(!iz<DZWT?c+z&Ks_{=yq7Y9m)v?4{403TtSGOn$0H^X-H6kzL4
zNT&o%Lq?v4p2b~lX_Sgds%l+MUYNm#38w?#HNc4PTO1WjEo3G#XcF2>$E)x0H&S{X
zCa71TdV{FckWDeqJh8+0Zrigh$MVea0_%f|`he{yaP_7pz`_2ZG0#1@!!_I<%?A4O
z+`vPITV+?+ZDugX3~u&(!VH-y5qU$Wr)5E{%5Je0H_jJ7RKWQXarhoA@%?P3JOX(z
zmD$flE)xjn4j>RiY#t$<Ru(Oxh3T@G&=jDd=b_rqcnvFvE<x8)pju>ARF?4^9Qd1g
zUgPR(E3a+)`f|R$cbYcI%~M;xp=@cZ;bt@ph`O8SAxB<Nz!&Kp&tF>*6w@<-yMaXC
za8EW>L%NUW;k_t@-v&}i6|m{)R7ycOsL<J%BB&}n49ulO-3A^CVJ6TyJVqsxx&z*m
zU<sX8z-gggJch-E#&CrdL3fxBOU4!vPNj|WFt_c&Ag*xoqW%}EUlO05h-{2z>5lb=
z^~-O!Zqb89nz2V7);AXI@P%95*|V;_%@&;)Vu&N{>-1ZJT^EKL2}gaAqU`?l$Nx>h
zXV+$R6q!q;-TlzlxO!vd#_H=UuNUpO!=!fkZCBB0fDF;qTXY#sH_;MYo4+$(WDO9K
z|In_-XvQh0eR%Wq`$O*yy?_3_^F;!{542tUDf(^p;Q|=#7w^2d#^2$KHVlUc-VNRj
zn(cE>|LNsFzWnjCxpNndj)yMqYH%e8_SHUY3I>ZK?ALv<l%hy6<46XC>6j^2L+&ho
z{}?a>3q%9DK5X<<zlaQ&FCqhQ?)xty1Ez0R2litCGmtSNm($;t2v9`xKmtD>sR%zl
z=xw#;8bOs2z~Df|h+>T3$B1AI9YsIF1BMn<YlhB@n7aEUiUA6?y6SnTiZ+rYzhnrq
z=QD!)C(-p4Wg{sJPmy0yc9Pm9p!%1Wa5vq4am&^IhGWm6lH~C1@h=JdH6;8$rQ`VN

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py b/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
new file mode 100644
index 0000000..007e78e
--- /dev/null
+++ b/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
@@ -0,0 +1,306 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from fractions import Fraction
+from functools import cache, partial
+from typing import Any
+
+import torch
+import torch.nn.functional as F
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.mxfp4_utils import (
+    dequant_mxfp4,
+    quant_dequant_mxfp4,
+)
+from vllm.model_executor.layers.quantization.utils.mxfp6_utils import (
+    dequant_mxfp6,
+    quant_dequant_mxfp6,
+)
+from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import (
+    OCP_MX_BLOCK_SIZE,
+    OCP_MX_Scheme,
+)
+from vllm.model_executor.parameter import GroupQuantScaleParameter, PackedvLLMParameter
+from vllm.platforms import current_platform
+
+from .quark_scheme import QuarkScheme
+
+logger = init_logger(__name__)
+
+
+# TODO: move registration of custom op to aiter_ops.py
+# `from vllm._aiter_ops import rocm_aiter_ops`
+# use `rocm_aiter_ops.is_asm_fp4_gemm_dynamic_quant_enabled()`
+# for envs checks which does not require @cache anymore.
+# triton kernel is torch compile compatible.
+# does not require direct registeration.
+# use `rocm_aiter_ops.triton_fp4_gemm_dynamic_qaunt`.
+@cache
+def is_rocm_aiter_fp4_asm_gemm_enabled() -> bool:
+    return (
+        current_platform.is_rocm()
+        and envs.VLLM_ROCM_USE_AITER_FP4_ASM_GEMM
+        and envs.VLLM_ROCM_USE_AITER
+    )
+
+
+try:
+    from aiter.ops.shuffle import shuffle_weight
+    from aiter.ops.triton.gemm_afp4wfp4 import gemm_afp4wfp4
+    from aiter.ops.triton.quant import dynamic_mxfp4_quant
+
+    from vllm.utils.torch_utils import direct_register_custom_op
+
+    if is_rocm_aiter_fp4_asm_gemm_enabled():
+        from aiter import gemm_a4w4, per_1x32_f4_quant_hip
+
+    def gemm_with_dynamic_quant(
+        x: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        rocm_use_aiter_fp4_asm_gemm: bool = False,
+        out_dtype: torch.dtype | None = torch.bfloat16,
+        x_scales: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        M = x.shape[0]
+        if rocm_use_aiter_fp4_asm_gemm:
+            if x_scales is None:
+                # use hip quant kernel for performance
+                x_q, x_s = per_1x32_f4_quant_hip(x, shuffle=True)
+            else:
+                x_q = x
+                x_s = x_scales
+
+            # 32 alignment is enough for dim0 padding of output for
+            # gemm_a4w4 kernel
+            y = torch.empty(
+                (M + 31) // 32 * 32, weight.shape[0], device=x_q.device, dtype=out_dtype
+            )
+
+            gemm_a4w4(
+                x_q, weight, x_s, weight_scale.view(x_s.dtype), y, bpreshuffle=True
+            )
+            return y[:M]
+        else:
+            if x_scales is None:
+                x_q, x_s = dynamic_mxfp4_quant(x)
+            else:
+                x_q = x
+                x_s = x_scales
+            y = torch.empty(
+                x_q.shape[0], weight.shape[0], device=x_q.device, dtype=out_dtype
+            )
+
+            gemm_afp4wfp4(x_q, weight, x_s, weight_scale.T, out_dtype, y)
+            return y
+
+    def gemm_with_dynamic_quant_fake(
+        x: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        x_scales: torch.Tensor = None,
+        rocm_use_aiter_fp4_asm_gemm: bool = False,
+        out_dtype: torch.dtype | None = torch.bfloat16,
+    ) -> torch.Tensor:
+        return torch.empty(
+            (*x.shape[:-1], weight.shape[0]), dtype=out_dtype, device=x.device
+        )
+
+    direct_register_custom_op(
+        op_name="gemm_with_dynamic_quant",
+        op_func=gemm_with_dynamic_quant,
+        mutates_args=[],
+        fake_impl=gemm_with_dynamic_quant_fake,
+        dispatch_key=current_platform.dispatch_key,
+    )
+except (ImportError, AttributeError):
+    dynamic_mxfp4_quant = gemm_afp4wfp4 = None
+
+
+class QuarkOCP_MX(QuarkScheme):
+    def __init__(
+        self, weight_quant_spec: dict[str, Any], input_quant_spec: dict[str, Any]
+    ):
+        self.out_dtype = torch.get_default_dtype()
+        self.qscheme = "per_group"
+        self.weight_quant_spec = weight_quant_spec
+        self.input_quant_spec = input_quant_spec
+
+        self.weight_dtype = weight_quant_spec["dtype"].replace("fp", "mxfp")
+        self.input_dtype = input_quant_spec["dtype"].replace("fp", "mxfp")
+
+        self.ocp_mx_scheme = OCP_MX_Scheme.from_quant_dtype(
+            self.input_dtype, self.weight_dtype
+        )
+
+        if self.weight_dtype == "mxfp4":
+            self.packed_factor: int | Fraction = 2
+            self.dequant_func = dequant_mxfp4
+        else:
+            self.packed_factor = Fraction(numerator=8, denominator=6)
+            self.dequant_func = partial(
+                dequant_mxfp6, quant_dtype=self.weight_dtype.replace("mx", "")
+            )
+
+        if self.input_dtype == "mxfp4":
+            self.quant_dequant_func = quant_dequant_mxfp4
+        else:
+            self.quant_dequant_func = partial(
+                quant_dequant_mxfp6, quant_dtype=self.input_dtype.replace("mx", "")
+            )
+
+        self.static_input_scales = not input_quant_spec.get("is_dynamic")
+
+        if self.static_input_scales:
+            raise NotImplementedError(
+                "QuarkOCP_MX with static input scales is currently not "
+                "implemented. Please open an issue."
+            )
+
+        # TODO: integrate (or test) mixed-precision kernel.
+        self.emulate = not current_platform.supports_mx() or (
+            self.input_dtype != "mxfp4" or self.weight_dtype != "mxfp4"
+        )
+
+        self.rocm_use_aiter_fp4_asm_gemm = is_rocm_aiter_fp4_asm_gemm_enabled()
+
+        if not self.emulate and (dynamic_mxfp4_quant is None or gemm_afp4wfp4 is None):
+            # Currently need these kernels if not emulating
+            raise NotImplementedError(
+                f"{self.__class__.__name__} requires AITER to be installed "
+                "for non-emulation mode! Please refer to "
+                "https://github.com/ROCm/aiter for installation details."
+            )
+
+        if not current_platform.supports_mx():
+            logger.warning_once(
+                "The current platform does not support native MXFP4/MXFP6 "
+                "computation. Simulated weight dequantization and activation "
+                "QDQ (quantize and dequantize) will be used, with the linear "
+                "layers computed in high precision."
+            )
+
+        if current_platform.supports_mx() and (
+            self.input_dtype != "mxfp4" or self.weight_dtype != "mxfp4"
+        ):
+            logger.warning_once(
+                "The current platform supports native MXFP4/MXFP6 "
+                f"computation, but kernels for input_dtype={self.input_dtype} "
+                f"and weight_dtype={self.weight_dtype} are not yet integrated "
+                "in vLLM. Simulated weight dequantization and activation "
+                "QDQ (quantize and dequantize) will be used, with the linear "
+                "layers computed in high precision."
+            )
+
+    def get_packed_dim(self, dim: int, quant_dtype: str):
+        if quant_dtype == "mxfp4":
+            assert dim % 2 == 0
+            return dim // 2
+        elif quant_dtype in {"mxfp6_e3m2", "mxfp6_e2m3"}:
+            # FP6 packs 4 * 6 = 24 bits on 3 bytes.
+            assert (dim * 3) % 4 == 0
+            return (dim * 3) // 4
+        else:
+            raise NotImplementedError(
+                "Unsupported quant_dtype in QuarkOCP_MX.get_packed_dim, "
+                f"got quant_dtype={quant_dtype}. Something is wrong, please "
+                "open an issue."
+            )
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.weight = torch.nn.Parameter(layer.weight.data, requires_grad=False)
+
+        if self.emulate:
+            layer.weight_scale = torch.nn.Parameter(
+                layer.weight_scale.data, requires_grad=False
+            )
+        else:
+            if self.rocm_use_aiter_fp4_asm_gemm:
+                # shuffle weight scale
+                weight_scale_shuffle = layer.weight_scale.data
+                sm, sn = weight_scale_shuffle.shape
+                weight_scale_shuffle = weight_scale_shuffle.view(
+                    sm // 32, 2, 16, sn // 8, 2, 4, 1
+                )
+                weight_scale_shuffle = weight_scale_shuffle.permute(
+                    0, 3, 5, 2, 4, 1, 6
+                ).contiguous()
+                weight_scale_shuffle = weight_scale_shuffle.view(sm, sn)
+                layer.weight_scale = torch.nn.Parameter(
+                    weight_scale_shuffle, requires_grad=False
+                )
+
+                # shuffle weight
+                weight_shuffle = layer.weight.data
+                weight_shuffle = shuffle_weight(weight_shuffle, layout=(16, 16))
+                layer.weight = torch.nn.Parameter(weight_shuffle, requires_grad=False)
+            else:
+                layer.weight_scale = torch.nn.Parameter(
+                    layer.weight_scale.data.T.contiguous(), requires_grad=False
+                )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+
+        # WEIGHT
+        weight = PackedvLLMParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                self.get_packed_dim(input_size_per_partition, self.weight_dtype),
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            packed_dim=1,
+            packed_factor=self.packed_factor,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        weight_scale = GroupQuantScaleParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // OCP_MX_BLOCK_SIZE,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if self.emulate:
+            dq_w = self.dequant_func(layer.weight, layer.weight_scale, x.dtype)
+            qdq_x = self.quant_dequant_func(x)
+            return F.linear(qdq_x, dq_w, bias)
+        else:
+            return torch.ops.vllm.gemm_with_dynamic_quant(
+                x,
+                layer.weight,
+                layer.weight_scale,
+                self.rocm_use_aiter_fp4_asm_gemm,
+                self.out_dtype,
+            )
diff --git a/model_executor/layers/quantization/quark/schemes/quark_scheme.py b/model_executor/layers/quantization/quark/schemes/quark_scheme.py
new file mode 100644
index 0000000..412a07a
--- /dev/null
+++ b/model_executor/layers/quantization/quark/schemes/quark_scheme.py
@@ -0,0 +1,55 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+
+import torch
+
+__all__ = ["QuarkScheme"]
+
+
+class QuarkScheme(ABC):
+    """
+    Abstract class used to describe the weight creation and forward pass
+    of different quantization schemes supported by Quark.
+    """
+
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        """
+        Get minimum device capability.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def create_weights(self, *args, **kwargs):
+        """
+        Weight creation for the particular scheme. Inputs to this function
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ):
+        """
+        Run the forward pass for the particular scheme. This is where
+        scheme-specific dequant/quant steps/kernels should be applied.
+
+        :param layer: torch.nn.Module with the registered weights and
+            other parameters relevant to the particular scheme.
+        :param x: input to the layer
+        :param bias: bias parameter
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        """
+        Called after weight loading is complete for any cleanup that
+        needs to occur.
+        """
+        raise NotImplementedError
diff --git a/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py b/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
new file mode 100644
index 0000000..1e5ee93
--- /dev/null
+++ b/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
@@ -0,0 +1,179 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any, cast
+
+import torch
+from torch.nn import Parameter
+
+from vllm.model_executor.layers.quantization.quark.schemes import QuarkScheme
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    Fp8LinearOp,
+    normalize_e4m3fn_to_e4m3fnuz,
+    requantize_with_max_scale,
+)
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+from vllm.platforms import current_platform
+
+__all__ = ["QuarkW8A8Fp8"]
+
+
+class QuarkW8A8Fp8(QuarkScheme):
+    def __init__(
+        self, weight_config: dict[str, Any], input_config: dict[str, Any] | None
+    ):
+        self.weight_qscheme = cast(str, weight_config.get("qscheme"))
+        self.is_static_input_scheme: bool = False
+        self.input_qscheme: str | None = None
+        if input_config is not None:
+            self.is_static_input_scheme = not cast(bool, input_config.get("is_dynamic"))
+            self.input_qscheme = cast(str, input_config.get("qscheme"))
+
+        per_token = (
+            not self.is_static_input_scheme and self.input_qscheme == "per_channel"
+        )
+        self.act_quant_group_shape = (
+            GroupShape.PER_TOKEN if per_token else GroupShape.PER_TENSOR
+        )
+        self.fp8_linear = Fp8LinearOp(
+            act_quant_static=self.is_static_input_scheme,
+            act_quant_group_shape=self.act_quant_group_shape,
+        )
+        self.out_dtype = torch.get_default_dtype()
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # lovelace and up
+        return 89
+
+    def process_weights_after_loading(self, layer) -> None:
+        # If per tensor, when we have a fused module (e.g. QKV) with per
+        # tensor scales (thus N scales being passed to the kernel),
+        # requantize so we can always run per tensor
+        if self.weight_qscheme == "per_tensor":
+            if current_platform.is_fp8_fnuz():
+                input_scale = getattr(layer, "input_scale", None)
+                weight, max_w_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
+                    weight=layer.weight,
+                    weight_scale=layer.weight_scale,
+                    input_scale=input_scale,
+                )
+                if input_scale is not None:
+                    layer.input_scale = Parameter(input_scale, requires_grad=False)
+            else:
+                max_w_scale = layer.weight_scale
+                weight = layer.weight
+
+            max_w_scale, weight = requantize_with_max_scale(
+                weight=weight,
+                weight_scale=max_w_scale,
+                logical_widths=layer.logical_widths,
+            )
+
+            layer.weight = Parameter(weight.t(), requires_grad=False)
+            layer.weight_scale = Parameter(max_w_scale, requires_grad=False)
+
+        # If channelwise, scales are already lined up, so just transpose.
+        elif self.weight_qscheme == "per_channel":
+            weight = layer.weight
+
+            if current_platform.is_fp8_fnuz():
+                input_scale = getattr(layer, "input_scale", None)
+                weight, weight_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
+                    weight=weight,
+                    weight_scale=layer.weight_scale,
+                    input_scale=input_scale,
+                )
+                if input_scale is not None:
+                    layer.input_scale = Parameter(input_scale, requires_grad=False)
+            else:
+                weight_scale = layer.weight_scale.data
+            if self.act_quant_group_shape == GroupShape.PER_TOKEN:
+                weight_scale = weight_scale.view(-1, 1)
+            layer.weight = Parameter(weight.t(), requires_grad=False)
+            # required by torch.compile to be torch.nn.Parameter
+            layer.weight_scale = Parameter(weight_scale, requires_grad=False)
+
+        else:
+            raise ValueError(f"Unknown quantization scheme {self.weight_qscheme}")
+
+        # INPUT SCALE
+        if self.is_static_input_scheme:
+            layer.input_scale = Parameter(layer.input_scale.max(), requires_grad=False)
+        else:
+            layer.input_scale = None
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+
+        # WEIGHT
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition,
+                dtype=torch.float8_e4m3fn,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        # TODO: update create_xxx_parameter functions to return
+        # the newly added parameters
+        if self.weight_qscheme == "per_channel":
+            weight_scale = ChannelQuantScaleParameter(
+                data=torch.empty((sum(output_partition_sizes)), dtype=torch.float32),
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+        else:
+            assert self.weight_qscheme == "per_tensor"
+            weight_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+
+        # min requirement for fp8 kernels
+        weight_scale[:] = torch.finfo(torch.float32).min
+        layer.register_parameter("weight_scale", weight_scale)
+
+        # INPUT SCALE
+        if self.is_static_input_scheme:
+            input_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            input_scale[:] = torch.finfo(torch.float32).min
+            layer.register_parameter("input_scale", input_scale)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.fp8_linear.apply(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            out_dtype=self.out_dtype,
+            input_scale=layer.input_scale,
+            bias=bias,
+        )
diff --git a/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py b/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
new file mode 100644
index 0000000..42d2ed2
--- /dev/null
+++ b/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
@@ -0,0 +1,139 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.kernels.scaled_mm import (
+    ScaledMMLinearLayerConfig,
+    choose_scaled_mm_linear_kernel,
+)
+from vllm.model_executor.layers.quantization.quark.schemes import QuarkScheme
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    ModelWeightParameter,
+    PerTensorScaleParameter,
+)
+
+logger = init_logger(__name__)
+
+
+class QuarkW8A8Int8(QuarkScheme):
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(
+        self,
+        qscheme: str,
+        is_static_input_scheme: bool | None,
+        input_symmetric: bool | None,
+    ):
+        self.qscheme = qscheme
+        self.is_static_input_scheme = is_static_input_scheme
+        self.input_symmetric = input_symmetric
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # turing and up
+        return 75
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        layer.logical_widths = output_partition_sizes
+
+        scaled_mm_linear_kernel_config = ScaledMMLinearLayerConfig(
+            is_channelwise=(self.qscheme == "per_channel"),
+            is_static_input_scheme=(self.is_static_input_scheme is True),
+            input_symmetric=(self.input_symmetric is True),
+        )
+
+        kernel_type = choose_scaled_mm_linear_kernel(scaled_mm_linear_kernel_config)
+
+        if kernel_type.__name__ not in self._kernel_backends_being_used:
+            logger.info("Using %s for QuarkW8A8Int8", kernel_type.__name__)
+            self._kernel_backends_being_used.add(kernel_type.__name__)
+
+        # WEIGHT
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                sum(output_partition_sizes), input_size_per_partition, dtype=torch.int8
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        if self.qscheme == "per_channel":
+            weight_scale = ChannelQuantScaleParameter(
+                data=torch.empty((sum(output_partition_sizes)), dtype=torch.float32),
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+            ChannelQuantZPParameter = ChannelQuantScaleParameter
+            weight_zero_point = ChannelQuantZPParameter(
+                data=torch.empty((sum(output_partition_sizes)), dtype=torch.int8),
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+        else:
+            assert self.qscheme == "per_tensor"
+            weight_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            PerTensorZPParameter = PerTensorScaleParameter
+            weight_zero_point = PerTensorZPParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.int8),
+                weight_loader=weight_loader,
+            )
+        layer.register_parameter("weight_scale", weight_scale)
+        layer.register_parameter("weight_zero_point", weight_zero_point)
+
+        # INPUT SCALE
+        if self.is_static_input_scheme:
+            input_scale = BasevLLMParameter(
+                data=torch.empty(1, dtype=torch.float32), weight_loader=weight_loader
+            )
+            layer.register_parameter("input_scale", input_scale)
+
+            input_zero_point = BasevLLMParameter(
+                data=torch.empty(1, dtype=torch.int8), weight_loader=weight_loader
+            )
+            layer.register_parameter("input_zero_point", input_zero_point)
+
+        self.kernel = kernel_type(
+            c=scaled_mm_linear_kernel_config,
+            w_q_param_name="weight",
+            w_s_param_name="weight_scale",
+            i_s_param_name="input_scale",
+            i_zp_param_name="input_zero_point",
+            azp_adj_param_name="azp_adj",
+        )
+
+    # Checkpoints are serialized in quark format, which is
+    # different from the format the kernel may want. Handle repacking here.
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.register_parameter("weight_zero_point", None)
+        delattr(layer, "weight_zero_point")
+        if self.input_symmetric:
+            layer.register_parameter("input_zero_point", None)
+            delattr(layer, "input_zero_point")
+
+        self.kernel.process_weights_after_loading(layer)
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        return self.kernel.apply_weights(layer, x, bias)
diff --git a/model_executor/layers/quantization/quark/utils.py b/model_executor/layers/quantization/quark/utils.py
new file mode 100644
index 0000000..dc82f94
--- /dev/null
+++ b/model_executor/layers/quantization/quark/utils.py
@@ -0,0 +1,105 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable, Mapping
+from types import MappingProxyType
+from typing import Any
+
+import regex as re
+
+
+def deep_compare(dict1: Any, dict2: Any) -> bool:
+    if type(dict1) is not type(dict2):
+        return False
+    if isinstance(dict1, dict):
+        if dict1.keys() != dict2.keys():
+            return False
+        return all(deep_compare(dict1[k], dict2[k]) for k in dict1)
+    elif isinstance(dict1, list):
+        return set(dict1) == set(dict2)
+    else:
+        return dict1 == dict2
+
+
+def should_ignore_layer(
+    layer_name: str | None,
+    ignore: Iterable[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+) -> bool:
+    if layer_name is None:
+        return False
+
+    # layer_name = model.layers.0.self_attn.qkv_proj
+    # proj_name = qkv_proj
+    proj_name = layer_name.split(".")[-1]
+
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    if proj_name in fused_mapping:
+        shard_proj_names = fused_mapping[proj_name]
+
+        # Convert fused_name --> [shard_names]
+        shard_names = [
+            layer_name.replace(proj_name, shard_proj_name)
+            for shard_proj_name in shard_proj_names
+        ]
+
+        # Layer should be ignored if shards are ignored.
+        should_ignore_layer = None
+        for shard_name in shard_names:
+            should_ignore_shard = check_equal_or_regex_match(
+                layer_name=shard_name, targets=ignore
+            )
+
+            # If shard_idx=0, set layer ignore to match shard.
+            if should_ignore_layer is None:
+                should_ignore_layer = should_ignore_shard
+
+            # If shard_idx=1+ confirm scheme matches prior shards.
+            elif should_ignore_shard != should_ignore_layer:
+                raise ValueError(
+                    f"Found a different quantization schemes for "
+                    f"{shard_proj_names} in {layer_name}. vLLM "
+                    "requires all to use the same scheme."
+                )
+
+    # Unfused layers like down_proj and o_proj will match
+    # the safetensors checkpoint already.
+    else:
+        should_ignore_layer = check_equal_or_regex_match(
+            layer_name=layer_name, targets=ignore
+        )
+
+    assert should_ignore_layer is not None
+    return should_ignore_layer
+
+
+def check_equal_or_regex_match(layer_name: str, targets: Iterable[str]) -> bool:
+    """
+    Checks whether a layer_name is exactly equal or a regex match for
+    if target starts with 're:' to any target in list.
+    """
+    return any(_is_equal_or_regex_match(layer_name, target) for target in targets)
+
+
+def _is_equal_or_regex_match(
+    value: str, target: str, check_contains: bool = False
+) -> bool:
+    """
+    Checks whether a value is exactly equal or a regex match for target
+    if target starts with 're:'. If check_contains is set to True,
+    additionally checks if the target string is contained within the value.
+    """
+
+    if target.startswith("re:"):
+        pattern = target[3:]
+        if re.match(pattern, value):
+            return True
+    elif check_contains:
+        if target.lower() in value.lower():
+            return True
+    elif target == value:
+        return True
+    return False
diff --git a/model_executor/layers/quantization/qutlass_utils.py b/model_executor/layers/quantization/qutlass_utils.py
new file mode 100644
index 0000000..555bb50
--- /dev/null
+++ b/model_executor/layers/quantization/qutlass_utils.py
@@ -0,0 +1,185 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+#
+# Modified by Roberto L. Castro (Roberto.LopezCastro@ist.ac.at).
+#
+# Copied from https://github.com/pytorch/ao/tree/main/torchao/prototype/mx_formats
+#
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+
+from typing import Literal
+
+import torch
+from torch.library import wrap_triton
+
+from vllm.triton_utils import tl, triton
+
+
+@triton.jit
+def triton_scale_swizzle(
+    scale_ptr: torch.Tensor,
+    scale_rows: int,
+    scale_cols: int,
+    output_ptr: torch.Tensor,
+    input_row_stride: int,
+    output_block_stride: int,
+    BLOCK_ROWS: tl.constexpr,
+    BLOCK_COLS: tl.constexpr,
+):
+    """
+    Rearranges tensor data from row-major to block-scaled swizzle format.
+
+    Args:
+        scale_ptr: Pointer to the input scale tensor
+        scale_rows: Number of rows in the scale tensor
+        scale_cols: Number of columns in the scale tensor
+        output_ptr: Pointer to the output tensor
+        input_row_stride: Stride between rows in the input tensor
+        output_block_stride: Stride between blocks in the output tensor
+        BLOCK_ROWS: Number of rows in a tile (compile-time constant)
+        BLOCK_COLS: Number of columns in a tile (compile-time constant)
+    """
+    pid_row = tl.program_id(0)
+    pid_col = tl.program_id(1)
+
+    rows = tl.arange(0, BLOCK_ROWS)[:, None]
+    cols = tl.arange(0, BLOCK_COLS)[None, :]
+
+    # Calculate starting row and column for this tile
+    start_row = pid_row * BLOCK_ROWS
+    start_col = pid_col * BLOCK_COLS
+    global_rows = start_row + rows
+    global_cols = start_col + cols
+
+    mask = (global_rows < scale_rows) & (global_cols < scale_cols)
+
+    input_scales = tl.load(
+        scale_ptr + global_rows * input_row_stride + global_cols,
+        mask=mask,
+        other=0.0,
+    )
+
+    r_div_32 = rows // 32
+    r_mod_32 = rows % 32
+
+    # 2) Rearrange to (32, 4, 4) then to final (32, 16) coordinates
+    dest_indices = r_mod_32 * 16 + r_div_32 * 4 + cols
+
+    # Flatten
+    dest_indices_flat = tl.reshape(dest_indices, (BLOCK_ROWS * BLOCK_COLS))
+    scales_flat = tl.reshape(input_scales, (BLOCK_ROWS * BLOCK_COLS))
+
+    # Calculate block offset using provided output block stride
+    LOCAL_NUMEL = BLOCK_ROWS * BLOCK_COLS
+    block_offset = pid_col * LOCAL_NUMEL + (pid_row * output_block_stride)
+
+    tl.store(
+        output_ptr + block_offset + dest_indices_flat,
+        scales_flat,
+    )
+
+
+def triton_mx_block_rearrange(scale_tensor: torch.Tensor) -> torch.Tensor:
+    """
+    Rearranges an E8M0 tensor scale from row-major format to
+    block-scaled swizzle format.
+
+    This format is suitable for Tmem as described in NVIDIA documentation:
+    https://docs.nvidia.com/cuda/cublas/index.html#d-block-scaling-factors-layout
+
+    Args:
+        scale_tensor: Input tensor in row-major format with 8-bit elements
+
+    Returns:
+        Rearranged tensor in block-scaled swizzle format
+    """
+    assert scale_tensor.element_size() == 1, (
+        "Expected element size to be 1 byte (8 bits)"
+    )
+    assert scale_tensor.is_contiguous(), "Input tensor must be contiguous"
+
+    rows, cols = scale_tensor.shape
+
+    # Calculate blocks needed
+    n_row_blocks = triton.cdiv(rows, 128)
+    n_col_blocks = triton.cdiv(cols, 4)
+    padded_rows = n_row_blocks * 128
+    padded_cols = n_col_blocks * 4
+
+    out = scale_tensor.new_empty((padded_rows, padded_cols))
+
+    # Input stride (for row-major format)
+    input_row_stride = cols
+
+    # We probably want handle multiple blocks per tile but
+    # for now keep it simple
+    BLOCK_ROWS, BLOCK_COLS = 128, 4
+
+    # Output block stride for the rearranged format
+    output_block_stride = BLOCK_ROWS * BLOCK_COLS * (padded_cols // BLOCK_COLS)
+
+    grid = lambda META: (
+        triton.cdiv(padded_rows, BLOCK_ROWS),
+        triton.cdiv(padded_cols, BLOCK_COLS),
+    )
+
+    wrap_triton(triton_scale_swizzle)[grid](
+        scale_tensor.view(torch.uint8),
+        rows,
+        cols,
+        out.view(torch.uint8),
+        input_row_stride,
+        output_block_stride,
+        BLOCK_ROWS=BLOCK_ROWS,
+        BLOCK_COLS=BLOCK_COLS,
+    )
+
+    return out
+
+
+def ceil_div(a, b):
+    return (a + b - 1) // b
+
+
+def to_blocked(
+    input_matrix: torch.Tensor, backend: Literal["torch", "triton"] = "triton"
+) -> torch.Tensor:
+    """
+    Rearrange a large matrix by breaking it into blocks and applying
+    the rearrangement pattern.
+
+    See:
+        https://docs.nvidia.com/cuda/cublas/index.html#d-block-scaling-factors-layout
+
+    Args:
+        input_matrix: Input tensor of shape (H, W)
+        backend: "torch" (PyTorch path) or "triton" (Triton kernel)
+
+    Returns:
+        Rearranged tensor of shape (32*ceil_div(H,128), 16*ceil_div(W,4))
+    """
+    if backend == "triton":
+        return triton_mx_block_rearrange(input_matrix).flatten()
+    elif backend != "torch":
+        raise ValueError(f'backend must be "torch" or "triton", got {backend!r}')
+
+    rows, cols = input_matrix.shape
+    n_row_blocks = ceil_div(rows, 128)
+    n_col_blocks = ceil_div(cols, 4)
+
+    # Calculate the padded shape
+    padded_rows = n_row_blocks * 128
+    padded_cols = n_col_blocks * 4
+
+    padded = input_matrix
+    assert (rows, cols) == (padded_rows, padded_cols)
+
+    # Rearrange the blocks
+    blocks = padded.view(n_row_blocks, 128, n_col_blocks, 4).permute(0, 2, 1, 3)
+    rearranged = blocks.reshape(-1, 4, 32, 4).transpose(1, 2).reshape(-1, 32, 16)
+
+    return rearranged.flatten()
diff --git a/model_executor/layers/quantization/rtn.py b/model_executor/layers/quantization/rtn.py
new file mode 100644
index 0000000..5265626
--- /dev/null
+++ b/model_executor/layers/quantization/rtn.py
@@ -0,0 +1,652 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright © 2025, Oracle and/or its affiliates.
+
+import os
+from collections.abc import Callable
+from typing import Any, Optional
+
+import numpy as np
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE, FusedMoEMethodBase
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    set_weight_attrs,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    apply_rtn_marlin_linear,
+    marlin_make_workspace_new,
+)
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+"""By default, use 8 bit as target precision, but it can be 
+overridden by setting the RTN_NUM_BITS envvar
+"""
+NUM_BITS = os.getenv("RTN_NUM_BITS", "8")
+"""By default, use group size of 128 parameters, but it can be 
+overridden by setting the RTN_GROUP_SIZE envvar
+"""
+GROUP_SIZE = os.getenv("RTN_GROUP_SIZE", "128")
+"""Global Marlin workspace shared by all modules
+"""
+workspace = None
+
+
+class RTNConfig(QuantizationConfig):
+    """Config class for RTN."""
+
+    def __init__(
+        self,
+        weight_bits: int = int(NUM_BITS),
+        group_size: int = int(GROUP_SIZE),
+    ) -> None:
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+
+        if self.weight_bits != 4 and self.weight_bits != 8:
+            raise ValueError(
+                "Currently, only 4-bit or 8-bit weight quantization is "
+                f"supported for RTN, but got {self.weight_bits} bits."
+            )
+
+        self.quant_type = (
+            scalar_types.uint8b128 if self.weight_bits == 8 else scalar_types.uint4b8
+        )
+
+    def __repr__(self) -> str:
+        return (
+            f"RTNConfig(weight_bits={self.weight_bits}, group_size={self.group_size})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "rtn"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "RTNConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        return cls(weight_bits, group_size)
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            return RTNLinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return RTNMoEMethod(self, layer.moe_config)
+        return None
+
+
+class RTNTensor:
+    """A wrapper over Tensor that enables quantization on-the-fly by
+    overloading the copy_ method.
+    """
+
+    def __init__(
+        self, data: torch.Tensor, scale: torch.Tensor, quant_config: RTNConfig
+    ) -> None:
+        self.data = data
+        self.scale = scale
+        self.quant_config = quant_config
+
+    def narrow(self, dim, start, length):
+        factor = 1 if self.quant_config.weight_bits == 8 else 2
+        return RTNTensor(
+            self.data.narrow(dim, start // factor, length // factor),
+            self.scale.narrow(dim, start, length),
+            self.quant_config,
+        )
+
+    def __getitem__(self, key):
+        return RTNTensor(self.data[key], self.scale[key], self.quant_config)
+
+    @property
+    def shape(self):
+        shape = self.data.shape
+        factor = 1 if self.quant_config.weight_bits == 8 else 2
+        batch_present = len(shape) == 3
+        if batch_present:
+            return torch.Size((shape[0], shape[1] * factor, shape[2]))
+        else:
+            return torch.Size((shape[0] * factor, shape[1]))
+
+    def copy_(self, loaded_weight: torch.Tensor) -> None:
+        qweight, weight_scale = rtn_quantize(
+            loaded_weight.cuda(),
+            self.quant_config.weight_bits,
+            self.quant_config.group_size,
+        )
+
+        self.data.copy_(qweight)
+        self.scale.data.copy_(weight_scale)
+
+
+class RTNParameter(Parameter):
+    """A wrapper over Parameter that returns RTNTensor (a wrapper over Tensor)
+    when its data is accessed. We need this wrapper for the data loading phase
+    only, so we can intercept a weight copying function (torch.Tensor.copy_)
+    and apply quantization on-the-fly.
+    """
+
+    def __new__(cls, data: torch.Tensor, **kwargs):
+        return super().__new__(cls, data=data, requires_grad=False)
+
+    def __init__(
+        self, data: torch.Tensor, scale: torch.Tensor, quant_config: RTNConfig
+    ) -> None:
+        self.scale = scale
+        self.quant_config = quant_config
+
+    @property
+    def data(self):
+        return RTNTensor(super().data, self.scale, self.quant_config)
+
+
+class RTNLinearMethod(LinearMethodBase):
+    """Linear method for RTN.
+
+    Args:
+        quant_config: The RTN quantization config.
+    """
+
+    def __init__(self, quant_config: RTNConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        num_groups_per_col = (
+            input_size_per_partition // self.quant_config.group_size
+            if self.quant_config.group_size != -1
+            else 1
+        )
+
+        scale = Parameter(
+            torch.empty(
+                output_size_per_partition, num_groups_per_col, dtype=params_dtype
+            ),
+            requires_grad=False,
+        )
+        factor = 1 if self.quant_config.weight_bits == 8 else 2
+
+        weight = RTNParameter(
+            data=torch.empty(
+                output_size_per_partition // factor,
+                input_size_per_partition,
+                dtype=torch.uint8,
+            ),
+            scale=scale,
+            quant_config=self.quant_config,
+        )
+
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(
+            weight,
+            {
+                **extra_weight_attrs,
+                "input_dim": 1,
+                "output_dim": 0,
+            },
+        )
+
+        layer.register_parameter("scale", scale)
+        layer.output_size_per_partition = output_size_per_partition
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        """Repack weights and scales for Marlin kernels."""
+        weight_bits = self.quant_config.weight_bits
+
+        weight, scale = repack_weights(layer.weight, layer.scale, weight_bits)
+
+        replace_parameter(layer, "weight", weight)
+        replace_parameter(layer, "scale", scale)
+
+        init_workspace(layer.weight.device)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return apply_rtn_marlin_linear(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.scale,
+            workspace=workspace,
+            quant_type=self.quant_config.quant_type,
+            output_size_per_partition=layer.output_size_per_partition,
+            input_size_per_partition=layer.input_size_per_partition,
+            bias=bias,
+        )
+
+
+class RTNMoEMethod(FusedMoEMethodBase):
+    def __init__(self, quant_config: RTNConfig, moe: FusedMoEConfig):
+        super().__init__(moe)
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        factor = 1 if self.quant_config.weight_bits == 8 else 2
+
+        # Fused gate_up_proj (column parallel)
+        num_groups_per_col = (
+            hidden_size // self.quant_config.group_size
+            if self.quant_config.group_size != -1
+            else 1
+        )
+        w13_scale = Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                num_groups_per_col,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scale", w13_scale)
+
+        w13_weight = RTNParameter(
+            data=torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition // factor,
+                hidden_size,
+                dtype=torch.uint8,
+            ),
+            scale=w13_scale,
+            quant_config=self.quant_config,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        num_groups_per_col = (
+            intermediate_size_per_partition // self.quant_config.group_size
+            if self.quant_config.group_size != -1
+            else 1
+        )
+        w2_scale = Parameter(
+            torch.zeros(
+                num_experts, hidden_size, num_groups_per_col, dtype=params_dtype
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scale", w2_scale)
+
+        w2_weight = RTNParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size // factor,
+                intermediate_size_per_partition,
+                dtype=torch.uint8,
+            ),
+            scale=w2_scale,
+            quant_config=self.quant_config,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        """Repack weights and scales for Marlin kernels."""
+        weight_bits = self.quant_config.weight_bits
+
+        w13_weight, w13_scale = repack_weights(
+            layer.w13_weight, layer.w13_scale, weight_bits
+        )
+        replace_parameter(layer, "w13_weight", w13_weight)
+        replace_parameter(layer, "w13_scale", w13_scale)
+
+        w2_weight, w2_scale = repack_weights(
+            layer.w2_weight, layer.w2_scale, weight_bits
+        )
+        replace_parameter(layer, "w2_weight", w2_weight)
+        replace_parameter(layer, "w2_scale", w2_scale)
+
+        init_workspace(layer.w13_weight.device)
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return None
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            raise NotImplementedError("EPLB not supported for `RTNMoEMethod` yet.")
+
+        topk_weights, topk_ids, _ = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+        )
+
+        return fused_marlin_moe(
+            x,
+            layer.w13_weight,
+            layer.w2_weight,
+            getattr(layer, "w13_bias", None),
+            getattr(layer, "w2_bias", None),
+            layer.w13_scale,
+            layer.w2_scale,
+            router_logits,
+            topk_weights,
+            topk_ids,
+            quant_type_id=self.quant_config.quant_type.id,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            workspace=workspace,
+        )
+
+
+def rtn_quantize(
+    tensor: torch.Tensor, num_bits: int, group_size: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize a tensor using per-group static scaling factor.
+
+    Args:
+        tensor: The input tensor.
+        num_bits: Target precision for the result (supported values are
+                  8 or 4).
+        group_size: Quantization granularity.
+                    If equal to -1, each row in the input tensor is treated
+                    as one group.
+    """
+    batch_present = len(tensor.shape) == 3
+    if not batch_present:
+        tensor = tensor.unsqueeze(0)
+
+    q_range = 2**num_bits
+    num_groups = (
+        tensor.shape[1] * tensor.shape[2] // group_size
+        if group_size != -1
+        else tensor.shape[1]
+    )
+    """Calculate a scaling factor per input group.
+    """
+    input_flat = tensor.reshape(tensor.shape[0], num_groups, -1)
+    input_min = torch.min(input_flat, dim=2, keepdim=True)[0]
+    input_max = torch.max(input_flat, dim=2, keepdim=True)[0]
+    input_max_abs = torch.max(input_min.abs(), input_max.abs())
+    scale = input_max_abs * 2.0 / (q_range - 1)
+    """Scale each input group, round to the nearest integer, shift 
+    the range and truncate.
+    """
+    scaled_input = input_flat / scale
+    scaled_input = scaled_input.round()
+    scaled_input += q_range // 2
+    scaled_input = scaled_input.clamp(0, q_range - 1)
+
+    scale = scale.reshape(tensor.shape[0], tensor.shape[1], -1).contiguous()
+    inputs_q = scaled_input.reshape(tensor.shape).to(torch.uint8)
+    inputs_q = inputs_q.contiguous()
+
+    if num_bits == 4:
+        """Pack two 4-bit values into each byte.
+        """
+        inputs_q = (inputs_q[:, :, 1::2] << 4) | (inputs_q[:, :, ::2] & 0xF)
+        inputs_q = inputs_q.reshape(
+            tensor.shape[0], tensor.shape[1] // 2, tensor.shape[2]
+        )
+        inputs_q = inputs_q.contiguous()
+
+    if not batch_present:
+        inputs_q = inputs_q.squeeze(0)
+        scale = scale.squeeze(0)
+
+    return inputs_q, scale
+
+
+def rtn_dequantize(tensor: torch.Tensor, scale: torch.Tensor) -> torch.Tensor:
+    """Dequantize a tensor using per-group static scaling factors.
+
+    Args:
+        tensor: The input tensor.
+        scale: The tensor with per-group scale factors.
+    """
+    batch_present = len(tensor.shape) == 3
+    if not batch_present:
+        tensor = tensor.unsqueeze(0)
+        scale = scale.unsqueeze(0)
+
+    num_groups = scale.size(1) * scale.size(2)
+    batch, input_dim, output_dim = tensor.shape
+
+    num_bits = 8 if input_dim == scale.size(1) else 4
+    q_range = 2**num_bits
+    if num_bits == 4:
+        input_dim *= 2
+
+    data = torch.empty(
+        (batch, input_dim, output_dim), dtype=scale.dtype, device=tensor.device
+    )
+
+    if num_bits == 8:
+        data.copy_(tensor)
+        data -= q_range // 2
+    else:
+        """Unpack two 4-bit values from each byte.
+        """
+        tensor = tensor.reshape(batch, input_dim, output_dim // 2)
+        for i in range(2):
+            data[:, :, i::2] = ((tensor << 4 * (1 - i)) >> 4).to(
+                torch.int8
+            ) - q_range // 2
+    """Scale each input group with its scaling factor.
+    """
+    scale = scale.reshape(batch, num_groups, -1)
+    data = data.reshape(batch, num_groups, -1)
+    data = torch.mul(data, scale)
+
+    input_deq = data.reshape((batch, input_dim, output_dim)).contiguous()
+    if not batch_present:
+        input_deq = input_deq.squeeze(0)
+
+    return input_deq
+
+
+def _get_perms():
+    perm = []
+    for i in range(32):
+        perm1 = []
+        col = i // 4
+        for block in [0, 1]:
+            for row in [
+                2 * (i % 4),
+                2 * (i % 4) + 1,
+                2 * (i % 4 + 4),
+                2 * (i % 4 + 4) + 1,
+            ]:
+                perm1.append(16 * row + col + 8 * block)
+        for j in range(4):
+            perm.extend([p + 256 * j for p in perm1])
+
+    perm_arr = np.array(perm)
+    interleave = np.array([0, 2, 4, 6, 1, 3, 5, 7])
+    perm_arr = perm_arr.reshape((-1, 8))[:, interleave].ravel()
+    perm_tensor = torch.from_numpy(perm_arr)
+    scale_perm = []
+    for i in range(8):
+        scale_perm.extend([i + 8 * j for j in range(8)])
+    scale_perm_single = []
+    for i in range(4):
+        scale_perm_single.extend([2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
+    return perm_tensor, scale_perm, scale_perm_single
+
+
+_perm, _scale_perm, _scale_perm_single = _get_perms()
+
+
+def pack_for_marlin(weight, scale, qbits):
+    batch = weight.shape[0]
+
+    n = weight.size(1)
+    k = weight.size(2)
+    groupsize = k // scale.size(2)
+
+    tile = 16
+    s = scale.permute(0, 2, 1)  # transpose
+    w = weight.permute(0, 2, 1)  # transpose
+    if groupsize != k:
+        w = w.reshape((batch, -1, groupsize, n))
+        w = w.permute(0, 2, 1, 3)
+        w = w.reshape((batch, groupsize, -1))
+        s = s.reshape((batch, 1, -1))
+
+    if groupsize != k:
+        w = w.reshape((batch, groupsize, -1, n))
+        w = w.permute(0, 2, 1, 3)
+        w = w.reshape((batch, k, n)).contiguous()
+        s = s.reshape((batch, -1, len(_scale_perm)))[:, :, _scale_perm]
+    else:
+        s = s.reshape((batch, -1, len(_scale_perm_single)))[:, :, _scale_perm_single]
+    s = s.reshape((batch, -1, n)).contiguous()
+    w = w.reshape((batch, k // tile, tile, n // tile, tile))
+    w = w.permute((0, 1, 3, 2, 4))
+    w = w.reshape((batch, k // tile, n * tile))
+    res = w
+    res = res.reshape((batch, -1, _perm.numel()))[:, :, _perm].reshape(res.shape)
+    if qbits == 4:
+        q = torch.zeros(
+            (batch, res.shape[1], res.shape[2] // 2), dtype=torch.int8, device=w.device
+        )
+        for i in range(2):
+            q |= res[:, :, i::2] << 4 * i
+        q = q.reshape(batch, -1, n).contiguous()
+    else:
+        q = res.clone()
+        q[:, :, 2::8] = res[:, :, 4::8]
+        q[:, :, 3::8] = res[:, :, 5::8]
+        q[:, :, 4::8] = res[:, :, 2::8]
+        q[:, :, 5::8] = res[:, :, 3::8]
+        q = q.reshape(batch, -1, n).to(torch.int8).contiguous()
+
+    return q, s
+
+
+def repack_8bit_into_32bit(input):
+    output = torch.zeros(
+        (input.shape[0], input.shape[1], input.shape[2] // 4),
+        dtype=torch.int32,
+        device=input.device,
+    )
+    for i in range(4):
+        output |= (input[:, :, i::4] & 0xFF).to(torch.int32) << 8 * i
+
+    return output
+
+
+def repack_weights(qweight, scale, weight_bits):
+    batch_present = len(qweight.shape) == 3
+    if not batch_present:
+        qweight = qweight.unsqueeze(0)
+        scale = scale.unsqueeze(0)
+
+    if weight_bits == 4:
+        """Unpack two 4-bit values from each byte.
+        """
+        qweight_unpacked = torch.empty(
+            (qweight.shape[0], qweight.shape[1] * 2, qweight.shape[2]),
+            dtype=torch.uint8,
+            device=qweight.device,
+        )
+        for i in range(2):
+            qweight_unpacked[:, :, i::2] = ((qweight << 4 * (1 - i)) >> 4).reshape(
+                qweight.shape[0], qweight.shape[1] * 2, qweight.shape[2] // 2
+            )
+    else:
+        qweight_unpacked = qweight
+
+    qweight_packed, scale_packed = pack_for_marlin(qweight_unpacked, scale, weight_bits)
+    """Marlin kernels expect tensors in int32 format in a certain shape
+    """
+    qweight_repacked = repack_8bit_into_32bit(qweight_packed.to(torch.uint8))
+    qweight_reshaped = qweight_repacked.reshape(
+        qweight.shape[0], qweight.shape[2] // 16, -1
+    )
+    if not batch_present:
+        qweight_reshaped = qweight_reshaped.squeeze(0)
+        scale_packed = scale_packed.squeeze(0)
+
+    return qweight_reshaped, scale_packed
+
+
+def init_workspace(device):
+    global workspace
+    if workspace is None:
+        workspace = marlin_make_workspace_new(device, 4)
diff --git a/model_executor/layers/quantization/schema.py b/model_executor/layers/quantization/schema.py
new file mode 100644
index 0000000..669bd9d
--- /dev/null
+++ b/model_executor/layers/quantization/schema.py
@@ -0,0 +1,90 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This file contains the Pydantic schemas for various quantization-related
+parameters. When a relevant quantization technique is specified, these
+parameters are loaded in the form of a JSON alongside the model weights
+and augment the model with additional information needed for use of that
+technique. The format of this JSON should be specified by one or more
+schemas contained here.
+
+For example, when the KV cache is quantized to FP8-E4M3 (currently only
+possible on ROCm), the model can be optionally augmented with KV cache
+scaling factors.
+"""
+
+from pydantic import BaseModel, ConfigDict, ValidationInfo, model_validator
+
+
+class KVCacheQuantSchema(BaseModel):
+    dtype: str
+    # Each key is a TP rank. Each value is a dictionary mapping a TP rank's
+    # layer indices to their per-tensor KV cache scaling factor.
+    # TODO: Consider pulling this and its validation methods out into its
+    # own schema class (tricky as its members are variable)
+    scaling_factor: dict[int, dict[int, float]]
+
+    @model_validator(mode="after")
+    def check_is_fp8(self) -> "KVCacheQuantSchema":
+        assert self.dtype == "float8_e4m3fn", (
+            "Loaded scaling factors intended for KV cache dtype = "
+            f"{self.dtype} rather than float8_e4m3fn!"
+        )
+        return self
+
+    @model_validator(mode="after")
+    def check_tp_ranks(self, info: ValidationInfo) -> "KVCacheQuantSchema":
+        context = info.context
+        if context:
+            tp_size = context["tp_size"]
+            num_hidden_layers = context["num_hidden_layers"]
+            assert len(self.scaling_factor) == tp_size, (
+                f"Loaded dictionary has TP size {len(self.scaling_factor)} "
+                f"but LLM engine is currently running with TP size {tp_size}."
+            )
+            for tp_rank, layer_maps in self.scaling_factor.items():
+                assert len(layer_maps) == num_hidden_layers, (
+                    f"KV cache scales map for TP rank {tp_rank} is malformed. "
+                    f"Expected {num_hidden_layers} layers, got "
+                    f"{len(layer_maps)}."
+                )
+            for i in range(tp_size):
+                assert i in self.scaling_factor, (
+                    f"KV cache scales map for TP rank {i} not found."
+                )
+        return self
+
+    @model_validator(mode="after")
+    def check_current_rank(self, info: ValidationInfo) -> "KVCacheQuantSchema":
+        context = info.context
+        if context:
+            tp_rank = context["tp_rank"]
+            num_hidden_layers = context["num_hidden_layers"]
+            layer_scales_map = self.scaling_factor[tp_rank]
+            for i in range(num_hidden_layers):
+                assert i in layer_scales_map, (
+                    f"Could not find KV cache scales for layer {i} in "
+                    f"TP rank {tp_rank}."
+                )
+        return self
+
+
+class QuantParamSchema(BaseModel):
+    # TODO: Generalize and extend with more fields
+    # (e.g. weights/activations params) once functionality is enabled
+    model_config = ConfigDict(protected_namespaces=())
+    model_type: str | None
+    kv_cache: KVCacheQuantSchema
+
+    @model_validator(mode="after")
+    def check_model_type(self, info: ValidationInfo) -> "QuantParamSchema":
+        context = info.context
+        if context:
+            model_type = context.get("model_type", None)
+            if model_type is not None:
+                assert model_type == self.model_type, (
+                    f"Model type is {model_type} but loaded "
+                    f"scaling factors belonging to different "
+                    f"model type {self.model_type}!"
+                )
+        return self
diff --git a/model_executor/layers/quantization/torchao.py b/model_executor/layers/quantization/torchao.py
new file mode 100644
index 0000000..3fee71e
--- /dev/null
+++ b/model_executor/layers/quantization/torchao.py
@@ -0,0 +1,380 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import importlib
+import json
+import types
+from importlib.util import find_spec
+from typing import Any, Optional
+
+import regex as re
+import torch
+import torch.nn.functional as F
+from packaging import version
+from torch.nn.parameter import Parameter
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.utils import set_weight_attrs
+
+logger = init_logger(__name__)
+
+
+def _bond_method_to_cls(func, obj):
+    if hasattr(func, "__self__") or not callable(func):
+        # If the function is already bound to an instance, return it as is
+        return func
+    else:
+        return types.MethodType(func, obj)
+
+
+def _get_weight_attrs(param):
+    # record attributes attached to the weight, so we can
+    # recover later
+    recorded_weight_attr = {}
+    for key in param.__dict__:
+        if hasattr(param, key):
+            attr = getattr(param, key)
+            if not callable(attr):
+                recorded_weight_attr[key] = attr
+            elif hasattr(attr, "__self__") and param is attr.__self__:
+                # if attr is a bonded method for an instance, and
+                # attr.__self__ points to the instance (param)
+                # we'll record the underlying function object
+                recorded_weight_attr[key] = attr.__func__
+            else:
+                recorded_weight_attr[key] = attr
+    return recorded_weight_attr
+
+
+def _restore_weight_attrs(param, recorded_weight_attr):
+    for attr_name, attr in recorded_weight_attr.items():
+        if not hasattr(param, attr_name):
+            setattr(param, attr_name, _bond_method_to_cls(attr, param))
+
+
+def torchao_version_at_least(torchao_version: str) -> bool:
+    if find_spec("torchao"):
+        try:
+            if version.parse(importlib.metadata.version("torchao")) >= version.parse(
+                torchao_version
+            ):
+                return True
+        except (ImportError, version.InvalidVersion):
+            return False
+    return False
+
+
+def should_skip(prefix: str, skip_modules: list[str]) -> bool:
+    """
+    Robust skipping logic:
+    should_skip("model.model.layers.1.q_proj",
+                ["model.model.layers.1.q_proj"])  # True
+    should_skip("model.model.layers.10.o_proj", ["o_proj"])  -> True
+    should_skip("visual.model.layers.1.q_proj", ["visual"])   -> True
+    should_skip("model.model.layers.1.q_proj", ["layers.1"])  -> True
+    should_skip("model.model.layers.11.q_proj", ["layers.1"]) -> False
+    """
+    for s in skip_modules:
+        if prefix == s:
+            return True
+        if f".{s}." in f".{prefix}.":
+            return True
+    return False
+
+
+if torchao_version_at_least("0.15.0"):
+    from torchao.prototype.tensor_conversion.api import (
+        convert_to_packed_tensor_based_on_current_hardware,
+    )
+else:
+    convert_to_packed_tensor_based_on_current_hardware = lambda t: t
+
+
+class TorchAOConfig(QuantizationConfig):
+    """Config class for torchao."""
+
+    def __init__(
+        self,
+        torchao_config,
+        skip_modules: list[str] | None = None,
+        is_checkpoint_torchao_serialized: bool = False,
+    ) -> None:
+        """
+        # TorchAO quantization relies on tensor subclasses. In order,
+        # to enable proper caching this needs standalone compile
+        if is_torch_equal_or_newer("2.8.0.dev"):
+            os.environ["VLLM_TEST_STANDALONE_COMPILE"] = "1"
+            logger.info(
+                "Using TorchAO: Setting VLLM_TEST_STANDALONE_COMPILE=1")
+
+        # TODO: remove after the torch dependency is updated to 2.8
+        if is_torch_equal_or_newer(
+                "2.7.0") and not is_torch_equal_or_newer("2.8.0.dev"):
+            os.environ["VLLM_DISABLE_COMPILE_CACHE"] = "1"
+            logger.info("Using TorchAO: Setting VLLM_DISABLE_COMPILE_CACHE=1")
+        """
+        super().__init__()
+        self.torchao_config = torchao_config
+        self.skip_modules = skip_modules or []
+        self.is_checkpoint_torchao_serialized = is_checkpoint_torchao_serialized
+
+    def __repr__(self) -> str:
+        return (
+            f"TorchAOConfig({self.torchao_config=}, {self.skip_modules=}, "
+            f"{self.is_checkpoint_torchao_serialized=})"
+        )
+
+    def get_name(self) -> QuantizationMethods:
+        return "torchao"
+
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        return [torch.float32, torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 75
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        """torchao doesn't require additional config files, we use
+        `config.json` from huggingface: `model_config.hf_config`
+        """
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "TorchAOConfig":
+        """Create the quant config from an hf model config"""
+        try:
+            from torchao.core.config import config_from_dict
+        except ImportError as err:
+            raise ImportError(
+                "Please install torchao>=0.10.0 via "
+                "`pip install torchao>=0.10.0` to use torchao quantization."
+            ) from err
+
+        quant_method = cls.get_from_keys_or(config, ["quant_method"], None)
+        is_checkpoint_torchao_serialized = (
+            quant_method is not None and "torchao" in quant_method
+        )
+
+        hf_config = cls.get_from_keys_or(config, ["quant_type"], None)
+        assert hf_config is not None, "quant_type must be specified"
+        assert len(hf_config) == 1 and "default" in hf_config, (
+            "Expected only one key 'default' in quant_type dictionary"
+        )
+        quant_type = hf_config["default"]
+        ao_config = config_from_dict(quant_type)
+
+        # Adds skipped modules defined in "modules_to_not_convert"
+        skip_modules = config.get("modules_to_not_convert", []) or []
+
+        # Adds skipped modules defined in "module_fqn_to_config"
+        _data = quant_type.get("_data", {})
+        if not isinstance(_data, dict):
+            _data = {}
+
+        module_fqn = _data.get("module_fqn_to_config", {})
+        if not isinstance(module_fqn, dict):
+            module_fqn = {}
+
+        for layer, layer_cfg in module_fqn.items():
+            if layer_cfg is None:
+                skip_modules.append(layer)
+
+        return cls(ao_config, skip_modules, is_checkpoint_torchao_serialized)
+
+    @classmethod
+    def from_config_file(cls, config_file: str) -> "TorchAOConfig":
+        """Initialize class from a config file. Example:
+        ```
+        config = Float8DynamicActivationFloat8WeightConfig(granularity=PerRow())
+        fn = "torchao_config.json"
+
+        with open(fn, "w") as f:
+            f.write(json.dumps(config_to_dict(config)))
+        ```
+        """
+        with open(config_file) as f:
+            f.seek(0)
+            f_read = f.read()
+            config_dict = json.loads(f_read)
+
+        hf_config = {"quant_type": {"default": config_dict}}
+        return cls.from_config(hf_config)
+
+    @classmethod
+    def from_config_dict_json(cls, config_dict_json: str) -> "TorchAOConfig":
+        """Iniitalize class from a config_dict json string, got from
+        torchao_config_object = some AOBaseConfig object
+        json.dumps(config_to_dict(torchao_config_object))
+        """
+        config_dict = json.loads(config_dict_json)
+        hf_config = {"quant_type": {"default": config_dict}}
+        return cls.from_config(hf_config)
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if not isinstance(layer, LinearBase):
+            return None
+
+        from torchao.quantization import ModuleFqnToConfig
+
+        if should_skip(prefix, self.skip_modules):
+            return UnquantizedLinearMethod()
+
+        module_fqn = prefix
+        if isinstance(self.torchao_config, ModuleFqnToConfig):
+            module_fqn_to_config = self.torchao_config.module_fqn_to_config
+            c = None
+            if module_fqn in module_fqn_to_config:
+                assert not module_fqn.startswith("re:"), (
+                    "module fqn should not start with"
+                    "`re:`, which is used for specifying regex"
+                )
+                c = module_fqn_to_config[module_fqn]
+            else:
+                for maybe_module_fqn_pattern in module_fqn_to_config:
+                    if not maybe_module_fqn_pattern.startswith("re:"):
+                        continue
+                    elif re.fullmatch(maybe_module_fqn_pattern[3:], module_fqn):
+                        # we'll apply the config for first fully matched pattern
+                        c = module_fqn_to_config[maybe_module_fqn_pattern]
+                        break
+                else:
+                    # fallback to use default if no module specific
+                    # config is provided
+                    c = module_fqn_to_config.get("_default", None)
+
+            if c is not None:
+                current_torchao_config = TorchAOConfig(
+                    c, self.skip_modules, self.is_checkpoint_torchao_serialized
+                )
+                return TorchAOLinearMethod(current_torchao_config)
+            else:
+                return UnquantizedLinearMethod()
+
+        return TorchAOLinearMethod(self)
+
+    def get_scaled_act_names(self) -> list[str]:
+        return []
+
+
+def torchao_quantize_param_data(
+    param: torch.Tensor, torchao_config: Any
+) -> torch.nn.Parameter:
+    """Quantize a Tensor with torchao quantization specified by torchao_config
+
+    Args:
+        param: weight parameter of the linear module
+        torchao_config: type of quantization and their arguments we want to
+            use to quantize the Tensor
+    """
+    from torchao.core.config import AOBaseConfig
+    from torchao.quantization import quantize_
+
+    assert isinstance(torchao_config, AOBaseConfig), f"{torchao_config}"
+    """
+    Avoid real weight allocation for faster load, since we will
+    end up setting it to param.
+    """
+    with torch.device("meta"):
+        # linear can't be top level module since quantize_ is inplace
+        # while some of our configs need to do module swap, and only non-top
+        # level modules support module swap
+        dummy_linear = torch.nn.Sequential(
+            torch.nn.Linear(param.shape[1], param.shape[0], bias=False)
+        )
+
+    dummy_linear[0].weight = param
+    quantize_(dummy_linear, torchao_config)
+    return dummy_linear[0].weight
+
+
+class TorchAOLinearMethod(LinearMethodBase):
+    """Linear method for torchao.
+
+    Args:
+        quant_config: The torchao quantization config, a string that encodes
+            the type of quantization and all relevant arguments.
+    """
+
+    def __init__(self, quant_config: TorchAOConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        weight = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        if self.quant_config.is_checkpoint_torchao_serialized:
+            weight = torchao_quantize_param_data(
+                weight, self.quant_config.torchao_config
+            )
+
+        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return F.linear(x, layer.weight, bias)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        if self.quant_config.is_checkpoint_torchao_serialized:
+            if not hasattr(layer, "weight"):
+                return
+
+            # record attributes attached to the weight, so we can
+            # recover later
+            recorded_weight_attr = _get_weight_attrs(layer.weight)
+
+            layer.weight = Parameter(
+                convert_to_packed_tensor_based_on_current_hardware(layer.weight),
+                requires_grad=layer.weight.requires_grad,
+            )
+
+            _restore_weight_attrs(layer.weight, recorded_weight_attr)
+            return
+
+        # online quantize the weight if the checkpoint is not already
+        # quantized by torchao
+        recorded_weight_attr = _get_weight_attrs(layer.weight)
+
+        weight = torchao_quantize_param_data(
+            layer.weight, self.quant_config.torchao_config
+        )
+        weight = torch.nn.Parameter(
+            convert_to_packed_tensor_based_on_current_hardware(weight),
+            weight.requires_grad,
+        )
+
+        _restore_weight_attrs(weight, recorded_weight_attr)
+        layer.register_parameter("weight", weight)
diff --git a/model_executor/layers/quantization/tpu_int8.py b/model_executor/layers/quantization/tpu_int8.py
new file mode 100644
index 0000000..64bfa8f
--- /dev/null
+++ b/model_executor/layers/quantization/tpu_int8.py
@@ -0,0 +1,139 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    QuantizationMethods,
+)
+from vllm.model_executor.parameter import ModelWeightParameter
+
+ACTIVATION_SCHEMES = ["none", "dynamic"]
+
+
+class Int8TpuConfig(QuantizationConfig):
+    """Int8 Quantization Config class for TPU Backend."""
+
+    def __init__(
+        self,
+        activation_scheme: str = "none",
+    ) -> None:
+        super().__init__()
+        if activation_scheme not in ACTIVATION_SCHEMES:
+            raise ValueError(f"Unsupported activation scheme {activation_scheme}")
+        self.activation_scheme = activation_scheme
+
+    def get_name(self) -> QuantizationMethods:
+        return "tpu_int8"
+
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
+        return [torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        raise NotImplementedError("This function should not be called with TPU Backend")
+
+    @staticmethod
+    def get_config_filenames() -> list[str]:
+        return []
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "Int8TpuConfig":
+        activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
+        return cls(activation_scheme=activation_scheme)
+
+    def get_quant_method(
+        self, layer: Module, prefix: str
+    ) -> Optional["TPUInt8LinearMethod"]:
+        if isinstance(layer, LinearBase):
+            return TPUInt8LinearMethod(self)
+        return None
+
+
+class TPUInt8LinearMethod(LinearMethodBase):
+    """Int8 Linear method for TPU Quant."""
+
+    def __init__(self, quant_config: Int8TpuConfig):
+        self.quant_config = quant_config
+        self.quantize_activation = False
+        if self.quant_config.activation_scheme == "dynamic":
+            self.quantize_activation = True
+
+    def create_weights(
+        self,
+        layer: Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=params_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+    def _quantize_weight(
+        self, weight: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        weight_dtype = weight.dtype
+        weight = weight.cpu().to(torch.float32)
+        n_bit = 8
+        eps = 1e-5
+        max_int = 2 ** (n_bit - 1) - 1
+        min_int = -(2 ** (n_bit - 1))
+        max_val = weight.abs().amax(dim=-1, keepdim=True)
+        max_val = max_val.clamp(min=eps)
+        qscale = max_val / max_int
+        qweight = torch.clamp(
+            torch.round(weight * (1.0 / qscale)), min_int, max_int
+        ).to(torch.int8)
+        qscale = qscale.squeeze().to(weight_dtype)
+        return qweight, qscale
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        layer.weight = Parameter(layer.weight.data, requires_grad=False)
+        device = layer.weight.device
+        qweight, qscale = self._quantize_weight(layer.weight)
+        qweight = qweight.to(device)
+        qscale = qscale.to(device)
+        layer.weight = Parameter(qweight, requires_grad=False)
+        layer.scale = Parameter(qscale, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        try:
+            import torch_xla.experimental.custom_kernel  # noqa: F401
+        except ImportError as err:
+            raise ImportError(
+                "Please install torch_xla by following the instructions at "
+                "https://docs.vllm.ai/en/latest/getting_started/tpu-installation.html "  # noqa: E501
+                "to run vLLM on TPU."
+            ) from err
+        weight = layer.weight
+        scale = layer.scale
+        out = torch.ops.xla.quantized_matmul_int8(
+            x, weight, scale, quantize_activation=self.quantize_activation
+        )
+        if bias is not None:
+            out = out + bias
+        return out
diff --git a/model_executor/layers/quantization/utils/__init__.py b/model_executor/layers/quantization/utils/__init__.py
new file mode 100644
index 0000000..07c1802
--- /dev/null
+++ b/model_executor/layers/quantization/utils/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .layer_utils import replace_parameter, update_tensor_inplace
+
+__all__ = ["update_tensor_inplace", "replace_parameter"]
diff --git a/model_executor/layers/quantization/utils/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f263f1db61bd875c077cbf81b438691933f5f100
GIT binary patch
literal 319
zcmXv~y-ve05VoD5My)z9z{G@DIuws75@O&1cz{UAGWDrgoD<_Xs9|H~0eA+Ug{5;Q
zBo?|MbwFa`62T4k`+fKKHl2<c38v5Xlk7(y{EPT=c1PsAFvAQ-=6J!KC<JFlm}Di2
zq)lggTTYOf==KA6)Jsra2kjt2=nfihbOaTltgE1GIRHXRgpiQBnx)+Ybqhf?(PBL$
zhjKSkN+T-u%60@~Ki4ukFTM5isKW~4eBI<{i@O{o+8gQHcw3e70ntfU89)VVST?Z=
za%f-6`$m`1KI&)*Hw=@C7P3*PQ{Q&kInf$~i_rh1zo<SW^_6hWzca=!`TOK}bCPey
Ki>Fb@sPqd(v0B;y

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/allspark_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/allspark_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..32264475302d813029d31f7d85eb27723951b6fd
GIT binary patch
literal 2201
zcma)7O>7%g5PoZW{r{WTNlM#f>kz1$#HMZ9xKdJZ5;sM4Q#Vcy7^Kz4yGb@)dzZKC
zQoAOq1Q)~sZnT1mD~L;xkhu2FW#d+=wW>rV#32WymC_RznCIU#r4mni^Jd=6d^_{r
z%)Z}zJ~x6P*}fG2aw7Bx5xS$L0pVa5$Tx^bJSCw#SuGM(vg9ok;jNOjWXs!1be;y;
zmbVM^j=u}hU$>~dlc)18m~P%Kcz6d)Crp=M<J|(<8R^@0xlK3k`P`QGRjHVFpKPwg
zC?i;?U@Vk1R*^VuQ^uv3#c<~eoW$X^sv;O(wZ*d<2&#x|2<->K)ff@WN=0K;u_myJ
zfLVpZny86#**GRwwAZNITUf3rEhoeKi6CxmYb;NY4HsAFum!psFRXT$R+tBvB4?%n
zZI2yGm+P-Tb=XhoI(^r|Q{_ON-Z_lc(f91^bvth<euNPI3^;2MF!633Jd3lyIe8mT
z*Dc>7-u}S4Y006wRU`4V#w`j5K<}tqLGSGEgXDTZx2%x{70@0v@Z;SCRrS^>ty>AG
zzmEq2&C~Y)9B<zaBwq*Brg^)l|5X>Q$dA_#TaoKJGJ5&>>o&j+wDYTmAckPw-rtE0
ztnB{-V?PT3`*|Q&YO_~l%%n<i=K`~wU7uo7l9YqnFEYF=s7zVb7`37(GS-;>Z8P&s
zZ6eOxC`;9scc;%X8~}AZ1U_E7`2X=gu5e|IA@#$Yu7zVA{Fiovu_O4H6i)3-FX*x$
z@GA4VVrC{FZV3JzhAZ>TYYUs0z11><4mxx=jI3y430j0_iUKYRk{Yjl*!#3hPNS2#
z%Jdola5g2G)6QOG0BobfPrZyh#cWjIfZ?zY`x#Wcmh9noIvYOn%FXb?EwLc51y12M
zL`l@D@X?rMZ6)Tyq}`0jmH_Q|)X1=FGAoufV>Fe?<g%&NYiw>ko4v8RmR@3SuBTSk
z*tHL`>6|g#)2FUy)2nIr8k@?zzr6CQVx^;?H5nJS4M!(i!`aO{=D-e!2$NpIE<#B6
zU=I-ZclF|DwTdDMM(CB8RpQOG$KQp7R#Fm*s7z}dh7_l7S7t9Ii?c#P5;qb`Roj-!
ziCdCXN|a<?kXYfiP^ds;35lx;SWUD_ORRC^KbNRzqNFA`Nm5Dmvn?^MRE;+a+d`qp
z_7uI^ZvX07b(@3cIRRk>V5&>-PrHj=_|eGer^EAm!}E`a-_>p5=4f0Wy?EcE&t;y@
z<@V-skLT8PTg0>@=dpVW4acZHKJySa#xFHJk$VFT&++HMh-slhk!ED<>x|B%O)C{z
zrcBxv_M6D&^P67e9eFY~zvr3nn2t5aChwI^L`{dEh0p1O=k@c8CT$6&!HXtdG<XG(
zZ{o?@m-oDvADwD=7n_08PbL@k0t=70MqnAD2@N%abI%6P=mV30G?jRkxT43GfxSx2
zn6xzn#7?m6Ei7;3JNkRyeP6>f@k8vF%CEaW?>5e)JMqjmXWx5Rd=w&)FCC721bK%{
z5AqE_g1+(Q_>3OC@bD&>`I3-d&<**y+y`)&DCWmQuo!-FiSh1}rnZYZ*xEewo?&>+
z5GF5#5j|S5*V)DOg-j~Pu3cSC=dRw!EE%o})P8c~?71W!B#se6!o=H3nu2b<WUY(+
z5#f_Wd7LPnb5KkbNw|zBKqN1ix(x)vr>FxbqI`d%$=}h1=Mym<MVrz1(`a%pn$%BS
z($Q%1jT1T=Zd21fLk%@YPnlL&pN~aN8dh=xVbei4CmK9yx(Me+!N^y4zPR(k15zuJ
Fe*p%!Xp;Z{

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/bitblas_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/bitblas_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6a6b2280eac9e69b444f28aa3af15c228e023aa5
GIT binary patch
literal 8574
zcmdTpTWlLwc6T@&K17P79+XTyN0elXj$U^BkS!^(<XDcfdUzwriIucdS~HR<Q6zn5
zWLp9iDA^RS&;=}SKP>Miuv09s@;V<futi+-W1Y5WQ?wsLDP3`=D(Y^xK=ntj{86MI
z?Kv}~C|Pu{Ew&%Mz}$Q0-gEApd+&MOGk=$#pGTmC&3_b1Rub~B_>w8EG_ZZeM93W?
z5|Ig$QEW|NX4*7rVi0D-?6i5*ti$FoH*FcUOj}2-@Xn3eM9Ziho;-LQ6GXKB2{Y=1
z)&^}pw03A+(B?tw79FB<!Zhl!6Y-#!FBOO`sZeC*tb~l4Mfb<tXpuhRkt||CW@Im(
zSSS@s1(G*SW%9uS#`DA?pe?ZzpgtsKsQ1hdbOnG{40xr0)vyN(co?^dUKl$dmcVyQ
z;W+>g@_=J`qVHq#sBiyRPF~6Yw@fUD)m6ZQ-?fO9&{wYa;hdR%n^*<?6=JnSCQoOM
zB-;Wlne52EXCT-s9_Xt77j!j1$BX{l^Xhw>^NYFh$Bo@Li?uLo4eaU5_%(@ju(y7(
z{$ny)JIe$DTey^g0Hay2NmLF+BLI5FW+;^+iVzD2mGLN@4w$sOp|M~%NQY-*lIE0k
zSWw_ap5t1Zk2JS#d0?J^dF#KRZ1DhZoxy4Ws(@{afrf%?5o*T@wSYRH+9EKrML^=W
zh#4@gxsYf+qN9FLH&g*Lbs{Mcku4x1TQ;bAhBeETpe)SAv;tAO78;X;v0yBCITQ{l
zvtx*xDG0OhZ2vn{cSxLBXi$(py-e=LO!qxZxAUgBX~85i5qI1)$)!7YH9L4roDoe^
zFcURRkRcK$lvgYn#7X4#g|cf@HxPS=Crm?R7X~i=g|cfjV@7siAbo%xp!ngf9;gB~
ziu<N{CnQDKw^^D+i3*{JLXl;Sn*s2c(X?q+{q1s_W=Ejy@{yx$0hSg4A}vO2Pj=4*
zWhNGuWZY?<=fAn!qD;qHVxd@*5~T3mrW-RSPqj^*lv=`}%Pp~4<w`WtaxEO5ZkdjX
zQdp2~NMkcfl(vL}vmlr)S7(9|B{UaQKtx++lu%f1xg1h1hvCTex8~TaR(o|uqO(G#
zU!IA@qEwMYK_@oEl~w~oRq)6PR0||!AvT|C<u}V;*(mQyly|L{pH*!Ko)-Gm!o!Q*
zYU`Pe*7J$h^Xsj>DVEsFQZ~R}KDuVDOu7qh+W*Cx|7%ahhR2`q_<!8DQFkIycS3ca
zRBb1p=aGWS4NqOdQ}^TW#=(xn!4B2ksoFZX;k!i3%kre<P0;8}Oprr!l4hZjGD9O{
zctDwgC$3BE4?s>qV%gtXV$E@LT4K%LDzU7B%Bh#QDb7AjYr#AhCvol?LyJX|$i~T!
zh-i*;P;+qxYD=7j+8Q@OZTr+Q4ssS}KD5OdWk<$=)(y0F9X~JI4-}41Iivs=;1o%i
zo3|*a=X#mUA;odaB$}8P%EPqgemkvFm?6vH>)KhUcr*QCeir9P<Wo}y?<2-eX5F<!
zLGjj09ic2kE|FQ+b#jBfM6NRdkD*&VbBDS^N_St^5HCh0nU6#jJ}ra%btyD)MM2S&
z`A&Y$-OLY0!n3??L9wHT4^k<EEs1;sm|Z?A7Kl>P$nVot?6)@Zb1?)=f#$h`FXdqG
zWZpCb*<ORMy=*j76ok2>X^rC3E`krq{B;_QOf>Ts!ctI{_)tVvg5fZqMtrR^VCtFk
zWq1K}+>11lBsM=V4G#nyx)GwK@CAARE7VM_vb%Q}w@?@wxo~0d?csB82<P7(9JwG2
z^^Tq!(yZw(P}B#Fiv_7HX%0b1b0!E{X@BoPZ~sWYkeTS>xwnUU2M07q?=+f&bCgCY
zIGP&#q#vst^F<*hBbqyFH}vD7hoDzR{Qx_Lg`)Y;4hUmcq_L^})`m90@G+!m1mOe=
z<NTjlnCCW9diwD}wR>p2WO!llskLCaI$>>i>MTgQj;~IxzMmpYH&c<UcttI51h}as
z*>Y+n3{ZP*vi6wjKfe0T<BN~qeA1n=viWZ^DbC`_OA(7bFXbY(Le=V99{swdFHza2
zPkC&0bhQtNyBPnb|8=$Ij1E_(SW|vwisO)!15%HjJNl2dl3zOtZ*?wqE|+fj8WX<8
zbw|_BtY73m%K!Sck@eP#YmSSXg_S82Q&6{A*RIxfq*$ilwQZIya-|5H?*a?ze1}PS
zh_mEBo?D5t^f!dzj{eep1n{_{-^h3pUk19|-KWW4oVK5}uz$%hQ13B@=#_M1*Z{yC
zl6Bo+su<mPrA_DiAiMKsFk$8)@_>O5M?aW=CD+Mo=CNo*)EGg=>Ge}iA9Lx;PWdPx
z2H}xwp;{o%oy2`8X)9cM>%K*8IJM21+?Ef|FT8QH20V<@v+y0t1Kt>No+%hY=qo{=
zyniJR)42LN*m-lDmECC0-y$C|%FaA-bJkSN650Y&1x)%%wY-bL@Qh^0JNM$MTLDqC
zN|XxI@`Q}6=&Mf4HmFl*JclQxCjfC89{D&_uxbnOHm!_4E_-ruy}0kgepv6JUpm}L
zcZurut2RH>o2~=PrR%O5)mD?@U?=o_(0tJuB{rkzK2L~AQ~*s@Lg?JJ1EI)EM)I;F
zdqe_tQ{TwH2LSvdLDz1SIXF*|nK}t-UXtB3(WLt_Hj4-T$owgn-AeFbX)yx(mwS%1
z56t52n}dxTQD8X;CcA5v!d;vgvsiUcYTM1hESV(%`+#AAYv0lR2mjJtL;GKkb{P$=
z7`hgcLzlx6e|eVYr$Z4zxk9C&C`1sgznMQ9jmRNUqCAzvnXyo0f>)%79Mw+&%s7N!
z7>n@Wg6K>ng5%di$`!t;X?GOHPsEg~&2#=VYuU5ed!G2ox}2QtVr&Yr{5i3*9tv^#
zntzA92UyLQ@e<%Qgm=#Mo_}*#_cX!)MHBw=@$bMj1f+`4Hmpuzh0a7qsX<LL6sa<|
zBFTb$B?waA3CP!w>gP~_rvUq0^L1@U!rJkKS+jP5>Lgu9lI{l86#%PzxO%g?O|3eW
zBBs*~DbAeVu+3WBY13XvZ2Z^$_Jp<l@zpi!8J)B>={}^o8h|uVvsrUm<=cU@V;`vp
zyu#93Yt|~Yw*B#BqV~<Ny4Gs@jTzJ<y=v=QNmuJ?*{Tz$I~!6giy!9j!{``TQa8Y;
z)+)ok?I;Z_2u-Q3mK1<H5a_+!Rx@PQ1VI)?8+w5tt76_PGVyN>TgOdfrc00&nKyp`
zHr{BjGdp1!JJ3VxVLG^>;6@t<Y83=op@I<Lavh(>NH5yLikuE0bAnwk@m+Xi1kl%W
zoPX0+pLEu%hhBeD_SNWf)&!fBr+Yjwe<kSg{7HB5Qt(dbcIc0%RCmok*lPY09iaak
zxfo{o$W=gY+fT4REI7hGWKOV;xD%{q4~{89l!DG`?vO0d=ykN1x~}HF+?K&iXbPR=
z1|vg$C=M+Ku5rc*S5n<iJU~y;4S4h{R5EUUMs5qzVU_^jni9rm!eNR|Y6bByU|S$b
zkMCyxnxkuZcCGr%YPH&QMm2Zs_i;F>E(1IOc-aPH432vqE)&3)1^8isFUW1h@sesX
z0%>{<kU_t6-uwXT3~DZ5X6#BZ5|P5!L$dUOs`)c4Qz<3|!LvY)LXw4OM1WlqXfQG*
z(_WbCb9iKo;NZ0KNC|)cXu?~+FpzW<uQ@uFtJZw&D}$=J!*Ej;BjO%|KyIh(c$@D-
z7r5=6fn2$RT(_>Q8cd>!yii1D*Ni*&s4P;Pd~V8w1|s{pIdfNoAcr%&1!QYD5kpt{
z7LfHoLMNX}S7$;Lwqt?@#Rr_m!OeQ?ie`#LH2VdRqiIP2$>OBxm@=!eaJ7HH=)^KE
zJQMI{Hh4NXB?&sJFd>A*8}uR|{V6=#XfhYbro(fqZLw{`QJHX5Zrbv1ITjsDU7w8H
zyL9)`%C)a;C!R<c2v%(qlhXn=g|irP^Z#O#X&<bS4q`O|)$R@Q=GdUQ7`+5&e~$R?
zV8uhFar(aPkt$RYT~YA#cL#&Hq$*A_kxEYaf*FjGOTIFc^9%;en6!;Ecn>#1M>D+u
zJ(?AAG!PFcnh6AD7<#}`jN(9{&bfeNkRuWy%_i?L9EF)Z&@l}05P<MYcw`KjK|Fj_
z_bTsJ-k(|bHEsA>6Ta4;dB5;I@~!*YRdY$w;ZX}}6OKCdV4Lb_Q_XGrjmnN=xd9@B
zMs9Mq=)gy?WSz;R+349_@9Y9ZhjC^O%+x%ajmmQE8+;{)Hi~-U^(AAhzPs!kMAze{
zUHs(8@xctv-TWD_X#SjgnC5=otYG$2FW?q)@uGh(v$8kH@72PpxHxCTp7WMCxJZ%w
zp-Jz76&p!oh)pfX;T&XUMavxQWZay=8#iIj`}_4~FwZhvq(pWO-XY5a?lxc@Fp{}2
z6VWrWJr7vgk1uF;=m1n(dcM}CnXiSU>xN`;U|e23s&R7?jmjFQ$3dDIlZiT+#(|}t
zkOEfCa@9aFgG9+%9@u`2H-&3QHMbO&re!_KG$wP+L}J0QDM<7gB<xr;tTCbeclJU9
z(U{4YpT>aCzlKLf5e2`NUv%re#rHn(-YdUbzMfyd(331Vu>8jD$%Vm9Z`qyqZoikb
zyKhx2RxAY<tCtVnYrNZd|LWbAmBB<=yK3v$bQRs2T%1h0y|?BU=aVJn&+S}^WntjC
zi+H?CzrW!PB)ox@nuNFU7w)E;Y|`moYDqY2ZZb)K!%quV&aS?mXzW%4-3kBMugqUv
z{aahY|6O(D-9*j1H(futx?H<-ZOv8%_b5;EGq_fkB;A$wnS>iJS4oFYHTw)@!6V6(
z9c5YmT`G&||43O(`;;Yz@`AGDP@z4_!e$eKarU=T79NxZ(xq_|Ueqx0nN|Yq*{v*G
zMp@!)1|zK|elyv%E4fmbETl}CIZ$0tBv?V#b)zz2j#9tv8OlV1_>L)0NY{@cjFy>B
zU?pKSj+L%zR{+u+peGm>3BiaMuxQq+M#_;+;-G7f%Cu?j9gRt2MR2kxRQnPjMSFB6
zjgFU=Bx3&+RG>62@2&7+_><%JPTxJf?mD<|KItu4uDg9{VPLbQ{La+vsifU=t8%e&
z>1x96TRwTO^KR!#L8APXl}Mtz19IX!YEyFSgT)UFwJEhM3_?}~)JE9w9!_`<uN+Bu
zn||SLHq@p$;p9<m0za);8Co4kG<B<o_o&TH_YaxnSC=howrW(E7RakP3pN}T2}i}U
zuo7G?elYQvc`&u^IIWsb>w1&Up7cPjs3%Zo*eg3)mf!^3fsK@-3;$6xXMT*y#*Y+_
z-iZ-skm|n~C>T_t|3IOK5o*T@ZK>uve_{B$JGsgJu6KnCU2k{w^_}aZ2lesHg>>-3
zaBn~4JcXWfUBe@9L+-Qgr9;Bm!GYo4^CN>JLt0q|E1N(aFtVXTns@)$(4~IOd^s8o
z>u%o2!E*Yq8;ymFlAcMT=(zRNk8zRe!q*<GFrYT<wq;n)An3869`aCh`?__dC@p$S
zZ|t(3KDBkgf1a7J^cwvhjDl$*@<mWHxCb%Jwv90P|3oVPjlA;D<oMIF8kLkjt*BCo
zFS)D!6@Nq}mA|o&$}R?m0BGn1pzc?d0hN>`eO33(%lRttLjLvDlh4>9=C!2LlhWJz
zhLvNVjcy~HI!5XP&+LbplBB0B#X|ekQ?w-B&P#CsL+&oWAZ10!Mh=uO58s|kA#N&<
zSR6NxEfp;(x64#Vd4j9hc3}S>Fr?U*tZR5?w=*7nMrdKi6bEg3HiWXX;Tz1Bx9vcv
zjC6K0&sYoN*NL%hcqOI3A3vqHPdWQG2mPr+p2<sA`%^5mPpcrg1}%J{pg3hk$cB&|
zA!BxgdKf3H6KSB;X`oHhAY{-Wlxuz1U&TP~`F=5^6rg=<Hrgk}+xmOTW??#$?jq!~
zGg(t-v?ts3HqCcus*q(Y_eXy6{%4TL25?pSBK#=4jbO@&L-jvt{H)O!I{rn+qmJ~D
zi8-|_-3#9h!;OJCwKB6h^2Pg)-hXoZZ#us0P>&BLS}wqSf;sgp&&`xQuK#)CpEYh1
N0JrP%nRZ?7{u>%>sx1Hj

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/flashinfer_fp4_moe.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/flashinfer_fp4_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5b9b498ff80e5e0974bea67ab5e9bd3d0684d6e4
GIT binary patch
literal 4159
zcmbVPT}&I<6}~g$vB&rah>e{eqMeP{fWwa$OhR_^qfH1bTah%Izm=S<CWGf13}cUT
zXAHq|B%0la&_2LQm6B>zHSJ4VB@cP*<Gxp_u&8P@O4Uf)KIF{_sVeoM>ABY)Y!I|*
zujF&jJ#+54cjkQO$G;B*S`ZA~^^=V3N9cRHaE7nWY+mCKdWbZXL>i~@I+x_w%x8t9
zz|~}~teE0Clyx)eVN^<b*;7Gp$@-GMtUu{zYnL9#29rU?i+XFeE!oC+x89!Jm)ysA
zj~>c~lVJ``BTf1hm+a8IIFjbImakpOs26Er&4;<!51p$vX3f8cJb({?jf1;C-CdgI
z4}jscqy@hglZUic>;ntl*^`aa94_tB+Tdn~nNB<QYx{77>7I5p8Z+1nf$n>Ye5|8*
z{JNFVGuEO!gY`Tnrkpm2eCfvc<zcy39@kZK=CfQH6FFTlvDSal7?bm=HS>~MyA<Q?
z;5e0oc+|+HGt+j+S$|$ob5>0l<Lvf^rLntkjAerGNQz+9!b+N+lA)(4d4lsQ0Z}HW
z>X{-2t+rHw5S+7=yslbsxh%-!8P#mwmMU0a14Q&PO4h(J!S2p%Q%UEC6-Nye6m?$B
z=<1Y??J&Ux(ctif!G(lk8OlOpVbC6&Dr9u6`H-C!cHY%?6KoYoF4g$b2nn#Dzs;Wl
zd5Em7XS4hkyT#n)$Owll(GfhUGa&B;xyO;uN)FeUn{+$2>9X)@=uuANo<Km+aTUe*
z;<+pA-tz5hq=0YB3o|&^?D^5_*Cx+hy$Yb{r>L02B!_iVPN_M03d{7154_aCR?Ka?
zaBkkT58arYyr^8iI;M=n#);1^jgMVXF8&afmxl?xI-zf3d%!`df~MLX)SDWf&!n)D
zQuFE*1LSYfCTO95PRFfmKAz9y`z@7BW2^seVdSHeb0aveXQtx$MQg^$#piWB8_yaV
z))jmggP#o&*VRS9bNmhkVy38C8PF>L*v)to;HXmp4g>i`;-xpE<S_iqQ6Nj`jT?Cb
z6{)8z^}I%c_vCYb-@1R`wE*m2{hbwmSJ~gS?mzlk1Oey<4p;m`W&hB##JYc^>J>#d
z34<Nmy?`^*GnOryDHRYWXqjw^qQV)};|wK}EYX$FY~4SO0-Z~|<F$K2Nzk~W8$8L+
z^}uBVKR}vL;=e_jt0a7je(rM6aGztEfVF!ru-bfP-E_%S;-897>S(-0HN|`G68Da}
zo_kUQud{HYoulL~iPL=Z8ME{o?-<T~|BEfD<au{nX&%t+E`EFk_p|txtr;w*j9dzG
zP7Z#WeEa6YV4u8@`0}<4BGZ8EXBkwQ0O{bDw_nn)LMSO7q-iTfH{p2*4-;~eoXN@H
zNV(|llcx<!j&Wo^sK!LwMIVE+^N?6=5wMt=u?0BRZh_;i%yhvhm@zMjQ0q}j=st1?
zi0ztD^|Z}H0^%1EHgCdgCQSOpWM_~Ls!hY1k#1njr$ClaRYLxKE2oxEt(xn;LrWJn
ze66eRFP~h!^W!sXu8FnI6VJ?N_;)A1>-sLTc5q_dHSypKRT*6VXz9X>KxpOG@~uZ*
zk4GQeS`YO6Xng7X1AZg0Z{_Cl%}3$Ki3c~=1Kl+#jf&ukciFo-v`SWc9t(ezx++q<
zEXCKQ!RJz7uSZo;@Vl!>aKb`>$V)XNeJc*`!}~l$fLNG!j@>e+#?4&-<Z^rLaP73=
zM9w|FkyT3^jiINmC-o=+^oYeXqpU{B>TVgasV3Iymh9B6dX{`iU(OCS<r`Jkhu}AV
z4Jwoya;Ku@Z7-d3^N@<{Hb5rSBn4C~gX+axc8HcMsEV+J^aco`b=ITh6^61_5L1iF
zl$x5uIgQX5j0xlem`IG0ULYoYCjd|lJ3cC=gf<f9r$88Xg6)++S2@sC3G|f%eZRR=
z4t%&Yz7aiGi4K&b1C{96a`f!l`7g@RFV<Y)=f3`p){e*FwUZNX1fIH;cih@WFU-=e
zbK5q!ps~<YOt)n}3T1k~%_Ft!$CIzDEmVL<X#nmRCF<#2yt-=!+Ff&(8oGzgT`K4v
zn$W=R9D8U6ck0oqOfmeFe^RgWSCQ53Xla6z`|ooxSMhwkVyp6}V;3*V$8fEuIwohb
zc^zk=TVmy|-pjGF-N0(CE)tqIVjkOT6f8xv7W3HlZ}XW4=M|#n=4{F^sCg_$0t}Tf
zd=-nMweG9l*p26hWzE25uG^B$LOyR0OTKV<K)!Bbxe*Am(^ZVq212HNWgWnfR!s}5
zn%rYzOa2e7#F@buBvG0&Y$=ngy#wikB^jpVI3*`28KI;fh~08S)eCrx5Q8`&5~mMo
z8^0|??1+hV$oI9dRHkt@tI%&tJ_gNEs{Iv^CG;wYr2WrZ<&DUJhx#}A#(~&II9dt!
zmczZ3aH1Se{BO%pq!Kz-4jrq6hRUI#XP=itC*HJ5Z7o$Kd0XB@kguc4bKVJVQxJSj
zi8RK&{MXyJZ)39UQ54NcDGH%IjP0du(E#nqNGn|@*m`@LG*E-X0K*4sh2VKXSBX+<
z^z7hvecN5zV0*WAFqP&le0I+6eW$Z(*^JQWCp4VxQ}48`furW0zJ`T~|JTCKex7Ag
zJIKsA|2@oF>)OGDteG5W+=cbF)CDvhE4FLOFm%>X+U{$ty|9H$jy41Z2vSzN?Sl;d
zfd0$10&*^=jo1JBumo+tx21qdwqW6UkX_HgpD4O!fFvRM{b;Aj^1CgaW<JDc$z_ny
zRBHYKNLAoC?v)#Hr@u%3zoGqqL7)5yeew@p;P}5wJP<b{i0k_^I{(_`^6^WaYS6>E
zpM^IOOw|ZFb>@{2<lGzn_La%y$tvUDKl<y=Uv}2`;Sn~!5L+G`Upc*e`ccO(I)B!=
z=KG*59^DjSXZ45#+r81M0P_pcQxT7p#Uq;{tg4Yn{SnMBBC)CnbJdNahpHaRNysf#
P#O|`#{l*Jx_P+lHg<2FZ

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/flashinfer_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/flashinfer_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..09a51e983dc443994cf29b1470d09d00062f38d7
GIT binary patch
literal 11727
zcmcIKYiwKBdFPUs<mF4GL{d*mqF%OXy)C=8V<&z}iDOGnEXOH?b_A_^B~!Y5<XqAZ
zh1!%XTjRBxZ484QbVZzDL*+R@U7$dN{qp{Gk7B%0SF#r_;G!Ek1N*^D4hjszw(mQa
zm!ue~t~2aNJm)*F@4UYAz0Umyx7$G=$ow~Bp527}5;I0<D*>A`JR!G<NJLI1ac+*|
z5H`uCITK6Gaem&!k+_A$Ru<dl1lGzd+vAQo2ZMRp8F$UO7;KT<@rJpExM$A8@>ba!
zZ=7pnuuX1?`{sNM7G!@sFc;v6iAXM~`97!5X|BaYUM8abJt8_J?!LKH+A2EVBXez{
zOEN9(HI`9HMR)!31zv1;kDu!hJ@xBFZ~b!U*9iTBViVNAP#MR7mJS<GB^7=3af$wI
z$^+Y!n^tUuh|N;B*aAO2*II_!0BV;)+pgFzcEHSg#NamAJGUwC+NQjFn{v0*TfgRc
zN*ByXiVF@g1at0tuHANvCOD-Y=+|#2;<(r=HI(+MkL`}I^lIg73~0eB_P=MD+hHfr
zXHQk10m&oofSJ!2Eh}ja*4HXE1_blp30T93welxUY)cW(Lsh%#@242vrhGT7eo)#i
zBApCv(?+K$q$1p_%Fb<fi(18DSl=MfT<d~K9DzL_5=W)h($2W05S+vqln!4rh4((e
zZ3%N4KbgqHXAqDQmla5zu|zB#k&}yy5)GTQhN+AqiPOo+6UoFvY*F(W`PVbiL|QL|
zUX4?7RJn92u^`dOt0{@55moOzm7-}WvVe6ltc#?ml!{U)iY20QY(;`r-uVorQX(Bm
z$<g#elE&wa6T`H`aLA?~GPj9D<~Wf6<KyPcqG^u5W)Ab3pAF6im`+N^qw~vBLR@j3
zml8^no;yE$=FGHaJMqT(Gsk9UXTlauh(r?6xD<(Kjz}b)6f-iyu1MsqOjIt_xXw?`
z%$_}W?tBD#Q#TBLk8I+E{!<!F$5W%JSZX*OrHfK}_-bbV!2`?trBOL{aWr);eJPn3
zy)4V|Q9v!p5$UQlpGha_s2sf}QDqbcNu*;d(R2*jWzsQO8LiqNRxpyfMqMx#i}3C#
zn0t>Dd_8Mt3Jopqyi9#Y^?Zr>LY@#S{4l@yE<_+QI1m#cGFHvN%+0I3$gf(mB+IQ>
z2+5jOOoXgj(*WxsYt34)#$fWRRujpZv(|E+PXo)-L)vaYSza{X2TT}5ivg|jS$>v;
ztuqv>;FMbv(p5O(q!LTVE=vGh0cuDtMD{!ppuysg{}IE}BTtTEbBpGvYzb|KBF!92
zq&0IqmVhXFHEh!yK(~=}5{_EYEa_w_vaC6=NYcqq@8yB*l}fE5Vl1wCWATeoIhvRU
z5{%Bnsc3-;o(K@G(H~bD(gQ`()7s{v@_YtJ6!2|DO8cO`3x3M)K(t1F&QBB_q@{K3
zY|%<uJ94}q(ym?W18V2!gVSp8NRDs&mtc1;v@dty6*ctAM(`Ar{GxdzH+piTd2;RS
zQ!8m{|MR{($@RB3+Q%R4*=YXC+S$j>_8i~N&RyfKYE~+xGc+-8+z%L;;GEg%e*(a5
zk|j&kwb%jz(gf6$PE0S;W0A3WU>8ugO$!c*@jj>{7?#SEqvtUe`9<zyi$O8<#;=dr
z=)q{_$^Srjf-`*b-w5F<fP{EBKqYL}Y*bP%MN^Vy(Gz|_j-|pJ?T2Oxwhieg=25Oh
zQ;{p<6F>lwD-+{%6zaZ$jiw=5Baa394f}Qb&EA{QJB=T<e9&^Y>4T1SPHhXXkAH9f
zz5NgN+&i=(?9U5_RpIc%@rQjm;qZnql^14IVdh6~{nM4dyRsp?Su~q0R{dDqi&8v3
z9=RgL7B8h0jb-;3+4<@nN1A6RWreuvo|@t&<F3L!;cc!7B0B-R#dT|WJfBtTHnkS4
z6|L;v+ZM^HP<4yTXLgc&JqS4LSz*apGdN^{BLMYe?Tije)McC<N50j?lQi;57M2<e
zsFG#{qxDi_rPP437SWouG45nFl*&~BX6k^SbDP;xHe1Iwvo&W0eYQ);F>68^*(wW5
zc*kpkG1Dw>a5bZZBU$IR<8l8V<9#dr%$;=@vwOx$k)75Aqi2>x$~*Fmb95Sg{tu&Z
zmC>$|u&pF3Oj<XUl2im<Op{lX2&e>+MPR#P1Q>P%ubAdlE@c)LfV0P=X&Sp4i9T6_
z715m-ffYsQE{MWzid0G`FhXmD4nw3_Xf&}XY1U{e1zG}%4my7cSV<bx20DZ-_{%Zr
zie|}x#5th37vy9#eIO$3jZZ8jfCoj>(Xfk-A--{p%IGzZl!}4glqm^_IPFGk&Py>-
zloAmIv>mMxa7r{Ti7}KTtf+Gf(}*mj4n$ZZS&CkkM2(AS?O$wBTED2*m3a*7ZPYQH
zp(MgsqI1O_noQRyWjJO$DH)uKPQtv=bW&n)!`H~Kt;90TJ#KDWJ6mY#&NmIHO#^qM
zYSXT@)0O;1wJ8kw)`5KMpxQdPeoSp0dC;S_PUQFih`)iIIlkwSyXoekpSru>=L*6=
zUKmn^p`W=1*QY<}QHKt1xL*9+Y_dCwX3`LP>LLTXzkB+l)48$fjsBT@{{^-GLP7A|
zd_C8;TMg`9KfP%-4OjsuNZQ{19N$&w>4Ug>gx<UmR)z4-T)~2Ocs;6m$MW8Ns(0TH
zq#rJSe|f`u{NY(Z;%<0q=3!J9vG<ib-1++YxY{|K@7$wy?)kyKA0GPtp^eTX54$&9
zuj_O4;2c{?d-sPOA9Umfj%>6Y&9_aeZIh1#cV6gFg$_X7Ze5%H3EvFT{MqgPnQzu*
zh=pm1n%kfnJSz|-G?@XyLA5*vlEsDDSYk19F&0%QsverRqWeS^p*p2GKq*=-!A*;D
z67-%(rIDfq;ReXp;EplOy3mRw6F_~bOnSbo-vM&ujZ9h%fefpXR(8-TK^vD%tB(2-
zXU+C1=$-eWJBD|;-_VNxty)<stzcxU%*QROPT<C5sm!<Zu`mW6U8i&zc!PrTvQ==U
z%aUrzTj_5=OHBq;NtXf@*nmJXnzOjZIvf^CTa9*=6iVAGIRk>yI+7nsK`z$@D8=Ki
z30Yf~&sspACrhE4D#$`<Z{1Q<plSk>#bl{Y4a(J}9W~7%`>}Apv|pgh*~|KW<2jvV
zrzNnD#Piou(#jZGiu1tOLr?`YHy%+y$Ceb9L}@6U3|*8$XpY91tthVS+pY)7hwZ!7
z4z%Z41A($>KO;xu(Y;{!t{gN>-cZFT2`x)BA<0SzjM-2!AzuqAnN%uCaWx>YLVE9T
zlh$BdRsHJHQ?Nz!Wr)zwhDGaBsmK#8P<J!5_L}0V6&qb@mc_&mV-6I3Ec7%+M{#7I
zoP>=oSvp{ZEhti2Yt##?IYbAT{)|5$t0|q0!5}oBv9LHh(MTGOH0;;>l|33+K-U3E
z7J3$keF2T)k*!AYh;9^DnvPWZN76J6Js5&nM9@<Y0mG+^$n3Z%`hB#P`HYfI#>-P*
z$Ry^`+NKAv)|^Z!AmahE7OonsJXvN1rkU?RUo=Wp&4YGC)rn~iEYP{8X1`*HV0s>g
zpl{$f-CvOP3^TYt(m>J4gl3ac5l}{!>6_TxS|S-2okA2yBJ>rE7{%ZvuR6vvm_;jw
z?JSKTgiGH><`3wszG}5->DI21E&_%aV%f>${^!lavj3O-<YT8d@7$p}cjTOViUh2k
zg75-}H;WbXR^n=`tv&J^Ys-B<7l`FBL%vIO?pi;UADUK&rayH~mj*deLNg5#)YW+7
z;PrzyUb_BL-g!cGo+z~R7Xm$n=DvczE$<Jj{&1nWBj3D3ZQcRE?c}Xwp{p<7bx`d(
zSm@i8?>nLPov4)fcN7|Yg|=|P*I8)q&bJ>?+m952Js(bgFugvRA3CAJfA9pW8duxL
z3;jn6!Qp&xuNvH293ZZf+$Qn4tVQB0S$^~!?3(7=s;99Fqj^DTja_EW9-W%>W(K|J
z%ubr;0f7-v)G~34wknwMAX1PGiyXLYoP@#PUMZD=DF|W*>%r_}On<=)jMp^tD;-_&
z2t{@rwy`<VO8`?mW4eS9UaJbpDmKWLG)7%nYytlkQw?!3$OUw#i9+Mh@;mTTjzY9X
zKz-^QdoZX5Uwr7xz5J$n>`gWJRd8w)diFkeTkScH3R-X|H+ozR0^Ii48Orq@&b>67
zbI#`YS*H2a_hhs)jU!#MG`I6hfJCd_K$sE+D6KC?1--sHHhdaigN<M1R>2B~-muxV
zLFB4z#<JE>X;s&%1&_<eWgnSgOERsc-U$4c7{T;hBUrw~2;gmfjx|`He+1E1|Gbdo
z>yHgKqcForcnSozn@VqGV&EDAl{YF@h+1m`=3K?N0lrLSII*yuQ8A4Ita&TkymU<)
zwsr#nVBFbKgC;61#uU`bfu(~x86aK2m=X!i{+dx1<{3lR8ny~>&1dAxk{tB>QX@l>
zD@fINA@$oBERTrRTJ4owfwq4QKjq&cS|g8Mc)fteNT(`vGN4Npx)=~tg<!dA({4Fr
zRr&pEGdcgx^)9%`7Dt{BsysC5{>#93TR&>e_e`ig6Axx`=ibcqOl<Ug^(iuc;QW=A
z{b2Xp5UvY(p<NZ)a~&g}NI9W>Lpb@=Vuq%`=)VNg;1;BJChi9EJ^NJn@7VY74Tk>o
z=ZIc6oXoH%S`alBQIb-MBrP**_#&t^%le6J@xbBEGA4Tg0Q8l<(+2bhaBZmTDdm<=
z5|V&>y=toRpPRB=<&FRo=2u=k!CpW@(a==+eI!(Ri3l-`V;D5dQ0Y}9WW0)$v`gm8
z0NSQmm=riZeR%9hY_bgR3iJAdj7>~2M*_98M)Yk+SO?9@HY26rGRrhHelZi1#p)*+
zwEp3N0_LYMR$u!>L*Ie^e+xflA4I_G1+wqJgR}3?=H30OyFc$9Qr$!AZ++?>`%z$R
z3T5?3L1@Sgp8_&LAz5~hy4cHyF>gE2e?&yBaf|T7Rj_k`cWV7y<Y#h!w7Kv+Yr;0%
zzh28a5@8#hj+#LryG_eFwrAG-F?Sz@EQDF`q^_YIYPzo%fPGxGQlKShZ8p51jG7Le
zV?KYNrk5wDr$f6-PaV5Mv3N?B;_!yX^bBTzRESI0ut5R%eHe$ni;)BoQ$Lvp%9hsk
zPz?brVdS$idTJpA1Q*ijEEH2hGs%QBgvOeFZlO4+*=VArfOI4=Y_1xCQLK&PzG^}&
zp?9FaYYa~R0HHs`=o=8-<8`uSlVj7w{<Yjskz_Cz%e0DgiyBu1S5N;4I{X+rU55yW
z)Jp{C+V4H`gbK}Vx8+-Mp>3exZ^`=yRsUe#KcV_3o-Z4oeCiRrjv^7jS>z|KKn`>m
zem2)Ty8*E?^vD@3G<Bd(I&kc%jYq=g4c6pho*3g<Kw!C;sAx72OLBBx(i{~fQFG|0
z3a-u6e6@Oj<isw<e*u76VO?g0EowrRGhDT+&a89I^ePe>=!<%&cS))o?T)M+NEVbZ
z4C(TGvW~11$i5zl+dnoL%9PP>)dkN6E_`^b`y{~CbGk5Ritfa)Wd*nhrHh9bVJ2*<
zusMnc9=6awhJ^kJMrSa(fe~6rVY^mhJi4KZF4J_RV(o2VN~ZX-7MMb_71;7Lz6?j{
zX=dp&F36}%voNkjFX9OEID%WZ)|lP)O)UKuM%zt@-L49~gNK=!$)(GzxS=m_>q^jN
ze|wejR?V&97SP+!<=^0^d;k&9emeo9$Ty(+2J*h6s_*E-z=rQ-csO>p<ecCo?SmND
zbO3I{km?_LBpfVweYrg|z_0BNsIU(}9`8$YU%ol4Hirv9{C11ov1xY%z^D0HD{-|I
zgaFeaT2-MHfE%9co`T>n2;PFX1<k6CVT|D}1e|ymoTa;f`&AC8oimdDdjM{ebh)CQ
z%v}XOD{{<x7x>NO3mg?>2L|d*mpS`ViGcJPJq8{O{z=5SrDYwmo<&cmdC|1Wr9B1)
zk<XHE!<%=O`!@LwZ;bga2e01Xe7ywzk;O~k;dwF#9W)!h94F?lt%Tl4EGLpz64lNm
zWV09b&lX+?tu%&^7Iep00=!ELp|C(vYH1x8;A4cy6nw|<%Bh*D$#aqEvy+kI$4;D{
zoH<ExeVRX}fc|qi2JhSR(Ny$eOpc{X-x45UQG9gM92cT;Mw+BFiC=g$S5X!!7^R7T
z<toeYN-r7(ih^vw&_(rIRQa%@swe#j+QH{zM7at8Xri4x`OX*B&KKeR`mwF^Ztzpv
z@K45%<;O3m<KWbH0Nw4e0^NE0^PWM~Gnf+w3-<222S2qBJ@WMBJ!7h8EGLXTZtcGt
z%e9Qbd-@}Xzu?%N8$6cVeZ1i4$bo6uF<dlr_R&qV*$L!U)(UN<)oigYaUG2AUIpM;
zbXP@{cm_3L0Vo0)+hvgFVQvOwAQBJzUWDy6aH_w60<E(&53u)jKOq{^C8xZyuw`d^
z;Rvgaq+WaaSAer0cX$YZHG-G6GcWY30x04^{TZWZG3yT`0&)3r%@a8%JjF~fT{+B6
zfrDTwY@5<}B_?Os!`aN#)J%8;KLg6dDejJL%uLktxqZQD2TnL-l@Z-5sx@qN@@ZDR
zgJv(YUDl+k3;k0Zk@>M0r90WM`d3I4g_Sn=TTMh)Rw!~7ii(zY=(p-twcl0DRaakL
z`LY<kph%-`t2Hom#<xxiyS5ZP39w7-qbr?)`dEqn2^0HpfxXJn3@c`mNuv06pz#-z
zNtwCs;4L!)dZ2FAqBW?s8=~wr{j;lM3300Q;gv4W{tR1nms>$!cnq4<zo2;|0Zu~9
z>r&6Gq$!g$?0Pc_WS%8PQM!y04l_ECUZQ^kc##Jy{|a{vE+)r)ZY5mvFNy0{<mgYy
z(VvsR&q?2}O=iyYxnP3G$|AxI{lf0Q`PB`3*BWpH6W4lY?^6QFe>ehMM{&%|S#M@;
zXK!WUhI7_+%lBOOT$>0MUAsAJ!Pk2G@U6o|Gs0v0e(3tXYZKw(95)UnPVbEa*ALt{
za{Wlr4Ee{U))s)lmi4!>zBbGW1nP!v4c+y_OJ~uJMGoTf6rBjU;M<%#CvPnk-I!}2
zjsBbBEl1IVIWK7o78?<2B7HlHK7{<l>iovn-uc>Q0CSf(2X~$;G&bK3-U=4Yn0egR
z^<nUXV9|mZm`O_z_0^({Wd(dY#9BMcIsn=G`)(Y*e)vuRi|=N>oBb#YS6j90-E^`h
z?S8g1!ad=8o_n4mf$S$IH!&%Wktyyp_nFxayJ2s+)34gQiY)Weah5)|*z%TM)zZ6Z
zfhNT+G614~<THC~b$iG>hF!5h3X}B)ZoGZ{?K|gHPfyW?MFK7yd%%`ig}h~_YT3Ez
z#Qaf?1lkMD!9rK4uwyqM#{Zsy&suf?dgJH-29I$0pe&GwQS{>|+At>&kN<{zT`t-&
z=O7JDMJGZoIEkVgp$0q!4?<o78|}K~x|3GDeZ@vB(hmk9Kh89OP&09~>brq+DYhCX
p)`qzYTmxs#^&i+IkQRHb+}_;S$%kom>~xV}=C$)rF=f}_e*rbPr!N2i

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/fp8_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/fp8_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3c73a6211a346d968f6b6233461b4ab654374a70
GIT binary patch
literal 46575
zcmd_T33Oc7c_#R3-&gDl$-+t$34kQHimSj4q)0-dNQo9GxmZ9INRWkvuL`6H6%;7r
zX#tiy1Y)HL+HzF1lNK1MTTmw%!HGMjPdsCFx=(jK79Escm<~NrP9M#go&im{-N~8m
zp6|bJsR!_ZRAhI?bNUgyb=Uvy_x}HX|NGy6?eRD{d<pX#eQ!^5++UMJ`HE!AgHA8U
zUE^Y0%#h%^q+dgqfw_%cM*JERrhapmx!=-dF;KWEVePkd*_hpsuy@&6Tt~mN%gOxA
z30J?n%fsxJgty<<<zseh!rve03NX7Z5$rGODq?nfqPV}LtE9iQtCYDNiL(Cku5xB~
zCMx<XyDIyux~lrCyQ-O=E3u+~W!Fk(cPCc$hq^-jHC;8#?Mc-3*LBtP*LT(TH*_`h
zH+D7lukKpS!n}#5{%}{=z!|xCAim~ZgVX|DYh%8+{rs1dhAI5Qx2xb%Y$G;~i}~ZN
zz2;cpE9S0sh;>E@EBy8vVnO}%v7%-Ci<j{)S;oIKz9HULfh=QXh@n${lv1|_z1~>)
zS1er{V-@=0vC3uqtCsPvUdI0yDd7sV?WSMp60SrEH)AY?W2@qu;+x+Ky=#*CAEWJ8
zxn*lm?k&I4C9FjWx3ZS4i*Jc<UDUGm%Z#;#W&D>L%gc?~#%18Fj<?4AF$3mK6H2!&
z_Wyl3!YIcRtd-Wpx5XOI8sbm9xAtALG6s!Y2N!Gp3Kwg6*C_dQZFg|7Gi<ffS=VB%
zsJY%MVvtw79r`V!@7rsnm8sVnTZffqXKcNGtk{NS{QdDSmRlRzWLLcAd|Ilp){Je8
zht9vM^^xqcP5S;=-#357{H~m!>&agl)GZpQ?G8@)7mF_2Gh5?rv2F3akLjT&FhaL4
z)1FcvZbXb<q&NMs9q7${%e2H!{dSD)TE>6(GX8t?{d?`PCp9g%KhB;1s!ngVqpkMh
z|33WRkN^Jo!FXHTCXGj__Px&70S%-MwAq=5A^nQ);0MtYhcKVJm))(GTj5IM78!4#
z^~@gY0HnjQL(7bu!^`+Tg&8VgA4h0q{6h2989R#k`qZ*DSPp+N$BrT0kyt0n2E2CZ
zcm5koeSjl9jj`|y{vXHxXI0FpfT2ih`w779jGdI@Jr_5t^F=?W-+nkJwCMAI@=Wa1
zGNsc=qbU)UuTUy!wtlg4xMN>JIgV>!e=#`L*b9L3EZaN&zPo9c+S1GI&tGUgT4qc#
zSiL5;^EhLtF|JR1p;G@tm(?D75oJBO>^xX*CV#P6XN|pt{(SE5GkbcCu`eUd^ULl~
z5<L__oKsf};hs-vT6BhuqJ3X9k%)FD;-dXT{NiwYpeG(Sh^F>|EBJ9mdWMs!!T!kL
zP!dirKiJbBiT0)9yzJxZ8|X_#5`$;Y#(6}rA0Lhmqz*o_4S<~;{NV7=iF47Rxad1e
z_DDBB7>)HrlPN^4+V|YaqwOb7MD`widf$-<(nL-?_sla-KYQ}P{;)|b-<ufhxxm1k
z=!quc&qVoXe;gT$mHW;`2L|E^y|A)p;{3_@Kyr{@oCx{(dxm*FK9GtGC8DX`LB1bF
zG^P@wHO2R(1_#0x(bYS&Epj&A-ya!BiKTtXNGu*7l04$u`qxK>lkwOR|K#w{&>)|J
ze{J&I;BX>Fkyttg2iZgjXrgZ*9_7WF6dxT(Qr?kdZ=`P^H5lR1<b8ZR7D+^}3=UJf
zRK(!!Ng?EHUy>SH?E%s7vS{VwsbPMgN2ZL~+D7;!(KQeLIgD#uN)1bMDH*TixbrgB
z$x_IMf_3ulG<V*r4Uz1lz<d_Lus<B<LKDZmY)FDnuqY<uYAlXTF;8%HoPm3RyJC3R
z^a6L;5H@xm3|mEKU$So?nTlfUiI&tL-*Zm1O5G@0VyP<_K%U;jU^KNY65rInv3Ef9
zEpiTzgbh3`DM_k&=<mL~F4aG@Zm4glB^Bk*##1dX4{v>9+l8(1b&0<2bwgKD=LQGX
zT}mYS*Yyv^;)zK7<#^99vR#Kxi1W#H7ikdpjYLy@h&P<-OC;A(FEU%}&=t{&u>lXh
z4!Jc`wufPiad&Nj$(lExyY}MLi+60bdAH|k$3(}tVZms!l;nN>HxJAguNLs<TYcMi
zU}nP~SmxIs5b(G5K-PZXKQ9;!mXeQs#ebJ{0ou&!c0cz6zp=g8BpTX9!(P$Yo)nFH
zlcKYmCPpOLHxd`!7&1e{sR(PM9&HbT10s!yFT<i86X(?tfdKhSb7_O#_()sQ#<WQ<
z<UPZ?7Af%w4t<FE>OfJXa)`DhP1s0Ov2-KYgat$lpp_HRWHQ1c#3KFuqTyuN%GU!F
z-#|tq8LP>_VBz>Mj3iYn#6G^3Jl844Rtjx}F~)u7=iI(|S4eP$@^%OQu9_xH`QXaD
zKZw6;<|*@MF00$Rz*#NU2S~w*#*3Itm*ahB&!t4$%TkF%x8xzY7PTjhd^X3Z2-^0f
zwxd=`o70we<sLY}-86L45_fr9bX!DPUm|k1QPWV(Z(8{_fZ{ijv5Ab$WGq{4u_p2e
zXp!FGfgXN4ARNK}<VqM)qpZ%`o#O{5JEmWp**=?oU@}r87%f(Q1EMUdA(frg@E^gV
zt)c#iIWPA=BCB7_pm6Lko*o(AYsA>nU31<uDm)srqN$Uo;TksbtMDUQWARIUJ@K1n
zeg!!#@&2LI712ynf!_rm{s|aM$IIgyE_xx(w<8_V)eoo-q=pMz-7&Ev?{Hl$n<$$M
zyiqy%{I%0lr!#@Ce>rQfpE-If_@jy+RD8C$J;l)Dx(I{9(Tf}-ef>j;Ma{1cuuG^h
zn7xKkD;fyJS^C8o**<DZ+tSt%bXv?v3oCC-+XkG>4+)g85iG-__Ov~1yRaWNN7}*v
zm$dz?VHwD#7+1-C+c4@((Li9I-sDd^^}7zfREs6wduF9WM_p-G%(zV6tXBWCF=mm-
z!1J^SF8R`&GQ14jSuSnVZ5_D|Y5SC6)UBz9dkHW&({8|!r>r&<zK^WOd7n16WRF>6
zHf1{<^`t$hr+)c9Pd$x=dZq$OUTGH=8qeZ|X4ISZe%=;6!D(RWE?QxG=ci_5$L8Fp
zw3Xg8O7n_lU+bs;4d18#6-L-0T9Sm<$@37?Z!lSiDO!34hpt3K^WZ={DcTUNe;9}i
zt=nPWqgOrAJru?2IGjlJ4FMxH#rpb1E4*UBux#g|$q4K$4m={P2%<v@j$l16maXz~
zE=TY#_7$ztrkSK(l=c<XWE+g=qg*HhdAs6YK+FXGCr_hM#<&GPS6ni7H1Bj@ZJKDB
z+%U0rY~MX!aPmdLSCct@+t)Z@n%OtoEHv-FRrirw*n3iFes00USzHTt&Q~&-oJfpy
z{KV$Xm#@s0wPu3vl;0?yshO$GRKq#$zFS;z?a0)TjC=Ok4`2A;g<IV}I`@NfcZ#1L
z$F>IiVzT?%xv6v07pE>vuFGu91{($Y>Un#MU~ie}zGL5TZ`F=W**hz4teCkt!)I&S
zva5E?9)yv#SKqBz`F7>?%Dg)?Q}+JKn=9uoe}DA5qgcW!o&UiZm{>hoJK6olx&;g8
zC|j_?n7lZ>_3d5Pcg+NZs<qj&wKFHOW$Oj|hI#u|!M=6QcE|qYCjp>2C6kw?U!6(M
zb$wKg{Uzuew<5W}bTT?!`*zdyrp$)xYbOUY$!zHw!M8SRU;BwKly`e4t<$zl^~}iJ
zP9*X>u_-y6|G(Ij_?;LD{BAOIx0~W6qbEY^J%1YUrzp){GHCM^m2oMLGSPMsBmuBF
z5i}Jcbqq=3X<HJ53RO{{Miy-z>fXHuv9)_QVJFyYfuFzxh622eW;i|rcZFeY2EG_B
z;Lmj02&CjC{P2V{N|*^lN~jEc1ja*qtB;X4GR*{%kncvU-=&zfFxXCN@#h`>Np$?m
zyu&wHO}}<;e$|Hm<gn<WAxI{nAym$5C?rp4-c62=;^(3Ki<jgtHFg|P|B#{+7R=_W
z+b_4dhQvd0K?1t5HbqnMWCWB#lHZR6J@~JF9@+NbRcwjZxHw1Wt~hfwbeX_;GJ@(h
z#Vs*2{#)YKm^E$%Z^;HufsJ^^v9g#0e2}0DO|`_F%lNyN@pmudZ)co;&m%*<`k}q<
zm=7g&vNOnEMj4mO$Ieb+U1*Q;Us_&|Zja?k;*14RWB0E_Ns3Ss&#y#Dicu18tV9~W
zF>l-#C$6r}i1@{QV{E*hHS0r?P``LUilv@Um4as#ykZYmh{dP2wQpmLp@T!)jxwgo
z(?cVdoV0<TJlB^D^$>X(lIZz(G87H5$njVR?4^*zg$XetKQs)E!`YC$_J;a;Ln<qW
zL5mK=LW~j7s?w^V!PL1pf4MIiZ)H&qib0uNl$cu*I#Ln^?}jlDB3kb%h4hukKw5^>
z48=-X-X*RY@{NGIpoaBm$tZQ1KL|YJ8sTspt;*7eMV^Zg(#F1&noc<$LntT<Ig}Pg
z_UU1|8ZwTHsBlusQpjl_s&IhStC*?+8yGgoVg)OH5xJub4kZ+JP$$xd)U@0$`S@_E
zOz~n^u3CP@7u1glX(1l7^aIr)Lqt9*?tcZsF^k<{OXsI_(t7aZO`}-UGng3eABglv
z&x3KtIzA~nsB?yi0T}l1L~`&K$S5Jh4?`?woI)Z@BR$cfXm?+t4^*iGzUKyqfc&xz
zmTjM6btKl89EzrT&Pl{P8w@NTY(^MP#4cFu=ap~)X+U9rrREdMh%w1F-Nm8cVVaZi
zM6afpgtqeiFp|`f4AGU4TzdrA23WU|krjHAs#OWjQrhppz&`5b>Nby?@7P!68@AJL
z?cK(mxyIdOt-D(hp0C&~RP3JPa}|5X&0q80t=*QZW${)ar6(}&ZV}uqdH>pMO9ya1
zkN3Wbb4c(q#dm5pEtGTq;(6bi+rBlQc{oo=-jBcHdH)*0zb0Sbl&@SlU%5f3-0+#h
z;_(8Xc6feluLmw3EL{jl4z|a4iWb%?8vKRO8PVL`7fte&u<D~uuS#>u{F?D8?$-@q
zV5oBmN#rj^{(7U(K-@=Vq>oxbo$AK}T~8D?XhS_Hj5Y+_YC~$B`7mlv73Q0r=DXhP
zRj6&g7~y(Uw3X07CDy28fa0lhTd67LDvO8tE0+Y^1IufcG|Ul18g&@Cv_p>))-U^e
zCWWTequSH9-vDbkZ0_WVlgjANn+C@73EM^UrM~!O{s;vS9m<!ILDNt4MEKzWmD|o=
zB0pnlFzn>7P@GrDVEi?P#WJLpqz**8G;P{IO3DmWiJB#LBSW~8v@)^DqM0$4=+IE&
z%1EW|bYWrlkt+FTFc{A1ugdyrv-Vn;_lnA|ZJ*jc-JNN8XYGx(Gu=1V<%-(I?fJ4D
z(<N_LU9ZZV$aH5b!r8JNGh5!@d2{ES;pQGV#@+d{>T9n|y)y3p#MP2_mrpll>gQ{B
z3AMY3_2dMhRa!Y;vRWuvJ!7A3oNLaNbW9w)S5h%w(kzrT=lztRdDeyLR_Yx;2>R3Q
z&$_DeB~{b0sh7qN=6&nOFI~Mdab<e=?N_e9GJYlJTRZPtFZkBaHfMc%vi3b}O7Xvr
zI`wErq{^*&R+=@soT@QtCUJT*DXp>!X<ryMk6JXm8f{L<nZC4Hk5dz4^G=_OBZc)E
zHAf&iTphrrzFzVbn2@7ZO?q`7DMZ)Xdvtd~5MMO!FsnE{)JkC;;~2$yf@3r$hVjeD
zi1AqXJ!GRfAlkdx*~f-062pb~-<Tpe%;0+|4j}|#n=}Ea+cXoPK-v*O$A}|&j7yC5
zG5C(u>JINk6U~i2PyQw%W0<?yn!T1Nd*9ZqeJjlTs=E1AJA_p`<__gn9T4o*<F?7F
zyMfYcRZ~@YPw~~4CSID}Ab3_xUwS)zJw4NY{nxVYb$5eh*IK7q^F@`{c2Dj8%w{G&
z!e>s-;l1jZa9s6Hc<1d6g1sT{E}A@@X`E@Ev)(e#KY2=c@)Tx*gJy!iblk&+>mr<q
zHcXIi+=J&AukXL;h_#HG(UUr>IDaIij$geotG8zBuG2JL%xO~r??Qe$n2xfpV%;Tl
zWXY$DD{%jaz-J#DiN8e1j6%m~y$tAliVR}U^E5K~*U5MhhG<UUI8(w**fLJ+K=2#b
zO1)&DvXz=f>qGRun+-%6mmaBEeyqw-AcD*#e-Drt_M%yl^S+{aU#)-z+Si)3x58w@
zwoO>oHoGmiYNtGG^Df`j-Cx~(7wh*EQ%}&)oG)506s^zu%kuuxyuT{%ufFRqo;)cn
zxH&)YoAPVkDenW1t=PN3**xCQf?RRK-y{AbhH(B7i)~@~j2U7^1r@o_g!)U%uu%`C
zV2iH>i=2vB=nc<z(SY>1anj2}0z9Rn73X!9L<}#hl0O|&@PU-N#Oe*;QTu>j6GLYZ
z;|Rn2nkj7nveFKCt2IM;nWK#J#MD~y#Y{0%fh=G(cZ`|`$~Cni)MClEWTQd~AU<}W
zLDJ+TypMgDoP=90`81QWdPxwR?`cj9!`4o|1Ad>5!8phd!30x|FcR?0FW`r#MwHMX
zY9eq6*&%eKcVKvgr|uIg;3FS4GU7lwj2a#Q@4QOuAKi9YOJ<10EcR003Xm?5)Zm5q
zfK13rGzchH(F8h45$PaGmWA*WRKD|M(EL`AFrBF_8U{qe1<^@_l~gXVOs@#UPh_hA
z)qE*7=42}YBbrB6Ex!)12s>yM_`d)|S_MF4gau#ty{<XK+{RqXp4$x50lst3S8_Ey
zk)AM*8^$+$X5|7k^ZsVR-<<QeX5Fnn<qV!Zcl|5p{o4fpwz<Gud(OX`*yTm{ot(S$
zZsVr;#%Bclx$8b5`(dH+aMoRS&sCar)#giAPIUalQ+Bs*CsqiRu9^3@3jWr7eK=pa
z3Up1qS8#{MJEl(KJiESazOG%UYroZ$t2@HHCr|&x*N6=;?+)hOWxxjSy8V;I^MNKI
z(3EqB^A$C3ue`qUGmnkf={ASVPFD$d)L-2UKY;@b1cli7C2WQoG)dk5kcs^1ZiG~t
zC7-%AsVfZTmChQYnOAySqI{?aM2eWlVY{?7E!ma!A!x~<<-ZEQhc+D-8*0)>9SJQz
z)}$C`X|N>$=L>E*cYVc#kzajv;?;TIZo#+v5k2lMzS=p_iM>YK<D!cumb?M>5bmRV
zv`R2s=#O9_{t@4R=2b#9zuL_NF?2dK1{OGIIyt1*cmn6Kyccohrq=)i&xM8SQmdaM
zC&SX5KqnqNDXowe{te{BxFXUbd7Yf!gb_ALsKs04!5AP^bF3l~t~(6J$Oiqsd<2hX
zggTefj&b)x9428=*?dvGP*i^xle)MfUtB(4+$t2e=9`-HE9)?$1HlE8f(hJ*kV+#`
zT-!6XC$m3W)Rc8MF+60I;9GUqUA&m#AukEU>R8mh5Vz@+hINq$Ce8q);vx~z8Hqra
zX&7QR5z!r?6*(b?*dmeGU{55%(==k62v{M5g9)C<cnMQmNw%+$F-8V!Qneu=kTs06
zSe}|sYG|rIA0va#v849wBO4iihX2WDffs*;yAQ!9`$CXwIb_JMU4P%T%Hq6N-MC=E
zFVOYSngtu#>|EoT1qa!jTtoN)#acLO;F{Ni=X2jvVR_PU4>JPG@`8mNNC{HHJ>_1o
zF{hmag`Aj5EI63c$(2@-09IzdP|~#EVt#H801^|4>63!DW`ThOL(1v9T0K$yz{jF&
z@mosofdpxuYF@CwuE~X5g-pohRMNW0)rz9tcU4)uYI@i;>B&_{Pp&0pBrmrD(nGHO
zRQ>y|HE1uTOt5QUlB)odTuWe*R{<uux+Rza4NTZIFv(SbNv<U@$*Ta9T#dDWR#LHG
z!7m^+gcodNv!gP3yZ@fQg!&1i`r)7Hl;E#hV2nIB=LudtI&pNtWA#+tH`zhU1vy7x
za?^xwp~&H=xNmYft)DpnSQ>6@q!EVEqb0s*mt#xYPbD1LFjicUgVZC_-bDiX2EfuA
zH5Az8dJ9+q2OK4)o6f$aKx0^?Y1FKNN65>P4>EN+3^xS^SQ3v2RWNHk)*BW|Rdi$&
z<f9%z2=<)|3>UB=AU=dv(}RPQI;TJS@URKU{Xn?>`I047g|pCl=T&xoA(mQe>v<KI
zemL}eRl!fODJf}l37bbwvjZTKgCnuc5W`6!7?un%W?$%1G%*ZEYA_^;jw&9tPQol}
zFZZR+g;Gp%xP^{*l=MsnwDoM@|7dyb`n8L@Airhm?;C(X+V7$mut#4Gd!=Il2VufY
z5L1?l>Fpcn9TaU*#78vI2BWWkxL-6yyOR)+NksdH_<ss03>5zw!E^QuLh$tL@Zd0F
zuyTq{2m|*GLGC)503Jh4BymA!D83D_Bd8ez&Mf9A<z-=K3ZjDqVG@yKG?gUQ7gdx#
z=>WhdF+m}NEHw!Khluhv?Qh?M1;~q&YiXM~cE?>k?`{;_jd$ElbHif??z#h4k4zky
zw&dI^#}4Gn%CB9Sy7Ki`1at9N$M~tcF8|eC6T7C%h^hI_6*IQ?T{m6tdUCEU^RAtO
zYv-+!tZQe^)iJg|4>*S>4o{l}cQxPyf|JipRm}Tq1b<B?{!ZVGzS-wU{3YwJ$@%w;
z9nQOoukM`KiELdf=UrjJ70$WV&OG=2>6@qDeQCbsfY5Rv*V2)7b!5#QY@MLWUz840
zL=&}xcC|30hHSNX9+su@66$z17LXHAd%9>4<SAsh%FL%DFE%2L(L-p=#e)*vdnwMR
zk|B1;^YB2U;i(yfY-q{@SsI8q<%~-M8i$*Fe0ex*B!|wZZE&WU0b4F#HeN#P&=VQ3
zSRoRtlukM+Q(0(=<*F&-qIn{hU4m1XOAl2e#IkD*bq=Ngcpz~_nUgrdRZl)ckdqG$
z3|^Lsz`u%~0#1jui(?~IA~G%f|3V%g!VsM=M`B8k!+tR$6_fvc1TH=Os$x}?&uK9Q
zq^L3>`^QM|&uAj7hXpb$#ayr^Q!%qI7g#^`)ZOycGtRm2_t$-Q-JSBM1aryQQ<Ijw
zt7LLG>#EM0tEEkfrvh2n&4wN-vht}I_`k*QBLXaK8o>Y>bv=5sDxAoUx*@gbVre|g
z27DV*fF3<@TVlmYpWdeSE^0_0HUw+~Y40xp!9)<)sgMubif;tl*C?bbe^H2|ew=Xo
z88i~Hb~Bq%(^5M8e4NlZl_@zINC(oU3)H?rO)9+&nM((#{OMrKhz*UF27Hex|0BrK
z(IQQLIs~dFlz2HyK250JHe96iobsz-w-u+0({{GOmq6C{fMx{fFvRq>V@=-WONs@j
zCbaV5&~%AXqNTq;vPwovHK}!&Vd<iDDU}?u%l1e00QlTQuPph_hn9H2sgz>0Op|l%
z!|^c6q~0$}2Mf~5U~|ed1S3H&l`&naj5G+-S#DZK-f9n>WS5CrqCGuv&`c04i-lB_
z1dBU(YIOaFep?uCt%V7RIB8qfF7#LxLs5A-Rn}lEjw&d1BY{YYvg*nh4qYo!)>Fw#
zUO_Prxc{Kk9?}lx{%G=oXkk(<IBop_f;w*oc@pCgoxnKG;=)y=FD79oI8#q;*(6$V
z3v1wP9L#)N<PvQRbJ*C%{~ppvxXinh8jw@xM05P*p*GRn6Yon<{IhNRdlZdOchQN~
z>8HzBkd(0Cf*BtVmy4Dwk)aeX+OA;jmMswYg^yE~q@gP>o-2`o;r@susgV@jS0eo2
z<p@p|`eKk5j^mbzjSw*)MzSUPGEb{9PgsrUWsm?ByiKGN&1X?V(L`1|!C_9oM6Qv+
z-ri(9C3@xJC~h;dPO{b#4Oc{41lSy*Tn<T$gO6SoO;;jGGA<@*3Q^bUeG(Q{$%>-O
zX663|slP}25OE!VkhOB9b(!-*$@;NQFelw!hG_+It}0+tPVZ!^;0%rJ14ChQK=9R%
z9RfvGQhx2=)WNsf-rjb7Tduf1lNO3Mf-<}6nsB|j_u8SULpl43j8m|$xo<KSTgQ$f
ziN!hoqF}BVI{?D&+Nr5iZ$10=m#%*)SJF6BDU@s+>&%;7<F5+l6=NM_OTG5=SjQ(W
z&($X;o|rt&urn0K<(ph1xT?qYe`0rDwN2P2Ez{;HcV^Q}@{WDuynTyc-|`3iha(@1
z<m`LL+CTC7ub!Vc|5otr((9$aV|>SY!<xDH9Y?NW4YpkGdSv7;n_dmPaP08MTc7+|
z?bX#2tFJasG{4DTyF7LIE&lDx*Dq(T<W_CSm9^b*ZoJhuw(qVYnmw7E+B)5lIhAv^
z%sbZ$&h@ipAFlXd#r%fD!iK{+=Tl?*J~3NgKlIw6@l%tji7!u|$fSO3ZoaGf_59de
z$#(P}?P{;?;zK|rHM_W5vtrO}Tk>gkaoiBVeug--cf&@zxbGL*gQZ>E_n19PhdZaN
zlE6fiUEGgdT-tZJUkI~c5U~r>`bs!~LB)51sCAIlx`^4RC5qEUzd-33F`F*_;t&}A
zQUW}q<a6Q~E@kx}Elrooc!qYT(Z@4N8J<!0OTshCH6!kqjc1fABSZO37jC#zq$|=6
zhG$f!o&Vr?Mx|1srN6*4Do3j{ZK8)~l&7m0o`FNWUoxIit;xA|$>fI<^FZqT>U7!P
z3(u%hMjGK6{GR|6|3etz6?~TL0vWf-$dPe}j32|Gtt&}8rMx}ze@-FuWaP<Ew?+PA
za*Aa91sQkA_)9YWJq*#yh^4}&DQ|Uj2&n9O*gsijg?*F%D@spD1%Ho>pOEptlkwMN
zd;%j$2QqqFqv|K^k#)=OkyJY-t;zqNfJMB&<PW9Ivh7!EvjkIA-Mn%7H~FgIZva=r
zUp(y<{EcIW@0G41F81%Vy|eAcwp?lR%&S7_u3Hs9s{TRszv=#W=l<2XT>B}Z<dk;*
z{U2f5l}0ohw-?dDz*ccF=3)<Rz{*Di6cKC>Ud8r>&Dc8TEKEZ}N9hB<(*%yNOxP`R
z8(xY^9AVQai52T?meS?Rw1Hi`G%@Ll%BQ#(i2^Mf`<q<Mk~Vyk`<AMy2;!x>Tx7^?
zVDQoxvohE=z_uxM_;rIuQbCK3NJ$`Ut)yn0Se@+vauhZ_o-h;btV&z->Y!gUja-Rk
z)R}gU)oRM7N3=rhT2Ce;ZF)~7_5jDs$Mo}4+Z~8PFSVXtYeVj(Qes26G^Ht(n@975
ztCYH>(MX}_5Wj_z>T#oSAnH(-=~4H<iAR-jnJ^~)i?PM($k37h&h=PyK~`t0R7M`Z
zA0;NbZONyGZ_>0}Xh|eE&+BZ4=Nlf52ei`(rWP@KNW#YYuFT+pP$c~2L*&&Dr&G!y
zwH>bC8b-aTuoCb58pT%lO?%b3;!CO5c{LYgeK9BXLrj%qiWSg3f6NM`*32JGwI~qN
zo?b~5RjGmg2(=Rb9&M>}f)rC{FBoTf;Z~)@O6#P3X@5HKp8H*SrWaZ%MY475`=ypk
z?iDp(`IM@VZ`c$46peOJIfGfA;qfrDV?aKqkvOs7T%VEH7Kc-z$1yvSeP<!#w3z3?
zc+irr6dd}Ti#rLYP|k#KwMXKQM-zj%1SFmPfRREZJlzWF#T_0npCLv8sIX``Gg7JA
zaanLXgGq2--d^C#E1((B0o-2>?cNn?lTuOK0xLsG#N3S6{;2#YC3qWB67V+YAc+nO
zqL&8yVxd^yrM?&yoGxM)vSNo(Qj!>SsDuW4WiGzLSdtj<sdLek#Dza2-FTADgJe}J
zXVh9Q&zz^y0TEkzb!L0$X{Me8OnuUNK__u?v=GDD3MFN`I-(EJ(OopLw3vr`aS)IS
zfhUD}#$(L|KG@~HL?YC~$H8cmpgqgf<7oPZ2``+MDt40fdNUdh8fIE0*Gp0ZJv=n%
z0+>8*sD6vbhLoA+y23~$apG|MEQQ_xXDdl(kZ5p><IqT5s2^ICLfvuJQ^`IkTMBhw
z37sj7g)<>0{5P_K;!8X#H4TQpd?v^r!ldS(g7GN_MB!6f9>Z2Wj9zpQlk9So2S3b7
zRw&mw8&8JIrOQZ!Gx6_`aRi2FmDp#JFvtvf|1KH-l){`$$p$nS;S%#M^4&wmzaryl
z3b#S%uxB_H6+L7r6t$HCjgfugLvn<w#Gq(F$>Ir~@CDH~5PuoEnFcSDYN_5x8$;+B
z3oIOzjy)N1!%#umig>~Y`Ts};qhnaHRoaG*{4PqulI(2Aa7;9GG8Q0zpOX9(Mw0TS
zu3h{|@+`kevB+q{f|h(A1{iSbIeQ>$E5BR3CRf~y`}oZp9zGw<yWCf|PHdfQo7gd3
zDY)t~7jL_o7C4i|ns?S`j=yv2#;KWSZ=B8?Ti^_BRr#uh>E;EK!O`@<geX}=#T^aL
z)ol~oCilLvb9%#VI#k+~UAZd<(^dV+;?q}e(bc|*K5)ns%RQHWeAo1Ww~t&uGPB|R
ztv9#cu5Qbk+p?~<yweBfpv^h<%3W{KymzJGT{(SmCh&gw&GNaDJKjCxru$aTUWJ3$
zYh_bq)4{1KFa`r_vi|0oi|=2)d3iQDXPik3{vG2M0JwT#;=**pjNyIzP5bvO-}iji
zbH{sd-rFg7J3r#HC!WiBpPw+@^9Qckrfk!u>ENV0V|d4Q!!~2Q;hGr{LQg;?!6RXf
zn?AF1_VRh#D#5nuj;$sWeP{5-;GM>;ckLc_Bfvf3p0~FO_EzXw8c$B{o36~9m{~o$
zb?&fwAE0P*-}uYpJ}@;Mj1BpQW3o%IuNrI5+k<26ciq8xcdg*A&1}fI8^#WN;xBr0
z-?SxDblsha=8BtUaPZs=5-kuMd+K9b<z4&Qnd3A2q5l9G=G{K_S1K!cnrxqVimZnw
z4ox0^;|Rj8J~i>w<i$6RQMBSJ`YT<P50;TxR`atJK1jLjH9%+4q-lKH*wdfYaE`i6
zduEehZ~9!|bzoL`0TVK5GDztV+$||rJ8`({K;)RHb#*Rs9TD9f&p!R!GZ86fj~4x<
zRfZ8*-viREJuKG~t63z1qUBD3Q@ZqnuxGJ~GFKFcHa&Sm+?y#;<5s52(v`%m9IZ+d
zHwUwGv^ov03iDf05M~FLY6a=QNtdZ<SEg4W%}OHR7>d1$L4XT>1SgbUl`bYYn(|N!
zEctNGsFs~^^el{<S(6TdfB1P)tF>XNnI@mn+Q;Upo;Z!x0a>mgk#^|JfpQ0iSUM@^
zbRGGUzwGNGU&@8mw;t#<i=j#9X6b5|r1LCF*8stW8gPYWSfh>UTAVaei>(G%cXhf*
z4QbNULXQVpoG!twEVVuL#CyRV17!L}!v*v_X3#*^8&9^viJX#tKljqV1C%wIlsYG_
z>H3FS&6ZvRZXMMYb+~}i#4PVw6@KC9+Q-0ac&LpZ4X;_rZL}rb0?sP6YwKh3XiT?)
zuP*n;yE5Zoblqc8H6c~-p;YVBVNE*P7?*tMwdrQ1P1EZZk2`{vUcY$supEfzA4c1j
zLSli+N$&b|1Ke!HF?Yk)1T*P!(mS8lA>B3OM!QDIr6slmA4-Sy2=qs%RNHUEK<^hS
zjSl(zIZLCHQd62$kFAXkE2xnEi>+p(ZC`918{G)v)SGU5czm!`&X?Y(GfL2Rqnnnd
zNn2>nEsdYHk}n;Hj&9bBR~>nP^rrNN^yc?$%8Ui)+!VHt{K=!v=NY}Hp;={p5ra4^
zX3|&5P*ZF$<s@_wq)2SICl#i1dP%-eq9~K0Gwo*>?RjSJ8Huo5M&zoQVli0k_?u{r
z5FbxM^A(XvlC+gVOP<*$6T|FgG-MFX5G71@GMOm;`)EJ@78!pEBkX4f`27D0JI>xg
z8A`bPk0`=XG6;1SE$kSd|A_1+R7#R5{I?YTkH~n90;J=8Tr|ZB%7wQS)HI5QeS9ND
zBVG*u|B&%tV2FkzqD`V{aQH4+F5rlOoy|w0{RL~mw_9T!P$Tpd;`R)PE*V05GSaVg
zTu>c*laWP^0sg;Iq5c~gL@DtG7@}ziXZ?&Yf(4*d>wxGd8i{-%Pss`{+NJU%g{!xZ
zPl7aIY21=G$;JVKMe<}ns4__mP(39}_W)Flk<SH)O^`%EQnYqUzcy5bdDvNm?j#bU
z4$R91*^yyrK#PJ(<^Kt5)~IOc7H!b^33aB>Rw)66h(VO(47y<$dSqWToD_^^v-ZfD
z_CTRU@<MV8U}5NffloSyseY6KN`50+cp8&4`4VtN2+ciZ;2;*zGSM=9{El-Kj^v?+
zlZXMs^v;~WY3%S)cfPDH(<hXz%bJVxzF@YrQSdd69m)qQr(YC;;jtrki%KW2WOfK;
zt+Vc2(JrW8bC*qT%v1|i&??ai2~v+gTT~}_>So-6dlSSLe8rP#!B_V?-AtI&Fbho;
zPYS*#Z?y~F1E8259emg0yZXY!3s8a9ob#+6JDB%)Cs%)?X8I%q5rVau7ldHzZ0Vf&
zkD_z74_4iJLfCLr2p$zY$E28z-v~_apDvqPmpLp1TV`!iL}C4th`C;kdC%*g+&X<)
zC~6YCO;n;%0Qc3P(g@f#eL*M+3*IoqD}u$>nx>kjkIpn_tG0fR|Nh8#NA3ilLX&uc
zlN;XbzIJx%>~u6!ohxnqbI-bQ!(B**K=JJ4!A$9l`S+qTwi~NvH_Tp~+bL}A5H@xQ
zH60%%@3>DaiuikmnN7<_ycaB*OrYN5wtTQ+`jil?AGh6w)W+F~vy*2twwbj;XtPkd
zIp^InZd%U&p1lYH8<(aop{Rkcr!zgjS2J^RX7!DPP}VkkVy^g)F3y#G@S;%GF4)`0
zT~HA=*_^2mf@>h0GHzYuoUksGao+U{m7Lx2`sLRy&)X^lTLt7)PG3KL+Xninj4nk%
z=w-+C9Xa>v2}2&_AGCPRJE{an734)mu8-VygbVSuU*Dc{H%=JtsVOC&al<_?Roq+q
zJI}uJ!i^VZF3vXR8ukd@J&fXBE(Ajbjr8r~Gv>@GVMU7&Xc0UuvyQorTl@d4=2nNW
z^C%4h&rysOZ^>^)r;8`gf*8*PkWc3FOzK}8pSdio-a1z!tllAbc8(oXq*0!SfX(xN
zZmyRkOliU89ki_3Bw1E0A(G|7B25i0#ADRkZ(?#jj(SrV>3UKW+H1w5X41QZgDo>1
zY~gsz3={f7VA|3qnD%eEpwR(TmGqt0p`i5cygw#|%y3qq((hwZ__T2)drHOs6)Z{l
zjX}4Gf-m4o^rK5(^e|)`SfD@X<1eJtix36h&D^LhrQ)=D*BxTcf-EQG57kQ#=XG#I
zNMp#kJ?dy?KX=uB)zM?>!*!XL0vyN0)a|2=RE<<p;8=DAPTKKx<JXGJT#sqgF>3EI
z#$5DI!TJr*(4r}Qosz!r8*^(*f5p{fG{~?nL+$qlXy?8RpBJzp8@R7E$_l_e(KM>z
zq+Lnk-G&Ci1@6cG8Y9MkFK$C9*cY+l2~DDV&9aO-c!?n}CZP>p;>ez4SQKeUm+p4}
z1p|W^jMpewuk2z-l)nNX;CS~(haf`_^bK0!&tkjf!FL5OeXy66rJIyAF}6IrGqR*4
zVC*hmkkHA&P@E($!IY+G44za-Nv!j1-=+9KsE|XbI|-gNO5T$gOvZ^(tY%KQAce4^
zNgC#*;>ANleLWY@MvBZn^qvj&^f7_cMTHIZoC8om83e3LxX#VsY1>RRghWGR#MrrO
z#MFFb*NCTCQnSpi7Va8Z(ag>fb`jf_TE1CYWthgCU8hAu^N97O*7M0htUpr5$&oG3
zNy^o<-52WR2m3<}kYPnH(!EPbH5*gRCYPpjq)$p1i}ywe5!Q_+kBZjNGm<PVDUA>H
zlOAvC=j3pA3mZVuL``TPD?q5X5BzpIK<FJD23H?_-;e}TnbrZ^Vvj>@Ia4dm>MPp#
zI35V-iHpX;q-ch&E(o%oA0%l~=;fy?l@Jt-M-wan*Dnb+u3TE<K*&=_0Ac}{m-HTj
zXl6Hn%+xp%s%^o`3H`v?AWSRTz?~n!p$#s|t7|#G33Gwp3`2Bj3*{vcQeLbGeyOD;
zA667YuV}guzapA2@N~5oRZ>L@3dWe;Ou4`K<H+zo67E(83vjn;uBdK4*d_$qa=}gW
z!JR^I=iG@~b-Ccdu_O7iis_o^qUn7Z!*nv!GV7Wd&F*|5+ZD~e(4Fn>$;K{ZdlK0M
zpDjs_b$(J-K{A@x(o^ZXk|^j^--Pci<J-3Dw)yfVp}gt6@?3da&c1Q>g<D=|DJr)D
z|N9J#XeaILufO`*tH1>B*jC^51hT=}J07sp!MCLgNO}LEyg&4r#RLr-PHyAY55pgX
z=h}b2dA@DG(6;|h+rc|U9YWi|8|N}TGaJF!HGTcibkEeWY}>)xMIAr)aNc_0in!Wg
zalPL8S|^n6JGR`jmqYQ4#fqCxZvWptDB_9_8CcA$r|$2VPW3<KcJ1F~`qN#d`?uPE
zSY(3zhg+>=?y?-P+7{^*Bkly-ckh8y^}6?UpLXwsRxPwNeKCVZlmZGx86OY3EB%hz
zm=17s%+fDrX7TiOjIl5cR9!7KF(@sqB)*FtbQZ?A7mx(i!vz#PK~gPJ;J51S^MIh2
zhg1VqqHvj#JX{yTXO?_QX&#jman!!*#oYlNZi&<fybsqhmkpJbsOYvh?Wte&X|=QI
zwZnw3usb3ry*6RJU+B5Vv@3*pl)ZTwcx)6E;4RZWthXn8y#~e~b|97x)<k;W!2gs>
z4Gr<YC8Q7af_j$4BllgIJ4+hh`P#Hgqp-!LcSTg`!ErC1^s;@$4pAF9CpHh<13utp
zOY(?0ft?s)?zgO??s4z952|=QU$KvR3OXax9yUuz?$Qaqlxf1t%4)?86HXWVQiVd6
z30G$=#u0&D@@Ygk^uty0uC!A(eIbAS@IwB^$E4Q}FQhl=rZ0$~=!dK2?=9}b{jT3J
z{Dy&qKXCol7o9+dExzmswi(@ZNdnUX2k2#-XEUwteLakswv;)>(3*z@Eg=4pg8pnE
zVV4PkfnIExDW=0|lcfyKv?mo7TvFznodgOcv(zBPAc=(lcao8-<Pfgd_V&T!j1)<_
z#w({?Eb7rNi3?~;(j1Dno^1s`5BTLJ>6#|14574pmya&#jxESQw9C>RXg2NDphdzb
zk{|^`p}=P>q}{7Y%h0oBQ|;BHk`Xze+EOW{l*HO%IZ#0!2G$xvmuN6iswMEQwibvz
zC@pb%L)*6I5R8`!MO0e$N@_^Xj-iz#BS8qR+9whpRZ91;Fo#BPLn^b(G6fWjGK?@O
zAxR-gY9yIh1=A`iu}dF%IEm=E2O${0WmvRBa}x$S`BC<1MU{+!r?m?AziIw6)@PFP
z3XMrTGW$+k>+X(4caOA4+LzdMu%&OmwC=<cKETs<!y-lB4OAgX<n4bR<G#0X?&7Tt
z-yQzmc1Gz#3)Is<7CwCvp`V6e@CRW)>_dmeSrBemR8OL0Sv?c5{FYH$PrZF;0s@wj
z_C#eB*6`Zpbs2!vZvvO2rS)HlPp3V-2CNHsz(p-48jTK?cr$8)7lF*j4xDT+Fpraj
zEQQA8b~F>gGZOw>ZAej%Qu}QN1hn5L5`qX$<ED&Ps9KkEum6KBAMW^I2b#71)~mwa
z=W`oR3GP!1i{Bk!ay4O(XiCHfB*~HgM5R@W%>ON%qM1axz&VazjxfO(hC55j0L;L@
zlZ+3_KR{G);_C@O0~w8EFm5?csHAs|3b?+^#@Q#mSHauSKKynV;NUU>hVLRDmCc?c
z!iA<?;d}B)HvIT)1e}awYL6r6tG@+0-wL6C@sT(7Oh<3KR%OkrvMv%r$ka@YX3ozB
zZuF0z8tb^H5nHKwd-e6zncC}XZ@U_@=7y}RK@n=%IJtLx=QO)cmf4qic6t|NTV{^G
zAGsO1)3Q5j-ko*rzUyKy=S*HC#DAKfdL`45b2ZNzKeT^fp9_BAzU|tXHSdHL0D7be
zcf%l*ah&d%O+PzzTCj)4+NmU4Cbmo-|LP9pwDtPdO!ON_vO4QpEf?dp{bTK87uAfW
zSLa-{neKPa-8eUM@y3PQt_@l9hOBGDV<X)2`WOqdXObUJOh=h|7;yGbF5His?8xjK
zcjfHs>4I9*Okk!RZ&lRX9GyG=QQ*7%Iq%W2j*o5Ldx7$|il$G!{o?f(zxn0dh68sh
z4hn$|a46l}idFgQ#>~a*$JC#d`HISXWz~I;jg(vdENHSgLAqFKGR1<qQF^wDnNGaf
zq;W!*3jQ2d?GyIN;2UloYv2tqOr;1K>(aPRlAD>VeZvFrORY5oSMr7Rez+7=&>GGa
z_~}}*t%pd`*dgg298FW@qjiPc5B@ip5WUyc^s3-?GL~()LaG#WR*^?*&AhM`BfBD{
z3dS<M-#Sphdo+Jb#bbUQx}##2gr(m)Y63q^#cR{hUPTMIvbrw{VM4k}$f%^}Q{@>d
zRR`r}jM*x2u|R{{s{B8>u8`5t!*(_I07=uc$|=;qR<+|oIpQ%uDJz62wwN9MdgZcF
z&6WwXvs%l2IBJ6`L&JHMBdI_}-RO-dU45c48wuHe+wjk<zd<ic*>v&9Lg^g^9wu&E
zVHu+jG8s68gt)&g?WFR6O0df|=r+)+6XRNXa97fOegy-u$k2=&os(cC*HNEFDNkq-
z0Oo*LGoF%tPrVa1>VHgpf7%kWYT`rN0JPM5AXkGka7FqCg5s_(US>(YV>F0<GNpr%
zv$32t#+>iD6fQMumm=Jpbe*r$sgbHF09d+PH%772I^f9uYcqGn7<NaSFs+`Aw@A1+
zG~uj~Fx54oB$Sg7=d=$BObW>1V!>EREs2C!J86S@?!dNV>qAXUu(M^bw*`27n9xh0
zYj~#tm^WRKhcGN5f!I|;`=Q#t<G`_FGFz9a?;(C%tCN9SjEzer+b*#Z)e^@-lD~3%
z&JNfawy!JTT)<JOya$vrF$QPoOjBzsaQkD;p(9}p>MUg-JrS@Sd`9q)lS6~R4IqTQ
zxM|eu`Ayo)H@2M#v-(h$^f7Vq#aV{dt&_Oi?5)Ss>t8|{miTRWNn0o_KHt_N->^q-
zL41KEj?bKyA^=U7EEirn6N<%?J$zp`l^Z><s7PAeA1Z`MpcyIw28dOT2M(lGV*&}C
zBOBCKQwIz9%^(YO1j?I3XTgg7I|ryQJZ~C}wL+eu1Z^fG$@Drb)Q+<EH9Ih-8Cu2=
zcp$>Z;c*hbJbuB!{aXrW!oajD@F5tY^LbMAbb#jvd9j$(Vz)}qcB*f=@`M`mhsiiX
zspw5FJn}G*#M`%VC>Q_(nDqnyB!yZi-fLuIauWe?haqfEZ@0$zL_7*@KF1IkF43sj
zW*8o2q8!NeOB`Jf;?n?;pCz+ij*wz|2wzLTb`n9rtRVJq>}An(IdT!I5h8<$m}r5%
zgJE8@Twp&o=zXQfQ1QGbUM?MqAb?p!^JOT&5gnJ=qq2Cx6yg+$HA$Nc8)!=niEgQ;
zcW99$A`fi#-UU5JMN^Nzg32VYX(ay?7RW(|IJ@`t^lRz=>DB4LZCfQyXYbiO<niY4
zeAybIY|U-kn!Dceym!wn>yO+&aL>K^(F<AkDe!lF(nDWAvvZampOjTjZ_h-p@5+^h
z-`gl*SGl#j2pc8U1y$FMP94n@Woom<4P(dd+MMINa<+=;<F{=q^MSJYK#dRp4x0<q
z<9Il*Vm`212&|ql<N|9ZtoH(C*H%ug%osBV-#L2Y=xk7^-!$9%Vd8_ttu|rH!Cat&
z(lks~&j%WWKm%0o2lmbEoL{?3Si5Vkd#)$DcJJ-LzHuw*gMDS<mFW#{ygGIWdO0V*
z^c%l6ZpwR$Cr?aVfCZ17C8u2D78JL<iu7PjxW_Hy!;tf(1N*l&)9Y!uV0hg2Nw91_
z7=|1JNhsek+zIZ*0lL3r-Ve0~t7mMpWpmLx{wK#R(3LmYJ2^brJKZ}yJlzXL4*mxC
z`hr(4O<a02eyxA1Kj*8@3=6*Iaq~}BZOTIdEc6>>gY~m!h&_j(%AtDPG5G{I*bX<t
z@xpiP)p>|a6GnUZ$M%)?S9AVVl5DW?@<q{j8LzTRJuj~w?73z;X%M9+PZk{|6Y@o<
z!vorO7`g|?((loFU>P&A1h*QO(c294%?R{O2Fjk{SegOcnmh;vUGk}UKx6dzC1K>0
zQA9Zed6;-_0kMQwE$*K|Gqa2&Ve91do(N#--*v=WrJI}lM&!M0sLV{(eRd<J9_vDd
zl0i=speBYPX2&sm0j;H0RT;B|s^exNCN6!;gsX@vM6&fEsHI})hurEoo-oVxtwlOw
zF)aBsWyQ_h$HZVd37PIRcjw3+bxV<%f<O}_-cU$l96e@(;k!}gku53|IjzhiTn5C(
zHfeVnu`9b1HXF8{p8zzr*+B;x+m`+@YRWT%ob-sbG1)5``v)YMExgkWwS95v@(q(2
zgY*|}$RvBCIPhD%XR)n?EwcQJlua)ggz>X22+O>*GvQSSl6>S}A%hOh`B506XOQnZ
z+lO0I5n@g7uaTc6b~bW3`OpgwVx#(S(9j@>v_Y+49M3Vcqh0nCva|{FuLH;oE%*(v
zV8LhFW^gA(UEf`6*p(JKHd~Wl)BJwZ&8C^k*(c~G%WnB5%Nn}L;-#A`Zw_A@of^IE
zs%I|`=bcaD@!awsl;3iG)ReWKz^*_SU+VAUzK8#=y*~5oOfb6*Yt>Wtic7C`Om&PM
z%iEZs&t%Q7r}MtR)yor?r)$2N&f2TS(|HJLy*TmWbj=%)apNKf3hk{LI|vHf)0%gA
z@W<}uY<OckJ=_T$GLtoLtjYUI@<k=rwn9tHhOci&5`W2O0f)yrc3`2DvzJU8Zrdsd
zYS%>9wBe1HkOj1vdZs+n(VRatZn@|3j1P}Lfip{qI7Vx!pGq8Gf-hKZYJeW`%g<<t
z4V^VjSrPd+G0#*YSOtmoRGH!ObHHQE#8XLQgu4pq6`PU|G4Nt$cFWyD>nZ;wi1$1?
z1@?qd5Zf_Z!rE^m(T{%nC`=se>8uN27~)Pmj%@5P%e(SnQOp71A%lxkNhdB<tdvWS
zNYx`fmGaZ74fdmRWa^nHyT`YfBxuEbO&kQ^4+0>vyorS20?B>$>3vYp1^G*&Qkp}T
z&-L}3V~BANB6r6J;=O$kB_L@AMdp{dxlGd+gh=88gTrUfN#S_^78x)FTXfdYAMYRJ
zuSicEsi<uqhlXP-3;%zkww<CKOg{*E4y0Paj5NmwE+xg1=Z_ve7D2g=MevSY<eB#U
z`ww?^NCFIW{|?i*pYa?;x1v{zxcFj`gnkbUv?_|jpeocjFd#ZLZWA86l{A)`**!j&
zbm6Zj+H)?B#cm@CCEA#HEHr)@4oZAlMTuw$FxD&GaeDGpvx@Nl1VjD~tsmb(YH%R!
zc%N(DUV9rahLJkadcj?P2dc2as694uY`Qk*UXcmhcGu=TMeKE$wwz~WrgXk$lTfoM
zSF=U%Y?-SQ+`Dce&fa^$lIha<ie{mrIakpNIm~g}U)fh@?W^zM=32=V9;3||GFzw9
zGhK6mTwurCzFQTyw%%&GRWa8o1dfbb>He5=!Z~kWDcD!uv4`@mz}PVfA+oTS0YxV}
z++jqQ=#q~uSaX&a0+>dUAxPu)5nUvf%F$FGmO8meAi$2MAe`a>v^!%xAaS|`*N<nu
z!I;8qlRnG~6Nr7QGL9821R5PI@?%Fhu4POUh-js4F*7~vjU!fIF?7V8wz1h-33h>l
z&0YgzoCOO<$(VN}pl3}xVA{TAQPvIMK{7PF@e!bTtHFuXgTq1|I09DJ4~;kjD-Ret
z&ZH4Xzb$Dq6jnNuHrOE~h}rG{%M2<k!2*Iv8$FbbOGH@jz%T=YFKPIiTT@bJ+JiEJ
zIkdE-U{u)g9;AC@JBYo$7|B^_iPaHlDl;lhk~fk!e{@eYk%;3Vn*LU4GdGC!Bo`xv
zlLqy80%KW<6}ddfC-BNN%_LiDh*_jty0xd+W{Ek?-swez#p5BgD>Sl^Ru>XFqRZLp
zm0y`LA)_=>Ib~uTi9|!Ibfp+CT1YwQj;k*MegKJpqxcy`3<dW%k?qE#+%f)J7>y9t
zkK+;C6wk-VWl9eBGqM<}jjzFjpC;ov8Q&n|n`AJoh!XR^O@>Br2@4Xn))1aS6uoft
z$N95(Oq*W#5WUoz2p^1Kb?LbvmgrV6Ng53n6RHxKS`O(Z*57Qg(NHY>J1E58(27Hk
zQ;l&y3v!l&hEKdDlkw>ngr=jprp}xfs_Gs(_W+WD*NJPs>dL!Ivz2XvyKVODZTGIc
zyFPOna^<r%x7`~*AyRgIcEjQ9`loPf_lTk0kZ(V9%kfbF_>SkO0SFJ#wI<xZbaO?O
z)9q7hZwF6h*8V|JcJq-OM8j*3W}i7F)SiOKc1d}*VqLCe{p<#zWYbvZ$F|_qK)zz#
zxc6gU<@HyAfUMj!yKnZ{?22vUoqy4=G3&0$gW$U?_)wIbZ{yw4P`-3?zN|T0+Jd6A
zZq9GsIeU2S_=3e)@+1mkE(<Pj=0Nbig=^fj;Ni*|q@}GwvyLqutD;9H`AMT=oY#LZ
zVgUW2S+c-OCyr!c+0s+TLWGotGfT_glCPj?H3rTrBf4Z%09&_pq<SB_*Uuyb<#|I>
zvp){ji#mOakI|f!X3H~5sB|%gw%D6y(Tw#Wisv}lT&2T1r`#5VE#Jgw!K;}o*tC$Q
zzw~(QAm6HH#?u-pU5?)an2gU9HuE#&%O(UtVUdzlej2#aaIKOw6KHluwz#kw@E;(N
zAMukrkOm{x%~|#te&SjMss5{{Cr;<xc<Zbl&!Wu-8-!p31k=2vk-w-okH6A7V5x5F
z0_TvQ(5A=4<)(p3O>kA!9R<K`_|JBpXJxv*fQz!-VmmsMd$ew(!m3=*<{kt7rlG|3
zI#_*&3dc3(g37Z|%fRm=N0mNirFan<nxvPiaCwz>xU@;y@kk6#FaJ^d<I9bM1uKa)
z#n@p!?6gN3(>9Htjr<;44{ARKht<TY;H;=gCu*XKjj@_+eSEpJG`q3`Keh}gCw*v1
zRqzY>dkdmibR+~lQ>vH_G)Bqgh7KM&$X@b2I!C2kdRH@njo@Dult*K#I!3n0Q<YKI
zA$2H1keO7d0H<EG;bHT^mVNe0t3*k^ic%@0HL2a^-zS6SR44x)%$r7@d6Umb`Evso
zpcH&SlL?LY?V+%Xr(HucO}|ZGh-=G}U<FTH61J<cO^%--=kLM@JNSP=G1;!hrZd~x
z*qr`-illCBY{n;v`l2b$K53p;YUVj>0?jo4L%^=5X<h>hNNGQ3FTGQ-@wRQ_$NrV_
ztB7y)Wbsz+$|vSFWLNC^;d4KF=?5>}37mj#{e0zWO#Faz!h)&qEWcB=@wQ`Q-dB<J
zHDv7#Frhz!IH)sgW{=-&nJfcWv3_;7X?Lz3Z+F%dGROzk%$yPen`SQxfo*fA1poeg
zAUx9{1UAk_g}~Oi4#B_gE*?$+f03SEq$f&{xs-pv!SXL=`M2G6v=zX<bs}4{HMe5h
z4=q3P{J?W3&`IUBm?%ETZWOa><7{Vk<GyUg{+#zf)_&j<Jj4Qqs>~Vnh39=Og0E%l
zzy#fTa{0%ON@TP=(9zJE#p~b0q1l5#T4I_RAH4@@P}ss*FFHf|^cZx7=Pc3&%`J58
zUZ+lW1rC;vN5WJm5)IHL9~L=jBAM8p_oO_L*ls0DdljY=iOz#GO!f6>gv}PsEoEPn
zMmw8Xe}Hk<iKioGX^^u?zz$2;PDW=R(iAC72eUL2*!XABX%Z~i*h)16UPgjR!w>%<
z;2ovG{tVJ!PXn9(py4O(I(bift0=o-W3FP;_YQpj*msZJ@jOKv86>#DZUKqtXUz7;
zj1AEX*?Nc&CL)*nVySb<MGR`%^w>uCCM=q<V(vGN;vlE6iJaHjtQ3-q_hDR_85`JC
zz))TU+)*$%Mu|KFlaw)u%?f$O&S4Fsnuih7>UaYimtvcGsfR5iTb_}aZZbncOP}bx
z2T@omX-<TVV)XzWohFFnh;QoO*gHVDv}79|5i8_l915lrMNsGT^aZ-+rbNl}BqPOt
znP6!>=Fo4T4z}r`L5wI)wrW>!`ACgPXR*^Y{*P!N{V^GS%HTK1ASM9B)QEu~WlOoR
zybIAEdTXs#hbJjhXG&Y}e*!pNG|J8Z^ceSZFEr<1y&-Keb%L$#j;-P2=0o|SiW&E<
zwKx@N!Kp}i+&bx=zJQ1Nsy7qQucRhlMmSZqRWO&29i43a%*}c0GFx(<HMo}N3QX?I
zRApVwS#z_rBB|Rba#TkdHKS&f0V{s=YP4vC;r<*OL+Wb->IgGRA#A*uN4DyXm!5Oc
z0o-|d?0~sxkeZsbhy!E&m(&5QtJGeCZ=r*zLM(jAbg$Ft6uAhbT9$3*{0{*967|YX
z)+;}AgRP5M{W*Gt7{$S*Ew0@I09BgTLyKD+d%)*xaWCx^)UJi~U2SiZ-Yy}{TKQ?A
z&3b*nsL#jt0Dp^`-dJelutl#Mq{*V~3)W5Bka$U7)adkuOb9DIL8r9i)DwH9o^U?g
z6Sce9{J`v}!|YhaW=9mgwRjFdP!QsR(hLAh^-~E7LeG{v2$Ya{#^y3${WbKPh#f5T
zgWmcJ_OeP4s5x<pL@5-qn)tUDy@jk3Tkm;Uz@^c?<kO3(k>t{S6;av8Q3r!Emoc7b
zbmC)s0KH@W_hwpyF=obrqdel%Ttp?_z5pz+2N%Ioce*Rw6)eY{5~gjG^uUqm7gm4~
zbmNj^rGt>l@X&732XP3fM2N<~jSk4H0(rb)m*L}-lxoZqEYQ|CjFMl$V(SW>BuVHy
z+j+i2F&X}G6#=5-8HH-aM!{H31yDtjka>iTqLpJS(Lo1Wj5Q|uRI9YZJ+zh7$*k!|
zo^<^i6yqB-S3X3^#yB9M^R8OKRhxCSX3ecIe{RO^f|nbscHtO(-d--)%cmROZob}(
zbE_)cRx4v_)9yALfkpv(rEuOC5_};z=6yA|%|GuWMFw|Q)@2UN*Y6POcjQ*?{J3Oo
zuA~KzLpEaW)#AK<4|bpO71v&#dU?JqER=<3!nZbO%fh*`!{e5(x$my1r6(BXSF96O
ztef?HG@M<rF1O;jam$bGl?wsrY<qZu(so7vAKZrV`2;i7GimL@i`4Y7rP45JWLlBc
z!6}82S<qWd*KFwQi0EMOk=L-(bG;PmIaG{kQAXV2W#g*c=d_XF5*pR{DOHb+Wr>KS
z^I4!YBp@V-^*n$LLz@^0e3-_Xp`ZUPIF>A@m5`vpi(HD_3)q#UFI`e8o<*|Xr?El%
zB8?6A)y)%|-`F}C{VD{K%f@%+B?02sI!GRQyoMr>;=cAbcHoL+^m>EfT6NoXIMe>l
zp&N&0j(_I}n11z};4>Hae))IHZ`J&9)kg;5iNjg*Vb+DxtDcs#fBY}!KmM!qU+n5U
z*x4C2VDnJVn!{fb9qi}^?{_Bo4wR4IMRoI`&<Tjr;VdHA8tv|p9_vKWAwv%G7(z!p
zb%J!v<6u}G9W3!*B?zxm2%R~y7u!W23y!ddlkoy`QhHn3#eAiEtvszM;?~cLEJ_3d
z!ykzg#@-MWpZL6~CFw0GwS;TZx-Y#0#_$;;$0Xv0k@<`XKy-`fWmzZ(c}eNGEWkX$
z{Z8RRtptw*CL}R`wwM)>lPyCeGsTuQb{H>~vZPXZ*uk2do^E>bzfHygYEE{xzmlBa
zCZmoF8wE^|?J(Kak!?E}?PR<_#%VIT$%vEDN5*%^_(L-O7=~y%501Kn9S>sE@=Q6V
zq$cy9Q=H!<gVeByjs!m(VF!5Ne&X7@bV-3-4j@r3cD&Cp4xX*TR`5{qaxCMa^B++J
z;!X0zxnL9>L%11!#}jJ7)0)ZC<XG|utZ3f}7Ahd^=6`}v{BcPO*d^eS8w?MeoFVWR
zoa-+*$6s-+f60~pHRt{tuKX{#y1(SsF!SiojV6QfXLh5(_;ah-V7$-4_!*Kl{}tEt
zbE6dwjtnnn*!2?!gt2mtm1EWgtJP349%l+E54?T!`cWuTSwOs!nUfFbXQ7s>X?(|X
z!*k!`HCXdDH_53jm|(vr+bytz@$T?mg-*!@8@X^OAh{gma&m!^$rDqK1sA!%;xE6p
zc53Yc!NWVUR@dt<zV_k+AGw;G$N~q91jq#YJ*exXr%f%elRQEZ$to<^$Ym!m^xUk2
zT!k#iRmg%|g)GQb3FE(S7WXSTLuDQ}63h*G@4BDa&<hLRS_7^m$Q6TKtr+Z@ijk{O
zF>)0uMy^7|$W^Eqxt=ooL)EM}Z!XGvYvr1G(4JtqQ^%NKzlYa_tEZ|LEU=?y^4qjF
zausSuF36Qg@7B7=<>o3@EO^L<S~(y1$QH62{3>YJRnV|&K$EKgnp_3Y<dQ&>O#%(u
z{ZiINtRlh6$x5n?!-9EJ{H)2~yw8!jkg#%XTkv|W0naZh!=5>+YnXo6dZD^?fd${g
zqfeXJ^O_}ZS6{Ejg&)Dv_`pJu7pmQc6*6kGV1oS~W(M9(Ua-K9N?2VwDQy(Ck~7+0
zuY9d?!PsV~TBzpyLH3CA3UWbBsh9HmX$@QtOq|gz#X1iHK~A)jMUxZNkgHxv)Bu;9
zi2U~(IVe^Q)#pPE`I?6Oikkbr9)qD+tus09`HL1TWI>Ugz6Bezg6w2>m8OdY*NO!P
z^K){QD;HeM>ZV|NbF^M?tz7UhKQD*3J7N>BEU+xV%+;-bfW^g~G^H}f4Tgq=O&lbR
zXvS}5&Mk^_D|2pBoKG<4cG>yU9psd2%R<f>IiqXdP%NM_#yX5Jn{&ZLzdk%QPQNQc
z((hXIF5LGlj`6zj<apC-U!IH!mdc-6;7I^WSn`E08Po;xIfKEYHXAwAC6XLyI%SPy
z&cY(eoQ0XroQ0{*oQ1j0oR^GT&D#66Ck(6T9avf-O|Yx4UBiyt0u|FmQ=SEig$aUL
z<sjS3hOnVTU5m(Gxr*@d1rynKJbA0=yW1uE@#om@GNT)@QFpH)m}z*Y`9|{s2kY$S
z4|jgB^8r~GYMTr}kOPF#UEMRWXTbzF8%Fp=;esU#HnQ2dRkaHavN^dGHP9Y>c)>+3
zx3Xz?$R*8OvORAIV8KBe6MpZltXZ(&7x0R!r(;ul7Hs4~WnHg->9sG-Tgn7W*#igp
zH8mIlcwwF%ZJRG{6p9-cOz^o^9b#EpU<VL@wUNy(XFk1O@P`&0<mFUyaFNTsI0p~;
zJ!5bo3mG8Rg+PAG?pwtl4AL4AKqG2Ogry;X`PkHa-%(*`QM(X!wF_ZKfl8<g596tJ
zxa^pww6tc-LZBYcwZqG~Wd3A^-$~y{&&Gt++q16if@Q}87e(7mIoW)goM2aTf}Q$9
z1Dm3<M%1oN55sm)w0fT*q*efS4cHLC>dtS#4=vP}8lE@I48Q;K&6nT*wVS{8fFt)p
Wo5}E$K^akGpWXBsN52fi|9=5F=39;c

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/gguf_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/gguf_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ae5c01396de72c822b94c96f01bf2a01fb9d1756
GIT binary patch
literal 26672
zcmeHweQZ?Mw%>gFoH=u5JmU{+gKcaRgCPWLY%q`u*nrJPVq#+gF(kv_GdBLf#%F8-
z&N!W0z1w<1RFCtbGNecur_swem+G1-)pew(Ax}?wBvsYf8S9QamnWfj(@O3iPbA!a
zsDHFwYoBvwj)yZgBs7((oMg7o-g~Y6efIvXwb$PKJD#`d;2AVs@7uRqr~4CnlxL0n
z@<=e~bT@Q@PS6kPx}?AQE(7=tgT_myE|Xp-lnbW6(07>yqhJ;+LXN-)tY8&5!6xv6
zU2xpux-3HOU+B7W1ShzR-~yKw^1!tU`QUOw0k}4y5L{kZFRX#o>_QRv9N;SkU#?Kn
z<uvHLhW-so0n>kbb;8<@^bl8_4pZK4ulp^OAD^y#p%hXqfK&>-rv4YCP__G8z2x)e
z$TZv4vC?~rhLLINR-j>Jn)(%JtTN5c6=*n_rf~%tn@qE31sYzad2t0AyG*lh1saD;
zb6^FUT$!eM1)73BuB%cggI=k+rmv}3LejPxeKNnb_2rk^$2>!$edC_dzTu(HYnQ!C
zCW!4es*+>j9sQ5~fx#i_*Y&F+mDdU5Xo{yFlgM~}EBhx*euJPN*re0>499f;Sg)O$
zU?>K9zkb}J(+NfuwNZ+hFauvsMi$@|On$vG5GQo15<$r`AHPl+Wc^%boKB~dcUkVb
ze*SSv!62A#TT;1Npk$6!sd9uIzhN9oB^btGa+qKQ;{@xs_;b+L@6_ODZnH{x{meL&
zc*3fxpX+fBe~#aZbP5-z>o3rtV*O02?3^ma+{bBEv0C}*mgnc^#vutmrZ0~S2!YxG
zl^IH}^K<>m<fqEYZxoE!_kt;1D!=s!DXrS0!f#aCVAU~URVbfyOsLxA*^Du3KUP2E
zQAT6`+KdSBDsdB5Xwe_b%lSFEUu@9YrP*`oFMmAFZ&F%q!YWu{T*Fc@!T0JW?4uP5
zwco7J9MZks4e<`Yy}wF{P5)K3r{)-g1yT1KgWu63%@8)f17-=x4=YZ`n{`=;YW!=J
zd{kbv;G5G}@RSluc?voyPbE~Zd)I4H&oLUyqTenUZgZ)TY==7k*d9V&jkZ_S0Or)p
z=eA8LE%Zfte%_o(2VbSV|M5VWd$G7#;%E;DR&0IfbNHrv3@eug(s};zOm6ea{4kNL
z8ZX-Ak$RoSJe8WkcsdN@$qBFs=2QSe2EifZ3eH|;!lg=&SJ7_)`aI|xX)HPYJeJ<?
z^5-d|Nb2c{e1EP&(_^>_|IyaS_vcCV9fuYj&&SoW+kk8RyIW1VcUw(3vpscB`E#?h
zjXXjp)N`{||8XnypLX2S_aB#~jPl5uC{VTc3VA|%Ka2k3l)lN@e}(=6g+|qXg{$^o
zuD`%<?J=Iz)wtS31T#wrSw-xMrT-02XN@6g6#6bDa|XQL%kZ*<QN7<^{L|#W`5)iy
z188Nu)Hk%W9s+ChBCZRw`lMMH1$b3s5bfYkS_JQvzHaXl036*Cw%-yALERE!nwm99
zv+ttkvNvfS9TvMUCY`<BQMcgj@r(_^UrZ&LBYI_$KHrdMC~5SKT}qlfmpoU|?Hfv(
zy9Yg&E+@_6@Ys-$v{0WrX}Z$qeKV;aO<KE$0rmBc4UhSdba=>{G>i@dxo4=?o3wZ?
zU-kl<v2SQJY3%llCe84+qb_M4_lm<l5%CR_QvYVs+6x(6cKiCqp|o$hFZ7KjxnZ%_
z{ia(g9(ek|BNdwK8*=w}J)>h#_+$>0)qTY?2rm#Uy+8=&NJH?&;_LPddVOLI<d@{A
z$4yI+WG;KU2i!wYX%-0I^!D{$gp&3NSCcs-im!WkFv$*!f>(53@?1{p`;wd-=f)_@
zh?Epd|6-62@yL4Z=YP7ljb6IE?Q-Act)m_hI%MnBv0b|x2X=Y44fb8wcKO=q#o?iC
zR|W?!ZM!rqcn96ytKRN0=)Y})o@-vww{1j)v$u_n_6_>B_4bbSxasQ)m#-!5*vp<b
zN8CNb;w8_h*aU^aG2yF+5g5=dy7F#poZc8Xe&4kw;i@67nz(CA;P@h!8)|xIPs~&>
zxo45HP3;Qq3e^Vpgsp_DjCj7~HpWaFW8B6EuF|k)`URk8*eN#1hAKn-ai${Bbf3$e
z+8f*(8o9nN!IcuOG|rVrYQN<+#7rAv+=d5s$5c<SC+v(In(T?&YXYr{S|Oo=;Ki^r
zI7p+>DG28fdwGJdCVX|YKE_wa`R#MN2)`%La^IdeH4q#KZ;Z5%lFf1ZmKeV!VcS7$
zJLX#FPseSC1Bbt3_$e;Py?^+|@#*6ceWYc^8qePn^^*J@bEoHf<4nuF0>ZQ{GWPGy
z2G$X1dT7z{uBl_eW1+VqwbO4$#JFv9;P4`!H+436HoP{{ezPp<iu2D0T9o>4i8E#C
z+FyxtWeKhl+APj(i0Z%PYGS6E7+14e>p%u)f@iLGCHP9hSH}4bkb%uP)f#NQel%fQ
zPi*Vsw#vX^C|+JsxSF;<u$&8?yZ%OkFC%<e_^mj<CD8J~;S8M$z7;sKnCl80z3<2m
zo&AHOV$!(CI1@|}VT$fUs>g%J7oD#6YD3+jozunPv(dacE2-H-O7{}y-bGhYI4@!)
z#hZz1%lAgT^Z7?cBX9rj7M;TxyzqX(jpFIz>z6)g3Xg_czt1u9&;3`UnYBJN>T)ap
zY}YvpZ?MyBxF+gc$lVe+x|myhgPZ35l27DrBDtI5xtpah+qCWDhEMj+><!uCx!VFq
zzmvLhk#$X#2g}1w!mbU!_M!WxJK9c4x6Rd&(uR36Dg9N9*(dk<qN6C`C?}5cKj)Yn
zmO$&DZMxio&}%o`)9y$+DcBfoBn3PE;HZbH7Zir|;f6>>q&=#S)<!+C{OyzMeP?0l
z>OU`^Y+5X-`lu=5i=LTzd!D^p@wts`JQUk-h?E?jJichld#@?v3$<K75q>K=GS@JB
zjg;>uw%zZZ_};8@RXjB7avL7naL6199=X-<;oh5jqi_E1?b){{kHl^JVEjQ044g&Q
zKD9QuHq;(03m1I2_NFwB>PYd{IWsA4h%q};waTCJ2mMedyCu*f)#=oYv(slI&gnNI
zS4qLPKRC9pUZtYa4?K~)$kmy$xtjT=JI|AfeX+8Aq-g)-(M6lw@z>kJebJ^l^XySl
zwv*U)zT1|nQY}=;mKSOXx5T*0n5ps+OddMX3eFNj>7_z+D$(ggX9%4TI&<iJi_RoC
zHC)oz0&~5wrFLi1)L!r24sHW=8>w68J`N!}s9R6n2I}qv*K!mX&YbL)RXmWKPKOI9
zu5gcD0_TQqG!@s6t7gXI*Nvt^wDbtKQ}X>u-K?QaM1j1<m^2JsPFj1!;Y%0BdV0KK
zGN)&7*aIsTth*+`GwShSrt8H6;3n;YSDuW$?w%cW;u{cn4t|et`VZ*tbNtk=g1-vq
zf86m&*G$&}w>@UsE;d8l&r>V$3}jVf6kmfsVi!1aWombdSjwz5f%pp$??yK2JXT}`
z7qlZbLBp#%BCQHZ19(AC!7xxx=tprKqEA2Km5c|v47-><{Rnn4p4$dR0MZhw{d&Qu
z#7kfeT+?q15(L*$xTtbND3$RjFn_}E6s6WscC1=zb4IBxD45EEgHe^YmKbXQHAl`k
zjLB8%2f{_>qts7eP?<sn7fg*E2Q}TZNUhf(m~LB@x&Z{{+Qc>}1pU&MP!}lT7!VJl
zLnjwRgG<=&6e{Bv=egSF!)avDJCw{tC8N9fr4t8_yH6hNI(#xcutg6t;a3NU(}%cL
zJc}Ol7+|`_BnKE3u%~wjen}Gs&6>p5k-!ST&wXKVxO>1S)?<KS#OK2?h}cc~$Q`PW
zd<5n&QG{sxK70?rfv?<|AL{(e;)SvoqE~Pxb?yut`;K=^y&il$T>r87$@t9p0$-Ql
z_W)*@-*a~?&cFPPC)R#4)^QTtdtSnKCit_2Kf7@5jl{Vga;_)N_X4<KxvA1%X=wE0
zx=$Ks8W-5-6Kp+U>*u=e7RK2l-#G6zeccS;g*_2y{thOZeZhTzVnTIc<8))fRYhD?
zA2)x}I@20=Js%w*uI+@WmExV#yArNS;;Mv%cg^eq>=*SA*EYgze`q$YwIBep|2fBK
zb3D`;&5p;XEBu1#w_gPAFW<gu4tX};evan1zuIj1Eb`7#%{!)5<{cyM8Nt_$BLN;z
zqniZor_Dotb86PMDQzI|R5b$YjbNkdZ42bX|Fjt@m5(i5-^cRFQPm&ePR8Rm_$~5`
znS+1nTxVC!b&fXi1n@|69q10_x$Y3Y;an$Thl#k3CM|<~qoae~S%Y{Hy$p!HRMr%|
z;9a70I3tO@;MCZ}K78*-C$+Apr$2E3BXI5$2f;~N$A(b8g(Q6<!Zh&`I5iBN{KU%`
zAkTUi#Sx@8A!X8VbvyiOeK-~4M2L@g0OOZUh5+Tnw;>eM^t}da&{I!_*W!Hpw=fT$
zIvsoUG`bz934bQRy9w`JIDa8=zMq`$kMjd7PKPCN_N8yyW3RLWckGqZ_qqssCeXaX
z{HZXUBCou9?=`}nmS#|dYOY9S^y&iF7&!ER<3q+^W5T+YSl8Za{;>6CYuvgaYWlQ&
z&N%0qGe%#Xwax3vrrpH4XZ`|V4+NSQfyEizm9Ul&Yssy;4|m<%6}MJJMn7$einG3G
z%Zz_+gludi*4^_Rgx$Yv-gX5!oSxy&lg+|7BIqo95!(HiS@@aH!YTv?-?|aMaX>IR
zZQ?7?@X}X}dutMcIgD@kRoAdj{CU!^aTs`3f*T+viN6LK{K|Y&;5_vgb|ucYeKQj4
z=!~801oz$;;ZG&_bA&&)@VYzkdM|msH_l&N{(S)|SYWp#*d2u3F?Z~)CC;{fqrX@C
zb=^HPVcT$=J44OEy)jea<LCf42I;tb1x6^0OYlmMBn5y3Ag>spCQm8erHz-T!r4zR
z9T-qPpz30fMDT%)X6RMvSydXbDU|8ItKfRbPgxIOtJ)~9Z6;Y7!6hN%fh`BKU{+RC
zt*zgcN4bLMVJ%j2v-}LX;fhSRKfq047ft!h0G1}H`c34d_`v=|S?{y(v8k41RDGr;
z4>59Ctm(4A#u5k{ekCSH;FR1lV$?jwtUSwO)I7GVJj-L$JQT}lmTh?qC)l%;+AgqJ
zV$?j#OReTv9;4=2UTQVZ@)$MG@=~jLXiRS|m^e66y-5ufgj~dp6iu;$Gxcuv=K$t|
zp2HZ#e$pmNJA5^C{*_=9A}BfuFa0mrP7$wycL}HHr2`m&U%H5&E)^&#=33g0Uc^!q
zUx_%2*H|S$MWK}zszNN4hE}ktG76vyxFi{p%8zvCf<me!gL)!&4=BBI=-XH$sE%+e
zMK4geB|$AC>;m|3(V*~(IvN<O&OIRhGa&j6{CroSKDYu@M5>9iCU8s^J;VLPxe0_$
zhjVHoI1%o=?fPBGY{`P7KH+$gI9{CZx>piAedg=(xZ}0Jk^A=CsY}62;X}6#zhh>Z
z1$%A6zMI&0&u_llAGfy$S|4zz^AtmegZm{#c4QA|J}cr}eS+IdxV>LAe|hZlV{xuE
zaA=XqeGirb(Ahf@OgUl7Bi3kBbR^EyCYVOTG=AawvgGrUICCh_w8-bb*B&;8U14MB
z)u21UZy@}JNEaZf_Bg)_l-;b96yzH!B5X;5tt4zEWG%+oIzUQR+tjAurbWj3PVMA{
zkZaOA*%-8i^@J(@CG5%D;9-R`-}0~$CHyKU=Lj5pSgo`1Axqdb%@J;0#2E3+<PdIC
zw0>^qeEXffWXpcS?T?xEKfchTvV|`6e-EGFFAF`i20TCaLchvlm|mDI$`X-ffwiO;
zX2B%n+)i0qO;`k&qyacVUys8~I+0%PErK<bDr)XB9u-*0&xitV3aq4I02rXA($j`V
zHi1pSBOHGj55OlLRKPO8JO_U#m<blF+tM(vD1!yO0J~U$?J=s#yCT?|;9$A7<1*#9
z!U6?<L1l`q1K)vPwj>bv9%{$oXH%4PnaxUXmgzyMLP3O8`kR&Bm`Y!vcOaieNo+DD
zm!;=nK~`F9709_#FLHh})ZL;el2t8UqS4}@XhPKs^j5CY<C0QGsxOQ;1yDjfv?aA2
z!n6SrNHMuWYD8;tg0)Q+PIaEDKFP?_yh@&0oKl`zoa#Jje`(g!xJsT{oKl`zoa#KK
zu|dabMm=q-<f+9e<*CJK5u8uZpYW~G4Iy=ZItAB?oKl`zoa#KadPRq0Ovqa$Pc2R<
zPc2S$o?5*k<>^=@Pc2R<Pc2S$o?5*k<(a=qo?4tzo+?fX(hC%jE~`EY+r$p|l(nF@
zgs{gj_6j<vn_4=L4#mw>PePHn7h`kLL7XoB6Lb*RiYUp6dFUW8udzQB92c(v549@-
z#LbR^;gRq1u+K|veZ+r?>DeTG=Okuu8J!?H@1XN8I&Yyf0!~uzN$M{o_1zSw`*0md
zqjOCi=nlZ=H-PLD`1$6c=KuHc`ICcgWdnN6N6yH>NC*51Z<Z&Dx0B-Sb0zZ~cb)O#
zgZC<9r`-$Oc|h}=Eo2Jor`h0s@W^=l&Csz>DPhYKY&Bu4VLR*U%+)x%9h5-!g7-WC
z=TC>%hK7j!xrBWyv2Ts`&sWU1$L;$Q_M^mp^j^h1RLsWh9lvf3GzCT`EAGS27#O;Q
z#v`>6Ppoj$XNKQ1cbEl!H;4fF1!2Q<OGF=OnlVQ!Zu&_cnArf{_e|FR`XwdS2@tg~
zT03K#bCU8plDA_yi4zid0up_seZ~^4y*WYhwyF{UlbSbzZ-kFU4bi4J|3ZRqAbi7T
z7k+>7&c!&tAFOMji4?GWOZ@Qa&8wjEea91Wp%65AG5BJ*7GboWSSuo(pH@UqMlVE9
z&Q(NfX56rKw=!+V?2}UdlIkxl@MBv5B*2=K1i0Suz0Qdny-sDL7pH0E0X!*5c-vuG
z(~$5CnyOsMX8&nat52`WH3DW|uF6$!SFW~Ix+1#QM9Gk!vKrEjP6>mqq{_vEbx(?`
zaY4*@Qqoac+5!myQImH0o>6W&sjX2s6sX{_EIBgi`b{t?KGha-7Cw+C6?p^CDXAod
zmDIT=72dZ}*-KI9g2bhiR7TZGjGBikA3;8m<uur?HQ!Ec*CN7!GcW2b-<8T@Nz19A
zKt?%G$x&Sv%Q9uKnrHR0aH>|(kh(ysl(0MtHG;1cYGX{-CQG|>%i7)QXQ{%Ko}-$u
z`Sk&V-*!?rnv$yfwIt=#84#`0Lw-FdcA+)!0aa~on|Ko5RCtj>Kx*-W08vua;<rfQ
z<I;Y7>p>@t5)ll}>Lnxbr^JM~Cr!bhh&xh}MITyuU%n<*K|l>JK|<79h#I&s$xAlk
zJ)UmZjQ1(t;hr9!7dFU^BfeU6>cFB-rpQs^ERxl@5A6xn;8AM_y&llx$3XY*;pbZe
z4U`={-hW2g-TZYQv`6&e&gr&9{$`TDIl5<VWWFMv|6(HlAjv=YH_d;0?5kt({1btf
z7oURE>U^&v)DBwX&d^5K{7zUaiIr+^=W65DhQPr^O3*QVGE^PhmatYJK-wJj%(>#$
z`oO^l_O-Vzd^mJ-DBAt6E9TngM&?e=RnHF0A0aOsy6gL<_MYeK3-=nn8jp3p`qe**
zopXPC-V^H<V&0xucTem*m`wG?1_sHw!PtmM&WfbP7uz}-d&|F2HbLwYXhi;m$)EaB
z$;-Ow(7|xk^wF>{;<<S>mbWQ7vS6)ESiw91RqLL6P}7&7rhI<L2Zmu_=71L7Ieg&l
zMMuFT59Z+sZY|-~hFjuXRf4M~Ty?Z3##P6;hM1}0arG+>T$s#sk8b5?F3!K~vu0l|
zVe(g&^Ho${D=p3GUDlPB=4X>v8V0PkFdM)wD+N53?XjkI2{ji81DyX)^D(KtSvI}c
zW#I!gaC$*kEnM15DBLgrOBIe>cwo_$moQMOvVsE_Q&@}?B_CC3NU%rR7o6ZV<6O81
zPS{g%RG}gBNohJX<LKf!kqd{Vd0DL}@0U|R;8ca@NvY9rmnz()3eQu8=c~f=Ask9X
z6_PS!R1ORZa(-!GLUSlkamZsU#UYm@gQHNz0jgmHiYX4cj2RqjR2&5v9CGP1IEp~U
ztF)6`4_ew{Rk&PQ8eXCbm&-)M*Q&zhoN4$v2zO*@Cpo{25|yerGTTY^XK<9MI5OKw
z_GfUEt2i>-N%m)OtXF*lTHvkN4|a#kMuS!ME1}Y{bqTCOPh#u%omBl@lG<QUM$&R#
zS@|rNNa1x+-nFTGm9|>WD=U#Rc=IUlx>UZ}yakflF@ras@|LFZRa$&`z7|d10?J#K
z%2%6LR?cSRTS$4!Q~4_Wwme^#X1;4E@A_1}+Pt!|G$Y?4<n4v|_jaMOz5ozj(<XL8
zPpk}t#hXY%6`~XpA4M;$>^d>6R;9R@BIFM+g6dJzic_j(MZjFcJ-zl+G7GI(MNN7g
zv#m!5&&N}RDOH`qNlBmkVxPO7z6=h-i*&@&=LXNtlm|%Co@Hc|*>I^gX}DAeza8+a
zhhGEycEWEL{2G%60pbOS7a(4Mcmd)Ch!-GUX!KP;p_Tz|EsuBrs4~r12gENR^zY&4
z`y6DG>>&JEnOIO2Zc`{fXiqR@geeP;M{DEE)&x^enEKB;e&2PcE6yAMs|jk0F%miy
zgfo>DgrlH2&TUU{y9l@I3&WSz&#iIpAgF7pd4)b)88(FgTb3sH=Lr8?q<^k*&J*Vw
zQ}z|%oY3)58DZBa*iD4p6fK$Sn0Ln6y`ayP6ux05^irstuoVfmhOjl!&2yf4SDbxO
z(?r$|Cq{$42(WWQb@=kYRrG-~+#GI)U%~X&2plum04GH=LTgo_O*bE>RKg^>2P_}r
z;JD#P_z=mhfRbTZe?rh&N&X?u%E$nfHa3vzUGuf1`bFaW6=C;D$^X1m4_NEuS!lVY
za6TO6By1TL;wJ<Rd{6;>umKLvM)rOR#yinbQdJMu%2i<Lvxi9CZJqpisZxhjtdqU4
zbKndKV1+dLQPW2w(TYgx&51cZDX%5=I>PLjy8y;RVAt~tVfN;E=w#urjtfnB@>ta2
zvRXRal$A~=Xjy;J;ld0L&xBb8(NH0k@hm%rXwQfQ?<$7BYHe{^aFYR>rVs_%Vg)d0
z-PokEOwkak6rCFgd+7r-DeH(;($fH_sr1rXUA54OI3wdxm2ai=(2hugxYXcR#ien;
zMgnK6lzyewu%@)KU=@?n5KH=6HU+rTF&wp@k?eWsp(C)R0XT<NJ=EeyDmmEmJV9D2
zYXa$Dkt!{lX1OG@S*>zO+G6c;@u{@b<;tFxYWM%Ka@kX9*;Q6K%i9aem#Y0r?d3?N
zrMA<_p4Lk3m77XSU9RPIRF`X|_Hw4uQkN@xS}V1eYuSE*mbP3GH#k|mR&2v`X)75j
z+9`C3Xr<6O)2+RXP7#F^F)~|vVEIKA0SaBV^uSh)(ka4yw)A90LP`mcEj{H%E%{a?
z_|{TZLCfkPt1?oGifrl0>WGwbAX|EhsHP|pvZYrj*H=->WJ_;N23@xFiex&7r(%7!
z^old+vZYrd)45hj&zeD(ksh_;S*xro*z#~w74Gxo!9Gvw_P73Z8Iw79{dvk7pmqBc
z?DMQs;z7JEZ4*xck4n6yVk<7IO96E5q7ws0G83XwEZqvC5-W&XvJDWGXG7?v#zASx
zmWsRrrULV^P8>xC#pNa3VOhfUSu*GU7w}e-`y|3IJ$p5PjP#`Bd+?Ub8S=h~r_HG-
zOgD|hTS!57i}F|5Et2f~`x=$gl!H`4P8xjOaG)Hd))A0eM?h*F0jYHaq}CCTT1P-?
z9cdK*C1m2mW%CK8)t#_qgsoW!x>DaCe-3F?ePSSIHfO=UJz;Mo_Qv^=yIpbnD<Jjp
z)D$S>RoV4B<NOZk%=;I0U+(#QPn>T7^BF2*9txcd9SW@>Y;l5J52EPDu1|_)isI~M
zMF>3zX9QY9C4^m<V5<mQ1qa!W%p8fcTbB{s>iDqhW>?I)5#-neyN$5hz?R5*$4aGH
zIK>WzIqjjUP+h2M@=S1RxQbXyBh4UeR7LBeRgo(*$L1<#PQZc8s>b<tQn~MLC8;<>
z*h7$q)drjf;57dz&UBtlKRVAJ&zY)c<?IvHa!1HA`I@?Yo{&#zom5GmkWb0)N%^2B
z?fLItxG^+6B%SmanQVYtr<&gz30H;d!d0Ow)5k!Ak{MTdGh596UtAYfXpMASW^1Hl
z9&e3w+)w2KTchfft<f5^HL^PbEpX(7u|LJO=aLR)x|-a+U&HyXzA!rf3Y{;}`48y)
z9XkI7o&N@obRze!VTN2nRI^l#P6IlJ(RmFWH1(tl*0OteaNVL?suy9c)R2{bmMvAd
zdlGId7EE|h^*3}QKucm&$xf&)&Ulp7S!;6>51A^M;HeJ4;_{sFq~&0+Kguk%#)*(+
zc|VQCmWG^{&Re^d>BF}&ic(*yW7d?EwM(qNk6DqgRcU3*9WLbow32FRwQZ4xjO;gz
zret8ajtBZ4Za_t7L?10%oOJysm^7NpOhp+9aI@(yz<((T95!3&2$K+`V4;41Y={!6
z9L!R?CguE)vNdLstcEBBmFDCP5cqNw$;!`4=S|+-4Y!vXAvATlkakPKrSs`+XRyIi
zFt4g6(zl>o<D}h7aCN=1sSL6<ZX<KgBrR!+*rw7Kt<rnT`c328RP`JGMEwRwOrhUo
z84+6-XSLB3YF9R@lo*VqQkE>uLC-SOFaHJ0F`z&x{zdq^Lb|flxLUeWdP**kmn!vl
z-7p4tEg9msK!p#;4}6>WD!fVZ0}OomdK8o&L@FFm_)j;*sOUhY1}b8pn6MJwPXm0^
zf+j6^7ZhA=Hi#+LV2G*xxcj(tEy@P;^8;{s=$O~%?i;Beg6l+k20f#2X%rksz;nJT
zGqHD(nvt#)bzh_h2~yrc=^%k&(3dpyU4V_LLGcsh{ww6sU-O~7vK;D*2QbR1x@HRU
zcVG31e}eF%2=o66+C|!w+C-dN9y|BTSf}_P9}+&U{ABaY<^^UeTyglqKCtj_zf%e?
zgxQ~9S_sqfH{#!pe>EOwIucA5VY*^xy|Lblai$M$uT&YA70(tgICji6#p(~ujo+=k
zGXXEeaX8_4nK)j)*B|RT8+V*r^&Bz1)#X(pUFl*!1A9b{LV#?Q;o5LzXe{`4!toq&
z;09Gi+))p=RZ_{IX&TQGmnB%(fWouH$L5{0Z4}Rc2e)Ar1&cy^ZjDC7o8vLp=FcjB
zzwyq-1$GZy^<vL^|4_Jj`q&@r<&%cR!m<xW;2IbG%*OCIDMTx?x_SMbowI|aaL;@<
zDQLRKeB0g;>pT@}KlQa8>Jxk8Jn1@5j+~DPUefA~^$(Di0g^vBX~4tAlMU~%aJ!{r
zJ<1feNfEBTcr&<F5?vxC(T+LTKid&#eqhG~%*WpE47X3eMh{KEt)=#j#J(|Vook*q
z#O-?_b9)orEnAgxgxC)RTEByyWr9p-^DQCfth!zIyFIge7MPvTU(0J;fj3x+k;5~^
zw_l&%_1Cp`FWhbTd>`3*j8q(()W1_P*%2}XPr(@lar$t$ZhB9QFO6AC5j9tD`qUY1
zjuy=HeYW*(4&3qqcYJ(hCv_)C^$E%eXRU+YP)D!}j(RlTEQlCxT4Q`=%v$*^Qw6tQ
zLaQ)vf_Q3oaQF4}g&>Hcln37_s_KUqKvgiFrN>XN1x#N8vf97<kiL6g>)&et3vD^&
z38NqGTb|Xo)tHhFdS%?9!|kV<+B)INIF($F_iES3x4@a`jd3`$CoR$x;KQj0KU3-B
zw8<Z*8!y@wmmp5W@3IzN;Jf74g*)NW)<}Jv-vl?Q@U8@33VX0&xXA6f1izW^o1+bJ
zz7{rNIcMNyYRd<gH~(8q1+x+V6F4;+BtuoRWTT2O74Gqc++KjY>)^V9A-KQ^n~`4T
zE9p4!wn=(XBfXK1-o!*Ni=p=g&_hYowv_H|Q<Z_3#8k~5QS@AsroBI65`RLc8l9KW
zc^REHbWWi23OeoRbf80RdOPurYJKR`{h!f`jWVmFm6O_xc@eHJ9vk%T6aN9CuycI9
z;660!_4+^RY=6|b{!X{;k*QU$uX@;NfI$T3kKl6BMOz_tH!a%W|B6N1^NY4^i}uam
zud(GDV!GTP*6H=NKUk>4>K#86I>4zk>(~5XFV`Q?|8PjZLGO6<l0Hwr^M}oK@On}I
zf_~@2^Lib_1x$;%MIpltW}5l7xH~p*DKQ|D0dXPM7vO&|73tS}zf)&sV$8Y(vz{>P
z<EDzpzW->-(GI8}Ohw#O89AX){67k)B1}~ru2`<#^>B?X&k%4tDl_U`v?Klx*&QeR

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/gptq_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/gptq_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1ededfe770aa97278871bf3f241b79d49ef5aad
GIT binary patch
literal 5958
zcmbt2TW}lKb$783ycPsNQg{iVz^4R?1Z>f=DajTsQKD_xq~yw05==BGh+UAN7LVLr
z(j*HuOyU`njb=oBv_dAzl<ssIW|Yn_ADyUQRlf3(A3&f&cui&GiDz2<L7_U0`_cB?
z1r`JqCNpjC3@*;S_uO;Oz308Zve_&Mn#6oR^<OT8eoF>=<Lkg~o<isj5|BViC{0Bv
ziogcRkfx)w2GbIgW}~bIGZL3JMvWTGN~W|qYSv&*vP7-0kCXT)5C2BVmTrl*r0r3=
zwr-LfX=l`#ZjH85NHk-cU=}P=Te>~k4(n#YDjiC@qAm($7||VVho4K}#dguPXhcY`
ziJl}Qw0z7&y=G)ag0E@KE_wt9{5TEMDf-028dMv%ihj{Y#?7-yi_rEl8x0tcXiTAd
zaDUR06gfv|7du3c7skRNkrF-nC~45<TE)Xjli-5gN1AwWi~P)+gvS0hbAJDrjI=X6
zVi!>H!hO0IxX|IJWFbVU#_@PAm&!~5Xc9y*m&oQ82t0=42_==y0PLuvT*2A-g%1{T
zBFx!7_{NosvC+3Lj=uZO#9I>~gKBv%l@a6kd|Vb)_lKEp&BilIYEcww)8nEtofQDB
z<w_jKB}tUt8-H7j3#zXP^<sKb6a-+VhW*q~W6|=~l@Hz@&1RA*!li?Z#^YE@WomOO
zm(bQ!E{DZrYCb`>>5T(`hTraALVpJ-^>;@okMfj2<<U$tc74}9rUon-6t+Hv@&<*_
z(%QZH9&F4T@+j7z`2uxVn=$Eo_Wm2x=_cy*fz)ZBUgrh9$UCgfXqL7|nLrKdOcQlR
z(Jc=(@y-DC#{Cq#PDg<G17D?nYuMGe6=1gM`}Y3t)j@&1aSS2+PfeU4rCrC<Igt&Q
z(08d9-i`yx;5}Y!joYzJG}!}h#{!>LegDBXI{1tvk()=~x%WRu;a=siJ{F7z)BGV4
zOb65bA^H)c+x>Tm<{fax!88x1SMv^V%NCud1<>k0DG#$IkJC+Whm;O|_kMXC%!y!u
zSMWByg7siLcm@7P^xkb3&;knCCRAoJrO2vf3TJ0?F&W$gaXNA$2EOKL5ExOdQ#s{Z
zv9xC1DlIRh7yCZU$g{az7Av9<tb3I>@l3&**`E#)nr|#}13^H4LuCks5QB-vKP9IB
zlvvPHqOyyZM`tk>Gm5k@5X@$zh2V+EP~?@!@F0)~ek7)*rj`9iq~ze<;mIrx66Z4z
zoSapHQ&}ar$Z3a%Lk_ilN>pOPLMEP0C1Tk*5#y8~s@59OSnb*=IhB!>cqSpLbSk4@
zVmg@E1H4N%D`8@csx=o++=wONMY32m5vo8_#6-v{my%;}N!6rz-|=%-RLixvG%H@j
z7?3U6>%<iB(AWm(Ar2Fx#tza2NY^+Jcf(L74lSs)|BOYHbS{!h<pz~FhC>JEXJ0!t
zeB(7SBBdrHxdrgvnaG?Zr6cLAAWAWDUQEmahY=~hAYwVvESSiwl9J?zCP@tp=N44E
z{wA@S*f4ko<R@JG0Q~1N+G*`upWB$*oV!1_J@S5O<o$B%pDn+;V|1<^zbkJUyDNcX
zE8LdJx8v+xPi`bPr3Yi%7d|Xq_^|A}wtR`;_1{fw8M`X}K7!}nv3IYJZH#SRdcghC
z{tJ8Aer5S>f_3cfg)L)e#n-jM-L!w{?Og9#Pj2@Om->dw-c!qCTa2q>w0-jJ?|i##
z^c2P)8bdpFZ=r9i>%^9QsAw80+J|%w#QWF&<@!HgFFW5|;dZQt){=LHEo*nh-?cJ!
zbNmV4y3Kc#_>Oh%$F@&xMQeC7`Sa}0vL)-qomPL<Ksh}XPsg^WzvSsJx{q(Xy4m;h
z!JiFo9;wol^E|an(`_wPMB7@b78L0I+si+=ym4)NaHKRi^1$`Wz%K&Dfy*WTl@;!h
z$y+hoZyi}ZQa1Yv$%p11jo-iT-?9%DO@l@IV8!a(wgyVp!1^~!)|cytM=Ft%+mUmn
z$hl(p{DVGn=%waEX~dtXvdGfA3lc)AMU%3oh$?+UTu^O-n2gU#N^Fj(pUPoTnZ=nz
zBUZttM&vyW^1VYm6Cw3Nn;{1JLerzi1$2E0p>IOeSz?yhJTudXReKu*O7}7Nm;xDB
ztsN9~VSghU=y;GBHTLJJhX12(zCob{!~cn1!{_azC*}>yOrA{`D0CI&*%@M;FEq#`
zXq|%^9)t4qRTN?-77c@^#}*C8Plt@EvF>72Hl>JZaHZf+up)nyQl?b{7F9MKR}#}I
zkHs_?TrD9|X)tKr8T7-s_&DhXpi_;xxT1(Sqw;kiCZrNdlV`w32`({Itvd^V{C((_
zQI$ts$9~-LX~%Zw$x`RZUw6J%G6hzQYyKzJ)|$o@h(YYwoww#!=L^Pd&p^pDu<=3J
zb7J$-Bm2l_ZvS%*wK#5lef8^WQ`@folB<8?m9p!l&HhKWH!AklmA|OCyB|8bpSZiX
z-A7CAqZ{<b^|JfSL&uq_8+8p=J&5-f84nHtKdPgVamH#sNwp<sWl?}&q9wSAW>q7q
zLdLs&pq!tePfT~vDw=5|a<EcwdkP|G$@mhTr}Kt6gug)qM$+>O=oXVOOreC~I=J#B
z2Iw@ORHp;G7+t)#4L4m3T4I+N0WEQP78E^#&|jJM!t#m<3IqCMQ=YnjbaT)ZeaV>T
zmg&54iM#2~1AOB(kO+0NYfoJT-~j?K+Z=!ylxc6GPYMt2kI?6UzLt{ZxvOw13Vut>
zM<`^RP^s|K|Av-mekgL;A^7d~LHF0xyNJ@P{W=8PB`Qy?!ejjnbq6ZEn-&JLfPbVv
zqJBb6`~-z))ewG3Wi?@`ygVJpLae5+GNBm^E^E4{nqQw1Gva&>pIz*S_*Zj9T5xGd
zJp8(pO~fVnY`B4&1`;yK)_(tQ==Y$k$k5yJ+0f`l?;2b1Z#jBPL!)2q5`Xo*7ALjX
zb3s(Z1j#VuY+BUfdj{e=6e>ZDF*%q`1{cSIaV+Wyf+&Q8=k~2@>K3diUr@;gr{i;C
zP?;8kG6e7-TrB|!KsFQp|2`ikMu<nC3(@#Z0-qxt3G@424v)gj|K`mW2?dgs*50h>
zd#5z~_Qq`C<oej%5dgo!7ho~OsH~imQi^KCVor*aY$l#rz`bP6T+23w0mi4GQ_VS?
zovB3*yDnpWqD7w|Wt%9gJczd;Q?->OJDOHB=J0tSDVw4Db1iKN2H&jdi2IKy2A%-i
zt7OyX(0v7Z;6YCJ9sV|7xLS5V@Gm)fm)`+TW^%5LmyDfN4)wge>3!IJW|yUXmM^-`
ztl6tHvbEisSe+=GTF*Y>U#)bXfzW7nLwNRCAUu2gEBxpF{+0K3I(v5OYPL&*y1}5U
zrO0<wO~~Od+Pf=9UcSv&oZajBvU6z16|A^U-+%S~F;LA>>IC$MPVCZ*yS0iKXX`U3
z3LJm#N1nrFO$yML-S4dMPps~uwY$i4Ltg=yaewu@2=F13;P`jm^DT^~45|~#W2nYs
zX|3*#B_w%Ya3<Kq$aY@`Q{G<|H~b8v5Dcy5DWwtGbuTtgVV*(|RvTrpjtz#-?%PXp
zZ>{NjWka6DaitNE!Iv^KjS^MIh9aGrX%shmvp=Qo)j3<@6sJC)XYz)h8uSwcnv^<l
z4kx?dEQ>-?U#;o>^eR#g{o!2RfNhFfpVw$M{5FLQ5R$=<*WKS$Qq-^$V1!zR-O%|E
zg-MhhgMYFR;xTzVObRVbDs~V~IyMa-KlYRzlPA)YRrN!HJu8WFER~5(f?K;0Q?d<2
z)kUfU64dHQ_25<u(BwTau?{V{4jF6df5SQ8%j9rdLds@<Lj9wOFIWE_6Z-?EGz+Y`
z+lB?oBy!emuWovzM5$|=hE~@({58N_hM)Wo8t|M)hXRFb<@TQC@h?rSYbWo9%cjsn
z)A&YuJ3L+rkAt1DM<64BwcfkFEn`pV*!i8nE0s2HCD6Yec&ik6tKvJl?K@lYoqcX(
zIxIz#4~X)?3h%AB1J7BSw}Ab&wEfOV^KH*K<PU#l5AC>LF1v?{j-j2l{&L$ukstWN
z>im*FTo~W%d&Hmm!X8`?l<kqCDN?c8wM-&pn3xFlsP;q_K2vGmz~pdzGJ%QCsSNo(
zrpZ$^C+nZc<XYjzlEO>I#2i!(VEB%O$!n=B7N^8{d_sevW`g{zlax~7{iRg67CFMT
zx2$Od5vDryCy?hL?oGxTG8FYMXquv7O(BRw*Xlt`KB&|S$?W6|+zl#h1#8NJkC3$>
zbSgtKKuw`kMoIw!@u8|AlTo>GP3u%fD=~?DwJ4;$T1^>Duh$gwES`o{Vkhzd^iW?=
z)W36x>UoU3k5R{C)b$tze~Vf_NBqB{_y5B{Q-)_2@OzJ$&fhTMCr<bBB@k(mX|Gz2
zP%VW^#n7pe|5O#h;K9%?`Kw-{ko$1u=<#RfR?1u9T}5xG#D}UhjGj2!sx172Hdt&c
z%BrtwBqI}QcNf}kpI&E5Z9P@84ZJsJSsDFKbgievx(e+jHn3}j`DZVo@Y(y5<-v2$
zjQy0S!b1>%|0gbAVd!?M$^s0u+Yc9p)|vIIpPCD2OKtsCf(nOlmR&P}qErXvXkrXT
iPppnx!>hx$Mpj3vER2DO%~3TH$OLiZxfvksHU9_9)_#)!

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/int8_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/int8_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..62bcf44ace3c7a370384c2dea799ee545de24e54
GIT binary patch
literal 21359
zcmb_^32+-%dS*9npmC7keMkbSi;#GT)InJyZBrK|OXiF$*|I5XAP@~wAVGla21Sw6
z7(-J|i5O1}!FVPDV{ZwXIAuEW)=<e*tVw1!N@c2cl1=TP4b710Q8ucLcC$|HZqb%z
zcaz%M-T!}$2AWh;@=T>AzJAC5&VKKI|Np)J;omzPHVU4w;hoUU=P2s$F`zuIyywv|
zBSl@OSc;{?RKNVD`)Lx^_3Ox6->-+aE^HVz_8V!L#?)_uIDObWYU#I-I78SvYU{U+
zGW`rq>8PM?xLT>K_zpU5(Q>HYX{D?b+r}D$rs0i63dP5o)`>R<OM;~}K*n0up|GwK
zPfwd6m+h&kjCSgvleNEX>~}-zHl>Bd_aMzWwDYk}h;J%VDn6D8R%qwYjvdrtj|WYx
z3tCahmS|J4rR&5O$85d+Sy=bmhW;w}ZkFL)N-K-+TX`?n3}3x0Tr*nRUrSTL+Tndg
z8pX%%V$0vAl^p%`L1y@Xl2&}P6>n1onvD_nI#iWvs&#0pg0|u3izO?*K^<HDwxLjm
zhpl;=>Tme9%cxbA(a6@p2y4v%-MTZNK3K|b2yXrto(VQ~Bg}*?>-1)m_K2{ab>bV=
ziEq@7AGENWRim;sNDZG-M!ooEw?NOg!rwOd+YWzB5Zs_qp35v*je|C}NmWu4jP5JN
z5)>b-FYh`td&fHQJJ*SCUMIe|LRx@Ad&O$<Dc}sP@FjLk(cbpYu)%#^TGIDKrr=c)
znBcfzB<33n`(uMqZq%!jbg{5xigBS>G$I*8k+F%GWSR_yhAzb<+dw!P81eC;>7Znn
z<9vL;9}Y?kA<PF110g>znYdtVf{O%9${@kp0)Kk=dvpkx>~%^oT-CiqeUlcb;XKn-
z(E`JVc%3>%_Ompynp^plxM_%5hYm`prM^!Kv}P%UVa?HTa||{Z`4LQlj@7G6e-mnn
zTjJIjFy=gsMW6+%pciydEB0s2^ReMpzQ=K!V7zJ+z?}w~xJ^e1wqa%sIRw`!$Ea*X
z!%t?R1oL;OGnCiV_u2o0hr_Y>42KZDsXaOogOBE8V^d?nk7&tAJYJJzxEu;jN=E*Y
ze=I1~js-biEIJa5_=dRX#F%e<!VmKx6p8JZDkt~*_xt2;jS;?4e{6Ij%#}d}Fg>DP
zhQs0Du=ku59o)t_>>6hWN3zJXp@S_nMy}L64i(^pGGED06_eap9`kyN&p-RxVxwbi
zW1+E@n4cR8##*jSbUwF#q%+tS4h^)8O~o!nBW;(%;nB9yC>sp>f>(lpiCC0t3;U;n
z9N$KI6PotNLO?eW3x)YM(i7rs9h;Ks{bOU{Dc{<jhC`8{pW`+`bFjDkzXm5kt&~vq
zsw}fHYuE_x16TR%baFb~m=4|;nIBnboR8*Qt%>8yWu2*4ub-bgpDD{UW-GR4%Q`cc
zKNM~Xi#<2rf<WTb!>abhraLd)9skkGxvG~$LwTZi=G=Y9=4Fd3Rhh2JG%wnITJf{G
zzpQ(#*EvmzV=ETQV$YhZmP@PBTjn;*n3kF5nSHa*C7(<0y>W2<;LLM5X8RJ;EHcdt
z;Vg47YdH7_8ca#_74oqH>eYj@oUFY+CTlNNSaDjbL!gz}7sq*CSRq)t{3zQNSt0tk
zK~<i5#pkI7{V-0HHIGt;V0c=pveLEI4oiQmE40)o=!S9rt$85Uxh4vNadX@xm|<<g
z)QejLO0Y~rFSY6bu3-LHue2g=6|BRhPnK64v0<D!Yo0<+EyERSk|3z04p*(8HmHO3
zZkT@U?4=Oz8Jvg&aB6$<^E}9V$inhm_J=1R5Q{=MwqFTOhGLg&xVmD&2p{EICPREs
z$x4<;>rm-Gwp^XRKHd!sL_Zpecy-)nXbbrLSG;z~2umw)3ATe!WH2h3{XhW;k{O)P
z=)|a`_Yd%rF%b5Tj*)!a7Rbz@crDoi(MT*bG!dNuiotNy58DVA41~tGDC`_w8`prO
zIAk1(El_4C;)8CG!imS=$GU*0ASVh%6d%MH<;};6+$8Md{V^UHQIU;sD7H%unH$BT
zgu8KjA#Ml!@i^)U>amS-xMxo$Po|AI`^Lo4<*MrIQ*%@AeqC9fOv!9_vO8UMqi(+L
zy$uWIA21&=w;VZU-xAX$GF^8ovP@Tw=}jD2uGx5_X1*qK^urT3Pt05bhF~vG#gbov
zGE3d5SLbS$N*ctHhRmhK<JppiTuFE0#4=Mp+m-Bss+o;Tj8|m5IcDd=t3NpZ(fL~!
zmRgRAEk|=Ly;-I=Yv|=X&|V4pIxe$jNsrye6|FqD!pI6=Br6>DGO|;`o9uOQLtGDQ
zS)o?F$r?7odN2xl+^bmKGz=v8arZOB{5Pm#4J6hAYlqe<ORjSS1QcH0+hM=dq$6!o
z(NV+dzT{gMGbqg**5E3Im2Zs|xQk#>VvkT4PUF6-N;9j{dLWH~ot%Mw!pe^UACMn`
zf&PP6ju(u|%Kt4L?B#|vw6;7gi5E;o+CkkF_=mCt$O{a4+t8hMQ&d17&~<_T+lLL*
zx6c?T!3t|zKb>2>wqfD06M-1-Av>|WXxX58XKN*k`s}5ky!v^Mp9`v~)wKDw@3~l*
zKo^@yc2()C=*imh_#><*1{Dx04@!Q;O7nX+skP9sAkY&oBhwMlge!s0dQBX%KEf5a
zt>BZ)gdObekc^x^G8817!)xbIW8*r}!H+7LWkDpOct#{TBGDs~IpTwTJ;+Puk-W!t
z#m6d(gAPgbFps-IksWwEd4?dDm~S$71c>&-A8&wV1Dkz0Ro$3rn2TqI7fWxB&YVm1
z;xc_9`NGvBiJrvxva2N3nf!YCbn>lCr|8@P$xp^G?o{A<XfBkY=fa;djafrumT6qp
zjD1jAd%b?H{{7&M(fQF_X>;PGhYokD^E+Rgq3@SgrY3)9<4n)8y>hvvG}SxDydTK4
zXU1>tUFa1XcQ2mKZS2gJbUrO@MNgML_eigII9E)RyCQXZt};!})qHN&JL(=&5dFEH
za(h<vl(T-tN!cs2h6=)IU?VUDqQI%uG6aq%;V}ONJl84Jp0B2YG<;YZCHNs)MO9eM
zG6kV3?BAe7>Ay6s?irK@Wu<?KQj4^@kd8G9^v5PehKF@&?vp6VFgUimW7-xDUmk4*
zaXG?b%)UKmL0>Y5c;DCr7nCf%fr(I<4RT&RcNDrNxr0|?K`!D8hJ&M^WZ|w$Haf^;
z0I7BtcM_<0964oXT1nZy!QCBPA4I=_=_BAIsE4kyCD%65wQbq%#Q%=cnPU%2E3Vhh
z)uxZ-N;hXqwl3Iz$bK?>d-!f;Zr}0j_7nG?p1fkjIboqHYL+WDJT9}9*j6Z;)kZ#k
z09Hcb!4FP8Ix4>Ek1kNkAphp9`waCF-RCus?#iqIcrlDO?)D$iL^$BFG5MuylLrV>
zxib(w1b;lTRUDz}bm=?7>|4pV-sf&i&QIoC+q0JKPwCJ1As_SyT=~%wgoibztkzbf
zCBUl2r?9ywb-{*H@M;OI%E+FfxUT}C*UXV|F~XGM{ID`7SifWiU5E`{4h4e1L2**b
z0|=WQ#o@P74ICLP;)F2)0W=)3(%CD?E3@%rT%KD?u4d8Iyl^__YFl!3h^~$wc6`!#
zyEErHn6(@v11T8~o%+h*lYxRd3<aT|%#Z&AA4)wxw8oPyDi-EvEMdC1oq~XF5sV|S
zR6rFk%uTKD0D`<(-nhvYZXvFf)qwzyZG=bbOR2sE2tI2c<y(L#QLI}-(NLvoC>*L(
z+z!_~f=#JKd9wyZm;f<_VP!?dF4%xUF{relAQE@P%9MhH0&)$p#dek}>BTn)BxYHV
zQH_y9umao5j}fhA?OG-11T)ENSK3HZQ^+dGcK;7bRUZMP8};)ek}(Q01osbr`fry0
z=I?}Gc7OI3P{8WG051R&$jr8ZLNLVnM|~kyGWm%>AQ?bi$WQ9$fRqEFl9E*mFZz%H
zfDQn<Nzm(*j8}YPF-|gF87FTmkza_{!ULSe27Ol~tKu7%=sphFE5KCINvsn#yD(2$
zM3@e=VSpz(j$F<a6t~BD{H|(&LSft$z9ODNq$pX}7zc9v<NpIVplei8&XU;+$qVWB
zoMS`c*h9vF%6#fHQ2;=LU|gw&<o?8whZftcIcZKA)22+dSnU-{ybDLfl3k0jySwjM
zdY3FOiI$iCy5naD{_;T1@>-(jzQZ-!pX`5Mcf&Mq0`7Nt{&L3u-c+vIyRbLsXipql
zc9y63WEf->8#BYFUP}t1tv+%1zO6iU=AE|0;fDs(wc}Th&%BlzOiziGO`@Y|VUOr&
zTP(Y?=jVnO@8^@>NLPxEO_{2n8@x~QRpfDm5A1<;3gDh5sCNs9@PSm^_|`nK@<0@f
zr-FZRT@kcfhYM(eb1HR0W1Rz(ke~l?y{deTmA+2v3E;>Q6$&Ucz(H008XQ7Zzadtt
z49zeo3~L{uAT-5|u>znFE5HYWktJ#xTTouuf@%V49yN?x=9)+OGP2qht5cE%dQes)
zK_L<hkavTUQhc)o#R`C)r>E;c$uzOXk1e<IDjQA8CGdu|kHcd>U>hcRUz5cpn&=Oo
zQNYw>ACBy2{}+Hy&?!RT=TO1qM$jQ^+8UV{^-cP@F<!Evmyh{}g1pxy86gx5%X-LG
zAeU^x(XrT+FB}>Pa<~a_xOqxO63Y>ugKDSbiom|>8;ec?Xc`^#breAkKo@vl5#r!*
zwM!<M&A_JJfI<3Yxou-|8Up4#X()FEVtCv?^E^e?Ps%lU$v1)Q9i;yZoCLLOu_B9j
z$C^5Q{oLHS^ec1cMT;lVlaEj7k__+#n`_BdE81$)?U~abzJBxdAHMoY|Ly*JwijXT
z1MG1=c|KiwqiVhiA<K0Af<dflUOfHD>$hM3$*ceF!k=Hb=Qxu%cHiz^vNwwM#!P$8
zzBO_5VM*C{52uZpvUz*PpDS-#04$?9apD1EM<wYVQ=c`|XPNr@hMIJHdW&e-1Wj7D
zFv}Jv;2_tl=c?0<@76E7E3WUD+mU|d-Bw^p%g(Z8cinPX`LD`sM$<|)Wp|}aGk|AS
z%4{Y-RiNW4aRX6{Uqjrmf@lD^J#L%R4%j+TFIR_YK=iF7<ypD~4H!e7c>%@`m;ez>
z7}ch$fmJ~5HnL>`y6`U|jM!E6X|O0&ss^i3rD_Qyc0~wL-bEB7?hqWX`7<zrPE{#d
zOv)}ekq+@wg|TW0Uw{v3h#13_<ZG{Tl-9&us+tjHT=T$}mB-p8FmN8DCDdr;(g{xG
zyMj1l^qQvM>+zf=Ct)rAKmgP@&L0DOqkz5w%nC~t&&}}NLXJ~f$Z?7d7xXGP1;AQ=
z0U065PoO=Qfd>J03uudspeXPyXgjO$Ts5+C9=guGiH;wfKCgpFQ``W?1khp8!QRU3
zY>f!D0~1h$1WqVxslM107la6JiDaB2;*)s_AV(Cfzyqo-cr4%{A{F6ll0G=bbM07C
z2ReiW8-_rr;zluyQl3OlNoHSOq|!rn37l~r=U$%m6<#tAtWyb8YY(WnS;+PQ{PF)C
z91yE^QFbQ*X-jiV9f(l|>&)5I@uW{Q)C2fxU}j>eOUbuH!$y#QFm&}RiQX?Edl}~J
znLP{qJ<IMT%RbSv?}ywc)3>K{mP3i2hakrdCx_p6->96g{6P1i>82?&{(IJ3&5nh`
zIp;2vvr1FP^D>rwwkg?^YESWVo$2G5OF3KHlC49ubu4y%(tW#oY4=HS_sN{?R8a~$
z2e9$i(q}TUpBtJL(d%3)@N+{gVTYU#x-Hq{VL?caOF~4z0FLqigOg=34@`a{izz9p
zcOD+5r-5CuIs(O-Ujmz%TX`CCFq>aIs%(Yh3LdEo_6y&nRWg$n1JoCmuK^BxG^C@r
z5#lxEvbafAvIeUI)=Fs|@d)~ljmqLzAM*}tu{=#+oHgMQGL)|Fe%@agJ=h8cX~Nny
zTcMKqG?=8Sg_fcur^)>C^>Rm5C2Fv-;o2t~t0j{WO&Jffbum2dBoAoZdCgH3S2&2i
zmDl<~VlxXCl-OWoP{LXBDDy|4i6n0oXwaNDD@4Ov6kqXO)PCbk5r|g-_Y7;sve?4L
z%UTsy9k;U<(0I2ir3u!8yb7(vtpGN5JlbFcyWsfPb_=#7e2TsBGX5wOeoQ%3Tc52z
z$<iY-^saF1i&rkT+6Z?)5%Yjp_*9n8hlV1sogkQ{uzG~sWxENo5s;Gd+eiUe_xQun
z$dCsQ^~h#{3Tg-<2K@n0g*_8IZc*S-Z$J4)^>9P{0a7Tk+bah=g|h>t1Ekal8yfXI
z-|gv;cN(NEG8;J)36t}H^(w?%_`v2MXMwXjJS@b+N&n?&i1o0c%OMt94je36tcutx
z$XQr0Vemu;J@QF|vVD5`qA}PbFZpAhXe2!4xkyeYTX7sO7CMJj!$~PWF*X+E$gT}T
z5{XXcN8%M?oT3_x*u+>kcwR2)EIGhvhL*yqXR92#Ah+nrk0BqBtg3g-7kTnyVB?6Y
zL-3O6Zrt<3em(|60!T5BC%e#Vm`t94KN5+?JOe>8T6}0A3}-RW<>L3aI9-8+&{rf>
zsUkc~@;+_?T%t8`m%-;XuGy%G3c^icQn{=beFHO~azxH!Ww-?wFZXqHh>|3rk7!4@
z=MV&(0FwGBXk0qqVGd<Ct{ENViyZC-TpS(TxxG%J7I7(zz@4jj`YQ_%M3flA1ab<L
zK;H;DC|ML6ydD@M*N#m<)P<h{js~YX&6M3S+nMZ4btDg_Yei;rX8cp8X@$}mP0N<v
zM|yZ?A#6f2MUB~;-MBYr*bB<cLwl+Ej2J9Hrjk=|!mD^5u2r-aU%h8LhyaUgc4u;@
zqLk@V?iqWUzG0p>XLR#SW?HOn&sOagExX|i39;Dw&a&Cj<mh9wfiWcxKekhr>Lv3g
z(Y)!Nx#7OWF>6g)XYEP*lBG?wv@P2mfaM%c*JjRqymirXtL?{o?^gfm3t&8AwLwQp
z%2J1CuFSX|6g0(t(Xt6OL^lX9Urwn5jV<xgeZ!_qX~rNLwknz&D0A+-zqDo<{^#|#
z4Zo_ggZ@^J`kQ`cf8r}dUXknsH1?f2(SOwU@~TkZs?bTv-uuc|Uj1sGGN9hwP+mY;
z<kA0x+4O9+Ph}QTtx^`$G7=Pq59|!(g}tQa8MG#$qCi_KR0*{Ng{>2+g*vj=)eH4P
z6^YxRG8wB8Hjo4LszTn4!Uo8*5hX8NA@NP51PDPKY(;U8ut_M#a#ZcnkeJ|rt<ZKN
zff%vGc!S^(D!x?iLT^ZJ6Up89%sMLz{n!jrL<6g5^}hv%bF$qes9w-+VKc^Jd_I=J
zSgeKgcMI&xghG|iPVzOb$>&&=Z!2I>4MK?$7vCl{g5eI1*ml6CwhLv2lqOX#G-OJl
zT&Nh-AvcpBtuq)<9ie1=;@+5Ij}920s${MCWEKkJqvQuug#QMm>`>*@l0mmTF=}RE
zhfqoS1brBR)&O!=K<VQ<pHbe{C&u{c<uxm{#ao0H07GzGTc1(KHlbB0RYv_*UV4nT
zJtJ2W<Z?feYnR|v<<pRsg`GmPGNxLFR8Rk&O6!ES)iV~`A?#W`??~GaCh`hfgi1JZ
z!P$%9Ey7j^letR5TfhB3z<@)iC9!MWFHp6xR-RjG7j-bsBY2<DH;tT1-{S3&!QZGg
z_3C!W{x8`Yjhw31Y<gyIG&H(m{@;ub#yfs94jA7Jx`I>acyfLq*AiU9ZjD(2De*mP
z^T?-_Yv~0OuHk7|CGowgnXYlWMA##=3wu8<0A~P5>AjZefBQ5zib(z{<wZ7T^+W-i
zB36F9r-_ZmY$$xfVH?^Oc|m|)rNHo>i#->K(a*(07iAS=9s8hWq#|XJ1303Ia6x_|
z9D@Q^3+$eYhe0dCYKgdumL*^}$oFx$!nxH5mbat`V8NLjs0cFF9sp9wh>8L)OP&WX
zFN?8y=#-3bA&|wrjd7L%Vq4U{FK=YjzE1|V_DOV)L?4pq!;-ECWYt4Fm%vOYUP|;y
z$t=s&U~D9NMhZuU{?Veh7(1ZyMhXOhB5fcdG5JHs9^N;q4vZ86hj`zrK!p1qHtKiK
zxsFa6o2MUxV@h(g0Uju-;EhNnc*=pXU^__~E?MOELk?yz#PM)=LGsw;XatR*1fv{D
zUeM*};2`gVe#)MKh-4x$BXAaqupgN856EvbbcIA%2*CgknV}CPiUFi_0<6XTpgeJS
z=|!Ub5<P%cT5t@*f$g_kC?J4-gaHS@p#%9?7&ti@hRqbnR~i8ObAE*12W8<L`t=_f
zQLK8x*gJ35{xc}p4NH<oD;7W#U!o~Emu*S5q)*?oZ2}p-#C_d7XHL`Uu3Sk|;>6nU
za@FQcNUUnh8p@Yl?rbGm>40kBu1&uwy1j{$_sc3%Q<;NeRqLWXSJs_4wQR3S@6ObV
zbuFU36#z;{Nw#dW=-9kq7wvlzN5Q^4C5W!g9}IjLx*1xe7rS!XUKCv~-t7^cN735s
zsmXX0{6_MP)Ofl%=hzM>zYb?=`|mcS&!)GF?#9d;qPumm@{Zw8{CCW^H{E?sY(FKs
zPl=9~Wy)>8Tbe$Su9|DhoDkhDi)NWn-1Q<*?kZ3|aDoY3`n*`yBs!b0MU_yvs{uL<
z3H#F{VwqQTdI4i~mtSw1Yf7J5XwKGk{+Ro-=^stsbH4;b0v2xV-yOI<G&hv?XX<m6
zt-o-zfxR2RxV_2V)UizEg5eMR3+9`f7TXuc?{tZsz2fd(v7z^;{5|`bRfK;)FYH;L
z@PWH56^4G#n3vr(>2soc%Z&LxV7Eibq0~^uys%UB>=i5b=A8Rx^y|exu#|n5yMB4@
zGBmaHUE%s$b8mgXeK>t{I#<=Pc;-(^?;N>Pb^A@Rs^{+EpBnzk|5NjypAxISDq6le
zgJ)i;=1h&~-XU6cfcd^Um^7_aQO;c}wUotrZSv~mlDS4S*S!DAjq~&8KQ%YOB$@3?
z_PyVMhW<JG_9VS*war!~tCp;FqO}eV`KRZnKec*`bO+`S<m}s$^n*f9IcA1_;KWgI
zHh%ERhi}|`V_|%;Ik)u%(fI;=y7g0F-oS``|MY?(b57jQB9^v@j+RC1o!+}g{;J__
zuh?}8XN2Pv8W&Xjwm)5-8WNowGo?^ZW^y6+ho=`N#qFJU8pQ1fMMoDLBNj{yPN!e{
zg<*>fWfQ&r_hAKc2hr&QXBCi*U>#BWej7H<XQ_R+fEXXG`wC!<s8dA8xPb*r==T7;
z7HDt*b_N&j{(uX{L*QEe6$1zBpi0S)7FexyQ{Wjn5R_l@JR?Uz=_qE46%+?WNK)Rc
z6;A1Jtl$C2{OPU7t#Zv%1b?}aA{1SW-3zwhF@#mfqh&(C+KMJyU_w+^pw$o&;Y={E
zEDRUmXNA6aBjN}(YninM^dTysyHH9|h5J|y3T@HeTd=;X`*xWDtgGYJxFw)t8T_Yw
za~keTsan5T$zOc4c6IBgn1GJXmo-UkrrN=rZW3bN0N|LWzP;^={tar9_B#A==mrsP
zWJnRjtypLj_E#3MxIwu2pa@?G10v9ecaHM*)PrODJz#kd35N5qB;v6${wpKGAcBR%
zi2nHj|07pE{M?ibeUAFaz~CFiH@Lw!1p6%q7%hOR(LvIf0e>uTiQu#3HprT$0Jyk*
zOFU<zo*-T%fx}KDBjw4hL~+sY846tvMm)tDJOeynrO@&~ILZeB#Z)DMEQl$jY5b+=
zL|B#?p+{q(zz7VIVqos)`Dh?S&R178))Tk{g+eKK1bP`Rtda7RK|^6cqT#=9TG!V-
zt#3ZrJ?&_gjYoVD|7fs#dSf#Il)DigCL%zyZ2nEIq;;R4)-`*kO&3~+dARRrmaFEc
zJ747ym|oqIK`uJ#*$TIB;6t9<-?QIy2(LqWPV}8Ee8s-$VL2xo9Q30stWB3MxYhGj
z`S{o$2?RZ(c*hdIH9s-XLS~Ua+~7G(CXr_lOx+2<JBWs!9)P~L@?JNG_=Dtv3vxbH
zpCvOFgbSU4prniPl3~mryCfNgqi}V`%!W7|70JQ{{b7<|@%gZ9pHDIcK`4(w22dD4
z{0c{hz$PCpapB630f$Exw~e7#a1;bL7*ELzMm7-`D7eO>!N?^>-6$s(A=gEkP$Cbm
z97CEy4@&xx;FP3?$)|afrw%*1_R3!VlX3qDLotM6Tn#uN#%-j^HZQq5M0ZEdy=TeY
zCAz!roVmL>=RTG=xm;C~Zb+A<4`=8!pJ`cS7UJ2i{_OdIY=0md2xbRIv%yF<63bRh
zB>Em!)m)#Po4hW}3HN2YyjfS$1-5p8;x1J;iPcRXSLdoba+ckTZ`^ePl3Z;9QSh;e
zve<B6zxIu*-vFWTo_YIyM`_mGc+UaQGuYH1p1fRgV!6cg7%j2k9@6g4PrSFicY6M)
zd8y-w*m2}u$FX~5y<*3)o0l?yh23Cuqks2!IxzQgw&U2RWxfB)K{>a8*!Z}dGBVft
zuJ)}MXvYBneyuf+856*;V9sCiPmijo^5Zn2%{n&!GmpCFUr^mgy7hn2U3sL_@{=+>
z_<z!ALbuy^)MVx|K*HTb=l9V003G1H)T*nzh|TKZ?-2#a$TjCRmwIy+3MTa|jVMC?
zDv&|Gh$O)FTLW3i6+CS_Km(?)b8(lXsY=x@0W9F)<W{F?Wk}Kpx={irn9%;Uk0MCq
zZQ=6go*-CgV6adEh$d?vR_=jW*?!h($&-CSfoIL5wB~6wAy)S-CybZ|nj(J#ZWE+F
zrLUX|Z1>j9o&SQGSE+GR{+26lDI(rl<CJt2w^yi1Ys}VM343~ZaJE|<UG4J7Ec<dZ
zCFzpS@ZowVHLM|afvFfGulZKPc{VNx@<6{VFr($GUiq1Q3;8lUXt~Wb3XIB1o6*Ad
zlrKEvgzGBiw=G~DnXieg6MMu3!rhuWSR05pcGmH}DQ=%}&bZ*$B%E*KNqEr;)InAe
z8oJ>bxIXD5ZN+P^niim}OA*P|NiVEwm`Palng=XLfc4_DPI|#=6)wVS<uBH+onEY8
z_l*47>Band&HTmoYo{05KUf~31p5c{cWAI8u)!sv5`PLl*lLTeylEKk0i1ygUGV@Y
z5(|xmLjeNDtp(SJl%;WG4|W7G{|MgcokR%;ZqMhB!8M>dVyceuyn^BJdEo6V$YA+H
zbT}xMB}@>$^3oYU1{ZP%LlALMCX#<VKrv-lZ8gv%AB3x$((DPg4z&Uz2omaL`9d-2
z4oYW-)+d*LL85r@-;*~KSYu1K%8<cB`bb1DKq`xQ52^AJ`EK1@hg7-pk|0Ryax3MW
zh>npOupv(t*6M+8BFnNMtra?oo$Y9W1AJvP&bN2$Z}xz5q1a6I@XA#Z;S^8%QA{p;
z8088jDP2}9)V2yLy9BwEJn{;~$e@;7<7dc32<9qV03ctJQP))$ypUO;KKRH3&iCk5
z8#$Gv@#ykaeqk%uk!a2fv~Wwj0bT?`mG7}7WUS571y{ibSpW0WO>4!qeEYgUbOtH!
z`BsJU&!7e#HRS)Dpnkmj&iLK-A5HxD009ZSH1}U2;j<Uf@t}h({tTrLFaXzpN{coE
ztNMu=G3jR*Jm1r)`>C}ZCE*H!Y~-adV-;kdXU|Yj;Yq?TCCJ-=LXU?=gEZdl?JG7D
z1`Qj+y$6n0FBx7wdbWp*AQ7Q??3E{xA4db~P19SRHHJv_*EoKAAv2609PSfq1v<Sa
z;}q-Ka`s(6-1o`B+XrD-x7_`Pc<8m<?sKC3+=^a@xBkFffQ&OYiA{1y`fxC!vIQx$
zmKbwL2DA<W@Hsf?lg;E&@FpO=WB}=%=MYcj@P-dy`5E-zM5ic9qA@p-CyS5|_xlhh
znGgGjQpSBBDRLNPlBIj@R~VB(X9OG#yU`b4Br}i0&5t;9I3BOTXZk151@?eJ!p!tL
zFQomSGMlo7O<88sa#h3XOTK8ouGoh(+}J+9J<~Y9^HXMP*043pY+cT$?oJ(==}LFp
z*gwBNb2#%#x*Lp07Eb@b_mS^j%kx>o^I7Kk`%LNV!Q{czIBE@PZtm-u-W=1ssQbin
z+j7T!+x{ujl{Iw1uLk6;LY^?;$Cm6%?n|Bi*1>f9jTh!$xL4P_=>DYYcGaDpKLqRg
z?kv-tZ_ib7CAm;zdV7v(%nW>Z>E@+{@tY%`GVNJIdzNW`Ccy)zi(sOG6gLx2`_pGd
zX9J*vU^&7hnN)A4Ylg{LcA?#?ccEe7^rG!f`)$Xa>7O?ID4uh^oap@<Gr3+|^L|<S
z+>JNq-+b?Dx%Q*?YL1Dey?}Gts12Kz>$hdb=U*<oHZIrHF4xw5?l8M;Gp1j;^+p@0
zK*sv?5z){<Y)jzM0Q|R+|FR!k7x{0UwInSm_d9lM;Tmu0I{>@Nu`2IcS{s_uq#ECG
zK=Et64Op%m3*OJYm7q)QpqSDxcA^iAjU9>OGGo&9^~u*WcS=@b6&}S)WDj5tN@mob
zK{e)nfguz87!L+;b<3CEo%riDt;+8%@v<ggN+Lm8fFED-k>9G3Ps4BtN><Q*PsvI-
zDD9|2`+VGgB&EwHYH(i;6nO4GVI7F6k;^Qyb+?h2w~^nzAotyg%@+Iu$Ef6zYikX|
z75oXfCL>>61}p%tE|Y7yl72W8lP}v@VL9@#;FU3sTy){SiM7n4(~M3fI=KAdYAQG3
z3-|+<f|3D&E25oqH!vMn=tpqMjeb-{B}*6lhR;Me_&n!?H4FbK{uGQ8TwJH=M>dKs
z{Uycxl5+l%vi>bq`S+ClKT|vZj%s>ft(^fZyjHZ<ruXNpTM{Ptm7b>NWzUw+9p!Y_
zGW=`@{IbT19{dl$c<WU1)QS=OpdOc2q|VG)SIii)P-WHEo9CKWtQfLU?kc>C54KLF
zTUHp1vQtn{bFw*IF4{J%V9B6Xo0w~FUVZbC3q!l8ox6Up<D(s)>lykuy==B$6Rrv?
za-hE9#>x4Ua^Qi{HnW%f*hj^U`gyn@vsE;1dt}5+EA_Q>C7O~6NyrKQ2Uh27eX@SV
z2!2(AF=SCHw_@l31y^nKWlQ=xQD1jYzu|8UTY%nVyLSHS`7d;g(e_ABnMzmC2j>hX
z`?db7{h#Y-V-v=g5FeIUi0>ltD?oumqqAJAy;{4XtE6`zmf*zJf8l}<Q0eR>{)>)E
zx@x7PK)Q{tTiK|PZh}yr6ysl~VR-RJQflXGKezVKba`R4Fz}$HY{iHk=z-0(VkTY-
z1>X*s=?bBT4`gCAMv)=3$908foTllmD|@K23i56DlHfii*hzx>mEdzEcpxAA;vfd|
zttKg#pjc*!E*GI?x@~mHve~wx$G6KZzc;|ICt!GID|tUKT4y%T@H0(Uzm{S}W9=74
zNW=mwNcNSl(Nx2>4;?ohpF3WsX-8oUFz_HheT*1@ae#RM)_yBy60|5mD+$_^iOi6o
W9cS{+xt%Md)WRfv?7~#C+WtQZRv|?I

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/layer_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/layer_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0a1b15076ce5e8dcb5f9290852827176cfdd68ef
GIT binary patch
literal 2026
zcmbtVZ)h837=Q0Bm)td%wo9pYvoxt`T~fM)DH01Z7-d4c*{Pi{_a)wP@7lEK<@Vlt
zvnjXHsj!s^?NC_4gl-_{sGxqb;s?Kp;FqS^NIm=@=oh~Q+E4rB^ImgJiM4`0<nDdm
z=imE0&;6b^KZinX2q^EnlY7CB(C=*Hk<?(ee+1?p(vZgG(Iuqu7|rmWQFGOVgXLFz
zn(ss3C0-Lj4`;N}jCamHh33bi7C1QGKSWXXxi{E_079CiaaSZwh71BlF46WU(@i*n
zW>QBmNjAH`5)pI)Jllw4729ZrS+|hQ9VDHNBV-1~p+{>C`}aBUXVF>+{CzDV*n$+Y
zZ6z<(S|dx2<s`RSA>`RXltZ+$X@p1@L<s&pg3YZ#&5Ss7gDavUO7Ig4(F<5N3&f1h
zStgB6tJiRpPUEPl&f%y=iv~{k9noc+plW7JN^%<3GLC3Ys|I%by8=hjRH|kSN*pm;
zFp8N3Pgr9J>x0Qki$<Tmo1$|@%E%cfs7j_VJuz>kM_!pt<5WI(Ib{^-bU{yD%jf4(
za|I3OGk6|nEm|O{yjsM>OkK59o#qx)ngctF=JMvQCgbu+qv&*72IPS=)U7F#(~Z2E
z#UuphGYFb0ycW?`uzh)CX{02q%4K;o*uUXBvk^N}g?F&O?nk0@>-^30E2H<u?v9nr
z)rIoHefzO*7&KDwmVMLy;6|xywYS`Rzi%^ed`k*0%S-Y~?4$Nyl#aTHr1&-*f*b*A
zaC|zn(Ghg~p5rH&T13z8hYN#)3&y7|7-{4408{`h9w4p@bkD~Yyid4K#(Odgk*qBo
z2tEEFDFZYa2aiKwc^KGi{=a&<Cx_@BNNvI9y?QwSCS_mDC7Y-19zWCRam{rm+~hsZ
zi)8lyi*J|b(Ohj_<G$R><vI_e)ZNs2oX!2;$X<@D+JrFiT7q*z1Yfms1e=*DqH2kt
z6Mz{}DU6hl%^_hItJ7iWY@@*-7Kl0p1E^mvQf#^yciM7hPB*ElXR#xKL3Y~Vb={HQ
zPzeB$V&a4ep30fPWeiW2@R1G(O;~ry5q5}B$ZIB>+$a!X*RFGfV0V_9ZX^QoXW%iv
zhu0$7@uOgPCALDVZM}=5e@M#h$vg5V7fP{@->FD_TS~|B*wPqG&e8JGP33vm*OW*_
ziBy&Tni8)l@v1WPMYfhaT}hs<CP!<@@k(;Mnmo6uoZFF*+*iszc<G6Bd`Cf@$4aqJ
zt=0MRd@XXa5;^&}<HcXY&)$pQjn~2hmGHoW$#rofJWvgvx;+ZxS(EzU{1W}_?awbh
zyjUAdR|eDT!cQ-645q7tZ$6RUA`D;&i5!E)@$X)TZac|yuH^NCX60du;ie<KAaM(S
zgj~1X=18x?u!GGhG5~ru#U}d$sS6y(ZMPvVRQJnVXUST%%XS?B`}N?r!`}>VGq&E_
z#Z7Wsa{F@6QqOW^DN+|)K{VE2hEiV*KN?=|{-Ni)p4!OS3jBu7?&^LM<sFe(ySe-Y
DJn4?F

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/machete_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/machete_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1cd4dda74e8c27e893a630a65fa4d70c7ceb52cc
GIT binary patch
literal 2322
zcmbVNO-vg{6rQ!$_F@b+A))yp)sVPp76L9LfJ=#0La0(DkRMPFTsCX(7&cjZH?zAa
zwsPQ5RjI0~iBt(y{Y%?OEjM~9M|$qXjv|q+I3TrB#m$m?>ZN@%#>8=xs_jTS^Jd=9
zyf^QAZ+~iQ3nLhY_<{aS5TRe#raoGBiRu?XtRM|(f`R7Q>NA9#Z{C;l&-(?W`89FD
zH!o@d63~JqNPLGtJ}YXWcg6Y8-%cesm9!RuZtSaH^mOI=;a&YONVaONB&<c?3z7&4
zkTy*yhQNC5j-b{CGVKLHZr@=>W@Miip3SI+O6Lj|@gg>-6$du<&YK{yvka5hS|rp|
zEK|=rwil$tacMpy0H;2DK=|RSz6a9^x`QZo>O6FVahpa1S8QUzcELA`8YJMMn@0mz
zYUb7SSA`ilK$&qb;DY04YD>}!@m)IUwJ;)?9vn)p3KSj**(@adM>^r;tc0ao{f<f(
zh|_=D9eq7{bCe_uJ)N)$&Z3!5EEz^Fkux=7DC9QDxQ<B^hFT!hPTX?UyrUOYM+Z6A
z(G5G1Q!|UiAqw9OSOxF+Etk-OQa`s{%QC4$G=(eI5<ok^oe1;mG)&9r=g_{bSodb^
zSUGm=;ib*^NI5=IijJ0~(O=ndyc~-^G&WC+mrsnBqGwCe*(#`^=jZ7ha8?@M_<!Yy
zvSL{EdjW_(v*?AghN(J(Bc7DrrDzlcYR^hzKzcndid)S%yHOtmxlX2b0H$TM73uhB
z`u*w8hQCaGk}9?Kmc(AlD#4TLD$hj7P{@(^4iF594M_RVF=l;Bh>8nP$X^SyP{x{{
zAyXDr1CSENFs?!xbz);@k>I@~;st8D7Pj>waIz-F)3x;Dv}zL#n|Uq{?(0h&B$(CP
zK$shxpbPdGr<nPAh+}vTE@;ruR7d4%_#}V(f!zl`g=^b-0_0t@*Lck~Sf0R!Zadh_
zKHu#De&N$NaL%=zJ-5;XYx<II>uH1FbOB$V(+x7as9NMAK8vBCa4$~cL;~mCoRZcZ
z`(!;3`TD?~mHt7j=QTZ}I`B*uq5YXfHJ>L2ZY-dhxa{Bg69x@HQYmW(^vE8yA1GO%
ztO+(E?S&P_gHm{MXg4Um#1v(imQm#(l42iEtxVsaemMMX>Z??#bEq5|@}k`(se3!N
z@80CyLP<JU!(XeOSF%KfUPx>&V!96BQJ2`6Mxe0{!~uC5h-U$*3C!st#G?r}M<J+o
z2C=7rt?@rapZl@^yE{SyM|_TEpqXFSECl7y3}sHeRg~Y(Tdsraj&qRm<l^R}?yzoH
z?7i$d|58Er&CSSycXWDU^1{^Ilyc?T)Rl?Ji&N*7bC)hpUQ}i;OkA0gee@{Ur7y!|
zGnX)~b%t)}keQp!9nn^71}l0DBw3E^TQEVQf=KFod|+s8uzX;+92#ElcoZ7jj&wYU
zjBZ6weRs7SO_bVStN4Ysp-MoEg)2yG30J~M+W)xg^x8zZYor_+S?_ridV?z^|4}K@
z#S<<^DeFjHjJ5uOhCd}`>E(YK+QS6Iv}qci$m)x?aLPKG7tmOhdw%%maM(f9bS(o8
zK#GUAiug6P*O12H-{Kl1Mf*URWy1atCWuH7s$nFw{f36OdyYSteb7=uM=L>5NUhC5
zltOA<+ZZdSW~z*?v<pJt+L;Q1W&Qld;qv&UDx)h>R5-Nu$`5_t_f-&(8}SYMN4d(#
pN<1obJ?YqA@v}AlDqpt);k#$<b>4ICA1<{XDF?cL4*-|D`xibOKDPh>

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4d6619670405a2cc129bbfd61cc59866c1d41039
GIT binary patch
literal 20344
zcmeHud30RYdEa}pZ<rbEJ2BWu3<zQ&K@t#1k>CPx0U?Qt7D)1Ri1z>vFqnbf3`hbV
z$dIDMMCzJg?3Pd@ACa~iftFfBj#INICpF#X#A=hKZ#c3sexX}9l}`@;=s6>S=}Fw4
zw!iPbS;2uMTmB<Crw^EWzq^0$-fz3#z3<Np3M?ERzwV#<ijHyIf2Tz1sZ9dwcZ?i&
zof9~L_jAK)%n$P{t(nvgYkA7k_;r)|VFQD;e&eKR*u-F+-#lp<wlG-lw@%uIZ45T}
z3nuNu_DRRE18JjR@;fIBhYKf*hKqPk!-*!b_#IxwV7Npu50?s-;WEKGTn@Nmj1z3%
z<cBMTg5fGNM}NW-f?cc@_*vj8H~=}t8Z|X)5DH(_57(m3lR}Yb7m8CQtVOz>P$F&-
ztHruxD@`Q^AGHXjXzOAloKCl<k+R!Wqh1;6)nkk^Ikidze$*tCqpU%wz_^w8RpCcC
zP?<%jepNTz_;6WXTxw9aNvIVqYJ0I7@3sYb%^ULSkhfKEiTwCbYB4jhP@g}4R3|i`
zT?@md5p_;y+N2=NQQkg*M-$q%;{DGGo3(AGciy!9R?N|MVH;+)1-}yZZf^A1#`0*s
zQu!vK75O_h9cQyKbi#JDYyUOcwV_>yup>Y2jBfJIO8)wzDrM<}cJ$gQbiB$9cL|;O
z>k3_X@16KDddXi0G_(sn?cB7F&F7;V?RIV2E^BPi@NU%Y7WU-FA&uwWPgrA%(1Sj9
z3%#GKk4MnQp3l+;aPC9hy}~}saF4JbVXyEg@H>FtLHstO(|+I=PEmX&W;AIN4x!IJ
zffuVrHNxRd-sH$8`A0X&AJ`;+Gm3j`llsRt$v+OMmy$jwz+ERdsi#WMLB@Z1DSEU<
zI0Zi4_mAxTN$RKG|JQ%_Dq#rkzW+D;?whUIZwBWQ;c?*n=nU^Zcb`ak$jvKO&&YHr
z9Gvt7r$UtU1$<$TKR7lfN=RA;eF4!c9rA`mq?{wuk|YMgo+-aKJQ|cH-5SMmX2k3F
zN@r)LM8y_juqTW}=sxLdR4`9@M<zTYL4QcGP6yJ7`%V<!KS;qmf?K-#{}<1F7htJ?
z0y~1Uis6Dc<e8mP9KOJae_9Ydqf@MVrBDzr`bI?0h<D0+-sks)XGXMWk$Ut1D7`)m
zG_G?I&3sEZX+Ut?xF%IC6Tg!L=d=;+yhh*yj)-=gdfD)#>uDkyK{J7#B+VFihKq3X
zbzztr>LX|)d_?n35~Dd?R*5dBL?6*b^s{J0JxGONQ>uq?W{Ra!YCOiD;j(Jja!V<d
zRZ8=>;ThA+86v#Y7%^nkqjlKuWR(_eC_-{fGm8a6Plhv`TR$YRg?s`9183b9$pAnp
z9TUTzhZaaNgo7SmAgnaJI4w#uo=LCd_XRwm>8Yup6cz=~i_=~Z7o#4DCPL9qqk6Yu
zWYPH^#Y{lY`L3NkO2Mc<=neOH#O}#mqXEUnlHDG0=VaHY+b9v<QZWT3)R8koCZ6#0
zlwSlcM5LX`xJ%JWVkkuG=Te_vdOO0CQyo*jsU2ajg!kETd3tYe&%|D_!|yxaF*Osu
z5Dau&^!q0}CWC_L_lTFpk?C+y>hODKL@Ct4UdA`;4f{}UI_&d@I+8EU675qn5*d{&
zXao@Y5rTOxVc|@bve9*~di!d1f3&(kR()7DRjd^?$VIIShvd$KtDTQUJ0FX69#3dF
zb5+8G`b#_S8f)W@!YgKKZl8bYUg55|t#I*x+_ZaLt0}TvF+4DEMcr|mbFo8i>`vw-
z44kuU$*}Mx*|g>7#)1!>HLK2ssIx(KG|Hw%v_OWVG3sc1>-p8@zG!owY~Oc9`%`OG
z+~)ZD;A%;Gw50uew$;w#(az&?@rkJI#FfKwN6{6_I$niSESdFGEMrn|ddd^>&0^{$
zF+42=Ms!pw`4BBLe*FLd_*MIv`BfLuCHYnNiTtX~@E~z+M4RSLeT0kXFY;1}pcQlx
z?sZPkNAw86D+rAdEkaX7gV6j9>!=2t%D-%i@EI;aTL;=&Sbb|IA1!R(&{K<<0=He|
zl(Pe~TTd~<cL_l;<O&4Ct|SMzE{VRe3t`WBUpVC2@0xYAyB-htXIzX@DWl%ymBdtS
zQE;_D2D>s7OI6C+To3Ub<r~{vvr`0U-0ic?n<0?fS7~zmOs<MnE*9;#G-rq0ddB!t
zIaW`qpnzywsX5hudhqy==ghe$o_PH9*`r51kDY$}+!LNN$A^!eaT}y&s=1W{#;?Sx
zQXMsPWP}2H`w)p0l`$n^7Ny)XazTV%*(gJ#Hk4xT%7tPGz)rSbjh!Btxboh($-bzQ
z%eH|{$_?|66N?os)kTdhYqr9;y?bSNWiY|<{d`TlX1iS726#tDyrXy752&v(-q<ZS
z>|S~L_EWcy-8qynY736>3BAE-NpJ?UC1FQrvaxb$_=Ap<(b|)&%UvrcR`#LsLB8Q$
z!=rNj0S4D5w3>q2gkDcg^{lC_Olrb=<**J-4P%`a0N1&Ungdxw34zd)jP^W~)tqh)
zD(4J$i-+=Ola+rN6x~QLASk@&p_wn+Wa7Ip`UHNVEePhh2R6>J^~U&0>+Ml_;OUtC
znU^1%KXRo$ZgtF`RNsMcPCaRLJ%F5t-yy}S><zSYx`;O9Ahtijy~2mn{X}#rAHgg9
z3@5dtE4PNdqhfi=>z@{nN>We)scs;<4pdZ(q9l1HLt`OAg;83P&@PISZ}eehCGAGN
zY5YP2;C&5TY1{IN+m<^6v67Q7pTf&-`>E9tca+JF2H6Ce+HlWau~Z(j*UP5*gr2iG
z*)%AX!RheSbeM@o&y*;6ro2+vM_NOv@C7z0v1CeeXn_<MqlLc!05QsCwl1@v6M>)D
z3l=NO%ozkB2|R749#Xn*=rc13L6@W-j@zUUJrjI}OudKt&_+~KsTvfi&FZBn3lp^$
zRov!aFvHDoZqtxNR@-dj(@aRZHk~yRa?LKEDp>{JMPJBw-Y>e&&$wKZur|UMB+)B)
z0#xl(yX$Z;5b_D4<dQ^Tdc+qPbA`n~D9Bd9>-R&ilge^I&PvmP0F__zg)g{v?8sK{
zuCb}`i|w-wNz^iHle?ZYWK&+uvJjh~S`B$?W#lmGxV1{fV^5rY(vuXiryyp}9y@)s
z|A=Qu+J%|gwD{yLowNrPB#;6p^-!=CL5NnF2w$c9n!I!$@`NsUL8SXp_a$od0|bz=
z5Nh=wH1<V}eYan{Ydi=_kK4QAjuzSOhA3;TyH~eY-qMrcG`%eey{@2TU2AY8<zW$L
za(&S7NYwbqZSP&<0oJrL?${>VThP>9f3Ln*c0GcoeGfHtLX<9^xNF=ZH}>5gk2W5A
zzyEIIDYXZ=>$u!`B5v<osamn2_5PNGR!alxX<(A3TCQn`myKIKL83}{yX){LZZ1=K
zZbs9{h0_~~CQhoE(+Pa!6OEBk&4}h%_(|t<FF_Wo@g@EecUk)^cZqjvhXy1!hIVV&
zM61hb^msyH$>V|i%CmY3FK(1v)%gT<Y61Jv{Z0Hr1dy84>l^Nwn&P%*dE0?IRqqc!
z&}uM87S2}ocMl+}%0A|JeM8()vgp0;yXO1agzTvQv8n!lCA7%?Wr#HQEA~R}nt6}*
z_Y1qU@9=xH@9Fnw6+N?tN7D0ydTD+22T0_~dI5gql&rtZhu|BI<lU^zX|h*D(Bx^A
zmRT4i`OM{*fDtYF&QmMGznj*Wf{x4>b(@o!^nJ)<!pN;tjMy1?!(mCWW(g#fsc2^1
zI_VJACI-ta+XhzKWTDv1NdsuPf?vpoV4nNX<XF_p<vUl7#7w<+O+&ZOt?nO+?jHg*
z>$kvoF*~WaYo$A8>bYwgynS?a-(Ym#AQji5*tRX+&=;@ojTcv}7B@zV8{@^b56pU-
z0V{1ZePq?!%wP_^S>=iBRZDB=KLZ}5S;i4>eC9Nptk))UZ373Og<)eqOjE&}fvo~l
zo#_kh1k#sz3FiS3ZP=V@0fU`?Cy8gK9&K|4{Y7rh7%`v?&Kn{|#5j+L=n!iV>#?ea
zAw?JR`KOt$fvu?OdT^k3w_dSc@Cky54JvI~>ag<^rAblndBb8pWnJT)n)1(hu+2d|
zPtueR2C(6U4p%JRk+AO~+YBn&N$+L1DT^?UV?5~u0;Mcz_l9!&QHs;~S^e14nM^2W
zRmy0JkO|$ARHsLk>~%@G5EM69&moUWa;MSc4t}BQ2<EwXQTb|7W3;Go{$zaX_SLN?
zqgzkPy2iEot*iBiqxFa7+QYK0YOShnwW>8*)w(<yt?HI_<*>ZXC5t0b>`tGInzlfG
zm>=Wgw(akZtTe2Q$J+a&w*EU$Mr{MIh4jU+v8$WqmR`B47j4%}kT+VhD{ia%Sc`bg
z*6^_&F*d9Pu7p{yH!uQK%$K@gE{#lx0>GU~Fh|&sF~kfavIcQ%#e+ooaUO{ckDy7J
zJQ2+-h#lmioefxM+8*;=6a%j0o=F`pxm9ybdczXDP$5?ukv5k%Ah^=Vw6Px44X-PF
zL3Eu89(84tl8f0FLuxhJ1xrNRaJGRmXGLg$Gn980f#OVVcHm1;DKJEDmR{GIWbq^x
zHhTm{tkN^68pkh0`zz*VsHl>4C2?!X)khZ|U8;{+Yvj6)sI^1Zb*PhTP&bk}(@C7l
zrgI9w2Ky3Rn9+kYg^<!DHQ1An$0M4I#W+rMy5Rv2^Y3a>yBF+Ppci5G=mpvmO3$LU
zQXq*hPW#}x@r+4c0jlv4%FQ*5`k(PU(SN#saPa7$qKAWK<btA~6{TQE(PEk~!%VWX
z?ux*fo=ZV#B7|kmH^-%^IrdJ7nTpZ~M*TT{A+n}0xsbyRA2jcen)cr_xjxcss_JE3
z8HwM*t9=W7aZ}Y>&2PJJx>p9?Z-$<Q^yM@uk}f0^&ijKS6Cq|jh9>hbz%oXH@<gaU
z`FxuB{2>u8Md$gJBwMlOT@r8)Ep67gdHj?S@LBf4NzVaC>@z)xu(6yLyg44iDJh8c
z4Ew~8QaU;95BogG0aK9~J`$V`gr$FihLV>$(Xw@y1nNl}nhfQ#KxN+L@dU(65~-{I
zfnSL9F}7<K&g#6{y3o36X^mQ1m-oahJ6A2oqLyRxhwq_;Et6HY*F{ZrZ%w~Fb93f)
z+56KQ7t0K3><LQPKfpmvGW!zk-q^k&XVpkSF}A4!Kx|`!DhnB*hDfF1$UMT^AaU51
z^%iYfX(KK95rn8|N^++J0EU|Ij86OgQV^woN7cyj0#WU(ymIQUwSQ^mZr#C^I(f%I
zS=X=XavDDMq|tF92k3y$NV~%IO=yvp)F!ngTvxX=s^dxupfc<khT2xZ3_ryVWJWG{
z0|C*0$rlnsI+Q>pC3Q`GazP|<O7voni}L~SDzqZz$Rl|J6Co*t2LBtsq~8FBNSW)#
z&S+`#{1AlGUF*K3Eq5#XmLHdO`_wnd7T)Ro?pM&mufq-*J2D?T2z(Zy=aWzz$UHf-
zg7#fq$`Zk>!7)zLjJ13o5u@4xcwAmU;+9_J1Wh2In4bW>Oo}iW6ume(6`o;aev4-f
zLiDQ1nJmvHZC2AW=J5%ar7xn69u?QS0nBqmygds&tJd16wf3H=;Hq`Oy4e55xi_DE
z?b+pvADH&s5n&A4wybkGa%bcp#jHx?aFH%jKxZb|^HcKh{LD^Cv`4k#)uafuX+ogr
z*|g=nFRdVBPg?El9Z5c+nk7Kf+6~Q;PZqu8v1(JIcaA6D9PKS4Jh_KeUzJWJ3nPvj
zAo{|J2Fl8dI-sF1AySGM<{m18f)~i{$Po`v9qNG!RZxlJRkSO_`-gS{0C7}qd9(Jl
z+8fic${nkfozcq9@0EVP^1aGfWgiq&-0GAI8>7}Hd25es?U8joD#M{^`XS?lO%?WL
zn5r>uE^Biv@TnI(!oAQ5fr8f@PqIh42LKtS%WiQMo8mEUMDqeP3R!8`L^Df_R{EOe
zD>fa<=F(Og&wXX5j>gw!^_DKh_}kd{+I-^++9O=<Xta$Wy@nAt8_lhQw2o+Lxkj*o
zAY3kGK{yG!PZHw34gsutVt!`INxwt6G;b1_clQe^sGxw>|Gp|D6g`CD7>-87%kV!5
z*jQSatRxd)QsI3HKduyJa$wR0#vn;)tc<XA(5YLdQb_t5ipyyAuK|E|sM#`q;$A_~
zV%Jxnxx&XyMXRPtnCI_`EB)_Yh*j;qbz!-1scY%Q8(ptWzuvoiAzHQf$EF@g3wzmG
zW3#L)&1ze@YH~&Kzx&Bp{b__N{Ehk>-kZ(K_1|*KyPu5KpZ>AwjM~&%Dwns&))raU
z^7kK`x$2(3|JcAaoZ&-OV0FvUzt8eRm*Ws`QTUKzAfwkak&JVXh|;#Fj*(tw+227w
z^rZdUIDBOXv+jsC>G5pJPl%B3X&%mak4MvFgqv*KZ)+kt^_I>Y7ijzp{iJ=T5A}ni
zAX@V|+CArC3nKVTn{m=@8=lmgQV)<CFQOP4nU+~G!U!hUoTBxM0mTCEeb_fP9h?rq
z?)o|^NdKIIe?b9L-d73wJp>Oq_)|76kskK4Nu@2lj=C-)rr!p@{N2snv8LToUH$wC
z*;yYq7A_9lHC8RnE}y<z*AcfBTs^*Ud{KI1*V63k2jsHtF<aZWpIoslzYw+cE%0lZ
za=ETER^26+?Tp!WeYaoUdra;=7PTEG3N>FfFPIm1E?!)0i<#<HO|4N=Ys}O(-@j(H
z%^!Q%97vPM_kiQ3PKvA}gVcmF($SCsl+R`cnWPs3$0?WudNNCuBooL6b$K<kz{Hyy
zo(TU{Zk!~+h9`wZYDx8qUUjq5%1TQVyhg$ABfxsoaw@i<<Qt>YbLNkQuuZOJu1F|O
zs)W>9p7(h}(wnHfgI4ls01yksCD->}+dDsauevo>-4@kV%=gR2iuCM%J%lr^SosdQ
zs6A%t_%1K+IwE%-iJFei_rpND(si|Wp?A?QTN_uc?NMuc%-SjII@Ptwo`bZh_J1(y
zW@{rbrHK0yY4*rFkK{B$FB>0$&HpB4T3VY?T4AD+4G(hjn0GMfl6cJN!`4)jjG%y)
zDFZtj!gOJUJ<t#a8YlPQEuxPY$Z7bM3g{3xo>Io4svpR7g^GU`5wjI>d*K@d({4$c
zp&(r({WD4uC!$gwu2!sp=}Fu~pzRcdsp^uH4x)bc)dtlKl-?`BU63LV)jpTrLW6E1
z5Hh#OIn04Xwq4t{RDZ2?{v@=()#nzTi^IF)y*_qrY{`3V{6_uT+iq@KuD{tTn|8z<
z&a0OfF30VTt78je4~#myVSWJTf%f9XzMmA-UE%MQxR>jf`)@U^7;YQxSa4o;#c<`t
z-!+rIaIIMj=T9;6Q8c*tW1=^r6Y-pLt~8_nCD6>a*ix*N)&-kL+FwoXLyu@^ha^>G
z1VKK6!A)fCH`7MYoFT9mEp?x<r9P)+RfgaM!+4s&upr4NBZyK0>6J~)tsE_9NY#Ew
zd>K^nHBR2o4Nq!TKcnU%6KBJd=^<R4Dk5`=U4}}E3014PjmiDymr?Il(vTt^ktpLn
ztvutK`^1{}NqyfZ(ZbBETRPS5V%3?+^=%aWvMxnKu1VZ=bDbAm-E^YY)8-n(?TatY
z;o4HJq*e52F*T#;y^`deQOrj#kBC$3NY+5t-n?P5*Di{FCXprBtHh80lCa2V**~Bp
z)3PL-6`a^&ljj%F>|tJn--%i7<d*VG1yMC5{SjIX5EK4q0L)=g+7v5k#>w)DMLuq}
zUaeZFT0H$m@zU_?b#jS2W^Vm<*Yf!C{;0Wk{tz6cCg)<;D|7cstFAwH?YX=4y|L0q
z7A$dd;o_6OTbs=NW=*WLeZlgfy<D#7U9C76tvGn6B35xCW<M#LPOg387^~(3QS*VA
zxqtpp8kwcC#le`le%0I-HMhmg?emB3nTw#lFW)FzE{mBv=MSw}3+9ij%x!%U_xe&U
z+av|xO|#C2ezJkLAEFoB15iB|()LeQ7+Ixxgg>}eli|G-f6VCvC(u7Tclg}>>+<$r
zm35AxA5SY7HVZ7s%j3Fy(m*hT(|jBGR10+clQ<L?s`8JJW1XhCID>7P$93V-R4%SJ
z=G;L^UK<3D6E{oC6#Nba|B8ZtO@R}E+bYp?NZ+C0WeQd(c#nebQjjr<{*aPn88MCl
zAO0JHbNNuw5wR(b>43m)ASM}6F{k)$>S3O&^j><=gA0qPDp{=g#~9%SV$DAT0M@i~
zw(`X<-Z-{Ax-uHG?w>!BVZW-nH+Q_Y<6ZrCthcOpy9Z+}r(#t@3yu^YW*2`KrTww0
zLko`07}Dyvx^H3MQqdb{Zq&tUyX1<UF)K{wl`qNN15xW^tJYId>#3Oa@%baTW}{YJ
zdTPlQvo^0<JEPXln04p;kq?~>H@cV0R?2Qy#GHrbkHdz;Il%w7*Rn23ZM4^<n^@;h
zHOq)9@{^zRO%zGrqTnEchiR>r&TKZPw?9FnX`;7R0KgtIaK&5HBe@&>(W0$6CfUSl
z*|uoewq-tA*1CLhwQYa2ZU1d=wC$j5>W@3BRvq<GM}6F0xeC{|y)I>(S+b3@9m^B9
z>u&{akKP%5|3a+f>Ac2Sj(?j}G5yv*MDXjlVN;?*!o{sH`cR*ImU_PZQ^q9+zY*?k
zlLel<o85}*OR4U-e0QpuaaI<#r7Gn!e}wd&57#}|pIfK8ccm+6H~ZyhgVXF%Wa^I4
zDfNQqgebu+uHG0rKiaj&6%4o@d*WOO76{A;(RJojZ)dxU8jpAbE^OJ=t4QQd9}`{S
zplfsrjSzcBF8IWYxWpueVMMrKt}`<vFe18qqpqo7h~05&hueuAv6x1JlT$b(l$2t4
z=Y^SocQS~R6v~6&NE!vs?53t-I?t|6ckNLO>Xm=R><f$r;h-O(qsPp?qXbQIk6Lir
zICCCnU|uPZ5|LhfM&KLqcm+ZFQ`G-0qFC~G!|!Ocefg!AUs^S~qek}!#_hOZd9R}O
zP0MSR)ry{IMbGWBSOtzMO5?_grNXGOdI>jy>TVo;_uO~BaO(?qoBHmV?5n1VsHq~M
z(G*nwtyagb?=<g|jdiNv!YJt{O^jbf*5@Y1w7rne-e=@W<{x|VYR&X+fJn!!8Jhif
zxx_&${|U>Bb#{d&aazL8iE(X>T|Z+xJl`Zf#qj!F(;>)?^whgXanLd?iFxQMB!*pL
z;G$0o2B@j)qF3^H>2BOpgM+71_sGtjIqK;@`}nEjhdupAju7#6<<gi@-I)FWuPog`
zpy<$NNU7Sq6Y1Ym-Ty!VoguLmQ}>`aKi`~)Jm^<?9}TV&A$0@DPe?}Vs&VUG<5nUn
zon=*564jL?G+OiCztyHM3h;2E1{8jRZLmkuK0oxS!;gtBI)h4{h2g{|R6>G;yok7I
zs?G0gV0S6`8Exj&JD;;6WX<duQ(_LZpbeWaAbawOrF^uMu?BH3Mz7vY67<Z|>5AyG
z`m?8c&csa26@=4vA9h~p(<;Jd#(;g7j{{CjJPfG&D3Wex-DX9{PTa}bk$yx0t%^zp
zX;~uukn)J{;c)zq1pg-r{+xmha)ellyw<5h!kW;9;Iv=x<Px%n-N+QBzeMdfhyo-4
z?BasSeC5b1GmHI8y5Bo?!|=BCrgiz^UDs}0PJ4hOcIT?K^{%z`o~h*nQ!C{eIGlR?
z3Zkaz##77ZJ}~V<+cm30-K^-<TRaB!T90B&UhiT45?nn|@9pEf>9>F*(y1E+ivAMK
z9HeUM#8%Of3l5ejn09n(*Uscyj%07}N!T)yBo{aHlp)^uz*(I4YMiS5QU{T91)J2u
z34Ik8F^%$c-Z5v-a)%V;b3A9=jxj~@*GTKg{Ju2grUhl@UEpC$GUJ>h<3$_KL%@*&
zfxK!~uqC+-@YPhr5HSK5u;|7o=?64L%n?h(5wQvScMb0pskP>u5of;pKM{Ls<A<9+
zDHjCw&72K5vfYfP2i(TwamA$SUT0g6AETvW&!uQ-l`^fM1#Eno;)Q#IZDg3gj|g3Q
zih?x1C|Z1#r#R_)aZ1UKiIbD=Lg~LyJ(+?i1$Qa<5(PwoQjCHRDA+^6UJ3{!=_eF0
zG%U&U0>N`xF~d=qbR_>3RrnTy5Qz%Lq}hQgwky=DZrNzTu)ueM(qE&|9}=_v1pqMX
z7OtrLdhNB^CF#cQxBG7PElW2K#0q!KpNKn4uUoHKmkuwTmYpuSX}{cfAnH6YfBeJJ
zuDGS-YR5tc?j%`i;+Dpoq@(0&WFZo_7hj!Nn0R0{lo{rS9ymFB;c7vBw4fe`T5*#N
znt+8REG&$h3UK8nZeoC=a@A26b=2M9qYm6>ZNW|Bcu{q{yg6R6EnZUjpt+d5m5El)
zR>UqwxnnpF)itSRM%qfm+tCJ?ajEqAxzzTVxU?XPOKqRZrTJ@oUM{tN3YXd#ms&P(
zsqIs^)E==i9!;vJIY-2imq!aSJbLRP9+iHI6&Zl`Q4nXbA|q*{dFdVnKSSVleijC5
zrs^36O7o7iMg>2oAj2-?waDfaf>mxQSGk3@cS&DDl39L%CchwNA<+V6srd)SEJg8r
z%#!Am#v;ZkEqOVGoUf_pH_0jHPvjJRQlD9}IK})aoT889ukm>~#ri3nVrHCTBu-KP
zm{v1?0;iD1vqnrgoMMaE@^XqL!zt2-SO}Hu3pSEHQxv}vos*%GL+3d}E``&(!6cFY
z4eFPY8J#5ZvVQ<X4h5n9LnC|+BFA?cXNQuXnGN7`I=bIQbniZ(`YqXB+)SScx6>9$
zBKuj<QCcF!A^lfMTUoif`<8T+Q_pg8KPql#H?u?S$w?)fNwKqfsZa4k>X+9}mPvN0
zS7KjMOYCrj_8N*+{T`Qne#{Onn2%L4c|33sh#n8yrzy_tuZqqdA3VzL)JlEmLHYs(
zt<+aJ?Gp!{fB}2@=#g`Wk9v+A9q2zdcoz0;Fz9F3mefx`_3G!=T70|0KE;!|sE^$g
z?5Cigf&mInBTx)y+2>d6y0U5qjZhhFz}RI+c3qI&d1H6Gq*tlnYZSar!J8DkMZq6Y
z@W&MV2?c*j0o%4<bH}kw1v6G862cM@>BhaOX&;tg+AlsT{ZEuaOmm?j>|F4{3(v1x
zIKJSoINL9{il1?f?7!z{-1h&*?fx6C<L5XSeI{n!GH+NbE|ocFyt-EAD&o~!SV-_+
z*LBKV4Q@JC*U4NtKAx(si`Tf~O)Vc88~9@SNV|LCWI_vgt+X<sM+}!=MfK9zYqRTA
zBXOGNn%y6nU3^*GS(VTtUUL>N3fC+NJz!KWC`=d$G9{ZOs4fOHSg&+17B7acRms-s
zsJ>?1O8J94S5isCn~l7a^@tcfCiIAty%Ch@jZ)~%vTh})jN5;R|43`#8(3qCTec@y
zdUr32*YxIfJ@OMpF5VKaYapC0Yg_OgBw~zESVH((FajXpN?#sP?*t9-HoPabLCo49
zPPQRPZ9`DL_oMtR1-$vjY=T2{JH(<p;dM$ST&28W86TG+y0eQ#?{}|LD$!}+JC~1s
zXYdw2^#yq6+>f6B;q&VRCW_3wf#E}OTNkUN1-z!WeEIp8pI_GlPE>K-yFb#JPy?5~
z2N&=K4#7J*S)8tkyhIt#AL4K55*)=VVKu&^TW9Hn$-wWAJBn!*_s8p-)Oc?ni<7gu
zKT)LR4L6RyJ$Mty0$e%w{pa5UvH%k{Dk^=u=4Opr)cpOn_u7(08oqbw+?&t8_B`&N
z^S#UB%F*u+zBhQM`A2O(Y?Hf(qV134mMGu*vBk){6D1bDAPzrX<mE_0OK`1Ajazr9
zao?jXPQM%KB&u|L*V67c_r10+!2wh!be+J2-N6^7`vbgYb0qYLiQb$EBSEyX>t=$Q
zN_d#`1y^kgwuF{okPeHtx2y3Z`&pbG9CZ@yrF?0;u<UxxwVH&M;BBpH+`U(g4-c?7
z-3WCOomQZgYD6$KqL>;{e0X4;;*V?0yyfEx3oUgCxW<SN3MqCJsc|{@lG06Xwk!<p
zee?&_|F)Xtv!z2hsGF;Aj@Rt^sJer1#tlq5wn=CK<HK-9H+sOBlj4f&ZP(foMoO7D
zXDMxi5@t%_8@)o-%1S94c{^;c*%AemvZrb~DCNX=e2GGWia1weqL`o(4xCj=P#Nbe
zNt6>*L3iWZ7TT6dqL$i3C1q7{WmO465mu_f%E-KyQnM-aD|cj}4>*lJ;4Jhhl|i3U
z8T2WYL7!3?^eN@!3ab-^1gYo~q@qtySq{?WlvP1U6JkI=iF7rkrcy{3w`L&?IE^&m
vETk!wL7Gw)Ld8mujb^fdAUn;ZgCJ)PDut9)M5xekz*t4)K`ByfTlxP0%Ihjv

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68cbc841c32cf312d6c12cd2230795f2da4794cb
GIT binary patch
literal 16876
zcmeHuYit`?c4igD_fvf8Em4+anYJaFk}TV@t@cam9>3eK>B#PIC{;<O#D`og`qjm5
zPB6hrNn<Txf|U%+tm)YXMqV4+>cs$YkYHE&5u}p<39IQ2IR#~*K^!dfkKOiSk^D){
zsbY~7O|`o{$skzlg>>t_ALpKX?sv|;{40}5Pk;+5e?M?(FG2i0Mr7yA2VSH|f><Od
zf+B;&sPrX6iqR?(!-}9Xq#9L;;i{lIq#4zOw4>UPZd4c2kLp8)QG=ML3>rhGQIi-}
z1<fJLs0G66NpiGWLC`AN`WSjaH)^9aKO#o$looskr32qd>A`nVB(0fHPzIWq>Xyou
z`jl~tbki2;<}K36yBdO^EL-GO)3uZp{%u?2OSSEE9p$K8V!}Z=f210%r(BRfP&xxC
zJhlJTG|EAd6H2P)N6OKrH>g(&^_r<VpkWJD55D^j>1o)&Zq9m0!4L=sSYI$QIY~1f
zl~8l};;?Vzd|$8c!tja9$A^6<hDVNGK7C233;CH~AnXhIr)l4<2s0g>@sHEKFnvp~
z=d)&LCKO|7-&nvO6`W;>(Q$u}jtY&@>ycQH^2MUG&(B6efpMRoqI?WZ#l~qEPW5<<
zVdyaHn+f{ai3k&dG$YpaGd}jt3?1F5hJlZl5~&Iz`2S)zc#8y^=OludQj`{x!W1cU
z+C{>nIJ<Ekl06DW2Oq(C-5>Q)^vwXwYurEM9}5Hn?43u%3#|H2bPpSv>6r=4bg_PB
zl4iSZ$MzlAKfRCc2?oY`X6~@pBjKK#!C<H-6rt##kG@Th$Jhwd6ZGGqnP|_Am_N)0
z?)upPl#8)}V6-PsA~E8dnCb7Hxg*pBq8J1^i{y^RW@aJ`OH+&u22l(DQ9F1EV$INy
zF?e}{cV%1Jus5aL%ZP+2OdblU;a?;S2ZUH8IM~9|*MKagWuOSU$I^$0I@tozrd0XF
zk`JYj$wxwaQ?OOa9jld7rbOW)$E2@ZJC3zYoAWRRsg_q$i;G58-G%W{Rg{uaJyuF3
z#kQ=KYC$<QrIE``A>qp0x9AV3Kq(*Rsj}6$VLV#742VVIcNLQarTZB<p{Ro%-)N?r
z`lR%CVH}m(DWSKcY;q8l=}oEc0w-)W`jR$WTepF=rMUrBVGVw_DnC1%Vwscq3G2W{
zGn{3RfOr4l?3I!8{q8d&Z@c}`Xe>lW-RyPREr|y=8*z`(?xDkbcDu)7tQ$6@n+}gh
zVqumB5#bKgldyko%Ei0gN5?^4_{Z<KZv}!ucQ7zb2k&4D6g|oKDVpkbU%DQMy5Vn(
z9`}RLaR*rU_;r7Ha&x~EOeEwUIlsT_qIbCeOdpQJ?~cyU;{ktAO5ZcQ7t&E8`B}_{
zOpsYK;@~N|baQua;9NKU8QcbLh7H_r8@LfSkYgVyMOrYpT1*XkxT`l3;CW0!l|L91
z)RH(BjJNzuI1rxnMZ)8>pkO0{3IxjdbwPREADj@BHv=GjmC?XmTF~T$ub^S*=ym@L
zEvN!v);l1WCV~+^yWdCmhx#VMf_^*#QfM+3iA5igf=QM#qHvDlK-~;(C7~gFvqTEb
zFp+UO8udx5#O#6+jqo4c1vL^x)>yanE^lnk7}|J4+cQJQn%11rHt^bpoTAF~*2^lD
zPM@nLoZB*vcHYtc$>pDqJ{(Ou_9V{a)MDy(-myIy&vYK(I}bc<O?MtzCHc;ytKQYI
z&s)=u(}^=#M{CC6;T@jk*5!9s$Q5teu{Yy5%sUQewa$#Tp4ZkddDGgaB*|-Alf5sh
z6izj?t}nLEEJK~H|LXtmjmr_<F_du}=N-p4S6*V|dM?7%mZW&+u8hOWJG{T>_`_YF
z?Mgd_R$HM`el$4dPhy$QLB4Y^?Kmi={;W0mZt~JHnY@(j<Q+RRj=j8NZ`!dhac136
zn^M+(gNU91N}`CaB%C1?xu?vP2t|b`6cs2IWnm|7^-2Pqq!g5jQp@EkiSTdH9}2}P
zS>TC%A@7tq7>`CSQxJ;Uf>5kb<F!3+?h{Y#GRGDUohf5k7DQ!nm={YrNi0cQ5dklQ
z;;*<V8I){HJ$N1svkk*-=(VHQfnE!GZtw)Nyv_E9_DqChj0X}o?WfS~t@jh+*`rwD
z7vLp`b>#McZ+k-8snY(<bR6J24x}A}!1Y@&HcC2V+84DlV?(6em0%4lU*<}35y_Of
z3B^q!syIpf4oQ)55*Vi}AEPBLRA_&C2P|F{rHCuSEw8O#VFY4**mQ9PMSi59ly`yk
z?t;LlNRBMVFg0EUC#Q-7G$NP5(;Uu4%~_H6HgKaBd2cd5l_ML7uRKaYMIrPR8I5U$
zBtbhSvYU4RGL4hL$e2GU$!5WbTt?rXiG%?}3l<5g786WzmI%_LNEJ6YN#?g!l=-F2
zGpL;)WRCtmcp&)=H5o$_Z)p0Y<L5gc?tDUj8h#W`wI1dThf~VKDZ}Bc-H|w*)z~wd
zI$l%vlgkfA?~i_=>CDzQ%vrKJXGYh+>l%I%d+_1?55LfLLGr8x&ji;}&+<{ezKeHs
zuUJ>ORX@M)ZQlD1?|26}u4bt(d3eRkxApT4dwIh^N;x1(Ry^`%VyvLPMF%FYvv7Qh
z-#lf^r7>Txperabf*OxdUpW7r7L=j}V?iBdVg^(pNjnkL49&)v@OY`%!2@38^ZzFE
zIeg0<aKskM2nrZkM8<Vnlmd>bCpgsvc^68@^(=CW=r~;^@m<8|oQhLJn>fZY2dM=?
zS<HG;^*G;l+`tyl`INa>LJm=m0H9({_hS+c69RlSM}n{6G~jDF1^7Cy3VgkoYY=^-
z=$kktq?=h(S4203noXI55|-D^4$4$>D)6nG8hjgP0N>7Oe@y;IGH&FI6^~NAd<4Mm
zbDm{Hp^tD4R9`YAkYRzG7Sxgs$n-+GK>7u8T+omCZus(Sr5=+sT<w^Qhx)OgX3Te&
zW+G8RHR%gbw*@64GUhO5LCG7U_L}Fg5HkeH%v+de-mD2TM==L=Adg-=V+555=NMc>
z>G*jYL*m$~A~R8;dUA%nA*+j%bST8&%7P$3+y}CtH{_l0n3w}tYY@GI=p8~22Ui>l
za|EN<zo5^9NXmCx&_!abPa4Ao%u_=gc3Bkp17%0SNkXK?KQj}&Q>wy()qwUh%qWz9
zAO54AutO3=u92|SEH*7PEiuWxKR@{J;4<^@t+cf-aWY%&Tr?~gmX0r7NL9O&Bgq4N
z_3p&?o;$r+z2jcbT+dQ#THlydFK>V9{GW|~)cE=3zq$GsS6@~sT<XNxms-MX&6rww
zQ|s4+)vW%d-jS<<@2~XcoC>~QsR>7YPJ<yWQSHd-Fr+7J%{c>xjD)K_XTp$~usU-V
z3{?{rd(Mg>8)3HP>=<$o_QsqOLN8rVH)GxTg>`4H2I9F|qPqUxM{^%7-FRkc&DCMy
zdZOBuYrs$=hMF+cOw?}AwP46i)a}T%LMSnk+fEp5_lD+%mON=gdrH}!7i*#gVZ2nZ
z;K3k@oeyEdg3SY>lKW<)ND?K&1FUxi(E~>o14mgH4z9QYghPen4iB+Pq9m@YEKK4m
zNUwmwDv1-WiUWlnQS5{Qk5%bl-=cm&aL988p{QmH$~~u+w>U@m3PO%WO-poBsBV=x
zO3fA&-zmg<WsXxn(L6?agNtjn7*~^&U+R~%+FY70h2?QhxnIqjYI`-Upj2zw4mo#f
zyBsQhIW4E*lmIuhPjm%=t}7V}P`KPpp-xxkI31;bVvu<Rs9E3&pa2@%%G`IJhn^#&
zEu4Ppn<-bp+AC8ou7}#*vSC1!Qx!|FeR4jhN2+j&Cq`NOf%+u#Aq%!|$#I3_0gl-s
zM|@j)>C5O<XaVRoAoo%HzGmbG7G<{RI74ARhBp|Op=?|Ya=T$Ki>HC;{;lS|N#dAf
zZeqrPCU^*yxgUPNa(ZQ{F+mok1&hb2=qk5RprG*$C}=FBU|~1kAw1@@|Mb6pD-vVe
zZ=b*HrXpZi3P;d%1!k&n-dZIYanX7N#-x7tcq9ZTsAvfm&0LsPYC)3hRbcpW12_O1
z*7rpm+Z73eaZ9cbCv+4n$&%p<EM8dB9i(s4jDHeqqERhxXPc&(FdfXB!b1K#vUSW2
z2t_n#fptk7n=~%E>pJbf2_`i#@&ksTqTLc&FaU8k+~7(2GNPtO3K57fA|yd9`$)x{
z#1iMw!vzuHg`f?`LI9fB=m;8}7%-OwVEjI`(LGWMWVEEHev*mAW_*aqML^<lGbkPy
zq`05~gP@;f8KF)BA!0EfOv5+hXV?Im)`eP838<7~ghKuhnD|9)O2k4Jv1xJi2z(_#
z<i?&<bZCaXBUFJAP1O8Fb6Q`oKwe@{8ZeizkgXJYF*IC=Obd!|SkRrvj%cu1N?@xC
zYlyZ2Jhw&jnM6`lrx=uP681v*3Q+ATd;~4r1Bm(<Gl5Y9PEeXuxHK{?M*N}tq{OKp
z@deF|JX|&BZG8E73H&<(<+g%xjWakO1{I)wpNKzvz$$r|$=rsTvsil=xB%`Vl=_Ua
zhF8{ry-(K%_CA&RrJ1O%nUAHKyVI7Q#5=#NX<4u(FC<Q`+iEg4FK_cEPGvE;hqvv?
z2itjDd*al(q59sTxkHj#ncTJf!Baoq^H!?$$QOnqDdmxr;mEqlcJJEUwT#Klo7{<!
zmujMB&x$(j+Lsvq(K*0>M(e$Ua|h>de4_ff?xAjF`!mCV#EGogelIu|%$Qqva|`4c
z9vaf--5GN?Z|=^R5Afy#Y4gFv+s~b~8Rssr{AKO+S(7zusmDL7?WI92qDwR3s9W5>
zus>t(;O!mB@ak~N-jTMSgsxBLw2&!fWbB>1y)$F)<?X#`dw=5euMGBVO<SgB2Vb+}
zi8JFl%zF-}Yldcx>-Lt#w-(+?9!%SN5~tVfJF<G$(g!OCKOY1@>rf|715DLcuhsOf
z97@+5nKiC8ZF}(E{r56WJ$zHoit+Q|R8vp7>B6k)nYMntt~pcJ#n*LZ>h|z;dsZ6K
zb%$roYjuN9hthQ?A=J|T;P(C7nHDeK;$7)ZoxhxF@upj@%&NZBHa`DWT|C#AXJhjd
z&ooU*QR7c-+n=>K?%kcco3XU;mX_qH<j@xuZ%XS;S-fkOZ2;{D9}cE1-LuLyXZ_-P
z3-4u|oxHPiS^0E0<?Kv5kIkw+)~_q|ubM_t%N8N7Qv3e`#EqjSUJ1HtN}(&<YN1>O
z_iqGVwUqV*F;Bh^I(=Nn7JwH=a5}l?xPFp|8$f^8-6R+-r;_fTIAz=vH-?n}p;Q<G
z;8i#Tr4fsxuHuZG32GpeuPQm5Tjerbm3$DNAl{#ZQJ4XineptX1bIu2>UOz>;#Y2|
z5(u6`3v8Jy0B8$afV-7|EN1}-ZQ_iS3gEA75vk@3Q$1x3LX@kPM?n%F2b4sKqOqq!
zX~PNPo^>2<2geofgUS-Oa@MH=KrNOB1ASiITTp!LR6^;v71Hv&u?d`_@uAF3?JG-w
zD5s~4PYUo0S}1}`SbG3}dG&?_?)ccMBq+1UC(NsSLRs!Ydxf#sL=bO#&FbN4Tjt~$
z#%-K!>Tp>mL^(}K36g2v%&k;)=_p=P-~Melnyt*EfM<Y5ZFwH8pl-z-CD7A>d;=<m
zwV+}+LB%k#N9Fl(&cdvmVFP=-Qu-F0R;US_cKSEOX||Fb_-#4Owu#ehn>kJ59?n+e
zH{c%y@Z3IjSf<5C_5zLUZ_vMeQ~&m|{zbmw?8W|}?-=mA4dl_Eh}@pv@hF3fQZY(?
zT)mkC<sI-E-g6=EZNXc>all(HiMQf4mDim`P$xRBMy8AW1x{%D4RM0&4OYUnX(e2n
zSAugD*Wly-p(O5rlp{q+cdKH^V?WEh4|EW0x4eCMW2|I>_4P8SoG`zQ9v&sq4Z9CQ
z9)+MU76+q$uWZJxf@DdP`2mz0VaCMLOdLLf;#RL<+SG+$*%XByDY3ku#n#390u8i{
z0Z)5TV`1Qg1MrUO58S-a3>y^;*8>zqhea$ew19pAW@4HO_~GG{cnz^hn_)hH`jUb&
zg`v$_3NwvqLF_^UFOpC*Vo;+IR1CgwkghC4SSE~KL2+RsSV#?)S~^S#RpWkE(8a>h
z8!?&&t!oC$-oO%?Xui=(3XG_>hzg9Tw$zGh3j^l`A!#fm&5U3KceONw7=}dUL>UJ4
zNVG-^29^#-L9+-3qHNI?Esz1`CKkU1o<QCP!@2lGfk7DrCUJ}~JF&nKOfX2q70Dk(
z`(D8)T^5jR)NWb12}QP0aQ*<=_$&C2{xKYj->l&DrY(J?3Xay4(bn<Wy2R0JS+I-O
zb|sF&{g&CDF*Wg~ri`hbH?=25L`_Iif7V<*E9$3Y+BJyU%o->|uj(?O<5+hCptja7
zIg`q?wPRMDb=A%qvWDvU6LW{NP0dN`{maRt^CNR3>kuL5M`lOXEzWz~9G4`M1Iq&|
z?>;)1YT5UNWnW6WFJ;;H-0GUY@t<mEk7iwsOYbfO7Q+i+c&2gn;nlRun{oB=uD*<G
zh<6R8T}Ni$e%|EHH1+XKec6U>%Z`<a)hnqh-v@Q2**tp|W@oC+7@Ofa$kK;j8oP5Q
z!dCyX8g2b`3w58JN;e$&?9}p&rK1l{-9NQV{`Bn1DZb&zYHQkhVphFobuHE|)Ml)0
zytOSk^0XsmZA)8^%&MPjE%T~*cInFBYTI+WVD>M232SqK1j&zh_dwdZZ&v+FOHJ0<
zuy}Rh>L<=j>t4QfZ`wI9JCe1E-7g(XTRWkU!M@f2s>yPD%6p98c`V&<Jkv13H;k-)
zkZ!m*dwTt~#4OUw0S`|WzPEU4;neK#^F}YMBwS3~T-^!eXfn^9f$N6q+BNsVr)Sdc
zlMANj`Ov&6YplsrDgLFgE9XQi)&81PTFX-@!q;>y-+ZPW_<Nk_p{Li<4JT($uQj+I
z?7zQ1)6m5?bS(!z??^Rtr5nyehS5GhywsoC*2g#Wtz7$C<FVXv63F}FB=|dk$QIXp
zY>9eiY0DZN`AFK*ma%N-E!&eH0Q=7>MUuht<+-T7dFjUe&e>Dz@+_aV^sXFCx4iYG
z@kmaCbJY{o&U<&}?!dd6x}nc@Ex)_e`e4`nT}l5>yH|GcbwjIU+Hws0cHFx?cROQg
z<t?qr_7ys1X-!)WK}LSAm%h|)`>FxP`Hx@!7D+T7CI9j3WBKoHqW-O@4L0$g?WjH1
zr~k{Q+H?E$f4!~t++qEA9!NtbL4bNGDVjGyy22YAcu+8XqT~)jEVS9X2KD0#@kXSy
zrF<drMx+2DiZwX}rQk^U(5rNH`#4{Cs`QFEpH{rqrAR#E;3*^=dT`64s#IET2_7O~
zDK%aNV`vKg%N<*|rKx0Pm7zvlRdOX<L6N24DwtD<j~sv|6N-{naS_TKD8m&f2e&MF
zy1^}rhSJ^zB?!Jc{KDf2pbEauj%zt>rN^lyJ%V~$?h5n3+7+k(BXX42DZUtzlwjyt
zLm9-Ul%O8x$ESN`e0VESVg0}5_^|eyj!$2*Muppl;;f)$WSufsR5pP!-<UtCC@P_q
zW{B%A!{WGsGjQtfJ`;Qz13X>0qbLp*cBWBo{mt41AYL$eR5V{`D$S~7-Q2~|$RU}p
zrnbo`#qU%{F)W83=L01xRY9qw$dX<WxRp6hS-g?NJ1xop%DudIj79SXP_ojvzB7Me
z9~}9_Tu^IGEP_JOaVD7taT8lGkreM?LHZafjRH+YoO(hDPcba{mw5OdV*~MIU=_Cf
z1_7Rg(Gklt$P*g~PdAQW6j@bztoH*9iGaLT1i%vB#EHX$+Oeom74qLMKGtJ8F+&3w
znF9DNsAAynmo75qu%X|>Y%AEmX+P@|0eTQFL}=0GFG6Rg3{y{IErj6=NT<AgACa-g
zEWNmxz|<l1#4C}vF|>f5h-UR@V$U1vt;Mi-rQ!1mhGJ5$@JfC!s5jCpCx)I7(Xt4O
zqbLA3V_ymSHsP%0*CP3v(z7poJk5Lp)%F0<qthUr@qL$biTu5xl(KGi2yxZ5g=;@N
zn*cPKHQDdIKlgrOWE}!m=dLcflD6b%+O#KQ>gP@UY12T)G{~C<pZ2CrLr-t;rlYGz
zdDAdJU3=Z);KJaK4<*~cfDUiN%#L}EH@9U>oxG{@i7K<>Aiv{a+H@!}0w4?Dhh(+7
z*}i!f^x(bUkgD!@a{1G%kFKt|{=Df=n*e3m)QOV-I_uk$Q)u&^S{>vE&ZI6}<o90W
zYcHjg&TOqGQ`^ngc0Y+_dXDiu$I`XO<>cLb?e66(pI&=(EnPeKl;Xvlbz5VST<C#Y
ziMsaWUB1q{^1<pTzwcb?(q(?&GGBW|uKisa#mN8w&g$wjx^`aIo_sg0>r8nDGoBN?
z=fvu}Y0uj!?K_{h!V_eh`hTnSKcr>{<_FU1`kabTS>S3xXNQ{s@%7902fOd@PU}0r
zsv>ne*7emH{We~|EjhS+Bdzyl^!>cPf91*_Ui<7?T7T>-l|px%%vC`fFX3%VoqV~`
zgqIGVi0^LT;vr-A@^){=eu%dpO52Cl;DQC$)C#ZqJP$o9BhO3+vlb`*6>mb|J@?M6
zzWUydxgGa*&Fz|>SPU)%)B3jMk*5QnPr<_A3v9TXaqd|$!PDu)ndkQYm1}AHvBc?h
zgA=cKmYSEFo*Gkz6Dj2h$@~vIS8xSXHULuXUk8;HZ=x%`Z-IBwDC4R)QhJBND&?_M
zdiAmeeo+==FygWbQnsYk0_u|cDWVO)T6tLxhz-SInR^9m{d!|nbMP}65o@U>OjClj
z0EfM19^Ztuur~glpv(dFDquqS6ahR1vj+sI2Gj-mH{!kg_~81Y3=0Ad`!&Xgwcm7n
zx{@`jfE=Oa!keSw^h>ao=9}|3VXX?Bv<YhgW(0n#fZYHy6<+Xs_nC_8pl1tMYzlw%
zQRXURyb?aIa7`qy^pv}-F^EpJy_)topHxEe_E$>*W-9K33YZEolTy~cM9idzmq0RR
zGO&dUBcP=F)z-f|_41g>RKQH7xXdWiK)gz;&>x^@W2HVz=J*W~WTFaCm03bn8x+iD
z0}Y#u2%{D;gd8gZDrN~o_tC2as9Yt0%8iA7g5FQjLwv=Era=T$629uiPyt0T{~4o~
z&_k2sYj6`<6yf=U_%LHj$n*f)Nuu`<y`Q1?U(iEKp@e-*5ZZ)&wuU~^uQEjFvkbL<
zfY9gAw}d{=;g|#rl+_yWPiFy)GRRvyQrhin@YrB_ZW<2Ed-1tAyd4l9cbW;a1JBi;
zIHg<qw5j|5gPc;3qb6*POB0#q0ls-)<?gCC-8`IWeur;<=X2NJH2y_ny7>xky^=Ut
z@<!t~1!J^D7*hgXGM)px=fIzIWCqXjgJ;v8b1B2Ql=7U2Wjw8n8yHHc#$N<?`^IBY
z__4DO-)kF6BGNM=gIGrT%^w5j9U%;gDVu*s+%5f%xV!YBShx7o;qLqkA2Gt92$b##
z5I9I034$rXEH*0tt~x6H=2;pa+SBttu$Eqr<1;hgnWGm@fA6gC;^p(_&t14Qe8Ttk
zg>#qB`!0TOboip6_4&|<@AFBQ9eA8e51Vioi@y^Q)R#olzH~vM9E(JP;v;bJf<aK9
ziBK^x;@`&Ne}LX6=;1CDpTCP#ls2yR5Kscj4l%!gT-c&SbO-pkDv~5$=n2yF4@C3d
z5pDlhp(Yjohd|Fvkh}km@T|9QPxhw>_pfx0`S;Sg=7jodHAxP9t=&e}eSMNNg5Rts
z_vLmHtsU9MzOU>%$PO@~BRI`fL3kaW5}lqqol`*=bPRj#;_ijrISs~uBkC7VFPu*H
z^N!A(4wFQaCYacB28<aAQ+3XSAv1<77^)_q@!fN~mmIvlDQCqb8{w+YVZS*Cp*H-7
zYd^g9!iljf<PnlIEUP}%KGJ?_d1T2E7=L==h4{^lD8@*#ZF%_9cOJd->A6Seas<X#
Zl`q8a*C(sG$YJuu56CX^JSkH0UjY3kE#LqE

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..636afe728a4cda1e7d2cd6ad0ad2b9756e5d1abb
GIT binary patch
literal 13583
zcmd5@Yit`=cAnw;O^ry3qMnpxOQs)^CEK!MD^?WSbYeT+yqsi}xLjH@l1cL+4@Z6o
z!&)hJu@W|2OWmTPyIF+B2CxDfTLtJ3_t&aF+NM~b<%rIb8F&i^b%DCSm^ekT`=>qU
z4qu`vXOp6fUYmE$eZS5<_k8DG{mN=JQQ#t)ABF4#6!otdC^<)wc>M1)MJ-b-#nKUK
zT=~*b)wr5QS{2bmwc}bst0TIoeq0|lj2oiHabwgpZi<@6%_L0|u|%!oRzhndwy1sF
zPE#t1({c^Bp?-AZ46FM-HQvbT!FO=_Nt!iqRCv3RTJ5vOP2x?P#G5yXw{R}j3P0N>
z>GZ6gqF6iE#5UB=G1<s6-`9@2jTGx)8zIl0>V7J8c<{+M)`4}h^rVh;Liv{eMR^yL
zZzbiM>i1D;t9}}^?}qYiY%|Px`&HW4@(4S7+DFUgP%I<_BJrsyj`wM0_nFs@1^h4X
z9SppB?C6;z#{x%>`Nz(jdR_KJgM1_u3q*q#xWMH&e<3j)oZtd6?y~GCCQWmEbVlF;
z=R(1R?5c@OOavobLT*c(kIzKdz)XS*1ci7sG!Y20Y=Gz3nF$WM(=ai^^IS{_Oh<yk
zWSoyeoCV7U`G9bBnoCSn&$1c<_<Otyyk$x#vKU2$Rn^%Pnx#uD_!{L?oqqH(MEg{{
z5k9i(d@vDUxl17!(nN4NcrFwP30FU&9%Iqpas5Jcx_>$}y;}(KQ=G8-%FKahhA$l8
z`Xixp{nJ;4^YK{!rAQ>&AC0qIB*0zaCT4^<-yaEH<@iMZ#hGAC2+anC5agQ?LXkv&
zadt=`FgZQkH+@xhhZ0D_6qA`w%uG+md4Xej20GCMzXWd9IqJT-HD?}>%mb@ivgZ96
z&3@hv@e}32LqG#RGBN)F1ng=$NsCk%=vpU~Cn}6(YTO0bmAsl&B~`J`uPv{uDGWhU
zUd5`DDpqq%#cF3k4$T^1uW3ZO62jP|TEPAi7ls_QPNYhU$7*J^kY6KeL^ak06eW^4
zSXSNXM>vc}kb`=J)jY!SJ;JF0=GL;vLb4W?X5zf8IUkHn%7$~3k$6xT7?O?g7?%h{
zLKis5sw?uV1s8<7G7V`lLAERFUx~1mk`$(=6A5hDi;iyqO76z;lfdn4xe&=32*reW
zKxu^E0y$gYm$(An9F=!C=T7DI)*p)Rihn+{Ji9czuJ6jXv@Y25M*H=)g|_!yA9UR4
zSU2`U<h;G0qg+j?{*^JQWw+$)TV+<owV-t1xHRyB<a}Z7rTYf!b^C%nrOO&R(_NCG
zdu}XmFwQ?K8JdAIGmB#j2QwNMVIo-@icQZ5vhFe$nmRAY7UipSR5q6PJ<LyN7IuH}
zdqLKaO>f6-Jvj~1L)p->j^~6KJ~mOkqDT|o`~@t_G6j59&AE_>jzxYg^QID~#Cza#
zyO@$RY?2Ggw*Xg6(zB2|X%ui(h!YKAkoC2WRh764xJnCkR`<7<8DfD?Yuz37?PA?Y
zlVB~ShHWLP@@1VN<a@(Ufb&@je4R*xuNQUT8$=cOMiOr#zM1$I;#);Eq}l}JDB{A6
zC93j;9QLmp9pq^cHQ+O%7W_uh1inMm|AhWAoivN)dMhCsOLGJJ%XRwEe}m(3{$ZEU
zQJId(^aWX`$WFc);$=E0(-X4kT;O7$$VR$z%Kk8%E3&+7nTo{E1tUeq(w_^=a(p}?
zYo`Js_KK{*qlE9l%Am+aBKeD~7Ug>(n%|CTwvDF<zXMZn>U}0z&vS|MLEP=+!{ds|
z8su6YR3J*}sX9KLkQ=6^g^MMjJH<t#Jg&2BC2|2a|Gwzn$(YZ=cVn@w=xsv}dspcT
z@53N=KsFUyW&>A1rpyQdr324mnhwISzY-P*5Ghgg6k*{GPESX!R-XZI;&MTrKMvV(
z#ED+mDsxn!g=%y!w=cD)`1Jl;hi)EP;ct#+nZ0u-@(r$K^O8ArB=u^h!JGD{pOG4N
z&As^0HIO$sulFzXr@FGHwzO`g=dSCQZGY4D$(etC`yb!_O08<r&7J<rK-rj_wM(*g
zeMvDk-Df6eK@H!}O}2s-zF+7lXG=kkl!0n+7K})lsK$<h87T|Z)Kah_Wuq8Z!H!e|
zWp@-9q#7w(W5I!xlXA2bTtI!*1Z8u~&UI#I!42U;Gu6;?{o2B{)Wv)Du7U?Mw@?jD
zg;u26kZMP&gKF+6bRy-YJlhLhK+X9JJ(Q*K`r(DcDPPvSHKW;DlxO4!1{DIu)rG)h
zh))O;)p7-;0g*;`;QRs=0)mPQm(Qb83`(WaUZ7EK;ZalLk}8O=a}vV&hKdGpBIwgB
zb-P$UoL@BGUSGO|kxy!zs1{X|Dm+;eohPV2K{;7RF4Zlm64k|$s;88!BfFAX0d)}K
zL~UsfL@H1oli(_)hf!0hajaT!mZHKaBWj$ey`w45hfZiMCD$LDNSEcmUZfK(qCVVK
zDpC1{J1caFx?LoadZDWn7v55$Dqj(#GR`xry`wA3cSF?}Pz=<#Fv_JGCmLA&9Yd+N
zFkj_!h&2i*F^H?^HkUxGz?e~t)VT2Ong|F&&b}vOORJMK#`dwMO<L)NvU{E^`)yhg
zsqZz5nmH9~j)6|bTJU^Mnjq$v*Nox4PqtB71J**c!*0<S-v4AS*1}p!^A<kvWIC)(
zIUPp&4^Yd~+d2y3dE)80MAZdoiGNvCJw4wn>~B_0cA&D4p4v8?tDB5aG?zx0G(w)b
zqZG}vAgwlx^_5NQQ&sAV9mbsjEAUNsh7s0KP1eu?rR(*nYGttBU>%@-0P;*!{Q%?=
zDQOg*DXo}j#C;^1?pSXZrDf7894e<;%iL=H7Q4$@v%AVNNWjCEIFPlr(yZ_taQ)#@
zO6B|RTlM4X%g{->vhu=Msh0XRlt*X#7NfJ(jIJ!tu2T5VXFvVBfB9~FhW8$S`HYv1
za|v%OE_lxeFLB-&Ku!1*5u_JzwAcUguy-OJ1?7XlQ17`Jfy7l~Q*S8YJ;#M&Q(got
zecm?-2-qEuMXr|1gL0Dq80)<pibNnY$?1)7mpDE+g(ZdaocARHV7(VOKE_4*ysw{!
zdZWRsUY48UgDmF-?GB-RFgC%FzA63UcAw{hm#%sdWB?>%6MZsMgdgW3@reroqP*eR
z{gH~OZ;B#^i~f<8-v=N5AbO}M5yeb4#Ac$PcnS&sN3?9^xr;L)=zah@L3B8|p&H%*
zB)i0;nC0EzeWc;>h^VT~G{whfrj=fx?DloZI>l}RFe%8#VDy1F3`zDVN*>7>fUyRq
zgS-$z@GmzLcvUY&4|av1An=NYIf_jaJrz$3Mc2fwC2P6pv~X2c1ALSju)u&y0{|1C
zBt+~Tl<C)H(?lGM4O27mnFNpQDK}Q@w>*c1WK}FC8($9c!6+wiysTzJyfPyyAugNZ
zd}t~_urmKD)?k2T<e~_GHJ3tQ@L`}9E+}A|93O#2<9Jk~2#%HYU`ina!8zhl74q5n
z7m$7tJlTwsp-e!mI&gtMg?Y%BaT#U(#UgmH740F#FyD^(UdJrD1gS{YEBq0YttHb5
zF*XsMJb|{6YE>I(McZzh#>wCjunq@^niv4CECK<38j9iI6E@J(=BTf9l-8WnxFwCd
zpi&$6ex=rGbp;#cXwEebNR0z?C-aT&T;m?8anIbz`^}wcZKn6&-J{v&F@V;e>m7N!
z^SZbo=ImXPy(@iT^-yNp=(>G0V;IfYM;|;j(b{<ZorQODR<C6B&iSDu?merzY}0|c
zW8eP{sO%Qz`k{qGix)rC-ZI`auJ+tBKQnjqz72YC%W~7Q63N;Q%^m;D?9MlOmVHaU
zTw{;a*pqGCKCgf1YR<WKO0J!GM@!zy<n1l^pK1KctRry1Mmasp!%M?C$2Q5aEgf4s
zmT_#$I!-{trwRtj(Dc3|b>^onlD<37H079XiRsQUJrdKCp2_tdka`bfnc)Rp-q`wn
zBEA2ovy#zA^7TqgZ;sg^F*{cF=XM^Fb{@(yBlEhvg~?d9JaBK%xc4kIW`>S`LQ6v@
z=1yQso{ZiLmWu163!_<cTbf=scY)QTscre~rMJ^edMxYe$+?Cl*YMrewP4ou!h%0<
zbzBcD1hUqSG_!8qlD>57+Rba(-r>6^*L#oW9UbYWTb(yMvt5IdV{kRN?l_RK9LP8h
z<Xx@Hfu#V{H}8jr%Psh`uATFKNX@x+ORn837w*0x^&MGzCF?rAup#5gtZUDLA5c+4
z8`kyK(px##cFDCp>)HY38@tnEF#GfRJmbzWK8f+I^sWwMnf>#+2aNkK>C{N-B>e0W
zvwdFo(CN#Y8d9w*Z?BC5LUZZnUV_DkF<P@uKbUnq9UnB`XwG?dN}io7FMZ<5cy?wz
z-<dmhPt){JZ=0W4oV=%RPj9=m<K~XcmSJST*@fAhy;HJxrcb61uiFPQhJlQI;J$qe
zpvZ$a4`%Is^P2mv7Nys{lB;(`bN5)r)thxaKd=2$Q$bI4Ka<h7E9S;(5M_joLO|3#
zp#CpG6dbb#XsgC0HG;VmRRgZjm{SKt)icl}byXlo$Er(e!#99AnyO>I9?a3*(UxJ3
zp4A<t7U{EK%1Iik`!ALOL((_}sx+903;+xapqLrZ^eL*7mLw|MYEgp}z(*&jglIsl
zaiDlvMDwJgsx}eGw^=^3Xes6+Dy@J*mN>C&8aqmzeGB?(70QYTD0fyom8t-ljQ}!R
z*sGMT_QT!PA%!l1fuv19qY821o)T60iZ*~`Fc#K$$5aMncF`2ZL#D=w_LAB~Q}2yy
zs48e$2Uv-wqtx|=3Dp!ep*jop^<;zCP!9&Nno_Mxs`p$P$enC}xZ*AV6JrJ7)&XT<
zJlAR*sLtj)RUk$v0~j!98^G*VG!W3hCD@{<1(0Qhb=R^sqGmI!9XLpJ7S2L2gc{fe
zG<FJQFtq_z9w?<J8#nM;V`&6+RedTvT+?X?mgXVps8Zx9v0M{P#r)73^OW8UmD2wZ
zz4^WNkaq4@*Bs$8Y^aR7#GwEVL9yhwijFWUXEhGss11NdamB)ASWw9Zyj$7Vj#v)r
zd3tLISfgK;3*aG01Oi*%gxyX;PcK8jtEK{Bo}OD&A^c1_A=f6O7M-P0CmoQh?#M+a
z0kPHNfAc9dnkzNNj(|LIz{(t{%w&mTK^|7-99q}18nQ23kiT9(T-7TeI@m@4t>zMF
z4L?mfIX01pAhSRo9xL@obQI+wNGg%J<0wPkrcESOQ)w@Or0V?xNh*hc)@0&DN2z_-
z%immnIX1{I$42?3NF!*WBE?kiy{VyCC!8aHj}l8jJfQRg<XuS)CFu7WHb|&)%D0eE
zZruButX&tbo#<9pEZJOtg@lvkJ~o%;s`Q05>;40+nfqI;j(fxExHqnj=&r2Gd!J~)
zoG_uH$(eS!E(I4qJWhoI(%_h+$Q2O(5>P&sY`Q$Kw{+KIygXPU)ez02IhaR~&YuR)
z&%cah8D_%;yZ{lh>hhp$EtV@@3Nagkh|c@?*B~#nXTbKzjiVk~L&Dd?pTUaXz{<>s
z`{8Dm<AsE5J|ALPE~X&GP6An@92*M4Lj`gvumPa+-^EIJ^y;8*ejF3tMh~T-tmT6-
zcsB74Mw~_OkI+NW!w0~Vb#R}<#aLNA5fo(OOe}G6hU4G@>U)?Yh&l9$BI-YfQ4{E~
zBp#j-5D?8_)FgUSBp!N;Z!9W!n?H|<1ZI1xU^dP1Xy4`g(W^n$ni#--VrP)e0vAgF
z=#7LDLgg|`rbGM%EEoY#rmrYy8>|4A1EeS_hkO*h7<zH^P!W^O%A}JONuVsQ0p69M
z0>Ql{2p)}Z0>gg<mHYyJi7c28H;3UyTh8E-3?97Nwr(JIONQNZW3`AJ(4)<fv$jjt
z_MCOAWZgRFzu(lqs=G^Pn+_tdzHe@*1FHdUGrIsIG0iDgT9akA0c>q*o;T;s4U0z?
zp3S!d+PrZlJ+|my@IQb6z389!e-7B&;aMJ88cC0(FRfh4bPugNhBB6+jAQ7*W(g0O
zrp1eY(L6tPzo~acw{r0#<LXGZ>ACsipE)}7EnOe@ZuoL7eNszbwq?(v{$aZ}*S=S3
z-<xmUvf^BwTzez)#+!f{J8bi(VW`&ToTWpubfo_HQ%hfgp&DDha^el5XUX&N$!zO$
zAD>*gm>T=w<c*Un^v_POo|IajTkFa)N9T3-nWp9DrDg@(r~P-gWti?P^BjOvgMCrE
zD5T!_wP9;vKg>#DglhKHK=+3Y?em(v*}m8>nY%uGZN>HTamn1DcekeEl6&|33-?`Z
zsWa&pvaa1Z*B;5WXVsM(7?TD7&Oblzzi)9Y9!m{>YS{|5iHx&Xvi9EDyE1e8pk&<-
zRb)B_B=^AYSI0fe)(2m^OaS*S?HTjdyxoO&kXgGoJ+^M&2GiH#{h;+mYx<QHdSxK%
z*`4!@N}ka*-6wR`b7DycP=2{{sWZ!LNx!nr^sEg1)#yi~*_|V6^qT)~P3t>P<eNPy
z{|!@m@>cw2Jlk_Xav!)mu<jnoG>l~2BY98f2c0)Mvz{F*LCMp<sDpk~H8_;@3@+**
zQ_eFWc?MQ{?)s&{=hw!v9{*CEtV?(y>-1u!@InMTyb{cM_CO85MzqwlWBz!>h%vQ#
zG3$C}-v7YWnmUqpr+d=w)G5j3%enSRu6<e8(7eCGhHV4+#^w~W<V*Wkht|TtT<x~`
zm#Ud7`Ke`h!HCRd`F)vd-|8F0_VcxDhWxT}>DPv#!bO^5Iv!sEe>-eMd(+}fioIv=
z&Rd+tK-S)!v-e2$iWSN}Jg*_^56vi>D&NwPx_F~^{^SFTTiF`-ItNz|WjjYdwLAxA
z4j2Pia9r1~E?oT>j4Fpe-nsHhs_TQDH+H6jKkHisi_76PI%|I(d*Hl&W#LNEuD5lS
z%h<cJ_7O-ZZjjeMHEj8!6?*&IFHfqdwlVs*U(V9Xw})yOO#u9-{;sw8wN}$V?P-3^
zYg#uozqZXJn}}JL2<Hvg)u>J3?{OPld^`hzTKDyjx)P-eU_3Z#99wn40k#E8eVa=R
zE}oNk1!=A+4#C^SD3We{GQFyQwkK0d`W0NI(|n7ls%P<eTC1<YRTRGPn>}K}^X64z
z@h0~dia|Ny72;mBiR0ZvG$?qtqe+}&y~Kp>Et<L$K2n;fFFu2E-+(6?e*`>P6JtZs
zsxu!?XnZ>bHh7<!e-HDab}L&*R6sdp6S#2DBXagBS_7&MdtfCKSAl?s9Tv*clry(V
z=GOOTa-D-x=is_|FryjFm<RJ_7ur8l!F6+IM$?%wcYfZrd$DD??a$g)55mh2rd2V%
zW|{3^G=--c9m}IjqaTv@Az4TN+^NrY49$<=3yGY0t7P7qHTPsRFWfx^-jfDBG_nyk
z`!V?BjTS`Ix_1y7s*-A8f}$CuItRXM09L{q)dk1_FtyeJXr{q*gzbQ<_b#i%NMWOr
zr`oT)#bC*;BdeYTR!nL|Z9V3IzEq4gIxw*4Fn72fbCy{$+)&+~LYJ9S53dgDl!lSw
zj;?W~QqU^QL(&kN-*iS`*8V^<qW=FhBNZc^sAsh$Fj(&`Nf>uwjVtj9nBmHAN9x^t
zi$(#jgNO@vl&H#=RSA{V_g3Odl&FFCAVq#9??do)N0GAuXm*$LY3ucz+=SD2jAgTc
zxnlH$w*Vjp(1AhMP`9)RO}QZ0Os5t2gnKTu2BpY-rJrE23eZxZl7j#h1<Mc_r4F7;
z$m(eD3c(W!;wXzXMapdkXR6Ro`L++9#chRd5P(p@4@!H85@fq_RS3^tiw|na!B)K4
zGZn92d2Uj+Dnhu3`3UkLz+#i9a!sX6L3~<WyaR<ty?hE99YcY-03JN0g*%vcmfm^y
z^c*PScqepr;q09Mfu31>bzSd9)va}@HT6dN)s>bkvoFUCOU!VVIhbP(OU&WBe3p5B
zZ9rm<eWI3_lc4Ljcyld-Qp@1#!Mhi;Eo1Zcd{bNMn$*;na}7$a!N1<0+v}J1!e!C%
zc~joixqNo%Y<lR{$juSB6<QsYT+c6<;GU=0<|`{Ec(a#d4oD2#ls%JUo|Twq@1Dyt
zV{2U!b95~sF(<0q9J)J@ZF%;aw>fWm=-ieLuWrjahjY$@lJj8Bc}#L1%Q}z4EmGwU
z(0d<l8sA=cJH>ps?UwJRZ`FU#dI+>({9m~gY@l2_;9BbX_J!@KA$UeuzM3*ruBINq
zQ8ltKlImCig?cEX86pRakAB_P!6UQD4ft5TFEBBafIk5U;3G_PRY1A6Hj_Nc1v`&>
zPCiItHa@ZMQ=ZuORX=0sBd_ZFiX1`$yap=Zai<cftiWeH<YXJEwDi{o3FXfLl>Sxy
z*@5yT)DR%}HxN*44GdPd1uN0LPBb-Q8i1$J@pyzh*(5+;*1Z&GXCfTAQRaVyWylUg
zP9=|3$>b<_*f0X4gS?0NpF=7Ngv5*B7t}OOKQ>Xc_1~zD-%#EErP9%=|D@2fQS`3g
zP`=NN&c(N~#*R7NmpYmr`qE&gn+m(A_I+P4z4SJKr??&kHP8>>zWCI_se%@0&=MTY
z%e$6#74#T_N1ZObq%IgSWTLDM1v63>q^wBUD5z=I!mgB4GPM`%7}bEUKCzKPBc(I{
z@SS(xdF;T@8#FaI^o9DnG<}4|_J<dSQGF>CV|MfvsRvr)V=c*503$ILxkl678%mG}
wEPw>bk3_+*q4o`bp|;U4()jGvvScYJfn9qP;(^vg`lH1xkGFKt2gp?a4?9sNMgRZ+

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/marlin_utils_test.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/marlin_utils_test.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8e1d8ee92e43c6e56346d8f93be719f5ce27d870
GIT binary patch
literal 7010
zcmbtZe{2)koqyw*@sAnXW9K&sA%=997z(*%8z2Ezg}`<Rl!b*X;A3~rc*enwe=#$G
zB#cjPMb)IGN1~oCrd+kAI%!Q=U9(c9%StD0b${*YPC6TJo7|K?ICW2_{1+N@)!qGZ
z_kC|Xwh1g->7L~G-n{pHzrUZ)`+lGQ$>ZS=gaq@$*x6=;euqD-;I3xY{}VC`NJ1eb
zQIah|g={3HLo}pxf=RL=mO>IEu?c(95ppD*A!pJRa*;B7f=lutKIsm*lb(<#=?!@)
zWJBLVlH(?loDXc~C?P?1L@CL2lM4AH?j{QPC0=fd+9dZ)Ce-XgQj6q~>3E+txq2#j
zWmXd8CdntaO8zgAu}wP=igHrZO*Yi_RXs)RQZtO&K4lBGPWO*$u|!Op3PdMT5iOQZ
zseuVqmIBeV63}E-Qv>0Y6u2y>B3F`OWn5jwGdmTe4DM_soCquDrZVy>1!Y0n@O|s_
zxijLo55IHr_$l$+@sr1lR%nxmrNoS^BquakRH2Qm8co&WX<12&nRG0rsX@jN#$-**
zgd^i(G#t^=iqSfj(XNVDC&DQ$HZ6<S<=EI2O*MSamAKWkqFMEk`raXgXNJRi6GRJ0
zMj;9g8V(qafQAjA4dL5lis#d?I2c@xFr<MQv5?U4TQ5SifOJZ?P1_OZ$vB*p+CG9L
zTihDLY(ZiyXPx|mYWa65(i-$Zr>CLcETiF`Nr*R&SuN8Ut*Sc+#bL~iL83om9#nhK
zkyz_t3I*9y3T`?*ke<-Qs2tWN6j==%3f#yBVrn3kl493lYV2}C4qToJB;k0pD~cSJ
z#1xS+n8<__zHc*FNrS^R?2>#f7LkLjVF#s1hBbqQ!--rmSbTh{LBsJG4mF~Lwa68a
zVpKU1HQbG38}7zY;43@{2d#t?2|0n4VN$$qZNI3(QLA|0133J5v|meR`ZKZ2E-kEp
zg6x`{*f+R;e4pH(h+Xc_Oleorss3w;M6y4bmgIyePs))Am|uS)JS8h?e^pn)Shf2n
zK-bm&s`8N!5$pKw%#`62#aJq)iQ;s}28Gyd)wIB*)DT2Dv?6rn6J=pXG5k>IUqg(G
zTX7FByGP3Ikrm(Od}5updA#d1l$W61je2$#6Xh*KONny#NXgmxMf>K38}m0xy#s$g
z`su|_E`E0H^Y(XVm>;><p?5$RgQt@UCuLDII8lU^O(byMEn+kz%o=42$lgav4<t%A
zjyzTbREJb2L^sj8&BdOlOd(t!!CPwutX4$5Z-EkndZV~i(~x4djoOI9+eQ#kW2ONF
z9t;AVx{D-QXYQh(G7SoE)1Q~Ly-*UxYhb7k4I?wt7%+^Edm_0g^Pmd2ES_)UYN`#T
zXC+?NFYXn3h}xd%^93y=R;S}Yu^WT6)_M;TTqNJK>2%b#34~v`su%8Z;|$KCpuGxV
z7lwm44#1pteLVo`D?|1^L-4(dL9Srnui`1M{x1Yj9ag;(2G}|P^Jb<>z6P6`NXiL7
zD1BADZrIJ9t7*z$u$aN%A?olWdS$d#5o57<m57x+FlqpP>c2q*py0i?2WJQKZH2Z{
zN8dxfuf+6~_`Vh1KX-KYQ2y{kzPrR6DQqh4E%q%2myRy&E%h9!Fh@#!_a7s(W=Al<
z&e@%F*9tB3e_qgv?=EWh-(NacYCBTlhI7L!oQG5=DqL^<%M`x0$lS}8+6F4z-rVrx
zs-Tkp#s@=phVC9Lwe?lF;Lo=f&lR_qxjoC=P?;NAdi~SEPX;U8F=)Vhb0Y*p&%g&O
z1m5}ePB@7Lq*WCY6qei+I`g2)%2`zBdY!HvH46${m4IGqA!~>7mnd7@RTHgcEJcj-
zwW3-^vn(AH_tpw)nc8fShWUYnxX;SfQ<xLJLpKD8!fO5{bp!%Bi-8-py?hoQ(bj#L
zb!e^DAUbQ!?kIY%9qvr0?$7~X1Y%AJ>FoEaK+|d6iJ?3V=P?aLops#W#2^jYm?7R_
z<?5;K_=?@?tjk(CYd%&Q$HcoK=yt0%>(CtlX2t|FfohOa{2(6`2znGu(hA;JgN|e-
z2t?sBvWHc2_1aPy!#)A`>+5?IyeUc$OR`EhH6|<gIx@JZl1_>MY-q(2LBpn{gDzzk
z7T=Adek|t%5%F?NQ<Xo#pM0a4#iy0nm}uVehVv>h!DPvxVk%ZNat-6i<N|M%3oH&e
z0wQ<>bs3@@`hp7-nhVilbWy5s2Xezt?WlQMp|8@kGk0R8sdZt;{EplSjKA%(+kY6m
z-9Ou3;kuT&ZDnrT-|YEt@E+i8S8n(V!GC*lb~4}m!KOQ#3a{PSTu?upx;M4xzo#$W
zC~rSf>KOj#J^wQJkAt5Jqq(;pd79=9{KnHWL#;S{bHhKO@~`FJ$dBjWD0KwOEjx-=
zmi+e<<(8qcb7<DNMk8+kX60*L7JAA;Pr>=2a8LN9?eCl)J1c>~iZHY+94ZTkmc}c>
zNbar2d~@z?^Y%Oh3yjnt4j<UHAn;!#@E=22s!jnCWhnuu?mQ@@4eDv#CfP6?vW!GS
z`6<Y;65MW33U@J9;0<5wGz?NN13CD9R<5CpNJkmy8H@s;5&A{<k7U>FxCglVaNiC9
zC<YGXtr=73)>a1HIt>7-tyikuk<j~g=-r`HFS>noSl4Z51Xdfdy$3r4kabD`TWgGY
z+buT(by;V_Xh9h5$1qxr^x_y78-iZj(X0zdfLJ6-$IIJ{A<6Z#dOI$)4_Z2~E%QgT
z<eq8Ssnw`e;^Q@{tWQ#}?Vq(Wu$5eKp)O(NB)5h+fCQbhq@S}PxT+0-t+@@sqWi3?
zPL}bu4MOm#yR6<}&s=9=-zl>9*HO@OYBc~7tM~#6+K53x2ugVs3QVg4-vX=nBv!E>
z6?B?Hr2ZH##pa{g1{4CVf)=4we1ys?5KZ@3loLo!s2aGCfo}xBsoekdz*t%XUqpdZ
zKtZ=M2njG=CL^aL!!A#1kShCdAsbed@RZ>?HW`sK*nn5?Rwz4g9i5O<m<g}R3BrWR
z5R?Xa1*6n(VM|3!#8gc=jK5j@{TfhgI$^Mv6Y0pfK`ZI&1{F7`jLC=`kf*F9Wav=E
z2VJ8*i};9lYO)@2XO$30VfIr+*c`Bay1H}6F%|9ki;KWSUEMS6idUF>Z8kbX|F*Sj
z=GbGOf9_1)KR-Ipuhg^o@Vrp_%%7RR_}ph<YuVSk?qWN<b2PXT{<a18ygUC+q4&;(
zB7NumVtDbD`>}HOzF+(HKk<MRFkIW_r#{rwK6mx6I%W>9xLcRqo6GLa9}iTz2R|Mt
zhV$V<Z;`sU{qFeUK)HMH*Y2SwG-~QxYe(Mpr<;-6dwc)v{<-57eoOA?V+X9^yV*yr
z?F$#?FFf3`x6-<AmRoVbT7J-7E&WNN(z<h&`@-8^>KI(^_-47|o4@L)bc|HICrZu}
zk9pzt!P$fProTR0=)5bII(Aj~-9Nv&xTBaY^M{uC;W9s5;g98xKH`1Ld{>$8${(%p
zTXRQOcp-P<zkc6^whXCQ)&9XL9BXzP)OCX+UY$tpNN!9?Ph^POXt?0rKujx=tQaor
z*pY*JvB_q@p?#Uha|tsv3;apNA-6FA^TGQ8;Sih7W^Le`u;ZPe2gEzlFbYVh8iC*y
zJ*bvlf;8*Qy0ToB&$?gET#`-0YbGI%Z<-AOOs<+)SFZvy3g1W&vL2mQd|HitbeGOs
zCe|g8fm!fbPXiA*YE0qPYK#M|Sltdrm)BZDR;V+M&XHPM&CK=bPF>J_I<I?l_n1BF
zuNz<*wi8Lv{nkiU3O7nG%&1BC>rKRK>at|(>5JEE^?+L*1mRn+Fi7{CCKsj`ld&+5
z1-+*6WI9yD62jJvX+^PeGNVl?m_Ug!reFpj09P==6+(2Fr<Bt;!XpKnl|RM#OE`KD
zNAKfE#8J)cGTDf|E-G@ASY!sJ8tj-DlO_!pSaA|jP{Vw_!tXK>cpT#!NXFo*<`(wY
zoYlN)IKj88)0>KqtAVeqtZA?bRu9!@G$jGje+EC5CcL%gMQ!a1=jYFV=Tz>^nKxI2
zP0K=WS?JBZ1rC?9Y3`kej`kJcFK&fz&9^<|drC}CiSGduYWu+zr)y?tZn`j7jKPb?
zc6*uW%^jP0eU6$N$OoUgQOl-<1M>&+S3hEZ;kxfy+WKkVCw-qc59dz)tHbxGw||jd
z9If;oC_4i)^vvko$wp)Gk-w)v7v2RQ@50iJivL7z<dN{T!kMCd(Z0l0gkds0e;W+G
zzc{*h@>ju<aFUpUfBE{{<c|;i#<LYjxNS@R>iqaZYCcss^WlYi7b<PLXPk5XAMn@;
z+y?7&w^XgWNEJ4)F9_i~41cfx?N^ZmoyEqRMFun>1G-KI;FXx~g^kZAxQq}?gHK5O
zMe?Fo^#?COnzd&gm@XP9g?iCTpap^~r`0?|fGiLX5Lk^w@WRXhCP$T!vV7gB0qEiu
zbuhc@{ve@&FX^oYeh&}@ue){67?btZiKl^Lyw*&uv<iGd_v!)xevNpnxf0(Jdpa9}
z)dOx>1HKo44{x6};GctMYQFJ}nI{~eU^+F?9mcsj#EJ3pEY1lZ1brL9UW2&7VKax^
zL8=nL-4V}Af}CNS&L~%KQ4B|MT;!^v5o*S9;bDkW%ug0*t<(f>bNKpIaU*~g5dS`I
z_dgJU;nCVwhwn=<ixs|UZlug_DQtbn_m-I665qSxZ_f{v{jcOk0DhZ-MSpQ*i7TBx
z_j$)?nQ5)Ud5;Or9n0JHmbdM#H0{fsr~@>#JaD``aQw3a7619?Vfx6ot+1ysy|{O2
zX!*d~<pXb5e5Z5AVJcPdUMvaw{vW^%Qm29)hC>vkbVL-D0oW2^JetJr!!N_T@xKmX
zg_sKp#x;I`CVxwiCtwAG!K8S6{swOv7iOIk*O7~YC=Iz6u<dVp??iLRt$~d}!+uUq
z!9NiOb2*((5S~@=St-3Zsy)*h&V%NI?i<P!Q~<>wbrGU9nxd#Dc0}#{9cub5a{oKp
z{vT+xj7I-pV=3D@g6I!Ejyg|0K{#IPL<dh&>&Q(Bzu)4cTGn3eqI~(tI)Y^FO$xob
z;|c#Ys%6FD{=WVleT|0vV_)YQ3n||GmNf^?Igzhr&4qIuxWu>hSv@b6g>CD&>Dno(
blWNHid~op2!8HWg#Slq8JNp!Wkrn+PS}hcj

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/marlin_utils_test_24.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/marlin_utils_test_24.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f05872fd9f33a502dba6b870c3b17808e81c11ad
GIT binary patch
literal 19041
zcmeHvdu$s=nrAoPWb+|X5+zX&Q??$aY)h8>kS*Jp$ZuP=e0Cm_IJP;onzBVvq|~JR
zpqmMu$zY@;7*mtrL|rl$dNx4lv3H~F1FK*Uh_jf(1~}l*Z8}R`j~6FkvcUO2C-y%x
z|J;3FHJhYl%E`{%-r|5OTh-N7Up>3(tMB{OSNty)i-`gk)VwqDlYJERdwfwGNr9Kg
zPr#d{Sn4#z(yS^-pQg!Eby`K9>eFg?s)L#_?P)Ddu^Ltz)Q#y+>q%G_G>jQf8zHQJ
zi#ly$4d64Z5qvXi0^h<i;9J>x*8CQI+QwS^+F=!IeM@t?g0(@4ovrXYAjS?cm8`?B
z4y;!iSbVaTeg|6xf7S5kEKf6RVr!s`YPPm~I$P)0V*X(r>jFCGRh6e9*7Z_!Bsdbi
z>K>j94Mj)7p@@4j;%D8%Va^@(N1_q8FT}df`$Iz)$9&vq<RP|c&_he67lwR6ANS(b
zasNXa;vmWj6v2^@_p*QF!o_F=VyZ8UM<=`!lfF=NB<5EVhBU>FQCbMA;qP%&g&!e`
zWf2#E_mz&Nd5TxxQQgKI;8^(gGZjk>tLoq_fMu<4teU59=SzxfzPEI`wDfZ2@f52r
zl&57iaUHJ;=vGt;udH?yJ|m}Mbs?J7$Mw91*TtY6;6p2Um_jkg1wOpRfF5EDB*utT
zatyD}$H<fr&yw8vR2@k*AU$hT%86?VWz*OKUYoB;jc+j+-GK4w)<z3a0cBAXVkqi%
z{+q-Ng|bO$g|bOa|C?nSVT264F$VR=EEEO(&=%fn;2ruAH$j{U`x|FS2*xFD<{6$M
zV``E|7ATZ4HRDJHptO~aH7R|1f$}he92802q9q;czce!B=Wu>Ld>%bac<4s20zCtI
zB=vuS^XMgQG|UZMlypAM7rNk=bew<O?~6)?k*I$x0#ja6MZ=P2Boy5tX)cZUFMBK!
zJtmpP{867bG!za-@?ka#>xjcIBN^C8)XRl0N8}J8(qG`hljGhiQa*51GDO4U94<4-
zbUqx7hR1^bVF*J_elF<uUGhr?%;_ET1(eW8D1t-bE_Ht#>57hxca4vXZ;JZ33;yV)
zE0euDcZ~M>yMiO<yT-3ZFNQ;1mx95uuCXxd4|@Gq{6mw_>8_yfs-KH=<=3_kSx46-
z@RCSZo(qr{FY*v?&(_ZIt5Sy-IL6Rq&=>W4$pCQvFvt42k<bNiWXKnVmV3j)!x4Wp
z!nHy}8{seV4$Qp-^}tqjgP-P8{i%tJ^S*8KU)tyQ&)0~yojKd{qV4&+_Pa;3wiAiN
zMY`C0+x?Q{{;cg_;_xFKWwR#^Emk$<s@lb>_DuJ^s*Tg<=hr3<L6Xs)JR}<GQx`--
z>mpN`^iA(hb&IBkZ`HK1aVa0sFPa*^)vAn5kik-&yeyiV(#;~XE<=kZPiC)Z>ikx(
zHg-KS6jHlIriG+_Yt$G!9;qp<<xvIYaHaZZ8q#*rzBYYjzWF9UKOwg75G$ZZdqmrw
z|K$H7@OdC>JCZoOSXrO)&FoHhi<K>z+WG!l4GVVB(<eH1<?KHa?LYdh_8&}NnzHtR
z#L-2KIcZ4si50D)rWJB7e|==49F;(1s{s-lrbDPhw6#FUT$P-dJ_hmT){J4kPh7u8
zH1D}<5Y2~k%%I2&e#K>(Q-bEyWB4Z2P=QCoiyr<6|JK0louzmxP@0P5;BLzg*j`6_
zfh#sf^ZXk)m+IL$J^+6EE48v(-vs_2DBV5s<(@&FK*zDHGQ2phj^e^4t{i^@UPA@U
z3Pthx>|BJu+e>Jy#hgkgt_elIw`}ArD_lvbjulDpT9R7z%+xY18rEE*xYAZTpDqDf
zU03pjRv8`mGTLQdMiZ!gx-5CeV)cY;YhlMQT%tLqq;zA+x7C#NtW4X<h}ZBmYa%-z
zL*`OjNm*u|hE`dYwTfn~CDgX3sBO!rRji(u_hj62<r=C=@>K9DsKKsKeL($6Q_}wL
zn?+^57U@F|NC-NZC-r5<&%vt{$w85NK$_6YZ3`feT;W)U(xNl4QsRcVF>Z=8p{*?a
zFRH`Ln}0|hS7@^K3~>{A8ewOK_U6YBSEYsQ;=mK)R^DKvV28)BO%B_LL=vyyZE-ta
z5qI!bz9I%3g=f%@SMoOA2s9Y3;_bX6ux3SP;k9JWxSvi{#)7Sk0nZ^NRr8g6)&G%_
zoZq{)SNr1OH}rvZPq&tJ@YMm_`&PK(H!aAXHT-HNIDcRXwb6nk7-(BjA-wW6d@ZOY
zjyqLKo#o~yPxGK8;p$eX;&q|kH_U%p@0OSJL+j(Kc_-vlzORdSmCFfZYvHxSg}tQQ
z4B!i^IbILEN>4b>9==}DGl;gq469MwSP@$(#{#Fzw_`;*oln=Tl3txpcPi=ehR}6r
zgO0R;Us2lsr8canRiAI8NonJX^qPEn?JDVY`E=JR>Gk>a1|>b-@J2(xQ)X_`yalEF
zVOm+=@y6%|g%0MV1+)qE?YyKAZ{iyRo0QbzlV$iOzM=eFQOZ?#E=}=uP)ZpNjkPIr
ze^>?jMB^aGKqWEHfh*(wp(rTRJ)78(F@GomGO{n|W+CJU<vJ7za~s_k!cq4hE0+<-
zNq@8-30?99M_4!Oi~3MMaK|d#;o*G#F<+D$xx(Q#$=Sg3sK|pv#I`G0Lz83Y{T$}<
z2mR0l(C0zVaHIIG#JCGmIm@AbK$M}_n!!R&)J0a->yFjB$0j3DKnC3G$fc3U$oZh(
zeg3Mudpn1c)N09FdSYvfC4+`CIR=QsicYy>&hmwGC@K-{43srBjOjyIYt%!m@FC0w
z>LIe*hbRF)L{a1+%BBw+!1L5_I6EZssYyU0#{363F3d^V$VFdX>*DN?%%LnKX^Ac-
zX+f3R(j#du`hvrf;rwtg?2C49m$W26QlYC@9|zhgCFv$Z=SM;;S51n5yxX@*x(mMO
zML#DQCqt2mNxvV|L2V@J8yc02A^&Bse{4K@m1sJWLD7FaYoLCd9~^c-qDP5N$hq*v
z3Az@0ek2<4LZf933O}l(AB~LrxQJiUlbqhIl4@)-{B^@$5BzOW5_&k~Tawm)Wt`hA
zKf2`y^b-o+O#E)*%Q0J^qwJLk5aXj;(#th%Rs!9UE?>8fXmrqLS+$ik_yj}<72Uj^
z=Vv7|dCx0(5!}p6mC-U`t_54{kt^{={9_~DNR*o#icWHV);r9F$Gmc<K`9OTA`$K!
z&_4%%k^c&dKS3?(%|E|-{pwGzC4KkwH4m(=MQiVZ_6y_Z#=m3c<HG(Q3+7iIt5r7B
zBT8j7f!1cW-`F+1>-zpge_~?M;<#~U`b^^BH+JW&YsLk-6BKvt`nC7{vw@kwJ-z!u
zwQKgZnb)RGi$?2>`sw-)t3PthxjugBlXExE{q;+K``Tx({kHWVHhj53s2voIg9Yku
ztS+IkGc)<=wOiLRW5TWhq5fFbdR#CZUu<m8HEtFgH_vyAjawIJv2mxMaV_c_(=Utq
z4bXm}{)MddMZxgmlHUIQOISHHW05gWanswAC*R)nz|pkm=$>z$uN1Z(6Dp2F=PIqx
zIg1rLXZZnSI?7<2>K7{7M01;{M;%$ekqq4CdHcLt*mC5nW?_&OkFvrMzhE9-HhKn2
zet1S_M(^pH7af&T`b9_0Y{yJT>QvgEzHqZ4b2;nig;-Z}`sCckTwSMF*O}q6bv@J8
zDb>{8q-tjG(lfHvuTA^rcIRAOqN{6Om33_q3|ppkm~+ONbR<tL+8xQuLUXTJ(<|C{
zB#u5hOj8zH(lLD~abVG6o7$ILJAGIQ_9WL$AAuL9BC%iblG~>Dq<TcAkwhi;CbvxQ
zf}pt~xqtT1%%Kktd^9jOkgZyu=@+XuiRMno{*1Jx!h}&qq;9rzrZeqGzx0Xsrg#2S
zwsl9=u@gsWm4pW{_v&W=l}KL}8oTCC-M8<^+4qR{Jqtd7J$zp}v-ZQ&x+Qz<Y|~6r
zT9rQV$%&gM=J#e>dKbFImfczVo}7KJXy1Fc`>yY+?k|V4_Ty8!C5t2JPfg4OL`!qx
z;G(7S#%t5BrPihbLdWw$U4PcHH)lB@S`OR|WGyEX2bW;}+3)GsE}0#_?Ea-MWl#1_
zpIEe2|I+s#?5Y0bh3Pi{1F@|Gpv2O;^mMdVWoZStq{3N3zZP%@KuRoa->NC2<&l{(
zxzpYEj4l5fRlv-Dx^AP!(gujg(+P|g63k^1EILTAmPxSbA%S$GmU6mg&&`}mpUk*!
zo)cQOWvjO*1|L-JS%fv!myD&i!*Z$8C62*xXe)D?dQnpkpcbEb@zYmty*kg`K6_uY
z3x*&$m<OonOkcKYyTJ4cnqCft^dUqf6^Hv9?tqVD|JK-xDy{}y2zTBU4zLyaUx)~O
zPmZS$A-Y_>yoPAj4JEp}me)XD9ki!RJ0V5?E3G2+0nS7R3Ybx`OL0Ijq6LJ!EM`<p
zErVbTs{s8d#UKp47HT#w!yvSQGKdgh9w6bc48c(lD=5>tl9rW0jmUVYSO(4`Xh0C?
zRdF;x3_xdB5qf*c_?dYFwAF$L$THN!2<H^gHu+=&PH5ElMsnAe<hJr^$PN1Za%$`k
z#8;G#eH4W#;s8r90@AN3Nb;sAiq^yh${<(JD->~7IM%LwSI_}XibP+I66;fB`8ZQj
z7Ybl29MVE>$%)Lc8e4g%QYjlwC3JwEtOx1v2G6inh<N~>l0U5?TBKuGy&Fn|R2o-r
zSsKs@^EAw=G@w`JX`HLlR267UtI~i*nJ=eiRhrrYP2H+A&H{~VRT|Lqu&yK>S_k7~
z!f{H{T;u;Asi$U1exzVz8de=mQ(?p#SEXqx(5zXN2DJD53~;YX(_ElgyDAN6`T26z
ztxD5UplMx|##NwcTa~6gPh&2(nv3hcWF<GOSjO<mI$#~E2oEE?3pf;TC0NhvmGumK
z7kFCvI@oH3W0XUb*lM<L{#-u4!kh4{GHxkpsr%`c608k*EotX4U49=}#)+)uX@0<7
zv5vO});-+@f}>GoF~$O)RmP2`LT8|qGCaAYeiUm~IAu(pQU9M_W|^GDnNn<d`F7(M
zkVjwn>VWuo@`z8zDu|D)zAl4&IN*6yZ2c-3P)%M&9&0L4k~A6paYw@lz=T8YSPj5J
zcy=uVO8I0=(B~64gwbL)#9B&9DB?%4rXnt*AU-98?%37>CgTSnB8YVt(WMe32RaMz
zR=x$Xb;VMb(*R&mAgTfkX?WPr0Y2qMo!$+wi95D?qZ^P48A0<64Z&G4oD^fVm|C{#
zlJ?3_5emxyjBSU945Vzt5W<4oX7C=Ou*P+whw$J-0;cugD*|B;QHXj7do#s#VF=}o
zhbVq<-55fV;2{CbwqU3UJp|%7l*~L;1aRWEV#GG|NI9e-1Zvuaac~w&$rw@}hFZ}>
z@Ir=^v@$@1t>7xble95E7mjdyF|6nOGJ3TG-aIz$6{I?Y9s)<)e)LF{*i7yKdI!N%
zOb_r26EuiBi%G9xk__GSNER7UQI6vGL0SYmwgR4!p_%qopqXfR1u!!XCHy@WbpZGm
z0yCDM$F9eI$|oo8>1zqTuw%jbh3j+I-!&{)g@dmO=F`id1+(ME?&;kMFjINs?DSbw
zOsjMHI#FMj)z_z>AU7#!`~2&<-Xmh~k!<gPu>F{D%qy6GQc@To9L}7+LDV;-b@%jb
zB+tgo%bCN%)`71EbH{w*F`qDSUN}D@m;)vG43xv2v$u-&Rz!mAAGUt9VQ$06lb>9>
zc}=L>BI>t5Nr>yjGQou|q5f#rIv^MZ%0oI!m36bbXLf(Q?UP+McipS(oc7K4Ck`z&
zZpbwP^3yG90BuT|pqAvxH{Zy&@O0*wup=mpg@j;OFprnC40_}M;{|=a(6m+518%g?
z|GD;_eh<l*M}rQ3<q}>#D;_y3{N$2&<dP7(CLXya9OfTUbeujy!^3ifeymm_7N$0u
zo|vhs=T@q%Pjm>7!FNbmbF~}9+6|e#+1f6^g^p#J{v2~qWDee)_^Knzyp-7g#6ejJ
zuCQn{O&v|qLPL*O+XHaTqO}&VgC}~8RhKvjD!8GEfD4PRrgYWZhAG|K6TfUuo}9Wo
zZCk8glkT3|nbC-@jsIHlJ#&4TD$%uRW%)lm{vF$*5!#tGw){Wa1$n4{c$a~`!JXba
zcQn%?)_3NI?$p#3(NOzuny^&mnjM%KNUPpE@xWlYVV*W8Pp0Tp|C}~W&l%G{7Hc=o
zzkJ`YdtpK}JpbQyrt9of&(y?EM`zn++EM^zy|?kB=v*|t_k$~7<5Rspar_C`@i=Y_
zOb<Zn$+_yZeXcHL&K&&o*sWuCo%hX%BmyJjuk-Iu&R(0jh8P*tYn`?xCsLa-&QF_e
zH7%&Jo?TxXc4LBR+VuXm*}j>+tf47qXcrCbi-5_-Q^OyP&W+w_{j}p&N49BOuBlIK
z>Raf^Ha+)5U4W(gru&iry<s!5%o;(nM#h6mt!)Z;5Ct0_7_`E|W>s+&t0w47DJ3vs
zbhqUP1=25IB5XO#q^!LSXzXD32>x=+<e9cVPzSV%*xFz_S2(35<*XA6X}I~WaB$A2
zQY5jsHj4W(ae*@E3tFGtDd_jCnpK1Cs5*-KF>#>L(`bLFNS{Ab$#$i2T}ioRkQH8A
z4oiX9GN=D{Ooi5h6-NNij#fC<06MYe4x>n-fpWbr`&E>7!`D`WRBHAeg->q6ZF?V{
zjS!pOAr9;lQH~nyJMJcXHyZzr`68o{PC|MdgYL^C!61s3gd9#VCnH4m0>KOOacJ(h
z(R~>XxBR43|0O?n)qOq~9vTG!Q!dAyHv``29xN0$&P|4(wDTY#vM9EK)#NCIWJ))j
zc24>`-3NR_7fFjqIiw{Z{DHhP9tKn7y!>}z<dQ#>7m+(ngt8A#!F*%TK=+Hw1jKwh
z+#?~k&rJ*|v5--}f4nr?aXA|rZK90qQyN7w5JGaQOAc9OgVC7nMRJCV<Rn|H3C>bO
z?c`7tMkExxO3p@E=ph^khEWzLrA1^3v;#i8EG(+!(@8jTWc^npEg1)oS<-@#>kmq%
zmvLOkktGo&(M%Oi5id$=-}wj^#8PkyOL{Qigd^psq=wogO*rI_$RglgNc9*boqVn=
z(Ss6w91iH<LrW&8!YemQV&rr%*&G|^I4n_p*?T^M;;bV2$ugfAvwF$Yfba4qq_2aC
z7Wp3#NKlWeD5ELS50XQoe~Gar_Aki{@~5w-Xb{v=C-3Q-9)JX3Z3M0toC~JT2^-)@
z>8r}G4hiNLOJo|5wrXb^W*XjW0@Fu(3moO>C=i-9&1`zFE9Ynx9j#eMd(P1%I=bdf
z3;kKgbBTcmAe|haKAzf;>Ar8?^c&xN!(VTipIGSrZ1S)A<{L6$(fnNEz&9q_jgIM#
z<ZHR=HnF-bb1m1^FLw3cH|<UATV$+6yy;KBG~Yb6JIid%F}p=(_rl9xoca7rmN^Rj
zfldv`yjKl9Rvao7_@2K^09v<_Qu0J=nPC;;T@lq$>P@<cj{-f&#Veh{`EKWV_p@jM
ze<D{!ZXsJxm*X@_3wZUjQi<IIJ?PQNx(-eWiH12iG|BqlI5`}KSv(YmqxTDw;mL?c
zBhi=P<QT66jOL#q?sdo%!BND?CQmfuNGJgMAJ`9b??A#noMl500QG?}-{_t0O<qb}
z5}a-Km^MMvCNOQ^Ff}RqBlVp618tUR$}w({ac7yeIi_7?+Ov!&$8?HJXO`IvpAk;&
zx~IXsHBXb?j|XSjmTdyFP0(z6`U9gjMLw_zwlT7~s$p|Q<H-ESf%Jk?hAmJ!Me?ai
zTAYd&J~^u{_xZ|0H_BvCo?x0%_BenT<Y{5^Vw7f;J+MI4jyS$>{K3<AG$q@VinErq
zRLkq(06<l&oz=w+@CU&De(Ed>Tf8Y+C=<j49l#~9se(C9ek_3M1W+-&0gR<!!-i`G
z6mJ4Eeg-I^C53I*T-=%i<+fe3(grXx1cRT^{V+Y~ce_g3YA8FZSeIF8jZy}TqA}kd
z<GUv{)Vsr)lJCPCLD+#~5%5jL!w;IeO0ExJcV(L&=g>v}&?rpUKKJELqM*C?xUa=M
zG||Xol`r_l#)GgQfd1`9lL|;B_BLckh}Dh|YIi_>$onbgkEz{V?pVE>1<VEPg)V}9
zzq_YztGi$e(djX9Z(%Eb4xXfis{ybD=-?6$;xLFmz|{n}$P)%@k)exWz=<M~mRwno
zw+_ot7z|^)p>PNx29K4S!YmHl91tn+f;Jx^Etd>l*y_)R!P>;M_t=Sj1Kt;ooIW5~
zj`zRf9Xv7UJ$>NRi5Db;l2H!fMFgorE`Y@Xz1Vfh8VyH%K``pLKn#;48&nS?SB#)X
zBsw5z$uLL^mYHv01cf_f6GbO841+TKTpB0_kY7}S2mHeB0G++6I&pl-V7#H8R==ao
z8EQdY$r@aV{%<r!!L&AK@}LcW^QY~%+Owvf`<g9Fb*_(U=4wQZGjVw8;)9yT+1F=Y
z|Ja{7{AXcd=fM4%V}hpYzv*qDY6unUgqE$sx^04W`+Y<2QnfQNxah1&ocNukaf*gB
ze9#Bhr%$8Ng6kjcyQlgW&90PBG_RQ&gjUINecCm5PN>@;I5&t@8>bFDaIML?Hi2fE
z@n>CIrv?^nuGHDAt>ZyOwcy;GbM}hPUQqPA7yMc0{`(aN7Arsr6)Re1Y~NZa#~wJ4
zwl;wdt~E^o{Lz?tA>AanHw&8w1k<svHOC2mleCx7uB`lhEEWci*z?0ku5>H+F}#&k
z?!Fc-d|;89KXu=N8(YYBi7VP>DvS*z>;eN-sERsGxusuVy>O1ZN{gW&I33lM+wCB>
zSWO|s(g-NCM7vpqg4l}!1+=!nR&_koLiSC~pezp}n<mU4zm1|DmM>CV*2K1n0Drh~
zf<UL4z@2d#v%QVpP4FZWM#4hz#>OREG3*@*gH%UwJ|l_6_cF3w1EKRrB86LfES4wB
z(A+JkVHj5x4kYfvwi}?9rrOeNLY?Ox;}J9-f$@N#=5VI8ADQM%aJ_{HZjJ_7l*`#W
zM0-cpzA<t1K?9nXG@KMQb%_(n7Z;taIcK}*Y|lD9Ip<c<xi#zDo;U$z+1=^ZPdaXP
zh!q<XN8sIDK}0kSmJjfdC1V$BJ2Lw}J$mct{KT!}3;p88Jz3^Cl+>z{?9`9IfJ)xY
zq0I${QZ3od{|JFu>H-D3F?39JaAcDY!(P=669Nxf%IxH<YCm;DHKe)#W*KL3s)GUv
z$GPyCLD_|(W>oK*HINoB*)8AoXs|Z*Giy_qtxdhMHaLp-0kz@c#ECYfqDfmWmxMep
z`H-1<4DvQab}|h_$f!7(l8BUZ1UT<0p(I2kog|Trok&T@38jjgfe1<GzXF;C3sRp6
z%p8M$G+!L!K1AAIVY<B->qRv)=wBfQI^bR!-Vn=Yjo_^R3&@G5>Jh90W@1AV%qXyG
z>i)$mQ}m+2ku%hZ@W1n5)^!N{j6KzznwZ;`?*3q>(0NdF9s1gE7+IuqX<e(JsV>P{
zmovCU_`mIVws{czc{<&k_T6mFH2;}L*mhiO9{k#HLe9!m3pMKnX1$<U|A+64RQ+N4
z58vsiwI}EZ4ouqCzs2-rjjex&N!|z1c5~U?DVQ?yB)msNN|+Y(D%0ZEIJt1z!1<Gc
zqi9$)K~&%tDooSUK%s-%u9yy34o<=qZ(5v^#W<jY_vLgYafEspOWpt_>w#OATL8et
z$aDu=d3=%@@Rq1rX#<JD8!Y)$Wnt0OyPH7Bf-5Q|JuWPh{IWBEJqP4l>3CcS#*$@c
z1knv{iz;;#mR;d)5!43D?%j`}wt|*a&VmN+3g;I-+%*NBPAoWTpPlCd2!_8d=3_#=
zkkjx3bDEarbQMK)mMM2{l`mjZN;|<)$rQlFx5BX{!ZXh()Wd}lmTggZCVz7p&zDxX
z+xd48=L_~YWo>Q>cWGhFOa(S$yi9p4gTxqIHcZDQ0cUYA)AJ{AgoBWSHVOuP85=@c
zITzt3gp#ls!eIz=(a0qc%0hZ<4N8f)&I*T>TitMzeTRH3dM!?l1wH0GWAcrU17qT_
zrvz+)OR8EQ$N8>ulh}Y?pojR1qz?K+C@^302W5fTL`;vNvhk}>+NVfkM7HJ)j(|*#
zybXkKc<+|fApJ^O@VsH}Ka#RQ0G1gaJuYboFKmYRh#9=1Jgca{g!jq2FX5ZW`@R6m
zw~+TC0|eez-<UXp46NrDuLAF@Z=BLDT5X`*4o|5UD=L!{GlnVc@2cyk4lGr`aZ<`Y
z^U@5nSPa7LQd{9Qb#ms_r(VIjvtr$2qqf$XRD)?GSfrX~%wW*FZtj(gc3ypp5gWJ6
z`xds`wSV6G*_hb44@^y4zZ?-8PkdeR@4mG_KH!(mh9_|CwI(_7?`u)~t<ISnM03Mu
z)!D}0&#E*1DWA+{KNy*>78`rNHtzt-P>1VL9c8U~(vY{yPF~G2%?K$$_uh=>?WylI
z@61;Bp$#_l?(N2W?5`WL)t%F(Z>+UKU0<%QU##oDyFObtkhLBY495V(Awq=X!xz%7
z54=L{rYzI>n~C|3Ok8C4<d}UTvoFgWNbG;WROFa?k*QDZCsl*UlNk8JcXd?LjtH<>
z>hJ4p2U^S$9VyCTl8FFnu$O_sKimihTlLT~5gYRn*+T>0uk<Gma3Z230<H#(4dKTN
zMq$Bl9v*&yf|%5`tRjifMXk3eC_lB_HF-dr0>i8F5>0721w7!Xa^M#%Q0R>#@=$JD
zATXE0be<`QLkR#?s|MwTsUiEijA{N2R6x{O5Qpz#xG3m;iLZCi`*ZNfcaT?(tOeHQ
zZ=mDanuN>dM06lh!*7B7*SK<i27v?x$C<6Y*_Iumra5s`sA$IH)`R!-u2d{@>fV|z
zIGed~Wco;w`*2Gt_Q8)pG0U1a{^sPoDRWjd@0zBUis{0d&Dr{H!P%2FZ~4o9p%;#l
z4~ym_D2f<w7^jWNp5&$E#;jpY&d?zmI<kh1h>n^Qhlyk=tJ@}Wm)=V>veH4t9g9qt
zzaY~Eh8!YRIx=O{plgAB3fX&9yc)z&@JC(H->1+<m|7YI0#Wp-k}0G`4UbjbDcqqt
z1N(4XuiPdr?ucM13MIk5i98q_Da#CijGEOD>BL&1!O`VzUn|ojZY!R$@MgFPigv&#
zA+2z{?RH)!h*uPWCa@F5cBqtgz<p9ZUjeX?{emX$C;~~*!cNB*?#U`G0I6dg^s<t7
z@Rc~d1BHFB*aR5;GIpm*37B&?5Wm~1p?C*OY^^-855jMu7=3_bk{>)EP!Vh!+klb)
zn;dckqFfQ)E*S|lirW~6UFC4vk}ZoPivpWPkbST+L7;~F&*+gwQCK6A<}z#*lAb{I
z5HR2?+{77{bQ4|-lQku2FCZ2p84(;J`-{ZL$tC(CBLlT0Mq*0#BFT|oXizfdLe)`X
zigEA@7I11)+!7;r9#*==DPeipmX?<P#Tf2u$nhyISOa))xL~53HM2jS`SJC^#KEb9
zpbUcD!zsAgvk2RpX_2W;Iq#9PQGr<li@UlBb`@vFnXTG<{di*kR6E3N+6!yaJQYZF
z%xmFvb(2oicmUlQ1`MV;ZG2*)>bA|lyzuhfm%lolt$jt*R3`?KRf~>V__>A+i2*2}
zvNe4=*Sb?|-I;at!I48<`=X&T`C7Uy(~;|VPV9K@E(50+E}fupA~hUEWQOO57Xn$w
zk;DM1vvq=NV}_j{5NyxGFIHF_?{7(7d2i1@TAG1dIGf;B#^`KlCX_z;$tyQs$vQiy
z3`zUj3@RLJQTeS(oFF{Iqk4#P&_Pd)r1yH+@Q~Nb-N1S9SLl%gp$h!nj!xu$K8~;z
z4%vugf9eN1$Si{|kE8A-zuO_t$W|=s9D3vEy@}pC=%vv^FhJ(lS22WAiKLT{#N-)^
zAMX|=bGQ~vHSC5T5t$77pX2@sUg3*Uk-r7+k(#FIZ*>&C{r8mR_muf}l=+{j_J5`}
z{S(#sox7fXf&OkU9A(oxzB{ZrN7L@__Np7{itnDMwe<GK6}9vr{b;+Lu3rc|rr`12
zdOhuVR8>z`q$?j&@OZS_L|gFY797(*Qe(K$Ek8Rp$<JNSk>`@u^z$><&pg%w%_CO}
ZT~){g;iU@KBP~4f3sybRLx^<je*sWmx?cbQ

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/mxfp4_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/mxfp4_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9e1b707b2b489a243a5626cadacbc3fdbf4cf6c8
GIT binary patch
literal 6661
zcmcgQTWlLwc6T^Ka!3v(Qq-HWL|L+B+A?MN5j(avUB|IEX>2E`ovx#}7>_t3X{6yJ
zcZPa6WU38<uH6ES{ZUxz7KqXAhZb>B_pANf0(DxTKO!tZ%pk_P*cOHVXxTv*S)l1T
zcR18zWp9fD9f9|rd(OG9bI()%5)KCme1`BRdcKX2U*f?1I%~kQZk~`kL?tR`kPJ7<
zaR_@1Plg}m8O$5Pr~o*@@Me6YK8Eue{){*(GT3JXGQrUxgZ)M*BaKR#@MxGL9-{fQ
zhA%j0r_n}L{FIDF0%YeuwNDLbQ8lPFsr+?6A!?`&Nt!UV*FE?~U*ijFTn%b?DPJS3
z9?_cBDEyjU${BkpwfSY#@piT4Q}1Yt+6s4VRoh;`+x`N42jEj1H*_Jjb7%f>QH_5p
zjJE$j?9&DNbOean|H8d?fm~m7PM_KhQtA9Z%<qBu@c`<Sq$ad>t>a$r7ofTLf#&g}
zT{YTnty7C{qxH=5eMH;UPpE&iTkHM=^kuaBgYH>wmdx?*lUeTN)a0HgxJ{C?#WRXw
zC}V~OFn>Bbe-ZkSp4Bbc$W2UW6o!#>fl@7N$$3Mu#&a|SIG;szE0;}r><(3@TH2DS
zHldrAM&)$Dv~n3am$%z=Q?_z6Jt=D+78FCyQ8}y4YBXKDB_4tJ;D_U9|L9>>%YmhW
z)uufh$#_a=uW&bm&j=-f!OUh$-i*KG%ZMdE!+FtOOK7{C>O*@i1vsLUQV@P2D~{XX
zH`V3zo7*pH1A1~3U-xDX2Uh*A)zdvzuS-`&7i)G}yIt(m9v9l^)qu;%kz$}E!7rTs
zVAGyEc!T=cy5L?xxL0$j!MPiZLq<!cwbbaW<{`z#I=83TkmcC=2a4j<(8d{DNR{q|
z-P2qJsh6Zu5IBcj`bMuxMbEv4FMtO>#vA@0OZ32|+wCOLM)wS~RgI{U8vP4TDN^L8
zjySt*Zi^9@7w$`@j%}tnu-c@?+;f&lk^8MY9LUTEKYx)Fz4w~kxkYK*qmyFrr`(@%
zC9usJ59jV*3^RI&(YYdW2(ILd+&F)UBwMZ@pVjn<Nh@K_>esIuS^|tFk(nFMA5CO(
z+F+t!YAVCMbNa0sep;hh&7de~w7}q7*>i?A_l9CAN#5qqy?fMdNawOM8U?#l=5qzh
zj?PjgUo$UD%bGbfRi8ryD0~SlRMph;jQhzbEPUO2ICUa5e0}KxJ4!B_n9Sw#8cpbC
zf)=t_Jv)&AB(vDWNP;mBCag&yrxiFeyN-ceRxUB7B~;x+$Ds};W+(OZWFn)?*BD_@
z^b<-p4P4p;RaC{&bJ<klT|-k~p+X*U8m{B)mPK(H^WaWmKR9>g)nkV)T)C8149z(`
zjlk*QPJvujo*174@)L}}fbnPMWMxh_lOEav7(0+HWaL?e=FKN6j4#82VQ@ll9uu8Y
z*0Lj7UI))s&}6ePX6c6Z<iEcA?z<=O`wrIgs@8m7OUCU3j(?M#cQI2L#mW@GgH4#S
zs#%I|n5kUelE)2Y!nB)ylL}|8liRkf1!vT#o;GO+kKD42>bxbDfJVdEG$7Zm9l6}I
z&_?9xe<@GOQ4J<bicZ(|gJjYLRk51^P_-F7t;uO6uZ-!2Zq3sG^7x!6U`rrWR1i4_
zZ^~xUTslLWkS8`{7@3qC9LyA>#E`N(qfBeC^te(mEV(8nW(e}EtH=9Z#$%!qxSU;u
zJm`@Ik)<Yh8BD^osG?^r(+&WTHS;-BOGa%8;td2WN0zpiEkj%3NVEqV6#O;`GZ8Z3
z*wGoq0R3>}g}a${bn`(Rl(d=4mNqjmu}~&~(554rQP?)I{rmRXkd?^~<@NkQOQ92*
zb#Sh5{M8fF$F(6t9~;WgTa&r$5Q=yxlT$TA*5<Ty0nBCy4hVWZ#ICAeXBIY80F^d}
z91$}(m7lj8<eDRr8G*h6=RlJ(O)#Sc@*l#P72(Vy;qWhn^JU@uBjM;H;q}M+_OA#n
z71loYkwC|qm?(>hRdM&%QrDU^T$YCK?_QOTeH|HC_OC_`{hQdZCdSKRyz23UFL2L!
zArPzvN&B7~Ql+i`rt~$e5a=xjdRGH||LNfa!Eb^jaQJas{|)J@)bV@M<+lBQU%Dwh
z-hXIq|E2Q&OO@u9Do+kv=AIGHfnZr2xFM~y4pc=Fj;%?j%F?Myd&k}Pfh9Zw9N~ti
zJPGV$JkNtfY+v*Dl>I%c{@&HSudMBTyS(@9e?GIi_ua?4dMk<Er(V7-cq0Uh1)A2x
zR9Q?df3zx|dK~LnizUmk<nr$2v4^qYh4U3D`q?`--&uV9uIHiDw{Z5WSnpS2$Kv2}
zdR07p|NK+l)9kCf@gD0J&Oh~$aJ(EJTz>Ci{K);QW$A}2XMZ2sg|n4V+fwIGy6zTM
zLW3*9;4_dtu_NG8<q4WA<TVxicz)UrV(Xyn2zoMY4m_7t!vt%ii~^ZeEy;q}7Fy+a
zA)7`IYqx=4OXnyUat?AfhLgv1#k9MWeBPLsaRTIMPJ9Ammi25Nf(fW^j=BrkK?Nqx
zFognt>72pHDXKi9YqNG6xC9;S63#5=C+AHD<Dpty0@d;cVBrjftd&Mj=6)F8Sh9!S
z`3{8gInEq}kj_EB4|)&u{m={0C!qI2-vzx7`gZ93DmQ(c;H)T&MAcIpL8(>@02WHQ
zVi0;r9*ZG~KrrSn+I}-PZe^4?I{;=dVH9$T{xg!4=m|IjeHELN*qp*<1e@<+^BOk4
zgU$D`IgQQh*qnjJ#7k|qWQr+?-30zK3xOq{&%v`f#`Y!<eix^F1kD1ec7rXglVG5?
z5^7oJp?@5TuX~}d`iRuG?ng*OD1cCqNc+}92uVb0UwpM3>R%7zuz^Uei*Xz_;xIy_
zuJtHFO*l7(P&1Kwt8J3xs}jlUqaZhuhF|@wKgJ&c>JG8$gejzK`=*3#2pCRb7}@qs
zVc6LAx%tr)tKGK}Rc?k*kLtMu6%Ra@fZ30)7UZD}B2N~8Kk1`TK10NUG{w?0n(b4m
z4#|-1W16bjP2e{nmN{jL<3?>kfy#sa0Oql)J1^9NjCn;>QP~wkpU7q)E1<szTodp!
z@xd1eI6SH8v)69EwiZg1Ly5J}Kshw97CKoDoqQM?Sqq&mhfe?egL3Fy@IL{m$_ri}
zyk0}J>IaDJW^;2CGjBUI4whrdEU&PARI>^+yQTi|0v9uhJOFp#KM9cAvkC}nAIOIB
z;@dvRSh=FdtrahkK4R5h2P(p7Nw9EL_Njb5a}_@EsH7x(ENoPXKNBvpoD+oZ$;@5X
zFHdTTypo<)CbYygC8HjM;6kUbu?!JvIH>egOxiFRyl~|pq@|G1LQFF2nVk*+84AjT
zZY5@QYcg>S;#$H*ZY-Ee3U(7)JH-;fR4xC#0%x{EZ)MPa&QhAAwy1vS7*f(pF9DTF
zm0m`OG4mRwCf=4=qw~lOka9Q)fMbGx0OTC}OteKXL7(3ndn6{&Xc|5{b@SA%4;S~`
zjXw+>ToDfb>UkrP+SZBJ8~eJU1A|%TGhS#6f=xzZ)qoI){kqBn@mmuk=qJ87`AOgy
z|5ND@f8TqI-}16(9qeWQ7yz&@%vssDlYLEKT~mKWmlOVH1p3fP{t_yU9jROgu&SQx
zAc5Q5U;Bz4;M>6}@9`Vj0yajmBz}Tc4v8}s#b8h@|AS}ovInufS|)GJL+UiCKn%Ku
zto*hIF!6FAc1P&3twNW_A@!pwaC{6u^ZU>^b`?d5SHyicdOsVuIdH4**5Mn2E8@OI
z?sNZ=|E^~#bXQqwEQ|Z@hkkzgpWgh3H=pw!^k5#>uv(o=3j$EO0RNAGpeLgarZ@X6
zlp~XT7Jw}_g@M8IBAaq+z#S}#-_fFYW>Ngd{Dwu*AHtSNfxZtN(@=_~mmT=9uE&BS
zMy<|p6(AFjj4JF1vsrfZcdH&x0uTCX6P?<2Js!C^vdFE(haZLxuLy_#w`$x;{ycD$
z|0`*T{~Pa7ev2?skW83^0Q@#JE)v(>fHUVVf_f=1%MLPak_~-Y0~E7kyuXQ$=H9tu
zr#m}pG!1NjhWuFM)zoM$1ko?Pc=}<edqwDWoNjoFyr6RS=kjt^fq;PkCP{Vx^-|U|
zdBcwFAmgNT?jnBY=vml`o`VKP;2s5SM$0A>c4Inc7*1kkrj)TXMbW^&!{+l4Q7FEm
zbK?*zik#|+f^`zRVQZP>)L>DDtQBr7VRs^3E5kb(JTpkyA&R&GtIR~1-AtD0Uc_Ne
zZwq6&oMH1&581xU?0*6_4+RoMzsF)6Gj@vpkeMb$jiM-BYCvN*oVMU7V~`>`&esdh
z74k@oOxpvgI09BzFtpd`9|9F!n>hrpS>-v7`^HDOJ&#E1FNyT;r0)?q@QC#Pg1q;y
zf#zFR9tOG>eCxjB+`;M$N4onekdgNdRQB$#3>~Q)IbKPoD($_M*51nCAsh}Ld)m>-
z`6{iQRUZ1sk=QNucChLN7$R<4=i(c;r>cG&i6q*3N4hO7TIEPzHGrrf>E636EXman
zjwIOa^Q%i&m)|JwI#dlKs)6(kR2vbBkXUOqick}YHdkW^HIufkJH~C}?&Wf8vf6^E
z)-7waA*!8p^?p9GG_u@Zj;EgCVb@Q30UwdLRK+j-xcH-Dl}8xZ&M%#J;Nv5I_tD>e
z#Nfx?;E%8V=;|{s@Kn2DW_=RE?j(fWNdVU;0SqTTdh#i3ail&I;e&^8`6G2sfU60{
z$#Xq*PK1#Y`Z_1T)h>~Xd?oCvM0zTb?n=|1Z!og~fwpukT&RjJaZe@EUuinv65~B(
zq3u`I7!h073CBe$!N!HRAzT9ZYmnw|V!t&Hf#N)937;J%5BkDjZ4ZXMXTQfkc*S$}
Y1pnX!!e0{aIf?($>pAD=zw{&g-*T#JIRF3v

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/mxfp6_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/mxfp6_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e0015877cc66a6ecfe6905c9d7792ab0fbe50906
GIT binary patch
literal 5059
zcmcgwU2Igx6`uRMclYkDcWq(=Hn7CFW(n+;mhe-IBm5JZm=Gc$q6X=*>>Xh3{bTN3
zu+6$PG*WQ$VDbd0sj#X(fS@XUsG5g9RD?*a`cOMYVsk~MNL3zqTVkR_<e@!h?(TZ+
zI&Gv>8ENO9nKS3inVECGbL_tb0zLvQEx(icLzs|%;-K0%2L|)M5ed0UOkxUYGKgO>
zEo8(&Q9xQsOBs1k7KoRaO{PrAP*tv~2fn64Ra1qZXL<f9&D7pf20h<WhZl5cUu%PJ
z`MpgY<{Rsbt&rU2ud~-@`rncVec#bu0oY6T5|L2Z3{uZ&LbW>$w`JGRZ+-J2xV2zK
zdzkt_yI!yTJ33<{oUvh4XeZRafiTZtfCerJrZ5;d7C0}QCnM5N$oc=ljjni%S8^aK
zIN{fO4;rr>HG1~H-aB9%dS$R5CRdp$Mw7O|=;@SYQ)VO!mYvHOxx6EcIQrQ_B5NC_
zJ({OZvz1JwsR3QGkWSdCT-M0sOzNnN+69(PN);!;j|YA@p8th_aRNRpK!lKtFfKua
z2oND+MjDqh^0)$HW!xi@qEaNbABC|MJ+~|R#x=Xaog-u@RHYWab=+k<wy50(3$U4r
zsotq+Jr40Z?j83Py+hBr{QBNhs#4?LqG)QvI|yM7c1v}Q3A4W>rteo$b=@TaP9PV(
zMd3DR#x}0Qj8r5=eQ1?CQ{NZK(CYfJOINiOJ#{xB+|h3<E`OX9$sy8C>>8ecUxde1
zTd(Re<(dxll4z1~^{48BuSER^7@7wUzv)zBm>T?jQ)ARPmEQ)x?M5D4;55q>^2Yg;
zea7HV9u*xQJx8+!%x6s}%&2uHk*9{8Gft*+$zkhR>hKvF$tRM-iPJQ4B9Sq-fMPa$
zB9gKqjGirkkC_oW7b#dY^4ifYFCW|<LDxxJvB<$RO~7m_YuSl(I+C&@xN+n}K9#Rc
zE+~vW{ui{vV3A~|GLC1M(mWC}+Bep62t71X=b?O?$k=8yB%8A%qtuRAg?v88Y_KSm
zty)vL2kzCkBu7q+q%6nhUW5hr!&JPrptGHyD`w|d@=R=)vMf!<&YU-BrV<g021Y6i
z5p^n&qzvE7Sz9k$zhkUmr_vU~M`RcQj{ZspP3&hZ#~8+eqwp;qDU%p+q{K<f@mOaI
zl#WrS=|Ikg<!PFsu${?e9MR4>s!7kKk~HdP=so-d4C9g;Q@5E!8DmYjiHAR@F#_ku
zeFVc%xC2;dRHUvwI}x`t`8d4M7CXUCQ+vxuVaKkW!#ij^ojMuMkJ@K)+4#A1Iuqyb
zY|s&!EWi=s>BJ~yR=oc7aen%EW(56@)3N-hv%>XF!vyz14B~9o0fu<tXMGCY1S$J`
zO4H|}==FV}67L&AIYj)yiN246>!yVV?c45}bHUvc`yK_Grc#rs_mmsn>)z?kxs{vl
zitqP52=2YOZ=&z=`jXx-)iv35O`OwPC;G}7(bi5kf8^<W6kJ~lcFcUQYo=pQnF!r+
z=mPP1Now$wiRAS?(MX`>ihb?aoIg6z{{#&9VM+6rw7`@$sa*+QUHR_HIc;?*5PsCO
zp|oP%Q(g6{6MNCbz{HQge7cADTRtO-()1{}sw|3u)$@`Jnl%z?Dtl#b(^q8)n9nQ(
zolC)<jpW`&Z?7ob+v@MxBi-Ah0KEuu(M>qyZU*8iu`93#pjiPVn69-Vslvn|a!WW6
z71>JQL6~Rq_Nb9g4bxlF61TBXIrsqEfGbxm_dEt-3flzyZSb=YSSQF+AMuAD>aDYS
z>$Sae`q~+J?L06DYlqI!Po;B-N`^^RvNv)UG6-9mL7=XxWe~_7m^n;9+B-@Oc|AqX
zPz@2eHr^Ep&j3|?hWe@~3<VbWRmu)lspaxb_2PywWR|o#$rVdjFsw?N-Z8*~<>ZTE
zb<LOt8N|&gV5RA^o2&ZZq_uqT-*xaz0eak4$rKnpynW+L(N+n;Wzz&?lEx&X37Z;-
z|3-#F=$j006<7+d99{;>!)T6~ls(4VfBZA(7~V3&lnn@luEJu_InDJTSwRC(%;LBL
zW5H1iS=`Ez&!y;j*Kd^qK<!Sp2H6UbTeox6jCx%kMo(iH7A^?lK3tz8P)Dyb+wr-o
zscDQ@cu_UTbDci81dY023I41<K?i80`jjw7qt5{hx}StdQ^)k-yR8oz_e>0w!fg-3
z?X%(b>Ag1#GvW5R@QV|#e&P>Y>A1S--A(TuxpD0JvAM?R!^X|CjhpWr`Q5QwFx>Ti
z?`-2s55v8);od(F%!Lom`VRusXvDv<q%{K6lmZPkbn&ZS_=(4R@#N*!pXbT}RcZe6
z>6!}2g#QC%!U!^94l>~i$oPBO$h|gi&vxlvhreelK#c<QqNv0)$U){l5LclZ8G`T9
zW(rvFnBo}Z9a9<u8B-qK2-hUON-haD%JVi<AMcg9(_g0(VtzIGweXF01Rr}>_^nzL
zVKrL3qybV?Y&b-s>H+SEkI|OLIPDflBKtnlYoUwEkOr~fsrVYlNY1$>FXvwtszT3k
zou+BA)3_Mf3rmi{&oZGy&mn=})V|4mS9&G~uC1SZ{o2`CJu<!bBfVor?wHX#9_gW}
z-IKdZTKw|*sm{sHEA3Z)aC!5L7QYt0(Q>_Iy77AJ^x5m{ZoV<QGB&Hl?_T)J*1zxk
z>&~Z==vT``R8;l?Y~(b#xpYxZh2wd0c_W+1P)?jGWRs3RQ?MbXEd#Q<<#>6mn1Ui>
zQO3ct0&i^oD0Gl<pm*DH8E3i29>Q{DNrQq}02r)25bJ~mQQ5tFDVMh(?xC(=eK5_U
z&@IYK?lkg7ko7!tl?*hsYjW3A_hk1&eao!A<!0h;>rD6IIsM3te8jz*z@l4O-s=ZJ
z-~acZMXCBX>mgEqRQ4)t#Rjn3k6jORiyh0IN9H@oYljYwszS0|IBMst-g#5F`QqId
z-oG%X56s8|{H#%d!9O-gH00jukMKfciwm`wTd2kA3pKY)jpdSgsK(q%%`HxwxdIog
zd7WBe%CL!}9;R6<#~jJB8L!`Xf#8N0f+xdRaDsbno25<`Z0Z)U3KXSK`{GOTgWe+C
zayO*3E-<!`rrqoa@UhUb9zb7~1VNZrp-TId9Q_CBD*H)$^oeJq5GZ;4Zx=5X%M#F^
zgjbXm_(IIBiIkBGHJ7Ttef;9_c`uHR3tUVQ*44y-=3?-zh#|EghNDoM&|DKhx^4Z9
z{nz)GC8T$B{qe%@FSzs@hxzvt#mDzlfM4!b1+^xObX6GXsxZ<h4BwhC(B<bfA@s4l
zrWEQZg*KF)YbiCp@VQq})N)(pAa4pa-HPz0P&vw*LhUR-)*l9jp{mYxrO;Zgv%}T7
zLK5~bsN;jGt$a{5mJiTcBr4`URdDcSc`MPHKO=$=D)|~F1|SCk`Bi!2GPBPtgy9cF
rf8RFp!B&62MDA}>`iXRZm)N&ky1yIg4<)6)LHbY=`+d@fKBWH*358iZ

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/mxfp8_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/mxfp8_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ace1ead9e0d07869d5bbdf7cff031b6d9c2c820d
GIT binary patch
literal 1144
zcmZuwO=uKJ6t3#O>CR+gbP{z?LrYe4AW6giU>1^PqpKnq5%i#8q0>&+WGbotNmaEo
z2{RI9VFO<D6g{ot!H6DqPhQQ*gC2C<LulN?vg{$Z(eWU9(CYb#f%QSZdi`F#_rC8v
z>S-p^1%wdg8h#@I@Ne?d5v^@BE(>D?xWI)3OeLp8peId95J&(?NPYlYH>VU=MqsvC
zu~VdVx(d?19Qm@hDCI<AQE}B@l&RDL%xfD-q0@O7r?HQ@O@f&jL}OTqHHvsd{X!c<
zv!5!oEWXAwp;mw)kPFPfgEg37uEHvCm51sB!8nnh#aWYUN>!QdaBc;f+STR`0YLYQ
zsIkS}HmhJZ{eQ0uJ2P=poi3ujTvdwFSuhB=(#iP>(CsyeCy1NkZcei*U6ou=lP*hT
zSOyjO0w}}0ewrqr#T<IPN--R@=Of4Gco8l7=Ss*7ox+?mgUsn7aaalaMMS4f%uI^r
zBTSKN^1yThbMpM~@iU`lJJ;bj@JGxu1UU?u*k{}!#KhbzV_upLak%N*QuVli(2tqT
ziZ(0b#YKW#n>Y(W#5a;nY<v`w*W#|vDKsVgar&ee29zJ8G@!BKyV#4BOBj`7g$WjU
zl_rykvn_JyTko4qhOvw&jpd3xAL|vH6&!*XOXg-K@_yRlUT6ul!`z`Wh!0ny!{3k2
z9Yz+x7p-uCmjd6qM2Kg3fs2TZDyR_gfLa1IqRiSl3@hT8FslWkX^(^pv{&?Ms$}7e
z3AF_3QcBJKt^f487xW)mg^&CH>N{~|a_Q*u?)B8RUu#!tH{qYD+<JD;%J_}(+uQH$
zyt8u^-p#EZd6~7A_4Rbmb$xmKxw8A++kVi!>kUxV?5mz!U6L{f8?v&ktFD9IY~4_d
z?1#E6g74Wb(f6u0VSqKmm>87Tc63h+$ZG?tu=9GX3Py!eoKA?2v>pjfUP7$fw(oez
zwqvdRcC>TIXJQE|k3xc)#O{NJxC>}sGh<8)DkA6yx=;KjOJzR_RhJ=z4IRMDe_-$*
zqwo6pm&U-7R@X8xck{d7#%_((fiPE({eIxl&>usO)hFF+-Os;1^<rr9Z4#h+MUhX0
Cuq1u}

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/nvfp4_emulation_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/nvfp4_emulation_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68133ec7fd387bc8a0970f05f9765aa69aa06df9
GIT binary patch
literal 7531
zcmcIpZEO?SdY-Yz_SiH2h!Y?{*f<HWYZj6X2_(COkKB9!Spt_X?A--cu9KMrJN^hW
zV-m9Cy_2iGx^ejtr&<X|7m0AS(q;wHO{Geu>W|BnDz#Prc-Ba^M*KkP_V(sSr3m;@
zRaM*focXY!X17w+Bl(^4`JOXp-uHPw{EuF*hk%lxZpU^83F4nn!z_3N8ZSO33E~dH
z5geHyuArwaK_+ciY$P#FaQ5GjSM0nkPMgcB&p1=9o3#f<<%-ir@I>5a_E(?4lllz_
zV}WX)S$pVsVAJbY+??}E;);iJ!OZREc=b7D<LED`E3BK~8aelu<P|UHf%!g;0qW;i
zpaITXe=X;GL%;tG{ed_1H`MQ+@^C>oTf;3f+_Z^~d_GKStT-7>M1_cSYnB(ocFjK_
z@X?vb)NF5L;+DjVS|i8b$V5|8Y=MtR=?I4=YJP#AillC$S$Hr^|BHDCM&;Q_qq1dI
z{>`iqr;H)mtOU$T^Qmu1&4KrrG;SR8bpo}+@5N#0y+g=E+}y6_DOoGxR86;0oq2~K
zMB5ng3ldf%ey^2lusUnY+F{iF+7L8N`N>i;#gPjjnVf9_=4Bnwwxf2|DWMbM5;tYo
z?0~22lpP=)R8^LKa37cK;+%+Y+*`xMsMfq`9Z7xwt5C_(z{B;w;8927Ego(O^iwbO
zP6D^pWR6##4{2+?NA}3>oiJ2$J9YF%ra3p~d0^b&f&)&^$V?n9e67ef+0HR&hN+Wv
z&qY3D%`<#NguUlCw}8(kl8a40BIu4l{Ow#Uxrs1j)1`MfIsRsBlAneal&#+hNEkMe
zWC>_p*ejsh(i~D+n7pnzGO?7@uQ|l)QP2w4R3a)#d<xo9baF<sNokFmNT(ATl}M+i
zHFjp?@Oby7^k^a-l?3!|nq%%dFThHH$1K9EMn?4=$fQQ5G-ot|m}=DZ*z|SHo=DGW
z^kh0Y5litLY!jPKi5eZ95F<CE2~l(44Kyb-GQ23VutTV({Cm7hO3rr8#%2#mQDK^w
z4$Wu!-tV93<GT{EiLTjO()Dzz>t-U6>`JCNJ`v&P`N<5tX;&h8ix<Q$0|=s04CZB|
zSVHX5L4Z$Y;FQoC!M&Zcw*++6m>~HO{{TcGDh#{am+SkAzcaHk^BvPxq}qy1o6);C
ztPCnQo_T%CpXNTjeN`E)u)+ML+;}0XGOfyR#S_T)<_;-C-}{@EKhJ$$7+Py899tiJ
z;_oc`kE;HoC4awi=9za}fyzb7Y)EB8UvK+n*Zo~3_MkFS2{adaSNvsvhwAV6dgPn2
z`(q`4mvZKNwt4wN?!sF4H~shfmoDgYy}^8cE^;?>@AK8q*N<%MePl1S4yfJ%W%L=-
zuzVtSqR>{jxYn?Gxx{ponf)rWfBkZi*<WIMid4@FcvC|2MkC@>M4XE)EF^etvKEh!
zKw&KVBUAv(NWc@Q0iFPAKpo)_1u|~OTHpYAcT~rrj>esmq2quLNH$+9GH{bA*~tMm
zarP;vsVP}k&AQq%8S4QrEK8RK1d3aTR^0&OA7~%KGju}Pj!tClK!YYbW%8FcptfJy
zrff*eK?7aqHx;M}+Yo64vKayrb_(eDHN9v@VHc21;7#DsuwB@V>id9bu3274W+XoB
z7J5+U+o+SA(L580^yExL1T&?%k`a(iuwCSo=9)3;b`X8dp3X=j`T&+z2;GRmuE})j
zCND_V7el5l0ZJAXgh7~qb`kSHK!*K+d{1t!&;TMRs=jvRbcGJ)FXnv8AR6k<W%4(2
zw+a_k-&@M*ryl?Eq1>T@cb#1C+c^E`PaZcs9xT2+TJoG$hRi{GaZgvt^PVzP@pzZt
z&ApqSUbC+x*M7Es<Nno+F?HXGlIJ80GQOo7`GzGiKbVi^hnD7Z$BR_6a2O6XS!>QL
zQ&|KN`F}K(P9z{8uJD<%w1n;y7n!IrPIb(nB`9v$T^G2WGOY`_>@dwi)-989gubtp
znw@^ggpm@GH(X>A#1{BJFoZu#0%s(Wuaz3k_1?iyKH0Vau4Wbtoa~A3c#Q=#Ih$#M
z&@H{`ZLJ$Y2CvRpWV^`))X2WjJ#6`7A?Z3F0v{{{Hb+bgp$RZLAt@a~wjwku@RKnS
zAh}alr~iTyX0dJ2)u{zeDC|K5T?R5<V3m3f>uN^bjPY}t7x(o?_}*mCR0?Z?5JHpP
znUr`V!}AL~SS*jeJ@Oefw^0|TG<G_Xo`@zQ$id|GeGwK2#}L74OV7fAc`h;|e1Mo*
ze0mORev6OpaSEqk#{V#ASa}5u6o?>I7XJZ=LTq^mc6*uGtuniH9RH3vP^1nNnFEzz
zOF7uC2HO`u1bZ`Ip^?tA%HY$6(Auttmw)@&x1W_7jwxf6hTY|c4z;0UZE)?z`q=%S
zKk}3shM+&N^Nw%DcQ;dRJ*>7KE(Lm&vrhvD*5BWVK5BS0RtlU}&Q`X!-bt(^zCQBJ
z@%zV1+q*Z;soPH}7q*;msDi)T+^sfuZ?u=1kEqO%vgd^AIq~Sm<F=A#7_0g6(cIDe
zzS~vxwy+*v%>_SfJ!q`nRXl%1@eJ{XxmGd7Oc<!~#A<=Vm<hInM80y(EZSmXRlvRw
z^}O7Nc5@$&k_n_9rV@WdymD6Lo8Tf@9_*COTr05VDFhp5`v@X4ofq(EFxP>lGVbLU
zWY~FLw<G9wu%CwAwuR2Kso9JaN@heUG{J|WAuP`aL*TR>41vN#L0iC$>%4^Zr!(x<
zJfJcu@ZM6BJk}D;sgDVJfwSh+rP6Q#F*D5$%ry5Uh>Au8AuWJUNzRMtWFg(O_`uJK
zAYGgl(x3^#$1pSuKQRVGA)dM#@@-#TzH@Em+7nm%Q^U9EUL#kJg7^&FAK0)z>i%8d
zU-v!f7<&BC-*^B1XC?o5ksg2QZp;tfb=(#6@)P&o%Jv<F?mwSe5{q<rtz(_M|29;<
z_w6V)pDFpy7U{FPov0Ngq%c^JdS4Ty`VNJ8*;%ss8S8~vGGWaGL6RX<197?rZUUg;
z4A^xPjts!o90Xdp5AFh<)C~9m)|dm2QN}vwE9+c%%sHd4qhDF)#$&Xx&hyGT29J4+
zb?htaym*W?*7;sp=f`6{v<{scTG-|R76;A?NZzL52c>vYKzd@d{&*5gpwW7HQb1<J
zX#K}Y0rbLbQKtl?3&t3GN<i_R(P}y+Anh<5AdN!)zGeq^KWq~&!+`J!5D|G$Aw$}j
z$*3qH=LNu6xB>&?XhsPLh#C`E{vh{3K6?AOGW?YGF1vH?eA{inzDoN(<a;j-Ezai$
z3r#C$Rp(nO)mmxWi@SSqH??v`b?#BAw<;a`arf}zt^CEp-jz>PXRAtu-Zb0bt<UaQ
z`NZJe+K!p@EY9V-^WsXM>fEhTEhZEFB#qXV4NWjRy40~ay*LK(!jhEhS1#y6jfB`N
zmh;mLy~wwYn<F*P8skpYbQ{$l%M<A6Xk`-WU?a{X*t1j(g4S^&K#=U<quY@8EZe3m
z+|1S@uZ5D;bJlRRkh3~kRX@(g*&k9S`f?6rd*c>*R#*J+ZCJ|e0N2S;b)+OK>NjT~
z7Y93owRw<wk-n32axTaa7~d`Hl$}3vuIB1#&6>IEkF2coea)2+Lsi|v+B#{@KyPE#
z!P)&k+@9>hH$&HayLvbCN)Du6786N~X(O|42}MP?$ZqqTaF@uXd#zL*(J8Q|Vdgw`
z356k;b_t*aodp6Vo}Yzm2sWg##{ko@Q~wDrqfN6Xqw_#wDFc<7AM2>(uW=>;9SMy}
zq4n6M+y`ypGekZ`B!mdEe42ms+=anQy%CfNiHr|^qB$lL(d4W!ie@0d(p;uz>CrK6
z42@V$qX4c6%(=-=M$oYw*t^tNi0i=8>%OK&<4!Izuem1^vDsO0G3Q03f>zY0qosi0
z0+Xvy5f8#Uqa4MKGP6fz_CWSv&;32$F`Y%Kv&eL!ECq7RF8<lEBDH<#*eh8Jgr?q{
zHy_2Bfdi|N^>}gT`z87V@GE_d%duSSuH&A2)xFmCYj(YTgL~pT_GnP`ohbW&4*u=F
zzdQ8%LnYr&A(mvD3#Y$M{bi)Ie?)B=QQ1*t<SE;*{9*3Hf@7^`efSC64cQFnIg>l{
z)#dWGchqg~l-O{YJ*ct=4fmBj28$Zo*7iN@eAH4pFsinXmKskh=brfk%TiAIYUIxN
z%6Q4&zIILZcPnR}2DaT{R+z$>HEw;V6nL*3=vM>%;LHw|0w<KS-!t3uw@OUg8un&4
zf~Ah$BGX%>dNKUsZ=?ld$kB?_di<Jmj)yoz(zfYO{o7apw$^BL*RGjFPKj9%vLcLl
z@dxana3thf>*jqi-lA}{ZY~6ZQ;RDy-qo-YuXCgDE$%Wmtv(@8bkzw&J@vA-Rs90z
zzzPYG&cBJXsl|1*yqY~_zHooxk!|rhcA#!RY=yybD{EVQBNHRCtYn3mGArBbaR<vp
z!+q96DaQjNYRG!4-gvwYM$3%sjawL1a}J|w-a*#)h4%|a_M!0h{3dz@j7(vl4kfq)
zYbpkn(`Y;dM5DMUq%lWO8|@<CfEImgJ+<mgMkPo~YNQnQ>qv4PjUl&NKyHCB14Q#o
z3+c?Po;R}3N0J(l84FMJe>)uWIJRZyBRI*VLk=|`;ch_w77tN#(9mO4l&7fT46f;c
zK$DP38ULAB=~7WxfawYNiT?@&;#MCKY=R&YG<7aFw|GVwT57B`Hr?r4=~K?VbP~G{
zthW^poqW8jwCkKo?NCOR1|X{R2A9VnQQA=u*WzmHdm9Hz>~TPe#@2FUSZxfix0f0Z
z72o@b+V~UY9AHQO93)4}Oju>Y>mBPN<Son0QI$EmA(xn8$h6YlB^hyTM6gq4TU55?
z?&W(|SFZxl0J1P|!Hf#Mr%bo2bbE!~U7?#Qw0oJ((U1yz;dQZ2W%y+i0q*9(+`+t5
zxODI1)sKJuNy)Px;#-<s;vko$jA8f)lR^?+JRH=ctpG|sccKe6{*n?90%)#CB$`M>
zA{vWhuHFcLIN3d=+m}Cu3BpB0kPQ+#5TOwHDI$Z2V3|PH2OAh2_0he5OXv`W@&+0`
z06FhWf<Gbr9GU<*g!nf=w(KNHzHkzx_n(RIbBbbYiffA{;A(^Ks=;^5!7eq}RSI@1
z{%8K(OPOUkCu`Kfjgh|^|BLaLc3Z%vu+KdKvUh90i`==+|2FY$;spWKt?k4xIZD2;
z2gsez_dCfk@_CRUo1VA$$Rk_r?WDirVt*ws%3F4*KWpA|k6mTA98lLk_qp7;Ef;Fh
cL`&Pffz^R6H)?r^U9I<8R$E>&(84eG-@$J8t^fc4

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/nvfp4_moe_support.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/nvfp4_moe_support.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..67cf9a45f99bd6f306e50311c3057923b093a2c2
GIT binary patch
literal 2252
zcmb6aO>Y}TbY^$`wcaF7)6`DV&{Zh~x3XQNh*DHlP>4&bBt%V<gD<0vcbsfH-Ziu1
zG_hP1p&}u1>8%_Qr=s-05s9C`B~5~ARz+$>IdF58L`a;N8GB7qdg&bAyf^R7dvD&?
z{L<H_1HOp%jq`I1fIkEgu1FWz{hlNDfema(KoyoC6u3f^s#;Pdt`e;pDMci%k!Uqm
zib*^|;?+bcA@L~DtI1N5<1stFq?8N=;0W&9fE_EPeojL>@lX#>6mSLD$-BUgZzvs^
zjjltb0eiqUaLVq(0~O8gzZ)qHt|{5nUxJ^7LBh6}RVJ42&u}W~xDG?aTUx@DlW#jd
zs&L-2<5n<5mD&U<*O?GTRSzR;#d3(XNH7;o3sKImT9i00^6RylM;W#`YdE|k_&r9D
zu`$DChTIi-kL&C50%K;SSeuyZsJOv3L@U&5V7J_TlibuUv3rgq_W=eaXoHe6&m&(_
zv4$hIa*=Z+ruHyRU~7?VlqNXRC|t*WoiMZPxy*80OwEc%&6$N<adyHiTQzIZAr4zJ
zYt&nG+@*Xl7{2Adccd&ryxRxj6zFvycLOn#jRtXqT&s!^3UtKdX4i?p4TL_gTcpd0
zA!K`HeylBe9tj2zvRv0=7IQq;N9YHz%iRV4R0^zGE7Y7?j#+dGv)pR^{Dt>#oyP^@
zEEZ~OY}s=QD}+=F+zuuPuVU`7M+?MS!_+Tui!O5-Qf;Bm9O4)L7yf*0O$JATW8A8r
z=HM&vOuO(jJ+`flwT_K$Yoo2y(H-q56#{`S3rM~)h*Hez)Gc>wm9qg5-68U|dx@Xk
z2du{ntMm?R!c|Ch2w0d`(Bmmhg^n>zC=%-?@4c6o4Vz#U`U>wDCF}qQ+%qg5O5T*c
z8&aK}jvmn3cbF$ATYZ&QTf3t+p`T*|;f>H!nz18y)B`$S<!LnRS?*tw4Td`GSa|*=
zWJBR;6E>Bm`Y^uHjmjLzCK~U4A{)o75sUG1t(x6hJXpIGUV?UR+M6_M7F%wZ^FA+M
zvnYD`s_13&7N#yHzP$66pKs_h3!>(w^arnytGm5!@7^&z*DTj5#V+f)k}uw9oG$W)
z5Y`s0@-35j=Cm9Mrcf^&>R8S<@W(G*Hf<04Ca?P5gE~GPEZV#|OR(i*lfTcrOt^*H
zm=N>I?7VOC&c&`6M+e@S&#Khm(WD~1w4Z~lPDNU%sL3GKopnKiPdE>GZW#v}c31ph
zY+-6@8qLp5qT<v?bDv(FDNbHT)1Ps2b|NrtTh!%Glox1JXwnxfQpb~&dQ>(}R-+kV
z=CE;JRI$ky6+J~obxLr8BmM&p*1_{kZaY)h)P|p?-`Pqp?Bs52=N2}#qt9aLC-H&D
z@sUUIk(QDFQQtau?I*IYDhYir4vf^}<k_v{*(b)(W5ax8n61=QD>b^6I`b{ri>Q75
zZ5<p*uV4EudHhN8<WBNbYh?WEYf^grkukpcM)6nU%JU<~+X@`K40ly^sJ{*PwLKje
znbzpp)=0KBG`<(pjA$EZk*Mr@KAA!GNRaG(A=sy)P=kaRL3t5JIxgs>q&wdV6(I;d
zlqZLWRK7E$@`v&*hgANhPl$g$o%~&TJvH6WN$M28RVQ^9UQda14@n)el6VmzUhxP~
zF%amO0OE5ARG-mKiigFSn3OW@LHuIp7q~>v@G~(C{R#(d6+*Zl1@PpbAoDwTb6-)Q
zvL6jWn`im-cVBGk@2$t4>BIMyxAhb2u@_OGB=4Qtf$6`M2pnz$4t7<bWZHs!kuqWQ
P!B89U?MJdFHtEN|GJs-3

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/ocp_mx_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/ocp_mx_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27b484beb8d98051909791e7769a0715db68c7b8
GIT binary patch
literal 1780
zcma)7O>7%Q6rR~#um97yHclW(wWT776(tTypn=kWNJ3OmoCp^+tSYS*&&1hwcfHK6
zn>g|zhg=W`dP@)7xTMO3W4VFE0f~#99<cTl1RToAB<+P0GrMc&haxeO-}~OYZ{E!N
zvHf#083T0b!k5~gA^^WJqqC^(t>aayb^!ti>cD_9gbZ^!XYeu)0S7RTg?;Fg<q+a!
zaUCGx8z_gV4pAN9z!E^>4nScX#c*E;xUpI!7k$c%9CU?6vuaQs*G$b(^h&vm$y15?
z=Ga5rkg>UD&A6hmshQ5K8)N313Z62iyLj4|^6{*KXFB^7zhO+x@iYcufk=djC>168
z>8@_FAJDB`fPoAVkU0cp9&xfjlL{e07EwqJ;|LOQ6ot3K0H8<*tqCZ)BkTtO<ybA8
zi@C|=`4#1(Ri#*3#|CyUY$#q9it1}Ob9RH~!*cldF3a*|pX+mi2*H697bTv!*eO~~
ztLiAosad$-CN{8EUJuL?t4U{tC}8&SByHp_s6(gY0r#ODsdJ}o0&A3k;Jr~=%2b_J
z$wP@cxXX2qbwQDFxfgJQG3XL0@VNX7xSjr-BA<)v-@x9$I(%-Oi|gOOxZe1mB^QB{
z=<M9R&_O2}33XWK_Jis{Py@M8!JjQQR^EVZ-9A<K>m#q(Ba&(&>2&%1UCoxviX+)o
z%c>9uBS|x*GeaY(j^wOk$*36EbS83<?och<`gCQnNP5_v?3tvOi4+qTsc=RAJLHBp
zRAOpoImf$vNw-OwF)~!xECorD{#NsjVdX8&8h2Du#?JU=_3B%*_pai+u6>rbYR-Da
z%-`2_BX3j?))l;oOI4>r^152X#Lj<SRZU0RQXP%*s*a}H`AW&6Gp=~XgjI8U*GR=s
zJfc60TbItHIdR@U#2)w^72Du2p8eWr#>e*RKVEO<S6b=5R<i%$(n0ddUgB~1VD#Nq
zI{Qm{xS1YqB!-#m=0S3F@6O}f2jdH#Ypj_bYb3`0pX<)S_zmyWWHUY4NKBqOb>8)R
z;^J3@FA8mrOHH*!kQ!|D4nB*E$)0u($n+o6$AetljVOw#8dy=>n4-`ER&|CG3af_h
zd;YtL@sh6Ewt;C2kjvW+Ap<n(BR~eJBCjx!?1(G{_7W94pp_ljUTzJ%-Vpi&DP3y_
zLoH7phI-rFOQHU~>2EWS-fja5zc2nY^MicE;4u%x)L+c+-@(EcXc_{hzt4n?j2maO
zFyW6EVc%lHx<&e!FBP=){hQ14A1cKg@*-jHa{G#(tgI}5d~0z*2^hirUS>zV9A0Ip
zo0l7T$1m0#8KDmL|6*UGqRm4HpNjxy{{UBhjb<LKK8ar177sJo21p$V;S{%>Jn97l
X@4*J>dnOLS{s;39GtU79UhsbaQp3b$

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/petit_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/petit_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e8c2c6552836f17c31d5482d7ac013966f48b2f6
GIT binary patch
literal 4228
zcmbUkTWk~A_0HHce%ncG2PeFSB`g^7SlF;(fl^Tx*g!U$E$K=dtvXCRH_15TvAHt_
z967=uq!O)E;HOFZQ;;fc5J<b~*M8E!mHK0Ewu(EY64LgEzu9J`R{PVQd&f2=BC6CQ
z&z*D6J@?Fc-|Ig|B0&V8dq2}|#1Q(9PMXl!KsK&(2rZ*uAQh>cj&j@-m*b~+j?Q`A
zGv&b?5drt;-kdNc0G(Gv%&XoW5P*HEa1!3CIOSKjss7vEsQ?a41=Ro!sX-i8`2`=W
z`fvnCfx>1pJl#1Xsv+QxZRS*YSP8>QhZ@12>>CX&+g{newn+n3eX!4~Mqyt(fYg*4
zgS`h{!`HC|y>knC*B10R*p`4Nxy5?Z?$>HD)1h|X7N(LVKHc+zDw*c($mAyzXXP{R
zpFMMNbo{*S|FB?bc|+01)0`drAg>m6JXtDWA^^J`kqg+;EO{Oi1M3SHCg@DkOv%W@
z%P=iP*ReV%P3TxLag!ne&o#}OlP(vuLW{^G4Y-mn585KZR*@K)cHenn;(=$wfMFR~
zt+kutOZ*Z7$McXv+#)I?rH$(n+KVhIgFzo6ogA{L9Skh7i9Loyq@Z%Q_-p98=M!{|
zOM4U%$UzC<v^0lxaDg;aG&0mXl9iX{6hqaqWX)koR~AZ=mMi3mHOMwh0&zworX^Wg
zj`DzqT6+P{FgNwPe$n;DUM8#Ezf6{{O%sKbB>0?UT6qFqrLJbovwD77(WO^{B3)I8
zrcCSDRpnA~+Qe6i*s$1FO$Y>h(DgNwq38rFYH2{vD=Jo{9E-T5Y6NF2z2piRCp@?(
z?IqM@cDP+fJ2c7+KTAlS*j@6(*~!sKd35~J<ms_7`GZU6(;NxFE|dCL`tkCRl`9NE
z8VpzpnZ?$?_2S68$L2@y5ZF0XC|PrPW9X``=Y~KLtjqX1&J@AwAzdk9Vh&v?Du$&k
zC^QN~MN8AoAy*rQ4;D&xLUtqZic?4gz8<G){0xQ)`k@2)lU1MeEViTS-{E-u!m+>k
zw?9wy-HEuQe?JR#{}XwHV?T%}*86R5|5|k5%i*ej#PI>~N7D~tejVyXzv~_L*kPuX
zoWr2KY6oXYzF3e=Z2@Pf+nPXemdp|$%aE!nH$Q?9;Yxg&yD64A)zg@JOF~*4w}tVK
z&rJ-c`Ev{RCRm+iiiAKQ^^%k~U@(gXnsVlGi7`s;zA<Tvn6tWK%(kjAGlw(tEasQz
zW@K0AOx~E$W(Tuo-na}Y3kf}wCsHY2Bs3GSzTb4kN-krOFwYOZ=l~n2W+(oKW-op5
zlf&=4s^MUopB#S#Qb-hp5jZB0Nqr<qBn&Tmhs+di#L>7qQy7*TCS#Q(fMtMgIS4}q
zIU@2W?p^!Fx69#u9YF`;+g0`Ld~onf{+l<BIJ^gFeiTk^05^IiEUg~%9;`r*Y4idF
z0V;Ek8v*<j-i!RAr_7tNvZumdK({!H29rVA)9fI(xDtBAje|{8KRfubq8BkM4Je+L
znRcLMhaJGQaO9jhYf?>UyJ?tz6%%cyw1xTGf%h~#<`Ebw=-Kv>ufk8WYui7nc~h0q
zJEgyd67^WB8tbe2`(S()O|A5-MfX<ydmRCVlOze-Y=IS3re!hEXm?~u`bVI)d*d-I
zP*~*3DBJLgOL50V9_ZA9O#nVa*;c20xtOI*VG~&F(m;t>ngN@j>EkTTlugjm&RgcP
z%?m~wPuW}M%bq9P<3`LDg|=^XwJ|o(EcMSOC<`k8#M8`(GLm1$pUZCB#0*ogJM|hW
z<j@muOAqn?&_mp$N6S|wlolZOY?1aJ*=W4y&%sF^A#eylPdDXRqNr&Ptid6KO|lzQ
zB)ecpM_7}zd-6rAP_$V8g5)D|K_PI+L%+3Cnz6--cnxc_bC&JBs^M$401Z1cXA7EP
zy?w+ELhG=!*<!wE+F^nVN@iYW)ok;IVFxA@qCn@w#7-1QK7&ouU6ox0?XWA_ou++c
z2UVCRj~$|#xq2GylX=^BrJ+y6JscWS!WstL3t5@9Ds5+hYDK_ftjDmTkf9B_rAKIm
zy$_H16ov}=M|}TUJY5-sjuTI<cO9;E9j;ugcWqnmdaKs;7NF7iU42PkkM6ETcmF~7
zJoGTM7VTe;j?|(fYteTr=V4=V&w65@mKdn}V=JN6i;f2+2R9I(6e}OVd6Vc_K6d}u
zdVF6kzVAWq>CtL@-&%aMa`ra;W<pwz57*+u^;lv(wx<@`vwG;Oc@U5|3IY;hWef!L
z?*4u1x2g4>L$#hmt7Bga)t*CZJ>!+LfAMxV3ZDg%^npRlCw8>m$?_4F5G*xp@3f|v
z8S1kp&?03mqHC)b;e*s~6-RR$y<WY(MW`ITmp2P*(Z2;3?C(Wo?+mv9+>3#-FWatF
z<1=M{nWLp%_P?&dsC=`DKtm8z4$7Gx<N%AovUszz9L$E?dHYxvo4Ys!9Ivsg9B6V}
zf?Lw~i~j()S0=yBDK<B4bCCP)ZOu*OMs4QWJRLIgI^1INhODV+(Je+FRP3Bmz_#GN
zBDtd8NK@tTJGPe=y6sg|RZfS<+o1Hzn37>SrIqd0_)&_nx(POfs`7O^0M#zLvPHM>
zP3i%tjV8FKQA#Nk^j8lfT{Eyk$T?vDB|PSDV1S!d0woTx0(suqy}a}O&K2_D=;tRM
zo>(Ohf4bKBcI867Be@*9A6hxH^7Cqk^x)iscWWK}l~FjJqrK~q{k6#cdN5HBcGQF2
z_2k}qtmp2Hr5h_()?$0=u_XN^x}8oGJ+OfSQL%E)Ng#i?>f2WLNAHG~LigVL*5C6y
z)Oq*R(y5j7TBxt;?PEy~XEMzf_CJQucAf6FMXOZMj9EfMO6cK5-h=`A7yRKdT~2o6
zjmffNz+W78`7vdgP#?Jwipq`7>UIm;V_L-aK<5J~#expena<~Rb{!z}&?fZ0VvFt{
zE7n_VaS|J5-t{D*msF;&>v#W2_d<S(d;|;hq&9cK=y*7e`<IBgLsfL}I~4w2MBdK7
zdnITP>48e*&h?dWEw*nB^#eiph=cyX#W#X+?wB)(y56ir9kG*3)w`08hrai|xte%*
zoZ-)f;GN-n@q5<&-fC!jP1vy^0EctH%k{0A4uaQH&r|hJL56;9ZBU96jdLGztI01?
zk5XUkeze;`bpF-k275cl(Vl(Z$98f1>Y<LiCznn-9>AZ6JMWGyjX46~pkq9>+<(8{
z@zI$dC3~00?vFVEIt!vmhZCY$m|_u%MG;8qU+P~;)Pg%5DjM#4V(3?&-u(23PM9(O
F{TCTu0tNs8

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/quant_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/quant_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..af075be5718f6dd0026a00e480eab8bdf1f5f6cc
GIT binary patch
literal 30167
zcmeHw32+<NnPxX`bb~lZf~O>cq$HjqMN&6)(UNFgrX@>`*YtrvY)~S_OASyGY0#k^
zXH3|h2%JquQ0$DLY<5k>%9`5omX)fhi9D07@$6iHpdHePGEr(gHLKmN9m;aeCfPam
z`(L905CSD-CfS;;+Aitg^?Uz2`W^rM9{(sWPvGzj=-%vm?`e+vOL|eCykz8_$;ff%
zIf?7$Bwo@C@PnFe4Nr0HfOb&Vtz&WBfPT=>ZD4WzfN{{&Z5lLpo7uZzK<E|#Zx|4}
zMf@5E#6e59h2@zB@&>KlRu(r8*aq$0b`}=~9E17Y`GW=B1w5zWy!QTDwPWeu_ma_W
zr&sK6OsA`{?qUu1I46m(agxPreow2UcbBl#JfvE^C8^X>v{EYBB-?u$1<qUQE>mk_
zdG<wl<r#T8$#EtBJzhy+wHKiFLbaw;KbN7N`(d4cExHeOIbfIJySA$Bq<<xcx3qs<
z`dy8szNG?XmwTPw3iPWumFjvxjU^AMu`*d><)Rv^9#Z25wP)$yRBx)2HC8XGaV4wK
zDPfK<8+NHQH7@GxtzzYhy{o(xSISbgt(M9$R$b|K)R?r)TiUCWmcOR!u9a52#&y>{
z2vVv*El1U|>0im^ZOC1J?$lmQDGK+Rq)N2gC>a2iV;*}oQdREqQuPw)_!`MDjvXnj
z1jH||r-HQVHGTIQGbcSEtzM$-8gIT->uu^aNOgd1eni-Mz^=ud8TvSNhxGDNiPZ28
zFEx5wq&41FZwrl<)a2E8ThupY1f^zg8^*q^SCH1eX6#-kwO|I<qvbBCb%|cKEs?&?
z+a#@DB9DzIW@`iby1~q${wJl4OTcczC{SI>ENn*qwy^%SqwGd+LH|g4)u=I~%4$6Q
zdtB4K<v1s8{TAQd&c5hjEp9_w5B>r{+KygqU2<%8<o+h?kDXYj+m<ZXf$x0`|94^b
zP10__Zhu7BJ%HUIb>?nYT3qkrfZh3s_3j01$0Ne-1MFkc{w4b0%AJleIe>Dz*y__r
z2NB;rW~e(f-gxvxpU>6XH{f;Qchu*VT)o4xtJ&}M`F$?WkmPDU<{j!eG3b#``tHzl
z*YOGC6P}TgzM<oYnkA3l(=*`l`S4;-rXP}r&yF1(8}Zg@5~f|0`2~-h5V|~rUg_xQ
z$bh#Cz?$B(2v_us`U$}8>+uYDCHLT<+c!EgGA#Rj?%t7gRB6wsEPIFi?vVkHAAK7{
zrNR+Fdt_=NVWE;9+3m-RuP41AIWCD~xqDSeJ<oZ$ZXR@B^EBtxf^PAI!dOg0u`z9(
zE+M)fmxo73j-2qIVy!%UCZX*a9_XsmCrobl5W4SnCj_^9a9A20pt!~DJ~iqYNakq!
zhWrVe+wB<|8uokqeZxaOxBD`8kNWiUFE;xJN18|aM%MT}@^P<!&Dqh7n>U@@=xrY8
zJJvih=07n!)O>niV6Yjrdk5U!vtA6%u-rW08S~1%X0$Wp?;B^;Hjn!I29il`7H=9E
zldWim1;vQ?EC{~B&6_P>-izS1y)vb;?A&AY1!QNAk;He?C~<_#yn2a^QO3KL#!S+A
z4Z!+(tR`bJZb00Wj2jU*kD2Ps2_ZeK<G&`j@UUga){RTTw8?$Pygrxzgx8h%ov!0F
z8!jJBM-wZy&+qCR>KPbC8JCa7xW_f<9Xy5sV#~H?cyMrdNGafR)sA@OHGc1qZ&+@0
zvH0*w?@*mmQ$jej=PCEmJzYnhd@5mP@h1=L=}H)6uYXh?>PfOc_(~2Oo3fbhJ%-46
zF2MCuYStt1C&AR6<z*XB5J|Qx6G(wL!qsWI?))R3%Np5+eA$lRGM~`-yaT;HYS$%~
zAWY=-`P}HXTls|XlJp=pEy`I9VBc~Clia+m;N02Z*>G#{<r}uOk(KY(UaFlrcBv_9
zTFVx|ujI2d^x^m{ZPy*@y<9<oi-Jl7nO|g4`%M!uUYz5D*bGsr#oyBsoVa0YjugII
za;aqIsY@%OrsiMW_wXm5r|-F}>5^B`SGXux>QmSf&GjiPgV^|7pVE~4l*5;nM@>!a
zQ@ZK|*+DJkQ&4~)VRXBt;U2eJHc*n2l61$0hX>?pdZ%fZ>nJFqfbDNuH!|`0ELet!
zZx@2EaCbFYy=lS1IZDIJV)oT>-RgN;ao7^Gt%~bbE$DcCOW1#p!_R_&*RKsr6kkj6
z=CJfR;>vI<RkQh}kvR(VZ0MDT$3Y?RntHU!*uDLT+>ccHnV6P>W)ZI;iDHb1G34Sk
zA*N$!Mh`a0402^mm<jQFcLQUL|2{(qjJmMBpF|@dOD>PghaZr%MaYEc1m*U6dVp6I
zEFclp*y180=Ax);xR+reg7vZn6fCnv#WpO%)z|AfDvx>_UD6nEKada-Iz0nEr3jmO
zH^W+6GEvz5l_&J90||rDN<z#ix@fEFF-SD3_o}eNmcl^(6wc|_EgoHZqfIJnBz~wZ
zH~z{fP0KCoNtV_O75dF;R_=P<BOHKdg7>H9xu2*}*3(b)D(gXwgbcGDB0+C+k`}qN
zH?kgllWvHY^bCT3oBO67sL0Tj5YnhKVP<i{EeXC+UW*zM#^lst*R|kXS=l57%d~3}
zTAyE*O%&4~mpvmV5+a)^x98X~*(Wy>992`Nk*g?9RrqN5T}j-Ht&1Am?r}$I#Wp3A
zItcc41e4r?fwLFR*(zeTif?b3tKJl=-gLvZ>8_T`D_t;gg(Y(Z)v<!=Z;#K_w8v`N
zZxpm6%dzZJXGyqluCy*zS{HZLFXVCN!q1C1dp=?QIa_tiRvp>>?*2>rW47j~b?q!a
zUtV#s{TuDUvorgm)(x|sYvSz0f|k$g<QKGBv#<pAk?YaLgdSU^=Y;aXgn;A*3K)jj
zLa{8=(?n?$kUa0JMgY{K(*yNbIg8_5d$2vOE1I|1zkG1sQ6ATo-_u$3N(We}9u!DD
zwBG5tcMQQl6^lq<N4#K8NXP^}(KCEv=r(%=ycyY>3D`v((}7Jf9VRC0fOl;CW)^bk
zlfZ%Y^^Ot#ATCA46`2TT5k^U7fSpd^76qLUVgWXxpCsoqf+0@lwIb8oGdv`%8StL=
z4lDsVHaO_@%Y8inR-<X8<XM!K#!GA#6MEJ*7#;T8dNg59fiFTiwD=jyNwDG1z1d~E
z#OKbzcGP@Ri;bzB;3ZuKa>;?3`g0&0)Ji?bdXlI>kK7b;NrO<E0iXcn=0G?;y<`A{
z@tdY2KqhLe&eSz-REDB<TvOMW;Kt4BGN>IlHnObR1n(IaQsY!tXOwrKS%x6wO%&Tq
z0YeMhDYg?q5;r6SrFOyxnJ7Z0{WES?+fuQE2dTa@2*Av>Zuqd_KQx5Sg#8y^y6{qX
zaHcipY`We$CET_azoWTmx?q|sX^fRL&K!Ne`*L@zWK*<w^8&|jan3tS&v#FEhYm(G
zku8zN`LY!ko4(OB<%?QdX3G}zn!IfbTAf({`e|;-N@Lid&XUE7Fk~RNqgxrMfNgd*
z4m&A>VTN2tVH@RA@D%?0HX<OTU;t9EXCMW!Fs>_{uc)5voZ1)G#VpI>y6X9&vdMi@
z{<yB}9^jLRf@-Sc*${W$vD1r2W`j;$N$_VGGVV#yLL|~MW=q+R2&gA7@wAY@kMBm$
z^y>SNHTP1MnEDG)+Kf^L^}SbfWGRV2NAQ$ir|*)fLwEiGY`?-(5)%dXNzd2>d_gDP
z?<XV6+(VFf!MBWiNz#NAoWUW;`%&gB{`(FiVAQ01b;NU_X{O~yS>u!#>UhICTlrzl
z)tYNnR~zQbRxQd4S{L+Mi(!G&>J7JB+f=Z0B3lWI#xaEw0*njsCn-IL5ml-FZtjKe
za@_Oy*a^)9QS8ilKriVDDC4O;iKXD<-zt3&6y`{QY79KEwsD{ki3uV;&3^7xUPE(2
zTvOH)00%UVG_}9EP|xwD<TvzODP6{Wi+@Oe@ZHmd8gqWXQj5e<J>NBamFrLORO#*p
zG-_+A(s+V<>wO*i#zZY;6;bWbPMEzzqk~@A<M+z@kdiQu4*5=vdcEV`gu#1u1Ztdw
zu@~wSNRrTU@O}k~?@RDLAK_z?$Q7B>rmU}H@~}th@c?BVLH1Yi-}lD|Cb?Vo((tN3
zx4VM6DSoPDUbLLs7~B|Y32q5H-rNyBb@9xFGm%pl#%B({{iXSW!qBPnXQt1DPfd?c
zZ;u?lQLs8{Ssg7{4SB;+65`K`(_*+I!e7`Ew^#kxQ9NA)uEg;qKVMpQvG_u9q&U(N
zIdy4$w6rdn-q1M9e`vgFyvAP@F7HStZrlF-XTJB$^}`=KK6?84Gtq5Ne8wvIYe&g+
zaoCZp-%)kf$mLlVjGUvAuuk5jq7X@l%C2I}olG)kkIHr+&VgxA5XTCP(s?dp!PAmY
zPVEFA(BztC+38O$z+B5LpivhgnCdiS4yu=iWLqi+<x^A(%F@T8%R&88NQ`a1^mdU;
zmVjr-PDOHQ_+Ow6jL#$04Y&#YgbuKz4#|1~I`lz77=)-<uim3Ii)X?RF!Ynmob^c9
zrjl0DrQnPKV?RmMS&zhD(W`SXK`_MOW<8SOicy7OXw5WX&X_IYf3u!|sh{wE)}va@
z0_F$hs%xr0Wsgf&Bblz4)t*cU0c}4CDp^lJ7#A@vV!#*>`-#M4J(5AKVH_(iS1YL3
zl~o9@xm&v;r23nC=4i$i5l?kS9%a^Yu7;dzTm7a9OTf}!oul`uoz}nV{@m2ei2XH7
z=k}APCF@a3G7>L#-64d)=sZKtcL<Y!#G4`9%YL`iH^?+&NYNsG-0|PmymI0Esco0>
zKG-(|7T`I+Bknm{=VYWk;efiVcVHN5&Y|P(kzuHp84H%s_x26-4kz?|>_<05RWrPA
zl)a3fNEjjT4vvBxJV|vLp`#c=y$K_NzQNJKgw}J+m(WB1IyfRfPrZJE0@eYIe>fpP
z0P*)79~~YA6zf4kki9*9Bl0i=m%6+(w<43#PJWSE(H|Q)=^j*mh7yLeZoEqgi}Fi~
z%t25gbi{qyGr)SnB03NH#Q3*_`7Epe18$$k?;~?P5vA0Vq)v>LmK0V9Jdx}J+_&)G
z7XvRc$$c(x1<f<3W*g%9+b0h|-Bq`4u6ECj+C6XWId>p<AS~Xrto-Bkf7bqo?a^nB
z#SipM?g0yI$vd|pxFK}-jrORnXsSJvriqb`3)YypdZzM**pQ|@*Pi>>@x2#gYY%*U
z>c-kbQQe`acnH+){Kn~x;g;zwk@A_tmsZ3Inr9s!7GEvC=D1pR?WK=fzV~vh<%y~F
zlY8d#tmmE$J{uYhpPZ?@Ff`+xeeSyB>WlHb-IJZ@Phr{l?I4$xk;60mOiR3A&E&z`
z1r>7zHL-%4*~(}^O}t>;<Us(Iteh)uh!r=?YNEvr@#40au5j}4sb_A9_H)~U+rq^c
z%P*9_y?n;_zIa)DFE1``m=m|g#I4tzQE_Wre0*~EJVf$+L517KPzan*6xLs~U9in)
z;w23+bHk6#)}S-A{`}_Y&5>2_)?KQba>mV#KQ`Ng#UW={AAV`3<-*G|FI{W7{Bqp9
zT}gL@Izp$ym2va3<oo&J>EgJ#bV20wR-(Pmb6bO3!(v=qIVU#9#OAozGQ0l6_N(o`
zy=|`TK&<URyzPmo_(W9q1mi#x+OzIc6!;S6;Zf`(lD&J96aZ7taYQ>Ad;h1{fMD-6
zuUHmQYK@AeCLkT=qSOlYlwHV8(P36I3#2smcwjF0fZVlfnewbRpqUi?#8D`<>Qt=t
zD)<LQAOQu;LH#8?krP%&{t`V*Q!#$16}2g}J9ljiA3w0R)b~#CLzz8J(GKeID_!VI
zuHGv6{sC>P{Ts(@Q9qI#Mef?zw?AlH)UjJ!n;%qAdC*JM_eV{_uivV^<We}QGn2dB
z)M_I3{-0hq&nR$?@&T>dJ{WzYA~-5G6(U~agU~f&GmyEqWw%Q;Z)J#uuE9~C-*wFE
z0=7O4#g*h5hRRAl)8~VYmyEiD#}w4=I&-40=Y$K?12!^PD_#C!SBmjxZ9p@%m)d+T
z-KNKN+DrO#*BLMDY{R1i5;c`7Mhdb%Kh;EPvfj~w0hjkII_W3n_wZ0k!JcZ=S7&C#
zPW~bqVq_>`?eO`$GTBe}$nvnvNE?$w<l_X>j)24&(8adaI-N{Hy*x?*X<_Bl2(pA4
zN0MwvUdHVc;UF3CPYCiLBOD+Vrh=$(#jT>&*|uw9ylD57c-ttve)g5Kp_W%C=B<u%
zgTcY@V{vQ6oV6}yt(&QeTh~l!=QCi$qNupyR=#UN!#j5K_q5sqD}-wZ9Tv_~96A-;
z9zJsM*$dA`<O?s{5bNjjo#)p~uZd{l`PIQ)^LZs<NASh4@8Z~nv6=h}6F2f27ejoi
zRNR_Tub}jK-j;uEEI1a<4^Bk1@0u@}XR0pc&6Zy~e04?4wd00uN7S?<YTNOMV7G+Q
zaP`I27gm4U`R?*d%j0FuvjrcPUM-Ca?UTFaEw*!=!OpL(Kfi5yTij9^*%h<Y%!v&#
zv0-K(2uxJBA&Ilk0B7sZ5UPeE-qUjurhQELBH@aV2SeMFKm@M~=egq<0+ye0*n>@$
ziR_c9>K0LdcXQ{oJ(}ZOkLCr4M-Y>=0ZmeKU=C=fHE&sT$eYkYZr4mh=6*v+qv9z6
zE<F5erZmw=w;mMK7S!L}oXYm8DNJ<9A;G81PQZW;M3h5tBeXREi`Npl7zIf?PG4m7
zr%**e|DX|>Fy+pdm^Lb4V4|Ep1M$LKe^zr=LEDCLF!DVZNz#n_Q%rp>BpEPeAkiFl
z8O&Q@a<Vdht{7A&H;7Sb{ZWdvKz~%l=Fc3^OU8g!;sS=RXchOVfN>lpa*tF%OXzeQ
z<28;}C(LiHgr>xtQ?HUDyhpGic(y9ea8Ls;(tgvDYs3G0I}v=HKfv+CS#U2vLY&}(
zn*LPRk)3?fO0eJL&+|O@R<Vv7<G!ms!(ZmRz~$@vh9vLV%i4sdX{~%1g%UbqihZ=w
zU9L%m!!>U`?j3^4M&3T&M*Akk>Po~dk9vJ>NCCqXw6!*E9Uykxx4kJ<=x<TiJ(3H5
z`d_)9PIA%0ZL!9!kyD|gqz;bo=U>3<&+gI3eYt!Ef5(MLS{=zmm&+Q(Okj|_r~7)m
zO_#-lUiJ(fhd<1KcSsR4^nP;Uk&mG?q#M#r9s^-X=mz?rFk<Lg4-`8L*@5*_eiML~
zMfoLaEkMBp1#AdReM6_2Y>+SkWhgO`eYj$#P3Q(azLN>-koSyYQB^>+5On0PpcWqy
z`jnL5+Nq49>tRDDzl~ydseCPF5+en3o8=Jyj`JN~r0w0!mo~rs^3Bqwc-~{N(xy<y
zY~}3uZ#Tc;iIz6S@*azdPhQ_26Q7*iealuDFWh!z&j;1B(r?$@Y}|^sxNY0yUc$96
z1z!rUi`!h2dvE6#Dr|Kuzh?5lyd^K>JYO+g5wo}=9Wim$<nB+MrQzC(O&6Nt&brC2
zd9mQ!c2J9|n7BM55^6nlLtGoxt&NIn=XLp^R+!Mj?J*sU_(h)zwsQ@^hS1QJJ?|g5
zeBiqF4}_0|o5F#~UAOY`L+yW_S24xUo5YYQToCqzha%<Sp=fDi%)Vw;7qhRs=KOxe
z_bNVaiETa@vmK0?4hFRgTF&Ysp~yzYy3pCU=!)uGKl`kLv+m-3guwodu)E#x?{x@r
zWAlUmADjPjvH4>B3{3kg#n1YO;%BIpKwqKS$wkkSco@_$iLK3&A&teiV*R{T`3quZ
z<F61i%aiDl{0aqMMz9DM%fE({@%5ua4?`w7@Gy=8aPsR^?Gyz;3W$4G`1m&vYm(oh
z_pc$yjl-%Q-mv^zC~ZVjJ_`PYVKEg`HN<rAF?uviwX$(m|Do-w?RsTw?XK9$UDy4w
z>H|~Ssa+vQXhrBiXhqagal_<V3P~-`L{gQ6q$&+ix7mFs`$pVn`ur#0TY3y6Dq$Fr
zy}f;B6V|@tu&;qPRh%pndA;NT>mF3xTjh%w-V~C<2&e4<{~2$ubFXW0l7uJuLwO`k
z+RmL$Wky4-KgGnt<6QTeZUP>tX_!YY317<zeNZcF0{S67pqnrRx&D++LG1^a#uP&(
z8L55JZU;1{Ik^jFC6)q)*_33M3z2U^JvmrdlrpLEE|};d9ayUglf*&)YzC{g5+y~L
z+6)0P!yaM@2$R}?WkPt%5kNf2h8L%0atW=${%-zeO45Cm*KtEFk`Uz3$CW{?uPV*%
z(utRh+Vj$E=@d5w)=;v%W(wrp&z2v7-(~>glTlVc&zN~IAf%W-6PUleE;)ixk}pxf
ztUw@QsfXfZJ-A2YkGQ}9e;P(O1$Pu74Lnl>KdgABi9g{`)|s2+V5};C&x!E{=ycg?
zbJMCE@k(jzaUXCsRvA-;l4GYcydr9=iJEHex69JfVjXNm<n={{swqy9Z329*0fHy$
zBCeNMQO5PIMkIslg{Vf_tsquVlD8F9-Zni7bz1o~6ievY=dlsVfloIt{r$@3RK_Vi
zDk<KUI5i&)capcw-*MF%84axucYY1ApD~&L%T@<Z3U<%XnEY=6%4Xw>N!z9+vw`u|
zkJgbIY85+#(CaN*ew<oG5NBewBJA=_46To^-0k&4Hv)x=Z+H+okx{=3j^Hj2bRf{m
z%aV_DAmg1bkDT&M#Pqv57UeSx<WlevsZmaNPQ%>@x)dMW&!N(R7M^r9O$j5U1ZYWo
zizYB@sgiRJEmh33{9SwlbJxQ72+9g1zx7P_T+>z<1dd6b?c-HT4~`16mj;GV#v~UW
zo7o?$P(=Sl-AS#dR=|B-laivKeS;LG_345Ti%)YyV3;!2mOaPX(y_HAzfT_#p@496
zQq41|$W98qu6{tzRnclcb-f-HC@TqCngZb`D_TPW-0SK#Pj!a+!JA*}|F|={{i(R+
zsZUn4CRbNsF<)nrH&Xl46f_`!3&+SnpFaWH3r;BXK;Q8N64aRL3f{4O1F*u#-vMBq
zHH{_YZ&7jj2KnDnKq`fVz%T@m#ZV7C7Uki7cH|&oV~fX~POz#8M8mwkgn&;@A`_g3
zpp^z-M&Im|!xGf|LS@ys6~dRKdp^>Je$nN^KlM@MC@Q}QS;@Z($YnHqT?l>#xyj1w
zYrkC$uOof!2masLb#;tIe{hr>h-(*2ynZMD&Jjx6$$zl&1K-s;CH?~)0qo@O8n~*~
z>1EN4dnflp26Ggjw@h2YN8<L%NL9?fYH}ZG<{Y6XV#Z2HB`aHIOK()S-_vW$gr8Km
zhiu>k@(Rv%1-rtVBg6m2vSGfueL>Hei!r5T0t^~OWmCcrm(@=l{G_68rtz9JUh#O;
zvh234G-|7yU%qBqn0Hi0y5o-KTScz<qAk}pT&rE+G`sj#gih$%bjA4#oX(MdH;-H1
zuu#Ma1)<)Ud0A}L`dbyNKCx`LX1%A?xP+)_+2?TOEciURlF-2d;U1^83+RYhxQmXs
zB8C}j+_@3XTOtfFl~G+K!g<7X&YykOj_&&4!oq!2Rl3WiyKfWGM!H81r^IjsxD0c=
zu%CIx!tYf>i-?|Aq0IseZ~=C{u1n!Q2{VirKRuK@T>~Tqmk}nnySBMhykJt(GO>aU
zr&Zh;BDwq#s(PB%04;xzCNVE$g1xEZhPXVc+ZC<cbgkr?5Uto1$BVd}vP**7qq@?h
zYVef%3{-<|tk8szR9i!ZkTBDcBPQK1GVaizu&=Mj7ZCC7M?&@kStL6N?-@F-oPIb=
zZ<nJSGxO^w3>jvA>P6NQ(D(9brY@H$<VxB_#F%D&0x4q+7$|{QuYf6_q1hs4i%Ce(
zRR*-LXad?rjv+amI?{Dbm{HnHtX?j&xw<mI20|+);rR1cG>T5`fzV)degSAQe>t)S
z39kX&m6SmVv-dCv<3l0L4}<8{;qZnQDmSLd!q1!N2Fwim@WbMYBjaz->%XSp*AXO4
z&~iznkdseP8krj48~%F~|9uL6K*4`PkPwIEzT<91KbA0@bdv@w!Moup?(UP$Dtaw5
z)y7scQ<|t~RdutnP(!fKyK%<MCr43hH*KiDM+7((1_Rr<&B4vk8i^Og8)9`-R~;3r
zZ^L9zKV1(MlD*)(dD{HSKKM#@d<r8j*|v+q<}1$k%P*JTw7|wp>Yoi?eF55^g2J#c
zy<<v0<$1$If>Sxr?24M`^44kd@94j8{hsyu>G-Cu$$hsij!+%kF6S&YQ0m7mbud&5
zc~gDga7+!vgz`CIbxc?t7i!500LX6~4mHLs6?2yQn58~$X=J8!v-O-QXbOu{rnqS(
z^iJmtK||=|lp$`anm6Sw%5$8v1TEnMQ<k`?cEPMCM?}5ekYuRNBm~7Tiy06^QYI??
z55B}Q;0<?1g4@#z0;?P!^!4a5fa(LLRlyv8hu!<S=5_n)4&V<ym+DsCA3h_nDX+f4
z%&C>lLCqwkW?)yWV#20b&jdLo>#`E@3MVBlm-`oCnK$fjIFOq|@KXE0dZbm~UIm*Z
z=?JgMnxOp+O;Gd7jv!(uQJ1_0HHr7PFM-JlI(k#0)&$|ulr13*FTp)pGN!aY1eK#U
zYQHzNpC=w>BY+^v+?EJ~<H>b?1D1`noq-tbtS9g&b(nJF9(CM+9r;|&U8#H_qYorv
zWId8_Jmuk<%Y6%Dm19Mu>_Z|1W((%(Z?K-ej-HffRgYJ-C%%FQe~DxupXH><9Q1;0
zL;WPNW<8R4#iF+V;2IT&v5fCukyRC5Gjd(`=YoETREyf4`kSj?0Vobsg+eY@Ep;3w
zEJOb)qg8VA&U*ZnY64L{j0@Ous71^}whX(}N);yko7vNhI!pl}Rfq74)S-UOgqYFa
z9AgN|yJ(ai^z~RLnt%m|Ck$k#p2$#n<aGMWW22hfV-tA+o!l6(yiy;?%ehulsv-0T
z_!2I2#5QC-fh;IygR~Bn2l6udMr-d8%1&6Z0&B7wz^gjfvJJKJxvoSR2cDY9!_L{3
z!g8CYG*k8|;4>-jHPeI*Djt+pSKLG%d$*?Et#E_H%FKR%6CG(R*58nwpY9u6DJ`$G
zVT}HHwUA?Cu94DTN%z$fus#fCi5bnP1!JXyGR{Igkc7FV-#S~@_}0#(AEAr+5iUL%
zIp`U4of(!-GL^*%kB_M>j(NTC2mw#-mByb|6%mYIcM<tj>hU!y2OJp>bid<C?V6U%
ze7LOioWSXL?*KWY)cxFcCRK#FbELgo6fepzU|#5qsqv)OI|BCs;>qwV>^Oe+#9vPR
z$De+>UGB#FB58>@0HzBIBl2}9Xn~u-T4g^$$VfqL7FA5{piEe}5|bmby0@09O@q2p
zR56zmnYz}A`eH_K9t38Tq)mWGhfLoJ4Vs7I$0#5!6y7Z{ivIus4s4O7^<?sQNKt-F
zCY2uvbJF$GeP+B`^>T5a@%9}*;rFGLX(^zOh}}GZYN6Jew>yZP3~!0ZGaI61t#NzX
zREL^a89p50;h&#Q*$@FxecawKXWtOBZ;0DBA+MltDtX1gA5y=Im{J1PU+-~fKi;Ho
zXr_R%;4e@t{h?$qW=^OHgJR-V{7?-?*~xvzh$qaX$binmE6Ke8he>*PbV!oDRFrsz
z1nyqwO_;EDA<}wail$H*!hB^2ZxASrqa3H;CIx?l08WL(%@d<3k5J+;ON3J@%+chj
zY9^OeC8~uDnzS@y$Gq+{?(q@DqW$|+>W373LO}w74^}#Ekv;_iz|N#`+MYc<@*O~*
zr3rZ!>+I*GRN*W|bD}FIx^9Y9P(|ns^QKN{8uW&!SOt}dy*%6>U9k?z1-$|8M&>$r
z1ySBQs660@T031!LW1MGaoRY!Z{AsS{+a1#Ug?6g(0N<5%!w;v;)<JO*lmkewZ##N
zuG>aO=&2jV;(2HJ6rBq*<wuRnBlR<<Z&a;^#hTniLo!y#>1a_?+|mrWBAMu+GZt~n
zige0&q%~T!I&P_%;-M6=6`t!0_J#RyOGLV9ZJ4vR#;mQAkKeKu<V?S9FFS9Yw#Mx)
zbUY(YhVI5-V^|v+jSI`?1XoOOMI3Y;KwPMYNaAo#?w>b0(CJUaqWR)V#WVJ1@tWEC
z51Xzw#akb{e)vXfXVlUeE$EytC<{LmD_A*~-w?}hnAJt|;V``Znn2P}eAC`o{@$rw
zpW2;tKINS~7x!J*7dbwwy)+nKwk~d8KWA@`+1sz}yFM1TAD**69kV|jw?9K?c8fo^
za0Mmj>!#~&*$YCC&+NPA_)gb_u^;IF!2FRpR=7WIKd@v5X^gB>yHEqXcgdpf30F@a
zj|(g2gsPZO6&F@sJ$YHUekvyHgKa-)_3we!t1m9Bo!oU7TC$ZhLbP@}$%ck$LkPVi
z_bhwOO#S<7F0Z*}j@LhS{Yb2SZ_K_osK4zfymaz{FncQI*gR+77PD`=))%+${kSb=
z@0!wMG0YjuV#czY#$}M=rpC{GDfp$BX~mQ_Yi0bcPG@$aZCgoL`{vM;_7gfCgt?p2
zlgHf2;K^`n_;k22Zmm(~J#Jk$rA6(Srg>+@oU<n8teMH5`NE7P?p#0T+!=H3j5{Bj
z5|DZRh3OY&8bU9`og3JKe2{2K>bzBO#xv!oB}w$OaqXfMCR+ldGQ=Cimb<f)f=L7k
zGwuX%56hBQUL-=Mluw^wcP^!TQq@HuG&u;!d#IkC`$WqO<<V)*M`}EFb~RIt7tr`q
zil>17I6JtOgoS(CVwGR!v3#g)G%Cq@UI!M+IDu0uP-uxtU%<BIP$uD&E*LuHdGy2i
zI6<QlN8wjozX;Z|8TLy(iMzgHjF=(UsUCt*nR0dXU*-L&vpo=3U<(bTP6wq%NMPq?
zOaU|4X|b2C5rFsYpJPDAOEUGQ$4C69lmp<~Tv<7ET@6ubQmHbk{sxt9?}WQ-YJnv=
zrX<))6DbyG!0V$ca6Gubh7o#H^3p_|n5LPDvLjC)I`rgINB8V@KYr-wVfW#uJGzd#
zk3M^7&yj>PBk!pvpFZS1vafs35k^{)E?M5e5&syYmW&|7HbF;A{Y?9W1HX*XNK?uG
zfu1vUmqOM4gkBk?dx>IyO~Id1@Mj3vWkYEdm#XA)(nzHo*i>dj{tP94NYt(b0V8&f
ze4<o}I%_Ec1x@+Q(zck`rjSFSiVim88ki(iY{P!H6v1a}cJ*vYtaNis#7StPo7sSy
zKR0n@^)r<--Pg+ErMqLgqRBl|Z6R&wFo;!NK2xRf@O>@4R65)8;ijvbZd$fNou*KO
zaL2cwe)ri+&(5Cu@a)yIH|;wo_kCit&)Z7Foi}VC)HqW;Z`n6zITW)T0`&?L&CY{~
z0O?U%6_9)Fy4hXVoY#eq_r+_z5HqcWTFw{R6W)AVw1=ugzVM#N=BU^h)ip9?#YTA1
z30&fCX}jIq{s4qDp-KC%=F&)|9TjuA4y0Weme6UVWqRNP1pOEZHMwLXb>qQo3|;mj
zjdKbKv1(Y5f+qgjm`+z?0ZoPunSUsR_F)jcTA1(u0JYZ{(h6Z5lai0)t|-6aX3jLj
zNhbXF0IDqaKSB&fHbB7#Q-XtJ_5oTYFUfeze+%%xr?vhjBH*-D4eqDl6W~G}amEX3
z<_hX#1@#{|KP<mm9xbSk7i`0UAE;Qf)T^Y79r#Aa)NqWLg1VSc7Z(~PcVXR|Ef3JM
z7M`;OZQ+-uY;jY=f>B3$R$WrhDqlyZ(oAb^vx^RRY$?hIEDEtFZDvU?yYv!+kp;Mx
z8LZd^S*i1*pi9{gQ=#UVesy^~NKu+=5&B65%${8IE~O;k(zG)t-J||v6zE$YTq71K
zVSPNHwJAdfC{1$9z~EC%)ENFUF!n$^*L`Kt*1(1`E^=cwyj7~>{3On@CznGtPQZ$4
ze)>0~pGE0ZHKz7Q{mrd*P;=>&Ei<SnB<*9=f)jvDlKTj8g_vl2Mn)5Qm=8zB5(b<b
zC&z!osN(+n8wB<16p*Nw5O8DEpqqgz=9lA0y=+oUE!PPwB}d8U>6Ps{{V7-seayJx
zqiI#iP10?e*(aGXg~MQ5Fb%$+04md%QWPnQmek%5Yoof_s95`Her2RKp5FjTNpyq`
z#Kek7%MEd5RJSrJu1uL)ZVP$mYJxRy)}3n(Hpj^fLhSgr*T1{<(pJWKr_3*rcK8a<
z8loi|e`oajf$s%wS`JR``82}|H!oBWIvjd2EQVhE*5Rmgb<9ySvuW0Id27tEF=pBr
z)HAm>Mup}q%V3EKKYj7}3(sF!^?t+UhWPRgam&Uz%a)jB%eD5n<#AYNMEm4HMkf~S
zT-ra3MBwt-f9}rJ{y)ES=?gFpzs#Mh5HofECXXiki`}^oGBzkXTmC6l44hLI?`ZjF
zNR@w1!T+Y<?<iQjlVvhjrnj(SH~j~sExAE)nWj(1nG25Artfb6`hRnS7R|KBDmOfE
zgZ{>0XezAX_OSJru|X{kWg|m9GPwsVUUIvpPDH^IBKOuk%eHRD`IwaT3FI{QrbLPC
zhsd+K{27t1CLuGIb~3m9N-6(dl2EHe7*^4o_Dn{+&DniOYtnO(DYedA_Q(edqiN!l
zA#~=j5-BXogX_AYO_6Qf6c*s=6cKI=gD^Z{N)z8jWV{4<W{`0cok)T+EN%lD2cgA=
z5(qJne+79?5P|R2FrSVx5b~4=+Mk0c<N66$JF=gQo}<m|M;!(AH`iv*@DZUaE^^ok
z)mb1XVMRAhi)nlZ(NuUtW0f|+iEM<VT8OI|!fB)OGNfcM65PoyS7Zq?aSF`qz0Ssb
zh7=5Qmr~!P;Gc$JAQ5XZ=vmBb2B%<6_uCDwME*x=i>v|3LswAh`m$W^lMbR{(&e6^
zDRQabPH1W^BDh)ry1lBU83u@_b7FZ+EQgzyVYVSwyDeI={f4-maoh8zeRHNmG1H-W
zsC5<6-W%ziISJ{|EI>LW)$Mk8eH1L8%dd{*S5F?e4F%YX(=W!ItLB^yF=s>Exn|C}
zF6LbK!P6f;fAx7N$tJsQsg56vulYd#q2;ROrezy24Ne%91fK{WhME_Ll+rASZFxi&
zv#p%c&6|qCn_{NwDeHW7&6NHPPs+dE%KYn%I0W>$0CD)y7?CCL+#=kTQl*h;H2W$Y
z+NCO<Njg^JhA-meps)Kqn!4*0r1-+5<EN@<Ff&C1O}mW0(ZIbxvqpQ3&6>p-Iufpp
zbk20f#WtwC@8_6OT??V`qsltC*@Ve6a!Fe1$t7&#PIS$;GSK(XM!Lm@xo|wZq;65k
zvh<NvNuNs=N=scTLSV>R#86~Ck|FJ1pGItH6IK$1!PTP_B_HA>mQw*h$9~fF<#O3d
zp`8o~2XYZ~mzj$JI=DMTf#7#bSc%!mWDyf}ho((ARPzjCcStpIhnU|xBpzVhq`_Aq
zK_;N_3e~|erFC29f^u#XlydOYerbX!hvD|ccp+kb5_*p;d&UyxJ!gBoBXlNRW(dqf
zReqHL$nek}P?#TLZR+&7RxIpcFowwkUI6>3t4w}Tgcp<N3{F1M>Mcb1URu2$0OA3x
z5vk$rbTIvvv+VqH)6d<g+#Gjq2@3OO2ktRho=pALvbeJ;D12%yj+ShmE7=(<*?GMr
zUa~)KJrFe=AjyUd4e~o};qkY3M2i~YLgRN1&k8dy#Dw-ap(7@A#D!h3t*C(E4WWU!
zP(3F!#e^nB_z??pY%X@2%OayJ%?Oi8zJ`xmYKQr0!q}5*A29|d+dV5cBLYW6<tjLN
z3Fj(lu`^Uk$F8<d<UiG(UR|ebFQqi(Y1rrSWpvpcPV^Z3DZRR6%!r%Pah(1!(-|H(
zD(ImYOWmL}VPGjbNlY^%8JLAUw6h-U6GOn*OV{FM<<KiqbFf2j3Zi+y1GiHyV3P6z
zny+XOYFVg*Td0=U72IK!(mF737Ep_lK=PC%N>(sBq7r{EIfCTMn#;`!CUhH0=wM8@
ztFZmhgk(SJNaxZ=sCnedm7Lvt9PrN7ON@#-hPawBHw+s)bu7U2I6N)bdjjpsLmr9!
z;e%s1U43#*dfT#77@ddKxs(haUEzvb=;@{l4{p3T;T>}^2Yv=ex4yF4;69IAYj6n$
zF0G-XA;-p8{;sEw9_%=B#MSKT#GgMnv2Uo?E4xm5W%x$;nuKIOWSq|c((tj@HK~Wa
zvgWtogb1$ZZBk6-O0lQd{q>8=umX!98TLVNln$1h=^G!%-(E=GCE}uka;%T+#L2+$
z@jiU1a;Lrvz9IFj<$C3|+wnum(zxsiqs6k4->O{a-#0XZuUBp<VfTyR4idU(gnG?<
zJ~p|%>jv9;hv*J(3}2Ii;0YBd7`thYI&vOY>zdt!t=sUEtPzEj=}_*;^)<<zD4E~~
zA8?9GVL*t|i~|-|F=9_6jwTTTHG=`ErRIr8S1;x)!s1wTvdaw5U3eh4M@Pn2-9H3r
zhl>>0Z=!x*8LDLd7NL%5eVB*Og$GwZM=Eh;bJSF===}dXwJoAO`3=O9-usM#<slK8
zH|9veG--K@Mo|7Dm3)E%M!pIu#w7MPDdwTz7zHN~By>Hak_VJ-JH04Z)Vk>+u>}8E
zf`1~xACSpBlQ2C2$|T_unS|+p8Z)RV>dMLK;+%i~u*lV@GC%|I0wSPq%aZrMzO!ns
zY)!0e%?)u)%BNv<(x+h!d>ZnL&zDV?F$;g_@T*^%hc(7FZBzVG^w5Ky+d>ymzOf^!
zI~ZMdFs?f|wc|D%3}AqM<?+dm$x~C6bjAJ3ud#zDE0yyoE5Ch&j-ae0cZyOtG3;Vz
z^*@0r8x9R`era+qba&^T3qCh*7N+)wPDD)=k<oWwy7bbu_21w6y{(^XHC6+=uB)s9
zeif}#9r!PYc>Hh01z4?9TVPoNnYI?5dlC1#bcD~&v|aepEI->id-i(E)rsq#c;4R0
zP8{ny_j2&%uqWb(bVN?UEOj_;Yo4=hiP^TqZCmGT9Wh%++_nps2*5#uKHXNV+!r1(
z&D6$iZBbJj?h8;v57tUaTx^Z%S`{uAbDMey?=u=qOCpm2&*{3FEav0K__P`#7hO)_
zWl)?+jiec}f$}^+hmULFQ%Zs~zX}Yj?dnvxFTG4eHerOz53SLJlg^(g-uCVu&xq$(
zAC6l=%dA|3AyaMmlQ8ylmYZEqflKUCz>Bu7Q~i@O`1>;IADe++Q9YLAcW7;PphBGW
z6U*ns>X=x4Q(QG~E4)=)GgrJVR=h1<j8#@RUtAL{Zl2DMuHQ4a{$OnV!T9>F$^Ey)
zx|#a8xIU^|&&D4z3@TI(iq>g5JL~qy_4H{r2$%yP2jC`sO`c;tGR+Ham{<Rl4)okQ
zO3{-V-6s>fh|e9PKe?m)DF_;0MK?!yK)I*hPJcY62}9=dL%lvc;$tI|u(D+JZ|C@w
zu~lFRTPOc;jx16=#JnWTy(62HOV$$R&O@8ryUD(s(338I6Q!(EQj|Y8LkLYSr(hWc
zO%!aSU<^Sb|Kt(&H(C_(bc6_IqTpob$fiZfV}nTCt^6T{OvpllT$~Qj{1hl%=burh
z3dxcIXg}F?8Z-Pj+2j>4QAs&W_bAJMLA~5h!4V1=Qawj89|c4i6jS-z6#Fd-Hc~K6
zK?4Q9OTkAJL@Bs~AYr6YT6YZN#D?owOY0{2e^M@~I+@{{Sp=D6%k-c!X&IQ%%6NZ<
zAlXXHx>!G9+N%7~q3!Zcl)yjE_ZL_rxC57`Gjx30Uvbqx;wpc{RsEQ&`Ag37L(cLe
zuJEt8_8)N#Kjzlo#=X0Av}1M50?(}4Ni$vjhf^by=Fd$UJ}*@NIftLm1qa_8D*v3r
z&)r(Cv^vrnk>e%xlfq5T`AKnQq%!hUyttNL3(=@X46VG$7ymC!8IN;r2<~Y)P00ei
z-rbVUEu>ro$y~(lHgQE2;n9l|7ba$;+5L0t_Qlrii#zv6x%^LxR)oi*^;<vI-7I<{
z$`$;is3M|&H}6v3%;;?Y+=c_O4F}>y2a)kfaYe)&ZP@<t%A3VcM!CYDI9DWV^v-tA
zt=|`0zf_F{%fipj=r507tGxD9ym@E5pd-rJKd}~t#-g>Gq8&$WT8~bO3no2pi0pay
z;H85&n8F*bjo+i6&l=5q-a>5+-^I@xEw2Y&2`p&o<+h`IK~E8&d=RVh>GB05do^(e
zacVug@z8m3*@b0MaaBye`kt9(KF@Qj>*tqOU3}rf3wO<x{Kk2BIV}q=ThJnYI~ms_
zPPHxzOEE{)f{|WLoZU$m%q&nL(8ru@h?KXV=eBLXt1aLwQ*~2(MePDh+pzf_{Vp^y
zsQe5liW3z55)^*#uH~AxUpp3G)3IROz!#z271f`Kh~ZkW1ucGW7nXzzruQxADc8Ui
zmWSISy2z1B=J0k{xYa_%<qK2@`YwZTFAuTLWM0FUE#zY`?wZSaL#n5ULu*chx1dKH
zRXPe6j1*%75C{e^Cbp`3RA^y0&y}v2uWPz1KF^~Lb#~|lPK674im)0&(zLK(WUnSJ
zzi7eCq5@Z4bB`5Wcv-_$G|a7Njjd>%Jvg^+e{9|U=<)+mt}Ibf7v-F|!x9}8EBH03
zMi6Ih;5XSxilLK*3ucN5G+(LiQc-l*!W%-~^8?cZ3ml>|>)+pcdFwrjF063!j?^F^
ze%tC;(Bl_%=h+vG6f+@q&rGqk#TmeeGhqBCfhnc{Q*7Nb0E2tNA=?El;tUwSNnna8
zz!ckV;Mb+Pfj9%kZxWbd3NXd;3o?KaXTbPP0#i%@rdVSG-xl^>9JqjQM|5WN{lMkG
VJ&G<o&+GXOVgKjYZOVc2{{x%C+!Fu*

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/__pycache__/w8a8_utils.cpython-312.pyc b/model_executor/layers/quantization/utils/__pycache__/w8a8_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9c598e7fa5bee294e522da8b5674ea7071c8cca8
GIT binary patch
literal 17323
zcmd^mYj7J!n%E3500tZYe7`{wr1%gdK1@-fNRgH-Q<PQ`N!cRhJ<;-xLC%l@g_j1P
z^*C^k&Uv$7*>@uA9;7a=GL>~=>g<iRRhyi)lGHi7f3_+=0*KlLc0$*w>YP;kE0CqF
zTvC-vzOUy6QlRXuORCOEOX&H&p6>p7y1!R{-Te1XX8{E%z`X0P9HOYdMMO(QD)404
zPEo6rKnZk!3euA_jj$<Tnl!=F954r&Nrsd$0ZY(2X(O-&V0Mxvur**07EBfdxk--T
zwtyq(oOBYH4Y-1ZlZ6Df2a1Bllf?us2$Td%Crg86lVt?w0_DMq$qE8H0+qq4$tr+N
zzG@RC7SA2j25me)R>AAEG(=NSi<#>+-fEC&n(NbG<M}bIz`L~)oLY@5mnaG-ln@HV
zb4QFmG)Qo1btmhELa|}SBow{FOnOwf7~n<~E&;eng-Ze61N0lU@0e@`tVzdOgfbZW
zh(^VD3gu#3{x>&m6a~HKZ8c*RDuCi%p)&t_GAc%>f;wKIdY3vi;y!VIH4Fu6x96{u
zzjVfgtzZnb(0_;E&R^^Q8eLYX1G=3;{X5iTm(Z{a_1#A0f%<P6^RGcd<1YO)?NYvH
zm-1$D->$1xB(%WDyT4^)ZiO))_y;%U-6X>$w840LzD48R3*$Zb4{p5A=VLF7`4DKh
zDq)}4BOd%@|Ho!Ul0eIUyCkw5zNGhCHs%f(^WksVm^)$2eL|PmFT5Z&2;J~26lvi=
zel4n67*^<kR!2<KDM~o_4kaA=*ragT<ba(L`hI82)0>}~U{Y=E?_>p^*Vl}hSV&el
z{ElUE@P^6T|0NFGOUvw#FA(re1;jBxY;TED)E^E3$nn$j(O5Xhha*uy88P%$)N7Ip
zhr+>#Kj4c&t<kU`%9XQX45~_!7>e<41p+~SIvkqu&tliF&ig{KldtpvTyRPX&qu~D
z`ywJ>MOuRh^fVKeg3xo-Ou!et><`U|5+9xR1w?_LiS+TopzONri}J=>Xzx&n0;%~>
z4Df2fFNxDJUJ_^h(HL}~kNu|kK<D8vzX#tcTO~0zFNLO+6;pCl68L-a&mmi-Vyfdt
zQFH3TD%F%+bDpB~4LYYLlUrwd%>^n>Et&*Vs4z~=f%~*GX+18`F>sQVG)G)&4O5<R
zT5|%&sk`Q}lVAQXNM5VN!E4#(kHYr~KDiucMG)WePmBDtFXEf>2mG-cvNaaw{h^p_
zhLx0?rsrcY&rv=a@kvopo9SSXkIqLTVJRjGcTKQ9dUHND9|?$Zfl(60squLJ2j3M7
zM!F*YNJq>k0qKtG^N0KUt{fJ-0{*G4$c@<LaHtD8qALiD65z$_A`lNtT>;+>V6(2P
z$Q}Nhgq6DHWBx$2>sp_$k0)Sf<c3_Oj!_@7HbSW$M$iPm=qbn+sV%NH&Fx8XdmeHv
znZmL!D%;YPFQzJA+^js7WXdv?ZOO{6m6GJ4;q;-A)S;2hLt~3)zTjMGt~<qb-`lsz
zy_jTPd;(oj-*)DZO5r0^#*oSZmMSo-#H<Q3xn7@4MZ}DS2N8?(Ni|SOU0|sW8<cAe
zP#AR{k#P3gvF_h<1v*k($Hv?y*Pmqir3UEm|M?YY)+SU{a=9xo6$npX$-fS@S~I;)
z&T6#4#NqDr@4Fg3DX!<<nN1GF=GgxqtKrtBbr$UtKPwu`Aqvk(gVY9-OtP2$56t%d
z6t{l^X8UlGIZS37RJ9n2h9%kV551+R=ILBJq+6>opuP&WWlpzOP@txm-eNAFWl~!#
znBt~5ebYiw3+A{PtO`BmHOr=0Shj$Qp1v&GW&&Yfth?9CNPD4Y$qSk6nDJc^`K#AN
z|Lo<MY!|Nb3K&I79!RRrh=2)JJ_YQNs^>+i8!F+*qpgrFQduiiR<qi_(*OR258k-_
z#%AgM#gR;rd+kQ5Xz$|b3|9uaTbUO6`gHDxq9G+l`#k`DxXo-Y<u}}FYk|H3-x4*Q
zq5csagHKmdf|{WP(>rVo`z0xVF9PwQG(&uX(u}uOGERA!u`iL-w$WOlpa*_WUW4q<
z=(7|}mhKG?Ont5!p)VU$Q_~Ve$k1<Ff~CTz=578ty-L&6drb^=gZ{Dk8tpYn*m?|}
z9q^P{aOtK4;i!m9+WCS^`=tX=9>q!XcovmKvJcLRA@O=dI(oAK>hq)l-z{_wf)ert
zqDMRR3crVqk@f%Xzfga-NF`mvsh$%XzW3&DeShiuYrb{*wy=JD-FN3iy3h-6{ySlZ
zKWz2VWLRECHV4FzY>A@xC!2woY>|ASS?~mvap9c3sf@~zI~3_CyufLT9!BD5=v|4c
zx2`Q+dv|cH`vK=pGVUbjhSE*f@J|ojFaGPwpH+TV{Ii;eJtv@KlN(Ml!wL&I6h>8q
zN_GXpvwrwU{+eHiU5;)OGF&ghT}c4G&LuRs$Z*jFdd3ukwo01A{&pk~Ty{qhpr4qu
zJ?nx=FfW*6=-rWI^nHSQ11$6<SnUO7!4fyeEjOXYf;CRX8RQTUYIEHB1B|RvKQPUh
z2C>Y#V1Ccdz&paB5(YcL-?j*`8?YQ!#bH!d%Bt{>MGQv3aWqHggQ_0rIUo%|GubYN
z=7XZ-i-}&FbPP(Qm$0}jcXs*d%f3)Zghh^mV+ekyU$`zix6Qb07DGZ5<qdQOCS~y}
zVCw)okQfghtJ=vme^iu4q2lZCi(ZFpk$TEf?#2%WZVznP9f|L4+TCluB<uOa@~QK#
z^L`+G^wreSSD%_qZflaM$`(*g*W&P2ecOiX*Y$@}Y)!(Pcq8K~T@I#PdlKeMNB{jj
zsg9#b*1dLNy=U#>U(#!rQtZA=QR$K;Yoi+apa+L1$uy`MTKUpx<Pa_C`e+0g8PqbJ
zPc3WO0@N)n5NVF-edJTrIchu)2WdJdA0J&gf!q;iq)UQn!IHy8Cao245k!6o7g-l<
zahqU5y(rP|IpUVMjc^njb84Rlyk&{A22T+_qvO_GjkI8o6>9b8w8+0!0MEERZq~FH
z(%so7^65fBoL#WIHwK()j#D$pt>!VQ4BjZrX_w7G-*uHkXJDfkmYu{%_3`4tV9!hl
z-upw+DQtkIMsawHa`uwM5_vfZjZhBva?mY*O;ru<`OwUK6gHo*X_*g*uyX=d6sNC5
z!mx*uPGie6n4QH8<L9znWq#qRO!H9`TEfywrZ9H3q+3ByIkC$;QX~VDE<*hv{Gz{r
z42&X6l{TbHno=cAn<dSQXR{@gy?pt6imiJ85VHJ-^XaxDskS4VwFBweV=4I09?P03
zOXK4Lifzsm6(=lPP5U>-e%&;Xa?~e=mg^oBy4UFkg^ih_s!U1cT1Tp+EitrJ)v+;i
z@523_dl!FB-@BCReEGAH<f{{@6BjnCUQ3+bYW1dDkEB|U-0%PF%4X~Nlw(ig<np1l
z(&hfY@GTFf9G>;YOj+g9aJG=zGYDgJRIXW*Tz!(MCt@-U-=Zf5AY}C?mmmX$s=rul
zeZB|?^z(%P6sBr4ebf#3hwOsN?Jh073=gn7<rC-54}FI}G5p%;p<({?iQ%z{(-RjJ
z7GlC7F)E$J`V<+ovQ+M%@5U7DpCu8LoVJ_x3lQCay|lzbb@V!-&5(g6vQlha($>7?
zY5Az&PQga^Plx|%^e3YaJuj!&I#?FAMb#Qt{h`P_cue7W*r5}>Ya`3g`(zcEl9?&L
zFDg5r3RLBZvDD`gRScR8<Syb!e4Swe0i%gAVB(ff=#NzuvcQ_CIGa!1#I1i!ffr~R
zyUR#EAR<j+hV&%?GOt;Yree)q);BLQ^Oj${cGoVwiFJu&<!LX8@K&~7xdxGfsBBff
zF^Vw{T~;&`pvEUiC_twog`n!6z%P0TGMM-(%2k|pHl>_R8P>IIUH9Jm?q{>fiQfag
z@3JnQ1mDt8ndrSWur#pdNOCPnMp=pc6N-zOJE8d}Z=8~5p&~df4t%iR;ESaI)QsZ7
zX`iX;10$Nn@A%LNRQ_k!3OB>>p%s*)`I%32ShJMLVpU`<*F4~i5?NDBkpPY@9=a}A
zX)4CRJCgFbBogS@xK%S!(v|!!iek6~Gcgwzcd0|%WP!N}<5C=M=|tS}c46F-H?pOe
zo*u*8%(=928c#5(#RjH9+Gt_9(CuMj82lhfe`EO=B?l6kxp69nArX@1FfOtqZCiGW
zE;FR1*E*(HAqZ=RLwwNRbNxC|HeaH(lP*K%b;zX{?&{Qnn$b=vJROuItbmIoSHCtg
zGRmJnH#Ev$7$4@x&z>F|yU3p!9vzhiuo7x5Mb7Nk-WrcU^zQ7dG98m}Miix0pjZvC
zPQkBbKth+8mS-7o4~~q_*`{shLf#*Y1f&~4_Fuv;dKa=q>bFIdr2{mc-I-=vAF!>z
zag@DxCgUi%HL^6aR=jj>?dk)ECl{YWJ8}Ghqb1`iNd(pzq9XkdJcqw1E?cczsl&S8
zS^Cbq*h$7wo^h1I|1C$=yJHzg(UU^9q#$9<HdBt0#nGq5R7qvJxG`1SNGg|PDjG6n
zwfMid{HfDMsuq!|&k6<3JrRl-0Cw9p&*FAkH78I_PvA+@HPk<)fd%uuB`41-^pCA^
z(<i!zqxjjxb3uC~q3;SFw>>0Y<B4lcmK(x!Z{pkCbY>LCt>_I!Ykb|J;pSY5L!<u)
zzbM{I0Dl4}CC$~QxZ0%q_}a_|f!l$No{g82^<9A9tN1JTPu%x?KWRw0kN>hd$<=Oh
z<4I;*nM3G+B+dAcIs7>k<r?vPvy#ui<O_f23Y;Nsrra<*vhI!q{wjFTuv&Qn<%)v(
zSXFg%sHk@&#n5?8syN$-Tq#1wp!5>1m#rb6B!#ajVmSw0-2F!Ceiv!0f4;OyZv%n<
z48Q0F$Ux_pQLfTk7nd&H`rgv_(#~Tk=P_ad*6iztH%{G~cw*SN!S@c`8eAG&v#!(Y
z-Rm<S1?~jyb>9hZa=mG8AjJ*bzm(+8B$+d0LCL2<NWd13@F8DNB*4skXj-<DxDE>a
zGX|0@`WG;+TmzYJ(Q_9w$K$Z&Y>{o+1|){8P0~Cil^SOsalMARC4udT5_VazZDWf(
zOOG`L*f``{bTxFNu|+-$L;N2I;1E^*C5pPD?^%UGaOWvA#B;Nd6A|eMR`~<Wi0(!v
zkrpA#W9}PBNNsm@D=k60|A}owkf{uicGjhwb<dc7^lqMlukT2l{KNR4&Zlhd4@=iy
z`%&#Z`axrNrnqvAUa3x4A8`Y}3uipD>cr3d3<mSfSA9+os6jI|8Fn~_BiNj?Go25#
z7O*vB1voL=#kU~pRuga4o6W}yu$l{OoK?1vXq=VBRN@;FE~a!1vmNVq1<LYyrS&-r
z7``Hgb~<hELOZy_MMZIc0PEKd0<5neEMcakHd9my|5xoR_CMh=&SJ1xWF<>b)GsYv
zT5DZzTz_@L`l;it<KC-x3pbs8izhSAs>ExzUSE2Btv%^%1Dq>f9DP<dqkbj}_EQ+b
zH(4;l70iL46D8$y4`KP#<y~NN#Ff<rT3-Yr&_?V)ub~Sxs|s{38{`v6s7J&(Pc&h>
zIKznGyVbGh>k0b#hCSKiY}}4P@i;T5JCj=95Pwxc5;kYSsfD<R8i7+bR=Rs>w2A9c
zm%J{grgmV1H3f~79hVQGe~cOGA+N(wK@#qv$);8MAwmhvc4#8P*zNcNb&|K>`CbOu
znUQ^pgw{*8sey?ouBf(a(E@ZHMGkUeb2}yBkD*mBO2RJy07>ZEAqiVWE%?8ra<yZn
z<0)rVh2U${*%!`|U4>)|1Sqf+SUU_M=&Kv8pSIs^zjyU+*QV>p;wgxxxXPAiL65H6
zKC<7j|A<RD_k$eSxTLKTm1XlvUBa5-nqjNhztq2cag%FEbImEPc|DNidXh{Jkv6$F
zB8hM>L4vT*ly4dofFPITI?v=hBq~?rl=-G({<p~4cC>R_v=En+7}XB}z-Xc5jhm#l
zxVBlc8Ud1V@JUs<u^OQeQmSmhtcLu;=0;bhMvbT?rw0ZIk_7MRs4H%YI%2wiC0S#-
z3`1YK=R|y2nL!UmE-<#OvQ3QyKpgmO=v2aeE7_$JV<y+)2Iu^_?|%0*Je4TS_|Wl@
z;S)S;c2HeP$SJ_}w-8>&Yy~p)h(e7AR|<Z(0uY<NypzjTp{gIb><R#j)ME(4)THVU
zW;pk{^#RwqRob0&bR*_?z_o9cwkI9!h}j=--mOw^(&61I>`bzq5G7!%*G@mMwIsbq
z?gt)t&ukU8B-xh7EahzYO;PLTj<zofJCZE!dK~RZX8(5G3$!V1Tl%CEhO<hE)FdrX
zaI=}7G{cQyeMYgWk_3p#3ue(OFd`#Z;7RWKz};0V+|04rDdnF~B-liDu0(5PJOy@_
za{Dgj1yGJ#ksV3BW5n&!O1XjLc<x*0bKko1znv)(3gJsRxPw$Ib0;HxBmR)+lg>qa
z7MQ^T)HoBD{ZY>}-cs=>cSgjh$LE22M4kYt>me6NJo8b1Xx5{$p~pYt(QhYsd?A7K
zMATKM9!2tmW0yq<j}$t|>(en$NEC%As5Q@&2s9L;{t(<D@(G^s3={=LxW^)RqG3<$
zvM=UQE;o6meIaZCK|+O)KLoEu4-esDe~jnVR_z{Nl++;uCD)=n@M)oN%mc?<;cKGc
z0a_4T^uQe`2#pEKu*T#f&>lRAR`YO%67x^X<wl8eQmq`O6-0ajuSC<Pb@7IkMq^Es
zOop&!j)6q=vm<F{O=59d#p^Xf6FKd4<zh6}+w~hRfnL^S96ab{bvga%3dZP9&`l+b
z1U&hikrWEdHrytFVl&>y&5JJ^2M`*)d<PMDFp^KKV!DXrGt*aKPT-n8{FwpxrMdI0
z4qmWeL<~>TC6izcfeL`p>0bzuSc*4XBJgc_-A##Mn2#h9uchXyG~9T8V$%)=p{4E)
zLA;wClQ1Uwr2v`qr<na2W*u0DiV605R+WFaT&^jGLp(TRLq`_)M*!~h78`fTNYIL?
zWproAO&<wIFPGyzyl3v0NoYdkl4;{!pn3yPX7JvZgx;y_Ad#=3bEB`E9vPNhYK&VY
zF8u}4`6rlR{8F|noDUa{ycU^>ih-G&8t-Ebt0IO`WOL%9C;<{ylfRo~If|uIE4_sl
z<3B(X@Jk$&!)@FdYuTST@heBuma{JHY)Ls=9y;3|wjY1kKD1R>_pq?xVe`Rs^O;oh
znP2uiY(AIq9$IF8Rn+>(dq8=%v?oqHbTnmMl%pca)oqoxZ<cqa%a5nZk0(w(DymrJ
zR=D@W>G~rn_+ND7D~c}e&6HK8%l4(p_HE3j$_`~Ml(P~}a9X-<Pu)9_U>>ry8P5y&
ztjn|<!DrJ}bz`P<Po}CPQ{R-X?@rZsKeaJ61qtSlT#AokAx8{KH0c<8Bnjio94Xa~
zy>k$Leu_l)C1jLo-3<Ulk0Jk>=#KoynV>212gJ5rR9Ijktd_r?7FILmizNtZSZ%=`
zXBHjMLmrs}NzPktT;s@hII8J}D{!Mgssw4~;EQ)8bm}1%j`|Z4IVLSw;6e<RFK}>7
zX`a)iS*e4$*0bWUEjZ%b*Vh7_QVKeSo6`?Z^Ymv%?X%#FX|4w9pgfL2+!1$bV_tAU
zG~X33fVeml=O8w2i`ze8v{*Q}bQbks^&rqAI}LE--b8o|GaqJCm`!6w)QboZ>?LqZ
zkrS-O*@Ng2Tn!|rS`tQzWeeUB2*_r^AC%BjBR-zDQ2I-Re~cNSqBE)VFR<)W%#f7K
zDr|Z{Q1&Ko;)_4ROm`FI(jD<?jABJ`5{Wi2GDR;~e33}t#?9hfr9g^)iW<QL83an}
zsj}+TBP&PNrq)|N+J9&N#?+mz&C&x2Hd8sUR{lZl?b`M6^{HgFH(5Eb(fjG(-NF0x
z-D7|x9FO3x66elT)qTL-<`So2*WoC}qo;>8`_eTBQ#A)SYkD7Wy&$<Cgl>oMAhrnN
z0rgL8OoMCbT;k-)sjP!)XxreHPbE%f%c%N&>AJ2|UDsw^_q|tBb-hWpCe!5osN+t@
zkGi0ssrNzS=>1cFefDQ(|MloEkEaGllWaY>s13akH%~j7QjVr%b8oV53<8A>1xdCR
z{Mn*CnbK<fug1+i5I4_Mw>&Lmiwd$7YcC*51ma(i;2;AuDMko+UM}FZlW<;k@aU8T
z)HgPs7sAs#FQJz!7rZijo}U;V8$Wj*PBO#cfb<D2SqHwePLOMD%K65>!eYFTO(>ED
zl5Qi4*$;6+k^sCzJvLb^EKEkn;dJ})RQvHvQ|n{<9!tTan)<8-p5VND_GN7du~d2W
z+QF5xPw;(qf~LG3nf+av&I6g|y^o9gpiN=ft@u(rYXKPA6<4e}RvcLyVk}kZUJa}S
zvUbD@kO>A>2G+|`r7c+wiyTx%?dqkKOY0|6<$JSEEOJrR^&dEHJJw^Vs{PqQEGnXa
z1a3noQm)1<(u7m-g2G$wCHK=(z?6?A--+D5ZAXa8jW}yx0YJ_t;JGsy`@ek35Zw>u
zUK=O}w75G`PU~D%uh!C{I16ThUSJ^j298Xe!9E9}2B^E|_n2pwqxT5vUoew+2^>d5
zyae_>1Oq1s9iADudI(JCUxfSYB-k;l4(TO09eEjGCG>F~Ayhpw1Gg~x<ic(DKIU(F
zEjcO$=T~;AmomU(AuUSDsT=Ge__5<-{PA)A^w`8s_rV>4zeMl_{5M7QLJ8hOQm&TF
z-;{m<-Tqf(&mRB)`U0*6m0;}s{X^;6&QxvZ1Fkd4bSAk@V5tiC>gy}7e^~xe&7GRf
z^7h5COby(PsLTw$xHz_aG}+RZD(y=#{TXL%+UZF-Js*~*8+%iYy_?R%aCYsW$~^0P
zfC1q?q^%@rtIt$4t`DUu+7cW@0G9{XYm*%8M%xvh+7H9=z9<(?hXVol8wmKjjA*BC
zYFa{$QpC?5ftZDF7Ti1uSxx#rX6QPRV-MwMk|QUVid#ioHpQ(wOp3SP-|tlJ?{^X}
zO})S0si<t-aZ?<*{%_h^x$>{HCa|JYT%^5zoT|8}<)lz)VZ<ZInY`krR_9dE+A4ok
zKn_ynik$aKJWC;o=0l0E{Rkl0LjFJk{tkv$|0o7D-G^A^&oTQqnBkuxDE@H^LT!-A
z<wF-HMvjk<^T=!C7hZYg-1&*&6LPIq{PM`Tp|jgxO8*ucS_n@oH<$3<qs#>0Z&~2>
z99%m}VE3b#UBnEd%!+h`5Q<=S1G6}0Z)1ih3Pzj-uJXks#TFA4guJ{%2g~fBa^vZ!
z^ecD^j7~*=4os3Y(=`2CmZDq!mU4Vf)%_=G&*xP6-%u}oPK|s{z4AG=|8J->pHl}u
zrv`!XtLu_fIp{}A9bDc`Gwu}Q-el^(g3Ag$8MZuOyX9PRE{o}kHsIz>cJIdM#;H$7
z?~dMY*=&C)#lG~F87e+vAvRN$W;;`C=Z3V&9)N3jv^(pv(MQ*tpHT3~mf7edYcYh6
zAp8=&K7q(fG-7@00wR5n%c$zk&8jXK(QoSeH|qzIRBhI3q2Zvp7|*P;W`tYzZCv>D
z(%nm`mVQ$3$WrjbOK)F#Vu6?0A`^X*ULIZ@Ss8%~7XTw2d}a#@X%AedT5Vrx&zcc_
z;o!aTpV$cuT_luax$+O(x8a6rOUlyv!~(Ul&2G9uCy(&n4vhF`%?O`_{l&lY6L^;{
zpw?GM8G4A$x(eymN9uP#&#hq9AV!K`WkU=Me)+B6U;6#59kBxSkRi(<=Fl)FVlIj+
zy4Akao-IVIh$^kj79&(fSvfKh<%l&qX{$~S;2d&@8RQT%$RTEsL(CwDm_iOAgB)U>
zJv7`1P*(|HoixBeTKzT~Vi4ga2Pj!PVg_l%9NM=z5p!u@REXFJ&C(OJP6QF13L-gV
z2x`zFs6mLJ1|@<TqzGE!q|X|?BeHG&0L`61K#kr><=iQRx4Cl&s5XfJmS~??itQeI
zD7q#Cflx<R#?}2>8$+A2u9DoLAd)i_f*M01s4*0R8bcwdF%*I-Lm{9s6oT$+%vnW%
zbEqO_5Jk+OiI_nWF@qvv3PFSn214vR^b7PseLVrrp@*134>5xtVg^0L40?zu^bj)W
zAvQx-)9sncnyeY0FC0{!W9P~9k;R#qUOu!sxH6b@HKZ(_Cl;vn-v&jRE_h5~o_)<s
z?QMT-E2lejjs*CTs$eVt!v_H7UU9E8sp94=R)w#ya=Dsjeg32Po%lTg?uRD1BPq+k
LQ#({6Zo>Zt*lFzu

literal 0
HcmV?d00001

diff --git a/model_executor/layers/quantization/utils/allspark_utils.py b/model_executor/layers/quantization/utils/allspark_utils.py
new file mode 100644
index 0000000..4c32468
--- /dev/null
+++ b/model_executor/layers/quantization/utils/allspark_utils.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.scalar_type import ScalarType, scalar_types
+
+ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD = 1024
+ALLSPARK_SUPPORTED_QUANT_TYPES = [scalar_types.uint8b128]
+ALLSPARK_AMPERE_N_ALIGN = 16
+ALLSPARK_AMPERE_K_ALIGN = 16
+
+
+def check_allspark_supported_dtype_shape(
+    input_size_per_partition: int,
+    output_size_per_partition: int,
+    group_size: int,
+    weight_dtype: ScalarType,
+    act_dtype: torch.dtype,
+):
+    capability_tuple = current_platform.get_device_capability()
+    device_capability = -1 if capability_tuple is None else capability_tuple.to_int()
+
+    # For Ampere GPU
+    if device_capability >= 80 and device_capability < 90:
+        if group_size != -1:
+            return (
+                False,
+                "For Ampere GPU, AllSpark does not support group_size "
+                f"= {group_size}. Only group_size = -1 are supported.",
+            )
+
+        if weight_dtype not in ALLSPARK_SUPPORTED_QUANT_TYPES:
+            return (
+                False,
+                "For Ampere GPU, AllSpark does not support "
+                f"quant type ({weight_dtype}). Only quant type "
+                f"({ALLSPARK_SUPPORTED_QUANT_TYPES}) are supported.",
+            )
+
+        if (
+            input_size_per_partition % ALLSPARK_AMPERE_K_ALIGN != 0
+            or output_size_per_partition % ALLSPARK_AMPERE_N_ALIGN != 0
+        ):
+            return (
+                False,
+                "AllSpark needs input_size_per_partition % "
+                f"{ALLSPARK_AMPERE_K_ALIGN} = 0 and "
+                f"output_size_per_partition % {ALLSPARK_AMPERE_N_ALIGN} = 0 "
+                "for Ampere GPU optimized kernels.",
+            )
+
+        if act_dtype != torch.float16 and act_dtype != torch.bfloat16:
+            return (
+                False,
+                "AllSpark only supports act_dtype = float16 or bfloat16,"
+                f"for Ampere GPU, but got act_dtype = {act_dtype}.",
+            )
+    else:
+        return (
+            False,
+            "AllSpark currently does not support "
+            f"device_capability = {device_capability}.",
+        )
+
+    return True, None
diff --git a/model_executor/layers/quantization/utils/bitblas_utils.py b/model_executor/layers/quantization/utils/bitblas_utils.py
new file mode 100644
index 0000000..62a4f90
--- /dev/null
+++ b/model_executor/layers/quantization/utils/bitblas_utils.py
@@ -0,0 +1,229 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+from packaging import version
+
+from vllm.platforms import current_platform
+from vllm.scalar_type import ScalarType, scalar_types
+
+MINIMUM_BITBLAS_VERSION = "0.1.0"
+
+BITBLAS_MIN_WEIGHT_SIZE_N = 16
+BITBLAS_MIN_WEIGHT_SIZE_K = 16
+GPTQ_BITBLAS_MAX_PARALLEL = 16
+
+BITBLAS_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+# For dynamic shape code generation
+BITBLAS_OPTIMIZE_FEATURES = [1, 16, 32, 64, 128, 256, 512, 1024]
+# If want to enable high performance for contiguous batching
+# Please use the following values
+BITBLAS_OPTIMIZE_FEATURES_CONTIGUOUS = [16, 32, 64, 128, 256, 512, 1024]
+
+BITBLAS_SUPPORTED_NUM_BITS = [1, 2, 4, 8]
+BITBLAS_SUPPORTED_SYM = [False, True]
+
+
+# Determines the supported quantization types for BitBLAS based on the
+# device's capability and whether zero-point (zp) is used.
+def query_bitblas_supported_quant_types(
+    has_zp: bool, device_capability: int | None = None
+):
+    if device_capability is None:
+        capability_tuple = current_platform.get_device_capability()
+        device_capability = (
+            -1 if capability_tuple is None else capability_tuple.to_int()
+        )
+
+    if device_capability < 70:
+        return []
+
+    if has_zp:
+        # AWQ style, unsigned + runtime zero-point
+        return [scalar_types.uint4, scalar_types.uint8]
+    else:
+        # GPTQ style, unsigned + symmetric bias
+        # TODO: once fp8_bitblas is merged into "gptq_bitblas" we should be able
+        #  to add `scalar_types.float8_e4m3fn` here
+        return [scalar_types.uint4b8, scalar_types.uint8b128]
+
+
+def _check_bitblas_supported(
+    quant_type: ScalarType,
+    group_size: int | None,
+    has_zp: bool,
+    device_capability: int | None = None,
+) -> tuple[bool, str | None]:
+    if device_capability is None:
+        capability_tuple = current_platform.get_device_capability()
+        device_capability = (
+            -1 if capability_tuple is None else capability_tuple.to_int()
+        )
+
+    supported_types = query_bitblas_supported_quant_types(has_zp, device_capability)
+
+    if quant_type not in supported_types:
+        return (
+            False,
+            f"BitBLAS does not support weight_bits = {quant_type}. "
+            f"Only types = {supported_types} "
+            f"are supported (for group_size = {group_size}, "
+            f"device_capability = {device_capability}, zp = {has_zp}).",
+        )
+    if group_size is None or group_size not in BITBLAS_SUPPORTED_GROUP_SIZES:
+        return (
+            False,
+            f"BitBLAS does not support group_size = {group_size}. "
+            f"Only group_sizes = {BITBLAS_SUPPORTED_GROUP_SIZES} "
+            "are supported.",
+        )
+
+    # Finally, check if bitblas is installed
+    try:
+        import bitblas
+
+        if version.parse(bitblas.__version__) < version.parse(MINIMUM_BITBLAS_VERSION):
+            raise ImportError(
+                "bitblas version is wrong. Please "
+                f"install bitblas>={MINIMUM_BITBLAS_VERSION}"
+            )
+    except ImportError:
+        return False, "BitBLAS is not installed."
+
+    return True, None
+
+
+def check_bitblas_supported(
+    quant_type: ScalarType,
+    group_size: int,
+    has_zp: bool = False,
+    device_capability: int | None = None,
+) -> bool:
+    cond, _ = _check_bitblas_supported(
+        quant_type, group_size, has_zp, device_capability
+    )
+    return cond
+
+
+def verify_bitblas_supported(
+    quant_type: ScalarType, group_size: int, has_zp: bool = False
+) -> None:
+    cond, err_msg = _check_bitblas_supported(quant_type, group_size, has_zp)
+    if not cond:
+        assert err_msg is not None
+        raise ValueError(err_msg)
+
+
+def verify_bitblas_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> None:
+    # Validate output_size_per_partition
+    if output_size_per_partition % BITBLAS_MIN_WEIGHT_SIZE_N != 0:
+        raise ValueError(
+            f"Weight output_size_per_partition = "
+            f"{output_size_per_partition} is not divisible by "
+            f" min_thread_n = {BITBLAS_MIN_WEIGHT_SIZE_N}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    # Validate input_size_per_partition
+    if input_size_per_partition % BITBLAS_MIN_WEIGHT_SIZE_K != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = "
+            f"{input_size_per_partition} is not divisible "
+            f"by min_thread_k = {BITBLAS_MIN_WEIGHT_SIZE_K}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    if group_size < input_size and input_size_per_partition % group_size != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = {input_size_per_partition}"
+            f" is not divisible by group_size = {group_size}."
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+
+def check_bitblas_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> tuple[bool, str | None]:
+    try:
+        verify_bitblas_supports_shape(
+            output_size_per_partition, input_size_per_partition, input_size, group_size
+        )
+    except ValueError as e:
+        return False, e.__str__()
+    return True, None
+
+
+def bitblas_is_k_full(act_order: bool, is_row_parallel: bool) -> bool:
+    return (not act_order) or (act_order and not is_row_parallel)
+
+
+def bitblas_repeat_scales_on_all_ranks(
+    act_order: bool, group_size: int, is_row_parallel: bool
+) -> bool:
+    # Need to repeat scales on every rank if act_ordering or
+    # channelwise and RowParallelLinear
+    is_channelwise = group_size == -1
+    return act_order or (is_channelwise and is_row_parallel)
+
+
+def bitblas_make_empty_g_idx(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def bitblas_make_empty_zp(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def bitblas_sort_g_idx(g_idx: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+    g_idx_sort_indices = torch.argsort(g_idx).to(torch.int)
+    return g_idx[g_idx_sort_indices], g_idx_sort_indices
+
+
+def unpack_gptq_qzeros(qzeros, bits, is_gptq_v2=False) -> torch.Tensor:
+    qzeros = qzeros.view(torch.int32)
+    elems_per_int32 = 32 // bits
+    unpacked_zeros = torch.zeros(
+        (qzeros.shape[0], qzeros.shape[1] * elems_per_int32),
+        dtype=torch.int8,
+        device=qzeros.device,
+        requires_grad=False,
+    )
+
+    for col in range(unpacked_zeros.shape[1]):
+        i = col % elems_per_int32
+        unpacked_zeros[:, col] = (qzeros[:, col // elems_per_int32] >> (bits * i)) & 0xF
+    if not is_gptq_v2:
+        return unpacked_zeros + 1
+    return unpacked_zeros
+
+
+def unpack_gptq_qweight(qweight, bits):
+    qweight = qweight.view(torch.int8)
+    elems_per_int8 = 8 // bits
+    unpacked_weight = torch.zeros(
+        (qweight.shape[0], qweight.shape[1] * elems_per_int8),
+        dtype=torch.int8,
+        device=qweight.device,
+        requires_grad=False,
+    )
+    for col in range(unpacked_weight.shape[1]):
+        i = col % elems_per_int8
+        unpacked_weight[:, col] = qweight[:, col // elems_per_int8] >> (bits * i)
+
+    return torch.bitwise_and(unpacked_weight, 2**bits - 1)
diff --git a/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0ea0225
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..be487f2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=12288,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e9a50e1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..119969d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..119969d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3e8ebf3
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2bb5b45
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6496a38
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6e2aeee
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b0f9442
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=1536,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b3bf9ea
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7e52ab6
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7e52ab6
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bee8d03
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9da876d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3618053
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0a1a252
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..46a982f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9696611
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d6279a1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=1536,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..defaacb
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ecc2fda
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ecc2fda
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3bc0036
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..310dff4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..035ec02
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..206c8a2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8b49f27
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..edc2353
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2048,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f81e09e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e073843
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2112,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..987c8f6
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..108af31
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..108af31
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..43b5bdb
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bffa749
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..851bc9f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f96f127
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d1227c2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..fe3e18c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=2304,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f74a52f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8cab1b0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b3ed43a
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..abd1915
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..abd1915
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e4d5b2d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..137b9dd
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..77ba0d7
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ae244f9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..38cac46
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8e6ebe2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b2931d6
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..459062e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1225d84
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=24576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..03e8235
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bb61d83
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bb61d83
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d44e384
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c559a69
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..cf35403
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8ec2005
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..65840aa
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=256,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1a457b9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..574cf49
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..574cf49
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0a5d7bf
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4e120d6
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..eccb86a
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..125fe36
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=1536,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4415cc9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7bfaf93
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7bfaf93
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..cb91a27
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..88af484
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..5c29874
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..dd06972
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..125fe36
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=3072,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7c039b4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c2bd478
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c2bd478
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4990268
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..18afdd9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7febe3d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ad630f0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..51d10bb
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1480e09
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..10b940c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f5fdec3
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6bd350c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=32768,K=512,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..5c604b9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..75906ad
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..75906ad
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..94ce6e7
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9540df4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=36864,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4d25ae
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..fdc6437
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..fdc6437
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9d7658b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..cd3e078
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2b9f0d1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9d5a329
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7f449db
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=512,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..96f6c30
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..5676757
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4096,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..634c1bf
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7eaa7d1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7eaa7d1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..03dba5a
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..96e1594
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d979c6b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..5ffd367
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..be93dfe
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=4608,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..19452df
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3382554
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3382554
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9a5ff48
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6eb22de
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..eabc423
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..84ef35e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=512,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e6d9107
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c9d18c9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c9d18c9
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c746e70
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0b4746c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..386928d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0894ff2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8ec2005
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..202acf2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..86c68e0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..983525f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,18 @@
+{
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..11a9bce
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=576,K=7168,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c298da8
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..56a766c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..56a766c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..386ee59
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..60df5e3
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..40c01c0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4f1747b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c6fd365
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..53bbaca
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1024,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..cb993c8
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f250d3f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f250d3f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..ffe67dc
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2a17e16
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..160f12e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b259993
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e5c4a1d
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..a71ab88
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=1152,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..56d3e1f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 256,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 256,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bbd4df4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bbd4df4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..eda96e7
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..bd0767b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2bf5eb2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..29f7651
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6db1385
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=128,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9cdff13
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7bb8e87
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..7bb8e87
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1a47cae
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8dd5ae5
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9c908e8
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..af1a384
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6d1a8b5
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e77abaf
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d381764
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0cf6a47
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..01327b2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=16384,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..6f9bd75
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f050b75
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f050b75
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..12eea5f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A100-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9db9dae
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f78e706
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..821ad0c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..365f8d0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..f080ea5
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..daaf21c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..0cf6a47
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e9bf044
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=18432,device_name=NVIDIA_L20Y,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c7122d3
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4a3ccc0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..4a3ccc0
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..1d3ce5c
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..2583b5a
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c37aced
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..baa64f8
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d962889
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2048,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3cea21b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..24ef112
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..24ef112
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3ab5796
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..58cdd93
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d6bef7f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b72e037
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4b08ea
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=2304,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..a8141f5
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 32,
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c911a8e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c911a8e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..3cb7eaa
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..8df6e4b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H20,dtype=int8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "128": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..293adce
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..9d7edc3
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=256,device_name=NVIDIA_L20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,26 @@
+{
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..c9566d7
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d86b349
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..d86b349
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=7168,K=8192,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..e471687
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4c3249
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000..b4c3249
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/N=8192,K=1536,device_name=AMD_Instinct_MI325_OAM,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "8": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "16": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "24": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "32": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "48": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 8,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "64": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 16,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "96": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "128": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "256": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "512": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "GROUP_SIZE_M": 1,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_K": 128,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "GROUP_SIZE_M": 32,
+        "kpack": 1,
+        "matrix_instr_nonkdim": 16,
+        "num_warps": 4
+    }
+}
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/configs/README.md b/model_executor/layers/quantization/utils/configs/README.md
new file mode 100644
index 0000000..1110ced
--- /dev/null
+++ b/model_executor/layers/quantization/utils/configs/README.md
@@ -0,0 +1,3 @@
+# Quantization Kernel Config
+
+Use scripts under `benchmarks/kernels/` to generate these config files.
diff --git a/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py b/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
new file mode 100644
index 0000000..fdf3303
--- /dev/null
+++ b/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
@@ -0,0 +1,89 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utility helpers for NVFP4 + FlashInfer fused-MoE path"""
+
+import torch
+
+import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
+    FlashInferExperts,
+)
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize import (  # noqa: E501
+    create_flashinfer_prepare_finalize,
+)
+from vllm.platforms import current_platform
+from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
+
+__all__ = [
+    "is_flashinfer_fp4_cutlass_moe_available",
+    "reorder_w1w3_to_w3w1",
+    "build_flashinfer_fp4_cutlass_moe_prepare_finalize",
+]
+
+
+def is_flashinfer_fp4_cutlass_moe_available() -> bool:
+    """Return `True` when FlashInfer CUTLASS NV-FP4 kernels can be used."""
+    return (
+        envs.VLLM_USE_FLASHINFER_MOE_FP4
+        and has_flashinfer_cutlass_fused_moe()
+        and current_platform.is_cuda()
+        and current_platform.has_device_capability(100)
+    )
+
+
+def reorder_w1w3_to_w3w1(
+    weight: torch.Tensor, scale: torch.Tensor, dim: int = -2
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Re-order the concatenated `[w1, w3]` tensors to `[w3, w1]`"""
+    size = weight.size(dim)
+    assert size % 2 == 0, f"Expected even size in dim {dim}, got {size}"
+    half = size // 2
+
+    w1, w3 = weight.split(half, dim=dim)
+    s1, s3 = scale.split(half, dim=dim)
+
+    return (
+        torch.cat([w3, w1], dim=dim).contiguous(),
+        torch.cat([s3, s1], dim=dim).contiguous(),
+    )
+
+
+def build_flashinfer_fp4_cutlass_moe_prepare_finalize(
+    moe: FusedMoEConfig,
+) -> mk.FusedMoEPrepareAndFinalize:
+    """Create a FlashInfer CUTLASS fused-MoE prepare finalize kernel"""
+    use_dp = moe.moe_parallel_config.dp_size > 1
+    enable_alltoallv = moe.moe_parallel_config.all2all_backend == "flashinfer_all2allv"
+    return create_flashinfer_prepare_finalize(
+        use_dp=use_dp, use_nvfp4=True, enable_alltoallv=enable_alltoallv
+    )
+
+
+def select_nvfp4_gemm_impl(
+    moe: FusedMoEConfig,
+    moe_quant_config: FusedMoEQuantConfig,
+    allow_flashinfer: bool,
+) -> mk.FusedMoEPermuteExpertsUnpermute:
+    """Return a GEMM *experts* implementation for NV-FP4 fused-MoE layers"""
+
+    if allow_flashinfer:
+        return FlashInferExperts(
+            out_dtype=moe.in_dtype,
+            quant_config=moe_quant_config,
+            ep_rank=moe.moe_parallel_config.ep_rank,
+            ep_size=moe.moe_parallel_config.ep_size,
+            tp_rank=moe.moe_parallel_config.tp_rank,
+            tp_size=moe.moe_parallel_config.tp_size,
+            use_dp=moe.moe_parallel_config.dp_size > 1,
+        )
+
+    # native cutlass experts currently don't support DP; TP case won't call this
+    raise ValueError(
+        "CutlassExpertsFp4 doesn't support DP. Use flashinfer CUTLASS "
+        "Fused MoE backend instead (set VLLM_USE_FLASHINFER_MOE_FP4=1)"
+    )
diff --git a/model_executor/layers/quantization/utils/flashinfer_utils.py b/model_executor/layers/quantization/utils/flashinfer_utils.py
new file mode 100644
index 0000000..f22e179
--- /dev/null
+++ b/model_executor/layers/quantization/utils/flashinfer_utils.py
@@ -0,0 +1,298 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from enum import Enum
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
+    FlashInferExperts,
+)
+from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize import (  # noqa: E501
+    create_flashinfer_prepare_finalize,
+)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class FlashinferMoeBackend(Enum):
+    TENSORRT_LLM = "TensorRT-LLM"
+    CUTLASS = "CUTLASS"
+
+
+def calculate_tile_tokens_dim(num_tokens, top_k, num_experts):
+    from flashinfer import next_positive_power_of_2
+
+    # FlashInfer 0.2.10 has issues with larger tile sizes. Set to 8 for now.
+    # TODO: Revert this to dynamic calculation once a new version of FlashInfer
+    # with the necessary kernels is released.
+    tile_tokens_dim = 8
+
+    # A factor considering tokens are not perfectly balanced among experts.
+    imbalance_factor = 1.3
+    # Calculate the number of tokens per expert
+    # assuming perfect distribution.
+    num_tokens_per_expert = (num_tokens * top_k) // num_experts
+    # Apply the imbalance factor.
+    num_tokens_per_expert = int(num_tokens_per_expert * imbalance_factor)
+    # And pad the number to the next power of 2.
+    tile_tokens_dim = next_positive_power_of_2(num_tokens_per_expert)
+    # Cap to 8-max_tile_tokens_dim tokens per CTA tile
+    # as it's the range supported by the kernel.
+    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+
+    return tile_tokens_dim
+
+
+def swap_w13_to_w31(x: torch.Tensor) -> torch.Tensor:
+    return (
+        x.reshape(-1, 2, x.shape[-2] // 2, x.shape[-1]).flip(dims=[1]).reshape(x.shape)
+    )
+
+
+def rotate_flashinfer_fp8_moe_weights(
+    gemm1_weights: torch.Tensor, gemm2_weights: torch.Tensor
+):
+    from flashinfer import reorder_rows_for_gated_act_gemm, shuffle_matrix_a
+
+    epilogue_tile_m = 128
+    num_experts = gemm1_weights.shape[0]
+    hidden_size = gemm1_weights.shape[-1]
+    intermediate_size = gemm1_weights.shape[1] // 2
+
+    # Reorder rows of W1 for fused gated activation
+    gemm1_weights_fp8_interleaved = []
+    for i in range(num_experts):
+        gemm1_weights_fp8_interleaved.append(
+            reorder_rows_for_gated_act_gemm(gemm1_weights[i])
+        )
+
+    # Stack weights and scales for all experts
+    gemm1_weights_fp8_interleaved = torch.stack(gemm1_weights_fp8_interleaved).reshape(
+        num_experts, 2 * intermediate_size, hidden_size
+    )
+
+    # Shuffle weights and scaling factors for transposed mma output
+    gemm1_weights_fp8_shuffled = []
+    gemm2_weights_fp8_shuffled = []
+    for i in range(num_experts):
+        gemm1_weights_fp8_shuffled.append(
+            shuffle_matrix_a(
+                gemm1_weights_fp8_interleaved[i].view(torch.uint8), epilogue_tile_m
+            )
+        )
+
+        gemm2_weights_fp8_shuffled.append(
+            shuffle_matrix_a(gemm2_weights[i].view(torch.uint8), epilogue_tile_m)
+        )
+
+    # Stack weights for all experts
+    gemm1_weights.data = torch.stack(gemm1_weights_fp8_shuffled).view(
+        torch.float8_e4m3fn
+    )
+    gemm2_weights.data = torch.stack(gemm2_weights_fp8_shuffled).view(
+        torch.float8_e4m3fn
+    )
+
+
+def apply_flashinfer_per_tensor_scale_fp8(
+    layer: torch.nn.Module,
+    hidden_states: torch.Tensor,
+    router_logits: torch.Tensor,
+    routing_bias: torch.Tensor | None,
+    top_k: int,
+    num_expert_group: int | None,
+    topk_group: int | None,
+    global_num_experts: int,
+    apply_router_weight_on_input: bool,
+) -> torch.Tensor:
+    from flashinfer.fused_moe import RoutingMethodType
+
+    import vllm.model_executor.layers.fused_moe.flashinfer_trtllm_moe  # noqa: E501, F401
+
+    assert layer.output1_scales_scalar is not None, (
+        "Expected output1_scales_scalar to be initialized"
+    )
+    assert layer.output1_scales_scalar is not None, (
+        "Expected output1_scales_gate_scalar to be initialized"
+    )
+    assert layer.output1_scales_scalar is not None, (
+        "Expected output2_scales_scalar to be initialized"
+    )
+
+    from vllm.model_executor.models.llama4 import Llama4MoE
+
+    assert layer.custom_routing_function == Llama4MoE.custom_routing_function, (
+        "FusedMoE flashinfer kernels are only supported for Llama4"
+    )
+    return torch.ops.vllm.flashinfer_fused_moe_per_tensor_scale_fp8(
+        routing_logits=router_logits,
+        routing_bias=routing_bias,
+        hidden_states=hidden_states,
+        input_scale=layer.w13_input_scale,
+        gemm1_weights=layer.w13_weight,
+        gemm2_weights=layer.w2_weight,
+        output1_scales_scalar=layer.output1_scales_scalar,
+        output1_scales_gate_scalar=layer.output1_scales_gate_scalar,
+        output2_scales_scalar=layer.output2_scales_scalar,
+        num_experts=global_num_experts,
+        top_k=top_k,
+        num_expert_group=num_expert_group,
+        topk_group=topk_group,
+        intermediate_size=layer.intermediate_size_per_partition,
+        local_expert_offset=layer.ep_rank * layer.local_num_experts,
+        local_num_experts=layer.local_num_experts,
+        use_routing_scales_on_input=apply_router_weight_on_input,
+        routing_method_type=RoutingMethodType.Llama4,
+    )
+
+
+def get_moe_scaling_factors(
+    input_scale: torch.Tensor,
+    gemm1_weights_scale: torch.Tensor,
+    activation_scale: torch.Tensor,
+    gemm2_weights_scale: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    output1_scales_scalar = gemm1_weights_scale * input_scale * (1.0 / activation_scale)
+    output1_scales_gate_scalar = gemm1_weights_scale * input_scale
+    output2_scales_scalar = activation_scale * gemm2_weights_scale
+
+    return output1_scales_scalar, output1_scales_gate_scalar, output2_scales_scalar
+
+
+def register_moe_scaling_factors(layer: torch.nn.Module) -> None:
+    output1_scales, output1_gate_scales, output2_scales = get_moe_scaling_factors(
+        layer.w13_input_scale,
+        layer.w13_weight_scale,
+        layer.w2_input_scale,
+        layer.w2_weight_scale,
+    )
+    layer.register_parameter(
+        "output1_scales_scalar", torch.nn.Parameter(output1_scales, requires_grad=False)
+    )
+    layer.register_parameter(
+        "output1_scales_gate_scalar",
+        torch.nn.Parameter(output1_gate_scales, requires_grad=False),
+    )
+    layer.register_parameter(
+        "output2_scales_scalar", torch.nn.Parameter(output2_scales, requires_grad=False)
+    )
+    layer.register_parameter(
+        "w2_input_scale_inv",
+        torch.nn.Parameter(1.0 / layer.w2_input_scale, requires_grad=False),
+    )
+
+
+def build_flashinfer_fp8_cutlass_moe_prepare_finalize(
+    moe: FusedMoEConfig | None, use_deepseek_fp8_block_scale: bool = False
+) -> mk.FusedMoEPrepareAndFinalize:
+    """Create a FlashInfer CUTLASS fused-MoE prepare finalize kernel"""
+    use_dp = moe.moe_parallel_config.dp_size > 1 if moe is not None else False
+    # Propagate block-scale flag so prepare/finalize can skip act quantization
+    # and inform the kernel to consume per-block weight scales.
+    return create_flashinfer_prepare_finalize(
+        use_dp, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+    )
+
+
+def select_cutlass_fp8_gemm_impl(
+    moe: FusedMoEConfig | None,
+    quant_config: FusedMoEQuantConfig,
+    out_dtype: torch.dtype | None = None,
+    use_deepseek_fp8_block_scale: bool = False,
+) -> mk.FusedMoEPermuteExpertsUnpermute:
+    """Return a GEMM *experts* implementation for fused-MoE layers"""
+
+    if moe is not None:
+        return FlashInferExperts(
+            out_dtype=moe.in_dtype,
+            quant_config=quant_config,
+            ep_rank=moe.moe_parallel_config.ep_rank,
+            ep_size=moe.moe_parallel_config.ep_size,
+            tp_rank=moe.moe_parallel_config.tp_rank,
+            tp_size=moe.moe_parallel_config.tp_size,
+            use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
+        )
+
+    assert out_dtype is not None, "If moe config is None, out_dtype must be passed"
+    return FlashInferExperts(
+        out_dtype=out_dtype,
+        quant_config=quant_config,
+        use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
+    )
+
+
+def flashinfer_cutlass_moe_fp8(
+    hidden_states: torch.Tensor,
+    layer: torch.nn.Module,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    inplace: bool = False,
+    activation: str = "silu",
+    global_num_experts: int = -1,
+    expert_map: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+    use_deepseek_fp8_block_scale: bool = False,
+    moe: FusedMoEConfig | None = None,
+) -> torch.Tensor:
+    quant_config = layer.quant_method.get_fused_moe_quant_config(layer)
+    assert quant_config is not None
+
+    # Construct modular kernel with block-scale support when requested.
+    fused_experts = mk.FusedMoEModularKernel(
+        build_flashinfer_fp8_cutlass_moe_prepare_finalize(
+            moe=moe, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+        ),
+        select_cutlass_fp8_gemm_impl(
+            moe=moe,
+            quant_config=quant_config,
+            out_dtype=hidden_states.dtype,
+            use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
+        ),
+    )
+
+    return fused_experts(
+        hidden_states,
+        layer.w13_weight,
+        layer.w2_weight,
+        topk_weights,
+        topk_ids,
+        inplace=inplace,
+        activation=activation,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
+
+
+def get_flashinfer_moe_backend() -> FlashinferMoeBackend:
+    flashinfer_moe_backend = envs.VLLM_FLASHINFER_MOE_BACKEND
+    # Prefer CUTLASS on SM90 to cover both SM90/SM100 generations
+    if flashinfer_moe_backend == "throughput" or current_platform.is_device_capability(
+        90
+    ):
+        return FlashinferMoeBackend.CUTLASS
+    elif flashinfer_moe_backend == "latency":
+        return FlashinferMoeBackend.TENSORRT_LLM
+
+    allowed_backends = ["throughput", "latency"]
+    raise ValueError(
+        f"Unknown flashinfer moe backend: {flashinfer_moe_backend}"
+        f" expected one of {allowed_backends}"
+    )
+
+
+def is_flashinfer_supporting_global_sf(backend: FlashinferMoeBackend | None) -> bool:
+    # TODO(shuw@nvidia): Update when new backends are added.
+    backends_supporting_global_sf = (
+        FlashinferMoeBackend.CUTLASS,
+        FlashinferMoeBackend.TENSORRT_LLM,
+    )
+    return backend in backends_supporting_global_sf
diff --git a/model_executor/layers/quantization/utils/fp8_utils.py b/model_executor/layers/quantization/utils/fp8_utils.py
new file mode 100644
index 0000000..1b13438
--- /dev/null
+++ b/model_executor/layers/quantization/utils/fp8_utils.py
@@ -0,0 +1,1206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://github.com/sgl-project/sglang/pull/2575
+import functools
+import json
+import os
+from collections.abc import Callable, Sequence
+from typing import Any
+
+import torch
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
+    group_broadcast,
+)
+from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+    CUTLASS_BLOCK_FP8_SUPPORTED,
+)
+from vllm.model_executor.parameter import (
+    BlockQuantScaleParameter,
+    ChannelQuantScaleParameter,
+    PerTensorScaleParameter,
+)
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+from vllm.utils.deep_gemm import (
+    fp8_gemm_nt,
+    is_deep_gemm_e8m0_used,
+    is_deep_gemm_supported,
+    should_use_deepgemm_for_fp8_linear,
+    transform_sf_into_required_layout,
+)
+from vllm.utils.torch_utils import direct_register_custom_op
+
+logger = init_logger(__name__)
+
+
+def is_fp8(x: torch.dtype | torch.Tensor) -> bool:
+    if isinstance(x, torch.Tensor):
+        x = x.dtype
+    try:
+        return x == torch.float8_e4m3fn or x == torch.float8_e4m3fnuz
+    except:
+        return False
+
+
+# We need to pass in the is_hopper flag as argument because the function
+# current_platform.is_device_capability() is not supported by Torch compiler.
+def cutlass_scaled_mm(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    return ops.cutlass_scaled_mm(
+        A,
+        B.T,
+        out_dtype=output_dtype,
+        scale_a=As,
+        scale_b=Bs.T,
+    )
+
+
+# TODO we should be able to change the type of block_size to GroupShape
+# after we resolve GroupShape compilation issue
+# https://github.com/vllm-project/vllm/issues/25270
+def _w8a8_triton_block_scaled_mm_func(
+    qx: torch.Tensor,
+    weight: torch.Tensor,
+    x_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype,
+) -> torch.Tensor:
+    return w8a8_triton_block_scaled_mm(
+        qx, weight, x_scale, weight_scale, block_size, output_dtype
+    )
+
+
+def _w8a8_triton_block_scaled_mm_fake(
+    qx: torch.Tensor,
+    weight: torch.Tensor,
+    x_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype,
+) -> torch.Tensor:
+    return torch.empty(
+        (qx.size(0), weight.size(0)), dtype=output_dtype, device=qx.device
+    )
+
+
+direct_register_custom_op(
+    "w8a8_triton_block_scaled_mm_func",
+    _w8a8_triton_block_scaled_mm_func,
+    fake_impl=_w8a8_triton_block_scaled_mm_fake,
+)
+
+
+def _padded_cutlass(
+    qx: torch.Tensor,
+    weight: torch.Tensor,
+    x_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype,
+) -> torch.Tensor:
+    pad_multiple = 4
+    dim = qx.shape[0]
+    padded = (
+        dim if dim % pad_multiple == 0 else dim + pad_multiple - (dim % pad_multiple)
+    )
+
+    has_pad = padded > dim
+
+    if has_pad:
+        padded_shape = [padded, *qx.shape[1:]]
+        padded_qx = torch.zeros(padded_shape, device=qx.device, dtype=qx.dtype)
+        padded_qx[0 : qx.shape[0], ...].copy_(qx)
+
+        padded_x_scale_shape = [*x_scale.shape[1:], padded]
+        padded_x_scale = torch.ones(
+            padded_x_scale_shape, device=x_scale.device, dtype=x_scale.dtype
+        ).permute(-1, -2)
+        padded_x_scale[0 : x_scale.shape[0], ...].copy_(x_scale)
+
+        output = cutlass_scaled_mm(
+            padded_qx, weight, padded_x_scale, weight_scale, block_size, output_dtype
+        )
+        return output[0 : qx.shape[0], ...]
+    else:
+        return cutlass_scaled_mm(
+            qx, weight, x_scale, weight_scale, block_size, output_dtype
+        )
+
+
+def _padded_cutlass_fake(
+    qx: torch.Tensor,
+    weight: torch.Tensor,
+    x_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype,
+) -> torch.Tensor:
+    return torch.empty(
+        (qx.size(0), weight.size(0)), dtype=output_dtype, device=qx.device
+    )
+
+
+direct_register_custom_op(
+    "padded_cutlass",
+    _padded_cutlass,
+    fake_impl=_padded_cutlass_fake,
+)
+
+
+def _fp8_gemm_nt_op(
+    q_input: torch.Tensor,
+    input_scale: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    output: torch.Tensor,
+    use_deep_gemm_e8m0: bool,
+) -> None:
+    fp8_gemm_nt(
+        (q_input, input_scale),
+        (weight, weight_scale),
+        output,
+        is_deep_gemm_e8m0_used=use_deep_gemm_e8m0,
+    )
+
+
+def _fp8_gemm_nt_op_fake(
+    q_input: torch.Tensor,
+    input_scale: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    output: torch.Tensor,
+    use_deep_gemm_e8m0: bool,
+) -> None:
+    return None
+
+
+direct_register_custom_op(
+    "fp8_gemm_nt_op",
+    _fp8_gemm_nt_op,
+    mutates_args=["output"],
+    fake_impl=_fp8_gemm_nt_op_fake,
+)
+
+
+# TODO fix ROCm->Triton custom path:
+#  https://github.com/vllm-project/vllm/issues/14397
+class W8A8BlockFp8LinearOp:
+    """
+    This class executes a Blocked FP8 linear layer using cutlass if supported
+    and torch.scaled_mm otherwise.
+    """
+
+    def __init__(
+        self,
+        weight_group_shape: GroupShape,
+        act_quant_group_shape: GroupShape,
+        cutlass_block_fp8_supported: bool = CUTLASS_BLOCK_FP8_SUPPORTED,
+        use_aiter_and_is_supported: bool = False,
+    ):
+        self.weight_group_shape = weight_group_shape
+        self.act_quant_group_shape = act_quant_group_shape
+        self.is_deep_gemm_supported = is_deep_gemm_supported()
+        self.is_hopper = current_platform.is_device_capability(90)
+        self.use_deep_gemm_e8m0 = is_deep_gemm_e8m0_used()
+
+        # Get the correct blockscale mul and input quant operations.
+        # We can't use _dispatch_w8a8_blockscale_op to figure out if we want
+        # to use deepgemm because we don't know the shape of weights (and
+        # whether deepgemm supports it) at the init time.
+        self.w8a8_blockscale_op, self.input_quant_op = (
+            self._dispatch_w8a8_blockscale_op(
+                cutlass_block_fp8_supported, use_aiter_and_is_supported
+            )
+        )
+        self.deepgemm_input_quant_op = (
+            QuantFP8(
+                False,
+                self.act_quant_group_shape,
+                column_major_scales=True,
+                use_ue8m0=self.use_deep_gemm_e8m0,
+            )
+            if self.is_deep_gemm_supported
+            else None
+        )
+
+    def apply(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert input_scale is None
+        # View input as 2D matrix for fp8 methods
+        input_2d = input.view(-1, input.shape[-1])
+        output_shape = [*input.shape[:-1], weight.shape[0]]
+        output_dtype = input.dtype
+
+        if should_use_deepgemm_for_fp8_linear(
+            output_dtype, weight, self.is_deep_gemm_supported
+        ):
+            output = self._run_deepgemm(input_2d, weight, weight_scale)
+        else:
+            output = self.w8a8_blockscale_op(
+                input_2d, weight, weight_scale, input_scale
+            )
+
+        if bias is not None:
+            output = output + bias
+        return output.to(dtype=input.dtype).view(*output_shape)
+
+    def _run_deepgemm(
+        self,
+        input_2d: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+    ) -> torch.Tensor:
+        assert self.deepgemm_input_quant_op is not None
+        q_input, input_scale = self.deepgemm_input_quant_op(input_2d)
+        output = torch.empty(
+            (q_input.shape[0], weight.shape[0]),
+            dtype=torch.bfloat16,
+            device=q_input.device,
+        )
+        torch.ops.vllm.fp8_gemm_nt_op(
+            q_input, input_scale, weight, weight_scale, output, self.use_deep_gemm_e8m0
+        )
+        return output
+
+    def _run_cutlass(
+        self,
+        input_2d: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert input_scale is None
+        assert self.input_quant_op is not None
+        q_input, input_scale = self.input_quant_op(input_2d)
+        if self.is_hopper:
+            return torch.ops.vllm.padded_cutlass(
+                q_input,
+                weight,
+                input_scale,
+                weight_scale,
+                list(self.weight_group_shape),
+                input_2d.dtype,
+            )
+        else:
+            return cutlass_scaled_mm(
+                q_input,
+                weight,
+                input_scale,
+                weight_scale,
+                list(self.weight_group_shape),
+                input_2d.dtype,
+            )
+
+    def _run_aiter(
+        self,
+        input_2d: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert self.act_quant_group_shape == GroupShape(1, 128)
+
+        n, k = weight.shape
+
+        use_triton = (
+            not current_platform.is_fp8_fnuz()
+            and rocm_aiter_ops.is_triton_gemm_w8a8_tuned(n, k)
+        )
+
+        if use_triton:
+            gemm_a8w8_blockscale_op = rocm_aiter_ops.triton_gemm_a8w8_blockscale
+        else:
+            gemm_a8w8_blockscale_op = rocm_aiter_ops.gemm_a8w8_blockscale
+
+        if input_scale is not None:
+            q_input = input_2d
+        # MI350 case uses triton kernel
+        elif use_triton:
+            q_input, input_scale = per_token_group_quant_fp8(
+                input_2d,
+                self.act_quant_group_shape.col,
+                column_major_scales=False,
+                use_ue8m0=False,
+            )
+        # MI300 uses tuned AITER ASM/C++ kernel
+        else:
+            q_input, input_scale = rocm_aiter_ops.group_fp8_quant(input_2d)
+
+        return gemm_a8w8_blockscale_op(
+            q_input,
+            weight,
+            input_scale,
+            weight_scale,
+            list(self.weight_group_shape),
+            output_dtype=input_2d.dtype,
+        )
+
+    def _run_triton(
+        self,
+        input_2d: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert input_scale is None
+        assert self.input_quant_op is not None
+        q_input, input_scale = self.input_quant_op(input_2d)
+        return torch.ops.vllm.w8a8_triton_block_scaled_mm_func(
+            q_input,
+            weight,
+            input_scale,
+            weight_scale,
+            list(self.weight_group_shape),
+            input_2d.dtype,
+        )
+
+    def _dispatch_w8a8_blockscale_op(
+        self,
+        use_cutlass: bool,
+        use_aiter_and_is_supported: bool,
+    ) -> tuple[
+        Callable[
+            [
+                torch.Tensor,
+                torch.Tensor,
+                torch.Tensor,
+                torch.Tensor | None,
+            ],
+            torch.Tensor,
+        ],
+        QuantFP8 | None,
+    ]:
+        if use_cutlass:
+            return self._run_cutlass, (
+                QuantFP8(
+                    False,
+                    self.act_quant_group_shape,
+                    column_major_scales=True,
+                    use_ue8m0=False,
+                )
+            )
+        if use_aiter_and_is_supported:
+            return self._run_aiter, None
+        return self._run_triton, (
+            QuantFP8(
+                False,
+                self.act_quant_group_shape,
+                column_major_scales=False,
+                use_ue8m0=False,
+            )
+        )
+
+
+def input_to_float8(
+    x: torch.Tensor, dtype: torch.dtype | None = None
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """This function quantizes input values to float8 values "
+    "with tensor-wise quantization."""
+    dtype = current_platform.fp8_dtype() if dtype is None else dtype
+    finfo = torch.finfo(dtype)
+    min_val, max_val = x.aminmax()
+    amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-12)
+    scale = finfo.max / amax
+    x_scl_sat = (x * scale).clamp(min=finfo.min, max=finfo.max)
+    return x_scl_sat.to(dtype).contiguous(), scale.float().reciprocal()
+
+
+def block_quant_to_tensor_quant(
+    x_q_block: torch.Tensor,
+    x_s: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """This function converts block-wise quantization to tensor-wise
+    quantization. The inputs are block-wise quantization tensor `x_q_block`,
+    block-wise quantization scale and the block size.
+    The outputs are tensor-wise quantization tensor and tensor-wise
+    quantization scale. Note only float8 is supported for now.
+    """
+    x_dq_block = group_broadcast(x_q_block, x_s)
+    x_q_tensor, scale = input_to_float8(x_dq_block, dtype=x_q_block.dtype)
+    return x_q_tensor, scale
+
+
+@triton.jit
+def _per_token_group_quant_fp8(
+    # Pointers to inputs and output
+    y_ptr,
+    y_q_ptr,
+    y_s_ptr,
+    group_size,
+    # Num columns of y
+    y_num_columns,
+    y_row_stride,
+    # Avoid to divide zero
+    eps,
+    # Information for float8
+    fp8_min,
+    fp8_max,
+    use_ue8m0: tl.constexpr,
+    # Meta-parameters
+    BLOCK: tl.constexpr,
+):
+    """A Triton-accelerated function to perform per-token-group
+    quantization on a tensor.
+    This function converts the tensor values into float8 values.
+    """
+    groups_per_row = y_num_columns // group_size
+
+    # Map the program id to the row of X and Y it should compute.
+    g_id = tl.program_id(0)
+    row = g_id // groups_per_row
+    row_g_id = g_id % groups_per_row
+
+    # Ensure offset calculations use int64 to prevent overflow
+    y_ptr_offset = (row.to(tl.int64) * y_row_stride) + (
+        row_g_id.to(tl.int64) * group_size
+    )
+    y_ptr += y_ptr_offset
+
+    y_q_ptr_offset = g_id.to(tl.int64) * group_size
+    y_q_ptr += y_q_ptr_offset
+    y_s_ptr += g_id
+
+    cols = tl.arange(0, BLOCK)  # N <= BLOCK
+    mask = cols < group_size
+
+    y = tl.load(y_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    # Quant
+    _absmax = tl.maximum(tl.max(tl.abs(y)), eps)
+    scale_raw = _absmax / fp8_max
+    y_s = tl.math.exp2(tl.ceil(tl.log2(scale_raw))) if use_ue8m0 else scale_raw
+    y_q = tl.clamp(y / y_s, fp8_min, fp8_max).to(y_q_ptr.dtype.element_ty)
+
+    tl.store(y_q_ptr + cols, y_q, mask=mask)
+    tl.store(y_s_ptr, y_s)
+
+
+@triton.jit
+def _per_token_group_quant_fp8_colmajor(
+    # Pointers to inputs and output
+    y_ptr,
+    y_q_ptr,
+    y_s_ptr,
+    group_size,
+    # Num columns of y
+    y_num_columns,
+    y_row_stride,
+    # Stride from one column to the next of y_s
+    y_s_col_stride,
+    # Avoid to divide zero
+    eps,
+    # Information for float8
+    fp8_min,
+    fp8_max,
+    use_ue8m0: tl.constexpr,
+    # Meta-parameters
+    BLOCK: tl.constexpr,
+):
+    """A Triton-accelerated function to perform per-token-group
+    quantization on a tensor.
+    This function converts the tensor values into float8 values.
+    """
+    groups_per_row = y_num_columns // group_size
+
+    # Map the program id to the row of X and Y it should compute.
+    g_id = tl.program_id(0)
+    row = g_id // groups_per_row
+    row_g_id = g_id % groups_per_row
+
+    # Ensure offset calculations use int64 to prevent overflow
+    y_ptr_offset = (row.to(tl.int64) * y_row_stride) + (
+        row_g_id.to(tl.int64) * group_size
+    )
+    y_ptr += y_ptr_offset
+
+    y_q_ptr_offset = g_id.to(tl.int64) * group_size
+    y_q_ptr += y_q_ptr_offset
+
+    # Convert g_id the flattened block coordinate to 2D so we can index
+    # into the output y_scales matrix
+    blocks_per_row = y_num_columns // group_size
+    scale_col = g_id % blocks_per_row
+    scale_row = g_id // blocks_per_row
+    # Ensure offset calculation uses int64 for y_s_ptr
+    y_s_ptr_offset = (scale_col.to(tl.int64) * y_s_col_stride) + scale_row.to(tl.int64)
+    y_s_ptr += y_s_ptr_offset
+
+    cols = tl.arange(0, BLOCK)  # group_size <= BLOCK
+    mask = cols < group_size
+
+    y = tl.load(y_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    # Quant
+    _absmax = tl.maximum(tl.max(tl.abs(y)), eps)
+    scale_raw = _absmax / fp8_max
+    y_s = tl.math.exp2(tl.ceil(tl.log2(scale_raw))) if use_ue8m0 else scale_raw
+    y_q = tl.clamp(y / y_s, fp8_min, fp8_max).to(y_q_ptr.dtype.element_ty)
+
+    tl.store(y_q_ptr + cols, y_q, mask=mask)
+    tl.store(y_s_ptr, y_s)
+
+
+def per_token_group_quant_fp8(
+    x: torch.Tensor,
+    group_size: int,
+    eps: float = 1e-10,
+    dtype: torch.dtype | None = None,
+    column_major_scales: bool = False,
+    out_q: torch.Tensor | None = None,
+    use_ue8m0: bool | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Function to perform per-token-group quantization on an input tensor `x`.
+    It converts the tensor values into signed float8 values and returns the
+    quantized tensor along with the scaling factor used for quantization.
+    Args:
+        x: The input tensor with ndim >= 2.
+        group_size: The group size used for quantization.
+        eps: The minimum to avoid dividing zero.
+        dtype: The dype of output tensor. Note that only `torch.float8_e4m3fn`
+        is supported for now.
+        column_major_scales: Outputs scales in column major.
+        out_q: Optional output tensor. If not provided, function will create.
+    Returns:
+        tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
+        scaling factor.
+    """
+    if use_ue8m0 is None:
+        use_ue8m0 = is_deep_gemm_e8m0_used()
+    dtype = current_platform.fp8_dtype() if dtype is None else dtype
+    assert x.shape[-1] % group_size == 0, (
+        f"the last dimension of `x` {x.shape[-1]} must be divisible "
+        f"by `group_size` {group_size}"
+    )
+    assert x.stride(-1) == 1, "`x` groups must be contiguous"
+
+    finfo = torch.finfo(dtype)
+    fp8_min = finfo.min
+    fp8_max = finfo.max
+
+    assert out_q is None or out_q.shape == x.shape
+    x_q = out_q
+    if x_q is None:
+        x_q = torch.empty_like(x, device=x.device, dtype=dtype)
+
+    # Allocate the scale tensor in either row- or column-major format.
+    if column_major_scales:
+        shape = (x.shape[-1] // group_size,) + x.shape[:-1]
+        x_s = torch.empty(shape, device=x.device, dtype=torch.float32).permute(-1, -2)
+    else:
+        shape = x.shape[:-1] + (x.shape[-1] // group_size,)
+        x_s = torch.empty(shape, device=x.device, dtype=torch.float32)
+
+    # prefer CUDA kernel if available
+    # TODO(bnell): this causes some fp8 moe test to fail.
+    if current_platform.is_cuda() and x.is_contiguous():
+        torch.ops._C.per_token_group_fp8_quant(
+            x, x_q, x_s, group_size, eps, fp8_min, fp8_max, use_ue8m0
+        )
+        return x_q, x_s
+
+    # TRITON FALLBACK
+    M = x.numel() // group_size
+    N = group_size
+    BLOCK = triton.next_power_of_2(N)
+    # heuristics for number of warps
+    num_warps = min(max(BLOCK // 256, 1), 8)
+    num_stages = 1
+    if column_major_scales:
+        _per_token_group_quant_fp8_colmajor[(M,)](
+            x,
+            x_q,
+            x_s,
+            group_size,
+            x.shape[1],
+            x.stride(0),
+            x_s.stride(1),
+            eps,
+            fp8_min=fp8_min,
+            fp8_max=fp8_max,
+            use_ue8m0=use_ue8m0,
+            BLOCK=BLOCK,
+            num_warps=num_warps,
+            num_stages=num_stages,
+        )
+    else:
+        _per_token_group_quant_fp8[(M,)](
+            x,
+            x_q,
+            x_s,
+            group_size,
+            x.shape[1],
+            x.stride(0),
+            eps,
+            fp8_min=fp8_min,
+            fp8_max=fp8_max,
+            use_ue8m0=use_ue8m0,
+            BLOCK=BLOCK,
+            num_warps=num_warps,
+            num_stages=num_stages,
+        )
+
+    return x_q, x_s
+
+
+@triton.jit
+def _w8a8_triton_block_scaled_mm(
+    # Pointers to inputs and output
+    A,
+    B,
+    C,
+    As,
+    Bs,
+    # Shape for matmul
+    M,
+    N,
+    K,
+    # Block size for block-wise quantization
+    group_n,
+    group_k,
+    # Stride for inputs and output
+    stride_am,
+    stride_ak,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    stride_As_m,
+    stride_As_k,
+    stride_Bs_k,
+    stride_Bs_n,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+):
+    """Triton-accelerated function used to perform linear operations (dot
+    product) on input tensors `A` and `B` with block-wise quantization, and
+    store the result in output tensor `C`.
+    """
+
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = A + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    As_ptrs = As + offs_am * stride_As_m
+    offs_bsn = offs_bn // group_n
+    Bs_ptrs = Bs + offs_bsn * stride_Bs_n
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+
+        k_start = k * BLOCK_SIZE_K
+        offs_ks = k_start // group_k
+        a_s = tl.load(As_ptrs + offs_ks * stride_As_k)
+        b_s = tl.load(Bs_ptrs + offs_ks * stride_Bs_k)
+
+        accumulator += tl.dot(a, b) * a_s[:, None] * b_s[None, :]
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    if C.dtype.element_ty == tl.bfloat16:
+        c = accumulator.to(tl.bfloat16)
+    elif C.dtype.element_ty == tl.float16:
+        c = accumulator.to(tl.float16)
+    else:
+        c = accumulator.to(tl.float32)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = C + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+@functools.lru_cache
+def get_w8a8_block_fp8_configs(
+    N: int, K: int, block_n: int, block_k: int
+) -> dict[int, Any] | None:
+    """
+    Return optimized configurations for the w8a8 block fp8 kernel.
+    The return value will be a dictionary that maps an irregular grid of
+    batch sizes to configurations of the w8a8 block fp8 kernel. To evaluate the
+    kernel on a given batch size bs, the closest batch size in the grid should
+    be picked and the associated configuration chosen to invoke the kernel.
+    """
+
+    # First look up if an optimized configuration is available in the configs
+    # directory
+    device_name = current_platform.get_device_name().replace(" ", "_")
+    json_file_name = f"N={N},K={K},device_name={device_name},dtype=fp8_w8a8,block_shape=[{block_n},{block_k}].json"  # noqa: E501
+
+    config_file_path = os.path.join(
+        os.path.dirname(os.path.realpath(__file__)), "configs", json_file_name
+    )
+    if os.path.exists(config_file_path):
+        with open(config_file_path) as f:
+            logger.info(
+                "Using configuration from %s for W8A8 Block FP8 kernel.",
+                config_file_path,
+            )
+            # If a configuration has been found, return it
+            return {int(key): val for key, val in json.load(f).items()}
+
+    # If no optimized configuration is available, we will use the default
+    # configuration
+    logger.warning(
+        "Using default W8A8 Block FP8 kernel config. Performance might "
+        "be sub-optimal! Config file not found at %s",
+        config_file_path,
+    )
+    return None
+
+
+def w8a8_triton_block_scaled_mm(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    """This function performs matrix multiplication with block-wise
+    quantization.
+    It takes two input tensors `A` and `B` with scales `As` and `Bs`.
+    The output is returned in the specified `output_dtype`.
+    Args:
+        A: The input tensor, e.g., activation.
+        B: The input tensor, e.g., weight.
+        As: The per-token-group quantization scale for `A`.
+        Bs: The per-block quantization scale for `B`.
+        block_size: The block size for per-block quantization. It should
+        be 2-dim, e.g., [128, 128].
+        output_dytpe: The dtype of the returned tensor.
+    Returns:
+        torch.Tensor: The result of matmul.
+    """
+    assert len(block_size) == 2
+    block_n, block_k = block_size[0], block_size[1]
+
+    assert A.shape[-1] == B.shape[-1]
+    assert A.shape[:-1] == As.shape[:-1] and A.is_contiguous()
+    assert triton.cdiv(A.shape[-1], block_k) == As.shape[-1]
+    M = A.numel() // A.shape[-1]
+
+    assert B.ndim == 2 and Bs.ndim == 2
+    N, K = B.shape
+    assert triton.cdiv(N, block_n) == Bs.shape[0]
+    assert triton.cdiv(K, block_k) == Bs.shape[1]
+
+    C_shape = A.shape[:-1] + (N,)
+    C = A.new_empty(C_shape, dtype=output_dtype)
+
+    configs = get_w8a8_block_fp8_configs(N, K, block_size[0], block_size[1])
+    if configs:
+        # Get the optimal config if there is one
+        config = configs[min(configs.keys(), key=lambda x: abs(x - M))]
+    else:
+        # Default config
+        # Block-wise quant: BLOCK_SIZE_N must be divisible by block_size[0]
+        # BLOCK_SIZE_K must be divisible by block_size[1]
+        config = {
+            "BLOCK_SIZE_M": 64,
+            "BLOCK_SIZE_N": block_size[0],
+            "BLOCK_SIZE_K": block_size[1],
+            "GROUP_SIZE_M": 32,
+            "num_warps": 4,
+            "num_stages": 2,
+        }
+
+    def grid(META):
+        return (
+            triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        )
+
+    _w8a8_triton_block_scaled_mm[grid](
+        A,
+        B,
+        C,
+        As,
+        Bs,
+        M,
+        N,
+        K,
+        block_n,
+        block_k,
+        A.stride(-2),
+        A.stride(-1),
+        B.stride(1),
+        B.stride(0),
+        C.stride(-2),
+        C.stride(-1),
+        As.stride(-2),
+        As.stride(-1),
+        Bs.stride(1),
+        Bs.stride(0),
+        **config,
+    )
+
+    return C
+
+
+def requant_weight_ue8m0_inplace(
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    block_size: Sequence[int] = (128, 128),
+) -> None:
+    """Re-quantise *weight* so that its per-block scaling factors are in the
+    UE8M0 (power-of-two) format expected by the new DeepGEMM kernels inplace.
+
+    Args:
+        weight: Block-quantised weight tensor stored in `torch.float8_e4m3fn`.
+            Expected shape `(..., M, K)`.
+        weight_scale: Corresponding per-block scale tensor (`torch.float32`)
+            with shape `(..., M // block_size[0], K // block_size[1])`.
+        block_size: 2-element iterable `[block_m, block_k]` describing the
+            block quantisation granularity.
+    """
+    if weight.numel() == 0:
+        return
+
+    if weight.dtype != torch.float8_e4m3fn:
+        raise ValueError(
+            f"Expected *weight* to be torch.float8_e4m3fn, got {weight.dtype} instead."
+        )
+
+    from vllm.utils.deep_gemm import per_block_cast_to_fp8
+
+    block_m, block_k = int(block_size[0]), int(block_size[1])
+
+    # Flatten leading dimensions so we can iterate over the last two dims.
+    leading_shape = weight.shape[:-2]
+    if len(leading_shape) == 0:
+        w_view = weight.unsqueeze(0)
+        s_view = weight_scale.unsqueeze(0)
+    else:
+        w_view = weight.reshape(-1, weight.shape[-2], weight.shape[-1])
+        s_view = weight_scale.reshape(-1, *weight_scale.shape[-2:])
+
+    num_mats = w_view.size(0)
+    for idx in range(num_mats):
+        w_q = w_view[idx]
+        s_old = s_view[idx]
+
+        # De-quantise with the *old* scaling factors (float32).
+        m_cur, k_cur = w_q.shape
+        s_float = s_old.to(torch.float32)
+        # Expand scales along rows and cols by block size, then crop.
+        s_exp_r = torch.repeat_interleave(s_float, block_m, dim=0)
+        s_exp = torch.repeat_interleave(s_exp_r, block_k, dim=1)
+        s_exp = s_exp[:m_cur, :k_cur]
+        w_dq = w_q.to(torch.float32) * s_exp
+        # Re-quantise using power-of-two scaling (UE8M0).
+        w_requant, s_requant = per_block_cast_to_fp8(
+            w_dq, [block_m, block_k], use_ue8m0=True
+        )
+
+        # Write back the results in-place.
+        w_q.copy_(w_requant)
+        s_old.copy_(s_requant)
+
+
+def deepgemm_post_process_fp8_weight_block(
+    wq: torch.Tensor, ws: torch.Tensor, quant_block_shape: tuple[int], use_e8m0: bool
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert wq.dtype == torch.float8_e4m3fn, (
+        "Expected quantized tensor dtype "
+        f"to be torch.float8_e4m3fn, got {wq.dtype} instead."
+    )
+    assert ws.dtype == torch.float32, (
+        f"Expected tensor scales dtype to be torch.float32, got {ws.dtype} instead"
+    )
+
+    if use_e8m0:
+        requant_weight_ue8m0_inplace(wq, ws, block_size=quant_block_shape)
+
+    original_ndim = wq.ndim
+    if wq.ndim == 2:
+        assert ws.ndim == 2
+        wq = wq.unsqueeze(0)
+        ws = ws.unsqueeze(0)
+
+    # From https://github.com/deepseek-ai/DeepGEMM/blob/c9f8b34dcdacc20aa746b786f983492c51072870/csrc/utils/layout.hpp#L46
+    recipe = (1, 128, 128)
+
+    # Ref : https://github.com/deepseek-ai/DeepGEMM/blob/c9f8b34dcdacc20aa746b786f983492c51072870/csrc/apis/gemm.hpp
+    # DeepGemm uses the `transform_sf_into_required_layout` function to
+    # represent scales in the correct format.
+    dg_ws = transform_sf_into_required_layout(
+        sf=ws,
+        mn=wq.size(1),
+        k=wq.size(2),
+        recipe=recipe,
+        num_groups=wq.size(0),
+        # is the scale factors for A in (Refers to the argument A in A @ B).
+        # Weights are B.
+        is_sfa=False,
+    )
+
+    if original_ndim == 2:
+        wq = wq.squeeze(0)
+        dg_ws = dg_ws.squeeze(0)
+
+    return wq, dg_ws
+
+
+def _maybe_pad_fp8_weight(weight: torch.Tensor) -> torch.Tensor:
+    """Pad the weight tensor. This is an optimization on ROCm platform, which
+    can benefit from tensors located far enough from one another in memory"""
+    if (
+        envs.VLLM_ROCM_FP8_PADDING
+        and current_platform.is_rocm()
+        and weight.stride(-1) == 1
+        and (weight.stride(-2) * weight.element_size()) % 512 == 0
+    ):
+        num_pad = 256 // weight.element_size()
+        import torch.nn.functional as F
+
+        weight = F.pad(weight, (0, num_pad), "constant", 0)[..., :-num_pad]
+        torch.cuda.empty_cache()
+    return weight
+
+
+def validate_fp8_block_shape(
+    layer: torch.nn.Module,
+    input_size: int,
+    output_size: int,
+    input_size_per_partition: int,
+    output_partition_sizes: list[int],
+    block_size: list[int],
+) -> None:
+    """Validate block quantization shapes for tensor parallelism."""
+    from vllm.distributed import get_tensor_model_parallel_world_size
+
+    tp_size = getattr(layer, "tp_size", get_tensor_model_parallel_world_size())
+    block_n, block_k = block_size[0], block_size[1]
+
+    # Required by row parallel
+    if (
+        tp_size > 1
+        and input_size // input_size_per_partition == tp_size
+        and input_size_per_partition % block_k != 0
+    ):
+        raise ValueError(
+            f"Weight input_size_per_partition = {input_size_per_partition} "
+            f"is not divisible by weight quantization block_k = {block_k}."
+        )
+
+    # Required by column parallel or enabling merged weights
+    is_tp_split = tp_size > 1 and output_size // sum(output_partition_sizes) == tp_size
+    is_merged_gemm = len(output_partition_sizes) > 1
+    if is_tp_split or is_merged_gemm:
+        sizes_to_check = output_partition_sizes
+        if not is_tp_split and is_merged_gemm:
+            # In case of merged matrices, we allow the last
+            # matrix to not be a multiple of block size
+            sizes_to_check = output_partition_sizes[:-1]
+        for output_partition_size in sizes_to_check:
+            if output_partition_size % block_n != 0:
+                raise ValueError(
+                    f"Weight output_partition_size = "
+                    f"{output_partition_size} is not divisible by "
+                    f"weight quantization block_n = {block_n}."
+                )
+
+
+def create_fp8_weight_parameter(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    weight_loader: Callable | None,
+) -> torch.nn.Parameter:
+    """Create FP8 weight parameter."""
+    from vllm.model_executor.parameter import ModelWeightParameter
+
+    return ModelWeightParameter(
+        data=torch.empty(
+            output_size_per_partition,
+            input_size_per_partition,
+            dtype=torch.float8_e4m3fn,
+        ),
+        input_dim=1,
+        output_dim=0,
+        weight_loader=weight_loader,
+    )
+
+
+def create_fp8_scale_parameter(
+    parameter_type: torch.nn.Parameter,
+    output_partition_sizes: list[int],
+    input_size_per_partition: int,
+    block_size: list[int] | None,
+    weight_loader: Callable | None,
+) -> torch.nn.Parameter:
+    """Create scale parameter based on quantization strategy."""
+    if parameter_type == ChannelQuantScaleParameter:
+        scale = parameter_type(
+            data=torch.empty((sum(output_partition_sizes), 1), dtype=torch.float32),
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+    elif parameter_type == BlockQuantScaleParameter:
+        assert block_size is not None
+        block_n, block_k = block_size[0], block_size[1]
+        output_size_per_partition = sum(output_partition_sizes)
+        scale = parameter_type(
+            data=torch.empty(
+                (output_size_per_partition + block_n - 1) // block_n,
+                (input_size_per_partition + block_k - 1) // block_k,
+                dtype=torch.float32,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+    elif parameter_type == PerTensorScaleParameter:
+        scale = parameter_type(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+    else:
+        raise ValueError(f"Unknown parameter type: {parameter_type}")
+
+    scale[:] = torch.finfo(torch.float32).min
+    return scale
+
+
+def create_fp8_input_scale(
+    output_partition_sizes: list[int], weight_loader: Callable | None
+) -> torch.nn.Parameter:
+    """Create input scale parameter for static activation quantization."""
+    from vllm.model_executor.parameter import PerTensorScaleParameter
+
+    scale = PerTensorScaleParameter(
+        data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+        weight_loader=weight_loader,
+    )
+    scale[:] = torch.finfo(torch.float32).min
+    return scale
+
+
+def process_fp8_weight_tensor_strategy(
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    logical_widths: list[int],
+    input_scale: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor | None]:
+    """Process weights for tensor-wise quantization strategy."""
+    from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+        normalize_e4m3fn_to_e4m3fnuz,
+        requantize_with_max_scale,
+    )
+
+    if current_platform.is_fp8_fnuz():
+        weight, weight_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
+            weight=weight, weight_scale=weight_scale, input_scale=input_scale
+        )
+
+    # Requantize with max scale
+    weight_scale, weight = requantize_with_max_scale(
+        weight=weight,
+        weight_scale=weight_scale,
+        logical_widths=logical_widths,
+    )
+
+    weight = _maybe_pad_fp8_weight(weight)
+    return weight, weight_scale, input_scale
+
+
+def process_fp8_weight_channel_strategy(
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    input_scale: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor | None]:
+    """Process weights for channel-wise quantization strategy."""
+    from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+        normalize_e4m3fn_to_e4m3fnuz,
+    )
+
+    if current_platform.is_fp8_fnuz():
+        weight, weight_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
+            weight=weight, weight_scale=weight_scale, input_scale=input_scale
+        )
+
+    return weight, weight_scale, input_scale
+
+
+def process_fp8_weight_block_strategy(
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Process weights for block-wise quantization strategy."""
+    from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
+        normalize_e4m3fn_to_e4m3fnuz,
+    )
+
+    if current_platform.is_fp8_fnuz():
+        weight, weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
+            weight=weight, weight_scale=weight_scale
+        )
+
+    weight = _maybe_pad_fp8_weight(weight)
+    return weight, weight_scale
+
+
+def maybe_post_process_fp8_weight_block(layer: torch.nn.Module):
+    assert layer.weight_block_size is not None
+
+    from vllm.utils.deep_gemm import (
+        is_deep_gemm_e8m0_used,
+        should_use_deepgemm_for_fp8_linear,
+    )
+
+    # On Blackwell or Hopper, if E8M0 for DeepGemm is used, we need to
+    # requantize the weight and input to the specific scale
+    # at the same time.
+    should_use_deepgemm = should_use_deepgemm_for_fp8_linear(
+        layer.orig_dtype, layer.weight
+    )
+    if should_use_deepgemm:
+        dg_weight, dg_weight_scale = deepgemm_post_process_fp8_weight_block(
+            wq=layer.weight.data,
+            ws=layer.weight_scale.data,
+            quant_block_shape=tuple(layer.weight_block_size),
+            use_e8m0=is_deep_gemm_e8m0_used(),
+        )
+        layer.weight = torch.nn.Parameter(dg_weight, requires_grad=False)
+        layer.weight_scale = torch.nn.Parameter(dg_weight_scale, requires_grad=False)
+
+
+def expert_weight_is_col_major(x: torch.Tensor) -> bool:
+    assert x.dim() == 3
+    b, m, n = x.shape
+    return x.stride(0) == m * n and x.stride(1) == 1 and x.stride(2) == m
diff --git a/model_executor/layers/quantization/utils/gguf_utils.py b/model_executor/layers/quantization/utils/gguf_utils.py
new file mode 100644
index 0000000..79b34e2
--- /dev/null
+++ b/model_executor/layers/quantization/utils/gguf_utils.py
@@ -0,0 +1,373 @@
+import torch
+import numpy as np
+from gguf.constants import GGMLQuantizationType
+
+def get_awq_format(w, group_size=128, w_bit=4):
+    org_w_shape = w.shape
+    ori_w_dtype = torch.get_default_dtype()
+    assert w_bit == 4
+    assert w.shape[1] % group_size == 0
+    
+    in_features = org_w_shape[1]
+    w = w.reshape(-1, group_size)
+    assert torch.isnan(w).sum() == 0
+    
+    max_val = w.amax(dim=1, keepdim=True)
+    min_val = w.amin(dim=1, keepdim=True)
+    max_int = 2**w_bit - 1
+    min_int = 0
+    scales = (max_val - min_val).clamp(min=1e-5) / max_int
+    zeros = (-torch.round(min_val / scales)).clamp_(min_int, max_int)
+    w = (
+        torch.clamp(torch.round(w / scales) + zeros, min_int, max_int) - zeros
+    ) * scales
+    zeros = zeros.view(org_w_shape[0], -1)
+    scales = scales.view(org_w_shape[0], -1)
+    w = w.reshape(org_w_shape)
+    assert torch.isnan(scales).sum() == 0
+    assert torch.isnan(w).sum() == 0
+    
+    scales = scales.t().contiguous() # input // group, o
+    zeros = zeros.t().contiguous()   # input // group, o
+
+    # from auto awq
+    scale_zeros = zeros * scales
+    scales = scales.clone().to(ori_w_dtype)
+
+    pack_num = 32 // w_bit
+    intweight = []
+    for idx in range(in_features):
+        intweight.append(
+            torch.round(
+                (w[:, idx] + scale_zeros[idx // group_size])
+                / scales[idx // group_size]
+            ).to(torch.int)[:, None]
+        )
+    intweight = torch.cat(intweight, dim=1)
+    intweight = intweight.t().contiguous()
+    intweight = intweight.to(dtype=torch.int32)
+
+    qweight = torch.zeros(
+        (intweight.shape[0], intweight.shape[1] // 32 * w_bit),
+        dtype=torch.int32,
+        device=intweight.device,
+    )
+
+    for col in range(intweight.shape[1] // pack_num):
+        order_map = [0, 2, w_bit, 6, 1, 3, 5, 7]
+        for i in range(pack_num):
+            qweight_col = intweight[:, col * pack_num + order_map[i]]
+            qweight[:, col] |= qweight_col << (i * w_bit)
+
+    zeros = zeros.to(dtype=torch.int32, device=qweight.device)
+
+    qzeros = torch.zeros(
+        (zeros.shape[0], zeros.shape[1] // 32 * w_bit),
+        dtype=torch.int32,
+        device=zeros.device,
+    )
+
+    for col in range(zeros.shape[1] // pack_num):
+        order_map = [0, 2, w_bit, 6, 1, 3, 5, 7]
+        for i in range(pack_num):
+            qzero_col = zeros[:, col * pack_num + order_map[i]]
+            qzeros[:, col] |= qzero_col << (i * w_bit)
+    
+    return qweight, qzeros, scales
+
+GGML_BLOCK_SIZES = {
+    "F32": 4,
+    "F16": 2,
+    "Q4_0": 2 + 16,
+    "Q5_0": 2 + 4 + 16,
+    "Q8_0": 2 + 32,
+    "Q2_K": 256 // 16 + 256 // 4 + 2 + 2,
+    "Q3_K": 256 // 8 + 256 // 4 + 12 + 2,
+    "Q4_K": 2 + 2 + 12 + 256 // 2,
+    "Q5_K": 2 + 2 + 12 + 256 // 8 + 256 // 2,
+    "Q6_K": 256 // 2 + 256 // 4 + 256 // 16 + 2,
+    "IQ4_XS": 2 + 2 + 256 // 2 + 256 // 64,
+}
+
+def dequantize_f32(data):
+    return np.frombuffer(data, dtype=np.float32)
+
+def dequantize_f16(data):
+    return np.frombuffer(data, dtype=np.float16)
+
+def dequantize_q4_0(data):
+    num_blocks = len(data) // GGML_BLOCK_SIZES["Q4_0"]
+
+    scales = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, 1 + 8)[:, :1].astype(np.float32)
+    qs = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, 2 + 16)[:, 2:]
+
+    return np.concatenate([
+        scales * ((qs & 0xf).astype(np.int8) - 8),
+        scales * ((qs >> 4).astype(np.int8) - 8),
+    ], axis=1)
+
+def dequantize_q5_0(data):
+    num_blocks = len(data) // GGML_BLOCK_SIZES["Q5_0"]
+
+    scales = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, 1 + 2 + 8)[:, :1].astype(np.float32)
+    qh = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, 2 + 4 + 16)[:, 2:2 + 4]
+    qs = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, 2 + 4 + 16)[:, 2 + 4:]
+
+    bits = np.unpackbits(qh, axis=-1, bitorder="little")
+
+    x0 = ((qs & 0xf).astype(np.int8) | (bits[:, :16] << 4)) - 16
+    x1 = ((qs >> 4).astype(np.int8) | (bits[:, 16:] << 4)) - 16
+
+    return np.concatenate([
+        scales * x0,
+        scales * x1,
+    ], axis=1)
+    
+def dequantize_q8_0(data):
+    num_blocks = len(data) // GGML_BLOCK_SIZES["Q8_0"]
+
+    scales = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, 1 + 16)[:, :1].astype(np.float32)
+    qs = np.frombuffer(data, dtype=np.int8).reshape(num_blocks, 2 + 32)[:, 2:]
+    return scales * qs
+
+def dequantize_q2_k(data):
+    block_size = GGML_BLOCK_SIZES["Q2_K"]
+    num_blocks = len(data) // block_size
+
+    data_f16 = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, block_size // 2)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)
+
+    dmin = data_f16[:, -1].reshape(num_blocks, 1, 1).astype(np.float32)
+    d = data_f16[:, -2].reshape(num_blocks, 1, 1).astype(np.float32)
+    scales = data_u8[:, :16].reshape(num_blocks, 16, 1)
+    qs = data_u8[:, 16:80].reshape(num_blocks, 64)
+
+    tmp = np.stack([
+        qs[:, 00:16] >> 0,
+        qs[:, 16:32] >> 0,
+        qs[:, 00:16] >> 2,
+        qs[:, 16:32] >> 2,
+        qs[:, 00:16] >> 4,
+        qs[:, 16:32] >> 4,
+        qs[:, 00:16] >> 6,
+        qs[:, 16:32] >> 6,
+        qs[:, 32:48] >> 0,
+        qs[:, 48:64] >> 0,
+        qs[:, 32:48] >> 2,
+        qs[:, 48:64] >> 2,
+        qs[:, 32:48] >> 4,
+        qs[:, 48:64] >> 4,
+        qs[:, 32:48] >> 6,
+        qs[:, 48:64] >> 6,
+    ], axis=1)
+
+    return d * (scales & 15) * (tmp & 3) - dmin * (scales >> 4)
+
+
+def dequantize_q3_k(data):
+    block_size = GGML_BLOCK_SIZES["Q3_K"]
+    num_blocks = len(data) // block_size
+
+    data_f16 = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, block_size // 2)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)
+
+    d = data_f16[:, -1].reshape(num_blocks, 1, 1).astype(np.float32)
+    bits = np.unpackbits(data_u8[:, :32].reshape(num_blocks, 32, 1), axis=-1, bitorder="little")
+    bits = 4 ^ (bits << 2)
+    qs = data_u8[:, 32:32 + 64].astype(np.int16)
+    a, b, c = data_u8[:, 96: 96 + 12].reshape(num_blocks, 3, 4).transpose(1, 0, 2)
+    scales = np.zeros((num_blocks, 4, 4), dtype=np.uint8)
+    scales[:, 0] = (a & 15) | ((c & 3) << 4)
+    scales[:, 1] = (b & 15) | (((c >> 2) & 3) << 4)
+    scales[:, 2] = (a >> 4) | (((c >> 4) & 3) << 4)
+    scales[:, 3] = (b >> 4) | ((c >> 6) << 4)
+    scales = scales.reshape(num_blocks, 16, 1).astype(np.int16)
+
+    return d * (scales - 32) * np.stack([
+        (((qs[:, 00:16] >> 0) & 3) - bits[:, :16, 0]),
+        (((qs[:, 16:32] >> 0) & 3) - bits[:, 16:, 0]),
+        (((qs[:, 00:16] >> 2) & 3) - bits[:, :16, 1]),
+        (((qs[:, 16:32] >> 2) & 3) - bits[:, 16:, 1]),
+        (((qs[:, 00:16] >> 4) & 3) - bits[:, :16, 2]),
+        (((qs[:, 16:32] >> 4) & 3) - bits[:, 16:, 2]),
+        (((qs[:, 00:16] >> 6) & 3) - bits[:, :16, 3]),
+        (((qs[:, 16:32] >> 6) & 3) - bits[:, 16:, 3]),
+        (((qs[:, 32:48] >> 0) & 3) - bits[:, :16, 4]),
+        (((qs[:, 48:64] >> 0) & 3) - bits[:, 16:, 4]),
+        (((qs[:, 32:48] >> 2) & 3) - bits[:, :16, 5]),
+        (((qs[:, 48:64] >> 2) & 3) - bits[:, 16:, 5]),
+        (((qs[:, 32:48] >> 4) & 3) - bits[:, :16, 6]),
+        (((qs[:, 48:64] >> 4) & 3) - bits[:, 16:, 6]),
+        (((qs[:, 32:48] >> 6) & 3) - bits[:, :16, 7]),
+        (((qs[:, 48:64] >> 6) & 3) - bits[:, 16:, 7])
+    ], axis=1)
+    
+def dequantize_q4_k(data, device=None):
+    block_size = GGML_BLOCK_SIZES["Q4_K"]
+    num_blocks = len(data) // block_size
+    data_f16 = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, block_size // 2)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)
+    # Casting to float32 because float16 is very slow on CPU
+    scale_factors = data_f16[:, 0].reshape(num_blocks, 1, 1).astype(np.float32)
+    scale_offsets = data_f16[:, 1].reshape(num_blocks, 1, 1).astype(np.float32)
+    qs1 = data_u8[:, 4:16].reshape(num_blocks, 12, 1)
+    qs2 = data_u8[:, 16:].reshape(num_blocks, 4, 32)
+    # Dequantize scales and offsets (6 bits and 4 + 2 bits)
+    factors = scale_factors * np.concatenate([qs1[:, 0:4] & 0b111111, (qs1[:, 8:] & 15) | ((qs1[:, 0:4] >> 6) << 4)], axis=1)
+    offsets = scale_offsets * np.concatenate([qs1[:, 4:8] & 0b111111, (qs1[:, 8:] >> 4) | ((qs1[:, 4:8] >> 6) << 4)], axis=1)
+    # Interleave low and high quantized bits
+    qs2 = np.stack([qs2 & 0xf, qs2 >> 4], axis=2).reshape(num_blocks, 8, 32)
+    # Dequantize final weights using scales and offsets
+    weight = factors * qs2 - offsets
+    if device is None:
+        return weight
+    return torch.from_numpy(weight).to(device=device)
+
+def dequantize_q5_k(data):
+    block_size = GGML_BLOCK_SIZES["Q5_K"]
+    num_blocks = len(data) // block_size
+
+    data_f16 = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, block_size // 2)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)
+
+    d = data_f16[:, 0].reshape(num_blocks, 1).astype(np.float32)
+    dmin = data_f16[:, 1].reshape(num_blocks, 1).astype(np.float32)
+    scales = data_u8[:, 4:16].reshape(num_blocks, 12, 1)
+    qh = data_u8[:, 16: 16 + 32].reshape(num_blocks, 32, 1)
+    qs = data_u8[:, 48: 48 + 128].reshape(num_blocks, 4, 32)
+
+    bits = np.unpackbits(qh, axis=-1, bitorder="little")
+
+    qs_hi_4 = qs >> 4
+    qs_lo_4 = qs & 15
+
+    scales_lo_6 = scales[:, :8] & 63
+    scales_hi_6 = scales[:, :8] >> 6
+    scales_lo_4 = scales[:, 8:] & 15
+    scales_hi_4 = scales[:, 8:] >> 4
+
+    m1 = dmin * scales_lo_6[:, 4]
+    m2 = dmin * scales_lo_6[:, 5]
+    m3 = dmin * scales_lo_6[:, 6]
+    m4 = dmin * scales_lo_6[:, 7]
+    m5 = dmin * (scales_hi_4[:, 0] | (scales_hi_6[:, 4] << 4))
+    m6 = dmin * (scales_hi_4[:, 1] | (scales_hi_6[:, 5] << 4))
+    m7 = dmin * (scales_hi_4[:, 2] | (scales_hi_6[:, 6] << 4))
+    m8 = dmin * (scales_hi_4[:, 3] | (scales_hi_6[:, 7] << 4))
+
+    d1 = d * scales_lo_6[:, 0]
+    d2 = d * scales_lo_6[:, 1]
+    d3 = d * scales_lo_6[:, 2]
+    d4 = d * scales_lo_6[:, 3]
+    d5 = d * (scales_lo_4[:, 0] | (scales_hi_6[:, 0] << 4))
+    d6 = d * (scales_lo_4[:, 1] | (scales_hi_6[:, 1] << 4))
+    d7 = d * (scales_lo_4[:, 2] | (scales_hi_6[:, 2] << 4))
+    d8 = d * (scales_lo_4[:, 3] | (scales_hi_6[:, 3] << 4))
+
+    return np.concatenate([
+        d1 * (qs_lo_4[:, 0] + (bits[:, :, 0] << 4)) - m1,
+        d2 * (qs_hi_4[:, 0] + (bits[:, :, 1] << 4)) - m2,
+        d3 * (qs_lo_4[:, 1] + (bits[:, :, 2] << 4)) - m3,
+        d4 * (qs_hi_4[:, 1] + (bits[:, :, 3] << 4)) - m4,
+        d5 * (qs_lo_4[:, 2] + (bits[:, :, 4] << 4)) - m5,
+        d6 * (qs_hi_4[:, 2] + (bits[:, :, 5] << 4)) - m6,
+        d7 * (qs_lo_4[:, 3] + (bits[:, :, 6] << 4)) - m7,
+        d8 * (qs_hi_4[:, 3] + (bits[:, :, 7] << 4)) - m8,
+    ], axis=1)
+
+def dequantize_q6_k(data, device = None):
+    block_size = GGML_BLOCK_SIZES["Q6_K"]
+    num_blocks = len(data) // block_size
+
+    data_f16 = np.frombuffer(data, dtype=np.float16).reshape(num_blocks, block_size // 2)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)
+    data_i8 = np.frombuffer(data, dtype=np.int8).reshape(num_blocks, block_size)
+
+    scales = data_f16[:, -1].reshape(num_blocks, 1).astype(np.float32)
+    # TODO use uint8 and cast later?
+    ql = data_u8[:, :128].astype(np.int16)
+    qh = data_u8[:, 128:192].astype(np.int16)
+    sc = data_i8[:, 192:208, np.newaxis].astype(np.float32)
+
+    # Unpack bits, subtraction requires signed data type
+    q1 = (ql[:,   :32 ] & 0xF) | (((qh[:, :32] >> 0) & 3) << 4) - 32
+    q2 = (ql[:, 32:64 ] & 0xF) | (((qh[:, :32] >> 2) & 3) << 4) - 32
+    q3 = (ql[:,   :32 ] >>  4) | (((qh[:, :32] >> 4) & 3) << 4) - 32
+    q4 = (ql[:, 32:64 ] >>  4) | (((qh[:, :32] >> 6) & 3) << 4) - 32
+    q5 = (ql[:, 64:96 ] & 0xF) | (((qh[:, 32:] >> 0) & 3) << 4) - 32
+    q6 = (ql[:, 96:128] & 0xF) | (((qh[:, 32:] >> 2) & 3) << 4) - 32
+    q7 = (ql[:, 64:96 ] >>  4) | (((qh[:, 32:] >> 4) & 3) << 4) - 32
+    q8 = (ql[:, 96:128] >>  4) | (((qh[:, 32:] >> 6) & 3) << 4) - 32
+
+    # Dequantize
+    weight = scales * np.concatenate([
+        sc[:,  0] * q1[:, :16],
+        sc[:,  1] * q1[:, 16:],
+        sc[:,  2] * q2[:, :16],
+        sc[:,  3] * q2[:, 16:],
+        sc[:,  4] * q3[:, :16],
+        sc[:,  5] * q3[:, 16:],
+        sc[:,  6] * q4[:, :16],
+        sc[:,  7] * q4[:, 16:],
+        sc[:,  8] * q5[:, :16],
+        sc[:,  9] * q5[:, 16:],
+        sc[:, 10] * q6[:, :16],
+        sc[:, 11] * q6[:, 16:],
+        sc[:, 12] * q7[:, :16],
+        sc[:, 13] * q7[:, 16:],
+        sc[:, 14] * q8[:, :16],
+        sc[:, 15] * q8[:, 16:],
+    ], axis=1)
+
+    if device is None:
+        return weight
+    return torch.from_numpy(weight).to(device=device)
+
+QK_K = 256
+kvalues_iq4nl = np.array([-127, -104, -83, -65, -49, -35, -22, -10, 1, 13, 25, 38, 53, 69, 89, 113], dtype=np.int8)
+
+def dequantize_iq4_xs(data):
+    block_size = GGML_BLOCK_SIZES["IQ4_XS"]
+    num_blocks = len(data) // block_size
+
+    d = np.frombuffer(data, dtype=np.float16)[0::block_size//2].astype(np.float32).reshape(num_blocks, 1)
+    scales_h = np.frombuffer(data, dtype=np.uint16)[1::block_size//2].reshape(num_blocks, 1)
+    data_u8 = np.frombuffer(data, dtype=np.uint8).reshape(num_blocks, block_size)[:, 4:]
+    scales_l = data_u8[:, :4].reshape(num_blocks, 4)
+    qs = data_u8[:, 4:].reshape(num_blocks, block_size - 8)
+
+    ls = np.zeros((num_blocks, QK_K // 32), dtype=np.int8)
+    for ib in range(QK_K // 32):
+        ls[:, ib] = ((scales_l[:, ib // 2] >> 4 * (ib % 2)) & 0xf) | (((scales_h[:, 0] >> 2 * ib) & 3) << 4)
+
+    dl = (d * (ls - 32)).reshape(num_blocks, -1, 1)
+
+    qs_lo_4 = qs[:, :QK_K // 2].reshape(num_blocks, -1, 16) & 0xf
+    qs_hi_4 = qs[:, :QK_K // 2].reshape(num_blocks, -1, 16) >> 4
+
+    y = np.zeros((num_blocks, QK_K), dtype=np.float32)
+    for ib in range(QK_K // 32):
+        y[:, ib*32:(ib*32)+16] = dl[:, ib] * kvalues_iq4nl[qs_lo_4[:, ib]]
+        y[:, (ib*32)+16:(ib*32)+32] = dl[:, ib] * kvalues_iq4nl[qs_hi_4[:, ib]]
+
+    return y.flatten()
+
+GGML_DEQUANTIZE = {
+    int(GGMLQuantizationType.F32): dequantize_f32,
+    int(GGMLQuantizationType.F16): dequantize_f16,
+    int(GGMLQuantizationType.Q4_0): dequantize_q4_0,
+    int(GGMLQuantizationType.Q5_0): dequantize_q5_0,
+    int(GGMLQuantizationType.Q8_0): dequantize_q8_0,
+    int(GGMLQuantizationType.Q2_K): dequantize_q2_k,
+    int(GGMLQuantizationType.Q3_K): dequantize_q3_k,
+    int(GGMLQuantizationType.Q4_K): dequantize_q4_k,
+    int(GGMLQuantizationType.Q5_K): dequantize_q5_k,
+    int(GGMLQuantizationType.Q6_K): dequantize_q6_k,
+    int(GGMLQuantizationType.IQ4_XS): dequantize_iq4_xs,
+}
+
+
+def dequant_gguf(data, type, shape):
+    values = GGML_DEQUANTIZE[type](data)
+    values = torch.from_numpy(values).view(shape)
+    return values
\ No newline at end of file
diff --git a/model_executor/layers/quantization/utils/gptq_utils.py b/model_executor/layers/quantization/utils/gptq_utils.py
new file mode 100644
index 0000000..dfebeca
--- /dev/null
+++ b/model_executor/layers/quantization/utils/gptq_utils.py
@@ -0,0 +1,158 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Mapping
+from copy import deepcopy
+from fractions import Fraction
+from types import MappingProxyType
+from typing import TYPE_CHECKING
+
+import regex as re
+import torch
+
+from vllm.model_executor.layers.linear import LinearBase, UnquantizedLinearMethod
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    UnquantizedEmbeddingMethod,
+)
+
+if TYPE_CHECKING:
+    from ..gptq import GPTQConfig
+    from ..gptq_marlin import GPTQMarlinConfig
+else:
+    GPTQConfig = object
+    GPTQMarlinConfig = object
+
+
+# Match dynamic rules with module name (prefix) and override quantize
+# config if module (prefix) matches a rule
+def override_config(config: GPTQConfig | GPTQMarlinConfig, prefix: str):
+    weight_bits = get_dynamic_override(config, prefix, "bits", config.weight_bits)
+    if isinstance(weight_bits, int):
+        config.weight_bits = weight_bits
+    group_size = get_dynamic_override(config, prefix, "group_size", config.group_size)
+    if isinstance(group_size, int):
+        config.group_size = group_size
+    desc_act = get_dynamic_override(config, prefix, "desc_act", config.desc_act)
+    if isinstance(desc_act, bool):
+        config.desc_act = desc_act
+
+    config.pack_factor = Fraction(32, config.weight_bits)  # packed into int32
+    if config.get_name() == "gptq_marlin":
+        assert isinstance(config, GPTQMarlinConfig)
+        is_sym = get_dynamic_override(config, prefix, "sym", config.is_sym)
+        if isinstance(is_sym, bool):
+            config.is_sym = is_sym
+
+        if (config.weight_bits, config.is_sym) not in config.TYPE_MAP:
+            raise ValueError(
+                "Unsupported quantization config: "
+                f"bits={config.weight_bits}, sym={config.is_sym}"
+            )
+
+        config.quant_type = config.TYPE_MAP[(config.weight_bits, config.is_sym)]
+    elif config.get_name() == "gptq":
+        assert isinstance(config, GPTQConfig)
+        if config.weight_bits not in [2, 3, 4, 8]:
+            raise ValueError(
+                "Currently, only 2/3/4/8-bit weight quantization is "
+                f"supported for GPTQ, but got {config.weight_bits} bits."
+            )
+
+
+def get_dynamic_override(
+    config: GPTQConfig | GPTQMarlinConfig,
+    layer_name: str,
+    key: str | None = None,
+    default_value: int | bool | None = None,
+) -> dict | int | bool | None:
+    for pattern, pattern_dict in config.dynamic.items():
+        # Negative match: matched modules are excluded from quantized init
+        if pattern.startswith("-:"):
+            if re.match(pattern.removeprefix("-:"), layer_name):
+                return False
+        # Positive match: matched modules have quant properties overrides
+        # base quant config
+        elif re.match(pattern.removeprefix("+:"), layer_name):
+            if key is None:
+                return pattern_dict
+            else:
+                return pattern_dict.get(key, default_value)
+    return default_value
+
+
+def is_layer_gptq_quantized(
+    prefix: str,
+    quantized_layers: list[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+) -> bool:
+    # prefix: model.layers.0.self_attn.q_proj
+    # proj_name: q_proj
+
+    # GPTQ's `modules_in_block_to_quantize`:
+    # Substr: ["self_attn.k_proj", "self_attn.v_proj", "self_attn.q_proj"]
+    # Full prefix ["model.layers.0.self_attn.q_proj"]
+
+    proj_name = prefix.split(".")[-1]
+
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    if proj_name in fused_mapping:
+        shard_prefixes = [
+            prefix.replace(proj_name, shard_proj_name)
+            for shard_proj_name in fused_mapping[proj_name]
+        ]
+
+        is_quantized = None
+        for shard_prefix in shard_prefixes:
+            is_shard_quantized = any(
+                layer in shard_prefix for layer in quantized_layers
+            )
+
+            if is_quantized is None:
+                is_quantized = is_shard_quantized
+            elif is_shard_quantized != is_quantized:
+                raise ValueError(
+                    f"Detected some but not all shards of {prefix} "
+                    "are quantized. All shards of fused layers "
+                    "to have the same precision."
+                )
+    else:
+        is_quantized = any(layer in prefix for layer in quantized_layers)
+
+    assert is_quantized is not None
+    return is_quantized
+
+
+def get_linear_quant_method(
+    config: GPTQConfig | GPTQMarlinConfig,
+    layer: torch.nn.Module,
+    prefix: str,
+    linear_method_cls: type,
+):
+    cloned_config = deepcopy(config)
+    parallel_lm_head_quantized = (
+        isinstance(layer, ParallelLMHead) and cloned_config.lm_head_quantized
+    )
+    if isinstance(layer, LinearBase) or parallel_lm_head_quantized:
+        is_layer_quantized = is_layer_gptq_quantized(
+            prefix=prefix,
+            quantized_layers=cloned_config.modules_in_block_to_quantize,
+            fused_mapping=cloned_config.packed_modules_mapping,
+        )
+        # False = skip module, None = no override, else = Positive match
+        if get_dynamic_override(  # noqa: E712
+            cloned_config,  # noqa: E712
+            layer_name=prefix,
+        ) == False or (not is_layer_quantized):  # noqa: E712
+            if parallel_lm_head_quantized:
+                return UnquantizedEmbeddingMethod()
+            return UnquantizedLinearMethod()
+
+        if prefix:
+            # Dynamic per module/layer rules may override base config
+            override_config(cloned_config, prefix=prefix)
+
+        return linear_method_cls(cloned_config)
+    return None
diff --git a/model_executor/layers/quantization/utils/int8_utils.py b/model_executor/layers/quantization/utils/int8_utils.py
new file mode 100644
index 0000000..925d0a5
--- /dev/null
+++ b/model_executor/layers/quantization/utils/int8_utils.py
@@ -0,0 +1,489 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://github.com/sgl-project/sglang/blob/4cb53ecd0cffceb6dee5c011a58f65997a86f151/python/sglang/srt/layers/quantization/int8_kernel.py
+import functools
+import json
+import logging
+import os
+from typing import Any
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
+
+logger = logging.getLogger(__name__)
+
+
+def apply_w8a8_block_int8_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    block_size: list[int],
+    weight_scale: torch.Tensor,
+    input_scale: torch.Tensor | None = None,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    assert input_scale is None
+    # View input as 2D matrix for fp8 methods
+    input_2d = input.view(-1, input.shape[-1])
+    output_shape = [*input.shape[:-1], weight.shape[0]]
+
+    q_input, x_scale = per_token_group_quant_int8(input_2d, block_size[1])
+    output = w8a8_block_int8_matmul(
+        q_input, weight, x_scale, weight_scale, block_size, output_dtype=input.dtype
+    )
+
+    if bias is not None:
+        output = output + bias
+    return output.to(dtype=input.dtype).view(*output_shape)
+
+
+def input_to_int8(
+    x: torch.Tensor, dtype: torch.dtype = torch.int8
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """This function quantizes input values to int8 values with
+    tensor-wise quantization."""
+    iinfo = torch.iinfo(dtype)
+    min_val, max_val = x.aminmax()
+    amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-12)
+    int8_min, int8_max = iinfo.min, iinfo.max
+    scale = int8_max / amax
+    x_scl_sat = (x * scale).clamp(min=int8_min, max=int8_max)
+    return x_scl_sat.to(dtype).contiguous(), scale.float().reciprocal()
+
+
+def block_dequant(
+    x_q_block: torch.Tensor,
+    x_s: torch.Tensor,
+    block_size: list[int],
+) -> torch.Tensor:
+    """This function conducts block-wise dequantization.
+    The inputs are block-wise quantization tensor `x_q_block`,
+    block-wise quantization scale and the block size.
+    The outputs are dequantized tensor.
+    """
+    block_n, block_k = block_size[0], block_size[1]
+    n, k = x_q_block.shape
+    n_tiles = (n + block_n - 1) // block_n
+    k_tiles = (k + block_k - 1) // block_k
+    assert n_tiles == x_s.shape[0]
+    assert k_tiles == x_s.shape[1]
+
+    x_dq_block = x_q_block.to(torch.float32)
+
+    for i in range(k_tiles):
+        for j in range(n_tiles):
+            x_dq_block[
+                j * block_n : min((j + 1) * block_n, n),
+                i * block_k : min((i + 1) * block_k, k),
+            ] *= x_s[j][i]
+
+    return x_dq_block
+
+
+if current_platform.is_rocm():
+    from triton.language import core
+
+    # NOTE: This can be removed when hip.libdevice.round() is available.
+    @core.extern
+    def round_f32(arg0, _builder=None):
+        return core.extern_elementwise(
+            "",
+            "",
+            [arg0],
+            {
+                (core.dtype("fp32"),): ("llvm.round", core.dtype("fp32")),
+                (core.dtype("fp64"),): ("llvm.round", core.dtype("fp64")),
+            },
+            is_pure=True,
+            _builder=_builder,
+        )
+
+    @triton.jit
+    def round_int8(x):
+        return round_f32(x).to(tl.int8)
+else:
+
+    @triton.jit
+    def round_int8(x):
+        return tl.extra.cuda.libdevice.round(x).to(tl.int8)
+
+
+@triton.jit
+def _per_token_quant_int8(
+    x_ptr,
+    xq_ptr,
+    scale_ptr,
+    stride_x,
+    stride_xq,
+    N,
+    BLOCK: tl.constexpr,
+):
+    # Adapted from https://github.com/InternLM/lmdeploy/blob/086481ed84b59bee3b8e4274e5fc69620040c048/lmdeploy/pytorch/kernels/cuda/w8a8_triton_kernels.py#L282
+    row_id = tl.program_id(0)
+
+    cols = tl.arange(0, BLOCK)
+    mask = cols < N
+
+    x = tl.load(x_ptr + row_id * stride_x + cols, mask=mask, other=0.0).to(tl.float32)
+    absmax = tl.maximum(tl.max(tl.abs(x)), 1e-10)
+    scale_x = absmax / 127
+    x_q = x * (127 / absmax)
+    x_q = round_int8(x_q)
+
+    tl.store(xq_ptr + row_id * stride_xq + cols, x_q, mask=mask)
+    tl.store(scale_ptr + row_id, scale_x)
+
+
+def per_token_quant_int8(x):
+    M = x.numel() // x.shape[-1]
+    N = x.shape[-1]
+    x_q = torch.empty_like(x, device=x.device, dtype=torch.int8)
+    scales = torch.empty(x.shape[:-1] + (1,), device=x.device, dtype=torch.float32)
+    BLOCK = triton.next_power_of_2(N)
+    # heuristics for number of warps
+    num_warps = min(max(BLOCK // 256, 1), 8)
+
+    assert x.is_contiguous()
+    _per_token_quant_int8[(M,)](
+        x,
+        x_q,
+        scales,
+        stride_x=x.stride(-2),
+        stride_xq=x_q.stride(-2),
+        N=N,
+        BLOCK=BLOCK,
+        num_warps=num_warps,
+        num_stages=1,
+    )
+
+    return x_q, scales
+
+
+@triton.jit
+def _per_token_group_quant_int8(
+    # Pointers to inputs and output
+    y_ptr,
+    y_q_ptr,
+    y_s_ptr,
+    # Stride of input
+    y_stride,
+    # Columns of input
+    N,
+    # Avoid to divide zero
+    eps,
+    # Information for int8
+    int8_min,
+    int8_max,
+    # Meta-parameters
+    BLOCK: tl.constexpr,
+):
+    """A Triton-accelerated function to perform per-token-group
+    quantization on a tensor.
+
+    This function converts the tensor values into int8 values.
+    """
+    # Map the program id to the row of X and Y it should compute.
+    g_id = tl.program_id(0)
+    y_ptr += g_id * y_stride
+    y_q_ptr += g_id * y_stride
+    y_s_ptr += g_id
+
+    cols = tl.arange(0, BLOCK)  # N <= BLOCK
+    mask = cols < N
+
+    y = tl.load(y_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    # Quant
+    _absmax = tl.maximum(tl.max(tl.abs(y)), eps)
+    y_s = _absmax / int8_max
+    y_q = tl.clamp(y / y_s, int8_min, int8_max).to(y_q_ptr.dtype.element_ty)
+
+    tl.store(y_q_ptr + cols, y_q, mask=mask)
+    tl.store(y_s_ptr, y_s)
+
+
+def per_token_group_quant_int8(
+    x: torch.Tensor,
+    group_size: int,
+    eps: float = 1e-10,
+    dtype: torch.dtype = torch.int8,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Function to perform per-token-group quantization on an input tensor `x`.
+
+    It converts the tensor values into signed int8 values and returns the
+    quantized tensor along with the scaling factor used for quantization.
+
+    Args:
+        x: The input tensor with ndim >= 2.
+        group_size: The group size used for quantization.
+        eps: The minimum to avoid dividing zero.
+        dtype: The dype of output tensor. Note that only `torch.int8`
+            is supported for now.
+
+    Returns:
+        tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
+            scaling factor for quantization.
+    """
+    assert x.shape[-1] % group_size == 0, (
+        "the last dimension of `x` cannot be divisible by `group_size`"
+    )
+    assert x.is_contiguous(), "`x` is not contiguous"
+
+    iinfo = torch.iinfo(dtype)
+    int8_max = iinfo.max
+    int8_min = iinfo.min
+
+    x_q = torch.empty_like(x, device=x.device, dtype=dtype)
+    x_s = torch.empty(
+        x.shape[:-1] + (x.shape[-1] // group_size,),
+        device=x.device,
+        dtype=torch.float32,
+    )
+    # prefer CUDA kernel if available
+    if current_platform.is_cuda():
+        torch.ops._C.per_token_group_quant_int8(
+            x, x_q, x_s, group_size, eps, float(int8_min), float(int8_max)
+        )
+        return x_q, x_s
+
+    M = x.numel() // group_size
+    N = group_size
+
+    BLOCK = triton.next_power_of_2(N)
+    # heuristics for number of warps
+    num_warps = min(max(BLOCK // 256, 1), 8)
+    num_stages = 1
+    _per_token_group_quant_int8[(M,)](
+        x,
+        x_q,
+        x_s,
+        group_size,
+        N,
+        eps,
+        int8_min=int8_min,
+        int8_max=int8_max,
+        BLOCK=BLOCK,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+
+    return x_q, x_s
+
+
+@triton.jit
+def _w8a8_block_int8_matmul(
+    # Pointers to inputs and output
+    A,
+    B,
+    C,
+    As,
+    Bs,
+    # Shape for matmul
+    M,
+    N,
+    K,
+    # Block size for block-wise quantization
+    group_n,
+    group_k,
+    # Stride for inputs and output
+    stride_am,
+    stride_ak,
+    stride_bk,
+    stride_bn,
+    stride_cm,
+    stride_cn,
+    stride_As_m,
+    stride_As_k,
+    stride_Bs_k,
+    stride_Bs_n,
+    # Meta-parameters
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+):
+    """Triton-accelerated function used to perform linear operations (dot
+    product) on input tensors `A` and `B` with block-wise quantization, and
+    store the result in output tensor `C`.
+    """
+
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = A + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    As_ptrs = As + offs_am * stride_As_m
+    offs_bsn = offs_bn // group_n
+    Bs_ptrs = Bs + offs_bsn * stride_Bs_n
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+
+        k_start = k * BLOCK_SIZE_K
+        offs_ks = k_start // group_k
+        a_s = tl.load(As_ptrs + offs_ks * stride_As_k)
+        b_s = tl.load(Bs_ptrs + offs_ks * stride_Bs_k)
+
+        accumulator += tl.dot(a, b).to(tl.float32) * a_s[:, None] * b_s[None, :]
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    if C.dtype.element_ty == tl.bfloat16:
+        c = accumulator.to(tl.bfloat16)
+    elif C.dtype.element_ty == tl.float16:
+        c = accumulator.to(tl.float16)
+    else:
+        c = accumulator.to(tl.float32)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = C + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+@functools.lru_cache
+def get_w8a8_block_int8_configs(
+    N: int, K: int, block_n: int, block_k: int
+) -> dict[int, Any] | None:
+    """
+    Return optimized configurations for the w8a8 block fp8 kernel.
+
+    The return value will be a dictionary that maps an irregular grid of
+    batch sizes to configurations of the w8a8 block fp8 kernel. To evaluate the
+    kernel on a given batch size bs, the closest batch size in the grid should
+    be picked and the associated configuration chosen to invoke the kernel.
+    """
+
+    # First look up if an optimized configuration is available in the configs
+    # directory
+    device_name = current_platform.get_device_name().replace(" ", "_")
+    json_file_name = f"N={N},K={K},device_name={device_name},dtype=int8_w8a8,block_shape=[{block_n}, {block_k}].json"  # noqa: E501
+
+    config_file_path = os.path.join(
+        os.path.dirname(os.path.realpath(__file__)), "configs", json_file_name
+    )
+    if os.path.exists(config_file_path):
+        with open(config_file_path) as f:
+            logger.info(
+                "Using configuration from %s for W8A8 Block INT8 kernel.",
+                config_file_path,
+            )
+            # If a configuration has been found, return it
+            return {int(key): val for key, val in json.load(f).items()}
+
+    # If no optimized configuration is available, we will use the default
+    # configuration
+    logger.warning(
+        (
+            "Using default W8A8 Block INT8 kernel config. Performance might "
+            "be sub-optimal! Config file not found at %s"
+        ),
+        config_file_path,
+    )
+    return None
+
+
+def w8a8_block_int8_matmul(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    """This function performs matrix multiplication with block-wise
+    quantization.
+
+    It takes two input tensors `A` and `B` with scales `As` and `Bs`.
+    The output is returned in the specified `output_dtype`.
+
+    Args:
+        A: The input tensor, e.g., activation.
+        B: The input tensor, e.g., weight.
+        As: The per-token-group quantization scale for `A`.
+        Bs: The per-block quantization scale for `B`.
+        block_size: The block size for per-block quantization. It should be
+            2-dim, e.g., [128, 128].
+        output_dtype: The dtype of the returned tensor.
+
+    Returns:
+        torch.Tensor: The result of matmul.
+    """
+    assert len(block_size) == 2
+    block_n, block_k = block_size[0], block_size[1]
+
+    assert A.shape[-1] == B.shape[-1]
+    assert A.shape[:-1] == As.shape[:-1] and A.is_contiguous()
+    assert triton.cdiv(A.shape[-1], block_k) == As.shape[-1]
+    M = A.numel() // A.shape[-1]
+
+    assert B.ndim == 2 and B.is_contiguous() and Bs.ndim == 2
+    N, K = B.shape
+    assert triton.cdiv(N, block_n) == Bs.shape[0]
+    assert triton.cdiv(K, block_k) == Bs.shape[1]
+
+    C_shape = A.shape[:-1] + (N,)
+    C = A.new_empty(C_shape, dtype=output_dtype)
+
+    configs = get_w8a8_block_int8_configs(N, K, block_size[0], block_size[1])
+    if configs:
+        # If an optimal configuration map has been found, look up the
+        # optimal config
+        config = configs[min(configs.keys(), key=lambda x: abs(x - M))]
+    else:
+        # Default config
+        # Block-wise quant: BLOCK_SIZE_K must be divisible by block_size[1]
+        config = {
+            "BLOCK_SIZE_M": 64,
+            "BLOCK_SIZE_N": block_size[0],
+            "BLOCK_SIZE_K": block_size[1],
+            "GROUP_SIZE_M": 32,
+            "num_warps": 4,
+            "num_stages": 3,
+        }
+
+    def grid(META):
+        return (
+            triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        )
+
+    _w8a8_block_int8_matmul[grid](
+        A,
+        B,
+        C,
+        As,
+        Bs,
+        M,
+        N,
+        K,
+        block_n,
+        block_k,
+        A.stride(-2),
+        A.stride(-1),
+        B.stride(1),
+        B.stride(0),
+        C.stride(-2),
+        C.stride(-1),
+        As.stride(-2),
+        As.stride(-1),
+        Bs.stride(1),
+        Bs.stride(0),
+        **config,
+    )
+
+    return C
diff --git a/model_executor/layers/quantization/utils/layer_utils.py b/model_executor/layers/quantization/utils/layer_utils.py
new file mode 100644
index 0000000..3b8c9a8
--- /dev/null
+++ b/model_executor/layers/quantization/utils/layer_utils.py
@@ -0,0 +1,41 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+
+def update_tensor_inplace(dst: torch.Tensor, src: torch.Tensor):
+    assert dst.dtype == src.dtype, "Tensors must have the same dtype"
+
+    # update tensor shape and stride
+    dst.as_strided_(src.shape, src.stride())
+
+    # If not the same underlying storage move tensor data
+    if dst.data_ptr() != src.data_ptr():
+        dst.copy_(src)
+        del src
+
+
+# Newly generated tensors need to replace existing tensors that are
+# already registered as parameters by vLLM (and won't be freed)
+def replace_parameter(
+    mod: torch.nn.Module, name: str, new: torch.Tensor | torch.nn.Parameter
+) -> None:
+    old = getattr(mod, name)
+    if (
+        type(old) is type(new)
+        and old.dtype == new.dtype
+        and old.untyped_storage().nbytes() == new.untyped_storage().nbytes()
+    ):
+        # If we can just update in-place to avoid re-registering
+        #   can be faster if the underlying storage is the same
+        update_tensor_inplace(old, new)
+    else:
+        # Fallback re-register parameter, convert to Parameter if necessary
+        # this not only ensures we don't register a tensor as a parameter, but
+        # also ensures that all parameter subclasses get re-registered as
+        # parameters for `torch.compile` compatibility
+        if not isinstance(new, torch.nn.Parameter):
+            new = torch.nn.Parameter(new, requires_grad=False)
+        mod.register_parameter(name, torch.nn.Parameter(new, requires_grad=False))
diff --git a/model_executor/layers/quantization/utils/machete_utils.py b/model_executor/layers/quantization/utils/machete_utils.py
new file mode 100644
index 0000000..ccfcdac
--- /dev/null
+++ b/model_executor/layers/quantization/utils/machete_utils.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.scalar_type import ScalarType, scalar_types
+
+MACHETE_PREPACKED_BLOCK_SHAPE = [64, 128]
+
+
+def query_machete_supported_quant_types(zero_points: bool) -> list[ScalarType]:
+    if zero_points:
+        return [scalar_types.uint4, scalar_types.uint8]
+    else:
+        return [scalar_types.uint4b8, scalar_types.uint8b128]
+
+
+def query_machete_supported_act_types(zero_points: bool) -> list[ScalarType]:
+    return [torch.float16, torch.bfloat16]
+
+
+def query_machete_supported_group_sizes(act_type: torch.dtype) -> list[int]:
+    """
+    Queries the supported group sizes for Machete based on the activation type.
+
+    Args:
+        act_type: The activation data type (torch.float16, torch.bfloat16).
+
+    Returns:
+        A list of supported group sizes. The group size must
+        be divisible by `TileShapeK = 128 * 8 // num_bits(act_type)`.
+        -1 indicates per-channel quantization.
+    """
+    if act_type in [torch.float16, torch.bfloat16]:
+        return [-1, 64, 128]
+    else:
+        return [-1, 128]
+
+
+def check_machete_supports_shape(
+    in_features: int, out_featrues: int
+) -> tuple[bool, str | None]:
+    if in_features % MACHETE_PREPACKED_BLOCK_SHAPE[0] != 0:
+        return (
+            False,
+            "Input features size must be divisible by "
+            f"{MACHETE_PREPACKED_BLOCK_SHAPE[0]}",
+        )
+    if out_featrues % MACHETE_PREPACKED_BLOCK_SHAPE[1] != 0:
+        return (
+            False,
+            "Output features size must be divisible by "
+            f"{MACHETE_PREPACKED_BLOCK_SHAPE[1]}",
+        )
+    return True, None
diff --git a/model_executor/layers/quantization/utils/marlin_utils.py b/model_executor/layers/quantization/utils/marlin_utils.py
new file mode 100644
index 0000000..071fb4b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/marlin_utils.py
@@ -0,0 +1,575 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import numpy
+import torch
+
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import LinearBase
+from vllm.platforms import current_platform
+from vllm.scalar_type import ScalarType, scalar_types
+
+from .quant_utils import pack_cols, unpack_cols
+
+logger = init_logger(__name__)
+
+GPTQ_MARLIN_TILE = 16
+GPTQ_MARLIN_MIN_THREAD_N = 64
+GPTQ_MARLIN_MIN_THREAD_K = 128
+GPTQ_MARLIN_MAX_PARALLEL = 16
+
+MARLIN_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+# In case there is a performance issue with Marlin, the variable below can be
+# changed to False, which allows Marlin to perform global reductions in fp16
+# precision (instead of fp32), and therefore, save on some memory movements.
+USE_FP32_REDUCE_DEFAULT = True
+
+
+# For binary size and compile time, we don't support the same types for with and
+#  without runtime zero-point. We support common cases, i.e. AWQ and GPTQ.
+#  TODO: we may want to move this into the C++ so its closer to the actual impl
+def query_marlin_supported_quant_types(
+    has_zp: bool | None = None,
+    include_fp_type: bool = True,
+    device_capability: int | None = None,
+):
+    if device_capability is None:
+        capability_tuple = current_platform.get_device_capability()
+        device_capability = (
+            -1 if capability_tuple is None else capability_tuple.to_int()
+        )
+
+    if device_capability < 80:
+        return []
+
+    # - has_zp is True: return quant_types that has zero points
+    # - has_zp is False: return quant_types that has not zero points
+    # - has_zp is None: both
+    if has_zp is None:
+        types0 = query_marlin_supported_quant_types(
+            False, include_fp_type, device_capability
+        )
+        types1 = query_marlin_supported_quant_types(
+            True, include_fp_type, device_capability
+        )
+        return types0 + types1
+
+    if has_zp:
+        # AWQ style, unsigned + runtime zero-point
+        return [scalar_types.uint4]
+    else:
+        # GPTQ style, unsigned + symmetric bias
+        res = [scalar_types.uint4b8, scalar_types.uint8b128]
+        if include_fp_type:
+            res += [scalar_types.float8_e4m3fn, scalar_types.float4_e2m1f]
+        return res
+
+
+def _check_marlin_supported(
+    quant_type: ScalarType,
+    group_size: int | None,
+    has_zp: bool,
+    device_capability: int | None = None,
+) -> tuple[bool, str | None]:
+    if device_capability is None:
+        capability_tuple = current_platform.get_device_capability()
+        device_capability = (
+            -1 if capability_tuple is None else capability_tuple.to_int()
+        )
+
+    supported_types = query_marlin_supported_quant_types(
+        has_zp, True, device_capability
+    )
+
+    if quant_type not in supported_types:
+        return (
+            False,
+            f"Marlin does not support weight_bits = {quant_type}. "
+            f"Only types = {supported_types} "
+            f"are supported (for group_size = {group_size}, "
+            f"device_capability = {device_capability}, zp = {has_zp}).",
+        )
+    if group_size is None or group_size not in MARLIN_SUPPORTED_GROUP_SIZES:
+        return (
+            False,
+            f"Marlin does not support group_size = {group_size}. "
+            f"Only group_sizes = {MARLIN_SUPPORTED_GROUP_SIZES} "
+            "are supported.",
+        )
+
+    return True, None
+
+
+def check_marlin_supported(
+    quant_type: ScalarType,
+    group_size: int,
+    has_zp: bool = False,
+    device_capability: int | None = None,
+) -> bool:
+    cond, _ = _check_marlin_supported(quant_type, group_size, has_zp, device_capability)
+    return cond
+
+
+def verify_marlin_supported(
+    quant_type: ScalarType, group_size: int, has_zp: bool = False
+) -> None:
+    cond, err_msg = _check_marlin_supported(quant_type, group_size, has_zp)
+    if not cond:
+        assert err_msg is not None
+        raise ValueError(err_msg)
+
+
+def verify_marlin_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> None:
+    # Validate output_size_per_partition
+    if output_size_per_partition % GPTQ_MARLIN_MIN_THREAD_N != 0:
+        raise ValueError(
+            f"Weight output_size_per_partition = "
+            f"{output_size_per_partition} is not divisible by "
+            f" min_thread_n = {GPTQ_MARLIN_MIN_THREAD_N}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    # Validate input_size_per_partition
+    if input_size_per_partition % GPTQ_MARLIN_MIN_THREAD_K != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = "
+            f"{input_size_per_partition} is not divisible "
+            f"by min_thread_k = {GPTQ_MARLIN_MIN_THREAD_K}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    if group_size < input_size and input_size_per_partition % group_size != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = {input_size_per_partition}"
+            f" is not divisible by group_size = {group_size}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+
+def check_marlin_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> tuple[bool, str | None]:
+    try:
+        verify_marlin_supports_shape(
+            output_size_per_partition, input_size_per_partition, input_size, group_size
+        )
+    except ValueError as e:
+        return False, e.__str__()
+    return True, None
+
+
+def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    output_size_per_partition = (
+        getattr(layer, "output_size_per_partition", None) or layer.output_size
+    )
+    input_size_per_partition = (
+        getattr(layer, "input_size_per_partition", None) or layer.input_size
+    )
+
+    return check_marlin_supports_shape(
+        output_size_per_partition=output_size_per_partition,
+        input_size_per_partition=input_size_per_partition,
+        input_size=layer.input_size,
+        group_size=group_size,
+    )[0]
+
+
+def check_moe_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    hidden_size = layer.hidden_size
+    intermediate_size_per_partition = layer.intermediate_size_per_partition
+    # apply_router_weight_on_input is not supported for moe marlin
+    supports_router_weight = not layer.apply_router_weight_on_input
+    # moe marlin requires the activation to be silu
+    supports_activation = layer.activation == "silu"
+
+    # gate-up: (n, k) = (intermediate_size_per_partition * 2, hidden_size)
+    # down: (n, k) = (hidden_size, intermediate_size_per_partition)
+    # moe marlin requires n % 128 == 0 and k % 64 == 0
+    supports_shape = (
+        hidden_size % 128 == 0
+        and intermediate_size_per_partition % max(64, group_size) == 0
+    )
+    supports_group_size = group_size in [-1, 32, 64, 128]
+    return (
+        supports_shape
+        and supports_group_size
+        and supports_router_weight
+        and supports_activation
+    )
+
+
+def marlin_moe_intermediate_size(w1_packed: torch.Tensor, w2_packed: torch.Tensor):
+    """
+    Given Marlin packed weight matrices w1_packed, and w2_packed,
+    return the MoE intermediate size N
+    """
+    marlin_tile_size = 16
+    return w2_packed.size(1) * marlin_tile_size
+
+
+def marlin_make_workspace(
+    output_size_per_partition: int, device: torch.device
+) -> torch.Tensor:
+    max_workspace_size = (
+        output_size_per_partition // GPTQ_MARLIN_MIN_THREAD_N
+    ) * GPTQ_MARLIN_MAX_PARALLEL
+
+    return torch.zeros(
+        max_workspace_size, dtype=torch.int, device=device, requires_grad=False
+    )
+
+
+def marlin_make_workspace_new(
+    device: torch.device, max_blocks_per_sm: int = 1
+) -> torch.Tensor:
+    # In the new marlin kernel, we use the num of threadblocks as workspace
+    # size. The num of threadblocks is sms_count * max_blocks_per_sm.
+    sms = torch.cuda.get_device_properties(device).multi_processor_count
+    return torch.zeros(
+        sms * max_blocks_per_sm, dtype=torch.int, device=device, requires_grad=False
+    )
+
+
+def marlin_is_k_full(act_order: bool, is_row_parallel: bool) -> bool:
+    return (not act_order) or (act_order and not is_row_parallel)
+
+
+def marlin_repeat_scales_on_all_ranks(
+    act_order: bool, group_size: int, is_row_parallel: bool
+) -> bool:
+    # Need to repeat scales on every rank if act_ordering or
+    # channelwise and RowParallelLinear
+    is_channelwise = group_size == -1
+    return act_order or (is_channelwise and is_row_parallel)
+
+
+def marlin_make_empty_g_idx(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def marlin_make_empty_zp(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def marlin_sort_g_idx(g_idx: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+    g_idx_sort_indices = torch.argsort(g_idx).to(torch.int)
+    return g_idx[g_idx_sort_indices], g_idx_sort_indices
+
+
+def get_scale_perms():
+    scale_perm: list[int] = []
+    for i in range(8):
+        scale_perm.extend([i + 8 * j for j in range(8)])
+    scale_perm_single: list[int] = []
+    for i in range(4):
+        scale_perm_single.extend([2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
+    return scale_perm, scale_perm_single
+
+
+def marlin_permute_scales(
+    s: torch.Tensor, size_k: int, size_n: int, group_size: int
+) -> torch.Tensor:
+    scale_perm, scale_perm_single = get_scale_perms()
+    if group_size < size_k and group_size != -1:
+        s = s.reshape((-1, len(scale_perm)))[:, scale_perm]
+    else:
+        s = s.reshape((-1, len(scale_perm_single)))[:, scale_perm_single]
+    s = s.reshape((-1, size_n)).contiguous()
+
+    return s
+
+
+def marlin_permute_bias(s: torch.Tensor) -> torch.Tensor:
+    origin_shape = s.shape
+    _, scale_perm_single = get_scale_perms()
+    s = s.reshape((-1, len(scale_perm_single)))[:, scale_perm_single]
+    return s.reshape(*origin_shape).contiguous()
+
+
+def marlin_moe_permute_scales(
+    s: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    group_size: int,
+):
+    num_experts = s.shape[0]
+    output = torch.empty(
+        (num_experts, s.shape[1], s.shape[2]),
+        device=s.device,
+        dtype=s.dtype,
+    )
+
+    for e in range(num_experts):
+        output[e] = marlin_permute_scales(s[e], size_k, size_n, group_size)
+    return output
+
+
+def marlin_zero_points(
+    zp: torch.Tensor, size_k: int, size_n: int, num_bits: int
+) -> torch.Tensor:
+    # Permute zero-points in a similar way to scales, but do not use the
+    # "single" permutation, since zero-points are applied on every MMA
+    scale_perm, _ = get_scale_perms()
+    zp = zp.reshape((-1, len(scale_perm)))[:, scale_perm]
+
+    # Interleave column dim (for the dequantize code) and pack it to int32
+    if num_bits == 4:
+        interleave = numpy.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = numpy.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    zp = zp.reshape((-1, len(interleave)))[:, interleave].ravel()
+    zp = zp.reshape((-1, size_n)).contiguous()
+    zp = pack_cols(zp, num_bits, size_k, size_n)
+
+    return zp
+
+
+def awq_to_marlin_zero_points(
+    q_zp_packed: torch.Tensor, size_k: int, size_n: int, num_bits: int
+) -> torch.Tensor:
+    # AWQ zero-points are quantized and packed on the column dim.
+    # In addition, the values are permuted based on dequantizer.
+    # Here we undo both of these, and then apply marlin permutation
+    # and pack it back.
+    q_zp = unpack_cols(q_zp_packed, num_bits, size_k, size_n)
+
+    # Undo interleaving (use argsort(..) to get inverse perm)
+    if num_bits == 4:
+        undo_interleave = numpy.argsort(numpy.array([0, 2, 4, 6, 1, 3, 5, 7]))
+    elif num_bits == 8:
+        undo_interleave = numpy.argsort(numpy.array([0, 2, 1, 3]))
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    q_zp = q_zp.reshape((-1, len(undo_interleave)))[:, undo_interleave].ravel()
+    q_zp = q_zp.reshape((-1, size_n)).contiguous()
+
+    marlin_zp = marlin_zero_points(q_zp, size_k, size_n, num_bits)
+    return marlin_zp
+
+
+def moe_awq_to_marlin_zero_points(
+    q_zp_packed: torch.Tensor, size_k: int, size_n: int, num_bits: int
+):
+    num_experts = q_zp_packed.shape[0]
+    output = torch.empty(
+        (num_experts, q_zp_packed.shape[1], q_zp_packed.shape[2]),
+        device=q_zp_packed.device,
+        dtype=q_zp_packed.dtype,
+    )
+    for e in range(num_experts):
+        output[e] = awq_to_marlin_zero_points(q_zp_packed[e], size_k, size_n, num_bits)
+    return output
+
+
+def maybe_warn_marlin_atomic_add(device, dtype):
+    if torch.compiler.is_dynamo_compiling():
+        return
+    device_capability = torch.cuda.get_device_capability(device)
+    if device_capability[0] < 9 and dtype == torch.bfloat16:
+        logger.info_once(
+            "You are running Marlin kernel with bf16 on GPUs before SM90. "
+            "You can consider change to fp16 to achieve better performance "
+            "if possible."
+        )
+
+
+def maybe_warn_marlin_atomic_add_env():
+    if torch.compiler.is_dynamo_compiling():
+        return
+    if envs.VLLM_MARLIN_USE_ATOMIC_ADD:
+        return
+    logger.info_once(
+        "Marlin kernel can achieve better performance for small size_n "
+        "with experimental use_atomic_add feature. "
+        "You can consider set environment variable "
+        "VLLM_MARLIN_USE_ATOMIC_ADD to 1 if possible."
+    )
+
+
+def should_use_atomic_add_reduce(
+    m: int, n: int, k: int, device: torch.device, dtype: torch.dtype
+) -> bool:
+    # the performance of atomicAdd is better than global reduce
+    # only when m*n is small and k is large
+    if n >= 2048 or k < 2048 or device.type != "cuda":
+        return False
+
+    # disable atomicAdd reduce by default,
+    # one can enable it with VLLM_MARLIN_USE_ATOMIC_ADD=1
+    if not envs.VLLM_MARLIN_USE_ATOMIC_ADD:
+        maybe_warn_marlin_atomic_add_env()
+        return False
+
+    # sm8x doesn't support atomicAdd + bfloat16 natively
+    device_capability = torch.cuda.get_device_capability(device)
+    if device_capability[0] < 9 and dtype == torch.bfloat16:
+        maybe_warn_marlin_atomic_add(device, dtype)
+        return False
+
+    return True
+
+
+def apply_gptq_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_zp: torch.Tensor,
+    g_idx: torch.Tensor,
+    g_idx_sort_indices: torch.Tensor,
+    workspace: torch.Tensor,
+    wtype: ScalarType,
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    is_k_full: bool,
+    bias: torch.Tensor | None = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (output_size_per_partition,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0),
+        n=output_size_per_partition,
+        k=reshaped_x.size(1),
+        device=input.device,
+        dtype=input.dtype,
+    )
+
+    output = ops.gptq_marlin_gemm(
+        reshaped_x,
+        None,
+        weight,
+        bias,
+        weight_scale,
+        None,
+        weight_zp,
+        g_idx,
+        g_idx_sort_indices,
+        workspace,
+        wtype,
+        size_m=reshaped_x.shape[0],
+        size_n=output_size_per_partition,
+        size_k=input_size_per_partition,
+        is_k_full=is_k_full,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+        is_zp_float=False,
+    )
+
+    return output.reshape(out_shape)
+
+
+def apply_awq_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_zp: torch.Tensor,
+    g_idx: torch.Tensor,
+    g_idx_sort_indices: torch.Tensor,
+    workspace: torch.Tensor,
+    quant_type: ScalarType,
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    bias: torch.Tensor | None = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (output_size_per_partition,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0),
+        n=output_size_per_partition,
+        k=reshaped_x.size(1),
+        device=input.device,
+        dtype=input.dtype,
+    )
+
+    output = ops.gptq_marlin_gemm(
+        reshaped_x,
+        None,
+        weight,
+        bias,
+        weight_scale,
+        None,
+        weight_zp,
+        g_idx,
+        g_idx_sort_indices,
+        workspace,
+        quant_type,
+        size_m=reshaped_x.shape[0],
+        size_n=output_size_per_partition,
+        size_k=input_size_per_partition,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+        is_zp_float=False,
+    )
+
+    return output.reshape(out_shape)
+
+
+def apply_rtn_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    workspace: torch.Tensor,
+    quant_type: ScalarType,
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    bias: torch.Tensor | None = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (output_size_per_partition,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0),
+        n=output_size_per_partition,
+        k=reshaped_x.size(1),
+        device=input.device,
+        dtype=input.dtype,
+    )
+
+    output = ops.gptq_marlin_gemm(
+        reshaped_x,
+        None,
+        weight,
+        bias,
+        weight_scale,
+        None,
+        None,
+        None,
+        None,
+        workspace,
+        quant_type,
+        size_m=reshaped_x.shape[0],
+        size_n=output_size_per_partition,
+        size_k=input_size_per_partition,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+        is_zp_float=False,
+    )
+
+    return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/utils/marlin_utils_fp4.py b/model_executor/layers/quantization/utils/marlin_utils_fp4.py
new file mode 100644
index 0000000..842fb9b
--- /dev/null
+++ b/model_executor/layers/quantization/utils/marlin_utils_fp4.py
@@ -0,0 +1,397 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+import vllm._custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    USE_FP32_REDUCE_DEFAULT,
+    marlin_make_workspace_new,
+    marlin_permute_bias,
+    marlin_permute_scales,
+    should_use_atomic_add_reduce,
+)
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
+
+logger = init_logger(__name__)
+
+
+def is_fp4_marlin_supported():
+    return current_platform.has_device_capability(80)
+
+
+def nvfp4_marlin_process_scales(marlin_scales):
+    if not (marlin_scales >= 0).all():
+        logger.warning_once(
+            "NVFP4 Marlin assumes the scales to be >=0, but has encountered "
+            "negative scales. Accuracy will likely be degraded. This is "
+            "because it changes the scales from FP8-S1E4M3 to a special "
+            "FP8-S0E5M3 format to speedup the dequantization."
+        )
+
+    # convert to half first, we would convert to fp8 later
+    marlin_scales = marlin_scales.to(torch.half)
+
+    # 8 is the number of scale number using by one thread
+    marlin_scales = marlin_scales.view(marlin_scales.size(0) // 2, 2, -1, 8)
+    marlin_scales = marlin_scales.permute(0, 2, 1, 3).reshape(
+        marlin_scales.size(0) * 2, -1
+    )
+
+    # fit the layout of fp8 dequantization
+    marlin_scales = marlin_scales.view(-1, 4)[:, [0, 2, 1, 3]].view(
+        marlin_scales.size(0), -1
+    )
+
+    # We assume that weight_scale (FP8-S1E4M3) is always greater
+    # than or equal to 0. So we can convert
+    # (weight_scale * (2 ** 7) to a special FP8-S0E5M3 format.
+    # After multiplying by 2 ** 7, the top bit of FP8-S0E5M3 would always be 1
+    # when weight_scale > 0. This allows us to have an exponent bias
+    # closer to zero after dequantization.
+
+    marlin_scales = (marlin_scales * (2**7)).view(torch.int16) << 1
+    marlin_scales = marlin_scales.view(torch.float8_e4m3fn)
+    marlin_scales = marlin_scales[:, 1::2].contiguous()
+
+    return marlin_scales
+
+
+def mxfp4_marlin_process_scales(marlin_scales):
+    # 8 is the number of scale number using by one thread
+    marlin_scales = marlin_scales.view(marlin_scales.size(0) // 2, 2, -1, 8)
+    marlin_scales = marlin_scales.permute(0, 2, 1, 3).reshape(
+        marlin_scales.size(0) * 2, -1
+    )
+
+    # fit the layout of fp8 dequantization
+    marlin_scales = marlin_scales.view(-1, 4)[:, [0, 2, 1, 3]].view(
+        marlin_scales.size(0), -1
+    )
+    marlin_scales = marlin_scales.to(torch.float8_e8m0fnu)
+    return marlin_scales
+
+
+def nvfp4_marlin_process_global_scale(global_scale):
+    assert global_scale.dtype in [torch.half, torch.bfloat16]
+    fp4_exponent = 2
+    if global_scale.dtype == torch.half:
+        target_exponent = 5
+    elif global_scale.dtype == torch.bfloat16:
+        target_exponent = 8
+    # exponent_bias_fp16 = 2 ** 4 - 2 ** 1 = 14
+    # exponent_bias_bf16 = 2 ** 7 - 2 ** 1 = 126
+    exponent_bias = 2 ** (target_exponent - 1) - 2 ** (fp4_exponent - 1)
+    return global_scale * (2.0 ** (exponent_bias - 7))
+
+
+def apply_fp4_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_scale_2: torch.Tensor | None,
+    workspace: torch.Tensor,
+    size_n: int,
+    size_k: int,
+    bias: torch.Tensor | None = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    # For GPUs that lack FP4 hardware support, we can leverage the
+    # Marlin kernel for fast weight-only FP4 quantization
+
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (size_n,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0), n=size_n, k=size_k, device=input.device, dtype=input.dtype
+    )
+
+    output = ops.gptq_marlin_gemm(
+        a=reshaped_x,
+        c=None,
+        b_q_weight=weight,
+        b_bias=bias,
+        b_scales=weight_scale,
+        global_scale=weight_scale_2,
+        b_zeros=None,
+        g_idx=None,
+        perm=None,
+        workspace=workspace,
+        b_q_type=scalar_types.float4_e2m1f,
+        size_m=reshaped_x.size(0),
+        size_n=size_n,
+        size_k=size_k,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+    )
+
+    return output.reshape(out_shape)
+
+
+def prepare_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP4 computation but "
+        "FP4 quantization is being used. Weight-only FP4 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads."
+    )
+
+    is_nvfp4 = hasattr(layer, "weight_scale_2")
+    group_size = 16 if is_nvfp4 else 32
+
+    part_size_n = layer.output_size_per_partition
+    part_size_k = layer.input_size_per_partition
+    param_dtype = layer.params_dtype
+
+    assert layer.weight.shape == (part_size_n, part_size_k // 2)
+
+    device = layer.weight.device
+
+    # WORKSPACE
+    layer.workspace = marlin_make_workspace_new(device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    perm = torch.empty(0, dtype=torch.int, device=device)
+    qweight = layer.weight.view(torch.int32).T.contiguous()
+
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=qweight,
+        perm=perm,
+        size_k=part_size_k,
+        size_n=part_size_n,
+        num_bits=4,
+    )
+    layer.weight = torch.nn.Parameter(marlin_qweight, requires_grad=False)
+
+    # WEIGHT SCALES
+    # Permute scales
+    weight_scale = layer.weight_scale.T.contiguous()
+
+    if not is_nvfp4:
+        weight_scale = weight_scale.view(torch.float8_e8m0fnu)
+
+    weight_scale = weight_scale.to(param_dtype)
+    weight_scale = marlin_permute_scales(
+        s=weight_scale, size_k=part_size_k, size_n=part_size_n, group_size=group_size
+    )
+
+    if is_nvfp4:
+        weight_scale = nvfp4_marlin_process_scales(weight_scale)
+        layer.weight_scale = torch.nn.Parameter(weight_scale, requires_grad=False)
+
+        weight_scale_2 = layer.weight_scale_2.to(param_dtype)
+        weight_scale_2 = nvfp4_marlin_process_global_scale(weight_scale_2)
+        layer.weight_scale_2 = torch.nn.Parameter(weight_scale_2, requires_grad=False)
+    else:
+        weight_scale = mxfp4_marlin_process_scales(weight_scale)
+        layer.weight_scale = torch.nn.Parameter(weight_scale, requires_grad=False)
+
+    if hasattr(layer, "bias") and layer.bias is not None:
+        assert layer.bias.shape == (part_size_n,)
+        bias = marlin_permute_bias(layer.bias)
+        layer.bias = torch.nn.Parameter(bias, requires_grad=False)
+
+    return
+
+
+def prepare_moe_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP4 computation but "
+        "FP4 quantization is being used. Weight-only FP4 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads."
+    )
+
+    is_nvfp4 = hasattr(layer, "w13_weight_scale_2")
+    group_size = 16 if is_nvfp4 else 32
+
+    e = layer.num_experts
+    k = layer.hidden_size
+    n = layer.intermediate_size_per_partition
+
+    # WORKSPACE
+    device = layer.w13_weight.device
+    param_dtype = layer.params_dtype
+    layer.workspace = marlin_make_workspace_new(device, 4)
+    perm = torch.empty(0, dtype=torch.int, device=device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    for name in ["w13_weight", "w2_weight"]:
+        weight = getattr(layer, name)
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        assert weight.shape == (e, size_n, size_k // 2)
+
+        for i in range(e):
+            qweight = weight[i].view(torch.int32).T.contiguous()
+
+            marlin_qweight = ops.gptq_marlin_repack(
+                b_q_weight=qweight, perm=perm, size_k=size_k, size_n=size_n, num_bits=4
+            )
+            tensor_list.append(marlin_qweight)
+
+        weight = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        weight = torch.nn.Parameter(weight, requires_grad=False)
+
+        setattr(layer, name, weight)
+
+    # WEIGHT SCALES
+    # Permute scales
+    for name in ["w13", "w2"]:
+        scales = getattr(layer, name + "_weight_scale")
+        if not is_nvfp4:
+            scales = scales.view(torch.float8_e8m0fnu)
+        scales = scales.to(param_dtype)
+        if is_nvfp4:
+            global_scale = getattr(layer, name + "_weight_scale_2").to(param_dtype)
+
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        for i in range(e):
+            scale = scales[i].T
+
+            marlin_scales = marlin_permute_scales(
+                s=scale, size_k=size_k, size_n=size_n, group_size=group_size
+            )
+            if is_nvfp4:
+                marlin_scales = nvfp4_marlin_process_scales(marlin_scales)
+            else:
+                marlin_scales = mxfp4_marlin_process_scales(marlin_scales)
+            tensor_list.append(marlin_scales)
+
+        scales = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        scales = torch.nn.Parameter(scales, requires_grad=False)
+        setattr(layer, name + "_weight_scale", scales)
+
+        if is_nvfp4:
+            global_scale = nvfp4_marlin_process_global_scale(global_scale)
+            global_scale = torch.nn.Parameter(global_scale, requires_grad=False)
+            setattr(layer, name + "_weight_scale_2", global_scale)
+
+    # BIAS
+    # Permute bias
+    for name in ["w13_bias", "w2_bias"]:
+        if not hasattr(layer, name):
+            continue
+        bias = getattr(layer, name).to(param_dtype)
+
+        tensor_list = []
+        for i in range(e):
+            expert_bias = bias[i]
+
+            tensor_list.append(marlin_permute_bias(expert_bias))
+
+        bias = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        bias = torch.nn.Parameter(bias, requires_grad=False)
+        setattr(layer, name, bias)
+
+
+def rand_marlin_weight_nvfp4_like(weight, group_size):
+    assert group_size > 0
+    size_n, size_k = weight.shape
+    device = weight.device
+
+    scales = weight.view(size_n, -1, group_size).abs().max(-1)[0] / 6
+    global_scale = scales.max() / 448
+    scales = (scales / global_scale).to(torch.float8_e4m3fn)
+
+    fp4_weight = torch.randint(
+        0, 256, (size_n, size_k // 2), dtype=torch.uint8, device=weight.device
+    )
+    fp4_weight_part_1 = (fp4_weight & 0b10000000) | ((fp4_weight & 0b01110000) >> 2)
+    fp4_weight_part_1 = fp4_weight_part_1.view(torch.float8_e4m3fn)
+    fp4_weight_part_1 = fp4_weight_part_1.to(weight.dtype) * (2**6)
+
+    fp4_weight2 = fp4_weight << 4
+    fp4_weight_part_2 = (fp4_weight2 & 0b10000000) | ((fp4_weight2 & 0b01110000) >> 2)
+    fp4_weight_part_2 = fp4_weight_part_2.view(torch.float8_e4m3fn)
+    fp4_weight_part_2 = fp4_weight_part_2.to(weight.dtype) * (2**6)
+
+    weight_ref = torch.cat(
+        [fp4_weight_part_2.unsqueeze(2), fp4_weight_part_1.unsqueeze(2)], 2
+    ).view(size_n, size_k)
+    weight_ref = (
+        weight_ref
+        * global_scale.to(weight.dtype)
+        * scales.repeat_interleave(group_size, 1).to(weight.dtype)
+    )
+
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
+        perm=torch.empty(0, dtype=torch.int, device=device),
+        size_k=size_k,
+        size_n=size_n,
+        num_bits=4,
+    )
+
+    marlin_scales = marlin_permute_scales(
+        s=scales.T.to(weight.dtype), size_k=size_k, size_n=size_n, group_size=group_size
+    )
+    marlin_scales = nvfp4_marlin_process_scales(marlin_scales)
+
+    global_scale = nvfp4_marlin_process_global_scale(global_scale)
+
+    return weight_ref.T, marlin_qweight, marlin_scales, global_scale
+
+
+def rand_marlin_weight_mxfp4_like(weight, group_size):
+    assert group_size > 0
+    size_n, size_k = weight.shape
+    device = weight.device
+
+    scales = torch.randint(
+        100,
+        125,
+        (size_n, size_k // group_size),
+        dtype=torch.uint8,
+        device=weight.device,
+    )
+    scales = scales.view(torch.float8_e8m0fnu)
+
+    fp4_weight = torch.randint(
+        0, 256, (size_n, size_k // 2), dtype=torch.uint8, device=weight.device
+    )
+    fp4_weight_part_1 = (fp4_weight & 0b10000000) | ((fp4_weight & 0b01110000) >> 2)
+    fp4_weight_part_1 = fp4_weight_part_1.view(torch.float8_e4m3fn)
+    fp4_weight_part_1 = fp4_weight_part_1.to(weight.dtype) * (2**6)
+
+    fp4_weight2 = fp4_weight << 4
+    fp4_weight_part_2 = (fp4_weight2 & 0b10000000) | ((fp4_weight2 & 0b01110000) >> 2)
+    fp4_weight_part_2 = fp4_weight_part_2.view(torch.float8_e4m3fn)
+    fp4_weight_part_2 = fp4_weight_part_2.to(weight.dtype) * (2**6)
+
+    weight_ref = torch.cat(
+        [fp4_weight_part_2.unsqueeze(2), fp4_weight_part_1.unsqueeze(2)], 2
+    ).view(size_n, size_k)
+    weight_ref = weight_ref * scales.repeat_interleave(group_size, 1).to(weight.dtype)
+
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
+        perm=torch.empty(0, dtype=torch.int, device=device),
+        size_k=size_k,
+        size_n=size_n,
+        num_bits=4,
+    )
+
+    marlin_scales = marlin_permute_scales(
+        s=scales.T.to(weight.dtype), size_k=size_k, size_n=size_n, group_size=group_size
+    )
+
+    marlin_scales = mxfp4_marlin_process_scales(marlin_scales)
+
+    return weight_ref.T, marlin_qweight, marlin_scales.to(torch.float8_e8m0fnu)
diff --git a/model_executor/layers/quantization/utils/marlin_utils_fp8.py b/model_executor/layers/quantization/utils/marlin_utils_fp8.py
new file mode 100644
index 0000000..8c96848
--- /dev/null
+++ b/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -0,0 +1,351 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+import vllm._custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    USE_FP32_REDUCE_DEFAULT,
+    marlin_make_workspace_new,
+    marlin_permute_bias,
+    marlin_permute_scales,
+    should_use_atomic_add_reduce,
+)
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+
+def is_fp8_marlin_supported():
+    return current_platform.has_device_capability(80)
+
+
+def fp8_fused_exponent_bias_into_scales(scales):
+    fp8_exponent = 4
+    if scales.dtype == torch.half:
+        target_exponent = 5
+    elif scales.dtype == torch.bfloat16:
+        target_exponent = 8
+    # exponent_bias_fp16 = 2 ** 4 - 2 ** 3 = 8
+    # exponent_bias_bf16 = 2 ** 7 - 2 ** 3 = 120
+    exponent_bias = 2 ** (target_exponent - 1) - 2 ** (fp8_exponent - 1)
+    s = torch.ones_like(scales) * 2
+    s = s**exponent_bias
+    return scales * s
+
+
+def apply_fp8_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    workspace: torch.Tensor,
+    size_n: int,
+    size_k: int,
+    bias: torch.Tensor | None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    # For GPUs that lack FP8 hardware support, we can leverage the
+    # Marlin kernel for fast weight-only FP8 quantization
+
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (size_n,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0), n=size_n, k=size_k, device=input.device, dtype=input.dtype
+    )
+
+    output = ops.gptq_marlin_gemm(
+        a=reshaped_x,
+        c=None,
+        b_q_weight=weight,
+        b_bias=bias,
+        b_scales=weight_scale,
+        global_scale=None,
+        b_zeros=None,
+        g_idx=None,
+        perm=None,
+        workspace=workspace,
+        b_q_type=scalar_types.float8_e4m3fn,
+        size_m=reshaped_x.size(0),
+        size_n=size_n,
+        size_k=size_k,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+    )
+
+    return output.reshape(out_shape)
+
+
+def prepare_fp8_layer_for_marlin(
+    layer: torch.nn.Module, size_k_first: bool = True
+) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP8 computation but "
+        "FP8 quantization is being used. Weight-only FP8 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads."
+    )
+
+    part_size_n = layer.output_size_per_partition
+    part_size_k = layer.input_size_per_partition
+    weight_block_size = getattr(layer, "weight_block_size", None)
+
+    if size_k_first:
+        assert layer.weight.shape == (part_size_k, part_size_n)
+    else:
+        assert layer.weight.shape == (part_size_n, part_size_k)
+
+    device = layer.weight.device
+
+    # WORKSPACE
+    layer.workspace = marlin_make_workspace_new(device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    perm = torch.empty(0, dtype=torch.int, device=device)
+    qweight = pack_fp8_to_int32(layer.weight, size_k_first)
+    if not size_k_first:
+        qweight = qweight.T.contiguous()
+
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=qweight,
+        perm=perm,
+        size_k=part_size_k,
+        size_n=part_size_n,
+        num_bits=8,
+    )
+    layer.weight = torch.nn.Parameter(marlin_qweight, requires_grad=False)
+
+    # WEIGHT SCALES
+    # Permute scales
+    if "weight_scale" in dir(layer):
+        scales = layer.weight_scale.to(layer.orig_dtype)
+    elif "weight_scale_inv" in dir(layer):
+        scales = layer.weight_scale_inv.to(layer.orig_dtype)
+        del layer.weight_scale_inv
+
+    group_size = -1 if weight_block_size is None else weight_block_size[1]
+
+    # marlin kernel only support channel-wise and group-wise quantization
+    # we need to convert the scales
+    if weight_block_size is None:
+        if scales.nelement() == 1:
+            # tensor-wise quantization -> channel-wise quantization
+            # (1, 1) =>(repeat)=> (1, size_n)
+            scales = scales.view(1, 1).repeat_interleave(part_size_n, 1)
+        elif scales.nelement() > 1 and scales.nelement() != part_size_n:
+            assert part_size_n % scales.nelement() == 0
+            s_size = scales.nelement()
+            # tensor-wise quantization (for gate-up proj)
+            #     -> channel-wise quantization
+            # (1, s_size) =>(repeat)=> (1, size_n)
+            scales = scales.view(1, s_size)
+            scales = scales.repeat_interleave(part_size_n // s_size, 1)
+        else:
+            # channel-wise quantization
+            # (1, size_n)
+            scales = scales.view(1, part_size_n)
+    else:
+        # block-wise quantization -> group-wise quantization
+        # (size_k // block_size[1], ceil(size_n / block_size[0]))
+        #  =>(repeat)=> (size_k // block_size[1], size_n)
+        if not size_k_first:
+            scales = scales.T.contiguous()
+        block_n = weight_block_size[0]
+        scales = scales.repeat_interleave(block_n, 1)
+        # size_n may not divisible by block_size[0]
+        scales = scales[:, :part_size_n]
+
+    marlin_scales = marlin_permute_scales(
+        s=scales, size_k=part_size_k, size_n=part_size_n, group_size=group_size
+    )
+    marlin_scales = fp8_fused_exponent_bias_into_scales(marlin_scales)
+    layer.weight_scale = torch.nn.Parameter(marlin_scales, requires_grad=False)
+
+    if hasattr(layer, "bias") and layer.bias is not None:
+        assert layer.bias.shape == (part_size_n,)
+        bias = marlin_permute_bias(layer.bias)
+        layer.bias = torch.nn.Parameter(bias, requires_grad=False)
+
+
+def prepare_moe_fp8_layer_for_marlin(
+    layer: torch.nn.Module, size_k_first: bool = True
+) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP8 computation but "
+        "FP8 quantization is being used. Weight-only FP8 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads."
+    )
+
+    e = layer.num_experts
+    k = layer.hidden_size
+    n = layer.intermediate_size_per_partition
+    weight_block_size = getattr(layer, "weight_block_size", None)
+
+    # WORKSPACE
+    device = layer.w13_weight.device
+    layer.workspace = marlin_make_workspace_new(device, 4)
+    perm = torch.empty(0, dtype=torch.int, device=device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    for name in ["w13_weight", "w2_weight"]:
+        weight = getattr(layer, name)
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        if size_k_first:
+            assert weight.shape == (e, size_k, size_n)
+        else:
+            assert weight.shape == (e, size_n, size_k)
+
+        for i in range(e):
+            qweight = pack_fp8_to_int32(weight[i], size_k_first)
+            if not size_k_first:
+                qweight = qweight.T.contiguous()
+
+            marlin_qweight = ops.gptq_marlin_repack(
+                b_q_weight=qweight, perm=perm, size_k=size_k, size_n=size_n, num_bits=8
+            )
+            tensor_list.append(marlin_qweight)
+
+        weight = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        weight = torch.nn.Parameter(weight, requires_grad=False)
+
+        setattr(layer, name, weight)
+
+    # WEIGHT SCALES
+    # Permute scales
+    group_size = -1 if weight_block_size is None else weight_block_size[1]
+
+    for name in ["w13", "w2"]:
+        if name + "_weight_scale" in dir(layer):
+            new_name = name + "_weight_scale"
+            scales = getattr(layer, new_name).to(layer.orig_dtype)
+            delattr(layer, new_name)
+        elif name + "_weight_scale_inv" in dir(layer):
+            new_name = name + "_weight_scale_inv"
+            scales = getattr(layer, new_name).to(layer.orig_dtype)
+            delattr(layer, new_name)
+
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        # marlin kernel only support channel-wise and group-wise quantization
+        # we need to convert the scales
+        if weight_block_size is None:
+            if scales.nelement() == e:
+                # tensor-wise quantization -> channel-wise quantization
+                # (e, 1, 1) =>(repeat)=> (e, 1, size_n)
+                scales = scales.view(e, 1, 1).repeat_interleave(size_n, 2)
+            elif scales.nelement() > e and scales.nelement() != e * size_n:
+                assert (e * size_n) % scales.nelement() == 0
+                s_size = scales.nelement() // e
+                # tensor-wise quantization (for gate-up proj)
+                #     -> channel-wise quantization
+                # (e, 1, s_size) =>(repeat)=> (e, 1, size_n)
+                scales = scales.view(e, 1, s_size)
+                scales = scales.repeat_interleave(size_n // s_size, 2)
+            else:
+                # channel-wise quantization
+                # (e, 1, size_n)
+                scales = scales.view(e, 1, size_n)
+        else:
+            # block-wise quantization -> group-wise quantization
+            # (e, size_k // block_size[1], ceil(size_n / block_size[0]))
+            #  =>(repeat)=> (e, size_k // block_size[1], size_n)
+            if not size_k_first:
+                scales = scales.permute(0, 2, 1)
+            block_n = weight_block_size[0]
+            scales = scales.repeat_interleave(block_n, 2)
+            # size_n may not divisible by block_size[0]
+            scales = scales[..., :size_n].contiguous()
+
+        for i in range(e):
+            marlin_scales = marlin_permute_scales(
+                s=scales[i], size_k=size_k, size_n=size_n, group_size=group_size
+            )
+            tensor_list.append(marlin_scales)
+
+        scales = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        scales = fp8_fused_exponent_bias_into_scales(scales)
+        scales = torch.nn.Parameter(scales, requires_grad=False)
+
+        setattr(layer, name + "_weight_scale", scales)
+
+    # BIAS
+    # Permute bias
+    for name in ["w13_bias", "w2_bias"]:
+        if not hasattr(layer, name):
+            continue
+        bias = getattr(layer, name).to(layer.orig_dtype)
+
+        tensor_list = []
+        for i in range(e):
+            expert_bias = bias[i]
+
+            tensor_list.append(marlin_permute_bias(expert_bias))
+
+        bias = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        bias = torch.nn.Parameter(bias, requires_grad=False)
+        setattr(layer, name, bias)
+
+
+def pack_fp8_to_int32(
+    fp8_tensor: torch.Tensor, size_k_first: bool = True
+) -> torch.Tensor:
+    """
+    Repack FP8 weights to gptq format (packed int32 elements)
+    """
+    assert fp8_tensor.dtype == torch.float8_e4m3fn
+    assert fp8_tensor.ndim == 2
+
+    fp8_tensor = fp8_tensor.T if size_k_first else fp8_tensor
+    fp8_tensor = fp8_tensor.contiguous()
+    # fp8_tensor is contiguous and have shape (N, K) now
+    # with `.view(torch.int32)`, it become (N, K // 4)
+    int32_tensor = fp8_tensor.view(torch.int32)
+    return int32_tensor.T.contiguous() if size_k_first else int32_tensor
+
+
+def marlin_quant_fp8_torch(weight, group_size):
+    size_n, size_k = weight.shape
+    device = weight.device
+
+    if group_size != -1:
+        scales = weight.view(size_n, -1, group_size).abs().max(-1)[0] / 448
+        repeated_scales = scales.repeat_interleave(group_size, 1)
+        fp8_weight = (weight / repeated_scales).to(torch.float8_e4m3fn)
+        weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
+    else:
+        scales = weight.view(size_n, 1, group_size).abs().max(-1)[0] / 448
+        repeated_scales = scales.repeat_interleave(size_k, 1)
+        fp8_weight = (weight / repeated_scales).to(torch.float8_e4m3fn)
+        weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
+
+    packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=packed_weight,
+        perm=torch.empty(0, dtype=torch.int, device=device),
+        size_k=size_k,
+        size_n=size_n,
+        num_bits=8,
+    )
+
+    marlin_scales = marlin_permute_scales(
+        s=scales.T, size_k=size_k, size_n=size_n, group_size=group_size
+    )
+
+    marlin_scales = fp8_fused_exponent_bias_into_scales(marlin_scales)
+
+    return weight_ref.T, marlin_qweight, marlin_scales
diff --git a/model_executor/layers/quantization/utils/marlin_utils_test.py b/model_executor/layers/quantization/utils/marlin_utils_test.py
new file mode 100644
index 0000000..89756c4
--- /dev/null
+++ b/model_executor/layers/quantization/utils/marlin_utils_test.py
@@ -0,0 +1,161 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utility functions used for tests and benchmarks"""
+
+import numpy as np
+import torch
+
+from vllm.scalar_type import ScalarType
+
+from .marlin_utils import GPTQ_MARLIN_TILE, marlin_permute_scales, marlin_zero_points
+from .quant_utils import (
+    get_pack_factor,
+    gptq_quantize_weights,
+    quantize_weights,
+    sort_weights,
+)
+
+
+class MarlinWorkspace:
+    def __init__(self, out_features, min_thread_n, max_parallel):
+        assert out_features % min_thread_n == 0, (
+            "out_features = {} is indivisible by min_thread_n = {}".format(
+                out_features, min_thread_n
+            )
+        )
+
+        max_workspace_size = (out_features // min_thread_n) * max_parallel
+
+        self.scratch = torch.zeros(max_workspace_size, dtype=torch.int, device="cuda")
+
+
+def marlin_permute_weights(q_w, size_k, size_n, perm, tile=GPTQ_MARLIN_TILE):
+    assert q_w.shape == (size_k, size_n)
+    assert size_k % tile == 0, f"size_k = {size_k}, tile = {tile}"
+    assert size_n % tile == 0, f"size_k = {size_n}, tile = {tile}"
+
+    # Permute weights to 16x64 marlin tiles
+    q_w = q_w.reshape((size_k // tile, tile, size_n // tile, tile))
+    q_w = q_w.permute((0, 2, 1, 3))
+    q_w = q_w.reshape((size_k // tile, size_n * tile))
+
+    q_w = q_w.reshape((-1, perm.numel()))[:, perm].reshape(q_w.shape)
+
+    return q_w
+
+
+def marlin_weights(q_w, size_k, size_n, num_bits, perm):
+    # Permute
+    q_w = marlin_permute_weights(q_w, size_k, size_n, perm)
+
+    # Pack
+    pack_factor = get_pack_factor(num_bits)
+    orig_device = q_w.device
+
+    q_w = q_w.cpu().numpy().astype(np.uint32)
+
+    q_packed = np.zeros((q_w.shape[0], q_w.shape[1] // pack_factor), dtype=np.uint32)
+    for i in range(pack_factor):
+        q_packed |= q_w[:, i::pack_factor] << num_bits * i
+
+    q_packed = torch.from_numpy(q_packed.astype(np.int32)).to(orig_device)
+
+    return q_packed
+
+
+def get_weight_perm(num_bits: int):
+    perm_list: list[int] = []
+    for i in range(32):
+        perm1: list[int] = []
+        col = i // 4
+        for block in [0, 1]:
+            for row in [
+                2 * (i % 4),
+                2 * (i % 4) + 1,
+                2 * (i % 4 + 4),
+                2 * (i % 4 + 4) + 1,
+            ]:
+                perm1.append(16 * row + col + 8 * block)
+        for j in range(4):
+            perm_list.extend([p + 256 * j for p in perm1])
+
+    perm = np.array(perm_list)
+
+    if num_bits == 4:
+        interleave = np.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = np.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    perm = perm.reshape((-1, len(interleave)))[:, interleave].ravel()
+    perm = torch.from_numpy(perm)
+    return perm
+
+
+def marlin_quantize(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int,
+    act_order: bool,
+    test_perm: torch.Tensor | None = None,
+):
+    size_k, size_n = w.shape
+    num_bits = quant_type.size_bits
+
+    # Normalize group_size
+    if group_size == -1:
+        group_size = size_k
+    assert group_size <= size_k
+
+    # Quantize (and apply act_order if provided)
+    w_ref, q_w, s, g_idx, rand_perm = gptq_quantize_weights(
+        w, quant_type, group_size, act_order, test_perm
+    )
+
+    # For act_order, sort the "weights" and "g_idx" so that group ids are
+    # increasing
+    sort_indices = torch.empty(0, dtype=torch.int, device=w.device)
+    if act_order:
+        q_w, g_idx, sort_indices = sort_weights(q_w, g_idx)
+
+    # Reformat to marlin
+    weight_perm = get_weight_perm(num_bits)
+    marlin_q_w = marlin_weights(q_w, size_k, size_n, num_bits, weight_perm)
+    marlin_s = marlin_permute_scales(s, size_k, size_n, group_size)
+
+    # Create result
+    res_list = [w_ref, marlin_q_w, marlin_s, g_idx, sort_indices, rand_perm]
+    for i in range(len(res_list)):
+        res_list[i] = res_list[i].to(w.device)
+
+    return res_list
+
+
+def awq_marlin_quantize(w: torch.Tensor, quant_type: ScalarType, group_size: int):
+    size_k, size_n = w.shape
+
+    # Normalize group_size
+    if group_size == -1:
+        group_size = size_k
+    assert group_size <= size_k
+
+    # Detect num groups
+    assert size_k % group_size == 0
+    num_groups = size_k // group_size
+
+    # Quantize with zp
+    w_ref, q_w, s, zp = quantize_weights(w, quant_type, group_size, zero_points=True)
+
+    # Reformat to marlin
+    weight_perm = get_weight_perm(quant_type.size_bits)
+    marlin_q_w = marlin_weights(q_w, size_k, size_n, quant_type.size_bits, weight_perm)
+    marlin_s = marlin_permute_scales(s, size_k, size_n, group_size)
+    marlin_zp = marlin_zero_points(zp, num_groups, size_n, quant_type.size_bits)
+
+    # Create result
+    res_list = [w_ref, marlin_q_w, marlin_s, marlin_zp]
+    for i in range(len(res_list)):
+        res_list[i] = res_list[i].to(w.device)
+
+    return res_list
diff --git a/model_executor/layers/quantization/utils/marlin_utils_test_24.py b/model_executor/layers/quantization/utils/marlin_utils_test_24.py
new file mode 100644
index 0000000..90011f1
--- /dev/null
+++ b/model_executor/layers/quantization/utils/marlin_utils_test_24.py
@@ -0,0 +1,467 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utility functions used for tests and benchmarks"""
+
+import random
+
+import numpy
+import torch
+
+from vllm.scalar_type import ScalarType
+
+from .marlin_utils_test import marlin_weights
+from .quant_utils import gptq_quantize_weights
+
+
+# This is PyTorch implementation of main part of reorder_meta()
+# function, from tools/util/include/cutlass/util/host_reorder.h file
+# of CUTLASS source tree.  Furthermore, CUTLASS template for sparse
+# GEMM decides upon layout of this matrix, and at the moment for the
+# sparse GEMM executed on tensor cores, this is layout described by
+# ColumnMajorInterleaved<2> data structure, in
+# include/cutlass/layout/matrix.h of CUTLASS source tree.  The
+# reordering of meta matrix into meta_reordered matrix calculated
+# according to these segments of CUTLASS code is re-implemented here.
+# Note that this calculation produces offsets for scattering metadata
+# matrix elements into reordered metadata matrix elements (or,
+# equivalently, for gathering reordered metadata matrix element back
+# into metadata matrix elements).
+def _calculate_meta_reordering_scatter_offsets(m, meta_ncols, meta_dtype, device):
+    dst_rows = torch.arange(0, m, device=device)[:, None].repeat(1, meta_ncols)
+    dst_cols = torch.arange(0, meta_ncols, device=device).repeat(m, 1)
+
+    # Reorder the rows, then swizzle the 2x2 blocks.
+    group_x = 64
+    group_y = 32 if meta_dtype.itemsize == 2 else 16
+
+    dst_rows = (
+        dst_rows // group_x * group_x
+        + (dst_rows % 2) * 2
+        + (dst_rows % 8) // 4
+        + ((dst_rows % group_y) % 4) // 2 * 32
+        + ((dst_rows % group_x) // 8) * 4
+    )
+
+    topright = ((dst_rows % 2 == 0) & (dst_cols % 2 == 1)).to(torch.int8)
+    bottomleft = ((dst_rows % 2 == 1) & (dst_cols % 2 == 0)).to(torch.int8)
+    dst_rows += topright - bottomleft
+    dst_cols -= topright - bottomleft
+
+    # Assumed that meta tensor is to be stored in CUTLASS
+    # InterleavedColumnMajor layout, and reverse engineered
+    # corresponding code to store values into this tensor.
+    interleave = 2
+    cols_maj = dst_cols // interleave
+    cols_min = dst_cols % interleave
+    return (cols_maj * m * interleave + dst_rows * interleave + cols_min).view(-1)
+
+
+# This function converts dense matrix into sparse semi-structured
+# representation, producing "compressed" matrix, in the layout used by
+# CUTLASS backend, and corresponding metadata matrix.
+def sparse_semi_structured_from_dense_cutlass(dense):
+    if dense.dim() != 2:
+        raise RuntimeError(
+            f"Expected 2-dimensional dense tensor, got {dense.dim()}-dimensional tensor"  # noqa: E501
+        )
+
+    m, k = dense.shape
+    device = dense.device
+
+    meta_dtype = torch.int8
+    if dense.dtype == torch.int8:
+        meta_dtype = torch.int32
+    elif dense.dtype in [torch.half, torch.bfloat16, torch.float, torch.int32]:
+        meta_dtype = torch.int16
+    else:
+        raise RuntimeError(f"Invalid datatype {dense.dtype} of dense matrix")
+    quadbits_per_meta_elem = meta_dtype.itemsize * 8 // 4
+    if quadbits_per_meta_elem not in (4, 8):
+        raise RuntimeError("Invalid number of elements per meta element calculated")
+
+    if meta_dtype == torch.int32:
+        if m % 16 != 0:
+            raise RuntimeError(
+                f"Number of rows of dense matrix {m} must be divisible by 16"
+            )
+    else:
+        if m % 32 != 0:
+            raise RuntimeError(
+                f"Number of rows of dense matrix {m} must be divisible by 32"
+            )
+    if k % (4 * quadbits_per_meta_elem) != 0:
+        raise RuntimeError(
+            f"Number of columns of dense matrix {k} must be divisible by {4 * quadbits_per_meta_elem}"  # noqa: E501
+        )
+
+    if dense.dtype != torch.float:
+        ksparse = 4
+        dense_4 = dense.view(-1, k // ksparse, ksparse)
+        m0, m1, m2, m3 = (dense_4 != 0).unbind(-1)
+    else:
+        ksparse = 2
+        dense_2 = dense.view(-1, k // ksparse, ksparse)
+        m0, m2 = m1, m3 = (dense_2 != 0).unbind(-1)
+    meta_ncols = k // (ksparse * quadbits_per_meta_elem)
+
+    # Encoding quadruples of True/False values as follows:
+    #     [True,  True,  False, False] -> 0b0100
+    #     [True,  False, True,  False] -> 0b1000
+    #     [False, True,  True,  False] -> 0b1001
+    #     [True,  False, False, True ] -> 0b1100
+    #     [False, True,  False, True ] -> 0b1101
+    #     [False, False, True,  True ] -> 0b1110
+    # Thus, lower two bits in the encoding are index of the True value
+    # at the lowest index in the quadruple, and the higher two bits in
+    # the encoding are index of the other True value in the quadruple.
+    # In case there are less than two True values, than False value or
+    # values at some index or indices are considered True for the
+    # encoding.  In case there are more than two True values, then the
+    # excess True value(s) at some indices are considered False for
+    # the encoding.  The exact encodings used for these cases are as
+    # follows:
+    #     [False, False, False, False] -> 0b1110
+    #     [False, False, False, True ] -> 0b1110
+    #     [False, False, True,  False] -> 0b1110
+    #     [False, True,  False, False] -> 0b1001
+    #     [False, True,  True,  True ] -> 0b1101
+    #     [True,  False, False, False] -> 0b1000
+    #     [True,  False, True,  True ] -> 0b1100
+    #     [True,  True,  False, True ] -> 0b0100
+    #     [True,  True,  True,  False] -> 0b0100
+    #     [True,  True,  True,  True ] -> 0b0100
+    # These particular encodings are chosen, with the help of Espresso
+    # logic minimizer software, for the purpose of minimization of
+    # corresponding Boolean functions, that translate non-zero flags
+    # into encoding bits.  Note also possible choices for the first
+    # and last of these encodings were limited only to (0b0100,
+    # 0b1110), in order to produce valid encodings for 1:2 sparsity
+    # case.
+
+    expr0 = m0 & m1
+    expr1 = ~m0 & m1
+    expr2 = ~m0 & ~m1
+    bit0 = expr1
+    bit1 = expr2
+    bit2 = expr0 | expr2 | m3
+    bit3 = expr1 | ~m1
+    idxs0 = bit0 | (bit1.to(torch.int64) << 1)
+    idxs1 = bit2 | (bit3.to(torch.int64) << 1)
+
+    if dense.dtype != torch.float:
+        sparse0 = dense_4.gather(-1, idxs0.unsqueeze(-1))  # type: ignore[possibly-undefined]
+        sparse1 = dense_4.gather(-1, idxs1.unsqueeze(-1))
+        sparse = torch.stack((sparse0, sparse1), dim=-1).view(m, k // 2)
+    else:
+        sparse = dense_2.gather(-1, idxs0.unsqueeze(-1) // 2).view(m, k // 2)  # type: ignore[possibly-undefined]
+
+    meta_4 = idxs0 | (idxs1 << 2)
+    meta_n = meta_4.view((-1, meta_ncols, quadbits_per_meta_elem)).to(meta_dtype)
+
+    if quadbits_per_meta_elem == 4:
+        meta = (
+            meta_n[:, :, 0]
+            | (meta_n[:, :, 1] << 4)
+            | (meta_n[:, :, 2] << 8)
+            | (meta_n[:, :, 3] << 12)
+        )
+    elif quadbits_per_meta_elem == 8:
+        meta = (
+            meta_n[:, :, 0]
+            | (meta_n[:, :, 1] << 4)
+            | (meta_n[:, :, 2] << 8)
+            | (meta_n[:, :, 3] << 12)
+            | (meta_n[:, :, 4] << 16)
+            | (meta_n[:, :, 5] << 20)
+            | (meta_n[:, :, 6] << 24)
+            | (meta_n[:, :, 7] << 28)
+        )
+
+    # Reorder meta tensor elements.
+    meta_reordered = meta.new_empty((m * meta_ncols,))  # type: ignore[possibly-undefined]
+    meta_offsets = _calculate_meta_reordering_scatter_offsets(
+        m, meta_ncols, meta_dtype, device
+    )
+    meta_reordered.scatter_(0, meta_offsets, meta.view(-1))
+
+    return (sparse, meta_reordered.view(m, meta_ncols))
+
+
+# This function performs reverse of the function above - it
+# reconstructs dense matrix from a pair of "compressed" matrix, given
+# in the layout used by CUTLASS backend, and accompanying metadata
+# matrix.
+def sparse_semi_structured_to_dense_cutlass(sparse, meta_reordered):
+    if sparse.dim() != 2:
+        raise RuntimeError(
+            f"Expected 2-dimensional sparse tensor, got {sparse.dim()}-dimensional tensor"  # noqa: E501
+        )
+
+    m, k = sparse.shape
+    device = sparse.device
+
+    if meta_reordered.dim() != 2:
+        raise RuntimeError(
+            f"Expected 2-dimensional meta tensor, got {meta_reordered.dim()}-dimensional tensor"  # noqa: E501
+        )
+    if meta_reordered.device != device:
+        raise RuntimeError(
+            f"Expected meta matrix to be on {device} device, got matrix on {meta_reordered.device} device"  # noqa: E501
+        )
+
+    meta_dtype = meta_reordered.dtype
+    if meta_dtype not in (torch.int16, torch.int32):
+        raise RuntimeError(f"Invalid datatype {meta_dtype} of meta matrix")
+    quadbits_per_meta_elem = meta_dtype.itemsize * 8 // 4
+
+    ksparse = 4 if sparse.dtype != torch.float else 2
+
+    meta_nrows, meta_ncols = meta_reordered.shape
+    if meta_nrows != m:
+        raise RuntimeError(
+            f"Number of rows of meta matrix {meta_nrows} must be equal to number of columns of spase matrix {m}"  # noqa: E501
+        )
+    if meta_ncols * ksparse * quadbits_per_meta_elem != 2 * k:
+        raise RuntimeError(
+            f"Number of columns of sparse matrix {k} different from the {meta_ncols * ksparse * quadbits_per_meta_elem // 2}, "  # noqa: E501
+            "expected according to the number of columns of meta matrix"
+        )
+
+    # Undo meta tensor elements reordering.
+    meta_offsets = _calculate_meta_reordering_scatter_offsets(
+        m, meta_ncols, meta_dtype, device
+    )
+    meta = torch.gather(meta_reordered.view(-1), 0, meta_offsets).view(m, meta_ncols)
+
+    # Unpack sparse tensor back to original dense tensor, using
+    # information provided by meta tensor.  Note that torch.float
+    # datatype is handled pretty much the same as
+    # torch.half/torch.bfloat16, as metadata for a pair of torch.float
+    # value is encoded as if underlying 8 bytes contain four
+    # torch.half/torch.bfloat16 values, where either first two or last
+    # two are zeros.
+    meta_2 = torch.empty(
+        (m, meta_ncols, 2 * quadbits_per_meta_elem),
+        dtype=meta_dtype,
+        device=device,
+    )
+    if quadbits_per_meta_elem == 4:
+        meta_2[:, :, 0] = meta & 0b11
+        meta_2[:, :, 1] = (meta >> 2) & 0b11
+        meta_2[:, :, 2] = (meta >> 4) & 0b11
+        meta_2[:, :, 3] = (meta >> 6) & 0b11
+        meta_2[:, :, 4] = (meta >> 8) & 0b11
+        meta_2[:, :, 5] = (meta >> 10) & 0b11
+        meta_2[:, :, 6] = (meta >> 12) & 0b11
+        meta_2[:, :, 7] = (meta >> 14) & 0b11
+    elif quadbits_per_meta_elem == 8:
+        meta_2[:, :, 0] = meta & 0b11
+        meta_2[:, :, 1] = (meta >> 2) & 0b11
+        meta_2[:, :, 2] = (meta >> 4) & 0b11
+        meta_2[:, :, 3] = (meta >> 6) & 0b11
+        meta_2[:, :, 4] = (meta >> 8) & 0b11
+        meta_2[:, :, 5] = (meta >> 10) & 0b11
+        meta_2[:, :, 6] = (meta >> 12) & 0b11
+        meta_2[:, :, 7] = (meta >> 14) & 0b11
+        meta_2[:, :, 8] = (meta >> 16) & 0b11
+        meta_2[:, :, 9] = (meta >> 18) & 0b11
+        meta_2[:, :, 10] = (meta >> 20) & 0b11
+        meta_2[:, :, 11] = (meta >> 22) & 0b11
+        meta_2[:, :, 12] = (meta >> 24) & 0b11
+        meta_2[:, :, 13] = (meta >> 26) & 0b11
+        meta_2[:, :, 14] = (meta >> 28) & 0b11
+        meta_2[:, :, 15] = (meta >> 30) & 0b11
+
+    dense_offsets = meta_2.view(-1) + (
+        torch.arange(0, 2 * m * k // ksparse, device=device) * 4
+    ).view(-1, 1).repeat(1, 2).view(-1)
+
+    dense = torch.zeros((m * 2 * k,), dtype=sparse.dtype, device=device)
+    if sparse.dtype != torch.float:
+        # dense.scatter_(0, dense_offsets, sparse.view(-1))
+        dense.scatter_(0, dense_offsets, sparse.reshape(-1))
+    else:
+        dense.view(torch.half).scatter_(
+            0, dense_offsets, sparse.view(torch.half).view(-1)
+        )
+
+    return dense.view(m, 2 * k)
+
+
+def mask_creator(tensor):
+    """
+    Class for creating N:M sparsity masks.
+    Masks will be created using the N:M ratio, where for every block of
+    M weights, N will be pruned based on ranked weight value. Each mask
+    will correspond to the given tensor.
+
+    :param N: The number of weights in a group to keep
+    :param M: The size of a weight group
+    """
+    N = 2
+    M = 4
+
+    mask = None
+    # for i, tensor in enumerate(tensors):
+    if tensor.numel() % M != 0:
+        raise ValueError(
+            f"Tensor of size {tensor.shape} can't be evenly divided into {M} groups"
+        )
+
+    num_groups = tensor.numel() // M
+
+    # N:M sparsity for linear layers
+    tensor_temp = tensor.detach().abs().reshape(num_groups, M)
+    index = torch.argsort(tensor_temp, dim=1)[:, : int(M - N)]
+
+    w_b = torch.ones(tensor_temp.shape, device=tensor_temp.device)
+    mask = w_b.scatter_(dim=1, index=index, value=0).reshape(tensor.shape)
+
+    return mask
+
+
+def inject_24(w, size_k, size_n):
+    assert w.shape == (size_k, size_n)
+
+    mask = mask_creator(w.t()).t().cuda().bool()
+
+    return (mask * w).contiguous(), mask.contiguous()
+
+
+def check_24(w, num_rows_to_sample=50, _verbose=False):
+    BLOCK_SIZE = 4
+    MAX_NON_ZEROS = 2
+
+    w = w.t().contiguous()
+
+    print("check_24: w.shape = {}".format(w.shape))
+
+    num_rows, num_cols = w.shape
+    sampled_row_idxs = random.choices(range(num_rows), k=num_rows_to_sample)
+    if _verbose:
+        print(f"Sampled row idxs = {sampled_row_idxs}")
+
+    total_segments = 0
+    non_24_segments = 0
+    for i in sampled_row_idxs:
+        for j in range(0, num_cols - BLOCK_SIZE, BLOCK_SIZE):
+            total_segments += 1
+            block = w[i, j : j + BLOCK_SIZE]
+            num_nonzero = torch.count_nonzero(block)
+            if num_nonzero > MAX_NON_ZEROS:
+                print("i = {} j = {} block = {}".format(i, j, block))
+                non_24_segments += 1
+
+    print(f"{non_24_segments} / {total_segments} do not have 2:4 structure.")
+
+
+def compress_quantized_24_weight(q_24, size_k, size_n, wtype: ScalarType):
+    assert q_24.shape == (size_k, size_n)
+
+    # Remove bias to normalize over 0
+    q_24_no_zp = q_24 - wtype.bias
+
+    # Compress
+    q_24_no_zp = q_24_no_zp.t().contiguous()
+    q_24_no_zp_comp, meta = sparse_semi_structured_from_dense_cutlass(q_24_no_zp)
+    q_24_no_zp_comp = q_24_no_zp_comp.t().contiguous()
+
+    # Restore bias
+    q_24_comp = q_24_no_zp_comp + wtype.bias
+
+    # Resize meta to its actual shape (without moving any data)
+    meta = meta.resize_(meta.shape[1] // 2, meta.shape[0] * 2)
+
+    return q_24_comp, meta
+
+
+def get_scale_perms_24():
+    scale_perm: list[int] = []
+    for i in range(8):
+        scale_perm.extend([i * 8 + j for j in [0, 4, 1, 5, 2, 6, 3, 7]])
+    scale_perm_single: list[int] = []
+    for i in range(8):
+        scale_perm_single.extend([8 * i + j for j in [0, 1, 2, 3, 4, 5, 6, 7]])
+    return scale_perm, scale_perm_single
+
+
+def get_weight_perm_24(num_bits: int):
+    perm_list: list[int] = []
+    for i in range(32):
+        perm1: list[int] = []
+        col = i // 4
+        col_o = col // 2
+        for block in [0, 1]:
+            for row in [
+                2 * (i % 4),
+                2 * (i % 4) + 1,
+                2 * (i % 4 + 4),
+                2 * (i % 4 + 4) + 1,
+            ]:
+                perm1.append(16 * row + col_o * 256 + 8 * (col % 2) + 4 * block)
+        for j in range(4):
+            perm_list.extend([p + 1 * j for p in perm1])
+    perm = numpy.array(perm_list)
+
+    if num_bits == 4:
+        interleave = numpy.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = numpy.array([0, 2, 1, 3])
+    else:
+        raise ValueError("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    perm = perm.reshape((-1, len(interleave)))[:, interleave].ravel()
+    perm = torch.from_numpy(perm)
+    return perm
+
+
+def marlin_permute_scales_24(
+    s: torch.Tensor, size_k: int, size_n: int, group_size: int
+) -> torch.Tensor:
+    scale_perm, scale_perm_single = get_scale_perms_24()
+    if group_size < size_k and group_size != -1:
+        s = s.reshape((-1, len(scale_perm)))[:, scale_perm]
+    else:
+        s = s.reshape((-1, len(scale_perm_single)))[:, scale_perm_single]
+    s = s.reshape((-1, size_n)).contiguous()
+
+    return s
+
+
+def marlin_24_quantize(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int,
+):
+    size_k, size_n = w.shape
+
+    # Normalize group_size
+    if group_size == -1:
+        group_size = size_k
+    assert group_size <= size_k
+
+    # Inject 2:4 sparsity
+    w_24, mask_24 = inject_24(w, size_k, size_n)
+
+    # Quantize
+    w_24_ref, q_w_24, s, g_idx, rand_perm = gptq_quantize_weights(
+        w_24, quant_type, group_size, act_order=False
+    )
+
+    # Compress quantized weight
+    q_w_24_comp, meta = compress_quantized_24_weight(q_w_24, size_k, size_n, quant_type)
+    size_k_comp = size_k // 2
+
+    # Reformat to marlin
+    weight_perm = get_weight_perm_24(quant_type.size_bits)
+    marlin_24_q_w_comp = marlin_weights(
+        q_w_24_comp, size_k_comp, size_n, quant_type.size_bits, weight_perm
+    )
+    marlin_24_s = marlin_permute_scales_24(s, size_k, size_n, group_size)
+
+    # Create result
+    res_list = [w_24_ref, marlin_24_q_w_comp, meta, marlin_24_s]
+    for i in range(len(res_list)):
+        res_list[i] = res_list[i].to(w.device)
+
+    return res_list
diff --git a/model_executor/layers/quantization/utils/mxfp4_utils.py b/model_executor/layers/quantization/utils/mxfp4_utils.py
new file mode 100644
index 0000000..45ee3da
--- /dev/null
+++ b/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -0,0 +1,181 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+from typing import Any
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.triton_utils import triton
+from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
+
+logger = init_logger(__name__)
+
+
+def _swizzle_mxfp4(quant_tensor, scale, num_warps):
+    """weight swizzle for mxfp4 moe, used for OAI mxfp4 kernel"""
+    import triton_kernels.matmul_ogs_details.opt_flags as opt_flags
+    from triton_kernels.numerics import InFlexData
+    from triton_kernels.tensor import FP4, convert_layout, wrap_torch_tensor
+    from triton_kernels.tensor_details import layout
+    from triton_kernels.tensor_details.layout import StridedLayout
+
+    value_layout_opts: dict[str, Any] = {}
+    scale_layout_opts: dict[str, Any] = {}
+
+    if (
+        current_platform.is_cuda()
+        and current_platform.is_device_capability(90)
+        and not is_torch_equal_or_newer("2.8.1")
+    ):
+        logger.warning_once(
+            "Mxfp4 on hopper is running on torch < 2.8.1, "
+            "this cause swizling to be disabled, which may "
+            "cause performance degradation. Please upgrade to torch nightly"
+        )
+        value_layout = StridedLayout
+        scale_layout = StridedLayout
+    elif current_platform.is_rocm():
+        from triton_kernels.tensor_details.layout import (
+            GFX950MXScaleLayout,
+            StridedLayout,
+        )
+
+        from vllm.platforms.rocm import on_gfx950
+
+        value_layout = StridedLayout
+        scale_layout = GFX950MXScaleLayout if on_gfx950() else StridedLayout
+    else:
+        value_layout, value_layout_opts = layout.make_default_matmul_mxfp4_w_layout(
+            mx_axis=1
+        )
+        scale_layout, scale_layout_opts = (
+            layout.make_default_matmul_mxfp4_w_scale_layout(
+                mx_axis=1, num_warps=num_warps
+            )
+        )
+    if current_platform.is_cuda() and current_platform.is_device_capability(100):
+        constraints = {
+            "is_persistent": True,
+            "epilogue_subtile": 1,
+        }
+        opt_flags.update_opt_flags_constraints(constraints)
+    # transpose the tensor so that the quantization axis is on dim1
+    quant_tensor = quant_tensor.transpose(-2, -1)
+    scale = scale.transpose(-2, -1)
+    quant_tensor = convert_layout(
+        wrap_torch_tensor(quant_tensor, dtype=FP4), value_layout, **value_layout_opts
+    )
+    scale = convert_layout(wrap_torch_tensor(scale), scale_layout, **scale_layout_opts)
+    return quant_tensor, InFlexData(), scale
+
+
+def _can_support_mxfp4(
+    use_grouped_topk: bool = False,
+    topk_group: int | None = None,
+    num_expert_group: int | None = None,
+    expert_map: torch.Tensor | None = None,
+    custom_routing_function: Callable | None = None,
+    e_score_correction_bias: torch.Tensor | None = None,
+    apply_router_weight_on_input: bool = False,
+    scoring_func: str = "softmax",
+    activation: str = "swigluoai",
+    expert_load_view: torch.Tensor | None = None,
+    logical_to_physical_map: torch.Tensor | None = None,
+    logical_replica_count: torch.Tensor | None = None,
+):
+    return not (
+        use_grouped_topk
+        or topk_group
+        or num_expert_group
+        or custom_routing_function
+        or e_score_correction_bias
+        or apply_router_weight_on_input
+        or scoring_func != "softmax"
+        or activation != "swigluoai"
+        or expert_load_view
+        or logical_to_physical_map
+        or logical_replica_count
+    )
+
+
+def get_padding_alignment():
+    return (
+        256
+        if triton.runtime.driver.active.get_current_target().arch in ("gfx950",)
+        else 128
+    )
+
+
+def _dequant_mxfp4(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel import mx
+    except ImportError as err:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP4 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from err
+
+    return mx.dq_mxfp4(x, scale, float_dtype)
+
+
+def _dequant_mxfp4_fake(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype
+) -> torch.Tensor:
+    return torch.empty(
+        (*x.shape[:-1], x.shape[-1] * 2), dtype=float_dtype, device=x.device
+    )
+
+
+def _quant_dequant_mxfp4(
+    x: torch.Tensor, scale_calculation_mode: str = "even"
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel import mx
+    except ImportError as err:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP4 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from err
+
+    return mx.qdq_mxfp4(x, scale_calculation_mode)
+
+
+def _quant_dequant_mxfp4_fake(
+    x: torch.Tensor, scale_calculation_mode: str = "even"
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+# Protect these operations into a torch custom op to avoid errors as
+# torch._dynamo.exc.Unsupported: Attempted to call function marked as skipped
+# Explanation: Dynamo does not know how to trace the builtin
+# `kernel_ext.PyCapsule.dq_uint8_mxfp4_to_half.` This function is either a
+# Python builtin (e.g. _warnings.warn) or a third-party C/C++ Python
+# extension (perhaps created with pybind).
+# TODO: Make sure there is no way to avoid having these functions
+# marked as skipped by dynamo.
+try:
+    direct_register_custom_op(
+        op_name="dequant_mxfp4",
+        op_func=_dequant_mxfp4,
+        fake_impl=_dequant_mxfp4_fake,
+    )
+    dequant_mxfp4 = None
+except AttributeError as error:
+    raise error
+
+try:
+    direct_register_custom_op(
+        op_name="quant_dequant_mxfp4",
+        op_func=_quant_dequant_mxfp4,
+        fake_impl=_quant_dequant_mxfp4_fake,
+    )
+    quant_dequant_mxfp4 = None
+except AttributeError as error:
+    raise error
diff --git a/model_executor/layers/quantization/utils/mxfp6_utils.py b/model_executor/layers/quantization/utils/mxfp6_utils.py
new file mode 100644
index 0000000..2b5659e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/mxfp6_utils.py
@@ -0,0 +1,142 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch
+
+from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import OCP_MX_BLOCK_SIZE
+from vllm.utils.torch_utils import direct_register_custom_op
+
+
+def _quant_dequant_mxfp6(
+    x: torch.Tensor,
+    quant_dtype: str,
+    scale_calculation_mode: str = "even",
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel.hw_emulation.hw_emulation_interface import (
+            fake_quantize_fp4_fp6_per_group_with_scale,
+        )
+        from quark.torch.quantization.utils import even_round, reshape_to_blocks
+    except ImportError as err:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP6 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from err
+
+    axis = -1
+    block_x = reshape_to_blocks(x, OCP_MX_BLOCK_SIZE, axis)
+    amax, _ = torch.max(torch.abs(block_x), dim=-1, keepdim=True)
+    amax = amax.squeeze(-1)
+
+    # TODO: there are other rounding strategies supported in quark and in the
+    # config.json that we do not check for here!
+    if scale_calculation_mode != "even":
+        raise NotImplementedError(
+            f"Scale calculation mode {scale_calculation_mode} is not yet "
+            "supported in MX-FP6 quantization"
+        )
+    scale = even_round(amax, quant_dtype)
+
+    # Apply dequantize(quantize(x)).
+    x = fake_quantize_fp4_fp6_per_group_with_scale(
+        x,
+        scale.to(x.device),
+        axis=axis,
+        group_size=OCP_MX_BLOCK_SIZE,
+        quant_dtype=quant_dtype,
+    )
+
+    return x
+
+
+def _quant_dequant_mxfp6_fake(
+    x: torch.Tensor,
+    quant_dtype: str,
+    scale_calculation_mode: str = "even",
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+def _dequant_mxfp6(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype, quant_dtype: str
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel.hw_emulation.hw_emulation_interface import (
+            dequantize_fp4_fp6_per_group,
+        )
+        from quark.torch.utils.pack import create_pack_method
+    except ImportError as e:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP6 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from e
+
+    pack_method = create_pack_method(None, dtype=quant_dtype)
+    unpacked_x = pack_method.unpack(x, reorder=False)
+
+    scale = 2 ** (scale.view(torch.uint8).to(torch.int16) - 127).to(float_dtype)
+
+    # TODO: `dequantize_fp4_fp6_per_group` and `prepare_inputs_per_group`
+    # always return fp32.
+    return dequantize_fp4_fp6_per_group(
+        unpacked_x,
+        scale,
+        axis=-1,
+        group_size=OCP_MX_BLOCK_SIZE,
+        quant_dtype=quant_dtype,
+    ).to(float_dtype)
+
+
+def _dequant_mxfp6_fake(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype, quant_dtype: str
+) -> torch.Tensor:
+    assert (x.shape[-1] * 4) % 3 == 0
+    return torch.empty(
+        (*x.shape[:-1], (x.shape[-1] * 4) // 3), dtype=float_dtype, device=x.device
+    )
+
+
+# Protect these operations into a torch custom op to avoid errors as
+# torch._dynamo.exc.Unsupported: Attempted to call function marked as skipped
+# Explanation: Dynamo does not know how to trace the builtin
+# `kernel_ext.PyCapsule.dq_uint8_mxfp4_to_half.` This function is either a
+# Python builtin (e.g. _warnings.warn) or a third-party C/C++ Python
+# extension (perhaps created with pybind).
+# TODO: Make sure there is no way to avoid having these functions
+# marked as skipped by dynamo.
+try:
+    direct_register_custom_op(
+        op_name="quant_dequant_mxfp6",
+        op_func=_quant_dequant_mxfp6,
+        mutates_args=[],
+        fake_impl=_quant_dequant_mxfp6_fake,
+    )
+except AttributeError as error:
+    raise error
+
+
+# Expose keyword arguments.
+def quant_dequant_mxfp6(
+    x: torch.Tensor,
+    quant_dtype: str,
+    scale_calculation_mode: str = "even",
+) -> torch.Tensor:
+    return torch.ops.vllm.quant_dequant_mxfp6(x, quant_dtype, scale_calculation_mode)
+
+
+try:
+    direct_register_custom_op(
+        op_name="dequant_mxfp6",
+        op_func=_dequant_mxfp6,
+        mutates_args=[],
+        fake_impl=_dequant_mxfp6_fake,
+    )
+except AttributeError as error:
+    raise error
+
+
+def dequant_mxfp6(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype, quant_dtype: str
+) -> torch.Tensor:
+    return torch.ops.vllm.dequant_mxfp6(x, scale, float_dtype, quant_dtype)
diff --git a/model_executor/layers/quantization/utils/mxfp8_utils.py b/model_executor/layers/quantization/utils/mxfp8_utils.py
new file mode 100644
index 0000000..bed771f
--- /dev/null
+++ b/model_executor/layers/quantization/utils/mxfp8_utils.py
@@ -0,0 +1,24 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def mxfp8_e4m3_quantize(x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+    try:
+        from flashinfer import mxfp8_quantize as mxfp8_e4m3_quantize
+    except ImportError as err:
+        raise ImportError(
+            "The package `flashinfer` is required to do "
+            "MX-FP8 quantization. Please install it with"
+            "`pip install flashinfer`"
+        ) from err
+
+    x_q, x_scales = mxfp8_e4m3_quantize(x, is_sf_swizzled_layout=False)
+    if x_scales.ndim == 1:
+        x_scales = x_scales.view(x.size(0), -1)
+    return x_q, x_scales
diff --git a/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py b/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py
new file mode 100644
index 0000000..62b4802
--- /dev/null
+++ b/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py
@@ -0,0 +1,142 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch
+
+from vllm.scalar_type import scalar_types
+
+__all__ = [
+    "break_fp4_bytes",
+    "dequantize_to_dtype",
+    "ref_nvfp4_quant",
+]
+
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
+
+kE2M1ToFloat = torch.tensor(
+    [0.0, 0.5, 1.0, 1.5, 2.0, 3.0, 4.0, 6.0], dtype=torch.float32
+)
+
+
+def break_fp4_bytes(a, dtype):
+    assert a.dtype == torch.uint8
+    m, n = a.shape
+    # Vectorized nibble processing
+    a_flat = a.flatten()
+    high = (a_flat & 0xF0) >> 4  # Upper nibbles
+    low = a_flat & 0x0F  # Lower nibbles
+    # Combine nibbles for batch processing
+    combined = torch.stack((low, high), dim=1).flatten()
+    # Vectorized sign and magnitude extraction
+    signs = (combined & 0x08).to(torch.bool)  # Sign bits
+    abs_vals = (combined & 0x07).to(torch.long)
+    # Device-aware lookup and sign application
+    kE2M1 = kE2M1ToFloat.to(device=a.device)
+    values = kE2M1[abs_vals] * torch.where(signs, -1.0, 1.0)
+    # Reshape to final form
+    return values.reshape(m, n * 2).to(dtype=dtype)
+
+
+def convert_swizzled_to_linear(a_sf_swizzled: torch.Tensor, m, k, block_size):
+    m_tiles = (m + 128 - 1) // 128
+    f = block_size * 4
+    k_tiles = (k + f - 1) // f
+    tmp = torch.reshape(a_sf_swizzled, (1, m_tiles, k_tiles, 32, 4, 4))
+    tmp = torch.permute(tmp, (0, 1, 4, 3, 2, 5))
+    out = tmp.reshape(m_tiles * 128, k_tiles * f // block_size)
+    return out[0:m, 0:k]
+
+
+def dequantize_to_dtype(
+    tensor_fp4, tensor_sf, global_scale, dtype, device, block_size=16
+):
+    """Dequantize the fp4 tensor back to high precision."""
+    # Two fp4 values are packed into one uint8.
+    assert tensor_fp4.dtype == torch.uint8
+    m, packed_k = tensor_fp4.shape
+    k = packed_k * 2
+    tensor_f32 = break_fp4_bytes(tensor_fp4, torch.float32)
+    tensor_f32 = tensor_f32.reshape(m, k // block_size, block_size)
+    tensor_sf = tensor_sf.view(torch.float8_e4m3fn)
+    tensor_sf = convert_swizzled_to_linear(tensor_sf, m, k, block_size)
+    tensor_sf_dtype = tensor_sf.to(torch.float32) / global_scale
+
+    # scale the tensor
+    out = (tensor_f32 * tensor_sf_dtype.unsqueeze(-1)).reshape(m, k)
+    return out.to(dtype)
+
+
+def get_reciprocal(x):
+    if isinstance(x, torch.Tensor):
+        return torch.where(x == 0, torch.tensor(0.0, dtype=x.dtype), 1.0 / x)
+    elif isinstance(x, (float, int)):
+        return 0.0 if x == 0 else 1.0 / x
+    else:
+        raise TypeError("Input must be a float, int, or a torch.Tensor.")
+
+
+def cast_to_fp4(x):
+    sign = torch.sign(x)
+    x = torch.abs(x)
+    x[(x >= 0.0) & (x <= 0.25)] = 0.0
+    x[(x > 0.25) & (x < 0.75)] = 0.5
+    x[(x >= 0.75) & (x <= 1.25)] = 1.0
+    x[(x > 1.25) & (x < 1.75)] = 1.5
+    x[(x >= 1.75) & (x <= 2.5)] = 2.0
+    x[(x > 2.5) & (x < 3.5)] = 3.0
+    x[(x >= 3.5) & (x <= 5.0)] = 4.0
+    x[x > 5.0] = 6.0
+    return x * sign
+
+
+def ref_nvfp4_quant(x, global_scale, block_size):
+    assert global_scale.dtype == torch.float32
+    assert x.ndim == 2
+    m, n = x.shape
+    x = torch.reshape(x, (m, n // block_size, block_size))
+    vec_max = torch.max(torch.abs(x), dim=-1, keepdim=True)[0].to(torch.float32)
+    scale = global_scale * (vec_max * get_reciprocal(FLOAT4_E2M1_MAX))
+    scale = torch.clamp(scale, max=448, min=-448)
+    scale = scale.to(torch.float8_e4m3fn).to(torch.float32)
+    output_scale = get_reciprocal(scale * get_reciprocal(global_scale))
+
+    scaled_x = x.to(torch.float32) * output_scale
+    clipped_x = torch.clamp(scaled_x, -6.0, 6.0).reshape(m, n)
+    # both outputs are float32
+    return cast_to_fp4(clipped_x), scale.squeeze(-1)
+
+
+def run_nvfp4_emulations(
+    x: torch.Tensor,
+    input_global_scale: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale_swizzled: torch.Tensor,
+    weight_global_scale: torch.Tensor,
+):
+    group_size = 16
+    x_m, x_k = x.shape
+    output_dtype = x.dtype
+
+    # quantize input to (FP4 and interleaved block scale)
+    x_fp4, x_blockscale = ref_nvfp4_quant(x, input_global_scale, group_size)
+
+    # dequantize input
+    x_fp4 = x_fp4.reshape(x_m, x_k // group_size, group_size)
+    x_blockscale = x_blockscale.unsqueeze(-1) / input_global_scale
+    x_dq = (x_fp4 * x_blockscale).reshape(x_m, x_k).to(output_dtype)
+    del x_fp4, x_blockscale
+
+    # dequantize weight
+    w_fp4 = weight.data.view(torch.uint8)
+    w_dq = dequantize_to_dtype(
+        w_fp4,
+        weight_scale_swizzled.data,
+        weight_global_scale,
+        output_dtype,
+        x.device,
+        group_size,
+    )
+
+    # matmul
+    out = torch.matmul(x_dq, w_dq.t())
+    del w_dq, x_dq
+    return out
diff --git a/model_executor/layers/quantization/utils/nvfp4_moe_support.py b/model_executor/layers/quantization/utils/nvfp4_moe_support.py
new file mode 100644
index 0000000..c3f26cc
--- /dev/null
+++ b/model_executor/layers/quantization/utils/nvfp4_moe_support.py
@@ -0,0 +1,63 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.flashinfer_fp4_moe import (
+    is_flashinfer_fp4_cutlass_moe_available,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    is_fp4_marlin_supported,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    cutlass_fp4_supported,
+)
+
+__all__ = ["detect_nvfp4_moe_support", "NvFp4Support"]
+
+_logger = init_logger(__name__)
+
+
+@dataclass(frozen=True)
+class NvFp4Support:
+    """Result container for NV-FP4 capability probing."""
+
+    cutlass_supported: bool
+    allow_flashinfer: bool
+    use_marlin: bool
+
+
+def detect_nvfp4_moe_support(class_name: str = "") -> NvFp4Support:
+    """Detect platform support for NV-FP4 fused-MoE path"""
+    cutlass_supported = cutlass_fp4_supported()
+
+    allow_flashinfer = cutlass_supported and is_flashinfer_fp4_cutlass_moe_available()
+
+    if allow_flashinfer:
+        _logger.info_once(
+            "Using FlashInfer kernels for %s.", class_name or "NVFP4 path"
+        )
+    else:
+        if envs.VLLM_USE_FLASHINFER_MOE_FP4:
+            _logger.warning_once(
+                "FlashInfer kernels unavailable for %s on current platform.",
+                class_name or "NVFP4 path",
+            )
+
+    use_marlin = False
+    if not cutlass_supported:
+        if is_fp4_marlin_supported():
+            use_marlin = True
+            _logger.info_once("Falling back to Marlin FP4 MoE kernel.")
+        else:
+            raise ValueError(
+                "Current platform does not support NVFP4 quantization. "
+                "Please use Blackwell GPUs or enable FlashInfer."
+            )
+
+    return NvFp4Support(
+        cutlass_supported=cutlass_supported,
+        allow_flashinfer=allow_flashinfer,
+        use_marlin=use_marlin,
+    )
diff --git a/model_executor/layers/quantization/utils/ocp_mx_utils.py b/model_executor/layers/quantization/utils/ocp_mx_utils.py
new file mode 100644
index 0000000..7752324
--- /dev/null
+++ b/model_executor/layers/quantization/utils/ocp_mx_utils.py
@@ -0,0 +1,51 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from enum import Enum
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+OCP_MX_BLOCK_SIZE = 32
+
+OCP_MX_DTYPES = {
+    "mxfp4",
+    "mxfp6_e3m2",
+    "mxfp6_e2m3",
+    "mxfp8_e4m3",
+    "mxfp8_e5m2",
+    "mxint8",
+}
+SUPPORTED_OCP_MX_DTYPES = {"mxfp4", "mxfp6_e3m2", "mxfp6_e2m3"}
+
+
+class OCP_MX_Scheme(str, Enum):
+    w_mxfp4_a_mxfp4 = "w_mxfp4_a_mxfp4"
+    w_mxfp4_a_mxfp6_e3m2 = "w_mxfp4_a_mxfp6_e3m2"
+    w_mxfp4_a_mxfp6_e2m3 = "w_mxfp4_a_mxfp6_e2m3"
+    w_mxfp6_e3m2_a_mxfp6_e3m2 = "w_mxfp6_e3m2_a_mxfp6_e3m2"
+    w_mxfp6_e2m3_a_mxfp6_e2m3 = "w_mxfp6_e2m3_a_mxfp6_e2m3"
+
+    @classmethod
+    def from_quant_dtype(cls, input_dtype: str | None, weight_dtype: str | None):
+        if input_dtype not in OCP_MX_DTYPES or weight_dtype not in OCP_MX_DTYPES:
+            return None
+        elif input_dtype == "mxfp4" and weight_dtype == "mxfp4":
+            return cls.w_mxfp4_a_mxfp4
+        elif input_dtype == "mxfp6_e3m2" and weight_dtype == "mxfp4":
+            return cls.w_mxfp4_a_mxfp6_e3m2
+        elif input_dtype == "mxfp6_e2m3" and weight_dtype == "mxfp4":
+            return cls.w_mxfp4_a_mxfp6_e2m3
+        elif input_dtype == "mxfp6_e3m2" and weight_dtype == "mxfp6_e3m2":
+            return cls.w_mxfp6_e3m2_a_mxfp6_e3m2
+        elif input_dtype == "mxfp6_e2m3" and weight_dtype == "mxfp6_e2m3":
+            return cls.w_mxfp6_e2m3_a_mxfp6_e2m3
+        else:
+            logger.warning(
+                "input_dtype='%s' and"
+                " weight_dtype='%s' is not supported "
+                "in OCP_MX_Scheme at the moment.",
+                input_dtype,
+                weight_dtype,
+            )
+            return None
diff --git a/model_executor/layers/quantization/utils/petit_utils.py b/model_executor/layers/quantization/utils/petit_utils.py
new file mode 100644
index 0000000..081f53e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/petit_utils.py
@@ -0,0 +1,124 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import TYPE_CHECKING, Optional
+
+import torch
+
+# TYPE_CHECKING is used for static type analysis to prevent circular imports.
+if TYPE_CHECKING:
+    from types import ModuleType
+
+# 1. Create a global variable as a placeholder for the module
+_petit_kernel: Optional["ModuleType"] = None
+
+_PETIT_INSTALL_MSG = (
+    "Petit is not installed. Please install it with `pip install petit-kernel`."
+)
+
+
+def _import_petit_kernel() -> "ModuleType":
+    """
+    A helper function to handle the lazy import.
+    The first time this function is called, it will import the petit_kernel
+    library and store it in the global _petit_kernel variable.
+    Subsequent calls will return the already-loaded module directly.
+    """
+    global _petit_kernel
+    if _petit_kernel is not None:
+        return _petit_kernel
+
+    try:
+        import petit_kernel
+
+        _petit_kernel = petit_kernel
+        return _petit_kernel
+    except ImportError:
+        # The 'from None' syntax prevents chaining the original ImportError,
+        # making the traceback cleaner.
+        raise ImportError(_PETIT_INSTALL_MSG) from None
+
+
+# The _require_petit function can now be a simple alias for consistency.
+_require_petit = _import_petit_kernel
+
+
+def _check_petit_nvfp4_supported(
+    quant_method: str, group_size: int | None
+) -> tuple[bool, str | None]:
+    if quant_method != "NVFP4":
+        return (
+            False,
+            (
+                "Petit currently only supports: NVFP4 quantizations in sglang. "
+                "Please check the `hf_quant_config.json` file for your model's "
+                "quant configuration."
+            ),
+        )
+    if group_size is not None and group_size != 16:
+        return (
+            False,
+            "Petit currently only supports: group_size=16 quantizations.",
+        )
+    return (True, None)
+
+
+def verify_petit_nvfp4_supported(quant_method: str, group_size: int | None) -> None:
+    supported, error_msg = _check_petit_nvfp4_supported(quant_method, group_size)
+    if not supported:
+        assert error_msg is not None
+        raise ValueError(error_msg)
+
+
+def prepare_nvfp4_layer_for_petit(layer: torch.nn.Module) -> None:
+    # 2. Call _import_petit_kernel() to trigger (or get) the import.
+    petit_kernel = _import_petit_kernel()
+
+    # Repack weights to petit format
+    part_size_n = layer.output_size_per_partition
+    part_size_k = layer.input_size_per_partition
+    qweight = layer.weight.view(torch.int32).contiguous()
+
+    # 3. Call functions through the imported module variable.
+    petit_qweight = petit_kernel.repack_nvfp4(
+        qweight, size_n=part_size_n, size_k=part_size_k
+    )
+    layer.weight = torch.nn.Parameter(petit_qweight, requires_grad=False)
+
+    # Permute scales
+    weight_scale = petit_kernel.process_nvfp4_scales(
+        scales=layer.weight_scale, size_k=part_size_k, size_n=part_size_n
+    )
+    layer.weight_scale = torch.nn.Parameter(weight_scale, requires_grad=False)
+
+
+def apply_petit_nvfp4_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_scale_2: torch.Tensor,
+    size_n: int,
+    size_k: int,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    # Trigger (or get) the import here as well.
+    petit_kernel = _import_petit_kernel()
+
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (size_n,)
+
+    # TODO: Use auto-tuning to find the performant solution_id
+    # Call the function via the module variable.
+    output = petit_kernel.mul_nvfp4_a16(
+        a=reshaped_x,
+        b=weight,
+        s=weight_scale,
+        global_scale=weight_scale_2,
+        size_m=reshaped_x.size(0),
+        size_n=size_n,
+        size_k=size_k,
+        solution_id=-1,
+    )
+    if bias is not None:
+        output.add_(bias)  # In-place add
+
+    return output.reshape(out_shape)
diff --git a/model_executor/layers/quantization/utils/quant_utils.py b/model_executor/layers/quantization/utils/quant_utils.py
new file mode 100644
index 0000000..05c5047
--- /dev/null
+++ b/model_executor/layers/quantization/utils/quant_utils.py
@@ -0,0 +1,687 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""This file is used for /tests and /benchmarks"""
+
+from collections.abc import Mapping
+from dataclasses import dataclass
+from types import MappingProxyType
+from typing import ClassVar, NamedTuple
+
+import numpy
+import torch
+from torch import fx
+
+from vllm._custom_ops import cutlass_scaled_mm_supports_fp4
+from vllm.platforms import current_platform
+from vllm.scalar_type import ScalarType, scalar_types
+
+FP8_DTYPE = current_platform.fp8_dtype()
+FP4_DTYPE = torch.uint8
+
+
+# Use proxy as NamedTuple direct subclasses cannot have static members
+class _GroupShape(NamedTuple):
+    row: int
+    col: int
+
+
+class GroupShape(_GroupShape):
+    """
+    This class describes the quantization group shape.
+    It includes static members for common shapes (per-tensor, per-token).
+    """
+
+    # Aliases for common quantization group shapes
+    PER_TENSOR: ClassVar["GroupShape"]
+    PER_TOKEN: ClassVar["GroupShape"]
+
+    def is_per_tensor(self) -> bool:
+        return self.row == -1 and self.col == -1
+
+    def is_per_token(self) -> bool:
+        return self.row == 1 and self.col == -1
+
+    def is_per_group(self) -> bool:
+        return self.row == 1 and self.col >= 1
+
+
+GroupShape.PER_TENSOR = GroupShape(-1, -1)
+GroupShape.PER_TOKEN = GroupShape(1, -1)
+
+
+@dataclass(frozen=True)
+class ScaleDesc:
+    """
+    Class for describing a single quantization scaling factor.
+    dtype: data type of the scale
+    static: static scale if True, dynamic if False
+    group_shape: group shape of the scale
+    """
+
+    dtype: torch.dtype
+    static: bool
+    group_shape: GroupShape
+
+    def __str__(self):
+        group_shape = (
+            "per_tensor"
+            if self.group_shape == GroupShape.PER_TENSOR
+            else (
+                "per_token"
+                if self.group_shape == GroupShape.PER_TOKEN
+                else str(self.group_shape)
+            )
+        )
+
+        return (
+            f"{fx.graph.dtype_abbrs[self.dtype]},"
+            f"{'static' if self.static else 'dynamic'},{group_shape}"
+        )
+
+
+@dataclass(frozen=True)
+class QuantKey:
+    """
+    Class for identifying the type of quantization.
+    dtype: quantized data type
+    scale: scale descriptor
+    scale2: second-level scale descriptor
+    symmetric: symmetric if True, asymmetric if False
+    """
+
+    dtype: torch.dtype
+    scale: ScaleDesc
+    scale2: ScaleDesc | None = None
+    symmetric: bool = True
+
+    def __str__(self):
+        scale2_str = f"scale2({self.scale2})," if self.scale2 else ""
+        return (
+            f"QuantKey({fx.graph.dtype_abbrs[self.dtype]},"
+            f"scale({self.scale}),{scale2_str}"
+            f"{'a' if not self.symmetric else ''}symmetric)"
+        )
+
+
+kStaticTensorScale = ScaleDesc(torch.float32, True, GroupShape.PER_TENSOR)
+kFp8StaticTensorSym = QuantKey(FP8_DTYPE, kStaticTensorScale, symmetric=True)
+
+kDynamicTensorScale = ScaleDesc(torch.float32, False, GroupShape.PER_TENSOR)
+kFp8DynamicTensorSym = QuantKey(FP8_DTYPE, kDynamicTensorScale, symmetric=True)
+
+kDynamicTokenScale = ScaleDesc(torch.float32, False, GroupShape.PER_TOKEN)
+kFp8DynamicTokenSym = QuantKey(FP8_DTYPE, kDynamicTokenScale, symmetric=True)
+
+kNvfp4GroupScale = ScaleDesc(FP8_DTYPE, False, GroupShape(1, 16))
+kNvfp4Quant = QuantKey(FP4_DTYPE, scale=kNvfp4GroupScale, scale2=kStaticTensorScale)
+
+
+# Normalize the group_shape to the full extent for any dims that are -1
+def _normalize_quant_group_shape(x: torch.Tensor, group_shape: GroupShape):
+    # -1 means full extent
+    return (
+        group_shape[0] if group_shape[0] > 0 else x.shape[-2],
+        group_shape[1] if group_shape[1] > 0 else x.shape[-1],
+    )
+
+
+# Useful when treating N-dimensional group scaling as extended numpy-style
+# broadcasting in numpy simply stretches dimensions with an extent of 1 to match
+# the target shape by repeating the data along that dimension (broadcasting)
+# , we extend these semantics to say if the extent of a dimension in the
+# source shape is not 1 and does not match the target shape we repeat each
+# element along that dimension src_shape[dim] // target_shape[dim] times
+# example if we have:
+#       a = [[1, 2], and target_shape = (2, 4)
+#            [3, 4]]
+# then we would expand a to:
+#       a = [[1, 1, 2, 2],
+#            [3, 3, 4, 4]]
+# NOTE this function does not explicitly broadcast dimensions
+# with an extent of 1, since this can be done implicitly by pytorch
+def group_broadcast(t, shape):
+    for i, s in enumerate(shape):
+        if t.shape[i] != s and t.shape[i] != 1:
+            assert s % t.shape[i] == 0
+            t = (
+                t.unsqueeze(i + 1)
+                .expand(*t.shape[: i + 1], s // t.shape[i], *t.shape[i + 1 :])
+                .flatten(i, i + 1)
+            )
+    return t
+
+
+# Quantize assuming once scale per group of elements with shape group_shape,
+# example group shapes:
+#  * (-1, -1)   for per-tensor quantization
+#  * (1, -1)    for per-row quantization
+#  * (-1, 1)    for per-column quantization
+#  * (128, 128) for 128x128 deepseek style block quantization
+#  * (1, 128)   for deepseek style activation quantization
+#               (i.e. per-token-per-group)
+def scaled_quantize(
+    x: torch.Tensor,
+    group_shape: GroupShape,
+    quant_dtype: torch.dtype,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    group_shape = _normalize_quant_group_shape(x, group_shape)
+    # assert quant_dtype.is_floating_point, (
+    #     "currently `scaled_quantize` only supports floating point dtypes "
+    #     "but could be extended to support other dtypes"
+    # )
+
+    finfo = torch.finfo(quant_dtype) if quant_dtype.is_floating_point else torch.iinfo(quant_dtype)
+
+    # Reshape (M, N) into (BLK_M, BLOCK_SIZE_M, BLK_N, BLOCK_SIZE_N)
+    assert x.ndim == 2
+    assert x.shape[0] % group_shape[0] == 0 and x.shape[1] % group_shape[1] == 0
+    blk_m, blk_n = x.shape[0] // group_shape[0], x.shape[1] // group_shape[1]
+    x_blkd = x.reshape(blk_m, group_shape[0], blk_n, group_shape[1])
+
+    # Permute to (BLK_M, BLK_N, BLOCK_SIZE_M, BLOCK_SIZE_N)
+    x_blkd_permd = x_blkd.permute(0, 2, 1, 3)
+    # Flatten to (BLK_M, BLK_N, BLOCK_SIZE_M * BLOCK_SIZE_N)
+    x_blkd_permd = x_blkd_permd.flatten(start_dim=2)
+
+    # Compute scales
+    min_val, max_val = x_blkd_permd.aminmax(dim=-1)
+    amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-12)
+    scale = finfo.max / amax
+
+    # Apply scale and convert form:
+    # (BLK_M, BLK_N, BLOCK_SIZE_M * BLOCK_SIZE_N) to (M, N)
+    x_scl_sat = (
+        (x_blkd_permd * scale.unsqueeze(-1))
+        .clamp(min=finfo.min, max=finfo.max)
+        .reshape(blk_m, blk_n, group_shape[0], group_shape[1])
+        .permute(0, 2, 1, 3)
+        .reshape(x.shape)
+    )
+
+    return x_scl_sat.to(quant_dtype).contiguous(), scale.float().reciprocal()
+
+
+# inverses `scaled_quantize`
+def scaled_dequantize(
+    x_q: torch.Tensor,
+    x_s: torch.Tensor,
+    group_shape: GroupShape | None = None,
+    out_dtype: torch.dtype = torch.float32,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if group_shape is not None:
+        group_shape = _normalize_quant_group_shape(x_q, group_shape)
+
+    if x_s.ndim == 0:  # scalar
+        x_s = x_s.unsqueeze(-1).unsqueeze(-1)  # convert to (1, 1) tensor
+    if x_s.ndim == 1:
+        if group_shape is None:
+            raise AssertionError(
+                "if x_s is 1D tensor, group_shape must be provided otherwise "
+                "its ambiguous which dimension to broadcast x_s to"
+            )
+        # unsqueeze the scales for the dimension where we want to broadcast
+        # across the full extent
+        if group_shape[0] == x_q.shape[-2]:
+            x_s = x_s.unsqueeze(-2)
+        elif group_shape[1] == x_q.shape[-1]:
+            x_s = x_s.unsqueeze(-1)
+        else:
+            raise AssertionError(
+                "if x_s is a vector we should be broadcasting it to the full "
+                "extent of one of the dimensions"
+            )
+
+    if group_shape is not None:
+        assert x_s.shape[-1] == x_q.shape[-1] // group_shape[1]
+        assert x_s.shape[-2] == x_q.shape[-2] // group_shape[0]
+    x_s = group_broadcast(x_s.to(torch.float32), x_q.shape)
+    return (x_q.to(torch.float32) * x_s).to(out_dtype)
+
+
+def pack_quantized_values_into_int32(
+    w_q: torch.Tensor, wtype: ScalarType, packed_dim: int = 0
+):
+    # move dim to pack to the end
+    perm = (*[i for i in range(len(w_q.shape)) if i != packed_dim], packed_dim)
+    inv_perm = tuple(perm.index(i) for i in range(len(perm)))
+    w_q_perm = w_q.permute(perm)
+
+    pack_factor = 32 // wtype.size_bits
+    mask = (1 << wtype.size_bits) - 1
+
+    new_shape_perm = list(w_q_perm.shape)
+    assert w_q_perm.shape[-1] % pack_factor == 0
+    new_shape_perm[-1] //= pack_factor
+
+    res = torch.zeros(new_shape_perm, dtype=torch.int32, device=w_q.device)
+    for i in range(pack_factor):
+        res |= (w_q_perm[..., i::pack_factor] & mask) << wtype.size_bits * i
+
+    return res.permute(inv_perm)
+
+
+def unpack_quantized_values_into_int32(
+    w_q: torch.Tensor, wtype: ScalarType, packed_dim: int = 0
+):
+    # move dim to pack to the end
+    perm = (*[i for i in range(len(w_q.shape)) if i != packed_dim], packed_dim)
+    inv_perm = tuple(perm.index(i) for i in range(len(perm)))
+    w_q_perm = w_q.permute(perm)
+
+    pack_factor = 32 // wtype.size_bits
+    mask = (1 << wtype.size_bits) - 1
+
+    new_shape_perm = list(w_q_perm.shape)
+    new_shape_perm[-1] *= pack_factor
+
+    res = torch.zeros(new_shape_perm, dtype=torch.int32, device=w_q.device)
+    for i in range(pack_factor):
+        res[..., i::pack_factor] = (w_q_perm >> wtype.size_bits * i) & mask
+
+    return res.permute(inv_perm)
+
+
+def is_layer_skipped(
+    prefix: str,
+    ignored_layers: list[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+    *,
+    skip_with_substr: bool = False,
+) -> bool:
+    def prefix_full_match(prefix: str, ignored_layers: list[str]) -> bool:
+        return prefix in ignored_layers
+
+    # For case like: ignored_layers = ["self_attn"]
+    def substr_match(prefix: str, ignored_layers: list[str]) -> bool:
+        return any(layer in prefix for layer in ignored_layers)
+
+    match_func = substr_match if skip_with_substr else prefix_full_match
+
+    # prefix: model.layers.0.self_attn.q_proj
+    # proj_name: q_proj
+    proj_name = prefix.split(".")[-1]
+
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    if proj_name in fused_mapping:
+        shard_prefixes = [
+            prefix.replace(proj_name, shard_proj_name)
+            for shard_proj_name in fused_mapping[proj_name]
+        ]
+
+        is_skipped = None
+        for shard_prefix in shard_prefixes:
+            is_shard_skipped = match_func(shard_prefix, ignored_layers)
+
+            if is_skipped is None:
+                is_skipped = is_shard_skipped
+            elif is_shard_skipped != is_skipped:
+                raise ValueError(
+                    f"Detected some but not all shards of {prefix} "
+                    "are quantized. All shards of fused layers "
+                    "to have the same precision."
+                )
+    elif "experts" in prefix and not skip_with_substr:
+        expert_ignore_layers = filter(
+            lambda layer_name: "experts" in layer_name, ignored_layers
+        )
+        return any(
+            prefix in layer_name if not skip_with_substr else layer_name in prefix
+            for layer_name in expert_ignore_layers
+        )
+    else:
+        is_skipped = match_func(prefix, ignored_layers)
+
+    assert is_skipped is not None
+    return is_skipped
+
+
+def get_pack_factor(num_bits):
+    assert 32 % num_bits == 0, f"Unsupported num_bits = {num_bits}"
+    return 32 // num_bits
+
+
+def permute_rows(
+    q_w: torch.Tensor,
+    w_ref: torch.Tensor,
+    group_size: int,
+    test_perm: torch.Tensor | None = None,
+):
+    assert q_w.shape == w_ref.shape
+
+    orig_device = q_w.device
+    k_size, _ = q_w.shape
+
+    g_idx = torch.zeros((k_size,), dtype=torch.int32)
+    for i in range(k_size):
+        g_idx[i] = i // group_size
+
+    # Simulate act_order by doing a random permutation on K
+    rand_perm = test_perm if test_perm is not None else torch.randperm(k_size)
+
+    g_idx = g_idx[rand_perm].contiguous()
+    q_w = q_w[rand_perm, :].contiguous()
+    w_ref = w_ref[rand_perm, :].contiguous()
+
+    return (
+        w_ref.to(device=orig_device),
+        q_w.to(device=orig_device),
+        g_idx.to(device=orig_device),
+        rand_perm.to(device=orig_device),
+    )
+
+
+def quantize_weights(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int | None,
+    zero_points: bool = False,
+    ref_zero_points_after_scales: bool = False,
+):
+    assert quant_type.is_integer(), (
+        "Floating point quantization may work but has not been tested"
+    )
+    assert not zero_points or group_size is not None, (
+        "to have group zero points, group_size must be provided "
+        "(-1 group_size is channelwise)"
+    )
+
+    orig_device = w.device
+    orig_type = w.dtype
+    size_k, size_n = w.shape
+
+    assert w.is_floating_point(), "w must be float"
+
+    if group_size == -1:
+        group_size = size_k
+
+    # Reshape to [groupsize, -1]
+    if group_size is not None and group_size < size_k:
+        w = w.reshape((-1, group_size, size_n))
+        w = w.permute(1, 0, 2)
+        w = w.reshape((group_size, -1))
+
+    # Compute scale for each group
+    max_val = torch.max(w, 0, keepdim=True).values
+    min_val = torch.min(w, 0, keepdim=True).values
+
+    max_q_val = quant_type.max()
+    min_q_val = quant_type.min()
+
+    w_s = torch.Tensor([1.0]).to(w.device)  # unscaled case
+    maybe_w_zp = None
+    if group_size is not None:
+        if zero_points:
+            assert not quant_type.is_signed() and quant_type.max() > 0
+            w_s = (max_val - min_val).clamp(min=1e-5) / quant_type.max()
+            maybe_w_zp = (
+                torch.round(torch.abs(min_val / w_s)).clamp(min_q_val, max_q_val).int()
+            )
+        else:
+            # If the bias is such that there are no possible negative/positive
+            #  values, set the max value to inf to avoid divide by 0
+            w_s = torch.max(
+                abs(max_val / (max_q_val if max_q_val != 0 else torch.inf)),
+                abs(min_val / (min_q_val if min_q_val != 0 else torch.inf)),
+            )
+
+    # Quantize
+    w_q = torch.round(w / w_s).int() + (maybe_w_zp if zero_points else 0)
+    w_q = torch.clamp(w_q, min_q_val, max_q_val)
+
+    # Compute ref (dequantized)
+    # For some kernels (namely Machete) the zero-points are applied after the
+    # scales are applied, for this case computing the reference in similar way
+    # allows us to use tighter error tolerances in our unit tests.
+    if ref_zero_points_after_scales and maybe_w_zp is not None:
+        w_ref = w_q.to(orig_type) * w_s - maybe_w_zp.to(orig_type) * w_s
+    else:
+        w_ref = (w_q - (maybe_w_zp if zero_points else 0)).to(orig_type) * w_s
+
+    if quant_type.has_bias():
+        w_q += quant_type.bias
+
+    # Restore original shapes
+    if group_size is not None and group_size < size_k:
+
+        def reshape_w(w):
+            w = w.reshape((group_size, -1, size_n))
+            w = w.permute(1, 0, 2)
+            w = w.reshape((size_k, size_n)).contiguous()
+            return w
+
+        w_q = reshape_w(w_q)
+        w_ref = reshape_w(w_ref)
+        w_s = w_s.reshape((-1, size_n)).contiguous()
+
+    if maybe_w_zp is not None:
+        maybe_w_zp = maybe_w_zp.reshape((-1, size_n)).contiguous()
+        maybe_w_zp = maybe_w_zp.to(device=orig_device)
+
+    return (
+        w_ref.to(device=orig_device),
+        w_q.to(device=orig_device),
+        w_s if group_size is not None else None,
+        maybe_w_zp,
+    )
+
+
+SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
+SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+
+def gptq_quantize_weights(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int,
+    act_order: bool,
+    test_perm: torch.Tensor | None = None,
+):
+    size_k, _ = w.shape
+
+    assert w.is_floating_point(), "w must be float"
+    assert quant_type in SUPPORTED_GPTQ_QUANT_TYPES, (
+        f"Unsupported gptq type = {quant_type}"
+    )
+    assert group_size in SUPPORTED_GROUP_SIZES + [size_k], (
+        f"Unsupported groupsize = {group_size}"
+    )
+
+    w_ref, w_q, w_s, _ = quantize_weights(w, quant_type, group_size)
+
+    # Apply act_order
+    g_idx = torch.empty(0, dtype=torch.int, device=w.device)
+    rand_perm = torch.empty(0, dtype=torch.int, device=w.device)
+    if act_order:
+        assert group_size < size_k, (
+            "For act_order, groupsize = {} must be less than size_k = {}".format(
+                group_size, size_k
+            )
+        )
+
+        w_ref, w_q, g_idx, rand_perm = permute_rows(w_q, w_ref, group_size, test_perm)
+
+    return w_ref, w_q, w_s, g_idx, rand_perm
+
+
+def sort_weights(q_w: torch.Tensor, g_idx: torch.Tensor):
+    orig_device = q_w.device
+
+    sort_indices = torch.argsort(g_idx).to(dtype=torch.int32)  # Sort based on g_idx
+
+    g_idx = g_idx[sort_indices].contiguous()
+    q_w = q_w[sort_indices, :].contiguous()
+
+    return (
+        q_w.to(device=orig_device),
+        g_idx.to(device=orig_device),
+        sort_indices.to(device=orig_device),
+    )
+
+
+def pack_rows(
+    q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    assert q_w.shape == (size_k, size_n)
+
+    pack_factor = get_pack_factor(num_bits)
+    assert size_k % pack_factor == 0
+
+    orig_device = q_w.device
+
+    q_w = q_w.cpu().numpy().astype(numpy.uint32)
+
+    q_res = numpy.zeros((size_k // pack_factor, size_n), dtype=numpy.uint32)
+
+    for i in range(pack_factor):
+        q_res |= q_w[i::pack_factor, :] << num_bits * i
+
+    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
+    return q_res
+
+
+def pack_cols(
+    q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    assert q_w.shape == (size_k, size_n)
+
+    pack_factor = get_pack_factor(num_bits)
+    assert size_n % pack_factor == 0
+
+    orig_device = q_w.device
+
+    q_w = q_w.cpu().numpy().astype(numpy.uint32)
+
+    q_res = numpy.zeros((size_k, size_n // pack_factor), dtype=numpy.uint32)
+
+    for i in range(pack_factor):
+        q_res |= q_w[:, i::pack_factor] << num_bits * i
+
+    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
+    q_res = q_res.contiguous()
+
+    return q_res
+
+
+def unpack_cols(
+    packed_q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    pack_factor = get_pack_factor(num_bits)
+    assert size_n % pack_factor == 0
+    assert packed_q_w.shape == (size_k, size_n // pack_factor), (
+        "packed_q_w.shape = {} size_k = {}, size_n = {} pack_Factor = {}".format(
+            packed_q_w.shape, size_k, size_n, pack_factor
+        )
+    )
+
+    orig_device = packed_q_w.device
+
+    packed_q_w_cpu = packed_q_w.cpu().numpy().astype(numpy.uint32)
+    q_res = numpy.zeros((size_k, size_n), dtype=numpy.uint32)
+
+    mask = (1 << num_bits) - 1
+    for i in range(pack_factor):
+        vals = packed_q_w_cpu & mask
+        packed_q_w_cpu >>= num_bits
+        q_res[:, i::pack_factor] = vals
+
+    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
+    q_res = q_res.contiguous()
+
+    return q_res
+
+
+def gptq_pack(
+    q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    return pack_rows(q_w, num_bits, size_k, size_n)
+
+
+def awq_pack(
+    q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    assert q_w.shape == (size_k, size_n)
+
+    # Interleave column dim (for the dequantize code) and pack it to int32
+    if num_bits == 4:
+        interleave = numpy.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = numpy.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    q_w = q_w.reshape((-1, len(interleave)))[:, interleave].ravel()
+    q_w = q_w.reshape((-1, size_n)).contiguous()
+
+    return pack_cols(q_w, num_bits, size_k, size_n)
+
+
+def swizzle_blockscale(scale: torch.Tensor) -> torch.Tensor:
+    """
+    Pad and block-interleave the FP4 block-scales so that they match the data
+    layout expected by the CUTLASS / FlashInfer kernels.
+
+    Parameters
+    ----------
+    scale: torch.Tensor
+
+    Returns
+    -------
+    torch.Tensor
+        The swizzled tensor with the same logical shape as *scale*.
+    """
+    assert scale.dtype == torch.float8_e4m3fn, (
+        "swizzle_blockscale expects the input tensor to be in "
+        "torch.float8_e4m3fn format."
+    )
+
+    scale_ndim = scale.ndim
+    if scale_ndim == 2:
+        scale = scale.unsqueeze(0)  # (1, M, K)
+    assert scale.ndim == 3, "Expected a 2-D or 3-D tensor for block scales."
+
+    B, M, K = scale.shape
+
+    def _round_up(x: int, m: int) -> int:
+        return (x + m - 1) // m * m
+
+    M_padded = _round_up(M, 128)
+    K_padded = _round_up(K, 4)
+
+    padded = torch.zeros(
+        (B, M_padded, K_padded), dtype=scale.dtype, device=scale.device
+    )
+    padded[:B, :M, :K] = scale
+
+    # Reshape / permute to the layout required by the kernel.
+    padded = padded.reshape(B, M_padded // 128, 4, 32, K_padded // 4, 4)
+    swizzled = padded.permute(0, 1, 4, 3, 2, 5).contiguous().cuda()
+
+    if scale_ndim == 2:
+        return swizzled.reshape(M_padded, K_padded)
+    return swizzled.reshape(B, M_padded, K_padded)
+
+
+def cutlass_fp4_supported() -> bool:
+    if not current_platform.is_cuda():
+        return False
+    capability_tuple = current_platform.get_device_capability()
+    capability = -1 if capability_tuple is None else capability_tuple.to_int()
+    return cutlass_scaled_mm_supports_fp4(capability)
diff --git a/model_executor/layers/quantization/utils/w8a8_utils.py b/model_executor/layers/quantization/utils/w8a8_utils.py
new file mode 100644
index 0000000..fceed3e
--- /dev/null
+++ b/model_executor/layers/quantization/utils/w8a8_utils.py
@@ -0,0 +1,516 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+from packaging import version
+
+from vllm import _custom_ops as ops
+from vllm import envs
+from vllm.config import CompilationMode, get_current_vllm_config
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
+from vllm.platforms import current_platform
+from vllm.utils.flashinfer import flashinfer_scaled_fp8_mm, has_flashinfer
+from vllm.utils.platform_utils import get_cu_count
+from vllm.utils.torch_utils import direct_register_custom_op
+
+# Input scaling factors are no longer optional in _scaled_mm starting
+# from pytorch 2.5. Allocating a dummy tensor to pass as input_scale
+TORCH_DEVICE_IDENTITY = None
+
+# The condition to determine if it is on a platform that supports
+# torch._scaled_mm rowwise feature.
+# The condition is determined once as the operations
+# are time-consuming.
+USE_ROWWISE_TORCH_SCALED_MM = (
+    current_platform.is_rocm()
+    and version.parse(torch.__version__) >= version.parse("2.7")
+    and current_platform.has_device_capability(94)
+)
+
+
+def sparse_cutlass_supported() -> bool:
+    if not current_platform.is_cuda():
+        return False
+
+    capability_tuple = current_platform.get_device_capability()
+    capability = -1 if capability_tuple is None else capability_tuple.to_int()
+
+    return ops.cutlass_sparse_scaled_mm_supported(capability)
+
+
+def cutlass_fp8_supported() -> bool:
+    if not current_platform.is_cuda():
+        return False
+
+    capability_tuple = current_platform.get_device_capability()
+    capability = -1 if capability_tuple is None else capability_tuple.to_int()
+
+    return ops.cutlass_scaled_mm_supports_fp8(capability)
+
+
+def cutlass_block_fp8_supported() -> bool:
+    if not current_platform.is_cuda():
+        return False
+
+    capability_tuple = current_platform.get_device_capability()
+    capability = -1 if capability_tuple is None else capability_tuple.to_int()
+
+    return ops.cutlass_scaled_mm_supports_block_fp8(capability)
+
+
+def cutlass_group_gemm_supported() -> bool:
+    if not current_platform.is_cuda():
+        return False
+
+    capability_tuple = current_platform.get_device_capability()
+    capability = -1 if capability_tuple is None else capability_tuple.to_int()
+
+    return ops.cutlass_group_gemm_supported(capability)
+
+
+CUTLASS_FP8_SUPPORTED = cutlass_fp8_supported()
+CUTLASS_BLOCK_FP8_SUPPORTED = cutlass_block_fp8_supported()
+
+
+def per_tensor_dequantize(
+    tensor: torch.Tensor, inv_scale: float | torch.Tensor
+) -> torch.Tensor:
+    fake_qweight = tensor.to(torch.float16)
+    dq_weight = fake_qweight * inv_scale
+    return dq_weight
+
+
+def all_close_1d(x: torch.Tensor) -> bool:
+    assert len(x.shape) == 1
+    return all(torch.allclose(x[0], x[i]) for i in range(x.shape[0]))
+
+
+def convert_to_channelwise(
+    weight_scale: torch.Tensor, logical_widths: list[int]
+) -> tuple[torch.Tensor, torch.Tensor]:
+    # Create channelwise buffer
+    weight_scale_channel = torch.empty(
+        (sum(logical_widths), 1), dtype=torch.float32, device=weight_scale.device
+    )
+
+    # Expand each scale to match the size of each logical matrix.
+    start = 0
+    for idx, logical_width in enumerate(logical_widths):
+        end = start + logical_width
+        weight_scale_channel[start:end, :] = weight_scale[idx]
+        start = end
+
+    return weight_scale_channel
+
+
+def requantize_with_max_scale(
+    weight: torch.Tensor, weight_scale: torch.Tensor, logical_widths: list[int]
+) -> tuple[torch.Tensor, torch.Tensor]:
+    # Max scale to be used for requanitzation.
+    max_w_scale = weight_scale.max()
+
+    # QKV / MLP is fused in the on disk checkpoint if any of the
+    # weight scales are still set to the default since we initialize
+    # N weight scales for N shards but we only load 1 weight scale
+    # from disk in this case. Skip requantization in this case (since)
+    # we already are quantized with the single scale.
+    # * Sample Model: nm-testing/Phi-3-mini-128k-instruct-FP8
+    unfused_module_in_checkpoint = (
+        weight_scale[-1] > torch.finfo(torch.float8_e4m3fn).min
+    )
+
+    # If unfused checkpoint, need requanize with the single scale.
+    if unfused_module_in_checkpoint:
+        start = 0
+        for idx, logical_width in enumerate(logical_widths):
+            # Skip any component with zero width.
+            if logical_width == 0:
+                continue
+            end = start + logical_width
+            weight_dq = per_tensor_dequantize(weight[start:end, :], weight_scale[idx])
+            weight[start:end, :], _ = ops.scaled_fp8_quant(weight_dq, max_w_scale)
+            start = end
+
+    return max_w_scale, weight
+
+
+def maybe_create_device_identity():
+    # Allocate dummy ones tensor for torch._scaled_mm
+    global TORCH_DEVICE_IDENTITY
+    if TORCH_DEVICE_IDENTITY is None:
+        TORCH_DEVICE_IDENTITY = torch.ones(1, dtype=torch.float32)
+
+
+def cutlass_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+    **kwargs,
+) -> torch.Tensor:
+    # Fused GEMM_DQ
+    output = ops.cutlass_scaled_mm(
+        qinput, weight, out_dtype=out_dtype, scale_a=scale_a, scale_b=scale_b, bias=bias
+    )
+    return output.view(*output_shape)
+
+
+def flashinfer_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+    **kwargs,
+) -> torch.Tensor:
+    return flashinfer_scaled_fp8_mm(
+        qinput, weight, out_dtype=out_dtype, scale_a=scale_a, scale_b=scale_b, bias=bias
+    )
+
+
+def rocm_per_tensor_w8a8_scaled_mm_impl(
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+) -> torch.Tensor:
+    from vllm.platforms.rocm import on_mi3xx
+
+    if (
+        envs.VLLM_ROCM_USE_SKINNY_GEMM
+        and on_mi3xx()
+        and qinput.shape[0] == 1
+        and qinput.shape[1] % 16 == 0
+        and ((bias is None) or (bias.dtype == out_dtype))
+    ):
+        output = ops.wvSplitKQ(
+            weight.t(),
+            qinput,
+            out_dtype,
+            scale_a,
+            scale_b,
+            get_cu_count(),
+            bias,
+        )
+    else:
+        output = torch._scaled_mm(
+            qinput,
+            weight,
+            out_dtype=out_dtype,
+            scale_a=scale_a,
+            scale_b=scale_b,
+            bias=bias,
+        )
+    return output
+
+
+def rocm_per_tensor_w8a8_scaled_mm_fake(
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+) -> torch.Tensor:
+    return qinput.new_empty((*qinput.shape[:-1], weight.shape[1]), dtype=out_dtype)
+
+
+def rocm_per_tensor_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+) -> torch.Tensor:
+    output = torch.ops.vllm.rocm_per_tensor_w8a8_scaled_mm_impl(
+        qinput, weight, out_dtype, scale_a, scale_b, bias
+    )
+    return torch.narrow(output, 0, 0, qinput.shape[0]).view(*output_shape)
+
+
+direct_register_custom_op(
+    op_name="rocm_per_tensor_w8a8_scaled_mm_impl",
+    op_func=rocm_per_tensor_w8a8_scaled_mm_impl,
+    fake_impl=rocm_per_tensor_w8a8_scaled_mm_fake,
+)
+
+
+def torch_per_tensor_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+) -> torch.Tensor:
+    output = torch._scaled_mm(
+        qinput, weight, out_dtype=out_dtype, scale_a=scale_a, scale_b=scale_b, bias=bias
+    )
+    # A fix for discrepancy in scaled_mm which returns tuple
+    # for torch < 2.5 and a single value in torch >= 2.5
+    if type(output) is tuple and len(output) == 2:
+        output = output[0]
+
+    return torch.narrow(output, 0, 0, qinput.shape[0]).view(*output_shape)
+
+
+def torch_per_token_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+    **kwargs,
+) -> torch.Tensor:
+    # Note: Callers of this function should check USE_ROWWISE_TORCH_SCALED_MM
+    #  when using it.
+    #  For now it has only been validated on ROCm platform.
+    #  fp8 rowwise scaling in torch._scaled_mm is introduced in
+    #  https://github.com/pytorch/pytorch/pull/144432 using
+    #  hipBLASLt and ROCm 6.3, which only exists in torch 2.7 and above.
+    #
+    #  For CUDA platform please validate if the torch._scaled_mm supports
+    #  rowwise scaled GEMM before using it
+
+    # Fused GEMM_DQ Rowwise GEMM
+    output = torch._scaled_mm(
+        qinput,
+        weight,
+        out_dtype=out_dtype,
+        scale_a=scale_a,
+        scale_b=scale_b.t(),
+        bias=bias,
+    )
+
+    output = torch.narrow(output, 0, 0, qinput.shape[0])
+    output = output.view(*output_shape)
+    return output
+
+
+def torch_channelwise_w8a8_scaled_mm(
+    *,
+    qinput: torch.Tensor,
+    weight: torch.Tensor,
+    out_dtype: torch.dtype,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    bias: torch.Tensor,
+    output_shape: list,
+    **kwargs,
+) -> torch.Tensor:
+    # Use unfused DQ due to limitations with scaled_mm
+
+    # Symmetric quantized GEMM by definition computes the following:
+    #   C = (s_x * X) (s_w * W) + bias
+    # This is equivalent to dequantizing the weights and activations
+    # before applying a GEMM.
+    #
+    # In order to compute quantized operands, a quantized kernel
+    # will rewrite the above like so:
+    #   C = s_w * s_x * (X * W) + bias
+    #
+    # For the scaled_mm fallback case, we break this down, since it
+    # does not support s_w being a vector.
+
+    # GEMM
+    # This computes C = (X * W).
+    # Output in fp32 to allow subsequent ops to happen in-place
+    output = torch._scaled_mm(
+        qinput,
+        weight,
+        scale_a=TORCH_DEVICE_IDENTITY,
+        scale_b=TORCH_DEVICE_IDENTITY,
+        out_dtype=torch.float32,
+    )
+    # A fix for discrepancy in scaled_mm which returns tuple
+    # for torch < 2.5 and a single value in torch >= 2.5
+    if type(output) is tuple and len(output) == 2:
+        output = output[0]
+    # Unpad (undo num_token_padding)
+    output = torch.narrow(output, 0, 0, qinput.shape[0])
+    x_scale = torch.narrow(scale_a, 0, 0, qinput.shape[0])
+
+    # DQ
+    # C = sw * sx * (X * W) + bias
+    output = output * x_scale * scale_b.t()
+    if bias is not None:
+        output = output + bias
+    return output.to(out_dtype).view(*output_shape)
+
+
+def dispatch_w8a8_scaled_mm(
+    preferred_backend: str, per_tensor_weights: bool, per_tensor_activations: bool
+) -> Callable[..., torch.Tensor]:
+    if per_tensor_weights and per_tensor_activations:
+        if preferred_backend == "rocm":
+            return rocm_per_tensor_w8a8_scaled_mm
+        if preferred_backend == "flashinfer":
+            return flashinfer_w8a8_scaled_mm
+        if preferred_backend == "cutlass":
+            return cutlass_w8a8_scaled_mm
+        return torch_per_tensor_w8a8_scaled_mm
+
+    # cutlass_scaled_mm supports per tensor/channel W and per tensor/token A
+    if preferred_backend == "cutlass" or preferred_backend == "flashinfer":
+        return cutlass_w8a8_scaled_mm
+
+    # If torch.scaled_mm supports per-channel (weights) per-token (inputs)
+    if (
+        not per_tensor_weights
+        and not per_tensor_activations
+        and USE_ROWWISE_TORCH_SCALED_MM
+    ):
+        return torch_per_token_w8a8_scaled_mm
+    # Normally, torch.scaled_mm supports per tensor weights + activations only
+    # so fallback to naive if per channel or per token
+    return torch_channelwise_w8a8_scaled_mm
+
+
+# TODO(luka): follow similar pattern for marlin and block-fp8-linear
+#  https://github.com/vllm-project/vllm/issues/14397
+class Fp8LinearOp:
+    """
+    This class executes a FP8 linear layer using cutlass if supported and
+    torch.scaled_mm otherwise.
+    It needs to be a class instead of a method so that config can be read
+    in the __init__ method, as reading config is not allowed inside forward.
+    """
+
+    def __init__(
+        self,
+        act_quant_static: bool,
+        act_quant_group_shape: GroupShape = GroupShape.PER_TENSOR,
+        pad_output: bool | None = None,
+    ):
+        if current_platform.is_rocm():
+            self.preferred_backend = "rocm"
+        elif current_platform.is_cuda() and cutlass_fp8_supported():
+            if has_flashinfer() and current_platform.has_device_capability(100):
+                self.preferred_backend = "flashinfer"
+            else:
+                self.preferred_backend = "cutlass"
+        else:
+            self.preferred_backend = "torch"
+
+        # Note: we pad the input because torch._scaled_mm is more performant
+        # for matrices with batch dimension > 16.
+        # This could change in the future.
+        # We also don't pad when using torch.compile,
+        # as it breaks with dynamic shapes.
+        if pad_output is None:
+            config = get_current_vllm_config().compilation_config
+            pad_output = (
+                config.mode < CompilationMode.VLLM_COMPILE
+                and self.preferred_backend == "torch"
+            )
+
+        self.output_padding = 17 if pad_output else None
+        self.act_quant_static = act_quant_static
+        self.act_quant_group_shape = act_quant_group_shape
+        self.quant_fp8 = QuantFP8(
+            static=act_quant_static,
+            group_shape=act_quant_group_shape,
+            num_token_padding=self.output_padding,
+        )
+
+    def apply(
+        self,
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        out_dtype: torch.dtype | None = None,
+        input_scale: torch.Tensor | None = None,
+        input_scale_ub: torch.Tensor | None = None,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # ops.scaled_fp8_quant supports both dynamic and static quant.
+        #   If dynamic, layer.input_scale is None and x_scale computed from x.
+        #   If static, layer.input_scale is scalar and x_scale is input_scale.
+
+        # View input as 2D matrix for fp8 methods
+        input_2d = input.view(-1, input.shape[-1])
+        output_shape = [*input.shape[:-1], weight.shape[1]]
+
+        if out_dtype is None:
+            out_dtype = input.dtype
+
+        # If input not quantized
+        # TODO(luka) remove this path if not used anymore
+        if input.dtype != current_platform.fp8_dtype():
+            qinput, x_scale = self.quant_fp8(
+                input_2d,
+                input_scale,
+                input_scale_ub,
+            )
+        else:
+            qinput, x_scale = input_2d, input_scale
+
+        # Must have dim() conditions
+        # In per-token quant scenario, when the number of token is 1,
+        # the scale will only have 1 elements.
+        # Without checking the dim(),
+        # we cannot distingushes between per-tensor and per-token quant.
+        # Example:
+        # When the number of token is 1, per-token scale is [[1]]
+        # When per-tensor scale is [1] or ().
+        per_tensor_weights = weight_scale.numel() == 1
+        per_tensor_activations = (x_scale.numel() == 1) and x_scale.dim() < 2
+
+        # TODO(luka) do this dispatch during init (after ScaledMM refactor)
+        w8a8_scaled_mm_func = dispatch_w8a8_scaled_mm(
+            self.preferred_backend, per_tensor_weights, per_tensor_activations
+        )
+
+        return w8a8_scaled_mm_func(
+            qinput=qinput,
+            weight=weight,
+            out_dtype=out_dtype,
+            scale_a=x_scale,
+            scale_b=weight_scale,
+            bias=bias,
+            output_shape=output_shape,
+        )
+
+
+def normalize_e4m3fn_to_e4m3fnuz(
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    input_scale: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor | None]:
+    assert weight.dtype == torch.float8_e4m3fn
+    # The bits pattern 10000000(-128) represents zero in e4m3fn
+    # but NaN in e4m3fnuz. So here we set it to 0.
+    # https://onnx.ai/onnx/technical/float8.html
+    weight_as_int8 = weight.view(torch.int8)
+    ROCM_FP8_NAN_AS_INT = -128
+    weight_as_int8[weight_as_int8 == ROCM_FP8_NAN_AS_INT] = 0
+    weight = weight_as_int8.view(torch.float8_e4m3fnuz)
+
+    # For the same bits representation, e4m3fnuz value is half of
+    # the e4m3fn value, so we should double the scaling factor to
+    # get the same dequantized value.
+    # https://onnx.ai/onnx/technical/float8.html
+    weight_scale = weight_scale * 2.0
+    if input_scale is not None:
+        input_scale = input_scale * 2.0
+    return weight, weight_scale, input_scale
diff --git a/model_executor/layers/quantization/w8a16.py b/model_executor/layers/quantization/w8a16.py
new file mode 100644
index 0000000..6c42ce7
--- /dev/null
+++ b/model_executor/layers/quantization/w8a16.py
@@ -0,0 +1,114 @@
+from typing import Any, Dict, List, Optional
+
+import torch
+from torch.nn.parameter import Parameter
+
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig)
+from vllm.model_executor.parameter import (GroupQuantScaleParameter,
+                                           PackedvLLMParameter)
+from vllm.model_executor.utils import set_weight_attrs
+
+
+class W8a16Config(QuantizationConfig):
+    """Config class for W8a16.
+    
+    """
+
+    def __init__(
+        self,
+    ) -> None:
+        pass
+
+    def __repr__(self) -> str:
+        return ("W8a16Config")
+
+    def get_name(self) -> str:
+        return "w8a16"
+
+    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    def get_min_capability(self) -> int:
+        return 75
+
+    @staticmethod
+    def get_config_filenames():
+        return []
+
+    @classmethod
+    def from_config(cls, config: Dict[str, Any]) -> "W8a16Config":
+        return cls()
+    
+    def get_quant_method(self, layer: torch.nn.Module,
+                         prefix: str) -> Optional["W8a16LinearMethod"]:
+        if isinstance(layer, LinearBase):
+            return W8a16LinearMethod(self)
+        return None
+
+
+    def get_scaled_act_names(self) -> List[str]:
+        return []
+
+
+class W8a16LinearMethod(LinearMethodBase):
+    """Linear method for w8a16.
+
+    """
+
+    def __init__(self, quant_config: W8a16Config):
+        self.quant_config = quant_config
+
+    def create_weights(self, layer: torch.nn.Module,
+                       input_size_per_partition: int,
+                       output_partition_sizes: List[int], input_size: int,
+                       output_size: int, params_dtype: torch.dtype,
+                       **extra_weight_attrs):
+        output_size_per_partition = sum(output_partition_sizes)
+        weight = Parameter(
+            torch.empty(
+                output_size_per_partition,
+                input_size_per_partition,
+                dtype=torch.int8,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(
+            weight, {
+                "input_dim": 1,
+                "output_dim": 0,
+            })
+        
+        scales = Parameter(
+            torch.empty(
+                1,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(scales, {
+            "input_dim": None,
+            "output_dim": 1,
+        })
+        
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+        layer.register_parameter("scales", scales)
+        set_weight_attrs(scales, extra_weight_attrs)
+        
+        
+    def apply(self,
+              layer: torch.nn.Module,
+              x: torch.Tensor,
+              bias: Optional[torch.Tensor] = None) -> torch.Tensor:
+        qweight = layer.weight
+        scales = layer.scales
+        out_shape = (x.shape[:-1] + (qweight.shape[-2],))
+        reshaped_x = x.reshape(-1, x.shape[-1])
+        out = ops.linear_w8a16(reshaped_x, qweight, scales, format="TN")
+        if bias is not None:
+            out = out + bias
+        return out.reshape(out_shape)
\ No newline at end of file
diff --git a/model_executor/layers/resampler.py b/model_executor/layers/resampler.py
new file mode 100644
index 0000000..c9fa805
--- /dev/null
+++ b/model_executor/layers/resampler.py
@@ -0,0 +1,283 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# https://huggingface.co/Qwen/Qwen-7B/blob/main/modeling_qwen.py
+# https://github.com/facebookresearch/mae/blob/efb2a8062c206524e35e47d04501ed4f544c0ae8/util/pos_embed.py#L20
+#
+# Copyright 2023 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Shared resampler perceiver network used in multimodal models and
+related helpers for sincos positional embeddings.
+
+Example models: Qwen (Qwen-VL), MiniCPM-V 2.0
+"""
+
+import math
+from collections.abc import Callable
+from functools import partial
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+from torch import nn
+
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+
+DEFAULT_LN = partial(nn.LayerNorm, eps=1e-6)
+
+
+def get_abs_pos(abs_pos: torch.Tensor, tgt_size: torch.Tensor | int) -> torch.Tensor:
+    # abs_pos: L, C
+    # tgt_size: (H, W)
+    # return: M, C
+    src_size = int(math.sqrt(abs_pos.size(0)))
+    dtype = abs_pos.dtype
+    if isinstance(tgt_size, int):
+        tgt_size = (tgt_size, tgt_size)
+    if src_size == tgt_size[0] and src_size == tgt_size[1]:
+        return abs_pos
+    return (
+        F.interpolate(
+            abs_pos.float().reshape(1, src_size, src_size, -1).permute(0, 3, 1, 2),
+            size=(tgt_size[0], tgt_size[1]),
+            mode="bicubic",
+            align_corners=False,
+        )
+        .permute(0, 2, 3, 1)
+        .flatten(0, 2)
+        .to(dtype=dtype)
+    )
+
+
+# sin/cos positional embedding helpers are adapted from:
+# https://github.com/facebookresearch/mae/blob/efb2a8062c206524e35e47d04501ed4f544c0ae8/util/pos_embed.py#L20
+def get_1d_sincos_pos_embed_from_grid(
+    embed_dim: int, pos: np.ndarray, version: tuple[int, int] = (2, 0)
+) -> torch.Tensor:
+    """
+    embed_dim: output dimension for each position
+    pos: a list of positions to be encoded: size (M,) / (H, W)
+    out: (M, D) / (H, W, D)
+    """
+    assert embed_dim % 2 == 0
+    omega = np.arange(embed_dim // 2, dtype=np.float32)
+    omega /= embed_dim / 2.0
+    omega = 1.0 / 10000**omega  # (D/2,)
+
+    if version == (2, 0):
+        pos = pos.reshape(-1)  # (M,)
+        out = np.einsum("m,d->md", pos, omega)  # (M, D/2), outer product
+        emb_sin = np.sin(out)  # (M, D/2)
+        emb_cos = np.cos(out)  # (M, D/2)
+        emb = np.concatenate([emb_sin, emb_cos], axis=1)  # (M, D)
+    else:
+        out = np.einsum("hw,d->hwd", pos, omega)  # (H, W, D/2), outer product
+        emb_sin = np.sin(out)  # (H, W, D/2)
+        emb_cos = np.cos(out)  # (H, W, D/2)
+        emb = np.concatenate([emb_sin, emb_cos], axis=-1)  # (H, W, D)
+    return emb
+
+
+def get_2d_sincos_pos_embed_from_grid(
+    embed_dim: int, grid: np.ndarray, version: tuple[int, int] = (2, 0)
+) -> torch.Tensor:
+    assert embed_dim % 2 == 0
+
+    # use half of dimensions to encode grid_h
+    emb_h = get_1d_sincos_pos_embed_from_grid(
+        embed_dim // 2, grid[0], version
+    )  # (H*W, D/2) or (H, W, D/2)
+    emb_w = get_1d_sincos_pos_embed_from_grid(
+        embed_dim // 2, grid[1], version
+    )  # (H*W, D/2) or (H, W, D/2)
+
+    if version == (2, 0):
+        emb = np.concatenate([emb_h, emb_w], axis=1)  # (H*W, D)
+    else:
+        emb = np.concatenate([emb_h, emb_w], axis=-1)  # (H, W, D)
+    return emb
+
+
+def get_2d_sincos_pos_embed(
+    embed_dim: int,
+    grid_size: int | tuple[int, int],
+    cls_token: bool = False,
+    version: tuple[int, int] = (2, 0),
+) -> torch.Tensor:
+    """
+    grid_size: int of the grid height and width
+    return:
+    pos_embed: [grid_size*grid_size, embed_dim] or
+                [1+grid_size*grid_size, embed_dim] (w/ or w/o cls_token)
+    """
+    if isinstance(grid_size, int):
+        grid_h_size, grid_w_size = grid_size, grid_size
+    else:
+        grid_h_size, grid_w_size = grid_size[0], grid_size[1]
+
+    grid_h = np.arange(grid_h_size, dtype=np.float32)
+    grid_w = np.arange(grid_w_size, dtype=np.float32)
+    grid = np.meshgrid(grid_w, grid_h)  # here w goes first
+    grid = np.stack(grid, axis=0)
+    assert isinstance(grid, np.ndarray) and grid.shape == (2, grid_h_size, grid_w_size)
+
+    if version == (2, 0):
+        grid = grid.reshape([2, 1, grid_h_size, grid_w_size])
+        pos_embed = get_2d_sincos_pos_embed_from_grid(embed_dim, grid, version)
+        if cls_token:
+            pos_embed = np.concatenate([np.zeros([1, embed_dim]), pos_embed], axis=0)
+    else:
+        pos_embed = get_2d_sincos_pos_embed_from_grid(embed_dim, grid, version)
+    return pos_embed
+
+
+class BaseResampler(nn.Module):
+    """
+    A 2D perceiver-resampler network with one cross attention layers by
+        (grid_size**2) learnable queries and 2d sincos pos_emb.
+    Outputs:
+        A tensor with the shape of (grid_size**2, embed_dim)
+    """
+
+    def __init__(
+        self,
+        num_queries: int,
+        embed_dim: int,
+        num_heads: int,
+        kv_dim: int | None = None,
+        norm_layer: Callable[[int], nn.LayerNorm] = DEFAULT_LN,
+        do_post_projection: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.num_queries = num_queries
+        self.embed_dim = embed_dim
+        self.num_heads = num_heads
+
+        self.query = nn.Parameter(torch.empty(self.num_queries, embed_dim))
+
+        if kv_dim is not None and kv_dim != embed_dim:
+            self.kv_proj = ReplicatedLinear(
+                kv_dim,
+                embed_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.kv_proj",
+            )
+        else:
+            # Maintain the same return value with ReplicatedLinear.forward
+            self.kv_proj = lambda *args, **kwargs: (  # type: ignore # noqa
+                nn.Identity()(*args, **kwargs),
+                None,
+            )
+        self.attn = nn.MultiheadAttention(embed_dim, num_heads)
+        self.ln_q = norm_layer(embed_dim)
+        self.ln_kv = norm_layer(embed_dim)
+        self.do_post_projection = do_post_projection
+        if self.do_post_projection:
+            self.ln_post = norm_layer(embed_dim)
+            data = (embed_dim**-0.5) * torch.empty(embed_dim, embed_dim)
+            self.proj = nn.Parameter(data=data)
+
+    def _repeat(self, query, N: int):
+        return query.unsqueeze(1).repeat(1, N, 1)
+
+
+class Resampler2(BaseResampler):
+    """Resampler-perceiver network to be used for a variety of model types,
+    e.g., Qwen-vl / Minicpmv 2.0. The main difference is the addition of the
+    do_post_projection arg, which indicates whether or not there should be
+    a post layer normalization and projector after the attention. This is
+    present in minicpmv2.0, but not qwen-vl.
+    """
+
+    def __init__(
+        self,
+        grid_size: int,
+        embed_dim: int,
+        num_heads: int,
+        kv_dim: int | None = None,
+        norm_layer: Callable[[int], nn.LayerNorm] = DEFAULT_LN,
+        adaptive: bool = False,
+        do_post_projection: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__(
+            grid_size**2,
+            embed_dim,
+            num_heads,
+            kv_dim,
+            norm_layer,
+            do_post_projection=do_post_projection,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+        self.adaptive = adaptive
+        pos_embed_arr = get_2d_sincos_pos_embed(embed_dim, grid_size, version=(2, 0))
+
+        self.pos_embed = nn.Parameter(
+            torch.from_numpy(pos_embed_arr).requires_grad_(False)
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        tgt_sizes: torch.Tensor | None = None,
+        attn_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if tgt_sizes is None:
+            tgt_sizes = int(math.sqrt(x.size(1)))
+        if self.adaptive:
+            pos_embed_arr = get_2d_sincos_pos_embed(
+                self.embed_dim, tgt_sizes, version=(2, 0)
+            )
+            pos_embed = torch.from_numpy(pos_embed_arr).to(
+                device=x.device, dtype=x.dtype
+            )
+        else:
+            pos_embed = get_abs_pos(self.pos_embed, tgt_sizes).to(
+                device=x.device, dtype=x.dtype
+            )
+
+        x, _ = self.kv_proj(x)
+        x = self.ln_kv(x).permute(1, 0, 2)
+
+        N = x.shape[1]
+        q = self.ln_q(self.query)
+        out = self.attn(
+            self._repeat(q, N) + self.pos_embed.unsqueeze(1),
+            x + pos_embed.unsqueeze(1),
+            x,
+            attn_mask=attn_mask,
+        )[0]
+        x = out.permute(1, 0, 2)
+        if self.do_post_projection:
+            x = self.ln_post(x)
+            x = x @ self.proj
+        return x
diff --git a/model_executor/layers/rotary_embedding/__init__.py b/model_executor/layers/rotary_embedding/__init__.py
new file mode 100644
index 0000000..56c165f
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/__init__.py
@@ -0,0 +1,278 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Rotary Positional Embeddings."""
+
+from typing import Any
+
+import torch
+
+from .base import RotaryEmbedding
+from .deepseek_scaling_rope import DeepseekScalingRotaryEmbedding
+from .dual_chunk_rope import DualChunkRotaryEmbedding
+from .dynamic_ntk_alpha_rope import DynamicNTKAlphaRotaryEmbedding
+from .dynamic_ntk_scaling_rope import DynamicNTKScalingRotaryEmbedding
+from .linear_scaling_rope import LinearScalingRotaryEmbedding
+from .llama3_rope import Llama3RotaryEmbedding
+from .llama4_vision_rope import Llama4VisionRotaryEmbedding
+from .mrope import MRotaryEmbedding
+from .ntk_scaling_rope import NTKScalingRotaryEmbedding
+from .phi3_long_rope_scaled_rope import Phi3LongRoPEScaledRotaryEmbedding
+from .yarn_scaling_rope import YaRNScalingRotaryEmbedding
+
+_ROPE_DICT: dict[tuple, RotaryEmbedding] = {}
+
+
+def get_rope(
+    head_size: int,
+    rotary_dim: int,
+    max_position: int,
+    base: float,
+    is_neox_style: bool = True,
+    rope_scaling: dict[str, Any] | None = None,
+    dtype: torch.dtype | None = None,
+    partial_rotary_factor: float = 1.0,
+    dual_chunk_attention_config: dict[str, Any] | None = None,
+) -> RotaryEmbedding:
+    if dtype is None:
+        dtype = torch.get_default_dtype()
+    if rope_scaling is not None:
+        # Transforms every value that is a list into a tuple for caching calls
+        rope_scaling_tuple = {
+            k: tuple(v) if isinstance(v, list) else v for k, v in rope_scaling.items()
+        }
+        rope_scaling_args = tuple(rope_scaling_tuple.items())
+    else:
+        rope_scaling_args = None
+
+    if dual_chunk_attention_config is not None:
+        dual_chunk_attention_tuple = {
+            k: tuple(v) if isinstance(v, list) else v
+            for k, v in dual_chunk_attention_config.items()
+            if k != "sparse_attention_config"
+        }
+        dual_chunk_attention_args = tuple(dual_chunk_attention_tuple.items())
+    else:
+        dual_chunk_attention_args = None
+
+    if partial_rotary_factor < 1.0:
+        rotary_dim = int(rotary_dim * partial_rotary_factor)
+    key = (
+        head_size,
+        rotary_dim,
+        max_position,
+        base,
+        is_neox_style,
+        rope_scaling_args,
+        dual_chunk_attention_args,
+        dtype,
+    )
+    if key in _ROPE_DICT:
+        return _ROPE_DICT[key]
+
+    if dual_chunk_attention_config is not None:
+        extra_kwargs = {
+            k: v
+            for k, v in dual_chunk_attention_config.items()
+            if k in ("chunk_size", "local_size")
+        }
+        rotary_emb = DualChunkRotaryEmbedding(
+            head_size,
+            rotary_dim,
+            max_position,
+            base,
+            is_neox_style,
+            dtype,
+            **extra_kwargs,
+        )
+    elif not rope_scaling:
+        rotary_emb = RotaryEmbedding(
+            head_size, rotary_dim, max_position, base, is_neox_style, dtype
+        )
+    else:
+        scaling_type = rope_scaling["rope_type"]
+
+        if scaling_type == "llama3":
+            scaling_factor = rope_scaling["factor"]
+            low_freq_factor = rope_scaling["low_freq_factor"]
+            high_freq_factor = rope_scaling["high_freq_factor"]
+            original_max_position = rope_scaling["original_max_position_embeddings"]
+            rotary_emb = Llama3RotaryEmbedding(
+                head_size,
+                rotary_dim,
+                max_position,
+                base,
+                is_neox_style,
+                dtype,
+                scaling_factor,
+                low_freq_factor,
+                high_freq_factor,
+                original_max_position,
+            )
+        elif scaling_type == "mllama4":
+            rotary_emb = Llama4VisionRotaryEmbedding(
+                head_size, rotary_dim, max_position, base, is_neox_style, dtype
+            )
+        elif scaling_type == "default":
+            if "mrope_section" in rope_scaling:
+                rotary_emb = MRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    max_position,
+                    base,
+                    is_neox_style,
+                    dtype,
+                    mrope_section=rope_scaling["mrope_section"],
+                    mrope_interleaved=rope_scaling.get("mrope_interleaved", False),
+                )
+            else:
+                rotary_emb = RotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    max_position,
+                    base,
+                    is_neox_style,
+                    dtype,
+                )
+        elif scaling_type == "linear":
+            scaling_factor = rope_scaling["factor"]
+            rotary_emb = LinearScalingRotaryEmbedding(
+                head_size,
+                rotary_dim,
+                max_position,
+                base,
+                is_neox_style,
+                scaling_factor,
+                dtype,
+            )
+        elif scaling_type == "ntk":
+            scaling_factor = rope_scaling["factor"]
+            mixed_b = rope_scaling.get("mixed_b", None)
+            rotary_emb = NTKScalingRotaryEmbedding(
+                head_size,
+                rotary_dim,
+                max_position,
+                base,
+                is_neox_style,
+                scaling_factor,
+                dtype,
+                mixed_b,
+            )
+        elif scaling_type == "dynamic":
+            if "alpha" in rope_scaling:
+                scaling_alpha = rope_scaling["alpha"]
+                rotary_emb = DynamicNTKAlphaRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    max_position,
+                    base,
+                    is_neox_style,
+                    scaling_alpha,
+                    dtype,
+                )
+            elif "factor" in rope_scaling:
+                scaling_factor = rope_scaling["factor"]
+                rotary_emb = DynamicNTKScalingRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    max_position,
+                    base,
+                    is_neox_style,
+                    scaling_factor,
+                    dtype,
+                )
+            else:
+                raise ValueError(
+                    "Dynamic rope scaling must contain either 'alpha' or 'factor' field"
+                )
+        elif scaling_type == "yarn":
+            scaling_factor = rope_scaling["factor"]
+            original_max_position = rope_scaling["original_max_position_embeddings"]
+            extra_kwargs = {
+                k: v
+                for k, v in rope_scaling.items()
+                if k
+                in (
+                    "extrapolation_factor",
+                    "attn_factor",
+                    "beta_fast",
+                    "beta_slow",
+                    "apply_yarn_scaling",
+                )
+            }
+            if "mrope_section" in rope_scaling:
+                extra_kwargs.pop("apply_yarn_scaling", None)
+                rotary_emb = MRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    original_max_position,
+                    base,
+                    is_neox_style,
+                    dtype,
+                    mrope_section=rope_scaling["mrope_section"],
+                    mrope_interleaved=rope_scaling.get("mrope_interleaved", False),
+                    scaling_factor=scaling_factor,
+                    **extra_kwargs,
+                )
+            else:
+                rotary_emb = YaRNScalingRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    original_max_position,
+                    base,
+                    is_neox_style,
+                    scaling_factor,
+                    dtype,
+                    **extra_kwargs,
+                )
+        elif scaling_type == "deepseek_yarn":
+            scaling_factor = rope_scaling["factor"]
+            original_max_position = rope_scaling["original_max_position_embeddings"]
+            # assert max_position == original_max_position * scaling_factor
+            extra_kwargs = {
+                k: v
+                for k, v in rope_scaling.items()
+                if k
+                in (
+                    "extrapolation_factor",
+                    "attn_factor",
+                    "beta_fast",
+                    "beta_slow",
+                    "mscale",
+                    "mscale_all_dim",
+                )
+            }
+            rotary_emb = DeepseekScalingRotaryEmbedding(
+                head_size,
+                rotary_dim,
+                original_max_position,
+                base,
+                is_neox_style,
+                scaling_factor,
+                dtype,
+                **extra_kwargs,
+            )
+        elif scaling_type == "longrope":
+            short_factor = rope_scaling["short_factor"]
+            long_factor = rope_scaling["long_factor"]
+            original_max_position = rope_scaling["original_max_position_embeddings"]
+            extra_kwargs = {
+                k: v
+                for k, v in rope_scaling.items()
+                if k in ("short_mscale", "long_mscale")
+            }
+            rotary_emb = Phi3LongRoPEScaledRotaryEmbedding(
+                head_size,
+                rotary_dim,
+                max_position,
+                original_max_position,
+                base,
+                is_neox_style,
+                dtype,
+                short_factor,
+                long_factor,
+                **extra_kwargs,
+            )
+        else:
+            raise ValueError(f"Unknown RoPE scaling type {scaling_type}")
+    _ROPE_DICT[key] = rotary_emb
+    return rotary_emb
diff --git a/model_executor/layers/rotary_embedding/__pycache__/__init__.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4bd0f5076463e26cd443776dc072e60d8d80c31c
GIT binary patch
literal 6299
zcmb_gTTC3+89sZz@6O&Yu*-7yVgtTmVuNGZ#%X*Bc6_19HtA^03}(&jC9{JK)}T6V
z9&l<kxP1sxQ;AAd>&kiXquZyd%0twPv<p_5jzDr0MOCCeEQJ?WedvGA?7(8yPSSJ`
zXZ|_o|Nry-|9{S$Z|Bc0mmR^y8-JYH-+|EQ_(8jZRbhQlhtP-U3Sv<ju{u`I>$3W^
zUWa7^Z%7+hBWvP~SyS2seMZ*Io3oa*g~%4(nzf~EM7HwwtRw9pvW<6UU1=AQ?Yukd
zNqdOw;Hj)P?Ip64_htQQKapL0AR9~viR|V>*>E~cWDg(7M$=IuQ+zDjkZ#bS3`#e0
zaW27`#`IALf@@;EgK)QP{;_e^$0b=m{0HDa$ThPeu7wSQRV$}gtyse?3qov!GhBaF
zOUc%~IvNGbSRJbdm^;8WzGq6ePa9H+Tk(r|krAeo7xKl7n91iDK6xs8m1EgV?pm?u
zOYAqLQw+y*)5Bjvw()~UHQ7{yuEY?>6^a};acPv{!E&cYWN4D%PmWLKCU%Y`hNg2&
zHZwYW`RsANFwX4MNN#C7cZSAunH<Lm&m9k*<C!dTV5jp2GH`GtQ-t_;4pXn~?27`_
z=T6joVLWr-TpnlP!YQo9u{%A)-efKg*LR`V>5JztoT7(LpS-Nt#yN(ii<w)TVi!oM
zXf~5ooLOdyE>vr#7_Tx#PH|<5bdJkU(M55Z=M<-qFK~2GEr?=b#pwd41PhEHW*DBX
z`Wj<K#k`<2uuvU(6qko)M3Kwkr9hA7b7Prnido>qNg+3C+gfDE1+oGD*MAL5@k1n;
zZwExYJjiujuSr|?2UT&#EScVYLo!`AZH;M?rZa>-uzg@3HDu7J{_R$T-U5F!wi&x*
z6Ja*>lI)^YlOI&)6C9#L>yzvcs(5lb$^J9_-F73IabPbsI*u2i(ClZNIX#PJoRan3
zw<YU~EVkj^Rg0U|P4puqB)(MyT@ZomnFw4j!m}BHn?&H2EUbP4awWJ$Tt9M2I>~Yi
zYO$%SlMwXjC4*#?oRV8Ik6C9tl1FrF7B`S!+j^2b_(gUJL3WOOgX}oBWyb(M4U&!2
z$qi9bBucL~V+|tnm^p(a>Q}m-=w`fg`rMdgD*8l!J<SJZwU_8!luWD<Bc1U{KGrk=
z)e*X&&rJIKAX$hM0Le<EAV@YMg+%SZLA6LEzZ8&yQs@CWsK7JElK}5_;@u~PzY>)N
zv>inIW!5Q~APc)hJSDld&1GVpcmVcILv^_3#=2Oywg*1;JgDvqz@y9k?JIMm%Y6bU
zD1sugl@T$nO;CfwFPR@ycOdcp8?f{e%iUX+&%x+pk%n<5EH>5mE`_(DzX|^R#Q#Ya
zDg*h!2m_=l5wW?BkH|9!M_72@RPCy@7U7MeUN4C3h}f=au|aKb{7?sYLIlr`YU9<`
z$v1ebZD0T4dh5TsA_gStdZ&hE>&`~D@~K15teOzny|7mR<=0#{lAn!!WYBh2?)PF!
zn~P*g^$7JJvuy3Z9Ik(i<YVannvaHh`4D%14Mg7uM2!T|SwIvgD<uk2f=Drts(bo>
zu2oZAY~9<i>7{A~q^J}dv(;qGU9+x|lJDo}7y6pj<*j|MVqz$HFTok8L!*Wn`;6`8
zw~|xM!%Daa=YNsgamN2cg<m<A(kphA2B?&S&jWu@>4%N*3Bn@GJfTvGxk?{AeEudq
zCUEc2)edSrb8UQEPckoLu4RB;(zVQm<~F&eV#yM(2Nes;jWLtFsJOB!h2cgq9Z|gM
zV<snZ0?#owIQEs4Ucl>A=z>Nu1M>s|s2FnM1bE9#aV&imys6|;F)^51-a1jGl1c14
zS*1tG>|{|)0^bptOfJb~#BokYb`pb5K%VSW<LXR~WjLNyjMI#eOPQ1aHzf*8A<r{}
zFI9tg0E5bDnXp~uL<Sy;qN0jL$d%$_3I%?e#%?r*CiFoJDML*>?kYIVm5Z&CY+{!(
z3;S^B`*CvsHwU3n%vo&3DQ@*nGdxcSqm>6jibGbM#qqo#YEB)vzxn{huMSq7sDtXm
zt=N^^L@s|bm&CMoGjVu5BvWC<1T=DVT=8DxM7ml(TBV$(jL2n+iXG^6t|&6OQBE=P
z8OVo8oGbuR0~A!iXT5-r76J1@0n<1E-jPVaL`5-xR{<Zh0%josKHvn*Miu)A!%uRj
z1OYg#p^z^K6du9{zu<u;)gbt=jQN2Ozzsghg%ED==`2KWgI^6o3>rl@q3CWXK6TZp
z#F<t>dbjm4!nL9jtIL^H^=REOVrH1&rWGeyIP}C#(xnl5*bGnrZC*&Ma0o+d!wo);
zlwjRWB;c2i;?fMssuc#X5q^afF=0qP|N8g$dc|y^w~#4x!w*47bobO`|KXP=`ng^{
zbG5fHEsp1Ny*GG1+ndd^98Yso+~_1!yO(FCIic8F{Ux!vlY418lgo%S-BXxWtav@(
z+zBH9182JUAE@wcR0$!g>-NkF6<nq|%T(tQm6|ol7JtdoR57EIy7Ri_6PL>;E<Zjo
zvSH9C?0-Ko^1HT2&5vH6J^s;=1?J<x<A$EQlXI`%oqBk@?CdL@7^xVLtziv;?uHq~
zTS_elms^gMTaGNX3@$YuEnA~c8j~exEiENW56lrgxEwiLjvRg*8Q3rxJM5oD2JRW>
zbaVS;4^;|uFM7HwCggJ0n@x@kz?iLd4T0T;9kq9rx`vj!&Xl{(EOnh*YJ070ZGO_W
zs|2m3alW`{X;}$I=3}LffpT<UDL6Q5e`58@R-bGQ$X2Ip4a(N2Y;BgUu8P;@FyB5|
z2_UQE?)9=Ivf_!(x8C_d$(nc$@W?a3_m(|-3Gmr>?hI9d1_5XU0}b`a&Y<iJ$<B!E
zq-1AQc6!%b){wp8MxKT>4@mFZ*L=twTM4#->fEh`!H0o|Gk@UL4SGCQv7$)Z!r5|o
z@2vBQBRv1oqN7!gr|$16#}CX7%ZaYi?!j{6=<Ip9X?JPQ%jKqHC1<1DwzstJQn~GN
z$=SRT?UAXdOvPlXQKkYi6_=@?OeJKhNv4uA)xI8d#N6+nsYC$8{F{rej+N*^u$Vux
zAU(YN=;){IfP^TRH3iv|SlCnc^sL0Y<v?5xB;-I+4n*WYvmA)ZEj{;tP;NOUckEy8
zI8^R9RO&zT>8YiTiyK~B!uM1AMhGS9n60}kc(g*{N#0m=wQmKv67Aa&0l*Kgd#nT(
z&fff$MOVv~i5zNK4t1169ShSB+m=H8v)@^X?yu`aro!u98}Sp^iZ3(|@pZ__J@>y`
zPWH{YR^kIYBE`W11cKU!e6jhr%HEXR+<kw%+}uCsUWp&wVbZc?vJpUG@bCsCH|(n*
zz1Igj1mYN3bk)|krjRfmPc1k0lpA{<H}2gqIU3!cHSWDPG<SUN9oZkK=*<D&n!ytA
z!D96K=Jwq)%8g`UM%NJNLVc+wQZ`r!%T%&VB}>hH55>pSU`-uUn{}+X90?z+($?Pk
z<&<0Zt@*JE1k$<|1nHiABZd+$X;E*w!cnhzp!iT+P{qsOo*m2}T6)p7r>1JP(OS1h
z>wGp^2z1S0ts5=q0+QHETEW}3b&ppKAc?sFiN6Vu#N2nzs7TU_u1>k3^S-;>&_8=l
zj&&@|lw*CfXKT08vlTFI$5e{+m;L>9vJZOjDu@kecwirHLV~Rbj}4GYKo!8K@OHd&
z1_JQMOHGF#?Rk_a#a~_Woh~^~%c10ZXJ(7<o|hfLk}>#n{cQ`peV?vV@K$`fz8_vW
zPuH&-px95>FX|u*PuCB@+(rER>*HO+z2-k!yNCPCpM<@`1Li-4z2|l2zchKzTg-p$
z_MUf{Q>M$q!$Ja-hf^Jjg{Im3C`~J7U>xv;QNUlHgk!iNXF8@0N^p}QX@?;>dN3bQ
zJT*r$>BVeA302u44V)3U5)ef7w89iaiPR2m^GL{tU*($`fm01JOHmvuKURA%mr;Bw
zx2128kBsU7<~NFokXn`IP#DCvc`)5kVg>k~NE4ohffEg&wj>D5aujbZk5u~!55lBM
zF|wIaQ5eFaho+fa4n87cwpyfV;S}yQjq!O#gl~xXJg*pvqM))Od|v++twW21D_GAu
z2<QJK&%G>6z$5;+R{SS46@yNv`<EH%+P*-c&yn*B)Vzw0ucE$HbYc~~vWkwbqMlVW
zu!>q&QU5ABy^0P$+1-8HK07oQocENxon_~)CDaXjprJ|b>XDOea%+ct_~@E{#-Izy
z9$&?Pg(sB1V!{F}dw-~6A)*yIsEUn<b`*$I97J>?e|WAqe{yc>UeCh8vahq^BK>aU
z^nNgKXJ9^1cEl?l(nq1j=8BhyKGf2&Fna&M!uT%}58KMkhbjaCYy)#}BZyUm>k#mN
E0jx)}p#T5?

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/base.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ff7d2cac40741acd2d05308eff0553bf9c8af2b4
GIT binary patch
literal 9571
zcmd5?Yit`=cAg<Q<P16FP$VTwvMf`!Wt);LIq~{!CE3`Po$Xf6bL}byCNyVcQRXW%
zBgbM!fD5E8)op7F#a0RyMYO*v!2zQDN)`yP{<+&0Sklsh?7#(F>@JG@W2ywZ*dJ}r
znHL{Ba$0N)<O00++}D{icfNb>Ip^}9f<Zq4DdYKm`mH!Y{1Pix@|wi<UjngA2*ea2
zkb)~iPLWW$Gp?+A%1vUMC*#RdQxwpY;LUimz9}C`xCoJ&4O`3_rQmx&8Z{Sji4f@b
z2!Ro)2X3S7fjMxB(R=;S8xR?*cgjESO0dPlujZAcG#`ICFQ=7sK9|hIFJ^Cuf{@PL
zl;bZZWifs}la%Gr&ym|?g49A%K9%K@X+@Oyd_jg5`uv=%<g-@_pQAL;(3LC{GV{Eo
zv*yL@4PMDhsTnQYXfd9UGDXyjkXhOO42ZvgWfBQk9%9NRkW+5KC3*xm{5<fZL|7cr
zEBHj8<Fe2KGaV`s)1=^kkDX%l@idH$H9yXvr#(X8J<n7?*s0$ou+Yy6LFf4bKFcG7
zU`((?+##nzuMr7OiyF&nFC{Kyaqx<izL~})Hr63tXe>G`lCdPC8Z#p%1zt`UMa^$6
zn2^qDyRykUyfp(C)fg{po*Tei3#Mg0C+6?)vNE3$HA+zC3!>(gL}gCOO{RQJuTBAt
z7}-7t-|GkDGNIU=i?mAoHS}B9AqkaK3EpK5P+d?n@kJ1-8)_cA&jU5&ttXX&nuU8p
z^+L^-K|r3gJ(8G>T6CkdBv|mNgwscsJ5=9nXJfoYsa|VO;7pL8nB8UdHA=yy`ULVr
zx3wEcLg}%3XL~KGQCiY~+!joUc_QJNoX~=)ybNC}$ET9184=L$FNl(ymK8Cl01_y9
z4(b}s^XXh#;du$QgcQJx#Vm*!@{~Bpw9uR^^3$;6X41K7nAgRp^4Y?iB0|~p7|o^R
zHBJ(5;&UYa#@sXvmhi)9{Qv|-N-OzX(*_g;Ud$zLWJE#R5B>TUe#)Q(qj_X8GyOHf
zQu-@v49}-fNASGNfCO<f-TmFwF(q3VE2IlYK*!t^l_PiNPM$t>>!diAN#7VN%quhb
z+}Q0*COekR3u1;B?}({6P!(gD<UFk5Si8CyL!^%u<|X{@#Xg5UHfk+%2aJ&a4zl0g
zCBBRhOlZ+pp}V)}-dfMTlIO2NwcZ0zaJ56vl{{PYfm*B^s!VOq5LSC@oxM=?*CWJU
z7`8?4eiDvV!^4&E@Mic(iK=nYD!1<ux33oKS-!k<dF742y;8dPFEm@D*(%*vq5D?&
zHSr-;ru(+&iC?k3RrYj+J-x}Et-A>(_zU{zHb_RK>}>@V+z$Gt{2L(Ph#*x`F_k+(
z%r=jNeoO#iV%FY#Mw{O5ZfxgSdjmH5KlD5>XF1O=0yc{v4VDWo)dl*DD)yf@P#9Nc
z#CSS)8@`ShpO(b8=fqrUe)OinzW%&~f_{$KI;jIX;n65V`FoR6GIvwdp|4TXnS4@7
zxTQWAs_y}f2DUu1lyMmVL(*O-wGMj&SpCI8#}9Aq6KmMFV7B}MWOs==OT>27*zm8y
zoy+VJyYkAa=O4HqaT^_<4gO^K$HQCUiJ!)PzV~N)E8%NjQ0`#p3pW+>muQ$4?k;gs
z9GIl+Zvhosfu4cZWmGZEy)Xb1v^sn>TRD-6tty?q63n(0q`?n!#s1#2y0OvdLFz;D
zf%(J*R}*(sGi?d5<5EdW`7O9r_bh6kwqz;21rPM&hH6W8Kh^ZKNZTN&sveb^b_s4k
zo+Y1G_5MDtK*Pn8IUx?pG_GrwQE5L+FEZ(o+4zy?;_2DX{|nMOskz}mO!%e4&}%5r
z14s>GrYqHhKxtkvos;LXnj83PZeR)&V9sY??hp<k6+j|FP8!9zW0>uMOva<iRAV{}
zB|JllLr(=>i-LX;xx5Y8UE)b}S2dcbL=$TVK1!@7HlyDv(T~}Vd*5CB?n<oMbG*`X
z{IfTH^5&1<++trUkrqbZTpL)swi!MF+9njemtIVN|5nM}L_P*AGfT|Mu~qlV(AvH&
zLodZjtPWR=f}JVNw`dr|j;>+;69^r(P_`#0%&MeQ>#dXUhWi1h?JS_~q?dq;jo!u-
z<RYEifs1W0G{!s2;>^3TAK=)wS<K_X?V8k~mGDT2SIsMkx6>(6*H}_Fv?N>xN{#_7
zBWNvk)XQg+N@}L{H0E_<t2pWij~&PVG4e*aKta(&u%pWMSJ?h4J6K@{*E&DyTkm_s
z9@meWfeJTJ<qlQ2Lu<!BI=g=M5qILrz+iRYSY_Z?b>Kv0;Kat<C+f%QPmlln?9a}Y
z2Tp7bTrFMr1>0Yzi10}r5MYUb36e`@MV{CEJP!x%Tn1^D=ii=7X3QQR&kOk!G`rI|
zMbfvC=SDuCkq&^I#`56Vt9f4+b8=oXb|CHz=>#?hO-mppW->evM?gQc%BUP)Ft!oe
z2NGsz_Q*eg?6>a`|K=I1dj=@~lW13+g0k)<I=kyWq-bK_V4XqAPjIn%04bK}?yCop
z3K8MXd+#p3Tj#JACj6nVI*^(mS*m+gtP@adP@k|Lv)f44`xvTojrxdPhdPk;E+2J`
zGzQcOq#wq9qnG-U>2jt(L_1mj!?ptZsMSLe(L-^AhvIJbP-bmo(dI!2K7ls969&8!
zT4V&j=ymc<z+H20XLo3)i?Cw^(v&5*!zlEgeButgcbKDdo_3*)JRL@F$I|^%EJFyf
z|Km6KL!_ex?mcQM_>Ge)3{r)@aZ+`FRNOaCst8CG28?!q)er^GI-+~lQLq>~HLgv`
zKHWu;Fly53{n~~$9{FwFFL;dT{esWy0^b(Q7Vsub6Pko$W1XCYg8{XG?tvs|<B)i&
zM`x%&e5h$p+%+_z?!t7py^QU?T!ZoQ0AwxhOO5TkUo7uG^XY|$N6N2!?<=>9@f*iI
zV+96e36CtzeM_9zkG2-aA74ec08YV?wv*jz?d*jeELed=Edb6nHEUb2&|oHX?QJWM
zR_R%XGhAq~1+RlF3(SJw`D9-RKsz27Z3*0Wuv%>k7Q7`4n5mvWa~WD{fyEZpBY5qW
zpc1f{sI1DUe)zbiMY6yucp&M?NoT|OV5<e|WDl!>hIOyH{`98ma<ZEiLeT#8Zv+;4
z+Z%D%((*>(rZ?i+-iZ5}H{#Ur|KN>6_8Wn}pu*b19`yb0$hYG!&%cf#y(77#lD-Wt
zVYZMFvk>usYCadwPsgY8(mP2>IGh;OeL`s;EUq+!*)U|IlMrI?L7YQ@FbTv+W|9!B
zV$(T6gaDS95mR88r)K7Iw=~b~wD^vM$Te(`qd;jsNz|t#I;0EOgP4~tV%FG;XxQn2
z70sWU%R&V57MLuW&$QAT2EP{2O=aGYfiWslUeWvpS%Aof#=w3uNBEG$ei{kvmC-jc
zcXy*O+}Dt~4iJ`urAZb0+jo3xzX+V<lVC7`P1r?r_E%$rmDu2B>`;lRb@ngwOZ@69
zmCi#Ye=V}N8X2iXM%G^0U^XLXO1@gOcX@nie6?fEb$@&_I=o1i+@;r^bnRZgwREc#
zsDZ!WU-GY<S(VmKZ-$S9UlHqB*}wAcs(<C(a_>+jHjK~c1&6}_qd<B0aHVsk<bNC+
zT06aw`t;bt;AU*H#8_U(>DAeC?=u_HR`^Uc{9+~i;={9>;VUHyOgEM*JzwkI{Q>hn
zQ+lZu>0Ca%bl7}q<ap_Pt*hm!UBjhIwOvh5-8E9W{J3jm?W+0IuF2A+$B|vjiKWEK
z)zz7D-`K{hTai=M$P1Oo3lDoXBYy-ux!C<wsaU3abZwY2cQvdfLEui)b>3YdcG7vK
z!guu8!8d8<2V5{gt9dXObt8vX2e18ssRLo}kkTa>nV_WaLE!|}b&qkTw8C0O2@qOs
zpfYyf&Y&{-{~RV;kq|JMV-UNlK<tX`tg#(6mV>~^y~)K%EUqkGfx>V^Y+{?E!~Qx!
zn`ceS>e`3tHNfmnKBe@sf-aPvoYvB5B^@=SaV!%~u@6{zhd2kcI#}S1BOQ-<)M@%<
zj5|v&c=UjA)RMMQsxC_t!U&IJ;Q9Yex`caD*P#$w4)7`cu0_9j2}oTapsp4*H(bSl
zu7p^sw!0BNZixWnm5u>9TQy2=A_H{YB*f@C<pe(II&{f+)*}K<2(p&mO3ew$-wVZ#
zHuo;$^i|08Kpem;(EljVj}efU7GFZ-RoN32_Czh*13Ib}j@H7l<<L?HifVXYCA`lj
zz6|<;A#n3hZ{0srX7~J>9)5xm*FzQh&>FQxkAlC*m=Rb9c(>si*fHoehC9DrdDKDt
z9pQZqV1_EDEj2@?DM03=HZ15kC=cL`XIfkOU%}l}KLA`4?l9XSoM$LO%cOdZkj}$H
z6O6PQ3Iikfl3LW^-at1so75R@I_WLUbVIgPdj%|T%%ls&-8-F!(D^AakY&hh;2e7t
zIHv2R;R-vvc5#b+_Av(6M=R`TGkk2^m^fPImbeCrI2uqCX`o0CvBWD}e6?ro;>NK}
z?qr!Zf+o(Y?jJ!S4A8^<Es-TnmEm9tH-CTCeK!iLZhi@1V5jy~2j${q99jtZL$P3@
zuYrXo<wB<mV1D79F0F-7m5lOMi-d-W0fIk43SXpMmtZKXT}{~E`c7eP=Wh+2|BRFK
zkliJ|VhQG0+rHM#inFl2W8Ky0!AkVt>iovwr_s&mc$po4!g5tMUSZ?S7<jr0Y1{J{
zp|TQwN!?&r1wy}waSU<((71rH4>oH$LHv;Td(Q$oByc<GblgF|s|fCfJ_hbgosK`?
z4)>={#sqS=W`jZDoh<t8`{MCpaKyY@<{?5pUhEx-?{I58Ui6K`@j7k17#@kY+#QdD
zdD1YW^>{iuN4hO-#zi$!Zi$Ne#XE|W<R!5n6?@xvbffRzfsGmQtcAK)VjuLs-(T)N
zycXOLKFNQaFCU*MvzJO_jb_RmM9Zr~6P2Nfa^g}sc)3Df);mh?+*g+8m*(%^Di1uf
zaiIF_h03!R%FkRZ2PZ1@1PtNAC0e%v4fPe1AizvWr!YH>*;&jEVs;L*1DN66hwjm9
ztYM~SMYx(2q;Y76>#I5NZ484=$NpP5I)&Ly?03tGB+X*=In17itU2QOZEVEsDt3Ga
z@B$Ifx+`FYJE1hgok$tsPNa-*CsIbZ6RAeH6Kh7e6RBRp8>zecsoq+&d->ebxw;$Z
zCtU2Fx~SGEpy3H{hj4xI`pSh$Fkbgz6Kthjbp|OvMq2|&!K3ypt4nG<h_w*LSvjQO
zQCw*b*{!_s!S(mAuU)9@Ia=n9R+wl0qXPzPyDbUomr3Hl;V&2tU(XPR0vZH>NG*!v
z!y4Tp4h{w(c6`Kk00#`|eD}hOS$u(R;)}I5zS#6szBu4JhQJZ(l+76ECdOE6V~kBt
zWsC!k>H_yP2@G@-U#zw9#ipn7#Q`TgRL9Es-w;q3I7e_L0@4`-8p2uQ4Bc)2MaTGG
zz#hG|^`d>$wk9PH&h)}1YBrzK-EEDw{$8L5!gUO<6UHO=;$Zrmaf$Gpgl9CWQ27nW
z>TZ%Gzwi>|*e?n8*Tm4j63;>oFYb!o?XHrM3K=O!2RF%sU%Dnp@*25vc$?4(K#}WE
X-Dv#sRoCk-vZLIU_=-S6f9!t)NHnZj

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/common.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/common.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..af875c2b7d2602fdd3a329ad8452e96137ef9b3d
GIT binary patch
literal 6616
zcmcf_TWnlMb?$3lcOQOd9lOc3ozz(;wyD#kNeL}^K;NcqBA{+yb+h-beeJuC&b=mC
zcP+V95nc+)8j!q2NHt$LN+kLT5+4<R2qboKP?xJz3Zi`UZ-Yxe5TcwjcVAAN79qrF
zcjnB@nKLuzJ@>bvP=G)&#W#&V_7L(H>@-TG4s5?G5VB4*qH!jf!In3<6hFgr2n(i=
z5@$pPi>8$F%y<~gncf*M%uA*(<)87hF^?HY$uly8y=E{Knh9})C%Rt`U+3K2W+IwT
z_s%PgL$q4Wzx#Mn)B<maGoAm%IvLh=-FIDZ_x-fcea6Fj_kGV8&?2x`&;Mz!4%n+#
z7yU##qIK%L*0uYIlYBq0SL2qvQ2Rd%5BS{uhIG9ykeNO|0s7-wkG@Cig@2zO)%HN^
z*Q3dR7JWmS>91q-!|2|7uwX>r<DMWH)CK^5KpO-a55OPk?SnI)Xi2{TeF}&7!>u3C
zCNu>o;3-6H2&nGUhIhZcHgccw1NRv}2&a1RK69fedyPwmwL@@<{r~4ZW3Z<Jb`;Xa
z^!?h1c3_s*l^chzi!RqVlH+2NA7W=Z#yP&Ts%fg1OdVh;p(f@K@F$J57Pqo`0y?sh
zHte{WnVr=sbUPA@l<H|ao;6iFnV~5d>(>mbC+s-YXAR5NX*{uL*_l*4lXbW&j)&^@
zB26diM$L{PK@E<CZ2uUlb&?0g)1aPblRGQTRZL-tC*<3_t0c=DuJ~+xt+j%;aX(h(
z>#S(>vCZ=`$#Y3w<8O%9VJ9r-Nlcoa`0x`bAL7t8&Ji>t6%!oEnp3m7BiR|6m~(`L
zYF`tmA5a|r%0uv<vT!p+QU3ALq@Bu6W{vE)t<qWD9>22q$jK86kLZ)8acMG}v*$AD
z$#0ovYBH74bTh7B(G!b6cG6UHI<+Qg2G-@`dg_v{X-0Z>GLcE8GU<tI&XIA>*5heC
zbA|4K{rcc<%|Nw6s{X+0(Q?OdacF&XZL~DJc6g(+(lrbtWqG*bA6YrWFpAu|cg<Vk
z*W}VGl@6uSn!Y7>Ts>JhS)|28X{z|r#+jS)XjvTH2I^#YNv^<5Ly{O4zAd!NN)vXB
z@pe-i=Ih)>%8k;LhIm72NMjlG1NG*vqInwO0_5eLo}eK>_z=m{AXZ`Q{tILn6KE&E
zAUs=5EI8gID6p-kX*Ucu<VBH(P0r3{?RmNnMg|e(X{hR)T@#8!MPc<sVW7##qF8*W
zD6XC?46dBH<qKVv3v%&N@qB5x_|(SKP2Ynnr>k<1vGm0^zfcyVG>SV3iHzk4mXUTs
zhQ%Zqx9ps$C)!oCX)N!;t$@Yce3N-Vqh2(w!G`&!qBrJ1y~%D$-&g_W#Q)D}@_B&{
z+7M0LGVg0Ztrm=!*90)Q`iU=sDlCi3Qo09bBv6=kH4@pFXUCY77xUZ_@Fy?jd2E*;
zgIV@K&m9%(qp;<&7tYh)b{>}Nw9bN1-jnx&3&0aKT|nCkRHwVjy({J$nNk~OOEyeJ
z=>W_zHEn6=1l<dRF`wgKOk1xk>iUxI@OH+LG&`5o>x!G0TTCy|E?kWoNgrTKnB$@Q
zaX`Up2rJ0n2<?T+;WOZoGE)}vA3PE(uA29$*{qq1w_Hq|`7;^=%n|ro??JUfYC$50
zuZ|bSOZ-+~;Jv`UN?>2<mA5ayb$Kf=x^lJ}2;G13Pu`weoqg*AYXhYhHn<IXvvaKA
zS>+37Zim9F*4o*kT0FaYrSS49U&Vpq>EgNKE5&oGxxz&l^2@7<LbQ0M)V=m(#Seyc
z?+9)X>A9LK<VwS(OQk4m5g9A{#y)_-R|~I}&TR0d6PsN(BS+qgJY0!9{LYJ8krQR#
z31)sftjq(KMLpa`gI^~t2bBkl%Y!yIA}Gj^Tlyq`j66+etw$Mzy(^C@FQ*q%z{LeU
zZ5>e%p3_wgKy2ccv7~>ai4B&27k(2-nVeLnTA1J-{zJ?iKIBp5Yje6ir&GnwD2tY^
z0IW<yuo!19M#)g+iRUkjKV9#-YS26$UMQQf4BN=0Ra0pOAZvo5T;rIU#KhgS&qD8o
z1YAAqzemqB!^*05VvZgGL`>`~RMi#o(I5#9Zwzgm-yGRo-jcyje!=yVUQJJ`i>5uX
zBle&hWFkYajj`u7J`YjbhMrr_L(HD0hoKYW=r}YME~y`DuyKlZ3rH@e6L@9%IY4|0
zSGXsujS*j@?A=?9^sR<JkcZ0RkbANaN|{AsSY=VPen-5dTDr3*rCy0QSlEi-*6v#O
z16YW@y`^`%21WrBAM|vsOYY{`nJ<(Hxn7SH*w;RbHs6lD1gk;Q`Dx~;Am<TNstvgg
zB!Ui~H9+tW!HL;@=@ddop}I@((VR-tah6ObGLSVg&c-2yqA2quE;tJnb1|WgA01df
zw05XGF!fIAUA1!jiQgUg{pfE-E5~1`47|A2b-ofjU-kLFckb$wg(r&_-kh%Z_TCZr
zpr=N7$y3)7Gjkbb;rQl^**Sy~aPMY856INzR{*qI_->rGn=8To!TR%J!~PpwT9(>m
zh2G<?(nf*#k6kEuY)l$i$x9F=>QToA-q%Mxc}Physx{`4JV-^Drikjs3=cg9up=eS
z3@{lv>xc>6FdYFD5Go@b^U{-u{wP+cp)HA_KrcHY^2@?ljaCcAHQc?s%8#mPcnX|B
zGVr&)2^Cmwn8=Z<V}-F>K4oJMn6F(v_UxALxov@$Ju7EF@{k})C~-QvdGsBzeEhjB
z-!x1IJuByMI)d*1&CmZtD4p9F+2npYx)mKO%VTA6j0u;15jQ-I)j_Cs7!it!33e3#
z^aFWr;SeA~8UV%u`QY+rs(xO$!8cf(XK4gDeb%BOEQ@WTM(1`{$%~NRHq)48DKCML
zr0LmzUc2*$=Po_}ICvjCbequXxu{2F+=Qo>siv|qPune-oN$#Rn?_n!X&il%<EMbg
zKnrz_NvkfdUM8+OGDAzL)&hMJ&|ZgsJ%O!xh)-VCUVpXf3l^n9XjS~6JGy>q?bL>_
zdF*EQL+_lebU*TobMGGg<<pg}Csv-h)zP~y!vo=&&Cbo!TOAWCPgUifve@IAoMa_b
zNLTA_26iC?`NO1f4gi#f#w|c{L%AHJR&9K&D?2V}l>API#V^4Ga8jIRnm+5I)gGVy
z@mpAa`FM<Hx=)Y84Dguw>oyM`VGMy+S3JdzNuL3{@5A3Z02So&-e8e?eW@Dhs><OX
z^{hwNqNRgB++UHEjiVL$!Ls<Edr5!8i(8Haxf#tl!h)W2{LO&vgdmzjd{4*O6Wa0C
z1976=Ei~N^20i$M#=)mElH!)(6B&=GXFbh;lvcVST(7T$=eih^mcDzIy{MH;R=G?e
zoI+5Cx3>aM7;DZ*Cv`e%DQ*C7Me2zFi_{n93`>EZnpTYTIK0{uI*`$+ieV0N0@YUF
z>1iYl-BQ@)08>-oehNH}tPHgj_jPaP+{n+A7#{rx8&N&0$1fZ9Tzm%$;zpWnb<IPc
zh3nGiu$so|D_A{`)eBHf$9N~wy2b>>qn(Ed@L8X_kRjdcvIgTVVr_BVeLT~z0^uLR
z-x`K$h5S8Aq%U)S7Gu?}foizB8jK*&H&X4`^Kr;qk19K42+LgE76Di%IYK7^xJKv&
zXznq{p-($ZJgF||^d(q#9oM4sg+SOrB-vHEfls+eOmw`NY&@-|bOtcb5KJxN_W&yn
z9~vz9h6Ci|Mk;HvBgS~6W0VksfEI$Ku*b%b8#p3~j0q-;>R?T%ml70>7uI7Yl*yPD
z#k)FTAeEsue6^TZv<;J@&vl<AGJd|8a6b@HR9h#^Mj9W8EQ)t?`q&_@wI<j*BhFxo
zX5ska>@xAV<8cW&o(oL-*oO`F28XN)PQ$WJmNv2s%@K^W%|f4QyP;3A7qezPJTae(
z?vEKhlRjfO{W^|Cv10Fi-zl(wMN@x_nlOeA#QHUOr<%ZV+_sN!!S~65_sIa%e<8uY
zl9Bhx;rGd@I{^~tEq;B=zi-7;^9kIc;xTliH3Hzqmwxu_PoLdJuoe`#{>Bu5jVS<Y
z;V$kZIHB+4U(447fN%T5R|gA&H3?ww(}4)<d9mjsJ<*yUp#bs7-?{kO#cdgTV`1*G
zCJBW1?tlBpTSsaF!sAmvzj*DU3qL*0+S^iqEtX)uHcWW$?WyB;ggxAFHPj2=dXBw)
z>aA1dzR^nP(B{LH&}0p#ZcCxngnNZ@cz;Dw{wBfbwg9VZJV3R_NO!b4GJ41F<2=>w
zzM25-ZGW&PK@0bgJ8E8pd}QBH4RP2Vwq=Br`cgT>9j=BtY67&k!<{t=T4X_}=0(Vd
zMEnQ^kO*SKyVN7E9>wo4uf?}RIHLHt-l{*0`}bD+2HbY|pxaIy{rSSR1qL^n0C;!$
z1a7o+48=CO*^43@tp$7G9`J(97eFom--fSYrwXTP62NV8!JdzFbl3a{1xQanQvexz
zK@#q&g%Ao8PhdNO(C2)d+$0NdlPth(WU=RxMW{s<doEdoT(SV&i4tyaH5jV~4^_MR
TOUKHcL)Gx)$9{?9nU4P(0CKP4

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/deepseek_scaling_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/deepseek_scaling_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..46b6daf471203afc5f691cd86fb0ae48a8135470
GIT binary patch
literal 4452
zcma)AU2GiH6~41Gv%j;m>+G(7;$*W<oWu*U7a9z-K!Qk68$hP~sHNLVqsh*-J@)Jm
zGvg31Yk{grT?<giLuJz<;l5Ok90{cI5T43IUn(j!t3>i@<Od``Rir+Q>mX2H+H>yg
zY>c%{InJDW&i$La=brDJGx;nYj}jn5cuW6GBIFBHd<u1hof-%$L?aq!kfPUeMGo|U
z5h(LTo+BEs35HM>iz1UnBUla<L*;NWT#ghY<!CVq{gM`>F)aj7n8v1qTI7;glmg_(
zM2lV`T8xSty!Xape38q?Z=*7m=bU6|!8B>bR%(W7Pgl+IZ4O3YAn{_=R?Wqy%jc=4
z>6Mwh;KWSmvZ*ptv*)@>g;p;*`xjNSqD<=*O(|7jzmlz2D~hRBW~h^4V}@R#stH}?
zno?G+c}KKLszIG#xzn1|UN9@AfOks91>kt<oo9fpkOtUjem@~5w;0g)23HpevGKHw
z=60{_^fkyvXB_8hfjacRMDoIviCh1}o8_LK`Q3X+pPbGI9HFe*vkq@mXYv6Pug{DD
zvvBiV?%%ToyId>O^x8PsW`^417Z)D+;iL19(1M|#FVq(8*=nV5!7$2&a#f>-LNC(N
zf?YKWhPp^itAGYH7ZvIowV+X2vnZWc&<bE>#jMuoL~YSYFss2U6wg5BJ~%-Nk1_`A
zP0|iY?{dGcw-fu?G5Ov8<;UM2{b209v9-zH7h19W`k7X&a6>5Uz+6&7=F`EBu=5uX
zegjse1ih^o(6}P61>n!)f+oHn1fLSXrv&gRL5omPi_#$ak|xp6T+-k2ZmY#%Ook@`
z^ONxOfxHi%l$M@8&?M8GmboMsBW#Zp?2*2^)|aLQt^blxjA{RCJfIE0xYQ&Uxndk{
zbI{42?O5?8&xm_Gw?4h6BS$aVw4zZh_nL0c=6<2RIF&0?xI1kk8qEQnF{!58R?e>G
zeo8AdIcn!rV<I;Lvlq@!l&a;z+^Y-Js!+qA1-vM>iaFKo9Q+Uy-6bD%((ocvtyKY9
zh=*yl1is+JRNL+<k@M76VZ^c>Pqd8cYs}{y*}Hi~H4H`5%T8pLs+wZyb?QVrj)dI<
zW%Z&`t6DmHN7uD1M>wxq)QRhsf*4gSdlB#^`;OK*jHua*HEIsvsRxk_Ap?|oj&Ba5
z1i_0;mBPT0g78G(VbDwiz<$dCID-wM;3%U;7_=@l8xhdD@N7gu>jWc08Zpoijf`vr
zn<vG6sX^v^aaVhHW<&BpzR`Jy{r%U*_pYtO2^tX$7ybyG&kxqb?mGRl+#v59g}GcK
z(BK<FLu`aL&@w<AS%e5Wm5-Vup!Kq?BTgGt)n=gfE?cw~;2NB;qUaUfR+N0g5iDv<
zn+I?UM6H=cb_iJx8Qc3XO82}xC!#1NL$xeLu@W#F{rfJxY4+g`$AHz3-y22~{?YIV
z*4x0oeUrF{$)WM4a4S6A9(@$sk@oO0YzNyzhnvFNa;N#Se|Sq8UOl^cpwK!{_&D>?
zg+Cp<DV^Su53XvP*#}$M2S1*?p1pbUCpYDD+dLP4hWlI|+7<)x{X4uc5QUv$ccLUB
zFNa#NwUl|ce&fiGuAlvM{KgAE`<f3#q9(@1?_>{jSLUMs1V_Z|(bJ8(jyTtKLRi-!
zje}L4OZEG()dF_co#%X5?3!R>;$Sp~(Ah)R_ziF`q~5!u3)W%RrGO?h0;nxP1%Qr*
zZpn1P#;armdvu-B?_)b-!q`K--v_;W=AjC`J)*OJ@?XL4UlNysnrNf<F#-rc5a?~M
zI?TVf&8`JEIyX=U>%l%4jrI`!{-sa@a#JIOvrq@{g_vDn?ozlBhKvxJVgdLz-VtQ+
z!_YWEjb6}8)RaMCfjZBzfqa}n$`K(lmu8)y%8C{baHBXE9mI)ws}&Y2@xph7Nd`-d
zhYW}Lh<O}kM5hyhu&hj*^i|90*DDv82sOd3oUp53uh`V|a|Ko)uQ|f3J~Imu++WHH
zr?9VD_|h(v8IYYmsK3g!1t`+|S@j40AFTJTI1SrccYr~akse$*cjerc)OY#0<>%VT
zzIHOblDLupX{&#DW&X<i*1+-2fs?I)lXqglxa`U#k-A)6u5Kqn@$5Dq$wZqGH%$&7
zU0eLap&Q|Bdt`K7zCP3%d#W{Z2J|n}6KyGZd1`rTSM&Vx^QfI$J_pUFG}e;Fc4EOy
zbUD)Gn=iZjNL=2MkF1?pPp{h_zH#-9Pe)pXGk=@>`(uB7?3Vm<3?Hv>pX17-E$QfX
zh#xxEjJr`1KeDE-kGGCJ(vlu+%cE;cE%_mwJn8Zz(&vUra<G~3;s`{HE+JM~9QmUk
zM|O{Prh&hrx9uT6g)DJ4?!u@SK45i^DAIdR^!0nk7rPtD=Fr>s&^6Bg5?BiCI#rJt
zq6Hwe-JQ)h_&E%+duXGh!)bfO3x-$$R(7Mr-R0k7rMT;aJ>mhT-D#*;uL*wYUkWyY
z5COy~!2SL3Du(fTL_aZ?8$XrP=WhQ82)=H3sGI=$591Vss(Aw0I5LK3yl`^@m=j`|
z`s5FsAk{0@LfPR<Rm;oSyrow_RqcGp1N|f};B3h5h<WpI+~f)D6H97omReXxbO7tY
zwZ98j*c3{;iozz=C%-Rdzq1VMFY5zf0Nm8TW-8xG<=00y?|Y(k-xD`er<!3O$3Cjo
zAKJYCR15w|r?yf@HdBRGs<5?hU}gNu_??gtk2X0-x_$jC(iLg-m+K?zuiQ*N+!Wh#
z>axD9zcs&l_Je2Nd$uJXZ}PqRwvw5Z$d$<I$u)lUzV*YmlH;&8k#0&1V|f{ior+qf
zisD2S1wNP-43s5Bd38ZGIwK)P(W)ir<{>_s7?Gi_tyT^1!Z5V6;>8KROe+?Ada@gR
z3a7<8bx#SZbf~8|a}0Vd#O{+`(UZZ&$gt$K+Q7cOM79IG7<RMd_*na3wmmf59@^g?
z9BSuA{&grTMn6yWyCSr1kYonk5K3VPZf*pnC`qK<7)lZuJmAJrlF3lkO`wz{$;{=~
zmtS}LP)n0TqizPJe$qee4xlth(gW@gO8Ze7M(F^U-#v&@7I(rkxH%G)zaBy9NiHi6
zek8gCn(IgZeBzT6J19bbOw6o{A4*rHZwQFY;OwUYEHFBF8BjK{ieQ#>Wc+HK@c$FQ
zVrkDSHZgKJK}ZtiYQ@B2$V4|bSr%kz4==^5WYL&ciT5_FE1mG;-nE`Gr$9y9TTcUX
zd5+_D!i1B)AktUl{;$Z$Hvy3g>=0nvNuGOPb<!o!tW(xpe|iVCJJJgrmswN3CfKsq
F{1>1j*M|TA

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/dual_chunk_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/dual_chunk_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e20ca4d5980a13f5f96cbadbb9311e7a7e977286
GIT binary patch
literal 10549
zcmdT~eQX;?cHbqr<dR%|h+m?<ELyTHQ<5diiQ`Yjb}Y-EQSK7EcUIh6(A<^vL6P#3
zax7+f^#N{6q1Us8!$C3*h3Wni8F66+I5Y|nAnIRD(LcItsUWd13KdOT<Ugiz(V%~{
zeKX5lQaaM|A(ub80Echhym@bCc4pph-t6By95w=;nCZ{PmO=#aFDRou<`S_n3dB6Y
z5gZvKhS9$vMot=r4J5%CIaACyX&N?7Qo|HU7zo}l&S(nC{~Yx(spbsCS%Nd)B{&Oj
z_}HlOJ}wCkTV}{G{WZ!Bg-L}zJ)KM?Cf}L*8r2OO6uXc}MN&L_V=6VSXX1R~w$j8+
zM`CPrbUHr4A|YXh<tMN695)uf5iM!Qf1Xli!(bqYKZRcL#4yPb!v>BVHgX2u#2Mjd
zf*-|GoS8R6J1yhxN);;2(I8`mpN+GRc(TL@$uW1CVJog@gF3$7t}|ld9CuB_cCJ>r
zfpbDRV<otH&Q)Cp=dQu8tHJlw;M>y{f`FDds+U*iju;xCTO&5kdzTt^{y%7^58CPC
z{CA0AH}th`#J~k$gyDVNCWpQ65#gW`9Du2F8qJ({@x(c!&71T=l@XdsB*#)?iFhOy
z(kE4DBq4-Q%@D2{I+aTCaU|5ESV#E?$0o<pykaZOMQ&_Tsh^D8W;Ipi*_l*K*CR<@
zaf~HdG?m$8Y9_`j6qlNr0tM=nR+YsPQJCbIHVb@eT8IxttrfG30vfHTjc;MS{ED0>
zQhMR6QzZTz%C(h75+W%QEUW?b5e<+ltww?njgT|xWhTfW-S`nH$Z0zRAzB~@^Qcrt
zLyp#SX2|L7OZheactE4d{~Vdp*UNaY%-5*#CXFipYkm1O@fQYdcL9rbO+qBbTQs`-
zuhqH+J<3=!wv0W)WE>#dT9(l$&LCPj;}es%Pr;~Fm!m}6E6JHf`zy&=MCO&`Xwk7*
zZiWb3htgDZnu{D&T+u`lrc0c?$wnj5QGO8iRNE9UB*&6yvMO%9JgN$mYfO|F4HY8s
z1RIS-CZ|e8e!Ykti>G)&Wry7gm7E463e5t4EXA?{@-PB=Edufkf&(Q^l%Q=@s6&Yh
z5`{`7gy^VZ=J;D<QC=~jUMSA!v>-rh*%CLvMiY}$)8GX(`?zn4OW<#yehKXL>5&m$
z2)h(hl8=qlwvKF;o1j=qqomL`wc)U6!%zpTE!}tAtn9X8WzpaylPsG=dPAF@JO6#X
zH#IrcJ2f`74}8-NKDF=m^r0h%Cl2wwv9asDQ!}a2M7;M_EH>FYnc(;s%irds(=Z&p
zvB(U(u->gct#^~Zo8o(>W(2fE(mQMIW<A>LK!ct%!4C259pXiRusUZgG96r_8w(9>
zS<}y*g~na*=PGo(nKiA^y9&M_WUYmkPLyrbN=riiMkusB4>Zlk=3==kPYymk`uJ$R
zYe4QASnV2=I?qb&=T-yfLCC(&xbsYh%yg_W;ctwD^(>jKzrT0kthD=$Wk-=Ftd2b0
zEYr<WOV5&J<%~o(uhAC@G^25Qmx3!i=3c7cR+B9-9a8w{%5)K|w7eh;R$I|rq5k!y
zN$CeyK+`|cf3N|AK}7X!5He`{!kg$XfB?`#ie#z;T?k^lQWDD11Dgafu5Xqq5A%)X
z?RQ+?Fw5nzt(0n2ub+k$lZMuy|BOL2fU}~~J5H;UKa?8fLu2t<FgN(nh``^R=Ht<s
zo*SzA;t2sY^lOwnCh_75n}lY_Ddva}iQnMya#X01SR#@N8-+F~!s}9@K`DzACea|k
zEEdA3TAjY?wDNRk?U|;nP))WER3uMAa)&4e2w#1Haew9Z&ogt(!Vhz%k6e#jOLd>`
z{-W!%t~K}Im%e{!{kvA#{o`*aqr>@)k@DHHbde$4!K_Q@1SL`ZbwEb<dH)7OJdgJ0
z%2E(O4{)ozIL&8dz!O$`fxxZu+S0I_Weh3ZuZ?5;tlH61(U8);U^O)Sg#5VFo{aJL
zrAaiT!TdPde6~E*d-p{5nHkeIZ6K=Q-&gG+v<pTtLv3T@l}AkNXU6<{(^vJ~qp{3b
zDr{)yhKjKTlvI9?^ft1l3R&wmvQ&kvZ5vs0g{*xWSxbd1BhuqKA}e=FLq~v!=<)h8
zU!(MLr)Yg?eHWC!tiD^cy|jKEl)tRLN3_4Rz8A`0R^KNwFRkx~@|V>QRE%{Myec|G
zC!949b}X&*Y6uoqCfby@Jiy(tg$3Csl%^?Dzm08|=>Fbp2e+|ZCwjg&+YQ^;_KLpm
z&35B9w*6w@d$Zjn){8;0L2MM8Mks&*=FKnwaBwIR=R$z=Ll_J92>W2d0N6Lek@M^S
zh37HQa0U$<FcuKdu_){okXu&Kco~SJ`6%?Dq!$u}!iXQ^c7;j+>J}6u*i(#P45&y-
zF#t-%NE$0`R-wdxRM)DWU1K~*-egmX2|#p8F-}0@sKnDL#j0WH6hh$`eP9%>Qh>r$
zViO8iSvm?=vlL)>XdV2a_L&iohb;O>c?#e>DxJVNS7jRze-i`A+qGt)QauADLOU9u
zT`1X&l07KtfFy~AZxi(2lEG+72!T|(cYFK<cJcWQztsVxe-U<*JH)!TKJN|7-tgkC
zr{TxpRqyLr8gTmjJ9F>kxQ`N#60+}L*81G(y%(E}EgX4r=IO=97uTGJv&QEo*md;@
z|8(N<#G3o)@>SVAn0LJ`yWTFiee<q47r<us5V=7Z+_tRgg_&^qu$tHNO^4*BL!VE7
z@!@A5t~oD$IVL-Qlr@4t!;Xi{115L%H~gm)pG>R;-&(mU2ZyqbuY3*jm*y_z8h*3;
z)2>gt)_iZS`2M!_Z(3#F53<&;JoWQkb6pG3+~HMEch>UU8=OBjcWfb*`|+x`Crdxy
zTHd_#;l&3R7adEtSDQ~tbi?yt%R~DEd+z+=?bYDntYh6>KX0G2|I(4A3Ke8s!+i5x
z^DlQ~&4miGLZD2pH+JP4d*#O7)yBT8tFSp2XwL^a<Uq%2Ae^-qHsw%P!gJw;E4ecZ
zLraD=&ue+l8?xt(f+sNFIoFxH{L%Z5-iJ~39)dyj+OifHGZ>m9b4M0NawAg9zNG_e
z-Z%2zBeM6%);hkUPzNDkr~@PPyP9cfdwBlA`P?5ZyQDqmzP!HH{KI_nWx4tCRx>SE
z&<k&|!MLg~)cU}hJGNw(+K#WZtp(5IgXiSnxvjMt&ZAllwyXmVSnm1-I@cj}9bcZ5
zTo)z!A_nV<RSS8cWjW0YGq3~jGm0fKGLqy|$*3M!g6WL{N%-tVn-G{c5TaomSX-YP
zh+hTJqX2ay@s}h=&eeeQbL3x{e*y3vG#hJZHhw3~M$y0-ICS8sa&-7(gBm`~P$Gny
zx0QnMSv4)dh0)piOu%>u9msn1S{$KUw;=1=O3`r>2M`#3v}pQSCETfY;2}jF=)~c~
zoUwv_6zAFU02c**wmhO01(ij!NNa(%3<Myn9Xfzp1&HG#nXRTpJ+N3dD_TVxI+kF&
zlxWfIqH(F-?kYjcnp*6?lNJaaq8^~OjH6`BBa&5TqzQ>~Mhz4~Shm~?rl$SIEy^KV
zvll2RT74|4f!10h>Z|}xRbVXyp6w!o;WEXM6(AQP9-?ssMLo<z!t2n^9sx~z9M}*J
z0tJyq)2%W71Bf?{Mj+sbrllHXM9ou-5sp*p*~rvXZ05JFgaicb%dtNJO%VaTVZ|))
zQ+y;PAWScyAr_875_YM$=3T^i4<(mTas?6qFKAaoCKL<oY?!dAyeS9>Dl}qZDxhzL
z><441QMR-N3jIh;sY-G>8U?I@RpPL!;#D)KfQ<@p5doI~imyUK=T?b4mclnqxUKjg
zB5-Uxk{Y|kr#ot5kIjO&pk>LoG3F>biMpoy)VyuZCb>^7oWai6xag6ZyCJ`L9g?M8
zpZ0vx^UQq;Jg_s6jourb9hIEN7K{&(H)+ouSa3pi(SVYHr$dj2o;i<YjRjxBLc7$u
zKj-_X^-(JjQsaKv*O#>xJpTJpsi}M6@<a9k3xpKtmOcBjmV(`N@5Jm0;Q!>oPoCMk
z3Jp6JlDUD8-g)$nyz8LUdQfh7BYUAx-?;Fa8eNh@eNt1OTz_Ep+<HR`Dr(A}1DDlv
zP}+C$=V$JnpFMwnELXqAgjdE;(6ANCT;9C1Q+9SjtSZlhWF{o-JR~!RmpfJtZx{_O
zTh<6d{)R1>3m{b9-7UMjE2}Ms<(;QxW}v|M3rt|cVyd%csiKVtH0J$%vcC_@?v$CG
zQrqF>BXZk-%$(6>1GcOUWb2#qfdg{jfG(R0FGe2ilbQW_2HJIK+4_a+GuM}-eE7nb
zr&gIEy?(tdYlr%+?fD%?<sC<H{Z5(bl)6r>oR_=amMdgi!T&dbaA;S)^_bjx3=8j(
znLScR|B6-aI4?67bj2YMZhir?A~0{Av#z`S1$Se?-BfV57u>swcC*8Yri}MRofUW2
zN4Vj2X48N$)F@u1<44XCJN`}}YDV!$v?YL}DY?J*AhrqD!~zd>!c@%#nnZ>$3|B*$
zj5fv5^+J00wkrXN{WYjaqWC%lFr5UvV^^E(YRes2<d@!C?pSrbCDCuGy{dH0$T05J
zWmrMbE3#T_k|R086MY-M29g;Q0EDU$OW}-Y8m}BTFn}HoZmc;{b7JHAeVkf~CG`9E
zj7g-vvkodg04>pDpcQsD_2v~?@?CY*8Yy#1hbeI?rGJr-F~b}(rC|&K0s^hYfJF-N
zaMTY$fNCJ6Dj>nIt1;!(MxffQzv{>;-*Uzh2ltk-h?Z(Grt-HE)!+bU*4hlN(J~}-
zgK6v^u~Wo8^6USBBR_VOVF#Sx(bcwk-}XMpD%R<E61)cw*VA>Xvr{j!VtfRy6VOT&
z&=gZ$DR!zjCV<?aVi}1=&_%amDX9q4c-<+M(ot2hjgD~~AIDzMUZRon6OJIAN0AaM
zy3B(6yAe2{s}e~RE!R%U>JfPuIO+X07iSH>{sq)ZTHyxZ4pHzn&iBvt=js*>_xo49
zU9)u7n0*giN8aA@%-#Z<w-=wz;0A)s^{sk#=RLi$r+3M)>Uk}D8hj5rx>YNjJ-zPn
z=RF;=r(=;^6eLf_s^>u7b6oZuUw(Jha}rm6d3k$BzWv~{_JhB=`1vvLbN<#`yX@cn
z*t*oYy0?GDDDOQj`%h<W>s$QXbARLf)w!!V+u}v3_3-lbHUFvE!F7LYcCg^`-}~w8
zPZzGQx_0JWVc8X4+_~!NmgsJESE{@dK`$5YO8*1|zThIpf!g}~TD{nU{b=h0_w6RQ
zGa)$y(ku77k|4T|PXlnoGVtv{wL=VOM=MvqB`MoL+V$G#2&Av$N*NBmJE(TEQdt|;
z2R)Rw>0e{?rybp)@&_6H>BjC*jc+pg)0XZK`YfYA?d}e3`Z5D+DSwrLv*iyn`ooqA
zAX@9X8{%+n&>MwJCeiq6muxovc1nn_uqcIed(Ej|7J3GClXoD2+3pN3_#W<futN&&
zg%An%Y2uTFbZ}5&&SuF1ZIxg`?8<iz%AJE!_^jkOC)4L}LH2|Dsri|?nfnvc&c3Bx
z`2z#;fdQ%SjN}-U=|NQ_QvzVk`xgIj`SmYOe0D-QdQoy*lIcqz;BseaJjn!f`55-0
zd;fT3l4n`P#<FmmJsm?d!?HKwYnf7sg=M)!6xc?<xN4-)bUl%X;X6t-oQS-wV!q7B
zlL<kMRE7|TN=;A2c<l3qQD6vYqkwQ^N)SFkl%sSHALU~)mIZXM7r03@|4*tL3vxID
zO3=$m-hz^E?-KuPI#D#WQa>Wsy@4Wy2n6neMGGcrqHTB4ib)$p!-{rHGDNVs=)fdE
z0{^`aXFn{uaMq2g)?w0vNG~RRgw6S%eoVea)=|M6UnJmfiTafJgxNr3anFA061hk{
zWgY_q(Zx7P?Ct)>{wCG94$+_EbH|Gm(9k$AD9(yS3(C<1MEb7HUMpHr&PG5u3PN5v
zlUxTl46zu(=E_c^3JX^rUVCs2rh{zl+;E_>3kGb#LY;=rmrS5cg$<l78^PHvRxq!Y
z8C3Wmo;qq@aSuh+Eu8)@0{+xFgI)yq5PV{5LEk_0Z2tbCCyGA-WD`>Y+OrfhTrE!~
z;;M&2zDl9B?>_KLeN3o&!?@_UI{n@h{sgjU4kV95QZ$kzxnUzn$G;K>{+;NCo*KM&
lf_c&-lOD;tf0gWeVYpx<>lSWr5a@ryNEi-$gIQSn{{i@HlzIRF

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_alpha_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_alpha_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5fe01b44e6e155a4751d64b63c9d8657566b63a3
GIT binary patch
literal 2145
zcmah}O>7%Q6rTO{uCq>@I8Fm?Q@4OB1GWV%6i`(GD(ZnM6;L5$4x`P^BwlyD>&~u=
z?K)}?k+4;v&;vA_=z&A3L@Gy)+_^MrrADhBDglSwT!o5?3%ps|shd{iN&Du_d*7Rx
zeSg0t5^)6N$X9G#LFjkB84&Cv+Rnpr4G}~H2Ne+!iR1_su_y{iM5hpumk?2?xF+@B
zMX4cV)h)i6-4cLjg>dXsFECl-qskm5#C8{~9<;}k{mphAgs<Tyii!e3MUe<aiHKAt
z5_~dz3RQ?oRT6_$qp|Y9bLcdpllXkHjphY1vSbu>q62Pn2+$YjMPe+;#gR6u3q|8I
zlud*)CmXI=v8~y&AAjIfOXjXOH><l88CnmhODM^FWe259-#Y{D8I$|x<M9m8ho%n@
z&&>oSn(>&uV7sQ1*?pE>sXDYm-M|cN&&@}kp<bdU!M@$3VVp$~#Kf+Idn#rfS3Te6
zP)r9w^+S0M?g|sOk6r53u^%)X*!q^~K+JLUs8At6qe?@S(V)iMSxXy=4VQTqw~qt+
zPPm3zY75~VKp+mpj@Clo=m@ohme`V7a!YB&*3_O=Kn+OwY*u0hC_=@rRVfQKjBVEr
zFwW|s>{Dl+#lXt=jSLP#jMpI>;f%Yn1h7!Y*m6wY$Jpl>9!*Y{|FH`}rCO-k)f|-7
z0u6HY+Oc=vId_Z}9DA-%Z3HFHEnIM%N}=Kr>R?)@RxR*Y!7&?@`GtNkcS2Vnz0_kj
zIM<64W?q%%s|_{|7dH<-zcliLpBn?Pp9S{lGU`sEnb+F#9qq+?TA~x%(55$y^ta7h
zFTMB6$zOA~KKcBiB<k^P03(aH$$)s<MM?M`w2%T+9$1FfMFI3X>3D1at^9a5kU-l{
z&OpQ0XKRVjgj6&k6HQ1?6JE0@0+Ppn7q!H-{<{~YfM+hEGEd(wY6(F!X1KaMy2}XL
zb#bl#FN^ZfNzZC;UTo4})GR73rJQ>DytTe+Q3ZSYIriAlZBtL<p!{PnDCBiz=Y3jB
zgJGf0Zt(|ag{V%Oy8U`NlRJ^I%Uk~f!N8NCPqW5QWk*HLt34dYmRG6P0tyXr0namf
zK2)GItx~9(%ybuMsLVT_8H6geUB6ZdCCl?e$+umQ%pj|?34TnB4*`d|QR9T#&RIeL
z{&1+z4gid0I99Ptt3;pZp$y|gF`U|Y3|s<}#>Ek|`PTmx{NNv+aGQZ6{hxqcM)xPC
z?oQ-4Ci3mr=2&XE(P^w4y}LKJu{XDAB$v;0&a4DKUi#tE&*K{h-rO*bJdnhF@drpu
z#@ljNMU&HaQ`wDFcJ<}ksX|-3XN)hO?wnrPv##76xiNCbINBEeNT#nDSB;e~R}Zd!
zaXa~TTiF~<E!!RY%DJ{QB;Es@epO#Na$Q<^b@kAlWDbyHlWl|X!ho?4lL^K?#W;*(
z4CA8aaM{54e9d(FmKeswvp_A`Zou~Q$jNh_=disXMl}%4iBLUDUEgEuFh?Z%)61fc
z19MMcyi$GMGVe#hXS^pP#+%FcfIV754@61Py77b(zn_}wDzHL4($n1-mo#+fm9EaE
zI2xPmj&R99)BCy!E{&q;{oOGxB~dcHe6e$}JI;3#C_efy#if~ql3rDA8aIr;5r|O;
zq8DW4-mgScm`{*Mdjs_lQK@Lhd%-!u-T*uQ4gUpTT}cpxZ4C*DKheRz)I&o0I(~>?
HiCq5!WhwlE

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_scaling_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/dynamic_ntk_scaling_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..919ae68e495b2cf22de99ad7736ccc6087a183c7
GIT binary patch
literal 2300
zcmah~OK2NM7@mDeD|y$FEjw{Y8gJY*twL>)Cas$iLZL1tG#K)r6!kEycgFGBt6gPw
zm0F5Sb1+mU6gP(wAKg<O9B7U`_TEcGQf!tS0&Nez$+)4Rm-e5PR(6abgLdYd|1~rJ
zOTX!Q8o_YnyLJ`OAAA!Jr2}@x0Nh6e5y3%4L_{JvLP;!&0us?@h{%hGC{$dR+VVxI
zD&!Med^5Qvz?>Jt%vCQiS@qM>6eYxVZ&+>7_MGi(cIE+m3nx)j6bLGcL?}u`q%x7<
zli^dSLJ~AVlCY{YIU8&4u|`rPJ)Lc!X@T@CYQ+>uf!x3zfexG&iMA*gdm3n7C~DVG
zUJs3ls%w^PYx4T%*DTY4Ywo*sjqM{CbUvUip~U#w4rXF~0}L2`+rn5nZNT`1QDO(a
z5qL&0LyfE43xQGbDf5j&r7-1q*7<S6bP3<ll2@}G$BZ<?)C@HV_U#%C(=75LCUz-2
zTr%fz+4Jqd_FPP3$NHf>W%@MKZ6CYTo5y}ob!gbzxelH-t-xcULV{|Uh6zT43Uend
zb&rEM=AqoV0Mie`eN<1>5$*~EVhoqmI{Ge!P+h2tb*V1bm3neL(dG)M3UQyzOH2bo
zsQ8sKWuc0(?b-px`BW(T)R|^U;4*$914D@MWMn;j;%ZEXDNJE(Ii~Mp>~k6JPCoAZ
zJ68xw<wDsmk3w$Upuy;TW&HeybK|t&*i(gaHJI_-!Y#)s6-pkV4yN<es=(_Dj#&lA
z7dqbT`mR9Q@yBj3hhv8^uT00vRn`Yb*YdB+kg@oICqdlL!}RhFY7L;_(T4m~J^D=5
zmy%6&Xj2>fzV`UdkA9i>b@cI-FJ4GuD!l{3$l~=94_<#!AX-3$Fre9(vu6crHz2#@
z8t5(vz>{}rF*;bIE^wWL&!|B}4%Q+<4MN60;CDhFpTpOKsYHylz-kRbAKg_1NgmyO
zqb{y@JhC7KJTIa#%adc@s0#s4o@mVW#%OnaD6Mz=v>@-XbWjJ8A(f@Ln=L4HWj42K
zCr0ZXu#f=$U`*XzyZq#y(+=(OV+6&OgkGdPOmy$3)>Y_7$w|h8zr}Bz7ot+ArR;ZS
zjnRvSJ-hWE3}~zp^n$$BE}p1lxD%p+3j46-mCBWXLe1U6(~RB>707;TCQO*jbZ^j5
znRYxg2ouzH{Yoj6EYA-m-*y3+K|aO$!B&{$jmDvFRGXpNwIu|g4@P}9%#Sp<tYVqg
z41J|c4aS>qc&K|BI0U+xizCt6`0Fbwe#I+_XThldJ4{esX_Py>(LdJgAA2;gab}_k
zzy66vax;@#t}azK^}Y?=XzIr5cvC;Uc70>?QWJjqCE#ylMw*$C)ho@+sclKn-+A8K
zzw9k}s{=m`|2X{UO!LIKX7BskN$J@5Hj=XA4Y{SFfuW6DzM0FfoqUojG}LEW-}2?9
z%PWT;DnIu;=y|H0YY2a42k&e5w3V;cPON?TB>O=_+3d|N+e`M{xrVd{J_EVbz0}It
zRcYn)+Q`%FC`e`o8XDsX1^-CUFX11FVjQM1h9*{VIMy(}SuvdsCy6ofEFep^8?ZOH
zv*jtzbJ$UUQQAbkD@<IcuJ1ASHkZ&lJ=LO)1Kn6)Ji~onY9B}OV!W24={RS2Fuhzv
z+oGhXt+cMBpXUy>6j)mcG&s~sa-^b>w^}KV(kL^~>fuO3L&sV=N4@CC@m7YTEXocp
z-(I@i>f^h9l<s|z<LG#wGPtJvtUb{FK>#BcL^sIG?WaVU&HGtIeSq2$QFf^p+RnMi
k&H$f3!#@I3OA-WO=RG9of1wk9Cr$~2tKYmputci=1N)8{PXGV_

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/ernie45_vl_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/ernie45_vl_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bc103be178a7cdaddb5476260733d0a01f1e48ee
GIT binary patch
literal 4306
zcmdT{OKcNK8m{j4+llS?k%!5{17rse6Pz$%nPftSCCM<%EJQpd0#eJkJGc|S=x!4n
zwVBb1kvf_K$tmVU=ae8;TAx-qa-T~#VHIzSl_IV7z-5(H*vnpa|LV5E2@aq=?be~|
zum4qlef3w>-@i0ByAZUL<!A0sZiN1d2eoFc5<9~{EF%UnL<&tIhGeJ|ktU}|0@Ich
zm9|V-2t=Z@h_OCEjE%KCrA*r?Yk`Q`U*W-pR|I^cgx(R)<x&Nj&x&!rK(pyvG{XtG
zxR^+S(0Bfl!JkOqVi|_Z+)kK|%x_b5urmU_mJy4l2nJ1&3^7GH5#wYi)-q$Pr``x5
z#<CCJx(}b6w}X|9g_Sh&*O<!~R?}n$Og`;k><_F{_W!x491xYGKt^49c!JMx>>z!D
zzV_Qan9ra3VmxB*Pb8NWIFZX{;;9I1mANO!A|U64h&U{AX*QA^PO{wXq!^hSp5quX
zc|mv9tOVV9C(rT)otk9}x{YVWJfBHe>bA!QG)|VCzeBn$BZ-))6V^zEm_34!(6Wz|
zG^FHr=y!xf{b=^Y3|X^&+cOm2oT5cSGxaf46(qutS|#fYZ2#Vd)Bg9Cr&X^vp)cBs
z_V-1!Nbo6`$+6cHti+75p^UK_Q8*e~GG>g<eWXV66<v};a@JvDV{DSk4F~uq(oD~y
zTLK<~u--g`$B;i!RY{W}AsR@UCAS%y)MQ2>H8bXXzM{A25#jnU+f414))>%BUdeZR
z7lJe1I&qbhybX5^F;o~lG?W=T3P%sJXPUrkd5W(YXvLPgh<qlm{wuXep4|}@ZIb;R
zr2LrI5UGG6X@pcz@>h`xRFMi+k!mZp7DIJ$HA1RYYTF%GL!??8qG2M{Shhb>?R60~
zLaJQ~?T!fYo@_LKu><&ldX!CCvM>~6Z17!4?V%`=5^3O!W?J9XdXu+dtOcGL=+tHR
z0TCY|qe)>2b`>nbHO|}qY4r{$hCi_WuykPh!@1k>Ci6&%YKTrJ@c%n>D2e(Abh@zC
z2hr)SL#OK_(CPXBI$cutN1)UB1|3QQe5T3EC~CjJ<E#G_zEfZQ8yXY<6vL%?%s3YH
z=#~tObgPhz=UBZtkrilx%g~8<BFXC3L^7Y5)tl3NHpkKeo4~J>ZWXh9A_*p9JTa@=
zdDgV05^+(t+~wFg-I-+L4EUL6byu|p!BgT~(3?4d&al~gv>+BzY_vzW2yAMa$2U0d
z#2;K-=&npYO^exCHY4cvYEU`_gib+ty0aP!oqS8ev^B1%H`hpPyJwi(EuDj98cIe7
z>%yZs-G;m5+*@4?OPwb?tn-A2;K@`nI*gFPv>B>%y4!fBX%j7{IRJEYmr3U0f}lI$
z4X<k0F^T04Okk<d1JFd?-~M$gCZ=<-9GB~Z+V3_i_T9^$9QtzhBpXX{w_>@1n9OEk
zcT=f!ES+W86wTga6M5LtSSns%c_CKauQ!EAj5TVQ6ZG8_M3ZBW<qEoII?K<+d4|r!
zMeZ&;AKkysIksEX11k`|g^c_WZ8srb$HV&z_m!6C-h&Fanpw%L6VHD&q&kLF?@-0-
zmw!+l-SQ7xq3&gRiB>LYp(C=Z;&0vbAJ+VbmFt>6Cfh54@bampQ%cJkxp-<LaCE^T
zQ}X4CJNR&PVYGB{!`)p8v~31@p9gx?rd~DByVc&g+5VZ<{@L1q*4`(dt9)o2=v17~
z15vdpss^H4ojnSraLUxm4K>oQbq>hqE10GBo>mIwA??$V^*cbTk<(h|Z>loo;#x=f
zx)vRM)}r>FQ6p!x&N2D?*1=er&<-9ipMUm=HaPw)tzNmReRHkUyLdvLco_;W-&ne#
z^sa@J?((G<p)WT>r?t@OiZ8V6UUHYlN|#h$M44Fqe&zczxiVRfYlly&hlVuY&<;hm
zdgO0j+fbl=Il2@rT~n@>Cd>X8{y}-{|2_QH1Ix2Zv$7lG;97E(h82Eo@DHO;MmK!J
zvb7TIC>>IJ`jy~n&q@yvYPequ4#>_*C|vqNv8;Mmyjo;HJusk!j?1o>!M-(aJ+Pj5
zHn=%<RU5my5xgclUxI7rlCw0V%&6gkGXKIiyy-im`OZB1YQr}vTepI3%jcHPfm2V*
z!{kD8ab7vDh^zNk?r(U0EmIYLXfdH4_`G!GG5v@JLT&wA^Y`IIZCw;f<BumFO=_Ke
zYFnQcI3_z@`j4)iEni+gv@ULbeNp@R;)ef{Y=7wqJmeO*Qk!x_Z9fWo=Na7ejA)*b
z_3Im+voMJ_xR{XVRY%7T94NG_+Q+|?Mzs&+Jg)Z9Oto6Wnzbeo_=Tud2A9zj;zE?*
z@lR;f!goQp=Ry|n-HmS^eh3J?sdlOpc_u#p=|>!YtT+Lt0xlcO!ynxA9@OCE53RA~
z%Nt&N?)k4k%AbNy)TujYxL?vNP3tb2hRZ6S!gLc&-^s^QRf(OZnQVfl`4HIXwkz;n
zWO;a@^0^diEQcQj!4qUU#<BDGzr*<8Vp{kkd>)`bTh79Dboj_WoF}Z|EjTwLOC#G>
zpto(v7kVfyNZWQiav<24n+rEf<63iM8!K<SkjpFQu}bOc<C~9eu8nJ5{i?TLa}Mmd
zvBF)#aBQ;<zi|w7ont)O;~2Bv<M_236wD>z)kJO8<tMV~bT(tYvsUBL=5aQdOUCHG
wg+X_Wn2?V0-+}<Ai1EB^Qv^ZmxDe6&H`MnRbm+D1G(iljpA7sHVZw0mAKqZ=4FCWD

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/linear_scaling_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/linear_scaling_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..46b054391f8987d47e50caad08150d531b08c6bb
GIT binary patch
literal 4154
zcmai1O>7&-6`tkp@=v5lnUXB|M;bepW5yB**{<!lsT)HQ0yl=z+C~G&Q8%mIp|#R-
zm)>1UBC{-v!a!*>g=GYV<U;`!$U%k-*vB4w=&e8@)+)p<d~nhB;7h?;3Xt~FzS$)y
ziBa4EIQwSiy*F>(d-J{FAEMDPf~Io6P~JL#(BJ5w(fB&Cl>%Z3$w+2YG=XHF%&JV*
zH{oND4}E}S?jDkP;#*@q{t33gB>k`GVEh#WeUfov*L6!Y3S-$RBFl<)Tk=@FK3*Se
zeF?<RVJCtn7#U6YWM+bueT0))_;K*#2`~GJUk;D};d_Cb@WlW^a*zaP!1~rEhvaZ3
zUPc*4Zo3zm2+JYh>u%*jDC3hO_qd4&i2_GE;R%=VQSC4vy~nN91twx;w7^WnZ=htm
zbL5($5z)9Ii7FhY<#b|-L#SmAlLd=tGLiATVohU^0&#45@~LnbL%V8WGoQ=phGpVx
zUbU2*N*XLUBTANTm??Zi(Im37eoeoA1&gwnvxos=VgXN!bHvprE13*2hz4rCeHuyz
z@jSsA0b`omNV=Ie6%9+GG)-Was~WbZ6%)^kg+W)DqL~&EWvpkgk=HahH8$L!V$z5z
zo+XAxRGcFQR&_&kw~<7R3N&|emC;oUyNP&8v|vN<idblP0j42IEJX(sbg)9STt%X4
z>aYXJ!4$!J?8O<~aA)_P)7=W}9mc0*k`ck9Ni14eR8?##SvaNV_OS($&8d){o|<{R
z)m?bud&7gcfJIHlMK6BMGn?)vw{9&A1IxnjnL(UNrGUszy3`=PwV=@z&0C>Vc5;%c
zstXpVV4)#c7}lGD1u9r*3Kled64rJki&V1MkSq@8nvz8-S!_xcwH!!#hlRjPI)u{5
zOV&P)6isk~s_OIRrEfbJwYJ4%YQ{Hgaph@RgF`%euPdl0==rFwx~V|u)bL%_!w8J`
zZ2y>0i#41#38Z1hBydk4Lln4H3(&jCvQK8Xo70>zh?ygjrObWvR(TuT1SU^0)$3jb
z=rue=uqa8yG$B#v6cK+~&ojZhl!B!Tp4g}O$`7yB(`v*Zkj1Wrbo1*J`7CO?fz$c)
ztf=U-6cFZI^PJE$TrR;>io^+f_ezkJtaC6cE(kf@bgzT3lXVU^C7Q&EDyE<jeL*m-
zf=Zm&Ub{?(m#spMIDUgzc|#kQg1f+v(iF0{GSK~sSwa>CYq!~c%h#aS>XgCS{@YB+
zZ~JW|G*>NugYSOOM!)Pp$YyMx&DxyJ+kv(EDuZmqpaOc#j3;>~tN_rMmIyHB@EKJX
zEh7S293H@r7*0?S6iu-NAsKQwlc*U3ARZaiTq8s~TCt2a+EFnh3Y`-Y1W6T5QxHtb
zL(`77yZ_0gt!yrxQ*uL4fNm3OXd!>$-HWpqNLp2<(z${)t!wEyRn4Zex=d7oED$LV
zK$}*@0sv~d9*d^uL5w1|(D1aO=SV77Fgjt^;=r4#LaK4D_kh)WAG)vaqU}x;>0Z>o
z%x|;}Rr^!xed+Q?)xqzUxsBkF7s2TLKqc5yjdU#**WbGI+tJ?*t^er9+pI4XejP-i
z=oaWeQZs5Wpq_GL`cH_^5_o-P_bO$F2D8ohc{8+Mt8<o^+o<G&9}9d?$6DJcn*1X|
zB@R}bvESjbxgtCpO1wp*;I<j}fzcRwUz@j@nK(m(*wUUbjjVI?jVnU5Oa5It+gk)+
zDElBYnZ_fe6tDv`kd3XaQOrw0SWmRBf*0yjrO>Y3Xlz@W9kfI6JYb)2O-sYJ&tzr3
z)TSM=S(&8|h*HD`9!l-^?2z3jOetzd>}Zj4x7q9rWo~J9TO&4bk9_-bgm*YTU+0i@
zxS?YI7&f>^(S!B}oWv?f@=d}iKY_d`wU;=H-YK`)T!R<xbUQWf3*YD69Fo`)S84|&
zXhy>7uZz(9+9z)sdUo-#jk(!Va3g#_KtE&tkJo)NzvJ;6U^P>>WF95`<4MK^gJMV-
zoWVnvu`=`OztG_Q$pV%dH0hIZr$dnRY%XsRfSEZVV~{%@qPSo})7IhP{!7!2Uo=GR
zHZkbS((x0(tbEpC;o;%10AN6g7GT!2NC8&N<p9i`5Yh5kVu%)TdYcf@S|l7+C0a6O
zbWy#*h7nHKtv7<In3fZ$mp7-qfis>GCqU}~h&v4IO>H*~3~G#HR2T1RaQvRI(*}TO
z)eDmo(cl3pG^G_Y1`;kt?sUdMs-?T>A2=#hBu#MD7SFyJ+!{{ZBlHm{G(Q1kxr?fa
zgPVzDC6Qb`@ih53`8;v19IPf!m%}wb>cizgweR?5-<gfRGv)DG7#%#k*?p$cedgIu
zD%~UH4_?H(mLd-$%O5`(d-~zy4>#f$%U7!Lj>Yjx{CN4w-#dGku06cAa(GpI*7Lmc
zQhBU;;NVj7Ve*U9<&j<F3*fu@@anR;GO|3gI<?U`Tps&N;%K$^&_n;rzJZmgN3)A<
z)&At_@kc-1>_1!SKl|)TrT_e5q}qF8#jf<8UG!HYi3j8N$CuA<M2=S@-J6l4mB`U$
z^5@8jS`zi2-A<vC=~ZhpJyJ=JYz&NU^Xxm}zYdI6;>Q-5#mn0)iXK=@J&zn)xv)C?
zn@g3*P<3GRHD#iRe{wsB;)%s`n~Aq8iMOA}PCXfU7FfIXr`W~y;KlXW#TT*82Zj5E
z<wL6-8?n>t!PEcVY6DS|;_&agddG(Sdx`-Cbhj8B0>Ui@@NI23kU{@{!PPnGeP~vi
zR1|yZ(6cuKciuY1@4PV~zD?{7)lX65E_xYDY{rHvv7z<gkkJEE$qrimH8D#B!3hfj
zl;pfh>4+fQ$%|@zB_Ig0F2OVlk3R2ua#OmlIvl+`#!=AZ0)bnU9sf<DnYv+|gJ~z2
zqXpZr3JxbLl4YEylhOL)K_aRO&kn|*{}EjuyzlzJpbmCBigD(zq5JwC`j_tzAFN&M
z;NN|j=&tebg-q`1sRbw%M8^keAxec&th3fesR-&hQj1cm9UbahCXWuU<SV^{wHTd>
zqj=YY&+dO#>!70pDBS*4f>I|jKe)<2jXaKQAs}m`4Dz?vd<>sjJ+Yd9Cao4L?_7F~
zV7$e`$~Ikbed*ep<UDV<PbLb=?(Adaak$q#_@3wG%f<+-)4-dwdem5kVYbd8Ci)L_
SY}<d6VNxsK{|eEsEBrs~pDPdm

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/llama3_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/llama3_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dd8790beb5a08d569b821e0af3fd2945165e1c3f
GIT binary patch
literal 2400
zcmahKOKcNIboOVjf5|4Xoj7)rP>LE8g3G5(N)akj3W!vxS`ddEx>~&B#L3!gb~hvr
z8;Ju_9aRV-QH3MNRJqVoIdZJjOSY|KYsCQx^}uaWib{LxduuzPX`+s1-@G^TX5Rnp
z&#_pTz|i<_i+=?Od4WWG2rXp$BS6-PN>oN8)6JEcW>i+?G`7S|a|~h0MWXU|h$>KS
zlWX3a=BrFL@Dhosmkhux<92?fTZ&QrtaP2KYOy?%Z?ZOFvPEpy0Qm+aQUX%QG^;X{
zQ(5>p_;|{L6hRHpz+A`M*PFN+gmV$T5PV_akEqc?vPKGw8oLvn7XAAXxZC~Ty9M6o
z>j1uRjVv+Kkt-zI=_Wqcl#+64kLqq{mMW@j7MH0THhi;WwODd{OUja5(aoY&)XOq$
zTWY%eb;YD^tZ2$*sxQf=Rn@2~s8+Q?-3~LaXy6aIpyVyxa62`9Q7#ztMteh=EzZpT
zYo|*$iZk-t!rXvCtp%ezm5;n-n+P~YWV-<1J7%5OL7T`s47LaqM#mp^2q<=k3Io-O
zCLtES<d4;eP3|TLu^F4SIh(fyJFp4agM%Se2=r7oV8nnjFhWKr0ttXCm<ttZxS}i<
z%SB6;vr(5fsa7z8$btfl5CTj}1FbNk2=;p_B+GeCF-=)Ek!NUk-2VIPoK>piD#gku
zWZMk2Mwb@GJ|3SRqdBd3Jy)q(vwAsqQ`1VhlCDxsrb{%x0DjMDN|hRBt`*Lm;N>(w
z17t(5(BqY=5eI?G1N)}M@wREGlzAS&o7=?eCxfFk{x>n*7(9+^rZMyZuJ1Gsoy2wE
znHXCQI$~cVnz+Bbb@<GaiKnAmUtW97v7zubJVNq2Q2_!y<Hs}%yBJdoS^TjI@w^L_
zYcrdzsIIU!nd95%yDRLrVz#>nX2IJl+<`ZCa$xt4e}h*U%kLz(KZmyO8Ox{>>+=fx
zONQNjUY{R>_>Uc+kAUy(|JpKWv;T_+^ZVKb%B;$+1T0Kif6QU#?irBr{5<&HX8)Iu
zo1Z{Fkh)LDL5V772YhW=-$w`X*#Yn$cySqYY4_Onx)QX5(5v{VmzXAo4=_QpVWS5Y
zw@c3JrOJXuq3&+_ZN#s~-STw#l48xeY^CT5Pzd>1S6G~-2K7rX8#18Un^ozC+Ao-{
zw9};)m77$fWw&d$O|`c~L}WY+m?d2YA)zvDHaFA2mTzLkx2yNI(TkGO0G8iBpuqN;
zatI#@LbgMtJ&UK-E;{ki4fWUfsamL!9;~NNIO!9QC+ep!IWW_gwxG%~L-ou_Cv)=g
z)%u5*9hjNRTVm>YPyB(kzPPry_Q|7^({r>YHX@z%$e<G$d~~{gc-%QW{!3)Mk?gN0
zk2%R>8%s`d?8$reGgA)C<Wxh7*QFzlbYz3C51(~lN@rhjY_enZf+vz>Z|wqTw?4Tx
z*@(usdWW6pFjV`qXxF{T)yam`x0N1oq>+Y{dN@(f<Q$k%uF=(f|Jqvr!>S_<Z=9}=
zoO57G=bk2i$~xz-IMS8vARp`44vL9zE#!3*DFxOUec%x2tk7l4N{Py{8<u5gbPF2d
zQCYsRplGcVu2{BQp`huC1wSZV*Ng%5zu$GS%ejH8v~22z9}zd!>bZHUY0$ixX8f?v
zeA<i~HWUK^b|~`!fH!xD$My)}=RHYJfYl3-M4uN#OeF6f@j{4&NoU-PAQmNk883!d
z2ayu@Zmr((I+2n{YQXD4tef-?dOe86NqWdjAeJPVL9Z9FJ`(PDokHwrLP$NL9)abt
z@MH9c=%0wbLf|{dS2HUZ8C2Of+W+Zbqx6ryCrviYM^`-C^xrun2P7J7;ysUJ7-m}}
YO!Nhb{!R}45g1`o55IU#VDWGN0~bdlUjP6A

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/llama4_vision_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/llama4_vision_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..536541fd082d4c5ef14c9ed26a908536d4504e05
GIT binary patch
literal 5263
zcmc&&U2Gf25#GDw@lT{kk(5M9j%CrJ6k4_zD^V=Pl500|V%UXZTej1vE)HkjNhZZV
z-yIeGkcd$@D22AM6rivI6bRK6unecL0u+ey6t#V*fxhrU0~8Jdnj+|f-x$b7(>~Ol
zz2hmALaRwppety1c4u~GZ+3RRUH;i_w<0J}!_UGQ8$w^;j$Y_8vH2npw-ARoB8o<}
zmKY^ClB1$zj2fi~M50#_XSjhlny2nk+PqQ2G!Za9#GT=X1k?dSai32}tT25tc7^A-
zaD4pxtjLEnajk|msAY2=X8aVa@(3)UQIaEgiX-8lf`0>V082Dy<c*Qq@{EdR%$7xC
z1ZTQo8#Sx4W{`7L2$ab&gDPhMIV<-x8IrT!FpSn%5a;A<)%9@pr;OLkm=FTZPnoyd
ztTD0)Ryk(mYH!e^_Wzr82UxGoqA6n3F@gehO3M$TY>a*3QdkTp;yX4|v0UX@juFE%
zykZs9jb^xTOlgd<Q%o`;h9#K8@cQ11is1@uzhV!IOq@?lF`_gb<rSKfrjvXK9Jf`>
zK;fX;?1t)>#4RLkvF1!^^a}{oG?6CLRN9cH)5g0-jZL6wbcYxYkP0oPlDwdp873SL
zOAHe*D+ZB|jtSU`fYl2YT;a1I)Zhxop<-c}P?Qx#h7qyMKCN8;Cm)nz$zU>^JOsf!
z&P#`;Qb+pxCXVpIX!uGnIW1jH#DkO3Xe<~@aD0^Er}$7xN(jLyJIxDXu<V;HPXwc?
zQ<+KCtBjCH^4-a4!3j2J+IMkyxBfkNwPG7oUtLF!T*y*8XOhj{bzA-XOn(1Mt3zvt
z^5-r+rbvr*6NHdr6nH5m#6u+Rm5Tvd)yb!U*x_VKck*3)j-h18G|8bfir`s03P;R<
z-ey$>Vul=kh|L5j!2yj@$Al8GWJ=;;D<+vSfxo8uKVT5*fUWL;V$oTmfKRQ6jezg3
z3vMjpg=*%|u5Q_B0v{z22M_pX!_&0zs_Z$m%oRM(XD#cVXYzYr%z19NF14<lklT9m
zo+B{o@aD~4!2?r5<xd6@p{+<f4X(O{9Z<<tMIaVYq|&kF(Jj{z)!mjMrLCBcU^_cX
znv}|MjZj2Q+S>&_B<_~2M(o=;xCh%s>ii5<VW~>`gmXkevL~C-IHdRw4PVdWXy6zJ
zK%aznODz)K6tzUKyLOZ`seiZLW(@e8&cL^1KpRl7>Wnc>bL0%n<xF_5(vb4CzqiRT
z3Xjad8ILsXP>$uzoTXxgrnK>YqR0FnJY-6n!8a9_BY2TJ%H485(z1gAU7g2S)$cUF
zO=$@~V@X>g&wNupO;y`f&H^Az>VV5p6W~jZ+S)Hm#aHb8rp^lPzFoP#Z*tQXeLpL-
zwC^Uj-Cz3bj5TeABvCUQAk>^I;1nd_K!)1_1?chcUr(Mq36Kw=ej;GU1jz1T0Y`$`
z>khcpgrKEvoWvCxGHvLpVq^t2J`Q*ij!Vz?C?<gyud+#Ap+c;rP%x+%Vytu(fZ&=S
zDRly$<XH)llEe#9o}Gk=W6=bNT0@Dr6dq3{Qle55W5o%cW5&YKsN$Fm^KUY&s3x>1
zKLscwv7retkPsD0495dCYEDzkdOA~T;;9&uWTntmUQ|rs*f<mBrj&+?Q9#f5c$8Oh
z(~h%aijRlFyvR%`+q%<=33KsynV5zJ;}L}pu~<KbF%7WPTFsqG!&df%MPgfwDm>Hk
zt<veXIXIxicOm^<N9*p!qB|hF1Iz9A0(Sxh_X}Bb$&4CXiVZz-Lr=D5!_|1};KISh
z+28p;?)s?ff$Lb&^@{9zWo<Tp;bOscDQm(KfrY^0>$&meE6dk%6Zt(otHcA>OIg!;
z^Pa3}-Z<yjXlwt?h1+i|y|Fx7@E<L-4dl&x*S)QIU!Uyl%i1xyzhCzDXYHTcn-|Z?
z_PsfaY&)?0!xe6I=nrixG5OGtY#aKEwMDkJES|{q<gG0QYe$Jj7AGvXw&gp{d1OR&
z4Yw={mc=8vSM$vWS9}kgy+!9y*?F|!94tCd$<9*+=jr>;%V$UO=ST8qNACB@&I?(3
z-C19Bw#m-6T<7iJQgFq$!mid8d`DMV+4sG*x`OlNEWLqc{Ib)(VXM1&X70?d>fdjA
zuPN7CXbODTd$0da|H{Qe*U`LpV9ocyc5;&<>#SM2WJJ#TtWCwOVTFd^5vCPtf}alI
zW2KiZ5VL6@MqVdRqn}_{(j_X|Naf7(c$%n&`}&biBW7!UMRKSDX(S~22#(VoMNf_q
z{WVa*AIEd5fEJ`tq8a^~;D`lynJf^$HNJ!N6>S5&>gyo?i*=CSc^!tYVG|O1m9NlO
zJcMr2H;o}`9EHdq??dP^21#0lNowL*ICw6&=u*|*G#oVpmjf&#kZEI_;HU-i=RO0<
znDBh?c=cVb2HmE2P^J<H8!EP;Oag$LF*NJzt_FjgLFZ;F0jZic!*|kV1*oh7t!YBH
zm$p{rZ(T{o$Pw@_fkITqn4#Z90eV;k6%Af+;6KDwpjNSOOMMC{B@`paPliLhfb*bm
z09T#3YJ&=pK!q9$51E}8Scz8*ar_c8V8~ExI&cU)8-?^8WhIG^D<=Hz0X!+ghR~1I
zy@b^n)q~6^1~|!#LWC89Qyf=>1j~h3QDQV>W(^NQVa1|}CsLAP!ZU!Vjs~@33E@pv
z;Fvfog(vx$1G}NXcG)AaE-|WR|B@9s-PyMw8E4;u1a$DZV%MPDHCXIAE_WSYtN+uU
z-|s1O4QCAx%*`8h4aK?+xvnGMIgm@;o?V*#AXDrdkUIzRotIYmPbWT^xWE5?PyX02
z^z&!W<NCtI&pIy^>R!(pHyoa#qg{5i=ly-T5ex(${HW;fll^^p|Jl|3p9Ve&ti8N;
zezhCA_kFlxKl7h0IL>7akgA(}xsKZhmkvJg1|QK>i}kPG;DTYEm_J;ikjp*KzT2>P
zIM;ByWvONP+EVLhEr;h$tXz|Aee2#JMhNeh2qpncc)I3aD7yW!+h24aklhECU(34(
zvSxTz6g?fXrz1DHVwOAm3ZDL==Y;GzvDQ}b3}r0<a79<U>}t<lSU$DH6kNSU*P!eg
zTxAQc;{b9FZ_%+&cI?a57aX0-jrUsbw63}ffx*0EFmE3G$EE|Ui}(TXM~D9v1gQZ?
zz2Nr|?r(NL_0(4hypZ*q;Rq6N@_{?oYq+7bx7Sv{iC7uj8niouP2c%YieqP<{WdXz
zCC`8k5#Q6UBOD>Hbw1hQ%k?hrFF3mM=57_Fv}HK)%RJ7;c!p7|3<Hnm6kLHA#l|q#
zQfyS?2>U^oddA>)gG3^#9XyN>>O)yEUf|<mLeOr5eJ~6c!BjHJtDh*G!vps6dp^WR
zqwpgDp}j8g3+}k~w8Z`uaD_ohB!KhP4OAj)XzS<hh7t`e1bDr-WWtmg`TQjdrmV=}
zDb--ghP-=9c1+a*65pJin|<uSy=IDT%JC%x%?kao?IYV`OqQ&Tbp0}Y&vwVQiGVEi
zq4sCLG`Z+wpF2D^({t$(4K$dnb>F-^cX@G0w(l!pHrTd0vMDUGc=7$q?_FLVlAn1l
z?|4qO9Nx5Gfo@e3O$WC$0liZb9@<6I-z^}ZZ4>rMfEMrtU-LVDfC@P7RCnD$nizfx
uD&_%g1CI%#(8b;rTcIjZ1VL<?5n=lR+5U$7kBlb?BAEB}K1P^O75p3f%!A+n

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/mrope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/mrope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7080dd492ef902539f0c75053622106eac0ab2c8
GIT binary patch
literal 16796
zcmdUWTWlOxc3@S%-*2+{X7kOa_>e@|vYsA2Y{`-=SrRRKXnSkhT}83UW;a<~6h*q|
zp$DFEGcyyCNCLKkEYvdy)>LHdaIjc}vsoYl7K`=df$0*JWv5ob3L6KB|9UJ9kXbCS
zd(N${e$Y+Q6K8gj0(tA)Q|F$0@41h2?m4&r+-|o}@I-ariyVJ}qW%^$>f_G?Prs|7
zs8x!kSUO4#)8wrg*1%g6)lTS!brbqwJx#G%Ru?r)7>A7n)<;bf=3z5|4N=R4b=W##
z8@ACDryr|Rt0=x%Bc~f{DCSj&HSK^m?|`@LfVb{|x9xzp?|^sgfOqbIckO_8SH_Q2
zvz`xi_w(H!cCubhGZs*#QGBz$9q?5<;H!7Q`#Cq~sRhPt4d-EN;lGaavh~~!{3~-A
z(IAHr58LpeZn%nVtW3og>#DCzF=AkwfJ3#0I!Ce1A5v_9Gv3!Ky&m?@(!rL`F>^Vn
zku^e8HVAw~h{rys0T-lY@3puP;%8r)c$Z_@NbKh6P=W(=ZD?{bI?M3nBg0L+%dnBe
zWJm~)0-L&ThOS+{9u7r;ep_+bIUC|*%uP;UCK5ow$+{RbHHzu@sH_=fWev~DrpXY?
z5PTkjZwAD{cjp8jpX8VX7ZxJ%7$a;)jBZEF$c{*YiNpksk8+_~92<5iohPXQQWVBh
zn+X@BfZZm~7%b534@=+Af1h`Wl;{%mqH#`7QRE+p=P8i}tYI6L7EP>X4*1QxMGbs+
z7wA2rN7R+%y`r})?-R9U^i^V2+4pL(x-9Q6X}@lJ>tQ<5qE%_h{e17{YeXj>6l+-R
z97uxIjdxQN=0rQTaU3?4Iq30xZGl2lpm3B?)QPoX-JFr4oYZ`MtW~tlH;4_u1*Os`
z)`+%o?0-GrYLF{n8WEG{4itH;yMV1L=?jk1wg)6vgWSb>mi|PqPU!ijJxY1=rE1Gc
zHSbZ%moHUURw}SZsj7-CY}un!b;TC8?orBLv4w47lh{n86d)tfF1CoRB;Q8z9VJ{V
z&lj^gQ$RIQ-vI@sY)i@v-?Q|#*@irji^7AnpmR?imfvs-y7p|rPBPHrT-~$ut};+}
zhQh4x-jm->@-X}cS`#d3O{FzRiJfFNb(gM-G4r;iimS9^j2K1bUkbZv&mQ&AVi&0=
z_%-X<Cw8h5C$q0t>?+ImiQV)4VsL(7kM>YvFKJKz*KE)JJ?f#wK2p!X*R1D&*dw;%
zel6}7JBapy(U?D2QoF5uWH1LBP8r>UV)rKob%&*qhr+8T&kJbh2lwQqNNiB-FXOc@
z&+9-*yAJKaOPvje#9$e(19@KiO4{|@p1c$ZKPL{9@|vZB#>+e^$<IlGCIS!gqrkk;
zO@tETvOX@1a(s~HYY=PXkwUgi^6{H|Xo88bvLVEWVmHCSiN-@<)(CM~&kD1XoUBg>
zah?l4FYBk6Nr9L3<K(3c#}l$P5sAr`*z^P=#K*Z<g2z?ETQR{A;_a9?FmYmnmJIL4
z#Dj?!6CWh9b`n}(91TTB7_g`G0)x!;qsnVWc?k?w21xRnAulV?G4YX+1Sce9!ze?#
zYM9Bt!Du607Z@%ETt~^vOqhcyI3t@$1qw(iQ9x3WN&uCq1S)96O0m3A#rQ@dd_rJI
z`=<)+DaDQ#ur`HuN@-g@H?HJNQ;ZOaa?AnQG_FEbU^>QQU`wKKip<N<Meg=Ib)LPN
z-Nyf5f&W3-7UO1sZ@%8rT>e|3CFEN^cQElhj9cKJ^!%?k2ZV{qfyu~ZAK2<(Tld|b
zK78bb@x$CeH1h7i<g73nj}6?4MkfX);w%?sxZ7NK8YbaDG&IZciGiXSuNe6Q#K!KQ
zoRzB><v747R`*Dpp9%3Se+k-(6EHCgR>K1IY(HhSFZC_<rRYsd-NKnCHuv(G)S-0i
zog<R3L$Y-&yp;ViD(9h`?&VX9Hy6%jZO-MklyRj`vNbET7t(&o*Dcw)D`dYq?K1=A
zty&GP1XHI{x7OTu-rMx-Te$ew#;UBhDeYc)F+C-Dy4T*?IQ76O9ls*=U6I_cB@KIg
ztWCYV@?yr_wrF_bYEJ62uBwz%a&-aZZb*Gga`yuVk3V%x@^r2p+o+QEos`@!mf`%;
zzHdnGQ%S>TF3+lQ#hB8kty0at_09+MBiHGLS04YrM?Z1+Q$fkmmX1h{0T__->@yc-
zwl0|$&C4yzZ*H2Jet#<6o|=(NU2Cn9srM89$FuilH{2U9KM4Kw;^x5lPknzj^{HPP
zxGI^h=CqW)_L=ExmN!sU{?%7jUP*=0HJiSkKRU3+t{s+qgX^s1JNnpU$+zuBYHH=J
zO;by{{g3E$mt^W$yS9Gd-W!tX&@Z$apJCw=Oo)FbMkdPTS(;g#S)R@`4@&;Qjowc~
zkDRY<Ij>93>sga?$-ZcRs@1p*3+JKIuS}b>P>l!HPj9sR<eb!SJfo}4Hta9U`T`5D
zW-<B9=~nAMB>4|*oXEU(^^x=1mh*MV`T8ym*o!#lpnMIfo07L<&9r`4>OLxYk1kw#
ztTTLc{)6+$*E3Z?$sSxgz7hQ^-Nmf8emBY<$=<VeX=DDcbgw?yo$}Y``QLP}K7}2K
zlIba#9_L#D<l8WBFLMxpPU66EkciB2vL(OIv5^Vctx%P?1!M!y3DbNm432=pgKCwy
z2Yv*{;8ie*#tNT`z}sLV%$w%TqFL0FW4=YCE77qudUWzMRss2vXRN}}OVk&PW7{5-
zmI9@H4@zr+(g8hz!}|6|^^u_?W7qGrsM+<qM%3>5T`Lq038HC4kqbIcpqywDEus}%
zD+bXnIz*eOV~HmW-U^+L)e<=x@8=ykV3I=F5zTcfs0)1?2I}ez7dv?4Qh<zcV4UM)
zT(sX}LFIaiznM5nAk0l24ZKw}wt52y<9ta3dIE)c^G<<$yaM_7t=&q1Wdmgf70!xD
z*IVQq7#KJhD6+>Ebq@`kA9y1$8Bavezm*8gM1;}6#B@}MfbI@O1CiL|w2%lE+5{%k
zZ@7lC^#pYZ(1YH<OtIYsNgajO38ZDjRwni{Uk#His0XWeG&ITaIMromjJqu`lkpjj
z2Q!X2C|kfH6CyXK<I@RZTLhi_Wgz6QU{YAx{A-xKipe!hu0ta06?4)J?m{vUN`gz=
zq@rXqco&snA{Mi3%lj7zt!!6v>Oi7hgCkM$@E5TrTd66;Gl2Ro{3reak_9T)O9fi)
z&fJ-ibPWqHWvmTZXCVEG<m_8GpLMy3lBZWJsR$Sfpx^D@Eqj|}Z%e<jY42Zn`LVZl
z%Nvxu!L{y9?;vcpzPc@6kL2rFJF@9}ZsFA&s87q1ZPE5U$HJ+s$y@*}_ND&CeqwWF
zOW@CRwW;S)-IA^ih{>NdYl1&}*5t~X+~m)bHTklps;tQY>2gRi)qMF~`>e&SH{{wW
zn>`sy9$L7_zlwsOZ-?<vq(0~vAbaE*0Jujg>vSydDpkqwUD#hVK&64`hDM~7)y?Yg
zSjy_Yqa9IJ_fB6m$AJ%&)<bDMl-3hJd!^EqzAB}0r!dU@$tm<<<CIlB!+}??#b0|V
zAjAWMX9J3|2!L-}F^UuYWM*IE;{44}4D?ANFv4?F(_Ab(8vsK(J}m$uJ`o6yPRGVM
zHt^Qa&`^JW|M~OhA${YGH{JopghgqMZw;LvI{ya#1JTgXJH3HPo=b52E%2R}@F(jd
zHXRXWl~yQA3lF6IJjRriRYuGDa5Ns{f?EDxBNEq(ti8<$2^=4o(8@%vR-E@G&4AMv
ztW6e({uKTbzY7UWX$xhwB~LB3FZC?;e6M%mOt!CoZEC%3eQM*xr*7%k#ZN=hu`8Kt
z*E5H&X9liIeM1XplG^0e<;K*M<ZelylH46@bjBXcn1Yh7=WCX>Iu<UF=@*8^6`rO%
z^fU@R{0L?rN1|yENu!6gX39*lon)Rt91Z8oALv;Fr^C1y#=uxJr)MpkfwgkRvAixR
za0Y<2aS#zB^Gk!SZPpI74k)AKoB+AtAEHjI2mZaRW~3oWjnJ&`L+7xCaQ6ad+yJ*d
zBRWD?^&v#>AR1MfMnh<-fyPdH(gm@eij)v#s*JDQ0k5>bZr86~&QbY$Wvn8Te9X$i
z)_<rUcK(ZNbpy28^)If~jnHa{H?mDI2b<wPfO8RMZhr3K{2ei|EhQ09FHpB~zOkNd
z(-N|58<bW#wR5@=3)@jrvN}oKricBoe|F0**e%OqgL6F!B2b7HD%Q)ZMeF6d61Ge9
zUnUm9=K-h^i~|S80%6BvMnYlmOUOR35BShzJQ^ZFzC6|%5`>saVt$tsLXb%avH~We
z@tLA=Ap0jmx530v%qWad=67*f_b!AmWjn+KV_f_;lMrU39FO~mVqTz8!H;4R!36Di
zejJl1CPR>fRnrx>UlaTj<+lLp?)PX=e`b+F+dz51l%<%0A_TLRVhXAgOk0Y<vg83{
zmtxR5QgRg!8Xt5CR+U0PS0H&RA4=}$YZa}iSPMCdDVY5+Bg6ws@*=2X;v=RQ>=k(g
zJOGhr5snN$2!iTGBb}<WT|y)hjQ0EaH~|>tM&Mp(FPQZdQ}8kahYH&w-z3zl^;M=Q
z^aIQTJZfPyGNHLZeVd-8z-Ozwd{Zf(d+~FWrJ@!cJC3KU9|7;Iz~hL@hI~Z2Ivfg*
za^OHLnLlta01I{+l%#B8AebBx7^XO1z->D{5p>GB1Q#7C&Ov?xn-Ie!j>%V?WU`rI
z!qHG7!7zz08>0(Ehx509;au(Z71*z~?JwbT;?E)ZN6_Q#RC8Za_sCSAZGQpZE!p}`
zeAi@aTa&u)JJgrexn*sVtW6nf&u4Ybf9PD-ZS6lJ?LV^_IQ!r|DR6DG?t1d<4=z5b
zYfPT~{zWhkx=uczrOs2xtL?GLzGy@%(pHtVRcCFkEnAml>jEHas|D}hGrQ4j0heFX
zJ|wTpwj9KFQx+?2d}wWa?5$oFw){cKAKdiztc`7)x)*=wJ(01Ukh~|riDYY1w0~jw
zK<99X$>JLUfGoa>%VxnT6iO|^<oy8*w^#_}U#En^lBjqRN7{V(>(o8^a!{wtr)j8E
zc7rc{0#0NcOp03!8iYJ99<ab}!%G?bS%C5uSbp?Gz|6INdGxmP`rlacAS5u1L{iG|
zbUyahtQ?lSy=z08-h&z2!N<<vmh+h8JhpN6LHnljT*h=xkyc^r0UjtRBCU4;*hN~7
z5^2E(fzrAUCGgo>R_X%1PVw(SfihWD7i5JFfAsZ}m8J+xqX>-13Z)&$i|T!V=el+l
zRT(Q9`kUy75|!n308UpK+aQtFHzemb9{4t$FK0|IE5{nMsx2T=0%kowD{IHOS=pEm
zhlFvvSD(VR9{?<D`aAf0$oAyk;VZdHp=@5Fc7beSu;~>Pf?5^KRgEfD*i`9CbCe}k
z>bxGx=eOTtX`Jh51I!ylL#5Cx*vC4!K#`x}#Fu59H|^GD{&T3uQd)xo=lep96}I^z
z4c{l=UPc~N43)~OZJ0Nf(1P07mDUvdk$@2}@{ASKm5PA?eU%D}#xeE&or;2YW&Wiy
zQKf&DS~4$L!rGfuSo03_pUBEQZviE5MhUNIzHie}VePzS-dtK9`twy=X!`%uLKFD&
z3dToKIP+G(W7oDlqMp@(-0HTWA*+Uo=QW~+HNZt8s?rTa^$N(m4XG;Au-XEZU1(No
z0;9=@ro>o4#T4K7^F5fi?JjTNVIL`*^<!;CE-EAzy`|{QtRx)=;QwjT(SotHw{)CH
zwWoAkCDL(z1?f2Vkd9MyeFf<_)KxLBMXxP-U&9(YKl^9O;Gi*d0XF8>W{2W@c(gAD
zM*S@=5Sf^aauZxkAU1vgJSmY|a3L@zp#LQwXzUK=-L~kAD|g)@rm$fbJ-Ud-r_`<c
zPM}+W14SSni_QiEao(bk6w`7CEs+1ZPFQ3`R7M2{@h<*kECwp3LLt=|S=kS*cvsPY
zzWn+Bf#)7AYr*5$AN0UQN_2hJf%OV^F)_|x)Uyn^e!$;=VzRyL3%HHYXH_(4i7N=M
z4d8gm+HeTYSR9zZ93K+!{=#H5BFMU15w7IG#iJ2L>|EIh9xQbB2HlEI{}z5(z~lo=
zzKuycBr*y7gB?(G@yc{WrYB@85hg>p$Yv!2{y5p9fRkVx%Vv;Vp2CPAem5b2UlX|D
zqIk<5#r@^TPcBB8h;z+fGA_yq3}{rK#}iEH0OhJ(dVlf#wELm6H68gl_QTi){jl>$
z#&jg(Jd$;KlHbahnv&moVzO<SAOP95rhjDW&sH_9GAm5_npD-Dv}8TiTb_2w)1LmO
z<QYgBv);PZ6Dudu?lsNwiB0dmMH6_@u4k>jrIU*%Q&%5ao3dX2mbc@fw<BZg$ap)l
zPVbhp<Ds+Tadq$7_4W3xgJ-3KXE&=~TGnpItY|;0u3wF;L>_kztZV<+{1fv=`_|D*
z($PzqYeVbi&Hb-G>b&vD_lDGY;|>eKRrm7M<*DBp%5>g%=zAkuQ};}-^?R1J5Wn>|
ze0?@>WB@kfE8|HkM9o(%;1EBW=GPAW_~gBlo35h}LHE_B+A_`i)4q?Jf7lE_rf$FF
zJCHPItLjpNY2C-pA3CMLflU1Ysp??T^4Qn67TNG_gdZH*I`g`8=JieAjimW8ur{xl
zQ%BNcnYsh({3F-VE!Szub^5`vP1lvA{)vx-l7Xqiy)?Qwx;&RYm=->M|A+5yI-XBz
zv!1HuaHhUDHFTG`!vK(}?v*@!I8N2eiPYJ<SMFSq8u~K+KFQmkG(Gn0TRXRYeWPtd
z*n07*^y1Y`&$XoSvBSF*S&XFo>Fx{!_C1drhqfHYCCBlNZ*DryK_yP#ayU7cG1dO+
z={~CJP5M_)P54Tn>GYppa9+?^{)^dp!D1=1I`J?~EcpKk=|7*<Nq%KOPiW@h7YCqi
z3a25cE&r5Rpww8wJ)nMv1^p>lj1_D`#Xk?WXGN<pZ<!jwGAmezMV?@p>fusWsbz{$
zR!yaPzzWk=#9Mc@WGA3q6+FL+B`e^4D)QvxlHl5@L=9NHbhYgPEbh?T9>7+R-u*m|
zSd_MTyJ)LuR}><>qP^nxg2jT`c!z$|cqZXr5cOjPS4**p`3USz{i$HrLw_2I<yEM}
z36!@DD%0@-w4-3#sipD6GS*VesgQaKC8P0cv{5KncVnn_wms0Y3Nt`xRmsLWRjBy>
z#Hh~7%Kf^ZUqi5-iv0)Y+4e_~w`wz!(bp91sh~;mk`gZ#iTJ=TFRV;>8ZHn{F!9L*
z{~<8szXQoVns}FjRs2Vg1KkXlz4$-CuSraZQxg?Gzlh0iVS>RS62&ZWSS<ric7Y~^
zpL`U3rixbgOrVM_|L`XA_#PHA2yj~wJhxhiD)GM$n4n`v<u7Zo?Kl+t3MMFOa(9Er
zz!SfUNg@23a6q<9i|3<QHdRZ9r`gb4<Bm!kKOaLCo`D2ZxZ^9T@V_zbE7#&r&{fs)
z(Aon2vb)W9n%6v1ZEx~Iwz_Vsx?8I5UaOU=2b1Tr{-)LWmHG75wbRS<oBn~t^T{*I
z-fUg--F<iVB`;=c>hGHGn3Jz$oiznZBI~aQ*VjXTFyjhl{K3cmHqeAwpI`l}+46Nt
zzRs+#X7%#QWqe&(xdJaGO8nGquJNqsmg(gKxoWDWc6D}THeJ8z?^~N97qe<N2hL>t
zXELrcPfCpnn{&$+kZgf;?b=K0gB!X(b^O$kZRyx*8I)QE*N3*AJ10GN?wOXhze494
zC>Ll&qOfv)%H`W~wmfvUWL@4ZSEuCaOwVq09h16_ZFZg5n0^rc^w7^w{_JG7yLSt2
z4|N}X+}-zM+dZ4g@-L=;KKrxTN8R5n5Ii$#-N$pjk~*wZQ|ngaeyMSP*4LPtPKV(t
zRg-7MvaDZDfE7__jN;`g^~|9EgXqW}05BR|DGr_A=XC0cQT0~Q%GA~GICT?P6`75S
zEom)G!pZ5mhMni&<a7+DAa1$J6a)#jN?<}BS>wQX=-PCi&X`Usekh-E;X*y!FmPj2
z2+43W7XsCAZ32!+a8Z_<LLiJiRUg#8r00_Wl>U^d__HPOU}(b{;=gDFkC3)_U#NIZ
z8e~I}OXuJz#kacCspmcLax{aN1NN!>i4UL|xEFny1ft=7v|hdU97zb^|N9tt@N1ad
zgG8p8gbv;)Lq&u&_+v0~A%t9QDa33NbHOjkb0^Xn6z&yZ3wKd#sOtLEf!}@esom(Z
z{K7_6H!ai8td!jic45}noN0Yt@;$#{%$&X<y>J7jmD}@6t<LU%SykQi3oMhPz*GIJ
zFDL*>Q-8a4PzPJqG#o!5$=^Gc9e7s=ulg#tddlpy!W_H>O)4FUN<S(?4Uw0(^45_Y
zRmtP<39af1@b!VWPx(0wj2JDFQs^-`4s}8(1jggv02I{9n%E?d6Hn0)2L8tguVYdi
znx8;cHo*CNnoA_G`8Yo62sQ5{c1GFs=k|Z)fy$ToE{@j)s0PN%MR|OywJQ)K2&9im
zwtn@!-Xz&x1Y;bp?>;l?JeH&Z#_0HII;s7wQ^~p1g|#NB;c&)zIAc5f(DVXXJJ9Qw
z;s0{52E#P5&;-XYvV~#b>eMt`17~C#!%R(wqWLdIhGFAjh~)eTrNN^NbnnLFQKHh6
zaLp(91&2{K3=s{-i-<w5G@Os8!G%G#4E_%h`)?6zOQ1(1Ji)=OYnK0ai2wJ9H^$fy
z&xdCD|A0ArKE@N~qEUu{pApOgHUVOxzM%woMgZh7`7`{G0VDVyKcxOzcL=u0eFNFn
zuAH||e==7?b@ygFyRwZ<+1mPSZQU0wfPLbv&gt<hTz0L=84)s3tsOZtLKe#D%UKb!
zQ8f)YJ3^omtCrqdd@tw3oD1-&GoV7?rf65rjVKS*5Kt?uZA$Cz*mAXqucMmVbM*){
zz^cnNBGg3r{JCa?0tjJ)a;=ob@yj-Z{uQm&pQqDYj>7l4{*P@xvHg<3Ig3_*j$YHF
zszA&+8mevY&UWqlg>_J0_rzPXdVJ-0P7g423>qvhia8_ZOcb29-d=n=byl(ma%MzX
zD35=&VWlChlick&EDznaIFr*@D)su^x9_~Yb{4ct#<^cIA9!j<0-jc@J5W*`z$MjT
zZd-MT+EyK+cC8KxKq2INXVjme3*Ey^Nrfc4tww^|RwcphS|_3KPzFy<W7Au*O)WVs
zyq~}f(Zd_6^i<`H2$^88lI-%}Vq~%T3o~GzYSmIO%u4ywbk^=%8eSYmCZ}mQQX`ks
z*z)F9WCNgys;<pJc>pa`ZNnE<1PQNa(1O!6S+Qh_!*bQbb~-srR*GU!y3vH~&tJKl
zhF?=8$WLs@1wtjPhTD{EfRNclJVv}vvYY(4SiMU??lj@SN(t|3$G~Z21}&NZH9E<Y
zdxrd<;AgVN$rkV*G5en|!4N+2f{_N^qm;&81gva2u52eK`Tq)8T(XI~kmj^BO+U3z
zwD-SLw!f#k|BmYT8>;VrP!~WZ8q-I0AJpYE37Wo4!_<IZOY|=G=Ilz|q2`@Ro?Nzv
z+kQE>lK0@{dCYs2ybpdiu@qg5=Bku@wVL-U`5Fqw=F;M&T&<F?qpE9G-(Gn;SFhw@
ztt$COCEujxo0WV3@5o<Tx%5Q~$-|IoY--!1+UIFk)@b`k{6Neh{3H+S0fwGhoJ$Rh
z4LKv`U?M3wGv+LmuO_8kIg+zt&PKVsIXglQ%I(WJ5yFip=SB#osWtiB((%RPsj9mT
zcN#L*4oTnn)QjJE+C)23+}-G%XpRDK<In@`Pmd7r)2g30{H)<AVxLvNqNPvM8Gp|&
JDFTrJ{J*9{rZoTn

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/ntk_scaling_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/ntk_scaling_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1d1ce7bbad47ffa77fb497edbe62f951a1c8dee9
GIT binary patch
literal 2333
zcmaJ?O>7fa5Ps|R`Y(2D$4+cYAU_2pw<H@{(g1QxB|xB-22nx}ma3<X-*d8I?KQh=
zY8xYQh*U?k&`7PqF`Np@p>QebsXbEl&}>sF(F&<ZRS#UMjRGp_sq@x$h(gklcHX?7
znKy5~nb}`Lp#TC>+&AR!1%&=&lNQ0;q4hx+<`6-IQ&0vG7vU8y@5;D1<U*$raZe*6
zP}c(AIG*7vT*~v5O-7$`z*C$R{#Z36t#T?qP6?3<6WPYm29Gr->o-C89B!g0!x5Bm
z5iY~~5osqpbrUyy0(>4S5HIx*AB=wLor-KW)sRU5_FPpjLZpqjavgP)<4ABil<_;-
zZJ-r@RV(Lq&V{CfnYKDAbD7`;lnPtBM#nz9kd+khddnlKpKe*`rDcN_2qnFr$;M=F
zPA-Ee6-aO1k-$)|-mo+n=mnZIjG}%_6fe<oi4NxSqNHUf<ttPdkB$tzGiv!KsYI|Y
zSE&`yoB(1X=dDCuD&wN6%Z98LFm1(Dx7_2BPOXrv;{sL7ST`yPwc49k;+&K<RLv5I
zQ7KZ(>-dDnEssWxl2*w2H$}t;GDCCy17P29bExL2A-r**=7SkS)*-{)l4krh^koR4
z8dr1G_?o*W)VvFx#x92{=pHwka%(|Y(At4nf?g_8&GKO^7i0tDRKRlURLN<89MYH*
z8uLnHDXO(G=IFu=O#^<6vx=na80+i|i>X7`|ILa<z9<&u;sE5`1T_ZArIDjYE{#x8
zk;lbi#h6qJ;uS^7i+Pn$1=BLkmLNQ$B2}oSi_LIv1XnB=mvAeRnp&iT#frufx7xpB
zehjwW#U85<0ef*B*<Gk-pzi+Nw|h0Qx9<KT_}CYk@tVHmYOwRG>eB1S7Ek^(uyp>D
z=e)}wSO*=Hbur!~7EK442&_8DpsCj0rm=>mHfuF^t_NX#1Fe_G3moC9Q0><^qlp$m
zGXh{4WmqmWk-p~I!D=6%y{%os))_Ecs0vtC0bVwORo4Y%FiahqV!_%%+goq>H3eR7
zrG@6g_V+_?fSX}&n;32Q#n<>vUUh7}0eTC!qjj(g5e1cn<_%Mwuj+5|aVI|jlc~hc
zn%CSAdH2gGrub2fCC5`{FBNRm4U1=^ZrB^FD9)<+V#%OTb60RqqnDjRvjj-~?4;#^
z2Bt%o;1zYk@<^Ign4p%BQ&h>Ycv>!|JQ{1Aj%mx+GGTF&6;P!7IFaxnoY&ZEb(Ttv
zYSg-z%4@)?Z~jlUY;~-MS@|0nl+9{5cB?W|xqtX!`ayc>?bEkUu5^pPb&HSAo8fbH
z_v2V{cEpSwygRlWd#mny(iXmzo=GpY^{gg(=J&1i51akNi+zjaNA(BQJob^<KWZjM
z>t~=CBguOBSrkRP=7O`q+hZ$xhRi)f%aKDXkzq43yc`)>jV0!e&mNyYZ^jPXJ^Wqz
zUfS#!S>w6r5t~P$b~}Kg9bccCJ3D)JK01H$+jDo$-M?(^JF<Al+?QUCzq=AYVa87^
z$4@<q|Jwa?w;8`^MlSx*9-YbFptgWQ3EP8`z4LFFiG%esPr`|MSYwE5EU8l=)*A~_
zo?>hTFosrDQkWdX_;N{7nmb;MiJFCFUM?6KiyHh1R8`S-Geb_dWSz?Lj5*jkKv<z>
z>&#L`fzHb{Fk_|uegiHBpT-y~VErbr7t?6X#R&)OB<kD077Gi3C$TPDfDzu%nY6u3
z@}d6ywx3A>6pq_%ObVi8w;f_qJKD9^4l^l&BAvIc&Rn&lY}SD~61U^C-8Qpo$5EjD
zc_)+lBSLbX+6adG!o%Q$;6F@UW2_M-<{<o2oR>03HP+r7x9_3G36^`7FWrdUd)fd@
g*(>#3z-*r5xb*<yLVuyYXP*6Baz6YV!QiO=2R=3sj{pDw

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/phi3_long_rope_scaled_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/phi3_long_rope_scaled_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aa0accf136017ca8d5960f28f66c109b1f8af0d2
GIT binary patch
literal 6041
zcmbtYYi!%r6}}WjiKM8PAF^!A36thwC64Vh=sU~$NYY1Kr)!g<b<;7jNZFDl(!HeG
z*rnH?2rzlwmKf_`=U3ceKpmt*(_dSG0_}e7$NpGN024%td1#BG|CBk!iv8KnB}K{c
zoMpo<?0e5S_uMDX`Odleb2!W+C`JD}`CF|BeMuOvFm+<>0ub{^Mlw}IBW_ELP!8`a
z(IYfPWWJ)m#EdWwO&0^D;7AZ?zswZb5;ww8$cL1m!e61>Sw}+7c%c-|`Y2S2j6{jX
zlSmGnLvm1|3u1lsb<GvJJ~lo@rP*%@Gn}UEjxoiMvSo}F)sS8<7E4lAQ*-$-=nCc4
zydf2}u`vaIOI9W_tQi?YkyJ%HlXWL_>tvl-dlxi+3MW<&Ipv5?rbcKEaY*izX~i%5
z;h%y30Q?6PMrM_O%qhV_Z2e>|E%OSeFrC22p#~+u7~gadWMPlWB`PRK$&qv65nhfq
zG-EJp;@@Y@`Q`XI|A^r1qN&{iv)yR~E4RXkaQzf*o6jq^-$9<ZgWNqu$A9dNDUr?l
zH<!9Mlk<@~%kgsZ95WKFpfl7+>;;tWvbQ}qo<A_8sbkM;&mDOon<*;t^YA(G)REGt
zBFlMoY+5BMVlGq47pFumCzdo>De9u`D2wFd<0(<`)cbi}gz|VsS7cFBMPpnMHJl&I
ztC^y>VQMj7nk*_MFtd!2*VKMz<gm?+D;ZhR^V5pWyVFZ@zGQclGH0YoP0tfusj;AL
zH|Ce_q~RZh?bzYG?ii`08&gHaW@KY(Qn3YnT*HQx%VZ4=+o2-dg~!ypO3qR1T`rRq
z)>#o)9wMH!)(iEosd;2HI%iu<^b7F&D|HEl%z#Xl5e^w18i1#JKKwRi`b;F%y%Hgl
z0?zMEX41elMwx!#0*yWfII<6?m@IH?gX4hXJkDtMC~r@jc|^hUT~8U>8Nn1x|HNU~
z7m~tWhlvVZ9^Gtl(nxt+VXH?qTbYK__)Y(n`sv_aP{BdYrVgP%y8fo?ozo%MP1p>}
z{s~wc)3Sdiq8>B0d1DLPJ*wHt%)0&^O}R&zVec#4MQ_s`d1J}WreR8tpNW|KS)Uo1
z;mwfKhD;uA4<dtG%n)#G4GtCddUUgedty!A!|Iu+87=H<_Ii{VY^)iDTia|N+T_eo
zW1g59yURQ=W5AoeFz8Xu){L65F`pdxAb7>+N@wD*@`0v?N6D-im#GgpZ*2-qp)@~y
zbovLU?+QPs0Ym_I^z!5+xT!9ZDC0VC|MXu@>Htup2VV{(5rON=dcSyLJg<w2ni(xB
zx=1`*!6L*mLpcL8_3o5KLz_@kU3^_{V2Id|rp1imz*kn&4FY_+R#L=C1?Mze%BWdI
zl$9}@ksa(3K`1&%0!!%1Yh?u#U<Xg<U<%j-{HdA&BlJ90<UUX_#M1<>95j`Rih3G0
zBaSL$(Gpp3r`-RIdx5ndV&e9g-1240rU@7(9h`EZ3-$+SsY=;Qc3gpg%)=h_ylw!l
z0>U$JbqcmwNpfPhWb-d(ie=>p#u~=N<uJhp42Fv^@ik0b8<W_J<D?>JWDD*#-8{e!
z-?ni(T-FuH2>>^-27nrH(*s+0BZF1=9FhiCVf#xNW8C)ZuVKTcK?Apt$%!M_3CJ%>
zlVwODZaazXGc=n4P|l9qbT(tyQLK!SV_|8uoXaUV-3s$5#hiNp=O`Oa5g}_tN!2`0
zV_m$3EY7&#9w80ctQQCBS4*zc=AFYi*K5btU%b=HNm90$(RE4E$#F>ZyS<$KM`^$)
zO%6=vC-*_HgzReHneqb<Jvi}zGEmHq4oprN<C;1^GOYpko|Q97whSj9C}yVMTMpEt
zU?b)YOhQO*Ub*DPV(0q%C#P^XY-4)QU0ti+Gl>q+*Owqk`~EDtl|o!(Hdtko*V(Ss
zP;%i&HMH$UOUjBJU!#4kks9)aBQ+Lv@2vQL9<@5RLld!fAFBATvpcN8=SaKHYD<Ec
zvr@f;?X<dgkv4gYN1cP$lKWSZhpNd#E6Jg1a;OrvdiE^ud$!v1EYaz*LeZ5_&*!0@
z8$!#9u(c{|t@-HqvlJ{D@3mrs@OLZ9!WP<4ynQ9sSB>>887l)Ps_+*(QDLl5?7|a2
zJ81QYv%_EYY`gUG#h0yE{N2OzPt85GaPn8je=EN~{@%DZ<l3&2)wYw>*hx6smPlo|
z7C=IBIkeU4PFIGkP+~c>#p>#<99!LRlGQ}lN@9OCvELH<mWqEEg5e!}B?QAew$H0`
z>f*_3iM^H3YJ2BO`(U+w&=T%heC6t1P)qO?9@G-z{Ht@XF5Y*oJze3y>J~3Obn&6Z
ziK`DU?>zL`W7oTnF0)CC6;{|(l}%Z~uI1hbKRa2Y5!dq_@^Sncd@w}(!TIoYo7L?A
zR*W)MvvoKoN|0sOlas#z0jUW|+MQBZuT__sR5NucG!l<`Co~^W4XCGNA4yLNjTEG*
zwQh|@64LC2(7$P@m;LM3-X!S5+Vvf6KHdqvu--IarIR4|Odq7U%<yH(g#eQHI2igZ
zIe9vWcSB<b048-v{DQfnmN5?8>%gBK$lwf#76epm#_3Aacn_I@#5bGGtFKErth}ZZ
zcm#LH`-wQ-Kr*j?`oMqTh93NRgGOO4Jp<KQbfatQrM`=Oi*J3Rd|LXrbiHe+617?r
zme9Q#Yn$ihxUbqe=ZEHo7UPSD-#`A|@vA=q#fgt6uD3m7CA#LdIqfD*wePyg_~R`%
znP50_ljhp^3JdNNOID)zUb5{#J*i#)#Yw~=XIt9>7Bf#0v4-V<v|h|c>N?{$8foih
zmIId6u(!=@W}Rg*>t@=_etaeaiDP}WnSdE65Y*pLuGD#xCiXBB1g%EO+Em@3#jabK
zgpLix44Q1tC(|GJ8(zSfoMU77e$buf@_hwy-ytzy`1YSrFnMaGS^NWN9Am=|6Y3GD
z?0}M2^>PUUo2J_|L~q<nlzG?2oG?ZV4Id)aK{A3ezz~VW;m3*W2_j>hn4}XcZH64j
z6!A`wO+WZQ7~gHNcM?YH#2?S1nt<ApE3N5jYkFzmTI<6V_J$BYKQueE+&TCO^J(bg
z&~@Q(g}M=IpBLtYg;$ogExmLtc0V9-r1gA$Hvi7V!qIAEdxhS}lM!IR3kMeIg*{8#
zugCVmm}px?aE+4lo_e~?Kstq|Y<fbOvV&SK2g#G3B?jshasiI9s;;rpXMNA0w<#Yo
zeFaZvT{}kP4RdUEkY7-`&~GT2nj_G*-W}>nbJXtwzeF=Wn3=xA%=G^?GXcj<Aa#Z@
z8ZWp_-$|6oke6BG4G=II=3dy$l*vnzthLD*K}xcv4aE#NZdZ3mc(1|u906G0Fn$zt
z)12*pJ+Hh03DtN85>6+nbn;0DX6cMNWi$CR+N5rGI=?Ax%xNUZX)t+q0y6J`20uxv
zr%3fQsh)w#rY7tbCjpzpkTM!l-57$<S9bsxh=Y)hL;5LCr|<3ob=9B19QvnFfyqZu
zthMsiGP|YnmKE!|z|8Y={BrEEg(H`aT|Bl#FSRVE`hZ^=h3e{#-}isi|9R{&V)2Pe
z_Wbzl_;Tct1^N<qkz2fH@!o|9uuDEt9sY3m^6=-8M=JEH5L*%USB3rHIX&A+ma;f?
zb^m)a*Lv<-X1l&(!z=9WD!bbf+ASe&2~kUkogbbZhGs=bSB11CY_Wu}CA8j(a~xkw
zpji8bY-M_x?R2~czRGYqPLh5#Q&J>I`X%zxC>IGWNYZQNOtIb*lq6Zpf|$;$h6_&q
zQB5nlh((fT+h2sV+sP{JzzHW@x|l{V1~T+A{D^~JAauB%3TKsKQIgUW9t5dQ0>`5+
zDiQO+q#{oX{m0Pr{W)~gM>A|qM7#D_J9=++K20(FYHOm#5CT%A_GB&SkSyB1v&K0j
zkM{Q0LJldQXj?7pkP(zj)uIj=g9|zT=IoobxWl%fj_!r~<|b;b4%>zjT?;$sUa7S^
zYyx$p7Ua2Nt;1oHDAB!eV(!#;&Q@wK`UEC<we70%QFjdi`C0p)Qh!XX5weyNnD*6e
zJ8BHHu+^?D3(CdrT99y%uO@07p?Jhc&!=WnYaznzKs$P^-Ft6_I+?E3*5v%bxq~$Z
zXc!J#HfPORkZ>#l_&haxYT<A-EY>(8;!#V-d}=PW=&#0i)W~?iW<FXelTiyNFP*x0
zYUyybXK*<>SmpNrJq!wtF*p~VZo%8h<vZTUI<KmJRkeNaA0qzP@4oHa=bkHZ-*K2g
zgdKn!rKG8tU=uz;Dv^j&`7`7-tl<8<3NJG9=<Uyy)hzjmPPe&+(B>Lae4GpnJnLAa
zv$e~}-KLX5u?Jl{J%q<WkC={50%nb-C~7T$DB(*ae1Y1(Mgw1<d%i|n|H`#pc<CCq
e<!s;^)VGZKZuyV;sIDd7humfEJ49$_@_zw~(|{ZR

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/__pycache__/yarn_scaling_rope.cpython-312.pyc b/model_executor/layers/rotary_embedding/__pycache__/yarn_scaling_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..faf82389869f5805e8eff4d604b5981f49479fc8
GIT binary patch
literal 3760
zcma)9U5Fdk6~3d<NE+=(`>Xx+dbNMH<$6~%wqvJhw!wBtOv1WJ7B^K3!&q~7cXnq+
z@}1duC2NTv4Aqhp$I!4FD0KTKvxcNlsQc17Pza%=weW()V5p(#gWtwon})u$=Zt==
zZsp>G=G=4cz31G&^PPM3$4DehfOP+d+73v6L#0kaP1rpJ!Uj=^%IPFURG-T0oZ(CP
zIF$W5Z}?MwLr4imAQj+<kGxJ);VMxB)VIx7eWZdpE)jf)%Irf9c!G1<-^tht%e`h?
zpsK2w3klvC%qh&2=QUH6(;3ES+SW3r%oKBhI_+ND0<~qsN-H{bVqS%=nN(rW$H>Zt
zVlAhu16KJ^P1*e&2tR=}P?F+QlJcosiif$wN^k|L@N)rX>sN#Dh2RsZpoVEcZG%#x
z!KIF7r&U>vKwA{PcIe*$UnlhMQoH8|i)5Ztd#*-PqG#U)_C5b=Kkrv#SN*9r^;zvc
zwHMl@B3b29k#|X=&l&uo^3LqLuy)w2J$sj*-%}B%t2Q-Ns>UyA_F^0@;|8@CGwO6W
z90xkhsH)jk+|I<mPtAomwd0CD9bbUnD;K8I86&xLafMnY)peT0o%XC4p6A0ju(^cb
z^uQoY$!2uLJEwUiZD*L%rr0(dVpS0@P+I}TvYo1E>6uGTmy*ruIoUfvJWN=SBQ8=!
zl`Sn#oiOtvLsm7z=`)m7Ih(OGZwOis7R&KpP%P?1G)p#VW>vQA9K=Ml=B+-wpxU`C
zWo<BFCLxO;iy~_W<^&kESC~1Q4uOV*F^@8?bJqd(3AaHCfdY|1u2LZc8pg0k1ran~
zLkojei+Mr{ZJ_xZZ4w)`aV8$wI1`TwWT`GTmD{xu3Su7SRM*V#Qx65PUJIiH>!x-i
zR@Wm1^3zF}1y}GD_=3M66oT7<YCn$T0D`lLFpEJ&tNn3=c|D`p3=Nz>4RV6D0=wyi
zWLYycTb2`1$8S-6p5dUZ6ImCsZe$qrRrkFpJ@X7iSx)PUWy!LI2ZO=cpez4UleUpf
zX0_}TBnv?Q)auHKmrgF9ph;c3kj&;Fq|M~}x^5(mj7oKxuF~`hgke%wa+F!gS|~LF
z$BSjT9wsc4rPJ9Q+Xn;Z$DfU_>H3Osq1Gi}-&`SXoQzBr{X3zd%EU=5M=L`Iu<Wl4
zj1~PKMQg>Q5a}3u%#%ph&yrgc_r{Kw$By6adhym!x$Df1^xD^*y&qq`+d1wAi5U5)
z?Qxih(e+>%yhyQ+^LNI-bL-6QsXK3<f5Q93@GcBZ(v5fn1yA0K);~kUK&-ZmCc6=n
zOO1F$PgPPmu&PByy$(y&XE#P#sw1SS!%cp>=B>4T9?m=uc59Gh3qI7=c#t3-F{VA;
z-xSYe2_d?Nz%xe09%?-v)b8nrD%3VG@w9mxkq-1@SmBzm7ElEnqt+up3Lw7qj^v^L
z^X^I>ZdCBoBKza|*MbGOc?v=7g*sp~=<N&4VJ%b$LCz1%GCY8X$Zl{9akKy*ko!F^
z6(`y}tT_Tie0tFdDBfLJMdAQ-W4Owur01a%BgTVcLS(}zV-9dcNV4)gqZciwS2N%D
zL_kwhf^VwVOq;TL;&*t=>HbA+VG;6i-4rilCsbE05yoi1nvLLyop8w;*%g~YHmQ!6
zKl1+|xVLu_oLCQlT_Kg8{*ANO&)%0huf4VY)@JACnO~gy^jzufU(??#|7v+hI(2*Q
zOZf}AEX_UQeX(#+bOU5;ax3@CkvpONmC=b(^wvQ6(5dq1Y0$s!nXX73*Jjsen~HPm
z=TJMlein**(xI|+Xtym83$KeszBuQ0kx2A@bbRY{si$Or_Q8!0ZjY9er~h>PFE4-f
z@=o*zk9aQf9`^t(C(F|0qaZ(Upcrw(Br?9Gl%~oDPL!pSmFUFQS~+?QJ0Ev>B6hlv
zIr@w3EDnoIH?AB|@K`<27we#JZiPl92t5p(JygFm);Jrzc+@J?!MX+HTl>VYwHt|L
z2?BaA-Q>1wb6N8>joSk7st>L!uKsXb;|u%}Ue$YOyQaf@T7cVwmme$}kbY|Z9F{`U
z3|oK~uhMyVI^Og*))XiN0ItF;8;61NqIP5{J~b29mLC2a2;RCpJY@i@Q_xzy5+_ia
zM23)bg5G6&^aUqCHPc!#96p_~*dR9XmS%#g*oj~jtw*qyv*Ch9u(G4*<QUcoX(hc#
zErfRsX;qx{HgE<`;e}<&UdQ~mp9gIJW%35Nwmty{i0kgV*PSSLCrT6d4!=@9{L0<#
znPR90zy?H0$L@V=rVKx6<`48s;|t?4?~8<s+~WZ0?A?&AOPfC`jh5cK+wo#is6@N3
zY3tgD%K+XtKYg<tJy_&h)!pxiZHU*!&7)iV=Hb%VPRA73w)Yez4<_&=f#->-7*v*>
zuq?x?U`0n+lI4plie768%CeeCLp2YnjA5#T2W2LsGw)!$2MfLloWLA4E%+<qo!m=U
z6RAB{((p2d7ZAtxL#>7Id)3=+hMCS|2m|XYVBcINk9@oka`%&ihbqJSD+5E7fx*i7
z!G8=73*iUdy{-Tyq@-BC8$>At$;lN_3X}F8w+$tU^zU;cC`HM@ezzT^4$=|3c6t4>
z+lg8a8JTcnDD{%wA-4~ue$vzD4xluM(hy4f$ndC(Bg1^c(I+D)&GZTVp9?O5;@0Hv
zkNoz?E{g68q7W+ypGh~Qe-aSA9ro6i2vv6q0mcydP5{!gkuj?`4n8KBchBH%+#pp$
yFYAZCTRoB)b_SYo->gw!F3)k?ZisM^zmw6wlJjM9{&C=Sj*D%LJRw+mF8%|XT25^M

literal 0
HcmV?d00001

diff --git a/model_executor/layers/rotary_embedding/base.py b/model_executor/layers/rotary_embedding/base.py
new file mode 100644
index 0000000..ce4f406
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/base.py
@@ -0,0 +1,235 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Rotary Positional Embeddings Base Class."""
+
+import torch
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.model_executor.custom_op import CustomOp
+
+from .common import apply_rotary_emb_torch
+
+
+@CustomOp.register("rotary_embedding")
+class RotaryEmbeddingBase(CustomOp):
+    """Original rotary positional embedding."""
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+    ) -> None:
+        super().__init__()
+        self.head_size = head_size
+        self.rotary_dim = rotary_dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        self.is_neox_style = is_neox_style
+        self.dtype = dtype
+        # TODO(mgoin): disabled for now due to failures
+        # Flashinfer only supports head_size=64, 128, 256, 512.
+        # https://github.com/flashinfer-ai/flashinfer/blob/ebfd655efe830048dba5d582aaa61d61d1cf9a87/include/flashinfer/utils.cuh#L174-L202
+        # self.use_flashinfer = (self.enabled()
+        #                        and dtype in (torch.float16, torch.bfloat16)
+        #                        and current_platform.is_cuda()
+        #                        and has_flashinfer()
+        #                        and self.head_size in [64, 128, 256, 512])
+        self.use_flashinfer = False
+
+        cache = self._compute_cos_sin_cache()
+        if not self.use_flashinfer:
+            cache = cache.to(dtype)
+        self.cos_sin_cache: torch.Tensor
+        self.register_buffer("cos_sin_cache", cache, persistent=False)
+        self.is_rocm_triton_rotary_embed_enabled = (
+            rocm_aiter_ops.is_triton_rotary_embed_enabled()
+        )
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        """Compute the inverse frequency."""
+        # NOTE(woosuk): To exactly match the HF implementation, we need to
+        # use CPU to compute the cache and then move it to GPU. However, we
+        # create the cache on GPU for faster initialization. This may cause
+        # a slight numerical difference between the HF implementation and ours.
+        inv_freq = 1.0 / (
+            base
+            ** (
+                torch.arange(0, self.rotary_dim, 2, dtype=torch.float) / self.rotary_dim
+            )
+        )
+        return inv_freq
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        """Compute the cos and sin cache."""
+        inv_freq = self._compute_inv_freq(self.base)
+        t = torch.arange(self.max_position_embeddings, dtype=torch.float)
+
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos()
+        sin = freqs.sin()
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
+
+    def _match_cos_sin_cache_dtype(self, query: torch.Tensor) -> None:
+        # __setattr__ in nn.Module (called by `self.cos_sin_cache = ...`)
+        # is expensive, so avoid calling it if possible
+        if (
+            self.cos_sin_cache.device != query.device
+            or self.cos_sin_cache.dtype != query.dtype
+        ):
+            self.cos_sin_cache = self.cos_sin_cache.to(query.device, dtype=query.dtype)
+
+
+class RotaryEmbedding(RotaryEmbeddingBase):
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+    ) -> None:
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    @staticmethod
+    def forward_static(
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        head_size: int,
+        rotary_dim: int,
+        cos_sin_cache: torch.Tensor,
+        is_neox_style: bool,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """A PyTorch-native implementation of forward()."""
+        positions = positions.flatten()
+        num_tokens = positions.shape[0]
+        cos_sin = cos_sin_cache.index_select(0, positions)
+        cos, sin = cos_sin.chunk(2, dim=-1)
+
+        query_shape = query.shape
+        query = query.view(num_tokens, -1, head_size)
+        query_rot = query[..., :rotary_dim]
+        query_pass = query[..., rotary_dim:]
+        query_rot = apply_rotary_emb_torch(query_rot, cos, sin, is_neox_style)
+        query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
+
+        # key may be None in some cases, e.g. cross-layer KV sharing
+        if key is not None:
+            key_shape = key.shape
+            key = key.view(num_tokens, -1, head_size)
+            key_rot = key[..., :rotary_dim]
+            key_pass = key[..., rotary_dim:]
+            key_rot = apply_rotary_emb_torch(key_rot, cos, sin, is_neox_style)
+            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        return query, key
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """A PyTorch-native implementation of forward()."""
+        return self.forward_static(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.rotary_dim,
+            self.cos_sin_cache,
+            self.is_neox_style,
+        )
+
+    def forward_cuda(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        if self.use_flashinfer:
+            torch.ops.vllm.flashinfer_rotary_embedding(
+                positions,
+                query,
+                key,
+                self.head_size,
+                self.cos_sin_cache,
+                self.is_neox_style,
+            )
+            return query, key
+
+        from vllm import _custom_ops as ops
+
+        self._match_cos_sin_cache_dtype(query)
+
+        # ops.rotary_embedding() is an in-place operation
+        # that updates the query and key tensors.
+        ops.rotary_embedding(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.cos_sin_cache,
+            self.is_neox_style,
+        )
+        return query, key
+
+    def forward_hip(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        if self.is_rocm_triton_rotary_embed_enabled:
+            self._match_cos_sin_cache_dtype(query)
+            rocm_aiter_ops.triton_rotary_embed(
+                positions,
+                query,
+                key,
+                self.cos_sin_cache,
+                self.head_size,
+                self.rotary_dim,
+                self.is_neox_style,
+            )
+            return query, key
+        return self.forward_cuda(positions, query, key)
+
+    def forward_xpu(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        from vllm._ipex_ops import ipex_ops as ops
+
+        self._match_cos_sin_cache_dtype(query)
+        # ops.rotary_embedding() is an in-place operation
+        # that updates the query and key tensors.
+        if key is None:
+            # XPU kernel doesn't support key=None so fall back to native impl
+            # TODO(sarckk): add support for optional key in
+            # ipex.llm.functional.rotary_embedding_batched
+            return self.forward_native(positions, query, key)
+        else:
+            ops.rotary_embedding(
+                positions,
+                query,
+                key,
+                self.head_size,
+                self.cos_sin_cache,
+                self.is_neox_style,
+            )
+        return query, key
+
+    def extra_repr(self) -> str:
+        s = f"head_size={self.head_size}, rotary_dim={self.rotary_dim}"
+        s += f", max_position_embeddings={self.max_position_embeddings}"
+        s += f", base={self.base}, is_neox_style={self.is_neox_style}"
+        return s
diff --git a/model_executor/layers/rotary_embedding/common.py b/model_executor/layers/rotary_embedding/common.py
new file mode 100644
index 0000000..9b5c069
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/common.py
@@ -0,0 +1,188 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Callable
+from functools import cache
+from importlib.util import find_spec
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op
+
+# if current_platform.is_cuda():
+    # from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+
+logger = init_logger(__name__)
+
+
+# common functions
+def rotate_neox(x: torch.Tensor) -> torch.Tensor:
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+def rotate_gptj(x: torch.Tensor) -> torch.Tensor:
+    x1 = x[..., ::2]
+    x2 = x[..., 1::2]
+    x = torch.stack((-x2, x1), dim=-1)
+    return x.flatten(-2)
+
+
+def apply_rotary_emb_torch(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    is_neox_style: bool,
+) -> torch.Tensor:
+    cos = cos.unsqueeze(-2).to(x.dtype)
+    sin = sin.unsqueeze(-2).to(x.dtype)
+    if is_neox_style:
+        x1, x2 = torch.chunk(x, 2, dim=-1)
+    else:
+        x1 = x[..., ::2]
+        x2 = x[..., 1::2]
+    o1 = x1 * cos - x2 * sin
+    o2 = x2 * cos + x1 * sin
+    if is_neox_style:
+        return torch.cat((o1, o2), dim=-1)
+    else:
+        return torch.stack((o1, o2), dim=-1).flatten(-2)
+
+
+def apply_rotary_emb_dispatch(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, is_neox_style: bool
+) -> torch.Tensor:
+    """
+    Args:
+        x: [num_tokens, num_heads, head_size]
+        cos: [num_tokens, head_size // 2]
+        sin: [num_tokens, head_size // 2]
+        is_neox_style: Whether to use the Neox-style or GPT-J-style rotary
+            positional embeddings.
+    """
+    # if current_platform.is_cuda():
+    #     return apply_rotary_emb(x.unsqueeze(0), cos, sin, not is_neox_style).squeeze(0)
+    # else:
+    return apply_rotary_emb_torch(x, cos, sin, is_neox_style)
+
+
+@cache
+def dispatch_rotary_emb_function(
+    default: Callable[..., torch.Tensor] | None = None,
+) -> Callable[..., torch.Tensor]:
+    # if current_platform.is_cuda():
+    #     return apply_rotary_emb
+
+    # # if torch compile is not enabled
+    # # use rotary embedding function from flash_attn package
+    # # otherwise use the naive pytorch embedding implementation
+    # # is faster when torch compile is enabled.
+    # if current_platform.is_rocm() and not torch.compiler.is_compiling():
+    #     if find_spec("flash_attn") is not None:
+    #         from flash_attn.ops.triton.rotary import apply_rotary
+
+    #         return apply_rotary
+    #     else:
+    #         logger.warning(
+    #             "flash_attn is not installed. Falling back to PyTorch "
+    #             "implementation for rotary embeddings."
+    #         )
+    if default is not None:
+        return default
+
+    return apply_rotary_emb_torch
+
+
+# yarn functions
+# Inverse dim formula to find dim based on number of rotations
+def yarn_find_correction_dim(
+    num_rotations: int,
+    dim: int,
+    base: float = 10000,
+    max_position_embeddings: int = 2048,
+) -> float:
+    return (dim * math.log(max_position_embeddings / (num_rotations * 2 * math.pi))) / (
+        2 * math.log(base)
+    )
+
+
+# Find dim range bounds based on rotations
+def yarn_find_correction_range(
+    low_rot: int,
+    high_rot: int,
+    dim: int,
+    base: float = 10000,
+    max_position_embeddings: int = 2048,
+) -> tuple[int, int]:
+    low = math.floor(
+        yarn_find_correction_dim(low_rot, dim, base, max_position_embeddings)
+    )
+    high = math.ceil(
+        yarn_find_correction_dim(high_rot, dim, base, max_position_embeddings)
+    )
+    return max(low, 0), min(high, dim - 1)  # Clamp values just in case
+
+
+def yarn_linear_ramp_mask(
+    low: float, high: float, dim: int, dtype: torch.dtype
+) -> torch.Tensor:
+    if low == high:
+        high += 0.001  # Prevent singularity
+
+    linear_func = (torch.arange(dim, dtype=dtype) - low) / (high - low)
+    ramp_func = torch.clamp(linear_func, 0, 1)
+    return ramp_func
+
+
+def yarn_get_mscale(scale: float = 1) -> float:
+    if scale <= 1:
+        return 1.0
+    return 0.1 * math.log(scale) + 1.0
+
+
+def _flashinfer_rotary_embedding(
+    positions: torch.Tensor,
+    query: torch.Tensor,
+    key: torch.Tensor,
+    head_size: int,
+    cos_sin_cache: torch.Tensor,
+    is_neox: bool,
+) -> None:
+    """Custom op wrapper for flashinfer's rotary embedding.
+
+    This is an in-place operation that modifies query and key tensors directly.
+    """
+    from flashinfer.rope import apply_rope_with_cos_sin_cache_inplace
+
+    apply_rope_with_cos_sin_cache_inplace(
+        positions=positions,
+        query=query,
+        key=key,
+        head_size=head_size,
+        cos_sin_cache=cos_sin_cache,
+        is_neox=is_neox,
+    )
+
+
+def _flashinfer_rotary_embedding_fake(
+    positions: torch.Tensor,
+    query: torch.Tensor,
+    key: torch.Tensor,
+    head_size: int,
+    cos_sin_cache: torch.Tensor,
+    is_neox: bool,
+) -> None:
+    return
+
+
+# Register flashinfer rotary embedding custom op
+direct_register_custom_op(
+    op_name="flashinfer_rotary_embedding",
+    op_func=_flashinfer_rotary_embedding,
+    mutates_args=["query", "key"],  # These tensors are modified in-place
+    fake_impl=_flashinfer_rotary_embedding_fake,
+)
diff --git a/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py b/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
new file mode 100644
index 0000000..b85099b
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+
+import torch
+
+from vllm.platforms import current_platform
+
+from .base import RotaryEmbedding
+from .common import (
+    rotate_gptj,
+    rotate_neox,
+    yarn_find_correction_range,
+    yarn_linear_ramp_mask,
+)
+
+
+def yarn_get_mscale(scale: float = 1, mscale: float = 1) -> float:
+    if scale <= 1:
+        return 1.0
+    return 0.1 * mscale * math.log(scale) + 1.0
+
+
+class DeepseekScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with YaRN method.
+
+    Credits to Peng et al. github.com/jquesnelle/yarn
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_factor: float,
+        dtype: torch.dtype,
+        *,
+        extrapolation_factor: float = 1,
+        attn_factor: float = 1,
+        beta_fast: int = 32,
+        beta_slow: int = 1,
+        mscale: float = 1,
+        mscale_all_dim: float = 0,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        self.extrapolation_factor = extrapolation_factor
+        self.attn_factor = attn_factor
+        self.beta_fast = beta_fast
+        self.beta_slow = beta_slow
+        # Get n-d magnitude scaling corrected for interpolation.
+        self.mscale = float(
+            yarn_get_mscale(self.scaling_factor, float(mscale))
+            / yarn_get_mscale(self.scaling_factor, float(mscale_all_dim))
+            * attn_factor
+        )
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_inv_freq(self, scaling_factor: float) -> torch.Tensor:
+        pos_freqs = self.base ** (
+            torch.arange(
+                0,
+                self.rotary_dim,
+                2,
+                dtype=torch.float,
+                device=current_platform.device_type,
+            )
+            / self.rotary_dim
+        )
+        inv_freq_extrapolation = 1.0 / pos_freqs
+        inv_freq_interpolation = 1.0 / (scaling_factor * pos_freqs)
+
+        low, high = yarn_find_correction_range(
+            self.beta_fast,
+            self.beta_slow,
+            self.rotary_dim,
+            self.base,
+            self.max_position_embeddings,
+        )
+        # Get n-d rotational scaling corrected for extrapolation
+        inv_freq_mask = (
+            1
+            - yarn_linear_ramp_mask(low, high, self.rotary_dim // 2, dtype=torch.float)
+        ) * self.extrapolation_factor
+        inv_freq = (
+            inv_freq_interpolation * (1 - inv_freq_mask)
+            + inv_freq_extrapolation * inv_freq_mask
+        )
+        return inv_freq
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        inv_freq = self._compute_inv_freq(self.scaling_factor)
+        t = torch.arange(
+            self.max_position_embeddings * self.scaling_factor,
+            device=current_platform.device_type,
+            dtype=torch.float32,
+        )
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos() * self.mscale
+        sin = freqs.sin() * self.mscale
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
\ No newline at end of file
diff --git a/model_executor/layers/rotary_embedding/dual_chunk_rope.py b/model_executor/layers/rotary_embedding/dual_chunk_rope.py
new file mode 100644
index 0000000..b5dd94c
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/dual_chunk_rope.py
@@ -0,0 +1,215 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.model_executor.custom_op import CustomOp
+
+from .common import rotate_gptj, rotate_neox
+
+
+@CustomOp.register("dual_chunk_rotary_embedding")
+class DualChunkRotaryEmbedding(CustomOp):
+    """Rotary positional embedding for Dual Chunk Attention."""
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+        chunk_size: int,
+        local_size: int,
+    ) -> None:
+        super().__init__()
+        self.head_size = head_size
+        self.rotary_dim = rotary_dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        self.is_neox_style = is_neox_style
+        self.chunk_size = chunk_size
+        self.local_size = local_size
+        self.dtype = dtype
+        self.device = torch.device(f"cuda:{torch.cuda.current_device()}")
+        (q_cache, qc_cache, k_cache, qc_no_clamp_cache, q_inter_cache) = (
+            self._compute_cos_sin_cache()
+        )
+
+        self.register_buffer("cos_sin_q_cache", q_cache, persistent=False)
+        self.register_buffer("cos_sin_qc_cache", qc_cache, persistent=False)
+        self.register_buffer("cos_sin_k_cache", k_cache, persistent=False)
+        self.register_buffer(
+            "cos_sin_qc_no_clamp_cache", qc_no_clamp_cache, persistent=False
+        )
+        self.register_buffer("cos_sin_q_inter_cache", q_inter_cache, persistent=False)
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        """Compute the inverse frequency."""
+        # NOTE(woosuk): The HF implementation uses `torch.arange(...).float()`.
+        # However, we use `torch.arange(..., dtype=torch.float)` instead to
+        # avoid numerical issues with large base values (e.g., 10000000).
+        # This may cause a slight numerical difference between the HF
+        # implementation and ours.
+        # NOTE(woosuk): To exactly match the HF implementation, we need to
+        # use CPU to compute the cache and then move it to GPU. However, we
+        # create the cache on GPU for faster initialization. This may cause
+        # a slight numerical difference between the HF implementation and ours.
+        inv_freq = 1.0 / (
+            base
+            ** (
+                torch.arange(0, self.rotary_dim, 2, dtype=torch.float) / self.rotary_dim
+            )
+        )
+        return inv_freq
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        """Compute the cos and sin cache."""
+        inv_freq = self._compute_inv_freq(self.base)
+        chunk_len = self.chunk_size - self.local_size
+        q_t = torch.arange(chunk_len, dtype=torch.float)
+        qc_t = (torch.arange(chunk_len, dtype=torch.float) + chunk_len).clamp(
+            max=self.chunk_size
+        )
+        k_t = torch.arange(self.max_position_embeddings, dtype=torch.float) % chunk_len
+
+        # count from chunk_len, no clamp(self.chunk_size) restriction
+        qc_no_clamp_t = torch.arange(chunk_len, dtype=torch.float) + chunk_len
+        # count from self.chunk_size for q_inter's rope
+        q_inter_t = torch.arange(chunk_len, dtype=torch.float) + self.chunk_size
+
+        q_freqs = torch.outer(q_t, inv_freq)
+        qc_freqs = torch.outer(qc_t, inv_freq)
+        k_freqs = torch.outer(k_t, inv_freq)
+        qc_no_clamp_freqs = torch.outer(qc_no_clamp_t, inv_freq)
+        q_inter_freqs = torch.outer(q_inter_t, inv_freq)
+
+        q_cos = q_freqs.cos()
+        q_sin = q_freqs.sin()
+        qc_cos = qc_freqs.cos()
+        qc_sin = qc_freqs.sin()
+        k_cos = k_freqs.cos()
+        k_sin = k_freqs.sin()
+
+        qc_no_clamp_cos = qc_no_clamp_freqs.cos()
+        qc_no_clamp_sin = qc_no_clamp_freqs.sin()
+        q_inter_cos = q_inter_freqs.cos()
+        q_inter_sin = q_inter_freqs.sin()
+
+        q_cache = torch.cat((q_cos, q_sin), dim=-1).to(
+            dtype=self.dtype, device=self.device
+        )
+        qc_cache = torch.cat((qc_cos, qc_sin), dim=-1).to(
+            dtype=self.dtype, device=self.device
+        )
+        k_cache = torch.cat((k_cos, k_sin), dim=-1).to(
+            dtype=self.dtype, device=self.device
+        )
+        qc_no_clamp_cache = torch.cat((qc_no_clamp_cos, qc_no_clamp_sin), dim=-1).to(
+            dtype=self.dtype, device=self.device
+        )
+        q_inter_cache = torch.cat((q_inter_cos, q_inter_sin), dim=-1).to(
+            dtype=self.dtype, device=self.device
+        )
+        return q_cache, qc_cache, k_cache, qc_no_clamp_cache, q_inter_cache
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        query = query.view(*query.shape[:-1], -1, self.head_size)
+        key = key.view(*key.shape[:-1], -1, self.head_size)
+        query_rot = query[..., : self.rotary_dim]
+        key_rot = key[..., : self.rotary_dim]
+        if self.rotary_dim < self.head_size:
+            query_pass = query[..., self.rotary_dim :]
+            key_pass = key[..., self.rotary_dim :]
+        else:
+            query_pass = None
+            key_pass = None
+
+        positions_with_offsets = (
+            torch.add(positions, offsets) if offsets is not None else positions
+        )
+        key = self._apply_rotary_embedding(
+            self.cos_sin_k_cache[positions_with_offsets], key_rot, key_pass
+        )
+        chunk_len = self.chunk_size - self.local_size
+        query = self._apply_rotary_embedding(
+            self.cos_sin_q_cache[positions_with_offsets % chunk_len],
+            query_rot,
+            query_pass,
+        )
+        query_succ = self._apply_rotary_embedding(
+            self.cos_sin_qc_cache[positions_with_offsets % chunk_len],
+            query_rot,
+            query_pass,
+        )
+        query_inter = self._apply_rotary_embedding(
+            self.cos_sin_qc_cache[chunk_len - 1].repeat(positions.shape[0], 1),
+            query_rot,
+            query_pass,
+        )
+        query_succ_critical = self._apply_rotary_embedding(
+            self.cos_sin_qc_no_clamp_cache[positions_with_offsets % chunk_len],
+            query_rot,
+            query_pass,
+        )
+        query_inter_critical = self._apply_rotary_embedding(
+            self.cos_sin_q_inter_cache[positions_with_offsets % chunk_len],
+            query_rot,
+            query_pass,
+        )
+
+        # merge query into one tensor to simplify the interfaces
+        query = torch.cat(
+            (
+                query,
+                query_succ,
+                query_inter,
+                query_succ_critical,
+                query_inter_critical,
+            ),
+            dim=-1,
+        )
+        return query, key
+
+    def forward_cuda(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return self.forward_native(positions, query, key, offsets)
+
+    def _apply_rotary_embedding(self, cos_sin, hidden_rot, hidden_pass):
+        cos, sin = cos_sin.chunk(2, dim=-1)
+        if self.is_neox_style:
+            # NOTE(woosuk): Here we assume that the positions tensor has the
+            # shape [batch_size, seq_len].
+            cos = cos.repeat(1, 1, 2).unsqueeze(-2)
+            sin = sin.repeat(1, 1, 2).unsqueeze(-2)
+        else:
+            cos = cos.repeat_interleave(2, dim=-1).unsqueeze(-2)
+            sin = sin.repeat_interleave(2, dim=-1).unsqueeze(-2)
+        rotate_fn = rotate_neox if self.is_neox_style else rotate_gptj
+        hidden_rot = hidden_rot * cos + rotate_fn(hidden_rot) * sin
+
+        if self.rotary_dim < self.head_size:
+            hidden = torch.cat((hidden_rot, hidden_pass), dim=-1)
+        else:
+            hidden = hidden_rot
+        return hidden.flatten(-2).squeeze(0)
+
+    def extra_repr(self) -> str:
+        s = f"head_size={self.head_size}, rotary_dim={self.rotary_dim}"
+        s += f", max_position_embeddings={self.max_position_embeddings}"
+        s += f", base={self.base}, is_neox_style={self.is_neox_style}"
+        s += f", chunk_size={self.chunk_size}, local_size={self.local_size}"
+        return s
diff --git a/model_executor/layers/rotary_embedding/dynamic_ntk_alpha_rope.py b/model_executor/layers/rotary_embedding/dynamic_ntk_alpha_rope.py
new file mode 100644
index 0000000..dd9d06d
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/dynamic_ntk_alpha_rope.py
@@ -0,0 +1,43 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from .base import RotaryEmbedding
+
+
+class DynamicNTKAlphaRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with Dynamic NTK alpha.
+
+    Based on the original RotaryEmbedding implementation.
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_alpha: float,
+        dtype: torch.dtype,
+    ) -> None:
+        self.scaling_alpha = scaling_alpha
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        # For Hunyuan DynamicNTKAlphaRotaryEmbedding
+        max_len = self.max_position_embeddings
+        base = self.base * self.scaling_alpha ** (
+            self.rotary_dim / (self.rotary_dim - 2)
+        )
+        inv_freq = self._compute_inv_freq(base)
+        t = torch.arange(max_len, dtype=torch.float)
+
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos()
+        sin = freqs.sin()
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
diff --git a/model_executor/layers/rotary_embedding/dynamic_ntk_scaling_rope.py b/model_executor/layers/rotary_embedding/dynamic_ntk_scaling_rope.py
new file mode 100644
index 0000000..28fd87e
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/dynamic_ntk_scaling_rope.py
@@ -0,0 +1,68 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.33.2/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import torch
+
+from .base import RotaryEmbedding
+
+
+class DynamicNTKScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with Dynamic NTK scaling.
+
+    Credits to the Reddit users /u/bloc97 and /u/emozilla
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_factor: float,
+        dtype: torch.dtype,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        # NOTE(woosuk): self.max_position_embeddings is the original
+        # maximum length before applying the rope scaling.
+        # Thus, the maximum length after applying the rope scaling is
+        # self.max_position_embeddings * self.scaling_factor.
+        max_len = self.max_position_embeddings * self.scaling_factor
+        base = self.base * (
+            (self.scaling_factor * max_len / self.max_position_embeddings)
+            - (self.scaling_factor - 1)
+        ) ** (self.rotary_dim / (self.rotary_dim - 2))
+        inv_freq = self._compute_inv_freq(base)
+        t = torch.arange(max_len, dtype=torch.float)
+
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos()
+        sin = freqs.sin()
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
diff --git a/model_executor/layers/rotary_embedding/ernie45_vl_rope.py b/model_executor/layers/rotary_embedding/ernie45_vl_rope.py
new file mode 100644
index 0000000..749cdbe
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/ernie45_vl_rope.py
@@ -0,0 +1,75 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from .common import apply_rotary_emb_dispatch
+from .mrope import MRotaryEmbedding
+
+
+class Ernie4_5_VLRotaryEmbedding(MRotaryEmbedding):
+    """3D rotary positional embedding. 3D is t:time h:height w:width"""
+
+    def forward_native(  # type: ignore[override]
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert positions.ndim == 1 or positions.ndim == 2
+        assert key is not None
+
+        num_tokens = positions.shape[-1]
+        cos_sin = self.cos_sin_cache[positions]
+        cos, sin = cos_sin.chunk(2, dim=-1)
+        if positions.ndim == 2:
+            assert self.mrope_section
+
+            section_h = self.mrope_section[0]  # 22
+            section_w = self.mrope_section[1]  # 22
+            section_t = self.mrope_section[2]  # 20
+            assert section_h == section_w
+            # Split according to [h w h w h w h w... t t t...]
+            section_cos_t = cos[..., -section_t:]
+            section_cos_h = cos[..., : section_h + section_w : 2]
+            section_cos_w = cos[..., 1 : section_h + section_w : 2]
+
+            cos_t, cos_h, cos_w = section_cos_t[0], section_cos_h[1], section_cos_w[2]
+            cos_hw = torch.stack([cos_h, cos_w], dim=-1).reshape(
+                cos_h.shape[:-1] + (cos_h.shape[-1] * 2,)
+            )
+            cos = torch.cat([cos_hw, cos_t], dim=-1)
+
+            section_sin_t = sin[..., -section_t:]
+            section_sin_h = sin[..., : section_h + section_w : 2]
+            section_sin_w = sin[..., 1 : section_h + section_w : 2]
+
+            sin_t, sin_h, sin_w = section_sin_t[0], section_sin_h[1], section_sin_w[2]
+            sin_hw = torch.stack([sin_h, sin_w], dim=-1).reshape(
+                sin_h.shape[:-1] + (sin_h.shape[-1] * 2,)
+            )
+            sin = torch.cat([sin_hw, sin_t], dim=-1)
+
+        query_shape = query.shape
+        query = query.view(num_tokens, -1, self.head_size)
+        query_rot = query[..., : self.rotary_dim]
+        query_pass = query[..., self.rotary_dim :]
+        query_rot = apply_rotary_emb_dispatch(query_rot, cos, sin, self.is_neox_style)
+        query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
+
+        key_shape = key.shape
+        key = key.view(num_tokens, -1, self.head_size)
+        key_rot = key[..., : self.rotary_dim]
+        key_pass = key[..., self.rotary_dim :]
+        key_rot = apply_rotary_emb_dispatch(key_rot, cos, sin, self.is_neox_style)
+        key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        return query, key
+
+    def forward_cuda(  # type: ignore[override]
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return self.forward_native(positions, query, key)
diff --git a/model_executor/layers/rotary_embedding/linear_scaling_rope.py b/model_executor/layers/rotary_embedding/linear_scaling_rope.py
new file mode 100644
index 0000000..bb51dcf
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/linear_scaling_rope.py
@@ -0,0 +1,115 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.33.2/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import torch
+
+from .base import RotaryEmbedding
+
+
+class LinearScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with linear scaling.
+
+    It supports multiple scaling factors. Since multiple LoRA adapters may have
+    different scaling factors, we need multiple cos/sin caches. In this way,
+    instead of running rotary embedding kernel per lora, we can run multiple
+    lora in a batched way.
+
+    In addition to that, we also keep the cos/sin cache for the scaling factor
+    of 1 (default) at all times.
+
+    Exemplary for two scaling factors x=1, y and z with embeddings
+    [[x11, x12, ... x1m], ..., [xn1, xn2, ..., xnm]] and
+    [[y11, y12, ... y1o], ..., [yn1, yn2, ..., yno]], and
+    [[z11, z12, ... z1p], ..., [zn1, zn2, ..., znp]],
+
+    we construct the cos/sin cache as follows:
+    [[x11, x12, ... x1m, y11, y12, ... y1o, z11, z12, ... z1p],
+        ...
+     [xn1, xn2, ... xnm, yn1, yn2, ... yno, zn1, zn2, ... znp]]
+
+    We then use offsets to index into the cos/sin cache for
+    the respective scaling factors.
+
+    The offset to cache can be accessed via `scaling_factor_to_offset` API.
+
+    Credits to the Reddit user /u/kaiokendev
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_factors: list[float] | float,
+        dtype: torch.dtype,
+    ) -> None:
+        if isinstance(scaling_factors, float):
+            scaling_factors = [scaling_factors]
+        self.scaling_factors: list[float] = scaling_factors  # noqa
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+        # Lazy initialized.
+        self._scaling_factor_to_offset: dict[float, int]
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        inv_freq = self._compute_inv_freq(self.base)
+        cache_list: list[torch.Tensor] = []
+        # offsets to the next cache in a tensor.
+        # Each offset corresponds to the same index in scaling_factors.
+        offsets: list[int] = []
+        for scaling_factor in self.scaling_factors:
+            # NOTE(woosuk): self.max_position_embeddings is the original
+            # maximum length before applying the rope scaling.
+            # Thus, the maximum length after applying the rope scaling is
+            # self.max_position_embeddings * self.scaling_factor.
+            max_len = self.max_position_embeddings * scaling_factor
+            t = torch.arange(max_len, dtype=torch.float)
+            t = t / scaling_factor
+
+            freqs = torch.einsum("i,j -> ij", t, inv_freq)
+            cos = freqs.cos()
+            sin = freqs.sin()
+            cache = torch.cat((cos, sin), dim=-1)
+            if not cache_list:
+                offset = 0
+            else:
+                last_offset = offsets[-1]
+                next_max_len = cache_list[-1].shape[0]
+                offset = last_offset + next_max_len
+            offsets.append(offset)
+            cache_list.append(cache)
+        self._scaling_factor_to_offset = {
+            float(scaling_factor): offsets[i]
+            for i, scaling_factor in enumerate(self.scaling_factors)
+        }
+        assert len(self.scaling_factors) == len(offsets)
+        return torch.cat(cache_list, dim=0)
+
+    @property
+    def scaling_factor_to_offset(self) -> dict[float, int]:
+        return self._scaling_factor_to_offset
diff --git a/model_executor/layers/rotary_embedding/llama3_rope.py b/model_executor/layers/rotary_embedding/llama3_rope.py
new file mode 100644
index 0000000..ed9a603
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/llama3_rope.py
@@ -0,0 +1,54 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+
+import torch
+
+from .base import RotaryEmbedding
+
+
+class Llama3RotaryEmbedding(RotaryEmbedding):
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+        scaling_factor: float,
+        low_freq_factor: float,
+        high_freq_factor: float,
+        orig_max_position: int,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        self.low_freq_factor = low_freq_factor
+        self.high_freq_factor = high_freq_factor
+        self.orig_max_position = orig_max_position
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        inv_freqs = super()._compute_inv_freq(base)
+        low_freq_wavelen = self.orig_max_position / self.low_freq_factor
+        high_freq_wavelen = self.orig_max_position / self.high_freq_factor
+
+        wave_len = 2 * math.pi / inv_freqs
+        if self.low_freq_factor != self.high_freq_factor:
+            smooth = (self.orig_max_position / wave_len - self.low_freq_factor) / (
+                self.high_freq_factor - self.low_freq_factor
+            )
+        else:
+            smooth = 0
+        new_freqs = torch.where(
+            wave_len < high_freq_wavelen,
+            inv_freqs,
+            torch.where(
+                wave_len > low_freq_wavelen,
+                inv_freqs / self.scaling_factor,
+                (1 - smooth) * inv_freqs / self.scaling_factor + smooth * inv_freqs,
+            ),
+        )
+        return new_freqs
diff --git a/model_executor/layers/rotary_embedding/llama4_vision_rope.py b/model_executor/layers/rotary_embedding/llama4_vision_rope.py
new file mode 100644
index 0000000..9fdac30
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/llama4_vision_rope.py
@@ -0,0 +1,80 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+
+import torch
+
+from .base import RotaryEmbeddingBase
+
+
+class Llama4VisionRotaryEmbedding(RotaryEmbeddingBase):
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+    ):
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        inv_freqs = super()._compute_inv_freq(base)
+        inv_freqs = inv_freqs[: (self.rotary_dim // 2)]
+        return inv_freqs
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        inv_freq = self._compute_inv_freq(self.base)
+
+        # self.max_position_embeddings here is number of image patches
+        # i.e. (image_size // patch_size) ** 2
+        num_patches = self.max_position_embeddings
+        img_idx = torch.arange(num_patches, dtype=torch.int32).reshape(num_patches, 1)
+        img_idx = torch.cat([img_idx, img_idx[:1]], dim=0)
+        img_idx[-1, -1] = -2  # set to ID_CLS_TOKEN
+        num_patches_single_dim = int(math.sqrt(num_patches))
+        frequencies_x = img_idx % num_patches_single_dim
+        frequencies_y = img_idx // num_patches_single_dim
+        freqs_x = (
+            (frequencies_x + 1)[..., None] * inv_freq[None, None, :]
+        ).repeat_interleave(2, dim=-1)
+        freqs_y = (
+            (frequencies_y + 1)[..., None] * inv_freq[None, None, :]
+        ).repeat_interleave(2, dim=-1)
+        freqs = torch.cat([freqs_x, freqs_y], dim=-1).float().contiguous()[..., ::2]
+        freqs = freqs.masked_fill(img_idx.reshape(-1, 1, 1) < 0, 0)
+        cache = torch.view_as_complex(
+            torch.stack([torch.cos(freqs), torch.sin(freqs)], dim=-1)
+        )
+        return cache
+
+    def forward_native(  # type: ignore[override]
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert key is not None
+        # self.cos_sin_cache here is complex tensor so we cannot cast into
+        # query's dtype directly with self._match_cos_sin_cache_dtype
+        self.cos_sin_cache: torch.Tensor = self.cos_sin_cache.to(query.device)
+        query_ = torch.view_as_complex(query.float().reshape(*query.shape[:-1], -1, 2))
+        key_ = torch.view_as_complex(key.float().reshape(*key.shape[:-1], -1, 2))
+        broadcast_shape = [
+            d if i == 1 or i == (query_.ndim - 1) else 1
+            for i, d in enumerate(query_.shape)
+        ]
+        freqs_ci = self.cos_sin_cache.view(*broadcast_shape)
+        query_out = torch.view_as_real(query_ * freqs_ci).flatten(3)
+        key_out = torch.view_as_real(key_ * freqs_ci).flatten(3)
+        return query_out.type_as(query), key_out.type_as(key)
+
+    def forward_cuda(  # type: ignore[override]
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return self.forward_native(query, key)
diff --git a/model_executor/layers/rotary_embedding/mrope.py b/model_executor/layers/rotary_embedding/mrope.py
new file mode 100644
index 0000000..8699fa7
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/mrope.py
@@ -0,0 +1,403 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import numpy as np
+import torch
+
+from vllm.triton_utils import tl, triton
+
+from .base import RotaryEmbeddingBase
+from .common import apply_rotary_emb_dispatch
+from .yarn_scaling_rope import YaRNScalingRotaryEmbedding, yarn_get_mscale
+
+
+@triton.jit
+def _triton_mrope_forward(
+    q_ptr,
+    k_ptr,
+    cos,
+    sin,
+    num_tokens,
+    n_qh: tl.constexpr,
+    n_kh: tl.constexpr,
+    hd: tl.constexpr,
+    rd: tl.constexpr,
+    pad_n_qh: tl.constexpr,
+    pad_n_kh: tl.constexpr,
+    pad_hd: tl.constexpr,
+    mrope_section_t: tl.constexpr,
+    mrope_section_h: tl.constexpr,
+    mrope_section_w: tl.constexpr,
+    is_interleaved: tl.constexpr,
+):
+    # Adapted from
+    # https://github.com/linkedin/Liger-Kernel/blob/main/src/liger_kernel/ops/qwen2vl_mrope.py
+    # This version supports flatten input tensors from vllm
+    # and supports cos and sin cache with shape (3, num_tokens, head_dim // 2)
+    # instead of (3, bsz, seq_len, head_dim), also supports interleaved rotary
+    pid = tl.program_id(0)
+    # locate start address
+    q_ptr = q_ptr + pid * (n_qh * hd)
+    k_ptr = k_ptr + pid * (n_kh * hd)
+
+    # ####################################################################
+    # get the cos(mθ_{i...d/2}) and sin(mθ_{i...d/2}) for token position
+    # m of this program instance
+    # ####################################################################
+    # Note: cos and sin now have shape (3, num_tokens, head_dim // 2)
+
+    # Updated stride calculation for half head_dim
+    half_rd = rd // 2
+    t_cos = cos + pid * half_rd
+    h_cos = t_cos + num_tokens * half_rd
+    w_cos = h_cos + num_tokens * half_rd
+    t_sin = sin + pid * half_rd
+    h_sin = t_sin + num_tokens * half_rd
+    w_sin = h_sin + num_tokens * half_rd
+
+    # Updated offsets for half head_dim
+    cos_offsets = tl.arange(0, pad_hd // 2)
+    if is_interleaved:
+        h_mask = ((cos_offsets % 3) == 1) & (cos_offsets <= 3 * mrope_section_h)
+        w_mask = ((cos_offsets % 3) == 2) & (cos_offsets <= 3 * mrope_section_w)
+        t_mask = ~(h_mask | w_mask)
+    else:
+        t_end = mrope_section_t
+        h_end = t_end + mrope_section_h
+        t_mask = cos_offsets < mrope_section_t
+        h_mask = (t_end <= cos_offsets) & (cos_offsets < h_end)
+        w_mask = (h_end <= cos_offsets) & (cos_offsets < half_rd)
+
+    t_cos_row = tl.load(t_cos + cos_offsets, mask=t_mask, other=0)
+    h_cos_row = tl.load(h_cos + cos_offsets, mask=h_mask, other=0)
+    w_cos_row = tl.load(w_cos + cos_offsets, mask=w_mask, other=0)
+    t_sin_row = tl.load(t_sin + cos_offsets, mask=t_mask, other=0)
+    h_sin_row = tl.load(h_sin + cos_offsets, mask=h_mask, other=0)
+    w_sin_row = tl.load(w_sin + cos_offsets, mask=w_mask, other=0)
+
+    cos_row = t_cos_row + h_cos_row + w_cos_row
+    sin_row = t_sin_row + h_sin_row + w_sin_row
+
+    # ####################################################################
+    # Load the left and right half of q and k for the current
+    # program instance (i.e. for the current token) separately
+    # ####################################################################
+    # left half of the head
+    first_half_q_offsets = (
+        tl.arange(0, pad_n_qh)[:, None] * hd + tl.arange(0, pad_hd // 2)[None, :]
+    )
+    first_half_k_offsets = (
+        tl.arange(0, pad_n_kh)[:, None] * hd + tl.arange(0, pad_hd // 2)[None, :]
+    )
+    first_q_mask = (tl.arange(0, pad_n_qh)[:, None] < n_qh) & (
+        tl.arange(0, pad_hd // 2)[None, :] < rd // 2
+    )
+    first_k_mask = (tl.arange(0, pad_n_kh)[:, None] < n_kh) & (
+        tl.arange(0, pad_hd // 2)[None, :] < rd // 2
+    )
+
+    q_tile_1 = tl.load(q_ptr + first_half_q_offsets, mask=first_q_mask, other=0).to(
+        sin_row.dtype
+    )
+    k_tile_1 = tl.load(k_ptr + first_half_k_offsets, mask=first_k_mask, other=0).to(
+        sin_row.dtype
+    )
+
+    # right half of the head
+    second_half_q_offsets = first_half_q_offsets + (rd // 2)
+    second_half_k_offsets = first_half_k_offsets + (rd // 2)
+    second_q_mask = first_q_mask
+    second_k_mask = first_k_mask
+
+    q_tile_2 = tl.load(q_ptr + second_half_q_offsets, mask=second_q_mask, other=0).to(
+        sin_row.dtype
+    )
+    k_tile_2 = tl.load(k_ptr + second_half_k_offsets, mask=second_k_mask, other=0).to(
+        sin_row.dtype
+    )
+
+    # y = [x1, x2] * [cos, cos] + [-x2, x1] * [sin, sin]
+    # Since cos and sin are now half-size,
+    # we use the same cos_row and sin_row for both halves
+    new_q_tile_1 = q_tile_1 * cos_row - q_tile_2 * sin_row
+    tl.store(q_ptr + first_half_q_offsets, new_q_tile_1, mask=first_q_mask)
+    new_q_tile_2 = q_tile_2 * cos_row + q_tile_1 * sin_row
+    tl.store(q_ptr + second_half_q_offsets, new_q_tile_2, mask=second_q_mask)
+
+    new_k_tile_1 = k_tile_1 * cos_row - k_tile_2 * sin_row
+    tl.store(k_ptr + first_half_k_offsets, new_k_tile_1, mask=first_k_mask)
+    new_k_tile_2 = k_tile_2 * cos_row + k_tile_1 * sin_row
+    tl.store(k_ptr + second_half_k_offsets, new_k_tile_2, mask=second_k_mask)
+
+
+def triton_mrope(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    mrope_section: list[int],
+    head_size: int,
+    rotary_dim: int,
+    mrope_interleaved: bool,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Qwen2VL mrope kernel.
+
+    Args:
+        q: [num_tokens, num_heads * head_size]
+        k: [num_tokens, num_kv_heads * head_size]
+        cos: [3, num_tokens, head_size //2 ]
+            (T/H/W positions with multimodal inputs)
+        sin: [3, num_tokens, head_size //2 ]
+            (T/H/W positions with multimodal inputs)
+        mrope_section: [t, h, w]
+        head_size: int
+    """
+    n_row, n_q_head_head_dim = q.shape
+    n_q_head = n_q_head_head_dim // head_size
+    n_kv_head = k.shape[1] // head_size
+    pad_hd = triton.next_power_of_2(head_size)
+    pad_n_q_head = triton.next_power_of_2(n_q_head)
+    pad_n_kv_head = triton.next_power_of_2(n_kv_head)
+
+    # ensure tensors passed into the kernel are contiguous.
+    # It will be no-op if they are already contiguous
+    q = q.contiguous()
+    k = k.contiguous()
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+
+    _triton_mrope_forward[(n_row,)](
+        q,
+        k,
+        cos,
+        sin,
+        n_row,
+        n_q_head,
+        n_kv_head,
+        head_size,
+        rotary_dim,
+        pad_n_q_head,
+        pad_n_kv_head,
+        pad_hd,
+        mrope_section[0],
+        mrope_section[1],
+        mrope_section[2],
+        mrope_interleaved,
+    )
+    return q, k
+
+
+def apply_interleaved_rope(x: torch.Tensor, mrope_section: list[int]) -> torch.Tensor:
+    """Apply interleaved MRoPE to 3D rotary embeddings.
+    Reorganizes frequency layout from chunked [TTT...HHH...WWW] to
+    interleaved [THTHWHTHW...TT], preserving frequency continuity.
+    """
+    x_t = x[0].clone()
+    x_t[..., 1 : mrope_section[1] * 3 : 3] = x[1, ..., 1 : mrope_section[1] * 3 : 3]
+    x_t[..., 2 : mrope_section[2] * 3 : 3] = x[2, ..., 2 : mrope_section[2] * 3 : 3]
+    return x_t
+
+
+class MRotaryEmbedding(RotaryEmbeddingBase):
+    """Rotary Embedding with Multimodal Sections."""
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+        mrope_section: list[int] | None = None,
+        mrope_interleaved: bool = False,
+        # YaRN parameters.
+        *,
+        scaling_factor: float | None = None,
+        extrapolation_factor: float = 1,
+        attn_factor: float = 1,
+        beta_fast: int = 32,
+        beta_slow: int = 1,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        self.extrapolation_factor = extrapolation_factor
+        self.attn_factor = attn_factor
+        self.beta_fast = beta_fast
+        self.beta_slow = beta_slow
+        if self.scaling_factor is not None:
+            # Get n-d magnitude scaling corrected for interpolation
+            self.mscale = float(yarn_get_mscale(self.scaling_factor) * attn_factor)
+        else:
+            self.mscale = 1.0
+
+        # In Qwen2.5-VL, the maximum index value is related to the duration of
+        # the input video. We enlarge max_position_embeddings to 4 times to get
+        # a larger the cos and sin cache.
+        self.cache_max_position_num = max_position_embeddings * 4
+        super().__init__(
+            head_size,
+            rotary_dim,
+            self.cache_max_position_num,
+            base,
+            is_neox_style,
+            dtype,
+        )
+
+        self.mrope_section = mrope_section
+        self.mrope_interleaved = mrope_interleaved
+        if self.mrope_section:
+            assert sum(self.mrope_section) == rotary_dim // 2
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        if self.scaling_factor is None:
+            return super()._compute_inv_freq(base)
+        return YaRNScalingRotaryEmbedding._compute_inv_freq(self, base)
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        if self.scaling_factor is None:
+            return super()._compute_cos_sin_cache()
+        return YaRNScalingRotaryEmbedding._compute_cos_sin_cache(self)
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """PyTorch-native implementation equivalent to forward().
+
+        Args:
+            positions:
+                [num_tokens,] (text only) or
+                [3, num_tokens] (T/H/W positions with multimodal inputs)
+            query: [num_tokens, num_heads * head_size]
+            key: [num_tokens, num_kv_heads * head_size]
+        """
+        assert positions.ndim == 1 or positions.ndim == 2
+        assert key is not None
+
+        self._match_cos_sin_cache_dtype(query)
+        num_tokens = positions.shape[-1]
+        cos_sin = self.cos_sin_cache[positions]
+        cos, sin = cos_sin.chunk(2, dim=-1)
+        if positions.ndim == 2:
+            assert self.mrope_section
+            if self.mrope_interleaved:
+                cos = apply_interleaved_rope(cos, self.mrope_section)
+                sin = apply_interleaved_rope(sin, self.mrope_section)
+            else:
+                cos = torch.cat(
+                    [m[i] for i, m in enumerate(cos.split(self.mrope_section, dim=-1))],
+                    dim=-1,
+                )
+                sin = torch.cat(
+                    [m[i] for i, m in enumerate(sin.split(self.mrope_section, dim=-1))],
+                    dim=-1,
+                )
+
+        query_shape = query.shape
+        query = query.view(num_tokens, -1, self.head_size)
+        query_rot = query[..., : self.rotary_dim]
+        query_pass = query[..., self.rotary_dim :]
+        query_rot = apply_rotary_emb_dispatch(query_rot, cos, sin, self.is_neox_style)
+        query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
+
+        key_shape = key.shape
+        key = key.view(num_tokens, -1, self.head_size)
+        key_rot = key[..., : self.rotary_dim]
+        key_pass = key[..., self.rotary_dim :]
+        key_rot = apply_rotary_emb_dispatch(key_rot, cos, sin, self.is_neox_style)
+        key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        return query, key
+
+    def forward_cuda(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert positions.ndim == 1 or positions.ndim == 2
+        assert key is not None
+        from vllm import _custom_ops as ops
+
+        self._match_cos_sin_cache_dtype(query)
+        
+        if self.mrope_interleaved:
+            num_tokens = positions.shape[-1]
+            cos_sin = self.cos_sin_cache[positions]
+            cos, sin = cos_sin.chunk(2, dim=-1)
+            query_shape = query.shape
+            key_shape = key.shape
+            if positions.ndim == 2:
+                assert self.mrope_section
+                q, k = triton_mrope(
+                    query,
+                    key,
+                    cos,
+                    sin,
+                    self.mrope_section,
+                    self.head_size,
+                    self.rotary_dim,
+                    self.mrope_interleaved,
+                )
+
+                return q.reshape(query_shape), k.reshape(key_shape)
+            
+        if positions.ndim == 1:
+            ops.rotary_embedding(positions, query, key, self.head_size,
+                                 self.cos_sin_cache, self.is_neox_style)
+        else:
+            if self.is_neox_style:
+                ops.m_rotary_embedding(positions.contiguous(), query, key, self.head_size,
+                                        self.cos_sin_cache, 
+                                        torch.tensor(self.mrope_section, dtype=torch.int), 
+                                        self.is_neox_style)
+            else:
+                query, key = self.forward_native(
+                    positions, query, key
+                )
+        
+        
+        return query, key
+
+    def forward_cpu(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return self.forward_native(positions, query, key, offsets)
+
+    @staticmethod
+    def get_next_input_positions(
+        mrope_position_delta: int,
+        context_len: int,
+        seq_len: int,
+    ) -> list[list[int]]:
+        return [
+            list(
+                range(
+                    context_len + mrope_position_delta, seq_len + mrope_position_delta
+                )
+            )
+            for _ in range(3)
+        ]
+
+    @staticmethod
+    def get_next_input_positions_tensor(
+        out: np.ndarray,
+        out_offset: int,
+        mrope_position_delta: int,
+        context_len: int,
+        num_new_tokens: int,
+    ):
+        values = np.arange(
+            mrope_position_delta + context_len,
+            mrope_position_delta + context_len + num_new_tokens,
+            dtype=out.dtype,
+        )
+        out[:, out_offset : out_offset + num_new_tokens] = values
diff --git a/model_executor/layers/rotary_embedding/ntk_scaling_rope.py b/model_executor/layers/rotary_embedding/ntk_scaling_rope.py
new file mode 100644
index 0000000..031a12f
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/ntk_scaling_rope.py
@@ -0,0 +1,47 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from .base import RotaryEmbedding
+
+
+class NTKScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with fixed and mixed NTK scaling.
+    https://kexue.fm/archives/9706"""
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_factor: float,
+        dtype: torch.dtype,
+        mixed_b: float | None = None,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        self.mixed_b = mixed_b
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_inv_freq(self, base: float) -> torch.Tensor:
+        base = self.base * (self.scaling_factor if self.mixed_b is None else 1)
+        inv_freq = super()._compute_inv_freq(base)
+
+        if self.mixed_b is None:
+            inv_freq = inv_freq / self.scaling_factor ** (2 / self.rotary_dim)
+        else:
+            a = (
+                torch.tensor(self.scaling_factor).log()
+                / (self.rotary_dim / 2) ** self.mixed_b
+            )
+            lambda_1_m = (
+                a * torch.arange(1, self.rotary_dim // 2 + 1).float() ** self.mixed_b
+            ).exp()
+            inv_freq = inv_freq / lambda_1_m
+
+        return inv_freq
diff --git a/model_executor/layers/rotary_embedding/phi3_long_rope_scaled_rope.py b/model_executor/layers/rotary_embedding/phi3_long_rope_scaled_rope.py
new file mode 100644
index 0000000..5e519cf
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/phi3_long_rope_scaled_rope.py
@@ -0,0 +1,151 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+
+import torch
+import torch.nn as nn
+
+from vllm.config import get_current_vllm_config
+from vllm.logger import init_logger
+
+from .common import rotate_neox
+
+logger = init_logger(__name__)
+
+import ixformer.inference.functions as ixops
+
+class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
+    """Phi3 family of models scaled rotary embedding.
+
+    Based on the original RotaryEmbedding implementation.
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        original_max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+        short_factor: list[float],
+        long_factor: list[float],
+        short_mscale: float | None = None,
+        long_mscale: float | None = None,
+    ):
+        super().__init__()
+
+        if is_neox_style is False:
+            raise ValueError(
+                "`Phi3LongRoPEScaledRotaryEmbedding` only supports neox_style."
+            )
+
+        self.rotary_dim = rotary_dim
+        self.head_size = head_size
+        self.max_position_embeddings = max_position_embeddings
+        self.original_max_position_embeddings = original_max_position_embeddings
+        self.base = base
+        self.short_factor = short_factor
+        self.long_factor = long_factor
+
+        # Force long factors if max_model_len (runtime max length) exceeds
+        # original_max_position_embeddings to prevent KV cache invalidation when
+        # sequences cross this threshold during generation
+        max_model_len = get_current_vllm_config().model_config.max_model_len
+        self.use_long_rope = max_model_len > original_max_position_embeddings
+        if self.use_long_rope:
+            logger.warning_once(
+                "Using LongRoPE scaling factors. This enables longer "
+                "contexts (%d tokens vs original %d tokens) at the cost of "
+                "some performance degradation for shorter sequences. If "
+                "this is not desired, set `max_model_len` to be at most %d.",
+                max_position_embeddings,
+                original_max_position_embeddings,
+                original_max_position_embeddings,
+            )
+
+        scale = self.max_position_embeddings / self.original_max_position_embeddings
+        if scale <= 1.0:
+            scaling_factor = 1.0
+        else:
+            scaling_factor = math.sqrt(
+                1 + math.log(scale) / math.log(self.original_max_position_embeddings)
+            )
+        if short_mscale is None:
+            short_mscale = scaling_factor
+        if long_mscale is None:
+            long_mscale = scaling_factor
+
+        self.short_mscale = short_mscale
+        self.long_mscale = long_mscale
+
+        short_cache = self._compute_cos_sin_cache(
+            original_max_position_embeddings, short_factor, short_mscale
+        )
+        short_cache = short_cache.to(dtype)
+
+        long_cache = self._compute_cos_sin_cache(
+            max_position_embeddings, long_factor, long_mscale
+        )
+        long_cache = long_cache.to(dtype)
+
+        long_short_cache = torch.cat([short_cache, long_cache], dim=0)
+        self.register_buffer(
+            "long_short_cos_sin_cache", long_short_cache, persistent=False
+        )
+
+    def _compute_inv_freq(self, rescale_factors: list[float]) -> torch.Tensor:
+        rescale_factors = torch.tensor(rescale_factors, dtype=torch.float32)
+        inv_freq = 1.0 / (
+            rescale_factors
+            * (
+                self.base
+                ** (
+                    torch.arange(0, self.rotary_dim, 2, dtype=torch.float)
+                    / self.rotary_dim
+                )
+            )
+        )
+        return inv_freq
+
+    def _compute_cos_sin_cache(
+        self,
+        max_position_embeddings: int,
+        rescale_factors: list[float],
+        mscale: float,
+    ) -> torch.Tensor:
+        inv_freq = self._compute_inv_freq(rescale_factors)
+        t = torch.arange(max_position_embeddings, dtype=torch.float)
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos() * mscale
+        sin = freqs.sin() * mscale
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert key is not None
+        query = query.view(*query.shape[:-1], -1, self.head_size)
+        key = key.view(*key.shape[:-1], -1, self.head_size)
+
+        k = self.original_max_position_embeddings
+        long_prompt_offset = torch.any(positions > k)
+        
+        ixops.vllm_rotary_embedding_phi(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.long_short_cos_sin_cache,
+            long_prompt_offset,
+            k,
+            offsets
+        )
+
+        return query, key
diff --git a/model_executor/layers/rotary_embedding/yarn_scaling_rope.py b/model_executor/layers/rotary_embedding/yarn_scaling_rope.py
new file mode 100644
index 0000000..ff46ad7
--- /dev/null
+++ b/model_executor/layers/rotary_embedding/yarn_scaling_rope.py
@@ -0,0 +1,81 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from .base import RotaryEmbedding
+from .common import yarn_find_correction_range, yarn_get_mscale, yarn_linear_ramp_mask
+
+
+class YaRNScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with YaRN method.
+
+    Credits to Peng et al. github.com/jquesnelle/yarn
+    """
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        scaling_factor: float,
+        dtype: torch.dtype,
+        *,
+        extrapolation_factor: float = 1,
+        attn_factor: float = 1,
+        beta_fast: int = 32,
+        beta_slow: int = 1,
+        apply_yarn_scaling: bool = True,
+    ) -> None:
+        self.scaling_factor = scaling_factor
+        self.extrapolation_factor = extrapolation_factor
+        self.attn_factor = attn_factor
+        self.beta_fast = beta_fast
+        self.beta_slow = beta_slow
+        # Get n-d magnitude scaling corrected for interpolation
+        self.mscale = (
+            float(yarn_get_mscale(self.scaling_factor) * attn_factor)
+            if apply_yarn_scaling
+            else float(attn_factor)
+        )
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
+    def _compute_inv_freq(self, scaling_factor: float) -> torch.Tensor:
+        pos_freqs = self.base ** (
+            torch.arange(0, self.rotary_dim, 2, dtype=torch.float) / self.rotary_dim
+        )
+        inv_freq_extrapolation = 1.0 / pos_freqs
+        inv_freq_interpolation = 1.0 / (scaling_factor * pos_freqs)
+
+        low, high = yarn_find_correction_range(
+            self.beta_fast,
+            self.beta_slow,
+            self.rotary_dim,
+            self.base,
+            self.max_position_embeddings,
+        )
+        # Get n-d rotational scaling corrected for extrapolation
+        inv_freq_mask = (
+            1
+            - yarn_linear_ramp_mask(low, high, self.rotary_dim // 2, dtype=torch.float)
+        ) * self.extrapolation_factor
+        inv_freq = (
+            inv_freq_interpolation * (1 - inv_freq_mask)
+            + inv_freq_extrapolation * inv_freq_mask
+        )
+        return inv_freq
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        inv_freq = self._compute_inv_freq(self.scaling_factor)
+        t = torch.arange(
+            self.max_position_embeddings * self.scaling_factor, dtype=torch.float32
+        )
+        freqs = torch.einsum("i,j -> ij", t, inv_freq)
+        cos = freqs.cos() * self.mscale
+        sin = freqs.sin() * self.mscale
+        cache = torch.cat((cos, sin), dim=-1)
+        return cache
diff --git a/model_executor/layers/shared_fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc b/model_executor/layers/shared_fused_moe/__pycache__/shared_fused_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..96ee8ecebc27cda549ee404201fa3b56ce53f35d
GIT binary patch
literal 2514
zcma)8O>7fK6rNr0uGfx#0tI51m@N4bIFMMXD*gnNN>Bt6;SefSR;1O&JH{K<-eq<T
zab%<%BGpmVmL94khl(QgK$J@K*kkX##DOZ&s+EvvD{(UosHmsDncX-zrD{j<+j(#1
z{mgscyvdL8coe}fg-?vTVT7JiW^0JSWb*@<EFc}}oQcX@p5y48H~Bmd-;fz93weRb
z1XC<ad5J?jx`=df4(Sq>Rzkj=e7MGE!_O#_<vjVS?HX1^Gsl2YTwHN1qLwWko2so5
z%`{;GR3%ui7BE%#pz2`#iglsjoAaq0Fq;Vup^qU-jPjh0ATll=iXc6z^H`W-XM9}^
zp{ZCWPdPn=!$qNiikvRY#q%<b=pv5(fBiJrDDt{AC#(d<^Iduv^iu)*+DDiFMK0p_
zn^)c}E%MB(#G;PO#qx;;n&$G!ag^=y65}Ne61bJQnct%djQ5o-fnwR1XtWNBThd%b
zGaXAQSY^BFVh2Q6A=s&!uA^8*#bLG-JPkUoGs;X|Dk@q9)XaC_M>WgUic!#9iztSp
zOk$&QU7=-TwmJ+1ZkTgsssM&2v0_wQOiZlZ0;SuATVk3;W@F2ZZaB8)7D})AqbG1&
zZ2M7p3E!0(#OftLU$t(5Va>L&UI-A$%0W@y1;5R6K)&P_kPAri$GlKSp9+8r&Or6h
zH{54{{5n@hD!;X(&I8xBRzq2SY#C(*Pjsq~B~MmWqhh$K>Lu0AkVphfWJOPKuvsJ&
z#Z2N!H*Ra>y5mJuwP0$FqpA)Kkd|%suR_i(+d12?M_ky1-I3|)@slTR9LG7+n9SKV
zw`5gvw@kB~^Dh#f#)T@>B4=tfOq^U00?Q`cHT)03s9hs*a5vL4-T|D^t#iBui_Q>`
zSF`9v3`G+2;ijBw%KeMS*5v+;zLAFTSnl08aI_)(B=6sZjmVP-cB`aPXr~o~bWYQ@
zc?`$`s-r3R?i?fr@^-4XSI43K0KB=eEYFfg60nx#ND@8{wXBfcKv`C2GCNMvS%wT%
z*$-qEJvnq_{m`kkL#G<<dUBwd99Wgl{~!P%^w3_sWav7ssE(__-SFbXf;&P~)4FcB
zP6wa>F#g$~Co(|2`E<?%$lK5XonX|tl^|1hLa>8c+cC&6$fX@ZV0G@sc{uidSf%LN
zF}7L~>2fLD*{FxMeYx$1I4=V1Au|AV{#$+}sK6be9;ypPejNSR&I!=C6WZRN4UIjc
zM}l(ggAeJUb9uXTUcztk(Cb;V@xrdHI>rq44wkEq8$1D>7f6NlLzi+0%@3iWd*Px*
z;PU8Mi6LRzmlq9+4mw`MM?Xx-F3@sl9_j5;W_{35M9l2l0h++_L8|Z-5I}z`in{l#
zC;Qiu{Tu1bdU~Xp9(hoHls?_K+>+6*z3bfrYuy76gom-^*mpPA4xiXa^{%JRHdALG
zr_TMHIrIJ0qs*nd(O*-UrSMX6<G>O4Yl$d*coT)viN>YYZq)tu;>p$I;Ho_MB7%m7
z?_a!swY_iXUD!92XvPjUE-yyF<Mw8T*DQA}+fDmVMJr?IKT(xFu2qxHW2$<ys+qw`
zSXFha0Adk3MWN*Jm5L`_VS7Dc(y~m}5j@!@^s#VjgkqN6El;|}o^8;q+9oD6bzVGZ
zTm=k|w+gqCWto=$oS$I$F9Q)uXwjSnAg|`ob6yZ-II=SMJS>YNPg0qC@{)Wnxs+^)
zz_%on&b*{6tvyIew0KUuz<n)0*!wWGoO;-|+}Bi2{(-1)Gt^#hNj>7wlb+s%`WN+<
z2y?KK$}lcWIT=Nhjq2z1`TF9A_a>GmR+HIgWcbertUX6SSRPrVS=p1^nhlScfA~QN
z+Uur`b`;(sml%`K3v>oWZ<vWY`|qgVe@EMm*B21l*_i`EZ=~;!b}mmo?HB7T$pK4~
l=kx(-g*c9TDIu=+DT@7u&isPjdm$g?hVFj!62XTV_!~eEU@HIs

literal 0
HcmV?d00001

diff --git a/model_executor/layers/shared_fused_moe/shared_fused_moe.py b/model_executor/layers/shared_fused_moe/shared_fused_moe.py
new file mode 100644
index 0000000..e1e3d18
--- /dev/null
+++ b/model_executor/layers/shared_fused_moe/shared_fused_moe.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Optional
+
+import torch
+
+from vllm.distributed import tensor_model_parallel_all_reduce
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE
+
+
+# TODO(bnell): Add shared + fused combo function? e.g. +
+class SharedFusedMoE(FusedMoE):
+    """
+    A FusedMoE operation that also computes the results of shared experts.
+    If an all2all communicator is being used the shared expert computation
+    can be interleaved with the fused all2all dispatch communication step.
+    """
+
+    def __init__(
+        self,
+        shared_experts: torch.nn.Module,
+        use_overlapped: bool = True,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self._shared_experts = shared_experts
+        self.use_overlapped = use_overlapped
+
+    @property
+    def shared_experts(self) -> Optional[torch.nn.Module]:
+        return self._shared_experts if self.use_overlapped else None
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if not self.use_overlapped:
+            shared_out = self._shared_experts(hidden_states)
+
+            # Reduce outputs if necessary, since the MLP should
+            # have been created with reduce_results=False.
+            if (self.reduce_results and self.tp_size > 1
+                    and self.must_reduce_shared_expert_outputs()):
+                shared_out = tensor_model_parallel_all_reduce(shared_out)
+
+            fused_out = super().forward(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+            )
+        else:
+            shared_out, fused_out = super().forward(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+            )
+        return shared_out, fused_out
diff --git a/model_executor/layers/utils.py b/model_executor/layers/utils.py
new file mode 100644
index 0000000..2dd1129
--- /dev/null
+++ b/model_executor/layers/utils.py
@@ -0,0 +1,253 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utility methods for model layers."""
+
+from collections.abc import Callable
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm import envs
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.utils.platform_utils import get_cu_count
+from vllm.utils.torch_utils import direct_register_custom_op
+import ixformer.inference.functions as IXF
+
+logger = init_logger(__name__)
+
+
+def shuffle_weight(w: torch.Tensor) -> torch.Tensor:
+    # Shuffle weight along the last dimension so that
+    # we folded the weights to adjance location
+    # Example:
+    # input:
+    #       [[1, 2, 3, 4, 5, 6],
+    #        [7, 8, 9, 10, 11, 12]]
+    # output:
+    #       [[1, 4, 2, 5, 3, 6],
+    #        [7, 10, 8, 11, 9, 12]]
+    # This will be used together with triton swiglu kernel
+    shape = w.shape
+    N = shape[-1]
+    first = w[..., : N // 2]
+    second = w[..., N // 2 :]
+
+    stacked = torch.stack((first, second), dim=-1)
+    w_shuffled = stacked.reshape(shape)
+    return w_shuffled
+
+def get_token_bin_counts_and_mask(
+    tokens: torch.Tensor,
+    vocab_size: int,
+    num_seqs: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    # Compute the bin counts for the tokens.
+    # vocab_size + 1 for padding.
+    bin_counts = torch.zeros(
+        (num_seqs, vocab_size + 1), dtype=torch.long, device=tokens.device
+    )
+    bin_counts.scatter_add_(1, tokens, torch.ones_like(tokens))
+    bin_counts = bin_counts[:, :vocab_size]
+    mask = bin_counts > 0
+
+    return bin_counts, mask
+
+
+def apply_penalties(
+    logits: torch.Tensor,
+    prompt_tokens_tensor: torch.Tensor,
+    output_tokens_tensor: torch.Tensor,
+    presence_penalties: torch.Tensor,
+    frequency_penalties: torch.Tensor,
+    repetition_penalties: torch.Tensor,
+) -> torch.Tensor:
+    """
+    Applies penalties in place to the logits tensor
+    logits : The input logits tensor of shape [num_seqs, vocab_size]
+    prompt_tokens_tensor: A tensor containing the prompt tokens. The prompts
+        are padded to the maximum prompt length within the batch using
+        `vocab_size` as the padding value. The value `vocab_size` is used
+        for padding because it does not correspond to any valid token ID
+        in the vocabulary.
+    output_tokens_tensor: The output tokens tensor.
+    presence_penalties: The presence penalties of shape (num_seqs, )
+    frequency_penalties: The frequency penalties of shape (num_seqs, )
+    repetition_penalties: The repetition penalties of shape (num_seqs, )
+    """
+    num_seqs, vocab_size = logits.shape
+    _, prompt_mask = get_token_bin_counts_and_mask(
+        prompt_tokens_tensor, vocab_size, num_seqs
+    )
+    output_bin_counts, output_mask = get_token_bin_counts_and_mask(
+        output_tokens_tensor, vocab_size, num_seqs
+    )
+
+    # Apply repetition penalties as a custom op
+    from vllm._custom_ops import apply_repetition_penalties
+
+    apply_repetition_penalties(logits, prompt_mask, output_mask, repetition_penalties)
+
+    # We follow the definition in OpenAI API.
+    # Refer to https://platform.openai.com/docs/api-reference/parameter-details
+    logits -= frequency_penalties.unsqueeze(dim=1) * output_bin_counts
+    logits -= presence_penalties.unsqueeze(dim=1) * output_mask
+    return logits
+
+
+def default_unquantized_gemm(
+    layer: torch.nn.Module,
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor | None = None,
+):
+    if x.dtype == torch.float32:
+        return torch.nn.functional.linear(x, weight, bias)
+    return IXF.linear(x, weight, bias)
+
+
+def use_aiter_triton_gemm(n, m, k, dtype):
+    if (
+        not rocm_aiter_ops.is_triton_gemm_enabled()
+        # MI300's - fp8nuz=True
+        or current_platform.is_fp8_fnuz()
+        or dtype not in [torch.float16, torch.bfloat16]
+    ):
+        return False
+
+    # use hipblaslt for the larger GEMMs
+    if n > 2048 and m > 512:
+        return False
+    return (
+        (m == 5120 and k == 2880)
+        or (m == 2880 and k == 4096)
+        or (m == 128 and k == 2880)
+        or (m == 640 and k == 2880)
+        or (m == 2880 and k == 512)
+    )
+
+
+def rocm_unquantized_gemm_impl(
+    x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor | None = None
+) -> torch.Tensor:
+    from vllm.platforms.rocm import on_gfx9
+
+    n = x.numel() / x.size(-1)
+    m = weight.shape[0]
+    k = weight.shape[1]
+
+    if use_aiter_triton_gemm(n, m, k, x.dtype):
+        from aiter.ops.triton.gemm_a16w16 import gemm_a16w16
+
+        return gemm_a16w16(x, weight, bias)
+
+    use_skinny = (
+        envs.VLLM_ROCM_USE_SKINNY_GEMM
+        and on_gfx9()
+        and x.dtype in [torch.float16, torch.bfloat16]
+        and k % 8 == 0
+    )
+
+    if use_skinny is not True:
+        return torch.nn.functional.linear(x, weight, bias)
+
+    x_view = x.reshape(-1, x.size(-1))
+    if m > 8 and 0 < n <= 4:
+        cu_count = get_cu_count()
+        out = ops.wvSplitK(weight, x_view, cu_count, bias)
+        return out.reshape(*x.shape[:-1], weight.shape[0])
+    elif m % 4 == 0 and n == 1 and k <= 8192 and bias is None:
+        out = ops.LLMM1(weight, x_view, 4)
+        return out.reshape(*x.shape[:-1], weight.shape[0])
+    return torch.nn.functional.linear(x, weight, bias)
+
+
+def rocm_unquantized_gemm_fake(
+    x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor | None = None
+) -> torch.Tensor:
+    return x.new_empty((*x.shape[:-1], weight.shape[0]))
+
+
+def rocm_unquantized_gemm(
+    layer: torch.nn.Module,
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return torch.ops.vllm.rocm_unquantized_gemm(x, weight, bias)
+
+
+direct_register_custom_op(
+    op_name="rocm_unquantized_gemm",
+    op_func=rocm_unquantized_gemm_impl,
+    fake_impl=rocm_unquantized_gemm_fake,
+)
+
+
+def check_cpu_sgl_kernel(n: int, k: int, dtype: torch.dtype) -> bool:
+    return (
+        torch._C._cpu._is_amx_tile_supported()
+        and (dtype in (torch.bfloat16, torch.int8))
+        and k % 32 == 0
+        and n % 16 == 0
+    )
+
+
+def dispatch_cpu_unquantized_gemm(
+    layer: torch.nn.Module,
+    remove_weight: bool,
+) -> None:
+    N, K = layer.weight.size()
+    dtype = layer.weight.dtype
+    if envs.VLLM_CPU_SGL_KERNEL and check_cpu_sgl_kernel(N, K, dtype):
+        packed_weight = torch.ops._C.convert_weight_packed(layer.weight)
+        if getattr(layer, "bias", None) is not None:
+            bias_f32 = layer.bias.to(torch.float32)
+        else:
+            bias_f32 = None
+        layer.cpu_linear = lambda x, weight, bias: torch.ops._C.weight_packed_linear(
+            x, packed_weight, bias_f32 if bias is not None else None, True
+        )
+        if remove_weight:
+            layer.weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
+        return
+    elif (
+        ops._supports_onednn
+        and current_platform.get_cpu_architecture() != CpuArchEnum.POWERPC
+    ):
+        try:
+            origin_weight = layer.weight
+            handler = ops.create_onednn_mm(origin_weight.t(), 32)
+            layer.cpu_linear = lambda x, weight, bias: ops.onednn_mm(handler, x, bias)
+            if remove_weight:
+                layer.weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
+            return
+        except RuntimeError as e:
+            logger.warning_once(
+                "Failed to create oneDNN linear, fallback to torch linear."
+                f" Exception: {e}"
+            )
+
+    # fallback case
+    layer.cpu_linear = lambda x, weight, bias: torch.nn.functional.linear(
+        x, weight, bias
+    )
+
+
+def cpu_unquantized_gemm(
+    layer: torch.nn.Module,
+    x: torch.Tensor,
+    weight: torch.Tensor,
+    bias: torch.Tensor | None = None,
+):
+    return layer.cpu_linear(x, weight, bias)
+
+
+def dispatch_unquantized_gemm() -> Callable[..., torch.Tensor]:
+    if current_platform.is_rocm():
+        return rocm_unquantized_gemm
+    elif current_platform.is_cpu():
+        return cpu_unquantized_gemm
+    else:
+        return default_unquantized_gemm
\ No newline at end of file
diff --git a/model_executor/layers/vocab_parallel_embedding.py b/model_executor/layers/vocab_parallel_embedding.py
new file mode 100644
index 0000000..1abc3ad
--- /dev/null
+++ b/model_executor/layers/vocab_parallel_embedding.py
@@ -0,0 +1,558 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+from dataclasses import dataclass
+
+import torch
+import torch.nn.functional as F
+from torch.nn.parameter import Parameter, UninitializedParameter
+
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+    method_has_implemented_embedding,
+)
+from vllm.model_executor.layers.utils import dispatch_unquantized_gemm
+from vllm.model_executor.parameter import BasevLLMParameter
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+
+DEFAULT_VOCAB_PADDING_SIZE = 64
+
+
+class UnquantizedEmbeddingMethod(QuantizeMethodBase):
+    """Unquantized method for embeddings."""
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """Create weights for embedding layer."""
+        weight = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        if current_platform.is_cpu():
+            from vllm.model_executor.layers.utils import dispatch_cpu_unquantized_gemm
+
+            dispatch_cpu_unquantized_gemm(layer, remove_weight=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return dispatch_unquantized_gemm()(layer, x, layer.weight, bias)
+
+    def embedding(self, layer: torch.nn.Module, input_: torch.Tensor) -> torch.Tensor:
+        return F.embedding(input_, layer.weight)
+
+
+def pad_vocab_size(vocab_size: int, pad_to: int = DEFAULT_VOCAB_PADDING_SIZE) -> int:
+    """Pad the vocab size to the given value."""
+    return ((vocab_size + pad_to - 1) // pad_to) * pad_to
+
+
+def vocab_range_from_per_partition_vocab_size(
+    per_partition_vocab_size: int, rank: int, offset: int = 0
+) -> Sequence[int]:
+    index_f = rank * per_partition_vocab_size
+    index_l = index_f + per_partition_vocab_size
+    return index_f + offset, index_l + offset
+
+
+def vocab_range_from_global_vocab_size(
+    global_vocab_size: int, rank: int, world_size: int, offset: int = 0
+) -> Sequence[int]:
+    per_partition_vocab_size = divide(global_vocab_size, world_size)
+    return vocab_range_from_per_partition_vocab_size(
+        per_partition_vocab_size, rank, offset=offset
+    )
+
+
+@dataclass
+class VocabParallelEmbeddingShardIndices:
+    """Indices for a shard of a vocab parallel embedding."""
+
+    padded_org_vocab_start_index: int
+    padded_org_vocab_end_index: int
+    padded_added_vocab_start_index: int
+    padded_added_vocab_end_index: int
+
+    org_vocab_start_index: int
+    org_vocab_end_index: int
+    added_vocab_start_index: int
+    added_vocab_end_index: int
+
+    @property
+    def num_org_elements(self) -> int:
+        return self.org_vocab_end_index - self.org_vocab_start_index
+
+    @property
+    def num_added_elements(self) -> int:
+        return self.added_vocab_end_index - self.added_vocab_start_index
+
+    @property
+    def num_org_elements_padded(self) -> int:
+        return self.padded_org_vocab_end_index - self.padded_org_vocab_start_index
+
+    @property
+    def num_added_elements_padded(self) -> int:
+        return self.padded_added_vocab_end_index - self.padded_added_vocab_start_index
+
+    @property
+    def num_org_vocab_padding(self) -> int:
+        return self.num_org_elements_padded - self.num_org_elements
+
+    @property
+    def num_added_vocab_padding(self) -> int:
+        return self.num_added_elements_padded - self.num_added_elements
+
+    @property
+    def num_elements_padded(self) -> int:
+        return self.num_org_elements_padded + self.num_added_elements_padded
+
+    def __post_init__(self):
+        # sanity checks
+        assert self.padded_org_vocab_start_index <= self.padded_org_vocab_end_index
+        assert self.padded_added_vocab_start_index <= self.padded_added_vocab_end_index
+
+        assert self.org_vocab_start_index <= self.org_vocab_end_index
+        assert self.added_vocab_start_index <= self.added_vocab_end_index
+
+        assert self.org_vocab_start_index <= self.padded_org_vocab_start_index
+        assert self.added_vocab_start_index <= self.padded_added_vocab_start_index
+        assert self.org_vocab_end_index <= self.padded_org_vocab_end_index
+        assert self.added_vocab_end_index <= self.padded_added_vocab_end_index
+
+        assert self.num_org_elements <= self.num_org_elements_padded
+        assert self.num_added_elements <= self.num_added_elements_padded
+
+
+@torch.compile(dynamic=True, backend=current_platform.simple_compile_backend)
+def get_masked_input_and_mask(
+    input_: torch.Tensor,
+    org_vocab_start_index: int,
+    org_vocab_end_index: int,
+    num_org_vocab_padding: int,
+    added_vocab_start_index: int,
+    added_vocab_end_index: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    # torch.compile will fuse all of the pointwise ops below
+    # into a single kernel, making it very fast
+    org_vocab_mask = (input_ >= org_vocab_start_index) & (input_ < org_vocab_end_index)
+    added_vocab_mask = (input_ >= added_vocab_start_index) & (
+        input_ < added_vocab_end_index
+    )
+    added_offset = (
+        added_vocab_start_index
+        - (org_vocab_end_index - org_vocab_start_index)
+        - num_org_vocab_padding
+    )
+    valid_offset = (org_vocab_start_index * org_vocab_mask) + (
+        added_offset * added_vocab_mask
+    )
+    vocab_mask = org_vocab_mask | added_vocab_mask
+    input_ = vocab_mask * (input_ - valid_offset)
+    return input_, ~vocab_mask
+
+
+@CustomOp.register("vocab_parallel_embedding")
+class VocabParallelEmbedding(CustomOp):
+    """Embedding parallelized in the vocabulary dimension.
+
+    Adapted from torch.nn.Embedding, note that we pad the vocabulary size to
+    make sure it is divisible by the number of model parallel GPUs.
+
+    In order to support various loading methods, we ensure that LoRA-added
+    embeddings are always at the end of TP-sharded tensors. In other words,
+    we shard base embeddings and LoRA embeddings separately (both padded),
+    and place them in the same tensor.
+    In this example, we will have the original vocab size = 1010,
+    added vocab size = 16 and padding to 64. Therefore, the total
+    vocab size with padding will be 1088 (because we first pad 1010 to
+    1024, add 16, and then pad to 1088).
+    Therefore, the tensor format looks like the following:
+    TP1, rank 0 (no sharding):
+                            |< --------BASE-------- >|< -BASE PADDING-- >|< -----LORA------ >|< -LORA PADDING-- >|
+    corresponding token_id: |  0  |  1  | ... | 1009 |  -1  | ... |  -1  | 1010 | ... | 1025 |  -1  | ... |  -1  |
+                     index: |  0  |  1  | ... | 1009 | 1010 | ... | 1023 | 1024 | ... | 1039 | 1040 | ... | 1087 |
+
+    TP2, rank 0:
+                            |< --------------------BASE--------------------- >|< -----LORA------ >|< -LORA PADDING- >|
+    corresponding token_id: |  0  |  1  |  2  | ... | 497  | 498 | ...  | 511 | 1010 | ... | 1025 |  -1  | ... |  -1 |
+                     index: |  0  |  1  |  2  | ... | 497  | 498 | ...  | 511 | 512  | ... | 527  |  528 | ... | 543 |
+    TP2, rank 1:
+                            |< -----------BASE----------- >|< -BASE PADDING- >|< -----------LORA PADDING----------- >|
+    corresponding token_id: | 512 | 513 | 514 | ... | 1009 | -1  | ...  | -1  |  -1  | ... |  -1  | -1  | ... |   -1 |
+                     index: |  0  |  1  |  2  | ... | 497  | 498 | ...  | 511 | 512  | ... | 527  | 528 | ... |  543 |
+
+    Args:
+        num_embeddings: vocabulary size.
+        embedding_dim: size of hidden state.
+        params_dtype: type of the parameters.
+        org_num_embeddings: original vocabulary size (without LoRA).
+        padding_size: padding size for the vocabulary.
+        quant_config: quant config for the layer
+        prefix: full name of the layer in the state dict
+    """  # noqa: E501
+
+    def __init__(
+        self,
+        num_embeddings: int,
+        embedding_dim: int,
+        params_dtype: torch.dtype | None = None,
+        org_num_embeddings: int | None = None,
+        padding_size: int = DEFAULT_VOCAB_PADDING_SIZE,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        # Keep the input dimensions.
+        tp_rank = get_tensor_model_parallel_rank()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_embeddings = num_embeddings
+        self.padding_size = padding_size
+        self.org_vocab_size = org_num_embeddings or num_embeddings
+        num_added_embeddings = num_embeddings - self.org_vocab_size
+        self.org_vocab_size_padded = pad_vocab_size(
+            self.org_vocab_size, self.padding_size
+        )
+        self.num_embeddings_padded = pad_vocab_size(
+            self.org_vocab_size_padded + num_added_embeddings, self.padding_size
+        )
+        assert self.org_vocab_size_padded <= self.num_embeddings_padded
+
+        self.shard_indices = self._get_indices(
+            self.num_embeddings_padded,
+            self.org_vocab_size_padded,
+            self.num_embeddings,
+            self.org_vocab_size,
+            tp_rank,
+            self.tp_size,
+        )
+        self.embedding_dim = embedding_dim
+
+        quant_method = None
+        if quant_config is not None:
+            quant_method = quant_config.get_quant_method(self, prefix=prefix)
+        if quant_method is None:
+            quant_method = UnquantizedEmbeddingMethod()
+
+        # If we are making an embedding layer, then our quantization linear
+        # method must implement the embedding operation. If we are another
+        # layer type like ParallelLMHead, this is not important.
+        is_embedding_layer = type(self) is VocabParallelEmbedding
+        quant_method_implements_embedding = method_has_implemented_embedding(
+            type(quant_method)
+        )
+        if is_embedding_layer and not quant_method_implements_embedding:
+            raise NotImplementedError(
+                f"The class {type(quant_method).__name__} must implement "
+                "the 'embedding' method, see UnquantizedEmbeddingMethod."
+            )
+
+        self.quant_method: QuantizeMethodBase = quant_method
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        # Divide the weight matrix along the vocabulary dimension.
+        self.num_added_embeddings = self.num_embeddings - self.org_vocab_size
+        self.num_embeddings_per_partition = divide(
+            self.num_embeddings_padded, self.tp_size
+        )
+        assert (
+            self.shard_indices.num_elements_padded == self.num_embeddings_per_partition
+        )
+        self.num_org_embeddings_per_partition = (
+            self.shard_indices.org_vocab_end_index
+            - self.shard_indices.org_vocab_start_index
+        )
+        self.num_added_embeddings_per_partition = (
+            self.shard_indices.added_vocab_end_index
+            - self.shard_indices.added_vocab_start_index
+        )
+
+        self.quant_method.create_weights(
+            self,
+            self.embedding_dim,
+            [self.num_embeddings_per_partition],
+            self.embedding_dim,
+            self.num_embeddings_padded,
+            params_dtype=params_dtype,
+            weight_loader=self.weight_loader,
+        )
+
+    @classmethod
+    def _get_indices(
+        cls,
+        vocab_size_padded: int,
+        org_vocab_size_padded: int,
+        vocab_size: int,
+        org_vocab_size: int,
+        tp_rank: int,
+        tp_size: int,
+    ) -> VocabParallelEmbeddingShardIndices:
+        """Get start and end indices for vocab parallel embedding, following the
+        layout outlined in the class docstring, based on the given tp_rank and
+        tp_size."""
+        num_added_embeddings_padded = vocab_size_padded - org_vocab_size_padded
+        padded_org_vocab_start_index, padded_org_vocab_end_index = (
+            vocab_range_from_global_vocab_size(org_vocab_size_padded, tp_rank, tp_size)
+        )
+        padded_added_vocab_start_index, padded_added_vocab_end_index = (
+            vocab_range_from_global_vocab_size(
+                num_added_embeddings_padded, tp_rank, tp_size, offset=org_vocab_size
+            )
+        )
+        # remove padding
+        org_vocab_start_index = min(padded_org_vocab_start_index, org_vocab_size)
+        org_vocab_end_index = min(padded_org_vocab_end_index, org_vocab_size)
+        added_vocab_start_index = min(padded_added_vocab_start_index, vocab_size)
+        added_vocab_end_index = min(padded_added_vocab_end_index, vocab_size)
+        return VocabParallelEmbeddingShardIndices(
+            padded_org_vocab_start_index,
+            padded_org_vocab_end_index,
+            padded_added_vocab_start_index,
+            padded_added_vocab_end_index,
+            org_vocab_start_index,
+            org_vocab_end_index,
+            added_vocab_start_index,
+            added_vocab_end_index,
+        )
+
+    def get_sharded_to_full_mapping(self) -> list[int] | None:
+        """Get a mapping that can be used to reindex the gathered
+        logits for sampling.
+
+        During sampling, we gather logits from all ranks. The relationship
+        of index->token_id will follow the same format as outlined in the class
+        docstring. However, after the gather, we want to reindex the final
+        logits tensor to map index->token_id one-to-one (the index is always
+        equal the token_id it corresponds to). The indices returned by this
+        method allow us to do that.
+        """
+        if self.tp_size < 2:
+            return None
+
+        base_embeddings: list[int] = []
+        added_embeddings: list[int] = []
+        padding: list[int] = []
+        for tp_rank in range(self.tp_size):
+            shard_indices = self._get_indices(
+                self.num_embeddings_padded,
+                self.org_vocab_size_padded,
+                self.num_embeddings,
+                self.org_vocab_size,
+                tp_rank,
+                self.tp_size,
+            )
+            range_start = self.num_embeddings_per_partition * tp_rank
+            range_end = self.num_embeddings_per_partition * (tp_rank + 1)
+            base_embeddings.extend(
+                range(range_start, range_start + shard_indices.num_org_elements)
+            )
+            padding.extend(
+                range(
+                    range_start + shard_indices.num_org_elements,
+                    range_start + shard_indices.num_org_elements_padded,
+                )
+            )
+            added_embeddings.extend(
+                range(
+                    range_start + shard_indices.num_org_elements_padded,
+                    range_start
+                    + shard_indices.num_org_elements_padded
+                    + shard_indices.num_added_elements,
+                )
+            )
+            padding.extend(
+                range(
+                    range_start
+                    + shard_indices.num_org_elements_padded
+                    + shard_indices.num_added_elements,
+                    range_start
+                    + shard_indices.num_org_elements_padded
+                    + shard_indices.num_added_elements_padded,
+                )
+            )
+            assert (
+                range_start
+                + shard_indices.num_org_elements_padded
+                + shard_indices.num_added_elements_padded
+                == range_end
+            )
+        ret = base_embeddings + added_embeddings + padding
+        assert len(ret) == self.num_embeddings_padded
+        return ret
+
+    def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
+        output_dim = getattr(param, "output_dim", None)
+        packed_dim = getattr(param, "packed_dim", None)
+
+        # If the parameter is a gguf weight, then load it directly.
+        if getattr(param, "is_gguf_weight_type", None):
+            param.data.copy_(loaded_weight)
+            param.weight_type = loaded_weight.item()
+            return
+        elif isinstance(param, UninitializedParameter):
+            shape = list(loaded_weight.shape)
+            if output_dim is not None:
+                shape[output_dim] = self.num_embeddings_per_partition
+            param.materialize(tuple(shape), dtype=loaded_weight.dtype)
+
+        # If parameter does not have output dim, then it should
+        # be copied onto all gpus (e.g. g_idx for act_order gptq).
+        if output_dim is None:
+            assert param.data.shape == loaded_weight.shape
+            param.data.copy_(loaded_weight)
+            return
+
+        # Shard indexes for loading the weight
+        start_idx = self.shard_indices.org_vocab_start_index
+        shard_size = self.shard_indices.org_vocab_end_index - start_idx
+
+        # If param packed on the same dim we are sharding on, then
+        # need to adjust offsets of loaded weight by pack_factor.
+        if packed_dim is not None and packed_dim == output_dim:
+            packed_factor = (
+                param.packed_factor
+                if isinstance(param, BasevLLMParameter)
+                else param.pack_factor
+            )
+            assert loaded_weight.shape[output_dim] == (
+                self.org_vocab_size // param.packed_factor
+            )
+            start_idx = start_idx // packed_factor
+            shard_size = shard_size // packed_factor
+        else:
+            assert loaded_weight.shape[output_dim] == self.org_vocab_size
+
+        # Copy the data. Select chunk corresponding to current shard.
+        loaded_weight = loaded_weight.narrow(output_dim, start_idx, shard_size)
+        param[: loaded_weight.shape[0]].data.copy_(loaded_weight)
+        param[loaded_weight.shape[0] :].data.fill_(0)
+
+    def forward_native(self, input_):
+        if self.tp_size > 1:
+            # Build the mask.
+            masked_input, input_mask = get_masked_input_and_mask(
+                input_,
+                self.shard_indices.org_vocab_start_index,
+                self.shard_indices.org_vocab_end_index,
+                self.shard_indices.num_org_vocab_padding,
+                self.shard_indices.added_vocab_start_index,
+                self.shard_indices.added_vocab_end_index,
+            )
+        else:
+            masked_input = input_
+        # Get the embeddings.
+        output_parallel = self.quant_method.embedding(self, masked_input.long())
+        # Mask the output embedding.
+        if self.tp_size > 1:
+            output_parallel.masked_fill_(input_mask.unsqueeze(-1), 0)
+        # Reduce across all the model parallel GPUs.
+        output = tensor_model_parallel_all_reduce(output_parallel)
+        return output
+
+    def forward_cuda(self, input_):
+        return self.forward_native(input_)
+
+    def extra_repr(self) -> str:
+        s = f"num_embeddings={self.num_embeddings_per_partition}"
+        s += f", embedding_dim={self.embedding_dim}"
+        s += f", org_vocab_size={self.org_vocab_size}"
+        s += f", num_embeddings_padded={self.num_embeddings_padded}"
+        s += f", tp_size={self.tp_size}"
+        return s
+
+
+@CustomOp.register("parallel_lm_head")
+class ParallelLMHead(VocabParallelEmbedding):
+    """Parallelized LM head.
+
+    Output logits weight matrices used in the Sampler. The weight and bias
+    tensors are padded to make sure they are divisible by the number of
+    model parallel GPUs.
+
+    Args:
+        num_embeddings: vocabulary size.
+        embedding_dim: size of hidden state.
+        bias: whether to use bias.
+        params_dtype: type of the parameters.
+        org_num_embeddings: original vocabulary size (without LoRA).
+        padding_size: padding size for the vocabulary.
+    """
+
+    def __init__(
+        self,
+        num_embeddings: int,
+        embedding_dim: int,
+        bias: bool = False,
+        params_dtype: torch.dtype | None = None,
+        org_num_embeddings: int | None = None,
+        padding_size: int = DEFAULT_VOCAB_PADDING_SIZE,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__(
+            num_embeddings,
+            embedding_dim,
+            params_dtype,
+            org_num_embeddings,
+            padding_size,
+            quant_config,
+            prefix,
+        )
+        self.quant_config = quant_config
+        if bias:
+            self.bias = Parameter(
+                torch.empty(self.num_embeddings_per_partition, dtype=params_dtype)
+            )
+            set_weight_attrs(
+                self.bias,
+                {
+                    "output_dim": 0,
+                    "weight_loader": self.weight_loader,
+                },
+            )
+        else:
+            self.register_parameter("bias", None)
+
+    def tie_weights(self, embed_tokens: VocabParallelEmbedding):
+        """Tie the weights with word embeddings."""
+        # GGUF quantized embed_tokens.
+        if self.quant_config and self.quant_config.get_name() == "gguf":
+            return embed_tokens
+        else:
+            self.weight = embed_tokens.weight
+            return self
+
+    def forward(self, input_):
+        del input_
+        raise RuntimeError("LMHead's weights should be used in the sampler.")
diff --git a/model_executor/model_loader/__init__.py b/model_executor/model_loader/__init__.py
new file mode 100644
index 0000000..65e139d
--- /dev/null
+++ b/model_executor/model_loader/__init__.py
@@ -0,0 +1,152 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Literal
+
+from torch import nn
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.config.load import LoadConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.bitsandbytes_loader import BitsAndBytesModelLoader
+from vllm.model_executor.model_loader.default_loader import DefaultModelLoader
+from vllm.model_executor.model_loader.dummy_loader import DummyModelLoader
+from vllm.model_executor.model_loader.gguf_loader import GGUFModelLoader
+from vllm.model_executor.model_loader.runai_streamer_loader import (
+    RunaiModelStreamerLoader,
+)
+from vllm.model_executor.model_loader.sharded_state_loader import ShardedStateLoader
+from vllm.model_executor.model_loader.tensorizer_loader import TensorizerLoader
+from vllm.model_executor.model_loader.utils import (
+    get_architecture_class_name,
+    get_model_architecture,
+    get_model_cls,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    padding_weight_loader
+)
+
+
+logger = init_logger(__name__)
+
+# Reminder: Please update docstring in `LoadConfig`
+# if a new load format is added here
+LoadFormats = Literal[
+    "auto",
+    "bitsandbytes",
+    "dummy",
+    "fastsafetensors",
+    "gguf",
+    "mistral",
+    "npcache",
+    "pt",
+    "runai_streamer",
+    "runai_streamer_sharded",
+    "safetensors",
+    "sharded_state",
+    "tensorizer",
+]
+_LOAD_FORMAT_TO_MODEL_LOADER: dict[str, type[BaseModelLoader]] = {
+    "auto": DefaultModelLoader,
+    "bitsandbytes": BitsAndBytesModelLoader,
+    "dummy": DummyModelLoader,
+    "fastsafetensors": DefaultModelLoader,
+    "gguf": GGUFModelLoader,
+    "mistral": DefaultModelLoader,
+    "npcache": DefaultModelLoader,
+    "pt": DefaultModelLoader,
+    "runai_streamer": RunaiModelStreamerLoader,
+    "runai_streamer_sharded": ShardedStateLoader,
+    "safetensors": DefaultModelLoader,
+    "sharded_state": ShardedStateLoader,
+    "tensorizer": TensorizerLoader,
+}
+
+
+def register_model_loader(load_format: str):
+    """Register a customized vllm model loader.
+
+    When a load format is not supported by vllm, you can register a customized
+    model loader to support it.
+
+    Args:
+        load_format (str): The model loader format name.
+
+    Examples:
+        >>> from vllm.config.load import LoadConfig
+        >>> from vllm.model_executor.model_loader import (
+        ...     get_model_loader,
+        ...     register_model_loader,
+        ... )
+        >>> from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+        >>>
+        >>> @register_model_loader("my_loader")
+        ... class MyModelLoader(BaseModelLoader):
+        ...     def download_model(self):
+        ...         pass
+        ...
+        ...     def load_weights(self):
+        ...         pass
+        >>>
+        >>> load_config = LoadConfig(load_format="my_loader")
+        >>> type(get_model_loader(load_config))
+        <class 'MyModelLoader'>
+    """  # noqa: E501
+
+    def _wrapper(model_loader_cls):
+        if load_format in _LOAD_FORMAT_TO_MODEL_LOADER:
+            logger.warning(
+                "Load format `%s` is already registered, and will be "
+                "overwritten by the new loader class `%s`.",
+                load_format,
+                model_loader_cls,
+            )
+        if not issubclass(model_loader_cls, BaseModelLoader):
+            raise ValueError(
+                "The model loader must be a subclass of `BaseModelLoader`."
+            )
+        _LOAD_FORMAT_TO_MODEL_LOADER[load_format] = model_loader_cls
+        logger.info(
+            "Registered model loader `%s` with load format `%s`",
+            model_loader_cls,
+            load_format,
+        )
+        return model_loader_cls
+
+    return _wrapper
+
+
+def get_model_loader(load_config: LoadConfig) -> BaseModelLoader:
+    """Get a model loader based on the load format."""
+    load_format = load_config.load_format
+    if load_format not in _LOAD_FORMAT_TO_MODEL_LOADER:
+        raise ValueError(f"Load format `{load_format}` is not supported")
+    return _LOAD_FORMAT_TO_MODEL_LOADER[load_format](load_config)
+
+
+def get_model(
+    *, vllm_config: VllmConfig, model_config: ModelConfig | None = None
+) -> nn.Module:
+    loader = get_model_loader(vllm_config.load_config)
+    if model_config is None:
+        model_config = vllm_config.model_config
+    return loader.load_model(vllm_config=vllm_config, model_config=model_config)
+
+
+__all__ = [
+    "get_model",
+    "get_model_loader",
+    "get_architecture_class_name",
+    "get_model_architecture",
+    "get_model_cls",
+    "register_model_loader",
+    "BaseModelLoader",
+    "BitsAndBytesModelLoader",
+    "GGUFModelLoader",
+    "DefaultModelLoader",
+    "DummyModelLoader",
+    "RunaiModelStreamerLoader",
+    "ShardedStateLoader",
+    "TensorizerLoader",
+]
diff --git a/model_executor/model_loader/__pycache__/__init__.cpython-312.pyc b/model_executor/model_loader/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5699eba792deda0498016bb6f2f707d218bb2c90
GIT binary patch
literal 4614
zcma)9OKcR$8LsYmdU{@rpV-Fqngx4^8SfJ84a8WOHIL02oAAnRucDznU1K+N_l&B0
zFt)ssH$vJ)IczQwNZCjzd+~}r>@kNNa?iyUNQ_!oLW-g&w_y!QlvDn{dY;CTDSN8_
zuKHi~)&Kuh{kK>wLZBJ`-|9Eo3Hdv|)LOhsY%_t72jn`@h$a}s6cj-~S~Nt{r}#MS
zGyG;i37A18$lv`&$P6oCP6v!OGonN|9W*2}szf;*GGb<2iE}z^B+R6e<aC>{&rB&P
zPDhM(vqS0Nv}AOeT}l_Hqei#cqx5h(X6!e6m0nKAjXtwq={FB32h0IwfR81NgQl#=
z0uc#~(03lgYOpDTRM3+9kvc?^G)_~{cfb$-x@ZsdJ+xO#eiKvPrHAPeIz*$$ofomE
z!`i+HcxownBrj_1_xws)>!4w+lScD?tqb0dYTa7TH-fgG2DM%q(7IPbz~4!Iw{C#o
zj+PH<efNUO$O6&&|0F2Kmb=pj{)Ieg!41vm4rQtVq-a@b(UmS0G-`ZUu=4tX8@XW^
zrbh!qWTv2M^*2ekbSG;R78WRj$;4UJrd$@e_)zy*-La=E?d-Bc?bfN(G|j6e!)YB&
zPM1t`xpgdY;llOvtwTLmN|vhgv8xWFs!3VhX6ovq$~3B7bySDeN0Zm6Wfz#fQs?x!
zeGAmdsw}q%0OXt!quHFH+IH3geQp;{nutUTiyLc<=L{Q`-C0yMO}7@ZOH^N2L_GN7
zW3FE<IR!U54-lx9Hjfav0S(vZCi1Ecqj~CZuWZ-9uu#goAyc;<*a|mf6?1BCk-B2h
zapMdZn}r#^P`9h~J!^aGb){y7vFa#@0Ss=$Gla```?E81Q`6b=b5|}+UCUmZ%U+tB
zJ~zV$&s}jP^go*~FjIAM)nMk)Btq|l-*yVRFCk^WB6&d*?u9=WR)wo1Evnzb^cA`Q
zYoJV4<y^^j3MQD;<U0^VG6z%k;K@WHGPGYUQVTe7O!iF5x-DA;N487FVu3jzJHO1u
zN95%~NzSR3%yu)u)iqm?okC5CtUFbEQ*6OL#aYpM(@N!GfH!?gzP3nP{H%F}AyL(F
z?yhPU4ceq<a&l76vx3R}%;b3DWcZqN6Bi-R!1}zbsoQRq@#2i$r8x*0mhoOu0{~go
zF<ckTWHRWz+z3REbL0(<8dB9b-i<9?7kX=tGV_q<)iAGlw<GnNl{VAznO$8P9yFJ$
z3I`hw;W~Lj%9ole!tf4T>BffEkkM#f)(T4&F4$Z9uuYBpE}V#C5purnB&cYnab8As
zT$PvM_FF3hNbAZFUarK85BYRcR1EV8F9A;PiUmqL%SAf8bJIOhPiMM;-Gm3+Pz!QH
zo;NL79e`wpqnT{~1-jo056FGN0m^H42<vt*?|Hk0ygQmE+!t2KW2_6%1meIU<h51e
zglqKUst#Lnq}rG!KCV`m-++dO&HDl#d`(tkHHpSk^R0rP4XdjJ>W_bR<<~P!h2-X8
z`zBTs)quLGE!WEi)kb8f$MTYH81g)o3wJ16V!8tr5^IeE6~LlPe6Jw;JRDJ1X657?
z)xm@khdNX!HS->8Aur$D5uqS@yjB;XptV#f?&Xs1EOLXja)YDk5F3OgyFu@Obwf)k
zv*4U@Bf4F)#@di0aziyr^c-Ua=K6IjUw}hA*<3^5T(j9BV6|~0<hB1@9(By(Xi+a7
zb5sT)b?k2GgOfkI{Q(^{^!d@^va?vQMzLs*wpOO<D~2m&quDIK0Aw@8WjCB%VrsES
z*~-waDV~`y3OUuVCo?rh75%vl-GA3eS?YS)JH9E6KaZxqp1nU?5rusdFOq%br2MKa
z5R1Qxl4S2j@6qq)o+c)qr~1pukGFkdd%Qx#SiBM>W9NjY;ddW>wi$l^c{u*HbYCh*
z&y=J6<!JY-kiRWbiIAkc5k9yL=E!$&R&g}gF?0bTxhb;|c(|Rr`p({ixet*y0Ufye
zY9bYoE5jt(u{OstDCnJ<UK+YVM&UMLy^&{_CEFTw56CLH1<#!gPtr!@-w{~Cspp&q
zbANzq@gIGSym3$?Z>s`c8zB>`IR*LPTN$}P9a(LSH>};7T(EeY<33hHF0&GANuHGy
zPo9>eIPLRb!?0v&=m5v}kv;^S7g|*ulRL{4I{_?rk?rTut&tb01J6?F%~X2r<8mm4
zdmkEq9`AX0dcAKwwlQ{LWB<h`@sBpbA3c|b)}>A9#1Ef6k)}5MQylJDxOPRo$gDyx
zVX$Vs7d8eaa`58~x7QCpglgM@?g4S?*BaOcoZr!EAbu{c3Tsi|LHQjGwo1HJFLsT|
zRkA94FVqSiUW;Y{rEy^3Zl(Pk2@f{((~aOJc!w0=TW7?y$0W1SZ#aXz_-w1=%1*)f
z8vLq&z6z4~z{A_m2F5lA#-7B+*Upzi?Hi%Ka`)h~?$OQe(XXOqY2P!ce^csT@B8b-
zhSdK=y1e1P%mGcuxjxUgeV~=$C6D33z=NOH8HOKo49hXYD$b(V;b$Dfv|vf-(it}h
z#}rg4hJL#NxXt7i8RF;iEvnv*7=|?q;&2jouKCi$5Y;NTSNa$pB<=`jY^_HvH>Ku#
ziB}j;>@CuCIj`P8_%dBy{i^DBy_aR+R)F6xH7SI|J+`Moe*dq@AcAkPF8nsAi6H#$
z_?~8Vd?I+U#5c<w+f%sZ)1hV<_t-tYr)=Xpqb7)P;U3vju;l1)NVUe^Ti{v!=<=jH
z&{R0fKj5-ib_8D~ENkca=Zx(gsD4e)Ij#>b{H`DGRBj@hRV}D=s-qVy8w9c5^IUL)
zmkL_RpgcR=5bzlW%#Y$c)_pH4!xIpdz%|LPz!(-6TZF#i69nPkVIuVXgLM3pjBb&k
zEplj!T-+j`Y?0Y5@(Z9}i=rUD4ie$IutnznBl-pLC4ugB1jb)RNTl<3pFC+BSPNFd
zB+*q7qk+^*UpyhMNfnvI4wgH9QjQ%ccc;tIzH;In{EzgPyE5g0_sZ>u%bi2z)Zoj$
z_*p^RApH-uM?YQnuV*)hPj4JLy*V(sP2z%B89Xj@JhHb5JSw+@fN)lLbhJY7`2!r7
z_^hPJv~W@Q(H9hcDU>?~DjtzJ`RD1)%o*?PMIiL$r(b-!9YCHRQwd4@BE&KJKZu1L
AoB#j-

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/base_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/base_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3119ea0ad965d75d6d70eb5662a26c47be9d7f66
GIT binary patch
literal 2953
zcmahLNo*X)vFF@tmZC_C=31mQl1R%Nhr3W<ixQj|v8cdsA_)O(2=T_iV7SvHhn{28
zGfRq#B`h0yNN@lV`6zjXe%Xfd@Ka9<{sf30qAi2UKmug=5&O3YX$a6ORoycTy&#ev
zpu4KNs=BJWs(SuWE*A+5PyN6>oG0X4M6#i!!1kX2xJ4Y|NFMQ}hUCi)SwdX)l!n4r
z)z=ytrzxK9=NdUb-^g=Z^$LEmQRJ}Zm3*UNa9H=s{y<~EKhQY9@tim4A8Z_yh)k$K
zhi*&a^v1AEUL#Ka8gU9#x~-(tkyW``{2r02oG7oJn@tAnxhQ6KGxlk`7&@1LUb+}M
z)SC^1d3PZxUiLg+z*Q+JUI=Yx7c04e8(Utuus|8e4I=8=p4*|8k1CRh77Lp+imVmt
zE-c28WzWZyfrRb2!2;-eCZe(B(0RM<#a0}$=Az}qt1a3T_KG=|BHQZ#+#-}TB!@I)
zM}i>ARGpU{<(k^isP3pV=V*>TuR6JF>g`mlk%yf;Ei8?sggwiygzgmfNR*r+HN@Wj
za`U=Vf-}pjdeuk{oU<d!V}{Y8tTTZGv+3DUWX^}o<iRk}Ys#WpQbNdT^7uC8J=P$M
zH?=(k(=F1Ky2RSuUL{rOQdMFDK!ISZ5%uOd5}}xBK7FGe`>lG*ZB55ETcGjumG;cp
zGw;mMy64W-TdQ!rL46r+v(D|Y=oQ**L(EfDm{*?z)A<EaR%@*$dCTILY<0%^ysTwA
z&%p5!mcv!@;P7+T)vxno+klb85a$R-6P?kx&4Nom@))y~dyHP)A~DMG@xD}*I;YQv
zD*@VN+Gz}<(2N)D*mPsFX$R&UHC^AQj%&x%TNM#@YM)5S@TD+*-EVo+r$J1eUojR!
zhO$A>%`gqpn6ZNZCj(A;jL6!~k$z8qy#Fl93x9WXa^U#A{4q9+dNl5D6aC4?|MqYB
z0{WKLhUo@zm^oTA-&}MfGm7oNvAr;$=BvMb-LyR~T#1TiI^3Y;*-g5u03!uu#ZwM~
zV|$F+&g%4ktI`osWO!p$MMML=5g|dlL9>X7fy%P7?Tq(FWbf`#kjvtc-y4q-CR>*0
zd!vE{jrjI=5FgC*B|!SengaB_)sZr+sa<tR?dOK<GrG!t^q{mq|C$zOjfLzd*VVFK
zx~9j4?7XhL#5;e6i#6kXiAbcY;~bYW4ya=JZ}RQbleL^9;g{jSiK)-W5@uuHa1^j3
zl?B~o2{Wy4yqoLp>IZ#?vh6O=yL#69;kD>Hxtm+UOz0a~+kAtZAg4$qt-zc07I-9)
zKVH6~yhT=|e)_xrM~{%Is+|{jzGt<(;>L?m&D30QmuX;%HqmBw?1n*9gNKMsfN4B8
zI~A0~+|G(649uy>tkr7Jf6ESCcAGTKG~N>vUC<JZKPs#Qni7paEe!86(Z#C;G&<K_
zVB>faUTmV$W!tOfMRDvJz%a>$X3@P<^<~j&;R!<v7;g>mKY(?_hbX2ZFBje&I?wJ~
zN_=k$1fwrtx=MO^QkmQuJGD7>>U#OX=&`NQ>CMsU>!rt&^{vU%o0F&SO}=vd;+A24
zX_%k=X6yXr&GVOg3Mq_0N2(n8tMM0O<M&^o?8EZp#@ky{Gn-R0Uzg7$2ah})d;Wp>
z!kwS)C~{?JU3;RCp`$xRQXal};l_n~l@~vK=e}|7u`#%1Ol%qxf2JF6-#32t(5QYq
z_38MXwfn}!C&OgmY;S}N9=h4N(fOczFMk+FLr2#qo`SOet*6l>ICS@<GFwsZ{$yab
ztld5H3xGc_YqO(;&xdjdSG3tvx#|EuHi7L^%SwtC_TsjOuwhw$Xxm=8ld~)*Y+4q>
z;$`?yGHeD6|GHQOrbG^cM8C+T#l7md^*l_U5Z<Wyr7$c|KJoY9J;1J!f2t>Ys-&IV
z`1Lk{rKb~pq$kVT@sD5b5m@fL_-|acm5dJegdB=?eB<~>)eoyZ0^l8BhUM?T3`@!k
zP_H<mjXyX%)l+bN>6d(cTqxbF+^FnmKoi!XVbw#4V$U@hc1hviF@Tah&*oYXuxUhj
zgRP0e5dlC~lR@meDY=HJ$77Xpi@ax;q{(xfk>}p--#|^EC<cE3?b!7qUNNFNM!5v1
z*2M3c;K2G~Rh&-X#A91W2-}q?g8a|LjlRNWfQAoabQY$bB1zH{ok)}465|m$^e<9>
pL{2^;C!WZPB>#{n(#zizM%I7#RpH20eMg^?#@Cxa5LmeC{{Z>{z6}5X

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/bitsandbytes_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/bitsandbytes_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27513ec2fb2bb1e842c8d67ba2603f36b75e00a3
GIT binary patch
literal 33235
zcmcJ&33OX$mLB*XHUcCFfCNZ_JGc`R35q+lOBA&)wk)qKyJ3g`B}ybnKY*6R0^2T^
z6H`^rG2PYGrn|bwRJA*%V<*Mx$(gWb>YP?;k||C1%p5#{F2K+78G70|Nza)xp-ee0
zS2C0N?*A456zFBT`$_!Y|Necw|GoFW_u{V$3-dWV6NVp-|NB=s?r-QreT<4{^DlUg
zdxHydL4JZ8k>C6X&%SjdI`-C&=-JyaV!&HBVVpFLm?rZ^@_0(GpD<5aMl8(FPvnmj
zu(Z|@E8d2Q!b#hRjl~%!?30cW2lJaItdm6}Ma-W!Q9S7!aWcPo!ZlekQo{U}iPFik
zkuv7bpKwo>kCabVj8w4if{Dt>s*x(@w@y?~){N9Jf8j*!q-Vr4SvOKQSwB)g*)Y;D
z**Mb3;%pO5lg%T|%x|A)nQR?tWq!wmcd~7yZF0xRj>-0s_Q{Tsj!EB$Z?bcwlf@TJ
z?40Zx>0<ukiSEgsk)Fxkk>1I^kv<mYoamn%7#U!G*TmrDu900lr{h9Zq22FcZ0Q-<
z6D$c?FW1XoneOFlnP0L$SQ^?lW(bzOY#7<E<BoAb_sd+cJk<Q2UXC9*aGm#7{4IT)
z_39+^;lRX1;KD>mvK$MALqZ@rC3tyBe<*w%FXQpCL(}8%<UJn}BI8qGcy(cN%g!G<
zdc^<4krT&`KYHGO;_UE|C;ev+ojHQ2f-_UW(8S@X@Ywi8eCD5?3Ivreom6u%6!k|#
z;mDNWpQLpD>41PHz#|00SER=6<F8H$6G4Aud^SXtjEBdg{)wrJ7emxu^U;||D0pV-
zh}Vb;$HSq3FcgS{q>3{k;bI8YPs~h)A69CT<E5f=ryk!D<ai`BJuyBSh=zh{qDQ8#
zW+y^zb}F0olKRFPV5LNpX9CmH<Kc^5lhhKNx*DE9tUnSM3&|ah_{YP+&^7<q_(aG*
zCQMEGFO5lVE#cMB_{B@nh!#_ibkUID56&oU$|{NqiAYUK8usN6PeuLVP$(D*`o}Q7
z<KeN85DJfmB<FP0uNFU!GHI5js?3&cjYTgV;}QS#)YJqzBu|xBFO|~tOiqRTp=;A2
z0baSoQU!%i2S%@;YE0`4+NQ-hB8ZdA_Xna;Awp%3&Io84@=OGxXzL`x$|zkhG!~ed
zz!I4fMlbn;(d*M8$;cLpWD-Kr86iBXYzwxW^Wf6L-h33!8(dV2iz>^V1891gi*c7#
zkj1je&U=b~m{Wb~mQ&y7Ij?TE<M5@>=#_|Pe9RNQ6!Ngfct)qf(ZF~(;!zi#XCiPN
zd&HO3JgT$@f17*ZoZ@&iF~&XP;<!0J-P9N#)hR9E-cx*k#J|Dw+^eMq?mG9+^;h|K
zdD^V`;}KLD4PZ(IJF*~1=i4cnlo6-A9?$Q-(;1zd?wlT<?uZ7k_@f=yW(IZ*UKt2=
zPK;mZoW35tG!^cAeqv&>lXV4C85*6zcq^Z@XhTBhh4E-45Ds3r9>rA3VZQ0>l4b8j
zfQf6<!v5J>tPffWtQ6ngiK)@RL}b5DORyWwiMZkX2ky5oa&hNFzj$Hg@jpDd`25?~
zlCGV<c;U;40g*3NRPk6?h6`9}l0Fc=F6AlR@$y0g6+v_A5q7|pteI5`I}tQUDQe)n
z$bDL1|3kg#d}wv%FXw(S_sbU&&W93?hY|%3#|;l}A_X@}j`~;?&*mRt*j~ZJgg835
zaA@&3uyhxB99Q~~aZESQjqyRl%hnN-g$p(XO`*JCUdSBED@OrAyo1JBtiqrrWC>~E
zp}a9Y#gCbT`7aws@>#Czv`Pt~f-xOSX$lqqWLtw)3JDg%Uzj78jn!hm>`_{u@si64
z8iPi;?obihQ>>J()?q`r&Y&Ib(*+&yyA*#B{3Ymv4dKP`mnwcI{AG&Y1-~0dQTgTG
zjA|8c(1Lmm!BV8D+%65urempUyZE3xRL#mU1<R4H<{PA|K)TvsCG|5{1;1z8Jk_Bh
z^rL9Z6s$qIx^2_d%IPq6MWOl!#?OPi4cq3eqr4agQ?MTC8n;cC?q>tiHEI1e1RL?)
zJkMR@M_K@Tnx(QKY{Nt0;1F%YGjv|cC(i64_TiB?rYAbZd<tw*V7ce&c=VD71*rKw
z&&>qF(ec?p6eqcF))@!}rs;qIEW=UlyBwJcO9fP-5;CfRB}_8GQ~KNd3phXK0c-J=
zpBuUu_fG)oV!R4BdF~<ronOn(z9=_)#wm{WK6_Z42A$cLDJza(JbPqF?l)`SsMl}F
z`eG<6g#;<CK#jZ3dG%+rATt3KC;m36E`rMEIiUsKcR8FyhHzjqlnHmtdnW>u7lMKP
zv)$WFh|iDX78r>?0}v{C&ZAfc>R#l2J}h+M>!{Z%86z_|K_#=APb!}YM=k{fI=t1x
zSOJ7m%_zfP{M*G>P6n=D07^kP&;yxm@+qJm%aSuX?GKJe2<OwzYN<py&!-8CNgv&X
z%CSwyJQ{167D9fuh$IVJCxbX8q(TKxkPiZa<&n_Dm_R^6viSX@6M;y??~l;*dps{P
zKrZaT$1JVQT#H*9%ORwSjKRVAao1dUBTqED7c1AyO&cbzZ(!cAW^P{JwTIq25HiFM
z^W<-Zzpb5ol_}p&dVAK79;bKxCoO~Yu1M83&Kq8}sjr6CdBX?h3N|-qrD6;_&{0|g
zeqd44f#@a40TgxWDh3Q+*fQaWWEMit<2arQ3yo;tsJ5K(K?{^^l_6|^%#Ctc+Ym^h
zJh>2)^hTO9#0<i4OgGFuvmaQ4F{*8b%i1PUOX4!NWX_tjt&+|W<6}k@=TJBAoGE6C
z@UQMdoGFIGWK_pvcNn<v`%!H}y{8m0mlw;sT$nCT^~L!2HDEAjX6^qWYd@ha?78ev
zed%}1oNmpWC1yb@s-m<@*@O0Qmw`KNeJ+=74FM=JUgTr?ZPF7?vgLVS_nrcR=JI3t
zfA6E5pYE4B%9$e@tyG&6)W`Urfb#uQy_)VN-fNr<KN5-x<Dut69(hB07{2fG3@bzi
zLrhs1VX5KJXebg12-ki2`5xs#0l=MEy38UxK=HK99%XU+00Q%b(DamlJP5CS{9<?t
z8(&@evsGuOwwyF$Q!^-MJiOcUti(U-wMn|Eh-6?p$2cAdjti3E;>6Si$#8jUJS@=4
zmFyGak*J^5!Wu5+jfE!z(a}qi3E$Xb0!@<)MXVZ)grbBql->Hs434tN&=ElZ!CD|3
zrNqa{IYG`zN@E6KVpyq^r?g$NDgaHc(sXIeADAAO@-v!YV~rr1M^0lwnz5+~pu`bc
z{pxt)Eu*AGej<G`i=Fju3)i+LeG(-`j5v#4<n9-9uF^LKULSa4-|PG0bv+4Z@4Wew
z0_R7SI~MZp);7F#{mtv|7yqp6-Ljumy;~LUKYqI<;e8}gdw#(xIcrmu9m}!RC*qaE
zcU;5w^0=z@`}tgH<&U12Kbk79O_q0x<(=`tlkxJ-MER-tlX9VTt?$&_tXaulJ(j2&
zUa(2dy1Smil)EkEu1dOFMR#k`-6y*HQstgSOUms@wYDc)2gTOGWb1LU_4xe)Q(fu8
zi46x=UVqnJ^_JyL%iHzuwA^fYr~PL8^7Yl0MEy|0eK_T=-N-Xkm43z<N=i3MsAV3`
zUKy|672kb2zU$2GbMeZD61Ioq=7$;l9o5hTj18?621!q2jNSlJ5#)c$&(Xf7^Lxt!
z_@IyJR6fVk$Tw%0GZHil>aMinD=$rFUCxBpN;#J`*qSal0}`8~8sY)ilqYn@%#r#u
zL`3Ztv`Zx`(nWBWZ5bbm7wuG9z;n?eH9lsH8DbW-2Xn@7K?d|Qst^IEKuJ1>8XDA7
z9|e1~OpOZ~7%VYn!V=T~)E}s&X|~~EtoneE4N^Ry#nV)-&#V7kVVf_5PcUn2^IaGZ
z&l=i%(^269suJi-n{7NC2!s0oxCA%=B5n(OV3_E$!dWEsT7_pR+e73$OwKuS=xh?G
z>1@XfPmqu3BB26~q@M_d1==j${EVGWn_S-ReoExPPL=l|cqoiJVrP3feQHZ~U`Ux<
z6yYh#n4f0LL<oUQ?{RsHJN&?VXsFcUXIr=3;agJ9p}0sK&Wqe<`CQfhxY@lvuqQci
zMjSYkvev{sJ6Bpa^}4})(cC+4i8~vX{2OMjvTfNfR_vX(-*uL31qpXc+UN5>EU36=
z<y=*F9Rn#>bIMhda=DYPM$y%nbajcYu9U0lzQtHneBa7>hWM1jv*cYKK|LOuXsx<$
z<~&FE_>spFwU5WGRi75v;`Z7^foJK^or0#j#Wkto{`kO&c>l@Ub#cdO<Z{|JI9;I)
z4MRb-ar@4=c_-Ve!Wep%wPEQHZNT4V8#d@G3d<wNr)dR+p4Po=#WvOnb!k3LjK9I<
z+?E6cwmd4zGG_?)MK!eM+mx_PT^jw6u29>KK*fNDHF4b2Sn>o|P)07)C%sYgbR0lZ
zp1MVWEMfb_Ok;Y5z0;zycR-y;1v0kJ@Xjn!g#aKURp#L#%IgMyIo&+XC-fpb2Z9;o
zX&>c6GlM#{WkM-HmqvqWMS_Y_Q$&nJQOzRiJR_FSVtMBi^C>g|NFf|Sq;LR^ln)-2
z5RK5T_v!>{EZemaYMnv>NJZce6462&MwxP$9olwRX*=6b+{-kH^*|Z_6g5PS!U4sA
z^;%StbkyH*)U)l;BDz|ZdC}FDboGg@zLiUBt^+A|L(=UN-M-~(Ywp4Ivf8B`Vp&Jr
z(XsBViCb&fD);6|`bbm|s;D1~s&Nn)i9Q#c^iPEuZ%iNrPI7_E%E%&+OAPTKI$Ib*
zl-DeStsoUan?{(V3}%fNYn~D=vYD5Rj0D4KAd)M{!Xk9=JgYz@86?@kI#!VmDrC0h
z8;;$dqo~Lq!}%@a%5CWKEw%6We9qx@&&^pY@0RrdT%;VXq{AaRJV{5F=;+!s>fN>*
z$AMC~cRU!Ik+@HE^lj!D+_w4SoB5ol^~OW<#}`5yCa$tJS<x<5v@buIsOX<R^<l-1
z<x`1@!TD3`#TAREmP_KrzJ%3xuMl~@jL?Sv{*YtH$v*&F7&7oSLk7T&<8htD&FRxH
zBp3XM>2r}v>bm~wyg>~Ozk;<Z6r^EI(4dy^5^uqdxU7*zXuR?OCD5smN`)EYKtpn)
z2|_=@bD#=B3BolLK`om|9FS*uDs+;Mb)?kDrLRq?ArW7lvVlt@K8>7EG-t>d1r654
z3@_<|x;ew|8?N$Kxoi5TxT`#njM-zMDDVM~y3mPJm1d$Vr?t$ex{$$e&f-+H=c@;D
zAOiYlV#0$r6_Ux$@&M#SL!RLHC~Z2TeHeH;J8RnM>+Sb-%^uDwU%AfmjH5(hDtyuB
zd3Yj(OC8WKC<s+#rry6#F2grF{tZ%jo*xf*o(22;E6aM8Mgm|Yt0J{W0CC;|$(q>)
zfsj)M9B`{u;P)#X@cX5L6O+?ZLX;6g!X=~<4wExX>C0tq4X(_Be&W@DR#EQwvZ8vk
zqe}fVVP$NQPs^eLvEx+yNph}I9eR*zf(F<m2g~Va(*ZuyXp})Obp~bVRm*6mbQLPr
zrmm9NfuZd<LqtJspYh+KL6HK02SESgLQC04*4j_)rLWE1m|J{0S=}dA_a*H8zbyO9
z>R(jfx|Z1W@E!ZZcT4LwbbLwgre0rGyus;<iZ}F};~c-?<~q8P?T5tnLqOD)%)o;>
zfTekX!7X;;XleHmE>~cGZT}DUr|izxe*Xu*pDL?Nmi38ceJNMt(o}rl81lG_*PRU;
zMxDD6I8;$1GJ?4J`b2=g_BPSpma<kYPQ^P9pd?5BdO;;ha#W!tOVw}hcXE!(&p4x{
z>~3-OhE7-1wy8G&RWoz0vJH!&u<So?=n?rlb_Mg&A;VA~_p3h3VY~iU`>lub_5WkO
z5q_yap<IdEmBsHhU?>^1r4#QJU>yW)FX`rV>5Hp*9ycTUml=CUWeBNI5hRA;?C%V|
z$moSxn@_2PF8V;?XVPv|O%MJypN8{eUb`b}0E)%m(B-1@)T%C1^R_%`dQCyGnp6~v
zad&ZHW+Xly_^zRFP)1Pnf)|BIrpV0L*!VT!d-%xaRkkB!_Q19)5=;iRwK4`Wji6|k
zVVhKJD;)XUjTb*59({cE=)#_)vr%+5CY;SlXQ$}wTrnk`1Bj9@$G-1v=Wz|@Lp~r_
zgx9e4DVvOKYq{BSi=S0^5-xv^M$NW=n=ag=_SR8*U*u9%_3_5ucx4|}{9Su-g0&rP
z!u~|u{De%kXCj{3(xEwhMgInO35(~?_&HsS&o!TEBs0h^&3=$^pwH{s<=b{k%y@P`
zVXcxWa3L}oxF%U--~-%AhE0XxPy~1RekIzWd}^sA-uJiv6;IZZq-DjHWHUS&OA=Vv
z91j{p_dKU8uKcXUB@7@vrim>l^K*V>LA`>|Z@ZuvK>q3l_5V__gxRYL>X_Jnbh&k5
zaPj#yXA}HiZqht_-&Vxas*ga1ASy2;LwX?z^GG7F7E)qB>4P$aW-DlGE53RKZB6|-
z3XBl&zzX_IXR6A_>e;Yy#ns88da<Z}sV7m?vaAz}cFddDqN4UEijO7i$KvK=@}i<P
zsShEA01Dh@5a2@v6S<aCCe{Ud?G)%W%&5W&GUfsr8bG17wB-qEY-}*2TVh|GKL-Pe
zpr(og0`oHwJ-8Qjyn4n!SYswARBGPRek`ht_H&mtYB$|bFqf5b1pd`>;D!3<IiVzj
zHDwCwgNAWlZ3oYR&14$WDXX|U>uZ;~roG0q!uL_h@A4GzEm;|HGahE}?oqEvm_fAg
zkI4DQa2U^cA^_Qh8x-V$qoNE!3K%2j1vrwOsGW@EjVl+K+Q|%4@1A7Y87W_hyArzo
zAVwj47sbwYZ42Pi7(+G|#9`bbYsf1TLpIJ<oGh#p3+v+b-763Mrf~Qk4$}OTwGt>m
z%38keY)U$Jh|V1eXGhZ6FFN~Iu-W#f9Pah<9m(=8vAio$-jgifBbM)3J$mazqWtXq
z$<&TPa9I{d?pRwl3OL&lexvm3s<Ath_Eyo}8u#v5v+t$i?RD{{KGEKH7aW-Cm6}_w
z_|Btij$^6Prlq-fX>Y>OyPo#mE23&-I_jk%-_TAz>v~GtN&gLc|4M<pmt<OMlK%m)
zC#=gHJ0Wvj&KW?*fLV$C1%jWgPt#l;E_%3}OjL~nf<07@D~>#@&zhJy*IL&0Vm@YN
z%R}4~ws-c>MUmn^WWaSvRAajajZuw;3Yu;djG5*OaD?Q6-$d-$ujv>1bLiXjhwZmK
zT-ccZR2MTo&qZ(@hA)f!C6s{w16FbR@`o;$R0sfAVAl5F-mI^~+8)f8xh(HOjP4v=
z-k&EbXVxtrU<}6wJ2ow-Bjq#hfy_y;M?;g-8Hl)iQMvV?c4Ck>ufZYC5@r>LG)AEq
z5EE?nAWs}0f+v`{0;~XbK*w}3J(~xYfxBVI3Bz<>&1%PWo6-*8iQpu?hFZ`^QxJEm
zqaj=&TbOtpkq<&0;-msO#!vEKUZZdmVZu*YM8;4^{1ssdff1TzqBvfZ53^!iT?ydW
zWF(zE^9^7{Hd&NL>K-hv2RkWp9<}1EOI1|OpZchzae+@ctCt{<)Ufp29cOE*sdwd^
z*fg+kYKi}Yvl~XPw24slnxwNubhe}%m1~W?$;N|X<3Z3LuGURX=aSj3>?oYA@ny6=
zYtH@t@L2Cx#*a<+dd*T<=0fp}&4gu2d4dg@49b6u9!UDp=^4oo41k3frf&ny0=V`^
z@sXzU6hN*3WtDJab0QFXN%#ple?rbbBWIbMB{&h<sx&#uBO@F_458l$fM-t%gm}3K
zq;eH3=yMZi8Q757O+K;02g>PIZKC4byq#vn4xW^)dMijTOFG*{XM4Qkz?$<QU@fvc
z+VCaX52X4JC;Ney982_{NcNu<`_C@e<DTw2j-K`Y!>V@!(6)M`)NHZ6-?PEt^>1A4
zb-V3z`r7b(YiN%axSHd|&GF{pxZ}v}TG8<&PM++5Pil6?yAI#-Cu$yBC`b(q#T_18
z8j6nIZH|P>^pWuW!}*5`vyTJ<whX!Y3v8WN%3g729}05@+)`<vQw7nP(g<1@P>q+l
zACv*q=0a357-GZRg6<ih4eap9`+<AToJLsY-3r#9^FHlCaZLe2Z*!I)KbIdi#NdmW
z=JL0cW&)X-lfCv}X$v}`>xMfQ%PpuKWJpt+Q9~J8tP7f19RQtMp9kv@3^DUu!2%zi
zd7u;vE5)_7435iDN+%A{vIkQJ^Hqd!&Kk4EEVBT%vHV%g;9Oz)J7^@}&O&W5bFd&*
z7_<E&oh&fO+Sc+w+pMf@bTPl>$<elt(ozlc^7s^Pm-}+{mg4ZKuBZn~p0jV$YYkPW
zUPo)yGGlgiH0XvjqC3gG#7FDY*eI=g_FQgMed%|Qha8EW#z`$heFwQ<eg!w@h_<My
zV-D1$9BaeeYelaWkLoXSqq=7xp32z2MRUcmqF8a}e6Zs+BP=~96f>rKUH7WTz|A@5
zD6bQx7QSXvN(Gw3N-dnj?8$Q%RD?;9%Yj_xImAVY9A(etHr1DYW8V4qZECCM3c?-V
zWNb5gu>Fe4Zqr;rtl%=SQnoyTK2|X23VRUSxg`ppQIhdx&*g5_mwvym&Fq{j=DOUM
zj!}K;DhfJgIKhE518PkAt)`iCMR%#8QLGgCxx8ETrQhlr=mY%#6weTI1&e~k?>kjy
zJe!x2xl*hV{8LAl=Uym{>2J6RbqedS|4U+dFO;Y#;DYYe8-(_ewAHA7u6VBKs_M7R
z6<!5+?gA2a6|qmDR>+38$V_&U4)?lbG!eo&g$zvqXUI<nWfn&dRIq%HNb7(^9&=%C
zX?i!t({=%VraLRVfgC8@DugDdo)5{44czQ~55equPrlicxlaNO;_Sg~@vEG?<ur1o
zN?MN4$xg8CMQ-^!$&Mpp$B|p(iH?U;_KMH+ysuK`5FnBEQ2+kUe4FA2r6U<ClY@hE
z=>K;YRS|k(J4HNbwsINA>7BMu+J@q;X5fHD4e{o|HOJtGZ9`uQKSH9vrOy8SbE*on
z<U{}AIy*_7C7_(y*`~pTGt}1_ATMi<o)4P_<-W2Nm(^E7KiKRNMEJ2z<p4c{8~8b1
z$KBA~fasjM)fCQ#U8SQK^Oy1G-Ze1(oIra(Di|fr4qPHb>`d-BahyOm$b^HyIKO}Q
zX%?vGbtqZud0Fu%^#>PC_w-ze2MFcL(WGn7hxG>)mYuVd|A*+h@ZX~eOc43+y@%Hx
z=wUf}c;tZ|9{E!EB^n_tz}ZGq=I=JW|A2jbDQ6#t9_S->EA=t=4ANnev3P+iva<rb
zaV%l|4M=RMOBfiU%Af<8Eo%X#moaEyI@jf8Y$Tnyi10s90FhlP{rmU4jBn5Y(7C8C
zV?%kxCtXk7EL<`z8$YaVi|^RC`utk$(fdZOy8gqir<5xUcO|YcBz<svQg|Dgk3K5t
zL9l`+?Hrw&gt!!h!-<grY0&Y}h?Fmrxs1-Q5$I?ZeohVv+6Y8C%9JYIhzJMC0sl#6
zKMHiN3j5$d038D&KwuhPC@V!JBM8*V2*fyMCM5$2o=O%XS)-6WL6w2g(V58^D58ZV
z{p|R(WMs-`AcO-^DGxU(qcg#Pq(dO>Vc{JrmSo;Z1#JA{%+w5uNc)9)iq9JZuQb}z
z?JdtmH?uBDHWG;qO!#r)P<u1KNflBiqyL1JrY6aQhp9;xDTH@q=7OS4Ddk6}aC0pe
zRe%wNb{>;!lPtLEQoKb<8qzahDI<~^l#xL{9=s;}TdLT}G!9g;H>Hq5Vgut+MQ(!R
zm=>l;-dGEfY5nwSq)Q5w+TZd%s8IhTCO7N*cIW9Mv>Y$u(EpM#Z;ABZ{b~8WMEQYv
z+uibkMES0H+dTtcSc&t+;)0lJ7H>DXmA88zWWRHh!wJ0J=1aB>-Dw+w*o)J4pVK?&
zQnj*bAum-?`Fh@ZMJxH>d}=S2Gc<XVO@nuu23dyBSq2jaUU6}USlqEZ{z38Jr_NFo
zR93uR-<+&Jc&Gj#l9m-C$W@H8z5RDwO`n#y@m($_IdZ4|2$Gajl2S@i-<bq?U)QrT
zl&Bk6IGL(%U&#~e2Uc6e`a=t+Ql7Tui=wA*wd_{cFDgaPk%bef*1na|)jhYa$M-xO
z?|)cqJ%>8b$<p$4Ekk$esgp`A5Ek@y+}B}OuXpt&yUvMS=aOAdh+R*tbv?CdMDV8G
z<SmW6nsAGwHRn*Gt{=^*Y<k}r@7SO49=KC^AnrO4uRQQ+Yx`YyUDDkyy4#ln%je@g
z!(zv9!hHmH+1}Fi(((lXx7prG6nNjkwRIqS{NTAY?;{W_-cfolpKCkMzj<Qu@RDmI
zkE`}9H7>W@>|8k}*6$Ik_N1z6m4GK!pZocDFbHDRq0i8j3XBypg415odXJ-mT-?A(
z{=QM)RQgH(39+gh;zs3I66MWHS6007<~^(D<IM*X?n9~m6X42~)ZgQf6f%-t-_I=X
zT2?x4om*=?CZgA-2YUUDCgI90Z@mB1?ep>^(C~r1gL{PbJI?l0W8dp%)*Jhhje}z2
z;N9BJWbGcYb`P4@v<n=-rcz)>kn^ldI(?$kmvHV}IU+iDr5d}EjeEt$y@|&C3uitp
zX@CE*pFQ*LGar=f`LOp;%H5P|-<fJ?y`N|3D}^j*9Kr}!zR+`}dogc=hk2P(bO$#E
z4Ljja71zZZdg8@BYu287FX$MXX!8<}k^6Gffsy#48#&`8d;Uv=NT-*N)}Jcl|EK1L
zlLySdwwU4nb&>Ow(fsSip>BNqRjK_{f$^`Jn&JQJ0^=!{<*yxi@C!s_XAvWG2|)<^
z=1<{*7|D4vtWsv+74gpiXJBWgE>qwurjHWJ#vbkDOr`ZVApB)k<I`^tISQRF{0d|c
zalf`aIR!g4VaRLzoIwc046Hp&!W=B~CxD3N#dMc74VQG0bXlR+$Sz47={VJwQ*g_y
zQkuAw(dW{A0b70_dXPf{=IhFP^(l4%`Au7*_5CYalK2)a$tdsD|CkoS!+dJoC3VCi
zx&{7K{+rJ!OJ9z*RH$Q{ehb8ztV(~YK8W^d{Gzlx!b_xa<WbY4-<WN1!%0Ia$Sy>1
zt&?-!gNC4{T@}l}Oq*cK6EvwaJc}4ysd2gVqH@lqcIgXVz;Oe1$g4lvZbl<{Cpqvg
zmAYTzgXU<H+K{xw%;jb^EdBlo_ov`ET(@}hXD{TdhxdsfH225Ht~2E!s3uN?Mj_+}
zp*clg5yE+as0aFuB$t+@<fj#(a4BR>R4r7p%GjT*kUDz=8VW2Rs|*ia;mZ025Z)sd
zS4{;U(tM<Zpwt`+daj3}KH<MZcceU7!7(Cn?6PUL_xaPO&v+Co1QXXi!KqMIX3x;s
zAypiYwURU=B;Iq@>yipdSW45K6bL02Xdg*=mjV&!2MTIGCPUD*4@!1rTr`Uac9LQv
z)J=&H-lQT3lZ7M;#D2p;DPK|11a>GKq*wwg!eMfT;Yj(92PS4@?I+<7h5ok`YGC#f
zpi|0}7yYVU6fHbqkQ_$#TGjTzK*SU&GEU1Eh6Nc-lFal$#YpCG=&J0~lj8sPP)?)(
zj=CK1mhaihm{{M1Fi=uvctGvmZ0EL^9Sy{T8Gc2m-JijM7+*e!iDXr$Sk;-V>bh}y
zet4nzuDyJ*`R%qfd&j@T#aU_6(I7e+mVWQPUe{y8;o8`mY#0z529gcO#D-(H4T**`
zap#$Zy>Qms2St~6;rQZ}j~Y7{&8dc#clO@gyJB8#O*9<FHz_{t5ZybH?rzcDy)wAw
z-kYkdOIEfgD%(?4o@7<8Sk;@XA`E2p_y<)-HY{AzPN0?~XHJbsI@&}>+j8%kV`s`)
z4$-cJvysW3w~Ma!q^n1C^{fnk;M#S!sB-b>+sA)Xl-+~>#Cm{RLH8T`|6u=8@SX5a
z!*?qhA)i>j6Y`0brI1gA5|xcZQ!4w`D*F}=r|O%Q0ymq10zySB_GWDP#EOup-M#vq
z<i5wmeUGKwl|Z-lm)_%ap3;Tm7@d;xq>CislP;g=g4p{9uEEa=xT^k*eOz_-#z~$d
z(Zl*X_Ii>sgy_Q%@>}xb_%?9`)>nrYN`81MY4wO!PrRV+j=BCp@h|OY_u-KJMn^kl
z`m2xjvGjpm1rSL!Y<Y5CH)S3&y;+BhcI2le2gbBJX`up#ttLf~t|&Kfj_HW-d^MO=
zzIF+;rR6!Ub-uRcuV<C49rfDr$iMniv`jlT)9oeYVH{Ntv4h1Z>w(Csa6lWZF{5&L
znQ(YjrgN#jti#Kc>xyQ};YD)o-?V?)MH&vTbL{XkfXR{PHP23Kr@>(m<QJy|kjC1<
zaseXRLC+M^V;vV%Wmra}LSxfI$Hh2!)Ht3ZS}{zcjTsz*eyeP1Xgo6M)8ZL3O442J
zW(S4vDf%z`J91uwbJlAY{ylv#Anzm}V>A3;<fBOzir`4rshQ~X3}8BA#1P{_ppjtQ
z2pMu8qE80q2~ewYQCk4BP0_+9X(;qZ_)nDSd*plu=RvV22yrv*dYr`ytd&g!An#Y)
zrEizz9=2iRKck}DP!}YTqhhgn4a7oy-<rLjseSlFhcD?MwU3qH2aY{RQ(U!pbgij>
zZSawJ<N39sM^n2FBzK(_cb#4^Bpo|N$Icbk9Y;S1Q6*u#ad53@7b^_c*F8zcZqc!O
zwf6(ZK?O*DP}GsCYf9Gb5$pCW*gmTC0_c@hEOx(sb*b@3FQl5i%XK%$77G+uo~mkE
z5&*IqE7q%8WO%)DK2f#no>AAhd(jLaR$iTS?-AX5lI|hVJ#=gE1NZ6A3c0Gbdkp}9
z44O%FK*9omjD}?CplGn||G;2n+8c`TX`%vZp?VA>dxE<3#d!v*l>>r7Zb+Z0s+pFv
zM%e~!w`Z1Z{1#=KvdY#j=dt%SSg5uc)-&>gX7w@)azJ{a6A&?nu3OOZ9>#$lMiN!U
z48eS+hDz7ToL`fN4BOL6u0d<efW8)Hwg-?S2fP*BY4ukXc@5gG0RI8HPWz5MLG2O{
z=(=8L+ODi^df*5asbh;4Yh!WUO#i&avyW+j;_;9`NH0Tf(>g4`If;)691#XJG?Ocu
zS&J+jG7WSTSxT9O7Mb1iDAZXL=oR$HXrrfviCZd3T1ZuekXsnYf_XDiw)e1&>|t<9
zD$Q+tYu0pzma=E|d=3mZL&qYknG9|AK*_%)ccCr7g`w~7lbo4oys}-+3V(}fVdB@1
z&NgKteyXvW2T<+V!mR2U9G;!Xjr_Bnso?#xWN0Q-R|iR>05rXxsBm4L94O|5VA3p<
znaw9GqRmHvF8>F-CEFq3@Z%R|q6&WfAE`qd6q5&hl_B_K6+i|Lk{)3)V*Y<qI>xBR
z66L_6KS}`%#{WO$`x|m-bW{etia1x2I*$Ux8QhWA(>O%7ug~^mjv<@P)67Db?<+Fd
zfq6xo*qX2_VC5WT3p0yhpv!lQJ-{W4Tz6gW#gZSLO1fG_S8LqqT`t<t^F{4IF-g@|
zUuc7-A7zTy^sm_mkSkT}{u9??=qHuQ@(!`QBkuNXaD3-69&XVwJ}aNQb}^Q$?GtPJ
z;sd8|2NPxI=dB+Wlr2A<?ARxE>{|^dI?lwa&n!L-CuOf({QWz2g6|84AKN}H^`uJo
zte#%of4e&FdIC_KG;(y%$gy%(2PxXD)eI$ShHpK0r{?(G;wtLP;f&hvnK`R_armvX
ze|$Do?M+s9h}9j-;nh&0dU$^LpPU6(t$N4&UKwH405qmU1M1IW#7JKu6ZEP84!}VH
zb&yJ+%SiTQa3wV9lZ+e&Egca|>`5O2!v3fRQq!TCU^6!;!|{>^eta54rpw5Mh5_X2
zGC^+IP5_P<h=;4-{u=)Sy^zoJE{r6v<EKj(x#e6gG%;N(6CAEqQ>WjVDXtr!6gZ}V
z)Dtk7G#;2B6ptV(yI2rfU}`Un+nI1+Lec8WMEexW0<c@6l_GD%8CW$WyH;B8Y(DHk
zdKCCK`mN#Lk#J;2pmqW9GN|JLb?<2*iZvTeYf%8UPbvabh)(&*wjQJPLqfLEDOz-d
zLvA+1Q8c-=MU^pNny`^#lnVD}7AlZY;gGvvq`Vn9Gc~GZxr?D~p#_<zlE<1UDZ}oU
zEI*t!+^5*9IzhmLR@iT0wa<4T={q6%PTX!>^F7424lrVxWLe#ts1boUXTtwU&Q5Y5
z?!?JF39ybhL4%%xo<4^t_6u_U3mmVajFJYDtXs5iz*dlNha@*Mt(Bwgvpc_SZ+oe4
z%P1XvyKm!ae9M3iz04-m-P#>%?MH9TB-+m;YR^&-Oe2&n8rKSH?s^a0GA6u7=ZDv<
z%_%1&Mmz2}JMNY?rb<0;yOu(KR++5p6YKioo_@fq0f>R>N_wD;N8rl<D-1TSu65ZM
z?;N@{oba587vO&t+>h!Wq7rM?&DNy3Q8YI$JqAlwDf(&_&CN?QADBDXkgNP8Her!0
zK01vQEvwBxg!78w6{D=EH^D)a-!Q5B0gTJc8|Gog5OSGjDDP<~8LUp4k%c`f0wmOe
z53fNgH8xWg?-?LSb9%@;K?Gcdb0FcY;5_o@Nfrv?<LPh;^BMvqpR4W4CoYA;jJXEk
z^ognK5!f)AA<XGqhHbibP<9>|93y=}1{i`eA5bw}=b1`F5P%IR(E<WsY(VvSf-?e9
zf-=^`016`vVZ$p#hE1S~4A!J(7}Y~2gwp!Olqhroe9h;l#)FiPZGJ-UX6S|*dc_kS
z$Ug~}LV=)KlUA0`^C&=t)=%UDM-i0~U>lu^MA2$gJSvcyG2wWVQ$R^(B7uvcG{|B)
z%h=#c7<<X3^*ZFg06Ruku8v1SSz-k=`3#=aV}yUK%R0Cq5u;736$c3x{?;eLUnj{K
zGN+>*ROvJb%|WH8Ws)WwQfNykoo^P08pY<KE7IJST=@PK+%Q2%kIyA~tK$E1y=lvW
z%+4QrFF!%FDQ#JheQ5_h%pU7!cO4H+U}1Sw@psa~P7kvu;DLeFi|T4TPs$dasSB6E
z-}aq7>a{Q~fMk-j2!$V_PN<DiqHf7FH8uwOwUUvUtQG!O#0d#XU}Ta2fO7<OSROXJ
z0?b-(5yk<WOE(3q1Zs#3qi2tA3+FO&1fNSw(QQ}K69oTWKuZAsK6TYBes}rgnrmS7
zRC4dxJA2Q9nR*X5#BIwvl5Km%w!N!YlKUSP_dlE{IR`sZ*5ZXL$<kI4|E;a_M?p$E
zN?(iJi2cdTTXS#D-LbdB($rg3Z&v-JX2G;x*D`+!pe<F`th}4j?+;YN8YWr5V~IwF
z#zW?^{0n?arss*j9f6V=L!zw|TS5*SMlA=k6+w(>MUp_WW%fMy+-&nV8@aPIE@x2j
zmoIW(*f`4>{&R!F(tN*>vz9JQygj^D;7!%;NY-|XwcWp|?OiDN(9ybF`GKPkNTsI_
zcg~KgxVaMYT!l?bPp?_Kf!X3)2Hr*TrG^Z=nM!;XOMysE2Ep^O-O|u|4yR@AjTy<X
zPp57RGRl%`6Dx{Zd@d%VnwLr9{~Lt`3pK8^)ORc|y<ydj57wdkB4ms4XTe`SV=;nN
zM)JK1LlM%~LBsPrY*E?KH}(XLF)J|8EG9(Elxw4>W$a~!CFF|>QL>q&Na&6%Xkj;H
zHuRT3-<AjGkBw5QXAoq?tqMz`7?RB;Tax25EgjBt;Z~$BU<?dMX@70%BHZbHO^MW=
zecY?B8@LR7Tf5cG2-6rTqq=L%T3Mzgub3v!Pi>1BNrIi{$i)me@K+S%=Zf*?j8f;>
z1DS9O@+sht-JrwIv@Kk7kWGdxbcLEW{f?F93T3r2xq0NON~czRv65V&T2CA(HAk+k
zeL>lTI&OJTc8<`jvU9{gP_`rIOt~(5wp52tb?spP<<3?5HMxp%)>ZN~xr%eoh`bAO
z&x;&K`+*(0&=A0A<(O3^9UaV0+!LFy8XMGp=hAwJIn*(jEBl(1MOsQXus?mQ4Ehbw
zDWGMTvn6aFk3srfNkf#-mPd=rv1Y(LRCDH-_4f<kQ&5(<a@HC*Mg)36U)vfrO|I6c
zak*Qg#(s5cN??P~#^6>3d`zEYt};fd+7)}z`&bElmE?mKz^{Qz8-X`FX8&>8d?%rn
zX{3eFUD)M^jvi1<2>FdaKOUR`ZYtBIS<Ez<f@T!;R6ZS)^e{ug;5U-=CGJWXYK!7w
z`tNF254+XB+PwuS72ZPY*i{L%Gj&(HgfH<8PtR<dEF(A$oOT9S?uC%&J1tkcTH0H#
zc9YZ7@{9+pG|xrwE*Yy*zF}dP@+KKg7x1$j94k=x6-vdK|3fO=h=O7L-!KXeret9l
zFq7-VQN;<w+?p-$p}mS6;%vU}YPaI|x-t-pLzJ9wij0dKI+p~-t|PKZz|Vwm0=v=~
zrO*F`oN5ZIC5Nh#5jTd_{cjYD9}MBVRT&IEHziu4D7rzB)SH~=BJ9A=xO^|X+9e}(
zuuTd%)Iu~`!3^Zjo{Ud+0fd`)CayUi1k;#)V}Ps?!cvLkkVlWyT4ig+3^$T&G$yja
z3$2EXPZlkUfkGsACu=~)rxDG2E+QGxEcWW5SAM!k$$}WgoQ8>l5p7S;f-EOs(`JHw
zM`-J?g}03(iw~4C1J=06%F@)0e1%*nt>XvMPZKKFhO_QP?sF^DLDxx}-h0RHz3VLd
zQUCmzbzA_I_lV^^^R`rZC7i0dt?~uV>cz3QFReK{p$?j=s+m8Nc0MX=TF|E|YZiq!
z2NujJXJx#hPjvR-mOfQ6eCx?uCvOMh?uWs;q|168F6&L4r}3@XH)of<iCWSCt{qsg
zrW!g|8dd^7Zx$N{R|mz0!z71SQ=hEq5^K8R-G}4DkBZ%oC2AgrYNxYuF?z?@kb)2(
zW7h)fboHf5s+U}MN}94m*VAd%kjB*%Z|)ae0~@uRyZOEcW`P#w5>5zeE<cliVFBm4
zUq){2OB^_N$9XPpJts0Z?mU;OuAM(CceuKSeAV-3?zXfo?_2G-U7c)s0%8seMlh5^
zsj{j!zWe%jmqPDcxq0PISy$ZA6))?e&=+2RVY%sNo$q$8m7QLF>@WSl@ZTvr4O@~T
zbK_;Fv$C$09b9?rUw!B2-?>wEFzz@gGB;j!aNSXpbTo;MCe$!-a{}risT?8INk^mT
z0PEzPr*A&J=IBP6rKWdw+}yDoxanKz`&WB@z6TPb`$<C7acIGoa#Sysyi<9za{1iN
z8qv}D2Zb9>uJuX&ekoT``&Rjz<xBe$<=yiq@4BnWqU};g!o73;#3v=Ssj|9MS<})S
zrm$ro*|JY;*|!=HTMouc52Z@#m%7A~resN*SkjiNAS;6vZOMvWv7$Fs37&St(jl?5
zIa%5+mbTw7%qz9cAH7%1QJJ1pS>w{=$|142KiRxjY~H(iPHa99FFp8e%Pg_YAK7qm
zwGB(ph&A2w52dQ>mQIV+J28R2-ubhO2Sn?RR7W>_`xDl-jTd;5_Bg2H95r!sHKS9Q
zMt2rvLT4%V5x4nA0B+1UfL=8dk*yI7l3n8~A-(dvr@oP!9!R(8Adc`;_)IvRVS)s_
zB5YQAU`U}5TDy6`VM$Ln2U{T*J0aJVq*^O#dPJdVEKIm09~6oyr*x)<dz0R1kf#gA
zYrIeZ{Lh4M{VXUn!XSbM!YV<J<fK~|wypFA8kw-1{ydLTpgA40k!c7}B88xxPQ~nS
z&qC+X9J9@tKy&ao?^$Y$!E5m8K{*-m6AAj5iQxvi82hOa`leRI%oO_S+sLH{mH;Cy
zR4F*bWl%|&p7u|UM~HPmHVPoT1va`Y)&L5P^I9Yi@uq!@ovr=ui~Je!%|yp1B0?V>
zWQ+uN$YO3<K@rB|l}g9MWPFb7fy+PlqX;Yf8Z}4;G62lv9K4Q<(~&q1k{jn7%aK73
z%cmpNshX}JYXhngIaalNq?CqXYEvyBBfLO49O;LZV0V<Al+<n}HUYg47H*Nlr(u-5
zcr*~k%^iMxXq2pvGXXaj3Ao9P$}E|FNl8f(A@RPghnIY6RmiPUjnXk(N;$&6;>RLb
zPjcn?OU!0u5aR(M3=?<Y5Fa;tNVVY%|7l72VpFnWr&zHwQPG_!>6y>}$g>lsWj?ew
z$6E$gOV(hp0H$J^`r_95^@_^*Q(#LJmnMsv#G<BT(O$7=Z?b4eEE@Vv5iEr3i);(|
z5OuExM666XN^r$i-2n+Zv8rpOEm5^^!IEn3T&cS``5C8cE+&I^PpuT)e1-(rBBE<I
z*d9d<kj;ZJ@RkE&%Yj?@w@)Qno{T#hQ?;Edv+>$P$XAPet;;9lu6{~h^%>;eoB!F4
zRDBDi)mrvIF8xDS`9>3043jwRWLkJuw0ALMH??sTir(xy5O=@`&MruVtRH<m<!HXA
z*B#?+acd)4!?E_SeD{v^@WvUQtLxf;ItbF5TVz<a8zYzn%ShmX!LnarfU_8-{8yQT
z(x@8<LF6(XlZG~sQ14dY4Xlm>y1`5s6SLCA476`yhdj4&98CfkHWt!i84%ZsnKDf_
zWpHIoQIsb?D*QxEhca#xVXPOXOR2wjAeEk{SqD#ZWFQ;{j!c$y@Sy1;pT1j+X)R+m
z0?dGW+P$Y-GP&syc&1H-x3IpT@n&+}MS^ca7e`wjb*y7~%w7Tb7Yx$1gIc8lWKT|-
zl3JZkLCEHoC#G>+AmoRYLC;)<#P?+n3(9h01!~I64OtQFL+v$6$(*yiSV88TVa6LD
z%**7{-C6m}L2mnz&nywtdmjYl0Lsrwb`qS;fTdCaL1h0}U=*rqj8vPg&j^u4qhXGf
z=sXRmD>NCMAyN?)D1%Cwn;n59R3Hk~I2oXMoiZJTUn}GU0{1fE<RKqUMozxqV`SAR
zJ|zP(U&7Bo2vb2uPT{8mr=fE@6{a893*%2RLGcbcd5m2ynPhnm;e9F!XE2$HKT3WY
ze}Q(iu!o$R^cf+CxWaU9px5m3SF(m@CjFraSppF1exc`NnkY}{&sO6zir{jUA2#iS
znPVBDdt5e1k=fpDS;$|JYm?wO{b~X38O>a2#a7Urs@svQ>k{j_NUh6SJ%4i1n6j70
ztNZTQ`%<+7tNCK>;RWkD*<ohV&8OEKU1a>LB<|h4dOF^EV$E^#Zdu(@`@b}-k-^cb
zPpg3gFP~ZMPE_w-$S2c7#UL9%m&996+-|#F6@TpUc+(S!iYMc)C)Yi7i;=g_FIOd+
z`o-FQ5G1X=$=2Os>+avQ?u8Ngg~N-LcU#+;{?m?R_hGU7aH4hicD~s9$inF*Cltv5
z(7pR0#8+AUmhVm9a@TUh`@+wzzk7YPD$#i~?md>MI1c?dVASnzwl7^xRCFdQdc=yJ
zL`5Hd%tG$Q-qnloRx)C??ksy_{~zwZ>uOB7tCwsmt`*ZSovTkLcAXS=o{ZO?f>d-#
z>Ag;_zL&xFEU>Pjs8tNCW5Z#{w?3Jc%NSE#0gRdHveTrMigF>gX&VWwGz|cx%gZfQ
zhfr%ejp|cDI73qPklE#PA*m|Bfe8@fYo<~CB{D1mq?_d;6(r*y=w7wJ=tmy=$%~wK
zXz43kAfM*%!TdzbOvo)MvIw>`$i|(Tg%m$j0Lau}axuF3m?oEqivTW{DH@DxI!yu4
z+WbG~V+DWC0~zNoYd~8a3!t}%RYwE|qQ=b3#X!DHf(Kh3b)2BIqMFYz%^9zfm9g1j
z5}cxIT}7tu>!kHOX95uS3tS0#0-mdv@QV^2pU*ctcoZ5hQ&+Rf!L>01uW1>Jpoc7&
zd6<ELY5eF-bhif>G4OrJE)vu-$v<5x8Au01coDsj!Q4smF#!8t$;W_c59K;S&ST^d
z7YbZ4Qc5nsC3^I_e>8x4vY;i&n*obfI7FIxF2chZFG}M5VB07^I0{flk~fl#$=|4o
zy}*^#1oXS2a-3AA$i8HpJ2DPW@Hsbl6{sh(joU#{Dp=Jpc4B8n@MF1vnoJC$RW!FQ
zm#kRV%=_4PlV}DvVEO4a^X^a0w$}=76r`+=K<~qn4`kWbo$NR#cAQID-AQYWNERF6
zsS~Yr&~f#_c5@pnkj5+8fEMrUOLiU+JCCe&9$Tw8E_NQfd2DHTx$cj9<DJLm?PA68
zRC!IZe1}-RBi_C@QNC~9wq8&kFK9~D?OfR})*Zr61AJ(&yIV@)bR`X`hQ4?`a9qA*
zFvE(pnQLfC*6$PR_pOHL$2RI8kDF`P5!NsyHVmb#MfkN35>$p=RL_Q4-<Y4W0j%P^
zZfo8!;?2T2OJUONh281prg+zhHS<aQ4%%z^H}aF_8qr+yf!Xur<_@m%1kWx)|8>80
z*lfxzAM!9JVLPKQ06ByJY<UoB*b;=#^ya)S|6(32-d;j@dig?rfgRhl1~U!ANH*<f
zoEQPR{oQPKx;|PI#9vnyMYU+IUYtnQ>=bKuuCyn+kBQyKJ}@7b5&ssX^R~*;n)!ZJ
zD&8+y{dBxf5WNSR>3M#CaB38u3ebcRlH66KIsNp*F*4IqD4<^LAty}E{|pDF0q|qI
zA>mmH=pcu6eTIBARth5XC{s6(ktITz<^6qwd_N}VyX3^knIp#xM<PL8{A_MoG)e$u
z=F$*D#<d6(NP2*i40yl*#RZBeRDNx56h`v>ei)8Eh9V+};bciFp@)hjXCFme!KDB8
zW$r`6srCASc->&!P_toh8NEv<Kj-k;=mqQYo~6Nfj$f~;-7t~|+pMy7G4iH&BaeNW
zIcMpj;q|r+mJ9@8zI{HjFudq|{lsDfN<*ThVY7gxJjpj3yP&PKp{I9O?@ILN70kbG
zvCT&p4&S)G*f{@!XsO*aBEiPPe2ua5mTQy4YvUl_W~^duz#C0a>dd1rGgWzgv1Bo_
zbmX1WH&4fFcft(oO7E&GUcOJX@4scZb^dn4ttbCAe&yz@XnAPULb;ygb;c+86+M)!
z@!l|7jK|p*y*ElLjD72t;!Pvo8-u;d2i_YKe3&=(vN-Z=Jge_8HY`8#v!~vDYJ-D!
zwRe+V8^6a_8PD*`3?<s+$iK0-!FYsEm6W~l)ay@e=-G#Fm+V=$6mDX4K?a}X-A135
zi2RfWZ<Yk_jb4wjYPn~V!)s%hKf@bqmWO_J;@uM)9Qkj<$~?W}=bzYQo{itrbsJl?
z63O2UNQE~_oF852UDPk0Uo^kIKW?iNE%lp5#B5x`*q3T~$iI94h8}O$3cN8P9%J27
z{X5>9-VHRRZgmfP-A4EEg@*CQ6Z|p)>Al+f1$)aIlvbbjpzs)80vL3h@K@xV!Xjlq
z2_@MTg;GdcMSOt^qXHpoY;%D?xX#pKXiG^(p!(C-1rYzruCrg7xp)z$GU%U>|I*9_
zfpA0oWF@GB0EM$(P>}apaTG>0A|zc#zt}AEy$Fkw3K)A#mM3NVPjY00_~@u&U_l9n
zj;10g9+Yj9;D%K#L_XgI8-+CH;<_on7cKv2CoVmho{&`c6-h~KJs>buQ>Jz#D<C;h
z1JgE=+H>WVd425k7JMW~t4MzegwRRNUz<f99U|AIj;~Fu;2UzDGHMv9rKNw!i~UXx
z`ym~vV%x$ZOukeq&y_$fnGOS4>eK_DWMe7SUlNZ9bre|20$F+=v*+TM^VU;d66P14
zprtcT4uj-Oc9j80h@o-vV%<R{nfGE00h;#<;F@#z&qe+@9Gv$&ziH-p`$t^CN1TJX
zmj9jW{Fp2K8?N{x&iXM|_c2%fG3WZ2>;HFL!^d397dkz!`y6>1KjwCQp)=uwBge+^
zC-{%K17GO!c-<EqoX;H`Klp{t!0YaDa6ZrH`1X&v-Je)o3r{92H7}YrOgjD?zi52R
i{HFOW`<r&$HsO1D7!VEb`}x-kP~_s&=N$8}?)-o2kaLUx

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/default_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/default_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..11c7a3da6c578e3fe71c6bc7417068f8b6512fa0
GIT binary patch
literal 11756
zcmb_CYj7LKd3V48H~>cg0{8$)5IT||DUc!{O4Nh0B<n#+qAgL5L@EyA^bFw+A}BoQ
zyQ3sBV5>MzO|@<<cP0^&G!uHJGhxQ=gq=w{p8m<>muEWD!3pZ%a;B#A#GN+NKTs*x
zPJZ><Jsb$qkX=u^B=&Z{{r3Is_uBoZh6V=#Ax-^x>fC;U_$|s9!BR<Vx=4b!Pw)g!
zriqyTC1WJcn_?#XHOI{GHKnPHC1%N3V^$L3nbWom9iwrYOxt62fKh3C#u0O1m?iDZ
zFfj(Ft?7o0D+XNwjxFuZcw!!$rqjDJ-k2As?P*`8G1iFFj&xI|Io6ER&U8!0AM@ih
zlWxtl#o99MvGz<L7RYqOIx@jnFta<hJHy7<OlPb!(-rH=bjP|gp;!plX-M~EdSksL
zVIqV^q3<1-FAA|eCgL2yyIv!Bx8Q%rT!Dt?$*|{lC^Hc@Y4&qMRuJQIPSoge8B*8M
zLYUO3L|l^LYszLJZn<*m>=^gevGH@~C$Dhh6Qg4<aucU6jzN+0VvZNmXL8wO>N;c{
z7jkjFnxlm5O$i~TvMHHM=dNEDM9BJ~x5RWj$K4b}DV57|aVQk@4&A5Yl7QPpEdjby
z>*I5`vT4Y1QamZhLRQL&5|_&I!fh^@N()?4%w@Rgq~@<8-V##Rr)8;H!X}~h+S&#}
z3QZYJz6)A{G{?`)rc;TyENtrxbt7p#6&#%7vN@T{3IZ?iTrwxZc#?uBWD|lG%*5xf
z30!qBcz7AKOj05@D`;$HE-j}xd0G@;PO~!inZbm&VSMhmTeGuVBA%EQKHG|~Uekfk
zYYq0slb91>8ZtMVj>|BwOhP9cJ#MIEHtzt9y$+{JAkayQnWo@$!5K2eD8Vwr)K<~c
zm=euEiPSqL9r8{EDQ4p>F<P(-4&HhUV32d-oDJt_fk~Q{h$P9|Ut?koyhCvDPWUkk
zHo$EV+`LQh2(DICQ-`^QT|yNmxRYj7mUQr**Ql76-^EjK8hjY1ai+gAh?-B*q_@R0
zm6{aqg__O0PiWyA1^*22nVsQFwrJ&>pv5-aq8s|5_-4qrKect#Gs3g-Er1tTB5sqh
zjw?jiuX#s>WE`le=D;i*#TgbI7(ry^>A1`$;#r($`BV~9smvl8X65-=L1GboLWy)E
z@;e%4wr#^JOoP~*fs&ouEx=~;CbUg<LZEmv+7f_JIs`V-iZSrE+JP;`Yyu7Cbfw%J
zgH0DGyxc}zJ1UzuhaG=t{p{2tS8{V=LRe@z#Y#BE0)euX(-YAe@EPOaEY8N|=?RS%
zg_|kFUo=9q&Wb`Zb$e2CC*$cfcP*Z{!O1x|e3~Efxm&0T9RIAu<$x)PDPE9(^UxfZ
zjb{Xo(;OTJt<M3o;WUQhUYU!hD<w7#PI>~sW=R$`H^;@Zz!~B)^eb_k*ah<uyCKr3
zYq?xn4B=!tCCNV}HX%*?;c8UQ%tmKZvx9P6ye`Otx91Lz9Jz5=h^AB5qO<ezbS@jc
znNDY-`uv33LShbBRwb+NbClN!0hlb>_Q>qKX4O|q3_>S+;U`^y=sU!RboWL}Taj*4
zA>nOWrrzo=(gBt3-)QzPS?`&Pv|pu%HrUXTd%3Ylhg3SUad4zSvn!z$>Fw|;uXOD%
z(jzK;QH(%?;y#G}9ey}y!9;E@i}>g@0rp0~!%1bY8_Y@TFv{aegoQ?1TkJ#tE`g;<
zqQWR}!&Zn9EpGk;MBgRv6EX&)=&mJC`~?X6JZT6%64EnN6``6~H1Q;Fnl>$(WuR0&
z<V`bnBfa%Cn3K_B-n;;c#v+xc#CF+f;PGbYrw+6GA+WhT^+V!Elu`dxa-IlVCbSkI
ziv%o(`FlkGpebw4>|CZI5u}B|sjP5&R!GPK&kDC?G0y5M!rl<(;kW|LqdF*&fy2FE
zI?9G^nnjwM6+nn{Ac;WOa$2iSE(jG?8n;tfSs+zG)+p4P=C~S9&k19q2r^J#eZASR
zRih*!ofL;*wi>goI)jf4$UWSGd#*ZK9bo6UL^>`3^-E~mSQPGvQAmm-5G}OVIoZaj
zPXmIKh3L~e#5&z@*QU_^<@Sek&qhmEspXi`a%_oF{X=WV3oWOXnDw@f<#Z_+Rf5rC
zaH!a}f9)lu?bMR{LucE%H=uf-ReiyduV3-?7rX<j`&D08!P{N7n0EDSnkk>FOi&H3
zvYBAoF)3?aeZ}y>u5b~Ng|STF1FRoit0>5GVm4uDmrzU~u8E1WA7UWQivER2GH){E
z-EC4bA;MfF<tky<Bhr~FX`-g}utnO7K<qQ9za3!)>%rTBi&maow8>QhU8M6?-gILR
z?1P0j^VD_IqCI;YU={?EEReF|QY&v;wDIQaB$N*Vl*UjRL+uF4I~M6I3nflmLh%g7
zZ2?F_1wvtnOLiM$;$3+w90}9bk;t1xYu=9PE`VOKXwOsMGUX}wTBH$qmr)Pau>Op_
z2FBJmZ_k^ag59`<Wu)G9zf;-8MMu^IJL9-cEIRY{QQ{kyU_4CTDYqE7GtEY7>-z=!
zh~(Oikay%6gC2}^z;k!X?FMSzX_WAu8>6r<<QwPn3~$EkYC?NJ5?PWW@-}fltW=lW
zQLRbl>8H%T-ddU7sjx_rkat(xaKadA!&X>yW}R~9R+%xf#ixxI(Ux0A;tmIXSDplB
z=>3t|sQD@h?K|_fq#5)V-@?~k5QW*eC>TN<GdFo!VDU+eI2@RHKs25NO{M~7QxXdz
z7MNfnp5Du*WcF4noo25Itf6uXeB`V~#X(9gH1tPmG~NYEf8<&!t2t|6NF~^2987Aq
z49I6Oo?d7L#w+F0DIN?0etS#ZwMDgkM6hKNnUO&8FwM#fRDT523|n><tLY0(Q`s9?
zFlaCjN0tNdaA4r1=1yJDB9UomA|hfF3!yVup8$O=%d_$9yuLEk^}3akr`eY^^5w8s
z^Z~wR%1Ii9^dHTVlK7N}`L}oiibTX%#N#MJhf-sV)#4D^MFgU*r*qddY9<FuWKIiN
z(S@+lQ4|pcY0PC1?x~C}F2W7sv#11Ul)!AVhD*{Z31mBL5AIoW&q>?tDb2BEy=kuP
z3Ycb}PQtRJL1<|nNE*hGZi3m2)j^hsK^*vt1&rq5K+!`KWz<{ft|x7FAiV&MNt?j7
z?+{O#iH3o~!14EP7n$?_MUV|$s=KpnA?)o>97JRD{ljk^zJL6!<Au%xMc?oetv0un
zntPSz-cs{^rFs97Q*GP5<X&&uyX4q#HZS)+aI$J}aP?N9<M7=HwZXr9@j*j)_3MRW
z7at5>RD)ehm!P=N5z!0BA2jq-fFp&Dqe~NN>xsM1p=zTK8la)j@{6^IJ<DIaJMob>
zP}n`Z_Vu-kg^trj@0kK~2E?Drv@PFUo>rLNrHKt^cflD|I}R>QeCTdj_wQ3ZU8<+C
z<Y5&LTk;Glo<Y?UR6Tx`4VBn^3cIhwo>bVAPn_0P*WK~5hiDyG8sF&MQ=t7HwDc^U
zQ<=cuP(QK1ZGX4xXMI2I``O-~?p>SzWnZ!Xxgz_#!aQGK0_$#X!Pi}MhgM!Gy7#EQ
zw&mOd-=NytfA7+7JWXXM;qQIy0>S&3AsPegp2KQmui6+?8~vrmkkS|`H4Z6_LuzB-
ziQTfx`-CCb)1>NQSHi2YO|yx0DNNuAO|WBRVQi|n`zmz!k<(Rh?=Cvol~WI#J?q|}
z>OE9AJYG2T-20sc&jqN3<h=>xJxzF83vK<YmkRD@3iLC&=(p+y#WtN2>4jLV|2Hto
z*U8uI_X%LH0Nfd7sseqhWDyCXS|y=UbeEh#O3{u0&^kgLpmoGLK&v8ss~LltzXT&*
zG%r$EQP?W3re@HQ-Vt~b3zzXcSaWlPWO|NxmE01*^+)`am8d6Z%z5f5*mZ<*RU}*Q
zk=d{1E#fbpQn%hbbRpTbCAPm*&y`(VL_G(<E~q2G!F^Ft?!@CYBKu3s?<wsfwJxw@
zTOeyF3-4O1BH5b#=NfVSWqPhpyKJ3a5!FLjv}Tu|GTyCqxV$CqzszbsWmiLb&$aPW
zM)1We2B#JUn8iW4PfvqN{(oPwI%C}09XV|DRL{9&*p(v7+ju(NoM}PoT;3-6A#YFn
z{|r=XdB4#DIKJ%Q_;S9+EYc<dlsl_IeT!CDKV+Hh2t0#Na;tpUD4027q_)1sDDni?
zW<Zxn=&9i~=wp;H%0WeQEj)WpkU{YPHB0xDZdcK&ipVu^+wyEKi`BFm^E4tNx5HU+
z9AfbhiqO!IPdF35&E3k0H^2vsRULrsnz}N^O};P%F6Ogim&Yc~jDZ)&=r~a|tDph2
zw+G<2c^;zglFt()7+!e-RChn@IGHEEN8Tq%;;w0?wie)`z?1J*%@C4!qm3fwiN7`9
zBE#m1voH$kRy>7#-;^|;O@z&20;*`XiXNibvGba{4HhmsCWdLNH6f6pb#TU@7tYmF
zKfufL8O+ErtT0I@B6S=3Pv}cRl=ta>5MUdB&^@qhQ-eJ}Xi)u~KX!fJwK}%!`WOHH
z#}*>A_xBQ7o^S8&BE=y{Y+E=qX1s7`A+fb^XxUx@2DnHrn(mtG3AsGE05$Taq)A`e
znq?y=!X$Qdg(=Mx*{4y+g4V3Mr(Wcs8Xgd+X}TLgvmd(-w+^>w#S;t9eEIdMR{j{Z
z+zXMuCI$CZWo+v2POOc-*L$z|e#cuKD~-yoo|T&qJrO9VtV*zx40q^S@lmKM{t=3h
z{j)=d)pcfM_KBAv(mY6qm0#gA99&o+0vA09Y=*rQn^4L(I(GKd)P+fIV(KC{dH(X)
zsnIJUEGwb4)>s?3Du=8KS-3tgA_=H9f}<X_$YtWQSZzkmLlN1YB9cLx6|`x2c24sm
zFJQ!Q%u5k~iPsR;G>Xv9iime;6w=W(2HZhO@c3YVT-c#2>u58?lPLN+ie5s|ix6oZ
zL(euSS8q9m5K!|H(nQ#oVGmI_scYL!Ts=x&*z>>L)1RP*p8>M_{T%}IGJl}d(x<fa
zm0C_I$i1T;ex`Kzf^ztR%6Ll*t1v7i-n?}863%xiOczcJD9pg7-EzdC(8Ei1P&-$+
zGD9$)lCxcLwwIiJinDKZ<biW|!`HPUD87LLGf?mitnWUedYVg~km3n_MjdViZL<bA
zq<DrlomSTMfC+%!>grJ4zLI;l;@(|y4=C<|LiFSV_sR9{Giqa~Mu|PBG#=cvm_yzN
z9<~hT16%TSE57bR==ek5iS@o0RR10oChgy&`1h3jBZ_}S4ecw1hLzB;8VIirmj=!#
z17|>Y?P+^rv+ijI&G?Cj*fUDjskqh7X~lnf(?(%*SO`x*A8COddFVb`cZ@Yd9#I-c
zRCcd!2dMs@6}i;+tkU-^45G97iQN|Rg3<8AON2mW-#OJC&A=E!-U495W&}#kF2&jP
z&>4Ef9Q)80+N6nHon^|r>%h;)KPKSw*g=Fw3M1pi?&qM&hSObgMiggct^0xV;QIbU
zrTu4={b!2%$CgGPGST1SlU{UREznnW{hiTWce<Zcv*26;od_d1A<+%L%_Il}U0ldU
z88K6fS%KDfAp^9I`p%OwG8S;in|Kp%HWY$waEd1k_`8;>qH6|Gjz+g5<f}fDF}PFy
zCXDcVru(KpwOByZ$;Le#Ay?Jln%Pto+1dsXAK5k*@bMXAF_cW?-Ua~*o+xZQ)Ekq<
zP(VIArZ+l}7(Gn9@fG;lu{fnC#7^i}Yu|C_0+*~J^7<p5H;LV<AZ5D%v&Mt4OA=r+
z`M5Z5NJ?=KFv7HmJZ1RSLHs64u@GrC;6reMBZ~6~gv>4xiNLT`=XywTVQkGkE2c8F
zjs7tz!XgUoD`sx2&fMIHx1r0T3TIsCs>9ZH;CupYNPiCz7SiA`Xdf)K9Z=d1sEohF
z1QjNT6P*gvsrs7M1KlfQg@N<$hl+tq>pgo{rwYRpg%>7^JyT#Iw-0X;)^^8|yX+#s
zF7^#7zQNU8(RZRmpD55LJ_@kwOyk3*zEV>}fqy2t&iL+)71|?frXq6y*iMI|K)1p{
zYuU4OR&8l7wG1gOLu<XomXQ)OqA(+m%}`WsAneb63SBfD{e#p4BY*W&>**o#SMB8K
zLF!k5Q+CMwx`#X+wf?%7M(HRC@isddEgU*Pn^z&iHgX-E3l2^lvaEl|;Fg8}4Grxe
z1QN&!G_%RDX^T97Ua;J*QUDY_3%DZMX$f`2R(8=<^>SgJu+Uj&6St$ldk#WEw04J3
zX{JPXD0D}i?F+DKPq=I+?7@!-i`{|Q&^C@!U6y}@@xZc}>S<LK(>ownIS^k}O~qY2
z@_kp90R~hJTooG@u*!L=#Z?7<lz7wpCY3Nx6A9Bd!2O3cJa7)=&3|Qj!%o3DN3Mdc
z3#~kf?gb3Kz<}vgf7Exnpx-JF+UgfZTlM$XK*6_e@EC)CEZVZed8_#U(T<0=@YXb)
zu`j|)9c(7)_b!z+f*TN|p5ai>i~mlg42+?wTSacG0EwBZcin)1`Cx;2BE@b;0BCRr
z2(swnkf-0Z8><T3n>Daz5YyWc;5G&<B)Bc|ZNm)hK!dD~3HK#+DeF!kZ~Inj-Yzxg
zEqNQhzI5arqHD_(<{`iRMrIz48v0AXO;rLpk<7P<uyaDQRUYgtSocMShC#y*>O7Il
z0NVxMcpNUhd3ePmi|}gZrof*y3_9J(ZK#$ADVI&BvI4q52T$^Xu+Vt{ga8PGsv#-o
zayQtX$o?d&O8`l;V8aLuG7Ek`vvA~W4qe&TR=NdGZ}6P}y8BGU)6g>9kD_-C@G>TG
zV-_6R$jRQQF_n(-{k(`aTsH+oNNFBqx4?^>xCmb`cO~&p5SYQbd1Vsfw-9I;YvQ`j
zVcf?@^ejS#3;6Bx)Vq5fb$1g*w@`%4FwLsJiqh=xekcd4lMt{DFCukY^IpAh;UahO
z(inH?g-Pzh*wwKMS`&s{7@rtBb$JVn{rX|2&IB=6#4<09S|K^jZEOL&c|Zfyj^vWb
z+Ks>iL{BG@DN&L+aW2c{k~=mF<7h5CLEeyxBAS#&=fH$XrsLN&uhA2F9;Ks7NR!Yd
zD~|Q6;5Pucu)7X7MwN`#;jJ7Yy#*2QVrNUq8B&~~Rr>?y(8EI$D%1GHY&z^HTZyA*
z$feN|69BjHL*|eg9WF)3l<3&Q=(&e&=auNWx6iGNu6F)lxDY+J<W}0wgGPFuyhN(Z
zu7dBt+7#%v=Sc^6het^enJ2*#0cnl<DmeFUbaa(EqDn^;n*+#LSb1sfV9_%IwSum@
z6OXNg>nsV{eX#p;@jiBd^BLUT!4vQCzZ`r2Sh3^9rHPLQhf0Gdl))3l!IMkWL%M&R
zc9m#9TzacaR0R`;0l^+wYb*^-D)7%ts@~SJjj*>qAt<}!iLMx+`|Z`Z;)_1;UH<uS
z>A*$hz{SE>E-MEv!~KM@YA}<vU}5NaW%4DpbKlwtrSnvQ3I4|2x!%l{O=MHI+I_Il
zb*OA6n~rRn%`M(CXysnG9QSm=?Z*`P4H7CtBfsCAB8m2KQbJ1BFPO0wYd9z(y+Q0n
zQ6Gx-py(BdG$&#X_%Q%HpR-ppy84D~RZ9}~TNe9K6?7m(B+l?V0WpkH11Q=Hk!F$M
zX`Z0VeZ<=VfSwU*)=B&#P*?qEgpMSyX1$2t>)`V$ej9-i#c2(d#|a4mG&>Ib7H0q|
z0fiB|O{=SyNXJC;k-h>YpMHn<4K)g6)*dKOEgKe3$<n4++CDLPEE8mzK=Gy-RJF1W
z2oZz(3RKt1SdogV1CavNxpJ^bMamRoajiV}F#(@)V2ZRH+X(C~TTlX;_BEr2IAt5o
z(nMRZY{y9l(cM>lc2jm@7(+PROVYj3W#3!l%W}cpt=L1G4Y(+4njkG-CDrC&*^E;g
zcJIA|%f4md$La5<3#~vZ1FMs3!v)`A#eQTHMh@8JmrXv)(T!%f=7KK_#^Zf+{_cF)
zhH^CF@O@4Tc7)S!wK!IvDHHH{4=Jq{N7-}G;$7+bN%-w>nSkVbPzs;-hd)6dtSjM#
z4)=@8u*~8W6v3st&K@;)0ysRpe?f1kBJpbp-M4`hA@C~A&jRPyb^O0ZHSlhG!J(3s
z&}}NP?Z}**N=x{@Q*&ZYt=oknq7Kbd1BoDJgGo-K5LjosdL5lHi->t?`2AId!B_cx
zIzEp&tCc8`ilD@jMcey@QUZBRbuKB2NT1RMzp#qVUpak>_<k0tT-X`4byJJ)g0XW6
z`=&(f#=;II?2vNdUaF2H>}Apq@n5305cOkgOW&v{8W?>H#2dVSJ0T*437r>7fC%^n
zNp4yR()R)3{D81S{I5jx5z+Enf_X$VJ|YhN8`1rU=zByoJwl1eN5uJ0ObluIgfODV
iDD`n0LGJy~-gxiDqCI%W`ox-`NbmCQj|ud}!}uS#5gXC~

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/dummy_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/dummy_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a5fbc5af4fc848216c0f6da027944ecc1ac6c894
GIT binary patch
literal 1702
zcmah}&2QX96rb_edcQ)_&?uplm?G4;BD+PZ8cGoYS_DEg2S7cT!{F}BCN5)p8GD=T
zsuB^3L@R{E1qBHqg%d>m2l^)<aiJBc!D>#31Gkm75fvxqjlE&h9`Iq_d-L8r|K5AQ
znV;+R3X&f;z6d@v5c&g*(PtLQ@Um345JePo6k-o!&^4}wx~D5$=SFCHrqT^=g(a_~
zbd%d**(+nDp|=pVHW4kc(k(sD>s5N#wf_QR*~MA)QcM}Y5J&A`MVgg&W1k*aPrTtL
zOa;I;6FWGY4Wb|od>-@}q1`a-ku?^qtfomTPoJ+=VGKW#%IC5QhCED>r%~+bRAWY4
zyMfx6>YFvsqz1F7Nv*a)OPhvQqBgUy9w{=6iGw(cmStS!23p5n^?l@4vdN18WejQm
zWo0;A;dathKXuju&Ygs%P6#DC1#Tye9pOhb4xMX0@3N$kRpAtAsh+g7F$8i{2--O0
za`_r>q4dCcQ@f77l%u<jZ{d6sOZ_UGc;pkaX=$`Yv5c`t)_?L_^qn@!^BL|TS6l9%
zKU5K0PlfN~7@Z(-qBwPuZl@EAlu@T03spKOp)B1sGgEq*$ZSGjf`nvqstqLX5K;Mx
znzPDf=){{s#G+_Mp2yWQBVoKPfW29nkQVoogpdT9;y4@se9%n8PO}qq7E@oWuyk>~
zyL9fQkC#}J2UnV%Ub-4b&1;;8&HU$Vowd4YEDAHn(#(048;wp+)MfVm+@m9Ij4GLs
z?&Nj3JlsI{?fT8q9eehhW53$Z?^b8-RZriop1yzN>4Ao)=Xd8%-J3sqXa4Lj&nyje
zJaulU>(dhhq}L|~I;y=mlu1xl%dzFX%`Cyvu85Wo5dq>95n#SssE2m&@{XL6n3A?Q
zDwhO!<2Yhkifn?$Ymp+AO5LA-td_$8Gmrq@feo~4*Tj>M!&FCG@Ym4?x<c`kR3sS-
z;vFVo4~bdn7H}n9JqLIUHWW%Y?u=m86vX0Q^p8IVa@;*94<<FaY@i1gDnGk@^f&vY
zLh9ClWRV{-NwNwd5_gw_UL)j_uFnfki4YpM2ocaiHDUo^1k{pgQIuJi)Io6^HtGe}
zT8wi-TrA*yNTA@?REtGfs%oi%<APisZld3fivz<lC$`_&M^X$Xv04A|`~XRD`^*r;
zz|zfy?Grz^-@B3q=E801mExx}e}ho<sH|=^vn5YktBoiUCuH`l3N&uyBvHt-$+4XV
z^h%YMy`Z+$^yDqe`QFG)2x6jfMZU7dJrpqYZ1I1O<U=CeG~kJV=Ok|cOeF`ccxS(o
uH~&>}N;;rh31FAh$9UgDc;-*^+#Wi)hu+>p?>(@l@WNN0?jtEwj(-6u3A@$+

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/gguf_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/gguf_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..26212cc86a9108b3675ca67a27e4f2e4a897d14f
GIT binary patch
literal 8459
zcmcIJZEPFIa(n#JkvvM2s1J&=tdlI+re#yMWJR{@IJPBOj%z!wQIeOi4lWe$C{aF=
z%HGi*1cew60V<;|tfFY+;319MKUI(b)lav-f+8sj^bct%kL=Y3TqHpI{xMJjzvfqG
z_IRYEC`}*GE{WUOo!Qy1nc11$fARS|1d{6bljO5*LcYd=m7G;z^B(~CfXGDVR1(G9
zrgAA;)W(^0_NblV98m|$ohet;#c+1DA;m{|20K)D$`kc4*r|F`LR3ikqCQr3sg0?o
zXcL1QRDY^D+RR{HZAk^9fmCa>m6hFUTdF<Up6ZBpq=L~PtMjOxsZcb;5gVB%viE%=
z3rh2+c602}uG?JL_ggGn4ReNjT1hK3re`P=n&uPIe0ElnGdI&}CMH8w>$$9+xss6;
z^+JYD#IjmUy?iBXGrX*BB9l%e=M2vqs+uxkXyUmHO>3p5^D#|f#8|CRXzNd=lX^0y
zCUc6ELe@t2BF)4VO_Oda$+>x5lVS;7p%RWEnVt*VjjlOGm*(cO2}!x7)0m_yX)Qyg
zbS$N4MzDr7n@jrbMc^D;gl5>}-E1ta*H|Zkb9KHQ8gP}BL@cZ75-dS{UXrnG+*~U2
z>#i0y{}X^ehFw=kl#@x+CUdaMHpP*!Et3Q%+us+WPT8Tj5;ocSz9ZToyA&Sa27ujI
zFY}5=aUs4FILU6ss|Zl`E$pfGuqCU~cw|q)j?@Vk?4u*vggj+8)H-AV%6{3WG%xgT
zX;=kobS}9O=mK(+(rVW2P7nP3K-acRZgJ7}84_+bnx>~;zp!QFawU%liPea>GYS>;
z`Is)oV`)|vv4NOKs)`m7Uz<;ABK)(OlE|uJB10Js?54=JTw}~w`xsS3wnZQhvUoG8
z&zqcLX<5`_H=r(=hMtrv{|rsV^lAs@Fc>Q>ySSL4x>oCEHUo^HZ?)Q?$oS32s0<v<
zF+^BP!;5UBIFseLZOdXh07kXhRN?a%+y_LjA@ADq<WIpI<hf5dvyuaN0bA@yG^jUN
zRWb)Oyj7~_za}5qEIz;DZj-R>YVOpwm1bfunq$OuO=onmI%SxSwY&(x>WE>d;RLKg
z4PKH^+a$^8WOHUZ1*&DLk;xDAH>PHlDM~Z6x)>%OP&|jGs0rEvLp9uz6jx)Qq>_e<
zB8qo@m>JSji$jaa#Upx*f)*aRl^r{I;`*2}q$X#F7H{kGne@;NFb+dz=gKW54)%mr
zi{|zXF(ozO$l`6<2F!E89nu%E=FtaO?Hqi5cZWRTeRms*eDFcn20u{twwJs|AA65J
zY1vb;ae<z4&!JM!3&oxn3VX*YcCPv4rrjQBtPs1ev0^8}u}xq?j23fbXh|fnD2p+D
zewz%S$!9Wf81{Lq1T1Wo6l4Wy!8#z!BKy`Qgxd1l3`$8&9_nOrO^#?cP*_H%P5?)Y
zB_UMMy%r+ReP*}nXNc^`b2kVb`B@HqK;g4^)N|P(J3p<?>l)-swk7+PzHE8>XD$mr
zL-Z!ArQDF`eobWlquN-0#f9Bh!?s+*ysj^f4-Msb1T=)45!`S%DC}9P8r;xtQGwuC
zXrRhsMoP*Ck2VB1B-j0Vnkw<kTso<Nlr#H6m4rf-bX*x1b1#Yqm0Mu0bwH|_cns_e
zv^*@**iG^ES1%tH!Rnl@ay>J2+G2ag96*>iY#GgP;FcS%q=sn2qk$yr8d@QPSJE<r
zD5|yLqS~UG)M*C}*Fn)NQ*aOnMUkZY;G-cO8cEs(fZ>-Gp>r^A*4dL|Q($_1nHkW?
zPKraw<!|5v!tM3lAG<qt|IFPph0x&*?~!s~pdbu9^LCfK2aDc=WntfUcAMaN)+m-5
z!^Ot%>Vb{M;U|H<!hw?;f$@Sc{><B0Xz4F{`wQVyrSN1iJo))AH^NuS;&4ekSrkt`
z+V|+)b@5zL=w6;)c@tW$jy-yFBXFT0T==GCPq}5NaP)j(Xre;6N$wR6vgTK~x(-o1
zwhX~kpIwZn3(!n){t~_)px8sj&a`C9+jdi=C3})AIr4UyyM7QB*CvA?Ldjk&IatXF
zqW%ln1tMBgJK%=>?nst`Op>=>0HJn*xH?U7%{yc_gFPSFPeZFJ#`}@Ih7q=5d|NP$
z+b~UAFn$wr?}UTEsGDJ&GkN>2O5Gv{EQR{L<`Ld9kN>OD4myb3y5!QC|BFkwAnaI3
ztg9(~9rtM!g!OGCgc**8B|gvR*?wu<Jt5z)1paTDgY|ITY1EsowsKqEzWwmqeFvA^
zbu+Ypr_qj-cjeu+b@b?Xgs`;GZb9{2ZnxxNlyF2xJ!WYkWI^>j4<>sz|Ln7lT5n#t
z6@ONlBky?^dg>f3$XcT%Auqr>4a5HV^1g*$3t!LWpxkM3V{6&C)Rgxupn=(u@{QI^
zmi&2N-jVl%R0s1-u%b+w?;VHrcFd4{<QUPon-HD61vBQzy;pD9-y%1;a441q<Lg0_
zg^3wh@YpnPx6sFkrO;mk-M*ou^<*Z^{0#8KlHmC<2V4^qG?Nl9UJ&E+O8oj_CYjd9
zYwX^cRj)^`M$Vs)n11;?%mu60&L(5pJ2mQ?^I+G-tD=?!bDv1EK`7!Z*!AmTI-8mW
zcQca^W1<?nt<b}a)%o+=scXDqI*boTJd{!w%@#0?)M6$L)tc${;e=-tMeLi=!7~K6
zkh!1cym0D@)(4Jfjiq&b&B4i#os9rD@LLo*7fWYu0F+XPV5qZ0sh9@w#gLqdYs{~S
zq)hKjR`gg>-O{z;if3@fIXAFM!3d6k?=`0YI0DhlE!}XL1&p<1MOoAo<+^lZWNTsA
za9fz+oR1me2wNR3lIxAY%p-F#U5O}?7SF&T1Rpp|aaAN-`J4l{C)XT-BNUFI%&aEO
zMi`=pwZ)SaPQu912!?}5u~6N|Tw5fONV6yr{K!Sks@~ZSd*7uUtKQnKdq;m+HlA8<
z0oEH-ZfOIn;(qt0k{*TtQZd0126B=?uI4&lPhU^Ns73TNOlO}3h2x^(NWo5k^U<u+
ztfos;No8P^aR@^VE<#Zq!!3pz0%6NHHV-%q3k@fYrRNl*8N^YVPs*~Amdy2LzKa@*
zD~1DmH2haynVh;ToqKiSqIC7#m8luS31MeSGlW;OAeX7CuN}a^bxSDAVpb;$L=Bg$
z+(^b1ibtE_MK!CAh@QY2^iyEmax$({I17luBQF%&aI@)}3}P(^8Aj;z6cz%^(bh8(
z%nm78clM-w%W%XX_BHI+mD`5%2F3!02j^Iw9A6{$%Gp%vwi&e3Y2?{Z<z+aK$Z%=d
zL?U_1aI>zkN<&+Zy0$Hu4pN)6BXZYpNV$O@`To0+;c>0~3Y^qCq|!oK_LiCt6q^q$
zyUJ}{rMCUWw*AYV@?NpPcRlmAJqSMb_Le*QmoJr}(EZrEzv3dHK2|JrjupLQ4Eddl
z1iK%+QR*Hoc8~t1<AoLbv-W)tCmxO#4!&Gyy#!H1bN@qmb!2s*Fm$%if3E01U*Snd
zzezG(XuY_NWU|mdRrFu@{Ya(?trxa&IbZ0Xc<i67w2|OgB}9bwLgz@)J5ui4SLz%r
zb`GvithKCn9$&unKaBqWd1y^Iw07ceU3NSP?Jb3dilL!WXtWp_{Y_}>?xp34m9}zI
z>jTevQ(w6wwBq<ze_N%2be({e5&X-ipS0{P^o~Coe{{IeGrit&u^?Pzn|P$yc4XP}
zB+yX`3>E`}tCMSo)&nmt^G|#&_pjZ(_F(^4zTPLHNGUX442_rl?W>1Nhb|TmT?Dtd
zt8w`cp4&-dA9T^)TWT9DwhgW$x34>Tm#52JeIK9s@XYGI)pyssj@`YyJh`&J9285z
za4{HO?OzWLEx%kob-p0<JUsbuaP<#YZ>-K2#IeW12^e+|dHVMi_`c_D&_Ti1`-6sl
z(w9Qtg_rFA^pbO$Z=jb@H(XTFvow7*j&87(Fhs!eCVCqXPh#-HQl87(tYd$Me8R!)
z90hNRgzZ~G4dh#mzN<losYBMinRU7K6FRh$?0sYxfX^KQ(&Ha248B-+>DBe7nF2q<
z{QGU8Fb<myeH;Mr=*dED@K8}r;4gtr?o6LnDLHbR(6;~^w$Ve78BS(ip~S)|v{@Q9
zw?e2!>nhT;Ik~+%O~ZElU2Kmo-yKrsg%aOg<hviJrM*Xsdyjs_A7fLZ*8sn5OKOqI
zUjgPP=e28`V$BQUk==v;TF?&B%&vhywA&@v&qMrS34_%~eeIlV?bt-<8!%==U^iIR
z-K9~e3Omge#mQ236!=+$Y_21_<}m!sNLw-imRG~WhS_OmpQ!}J+@76FzO}D=K%t>f
z!h(18l)8=<yN<5yDIJ?A9-CP2nk?`^Ry|tm8eLP@yC$%L_m%iikq?yxe@WP16!sSm
zj1^A4ye?e&-fnYy%(&8vw?@?yZ`)?!-3b%I??6s|GOWbyK&l-Hf(yrvDkxeD3|mBY
zyPE;Mtcov$j+|cGE^xSOw<Qqbbpv<LkGb!9&tjA9$=Zz%1R=GcYWES=`&n}3T?@7F
zsot9vUQCkv4fpxDeU8L!Zy(+ojL8lbJon`r7Et4NB)Ipf&XG0)MJ<4;lhrBy%yuv0
zAWQBg4Dz_$Lac>gy`2Ru;GM{h1VLNPFz9%f!qUQC3##W3KJQX%wO;b*y%sI3V4nro
zbBhu~zPyJ8eghU3?$BHoe#r|DHt@5Q52(q)0gJMpzvr!6YuG<@!C1;eecod|wy@`z
z?cBUGurnMOpe25(;pUG+vlC`$wlidV5873OwuY;@M$nCUB_>xrZzG^5;gTssWl4cR
zNybML?KQ)GVPrVhP^E#>WEMskZZmwQXKA^UXol;igyK;~(ZCz7?4k@lCdGR~dJaEu
z6$7>gUFI7~)zK5o$CawH9LT0?H~DC3vhWsQxFDK=n>0F!ET-^-(r!4}Qwv3nVTOi!
z0SXJI*}|bRvqcjKy@Q_^e2ga3T-Ba<=nU3+x6~TG>L9AGLq79r8s2%BKaB>Fo!49a
zQPUmuFw4dcq+DoMtH*GEjvTIm+=AojBAxxE;IU%x*s||`YXF~lyEb~p%fg<*-pHoi
zCVIXlaE%A7e4QnsuPF4Dgm6&^7Y5IM-d{L0y&+uuCN#Wux->FX9GNOi|8hO_=5kZT
zL-voB2F8m6;~N8~zjHb|J^wy%y6Ep+ajaY~H-#Q3kDK<bI{wc0iEk~raqw)#Nqo&E
zp&Ksy9wfgK4weT_LzTPzTLLYCnY*>bi$z{6@yCn&@e+Tk$e((2WrM%;O|bi8;X~o!
z+oge%#etLS!SQ9^6JP(sYo&p);=tHfz7t0C-Y3C>Yk#y6Jh$Qmr>mvs8CrJMmGbb~
zhA{k%5MCWv+w*8?L%8zXOBzpB1mbU77XE9q8+v~Z-h0nV_Ydf=S(qO*6w80~9h>TM
zeG#%x9kGAW?VIX#esSmkz+d({rw+Nl+~0uk5$DucL%0K9I#`?{86K%Bd+_QZNcjAx
zRxu3{M6Gd2qWA{G9vTe0rc?7cMK{1aP8}?)!t=v$>e)qAVX|wuUSpRY?0ltfBi5Eq
z8?Gx%&P^G{(}})|C|~upB(A8cB!Tv!zo&uJkhA9DibkB`2koNv1$=(@KKa(>aPk$w
z<!pR->3afM#qW1Eu8nLG$SVC8IOo2#!A*jB<rg-)^EIyAH&C%N;Plzg1E0q~5B~jC
zv*MY%Wo7h1;DPe7`k`9rJcKUvYiq{~fw7|d#HJJ5R6Lw>c=Z%q?K+1a9pA*P;&M7Y
z5BvT${MX?M0q_xEA^T^*LRM+)cD9wfpi9h0&$9fP+k3zBZs&6+)R`_8PAj~J_Csbg
z#WSjE-aBZK*le8Qy3&{MgBHQyS-cxbr)iFn&u8c6z<wnln#RXy^X^@MN8hxDuTl!t
zsxdKo2yhR>;#;<NxcG*DOLYVln(ei5m{l|Vg?j|^6)IvDkw~GDS$L<ezK&5m;*I@3
z+a#;Qm5yn_(0Ca~ezrx`PMHmvsb$s`{d}XHwPvV@`50}Ip|xa!@(D3lmpv}<r(yJ9
zU(e8Gz@uDg)9`_ZE{@xD5zh0J417(z|3-wTr0ppgd`gb|2N`-w4m>3npWE!5?K$t@
bY@q&}?RyX5PJQQk-Nv=8WWFbuvyT27m2+Ir

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/online_quantization.cpython-312.pyc b/model_executor/model_loader/__pycache__/online_quantization.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68b99e289f34483bc35ab034a4002d42645e8872
GIT binary patch
literal 5077
zcmbVQT}&HS7QSQ8*yA5;!x#)9feFx3^J6D!fRZ2DZb{m7fwn4}wzRvm#xsD4f9RcY
z8q#4!qdt%}Qi)Uvr0!~6X;)2^NQ?G~l~&q5R@xUENNkO$MAi18Z|;)5?9-k*Kep4*
zq}q{Z?z#7#d+xdC-gC}({qMRuH-aZgf0+1t2SVSFiuJfmV*j5&tRWGJR1!@YB{fAs
z-Ik<MwkaD$+U!Ytik_l%nocq)$CN{-nWQttPO&=eNV-z)DK~{|NODM?Ta+=wlvi|0
zw)sQW#MM${C3=PyUGLLVKGFR?n(~VtiG3Ki=#>IeeG7<~VZ}Na*RV*1ecuz26JbiT
zrPJ{BjAukC`CKMFlb9vdL^`1e$;|AmgrV9nD$T^QNkwNG%fv*z^~eIw#3fl4-jNcs
zbBZj)W)um-sF;{Y&uUDHh}67#A;fjjaa(mI$N{t+-u=_?T|+80U(;!kB6V>HAxteI
zh4AW+3U(Ilx6C>YDYVry@3g3DDbgysWzI{XMI<t!BT1*2CD<h!Qf(^io7KN$SL&>h
zs$Fzi?bxf@=Y3XBwR}J?wni_ab5$A=T@`7z7tvKJfm9^0mMj&`a~54KZ<*vM`t2Y>
zZ^0^-=p{yF=7Uupi-OiBi>{W?+FY$!l<5AW9cBzz^=hfor=fEFDf)ihJqPGsv$jX*
z{@04`4zlWl&b2YG>X<)V)y1M<^;co#&Khev)XLt-)b&8k*{JDRVwHAFhRRyLC37nK
zb2<<&QJuO4PS(uEir&ildsT<Z&hwVsYMDj&2=sJRTP*4q%=Y##(&>E~UH^<mVjY~E
z221)P3i~EBr;@?(xmZT)d#G0mu_Tsa;-V0bC6khP?#l2(*?E(lH`w`^4CZxz<{y(W
z@hJ!nfmulr-p<C-is|GUpOA(4oD{#fkV!zRshJ>4I1x)Gu1KQRW`qnOB`Gm6ro@C;
zS`=c6f(1Et3Hpy@aAG!*jwLIx1xwS}L{bzkN{e#Xt}*glY(df(QCWn-Axf7LaY+ke
zDW1WiB$~r?ks2$&)X5n^m<)58SJyOgC8i`YY0U|`lW8@F5$iPPJ29Ll(X0PbGMS1P
zu}iuv#j~&qvq}P-gd^q>vPvQ;W8w>%b1o(mX_!O`Oq@##q+=;iXCa26gy<;adeTQW
z4-<dK#F2@HVj`{xg2oa<$EK4KZZtb)vgx=WU_VsDE==MDCTYl+(O8XTcbZJ5Q41QQ
z&!^eJSQ<?<lF1O>dj9)nR7ovF7ZMBoN(_Su`Y&gPhM&4PBt?^n>FC0uGM7n5i2<Vb
z8^Ej@28d?T$wXQ*w%#;oWMNSoO2rnZC4D0w+~34>R*_@@&XKi6STYj^?gky7fmi-B
zWWi-rb|W@ebn*o!pF6+h>@TstZ=JrCY`$sq3u(tWcF%!a{*Qdud?oMmUpC&e+g$E4
zY5I<y_?qj?jcs&ob3@Bx_kze3SoP-Hp4nlaEd>r21824ZXZBbhbg+IRZg7*?agKoa
zdu|j6t!DFWXLkG}d3q%887cMjEuY<?yGvYikqZ~N@LjI=nsbF-iS0Eut-W^RwUSvh
zh1TY7%>Ce`2iz-6k?k$8y*Ed<*yCk83iiQNhTs!B{((F_koOFfj&>5kZKcrRVyM3m
z>c1O`Uh{xpsnpv~By<$mj@*d?`vgqAHuCYv%5%H^rq%3v{Eok4H`KPC&BeDvJ*)I?
zs69u2{D;!%XI9S^gONfoa#JY;Pi(xp6&&7eJiI=cJGs*s*%;Uy{nz+E#tToLFSF>(
zvlOX3IAHG}DL;fzu%pbN=40hH)OT$8>>c`veb^^-Up6N>SkLCa2VxB=CX#`83Mk2n
zp0cMVQlm;lwyEe<q%bg0f944?_{pOJKCq;`io&)D-9f@MZUsi%1|N+fu|U?`;}V=-
zaS|$Fn?@7=(d?P&d6~p3p2v?9UQU?KK*#}~1XhSpLL8hp0zDtWEBC->8STPpQ&y*T
zocwKeBY4}l=jT>D-}-|^e|y0XMu!dX_vG0g`~;C`;vB;_GzXTHEKbKOm<3q8@ah)&
z0KR~CY(Il{K%DG+5ipLG{jX9rR-@)Cb^>|kBie7%mNl*NAS`4_1e{aR3~-l)Yb|k5
z9wc#z77?HiYF<akHOxTHSI|JU-I@*Z_cap%IF_8MQ)Eb<U1EW9=#&d6r%t(5=Dh}$
zQQa4b75rcYR%Jc`?4-IsL4TqxiB~Dr4VpMq`y~YV{}|u~5+Hx_h;FfhTXgK?S@Np1
z>d|MaQ%EG%AGJ>PDwTYC5Vo2RS-jO!so=GP5EkTf(D}C4LaElSSak|r|Bxn__W+Fl
z2wTpYw)8FeRsSP+Uov?EOZBSn|FF>!YrVuqmj5j^)ZnTHHDI-4>iTevRiQ^YS{Yxj
zHduT$Hh2XPO+vRrr^Q(<0XIEXtyvU7>=j97lv(0LyGjX_9Z|v+ZVLFB>WqM$YWP$R
zVu^18dw~7Qu#wRCT7&>lhKJ@wUP_a!Eb0iz1T=g+i?Nhel8fgE48l?>b4e1!>_RdT
zk3p`#Kht0N)!EAnQd|LW0jMg;o0leD$?($>pGfn{oW#qJz<C4A=rg4=@AUDr8HJzD
zD03(ID+~`niPxye_hjK=TNOx5h8r<~{~Aq@1STk2qX}5j>I?`1nLL}6WCNBk2}MfD
z5T#^LR?(cY34<7YX_&+Y&GoVcS~NyVEhvjRR>8y*jG#-xrRF68&q8UMpI|{)oz;Lz
z%){hT77pSlp(_AJ3rd$0GBJmNjs&8njN!6ZiKT`iFgZgSC29`A0DTU@Kz&ZZgnb@k
zZMp=_W8yL$3ptD)EijX<C}pq(Og0^K5|e2zog~9BIdz)D;Lv<}NUy9>CWy^KQnjU#
zSom6d=&<&Fm?Yr|7{3Ou{3Glkz?=Z`HWxiz1y9#a*Oupa8QB;|iG6P04rShR{9XVZ
z=5tJuA1v^LUov@qaGRglZhfiPI$3C)+-|*)r<-?!&FhWDmcBwu-=>sr>Dz7@-432z
z9xrjB<uL$7!ImO7Sl|YW-01>$`YtzOK$uc}!|KqDLo1Fd(ZH>~aHDs{S@MMPp3V~2
zo*UZYddi5d^ObE>{nL9~`)VY|<Yseklo?z7v3)!A<blJB4tK7M?Rorpu6xVVUFz=r
z?A=e_-FR}7+U`DC@OG{IdcC#O*pWL`XpF9$+x2p#KvOBux*KR*V{fp<Ku00a@t1+m
zPJMdn=B3RGUp~LnIk_G9&5uqp@lh0fx;#pu=!s(Fg+k<oVq~HanYbHyxxhmHZO$L+
zDYZw7?E{7OfxGQP*IrsVzp9kFhl<@Jh3=6}`HN?_yU#tS0$`&Hxi_~PkAphgq4mMs
z@ExvyHxOEP<Xk(wBb&+>7q)xH?gYkv@F4yvz;V%6sB!~pYArT)7aF@u08ZJi0^5~)
zYhz%W9ftjCax71PAx=I`klo-eeKhyj&BGh&4n0~LKBKplJS};;MF$LF4ilJxPmz!A
za31~2Vf;~o37pc57UODyN!r(RRQ}LwiD>*)qyG&fVN9Tu_V^<&GsZ23I4Ze}5GQ~;
z2l?YbbBybOLr3R2LelIIE#L$99CDODNBVM%)6bqZ9Bu@^4qYTh$?w9aY^Nw{pG8#N
zH^}=H3Vw$=zaqbhuh7e1yMn8)Z@b!-9c7Ukqo`vgPu)ku*M`e>z0wuk*NOl9&c;x^
p<-mE0I#g=tD%*9UKl-;fK7YfkoO{I}_84}Bd++so3}Mlg`ycD4%25CS

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/runai_streamer_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/runai_streamer_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ea94fc102f5d41a1cdc83c95cee762176e67c80f
GIT binary patch
literal 5329
zcmbVQU2GKB6}~gGKeK<{!8YJO%wP;;9ecgTj!gsv6EI+c4YDCWTP2hA&McnI?5uNV
z4A@$$v_h(*suGdfKvY$6`;tUNDwTN1Q<cX^dD*F{b~Q2*RoaKX8JQ?ipL*_{ov}^q
zP<1Td-*e7A_ndRTd+vS{i-i$<n(x<Y*A9ffB^~$k*BWadLE{dRk<4f)O=?zS3T&EX
zoG~uV!5F7;1z*}n$9$T<5J(4T+ph%+e43~2fEFr*(_z{UYLP-T9i?qvixuk9b%l63
zUJ%j(9SdnY3iavwLPNTNK`c6p<nS#dN0jJ2&e1E~IL9QS|0bRB1Y?KJD!PI*W)VY&
z)paO$Po6w8BE2y(diLDqNojQa^vIji_{p&mn2L-QWkowx)N|@p=!P#8GqTr<znU==
zN<fAcoZ#$3a`C#ZK~FL=ImJ|TqlgVj)n(;|lv6cD%Hd)`n$Fox9^rLGy*h0g-b@Fc
z)idfQewRcwYnrpRpc;}xSe(jBvskqSO*PDoY*}ajP8q6o*8U2OUxAwxlxAd<W@QH4
z!YaNTyNGg(%-xEn{jyI9$bR?_%m)#YgGx{dGy`8QAoI6;X<iQ1=7UN|2`d35l5eWX
z-%#aP!Xtx}99QEG19uFZQzr*u)F(%wAD3f_knh;QSZjK80l5z7>KD-sCfzWJ5^=j}
zg4l?fe$vEBrl4TQ1@o_mMfm89Nc^B+(VWhhVm71GzPQ0Jl$3bI5Q$r0KAX|RGm~Nw
zi<AB0)NJ-W#Y|EvJ3^hBrGb!THz-S@pG4Z)M=<(3<_<Ew$q)P`^c$EjG4~i}5F(Z-
zA<5$}G5LT;?lo>R_`udP3#`nR*lP&CWV#MTB{m=NSiOeKx@($Icko_qUA*ggJR5bC
zIlAKc=dQ?kE7tvJ#TQLL4d>ftZI9cNQtxu)8{O7=E&Gl^NA~}Zy7@h+|Br4Sw<qPN
zbqf&P%m!E6{4Te(UdusO)&ln&O5UUNmAIR`OTJ$;mVD+<YY-$F%+>x9q46_zL<V@k
z>eQ^M$aVw*IXjE7qG#vqmWeClCr72p%M&92dK1#Ai{q!ROiYZ7pL)xV7L-B}&q<nE
zP))n_8OpJdv5OOLNf$=PMlb(J%w)ebGJg8f#nJK0ws7)|Nv|henYfUM+J0kpM!_~O
z0X(XvB-wEZFm0oj%>@F!l5>nD<%Wqfl5+y>uxhBfVP^EKVslp&)Amgji<-@;x@mK;
zPn#_oc2Lo;sko@y0ib|(B4GOrMay9UjAKVP32dpMZVgQ&qhC^Vd8SAN3YqJM*8{B8
z?2sg7wTxj%l0nWdfgJJXf8Opj3p2el>P(NB!LVe{joG1>kGwae^lIu<@64PzUDSK8
zX<DJz*_d)e$<D$>RO>qX?0rTNXEZr8hg)E!`F-0VU(&T>8;}_T060I~L@RvkgP_GX
z-EDoyA9%dCbJ6#ZZ>vUjRU)b7NUGX;u+lngwGJ;{cpPtAidymR2Q5{hts;n)ATI4$
z7J45vKIPcMb*lmN!a(KFkacM2%h>XvGq-&Yh0bkx8Ys`x06KP}+9*~UJFUjfrMH(G
z``0-3Sp9F=JK+z*<<=ofII_wkp?#^%iuXL|T3@(*Sx7zD4?_CuK*;f7W?jlV%Z&pd
z<+vy1h$X!Ilt*3Ne{TM~x!iwoIdQ2RJ-D)W-zRe)&y^ELm-ikkN876LL^<A99z0VX
zoTwgs%~RoTpaO@6CK;Gr?L*PNH838s>mC2-aIZ*3EX`!hX`9E&H3+(*K5hrFV$Nbc
zTT3tq3xa#nxdwEwJX``bz~2b|aL_&A&-*CXrXo*dJoBwz9Sc60S@4^@ORx|q`3$zi
zVYbBRM@;VuD8U7j_aNV;MkwzA-}+d|f0Ze*+t8Ck^33-Id#{%4Ed<v=s}%gg1MdYM
zwCXHzMu)l6Wd@A`+pMvbPVBv!Z5UMIjkvknl_UE~%<lp6|KP3mOQys_J`k9H>k?LG
zGFTC7nUa`;E8Lt`MC!<7I809{6r;KIVNo?iy=Xeuez&Na;&oNi#3@B|b2CLw&d0iv
z8&U?y0psdby@(YO6_AeU1`PQ~gv_T-WppAh2kD-e(dRa%8jd2Kde>ERT71`L-c3X?
z@fGeMMIRKlUo~VEV`67aa_$;fxherbVw@u5F;b8$z>WeYm})^8!5FgI5I#U=x=GPP
zrgs6XLXxOtAv*-L$y}wnLqx+kO?m8w4LfxA1rY0Ht#)WSC*_J7WK*^PO*bE<xsyS3
zaP2GNF0!N`%{UHmN#_&W<JL2zM?rw`4HP%g(>l~~xP18Z^1hKW-@ekY^UlzRLwAmU
zc)Yx?f4N~`k*~J*l=;?`o!yJ!Cp_BGY_%PJ!lBsSf9^<Bg^sGw=s;OT=&^*J>W<E`
zaG)wQRmIMVn6kuFMI5%o;ir*6ecfshh3cQ~LT%mmn;*6wE%QzPi0`(<!Ifw~NLo67
z-&aWuTdCnnYRpQFeSHJaDOLw-3gSwAd$s=6@~JE3S6?r`{zh4N69B5AZWRFm!8ftY
z@5L_?tHc~wsUgZH_#p14S!4+scMu#G4?tj`_Q647-5d_U#Dkv_2lQJ3$`-jLP<jyJ
z%0<Y1E5Tu6=1-heOo(4N5YB63^I`I0cnTgrvRKsVfg-mQp(|v}WWtY0_JIi`IngW3
z8j57TFBhbuPOo#^3Udjc6RF1u9f?#-T~9Vb!pVuGof2H6ZWKwbO7qF>!)Yt}cR{8>
z*13tmC2eA*HD$G??(g}EUv3=*U$4abs?oN)a-}_KwI?g>C#?1pUo}=vUa?MI0dERn
z@Mb9NcrogDaf_z_(VRN*5;V4VV&1z2fUNdGy1#`3U1u{0p0MnE>*?C#vW6yVPSlmG
zVi*}bH=f|A)onjjkJ>ZAItD%oix^~4*Qj+Kno#2TL)%(&GoeZZwL@_eJ?5hoevifP
zxvN#$Q&xNGes|^YS?loGzw_s)o$x83+Z5v@8mW2y1Pw3`n}_<@Z&O^u<J2_)jspD_
zCR*UYbX#4VDDS<H*4KcO!sh8O8S7)D<*wpp+F)=t!Ogc^AYtv^DUb>l#Z2u=aSwBC
zay${B8@7Yf83Qf`jL(2rJ4()l8@+fKh8)M#BA=KD6Yo%JgKW=>e0&ai^9Q!|%tpxt
zAT`K>;FqS(N>i8B)U_B}iPYadwzT(Qq_5icLZxlcY8zY}tMai5-(vAC)u>R39<-td
zmlp18mBH7n!Pl0f7rx`%I8QW^)SRY3k{y;Lh?H6Q{X(*%lJx#;Myt&PB}p!3B?%KB
z&=eK#gO=?hzeYGXKzwfd&Dj}EfvSkJ({|u8{bj_l2#E`PniRwUc3_OIME7sUYKeAM
z(KJa)FgO7u2EoQ*iVrwW_((zCSjMMN{BR3BVL3m)8s6i-z$~5r4v~8GmHmFP+Hqi&
zBX!@vee*9ZwEZ{~Tg-mYyyl1T)$>fyAFl2ZS2<F5_tN@tsQ&g#cN^|1pJ*Rz<>oG{
z;l<A`-ybM93|XNgYkr_yt!MqC%x6adC7}LtV2#$RJWMThe46-UViiI2OPGi1>w)h{
z<s1^Cd15EM{_S|SsA+IZLyl=AGgDbi42Lh0f*PhC-aooQKvuy<a@JHegQf{~guE$|
z4j^G-O<UM7k|dEr-D7vtVS47_IpsV)l1`TpDL6?$z4qY3<esp5p3CB#0LjsZoH-|L
zA?R=Kr`#L$cIc9r{>J6-&;*EPGsGI7BgZl{kKm6vVfPCD8B7tkQxsq27=~Hn5fgrd
x4t$HEk5J<yH25#H{}DR$2%Y<$^)c)d1jYAZ#7r_z1Me_Q`0mfYL!_qS{|hAJ6w?3z

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/sharded_state_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/sharded_state_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6a6db0f3bc7509c13610bf6525cf2b023fc913b
GIT binary patch
literal 9682
zcmc&)Yj7Lab-oKM-irqb0(=uokqQZlAT5%5SZ_<VXuW91lHG){14Gy)2@(%xcS(`-
z!ctwOg<54y#?ulSClQ@y#!{t@*_r;(PbELv%=8b|kPT=}&DfJ<ruoqsIFu)uPG{P4
z?_xoig6&TK^m1_bKF+=O?7ion^PRK&H>cB%AjRpwiTy_hLchTkJ(<dd&3}QyD&i1F
z#nHI-q{b;yH;fzLX^0yW^f*o7K4aXJFprx_nTlJ+Ezm~CEeY$mm9&}SwuF7$PRi!E
zBf*R_q-=>h6RvR=DO=<2glF7C%C>l2qJF$S;T`vqx;@^IpvHZq?1=jljpL0JG9cc?
zH{GE$j>nq~XcTeGRm3@Y&mCjAwPleCx_*x<V?j!_jq*ueh)5{`D#mA$i|{ZclaM>k
zr8qu*B9)woO+wXvHWlG2HAgHNlfv=T<Rp&=x{pUhp3q||XfmixT<TIX4z=(lJ~lZe
ziQx$$l?YEws5^wYWF!_ABNM#DC&iQ?R!Cw}g%^4<p1KHAn_^;E9FA(tYdKS{Y)-(N
z{uP`FkMKFb8BpU!&M;1MM&2}G$e;;|qpvdKX5PY?cq?z??bH71iL~;Bp&1IC`I{&v
zXwGt#zEhrHoZ(<b&IUjGk_92?bzG&#ogBlvI5TI5x)bVd&c%DCcRaajh0e^mfvz6b
z_wo(jz@r`JHDYcj44el>`FM*B*%0T0RqWI3ldIHRxej=)*ZJnWykC0*!nK`ixN54r
zV`By_P~%PKQP8i}pPz~d9M7GXA`-71bL2D}fSrXz&Ys1`%?qqF6_HpjCh$=yzDOEH
zmXAcI*h?v4h8KE7Hi1Qp74b|!7?t|jOH;Av6q$-oMlQyAk&Unu5m6$;+1ZFR#ZIII
zHXacsc~%pf&}>AA#N#j#nNEZ`c!958iOiQu0uxD|=R{UYu>v3A*q9`;Af2p;--re2
zhk=;uBxEo_QUc!D=oBBFnN7u#(g1s&=gC~J^9zy0EO0lNnwW^kl6*LpoPb4>QGQU2
z%=2L~BhQ7&s}0O9zD~G~!m3g%ISKDnCLps_tw8EaLGmIYA(EU4y@B&Ien%<v2F}w1
zRX0X;kgF9Xw=-&}I(QI8gs=K03up7U)GCrHo!5*q`VpuznYvR}5fqfC=?X!maK#Wq
z$>!R9(|Cn#Nf(&3K{ia=wsk_4qhvHqRP2}g?vy!~QP`~a$Od6pa_cqD09<(V+Sc=3
zP_bXZpLdH&FX{Zfi+)P$@BS9Gh=TN(Y60N_wUb;5y`1D1W<h9qj^!65A;N0g%g*qN
zq9%PH-?)$f`Cc*{V1stmB+kw9f@%$eB!ET?tIgyLK{ev55GM14wRu!JnwniyjkBp)
z)&1;qC!cxw?1k`)&s@0h+)HCZJ+P|UUx~!$_~!&6C6o_XTTG=f3qe|?MLs?u;O$VE
zFHLO=hokX`D2Br#K2EriSN`+WK`AjiI2)S{N%+=Cp@q49Pw$`E#}CG17YAn-rKwbM
za6TSS3~DU%3w(4A3_-c7y}{s@B)a@sAlO0!EVI;l{t2Bhpzp-DfIwV@>`zzFhShn^
zqF9@<tq-g_OIGA*Ex1P%_ejot=yM}-x<9RJE7a{(>h>1u4k~pA^L2+y7G(34?5L@`
z(Ac9i_S~|qj}(SSmEqBR<MSE%I`h!cxKZC$tUp@xb`-pQinlLUzw6czsqI(1`wQN~
ziuZ8ddo)*ntYk9O9j7*pwAWQaw9{2GBBp5*SVO9%Y=Ts?z)N#NGFrYFxD!?Gk_>VR
zH>uJ$U47#SDMC`^9_bR6#!~+^x8+&%+A9dX3Uj3mX`^hcb#rvd6{+iuK;bAaR`t*+
zrkz!d<)Yq~rez97yPl+wY0dmi*VX7V$i@kS{x%f4{v8@_vV=vIq-iVz+Y)DxDkc_8
zpz$i5HpNid40jdVt!+u?4|d|OVHYg21xkNW-V<xuCfmO5tqe#u$u^z8v?FaN<6kY0
zXVOmDIo-N#NvP_pl09{P;|k8o3huN^w#%*=I5E*AyJZJ13DoriGPILcpX`v`q~rnK
zziw><?B~49$W}s4U4IqoZ_-G%$!6Jl2)MldLmFMb4lQOdzx2|A9ot!)PR8P(uh`U_
z#De)N8$&Q|*y`fj3ic7Km>5a$Y=Tdughdt%Cs>}jiy|+vsR`U&nM|jcU?a(tW(Nr-
z8>mpIX6=dyJAkP#T@P$#u(I8pf@~Fmuvab!G?WupF*Y29C14tl+LrVKff;nPT}7ey
zE<qb?g<<UX{|zZ<RO$H`e@V4+5h)U$l>|_UaXtaoJ1oYQ_#h>8!vGPp#0mk(RR<`+
zFrVZw@zQ}>s%wI5Z5XzytQH0i#Z%EpTs$&RHTEQ)w;!@AsOW88J-Bi(E4*`bZAkHc
ztKc0}yn}h~?)8&}kx^x2G(U1m@t(>trvw%T1YN2lngYxcm13!+s5&@)A~F}3Fa}cT
zcubT4?@D|^R87gb1Rq!3b4h7&mH>*B5CO2=3$v(Zj-QW3dDR@5orU*NO`x@-Q>ys_
zIXcw{m_;?uV_PDsPQcG#f27#tTxw1XdW23qgBObjpcFD`cv48s&5EiKtPI&Suu+mA
z^pT|mUIYeJ6QNP58I_V$Dxy*sRm04XYLMU;f#1a;5t}6<pjDZ+@%7;+Hg;*}|7!pD
z!kpqhIKwOGaXoT26__rC>H5X9c_s)-+}2hyqqeS_hi@GI+0kofGAEY(MYr#5`I`Kr
zH;ewZg1=w!_vifs1^+(9zc259df8a?bgi9y|J-}$)`xT5dlk>Vg6D|hIdb24|CM{`
zk38qV?zHVH*(uv;>KCT>nfI6y!sUPVZjvXgw=0w}7k#}2-=N|f{MffU^V}y*?JM*$
zwY<C7*tEK|vh<Gp-uKq){{H*RyO*g?I=WU)E+5YtimmO1)?G^Lt_Q85ViQ|z58V9T
zjqknt+U+y<40m408kUd4=<Lvs=hy1jB0u+IlE&ujGf=Nvd+F!?TR-^V^6kqH29G^#
zY9}4<%zxI@Uh<(pcc}?=?pQvV-TmWJpSPpt4%is~P>Dqzf5u6qPOaArd=j5|N(f^#
zty%?;ArYi-ELwddD<&@oJ6~<`wm_p8kU;HesTO#wW%9O03jpZOgBh8m(nhHQ6~R2!
z1c=kRuct2vPuVCNzJj`jfxBzCQ`RY<JB(vX&c13KjeXbHWHKf2cvmnC6oXa)TT<1K
z5>=XP6}X__%?KF3ma$jGx5e$Jpgl+nZMYk&24NI3)djjab*VC|4$I1_$P=CwctG{M
z?)olu)w&Pch`_QT@ioW*Q8_%hx~>O~?z@H$EVnHmIBz?1d!K*Md#dQ&nPYZ-+7ZgN
z4`jwRyt|5?9Ys$=!NV#Zw%`dVo>0-#QS>ww+3o`Sl)^q$V2>&6vBwT`1E3?b)1}D_
zqsdGS4}%5<u*ht_2-#PueX#cxApx>-s*Tw1lqo3$h@2V=8if~tUNsR8$ZiG=+V<iV
zMNG|>_t8~32|~QoSz{N!OcKLWK#T_~Z!1%<wky{5Y`oC%l+y9kdVgVPR2drm$of3l
z1mPv1t9?Cw0y_Y~APRy$C;_4jo|K{1Wk}Of1p&$i&ZxhuzyQ4!rr(wTsR3dFWMkCL
zUfL{GJf~XMVY=cgZA}HZ2-WhMroCG<dPz2O^j(wAm;Ov!CQ;fd`6^T<9R&%49Q}Wt
z9sDmt+9ow_%_`d_sk`RNs@9}Ws^G-wCY^5UDO+?t(pK3jx}^%n;s8B@S7`mIQKxtd
zE0y-Gv3d!l5aWSuN#AdMG@wZ|jg95DBwKX~z^WgVv8E%<05WtCfU{%U0H^{I)qA^Z
z^tz-Ty;WwWYfx0J2pkcQ!JYQV9>AS$yygtt2|%-Mz`H?xrmd&!2LHPf08BftcLA!b
zxej34eW1X0NZ9t1G#%1QTTjmR6{8)p>kifqkl;Qzrw6ribuKgdy8wlKdUti7R+b%G
z6xaU=IJFB+Ri|v1hV?PBU8jU|cT}G{=n-a2z>4BFrFLNGrs27;rquMnQ5eTqRHxQh
z4pXXB-))0RlO9n2f&{wf3{0dtzogKYI!~nL;v5U0nVpCwxvFpx)N%Z(XK8;=KTD!d
zpvFU@<|$XvL5K^7ndStDAK^e5L=t9G0z@A=mkwa(8wZRuwlQdj@v}U;Q)B_$r63?C
zfHB8zK+jIGr@DX1c`hc3cq|E9EY-mPEilJv0k_Uzi|WB{{{RPgQ;1!hgCzxUL=jPU
zs%0u7f+-Y)Kf_I@aYo*so`zVM7N;<4VF}GnTEyWnj@1g-R0~)dh36ns?IZ>kCeXHC
z3+w{=n1`SU*&mh0xE<mr_`OsckMS-<;sDepBM<<&q?)zpvTC^$5t8sestJcr!U9$v
zfOzL13>U1^%mP-^0=5m>YhcDz4*~9#1DB?RaZEtsEH=ymHtnLy;G%A&g^QTvX`JCp
zsM^UkhY6z&t*o(Y<YEa3#(<k4V!ycx@M=X3_A(?!SC*@#!1*U*CDjCRm`MCr0(Bo*
zPkai2kETAQsW0Q)aMUj!S_?dI>@K$T7TWeIZF@84imkmlYtv`$P~JV5p*QLqR(n=@
zR{K}_i%eUQ@w|QZ+SvjVP?*5lg>_?&3FMiPO_R}U&sZR+;%m&<2!QB(;Mh@Y@5o9w
z<r{J#Fr);A?$P&$bAh3JU^Lh9e6ICW=IlmOAh&bR{rLUwKWMse?bL6Z+HTrz*w%XT
zz}%^a?xx@3FwF4!==#%ul@FhwAg_BCqAf-oZ81W$#ftnb1z*47>%aAKA#_*?9nOc2
z=6%O9_F`+G&^n~F4y`}^aqD3X!2@|q_u7dYfkJagX%1yh7omFo#$cgkP-z*=oY`pq
z*4q60@_X{f?ISC;W#jUNqPH=-Yb~m@^yR&M#m-%Y&LO39Xnpt|b#El!d2Ho$$%H!g
z0Ce~Gv2T!l<3o4fhR46^T5%N{UMx1Wte#ytTWn}7HUu8qOm+1o200rGOq;^AWnX!~
zbQc-_+hf<pvcn%Sfl?Q0JMwuqV*C(&%BJtWynY}bI+E)@nmhVpuKnBj`j>LdOE|vd
zCkWz+&}<i+@@5B|@)=N(1Ux~*_EZZxanua>eu7V`c*rt<58ZG+2j86D07&w8hE>B~
znoKbFA_Pd`ixYg2N<*kYrodPo2Sa28XaQjz&a`E8_aF>9zAm%`W8q$>O+Zy6$Rt;w
z0fc!>vU$P)Tu>0sXr=MD3G%1&39Zl4z}r4_{d^bN4Myt{aQ9u{7ka+EVEit+ME#@j
z5*4(Jss8eJA_=1Bpd0kq`URrb0l3?6JUpBN4_GzKO1NPHD@FW~A!s2$U1))w6&#SM
zbydOh0pczT^SBek2i3l1Az&m1@~Vlb2aSfPKWbu2F^Cw_l`lQH>OvG6YPz&fD!!ip
zsrW<4{vAg~K`I$f!O^NXS__UI#nF@7b>c(EiH*jm@9n(bkZ(L$U`{H`$=@-<ziDb;
zrXTv?vfh$D@{Qc1iUIcK{EhjaEo6<w&K>W!z1Matn(rLSnu{HsYkRXZ`KI9KCdBss
z5&XeDIo}9GTERKAA?GOdr$5@Yw*L|_@^~wF+zDZtXO7Z$TcGqybLco_`sD}%<zG>z
z<96Gx%oZpUJD_P$Ya+5h!Yt9Uy@y#4!gv;h5N*B$rnd?m<4>X#d=fPzjA;`_%2zy6
z1^d?eE|50h*xnsHC#1BQqtX`mS*u3X5=2xB3+uD!SRrkLc%&Vob2TEKIxPr%x(eAb
zwQ#de3s|Uvk~MyDuJ<m%bp`Zi{PQ!iRd(VKmTa7P76k7E;D2n&wk3%ES?<#MbxFHm
zA86SwRgmyB7U^xNHpT@kh5-;H{Ruk{A3~R4=d|4<`#^B(A)q4s;Xdp2%QTWI2zd)-
zfeON$AN>E|d=dMGW)0J6cOSmCVcRXd47>~9h3xmBRS^WZ7IDL6oMBg4g9O+|67VJx
zY@*ru0jR3hWI1RkVBjpgj<X8p5yF_n80V8gHvvamH$VXSD6c}G69yNm730Nlj9XCc
zQc8-%$qgZksqQT_1ZYE$wv>sEGBBD@t@xF2oJPbPmsO1Z&`^b)d}!3%-S!%oVypWf
zU<$F9Ac`+s$oACl09H8aGe<Z4y#@b%#lJr@`mhWjir$8dwdnI_>>IwGg71LhJ8*AL
z;ouqN;F<ivb9vtw*y`au8F#UDrxwNfxHVJ`xHSiE25toM&3(6CDTIzGp=0^bai#e<
z*ll-X&fRs(zCNz>9=+fDVejc;>yDd8ZXCHK-RsRB$+w<Zwm$SU7aO`Z8vLuHE2G#9
zuQjYK<QtxPY%+o!wxT)+fvq@~tpHM%?ZqA4%kE-VF!Mt8gu<|3ma}~d(|zr9sTs8m
zJZ?dZJ99bj2&{E}=;$gocC5a+^5(6P^{M4I^NmL{&p%{*MNeSEQ@?6iv8*yHO!mUs
z{=BFE3ljz@Cd70TlMMmpv0yX)qDSIoVbvbSC~^*9VpwIu;UCOJ;^iJoILxJ@;jkuI
z*eH<CVk(0VI~E0iK9%AC=;G+E5wNy^T^C^lXBZ-rFo%FYd<y4rhAq2lK1bFPMBIXv
zsW5{xY+!^vILkn$I?LbtqI^6a4nwRPM>I&R`<P~sh`{3v8#r+Qgy2tC(dP!U$y)ND
z#^cnL7fQ6t<XSuZ1%gM3MdtdFq08hi*7=sB**!N8-8hu<_b7F}B_p(cYIA0y%X?N2
ztsKg^0*a0Og9%zUjryq4Y06=8tq+$FJnnb>n*L?qCN7p*DAOtG)<J-T@VqwyK~#8_
z%mb$L)Y^{sgYN}P2$$~x1%Cb-DDboNI>ng!KDE^^@5y?z{LT1{c&-_~@$I^GVSOa$
z-KW_0Z<>Ij)P^~*qCi(M(Dk{k%j7D$8{S^Hw($1lYnL(Su1{TcCE(QscDCNPEUmPZ
zEVyPxUVoNe=_}zefQap`KRBR7-smyxgBAo6@CF83g<bH_+#9SKRCiSfe;{%(N{$IW
zlPu1Hn<8L?s2wypPX}?ev@jYu>$3BuwG3bnK){ltYJ{58BVg;O_LHHScdCD!9nh+H
z7%vQ5gnzp!f0Gq#cu43QhiL9dcutDNMJ=T1zynz_5I%Y*MeN-1@J~5}WB|N7jW&YG
z+P{iSqrpa5xQ4SSoZ;=ejmWLibeHvzc9V_>7zJT{EuMp{WTYr+(~2nXC&=*$vOPjO
zA0hv55c3E%{0?<JLOqXg{`?;eM#}I7&>en+20ybkEPp3&>$qZmY!(faD;xL%VuO@+
Ga{mJ_(CfJX

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/tensorizer.cpython-312.pyc b/model_executor/model_loader/__pycache__/tensorizer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a42b838e76612970ca0d18600a50989a9703a2e6
GIT binary patch
literal 34493
zcmdtLdvqMvc_&!aUHyJH-tWd6O#lrN4-$OJBmsh?NRSpuS%M$!CaORJY&=}uAPEGB
zAw`M7n7aZ)X9%tB5uB48!(&ZC&&kB{naqqN%duzXOty;+xm#^$Oiws_Hgjh8fP%bC
zw0q9(@4MC2-2j@BlQZ+r7KvN8ZrxYi$9KPX{|AS|%HawNUmu-}a@^n0gLawIk<B^-
z$KB&ZPUOSfkb38bc=oIt(y_aKNYC!VkihPSAp^S`hm7oQ8ZxoFdB}{rE^HaM4q3--
zLpGl3(}(rr_96SYW5_Y?9CD7khFmON2)oBUL!NQ(kaxUbs9?NssF0=e;i92pR$s|b
z3GRk)>3G>t8GC08myDMWm9w}hTrplbRLSDzaMgJAP<6U|&A4yK$KsZ7?Rec#-FW>_
z{dmJr!+7IRBTKi2o5q`mnpxZyZW;Fv`B~f^-ZkDj)XL(HaNBtMP&<n|!-4URp$?vt
zJTiT=E4+Jr&(I#8v(Oj1!=2+@LtW$DL*3&&Lp|erhxW2kp76f$-l1L=_lEb69~e3?
zesJjE_@SXgJa>f?EB}ZedPc`d&C+MS&#Ut>bX2U8j*0xNiQ~j->G+5s*1RGN^@+Y$
zxS@U>H^7OtuW(|WRQY{<y2J_e;WJ|WEBw#^d*6Wfjo;U$-=35lEVT)#&5}(k_5Jkp
z51m5$r^S|6INV**DXkxUoR&jNkxm7lO&6lPXQWeO|3rJv-g9!F)l$<v@S_L2w0>!|
z4-JZ~Qu)|F)$(TVVztQQ>)Y`4=bx5mL?^c6{b$91bV}@y8Zcsc>l!hNyOHm?r`5yC
zQ+q~n5At0QJH=h7%PO6gj!7kBtJz*@u@PMvq9TtndWxZ^T_|};42aF?dF#gW^J1qo
zDE6S1&q>E9ADh?o?6UUuBG(I_*spzJ?^D0aEbd477qJ44iU-7l>^lx&)fmOYuNa1g
z#3NWs7#sBN8RYx?3}4SlhZ{Kg8$8WnhghJ^*HEX_IX16-UG^>(W^!~rB}Y*vNB2{5
z6lZeuJS9g-Cdb~V<S5PL=zU6#vP_NxPsvf9$#L*0IVv(a4!y`N@wekQxSRSHxf{Iy
z*x%Bi4El8`%YZZ?$)V_^oN}I>j)pFWrL&=_snLlmej#NHMa0qJXv!jnqM_k%C=y8-
zMn<Kum@=|k1bG}6Up(I*JbtqO__L=52U7Z@6Ei9EamxFANKTp0O+`m1CqiLApYlW|
zLQ|2elhL3!d1E3x84{7Go0y<i7boT6t9_%9sZezI>e)$ALZbV;EJfwe=!7I5pPU#O
zr5@SnU08igInRgWP&k}<wmu&YkEh?2M5JhNcv_aFiD>XT(u2cl9em0*Ix!jzh9|FF
zkz_Pe{QTr_=(1K-|M+D|6zTKP0j>O0I20Y3l*cLeiLi8Y6r*%hzA`<I%26=F>hYWp
zhlZuAlVMSk(aY&DeS@`s;tD<hnQ5%tebTTz!$ySK8;_*i{S(_#ycea3$fVpSq1Mq*
zcyv~hQ*JfwLM8<@+a{-^iC`ouOQCVUKIOpYU6<r&@bXMliliJ@@cHA?cyKxrx+0}K
z6O%#q)su2C%IZ&9)jQQMS70&7l@wG_P>o==NUb_JIvL1mX|`ZGIvS1ywzQ@tZfSG2
zM9sOQWxqvjiZz;PPp+YseH7GEP=`SKZt7!tTJ_WNXv&CnF)dFFr%xH=<TyG%=x>w2
z_&siplLzLwvD_R;r%Qv?W9bt|O;tmY*LIA^AmThf$BX*w+)X}G!*fwV%R6S&V%htc
zB^%dbbDUP+1#U+08wO|f2Rb@rI?awy^C?}VD<xcwMyFB+3L_`{hLj;Zc>{B9h)jh?
zqbc2FBqd;1Tum9V?jq5MUne(GQDbEIsx&S|s4}1L<L5e}<5L||qf_nCkc^3Fzd5~c
zfA6(@Qb&07a>vw6^y=h92knE7aoRya>83P1ja{F9q}?dV9oaPzn3_pdjz)slu>{4S
zm|2Y>+Rj1Dg4~IQ2k;j;ieQ0z-(*dC3h$NODZ5*d@YE@ux|N=|$G=*uc-j_?Nmo&<
zY<JAH`+;lV&yW3Z;0FUg9Q?uHTV3()ftYz9X>)I)5^l?k0+Ul`^kqcuana0Nj?pJ?
zyRsua&qt{wyXN?4W~Q{WI#L$R%+wgeD7D<`UF7GuZvyZ8wqBdNm$3>iaDM&ZY~|o&
z)R!|B00X}0q>o_a0pIL+z^Cn5b(F5%z*Izhp$Rd!5F5bstMTbb)OT6ReNA<a$dlu~
zkni+`bAvu?LqH>HCd3*dXe!SHe12m}7>i6!(0U1pk(6~bGCC27h9-ukl)#|28Ldwd
zbV_*ue;Ba3I5Q>n%krcQ$Zx>ZPD?2xn|d+5j^sTUg;Y^?9R$^$22q!M81Dx07olli
z;MN_USBGv5EgRyF>V*^QwxXqxZ;5NR`gLb<!r7uYTawOQt39jD8=S857?03#oZr+7
zF6#y-SgadX&hA|}D|ex;Vf<w-ZFV;ck#vufIKtn7yX!?AutNO|4?yZXD@8*W86cwr
zVQ@Gz<tUR`IG0%ka{{)nj^{?Xd0~zp%e0e?<Xcc8f2{>z$Rg_IgzLO)5cP9{s5^v0
zI&O}i(~oj<!XNYhGc62ZaMl*Wh#fc}jZZ~qQbtj_K1#DNj!t5rO+mI*Ln&b*G%jI>
z3lS+ik`hLyCx%moD5eBkoK{N8s1A07zQ9M9Ivw6%5Ic4FYEVockip<=?bZ<p?94KR
zN+L%PEO1Fr$sbfMcP<(q+FY+5x^*aFt5j^2D~<=Y_WLbwH7T7ZlQoTtCzg5@d*!cO
z1xpuWu7>636<0&d+`uNtulpXb1tDb)2I(7u!IU)^1R%j7hqyf${K|AFtiF*?qe+>N
zYgUqdf&2_TQt%@FBA^DiSGbRKMnj{Thu&=2`?PBbKyLn51O&|&3PJLvuY8bOgX$N!
zoZX*+zH;MlR=S5HOcJmp-O?~ojQFR)4xU5()O&V`d=`>q;ZHu8vK^k(b9=Z5e*=s1
zMYPCsGa6n77$ZtIr=;PiBx1i01G^!NjCQ|7+ZD^K%{M9g1}7&Z-{=TH2f>Ev2;~N#
z@!?pGN;jjv@z4a0efgm83IJAU!Z&$&40ZY@M|`y0e08(dIv+s`DI^8}ND6|3lc#_b
zos-o)b!vPnoN}cr3#KbenYHeuEEzbG5~xD?3<d-^iJf2xdIVexP?7+4dIh^_E2J?G
zS~rsXJYLeak4zz0;5Lk$xiDs`Sa;PWT%C%mGw$k+nY-65o~5=mOU=5&mvHP>9J}9h
zbiQ9ubN9#-J?HFF9GxE-Iale1PUmQT)ZDsyCf>Y1(R@s4J{D^_{?>sFgU)d-2jo04
zp-{}x`EkUCM*qTe)USWrZ#dd%qK;%PAsyT7!v|#H&m~UMk7;~{OlFSDH{VamY0oK^
zjy@%)b7#&G{g4?{jz#2O;Ux1;igw6~x3;m;oh3!U&Nl>Y4G%d)!;llyv0F5%;7sz2
zHS8><?SY{JsZc5!YulMaG`*79DVf|QQmJUprVo|PSo~J`JW6lb;Cdv~<8QMU!L!%`
zw8_8d<v2pQ@<Ztn-9O>)@jQ3CP{4-y=lUD`_xM39I=2kuBpSp?2gnqaWMD`sU0`>L
zAK!AOSq@zRrE_yiJ~CUCXSoM5ucy(Y2qDA&JNI`BT&(Kkk8ZwMyZn`v+C*KqQrEp!
z-SeZHe;=V$@^Wc8pT9C7PNCuG=ymA?I%pE5k<fHF%J9CF1Dj(SG>Q6t%b?KeVuSL}
zFg)6z<UO!x__kfz4B)8Z)Pb78kdA4qIVU$kxjEpp`LI~<Y8;p<T`<!E>d4?w*-FyK
z;~u=tvnTqvFV?ZC<i=>HZM!hNd3J(^ZO!q)OnbK*1O|U|Auw9pRv$f%xppRsI<3xm
zorQ~fv>e(<(KukN^t7n9!}+JQQlQn5z0YM@p;7%ujCaXzG~RlKj#QupLW{Ot7;lW|
z7l1j<^Yi*S{gyFw?i|AzEVHdA(Cs%=&cKfJ-_4({omlns&D(lIk7NHo8L1mPMoQzM
zsN+Il2ngWc(ph(rZE(LWWyx&+lpds5%DZLDgYz(aO%9>}(5bWM`YxU6zknEUJ38uR
zLfcY$Ks1Igr3?(Zr9A1J!E?`@8aOq0^vnfdWBTE6B&El3nzE@dFgkfnnn;-^<xwyl
zLSY7^GH9gyS=2mRpAYtJJL!K586!9FNelwwXtujvJ$&o1iZ!m;s()ekB<<dZ4tK&)
zA9vIz?XHBq>Vds##iQ8k-m_OFUEYMtr?`A8M<2KvlNHskANtmzrQ^xgz@HuZ-k~@3
ziQY3x@0ob(*`?#}6}D{Xxylwgnj1FkTuJ%8@jK&*;%23|c~yuPw=dc@1dFA2-Ba_P
zr}h`_A{_kQI&{h5e)a6Fvk7~RVy{`Tt=Zc^d?q~2aZhv7U663sK5*Brd{%Kcz2~k?
z78EB68kB;DRsKPNKk08v_>ZjlkG$qs)-S)1?AW)gf3LI+z1Z~(df{z}d77V8pf@o`
z{l`zdXf5Wc{rHJlee-`K-~YI#@d1jb`Tvc46%+7s+du*Tr$>wXI`r=d^@zXIV(l;B
z-sv>-9n`<G&rI=WnvwqFrlVZHN&jw>1rP6b82Wlm?{=Fge$db_n0~^Uko6}fL%-Yf
z6Fa5<q@ZQMt^divquhXC`m2K$Jp5EJ3^;5*wU{XG)+5uFgNaBoIuJH-KyzQiS-r@O
zfLZ*CnNDj^K)S(UyvSTczSQ7v^Em{6$b)vzyvj#vjpY(=>6{vjjsWMmrJDosHpi>v
z)(j^T5#iS}q(UYdPo~z9aFXJuC^&&2LOu5R7E~I_bVCMPQ<7)f^KAfa_XQ4Nb7JEh
z38b^%ql$JR04lIv(3B|HtrYA|6m%;E-D?GV-!G|Hz8EWMTX|k7X^XjO5f$!JNt$O-
z2CN$Dh)gIh!$rQVqQmkC5@stusUv?#Md(aJyB`TUOZ$eIbC)bSS>=QNa)xosB$SYe
zA_o~s1fooMW6F3297ph8Eg4>B%5o+&BguncVak%4eR>M8W|ZQ#^zOe7Rzb>oT%{nu
zyH$sl!72UdL^S0J2164QlTpUoh=A;~M6ZJRNcetAI72W^RI4N2FEFvIfJ@eN-QYo`
zoauO)oM7N6We3M1Iy$UoXXCP+bR^V~O?3p32#HpHmrJ^f?wRkH@44={R*Jq``km55
zZI@Epb^p>2U--cbiJk$aXCUS}xp4CR(kg}Uw|Ldbc<ITQQ1sB<v}8-Tn*bPM%_m~#
zFRi(sUpSR4D_=Of)D;)XlV#1zWv^GiRvj<%$AsdC26xinN*JmYL-k`_v7vWU&lzhd
z@N5Wp+}O<-y^nPULkXp+F?ISG!i&CUE)A#I{6Ddoa;XXtJPk=uWn_{;WicSln3JYI
zgldpxlFXTWLORWolV(V#StVO0AH(rc)}B+JDV@)elV(n*Idjr1=`>ePnl+u~&PlVS
z(>#(_5~Ko6nncnee33o<wlMEoNBV71-nUMA3%aIQbcy^M?hFl6k~g>KDY;9fGDy<)
zX67Oj86)ar+eLD%%;<TaQe%|_`C9t>3Z9au24hh^Mhuv3S5|6<(J9O+?aKK=pJc|{
zB6=&;N_80RVs%`pe|S@pep4?Al#)&@rBukz%3k4y8pQJ4QG#@_0#dU^u~n?Xy~%=n
z^iOOPtMS|{wlmpm3uJyi$uCw?jVMzK$=fcm4)wK)^$6R<288WmBYIShxfaAGl!lxT
z&n;4cSkB~tex!AXyO47?_;npJ(U*fMXAWDD`1rZc;;5W*F*!{p6VMt+G)6~ef>%S4
zt0~*W^mvc}4oJL|SIWpug4d*(k<qY}a!0yARSip#2qgta#Z)0uA`rQNJj}jG*^nwt
zh*OgU)y&~ZIRx-8ryOa4hsuLP*|fAJmzSF=&f)&%Fmg|T<`hW4B7X^Ankol-9g-`w
zt%`8eDnijHdTt~3M>wcT(=1m<(sHSkK_pH}$`%Cj7`YmfMM(^Rb*ReOQU>~@$d*Hy
zC_8p2|7QkKvixyi<aA(fyRy;?Z5Q3-<vK_;GW@K3lpJxx^VO!+A#&5m5zL(6$eo9_
zlS`1Eho>RivQ$}?S_8j5e=X<o_eDM)CA@@PV?|mldlxgDe0*)OmY$DOGDb3~ZCCy_
zHOdm-u0eL9gz}7g<Sf$jeS1;<bnps=Zv*2A5=p_Xi6P|7H>y-ao^;e;*jB^-oN+d4
zeSew%A3PeB+81Q+5fd;uE|?h)d_i^gtrm-zS*{FCKLdu3-!wRDXx#k;QJnqGxry+M
zk656@&}32o5)slaCg!NNqrnB8A>m2{{M1qGBQfB+6p^y8rJKXy=?IuKsO-j7X(A)N
zA)e})$>)yxLSkr&I7)3yhO@J!oD{$_-(>WvB;Oc~NP*e;^YY~NQS4#gWu$KJBuRv}
zmJRq$O^iSiOHJpzp)X>>pqw;n3Cv!!<%3un-Sb65*QAJVN|uHt5pYood|cd-?mA<(
zh68Hx$gEQp_hp{{)ujoIzYGd;GJGAZ=InT)rGW3KkBI=crPDa)<fMLTvaBiX%ONq(
z6>Jf>R0lGYx5~EM3ehxUbZ6$0D%%211Ae!>4+}<q2>}S^sGQQt5NAbz`T`TaORrw0
z;P>gh^?4F@G0_)Eyh!w)vO_#KLEP#|jG5d{c>|Q!gs&l4hJ2fn{wD<A<K=$bayi<L
zU~p<O5>=(@!P)AInPCG44P6BYWOCmB4V6BK9Sv+Av}?&yG*PlkDcSYL@wk2WhaB(d
z=hxlddzL$v<(8GcM8iI%VPD+c`<4)M_iY$Bi(}1PN&+)?!dCsjR=v{w-NS!$c->nG
z&bQ|nakvYd5UM$xTk<68_dclKyKeWYR5Iml{YZ~oA6dEj#_u+Nr}?`b-|4vDkm&4J
zI{V{wCl>qG>@`VOLBdt{z*UFHtMk7<pY*r?S=INdR$Z}uXJbu+OTv5Z`lP2Q;c0l_
zX~4^b|B&K86l*#B=9gkkXV~jU#l8)lP}I4pH<oxefGm4Ia(_aL52?kL2d<W6%P#6d
zBkRJh2d-VoU2Thf@7bF{SGikN#JUM1ng19BHxGz)?lGtVx_SNzH?PA{#$V^;B1rV;
z?wQl&6C`DiAut8ioJElR{e~qVV?^FhB51*?^QT#L!n|QlnA2V7Bm8X}VtN*H&k19h
zBN-o?zC=O$8kxUcH)mMjZ#T{v!0Ka!!0lFno7005Hw?1<khAjnpkI*be1<j;2;d1Z
zWf+Z0P(87N^pc~I8>7*yej{7oU?YWY1f#<Mq)_^?U4}l(wJ>xJBr#>uQu%8s{(6MY
zJYp<q5=vKeGK=hhi#6-pu^+bOuw%9&-$FIm5k9V@YWd>b@S-hQT)Jp`XscNMEycDg
z*73|+2bGS&q`f3zuU72Uv6_xG`)=*^>g=1JS2|8^f9ow=G$jjb5`~RQVdKvWn{V|k
z9$oy(L$_zS;(@y%Sy;6Exd(*}$<ngd?XTHaF1%OjN7|jU538z|Ow0TqST|f;QOkxm
zOKqo|*>8ayeJc`12pB`cNbZt<^<79aEO_}1<dI)TkPAr42>}H3njVg(1!U|jBYE&_
zYqn(#sysC_)Hk^Zc=s64bywB07<bjj%=K*34CkUHnI02!22z*25^=Ei`_R`?9M8FB
zQG%|BEh}Wr?w6N&c1-IB<q-1BzI*}@JLF5FvOb3OZU^yrJ2@Q|A&SIFEJ~DJ)pj6d
zt56gN0tAtedHTYm*Cbza<L+*;nPj0j)YTj$CZz?;PD42~agAXFI2l>9P>U*zGPum7
zL!>DdjL_(^!{M9gB{(z$*i$Z&9<lcrUqJ6IlB0?=6+#VVD^fGgw(XdrPsrU(bJT+d
zA@DSF_KJk9L$P(-uYF+adb2Na=*)vdXVO4DkOR~8+~Ko)%+~b@b9otcK5Z^vs?R@*
zFBNA=g1itXqYOm?YBsmJ!PzgJQANC%D>kJNJ`>K89R+nhpbsz+9i3%_4=^>~^)qMA
z`bHzZX;M)ki8i4?gr9{$&@u5gX{AI0;A-1*%c{_f;6%!lKCZPnv!@BEofB4?I|aG9
zX8qZIrZ?2nvOYso)y1YNX)8(C8WdYY%(naf#YE3ZrRQX<=OPZ)R|jtmZs>T=zF+J0
zIDGZo-b<LM-E5*#E_LZ;cJr29NC263;^qhfnz;oxW(jR>zcfZD)S4(iyO2}R;@SHM
zPfXH$!a9|4s<KT5`A<<q)wX+yVqZs)9#Z*D#B-NE%QjoNW6*LG0#DF5b)p=!Ol;*b
zTV1lcE>V40sXiR9erEC9BUkxyccLPo;J@qq{f<QEIR*b+=VRvc>Uz%oW{R^>DMy4P
z!udo?S$IlJ(jD+rAVPVzXh)wZ`3!ZIC?<3k*v;&%*_gR(XE!pFLyX^Cpq@Jg+HtJi
zwQlKB`mi)1lT>s^-%P<E-a&h(bVv8nZ_ZH<Nm5Br-208a%MEuA#a+Ib*|)QsG*WD|
z+O~Bw|9;=uQ2~g6EPo?kPod~TFVWSqJY7{^J(t_pf~CHDXYQPdyJ}<RT6F_Z_2XMs
zJ*`^S<BP1vko14znup$%EoaCx@Cbw}O%c21u;w*pgf<0w`Cs8(%KWS}qhkCfNa2Y4
zqOJ3H@H%&$gX<DR7V0m)c;|Z0d3%XIx*6qZy}Op8_h#<Q+y%B$x9-JCzZ;0zee15`
zrReg-xT`K^u2Y9XkJTq1M5$r=eC^7tvloy;K;Xa6a6lrRZiN81CM}^Mk>5p-GC{b=
zMnlgIKl!KhhB}v)n51=fFeb?O31gCZJ49nbh&hdkb4k26dS~?RHN{r@2xHQ9w>@UB
zSvR|ugr(u-p7+wLgRKh<x5%su(hB<THxSyoc*-z<4VSwpXc)FH3S{|&0m!`lG7UgO
zo&lgmv1I_>Gnca!ft5%D#!y1w=Rcr0F|k-GH0|WSpa%j3YKl6Gd$x&v)YEa9a?Mci
zG6lbbASGO$oD9pa(DUz7aFc@Hqu^^4EK+cb0-}!D86fvk%t}Fq?v+jS_$mcU6wtPn
zzd`{qa8kyzOaoB9Ln&?w{(u68UD+r$jUZ(K17j9g7$n*&lt?F<dI<dsiv5rRg30Qc
z#Fpv5p~tr=_$vzjJq7=ff@dk9Q(09jq#<X#<$sDuqyo$7ce#hPjSGWI$Cn%KoQ?~P
z$*oWI%?sz2E-v@o`FvbxPS(^fJiAo5EZnJx3-vg+@KmrAy;B|+>XMBl|ABy5e9amc
z{K@*}m{5rI+jnP-N;bE~gwo~u72&mAaiMiv(TbXdlZ(SkeYcRcCfV8n*-|%Zy0C1%
zb7ZAYDQJlc9m&qUR71mZWaaqs&DR2}-AZ{!T-clJ?u`lM%Y7>aE5j?LuMMtVR4Vtx
zh2Hmj55LtDd+zzQ-p|E^>J?$-!fO4>3*T|xFI0Rzap80C@9ufC=VuLTyU)=lElKyT
z-nn{j^3J5<X<98*JneDe-248({r<PQ*Ze0JPQ_d`D-DXPDK4CRzp3?p(Obe=Q~yH$
zV%Jj9y^1>(P!3&=Dz^H#&<_#XO3(eqwbEXy7(Gckik771<0}QrCsDlvRWv1S1xu%v
zhwlusBJ~@(c7yrDFY(QW_KoNGdPB)d;mYu8*UHuJRBv*4+&s<mhK3EJ#o&Bc=HD>j
z4uQVaxoJXdv)Ev8K6VO*&+@CivF<*lwSSYNrw{GCq5MN5Z>XgJDgb&z{fd5r!);Z+
zNw*EFV5nP;fDvM-TkT@E``uKyZqu$eRH*BQmdqCZ0l}bp{B3q4(3Gyeh}BH8?J=Zn
zztUQ0UQG*4-I~1Ihm6?PpT{l5kK{rU`HM(n!3Y705<IE8WxmtOo>QwwS3KV>{*z)v
z(`seKrTj4RWG?Nn+oWawkCq)~WsIuq&>)#1-!Vc`W09<)2{J>oWP?1%@`^xPlrBgO
z9imlo=Ht<dW|8c~Y&p5zkoDLZNXz9y5Y$O|q8a{JTHvt-F)$(zomrb+gmeIW5-JQ9
z3P2^(cGAu3a}We>PB*8|o_(Y!h?)e{yX^u8np$HQa^%rqgUYxY(gFg9?8?VyM=hDU
zQA>uWt(D=(Ze(jM1SGdzsD+>`yHE=q0^6<~wG?j4fJf9~(Ngn&QT`t0Z&BpGMQp5$
ztVFAseGyZo{}Yn>5R7LR@|J4x>>a6u$8Woknnx}m>R5|;WC5D;K5H=}5dfx?r*8R6
z(ORv!{H-%0iOct8L?rc)iGVOxuho&gYdd1z5N*^_$C|WQ_C9CO(Cm5RoDsdu^F^Zm
z5DIM9I3xmlyY`)?Wd{v2sJCoAxsmV+s!3V1l2G-i|2b0qh4LTcCjUDMUZQMf5|IX>
z2hOTV3DU%MSf5?!3LZUvy#K<5;IsWN22b@d#2{6O<O}`BpX<Mv^Om6tDHmS#5B8lu
zcWUrr@X~W<RMdewqGA^e*&voVJIzx9$!nQ;89D%?7LsE6O)A>CM!CL6!9PO)#yvA-
zW7ufQBW4WcRK?y1Ga67?j%oaqNE9;U3(l5gNfctxf%UGwm?CIP3}N7<g^h{AR;94@
z=Y{PmM{wN^l4ZGe`LplYYe2ad1s<0A6Q#XMY44(N+wss|m9PgCd*Fe6;LpJ!A5c06
zkc$}cRbbsXsuT83#oqbAe(ul3#NKnt-gD`<wK&Qu+Y=SNN=5I3it~R7w$6Fw(D_Ay
zIQT}cwlm>7rudE}8+sBAr<I1&$%-~L^J9~t+DckJwFwt!<-h}1_x-vJ3lgbp`Gz}F
zZL+*IQGP@zKayLvSu49waqWBHI{aoQ$~LpI^&3tmIjDO8D#cToL<{b2#ohf_ulG71
zdW#d@2F2U(p#e|mp|><yTzT)>oojc;m-Oom-HC?7O2gqdhvN;$V$h{KbaqKdxLXxB
zwCxr5{wEG9#ZjQ=?DbD{+T+KJ&VKhuPyb>4PYxSS7)>c7Ge(jbLc8S%&Ora)##}M7
zANTDStdn(b=rxp{9nKjTp3N%?S*Dg~c*B@I4FC`F<u~CRv%F#b)O@y_dhMd)4d?d-
zwN+^S=C9c$+OyVYqWcZcr<U+;X`|pbXrpjTiK5@2L=MwWw2LKMO2E3sUz*FC@Et#M
z$_Gv~vmJ}fdb5YPZ<1NDMnb=ZsZwoxBgB&>3l#8AA-*F)CK$1orK_Rqqj*80T0G}e
zkyWLD43i09$$TWJa&`~rWCY(ZBg0iQ(*9<~vD6IgTfkjZ4Q<<e61cRe@A_znwMSpT
z>XxS`NZ7{`88`AAgds;yf%go#D@jdBya;Zf%D>!dd^ZJ+HgKB3d2VlK{KR%<G$*$+
zHIH`nn@J=}MmXAV`K~~;JVAxB;7MgVsvXK!s<J56D$|-H=_*H29)pG_RYHI!Xpl3X
z8z4hqjN`C8%I0I%-QJ!ZxOPm#?8Wmi9;IGr(o=j0YcM?(k$~?wMi4CZ5Jclpe)Q2v
z;Ukk%CV|DflNT?ZZ@J*754_OjyY$?t0PtL*1!21?g{Nj6?d>WXwVf&IK(I6^OF@V<
zq}e|?HR6+)j9CQpAD==wAgsn}kV3<nU>su}4pSFcHIUT%LRVn-4co|^BCJ-D6|h9s
zNwO*;({xCwCwvg+OKcD_wZV3rrVVydp$X^<s0%RN0ddj?T}H5=VQ-Glfp84=8j}<9
zBYf6uVS9V_RBgwZMXe3aMlRw5GNVId8uDF+qP0Aured0+=r&uE+6xq>j4;t+GnYNr
za)v!yr8>eBQuM~8d`%r`y-Ia|3H?$#htY;6RC`(zYW8ojrlRs>IO4lHd4mkU&>qvv
zq@{>S4U;)BTf0<(mQvcP9a;~nY5_hfGC3_{2T(@>zCP7lh1m69CPT9?w_(AKVzSsQ
zi8GLmkCG|a43?BSL+H<C>>P}6x>vr-AsTrw{%Hb3*F&SK9UCbbP)n*&thx+IA`|dk
zyo%<opm-GZLLP)zgp?X2nZX0nY5>N=MuAqIIuzda_DEN|s@g@<)IKWCewijoP4dy;
z(|(~&VC7z(9=;|;)q#hSFOwtDCup!@J2r%sdwo=%oFFrQs4PI23zCb#Y%yz9)ho+s
zeD)f(tS0~CJFo-qdP*m-3h?Qg8r$p_scr4)ANb9=_+0+hAeHfkM3Ibu*-;R@B2P|F
zrR=$BGGjv#p9#R>SGc7NELScetd<xKk5WyM*@`S+JW6;QRj0kYi*qFc*Eqo4pw!?g
zNx1!r+n==iU=HA^-7s;UU7MWKV_h_C_&AF*VJ=t9<w<+>x~C8l8E*@6SSmi^3@|jd
z=e(~-7Suoy!h4iYXD}jzGbaNuq{3t&ObU7LNqz$glBi^Ro(g1O?dZL*YgY4^QI9vL
z9$&Veo~KmPkj--VDOoDAS-NwwxH)(6qC;h9kkb1WTAFxigz0SlHG*8}MLtn()^4?r
zdsR2AyMnsD2ugNd2la?FhJ$J{*B#w$w*V!Fc^%owiX?K<t0hONBq+OiT~?zI9BrM3
zu|dhfJ*UgDn9X^2S9iNwK>2wcQDH=bUBDC1Qf}nLU}(TtfUu#qWn7X-5mngIhfbzU
z0Pn=qm4AXKzd<Gjj!Z)Y3u`2&3=~FGK^L)A7)7C42sjvlqOHGNDF9oXTi$*^t8)V7
z7q~~wor&iCO7s3V>(`o(#NE#*%}17_OYnqnw=C9tWYG|FKl6Th)niUqVST^nK-~G<
z4=$}<{L3qEi9hRm@5pBtqu==4^2L?zcu|YuYPo+&aX$B0kF1L>;NtF@n7R7zKeTY3
z&+vc$pPkP|h<~tLaI{MJm!6|__P0$ggnrL&!WAYi3}cnb4=F|#CNk0N@_(gZj)MIN
zQkFqzKEVwOG@>>raT~|=4N9Yc7&H;$41Ws8bt@lrL#Q<j^08e9HaUuHKzeBOZs-Ph
zLvgGMEIStI9sH0*m`=U=a^pE2>D)upzGfw@?7zX`A=Z2HL%K7Sd{V@(Q8xwkFlAup
z%N9z5Ry5li#HfB6rJ>RK`RE1h9e7Zn{uvdLXP4v?!m1XN*acPDJ&>zBLF`2Mn2?X5
zXS4rJJxWyVVH~9DNtwnkp!>&|X~3e?^OevbXxfp}fi|3-(B6UEouRtWp@>Y5Ygl*0
z2gf23!+RLADMDuuqFgx)cM|6zhzE`WpCZH8a9)z~1x}Q#QLTnPsXbBc&a+54L!;DU
zX*6p)w%O*3Oap}gf;<|H_;N-30qkbdMT$zQ-jR{{rHIH!F%T;5^G(EXsC<Z9%9#Fk
zV%uukM^!=A?X>z#1p0h%eFJ-Qbx7nV$ojw0a;2dKE5KWl@YX5by12I?;cZpCtv~m+
z!$XP9qZ+wYDYmMW;<&AusbUD8MyRoodY#eXd~Dzf0&InCSyjZpW2@>Idi80mst=x+
zzG$Phlf${>vvgbzyetA`Nwo2{D<8j7<Vjy2`K{YB<MA4Lg>`o*O4>o}%EznBUlytP
zc$WG5m4|ovlrPA`!F)sa{q#<vvxijf{$bx<&W#acecSbvTJmr!HNG9_d8qyU!`c@0
zXuV=v(|FAK6MA~BK{~J51rJ@Y)t%A%h1nO+PKq#mP_>XH%_SA|ePP9g?XS`kmq$sB
zRRacAI?9M7A%ve{fN2$AXfcx>GP4bh1elHL_jIbHj<(pK-<dLDSHqP@L{+FIwr|RK
zLmItuH3~OGS3@vMs3hZyOh+O?Kn-HdK|D-E6Nv;<2G#qCBa;i;c|6-r$}l`RH4}ty
z8W3#cMl2i-0;6Y}+Aw@|6i&sg6Vi>K+U{0SbP4P}h)jU#EUYRr4Mb!Ew)Ka!wUg)p
z^CICbxmR_k>R!#F;gP*~X?m@?`#pOP*^All*c0wL#a*|uM{zf<8WJt1m6p?S_vuGv
z)vs5)R)IVTcc<d+WRZFWTCT+v_riC=iQ*QexFuOqd2jB{oT|3_k;PE%Ts#fT(oqsC
z2`m@AUin&OqO4UZYh696ltBrgBVq4R>^=9TABKMrPV5~}_71Gsp{s~4snz(E67r1%
zv%!*_?4dP#Z_>AGvH#UGx6b_BUiG+w^QzhuGO<fx5R>&}wgu_SfS}zN4F-acefzbb
zJIyiUitR7(j7^tU*KbajHAFy;JcpfHYZmF#jz}`E&mMJfq{U;46WGS3x**7>Cp*W3
z$%k*CYp45_ohcV~FwH0Qs%iF42Ky(l*Dr#R;!sbK;mPqS(7}FQHliQEA(?oa5C&BU
z{yfD9fMNC0q_Au$D?1n&U9)xV7BOCQmMNoZ<jYpnZ6Lt>JE(%KTyUIiO^U54X6uXz
zod}bjx`d|<?z0w7CrerqB>|-*uyA@!C`{Ta6Sfw`))KRI$AoT#k1S>HSt{15y6=BJ
zcK+het1cy7zJ#kyakaf!5p%W0UH!0|u6~}6Rb5J0DiljaqUsXjALBuN{+OvRye&A7
z+4XOGy+`*M-fpl^e4pVMXL<XO3GsLAhGRvhEz6E1XYAyAh!D%}6XkZG3@9(VkTcIx
z(k4Dqnq5x$bHc`j|8~an0u+KW(l2fKK{AL_R=x5`?=ty>XjZC}w^t+JJd65K&@1`Q
z!nEAT5G~MJn=_1%=s3?A7tNed`Q&9<kK|f#u`|-GeA2Qpvaa5CX{Eo(eOou-6Ad{v
z__k%m<EPai8oxypVBOA=>F<SfYb+xP%jU|`li2*f+4z&UUHsEP!%klu(PpjwuNuc%
zw0QQet(tlBS50%mEHI#XOSTO9nWxO0Wfr~5l(gnqKQ@$X&9<V&v~kAwwP|T%9a=1V
z7fo~KxpaT#tQv0fsin-2V5foPr{=ZH*>dvk(c0cJ2c#^+uH4i)?#tynrH!}$b$(wT
zx8GLN{no+RW#S4F<8-GD4`Ww8g^mEvm<kS0!XM`_IB=)Hc_r6(X=Xh$#bn4!ngz{V
z9TEvc97)E8h7^G~)EBzi7(1GH(ZrU%;8Wco2H<TCc9k#zx;!h~oSHr`YZ#suLkHx)
z$H&js^kw`P0uyQk4Km?t+#To~fn`@?q$4t0a#k9j1RIxm%LF4DOhf4aUd<M7c@Y|c
zP9&xKE95^##monys)R)}id>5T9<fHprIejGm#W_n=vdNzRYj%D;Uzmv2o|J_u=YfE
zRSZgx7|i6;PD?c}a`YX{3Mu7g@)20APNsdY$v&#X8--DRSo5x>`u{WxhbKXTeT&}1
zFcsfJR1m|LQpMZMY~kQbz6KYjc7}|pXWE-o(5emu`4I&kNY*0qf1-4IuH+`ACz}!&
zfKVS;<K&byWfrI5RTju$%1XE**rJojW?>^p6*BQ4<G!Q=l?hXsQ+2L61Up^jS{#}l
zIyC<+BJ9w_xmbKmDLxi2?prvwZflOU>`%0uR9a51*-ouHOW85lp}0C?&fSnw?rA~b
z@Neo3<b)8s!H?{mx8`om!s&IGR@ti*dsW<Cv(W#@T#zIIaGPRp12@KEO?K_uVE2Qk
z69->V4!-aqJw0?3tP|7GyP-GX$y=ZB`W3JLk*g-*YJzsvnv0y96qkRi@pb=e{zQ4F
zQr;Oa?~axAC<S{T7L<Og==Ji~$`fUsN?B*TtUFfP6Z7nSY(rhZEM3(JXSd?){?I|s
zPR?2W&|H`>H!9}F6=}`fw(j&MoHdHGChn|V)ITXgt|umR>Z59|q+#VuqT#sGaGVVb
z+_5ZOy7gNNC)YjI%X5jEBTCJYw@Q_oQ*qB}e7U>ot_wa81b0FxR)pd;p>$oae(l+p
zo=uwltIxc7{H?|xJ^QorkMuf&5w>dv8@-CT{i_GoguUsUF?Y+Ve@*CqB-E}nt_dyc
zLdA0b8no!l4#nK?q>H|QL+~-{Av{4M8lltU?ITBf2O9K0-rF=#YIwKOjQCGW4Fk27
zpH`VD-e4GLH!*JA7J{3I;(GjT7GfQ!I$KdZs#iX?%@#r|FBS_{PF_b>Kw2`W1#;ve
zubE1T%DB{LN$fejs*nH2Y2+bCy(EKfXg$t4rR~Q-_*+1d;FL=Ddj<nA=<SE&ZwoWr
zKJK=2J1$G<TU-)_92lD{+#_Ima{3DV0$n))=AOz?0w7eOIZ1QJL12lDa3nB8`O|hA
zFxu2uPGrnLWdKiLYf2EC^3whI`AZP2Ku!sx*Icttst0EUnSZc74A9Hm4zh+uLWq;W
zF4Y0330dR?3EV1@W!wzG_D70zFr(T?)-$c@%$d~%AGKOO90Mc*WwmOoCu%y|Fi78{
z7;rdEnws{T8Dy0IB@!5DRbexO(l1dOgVKMD7|?$P3ZamqRSRfF(hIc+gNFng;dFT$
zKe-|Y=T8&0OsAfFZOcuVoFf|g&y)exy*2m}3`z`^=8yCygAoFSvX(^Y5vBA9e3v8(
z>l1~0l)^m=XV)F2%QcCzeG2|NPQ7^;0UWSeDwa<umJ_k2eF)zRU&)|f0Py?5}=
z!MleOW-=lG6<{6Ue`R)%wo2{aWgh>Z$ZmY>%SQ{3nfbSi3y&VuzrBk;y5IPAt3dG%
zE2Zz}DSps!%wT$lGb3fop3G37G$fzK1j}W9<>>O~WxJ&9T8PxxcF~?nzs<8RvGcI^
zMw#0nM%`u@E!k@1;wXe2>NV!kV%dAH>wp=ZNY<L9Bw+}VEw7bME@rk(B4%2&=@m|%
zII|1ScX>u-tI~R;T<OI?Yn4@z&YW2;WEe#Ua=^-7ll0*Li&1--Tyk2E@&H7q(oPkF
zw8zgh%Q)S1rj~6rK~I48Fm*1o%F|5ebSIu;9=CJ)LHgxr8Z!P*{P;HC2}oLDsE@i;
z(|Fd0lqDRRodG*1Bwn2Ti!|>UXeI4^u%5vOV$$Ud|2sRHX{k0`SA*xA7DF=?4jJ$W
za4IJ!Sk9#N5M{jZZ8*<iwdce_M@tj1oR37993OZkn?<Ocq@8!5-YJ<hSl9>=7JD@`
zaRqYVlEAh~HAKoHGvtr~kt|I4I+m3RY<`Dggqkq`q_GhQ&d3#5S6lf9USNpZ+JV=4
zj)O#mi_D@7@Ssv|D;`wPxNa_3I+rNyRPf(?@&06D?*#?_%@-f*g+k*)Ygxj&Te0qb
zY`_x)O$8+%nh;w!16ixNEMaPSU}{-6J70C)aza|_IK{(m9A~(dbA$QNuxeKs4~!EI
zxBjFzBdUB2<{o$pi-1l~oM_zUZ==Jx;z&5>Mv8iAWDE#@f}-q#dtHJl?1GICKAEoV
zu5`1fbH1}#Bi5kUsmnQ=LCWI?OZ0!l!!0WH4Ht;5%(<M8%+I=cgy;v=lAFbRP7bve
z!Ei5(7O8cEF|W_3aw;0M?<U35C~@%F1w11|{%dLM%Z;c9BG&B}NPb`&B2?MHq{yps
znqgA-w6gh>Tt!R%`n6tyiEYSB^b2Dd5?!l5i_>T`w-cAyj@#V+=K?t-V*j#j<{?z8
zo<gYp$NcFUW<&(+@g1u*<G3P3*2h~g2q~?NMU3tdC<uXEB-%H{!)fxYuq!YXoptOA
zL_#C*J4-*>5ScaX3P2-h*0d`y4D}{y*0n2eWt3T4jb5GxjzFcxMd%w@n64GMEJ?XW
zuS}4_6jZK&4NXL3!rW4PhfFr|AM0;iZk;XooD5Dop;GCd5Di+Wvg?;I<T4{aFCvyQ
zlhHJh%_;9i#K16@XZl8o>;{1=lL&~px_}kfFl=zqya@n?<rm1Tlexf9>D8AhZyyB=
zbTNQcLR~Z5KyM^@9k1XyfWfU@ly1aN5KxV9Jg<(I{D4XmLJ%R8olYH1W>=O0uiM91
z-jBK_2)g+YVGc9w#j)b%HwxBl?V#zPn&B!~FDQwX`r`$=V&2x(JsW!70gGupQFVHd
zKvvG`O;{QfOT(I_X|-wHTn2IuYONpYOjXWbn{3EZ%9T~TZhg(VviIkuyB1F-3n~%?
z^-4kgT0vvdUHZsfxb(ukFW&j$O5YktozJejE0QHmiIN_rq$gIq_kQS2^S^cc$Z`Lx
zvBCjBRFC&zS@nhicfeBQEACQ?y8uz~Z03q9AGwR~+3wh4m3!{@{_yY*4zIb7CXob*
z#PVlffBv=Szxl$NyXlDw*@2LGc7eEhY~jjU;f2!L9J4e%X`qTY1RrbfKYmiLzWX?G
z7z6vSkGlK1^zS%2`<hMfJad%mtFZj|88aT<HCgfE-3mirgX3MFiBg&keY<V%wwWls
z%g}eolr=TmVw{+P+y92aZNL@G#`X&^It@R;QWUno<vz{1)E39oOkFp9B4l?z7^$|M
z^=eRdUN5R%{qx{<H~D$POM9|Vea;}7w0Z$=iGi61<IB{%gDsh5@P5_whFODZP*&0B
zWA)CP(epe86tY{ih}JNEKy2OucnbHHa~7@5S!|MdbCmD~cFmaq)or33P+gzTkRT1!
ztvN;yR+Mne2`Isj)oJx)?^I&mHfPHV#WU<s^vm{15Pc^kkNUMX;E_Z(wo7};-nEhc
zRHmjgnq_2WMmbx04*2(W+V}Qf=ZE{Z&#38s*PvXA)eDhM2t8sd7Kk53ocwb;Wa%r@
zfRGWWwZU3}pfBG3lycH?M2>102W$K_h8<?zK#<c32B>9{yvbyIF<XCOnz^AHnO2n~
zGia<z9{`U8^e#(zW$6leS7DM=)pxmSS7|w~`7&3HE&ng-3PUM>k77O45CLEHcXVE&
z*j)rEH{po^I1+{v4LWT^8NbYywyXR)<*KIOHf6Ol5U#Niizyp{U76sxikcFnXF7db
z_=0~yHK-JERzo&zqLDJCHDy(>PXmZwDVmN>O-I=QqxObT%+?I_m!HB2%(&l^atMC8
zADz03Nr{|B1c<MdGguQsr6N=&&AxTB^;P>V`!_D#`@)?stTe1%Un|=C7FcCxJ~HS*
zOk1}i$q!2_iKs4UNEGZ-3iid!`xZ?xQy+fRWT|<%d(8po#Yu0$y{0=&cUu;Z1MoU)
zA62&9FIcPWfzyD8-r9tBx8mKs@NCjlnlLpyFg1K&KK`({R%tjEZ|GBs`xb4FEQLvP
z0T_r@W3n7ZCUmdwOw@lyss9WZh*sl6i)+285e!6}A;s2*B`r8Zimf<9AiZPEzsDv#
zFB0NyDM*-W6m!jrVa?o>G<y@~QpH>f!;mKhsOY0&&QQHPxjL8VIIDD=T@wZ$sXV-x
zyXVg%Zyt>A8(0%g;%9ai&OF(JFNryPA3rHXLGa?N#*ZVVn5(z_9=H+yvGYKGfj;dn
zxWLd~X-e57_8V3z*Mkt#l$%`XgS{(hz8ANg9E7zqj32=5(>Vd8=#e=?P%?c1;^jF{
zG^h&*#pm-`f>L?-1UaR2aug-=a0_r+2rrFfX@q<#G8&wQ5m@HrpkIYSjb5$a**jA6
zhyanA=Tv~qJ5BebPo@klkW-%_A61b3HgG%eFAFI}0Y5g0AE=x+VYEzRwb`1q7(`9j
zMs(q{GUufTj1Xh-`A!RMEJk^pg#;#X!OouF0h{~MFxWEtXP5BPVWUx|56@VBnhP1`
z4lmaMA9xB;Xq&@s;bO*YRAq*ongFJ)s<V*20Q=>Wh(u~?QF7zQ6xuaQk2GI}A^dP2
z2c>eV*Gf1jsh0yAXS!(kEjpiSJi>UB^aDx(mT8cIblBn(9=^@`PCFSa8B>f@Q3N8Y
ztjr=!5HoQKj+0XuAAdorP;D9hN9kwb(kvX+2A+Y|e}QbOHvk6eiP*!>one3`$5o{K
zYm{M;f?E{qrLHkZTgHI@^*sT#>HsN<s8RV8GNs&1ft7I*z!ZXw4mo6o%OmzP6+wAw
zm>K5d$JwBh$*Dr10V?O%+SOz9_9z7e$knQiYL*D0j5NCJQsp^m|4XF1!<uF%piG`a
z{*u7>|A7(!<Aq$2FHzX76n4i8_b!}G3PlMapa_B0`9#MlrQ_6^aGIs<QG`AB+f^Sj
zYr^@*X3kQUB(uFkO6j4P<Iv*gV)j#j(uvA0rLrr|AT@ZUNqa%kQ=F^{B&wcKs-8*0
z2(NZPsU2WNdz8|iU)zjMlDRkw0gFlXCRVm9Q5JwE&zimCi3=}(?d1&J4;{q`N3-H+
zUUkGBdlyb51spzQicpp`*CgHbvBtfL#uG~8iFo75nCsMrfisl<8iwh{CuLMUhd{N8
zd#9}Oc(4A)y@o#CM1&x8n#kN{3)_U~B?d&H7!4pwtjsW&7`W@h{5b5M*)J98vr^r8
zLBtPT%^T*8S++?&U^tg?BnL*uL2P{!fP)RKZM(pnz%0=vn*rpE#A=!|Q3$tn`Ae9d
zTEaMI07ImA&WI4K(+M7y*@m%<J|eZEUSbC2lPiHpW|*_udyp9!(3?%mvAQ)+bUmeJ
zOQv_lS)w2>;Ld#cym`W&W#Widw37yP&^XEHa?E8ssseahvTU5Zb!U1pZ-rI~{%JL`
zBQ1{(p$2H@Z8?MipN|{>Ys~g-9S8u}CxQU5jrp=8q{Y%CgJsT=58UVUy+JFHy?@oJ
zjbJ|FKy+$vwL8d!onJ^O=(Y>}c70nnZ_oKY`)~FYIb=t6Tpe?ce0m#mnU#f+c8s-e
z>jWOPk>1(wXh6$7mLX2G6li(6qggGByfdSXNOrDgblVR~Xn*ogA!EMvlyr@}@r3Z(
z&#E{A4sN%|>OgB`P;Fmmi&tA1%|#+G=Rtl=-J94z5i5c32??%bvjV=YB~`;RUk=}^
z9kLAY<I`qv<VjCt)udHWRo-weqm21~3;E~=4AUl~xn(uSyXo^WK-toQhzlB5p1Q4C
ztTA;Cde|WwN&C4asU>mRSeMwzO}`seMns*~!O&%RzXi#}0C5VZp7ugLu<%>iT*|4X
zspsdcJ@<oV1;+R*yfhJ+o&wj6JQLDzGA)wAj;%%62W6?oS;KU6q`g<Zhcz|Z@-*U+
zc_d~tM3M+lkmc}Xo@G6%-qQngngrM{ugaIu=`^p8ym(>&<Uc_RDKjuA=Jr$7I>7-%
zR=3146ez0l5*d-%gX}8d$;22h)8p4EAhZJ>%csYu@S}ww1nC#uXlJL~DqWdX=a(66
znc*F(6s1$XKz&=Is$QfR>+0`Q1vYgO)p?+wrU0g*J_xLfCiQ)U(U>Wtnn9&VRafqi
zWy$o*Z4o*<7$%YlRFtGRvrJTV;`G$WS5b&usYm`3A`9H6n=_RB7h(UeTrI0*aaY&E
z$%nqWm_SZ~S|7nzul0^~x%cPphD8B>z+Qdk)-%h`tl3(V<#j6;((Zf~pH07sRkW_z
z+P1z**^2*{gYVlt8xGFX2;+WpLBdp_m@1YB*G#QRZ&kuuuaH7XyW(wMy%zT#xMfOO
z3KNzp#Zt9AvSw*qho<wcJG+)YANTrinI1VyV`UxpE8@<>G4tU^7RTbXHB0$&Xx&pp
zKgqhh=WgYqk;J_f#G%Ypnjs>U^hsM4TWieP7Hj)V%zPB|D5z717xXA-L?dS_Pgt83
zYcqJ7cs6rZTheTK)pX1B4S@~B-nhF?wa{B_j=MY8%w11xl+($9zV>!1-p-h(E7k?S
zL#LsJVgYkiu{^udAG18W8cejGR@zTLusr*-uYed{3BeL-(aI>?dc|D7G5}qdE%dI5
zv!3C>;#D<KlIG5Jvn{4+>%`6Nzb0z`Nh3a0v6O%O#7h0(5PbZ^O(oH$s_gpXqT+#F
z`gdEp2lnaz%GQ2Tum9;T!$7y`r~3>iIn&SdhLd(v+PBX|{}-5blsr!>_BsXsjRLkm
z=p>QJ`>IUHk?cf_emhY`t)UPR2wfhQ36+z9$w38+0>bW8=UPOrf^j}Wzql<E0<F5>
zvQdnfn)CxuSEQTrYn1R6N^o6O)i@xKkb+mIFRMI#TJ5Py_A4;z_74QrAN>X3Q-4)k
zCizy%j^8Dih!D7jB>{8Vm9j9(fgFO!Ny@^M%;^`NvGr6JWJKM{1r!iPo6ewm(UwWZ
zmFi+usH`#VmxTkWwL;)J{k%4|aN5CYMtff-IymKICAA;ej>t?aPNikk-;ai_1<FRG
zpbFH8Q;{lRh1B<>B;$yt-xArJDoTG3QCI;KProD1g<MYoVOc8gjEQI&;K~vzasd1@
z{HQj5`C4^i;?4jJISpBTR6#8TbqG>6{9Y#dp!yng<6E?!0S_{pLwJ3}i5LvZXQ%`N
zh07HCYYI9kARfN@8>!Dz>^ud8fH4PZs)NQDJ^mpDZ&2{RQjk&UW7_0QJ1%9s$S7u}
zV8Z0Y0P4gLWZXSspE2T#0lRIseJS%HOd!laj>zPP1OK^58`dp^D?Gnx=6LrnIL|LQ
zFZ*x%1!wsM=lTVQMB6X9o?mjkajy55-2OPX|8FRd{R6K31FrA`?!X6}|G#jhzvNzs
zb1!_r)qlV}{{h$f0e9#FuIE>J_Xoo64WWQP$3KDfo^cb#e8ykfIm4b`3g;E!{D<XM
zn{L7MxRkRNExi!8R4)J;3A_jX#QMH7hHcGz?q7t9FW&Q^)69E6DmL+rv7)ArINUdi
zIdAc%-oaa+_*(dq#~gx<=Rr2vKGOB+`HH3A-sI@MsYlWVOL{yA=Pk90@AMCfVOhAg
z=TzKxI$m))#<|zH()Y{iV)b2#`h!aS!FbsrmRJnfsIxuM-Q@Y24Y+&a$r6!jV+q&w
z7T&q){j;*~m2Gf{-j8n5ZKKr9x2|-4cmH?xZ*qukG+Fo)e6j>?&RJydXVl0;gXwE8
zzVzazfl@b0ckzu$o8#5}xAt%7DehPA4-J-01D-dAcn|MP7Bz0@aeruVE>169SZ;j1
z?X@<Hh~jEqEnJPpTwRKxd((g%8!csgPi)tr4G#CW3ODJt(ObtiCyVMg^mOk%_@?+)
z*N;Yj<oa2I(mTi!S!;N?ahh-9J(>O>{t*2);EoX~@NJkVX6B4$_5~JtdV%Mv>mHlx
zd1KO3wV}tI6~Ud3q>4>?vvG#+=8Y@E8ys%2BZD8&{qHue72$mR5My_ae;>aqekktQ
zO*Rp=iIPsGq%+plA1^rp|9p8;%IXtk-3oLodrrm6PQ#^No;==4^_YzX`s3acVCWWB
zCki{1!j9PP{&?XD@FR94l-4CmyOh$dSohg@>0n$a+9;sTeH<Ym`A&7^Ko9rRo?}I)
Lo%(<8;1T|RP}(+T

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/tensorizer_loader.cpython-312.pyc b/model_executor/model_loader/__pycache__/tensorizer_loader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f2d78b8eb81a299b08e80aa4053aaa448e942e38
GIT binary patch
literal 7756
zcmbU`TWlLwc6a!G3`vQ4i+YUZNH*h`vTQ4|Ey=MRX>G@{x*IuZ!gV{KIU|emkW}xC
zY)hbEV_~2&l5U&@T5ESvtczWs4jdFgKMMaQn~w$h!&%87JCFevTcFrKX64iifAyR@
z9FmggO}E$9eV%jfo%6nz{~ieV2o%NfQR=H!LVkw>t2oP@Edx6Di9{q$A#rSN3YWIU
zZJar0kK19+uGrI#xP#3(6ldBMcctBNciI#8usNsVP5a_L)^{oXG#}?#->n4F!FZ7M
zJxVCu5N}8~#v9Y&csSh@Z%Q}Eo6{}v7PjtHTGMUuwsd>EosE4;N4hiK$q^foc{%ck
zGfy1vnj@0`mt4GC;^m%Mn-sX?i1*saSt14R5Gf=FAKA;0!V(v4_&pA$qnzPAD`#Yy
z(6ST;woE2!H~bf~lB~R)&CI5*8o}=;XhKmcW8eFVk~Y@>!8esnNR^R4l}Tx$lD&FW
zMrxrm2~}pa5DKPTM#CjJqh@JpS*B(BU6QQIG?h?bPSh%^Vj9n2v@nXhro$;!ybkB6
zB1lGal?+=l2}EjeZ^)^ubDAoqwDJerjMl5NW^N@WXmSo#lG-AbjRxGed?-c;KBr9u
zSV^8uEGn7^{7TM=lD4!UpG3wQ4g@otY{qa&^7T|wHe5-@#AI1WOaQ22h_N*b)qRp9
z^R=rCgpfz&c7ps>4<VOrgsgBYww&!Y_pvv}X)rd+b)s?~hc!!WNsjwDsO&%5EVcL%
z=O9ZYYMWl(C!|y%lhuSoMgVzcZ^)8R6^4+YR~OTAMvH;`oxp~)YDCUVoqqem)cKi9
zlM~{l$?2KDc=vpK@?G)tyJu$%-}?z=QJ$m}^u|ux;4}tz&ET%9_-TS5y!>!bOD_yA
zq!tcpKwH)h-dr3xe(c(aJgB6u3@$8bbJ@%w3Tlw?SCntc$wlC5d8jar8LW|>ITKr0
zGD6ouTcm_0iza(%FYMV5f9ji1-6q9`*8BXY{67TmI##*Wp`xF^JHGaVjlS{Uc8_m{
zyB=_BYQFD$zWbf^@P#~o;TtDu?A-!PlElg?-g0N_U69Y;f}~^;=OhxhNgNozO?J%M
zR>>?U+3)air{s`bl2dliIwThuo=0-aUfC!6Wq!WXB3Nx_Z5=R>Jd$VDjy*6}FJJ{F
zpBw_rhWWlKtkna`et-$Ho!o%wka!q3nPa&b#%S^_Qm{UL1<xgg0Irqog{OYielDp2
z;M(MNpvcb));X$ey;Dk!a<kmA?1rynwBei{DSXFa>2thumE7dwkr@(gs&xjYgIGR%
z5v^V@MJ+6<smxX3?JSl5Qchf#_o+fv9R$!KnxIQD!;jEqO-NP@1CHr}KW1ppp!4_K
zeWF2Ymb<nb`8zP09A_B{M{12|9&vXR&0|eGD(^zWIj$aLj))b5Tq0V)!mAHma{^1{
zAljthZ1reM94gGOxF2)dcZu4kjm9c_%KZ3@MBRo{U0jf<;SojVOhv<&0>-LZA_E?(
z!?Zq=<6wjuO;}dthm9zj6|*n!3l3FQX6as-F}$LfR1&Hxie-bpO~FqQx*w|Lj;dcV
z<r=fLj={3}*HHcOHrez9?z(kP`&wkf)4%C&xp%G5I;yvhZj4{t@J|=}4;A{~(fi+7
zop{3c{TCluyHMylt#_T?;LmLK4}U{!1HodryAU4H!z1})7xeJdH+Gm~;8cJu4Bq@S
z(?=Mgg>oFTR0UPTD%fYLvH%_CldYAScD@#)JYTCo;K^&Ct?qn96|5OhyNZA2z&n4&
zO@j+XMjP$dAr#Ioi8oT(TsbV2j~}UB+3_iWeE_iOL97^y@uc8{nM{nJSjII;E%)vg
z&o+Q#fULd&)ooI85pSU2>Crts1<#1?8F|cacqWS;-kLk1drmxl>xt)r$#NH!A$(@0
zw*|ZkbEkmjpTk_sX{>OywrSbR455dBpvAgQl&h-I#UuphY8nBtN2Lu2XJbq<LOT{!
zG-iucEh6RvJM)C)f!!Rd2X_)Ese7SfjEnRZIuGfchYFn+^v(<GoflU_o1xbqzO^12
z&3i^oe)(CZV#;Nk?*a#ED&&tK_yEtida4Bp0XJXk@c;?SioJ$k_Ih5#;^8m>zgO`(
z^DHkmX;^j6R&RD2evN<oyy8z+9Fh(HS-z4Zw;b~!i)yt6qiL*;tez!#YahsbcTmeY
z=9?_&YHQ)mkiBFGQllG?uYU;N$dQjv-L!v5Zg4y2;Z%Q;j)@huCr*MO(3=Sfp^|7y
z0&_6}nrm%r(z1d!Ckt<X|Gk*c2X@HHr8!8z;D0uwED0GoDXS{PFX6_VoMF%=sg#=8
zrwP}mrY;_=D5@mvS7o_ENWPg!FDSA)n1xNKTFsHnl$g<hG$|^u9o4z)q9O^ZmQs`o
zi7T=&n@}MQhMgfFEGM<Xxy7qjA>@89k(5~shW;DEl|>CcP*DUxQZa8dkt(z>bYPrL
z>^il1k_zBw96b)AnvVL6fSDg#k%l=g6a#I6%5bven!??T&@fK$xQAty6#bLokRb_-
zI!(uiWa$`INXc-rja78KjPs@&?1YO6P+@CgRfJ-4VR8AuZUcWM@C1-me*zU)c`NC7
zt<XNCw-2obifw&`wn4pZaFyQ-y!PO7p?^g0A9)fuw%OQvzw6VkwREB9u-<d{N#l{t
z_WfV{aHIY7J?9HM2_FS78weNp9-Z%5(+a)E_1@#_y`vla*b6TS9xwSwL(3=2cb7lP
z<vkIY3Lnik9(f6vJJ((^=kqVZnF0Hk!N8eL=a-Rv(EqB_d1kNot6n$u2b^b4y0^KS
zN}BXD_@+O{J^%k=pJk%xdc1g<hJRHjv9!x@mxyVCwa%Un!BGu=c0taF;PT}}y6oMV
z{I_}Zpp?ClsmiiW@Y@dX0ZMm-Nw+4<RYKphKw}}WR}bth1P1lM;FG{mk#9gz94-Wg
z^uW+d)epG;#+~NuUvkdVzU{28M8basAjn567r!bi&HQe~rXegV^*lUyO^3B!Z6B5C
zt=Mz6oL#I?fGAPPU8~RlQK114^?bj*n#bnskh0sRDTbS<i=xjq9Lem$l9{;pO|xP-
zq2ZmIwJaO$IqIlMPtL*wLs4;aG*8ny+r@>11~=-8)1ze)%hBDo`3g`>EY%sPAh~RP
z<KgA?))SA1^w#lJ|7Mr)i}OD{|3E4XjOhbo>s{k{Pe*b85vU>gEDjtt=h<*?u`gEW
zJF52`Wy9WLNXUBxDga%23aVs<uQ0%m!12~YsJ2Oz)RUVfA=(2H{F8|x#Bj_3SjllY
zdyR>3AgxNwwqPKsB=e|yJBnp)*3OV{a#7pz*HakEs$S3vWabOW&VW`E#U^hqz!Qlo
zyvo}PGqQ}~tm5_mkI_mf!wG7VrWUjc`fQd~j)_qQBcpj(H8u^37=-U-`b5uTkH-r0
zFcu{&%{zq?EXZJ%y<PJd^m6wuC1XCLoC)GfjXDX{ZStHa;H9NP&r!YS=!So|D7;n>
z#&u!*v9d0}YeM%XzyD!N{?O?s{F!Hb<1VlMgdbz7v`vdD+1@!YuUBS!c93wb?!kGm
zpsiQ6BWJJY86@u71hC);WKrzRas}Qjfm$7#pGOYvC^nL-T;P`>T-3)DD|cqClIPWj
zv~-c)f%Q7sU-f#l;sjmC6ktbLacSsTSb+=`Gld<++Jj}dcx7g#-eXM8Rd041ez%36
zgY$guu(-YA-Wk4jj^X?8ZE8ok<%TaT=j|W|_Y87$&ki6M!d_169Cb3<k@^|!$D`$(
z)iwQl3<##n=8PV^vY76*oCH;_ku;IH1`!mEgQaM66nfD{c9*0_pl>vn5i2MvJl7fx
zczuaUDTu)-NE2m=UPKZ|#|WAj_|hvb(v)ea%tl$F)`Wm4LpqKX%k=`-W5#<LdQneJ
za>tApueQ}4%!Kb0%&8dNFqB|1!-=mZ<VWh;Hj7vk(O*JkUfBi;ox^(P@M?&~{)q00
ztW7-}-0+-u=I<={2X+787khr|Kk}463prb3OQB&vZx|>v4D0a!*!%0pKF}LJDA@@l
z34EW<_igY)&pqGaFN$6J3SGl`*YN7a&Bpx?y9&`!Jv#cNacr}t^Zw;eFF!a~=zCM|
zd-F-l$Y$42@%7Q)M4sDi-L3Z~A?;{Ah6&_2q=>j>x6XI3$qz1X@P~^{?W<G8P*Wik
z(?hYxqxn#5J#;qjIr}02Ncol#%pb$!`NpxA>TB@%U+otr+U>vg1SfdsuUkFP|C)DB
zw0OU6bYs8WIkCsh<hspoIRTSJzxScDE&A0wQCpf${ncBk`M!m(Sa7$m#yQaVoDJ@f
zWiN-1Bk->EnVrR5Q$3j?48V5a+oRAJ4k?w?C`LYtZimi5Wj#WdbwP#4LsR9Kck4oR
z@gu|>gv#{tt@+k{pEqy#W1GSuU6{-tnZOzxyr-)eZY%Z-7CZX?$L;X?m_Ltp;R9PH
zk(NbxU=wk>MFso3DE`f2LMgAfMN!HoMUkS)vez<-Or+>LnWa(ucDMm8!VS-`gJCiI
zFkGe%v#3UqVbp<eu8V9NiuOV$uwsm0X2uNZ2MEQ(Tc4Inre%0@m*^z~dk^OW<wv}v
ztSF)w<tRS-sOU3JG0xFG1jXtAE<|AEk9Wv_IL1m2k2Cn-oo@*=rDlh7iUTb!*;(hr
zxh>Wy@eb$MGjI6b@LJQF{0rr$O1|TDz3ITiOJ5w#H;w4tV_QyuDDh!u*Rz)1k`r1m
zDj)wz$K8%CH;(o@oQ)4hO9Yz7N4Kyk@h<0{FMe1e(BvoI+rqZg;B$^Y==<mBKSfIf
zx{m<^n%@8hG^O@7=Q*wz=`Yz?XZV!adFJ)Ajhr}JI!s*QlFje*6+_LR+`N19lUsLh
zmFzHn7CG=x(j$jUP8h)P+WJav?0JYU_y;faw(NlV98sAXFm6Tn(C-1mj8HNQKb$4C
z6g*7D5?7K;wx+*h(qpebG4u7OMh#HBW!Gx1#n72CjWJ9V^A|SiMZh<h4>r?p>o=5`
zIYcy>#;(AxaP00YQ;HGaIPje)Ro`tY6icg^duI6-Gc<fuGX}ns)FM1QsO-LA-sM{v
z2AhqUKcblsEFhpCF<j-(!yiseZN(UBDkECH$><&g^^BQzc9N!Gh?=WPP?hW)$8C8C
z$3G?gzavmL|2KI{CvQC^`<{}$PszC#HaBN`L9lADbGB~*cJx2J&G$Z7_x9X&{lVer
fwdF~q6tr_w+}gwz!S*??aGdYnt#1jo>=geC__*tB

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/tpu.cpython-312.pyc b/model_executor/model_loader/__pycache__/tpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..977f8fd9e4735955389719d8c10d092cea2a32d8
GIT binary patch
literal 5654
zcmbVQX>1$E6`tjCc`gr$I;q2}Ta;|lI&4|K5+^>Q+LCR=2@*EJg61wI(#s>eOUq(O
z#3}MaMh#eMfJ#AH#65t@a8MiQAO8yM{Aq&zAtN<p7YfoM1&aPCAVUfa1o_c7yIhgB
z)!HZp?Y#Hq&6_vx&CdH~|Lkzs5c~w=&!V5!BJ?e0^dD6wHa`Vo32}%c1QgU-B1ovb
zAx;KKLX#QeRM<eExG88ZODu7#DzOFas>C4BaYxV*cLtp*PYSNMJLrzr1Zz~@DAdM1
zL61sPLS4K*Sg+D1p&{NFY>YPrn^fK`G{?O`FM$k*_wX&Z3C+`Bs{x%toaKGQS^4_g
zWLeraNBC_2!pxM<px7sq951|_Ohls7itTklh-)--nWuS~jl7dk?9xm~<k&dY^bv|Z
znuyA*ker_8MPO@>^N~<mkX1uxk|7SH2E~n)q9Gxg;kAKETS`oZc}Zet`RMeFEU}@8
z%!^<r#6=U+V5m`o`8drOD<{S949m%LDL$+@u05?~X7iUoEFm7@$OjD^5hSgMvvDME
z<cvJUQM@VUtRAS*oFQXIh%@n)807cKU&O+h-=~7MXN<P&Jeo6chKPx?zHbcL=L|l(
z;=FL~wW_FOUa&FnJH~*RQG?0g#q%N)Ns3hhhz65RVEL=(CXcHfes$!OV!sRtV#8Xt
zXw`<!8RNV(qnJcqPK$}Kv1)0sV1$#u`2$FokX+s#2*nIlT4nNfxy>SWyEjY3Oiyd(
z3|T|W^0fRt^N--w(Cz$`knOrojMk}2%Ng|Tnls8ST@IGrI$ddX&3%YKStEYR9=$h9
zd_wB|ISO7z_`6+R0caDkI$g8U#u_TLPUTEl6KA|MhLHG&cd1yjF0Zuu%8sKO<{OqU
zIfKH6w;{%F!E8Bm&XP6%+;H7$L^-R<p;$|0tWISOSxWaVXUkHtHod3PW^LQ+u|Idt
zwj(Grx}{i`PE}ft%A#0%h1V&NR_~m$I0J{G?k&V}$E;u7owdI=khNy*SUX2&X|YT0
z(d}}kEd3Gs)po97S1@|tj{ceTwL^~kbj^1uh?`MA$ke0nu`EAdlyVNpt53ICY4yD3
zD9FcPMXpnvMfWL3$$NBZmdcWq*gU5P&S$LNnssI!PedKX0{WblHcM9ak(!ykl|G%4
z`m5f+VO?5jVYQ<bPNz8ACw6^ZS&H@Q@+|c#dZxYox^|^~_8hStMm;`n7aBqmF$+cY
zO?dYSv_M?{_Z9L@G)v&J8YXj=oOu@QpyklCeDqYtdp;dX$k9wljwTaKA}KRcI+aR_
zGS4YwIF<GhA}$*W#iir%xl9KxX!t-b7cE9kCND8P{^1BC@o)}vQs%(Pq#z_`tCePX
zkymY3iXg{C#AKWa&+y?(sbn-EA7nCpuSq<k&QmrIj99UwRtI4H3VB5cWjfA<L>X!-
zxUChBr(99Y$rPUeT_~pJi=pr(KEe4~6{8%D^9r5f#RwFObONfb(q1Omi#!w`Ua!J>
zZ5Hu4qR{VD#Y&;nlB}3G{&F<Ti}+NBDB%Jv;-akBaWT`Yk;Z`Oct}><iBO#9*i=Y_
z7G{?e7lsxgLD1(@XmxNo$V!{;-D418TiK*x55*WwM3MknLPDB9A&N;+#OO^i@|Qz`
zVgPq>)lwQ*HRu`&VWX0|R>-yo$T;AZC`2<PltGF)oQ$WU0<TbNj1{L4N=&Ci(`69j
zb16oN7b5B&QG+DnI;A+|kcgL5jtxE?L<V;l@zNE7Ra`pik&~(eioJUIP8A4n+bgWq
zwPAzm{x<1BDW?p=sci?PQSZ^hwcR1%EMmw}_51#GK#r#Zsc34C=JTE_>9O$xm&W*j
z5WN^k&B-&#L;%B#fCex4D||Q&u`IKyqhdf#rTwWn#ipiBRm?O$j&}T&u2yhEIsoPI
zD%x_Rz(~>mLc#ySs{h!$am_MVYV0gF1`3UVdAj6kDZ2U#uKv7hZ{9MMAD&u;r)%$e
zQ`^V%hxE<YR+|Rr9qW$nn{O3+#tJ=Se{md8YTDPE`tSaDt?AeT^@v2ZyEaUyrMKuE
zDtL#A-XjI?k@?dlmv?#kOIJ^6>~L{xvM@HeHg<Nc^IT!<?5$HP$M1IhW;8!`cEMHX
zJXdP(EVd69+K2BRzF)uEermy9>gX+Yj1)RX?w(%lcyYnGzHhv^?_^=$$<=+YEEw0^
z!|U#bCHtbiR5w<tYbw_5FVyWXHF%2+<AsLtha^#daEmh5)NVLY9aHq|E_in5J)`&9
z^W(3Ud<X6wE%+w#b-jOW^sTq|Zy1QS!P4N7{J_x-l4yI8*d)na-VH=Hd$(+;rV&q*
zZ#}W*KKT#Yx6*UB^<Hj`o_sWhoa0*uQFni_YqZccy4tlrZ(&OA`X$?<?E`wA!lY%<
zvRwaxYo1!Scot49kFHsm_0Ha6=SZP*WVLf&-m+`m;=EzMW-rl!65W;WJzAiTZc(Jw
zwm~DSqiE?WSh{W=U+G!1?A@>+cWcoV_|g?v_wM?5&xd<fs5|ys_Iq!xc~8xsxPE%W
zhTQe@^p+V71n#umY6Ay~?(TxSyXYP$xCib|Y>|cm=lqEx%@k;6jqZh%;Q^1r1mthA
z?T1Yp>N-z6a=^k0jsxFIL$HG$bdeK7<bz(vL_76hWIxcK`RIv3%V+yu8Up5vc50&E
z`bC!$(?it6A+v~I!*Kc910+Hit*S_vhRyiANH|Bz`qd9*$(@k!HZCv%HqtLB>V(=u
zM;6D?+b@-IB872gOucMYDFV5Z{jBj)KO88;bp|8rEcFrM49`Crw8^Xy(3eT~<EMlX
zqd3RoGh<HIc+69C*8G2YYAk#D+@t@ir`xEu;&GLyfMWr56IY4rCb>q}$Zn%G&V-{U
z5!dT0w*_t+U*cHIQ9euNk2d|3Jdu#nP`~9FzFcUd5(9TvsB^-cc4OnT`xqWD<Y$fv
zLRqm=;h0c@V=ks65vX=d2&_TXe&ftBMk^4N;lqArDw)`$Ui2bj6bd$;BQ&QE6Zw=7
z3iBKjk{JF9+=T(BR7PiP=k%J&WXufs3Daa~CYq3BKEyG}2#8-&y<n!4n)9b$$NGZ6
z3umGUJ|t$MPl*_5CYct%cb?gv`{JA)njPCWgwWGwp1i>NY>MGZT(JQ<DOX8_lw=XW
z2?h`ykTwzDffR>^70RJg%urj>0xya96;zzZB#DQrmrSVT-e(mtCRR(Z`m$>#>{^gn
z)iORg6iQ8uV$!TCrm|7|s&21H9LJ^x;F0NhqLS?lAl?F1$pn{asA@E-ty^kaZ2Mr>
zylK6mdAaxF!4C&l8+zyMaI&>_6kCQ0Ekj?mj9fcCe|({*<Y`(uym+|i=`MJ>SL~~v
zkqu;UI7_vy%NLeU-t1fHxwHG$?&83q!oZ=t@9@1dpSOJO$h%+PBta_=+9YZng=4v`
zv)CFav<ALv9lCY~4EL5i%}YlXj}$#U1y9dP%c^IzY`A&3d%0nG_U7f^=YE|l_Kg?%
z#`C=g@9n<-ll$?!`$F09C>U-VhQqtDbt%3W|3z~CWXWAua5KM~UAg?*ck>4)SNkT{
z8@i!P)xV5uQ)4aErkdJ^6l(0<gm54qG3BEb3(MjxvaDibF|L9H0!_0l;7Os}V`f<{
z8D?1#-#0~kD8v4c6yqfRieX436w{<SP&|nHaawL6@fA#~dBSIxh#!scFI|Gi`{<#;
zKv_22i0OW4JxbO8t$x=A1ubNtv2(+WDGPGd+?c*Ly==Ue*uXllRvUez`C9X)9dj=l
zyj1PV@SU++V|OpyI=X>?z2EsK-vggY=FeT&!XnKNJiD)5Y=TC_2uHD~0NI~Nh-Wd|
zq_Qk*cz+lmwjb|&2nH`GM$9YLZGm_M>w7EuTohi7=*2XC*`-vRQ|wg|K%gKJC-E5d
zdk~n%U+>f)s^L_6F@Ez`jqw9sW2<;JEk_0IrP4sMW=O-;BK}~cs2I?%I?U=Au*_;0
z(64{0(^wG~*YeE&Ym_!Ke)Tl8-k|!bO8r^{Gz~k}n7|MG6+z9lcpg*Rn?SJ~hKXQv
z9Ti#Vz@N3G)9?W3L=c-MM9|+N`fF7G4eH6Go^McJ9`*eb1-?P2zD8YNqp3#*k}!N{
fLByfITk96yShcoaHEo$#f~d{c_kD*jp-%Q6>?Tpv

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/utils.cpython-312.pyc b/model_executor/model_loader/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..068811324ae5eb492881384f03bcc81b944f10b1
GIT binary patch
literal 12738
zcmeG?TW}lKb-Tdg4G<&&lHz;$5(SC^MbQ$ew`5APB#W|a$w~yrg+c6+1hoL@-6bV5
zU`(Y>O(kkgw@E}b>6o6$H1gOPGasGGGo4mSC$T&22Ues7WJ^!fvD<0-(Sc26lz2Lw
zo^y8>0A<SZv|sIXF}Qp8-gD1A_jR84?>!zT1&_ddCw5>nMSX-H#^cg6tN&@DsH+r5
zg(!~ZOadLE$=eh%!P_jD<4lO5v5pZeacjsLw}ouv+a%aSb||+9_P8VDAZ1p;8Fz(T
zBySVkaZkuY@^+yl?hScK-XWC6%R*)G@=$r)7xIxZr{IrQgepkhB~-?%LRIk%p$+8Q
zEmX&ALN)Q)P;I;}R2Q!g)su3M&=7A7HOAQxOTJ5lrg(FxnWjt>U%|J$MQbArwQ^q0
z1i#WBnz=H*oGa(sI3K@}cZ{AiCZq7KhAd~AvO((S%k*5u`mjSzuJUDTXcJepem%jk
zfwzx7Q^0TJxC+iRWap}1W<ni2!_@#(xlvbmuSX&G5R5|%SNk&amfkqD8D^oA-@*sK
zXrz4GkO@burTMm94sG-mU$QmB)xkKnlJS1|Hucb^TW|9Ps{!L`0LX1RWE*@p!gmjE
zHBnDc9Q!iGHN6FU7@zzI9^;z%sxMw;z|#VFwojS@ty7zym19Coj`0#ZloVNs7x<_g
zOAND-1jh==2#5K2lH&y__-pLxWPnynqRE8JUzFpKL}Zv3118nMMdV0Sh)9xZ8H(`&
z2T-O&0#Y}W@uD0~@Dl(@tB!-R%qQenl2i_yI9T{LtF8g;sXv(*iVdsIvw{%U^HmZr
zhoj@72u;HiP#y*n00<DeVu_d>7LvmnCFM_#M*#g)1iR2%8)f_eFOMX-$0HISVAS%6
z6z1cDJcnZplQF7ZC=>Y$5s}jiN})jFUkpbDNiS)X#mR6~<Rda4j>p4e$)u2Pk6<tx
zp3~!FV@Xk#2ra5l(m%uTaY2qjPZ0qKuZl_Gu~;G;=i^C08JUR0gvg-4t5m?OTE|3w
zD0WeG5xM{`POV%2(B{WgG!NniSQ-&`v{(a)Y882TTuelDRzR7d&<cNiuXaLul}eds
z+$m}l3Lbo>%_-ANiHxx1Ntq3n@-^6Q)23+#+A&6L;eDx62KJ#n>qDeW#)hRS*<rwr
z5@v0D>FrIU?zJWOWzaEgNm)iqK3_jt_W3g7XdI$mwMI?DRMhl5w4Ao4tm`qJ*GyMR
z8EV=#ZRJcU+XN+U<jmyVELRw~QxwOf=(jCz=`*yQLe`ryr6?%18Y7IN7=fShO;e{S
z&NgkAs|-A&xM&YNDZ7jdNFL7qw!`QH=Bv&qA8j;pg*WFcp4%8T?a=AAr05jn_W&s8
zA|vsp%%g0frI7<D7lCr?P}FF%QCD~al$$_#@=)vS1c34osFFNXYXOIm1E>-L<;_EF
zH0la(fbt^LqvxM1jZrDbkLW+5*PHvOiH5bGwqBrGsBTK4FTnRXSUH-y@(&ly=co(x
zgXNR7Rvsvu>OKZcCKeH5Q#>2d_#t~CCXcZ42+t13Cin!aF{E*kFdiv*Qmh4{$+<j(
zEFn6=N6!P-ijTzvo)ia61&~M=oYaXECkAxf<h--eNOD}@*hn<WkIC!{Md$qm!k=Hz
zm;`)CY%DQ0F0&DFcsvd~QVO!Cl9Ch~6eiip<TyJLnE=8QY*OI1Nb;n>ujxnRhhvh=
zi#*2;iOD#d1Wd^xRu*||#IZ4%jY;gdg!LdK68r_0&<Y$~0xlb5`*CpWh%ApuySlo#
zWK;?wvB5~Ji%)b3z$zuVi{qu(aH1<BMn}R)XgU$&F9b*AxImENL~0PE%keRgC_I^7
z!t_{eMqnzEBJyitGWctheZWVZ5{RDj0>~F(YS$TY5+#<LWQWIjNg@dHlR`RLe+t?p
z)vB$a>W)TWv2+2Wx?e<jVtl!Tq!=+iN+p2f#$h@2k~gV<U*o@(!yvCTZjIxO$skq7
zMP6(HlGRFMtMK79$ZfHNGzNgG11Bni4ODwLOypZwb&f^ENSudd0#YX;0t`=O5>O%{
zqg3r6v=T6MD8!sveu#(N5hc6vD_WIm)ug0q(_vM|$dFFDh-Y2ILn^jG5^xswW|3H-
zfs8zDAnFN8sxu-8VUm?pb6gr$t>>YGVM#*1&gP%b2D;?<Sl3u=Y>N!lyu9V&c<;`>
z^SykR5F6|on*`aM=)!%|rOh0Fk&lkcNm2hqZG;!Q#zA3`f@70vDNc-bCbg*+kxk$@
zq<7#n%}}{g%I;6wYO__%nW`?Os%zGrwUwuBH7nI!i|(cBy_ZX7U2{+0wUuXVjf$-?
zZQHzJZ<zmjrm<IP?7dODY(M;Q*@jG6vr^W)ushSztF-hkmG#XW&vrbP>DaGy?9X%@
zQ96z+cN|?RJEn9TU8tCAyV~(59qEpvGsn|q$Fes6yi>6?FI-&QrL^z;*wec3+)d{F
zvv)jae(7ttzWc_+vhT=!Gga~|t$5Dl?2O|eoikGw`@Is%;(2A@(!gBHa#dh4@&VKL
zG2?vY<fW5Y`=PAech6$BSaVLQq;%#;*5;ktrP%7TwN10u*^7#OL!qQSQ`@c7cIV40
z=4%vNOSY*q)3j4*+6m>~Q0xs^+r!E=^0Vyb4BM-)y#PP0*z2>l>iLjjYtOcA&9og<
z+78ZI)7~b<-n`;q7iw=DdcX3H<J2#`HHx=&{wyRgLg&-8;yCrYPy1=A{5XBzibGC&
z&U|)%4_2ier#_P!VBv1<@g3gD{H)!1c%S*_?e-&1^UwELj@WF!a9WP|Y^sIq3)Q1-
zpD@Qy#G-sOucrV4)Iachbpdt&7<XvcQE__OOeC}!C3Ha^gN|YW*ax11zVQ4piXs{h
zGi@o-Y%H9aqYSw`Z7t|ADXW~<WQ<-U`bw+pF}g@u3Q`)i2GBvgMqS~ZvKV>}n0Mr7
zU;|n8Btt!t?n6a%=e4YqMJ_e^kn<+jP+lVgO6!Yctc7EYUZJJ~^sV(MrAI3boP~FR
z`YT5mYVz~)_9wbrwVV`n9^M;|Ob+s43B(lW!*T@8i7<$sa732H*x)z_kT8gz@C80L
zJR*aNuA3$Xdxkck*sJwpVloPBUx$;zks;uhU>p!TCg4^dBVuVSdkJcv8hZ&Q6QIuP
zj9IrL!~-xk)q}j2m<7P`CDjHD42e^nF$ws#97#lZ5vNG4)b^#(D>7I#mc+-QQnX`&
zYogjlA`(Gh;pE9NK425~VjXIK;yz3cV6q(&)e01%m^la^5^iywr;57~gy6;Gt62Rm
zBs0`+>?Vu#6FX(ubK~&MJ<H6gyA?H=icLzzraKiKmmRb8?2eVHhWUwwZ!F47ReNUL
zE3S$;VYzk32d>_GZmN9Kb?c(%gR*_u(z;CPE~RwWjUCISkHbMO-=8kqmn)+xH|J`o
z%Gw8U0+yj4PQKllZs`5M)%RCl$-2wa{+{2MP5Yd{t~|bsd#mE!x>%R#?pM0|KX4!V
z!~>}AyEMF?Nhr#0m6rE2mcL~z{T_#S915biNsPw@8I+={w;76h63!4<GW4iXTlD7W
z^P6CHEGg>y^i`UMeF$1H=;))x{6dE>I`iNfA!ptURt~eCmGkhv;GD4Qw*lLLXy8zb
zR@ej2X#R{ADu7P`2g4`Dg!2?%ImJ*8IRD=_;fQ3M3-TEBgI)Bf@humP5A3`N(1fqJ
zkUlgXiB+WIEPm;8`TYVXThID>$mqVnCVNN=Uvb}B-WcISTKGTT;vtah@GFi^S>86i
zrLWAiEoB?U$#~#dAD^*Gz{_oGR_ZU-hhKNCtp=7g8187i^Z!@bScuX8qpN&@(&XV!
z%opf@`J`%&j*SPbDkFilsahovfS~t+E&_r;h=4UGt5!|KfK8D19|b%rgK|VI)#Oyc
zS`bfRQwBw<Y65i{Pk?HHOmsx`@bNKuGOYE%i33n2qH~yZCq6|Wqsg(!aKKJjF_BDa
zWm1d{#}W}iSHYk?ns{Om;ps8)X?%Mh08;HRtT0j`p%BzX7^}&!C!j>c<Rbi~kAU_4
zEA`tM>aNY7u~jReZ$5k5)_k|b|7~~HUUGLwUz(}OSt)-_#@C_vI_~&7FWY9B*+|yq
zezos%->Z8s@0~xq<Z8-p?tG{3&Azm|dEqg|y(wE!dG+jTXRn@n?cDtIQpJ|pgMWA=
zXQTXEa_&k?Ul!5dvs0B@mMVg?&TLhErYfjZ1@BaCz5K-Np}D54*O#u^a@)HlyY<LT
zS=oAG&YSf$XMF97ul@S=+rF(IH@0RPw<(R=vh@wGpS^bW_2;fV_k-uNjqK|a*Ct+{
zzBc`Xm$D6wuMb@tdR@3C6qRQiTeB@&?s;r%<=jy)TPo_Wo_y`(Lidk%ys=~1-;u3v
zn>+ZuBX@PI=dPVwcxkD=7t20rqBeB@_MZ8FA=UpOZG*-B=0WSRcKVj18`Is);cn{I
z{#MBUthL_*ub+3f9cwlJq6$7*&41TwhN8Sv6IxTKz!Qbv1nE^u)`cdBO=`4QZ9rIf
zIC{9Cy3+syO2mWDC~8;_Jm5s5Kt$*mbvLLv1qQ`>4BZe`L;=|WFnP0}fR;0#?}e>y
zI!=8P=~xefA?+*Wyd!iy6`Zqxdse3lgb+2FSMm#ep(?{!u|M%SIWJtn6wzl(JXO?3
z-pyHP&)Ez}P&)GN%R+l}$6l&_1P*%v2be+TA=7E<5iJ}=Es%bq&Vl*^$_loIF*!+D
z>m%^E3V7taU@xNHRD{v}r7(JmFru4}JP*NG@})3(i!j!I5k@)h{7o^1HpU17r6*NS
zvBybzlh!;^3|c-a69I?H)E~D=;1QJAL{jtP#o}WEk8VTaE$U>4z@dX)v_bHzp)2i-
z7)eNAeu1wE9F1#$gY4;KoM(q190Kkti3K|j(8}x}&+1VRa2lcyaf}xc1DZ+2K*=!(
zh(v@SxU!N7ekyPX99&Tu+JM!hyBE<FIe>u^b^s$Mn&&b&73jwp43c?4jEn(#-9-rW
zLPy|$f<7TO!;8VGdW<oFphI9T23|3_2z^kskSNepLqF+~Kmn3`Xh`o6<QE2EVndTt
zoogW>J~YnbxO9M+=5;gLK`aKTnW|meN-NcY0;S?%SatC+NL0J#j}<4?GMLh&fHpD4
z#W1?0)`!uxC>O0r7?+6$TN$gJ8YC`~i0oB$>%P8l5-0@UrZ&bfstO_=b=Ar7gX6=b
zT14I;A_Ec8K_H^$E+RJ!ST(!!_aLu23dAtD)x`6pRL9J75-QS~cqhVLts*3At%~=i
zI0k@!4u9!Kz=&q36@TsgiA>!#rEc5eQ#YSk@*kZUxLetrsobnoZq8KhRVw#p?G@RI
zrksVU+P6xXtE`uvnmINrgK24Z&!#foor-tol6UuQ+wQElHsjr>csE|(c-y-*ZQq*q
zZq2%?GOlLD)x0ot+ts<^F3-3d6?bFKWGdSR+C*8!J%`0pk}IM7Y{u8A_&R4!WNp5=
ziQBgN<>u{+vE}9iEB2C%y;`wXr)v%`+mEdHdlru^`S;B_vMztx#S)zLin~7DaBSIq
zJnO5Q=jQf<`tdP#rd8}+cJI5Zqs`jgU`D$u=D6AYsM1tZ&dT|!+YYv<pIyuL-7Ef$
z3zJL!?pa69Uj*($@S59>mLl+@%l2a{{?>(aOa3kZFDU}|Aozycj;12;-er5=ioaz6
zMiB&Xdjb5Og>qEPeQnv^eAngI30#H6qSnY?2&HNAw;Y!6(efAM(>f9tO4l)qp%fLx
z2OcP0M^+XLQ#tRZ0?2h_VX+2a@Xw*V0X9vi=z?<$!hep!SBggA0a7b3Ayb8bB*>6r
zNc2RfKt=^jCq+Co0hh`E#~smpJmkQ*#PLJ|oKr+;FO$V_3H@5}B!rctaN5NfGy^q#
z99VM^Z}5c&o;q~+MEKw{{YS%(p9>#7c={+gM**|O=gsH&NrMaEVUtihg43w!+3oNl
zVzLB(=?@@*W9KZn>)w!YHz@9gEN0picN@vHD(+U2=}_DqB-5g}TUOj<-)*1o%+zdE
zYPK$R-Q2cReq_o0M9yP#I9JUMmvyEecB$R9T+*c2npV8c3q6XrJ#BCQxNOt)x}~xm
z;6QH-EHhQ}W`(KCx+>C4h4><nvSwo;*+j8Jzwp|PWh@(~F9=RDYCs_B$oRsLmr%9Q
z2CaGu!5CnXVhU>h1^%nZ<6!u%riIQWSJxt~xVEL4ZU0kJevLhgU&rJ@LTZtaVh*Uq
z^}{5JGXpLD4O>lPLgoW9`3KoBKC82kT%~vlt}9U?)3cz`hRi&}TX-vP!40ZiY2j_0
z2{$2JhOzU^+xZB7$U$J80PiZk0t4_2!gH3FsgRokT%3(Zs5MwQJ6;fi3nUJ>K;oIS
z2b`+=6o#b+KmvnwoqE%WjQ?Ok6pw)HhiGHo8U@);AW0~Why+&i=^B?!f&{}ckkI6c
zg~UeK!I&nrA=HTCUq>*=%NKZvyN;ps16iMsjuCYO!ih1FpaQuh$uSuuw2VLy8YRVQ
ziPkWz<AXq=m*a;bplF1LB2h4pC)LUr(Ls0!Zebq==$d_+H$eWHtP3z5ct7|&!smEE
z_sP-ICOIFGD5#UV_sx-l%Urm^Db2Hq{(56q0JC`u_Z>WksOQ1L&-*ZGRF)sYO38{}
z*}za&9!Fmj_#VWU0E6a~w}`(FdDQ~3%Q(dK1U{iU_yk0kA;Qgz--5b;1$-2|Fr>Ql
z`N4e*0mAV?BN}LlB{=?~9=askT*C3;9x={l7;ex2=hK3mQ#HlADY&NYchFE8hGd4y
zwr|d~Lqu&?ru~4@e&9~~<G_|?pPaAx*jqlg>pL$kG~M>LTz4*Zzv;PAdwbKNZ0UxT
zw&3-tJ8j^~Zkn^qP2Kf3X8qMUi+OkX9Fr;CtdwrPe*AW6?<Zzz<L*x!)TVx#96@sb
z23+sj5v_yXPp<Jsqc9^}Y63FgiT>}bK48rol=ONLslwWVuXcl`>f>#O(-c`X`Xumv
zTr2SvNK`whf)d_M2r%Nev2+d-^sA^AEo_WL7goTFObOQvP9sJ(rs~$L!2`8$Ba)Jk
zQNSwHG-PVFC^cI$H9bmA&z+j>mygf(&sAi-H5qS<;%!;z|G>K`TU9fEcy8);DQa!C
zJ3!AW^^>U$lwfchw@etK%3-~G$h*TB78mpyTR05&380waVh|cPgR4qq1h}rCdczPQ
z0$W47a1joRxV6Z}6md0Fb1Wf?uVUGEG1-U-vQ<qIeiL(;{5$-m5lFs8eZnvnd(KT&
zRL}e7xrLr<vH1qYziElt^vj+5-j|nmo&hCo{?LMNfxq6r=(~ROjbyrMyHdAfi8=Er
z<FJ(HDjAFadQXmm*W&gYz8l=lo_Aw68kC-+??0yWJarE%G$Kg<Ezs?n{e(jx`w2;2
zBlT$61V!XA%zde^h+B}$tNEy8F&}};teh!d13v#tWw1~4oWsD13X8!*z>#3SWJmW#
z7&i-fCQbMYFcB23goU00b4X{u#^y0tBs)0C!UZ<CQi667SX0Fp9at#|_c9_fL9(VI
z3RhGhga@Vx+*^r9<md=HM6R9ad(%mpoCF<-Akd5_wh$wP`!6VK;Km{Mg%orWJbVJK
z+o4Se!Xl1Dg3+qoJ0Yz#gN4|1z=`0}OE}DK;x7i-D9}DE#5>s+FYt+gM$=PdoN$Nb
zg*A8oUSQ*~i?IZ;wg*vKMK}&<gTBDT*2tGSq5qgfC>k11!0pQ<Tqc5v0BTSloZvZ9
zr<TEG4LPaZeng?gizn4eLo#V+*O-3b%n+7@Lrtg`(Qi(4NVN>w36sS*#097XR)Jel
zyXo;d=8&IAYZ!$H?iY$AF604UgRdFt9#}7xbLW4wciGjwQrEKZWV-v%O>U{~$+W$C
zr5bJnq=QG^XO^l5W=r7YgI(m>lvgOzoA)fc_hwzyX;)iz+kx2=AGo{V_Jez4&P%y9
zH7u}0oX1`Rm~=s+IzgOcG!<@)h<H#`7kZS*Fu?(h1Z!;IEauRtP|HBUhD8oTBR+xG
zl_X-)swLVDCF3?KiOj10wS__OxAUSFuO-(lgU~%(I~CCc5nY&&%Qsq`cDqKzXusOC
zUZ9y^lY(T+>#^nFAY4W@?%<#?rNxk2)@x2Sq!fhU_!!;-(hPNCqZ4Z#jd!)}3mO7H
z1Sd=c0_56`Am)EHX`o-Kfty<BqzRKx5-1SAhcuxlLHtupp21G616n*9<p7B;Xffy~
z@belbe})M%VetYcXy<FHc?xqgm=OL)w$xh2tlIZzhkc*;4#1&OBcV#2Gt)HviIt+a
zeMFV~Bjx>&YWo$n=_AVhA?5#&>iB1>^+RgQuc)I6b@W53<-W;Go9^2!v}u)s<i4At
zpQS&f_WqN@KljxoN5hO2*u1YI+Ytm^;!{@--Igt@&6(j1+tgE<vtiCol~>LUUX8sL
zd#w@T2W9O!2NpXiU&8{Ul(*)v9pJIrUpaT_+^Pq^1iGF+OlMu5S9f0CnKP4*R@l}g
zbKvlM?pto{<F3WAYQfUn0l1q|nlrW0eGA)v-1kP`kN3Z^KS#mm&F$~)xwYq0%&wXZ
znA|foRke4Ho9|h$EO6Jiy|eSpoo^%;rS!&K3cEX9yIZN;vsAe+P5H7ENZSs&_WI@=
z1+N=zH<_Eyym#)_xm(`!(`V8L&M3Q{UB#MQh%Tiouh-@%c-^SDA>Vxby<@kIz57!7
z)ams8)5^{>t5}oUNYgzFt{ergMP~7tzdZNTb3gU2;%Ckd$@TN3>PA#AqD-#)rfS-s
mqaeWnxN_vPuYx{EXJPuxB-7J-!}K?fcO5_7e~%Op@%Ud%#@HtS

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/__pycache__/weight_utils.cpython-312.pyc b/model_executor/model_loader/__pycache__/weight_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8f9a9a43cd5899990499c56264641e9654ab1961
GIT binary patch
literal 47920
zcmc${d3amrc_(_X?;yZ^C%6+_KvDZHQzEsCvL$(=t-ufuNPz+uAAnkDFlJnLOx0>d
z)oDaE$(U|3WBQ5PDBa@r>780~oH)}?A3&f27-pu*t^3@YdFBtwQm$+#bLalv?<@dG
zNV40`+#~Uv59fUQ_U`ZZcQ%`u!xhxN8fbch<Nk?$$XAXOxHDzqxXT>R^>Vz5R|i$S
zYWCFhYS>fTt7T7JuZ}(Sy?XXE^cvXH*lT1@Q?Ch6P0&1K>9wdRFKy5|Wb3sJ*?aBm
zw=S47<mh#<us-M<%I(c%VM8!)D8Dy<sGzri{Z<DHdka~fMZLxBS<+j|o@Kpdcp8Jn
zL*>2YLlwOhLzTUiER88xHRS4b4ORD657qS64Au75viIg--B5jRJqufc4MUB+jVx>p
zHVwIZ-7IViHV?J*wy>~0*gDkK+s48<LC;WoZ#xS+f~$r)dOL<z_pWBYoxwFjYkSwS
zaBgtj(E8r>D$Yc$&I@iB+St2M`lSwT>D|KK7X`NtZR_1Ow7qvbOH~%!G4x39BPveK
z`P==S-&2X>(Yq7Bjf4MA9;Wp3ds48si!Xnf>+MFoZuuSMvWMd<Ugr2pfBp9~QeM0H
zLB7hr$DccH;5gpp-@~gZ)UV~MU)J^R^*d0rQ+$mQqZTph<XC*Y-|o*ZL00`nzTst^
zTvqQs6Ix3D_#oei*iA|bw-Rbbp8NfKC^ajamCLut@BDi*-qy>h`mKB`>UDr`L;DW$
z9=vbIUp=qx*Ym4h*7hFaJN#~bwZ8>*>%hA;c-Mn^3@Pu|QhfhmlwQ!Umg>F^c|OYO
zJ50Ti?uT@JGTM;6=BOiTw;nk?hVodi@*9@qmF@+qubJP7xJUR+a*O%Rh)pT#<u~Zn
zEvWy|j5z6UT7E0O9pkt4KF)9VKhdw|ci{Jv%j!>grb|FPHfB$u^<{&9DovM+hu9;$
z8uin#zOnL;AlF{BXk=MFovfyI{}<28$nQjppFv)u%ktXgfA&k(%gA>juj9z;`DJ<S
z{?ctU@_UfiSNLvz@3&O^KJ?6g%IFd)IQZ_$cl>_Dy`JU$0eJ-ZgBTejf9Pd>?}=sg
zq_y+K`%cgIU>y3;USU~2G?VFXk2rR0)qJ_Ujr^l%KhNfW=nLfj<wwiRKZX+g{1MEV
zqnWkMnCp7}7+Tn$HBLtRu%;hJyn(FozFdz!fqYK#Px=c`i|ngG%RhxU0siUi-}&DA
zychSQXOMRAUzqk;q&?-gWzRqR+W}g&Y)9)2^2gbV3SuAs3UV6az5XEo-2L(!P-V|i
z+70UcLG-#0`3y_DdKkNU+2DU&Ir9f^t$fFy@ITM@;g6>}v7OJ4*&y)!m<<E|!{~h(
z>gf5CC?)hS?6UyUhR>;MIsc|QPN-mTb3LE0z|9T*4TED@>Q|t|*!VOzt-0{`XSlPP
zr@1pKDJQFxQ=t-X3yb&BvUnaTUa=BytAA_O5=)dA+wK#iREe=2Woa)M<+9vk<C`82
z2ZDicz#nq;j|eV)<jinz#K#AQ2VA~k-W3?eH(xL?PA`T=cz@7!#vd3s84h`VNv-d3
zt5O!;-|rg>hWS8W*sV?(clm-r--)0<W!mE(_6xr7h=5r3zLDXu|7>{3H|!hm(;Mxh
zzVJyTQ13gO(sT}=b8Ax8z5TlbLI2Tnp|F1_m2<M+dvffASFTjb85;JDhE9%zl~-<U
zN=x-kndt8AN8*$z<m>l)M@Id_6g=%`Z>hZS^ZXD!{llk2cv=oodv=Ws_Xh^>(|iy)
zD8DKP{9$j{KO7nnysX{cQJ;W@`Ga1;H++hcQ{Q-lBLmbLbt?C<G2d`FFzyQnMux>~
zQbm->^BM2G=mfDeN8gwr_=m&Z(V#Dko~MdA9}W8Y{3l0(yk9`w#)5vl%sYzKh!qJP
z4GVtXkY7mU3uD8+fK;)N^j0XtfTXko17rQDPXVPn#u^Z!KBd+nrR69_GU(qUjEs$@
za{7ItF!h#{zfg%Bgeu%na52WM@1$?Ud)hCA&?c`Bt@R^8AHFM>79qm_?nH0{Uatx(
zp9a-RPzjt?31xsgYGCf_369r>_421dqZ~><y*fF3PIFFE%Z07-Z>&j;ihG(nr%~pz
zZoJkv79JVG0Q6y?&bfSj;lOEM7&9C5D2!1H^`iqy_U`uXeSD|4yQg#K!EP^p9Xrz5
zb98t25rOL4bIff>sYgO717=A;7#U7kGE?WA92*!w5B6iAXl|xV7|~D|BOelKkvwJD
zH#9mTgu4ZSX1&mWcOk;HU7sIo4-bvDj|N8D!ae~LqwVb2hD{q!ZSc1T11H)?&xKEp
z47Z;S28Y_k`Q|_C??Zb8=_k!^ztAqOKJOS-ZOAivE|u#arnTnHsHD(>^17(tZMaQx
zw+uCJ*L=VEt>&0v?V?(5a{iOG^48AX7Y-+^^)YMxP3w+D3uj#S>0K-5DEov{nVcV5
z9g7+~KMzrdf4!ug`@U(5=C4&-G)u-_9^X4OZC=6X`?+2fC_D8O*RSGLFB^L`Q`}iq
zul6X132E&Lgs7_gF)YJAiT*%Bj-yc~`tXhiw?9zPEQ$dBY{jpz67Rew!u>90TSOJ$
zBI@s|eov+1&T(!{&#{z&7js4-y3p7t2HEKKveoIO{UHR9lhUHkLn-~KGwf;ddi#RD
zP{`{I(FAt6T$4gG0zwCF;{};D^~hNr!>16fjZY`JWVvffKXoo<ELkwx&KqLJ;+eXr
z(LLJ`H@fd23g^~Q9fq-3z221BODh%28DXoJHiV$~g%y{wNtNmI2ZLTOCe1o3i5mWh
zSgAGy1-c!j4>sIBeVMzbR_mG<IoyQx^7mA(ICWU=*tkZq!D5E``cC@2d_d@v2MqB!
zT6k>X&Y+~r=+?8UkY2^5m+yo+OyAiR;bagp!G)DYIjAgNIUWX#`jcJR7WAM+{+fP9
z)N<au>TUJ+q&lj&2scPgU3T#rUMt6$(1c~S0ypSb77;%qn!&u4Z)L(#E_JZr{&6O>
z5p6^>jtIPt?i0FjksN!lSPrG14{1GZ(95ofI---?!|UHR$l(cnM2}@->^b(9DrNMa
z4TQqpky9yEdrH+duJZ&(`c4J@5+jF=T1$iOwx^7MnWHq$DGfk^P=}II#v$J+KVF4W
zS~eN5R0NtGDTCk#<mp4;q%U+5J5Wj=I_X=zZhcDcAMQhjDbq>+Sw1k}4~0`kf~!<y
z$|!;ogtUVrfnm2n*n(mNTB<1{#bD)|)6)>yAb++JQg#-B@)Caoa`&AIfkQwGkS;de
zQ$~WC^htOepPt5F=nrwjs>><9kyH1ry_0(vO3I@Z?eUUTQElOZR{zR@uO0Zh`m*7Y
z;d0KUoLOVs;lA2+Q@bhYtW7vuV$PPiU03ts&UKUf7aT>G?U(E`<B6(Ov8q+^s?~AF
znuKFp%&{%**fF{9Rzc-#X{?}SZXi~$ZnEcNOJ2fK9<!8x>&WX*UU~BMXRkav*L1Zf
zUa{+g`gzNvlU+$m&g22M0L4zCP8N2ewiq+&Mu3WxUhs#<gyBAAHQ_U@oLc<dS&R98
zfKy=wrdM7zz&WU_I;4`Wj8&-#Q#Z0J+q#Qr-d4%;{aKVap`Fl~GB(#i#<-Jn5TBU&
z*oLtprFyU9Xik1ZdszjBl7{}ta}~RWvP};vAUd5}M2DIx>l)=MpR%?z%X-8bkxCE>
zGs-GdGExHRm;et9Y3RUSdPYsif(rjGJRzgwVY{3N$V4&PpzI*ob`4&e*@l-m8SMa4
zB4@+>uWij4rOZFpoKd-Tz8|AY%(QHPZ4zefl2B_`_@poF8Wl!P2Y4VqzF`+o@S#AT
zi&mcNi~x)t$UG20JpCRs%i`EczYCbml58j@(uYS}J{N5*BZ5yjCuRcDpw$)VcZJ6K
z`uw3#|5&h<Wg`~EurFzUL3(68A_Ran`GPF9RAeUr@@AHb+CX)q#p7zi-i7$CM~OJt
z?4pXX_oxQt#M*!`tDHwkP8$wODkWjj*h`{nDB-deH2FOPo>o`mnMS&uXmqFZk{51f
ze#$$R9qVkAD7ED200`n`ZE=m981(mrH@iArC(&Ezc&PzP>minkO<aSG*{x<<hwvn3
zRL}TkhC{meF@c6l8bYzzuEUxA>1wPGHM)jJFafaP^auRB+sbx-VK*`o_TVPM2I`cQ
zVdxYQSEDI?KTkB0u$R7@y3h9cM~QSv=|z$zW%8$AG57=YN$?Mioc3eae}Zz}NjIvj
zu#56AP`2KF&|)k=qb3EZ;FbHlO>C2wwMh{Akq7;S61e@}gk{}r;vBgb&zwJV@x}8m
z&YX?sG||pqohWg~O5AfN=Sw!kw1ty<rk-BZI(5|_+j1^Geg5g`GqcC8?!9T-_HIcs
zx9oQg-_vmR?RU+b$#T(r-aNf&=HyLd<K0}&YQMPQ{DzC$&u^b`&s*vi@O$6+eba%P
zR@b72v)13MK)R@H+pq81IcvcuoK|OFFxnHwVjz1->)sEV?rPK~^P-+J*%wXt$l^UD
z&)<X|LEB#1)K#qdo8q0Dxoi2logU4#l1d71T#wh+J-VG64A<8f@aFpF>Rn};_sTT8
zD!KP6H*^(fepH}AoRp4%*OXE4pAHaZma@teGK0Q3fq~%>!B5y<*e?u+Qg$rJku%Eg
zzD!U8X^e;l8nK%^3<wE+CKpi;X(n{oFexp&BEZPy4SpRq*{}jmvVns^1!<Gh165NH
z%uu76BY+W6XKcv1>6mh8FkcR(p8!~zi1uyG_Xxb=n$QocBe?Tg`X|>As3lOVbJ|*N
zDQI{RZ$;qX){Xyhm&6H?xE}q&$dKz0)_m}2AC`>^v>$DNPaHgW$ou%wZttPPUEK$d
z?mGNvw<{2G9TUdn&EW_G{^B;6xsl03=I6x{T4~ek85#CdwzOffL8i>Gve`bDkz!eG
zJdAV&<v_sKtq0ae74-&q5ixTBneqi08zkf%84jKkP9k0^PnsvRI_1eBoWhqLw?&{H
zPvvE4UP`Q3h<d?;Uhu5o$*@{5+%01l@*zK=k#0?tvt6RX5AWW6a9>Y1c9a47M)eW`
zbQ`1_Rfgr3k}yi@z?B<G<&f{(2~arFh<T}ZMBWIir9cq+68=IF+_0?_az<;yP<6vl
z^(!N1+M~K_<m`ph{+VZQ+L{;g3NCNBwBhphOWSAb=kuCAtnef&YLb=B3-xOg_1k0h
z+Y|MNV)ciT74^xc4awS$yEa2*?j`eLE>~GQZN68;*;^KiIY(*KSOVnmURlO(k(~Zc
zr>S#;=Gq3`PL*K^8BCND;aYdVBc!E>yLg2q+=){b$%G2jQRXt1V#>5l7k3<e%`iRn
zgoc*Iph3<p{gh*qaAr_h%<1oG$_#juTgwdqZ;YrOQf|Feu5Lmfw#a!!^xu<O!>dkp
zVI))+3L@I9WhyaIW}}viFy=weFDbcOFHrx0;|FRer2}>{6iOL+U)bjz4GSr~Zxry1
zPicaF5GDkUh<itrPZ)O<h^NyjL%$E~P9WtfZ%RjmP-x|Ja(F=rVXO0wg2KTL8WMgB
zrT#hoLZi4%atoHiuZQE7a-jbpCv2B&-^e+yol;G8B#qXo$1e7s?|t>zn6Wfrtd1G0
zXRB`->i|)lu3L7;<ep@H@#X!O_J8Bxc_UJ+Td>%t#$Me#qk46F(wcX%=X}r1x|`PO
zMIBdA4cKDMo9q#(3(IJjEnr5xSwj8Fk0nGsbvT<s3z#yQQz#p18X@_y8oMQ>z%`);
zlB+(=2|93Jv@|Ke0#GJddNN=_X)wVmh>VD6c^%J{g57i+r1k_-W}9f4Ncn{VEq9>`
z1FOz9{PL9S;x6hh8u~N=u1|d&Xg-_D`UyisA2DQOBFO1pQ(q|7qTUmTo8}e{DyTkd
zD7y_h(_uLjQHZ1oV_0E63}%5o5hHp|pN1%5g=hgmui_27F`#<eB=;;JVmh~MM2k{x
zHm1Ua=^?3=Z6RxFbHo%ej{_p(j`_ixX#onwVTBpNTOz7&a=bNS!rd0(SlEoa{o5va
z*}kL-W4y&Hqn9iZHAa3FMqZD0>)D*KMl4dumfpe!iAA{VidZ8yxd#Q+g}RIy<wW$~
z<i4#ihF(%>!RzY-5!a`gFihyraBfFWO4BzwcI+)M7KePJ#4li+_mowVPcT52GJ`i8
zCgxXPSU8RHh3&Wj^##M-7fz{1!$7@_L;kRjc9DS>^8aMdFUDWqF}{|_4n{+S0^@!c
zuxhZ5!L287JOtbd02*XfM}3-pakaTVS8sNWTNRQ7Z^lL9is&2HcoXFbqHA<43}S?B
zO%S(;c)Ks$caq6pPWjKd+>Vrv@!kcRG;H%pX+}pzg|k$5Gm&Y5fw7UXPzHG2LovJQ
zMpP_#o@jQ;0G<)mKV>~KhBQNdMo|c~7*aYvu_4`d;bltn+w=;EKUmB>V+3LQOWCDu
zQ0mZ>mi8Xus}%o5x>1=ZqhBn;fDMWj2DDVl$b?s7OCg8>3tntA70-G^xruC_N;C|j
zhOqZUVAvZT@uuYxY_Ah$k?wEt7dj1C04NTiokx4^jOA+myZpTEz~t_vA#eJ0%utbZ
z7R^{=&iX0+f~{hvKW?j^-2G9hYs#L?ubJ(bT^-MFnCePeb1&{czkfP>(^`I8!xc1Q
zlP;@XG;?ihzJKtogKziD+qS&b^G4Tf=j`)SzG>&>@=N8fRmSX9b3K#0W40|H+Z`7N
z&JSE1IX^OUDsFF{+#_+KrVX=oH?@rmTH93r^r^Y0u7;znTW@N&-PLnBPD(P3=rsv@
zbBrYtvsv;kY0Q~!1ao=j$(W&THhja-vS2S=<Ww$e(pogNZALw_VaAQ$b<2O77j>F)
z+Z|4mV_)PnCOfh8OJ>UAIrWo!KeFXbsgn7nGaZ-qO_`GU<ui|6IxuBg$jQI>!uc0w
zHq8cZ=B!%Ct&CRh`=I)RylB;-cy3SB+H>2)+4DcUQ_I=6h6t~|R#Vp9q{pgbI3@-S
z0<DyVhFp?vErCc1eX$b=$Sbx?m;@9?L2Qt(bjdr;1Tgn(-+2`vlmRq?THf=IX0W7@
zM#BB&{OAdJ6DRM*U>c`kTK3qQjM!lRPUb|kU$bST(k{&pF^V$2X3tZbktg8i*PPkm
zUqmCf|0prQ6*?;28o*dxR>nBsu)LcRqwZ@hY34ZKxdN*MDmfeMQxGror@}Vp4H5Oy
zo%lYb8#78bL=4MHH_0_)r7N&9-KvNo-R_Li%_~aJJ|`@vKvl53v!Jm71wNu>MRJ+w
z-7E}zye*Yuq@O@~%hSK)5N{n&y>0uRR{Ra|3GnvpxdNL|;NPH2PM>}b)~3U9C}Na*
zWWp3Ng~r15%9rdl&ss;h-x*cj_>dg3wjFpu)||sc$FXa$Sq`P2gRSYX9145n(A#!}
zLO1i!1x?Q#6$gslIDv5=?2u!ppYn>IutY4O<$J&yIo{xEIh1}rr2p5YW6Gfy&Ae6a
zJ!K@U5i2lL+bgy{^#Ea}KzM$~7TzGInX*Cdne(zSV(H@Ky2@!m@)V!9T~c2t1Ac0s
zu!T3tsUmhc4)0*|xHwEg6?XAX%&088<kB^nHLqNT=apsTm3P0q`22_+Icnv4yrhcQ
zc?ZMha>67;W>+Lf{=SY{y+eLK_=p@zKhN9bxD$@-rSjsMrLWo6p@T0Vq0;c9_eovI
zda5(x;ESl9d@;L=Z%gm9w>soH^#L9%opsn5(tTc%y-Z-lrRQz9mwj6iN4x}i_tKoQ
zm;Itr_EE@vmhzpZRTs{Rd?$wCswZq`R>Zl`DsiUDd%z_oR6L~#4ELq-vS^p2EX2l_
zfN?6fZ)9jx0G&%J91^rH&XS5DSt$qOoruxcoAJTrZwLntjr#i-rx^-Dq+J1~upmI%
zKr#fN1FfzTKyq0jkh6z8*|H#hbzo>T=pO=J4JH^eN>ya57vb*S!4TM-1)2FMugAk#
zU;itssbnv4;8xVtdLjVTnPL9KIS5HU*Ef5pif&B?3+og{=`Ef3g2Id$Ck)frnMoB%
zR6$t50-}BF&Lg<}fl3q%M!4gEm=mh=>OqAigwN8IrpCUZBGKH1BBGT@MD&)bhslnI
z`Ouj__~cufl-jc@r8=8Z^@oV$cS%YQDbv;gC~BP@6}FGpDjG}DT=8sW%)`)jj}mDE
zY7ruM_$lMkM;o4sZGZ9|=j`)uj=wQ}wffBo{QT?=fyLh{t5h-8<hW~>Z<t2BKLDjN
z;%<r)MWnGvroyPRao6sVF+>=GHdz2uBQut$pC(*HwyAuOYop-Ihzb_6qJzlw92teY
z8p1DrtPgXN1jpmej}JpFgw%2{&oZZ&l0Pezsxhu*6H(=HR|~W)rL39pQwDSoxatC=
z+WqokvSduZlr>{9gi;zrX99LgBfLfV<@Jn&p&}$tdyyg|Si!iI%ekO+^kFxp(*;71
z5Q$t>;_{|>se(X1+bB{#jb6s$WehH8gat=V2!|<x#y5OUc!5IZCw##%kswTInXa6c
zCNLv8-A>^R%JYvXqDfiCOdn7BC1U+{(mG1-HNtgDHAktk?l7zX+GbP6K!{Q7LDrG|
zOyez8GCG1?ij<jFG{KtjCM5ijvdGP>3EQedDd&oJDZQ97L>R9^a8lqo{E398WBHsH
zl8F4z_zOj`PCf;#spp(cbJj#tXRN6+?$|lG54<^Je!}328C<i6V}>;!<`lpBLeyA_
zm_?N{!9?ZSSmoO2`U4*vix(c5Jp6G%`OLG4iZ!u{HCK<n+Z8X^H`$Xk6h;k|v)iM!
z+ZIZzXFbu?dp^jIm-bBMh+jU&%hp8A##qh9=;og2qsQW<k5A>?qEt1|gh=Gn#d7Lq
zz44rNQRBKrBbV<=<h91~S|<-Ct6CCO?Xjx%=&Jo6bj7P4i)zc0hN>vYNK5YYrfB7=
zc}qt!uRM|07RzgkdUnV2_C&3FKF+OQRI8kORk!lWr&|_vYG>6QjW!RIq}FB!UF>R=
zb3Gh=?D2Tj6U(z*H*Z<bvRxg^TOD0<Af9(HYCR}rdnkLh_H;k?+%T+8H|z++eNki6
z$Hs=FwK!p|j9Dv_1=Wdy=2$^<vZO9i(h)1^NS4>lY`$yKnarPXdQ;`1l|x)hMa)vM
zn8WFcAm)<<h!f{0NMR&r)#Tm}EqNc?3Z{dJ!lqbZ(_BlUd1tJ7=S|zLg<^NoQJ!$r
z#2hurlKMo6CsyJ~Ry8I|>l3A`W2LJXs#hhdH^-_sC#v_ws`o9FHG=tHVxQVaGR7`d
z)V6CeAAE!<(=C@f;o2T^ZI8PiiE1lugOOV=&ybJviY{-uv?)WO#C`Rtc*XX3-j2zG
zh?(z#V6jyHVP4gg@4IW_Y;(o^X6;kIqnh3d9)+$5T3@Al%rv7VYN?204prYU)GpYI
zqh(v(Ihfe`cx>zA(JfCzOP-9|pNblvS}>TUc+MM!8pKQ5J#&#n``%dl-l%8a2f4|d
z>ZrX28h^IBI~q-nnOFyA40uV)Tt}?9EvhY8FxjH^s(F)ZwsXN*aJl4C$xO#<<x~1w
zmZF5EE@r8lv){njw{1$a?TEGQnA#o9bKkHwCv7DOTSLs&FxPy;wl<klFg+N{sh(|!
z<+$g1Z{%!97P%5dt+ArkxhLX9YwzW7=IWTqg;6W2#!M`#N!EB0HCtjeTcXul-|2eS
z`L5>O4pg&Xw+i(v%0)e$x%cvrYOx$L+Jwawv$$pp<CdnVw&~t+6%9(vw(B>aG@-xl
z6(e5M<oY~Bq{)xBcUpTinx8h5^f<KtnbYF_clDiBJq4QoVlT)2A2hlio8cb{bUl@Z
z6wn=?5b{F-7A!21kuTq%mZ<h99FHe}w?naxBT?4!3tR{Vs~?mo$jmrdx#$XSfcWkq
zUxxe@BA#r#0-1hc)StqEhK!WU#u10sW!7B2yc{;H@VKEqB+FvKpIC}1gVKW>`62y4
zX#KM5MMxRsmO;q$;C?JymKZ<N!l;ls0G-MV&bGn>fwGe!Ov;|@8gxm4j7OSdF#+Dk
z(w2p5<cNa`)h@pQt)f8<q*|-E7mX_^f(x(8N=i#9g$r#G6`<`A{umhwe}db1!$HQk
zm1Ze4MWk7(U^gVXt`E8MMC?MrDTE(W7LU^{KsSa~oTLyj3YeTWjaxAMLGaOszoXmV
z(~a?`y$GeWf#LoUw<(P`2p>`e0`@|TZZ{~FB?F8zC@v)MIz%f5&{(`gm|R9M`98}|
z_&MSqB_#B}Au!2drz&kol(fW3T1XubJXTT}S+V0sS8n$I%5DDR-2BUpml`j(UTU2=
z7j51j&pj}CV8LQj6iZs>Ee**W=adPXwb?#(YTi^j<6E+U0&<wkKGvE^gE8vZ_)g2b
zcK0odbMnx=773($ey;{mqNdW%L$nsIX*<<jd7Aes3cIQ_Kg!c}l^cFkrR!=kEYa$)
zASR*scYcO>wuI-Z$W$ajta?8O+0KL4P!^6VaUnyng-q{3gu~KByvJ-3I!GI_-ZP|)
z;4DIR1m4jSSsO_QmR%78cwtfvAq&I6i&sREPKj+1G!f%~Y64QCVaSWZiqvjU;rYoa
zu?8WplJkUgPT6IkccPNtvt3i!KeBNEl{SlVFmOsHtm$0?d09z`GVGGe#m=jPiZ3|f
zbb$w?@clBldkW`dP~q2!@#!A1$~+AD3BJ-csl{KYt`Q5#0w?U?@E93~s3@bS-070!
z5N|>|>@xQps-HUgC-)KdFB|P&X&3=z%IXPoMxLNumtUkz88N5xd>Xk<n7?Yi@R9gD
zqe`n+F5LmCG-(es`~C|i#WFP=Nmk_|n#{FVwAFC!hMqHioXDzpD2g$NQu0cKWTxJq
zsDwjbNj-<uPttmVie9~|=`d5B^97%Q^5Stx1(AJ*=um(f;0P2aq5l^`fMkb~a*tWw
z^XMtn+~eBU&(wfgU1tKppld9Is_%A5CRU+z=}UFGTur1Cky$+Z4tiJC0%PJu6rH6|
zMumqwuHB@j2Q5+vBa!d~ENF($xkf~7BqbYGs}oDJku`7pe7b(Ja$5GzQNBvqvwlt|
zUZ%m8k;mi1z`v-StuCd-$K@_pDj6PG(o9Hl!7U)+E9-o*tG`UEm*gh(fJ>|-n#{gR
zdR}RXFzUEceKp-vl75#w>?{w)E7=V*7CjF>Lm<d_N8>N;Mi2vn2?VGpvP`J$Y(z=-
z(*u38bEG8dhoy%+;KavRHb=mF2|y<pa$i_SkwjQA=5w8dot*20-#@Ha0Aeg%j61Oz
zxI@o)#p59=L0k{YDq~`F!Y%Zot`?!XBAe^`6k^B(F}w!E9pKiE@ioUFhbI0Zgz0i;
zP{tWqB0rSrSr7GMKM)2!<St-5i{)quwlOZH4#HHcf0#{L$o1Jk3tyqa8D3(5z0WY|
z`{;Q8iLn8O?Z6Nabx2uZC`3#gbOabh4EZ4@ittmq(H1RyK(~)@bLXVZ9K?pQmQia{
zW>LA0)ap{|{!q$9Y6D)Tp=6NeBUxc!O;I&eex{NDDL1QwZOI6UNRpYpc*C&U7!Hx9
zWacJ;u!tWO%YEmSI!;u2JJ~NRA_>9B&=785U994)Ia6PaTPkOrH!L+#ZB5itv*2_k
zoXs(3bHceP=G-*7|3gc`qTXq;FE}e+tDM@IEG~UrcSQ$A!8-*X6wm15#Yd+0-O+R9
z&C`a3vYOYoU)etAzWQXmY}>SPA+K=y>}%U*J8tCFB^%mipPugd&{42xLgc&UoX+yf
z!LJ>RI#*rw%xgOd4a$w?)<M*4TD4G6k|=116*R;Pnx@PjRkTbUVib5yvZ^)dYEPEd
zg1}CeR41!j?&cVY%!cBgBk${LXH2i{NaQuf@*3xC@x1jnb2d<cWn5(|3M?#DGM(ED
z8;&V+(o!&^xnU_=fV}^}`2$HucM|lyqx7x;Y>j*MoVjDs1L`rV&Hwc79u?%}pKu2B
z1Y$!QYf-IsHi6mWtW7$c_bhsw{Wgc&uNO6l^EuI!O6t!;E$I3`>9loqaMvq3^SUcF
z?{%!l{YM?9?lR4fHWzglYThr@A^d)&uDi*QGGjsd&obUsUnUJ`L_Q3A6EK8Ju(xG;
zw!ptA9=iy0fewx)!vrY{-j>Zc1g0U9L>$n4nWijh$!6q8OK#bfO~V&BKnbua1((Yv
zZw5A~U|M9Habf#I%2DvSbOpXpIiQWx*b2%K?uT2P(@L0y&UY3a-z6&mpTtI#wvolY
zia`^1;r|_2MtY89;wAT~5FsiGtor{KKT#ljR^&+ex)T1wbdrqIMxeed+Eh`aM4+O;
zlku{i5r7FmKoS=K(y>k0#aiqcFI@JKtQNw4PmkLyQoBSQEdwSg9kZxS6&)m1>F(jM
za1M-mCXEnT^aM>9EJ)?9{OZ<<@ZmN^BC#cdd?8xXw0nzNcB8UoXAB<9ROKx|*}*?W
zvTL-1&me#u9Q2>EX)dbmrtKeF%aX-lg4SY>#0I&HE%__jrS2K9Geu3SKD`TF<SLO@
zoXFW4%h^f>zPnV?W*9AAcXj+{)}0GEm2#X7v78MQXS)(*)z#*oS+|iv@b=GP6~XfT
zJhT>-`(4$}HqFJRPELJ|TeGuScWsRtFRrayjqvqG3SW1tDBP@}aGP%DdPB+qp@9Ol
z2;*d6ZwU)c*#NJK8z71juWX|5Z2HKw70QbqtTs7$R#EzcS#2SxA%R6iEDCm|6?DKN
z(xx?>vu%SBMWD{Bh{Bv$!2(OG=qRM5{zV<gV)QO4yJp)sAJQ6WE0?M()>#FE3Io+Z
z?vwAKU+IFla6MFUp}u=jE2%V~rOfJ8f0_enX^d#0vS5MA0=-2~EEis1I3aGDlIU6s
z)l79y$}A4B7n+%13e}+`CdCqkQ2IcKaHM5?Bp9tiSf=suyxS;zMk$D8B+!yd<z%c9
zwi}QHNcc5<Dv(N|979-5;(|(9q}LQXMAM1ZAzk8HtPv4KFF!UKgtq`_h-R)ymX`oN
z0!M1+p}$6QEJHI_RC0OX(!k~5rQqzQxxskhrpd#Z+@AJ%OLH=(Dr&5PZX(z{Bl9M(
z=7Hv1e)`hWGta;F>}+eSpnb|rJfEtM%d5WG9o3e6R8&1>Ng69eW%2LUyxI6h<D0E-
zw9cJ-r}^DyVw)d}*BrTNJPN*laSfycb!+2AM`E>WW_(wlk8XYJ#)ilKP!+9R1LP%I
zbR=mhi)zb=jb0TsRsQA^D_49}6(TX_HCxFpgXa1=)2=-2^&MK=-!tfTIhNWV5YEfc
z4jzG5)R%#^^Qu2mk*xvdhx!$DhSG~V&4!s$L+M2gr5Dvor5C967N1v3N-t2$rWqv7
z6g6gwX8eyBw1V+ja17c5tm8qV!F&-4_)Il+*zbo<DkF8kVk9NpKH0M7s2^rH;qYi^
zb9?&$1l%C-q3h6|;h~{j^!flQ1zP;=Cm;rGKfTtoX02ycdr0V8`V~=O4k^H=LhZrT
zt2eYAT)k!us~n7hoa`g;cQ1Jl@IXOz+y*&wU<k^!0{dxA{~QgETSG)a!{8s;g~v@H
zfD{(|UnlDqet<C({*-Qij@uIXzVHs-jBk{tJnLgGWbt0HYrPPAW6{W6yHeb51(zj6
zN^z37-}C6Tz`M@5=f6Mx*7!Ts-=DY^_)PdKe1`cEkxo#7pw*i)oq&1yDWZcIr&p@c
zbK?4||3Z}!;E#a&e`yKsqT(mHPpo>UesbS!2bW(5DOoY3WVKVix7Wm}PPpA{dGvQw
z(Y#uck`+KoR;&l=ZY{^6`0Nt{ezBe4)si;tf6%sR$GtDWJhpFQv+D&=f_)%J;g@Ff
z8qcc!iF%mSl8m181tP8&hQ0km;feMa!Xsfaqe9sA%nSY?T+#UXiLEaHy};DL?3ieE
zy#RMNa5#e~$IU4Rm^WUg=>d@uDabAvf8uDe<@S3BkeukOO4tdk8NbBqivl|tbXbu?
zsQRHf&@x|k$vJ?J+C*L^u!V~jWm;hxQQ_f-hA{x89#RX3?4F!!Ft<SX&CK;hpE!bn
z1`B_jw9i^3?<CX-0+}@x(_|tYd|2~a;A})~)h}3`32Q~nT9L4}#;mPzt0!vo+%O*f
z^ZLZ<U9r`>5~~l!Rv(P7?ui~b8e5H>P_5H5o0ugWZvxP@_`CD>+JA*XJ$zBhAQF-(
zY6!cs=@dtF%yx!G5!XX|JsViorEL-+$4a9Z%X!dZ5x8fa5roYyyV4S_X;nxEvn@l~
zf+V8hb!oICjiOjHc(|}^K`+t;R0O*RIP{7}a8|oZBP?FjZyRNfE@`Z0<GRc947t84
z+4PtvEMI=c1D!D|<7Ca?-dlM^(-`QPEp1Vfje8%lMJ$7gj8AMY-Q`*iR;S;|A>|v*
zwPlz5O|BWJX*2yx|Ay^S7I`4rBF!|QV{mbE;jbaRAZ(3Y5j}5_b6{<1l)nsOtuDVH
zD^YA}R+hiKKAEM+by!wL{_+wagHR+C6NcqEzG%SM`Y~h7|E8m=XyPs#)d$zkvb=T?
zbH+SwUfHr2EpjjPt0ir^0cg{iS0KIrEF!%t-v8h}@BiXH?`Q7w{&Dd=bM#;ve|aA`
zlz=NPQnSq9V26nERip{7;ZcdDEi$B^B=G@1HZ+<MMWVZil{}0uqBjR*!+8AQ_e)5Z
zF9<(l{5h6d=IN)@!=uNT`P8^G6S-!3kK;8Yg9ZphCA^~G0~k=>DP}?GB0C~J1pPxT
z0bHRS9iK9v@Ck%^fHNw*f)~ORy;Yw%(UVf0NvVYs?!sksgJ|Bw#MM4Z;G`SDl$6E0
zv-5~|_u(UlI*&1cB?_j`QiQ*wo1J1oV*=erWr^(dzLT&3rA`pWDGmv=Q9-;&nVCi(
z`vwE4E%cQU^^724qzS>flnHH>RM(dDh^R>`*`YBNMOdklQ4^tF@K8k-X-qLOr6Zqm
zLn$+RFmFvFu0)J8B39Cuh&GkTy{iz=uz_U`_JkVLsFHx|KOi7_PblS_dCVt{^^$ew
z={arO(KfkHwox+8!a<IE0gPV56~pV+E7sYkqpNnsi@Tuhvy@FM$<x1j{;Sc-c9;ky
z8=9sLE|j~H4p*{Z(?WS;v}t3!d{eY|(?VIpJ(I4&K5c~EQAy?N<}2pejqlWdz|R*S
zoz^95o8H{=#+LuM?b3niu9^CU>e@Gp-Y9yr{EhOtz&rWz>h06}7fLE-2IuPLOWLn?
zNL8Cv&8~ZM(;J(<vn5fxE>^oPUb`VtyDe6`End50zW5Q)Ql+bILG>-aF_zyrr@fiq
z279Htj>R0*1H6yi!f0XRT;9C1?W%LZk$>5A$u!eCr<!*(BW14VUKQ9Gck4i{De6r{
zWtY!gIydWlEiz>#O061vZ)e4ncA=o?@{^aIy!`B?XJ_4W$KnO6r_2jB=XCQ7Y|m<E
zpI^u?yu9bqo|(?q_D^*qp}p>wJ@@O~iTt`)e%<Wj@%)yky(MmJLG_#!P+BTo6)kE1
z{GJ}Qh&tOoXEg!C=JR`~4bxM)XGR`TTkUT`lb8-Kb=K{xQ(bG=S+S4P{7BQO+S_D$
zU+cz?_uGp0uGRfmYee|R);z@eaaG|ytLDe+HX-~IPvO2|-3MAq{Xvs%Z-?!JHUnaQ
zuvWKso9Tm16#glv+h;QTRA)e(pIUYM3JgDWvT(6(U$yC{6%<aDWKzh?+6yQlX7a$f
zC9E65E*T!C1#T<qFY_u`48xxr)7aMm|Imy>aRh7`%vA9L?^=_=$yTgkfs;sh2*<sx
zP2(ifs^bleO(EyHC++@-ERr+er7i=n(q+?2P@uL{8+eOg|KvO%;nrufx02I!LzmzM
zwDlY6%j$op(*YB_@F-eqV6DBF#<Y0Fo+o4p)854{;44zOup}_^mY`|KJb~RM!%j)d
zTVZ7+;hBJcx&Y}|=mr%GLC!0Uxc~-318c&FSc*<SI#$}U2-eg_+S$lv8ga?2VA&<N
za>4|QJF>o3@T&>)iheSG$$t9yL9Kjf3(@|Ew-A;>u*Ly2S2Nvs*xtbV<g)RF{e>G)
zUcUmG{|^xgZ{RNc_Z8pHDBt>*e?xwcWx#Ly=NrBl{7x@03677~%TP7_DdbuKSYgXc
z9#zMUt|k_63ptomLOyOi@PZ(E@f_E$@^palG2ZtmIq~!}#RBP@3viLlLtNXpxx`p$
zz_Tm_#DUg65D4ZQbctXjT``e(RHe$shWp{(6#8hgE7c5h?BB&ygY~tkA0W_wW<)pz
zDXRk01^DKdfHx_brL=^QFav0z8o!1AOfNg6T6m!D58C`39Fk;oRA$&K>HiB&lr2eB
zQ(Bl>hf-$JGZPJy1){^@IY|NVLM<Yvtkhm&{SfZLOsWZti`r|iQdL-%WM{xKNac==
z!j>G~BQl!mLPpG$W@c}SAiX@J#w($E2NE76sQx?x45~xLIe!aOybZ3|J+KQ-8uMq&
zF=Ne?6?(-<cqX!yEaX>3U8~~x9Z^TeLS7{xa=w0%!)?ky`qA}sh8vc4D4|Uc%!KEi
zb#tnP3OK2Fv*C?~?=*e$D{x@~z*v8)s5(*97%OUw7r7Hwcg*TeLW|dZ!?tE2uVrrU
zeBQc+LKk#&3m(Z(#r>60ZL@>-nOioqVUEA)TyypLWJT4qIayxu`tB>c|NY+Su4H4=
zn~^snSG(eko2K{Agm2`NZ;XoiTV>_1Z@#kmn_H)iAJ#weZs`Y4#p|DlI%@7&xZJg<
zc5!o}s6AHH9xv)hSUY0Yj*p$C=|VE{NATd4gLC=ua?f;kvb1tmH`5Z&ufMHBA=I+9
zG3T1wo6sBg>}Y1xS@-!ZtNYV?h4>P6uK65A*;ar0e>vA6+HXSr7}b|{?B-P0RHfZT
zx@%=+6kf0DuGL@Lum<7l&7HdLdfj{N^x;QlRd<K}N0wX)SG0An(Y<f6BK&@luG?jL
zzuZXSdR@22^nNo7uhDgHGrhl&!YRv;@2r<r0hZztfT}Py{u8Ev3{ca=6<qbJU)KJM
z)QQRU2lAu~U<KTLaCvnSj~9d$RQ$4gXn_)&435CrEre`94`zu)%n8Z|5~u>ZLIK|L
zH@u_eyzEM|E7IUH?GOr1f)#L?Hg*DPpa_KD*2w~F$V`X;1!)J+V0@rw&xf!m6tJ#Q
zz<O&o;Bihb@w0VjH~@-*<-p*aJ_8gO#=8!YX;a&=leC|?MC|=xbX|Ifkl=!VLqfPE
zyhQ3~;?Uf2;kHy`Ak(QTSotb&_cT3>41#eO^o&ji`ru}oIfZ~_A>~YN-a@Emhz3%Y
zn3x#@laVmv+n9Zp7oINBh$WH}iN5s8WJ%h3ES>yC+Rv!6aHPW)@w$0u$CMt{0aG@{
z*LzDP;M5atyiDvXu^0w+h`^MHNiF%v06SK|0WTaQDFr7&J#SfsF67PJWJoTyp&v8`
z2b}&;Dp&0HM@L42-I8}@c)J)oF%$?h(37(ILeL13Sihpu5mA^TG$Ok<27(|*P6G+5
zs(|xX$m6G!C+kH4=dJ*HNJX<AfqoLJh(K^7M7k7dcpyRp_ZRM2p&QwsrLO!t<RgLx
zyINQHtzCEE6S$BhQ27Z{S<F<HFnMAo&pTV9CeOTS&j%Yn-1B5S_o>*PC*RpKz47vn
zOFL#a&z-rMw;{Uc$tgoL_o;;<sLB+I7B>lNOU&9bw<m60yO3KDEo_MAHYS~(h2q*M
zBvHldqWS9<ifZm!^u^{W>m3JIR6DghSyJ_S#g&S0R!!|su7D!ghl^_O6>#Rgs;Ftt
zXQ|w$77ICB^QZSpq*uQQZAN=uYS~qx`eWTLr{+&fcA53pES(;NuWwTA$}wKwtVj4g
zNU<wa@0nTHsoPa*c(2faH@g{sI)h)mWHY5cXVl3bqW2`Xs|bnL_oOE_!whO9+a@N*
z#HOhhN+MdJ2!78&1Bh2PZn2z#?6!v?F2m-k$>#qEln|^N(pu7>1T1pCy!K^sX-t}G
z%dSDfXqH`ai7SP2;5DZ=)Camq2JcZ9R(Na~*m?$q#+(*Qnntw!V&gP2dPvzgc_aOk
zK?dBi8nIE@R&12UjE&MH;0z`1b6wvU@7v5aE9^};@(5yN+*WLT%w%>oIzTa)MTbnN
zG6+ni!V+80DI3W$!5Q|y7myld`~@B<tB4SWyyO@ta~BjPY3oGi`{`{tv;uKU?|X{X
z?0=xON)(p3Ryj?%`4_GO)7HBh&gPi5LIm=m>%eDBXXK@VBGtGj8}2{GlrZ7V#}^Qt
z5xR~_&i{W&o3&dfY@tqKdm?RzBCpLdMB*uMicb52J-~2@CKQN#OxYmIp+5HFh=)^t
zoY5d1N+5!TlocdC4jf>+KCD?oV?(JDQGN*jJei$D-jh;#WIqOV4w_skOB%5biQ6Y_
zq_SwA_-AY=Q%11}XkZ?qcQnQ+n<!|L3LtZKb_@dnm29&7hYyGFB(nW|8i0>bH<3GL
z<;)c%pl@0zZb}rdj}@<v7jK-hLB{T=e4`CWX-@upeqADeO)P&+Jbzs@Z+*<V;g+*-
z(ZHE<fF_!p31dafSdp}rC-X{@Wp4UVd6(0g%up35DZfo4e9P68aP5q_b|zf=Vy=Dj
zt^;@ApvMdcJtgKT8>tkOC9U}ht1D)8#jQ2T+^VFr6FX|=2AeD{ftg{EdCCGGgZWhn
zV`bD>d2fR#<X>FRnW{dOfBhyzyw#U1yDX~T-C479hvs^_YUein^;KF5uQlQQ^=&E&
z@6hcs8s5_y@CImrZg^yX55XPQfH(m9ex|@GJdJKs_D_V<PUA(HWyS&{?L%@hE$xC(
zjZyYPsNzssT!dg=)JtC7fY>sxZg3QcJx@QNg6}p`G%-xj8*Ns#9>q%xJgvYnAVa-0
zgnlx$6X7Y81Nk%gT7mmoFmM^$JY|DY37f-A8w7K(7xBdH<QWQ4GbQg=LP`~2v|Y+Z
zB2AWxv{<stJ1didGQ0+}_XP6zOPXPaQ8=_k?3}%JcJ=J(tB=Et)a34krjDx(^G%!P
z^EbzuHoc(*TeD;Ou^H!#=F$_<rcINFV)>hsT602M9McxhRLpA|lVk<-*&R3n+!7+;
z;kWIbD&U$3$rq`$Fkr?3{gZ&1{4KkvFpCgU1`|Sknx@DqX8eN6q!a34a~fpHxx<kl
z`bWI70Wdo7;Xyzw)7=SxvjV<&by}d4rWlY{7NZlnF7g!3(0PK24ADO@)&W3&P+F1{
zlyabYN-<G&6IvdVF9R$>pqn95Q(z8gl~TF&pj9whbb(HRFan}kh3!V_yToKmi(e;<
zbVw2?nFoj|CrnTSZV~f@aL$y?_0Aye3(GF0KctZ%r#h$;vDM%TFq`|GwDHk|jhy#^
zt)@w{)sQBOa8oXY4k$!B9vI`oc@nmzHOZiQ?2;=DRo}0G<!DHoOr^!9I8;XU(nE9S
zjTkGijm2xwEr-(2G&2@x*8@l8VIu;ACNnc=`UmluY0&hreoCt+Kdisxm`qG)8Gq_u
z#%44V5h5ZMOOFGBfz1hW`R)<+Vv2~iDdX+;M@x1uIZTKVY}gnXFOoK9c*EdB$HrgZ
z({+?-c8RJX@FNesKjxACIR=Hck?-W^Jm%f7w_>gq$+DEhgkVroT>s{5N?%M7n8j&h
zCMs><zV)4IU)rG1j<D~<HX>Sw{B0wr+X$7ZJ>d%l`r3S>fwr*_*r=f%cZn!NG*P3?
zRB_z^J1t4~<l!R+yV&taBAC<?h)C&h2m6%}NXQsTBaF5uCYclw9|8@jeE3T~Cn8eh
z+)zZYgg>B|j9%6C1xG^gXhOMIC8HI%u!IkjGxW*<ZY8B-Kq(mD&kC(nJ)9iMK}4CR
zM$?e(IV!bKlGKVw8z@}{*Fy~A2@LjmDVn<fgz(>~DlF5lQh};)=zda2*Roz+f&B`^
zt$dGw;kyXP=$6rzFcilO#R)@W%+NS*a4*<$6Sm5jtukS&i`nWDw&s|v`MmmLTk)&M
zr|`(V`0V*-XS!#ZPULsovt`lJwz$nRxf}Ay+@k5{zf~Kp^u$Zsujc-+=m$lARx<D0
z0_>_%{|o1qsZJnprV_x{$7XX$%=n#>E5~mbTawN#aILE=gXe%sJ?w^Uxs%-==N2Z7
zl}X$7m5kFo{gfV}%-qVE6SEC-4e#jYo!h7Mi|S%i*`nHJTazp(OBAe%6|90Za9X`s
zuD6wedY;*tC~uFIw<pTi#>&^m%h$(?HcV?jDyf+6B*Plp72B*YUfhIVrDZdZ&D6cN
zA5?K^C0uwwUTeH$`~&kX7@r(GfADvEZtu|L=|B4<2ethadf@r4PdE#T%`5({X14P?
z`dD5=GQZ@Oqwq3BykEB`i_52V3y#8sqc-NKCGPBD^<52oB!C-G+Aw=!uHkCKySn+3
z-P8Kan*V|N*Na8S_ScIIN)3LkRN*(F6POP#?JV81U3I;@qPt#uebX9*-}5-So7L~_
z=v3{=SHG`v>~X8#&n?D>_nS?7oVxedbms4|>V9I-;lod?I=uRcQ$ykW+&vAtpER(r
zJ9p0(-A}e?kSvuCZ=u9%Cv*z|(VeS;eWDJWB3t}R{8&!ClQ-iGoHG;nN&pu!M0E!6
z1<?ppg7RcnHp>`*W1Lh5$)keR0xz}5Dbi0F$bt6NEtLg+ReNC_fSL{zuaRxj`tdbi
zY@3F{K>Mg@?HBTlm&@BOUZv$M5;KhLvB#JOMGq|TmTf<z!IxHu0Ew91Ey%t|sH9sJ
zZVb(294V0*m4^XY&d?JGkNcFC_Hkq@FYSU7CVFUDxq=GxQ=|;wEWB*KWCp1dt=;f0
z57kYlc}fS}%>0teTP|&RZCk?ViW*%XTAjBGbOn0QIi~8*L&V>Gsngn7qPk{Rbr$Kb
z<(Lp&VkxCC$A64!y`mQ9MCKWE{c1@)*$Rq8L7ubmbh4WPEMbx3R01H4K*E{tKVp%S
z9G2>^>;f98czBRl<nUUYMvEU(lWZ(<h4T4Vv&g|12b$M{+7k=>0f;iZFq$8v#kZ10
z4h!zK2Qtawxfv^=a0TyYDU<w>e*u$x$#P+HdI^_^C?CckUyA@8F_%G)DAOW6iV^NS
z4zNp~eZ-jN;tB(kNLf(`v(-cENaPbuvZcfL!Q*R}FmtmkrZkr*%^lCfRud{mO`z^f
zu6f7Lk7q0!2YmD3)Dgxe7dD~Pad%cGdDdNGGvfCMTXDzv4$C$Hg^Nup$kLub3~XT+
z-MZ+;wg}q%T(0NXE`gi4QHcK9WO+cAh6-npfrVO@pq7aoFo#BG{?^f7ad?0cazAeM
zFLoZeqfzIXKiqlb>dC3S7Z0C5JhOk!c+=Vu-Fbw7yaPRwX9h}8T>cQY_0~+T%1X9%
ze(B{ymkzylc&a;DRDSt|OE0`Ok+9Z9t#z<2y=@@2walab>=QMLTrA~m^`DYK6ys%!
zjO*WO+f}W)s@qkd`HPZWcKtOw7}o`w>swX3@{HHF84!L?XF`<s?0O0p=yp{a-YYfW
zP0B<EcQOnymB)fW_h2eTJPQJeOGtkr#tA0f`3-IlpUg7<Wr;t3Rkj^ZhGa^LOmE5R
zY%nr|j0VC8GFqF>6A^YnhZg*r3B@FeIN%W-^F;xVA;`rb?W=&u;3KO<gC(Rhv2+H-
za0Dhs5{YOy!-?!$z336syl2njyN>|92ifsI&@m!98==r2;s(YK*>wu%a3dKPI}bG%
zeh=ZG0rGm*=S(R;FESicIsUUaLp0-q8NTiWpO;0_(4AN?OV<K(T*I;w<4U|s#(5H6
zLdngv49FEdm_&Nco_o=I-aGSj+|~#t5uIwcDp9d6R<SN#u_0cvk^I>dmRx<}hhO>A
zuf$8ce(;sK^)u^V-}22ZSHBV~?TQz6Paeh@ce5igI@|8URh#3MEk7{N<wdPkvzoZI
z?y5Ov*%H-m`Ro%NSJtii?EkcEVQL81)Onq2jo0d}ott3xg}TTWZIf(Xk$%OOnO9(&
zC|H)98RPe9`ru;;o^rA8(zy}YWFrys=v_zr!)#x{k07ZB_4KkUTWs(UVbF$orcve#
zPKb4@#<wvtS9H?gqIm*87dS42mmCi?;+P#QH1W*ia7gqL=^~X9mJV1G@dJbxX#OY@
zO5sdXJlKFLvrC9jyszT6%m%cWxZ-SfNQ4=sq}46_HX^U3sllThObzSOsR3N6sN(YQ
z?+@S6X|4KS6xKn`W^rEJa()YlqL`%(RE?>8X7}p{t{jLNo8}r4&0Ay5TNBNlG5j}n
zCJXCsQ$o1%(}AAg5M<cicQ<vqR?dK0RN+o5=EZUxI~!v#&31!%*L`Ne@xX&eABKjx
z*~b|B$phvEQ&Gsmn1mh626QDn;{ZP+khSch^M_@56!0<y-^%6{Eo~uzx_~dOXojC+
zXP9K2^~b?Web8)|+Ur<WE&RmJmvyfHYx+URy>BllXJSEt<H5b4;Gd*(7cnZmaGIza
ziL&WuYh?v_!<=#|4nCHstkY5ul^WQ}gSQW;qJ>#D&}$zeJ$0tzB_Ei<zN9p}*Q`$I
z#T5hxtr<%xWsrXL!0a^3iWOd_g}E0UEh2HWM4|Kz=@sH<S-y%LDXmjcXWNlc90Sh6
z6y@o{ExRK#g6g7QQZXg0r(~t=-$SCEwCL}lMj|ogSi0_S<rZJ|eBA@}2xYb3u(Tyh
zU5V1xSZV9jfn;98?CCdOc;kgw-kPbdTREkPoT^w()$BUB&rH@fzPa^{tyhijc;dDD
zq7K(WW$o+1E5W%f@yZR;mSkbWoF!Vg1}C5{I=Q@RIIqkr$yQoH+2v<0J%b(Re#Iu!
z#oj=%P@#@oip=hv3&e{yPHPuH<sH0q5RMu1n}A&97S8CVTjJJ=+f?Xh%s%y{HC_3t
zzih_sT6L!tkL#Y!20R3!^p_y=wB8tm>OvqBLPZ{;cqFg)5U4nud!#CbNi&(Fy4617
zQb|+K_2{{y@bz#MR>4rqVMjQMzN9jwy~?cg9Akn>(cB_SLP_b6%rs!+59Jm3bUGP;
ziynB;=INxj6MnEZ{fcUf?41cn2YmEMb6#8+IBf<;vcRP=Gv@FOk=Gh>%`^np2JkI)
z!cVF(gwmiaS~QZMC-Jk#wRhx<A1e!Ic9Pc}IC&yp%u@A4E~}3}?E|+FmbPQVI5&L+
zhjqfl&mUqdj)cRm=RBta{xePP=g1S*bDl6la6EJpCb`rIb{yy#*zCeympTYs*g!v=
zUY!)1=jX*m%{mO8t#HsMK845;7CL~b+%P+A-UVO8%%UNL&Prz|50B*7NyMtKa|ofZ
z=ryXxt${xkh{wVBC9Wy6ThxmK1o1x2qfEoZ5-CIP=(!M$HSt!(OoiXaZ1B;dbRi8O
zaXx1)oc4XI;Pvt=<>b%LYCG?n>Y7p|E!N4sA|*zPKV>8474S%Ll`lc76m*>y{AH4a
zaDxafzhvZFG{Y3O!5!zrV>M@YR-aXT`h`$_C}?1bWMgZ{^+Ua~Fg@h2r1&0c-cRoS
z9vBaf^vMzF19CzPEnMwO-GoC4vP(5B%li=sqr(29)<BM=D9u2Qq*ih1^LyR;@xm^D
zzYqFu5{Qxn7aq|gd1)uqmxthNoXu()VmVsVc&=MqZOnWJ#=?TDDW!7v;OsdvEb<41
zS7~18z<dvS;UN?G2m$tn$pV;{DsT{J@(8ctmZ@oyDv&(BNz+LdGn3xZC{4~EqS0`D
zsdeb=NsEIJ!B@A<bl$L3%(f+J*2QYp#cMXa({ZC_E7;25q~oBYgta_oEuT4_sA!MD
z6>>$#P3!7gdBvAEU)ucI*4b@}dCiTy4PcMk?8)5Lx#OZg-*{VRv~?#A9NML-B{QDQ
zZ*2a~)>+S06`X=N*WA${b`+_IpPpILO>4`i3zqy(K;qkhz~Z1(145rO<-eCYb9Qdx
zuH|+%;BkGEWtSF|LdHNUl*o0w%-rYY>A=nhB1o|8lD~^MpaAt)=v!$B8~a)ZCJ@1o
zWmh&jBBCL>16Y?jq8&$FfN5r(%tXTiLzL<Pl_O;`l0POH<^alQ#~X=-tDr%OlLKMo
zOdCz0AWm3^@Q4@Z9h0^ZGne>tbU5&kG?}3OIO<R7hkXJP3N#%MNtr@W_a9|4A{@9y
zMt3;)4CZBGkR8rt!uAN~V-O&*vz$cQRpjE7B171qi8Wa^?Y@I@ew(J9AJxI0XykI*
z;&u;?Gb|`2?-s8;GuwHip#G9-ZY|DGH#nk(a{AJHsW(wjA1kPz4M0c&S6umJGlMZ;
z0j6YeeWJKER@^%G^gE_^H^+;6rfeU>d2<0=dRf*-wd>i&Dp%ciHV|5Z1t=TpQ>f1?
zm>-!u-)vM06a^4dyt01R@Y;U;6xXlfbuU{bJz4$uu3dnsFue51i=OTAWP=G86{038
z191{&2ZwtjfWrjz1_GzyOphv_9vy*d+p}VtGrr{S<I_^Uq&$)DcMw*#seE3?rY*!4
z5e=KRAfK|adCp_f!jnyU+A6#7(rGKQS9EL^vI!`B8#6)p_jFr6_k`E!?HhFaBf5PT
zxAY{F7^5U^9It0Rr+`XnZ%cDS#ZLZ1ns58jEyM}UT@}w=J!QDHWKs>r3Oce+s@``>
z-rXNBK8#6~1LM27L-Cx=QR8M&y;x%4UP4u{{ZcgrsutURpOaXc1zD>o%pu-os#mL6
zuSLB<x8>`8atX7@A^7L(ez^4qTUqeku3ym`$TF<ClZQk+fr^2!b$H1XQ0DTp$nzEM
z6)>m&jb^h7^I6U2GbnTHLHhBo2hC?3zYuPNDGi<I4iu4Qu`;jw3A)j^0MGnl6S|is
zG@Qt&x$^+?>AjGhk%e!|uR&=tX1+&SxQzK8dW|mm36L)F{nX-|yn+Z|zbLz)@D^T(
zV@lgS&N&fhUn++XO^DffY08baD=);Bu9%9-cX3YAiU~C!Pt3^=jX1h>dT8EQmo(bw
zY;o~y@GH49-QO&kH`XSNc5&3-r0Qu{eZ-o*jTg)x%5(B`D^$u^QV-#e5%WJ%nQbWZ
zGjesU(dB$=?Dfc%2w=1>=Wn|I_TXO~WWf)P{Xg^uK-dZ|K&7l`9ECe_CZ#<Y7&r;l
z1YqV%glB{kQK#QY;m#b@qqOChybEO;9{F1r2ZPL?61YqsgO?SkD$HLnKuXhwnb{b|
za^AvBMxF{5m#!s~(n$3Nkk)0>B1`-1BDKM6KDDr4s)!YxQ5H!bmt9Dkzw8x$5&|$-
znB~1T>%msqYzNGt70RLIv~Qy}$S^(OGwM~It)z6!3qQ_?o29={S5l8$b`83gy}(aM
zzrIAjW|Ug9GOzoTnx)s|G6(Bc=E7@F0YwyE{NlMWMbd2TZCsgq+SE9kV-2}pq~bo<
zvNAQ;lxjHl*2yq6tMhJsMlRXMLD6hXmykYaK!tU7;V;qpFHk;<3tu?r^lk&wVc(~?
z>>=9RpLYGrh;ir@@$i@}YH&*)jgJ8UER8xe2Cu^>{4OyzoCs(50b(w?e0|U$CxnT7
z>yp+MNO3bEnM1HSg$WLw^#w=Mojecb0`VAv=UN${Sz1o$<j7c%XH1GdA9=v;@%6~g
zE?9QR8#+?t+&YBpp7gswq6GwS5XiH!=oFHnXiEKvJ(3B~sL?DZvBhXq_zZbJZtL*3
ztzj$|79fMX5TGDDX`o2-2HMZ63P;>5If|zGp}7o+hrs~gq|}+T;X-4LxG}&M;aOtn
zTpFM<uE%f)ewENAtt>BaXoe+M98$l7PXvTK%=!uhsIO1J2}$YGu|y>@>VT6-NzJ1o
zSzbulA2>_p)9WRp3n$X>b4Dhr<l;MglA=mH9~XHshOcotMm>ZdEGx=Dp>Rn~GB$Jq
zjRf<_FP>r*QluutNM%A3ktf3pH-vTAMc~uZBo#X%z!x*IQ=xI~I|rBC(6q)`#Bh@y
z@(u_v@+A|1UlMB^Y@0ttxCfp<Ud2!02!4os9Vg5d`T>ziZBRU=T{LHaXF)H{R~CqP
zB#X*nu+hBKCjy}eFe1h*7ctmBqrCo{Zht{vbl%Xp;XV<YU?vD4+M#xs($XPsDRp=R
zHe^&@$NH3UY&bwu+Y52x09ETxD3|Zkjl5NgSP0cypfXaX@X#ous)n)%3yYQci6g3M
ze#rVZ!gZwmGXnf02mtQaLE|mqtd2RW<IY;ycXR8MZo%S6SZZRHn%Q+XE$)RJxcbED
zIt}wVO$+7KuOGg0`0Bd(@=epGq@yI^sE;}7XZd+Y3(Oawkz=`JNfwmM?7GyuP*`?(
z@X}zixZ-uo6-%<FB?(6HsVk?FRds}FBpX^14Vz*OoA8@V5ejc>j0J_jY>P^7=a~vh
z?`ka2F)Nnxoavq?|H{Q5Be$F@Idfy=C@#_dNUZ&l`Qpy0eMy|uW37%^t7q%xt&Q^W
z!|TZWH&NCSD{G18v?g*oVmTdGcizZZe+${bkw~JrDF&T6T@uaOe`WvchprrYyZ-xa
zZ?(nCH==pv^@(y%tlTpfy4v;bzG%58Ufz=^e=Ju1SoFw~@$#pr2MS0BDdBL%9In}t
zpE+7?;f?*0eI_*9b#>pg{b!Etw_#M5+a_XdBr#4|*u)R9^TU@Q?Iez5xRVPI>3+Bq
zoQYxd=n}d!RDNi7F1vUI)-v>1QA$fk1Is!svI05}p{WXoxTAFO%Es?w$1JF2h{X7M
zAOq5P7q5pwSvIeY<-B2uMX^OLCH>@$5e@irrf(}Y#B_8kw4F7)1xLoxH`}*0AV2JU
z4(}Myf|Zh$=gB*jJ{sh6d0i0391$%PlzftTh#n9(J65L$X&|*9_+$xUWrLo2Xw;_<
zf0lc$9kn64d)dY3$+hA086|CeNDmjly#$<c!=;8aswz(GXHro(%0Wa(B8EcW-=LyL
z;3rUY#>7O;*g$tby3uv2{j`@kh)i#?GH^MzWN*fa^E{o;z&3QsYLtN5{c~XgZRx;>
zeSkjzO?{AT2gLInME(S;2;1x#7T|+SpdWC9ZRq5;0gO)+I0DH6%45&~0t8XM;F1+5
zM8P?O_Bhcq!yy$r$|7A`z#CQ^;0>e?EHlM@vjStprPk^K!$ox5PqLCxfvnd6|KRJn
zhvX)BC-`B~J50{0SWcbr%b7lUftAw)%QERGju9a+5CFCzvUd4Q4N3*FvC5@SpvYMG
zt|mGR6j^oQL0Ag}E)XB!fCh5<$i{==1d<K`VI}0!0+@h2koP|uf^{sZAt-62PJ++z
zu|A^2`^SQ<BypiGQrbZcWbG#0id`7iVQHM$yr5nN;FG;~Q5@>J&2+rT{l-MXoG^wN
ztrxpw+~heW&C~Huy1E}d(!HzmSa%oB3}GI)<!|!%r&Ux*M1;D?(*uGpKTe}1m%Gew
zcfap6+J;FS@>7|>98XEBfd*S%8KPuH#53g6H_&r%hsHAT0f8X{Z%hj2+XS^zgjj@N
zLXN~zvCeiWb;Uf+EKKnQth_}8xy?2Ymcy_|ia-9s!<r3OES>=mos1!#g-h}_87~F4
zD(M_aW1X>P(&;?uiqcpjJ!3)eo}ML~Py#~GWajP=y(H>u;JjFXrwJ90&HXed8N8Z7
z3aFTzUX9}@f<8LTZn)<y+2&RF8X#4s075i%Z5{HRJK^`Tj`PYL$E4nAZk=M`Y6r6=
zL?j)PWJk?w-?Gf+O>LgZo41s|Wsyu<?GDwrQ!d{l2gW<a4wZk462i>Uk*9*R!K5cx
zt7N+}Zgu%EL(nRCUJ+7S3XL~D>k0XT{j9OidYYa&b^5s53l`U)@`G)?b>o(FJP+pj
zv#Z5f=vI%{Ey?0}bV8Q&pBHDOXEWv54kd?%WjWj@58<a60u-3Dyl!@J?q%d?R3@U)
zBXtZD7zqCddjFUI6W92N*rD|@*_65G{Ts|p%6G}EginM&L*dMTMF^rLqLu}?Lh!}F
z&R${GEU=dG5BSf*>w@104?<*9d;%`<;DtL34GhA$g!hn`Xaa(8;MCDpmoh5jTF3^B
zRHkT~BcFNLXNQ5K3x46hQDGLG9RSb6jMRkufLt$oiQLGhoKbS$=`H*WwfJv@fIp4^
z5bzq#XnkekYZKGY%p0l~jP``FEM|lih}KqpSEI*qnGUX`g89*V=4yMqc;}QYX(^ty
z#4IiFqo1%=#jI6}YR=iCPCD|FjtX}82zYh*#mSuVsImNGgE>YECT?CkZ&(YZjwvH6
zq$Fl6fgwjueX_o7cK=)u0yo>%UuneiIrB@WjO4Ip1N1LuHqJE9?u%MIi#qxU`{cta
zlDR#mx@Bx%tjMX<gDD6yLTp8}pl#mZ`N&xMPj#DNdOWpf`Wc*4ck$f$b2CM=bvJVw
zldhUK^>65B&s?><b1d%KIc-bkx#lcTGD%j~zghZ5>D;dGR9(%DRj-BDzWh?r{T>=v
zvR|Dnu7M#61Uv}9Gekk*Z94~VfkkyU9CbLQrGCqzi?cc=4=^-)2~tgHFGH$-gg(C?
zQvE$dq6>lz#9DsIUr7iJ0Xp{}wk2|)(w1FIawxx##4rnjzC`2<lrx*g;<G4k0=kK$
z&2``Juzm*03uY1%q}w1!2WtuFG~U1rRx8&J;&7ZJsl<VNlf}_5i=&Mg7}G2_Etv#a
zU_e};*|_U7&$5SRjDa`&HoVt~_XxuMOcI(+*fjXiUT_=78$^b-BvdCn0LTT{KR}$Y
zl?P!mh$GU5Jmd9;0wH!v61~n~F#u8uVVnoWFp_QKCLH_4)GW4**Jh>wA7K=yd-X$F
zN1k4k_;m+aY>Dpz3@tF65zj?3QCHJ=vl}3}59ku(w}`mg{o<<KI7mb<d;^n@N%PYp
z2$8cunzLXHD8h(Tj^I1vMT@)y_0bmb1uE>7YMZiC4Dt^u);{H+CN4=LzR66J!{Ve9
zW#KLqNFBXQmiu2(^Bn}LsfyUyNHBlVa^CW)ZKfho(i$sijhDdxw&&{OKkWTM@1H&U
z?(szTld<k6<K0i+Soic2S;tJpO=IJ&Esy-|mcQB(Gj5#9nW>udB)1<(Y=10<|Hds*
zV{x>!dG7G7oXTj;>Ki$$nfXG}zUJ!T=o%u_d%hAq<c(UNgO0z+9L0CIU#MCVwc~1g
zv}5PH?&!g1qX&*htzXHAYAu~Pd;>ddZh10y{nZzv>-R+WJimyhsXEno2&$d**s1QK
zhqGHvmIOG?8eYm+tAEG$`_5>7-Lx0CsJ$*`tWOx5W5(u$aaGK?>M9zyL*xbgfW}lU
z<e|fQ+}a*o&?qjy&+(+pAuc?qBTh;i^o^f$tA2^@20LpvI9jiWS<yqdh5X!_f#1A!
z`^KRYkN&M3*b%sa`0lZk!RzHm`n=v$F31hZHHSxXC?w#}M^5+!W%B{u_R;O{=~hR#
zXXy6NxY3!bP%U7DOGu#oj-+798;|cqpFp(}d1hv!YoNGJmcJyIOwkc$C+Qch^^_if
z6f0LC?uTHa+aY>gl5ymMS3HJ+sbPgf;wd}DR8>3OrYQ~NESzAW8_6e9&J5K$57YJ(
zt<}i<RDd5BxHF+>Ch{Tg@r@w{k@+d@>0oe3ASq4CLP4DUFx(#)5QwTzIWpdOXr%}w
zxRG9GI0q8dE5!7{kpY<T3WUI>8d-Wq)nVEC`>0e8*p)=mF<s8UI5RdDiV$0X`v5Lw
zXGws1go)M(i44gi_L3bf<Ox9Z2-OSrLnx(mB+3z;vA8J*2g6%Vjs#)9Kp3kaYOuN}
z7RfM}<#DS03sz0+O5cc3O-VP<jTsk{$3r6QaWJK@i{7@-jpU0$7u_DGTR+{-(2dk4
zgx{juEZvg0L17kzFgt~poi-<YN?*Y5;Mjo;%;*`MQ#jcY-81XLIAz5zki4C_DHb{q
zN@+mTGbdKeIg3En)+y_wqV#zW*;|VaI!;h3vL|Mihs=<OnNcu>d4crln8F^@Mi9P3
znb_HuFUTYyli4#tDm+*Zr}T$L=wJ?LWno%`8K0HmdID{W!cXY7o|@B44K;4X6hQ3l
z!vDkv{D&7u%zYqXDis{Xs2)-M6Ib#PXa9(^$am96Tn>KzoU8puuKnj+{m;4Lf8<L4
ziC(%s;&MOYtpCUzjByA5k=qsLcKw_y{b#NKk$=uL{+!!_z&*7_rT&$XQ?>q_Teqmy
zs-9H+T)Po+Use4_+MGqBPPJ3@kJ_ETvT~}&RlhLhPd^nmRZi-G@L8*-HYO~UF-v9K
z;+iymqBp6Ww~IMd-aMCoSFceuPp`ep;c?q)Ryk(#X2WlkE^-LIqj`t_E4ZXV5GGA(
z$E}^aZ)+M=)k(W^y6gPlA`824rUt!RxAC2|Kj>xQTRQuc@U`Qg=<xoI1_>9{2rWLP
zB5bd!HtAWNZ0opf`Tq*Lo}V_3D7=&PvbNV?vx{w5Z(S%qg29jqC?v?3R7oR|R7&}g
zsO=$@l2q!?s1=-Y3d#jeEjM$@_GV6Sgi|6;^yaM(EVum=p0hnv$tB+#gB7VQT>O1+
z=Iu8#Z=Yw48PD{Jly7v93JgvaHE>M8R;Ci!8X=vnsFLZaOu6dzwXJX5H7`9%F)ofP
z_=4KnT5#2^yY6GJYlK)2gKdj#Os#(%w!?aTOGJf5nUBO>;dgeC$|L~Mn4q1uc&JPI
zx%g3tf^U96swBnfCJD4`sBsBBRF$ziqM_%7DcyiUXO1)=gf64A%%YIo=-*h~7+!x6
z#<=9R9Q61^!?-O(+V9Sh$|OjdzprdQC5;UTGzUYvG_i)tlmU)OGybm#NG&<muwA-5
zyoAs;5SX%T0T`q#LNv?JPFb=kM6-+zo=LM6=LjHfW%@#x!tpb9Wpe9#QkfU8G;!{_
z#6XK}^sj#vYN(@;lyLTMzOoJ$NC7<>I9mO)5HiJqiOFBZGlP&;ZSDZJGZM(aQBjor
z0=5PYF8fA0vncjEl5NM>;@ywPV21md#9E5w%HWIQcCm(2A(NM@UDdT(a?;bL!glt-
zL@-or=mjy<8UT2Zu}K4>5u_;B^4&R4EXF<$gwoy9(6eHsB?d0VfDkj&#I+ZSvCpjH
z^fmN8@nK5~TxtQKmF^*~y-<sN@INlA`?V2A{$am_DF69)93AqaL!_cCNObbP0HlFK
z7`u;Kn+v3~g=HV9kgp?qLgZRK0hc`i;(~JnqqEO1LYbIp=qa>+mL}j*0tks*-i^4+
z)qeNOKRP^noY?ikk+Dw^!hW{95pzVQr425%f&Zn=#n?_3r-?E{9-nt(4fZMPqU0w{
z9M1_Xj8z})O;*3#$xFMH+^C~2Ltx8EI5NKP2wOUyzP&Zr<TxTPof+SEhRxI9|EI17
z4=N`_yK9jGsHS(F9VcW;c~f+_Y2E;z6wv)|U;cD}Wn`d7Yas)TB*YA_?k#PWNM$}e
zwwu^VNRCd18p<fIn0Dop7p3h|Q@mzR??-BO$?KeZhR?YPVY-jFZL|7>+cha4M}j15
z&ZwN<J6s*yE$$Sn`Tg`u=fJ5IKJ$8S$+|$ZLS$NwTgc*P8~Em;5t|b8+@q_TSAUz|
zoF^4_fQ7vp5O>f>k<KitV9ICT)5(X~6R{-l;JHBx<KE*Y?ytUDId~e%GWy|?g=gwn
zOqlzHaSj-%(wHs(Ey+LhbFUJ$aC{IRk0-feZR|!phm#AseS7@ap7-qe+Vy*N`+hx=
zC5?UFVv1pZAqGzjr*gk;3_QQdkMY5`=pomrc&?sgaF)TfdS({Cs&qz=os#F2YI7@f
z=N=Af^Uc0vbHXzx_U7v5r_b+TEi*28v&x?q4hPy6)5_s!WN}tG{5ZPQp?K;1;*9D|
Y3x1t#UozCc;(}j0t}F|+t_Zxo0|qexEdT%j

literal 0
HcmV?d00001

diff --git a/model_executor/model_loader/base_loader.py b/model_executor/model_loader/base_loader.py
new file mode 100644
index 0000000..94dfa47
--- /dev/null
+++ b/model_executor/model_loader/base_loader.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+
+import torch
+import torch.nn as nn
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.config.load import LoadConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.utils import (
+    initialize_model,
+    process_weights_after_loading,
+)
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+logger = init_logger(__name__)
+
+
+class BaseModelLoader(ABC):
+    """Base class for model loaders."""
+
+    def __init__(self, load_config: LoadConfig):
+        self.load_config = load_config
+
+    @abstractmethod
+    def download_model(self, model_config: ModelConfig) -> None:
+        """Download a model so that it can be immediately loaded."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        """Load weights into a model. This standalone API allows
+        inplace weights loading for an already-initialized model"""
+        raise NotImplementedError
+
+    def load_model(
+        self, vllm_config: VllmConfig, model_config: ModelConfig
+    ) -> nn.Module:
+        """Load a model with the given configurations."""
+        device_config = vllm_config.device_config
+        load_config = vllm_config.load_config
+        load_device = (
+            device_config.device if load_config.device is None else load_config.device
+        )
+        target_device = torch.device(load_device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(
+                    vllm_config=vllm_config, model_config=model_config
+                )
+
+            logger.debug("Loading weights on %s ...", load_device)
+            # Quantization does not happen in `load_weights` but after it
+            self.load_weights(model, model_config)
+            process_weights_after_loading(model, model_config, target_device)
+        return model.eval()
diff --git a/model_executor/model_loader/bitsandbytes_loader.py b/model_executor/model_loader/bitsandbytes_loader.py
new file mode 100644
index 0000000..97c7a20
--- /dev/null
+++ b/model_executor/model_loader/bitsandbytes_loader.py
@@ -0,0 +1,822 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: SIM117
+import fnmatch
+import glob
+import itertools
+import math
+import os
+from collections.abc import Callable, Generator
+from typing import Any
+
+import numpy as np
+import torch
+from huggingface_hub import HfApi
+from packaging import version
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import ParamMapping
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf,
+    download_weights_from_hf,
+    filter_duplicate_safetensors_files,
+    filter_files_not_needed_for_inference,
+    pt_weights_iterator,
+    safetensors_weights_iterator,
+)
+from vllm.model_executor.models import is_pooling_model
+from vllm.model_executor.utils import (
+    get_moe_expert_mapping,
+    get_packed_modules_mapping,
+    set_weight_attrs,
+)
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+logger = init_logger(__name__)
+
+
+def is_moe_model(model: torch.nn.Module) -> bool:
+    """Checks if the model contains FusedMoE layers."""
+    return bool(any(isinstance(module, FusedMoE) for module in model.modules()))
+
+
+class BitsAndBytesModelLoader(BaseModelLoader):
+    """Model loader to load model weights with BitAndBytes quantization."""
+
+    possible_config_file_names = ["adapter_config.json"]
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+
+        # Save the module names without sharding.
+        self.unsharded_weights_modules: list[str] = []
+        # Save the module names that are sharded by column.
+        self.column_sharded_weights_modules: list[str] = []
+        # Modules whose weights might have fused on disk
+        # we need their output_sizes to make shard in flight correctly with TP
+        self.maybe_fused_weights_modules: dict[str, list[int]] = {}
+        # Store all module names (from transformers) that support
+        # BNB quantization.
+        self.target_modules: list[str] = []
+        self.tp_disabled_modules: list[str] = []
+        # Store the mapping of expert parameters for MoE models.
+        self.expert_params_mapping: list[tuple[str, str, int, str]] = []
+        # mapping weight names from transformers to vllm.
+        self.weight_mapper: Callable = lambda name: name
+        self.pre_quant: bool = False
+        self.load_8bit: bool = False
+        self.is_pool_model: bool = False
+
+    def _get_weight_files(
+        self,
+        model_name_or_path: str,
+        allowed_patterns: list[str],
+        revision: str | None = None,
+    ) -> tuple[str, list[str], str]:
+        """Retrieve weight files. Download the files if necessary.
+
+        Return the weight files and the file pattern."""
+        is_local = os.path.isdir(model_name_or_path)
+
+        if is_local:
+            for pattern in allowed_patterns:
+                weight_files = glob.glob(os.path.join(model_name_or_path, pattern))
+                if weight_files:
+                    return model_name_or_path, weight_files, pattern
+        else:
+            hf_api = HfApi()
+            repo_files = hf_api.list_repo_files(repo_id=model_name_or_path)
+            for pattern in allowed_patterns:
+                matching_files = fnmatch.filter(repo_files, pattern)
+                if matching_files:
+                    hf_folder = download_weights_from_hf(
+                        model_name_or_path,
+                        self.load_config.download_dir,
+                        [pattern],
+                        revision,
+                        ignore_patterns=self.load_config.ignore_patterns,
+                    )
+                    return (
+                        hf_folder,
+                        glob.glob(os.path.join(hf_folder, pattern)),
+                        pattern,
+                    )
+
+        raise RuntimeError(f"No model weights found in: `{model_name_or_path}`")
+
+    def _prepare_weights(
+        self, model_name_or_path: str, revision: str | None
+    ) -> tuple[list[str], bool]:
+        """Prepare weight files for the model."""
+
+        allowed_patterns = ["*.safetensors", "*.bin", "*.pt"]
+
+        hf_folder, hf_weights_files, matched_pattern = self._get_weight_files(
+            model_name_or_path, allowed_patterns, revision
+        )
+
+        use_safetensors = matched_pattern == "*.safetensors"
+        is_local = os.path.isdir(model_name_or_path)
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+        if use_safetensors:
+            # For models like Mistral-7B-Instruct-v0.3
+            # there are both sharded safetensors files and a consolidated
+            # safetensors file. Using both breaks.
+            # Here, we download the `model.safetensors.index.json` and filter
+            # any files not found in the index.
+            if not is_local:
+                download_safetensors_index_file_from_hf(
+                    model_name_or_path,
+                    index_file,
+                    self.load_config.download_dir,
+                    revision,
+                )
+            hf_weights_files = filter_duplicate_safetensors_files(
+                hf_weights_files, hf_folder, index_file
+            )
+        else:
+            hf_weights_files = filter_files_not_needed_for_inference(hf_weights_files)
+
+        if len(hf_weights_files) == 0:
+            raise RuntimeError(
+                f"Cannot find any model weights with `{model_name_or_path}`"
+            )
+
+        return hf_weights_files, use_safetensors
+
+    def _hf_weight_iter(self, hf_weights_files, use_safetensors: bool):
+        def _maybe_pool_model(module_name: str):
+            # For pool model, we need to add the prefix `model.`
+            # for the weight name if possible.
+            if (
+                self.is_pool_model
+                and self.target_modules[0].startswith("model.")
+                and not module_name.startswith("model.")
+            ):
+                return "model." + module_name
+
+            return module_name
+
+        if use_safetensors:
+            iterator = safetensors_weights_iterator(
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+            )
+        else:
+            iterator = pt_weights_iterator(
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+                self.load_config.pt_load_map_location,
+            )
+        for org_name, param in iterator:
+            # mapping weight names from transformers to vllm while preserving
+            # original names.
+            mapped_name = self.weight_mapper(org_name)
+            mapped_name = _maybe_pool_model(mapped_name)
+
+            yield org_name, mapped_name, param
+
+    def _get_quantized_weights_iterator(
+        self,
+        model_name_or_path: str,
+        revision: str | None,
+    ) -> tuple[Generator[tuple[str, torch.Tensor], None, None], dict[str, Any]]:
+        """Get an iterator to the model weights with bitsandbytes quantization,
+        as well as the quantization state dictionary."""
+
+        # only load the bitsandbytes module when needed
+        try:
+            import bitsandbytes
+
+            if version.parse(bitsandbytes.__version__) < version.parse("0.46.1"):
+                raise ImportError(
+                    "bitsandbytes version is wrong. Please "
+                    "install bitsandbytes>=0.46.1."
+                )
+        except ImportError as err:
+            raise ImportError(
+                "Please install bitsandbytes>=0.46.1 via "
+                "`pip install bitsandbytes>=0.46.1` to use "
+                "bitsandbytes quantizer."
+            ) from err
+
+        hf_weights_files, use_safetensors = self._prepare_weights(
+            model_name_or_path, revision
+        )
+
+        quant_state_dict: dict[str, Any] = {}
+
+        if self.pre_quant:
+            if self.load_8bit:
+                return self._quantized_8bit_generator(
+                    hf_weights_files, use_safetensors, quant_state_dict
+                ), quant_state_dict
+            else:
+                return self._quantized_4bit_generator(
+                    hf_weights_files, use_safetensors, quant_state_dict
+                ), quant_state_dict
+
+        return self._unquantized_generator(
+            hf_weights_files, use_safetensors, quant_state_dict
+        ), quant_state_dict
+
+    def _is_8bit_weight_name(self, weight_name: str):
+        quantized_suffix = {".scb", ".weight_format"}
+        return any(weight_name.lower().endswith(suffix) for suffix in quantized_suffix)
+
+    def _is_4bit_weight_name(self, weight_name: str):
+        quantized_suffix = {
+            "absmax",
+            "quant_map",
+            "nested_absmax",
+            "nested_quant_map",
+            "bitsandbytes",
+        }
+        suffix = weight_name.split(".")[-1]
+        return any(q_suffix in suffix for q_suffix in quantized_suffix)
+
+    def _quantized_8bit_generator(
+        self, hf_weights_files, use_safetensors, quant_state_dict
+    ) -> Generator:
+        for (
+            org_weight_name,
+            mapped_weight_name,
+            weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if not mapped_weight_name.lower().endswith(".scb"):
+                continue
+
+            weight_key = mapped_weight_name.lower().replace(".scb", ".weight")
+            quant_state_dict[weight_key] = weight_tensor
+
+        for (
+            org_weight_name,
+            mapped_weight_name,
+            weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if self._is_8bit_weight_name(mapped_weight_name):
+                continue
+
+            if mapped_weight_name in quant_state_dict:
+                set_weight_attrs(weight_tensor, {"load_in_8bit": True})
+                yield org_weight_name, weight_tensor
+            else:
+                yield org_weight_name, weight_tensor
+
+    def _quantized_4bit_generator(
+        self, hf_weights_files, use_safetensors, quant_state_dict
+    ) -> Generator:
+        from bitsandbytes.functional import QuantState
+
+        # First iterate over all quant state weights
+        weight_iterator = self._hf_weight_iter(hf_weights_files, use_safetensors)
+        temp_state_dict = {}
+        for (
+            org_weight_name,
+            mapped_weight_name,
+            weight_tensor,
+        ) in weight_iterator:
+            if not self._is_4bit_weight_name(mapped_weight_name):
+                continue
+            # bitsandbytes library requires
+            # weight.quant_state.bitsandbytes__* in CPU
+            if "quant_state.bitsandbytes" in mapped_weight_name:
+                temp_state_dict[mapped_weight_name] = weight_tensor.cpu().data
+            else:
+                temp_state_dict[mapped_weight_name] = weight_tensor
+
+        # Closure to parse quant_state for each prequant weight
+        def _parse_quant_state(param_name: str, temp_state_dict: dict) -> QuantState:
+            quant_state = {}
+            for k in temp_state_dict:
+                if param_name + "." in k:
+                    quant_state[k] = temp_state_dict[k]
+
+            return QuantState.from_dict(
+                quant_state, device=current_platform.device_type
+            )
+
+        # Second iterate over all prequant and normal weights
+        # pre quantized weights would have a quant_state
+        for (
+            org_weight_name,
+            mapped_weight_name,
+            weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if self._is_4bit_weight_name(mapped_weight_name):
+                continue
+
+            if (
+                f"{mapped_weight_name}.quant_state.bitsandbytes__nf4" in temp_state_dict
+            ) or (
+                f"{mapped_weight_name}.quant_state.bitsandbytes__fp4" in temp_state_dict
+            ):
+                quant_state = _parse_quant_state(mapped_weight_name, temp_state_dict)
+                quant_state_dict[mapped_weight_name] = quant_state
+                yield org_weight_name, weight_tensor
+            else:
+                yield org_weight_name, weight_tensor
+
+    def _unquantized_generator(
+        self, hf_weights_files, use_safetensors, quant_state_dict
+    ) -> Generator:
+        from bitsandbytes.functional import quantize_4bit
+
+        global_tp_size = get_tensor_model_parallel_world_size()
+        global_tp_rank = get_tensor_model_parallel_rank()
+        check_match = (
+            lambda weight_name, module_name: weight_name.removesuffix(".weight")
+            == module_name
+        )
+        for (
+            org_weight_name,
+            mapped_weight_name,
+            weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            # override tp_size and tp_rank if the module has disabled TP
+            if any(
+                tp_disabled_module in mapped_weight_name
+                for tp_disabled_module in self.tp_disabled_modules
+            ):
+                tp_size = 1
+                tp_rank = 0
+            else:
+                tp_size = global_tp_size
+                tp_rank = global_tp_rank
+
+            if any(
+                target_module in mapped_weight_name
+                for target_module in self.target_modules
+            ) and mapped_weight_name.endswith(".weight"):
+                # Without sharding
+                if any(
+                    check_match(mapped_weight_name, module)
+                    for module in self.unsharded_weights_modules
+                ):
+                    weight_sub_tensor = weight_tensor
+                # Shard by column
+                elif any(
+                    check_match(mapped_weight_name, module)
+                    for module in self.column_sharded_weights_modules
+                ):
+                    total_size = weight_tensor.size(-1)
+                    start_index = total_size // tp_size * tp_rank
+                    end_index = total_size // tp_size * (tp_rank + 1)
+                    weight_sub_tensor = weight_tensor[..., start_index:end_index]
+                # Weights have fused on disk. In this case, we assume that the
+                # weight and module use same name.
+                elif any(
+                    check_match(mapped_weight_name, module)
+                    for module in self.maybe_fused_weights_modules
+                ):
+                    # special case for fused weights
+                    # get the size of each shard weight tensor
+                    total_shard_sizes = next(
+                        (
+                            sizes
+                            for module, sizes in self.maybe_fused_weights_modules.items()  # noqa: E501
+                            if check_match(mapped_weight_name, module)
+                        )
+                    )
+                    total_size = weight_tensor.size(0)
+                    assert total_size == sum(total_shard_sizes)
+                    # get the start/end index of each shard weight tensor
+                    total_start_index = list(
+                        itertools.accumulate([0] + total_shard_sizes)
+                    )[:-1]
+                    shard_weights_index = [
+                        (
+                            idx + size // tp_size * tp_rank,
+                            idx + size // tp_size * (tp_rank + 1),
+                        )
+                        for idx, size in zip(total_start_index, total_shard_sizes)
+                    ]
+                    # slice and reorder the weight tensor
+                    weight_tensor = [
+                        weight_tensor[start_index:end_index, ...]
+                        for start_index, end_index in shard_weights_index
+                    ]
+                    weight_sub_tensor = torch.cat(weight_tensor, dim=0)
+                # Shard by row
+                else:
+                    total_size = weight_tensor.size(0)
+                    start_index = total_size // tp_size * tp_rank
+                    end_index = total_size // tp_size * (tp_rank + 1)
+                    weight_sub_tensor = weight_tensor[start_index:end_index, ...]
+
+                # bitsandbytes requires data in GPU
+                if weight_sub_tensor.is_cuda:
+                    loaded_weight = weight_sub_tensor
+                else:
+                    loaded_weight = weight_sub_tensor.to(
+                        device=current_platform.device_type
+                    )
+
+                # remove the following after the issue is fixed:
+                # https://github.com/bitsandbytes-foundation/bitsandbytes/issues/1342
+                if loaded_weight.is_contiguous() is False:
+                    loaded_weight = loaded_weight.contiguous()
+
+                with set_default_torch_dtype(torch.float32):
+                    processed_weight, quant_state = quantize_4bit(
+                        loaded_weight,
+                        compress_statistics=True,
+                        quant_type="nf4",
+                    )
+
+                quant_state_dict[mapped_weight_name] = quant_state
+            else:
+                processed_weight = weight_tensor
+            yield org_weight_name, processed_weight
+
+    def _get_bnb_target_modules(self, model: nn.Module) -> None:
+        """
+        Identify and collect all modules that support BitsAndBytes
+        quantization.
+        """
+        for name, module in model.named_modules():
+            if isinstance(module, LinearBase) and hasattr(
+                module.quant_method, "quant_config"
+            ):
+                if modules_info := self.modules_mapping.get_sub_modules(name):
+                    # Map vllm's names to transformers's names.
+                    rep_name, sub_modules = modules_info
+                    for sub_name in sub_modules:
+                        new_name = name.replace(rep_name, sub_name)
+                        self.target_modules.append(new_name)
+                        if module.disable_tp:
+                            self.tp_disabled_modules.append(new_name)
+                # Add original module name even if the module has stacked map,
+                # in case model has a mixture of disk-merged and disk-split
+                # weights with same last name.
+                self.target_modules.append(name)
+                if module.disable_tp:
+                    self.tp_disabled_modules.append(name)
+            elif isinstance(module, FusedMoE) and hasattr(
+                module.quant_method, "quant_config"
+            ):
+                # TODO: support FusedMoE with prequant and 8bit.
+                if self.pre_quant and self.load_8bit:
+                    raise ValueError(
+                        "Prequant BitsAndBytes 8bit models with FusedMoE "
+                        "is not supported yet."
+                    )
+                # Get the corresponding weight name using module name and
+                # expert_params_mapping.
+
+                for exp in self.expert_params_mapping:
+                    weight_name = exp[1]
+                    rep_name = name.replace("experts", "") + weight_name.removesuffix(
+                        "."
+                    )
+                    self.target_modules.append(rep_name)
+
+        assert self.target_modules, (
+            "vLLM currently does not support BNB quantization for"
+        )
+        f" {type(model).__name__}"
+
+    def _classify_module_sharding(self, model: nn.Module):
+        """
+        Categorize modules based on their weight sharding requirements
+        for tensor parallelism.
+        """
+        for name, module in model.named_modules():
+            # Some modules like `ReplicatedLinear` should not have their weights
+            # sharded. The reason for implementing it this way is to avoid new
+            # static variable in the model implementation.
+            if isinstance(module, (ReplicatedLinear,)):
+                self.unsharded_weights_modules.append(name)
+            # `QKVParallelLinear` and `MergedColumnParallelLinear` might have
+            # fused weights on disk. We need to use the output sizes of these
+            # modules to shard the weights correctly.
+            elif isinstance(module, (QKVParallelLinear, MergedColumnParallelLinear)):
+                self.maybe_fused_weights_modules[name] = module.output_sizes
+            # In TP, these weights are partitioned along the column
+            # dimension (dim=-1)
+            elif isinstance(module, (RowParallelLinear,)):
+                self.column_sharded_weights_modules.append(name)
+            elif isinstance(module, FusedMoE):
+                expert_mapping = self.expert_params_mapping
+                for exp in expert_mapping:
+                    if exp[-1] == "w2":
+                        weight_name = exp[1]
+                        rep_name = name.replace(
+                            "experts", ""
+                        ) + weight_name.removesuffix(".")
+                        self.column_sharded_weights_modules.append(rep_name)
+
+    def _verify_model_compatibility(
+        self, model: nn.Module, model_config: ModelConfig
+    ) -> None:
+        """
+        Verify that the model is compatible with BitsAndBytes quantization.
+        """
+        if not hasattr(model, "load_weights"):
+            raise AttributeError(
+                "The required method 'load_weights' is not defined in class"
+                f" {type(model).__name__}."
+            )
+
+        if not hasattr(model, "packed_modules_mapping"):
+            raise AttributeError(
+                f"Model {type(model).__name__} does not support BitsAndBytes "
+                "quantization yet. No 'packed_modules_mapping' found."
+            )
+
+        quant_config = getattr(model_config.hf_config, "quantization_config", None)
+        if quant_config and (quant_method := quant_config.get("quant_method")):
+            if quant_method == "bitsandbytes":
+                self.pre_quant = True
+            else:
+                raise ValueError(
+                    f"BitsAndBytes loader does not support {quant_method} quantization"
+                )
+
+        # The quant_states in pre_quantized models cannot work with a split
+        # weight tensor. So TP does not work with pre_quantized bnb models.
+        if self.pre_quant and get_tensor_model_parallel_world_size() > 1:
+            raise ValueError(
+                "Prequant BitsAndBytes models with tensor parallelism is not "
+                "supported. Please try with pipeline parallelism."
+            )
+        if quant_config and self.pre_quant:
+            self.load_8bit = quant_config.get("load_in_8bit", False)
+
+    def _initialize_loader_state(
+        self, model: nn.Module, model_config: ModelConfig
+    ) -> None:
+        """
+        Initialize the loader's internal state based on the model and
+        configuration.
+        """
+        self.is_pool_model = is_pooling_model(model)
+        self.modules_mapping = ParamMapping(get_packed_modules_mapping(model))
+
+        if is_moe_model(model):
+            self.expert_params_mapping = get_moe_expert_mapping(model)
+            if not self.expert_params_mapping:
+                raise AttributeError(
+                    f"MoE Model {type(model).__name__} does not support "
+                    "BitsAndBytes quantization yet. Ensure this model has "
+                    "'get_expert_mapping' method."
+                )
+        # For some models like Molmo, we need to use hf_to_vllm_mapper
+        # to ensure correct loading of weights.
+        if hf_to_vllm_mapper := getattr(model, "hf_to_vllm_mapper", None):
+            self.weight_mapper = lambda name: hf_to_vllm_mapper._map_name(name)
+
+        self._get_bnb_target_modules(model)
+        self._classify_module_sharding(model)
+
+    def _dequantize_dq(self, quant_states: Any):
+        """
+        When BNB employs Double Quantization, we perform the dequantization of
+        these constants during weight loading rather than at inference time,
+        thereby avoiding this computational overhead during inference. This
+        comes at the cost of increased memory usage.
+        """
+        from bitsandbytes.functional import QuantState, dequantize_blockwise
+
+        def _dequantize_single_state(quant_state):
+            """Helper function to dequantize a single QuantState object."""
+            if not (isinstance(quant_state, QuantState) and quant_state.nested):
+                return
+
+            # Copied from: https://github.com/bitsandbytes-foundation/bitsandbytes/blob/0.45.3/bitsandbytes/functional.py#L1352-#L1356
+            absmax = dequantize_blockwise(quant_state.absmax, quant_state.state2)
+            absmax += quant_state.offset
+
+            # Ensure float32 dtype
+            if absmax.dtype != torch.float32:
+                absmax = absmax.float()
+
+            quant_state.absmax = absmax
+            quant_state.nested = False
+            quant_state.offset = None
+            quant_state.state2 = None
+
+        if isinstance(quant_states, dict):
+            for quant_state in quant_states.values():
+                _dequantize_single_state(quant_state)
+        else:
+            _dequantize_single_state(quant_states)
+        return quant_states
+
+    def _fuse_moe_quant_states(self, model: nn.Module, quant_states_dict: dict) -> dict:
+        """
+
+        This function consolidates individual expert quantization states into
+        fused representations for w13 and w2.
+        """
+        from bitsandbytes.functional import QuantState
+
+        if not self.expert_params_mapping:
+            return dict()
+
+        expert_mapping = self.expert_params_mapping
+        expert_qs_dict = {}
+        for name, module in model.named_modules():
+            if not isinstance(module, FusedMoE):
+                continue
+            w1_states_lst = []
+            w2_states_lst = []
+            w3_states_lst = []
+            for exp in expert_mapping:
+                shard_id = exp[-1]
+                if shard_id not in ("w1", "w2", "w3"):
+                    raise ValueError(
+                        f"shard_id must be ['w1','w2','w3'] but got {shard_id}."
+                    )
+                layer_prefix = name.split("experts")[0]
+                weight_qual_name = layer_prefix + exp[1] + "weight"
+                quant_state = self._dequantize_dq(quant_states_dict[weight_qual_name])
+                if shard_id == "w1":
+                    w1_states_lst.append(quant_state)
+                elif shard_id == "w2":
+                    w2_states_lst.append(quant_state)
+                else:
+                    w3_states_lst.append(quant_state)
+                del quant_states_dict[weight_qual_name]
+            assert len(w1_states_lst) == len(w2_states_lst) == len(w3_states_lst)
+            w13_absmax_lst = []
+            w2_absmax_lst = []
+            w13_total_dim0 = 0
+            w2_total_dim0 = 0
+            for w1_qs, w2_qs, w3_qs in zip(w1_states_lst, w2_states_lst, w3_states_lst):
+                assert w1_qs.shape == w3_qs.shape
+                assert w1_qs.blocksize == w2_qs.blocksize == w3_qs.blocksize
+                assert w1_qs.dtype == w2_qs.dtype == w3_qs.dtype
+                # w1 and w3 are interleaved in storage
+                w13_absmax_lst.append(w1_qs.absmax)
+                w13_absmax_lst.append(w3_qs.absmax)
+                w2_absmax_lst.append(w2_qs.absmax)
+                w13_total_dim0 += w1_qs.shape[0] + w3_qs.shape[0]
+                w2_total_dim0 += w2_qs.shape[0]
+
+            w13_absmax = torch.cat(w13_absmax_lst)
+            w2_absmax = torch.cat(w2_absmax_lst)
+            # Create fused quantization state for w13.
+            w13_qs = QuantState(
+                absmax=w13_absmax,
+                shape=(w13_total_dim0, w1_states_lst[0].shape[1]),
+                code=w1_states_lst[0].code,
+                blocksize=w1_states_lst[0].blocksize,
+                quant_type="nf4",
+                dtype=w1_states_lst[0].dtype,
+            )
+            # Create fused quantization state for w2.
+            w2_qs = QuantState(
+                absmax=w2_absmax,
+                shape=(w2_total_dim0, w2_states_lst[0].shape[1]),
+                code=w2_states_lst[0].code,
+                blocksize=w2_states_lst[0].blocksize,
+                quant_type="nf4",
+                dtype=w2_states_lst[0].dtype,
+            )
+            # The weight suffixes .w13_weight and .w2_weight are consistent
+            # with the param in BitsAndBytesMoEMethod.
+            w13_weight_name = name + ".w13_weight"
+            w2_weight_name = name + ".w2_weight"
+            expert_qs_dict[w13_weight_name] = w13_qs
+            expert_qs_dict[w2_weight_name] = w2_qs
+        return expert_qs_dict
+
+    def _stack_quantization_states(
+        self, model: nn.Module, quant_state_dict: dict
+    ) -> dict[str, dict[int, Any]]:
+        stacked_quant_state_dict: dict[str, dict[int, Any]] = {}
+        # TODO: Change this lazy import to normal import
+        # after the checks are updated to run on a new version
+        from vllm.model_executor.models.utils import is_pp_missing_parameter
+
+        param_dict = dict(model.named_parameters())
+        for quant_param_name in quant_state_dict:
+            if is_pp_missing_parameter(quant_param_name, model):
+                continue
+
+            non_stacked_param_name = quant_param_name
+
+            shard_index = 0
+            for shard_name, (
+                weight_name,
+                index,
+            ) in self.modules_mapping.inverse_packed_mapping.items():
+                # Some models, such as MiniCPM V2.5/2.6, contain both
+                # module names 'kv_proj' and 'qkv_proj'. To prevent 'kv_proj'
+                # from being incorrectly identified as being present in
+                # 'vpm.encoder.layers.0.self_attn.qkv_proj.weight
+                shard_pos = quant_param_name.find(shard_name)
+                can_correct_rename = (shard_pos > 0) and (
+                    quant_param_name[shard_pos - 1] == "."
+                )
+                # If the quant_param_name is packed, it won't occur in the
+                # param_dict before renaming.
+                new_quant_param_name = quant_param_name.replace(shard_name, weight_name)
+                need_rename = (quant_param_name not in param_dict) and (
+                    new_quant_param_name in param_dict
+                )
+                if can_correct_rename and need_rename:
+                    shard_index = index
+                    quant_param_name = new_quant_param_name
+                    break
+
+            # Models like Clip/Siglip may skip some layers in initialization,
+            # causing unused quant_param_name in state_dict.
+            if quant_param_name not in param_dict:
+                continue
+
+            if quant_param_name not in stacked_quant_state_dict:
+                stacked_quant_state_dict[quant_param_name] = {}
+
+            stacked_quant_state_dict[quant_param_name][shard_index] = quant_state_dict[
+                non_stacked_param_name
+            ]
+        return stacked_quant_state_dict
+
+    def _bind_quant_states_to_params(
+        self, model: nn.Module, stacked_quant_state_dict: dict
+    ) -> None:
+        # save quant_states and offsets as the attributes of the parameters
+        param_dict = dict(model.named_parameters())
+        for param_name, param in param_dict.items():
+            if param_name in stacked_quant_state_dict:
+                quant_states = stacked_quant_state_dict[param_name]
+                # Dequantize double quantized values during weight loading.
+                self._dequantize_dq(quant_states)
+                set_weight_attrs(param, {"bnb_quant_state": quant_states})
+                if not isinstance(quant_states, dict):
+                    continue
+
+                pack_ratio = getattr(param, "pack_factor", -1)
+                if pack_ratio == -1:
+                    raise ValueError(f"pack_factor not set for parameter {param_name}.")
+
+                num_elements = [0] * len(quant_states)
+                for seq, quant_state in quant_states.items():
+                    num_elements[seq] = math.prod(quant_state.shape) // pack_ratio
+
+                offsets = np.concatenate(([0], np.cumsum(num_elements)))
+                # Make torch infer_schema happy
+                offsets = torch.tensor(offsets).cpu()
+                set_weight_attrs(param, {"bnb_shard_offsets": offsets})
+
+                if self.load_8bit:
+                    set_weight_attrs(
+                        param, {"matmul_state": [None] * len(quant_states)}
+                    )
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        self._verify_model_compatibility(model, model_config)
+        self._initialize_loader_state(model, model_config)
+
+        logger.info(
+            "Loading weights with BitsAndBytes quantization. May take a while ..."
+        )
+        qweight_iterator, quant_state_dict = self._get_quantized_weights_iterator(
+            model_config.model,
+            model_config.revision,
+        )
+        weights_to_load = {name for name, _ in model.named_parameters()}
+        loaded_weights = model.load_weights(qweight_iterator)
+        # Some models may have weights loading tracker unimplemented.
+        if loaded_weights is not None:
+            weights_not_loaded = weights_to_load - loaded_weights
+            if weights_not_loaded:
+                raise ValueError(
+                    "Following weights were not initialized from "
+                    f"checkpoint: {weights_not_loaded}"
+                )
+        expert_quant_state_dict = self._fuse_moe_quant_states(model, quant_state_dict)
+
+        stacked_quant_state_dict = self._stack_quantization_states(
+            model, quant_state_dict
+        )
+
+        stacked_quant_state_dict = {
+            **expert_quant_state_dict,
+            **stacked_quant_state_dict,
+        }
+        self._bind_quant_states_to_params(model, stacked_quant_state_dict)
+        torch.cuda.empty_cache()
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model, model_config.revision)
diff --git a/model_executor/model_loader/default_loader.py b/model_executor/model_loader/default_loader.py
new file mode 100644
index 0000000..1d8ddcb
--- /dev/null
+++ b/model_executor/model_loader/default_loader.py
@@ -0,0 +1,329 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import dataclasses
+import glob
+import os
+import time
+from collections.abc import Generator, Iterable
+from typing import cast
+
+import torch
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.torchao import torchao_version_at_least
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf,
+    download_weights_from_hf,
+    fastsafetensors_weights_iterator,
+    filter_duplicate_safetensors_files,
+    filter_files_not_needed_for_inference,
+    maybe_download_from_modelscope,
+    multi_thread_pt_weights_iterator,
+    multi_thread_safetensors_weights_iterator,
+    np_cache_weights_iterator,
+    pt_weights_iterator,
+    safetensors_weights_iterator,
+)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class DefaultModelLoader(BaseModelLoader):
+    """Model loader that can load different file types from disk."""
+
+    # default number of thread when enable multithread weight loading
+    DEFAULT_NUM_THREADS = 8
+
+    @dataclasses.dataclass
+    class Source:
+        """A source for weights."""
+
+        model_or_path: str
+        """The model ID or path."""
+
+        revision: str | None
+        """The optional model revision."""
+
+        prefix: str = ""
+        """A prefix to prepend to all weights."""
+
+        fall_back_to_pt: bool = True
+        """Whether .pt weights can be used."""
+
+        allow_patterns_overrides: list[str] | None = None
+        """If defined, weights will load exclusively using these patterns."""
+
+    counter_before_loading_weights: float = 0.0
+    counter_after_loading_weights: float = 0.0
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+
+        extra_config = load_config.model_loader_extra_config
+        allowed_keys = {"enable_multithread_load", "num_threads"}
+        unexpected_keys = set(extra_config.keys()) - allowed_keys
+
+        if unexpected_keys:
+            raise ValueError(
+                f"Unexpected extra config keys for load format "
+                f"{load_config.load_format}: "
+                f"{unexpected_keys}"
+            )
+
+    def _prepare_weights(
+        self,
+        model_name_or_path: str,
+        revision: str | None,
+        fall_back_to_pt: bool,
+        allow_patterns_overrides: list[str] | None,
+    ) -> tuple[str, list[str], bool]:
+        """Prepare weights for the model.
+
+        If the model is not local, it will be downloaded."""
+        model_name_or_path = (
+            maybe_download_from_modelscope(model_name_or_path, revision)
+            or model_name_or_path
+        )
+
+        is_local = os.path.isdir(model_name_or_path)
+        load_format = self.load_config.load_format
+        use_safetensors = False
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+        # Some quantized models use .pt files for storing the weights.
+        if load_format == "auto":
+            allow_patterns = ["*.safetensors", "*.bin"]
+        elif load_format == "safetensors" or load_format == "fastsafetensors":
+            use_safetensors = True
+            allow_patterns = ["*.safetensors"]
+        elif load_format == "mistral":
+            use_safetensors = True
+            allow_patterns = ["consolidated*.safetensors"]
+            index_file = "consolidated.safetensors.index.json"
+        elif load_format == "pt":
+            allow_patterns = ["*.pt"]
+        elif load_format == "npcache":
+            allow_patterns = ["*.bin"]
+        else:
+            raise ValueError(f"Unknown load_format: {load_format}")
+
+        if fall_back_to_pt:
+            allow_patterns += ["*.pt"]
+
+        if allow_patterns_overrides is not None:
+            allow_patterns = allow_patterns_overrides
+
+        if not is_local:
+            hf_folder = download_weights_from_hf(
+                model_name_or_path,
+                self.load_config.download_dir,
+                allow_patterns,
+                revision,
+                ignore_patterns=self.load_config.ignore_patterns,
+            )
+        else:
+            hf_folder = model_name_or_path
+
+        hf_weights_files: list[str] = []
+        for pattern in allow_patterns:
+            hf_weights_files += glob.glob(os.path.join(hf_folder, pattern))
+            if len(hf_weights_files) > 0:
+                if pattern == "*.safetensors":
+                    use_safetensors = True
+                break
+
+        if use_safetensors:
+            # For models like Mistral-7B-Instruct-v0.3
+            # there are both sharded safetensors files and a consolidated
+            # safetensors file. Using both breaks.
+            # Here, we download the `model.safetensors.index.json` and filter
+            # any files not found in the index.
+            if not is_local:
+                download_safetensors_index_file_from_hf(
+                    model_name_or_path,
+                    index_file,
+                    self.load_config.download_dir,
+                    revision,
+                )
+            hf_weights_files = filter_duplicate_safetensors_files(
+                hf_weights_files, hf_folder, index_file
+            )
+        else:
+            hf_weights_files = filter_files_not_needed_for_inference(hf_weights_files)
+
+        if len(hf_weights_files) == 0:
+            raise RuntimeError(
+                f"Cannot find any model weights with `{model_name_or_path}`"
+            )
+
+        return hf_folder, hf_weights_files, use_safetensors
+
+    def _get_weights_iterator(
+        self, source: "Source"
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        """Get an iterator for the model weights based on the load format."""
+        extra_config = self.load_config.model_loader_extra_config
+        hf_folder, hf_weights_files, use_safetensors = self._prepare_weights(
+            source.model_or_path,
+            source.revision,
+            source.fall_back_to_pt,
+            source.allow_patterns_overrides,
+        )
+        if self.load_config.load_format == "npcache":
+            # Currently np_cache only support *.bin checkpoints
+            assert use_safetensors is False
+            weights_iterator = np_cache_weights_iterator(
+                source.model_or_path,
+                self.load_config.download_dir,
+                hf_folder,
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+            )
+        elif use_safetensors:
+            if self.load_config.load_format == "fastsafetensors":
+                weights_iterator = fastsafetensors_weights_iterator(
+                    hf_weights_files,
+                    self.load_config.use_tqdm_on_load,
+                )
+            else:
+                if extra_config.get("enable_multithread_load"):
+                    weights_iterator = multi_thread_safetensors_weights_iterator(
+                        hf_weights_files,
+                        self.load_config.use_tqdm_on_load,
+                        max_workers=extra_config.get(
+                            "num_threads", self.DEFAULT_NUM_THREADS
+                        ),
+                    )
+                else:
+                    weights_iterator = safetensors_weights_iterator(
+                        hf_weights_files,
+                        self.load_config.use_tqdm_on_load,
+                        self.load_config.safetensors_load_strategy,
+                    )
+        else:
+            if extra_config.get("enable_multithread_load"):
+                weights_iterator = multi_thread_pt_weights_iterator(
+                    hf_weights_files,
+                    self.load_config.use_tqdm_on_load,
+                    self.load_config.pt_load_map_location,
+                    max_workers=extra_config.get(
+                        "num_threads", self.DEFAULT_NUM_THREADS
+                    ),
+                )
+            else:
+                weights_iterator = pt_weights_iterator(
+                    hf_weights_files,
+                    self.load_config.use_tqdm_on_load,
+                    self.load_config.pt_load_map_location,
+                )
+
+        if current_platform.is_tpu():
+            from vllm.platforms.tpu import USE_TPU_INFERENCE
+
+            if not USE_TPU_INFERENCE:
+                # In PyTorch XLA, we should call `torch_xla.sync`
+                # frequently so that not too many ops are accumulated
+                # in the XLA program.
+                import torch_xla
+
+                def _xla_weights_iterator(iterator: Generator):
+                    for weights in iterator:
+                        yield weights
+                        torch_xla.sync(wait=False)
+
+                weights_iterator = _xla_weights_iterator(weights_iterator)
+
+        if self.counter_before_loading_weights == 0.0:
+            self.counter_before_loading_weights = time.perf_counter()
+        # Apply the prefix.
+        return ((source.prefix + name, tensor) for (name, tensor) in weights_iterator)
+
+    def get_all_weights(
+        self,
+        model_config: ModelConfig,
+        model: nn.Module,
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        primary_weights = DefaultModelLoader.Source(
+            model_config.model,
+            model_config.revision,
+            prefix="",
+            fall_back_to_pt=getattr(model, "fall_back_to_pt_during_load", True),
+            allow_patterns_overrides=getattr(model, "allow_patterns_overrides", None),
+        )
+        yield from self._get_weights_iterator(primary_weights)
+
+        secondary_weights = cast(
+            Iterable[DefaultModelLoader.Source],
+            getattr(model, "secondary_weights", ()),
+        )
+        for source in secondary_weights:
+            yield from self._get_weights_iterator(source)
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(
+            model_config.model,
+            model_config.revision,
+            fall_back_to_pt=True,
+            allow_patterns_overrides=None,
+        )
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        if model_config.quantization == "torchao" and torchao_version_at_least(
+            "0.14.0"
+        ):
+            self.load_config.safetensors_load_strategy = "torchao"
+        weights_to_load = {name for name, _ in model.named_parameters()}
+
+        # if we don't have `model.weight_metadata_and_attr_saved` defined and
+        # set to True, it means that this is either offline quantization case
+        # or the first run of online quantization
+        # see online_quantization.py for detailed notes
+        offline_quantization_or_first_run_of_online_quantization = not getattr(
+            model, "weight_metadata_and_attr_saved", False
+        )
+
+        if model_config.quantization is None:
+            # model is not quantized
+            loaded_weights = model.load_weights(
+                self.get_all_weights(model_config, model)
+            )
+        elif offline_quantization_or_first_run_of_online_quantization:
+            # case 1: offline quantized checkpoint
+            # case 2: Step I1 first run of weight loading with
+            # online quantization
+            # see online_quantization.py for detailed notes
+            loaded_weights = model.load_weights(
+                self.get_all_weights(model_config, model)
+            )
+        else:
+            # to avoid circular dependency
+            from vllm.model_executor.model_loader.online_quantization import (
+                load_weights_and_online_quantize,
+            )
+
+            # subsequent runs of weight loading with online
+            # quantization
+            loaded_weights = load_weights_and_online_quantize(self, model, model_config)
+
+        self.counter_after_loading_weights = time.perf_counter()
+        logger.info_once(
+            "Loading weights took %.2f seconds",
+            self.counter_after_loading_weights - self.counter_before_loading_weights,
+            scope="local",
+        )
+        # We only enable strict check for non-quantized models
+        # that have loaded weights tracking currently.
+        opt_flag = envs.VLLM_MOE_OPT_LEVEL != 0 or envs.VLLM_LINEAR_OPT_LEVEL != 0
+        if model_config.quantization is None and loaded_weights is not None and not opt_flag:
+            weights_not_loaded = weights_to_load - loaded_weights
+            if weights_not_loaded:
+                raise ValueError(
+                    "Following weights were not initialized from "
+                    f"checkpoint: {weights_not_loaded}"
+                )
diff --git a/model_executor/model_loader/dummy_loader.py b/model_executor/model_loader/dummy_loader.py
new file mode 100644
index 0000000..b2a934c
--- /dev/null
+++ b/model_executor/model_loader/dummy_loader.py
@@ -0,0 +1,28 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch.nn as nn
+
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.weight_utils import initialize_dummy_weights
+
+
+class DummyModelLoader(BaseModelLoader):
+    """Model loader that will set model weights to random values."""
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            raise ValueError(
+                f"Model loader extra config is not supported for "
+                f"load format {load_config.load_format}"
+            )
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        pass  # Nothing to download
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        # NOTE(woosuk): For accurate performance evaluation, we assign
+        # random values to the weights.
+        initialize_dummy_weights(model)
diff --git a/model_executor/model_loader/gguf_loader.py b/model_executor/model_loader/gguf_loader.py
new file mode 100644
index 0000000..7db1fc1
--- /dev/null
+++ b/model_executor/model_loader/gguf_loader.py
@@ -0,0 +1,176 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from collections.abc import Generator
+
+import gguf
+import torch
+import torch.nn as nn
+from huggingface_hub import hf_hub_download
+from transformers import AutoModelForCausalLM
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.config.load import LoadConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model,
+    process_weights_after_loading,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    get_gguf_extra_tensor_names,
+    get_gguf_weight_type_map,
+    gguf_quant_weights_iterator,
+)
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+
+class GGUFModelLoader(BaseModelLoader):
+    """
+    Model loader that can load GGUF files. This is useful for loading models
+    that are quantized with GGUF and saved in the GGUF format. This loader
+    supports loading both full models and sharded models.
+    """
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            raise ValueError(
+                f"Model loader extra config is not supported for "
+                f"load format {load_config.load_format}"
+            )
+
+    def _prepare_weights(self, model_name_or_path: str):
+        if os.path.isfile(model_name_or_path):
+            return model_name_or_path
+        # for raw HTTPS link
+        if model_name_or_path.startswith(
+            ("http://", "https://")
+        ) and model_name_or_path.endswith(".gguf"):
+            return hf_hub_download(url=model_name_or_path)
+        # repo id/filename.gguf
+        if "/" in model_name_or_path and model_name_or_path.endswith(".gguf"):
+            repo_id, filename = model_name_or_path.rsplit("/", 1)
+            return hf_hub_download(repo_id=repo_id, filename=filename)
+        else:
+            raise ValueError(
+                f"Unrecognised GGUF reference: {model_name_or_path} "
+                "(expected local file, raw URL, or <repo_id>/<filename>.gguf)"
+            )
+
+    def _get_gguf_weights_map(self, model_config: ModelConfig):
+        """
+        GGUF uses this naming convention for their tensors from HF checkpoint:
+        `blk.N.BB.weight` and `blk.N.BB.bias`
+        where N signifies the block number of a layer, and BB signifies the
+        attention/mlp layer components.
+        See "Standardized tensor names" in
+        https://github.com/ggerganov/ggml/blob/master/docs/gguf.md for details.
+        """
+        config = model_config.hf_config
+        model_type = config.model_type
+        gguf_to_hf_name_map = {}
+        # hack: ggufs have a different name than transformers
+        if model_type == "cohere":
+            model_type = "command-r"
+        if model_type == "gemma3_text":
+            # Gemma3 models use "gemma3_text" in HuggingFace but
+            # "gemma3" in GGUF architecture naming
+            model_type = "gemma3"
+        if model_type in ("deepseek_v3", "deepseek_v2"):
+            model_type = "deepseek2"
+            # GGUF layer map assumes that we will have a merged expert weights
+            # so we need to map them manually
+            for idx in range(config.num_hidden_layers):
+                gguf_to_hf_name_map[f"blk.{idx}.exp_probs_b.bias"] = (
+                    f"model.layers.{idx}.mlp.gate.e_score_correction_bias"
+                )
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_down_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.down_proj.weight"
+                )
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_gate_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.gate_proj.weight"
+                )
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_up_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.up_proj.weight"
+                )
+        if model_type in ("qwen2_moe", "qwen3_moe"):
+            model_type = model_type.replace("_", "")
+            # GGUF layer map assumes that we will have a merged expert weights
+            # so we need to map them manually
+            for idx in range(config.num_hidden_layers):
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_down_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.down_proj.weight"
+                )
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_gate_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.gate_proj.weight"
+                )
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_up_exps.weight"] = (
+                    f"model.layers.{idx}.mlp.experts.0.up_proj.weight"
+                )
+
+        arch = None
+        for key, value in gguf.MODEL_ARCH_NAMES.items():
+            if value == model_type:
+                arch = key
+                break
+        if arch is None:
+            raise RuntimeError(f"Unknown gguf model_type: {model_type}")
+        num_layers = config.num_hidden_layers
+        name_map = gguf.get_tensor_name_map(arch, num_layers)
+        with torch.device("meta"):
+            dummy_model = AutoModelForCausalLM.from_config(
+                config, trust_remote_code=model_config.trust_remote_code
+            )
+        state_dict = dummy_model.state_dict()
+
+        for hf_name in state_dict:
+            name, suffix = hf_name.rsplit(".", 1)
+            gguf_name = name_map.get_name(name)
+            gguf_to_hf_name_map[f"{gguf_name}.{suffix}"] = hf_name
+        return gguf_to_hf_name_map
+
+    def _get_weights_iterator(
+        self, model_name_or_path: str, gguf_to_hf_name_map: dict[str, str]
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        return gguf_quant_weights_iterator(model_name_or_path, gguf_to_hf_name_map)
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model)
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        local_model_path = self._prepare_weights(model_config.model)
+        gguf_weights_map = self._get_gguf_weights_map(model_config)
+        model.load_weights(
+            self._get_weights_iterator(local_model_path, gguf_weights_map)
+        )
+
+    def load_model(
+        self, vllm_config: VllmConfig, model_config: ModelConfig
+    ) -> nn.Module:
+        device_config = vllm_config.device_config
+        local_model_path = self._prepare_weights(model_config.model)
+        gguf_weights_map = self._get_gguf_weights_map(model_config)
+        # we can only know if tie word embeddings after mapping weights
+        if "lm_head.weight" in get_gguf_extra_tensor_names(
+            local_model_path, gguf_weights_map
+        ):
+            model_config.hf_config.update({"tie_word_embeddings": True})
+
+        weight_type_map = get_gguf_weight_type_map(model_config.model, gguf_weights_map)
+
+        # filter out unquantized modules to skip
+        unquant_names = [
+            name.removesuffix(".weight")
+            for name, weight_type in weight_type_map.items()
+            if weight_type == "F32" and name.endswith(".weight")
+        ]
+        vllm_config.quant_config.unquantized_modules.extend(unquant_names)
+
+        target_device = torch.device(device_config.device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+            self.load_weights(model, model_config)
+
+            process_weights_after_loading(model, model_config, target_device)
+        return model
diff --git a/model_executor/model_loader/online_quantization.py b/model_executor/model_loader/online_quantization.py
new file mode 100644
index 0000000..890dd72
--- /dev/null
+++ b/model_executor/model_loader/online_quantization.py
@@ -0,0 +1,224 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import types
+
+import torch
+from torch import nn
+
+from vllm.config import ModelConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.default_loader import DefaultModelLoader
+from vllm.model_executor.model_loader.utils import process_weights_after_loading
+
+logger = init_logger(__name__)
+
+# Notes for Online Quantization
+# In terms of state of checkpoints, quantization config and their
+# correspondance to online quantization:
+# | Use Case      | Checkpoints          |  model_config.quantization |
+# | no quant      | high precision       |  None   |
+# | offline quant | quantized |  fp8, torchao etc. |
+# | online quant  | high precision | torchao etc. |
+#
+# The process for loading non-quantized checkpoint
+# 1. load non-quantized weights (load_weights)
+# 2. do any additional post processing (process_weights_after_loading)
+#
+# The process for loading offline quantized checkpoint
+# 1. load offline-quantized weights (load_weights)
+# 2. do any additional post processing (process_weights_after_loading)
+
+# The process for unquantized model reloading
+# (repeated run in RL training loop)
+# first run
+#   UI1. load_weights: load bfloat16 weights
+#   UI2. process_weights_after_loading: any additional post processing
+# subsequent run
+#   UC1: load_weights: load bfloat16 weights
+#      (shouldn't be any issues since we didn't change any attributes
+#       of the weights)
+#   UC2: process_weights_after_loading: any additional post processing
+
+# The process for weight reloading with online quantization
+# (repeated run in RL training loop)
+# first run
+#  I1. load_weights: load bfloat16 weights
+#  I2. process_weights_after_loading:
+#        record weight metadata and attributes for R1 and R2
+#        quantize weights to fp8
+# subsequent run
+#  (beginning model weight is in fp8)
+#  load_weights:
+#    R1. restore bfloat16 model weight metadata
+#    R2. restore the model weight attributes
+#    R3. reload bfloat16 weights
+#    R4. quantize weights (by calling process_weights_after_loading),
+#    also set `process_weights_after_loading_already_called` to
+#    True to stop it from running again
+#  process_weights_after_loading (if called):
+#    this will be skipped since it's already ran in
+#    load_weights
+
+
+def maybe_save_metadata_and_attributes_for_weight_reloading(
+    model: nn.Module, model_config: ModelConfig
+):
+    # following is to support on the fly quantization, currently only supported
+    # for torchao
+    if model_config.quantization != "torchao":
+        return
+
+    if getattr(model, "process_weights_after_loading_already_called", False):
+        # In case `process_weights_after_loading` is called multiple times
+        # we'll skip it at later times
+        logger.warning(
+            "process_weights_after_loading already called for model %s", model
+        )
+        return
+
+    from vllm.model_executor.model_loader.weight_utils import get_quant_config
+
+    quant_config = get_quant_config(model_config, None)
+
+    # If checkpoint is already torchao serialized, this means it's
+    # pre-quantized quantization case, we'll skip saving the metadata
+    # Otherwise, this is Step I2 of initialization steps of
+    # online quantization
+    # This step record the weights metadata and weight attributes so we can
+    # restore the bfloat16 model weights during the relad step (R1 and R2)
+    # see Notes in online_quantization.py for more details
+    if not (
+        hasattr(quant_config, "is_checkpoint_torchao_serialized")
+        and not quant_config.is_checkpoint_torchao_serialized
+    ):
+        return
+
+    # This is the I2 step of online quantiztion that saves
+    # metadata and attributes of weights so they can be used in R1 and
+    # R2 step, note that we only save these during initialization
+
+    # Includes two things
+    # 1. save floating point metadata (shape, dtype, device) for init
+    # 2. save weight attributes, e.g. `output_dim`, `weight_loader` for init
+
+    if getattr(model, "weight_metadata_and_attr_saved", False):
+        return
+
+    # save the dtype, shape and device for model parameter, used for
+    # restoring the model high precision parameters before
+    # reloading the weights
+    assert not hasattr(model, "original_weights_rebuild_keys")
+    model.original_weights_rebuild_keys = {}
+    for name, p in model.named_parameters():
+        model.original_weights_rebuild_keys[name] = {
+            "shape": p.shape,
+            "dtype": p.dtype,
+            "device": p.device,
+        }
+
+    # record the weight attributes (loader functions etc.)
+    # so these can be recovered later when we reload the weights
+    # structure: {"weight_name": {"weight_attr_key": attr}}
+    assert not hasattr(model, "recorded_weight_attr")
+    model.recorded_weight_attr = {}
+    for name, param in model.named_parameters():
+        model.recorded_weight_attr[name] = {}
+        for key in param.__dict__:
+            if hasattr(param, key):
+                attr = getattr(param, key)
+                if not callable(attr):
+                    model.recorded_weight_attr[name][key] = attr
+                elif hasattr(attr, "__self__") and param is attr.__self__:
+                    # if attr is a bonded method for an instance, and
+                    # attr.__self__ points to the instance (param)
+                    # we'll record the underlying function object
+                    model.recorded_weight_attr[name][key] = attr.__func__
+                else:
+                    model.recorded_weight_attr[name][key] = attr
+    # mark the metadata and attributes saved so we don't run it again
+    model.weight_metadata_and_attr_saved = True
+
+
+def _bond_method_to_cls(func, obj):
+    if hasattr(func, "__self__") or not callable(func):
+        # If the function is already bound to an instance, return it as is
+        return func
+    else:
+        return types.MethodType(func, obj)
+
+
+def load_weights_and_online_quantize(
+    model_loader: DefaultModelLoader, model: nn.Module, model_config: ModelConfig
+) -> set[str]:
+    # online quantization, right now only enabled for
+    # torchao
+    # R1, R2, R3, R4 in the Notes
+
+    # TODO: Add fp8 support
+    assert model_config.quantization == "torchao", (
+        "online quantization is only enabled for torchao currently"
+    )
+    # TODO: use create_weights to restore the weights to original state
+
+    # Step R1: First restore the quantized weights to original bfloat16
+    # weights, with original metadata (shape, dtype, device)
+    # and attributes, so that bfloat16 weights can be loaded properly
+    existing_param_names = dict(model.named_parameters(remove_duplicate=False)).keys()
+    named_modules = dict(model.named_modules(remove_duplicate=False))
+    model_device = None
+
+    # Step R2: recover the parameter to the state before first loading
+    for name, d in model.original_weights_rebuild_keys.items():
+        _shape = d["shape"]
+        _dtype = d["dtype"]
+        _device = d["device"]
+        if model_device is not None:
+            assert model_device == _device, (
+                "Expecting all weights "
+                "to be in the same device for now, got both: "
+                f"{model_device} and {_device}"
+            )
+        else:
+            model_device = _device
+
+        if name in existing_param_names:
+            module_name, weight_name = name.rsplit(".", 1)
+            module = named_modules[module_name]
+            setattr(
+                module,
+                weight_name,
+                torch.nn.Parameter(torch.empty(_shape, dtype=_dtype, device=_device)),
+            )
+
+    # recorded_weight_attr is
+    # {"weight_name": {"weight_attr_key": attr}}
+    # e.g.
+    # {
+    #   {
+    #     "layer.0.weight": {
+    #       "weight_loader": weight_loader_function_object,
+    #       "input_dim": 0, ...
+    #     },
+    #     "layer.1.weight": ...,
+    #    }
+    # }
+    for full_weight_name, weight_attr_dict in model.recorded_weight_attr.items():
+        for attr_name, attr in weight_attr_dict.items():
+            module_name, weight_name = full_weight_name.rsplit(".", 1)
+            module = named_modules[module_name]
+            weight = getattr(module, weight_name)
+            if not hasattr(weight, attr_name):
+                setattr(weight, attr_name, _bond_method_to_cls(attr, weight))
+
+    # Step I1: reload bfloat16 / high precision weights
+    loaded_weights = model.load_weights(
+        model_loader.get_all_weights(model_config, model)
+    )
+
+    # Step I2: online quantize the weights
+    # manually process weights after loading
+    model.process_weights_after_loading_already_called = False
+    process_weights_after_loading(model, model_config, model_device)
+    model.process_weights_after_loading_already_called = True
+    return loaded_weights
diff --git a/model_executor/model_loader/runai_streamer_loader.py b/model_executor/model_loader/runai_streamer_loader.py
new file mode 100644
index 0000000..93da07c
--- /dev/null
+++ b/model_executor/model_loader/runai_streamer_loader.py
@@ -0,0 +1,116 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: SIM117
+import os
+from collections.abc import Generator
+
+import torch
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf,
+    download_weights_from_hf,
+    runai_safetensors_weights_iterator,
+)
+from vllm.transformers_utils.runai_utils import is_runai_obj_uri, list_safetensors
+
+
+class RunaiModelStreamerLoader(BaseModelLoader):
+    """
+    Model loader that can load safetensors
+    files from local FS or S3 bucket.
+    """
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+
+        self._is_distributed = False
+        if load_config.model_loader_extra_config:
+            extra_config = load_config.model_loader_extra_config
+
+            if "distributed" in extra_config and isinstance(
+                extra_config.get("distributed"), bool
+            ):
+                self._is_distributed = extra_config.get("distributed")
+
+            if "concurrency" in extra_config and isinstance(
+                extra_config.get("concurrency"), int
+            ):
+                os.environ["RUNAI_STREAMER_CONCURRENCY"] = str(
+                    extra_config.get("concurrency")
+                )
+
+            if "memory_limit" in extra_config and isinstance(
+                extra_config.get("memory_limit"), int
+            ):
+                os.environ["RUNAI_STREAMER_MEMORY_LIMIT"] = str(
+                    extra_config.get("memory_limit")
+                )
+
+            runai_streamer_s3_endpoint = os.getenv("RUNAI_STREAMER_S3_ENDPOINT")
+            aws_endpoint_url = os.getenv("AWS_ENDPOINT_URL")
+            if runai_streamer_s3_endpoint is None and aws_endpoint_url is not None:
+                os.environ["RUNAI_STREAMER_S3_ENDPOINT"] = aws_endpoint_url
+
+    def _prepare_weights(
+        self, model_name_or_path: str, revision: str | None
+    ) -> list[str]:
+        """Prepare weights for the model.
+
+        If the model is not local, it will be downloaded."""
+
+        is_object_storage_path = is_runai_obj_uri(model_name_or_path)
+        is_local = os.path.isdir(model_name_or_path)
+        safetensors_pattern = "*.safetensors"
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+
+        hf_folder = (
+            model_name_or_path
+            if (is_local or is_object_storage_path)
+            else download_weights_from_hf(
+                model_name_or_path,
+                self.load_config.download_dir,
+                [safetensors_pattern],
+                revision,
+                ignore_patterns=self.load_config.ignore_patterns,
+            )
+        )
+        hf_weights_files = list_safetensors(path=hf_folder)
+
+        if not is_local and not is_object_storage_path:
+            download_safetensors_index_file_from_hf(
+                model_name_or_path, index_file, self.load_config.download_dir, revision
+            )
+
+        if not hf_weights_files:
+            raise RuntimeError(
+                f"Cannot find any safetensors model weights with `{model_name_or_path}`"
+            )
+
+        return hf_weights_files
+
+    def _get_weights_iterator(
+        self, model_or_path: str, revision: str
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        """Get an iterator for the model weights based on the load format."""
+        hf_weights_files = self._prepare_weights(model_or_path, revision)
+        return runai_safetensors_weights_iterator(
+            hf_weights_files, self.load_config.use_tqdm_on_load, self._is_distributed
+        )
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        """Download model if necessary"""
+        self._prepare_weights(model_config.model, model_config.revision)
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        """Load weights into a model."""
+        model_weights = model_config.model
+        if hasattr(model_config, "model_weights"):
+            model_weights = model_config.model_weights
+        model.load_weights(
+            self._get_weights_iterator(model_weights, model_config.revision)
+        )
diff --git a/model_executor/model_loader/sharded_state_loader.py b/model_executor/model_loader/sharded_state_loader.py
new file mode 100644
index 0000000..d94dbd9
--- /dev/null
+++ b/model_executor/model_loader/sharded_state_loader.py
@@ -0,0 +1,206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import collections
+import glob
+import os
+from collections.abc import Generator
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.weight_utils import (
+    download_weights_from_hf,
+    runai_safetensors_weights_iterator,
+)
+from vllm.transformers_utils.s3_utils import glob as s3_glob
+from vllm.transformers_utils.utils import is_s3
+
+logger = init_logger(__name__)
+
+
+class ShardedStateLoader(BaseModelLoader):
+    """
+    Model loader that directly loads each worker's model state dict, which
+    enables a fast load path for large tensor-parallel models where each worker
+    only needs to read its own shard rather than the entire checkpoint. See
+    `examples/offline_inference/save_sharded_state.py` for creating a sharded
+    checkpoint.
+    """
+
+    DEFAULT_PATTERN = "model-rank-{rank}-part-{part}.safetensors"
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+
+        extra_config = (
+            {}
+            if load_config.model_loader_extra_config is None
+            else load_config.model_loader_extra_config.copy()
+        )
+        self.pattern = extra_config.pop("pattern", self.DEFAULT_PATTERN)
+        if extra_config:
+            raise ValueError(
+                f"Unexpected extra config keys for load format "
+                f"{load_config.load_format}: "
+                f"{load_config.model_loader_extra_config.keys()}"
+            )
+
+    @staticmethod
+    def _filter_subtensors(
+        tensors: dict[str, torch.Tensor],
+    ) -> dict[str, torch.Tensor]:
+        """
+        Filter out all tensors that share the same memory or a subset of the
+        memory of another tensor.
+        """
+        same_storage_groups: dict[Any, list[tuple[str, torch.Tensor]]] = (
+            collections.defaultdict(list)
+        )
+        for key, tensor in tensors.items():
+            if tensor.numel():
+                ptr = tensor.untyped_storage().data_ptr()
+                same_storage_groups[tensor.device, ptr].append((key, tensor))
+
+        def get_end_ptr(tensor: torch.Tensor) -> int:
+            return tensor.view(-1)[-1].data_ptr() + tensor.element_size()
+
+        result: dict[str, torch.Tensor] = {}
+        for group in same_storage_groups.values():
+            for k, t in group:
+                a, b = t.data_ptr(), get_end_ptr(t)
+                for k2, t2 in group:
+                    if not t2.is_contiguous():
+                        continue
+                    a2, b2 = t2.data_ptr(), get_end_ptr(t2)
+                    if a < a2 or b2 < b:
+                        continue
+                    if a2 < a or b < b2 or not t.is_contiguous():
+                        break  # t2 covers strictly more memory than t.
+                    if k2 < k:
+                        # Same tensors, keep the one with the smaller key.
+                        break
+                else:
+                    result[k] = t
+        return result
+
+    def _prepare_weights(self, model_name_or_path: str, revision: str | None):
+        if is_s3(model_name_or_path) or os.path.isdir(model_name_or_path):
+            return model_name_or_path
+        else:
+            allow_patterns = ["*.safetensors"]
+            return download_weights_from_hf(
+                model_name_or_path,
+                self.load_config.download_dir,
+                allow_patterns,
+                revision,
+                ignore_patterns=self.load_config.ignore_patterns,
+            )
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model, model_config.revision)
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        from vllm.distributed import get_tensor_model_parallel_rank
+
+        model_weights = model_config.model
+        if hasattr(model_config, "model_weights"):
+            model_weights = model_config.model_weights
+        local_model_path = model_weights
+
+        rank = get_tensor_model_parallel_rank()
+        pattern = os.path.join(
+            local_model_path,
+            self.pattern.format(rank=rank, part="*"),
+        )
+
+        filepaths = []
+        if is_s3(local_model_path):
+            file_pattern = f"*{self.pattern.format(rank=rank, part='*')}"
+            filepaths = s3_glob(path=local_model_path, allow_pattern=[file_pattern])
+        else:
+            filepaths = glob.glob(pattern)
+        if not filepaths:
+            # TODO: support un-sharded checkpoints too
+            raise ValueError(
+                f"Could not find checkpoint files '{pattern}', only "
+                f"pre-sharded checkpoints are currently supported!"
+            )
+        state_dict = self._filter_subtensors(model.state_dict())
+        for key, tensor in self.iterate_over_files(filepaths):
+            # If loading with LoRA enabled, additional padding may
+            # be added to certain parameters. We only load into a
+            # narrowed view of the parameter data.
+            param_data = state_dict[key].data
+            param_shape = state_dict[key].shape
+            for dim, size in enumerate(tensor.shape):
+                if size < param_shape[dim]:
+                    param_data = param_data.narrow(dim, 0, size)
+            if tensor.shape != param_shape:
+                logger.warning(
+                    "loading tensor of shape %s into parameter '%s' of shape %s",
+                    tensor.shape,
+                    key,
+                    param_shape,
+                )
+            param_data.copy_(tensor)
+            state_dict.pop(key)
+        if state_dict:
+            raise ValueError(f"Missing keys {tuple(state_dict)} in loaded state!")
+
+    def iterate_over_files(
+        self, paths
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        if self.load_config.load_format == "runai_streamer_sharded":
+            yield from runai_safetensors_weights_iterator(paths, True)
+        else:
+            from safetensors.torch import safe_open
+
+            for path in paths:
+                with safe_open(path, framework="pt") as f:
+                    for key in f.keys():  # noqa: SIM118
+                        tensor = f.get_tensor(key)
+                        yield key, tensor
+
+    @staticmethod
+    def save_model(
+        model: torch.nn.Module,
+        path: str,
+        pattern: str | None = None,
+        max_size: int | None = None,
+    ) -> None:
+        from safetensors.torch import save_file
+
+        from vllm.distributed import get_tensor_model_parallel_rank
+
+        if pattern is None:
+            pattern = ShardedStateLoader.DEFAULT_PATTERN
+        rank = get_tensor_model_parallel_rank()
+        part_idx = 0
+        total_size = 0
+        state_dict = ShardedStateLoader._filter_subtensors(model.state_dict())
+        state_dict_part: dict[str, torch.Tensor] = {}
+        for key, tensor in state_dict.items():
+            param_size = tensor.nelement() * tensor.element_size()
+            if max_size is not None and total_size + param_size > max_size:
+                filename = pattern.format(rank=rank, part=part_idx)
+                save_file(
+                    state_dict_part,
+                    os.path.join(path, filename),
+                )
+                part_idx += 1
+                total_size = 0
+                state_dict_part = {}
+            state_dict_part[key] = tensor
+            total_size += param_size
+        if len(state_dict_part) > 0:
+            filename = pattern.format(rank=rank, part=part_idx)
+            save_file(
+                state_dict_part,
+                os.path.join(path, filename),
+            )
diff --git a/model_executor/model_loader/tensorizer.py b/model_executor/model_loader/tensorizer.py
new file mode 100644
index 0000000..e4e530f
--- /dev/null
+++ b/model_executor/model_loader/tensorizer.py
@@ -0,0 +1,790 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import argparse
+import contextlib
+import contextvars
+import dataclasses
+import json
+import os
+import tempfile
+import threading
+import time
+from collections.abc import Generator, MutableMapping
+from dataclasses import asdict, dataclass, field, fields
+from typing import TYPE_CHECKING, Any, ClassVar, Optional
+
+import regex as re
+import torch
+from huggingface_hub import snapshot_download
+from torch import nn
+from torch.utils._python_dispatch import TorchDispatchMode
+from transformers import PretrainedConfig
+
+import vllm.envs as envs
+from vllm.config import ModelConfig, ParallelConfig, VllmConfig, set_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.platforms import current_platform
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.import_utils import PlaceholderModule
+
+if TYPE_CHECKING:
+    from vllm.engine.arg_utils import EngineArgs
+
+try:
+    from tensorizer import (
+        DecryptionParams,
+        EncryptionParams,
+        TensorDeserializer,
+        TensorSerializer,
+    )
+    from tensorizer.stream_io import open_stream
+    from tensorizer.utils import convert_bytes, get_mem_usage, no_init_or_tensor
+
+except ImportError:
+    tensorizer = PlaceholderModule("tensorizer")
+    DecryptionParams = tensorizer.placeholder_attr("DecryptionParams")
+    EncryptionParams = tensorizer.placeholder_attr("EncryptionParams")
+    TensorDeserializer = tensorizer.placeholder_attr("TensorDeserializer")
+    TensorSerializer = tensorizer.placeholder_attr("TensorSerializer")
+    open_stream = tensorizer.placeholder_attr("stream_io.open_stream")
+    convert_bytes = tensorizer.placeholder_attr("utils.convert_bytes")
+    get_mem_usage = tensorizer.placeholder_attr("utils.get_mem_usage")
+    no_init_or_tensor = tensorizer.placeholder_attr("utils.no_init_or_tensor")
+
+__all__ = [
+    "EncryptionParams",
+    "DecryptionParams",
+    "TensorDeserializer",
+    "TensorSerializer",
+    "open_stream",
+    "convert_bytes",
+    "get_mem_usage",
+    "no_init_or_tensor",
+    "TensorizerConfig",
+]
+
+logger = init_logger(__name__)
+
+
+def is_valid_deserialization_uri(uri: str | None) -> bool:
+    if uri:
+        scheme = uri.lower().split("://")[0]
+        return scheme in {"s3", "http", "https"} or os.path.exists(uri)
+    return False
+
+
+def tensorizer_kwargs_arg(value):
+    loaded = json.loads(value)
+    if not isinstance(loaded, dict):
+        raise argparse.ArgumentTypeError(
+            f"Not deserializable to dict: {value}. serialization_kwargs and "
+            f"deserialization_kwargs must be "
+            f"deserializable from a JSON string to a dictionary. "
+        )
+    return loaded
+
+
+class MetaTensorMode(TorchDispatchMode):
+    def __torch_dispatch__(self, func, types, args=(), kwargs=None):
+        kwargs = kwargs or {}
+
+        if func._schema.name == "aten::empty" and "device" not in kwargs:
+            kwargs["device"] = "meta"
+
+        return func(*args, **kwargs)
+
+
+def meta_tensor_mode(
+    loading_code=None,
+):
+    if loading_code is None:
+        return _NoInitOrTensorImpl.context_manager()
+    elif callable(loading_code):
+        with _NoInitOrTensorImpl.context_manager():
+            return loading_code()
+    else:
+        raise TypeError(
+            "expected a callable to evaluate,"
+            " or None if being used as a context manager;"
+            f' got an object of type "{type(loading_code).__name__}" instead.'
+        )
+
+
+class _NoInitOrTensorImpl:
+    _MODULES = (torch.nn.Linear, torch.nn.Embedding, torch.nn.LayerNorm)
+    _MODULE_ORIGINALS = tuple((m, m.reset_parameters) for m in _MODULES)
+
+    is_active = contextvars.ContextVar("_NoInitOrTensorImpl.is_active", default=False)
+    _count_active: int = 0
+    _count_active_lock = threading.Lock()
+
+    @classmethod
+    @contextlib.contextmanager
+    def context_manager(cls):
+        if cls.is_active.get():
+            yield
+            return
+
+        with cls._count_active_lock:
+            cls._count_active += 1
+            if cls._count_active == 1:
+                for mod in cls._MODULES:
+                    mod.reset_parameters = cls._disable(mod.reset_parameters)
+
+        reset_token = cls.is_active.set(True)
+
+        try:
+            with MetaTensorMode():
+                yield
+        finally:
+            cls.is_active.reset(reset_token)
+            with cls._count_active_lock:
+                cls._count_active -= 1
+                if cls._count_active == 0:
+                    for mod, original in cls._MODULE_ORIGINALS:
+                        mod.reset_parameters = original
+
+    @staticmethod
+    def _disable(func):
+        def wrapper(*args, **kwargs):
+            if not _NoInitOrTensorImpl.is_active.get():
+                return func(*args, **kwargs)
+
+        return wrapper
+
+
+@dataclass
+class TensorizerConfig(MutableMapping):
+    tensorizer_uri: str | None = None
+    tensorizer_dir: str | None = None
+    vllm_tensorized: bool | None = None
+    verify_hash: bool | None = None
+    num_readers: int | None = None
+    encryption_keyfile: str | None = None
+    s3_access_key_id: str | None = None
+    s3_secret_access_key: str | None = None
+    s3_endpoint: str | None = None
+    lora_dir: str | None = None
+    stream_kwargs: dict[str, Any] | None = None
+    serialization_kwargs: dict[str, Any] | None = None
+    deserialization_kwargs: dict[str, Any] | None = None
+    _extra_serialization_attrs: dict[str, Any] | None = field(init=False, default=None)
+    model_class: type[torch.nn.Module] | None = field(init=False, default=None)
+    hf_config: PretrainedConfig | None = field(init=False, default=None)
+    dtype: str | torch.dtype | None = field(init=False, default=None)
+    _is_sharded: bool = field(init=False, default=False)
+    _fields: ClassVar[tuple[str, ...]]
+    _keys: ClassVar[frozenset[str]]
+    """Configuration class for Tensorizer settings.
+    
+    These settings configure the behavior of model serialization and 
+    deserialization using Tensorizer.
+    
+    Attributes:
+        tensorizer_uri: Path to serialized model tensors. Can be a local file 
+            path or a S3 URI. This is a required field unless lora_dir is 
+            provided and the config is meant to be used for the
+            `tensorize_lora_adapter` function. Unless a `tensorizer_dir` or 
+            `lora_dir` is passed to this object's initializer, this is 
+            a required argument.
+        tensorizer_dir: Path to a directory containing serialized model tensors,
+            and all other potential model artifacts to load the model, such as 
+            configs and tokenizer files. Can be passed instead of 
+            `tensorizer_uri` where the `model.tensors` file will be assumed 
+            to be in this directory.
+        vllm_tensorized: If True, indicates that the serialized model is a 
+            vLLM model. This is used to determine the behavior of the 
+            TensorDeserializer when loading tensors from a serialized model.
+            It is far faster to deserialize a vLLM model as it utilizes
+            tensorizer's optimized GPU loading. Note that this is now
+            deprecated, as serialized vLLM models are now automatically
+            inferred as vLLM models.
+        verify_hash: If True, the hashes of each tensor will be verified 
+            against the hashes stored in the metadata. A `HashMismatchError` 
+            will be raised if any of the hashes do not match.
+        num_readers: Controls how many threads are allowed to read concurrently
+            from the source file. Default is `None`, which will dynamically set
+            the number of readers based on the number of available 
+            resources and model size. This greatly increases performance.
+        encryption_keyfile: File path to a binary file containing a  
+            binary key to use for decryption. `None` (the default) means 
+            no decryption. See the example script in 
+            examples/others/tensorize_vllm_model.py. 
+        s3_access_key_id: The access key for the S3 bucket. Can also be set via
+            the S3_ACCESS_KEY_ID environment variable.
+        s3_secret_access_key: The secret access key for the S3 bucket. Can also
+            be set via the S3_SECRET_ACCESS_KEY environment variable.
+        s3_endpoint: The endpoint for the S3 bucket. Can also be set via the
+            S3_ENDPOINT_URL environment variable.
+        lora_dir: Path to a directory containing LoRA adapter artifacts for 
+            serialization or deserialization. When serializing LoRA adapters 
+            this is the only necessary parameter to pass to this object's 
+            initializer.
+    """
+
+    def __post_init__(self):
+        # check if the configuration is for a sharded vLLM model
+        self._is_sharded = (
+            isinstance(self.tensorizer_uri, str)
+            and re.search(r"%0\dd", self.tensorizer_uri) is not None
+        )
+
+        if self.tensorizer_dir and self.lora_dir:
+            raise ValueError(
+                "Only one of tensorizer_dir or lora_dir may be specified. "
+                "Use lora_dir exclusively when serializing LoRA adapters, "
+                "and tensorizer_dir or tensorizer_uri otherwise."
+            )
+        if self.tensorizer_dir and self.tensorizer_uri:
+            logger.warning_once(
+                "Provided both tensorizer_dir and tensorizer_uri. "
+                "Inferring tensorizer_dir from tensorizer_uri as the "
+                "latter takes precedence."
+            )
+            self.tensorizer_dir = os.path.dirname(self.tensorizer_uri)
+        if not self.tensorizer_uri:
+            if self.lora_dir:
+                self.tensorizer_uri = f"{self.lora_dir}/adapter_model.tensors"
+            elif self.tensorizer_dir:
+                self.tensorizer_uri = f"{self.tensorizer_dir}/model.tensors"
+            else:
+                raise ValueError(
+                    "Unable to resolve tensorizer_uri. "
+                    "A valid tensorizer_uri or tensorizer_dir "
+                    "must be provided for deserialization, and a "
+                    "valid tensorizer_uri, tensorizer_uri, or "
+                    "lora_dir for serialization."
+                )
+        else:
+            self.tensorizer_dir = os.path.dirname(self.tensorizer_uri)
+
+        if not self.serialization_kwargs:
+            self.serialization_kwargs = {}
+        if not self.deserialization_kwargs:
+            self.deserialization_kwargs = {}
+
+    def to_serializable(self) -> dict[str, Any]:
+        # Due to TensorizerConfig needing to be msgpack-serializable, it needs
+        # support for morphing back and forth between itself and its dict
+        # representation
+
+        # TensorizerConfig's representation as a dictionary is meant to be
+        # linked to TensorizerConfig in such a way that the following is
+        # technically initializable:
+        # TensorizerConfig(**my_tensorizer_cfg.to_serializable())
+
+        # This means the dict must not retain non-initializable parameters
+        # and post-init attribute states
+
+        # Also don't want to retain private and unset parameters, so only retain
+        # not None values and public attributes
+
+        raw_tc_dict = asdict(self)
+        blacklisted = []
+
+        if "tensorizer_uri" in raw_tc_dict and "tensorizer_dir" in raw_tc_dict:
+            blacklisted.append("tensorizer_dir")
+
+        if "tensorizer_dir" in raw_tc_dict and "lora_dir" in raw_tc_dict:
+            blacklisted.append("tensorizer_dir")
+
+        tc_dict = {}
+        for k, v in raw_tc_dict.items():
+            if (
+                k not in blacklisted
+                and k not in tc_dict
+                and not k.startswith("_")
+                and v is not None
+            ):
+                tc_dict[k] = v
+
+        return tc_dict
+
+    def _construct_tensorizer_args(self) -> "TensorizerArgs":
+        return TensorizerArgs(self)  # type: ignore
+
+    def verify_with_parallel_config(
+        self,
+        parallel_config: "ParallelConfig",
+    ) -> None:
+        if parallel_config.tensor_parallel_size > 1 and not self._is_sharded:
+            raise ValueError(
+                "For a sharded model, tensorizer_uri should include a"
+                " string format template like '%04d' to be formatted"
+                " with the rank of the shard"
+            )
+
+    def verify_with_model_config(self, model_config: "ModelConfig") -> None:
+        if model_config.quantization is not None and self.tensorizer_uri is not None:
+            logger.warning(
+                "Loading a model using Tensorizer with quantization on vLLM"
+                " is unstable and may lead to errors."
+            )
+
+    def open_stream(self, tensorizer_args: Optional["TensorizerArgs"] = None):
+        if tensorizer_args is None:
+            tensorizer_args = self._construct_tensorizer_args()
+
+        return open_stream(self.tensorizer_uri, **tensorizer_args.stream_kwargs)
+
+    def keys(self):
+        return self._keys
+
+    def __len__(self):
+        return len(fields(self))
+
+    def __iter__(self):
+        return iter(self._fields)
+
+    def __getitem__(self, item: str) -> Any:
+        if item not in self.keys():
+            raise KeyError(item)
+        return getattr(self, item)
+
+    def __setitem__(self, key: str, value: Any) -> None:
+        if key not in self.keys():
+            # Disallow modifying invalid keys
+            raise KeyError(key)
+        setattr(self, key, value)
+
+    def __delitem__(self, key, /):
+        if key not in self.keys():
+            raise KeyError(key)
+        delattr(self, key)
+
+
+TensorizerConfig._fields = tuple(f.name for f in fields(TensorizerConfig))
+TensorizerConfig._keys = frozenset(TensorizerConfig._fields)
+
+
+@dataclass
+class TensorizerArgs:
+    tensorizer_uri: str | None = None
+    tensorizer_dir: str | None = None
+    encryption_keyfile: str | None = None
+
+    def __init__(self, tensorizer_config: TensorizerConfig):
+        for k, v in tensorizer_config.items():
+            setattr(self, k, v)
+        self.file_obj = tensorizer_config.tensorizer_uri
+        self.s3_access_key_id = (
+            tensorizer_config.s3_access_key_id or envs.S3_ACCESS_KEY_ID
+        )
+        self.s3_secret_access_key = (
+            tensorizer_config.s3_secret_access_key or envs.S3_SECRET_ACCESS_KEY
+        )
+        self.s3_endpoint = tensorizer_config.s3_endpoint or envs.S3_ENDPOINT_URL
+
+        self.stream_kwargs = {
+            "s3_access_key_id": tensorizer_config.s3_access_key_id,
+            "s3_secret_access_key": tensorizer_config.s3_secret_access_key,
+            "s3_endpoint": tensorizer_config.s3_endpoint,
+            **(tensorizer_config.stream_kwargs or {}),
+        }
+
+        self.deserialization_kwargs = {
+            "verify_hash": tensorizer_config.verify_hash,
+            "encryption": tensorizer_config.encryption_keyfile,
+            "num_readers": tensorizer_config.num_readers,
+            **(tensorizer_config.deserialization_kwargs or {}),
+        }
+
+        if self.encryption_keyfile:
+            with open_stream(
+                tensorizer_config.encryption_keyfile,
+                **self.stream_kwargs,
+            ) as stream:
+                key = stream.read()
+                decryption_params = DecryptionParams.from_key(key)
+                self.deserialization_kwargs["encryption"] = decryption_params
+
+    @staticmethod
+    def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
+        """Tensorizer CLI arguments"""
+
+        # Tensorizer options arg group
+        group = parser.add_argument_group(
+            "tensorizer options",
+            description=(
+                "Options for configuring the behavior of the"
+                " tensorizer deserializer when "
+                "load_format=tensorizer is specified when "
+                "initializing an LLMEngine, either via the CLI "
+                "when running the vLLM OpenAI inference server "
+                "with a JSON string passed to "
+                "--model-loader-extra-config or as arguments given "
+                "to TensorizerConfig when passed to "
+                "model_loader_extra_config in the constructor "
+                "for LLMEngine."
+            ),
+        )
+
+        group.add_argument(
+            "--tensorizer-uri",
+            type=str,
+            help="Path to serialized model tensors. Can be a local file path,"
+            " or an HTTP(S) or S3 URI.",
+        )
+        group.add_argument(
+            "--verify-hash",
+            action="store_true",
+            help="If enabled, the hashes of each tensor will be verified"
+            " against the hashes stored in the file metadata. An exception"
+            " will be raised if any of the hashes do not match.",
+        )
+        group.add_argument(
+            "--encryption-keyfile",
+            type=str,
+            default=None,
+            help="The file path to a binary file containing a binary key to "
+            "use for decryption. Can be a file path or S3 network URI.",
+        )
+        group.add_argument(
+            "--num-readers",
+            default=None,
+            type=int,
+            help="Controls how many threads are allowed to read concurrently "
+            "from the source file. Default is `None`, which will dynamically "
+            "set the number of readers based on the available resources "
+            "and model size. This greatly increases performance.",
+        )
+        group.add_argument(
+            "--s3-access-key-id",
+            type=str,
+            default=None,
+            help="The access key for the S3 bucket. Can also be set via the "
+            "S3_ACCESS_KEY_ID environment variable.",
+        )
+        group.add_argument(
+            "--s3-secret-access-key",
+            type=str,
+            default=None,
+            help="The secret access key for the S3 bucket. Can also be set via "
+            "the S3_SECRET_ACCESS_KEY environment variable.",
+        )
+        group.add_argument(
+            "--s3-endpoint",
+            type=str,
+            default=None,
+            help="The endpoint for the S3 bucket. Can also be set via the "
+            "S3_ENDPOINT_URL environment variable.",
+        )
+
+        return parser
+
+    @classmethod
+    def from_cli_args(cls, args: argparse.Namespace) -> "TensorizerArgs":
+        attrs = [attr.name for attr in dataclasses.fields(cls)]
+        tensorizer_args = cls(
+            **{attr: getattr(args, attr) for attr in attrs if hasattr(args, attr)}
+        )
+        return tensorizer_args
+
+
+def _check_tensors_on_meta_device(model: nn.Module) -> None:
+    for tensor in model.state_dict().values():
+        if tensor.device.type == "meta":
+            raise ValueError(
+                "The serialized model contains tensors on the meta device,"
+                " indicating that some tensors were not loaded properly."
+                " Please check that the parameters of the model being"
+                " specified match that of the serialized model, such as"
+                " its quantization."
+            )
+
+
+def _resize_lora_embeddings(model: nn.Module):
+    """Modify LoRA embedding layers to use bigger tensors
+    to allow for adapter added tokens."""
+    for child in model.modules():
+        if (
+            isinstance(child, VocabParallelEmbedding)
+            and child.weight.shape[0] < child.num_embeddings_per_partition
+        ):
+            new_weight = torch.empty(
+                child.num_embeddings_per_partition,
+                child.embedding_dim,
+                dtype=child.weight.dtype,
+                device=child.weight.device,
+            )
+            new_weight[: child.weight.shape[0]].copy_(child.weight.data)
+            new_weight[child.weight.shape[0] :].fill_(0)
+            child.weight.data = new_weight
+
+
+def init_tensorizer_model(
+    tensorizer_config: TensorizerConfig, vllm_config: VllmConfig
+) -> nn.Module:
+    assert tensorizer_config.hf_config is not None
+    model_args = tensorizer_config.hf_config
+    model_args.dtype = tensorizer_config.dtype
+    assert tensorizer_config.model_class is not None
+    # TODO: Do we need to consider old-style model class?
+    with meta_tensor_mode(), set_current_vllm_config(vllm_config, check_compile=True):
+        return tensorizer_config.model_class(vllm_config=vllm_config)
+
+
+def deserialize_tensorizer_model(
+    model: nn.Module, tensorizer_config: TensorizerConfig
+) -> None:
+    tensorizer_args = tensorizer_config._construct_tensorizer_args()
+    if not is_valid_deserialization_uri(tensorizer_config.tensorizer_uri):
+        raise ValueError(
+            f"{tensorizer_config.tensorizer_uri} is not a valid "
+            f"tensorizer URI. Please check that the URI is correct. "
+            f"It must either point to a local existing file, or have a "
+            f"S3, HTTP or HTTPS scheme."
+        )
+    before_mem = get_mem_usage()
+    start = time.perf_counter()
+    with (
+        open_stream(
+            tensorizer_config.tensorizer_uri, mode="rb", **tensorizer_args.stream_kwargs
+        ) as stream,
+        TensorDeserializer(
+            stream,
+            dtype=tensorizer_config.dtype,
+            device=f"xpu:{torch.xpu.current_device()}"
+            if current_platform.is_xpu()
+            else f"cuda:{torch.cuda.current_device()}",
+            **tensorizer_args.deserialization_kwargs,
+        ) as deserializer,
+    ):
+        deserializer.load_into_module(model)
+        end = time.perf_counter()
+
+    total_bytes_str = convert_bytes(deserializer.total_tensor_bytes)
+    duration = end - start
+    per_second = convert_bytes(deserializer.total_tensor_bytes / duration)
+    after_mem = get_mem_usage()
+    deserializer.close()
+    logger.info(
+        "Deserialized %s in %0.2fs, %s/s", total_bytes_str, end - start, per_second
+    )
+    logger.info("Memory usage before: %s", before_mem)
+    logger.info("Memory usage after: %s", after_mem)
+
+    _check_tensors_on_meta_device(model)
+    _resize_lora_embeddings(model)
+    del model.vllm_tensorized_marker
+
+
+def tensorizer_weights_iterator(
+    tensorizer_args: "TensorizerArgs",
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    logger.warning(
+        "Deserializing HuggingFace models is not optimized for "
+        "loading on vLLM, as tensorizer is forced to load to CPU. "
+        "Consider deserializing a vLLM model instead for faster "
+        "load times. See the "
+        "examples/others/tensorize_vllm_model.py example script "
+        "for serializing vLLM models."
+    )
+
+    deserializer_args = tensorizer_args.deserialization_kwargs
+    stream_kwargs = tensorizer_args.stream_kwargs
+    stream = open_stream(tensorizer_args.tensorizer_uri, **stream_kwargs)
+    with TensorDeserializer(stream, **deserializer_args, device="cpu") as state:
+        yield from state.items()
+    del state
+
+
+def is_vllm_tensorized(tensorizer_config: "TensorizerConfig") -> bool:
+    """
+    Infer if the model is a vLLM model by checking the weights for
+    a vLLM tensorized marker.
+
+    Args:
+        tensorizer_config: The TensorizerConfig object containing the
+            tensorizer_uri to the serialized model.
+
+    Returns:
+        bool: True if the model is a vLLM model, False otherwise.
+    """
+    tensorizer_args = tensorizer_config._construct_tensorizer_args()
+    deserializer = TensorDeserializer(
+        open_stream(tensorizer_args.tensorizer_uri, **tensorizer_args.stream_kwargs),
+        **tensorizer_args.deserialization_kwargs,
+        lazy_load=True,
+    )
+    if tensorizer_config.vllm_tensorized:
+        logger.warning(
+            "Please note that newly serialized vLLM models are automatically "
+            "inferred as vLLM models, so setting vllm_tensorized=True is "
+            "only necessary for models serialized prior to this change."
+        )
+        return True
+    return ".vllm_tensorized_marker" in deserializer
+
+
+def serialize_extra_artifacts(
+    tensorizer_args: TensorizerArgs, served_model_name: str | list[str] | None
+) -> None:
+    if not isinstance(served_model_name, str):
+        raise ValueError(
+            f"served_model_name must be a str for serialize_extra_artifacts, "
+            f"not {type(served_model_name)}."
+        )
+
+    with tempfile.TemporaryDirectory() as tmpdir:
+        snapshot_download(
+            served_model_name,
+            local_dir=tmpdir,
+            ignore_patterns=[
+                "*.pt",
+                "*.safetensors",
+                "*.bin",
+                "*.cache",
+                "*.gitattributes",
+                "*.md",
+            ],
+        )
+        for artifact in os.scandir(tmpdir):
+            if not artifact.is_file():
+                continue
+            with (
+                open(artifact.path, "rb") as f,
+                open_stream(
+                    f"{tensorizer_args.tensorizer_dir}/{artifact.name}",
+                    mode="wb+",
+                    **tensorizer_args.stream_kwargs,
+                ) as stream,
+            ):
+                logger.info("Writing artifact %s", artifact.name)
+                stream.write(f.read())
+
+
+def serialize_vllm_model(
+    model: nn.Module,
+    tensorizer_config: TensorizerConfig,
+    model_config: "ModelConfig",
+) -> nn.Module:
+    model.register_parameter(
+        "vllm_tensorized_marker",
+        nn.Parameter(torch.tensor((1,), device="meta"), requires_grad=False),
+    )
+
+    tensorizer_args = tensorizer_config._construct_tensorizer_args()
+
+    encryption_params = None
+    if (keyfile := tensorizer_config.encryption_keyfile) is not None:
+        with open(keyfile, "rb") as f:
+            key = f.read()
+        encryption_params = EncryptionParams(key=key)
+
+    output_file = tensorizer_args.tensorizer_uri
+    if tensorizer_config._is_sharded:
+        from vllm.distributed import get_tensor_model_parallel_rank
+
+        output_file = output_file % get_tensor_model_parallel_rank()
+
+    with open_stream(
+        output_file, mode="wb+", **tensorizer_args.stream_kwargs
+    ) as stream:
+        serializer = TensorSerializer(
+            stream,
+            encryption=encryption_params,
+            **tensorizer_config.serialization_kwargs,
+        )
+        serializer.write_module(model)
+        serializer.close()
+
+    serialize_extra_artifacts(tensorizer_args, model_config.served_model_name)
+
+    logger.info("Successfully serialized model to %s", str(output_file))
+    return model
+
+
+def tensorize_vllm_model(
+    engine_args: "EngineArgs",
+    tensorizer_config: TensorizerConfig,
+    generate_keyfile: bool = True,
+):
+    """Utility to load a model and then serialize it with Tensorizer
+
+    Intended to be used separately from running a vLLM server since it
+    creates its own Engine instance.
+    """
+    engine_config = engine_args.create_engine_config()
+    tensorizer_config.verify_with_model_config(engine_config.model_config)
+    tensorizer_config.verify_with_parallel_config(engine_config.parallel_config)
+
+    # generate the encryption key before creating the engine to support sharding
+    if (
+        generate_keyfile
+        and (keyfile := tensorizer_config.encryption_keyfile) is not None
+    ):
+        encryption_params = EncryptionParams.random()
+        with open_stream(
+            keyfile,
+            mode="wb+",
+            s3_access_key_id=tensorizer_config.s3_access_key_id,
+            s3_secret_access_key=tensorizer_config.s3_secret_access_key,
+            s3_endpoint=tensorizer_config.s3_endpoint,
+        ) as stream:
+            stream.write(encryption_params.key)
+
+    from vllm.v1.engine.llm_engine import LLMEngine
+
+    engine = LLMEngine.from_vllm_config(engine_config)
+    engine.collective_rpc(
+        "save_tensorized_model",
+        kwargs={"tensorizer_config": tensorizer_config.to_serializable()},
+    )
+
+
+def tensorize_lora_adapter(lora_path: str, tensorizer_config: TensorizerConfig):
+    """
+    Uses tensorizer to serialize a LoRA adapter. Assumes that the files
+    needed to load a LoRA adapter are a safetensors-format file called
+    adapter_model.safetensors and a json config file called adapter_config.json.
+
+    Serializes the files in the tensorizer_config.tensorizer_dir
+    """
+    import safetensors
+
+    from vllm.lora.utils import get_adapter_absolute_path
+
+    lora_dir = get_adapter_absolute_path(lora_path)
+
+    tensor_path = config_path = ""
+
+    for file in os.listdir(lora_dir):
+        if file.startswith("adapter_model"):
+            tensor_path = lora_dir + "/" + file
+        if file.startswith("adapter_config"):
+            config_path = lora_dir + "/" + file
+        if tensor_path and config_path:
+            break
+
+    if tensor_path.endswith(".safetensors"):
+        tensors = safetensors.torch.load_file(tensor_path)
+    elif tensor_path.endswith(".bin"):
+        tensors = torch.load(tensor_path)
+    else:
+        raise ValueError("Unsupported file: %s", tensor_path)
+
+    with open(config_path) as f:
+        config = json.load(f)
+
+    tensorizer_args = tensorizer_config._construct_tensorizer_args()
+
+    with open_stream(
+        f"{tensorizer_config.tensorizer_dir}/adapter_config.json",
+        mode="wb+",
+        **tensorizer_args.stream_kwargs,
+    ) as f:
+        f.write(json.dumps(config).encode("utf-8"))
+
+    lora_uri = f"{tensorizer_config.tensorizer_dir}/adapter_model.tensors"
+    with open_stream(lora_uri, mode="wb+", **tensorizer_args.stream_kwargs) as f:
+        serializer = TensorSerializer(f)
+        serializer.write_state_dict(tensors)
+        serializer.close()
+
+    logger.info(
+        "Successfully serialized LoRA files to %s",
+        str(tensorizer_config.tensorizer_dir),
+    )
diff --git a/model_executor/model_loader/tensorizer_loader.py b/model_executor/model_loader/tensorizer_loader.py
new file mode 100644
index 0000000..2b3704c
--- /dev/null
+++ b/model_executor/model_loader/tensorizer_loader.py
@@ -0,0 +1,151 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: SIM117
+import copy
+from collections.abc import Generator
+
+import torch
+from torch import nn
+
+from vllm.config import ModelConfig, ParallelConfig, VllmConfig
+from vllm.config.load import LoadConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.tensorizer import (
+    TensorizerConfig,
+    deserialize_tensorizer_model,
+    init_tensorizer_model,
+    is_vllm_tensorized,
+    serialize_vllm_model,
+    tensorizer_weights_iterator,
+)
+from vllm.model_executor.model_loader.utils import (
+    get_model_architecture,
+    initialize_model,
+)
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+logger = init_logger(__name__)
+
+BLACKLISTED_TENSORIZER_ARGS = {
+    "device",  # vLLM decides this
+    "dtype",  # vLLM decides this
+    "mode",  # Not meant to be configurable by the user
+}
+
+
+def validate_config(config: dict):
+    for k, v in config.items():
+        if v is not None and k in BLACKLISTED_TENSORIZER_ARGS:
+            raise ValueError(f"{k} is not an allowed Tensorizer argument.")
+
+
+class TensorizerLoader(BaseModelLoader):
+    """Model loader using CoreWeave's tensorizer library."""
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if isinstance(load_config.model_loader_extra_config, TensorizerConfig):
+            self.tensorizer_config = load_config.model_loader_extra_config
+        else:
+            validate_config(load_config.model_loader_extra_config)
+            self.tensorizer_config = TensorizerConfig(
+                **load_config.model_loader_extra_config["tensorizer_config"]
+            )
+
+    def _verify_config(
+        self, model_config: ModelConfig, parallel_config: ParallelConfig
+    ):
+        self.tensorizer_config.verify_with_model_config(model_config)
+        self.tensorizer_config.verify_with_parallel_config(parallel_config)
+
+    def _get_weights_iterator(
+        self,
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
+        tensorizer_args = self.tensorizer_config._construct_tensorizer_args()
+        return tensorizer_weights_iterator(tensorizer_args)
+
+    def _load_model_serialized_cpu(
+        self,
+        vllm_config: VllmConfig,
+    ) -> nn.Module:
+        """Load a serialized model with tensorizer to the CPU.
+
+        This is only necessary when the model isn't vLLM-tensorized (see
+        examples/others/tensorize_vllm_model.py) This should still
+        be faster than default HuggingFace loading, but will be slower than
+        loading a vLLM-tensorized model.
+        """
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        with set_default_torch_dtype(model_config.dtype):
+            with torch.device(device_config.device):
+                model = initialize_model(vllm_config=vllm_config)
+
+            model.load_weights(self._get_weights_iterator())
+        return model.eval()
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self.tensorizer_config.verify_with_model_config(model_config)
+
+        with self.tensorizer_config.open_stream():
+            pass
+
+    def _patch_tensorizer_config(self, model_config: ModelConfig) -> TensorizerConfig:
+        model_class = get_model_architecture(model_config)[0]
+        tensorizer_config = copy.copy(self.tensorizer_config)
+        tensorizer_config.model_class = model_class
+        tensorizer_config.hf_config = model_config.hf_config
+        tensorizer_config.dtype = model_config.dtype
+        return tensorizer_config
+
+    def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
+        """Load serialized model weights with tensorizer.
+
+        Expects a vLLM-tensorized model. See the
+        examples/others/tensorize_vllm_model.py example script
+        for serializing vLLM models."""
+        if is_vllm_tensorized(self.tensorizer_config):
+            tensorizer_config = self._patch_tensorizer_config(model_config)
+            deserialize_tensorizer_model(model, tensorizer_config)
+        else:
+            model.load_weights(self._get_weights_iterator())
+
+    def load_model(
+        self, vllm_config: VllmConfig, model_config: ModelConfig
+    ) -> nn.Module:
+        parallel_config = vllm_config.parallel_config
+        self._verify_config(model_config, parallel_config)
+
+        if parallel_config.tensor_parallel_size > 1:
+            from vllm.distributed import get_tensor_model_parallel_rank
+
+            self.tensorizer_config.tensorizer_uri = (
+                self.tensorizer_config.tensorizer_uri % get_tensor_model_parallel_rank()
+            )
+
+        if is_vllm_tensorized(self.tensorizer_config):
+            tensorizer_config = self._patch_tensorizer_config(model_config)
+            device_config = vllm_config.device_config
+            with set_default_torch_dtype(model_config.dtype):
+                with torch.device(device_config.device):
+                    model = init_tensorizer_model(
+                        tensorizer_config=tensorizer_config, vllm_config=vllm_config
+                    )
+            self.load_weights(model, model_config)
+            return model
+        return self._load_model_serialized_cpu(vllm_config=vllm_config)
+
+    @staticmethod
+    def save_model(
+        model: torch.nn.Module,
+        tensorizer_config: TensorizerConfig | dict,
+        model_config: ModelConfig,
+    ) -> None:
+        if isinstance(tensorizer_config, dict):
+            tensorizer_config = TensorizerConfig(**tensorizer_config)
+        serialize_vllm_model(
+            model=model,
+            tensorizer_config=tensorizer_config,
+            model_config=model_config,
+        )
diff --git a/model_executor/model_loader/tpu.py b/model_executor/model_loader/tpu.py
new file mode 100644
index 0000000..fc142f1
--- /dev/null
+++ b/model_executor/model_loader/tpu.py
@@ -0,0 +1,118 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import time
+
+import torch
+import torch.nn as nn
+import torch_xla.core.xla_model as xm
+import torch_xla.distributed.spmd as xs
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.distributed.tpu_distributed_utils import get_fqn, shard_model
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.default_loader import DefaultModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model,
+    process_weights_after_loading,
+)
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+logger = init_logger(__name__)
+
+
+class TPUModelLoader(DefaultModelLoader):
+    """
+    A TPU model loader for model loading under SPMD mode.
+    """
+
+    def load_model(
+        self,
+        vllm_config: VllmConfig,
+        model_config: ModelConfig,
+        mesh: xs.Mesh | None = None,
+    ) -> nn.Module:
+        # Initialize model and load weights on CPU. Then, during SPMD partition,
+        # weights are sharded and transferred to TPUs.
+        self.counter_before_loading_weights = time.perf_counter()
+        model_config = vllm_config.model_config
+        assert model_config.quantization is None, "Quantization not supported"
+        target_device = torch.device("cpu")
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+
+            load_format = vllm_config.load_config.load_format
+            if load_format != "dummy":
+                weights_to_load = {name for name, _ in model.named_parameters()}
+                all_weights = self.get_all_weights(model_config, model)
+                loaded_weights = model.load_weights(all_weights)
+                self.counter_after_loading_weights = time.perf_counter()
+                logger.info(
+                    "Loading weights took %.2f seconds",
+                    self.counter_after_loading_weights
+                    - self.counter_before_loading_weights,
+                )
+                # We only enable strict check for non-quantized models
+                # that have loaded weights tracking currently.
+                if model_config.quantization is None and loaded_weights is not None:
+                    weights_not_loaded = weights_to_load - loaded_weights
+                    if weights_not_loaded:
+                        raise ValueError(
+                            "Following weights were not initialized from "
+                            f"checkpoint: {weights_not_loaded}"
+                        )
+            else:
+                logger.info("Use dummy weight during weight loading.")
+
+            process_weights_after_loading(model, model_config, target_device)
+
+        counter_before_partition = time.perf_counter()
+        model = model.eval()
+        model = model.to("xla")
+        shard_model(model, mesh)
+        counter_after_partition = time.perf_counter()
+        logger.info(
+            "Partition model took %.2f seconds",
+            counter_after_partition - counter_before_partition,
+        )
+
+        # Ensure the model is properly loaded.
+        self._check_model_is_loaded(mesh, model)
+
+        # Need to torch compile after model sharding are done. Because the
+        # compiler hints ('xs.mark_sharding') are torch ops.
+        if not model_config.is_multimodal_model:
+            model.model = torch.compile(model.model, backend="openxla")
+        else:
+            model.language_model.model = torch.compile(
+                model.language_model.model, backend="openxla"
+            )
+        return model
+
+    def _check_model_is_loaded(self, mesh: xs.Mesh | None, model: nn.Module) -> None:
+        """
+        Ensure the model is properly loaded.
+        1. All model parameters and buffers are on XLA device.
+        2. Non-SPMD friendly layers are replaced as expected.
+        """
+        device = xm.xla_device()
+        device_type = str(device.type)
+
+        # Check parameters
+        for name, param in model.named_parameters():
+            assert param.device.type == device_type, (
+                f"Parameter {name} is on {param.device.type} instead of {device_type}"
+            )
+
+        # Check buffers
+        for name, buffer in model.named_buffers():
+            assert buffer.device.type == device_type, (
+                f"Buffer {name} is on {buffer.device.type} instead of {device_type}"
+            )
+
+        for module in model.modules():
+            if (mesh is not None) and (get_fqn(module) == "QKVParallelLinear"):
+                raise AssertionError(
+                    "QKVParallelLinear should be replaced by \
+                            XlaQKVParallelLinear under SPMD mode."
+                )
diff --git a/model_executor/model_loader/utils.py b/model_executor/model_loader/utils.py
new file mode 100644
index 0000000..ba708a0
--- /dev/null
+++ b/model_executor/model_loader/utils.py
@@ -0,0 +1,288 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utilities for selecting and loading models."""
+
+import inspect
+import warnings
+from contextlib import contextmanager
+from dataclasses import dataclass, field
+
+import torch
+from torch import nn
+from typing_extensions import assert_never
+
+from vllm.attention import Attention
+from vllm.attention.layer import MLAAttention
+from vllm.config import ModelConfig, VllmConfig, set_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.models.adapters import (
+    as_embedding_model,
+    as_reward_model,
+    as_seq_cls_model,
+    try_create_mm_pooling_model_cls,
+)
+from vllm.model_executor.models.interfaces import SupportsQuant, supports_multimodal
+from vllm.utils.platform_utils import is_pin_memory_available
+
+logger = init_logger(__name__)
+
+
+def initialize_model(
+    vllm_config: VllmConfig,
+    *,
+    prefix: str = "",
+    model_class: type[nn.Module] | None = None,
+    model_config: ModelConfig | None = None,
+) -> nn.Module:
+    """Initialize a model with the given configurations."""
+    if model_config is None:
+        model_config = vllm_config.model_config
+    if model_class is None:
+        model_class, _ = get_model_architecture(model_config)
+
+    if vllm_config.quant_config is not None:
+        configure_quant_config(vllm_config.quant_config, model_class)
+
+    signatures = inspect.signature(model_class.__init__)
+    all_params = [param.name for param in signatures.parameters.values()]
+    if "vllm_config" in all_params and "prefix" in all_params:
+        # new-style model class
+        with set_current_vllm_config(vllm_config, check_compile=True, prefix=prefix):
+            return model_class(vllm_config=vllm_config, prefix=prefix)
+
+    msg = (
+        "vLLM model class should accept `vllm_config` and `prefix` as "
+        "input arguments. Possibly you have an old-style model class"
+        " registered from out of tree and it is used for new vLLM version. "
+        "Check https://docs.vllm.ai/en/latest/design/arch_overview.html "
+        "for the design and update the model class accordingly."
+    )
+    warnings.warn(msg, DeprecationWarning, stacklevel=2)
+
+    logger.warning(
+        "Trying to guess the arguments for old-style model class %s",
+        model_class,
+    )
+    # try to be compatible with old-style model class
+    kwargs = {}
+    if "prefix" in all_params:
+        kwargs["prefix"] = prefix
+    if "config" in all_params:
+        kwargs["config"] = model_config.hf_config
+    if "cache_config" in all_params:
+        kwargs["cache_config"] = vllm_config.cache_config
+    if "quant_config" in all_params:
+        kwargs["quant_config"] = vllm_config.quant_config
+    if "lora_config" in all_params:
+        kwargs["lora_config"] = vllm_config.lora_config
+    if "scheduler_config" in all_params:
+        kwargs["scheduler_config"] = vllm_config.scheduler_config
+    with set_current_vllm_config(vllm_config, check_compile=True, prefix=prefix):
+        return model_class(**kwargs)
+
+
+def process_weights_after_loading(
+    model: nn.Module, model_config: ModelConfig, target_device: torch.device
+) -> None:
+    # to avoid circular dependency
+    from vllm.model_executor.model_loader.online_quantization import (
+        maybe_save_metadata_and_attributes_for_weight_reloading,
+    )
+
+    maybe_save_metadata_and_attributes_for_weight_reloading(model, model_config)
+
+    for _, module in model.named_modules():
+        quant_method = getattr(module, "quant_method", None)
+        if isinstance(quant_method, QuantizeMethodBase):
+            # When quant methods need to process weights after loading
+            # (for repacking, quantizing, etc), they expect parameters
+            # to be on the global target device. This scope is for the
+            # case where cpu offloading is used, where we will move the
+            # parameters onto device for processing and back off after.
+            with device_loading_context(module, target_device):
+                quant_method.process_weights_after_loading(module)
+
+    # Initialize post-load attention weights for both Attention and MLA.
+    # NOTE: Happens after other modules so we can easily decompress weights.
+    for _, module in model.named_modules():
+        if isinstance(module, (Attention, MLAAttention)) and hasattr(
+            module, "process_weights_after_loading"
+        ):
+            # TODO(lucas): see if there is a way to unify the signatures
+            # of process_weights_after_loading
+            module.process_weights_after_loading(model_config.dtype)
+
+
+@contextmanager
+def device_loading_context(module: torch.nn.Module, target_device: torch.device):
+    if target_device.type == "cpu":
+        # If target is CPU, no need to move anything
+        yield module
+        return
+
+    original_device_states: dict[str, torch.device] = {}
+
+    # Store original device states and move parameters to GPU if they're on CPU
+    for name, p in module.named_parameters():
+        if p.device.type == "cpu":
+            original_device_states[name] = p.device
+            p.data = p.data.to(target_device)
+        # Parameters already on target device are not touched
+
+    try:
+        yield module
+
+    finally:
+        # Restore parameters to their original devices, ignoring new parameters
+        pin_memory = is_pin_memory_available()
+        for name, p in module.named_parameters():
+            if name in original_device_states:
+                original_device: torch.device = original_device_states[name]
+                if original_device.type == "cpu":
+                    # `torch.empty_like` does not support `pin_memory` argument
+                    cpu_data = torch.empty_strided(
+                        size=p.data.size(),
+                        stride=p.data.stride(),
+                        dtype=p.data.dtype,
+                        layout=p.data.layout,
+                        device="cpu",
+                        pin_memory=pin_memory,
+                    )
+                    cpu_data.copy_(p.data)
+                    p.data = cpu_data
+                else:
+                    p.data = p.data.to(original_device)
+        # New parameters or parameters already on target device are untouched
+
+
+_MODEL_ARCH_BY_HASH = dict[int, tuple[type[nn.Module], str]]()
+"""Caches the outputs of `_get_model_architecture`."""
+
+
+def _get_model_architecture(model_config: ModelConfig) -> tuple[type[nn.Module], str]:
+    architectures = getattr(model_config.hf_config, "architectures", [])
+
+    model_cls, arch = model_config.registry.resolve_model_cls(
+        architectures,
+        model_config=model_config,
+    )
+
+    if arch == model_config._get_transformers_backend_cls():
+        assert model_config.model_impl != "vllm"
+        if model_config.model_impl == "auto":
+            logger.warning_once(
+                "%s has no vLLM implementation, falling back to Transformers "
+                "implementation. Some features may not be supported and "
+                "performance may not be optimal.",
+                arch,
+            )
+
+    convert_type = model_config.convert_type
+    if convert_type != "none" and supports_multimodal(model_cls):
+        logger.debug_once("Detected conversion of Multi Modal model.")
+        converted = try_create_mm_pooling_model_cls(model_cls)
+        if converted is not None:
+            logger.debug_once("Creating wrapper class to forward pooler.")
+            return converted, arch
+        else:
+            logger.debug_once("Attempting direct conversion.")
+
+    if convert_type == "none":
+        pass
+    elif convert_type == "embed":
+        logger.debug_once("Converting to embedding model.")
+        model_cls = as_embedding_model(model_cls)
+    elif convert_type == "classify":
+        logger.debug_once("Converting to sequence classification model.")
+        model_cls = as_seq_cls_model(model_cls)
+    elif convert_type == "reward":
+        logger.debug_once("Converting to reward model.")
+        model_cls = as_reward_model(model_cls)
+    else:
+        assert_never(convert_type)
+
+    return model_cls, arch
+
+
+def get_model_architecture(model_config: ModelConfig) -> tuple[type[nn.Module], str]:
+    key = hash(
+        (
+            model_config.model,
+            model_config.convert_type,
+            model_config.runner_type,
+            model_config.trust_remote_code,
+            model_config.model_impl,
+            tuple(getattr(model_config.hf_config, "architectures", [])),
+        )
+    )
+    if key in _MODEL_ARCH_BY_HASH:
+        return _MODEL_ARCH_BY_HASH[key]
+
+    model_arch = _get_model_architecture(model_config)
+    _MODEL_ARCH_BY_HASH[key] = model_arch
+    return model_arch
+
+
+def get_model_cls(model_config: ModelConfig) -> type[nn.Module]:
+    return get_model_architecture(model_config)[0]
+
+
+def get_architecture_class_name(model_config: ModelConfig) -> str:
+    return get_model_architecture(model_config)[1]
+
+
+@dataclass
+class ParamMapping:
+    """
+    A class to handle parameter mapping for model weight loading.
+    It creates a bidirectional mapping between packed parameters and their
+    constituent parts.
+    """
+
+    packed_mapping: dict[str, list[str]]
+    inverse_packed_mapping: dict[str, tuple[str, int]] = field(default_factory=dict)
+
+    def __post_init__(self):
+        for packed_name, sub_params in self.packed_mapping.items():
+            # Skip self-contained cases (e.g., {"W_pack": ["W_pack"]})
+            if len(sub_params) == 1 and sub_params[0] == packed_name:
+                continue
+            for index, param_name in enumerate(sub_params):
+                self.inverse_packed_mapping[param_name] = (
+                    packed_name,
+                    index,
+                )
+
+    def get_sub_modules(self, module_name: str) -> tuple[str, list[str]] | None:
+        for key, value in self.packed_mapping.items():
+            if module_name.endswith(key):
+                return key, value
+        return None
+
+
+def configure_quant_config(
+    quant_config: QuantizationConfig, model_class: type[nn.Module]
+):
+    """
+    Pass packed_modules_mapping by reference to quant_config so that
+    quant_config can properly match fused modules
+
+    Note that model attributes are passed by reference to quant_config,
+    enabling them to be updated by model_class.__new__ (ex. chatglm, qwen)
+
+    Once the `SupportsQuant` mixin has been added to all models, this
+    function can be removed
+    """
+    if not issubclass(model_class, SupportsQuant):
+        hf_to_vllm_mapper = getattr(model_class, "hf_to_vllm_mapper", None)
+        packed_mapping = getattr(model_class, "packed_modules_mapping", None)
+
+        # pass mappings by reference to quant_config
+        if hf_to_vllm_mapper is not None:
+            quant_config.apply_vllm_mapper(hf_to_vllm_mapper)
+        if packed_mapping is not None:
+            quant_config.packed_modules_mapping = packed_mapping
diff --git a/model_executor/model_loader/weight_utils.py b/model_executor/model_loader/weight_utils.py
new file mode 100644
index 0000000..d38b91e
--- /dev/null
+++ b/model_executor/model_loader/weight_utils.py
@@ -0,0 +1,1106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utilities for downloading and initializing model weights."""
+
+import concurrent.futures
+import fnmatch
+import glob
+import hashlib
+import json
+import os
+import tempfile
+import time
+from collections import defaultdict
+from collections.abc import Callable, Generator
+from contextlib import contextmanager
+from pathlib import Path
+from typing import IO, Any
+
+import filelock
+import huggingface_hub.constants
+import numpy as np
+import torch
+from huggingface_hub import HfFileSystem, hf_hub_download, snapshot_download
+from safetensors.torch import load, load_file, safe_open, save_file
+from tqdm.auto import tqdm
+
+from vllm import envs
+from vllm.config import ModelConfig
+from vllm.config.load import LoadConfig
+from vllm.distributed import get_tensor_model_parallel_rank
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization import (
+    QuantizationConfig,
+    get_quantization_config,
+)
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import PlaceholderModule
+
+try:
+    from runai_model_streamer import SafetensorsStreamer
+except ImportError:
+    runai_model_streamer = PlaceholderModule("runai_model_streamer")  # type: ignore[assignment]
+    SafetensorsStreamer = runai_model_streamer.placeholder_attr("SafetensorsStreamer")
+
+try:
+    import gguf
+except ImportError:
+    gguf = PlaceholderModule("gguf")
+
+try:
+    from fastsafetensors import SafeTensorsFileLoader, SingleGroup
+except ImportError:
+    fastsafetensors = PlaceholderModule("fastsafetensors")
+    SafeTensorsFileLoader = fastsafetensors.placeholder_attr("SafeTensorsFileLoader")
+    SingleGroup = fastsafetensors.placeholder_attr("SingleGroup")
+
+from vllm.model_executor.layers.quantization.torchao import torchao_version_at_least
+
+logger = init_logger(__name__)
+
+# use system-level temp directory for file locks, so that multiple users
+# can share the same lock without error.
+# lock files in the temp directory will be automatically deleted when the
+# system reboots, so users will not complain about annoying lock files
+temp_dir = tempfile.gettempdir()
+
+
+def enable_hf_transfer():
+    """automatically activates hf_transfer"""
+    if "HF_HUB_ENABLE_HF_TRANSFER" not in os.environ:
+        try:
+            # enable hf hub transfer if available
+            import hf_transfer  # type: ignore # noqa
+
+            huggingface_hub.constants.HF_HUB_ENABLE_HF_TRANSFER = True
+        except ImportError:
+            pass
+
+
+enable_hf_transfer()
+
+
+class DisabledTqdm(tqdm):
+    def __init__(self, *args, **kwargs):
+        kwargs["disable"] = True
+        super().__init__(*args, **kwargs)
+
+
+def get_lock(model_name_or_path: str | Path, cache_dir: str | None = None):
+    lock_dir = cache_dir or temp_dir
+    model_name_or_path = str(model_name_or_path)
+    os.makedirs(os.path.dirname(lock_dir), exist_ok=True)
+    model_name = model_name_or_path.replace("/", "-")
+    hash_name = hashlib.sha256(model_name.encode()).hexdigest()
+    # add hash to avoid conflict with old users' lock files
+    lock_file_name = hash_name + model_name + ".lock"
+    # mode 0o666 is required for the filelock to be shared across users
+    lock = filelock.FileLock(os.path.join(lock_dir, lock_file_name), mode=0o666)
+    return lock
+
+
+@contextmanager
+def atomic_writer(
+    filepath: str | Path, mode: str = "w", encoding: str | None = None
+) -> Generator[IO]:
+    """
+    Context manager that provides an atomic file writing routine.
+
+    The context manager writes to a temporary file and, if successful,
+    atomically replaces the original file.
+
+    Args:
+        filepath (str or Path): The path to the file to write.
+        mode (str): The file mode for the temporary file (e.g., 'w', 'wb').
+        encoding (str): The encoding for text mode.
+
+    Yields:
+        file object: A handle to the temporary file.
+    """
+    # Create a temporary file in the same directory as the target file
+    # to ensure it's on the same filesystem for an atomic replace.
+    temp_dir = os.path.dirname(filepath)
+    temp_fd, temp_path = tempfile.mkstemp(dir=temp_dir)
+
+    try:
+        # Open the temporary file for writing
+        with os.fdopen(temp_fd, mode=mode, encoding=encoding) as temp_file:
+            yield temp_file
+
+        # If the 'with' block completes successfully,
+        # perform the atomic replace.
+        os.replace(temp_path, filepath)
+
+    except Exception:
+        logger.exception(
+            "Error during atomic write. Original file '%s' not modified", filepath
+        )
+        raise
+    finally:
+        # Clean up the temporary file if it still exists.
+        if os.path.exists(temp_path):
+            os.remove(temp_path)
+
+
+def maybe_download_from_modelscope(
+    model: str,
+    revision: str | None = None,
+    download_dir: str | None = None,
+    ignore_patterns: str | list[str] | None = None,
+    allow_patterns: list[str] | str | None = None,
+) -> str | None:
+    """Download model from ModelScope hub if VLLM_USE_MODELSCOPE is True.
+
+    Returns the path to the downloaded model, or None if the model is not
+    downloaded from ModelScope."""
+    if envs.VLLM_USE_MODELSCOPE:
+        # download model from ModelScope hub,
+        # lazy import so that modelscope is not required for normal use.
+        # pylint: disable=C.
+        from modelscope.hub.snapshot_download import snapshot_download
+
+        # Use file lock to prevent multiple processes from
+        # downloading the same model weights at the same time.
+        with get_lock(model, download_dir):
+            if not os.path.exists(model):
+                model_path = snapshot_download(
+                    model_id=model,
+                    cache_dir=download_dir,
+                    local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+                    revision=revision,
+                    ignore_file_pattern=ignore_patterns,
+                    allow_patterns=allow_patterns,
+                )
+            else:
+                model_path = model
+        return model_path
+    return None
+
+
+def _shared_pointers(tensors):
+    ptrs = defaultdict(list)
+    for k, v in tensors.items():
+        ptrs[v.data_ptr()].append(k)
+    failing = []
+    for _, names in ptrs.items():
+        if len(names) > 1:
+            failing.append(names)
+    return failing
+
+
+def convert_bin_to_safetensor_file(
+    pt_filename: str,
+    sf_filename: str,
+) -> None:
+    loaded = torch.load(pt_filename, map_location="cpu", weights_only=True)
+    if "state_dict" in loaded:
+        loaded = loaded["state_dict"]
+    shared = _shared_pointers(loaded)
+    for shared_weights in shared:
+        for name in shared_weights[1:]:
+            loaded.pop(name)
+
+    # For tensors to be contiguous
+    loaded = {k: v.contiguous() for k, v in loaded.items()}
+
+    dirname = os.path.dirname(sf_filename)
+    os.makedirs(dirname, exist_ok=True)
+    save_file(loaded, sf_filename, metadata={"format": "pt"})
+
+    # check file size
+    sf_size = os.stat(sf_filename).st_size
+    pt_size = os.stat(pt_filename).st_size
+    if (sf_size - pt_size) / pt_size > 0.01:
+        raise RuntimeError(f"""The file size different is more than 1%:
+         - {sf_filename}: {sf_size}
+         - {pt_filename}: {pt_size}
+         """)
+
+    # check if the tensors are the same
+    reloaded = load_file(sf_filename)
+    for k in loaded:
+        pt_tensor = loaded[k]
+        sf_tensor = reloaded[k]
+        if not torch.equal(pt_tensor, sf_tensor):
+            raise RuntimeError(f"The output tensors do not match for key {k}")
+
+
+# TODO(woosuk): Move this to other place.
+def get_quant_config(
+    model_config: ModelConfig, load_config: LoadConfig
+) -> QuantizationConfig:
+    quant_cls = get_quantization_config(model_config.quantization)
+
+    # GGUF doesn't have config file
+    if model_config.quantization in ("gguf", "inc"):
+        return quant_cls()
+
+    # Read the quantization config from the HF model config, if available.
+    hf_quant_config = getattr(model_config.hf_config, "quantization_config", None)
+    # some vision model may keep quantization_config in their text_config
+    hf_text_config = getattr(model_config.hf_config, "text_config", None)
+    if hf_quant_config is None and hf_text_config is not None:
+        hf_quant_config = getattr(hf_text_config, "quantization_config", None)
+    if hf_quant_config is None:
+        # compressed-tensors uses a compressions_config
+        hf_quant_config = getattr(model_config.hf_config, "compression_config", None)
+
+    if hf_quant_config is not None:
+        return quant_cls.from_config(hf_quant_config)
+
+    # if hf_quant_config is None, we will try to get config from
+    # hf_overrides
+    hf_overrides = model_config.hf_overrides
+    quantization_config_file = hf_overrides.get("quantization_config_file", None)
+    if quantization_config_file is not None:
+        if hasattr(quant_cls, "from_config_file"):
+            return quant_cls.from_config_file(quantization_config_file)
+        else:
+            raise NotImplementedError(
+                "from_config_file is specified in hf_override config, "
+                "but quant_cls.from_config_file is not implemented in "
+                f"{quant_cls}"
+            )
+    quantization_config_json = hf_overrides.get("quantization_config_dict_json", None)
+    if quantization_config_json is not None:
+        if hasattr(quant_cls, "from_config_dict_json"):
+            return quant_cls.from_config_dict_json(quantization_config_json)
+        else:
+            raise NotImplementedError(
+                "from_config_dict_json is specified in hf_override config, "
+                "but quant_cls.from_config_dict_json is not implemented in "
+                f"{quant_cls}"
+            )
+
+    # Inflight BNB quantization
+    if model_config.quantization == "bitsandbytes":
+        return quant_cls.from_config({})
+    model_name_or_path = (
+        maybe_download_from_modelscope(
+            model_config.model,
+            revision=model_config.revision,
+            download_dir=load_config.download_dir,
+            allow_patterns=["*.json"],
+        )
+        or model_config.model
+    )
+    is_local = os.path.isdir(model_name_or_path)
+    if not is_local:
+        # Download the config files.
+        with get_lock(model_config.model, load_config.download_dir):
+            hf_folder = snapshot_download(
+                model_config.model,
+                revision=model_config.revision,
+                allow_patterns="*.json",
+                cache_dir=load_config.download_dir,
+                local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+                tqdm_class=DisabledTqdm,
+            )
+    else:
+        hf_folder = model_name_or_path
+
+    possible_config_filenames = quant_cls.get_config_filenames()
+
+    # If the quantization config is not found, use the default config.
+    if not possible_config_filenames:
+        return quant_cls()
+
+    config_files = glob.glob(os.path.join(hf_folder, "*.json"))
+
+    quant_config_files = [
+        f for f in config_files if any(f.endswith(x) for x in possible_config_filenames)
+    ]
+    if len(quant_config_files) == 0:
+        raise ValueError(f"Cannot find the config file for {model_config.quantization}")
+    if len(quant_config_files) > 1:
+        raise ValueError(
+            f"Found multiple config files for {model_config.quantization}: "
+            f"{quant_config_files}"
+        )
+
+    quant_config_file = quant_config_files[0]
+    with open(quant_config_file) as f:
+        config = json.load(f)
+
+        if model_config.quantization == "bitsandbytes":
+            config["adapter_name_or_path"] = model_config.model
+        elif model_config.quantization == "modelopt":
+            if config["producer"]["name"] == "modelopt":
+                return quant_cls.from_config(config)
+            else:
+                raise ValueError(
+                    f"Unsupported quantization config"
+                    f" found for {model_config.quantization} in {f}."
+                )
+
+    return quant_cls.from_config(config)
+
+
+def get_sparse_attention_config(
+    model_config: ModelConfig,
+    load_config: LoadConfig,
+    sparse_attention_config_filename: str = "sparse_attention_config.json",
+) -> dict[str, Any]:
+    model_name_or_path = model_config.model
+    is_local = os.path.isdir(model_name_or_path)
+    if not is_local:
+        # Download the config files.
+        with get_lock(model_name_or_path, load_config.download_dir):
+            hf_folder = snapshot_download(
+                model_name_or_path,
+                revision=model_config.revision,
+                allow_patterns="*.json",
+                cache_dir=load_config.download_dir,
+                local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+                tqdm_class=DisabledTqdm,
+            )
+    else:
+        hf_folder = model_name_or_path
+
+    config_file = os.path.join(hf_folder, sparse_attention_config_filename)
+    if not os.path.exists(config_file):
+        return {}
+
+    # Load the sparse attention config.
+    with open(config_file) as f:
+        config = json.load(f)
+    logger.info("Loaded sparse attention config from %s", config_file)
+
+    return config
+
+
+def download_weights_from_hf(
+    model_name_or_path: str,
+    cache_dir: str | None,
+    allow_patterns: list[str],
+    revision: str | None = None,
+    ignore_patterns: str | list[str] | None = None,
+) -> str:
+    """Download model weights from Hugging Face Hub.
+
+    Args:
+        model_name_or_path (str): The model name or path.
+        cache_dir (Optional[str]): The cache directory to store the model
+            weights. If None, will use HF defaults.
+        allow_patterns (list[str]): The allowed patterns for the
+            weight files. Files matched by any of the patterns will be
+            downloaded.
+        revision (Optional[str]): The revision of the model.
+        ignore_patterns (Optional[Union[str, list[str]]]): The patterns to
+            filter out the weight files. Files matched by any of the patterns
+            will be ignored.
+
+    Returns:
+        str: The path to the downloaded model weights.
+    """
+    assert len(allow_patterns) > 0
+    local_only = huggingface_hub.constants.HF_HUB_OFFLINE
+    if not local_only:
+        # Attempt to reduce allow_patterns to a single pattern
+        # so we only have to call snapshot_download once.
+        try:
+            fs = HfFileSystem()
+            file_list = fs.ls(model_name_or_path, detail=False, revision=revision)
+
+            # Use the first pattern found in the HF repo's files.
+            for pattern in allow_patterns:
+                matching = fnmatch.filter(file_list, pattern)
+                if len(matching) > 0:
+                    allow_patterns = [pattern]
+                break
+        except Exception as e:
+            logger.warning(
+                "Failed to get file list for '%s'. Trying each pattern in "
+                "allow_patterns individually until weights have been "
+                "downloaded. Error: %s",
+                model_name_or_path,
+                e,
+            )
+
+    logger.debug("Using model weights format %s", allow_patterns)
+    # Use file lock to prevent multiple processes from
+    # downloading the same model weights at the same time.
+    with get_lock(model_name_or_path, cache_dir):
+        start_time = time.perf_counter()
+        for allow_pattern in allow_patterns:
+            hf_folder = snapshot_download(
+                model_name_or_path,
+                allow_patterns=allow_pattern,
+                ignore_patterns=ignore_patterns,
+                cache_dir=cache_dir,
+                tqdm_class=DisabledTqdm,
+                revision=revision,
+                local_files_only=local_only,
+            )
+            # If we have downloaded weights for this allow_pattern,
+            # we don't need to check the rest.
+            if any(Path(hf_folder).glob(allow_pattern)):
+                break
+        time_taken = time.perf_counter() - start_time
+        if time_taken > 0.5:
+            logger.info(
+                "Time spent downloading weights for %s: %.6f seconds",
+                model_name_or_path,
+                time_taken,
+            )
+    return hf_folder
+
+
+def download_safetensors_index_file_from_hf(
+    model_name_or_path: str,
+    index_file: str,
+    cache_dir: str | None,
+    revision: str | None = None,
+) -> None:
+    """Download hf safetensors index file from Hugging Face Hub.
+
+    Args:
+        model_name_or_path (str): The model name or path.
+        index_file (str): The safetensors index file name
+        cache_dir (Optional[str]): The cache directory to store the model
+            weights. If None, will use HF defaults.
+        revision (Optional[str]): The revision of the model.
+    """
+    # Use file lock to prevent multiple processes from
+    # downloading the same model weights at the same time.
+    with get_lock(model_name_or_path, cache_dir):
+        try:
+            # Download the safetensors index file.
+            hf_hub_download(
+                repo_id=model_name_or_path,
+                filename=index_file,
+                cache_dir=cache_dir,
+                revision=revision,
+                local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+            )
+        # If file not found on remote or locally, we should not fail since
+        # only some models will have index_file.
+        except huggingface_hub.utils.LocalEntryNotFoundError:
+            logger.info("No %s found in local cache.", index_file)
+        except huggingface_hub.utils.EntryNotFoundError:
+            logger.info("No %s found in remote.", index_file)
+
+
+# For models like Mistral-7B-v0.3, there are both sharded
+# safetensors files and a consolidated safetensors file.
+# Passing both of these to the weight loader functionality breaks.
+# So, we use the index_file to
+# look up which safetensors files should be used.
+def filter_duplicate_safetensors_files(
+    hf_weights_files: list[str], hf_folder: str, index_file: str
+) -> list[str]:
+    # model.safetensors.index.json is a mapping from keys in the
+    # torch state_dict to safetensors file holding that weight.
+    index_file_name = os.path.join(hf_folder, index_file)
+    if not os.path.isfile(index_file_name):
+        return hf_weights_files
+
+    # Iterate through the weight_map (weight_name: safetensors files)
+    # to identify weights that we should use.
+    with open(index_file_name) as f:
+        weight_map = json.load(f)["weight_map"]
+    weight_files_in_index = set()
+    for weight_name in weight_map:
+        weight_files_in_index.add(os.path.join(hf_folder, weight_map[weight_name]))
+    # Filter out any fields that are not found in the index file.
+    hf_weights_files = [f for f in hf_weights_files if f in weight_files_in_index]
+    return hf_weights_files
+
+
+def filter_files_not_needed_for_inference(hf_weights_files: list[str]) -> list[str]:
+    """
+    Exclude files that are not needed for inference.
+
+    See https://github.com/huggingface/transformers/blob/v4.34.0/src/transformers/trainer.py#L227-L233
+    """
+    blacklist = [
+        "training_args.bin",
+        "optimizer.bin",
+        "optimizer.pt",
+        "scheduler.pt",
+        "scaler.pt",
+    ]
+    hf_weights_files = [
+        f for f in hf_weights_files if not any(f.endswith(x) for x in blacklist)
+    ]
+    return hf_weights_files
+
+
+# explicitly use pure text format, with a newline at the end
+# this makes it impossible to see the animation in the progress bar
+# but will avoid messing up with ray or multiprocessing, which wraps
+# each line of output with some prefix.
+_BAR_FORMAT = "{desc}: {percentage:3.0f}% Completed | {n_fmt}/{total_fmt} [{elapsed}<{remaining}, {rate_fmt}]\n"  # noqa: E501
+
+
+def enable_tqdm(use_tqdm_on_load: bool):
+    return use_tqdm_on_load and (
+        not torch.distributed.is_initialized() or torch.distributed.get_rank() == 0
+    )
+
+
+def np_cache_weights_iterator(
+    model_name_or_path: str,
+    cache_dir: str | None,
+    hf_folder: str,
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Iterate over the weights in the model np files.
+
+    Will dump the model weights to numpy files if they are not already dumped.
+    """
+    # Convert the model weights from torch tensors to numpy arrays for
+    # faster loading.
+    np_folder = os.path.join(hf_folder, "np")
+    os.makedirs(np_folder, exist_ok=True)
+    weight_names_file = os.path.join(np_folder, "weight_names.json")
+    # Use file lock to prevent multiple processes from
+    # dumping the same model weights to numpy at the same time.
+    with get_lock(model_name_or_path, cache_dir):
+        if not os.path.exists(weight_names_file):
+            weight_names: list[str] = []
+            for bin_file in tqdm(
+                hf_weights_files,
+                desc="Loading np_cache checkpoint shards",
+                disable=not enable_tqdm(use_tqdm_on_load),
+                bar_format=_BAR_FORMAT,
+            ):
+                state = torch.load(bin_file, map_location="cpu", weights_only=True)
+                for name, param in state.items():
+                    param_path = os.path.join(np_folder, name)
+                    with open(param_path, "wb") as f:
+                        np.save(f, param.cpu().detach().numpy())
+                    weight_names.append(name)
+            with open(weight_names_file, "w") as f:
+                json.dump(weight_names, f)
+
+    with open(weight_names_file) as f:
+        weight_names = json.load(f)
+
+    for name in weight_names:
+        param_path = os.path.join(np_folder, name)
+        with open(param_path, "rb") as f:
+            param = np.load(f)
+        yield name, torch.from_numpy(param)
+
+
+def safetensors_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+    safetensors_load_strategy: str = "lazy",
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Iterate over the weights in the model safetensor files."""
+    loading_desc = "Loading safetensors checkpoint shards"
+    if safetensors_load_strategy == "eager":
+        loading_desc += " (eager)"
+
+    for st_file in tqdm(
+        hf_weights_files,
+        desc=loading_desc,
+        disable=not enable_tqdm(use_tqdm_on_load),
+        bar_format=_BAR_FORMAT,
+    ):
+        if safetensors_load_strategy == "eager":
+            with open(st_file, "rb") as f:
+                state_dict = load(f.read())
+            yield from state_dict.items()
+        elif safetensors_load_strategy == "torchao":
+            if not torchao_version_at_least("0.14.0"):
+                raise ValueError(
+                    "Please use torchao version >= 0.14.0 \
+                        to load torchao safetensors checkpoint"
+                )
+            from torchao.prototype.safetensors.safetensors_support import (
+                unflatten_tensor_state_dict,
+            )
+
+            with safe_open(st_file, framework="pt") as f:
+                state_dict = {}
+                for name in f.keys():  # noqa: SIM118
+                    state_dict[name] = f.get_tensor(name)
+                metadata = f.metadata()
+                updated_state_dict = unflatten_tensor_state_dict(state_dict, metadata)
+            yield from updated_state_dict.items()
+        else:
+            with safe_open(st_file, framework="pt") as f:
+                for name in f.keys():  # noqa: SIM118
+                    param = f.get_tensor(name)
+                    yield name, param
+
+
+def multi_thread_safetensors_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+    max_workers: int = 4,
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Multi-Thread iterate over the weights in the model safetensor files."""
+
+    def _load_file(st_file: str):
+        result = load_file(st_file, device="cpu")
+        return result
+
+    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
+        futures = [executor.submit(_load_file, st_file) for st_file in hf_weights_files]
+        futures_iter = tqdm(
+            concurrent.futures.as_completed(futures),
+            total=len(hf_weights_files),
+            desc="Multi-thread loading shards",
+            disable=not enable_tqdm(use_tqdm_on_load),
+            bar_format=_BAR_FORMAT,
+        )
+
+        for future in futures_iter:
+            state_dict = future.result()
+            yield from state_dict.items()
+
+
+def runai_safetensors_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+    is_distributed: bool = False,
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Iterate over the weights in the model safetensor files."""
+    with SafetensorsStreamer() as streamer:
+        is_cuda_alike = current_platform.is_cuda_alike()
+        device = (
+            f"cuda:{current_platform.current_device()}"
+            if is_distributed and is_cuda_alike
+            else "cpu"
+        )
+
+        streamer.stream_files(
+            hf_weights_files,
+            device=device,
+            is_distributed=is_distributed,
+        )
+        total_tensors = sum(
+            len(tensors_meta)
+            for tensors_meta in streamer.files_to_tensors_metadata.values()
+        )
+
+        tensor_iter = tqdm(
+            streamer.get_tensors(),
+            total=total_tensors,
+            desc="Loading safetensors using Runai Model Streamer",
+            bar_format=_BAR_FORMAT,
+            disable=not enable_tqdm(use_tqdm_on_load),
+            mininterval=2,
+        )
+
+        yield from tensor_iter
+
+
+def _init_loader(
+    pg: torch.distributed.ProcessGroup,
+    device: torch.device,
+    f_list: list[str],
+    *,
+    nogds: bool = False,
+):
+    loader = SafeTensorsFileLoader(pg, device, nogds=nogds)
+    rank_file_map = {i: [f] for i, f in enumerate(f_list)}
+    loader.add_filenames(rank_file_map)
+    return loader
+
+
+def fastsafetensors_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Iterate over the weights in the model safetensor files
+    using fastsafetensor library."""
+    if torch.distributed.is_initialized():
+        pg = torch.distributed.group.WORLD
+    else:
+        pg = SingleGroup()
+
+    device = torch.device(f"cuda:{pg.rank()}")
+    weight_files_sub_lists = [
+        hf_weights_files[i : i + pg.size()]
+        for i in range(0, len(hf_weights_files), pg.size())
+    ]
+
+    nogds = False
+
+    for f_list in tqdm(
+        weight_files_sub_lists,
+        desc="Loading safetensors using Fastsafetensor loader",
+        disable=not enable_tqdm(use_tqdm_on_load),
+        bar_format=_BAR_FORMAT,
+    ):
+        loader = _init_loader(pg, device, f_list, nogds=nogds)
+        try:
+            try:
+                fb = loader.copy_files_to_device()
+            except RuntimeError as e:
+                if "gds" not in str(e):
+                    raise
+
+                loader.close()
+                nogds = True
+                logger.warning_once(
+                    "GDS not enabled, setting `nogds=True`.\n"
+                    "For more information, see: https://github.com/foundation-model-stack/fastsafetensors?tab=readme-ov-file#basic-api-usages"
+                )
+                loader = _init_loader(pg, device, f_list, nogds=nogds)
+                fb = loader.copy_files_to_device()
+
+            try:
+                keys = list(fb.key_to_rank_lidx.keys())
+                for k in keys:
+                    t = fb.get_tensor(k)
+                    yield k, t
+            finally:
+                fb.close()
+        finally:
+            loader.close()
+
+
+def pt_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+    pt_load_map_location: str | dict[str, str] = "cpu",
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Iterate over the weights in the model bin/pt files."""
+    for bin_file in tqdm(
+        hf_weights_files,
+        desc="Loading pt checkpoint shards",
+        disable=not enable_tqdm(use_tqdm_on_load),
+        bar_format=_BAR_FORMAT,
+    ):
+        state = torch.load(
+            bin_file, map_location=pt_load_map_location, weights_only=True
+        )
+        yield from state.items()
+        del state
+
+
+def multi_thread_pt_weights_iterator(
+    hf_weights_files: list[str],
+    use_tqdm_on_load: bool,
+    pt_load_map_location: str | dict[str, str] = "cpu",
+    max_workers: int = 4,
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """Multi-Thread iterate over the weights in the model bin/pt files."""
+
+    def _load_file(bin_file: str):
+        return torch.load(
+            bin_file, map_location=pt_load_map_location, weights_only=True
+        )
+
+    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
+        futures = [
+            executor.submit(_load_file, bin_file) for bin_file in hf_weights_files
+        ]
+        futures_iter = tqdm(
+            concurrent.futures.as_completed(futures),
+            total=len(hf_weights_files),
+            desc="Multi-thread loading pt checkpoint shards",
+            disable=not enable_tqdm(use_tqdm_on_load),
+            bar_format=_BAR_FORMAT,
+        )
+
+        for future in futures_iter:
+            state = future.result()
+            yield from state.items()
+            del state
+
+
+def get_gguf_extra_tensor_names(
+    gguf_file: str, gguf_to_hf_name_map: dict[str, str]
+) -> list[str]:
+    reader = gguf.GGUFReader(gguf_file)
+    expected_gguf_keys = set(gguf_to_hf_name_map.keys())
+    exact_gguf_keys = set([tensor.name for tensor in reader.tensors])
+    extra_keys = expected_gguf_keys - exact_gguf_keys
+    return [gguf_to_hf_name_map[key] for key in extra_keys]
+
+
+def get_gguf_weight_type_map(
+    gguf_file: str, gguf_to_hf_name_map: dict[str, str]
+) -> dict[str, str]:
+    """
+    Return GGUF mapped weight's name and its quant type
+    """
+    reader = gguf.GGUFReader(gguf_file)
+    return {
+        gguf_to_hf_name_map[tensor.name]: tensor.tensor_type.name
+        for tensor in reader.tensors
+        if tensor.name in gguf_to_hf_name_map
+    }
+
+
+def gguf_quant_weights_iterator(
+    gguf_file: str, gguf_to_hf_name_map: dict[str, str]
+) -> Generator[tuple[str, torch.Tensor], None, None]:
+    """
+    Iterate over the quant weights in the model gguf files and convert
+    them to torch tensors
+    """
+
+    reader = gguf.GGUFReader(gguf_file)
+
+    for tensor in reader.tensors:
+        if tensor.name in gguf_to_hf_name_map:
+            weight_type = tensor.tensor_type
+            name = gguf_to_hf_name_map[tensor.name]
+
+            if weight_type.name != "F32":
+                weight_type_name = name.replace("weight", "qweight_type")
+                weight_type = torch.tensor(weight_type)
+                yield weight_type_name, weight_type
+
+    for tensor in reader.tensors:
+        if tensor.name in gguf_to_hf_name_map:
+            weight = tensor.data
+            weight_type = tensor.tensor_type
+            name = gguf_to_hf_name_map[tensor.name]
+            if weight_type.name != "F32":
+                name = name.replace("weight", "qweight")
+            param = torch.tensor(weight)
+            yield name, param
+
+
+def convert_pyslice_to_tensor(x: Any) -> torch.Tensor:
+    """convert PySafeSlice object from safetensors to torch.Tensor
+
+    PySafeSlice object supports indexing, which is done before loading the
+    actual tensor and can reduce the amount of memory being read into the
+    memory. However, it does not support more advanced functionalities
+    like `.view()` or `.t()`. Therefore, if we need to modify the loaded
+    tensor with these more complicated operators, we need to convert to
+    tensor first.
+    """
+    if not isinstance(x, torch.Tensor):
+        x = x[:]
+    return x
+
+
+def default_weight_loader(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+    """Default weight loader."""
+    try:
+        if param.numel() == 1 and loaded_weight.numel() == 1:
+            # Sometimes scalar values aren't considered tensors with shapes
+            # so if both param and loaded_weight are a scalar,
+            # "broadcast" instead of copy
+            param.data.fill_(loaded_weight.item())
+        else:
+            assert param.size() == loaded_weight.size(), (
+                f"Attempted to load weight ({loaded_weight.size()}) "
+                f"into parameter ({param.size()})"
+            )
+
+            param.data.copy_(loaded_weight)
+    except Exception:
+        # NOTE: This exception is added for the purpose of setting breakpoint to
+        # debug weight loading issues.
+        raise
+
+
+def row_parallel_weight_loader(
+    param: torch.Tensor, loaded_weight: torch.Tensor
+) -> None:
+    """Load weights that are row-parallelized."""
+    tp_rank = get_tensor_model_parallel_rank()
+    shard_dim = 0 if param.dim() != 1 else None
+
+    if shard_dim is not None:
+        shard_size = param.data.shape[shard_dim]
+        start_idx = tp_rank * shard_size
+        loaded_weight = loaded_weight.narrow(shard_dim, start_idx, shard_size)
+
+    return default_weight_loader(param, loaded_weight)
+
+
+LoaderFunction = Callable[[torch.Tensor, torch.Tensor], None]
+
+
+def sharded_weight_loader(shard_axis: int) -> LoaderFunction:
+    """Create a weight loader that shards the weights along the given axis"""
+
+    def loader(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+        tp_rank = get_tensor_model_parallel_rank()
+
+        shard_size = param.data.shape[shard_axis]
+        start_idx = tp_rank * shard_size
+        loaded_weight = loaded_weight.narrow(shard_axis, start_idx, shard_size)
+
+        return default_weight_loader(param, loaded_weight)
+
+    return loader
+
+
+def composed_weight_loader(
+    loader: LoaderFunction, fn: Callable[[torch.Tensor], torch.Tensor]
+) -> LoaderFunction:
+    """Create a weight loader that post-processes the weights after loading"""
+
+    def composed_loader(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+        loader(param, loaded_weight)
+        param.data.copy_(fn(param))
+        return
+
+    return composed_loader
+
+
+def initialize_dummy_weights(
+    model: torch.nn.Module,
+    low: float = -1e-3,
+    high: float = 1e-3,
+    seed: int = 1234,
+) -> None:
+    """Initialize model weights with random values.
+
+    The model weights must be randomly initialized for accurate performance
+    measurements. Additionally, the model weights should not cause NaNs in the
+    forward pass. We empirically found that initializing the weights with
+    values between -1e-3 and 1e-3 works well for most models.
+
+    We use per-parameter random seed, so that dummy weights are consistent,
+    even if the model is partitioned across multiple devices. When the seed
+    is fixed, the random values generated by this function only depends on
+    the parameter's number of elements and its data type.
+    """
+    for param in model.state_dict().values():
+        if torch.is_floating_point(param):
+            if current_platform.is_tpu():
+                generator = torch.Generator(device="cpu")
+                generator.manual_seed(seed)
+                # Note: The param.uniform_ function cannot be used in this
+                # context because it demands more TPU HBM than directly copying
+                # from a CPU tensor.
+                # Note: We avoid using torch.rank_like as it doesn't currently
+                # support the generator argument.
+                param.copy_(
+                    (high - low)
+                    * torch.rand(
+                        param.shape,
+                        generator=generator,
+                        dtype=param.dtype,
+                        layout=param.layout,
+                        requires_grad=param.requires_grad,
+                        device="cpu",
+                    )
+                    + low
+                )
+                torch._sync(param)
+                continue
+
+            generator = torch.Generator(device=param.data.device)
+            generator.manual_seed(seed)
+            if torch.finfo(param.data.dtype).bits < 16:
+                # uniform_ doesn't support < 16-bit datatypes (FP8)
+                dtype = param.data.dtype
+                tmp_param = param.data.to(torch.float16)
+                tmp_param = tmp_param.uniform_(low, high, generator=generator).to(dtype)
+                param.data.copy_(tmp_param)
+            else:
+                param.uniform_(low, high, generator=generator)
+
+
+def maybe_remap_kv_scale_name(name: str, params_dict: dict) -> str | None:
+    """Remap the name of FP8 k/v_scale parameters.
+
+    This function handles the remapping of FP8 k/v_scale parameter names.
+    It detects if the given name ends with a suffix and attempts to remap
+    it to the expected name format in the model. If the remapped name is not
+    found in the params_dict, a warning is printed and None is returned.
+
+    Args:
+        name (str): The original loaded checkpoint parameter name.
+        params_dict (dict): Dictionary containing the model's named parameters.
+
+    Returns:
+        str: The remapped parameter name if successful, or the original name
+             if no remapping is needed.
+        None: If the remapped name is not found in params_dict.
+    """
+    if name.endswith(".kv_scale"):
+        logger.warning_once(
+            "DEPRECATED. Found kv_scale in the checkpoint. "
+            "This format is deprecated in favor of separate k_scale and "
+            "v_scale tensors and will be removed in a future release. "
+            "Functionally, we will remap kv_scale to k_scale and duplicate "
+            "k_scale to v_scale"
+        )
+        # NOTE: we remap the deprecated kv_scale to k_scale
+        remapped_name = name.replace(".kv_scale", ".attn.k_scale")
+        if remapped_name not in params_dict:
+            logger.warning_once(
+                "Found kv_scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv_scale is not loaded.",  #  noqa: E501
+                name,
+                remapped_name,
+            )
+            return None
+        return remapped_name
+
+    if any("mla_attn" in key for key in params_dict):
+        attn_str = "mla_attn.mla_attn"
+        logger.debug_once(
+            f"Found mla_attn with k_scale and v_scale in "
+            f"the checkpoint, using {attn_str} as attn_str"
+        )
+    else:
+        attn_str = "attn"
+    # Define scale name mapping patterns in order of precedence
+    scale_mapping_patterns = [
+        # ModelOpt format: .self_attn.{k,v}_proj.{k,v}_scale ->
+        # .self_attn.attn.{k,v}_scale
+        (
+            r"\.self_attn\.([kv])_proj\.([kv])_scale$",
+            rf".self_attn.{attn_str}.\2_scale",
+        ),
+        # QKV proj format: .self_attn.qkv_proj.{k,v}_scale ->
+        # .self_attn.attn.{k,v}_scale
+        (r"\.self_attn\.qkv_proj\.([kv])_scale$", r".self_attn.attn.\1_scale"),
+        # Qwen3 MoE format: .self_attn.qkqkv_proj.{k,v}_scale ->
+        # .self_attn.attn.{k,v}_scale
+        (r"\.self_attn\.qkqkv_proj\.([kv])_scale$", r".self_attn.attn.\1_scale"),
+        # Default format: .{k,v}_scale -> .attn.{k,v}_scale
+        (r"\.([kv])_scale$", r".attn.\1_scale"),
+    ]
+
+    # Check if name ends with k_scale or v_scale
+    if name.endswith((".k_scale", ".v_scale")):
+        import regex as re
+
+        for pattern, replacement in scale_mapping_patterns:
+            if re.search(pattern, name):
+                remapped_name = re.sub(pattern, replacement, name)
+                if remapped_name not in params_dict:
+                    scale_type = name.split(".")[-1]
+                    logger.warning_once(
+                        "Found %s in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). %s is not loaded.",  # noqa: E501
+                        scale_type,
+                        name,
+                        remapped_name,
+                        scale_type,
+                    )
+                    return None
+                return remapped_name
+
+    # If there were no matches, return the untouched param name
+    return name
+
+
+def padding_weight_loader(param: torch.Tensor,
+                          loaded_weight: torch.Tensor) -> None:
+    """weight loader for padding in last dim."""
+    if (param.numel() == loaded_weight.numel()) and (param.size() == loaded_weight.size()):
+        param.data.copy_(loaded_weight)
+    else:
+        raw_num_experts, raw_out_feature, raw_in_feature = param.shape
+        load_num_experts, load_out_feature, load_in_feature = loaded_weight.shape
+
+        assert raw_num_experts == load_num_experts, (
+            f"Mismatch in number of experts: param={raw_num_experts}, loaded={load_num_experts}"
+        )
+        assert raw_out_feature == load_out_feature, (
+            f"Mismatch in output features: param={raw_out_feature}, loaded={load_out_feature}"
+        )
+        if raw_in_feature < load_in_feature:
+            raise ValueError(
+                f"Loaded weight's input feature size ({load_in_feature}) exceeds parameter's input feature size ({raw_in_feature})."
+            )
+        param[:, :, :load_in_feature].data.copy_(loaded_weight)
\ No newline at end of file
diff --git a/model_executor/models/__init__.py b/model_executor/models/__init__.py
new file mode 100644
index 0000000..9f8dd04
--- /dev/null
+++ b/model_executor/models/__init__.py
@@ -0,0 +1,44 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .interfaces import (
+    HasInnerState,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsTranscription,
+    has_inner_state,
+    supports_lora,
+    supports_mrope,
+    supports_multimodal,
+    supports_pp,
+    supports_transcription,
+)
+from .interfaces_base import (
+    VllmModelForPooling,
+    VllmModelForTextGeneration,
+    is_pooling_model,
+    is_text_generation_model,
+)
+from .registry import ModelRegistry
+
+__all__ = [
+    "ModelRegistry",
+    "VllmModelForPooling",
+    "is_pooling_model",
+    "VllmModelForTextGeneration",
+    "is_text_generation_model",
+    "HasInnerState",
+    "has_inner_state",
+    "SupportsLoRA",
+    "supports_lora",
+    "SupportsMultiModal",
+    "supports_multimodal",
+    "SupportsMRoPE",
+    "supports_mrope",
+    "SupportsPP",
+    "supports_pp",
+    "SupportsTranscription",
+    "supports_transcription",
+]
diff --git a/model_executor/models/__pycache__/__init__.cpython-312.pyc b/model_executor/models/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2417c56c89df14e019b65406015da46f06a1b919
GIT binary patch
literal 854
zcmYk4yN(kv6o&1|B$*^Lxw42`Ni)SV<${EeD7cD6QFcY)#+pq`VquRh+d)Z5%>&TW
z@hrT7TSP&Jh|o$@*v@5licdbr=luV%J>Rpe4cy1#&-7;vfFC~Cf6;ESS-8a)FatBl
z0EY<j2t~YxYCJ|UucJC|payTECQnepTd2j`sLea5!&8((-xslrcTt!3P>=UfpAXO=
z<ZEomM`#4W9L(ac5ZzeU^Tsde?DEuRFH8NZs)#x>r6D#wTS_UE(Qm}$sm=D$=|qg5
z+2J8vGDA<rtYo&m&yC0SXum#JWu>QzN<&3udy7(I>OHUyCYj!uU?x;)yN8e~A&DJb
z#omVppUxpErM-Cw%yp+cwxf59aW@%Z&xINb!DuzNcdjST$;!MSZkRF**QXlGZ5?(_
zgxOmzV_XrQAF8%HIkZ`jo{%}!My>OK8o66kJ&%D$-(%?Eo*Af?N9^I>Uo|{ZkGe<4
zqv?@(BpzLdxA~E6)5;L_zMK-hl?p1MEvSUH&=EX>e9#N>LC;Is-jxo%C^gy68paF*
z`&n(Gb_WW_u}zFi#xVW{Hf|UEdtDeV3rXd%Db<{q<JI!y(ZdfXq+s--kZZFLRq@f?
zdl4=WlNFgRjZoWA7uY>MH5fmTYnwcFHA_aGsJl+u|AV@4_+5h#UM3lgF2Np~u)0@=
W(FQpDO#!_BCmwd9Pfc~(_525Y9`fw~

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/adapters.cpython-312.pyc b/model_executor/models/__pycache__/adapters.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..01e585c449a5d5f1a119c62c423bb34e27f14deb
GIT binary patch
literal 23022
zcmeHv3v?UTdFBi-c!R`)1Rvl-kobf|QV+@&t%oI96!ju$$CBlku?s_-p#&NPnHf+L
zRWM~!wWboMmbP(4Z=9NGa~f)`Y?!m%6Q#S|Xwz<+o^DS8gI>T>c`Khf+h+Id9?DeK
zv9{ga@4tfqKnikVr#-uS&dveud+xn+=idMS{{Q}W{;aIb&f$s*UyOY57{~oJMfA&>
z3#>eE;JB-t$ccQE8`6A!h)3KIHH;aDj69_oqr#YJ$TVgiGLKn?EMwLoD@*62wjmq4
z*FNSLa<DWZ>KrQ@Dq~?&w0z7p<YHlS)IH`I^02Ta>K&^Xs$gMjv~tWh<QuCRszTf*
z+N0HDHA6LHwL`T$Cz)g`>UW?{|Bzp+*T6{@(J9qQj?o_daSDDdg4fI5z*EsR)PT}1
zsqqay7hiXp6U%>_9}0*r(JgvP*CFy3EF3o?h~A6B(0Z`~rFymdi(Ro&YRc8pJYp4n
zDBB`dA*~vJkJL0`7Hg2!D%MI3h&P}<KjLjg@jArY#rk}H1LDD=cq8H)i{k4L-(=tp
zabn;iC$5(&-Z18#t3%u%8Kq9CNwSSTTii=6JYt}6q5p_MY(g!YKSudxl;0w4mbQp3
zuNj86evCU?ap$%vKG^mn>c(J@SFK0lk{mu2m4bp=cH)^Q4u%dKK6v2Rk-<Z%aer(|
zwVarmkWPkWRTvH{aok`(8I6t|7>|uaP9x@s#3J!fbo}&bNv6!xQaltMj)z8Ki1|)R
za%5y`e@uL8LJY^H++7CML&eUFghnD!DRgQoE-9)nE>DFhS(IXm6dD^BC!><`Bbp{b
zgIYn24vdRZv~OH~VthOriJey65hXOCg{iz0ML`EEq%|bdno<p+6X=TR)c9mf#4|cj
z!GZ9k5{~u{s5KNBkBO0ZWIPs*9+F}h3ks{Y182f<R+sANA2=+9MJ?iF4TXl;^UEG;
zz${DgNjWy0o6$((I2-;n6ILqOYL4gg65MERB~UT_LaLyL3;uOpUp3Qwf}i213^wjG
zH*HApz1(wO;<#yJ!YCSP4owSjtPkxP)hUUd03YQ9DhJ=B`J;}a>|9VZix#~_^vHRC
ziR;!ka{Zh(#a()S!jupaoIdjv{-wtghEW=tHCMu<uX-LmDcJ*?UgA7IZAMM;(lx~^
z^r{nP{SMvdxtCrRxT5i>)XNt9gyGk@(dt564?W<i?RwqExh5`NqnB>x<Qkrf`}O!}
zgB~jQqC>xz=bquF4ClD>#%H*5e9(EJyMH_^298UyxD*?fI#0;qm@+ahk4dr;=%qyv
zn2^UurD2+nfoOON>0Ow~R#`e5QIIyMnn%W?q9oHI42?)(%t9<A=lCR+pB@uVMZ(I7
zpg~@TKB*=#j@7JIV1-7`vWXrVnT)X(g1j6+kqdRlPw4HA%Yi7mh@}=731g*-L6=;{
zs$q*juA{Ia7E{grk(dM$VZ{1X?Psu9Lb--O87RV*^f@VV`b=C=&Ebg&DJIIq3sw7Z
z>9dm<f=D>38sg)s?cn)gX@V_5vqn`^o1`ZNEiw(hTDFQtsAg?&R44QGwOLOk%^(!i
zGb_=gSa?iQXq^PK>)z4L@v(``6OoC|cvwc?JI_z<c%<ir9n$7#<kaSgsrZ@k*ygjK
zJe##uFP)c$C*$L?7F9Nf#qb2Er_wbsrFykTRpO!CTN{_<?P#kNf5ndVKf~QMbH0sP
zYh}jjPg(u*&t_V7rdoF1H5z>8nSo_1XZ0m5^;v8AvfwfGWIYwL=D(~D&h}@0>*w23
zzD=`zw|v!CpSki()?GjMT*|$P{9j19J5V6wYf1T9=0_I9w68l`wINg0nX2l%Yco}q
z&-UGQa+PiKXBW;cCYCCCv+kO#)BEzkrGdHDCFlBVU0bGZQ>t!LvSWX`?y;onvDxz}
z*JD|C)zz{qWv`7c)TA4?z2)v+uH_mw-t}{C@5|GdrsqbIu9l3eJ>_a&NMttmr8f5^
zUF~Vtp``WDPi{FX-{*K!&n;_t##)oI)+B2me#^S!w!^h-LGnF?NYL-@-*KRo`+nno
z3%oyUZS1ue|H#b4mA4{Srnfho<E0349KAP2QO|4mhzB0x#`tN%L&je2GXEUt-n5Y5
zWlMtp3MUE);Vax%jWIqUOq*<6+{9{u18QX$HS4j0kJJ*BQ>SXv<^<8B?FpeI-O5uo
z*(LI#ISN!ZZQ(fsm#`El)U-9W3AvW2b=p>-V58-QKIox@ZPcfS3x1&{(JI=m+w*<1
ziVkpuU&Zs=6ZVAlEQg+2<9Yf9s+Ol&h1x`C!kDkYfu1@_mrGa^c6wntX8`TCkJ8d#
zbBSeQxn5@4iMr?&uDO1BYr;wWlRH=Su0+XIy(>fS%1YOW-Z@wIj^}u8$|hh&yyOtL
zDK{u~quvcrY(FS=K#z|$>7jxzx)Or^97MBG&*nVU_FUM)sCJH)1tt}uj%WM(2ilZ?
zmdNOUBnKwKanOcXmrVTr8o-b!jf5wo@zAPbLBj<PBQ9M^ctipxP{w8Df(Nu`Tpm87
z!J4j9k(kPFzThk_15O|iaUE2R!xNLB@TzkxJb}iCH2~wxbuly^i%tcNs#%L)DAOon
zS1#&gq%;>(%U1PG-h-Yq#&N;Z#~45$KF(M|phf8mdeu&%ja{p0V=hWvljK~zp~-k8
zs>nO2Izkol267ntu!0jP=OXbls;6iGy4cgpkD!=ph>WWy7FR8g5mY?#xM~5h#_-Cl
zhpI)ECZgeCiFH-pM0IzN(+MY7UZ5w8d9YrnRzjY{4^$h&pm<qlRC^H|bu-3Q)Fsuf
zph+ntMuy|^W7IKwZm?dErsPK{!AiU~gsAFZA#Ds4THiU2lk?<mB*|^M(}#d^gt3Sp
zTRGDS{=LdaXRU8{ZNGf>@|n5tymjtEs&eCv_F3Dqu)*fLRl70kuASSRsq0MDbrSjQ
zO>OR7F&g~kvq$fkxynY6_}i}Pj4P0G1?C%<TwC68_r2TDxiFe;c;t%xuidrpHEei&
z=+&WYW!2TASB}nINTYh+4^Ds;HF_`GSFGH+qx@xiwxVI)|7OLeTg{uYHI1*Ay;?T^
zOUa%AwA4~{c>pc>Hq5tvqw{N>i~bu&Q(F%$RUW>*E|^)jHMMT*V*8E0^tuC=4`-_z
zuKwbcUrbhaE%w~Fkm^2itF<#*zv1;`uO3@im)!X{YHRb)IZ#_|^L*boj(zPIYCD|T
zdT^<xPpw<`ejW8?c@yW`yFAEqPR~#7+BkRZ`<wv-;q+#l^(kk4vSG_&`;v2)>a1Kg
zA>*FXj3Irsskh4T2m34Ge&4%)54=C}@Z?sl>wU!ZM?E}T)io|hPHW4I;RCf?mnf9U
zk&(#xVOqWVMc9||pu-4U<r2W+aXpU%1qLbwCO3>0^Q~MyXl+ggm^QrR6SxFW`~~D4
z2Wc3@;`N3O9UMIP<o*)}L&u-$>pSx4gU3~;ERBtym9&lo1^IE5m!E*6+O;*uCa~+Y
zCbdW*t)N1^q>096nOe<+D*d4f_sLJA*jfCQE;ut>))SaH`Zsl*v#zXfUB=gu@^vhP
z(!M>H?8`>3zH8acIjiQ%Q;yc8(7J*<Fx}bE4M&w#l24vbzmGCk!2ux~^N@{;Myiwq
zl;=b|Xg&W1HGm7Uj$t&<xwSNM3-VMcP97)ei(R8k-=fDfACgM$O|10^Nua$Fa?e>_
z=BKo05%4Ug1Q*Y9?Yu+;Y3w)`G!G6Jx0h>*TOkg7m6JG9<qR2UNQR7}0j@A*3<~$Q
zllVI<1GYo<9a}BdhA_rmyNR+#l}Eb{grm`u5CDiI>a|mgG*K}DxfL&*s}K|uTnHiU
zn&RXq5h6htwL}%-9*PtlQK*L8OtFSSOqdT{*z-v`)1}}3%cxSJSAa=XTQ}SLrK9qv
z5xZ|CvCjT`<XkO!p9#Ly?1<BxW>=~At#fO6GcZC43|9)Vm2RihyVqw4a1S?{mwEO6
z08jFT68bP(RXg5L3>*WJohp!wr5d3=QH4S99QhY;x7-c~%uQ6w*aD6Whe)i8LsX;J
zrV24=G!%NN`bxI5{1CnW3wuA&8!A+A5%ns&;mmNiT(xt}uLoZZe*O42KK->%FS)w1
z?#iq7EB1_geagLlzWE!$uLZx+@wJX6_vWnAopCm%oQ-qwx17!FwGIYNDrOFmqEJY+
zhjN-5gq@+#XD7o^Ek}MHjmZ%>*En{cMx7i*vsr$Y^#>iJ6?l<*-@x1ISIkCRi*`c{
zsj8n%QNkS|Svnn20I?)dqu;C6olXK)cH*uVSFJo+ccSq%UKB)=XqE)gBAEzKk6359
z5ni-kEFUt@a_9LW3zoCvUeC`w)B~&aQzuk{edY;S0v}Nwtj{^U5lvE=SchtU;T%Ly
zMJ5b8m|xHI+DSwqh_rGB&MSQJBDn;0%a^buL@<#AXvu4agz@YAuk&n*mLQipIW4t#
zKqd0*YKjXQ2d^3ANwmniCyyZnrI|^YoRDPp4plEH>7wD->B;bErl*slcu1(>pa3+n
zxm$EUF&Nbr0tE{zN+_gI=fIi*Ga3YX9?=W?Kj{GHDb5vCqiloo6A0PmT$%UMAwmVt
z!G*dTCsWSBn`hs24&L@RX8c=I{;g?$cgDXn<=+X?bc{`{pj95l-SP|MM9Fc(QH=@^
zCiPf*@Uq-v3`@~yC<J{;0$GfJ?$ai-Yt00ZKZ^ptPKEZt`N>5tTemK0tyy+*bq(*^
zY_?rss{Ynx3x%wluV$I0*|}=}vV+o`T)FpyGKB7MaI{76OQ;Fm72&ClK}@(DD^N{r
zajT|@u&hX`1;l3psw35gx223v%0S1A>JR|~lz0Z7%odb|-3Mg_)w~8ftotc%M*cP2
z!|n?sfU!4NOf6p?zB+zo{4R&!9WUqde{pQ)P*!lfIPl8@Uv9b@yb^rvP^P{!Ro}UA
zCSAWH?d@3-9?4po7Iu7V&$T@%OHbBSaaVAfcFnafHSf5~A+%i2IqQ;wpN&9%ji5!g
zMrih~^ul?Od(rTs5nCrY)xZ}FV}>snNeDm0%^GHnSlv*UUbKqBB`%&<0OZ*>RIFI<
zra_rFI}n*?KU6(WYdWibCe5g2x#$3Cu;kM8hTiup#*a^NuyK*2N7$BdTr>??Y#cU3
zoRU?tNrGe_twP0XuEHjQSSC3~gjt@R6Hi%w5gR^?hLz))JomQg&|)<XT!kyvOx_c+
zjMij@97YfFG)tyM{ZRz#_mRJbU;!~Pf@QjoVDTV8d5kR@fTBV4iuKtEt{{&?ui-AB
zyW$*ZeH)<lb)ac>C4l9`f=;>;yqi>)YcA@|^&)A1iUSEW56b6J4pYDaE<@T(71H48
zNF2Kj^7yc%Ktz{+5hb+2VI<NbPf^12<j`oTmNQ|6BvjRceF-M29;9Ta2C;JF(p-{U
z3amIIE;LJtT&|**yFUKQ%u~wWMTH8{x{suk>o(5zE;+$_x!Rt~!mSGb-1hm(w<=n1
zRo2b*&NshR*|uy#)?GV?gzfV+3)`0}wg5Hc5W}X$k)(V5TkbuO94fbJt2WPL&^BRC
z2L5QJfv>^UuFvy2O05_ij~^MEh)QFm9v2VF^0*u{t{E<cD#hSvyyOZZ7xsRVv0;!x
zdnGh=6`JY5Mc$UAQ-dC=MHBU*TxV*5+_YGwpCmrP9%>Pf_X@~R!l2j)=F@JC&VZ-+
zg5-i3YRDtkUnx#6g@8q4zU){*mnjOUpBp8aYt5y%SZG^EskCb(A2V>5Yy^KI{B=t{
z2RhSH9XJ)$S3tPfhbp;$RT^RE>op}zz1+*@VZ#|n0neeg(`Lv}X6R=P|HSYTbam4v
z=vPh0i{yYy_M#{DUb2^Lfv|Uub{q$pzho`QcGH%GrQ|(%w0<0Y;qjj~p94oNU@v-b
z0sn6NSNh=`!-OSa|G9dOdlt=2^RxvwO0#&)1%i`HRm?<MMhw5nU*$oX8li~fziGs_
zkKuwfH+#Bh_mz}Na-1o^prbQ%Z2|5lt(1W6((tPJt=e{zoN#_Ze)PhVpJ0}=iJP0o
z1z|E@=bzwFlnyw5OQd0$6Y9M0wsyX1pA+Upz?RqdzPfi|=ThCnSol>S2Vd@gyS4K}
z1{XfRp_yk2z1-r+wXup%)8b&`Nmw>No*RqDQ{-M~=YYDEdMIe~V_RC8qEBuy|N2FK
zlFN;CM`5g4w@AApVBoMb1#E=Dr5zj4l7EV>$X|g2k@!p`Dy|xB`K!qI#~9}~QLjRJ
z)!aB6H+tV~+x@Bo<1B$(`fBG6U3vV?%7L%P7Y=4RcBeXar#l|KDWuyD{-841Hju6y
zc)M+PZs50U<1d(*MyHE0Ys@Dv)5*lgLow+bxD`nrL9_fa+S6W<5yGQdPE$+_v8R@$
zm}&x?iB8GCg;GI>Mq^*0JAM<6TEQ9!VXK`K$ssm`su`+gARx7jsW?R~RnbNh+jgY-
zm1n7nOXLvPRERT!R<mnnCWrs2$xlSHi)Zs6Q1yQc2NM^FvodhUpv~SD6a34TyI#&+
zeK|h&^pdOPdfQ_2cQ$@|<BizT#)0=*gLgQ*fZJ`GGHp9kZ9A9RcCVO_u)-PJyh(S{
z9Wc1Iw;MLzIR67L?r0de+?Q=^em(kXbYVxjvHS9&+s*CYIQq4tndV)o=3O@qrJH*%
z54^p9Fx~w4ziqfti7hvA;pA_JZZ=#VNH#y7t!qzKwqp|zy*ba+vf1i&nd**Ib;rVq
z#U1JDT}k&Y=t2FP7PhBrw_G+ub(*Q(n5y20)~dUc?(PrYui#pq;1z-e-*-9>R0!Aj
z+?(&i-fRgOMxI8|f(#=Qlaz^VLZv<l_9`Esu=xbrcTj~>5aZZ9kUxiX$O#E5zvfL6
zaom@Gg#`cQFT(j9{FTqc`EZS(<F!4S6Lct~2|5(g1RV;Ip!4H0gzmKSw$_FIWe(oW
zrWNv#xuNZjrQNpuwy$AMnm@4M`&Rw6`egG%sm6y>z8%XZWTF1Lbstcn6%J03s07(n
z+k7ZIM6n3OdY{i?^z8Y-zMMQ)`#>@)FXB00rw49@b8m+G8)3%>!ehK?`!YvvPIh4l
zhYdy23pQ&Wq%WOAO_~5xME>#&MK&a$D`uh%53vT8V8x;hY>1d(Q;dyuR#ece7Ng@*
znl90#bJGMLqB+JcCKj2)&w?h~Y4skTJjJB>KsXkV&O-yE?|=murJyY$XbUFB<#<3E
zJ0*!^KcIBk*}acV1#-J!9f9~6si;6;e1xT(I|D@m86b>J!~<a&Mb5`%Y~D*^U<8R&
zhSd~<p+q<uxq$RD5fPhM0k%C87zQ?%lnJuw!Nwf=Ld`(=5J&h0DVFO8(51AK)k9D8
zv=o4LVscDE;cz?<8`m1m*<7$*gwcekS4T890&^klfp_KW!FmeAY9pfK*1!}5@4)!E
zSZ-t@^oS89fM0AJ9YW7wQzdn=3bbuPgIeAjQLq~|eC7$JQc=yCKdiqF@`;_&wL-J+
z6+@9)*-SG;G)hJYgWN2Sc_Ba)6sAl;%e_u)PUYW7Zf7yCRo11ygZe95BlNApx->T!
z)+G)>?E?-WwDu~6V+noE7>;tEho1kEaLH6kyI<HVL4FBrTgWHX*Bd#o06CH<6T2YA
z8Hn#Y*h|-*S~anUhmML=@oJd{_;c1GstcAkq2kguN?>;|S?}6?vf95wE%NV?^Dp5r
znoN^PXKhRz+4-@CysKC^{Clc&01miXw!SS>zdcpIJyZW!s{XOrfow$}S<#VncEEkt
z-+sF(m}z<>)%3`X&UDk^Y(rC~p)-a3zOi(}?mH%<$Gc)Q)s^SfU4t?KsB5OR41@6s
z#v%R%HBQJn_cW^K{`v78Wd9wNBgF)iTXzgLTRG8gcsH9qAWx&iH<7P8VQH72Td?C{
z3bys7_K$OxPTK1!3@{_PY}1N$8@%b;s8^=S3x#s}E1iIQ?;n2o4{^hP#$V}!^C5Ir
zHJr6(&bS228<%(1{(+e@9pOI^?56Ui`iB;W)Ac*=a)_YVhDUBxe6Rky^*2A4UVkzv
z_?Cpm+m8CAP=CK(iYBcQ|CK+6^P=%Z;YHJn=3)(QK~Pyk*iG1k;$hxv9234^95a1E
zU~z#Nl<){cWQ$tIY+o?v^jgMQVb(NjhR(<W&6YLpLxb!pv;ZL~w=l3>`O}O-Y<U)7
z2$33ItIGf_l0E!epMV80RskDOa0@Y@fI5T7hLsl{#1J&j0`h+<d@2%!S*D~sfC~ha
z@sapg_`D=C^7#+V1Q>B9rFCQ^qFGb~NE1Y~I~*XR4{#~Xl0st>c_yG>Uk<DytT6gc
zs+`EF$+#4Fo<02YI-iS=Pjp75v(i5T6M-1uei9ZD)Ne`DO!H(~(a7)}*I2W1Kpt0=
zgR$Xp;**-nlP3$3sZ&x;Zdk=}h~m?=G6LrnVU>E*Qp9tZ0&-TsbYy%-G)X4O3_EDc
zC@uIkS3!L_VqjY@=8MiD8&g}_G2yKDda!;K>9e%|`5=C!nGX(22UfkSk78als~Pj6
z9n)8YkHfr5F)Ljb1!F781j!_=)V|BKiBvF9xLDVW3ZgKMwcnpALPK4W&F0r>;huy^
zBnE58?oeLIblvzyj+ug0=Gp24>MZfP$OJCWx-FNiqcn<Zu7nv1B2w$Exe7{F+?S_O
zg+dRyPc&UO>j3s+-f1Y@DOz63n_uABNfc!lV1jk954&4LmjDdbAysuU5m(7susX4Y
z8H?*E!J(OYhseB#ZIF=)Cr9EUkcX{0xx+5*Ur=S{oGrXjE!V(>UO-MFTmCaRL8k^t
zY_Nydwg*+1bi_k(AYa{<_0Op;heqQ<3Q(_Vk4=tY7w(h<yQ)^bDw!~e>McMSy*1TI
zX?lzS8eP(#q?_4Rq@%b+!bmbT%jzs}Soz;k+MmEFmgpf3<|KLsdk%imb-M}yZ3Mef
zNLfq>$lsFjZ%g^NW&FES{@odWf6CvV_7Bb;%ht7K>bg^P-7u6b1mCR<!a6qNZcn+}
zv+lZ#yEWx*&HDV=hW1RuL#c*`G7bAu4g0bU!EF8dx2v1x`xXwRtGC~ESz$!g`_j?n
zN)9DI5_7e7WLo#8TK8saS~Q&k)HiMW_!Z93Rt0%<eOo5boeFg4vu_Tez<LO%hV_)+
z*qmwDl4{se$bTC7ja!l5Saru`C(!0B0&Vgu81q#&6nTyFKSK`fw_xcZwDu}xjg%)^
zhJr4cHj)cFCey}MIfkMf0SMlc5N2G3O|(n2zvC&kg@7(Mzs#^tlULM%t{VqcUv4U5
z&4fs-(~vjRN)k-2#h_U==Qhfh@HFy4a@hU~>5J6LRV*QAZV4?{h>FoD$!}9JGh1+q
ze2Y>NaPkm6P^^9W<a4!H2X&O@>JS=XbG7mHO|Nds_#aC7A4>ao%pSYttDpN!a^wD+
z+ta?oWX6r?Li=KG+V{w8-))y~_H*;C^If;9>#v+kRc~T5G3nlZ*UHs&Ec7n6rK@))
z-8(ffO>YiMmtJ(yc69-{6Y7+&lXHNaZ<0f!rYUqxnnEWpwG^#pnoaxi>sW2n0sjLS
z?4P1|8$I+s1fcP`V{X*YKRiPJ@RpggkGI=)Em#+Qi^`3I-|PQwe{u(``;MgAkAA=*
z=MFjAquoYLYAxi1(oF`-e!9@0Au{c$zK`k(bW3e1C2KH^h0+zl9+Nx*3sOZUz%GA_
z9HMb+g$|1*bg)9VDZkW65^IGZxDS_R7vNq?4(0by1PAgsMMU6#KnU@#5<-3qA>;u6
zfx&1plR;=d|3jha1EJG|(Smc!x_-VXZEa1q@40J4{O&LC+~z($YjwQryyQ$)ZG}nY
zW^+>5uq14Py3M&UDFp8qQ3!U>WLcptFA`CHCh^1wy%UKfI8Q_;5T_xMki8x>M|c{#
z*k(I~5@;UG5J)WXGA$jnA+O8Q8F~>FBApz&K*LHv57AmAmgE6bg2WPAxDib=`28_7
zQ?dlJ8&T8C005UzPo0wj8nb6OzF53a2*XR^;WL^_DIi8<SXxA<{x8=pF%dvV`jxsd
zI*HjBfDk(uWZd81zY6vfQK0MNDVo|a-?agL5Ndyt4gW`>bTe9ID4n+Ae;yT+$UjKQ
zbUm*+isUy1fevX=u!~tk$+TeuTOUGJ&^a(z#56w{BxqIu{|2EvZ&`(dw*QO+u?qIc
zL>G>tPGTiLP4QFNJU^0yA+6oT0K_N|fG`&U2u<rFe~<c2(%>rnPPtC*b8qHHC@?`C
z(Um)bT_f-Ch`htoi1vR$LDdGLt=$;3F(NImA-=8xg$<p8%2WPN)Qd%O$P8K2=$JI(
z%Ce~10&&&N#&m+}S~ITle?#%-sJq01NvTt{ik@mpogWGhy=$tSYe|~|9~d0a@6>Kv
z>`vG2Sm6*^F>>bh%ajaSyzb$};qOGh9ld!h-T1`J;F3^x+fkboYBef~Ci0g)Symd6
zRM5jpFf@X3ub@*nXkdAm(bbpcYzNq3($zcAwDK5vei)DSKxjuQx;58F%BXzdSR{yc
zG2An($|;6>Fp0*|Q^=&6?3Xaa^8^?NjT}dr(KH>n`l?ZX+|QF$qKWo%<(eWGn3uss
zGvz5v4J_igR$;Rt<}OvfxWuY{!fI1zCXllsX&2;LtX}(|2LApMLv+ugVave1a;ALG
zZBa-f#3cft+d}8UQ=yzr=|?oKj8v*+lQ@h#fisK@P4>a`j*);g7082AwetAEPlXQj
z9}o3EzP~p#aPY+8$9s>fMjSDb{{xl$?{FYrGFgkjsn)N*(zEpWty}umoMq>xL(rLp
zCfUj9oFI7Np^utDT@SkLA}tM4m(FmvtJY_#x>8kLnW~;tRZphsaH{HXy6Whx<Cdpp
zu5SL!qLB7HG;3zDWb2+A@wBIR)_mLHnSB(;1_4%+uJuXldbnAaZ>hF3<?2jYA78A#
zQFX(5vpl)^@wD~vq^lD*Bz?g*9l=`_RhQ5H#;*DGZ&oxVolVJ#rff^=?6J3;8{TVa
zU#R+>&&(cMa&Ew`Xl-ELu@Jf;rE7X;%d*W|XB}@@*RvG|y30n6=ACADhOu0YfK?}L
z|3rqhmn?rsCCAA5G&$YmEbGp%&}dX5hJ8wt=Y2zkX&bG6?;Q$hH?Xqz30%aJ*qZcX
zbr$Rlr(s5dwPd8vGthBFK$!dr!5z7)ltu@0wshGN8l7o~Sfw;8r4Cx_>u}m!IA)kI
zi^A!=LEN;Zpec?Mjb~TkXmc&%iTq)3l&;Gap;U|?UD^uQRxv=JAz?0c<PWJt8`oTk
zBE1fHZXWWX^oBJ>5tT>cEqW?Op;ZqT{KCO?xvF%DQBa(<SFH8{WjC!YiQ|vCq-hu#
zjRx+|AMLz9En(His`we>oAr{S^&%JFs>ccdd32keR`7fCJ<#i%w&9rQLxmE0h{Wwx
z$3yLyosMYTSpBqv!F30;jyv_z1s|!q3o$)})JOGj!AI)8LQD@`cjk8*oC)XX0X@Co
zC!j2*xs`v0vImwcTUD<70i)hqs9O(>_UWO5pC~`g+8sSoNYg`c0$c1F?bkyEU+?M9
z*?!s2+x`VREYDo%#bBXtdZ^ULP^R5QYu_!FW79MTR;E2zt)7HC;nIaFqFK+oajf@K
zdW{8Nbm=32Qufi~g&aL3x{FIdB=ZdFXI{&nfW=ibD&boj^a&05Vca7VJC=V82gWOZ
z4o`KmZB~uLu0BjgJtpG4vJXz)ZVdE_K8QgaVC|(@k-<#3BEjeE!D@=^!F~zlVRonC
zO#?FlQ~C1@3F~I0Uqz7%J;l165If|n>8V!1gc4?SzfZhnJ*vo=cNrSYZ&$R=h8Na<
zYvZ+z$(|$WjYnSMQx&ZrGAq;1S2prjEsZ?BP{OROuJLpl2)bXgRe+jTzGl>p$!gkT
zN?{_E>WRyf_|yO$5X6Bo?BYlauCQ~c_nb_hojZGbuUxk`)C}{28`bVos*v2a>sg#K
zJH_m|=(QE>1?0cSL&<x|*+C9t$P5b6E0o_MCy$3@Qi0%jGK@o1BcQ+h6N=llx=DR4
zzeVN0M5z_n;|rY|m&HO`O2J@F{$Et4lEx$wo4|)H*i>OACD`1jJ2eA+d7jD%Op3MO
z43az^3NgKxs_ikuh9v)S4ec~Cju_|0SO(9A43m$m-h2=POvfX}V>0$-IT@R-9CVlC
zF#xUHOH%NzLJ?8X&Pu<AUdS8CA=;-}Mlg@!-P@R+9|yoh5$50#Wf-c5pqClsY5Gbw
zwrp4nBl<Sg!Vn@G0*@}JGnEzXh^gf?NnyvQ4*@-fj88b>WabD?3QFjfYQa2V0c}p?
z%Cb`;;W0K_6fYWrx@yg(X|7s+rgb2%L!)28U+DsHp5aJmb)0`kIDWgLCR5Rzs%Xws
zY)w^co$1fsm*B0w+Hs{L<Lyd$yVBk*GsoU5tGxV~B=*|3rOO_j>AO|t`Ev7@l`Fxy
zlj*W%#2w|cXTP{>ZvC4M90{pQI_lo7+>o_aWUP%TYva5l6WEao?6?`#zN&HX;s8|b
z$hEY-X=%lGFkpH&Nym}r2bWwVFPC{=K6dF?#@YO)v-!5C>T2DUx{POQ%Cj}?>0Y*Q
zHXp3iYT41}OwHC*&DO<^bj{vb(@SMg&ek^E;jq4MRaDQJeq&drqV>&+R;b<@%uwOi
zLjUGN(^YL5Uw6vay?F4(j^wAFO8UCfzLPV9KNR-9>uzA50-<haJq;PpmXv2pwz?@(
zy)9L}E$eU1_<K_R9(=;XW1cy(T#iG}8CO@z)rHS^gs)AdU60Hh&X!ka$~#l#oeLw2
zpSl)Fm-pbPO-0SsJy-T*D%w&NZJCOWR7J<a>4j%f6+1E&J5v=qZ&}M;F1u8Qj#ip)
zYvGKwK4q=XSl6eZS?rnLn6h?etXopnEx+gcPQ$kw($>9qOoqyR{7gU8iTa4qDZrV7
zbRyv3{NCjDBk9VcGXrl6p35zB^-Dr4ss@S|ycwY?B~)Gh9FkbfpA!7Zx=l+$N47|$
zE|z2SD7#De|0o+Mn|}cq=M$rBlg{;v5$GpI*=8Lv{J(^<i*WT8(7H93Xd#?AN+@H^
zRlIFAjiVf*HR>O$o3=9yZ3hDGS#txTNc}mH^>tewLpu@{9Gh?s8&1=)i3*?|XTmYM
zzeKA}9f4h89~YP|V;^7%++T9^u@Y$|Fm!^U?`cBaCD3%KTBcn^c+(}?i}0o!coS$d
zk^ekQ4sY5@q4DAmW<kC=c7K1x{L`WyTmBe_6UR8pG~_A&9quXuoBxxd#6~rc1bLm4
zv5Ubm1}Nh@J)DfsCvw47*+$`y4RvJ92~Kv9Lr6z<QYa5`WZLOj18L-PO2c;;anzI?
ze1$Q$Pv@mjo|Vg$6wQMV*+<bm)CPkZe@3BdO2dc90K7jIrl3#Z6g8#tI4#PM55qGJ
zlu27F8cOh>r8N*i*H*1t1rlQ8_;`W#6)ZX`N7hA6s3nWP@+WX+xOapn|8cQ_=L>sr
zT6A{r{~=@muJ4~~`HjzHeE4ct`+^6b?#lRjQof!WzMB?o0Dl7Zf2W*#w3ko2d%t_~
z27kF$0}G3uw>;f9PR<-jx_e7;ed75u{kNSS4dVO*G3*cD_i>(s+8KmDHr5>W3b1v#
zi`k)i?|=38*(;DhxAL#yd@PkVfWX?TlwELMMPn$kgI{CSkTAv}NNZP4eT~EOP+uF1
z)z`&JXkrh=tN;S8kW(zbk1Tlw4y+Ff0#TY$3$oA$lrI#mOor@lAvI^Ms!N{#k?tc0
z@;Rr35x_yLDh`m@+m!M)WxQKb-YpsL&Xjj&#(Om7J(~9R&m6l&czM2kp*LN&b*3-t
z@GSX)DMv6V99wvL@#Ny+8-vMB$I`;FBvi4Eb@S$wqiw;oa4zlGkrZ}l>eX&`oLv4D
zw5Ym<$07K!F9IrE;ZwufVG%O~D_Y6)BDB*agwmLpr%5_i_JO9ZSWIrBTG+=9x^gxg
zqzuiaXkYY`ZIn`SLp~>k7QRoYeI>A@p>S^VKG%wa>TG0^Z3$s7SBUhg>=TCaf29!Z
zI&1q?MBW%BR?XN6!<R>85{on?a|eZvle3+iW^$&<`RC-ck@GY;zedg?Ie$pbd*sl@
zl%{#UPN8p-L(&qXi84(M_Qu!fs#WW5JRExQsJt14@#B;QxXVVK=kawW-tm`Q`8!<m
zUvb;h-1fibobPbHA95Ss;hNszcE7_NfaL&h_`uHb2l#i5?!OYc-!(aBPs~-$oq9d;
zYUI^*OQztA;aywh<xi(=jWg!=1yhwF$$6LE4ZM5)xn&OCqWqnyZ%^Iap4xF}h2qQm
z_)gxFb(X(;<kFF4BZb#((EM$CnSa}4TQMPh`FY;Vw=EoB=HT6IV%`sMmItwAZv$Vq
zaEcnJTYQr0twX(sc_bQ^Ip$+Ik-vP>5a1i;9$V(%&2L*FZ@G^j;Q5Vn8<sip=e;Y;
zUw+=u#QW#G%N)FU!wPwK`*|O~E!os_mxI5&Whd{?R@TowHQ&8p`j+#WGugBqHejjB
zhgXcqTE4(<;r&=DPu=YPf$1-tf9gygIFZ`(RBHRl6%IMeXLzn|AD{I<0%Q6bj8x^a
kvz+f)s99{eVZ8Cw_n!Ukv(W6MwjE6ckKN^v!<N<m29wCxe*gdg

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/afmoe.cpython-312.pyc b/model_executor/models/__pycache__/afmoe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..02acf5ec684968244939b9725ec21dfab4798086
GIT binary patch
literal 27636
zcmcJ23v?XUdEV^%jm2|!0W5&U;<<Q|1o(c5B1rKG(-KL`YuQ@}vmh7T1)$l5B%%wO
za+C<P<p^xzLol%qp(Lk*Dz<`qk{IgAiPW?wk()Nf5VUtarV^%Ro8#uRU5QlXljb!2
z{yRG}3veJMC+-lu^WS^_`@VDU|GIbo)Z=k-c#`ICCSJM7aX%%G^4N;N1K!AS*Eybx
za=d{zCJj*o-ln86Wr~_o=BU{~;pU_zWsO=HY)KkYwy2H4#-u%JN4zy@PdTCv7G_I2
zQ?95h<&L_U-=6fO%A#cqb|k&2@@RRgB3hBEj8?KRXR<0)9j#8)L~ByMsE>uYlKxa6
z8ep(HS(~bh)-l+VtWO1_K?av48&ZwY##B?ZDHV!_SeQ52oC-(73@%T$q*|k`46aDF
zrP`zI46aOeq&lOWsYo=!{8h=WRClyH)f4Su{_13JsxR7?>W}s_e@${rYHM^GgMG<?
z)L?WlwLQ8$wIjMCwKKXiwJW+SwL7{ywI{kKwKuw#;rWyMQv0L(4V;mS2jU0bGRVCh
zJ!s^f;P}AH9A6uEj9*a(LwmnvDq<dDn03Ic{|wB>8D<ce4WEH|7_}+GXf@)$fp7Yb
z`Bq4&8Ox&?d4xYbkGG0djSjICElAO-pCaBL?|aKqY|W9&#z@=D!Q&HSaUni28t<K)
zNL~&d8aq9CB$S%u<H^wIWNK<8lXx~65517cTnrtXzHlKiapCC5C<5Y%3l}r#zMoNU
z!x5uoKRl95jsRD(AJ4=Ef+7aVnn))TqXd}_O<cyyI57ca$DvFnK9NaGPDmaVJbQVH
z5Np!YQ&W>dCYG5LMlZ&w5((sGl3a&JMlZ$>Pfm;_E=bPv$z-Ys`!B>ZvC(M(&B(-_
zM>rA@64JOSDn1pvAWTkA$-XJY*Gh4yMtV|+u?EMcMg%k>o{YUPDJ1z=Ix#~PawR4b
znOJi2!iBg1Z`o59M}#<kbUGd9(N_quJ$d@6;YlHd@~RI{CZ|&qXNnn}N=(E@1gYZl
zC(myTdUEoG^+CwUdusARB9lHNOpeCWs1|}MKR-Q!j+((ZOisw{MW~&sE=;1oj8d7J
z&FN$D5nl40pBx=|RtY?kdN$7U7&Tzl@bR&c>0~A*4<4E{!p8-vHZ^kj*?3Hdr$(k?
zm!6NMM@N$J*u+SRa(6!^k4E~`<dcUar{X(vhH7ytIg%PVed<iaE>#?w&P;wmo)o9#
ze9O+9Ih{zSQTC~k%P7ZFj6OXwH3e@~{KbqgGK!w1*jQqMkH0AS6X_TRC?%(31Cokk
zI!PU=kxTJdJT;ZM3{-@q;(THx6E6;6IyQ!^CWXtAiy^W+(~?_m+LRC<OT360R~;`&
zdX^1+dbIfYu$Q_73-G>zML5o3@#UgM2S@*S2XBm<c*6|vcvIZWo8y)->l`;`;4LqE
zqE_A-w~d#VW+=nFO+S3h%-df!M;&wAi-xH4DK6ra?1#oulW|O}Vafd*jeT)4OIEoR
zk}Ezz9~WkI^4Zbi$IMD`z@???!Jk_>?%RgzTt+S&?p1r1`xbDOrNY2v)RanCmWve^
zI*!X4#_eii6##}=@c@HuWQt#Y14GRh81D74<O2q3CqEgl0x5OS>pP^Nma!+xjaMqL
z_8za%U<FcgL~553wn^$*C0=`%r1mJGXirdqwKwutTLFxa7NbDGs8C_Uc&h?yZ{Bce
zC&vl3nGPk4HzF?`%-_VU`>sjZAii$MM3fZcT?(YVkw=f_Qy~3z@a9aPf-$~DfwcE6
z%Ui{<M|;#BD=B|a!&RV6zXFZ#P$2ECUyskIh4n3vM)W9sfZC{|lG!WAY4d#6lC_NQ
zQ$n@(_yG-8pjm6yjNC$sKWiO-T!FPWFv5xt^QlpRwKp(Y6dy2-DzNrO=#b`9pcw#2
ztByLbjwx~48=-ZYPl0C8D@fa>_<`k9VC{|26PizfX7I%#ZM)(J)+q(n-kYQa0@7;p
zmVBK`DvWSQfwebpyM)#YM-ls^7OFt{X{e5~w#>N_EWMd+Lu$4E6kOEM$eXh!d^`5<
z8gDt?Dy~1JHO+iM!R8wi9PdPH&nO|<`_~M-3ni%YZC#8TF;8nD3WPKs#OTx(F=dF+
z=>x=gc{AK{)I(>L<tr|sj|Dek-AXyydjhNh(pF}TaI5%gxHTvzs$nP)Vtj~sM)7NJ
z#Q0f{1-?tU)aus*F?ER1*(nfHkC<IrjtYdBAYvX<{Ms8a4T#bCGJehQs|Jjgx|&?(
zB2B}RIh{yO&jij*6zRn{9|8%Gc%D&8dqOkKeWA}0MN4R*L^`CQjZF%niOCoGj)J~1
zKbsgyOBOx@;`2>|unqMQXo;Ee_N5t}7mL3LY9*77SS8oR1kcAO7+ok;tfNARRFs^>
zcvM560hh`^Cr*zNX_W@ql@@wg;QD+e*Ti&6DMYelCP9M<w3rIp$-&0JNiI;fpf5*~
zREjN~xR9Dm@NyC5AVX#9HqL`$p1O2aD%UbB(!EZKkYQGb8GB!`RgybBIw^oei;YcB
zj7l{ilQYPONI(|Ih$_h+N64fQ2Ppy~8=X8k5u<(+Xv>gls61-v1W)8jG3PhA$QH?h
zP6zR3kAY?b4ILARHj-?aDY*|_tT>tAl$>%AtR7A|f*LK9Q4%*Fe;#~9u|0N`qBjd8
z6PF|#{0zXHpdNyk0AV*JEuR3T%vz<ixsocpVHAM1K184`3v9+nayouQ5YTX<4JE5g
z(z6kw(E^Ji*~UOgX9l)O<_n-mB?r;oGSzBf1S?23HizUsBZ5NmPARO0%&Gtd<Xn-|
zW8EqoCcG+Ceq+x{6%)jbBrrxwXG@h6v8juf)9b<lghoh@#MEpEiKR0mLPo0E7#yGA
z1^R}i8jz&x$!^xsMOyXL8G)!WR92hGF^oIrBgST;IPne=imf;X5eL5Ccydg#%I#;9
znaxdkPPt0hIN{4k$-V~35sQr`N7Ct7EKM|FsQ6s@n<x4+sj2>{#8fX@0_Ldq#p#{9
zcU{^U?@uP4?Vq}wxi~q|PkHvsoL>CJ_$U|_LH4HmM~LX|o4PE}c0E&}(BOT_#NC77
z^mfq4Kfl5~EaMzyS8bv_aK~PE*S~kozkkmBsykoboU88@>wD+SckF?DT_{)AE!K4-
z%Dc{UKhXM{Wx2qB7#KjDC-1MnK6`C8=Z}c~$eN$<-MV3I-MO}%V%tv2z9CP(17h0&
z=DX*r$hm@|E4XOA?P|YU8O&F9E$zs4?-RTCt#<7%aE1fh;8bjTU@}#e6*!Zp?4g^h
z@n1iF?Ref@nR7Ra?nVu$@ZGKSU+=xv`_N&jaiT&FU<Vs-?z^$?uDjy3lUGkJSaX3c
zG0^q9ZQt+xUhf_EV-HNmATZJJhfdDlx901gbLD-_Ip0>%w>9V6FZ%W)puU}<+-vE}
zwG4?ZL*xtPo7-~DJH+N4<ZH}_+jHSvVtCieU~cbIBL2cpQAAU|vnSViQ0zST-r%3?
z`?veV&d*VB+r75P8_&G{%<@of@be=6+CERg;d}1#oV#6gw=Y%aB1c91xsMi1oWp|x
z3wExlg|O;bzqN|4*2U*;yE^ls_FQP67}~e;eD2`WBK|^8ueuxVhP(2?a4y&<2K(~i
z0XED%Vtr4(A(C%u#n3JU7MoW6TOWFCEoE~<cic@6tGPh?M_gsVnXhlk)%V@5?<<(#
zyBBCgx7`kO6)f--tXx%XuCnKLWlzCIemhs&RE&3!-^n$#<r??gZroFF!T%w~pt<0o
zm@=+s%i9OvJh+m$-TlOZ`KI?byzig;dBICq<y>8Rp@N`Ft}$GwBK&HuvGwLxe&Z{J
z8uIx#)WhF-+uvF6lRv=u8|I&0cv`G#FVs>%9aq<Qv*|aQ3iad*axERX@V49GZG{H%
zH*#%}T<hTN*1<v(`9oZ7LoU#HJJ4BZCV!aW@3|e`Q)q#I&ipO+1AIN4<WaWI3|7gs
zWEJ9>X<=fNc3b5k=8>4t2LhyX*NF{PVoKi6AjPb4)`VEX-SF^+tVv-KW<fTLQ=S_h
zq@=}s!;?`789k!wmQi6jl=m#yg>jWV)H2H&vgTV_9W212J#54Ck}GRrEwRqpvbL<1
z$p2Z}gfVM@pVMQ6c{3xNiLlZk`^Kv_6aa75rq&f@==E0CsPz`a50>Gd{T&`*0Er_;
zVG=LN!*)-BZ8@3r&q!<vF@*)Y<y2fUKc9%dAQ0Uv8L^z62OtnFEnFmr_733*I8wVT
zh=FvC?Pu7@bp>w`yO5wXtY9Z?C)h$Drcp^NK9LgAl%Z#g<ZqDM#bemqB~Nkl20R6C
z)mUNz8{fJKm!{!Wb_^j!nb<%HzAz&2Gv(@nUkrH-(dl>LT;cM~eYxgA5r6i^Ip_R|
ze4tHU{Fb&Y&8!9X%z5qwf;SyE9E-j9OvLcEKd5=P;hl!n@V2$^6KjEEa=iP7J73qa
zJc~uBw(S9DtaZ+L@Wo@9ay5#s##L8We(M3z-8Xl7wI0jN_7#s9J|eoC?uGkT-A#Fy
z_qBaj_boKvcGY8re52>}o?Q5x7(SOTZ^6>rQU)C4R^F2Hc8K1NCFk;qHSfVy`$1s>
zZHSnLCGKd%MRXX6^<pu}86%PBG{i_T$sLP9(3F&8gaCDnDV-5O8c$9p*@no*RkF$g
zGvTX*;VJIKqj3yr43u*cp=p{NkFmZLx&bnWh_Lh*;r#q%4s{&ZnfC?q!R8NLPZ=z<
z2>K&SgQBm$U}JteS5aMXFwn{Q>OPjS#*NjM#|(?-XsIu71TV+GpZs3(69%(Jva&`|
zjQTVbp$8uUD3#?w&~D^S_;1F4BX5bD^mv#t2c&rxNbW4W9seEp?~Ge{SKJo2#~ouv
z5`yqXCJA&S&V&E5uMAk;xU=XhkGqOcMcmF;;(rxy91Aj;VKroiZoVe&(c>w3-zMQz
z`r%_%-Va%#m&p>#@i7OaGB&MM0sGI&!Ke@ajDrT`!iN`sI`?}&zkfjZ8k!+FiZWRK
zMVYX5(5H71(qxEG34~Nw_JJ^;!nb=do*9wc3@)+?l0P-_Vr*(MonYKSToF5`B|D{z
z;lo9OR60g9J!F^2c$CEX3du|SlFT1DMlzX+81ZAm6aq)RaFoXdfb9?e9;^BW5hs}C
z^&(EJZCp&<U9u+l)cqnu<Rg3DD!ymEO#Gwn7FcC<SnsTN2I2z<>^d>2jVHLT(+;DL
zhmuiZQP=<&`#?<Hb&yJDPsn;Nff*O7H;XMP+sDfG>SLDRu{vf{0VD*Ao0Lo<BxT=3
zP1XL%I$kuSy#|i@Pp_p#(UaN-z|z^B5L#XA=#p1a^hBe|9$*n8vEljDv}#%USiETl
z%Rbtp?$cQ-d}`lkAsGKm0j~V1n`z8}t@b5K3~#6^yb#Oi3ZWpDq10;oG+{6DQD=#k
zpMHA~s`m6cT(w17C~wKSvmS`OtPp$I-YU*L)IlAI3@y^^*)(4jSHT2(gl|N@&T5Gy
zXtODrMwF-uBQ=rmX7fqE-BhNUyJJJ{v}Lg;Lv#y!^mD<;kYr`UbIVyW@9UMwUqD`}
zpb)jun<?Fzz<QJV>V7qtv(~JQcinQAh%!|{^n{JgGu59VzMDNLL;YHmFgB7pV+>p!
zF*8Ed`CF2M3-gTA6}-~y^L*EsExT3rR&hnaYzQf7A;|L%GjW@cLD&U3{NB4#1+>Pb
zw2WadkoCkzXB>UcVH=tfCdVTtVJlEInZb;$Z<58#IQvKh!{9febH+Y%He!*mYe6h<
zS>A+7_bJdgBk8y>kK7~=RF4z!$rm9Extxs8So&xmidcnTrJ{aaDNhQJU_;(6l}f$<
z-R0y9vh?EHK#VjCM+l!}3Bs%7(5#bXU)~I=l8mYQtMDyENtIfty49LcQMvGcMkv<j
zWSN<bG_<lDP!`e&M5_wd2*)MYi}ud6REhS;@*lMmrLqlGCdHX#SNc_;&s4I?T`AD4
zkQ{1v3dCOszs4}0W4pLyy~N%EQ9^1TW9Ju$(w5Au|0-mHew-3(T|teO+r}zS{m)t;
zP*YhUT90e}%2)}R(4<9Jq2-nL6`Am)UZ3%=r+id7&KrnKFJr4CIZn7lj+3tqL(oyC
zh$!w>?pUkbHD}8=b&{kYnD<uYye*=)W$}XO?Om?8?cKI&-?r-AmIw1&+bh=gF8jsW
zT`Y@mA0;80J?9FGuJGc8+pb;^y48VPRhL-Rwe$tCYH-DHyK48Ud-rP9ZV<)Q^$TZn
z4TB>7)<xY7HZ2+!2XifZ#FjlP7sQq$Yr&(Gdu=`tx*a&a_$3m2924=^b_|7k^1iz3
z6W1mdGjGhkJ}deL5$1w43GBY;?_3&ud;gpJML$(jkufduqQ8sz>ss;h<~x{3sTK8Y
ziR8kAVt8=*i(>fT>f!TZ_`KY(oqKaThi~s3UKq<Y4%}`WSUvkRMbzI9MDiqe35xC@
zfY(l6J<a?f(H&wyi|B62SNQU^ZFyf1B8M-oR&_k|+QAE<>X4fFJ5~I}!8i85zF%~2
zVIeHXl7wGat!jJdvid2Z>tQ8V*Ozzub<&n3iLO?4B1s)3DMJ!};{ty(btARx%WWMJ
zw+`L$9ihzb`Wke@(I3RCg>SpUcN^RD<<-|c*E|sK+}wX-f4*TbU(-bLpvEwyKuwSW
zed}|DN|G`Sz52QP)eWfGYr|KE=_U8cYp1TBVl$^ptnH%iz#pV4ZM(#_U2@l)Tdiuz
z`<fnBIY|QdEeGRqB!@y^rx}Yps?xKV*0jGf+W0P}H)JQ=c+tWM;p&rBr5H^1U}7?i
z(p-v|8}KZ^GwDiFHltl=3E1$UMmnJvU`_$q3hGSHGpNffBqFn*%f?l@P>v%PN?DbX
z(?TKh(Wh#4<tU0hmm(X{%Ms=1>~u;BsERo~qXWoTHmjXV0co{H9;6Q0@cg}MXZzIJ
zk^D%diL~s6Fv4|q^_P4ISLq%NA95_v8A^RrSrs>~FxDC>#sxAgyMjCG$T~7jO7wV0
zfwXtlqVy$G?K)6{7A;nRvJM4{mF~nWBqJHqupj^h_B<xAm61we2|nRpz=2q5Dw)U#
zzeNGRP0m{sYJ&of#8qswmG_uwio8V*+u#2=LI0ARe?<<HW9=j8O*j#kyotR{0h4ef
z6Shpr5R(O8hUX;1CCTu-<f0vq#8D)IvdZr?O=4w-!du>>NQ5%u+ptF!MNhEM<kB#U
zgy;z(;7Z^1hHDKAvuhQ-SFLlVxzFbj(s!+Iv0<&U|Eg`yJU5cBthpY!7FjrZ^Gi3r
zwAA``&zn6f=6BuixL1Qm-rqJKS*sidqG4|9+z3`Nk1W79Fo{)ok$+?2^@(Nv`>F4x
z)&fIo?jt$(Y0-W9{gMBC;RhGi+~?;Ev}%#aUrmu~-zm25T&X50*IM9-HTSWc`;6#5
zlXrVwd*bR7kVko(a|YC1Sun91eeLzHt#&+~ukv3%c<tcg?xm6CinXeNt3z{#=AOHU
zJu7i7fsJnK;>en>bIyfo`oq6-<c-s>pI&ZVYuzdOc0zkl9k_n-+Q~)NT6ND=$DDQE
zkoVTid1MJ!g>VI3D!fF_*U2GjQ?d;mIsCbyBTq^uC~GAPQ`1RiJ^}sgFA);4T>=dd
zlX?k^USmW5%M?a~B>W0FufQplZC#~6a%kERbIfF0<y=EJ-?uH_(VK5-$v3v-yZiIo
zc968IwmnzdC)W0T*fc83ysG^L8w2f}ueRV|pp!$Wi-B&=Usv!ju#BszD|i`L&iU&X
z1{O^VyJ&+Kecgo$7GBAP+X__-tmdkG3+8KGg&OAdasFVz&p-(I!;3?rud`6g{B^3_
zt)BUVBzJ3IU?WvTu4#yKmVMmJLQj|i7T>+9!1aCC_7yCEF-U=i>)C7Bf{lE3&gp$E
zcs2Nm13p<IM?Ex(|LQ|sP0xcL!6}u<$<}qSuXAs(uahn9U}Xm>9jxnk!<dsv&TNpJ
z*&vs*>n((k)#-;jHwl+ZvBo!v*H0x&0LSdS3sN^1le)RFIC)?SNy@~b_$Z8Mg;QkQ
zIJ}XX?L+%z=@v~v<)Picg#Qoz814q?7FNg&(k;WdSxKn9!Ce)1QjW_IMZlgc*%lks
z)!Di(#>8`K473C<1=q!zwOGLm{#j=S2QO--wQ^lL3vX3(wP%!p=dxyHMMq85wrhrf
z*mE}HQuSJE(Az;#OP#%2-k}gje9eXjp}q}4@RDvMYX%2vgS^51R&i%Xy;UxHle!x8
zc3G0_A#Isb4$=k{SbGZrZQn#+$mK)ck+ncdQS1TaqS6f$J2EXwYP3SXk6INB?G4;^
z&8I+GdAD38(i^oj&D?L(vUK_pa*E=dM9qogWX~@kFSV>+Kwkb|V7*k@3-S%mu*{!-
z1NqBxh7jy+U`7uiK&d1Grp-k|?X=7Ze-jBH&LATRl7dV`Ji<SgiJmd{rIJ$-vz$>6
z)u@*oT8$!>5~HIX6spB9P<(BPOoPN3k_~1SsF)!95n<CDlNo$k^<`5K#LB{(qVj;*
zhg^zZjy+FCHFBWF@k<W1t+ELdOs!zs#6%itm~}(bCtE)AOw}Wq&=w(1#cn5u)tO`z
zk~c8{0!&Uw+6IVhCes;BlvEN^fgEDUrzEJ7A+HOII7@^WzfOf|eZyAr4ML10P|{8~
zD&1Eqny7nZdr+klokaTm36T?!PL!8QC)U}P+^q>NoL_uqdHY(;?m6dOaI()Yeswvs
z=HEBx&b$1pu9jOiSaYma?^rQEG#MjgT2SH7mG2bGcS8T@sa>tzE4ueR1dHFb)V{jy
z<ooB>!e>|QO%Lr{UGLKQwOW!Jl-;lG$XC@CB?|dK5K4YA&<XZ5=i4Isw&Y>0P&**j
z4&?pK#J{%g&DYdlk6nwgh#s-Fr^whcR-duo^<^^q4I6=A=;nbN2bRv~dWS^()iYa=
z0F#;2L&<s9-<0<^5KGPME2`(emJfEo93?=!^)XoB1VSZ78J)TC9x=RUooR-W4m>|4
zdi5AOG}N*9e6C}+*s+^TJf0K}K6$5!S(gOwcJ{0GFN;TWAURuivaTb+MjLu699i<^
zB74Qi-uHaDLubW9XYVwhqsYd)h-%Mu?GwB9z1N<5{G9msxjQ5&`Juf@CWAD#!45to
z!9&+NTDnjZ%(i`;vm(abbfr2=<_(|0z|R^dYBs~sl=_Tul5?XnHays3jJFKR@;pn*
zAqd(xKAJFqVW?z<hF5AvP*S2p!%(0Nd8vef5>MN%LL#6vY{6qjP*p}8F%r~{gjDuF
zAc645<oqc)|B;*@kn^A5V2Mi*tR@it4Bj+#G<}jKJXr0cA7haXOVGDSj3wAGH|MTi
zh34JgI(IA|4CR7b#Nd|YhPB|qtEca^cjemmi0yk;_P^h`*8UVkTyv)vc9Bg$*^M%Y
zaG>@tSh(7b2b`&>^e20n?P6g2GO=7R1Hg9(3mY<e%DZb9c9BBgDcYOnJo7IiuD0Q(
z{e~U<UZ8)@!#=})G0?y4SqmJ1X@NJmaB<b!zG`om86orVFjMIs#eQ)GwJ%|bsIO&4
z=a&e2nVh5KoF|7^9vC!EPbK4@!uh;MsN{4|_q+i>*6R0cDY80H?0XJczF<Jb6^6sc
z{C1V$a4^4<7!DT$-B9!w<WyzEaClkh<HlM`hstmOMwSZ0K|VVNW~Ap@&tkP$*;a5+
zkP|$}-1KYNtJ#HfH=nuj%&IpcI=Vh_Ax{1jsphimz$`iBZ6d*^**uY|*BSK6<|%1t
z1!yx#%iD7rB8PJRGAtz$qcPYSl0qRpiagcFU4$OIjQ%O*aEJi^4i0hR^pH7j9y1ru
z43$MeD95dO%3xR?=!O^14B6Rvq?%1r!&X5zS6AG@JBn5d`WSNTCZ)$&?3k1Hylja&
z`7&5Hcu|r{@~Az*@#P5D5jUY-4scBs;F`(+d*kJC^hn%Ay+WD<`afpmD-mD8SH&w?
zylzcp4vg7h*y2@jmKwcNjg-}lAFIL2;gg)~8$V4)8ri1-V--gBTtYz%8pT+#hsab~
z-PmgUBlx~;c*XRJ`4!76)^(?;AYl9ZFk^aZ-EWvdI_oe|-ym}~q8T<k->@QFnN=lm
zdSm+y%T<`9#njxdnsphW66HQH^w=RTrq(2*62@;8OV=A~p*y1r5cNw%s1Cc6HG;h|
zfW1<gQ`Fz9G;_k6X;xsR^wM~Z^+E2f3a0jkxXe6fnX_U}m|nKCvdpDrk+2#05z)vV
zz-n&*)>xHC`=CcjqrHU=O}VY#T7+)V@D&Irt2FkACNq0BX}cPqA)=Q(kc!wY81+jm
z$ypsAFeUck8BZT$IEwalLJnD}p8;h{p8<8u1M1grn=$>BkA%BwylS9{cGU#Zp-3*s
zTeL;yEObcZh=J`I;4;{!$1ui`vux^4y_u$*LRavx?OC$#!{O3r`H=%NZQA#%Qp$b%
zm})b90Dz44+o)ffmK)H{cVL|>Q;#4Z0R%ffc3FdEY!860SY{~%Vr!T<mr)0ipvK_f
z+$gOU%E?Q|#WBT9No(3Ol$ufh)DFq{Je|5N9&1QVPpP~L&1R-s9!m(|Lg<)+Kw}{r
zTDjMaLYTrkC_x2N5X;9+6b^_P>C2po<bY{@5wsTL-K6gwQHr3kleM*Gc8Y?yeW~d)
z4$&&+m+HzW%dOTAl&pZIMFynQV|YrLn<|~L`c)bkq8I-53U}A;Q7q^0RRnVt5wRkY
zs~8X~2Ij1Je>msw7ybR<VoJbAtjK*qQq<jBXJEgMKf3SofAc`j)p6U^aW}LhU+&A5
zH;d)Xi#u{H+r^gc@A=-dzwcQ+a2^DHGgyNkx*NdwH21HCwvhRD!~I={886T(x?BIZ
z(dsFKy*0CtW?IK8=WY;Z+lllKEVO>7Z>jZG_rn0^4p5QpWPTrLTD0au+r-ee6>DzS
zNpaW7JAqSRTaMokw66s^!HXQf-+w;u2`-GUx+7$#zhCU$52|kqG<`p`_sFD*NCP+p
zXPtpG?M!TUqR(<uC7(f|pr7L2Gz{b0y9ewyjWSV88K-H*DH6hxSDu3^IW!}4sBFV5
zt`ch8@6%Y)+=5*!sl-E~H?&y0=Ivg!ce8pA%S88Wpa^Sl)}2tcB7oKYcacr$lA^5c
z<HeN_c<Lh@%9>w-AZ*q$QLzbsqP7?3J#`h5LXgbw^!8o7Js0P@F};~$%ECh(IZ+0l
zOg8p|)hI2&D96N`7-Y?Ol&YeHG6mM&2vr4W>q2#el#0l7i2E|ujai!!CfwkGELl~U
z%D5}bto79jbIFpd_FuJDf&!(>v^|`1;?3VtIjpBhO|0%IN($_XRAO-~iY3~!7A*3X
z;R`a>y@T4)iJ3KtP<a{k2(;n}e?iV)lk?}~uq9-WAX?^y`{eu=a(+tAe<deE&VPdw
zacC2D!)(&Zkt}T46Mhc~)|~|^<?bp=R-+<Y_YO_qzd|B*jz|7#X`#q_gR5Q~0qMQw
zxfg29g$BhC3?J4)2j_`DE3eLZn{IoX5Wigg{rd0K=e8abw;p@HMcjH?3=PkF?)mGl
z9=li7v062->K=fb2ZPuo1`o}h&ilKUPKf@UbI0!2)GrL(JbB|J9ZK0PMs}|ZzI))E
z13#)cF?Zz0?cGbqmuKI*xYqtT#zNlM1yPOfqye&r^58eWn)7zu_IBN^YR`xJSDqHj
zk7B*3#!((4mM1$&Q+D6jz4+zjV{7&MaWDz2<8#y^dysvUlJnV-4DQlkhvK%O@sd?O
zPq$7EK}$OOI*C~>{W>!g${u|IGv*L|*&80cuWgKR^dK9GIsX648QfOMEQiV%@&jtQ
zP$1`jzyU47rW|p<k_D#)C)3(ARU`=ii?G#n8zcxcjb^$^=GbR!uRo!=M|1<`9!9n0
zeslX9^{>~%c4V=dfL!w~v3b{O_3rm--hUpOQ@9dn4Plxwo8mN7e(11y${v^;<<0`<
za5&k3uOsEuRhNn`9ap{8R<@1Dh?;@C;n5rATV_Qq!Bz)Z3-5qA91bMHR8O*j6k;}e
zW~plQ(o`m<8kDi42*p4ZUk<Ebn8lPVh#lp`pwOBr)ye%VpQ)sSlrSsD-6c~n7?ekF
zH?Y9vkqn5bZRIsVs-#;}ibpYv_%jV9!}n-3opwnR#VU_jW6rxv^zO=sy6La61JanA
zt{bjgfFv@IPSOxqibEjTidW>U+rOR2i+y8T;9iHtBX9UE!>mywuF>=A*9P3;qpa`B
zzCLSu^!^TJ%41VfXm2Gg_AJ8?H*fgz(=fBa+D>LRStE8DbQ3eXvCleYomofL`n(~H
zlM#4xg5lM2-ozm62wBtf287hYIL4vnuRus?SN04T$XNBvcX(C(CusQ{D%n9{Sfk{D
zl7^v>va(&)m38Uut+Q_IknXGtyQEWDQw*Geo48|!x$vwfYeD;_(blqT*)y2Yv(!ef
z(n^%z<*mT_?DmwG)DZ^_O6s@;bu5?bsF~U8@!c79Z{}?opVDix3`4(lN+~6+EYCW#
zs58`&#T9q9B3qF*yqeCI&*CbuiKoq6)`NCE{LKEx2(j@r&Kq8JWmFn~Le+ACbA{sT
zOIlw#LKGL##z>O^WL>-?6I9x$jEvR}r34%+FpsN-LJB_U534fM4Vba7ehIBIV|{TB
zM=UV@T>>K6!_vAU{60Kt*d;ma`=w#B&9Jb-!f*u?*#{Sw7PeY3`(xx_z_%`Z3@m1g
zJX57=qcoG^88`Go%F+2gm<ZD$_@ih0aPgC!4xsU|1P|6sUYG#l{68IWjHRbX=|U&T
zv+m-hNV)KbC=SXloXO&~yN=R0eihFM|A*pWxipo;eOr<p3}2dV;S$=YiWXE>vck|8
zYo25t1=}akvLOp~$v#W?cjV9zNTv~<hmjPmhQi-cfDfGH=q05{b?uZ~#kG_SWF!x}
z9jaKZv{X}U)%xXDGE?1ET)BCYlOf4VxvSV@!V`>CYYU5&TTl+3wU}`+txZ|TO@!;B
zWNdAZ^SJmx?#4820^mJ2JhIrpP1P=5aFs5a0n40BX~Y9$p0;8Uyuy8Cw1u6k_C_)Z
ztzQ_-)o&5&x2)A~Tk{Rfx$cJBe!C4)ccKV)ilLorq1~(YhWjmDIGHy$G~fG^?I*?Z
zt@F->lS_en)lIO<sqS9gdi4EPaqDotIta$GrUe$Z)m_Wxm6PI@ClCfok&I>*PcGL%
zVK;BS2b-w<*Y+>^?^H#W_?2$4?+CE&!c2H@x%y7k4oVVef$2^lGH=O;+H#=*F*Gpm
z`Ehx}LYyeRJLUU-TwYV?=XRVj6t;1#k=63hPnrhjpU59RAyz*&e`3+K^u-lBSn8!#
z(ccHdVGxX+J*(BNc(-)WS;D1%x^e=C73WXh_xAxFy5m0tw0pshC6^c+oIe8gxUKt*
zldqq=8wf2{{SLoaD+aok&gFU^6MO0Ccbjki^oLfisV5(3!12g@pe5fN$%ni19o=LP
z>zjY#qjE0LlyB-<F#kBvP&jPhLfbz)YT$5Y7^j|_NwOcLQ}Bylxa03#Ze6(~Zae<t
zKnUbdaQpJvmAz~APs|U&j(I+dP^x5R`RpD49(bsdW--`1f8=g!H;P~Q+MO*&v?|qv
z7u%K^?o{uDW+mrt5Z$ou{gJz+aLLHEb{8g$TzP{+B)@4K9*+2gEA*MXM9$aAA<?UB
zEOwM2A{LpdMCNTG<YjhZe?X8*C<;UxO6Ft&-{mUB(8nwgNhR1Y^#t6UxQS`mj|hjH
zU#2Nq0f!VUmE7ZoA;U*pyT!RUQ=r$%z{m6|oG}<IJxeuj2j2|hgukU{rS09GcX}QW
zh}pOAF+;w0>xZt8r9suC07idT*D^yc8~Jb^e%tbp*to0UAg{BiW?`n`1xgDAm~7m&
z8t4`s-48qzHe_&HocX$jf{EVk-EUla{gMpteeB(R@9bmnJxB0?1@VQT9aSG%s#!`e
zA6}_i8C~r^Bt{+=TMs|r5L2j*8!Qcr$Cl1553E?2?cxCR!bil`qXmwl-XC~B{exYf
zFql!etdB;~PwJxx$sZW;U6-m}WFm`>d|tqj&+izcCfvDb=An2=7;s7nT}%%YF?L+w
z=HQ)B)8LRN?~dDxY8ubWWl;xI9Zo$fAv)@*8(zLicm-bx^+y$y6mGtHGaUVJ2(oLC
z&cjqcO`E3n>8IxXxM{MIseS^RV92o*`mymcN(<FbEmS{VzD^&D-z2qMGFniN7L@bB
zcm-5DcKtj`6gw4A?AVDqLCOYF>>&RdmeL;g(Fjo-i#PI(i1#zaPXNS1NRm%=ADt8q
zk4&dWlBZ5%m;b*&7ygbMkcqO<Fx&LO9uir>sDPQOKKaZ$+xh$CooU8h>VqP%lI(aO
zKgXe=7qG*R;fBGZOuxj0>B1$-jaUbj7sIsFv`fQS3^thf{UfwW>@o!6-#0vDwhv7P
z$z0gOj=0h?#GVqW&QM~4XXI6j0L?HTxv2SPNC3zlg}2btA_<)(awn6X)(A%mbo7Jl
z@`NG}gi=+B8Z;s*rKpr!8n5Y!kZ(Y#q4rijbflrvL+k;!r6Zfu(<LDlksa*0uwH9q
z8t+tMv^VO|rTG+S2K*m#@+p2`kqTkM0}QqPtSpr}hcuGpn0j?4;o61=yibbwyv$A|
zB5TbwDzHL>gIlOxhp}rTM)9Dtb$pK!qrJg<41m|zr-djGt10b>8=mol8v@|f&td$r
zM=_OAG;ps@f-A6Gp&Q6_v~k7DGF+L%N*=s=<N$}ZEiYZb&45Enoc2cFw<tbf98+NJ
z4Gbc|*#nGI3aq_>(V_T&aYli)H!z5FU=J|PDzNqjMz`Vv#?uO{y@5f?3wthe(CS%-
zB@5GAVJ%Zv9|-@ccjP<GI)^85!7nW7=#F0|KMjpd;@YlIVnV+1x2PKHi}Y#AFySYZ
z{w_HzCnm~eWC~4tp_!IZCh}!cT>7Ae56GbjDcNutFP;Av!W2Y$RH>Zqu7X7cxHtKh
zTbWoYTgL~ag}<Z(e?ke$NEb%tf3l)WxIlqSK~_w{F89S9AtgBX3CEeh<+I>*aJjMY
z9s-2-$@u|AS?La1+-`M|Jnko_am8+`c+FRgf|#k|hD)}De?l?URGSSKWu=7?imIb1
z{VTVG&l3W>cx?S;WWrO35S}FGE9B60eN+v{`kZ>7t`Zwb!A6HVMEIYSA_=GTZj(}V
zoNV4yvID9L)G6#n=|98R{d}ELF8^stIa%?R53(bXwRdskEzol7)Qayt|60#+$SZwx
zw$2Hny+j#SA9+;&b_%#bGUPi2#v<6YR^JVs*r~gr{$*=!%OP>gp|#NCq+e^mEl#hU
zxOyVz-XXeoKpaljH}!ycZEB|IdV+96(hjk4$BHkv`;3Uc#xpD`-`w#=<LiwCH{RQ_
z4fXQEkP(MSYHF`XuSIh;?RRS0=Z@U<)-JUDPU9W#mV9~Oeib;XJ8e7eRP9`K?_90g
znfF5MA6oN<aG2v};znZLMd$v!*Sxv%cCoyDar%wRuV2n}>=HY6{jhv@!OQtNK&iW7
zfZ0fAHg||EJ60-gx9quF*|^$te68}ts{6z}mv7Y-&Ub9fbqt9eL!@wQ&36vuI**E-
zN6FWg@7ta0ds6Isl6>9y_N}@0$Hn%?$=9;M7a7b&j){?Dq{D14csO^9EbcEaei)49
zr5k!AzcQCWuc(t3thQ96M3A5X*T+H8jgNsT9*5Uy2SEDClFNSspj3*C^_M7{4Ue);
zV-LcVX7Wa8@PMmQA6f#v%b2j{IW!CfQuci%cgT+{dU8h4Ik0TZl7T|8JnR=o%(P0v
zlF%%9)TIIvn-_&Gw1#aZ2Up5tAtm+tG~^W!6$zxc7I0%d6jX55$&h8jFpX2y?2>WZ
z--pE}6NhzT0u|nnt85%iUu>F0ce3z8wnW^CjAxqI!d&{PuFv%*eXz6*Kosrfn!9k&
ztN+dZABFbdu<hLO`DuJBId>D}67s!gi_^J|gJQ?QwT?q~+>hto6*)IMh6|x}^VWRl
z!F>DPf`jukf6Q4tWgptO=DjjoMcUzY5^ECz=>G#E3z)_k?~RY1%sQ)TWuM}NpCJXd
zCAL}oHDKYt!ztB5Gk$tT-knN2VS{e^ZR!QuMwtHjwVA6kIoSAlBTJDr@8GI^P;SKA
zRKjg?HdjFt-L<&_ohA>?suU*=CN7kpaw80^5y}`-cj@UU9~om363hf18RIee0;+#a
z&1wY-j7`hP;?sG<nRnOBUtSIGSn)ud!7N9iGg74$OcT0pps22Fpbh}ov}L*<D~780
z36sgK(o&<)Len0<+&}_WHl-(#wPcky@H7>MX)Md#%IKbc+_G7`CQN5KuSfVpYB32a
zF_0BCxr%nNq8;Z1v#)2Dzr0p)7}g-_;XWp`)Nd;7o9oviWo4j-=+8?1HAu692J475
z0zX|ql1SY6ZxWhO3KQ8#6|e-t3d%00RHIqX{4H>(XXr-#bv?rp7S&9p6T4I#`A5_l
zL``8Yt_Uv<u2poh4#;`KqBp#_b9pc~a9kWXzUmFHc~7j`Pq1mOGL}e)E1im?zXQNO
z<TF*4RBhDRN6G|Ne}lYA6lhF}HPiCQBz{zH_Q%wq8l*1yOnXFc&ziSy)!rw6r1dnf
zYK1Gn(&TNDZ%P(TgOJ7TWU6dhXd$$NNFvpb(JgY%0*!_O8byAZU0_Qcy1BTH*4T|Q
zyL}W!pN%Y|(<F2FF%wSs1BzhX@GAtp0*Cd*WAdWiNI2wtiP}o{6+%$=k=b11gtW{P
zz}H)_z~K8skF(LbYOeb*z}2?jb2l#@D9}}z4^8G;1lIt!rE}HXbnnpNkGNjTaRZ6>
z=uPrHdKbQ8D6^E^t82R1bEBtV0Su}q-0?>6^<cq9K06m`yP3U_EjY*r3+S>3E`mY^
z%XUpJxLuPAZZDAwI!ok&fJ@|p<SUU2l6Qk#kb*YK1t~0GwD^{eynX7;Q?O33_*Txn
z`^-DfygwxFKZ9%U=%A?4a?-GgsE?v#Q6J%+G!*OxOTVtz@DoTl`{jv5gAh3?*<vw%
zaujzAJK>kSqm%e04|Y{?x^Lv!QCU4ggAK!PZ0i}^ZI_mfQD{4s1-nG!NM-bO)8#Mn
z*(G+FiF};6p2g5QmPoQ&ru%pt@&uJIDWnB(_Mpy-81(BS^1)&^W$vN4au&yvNI3B<
z-ABxBHkMf@V(5#BvAE)QMuZ9q+0K$Mo(^gf`Nmp>MN{uTRPL!(17sz6>!+k;j1)5q
zBuS3c{AsA{7fje?Famwh@*OeVpO#`Hd&juGj!#L!e&(Y16DRC|g7j(m7w__6gaO?V
zBws%>@G1GrrkSL6Vn6PprDV)%J#|5^UUIqP<u$!11&mE+5|}qZ>IvGtq_#~Hru*1|
z0{kvXJS~vaMIiB&6#A3|_yL{Nh!7&&_-EnD6=^2iFga|2Y$b@K6GA&V9puoyB6(P;
z>G*Tg^iw~w;mZ|@pv@ffO|qV53obia$Bwqk95dtd*-|$|c}<W5nG!Ay+9$8j2ZSg-
zH~h)x;0q>$!2nf|;i%!KoaZmNz7M$I2b}MxocjZ=`meZw54in*!5tI1W1kq!2IGeu
zoR6KHq4fjq%m>`A^?}C>A8<!M;2!(LXfhZ-u``D=oJ8oMPmB%(ac~}x^Kmt2==)1Y
z_59Ooj>aq2ht_d};W5LU@Y?08mmlI76+924rmq?dzWFDwfAQKEA94ggeBAscgP~)=
zNLL{|<Ou#SYvhdndo{j%jXxj4v9`Jo9TuPUp~+@6J}f_JGBnIrUa!4Y`+y_(K?Q;f
dEcoFw)}+DEKQCOreC_gL*HZFhj{K~{{vYgTs1^VK

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/aimv2.cpython-312.pyc b/model_executor/models/__pycache__/aimv2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dca680eee025dedb52f80a7eecbb7ffae76aaa25
GIT binary patch
literal 12433
zcmc&)TW}lKdEQ;@f*`OY0TKYO5+RY42wfnFR46*O94oq6H^#OsC1GqM5Oyhn!i7G&
zq(lacm5$SZW4j{9$&i}FBRcKWWR<Dehc-%I?7q3v7a~*&WJjJ+$L@otGaV$N$7x>L
z|37;H2(QHUB|S4Z`1hRuTz1cYzW;L0ztq*a8AwU~jYMCFVLrhJGYJOq@YgKE%rg=r
zu}LPy4zn!MT#_5+=)WVy5A(FlkrYzSVJD^eWKGI7?4q=gtWCLx-IR7FJt=Wmq;yTP
zE>%BVPia@OA>|$RrhLP`RO4_XEvrp7rToKwO1qPRRB$**X-~2_)iT_|G8}V~k;K;-
zsZQoc`^<@#|L-_-dbo{p)&pn5CY<e*(+ixwO*lI!XCrVnZNj;Qa{7TYunFf@${7UC
z=1n*|DQ63Cw#wY7tNhL;_1Nzbn&iT5pCN0Q)m*1knZzz7<so=zJU5<H6VJ*q>4>Vz
zX*H2aLuvPAS&hP@k|EJlMv{}!u^5RZlR#X{kfan<5>qnpIi<uzLPE-YK9L+hl9r%5
zc&d5f-1(slNrfF++c}wBmZhVa<ajFmoYBkKL|Tp!&G-D7i`7LhWUg&2g6<lhACJM*
zreZj~qnY$b;xd#5BzYtTvyWbr6PK^3(PSnj$pk7qM^2ra=+pV)=J&yWr}6Mm0^&y?
z<T5kNN(=}#D?21k<|T(Lj5u@52rKcgi^EPykZVT0MyrZH$!T9c!b>%;^TV|{<~lp<
zKF@?*T0Nc2`D=-jXD^&MF{C-;bpD$7D!x<Hcyf*rc_eW?&Q}bAi;M#Oumssp*m*{^
zDrai4%v-Qw?-(U4lVwLM+ZyH5Jd~SnZM9~YX#vV@glO8SdQ7&gkmWD45<3OsWSv<q
z>-Z_az&qS89Cr+;$TCr@Z?(Z{$3sh#p9g-Sg5MfbZ8G`IcYxj~IAQrD6Lt=L#sT$5
zAu<v_&<}#dUrNLj(g<Y)+fMON(YGvU?nHWQT%{7Jc{1aw`9PYH)#49(G(j03lZobv
zMic3T8jWhcL>jh2N|q8aRW^FKl8_`htv|TN6*)?Wt%bfc9%n-E18EKzo75oXjK$UH
zNE%j}SLEaf@ogAYYcTp7kz?vOkrmC8NJq^FIz_EE8jUAoiV}?~_<2Hly79-8`_$Cf
zzOlsEUNr_=NZosV{LmAFR}abil8H<E#wOJ(ne@JiWHPl+-=gw$IX<pti2kVTizQMM
zeUY(A(gD3rHE)!|i1`uPp;Gw~WPiB9tUH<7`k9)%tL2`nt=JYSwDslN`f?4$U`HX?
zn-BKpJjI5<&DUmL%kiK3BSo>fSl6*CZdqjW;<lnMP;Bi1*4b|@Tv%=DTK6~u?i~MS
z?Rq`q?<qF#D7JJ}^1L|vHDK{0iwjtqx4oUr@o#w^!c-WIy{<Wl3|}lAM=3B9ZU?$0
zt^+a8WSLRWRn;lW-Z4sFg0|D_GzWaxsw$QFrdi-H^<M>7nZxRdJ<lw&LtzIA0Uz0p
z**3_apbP0RWEvY)a5z{;vJ;<cMl$4Dj7U?#sx>gm`+-Rrfb0fSY-qYUIWxK7dm}r;
z=h)nVqUgPOX6DQS`^Hd?#oFsL*WuxNMs0&P=OVq(blHP)osOkskZX4oQF}azv>1&7
z(j@g7QV*;|giLcNDxs302_Q4^E1L5~iuWXfwRMI}#^q!(8eL||4k%Udvpz%Li6AJ_
ztPLxkgzOKmGbJu4bQOc!N)G%#a8&<4_uS|BT-whIzJ<W;j$0ii2FRtJ_xCLC`2tD$
z2DG<0bYvwH&>p@7Mb&UU!cmy!0H!HykK$WZC5e{>yK;bO0bsg@!n6xu+Nm|rrFkx<
z#;+VtU6Libk2lC3?si<(hr8f2RKYPw*hV;3EoriYUwiO{QVRgfF9M}DZ)RUQ!r7PG
zmyU41VDA{;7{C|bk0uo%j3#JjKO;ods`Lx)j<Hj#fZQ<@<}}Y$nWVvbK)XS6g6M(O
zu*_->c}xj=2x5>fi(ERbIYDzz^huhS9#2K%S7K>ssF1C|qq)a$f%IPZF_IZ2h?ts4
zQc5%p_C^%?(|DxJ4N2jc3a`E;Z|LGnA+e=u%`HqsaaK^<0w&&f)tQKR-yfVmHFv5g
zHWtLryx2*Jt$A^4v9+_%x+~whYw1K`&*A)@!>cV%7yWGoe^1`uvp7-MIhfx$xZ3o@
zdaYnUqR0d~7ETm8BKeNU%8A0kllg-u@A;nv0IbzF0|E)z1=$7}#MPoQ_%k3j$3HvN
zlPq+!Lp%vgA#)umDq0F21~k$rD#NN&MoMUf80i=y0pR%zAtNl1qwohfn2e#3snx0^
zmR80xicF4UMZE!pfM052LSE*|V5*={89+**$xvkFof<J3V^7L6kO7JUXr7umH5+^5
zY(Wg=#n7T}P3$U&d-LMnrPvBQ^aGgcOa-w!FLp0Jzb5WPfVJ?nmh6YV$N|jI)zG06
z<%S%@>?@cdRuV*RatN|Ye0%~6G5ac3?17Bpqf0o&E`0BE2LDTbM;Q=-GyxGvT?Vju
z9DY{%Qv#x&ZjOtI7oQ_C?6kP7fHUwIRQykvWfdwqs!<W}#C!$ooxr%XHBqNv;lcQX
z{XNa8mc*6i3{b|xShddVZWI+<RVw4zs10sO9GJH3sK2TaJdQX_JHq^jF)j0Wk|8I7
zDJ)i?mphS)UDgdr@^z@B0$_kvVk99G@--;cYSF<-$zXa?QPPAdnPd!vtA$+=l~DtQ
zd3_fkf@vPaLJEGeqU&P(kYHg{;@K9vC9^>7EHqHQ1KCDUD>iQ_H23D4drj=hHy{3R
zTRwO+=lQfPytHGj?EqM44fk8yQFH&5{NB}fudW<ex%%Ni;pm0@(F?167uR-tbFKAT
zfL-;E!!BGcid}yT#OBxqRvR~JXcTB*rI(<OX~#4_4bo*NO{10`vzjo_6Y7boWUeYW
zLtIvnAj<JWh;U^2A95pHEAURi4`*?nA-I15#a@6v@FK3nz>T<oG^b|32bL!iaXIWP
zgO=u0GgrZyB72dE9iq$%LMf~mBwYs~cuaNJu9*R8=Yd1P3?R)HnD3nH1R(Qu<($RF
zmiaw%duD3TM9jsC{+9WnxgkT}jJ%h6H?`(Jn5!-Nnis-9Ke9-c*hR8<Jm0n}@7o2f
z8v?mHeW}ht=U>9EZ(t#2XW&=HE<yM<#V-6W)eAz<H0FRbu?tAOV{E<wyG%v$r}w?B
zz($pCw!zs(grU;81M(^y<G+k!fCQFo+T#~+SXc)fc6L;S`wX&dBcV`gWBVa8LhqKG
z1D6fzJ)$k_Li@3<f(9cy%2+9(Ph>ME3<B8q4K<E;1anvY8Me2Xm&7Bc!~88wSJ6<Q
z$$mupe(dJ}Upi>^R{l4F7Xkz$oOcXCgc(@hRz(Aprbo`e=1ag>Xbw~*W2_n&%T*Eh
zu)-rMx{EYb1U?YsX;OPk>Jjh9jBYnM%KxUt2Jh5lma1Wsf}VDmbon1jZB_?LZFHm=
zSB3tqwSo{$?a<VdR8>W#L@JaTSJcoYIfNlWB>~~Z(51-`s;w&!TvS56mosYUyB7O*
zzZ#lq48_t?=(`pVmT}?8WqpzlK7bI<t5+ugSgGw_i~Z=Pe}kG)W67x1uqxCuB}Axi
z&;lKWgJu1!?|;2BYa&_`c0=t_j4tZ4)oQK2H5VNh-cWO2j3vkA<Ah`gXn}YvDHGh*
znhR!0!$g_`C>kIlolrroUV?g0t5L`3)Co$T)@=121x<pnRW*Tw6GRM+hsmUug|hZ9
z2eEY3k3FIqsnq>?c*lY|OY6S`yvk{?!a?hA4DSRxK(BkK>#{rFx*Hzq=|g|MwVyt;
zblk4LRln5zeq=e4ZyAKLx}vAy=HZ#c3kPpMee3DGC%p9H`>!m&@@vnN_ZvG(9P8^T
z_JrSi<=t0SyAPHa_A7ovF+ntFv9Ba>zMT&pd{aHR|8?~xHxq1|e|hfZ#bfzEFLdty
zw5hwOk6DD8)Lg3A5xPBeYY4O$sy-{Ygn^^F8Y6Jj$OLv2o7?BVKlgpJaTWW<Sd^D(
zd1|fsFpMYO-??{5dOy9KzAJr@{8e&o=b0RT&(-~@e+Re*1+h0T_QK2WUEX`w|3TZY
z+8#PMblx8CpyAR`HS#w=Y;NSxuo4HR3}^4ENf>Q46b&_e_-SF<37ZthsY+QIcQv;v
zb>1u$QD!Y0&_+nhf$mzEANmZZ{n>v*f(W_;#2xI<1QcmP{K|OxDoFxO1v*?)HgqV5
zVdcE4u~#*ALcu{%Iw4iqIeO@;ET4vj^ExnBSU4?nEeqS;Zl7`H9J%L<je+^_TzKKg
zV&80dt#OBG?L08Oy9M9Eku`Cv9v9mfHM9IUvJdB7?VY`Xg_xl|tULu7_0Dz(ZW_J9
ze~ez?KSr<Mzw{jIEPHD}nida`y2XRt#o=eA{|}4DP0h)#Co}P@kF$1gYE(?&;B8ZD
zryR@5vW9kJLA!CLsDW0%zG$lS)NE}Y+h|r<$e}MwXv?;UH7*_}RE}G=AuQ?<w$|q3
zS{52;Hem>K2*Plfs{r4_@QR?5QpvH(m=%>HeS4shK$R6a29)NcA*lm2u&FtqnNiY5
zQc$hf!FW@7{VWLo3uOKtWYrLU-@hF~P>UURgLhpY3abMr)^&)2kh_y<-nuYS*t$Qz
zb^pppVc=AL;MBd~X@EV?{ibc@R{Tl^8W~vn$VP8@9_QFu!t{?YN5DKZ{4nfOm7vrz
znafqSNM?noOk<L|Vh~t@J}mJl_W`9g=Gp(P=dzPWfo>9dC+PkV9Gc+QCubr1ayY87
zV#N$l`zbPFV~j-A&GPfLbF~ZIw|C##U1&R)Z#%g1{94<gHSb_v9K<jba=7MP3;x^f
zx7rJ>sDD?EthElTc@O2qLzO`(doa6(lf&#S92X-D6wExr8J40MB@oUifp~^Qscn<!
z6ZW_P&&)0MZ~|&JhT|b@==d22;dTd{nDTHsDnRH4R!XXoog*$9sCT_yKU^c#$}T$t
zQ*zsvL!jORfqFL$)O$criJF&w?-wzE2%kG8lOc^+<}@FXUmZ^nISTO;mBxbUDPaW&
z{s3l8%i<<lp*W%sK#{Qf%SZ@{_Wu&q-wgXqVLry(6yn@vi0r-$*7UScj$Tom<H3(&
zv%*iAcN}G`o8#VW=Ap&3<zH1IW!6D<R-&cdCk9-!iE(W}UJrZ=nkFF@0{vG!$2pdc
zehp29DOcnYY8WLFX7#U($XFQ()8kz3bMz4EY(h~r0T%4Ctof+rs~@o@W0NvbsN`x+
zy+az#uRzcSx|%8h1B9-rX?vi*qyw|Hsv4Wnt>d!&QE4ByR*Q`VuRn*rlo`knUcD6u
zpq~a?&<X`CZR=c^D0CjmcOJUeI`~j<)Ybo6>)`B>bqC{XUl>??>h8eZ-Vb{}I`C1~
z>fq47dcRR@9sC_~J#+}oc)scRoydq=?sx548Yt{OoZo#IgJ&1>M=##%`eyFfZ^Y1p
zuATJ%zkct7W>ho$L)+KuTm<ct#~cF?sHRpX{8y)A%*&wCra2D6UuCOrntfB`F$7?P
z#Xs;txw$zix~puB)}kH`<H(-_5BU*f=3xuYRulB4#C|rKfckMu#m+S&_rC;I<*Sh0
zU>*co=fCsg@8pjEHqf>(@b=3yCrS<`xb1<bq2TGvdpcJ=yNiL=LLi(EU~DpQAa|l1
z%>oIui`nBAhuZ_0Op@S9D?MoXU&ZjhkKCBO3qJ(|eh920vnx^zw*0=XN$7pxZ7&J%
zUjo$`F4Z9AW;#NP-M5}BdGJYOeE!dov$V?z0W<k_@>a6M0J${&es($g1(LdM#c|^B
zvyuh3D^T>Og<DCKJ+de}9|6iVI*JiefbBZji4*{J9RPJb1?mO>>UvE#MF9fj<Pdoc
zc*qURY_{$OK*sG$0eK9Fsz99ZXh1H@=%dV0G+nb4T&WSsL-&w?+w!Hr@N*1JIU^Kr
zK&CMgLM(uRI7B-ZbYO<zO-+PLJLRJhTtGNWN31eq!8Y%zV-%W9usJrm@Vf0sKbQqh
z{{)P>e^Lcb_dE8l1lKyiE5GMzy&vcSlMWr^t^4!~7#CNYy5Y1jhz_fp3K+~baUD)z
zCoqPgd>K>lo73-p8i>t3*GFEe;7m1F89L|4P3V=(LS|yc92SHjQ*c!H6cx^*Zd2)B
z!mz1+jhx+((bK(xxFs)cSxBylyU~L3-aI{XdiK>f&gIw#mglF{==Z{u4JW9Uc>S2g
z*OXX^yUf7}6Flk39s=(ewbsiy%3hIKhnKAYbiw+gt~EO9f}Oc4S?5Zm`4Oh8<%^iJ
zg7;?MjAS|J{|V?HKG}55v}?LH>&glfECEo5vFgg)CI$61W&i=sIUHF5ck8q}>$Z#j
zO?yCDc(QJ|zEx{_cPzs)=@6(4t8Im);g)#SiWizK%DtE)!}T<N)QTLMbA!!iSu-s2
z<~uM356B_l?HUZ?f~y4=t_Uis%94KaELH~SPK#6-2wL67%YYt@mlAPR^Wyy%iQZzQ
z2X6}8f00$qt-#ePRk@Z>uTbHn+Dxl~ZJmt8W%3gkNUMRXSKtZ~f}dATvyOc&7P
zZ7c{v7xAlR-%2zU8yiccFKZr%>c!w%0v*1N-c2;d#~TVT8_g`#XN<>$(12dy(LBam
zP(BwNI1wqDkTij^&}k{C)nM0HiEbZF#DR<pk&1CtuJ5DDiXyaC{sXcb3}~)8@CQSs
z8h*Qb)wOlq%`~?!94xf&&$sViYwueN_UAnJxA**IPp<Bhu3d2JA$M$cFSLU5sD`<Q
z)zG1P-a!oWot`^g@JI6g$f|$ffw$$8ubjzy56rq3&MdVQo3<`W`KDb(e+P!@vUAzR
zGb?Rt%}>qp4_dk){?`(o6^fyrLa09<>YuIqt#`|Uy!i6Uv-iA*f9nmDe9XXEI4x&d
zyA9s^p`A;@(rfpgxv&<xXz}0k_7}xg0~(~?h+U=KO!w~69>%+6)zv{kFzkJ#g+Shb
z@9}5@0YM7TeS8dpz6;3t*O(1pb_lY{qknY62xcE*1!}$xW<!JEre*{D8)gGiWwQaF
zbh81e?QlJ6@%VdZ-#tq&O|4w`<x79}(nGv7RT4XeEsM`CU0CVAD|{gSN?h$fmfw3k
z-+iLQK+Q+}A1VJl_yv->fq^p$Z_^s$8MwzA$8fU}iCu~ld^7zV+C?vdMbc^AeD~ws
zLX3jw*McL|Ue`m^URouAVNVj5##Oj3g-TQlRu@Oc)dbw#L3O9~(8?6OO>ACO)cb^a
zz<eg??Oy#-W%pxv=`=91qTl`5_Bd90&6uDiMI-h4-OZhkX+baL8W)ZAdvbg2xb?Tt
zFC0gVy{f+|1qprn^pcD2qbgBa8_{q3Dv=Bvk<bezniF;>T-4L=(*d;WriC6;LJyqU
zpH!Nb8GRjh;>UD71yg`_Pm{lgM^s)4s-cpDW!cX~hVA);5kF=E|IYM(%pCcc34hEy
z^)WN}1;?}8?-<BFcQfos_G9K7P_gdZ!un=knE&?Nx7QgU*PmhQq2SVdVlJ`H0J*-s
zjtwsK-G1WM6YC6+>!E$+20*S$tPctr=UeAm*BKz!dpp?RESaC2n_OprTz~oyyJa>o
Q58+*m<bTe<BYm0w0sC_EmjD0&

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/apertus.cpython-312.pyc b/model_executor/models/__pycache__/apertus.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3935cf67f7b5ff668d711ea7db9312b52a4f8008
GIT binary patch
literal 22496
zcmch9dvIIVncv0xO#lQ*03=9)Z$T7ES)?e**29V<Mo(I{CELN;#X<xqfdWAK0+b~d
zw4IE*0TX9T%{CD=amGxx?NVbmrl*fE(?^_XcI$3uc5p>y0pH5Anpy2`{ZC7Ube!3?
z)Be759{{<a<C%2!N<29C-1ENYe2?Gvo%>%M4l9Q%ssDE3Z!U1$U(t<nndHcNr<UVx
zaWO8;#WXQ(Qj^k#wHk`+lDd>WtY>k3(vUKSjVx|Rn!+YLHzrLfbJ)z%Oi4@18n&{y
zIcZDT!}gRT>|pnnWKGH$cCxrN=}Ni7ZWgyCYg3-ECsh}&WB2xCeX1eckn)DT?B0>|
zrTk$(i`OI@Q%&I}7I!8CspfEVswLc#Y7MutG*>d1Y74iqxI5XN>IiqRcx|#X)fMhy
zaZj>4)f4VX?FjE+_jSooYG-(7syE!r?(37gQhnh*#2aGXWPfTPJdoNQ-p%fP$;VQA
z!h2GK;lb2Ucqp|uyf-x*9!~8G?@R3u@7Hiz?yFqP{{|OpjGHHTWs=Lk@9Ly@_;HrA
z2{{A5CFc_?XESoP{Fa;t<8GF>6?ubSocCS1OW{MTL>o%9S1%DCi0^*aAou$44MV77
z=IE*Pc$|-?$KrjH>Ew;z(Wy9}oz4VPld*U*I5wG@ie?j+lJVdxiR_i&$?40N6Y0w%
z(J>^%6PK@KGyR`ZeIbo#K9!C0QDjBjn8+j(V-(XJP2U*BuQr`V=#Z;FHklqzTn=eP
z%h7B$p3WvF(|D#tFWi`-qID<IW9S9{6#At;LwbE?dTMHt&qlJ7{MeNU^)Z1~wW94<
zbnHr8s#~-^mrSPAcI=nq*~rvX<T5`wJtcP19oo%I@)0)B$W)Y%CX?}G<dsQ28H;2R
zGt>ja3#U$;y@-hEnRCyMPV%XcPOLjNnVe3g&&vhQCeraJFS?&T^W4^?XC`0SoP>&;
zXD2TwvYGSz<XAj|=8;tU^mG(6FoSuXOv@d{Y*H8bNlb)RtWm2ucQPK0i4D(9jzupi
zi6>H*;;|Us3Ub!R;^WcjWHutboJevqiU}0`spySM@dzJJMW-THuSGIr(PTW5j;3gk
zo>OVOxKuorh-Tv#*ra4W)zCZDiuPxvsm`38eCDWVRqoE851B;w(dq2u^U@+XE45Q|
z{`|Q_CWF45jov`Jp7`}FA05j^l5`tMq+{{xqBoJDH<6MuvYAiC(F3t36}=jd#8Xq*
z8^~Jjll-PKk#STt$=?udEF-HkBig00P4V&Z#Pu<0ZA+nBzFB_`k#B+^#<{QtL{V$u
zq<=AcOdHq5bokT9^)W--5Yx<nh{lX@W6XpUGkz^G&A2Pijca1oHyj|6wl}!2InQ0!
zge}i<A%|#{m-M-_=SM}`l|(ESPqXzSx;G7imXv6fpJO1R{bhRZSiZCsME#{iG$R_N
zVTd(+JT^T>Z!CkiiF7`mo#xYH=8ExI5GM+>{$~ijtGUHx)rWKD9QPgUbA>W!xU9VE
zIWDKkX>*30K4<(sIKmIK?`ai^kmDjUMdP?E)y^*D*0B60Rzimo`ge`;GcHoDR~Iu}
z-N$jfGwYCxVj^=ov|{>!?p<0?xW1vuI;B{-cW74~*9|UY9-T4wPftar_{oVo2GN>G
zPfcf~8MRGLXO$bi5B2c7DCkEpW9^SkzLI98LPma&(uXK0XB$xRiiYcncyfBicQGxK
zl6WkLSCY8K_Tb~enfCr5QJvs*+W)~sCRollKFJ5uldtrLETRFaShwZ~mTMv#iSV^(
zK{UyI=j-UsqV@_DDVm&)pWyjPo_EnRBW;cGG-}dk;>mG7L>=5oK`#YtY^?h<K%TlU
zS|X9LWHghBL^AY-g7WqH-<=xBrltm_5>tKIC=c4vcYS)_f&Ewa#Rrm!O9N9kvR5Y4
z1J^(j2PA?QzaAgM{^h0H%s^D4`~6clc)Ubz##3I_{mS@G<3Z+41iyKm+o<C#HFGAx
z?7L@fyzlKTdD~0AP|00i@^_UQ0`o5{yio9TZ`h1JYhM4ReWQkJM4lZbUx%EhDI{eJ
z7d$&Q9HvIfR<q{f><tUvySCu{+CZsx=hEX#yVf|(zCi@;!F8R^Q?thD95owe&Kvl{
z%X$5GZ0qO`HwJ-6y=W1$jd2~3TU?HtkQbkt1Cg9YS&}cJ?5t*1i+t+xFXt@ho7EtP
zy4<VfP;1gW%iYn8hIIUXWaFQp-~a+79K?^Pxh`rV8EOo#k3URFCM>I0qI_(owqoAp
zw5!OFp_lSHS8{sZ%FX2#j(+>KIelJ}f2?G8y>({p%!20Iqj?QIeRb~Dh3Kj?C_i?(
z@@D=B%7*l#BO-SpWToXwls^&?tr6mW(_jS=(H@C_9wp@`I*=|=m&x*c1NBaSX>u~j
z)&+l@?j7<f9E&HDk;okle+a1=n&l_iaQGdFvfvawm_+cKH@G!BH@L4<-&kt!m0CL<
zxmyh_59)nu2K=rWxj^fhiDG6BX%>oEId5obNN5;Xv(c@cb9&Ys6szIfb!$$Fxj29G
z8dbDb%UNqa^C0%?uW0lJHybnS!5A7>uVy*6-iXdtvILToV><ll@lOj@pqo%>l3JP@
zw}3Smz#5DaYrwBH4weu%$1QQ|xYm!XF)d>uc06;$ZSq}B+#Yk{&lPvbDekx>R*OGR
zOgkQ6?4=Iur6yJ%cTNP$Eh@2C!#3%j>gnUgnD-5R*v<M|t$*ddQ4h>9A9B|+w&np_
z^NTKd9jb!Yr>-838~v0+=SKJw=$B}eSQjH(q9r|@id=zo0**{kNEy<dm4ui`_DVb(
z740le(g#EY(VL21k4#Nw5+wM5@5^FLrcC%m8*#<RB%|u0eT>9AnPD=bFIuA6Y&w#K
zyvXlHm&R(8`NFRqe~b*A#-`oEAM3w>KiU<-Fk1uOSCuC!e0A2D(;<gS6hI)Dc2>~~
zM03s=@XMIyDt1Lidm21&+k7BJs88mui0g5uXmv!$D#s@`l5<{t5u2@UyQdXxH?X#y
z)pJ(lV|~mj;uBVM^%58t`una-deKu=X2{knGmwMM8RHa9Y1Wl<z3xYC>Ijv5H12A1
zM=ek()NWJqZmJ!-RjD0$=$*3*wW)C>jkQ7aY|Ax+_lL5o)Pl0a$hTZb-M*~)UaIGc
z8D>CD(1t4eK%(LzBm}T4XTqI2-`OrToo2pDt4OW3&Z@5uOU|6LLkcrOax=XvuO_tT
zQCi88+`+DG>#foUHf!3PRj%EP+AS55WO)T}6C}fIxgb*-bLRJ~%DaO`&ds_vy;)m%
z-CWnq*76Ox+FT8zuy)!>v!0xXx92nyBphwIX5BeQmIwm7CiW<?@-NlE8?z)KvMX)K
z4lD85IxUx@{q&_*5c0MtrOUrat+tMAm@)K^y%Ps!t>#^M-{74Dl+sxe8rX$es?0vd
zO`^n>>pf@1ZfsQ^{(q<|sMH1d+%?M6mgk9=ie@76kys)n)=x$GY$BS3(h3RmhODez
zmI^-j+22|EUj|Pgp+01iSq3Z1^de^#g_4mn52-CDD4e81lBZWbW9paq0#C0uq~)K(
z4`UsoO;R_BEo4MDkO<O_BVZL0(lBG_C$<4C;Q|%;np(~WHX^I4N}*SvvrfLkhba%W
zdIyL`d@2)a<7v4_B2hcVXb<tUz4_m#;8_Zy2t*yY9BW84K`ckZJP&%!@h{Os<I9p_
zV<M%T6hxEE9Qlis=XnZfpNeK>@+7UoD6>SDq<P3w4i+lbZ0R|zEzy2r^w?9!PdpQO
zYV_>acp@D<=n>>Png^Z;4_I?56G;Q&h+ufsFN%xCtL!(_zyw$R87j#}%Erg0k9CyI
zJ?rf*%EFYE7bwOimnM!)p=gnTfY^1>l$~NjmS%%QME(*2=zE!nJO<HB{e!}jkpxWI
z2eQJm`R8>>>ST(Gf2-i4sxKK7&n#l?{s!txuu^@g>sd0c)(zw>rKaw@{+`))zjk=F
zc7NVfYTZHi0Z7(GXNTbISiCGa`<C5zoqG!AJq72UlE1m=?-Tre%U;31pH!Gqdp{Lv
zE!mt!Tf1OuU%Y(R)&~K%&R6v86g)eZo)<hrE1J8W0|onmg69Av-nyoR3&rLk0sl8W
zx*up=)GQ7aJ02H09$&dEbevcXj8N_Vhn~iT;l;<7va6n<yt!oa6l_f;Z&T6RBY1n3
zhKjvM1pN0N$)7Cwg6NjxVb`vu=L&nzeiU8pI!{%!ml_&xrEjJevwuAM!&#wW2)S&m
ziXDP?$I{UIhwdB_yfh>`Qg6-PoL!6w-kt2eu@gVeQqN(ksPiH8KB#r5E_E|i3IvOR
z-9lhDMEqjwu+TbOsS|#!;OW_Ln*F5gIiNy9A*4?C3f|tO*!!tFDZ%>$QxOBI8u@&|
z(*-rsOGRuD_$`j2xmhqbm+ZBRft9msI?mFv!D%g4%wuCqzUF>o+hX@p-%8zT<Kcqs
zaQ+DdC4cAQ*98ASVQ@t7kK|8(?DUt~dWvnsLfi0s4GOyaZ=Wj$hK0cJUFYy;I?mDd
z(A~IZ;w<h*cCH?6x!xL`8>OFfbLZ&i?A%%Q>URqMozzwQ?;0#Mv`RYd#e%0}!(*+d
zK3g_?oVR5m_D<?{YPq5K*m2>p<M$d)&}i;AG*?Ogj*TfVqD2vnGonL*l|Vn@nXyVW
zl_V)9<?hGA-d5SwDl#ooQFXKWoUW>}%T4G}-<As;sJgsXCH1l{rU9aazR>j|dNymA
zHO@l5nUJ}h^h64Ch6z=wE2k^c^@J*sm7m2(cCIPkD>0=-Wt<bLG^ON#{AEy{&O-W{
zAiBEc${GJb`(sr5V?=*ciK*NvhP)XS8Hv3+%qH@B%XyR-BuZn>q~x6i0ysg!(v~Y{
zR@!8>S+Eia#?*~|`hRf&4c38|ha7wo<$!NZB@<abfjB=w0Z~xV3bikrxI8^Moe}ld
z67g3U1s6>ejYKnimSrllB>rV8nnDn=N^Il?CCpGZ9oQOwjAELXMa@-Fb4|1{nlAx;
zqEY(I5X&l)e2Ll<5;5cZd(>VAP441p<^h7&IRFW@4Y!(aHZRPsy8Gsgd0qbLQf>XM
z(9O`og?E1M_U|oqzQ60vt`+^y>_4>^0w+G&Gap*59i1}~z><%u5X(FE+xG9*6n(vd
zuXpJy%le-<K5(r14zJpe6zyLX>|gyzvuZyL6h?t$zHEM=Hm}XSws2#qZRzP%=YWjd
zfSe|7CP4llTa2zY?8w_nb-r6?Zk}1Rt=8?Dv*eBQz<cWR4n{1-Dz`0dG)58#<bWAa
zL)-njhWBVVY<r|_y_5|X(=x%@kTdXZ2$=FFuFM_NF~J!y$*jHtQm#rMDj?+T)Rig(
zgwzUUiDC&?7s0C#0I2FvmaC~n?-?qT9uj-l1wqz0dO_4*zC1lHnxYc=ITA98z$=*i
zN-`~M3uS}?C|EQTXJV%4fRK`oPhO8?vNw`(Cd&cEWi}f^&_t^QvNB+T_NpZ0oT3=X
zeUf0uB&ToS7Lq6l^OAU_in07#NE1zHiTaqKxstYkwEWY!pK1Gh%YUmt_yE~5uOYxb
zumdg2J4&@JcWaL?9xQh37drN@La-PYI*#W}AKPl@uNA$F`=7e&-CGK@<<C8AY?ry-
zeQ)E!P_b#R(6kpj#qm>z&~#$eJHoi&UctW?Z2ng3%~s-sjXkCI?qd5vq5UA3eG|Cg
zcbpOkS;vo{EBsd}I7tDmRnc_(1QSnrQciiACDAYr(^Xc~#}Z>%{xl^M$imP_{tU%v
zVKDJqG%z!uXp~G>44~v`a`>|poI_BFOg=@4ET9J$u^R}Ptl^s5OZ|IFJ-wwp!vs+V
z+Dg3x1XTLFi~fGW-~XujC5>T3^T5@-W?(T$bPfJBlN5&t=UuZ%aln?1Yc?qk;h}NO
zA;oJrZ_~oyqHbY730*=%@0wG3;Nsf5*4$FOR>eF$QbHY}p7m0^foo`7^Gb0D743`1
zg@zq#ekq}mK+z^C9-!_>9bRi8V6;_Ae^qNYG(7P5ZXLXNaLs@?2H|VImAjc+Gtr%y
zvpU}j%mvmhbQka#tZcmaMaHeYH&HThcp0O$(5)4XeQrZc!e42g$MC0K3b$XshonmU
zb&EkxFB{_Ys!7fOJk<zOoRwjvCT5B=!^&Mn!;V?DNw;p3t{DBcd0xGgg!TeCwE;P`
zG33<F41$W~<anG}ug{X{b5z>fs;bF!NeQx~b*)@ZL>T2hj&KWPY1;}}f<jkPeYp;R
z2rAvq%3u#f9}NNAs&HV~^h8$%S|D5)zaH51R9}9|JJF^}L6uIUc4JIW1Z-0|LrfK1
zW=)%(m||w7C)YI@IFxL9YAHX35M!RTWR*ojqp&K19)o_WaEDp*rrK;VyV4f#&Z>N4
zLWSPSqnNd(T@^X1EUZ~;B|rskQ*Hh=)!>><eR5zHNtNAlDgBfLIRMM%oQ1d=pu3tM
z0B8faBMZcM$Lh$lO-eP}_9vj^DF31d)c`BqrhdB0Z-Vv04X~=V!t|@oVYWl5d7Cw<
zndnq<lz-pzDDQF;82P)`Rj0H89$z;qAt~pPCb90|B%go}3(%%Y=3Z%jU^vFpC?M8A
z7L_og2pJ+q7_cE>G0a?V0dpRUPG_RY3!;ZvJ>oYa*T~8%89!i@Cc`d4PiY9%zcYMd
zP9>*UPiFM}h(c}%(YSU}&`ZHC3i>GMry!0XR9^vAvFumq(f1LErYq45`o{A=pd{kO
z{2x*<MFA0SX;kG|kW4xjbx@L_Pi-GyS8|HsNj%R=mrF9>hha+f<MDV*meM7(jgmw5
z3K?h%o!kO3y-mGi=n{kF4&gRK`=P8L1S<idfGi_b(qk19`kV@XKvDoOp_&RzsMOR}
zZ0Zx5`Uv9i-LDTUJh%Ab^4`_@19|Ix==0YWUtP|wdJpF9C7ZWk>v+!uK%!7LyrSRG
zX+y*q-QJ>WpWxaDgu>x3_@5B$2RDpd$Ihkh!k#l9U07{@reJPG3h;`CLg>KC-c|q6
zUvb(->o1;1Rr4bYC)Rb^5sfupL(I1;Z+i#<ZFu4Fd$#UUbH_W8+mZa}hMlu}kod%s
z{+_MxzOSq3>l1u^bEh6sbdTWMlRx#)A1ZnLC10TE+adUN0HG*0>=qh!-}eVgu7-lI
zZ|Pcb;FK_M3e7cATfTM@;yRz8(A`RK3?j^=Pquo192>1J$y~qD&egS)Yi{W*whRj`
z!zFLCBuAp)eYbC+VX<-P;;I|?2>AtEm_Gu0e;r{X<_#Cu*}F7c>^&s(9{O;&c<edh
z*mL(fo~KC<-tXFli747z1bfTkNU?LD(76wj+l`XHG`C9<Mp>0K!&fE|g9&?+E<_ZX
zan!qr03Ol3UYFC(!f01b56Y=9$*eXF6Jhl{Ih{hcm<lb`Mr~}l$kFCKjgpu77gX|k
zIX5VLwfa=fU9PmUcT{Rz3voj`3glazgpi*9=P1Dc5e5H(f`5hpsl=Vj+4w)kZHA_X
zwoHXK-BfL>$XoSsY?2Hq?NB6YIC~uf96Nz865ux^1csJhS`8eVJNKY_XR-UR(0zDi
z_M<DS-Omg5j{LcW{a7XM)ZDIF_J7p3P_ycLA@9IS>*$fRgq4>*I=R|@Q82gW9rM>I
ztNFHhv3b=u0CmL~Sh!Mfb{EXuk`AF89cA`s5Y#Qo1XCY~5=eRiQycct?e{3Sg#gOJ
z^b{1f<CJigg01?&ZAzrz*Z9l)2m$E_W^UJR(hM4Wk8DRZvRF(J+M2Q)ZesTp0x`R{
zl332lK>dOw?qI1STDPG`6~qyzZ6^!jbZ6!ur0=@9Yq3tK?OL-?5=3ifewulITzu!n
z+b<TJA;Gfqa~qyXTY)+~hClTpX_Bt>KftT26t-g;c)V%fhQkAV+(^WRa2+>QlZpH&
zK5k?pxABddum!FU)@rf~+##x_kLzO=h{tvd7jti0*2)|vY}IRs+2JxF<#241LwdSR
z58@80Jzi72Y}{ErosFBhb5QAVYpmuCL)Zlu4mWBtR4*eb1XL2UQ5!d~I`lCY#_wV3
zK^^vMt!S6`*g0~rWefR^mT_y*S~gpWHgeUfbamkWB`O}ni)0s(8(Qu3yH4SEHQ&^I
zQ~yoFH;tS80D-%1_5-XgpjE?nzhyw)D#HG^^hmd|UTg}!Wt=0MHo+9^ngdQ*_KcV_
zR6}i%gGRxwvcJK*a!NJbE)zses(>eF#1DV4O8F{6HoqfF?}c3;@Tx+fq;VYTZ!F&_
zu{k41In6dM^ja;Kc4k#OtJ3ev=h-%?46C<YiI;!#`n&;nq!AlM`-VBEg|IJqSjue?
zf{yxBWdv~*w?<r@i7z?&o-B!p?Am6Wh6$1(w_JeGWTg^qdX<OUj9q=6eN4%j-J`@}
zMroT=%#}LZS)$eKia|xZtgYU|ik_&74Fr7)oXnZ{tL_o1iB==c*E(hWuKpH$`sZ|W
z+BwY}z(TxH;(@p%Myju-q~GB}21%Iy8Zt^bXe+X|GQ`k>uj67&R5Tw<MpKt!(Ze%6
zmAhP(Hv11I;klj697aUSm?o}D>lE_m?Z+WFm6}8J-`o6|#So}rlpU6CMj0{~p(@t*
zGXR}&@=$YG!UtqYbVczhwp<xkhzRRGy<0X0(Rz)1$R!Ibt!4&kjwkpGyw0QPtD+~H
zh?6sXtU@yq?a+7NeJW+)X(LINd^>aAf<OLMxR3L+<oPbD)6ER}l1sES1ksiOx+*(_
zi<WpgCaD0TQF>mXJm^U+;O|gnr>HV-bozRv(hw$<%<!G`wDq?*kB7{X5cFfJkIf=`
zi{+QfriSSfMD!pR{r;0rK3S<p)K`6_=jjDLhTwm1Q6L_;14Va8aEFTSLBTzkH^M`<
z=p7Ke15g>t(FY9yG6j|b%+TzA&=@Q>_6m)?NOV55dB1(QXzRIa>tTX$_g#DUdk5b=
zT<jgW+dJ|wI9zho-E!V^LX0oE+67lTR?db=-&T`9{!4o^bc42m)!^>@@q6~>`}>cv
zDmn#w=dZN}M-8MAZ!@HEW?pq$4p;^AUZ(0SbiUoc)cIa7th06>HQ#;L)_vdCx@as0
z_Xxo~E5_pfGs6Be_k3sb$G-zbqkGl2BY*tOQxAJ~z4z>L$I=Twd~LM{c4M*(4?I_L
z1QsR=_K+gvL&@091o&NSZHpGky*m-hNN|`6Ug0GW4Wz$ydc)h=HdRO7XF2{TGGdqf
z6hGjqOzQnP;u)${akX_yi&brRMo|zMNABP9^y~C~iG(oc+oCflID?D+RcCL(+{;EV
z%H(RXZj-Y=Py-z9fZ>+4l9BdMW~@^FSK0S}M+;!u2&GFQjn(Wgyg#S^x-O@mHKg5O
zUzPRAr7QfE4REP4rfZ<{NKS_^&C-^I@e|S?iy1F-mDt>uu-Mq;W-5NFvr&avDz=>C
z+)G0+2;)V}0@DMw#Z{9xuaP68sj6uf=1tN*l=|p+7Q@GouC%2XNZ%aRSDR0jS(ZDW
zsmZGBig34>?rl{Ed=`wistJ`^l$WX8qO}5rGbufc>8~CKt<j@i6X|L>1K5mVw1RGH
z%W>vX6{_Kh6!ZU<f?psY0y&++sVW?X(Np4opy1z8@b4-383LRln3@6|<yR<$_#FQq
zDOs0{r$e^#9+1?(KcVM;N&!tKV;`b>D`Cxux&%CQ42&c*^K8b3+@OidRiQK1Z6b@Z
zviJt=8XO74t^ukd(Gf<*oPmOKM=98M)A1nKSqu&d!J*}^tp<<GJKzX1ck+R!r{EbZ
z*as1o0=t)6g}~ALxe~lXP7B_B`I8R<Ed{gxeq+adAS6S#p1AqMqP`g1Ed+NjcmAaR
zgZ@?f(O>JdP1d>7`D63-P^w&>`B<@GkAVMh)^W8JT{{HVj-}=mpAb5F&-Im$yL*>T
zEzf=kP4y|JsovhdW<v$&wJY%LSBuV_cbz-$d%8>Q11m2Gt`U&0IvhdJf`FR2K=7Rd
zw+}47w0v^4=@3prKzV)np{=Ii46fSR7LVSwb(K89LOTrxLxLh(Fb5>6XOa)kZ92E0
zQiN}S=-uKj!*cs0oJ%NE2CPRShg&X%UMTC1p&L~wgOU$Bu}|KKpd&f`geroUD~7E=
zrbn6DZE~nbdNP_fLs;XWN<?qp9KhZqB#~W8o3JZrj&t*xmjJ7>J)@sB#q>En_Pgdy
zdknp}20#MGg`^b1UaF`VU%yg4y_%y)POppr&ZB1j4B_dF=2^-IkaEyxvnq<MP?1?{
zbqb`6C1#dv;5k!TpM#*vYBhlxSwW9X3T1$;-B{J7Lv_H=aBt4VENsNi3MvF!y;2A4
z_WIW~Z@!(=;+?%HyVKZa?Xz$mML7-49o`OgV9SN)w#r(nzGJI0Lp&V^)3N%7DkvF5
zWTg(Ybd=t(G=n+I1ksr-*Q`~UgPcQ|OAV*t(kJwAWdAKaz?)}1(9Ub#tlOp!^sK$y
zi{JhpmHsHB*!G>MYej=K`sM}n*9cl|!wDW7+4)BpCq(d<neQt92JXs<SEa;%vMEvW
za^?Sk${G4E!RZrlJ-jMsJY}bt{zUp(WSoz`JX2qhI5tW41RQdRZA!+0N;z3{Y&zJ<
zxCY#G=r|`e1sg@k$$u9Oi!Sm*h?P%QLKcxyE=`Z)z;8x0gJ)#uP%qB;#IsDD5uJ4C
zR61qB>g1WJfD|--mMYanV=<l#PNIpAPbF~*nD3y61q5JTwEy`(r^gMD^2e?!?Pp+W
znVO;_A2v7%N8xBnW_?l5TqTTBheQWEt19;xy_IjJ@rqW~A9ip_G_XooqoS3?rF5G-
zH>_H7<_eBeMIcuaOI7%m^eZWAc4|RBD4Us4+(soKu=3Fz;$@IFz{`H6HMCm`<`#(7
zu!h4MVz<z=d$noLYQtdO25!^bRt)qDf&RY;?4E;kJl{<xvS#OI7oNZ8>{_aOzxht{
z^0i-v4wpK2&f6A_-*vUE8Mx-haGI^7`;WTvj{6-u1$!$B_LZESOM1b%tK{;PoZU;E
zg0sJ{=hR0RggsBA9k-u3q>?OJK%SQNV#|QgGEi(eBD5U&P`}!8qTo6)Z$*I2@O?Zj
z_y*<;_k%r4hNai;J$Z38_}skXLD!yQ*RaqvyxO&Y<>=k6LpRTTc&PC7Gs3ZFVX|<y
zJVHAy3-QI5?zsj_uI8evO>ng>?!4#fW1VVP=$w1)p?CLk-SR(P^&XqomptD2gQdE_
zf7^RTa6L9}T{yGkD|uSrHR{=kWO5>fqru{t<wlrI=JgLe-dl%m9$NI?^MsaSE4@Ph
z3FLYR|Jb4Bx_h2s+&u7gz{SBAnm3e!UB%#_5FDI$eC%qbPA#9j=Q{MUtA4GS8$PR9
zgCWAVwYrZhtHVvXx-ByyS4rcv`-}Ew!4AL7zp!_##WgTbtc`0pSF^&pB^9HdAECAW
zRSHg0aGL@L1%x__dgl2<=!0m)ioy{)$yNM&l;ai!zo3AqDARC7eKLX5cE{<SSUmqr
z3La8$mV$E#D!o{U7x5H~(&GGIh)Cz_y#7-6fnV7M7%<%sTr*J&rl`6#3&pHly?>$h
z9sh0r&8I$Nxh`omhFweb?+5M#);L60x_-9nr@PiE3SZm)J&$Z1hGrS4UhEV+-D?IU
zU{%%mnG=bL?#x{4p5^00%l<VB-CAWRoB0c`Q3V8jGsltwoaZdPOY!9sKRNrs*$+EE
zoc_<bpXY?HTqq1(5c)3)mW%5S%70q(6^)^J@#NCQ<-rvL^UE7NF7%xcI!D$xdi2rY
zN16Y!|8o{+A{CpBF-(MdDXPl47JGLy{0-4c`y)+46UO0hocA-ltqnu?xU31wXZrw+
zTX3!q{vbHphm(EPAa7!YGBj=nG;YUfKS#VKRwJJRbjDo3^xOb{oq&xio{Vc_wMcc*
zDMG}*WIHhr0BCotE?zs)t&UKQpoOaG=s`W&sw3~3Sj)Dh8>*L%dE@ml7X#;g+vJd*
zZqs_aUIx$o=z9acqEWSv+x1;)86#-I2)y{Rh7Yp{V7=P-E1-90+#hEm8A>*zWFv##
zo50RnMdfVm$RvM^S?$lBV~(!)ssj!@(9sk+@F4w4Ok8wHFaZMv=oAUglgMY#%So`n
z{S>c4Gy$<E13CXcamSE-{ymEQn1X%^2y#;KN!sTmDAVtH8f$cm!_V)4-9vD!irtgA
z4+K|L4j@hw&DwJ1D$eNVv@z9$nbX0un|g~2wWzj%tcpl0B63xP{_RR3cfu#tQyD@?
zRI%W4dd^TG=)q*A2y^%ffnLgmz7UUR7wV|u*uoECq*X-Li8iHN`4>4=m7ttD(O!-#
zF-3f?Y`@~{9_UJi3zRY2qm)A*tBu}>(|K40bfHEStN_a1E2VDwVnTVu)%&|kDO3JM
zt*S)?h`D)GG%&FEj&92mWeXUqn(AN+7bmLdvnA4ZLoQ1-t{nl;CLkX2mf>gqUr~{N
zO#v(X3}T{9@=0ZF@kG7&M-<QqB+!Cpga0=ageYL!=O>7XHU>gVpBQ0#OcF@z>6wdl
z37-;CKBXez&L860HdrrpM(Wl&#VWC0k_#)bUd0ezK`B%a|2M>P@!2GT>^HlNd=cU+
z!MqRZ{l)q&p}q@V756>BRF_Pvp4}yH8_t?Ebgy&z26BtAl3Pa^d&QR$2;e30s}kwG
z@9kI|Svs}q9o`^Q0U+43;Iqi-4Bd5xaQx<--0fVkb)V3>4-UK5pIVFipAz;zwc2`q
zUjI++59MPrp4G-f`7`%BA>zqxEH%N&qKje3ZIDa@J6D@}S>;B~;ePA%-07lySg;R6
zMzlD7X_jDI22Axc1b1{3ra=pu5jcA9fN<&f24Y*U2&PlIZpa|6R$3&4aA74f&4R$M
zO-ODN6qm?W@JhA{%=F8+ROKuDg8Z%MDN_}I^Y#tq^>10{tiLqxWU_@yvZ;$ibl8ZV
zL!=V7#mMCCOWBmGnvbADIA-CMNuHT>$Qi%d8DJjcI<P7n$Dpb{rFNif{uzFx>7Xf)
zr$e-oaYeG4Y?_sJQsUy#%gOlQwv)5B%H;g^V(m0XM2ueN?$`Sk>fUL*-B|R~5vbMr
z-n_Nsa?d}$=)QSm@$|C$hoc4OV8J{nO`uGvQIz9|`>+WlLcM7M>B}^_vYizZp&jLa
zg<POC#99<bmLDTtW~f^nSvK%+rlrdGDyUF54TPu;b}+U~0K0K%WMu~H-em>2XOZ2P
ze~uiRRx@>*b$ve~%pif^tyeXSu8hhnMhba-{{p4?|Ae6O6*A>uroGA-wiqXN(>Msg
zmc9%!GdF|HFE~R>p;hNl!8{~M#y6;qKcV1H5o|I-7?HpR)Q`ya78ZIh0Mz8S2q^+k
zwqk1`TCN;mpb6W8Gb;v3`5+H9SfPY7jc2B@%1C7(d5}ifi9*cl$QQUZb91I-ub;nB
zXdhm20FA}xW$aK#T)<YFq~Q{<z3Ht{x7i>MBeLxvtL|RBH*|n5_-_Hjmj<one~lE0
zOG=+~VQ4yRnC#<To4@Q*L*FNx&c^XAF8cD9dSs)LE^W?ogvLx>1sJm#N0*B3Zo%D+
zbDFsy=HO)IJ_cK&dh&<iE!BrhUYwiu7a26<;oy;aRU=V6j766<X?!lLe43A@pc;%<
zxwt{PX3Vl2+>hgAj?C2reaeYG&K1vK0|(KpWJM<q&s1DcI7Z+990@ds^vSYKbI5Yd
zv{qRql{n1^P1`W)0CjTHsTG{yc>jqzPZWDk-|aoUaQgPa!ubmu23@T+Z^XP3qih$P
z?Th;=jCmk9qoKeS<z8%<lE5rTFwo@7XqH>m0p#!KWJG^CX$oK&ojaFHZGi~*zoy~S
zcHsYpf_)U+q2Lq+zoFp&P(bvo?7&um8yu$x_>|+9LkvEp+!Xu|l*o{M28cnaWyjr}
zCkxG|3i?J&iNCkx>3(F;`HcmAJ?`6k7i|SSY40+w(52!E6q9fTifzUfC}kA5!q9Tp
zif-lE74ruJge?qx7$aO^Xw9g_qZ2C~E18uYA3U|r;T9f+tcgb!Go0({Th|Qu#kK};
zVWJp53Zw!T>y&4$PGi_x#x3@iaf`jE>)?}`Qr}~bY*s@+b+SXe0=A&L3fO{fx4;&Z
zv>CQocTk$ofFm^C06R2eKpd4y*v5ihumsjklvHCd?Aivrz!L?#Kvbew^jbnkL{lUZ
zn;gTpn4Dvi_!c3)M>d(x^hYm^F-QoOa##Vg_z+Wu*#bo)Fea=o>0s3N==IWS67Bfn
zUOEHv3A<s2ov0FP$eE13c_8_+v$Oxw$*WzPpU8eD{rDUteRwfKUxX}wH-UXPKx|?~
zh+-v@>~m@TF&uP(i4yj1-bOuOzH9yR$ARqBF;X%`7b_SeoGWn&1TiLQ0OX}8cClwn
zLx?C}CQ~|7{xF;L)wIqp$jihb<~QP|YTLdjEBkOG`(zvY#Der;h2AeJ!3cPT!ol>A
zo-ZiDzVIi1*-`qE))&=ZHUz{O<=~04i-TWKzvRP15IFmGrAm8vrcn_>CH7S-E={yV
zY5Qf=d^(%J%3@eQL--x6U?%?ZG<_VDL6!6^KCD4}hB2PuNqXanONj=lXpj=xC}^jk
zgMv;9x+v(TfKj>~6nlz-+Z2#s#|RVu0mY6`K#UsBR1)Pp%m+cO@Sn?kj9^Wt(P$nG
zahj8wzvenW;R2s<4S&ViKjG>=;ky5p8~lVj_X&6CFS&ug<evJ3+xH2#|8uQgqkY67
z_{>VhKH)|_;hy|ltJ7#dHzWAW%xU`nmfQWg){GPm!6OPb8oD*^`Py6loBj<B(T!&`
zN3|O3Jb&xP%^MpW#WzmsFKRSB3+?ZOZihBFimy#+Ijwg?`=VCUJiq7Gftv@`Ve!;7
fuj`P!#*#N))xV_C?2>@k#k0#hKjY}04gLQCsPAbm

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/arcee.cpython-312.pyc b/model_executor/models/__pycache__/arcee.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f0773a56b206a34d7451a65781f58b52d84af885
GIT binary patch
literal 15832
zcmb_@X>eOtmfm~V_l4jBk|6oG6I^9#w<Sv)QM49{mbKUpVmBJ%dz3(7q22>!5dq!m
zj;jo|)iE`b9#IwdnA4M~P$Nw>rz%OSD@nCdm8vMoA3TvAz%O(~RijjD{!Bq8J)WB6
zN6xu#0Z4;(|Hzeiargb6^PO|g`)^LCjRF@ld=h<joTC03BdRkifz4mi6m^ecDVB~=
zaXLiP7}mvfaeYWn!upsYZVVYo*bp;?OptGknd0V<nWULwmbf)!C1G>S7Pp7&By5Q}
z;?9thgsm}G+#Pb0ur20^dqZ9lw#TaCzK}0o9jYdAN314Z8>%H?XRI#n5BcNup?VT`
z#Tw#`p~iS16d-YTtSR0cYKE|f^~PG_Oo)lMhFVFyD%KWn54FcTLLKqWP-na=)D`az
zb<>oNdV^wpA5m;IXP!Q<E=KA1p<WJ$f}~^(l&t-plD(Xrl&yoZ{_igPQ0XYtM{3kV
zjfToKIEHI|XjI11KW7Lw{tZTgv}8G*;`qpw7zbffRER|<F{B?!%uT?rE|CD=J|2t2
zBPWuHspwUR)(EpRGf6%bP9^!tYvIXcd?rfjJFar6@XSp3DxaL4!GagK@yi!)%tm;Q
z9hpo;Z$?tlBsOTiaPHznl8*;<QuT>sY&M=aAK@dh7#AClCb$SMc`qbC*q#Kn+~dis
z(UfqWPfl`zkmRAZODlBl6c=Ho+P9OFkt=HA$@mqHWuu9!P_l;QrXsVkRQLlfdi7c=
z97{%6j+g4=k+~~enCIe=neg?SVPP^7<HCtZ99O}2IsuCl=h$c@#a-eO(5LV>aK0&M
z&v8*+1YtaRVMMa2vGeDHM#(!en@YYz`hjfHkL&#Tb5TKnv5ZINpx?TvfGZW3)50?_
z{Wu4mN!{_tbuP@sXHs+FXj%8+l-z%KDl!S{J}22p!5FqCOv*be`(7ooc?SX?!)4^C
z5Y18{9ZQGwR!aWIx>!ADU=8qR<czF|GqJifTw>PDnOO^@SmD>k>ZUwdYKms<A2~x7
z*1=h)tINBR!>p}x`jmlneq;#Qv(zm*<hV!$-I8U5pX9i6<LA?Fjd2`1FqPy#i0~{!
zroljrAqALOTqy>R&ku$fn6PqmYz(-bM3T7*CkYBf1SXnb#>XS)MuLMAlKongWw}IH
zh^9HoyKVJIl1<5n1|<g^%R~weFCJ>ia3vZMB-0GfO+{}>E;z5VlXxlwI5CjUbE#QA
zF=;8AyA{HCxi|kSct5A_Q7J8R!IGhV2A55}o-~zGt{z2Y=!`C7%osAJe*q-&7rI9}
z^;%}AutF>-Dut~R2c>CJ-b`xfp@!k1Ny($arFQkK@%llE;@v5yQk7y&89nr3{)PS_
z9$Iiep;K--R2m)htIcbU3R))8mciMX@C=`vhNEnYCT3<+@`~D%vne&gw?R96D|+qV
zrEP<3@`Hq2%fxqMdJlS~VjXH($;flD+2OSRazY^_99y=>uQKV5LFUawY>w$B1-qH3
zz?4doLo#-5Fld#GkP27E5{8=+O@+g}1NxB6%IJAq2+69AOR~KkiOq5+c|OVW$jKxV
z9E9*x0$MT%Tx^PO#v!(#$Dl`MM<#$%<Z%L$H5{IdMFb%n7I2U7Jfge(4{r>m;xj`t
z(V2l%ga<k}aBKG9;X~ICaznA`m7$rr)U{+{=w>VyABrbgE*9o)ag#tLcsVKzMet$_
z&dl+B&}`bP-jhLfZm&SH@F{qIf1BE>rmU_7vuN?JTN<`Zl)t}F*H-Wc3*MSSeP^LI
zu=wuMyE$LimfhsHWes;6TOO*RuTa-h@V6^v8iR7NP|nx0<uo^7F;~$;Ick^cp4pj=
zsz9NtcjeWU{vt&m+z+02|E6B=a}_DQ)3s%z>iXAe2eO8r**9TGltkZ})L}qzc#!dL
z^A>pbs0=l&96%+X{A6hLSiT2!=jnMJl*3v(T&dhV4JEWAUn*8Ap|wO`q#n={K|S9O
z#rPrg2Ec=aJs92xo<xTQ><+e%AI7*@p+;$sw)#rS+mJ25?V@f|1-I|h%tB^q<dYvQ
z7_xNsm4d_b>Dh&|OY|obSsHUcT=;M)vgT%#Y_}(C;rBw_pkZQ6qAmrUcwmvkgu{|8
z9ERgC3oIurIl^I}NiikI91gR|Nl4ZM9h3Azisy0WK&g_+7&#=8k?>#1By%SI5N11-
z^Et`IV&U)unkVN5SN}MfB;N!<;^A@#3*i0zN7PFlZDe5gJ9-K=4TV~Np{4z$x7|4S
zyvAQN!f(+;1zL(`3|S~hvtkGiLBrDM-RYtoV-CvgD>^acqP*2bH-<b^eNz$JDOOQ7
z*VjG_ouLgz?^4a@f%}0X1;LfhU-due{|19(mB`p8VOW~8E1}H-1S<10)~Rqaqr%0I
zr^);bIhz^yn2qo;3-B>B@HWeImDau%06tbZ-M&k@$}xATSGm@dt{!@v0&cpEH@W~d
zAPE@dCV@Wi1SO=$FY%Ft0EaNn@eC{HFjr#9$?GLv+0T3sO<iM<fDJ@afD#a6F_8pI
zn5Du(f#U*yG%4K9F&UY>#won7M8x?{7}#X_{qjKqxyJ_ZcQ85oP9~S3rw!U#Y5`y`
z8f8eSQUb6+mS%M-I-WOf%h9uxmSf78ejM1AYbfRNZs=2EURsw_#>5(qKy+I@06AK#
z=509uc+{L*v;Y#uwp?o|cixh*%v)3Hfy7zZ9xAir9WWN;KRevKg|)Mem^p5lx1qd{
zu>nJ;Dy|e==}>MPixc{&aB$Vp15hw!%o%;glCc7CFaYy+{X(~`1vl$aOF!~HRG<Rv
z5s~b0=&3q&0=tgVua+qN!nhhrF*TIYZ|l3Nw31|OJ^(Y-Wnjjo)=MD|CJx%Ibf)NO
zMk!GC^QcDM3z&}zf~o%xZD}hG@Thh|vhm3oE}Xi?r6N%eARWm;5>RpgOe!%+K6*8p
zh{VG2$gS{9Qi$S(1VpdMB7#)6OGcD}SxGMK5{D6#ju8kYS#E%Ef^i<t8^|UuB9o1%
z7hduuX5-=O++6r3f}HR*kcI?6Wk?pn&|*Teq90Dp&2W-gAtga4{|2;1aF1lg21qr@
zLE5@0$M`c?<ScsU(9=+nWXJJ@lLYkfr!cP_y$j$;mUwK2j5lo<gkaG0-Qem0h@9Mv
z5cKiA*hC+Ch{hx{Kq(kF&ySPXwTM7sZ(@u=I5oH(PRUVWFoqH<j}p1OGEhsVjLH<P
z+QP^jQA2%_9)`=~6^DI|3*iJ1-!KeKa?41VNGg~p`C)HUxVB2eT29a*gAB5^WL?Ob
zk;U1um=n+skLZF7Rc6*mL;#bh?zYUgaY@n*-(nFOK8!%V@F%p44_#&Wu+Z3=ZyXRC
z0j;fD{4Z((OK&f~x4M6==5W@wQP;e5bNR#7)LPw<tfOGB%h}r>nG24pT=jv+hAq7=
zXak1tt;>53ik^c-J>{&=)xRb>jsWOv?_KH24WE5_X|3%-&eHOto>{KV1rI;ozg9o;
z6{Tyi{ik=Jp~bPKlbd?o7;VeC07cYwX6+mHs>K6Kudds>3Qg^whwq286JMKjR@+Mp
z)zDM$)ffDMyuU~E_W(l8*X|K(_iWTN1y60xKd^E$KXh6gIt?v0U~~R9#Je4@q3>-$
zbgRN&#I+l>O;BygzWk4%e4T5nrAmgmTRl{DpwvrqN51)h*nFT+*Oag85dkIFcW!w7
zOSQ`lE0@>2du5<}Y4I4~<Z8spmaQs^>0Z8>?>;PcAAWo@f9!&I?817>MO@*)M$Zt;
zJMU-~9nH&Q`Hq8P$3e1^S;Oxvodn}ZR+TIWl2esg;h1xRWC58o$^s0WET?-ICVcoA
z1OQL#Z&zn@^Ln7ru;DvhMyKNHd0nDrw=x;MN-YUymRrL<b~qGRAJJ-Ag3-$nf>Ii|
zO{MlUeqU;|d~{fAN(YJo-9%8wPeLJ{1utme@ig;4K<^5AVL6pRcdZ!DL8^dDgI7hq
zC5VC3_20fF3XcCXtdR!qHU%)%QJu3l7V0{(rwRckAJ`)X_N+Fo1&%G8gQL~mm+yL2
z?0WU_(WgCYT^B`1d-mMYAviUkyY9PI>z@uRxz_yeW}VO5y7Fzu#I|EkoKJ79wY@7^
zTC&c?TUgL?-?H4a<{!#B3+}+uwVb;vXX%nf0sX`Te;CFA6!=y6;a@`!Aq#&LJzO^e
z_xWQOBIIxcLw^7s;QrZ}7)S6ve*#lS!4vQ#C>VbX6VZDgGyWVr1>^ewrUS-r?*@$j
z(teya+MatFi$)CK<&@#PnM5sW)Jmc@1ofl_Gyz!NNm563USs!jpa0&GyGM#f2;-e>
zx|g||DVi~6p&+mSZvS$%Sk+myVv>!rxwErGgu49sd-vbVxr3s$_ZvIp$@m|~jeD#)
zRb#RFQ<&mT{Lkt@gQfpW2bwG+XtGS8{`6=ywE!Y+7UX~_lOhGULROFhY}2(`5iJ0^
zu!`xR&9VVvcUURbyK7xD(V^KZw*dMxCo7k5?ovX|-DL!v6I<t8mFsfu%IQSfATkHm
zp0cs7kBlJ?>*l=BlCg3fSw@jpjjQ5}qzwb>f%*H0Hm@2kZIxt`<z&=nq`6DiI3`sl
zt`NS=T!~CxzmiOFC3%JE(V&o`_UmJW6cpoRiDjFZBQSl;6oM%RS#EGpzBD=lG$b40
zxCGM3$YUBdkq9vplXx4@>ERD=6aH@gEnugg(;w?UHhgUS*tAV$Xa4=9nQ2A!2CZrC
zr$#`j6{L`#8X(=K71IJgH7%F`p=wlg!3Z&}-38;chJ&>#pg{@aEQm{K*!H24Qb{Hd
z7-*@2vX(zmp?-yH!1ttZ*NFojQejNceg(|GU;=J|s|^lDt<_7oOGsQDcX@uQRjxx(
z&~BR=F8yW=Sz}h8HNiF1ePqe#K(>*Up-Nxx!7sF@VRZ<j^hz9rwUziiXWyMdqD$N^
z^E6JQYH5diWK=mN^r=ZwyUbn7Poa{AxU!YeRzJ00%|#M+RabdDW&Jj)<%v2sNE67e
z-3ZLY(}t_F836C+hI=5FF6b9@3-p2^L&5$bQw1k;W`iswYzMLrsGw24bR_)^D9w}W
zhubLN*=BBolND>0BY?)Qu#wl(oh6E)A=kkppwNiKgx4V;7n86JJd>d7y#FfTvO-f3
z|JOBrZ8Zj5gioZ+gXH=PpyO(XqWrt)vFIT#2nI@$gyfKA1V#H{y*8z)K1y@K2}rh^
z_<BT?-8^b{B`3VnOhtKs`9RpNOTJW;3xAO0*>Y*l0cAiVEEnOC`N)!sgOE9RBfAa{
zH$2MBJZ_BSC32ShP$ADivIG5t=QI+NtXzUsf+jhiNF)3Yv9bZlAb%Bub&=Uy;d1aO
zR}y%<lv2z0JR=1yL`IS9C_|~sLDrG%Vrf%xKV`YZ0wDleKRkZ?c)3jCtFWd29*PRX
zK!g7;D66*#Bh5h>Z0DPgi_OQgCQw}G>xRU-ArL>xf`J~y()9qn0dLz24NShFPi*Le
zh#N!?hyRn;^Y-p%_HKf-yPi3^9vyl3dcJS$S>M<T=0L$yeb0T@4d6fTX%jtdaCWxL
zhE`X0^mmS?EeF*)w8reoj;=$*L>(TbNh=+qqvP*%MyCq^PF)jd(BH}VI=8&m!#2^f
zpU6&29iI)ZbUf<Ys#QkN^~~P2;cr<s<(XlT8GdZaA37@@I=k*4&yN1=^b3F2n!hJI
zdgt_(g*yEDzcXVa9T4904qb2tmZo!#;L3q~-%+veC<rKfK(zRsrC$*cWMMPP3YGQh
z9k9UPuUEfF@duzFP=K58^FSwyr9Z;W0Zs^;DPK>wd{VV86*2Q1^7X+Td0$~=BppN(
zo_8~%n^~@3bNA&eeKLNVgiNV=+v6KZ$oO;$*9jk!1o`#|+cb^H-GG8qn?*P^z?s39
zok|g>al|_u@6Q;140^7F2RM|*PfLYL?*j8imYO#ud>}cQ&%nc*+Uif}jGiUnXx<1R
zJrdn{(^YD|OhZ`q7)Mp&=g@Zry<cUXsd7eDLK~&tho=Z4fq`Zb^mbGw_<ED#t25?l
zjh~gx5Hx;ih^p-o4I}FQAYJW?v~HX?-8o>Ww5}RwEVU}Q%Cvyc5^MNOlPNFaYmUa7
zN_9w&${r~_+EN-P%9zy=!ZYP4P!t1{H>2#AF#?w{O{7Oompyi0k`D|MpA}Nf6^?<&
z$eU3Xo(VyY10<LjAVisg*ESAxZXAQuStuj^x>8uym$?W%=LHxq{}b?#%FcpP9b|6a
zfQh(>{4Mn6(93`a&x12FK#ciWOu@zH{|P4RV_YI=FWn_saQ&y4{}FmDddPz$?@kge
zz-tbBOEMC=&f|lUU<VJVs_M$b*s3zZs>rWjV~rr(4Ir!VR;Q6c5WA{dbH4tUddl1U
zyrw>16BKKLE5WszeMK|nYyhdtA6Pi`+}EA+?JZI|r>o$(2sFp(!nlcQdS$gm42)#Y
z73%s{&WLpfv!|Z#8O~YiHyYYEK#8;O-fMSXTQ=mGJtDJbwd2==e>J$~82LNBuF<w|
zCVOJB2HNoW7TJ95un7O%!v#-k-qRy`dJ5I8%csQZe$aq;t6qXw-M?~rb^gh<wXQdb
zNPYiM(G9JDM#U5O<iotX_nEu*g|Dm7HuU&i(K7~PtcEv77%0e+0p|0=_YW_>zj|t|
z@hCigf}DM0!|uwtnKgUs^2jrLXTith+V;Yna*n+qbLT7pnVgzsqmS*xR3kZ~KzQy^
zSAi`25*{H-qz4W<lB69@B^~O4p4XRN_tm_4fc~S@BK<zETyD62EL=*s$n+fttH+Q4
z))z_&DrqzUpw!)uuT@T;)~o|cWiv)~Jh$k1Gk+Ey0nCJ$S<0R(EUYo5kt&ru0NF83
zt1@<}LCt!BHC^w41Fg%L5@5B!nq(3Q4;e_VOe*Z8sf=M-6HH3YlrBC^-C1DGWX9f<
zM#_K;Xo{nGTgG;qzVlhe2ISf@Z_ns}Ji_HeXg}|mch0*qPN+}g8fJ{sHKktE5ac`5
z5dlFrPHPZbEdhD}tGZIW1$&3~K(e2=(^O)lOymKfOl?Wae+5>R$iny#R7v=mx2o%s
zajEOO>&j?51}0{5|FnV1*m>O|eW&?*$8J)_j-~hSGH%Q}Q5y62p9FRE>db$iu|prT
zFm3~oaeMkzG<RZ@+t$y3QPm9E>D(B)K6DeQ_%sK$JjsN>q>{|ktN;`p-!(8}FsKje
z|G_$_#sS~oAQ=*U177X_8EhaVU00H>my+b_5`8o6<CB1+=MY{DMiV!~Q#^MgT~n4g
znH0k0>66`-47Nr}vgF)m9Y%NuSec+r*jU;)i0>Vjf-cFxM!|x}gD>@L$#e^dyTGN0
zuqC<C5>9?)CAIkwjGxE*A?ev@T+&BamPc7tGV|O_EHcSS7GO03KIQUw!}vc0FX)!J
z%pELPt0+n24h48!B5NzziS3vWCS!6Evo>W=0*DJRL`hAQ=O)?6h=>J(WF(bIXOfc`
z!Og&wNG%g~z_F5z6p_>H%JPr`7U3G0ZiNA(BK1%inDQ$lO9u`|vA7e`b!7~#Jc9v-
zCj2eoYF`-)ZMK}H89;hn<I=u-;~ueb&syW~TJ2tVIB4tqv(BvZMSHL4XvvN)4iwxS
zD+bZsU-0+~?yi*%(LI<OKK=BPIQ$kQJ$L(Le42w2&29PSA+dQV-+WALKK8`0)_gMO
zIk{*9@43Hy`HbivS~PAj-7ChGAFUt1yvDq}=zQKeobNm!b{<&kJoI?vS?AHa=bjwR
zy>&r6aS@(Eyv@MQyv<A8^84$ay#-HG-qR|2T9<p*Jp-io+NF+#A8jy)A9p;luQB6`
zPUKEL;D`axIWHQX*ED3u{>T2aqUV)G+tS$;f5F$h%!<BVDDb?l5tXRRXIC5GWd_Rn
z>h2xAdvv*O-4|S8ANPraCksuji(_9@*T3-fuIyW_UiTePQ*b_`qCdE3EHIsUX0OQX
zU37loX~L1No?7=DEseEf-P2vDZ(1~c;i)NhQwPTBm%Wsy_6xFjpUyALFTJzw?p*0u
zy)O2SK<W#3*K%s*(z<&Xi&VEP8^r3)?8%Kl`|`<^W9vuWS_@prp8LX4ztp+hwC;e1
zkovr%Npv(VvH#uCUYw<=j=th8n({QMtXURNYAR~M$M7DY0$eiSvn7u#QZj*90`@XH
zbm9cm$rz0Y$A(xGEM^X21IWVpKSpl_y%Xq-f>*9Ek76Qvzs3v-jv^||4YaWno(bye
z3tb1lvhM>OIlP5c7p)kwQ8o2TRiD@2ufO|dk>ts0am<U+w6TAs=2w9SVB!M7$DP0J
z|4siU2Eim|aQLM?Xlzon=F1(Tud8T;1jKOlM3HXBn1yN?UL6&i4;8H#1pr6%>Tp8p
zdW+Zq>fzm=1{MN2f1haWTj5qu{(Ahc#-DUNnf=e1|CkZ~;8JeiC2{bwXuZ7Y#PV;`
zZ_vi3<x?w{SNA?P{?_puM{e(^IB-(z7%Nhk^>pu3;lCXEhJ<BV4wqyS{xqkehfN;V
z=-aw@z)<>M(os4D*oHNJMuRTh2-Y{2DFe~FTR(DzOlW_~R)eigMNK_x-z6PvPgx7m
zt~+-rA?JeqY9$ehvzBSUZJ_<GSPHFQE7g{J2Gt{K!0o$^eV5u$&x<byY!&AuI`@iw
zl<C~fpvzZv?mnmqHn?Cx>je&5BgwXDV@du*WLAj8#?PhC60*t=ah(WAlOzX}>xrwg
zk*gd-v|qr6`@vW?#a%_A2Y56Z4c#0cKW9UV&Ci0_P@Ef-?F@+Rr(QBC4A`V_U6age
zi4LAm!kLg2Z=Db-Dcn&6M5Q-gyUlkYw!>@)aMgC(*vcjzmGCe;c*2us*Z?gPSB7Wc
zkrEWbvOTRLghELTQ-9m)wbCy056f_=zLN4hqp$R01T#SO-VRqL{DNYEHK=%yjMNCG
zFQzifUrkL8J)qsg4#)2UNdR@VJKS{Zjs%E8N%fYNWlp!1MU<e5gJGq#{<n>~%rI)+
zkivZ?4#rqPX^=5IvZ}ZdTGS9eD8GYhO;tWB?{Sy$_NsMCzfeoV{Gi&lO{7h-xd%KR
ze+b3Mag-dO&qOm8*?I<ynUy#oMqDk~BDozxl0Ams6UZk2$Th$fkAbr6k021NE$NT>
z8A#x7p!WuPNEIa`xmB`S0b~>~yhab?Jz4!L_l2lWGAje%Qy8-o9kTpw08z{Fxb~8V
zj0L_4P(N;vHOBLh2evch;ai)cJc@q}S+Zglk2!%|<!V{^5xk5}X!>>(aE1Q^bwInm
zVR5Q<#0764?+uFHVBWh|^zH@KtgL(m6=^NAa`wrACp}NQa>w6VuektfSlbJG9V%f_
z1qv$7Krd0YA^<AWy7uIo_KQvXH;B#24^}U))w~9(+$I0AKUdca#>oND$le(T77L16
zckr1z_`Ie4^UVEBzU83Ua`3U?x3=Hd@`v6O552k8a(>b9&m9{Lt;=021CM=c4M($Q
zH#z`zfr=M<U1<ajLnqPjwt{(bpm(jYk2G$goZe5*ES$+Z4v3BefZME2Rm;kwCUl4P
zW}8wH7naa5T>stGt!Tyor(b(ELCI5nI;qeFoUnfb?Wx;Zp@jNiA=}#v+WyM=S^{g*
zenR!j_gB#o{V{HDA9O%$9Q=WM>AUGdZ43Ty-Ct<vE?U8CW|K04Ww-+{ga@=FjWV}q
zq0%;WGg4YI|JNa~>-?!os##FIDs&i3MnKIc<2)Vz7+T{0EqHJp$*IOpC6j#m1?&vD
z(J&^u@WZ0n6bGN`;AcPSmT%2?dx1a4iKBV*ZR)wVChzSMy?|E#Rpw7KtM9LQPr!k8
z*JPb!s@rCXoswB1TqLuE-<__KCa9!dF3k^jRtBR#hETbhousDa?_0{ZZHI#WFK`y9
zwvbKD(+g?18loGOdG38V%RYIlP$Jwm3Dka*Ng$Ca*PmyQAt+k`S(>Y4SIO&H`YN3O
z%Uo7}m4**ZutjjVh0~}m+u_O=AZSeg<8t92u||>sD@hrCFg@^?z`<ub9FhH_i3C_Q
z6B3H1%FH$JVw^y*2$C`&k}N}320z~tf`e&`LPf!h*^12&MF4z<<rJ<*@oN?Qa0l$C
z93(2tUIF+ofFTjCq)abyVTcHzo;)H|!^y+%v$mZ)QYzi_t>acMv;HM+6WZ#4Ce}n%
zwZm5cg}$L*z4qX>eBYU8eP@==+&_{#f2q*Wxzq%2PgS<8NuhIXqPuPRVA+caSU*h!
zt13xAQtb?}i%`B1&}9BfRzb4xLnNO6fHVCGdboe&web4{pufa|=%GQGumu6dV#os|
z!s>fgJzUi5noT)F0|+Ju4t+&2M%#)|#Gl8bU*k`4oTiQ(rwaqGytF%w0Y$ti8X;UJ
z*<h?pvcc#M$p(|QOE#NMOl#H~YgbPGYW%@Ce1c-EeSG=1@BQYzr=#N0^P3ni+Gykc
zlFYTgBy;UAnrz1YUBn*9QKcRT%6AKwAvhqpCzJ3&qO7hOj9i%{iz!*7@M4gHPcQ`X
zZXlUJGKCW=8*7c=Dk8O(9A%a;0x{>38i}>4{IMkY4ssAJT>y;3%NUPutCEM5U{P|7
zUID_#%8$^UmCRh_m*K(Er*ZNZO&#A+mQ*3{$9C+k^}C9auQ18yRPt9;ecx4>kmoYw
zLIBO)@2DX^v!h-KKlv;@rpp-0gQFX$RGrWZ<;%@MMHMxhio#x?W=+<oIY~u<yD`fp
zCOL8|@FO<ZHTZCn6L>_Bd@Xiil&ca7f%sk4yER~_5xu`a5BUi{h906maz*$!hW4UI
z_>|=cj0;o}uk-7W2KR>&{v~)tJx$YJ*HU!nmsH?Os`jrb$Cp&~msH39qK<w^1;3=;
z_>wyGKdH+Q_(rFvb>CRP``SX$ga4b_^Nr2~5emGmssY-Y<v*QUnA@Ttxb;K&9h&Z5
z(tU2dZ{4CWTukXGUEP*0siT_~tM1j`t>2_Dys3xeB1zt2jpt~(f04g8cXw{Nf7SLi
Jg>f>A{|AFc0;2!`

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/arctic.cpython-312.pyc b/model_executor/models/__pycache__/arctic.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b7a3e4007bf322bcb90233721865fce39a3d4a14
GIT binary patch
literal 25739
zcmc(HdvF^`df(vvCinmekOWEaB@%o}6r~j<>b0V@dU7Aq?yYfJ<0#Hhf&`G<0raB5
zJH^?{k>|ZE<wrz0z7qFb$x+#Lj&@aIos;<FiW8rm{J|0A19r@f6?+}$DwUXPYQ3&F
zRmtz`!3;p`P`7u!s*I>cPtVt1KW6&t-}m*`{hvG@Cx<I;{)Jf08yxrNbfaFjd}QMv
z89D9_$8!;mH}J-|Az_Rd4HP%UO$l?v%;M&_C1OFEC2mPrBUYAXjoT9Th@Hi4aYw=#
zak98Q?n<~L?t~}eVfT)BS;8CfCdwn_iHb-?qB2s+(w*_DgfHS_aaX)LQ4^_Qad+IG
z2t)#j+DI+C_r&WG^^tlOFN+5g4UvXKW27<B6lqF?A|aOUjW;J+A}uUl9&b&wMcP=r
zBHo_Z7TK2Qh;*>~%6MlY90{{{RlF<F9qCT=M0(i0FW#Hzi}bO0b-X{ZJ+hs}YvMZ+
z1Caq1_s4f81|x$k9*FNs?2hb4yq2$vKbP1O*^?NG46*zA_};|6$iBpIWH_-uvOjSk
zav*Uqa?rpTIl(6!de5Nre&n!`dx7JFZ*hEsV7>g7`f>`t@0s$HM;K)zD4Tu+<p`q;
zfwK8WP#$HJEud`u5tPRSC!=ixZTqun-^*7%@&e1T4LLgWa|nBcq4zBL_8q@z4tLIM
zJ25#Sh{EK!&^t95zZp6^Idy#^K6XV29Tvw^vGGu1iWlO2Kcq}ygKR&M62!3!aRG5_
zEE$iD3!{h{Cnpg)4yRJWWGXgAH`U3j)6-L8Dw>)S$1g?4rxMdKWHZXHBV*&2gd<av
z6S0f3^R;+9p~S;x*?mz+MW?5u7saWo({dx-fnjn=jIvrpr^m#xcwC4_#j(jNa@*F=
zuTP0_KAMcp2y#fD1NcNmfxkLVEpf#rW2tC->f%K~#I5seEPnOyB!A{=9QE}~Tulmm
zRJbuMh^eIPRBlsK(^o)hd*#g8(J3*3%GaF{#ESxdWGa3&G5J!yrl(_*!k8#mynO1l
zlBDuiglTl&SW4hkqF1J_Zze(k-qTYTW2xjz;?%g1L{A{8^5v^z=;fI)>gjyn8Rd!*
zL6|-}EeQOvm-3zKD@r292>~w;4D8f#;?y*~jWVsoGslH7Uaom<YJBX1ns_vELE!n=
z<VEDF=7ou|tMOFyx)8f~iMnfyXY9(8V3$uEOQpmlh|9;XiukJVHsfQd3F;t&Ty<g+
z<tGF_hDM)b@0Cd1%7>=Z`G+)4Q7z|L<?Bhl^pfmR<E-6bi(Dn#NQq<PsKVGyL5#*G
zdEtiak0t5TNyL&#)R%oKti5ta0$+1fNKB`0g0xVB{HK+SPJq>vcvE&ULdG*GyAxwK
zF9^|TQJ9F`7*~dj5_<AC8!sX9HAr%Six?oyjSf!z$2)nWVB$@JnKug--Xd6e!wlp<
zZ^fNWuuZt<xCsMqf6EiG^NzQ;h+~esVTd@-a$y%n5gT}CPQNrNTgR1Q;!wW6XpEP=
zXs0M7WBk>zcr+28mfdgC=YRpm22`2yQ4<N?RZ_O*TcFN9RCx#fla$+dfZqNU!yPU~
zsqC7!rMYiFLZ~vuz@-hB&Fa&_Z<>o@7E`XY5qEj1$#H2@(v3WJ^=aXE(v{}6;FXt2
z9G6mim)nZ=GMixwTq$<Zfc^y!-k3J0t^btcP2V)WZ&oE8YNxe6RiWkte;rQxrGl>|
z&)EXb*7vLm7jUM&WEa}(Q{#nS-gf0VjuUHBel?A^>r<lEj&GXOdFtm4saiFM`YuqK
z);l-3uygc>^a_s6nES5p*m>V1n=i!1lHzuxi312`Onuh}?wiHkl(2&W?U8IwLc+}i
zUY*PfX@L)65X7!Ak+L^5)7%$&k!AxT3&oP50vX0~2vbB~xJ<SnRS;!+6vGPQGb+0-
z#duzrWO7&RLy2<5rUA#~v29{vGRnsiViggXP<63}V#ezOvNO*Bb-~Oq7QZSS6~!r0
z^b&!UM*PHN*pAu@@d>dPiL4Z{pJJ?WteMn!*%6J7$H$V%Xf#QmVo14e{qN)bsl;^u
zbZojeH3o5=>b-IGxuHE*o)h}xu?zjvH&d6UCi|~pQtDTx9N~sAeih<DxlQ(uvBB9l
zeN)^EwlkI5VC_@8VHoMjzd-P}x45U3oTF^sCfNgz?RB~O=4^ehRNp&ierylqYFp;a
zZ<l>+<$8zbj%D3#kKAn!ec8h=ONU=xH*pTn+wP}!&exZ7muKBU$sNpjD&9Fie|~Os
z@ny-~n5(GC)wbtqf(x%No?AHh)MfQK!O#A*jH_xxo_9{qpDtttaeY{$Kf7??smE4D
z^tSbK&Rv;x1tnK-$@<8(ZLKnxtL$3do$Vf$x`$W0_OEk>0|N*u1~yEls<L&?<S9eN
z{LQ}<pEG~MwSk6m<C-kM4M_qfU2Y(9hsJRpd*N2Q(gyWQKaae###s~SG#R3iacQGU
zH){ZeCMSw0Hght7li@6P-!K|Bi3dO?K2O0x1Yxsy1V6Gz{Y+Dshmx}GB7UO48-{3-
zBprPz;!z^B;bXr(Ch{{Cg}0nf8preGJ_NV8Ty^c8*KfbRn8;N3%sc073l+IQ@Sf|g
zYw3kdpl8mLt8cpZ+}-Dv_GjvM;6s@6EWDZX23PGt@fh-lEkFFfxQ>mUlS%kvFim2f
z#$a+r3G`fzQ`{YmLdeIJCt?fL&4iJK5kEB*7X$1*nG)G2DW0ZVPyX{C7l3o3_YL9*
zQj_!|4zae0J&3Y^8j<{21b_P$w{GX^g1Jz8ZeVw=sWn#<_}JTSX?;>2T({tN-OBm=
z>o$sku5sN#F(>B_FAqvJ{p&8eb#t{1>mG`gaTUH#DEr@x8qAgk)>u{`b)9yp0&N2t
z&ZfzfH$+V8bn4*vDs3_~vWXN^>g6(xix%OPr&ht9kJ$tVZx@{T3D<!M*Tp*p_vJb*
zix%Ns;2G3zwFvJPoV-V{OxXFdx6BbQ@7;o~Tt9un%vT^^`BwQRjC>`YS1<@r2?*fR
zAi&honPDe=k7o#k_fF?QWhj=IjtdFED<-c)Qxhs!KQnbSbecd>AImn%grsasO)FT~
zO&k)*D4)6s$-P-(j%#xyTCO34#~5)X2*F;85K`KxOk1_lYD*h$7?RLWQySl*c}znT
zm<x4h;b?)U;j&wM7h0rvPEP}~L^Zqtj+Gjj76FA;4k&2GDY+nBG#-UVGmuWm>rzwF
zHXse$fCmk`l4}OIfHz+0WO>w2n@csQWNCA%QH{R`&UAr$xe`O%g1Z7jG2QZ|+SO;5
zx2dthuiB%Kd61t`4S%35Iv;p4km^?RrVYR|mLjZ_e<R?c_03H#MKdeAz)|ZzHI3@7
zI|$K=%jkpBE03V8Kv1?K1f}&Oa)nCsKuG;!YNwi7)Ek3pTH$w#+TeTDd*6f?@kFOp
z6B-IbubSU?s1^bAO}$#$->**k<?7e-8MV=b)nq0`Vw_!<34fGaMg2xoV#$Sa^+f59
z-EXNwD&xyE=ayV3MdzD%->IT>RdQ_V<)3=1ew?2FskKLYPpPA7r=T9Y)p+5TCk=^E
zLCF;}sL}%Rw3x@95<=X59v;vh+@oSEs6~=O&>)~l-Zz!Z2*+kDeT0pGo2ag0gaS>6
z5NQO4jfGTb?N(m628)nvVH1q(*=#9j6NiYyUJ6K<i6qy>pP_)>vs^KGH36%_IP_Z8
z*y5rj^~Ro8_j$RhC^?Fm3^t}KvIQoY=oOJZf4M3#CFHFG6Qc0uRoJ&~%5G@RTDt6v
z!A_7&jluFIlBy-!@tCR7Oj#m!uv^I$WGhiEAIiMR`hoD1Y(lq*)f6*RM~NhKW%F4w
zI~lJhq1+54MTi+_BV<rf%n=r5i4a4S>{9wG%BJHcq=-=jVF$yhih{$sr_l47f+Joa
za)#<?vL=u~*DVFzQ6Fo%$<$FzH<?0u@~e2~e_NuPd{nh<=~||$Z_b|cH$L(of825`
z({daNg1ba(AsuF?RKHWvVFDqLcyiVC+3J3&x*s>rTysaZc}Qv=dT{Q0=f8ViYCb`v
zjZYfdmkoE%FTa-UeL=!s@P+U1kb<Y_S?yY&Woh{Fj^{IhBaB^R4<*+>arswWO>6a`
zZ2f>#Kai;(oI9NhcCsu_yj59m=#e+H<`3n{YjO?YTvKnZF0>d}@-2MjslyT|n;ZGY
zacD!e;as^dTON|iL8wNm>v9dv*@ix;p^vh%eATP|4yZ-7$oTdNs72+zcV@pnyH?k?
z=BvGP^7hGGZ9}#;EY*gWcPyu}{YNGIbsv40%D(Ug>4h(>243GV8LMjml3V(6&Am{_
z>MIw_zidMlg4;jCVldmiPwL+H;9Pe9S!w^-)xf#Z+(G3275me2uD;=3&)pv4aO(Cc
zs215krxfVS1!@;ZvcUlfe}Mrld9A5G+q6$=+Lvo=$u{;&js2)db<Kv!p07<M7i_#Y
ze0TV>{4~ah^htrftyxjke%TJ)*3*D4y<@v=d*W+dI+tyKPHKN{-DIq&d}^^kOLXT6
z?6>Wu1fLKA(+Ok?1EsQu*%SG^AyIbaWe4dzOv@jqfuvr*S&EMN`%oKTztS{J4G|Fr
zA=y@PiRD0U#hmib)qJo~87>p|l55rqemeMY)|PUqq`*@)hAOabGlN9sPL<rV_O$7;
zh6&X?gcsGBPppC^&CX+G=&QyFBgv$+HErfiY1>zg`BW20w=MXXH9j?Ze1Kf@_4{1h
zG$c>8Qc6$Ti)zJcxv5tA{auOvB=b$lRnQa++)exo+m!ie#&LZ|pYrOJsmXDDr+QBl
z4xSI>@56SHx?a45K=$y^Y9Q#DVO)^S{20tTY$~v@MGDz2O!CR=vD78m4N{dbs><3V
zaY|8el>%nGBDIMvG&tE88YP~xGkFOX0Y#m%uz0dq{wkIOCdOy{d8+~B@1}|H4^cw$
zuMj{6!&<W=Q#mka%k>R>C-E;53$JFYJEiK*$JJdAtN)<x_v+@HurFk*yQS*xIp<n=
z^}@v^r&QCm{DqY_?|<>ZNvY>pru>CDOU_l3bu~$@rX|;7S5I!&^AC6ZQS-w+(yr5U
zCl_umH7}i9>iI3hs(**%9w?z5c{x{J{flod*grNIj~dDteb@4vD|_#Md9`K#@4UI{
zKP0&iL$0~~#YJ>I_dA9MyB^r3uEUh&Tg~5kdEqOPyCdiFzO(=9`*ZG!th*70s>PW<
zc6Y&`<*rps04LCJ*(wUDtK#G)yAh2p6aH`fbA+%P87||d^wO+F20d#LPc|Y=w=Cq<
z#vnb{^wGle5^I!smZXQyXoqfx8F$uNH0DW<(xpvX-#5LNugiI~Xx27spLKv%N1GM@
zj5nu^d5uH|i(dh-5PuDMHBGTl_sdm<xEf2_FB2*$xl|da%86MgIM$R9;r8#r(N(Zo
z>uI2nK=#X;He4uKtr?zb`f=eY?Ctbj;JVzb{1%7EQ+%6`Yi+bo4sOwJt)I=N)?>?_
zc~%}*LCb=6t^b~lUvaWk5S{n9Weyk1q4S<#_ptM}_wA}KJ?jP!0@fv$Scmk^l0@7p
zU$f{cvI@AhesibYdLs-oi%A_#FjYB5#WUc<R0%BQxv=DiwZ5@95HQmZm<$gaMEF8*
z=RjbKO=3Y1Ypyj|J-9SB4M}}1CR}IuUyKtco&qv~Fu5*{QEU={?1$Kf-Cv+(3ZYom
z+pt_s>&_y9TQNqoR-o<4i_k-$CkSy?x@^OW7?mhqCo*~g%AyDZ*fcMPJqqk*0?J7m
z2DA#SQYy-c2TRgG__Roj<yi3)731coqFQ@pH!TV0;Y(7sv%46dlzog%UW=i{N@z$)
zx$JuJgoR~2=n6%xf{rs0n}jB`$yS}DdNQ1^28yBDt7uK6+_2T@ncBkCQ}XCf!6Eq%
zftO&oZt2gq?2_<jZ<=#109&?a16@*}Yk7bG?m?;lU?y;A&hrEY?4i3uOK)U={PPBE
zfBl`A+cQgtZ-05tz4qMUoV#{$|8m=Ry6$&9?0IT3?r}=?!8!NBrPa_NjKx@vpeeyy
zzOZ-x%S*m&^A4$b$0P5KC(Z5O_P^`THXo9j4?PShiyxW8XEV*`7Rquh+rHiTZfCaT
zd8y_3hkLR|&PqqlW{$j?X?bnI`%!&}P;Aauo%03njNTs2_}X&yt@jSzJ^0jS4px3@
z=c?*%cPw_^>$}^RsSJPY;3{fiod!=<;BKjTccytyQ7L<*mOYu4y<pwgjphJ9-%I>z
zVt#bR_uKy8^uru}Z}wMb=U-fD`|Zx(?990XIkzw83qWCLa<1CzX&I$F>uP-DYFrxp
z_VByIE6tBucdoTOzk1}gOv@Km-Ay@fOV-;Vc{`S!E2lEvL#y^fY(m^L2a=ql{~Hqs
z*xCtxOD`ZY{k0NpC1lo^Hl8KxmJZS_%ykNtcpUt(Rzf9;zf8duCE*CgX)uVtgdj=P
z!dIv0m#1-~t%?BO<X1)Dx}>d&xV%_ZdgKb?HD+6OOD(%sW-~2E(Gfrr<*lps7GQ$b
z4tm4O`!g*=N)I8KbxPPWIy!nz97QqVD)B}9h%Zs_G6LBajq+3D(I{I85nrKn8ucPA
zVz9*!@hrv8Q9z0?Q^Cb)#AK`DcEIqN(pYMV_$mdjAt+uUd7Tm|p!p^F7y(vDJ~kRH
zcC2k+b)>t$Xqn`7gQbkElTZXLtgK#0-L6}=v0JQ`1@BzBePwAxs_9&Ju(YCe6LzmG
zoUo{}a>Al1qtDX)#9Q%BdOp2wK^&|D4R_MF)9W_6vvW1I>kf)Ju{N{eqF7I><*;G-
z)$g3Ye}0{#_ygg4@$berSbY7Y!D4A$diC4q-#z~+hbZfA*35CVP`e!Y*am$OpLKHJ
zU7CY~;@CiL4oVCwGZS{^-eARQiw*7$c0GeUR%P_l9s21LR^EwK5+_?FabfCl%U(su
zX--G^)eiSK`4{E=Aqw`YP5L8Qec3qs&p>D;>l@JYN<AQ8lhkxcef<y=#E)GmwevJD
z3gF4D);Tm?6QflJ8Ky04O~F8G3Q6Nh?&r5a7NA27Q40;-qC{PkQRK0}>Aje=<;r<{
z_&(G}Zylw$J~ga9gq3wDOY5D|5GlMVbaN<eP|*e2;!=AQ^jbfuY1CT19?SQG)|a5t
zLDWdq)*T8Q6$D=JvH+DH?s`^Utt|Av4wgl$G;J6Zp+ebe3>4aX)2}6Ont^TtI)X{;
zDng!H^^{I)!CmVml@se#owo`71ZyGiQBnL~@?RP1plKheu*zdgzB+Zt>pVJdmpAja
ze3^Ev7&%mwi!!w@Db-t4rVe-g{zIzHo7uG16;k;YepO@)#I3Dape|aeg%u(2*S>;6
z{w?d$QlL>|pw;{CfW6r}aG^ik?-kwwv_s{B9mO-sFgHWw7nRf}-#a$r=zH_ZHF&d4
zT^4sC_1uiDZ%Vm^dlEb&WT!X<i^)y$%pu>m8`0^hWQ-gP;bbtD6l4#q<CDVFjc77;
zGcI6d0GNA{Ts8?PgY_ji4<^N51+#+44c8Z0{OMIGIG;W`#e~mrI~Ag2m%S-eA|54{
zjGyc%M48S1if}V}jr@Z0&npWV)H=W@KXyZ0qB88ngtf@}red+Nfr@z{`HPzf=fJ$1
zBiuX5FEX0CB*4~VOJXeo&V-_manpK`-i>U{_a7|@G7zG5A-IY3LCa>=M>a*RVC~=B
zKg!z22uPFkG8If;Y{3td%y60=AAa6kvK<ni?D%EHK1MY`n9yCDjrJc^?#@*1fsLuD
zJ=-)SH4TvoJ(wdCdaLAZUAicFdsiwRc?VYQ1FPNvX6WvfYI|4wQtckF0~7}gAC_8%
zDPt2XJXu$Z<Z4;E_{i0ptMX^7x}++Yq@=3B2Zl#gz;Z*YRYOmz>K4ys8wMr(ZF;a4
zY+5ob4Q5;SO09bzT$EamW`f6<RbMk>FOOt<4oUcf{y_^2HFb9;Z%;0zzCHWytW-0|
zn&_|3`a30m=knlp_TS$x`KhMvCmp@nj-yh?QR3GI!+y4|TdM2EBX15m%k1shC0_D(
z5$Q*PaKS+e8p@gZGwePjxkD_{D!E&W-K>6QwW{N(*IrA0Qyy5q{ZIqon?>}%{QKYC
zFS)lDIFid%ljd^uh1IHd=n8(y>q6f8R#37cm0Gbr-zC-VTC4CaoVydf9nDm<=js}1
z8G-V6u@F$*NO?x*N7byjBQGynm*|peyQnbLCG6GJs#ess8hO9rU>Hw!s3SV5p!!?*
z<i<77f*Vp67$^$h>)O(BOEXt9Q=DlQ6N9dyK-Ull!KNeX^;0jJc*FZf6%H^Hnq}5H
z3ulkZ8o)x0^A}7maA!~rMXYY12CW7nR7y;7piJ9TS{UXzJ;Qw3u8Mrd&4HFWfICf!
z$pgj=6J%xBCjJH(!<qqS?v%KUxOks}?@+Kp!M{Whb}B;PH!0x+0@(y<qF50OZ_0)%
zvf-NSB5@IgnPK{B3gU(RCJCu3f`P&!?JI9xKCHUjt2)>yiH2Lqb&G>iP+4=Q;daB~
zY^I`j-a2QRdpTEGeJ6Z7ym;>37w>)%8hg+Eo(JadxxedP4Icgez(P1vIXZ8fGtBLn
z8-sv&=PUDHS-iR2y!>*;+dprnbQ+7X+cAvb9ZO@Gn$9^F)L>egT5@H4J@bw^>w+QY
zt)BC+ukOBSbd;%a_uVCGoT9w}$mDglg1Q!?v^x}>ra)IYyGu_fa8q;NL_~34>)B39
z864MK2Q5yfkl`0flfOk#zHD?0eJt;@=Ac_Ad8!fp`twGorRGUh;Lh;v;dKk*$f>GZ
zbZ6(B-gkoY!A~8yW9?&g7)SBirG9T4i%9x$H76d9;uFwu;2dsa+S8AzCBea5SF6&|
zp7NfnBf>a*%S7fhrYKM)lel;b?bxI|(Okvk#A!@GCCbxJ;67e(5KC)ISWuYMMKoPk
z@`9rk#<;F(b;BTHQx(QJS8ydOaxOQJA(MeA#Z???AYGu&!z#F<Yw#Mfh1^qVD3)Aq
zt_Tztcxdvep!A@Y`RBzfkg5ap;2wpZr3>}ZAo@>%mq+2sK)z0E!~;KtGBoI$B8LWc
zrLon4cd(vv0=l}?Wf8PaQ+3!P;3lUOXCJwFM@cB&Hx@wUOhw-X*fg(1lUS8Y3gpot
zLSco+uWS;gljn}jc>0R>N5HhzkH?C!cL1?)MG-0`#}maFML<k;W2=w0yMm2v*`d{f
zSxMyb&y-H;lI#}YS4qa;C@O(X8j}#>iU$fM$^lHiDQb(dKdR_SrB+$y-a^#OO%@!B
zc6ng2^9WT{2Sv&b)i36TV#FH(;U=f|BA<|Y1yL4{dJR;bCsEpk;4`3dljHiDuVdMo
z@%7I+a)IWh!*@N)HQDeH34i`058ssh$LHL+U`saGF9rJ_1rM#{eLQM`mMY0^szQ{=
zYE>s3HR=f7kgq^<7ZKoTs4W}XA%%9V1~J*dzkRi#Z?&o)q|G3GY;OSI4RtJC%XSP&
z9YYVUWe>h09em|+(^+~LT<h!y8)fNn=~%YyIjQYA7^K52Yda)3nQ6%`xwfqrjw9Lf
z7OA{t*_!R#Cw1-vVF%nl9=ltgTB$y8ED5#cng~b2v7}+u&uRgRKXx~)J2-dVt67`X
zH^C_y?o3SHLYD$gDL(FqmtI9a?qnIEJS7(dknw%Z2Ml&w6IKgBLl#`X5?!bzzJYX2
zm=ze7l%|QQEhvm^EmWP<3PkWiP~j13p%0)ms0a#+TH{o~{!#p#)<5$tVwP*Y5{v17
zbcvfdhK-}}RnuM+hSMLQH1YQ-`1ch2Aq9U#!S^Zn4-}BN3|mW)8+KUbcVDqVE_<|l
z5><>xl0dG4+KLccozB?H8_vH<L+^*k#6VkJ$6Ogxg?gkw&+;3Yz&`9Ez@CD#yJfkW
zrd(aex`nIl*x*c1MLhVVYde-3q`+>h)CAf=saf8Gp=@xc6x_LTCKG&q?o5vEd!=CS
zav~EP#(jM!IaDEWND2-;=*t98<cZ*!wPU3>6Ffxsu+K}uJ#%N)g2NBq$OKPOT6p;k
zvdo<Ub}DbcR)%#O2Y)Js5Aq$?<D=#&+Wa8?8|vnNOTlXhimmUzONkVGk-FyR5Ge(C
z9eIm8ev1Jf-4+2nx+Q?O?xL8RbC!MLq1Y>idP{=_^$;(DdURKSdbm@d9@S<X|Fuh<
znm7JCl8T`o?d$$E?B~WFK(k<;Ff%}Bd8-UNx~*GmT(Ie<WAlI=W^X&TK$LBn*QuWu
z8yXzEgKd{^Z$Y6v-J)!PJ)OYjhqo+6hIg;*Qa)t1DM11E2Dal&cG1Qu)$&er?YJuL
z2+z=<U;@#{aO2lZUo(HrvT5_7j_F+wHR<V)UpE6wkv36seI46@^pM-vE%Ro5^Ji4k
zP>V#BuBj9pH2hL17Q#^dFbatr#CKk>1NCS^w}7|6O9u%;V>8cLCQQ8XEqmIiZEVbQ
zBAvJxAtGLc@S++L18*IJC#W@1oN899s^2E0wx|?^-}fy=I8`$mr#e&$-g?oX&#x#S
z+1A*_oWP(~S5Ao+nF+99mD4^WBBa+tR_6_>(XW__z5nKo^M-jqb#yk(zPO;U8%IS6
zF?b=+0ERO&eVB@p!_d@r+$tNtZrxIhZ?b(jK9;z^j~$rVR`jWBK&fw-EvhFEAfnLy
z76~b8382&CdIA=U?xpyH-Jh6@LB-7x23H2tlB_b~?@=92AP83%&?pSAw9iM~%Iml^
zp^hcZZYVpi(f({^#1zSsM)6K?v%XRt7Q#qZys7iv14_xV3+~R?kk9U92OQ$^QEUFW
zkAdyz=G{diy;$)-5=%1!r=1jS`VpI|VHY_<`5sZA)8UHeGQkr}lZOr+Dz<w1^!ogt
zQ4jwY(Er^nZq4pd_f$Tq2xcq7Qbjmhu~VwpIcLrJTeALs$=?qYT8KU=HUzE(2gri<
z;{1z?uVowhrH1~8BY*JX@4X20*T7(6EzsZ4h=JkAHp$)giP7j`b4&v^TQW<Y%Q^%P
zhh2m?1B-3H*0<dDem7Qy+q<)E2c@=yl-|7Nt6w~p4faXFzLjIy!55^#7ase_rP{I9
z|60xyTy-}rUduM^keYVD_jfx={$qO&n`vZ+qCUWTMA5!Uda4(Vefq!AhG0u8o#qN~
zmJ^SI5MRHHA1G4nwfq_4N#d$*b@VD9kXG(YUQu8&zOUrrzoU0SLl8bB%nw`ghL&nG
z-tJX<H*3HsLt3(L)9zoWJ~+Q1iIoJ>jgpGdJ-NxUpjjYCP(ty*eh-DwrR&n`Pn-V%
zbop7!WIbdr@hG{9Tplcwj<o5PvXBb<B01U4T8b<X`mTJsy1%}hSEc+2_XZ&Btkp<1
z2*6)e;>}v#_Ly}Xmi3m5lAeMM0<Mh~Yy&~R(8VCKw)Cc?QHXN#6l6hBgddYKPLcF|
zwu&<m6QPQdW2^WVNE1m?iZrssH3~jNz_v<Y_jI1DnbMyiP)9X=J_?xrZxs7W3aA*_
zqDYebxF!T#gnz4w$8{d~K16ks-$Yinj^Pgc!hx)-<B_X_K%%!Z7wWz3c|!W&pcEQh
z`I$`UAnvO=R;zZdx_2VX1-Gv>Nx{QFr`7d~Blk|-J+<u1hKHo^(1XG69r*5nA5@>5
zJNiMec_|DW9o#p6X5GZqoHBgmt^b8DXT4pIyj^Qm+m^i#8df`A$W$F)bss07?YQe$
z>dgeU156io>MG;tGiFQ&HD1qn$vT&H-PUHzRmx1kuTww#V?=;*pBz5&*IbRoxiqs*
zKM!_(LO<)<4VIqe>hA>a2eBL5((|DGdp+On*`O$#kNO5ahVw@O&>{{%i#-Em$%Ly2
z0ota4l@Y0N5BZBU023>QO|~4ePI(C&GwbGRpj&cuf9gS+0(_~0<M^*#D!$p6M71{q
z--~c7{FWhx-Mc)%FF>#bhhX5?i#!On0R&s&`(e{VPP{`u9Uz!|KOD3lnD=d&+pV7)
zdv~3@i^1TsEhv<yTa+$1DKB8K7ckhxmv6yii`+`d`8~jHzEbcAWr9VYhvHsOG6_B5
z6)Y4(&MLIMocX;}U_@8T70Ng|HYFYzyP6z}pFYFZAi^dY%bc{tD_gJRfAdSeqhO@q
z4sAZxAQjC5^bNB)h2(3AMHlWJrS34F7n9Rgd_7D~Yeqnynxrna%NAj7Bd?h}3hO|~
zr=fhTJP|l4xj;efVOIfPLt5+6n)FaNw&`lf7@Hq7hgTdaLc$Uk%23Au;(Gdpp8K=d
z5885tLvg6L>s%kP>p86yP(1o0RLob2qpk%@w&`-4E``=N1@x}pyXyP`t{QURqE%hG
zC27tZ!26a_*}@<%Y%|)IDchh!(#pN~5DdaK1$-=Kks#(M*iHe1?<AZ=DoXro3O=A9
zNC7kLZXhOCrD8%9M?&EcCvBmh!6Dh2-)izD$}mO&$vM%FKrUBYeQ6{qM=y#070IeS
zNUN?=3s#>IJTI7jiXm;@^iwosHDy93$-j=AP#ubZZSGmXR$1g<s}AJ?t?!?HQ1j5A
z={W)TS_2UIHZ6C-V5_Zruld{aa91;o!pgc<)wE<?c4VpsXtNyUb7KMkEZ#T2FYD@h
z<mw{-+pc%JvMobW%TTuEkkoQ$ZiE(`AH$h-^ESZNaJF^7)ViN=Z|I{?|B5xc{jjwC
za3=ITB{e(&-;?tvv+muJdpBlahew6FB7+jQ(0qMA*gbf%l^?9WrBwYuRp4t>z6&-R
ze*|vDu$KX#ndZ;P(^9~@LGOq@3I=%JnVFx-dc%@8yd2JW2UqQbMW9#I5YZ-NOG+z~
zuzhNSz_RorGcT=5sZvJ4a4LSM&s+WawgO;<udf(*<-Ng+zrH;D`WtE(Nd(v(u~o9+
zp7X9V=dND3x!SV(fd^^{voOM8myCQ07$BUt>0OzTz?yadku4PxUFZ&APSX!AvSb(D
z*xw*Uq@jz&n<EsbLS?HmAUAm;%Vl)196a;$j`=hBlQ4?gx|za=5|gwvg(lmvKAx@E
zCRJ>MYf1Xu^vWBViX+e=wdHHsrU;1SrWVr##9I6krm#C4Adlf&hFRl9Zq|hVWRC|y
z>7}Q-K=sfj!2)!L>HtKIg-w&5{T|+v$_ZC63bB~^n<gG6BK5n+qUYz!XGK2SrhEWq
zY+=<x-lpQvGx^}Gs(ks*AFKRAK38e^Z>NiTL%$ETslU*>YP->EC(&!Rv{|>;+`K1k
zg8{AVo7hjesnz=Q-aLKz=cHHpSCrDfecH^u{X?jH+KL9g56w(h)Q)^qZO^Q|076vt
zch-?AS99p?(&8)C+;nc+2)AH(1DXkQUvbX5(nj>rdEDdMopsN8X3Nr^wDX!lG`#Ij
zJN0&q;kjEIp-#|{3@o|$Dz!|}l6I!;jNf2k9~ja&l?O^XoVKT(Ozrljy?P*Nwj3&R
zdD@$HrOQ-h+Q1pO$q&u=veANLKY0tbtX20<T&rJ1t<0#^@&C`Y@}$e&_o)*H>#w7z
z*^hc-*8CeYE*ReSZ_zvSti8}bMW@+#`RbzcY)B&FD!f1St>asCTy9pL7Kdr4`sEn#
zrM~?I)R!ErYH)HF<o<7fRQz8Q{A&bi!e3FsZx<yHauOdPn6W9ghrXG>ruBb19528B
zcE(@&B>zC!YFzqM&BlCb*><*>&}V!P=;VyzBAT|MQ0uT2fmYfiHO8Jl^rCOZ3GQk&
zr|1z9)Gg2ySM$yMs}rfv^;kR}O3~@9U*54jl!#4YW=w`?XFc3lLlfduA_Ujg(2m``
z7h<4h2YDv@LWkqn+BS*9q^=3^n>`^oK`=5L9jR`V=0kgmv(S-KW6JrkW0QOc2Y|9d
zdI2jEW2sPTD)c3`HyY=r!seV3zNFM_Y#is2;r!T?pw_7mp2T!)A?%ZcjFj^)Dilop
zCrFSj%1%D(*z`0E*5a2a&5SK{DY=}E2H*<^ed4?g)Ptb}9OEjRW0Mn8wCj&;I237d
zS?r)7N-S(R)&tA6qS#1xrZJv}TL^<1|A!K4Q0wt4Dt8<kg5uGGawXojQeq*kI)64N
z+az8{W;+O#Pg49JR4%nocIBy93)CYIlr)&v>8yhkk>z)svxKXZU}xQl^FPHT@uD^)
zNvk6h+op@z+hjMra&<4_Oyg$(Zt-&mA)*9^?=9}Hjg}T{XKMr)+&jFABMXNQtlAss
zgu5@^{$jRzK&l>?bAD7^x48EQ)!XKd=G={0ce~_ne^S%1D8Mw{HoWTFpHpx4t@>z(
z-nz|<6Cq4i*wD*3Pt%W^1AE@zoWHqv`0HPOQr?m+4@>3YCw0wB?MwdE&f}|r6FK$f
zh1CG8ceN<4x(3BnRHC?w*3X;c6UqV4+?Ebt!Jm8g=dv9mQpd;-nvX7=$oaxq-*(Bj
z9j>-Zf#vXW{mRMJrh^Y_R|BV@b+JP~s=HK@#-+~Xq2=zC$ZF`&!|-b0^k+#v!v*U^
z)iob`xt3#w^&<wZrsL`B2F_o<IGC;9F4b?(;PjK4opY|WmiAxA3jas;vUgnbu5~O+
zj2fPr%ns*MC)d_3xtr!j7JC0=*D0xd$AWY5)N&wK)d&M$RTnl%lKV6EjV+y8smu6>
z7tBwp{CD=>-oNC3ToqpCA9PE7M?tj)KkmU5-{Y#?lqJv#ugO4o!GbdZv!R_*Xy=0G
zgL1s;r8icNKQ7<@L3#ChEw}r$VI#=xJ#CPDyB1C^xt3qY%FA+_<nPM`LUj7!@ZI5M
z*GeQ)e`sN3&EL12S~>UFzn2~cJC@CGNLV<UYYQvBItyn$@ZseyH$1RE_8tDfSG!(C
ztT$@717{6VU}({a76fwj+m?Bp36l%LJ*V|v`fhsp)PuTA)5xNEt$tu-@PY4f{Q-Iy
z>Ruj!E777Q*V(K1_$+!p2(;&55#GPj{rvzszP1i$aMm`i`>BNWIxZNxxBu?`W&h*)
z9V`69ZfW<K4}xt4uDB_1{RrMhV0G~E;0Y*8;krc+@!GZ|EWhzMun*fvv+f27>pc7q
z+^y>{xwUn#^M)dA3X7AY;mQ)vSh;3e5k4@D;QU8Tq=;nJ`aGuQzau)Dj&X?5Rh$$^
zo{-p7O@Xd6?f)ct3bG(c(i96Tbgr@UQP=U+h7+siI%bjfD;8<|kVP6l>jMVMu7X8+
zSHU8^3nOp%kRjK*<71bz$SRFEj1#I=n(m6M(sWy5m8PW4R_P57r3EZ-)5V@j+6QSt
z9849{^`cpF1UGDyR3;iM4NJ$DUtQVxz``7ycaBKCN2Ru7>l{7${?6|w|8UQzEUsv_
z)C1uY;y=NU>>Z!NLF3qKJ~f%_8@n*Bbf+VRc`}7FH<QY$NeraQ0Z(P*`9OPO6#qVD
z|3^JbB=s|fE$U#^$HUte(;t?>L|P+J947k4+0o4+DL3pL%jGO1AH$iRu?v{OdA53^
z9Ct!?N9LK7&kUs))16pG?AlpAW>Ld_bLHUL{IYXj;e21^INi2q&?-lqlV>HV8*Dqi
z{49Dl&9TMdN~%WlGgxCk4Gu(ShySu|HSG8-<pkjFXJupC?u%@3%tY7mj2wC7!unk~
zB6a8Iq{dr<4=0_ZJ~7RX22;-UdRF!Fo2NAMqF7J;@T>xrWqg|X*@5<joXmDfEBkV<
zUVW99%g#y?^RO^_H5J1b$&gH~ULNH+**s+BJ5>*5Pl_Q*^sr1x<(xD@Y^JnrEDgu3
zPbLY}31U(yCjYTwP%!w%y!dgJ8l9_-bJT^T*oNF<JF&1R<!++{hP+@^;KVQm%wGE<
z#Y_-6vh@s;bjqQ$uT%0}3VxS@RSIZm-shBIdK7VZXeh$*fY=KL_~VimgzF}Q!2l6#
z==}?>?L#j3=bZaP&d1{W|CH<h)MzmnH#h{JxH$s|hX0g1`60JwbNX?^hupDGjV4gp
zIm2Ot7JUg1c7Moqf5`QI$Q}GkZpWuaD~LD*AD45^>V?-cj>cQor`8@r!-DaS<F?}|
zhv?IvHAIbuRyBp<Pe&}L4ThS93$&HuDM#_AKa10M3=NBw_iFFfKIJIB{*sY1`kxxN
ngIx>l+SuR_-7q0>of4m7n}88njBLSj@AB*?SbQ@mi+2AHPng6P

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/aria.cpython-312.pyc b/model_executor/models/__pycache__/aria.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc07b13b37efdfee25fa0cc3b3359813fc9be8db
GIT binary patch
literal 29070
zcmcJ2d2k%pd1v?B7cc+@$KW22AaM``M1bNYULZkAlt@q(Dajs584WQFV89sw>KTY6
zGT6v2C4n|}3~sU^7&{S^&6c1@wT6;xnXav^uxhtzwaISnv_WOY9jc6!m84v|e+&(%
z<Z@+?-}hd3&%psDS2kV1>(}2q`t>`$`@Q+AiVBy2D`xqv=uch}grCrZe%ZCi=2^2K
z+!7)}M2rb>F(}4OK~vluG>Zf?#Vm1a&>FV|ZS2_`vj^>fn`4f+Gw5V6OUxB_2i<W`
z&=ao+Rxp?~RvGsOy)15vRmH1=)huq0)x>>4AB#I;weh-O9g90-_3?&a1B<(2{&-`s
zk;UDyrg(F(nZ-S^mUwHhHQp9%W6u?__IMx|VDZXWM|?+c2a9`SJL8?fP8P3<?TYUX
z?v8f_yV!GetUKNl>|ybmSZ{n!a8JB1*caa$+{<9TSbuyVIKbkyvB%>3g8Slw!NK@Y
za45b%xSzr6VvolU1P`!yee7WTQ1B3oH^dIdj|7jzp9nsIXMdzIb~Ju0c#OrH5I-I~
z!Q#!alkwr;aQsy8RQz=CG=sIoM&f6JXX0mrXX8%>pJcGs*i-Ry!E^DagHOkw2|g1)
zA3QG#CgDjT()OkhX_t<?kCCG*c!5C!fObeHq|@(PH25fk?*M$K<ed6L4lN9g8lGi2
zJCSqO7v%g3%efmlyQF5L{BsQ24QS67l)uDs_9EvV>5NhSGK2O3x>tI#;0vB-@P5Dt
zq(LM13k>=gp!=i)(hH6FBqQxbmNtmAA!%Pp+E-12)HC&`g+0LI(pRMyq!&Nfuh+ur
zcpP;cDE~FmDZP*1*D4DJZ<u=y{*<12%&OyDQj)`0Vv=gV5T2clPEV+gOVVp|()5_r
zV^W>N)6+A_a8in>_VZE78XH9^*RUK7pPrc>k4~tS6u&H8PioJeQ{m*;<XI`4oRg&<
zQLSNl<(WicIGL2DlhK)JKr0CPtUNO&B@#0-0InBeu{f^+PgSSF329_59=~yMmP#Z5
zYnzagA=H5Uq4-QhiiKvwXip3gIXr!p>YyCqv1DkRUQu~zGAv7xvvUb4a$)8SzNYr{
zOl&Sb{j65(d~{k0%WCy=GuMhiDC|8yGZ9TD3R_t7mANpQKOd$B87-|eie7k13P<pk
zx`;F$o{J?z*QDsgWHJ<+2}dMZZH$L+T#-Vu6c5jauD%{hjD=%TXgVCHPV!xN{`}>0
z7cPzrpAS8E=E-xHE<g7*^mEMx)Dyih6A8yg!pZPRbS$aX<zZ)|QY@l%dja^FYhigJ
zfq{)vxB2q<sSXads14M^`6S~*)f!6B9x)xxO^?s0)p(B2CZCgLW8pC=j!{%S9Q6Eb
z1hWILsW(RK-1O{RGI44y8pCH(1I|rj;>4v$6ge-m@k^kaJUn`7Y!W@9y0xdt@T~Mx
zk>;kT)}BL8M#mC^FGLfCUEWv>zl_mOjL+Z=GP<lb|4nD&SENV;-;hviF3ru(&dA9`
zK2@#IVQgGcwEBE391o93W0+j>`S1-4nuCEZoPSnz@fgj!9*bH%JeQn#k&SQSJRjc*
z?U9xdN;X6jq1o9`Jeo+L1#GIuCG>;p;qzct#<yJ`(-tMWIkbn(-$&$@APGS+A_Ps(
zgWv_tk|kmy^dVUz=A(4CN%pBKtwg~Mh{GANM63~8#I7&>alNGJQ6(ded5~JIJeAgv
zwo%$irEfTTTxu<?-gEKrg!F9mx)kFhKL77r0bC<d%nur`#1ZyPu)TpRM*<8l1QOAC
zsQ^BGBrrOMagqZw<AEsEm?%gcD@+}m3{Ou>vBLDpBY~&bAW&&3JT}RzD5&Auk-&@5
zNOH1F2Gui5jSsyZj?GC4)snn1E2*X{(?6x}R>etGyf&)3c%FDTaTVX~2(bkl3aPFT
z;h;IJ;E?JGg<hKr$7m_z$sP(tX2wDxnfMmf8w#P-ghHuD0JRa+nw*ixCRH1s^ztsi
z-V-(v3colzkc`g`%tmMTCb5d8<lgIZ2M-^*dQcjOMXwCZ-bhZ)Ob@&cTsgpTpmbdt
z!(5d4V`3nTk?EhkA@4_JEI5QnVgkXh3lB_ot0Pw<xNDaB6<5c)rDLO}IqRtSw&yL+
zj~u?Gk>!r%ODj9q9lLX8(b@gLZ1&kU1+&$ba|zW=TE?ZM;%Mf%cP=N^9Xl!SF66DY
zZBbr%M1OP9<aPo|*XB16{AR)Qj))WB-u_68Vv;)rrx0;REST(8n&>nkBQ^<>F=8Hf
zEDGad#PMbY_&TTLkepZouBm!fYf-=_EG?FZUGhjaij7+$t~V{gibdhN7_7V`^mx=d
zn#3Hn6rd2*@fwixtUNRIo>{fM#$u}Ns&?loqpEF;6F(0IemWV_o@{(kt2S8z@tYpg
zxEt0uD?*xBn=d2y*WxW9$-or6Wl0I&LV8L}nNsEtM1A3jLXt|cYl`Mg$)!{Dln^rB
zbVKMdjlO4+N0C>)h@i)+S`%}GkuZ6q)6pcRsA+l{gg-*WIC(>@oSjL4N)f)B1{QtK
zs#+3KY+SxTRT%ZC&QNG97EWLeC#Y4ltlyB&P@c;O=G)5lX21T<=a47SgW%_H2wNV(
zS^1V-arl?(S7Ub%q#gcyj;FUALVL&CS8reaPJGewv7?#IBh}7{XkyHSvie0Ui}mFw
zD8(%S^GEz6alw=%y1}lLFh%Jlm)>9RYxx$;`To_@7Az@oM0n-8AiRt>E?5_A5mU<g
zx*&_+bf-*6IgAw4y<lH(EI3mRq=`uLq^wias*(%o_V=}xFIZFNl$GY<f-B{k(vf{Z
zi3PVwNV!w4lr81V&jC@G4p@YI*`!-9l5$1NNss=dm&n(mzgZMgmMO2EFMm&2^_~!g
zZ_eW#7OV>k_`4pn{1mduPa{yp*Yw9{*yC0G@jQEcU4D`76-CTWk3+RYh*_y3q!`Il
zzl3T|NJ-T$b525jmCD+I=EBLOEH}`TIUI@fc;v4kE<+R))cQm+Ja$#DB@qJu#Q0P<
zv48PIh`p$Saar1%fXwN=st)9B11_fm41=p~t-UOtBLPk^5{gDtE6c)~m7t!bS*~Af
zva23?k;d93=695z^@VwU1=S?}8-h24pP8&XTxmxe7C=Mu^8QToV@mU5>&=7f^+Sv9
z`#X01n_Y_)f3ve!@w6|FEbZO!wy*40yj|HU|4$x&MycAj<XV1a)t~jXtwa=GZ??82
z+t7R~bu+c{%v#fW!_g&6*1vOQMDh15S+jv%nZS?|7+R|MQB~`*wDQW@Q}?Ql{iv!g
z=M@f|7eNFXJGH#`16`}u)nB`J^7-|^3r7BXRYO@%W5&~}cv_buAA5G@b_$()a-Bj|
zYueGm7AG)`D)e||VhiMB6dXsO*3a_c;`GrNFS(0y)KLy|0)tIhL#9;<YB)C=ljLCn
zoT6Zif>}zc(2&lU6pMvI?}>5{&;+gDlN|RvNm(f%T$gwa!O!0mvTfZz?0qWTdM<5g
z0_hq$n639eaJsC08&#b-EABa)(9pBGU#TC++3C?CRM+Mx19H16KXX&e-)wDNd203f
zwV^xKzwrFPlO7sT_MTBX&*lWAd^Ge?;=dmHoT8lIQ5&e;#-%Ut%}IcY37%w*nDB4L
zKM0*h*lcflf))@g>y)vijk*Mo#IkUZH3!I=osl&MmakK-qA3aHd`cPvTR^O<J31X2
z=ki!W^-e}3!2EfDYi2G9h8@c&E<cMmj+Q4|zm25wWJ^b#h2)AzSw#H6q$4GeC>m;Z
zC3RLnAaYld%OH5k3O#?stfMK^V%MP{be7SxkP<9cqTz(<n2=&~p=s$_k3+tMJbZf9
zAf`HFOwI%GlYR8;(w_0%GBMD=IAh5kE5|rDsO&rize)j{Zso{bV`(oNlx_j#60{nM
zDBV3r)2EGlSFheVk^agH_ZnYZw0yJje$$@Si+6$_N%xvA<Jo)P*Sb8l?(12!e9OV9
zUxhYUz<^1qm<CdJ(*Gt%6=)zRo<aQp(5{rIcO9c<ppoS%V?N)4h#bZs==Bh9@=#6U
zCE-00)I$C>WRt&6!5atwV7U7mh^t~KL5&0o<=E2>IStZjWZwT!|7j_2A$x)_${Rwq
zx&7_qw~w#xU2i@FW?`{n>9wrC<!#4p$4cwEe_*kKGMu=5V)fX1^I<)Mx5YqD&Qi=|
zj!q}}#K_~C-@vQnISO8<Hy5B5>R6eA6eXNP0MwE*xvae#b$&u4y+9*Pt%N~(fk6NR
z2I)00NN>(>0S0;g-Iw2aIVT{xCVfBlVeE5?a+E=JkKy0A^vS(RjVeYNK|&dp2oT1&
zh4H~wpbIOwWhe2+Q<X*?Mg*v&Jlw*#YIFJ2aT^edH3(iCe6kY=#bu~!I6?{kF1pA?
zG;ugUTr#i>B%1(7_JM0r61AqKz!)if0-)+#;}c-)Wgt8qVX0@&j&ev};M!z#Y?9Td
z)s_gn5WU=$2ynEN2w==+0?^+86lI!)eiwf|bR2mJlXKul0x!|LI?b5#SGp&Y$=Sq_
zfq}`ni3ted<Ir97kIf7~JWC8D^IC(%Ks+3s*5oN9G8t-TVTS&Etv&4J^!;?<wMmpk
z<$7n#$OMF9Y))n}Ux0BGB>5+_hF@g(wxI390rV2ITD<p?lTrZu$gD&nYxfmWriDmo
z?h8OGC*KH7GjX|3>mNefyh)s2=NMdLIoVtw!GR%)KLoS{g99Cq;E~7RDRIgWC5)Mb
z1(3(y$e~lVd<J2PsqYH_h@zAsv}{wV%(O)*qyBA5m48>Bs)$py#Vw(yZCaRTrhl1I
z28B*G>u;KB(PR00vR#i)1@u_{j<4I1f6`+>zeepk3?rnC==+49aG{rowy`VOrN{C}
z8tFzK6tuBd&zZk(^S=Ch3;{bipqDCN22dlfo|9TS<<CFqu>!upNWCG*Zz8>?F;BqN
zRt+gY<vYt(LUIPW7Fq_3>-UudR=m#Cg}PAg)@dl#kWA!V^<fEx4Ac~wgxWTtItj?5
zHYfnFtW<XrT5YYG0-oS`s>As#$r7}z8Q-c}CFn<Qs9o{!b*@li3IoQ1m2J6|eT7WZ
zPjxY5NiCXIolNgI3OO8n3W?+)lF1nvQa$4mq#%t>>SUHl>5NU`gtky7uP-9928Z$o
zcxmEi2*9D-cT_M*9Q?_~&YsN9CzYK~E?Vw60@>z{O!I)!JdkOALTP@2VE$}ld!})(
z(zrL%IIJ`d6AzQEZ^_j6D)qgY`U6V+0f5}u_Fb9weM<YjO#3mV{TP*O$u<QtO?^sJ
zU#97h(sYQpolol;ZoPc-<@=uMZ$I<aGuf*8Ox1Cv>iAtt=H#==$!9msri#i<v!&jJ
z%q~bw&3jj0SZ~_TiZ->p-FLfhC7J0usB|4%=M~;>>C1YmGM*O2)3O}Nv<)h4gKHz-
zzxd%r)YXb=K6W&6wo1INI;poIN+zz3QNQUIQDBBF_hZ3<s}iU5l!ALiY{b(xX-w6+
zU|BGypw*eumTf^{0s4a8yxt*#eBS|kUp{X+oq~?6QOf!Uh6Mi&;@ir+EoGs$LiZq)
zL)#G{Wo;6s3?!IuXT;$5rVK_rp9;3!6fv0l1zXDW^$RIeSsjB=PDzd0wYGvIHI;q8
zNk?^4#I%=O5nIYOMWSTMg*Iu3D`L}84C8r8vruwDL_xbhFx1=&cJvW-R>=jZf#mZ^
z(CcV#((en76bWFCQJFqX-i=_sCa>FOm`X|n=8puR4i1dZ%z+n*PJ=xl0$+sI0^#@!
zj26iN6my9vY;yswq7JBH|4;uft{zeTE~@XTgldmC1^JtJQXS7oH_piNjI3I&N;eYn
z?-9^BH=O{gk>(}RO3p$GRIB+N@({3BObWj)$xD>gCS9Keg9hy%Vai(o$-hs*Z3I0|
z&eVU00Q7FvmFG-UH{nk0168NNrl@v`Mxk4;$YWcub*dRbg6K8lp(x<OJh8p=Of753
zul*Xj`*S2EV3~(l01kU+=eu3+bgg#0)4Lk}-o$$oYvK2%mY!L3ZMf@c<sVS+=RR=1
zrYT#~x$@G=g`6M`p4jj;WPE!R-=2)`F~#@Tx^FODGqkoZXEjwH0HX0#f=jQc%z1>m
z#!PLWQroxsl2Utk(YaAmf2;Rq?{aWCny%^2)C?*$gKPWNYaY+k993$LLV&COXn4J5
zbkV-yu1&iGS${{yKcx7FfP6+j9KAcd?mxSDjzRY*{ynRB?$7uiSNxB!UAfcs7kxkI
zyZhRI82D&#-9Nf`ZUX|2_qKOcTs?Rvy6j!|Kebq~QCX9zY*#AVS1j*(-|?<htOt&-
zSDsijZ+L4KU0jx6l+#rr@W?07YcjD@Uta1V`AepN=0t+jwvc)rK<aVi{B>5>@_bIf
zZ8h>4-E#Yd-u?&nCaZ75UG?pwZyn895r<e*+j#5f&7&)wif?z0k|7_tyx(qltL1Yi
zo_Le#C1dzEE}ie&JP%Ob{uL1=b6MnNDz6iPUd7J!DiIrWBaR!^9=qxxQmC7P<r%y{
zzDmI~1)OOvWPA;#`R}oqp{v){dY)B=o*1f&tKBI5*X1#9#B_B8sow#9D<e;nB=><;
z$AY@98Cv8rdAF&*puC3V?ZArvl=6<GE`gS%7AbqmF<~lfcX`YWg^iBgouHCs*x9m_
z!l`3YQMf_W^~;vqhJNH*QB<!vVq>HBo7?m%AGP!4M{T<@`H|E{!u3nE-}ObkSk(T1
zrhb7s%|5D{uk9ORl<TLAhP{o&@t&xfi5WIs8-!|&tO%+-Im;wc)jBpgH+_{ez~(WK
z7AF&$LAE65|KV(a95b^wLOpIyJ&KndtA{){RMXt7YMFqFOZCpphQ{V(8CnD8)S*@r
zxESO{9?+=}D^MMoxi(#to*-_<AS^m*c@@C<ra~mpUu3cPA<`3P7=78Q6nsGMgNyd8
z+qX3LLw5@hT2<}0Q*Wh~!$0)4XPdh-&HYMq|LSXNSJKV>P(IysESZ)@vO7B8?S7|w
zb^rH{zIXJ_b1U8JJ5JthP<EVK@@6}`-+lU>r&p8TOTCx6TeI@?dgsX97nRNn>8g(V
zZ9CtN-i~JLI@7xkrfUz~xw2(8wb%SZP4ms3<>BSmerF(O6{@Kb)%CYrH(i;kfKnA$
zY5urs??zQ!0i-q4aY*Snbf@~x@OsDbkE>2(E9#bOe^}94(*DkUna+bs=fOJ`(rbUz
zk?uUW-g*8bH0OCVCtFx&x??cYaa8Fzdgm*5#r2L;A6K3Jf_K8cP}#;1Ja~qq=+(Ss
zKqkpa{v8U2DL6$zf`V5mI86airofqj?@^2b1^<ct2uS<ZVm&Elx#W;DvxmWh-|zdd
zPkVU!0*`DsE4HkZ%qyg7ibxGHA9QV!(yvt02CbTlYujLh=GrnVY|u97-nb3g&TP;Q
z$uU*KYAFh!k1Gp@s@@55<YJmNH#kK%SJjj26x3Tx?h9Kn16?$EFGR1C{}kzf&RhqF
zmrMk@$%!ez@_~Jn1EeUT2@No*-=vtPU%EUQO=$YIXdH$Wa@R?)+$^U=eiYF}TvNRT
zWH4jkOPOvhkes;+RTOTl5s~QlxI}9)0M?MT;R<|%NQD;&vvQ>O3dbg9WT^d6A%u1E
z=R$30TO0xEo|vQuR-IN!A5#MYI1No%{0fxwyme>?IS%!+ym{;MC^KU-8eL?Wpk;2x
z|K`upXC-<qh*PC{EoekEq9h29CUbcMYdI1G5>Ut}XhUC40lQ7ks-oG#9>xu^<$Zh$
zU1+U7MTMjx=zyq{DGg{jy^B~*?=lbeAVO{i;#3oVQ(*{ujmAFU{f2HXuf@U_wG`&(
zanxnx&8Gqy$Uo^ZK)?JKm>?XRNjUxk69}xv9inB`dTk(Dwo#H-Vsky3%L7?oF3&sq
zwYdgEbR`*gp*PVWTv*W`;D`ffJo&d#O08xBk>;ny2psc%P%BY-Zj3zl67a@LaIcD*
zypoDf)e_wHyHuk$J_8Rw$VS@h_<JhYijy@Pvb+~L<-ert^?LS_7CYjx*$`Q|<o`l>
z37M%5%8SNdRqcA^Uj@9ZYX-Ab6`~nK6Z8uz@;?y#ywEEHx*(`^NR{(xYx~<T-_~_B
z%e8Me-)_z{?pGT3uSLFp^~0-~0~eG77t;RGbq^_7+Mr}XVe;hY%6e)to;JnP#v+}H
zr*q}?OxK8lKhFqY*~VSj>V{kGH`}+|wsuyqd8<nBcfzQ{$!pf%mhty1{{C!@|JK0G
z0ruRh_<OT$om|GFI-1+j)}^m5e>Lsfy;be>qo!|pIM)9LKCH-ZgcdGC8FvvW^uQ^n
zIVro$4gMGvXczPdWw~X82PT^vA*+&$Or%C0GxC(-cfal?DT8U7pmCx5JpM1i8wB*j
z9Cqu}f+)sWZdrpu0frZl4I&SO@EO6-NCV{?F0z{tL|2e9Bjb?(^XAh{5~zr&7#LEf
z%=%SinMi0J!=acoJ&~O3Gpd9pp{L;8&oRHK0@DZ8#(d%Wxhvd}z(qy{^w)>Sp`&1*
zM5LyGps-J43Q|rlsG_{$rN_=W3|f?`YkY2+8L7fC)y8eV@_$EyOpFCvQazRelcl~q
zIXO~m6ENT;By9<YG$KVaiM{d+)xq=@%%WMe$~4tQ6GkZ!LO!f9ztGr52F#3~Q~??P
zpyD4~J9f7-bLz5k>hik(c}V;1JKs*-POV<Jb8Nl+9E_P8Zg0ljrnuYE?%u4gYgL5v
zM|$t@-412%h~gVbdqy^VU1?7joAhvzcnz<D15F9<#Z&=AQ<w_|XS*)b<1ht`6{F86
zZwmd-ltRG+{3pJKfGGuRq!bVu8Xq{@tgel!wwx7rFq?*N1wC@#3W{;x3W}W+eb#Q>
zG>WKh8by>ZU3ym$!=^91%|WD;GHh@UWX4fq*WgcKV+K+im^8#-#<Y`Kj{B_A_!K($
z&i^@^*r(?b$(eXSOL-KJ#qE{EZ$-zU*<z~<*7@lOjM}WKS08dBel>9AMu0m!@kuNN
zASOkkWH$}R0`Sn_hQDwD)5oeh^DyJbC%ft<2T<KIaS=VDsW1q+>6f9xAU$9Se*|?f
z@kfOy2u@;UZGYt)524&HYXw}e<asAJtXWbfP;U{`+fWsQdQ-dD1?p`cowxLZy2;N0
zf<=1?H>RqBmo)S6=cZKEIXSL>?I>lT>7klYu*b$%u1ZkW5zHRKG6exk(A#LC7Wpc+
z65Cul6%3+ykk;#yC<mgbn@5(LSH|x-_HI<SWU70V>YhyXkWxLgXv;S2$TSQn4Fijw
zPklQ<)>c~X)ZcO3wXDrRh^r-H#9cY$3@U^GU2av9g1ult&e0>uC56riKO!Ink5TKo
z5Me9OVs$+5IIOOfr*i^scg*Z|_wwiT^ne1so~UHedeZnjp{%O`cgQ6b71TY}2{B^B
zzx}%w_$N6c&hLs57gm~EvT3deo;NGul3Vd5U2-c6TynidF1c0Q)qvwr$TRb|3m0eJ
z|GvER^Mxz3pn``MWVuz#d>LK^2`xkzuWI7SIdrJ%WXcILQL1(*B`ETX8jT(6A0OMN
zsTc}jgBlDZ=P9bf!>V|wF!V4QfB1`Py~1mQI?Ko~yvXOfG4sbTG1x_74h=8kbO>FR
zEPn7B`r=PoSP2A$UdLFNCi3ess@6@B<RK5Zu}ay5)QP8&n>$TW%_Yl@nInzSHP+ij
zn$fMuUa;Qa$+&v<-ib>&v*2v}OfWgMdHfQxaZ%6^<^Un$z`ph$0sZIj2VN3i0ZP%e
zw1!8p2LcLwgA*3m@3@a}9r!o{!J$>!_4Uc}@F_#c({lnT8#cY`;(}d%28h(&h~x!F
z0djRjtYtiZozVY!^EK(Q_qB+o`81_$)0PzU8LU<te2&SF*{1WN%v-oxFPp#TEne^z
zek)~yFZ9crFSKjHz2Jf8a^4r(moKNs$g^302kep7vi3W}swN{x%FKML_a_bO9bkql
z1iY??4X<d}-pYx)3r_v(QXbtNC<^eXejeV=U(^Dd)&kR#_)RhIL_yHP?|6gKtG8(*
zrM2f<`Nbosw^x6|wxeOp5>dcAzM^?=J4So#J?39H`}Iu>^Y(tehe3V?1A)c+KXC()
zZ)lLoIXMsHyBlQURZ&Sre<5y~ckxF;a*WYNvHwMNIr=s1#T3VY{ym`bPbm11RV4od
z#XqIs-y@j!$=D794-P4Qr9V3TdT3mhUYoBg0FKQhLSxv>BSnh9*hi&-<yWaP!T|Hu
zeiDp(D&;VNu24X9j!W)d+7HNT;=Ao+iIQkG$z)HI$0>*)P#w~ABtZyY-bb)kDImv`
zo(j%iFuXHC&`AoS6p(8GGa{+3{9Zn8T6&d|Vid$Fm`0EwDi4I1zqp!n7GSQJ&SS<x
z_wg49JN`!m<Ua1??&G!FyN};D+{d%t&Q*)z?SuPx*1LPPQ}Onv2hV+USsDBasgfJB
zUSGx=P`rUO^0e*9v<)b21DUoHO52IMmi4wX>8dkJE(FL7SMjG6|G<*9#8rG_*I;JX
z0cF>L^<9VV4F7P~v6~m}9!r1aIps7V?&`J&cu(6hoX^Rbys9-*)uB{%tn}Wi+KWd0
z&6o3Oht>Ahv75(M8t(aeRwH-zDE(*P`TnV|cXj_-?LFTCJZyX!xA#`&_P#@?^_N!n
zBUIP$*jnw{udX+oh7-N7Vd*Hrj91_x|B8|>(7fx5z2*NJ-tr*FaF>sWh5quTuJYVI
zE7KGy;Q@)7$w>-^DL6#|o7Xg5%FAdQltRHNnlUu*7>8)KI(`O|_D~js7)|>h%eD`t
z+xBPM2GgxW51iIE8~MmrqR@!=Gi={-t-!#G+nu4$=$5NIv8@+8QgknPL^+>H@27Se
zm%(SA2dL1d`=&rHtq9@NDp|*2Rs=6-!?rIw@sSZ5IjQoETu8H%;v8vC#L3^?eZvM%
zceb<mS*~-2WJNnw4JL>hK%Gecn<o)47iru}uW}oO@@&!j=u5gTX})P@)jXEGu2v9Y
z$;%|9nuOr}HQX4_uDLU8;d!2^=!+ZKUsU=w4Hw}gI6QlO-@g9V^^A9y;@$PfQ|sP+
zX~#a+u|?lSh>v~O0YtWQ{nm+oIn|c_H71#wD1VEB&kz(e9)>r3Vv#4^d?$%bWj>`S
z*LRCPC*$o<ydCS_of+>wCI30tP{;Nt7kw5@71EP!jv%;&ji}(65G%dPeNcYD#>FTE
z**_M48{X;MozN_Aq6)Q2>vYgBzUN#feH+xqG-~qC5hSQzb$j725TD<<%?D%TjcVSe
z?`=bF8outuBp<+T#oPTstKuELvl~I$G0d08v&c7E^wGvxx{!p!EwJM^il)=n8Y|ll
z%gth?qtifNgKd4Zry08Kcsvw~#<5?0zIU4@m&yA_)N<+sw7jZexpwi_ur=x7*=9iw
zHrt5uebH=N5R;UbUEAmrh*>YW^toEP+AM5-LeLLimwyXoR2z4M(nswRzzRoAt)*@u
zg*)py=*P*LHQ%*OpOj|&x6~oMs1qGh>(A8gR%&;z*LE*D?|W;O4rhEv6yK4IZ&>jS
zulr7~dq>ia5!PJ~E8Ezz`kb|R<_fvU%QT;4>Pjx?|0c!$Hw7YIT59@yKnWBqQ;UWX
zc@xB6v=08vh9HOFl(<^IDbSss+E*Lad~0KOMn0TcYgc-PDWyGUGg;4wD`Q&%-TC~Z
zI>+#DT)O<hcBK}gX9*k52`!V1K*}{(FU^FYVH<_)0r4MBIR!av?8&a>=QdN5<QR7V
zbz6hZ8y28zCjPNA9r%86?Suf;iP<{_cQ}|<XnmB|*e@Z4`D3C-N-r#$ye6Hr?X;*$
zu5x}c`m}>O%Un)sE9Z0szaOZz$c#oB_)+;E@gB|&TU9e=pK6JM46)&cHw4W;a;C!;
zEZW-6C#1gBh-|&8%b0|4K{k+z?4p4ugvi)M#wn_mG`S;mCI(KyxSpKfMbrA>{$$i8
zpN-a3;v{Oqq^@hb^~%jxRt~}it*#&5a^Qu|-8`46?N@61*J~eJbY`17x$Py>d_-wJ
zvgqFMHZ2FS2Qls7>g7?@4qZQ~`BfK&ZH6DtQDm2;_090bUn26$P+em<(8cA9FAy3{
z<s4#*hToPl%hedpGFT?>(mD++yI_YMR46ZiL&USC>>rr*^Ai|GwiFJwMYUd|V+B;(
zBs+gVcGF-wXW&aIM<Y@KW9$G#W;npb2cNlB+9_XkC_j`eEdk9SqeGQch$e=N6Nxxw
zRx8P;yr2s9DlZ2ZFH8^*!X^s>K3^CG=Mw=#MeaEB-CsCmw48s2w<n0#guA6jXl#Ak
zdE3dI8rS`g!$#4#JJYyNY23G1Svsly_VE+Ty>Iv5?q6-V*R=2M<wY+9h>F^!%bB`8
zO5L7peP^}-R=Zu<rk<QrsPEepto4;Sv%Sid6YRR0=S{r1=OJ&#67-4ln*_NMIprn_
z{PcL5Vj~osp};~g3jPHD2_j(RLt?XbuiDqlYnRp>O84QMfag17n{<OU<JhqHz*!4(
z26lv6aYyTGo0o@H%*%%qUuVuvAZ+$(Sw5Za*q3hEr_>IvU51}%jtY^9qh-sD7;gl<
z`pe>5!m<+lOf($Iu&bnDRP4$k_LwlQvm_tRKmY^nmOO;18NS6S2RNj|sW#AH=g&LQ
z7&o{FlQx}irBdq)Ss7v@IA6vQF|A_#BBd5v)tn2+J4EK`eYrK8UvpnJA8Z90`pzR*
z(EG>ne)$OmP%wlk-i$!CGbdyz0w7yHIDSizTWGAQt;R~IW9toH2a`=K0_6hRpf$gD
zn-1zPoBgk-+P$b2W;_@C!R|NqXBrPEjR)4Qtv8;y-_Vz7*snC~Uwd)A;n<edO!L{S
z&1YEa!IIE<JZc3Di1~glLYzhy{|R35{~2+X=cLOZNdpPn^4oNQC}9L(|2Cq0d2`ML
zv8oys!~r^RO2A1)bf$!jA6}xmwT=GdgQVj`VvgW!ktc|lj1lQN=Y#@CgdvEHW<VcJ
zxr1WF?WvVT<svv>poH5?&_`k9>Ed|M$A%NM6+3i7bL_mL#QdH|j(u_Fk7?vdea4Vs
zT_Y!&dz9Ke>$Q79G#httpNPfE4Qxm~eEV<)+fkbjuQxw|lP$J@{o1mP@Cx6ZZs^Lk
z?n$@wr3X$ZEho0@<Zf=Z(M+*vGi4N-tP&Fu2?hn6qlvnLCcoTHu~v$;P(a**+(7{j
zje7_ak`Y>_;4ksdFgsyF*oQWJ?Kvy%z;hkltLD`gR^3Wqf6h)IIBi!i`O@`!($#wu
zXWyoifVI^qRI@8*#l5r;fgFN=Z_Y_EAj6uaKE(+S4?J>=NKL?UCgP}iIC0{rs0d9G
zR;O$8JaEB7)?QQ4f>VlcJPcWT>71j8<GWUDgmp#558OKT2;zLCh(~h3F6E3=;_hV{
z1zV)*O^ZIsgD$YMyCT(+J5mE?m2a%|!EWq{)Jhd7RjHM-MCyQky^(sUYH9~>T4Bg@
zA^#&%!9X{lj+%%cwN^^L@_EZcH9d$W(uf*r*?UM#DY>TlN&t9-zN86d8no~6qZQ3~
zZe$1T?2fdQe_y0^8+e=4q<w4qHaS=?Yi}#t8&VS+2Tvpb!Jrw(0G7?QU0<U8JJ9|X
z923}zK6I2X&HIZHL{p>_`P-NuKs%6Cm)b%rAI>tTXQp)<{FBl&PPQX^{QO_J2ysvr
z?o-KZji48L*1&|3H;}~cF?~}nbGl?U>%3EAIKVX{@Nl^%$#8oN#OXM<y$nm{_X~4>
z$S_<srzhqhC9oFos<87JewUCZ;7my`gS$aE30KY6XJW5Qfh#lEY|Zc?_o#$WU~G}5
zuedy4r`O33%<E^h_Rs4(Bw4%q=j&OsC`%Y;>hV3@GjhLLSzKDR!{>l@NcLFg>v&DY
z8T#ja9IPpXwCY<pu>4DYQCm_6%RFCS0@dC;uQ}&vMpWj;gQMhX;D9<od#G^!13rKb
zRx5@j=Eeb&cM{eSql~*59U~S&zbH=sn}mF~mowi-1$4>c4O5<>$sbVh4H1V@Fqv?E
z=h4)76uY8WYf{ILrlRo)x)G2!Cv|*2aB(_zLmNVTIHR2bc<&n88ho4!?j>;lCF2AR
zNu;yN*d{NKTk}{f!M;fzM7xSv9v?{<?6khg89IkAgd<nxAA8i)XL4gn2|Lhlq8%Un
zhOpuGaWAChYxmq;S>K^gEB)!lC)O*ErX5E)ZZ|BzMO{lO2G+HIjLJ$((YA;Ebjxv(
z<%IL?eNbR-6GB7{*_A&>1X7_+SM)^OxA9UTaf)3@!;}fLpEmrcpQtjsP-_|Q+j7Q8
zlp<{#y9&&S;uO*FlB;~J`uht!a^WMZQ@jr>dJJ!>(kq0FYqV8|VK;mkD)#mIFP|3@
zG)%F1Pu%1#y>8TD?C92E=;iXgv^$?ekEJX{UuT%5!E{=99=x|!&z;<($KWUlK0r6}
zE?ASqs<UgG7Fj=V7W5Y>;MoP|2iNF)MSmd<W9~^Z&e|o`#hB&t+bAIS1FE`XbXq7k
zGEVS%awl*$jg=V&d;A416ZfeQv9kPVwF?w`k^<7gtDd6QzD1zAvWQduSCr;@eP%3t
zh5IUR5TKIKM1f_3+&^R-7>t@{acmV+Na36-nWilBMrQ5jc2Vk7wTgWSj;_?z<T^8+
z|7_OeQL5lDD(2oEd8YdfE_q)@I@eHbM`{iKk4i!^9jNN(OtR9Bh9f8BM|fLpa0li4
zE&G^%aX|3|$Qzis0>6^>?E!O5TfXl(8X>Ih9$JHm@(4ZdDA<X9P-!|y+sW^@?Sa3E
z=8SnDGjv87I)go%_kHavwsiOLb>9idbDE1XnA)Db-*dm`&UBwtx=*IN&o7S9{`HKf
z^M{_!^mCVC_;gm#Yi)vmH}<1{`{G*{Srf?@I^)6NUcG22t9#XnJ*ZnwEBP#c(?f@X
zwJndY#MdsZ*B{1tV1a=(%lEw>dhh<~y}%{fy{_5V$W~EgLm*t|#{Xsv!S=)}Vz^FV
zOSD+-xFBrm&gU_wOmB!cgaR^0`v%O=ifM!s+!Tmip<qt-r~-gVHP6n>vO_3!Cn0Kk
zK1YI9G;u0iP-~}i;^1mao4cUskJ8Dqn&OMe2=hlDNx#0J^Z-q>(|94IIE+o(t@)et
zEB$Mo>kS7NJ=wbETfv*b70+s9y>5s$5;vsX?Jxy@>fM>GZl|f$(1AHcvYJKLQjt2M
zNLx(<!ARY|#B8R4pbp%otGC&&|7FP^kQ%<H^!l=;^Add7X+YlS|AgBAX{GaRV`l^C
z7K(yTWjj#O!*s!?X$0hqrhmz$3wfBP_EF6@MRj5;BR`#1ei!+%cO)sz%72O|FgxM%
zpZ*{0ub2M}F|O6OskS*N^kWejN2LpFs|TGUs2|FMqwMD5ID%|uCZ_A4XjZ6RZ8tnv
zy(<&Y2p2PFEuk?PJMks$WRU#kcsh?_{_vw``6G%Rrz!sDct57NL-5q6-L06y8%>>=
zraej%bgvEB>bgwz4yAgB?#8-bsoq}}n6nGbP|jMKU7tGyclBGlf7#ORYLs@npyYM>
zb2UPBAXBwdsoJ^fNLTG#uiCdZtW-Uo@jjt=pIG-EOFND+9#S`yu=QTFwg^?Qwe>SZ
zw$qNiVR~A?Nf;vEGeKyM@0tL!SoTEFJWB_=PWcnmOeqUcp0*kmtS}tdQkJjphKa&p
zG0`CHidb|OZNdKNO=fv-I@DKo{*n<we=p{+wGh>EeW+T?Ct~sZ;ZxnF%~woX)jl3$
zS(q;g=T&g_I1ZLc%14o|+aBmJ)jV#NpQWM|nwf!b%~Lh218U=Er>K=$)ntPv0rg=k
zM6J$B6k+mxkDlWi_fc5nS(@9whkj=0yQ<dkT}nIp;K8)fuw&)8(lAJ<Jh0NDF#A^f
z&P@ABrTygHruFvow3EW$lJWQ8fK0;Y9gpX%LSrw^H*Rz-R$#p}w=a6L?)J2MPquYm
zruDGWdiYMqdh5}}QS8v=?on%%>uo0%FK&?QRFC5AS>1c5ecg*q8t2&TEuzZkK0aZ|
zI<eh^)twYX#-u&ugi%9MT(KxTKk&$|d$@o^9Y=x>IVhmrI~4DZv}4D^4K~;a;@!6Q
zzlazf7KESQFip^Yr1GoF*w#oER?K13C^OIi)t;ugMy_o|i~-F+jo)R`Fu4dy`~>$B
zR-uZegcxhgvT|kqw!CI(_DSlL!@N`Kk1Rzp^+y!?8@clWf<<@M4dmID_0{3vjzDK7
za99Z(zO!dNa5n8|g=1aX(aF)3lOZZ_)MUM#Nw7T~3AMIpCm}!F4XS^x=;R-j7%M~{
zr21zZ98n_770VkZwsU`pnBm}JB?lLVI5b`i#f*y`Y(wk?q0Ex2oFq-hA>`e^7c4+=
z+gU~#2MB~{$YMA&hj!QC&|v(e15Uip4+zev3DF=E#|6#*OEk1zJ`6^m@tu>qDI3Ws
zIwE?R0IyK+D-^J57~>eE$8Vs*hw%*GgT*|Qww(mfqrvMaGDBm(fLee_ssvAC8b`Kt
z9$p#AbRJgd@ARFs2-2R8Y)c^1@|e={ShlJ$TeU0O)`hM8PrUa;X3tX!{@R`bjcnZq
zD%V=McmaYzV=Ftqh41akdg|C;AluXh8rVpNPKIbI3p@hZ$CM{?bd)Z`8u;eY3uB9K
zD7|p{n+BzYsbdzCe3E*N#8jO_p&rCeIQ9b<#f(WMHe_QDwuIlTpkKe>R+4S|vpDlx
z)UBk-0G=T(W4BVhdnNg9>YdcuE9=##u~)`hw^+fJ4LjGl{AY9AlQ%EI-&^Yd#toLA
z?q#PsrnJ@_be;(9Xb@E!ogGa-6Cn?vq5O#9YM4NwI%GSljAUkidP(c2F!X0d{lp5+
z_dF627y9sii@IhP>ze!3J686uS9ha39F-YIGtSaqesXmr(|1bgJC$}cf9yETyC{R~
zX!K}Lpwu9Af|^x_U%P-q$(0-2rm63adJJjuBzjDBv%}hPLfzy{q`>EhHaBr+Q|f7%
zS(EltjA7(qik+h10_96mjIcC2xk0sEV83`Ef0ZCTlt!ys-bu0Fpg^KW8Y0#~<=s^K
zC=UhnD<6sfgn-;sJyvWbtQ1;1(w4@*_3wg!w)<Fi=U}#PWTSI`cK5&oucHN~C!wNc
zIg~S-T3lOo6^(FRt;@9uw(6Y8Vm-DxM5nACTjRGoLw9R`aO7tM*);1}z=mS8qP^XE
zS=^|D*^450RdwxW43;}3R#;uwW}GwQzTs?Lu_(^YO)DO9ZB^Fe8#vYI{LS+?l)JVo
zX9WOd`Kd<B$k?)JCs3!)`m~sB9>|#~vf->;oMR`4JWm^`)8HDMy_;4_%JquYohxVF
zed?X3-o5zFMe^C&nX_4~yH@LS0&eO3PXT3EcjfAZqbJ4e-hB_;erxN7&rc^S<*bO~
z_57TroSmMq>l)|XDQ$;xPI`0+{#JH6ctmOF%~4r+a`+l^6%?z~8lJ{JROg;eFTwVk
zto5sBzIXn;^EtST)!%vkFJAt^%bOI<IZW0OvFu^kpCf%l^Dd)N?RiP{j?LgldDxEI
zM1T0o7@rYDjF^oQw&5Feemnam4E7@#oG*3oeZbSxe6o4iQ8GZ;nCJ<9h82l|GAT3F
z-GzzVs)1L*Xv5>EJw#9Zc*X8*Giz+7k)71Dd~YR=iKR1K*-BCC2{&kv{yc?az9(uG
zON>OJUyoh^>WuI+a&|E=SQGrfi2f5D{cOK78j8Mootc~X`O}?`$U9EIUIf#OBv(`8
zIv$Z#+uB@1y+lfDb<d+RGX$^m<}<QfOC`D<QG)%_h4$-5{22G4N95*;N$7L<4>TE!
z9Me3id&`yNoke(4lJ&!R=8{p^I7m6mwqvMXUXaXajO~-j$fpfZeq^w%giaFSenHGu
z-a^^xN(%QgbrUn8t4$B38Ghw5dH2d>1(5?3bRbY0%j6%AVhASW9h6?d()E4u3`eSd
z24kPp&zVAKjOo{p<W8!W2!vV(?=kk9N4oDd>lJ=>KKL}eSo`s#p%>UGr<e1`7^^PE
zcG4-w367q7soFhM${M4eHj>Fg%nzLCXHed~j21G=v5(RRDPS~#>7`>>)$IIHb}Ae@
zeS+=3Wt;!x4a!VzrQFww%=>DMEKOiN!02RXkr~EkydbA;XHY_Q9L2}sCv=X>q%Xst
zkVqlK@5zYb=Qcq+qzDIpEbRJ;;Q2(T`>`;r2*aNUXFd^5{hhGm6Jh8R;fYU#qn`*T
zek?ryiSXnn!r4!R(a%k0(e#-^5Fh*8WD!jd1O%VC1o6P<CaY)yLdBy;5RZK#?ESHD
z{O^Q=pP5XeiQe|Cs0bH-EF4jUBl)~rRkfmR`RJB_+g5+C*qUy6d~IP%Kx`{0R*S7m
z@~s;;Z)^#OZgn3QeM_gvJ7h~hbnBF<RXiy!9p4h@zI9SODt7Dn5#9P1qE~dKoBOr|
z+_yR}iKy=Bm5MEaVp}njS3D!88~0H18F8z#6`5Oy()-UUtxr;wF4WipSli?21K>vS
zQat633#RV0Sep^M6tOF7Y0f&Ev(;TtU7Ac=uCNK)JXQwZJ^aq$bpOdsfjw`!k@kS6
HvC;W|o_lc0

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/aya_vision.cpython-312.pyc b/model_executor/models/__pycache__/aya_vision.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..156dbebeef518b756a89252e4a7ddb3fcf9149e1
GIT binary patch
literal 22096
zcmb_^3vgT4ncls4zeo@S2?BhA6e$vtNJ^yMlJ&AITb4}OlI(1dWD$t>k^&8Y^aW^%
z94JvXPEBRAYiXLS=q5X+TeqRd-U-v~bd|o=NvAXEZfA<S&=%NRd92;_Oq)(S1BdiF
z+39rq{pUUaLZF>&dxt#t+;jhP?s@#@e;@p5LxYRMm9+eJ;@%04`)hj8FNc;{|FVhW
z?s5Vr@JTMkNBNW~YD$@-W}eDSNlVHawWe%Q8+$e<?NK|*ElGRI5p}RKYtor=MO`U(
z)Xko4Nl&UF+Q9PmWMj%3^|HJp*_84{eJt-xHmCeiKg+w4EveRME6cl+fmB<xjpaSb
zU@8<1v3x_aJ=GEIVEM*mXR0gOmFkXmvuAIzCl!u{Q@zpNRA01@l{F=|rTU}&se$M~
zYI}5hYA`yO8j233BGCwY?@R7T?TqeZ`R3%V)Npi|<^9Q#)M#`xwL7{S&n-f0a!+b3
zI+hxbj;HoU_p-7;a$jnHbU(|tB@d(yMh~VAMGvJ8M-QitM33;CiF=Y0g0FBwNF05~
ztj=@vC@XD8X@}^TS=5)IayKB4G009pc8LQ<>2X%tjnW=*r+7SsipIMW>|Ge|dd2>l
zcPE8D(I;#ZPfb~b{#Pu~$Atm$l&~HDRAv(fQFhwIi5)ZFtn@|Ci6_P5;)!>M^e?gR
zMDU#*^~WHNi+kU(s<q$I8i}4+Fh_R&jGiK9#c?((O7Sa6QL#T0pPNghrxnK~@uhh&
zJt;;^it}VTJ)4bZMM1HjPY`HwBEl=CbQ&)`r{dYkt7pV`c3u*d)+cAP7bc~#v#I#B
z_^dQLDP}UW5`b+dAHO_yhN?A8i`iHvu_(rb#AFr)-jfUQ7ZRDoZ2Ixp^i*ORMa@Q0
zbsIsdIXjn4q~gg~HjxyC*knBYay)|?t{0NYlu^IwR6HY|o=>F~E&zNsO%VQPo<D#2
z>@ycmpFAJC_{5WEFI~R)dGx>enfYWk@yx6cPo9ov<EPOlrL|Ia?pj=$&R~908BCOa
z^SD^C;$(%FFd}?oQ)6m1o6<(zsk}1Aq%_kD?GdwnHa#_4{qZviF)65nQhWeQ&1El&
zbIJImm=e=j#iJHIKPO;q6o2*8X)zm5Bx%?IV=B(3=jOASQ}c<WAkvcf&!(}KDN#tE
z`eiYVh04%^s@Y4ESH)CZacfUk<8$KAcokh*Dnof9bwv~ebUmXqUz(qro0YPe%3H;y
zmp%I|KIprYm`*0<)V0Qpi^+&Z@tvH{&VEizOkd4r&d<itHKjp&BwWN}dm^34#$Lwy
z#w2k%kwK@i@+qpXcvA6&D`IR;5~mW^CpF||H-nVk#^YU1<f6R5MNQ9xq(;r6MKIB3
z6|I8#DBW$MeWr=k+mv7nIt7bh6>Nh29gF&EO0Q}9%$kmOXvT0Eb(~aZ!4+{UAp^x#
zoJw35lj;h^1E}Q+<2s$dI@89;9A?i{HXKgR9S&c<Du%PzlgV&;9!nsFXQ#q*v=PNj
zc=lyHi}A^;VQiFXvFdq_p-?!HHd><=!{IDiyF#^%^5O90;qZjf^yJleIxQwMRqwAJ
z4nM_KjXquVHP(wNxNC>QpGyeYtDgaOC4D%|C`p(|LwHBkxY#JvPb;1|ny1*y@#MUi
zQ7qYoIT3Vd?q@{M75=KiUsFt1(uy0i64T~mBH~gUu~<5u5@RvN6(h`<Pg33!i@h`-
zPik-Mv6wJB8H-7FYRemoVaP=FX!=oVqf%>jR+_x3*wjrS^`h);ZXGH2x93N*skza)
z#N2Qe6hq7oU!Om4=-`V7#L;Bp%IMre_UdeUl#qCoVQx&kE=~gTCG{~g8efRVUS?Eq
zWNty)g(g`tj7;V?k$i*u$mFm($}OC``SytH>MdA$A2xTC91X8|Zh8K~;lF))xp(=}
z%C>@Id)dr8hdwf!{kC<^Y_*kL+-AUnBSat_0BN>u5Qy}c{=rR~NJDvU{o8o`YSlIp
zc+os%TH>a7!SsqJY7xw$b;bjrnoF?MF9+YVg2&na9`$Uf=UC#d^HJv|E@D?Yjg3?x
zJRpTL;v{BQu}w0bG6{LgxQG`L!Z0c8JN#WPYrMK;%5lGg_d1{Cxg4M4Vn*#8KSPL6
za{+?dV^`Lx=W@Kj1D;8HdYO8!H&Z${M_Yt|?8^G|+)T5ctK89cOXW$=)oZ(cuLaX0
zh~y$hi}wM&e&znI`5kTC=##OwRefr&!0NgGkA3218ueBycfs<mwQ8meh-|kGBiM+r
zqsIn0|BN2j|Bh)9W5;NI#nr3nm$7aOz|aY$Bc4o5r-^6B5>-5xNkKoOIR<kyi*uRF
zxLd9y;-GAqL~=gTtXMPi!~#LT7!!<1CjqVagxPE9OguFQGBy=wcy0&DiD$Et;?9cK
zvoRIx75CMIAc$%9A?a~cm541W&hzmFQJR>QQc8nLbMy*<xDcNMgN-E#B9;b73>{OP
z?3o@F+xbLVjH6FUc8~3m+|;HS{V>YLAS+oiVsc9DuQL{#OvW=HqZ!&K;qXoA7<J|>
zlEr~f+rK0Fz|R0Q^9v-uxXC?mG~BYwj^KSqdnwSlWcil6)H_)0JtX%YTC&`CbU)ZR
zR`N9GTlTE&FOEMUk3Ufye@-5MZryC!<syKg4I9_q`9|mKod7F(!m=k^^z4#7yVh*Q
z-A~E8pZaO9y!)K&IbUiD6q|<Srr`~%xgAx%)wto}LLF~7Uw3|1O;3~BWXadMVYh^+
za>Is)YiVEJe&-k-93KYT)pj(%HD31YVXbz{p6;S&hwRx=sr)+)j6y4oj2XtJRB=0_
z*d!5hcX|_fBcjd7+g~Ab7h7RQlS1%lTsi(7t@H*6+>AlK3;-biCJ0S|sJy4`VL+I2
zrWu25RbT|LhYA__B2fK?`Gy7GGl*mbHfPaW%bAHN-2f?`A=Ik5awZ)P5GJqy%Y<|q
zFhBb{T(psdL@Hua8dOOkb9H`dDk)0O0YbWjM6pg@oln0gU8aKPkwmQ03zYv2dfA|F
z7*cmK3V&U(OjC|VPm)rYA+BPdnw6j!2#funio6=smr*%0i{vI(3Uw7jJLS;M)rmsr
z$WkMo-{^k5d$q9;I)JBO=Nk>LH>{)!!F@{&WgF)Y7n=v<=7E*?>cxEXK%sf}E&CF`
zw3h%KuRB&+zT3F!lY={!8Xjs@Q-$E(rG}EXGw<kRD6<JQXxbTS{0$Z#sKL*mp!WJA
zAa0mwp|S>A<jew3+(MuF>--Jt4IAp$MT>f^sseY;mV?Nxi_$>7x;+rgM8j{`w`kv#
zvsLxX3N)$1lNW(HdT*<s?OQ-&96I!--qk@=!KA7Lo8aorgQ@Dfzg{nGTlBJOOf|Fk
zEB2Elrip2F#UCD*i1$cepoDgi)JMr~BoQk(52<{L84OFYOCo!cp2j=H4vv(X&x#R8
z)y8o#{edwW#g!3XiY3MLbQS`6OtD>MdV*rTMtXqa(3Ob{@glaV^nE3L2_=g=K6OuR
z+SW<HXWYPL?5zH=V*f!Ie~#WI*X^fQ_y?iR<>;#a^;jV^oOcW_*>1O%LW9N7s2mzC
zdD>ONzv7cU+g6@mJ+pQS`~gJ15!<e%ujn6?{e!C}*}rqiQB^BY^7tNjyti%3Eowt@
z(`do7n~EIEdy5@=Wc)SlDR{=#omSSGhie~FLD%@TJ!|oMK5gS0Jqc{lpmo_&435b7
zYZ@td(B;O@YSY`5cXY8`A8|?hFgMbEN)AxcK*?E34pVZ3k}H(ZoGT3)hn^IZ$yn@d
zUiutLGsGcIsI2+~vJxdv;6FpjFJ9rwrl8fe{MC;++{$}h)~*%t`^h(xWe(Z3`9I42
zFt<+Ga<J9fz52ut&cA)W%prU4`9J>RkG}W`WmUa{+MUF|ap}_L`b`v7ly_C@fW~1_
zH4Z%6ph;MCO#;sjO|x(!?-JdjN3bn|F{ujplu57ywgK-Nk#`{P6`X)^;omJb2_D=V
z@Xw2$DUZ;I_r3*N#H+L!C<)DiY+9PJM*2MZH>ojF)_bCu^uK-r31hyv*IxD5ZPubg
z>2&B4_clKPLCQRty{=l#u1;xk8e2`Q5-~2eN-AHH=J8x5P;Kt)2$|1}CcZ&c+mK-E
zc>S+kzjeLn9gw{PZ_O6G`}2<ds=Q%)k=egC4UtG4@#S@*8Fyh=1+hY|_L?E$Qgc-X
zImIWye%|7Lm%qeG8GuF15~*QIlh#YvDpcd4L_+@CCY9D)Lq0<dYn)hGKz?y(i{;Tr
zY_zpR)q9Z8pof;S>ad4o@6i3o5!rj@-pfexjx#FftX@}R(6oED9<*Q#tKRUjqNWLn
zOh6G6>$&1p<vF8+64{`u2dMaIK5C#AcYfM{Yk+^7S|s&|#@xS@EqeQ9`WsonU`LAH
zW3u;H-f@f#d1BK-(>ya=b|C|A1Po{iELX%dp;*~R*ifXG=>s%ZnsC%cJ%-*w#y~RE
zrDDlMDv`}Bj(%FN>s0t%YM4j?dfwEw+_Lo5yhEiJo4QF$!@BuBWVVub-@!Y&n8;BF
zGX<WB943ey_1-d@-wiX~TGV!`QwU0i?3**?EKH>~tM`iZt4gXbqM}4>3m8zzTcod`
zh_pT!k=?2Ib=`O+1qf7=P;XFOqmuLr9%}{D-U_xb6Z^G9_9_fsnXI8QEFSu_RZwwf
zi>i0%gBOutJ=(jA?PGHLSfPFIlDFgw7kvY=Z(!xB>>FLOm702rP5p9H|H|i}JS|yE
zfq`ORj~v*u<bL1{uGm&P<nZ2mPrP?dK6>H4_u0JTS(Vzj)z7PPf=7K&g$L>D_$+27
zkv3+AhHu~j;Q$GN3=fEoz^G$vUlLy5HR;BT8|Esp4C_5*!h0rg;%*@<K#3)1)x|re
zwb&qx+H!WLmpF0`!TRD5*20u?T;k}7b}iP|w)oJc3p9_%laupF=nl-f`lyvQEsBCD
zgrOpY<KgMV%VJtH*It23KnTyKnIY6@4hnrHE5#v=Wk$j<|0Xiwln9%m5SHK(NKBHF
z5{{>Za9o&~&tx;~tI65v#AJ91R^N*K7>%Se_-aa&GP><?dKP{acx^`2Dc7hGcw9_>
zWAx(;+3^K&Dh@|SEIS*^z=A4?Ran`FsQ_-%ww1h;cdC^8A5g)ol+aR2M2Q&&tG3$7
z+2njGolzWQxRqwFWfT|Xt|VtCU(94kxYg%XBQjn>^eQXw;^3#Dbrs+;+F}OPo7_ex
z*VMIqdF}c8-Xlwv2jPRIhS2hnyl1e~;JZC^>o=D#uMEEarMzcn$<u~ENMF4!+0nJ+
zzWp0z4;ScNIViX8TymAV23Pm|quA17-f?1W$Gw++ID!mA=ty&2DU7(ZVw=4}CQ8QL
z7%z~B$}&125sgvISZ_(BvaeA>gh2WRy|9qqOd{f_(qCq}W%iVpsEiUu8dh1RY~rm4
zmcP2r;a0Zs)+hPZKp78D^7*}IsPsvmijS|Jq0-~|1LvvmIF<FRwypWsChwj8;mlf(
z963oZddfDd^*Mg+&^kx=a$~@H5)E*HP}$D14z8`e>||LN=k=G}EQ{$1l^a;Lk+NQv
zZQ@)F8$Qai>0(`<M6ZoY*J{?kh@#DMpa{#dD%A-l(E_Q@3~9~g<OFO-xOHHku7a?!
zC%Xo3A&C&R98(U+gVv~X!4h#Q9R>n1$KfV#nc@T&o1C4;?o&m+Y92wW#pq6sbrL+n
zpghJvh<R2h5Lq^=ThPGjDbohuGUv?o)Ld9oEIAX=CD0%9gme>aF|`h^H8b{zVoAWM
zs0tezdCktgD5iCu@@>GYdyVaVSo$im2-_+|S=ruGEgy}v?*#I!#>miErK~+VYfSvA
z!2WZzlp*m6?4z~&?w9U-Y30D`$wKSMlIvkh@b1|=XNxT(a?41eW%rV^6zC}icFKXB
zOYVo>_T{MT9n3ohRUt*OYYL{~!m^M<7{qasmO;OW9kV4-kby{G`phLEqtvgvB-Wf+
z@?lx(F1Ielry(`nu)!0+)iaRgtTPV1)0I0)i5S#eSZEu>32mHA5`*dMCZMzhXL5x~
zieE>m;v`R?ln}&B#3ub7!QG{V5fNXkvXJV^S87M>D#<2!N+JZ2exDN7rb}fJOi<B;
zSK})gns$v&tJvbJd;}{6H+6h*_*1r76~buX{|YT;h@#!(h~)Nc!kSWR=<et5e7@Lv
zLT)`#Xg#&$`pbRCmv_7|^7_bX+x_-E?_FN<f;2U>+`e3F-3eM<3WSS+?Q&pysjauz
zHYB$Vl{yAW?UAyR3+w_x3pAF^_9j=EvpZcXMPi!CBf2y#fpnV^k&^FH;-kb*$v>gw
zC?yrj{154ok{{wfa}^0`&o=AOs(sD8c4^Ha4;?CVc)mBePPcN9d+a3tk+a$AdgyB@
zTX845M91>@ih22<?C&qzsmQ^#b}m1j@7<H{+#|P)tzDK|4wb1ATz;<34L5RXC+O3g
zD65WN>;D*UYCU^IQ9&_v`bw0v@?_ccWQ7LqVtzmy{D5}BF4_b~4FuJ8Xd1XpaDq-d
zp>exv;M}4cl-naVFcHilcmUVP{Cr-JwuY_ze5#VD*g&=r9--JZ#9<U$RbCYrC|*p>
ztJIrlntstlFjA4m_OEdUHmc4*xBwv|!al8Sy&G1h^J-6eLv*i4p#>{6T{CIAFqqov
zZFk6)rh1lc!LYBx-0Jw+1CS81;?!I^hnOL0tL73Qp(c!0W(Y@XF2R&FT#JT;?98_6
zU|BK|uq)@(Nt%8?&AsNDG);4prY`~UZ@6;K8CtuVE9cVT@0h;TYT<6U0qI6vk5>0G
z>UuD?dh^*)(-<Ceo|(?NrKIE5TsiwpxTXk?DDA6T+W%-N2(E@L==}@meZvh;c2I|#
z8Pao=d#*trFHGGQq60bWCCm|z{~NArdd_nV`oe@_(}?d)z`bpiwvv*iy?C!$4qBzB
zkXM=!`vhAZ>^T*N&B*%#K{8d5NWRjf5_*tcXiidw!fV)_^l~D|ij!zGqPkKUiB?^)
zLP3~@;THy6g>m}|#aD$+(q2_A^L5HCQSu5U#M>2HmPHapyebd*XY}Ixl&n(nHi7uG
z9>X{=JD;VXB*n979IW?**IHi%)c^v2OhVCw7-B#f=}l^rP0i<!%g_$c_>XqGsah}p
z057V{51Rr7R01;c=yc|($#Y=tzksUH$aVF-{-oTwA1=C*$6xZamOKGy1YNE?f+;*)
zaO`&W?!ujgV%r{>{*JAkMY7~6wQn!B@0Z*6Ggj2refPyXFRly~0z08rES<@_4?b*a
zDK-trO#_9d!4G`hce+;WtATva?t*X62fp?@q2&Yj`wtX+2g`P@p&cH?!^i(k=Do)X
z$Dg}@=proE9gTl+=;GSR+YQC0U2@Z|)#v`aX*7T6V%f|!1j`&=e-z}ljja2e$TcB%
z`{}Zm^R?b}-f<S2B63rt6y8w`@0P>6OT9aby<>9kSSbX9^{^ZoE`>*n;UjYRh><C~
zIp2<tIh(J!+=#}?KK2!~z0tz$-uHvt+qrw^3ZqZuJzdKw_){Nx!+A&emp|`CKYsah
z2jDV9z<$ymJUwjr$-$GM(_<FJiKS1l&@?4bjRl0Dn)Q+Bvwj((-2;>`7gk;ItD@uA
zqbrcbwOR(vGgoXll@N}4VweC)T(4CHNeXYx1s9F>m0uO^U5g&v0G4N+P*I!2QYPlX
zL^@1)LU=_pkBAh2mx08_<U6(lts)rVf^>&K+X>V=1v^BH%mB<klTqx<StAM&i@Hfk
z%98#yCDe3=2r=y+RfcP21O$sQMbU^E%>unRX2@}McM}nn+B(0a#-B$5Va~<1h3}^B
zq*k8!7yJI`$PbU)d+8646#}QoK;(ZA8Yza3$)RKSuKm<q2wi><94-d;$-#YV(}mzM
z_IAG<+P`+K5IPR$ItgqRO<+?T_$VW0N&{$16%Ns$^vkdm{Rv85<zD4qwY_S8)j?+6
zTfed`oAGrM@%3-oZrSQ#*$oTI>033|HytQ<)D+_Jn|6WE>Vg@pP)oKY`;r6xUT(@t
zVOBS+S%d!r3t^+G;L9`_X2DM!H27FTxNexn=sUD&z@oYJGeF4iSnqPT9QC!9EFl}a
zbQEU>(`tc9d!IA>r8i8sob`rT*U4|Hx1}Kd)Y(3mBqP2@`zUTGZK^!!Ig}b=j9$iZ
zF#2gdzhS;*oiT)(3PjEf2Cr>Wm~jnZXC_#I(Q`S=ExSG|m~375dKd2_Jli>u25AjX
zjE_oxNIAxlnW<(guBrHmfn&$UGO*)mrhcgll@&K4Xka2@iZ&d2|A87Lu2^AviiNCy
z(!ZoaVw&Vnm{u*MFwQ~EmwrO8UO<u|#G+jtzDbw5x0w}<n$SXu7ten7uGV@x&!Ubq
zBS&GPizhS3nC@29R1;=3^KE<++_Ti$RcsxUTL)L|_xGGGv_7$PrqsWq*nddwKXh-X
z(Es?-(=aH%5qUjQY#*1~$4i~ti=DgV&RsCA6}v{{u8~q}f3Y<pw?;~xJBytM<jw;|
z20W=_FO;T^#-(%MN-g1{e_ZyDzvs^T#|!@ROQ%2dZ!h}CWdGRO-g`X-|Jl6ftf~~<
zMDO5Vb08oS0b1Dw$Sy2&Q*l>~LlwI0>Pj-%ip(MsQ4Uqg5-CS=s&46IQ_iUAzo%CW
z{7)%oEEB8EteRi`GOfso6DQR5@H1Mwd4?Bv|GH~prKx`jU;N)pYpxYd&gJ($Ew`P6
zY!c`z21ew-$dbECOsUG2Egt97{9BWsaCHBOr5oK`Lw6|@F17Vx2|#`upfuZv2HP|m
z9BHbxdNNg+2(a`TC1ll;NF-zIN%}G6Xy-{Sl+ccqIw|?jl%y${MN;jJ{-;z(34vs2
z!kIUE(AxX3$zQhO4sE$PwCrD=TJC^fqHL!khpIr^mXE-<Uv^TFiz(16f#q{@%TU=(
zMIO!-__%>`7kL-dZ+}nOiaQ$Y9a=T7zOd?s^P+60A_wR4-S+1p%=vc8&Ry$HDh&3Z
zQu9FBihFG(Dspha;j)u*(9xT3?~<K8pSba;;v@}<i9~7y-=hv@gLhf5%CDNXaxt^0
zE`yk(QSGY7r@m>b$UZqfYj7r=*h!wOTd$wvZy9#XOWdY<1_{p^WP8ehm0Bucm`f&v
z4fC%!a{Or{&{ikHXp<NfyP%sIB)bx8_FYae|Gq)Ae~Skp-o)z&f5!2@z8}eV_;Vaj
zVj}k?aE%*$l~br{Aiu}o<$3N~%@%Hf`vdbeUUf+Gn(m~ALMGCJcpcQjG_o5(F~W7l
zM@|JTT#SKaHU&2-&ZE;}TD(3d9b1gBZT$#*g?1XCqqKF2nEc|u6XDD^zwqO)yl1}e
z-?s92K61F|Kl0<R{F2FMUk`-%#SSfaQ|+M^6d0zU_`~5vUl=|jM6ibq&niwGv}iRn
zST)R3x_}Q#{{@NSLIgS-O>rFjQEgiVDzzkW>H@*<^9VRq%y3UC&dd176OuG5Nh5%O
zWSS?y#!c;JSex3cXcR6`e=4L8P<@aFe+?PNGP;Yc<8tfx&52U5w-_9igQLaZNjZ2j
zZ)yF|?z=tm*0%fh?GL;?D~<WxCkx(FdB>>_o&MVsZ(V+O-^w%honsHY%>|l2Bn9sa
zdB+P6T>g@4;4NYGSYi9&{J@d?k@I=SGf<-3HmFKk5WM2wGzO?9Sa&v%O_6l8wV2r`
zj11wIz`uwx2}qse7Ey-iYNT)vYKD2LpaxhSMGhXahg3k5UhVFeXuespk0zrRPhg++
z_T}gP%-&ssI<;-T?A?FQCwmX)9fwQq?z~0yh@(N0H589(Z&wwnNt76uzA4wI(3Q;=
zzo;1pU2r5ufCH2cyL`{`u3g`dQCRq3sk0+a#sRCHU2wB_8XMW?NEo3D_Phq6@q4`B
zg;lRfv`<->MbP(3W0WFrnqM)tIbv`8Vx#C4?PAkRpIW;*Rjq_%MZ&k5MLXr-+i8I<
z&@Z%#EkdAvJwVrO4_~TVF0`p%(#8@*`>i+`7(hF1^=oK7X$NEwrv*cR3}|y<5js)Y
z&iX(^r{<bDSW|#UL?3mbPM6kFH^$hF=N=~q57u^^CamA<@D}C0Vp#19&K1_L$yQDK
zT3rY+%;v%)Y=cLvSLolOoh|0sn27<5qK{c^w?Rf8RC*2J<;<+~_-tB8khdnDd=j)#
zVux!kFSaIOahk_bCG}9(2s<D%vZ#lqXJ@a8(#T>UMQ7^>1gHNXBB=*FMi$#@YU7yL
zRWUA%L@bM~YD+Z$i+;6OBZXS?ooeA0A8{D1;&9@ul$a*pcUrurojjBN6V_C^N6F`r
zOiWf=EGW-N1#SGTEf)HQllX<Iz|o2gfpI$NCfZoEA7wVVV~gPn>EwbIH^3$aQY?}E
z3duJi8WU1&HbaphI3-C3rx@L4fn~`|rRN%**0g>WcEt38tFv@oFa~e*;=a#ZOr{0Y
zRC|UfnHqHU(Csg}yJdIx^0oW!!IHo8!^U7fbfnODH19ad1R#aZLco|$=lK*jJM^bX
zLjMyZHyAxpQxYTDy#5J3P-D4Am~ZVdo_dl`J++lZ`4}<~zM)<4wAPLOsi)9ZYwEBT
zp?`G2{%@{6-UAJuiy3x_972R+B)qVzA}zteSVy%bXJD0dWP-1N<^&g%Uad{ESCQMy
z^;Fs!vJcf<sAX6gvZRNyt1=3__v)otVo>Y?+pGJ9O?@=%W`bp!$3dP-KMl_W4$Rml
z6pywy*`CCi)b>YYr<m?_ln5^rD}z*;AD_Jn!DWnSO?*BRPo94UHm?5#2qvGXunlpX
z;e(lEl1?mV5To%Fy+2FMcvv%fkR=moJP2^Xxg8Y=6(6GyY^&)|B)PC-F4A_&F<EK{
zYpj~UNav}@^)i&@E9!Ba6I9Szm)=Mbde^v_Zt3CHY&0}z^`jqC?r$g|SwfB5CF~`=
z5|^szv(Z)g>bIiB#&Mg=v}Z}Vf+$vf+@^21*mqd&J6!BLE%%*9q*q&Cv29dt8-+I6
zIauu6D|hZKcAk+t5k(n#&^flYzt9OuC8VFz=^Ua1IH6MS7(1!+Vdt=Mkf!7bmIe<#
z@b@4-tg+xfutCOk1`U<0qqo?;OK#s)Y(F5kAHew;?}LGp?`<y(oF$092i*rt!EN|R
zF)$<thSWyv1^@1c9i#d7-5YLO51RUOM+c)Z1{J~hIKn|jMF<NvMUB-x6{Cwh`kt;w
zRg8#M#R3H&tGM8B!Rb>RtI8-=fyDFLm`UmX;Nw*xOk1uGtDUCBp`Ck^`_PMXpLZ|Z
zxlm{sD0sIQy}M-ZuDoNHN=xn6)N|FFBv)g=7atk0J}5d^Q!hrDWZQZJe%ByA;Q1yx
z<Znx{v)j-M$XBL#k~rBN(|V)$VCDz=WW?QodjW9L-x08lfH7CJD!^dXg9G;&w>a|I
z{HOXu63x>PS^*CG`d0Q9d_%xkZ)?%pCwu!=4y^4hj-Qps&*r^-1@F^&$J43`{t5MD
z7|F;cHcq6OA&P_yivWgOxSkcYeh4Y%2;HHp{v6h0MU|jM%&Qsm%J2l!+otO%nuU-;
z1GD1v0)l=_IQ2@{q@KL%uF>~u;mxW8z!>tTNmoL8;4vM#&d{1^-_0x@`Rt|GvhvHc
zE@SB9P3|KX*Mw7e!PhR_y0EgV*tb{i+q-n3;MrH|ANu~eH_sLOC*=MK9KRz2lUX<N
zYd%1x<ZQxivU3y5TW`iEwla;}G(FAz7ET^%A-@RfRnI1|gK4zFH5b;ari31u<yd36
zH|TVa!MZEJ2qM+ioVos~cQseeQqM|WOJv|Iw`<OFn8*+=V6Pi40NqU&0^qC;SjgdQ
zH(bwl=5Vffkbq5u<mwrq)5sx6h~a?~eU^TS0-OONlQhhtv&;ZsCqEM0yE-Rw5#Tjy
zgEd6HBX){T`nOb>7au*~qqOMWY7IHq5-#rl6_5!MKY41a>)pinnTZ)@P8$b5sy8e{
zMP>vLDR|S$F}ZDw44u6z!*XCZ?3{G|?tmORP@)5xU9zWZ^*nr~?FZL6{qRq)Q}yAl
zjTG8WqHbhg5oZG;NA8^~9-WYnP85zldq47A!Fy4TJhyW4HczfpoV<VTJKlWcIoW$L
z@3{EOKl5J9kfH9!L!na^3!9@&OotdW!&Ce)4&mumA%mR0o}kF}VN5~=hQia)UhM^~
zz5;`A!LQk$#%~4bIEI~Iy2&qa6^AKe)hOJhE~T$WrRuq|{@-c~*6*3#wdvv^XrFze
z3dIP!79&8J@C)qs62ihPVxOxlU8+J9Q(dDYu#D_M4T%U2gh4V_RT@*8AOg-NUlwCm
zVCbRWF~QL{^W5y5`U?yv37AQAZ&Gb74!;KFsXw)G_&sW{1%5+9pdYJ9&@Z%9qweC#
zUj^kUUSrE9zJ;aEkY$}=f3W-R;+@5nk+uFp+X2G(&bu>rW>&h^EQP>6;C)-y=J(!?
zymuP{@ACuC7La<kJ#@F_-906L+lStvlCP%}8h}Lg5D|7?xbuZ#>xkSsQfxgWw;rOP
zyPBeptmf{<4X1->v_qrOo6wz*lCe$_TDBs~y41u=e+#Hu2}x-tkMd@TcyaG%PvWDs
z-lTaWV;Br;UcV{}<Q;vFN`^$x*(SZrdcD;-r^=BZ5}R%!9_o^MCQ4%tsBBz0SiY;y
zJ>~EM=-GlEN#rksxWvRDhG0ZpH?!j=hS9N#3R2~S-%?_%t@9Q&dl(<a@B@c$3&p@;
znf^}SdjSbB#U04IyG#DorLzy|h*Z%_$D?p!!+ZRm4N2Z{Too>zjCRA-Ofkc=8D`hX
zC@q_Q;6RN9$|w!0JyP3}lhv$}$RwL(QjmZf=C6UIF;<M{+G`7;ltt%3z_O_D#B5bT
z)FR=R%HU?A1iw=TzY-G6IK!}y0Ii3*)&WyFTMR&t#I>@6lZ*tZ6llxIpHh#BlN6Al
z2z_kTCe9PiyLXm4!%NTL&~`DnQx5Jd2KUIpJ&1XxzutYNcDSdw&=^8e@yh`X(0`h6
zvQs_JEm4m)2|cv4*zO`b<5s(?{><s(iN5#LnNb=i;gH4&-xwVr$>K+$RJ3GsL0GK|
z<vkczm3wl_Y1rJ{zoXe89|vZ`!Pqv5<3;Zt*}G?LxZpjJ*N;z_CMF{NHO@q+%p!hY
zCw65)4M@?|aFX*SGn!W1?6)S=(=k<1y8nX!-~`fCeFp>zC}IedVbU^9p!8oUp}oP5
z$KnKrn3YKJP&Iod7ww|A3MI5*RevVizr@lN+cWI9g(Ug~Cuti&1u54<xhs^=jMaB(
zen_t=!Ee=ZnZH6pE=>>D)tk43{xUcK31|CbrEO!SU8hUIJs-JkovsbDBV>a+1iuMn
z^Oa2&>tn0q2!*jewx-_hjlb9Oqr*R^l6A8Vf+kP#r}>}LncbDeGTrWtYbSU)TjNJK
zE;3BejdXBixNI|7&+#iytv<gte$V>Ho*#Mg<EQ1}C**z{7ok@_9sg<OKa%u>eA(fE
z>oYJ|w&ITdwsqc3-bt42^aNL__qEPjoy*o`@r~r`$<@d6-SFw`mYuuTodnS0vR>j#
z9ec}W$~<&7EQzlrZzW}C$2#1vm-uqfZ*`S|-DNZG51oB0mt|*U-HM0u4&J(L<%#b<
z_2yIGzwqV-I;FCWPN|$=Ctc{C-}@9DS2@9#1KiOQd}$c-=d*S_^at-Ay>ql|MIPO4
z39%<TJvq3Zv9;53_rbE09$j3p>u&B&ZbgvWc9f|urqPcREtG52hL*=xcJ5sFQrUJ3
z4z)bQ1fWvcN)PyeHUk#f+4+f`%2a)m7CrK$;>8iqJH3?uO?lM+Ko3!w$kOGx1h
z^vitghp5<ZRH>NC@Xk|xs!R2+yQogEx_kt`(2{sr{Xr}BH(R!CdacHJYH~Im{+h>c
z>}A+VE~R@DB(svClg3Y0vGd5v-cJV_scO2aDzRc^f4!>u;j@uPdZxc&C(Kkc@rY(7
zrX8*X$hM%Bj8ym~3({A->}6GHbEQh9bVOxYYDhl?CMc~n^+wcqT5?gVr?c7!s{Iit
z<HWcWBv5iBseunf1Jy_eGP5e7IyI*f_?4Y$shi$6u=hCn!hV;L5fvrK%Gg4UsLVE&
zVL#j_g{kpgs^?-X8NU;RfLTV9`svjGy|QK4FY+<^rdZYWCWDQ{s3}<?B{F5I!f-#)
zt`qb~u_f#@1B<~>9mO9|8S@r5>%Y>c>w0h!6OPxMiBKFzfk*fywqw#^w2VJ4vjZu9
znT+Q@ad7-WnLF?SH}Kb-=Y6i_1McYi+|Kv8$KK}-zt3Iz*ks~O9|LIH``q~Z+~^0~
z`470~W$yV;Om^P%35Vq4CXNU6@CV$n|Hhq{x%2OH1D}|zya}X$H*GYv^0pPv28Y|m
z?xTG7%Gmc0y?JPZLw4gU{0{ykpYPti!BJ)-%6IUteBZ(Rp=ag3=QcPzZ5(}`N7=T+
z`6CzQZI?DUdMwYG+-P;S%;9!#+dAFKoo2pgbsMY~e9wF8?WcHyCy)@+P@Zoo@`Exz
vSh9pm&Tz@M3n4Wo(}wGm3140{{lNLQGe7>sdyDHFD_M8r?MLccMn3*86-g(*

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/baichuan.cpython-312.pyc b/model_executor/models/__pycache__/baichuan.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1e7d6275a937c46eaa245400067e3367bd05dd39
GIT binary patch
literal 19811
zcmb_^d2kz7nqN17#tniucz_~AQKTSVI%pl%Em4;x(dXDRSa~rJyD5PJ2&w_f76+Vo
zC$1PA+bb&BiKwh6rfWADD%O^j{1Z*Gm6=phS#36zMT?pRrb8#Hnn|+GRn(APPo+|o
z{Jz)d21qwOvzu*+uV26Sy|dr@zTfw~ukj~7pPR##u)Q1qA168PXY`<7&QfIMl7-`L
zb0QbvL|(Kc_y~`?HDO6wBUYZ$YzbRZhzKlhN!TNHqzMUo(h+g6G<(9CbVXb&?nt<k
zo`{FVoe6K!7xA&UD^Zp7NBqg^NHu$QCu)+lk=kTkq%K(>sb^`PL_@MM(#Yc8L?GD|
zX<~6-qB+?TX-T$5T9d&@kfl{6+LD_hn^@eRXitVBAr`MrY)*DWI#|3Wu_f6V=}c~o
zY-P{2iLPXKq&vASvW-30CBn(=k?n}riw%jMWN)N5*%#?c_DA|zT4Q1$xg)Y8xihje
zxht|OxjV8uIT#s4UO;+AY?AC_34Jol_febJ{I)H!*TS9V#Fn=?u~l-6O_cNX*vD2a
z7TM1zgP?5t6_n31%1xkb{}q%6Bp;&<fp+s((|%m)P~;#h(SZ_M%u7hUQlHfSvAxvq
zLyW!?^joDv#%K<+)GnlUSEL@fVF_=WI(~M1RFb9f5veaVp12V@9*dv2G8r2WB~zl5
z2#utY6R}MEQbG#75zkx+oteCRIX-^*RBQwZQvC9jOuGLwYJ51%tIo3-NsfUQaeF+S
zh>uXrGCq#5`UP3a$g%jiB%Vl(kH#+}&2=o3k;XIe6cIF}CnqLSaweKd$s<>y)NmX%
zSya!7*vJ)0E2O$#O(c?~3aqO4vXqHVOhhlssmTd-6Fs5AbV`o0-bW{5ax9UM5>Yue
zepT(<IRA~5oDiew_!M>6{c=1pd2C#~Fqy!U<E0BP52xg0*s8W%kmSqM|HNc+{Do58
z=P{(1tk%4E?$z~4FQwjCn}q88=Tn#Cne+>CYD7w-r%0-O5%ZmiPhp-@<HqDTskd@!
zf~KI#sOG{MDJH6ouck&~m-NJw$xD(b;;n$PL6k;glZi}JdpXfWDke&@+9IdkD9^^4
zJanM$>^NRrQWE2_jPwed!1QN4UMj}yeOY@g>GP?Vj$vv_PcOWn`t&&Keppazj!kA#
zuW5_oyw+|Yo~HMcjHlD+AL~I<LR)HgGImvpO38`LjcB~0_0s!GM@M5LSO_;%4<k&(
zZb))k^(JFCE=kb|SsIPMsroaiOe_%{pG-!tU{=zq9ZPId9v`8u>lblU+SMx$HIB+>
zjNCD#tiLL9ZR_(mF3WvfDy`qAQ2#Waap<&TItSMia0h3uY}Kq@UawEIOhGz$II33*
zGo`)FabrwwR8)-UJ?qD%QA}GZdf{D5MNgtlv}O4z#42j6`Z67AEOEhUYekLKU#84j
zvgOuMcb2=lm*eD5DoXv8W<%uBPk}S$`u}52giM{@Z|WcF#T*(lX0Pb!1~Z1f*r_ix
zZ+MI4cVRYj!pEg|JME~bxnA!<`JS~^<eSZ`kag(2ylfHe_l&1$Th{h67j_PRMz8%d
zdQ;fIf|$86A<3=uWK)H7CMIW8t28dEwsc0Cki*E3sQ_rLVmul4sJ3J*b43+K6RDJ}
z+7hYDyHtU3Ue&I#P}PCFSZ4Pw)ecTKepyllY*aj2CsJ>y)?|EKwT{FxVW-@Qiq+bY
zL@F(%!H!dJNOCka8r`MZF2&N4YG*0fo#_O)Sz2{VZ$c16SzaA&URg>)E)ajvwy{?u
z(2AvL35816|9);Dlbjfsh)?ukh+vR?Z%*#rzwhc^X&@25G%#@^b0sxCa2+CIKobDc
zo6-oFlB_+Z2QJ0pBP8AWCvK=UQR1*M6pTl;uF1#H)+zj@2e8fG;)=~JABZ20-5I-A
z|4H-R=KDt$!zUIu4Jpk-d0XR>r~2l>nS({AYnK0=%<UVuZsa%bUJMN0zorEC<s0@Z
z)%){R&nnIXOI39@lQYRx!RocYHMHvF@O*LR;@sxB7g0iK+x>^n{OG_B4?Omre(Thd
zulD9QX1+0-nR|87*ZJ0|CywU1=p#q(QbWt_i?=Qoy}sFF9}IrD|IYsT7xUo*%GLvm
ztp^`mQ(BMan~y2=$MUtu74M0q+Q99;TYYG;(VcUn#rBS(chkH-ziUVd4Xs!$?e4s@
zb=A%_wcXC%$`)(u=4z-jgG$?=(meQJ=f6JrN9X?KxmByB$({3p4)rzPYMwjw`zL>J
z_M@{4V-I>4J5T3Z&peDhu6ZG6FM4X;y0C(I<3=dZFHb45LR0z<;H<;}#&Qvhi*s?J
zOSDK<(TYEtWD^BR5cw&vQPD2hM%_7XlouUu`v7a5Z*vhxj(d}jII-~Esz*mC7tX&h
zta`4*MNt}OqFb$5BS}b_tL{=hq>1XiMsgO&g5U?1C6gi}#+F7WX{|9~kw@fv{B16S
zyLQdkv)uc{luFM$m%)>EfwfpJgUJ)45G`3-R`^{`w0_@m&-QVNCd)-jOcm_cWt6jI
z0q#rm!aDkL?N-sw7^^?y(@TnutQBoIzi-tA$9MRQU(eP1h*k{-e1i+ShUIRMoSO3W
zUxuKMPEJ6QrpE4Cu~Fl(w0s7c@>v8^?tU@##yHCb2LT$IYWmuE37<(~2$LDV&d|!U
zp{dRNq2~!W5?Lso4wcD9Q*vlL^+tc#1(q}k{-ipi5ccs*G%6F*1AMFKhFnWYu5!cf
zS7V7u>7*>DWSO`v_|QluIyxS9pifd_R6dDBnbwwkngXNysw)~DNyO6WXf#cNSz{h=
z$w!Imc?47S6>F$p?^6^x>EA~1%eT1IYR*+P<4~MUkDV<`!97K9py=C__qNY(R=it^
zHI2pQt;NRR?APaB&)4;=dhBiPob9o*d9{jb=_z{Kh`xd-lCRqaq81RnSG8Qlc^l^%
zA9>oBYJ<hv?F-K?^yc@xmaqOgc4l4GGH3BsVb29N|D8n6_P$3xjxLRqggm0!3T3PG
zO+4HNC>b*#4a;Xi)_@cjQFhugZ3UgN1}o?+`U;wcfE+VcT?NJ3nt0U2zs%j`hr?F+
z1(3-vQ}7~!uuXmiH<f==b(CJM%16^A6zLtX7XY!6lHZ8Q;#6JbODH8~L7F~*0L-_c
zxzNz1G<3~hTWko=xO0x#nxeP*=DC@3bB;xCD90E5bvM5~^X<9VqCYfa%kjCLMSpe9
z$tEmp8CJ34X~m7ll2SCPx}&5NOeQGqjYh!>5~Um~*oJCNXJnZ~HCrL_Zy=`nO6zDu
zN+hDuyS)50>K;w@QEf2|5j_RJNg2-}_~qN&vX|Svx7gV9)YmF(dD76dEa1Lu=Ys9a
z4vINBq`4^O<^th`L8WnE*+Y+BuBQHTD)bl6+JqW53|9FF>NT#KQf%cOB9%;4<ReyM
ztlB@Z8mtwFuf$sIl3jEl?vxxrQ^aOnlCu<ZOTuV1W4InLT$kvT++&SKdqza`ZIE7N
zo<3?9{m{9+jCK3Kx@*)L{f!%X-_#)}S($hr34UTMx;_{hl~c)3w?P*=n+_dIBtqXv
zO@@XgN$d_y#K2I784plhWfh=yB9)Gl9tGW^q!p=d(xRf7D^ez=29mKi0a4b|K(!bl
zEwdyX%DiO6VAhxj!ryG;Rbff56A%9N;(_pH)Y!IVyr(ngX&3M_7e!6lh0SL$YdsAb
zhieJ~O60F@!veEB$9;!3sW~0mLVd;truNM!r!+c4>}A0iqQoZI1z}VnG_nGoj2Xx@
z7*tfZ31T*H(L5D`&yjT+g0j>Dw5P)cF4JtZXF3w|K9CS*VpXesy;wCwC`y}Pc!*le
zv^<+>)7v)Qmpki58513hTAcP|-J*lEgs-6SX4>^yL1pq54OZ;S`m&y^w}l(qtd}U?
zjUM?>i^*FMolGmO%52fgnD@!NbhZj@YjfuUBysDuCA=Au(CoUwWxDnF2DO;>475fa
zdU-Zu)#WEWcF&`0Q)t=Hq0C#;MhrS*h5i-C&W&x?+b`d<_KNxNn$JhrH_Q~QQ&W!q
z*I?%uxhkJS4R}gvFiJRf{_OFyOhvn_RsG~gQ$jyD-Z)uV)~F$8K)`?)a=^Tx>fDGz
zYa{bVnR&_2f(jydjEKu68s%Y1Aef^8BwFxHMUzJnQ=P<WsWzFqAzz^&P5}uP)n4j5
z!(w)=>oP4drW!#tOeNwFl(bn@8}(hL88<o!o~t_2BNz;fQPm6#Xq}*@*EhJf<7&v<
za#yy@sgBHqX2^51F=$$@HXf+Da+2D(P5~3sw4?}iR9ux1u;oj#$N++W3nkMl5c32C
z8!Lcdv9*g(Uei*~^NT$%=AGM$?b|3J2qaSQZ&CbP@?EDC|EY(YANkMao#*oYbH(Pi
zLUW(e+?U_^qSE{#;lE<jmibJf`+$P~O$U(TD|QT0HSNWgPCWXH-G}M1lR)4$LXto|
z7iKQtR`7-tZ>SupfS9l4>$a}?odJTFp4D1bvP3^W_=7_q9a6kI)}c~X#ADZrELU@=
z-_xOZI_57w^7Jh=4lXwC$(=4Xhfx0TM~9W>ow?_VO+dhRJoA|!eEXwsD}iTnXO>!f
z7hWm!9aH*_Ew&!doiDa_FSzgT%eNjZw4P8}Pb{{c%$<MI*m660D>?s)(iqO2UTWH0
ztggRZb*qYQzFWRxb)eW5rvELWxu*Gse4u;P=V-3V4ZVLBLuv2U=~~-AJap$!v2Amq
zZNJjC9}w|&^j37$CA5R~z2||Tf+3<<=u}$!k#gRosruXATiy+uW2j4Y=?EdM`g8>|
z16?I8Z^haesf5uaZy6?7MPx%TZh&kC#;vg8Sk1sVEQOY`Meic&off9;(++Sw11F%F
z(k0rMTG)tO+K}rm$bTVg*KK*MUDO3yL!Orl5G5>5rEyI=L1jqc3M!{ApIB`!jKT$6
zCk)HmK=j%F#RUtr9R`;1t7*9pX>tNV*e+kgO%+&%#swxRGedz)6mE@Ge2WrD1yHTm
zu3ncT6yvX{{8g2|u6l^wL{pQQiOGy=*Y0VO#^nvJfpUWGQ_WxA-X#^|Pm!Ibmfqq3
zz-t?Cx87=<dwsE{XU3kh=3Xq;Hrx*13eWFc=$H*J*7nUfNU_MpiXMN(?kLs;ZXdaI
zWPblb?0(H+-R_y8+_BuXB9?jlR(zhH-#H&!Y}}Uf6ziLApSyK#-m_TWJLAgPXQ8w-
z<b0ZnB79cejd|ljI6WDbFQQA~D*1KXWKt(&(nnQCG%BV>pfG=vl46uZHoI6xrq@`Z
zu<WEPyJoy++KYUN2u2W8YAg~ZQt&q^gOCI?mY>>ALn&?RD0cT0dj^WT_K@~ccbXTf
znEFBy=r8qwWe1Boxwg=<i$&dBL(8&<MZH|d)@2`yR&jxj`5~oo+p?cMR~vdx4STL7
zMTgbD{F22ZG(M?ox_$80!DRt)G^AOjmL2ru<lO$7!I|I}E<9-}5%r#iWnB7FU3rY8
zN|mUj3i(QwCQ^rVE0X|)$jsj4fQsZa11Y31nWnopNY`rjNE_svmm0MY<{fp4UZ_qU
zraF1C#i~@pVlgC*;9yQZPX{8y*lf(0rERLU0(FgHi>8Qn_lgR!woY@wZeMHI%JOF1
z2I$H}n*q`W&oVeig+(1XFzp#RjtaAvDK|r_w42vm(2)pzSu2cW_K%$!5qe~3F=gYI
zIj=<RCKwZ`W_VOH;5mSPofQT=qj#Br-pLJSiXUszDa!YIF5RM!ej8fIUqfAn76TKX
zdssts@1R``*5wd`J&z1#Q3f`hzb+!1vh^nu6JbH4KSed3rr-<(XA#`RVS+S~4*S<Z
zP8ffnYG+_ip{=Si8$TYklirez-(_@&nK;U3Je({fCS)>Ys$Mynj*jE#HHubLe|#LA
zKgv!5DN${LkcR!<sMyE}yEJh^wmh?)Q2}}xQY22Q3z15Q*rv;n$~|YG#Q%s=>7OAW
zlvrslEVgbgwDu{jeFWl~mKuU{ug+h*|IA{;{+xTMBfQX+-*xWcD~la3<(=(I&D)Dj
z!9vqErD+@NiG{`;O5=`V`_5uubFuRP85wmuBQqh^xHJ>uYCTuqUM{$)v#@E8vT08-
z&{ha+Qve$EQm@P&f!(p5K%o=1$x!$F^+NZ4rF;K_>xCmPDMwy<-2O6kGq|*Epy;hF
zcsD6HC^%K<+^cl%h5bK_l0R{7)fjJCJUeA69T#Ci)9_FwHlaA<G>;Gg9<shwpVf?y
z;5_TEtbvQBE#nQ?xu!JbQ^sFm%7hvI9<T4RX;@cG&6yRamKF7xA*hPp(OKuH1+3UI
z9Ja{DOu*uK8-tR6hk`i@zK5V>2Q8DycaXZ)4$5ToRM2#Zm5>UD*+~BuN&>0CW?Y~5
zv=#%MxiiIJs1V$t1b5tTTMQnVx$vZGd!g%DrR&)ThaPTQ?0Oj%>fD97eOMnKR^6#8
zHbSrHUKY6K?iJ43?9TZBlecsiI*uqEM}F*k_~v5A*A-`b&Nurem2lp1&bKW#4di@9
ze{k+f-rtpXc4>IUs-qO&I+P+48)o3d43)_5A{U2?lM@N)E0D?iR0jp0;xGLH0<xvL
zx!xTmK;jDt?kCluWdV1f1Yi&c#heD%aM5FhO_d%sn<~YI_<Et+KpKcwAPstQazG)y
zw|eL6mD;V#E=qC(eB>r?W@oZ<U;FUlor`&YSaEIt!h<|*M^JayKoQ*<vjPXEFF_H}
zFY-9<vcL|@Y_p;;>ST6TJM69k?6Y=Li<Heg9X?G?fCMLw(yBKs>oPAZx+Rw=Fgvhk
z0}3s7gSI6Xl^t~hrU(%?EW;kjD{VllK^lTJfL}hz#sH2@tU}+b7{Ku}+ptgH2^Yxk
zNcGSmu5OJbVWTnft%wbeRPr0zw~XKXFU<J&_;;-D*xnJ|v9CG0gZ}jEAe=D+O`y)w
z^<4onzJxdQG`fEm{tjk%<-7J7vY8q+%?M`i6ch%($&lfNUFNh%HNhx4mqSe^xCCWP
z5J=9J6QJVQv2ysgommTPuNGh&!{3AS%}Q*7xPdJYCz;Hy%w|1i-Z!Ln=oIBU4ns@$
z5p@|OD%%l7L9}1CnAccQvR<zdXvZ<U#?^<Wl-xa5IuU%&h9!U{p<OeU8S4x`1LHOX
zgrKD{W{yK0T3unDu^xaOw$>PuF2e^xJZUNwdJ7lRGF9inL@aqpj2)iZwr1rT_@Mt_
z0!~_q^kGCaN;oibX~K>`43Ap}iq(zzrtJ&oAM`%F{<+l>tYSO`7DLV1N&X0w@+<{e
z3P^;68_G}%)<D`R`f;}F%Ba3wSnnB1qamp7>*OrPPRM0yo#8pv%g#sOY<Cs@UNXHe
zwT2y|Xy@r#A5;%BvT2}8b-~J3irPzkq%|S`T`FuNOeWLHP}_fnZx>ufUZHY-pMvt<
zE>Ak^JA-Dl^8n4hdGzSfN@Uh(KIP3c!9^7LKY(Q33d7x#nqZ+Otki@HHM^CX-SAil
zbQA&uN?;)8t%yEp43hN>R;WTtkJ8dZ#<-sccQIhprqHQw2_dZrR{g-&$?YHFSw^Sg
z?feT14sRh?0&O@NF4@=iyA|g%3=7V6e$c<rd9MdZ45;u_A=s}3`|qDB44zg7Pd~0d
zgZ5lY1Fsf+!MU-#H@vW?&~r%XIfP^39Sn!{vK6AbG$b4s)8@y*wEQ=;L>Y&<FLUy1
zAjHc5hq&FfXz%0?5Kq%S)sJia+Bz|soH9@`W7PfYviH#|piPJaTr!G=6n|*GdC}jK
zclKy9ldzLozs6HTv;4x=##%{hM|bIw(mn+}#}PwiY+ghIl{=eE7<8FA^U2Lw+iyX2
zoEFAwHUNXhbW95(H*FuU0$|mS*{mW@qH0>mLS(a8rE+U}e1kR&X3RRp0;KA&pq$9*
zit!NlIyTX?!@@z$wV0Xg-m9@ya57`O25T-?nyxAf6RJtHeqcb@m+4@NUd+0SwOC@z
zB_p9TD}XoJhAa4vr6TT@$(n$d1t-n83>A!=Yvub$lSwek|A>MG3hp9My`Y0LMv1J2
z(rFC3l12+o1IquHV*i8!gWstF<1@?>n06rxyg<7c6V@<v!&+ug0?!9%A^r)9fE55d
zH@$nf;OTzk=?1FJ`?nQCeYbp1LY;-spb{Fq|Bc1aky&3c&^mMGNnLloZg<|h8(|R;
zyIlz$%Uvi2dKR8j0()WaZfKnw`taPHa|`u_@O~w{|H0so4*&4*pEW#}JNeVDo?>-#
zvAV5T-L&GcbyqPYerMmZm1{i5gCkW3-~D#Mzx|Pa`%+!kldZdop>0nEYfbHnRj7yK
zhXCHeOxWb#_4@rYi>-&?fdXWHje6}2YTMsY^1EKM`3)FE1|EDk0He%h3tU3+q+NLX
zw13uJ`fAb*yKwn5cAcIFGcS)-`Y$-Hv_7z|vch#v=HK&VEy%fu9MnDSn0De&8>{C!
zk34TyFf~g%%dU;sTY{N68fK$XzhzKlt*pMmj7RT0(hMg~v~&#SA%X2s9MPKXwP_D_
z7Y=A)N^<G@j^}u8{Dh7BOZ4D78}{I4xd#=7D7PqNs`WnW?UwtZgBqU8+RS&RJ_|he
z-jC5!a{RRGUN@?XdDxHxm*&~2Ipe5~l2;cyX`HGnogRWq_s7StM@MDp8crR_-AnbY
zbpv;+HZcw_xoYx?5zDUHX}HEn8Py?66A5_zt4^SRG<^#ohcGtzpHuL+DImnDT4SOZ
z_G+@^pHf025X8t;y~1=f8Jn2E>7eSFfLAH(JFHC~b5k!hng*6Y7gRk_>!#{v1(-LF
z>M3=d(K*vs;7$~ci>km#SeMeoa&=}wcg8SOFEv#1jZaS*XMmb0tIWGd?4tz%bZ<N7
z>nnP<FFR}<@SEJU3Kg?;Zm`h0LuuWy*t%=6ad*zM)UoyVw&r~QVas;K+nyVm?JN2_
z7i@~Z7p&lC&zw`Lch0)!&Mh<*>o(1cO5OHieGu%1yf5d^-EUb89Gta1!I{FLTZiTY
zkL$t<;)5Qg|0JlE>b5To-miaLw}*=0=x|7B3eO6~(AGj|w-VYt>-%YS+nhw~;&Jt%
zpH??4H*<T=^UIq!96kKn)h&g(7lehs@%ZT17DKNZRX(oXUGz2=yo7z`#GiP#EI-3_
z_AKw=s@rsK1Y-!cKj7a>&%ba|0~FQktpg+zHS56h6r+<0W)sk429pTCL21OF<lm(L
zyoQsBd7B?%e4lbC2+&*lGek5~L7=(VvF)j=4R(Tt_GJNgyt|tEWe3HyQwxegt*`pr
zL$SlW(7Vv^N$_rPnM3r!)*to$uy=)`I1cUK_0-cYv>7G?#8F*+Gdrqq&=VYMcikUS
zHtkz>(WAR`a)B2d*uG3<!OgYfi+od$;_6xPQQC2Si_kWIX5nl1cRvt*<o%&Hzk5jO
zJE?S@TIP`RaQDOXAMg8uq8ebLfsWwMxO6nJav#I5Jns;Bc%fQED_q8HA6Oz*QmI78
z2Ns-Z*l>O!K<yVs?Il;QD)`oV@llb%p^W-DDD<Z3P#j5ZchR|u*t%iqYV*=!jpP>n
z%;-?N0fm;kLF<ycWOS&5(ZM6uZ&1eurL~qZf(DGhD>lLuQ6&lHbyS!ve3D;cvIQjr
zC|Qk9%xcCu%X6j2#O4j^vf+a>TcnPeI_kl}gK9trEXUy<e<~%Ph)t$riSrlOF{%7R
z)F}Tm1lU^FDE<Nkw8`Xur=^xvrnMTBp$yYTBD6&Jl`8;u>rQ;W<jQP*j$vjGAuwQO
z4}mC$a$WX5E4wP|Fao)T&4UDZ+4HRew8Da$wL(Rwp5p=)je}hk-e)#5|3nB;6Prg?
z$h7J;WGy(UDnVUXJqWDgLK_B@21weZrB;SW4OTvD@v+dC)1rng2W3oD0kef84}jLN
zhm`9a>ng|fm|2_Vy^9*#Iuq7QV}?xpI(3kNd1x>w&3n|V=a=s&Wz-3ajBWU?b)8<X
zI$+2nhaIeErr6W+4F}4G4EgtvApbrEET7q3e0XFIKjg*Fc)cnxdxuQT$^U?YlN4;B
zKtZ53l-gPM>6=}{3Jevfb(y#ng-elGb`MQ6{Z}T{NUg?qF!(r+Jhrs2^W=L-4m(Wk
z6|A4E$IMhgi(3O6m6i(Qd&+ft-7piqOCszSDEmvMsFc0Vi(g^0C>bh#9yqWVI0UPK
zw-{uONX<(P9l!|1x@MdqtvYP@{KNL18-S&$>&r$A91<<nwa?oZT#I$P;6sCNJx~)w
zR^QG-?<uACRL*wOJL4@lTNP*PV`ms15H}CZ94L6UKk{rZc69w<`$yXg9s8Az{e_OB
zO2^UM(9QER=O269mqG*g?S&o3lpV(wL&wST(e?x`OwY|cSMcspynCPyxqLryYSs*y
zDS%rs0c-RbVgU5FvJU|>X5ha5GSg_ve($=0!y+%DpawQRL9Eie!BVHXH(<!?jT?VJ
z?}|)l%(!uLYG$f{69IpCA-w1x%sU5}ydGYs&6=Ar`cccqHX7oBS)0zGNKMiQ!?VG_
zrG{D1Hd3C`WG>MbqkI%mO;K*&XqY9Hnczg4L>oJAYHs_`eaBt&Hq740ckFrKgB6M$
z9@#6<AJf#=yf+()v-frwkqrlEYOTSWD=}vr-QlQBLz5P{Km(v14rfO;>MY`_UE8W@
zY78S~!&Iy2tKms}+M;Dnb!{}_wRC?-11Hy94BQEqph8WTQqu(|x9msR`*0090fV98
zwj+~Tvu4c3T74EdmA0w!=b|*CUw5@qM;Q3k$IJ96jF-OTT{B)rHPyM%AS?Bme?>!V
zV?$i3>6jl}tl7o}Rq%Hx{*L**l@_{xOC9((2-Y~d8E<w8IUDZC(i;ScacR!$_-e!|
zhci?QyUf6a8L%*QL^G^f?2uQ-!+O=Yi<YZH7=*7v8wa$|*B8&hfw?TI*X4w*!*TAv
z^PKiMrAuafo(Y_ts96>esP56paeM@o8jmIL^#Ls3aCwECdPD?diD1gGehh5PC$oiJ
zDt&^uYu$P9V-%a}+wfg#GIXtM`y+a(Bz)M0Z3^E0)~#<90)0xL?|vg0tGqw;1eSuE
zKRk2iOd&X+1P2Pi{Yr5EgTBS!8Q8SI&+!4{+~!A~)+KM({NzINC*FfU_imowy3qC$
z?_S2uaNa$PQ-{}SOutD1^Ga(Z2WRN?kjVI;#!%|zUsuzkC1k4ZvB`DOhwbb$ahWE?
zTnGI3ltaOHXcEE*paVXsYn|Qxggj;&mIa)3KNako?0H+uaudgN!(VvlB-qY18fVAQ
z4ok<zZK2Ou?hwxl&y<zIXUa<9GdP7mc$6>p?R@HSS15*vS15+`RG}Es<2uEVlGZDR
zl-4A`6)q4YqrkF&I4ae&$2ptg3a&UPsmdbsZlF6NN7EfwI7FA7K4IU&u1^l$J-Eyv
z`cU{&?;m@=ps1!+(%g;U&$wvr=~~%^V69pSRT66D2l&+y?R%n8Tj|^yN+eTk98hc=
zDt*z#KCi7%YNlS*6GJ<99}mUGMS?_(YFB9Q@c|_EyGc|HKmW?fXG8c(C&a$p3z2On
zbS0J!#X<@Cq&PGJZ7I|}(yfte8qr7SY8h`D3J`H28V+&hmA{986d))rh^@cO&JBoH
znYqAeoJ_9Eka%SmohZH!PC{RRGS^*d5f|ey=2W)wfh$qLeKyVktTW|K&ZDg6G%HlV
z;**p*OaU2Ca7f9-U|IS5ZOURGlm<<cSqVYO$7KCmG2rJC?VeXr3h?vGh|^P3@U$tO
zw)y%;o~=vXnwiszH&_gI-?u*`6z6OEoPDh5<b1UiS$oS_Y^mLKuHzr_40U)Nv$#ZQ
zv>+?pRsRbmQc$3Nb|Zpa{?uX-oY-T>`62!noJ**hpIWBdgWX@y?I{J?8mE#}rE&fB
ztnm}{33=rjKc-JHR`jo0&Ep~bgod%4PyD5q^L7kooj#8*xX8bOEkgdD;f=|bmvy+j
zvY>&LSCRIuW_j~y3y9>i$@*D8Vq^XMPkJvw6vFyha{AaOv(P{mPW|{g!Te?{5SLqf
z8GjC{FTLRZMu`;s`GzmpD!Azd<3=wSx2F_nbyCUjQEff-Bd+>KQux6aCYsazu}dRN
z%HYHlzd4dgr4niFh^j2ez4$4D@iYK%64;9QF{xGLdO{!OXby|o$1bfbkzivy!M=R%
z7vYF2$MD+%Y1v6FGmn-2l0Pn4E!YBAt64#jzM6?&0yGub>6!LT4O4QrG6JUCM)jX7
zD7gUimp`=DzJTuh3R-qj#tz|ep2(@2zlxOoWDWZUn|=19eR|#VRVCKz#Y|o9{)!Up
zTl>;)+AueD^{eVHA5%!|mu$4pigtfR{hCt)8T{D~{IFwa`VAb-K0r#E+Gkc=n`jM8
z_m_?lCNpuY46+_E@TU4$!L)R3l71ISCJVLdW+&G8RT_K*LhD^7FfEg{NENj547Z0U
zbu$GW6l|g3n-siD!7&7?{Q^Txn%}EL$?sD@W?lwp7{6nC;x4DH@}tOt!-<Br4$F`(
z^q))n5iVPKo`2fQ@n`v;ah^}P&QH1E&p7X=T>Yn9_&?L*q5s4Ud||QimZuzo&)pn<
z=u>Xr+LSZ=r`)MexuaiLti0t5CxXwN9N+(6xg!d9<O_=(&m4l~+6KOMKE2H0wlMig
z_HK5CqN_VP_?p=c`fg&CLv-~y{xzO&oU?rBy5m~qD88Dp?B%=XcF|8)ta6Ah<7m<n
zSjF!q@NKilZ=bz&c7>z(iWSMrEP3@6>q|VpZ|>5E@jLN_;Qgr|A6n%oWp&I_#aHE9
VcCK=`uXZ?jHy%FcaAy<t{{RIy=u7|r

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bailing_moe.cpython-312.pyc b/model_executor/models/__pycache__/bailing_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..99d397d814f3354c6e61c26fba4777427b0ae662
GIT binary patch
literal 25387
zcmd6Qd2n1udf%J-K5)(e7yyI8#lcAeyhT!^2y#i0fTbm+m0>Dl5N|*NoB^OW1B%1~
zT52PEfnBWyR<b7OtczgfAXsA6ViP;2Qcj8GR2(ICrREWoXY`87GG*GXt;AK30Yxt7
zkL36DJ7zF^pycEqKM_5Be0_I+{axMq6OYHq;Y*l*H2PbE9QWrGP(PdESwC;&xEmbL
z4RXAJHzo{8<Dk(%epAAfG!L4Y-<+@vS`cSWSd+G4q$llz4whm`Sdz9u8}nNe&ZKM5
z#r(E}JLwtpFuy(FP5K6X%<o9}lO=;C$<o167Ir4elI4Tt$%?^>WaVHbi*qFc$>3m+
z`Q3@CWc6S*^Lr9C$<Sbk`MrtSWZht0vVO2W86FI?IA5Y685xW)zdzBKY#MB0{*pv<
zvSqM^`AZY6$!&w%lF`8^3zsF@lI?@-%wL}9NOlf(!e7BxCc2W{gWbvPgWFj+kl2yz
z8SF{+4)!K@4(?3u8r+rKJ-9o$XK;^!GjiYJ_~3gSUlq5FO{znj|NYP;`v><i$Z9~=
zd=2D&1{nfm?bkrQz#!`YS^qVV2jV^k8wPB{^I<<!8b5fD<%l3hqkfL~_IUS)7NviO
z7<3b$o8yPHUcY$N9BrBIJ2^fQ7vkf?@y?0y#MSUiL!*h&@eBPE$HK`8KAs2<Pb4RY
z(xc}S@$lQD>5JhLQx`4(;P}umBI2VLE~Zmmzod$y2FZRh9T$cG3cqzUl^7k455Q|2
zABXFIMTn<`q0#X;e{^DeWb^{!97odW_;`ABf&eN~Q<IYuLOPb75QZ<tsNzu+Wt3b;
zhlVf4<xG<E^+Y166kw9v7vkyI<YerEFflbL)lmoqrY3|KYkh2TNEk{a;)$3rG=52H
z+B*I12_eD9Qlrz<cITPV#MF^-zJDr#koU~RAtBBmpGw7fj0<9H-|jy%Fd-zPCaJnV
zE?l4<C8m<&uPC*hMkj{^spQpDuNOysd*bcQQ7F!Ldg8)pI`xV$F&s~!?T9LUb!rIX
zGL4a+7}ti&PVE;aCTUQ-S~2}6;zPVt`TE50(0MiTSn_<F=P^$xtAdY@3{54{F?qUT
ziHRXTPL-6M9LIbm<NWAQI)0W7Tk4kvno6VOJ|j;?>h#37k6=KQ&?~P*ty0O6sr1Bm
z<hei13PWpN=^ss{P~qvJt8qaJjHYN>l5!lIhGZO-Nv+ADOYvAdIhnp18!f0_nYL7H
zWM~-ke^qiZzyy_+lHAFmtLNjfNg+NmdSzH%*0SqT0_(p6&kukz<J_PDc+=?M<o|d#
zZ;YFGQ{2oOrh#91a~wF6`7CiOZ;jhVoO9fWfw#Tq8MO2ExMQrmumai7JGO{->c@{*
zdDna9LDw92#W3hT!$m!kU)fsPk{^()!)zl+?qOQsSn;$iB==i1_iD(Cr8hMkj|uS<
z<}f8$l|ir;G?ES!LT2lKgxH@LZg6QWao#q={TPTqMI8oi#xQ2qk~Pl^7sHVwe}E_~
zU5({pT0TIqLrl$~<l|ymzO+wGQ)`~J&TwOPH8%e{W1U7W-f(Ff$EA!fbKf^?0mqHG
z^SM;trE_1C%Q}sIp?6x%XnU!eJO6vdkgCGiaQb7T*KVa;hgt^m>XeIEzY3B6oyLry
zP1+cy18N#?L=K&PVwBL250yDWUJVBDK{a>&SHCq%y&e@#ABs0kW3*6*SA|R0tG*eK
z8@xq5L;$1pZWD}k6HJMkJKe1MP_wq0)Htehi!sz@ZxgIG1_iN(v6g&D^<j41Y~^E(
z6@N3P8OuN8c-!w9@7X_82r%@kLWM({!m2<2EBq_ONAh9SCp4rxRsR;fF^qMo5c%JG
z4s~wF!|5Gr{8*3b%m3<^$~*HVp!L-%{6FYc)~Kya?^Atful`)?>@9gU>#if+Re+f`
zv$=L*uH7FhxC*0HtJc104SRTR!8)(gh4JanMnOJp=cJFQCFtit>>(8*{|jvOQa+^m
z5ZkBv^S`_w@yGLF)rXP~sQ&!#y^?~}-lWE-PpLlS()P9*_naLX%EPEWl%R*1jBE}{
zF$ZM@bD-_ot6a2vKp;dX(E7L_m-ggi$pr!|_SU7?I4G~<a!5#~C^YTwdTS~!T#a3d
zUyWTJN=(J?nk4i2(V>(;8(wIGbJrl5;*+ThKmP0AU;65gR}M{EyLga1@w;ZBn_w7V
zRE3r*CWnOd=nx3UiS!UkmdTR8LOQ;+7bT|>&yOb0My<jw#1fTqB{n&c8YQ9)^$(@u
zk_Uv)czohYES0{Rh)Zsw-eRfYAtJJcUgVm#bPc7`;~*v7<5S7lrOUC4Am>s-E7DlQ
zqpgw!lrd;0dkiGgXgU^?To*@qw4TwcQW@n#88RU)XP10wv^x=_BvzgbrHzjg>6M|h
zO6g#b9QjOk${Rx;CEr`DvKZPS)6yn%R@hJQeq<-YIiF^s4#p)L$W^pU5IU$Ygcb$b
z#gd&Sl4eJ8%Tsz;4*7~EQK0pQAxmNiG0QPbpFli~<X}W5QQ&A7n|MYi5|HGfK59Xs
zjNmP7rrB__nGz}~Hc&WSAW0R9IYo1eNlITt>jgqg+GGPppc6tevnjJn=2Sc}BGA&6
z=c{ND+0v8p6ggtC;lxlX6^o?^yM^WN+TZner<0T2lcSTJs0yRid1Y$PzP*?B#Jdxt
z=esAbrY}y6cV7m>(=D?z@hkCR(B6U^Om&}^xiv65@vh0M0`2nYs$x2`OI<c6k(_#n
zo%OfZxD7w&@Xp&rd+?FHI#<(>t?3kNI_J!f?7>`pbGCk;Sig@#p<G>4wr;Ojx0gaS
zk4ty2mhPRiJ@J)geT|~8ap{8S>s%>$=<CVYdosSBoR*Nzw(b{O_doRQ&)D~8eEXkN
z)n=<Y#j4JgfLMjn-uLE$b+>#seGh}LE%#+R4u~BG9+<O-&x-ihaTWlcTz%uM*_*S=
z>7TuG_Z_kRAZyU$Q2ml&X=k=^x7fJ*eyiAcWHs~>rBvm@P1*1cF}!1??+^Na-Y<ra
zP;_msqUy$**WX;~6Dzi%ROjQG$kOiRgZG<PYYr1Y@R^9G_1kl9f7Trm-642B=%4Rr
z;jriqGf%zfuFsVQZ**VpeptG9>Gf>$Ua@&^uBtg#8CrNFQ`?y->)P<y!%o)XwQ>%n
zxoRG|YSye=c`#en_^_;T!^D*Y7tOakH$BU{v+ak(_CufgUwm2-xN+|KxuvE%owqwz
z&OWNxzh>h+C6C<UHShmx*18QhSJ|rdU}@)_gSQWg?t(s+1a8z{uc!9cL|GRWU(b{^
zZFp>z=)wEWjZ&_qbNThmuG60kuQq?1Iu&_Z-LTZM+;QLhvF9VtYV~oz`JPrs)Zq%$
z-1y%0@8zoMvsHV<sy(@qK(-_zmPB&Zbu6+&tm?=`TC$M?V&njZs)j1^ZIp8rbyUQ_
z{D4{#LNCw1oTJs#CRVkngS_}!24m>4RUqS!9qU-yoa9l_BG678*hR&~u~8n36T}Zw
z!uYTv^`Q(LVH3tUUBj-pLF6Z~zeV4S;X@_%9H3@Rv*sDoSYas&JaX%kv<jh7SS(<5
zVlS9@!#$%)2%bY7vzA%wELb=_qDWYtv5dJ2OO^dRF;IG>F*l|W^!Z#WsWNMsv2IzK
zJ|XbD(umn3+*|a`Sk$pZecYHvWaq(VtQv&%IsMZaX?5J5+Y_Bp*YZ)DHAbwUMIczv
zDrLsm8o;aowki*!`UrByroztJ0i_YSDh!AyyV^%qngc7!0U3d5;FtdgA0#s-9Jx`i
zK(rVR|H;H?S|EB)I8F|orjq&cX#8#AB?=!UhfZQ)fSg|;=L|V#$$14%)G541{y}nn
z4US}b>(XV(5R(jVNrp?3;j-j`@F5+)l9rE7$wdcTY+@=sIh9Tko2ndH_z~Wq0&F7_
z!rMavKOKDLxKUDW0xVUFopX&_b8@AX*^*|lq<Ja1TC#KAI%k@DHCI}3BYHiW^OR&g
z4Wg%kaQa@caqs=6?EYU7_y0=9{YvKbH`YvCS!kUzmO1BbbB4Jcb3<!(4V~uvB{!_s
ztqa29&Rd6W9$Mb{vx9dJuKM@Q9Vtl3)^vz99n1XBl6RA<{sWX&p7l40{-&i@SN*L@
zI3oHZOFLHm%|&^;#hUI_|MsHT?PAULRsW8;BRB{@_}={Y7H5`UT`{csdgjg4$S1+j
zEyqpAQp3`#%ZAlp+nfid->vGK)l2=WRXy|GIoHCgIbU_gUM>78hAC<u7&t4DkO(B+
z_)szq63-bU5$05a{O(u`GNFW=BG3{RNbDfc_5qzaF_Dl=DbQJT{!11nK9#JpKu;K@
zIFCYq4963RSnRGr_zq%Igw+nS=@f`BXU+*qcn{9szQ<vpJGSR~cH<b%RR+KC3>YlV
zC;sr7g*-UP0uh|4mD|>AENtfj(dC_DW%rtcg`Heg?V5{u-CRlemn{3*uNwoFnkRwK
zjhX8+YZmyaoY0NL^~9QuLUzvS`yezQ`pSV28ywcGVYEp5RPn|7w-NQM%#U|!62Hx|
zK3VDqi63v{4I^$Q^|LdnpW{7l(7|MNPV7UM<Wv@Q|LIo-q>@c?N}_aSif=QqC!9lL
zh6~XPO%WlD^}mBtB$WgD*esPx(^15}8Kd6OFk`r2fY=gHNGBSy=u@N^MsQUoRqzka
zRx35F4jSZtThy>sxiZgeM#+`}evRm0_N6uH&WB12>ZQK358Rw};FmZzxoJ<=1suz<
zsY%FjC&mO4f=oNR_=&g2<p`2>08_nyAGVSODp)v3&Ph0s^%rJmguNr5n+_w%3gK~V
zWISq<@!e(0+d@v!T(RX(J&@7bHF*;-^0_QO^%~*)dw@*63#XWHejM7JbC+h_b)vg2
z=c&uM>z5itcO$4Bm7XGcaPiGdS^I{|TFc16stqq!-JWyT=5yx3Rq|^vQ??DnO*K(P
zUeM}+hJTU(o#SFVVwi?g{b+@;RdxlQZ%D!zW=YCOxr)9#sWVGNgtmI}V0j33bWur$
zGhnU<q9)-gz=ZFTGYtn3bm&NiE5a~-Q&gRLd@!suU0N{I%AxUJ36jpTYaHVw!lEy{
zRI=)8l<_Ljgs0|DEgF6_FlPY32k*?kvpBTs3oFS!|D2r-(OuKPSz!$2L|wuq{0Iqh
zl5ivwwzG^w34IFV<V=u5)6W_v2;@t_DMXP|6iLp%p#(Zb2}L@&-aWaNHijRAmc}PF
zb!!&<0;`oYtl7v{fEOu9XmK%p)3xTJ5MjnO5Ba>D)BB|lzW=q;Y$=g3AJs-<r+q55
zw|)&#I+)M(b(rt}N7pf8=AD~#8ty!voH#ZhY_;1qAw{AjX(g=xB~WD%QhY{Lkw=OJ
zsD*N~FRdY&f>dqE0?Fypz<Ct~AP8v`eL!9sdIbatEQ&rrXo7n{kSw9-1B5zL91wG%
zu--UUT?C9EAT;!x)`XEWM(FlAm6imIrc&7iW84IzQR<suOq*adgpDm8ezr9{H)XhD
z5WGws646gbYqXKsRMTeV03m7iZGy4pTLU`Udd<$$2xwZj@$EBK-gXHnTc}Kv=#G73
zMD`Yan{rhYz;+b@B3KCfwE}kCIn`TFJW=>`xD<U5#+&6R)T_<-rcrS6c6DxrGX*W$
zT~ri;>2@`4Y_ICe|LU*w5ktXv=#1Sxm&*63ya;--GheFe%L~WHOK6^+52K$xMi{;5
zdpG>eVfDn<<JcP*TTQ%<(lil$zN&W*>c{hLw!Yj*)e*YC8{Hz8=XtrVd0*zBGEgf2
zzJW*S`8|sgwRMnhAMd-=hjrdxpd2vresyL959XG5yrOT`Fz!YQau$C$wu!vcsc9Pf
zb=HvnmYRd$W=vSWr2HxYaaUSEHa4kH<2E+RT6mLs;Did5|3xo#vF;YC1igKx+b_1y
zGz?KtpRBwq`&}YvbmkwiI%`^QJpwYEFIV*;RtEzjRvQr&lH=}`f2f=%n0KN&*#`o+
zVnFhyh9`u0Y-DPDm?;Nr<BG|OGd(eRN%2>}h$S6|6^g7LP;?Fgb$}EHNE2dw`s!p{
zGLKC5_8gBInd$=KZ5CMzDKOL(3@koQW;n6<70Bz;Ou8O52tTBPY^jNnG$h~fj9y4i
zjPld`=C*~0#(7x%2tu4Sm1Pd6E>27(`0)97cyv76Lq<X8N5`3QN_d-6U`KdhVmuxV
zPY8&Ti|z=IPo(8&rqGcZsfj6OPNTN%8Rlx**R=^E6}4<hT1?x!<SwS7UW{>J!70f_
zdJH9*xZ=s!C7GMJjBya6G#D;eK0#>!Z48(?LgP&1BDrZqprB#%B?U-fL$g;jD3U*4
zfjoo4Z&IOtQfe@RB+MmEZ?v_5siA{jc%2;DC=#g%$Tmq>pb%5#C{1SSl=Q?U;X0*w
znFfR{7I07JQ8&|w$n#4va@VL2QYp1-^I!<HSB3Y;`3-WYp~7#I^8<3`$eDx#xem;O
z(!D*B{XFyS*e$DEtcp#OnV2xiL3T#6L63#m@<^_Nr6!sAq4bdCD;_V~#i10_2mKb+
zR6%Runb~I)w(tS9hsYhtrp~YZYgjtg1;*Fekx%C9!n%yz#4(Mr`!j&1te_~18M~)}
z7ght%H@xqD9N4uQ*h9V|ElEX9wxV0C=thz=7jDUhcZuO$BpR<R0t`XxK-!7Owru1D
zG4cY1>L1rNFO6in4m~ih)*Yjmn#X~<#mh@qSDKXS9;*WO)oN;p58918?%VE_zD#)U
z!|)sT&wd>HD3&?<M&{rftk%cP9mOJgR^mG=>D9o2Id{$#$hhiJ%3R;4U_L!ni?2WQ
zG(HYD-|^h`u(+r2dvAN^`X0G!pO#nNIC=df7%oi>qIgOwa}eg0Hj1T<8x9MJ-`{tD
zrFEAr?9SBezklqJ>!rs{Eq6}eKK<BVal>`pwfK6rwp*<2&V+XSVa3O_AJsnce{0=j
zY(_;NoSZ-Tsk;F@Qgc)eJwnLJwRit4dN-PFdr@qAG1GQRPRhE$TQ_9gEf3u-nO9$f
zV9?=#f(n^QyHY2*>N2jjCnVcz6#b1$S0DPfubj>9Iw|ftnc4N~Rtc}I*{mKf*s_wh
z4eKuQa^`aHS}E7qK?70$#O2GnBBCp@^y))b%VS^V!sSeT-y`3#TvJ=NX+Xq3f5Q{<
z9~PSqXZ#J|?3XID4f{p>bMMc%Yad6T>FCV`YIC*GTzylnI=mQMs?P*=KqSzJLHN{N
zzvkx}TUm8a1JJ?LXKT8|nyy?hlnrhZgWE9RH`=bZ<-??t+b`Db&((xkWTzPH)D$Cc
zWXf8Yx`gRinzr3JdHZCxX`k4%FIU@e>)g$AIYl{B+mNm85o>!kYJEY{qPS(QbC5RQ
zIXIi-48&M5#_a*bhLAHDh`TQSm`uPpYeK5VrsZLvm@uiN&DQdTF-@|R&xr$<c6HIG
z60Yhm#OP+-+`86k1-ZB}js4130RqXKSH>`Pg$}#;E|e6k*Vb9fI9M?-G^E(j*sy$g
zi~xgr;9UzT38s<2%GB7XJS1;oL}3le(IKXEl_rI16^q{36S1d`Jw%-50pTB^LQoJi
z+mc5i8xqVAmDycD3TnX_0{USH5W+12GeWe?@GMah!X0uLre<ddooP~wY^VvFTNo@d
zyG31dTvb5FDtFRxg@X>(81f-@mr5!d0fCW-ZPw^{lv7PnOwdYEFug3n8%0E3tOP`_
zh?RC>&8Geui4ZGAy0ej8BL3Oy=bQ_ta>3?ouuTlME%z*ccQyFJoCo*^!g><lcV;6!
zVx(tfXSTOb?Co2P99s<@pYyORv@e%yv(W=$^uTKHASC>Ckz0wIiClH-$}DhGeLIvE
z_0Ei)WZDG?Dz~Fgba&15V}Cyhh3ER8*lQNkvc6rk?*sS~S1{vh%0+hF_lS{W5Geu!
zeQ;p@z+waR$55Hx>A2mIjl3pCUd#C#fkzv?fI*x6jagr-=xbeeuAEx+9nRPf%iH;T
z=yudoBn1<$A$Dsi7?A?PTjbD)>dV8vPbuVlioX;A7t6!mBz*x1#K?mdl0=Mo3q)cp
zoR^8QpsX%n-gk`EmLrCx*Y2FVeQu2-|4RH15<gFT#r$#ysSU&U(>{mdTmRSa=t#+)
zYY{wRXL<oE^a9Wm#O-<#AXo|O$2+!&mo*Pg{nQaVvlWIFGHiui%vRW^N=7H*FC`|1
zFAWsin2=axSd(=jK<JU7=ik9nFOsV{o}+BgMVP#%@#c-B<kV251xWF0&47Ud4SI-c
z)|NL4hL+Tzha{oAFrq?ys7IYgE?ptVA(nBiGiLCtvO>ZvrvTce!u&mJ(NHYVvO$k?
zzJwMDwsc4>f7U*3O>4a7tlbEG?u-pBGx1i|GBPE#6mZkpVE|sxJ|G#o815Ceqd+J?
zKoQH9TTsi<w4R+dcO?^((UJnD;TqzFUnht7$^tHiiWW}8k$j`$(A5@LJ~dOULn~bh
z!Wtr7U?-;8NJ$kVqXLpH#h95C5cgyPw>xA?oHmzaqV^~{WY&OIs&*SW)MClO%7T@}
zm3-4A2QtZ4PqMbr2}lK5hc^-Css_1VS?n5heul92e?&H-&b<ZpN{`C}i`HB2o9?AE
ztHJ1U1k}%JdDol+rYoREUHHjXZi8lW&Xo&AvZ0+~XlKS=^|Zca>AUx>*}bR4y{8`4
zpC+m~^tdVtJ<P)CrH=b8_k$0rGkZ>Nn2d_v#m+^yuecsmW{;c|kDPt9?KR5M3{2*(
zSh$=G^ooJrhpyho!N~l{r@_eF$<NAQE>sIDerDzDgV!IN_@wVaH%cof;!4&_6sX|s
zu;?G<q1KgYEoC92w;V@)wwWKo16s>;t$fA+s_JXZQy><q*a{|p`YU=HDouw*qYZY?
zpl-sgsWjd4=sYg^^7<ksnlg<Tf#8e-3gN+w5u#?{_mNBZx8(c*IUm76>}%v_)F^3N
zgg=CnqM@NxRB+x0ijbvx=ugt}c^B|7KyY*J@(hm8K-1ibTqv9kZ5Kn^S87*7FV6Qr
zX=%&0>=#@1-#_@tw$+w1P~gq=FYYBBzW1gV=Q$|rH49hOy3U!ZoS+Y!Al9>y7sben
z4?Le-S&h6wq=aYT3P|x=_M7&l+SOn;s03eV@nXi;lCih2a|-4i1F}lWU3?f@se6R&
zm`1-q8}&`j;h$4Ja=uOd{m1YWs_vn;chx9rd;DVUYFc{=7M#Qs1Q%5PCBd)lFSE32
zYI^u7qoSs#kew?F-srgAu~aUWHm^A-%BgDZT?ol1Gqq|Mf7++w+Vz*v*20sSZaMxG
zw;OR&#~e40nAsU@dC!acjn=qTPfvrhSvMY9Dm%1Pb_b-ITjq7@=jB~-2k&5agWOv{
z$f;Y@9cQT{PTupLWzdNhy5jCQ`V;q1pXel|zY!zvMGL*WFYaUM`u$)hFTtZ6f1Kq;
z-~7l~!YGAOY@|}DfKuqE`+97J3BQMIl8X#Sm1{%{PY+|z*+)k#?Nx?jF2enZ;RmK4
zn15i|baUt#8wDJXwEc=cJ!^#@ngOfBvHg%ZLplhGz8_lV%{anoAFyxUtT*L=&@c=j
zv}0AxwH47YkE>t2QB}5VA{A(S*{6!_^$36zsVXW}$o#KxIQ?vXjZ7$j>nONaplgJO
z@^$#YdCQCugpLX1gt<VSr1g8;mu^&RQQME+Y3b=EHC69U%ve-S&HrLl=|C^~RPqmH
zYlK+-mJ9OesM}!RWuCK)n0U*3cGe3kdZ8J{k!d4J({2aAuZ<-9)oKIMdsH89=N%V}
z`m?T{R>-N1{x_VN)-;)$uy2bwFzYFw?l}wU)KpMcIo<gvNRPS(q_XsAJcjG0e1XaN
zaok`iin?pe6Ij~DrH0ZbA-(E)1kO)P*s|)j=H`v_hIt(9IKY*SDj&9HJ@x?#0m9EX
zXKBi1`*lX#5nU&rv)8W40#wO<ATg9Y&kr4%Zp$CG4Bu$PTGs(EDnp6XA$VliWjc>&
z+kkxg>5Gc|3nH*U?UxQq$jgq1X<HYg9a9Wt$%j3i^Ncu-hVvvaE>{qGQ*T8&E{>>}
zEl-P5>m}!9x(Cb5?in#EIhbWXU1AVUP|1Hp4lxVtZiY<yvfIIKT-AV)K5p2OJf7C3
z<SUvKf##A4%4Mmztq)fPAdHYowCe*gUXBuIdZZGPZ74DfxucRR1zUgB&e9Pd=M|Gn
zt1=J`l&}74uF0~i5i;R#CQX1UP<cS@)0t111SjkX+UfA&!-azJ0{VONl+Muvo`dth
zL4Ugo=<i%fC|eR0OQPA5Ua_Qi&YBBEvVm?f&<!zj-upx$$E(BH>UOcZ9kjWR8GpBn
zRTS_(ZfslLo#{RCN%LysD@0p|pSl7+I+S&_K6J_U>P-*bP4_|{)@7r852Jlg8~4F>
z^M>!bkAA$@y(Cd3acZVvM<&n%adZ=tr-s2TH1(`D_L4|7{IsFvPVjax+pt4y*s;=*
z?Ri=3d3m+r6jfOFbnj7Sht(vyo4zz!ApUi8fm+yXeJ4}ayiwxV=M?Qssvlfz`f1m4
z)4leMN^bji3^`9|aV+DGlIi|IvHc(fG221rKeBghK-?3gPPCA`I9R`ACZYPu@$AlT
zi95gbD0pJ7@5f*lT2_PG$j7#U<dC^H*r`7&d8JdD{?-Ydf4zm*8BUl5Ah!3P;s<Di
zk<p*RpQ3YLHQ@Eh+d`{%y1sa47Xkb`S`CDF6w@qr`{U%QuPbBkVx1U}O^eGn>2zfA
zUkZDT*wd7Z^HQ5c7lhDQ|9%TK6rwZrOdF$i7kxt2jQL&M=Y!O>1em)}6rw;Da2^(t
z%Z_`&N6Gh#VP;Rq4dkyTS->%CO>2||O4FfS5UWGCAXX)53)-hr8hzZG&|%HmARw?o
zxL|zNi2VH$a{>C+`l};nPI>comLxysO+PiN=kgg2Ml@w;i)L<<Z_FlxdkY}9fI{1p
zQD*$11*YqOCOI)<zz8R+JR9>n844Bt3*v<wIdtF%#IFh&azt|egd94|g-39rj{H(&
zOGWsMk|c7pN+b(IgR;pWu|&XE@~6-7$rwu!^Zt8UqJN1@OkN=GLWW9wp^R@^F5G$D
z^MvjQ?G(d1SAKOh{NjQKx{&!3Ps&;|WxW}9FWemX!g?`uWUfCKXkUI=gzoRe(~6qK
zzFVhmo?0%?M)!%)efM{MeCVS?e^&AG+_BGE+H?NeoIjNF2iI-pRxe{8Z|;Q%xbl<%
zh{zxM(K}gR+e2U5W9Vff-S^)R{l|eWpk(5Vz&CczAI$hjF?Yvt+p*la8s57=GH8Eo
z2FfiH2L;Z)+xwQ^ynkY~@tEijFL)N;0&j^#w(Fju4cJyXhe0UZN_ty}h+>|^05o+)
zpB_=4Cql6>ECZ5*+2b->-f3i)Y>H)X)GU<^Uz$wEv~*_Eu0(1UyK-a+gH&>|D5ePq
zRl?N2)$%#0sJTh$oQfrfCMW6kBqLT9P%{K)gyWd8rYsncO6jExMJ27kPe+Oo+_NzM
zofc3#%DToq_SI&6dqv;gT)3V7)wL3P@4D&A2D`;zH_jTrbB(h&oH7EpDQ}@{(wWiv
zWz#VT7ti@%z%LkQjd_9%gHP#2A8*1?qb2mIzq6)ijUl1$;`H=gDjorTGxTu_hBq&9
zoT8($<&7qhR|liv-oAndgkF6JJ&Y&RLiB09%n4O_;j1oxMyB_m<Uv0xiw>8YjKGs4
zXdy;o);{Z)b<Q|YmO(JQ@8(^sRKxovxSXVi-5j_|qqLVy3H5YiyjvYZfiCBmSjqb|
z-=X~53y9NRSU~NkV7h5#=Y(s<rFWBg)(y<=o^b)YJ5`)-;0)aOZ8JAxL9bp#k32J;
zbLcDUnYW;CzHic_E!)<mwZHf8(Ms!#bH;nmql%_kTTh{_UpH<TSvGFQ1;hK>3jAGL
zw2$Bp<lB|5k=HVKJ{RxJ3)0mw%a5ZvmoPmwk7<09nj87G%V7qr>-Wdeb~BKXPqRM%
zZ-8Z{MyfgbFDQcQKaOivej%QmxEzo1Q@Bz!%nVtW84cZXp7ugmLY^*pC$mz7E691_
z#Lxclcm5_jeF$a75S9#+!VdgSyCC6K?T>Jcn{G7Y<s3WdD0v9O!FkAd3trFWw|D$7
zkr^FM!-@x1G<^PfoD}Zy;E|-iK<UE2B!}U+U$RP%<6^dIt0dVJA-!Y=1CgSKnS?OG
zla5nnb7<j8rXik>`s8Dm&PAyb%*XI0wMq?_N-kV?C)~<f<zX)bDa}er6-qZ05Cxq|
zW@@{n!pi-VoD4`t?JlLy1Sk9ts@=j;StBKzipKvZQc{HMm2+PGVduT%rnV?A7p0~{
z#VEWmm7Xq2;ngo7ZycYV&YZh#&1Q~31xpuT12u~~vo&;Y>p^n{m$zz8tX7_!b3KkU
z|MO-DYl$q_BZl{^hM|M41!IC6zH@yGolpG%+|dQvU;4F2{vEmU;Ehw)Pi4!a56h#u
z@}_08Sl;n8+;GQr+qK+(|E&i{KH2#w{K|so&v%^?{W}(%i>H=@xw5(?UMy?Nm4|X=
zVO*Ii+eTg(Vc-tb(y5hdnCC2*pOgh|9K3#TDe$N)y3F5i7rTzJ41vY(%6XrbwJq;l
zDSuS98}UzqjVLG>U9jZB&Dn6T817y0eCDrRj4!>pa^jKy;Aj4dwPtSjX~X(9F1%~u
zTe+hzi{*zGUS4u7|LT1^n6%|4F#rpbFsw~(9k_X5*|jo=`_K!0PXk@cX<R%G?5D&)
z&C&}BT&NYj4RtQS@FkjU+9NjYS?K?)ydf8?g+3f-W3C~Zi?n~~vQ|`n;pHl-*IH5W
zS{oM(-I%>TyY!t$fzFkt`<KL?lb_`ahBsd!0#CGB9yhh4=*90n+J20Tg(?^Nzp!!@
zk)`J4+DGMka_*|EyH<p<h5s{m<Jzo&YieJ6#~>3;>_nECpt537I~{qt0(M5kGFo+%
zmZ~{1no7fJ5SSt^E6drYq|;hhBL{eX3&r@yluXWV(t>;n4+-S40;~SUvE35I+N=z(
z*~n)naXX9S4F*g1a>dU=cSCC&y!V?w?)a!<oxHFO>gxHz6|vMlfz18D^#f}b_zUFm
z6tZ*mJu7{<rN8E&ppy&Mvem_lfwncui~8k@b(vth=xAT}P}~WF)#6<0Tdr76tsK2y
zc7Hh2eMF4DBsLvg=a91IKWVVkE}d9@ZKe0V<zx3p?hNc8I**A>$JaPY`lR=h)PLUl
z74yr3PTd~HpZ2Nj(fV&=Fg8p4aiI<L=LI8g{;6>gf<oR34S)^rblLGjmxFhXSeX{U
z1ucM;cjKKqO|Yqz&f#4y-FQgKJ&=?;=nXJFuw`zqer`zSoxGFj0sLD)$f;Y@9%rf0
z1C&4y;NnZSC}WG<a?R*L8G7L6%b`8+#x43~jO4Wh4rmiBg!PfL0y+H{n-Z4O5-*Kg
zHt8QKkzU5M2<13FgHlBvuO6Qejt)(wh7zay+5KaI9jU)Sx#0g!;YYsaHAX&CGYAjJ
zX(NZ2jscAyA+k&(fd2(TMOFzgliGX*@|&v{#;Dw)Pa}FwAUt#x6)}y})>lH%y?%(0
zt!lw|EU4fDCGPy|u;qZz1P28Sx*@F*t8|M;C2R8LWXPux-vvYz-l^lwDp>>=b@y<2
z5=!moSV(PW{#Td+$xedHqE84RzPu<BL4Aw)yaHjoCoj-O|C^pI0kK4)6n!)1P5swc
zihEX->_^|U-JFi9+4bvC$#>+@)DKX7bgH@35h*Nli~i~;Dv&FnmIV6@+kj+Yl4h*-
z2Z)zf_8-A_T(T(?qVOLOj0W?<Y2l9v@;||me8g0;i}biqkJtQUAwG?f0B%4&7lcOg
zS?K`TERmK4CVxt)c)OJosA0k<<gi<?G=q{~w$Y<2v+`?^vP^mvX?TZ-$@(5p4z?p%
zz1t}G9XKf~97bLhiht{L_r50A$K#<~3a`SF6n~Qt_{nA=aJJ;ASaNi=<QSyEoxO9e
ztUWB+!;kE3Is#$UBD%FR+j>lFW%kcak1LvT!Nz;1?^iwutahA)-GuV^h!tnMzL=OK
ztn8X->qB2FJr*;4b6Pf~TQL8`{j|O_S6-bhZx+j&nWsf8Z^<=uKCWq9wyro<YxaYQ
z50@^O|EU`tYu-sB+GFC*W2;Ta$tbtsX-#ysrhTsO{nJEFme4CCS@&+yy&FOqhv!p!
zhkWFbWOWnQPiThz*7w3;@>={Be|mg>USg@raE<aRVYEpWMHEVKnb>W*S%3D5WVbv`
zBCRGSyZvB#emd)mioWP_bkzsbn4Pi=!=b*HlFCcw^d+^lkG7UXldb8Drm=(+0+K{k
zCQYkeU8gj1f{PZqCJ0p3Jc@y*wqRwkj(lynR=>-N4DbSVl`s{!051`r)7PhSu-Cbo
ziR`}b0VxSnXE!F)4+)y`zyJv!H_f0K5o`tz!LwyQIX$5o<`4~_4>zM>>mv8tDBxXY
zc~dLbqM5`~vdWuz)7@yvOE2Hz77re3rDtKMoAmp;8H!d$svgy%+jjQaMvGX|vXs6v
zb9-jx&DD~l*p|MEIgh+%{}O=uJuVg;&XB}d=@Iox{RGI+FBs?&Uj9&{9zS0a4`RbK
zFl|>kZLs8?)TL2+5P%+bji)d;WLPKb=!n8rM~fOvqeU;*ZW=8{hZl<W3h0-vLhg{B
z&rA{94$&T-A#(e3?cLe-qYvAUF1~#8z$fJ!7E`Hn&WgeFS7v<?(HB|Tv+8Tl*xT8V
zX=Duz0F4J*AG_iC`|NP_sLHPkb_y`o;wj215MeSQ!1Ol#xqnu2`7U*jj>m!>-XZ!r
z3iLBDyBdgA6fs0n<)kbSz@dl7Ml^|lK;+3cV3Y(uEo>SL0S}ND@<s*<UZVuoJ%M~F
zIE8oW@s2q(2XJ;#^V{J8tMnw)nSpV%JAiGwW`W7o7Zz)sHDj(`3o;(637m<{Ly?bo
zs5J-qV1VTP(nY@0;HGxvxv5=wZfX~B!hyqvT<4B2Tuw_!<EY?AndMcCzp_!NfTN;d
z5l2N)#T*sI1ud3J&1?#O6e_b_i)PUgTDMV@*JA0|f~i7^%u}s%@UD5m{^_!3UlC&{
zZ)F<2VGOJGA<VvYA|CVaAzw8>HdSCM_j*skP9gc(C4lFjNw~|&#lJzZ0hGy{-=Jx-
zAnH9XXI3m4DKUCjvc+Qj#4sMK!L={ExXtbkrn-jC53|Jq1t)GVrtwluO4bxjq7axu
z&`aN4<KtcG#Yk8~Qt^_rAmR&(2;=GS@f2`8WJ#$mnYNk|*bT(kRC*M}(pe#S$>u3<
zQY*jKSHmI+UydeN4!rz`yJ<tHJtdH?Pd1fON|g=qX!%QimXU`fKo~twS2Ja$7Y(dH
zH%6pp2Egb=XdC3W`4oeOE<8mtdYM%x5aS><JqLCKR|a`{#ZT6HJP(wq$4C$;zmC}O
zoKo?|B%UFcpHU(6BKa}I_UGkbCr$xv$w<!D=j32-RV(k5%kL3AuYBdvOwCwAeu%O6
zIpxdN93(en&$#DvGTNAU9jQ|<yF4fIfuTrrm36`dqaKzg702t5c>12{C?zLTT;rk7
zcuFAVN}!h*B#XSd*s(<Ct1M@2AYX)>Mgp?-Gwdlpqcla)-zVqi<d8^&;W&94;eVh|
zu(e=WBO~5J0{)K%bmBpT33tt8Fc`k*;S8q?f5A0<&V~M*bN_;?&v5mhbLF3N2U+C7
zUvS-D8O;Xc7aW`~ot)v|=iG~*b9*;Oo-lmQ9sis={FTuJC_86(1reQp#clt}XfqhU
z;^1tQUo;qM7K9sDuV3BZ$iMNrsoqesP<o^4desI8??#_t+F&?hP@`C2W7@RC(7JH`
z#_09Y4G!M5i}?R81U8J9jD}h{dYvQxx(U&1EPCUdrQcxaUVQ1+$(tvardJMZa1`G7
Sb)&)H$kg?I$>EnFpZ^P78AW>l

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bamba.cpython-312.pyc b/model_executor/models/__pycache__/bamba.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0955b86649554b4c514fd10dd4af9453f9ed4042
GIT binary patch
literal 20895
zcmch9d2k%pnP2zZCkBISFu(v90wBP_O^^f+lM-nj;sux@CE6NWnGDela>$th)IFd`
z7_j6-UI9KLGF~sCioJq1<uz1PVkCdWbZrvrk8DL-n@XVtIy3H2SyZh3!_HO;5}=ji
z+Dh{KUQhQ7pax}EZPEl^zxVa`?)Sd;U2p!<@Aq(c(zb7<esYTAen|=a@fIWNhb$a-
zj}y2!C-8zL&1Woe3r}%t+8VdwZA)7-wz!SK>}h+(5qGe-Bkjz%;w~0<rrjA&+{5Co
zv^V36`!fExKT{E}U@&(&kg1GUvbZN5%v8mzSlpYg&eX(fSlpMc&D6!~SlpiuW$NSg
znQ%OuX^1y4SVg)q6NyJyJdke6G{>7+yfWRAiN>Ru9q}D39Za`o+Tv|2UX^ao?2PYZ
z@#=I(rZe7|*%jZ#(lzN=rYqjX;<f4SOi#QA@j4-t?#=YY`!fCU{>(spAhSEZJ2My`
z%<PHpVc+Z1do%mu`!YlEq0IjH{>*{+fy}}9L7ua4PjN!{6;5anZP#=9K$qV4ty(<(
zIfmH?%*bb89%h(Lz-;~u%p>9v@vzYHeM|fa(Zg~@k!#1}bKNgCF8(CT(TW^x<~hVZ
zaX=gt`^7!t?)&ayKaSqE#@eSE&t%6$Nz9Ilz2n*R?da!|nJdX?W?T@{eZL~i7_Yj{
z<U}cXB`uC1Vaa9@dKupF@$6XYDw6JFxty5IrN-%7tvop~F)rm2xp8UqT4HoOGm%P*
zF{|o5o*ca<YME5;Fx62^crK^Y8KboJt0FRsS$SMau$Ckyl2S6A7So9r$ECE8kW*74
zD)JHD#6;q%G(I_jwC7SPJ$WoE3{R$!a$X$1G%_w_P;tYsC|wnW<KyYcO!h*ttn;a?
zn3UAu)8{U41zj9}aWe?T1<sFOP37bZ()g$-qh$bjhiR~eQ@2EEFlJH1EO{xH%!wy*
zw<pBo$@J)CI*Cyz|8(hEviuW@sd{=ciLskX()byJ;G)h+;}arEt}t3Nd|FHjYTf1W
z(c~2!crtTE6ogckCZbjl$C8ujT;fGBb@f^<kseP9BDJ;pOcs-v5rq_*_Y50b`Byy6
zuS4~pPReJpSy5tb$8^i5Z(os8g6g}Z&7^#O{NgdSK~J%MUXaAG)GeA()Qq7oVqUnQ
z`t>;LSIn*kk4@&rzsMSdlBhvyC?(U(Wm2+?>}-BBA{wZ6W|B9=gqWGg-A<&+np|8D
za$+nwiV?l7dKqFmd0UiZ)t5=$z9J?jSer(*1+Ik#r96%FtDu!47w17QEpCqf32wn6
zS_P|U6Zk17#|bvkF4#qf;1KvR&n!2_3(i;kai`#Vg^Rmpxm$ePeTj>CR2SO-!{;xI
zsE$##4OHI?G>=&Cv?)~El~htz9a@uAha~1ErR=D^tZgpDiKwif#yotFzsHrR&YXRk
z`wnpREzWZ}Bj+@K-BDIbF$yS^x8=FYqg%*1ZJoAE+x{6RSbku6+j_rP)-;zeO3nH8
ztmY+cQ>$LC4dvR)%EeG>5As#&@zPsx+}O`?QaD$w!vv=}Cfe-!f%QJER6PHP&(&(N
z(%7IE`XqC=xtM$8S2z>7DSzKptn|d>1XjiPb*w^9DmyWmW3)r{jZfzEge>&{U+Siy
zmvVaggz*=%#ca}UfK+c8{uXrACWGos)jyk+wJjhDQ7qBaO}3p6MW=T3MZZ9lmC&Lo
zIa)#+8<(Ql@fZ7IKGhB=R=+EOMW4zg5>kLwdo3jhVpeN&aMN}m5(olV)<r2uS=>h3
zRZlTDTBCX{C)1PSNl6-)B${c}0cc_@i`{RN#q^le1)w$tY&2*fRCgjVnoi1cA|ca?
zi_-J*Z=dSVWhVM3QWL$oB&cex_txb8g9mQx7yHwxEBzC<bJxbR{Wn3+`!(7v-V#T#
z|0OLc_g^8R**9@p8bX;<L46<f>0Lhvu>2DQzj>M4sNmccb56xo|IpR&C^A$CHRVGw
zB@`<(MDq=UO2goCc+XN&3GXiiYYX9>g}TU{FU>!{T;09lbu@WqZ4X^xl+n=5GWIK>
z{z83ozP?MT?<&s_U#{MT3=PQe?TWPu&R3Q9Mig&k!SSBA<55+lP}Q|Kl<z*QbRS;s
zI<m&`PYfam4z63R)fH=;)nBpU;zB#Vo1V3O$GeWEbEC8d^@lb&+vv9txyMa&*Ne+p
zN1*pKuP^eiAny!6V*wuJ+VYg}W_Vy28@Pm4!Z1qWFL7`2BQdK)gDV}O;1B`;p1@1x
zZ>fAjrphqG(oq6Au{d8$O2Sm7F+oMhWqg(?_sd)%P@NA%l|XbMxDsfav(56ey9>U`
z*UrtIo9DkZGRp(uwXe;6Z9cgYh!#HwDra5NF=UTfM^34XlqM3{WJXLRR8NA=`^hxL
zeTf9<X<GXtQ8%SJ1fZ+q<7w3@=Ong(B(TPu>MyR;Q8ArPB;MksCjpgdl#jCRNHIiN
zaDYAxBlyiL+?tEqv%gT=P^hc_(A#KlTdizdv*W$y;6ky*y-HpGnv;?)E>OMZrkIBd
z)~pfgnve5TeC$W;Zx7k*LDnHw{wRtz9@@n8tp5>$Pai%we*DJqLkEv`1kv%M#T=ru
z7;}m)!G$BKf*nb297%4$BYLjWkZgGb?>2B&=9o?Jy<&^|*iq)kQC6YWX){c0%n5N6
zT$yy9PSp`c6I3@lViPIh7EW1W+4KX>H%i=GF;ya;QXkqgYS4cqs_>sJ|2{12E$5tb
z>p3@#MV&A<PtGW3+f#`NNt=fNxW3I0N&#A73N<-5*_mm2a-kIJ&z1+!nk^tC0X3N)
zK<iC$8%&`Q6R36CHf^7F;B4e^?pp2_*BM4mUvXS+hn^23s^MCJYtzLT;L>@)p4?77
zhPIiE2B0Qw!+BqvCzNHJ<9`oj86%0)+%Yoc=*!U3j0GgH44hga%bA2sOty9`R)XKU
znYbZJSu9OD6(!o@s((^uYx8D;@nJ4XYO$;)FUYDpJDEvb13xXRE_x+|R7Ukl899-K
z*pLt>WYtqT$)$@ZR=Pxi!7BXL-!~?TLZV0+-?EfGy~V3mln|?x_EDB03fLJ-Bc=7k
zpP`d50da<ULp-dOqz>sR@zz8#E2shO8|y0TMG-)(jn=IS4a4YMvG8oMgGS-hQRyqx
zhR-2T?JOIkT&l0UFB0t)HK6fKj0Di2sFmPn6Juiu0}^wwBSh=l(^Rg>IBDdVRu;||
zdS2G3GL6bqi#ho*_<?@_B>8_KAby~#j32;ZkMr95s5V+U)Ejr?8~c^U{z6k*zG*;d
z8Ynck=bLvc&AXRQ<@cUa@Yj5bF%JVu!$6_7F<;xQ)ONE-mr~n>GV^s^N?jL&>{4oX
z6~Zm~aE}u1VJyThB?QRM;veHSE-zQNZ?sg_5%b{LXy=-C7JO9;kq31TT<`dohekH6
z7M&AuaM8|%oB7UzO6S1`H}g+kRGz%}u;mi5DUnCf&P7Ll*CA!sp?4hlqnDJUmmWr+
znYI1g)x=I0)vq&yv|6xaB~eZZI3Y*NnFJfgiMZkQ-y#63VR^Y`T4N<1%W}-{+1l;c
zl4*;+&vkYpXViF|>f7>^*pC?-$}}i=2@Mp<rkBYRJ5*FjlrTU$ZJ(|em<Fd`!Y!+h
zN6D5k%Oy@aj_)ytl*UW7Gd+ar(S*u$3bf)n;8KQy8-!@r)^L^p;|Ns84e&l!A--vR
zzf9~0Te#Y~C7xrdd7E`xBnDpxj{FA*Ugp3o_-dBDjfGJA?CC-znvV=9k%6VAmB^EG
z!>b)#`Hn+M$Ds#D-rcp*aY^yD%?{5W_#jx95AINcI~ICZf&;UTg3I@sXU=oy$U?_M
zS8TPlBj37TY2E+8@s4Yy^^D?bnf2efRj7~T>tjlNY_WHx{=lri5QxlQTMl$AyE@n!
zddoI4G9o>NM#U<m(|Ac|C^$<2by2lK#*k<>B-*Tu;gZf%jM1+b2*sf(4;bGi5hEpy
zASmaxE)bA{=jp>AAs}AM!}Saly88=*L&R<ccG#cg8NWplFkCgEH7ARLk#1c$q15eK
zbF;L^NPAh@XYgizmaZU{j1{+5NjzDQK~M2Pd*^B>a&P+X^qL)UR8d`jujg*hLXA?j
z^AjgP8q-D%9mRj+(T~ve{|%5S(-!#u$h5i4nYl5C#>V~LOrYPqJdMpnsTE)j{fs%R
z0CQNWHn3H0sP{h2AWGX3{XUG}CPt80H6k7B9S|qCFoM3Vj9|IKgLK<E<1*vi^u;Q0
z#uwM7FE+t$d~t(?L7iJ4FfIlu%Na!Iei3cPgIv_+Ee~=TWq~A_v6`MKU_i;S3md?4
z7HW%a@xVf%JcCH0#>y?#AqfnlbtuV<0rlL#p)S>I_qD7&b*w!ebIdY4*6xzJ1qzyN
zYMw$LbaIZC8YFtVF*h4ADg$|qu|!?OfNXgHHDR3@v(6>_Ix?{8^myt0*t|wv=2(Jj
z3iJ@|(`f@YjnPOLGd1l-%9NcJ-1^8!ZMjapHRiQoys%!jKGZv1Gce=L?ks1p1&>j>
zAGy1>=7k=?o5jvD8?_m4u2;u5$C&n_U#@AV;LY{xnAZpNSm~|rm$!ZQi|ZJp5!S!w
zi2r5Jw(G%UPSGM`E$I1a2F%vJ;4ca|6%cR&Wo>BGbLL3x!Jci)HEBap2sHM(UIuoy
zUSlPzk&aG0=yj78<G38@SlELajn$>YSWir91a5N)M~?w&ww`TF01To9RriZ+L<?H<
zT)AU<%n$&pfm@@~MBo}CV(w%K*OX53*H7sfrT5#l`szbj?K=GLp{$*HSr7p0MpO@3
zK@z!ZVlJ7g#2$i-MgVy<nI_XiD3iREm>8E+WIloAplA${Q(P1jkwjF9Waz6}p{qYr
zYbTOYE|pBfx&jU6?V?3N4J329tPVpl&%~Uno5_Vt*NRp!Y$ha@S1C=SWT>T*vZ(rD
z*2s$Ew;<BpPK&BtAUn{hDR<usH*RVQW$PC8@szV~oPC+H_fZ32t@4pv3VbG-Y7!^y
zREY#3DM7(ML=fvJNtUV;dRXL^m|!Up1y-x66u>mITu}@R<j{$9!Vr9=xPf{@yq&m7
zO5!4FRS8vZi)ux`r9VIx>C2SQ@q#9TJAuH)$XT2d>8pe@LpaWBNtw0mCV{?2!Alf`
zC}0d_kPKbA*@_Jq%{Uut%z{KjR(0v)rzyD|+K@@K>{S~Lo2KBqL50$8(<Iz9#WDzD
z{@+DNWsRoEEVev1q3IKdlh-6zI%1d@Pz=h&*tYE%B}0@YURYknlKjmUQT9=7Wd8EP
zSC;mz)E=DmJPI|>-(2|GQf?)5c-Hr*HMZEXJb3QiXI5G-F1uO^B;)ofjlCo`)<3Em
zTB$lP>nybF%(om=S`IQ{k|}1}ltA0URVC276nrl*xa=BS4h$B;P5E%I67F3JDd7X8
z?k=?M%C{a?S`SmkmV!5s_qHnD)`hF@d3%X3ug_O^Db-zzUsS61KH%T0KDg{VxLkb@
zO3|9e`DgM?dlmd``t&H$vcNCw&9@y=+73Oqs<fS4iJYR+!-kx`DCGM-ui&r#^Js&=
zP}guTdpEm~`_assGfLfF66*`0#(apx?Zv%6KJwNPB}A?D0eWxd?#zOqgt}O|p&hS4
zq4No<p#1}H)t#Z`#=(c)J&(eX`DfmE{`Kb<FXwyDDEMnSvl2c#clMFL=Fa8iroM;%
zekR-ZE8+gRv#a5zH=15=nmzkLLn}2Wb2n26?I?r?NYoED78;r#RfY0ZF{LWDQq{c?
za5a*=AK0kj!d;N}^S)-q*G#(a;kjYF^1i6zi?T=?B)USd&ah5Aw_M$c{9(%Phe87i
z1s#83?~jhWc|`FIlu9hi_{HVwov>1bD5H0ylB;F)jm(Xds(tPJ+<7*|T?(3|+e4mR
zu5R1#J8LPU8#VsF(onc{DlAJ`tn^Ka2|6Q*F0I$|kFkMRbWVq<8f-K6X`87Hgfmq<
zaHeOMDfB9QW1u*t(*e&{AO*}gW}GuFoV5n0t$m{qC#YlEsh^yzZNLUD^=QjOnA0vD
zcLto{bs`&Eo@w`{o_f$z59BTD$glnn9@y)xIA>x`>AT1W<KRR(m6N`Mxb#mb_@@+n
zkAgo$5c6u(?H&PW;3XM>Y6Z=d=wMg*7gYX+%HLGIL@E=SPD3JVvrHW*qiE7m!ml8U
zVCn3biamz3ZASeymH9FPru3+)yVrELX?|uU*gNN#waz|WsH(jeyBov4{POExUTpty
z&s#kYY(Mk;)VCZt`R?Ey?5vSFCmE4uldG^Cy)^gI{O!dZi%+iv`is^h?99~N6v)f&
zh2%=zu32xPrvBc!yXO|XD>XfH?penj*qmx-{hDk~x|~rP0{x*lTZQi-0`-^`>M_fV
z6?24Dx%GhpstBF2Y^xr#Ok0grgw-^om1anlr7}r1^)|2LGV31gi7gMz^k(H1`Ra1y
z^43u<QhUWLBQc9)tb>@1DZr#Rk?+&mE(49Jyx5vC)pNBzX7-D^uHT>n`5Oo@?XaHy
zzPheeQd@N^_1%TKmO?}4nw<;xtaDaSNI%p@ZJk9`m;aqxE3FrPM^%?JiRQp&aGLsl
zhJv#c(2z@v6`^gut(HrAk-oBVBgWTU&vl!=P(V9T{sjUPJ=aBES9GyhQPZWx%T!$&
zpiI}L0m_tJ8bH%_X>m>6rNysVeD=CkXt)mFJ-lW|92M0!G3}R=QXb9|cr7v)S@%*Z
zQe*ElkP$CKrj%=ws>}_Lww<W2@J4bQTqV<^jsj{tIze2Aci$%E8L4o-54S`(+t@_g
zn2p&n?XOhC?Seyen2AV&(;N;9rVC0c7jxgK+%~tzJU6VPZo$o5eSF(sXkWLh-6Qy4
zvBy0^h3FN1qRqUFF-sUjLjTbVzi6Wv+8sc<VZntHQ2?7YsCwAe8YZhM)5^kd-3v_B
zOYRf8WtAYKMM4BGMUEq`mk7*yJyPG}U$wnzf7S7-bCdrN4zkVuLlC~p2_dr6V|HME
z({7IYO$XpmgKT}iX#?CuP4-PEc`=n#Wpj43Sq6qd+;WBr1q7Mc_$?1gFj0N!Bo!qY
ztq}N}Au^9yW^J?fS;wpsGhlheH)GAwbg%~{npif;TMD+-P4-e^5m1BCD#T05pfXiZ
zu1zmnz{<XA`OG#OJu0b(%<}+hq8@tNS=Rqry>1B3t`WADjFm&5X!gkdxIT;Edp4{X
zeO-}ih1S%Thbdl*Op?IXv~eWzIb%J|+053_G_UW08H)v$s5z{YIs2S-&N0ow2aQ%S
z9_$0#h|2dd8J$VDIJJmC!)1=KJ!<IK`SXbrCy#&O#L0_^^T(b;_{?(`PF_-j%m^tb
zuB69DZzM?42E#<Vg{h=fujaVGJeV{ox{JPDq@WvtOzRH3&&zl;zQ;|HD9bg~QQDb?
z^wxJ66(!U16MY6Ae33c%X_Nzj?ooZ?{HZsFUmsp<TYO<9vU_QV64|>_zi;-;qlVo}
z9r?kt%HY{|4=RJtDh-!s&;6phxlmbGs0<e>BlOo4gMkrTdJP<koc;<%aiJX0`Y8P=
zwVLsE#M5XBfVz?bfb|O6iZPvNTp}#$rRK!pxk(PAnm9|dq8XrlOj!aq-5c-+)$BYS
z_^1Y%en4|Q)9P2fuu;RKm!(v<m=%gqN3nf7DPPNH_->X&b2TuQ%0dyra+6^>=GJ)F
zA5r7j9R8SMtQ(uBO_Rjw^d`RbD4udDyxL^mLNrPL6B+&vljQR2?qsXYv3&E8(ma%J
zKB_byg^4ZHnh%kW*et|Mv*@a3a9$<fvu>rKn*_iQB7-D;ePQkkhRn8Zw-yb)YaWlg
z;`^hYaCogzuu;z)Ji#-}cE#7eka{rmVAngH%LmTFN_^0xxb~44TR-3a{l3Nax4SnS
z+`t$4f<H2Uec2Zy7qlZv_mOq0WdNewLst*H&bBcq|J)T}D@b)~7W|YTYmPa^&5Y5|
z4iR>cv?KA^erdW{m6!fC@Zs$61YXil5y(`k?l~6FR+Uljlx9L=r(EBbZ%1fqh$5By
zl7&|S-OH|S*8UO3&8jt<d>=K}a2eV*^5~Q`ou9nPx7Ii#PoRc!I(HwH(R00gAT$vC
zQKxNRhi}b{JsSi)G-J;VC%qZF0Fg0U0TDto@IauXodrS8s!_@r2Vs<XFmYz5r%q2#
zaL;2Lm}m(x6!g*srXGGfpp-?r%)Z%Y9N(_BmC<dZKgQWt><nIVMVVJG$`WkfH$<9C
zMDdLitdxi9)K8RRjqYhXsI+~gM1SBnxLJCD)L{@Oc!ZGZp6NozQj!cW_GI>k^lu3U
z$}yS2T>^M|{~JpCpf81oX%U6=_0j_bF;8i2X*K;j`t<K9FzQkHlxk-Lgh{zF4FHh@
z?O_yMItAENRT)hv3M@xy-TeoAWG<$@`fojv_jbPL?S#R6Ik2k`?Y-+?jkf2bdzI+k
zrRP?nPu}rE^E7vQwYqb;de5?N55fXW_$^B0*z9m2)V+9C3GJW7_t32CQT>jE_8)b>
z+5KPY`{qv19-E!~MMrm`p{>x|T?p^kaN0U6n34bW18Y_;+z<cM%E-6AmJf8j7wCFa
z-BD=mfAA%x@)Wi?odp(u1=w>q4KTl!CI5q4D~+e&5DR<%3)EbFqdPT^e|eMVDIIZa
zhYw=8--8ZZ;Qs{fAfI*Y>x)WXoM4%Z&7gmSa|e$_`|IMO#ljS@U~h5~|81{eWwEMh
zyP5lk01-f6V%SFZ$KpB!gTcYpvY^JV6!kUOCeW_9kef%HKJ&WBepRXqI40U1!KL?8
zLR+S-th~KBFUF2NfEo5p)N~B&p`C4Y&$P$PN;Tuf_VrGCpb2v8o0sQ!E_>X@{T?m&
zm)o}B&q^)G8C!VTBe-*<EN72iZ>cT%D8S*ycAZG>mS@_oj{?tq`)|-v8#cXXBxc8E
z|1NMz+fVLh(hra@U^g__AD6>4ONaD^20KW3-ON#)Whc6e><sKIdgn9dZ>qYa_3ul;
zr*BLWUr_DGaEIlp${(BZ_UXE&Y#)5|jRcdNU_D`easJKsUOcKzNWuNRlH7=e(lrwq
z4#Z+kbxPtyIyow;E^svRi>cf-iH<_)KU4531tcA))}$cBd>Tpma{|<X8ydZ#7bqt(
z$%zRvMR{RaO2U7T)#+z<Z;F-5s*ReU>OifTs)uD@?$4^X*mQ>HlCQz}8eX@mouRNM
z$wXIm0!MF+ZS_$_#S1_3RH%&Fm48SQ$vckVW$q)3v(>ZgY9{4#<NV%y<ABmQu+liV
zQnzQ;`>1v2Ki@g)|F3Obimzq%#GT$kpncJ%1bPaU^{aup`S!V&NC^+WnuVtpFRg@j
z-?6O*A`8H1*Wu@vT315*?%000@0?P(`;KS+++uy9x*1CQ>aIdfWVM+6+)@J!9LQcB
zx_9L6k%iF1>e!<2pj+uX39JubbJ)97^RRjdi9&rFe1hs@ckG4e&U|!_65Vsh|BK3|
zd2!+SrPB{9kNl#tcCCpUI?u1Q!en7m+@td1R*mAw>(0LT(!-<Au0$^zMLw+DQ}BiJ
zz9z-jG%x(z*S7W)&$V~2;i67ulTLBpvW$$xDz_?_=oH%GGNmb#==_t|2}g&LL{u4`
zX_FIaQBnx--zXTSU<5(AKh+NjNI@-4;h!M_J=5y3;~#PD_GkEosWtX~u;*j;UOUh8
z_MXMsA4lGb;F5y9=fTdO_52k2G(@4CJA9Nc^zQ!9+hT7rG(d>sh^YxP<&l$8F0N&8
z>4egJV9iZQPf?e|%r0w`7cOl@g_56ApXUecO$(<NpIzGXz|Iu9drm05CzbY7YaG73
zyXRf`FAjV{QB9LXy&1)S<I%a7^}j(M%bl*YBTKLd)~gocUvQ}va<$+@40@oee4M=H
z;R_GF4t(Uz^aJKlO+%x3!|O*{96BSTEGP6kUJVN+BaW1n$i9)&|BB7X=@Tl10Q6gK
z(Jxer6-E745c;ivP=yvmjh-42wAd7mHdRAU6lD6XrfqZAn&%ek#44eN>9<1LV6d-a
zE}<TJtZE^=4c0cT)5=C08_>oYp;4^G=v0`OQKkj+igjWI8$Fv4LCz4<g4N@QX;!rx
zCa1=w<H<=mnLa;^<KaJIn51_p_zMdDl7d4Bz-ZE8q#YlXnvB6@3cCL&tHI(utr7?s
zNLo>yP^dBA=f9@xOw43kwGYWnER!7o#xgA;QZ6}|Net$iGIMQ+8TW6dH#66=nK2sr
zA+HN&PKjLS)hg!GJy>*-XBKr$>+ubIWg@j2Ec%nP8yuR=y;cK}cfEG8gMp#$wT`A`
zHej2iyd9(iDQ02L_zWFq_PDONoEl^&QQ5pQy~$(q{0pLRC(umr<sPmwmJfVR34E^L
z3*~(zFXw$YlwfW(l0%Abs4RI%@f})s+A2M3oXzcFq-N9H67$FAmh?6dc=_u9Y<*yw
z;mzjSOn(Z~k=1mzt!A@L4n;Gz5?g0Br{wo+ru#%a26I<xF`$P2a1+$HL$L{J=tMU`
zO&pP6s3Oq;4|b>}iL3LRew$g0f;E{C<tRj{=rCPb=#-;$F#(sW$pa^uj^f5bl-+5F
zvXvzFc|1DTatvP8hl~_K%T(QmqBqZ<AEv@^fwq+ABD*@fCEGJ}auO<>g0k5An+xq_
zEz+-vP<szW*~M$t>dmb!Yw4zj^+t2>7$3*Q^X<yfa>^6nAhjFwT7QjFppHC%AyobF
zBq?27m!1QRIo@bqG#*xr=0M}6rWG%<#QbW2ct3XUT^kc^8!u6Qfr9-MkkWU{o@X<p
z)@XW?(&c$}JLW3oxkf>Xf-4lzQ4A;eUsIfs#x;tudZ+_i%!2Bt_CBlc_uTuR%JYEs
z{y#=_Fd{Z{jUD-heM-Z=*+8MDC12B{)b!+QhLoD2S$83_GangLB7;lM<@cRc@E19|
z><WJn*i|GK&HaUjSia#2rQwM}ZF9c1SE=oVX)#~dtJL)}2)pwUisnOoN~o_;zawAY
zr_}esD}zXft4KPSV4-PVKV^e)p`DD96wqpNWj3cJW^@EJW78cs^PI3RpbG5)2I;f5
zJS2ddQ5od4>8LrKuj1H^avZ=q#{w}BX77^i1$3v}8M<VN;Y)Y4r!9hEz%DsYAfHi7
zE~M8C%49-U05!3<Y^uR9e{Z_0R-u=hYtduoHQdL1(1TVP^b(pb6MA^PRl_U~k;~{g
zY$)~-T#zE`9JmO!FPLVUaS(rsY_Y1c4N2eCN*Pxo=>n^yE8@EWF4NO@QSyfrbW-p!
z1vF05zoLNcXI4B>b+r<bFMe`@L~QLhC#0VMjB71S@mgvSEA(%vfF}`@-PM+k5^xB?
zRQOYev3}qB=d|zs6L4U|C<G(<U`z?d^1(eya1V6ijU7xQU5Iq%BYR=cpj3DjyR&h>
z(zt)wRloVm2POS_@p@JvIzV}v9@Vx$ihKL~gSvM@D?MkR?=Ie$a&h$?Oe0RxmZ3y{
zRNb=RSah#c4?<y9Po7J@4Ij5-V9AjmIHn97TZzJR48=ll@dsanTUXvk%m6fMZvW3+
zJ(`&DQ}k*R13+7rZCfI1OyiCB*2l~cR=Q-QGg}sI@|ajhGFdry#FU*=+Ha|p^FLd(
z-)l7Tv}2g|`?aaLseB-&1Y(P^mB8L**Iw2MO#?0&3eZofxxFZ0o!HpzHTdKof-6@=
zvM}SAcIds}Sub!<u_Z<0wN>9L6D*5Bx0lhOtt~93U9JDr!UAJJH^<khckRdsdS1!F
zz0UKxr{Jr-b9=dU=z$;FP3GU>DwC*LHJj#(TFmB)nzwELOqKbVF;X?*0Yhh83A0F_
z03y*IgOtHKO?^`x+E&|q2fl)Sx@Hm=O|_53n~LQVx*35-g)-46^w`B!;R08O66}Ci
z<Mf-;OV6(ak7GZToRj_>h?_cVEKU-1$|Vn|AB$9ty7Id&&o-38v<iAhsY2=~{Q%3R
zjxwyNrcX^|x%vnu2~KW839z9BTNn1O1b4CC<O8irpmkw?naxJ}E1<=~TQnnT9rz^D
znSr2!K$etdK|@&6KdIpoXac%7uy@8MFSF<3w_>i13(_hoVot=;Hz@W$D7Z<%It6qp
zm8oK0q~sPY%-<1=#{IK&F#nx!DELEK)l&$dgZZe&R_lRsq@iu$+;aWEhkj?XW7*cQ
zR>y_A3)LMT+O1)vYq1tuyBEC6wx(5k<(kE1_pH|LShM2|;^hg<PQLclxv$QjeB<2f
z=avJVihI{bPJCOpa*iOwUaMiThGIUvi}~(cns2-FrMZ_D><goddzP#V8JH`U1A7(s
zzK@(hD;7Z+4sf66Pw*dcVY`PEMtG6F2(Psv-oCG-E!tPo7VRt37WvAwMTnz*U0Xz{
zGHnqhH))H=;izdXVuyE<ej5*Q)&cTInzt$L$hwn26&8EXHYy~1(N#!@YP6juBX&%6
zCKAH<D1I*@FggxS89%%-o|XHOS4OpIeSzkUsEF#z!3-sXHo^WRYquS1NcJGFd(B5)
zv$bnZ<&EqUZSNF*!3kyd3HWIQ7_P>V*-7OwADzA;Ury|xc5jjvom$Cq3n~0aMd}I&
zh@iRTw`>LX8T>ty0W`bWPKL$Uj)eZ(DMdGczOw7+eyXVbF}Q|pUAxM?<8i3$r?A*>
z&M<#_&C9;~aXGefCX8X}eM}A}_xEYiKfBOBC{<GzdVa?|5H6vIAU;l$csd`GkNpr+
z@dvfEUk!O&UrJ^Nk<l7<H$mO=nDRAm3S;sNYNfGq;IcW@bSSh*)hKXZQQfcgi`g0c
ztV&sYVUm82jVX)iSBqdQ#gATzvP9%pYNmh=87WG^4hmWksCKO+M)unYx|4zq3W(QK
z9m9<9YBwb=5coC)Z&UC?3TQ{Y#c8|iDB`N?utuw&knkIRFkpf5QMhL1dHzEO$G3ir
zVCOG6-}_w6`&|29b6xLqNB)XCtZ;|l=Z?M49eAH22R^abc*}<zf{#5Mf0}=vJNb#l
zij<4vpF--Wk-C6X?<Y1VZ~26ypwa;>4#7rMD<7PdUb{VadxJxC<1D|A@0`E*#&fSf
zx4|L0F~Psc^PLM-KMKDY-ry*{cGJpL^%VSVpu>%pWiAArwI#G+`6|yh-Kn}4z8hZW
tC=M!V39T{k1{weOo`TKs>Y1;fDcFJqTV=skQLy<~y!qn*eP$!{e*uPhMp^&>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bee.cpython-312.pyc b/model_executor/models/__pycache__/bee.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4d829a277555d461b6d286c0248487f0e586fabe
GIT binary patch
literal 7195
zcmb6;TWlLwc6Z1jIV6XqD3R2QlIVwI(Q&A?WXE>iPV6||m6UbtWE&;{OLImN<sm8G
z8QKz;YW-oLblYsbABFA30?`5stPJ}@`?07$)1SgXe>hbN5d#}gvF(RH3eYPpve>Vl
zbB9Aww2X8w#53ofd+zJp^SW36?(=yF6ovnX><`0){2nV-aW;^x1V_jnA`yvGNRCT#
z9O5>`mb9_2J;x_`Mzbr9oHOZUIIp;JLQ-J3LviOkNe{!FiZ>@FMTWZ+U(TQO11?Bz
zC6Mb#cI1M|V6HRS$!H#>D;G+J817ZVxkxg?5gR#2B=IJZd~)XlySc_>H>3K28jw5W
z?p`1_+j>}A2ebucetz8A-p;ql*=HlNIRDyCi-pNSxm)ge*qo1z*aaho<dD_-L4!FN
zU9!c)&#)Hf4A)e8VIiBJod(>0?(F0zr!!jiT3X8%@<8!?swlbl3;CJsEYv#QORMsk
zVlKDz(E>84K<k?NWb)GasgKT_o=kmw_T2f4mp=Xs$emL~MaxbVq_lD-t)<UoGuksa
zB@(wA-IGfCTAB@WKEF`Z)c1;6MUtrzWewBvqPEld$Fz`<Rkc7H-LSPmgGHau&lF&?
z5!UgeynHRI!m>UnP*}2*#U-Ydb8=p$)_#0Hk+ZXNnu?p2X{I3&_VG6=TOR^)hsY$!
zNdz>AyGfFE$tLqNHpzaIPdX%Cc1jNTIpODmp8!9%44CYkvEj+ih>{05g(YuXG=lHR
z^6nL9P!LwJ0fI`hg{OLll*zo+((;{es8I`vSjTyh+~=m_Hp8CL77gF5tfl5=QW@*W
zcvV(rRGcvO=d)v4ZeeU8yYQ-(roi~>V)4YOlUGj2V@me&*us)FSICcDg99JS6(m_n
z$%}HPs1>MLRmU#Na$;eLhG4ML&<ndt?3x<Ipn}1Y8>ANK`lrQPiyMJqJuti;I8+r5
zZ9xMuoL8>HI@Dd_a6p3>ep{~txC6HI5`m!D+KR+wNtydK_cQJyiQA^{1E5{NV{|lD
zwqWTJG~m)`4*(TMip6LI3H<;{`(L`X<^WObhyZstTG7n?jp_mT8()15Kvfv0-N0Z3
z3N$;L1wBm7G1W8tO~Uo8q|F&Zej%-8=493A$QN@dR<U>kI~0@INoB1_^G%VVxLojK
z8uVw=4RYZ6$g;C+FY_g6Uv>fJV3<(0mAMj#ciCMQ$}Wa^%I>n~${E=F5v{3Z8jj0K
znFCH6a^eV*{Xs+U4;nhW>@B;>-V!)zi7!FhvRHOWd|5<pq%OPiuk1Ol4f?UQykuM-
z%<J1VuCQxdSbteyyYiP^%K=amltWvwY-G7Zb6ZX24#^=oEvL8~+*w^YIFG8=RwS1s
zys+!evUA?o#t2nwP36wA9poXHQbXxA<<(X0lH5$*2U=!!mAg=SO|DQ&o6y!4E{DqD
z#?C{qbALH7V*{1<lumziO{O#}$uX@EE2?rVQ=nANXt7*+G1XKhS&hxmLM~=H%T!uj
z0G1SUkqL^&JN*nr`3zB`YY#3%Oy`%Vtfp|-Q--&tW{}xm+{5zxow&>3b7@d;dp55b
z4q7PYCFVN}7uaK3)2QL1@`94i$Of-orCK~<S|!>Q9Y8RMU<g4BK^%bL&lF)#dGK<k
zIr*%*X&_?jc8rkKxQpt^%h#>$u7$KDK_oHUNHoU?7QrMXNtRMGavIEynWlVQ$>!x9
zio5A$=`gM<&?aNpF$NvOXRb3flg@xEHAFT=qo$(MiS1dKKQj7K=(_OaURYA;$ct|3
z<=iMlRR){ALAFA~9op>OS3P)4?>$!W*Lq?r@8~__72js}@M=KsK2Z^CLq}HsMjv{s
zDnvKE-POLte|Qs5dZSM|!nX^n1CIvv_&GiD;p2Vl9g|yjTc5x3!@867jI4U}?(wy&
zdgNr~Ty5Z$)vIeK?*CLDc;nXefA{ob=lrVw(U3m+p&mK^_~?4a6m;(OSI%SS;gu!5
z`v+?m^vG+_IT~NRu-1M5b3J;hGPM~!y!xdceZ4C5*81aBp$GWGy&ItsJv6c&8m+jW
z3=Xekt4BY0>|Y=JNmb~7(l<~YJi0M>N*_G+=+(!a>w}Z)eN&adW=H6b`{(YO*mw6!
zT|B&6_(piV?_a%o;zzoO8wq+U4j5Yu-k$jTH=aa?R{U$jdhEn{^kik~N&n#8<u!*s
zbbP)4waR2I_Uf9b$KI@p10bxb7~SmHS3NLM4IHZq$C&4zj=K#ZmCC1caw=tbQYi?k
zMFnv&mAYC?D`tyn63)Wqd9Xqjfaqb=Cx=#CP-OZR;It0`MiVnibs&a-#jh^_xk>(D
z;~b-PC+C=0jcgJ4)SW+Y9EZ*H4b)wT38Xh#cO&K@U6HyMF_H8S)_sWikuQK)2k`_d
z>h1R{i?@chgFrDS#_2NfYZl9&ZsGi`>5^=hdD&qmLM(0KS=!`uV-oF<9TK;T!^vu{
z20vc{*8{zT89{R0bR^wNJcuz2s=i0Q=+5OJ(JAINmF|N@WYA$*g$INM#bba#TE)#b
z0+z*qUkO5`<=U4ayIZzHsI;ML1$W9%8;)!)Ju5SxSaQ9|DsMx&X$PZ>^QN;p3&R*5
zv{2Tp8eaBIX@x6tUd2_Qd7IYkM`M;SeNJhR#+DB5xh<AQ?QmU$A=Lc<Ak_#D-ud$9
zU#^^3J-r@IR6MoFP{q3$=)0TLSypALo#9gDt0_g!8y=8P!A#UMxDu;06NX1X0omBT
zS2jF^*H-B^Mw$mnwHGVoegXW;4opL6ux#IZ1}og<A=6%VN!;E+yzD4D%Y51O(EgyY
zi!5e%{4_lWle5!_^M<35Aeru#o`)vGU1-EZ6^;wjdV|lxjltN52VtI*nk~uT_O&@M
zPgUD-??L8E&0{c6HZGVaK8cg!vC}C8Y$DN2s2lOa*QhljRKT36xfT`D0;Ux^ni1U5
z3^+3hE=;9E-=`c6#?N3d74Hl;2-tIEXqSd;jvW3?_E*`Bkqi3Bh4qn(x^SQ(-p>8k
z@ptYX{yK3lvD*D@-_dU_RRZ8Be4*QyHo~vy;a6&r{k86cwf^B+U%c)nkt18g5%JgU
zt`1L~xZEDoBXq)?aSwePKJ*;~?;=2(GwiBHnHQr!LK@!FDQ=qn6@oTzb_Qt(K8Bw<
z2jC{D+jz(5s%y=@c5zM6M^DuW)E{NG@KX<ww@!1<-CYjPW-wHDz!z2@>c2a&V!wM*
z?>bm_AxR+N=-v0L`;JzlNA=M7+9f@7s*at&|9PU@Uck(K;MBW38xI65Tb}~>yB6P8
zAu}9Y2L<ywI1kxvdy&BR?M0vAB_1w>&I(!Nk}gnQhY^AE-F3}H|6icHoEVxHb7J3s
z^ZIA*4$+zu-m;a+SI};m8%K6>_Ic}Jq{$7LDL0QN&{p<ZtHeEQI>j<cHOFch-?}Qd
zjQ0N@A2>0Xw3R(qVrO>){-MLl)?qzX+#woX;aIU`0Ign&_Pwk9i`MWLta<lpMQc4v
zB<`G^{px>zxANV;t+5~?FR0H@)h<Cq;V);?YTRcy)FM1fVA_z)XEjI_Z27$5o=h*v
zbh<!uhOd#0o7a28JC}ttHJ?H!W(W&ZPUVryISH9+ni^h=GL5GIL%{SkO;blHPHNa8
z9c|La<96oT3}<6tcPf=p(yE$Dsi=Rk*bOuDNJE8P{rAw^gth1eU{Ze#;7>Qm6Tx@O
zr3*dZ3Vly{`o0$Li7TIO44=}6Pi+jJ)rZeMKK^abg$n<VK5TX0gVd~ZLyYNSY(qSv
zi$_>>P!|U`#KV}dUC_luEg0T*@x31Gwe2CH{p(!^02f+EXzzlf?$CBd_{zt8fZ;P;
zbR*q=F`GakFhl$qAncK5k8GmMS@CQcBN_6yl@<;#-@T$|+14BbIWSVUm0cWg?W4>O
z^K=IIXchqm19}BO<5X!LaJYvwbOo+n@StWMYa=mn%@im+#Ym;Wy`55`(f+qEkoqnF
z$VGahU;FO)R&wh-$11)TYr;KYWnjH$ti5eB5QR$xlR5;{w%~#41&J?s!8yZu3Gyen
zzFtL|uc40_Sy57{`y9;ymAz`cYbxgFP^SnA*l+;ApKg+En-ARmpwlt1^2u+$_|+G6
z0_d9jFUoI~?+`WpKlXwLA&fqT*a-OSSuz8ZX0e>-){lYI8Wi9~){c3k1Q&jMSoo#m
zq02hMB#-aLzvLtjq`h8vB@`v!3<LoPBmSHIq>F_E0m4DR=m*Ka?A@{yR?_*|BBY{t
zhme(o2}_nY&<fXOnkYqb_~eQ#@Yn=TRc1g*Sjr9eTXX@X?zX{{9NdM|QX=jsh0TH6
z7)o6xx#4>nvqeqf-g8=AOtZ3P7MfGR`!K$OL6)4tYd3hVnd~AR1<`^tbedJei%*da
z_eFmSZOksGn{Qv3kfJX`Ro=qL*cKrnX~hT$FIcvRoR#Kt7zwdgTiGjSF56pPjqKK;
zLX^R{%nEpQ8@#>JGSt`-<4*e5h%-$VnTV_%oJ2Y*n-ShqXmN*`UpB|03ie={juT?G
z*y@Jy_V6-|Y5L+{Ku2`~K#MP4`TS7?F45l#@799RjbL04#y5f!dT^rRd@}sTqYu`H
z->>lhDeO0m)ZK2R82pVOynevpu@lO%w{(hYq?nDe%~L!OS_IH)ri(~KP{D=^0KiP2
zi==l1^0kq-Y6r$^N6sMZIr=;xL_OPfPp`AehwDA$J?;$m2V!@e;Z{m@_I)&AejoGS
zvHEicO{2y+;sZt?Q&1GhtMGpniS*?ROHV0<Mnhn3CXvt6%UJEvXgaTgpUcS<SeyR?
zQO$74bTMH@N48TVf_raJ66`?Xw9^Vpc8vgQY@wnfZ*<wACbG=Wu+-S_DEMCyFo#8r
zVrEG(m7$nF7y+}XVEuoC;>)AqC~8?nrFb0dF@WXJhI5L&GMI|iN#)tBs>u}Hf%$I~
zCjGV)+z{S`wZq%Q+w?0K4MUrH4?x|{aoisT!X5lQ5ucLqQ!?>CWIw>CWb7$9{vFSA
zw&w)EA3X$4=P8M8J5O-Ot36}e1isrE*T;FP(TVD@vwHM{Z34CJ*CX7(-H*Ti?A~YF
y1kn08v5i)_&<1x%=ML5QSk2v63ywg5x7oHm9WZKj|A$)yku5LKo--Od<NpI1Uhk;@

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bert.cpython-312.pyc b/model_executor/models/__pycache__/bert.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0fa33cc5bc756ef03e35c02408aa38067eba43a4
GIT binary patch
literal 40571
zcmdVD33Oc7c_#R3-%*9VuonT4M3Ep!f{Q3_B1Lc$NoXOp!IEJRRUiwj0-#q#N`wkF
z?bak<T8@Ay9fGklf;ygKu;m^hlbkW#o7FQp9cQ}FOqB{wm0qX>?r0|C>CAM|fTFg~
zbkBVMy>F|+11UMqoHLKat^4k~`@8qQ-~ZqLzwh7rd~N|(-1-k=uS^QUU(t<nIc3kv
zyj2ix2@xS;iVF$TfGJ@fFq`P!9JdTu@N0=%64n7L3$w;;3HyMZ`E7AW!a3k%etX=N
za1Xed-x2pDyaV2ZZ@`zR7^q-j&bU7j7zi-GD_)tX8mMA^cf2}LGf<PL9jHyz4b-tP
zPrN=690(>F1{xBL1C5EMfu=<BKy#vHpoKm6##<9@18vOji-!^$1~xE%MZ7)HG0?&M
z{&;6%<G@Dd55zYmHV<ruzcNx4?@ELR!ig;dTiAVdd~2e6pqu$?;@c8E13iiD1KSfj
z26mVPvv5*~)V?7^>Y~=si%Q37zwcSNf1sDetVhgXv{4P+#X=hp+W3(4yIIU8#B6>@
z%snh-3u3lDB<5Zgvkfsr4~h8*i@5<Y+aD5hAB)+6n4J%a`6!FI5ivJCB<B98+bl%8
zBb(nd@!n)9yO1($oHDxQJ&aho-s3;&@4x|;)0UE)wj!tQ=mF)eC}{=`8kD*XaeF>*
zsRM^1+XoIuc0?_sUzIDO`-$vaC%iXe9<fJuy<r_VvToX5<Fq5z$Zn)N%6e!I>blps
zu1Z@69%nHhLCk%+ae2(3<&PrH{^%hkrP@n<25}D{?m^>{qhY)q8}9}+kK+b!<q+~X
zY@ElMI-Iy}4nOu&$~0`2oTpP!ap+<^Dp}4)Q~hC+WF8xX>wY{crjCt|jl?eDuIBjI
z@OUIDJ~<Y@el(Sej-_Jb6stCQbz)*%Obw>S#o^0?!{dpGSUeiGNS<Ru!<VBxz2tpr
zd^{c%<vaIt@pwYbx${yKsiR}bad9w#BI1J+L*h_84$rIOVmvaKj7>(VJ``_gI5jvj
zhU{yOjmNJh#-5U+o{fz~heWCJ=`+uj2R$?XYH3i|E(MOohmy(INGvMynn@LXvE;;1
zYWT8zZ<l|4^cx$ybS|2@JRXs%<y*=zk$iR{GL(u+9y##B^$DtI)zepp&^?nw)J1AD
z>z*4Q9=fR1<apv@G!j9+h+lnr3~wM2jl_`I1=bNs1gp6YC9mMtuT^9Sr4Id+CO2MR
z?RowJlE=jHWRkrlWGnfUU{)EVuZcuQhOWj_gA=?#gDI-5MXEe{H8uWxG<NB7DtUH%
z2(MW3$+zc*CMIy}O$=SX7#*Atqa(4`hWSwBu1mgI`5kzE9cx}x7%)YI0dvF@wTzgj
zg%MN4{DybH>JlQZh&5^(_3D#zf5f&<xP6^)%cMgPA`auHBhHBP4cmZYT6oPg;5;vc
z-I9+6vfAO2eVC2uVY99(cKB)OS-F7Fe`LBPq|}Eu&1vDAn1IUUGYM(as7x-^NbsbE
zL3!~Kgp|@T6qf-8eN4nP%;7z`M#zck!>*E?DwI&|_n|o{pro`;Ray>;@1Z%V?MT%t
zX-0#JPy02_2ceBx9L4uNldjF`&`1lTElLdSH)2k;DR-kG#i#wE1cUxj7Ov3_EvDj&
zSd^zqE!ey5RGw?Ucq3|$p>_r_BGxO92!iNIZB|l6Y)bCmFkKhI_WnC2$r7DNO5Ta_
zWQ<6|U@Vdp>77f?p^Hh7vs83)H__M7X61f!NR1p-C<dFjp;$5`Q{HGKTqD_VgQ@Bq
z9E^>{QiFq%=W;9(iH<SiDOrhxiuAH1_cbCzJlGHV8W~hGPD=HOq1Qkk<m%}jR2v2Q
ziGmF3@~cgaUqO*9SW7I@>Lt0(4qcCm{o`Uns)&<!a18!I>JYyey%bA=1P)%jIx>P*
z*w|Vk*+FB+E=48R)v@F&SEJF%s8qkU9;`UY{oGLeYV^1$j*E9JXm2z=B5q{m4h{|z
ztsfjr()0|4Zv5iJ_EchG`$TMFTWUzeqO$F^tB*Xo@5&?5?eW;f?Gx8Q=*PBS!xFWf
zFGtbWqQjt(BEL;;zX)>DGjUz)Mt+lZCB&si>HjV~Oa21Rf4U*ubNX&Nvd-X=v$0Uq
zn6KHCt=TkfebaTXZBM~lmG`z}y)ARs@@+e_Z97*i=8${Zy5wwLwF{m5+4C(~@0NuV
z`R>En?!$QA$)1PseA7Ypygln}pFffB+?(y(i|3oz^L9LMY<{QtcJus5e$&3}rhRuu
z@`ul751(IZxPa0tmYv?bvpMT*E_fU7c`M&Kd-LpEUB2OwY{Mft@4meE@vQgp4|e9f
z$5(9@m%Hc`x_a`Pk7qX@r`mNEJpR0AbJnwYVgHAoJ@=}b3xP8zySkz%n0*yRi{Rb6
zg4PTDk}EbgaW%!pdKdwckKHHvuuDpIF`Bw6jt%Q6D!nNBTe%Adv{;6*L^qW=HDyg(
zZd76}QoOQD7t4YeGI-KQN}JVuY>0v7r2I--)fo1)C2a?<C!}rUPC1Z5rSDq0v_nnd
zNIT98cTD|Zn^ZR#i4txCJW{6yP5T{4DE5-Go18sx!cOrp`5z~Tx=K6-N2(}GsV0)#
z+8j#~nGeaAc!bh9M#jZghs4NaZRrS=gDFn(3Y;6ls#j>-vFOS*?4Pb!_5?GYP@y@L
zZ{Cq@-m%z_Yd$c2Zn?ER-?}&3x_2?1YwgQ8o0dbJ`OyAsX#d^AxzH0CXUlSJduHSQ
zZ0-Kcp{KI7PffcEwGFqvJp1MOCvvshap!NyI2**HC{H{AC+s3pH8zxpf>gN&3HM!%
zlixcy_{!CxIDaD2GRUTxxDP(b&cTuR1l{=Li9H;R#|H=Rn8e2rnxvs}gmr*ORGK+N
zl9LzU{HHgBqPfmiF*o_CfS=+%p{Mu0tJ2oETphf1aQ0x)27l2m)HmOX&&G=mx^oJ_
zmRsrB^n4^+zokf#i*CW~f2;Xs^JgC1@itLe!}wD#W!YW%_Xv6rGKyHDwy3=Uu|~`h
zD|itH@Q@v$PVgpn+`E8u+@p1B&Z-CTop|nzxQw4iea7Kb7DG_(Xa&kK%==+!!Ebp`
zwx6M_08o~fvkQb#qavfcCHRVFH=EIrgFF;prPLWas^TEE)j~??TEPfeDRZy{L;01|
zqXEUI{Q@_rYx~1O6`X+FH8iB<Zt#*6)QA)+zPT>X0iU=P1@iG-1D{kmB913Y@VQ7?
zN|s}1&r1#&xAW!H&KVwY8$GvSp-)C7>xH4Q%aR)`QtTSzJ;XzJsw{haQm{3vnkWK)
zRqBHEEJb}1PU(X6NquL&es8vZ?;pMX{jdGO*K+kIv37Xx)z;s7arQ-J(OTS_-*r5@
z>v*pA1fII@Vcpq$d-J!#)7EeL`TXcZ#=|NZ#|^<AHX!!Ga|_^k6u;${5ph>K^t{}O
zX7M>Bld6e1Q~}Xo3OrL1G=T^zqX{A2{FiV)*{W;4K{ASytc7z!DEO=2O5aT9{oAwt
z?K%I>jB_Vzk7T6+N=7&}hBb&N)fZ`ywptlANnzHmGEOsj$IRD=FH;?<4?}Xpz5@T6
zhLt5Aq(p?>%Nn+5&H49aoO^iFe3U90863Zw!n$qTMk2thjrv!LFuJt%OquXnsZYwT
zk{Bkf)h{5PH~=RsxAG$V`c_J|!OPL1$YenG0$B))*ooL^S+MyX_igw5p<Hn1w2$um
zxBUygTyQV${LL9>v)oJtAE&@{C#8VWSBYqfvDd@;iW3=PFZaKPXZ?l)R?s`aHDyVu
z>C={!m4||fl%I>Cw53mY%Q|enBn+Ehu0{&$!+^-F`OR7@awh0=o@R^@Y*AU7DGS9K
z2E83NPg!4;XN#537I!Qe8%w5!#)d&P;=tZw1T_rX_~44dFOHBy{VLh{NJtV@W(b2%
zB^m>hRk}AJ1B*)tPksf?4FM}<L(4nf+ur$?GrRk8!Q<1uPdv3ViSJxk@@)C&@R?lm
z*&iepPt09-XW;h0g8j!W+wUf(&t;m=V$}__;8hiELd%ACp1A$Q{8X-a4{!*3fj|G5
zOK3S~Vio#s@MxViTq&MGf#O+m&XJ=52kLsUksO-WBF$^@E9B5T75mAdwu>=xn#iGs
zi9`v-r{L%j#WNI04uOf}O*jlu*leAIDDYFPFxh(N&o4A(H||*x;4j)uw!I6UBK&(Z
z`_53<-lE-NYnk8k-GlEQToK?cy1llRWnd15G8Xo{fAG#h!1ZkXzM>6JfJd6P6dmMq
z%D`jJI``~5FWr7A8{Cq0ZTZZFXPnGZ-G=d}Udl?kLT|DJhB!z>6ER1vBUUD+vAp3M
zut7v)H{zlRk{E@{5XH%0fD16dDS2o_$g)DoLtGSOf+Rzf?6Lq!ofxQ+4}WZ8wXekm
zz}cTi?qY-yF!)WQDo#*)gC?1wJZ8$4qMESFsGX@w<!RbtgccOkfhld5r!*GsDSL{B
z8@s?mSktz&`CHf&O549B{GR1|W<}_Zi5;}kG_@=F04;cwl-HF>Y=2b<Tlyy*J&b+s
z30paX>m4RJtJ29{py#oad?$_}ldxBV84%?$0jvB*T$e|bm=lO8zCsQS8OeQ)0rImT
z4U&y>;gw@o6N56*WHm@iE_&CDua|5rNMT_Tlo1uqswk?NOD+}-%;0MruIt#A8{!d4
zzyL~(ZV;&m<yAaR{x+Oagi@$%&R2%BmEnBlu59J5X?vl*Jzu{)TfcqUtMd|Md3pBb
z)qv2xdHz~{^JCe~k1cIDvf_98D(+VZ?MF>Br&oPKWn-afLt(=<`rq0)_rm=13okC5
z$u#ZzTbHe}s_3PN_bJVa#a#zR`<w2c|ICcrBvG7y-P!cG*C{gk*@yd*#ghmT8|n`N
z2z|oKZVVi=SxB4p%jBD0D;8E|sWgeNA+xYWN3JPAMtU+LVDy<GJ$W|v$OL+tqPD{U
zfp!XYjkgAVdtmzbN6j1Nx8<65+&l;7y)MKlEu$)sTS1CiPGM<$N*1gf8h^&A>H6d|
zjwB*E*YKCz0|(^uzS(bc&p%NV@N?JlDg6}N?J7Ym+TaHXlsPU3?l`HVd`d{2!ji8L
zIoFdqmq7m@e>Q{QS)$g6iE%%WM$0}Bw-Jyq$g1rif)4OoPNPXK^IL94>^vk{7HLTK
zmyK~Y?uQk^iwG!Oe)E^t5;=$;N{O7t{D4%^pennJ37aul!x#eDA(HcZW{?{>H)Gal
z-O>VO6~Hax8nH~gEDOrADmzvsj1oalc74IJFeAz@xm`AtW!IJERpLS5>gb<z_YA2!
zRd&uQRTC9cLm7BXihGevBU0=IPWpOcx?LGSqiu*JRq6w|5Y;WyM6g|)fD+yNg`<a~
zCOM(_bt;0D!-y;+%sT#$?@_4xYOFBvhLT2dsWp}u_SJ6~@vOgrxRO_2JI;_l$xysF
zipOC)rxzP3Ta_epGR<TsG(H%>)01L`@EDC(3Gr_sUh<FNfDo@%2(Ai6y7@`Nrb4ha
z4^$G|QV4D05+cykeAA9>(~d&JM*3gZJoCcbK&HBD)#qpg1%0z(wMuB&rX_6c<g%th
zeM`Q+D_h^Crg}M3y>-=NZ(#z?29Wal4F<{d<*~w^&s1+jvU(!d9!@=oL>p6QdNb=I
zd}V>2!lsZRYoiGk*AqQjbX<ZpZB=NxMf|T&viR%du(zcH<B|vOe@y1cq-y<JmIGN5
z28hcMdZoHXEA*e<T=Ee(V3t7r$7aXoU(VI-n)Vb(%C|k+x_!};Ydr`lU!k)0R?}=#
zre(+C)?DRbEUo_9X&+w{EdBjr8kqoI7-4Usc_K}Caf+O7ax}!f{u)6Pm66q1cvPXC
zQ|R7N=-peW3*PsHZ0_YiW6_3R64kZO_hsw4iVnJU3iaWI-PyYBMHk(=h02;wDSolf
zWVO}JKl|O6-hJsa0bV``sH~DDM8SY7Z{Uf+65^GY5DRd!m9{PA1;h@49bZ%&QOAgv
zEhSDYB~FOuT%$F}tn7-ojl+SbNv!5!ON<vwj8CMh^q0|tve`SVX9NjRF_>`!p0b_H
zHHccj*kG|BgbHjbFBkF>1`<yBu}i-j2@<TuwkTK@vE_7v03vMd7ykiLDpc?W{AHB~
zj3vriP8;ny(8`AJdF<$D^pWH`QUwid3fB`kS%}W^WW^Z}_XlE6wxOezq!PV<ffAGF
z;SkZQ(i6R!jfG%GA+$?R-(-?gOZ3e}go?#!3ag}yMR3{5X_DB75{wDcDLnbR5GKG$
zGqS*?kQ`ac!l;c7OG+NvJ(CHG0j6a830eoqsPfN{ak2vrLzVSSw_>xgd0(!s2XqBe
zwAXLGK6e0O82{dkb1$EMZz3`Vcq#ReETC?ZZ6rQEloEegB0_V9O`LyDmAVFp_;jyE
zMEpSzk=kI<hF=ho)(u4m`J6&SYtcnMw@O$%bn8_Ki;r$Ah_Fx|#oadBBQon=w85`K
zs<`9rq}mMQPrVe@Zsi7o49JY9gv@ZlQbKG-fI)#)9Sp5HjnOJdk1>k1M%*AV8jAIb
zZ=o7`5>tu|hV>xSji^KoR(8XE7<EZQ{x>L(Ip{>FRO&rsK-ZKVG)EY;@;ksv!H8$a
z-WzHVF<t4xyEH!`e1oKlMCHmZ#6wwn`m;_vopuFcsHJP!8K;wTS6hKt6<Qj_w@zBn
zMB}owR%tSZ2!RU~$|^Y{2i8Jm7NeyK%R_n7n<={xYEZ*TRu^sm0<nz1{Daae1DMJ+
zC?R5*#QQ=0)Hb9@u*NQ=Fz#`Kd=S^@Jsb8-1W+n%!`j7J0{JbW4r;!d_6YL*+`Wak
zL8b26FG7v_jLCRV2M5>^=X+WmR2B*=qN|^&e2C4+?Gn#%`G*%KT|KW{xds)h@zJn@
zvl=cEb<27hsqxfMe2@uX5SWyzv;d@{h)KzMF*cOcIFLyjF+XErhvZVziMLQ7R7Hk|
zpzP<RU?p|=qFkvhzkGS7S1Hbs^DT02Q$|i!!$>S4S)ex}{vL(dU*T1DAZJoKksMSS
z6w*Z6CX<{>D@E!Z$;zs@X2~ukK$0Uh!SZ_GvfZeF0c~YcbTR%CMI}eUd(+Y#&@J7C
zCg@=-IfM7A_U5YgO*@v`dYS447OcF#BkS*&zm)ZFTde%h-<xsvX8gU&4K4YGZP|ux
zi}l%teZ;#I+BfCf_h#GoQo=TDH{^p|*<jZ~U%vZD7XO1s5DOa*)o)GRoSIAJ+jeE~
z-@j`ym4D=9_K}kx`cGz@Co}$&pES44o91`tJN9Qg_TRmf?Kqxm#%|h@vtd~V>8bBd
zy*rhy+l>r8h59DW8!ha9|InR7kQE~o;;yD!Q?pZStD5fb1;c8M2<j(h6Y9=>p{*m|
zwl~|h7a(6nB`;>GH?R7g4Fp?!t2IJxSmqFv)Kzu2x@Wr!)D2s*4O{e(=h;kk2htMc
z`KF7nd{K1#T0}$mkgXwq49~+6%}b!_Q)WnX&4vuudh|rUYM~suFl!A$FIgfc2uI{~
z>Lt`{$~tAk+GMQd!7#F-PzzlUXnH^@`_umi7b$pQHURAYK1#zpn~29!;ynD~yX1Ta
zjv^tYu8}O54U%b4GQA?1u1Kb9oQorx$GA8+;t|}i9f`??wF6v+US16C<O_(%pch_I
z%WTWsRIYN{P5ZQE`sqSd?XB=^7`rTAy8Wev&iA|Tbl<i9(E9^#ruq1fdS}A9s{Wgf
zY18!1=^<kH8fF{jcFqmWSLP}^^c<ha@Y)(~?`^8!FALNNc`*3#7w{w#a0sZmHK69(
zDg!nA%0P{LVDx0Z&qcRDYck*Gp<6G(GfG(;Fga{>Dn5f>htF`wM=4ce7=P-eEUPQj
z;&OZzQP7!{^jW`{1TpeOv6_7iR+~YUWUR&*8&#TAB5|Z4#HQG9z*7d(9w>24o3K5>
z<#=W+Viuijjq+oc#snHJqoy>;|K#bUhhx`;JGTA{zp(c(ZG}5F$;~yx*fQba;xbO>
ze;4IwE19?%w|8_5p-AhgNCTd2R&eDhS-54uOY&udW<Hx$df`^RGN(8PsWN-@G^0)+
z1+5r*3D>>aP1sW)eosd=pUYHtLcT=X0dKkyT~@ohviQ}d29WS?R%q0aM0BJL$JO0A
zZB#oJ<q<YwFYY;bJ|}H7fi@Zoqwp$7V@(xWnba)==n=5~BO&}9t8O3RE&{~w!AVk8
zsKaz5h_S{R!>tIEy3kuII}jc8$1XI7-r0Y9|9m3Xv>Q5))4rKkXcNBTcE$YEVmiC|
zST5LCvJ-#D%mqnzj7bY^`1~@0B$_B9Ik12dk}-HVY1#D%lOp+TCryk4BoAs0#?QgL
zIvEnX=RzdrZMWH43N7ul^IEi!|Ix!gZ2mzr^Dnz9m`WI!KzW0L${xm_dMT)R<uwGY
zOIFs(maIB<&khpeFw$ZIyJr{<i4w7UE+$cOW3BRvzlP#v67qF;#cz<K(GmR;snQV<
zamwfj7RdE?F4C|7kOBGUpd)EjYoU~0KzwvT{6nf9$t)qi-b(&%atPM*A?$;%OeQKD
zi8%PUW+cI&rJODh4y9oZ#bEIWWlGue#a1t6S4qQ88cs(MryNY)16U%`5PlG8=<Hb-
z&2>CFZT+z`q)~;n7>Q^AqXSRD^SSB3dO~SUYgVHG(6M0@;9sMFlAT00`KfGl3Gb07
za5EVsQd!a?GWs}19YQY#;^d|_gSnp%?#KprEVkr=kCjY(@n2HWo-zTD$N&Ws8rS3b
z=a(GQux4X>2UX}RxZ^?}KH+@<+kQ6R@k>Oit>_@1Q-Bo6MLr#dpj(b1$k$2Q8ccLt
zByEkw==bA)5dVz4`~_0E#`AmzPu9%y2gs0h^W5=8p#mhz#^N5XsHus2eBv~!rJw(0
zIKpuL8{mis&427&f06mW4vw&_ha<%Q4owih4+qRLiGn$g`gQV^w&p=|ob8R5E&NZ=
z*g1iG%4hc{wD5O5aN!R;XyF&x!rF(NhiPsp7cH`Ep8q|s_u@Z8K_U}}QjwV2`nk>a
z_~f3DXZ4rS5#qm~L`TV?sVe>}a)==5b)slAu_1Mux-Nygl4)0^th3~iCm!>1Su6AE
zrXIWJbB}quzR;4(>hdhAU_2kcfg0-PW5fhwY$)JGEdSUPGYxP+Z~L}6Li;(`$)P!D
zyiY?a)KDmJ%W4CjH!21^5pUFMWaEUD*)SX{vkxnC1yfF_T{m@waq5Ua>W{dYB12%E
z82ssarMn}QFp~>Js-l(As;I*_j}bGql>VUnP>tGFf8O|LbxqX4Qd%Q5NLkAeNF5MJ
z9oHLzhEX(rfw9W4LbSoaN4zdsu0*d(wrga|!*&;eQ^!!c<X24{xHXSRydvMa{&(b~
ziPf(v7}JbWr3{O>DT6N7a_9nu1ez9Qmyxsp07Z=nB^^TE1d_@w1##=)jHY1*xj54U
z1B0c?9T1a{2)iI9gr1kPC(12u(Fba4AwJMB5P>o=NzO)cPLmUdBRS-hkVG)*s3sR#
zXR*zG>K`Hldep<{0DCVg+)2=^K83jDoX~RJhJ0O5wyq~%w=Y{q;wR5XjbVrvw%*yA
zYlJxLP5-_6_J!9!82R9ZAH9${_S{na^WcTNoSr<6980#j=#|mm%04&@@Zh)nG86!*
z;6~flVm+|~snK<;1E{zXMPfdlU@Iq^CUL;Wo6d%s?h*9>K@qMs{k5B4%lmt>{+@;F
zIsc;>=cBAal1nj6OG-5*`}3UBOEO!Y5*}S0pl6Zy`Vfz{Wnm^seS>R?%#~z658-ZF
zH8#WqGxr0~QIj<*BA`9iDgO&X6+I9ZBS+De$T>z%6b@5mqoGl<MzBp--a+ybF-0A-
z6A8ffRgj`D6s-$&ZH0#RLgVJ5Lulw)5v&j;`T(W^HKa#BcP{7Ol5uX~UFLX|8y%O7
z1DXVU93b~wkdQ}A|JXDIB0XinpH*iHX4nt!Avs;j1Vn$Cpi>9#hKUjF5ZIY<|0M2F
z%9L};HRVpb()Md6(e$P_Z8tO)bETb%JOg4ud)mfgchL4X5x6N&+G9j2ro12!-n1v}
zNV}Ey2Ln@!q4Aii`e_nO!kaHb+mFh@O8e$u+G?C4?HEzDO^^l*J2);_UCSc?W8n8u
zJMl;4{8Knez@JjUf2#}lpD5sc3b0AmNNhMI1<3v?!tC&&4<8kil0%G6#D}0R?&EK5
z5F4~)DsCqe@v#W@aoI%sGvp%GL9=}LijqD#m_QsdNv~yTu%}V-Sn`dhF2nXy9u1Ob
zf|=G2vWi%#B9c!|$fHPZ7K2%jNgla6ES@uY83u3AE|qL7iumWKPSOX5jb_CWk5Dar
ztO-i7lS~vO(>^LrdGIEU^8XnLZU{d!+uGe3XDdegh7Q=g6@rb^zI%0zbGx~MQ?99(
z>Cyao2P`(*ru$~L{rR3V*}%>j_uQF<V4=Ddg8Aw#g_`DN$mvPh`^;ivuKwVRwNPC@
z_d0(Bgb9U~V0gw>2yM)Vc4b4mW_%w7TIQnjFE5^23LGi~Hs%A}*+BQgg{466M}gX6
zy|DMJsn{sg1m_NXSiPxGvmsy8m96Po=v?$=!iRrc^H{M>=-gUtC!PA%T^awbjB^*8
zf+aJLmNho>eiNSc>5($C6tTR{&H;1vl1`KkWoxV9d{Rd(W~c4JRt%UgHjHOdduC=S
zVh@DuzT}nIgnS%9Gzsz5U!%ri2#(~{zdFgzt!5xQR0pR>n?d4VP+U73RXFWH9$kFg
zt)YH@gSgzvmyZs83IBu!#~DPx+OU0Be*4kv_M;zc&TW4p>+GKPW$L>>scfI$eb=@4
z`cmaF2-8V9ZfiEUb>UntxF5{0vzD9SW?FieoV#@9DG-YFhwIB&V<`|zs@7o%f=^Q2
z1fOZRgZ-pB)wu1Whnh;9G|ZJ?sVy6hp%sW)&R2g(afzC-%?6PM0?e?lP9P@rE;N0k
zDUrIu*fQcz=m|L^)FZWUhzqa_!RCy$X1TTN!!5@$EqxhlBdJm}6t?dBna5*$ff$0i
zP|?A>PDt&GF6MO$jjeMR--+Fh-EJ%Lh+e^6@u`nJZ8X{TFVw!@e5aYrD)!&q_`~iW
zbdzPpeoV}RM@)rnJMVjZwymmBC;TX=rh%DwI_S<RwDm6bWn1?ZU3BX%vGJs|s3zAq
zUh&agYqM?l{0j@w#bbACN#vK=eLUN9BD?YAihw7@gV0KzKeh1e;;y?kwz0CSFT3q{
zw(~?$z>^>C`cd*v_kBiQ4t}VgB+JpWXNTcYFPH3FnSp05n*xP13s@7{b0GUrJ0QCu
z!%y!p0@g)lO<Z72+z<|UqTZ-I>KkoV%TqlX$OqHomu*qGB3gif_Dak^FIPN$N<IvQ
zWA`-j5dSSXWeBqmVe7#0Yj{)!$K@Rfg2iczhIQ6EXv1)=wQ9Q(n(4M4eq;B++<(VX
zR?`xhqK2oRK_y|Y!i-rJxK!3e2D#T)n`OIo`rc9z_4jFpP{I;KO_GJ`hC=gJ04G<&
zs$hl5y;rDeDK%}lR~MSE%hh#himbHYmXL9pxr~exGyKbuafQVH>Ik?<A{FsJkn?}R
zF{ZICBw;M+GCisN6Y92;Nc=!jo2%^lB4jpPRYqdPpHUq<$x*4NxJtJK*TqlC=_ZG|
zSo~XZh+z@?$@z?&^=afU=rK8eNKKi52Q(5;02ETAiWRo7Occq-X(IVbNg{=Cib%fD
z7b8DZg%Zj`Ev0Maaa3$A<$+)Xn-bqPF@;x%Mr4CA2Pn%I7E{XG5pG%NvEF{D*O<0N
zd{Ixt!-O6c>%`zs*VBD-NBj_acq0MWw^x838d6Y=9zy6*3DJc=Qm3>XVvPW7->Z;I
zWu!V<h5Kr>i3A)qj8@iyR@O_5kv^^**urqbPX^JsM?-Ac4y7&+r9xMe(PW6md?+;@
zg67Y)SR@)!<s6}rt79<a9v_4DOez*l_PE`IUoTvaB}42$lMtBvp^4<xIN7fv$0*B-
zl@%HqizqoJaT8)3=?LI^2)rB1M=NI>$beakQ_M(c_-ZmWo`B{Ka^S>Xt%*_xXxNCc
zi#V+&xu4}l^<wSXA3929al_Kk_=v7XXl#TEr$0KCBBT}Dqh`XuO;lWy4H1Q?NFB!W
zP%2iQ#|17kGI7C>O0ZSAkQsyAfj>qc{|!843(?;}E=1<GHx%teWhqAq%9S>ylxYUj
zu869OTOt8cMektp{Ypyhw`7}4l{ztLkz`{pKqN*b>?)HHN!+AcRBZ%t&Q1*Hs_`W4
zNFv%WIKdI|aOz$h;_zQ6uQd`R98@WAsX9?adi8n<QWK5m(t)ooe1CzI$%{yYg->@R
z&T_DW?-1pKhqJ-Me2d86m2q}u{9Vhn4f)zlSqR^Q9p5{9x9)@bT=!`*P}{sBnE8e~
z$R(7a>bhVBu+WmLdqi6sAE%ZP6fs^Pe-)A@>Nk;L=Pb(6i<nsGWV=Csu&JlXm*^Zf
zoqTEX=49R<&ica(;hcYW#<`ne#(uF>P*WmFqG7{^G_6eQFZoQtpYW9x(Qq+20k|jD
zO)UFk2xY>cu!)Tb<?U-RR7sJctqIe?D|`F$eE%D2<tF6Mghdbsp`9cw!vDt2g$;X(
zE+NpkBG>}%qF{5mIZ$2$Zm8z0rT;ZN>l_SZ);Q9L=?zS_KK1Cf_fQGCXtE|NG~<Ve
zIbw;Ku-l|Ow`$7DX{eNftF@~VAmUk#Cb;=)*6%r#Sm;})27swds`@Vct@Ob;10fH+
zsF#DXU<x8G$e`uo5kb8oswnGsOt(xB^E6t8>!yEddDRp)|H95@a1R~X=myahQ^{9j
zsmqY2n|pSMKS3T`lY@E;^OTD{Tn8^j$D*%Ih=(V84F;zka`haH<E*fF@^Fuu=0Br~
z$yVg|ztb$vv_AW%-XA=F_reD|=Th%{?e^CeUdy-b`%~}FnexatT0<sAkVPC=E1-^5
z<6`U*4ni6ni@qwe?~_j0hm#s<kN8vMib!^n7DYu2y%+){%h1?$aRYpezh~%50pv6~
zB(E$s8l+PUq`>7N@W9N(nH!sn)hJs0kBDiEIolr61;3#7K8@rcS@lhGC*Pi$_I}dT
znx%&4TA$4|J)3a`Kk~QTt8HHt@9tY1TdF-ieS&lS?#1*{Wgk<a%lq52{`UEUckLN}
zd(Qt@#`zc*z|gBvE~2MwaMLs?9o%Vi%B)1w7$gY1|8Imswo4o(L#>eU9VWlJ_LbUi
zIMAF)qc-bT1S^V4)*%<P*&hVqT{!W_=T<Fdnwn;1YSJ=LLRM8GG>Vk^+H2F%XpcoR
za@NJ8yvi;uUc~fmRe;1vm|61hGqM<Em2B(>c12alL#&1)`9X!`6S#OB7X|Qm@)iL#
zsDysw6lP(PA(-POK(41`m2^>O?LZmSSuLNmZOpgr$+qoTOyt`7?lrXK8^YO!@WQrS
z!@m1A3t5eqQn>q6#n<74>&iG0$uT$>86O@T<SdECjWG5@V>;O4Q!2ROd<kPj*ubE-
zF1o2C>I{(@W-P@4eGx=*GWbjWH6nvUxo>saoW&Yhlymgh&jgok-~42ee(vu2lzxhJ
zCfgoOB(p~o$?VaIWV}%2RL<FgUni2GJDo^|Zp%b66r_n{=&spmJ7O{vx~vHF=zfjG
z=3c;%#n0Vi?B_=fblwK?w&Te`lFhj9o*=o5yxdUBe@euSFNw74wH7{D5z1!i1$c;t
zN5~u+{_-ngqPNm$xJ>~xNcpg961gc0kBMyNpbtlroi;@w&z`{XvKM2iS7XWOAjYf|
zxbWne<NbpdUVQ5K;Q3RhPh7zCe;m<8s;+(j<LEiQ4Oo8kTql~jg@)}`q+lw;wu(%}
z=9!9opfeljoPRnS*qpI;<*mE3*4>L=UOM@FcF*%aw!XkA780wMO0oVo1nKAeC^ew$
zO6$&4HKYWF+SwYl)6V^(9>du}rco79Yel^$dzpc*PYYLk8XeK)hvl5<P#R%wmDbSK
z4Wl<WbJrFjfvRMWM6bn$qu7+C`6#)@#~^}@$F4*r8#u0Ay&_IX7sL)Y+B+N@PiZ$`
zxFoOgc5yQZszonTa^j3Y?3*O7$fS+m@OMljCxnZw=i*7+F=r>e(qY`)5I%AG-tyn{
z&$+%=`+n1%rn@iZ51q>%I=AHPzvpSXZ!x)`vnbenm~+)l`KnFXs!h47t{Z2TYg_ZR
zTe7uV7WU<8cQ5Tbm90H>qkq}z%Uc_>*2cL5OV-WHo`#H-ALK`6sh30ct&rGBFGIk|
z3vT(S8Fu=@h@IK4S=n(j>m4ft6%26HPRJt-kDY;HhG953aTn5Q%8nj>9L>42=S~4*
za4n(js36l4Dmije9m=$#K8!8YkfV_-5^_wHz0<1;=u#0eF1wV0ixleer%O>$79F=J
zhtRw{)sRkQ33chzytMQrXN{0<H>MF?NU7pkkRO=rZbs+@@BqJyUz~D5bb?F0sF%d&
z$$0^eWIcKO?6d5|E~bMmx%ufXbg--B;OAZvkYk8s8>LeFetiy-9sMG|FqL&YLSvg0
zdjL9duBmq7fN~Js>kDUcwWNfgKYR`v2vEiDzTG|l`rV49Mmo6;ItdN8uFqbdZ(10=
zn_8;xQ&keAN(Kk$NbaP(_g8{%sGF(7RyM%_-6tzV_{uMm^6*PJ<<BhcCIVpRKo!)Q
zb;llrl~C&@2zit}$3cSex^sCaHxo=%I^_WoPg6h9P=S!Nb^EmSE$>b5kDX1Nn~EZQ
z?RrLSV(t1(c-Chgl@;o99DG1ps5DT@F5Q`{6hk2xx>&jx?C>%sH3mhbvBpQ)F7z7f
zPK2^<q&7*W*Jv;AQY@8Ze1}FGpTN^ersk*goy?7%rGBCe&`;jLTTk44VrDAm-8gNc
zyC-ixId?SYZC!H*<Cx~z=DDG_+w^uZVbfn%{vX@Ee*4xdht^SM{cWm$8Eo4}Eus1u
zBe5Oyn4HI`rq3WA$%;?+-?uny$4!N%)*|<GZ<jqsPkhQkid81tj=RtP@TDKTL|bAz
zigufF@&OoYTb-i53NIfORLC&$S1)BzUHJe(dP+{}a{MeE(DVQu9cHAri4%705i66?
z(moaUVYiA-)sYok>1YHOB&XPwB8UVjE2*e^BOXY1T~QyXxEJ>okoNjVLx@mzMJl3|
zh-df=vROaURxw#@HJ0m2sp|YwXOH$BKacI*WRy!1hY0MuX`Jw9A)Ne=hl;?HOEvk3
z3LOe1WEQon<ix-*OHX;wwe4^S@pn#iiP8AgE}k^JCQ28~B-6>OiO~2ph%?WwdH$v6
zUglEXr-s<K0qBr#0s#<v5=9_ME(|95rx)0RZdQpe;ds!Ow}0vU@uyy<6k;@i{3D?*
znDIx4Q#c-+M<eMj#KdE)nb8OryGl-_d6IWHo|Lg-EYdG|lhFzFmLD5f!Lx=6UUCpm
zODw}xI+DWcDqBF;s0ycX2oscBxV*H)N}O4QQ(o*M{W?wG4(cts(<PvOqgyH&ZU%9E
z2kEd`eKi5iU~S!cjHc5Oa*mSo93qLd*`cTpulM{x>cdTI$CbKX4biOaLn*Xgl~|nm
z>*k<5CQCO9!4TFYU!fTrdNA}<f9qQj>@Bo*lbwJ}y(u?UkPSa1NHXE3WglM~GF`^`
zV8lE$;mI9Ad>O$>iX;QYm*Ab;WKd~?BT!$V`V&Y2eGJr3Ux$!`Q;RPntYleKUwb2-
z=ve?}R7u6-LcJ{g02ES{7=7hxOaw~i3_DORU`8#Xh(mDn3!?ZH1gu+Mc?V!nJ{Fav
zBTUbSxbXJH$ddm+#(98OnJs%G$gD*1ns5=-edQTzX}!UkAv1m%u_+4P605<07%XD%
z$!SXtEHE1>iINoZfh>$wr!uO^CUJ<Mk<tB>Jz}16Ku6B09VDP>1@;LurkAn8Pq|Vg
z17H`XlZ)uDy0p6iYGBZsc26R-5qfRN(VKQp`LJBq@HBc?6w~&vPv9BJips99cS3&+
zC$90mv{5Ri>{9y4I6WPUAVMmO@&zNM>aXvn{L^k6HGpCIxk{k{T6VEg{HYct7}|Pr
zj>=m`+kI*86{HoP()FA$+Nz|{evQ_u(RS^*;#2#(BJCXAsDx_2&?Y1RUUsD`MpR8#
zB?qvi^tQm}PC4GZkDh8PON3kKA9~ZiM(r*8b%HkZa`~lux~2RXa`P)?E5B0#luO{I
z?7{~z=p9z41EYlc%P#OAs>bS6<ybRfsc%7xs*g2FLbkGNs&btktQ_4{78SS3h*N5=
z@4Xq*o3mCy*Y@3O)2E%RJ~DN9Pzj)S_WqwzMD45xu@A&hTtHa3NxV#tG#TC<+(PdW
zhks9`2IDx(Te7F{(IE)5Ex5zk#Qcd$GsUZv{%vw-6=N%#WR0bw3BJD3A}F#ojj<kH
z*wzk?M2GO5g=kW|M}@ga1dmUGj3;q&Cjl49O2~z;j8s#}&Xn+zk{f4*rec?_j$cJo
zrnw2F2^D*@V}d0Q)mgS_#d*Ti0Mp}=ORX=C5FQzU0vXy!TZ<7ctT)9Z(^<)U8Rv+y
z%?mmelvLMAf%7%V^ql16IBGB^Ig`WVv}(X7=MYPhbeEu4>BWU21gs|;4c0mt|G$cN
zll)sW6U(z38&7lFASr=D*^+<n-9z~UXR`;+<_`2{o;m;Ff%6&X`HcVka_8=R=aFpZ
z5gcdKxG~?@oo(#SHTFzf?^V{!TzI=-+O%BLnXlQCt=Ti}DpXd1L)g+i?fIm#ZswI+
z!Re#-0@X8pbCt6v-}X))EmXG7U0bj(R^D-EaAN7>%fW`}(}lYF>67f_iS`e%S8zSE
z`QUO*FkiDVTeC4!v$GJ~Fu!5`>G{sv{(P`I8|=;ndlozMy~nb>$36@mTMliQIc*Ss
zq4M2l=W!y%R=&rY3-&HX@_SEa_n!PPc=D6h4fElJr%{h*bFI5(PA&tTgg^9m+^ead
zv%cfI?aK$ZWrN%D!Ts6b{#?z08B-z9ln=CL1MTy@bbj$-CC(1-*s~PaTL{$6ZJ71U
z*b9LmskhQG6wfTU7B}Oo5V`sT)2Hs?faBL^U;oaY@9uwh|H9>5$0Io$T5)QbpRhi6
z^+SJWp{e7YgSQVZ9GyFuYwDSGE|=WroAzXz_RKh!z4du-Yu4L3hs~zmY+G-xZTFIw
zzN9iUbo0z_oG2bM2~~}&Crm=1Rz7y>=#sxD?|(Gwe>A57gRu3d1Py*l(15|l3*nkF
z8NAp^v&%*iJ|&0EIId865d)d?bifY}J7BtrqR^N$X7&zKDdb$BVfo)69*Nz}ZiwAm
zh0e`|4w#-b<Ghahz6#s6<*FJw&7o+6pSHdm=lW(xiw?Sj=`z1_(VbhUsx5lR=Y?|q
zr<ArBGT9n*$5S`Z@ze+T@ze+9<Eal8?Y*{x>X`}fqZB%TntaLu)StO<$Ke&#dl*$#
zF9j2=yoR81{*iWCp-W_jJ`KKZ0bNFX#Y>h5I-yTw2VdtPQ%3NBbP%2kW>KWOX!{)I
zNz9mv@qK>K-wKJH@_!ym>yaqu{YtlSCa2v*Io9s~g|?P)g{oYLb4=Sp=Z3CCiQR+1
zA$0M2h)zrEQMf3U={C+{L6K!G3F=Z}_Vn~{29WQO63qtxGKL?i0w;%{+KR5Pwwotj
zq29(Hy9mFM<c{IkO$aq+yGY)r$q9dXtx6+q9~$0XUKzccQU&Q?^zg<NNh5aHsjj%d
zx;eQIeq!=e2_#T8&8V`=2!E3HxT<nP20CSzhJKO1T1zmBwtl83!%amGqTiqvS}LA|
zIm1@u#wWN)z9cy$E74*~4scH3$3?c(O8&vJw?;w+zS;I)kXT_g6O<9XW%e#5%kao0
zk;QxrVM&@id_lXxS299YT>Q8GP*&N_KO*|^8%R+iCY}G%-8wLEOU@&OiiUi}rfkKg
ze8rAz#g1tUWT_3Eg<umi-KlT9_0`$0-fL=~-<9dwcXwm1>By>s40ynzf`){!*x|EO
z*biP`T?fYm8EWFN2KJ$1CA^~>0c`A&;sX;sBB1;-+De)-YZ7j3z^O9uWUo$d!;t3!
z??k1RT{=DslJRxMt3uZVU2N!vMC{6##y1~;#Q6mYy925l@@R+MlKzQP_r#`gYZ`xH
zG}?6=SL#>?@~%)y)PCvQg|sE&`kq@ky(Qu)*)sR`b8xs9X+#?TB3b!~<K!^tc!YdM
z;aq_9eqGr}10vu!38n%?Y>ec9_63^{rSn7_qwH8VgxUBebTfs~+M#H3upu&m0Qx>2
z!0*^4rpSS>HA2_~iyk|PqaZIJ#+}a)K0(+veK(Qu2Tc&YV%xu=S@KVi4TKvNRd0>n
z9L-m>Wh>gIEuZ-7W>RwlOa88V&6^9&ZSOpJ`$@=J-#L8y@V&N8^T|y2!Mjmx>|<KA
zR8051c@AIB3bxIqG8^~awdLv$LpP){I9EM4wh+nDN%Z$h?mk(oAF#E6&s)5F`{lw0
z=s=;wu0qFVoFvm&b>HS9WdRTATzC|ni$6o1OD2#?{4;2hUieZnDNbRS;CcCFL}oFu
z)M1XPqLOGW?XO}2MQo{nl4HcK`LXCb-mqdCRVz=mK|f`MXv2m-d)f*EzT>jqlw-=t
ztZ=n&ues8$Q4%PXT@k0k_K7tx^HZmg77gMAXNf`GE+~3^o_Ht0II02;g~^0jp>eMh
z7A(88g$kyGZX-rG?ZKBNyu;?pc>gcs4Nc*rUuiFiX@1N6ri*<$!mG3o3%p&tfK69e
zq(^*_iikfF__iH_3_IoVmU9?}l*px0?m_RAlLQ3J)X+o14r&VZ1ing9jnB<gOi_#q
zajX9PM5U}zqt;X?PpACrv_=&opsqNRM*c{R_f_t*z$_E~aHTPs`U&dCx3NGh)Qdnm
z4V#q<a7Y@8LDG(nqHQ{TJUM|juwY?X3)KXfQlsgrlqEtkFyYNk*i~{}Nx(DGWSg{I
z1hwhGoga7NIXLkD1UXBl3B3qYvcuF-j7>})cnEniR=VSf{{vC09%Oz)`19H>aA4K-
zw;r2)Y<}mDt2g4jmG4;QkN&=W-Z^)8whv#+sUz!wn&9*q2F@n~Af7$Ygd<x@sFEjp
zcmrxx49bq;>fu|HlhtLxbfDy9qZ+7f?kWj_M$cHPdi9CC4Xh;57tOvW-9z!i_Q_4<
zRZZcuBT4Y<34UIfl0oOg;<56#tRIV=Wl!HBRdVe5JaJjBt>rPx8rQtubJoUyDAIUQ
z*UK_EsaqzA#pE9(Vk3+sHag>y|C4S*aKZsDh@o{sq@`25P7Yb$Np7wMnS@ON-{K)3
zv-*`xukyjl?H{3lLc<S28J0pajY&@S^+o7mO8AxuQ^$;8YhR8OPb7(W^Cehw`C|Mx
zcrv;53yk)EPow)1DolcVW$`WG2*WM2Tk=&M*{Y7|W1n*^E_$u5;J2%bFr5m1ry8c`
zt{^SX&0J}-u;&qcg>u)PY3E<ngl_gtADw>Xqw0pa4R1d>-AAW$!mK~jwsXnf3;D$@
z|Ezz$X8x6V*N+2RaMpZ2upt}RFu!}Daz6ayKzGq2)Na5rZ_RDr+5<5UgdLN!lll6d
zY<<tdWUhWcK0D*Ac*}Rwcju*C-Tpf-EtqCro8Rzudf}yP-To!#fuDG)m-jzi*mrKZ
z2HUej?e^u~Gld-|@7H>Q71O8g2Zg<dm+GJVgBR{xfM~|_LFEUR|A&^j;QWT$P4hz^
z2D=ttm_C)QfAS-L{k@i+g;cI(cfRFlw&mytUAdMsGj0fCZuw??bE8Xv@G>3O|MQ=P
zh57?OUuhMBPnnq1?0@X_9&d5}ajo}wyZw*bU2rjy&d?w_OU^lRT4^MC$j1gFu_5Iu
zghVpSO`vE17z;Uw3X9}?k6!s8;xXMqD})>s!lMT=&piJ#OTf0T(ArgGzrB0-@7X6m
zrTb!MBUjqP&)pL%0)C47c3^AU$n5en0Z$kOWF-!xF!fS^`2UB-PPDPj%r75qZbTd3
zKEBBwsb2RCDBlB3p#1o(Cyx;@HgJ-kRzC3QdL~p}X8fdm__Ic0c6%qr#q-$PgT`U>
z7=3OzHWC}=-=H+(opZw+(L!S&fmgv8U{#KR0inq;zKXjtImVh3E7y?`5Nl9&u{|~;
z7^~Y>)*0rQO87LDuS}_27R+^Iq@b5zXn@s_bF&!jkYVr7s9wg>k6>A|a9g6kr3`9P
zMYXPtYh?9H#+_Vxq5-?q1|_Z0z7=i18|}qur*x%=4P+N$st{iZ6NJ%CnqTo5=NYlV
z;zI7}Utz8eE!T+i+xk-nRh9$tAy+>R(+0#7|1&CykBDx<uq6`<W_E{xP2X9U{nw#z
z{~Th8(};t^Fov<wGDatCW4i(hyz;l3mB`{vngIWhva2x?FiCDYlRG|iF&a-YOHr|%
z^6n((*C;8WT&{n&4L-@u58!6T{Zs)iNK%<>sS5B(-f35>0NgJy)2=)6sR-(P<fjNR
zKAg#-R8CtjirPer`?`}|l|*&m-6d(dLlUL4^;+|-w&li9zHw`|aVyi!tAQ-4<6d>!
zynVr*tKNREISfu){)UEIXli*Ud^^m(cuwMf=Alog7hok_wIy2xz_2G<wFgO>NM_|H
zxp(LKvZ_z&IzMUe%C{fLwjaQm84Hp3$M1~8%%P(SQZamw2<ModzI{61+?{RihVY%t
zTMA7ZiS@6-o>AkLk_dNee%SVdw#?HnAOmpk)n4M>EA(IYc%1sZ4^9aOPeYvk{_e*f
z-7)ha@*$Ozg`?+0xG~zc2fsTe=hp1fPM}^Z#Q#D}0)TY==JmY43#uy%4LR)u5pj)7
zLTwT45thm%RKCy*DFVeSyEN8|$hLf(6WSF*JZAZGN7njdfcHOAXc11C(jUX1TOQn0
zJ;QaH+DY>aBefEzb(EQqpUee!mmFJJZi>g0vP)E<XyQ=wRu<quu4()FK~OpP%dgKX
zmWh~B>e@!i?^m!!D#}wb4cE!fAx^+^y1-tq!~M#(fa)hG@ws|SKl>(u=ppiC<AaIl
zIak{4Ao4<%1B$$kjprOaUn1uiIj7*P5zsw>z{!mdejlJyWE9+wwk1apA65wg!P}Ve
zY$SH~(b-4y)g9UDj(l}bwz_9=!xE0p?>+fp^{I^aRHph=p}HBL6U%tJ;NJ7L&p)~_
zw&Xpu%m;0`ks)kAN=$IjZXC6;<^!?}|Ne{`RR)5!U3)gu=soM~ZAf_XfStZKs29np
zrIu3185-DZz!wo=V1pkru)$C9gvn&vty$RY)+}sx^Uui|!C?M%*(&)=lmfnW@2gU6
zaOOL+)tibo1dzl)J{yJZbcQ%|TV{wuL7=Ox?5n;h>?;>3Pe6G21C4&%apX<S97YS(
zO93e>B=$Ah7{n0+@^`i5BL?hjOAse98i5I*W5aO82msrNeCyCSmi}Zz+G_O5sJjYV
zl7=ZFUWU4T>pZQ9`s5h?bz<=Jfd@WauT5TdT4RN}y;&_WTU#u|7sjtd$Bvai?uVmo
z67tf>UHJ>VieD+(HpZVuNLPozfrSlrWq_~=@32dU%T2o7MV%qNCPps7=qg>*KE=BZ
z8aKe$>($E$x&M9O@rd<dh+Na6im7r-^cz7yb^*=W`#CKqFf0B#-nU3cnnCT7kY2dj
z2#1QlNzuMZ&Yw^!S{>I#p$z(#Ay4rwN=w_G;tYJ+nxKc09rBuBFoIPad5P#G)!`vH
zlIi61W*d9+jfb+0hY0=^N}(lAYx~^La^9W~?aYRDa#ROMCj&~HS^Ho>xf}?62j7EX
zkg|O{1CvFIm9SvR*C*N9`S*wg#owatHwJ+UGBWD*G6Z-7oiDykSskS}`S%X>#D7F(
z{SF)>NXKkoj0s+k9?$&)s`V|U)?Wav0WSUj1g+62lt!AvKzm-isj^Fj-B80fJXS<K
zdlHcQHaY?JjEvhfK!1`sHO{F6@tcZH!+KbdA16wSjVvhUQeuV(*~u8|yiOSoPSfO{
zM(SS)9K=T`T(@0iaIm2raFCr*iW5vX$=`0OdB5#WTQ2x0!G0zg#>aI0+cM5=d>;HR
zwS0}h^jD4*zl~x<a)zlJ{vEo3On}&NQOjh7UC%)xeh4Jur`Y?e!HBiC9@$P?#)t^e
zVMMyqVMMwu!-y1Ah7l=9!-%-!T}jOgpOpN=<8d-oVOvx~7l--jT2?ffE6EZJki6=K
z5Y8hNi64@>uf^jD?HkWMY=<hToSQs2J{G^Oee0Qjajc0Y8HT293<oEnK<q9-STlrS
zofHYCNFF)H*huUW|F98Z6UGKe0ro5c&0Kx}QbeTrCT(QFe8(mFT6Fj-a#Jb;kx=X!
zmxK}kmNq;fF0>w^Ln8mS1*uT658XU41=EHVMJCjtMV~8I)R2!^Rn$?Dn;%f*D_4i0
z-aE-FNZh`(>jAN^;XIIw>{wX5uefHRC=z&*d@N;B76Y@>BqcWsOTmaKDUt@hRLcUc
z?d+kd_uzEdp~w)9E}@NN`XCSvo27HAl41)2#8wLRYoUV|hmujTjY4f#Q!z-%LKJNS
zISiyQHO)@CeTJMkIj@rQ203q$Gegd=kwc_~1Ds!w&qNcB@wxqUOUy2}uHHdDVp`a4
z0^{G<#1v0Z*injn1dil9h#`QpH4lq_hzIyDBp){mLeXL}nLcw0rY(OZcs~|uJ{CIu
zSK-{p!lAzu4rPTy9}7o677l)9wwlcM1vsC%9dHCVp9TceNz=!|a~})aJ{H<P7Iyx%
za1ica3P-cT(N+5vQ{&9zw@%NVUKQY79Wb?-T4w521^le`nS!`!Csol^0p8WUn@x2y
z=3A~=*Qx;T>IGBC^oWui-qjPPJ*K)jGZD#E0p8UKQ$4bH=GKd|FRlvkuI{eGy-4P>
ztN5x;%W7{U?yKm7VXFeX#r=Z0{v%WEOf+X|UNxUG;VCO{?$C-rcPkdb%$)k7mG199
zXT~8;a`XnozP=*hhea!z;k&<2dw$sDo~wGN;daCPxfKC7axD0YakEfUmk|O*yVdlf
zso-a4O#^q)&9>h6U%G?O_0Y|-&9!19PqD&dYMhULH~wxM>NTdu#jD>>|3P|%ysOPs
z=qI_~;9cGFtjTn64!ugh_a}5Uj+#t$nT?OE2;`BgL*DyOp`A*zo-mo*^N)Y`^t-1s
o+xtF9tOyh!M<(z60bP!dntJA|zT5CFWEAkSSoh8Fu`%}l0tj-y6951J

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bert_with_rope.cpython-312.pyc b/model_executor/models/__pycache__/bert_with_rope.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ebf80618b47a57bbe061c376e961b60ed04c3368
GIT binary patch
literal 30603
zcmd6Q33MDsdS3V3CuVRB2KRjo2?7K_f){v+rz8>*B}&>INgjik0XgIh0QC%bz<{M)
zYoEbbvH*K+f?2HzWjAj@OL@zEFYhfkhgbV@>?Uy>w1&#ewjrCgwXxSP$r~;p%d6x)
z=liRVIoKd+TTap>s;jH3s;jH3{{Q=rs`*cDw}ZnGGyPh0ZIt8wj4sr}rbO0WGIHEC
zF3g4b7#HV*JWp{$%n&r-Y>XM=#-Nd<nPR56IcR2abIcOA2CXb^iP_@zpq<67F-P1P
zbjDpl7rVB_-0_lNN!%0k#Jxdpyfj$K((SRbczLiqUJ<Nd*N#|a+!yr4tAbVR+8Oi5
ztAo|?nqW=5Hdq_43)aQ!gZ1p5E7lNi3^ua3JJu9$4mPuRNvtK_8f;~8PpmE89&BfE
zZ>%HU8SIRA1-s&bV1T8S#x}(_2RE~LS*$z0CAfvf%VRz9-e51{72(R*)_7mAFWw*Q
zj}HU~kmd_l#kR$_2e-4hKQ<WO5!?~q8QjUPt7E(3yMw!V&cGex!ZojR;o6At{6)3H
zbLV%_<8%avSk5}+tba((y)0(~ayC9B=RTIR2|1e|l5;=H*@B#{56O9e<!nRF_J`y=
z$Z~cdXXit5J{GYXxXA8s*Soyj8?0miB{%7pjO={ZB<FlrK5^<fc!-tVjI!O4Lt5`1
zW~p0{+LM=hgr)W(b!+5^miH)2?L%sRUfyFmEgV3eZ5y<3M{x^-$FCRy+kZ;!4e*lf
z@nl38ITMQv<H9gLj?nwG5J?In(eX(5(8Tyy^eoaUj*O2^gd@UJ<FP9TlgY?<GCDzd
zD-%<blM_NRl$;Po&xJ-O;*-%>Bw&!7hek%vMdb35<M~)DuGD3cEaB+IXgDG@oQ<Gd
zWIQn;gyN_?7MdIpMq)8Ugpu(JQrpJ&FHH!sa3~R-jz~@VHK3l55D8C>Qe(=frjb$n
zjfX?=saR-iTym&sW8=u-!`<k`5qhi8rD*cp#8i?pN{+FqL?n#2o4gP(OBIJEVpH+)
zr<G=&Ko^Y&Qq9STaF+T?=U(ZlC!a6M?tLaQ8H<jNBqL#^g3@OuE)`}%&z7B<8bL2l
zvo>kp!A7kXCMF}u;d_2!bmWX$@JRejBpi;8)7PpDN5)2`V#&~@Nc8NvWGFT<f^Qcv
zN~H&<k`phm#KZ}fD7lr(lOvOp5kYdrN3NWSgeHZ^SoAWg@+R;=rJ9jsQb<tR=#(H}
z2!tkMBgwG|A&#{2$Hy^{;*oF^FLs)J)WlB>G{%gQ_fTvkk%*2(Bf`@Y6EQrc<Zv`G
zIg%Vbr(9d)^G|8op)$u~5g{oj;oDR`E03|nAz>nsU;`1aDY?~T)=?-`p}zGb9)cX9
z<dw+?SWND)D$%uHM&wt)VIo|R4|Cuue8f0rnB&Iyu;F!A&}8Srwy-H;KJUsER%2oF
z2I<CW)E~C!-yO4rt*@Jd);aDnAGAHo1?*BKz2yrSY|r3(YM)QCjIv2LN}Z=3L}Z9S
zuU$kB{T6?XOR9IctA-iwO*5wv9-f=w&nrYp%Y;anzsL*Dq}l~wrz(;AGM}`oIZ>9e
zXZ2b>BUPs(-c?#S!-ce3k<(jPmaf9a3x_#Q=qPxOPQHgeM{DP}HO%3;+I6y0ed>9i
z8q1ya>qV+Rmq(4gXUcmor<!_&3z&y77ELtwB#SVS91*Te?<R8C)G1$eb|Equ=?pYY
zP9&m?l0?)w$%bN6G|{Ax%Sc$D&b!G=#>iwM;Fip|fq7vIg`(rpWGEz6ZBPkl=}2rU
zazqd&1fd#rNREp{24rIBJQodzBjfUg2UIc~(%O)aJTxIfdD$zI6Bm%1CFk-9G<qca
ziIFQ2VHmSpDv41vG>&+PnroCyiAZcr=w|ssp;4ONp-_TGXj9W`pFQ21j8FDXMklwR
zmq4(#T%OvoYv+X>k=|JJOz-3skk|3vi(m=8GTDz@j*NmX3G!v4_YCF*qr!~R^-Nw7
z22k^KgYJCkQM;@cc@p11@Yk<#t2Xylt7!AzvDIXprD<nCbOu)X4vEe~t7UZ=@2NGT
zp}Zu^8Qdl7Hm+$f<0?zL>P1)m;>C1hpV-)k`%R8H(;Zt~*23YYvsrXDFCF~A*}fXs
zpYi(A-VV{*v200q?H0RsBlo6~xx*j2I<huyQ_tMtJFbq8t7~u6U9VdjOLy!PJ9ge4
zOYeJD-1qFA>eF+kH%r#gOm0}RN5?0@XrkeSRFd~8=-L7vJSB{eQlF{^X1PoSe4ql?
zXr3!DMa@8G6@bhdXSnnErIk!GygKh^O*5uhGji!ri!U9YF}$`lM=j2)&^+%^GsdJv
zz0{=|COxY09<KtNSx~O?^iD;`j7FJeEi>jB%e0&0SUWvM8F4vd*51ZEV+L6@&@45F
zX-ETTL@q`F0BjhqfC|D+6cBbJkjxCONM<BXBqUR8V*IRdl<w|95U>h+DSnWG#}G(P
z`8y@fji6RHyGY0rD<L`ZCJxn|AX?ZYAHserZ3T<GG$Mqj>-7h)a+{u%m_zUymvwMe
zP1nX3##6qIIcLUSm-csy{_f>3ru;kR+;=Nm<{TNPC+%z(o$V{mzKo}S#nZmp-0`j2
zcWN^gjo+O5*7Q5mx3{Es4~x5p*NujjviTAW&GtaLZJ*e-@AfaJ+J;wL%^8<(rKVSO
z_0BzUx3c=$FD(4R(i5r5UR3U>Ua?gR2hf<C{4iJ*=+gK|JOaAp2oYABic#DZ3cWHl
z5|i%;^d;Fu6^<h&S!56(4AX^MArhkzz_QRyUf74!1dZMUtdE4vh_axEZaj|QuV3e~
zhEnr${7Pf*Cmcnx-CXa$J!`qS=5D$F+R(yK){HnNXm!I4*LBxYQuJ@m(rvt|!}C_%
z)w)mZxMHut>K;Y4+My1nwckZjJ{GWZ>c4PF*bp&>jrcP~Oktk!cW{3tW{H5ON36<~
zEn*uhVF<$hx;tnOJ0cD}Rupz_knYk?2X1h`ZVI{>Zg69OdkS%b2F8bl9e5F`e0(Y%
z0#K6?dgxqa1jNKON?;u5oY1`F!bbymQ?5*Bq9X~(E%UI@1q{@)pguDG8_l2fgbRqC
zti6t~2!q(~#~|R&3O?Yt939c9lWhjGKcrC}P=fqt;W2c~*rq{Y!u*9U3<|>&+?V+c
z^Wj;jPopLq<l{mb#X=74>GIRq6Ls4$E!UnyIo$b@Tp2Z{|IBH$N&i{7w@Q|(b%co~
z>R>JO1lo{?Of=+!{CbE@w}o<BLRx;5EmNPIJ0n%+?Ub?_BGS(lHcsO^;!9}nkgQc}
zMhX2M*LfQ9>Wv5ezA?|3W~^W1!lthq-ZQ_ed?mC&t2f!Gwju0@ax<21^1qIe6w(lA
zvQ@p0=W4y9rm^p*)m4zHgC9|YUY{D3Hd@d|YhD|*yva_r<{2LU)OWHWzx`chT%*ku
zYAzsB=P*N&LOasV%ISB%KW*=M<-$b>a1-aj$QVtq6BSS}VG_tS79t`clZLWf0!pzo
z;YHLX1SxnK!L+#t^kh6>mF!wEA%q(Mt)nBch~%PVt?(BM3tM`CM-!2oX33#2Q4-pn
zkgo~(Ft%LyxSL#{Qs}2j2=uWR5NI$7zevFu3Pun}Huh5CXk0SJM=lFtO0&Eozoiwe
zVafq3wGg79K;0(U)Q%D8yGag(=7E6=L>43yy{AC(gJdHG0P91C3<jtpg)dN$dqLLl
zmne<;NwOv<<riYijfRl|1AvKTE_XkS)yTI7W2ySY*TEVAW7jJ<dx;8U@78t@BK5D9
z4W`O=&ROp^_A`W<@sy`Mt)i!O>8$A4a;x+MPydRof5p>(x4J%Ey+y3va;r+L-Z^J_
zqa@SPk!~3jTL!6MBf}M4qQ7hTaJu_|i2wcr$mK?bZ_QqvT}-AM2Soh$4BSelcN`OU
z9Q(j?Y{hnL#dGZAy2d4bX<NE=x7fP-_F1v@NUH8ARa$-5S3|&MDfzA0cV<Q3HdN@$
zRMn=dy2Prk<!#^IdvmW?MU8PG_1f&h>{3{)+C<kM`vY2wGN>iK5YN;#rR%nebz3uy
zt?9-=v2id{TA8VC&-m)*zp(hlmGaJYkF6R&{S7y|s<u_E8CZH50TMhPS9DP=Xp34|
zneSTnLU)FGWs_LFiRw|SdTyn>6;)MIRd!T`yHzb2e{25Zo?j_%TX$OMac{aAsF3Wc
zkOl^-N?u9mKN7+rd_{fi?#HJEcIWi4dk*=&1ZqEP1VT6JV)%_Hsm9&#c;&#8bW+b6
z!~A;&m7kEhebzi{nYALf##z)FK>vsySybH4+J@Z7t8s(8yvR9YRrAi;kPG;|_?WS&
zxSiEz$D7&#Zj8e}{Tm!47h`6FevP9b=nNEQN#O$GLX3h53MMId1wlZWq6tbM#fW6Y
zM3?xG#J?i(7bO0o<fNG$l8KIFk<W>O8QLVz&|wrW#Ob*is^IjmB1_^m1PrHRP}MKg
zFV3b)w_LT%8Rt%A$||n~76OZ>Z@hT@#pSkdci-&3ZTi0Jd#;tbBR}e&52VV5uUhB$
zxxTp(nrN?HeRc85a`W=3l&ANqiPCAfMi-)(Uwum>DPI=^fC~S$lM5%8Hm53juG;4;
z^L)lrIVX=ns3nF^4@+F2M0gr)5>8R@3<Aj*9Zw3xM1?B4G@XG~OfrR|qe;n_ND4Wq
zE<8(_=*@-G6g-C@ADh2Gi4+j|OI$}l*xbQ&Z_V@%W-6;Q?SYKXf3I|x*>ShhpEctQ
zP~Om-wNlK+RkbV~7JXe=J6%Gu2`q0DeZ5&HUAj0=dDcy_63$<@7+(0LtcR|=TxrE8
zRAcrc?=br`z>hfU_SavVS(wRM=_-fyamA)3YwIYQsU7M7yie~ZBmJ<e0Ou3JCu}d{
zeQU%t2J{Whpbfa*8n#DldJG<TUpIZs6m|l?I~aa<Vu-t?ihMEf80mpeo_Jb;@1^)?
zni^H+VGf0|Kto-`nMXB1iZ`V%jcLp=d8P=SV_Fxg2$MOWY*Z&Azy+0ON4}zN#&DKL
zUl5En5g7o`G60kq^FWDKTT<<54)C7W^2@+X$%W@=?FNXk3=7S8=Cr%#EV?2zH7T=Q
zW6`^Q=I9AeTpDLLg$N1+Y<Vbw(3xZ*4gc7<P)--F{MuxmZr3WfY0G2kbI2}SrJxXq
z$TBK*tHQ?fnRtOHuYN;~hyN24N)Wjs9$uEm!&iM>%QY#PE3Vc-?^Km>H>|iCmzqUa
z0ke5|rF=7(O+A<mnCf~7SF<@&)m6lif-B`+$W%idsYD+7ME+#v0|ufU^j+E5xQxh#
z%tuoUF_LW9P=S<F&yYB#eS7U`U>E9`Vm0xoiGP+8o<fd*QFs$4;SCCYof1s)r(ks3
zs(duzmvARR!UA=D9%Zi6n>sxTVg6TCh%`5^aiB`+$_}xzV`(;3x&5kR&N^QTaB;(V
z-MMru<?o(zXKEX7?7O~ic}uExClrNq?)g_Tp1KuV9qY%N#?!;Xmr&JBR}onizKm4i
zD-`?+1w>mPos|A6<)+{r{H?_i5Gi$Wz8WH>Afg_>LPT)}p{r}mS}A7ZKv?Y*a}dFF
zQp}}MQa4?e5XGe8*=;6s{nB&adg+~)vK*qfBHxXDC-x~t<uO9fAH|<`sFU{p5Ax{A
z|Hc|+6gHZs`b3as;O9#OHDbnt_!<5d#LrliKcD!ShNo>k3dv(sP53o5ynwWko=ToB
zBq~Z)H8+VVYz7H$A(q&HPWg*EQzKFTmI|Fga6gG^S^|mc1`>9zR)OjO2M6+T@E2Cf
zJ3w{(gq2<YFDMhw6vsr*ijExJnSE5s1TK}MOpB;5k1`o^lu0H?^vFVbR8`!)3Mu*{
z<V*}904V~Y8M;2S>`v7Vs)R<NL?=`J{)bT_;WwyJzezzcF8ggtq~PCBgkY&WzbUC;
zetVHX$J&2IP^{_<m*#;VBaE9yfFBbSoBGC285G%&i^cL(p4N>Z5LBM#^A)TG1wq&a
zXeFyRo#B!V@_6*q0js<PYSA*uHaroJj-H%2GAubsBN4d_i&`>4y8g+~1zC}x5fRBX
z2_t?y5n`4CK|sR_l$|65(dS-UM_5EiAkq|~sTu2KKH=cG9IAR(dC`1K1w53m@Fex8
z#ye+VtjSYNnsB9&iJWo}BuH17Q^h!x(uB91K{RI~!F{LFFet%Zt4LO>SLbWgSnjO8
z0|Y&YdV0z<v_@0&<;o$Ih*8nO#7*i^9H>nll3Y&pcD_x%n;+)2up>WRj_W@OsYEG@
z4*j+!yVPvwH>t7Q8D;8nS86PWd{vZ#_wlKB|3ThIzn691@^gD1f;H@T<oDUCmdKs;
z`&{ic^^D%r#$j^1S{h}$)p+h4rWr7pyH;aSUY!G&h52>#s5x@yN2!CE`;P{ACK3b;
z!ci0#jv$cSg)TL9c|r(%B}Pf4QldYyVpX9+!q@5M4yvI_zHy(RCy+iuhB-7lWRc`J
zl_({rAJw@<CRo2iIV$NUd=aJ~GAc%U@&<}Wa4nf5@yX;Bfi&NeQ#OP$L%(FW)Q7)*
z;c=>hi98JyTS5@9%PjA0O3+%I2ff&1iCD_Q5m6g3M0Vs$N2Mw$*5Jl}L(aqkR9^%)
z3bdM44Ifk;zteIw)pDEwMWz|Z<BqK%Q(1#cM@CV4W;&rWykl!yZSGv@+I4%|_lLeW
zlxju^WL>S<daEW?Glcw}yUwZ=XX9#ZQ@XZatnE+LZks!isq11=)W^P#jLVyL)rl@>
z8qy8h#D;CRx5GSIMNr1MZsE!+Nkh2mDt+t8t50UU6|$MXFw!J?n^vnj(^Ugv)c|xg
zX<w)4>jWTjm#i6W<y4gwGT#HLq8hY1AEBzss%s|}PJFYHth>vn(_8k6TlS`!_oXWK
z<5~7qn;&oW*0HO{?s^-SD$>mZV)H=ONUjZLv)!@o;_THMWcY+K2nX<KBr{`&lAC#o
zg%yV{$*Bx>vha?YkWW2`aWVFo!6$_`5<>aVn1%`73Hc(Za(^R#gIP<?MhG@%k<|^r
z7$_%SsS_MJN~4~RGUv}E?3^*^Y9=>gSEM~CIzVPL7L~iDYBj@fNB)Xo#yVyo$^|&8
z-y%)5BEXyC|7MHMlM1Bh2=ighvk5IWpC{^3bma8UJjX~NGc5_r$R^yRpcz5HDG-W)
zDscqvJ#!Q_C*aT+k!+FiaDu!iC94o&&Jw~qREmT##S#U-((wee<`Ky}Ix%@A1W|`1
zcHws^pur=&hk%(<m=CCfjmr={N^+n|I5aWCj+w>tr5;61u!Q2%K8^kqQ0rz4)5KpQ
z189(!EALB{_0L&BXs!hpf^d2uoxx_Ya`T*H)mu4#cF7_7HZ8w!>y?`?-hM*tKAQ3#
zn=@yezO=JZbT%%T?l{{sb%AtUpIFzYO=lMA7QNjpLNk5MYN{{!nT_*!=PT#V-LsqO
z{c|TF#=ENi{uO;{<EmS(+n1V`PJPXjwR7$oRBSI#+x(C;7VAH>b+Xybl;Zbmg>2{v
zHi`c|`h~d@A))xtbV0nHAtFq2Rz6`+iffaV?rTUkS9eZQWA(!gsX*gMT%NdL(Ge!C
zqw+LnvVg$?B{g)UXSUXx#(L9((7B$Ff>aIL<(fk#4&3qQQq&mS2NiP*Gkxgb>adwP
zLpqc7YMGod1Z8Y`{S0lYQSDPaml$@@L4*?8WoT0`A_nLpIpLxUk3HBwry~K2JO;Fx
zEV;;~S)ua@$;Ph8@63^Ngl3aJ;Kl4_eov;0(a0rPjQS=XA&}343=)nbCK)Ft;Ymea
zeUgt1EU}T%NJ#dcRxyzFbQ#+)96`D#8D%NhgDC<XGJt|}VnQYy@J}I>15f6&(PV;&
z<HEn7qW_YfT|O2ahgG}41eeGMC;2)=uSOgcVSNvgg%3~<g!Pu*bjx-T|80$Pj`=4u
z{`Rzgljz^H+`pVm_wE;a_orYab>D?hzvucMXcuddm1z&*NZ8(+aaAwwh0$lz%}wvO
z16i~?L|gNmYyR94kNb^nH=@_0H^#4zryCB54Tmx{on!*KboG*Yf<3abo(!X}F1(s`
zbB%}jHO|`TSh3Y+%Q$fPp{qlS%^x^xS6d!iIrMz0<pt=D?|NF&o=(xzx$L<0WXf~k
z{cS(o^@Cla=fsNb1e^Xh4a39tnTPW9nDqG=xRv#oG{J;_N&&MAEm3Tkg3}Z{halfL
z^fgMP;3ss0m;`Awy<{9}XeqV{dCOIskgr-b2SLTDSc0J9R4hSNb=NK|T#&6siaDsP
zaz43Gqnd>L=B~S*(zj-=&ScGq=b41)%EtMs*Pt!!%5L+UPx7iRl;Wx~l;SdNq_&UZ
zPdiBAM#mayREo7FnroO_(VD1kVQ>~#3`S;{jy_k{Fz7m51-gzBsWe~j^jK_S^ujRn
z#?3h=z$;=RBE$Qa@E*)Vp+Lhy^p#Qn-v>;4n1&;#*#N9l=o`vw2U2a?g%%;IMHVCG
zoFl7E6<z?Dk02yFW=z8IJi8IEN5xUU4jkLCEjp4h^6IFda<V*HM5u-x<Fop?!={Uz
zursHV`1?N}y<=p(V}_F0qH>Ocw(Q7rpxUVKANhSB{=6Jl(&I84zHyV%b$KVaIVl1F
z-iMe4JN|*{*Lnc3)iylsAeSX&k&^5L^<dwffLYi`=Di80|3ox4C7I7g&c>#uO+E40
zB={-G@_CZ+i*y;J;AIN7A_$b{DF<GlR91$p=(6(yqn-3z$&SfNi;SSBoTJ-UDba`r
zF=G)^@-hLR`6mlQbl1vU8e-#;1=&KeaaDFFtx1jy2tT4r);Ns}JXm(GxsSAHLi`KF
zDEA}y>mnh3wF0g?4Kk<9G<Bq#c8g8B75^GI?10TNhaG0GRK0BORd6oPYE@&Vt|eX9
zBi8jGPukZZLP*zATDsCLyTz8>ncC)bZMRt4O?C%(+P`@m90p$ao+i=Lw9>X+^lV?P
z?PX8y7n}Ms9o^}UePYMHOk;bxajV$46;3~y<}I0qw#6?jonG9(?zYyI&6|G920^`U
z^WVDMSE-!8hI|l~j;7lN#kRrQN7F;6#GzAns-A&R?ppQvuf-N(OM~gw?PBZp+k@#n
zPm6n=zT-OuQ>{~GJPG<Tgmw!2goyhxvP|P*V^b|8HDz*bY^I$t5-3#FY>(h=Pq14L
ztQ%%bMKu{zqlrl#$^Qip68?aK6$F?~OsLb|P<R!ol9dK3U|fPoKhqiIS$3=MA9e~n
z`!yPMCr||NOmU5|FYitHb}`R*=K1~dtrx}i11bMOSX1DT)3wmGxHnZ6fN-Z;T5cT^
z+xDdVL&%V`@&YXnA5{#!_X8wqWzK&_w)VbGX<wmWfC7e`7)sh0ApMXsQt&*z$8R7)
z0Li9!&s0?BIneZ*pW*L%o3dt#0Mn?BGgfvDM;gU*#?G!CTuE8h$)d6s4U6X7XxOFf
zN5i7$cr)z6mEWp+r!LDOdOPy{*!N%;MpPb<)W`xPL<pLWwO>bYKN1Q%H4IdMe#UIf
zUB<%PWvu#cF=4pN>#6BCa<74%$Wh=%<C4nrM~t#O6{a7OKosBhBDy!KK@Pl*7k_M?
zy@bzF1b-a&8F+M8)ad~s=(lvC5R53gE9+*hdC&(45?U;36^>b3QbnS=x~OEioDcdj
zUF(`U?+<ft*+&g$xlzN*9jMiwtjd*RVyt1t7B-MbdYKn&SUqT0yzY(UpAL9pBG2j>
z``5Uy8*|>(3x+qkOsI3#u097$UK7Nx;1193ULuiHDkJt5xfl_ygvLW`F<Bz#xjb#{
zVM#r3_bXyvjBhaxrZKO8JI7S9Sd}dsR#r0D&yA@c{)>1=#*HN_bm!odihkU2lC51i
z5lti|GZai`BeJeuksOt#(L|6e@&&YAjFx>!H5T#F!q!Sw<qah}D~e@Zmt|H<z>?8B
z7UV0+3;bD>F|4uMuM)xd0m>4)Ey?pD%9PfnO9NtQAYD2jmJZBWV5Co1^@>%!bMUIw
zqN`=qiybR1gSYuq+3q<j@g(@vuKT!_&ZUd#&i!KN{yWVF)+(Lu5-{VIgZ%vC>*ZW&
z3%D&YOZ*4d^ussly7L47W6RaIUJwIA@AG2dAjD*um%gz4#pNegYIpvX$5vVf5fzo(
zqx#m2Zc?hh>HPW647f~?$nb-{&5uFdmtzWtkXXR`XnwLexf>D2`*1Ek4s$P~KWB{w
z8k>9`A2ht-Ho@&o<xITrM<}Yg7imwG%<^|7K1-h?j|J805ERw7=-c!y+E9i$eS!_W
z_|+HZj{LZ;c`2~`a;k36)stBx=WD*3V=l~aAGptbh-m8HnU~z5!W8@_HRn7cGB1Jq
zknDr$tS0xN#;h4<Fc7#3St({yeJkyB<seTX%9$Osn(H;!O2qTzXu8U|R^m$L5%h4$
zc<98lqljpS=0FrgyYd+Y_9}p*K-duFA!*?r9YIsr5H^L)ZyO*co8f3+0W+|US(LR?
zB|#e;3G8~(8XO69(-i^Psd#f%ZdkrVzkJveafRJ%b(eR89P-`L2j1PNb*^w3R(`v~
z<&lzzCt}gBLpCLlIRS6!jaVp#_o@KXD`mc;Wzg>VBv<|zowhLg*TX#3pz$l45TaQ1
zJ`oy^T!Nz{t>8Zj<0T0sQt3!I98wp?vne1jlE$Q!KSz#H<@2x^XhQ;<iIYez;*LOx
zMeYye*r1?M#xe37N%gs*o^ls;Xo`g#=K~_uxC+{&9O_U)8EPpz^7tX2=lq~sKA+F(
zKS5XNYXB!CZ!VLngwE%AGe)5{PgK`^ZeF`f)OKHiEeZAHUBjiDahlWc4U5RzZh(yG
zFra`Z#|!2A^dW@|1wW>MF{sTHJ4pc}9}>lgoq}J<l?%WH;CD1Qut|i1-3teY%*Tj6
z6V1%$U<I2PXsqk^Fl-WEMfUqxmuk;#W{X!EGQQ@tuSfLtq<uR@AFT^<uGaM4GJV(i
z9j9W_U9H*#zt`1L|6;|B+UvDTW6R-G=|HBY;l}3co6|J|SnnZ=m&`HEZk8R>?zy=B
zL;P3IFIAA)H09eu+~`N9ocMJRt-IeQLW7<Se4_Omi(l%8%rP74;F|^+D^S%5nh*+m
zkvwdTFqZZ!tG%ZS_<m2(-4CeqNMQnjM_nP1@&s0F0Y-y|84Hyv3LFTa?7%iE3E>2a
zu{F!1+GIkC34iRZo<{_4W%?3e-K=H29D^SZD?Y$h%~+<b3YfIegGv`2(C%5(JfKaq
z@H)3-8gVw{eu_fCbqqqW9%qdBe<C&4R3-%9w``i}oTm$X<yB_<A$1U81TbSS=c-<D
zw!sp2_2k{UrW;RPe=1YcdTSW$xW0RhGt`&B+GgRr6{IX)d>k5k&-NADcGi=URW=VM
z3ijHtqGHxrXV3u~p%C2;(cGSy`yq9D(V-_XU|$YSFoPu;&l+Y8<3Q@OhCE}K?i!nS
zm3q}-IBU#F5$ZjxsNsQ?exKu*iA`Rwqfwb$!xCnodo$X=zfm<~K#8YN0`Cvgnr#-c
z0PgX)=Yo`>De-cpabHvOLH050nbyME8hrsdW{j-9ZKN6|CO7Mtap*DoStk&lbH)J~
z#jeUkJjZk6&j95;`g6XNdrqF@;|N=ln(<Dpeb%`_y;ilKg<PA=YALh`n?}hkRi^`_
zDAW1cTra7yoGTvBz3~Tl4-+PiZCLn^$e?(}OLpc1PfHJ(h@?8qFCvR<jsHu;uqKn1
zZ3|0O&@gT6xztBNe*mTdNI`%AObm|8d-|Ahid~Vp0cjS6*AYlw^6CI4P(6kcSQdnR
zpNNH!{hk@{gj<w-i2}wqYUrjBPy)b~&FL&9_!7yH(F<x_i4Z-OcIa`ky5VC<YmQXc
z5;;vW(bJj5Us7!REa5$>&n6rCqhZ-CU<qjn7Xsov>cMck<RX6+)rvV?phN1(zx5NM
z7*8PpNiFlG%eus}u5?+CSk|+ADOI*(&U)ABd27$rJ@Q5$EA4}#a}ZRc6o&nttku*}
zBDz}OaNp6j;%fQWSF^Y+UAtAR-I{`jk#Atmx!ThHjrKYBAGU51U5#^x=eK0atJ39x
z56T0}=We%&J^M0V{~vCDQuOxCI~Jc@_Gii)u<WsXQ>LPhjD4g>d=f59RYUWpyX95a
z_AcyQs=9;1;oF<Vo+FgY-wJD(KQM33G_|Lj2E?X;dH0XK^^1|Emv0@v<K6pXZ)LWU
z8$7{hYdEYHdr%FlO`Xf;<yY?<crMlS{Ja}YW!W3<lyCi$isq&E<@(#E4=eU6@jDee
zVANE0M+txEYRwLCZJV>(IB&hWSOTl|U|=jSUMNwAFD9%}z+@h#HTxC19H8Jh1<z9O
zKPYITV3-0Tz3|zcngkg6D@ynq3Qkk-9D;n?<4-7&g74AirOXhA?qNTOj@w=DKX$v}
zj{o?Isgf2-RA*W`f95QM(GOqM*Oaxgs11Tp*3P01uCD15IYSq3-n3l#?Yf&#lOcM$
z{rlbD11CWgYb=Hi@R==rnV$Z8?h^B$COaXHiYuzwt`t_fg0;8*)?u+>XVy-a4rR?6
zTkV>4Qj)7+-wLV@^~?KKta<3FsSEnL<IB(88n|s{3kU}ei(8I}ZAY^l?)+%rM~VNi
z^HYj4X2v>V6n&r_DzRT1L{e_AD^(^7V^@nXR=S0)*z3xUe~z&8ZRdL~mDmMMSKOc{
zCCpq-Vh405k=SPyx&2OhPN-W1edZ=>gtqWpAbs#>F6evJ#SJ~5IrFYQbJK-J=;TXn
zbr#bhGnq#CCh7?|B@3Pj6UVfjJ>>;j-DxJ@hQ7~iRMFUIU(d7}>(gTWpOMBHcl+hs
z{nIYR6M;-PD4||WyJYVISr3K9rv-vkV(JW*OAg;OZ#=-yp_%eW*iSL&zU06Q1d-T|
zBxP9M^<nvOSEjNd<L`iLLB`*isp^2m|85;pYBF_g_p04>j&-A_+9H}N<r=B7g3n6$
zgpRepK%ggV%OCb_6AX$dO9w=5K5Ts(OBf+=+as1S6BD)_ua{s!qcdWQAZ>%~N0^5j
z6GjcP75Z<HpEfRWKWcug04Pz#Ue-DfHe&NI(bo$u>6M(vl9A!aB{mA>(Lo9x!Gw2I
zh97JT^5Q|$v<V_`kMO6+@L3rKjcf|k#^-0=T-t=Zq_70lU|$+04r{WHCKD4BCO{3%
z6SoFPCCkK0?{eH#?4tB0@Lrf{q{95$FnrS<6Tktw?ooO;5XfsM(2xnzph?e|t|v3+
zBxdXz^5~`15yZW*+eChTCW7wTOP>~KI2WuzA{5WmX|j#yO}ZpqsN_yuh)#wGii8Lh
zSn_nG)RU4$-cN>o2w8@tUSvExUx=*8`?Q)2*+-Ly=ssjfbw95a+Y?JK-u8*MC*B|Y
z!1e^FEL3qXExeSj?7CCgHFqR~-M5as_4w7t)2<e<>^rW`%)pNPln-57@0mHDEJ+E3
zUJ9^3Nw}@}Tl+l(PXcXX6IxnsL`eD>1xeGYe0*OZ=0oUnZ497*auAl!?INe4Z~c}0
z2B2daT{vdUV}{@6uhFR4D6b}P%~;gDZ=56@y>@k)zUV(QUg87R;b||?IV>2{C@pi~
zlvVGS@I=9a<_p*{7a$T2ndhd)F9@F^U6t6Ve<Xff_}_H4$ik9jn3|MKRO5Xjn^eXY
z>eCut?TOP3`QP^b`@88Y$58)Y(09(b8s_*vtZTh`0w}5@1E0ymSFb=H%~nwH%dadB
zrE2>YZ1aZs!(<C26Kmg691Ci1omuhi{J^_2mpYO14c<1b_=Zy6A#6&qcyvCN^0wS_
zbM<XMXZq+bAFMrC&lh}tOkw%+KaGg|`PrwhS3W(hi8bhca!vGusN|>Np?#1>?SmMG
zB?sFokL`pBeVqfi87q{?V^-BuQ;)Om7O<~y(GpmxI(imd4{M~y$0MVWL;_n7D%O<g
z_WWMnFdKHC<q})e&d%#+c^`tAJ0AG0`hk!aE%V(eSHnFk>n-Y*FSm8@4^WqkAq(jV
zH&Q65oQO%r1o4WFoI~g=pQPupgY9kU#>~*VS5>%}gf<$wO%(JaFGGnpl@)ue6Zaui
z-H}jM@)MAp_UCt0zKHMy^$kH&8iphzY!%D4-l|HK?SdJZt^;COV7Zg|46k}Bu3n-Y
zSB|AT-7B_k;Q-17N;d`wIRwnWFLi(b>XHwG*{iUZdI;(*qjD6qQ;V0W#VWk0@R9pq
zOJAm`_nzHMNWxleAqZT?J;opAf5utOJC~-jbh<t837xWKHgoH8*RAch%Vm4;%C0BG
zfhWaHC)POJ$yS)mjko-_+ut|7|J)B>`oT*p2TqB*pAq|>UBi0f#;nU|-m(Ei#T^x*
zB6^QQz`BVwy#UatnyR%9yo)|geVa^=cx5_(OD))psN&i2iA!U#kqeQ$FDf%Bf&@Z2
z0tnB4iV_0$^Tui!3W&`Q3toyAfwnG6qu^=kR?K(}v}s*xHBpyZ^1vD8FL)R7s-uH}
zgpI+OjJn^pVrwVVKu6F7T&}z1QdQ`{ssUp<pqj3^H)lT>GtiC`YN?>}QOjXDrYmBX
z?G6lpxdFi341kpYfR#wzC*WoK%)}Xp0wXdC!yfE10Asz)P``k^*x@!o!3tgroCKS&
zbJLD^^m0V#A?Q9`BF9y<CSc_xCpam<{_LFKrhvZF{p?v&&GmysY^a*U_bWa?mWq>b
zt>?Ku4T#5FWz<obSME_^8SQrfv%Bdn^QbWjfbp_T;UBc!CX{WzX?Vk7;%50-TmxQM
z!iHIE*f@(Fhhd%vxswl=PBaGqH7&Qjr#fy9bMySmzevCliZb{oCipk((BGQqJL>sN
zLfxj`)qLi1wL=940Gg~+Q=s9+hoHmB)o`<}uzAJ>;ByLfxMr-=NT=t_uu*fqit-g6
z@LE^OpQnsPhdM@Q-K;*_=T=|I_|u<rjdBY=zc(&n?X#$F{NTRJnU(a`qt3WzN>m7W
zzOkr_aXI5uzrl=wmQ~R+nX0z={=DiJ(QS`It%pie`_H%DUjtD#wKYTZbQ&q_J@?9S
z)`v=*eet~*!EcO08Oon;zrQ}UMe2NFjx1oO>ben{Ph$qSqd4J?V#Fp^P^mKK6BfTz
z5GT)2dk+~&X}JKRTcIQrMnVU3(Z|^G31+*PF6~itqk^&vdqOs}mNQMN<X~k-Vw2}a
z;PFBA(26A{M@epF!KLh(A{@ngVV7C*Ix$^{TuI2@_Wznvjj_nMWJpd(<}sj=B-4w*
zrE?^S-RA|8LL}qp<P<~Yk~x};#1pXk?L|7HjzXMbRDBLKO8kVxk4XF(iI3(UB(JOD
zACvfl2_h>@2FnGqI<@LNIwl0Y?AZubTHuWo`^a=xG3oEwAm;^Qp3MkgnsISZEpA@e
zEUR0w_uHPEd(xW^i1=T20HCV0GF{p%mNutLd&Sb;bm^d2Iyh(flWlwMlns67*gGed
z4lj4iZ(H;&4Ba|5XBEqa?z*bxc<h;@1kkv-J#+lW75>F4+H3i14e5%mxx-9q_(xaB
zbH#Mso%V0Wwy@Bf7F{;9EbaQ{=yLNn#+F`KoS1jsEpJ@fBbN72KIihtJ08)$^;W6q
zA4vNLMgQQfiz)xUv>!Uy!zusK`Gb#?ZQ<bE&#|`ogLvV}I_Qs^uRkSLbf+tN#fsir
zmQ=-#RbQ<l3(<yQY2Oynw`Dm(V$mhhx9^^juiOuNSZNjH<(j4&HP>stR(GTEdgF3s
zs=9aHa`*V~ymiqj_tZ-F{`bpLcv0_>yvMCnbZ07R<wxhoKd9)=_HmVg>>#&o&v*BJ
zXYW7Xf5&s^JNw@mTH3bko3EI^_!}j+_J80xv|>B-^R>r$u6*y$*N*d?_b|^i`adXl
zA9q`RxToZJx#a=U#bFHCN0Tm+8uMqe0|>?avIC?9LKm9YAavkTM^vc4Z_ww<3;&o#
zIuSrsUdXd1=*tJ5jpc*ms7ES^j*msKXbbD6$ghKG!euGpE4VEy%UR1GA|Py{x1)e)
zWa77}iK>7A{bNla)38NRK{DmzJ&%oGtwWX+{G6rcwdd02YSCPsGS_Ae-R8sm^5xs+
z+oSJq|KZRNhF11HCGLD$>^=1}j&7|PIZK_KEBg{}*ian69aS7a^d5&m76+)I1rQnl
zj2&wYxRVc|!+g+4x)ta#X**_Y)28S#Ezo1Kt(XCi%@1?00X()rFX@CHRM(kkBj+JF
z<IqNKE^;!$o+%rZb}=_1_Xc&BMBHIHhi8Kv^4$#_pvD~7^~4-3VW8XtP+lfA%F@r#
z3E|nuD^oOh)F0cxFO1;VOis(HQXh>8O~qHB*QEY7;&1I2F<gp#ePH@8_Vv*N&3gJw
z0>OHKdDfIvzc2v;{PYHPQ=;eN*uV$Ks0U=BBhvw}SddC9&ovE#TrY)sHs(BwFvgV%
zTf(NCpKF1KkAA&1xo4;`0!Xj1{i<`zU2=O6pKnt0<<0<9`pZc*jbCmf4&)?jXwjj!
zeTsgaVe5M~wZ}ilTJ5=7!;ZH#;Ex{Ez7urK&f(LL%C(Wm%*{dzM(0s@9x?ygAYM%P
z9SUAXK+9O^hY*;O85?p?R>`KQ(XQa9D6EQ88@t1HZ=!vPp(evU<wq6N+`?g+1xFDS
zEX~RJOR-0jYDF@_e!%wEke8pb^{BCtGm#ip$jTcJ(=QANq$ZG?<d)s1R0m{Y3_=^V
zzYNP5V34QZ+0fe2LU+lIuPRz|{n1UgSUaAi#xgAyiM=vZ%U7CrJ!Ix<iu7*~8z4~~
zoJv)s(+^`jz>E0fau}pqmyf<5#v;}V+S9^@?J;UMvmeT65M2%0FJ>q^gH^YstNX<2
zzI64FSUt1~FlAYGrOLNw{PoyZx0Y(~WU;SqTiU-B$SUpMC;Iovi!nT1E4Ho`PuIu3
zwvTDS&mOU5Po|=IIsEO3n-h3^YZ)G0zXf{%-#C8#ICJo6Y`yX7^;a{s?dw=vU$*Yx
zYBuHF#&)Zo?|D|9egTDR%I=lB$RD{x_D7a^P8J<np!g;F!)PG&cm94BGx_Uh3=i@8
zG0qrO{iH!4_YbC(%vbHgtDODnlJLK9w`hYyrk?D6*hkHWAU~oHOJfP&wX|hvTdK4R
zzTmVFi!kppHagr^u--*>&pLzx`Y#Xr)5cmA>Yk$GerRP70PYl%{(ndAd@nd==%4O=
z*b5dp!~JJ^N75|F&TyBnURD-6+f!_xYxY59mpDOlD=S#(L5dvqZE0$4tf7X|9=k2W
z?M>kw;I43KGs%6HKvCfY1@sJ%A$m>KRq`OEvm9CjbeA}FKJ3+%1y3vV${nZ_GE@n9
zuHmIKzDD|wm2}P9vC)Iqzs8xp4y@x*HgFOC9kt6_gfJy<G@&{D5~hsh`C@FSiKc;A
z?3JPGe{qn$H3c`Q#ot9S0L{BqwJWBIy9W>bjB7PJNZX7PX`6A%KEWF|@M&0sg1A2G
z;LQU$-;05q@5O-TdvVX{f{(lW10YLnVtGf_j0DIks`mw5<#}JwWs&y<CArj}2yx>|
zrV8{XfyX7!=mdU)4nGGsF`nodIWsEba6;&82_|+<pgm0Rtso~S*sq>Q-Q;bRTXHJ<
z5hPUS-OvPnB`Wuu9P(cCwXBHzdwC3~VV`_(tr7e%O+p}oFRx_kQ8Wn9Aj*C;l9v?>
zLzf^#&tOl4u)J>+VJdl_d{Q7v?JO7j<k$#L{&^*}S$R7=kc)^w>Hw+j0R`k;9B4hc
zm-3Svpw#?;{Md0Hzl$dj+h?2cvfcM(ZtA15oewC>ew#$mx5yh;Z+<}T+z$Q`_S<*z
z#{L5jC?Ws)6)ASu4-IP0Eb?z@ZP6<!_o7U=dz1}jrjpTELLlfTHEmcX(IaPLte}p1
zgYbe>tye(K*+BP8*nRc4^%C+HUT&6{P%ysGL>b-kQkEVWdI-b`gjNdL=&p$r^|Eib
zgZT=NVMmUH&`BA(D1#@L8agwQfbTb@T28VhQt~hIyg-?Ml>!nY***_!Eu-v8{u4@L
z&MwR*)kWlh37?EGoTIx3DA<ocvJIgh@w-9$gmcJ;|6JlC!mN?!`A;ky-~MNu>m#n>
zBQEe0?&L?@-aqDgKQ)+n0|*^&_|(Pmr}#hSp8eEd;SHZ~6qIoMG5#a&z(?HkA8}88
zYB2GJdmMsK92~#nBX09Y+?GG*4vXC3kGQ%&=7v7v`qnL-e9huxHy*$K_&SH^`f2_s
z&->IAimyLoXyoe``)};JzH6OBbp0@oaQ+N!$*v}h^ZZGEPI&9e)hp{9yI4PC+>K&}
z8}{q=bq>+>X}%Q+EjI$!1M3{3*%SB;)~X-#mGhAlU$<^}hDWXa*LE%JT8yu8bOlM;
zz=Eo*iLTer8_Iag{7dT`PV1Yx_$~9@>l{w&&+~TPvbblR!)e`rfXAJgb&k&W@SC9q
fpYn(y-m!G%ThVu-D}6`TI9#zO+%q7?zRUjs$`(r+

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/blip.cpython-312.pyc b/model_executor/models/__pycache__/blip.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fe177875855e34a6d014c243f93f3af72a7547ae
GIT binary patch
literal 15226
zcmc&*TW}lKdEUjHzyiGAz}t$XM8Og%Q5WlCNwzG>u_B4KYsnW{HVko>6ewJ%T~HQT
zFw$h4gle3KY9}St#1);iHC4GWo#~9_ms)-3#7$lRQ!e2hrdG$!gWuqguH8Pg{r<Dq
z1&Ba$GMP+|#Ixs|{m*63<@+z^$1lBJH-`|heK&lxhvPn`j1e5U#PUD!95>BLTt6rA
zk|n}NE&Udr($<Kz-^!l0sJ-9L%4`uw)Y<Qhy82x#Z;zBk-TiKsc0@c;p<jr4`@Jmh
zjQFDE{pBp}ic~}^`zxbW{Z-NG{%TfM7O9EW_SdqsJ5m>|@2^MNBMFg)Xk&jP(q7pw
z`S4dR`v)CT#mlz-rlPV+lr>wpuW?e<%bZj#+lO}>ADDmMu<GglRz_I^%G$4>Y-5yl
zpsfE2N|8}EfU@x`DAzDbKPa2Ng0h`aHiNRIG^N~l!<PG|jxlSXb^O$^a4Z}RMZ|D)
zBqB%USR#}N$75oAP<%KN9(gLPB6ln<$)JcO<d`H&Vj?b{lEru|GA53yvgCd#oH!kh
zi6QYEqZT8f*wAQbNEV}1ujf<hFu-fB!wFdlor=hP0gF~it#8qrKM;=%hKIC@e201o
z>Qo&YjU>X4${}fg0=?7FP}w1c&xIvf>l~63K@_WTCCK^;j)as@BqB$GFU6IJ6ja0G
zGFovHU1%T?9E=65TFrrYWHcIkJV$yo9Fs$eR{6w{r;3aIB>vLsA{x;XqaloAoK2HC
z&RR(x3}L9jm*nu!=|nIR4@t7}DNYD|x%bJ@k&(EPP+48gjR_x;+2AzyNGLIIT2DI^
zIWell2J{8uI13W=N4s!YL^RDMxg<Z16DaX#)^nU{`8xMao|S>_NiJaNQ>emq?z%;(
zL_(=Tq*9S6{`VuB648-OBjJ(mL`cDmbe|vHv1{j<9rC6~_|&G6vBc?kY}2_&B)UnT
zOZmJ!Fq()fdRE<Z3M<w#GN$=yHYtPIrm+txVJR4qV?&A4N&~v`Q=cNDi(JN2JL67!
z+Gj)Wd%9A#u9T;Xiu`F$N6OZ*3>t3L*V5i(U%L*8X)ZzY#{zxh8~hFW5`+m$692~S
z#y8iYEWoqQ1J?Y9Yo3Cksno70ib_46T8;S)vC*jh9kQx4<5e5})K)|nxuvR&nd+9g
z`&O)$YRAPRSqCT7&oreyohe(V(g+fB>_~IDbHy#6LgqUdz0CFVKu3$j%U0Po?&P>Z
z%Op1ltbAGMw@X&pG3=v?tAk`KT|Q`&?7%G7BzK<gFT+|pw3_^ZITSr5OHw#Cq-u@<
zcAN%sbH!Rm-}=0cqx1(nX4dTVk|oJ~4>NfqSHfealU&fOo#clN#5e13*oQ&mdqF?U
zxJAKhBtd~z^#BUNNavrRFk4QP8|A|lMk@bIR2%8x8Y7i|g41Bc!>)XZkuvc6Ms6RW
zN00HYphw!YMM1)>lxh*BCBLLp=^Iu9YtgUQ=pfNzq|jE$c`MnL&Di^B%bY8;Ks&W4
zNc=cTKxfWm!MB=a`AT0kyXZyCQyVFi{%$i)IK;vj7qIs!H26>HECy_vCmah7oDRie
zazxdH_-G=Z^PG_t6z70ZO#owLg`M*%&907)$cp9)2En@$!JtBCR`Z+=OOhPZYm~`!
zAc9gjS^x)@SWGJ;K#$7cM4BDgHgH<AE1{Sa)5-@TAyo~sdUTL92f+Q@7D+4DQO<n9
zP(t$*;D+X9nYbDz{-kPEBe`V0HLx9<Dn|zOp_T=MdT+rTDqUo#q;%ms##>6A>K@};
zf%=^KF`_SlPcH8zXWG?p+vUGg*F0%^#gl1lTWs8rZrp&3FXI;%{TtGL%9O9leA2e&
zTJmc0jYDr9xqjp(f3x?d^lt2(*uutR3vGRqw%e{|q8Ph6mT73rG`3u8z1o^-Xuei{
zwLDW@KmFj92Up7MqMH$}__*fHnfj*b3s)}8Z+rW}w;lvqHnVpP0L<3*#g^`LOZPmV
zZt0~8{!iLFU*GuJ#wDTh@{vnNX84(Hi%s3>rtZ1Ko8P$pjRj%fvenXo`X9L37{+SC
zNccQ9!nsgn6c9~FP#W5P!NgHO4Je9(#1mYDZE(XTu;ponO(-iUGodM8Hep45+PXyn
zeU=p!A)B<mVKIQmcuv@owqX;3@^vJuK{0FsMZsGe-si@R7PwMuW7s@q`Fcr<1g2qt
z;Dr6&2R&&|+J;c$4Tss61AWn%D+;B**7$-6XVQ^$N>B{GWs$g~W0<DCC`dMgnrMh}
z&`M+kToaC@1MJPIi!zX&>{4QEME;Z}Ku3@NMYzsuR-EpD7ie%g1UT4?*P25Yzm%Pn
zu_WS}b1)Jj!BHzq;Fzm8n6d(e29)yo5uAHvBW0`up@g!PQZ^<rx|D6mDECu|`&3>)
z6Li5T$OeRs$=)zv0DKkThpM?vxKIHgtKdLY2{$2$u%L@0&cV3yQb>`;n@b-4+}npy
zPyIJU5Ugs~EY^0VYrE$7bnShUZk)iy`VHy&4U6?#()C*w>vyK>cTNgsaYksk{Me<(
zW;aegwjgZ65o>Ty3OJt)oqDyo{R{Oydaaw4H<8&lDco7z=KSuPXK%GH)E}A@mTLXe
z&t7?UR+x*V+8(%7dAs(&r2CG)b<y9O_V+IOx265t=1(s8AD%4F)V9rT`q`S)_QUhz
zZ(n%p!mYClI}RiFi{8|hqv`fz>DptcTHcs)HL~L#a1*Y_0MWsq<_?lrKN_L55DcCj
z4Mp@f3W*j99b1N(`YJk(GfhA_f?~~^gV+H%5(x&c^U8LVsw4+Iq+=~HPK6=@U9}g{
zmoIZ!OM~5=YTK0Bav<Gy;ByYS>^7g>KYQr)qpuy!a!Agfc>CmAC%>R18!&5Ql^|$f
z!SeUf=xRZ*-&)3%agq<hpG~%tNJ!$IWML`0?39omgop<r(fP8s-zB-^vXUZCne36=
zvIoko2STAB38m=<Es_`Sy-aBI;Z&7tUfN-%GBv)JDOla7p<zL@V`qiwe}hUqDt4K4
z;$c<XABl+1#z)0IS(duQ5ju2zIzJPzGBGf3U5|5&DDq(Vybjfc&`J|S@VUGNagh`X
zSo<SMp(c<6%t}ZsC@mq;k(>+(isWV%N`vlQ>SA-2?(57B?74Lb6RPhfxBif0@@I*0
z;f?iGy8)i0`;}q_l5HGcit!s;k!17|k~1hwW|S~ty7bsf_k_|CqeO3{1QrG8Y*vil
z{;CBmCbudWfvE!}NQ`6Qt|KV5etN4;wCXC5w@o=W(P6ZD!)!fBYB385I{hr%<x9BX
zPJ<%<G#DgCZ_a9BgYh0MtvAy7CrZsPT~%t1C0}Z=Y_xB(Ur5hoed7->zCv=X7#&p;
zWQQSJh#H1jMLabok|0WFSryk0#S`L-Ci#oI#qlZ;98Y}Fq@glPpl3+$_|CiIww|+R
z&RvJ7dMX@JmE$N^P9Pfh^o%I+VR?X%0hR^xMW9|;M?^G<3<(taa3z39tEO&DJkbZG
zm6?5OE*d6%h~|EZM7u+Z5{FE#4um4IR++CTDe)0#2AVUMP-w?$E(|nCqtvWODYOS+
zN-+ni&_>ami4mp^D0Gaqdb95!kc%uu2_~;Av=ucQdW>DS>x`c^V*V?2)<GPHICi0^
zUbhNMO&R?ukgAV^*FZ*J5x6p+A*E+ZN$DiAZ%sFDWg<JIY~NMiT<4oT*L%_pJ5lD%
zc*-yDy|i~`+qHdH_oY37x#MrXaQ%h%Jr68ZHD@h+<=V{J!0Ru(_Cl(2TbARu*JNrM
zru(k+rK&q-w`A>>%C2Rrt=gC6Y+hg1&DHs*pTF|_?7?*HdNdBXp=GgtQ@VZ=GQua-
zof)Cxa^IysdK|lS%*a*NPq$rZ%QUXV2TVOPbA0N-6|b`fLi#JNl?twDqd}LeY|uTI
zst!O?Xd=RLC<+aG7V7s>M@wDZbJCl!>oMpZk#`~sT}MbY==`K+9a>rx)~AK_n1b%>
z-8XCA^}pkXxKfKYzE`Fz1P<Ner#V&mEZLnj>nU}7ppenfiZVt+92iD3emG|UK-LUN
zD*&maK7i7~)^arra2clER20YnZh%55>DYiCaA2#h0xP@FM8K}u&V}Wdl;@C9PExcV
zk>&;`O@xO=<D+W8rf<p9^fF8l={G8kk9MOjK01O-1|DYyA(LnK=%p8lo`l<r+#R8c
zDP7i?r)Q<tW3R>LrMIJRMHhsFA9?F8Jv()FX3cklA9?F9^?&zd)@dtq>l5xZG;7#~
zWp$PIMW=$z^iPo>^JK}H<_(5*5^QzC0zJx7N{^yhgwccqeT0)}cfvMdhd#g!Q$Ix^
zX@kb%FrX4z2UluklFn6qyU@2wvJG0W687<q!?BUkgvcguxA-uL^Wu5&csMHKaX>dr
zC~MHKvYVm@5cOd}PT{H92TqU1&M1TQVgON~Okb!ty>t^iscgD59<uA%QCS%?3fyO8
zGc7Q+)_7wjpz{zC1(CwgRAS(?&MfGH>k$-<*RDpMoPzKjyi!AmE^=9cgW~SG>Y8m?
zXxMbgJL#U<pXq&Iv3GyEcmJ(5?^UIG_b>DwO}ly~g{k4$jTv9n<?yBOj4(Sqzj49$
z;G~rl|F)}bbJYut-Isimo~bA9l>286rpm>XOJp14x}{HpNU0n}kIFHM`VeW(U{Hz=
zz$`<HrVHt$)M{2(aq{B2@)#?_rGgS8I{GZ-af+TmR4A!GNre>ApPE1fN&Q3H*MMeQ
zcVy}sJ}X;qci*WHQytsV72C3Q<e=Hq2j;e=>o#Sblyz~HHCZA<9k=gu52cRtcDsA#
z#I=)GPi8qJ=MS*Q&4FdgWqls|nmhH))5$BzFYHL`!afawR@)4QgtbiLDirpapkF3g
zWGe~#u*m^7Ane;EyTs>2d<R5)hvbx<rEH!O)PYjvumigw(w8xj-i>YS)||8%jvakm
zm&OYiS2f183K)qkvg29<K>YnA@Pr9_fKzIxC>X~KGK+aw6Q(f(b$mq?kVUB}r{&*5
zD%NE>3uHR$ja+MJ*O+TAQEO0_ZlQE<X1lhcc1faOfmtYzLkt=m=vAIZ5le0f2*qL!
zjYM<jU=bHfnio;{9J>?3C6hvST_y`@m2_*SL}e)q?9^?OR%)F|EJ$rphCr**N75ND
zlrGqP7?#zPEB=xwzm2F^uE<&cK56Nib1bgkm0rJVp=CF-wk=h6WrV6lp*1bEvP5TE
z=*(2suHxk$M~;{KxSF+jDzjcm^6$Cy6G3>liY3tgVted762Bu$;F)QTY88c~$vP%T
z*D-fio-9wnm<zSUKgnI^`*0KVGRTx~QuHlEDA-168nL1xT6HDF0BF2Cca(Z^h&oSX
z`w+q8($scs=hdCF#}=Bl!00;ZojMDn=wict>4y8}_AWH+n)H?+xl`Vpay9EyHHLPs
zdy3#vM@c#;N|K^3iZ)V20C^8syg;uh`T_n_k~ztM;W980rVC(V)=nmj0yLzoj)s)d
z(U4Nx?Dm$~6R)3qje%jyy!>|Lt;iQZ!WMn()X@O`%wQbG|4-m!C*)9U0N2dQ(a@M-
zkGK~Cnxf(E-vI#==6=JSn2t$2u)|^q9l#`W&nAosDSfL``Ub2dD&|EXv~MD9-gs+{
zg>bBJEaq*}A89PBadO<<LpK_v<HeL`u`kFZE03ta%xGj}6=o9G)XMVI_p!XbVsRy^
zBc(4wD;SKSAc$r(Pd?wv_PJ(7yM@K~z|KZG$Avq?1krcUw@ScJ45BLz&QD-zLSuib
zdi{#i<|p;Vx8mlSTd(c8x`z;UcY6KqTaLwtPNW|?al7d$LfVF<YX8jr^TK<MTj$?P
z+zQ^VK0)fyQd7%aD}CT<_$mnf8OBNa3xh{&*y4}}KL(HHX3W#EYx7*q96*xZ!>$NX
zM{n8O=7sePhR#|xng3lV3R;9nV(G(eJi#o4<tun7->2v=DEf1~)C6M9rO0Ynf@N2S
zWE<WSBP@`08-8mobKv|-(5hiX0Ox9P(shU6czwEI{TyW89XcFCXTIs3*|*U2h>6+a
z?A~<4=1K1zs>2|>unshELuy6~4JL6Bjw_Ss_qRmVKchm5ZsJcRt!@=2SJ<EC87Nbt
z5S3Y8hh>)3ahWAMg*-4LX#g{l`sShDRspkdN|z&eQz(&2yl#Gm0ouc4Qj$gu)3afO
zcEAYjgb~`!jL<G-gf6?QaoG(?)WalE0n09Eo`R(s{|7fM<Z-%p!Gc9)MU-`@7NOp%
zVKsqUR`N4?QMViSF#C*ths%z>`l3jX!CC>x=-xkYE&@uZJ>sDdlr@$S!>Sk(pL?;O
z@1sQY;`2RjR(ZcNr0!-Z8j#)_)IA`?0cNpguL^``&Hr0N3C7RK3cG_QgP3mGE<80P
z&e7>xzJsVpu!d%OPt&&bq89=yF{Yw0VUL07;NI?@tffH6HVwlExyz0L%Mb*!=OHRj
zIPwkvjCt5#hUJrvA9AnK9c2zRu2^2Fx1q*_<3<iI3fa#X-tg@0OJu_sclG2J0#em#
za~Txjb@-6HQBbS=t?5)42XG%_mpezX6*RhqAClSG(Hwfyf!sA*zWEtymo30wA*Gcu
zx?os3ubb$ISJDb26w1-eDw5*`CL8z|v?d$y71-!<vh*F#+LWg|Bd%K%cc$@QXt^Wq
zP6;ia)HO^;uS8+ZYVS&Q?YzBa*Rt2?^?fFA?YpNAuXwo1HJPS0nKj*+*3Ow{W}lf0
z&pnrF+V!7KTV)l*t@hoY5&5#Utez}dp8xud1zD9A|DSFC{Tp1GH%vB(oFl?&V+&y;
z+hlu?Fxdjq#o-|Lyc^4IwcrvuX<kB4SY8oqToR@a<vXYWh<=qGIRn!*q#0&w-rO+_
z>dR09k*f=injtCw59+HVyaJ3H)&e?P)?9n;N6$?j`>;7M*S*lZ^U|@bm1_+E_9|Ko
zkr+FvPoYcSfVWsI{!<zc9WjN;#uJqK{RHG`szQ;5KV}vI7=LDQ*j?E=l9GG3lkvdQ
zm=l!oEQDmry12D4M85X*Y#HU;WJDnHtUyKtFQx7`#pVK8nfe^SpBW6*clqB@R0zqk
zwI8MdID_G=O4c9qVZPr1c&@~~J#OwL$B(Qq4_I*v=){!{c(7C^!+OP1Zn-R%^2lyU
zfK5waknMfByx#+tGojQK4DJa_mcyvv1C;yVFk3EH$nLvPSsF2Z`a?UFvYS$<N$#~(
zj0seO2~=rJhbnL!)$h@n#hxtmaD{Q44N^*ToXI`Uv1e{8SQR?wTBRbN9StjT5ZC7k
zCKl>PzX%TIK&!uC){Y#Qv2#Lrz|M;cCdJ<mlnbpL1#n1bfrW&@Wg(oAW{|WKq%wIt
zM+5LQA-%Lc0<dh}1VXnZ7E%<3OWh3_;9OF7ICBuQu_<pKk*oyslI;)aiQU<mtOa+D
zwu|k5NP9`gne}AaP1=;+M7{CJ!wp6%|HQoc^Eo4h(q<!_f9Bm*F!SX``52r_R_EbZ
z0_K&2IDlW#b|UUF-g^8r{F{~VP&fw9XhUjY4$r4UsyN=1lR`F%r(ixF!<{(oRas5o
z3VqyVh$zY{Xe&@r#0{ChfN~hGbZm0wnpYT0v*JF3!Lsr^Q4pI{E>naV<CG~xnvb0a
zhRvia-Gxi$j|H`RPyWc{>w@!Y@<<Q1n))TGe~EjnssbLFyT|&(-!pe^!GAwp?=01~
zXR6^Wwl>qXU%w@KCRM!-w?A++!HrMW$F+1UHg8KeZ-b}DlE*ihxSYI{Tr6)-m$xr?
zI%WqK*X>KM+xNa_AFj1BRhv`252rT6BFi7-yO+8*&)2-&{8sZ~@4<BM!G-Qasf~}^
zI-Rxhm5=kwRx90ZS#i51a6(JU)43#e%pN3vjm6F#>CPPs;?C5bV`=dixc7f}nwNC{
zvrI+ZVnutpqMh`)z3KIP;kMS{n>_e|&<5D==wc}*VV5>;eH+vA)yA#6nzbx&X3iaC
zMq>gCn$3laaB+T;Zd3~8%-p*?Q#Z6NV&4$O*uMIEq?I@H0;Xu)PX(lpm9Ti#6E81Z
z{hV^uON)O1b%>uc-@iFwp<z4eM9tTPtHS)=8RYjvjq;Q)dRo(-)|6)*)UcEw-YKuv
z7j|~<LV0h>)yw8lbL!4nt7RHeEEz_x14d7CV1xXRp_CSSewVr`x`ApG%t^H7Z8gTb
z30nb*m-PK8<$r6oXixHxqy7aKQ5e~TgWTFmI_H`4mEy%>8LVC(9*ZyXuXNs}uIcut
zbQB<}W0+W3QOLW@Np@nq<~UtRSJHmwBvzPz<(Z@fW8Rg!JS&@UPk55<q~jcqcLK%$
zWuQ3VeVK9PhO0L43u=8rND8G~|0cYUDZNP{=}dYI#ewH|E+#^<H0u`lk_eI`VPd#Z
zBj1YAGrZ1i!=`6+evG)_%N-M*d*$co!-fs-gl!jl{ck{~{4FAlKWk+Fj%Cjn+1FY2
z96Jo-z8uo#G#8EUVVAI)chzq;;38#{!Z7JqkgJ)*eo?~wh2d(T$_a&bm%>gMNza-a
zw|w|v2mJ(w^`elV3O9z4NEki~iaZht4amwrQlS&SIe;FkD6~g3Ye<p;KHVbyQ!1!K
zO9N+&9@StpG%`Yd$R2nqgrX{3CFq`k{jelAD$_<b5Fd>tG#d@rq{w+f{xvm?ADN&D
z=2fS8a$n1cUAX#GBxq2YosqDCsx&^PMVXO)%`8yoxnH=bg|3Rw<M2D5!nb5yRo5W8
z$o<A*Z+E9$t?-1XZz6Bs&FQAiu%R#1ZJqQiwXgjNl!c|b#+lA*8?SC$^mnKI-3xU+
zlb(+|?n?`8lLx1|fhU(QT)F_iyxZlQ=Z`OLe>A=Q(bV?GGZo}wTv3yMxzyY?YkS@O
zntN{RPs-tQEN)q7-a1v5scxS2ykET`Q`7wM_9N+v-YNIYk-3IUb?dB@uD%b&<iU)a
zzS$%5{)PHIQ?^V4cu2Y-FlEn(YZt|>X>se6_rr>o8F}{k`A2V8?ESE!He1f!f0WNw
zagCih+9k1T&OUeH_CqHY#HUR9+Z9_gLgS*)0wr=r`atN&ZsIyOWH%S+LApX#Q>+6K
z^24!|87Xv+ajiTWg3~<H5%u+~8_{=-?kH()o4nQpZ=QHOa(CT{&=<b&qxkuk@;1`S
z&nYT-6Z;c-Ly?1)_ZAY+s4~?Z7msG@Ixjw!X<h&ReUGME4ySB>XiHmnWSyP%E~K{H
zp9yqB+4@a6^2`86<psAAI$2KH@=#9Tn#I}9s}E$ol=G45MU}G^q<U3S>L~BDZ!sJ*
zk<=YCmpLS}RUI&zJvw({e(O#9yTUs{YU{yt_n~y>BUuh_-rM?~`mZ~`prmd?qfZKS
zDx`AacK~txfQ-31sXd`n0}9QL?qKR-KN#qV#dPz9z+8%T)0V2=bF&4jq2EyTm=-G?
zZgelB3ie8Z!9xi{bd)9LnxuOxt!3}9jBs{0etKmXS@O4w3fY3RHTR&6u-~)kSCFKo
z=vR$h_o%_VH*>#eWBW$yE=8>mP5)(EPYy*!6XA%e1Dc!NbPfXURE2JJ84|MJWa+<{
zZ~!IX%B#!2bR)ow`pn|PBw@C(6yi|&qL5~wx%TM$dY_U(mRNy$8xcf5p8w3j^Btc%
zIDYNNobW5I_9Jf3ueq%safg4!?fJrD<1L?Yh(337{MYzjagY6)Tbp%Q_|Cb3EQiNU
zl|62$%aqHyZT#9fE4-xmwKuET<5u-D<yI;JynklPwOv<tt-xmDUwMXqkY6+P@buv;
zhgUcxR}NZ4zGd<hxlgQcNUl7>xA84g%JkTku@w%<m4kc$1?|&;D*<Yw1#LXdqvX_d
P_)2)T<#Ud5?5qC|=;Ydc

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/blip2.cpython-312.pyc b/model_executor/models/__pycache__/blip2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0668dc3b7d7fca2825048d376eb71cb359c88ee8
GIT binary patch
literal 30671
zcmd6Q3ve9AdFJdB`vMm4=K@$f2w+J7BmlnOlt_v%fs{x|7Hnm?#12T1y9;=BK@u>S
z(2kry7uzCpNeG_f5X$9ZD01##S8}H7F0p)9byjk9l^rde-J7B>Orpz`Q+HP@0gjT~
z^ZUDJW@ncJQHoQkOaVRJJ>5M${rLL-|Ni^m|5#q`5pc!qzcA_iv>^OB1+>epdR9|5
zLAWElAVh_zB__lzW0tse%o?|i*(?-ijoIUlF-P1v=8Tt(m9aQm%r)l1Gh56Z_l$X1
zoIU1^`^J3n^0D%G#aKn$Kjvrgj#y>9YOE?=Jyy-a&R9*ncC429%VKr$`muWEcf}gw
zjbn|>?~XOao5z}&-xF(z2gU;N*0I)j+gKZm^Tyia!LcCo`(hpO&auvT*H~A)d#pRY
zVQfRZXRL=kE06WY`^Ng1zakcjZyejm{QlUcc>h>`d|+$<;mT-LY%sogY%}v$$F{_W
z#)jg<W5e;0v61-Jv8^n=CbliUeQbMt$Jmbe&as^q!74l>L~CCaqIF{bTWCYN#&)sT
zdc-yuVt0$X#NBgcc)mw06Zb|N_aZGz*@TqMqUZ7)%U<N@W$tGwTaYsFgp>zZ%2uRo
zdqT>CEM+@V2A`1f5KGyCl$}pV`4mgpg_PY-Ncl8NxdADAo{;h|OWBK*eNRYvgry82
z<wmhfZ@Z%`b`xUz#Xj+96Ixh*_6&PAfM<hZXUVf;RzYmO{EI~$!UEzk@u>LBH#Tdf
zurjuwj3M*-iNoTExb-b3FX=6{z_Amvw$Sj8C={|OuHz|Did=|^O4+lK>FLSDMa6Yi
z{OpXF7#H!_eJGKbN<~s)R4F?(Nl9ah``qlbcqld*Nsfl>itnjNYW&hsF_M~*M8*45
zY;t<|>8ZrT<VB^L1)e)PCB;QajcdY7Vzc4#OEZZpcv(0#6`q)qu0^D1$f|gsj*MRt
z)s&tWW3f2*hb&6vQ<0>2cqSg7Jw2V8oJu4S=ea1R!jbV*cp`yN^>Z_kL~3#_LXY))
zHP60q>fG^XPai&XD*XJBXO5pe_x#KFuIguJVyVezr=pSA;YccScyc_Y)D_~6PKvRp
zS`S0?N!0UV5-k>|*Vh!%QyDzkp)^oU3y;o7Q{!SXIVGVv@IVdX(~l=6rj%-g<I}0*
ziKuw}910gxNyV?lB}Iw8Me*^77p9}=2)wvnZ;RuJ>6ujWshP=GRFtSn#}nwIxEP&8
z%5!1@uT7#|ecXE%jT?_BUNv+nGA;hdLc_qK_^GR2oJ`_%XcRGqj;$?x!;$y}F&agk
zlS=j3nd#{%DU~cdRXkeUnKMec=4ZWumaaN9lbU)-oV<7`l{_^SK|Ph`$;4zTd==dr
zmc)ybNmN;khU4^J#TSpvUJ%36k~lGWeOw)~?B-GftDk}AjvxwSmZ&gh#o}QZvx)Yo
zl_r?zh}sC?M5kDGxl+wxxM6C!qxPsH>Wr4XW#<njw45%=IqMF2lsYzYkH;ey#WR!F
z#Takrxn)lf*Wt-HT9(G(ZWgAvf#8M2?jV~A!Q|we7~B|4%%Ihz;M7ELlFCUM(vI&A
zj_OaxFGUgwF_sMWjf4zoF6|B;W35Idh?p0=7(<F{yMr%HMpKte5-7fDs&@ElBsL=^
z6?+OZR<T}4{D{^H#d1lpTvO~AO_9+zJ&G$FPDJ8jIIMWW)C)5)^83Q!&(1_*>XWi?
zI65^R4og@_1jQc?qt1j2)C!0th*2D=DQWzY;^f0iYDe6g!YW+hZ=czmicfEzo}3;?
zu|Ym?eP+k5omX~<n`4s~Hc!u{E=?si(}38_MnPD-E{<c^NIaO_e1TA9aC%nSh|-v|
z1)k&xoG%LRTb&M9zEbd3-x`!X9T|H^&Qo*i$emNSPrb2eIl6LaC3*kpOy|LL?Lpad
z=z;x^v_~tYXn@hD(X~1T=O-Uv8cOTKtBegVSIDh26^55SwbUW@E!M$5`4F4f9c05d
zIKh#bjY`Adq2V<djfx3AT>IiP$y6{-P##QO5`&iv&oKUCk;KIr4B{Z`p5TSZ_>~J&
z36YOi#m5GCSR|B4O8sa(X#kF5nUFS9U<l5rG)&&z<gn(a#*p@F&OUgOl#aU7f$pqW
zw>zJ{Uz6$Fm#*C>d-gxD@8_jaL0BVbn6S_0ty$E)<w!!;>Mz0hc|!+BEm3RK_N&&Y
zU9?3VKoTdBOVKi53HP}~XVfj0MLkjHgl|EZutdGDR)7fgy()~k-9*HdV*##br58ET
z3dA=SMX>-ccfua^zv>t(Ul6Wa#wyMVp(>?~eSx}SGK4)QMxuvODG@8%RN|;2ylGXc
zCzIiEX)2ivN3;iulLMyW9Op}~4|6w>3iHsY;v1)hRSil<Q3>f8IEqsev1}*Ct!f<!
z5osC_Osswi?k`*J2r2cUAiP#KFMQbnGDeND2=kVCA*|&_=(0*|=vm-FtcKl&=sBc}
zTCVIsReDlh?LpLPUdC5J@SB%|C-$#7-lBC3*B312sZdK5?OA<3el78B$g8KH7tFo|
zu|EEOqdSL|LS7A4;5SPZb<Cl4kWO!-RE<{3<yy^GxSO{R%C0D+(R^>IJ%iHq7M{0D
z<tW2sRNinVeCDO!a6X|<&L_TKn|;DhT$28sDOzFJHE&_-IgMIe_*#ACN4<h9vdD>+
zv2oX!>e8a4F7uRM6~1OIj4eamyS1E!JKC<N5Yl{FZq!Qe%~>Jj9+jwb=Bmz>pl#pW
z_E2y#8N~7$j0EFErcTF1TH^_q3q*xJ_k))J5uhFvOXwnh>7(x|4bxM}NrDWH%0#<`
z84=)$Tu4sEW>VtZh8Ge^PRohW;5x~72Sas=1Ia+OflOd@TUa`V*C<}TM1+ajQEE`H
z0vd%`jTFy|M135QB+$M!dUe@Do~t|(iy4At$?-@G6;-T>gyK9knGhqA;s7fm%_=qE
zM?fD+VdGnESHxMx!Dt+%45TyOAxWcDxth_b)bTjl4U`&q7hZ?5!_w6B)J#eV6e=?<
zO<hQaqx=D=&Z!GZnHmbY6nj#PO|Z|Ej-y!V1UW~^Vdz<L<!VuV+~M$eECO5(CuuSh
zU5M+Z#Fo0}5Hr{N(fB^7HSx1ZoSXxu{q;>@ty*wbyjCW=8XvftAJqpI>|gRe@>XTN
zt+Kau$(arAmhtD^eLwQ9_rSyIK(4xL>1eilyWG7!-L)exSauHQhIeL%Pszil(nHU_
z^IYC$sXAj>wb^Pa@`A0rBJUBpH)gx`$zA&v><?VQTvsUDwN38YcE3Km>#U5wuCx3>
zYe%+qo7}qXzCFA1jEuk5GxVT2*U*w}*eo|}Ua6HEwxNQ)_v#w%ynOrR#jDx&A-R2M
zWovfih&*y6Q+E_kJ^$I;nrrRKw(gKycf2<Gh`gKS*3Ao}4{Pe~?7F>c@u!y0Wd{z(
z0|zoS2a&<`P%ZAKms8ozhvdzNGIdW;LGSer=6u!Z+JWV{RhzZXL$&G7I|W~5*4rz4
zdzW{=>)rOSdPA;y2i5tUyz^Xo#|!Do7m=F2-dbL<<`Np4@66qvTk6Sn9+5kbWExP%
zFZ&o>p)ZW+4}lf|f|%7MICmgJ!Gwpe^twp#Dij%?X^UnQ%U-ka>sUB1>q}B0-EE53
zmm6dJZ#%yt+@R%6lb#hGLQ)pB5nH3NG$1CNqd)q8xERX(h@eIak~0V=<WTHaCq=LT
zG<l`76#oJor3~{t4r~ZnrEv;dt|uvHFvy0mQk#+@i6o#xB%VE-9G{ZJ<lM*;#<W?c
zYbZ5&3eHUd{kL%F^`oyHP5WNFb?DB~+eiQDvBk5C7j8X^h^4LBu03+s9(eDc%kFzY
z-uJ@0z84oPIe+Erv#-rARxKV{{OnRk#^0TGb+aB*$~A-_sYOz$D+LY~J#OqDo#1(h
zkG&(zTcg5^<%VtECLKawsDuUTs$YmT=2zqA^@T!%{2TUl^Mf=fy-e~u5(n2U!K?-r
z?akW#6V~AI{0_WdCtwOSp4U^}przlejhuQN%2N7>z0737g>uL@Up8;Qtdj?YXGE53
z1dMjS;WCt^69R=i^R$fXi+>@WNU^Bp8#cWhH`3{3Rw3QITd%dp@Fufbd*&T_Y2JD7
z<+?&Cny*yQaJfNyQn+iVaKj5c@tTokz!UG~mO>8Ar{x5mSXDd;XwM4w+ZKi!s39=H
zH7XH_@T30=V0hD_*rJnhh7Zyu#2WCyFU2Y1GvvHN4spcNPB@AaJR*n^#jQ_kr7Sr$
zk%~vIOD|EX3*=m(q#ke|smY5oQ!`0vl41!hr5E9Zd<<Wt1Vv1dLyM~7#(Ex(MP@;4
zc-gA12CCu^W<(*5041P3HwG#T>p90H#b1bFE4<QB62X@IX-GB8sgmOL6fZYPWIQd}
z+QosdOchbi^*jOV)O4RiDaq$BD{cx{T-!$Occ)wTr(Ml|igm9skZl~28;4f9zuouE
zzVx0mnc?R$jn6L}&o#GYn@8m4k(I;WKJm>H=>z97TVKdDzxdk8N5y&W@5>Ay&orKR
zEX(~HnXS)ennxE-J_-cyow$2q=|(27E$wQ0RNtJf-z?W}PH#Dssefw0`(8`%-rl==
zm%S@5XSW@bw;g+@`km)9+s<TKo=dwLA2zq&8@M}=?%R2P>v#8lXRqA%%sbCNXg;&x
z&%1=K-mmw+(ZBpNna%@gSNnU7t@nI)ed!H*?_Z%Rl|O3SkZl~08wZvnD^(D^d^Xd#
zE8BQjZakc6Ji1VxYuvb4o^9MHH*Uo0+vLfWH)qS+<?{ASdB;-M(r~)GCvT(pzW!|A
zZn<yw2NYT;$BQdl)2;x+_%|)1A-^<2<7O*4+sN^fQ$-G8iDJJnH5F5ANl=7DdGP^F
zBUsu+kG)4@Q<0P^sk%uq<tp(uE`lfxziE*~#3l*Z4srtSX?P`aXx&PF3C>@?DnL%r
z9m>@=e&FwOJY#uO*_n5c2i0u|EpJ7O=iMyq5gIy|4$Jj@c`pn5gw~FHIrCNsRkeAR
z9WpFW#gD5f_Jea4t78L7-*e#ovY?~&QA6O){O$R?1Afpq!428=Epq#om9297jt?mT
z7lTms#__LT8g{S#G@^=x9`2|G;tngs9iSX0oJ_3Yc(r^CLJ!et#!NyWVjgcZkDqWx
zU9Z~5Tui*-2Ksm)xF!LOD&9B?+WPcN3Ic3SVLyW!N+;or7Ol=iBiZo3imkL#afGc@
z9Ffx3RWlk2w3E(cqeS&GkJYdpY@1%Dp>)EDlFPgt#G0&A->?|U*Qq^2`6g=^N~$h-
zC4$;|g?j3%)GVY#qlE9`bTZ_X&LA0|1fL?`%j7%{M{z*>mlPHEDT3Tl?9wO|41L21
z_`}F7ou_0qDn(`Fk{HatY3DFb{2=3q_?)301AZF$o_6z&*ZG}$$dWt{2mH=MSGmUR
zlyVW<i@1n~O)d8VcLPfk*`A$p&(8Z3+5Knb{bwIEodau7@vxyuqw4p{oqID4U~W{Z
zo~=8OTGHl87@{@ol9&%U2{i&iXinf1NFXBFX^56w1|o@4=)<Ux4AL_z?Y?TANaX!l
zLHazR-n2<y#*HthU*Qonv-z6&i|{4sm1t*<PB#&lD-s_T=GUOQEd3_ZtP=dOWvQw4
zp69M-X<w#sh;TVTIKK2srg4OaD(+S+-B_8Id!NoU9!8WuP=H_QFba9oV+z4Pi${F4
z>1Zq6q_{7V^K)>Fpt?Yj<op``S84VGR7nE7Kixi*7jVBn!fx-_e@vl#h06ej@B<71
zjj`LYd>MsYg2(@Q;I+VqZiF}{Qt8xk`lZpDtKUFW5hnf}1;G#j`=dV5Z6>aRXxMEk
z8s?&9kGM`g+ROriRul<{E7grD6+sVa;@_jJL!=|f!?Bd46{98M3WlvZLras?g?}1E
ztMhP5B)uT(izU4UaH3H=Z=1KzJ0N?te9ig|>s#vB1_)7k>?)AYNKYwkNNG2~o<1KS
z4RehCt!Gdt(SR%T0VVaHD;tFH22&PmGp!XNrvcfXMug(lOJGAvaq{$`G6PJR6wFbJ
zR!Yn!Tt?t3no)Xt>$vqTWJ*$zz^x)V&3jEdz}V)RHqc-DP_903>r;zk>6*SZud^9q
ziZ4~HRSFFQ%P-!)djHbf7t?!3AJm@)KzaF?)d^#BTp~nYAD8B>h2;fotT{G8ny&Q)
zm_$34XIe5CF%Is32``Y|fD>|*Q0j`8WMX07vWkK7<}pd?Ro03ISZXz*f1wdoRQf)0
zB)7w1sMOGMCviKG^EKr<cjO&H!-iGC*5Fz2VrGM;-E()((&tv5&9poPGWC(a9TX^U
zFoMh{(S*_$kVyJjau`Wiz^7LchwaN52n;_0tG-G($@wP!lXu}15r8$0Gn@b<52~vZ
zfGlhv09lw5fXvGYK<4EHAoFfvq@ULj)JZ@1OG&?c8ATH4EzG<=|JuCl2J#__Hwx8t
z9RK=7W1Ozl2{=W_=laCd;CfV_Jz7>o^|_TsWA_^s6gXDVT>dD!?|1OL1f2f9=suld
z!YkBEn-qYu0$t|Uo`ME5q0F@98+qJX%2~dQhdc(5Dj~nBCJo9OOd`&ge0qc8QHd_7
zw<tA53Aw_HbQ`IXgyJQL)v;b{>!9_=l=A?bClXsH<&l$_x>F=+eb_ayJdqtdAP*kM
zbU`Nj1D86;2&(i|1%9@o&?>Nc0?zs<r8OF89&>~;(pMT)1ZZMZ5v|;Bav>!nh>T)N
zHiPGa>o$W5I}cGrvIh=CkRX1FNTF=w7P)cDN^7R^KoR95-9dV3k(^ROW|<<%`2qfu
zw4Kce8N1_<g;6r(AyS6!M9a`U@3T2tmtOe#XWsY>1o4j674h4#Z^k|(FQ33vp7{j+
zN5Re&>35y}$HB^d+$pV7A7<<srnyNu=99m$)?)f=04o%zB{QZCCFy&C=wkKKW(3M1
zVFtSZBmV>*2+U~BFXiHXi{glt<FkU;1nG5h&XaSC943xi4=Y-XlZ1DmjuL;4+({~D
zU6j}X*#m76os@U!DDe}qWD>D8<`j>FCx1^^@<}-{>6h?s>6hV{a9qtMEvN#_UsAST
zA!iRc>qEy1JtpVR$U}4m&p}Z|vtMUi{t8cumTxdFziNrvAkeWxpyOcrD^BRIa32IW
zQ5W=A+);<Bzv5x~E8cZjmUUPXurf}@lGw+*Q9trFq8cR^^khuqq3co!vY`C$kgp2)
zDwq(-4=S}<sWLV>6J2obhhzwxq9B5tb3clk3p6I9*SUa#I81%DqSaI9fzCZHUV4lN
z!n~zCB^TzaRf~#ZHCu-VBA$u(AS?JF+goZmNUb9gI4T3tfsm=_i0RGPuk_(#gGD?R
z%8xqO8=QDUnSm#xZ)6vq8%UHy8EHKfNS2hog`sk6Zj|FO5JWmErHDIamzvUBl2RL~
z0(d*$DBoH58ZtntQDDFr;YTfZZq7f*6q*YB8;Jvs&eaSSQ9exOFHt|wm8-lU-xLT{
z6yQ;5V7kSOo(fNh*f&t;BXKUD4adYpn6^C_F~5YOq~C?3G?ge+g(oDg1U;)%6ju%6
zu*hTjS8U~nVwRDh<F%zptoS%{q*m6P9i?g*glM#qFg~h?9W8<zHuiPACQL}a1E-V~
zebhUU?L8v*9$}l~xfUo8Jb;Y9iFVFa2DQMQx*eQ5h2*)pi`djh-r8GNvkg0B{CRiW
zA9~lj_hILbTxET(HAH`1y}9P#V&hVKx?u>sZCAy@;Rn8UWbf-=IQ#=&_oH6iANac8
z>)eg^Elw<cD!pN6x@Fgz&DzDb>)Y3yLhI(`t8dr8?Ruv?z5m4rftQH9Y~moObHWN#
z+SvY&n7Ej_G;W-Sv{o~U(}~gaF;)pXW{Ty?VYK(}&)czmCVUZFzVkM6$v<JE;eCU)
zKJ|Hx2=$U`){*5oz<28#mNy(JofbfPeFkc!kd~4ujbW-IhOI{Rd$HYWH=|ghtj_Z`
z_Epany}PpTPR;j;-mSI}+KjbRp@sB1l^OJ+Oz4_<=X}{kC@2)9KllpgS>f-umU?Yi
z*^nsloy~uaZ|3+zBm|`4OBC^M$@w?rkRV@aG~xt5o51I)bf40EhtfEbq%W^jKc19t
zjM~N{sgSEgS|WXy^8X9UU(biH4sn_Y#m84Dju1+fF$CH4^^{SS$SCXOI>f3ZkVAnA
zbgfv)lI?IHQ1Ow}WdGg$%LAE~og_2yHY|3$>ut$x*!Hc+{nq>a_gnwalHPt?-f$xA
z>wM&|$@+WW_4npN1KH4CIkY!dyD_)%00c1`_dyV|u{vGZv*r;3+j5n)*~$UAa)5dI
z<;s5M3CfkhTxHLy+YzW(I0Y1_3}*csWdDYxi0toM-ute9$HVS@x!T5T?IyW)6Z345
zYqu~@w_MwutL^^v=azkMmVfKBzzMl_7mC_|w|1=gu<3Pg_U`O*e|qQfbm&C-%ySRg
zpTFhHR|}O8O}DK1wQBXsmAz)w3L2_KIXJ*j=japx`~uB1h9;-r`50(o#cZPVB^P9*
z1qmCJNmRK$oyIUO6HLmcZKSY)Qq1l1aUuN&l&*36>L~d4h??tuj2Iexe1JYf1EL?v
z!RoekX4^K)ZP*Dum}xtNR)Fr-ozLC=T)Jy}dgrlB!|?@Q&flW7&Od0wNWX_FO21Fe
zAHpg5-0vZ3ZsW)KTt0PA(MJy=llsxy<hE_;?ME|h&+w1VHuT92ed*BN^#0LI!|9^W
z4po|NZB$X!h_q2`=)zJ-;;Z!ZCONyvq3)5W(&if<B-N70`7!>J^yMT>giN^U1OEoc
zr?@1MJVr?(3mYVfEbJ3%8}jAM%O#1-%O#1-J8J231RzD^UrZa+0fQVdUq)ewE1Orb
zRUOEmv)CMgm2KbN`^~*1lnA_i<ol<-cM6jq&pdGM*L^qeodA3E&W1ng|AT&#SMYs#
z_C4eH6#ddD#?^m@s87nVfLrmfZD}{S6=>g!E;C*_>Rl(^Cwjp3xXd<RCS1{Sa23$y
zhvt1bxQYs;#yGN$aAni=`3e(ef*_y*|8!sdV>l%;OA}@S#J5gh6c$4>VxgcQ52k>Y
ztddI;9UK;3cZ^#v0?=M*AQC2JkX*7&8^^qzHf@Ma_?oS-adX@Hr6xOa-Ov^3Q8%4v
znZ*+edwLB=21l_G!&a%mka3?zr(Z+v0x{0{F_L>Ko@d#~qEk5Tr8uBRcu`cUNNZS?
zbFvbXYy>F|7FcK7hH(w-Wg?1An$yVvlit)R<+Fqgv&c-8a^>U7wY2N}%I#OMpVQg9
zbT!+1K<+*8pyS|bmAky+{Ys(pkmc5KtTt7hx!UGj#{m7c_2$~T7eBT1((=p8C(|uE
z|H|vEs>bq%wC_{4RhzdS)b5u(fAfJALAFcsdx1keE`tgbkqSj*Ey<tRX!-&?IEI00
z^9u`(K5n!)!Bm^HFfLvRU_5}qG}Vi+bAlHdXb!%)2cZ_d8P^TVm)h*mXyqG3R<5l@
zRYm8&iyQCZ4EY{VtkaAFQY@2-O6TzNWl8!r&fXaIiHgKg>KxSeu4B|`N01AB<`b$L
zZl!3|$~J738@B#&)wYF0xt8{OyYKE^irn3|aOzJ3eYwikT+be`C~IZ*){57j&6f$)
z+lg4v)ri0~exweODZu|H`cek)H_7)!a!O^ve?*bwJWrLT-s2lZ!1nS6hlgni;ci5B
z3L1c&f<Dp<qVyO?Pz&;tZ`jXvzcnOBs0hg^Oh}%0lh32=g?ka=#12(z9RK>I1N5&T
z>K_=O37k#X1&Ek@0B0`)XCKC0d9la`I3mVAF*FlSu*u{^pOio|IKAS%ZcKuY4b1>#
z;y+6+bC_O7R;+W1W}8bWsk)?a1ht8cdg^aa0rL69CozNiQfZUEctA2^AC-Oq8RlGr
zs*<$yZ3IK*X80|A1&_F_`E~eI!5S$Fl?t0_j45Smi5eapqueE;ABNvL5Eysei^LqP
zzjg4wNmJ@FN?Q-SKd}TFhZPz&mdHXrm9FVob2}Odv-wE?P5hu9a-2d9iX_zzM6mI7
z3m$L{rbh#!76!EI?a3E*ya=eN#FA^?uJt>Ea(&zsl0j++IUp8x4Za}}#1yirGB~13
z0Nno$H|Zfc7s&Y`#j3#lUnqjUj<K#vCHr1>d`RU`{g9$D>i{YPYYyc_+$rxtl{@_v
z>cE%q0=C`X*qv<%$=E9IkQ@3Je2)O)#I5#cT6Tb2B}|8!Dil#OExU+&ZEm~Qf44v9
z3qU&nvMXSEOYf>+Z}C7i)hAR!AE1o^9men{hxR9+x<ZXY&d<;nT!*KC>a{AW<8DNC
z3K~$If*jS!$5EYp{gsaPNA)e)`d+!dH}62G2-PWE&}%}7V>wl&2+Oqrv$`8k3g?%j
z793M$nx3Kq8v!=j9N=e?CvfByNLvOiP$&Ej_+79K;Z%uXSREkC1*)lnaeTFY(dc5M
z{UAJyN7f$|JZ4;R%C0@vMzY2i+Z5Y)>bg=+HXSZaXh&5E+@O|1-^tX*RNnV55T4^Z
z-Nm&WEXw{{)Ki3t-~s(LuU~)dI+sTL#+8hJIPDtd4S5m?MvFd=s4Mn)^!huXm!sB6
zqJV6pii4eX<`N}pXX(GeF;q=ypc?20>%#GPI5rudOeN<wF`Cq*x+aN#n<`FFjfz(`
zELJVd>m0eU8}xee9tUU`pCUV5Z}A&HJ4883F0BKs61A#QNklo9Ri&n`Ksi!74CK~(
z#kkw9)YA7-9)1X%=b7tU?_*0-uF#i)Hl;5mu~3g(+mos7TX5(6jah$4_J`805TDcT
z(m74_m1sb5N{x|be@VgrNe=5Bw)M7`f`6_#Z_*n{8uF^}fz{#|$vZ8Mz;eS%&C2-w
z!{5BT(k_P%tqO?CJFSk5OXF(-ZhWLr88j62OH=nKu}MM7G@@N}@M%U$*4Y2DVR|{C
zD(J!)b4N)ECre+Zrnj^GJFDmdpIQb5K=-U2MgtmHlQI)1{B*l&_Cs-FjEzstBvQ#@
z6+f+(Y$Q`N-4SLjQ1jxn6E%<8wbJ|W7j<d{b!wEXtuPs+dhX%zceCkMNcXR)X$gjC
zzE!a{8^!SuzU`uTP|qoDyrqcGp=FHK@z3D-Bw(VCY&(SF^noQ8MEDLfeh1=btLZ5^
z!-=CCWjOy;HE%Odr-4@jCP;2TcM3DlTk>)QA^3*qd)`&p?qetdvg=29%H-3qv*Nf$
zMm!YfC1&kI@#r%osko=Eijp)L6_WsE`y>p;@Htw3m04<0K~nMXsmD&@+R$@KRk+Z9
z>{${_ISpKCjU4K3iR4bw{~+go!%-@5fJdFe>`>s}P^6z1tk)t*<DIi@a2e;OR25!@
z{w13tbD?!cs$sOKNxwq_=5r{NiK^?G?i{~;oQsAtwFAI_#*S>`X1Q@Q&XqLvWSfTM
zrlEz3TwNRS=Sw@5aSU{D!Skov4lHiGH+Xk&x#2<c(A(!g3pj=H+FR$cb(`e6O}YB+
zT*HQ3%Z6NYDDM{P`&R`=eMR0@R_VzLWo{3j+Mh=ypsZCwHPE0kfXgZc{p8e;1EI)c
zFq5YT<oqsu+9h}()&tB`FPE*@R?e=t<i1@vlk2FyKTaS+LV|q|61eL?L4e<L;EvkY
zwk(b;*%o)oHQo6#igF2cfyJlO9Yg8BkX$>wat@;LJY^y-FR<o?kADZfx(K3Z38QQE
z*Wna%c>Meaphp8L0<A&_ssx4*Xa`js=X})%nt>}76sMq&OQkJfG6R6;hS-k8aK?0A
z(F+LliRDBL1LBC=D{SzWtNMZk`$FoHiBsgTazWOTlrnYrFzCC&j4~-6tUO`v=P;;|
zL-g^)WiW^#i7Rn`^Va0kn6&h)<T9gLbf6(XF_x?5HE8-f3xYhu?!5D&1-u_d1YJ?u
z|5q1c?1E_>#I0+fO*HNe`(-Mqf%I^U!b+2yA6b};CKc;+3K3p@dVwA72VL)=0Z9z5
z1Y3E6<bne!+W*2kIbFpTXFBq$I92|PCNwMo!Tc3t`jqN0&fw!v{sf(c=XR^KO)Znc
zaSD(~1XiMl_e~g;;|kRzK2)(n<?Sj_AC(L;>D|G{U;QpJBqJ#2uWt(PV>77%C*kh7
z@47iC(7}b{xu(u+Q%G(KE%#&q4ksSgwEu>E#j`yBAh`FP?gure)4tR1`D<Uh21+7V
z)0C@i$<?>#8ajXkl^cNs1Og5f1Qa51SQ96edSeq16~~8G5znWODw^g-0Uen&<d@m9
z6xBz<$4yt*SLVDNEgx9BH{m87Aiqt5!9zhJX^K*Ifvot5QA9GxuVGK9C8<_AZr8Cj
z0v|R(w$7l@zzoOC4KnOD?H&U9()52p<qn`+h~+#&Wi8YSvQ69NrtK@&GEE1HLu(Ej
zwYE)bZ5IlINx67ZDF<(9Xk&HMqf|kl*~Vt>PedG;%vs}{R{3%|%FJF`?3f*Z)^nH5
zV{Xrv(E(%Q;pC{bAhI_V*sHH##DO|mE)t7jhj@K2TXy#|DghSMT#%W<Fh*)tadPWf
zgafK=ICXkU<>&{+O+9pVYCLj*Q^3u5i9{fa&1>XLX+!`FU1F?|(?m`c<#n)pN(Eo>
z*|f$~=G=fGE~y!NVkwel1VIfOSSlLKFq?JBx&DtHR>i6Fs8DhS^<IZ6sBFqscFC1p
znaT|djz>*xi?f*jpbH=^*mZYTwq=*xvMbZFhXe?XJ?Vzt^v2zC!|nwiG)>9_xu)R5
zh7dPbk!cvpHTOV33?mpeCk;-gIyfKS0sL8NOd6RuR&wF82*4!llnB$<yptNpS5I+u
z<j|0lTFB|92VW%L&%t55;z2I;w$l@GWc(+;ho>Y`uvU{ap(gLZ9kf7o(_#(uW?JMb
z$U7*?#mNKb;vTuCH}9q>4<iqj>K9MSwK!r*Q9i*_|KoD<^|?@9O?%#fJId?mTedB~
zxa^gKTj|UcmFKCtRg<pYl&;z&yZcvhbjp*jtwE;h4S5IdrI{!SRx<|jZt{TuslL@O
zyW2nXBFL!_`X&GrTX}q(Kj64Jj&Ibja@DumjMcE1G~pKg$eJHS7T~0!Op_6!VdtxM
zZSD~f5_LiE(Ji__W;iD7x@|5uj$?U{4}=C2ci8!UAMA0F24cnKHoXqI2dPct@lMiQ
zgrQckYTY#UXf@JQM{DrL^~$lsV5@zshCT1oU#ojAZ`8fI2SS-T<f&J`rU6`JJ;IG{
z0eoZ-W?oHe9Bo`DzDaC~vi5-4SM!|wDQ~-`3174Y+-EaPznZ6B=S%rJP}f$}wFTy2
z17a&gPo`yXVv#Tk?b0SX7)fZ4wj*ad+W-gx6FU@sg6QZJSrLsgyGD`NGhzbfNXf?0
zIjIHXP0FGalY=CLuJpf3VgM$YMdH${uqI2ES)s5l!vuwz`U@74qSDGc7d)Ma&2n>$
zWDt*GGns7C1vyai@G!(pUYkr^lFlI$aNIT?OBQNcyc*XKbWg`3<Km?$vgH}Z!S%Tz
z2Ab=AHRGmAvQ%OsCEM}3o5CY+P1f5cd)pSTJ@EGCY8u|FXiPWl$yDr3yY})~dKd|r
zIwj04kTFh90<gVpT^vSqDp7K*1^)t}lD!iXi*RN%k0~3zjzu@fwoUg`z|NcM-<qwj
zVDTYkFX-cg5jW`8rbv^6U10D{c2^3fJ<Ru4%ru`<g!SyY9MF7)J46IFGt@zBu#igg
zUGCI;g}Wxv*Ty4irq?{xtEDq9kIrh&TTOJ2iC|<`VeiNchs;Ygt0hvBXszTjOBuC)
z!=Zf>zJ;W;>`D!3KJY=NrKN~TXBSNMI5kcR8qYLFaiKJ#eAoqwZmZ@m+%Io0_%$DL
z={<<OF_=mT;t}@7J`1S}>=%QaK7k0niS-P8=fHp2FTe^ioto$7F}V#}q=ad2Rk%Va
zLxIAM8Vuah{-rk8m;gpESE+(&mDD7|6fMOudT9qaOitrdML(<*iD_22&qO5HZ-o_I
zu8HUXgEy6w{yXw06>9CZ(w?VCRg;#JaBNFMDO1xi>j1=7!XgTX1Eog)I#6ju_yBPw
z8gLS=V$v3Ts?r{hToGYvZaOs!2C86!SUp{z)ObkNF4QCv`z-y#rD19?5f6;&jw;*u
z9HLbT<hod>8BS{;0Njnjz%d#O3FN8**{YCS70OnP$W<c?&Rjz$Cjp`NW$*@ivw^L0
zU~4vTR1O@4<rEy;g%-3o*D*|5(`}@y+`oJ@+ka5*KlpZkCV(@$4_r;}1={YNx_j!O
zuj=)aubo`9EN;)X49hLUD@U_ikIP$+XSco}!<LJW%#O7(t>-2(I~KyOW7gLp`#Owz
z*oM8wFZtGBU!>>jyWZHPC(Zf>WZwV_w#mM>tZ$?2+nB4W0~OoNiVi|QqJ3Acu?uz2
z*7w2Y2zcTpCvBqD>_Vz`mZ}AUr}C<-uU+=FXMG1`-+{bMaF_qU)z8)j#i{bUXiEJm
zgU^fq)eqpTzmi4;ZBE`GYo5ju)S_UntdPbwZ@mfq$eUPq=dGU~!HlIfr{wy$Ysz)Y
z4Lj7Hh%{#xaMw!cNA_JIPf-!#EVR8pUtZwQV0F|6G*aISnT$r63cwe&{#gIZMhz^t
zmD{%6g4bZe6X-EJw@M{!qD{rFis1{BAXQ*88+5S#bS`-A5(ouYITVA*OH(tkXz+p<
zoJmMz;F+wj4~EJV+w{~lpC2^irT;??5r@oLu2OL*sq%izs-d=TyBF0g)K2k;*QYU6
zar)ts!GEoEvsP&jPe&x!bBiRRWGs4;ER3sSU`DXd?fYmN<O$jF^8rGVR7=3gIfceH
zW|3oXr90EGgC<^UQ5d?(X>a?|sdV>FkSi?ImFwB~^(${&$@UzOdk$oKPRKpbQ$De9
zVzK#QO<%6AD_7T%>m9o9kvpEo(5{6^KjP(lg0C^{?Rr?#&yzs%K#ySS5JC!nYr6G7
zrs81Qb&!)mBU;lH33q6yFrtT8I&ST+V4;ny!>RjbY@Z3Tw{hwry(o>5R;@25i<McG
zCbf;3mF^@ng3rw~C+BuNp}{#b{&>chsHtf^hp5aWH1{mUGEE~36_4<_F0TEfI8`3Z
zIKS-LXP$>=z0H@K))UOKt|}*4PvhBCdV)sN=M`-}(ejQd!CLAlT3!=Vk&-eSz{P}d
zohFDZYBAO5;QGq}mMW577G*k5Ekr9n+YQe8gR(!E_V=e<{cs;Ov@TBE{%NQnkPiHS
z>>pT;^5f2L2QvQAH0Xgn$f|gG`?HoT(vBv6pN*Hlf``D7H&)cjj%tB)<wrCCJ*Lg1
zHnF)Xxh^mSpqlFWnTe>d$3=vD$rWX~elUQq6JN|k1i^aA1p?ao4V}DV3MV=&7LpcJ
zQoyJIAQ{w=Op<jpKZ9`*L3FvUS^}XJ>;B`^<vZX&9DRKn5X2Qz@cSm%R)M1#pEyAg
zN62A`Rq}=Fqm&q&P-;uY3rDfxCrqm1;llD<q|x$a)EuM5TYu{+IH{$<cfDJ3HEoMm
z<(i(fuZInlqEVD<YRxu{$W0?FCo@e4G5g3cD(RW4=20uMTMo-x4!`}JyyY2Ya;@PE
z;b05d_97afa|@1IG<HMV8mdP=h*ogS!rv?VdzXC~KP<UzV}np<&ZryEEPUJ%&AZ+N
z*7o=<j9hz6XQ7(7Po2zTq~+X}k8ZNZb6lkcBMoSEdUeYF&a|uZ@fy=iVPpjH#SB?Z
zXGGL8iCOd;makYa>a91S)y(D&&9RcJ6qgBR)a~u3Y1E9u(GZ%glQf`|DwUGfHJnO8
zn(ID=3naNJ9A6i8SV@NTv(zHHP+7D{{q9@QZ2fMT{tn-N5zc}a<0|cK%hl9j8zT_R
z2DZt8Z7WwY0T?%F$^n}+6AK=yu3IzFoK$MfNNlB?qq}N`f1FxbyJ(|=wfHG`Fh*>j
zw?;uInIn<e2AIAjW!1K%_z|v<Eiz$;p6g5^2rh|!#U(fm1IQEzK6UE&nStR!k4N1E
zg49F|!onl$Sc5DIrlvsmK+*v@Ng_(p6Ebgoo_z!DA)OCKVxWqmv%$zXS8ia1B9UI6
z-XNNB?9|l21#y7O#$nT%A$73Oy@sklj5H3@_hM|eKL|D_i7j?17zq;F6Xde!!cTjg
z?|crwp+Q^^esAMaB-P8Sifm++Uwb!u*@57pMDm&_?e08pc-c8^k1VJ{mZ9uV5BCSR
zZri?fs6RNetv|SZ+em+KXlH*A{-Keb2<&41;o%)y5i_(M$%eLXL#B~!uN1!{2)a|0
zu7a+dh7>6{nFyYIG04pR_Xn@x2OT1Kgf{1`6Ew(;5KC%4db3^-(R)aH30)O|hjj@k
zNy<%q#NeSnnB*b$l-i7M7Q!b^i-~BVI41p7-x2JC#knaeE0PSJ-?n9V`?m9;eyTaK
zy%-de31i!^1pUFm!9g?vCGHOvHy3+i-XJeg#feZ3jtpyWhbkMjObT5t;hocvC896+
zcR=ex{k0aR`=qx<Vfd)MN438|gIEkcHvlMrXduW&Fj<o`G?NCWyuFOWfjEF`5sW-4
z<GenKG2$^1&f|b!A`EUmLaG#qLl3YKieJe|r1WZ$T#@H5%oxKv4&i5t3N1+!P*1iy
zcr?ZiA>upwP%@4!iV6HjVRfDv#KYt>G>|$~Bl?@Q+01qs4X>o1Gb(=Nr_Zw`<T(BM
z&2cI^dH$78lb~^s4I%wUUU)D$c!B-MOKF~0^fzM%TzZk9+{%Rx4pxkIOoTvEqC@=B
z3*=BjiGh6rm}fX95;Pn**znP7oC;|-3C8!K6fiM3Rptw(y_<m73(qpUtefP<P28eu
z&R2J9Hr=`X?KoKJrr}kxZ(3rxlpXgdA{%KrV`Sq_4$Y=Zp*bYKg-@hQTin%VsThZj
z1dMoxV^bHQcPRZ!Brz&?Nn^;TZpdN$K5ZsZA1p58Ur`H?bPO#3L#&`lXmQW_hh+cI
z%0R}i^HNILHU3La=HEz*vT>h$Ue{x%CH~`nWe-ZhaT5HNR9JnR#zTA>U#2+e3Dy;A
zRSZ_%-LKF$^V5UtezUQ}-=!~ZWncWTs&i>;rm7D@BYz$L@}(Ua|E9ES6QgZFZH$IG
zN;HR*I^e=Z2mxmK{<<bi^RgcZ!1TT}6*VXp^`m+c(N5gL%LWP_q9CJRI><-kgC9I0
zu89i-7y(Vx4HpDDpJhj^q%#!LN$Jm$k3K`XNe=bAMC~H|CLCDD6;l$mjQQ>)8C;df
zp=0&QUxSAqQEcr<+nXLaD)UymW8X5fX|!*J-|mmRUHhHgAHcfNzEzvxtYS&Pjz48N
zZ23Ug;P5QX<>_{R<i~W&k6IdF2PxOsmba1Tk-KT}u<Q=5Iw+JME_1Zy0-K<!h5Md^
zWQv&iAGs^Y#^b63@%d_p<FqB+e~7F^p0>O#en0lT81y>e&sUT?w&R>@UcmkB7ry_Q
z?|o*Ky!keZqigBN*N?q%?CYoBI8AC;U3sU&(Xm`lg><C19-{&}^7X>rgO=RD(EHv2
z9J{G$ytDWA-n;{T$TDi1Sg4FbE}?yR<*?kgGw-ILM`&y%f_^C~H*CyPUbH|>Q@)&h
z(E4s&^^@<XEMx;px9-LaLOInVJBxN$a$7CqMxv~a{-tBfFRYB*cYN3P9bbCnusm=?
z?mh|w%8vebM&3#O!OjoK%SI#Xu+T}xKRy+Uabaz8Fmhp>cROe`zB3I~f?4{pKlaOA
z>_@#MVivgo*~NayYcP@E!^+1@eFF?Jq?3Ht+e2xIqU7i2+4d1IgMRgo9gt;XS*d4W
z&!YzmWHi&DQ#P2b1pE}>AWWQ1US(T*QYBuZ^nOHI_CrVNul_On&x)U?)+Ol@?USgL
zDbxa{MQBOlntUWTVcYgfT}kFaCLd$_`bzU-&vXrWiS{p~MsjEiQzB-J?fxrGCYdHC
zApyK7(LRw<&Yo+BD%fOI8d=;-YBH7_R5iSk?6><Q+PG%FtcI-zESFLT72#q0zy!#?
zB%k(Ol&YJY4fNc>N|FdS4T5`Jq{xwG2R)6@lz*Ch3*>y2oMm!W$oU;|=y(s?GvFH4
zq;JSn7?f)5xBN5?97Gm_5JG)EHuu7(xb|Y*#&68+m#*S%_=7D)xcF5Pi{(QXey-$Q
zVaJ~cTV!F&p9{Vp3Uwb^9TqDlq{aGSg<#q8Lt*5H!rmVWM}H`6{?KZ-Sl<`m{MaK{
zwtr}K!Y7b}l>2@t4E%|(|Gx?yh7x>&<+Mc>M%SDk%Tt!cQ)>d<*P7jy153U&0k?dk
z(7rXj{j}V6IxSS*3T1@TYtGXaOY73}Uw`?Hm)8XHuSKnume$4R@4b8%G4QVSbXbCm
zPu)9y_xPFs@7gho2MHvySU~S+U2CQc)%Tk2HmMoLESA8cmDJhR@Kc7Cz}lQOge0B!
zLU%)J_)W&vwJ}StrCmz`@7g(w+p;m;+)owVxYpQY@ub_freVOn4R1wgZRaqe+P9~7
zoRHg3t_cX`FXPu@`_h)$tfg1B^ych=oI8-K>Vve@YF+chtd{<q-TCv!KYu*!?^xQs
Td}Gx{ajRZDexE&NUHAV1r(~*~

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/bloom.cpython-312.pyc b/model_executor/models/__pycache__/bloom.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fa3ba67ddfe4ad02d80cffd176454416cef1dc78
GIT binary patch
literal 16589
zcmd6OdvIH4cHg}KF5VyrJ^=z0Nr@B*iVsnuCCb#(qNo>1KX$EMW1Jum?j;Ed5BgqE
zG8xdT-MBTl>#eA1Hlz|Kg1eb9HB!dvKMl8&iM?s2ai;AQ*U%QoEqBV9b({L14qVdp
zw*8|$=erMp6exQ#$+TDEhwpK|=l#BOe&>AW{u_tGO2HE~{3x<?jG}&p3H324k*%nX
zqE;xD3Q#P~>Y{XjhF^VD7t;syH0Bwih8PoINL&{+28@u$M2#_1z(n$lQFF`^u#mVZ
zYK_?fHWD{S?J-BdLE@HZRm>T1#;OC=ByEklVl{!9SZ$y-Ru`xvdA4YMtRc`q;`V4`
z%pGvYJONLvDbPgn98qt~7x0mIRkS&_FR+iqoza$9YoImO7HA{s>gfL1fxrP0cSYM{
z9f1yr*RZwGgR#y)XRIsGMbdRqf2=#u9Xk{_6zd7}#Cik0vA#ebl+|<nYy)SU`7L#^
zO23l^w()I4U_eJ*q*(Xc6zkzkGi<3`jXl)MvA|J6*#wl{ub~_yls=$r{u;{XI0vEK
z2ed8ErhTXkC~%C_XoVVWm1}UFT-QTJ8TD~?Kd0x0xD$J<g3bek_y_Csjp$(A4#2uS
zKd<w*FPym?pX7Kh9_D%z@#uW(3u7<7INlmduw1k?oQTbal9B6CuJu+VIo*0`ZfYtL
zpBfE?A%lxdO(%uE&vBF!ep)hLPI7z*Xd!Nl2+>FwW4d@8LfZ?`L?U)R5uc1qLDF(A
zndIWhNCM01g}K?;1fL8h6MT3&h<!$&5uIc^9|})%awW-nEgDrD&`b6yE*YGi4Nmci
zxmjr+rl3I~!3W8}gR>z%6peDxARmg~klObyzm?#lY*2_S;8?9l7YZkXlX1UZsym;E
z&c)&{DNT(<;#`QATrXd}wma*U#I2oK(3W#7F%?M)FY$>mC&0iUtLEjo5KMXjRx}Y;
z)<P#$X;sHBaUoV}xRwZquB(|BV%IsAg*C^8V!6rCTr?S!mp&Lxgjfz6uDu+GrH^rJ
zB$VX7P1Zs9oQBr|i)j6pyt=|mFG&tHP6py<B-gpQWa2yWiyR}ZNsSQ!7d93V1n8A4
zWQ>E>rOsIB1{dUFv&s2jq^v(>;f3HNtXzVhmu!SE8k*;LL9)j}^VhlHEYD3w-jtll
zL^2c&#^++eX_%`Z8F?-_$H&7sSoJYO1P|=iCo(gnlUnHv<m`URN)5ZqC@MugRBEfg
z3()=|om5#aHG}=_dVr~x_gbl4T5XTjEdXP;QP{2=CXH%yGlb=<Df#!2{-H99MP1n_
z>^rG2#Tr;cie7+NS&LOq(?N?0gIm;>wOIW$WlEPS^$u;Ps2j&AivO^z*57G0SQ^F&
z?CS4fO_*e@I&K^vv<qvft(dWFq<gFwjKzp!!F7YTSb7(gR*re7yxT=nS<7|m2ui;x
zLs@yHm1R;Ub(B*&*7!(EEgDjWZ&7~p#OL_hKgTx(N0woe^Rpc9#*{%~gk*?MN_sBN
zN(Ldx&GH>kz+(lV)w7Y9-zFJiq2#p0Oadq6B||hZbwpwa%an{V?~_bW7D^sHA{l{a
z#iuxlfrAQ3{cPfvq>n}7l0F<t`ptYRG%VGGqX~f%fR83_aeOc_89X8xu7?CpGLjrP
zokBD*%L$T|do#(0f~2e#4=>NfLXkM~2l*J=WdgaHfLo|ldH&bM{$y;ne>O7P3sVIC
z+WY3*@e@Ngj&uFd$o2l&`Q&sW-hUH#d%w)Nxi`5mFeP423jNnnaP-a2ORgZ{&QL27
zl*h%Nf{xC>pU@9y{5DnaG`+{(pSd^lsP0401JC0#Isf_Gz7f$gk~K7J*sAZGTsm1W
zTbAkHO|Hz}ozJ!%%{2}_enV^=%GRF{t50OBo)^u-8&$P;VoR}YMsGLX9@#cikbZsX
z_0_i3m!XE(eDu$r`)K%Q!%rL+Z;x&`YVN$Y^xATA^;*u+etUG&<XH`VYU<gjZ(4c%
z?&}4+WBJ^BgZEF|JCS)g>mL?7hI8JN>u-qOvsuqMvF=>9<^|Dyexs&wrT1<x^w?lc
zTcO96{RR8Jj5B*=L~I?|((78RS+jTBNV%I=Qg>5@n%Y$t4rWkn9uz%;>jQsz;jga#
z{OYz|=eDNpKnLx4?s`^7|M<cOm*2m<HnZN7YrmNFUiu{T#Pw3zSg^Tnk8i=cQDF?!
z$D%~GeitI|01V|QfS*)AXQA*PYh!hsp4D>(mR<nv$r?CDi7}jU(wwFyY1a6*BVb}p
zoOz~3ZMO8wn)k@JRL-9?vQ~g8)-?4d9k9U}vP)G2M`-9_LNbO4rjYDm#0mf&5MfC6
zH&D{5DWfcX!U~=u14713gv?0@e?qTNNo|}<wiNYaWM)bZ4NPdJk_e!Jnm7UqjnQZg
zf$#}x^-@&jHY$mq1!x!QYU72v6$A<7R$$i1`YQKzqYF-o?h5q-I_XfysLpYbsoYwM
zS%7)5bgAy1bn=)rv6^(LeN-L|<bLBhu^_fmhCiTK{U7Qc86GMt4J)K>St?oowY_O?
zLZyUxsqHePU1hzYU7JdiL|9E8ZKaGUBaFR*Fu|2yG^LEJ5k=24Xv|5k(kN0@c!#PO
zU9_YuDO1YaM9nm-HA=tQh%A-Yk~I;iV@<ZGbt;dka_y8A`c~J+4C`ZgsJvTPA58$x
zQ-13NkyGDZsP21Xj^pQpH@NxW%}{iX0}O4r9tjEjc^Cjc0>Of@j|F%t%e^UiSeqX$
zFnyt9G7fUk9x7+=FJLvTuHOY>at>ssWDWuVjU<CX$u=Efp+SP*C1adOBU!kaQ7{ET
zaPqj<C5r|*c^tds+%;4lcPj{GGB^YlM7DrnO++I?lE;}#1~N!H2xu-k$)7`_og<VS
z$=P5@p^!|FB>IPy3`Umm^1wjQ^B1vElMseE$EPGqFc^-81R)p{uzyv4!tZVVB=&U~
zf`!JN{I5@4iSI(8@GeNfU*D#-t0+s=l1VhXpO~8p-nP8ASM>I#4NuJOLQBW}#e0hw
z_Z8f}yt_+ucdd=&d(MjR-+eZ1c-K*I*4|lMT3k)$TaJqG-+A<LGJpJ{c>Ln0&Wl;|
z#jNw<XYP|Z_vti}=A8#b=YdQN$=>+XIg~XIWt~F>PjlYWD|&h#H;bOr&}!9ZEr$#C
z>b%`2+I<kYGrlxV(ygMswcx5RcsdFVzUA*`n|rghecKLGtCb9LyP9g~EU&1vP^z(d
zEnC~ZZ8L)CG`wrwuAyoNay3WNrb4}MHF^K7dvA&Ly=iNq&bu1Ado?ro!Rhx;i?su3
z^G0LWT3z0MO7x$~HJ(n}3ylXdSJvLlHV)+*&xnm@a*gNG_RX3Gl+2krv8E$!+Nf*B
zp-(JLXfvqAfy@7K_^YpGYY%KY&Gj&tA6xj-@Kz-IY(j{j#uto$!sAePY!Xy8fo}tf
zFv=nIK^}zZtw#{7P;UVQo`Ki8`$_3k9`QQx-9<fsO#MuGJ4yvmWOOBk<8`1|WEPFU
zrKlN&+m*MRVt}`qG-bjJRLYs(L1o_2w*~sPfN(ZU@a;hM`Tv0j^iE@VdM<uL;Qf&2
zH}DhiBQYe8e;MNZi<ocaU%~im7z7}Y^l#j_DbYcRenX;fNc2s~hKDYgm`l#iB_*T$
zE1=*g9T0Ln0Q)BRTOpoZXxMc`l>8q-9pQBdZc{}o<?z6!%ey*6S4Sq6a}6#T)B5zw
zg_`;m|6PA(U~T`hKUdScWJ=TNfpn<Q(6kb{8_Cd_flMgZ(3Q3o>f9?=?p|5_?OffV
zB}>}4Oc$K>X$N`Z5A+ig67|52d@3G_alognL9|QEMKNv<1_7N!<q{rc8INL&N3}=N
z1G6C~o$tk@QC8;pNlZ8t4iV;}(O~ca&67iqo8zp^A<jaS$KX5gC%gf{uivJMW~%3K
z;mEN<gZm5H0At;(_7)lVEgGrD{h1N5p{r=Zq?u~;uMLU~{Y48Vt(2?oOQbJO(pIKn
zv%$L(y&Eku5QmyF5G|T8Wu~moJH92~R~AT-1t4PxL-*RF?xL+($l47pS<BPFa?(iP
zBm-~~<SE$5s<pPX2*AvW`C#2L18lSq*l2~FX_d@mPmGVfG$Hft^Uw$pNa1o+fTP4S
zwDlJd?81bAkG=^eTr5))Qvj4x27<>xjskkoffUuN3MWWWt?#6UH&}yuwxC?WIiUVK
zVL;^3S~Q?+hBgtol((s&36RXjiO;c%g(_L-2B*Qo795=R>q<gZGE8yNIgMhFkWBk6
z{3WO;Z^SDY!vRPRA|BOdc!WTb1?vYRvDv6BLKPadA)|c2&tV(dqVuFlvU_og<Rq61
zIhXpjH1T#1$m9(T;>}(z-Wq)QhA!B|Y1>BgK*8RKDwl2PMOB`x{${qeXWPQ;BjTh9
z>Nd4!MsuD+D3dmt`&4qMs7Rpl8ow|%$vm8XQ|8pbYqbY=3fV1hLSzMzTqQoOnTZIW
zrWbWUhqZP+DUEIsIesPHtWjt!(chvT&=Y<=e-m2cZ()FAfegY`=P~2AAP}%aSY??@
zATL>{)|Oadj~^l(>eHY`qf~Dboo$)6oU?t&fILu<d#eLEdvh9iT?Gnfb=pi;%deZ@
zr=cakjh}%Z{ssn74Df9eKF7x}hKPpnIX;dt92lR#0J(%v#@Kkw#9$Q*#vqUx+tK65
z)hu-iSA$>VY6=@OVbY9j3<-)o2FA5of8Te{SEL}i*70G_gPyN2D)TICJ`8`_gG?Ep
z|DV-iD|w9&gl{OEZ6_k#q4H|%Z332d7kdMh<{Pm$rpyYau^M@uFa!WWS5oU9(W-5%
zGFt;npQ>u?W|CSje-AyYue4lUq!rcDKp3fVG+~q)ONJS_OEXksK!GrwJiuz1i3eb(
z<7R~gXCJBuL4Ymt1qaCK5ujQy^u?mHe#dUciYHyNjG?i7BEiR`8e%sO#vvYr<|5HV
zTyjR@fPR9c1Ph3Km8y33Be?-*!tI6HZy7mmZ7}~uXQi&t>}+%%%y&YB1q^})k~kM8
z;FQ$Xy6~II828RSRmQz>M-lG5Lr1ACZAy)S|0z%kczU1GPf85@vzE5|se7rltLxYD
zr>=>ou03h_4p9O&_VpC(HOpg}p7n$4?vGot$6p3pR|{e3XcqGy`q2Ks4$Ob`TE6+1
z*nA91{iL)5O6z>9qnWYw(e<H^2iIGk)LsVGZ{D=m<n6<veYmKnERJ88pOcw@21K6*
z<|s*VcWnI^2=-+68Z2Mb0~;?F7f=fyUY`Q69@nLG0Gsz<^eKJmyntbb0T2N-iHSx9
zQlu?8NHHp8_}V@h(x-L`N{zs+fFit<zQD)<z)3d&SV3D8Kf}KbRroXp{|JMBjKMn)
zsM|%Om8!L^q=I*|y6dFs(k7JwJ<mZKLTNXZORAc(-K5B>e}~j75CD|7Q@+-`w_o)3
zKX&B2r?X}^hyYMDZ9|{hh6;_HOP4kq+tZgI6Y2UyZyyT!rtTs``TDmgy$?*QZV(f`
zp0#Pwdkhi<Z%f`gBzlLkCobo_S1PvHNm>Nu(0$jPZR*as4nb|#F)*!aS^z%<1LPwZ
z>=tK>n2Eu^fIk6CcjNS35>3VFvP4q_91&|WPA39xUl~k?co|H`R0*a-O5W`_gdHMJ
z<!D>`VK<b+bW|hX14jg~{~9>Mq(K4aRRIRTxv`Ql48VECd<C4F!Jb^bXI*RMx~z?}
zuohx_w(mh9m+sLwM@lEHtmADaU}dW~8)xSXm0OxDU8<Wn2WRlWTEW<zpjcE9#li{a
z!zIZAcpNXw3FhIy4|I|Z?=uwZv#e$)r;9?4fGCJ?5(IKTq2JNJV|a(zVSxUI(zuez
z`G;_;SIMOKLw#k*{6l65_)tmJSTa<4n?O;L!>Fi|2WTtZlu?zGwKDmyN!F5ab*4#e
zv-AtxvAUE}W6-BhjhB8){1Qg0DND&Vl>%z*SL3B$Q27mMW>U}U-ZrOnnt55l0B9_M
z)@oFGh-)*4xHj{Dpjl`J?Ic<P$ip&IbmjL`wz`cfHBkWh??H0M?K<v0oW~X}$WQdJ
z@6^3XE$No%C6HUNnkenyAu@pMX+KRk7FcpdAYV3op2OIA2m~Z=y?t9&;w1CQXef4_
z4V_--Ak3Q_4-E?RodmcViVCM8B9j?m1Oko;z`=XZ7pfap?V0HMu`l&HUlrk03%b5(
zG74fO^1DkQ3j7Q3?5Q_Bmg!0L*u9_*PS*HQ<&-QOdQ%XqFfOlTy@{?Cvh~;rhFccg
z8x(g7fk$M<{{VyEL0ZqQ@-lq256fM|!YrGkiR=?38?pGxgwS`KRigAXT;IlnlYBE)
zZ220$3RSk=!J$-GeAx`72+y-;&z5V_G8Egn{zYg<_#Y7b@7vUd*`XSWH(kEG%P+e8
zdDl_VbreKd<NkbOzu4H1w$W0w!3X%sw&`ifdk%@R9t|L?^%x+uyuDept0vMdMz7j%
z%~W^KhrS2I?hD4#j4|JOLTo(&D6N~Iw1eALYVZtcpk1`Lf2q?ss!)+@27~G=%csD&
zJ7^WnhY<_9SKHs~TWf!G5DdNbjVoh!$1-&v?0bLT<7@fnCdB6^p47bv!?SGkUn@9#
zS$p&9&3wy%*fIc@sE47iUzmHyhLS8Yqy~%ZGZg!FSfo9Xo~Dj}i{gJ92;qPrBzd5d
zf%AQc3pxlCwOew^dr#|kp{eX_>?*5K4}_wO6BGO8oU<=$?jz%$AgD~LtK^3xIY=LZ
zyqAR?Dj@D@WN%xO&_nsre+ZfQRD`TuDZ}^S{%w(oyY_;tDt!C~AeD(*Qu^EE9x|n8
zX%wuBOi}}-(1Vo>Wk&$HDmW?2hujMHaH{=!g!&B-HH$_a1y*exz+`+K@GLU#It*oO
zPn&xMaU(cN?kHe;V<Kg*9eUT8wA?a=WpEszyUak*v<=n}6nyY@z*8#1gQ|vCL;OF3
zJRTJz9(gGL9tOXU!5=^%*?|}?g%nz3?ff4?pt1zqWHLVgDaQU71MEv;WDfK!L@hG~
z1yR@IhWit!Np6qq?jN1b+d4nBbrzhyth1}o+I!cr+1j3O9TZy!AHSAsJ+tg60G{?e
zFZ!NeKb7-cUK-!5?abC5&DxJbSnwTw+#>qUrN=kwy{jYlNAHbhM)K{0V*B7@_D|#g
zJpLc*FQhO0jjt`!1E}41dTAWgu!d3kGpF}QZ{?lcpE|oYY7eeC*PFAQ7jw0jvi3`G
zTXo-Z&ywlQxew#TlP_!b$w%3wI3k9X*9)_tD4aRj=+dr@4lfP!cReiqNYmW3t*lGp
zaUqYoML@%%VOxDnQN#!bN1|kvNCA#gw-`^qTMJu`pvFZb3y0?>#V?d?awGV5QR+q|
z*D)0~eWfkGXik~F|7wb<wDIA(n3=(g%w12)!cr+y6O}TvfY&GW3s8<1%Wy#qF_vl~
zzEaw}VcX7VNT<{kTtq81)LEi#TJZ>2N^R|!vpLzIwx`YA3dhq52UI(r;BKLxL9Vdt
zNol5WntJyy3_t~k%Q7(v4pP<NkCeE{1=+b-@H&NyHTk;9Dr=WS-XkyPU&jEAIg(?i
z3#CIcu#s?5s>WLxw&e6Ez=aH#<PmX7CU8Fj#g!*`LLzQZB|TPlgJOi~&@3kzZbrCU
zk_B9*;sTgeILQR6FP88)eMui;S>Oh*;9wqLhHVzywPFH{6Nca*UY*Jq1j&FS(lX^y
zOAM*NKf)Hqv4vWtk}@l~Gd#}%@*LSjLqhqk%#P%W7pb7!Da-tzyr2h}LL&r#6B?RU
z2lL*;qWAE}9a-<;ocB_$;WF6V_jmlXBklN)2f9UjOL}Cvcf)xwlU)1u6X%gawYyN)
zk}-&N9q9|3&Q`c;a(02B-`A0Ob!}|DJ=c6@*$PbL{?&U|^S)uxH@s{q)HY{p{e|x1
z`R-F<_o-}MXQ6!{-+oMNKUQ!bTD!Uy$hwCL-u6srttQ*l^M#)F^lmowf`ik*gLt;@
zbhhct7mUtxmfq4EIvSS8;TEgoNWOhoY#&~~@`*M3>b1YF%C&!Id7LzRLTo>geSSRG
zKCwLhneRa6!rGZ9CtuF_UP+Jtjoq`_k!gNn?=RRrGOSr;e_=mR9H80{6$h#6W|jTO
zvcGz_r5jIkMI$%i_k@v8A_?*$@Zy7g%khsf<IgduXaxT!Sc1WSgFoSC5P;QS^W6FW
zPPH=D%t8@=){lOPKgAK6X8PCa5p)$Ph^}{h)bq2REsPecslFp$*y@?)&06=$$-5_u
z48##``N$2Q2~*&LcI5GhxNoRv!K78W@XN4bV|Nkjg55>F^~<^siIziK4$SLoW|}jX
z)?R&lbe;Lg{xf^_=!n>RL2Mr_Qc&{A(NBcG9{LKSgmII(gkc)mqe}R#>#*tmq0J9q
zfT;O@Zh)w0BH7DyBAY%GBZQ5u2IB=7Ccc6BqDnJgxWIhjB<721V4k&-d<`_3;LnHV
zgiv&Bykx}SHGM-<A5p-f8Gs1Z8c6NBMEHhxq?ODTC|E0*Ezqw4lx<BAqmV7TH+86c
zCq<X;NK-miyKVrnuD}AQr<pJS1XL2YnyRn13J1;yv=wk+Wy445(jb1JWER+?x294r
zYHSZm6hFJ39kbP3y1_S20XHyP<ox6*^Z(LUGPJ0|8tP~>-DB4K)iz7NP)max<RV0}
z5y1z@G6o+f=t}!YGJ#PH1*L3Is3~dj{6B^Ecyv3JFNx1#jPSb_jQuMJq}pVJL+7d;
zIy!1x{9j^#<{19>Ft~yNzDlq`lTR?<;{)Xz4E~QG+ppY7Yx}#*CE&YIE}(^k2+ML!
z+C#LpvXi3OGsaO&W}(incj(iFXX(?j5?%0hp-$`B@OBj32Of>BH+<Zj>v<9MVjt0q
zWmEQ@;icict@~43H?d3~61|7=-eJ)@oF4h{*k@jUp}KCxcGs4#J}6cn)DoRyb>{}S
zG>xuZ&NUv}HW_?X>5+HG-~znu@MB~C@Hz4Dxm@cD*njh;>X?<cpA_vUl`9chQ|5_|
z(FW7ofv<6!5jHRc5uzi*@9w7((k@+et9rAJykA)ndLNo7*P2Q0LhDm&ze`_c@f9Fs
zRP^N*(b<xB_KVK`$CjM)`K<YQS!<RosxOwn{}jlH#<W90)@-wVP`tP9FW*+GRx-rF
z>TGB-8+DJ7#rp(%(z+uGT4|4!Uv;>jnx~?kP2v0wlKB;@DDbT#etQLb{qlTv|FLxk
zST{V@v;%~A88AUbaK}3{Kn8hd=$5wU+$x#?;H@ca6dV|I>RfgFzlN5``BQxkuv5t>
zpSvAy2T~P&*EN^q;HxG4E^49Wsmbmn!25pzk3U@Un5mkEyz8Lo0&w|3>iyK?-^jVn
z@3?G199?;`*Px`_(vbph<|$P7v<W3~QOHx;oZy9_d$tz_$WQ&mLY2bO`eft{x`;!#
z5t&uKcj5$C7xeX&8iN4(gJq0Sp&)oqT|A-;z~bRoT{{+!P%Sh+wPNLHeF4|27y1G&
z<l3JZ%nn`39>4s=btP@wsPV6L%1)8a`n+?$=-i(<o^u|`nh%k40rz|pe%Id>!v0(6
zli*nXBaD3wiv2m#U@(T`-Gm6B*aD*1dKtyS529H3DfZFKa0$c?mq6?=oPv{Q=|b<o
z7dC4dkcBv$fjSR?wcwn#1IS`>7m&rQ-9Q%e+zec$0Um~rEs6}pp-~y_t{Oy(Z_9*P
zReGjp53ma*D%gdn40g%9$u5O?YY!gD1Ms(ng6AqllVb@6hBn2(fc`>sCBGs-I7&ML
ze1su?BnEpHcI~9@_vjTGROAB&YM%NN{Vf_^?}EK->-E7dwGz{`fFE_j?!$5M{}Kaa
zdpoz@zsGD0ZbOH{F^K$ElyqB0%G0`JhYOTRbQu2L()U*1dgAOW)V6`5SKE~yDOA-g
zkEWwJbJG_lApM`@j^GDf-L!vLG6jQdA{-3z-O!xm3@6}IP2z<h^o6d6Wu?dx0X06E
zNJItMGKO25*yN@1xd_CkNUFjMH*_MGeJ*5wZ7<1`KPM%hT!I^1IKhYD<064aEGXa8
z^??%vd@~|DVInM)s!2r_9ls;jfn~A8a>t{3B72i}5CZw;LH%B-Pd2&r!AFpho1{D0
zL9Xo?wBYy+pOg~kI^vctyU-naR*l_=h5((;XVf5H!YJRI%08w?pFu5Oh@g3ad_AjO
zhsgMfT$=P&sxGgE%(@g_7@SK+;N=mMhlA7+IPkiM?~HlWe<dq1Uc*PD;0BGdn@2z_
zF>)<rn#Alv?nrpNVc}62NP4IxyNjK|q!G*(;8x3@MFJiJywsMl<Igchcv1{wxQ8E5
z@@YH?ak!>}QA6d^{NF+nkCV^>VNp-h^cP(eJxc$Ivi*{3|0U)76=nY=RR{6^jLB2~
ziR%AKXP|XoP!N1+rRY;Tlb7gUQlnq#^iXJ~=$9bX`?u7<S2`nPP!JSr>gk${P^92z
zZSKR=gVYvAw-2AD8<t;LdF}3N+Z05%U(k7JSDL>wzcjy1L3I1%b3jmoA9rn25G~Hq
zl&*1G7oh28IeQB}*`k}b^pIU7+1m@c0lH_I#}D2z-D|OJ3X;WX+DLl~j{0S8^?auO
r1K<0;tglyW=o20NMLiU4GLAI2d|vjK%hq*>RR=|;bDM!8vVi{=LYM+>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/chameleon.cpython-312.pyc b/model_executor/models/__pycache__/chameleon.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..251b7cd80038eeb95042d973b038000abb4c855d
GIT binary patch
literal 51176
zcmeFa34C0~c_;Y#K7q#302)98Xxt}3@B;4xBuJ4G3Goso!%`3s-2j{H2B6ms9tdE|
zjuL~8YysmW1hYyACf*eoD-oR8OyEp1rZ<_1HZ!~1k4?MVFI3DV+9aCU>_7q(+1c5h
z{eShY?&bqYd%d&2{r#p$RM)FlRj<zPs;|EKw|RL^4lZK;rSPBK=D5G12gNz$!0P{C
z=C~VNkP8|jT-4BSh#LEiQB%LkKyk*1Icn**u&^m&joSKcENqV0qmF(@)Y<Qhy82x#
z&JuC=yOGBd$&2Rq=gV=PX#SAVz(ouC3t5acQWP!jFOGWqz0s2Xl4xmvDT}v7%A&r0
z9}C+f<<W}%ifCnjC3|*6{L!lZDi(G|s-rdiHPJwSfIYh+wb8o%Iu>?E>Z1+)4J@1&
zX^b}YH?eSjq&eEs-x6)@Z;iI~x3M@+q&?cv-@(EKkqyz#{!SJyjBJc{^>?vwQDjqe
zbN}Y(mi{g5xj3>lx~+d(w7b8XJ$obDqdWR{uy9FaXLMKpE*370?2hi~-xJ;2zc;$C
ze;<o0i|mgc=s&>1zDQ5>VE@7Bq5ebB-u~X`;r_$XBmGC%yYk30(WCuGS-2u{Ec$H!
zvn*U0c`kaq|9JF7{|P+%gH@5f==1&0M^E;jjGpR06+PX5n#ET~&P31lpN+oI|3dU!
z|GDUk{Vy6gBNwU*z4Q%(H0J%EF>=pv!J5~(U?6n-8zwonpT*W9wk~u?jr}Z(tw(G_
z=xFG(<w&f)dzrm!#Ji@@!JK!muy@UP*AmLV_($?=%lJ`C8DJ?}k+Kab?`9;CgKEk_
zma-iwJD!m8JWII&DLbE#a)_neh?HGVNEu`)HzDQbC!`Fqlv|K;>l0EAvy|JAvik`s
zM_9`3NV($)DKD^;JCSnN6H<m*%H2r0=Lsn<vXpy~a^E+M(y;VjVsZNsci;)RBba}?
zE{cziZ0MEHXG1T))1!<qEAb#oJfvS@=w#?r==3+NQc2&C3+x}gW@+vHke*siqWxGr
z#1Ed2ghbnk!SV6%=!j@P6MA(bG&&S&HHe;}!J!MG;J`RPHXh>R*AQh5$0A|8G>ML$
z(b2K^U_2BQO+BO6MBDK&6&C4hHH+?pgYlsYM?!<~2|grx4qX_Gh9aS{(L-aS!{HIJ
zNR2qjj}3)lu`yoss&VH|o$EO)rNjpvJ@I&GG#(xsZ8eInLsTKT6z91}B&wz>I5-#!
z^-e^i*Pb7z)G;J?kA&g_<KqJ({Mf{}*g#Jx3tt<Ejs-)Jf$>4qH-f;GF+LI;h=nJq
z)voYpI6e>=8yN}lcyyi#M<#kkgC`~;c(R>7ai(vKkD>!APK5Z8Q1H-LWFk6xQZDLv
zcr-M~i-o72JC_@EdhAMe6pHg49~%kBV`?`bs_4|jAlf@QNUcztXQ#^3FrZoaYB48{
zh6aOT>AA6?!ShPw;pq8LFo>Z<%93DccyJ;TAGi_<k6fTe4F*HJSiz57$!L7$J5-<`
zhEK^E2IFx)hPdJrFC0I6?8NiEJ;w)5AAaW8nX{)qgDxmSr^Lf2#)5;9-of}_Z+Iv!
zmS}ND!l4NIhmCng^mA7R`H>i=UQ{YNs|+dHB9_s3YDK9%Bo@&N`4O!=Haa{e7UDTN
z9zPu#j|>ilqL?qDTZ(#NJcubO7H2;7hT?<a2z|R$oixWr$0y>kgA?HhI*1y4Y!tIO
z8VZJy{Vba_Y(`1JGnj?ZLD3~YT^Jk>eMkrcQ{SuASsjU(SafD$e0+?L$F#SYSaRIS
zlVY9{W`mDn%EB?4xzTVehDNf%iiS`lu{k<;DKrp5Yp)H2GwLYM?AXBY;81*wzb3j^
z!pPvY5FZoW(ZOryLs-b6;qcWV85Xb~yZo^FG6FZa5Z7-Aa{a~^K;!hALgt{6uvo|v
zH0_~ZYshx7K+ciz1DNFqnuC_0HE8<=Xe4sON=`fFyyj?iiskAWKNcMv37rgI4Mn7m
zpImeX;CjOtyBMwBUF@0SHU!R(?g}t~5}*|tXbX%^V2<;FvEe|N%86y99oiM>Q{N6<
z7#tl9MPh-LEv*@8F6;^%WpkcN2mzu<#bl(ovMcanI2ga6lR$KjQ?&;!4@M?JG0_~q
zHXag<=SM#z(m*s^5DiyEGv?f29~x{Q7#IcU8yFCs0|av>A{2HH47@rq7?I!D1_pv-
zLjwam(VwDcU;uR{xJtc%SQ;PEf)O3MAX=sQ#&;p^4z~)Q`={qN#-rmK$HU_r;#gIo
z_=c+!+js7`v^}&j5<b6i{963N*yzT~fRr00m>0Sl8k#_H(qn8R`bdJ!o#WT|-6)ZH
zClH8jf%gmCM@Fl~zEZ%sie@_nXKm74n|2n@9=>sW?)dHY#o$uUQf&E9vhF~_dq8mZ
z+&A~|&ncy3O*9K)$*mrNr%kk=;dQRx6f}m+!^WWLb#uQZXr^fvvIi}bHf0*&ofYpe
z$wGF7Z3sJo$n0X7I;FBf!jMeAu}{*_(BJ9-csIBy?jnA3-9<`~<KpsM1|27tcZR!T
z=mX?44aKjDc?6U%3=a%35XZZb`;I|0$3l_e7^M&J$Kms*;Y~KKQ_;?>GCqr>u`+nC
zacNKSn^&)2O?esxPvh6elAi8_y_@x|XuZTBXjU7kdtLZj?S*#(RO~vflqnJ<Qk~Yy
zVMCakGJM_eRl^yMKZyjbCjJzD!~(gN;|jj!^XRRSKZ_s!1$Z$kI3Tz9MT93?p3q{o
zte>ImHSnm>Ei-Yc*)4*n<$mjK!E<E!GQ5QSh}?KS1gc`RFRS(RaW=xVh`^y4g2ph~
z&}!-vEeuBRoA82vmb^3YGKNPiqqfB)SPWt(8Xbs)qd>}&8z0vIoeYCiFiirqqo8cQ
zaAqoDuVj_huj?)(WwSAJt|E?{La$95rVJn`A92d~7<uYzv4AylAQpOcAQBoKiC>V1
zMs%pXoH;<Em)Z<4Iw0kXk6i-Xo$PpAgL6{{@!gmo9$M@5rM#_zw>9Z)pK+u;zLcj`
z@U$lEt*rH}F8&bG@xA07CXZHxXdOF$F*Fos4dBfbV~WLj(FCl<(>mY>$YVpsAPQSc
zeH2GtKmKCWgRgTR8x5B2D^`Q$8N*`fDo4Nc<X<dXDqb2|?)~P)r5d5Nhu-*CtVT=Q
z!q6IrA67Y5*bvH5oyzTJW5l2#1bi5>NO+9_EHeXGRtFaZumX<EPGM!~ZE|`u0W;*X
z58DC0Ed7pa=2nMTsrEP{U9+eV(SfNrG&V6BkMS>|cHq7=NBzYn{1gJ1M23qxlZcjq
z!h%d20T41vkjuKLz-6s$ZSt9>Oc!MaBI7kTZJshu87GmGEis<Pf~T@UxR@}rL~|Ha
znKUz988fWaBEgFgl8R1sLdAH30DKr;jA}zzUjigzKF!l0QT3p2uEr<Z9@Ae8l4@xQ
z#<K~6`B_qZ<CVEr7Pc?;BuhGHoDaRe8^`93rM#Vjw=?PO!kjIwNtLz>rR_7Whn|Z0
ze!<h6us5>_(kI&FWhFW>AY&4DF+>BPIE<_`7=MkxkAq*-RgMn5m|3D+vR>z3HB4Kk
zty9K}$~;wSf#0kFw@sP&LJXj8It8DNg4&z52Mw4UggtWHlx4~~Wt+0UV^XL(235^{
zSwn8QLbQ@-y}*bno;qH1j9m`#d^i}2wOaWLh>_O3<MOLAwiKOwC<fMv=p258vJ?(z
zgUu#QtkogSmk8yjNyA4ep;gAWV-zz^9{Z$6nrZ5XW7Kdqm$dm*sC@!sNo3mOhNqiS
za&jJJ#(oaoYut*PD=NKFK3AS9Y!M1ul7($E)`#Uasq$8#yfsz6RVd$@uy38Q%vy8j
z-(PLpKi_t%^JeE_+5L)5chAmvR;*l}clK<mq+KX!PnTAv%c|0qjp>Tk6$e+^vC3IW
z^H)r^0_O^6b2ufq#n7`e7qZeM;t3J)=gGT7UJ-c><Xs^z2ciZkjy$&hXsBN2RzUN$
zEZUY#OJ|nsLd(t-4$sR&tMs$t<M#F#K5}?1&WDBG6$^e*dvE3ZmIc%N4xzYV#YRzf
zuEaloC{ep9;ol^9H!qzPygOGY(~6UG`qx|tN$sFdXTe`5BFL@&D|lbRdQx~2g0BR3
z0aq0$Ob}UnGG{$mLe^pD3^!~5>FDma1wm4V9K_84R?DGbbI?wtWY7_^2Aw&%sbrS~
zy@#zq7t*<d?oeJ%y1Y<6%JYN@sARzQe55O!;jS9`ivS!wqF<d}8tW&Ms*rkEfu6z2
zi8gt9F_<q=ccK$mc|ZzF@Sk9#;s`1;_<s+9Uoima7-Of`A^9j>j#B`S9`v6wD8OOb
zf)WY1<+v$}mLjf#m$(W*rYs|dchpjXMt~0)^PJ)0L?AJD-8#j6rHTXYnletArp)h{
z6(EC-v-E)pcZ7*69|#9yqH#Qq2v=MZ-w@N)YUU?V4o{1bCoITM!)vuOXd{v4jI066
zh<=7d3nCw}W&mQY$TcF`Rl;aMqJ9R(MkCjFY6JK;5@c9F;vs9%zz~E)Svgv55?s>x
zzUY)jlvUa>FfbGujDd}dQ7=lc=rxHc_!1&AC`_Hn(fR0yzl=;Vf`&hQjr%B{D=15s
zSKTVVS)MBI63V-h<(pIGJB9L{%T3Aho|$LyGF84;DBrt$F<E|W=Gh0uHD5O`ITxqy
z2ll+zaKHHZg!}mqJl^Y9K&z#T%hTRUpuu!mEnrST8(<EB8;cBX#5}oOQfFn+A~d#a
zF207qPlW!AKxdh=8|9EwX6ZEO5TwwdL}<~08Zk_nM+`I?3R!HHaLyMIB{~S^UnUWm
z=!k{JrQudc5$aLVp-mKvl+djvq=C#PO8D22XL8Tu)^+C-rrEEfgjf$eU=b%*QZ7*=
z?Si*G>D>Toq@X-iP%jkJCkq;9EDy{4^PfpobqV-iwrR%w(Bofl&wozvY)IHQFc>O2
zFrV34iHW6IQyXAK<`px60JVn=*Z~A?aB-D%jH{{isF9$$q~9?r06-%ETMhgk6bFv+
z7x2S3!V_)hNe&zeB9bwRbM)q)!Hdy{upZc25K9>5M_q?WU>K7rgvrg1?_wI(+&p)v
z>`HjAacfSlz<a;8J5{?+sNJ`GC0YB-eb3Q^{ixJsc4URXIvNx6#sFiqjxr;+;z;<y
zI_it)q92c`4w}JA8;O<1{L~jX&@kjUb;et!EP9YveQyO}X1+-E%W-T)*w|YIk!GY|
zZ|&@@3Wv4V?5$&++IqBfN=U7ZbILwqm~s+FFzt#LD(^v7B0gTMJYV!GA?<g{hMX>1
zyHgHn4TIcNxfWm!c}k8DJ8zK)Phf)l5Q({^wTvYSiHsfct-(k*eoeGWk}%Q5Yw}=5
z^?(s&q$sh>Ji!M34R~UqL^#Hf4I2c+3Nv0rlnKhvsQev?A#J049hA=lK@S*MtrBi&
zmj5cHpjpn}AdfLOU!~BS@WlMguZ4rkGy5)DBD$sb^i@0+s9cit8HjSF_Yxdt;syz?
zNWQe7irIpaA@&3lfyXAhp1hp0b1b2{vHt}gqjgI*&h~0tli)p?*z^p1Kr4ltS`U7e
zSI=Kd)$9`RzkK&hep-6oD%5~P-iBuhzI6*#-9p)Rz_-epTRU&=OjYg_Dt9I;cPH$=
zw67^q)|_bDC6w)&aj$_`u1=Q+q}T`kjVb?r!M{IUQlIcPEKCXBElX2Nqk^|LUB79~
zVyY@yv)S@MKRXDaIb?*^TAWKdGpd<ZKmW7jxyU0dEt(@?2qw<c^XudhXybo{yk_#6
z$fLE)x0CnZ!V~jk%s&(Y=`e7|z+Xo!6FMD`(El|`N*;Uh0RlfHvbzvObwTlp1-~Gw
zi^}JV=ZEJjg~G-a8%5bAI@>zGTPSW`aZnV{2k7jD()s5EZ_A2{qTHOb^piXaH90Mv
z56dd&56xX$u^@~xo%u6E*UMLJ^yITxju{>n*Q{75fS0u`i>AeMi!LFsb;ZWw?3}Z3
zwm4DRo+xY=9386;7MovzdKNXVSn!*hjiT(FZ^Md%LLl~wW;+B&&8IFrN)$gedkBB3
zBLaflY6HAXil0&MhS%*RAcmOO%;;(h;hc;;#N)KZL3?spL<tQDfvnZvgGU6ihUKmU
zAb$k|J!JssG5)6EcdP)_CIZz4#03om28Y2BW3yd$aU$QC18~#<x<O-H1-4;>LhKs2
ztb95EcfEYqNOJk%e})tDvbOF(dHy2mK^qHfmvR6A0xbvJn*=nB(MA+sM+vM_Hole~
z%;&>{F`42KT^GW^U}%)>c8X@&iDU9xX@*j-5g?I?)ZfM9q$Z<Md%9Ek{Qryuu~YCs
zkUp^IUAGB#-+Uzm)eG@^_U^^Y@Y1y%i>GhbBm$df%=hh8A0UDER^`pgh0ovLaXQg-
z=Dz*x0~QB5c46Rt_sK-VsqflPv#F9bqBI5!8B-5rj;Eej3nU?@OT#ej9UvHLDICdH
zky3}WBxI&P+JvkqAESLnKDzKXGr#}C5B5RwZwig0n?=JB(aHAR254;fcafYYSjvAB
z-W^G1F6Jr2KwIdsEa9vTvNH(ygOe31#MXLVe)nAz6*~YA{q8Hj<-X}oyUXXdrYgIH
z%C4n`W%J#JHIuR2Ig^L=S>Cj0e%E!!CHS^11^*!Y&9LCxKa-dC_!D+N>u1Pl4xy|J
z2`!C0|1ZgVo4iGMnc(ZUDU!VZiC*Nx1Nd4qS}bP_|Cn#FR7ne+5@aoOT9D*cNqCXD
z&>bB83%bDGn}R0%ft8m;s!VKZ1$%Bo3<Oof`3xvHUe5zd?*ve=GoawWV7NuM+F>V-
zpX}pl=>xlG?vm0DqUe<S9y_I?8(VRsab*jKMu?bl+9s8lZgu734Xu1O0}}`^n1Wx)
zUAF<IV8$pU5!Svu!z2cG1aO7TC<{cV*8c{Q;9n=USWW|2L*+83G1Op-4UoV|>CH%Q
z$w;r2ZVFm2ZO3qU;<P8jToAH9e8c|hCWTJ_q9LwyzFJ3oRfT1MIF7y#3E=%xUgrp=
z<iNx@vB(!OpPdpL&brPGVwreydWf+J&EG{P{yXp{ot?q4E2Avi9Si@j5hc1Z(&r?{
zMj13KCVelAs(UE`j7a!0+xy%Vn5^v#JP)26yS|Z$KsXlAl3@`9M#rvnLO@8sfM>JS
zN8fX2)}61QD2G}p(Rq$`Z4dMO7|)l|J1agoFgyyW0pm|-!tf+^;=fJaUGiv3u;xh+
zl6s6FBwQwtEXkaCDtP<>634y@58!dFh;!sK0D0eD@xb4mE~`sdv?t0t7GDMLo-Qm&
zmp7(M{j)F4zmh0!UvpWjoCGk-*YdfF_H<cG+E<^Ms6SEMf<zTa^hW+lKIbl-FTLlg
zc~Im}7qu<!TI@)4znCa^Y1L#b&R^k-dHJB4%4)wBnK6IG^(btm*~ez~RRkCd4~8e#
zX@VgrvvJc#u;rZIuIZG@9Rf;ndW?NeNd}aZvE%sX_%Kg^h5xtkAm^d65e-*Gn>@Ip
zVIT(l&Cwu8<P<@wNlk?atG`nQl>aB*#CF4@ZGiGrNt000wD4-Or1iRU#x`4+b{D+)
z-1X<?ZAo`v#z1?npS%9K`N5<oaNRs(nAw!}6wKHq7-{M|B66*dNL<gOY)RtkM+mrf
zY%C&8$o0YJA5$Lk{t|yNB0P!ub8}m^r%Ni*rM{0meoOts65omizX0I=niU&`AXN3O
zI4I=g%32q<3Z)xYT=eMXJjE+{6w2oyl%?$0vUlcxQi#w$?lD^mC5TMl9KxUK%H+^0
zv@~@fvILg_nY|g1*#yXJ4q8JHu!fZFEdztoHb8DWcJ8Go2b4mbA*cN00t|NpewQ-%
zod@{s3g(C07io>=xS(g9cz0->9Qx^1;cWqgvYud}eyU*6I`MA(cnE`wQC<PVJB7eI
zB^ku1s;wqt9|!So7oepD#*KoPF3V3&Qsx?nUw|%>=w{&<<cy?&R~8+-Ixs#K3)9vJ
zG<{@su9yanL^o5+Q;-(HUI|$d&!RXd0&Gc7VyWaHD|arkA|gnS+*Q!ov<t|H8=ytU
zoIYU$J|2Wr&~T{*v)cG9_eEO%DvD9^0wKC40YFe*1`@-QN`xVo4zWDty7V#{>Rs<`
z#<xq^w_W-vGt#j-YKSpNd!)Kwrur&mJ!-19i4l+Llh#7HeX496<<fZMIK&p^MBz~)
zJO|YDNLBD?s>kM4=Yf8zplK3yMmyBDg2><oRPq7xA#Q+(I_Bb}n!y}vtxk>c6`ejn
ztXjTO0={a;hN2V1iA2!I<Q2ZBwlQ9>q+YjNojR~ygS<&D-3oHamO(D5IpWP3rK^3c
z#8I#4jmfZz(oj>ck~*s_wf@T6rz)#NNgdyyg!F5$PAsH=Q<it^87);HIv3xRQQ}j#
z6yG62D#syKuYC@=w;kwh=Qp&mBo3N6kd>}JrW(K$aQ;q;efaHva&*25P{;^On?$EO
z2uey^sV5EvxCqlvkw9mW7NG#p9Aa|P);Y$C<NplbfF1(iE980C27=)zX+LTZ6&M-{
zr2O}hY|_#R1=mqf7%4pQe?i_|@(7}~R%FnYzelk&?)*dYzDM3)!4pj=n&lSltp4;l
z>#I^TY^W<Enr$*@=hKu=B#(MXv@3le5vo?X1;0)2PzZ64(DjnI$SR6d8U>`l6FCq5
zo$8;LLA|o7vF5OkQ8T44-lY&DW?4I_iJ~n&&T1%;wzU3<q*7caeX9upR1Bw5xmE+f
zy%!LYsN9MSDmPu(L?o>5K~Z<IXvd5#UDHC(evnxyPrcx&Ul_qI#!}%u&*p@EbHcNk
z?O1IP$~P>P3FSM8vQ5`@QkI&u%ad}|39h<@k$bKUAc>%IRNN*Mw=KRX6mMNN+$-Lh
zaPLeM@04U@XH!*M1^mx?^}t`VU|86is^2Bl?^+%a>JKOVM;MI_+Ik_LYThm2zi&6b
zo0l%FxG_36x)6VR`u4O?x)pJ*bXjGptVJkmS={>W-aC7RGOD2)u{WmYrWb-jSsQz<
zXuyvr-Mo*AZur30N|ZZ_i_S&U{y@s#CHTA2HT9{QZlR_-lcfJlqPTg@V+YfY3V>Yz
z%}-x!7s{Y#`EK-1R4Ch>!v(yUC~gE7P)1o?;1oa<HoV(;r*paC+Z(>MA<=p?S$d3K
zJt%EiY)G~37TR_%pZ)eL-+Cp{`dqT~ID1u5M?~<6>nG%vq=_4;1UG_$E2&`5S^-y5
zO^N!h_bF-dbo}~pHehW+c^fe=3jgv#qPQOIC_&z@I2he28eSC*mxhQOQ5+$AMxKmf
z_JHG9M}Y}|2NNsTAyy?tw0Fu@0k{sMzB&~0sYHgB?+K+5QJ^C7j9lt&7~^tOl$()4
zMH<sa=wll6(BTNhtEg7X8-#?Qg8NNK4dx)9{3_&4D8aZ+3C5=?fusq>VIz}T@$cYM
zAO2quFhYmc22C6$Ib^WoZ}CQghyNRe{sEq7z8nr+!G<`cQugvbqPHKz%ihb&m$yD&
zmEhK7t;!f@01jyrUQW_S;Nvz5!Zw4Q%gcZB*!5$x=jR)kf=t7^8}4jKx_5v#bLS~<
zQWfn&Mf>8}cVD^lO47ZX-bq}X;g|Xzc_^CcdGpBiBMEooY|o8n=AM~9G=F;bI35@3
z?ztN&`4dxk3TA6(;xiK843$cmHjnXth+1dOY9eUatUf5sYEEw+YWy+dqfOW#H0kou
zy0d)UIjl3YM@&J3wwd-aYDT(a(~wo^&S+?RDMT)-8R?nn>xGeA%BrlljI@M8a-5_?
zrlg&=qeN8_r6rxRE0QW!nge}8B0W<do2evQ1!jeq=HDX=CgM0Y`go!y_`fIbhvfb5
z<o!qT{sTNP>SrnZBl2jRL=&(rFVLepbw$Hv(M2e9KoV0yCzXk}Vni+}XfR90powI)
z=`2ec`e`2jDl)Q7eW-?2%~j1$Ckr=Rx6YVmPNj=VZnVy|&Y!*Y*_)pQl<v6Gv26af
z`&;gW|L}X8XIqm+eb;Rya+n!p__0p#)GcgUfGDCx5=A_OaN_gVKR<tMv3BuP(z8((
zPyn-p=fXg2l(w{G#zp&a&&@rz;7WQst~+L|vk+^P%;ZTz4BLkV%^cVFAqR4<??@ki
z5A|&=%9Z|}N33WW#&Myzw3|PO2%dl-PeKkpNgfe|lAz-#g^t0)L4}F&NJtuw^~E0~
zyynTnVOcI#3{Mh&RMn+BH>aE1)0?|V4${7nL?LBI4A^WUSqKFP^OvpISkTUuRjfEz
z5W8R%D=rpvbJ*}=x@d&Hq0+gM$Kvz3y2cd`3l^xtlS1}fMADOD7W8subql>hY0F9p
zdoCq$3abM2-XKpYXR#-ZPK!5PSbD=h=U*{VxUTu_j@un9{Lqm<Gx6rs^{M$6ZoPc-
z<pgx09c`=Fe)F#Q+?LXZ#l9PR=Ju>u5Jqc!RX3*QrdDk9gv~b3oBr$mPaSxY1UA%5
zL-<pjf@fBVjMNdKyJbO*Sr)rMV_6PCT!ZsD23aT0#sugP*66W2(1+8HcdipJ34E-f
zb>2TNmn@{QGYvZz6RNne^7BMZq}m%I<t<*?1mP#p@EltGQT;dqL<|sL2KkU9{QwBc
z7S#g<>yQ)R^i<L#V<QhJ8Cum;Hr%u&>y0U>9{2_5w0^;#_13Jt<vsYO9?xtIn)jgG
ztb90DrGC$rp=GC!9(2i!tnzI7q=@njS?L#&Jji^^;M67VPUaxdD>l}2s%4=P0#MiM
zL4)4p!q-&}TFDPy*_2gBSJ1B3hw9)4hnc4wW<?#8Wx&OWlVWb2Q8egD7~jcP5FN@=
z$*-S6St@F~#@+GsNemy3^mB~g6a!;?cqBXu-ZqmX&6M#m=Fo%;VlfjJhOS8`%_OPe
z5p1#0>7oI`S-^0NE&Z`LK6^AWK0w>SljcqYvGK>sSa;9k_tCX?3UWAM2;w2O#L-aR
zNlhadB~=%3(pg<u$O(Nrxw1^!t!=G<Z;p)fB&vY$Ga6$o?f`aAp>xAjKH2su<9~gi
zw&K)YxnT9p9a%YC4;<vMzSr@cEN$>i&bC@5P&2`d%G?qGw|W>JF}L|y%x!I|a)VI0
zf!I9X188BKTX=bCTe4*5jPpTR_59_9&n?B1WqW4aX;)doRsW6+lxD))y==zDY%A$V
z6qcn5whIN@S4>=9d7^x`;NF8xn)<fIro`sw-aDJDJDsrCd{Ew=_W4u37Qxqo?V(g@
zmr&aE0Lm`~r3v4L#mlLU$Apc?u+3AEPuQf6xUh!Z<QJBz92wgzD$kQPi`M*{7rHY_
znbi%c>TaPL`%zUAcZ*yP3VrjX3l)nmBn!7lds1g-_pjyIyu=RL!43wR7cQrocM8or
zmoKOGpBDC?zF%{OI>P^;Wh2^|a#suP>V+ezhV4SbcGln-^LOoy5>nG>GCNq0a1e(f
zv(8fxC}F^xs1xvprq{ev(ry#RA=hct^t5rb1b|34&6KKw%;?MY_pZPrL3LRM{Or(-
zDx}uFObW|NnvC*Pz?hj*p=(hVauNS^$JmGCS!yRh{6r)WUqGIhJXrtW?nv8SS~9*2
zv3lEHRr(WHrb_22*B4MBro`p;CR{jN&@gjU6-6vnCH?!apLp2RmTKB1H0@g6`(8`3
z>5Sm6pE)tV1M}oo{>^++46bNiv2f+htDK3c6}Y+j=2YE&p>F@(y!Wmq>s}J<H8Xj$
zS1E`6rhTC*>DxGy2W8dy3kgqC!rsKj{*I|nB0BHn<r1AFES88$Mq>`r<L{EEl9xQu
zi;vMtfV~xtCohaY#!?bpY3Dk+h@u27>FOZ;D(E}m7pp}f^=$MAYEs@&bI_xc2tP_s
z>Qwok<WcBlgV)lm(r*Z7&~Nl)=Rn(a%yley1t>@1utPKHKY22#!Np#v@g_W7f@9OC
zI0GRaF=BPrr}FNj1OER_<*iHKX{W)@TnUe60^h#>O5<VJ$*oIQ>Flgz(NF)C#^e4=
z(0IIqKu#WcB?NPbMONennM6jN3Zrx9x=Ls)Q6Z(|J%>Va;J!Y3B+?D&aedVIC^D1z
z7GzXiCITfCHHkNbteAR-F7nGjY5M1bG6bJ=aziOmLVtWY8VRJw@EyZ^gzqHGSAmco
zj?<)wkMy66=l+s%UPaXzp7Yku*w;s0P7Wtyd>w+XWAT+F<o$VRU*n=(@O3e5IVG=#
z#2B%(P4I17iY9%%lsvGomnF|dZ#;}}K}JH}BI=T<GFMHJ<h_f(*jsq}(?(7u8ORCY
z4CF*lImn5ka*>lHs`%7}chV%J>Sp03W%@8H1DSY<&gKmpnQDg-r|obuI%Lt4R>OFM
z8Ojqj#^>9?=UYULeqok>&OxPqj6WqA!ND0)qVKcxKvfwlF&{asJ!JJiE^80AQActL
zw$O|ZGnc_~XEFasqvq6<2y{0}_1R<HZF7aLMCk-gm|F)8aGH_;(-_9qCit=uDNkZQ
zjywD!!i<O#^NF3*lu1N~bbx~PEA!N7+AZZ_jSj~};fco4QPFW&Q9zNikZB<ibh}j8
z9r<Jr<H8u9MN=eOH?BzqetH9}0>B^Qld%wTgVR!UiJ>Z&CI)4TP`!oNi^_CWeX44M
zP{p{eiU&A$dSv0qVsFyB37m=JgYwE-{+s@VV5(`S(6n=TYijoiVfTq-c^}^9vt`^a
z_}Z~AC5b~tccvC@)+{4&2Q_8&IQ;eZr-CqA5>yW^>PhjxfkMcU#;~3)T#yb~s`E%n
zOTID>rj43LsIC%;F=!-p4%pwZLghhTp-;%8tD2#^izJr~6$6<kB47@^b#-p)&G(=K
zh~%liaZx=Wq_rMGHnZ|YrA?&bF^O@RHf4NWSCkYqYxQNvuk`jM%nBOQ8x@RIsa6{$
zq~w6uPiwzVd8_^6@K&Yvq=b~2FlC@tNTa5dh~6TuC&xYME2!mTzVql;SP$YG5Kht#
z4y(swOQ5uL6b(x=*I|S(^C1eA;pAiIKFXj&XTv5ye5b4s@+T;f-%s8q@@Pl$EcoL8
zgkRBiDHIwfVDx|BY0_~%*byAvu<!gR4piH4#34EXn_f<s0f>i3CdMXW{6A6&%>=lJ
zS%e{xi74Mjk4yAu4TYg&9K|_LesDAffl>&Hzx+rvJj#Dc@6FNB;HYQ~0(cHxV4zPq
z;kyB4;7Fx>VuDol2Zkd|7zML;jv&qj4Z>7jO!T6x0d~fitaXJ)aex@HMOhh{qB#x|
zjm2Ua$AL2yST!3#x`0xqbg&c5#eNADgGOsvy{sS5v-s*#?b4}a+4fY~L80tmvaA<^
zr`ipv+RZ}k=B3R`@znNX!uDgy+Gi8?>NV`M7SV2MqO@ai5L%>5r|z2XyAMCeFMcz8
zJv?tFo<HT=AV9+ODhQpW!Tb3;J~A2dc0SDaP@>57NV=dhUC@*+@ZQLu%TE<F3I&a+
zf{jAK#wEkjrewjkRh!w9|B=Z8&%%yhagL(3QZCSVYwG6I;<4pT_iOgz{6V^^_SVnb
z{Fy|@fn-%rs_KYPbtLWfN%A8|wW^&7dj%ckEO~SC`eZt<CY9GD<TWMpS{C;RdE1wJ
z1ovJfD{wx<7BCw0mgSc7rZdsdz3flzJTB}!p4{0dH1s9ToE7TNCVejm?iW6?7z@rB
zX3QXes@oD9_TTLgHuR-B&Iujok{vGzRWIR-pq;9_QdQf9s_n~$<xR_jcMFqMhf-C2
zLRDX~>LgM;^wchFO|<S!c+iTyl5E3~E7Bmza;^+x{cSNAX61PDKE+=wfV@N@8f})2
zM9r2@IQ*^@1uXj(4!?c;_VG_S1SKksvJ4@$>SP=s*@F5hQEBzrNc=E6PtPA38@=2M
zo&VTi6#IT;I&ok~HoBIDO-V9FwOajIcu%6)w38EhcoC3`QDH$73<k*TNhY-hN(je9
z8C+oyhS1g>ljyn>;$aI;QpmF6JRfY60G13&rV=e0rNp<OJ4GwCY;#aF1IS!fh@1m>
zBdJPJTe689&2|!7ySn|Ok~&Sagj-QYHmUQ#TS_M^)9$kQ%B9-np1ZF?a+;w=Bk3E+
zco?}kj_3x~ul)!-`AigTU9o<XVfK^t^NDI9DjilmH8nmhB-+tG1O(%f{T~=cLze=e
zlCcE~vylgVkv~A?_~)qeo+0mBc+5QT#3Xu??N2em6s7(S>c4gr^BVU7PCr?0TIQom
z{=3g6&b@fw_YyH^{#%Zlj)e_L;^{IDI$_h`5LKp^yu;+3Cof0Lxc(B|PxU9Sk!nDS
zv22N&EzX5QpK$nDahokw3opF=^6i&D#j|`6igFAgvFhY`%dPeyDszRhV^G+ol`NeM
z<HRHEmzc0u%go~GQE1?(Ea0fLV^B6Rpxc$FL$T3N{9t5k=#nH~qv<@P)P$<0uF}6n
z>vC2psMH+J3KX8UK?)f?L<XY<u=^QjnV4F!JlC*YC~qNh`jnx%b*A<bRLQ46-Db{M
zlnz=~a!)8vhpHs;2D4I0l(Ggp)OtOkMEx4#Y-&yoT~Ap<b?Z_|4}qWVcBMuoYD(Hq
zsH<M<VMarz^@OCDTaU}sgTm~@+0P<}IvPqTSRidbLEZF6M(y!yPntb??WHnF=fR#e
z+N8I_+%--*^%lU>-+kpDet+T9f3vjj>>cP16R*sS2Fs^56r9HY3nT^YI6Mq9zZtaa
zK>`a{GhAz71|p&LCDMU86(@>?6R{8-+kj&51(<_{B~C`LN;t>y4B08}BduQx?R{?I
zVdfk<HI#mn6t!8j_2RGy$`oxuIl$g;7W1--#c31ZV&x;)=4HxIj7w)&>?Nx4AbE^w
zCp;1$mnpPteG(W^@!2+lhNn;(@LA3#siXm%Zr`40-+%MDyDt+LU!JaITD{dDlvLb!
zY3`*|NwZMWoGvS0bS-=D2C*Mn+Oo<SOKG>!i7nC6N=kKOU~Yg=qkn1B@~QU>l&bO3
zR9ac?<%YZQN6Lb}&DFW9sj_CFta;J;ZvLHo(9HOb`+-y!=_|hZj-{UE!S@QYzXGz*
zU668B3a-lec&esLsOh@r>SF3zjrTl_4;tIve(Cm0Zx7raNPBA*{L7o}o=TiNg)*A9
zp{7kmv*zy>)PeX$x}&#`zWw~|=X26EZbiCAmacXsk8^L5D7-(!@MO_b1XCH_|2=d%
zNhjD&CBnH*J84Il{PFf(w6v2&OkSZc+|AZ|Rrz4;%UU@<(Kl7-xlW1PMLljlyH+Yp
z%P2$l2m^y-TL8z<;#|j<BEBRy7BD(fybY~dl8Bt4ts2s2$Z`5<CEKcQ{<E|I8OLgi
zg-4=e;UNDqMZH4a0C_)4p0;8?Lyv>xorkBW;?nexwufm>U=?Q^iqx#IX40h@w17fW
zy+mvH&ygQ&WpO|fpM#ZJ*qiii0u5y^d8_1B)y=Af>16pf!M;r*va|#bL2_wN>m<i9
z^#w@Ww>*-WwENdvRq4taNzr2QLb7uEtR0f<0^j@w$wVWzq@hz^*&$SREWVVi?4Gqh
z^pq(t+2Uz6_8ocj)Fw@kACvYwN!?D~R_duOD1c}`Cs&FSo0T8AYAr<%3mR4|_yw3K
zE&s$up(BPuON&AeA}FnADkX~^q;Vtn)0C@giY=KV-viAdi3X%ul?7B(^6x#o$szxA
z1nZgPUtASn>JbEbrX@kz<uD^CPc7vM<*8(W)NAB3w$MW4O%}3O$&;U2i7LSRsg<aa
zpKAMcd-3U8t%6VxIQBjsx1GT3F}$<<Sqd_F8<8tK5iYIn9GXQVNqEv}7R^MAFj_>@
zoaX;CvWs>)z(u;#JT75T4gzG75Y4(IggOUR0%DYw)IAiL%@8XGh(7R^-#9vVH05m)
zyiJ*OLJ8DS7>E3ZV-5Cl%5M1Pd^c+5YBE@8VBexzq$(n6!unHARbEZHF1I{4J=tF@
zC;EjB^2i$vkKx?oX!=uQaQ*Z48t$VL`I#IYdX!uSMm8e_E%Y3hk-~!02<o!YlD!O?
zgU$|2+ov5!p-wR^1th$%6+7i1DYGK8*TdD46hcXXZD#Y+mNspE!af_yQg#idol{QD
z^w^Y5;h}<N+AX0vPCMf&cGr{kPdQ<_(vnf0<*DmwnQ}fw%bibX4N6hI{<tqI5_lZa
z<}T{-lrE+1>=-vQwg#DwHB%1HK*IYNOD1v0iNXs6C_bWykIAFu&V=RsClu<Uw~TNx
zosUK(L`qT~*h(H7j?<Y)Qo#abVQhy=pOCec5DsNRVg#c%qVp2eTjj8u35%2`Co>!<
z3G3`C_cczR9;45=A%h>4FDZ%f904EFhym%Nx(pg9X9H4}&1q0b7Oa1ffY5G~l|cbz
zNRe>P@ABN``Dn7N1EO^pZ9F%3ZvI5Fq;1AYC+D<xK>r(er#cS^_-}8Yan2r{A6^Kl
zvidYkb=Vi07PsB*gyh=i{5xmi_2${y*;Dg|q_YA9jiZDJh=9b&EIOBtE)U<G_||B$
z<OFG!`fpsDySCt8oJ^7}G?e=F*y4`gnqKw_&HIG1{WI<dWj-m%(x&@m+h*J-%-0}q
z6Fj?YzuWZQw(oQ%%TBS(ncD}+vaQGsW{b{~xECYI(%q@jLqh2xrN)h@FOC|zK!Ksb
zIM29%Lxf#8aRQR79k&!D6a`N@()EY}#4tsY7o~nyWoJc_><m9EE#;Obg;qjPqLnDe
z|Le4pcGe)1R(e$TfRI1YYO6m4{Kz4Z3Uei7nj9Na9Tl}Bx9pTv3Brf?Ip&a3B?pu^
z!0${`3AzgY;Qw^b5t3yUy&YQYis~xoW4BLNJ)d?A_1Z9Pi>v#jdI!h#b{8QPG%_5J
zZ2?K;*``deNN&zBJD|dD;<SK$V4^a^T!0GkF4k#1ri8vB2arSM@Uo8W>tH%%Tza`#
z!z<McPdwE(VEXdu(zzjrbWAxZF~dW7c!p5~^*KMQhC1^>tKlmnsGn!bb+J`xvGyBp
zSHd8U^QQ8F%Va)7$q##X`O|qA*$yS8_WPRQjg7$Oy6-MSv+0d}c-N_=S3<Bx)q?eH
zc%yI1ty?QXHOx)rDfLi(4cr@HbH<U5i<_0S+OIOA(*;wmse*wD<;|2EPnGJE6Sz=k
zY_aQ({$yN#Nqnc8TCEAnpp*8@P2r{nGUUO|EH)^y+OJ;grV6yS%o^UPecIMweqyFc
zE_2*IpEs4KjT_puM@gmq4iGG5?r|f+yD|(ysO=ps&X}_Y<YF>@l-^$F%e6|<%sOMP
zJ-N>6T73fict-hx_KSl_c|n*KddH<uKIlDle4bFAIzzPbP+tpgfz324tw!u&VE+X&
z{cPyesH6u=<(Bss8PUX8C<EiEAdktGu!^?JgQMX{WRU+8WY6WpTAMV+OElr$7O_Ys
zbq1nzCmIg9!v462gwZ%AA>Wk{lQg*yF>s!?a$vuh>{+NHW<Ew=BHmui3yw|TZodI2
zEYOW;9_d$0N%R|&JWFzB8xtTyCxW!>#S(2RH?ua*6YLhN<IsG7nRM*@iWcZpjF3Xb
z_&99VG69KLz{s=AN;_B#*==VefM}J<5iP6{(y?9IB@>-gsJxwQioyb}jingagv$zH
zwldBP{IbF}DX%t5Y^t5uRANTirsQP`;bf~O_x?E)uk{W;MUT_uU8V2ZhbDNQ`kDVc
zJ=(&!Nau1W!heZU{73YZXqPGyhEALmVp909Gz|O~DBX3WixHktsZb@5$rS4gW>j8y
zfykrZgqO_=e^67m(4DH^Bh>Fn*6d|xZE{rOeASXtE2L{Bm6D}1kfwBIs09aFL8fIS
zs0gGgx`c|Z84uH_BjdYJYWM)uC8XmwK0o();%BQ=8Mu%5Y#(vZZV-RoYKR8|4PT#t
z_C&JzfDky4uveuUcTuJ4XcPOy+=;I}kHij;tMjnMu}P@flq%ai^NjZL@Pp!#8++&W
zer^9uFAk(6n)fWfC^R1y$`0dfimx%zvTJ#}&~ixd9hy1zpfa%FP1SA{YPWu`a@(ve
zT~KnvJ?DPl-I}h!X{U~KW9OR9TvEDbvKAJ>0-C=OVnA<2%1aiB1@Cs!*Tqq!-9p3e
zdp?-ZKtIuOs>NeT-!{4n2B)R(2lg#rO$LsB*L!TGit~4`1vs>0=iJV(?MD5|t7m%O
zcow_L_&JvLl+HJ#DmsOV&ZR=3Vl%9lJg7T-_d>Gn`C0QXd(xHl3$NbXJ8LJS1kgxH
zx&4A0z3@GE-O6^(w`FaYRx%D#J*eDGw)cI3ba^cr;YT08X}@mAkuo%-pfu&F5j-^u
zJMVcq)^JR$eR0Qq_tp;zi*HoURer5%#l|`EC^>9&I642GbxK-ubCRGU<!cjsZ6rXk
zF9q*zg=nO_T^3Zp;s^|dW{5Mq->>hQ>6!K1bJr}5rG4e;VsF}8vf|=MwqebbZ4gS*
z7bMPt-dIm}5*P(@JlE+RBh{lj6)ej%7-Xs@vn)-XF@n7jO^*&=eLOw&0Qf#bzYytl
zj#?;R@8w?kJkp!lZEGt1s?}r4L^Pcq{XJ!-H$(^1uTmcL3e|l~e0lv6b+jIpGJ?iS
zy#PgZPpFel338n*N=e`ajJkUoY6{S6Uohi*o_?>w%$Q7Tfg1dsb;^2NE2(R8TyBpk
zbwy475;c+gli96MDMPJ@iz;oW#lemRKsUK{bE))|l#cwT$W^PQRzf+s>XmryH!FoT
zu2LNro3u1aNK4E1>&RAz4i})MLi?<c`{4E_(zVo-cwoTL2$lQK5e8%Wl9nJt)L*2C
zYvfIm$1og2hgay4a3cTn6q+ILI(c6v?+x<4Lf%)&V^l_vLT|!T6e|g4Frg?vN3VXF
zJf>_}hznD2sbYr4<vPleImZTMp^mbf^$&zZzlKtok|ZHCm~xuBJ(X(SB{c6!0ckZK
zNS5_5=}1L2QyPyX%eN$aTW9hzkk<DY(#l0YH3#P7x31m1wpb?AY)aK^7izXI+k~0}
zcdOpxg`U&NnlrQR2gRkcaVCc;6UtgsWt~D<XR>(XQtiFsE$RA03tQjbd3z^}SJiKm
z?NMzP>JQyLo~%DLdpuoGl`3cu3K|w({%*l$T*u<?#y%6S6wE|BNtnx0)17_$Gq*pp
zctvR3o@zWOG#<RWH*xBWaOiBZ@rCaeoLlh#@2q&as<y>C!H;W0%5nPh*3p|sQ~nOY
z-;vm`4@W??*jvxvd_K{!H|gJ}#pR@gObL3MCvKidwCzs%_fR@}`CBjCdgbOTiS|9o
zs=b08YLV<SS&2M>ggqe1b@tMbFJc;G9+HVuBzd=J{AhhJ{i^3+`Ge^|QedUu=(E%+
zT961z<x#F7WKf+V<zAgdRHlyA)1Fm<5o(+MDV856c9`J++%%P~rDYZK4=Go#GMUq(
z!X_{ylCX)?uXBV=kL<@~3Y!#w2DV5=jTtCV-7dg;`UZ2_y-a#&=VGCfPWuJ3sftvx
zVs%gpu8xswf^WK%)IZTTbxPN-N!B-2Bn}{{!vZR7u7Om7jC~R}m#?vBY)*={kfim>
zlyqUePdTHM%}7a1MH9wMbh0E&;Yai^Lk1ZU<`6{Qd<W9W7PK;X1npj1HaS%0z=>{*
zeGVO%%^W-^>sUNT@>^15!8x_zqz^2@8+i{ZYHqdMY`L}Z=ElXQRNDce?ZDlp)WOrj
z!PAMeFC;6@A(7`nO~b9LH?Q9M{7q2(IJ(d1)!|h2R-t<9(ja8M0T87)+K)vKYSVGu
zAzP4U_x(twS28I%8ff}kC21X~Km8N=>Lg^EEAr$(2GwP0PU!Dysd^a9vK8!Tfnvc9
z(3FMF87TMHzJ(6ve}lYVho@*lsrW~<uptrcI0S|J(PJ^Nev<lrj6}8)|0eAv{5+l~
zb0o!`(v<L`0kMO4kJE=BqpQdu|H8{j-)2eE0sDiCc}ZV4p6Z+5-g|p54&B%97wmx<
z%gojJvb4uLdtt$r&@P=^M`7W2@dXK?9-|OD4o|hxH`4!W)M)Y?RJ$IeW5CpI@iJJ7
z-xV(|^h^6|ZympRe8q%tj_snwZSU^6vnS!%E;x34YQcL6)KZy4C{A@|ImE8)%e=5p
zy4jg5Ma##)p(;to|6n89{JLt0z8~g>03Nkxm=OwEGoD>|wq-oK@odj{&cm}K<2fI8
zr#%+~YW>te(4`*_@a#st3a{n0=8H8dU_M6Ii=U&b!zLiZxpo3F4xI0pJmI8i(Gy^o
zy9Ka&6o^W10yq&eg!_p@(v9K)>5`tnFfREEoICYQPak3e2TvZBUv#o^L<hTb3?^a5
zv$!Y>nzWAgAwXOdK&RRefINDi<Fp&PkXBuj45a;&Z4bLRXdi@BZ_~tp;F#lY!;`NH
zX0cgn*)-cSZgJM{3>7lf(<CFB8x&W09pFlSy1MyR^kx)nc6B#d|IoP$nU)x}WA!3D
z1}pHJ>-1Wx0PJ4wO~aeUAyXI}=qq-PW7arG8xH#+Uo*bpG{Zh0EY(AYeaL8#!&hY3
zU}R0k1<`a3*d6&G<Hz_q+wIIYYiI|o-b^>PKe<Dcl+Dy3BqDr`dsy4}cJ=M*RP8pQ
zcH8~h?e{%9gxc*lz4L|hJ+p?{O>^c%?e=?~9SQr6A0<6IR%t!`M&3qi*1gdVM6$m6
z4FocE{Q+UsvBoRe>FELF_Sy*b8n`UA*9>~P0otqrALpAg&KcjRRQgpRHM08`C{(l_
zJMj$u!xXPI236NkP?~m>L3Co%mygG;gmF=|)bCI-LFbAlbY51+^Iu1EGA^cGXA-ih
zE#HvUPW>*y;txC}>AI%3J8yTU>bixx?)!BRpPUowcFcWd_U!zY<=$^U|E=fWJNn%{
zFMRn-qHf1M_c>rYx+Ti!aQ^5o+~=4bz~3tGaXA0j3@>XqNQ}USqXI4Zk~wogv<{=`
zIb>v$vmOj)h61KWui*$CN+2hx5-Lxb_8gQrOzB2+Jtp**al~5FK*DyJy1|G;17;i=
zu)OYOs1=JM*P&J>xmL9#?ttwrmy(9ejABBm^pX;f+A%^_sfqH78r8EJ0p+qKhPqu*
zLZ&OEX7C|(m1yV@?PHPP0FARmG{~)HUm#+gL?7&C7@~E9x&~oq3}~70by#rIR9S=S
zB_~011=p)$5v7Lg_zE+0m^FSx`H~XfDovGNF+9f^7yx<&+nLjb>$(PHNyki4$oN&m
z4FiM@J~JrB-!WY=NaTirfmK{jW$f${4MSpaI65*AzeJ~^cmnW*KC-Ai(XnSFG#a`(
z&hMK%_5{4sd44>!83lIkf#4tOWM3yALYdm5T2wbJfd;hehks9mBIa{t{`a?^S*lGG
z)TauXg@Wcq!{Vk?!3JUbnIAEG3qS9#G4M+m5hfdGHHzkoW7rBHP9OMTnO^)cJPAKY
zgeoNe^!dr|pRC&3sE!+`j-+l;a%214c8DS?^V8e+|EcNj(Lc#coIH){VL?{r<Aqnc
z#e@+c5F(IlLNuXQMbj7`<Ofj>0~L}g%J1N<a^IC9%->~+fsCa#(8v=4KfuU3>>^0r
zI;knEtpjD`gqx`5UzTeA!NF(VGyZ97vikUUT9;3~75n;@h1hTHSRA|!A$`|>U%xc?
z&zppr9d}!W>f;G}<%-$l$bak53WuMs<G>Jpz}O!!^cqt8Pu|;qGU+)b>_53|nl=6M
znVTgLGECo`UOWRK1Fm*WmTVCUwj}nS6g;OA_ESIl*u&MFF#PCaNQqAyVzhqWY&mE$
zf2X49pxvA`)Bit4vi};r&(mV$-+`9}-9c+dM>eBdpWOFy!adaY8dCM&_NQvM2(?@8
z1Fw3zfnBqa>b83x>}zxbsdn?fi?3((3&9)|$1ziynebZ=ooetJ&{2i8$SpfPgSra3
zRUnb_OQH(N{X}0<VYN~U1juqw`GWFG=Efw*WMzB<?#5&{DD&T>@t~0r%}~OMiB=%q
z32c6yK|xF)6Oa~1sXXTgVxd8P=)!=MJ@(X#J}2J+8op=o4IJF_c*#iWTSp)Y+jDzQ
zs(!0bzcpFko%C-93G_#e-|qNU#{+lK>{hatnksG*ikp(fElGDPAi{1!(K4Q95Fu+^
z)%pIn_|SieafN|Zd?}7U$?0t|Xl9t%mWAF7(mB?kj4L)8fJ9YOb5QD;G7<~>h8sd}
z=^{EwW?|rOU{C=dNhTp$aQF3CjQ?K|=KqXF{LjfdPmeT1aHjJtC9}zxNmKR9w!tHo
z%BxR7Ve&M1@+{ELcZ6oaIeZzj06M$vbM0>pEi{k;-BjHcp>9jEZW~yJ<wBu)*Pk~2
zS?hON?-w1%?E%=SJ3e<@QUd;-x8-{8OwY`#>GF!1XJ&i8{46%JN?IR!N@w!fjKJmL
zK)p<j@KF(k8Q*3rp9}`E4J!QRIz~O|5Y}M5RH>PkN2B>@*Mev&y;Pb|15^o!WYf_2
z1gHg=9=HsP0epgn=U26n;RTAg4-c2H5hX#F)5dZJ$3y$}AzWQ6cXr0D;_KkCoD3&u
zIJTkIK*WU=slr;Juy)4EZp-QtO1hTH|G@uE|8gj~saGgDj2&f9`J2<%r{~WlJq-za
z1MBU+M{P(SL4g^@quHcm@(Y^!JYi@FVKel=Cg;DSIMxMBpvFWT-=jDJ80<5W9Ol2H
zIP$8g;<RJ&I`@&$Xu-)4qh<R-!$NHF(85({S8{k<v2)gvkBkP(&Q%jaD-?o=hT=>X
zryPe6@G!;MEvF4~Bn2TfmvV1cb8ml4ZnLFKPKVHn+hl26EP2;|#}9;WX<TL?ZH<Cb
zW2gy3sJ-eGqI;EuhuISApz$r71C}mElurd)UeCv=U|fx;C$PnJiMsI+blB;%Ff2Ul
zzJE+UC-OOP6<EQ#-*mA{z})MUoQJExq!jt<q>$dOQ}d9MN*{IxJ+E8(H9OIT8FF;!
zlt5$S9{LkE?tTY9qU&-b63x6POGOm4uvG%!*YNZ!hA)}EWd4%nOIDx^bx0n)*AdH~
zz(<bLBMH7tI+i-@*Oy5r6W~18ec4Jk(`tucuAB8n7AdIS%w-v1*4Zsa2|6Nrg@r*$
zYAxdG*)`<Rv1p?Z6v(5ZDSb9k&yG#Z8dtU3MlJDxTz&4#7VWYpe78Y~*M4C+-wYwC
z74sJN08bfV3R=23lfX9|Nq$kMj9qi>dM3n|NU4CFiPK<CzfTa`sie?;VPQf>04PiC
zl{m4D%puoSC9M5s^p(2Rpy?XY5v38Mel0S-rtVZjdS~lXr!9Sj04Ozh)erAiAbBuy
z*G<=r*9|m%V7ykIo(#hP#ZMqruDx`Es9=z2jYzL35fsKGL+j8O!<EYXUBty0v-BFA
zL=W2cL<XbhgM<4fwbQ|D*{O2C40cpbO7goHX$gbVySW#3hSOE8^uMg?6Nkkwp=;dV
z#6BA1zYo~Q|2|Sn+rwpeY^~OIVsM!gt#Wxyi;fG!%JTjT%5#@I))=QGRiz7<c-p|1
zZkcjRX3r!<%8-bd&k`~LFVQz*QT8*j?4kp*s!{18CL7g{4CC=TP^wr+>Ur{ZwbTO9
z#iUzOC&FkNE^=otM629FT55a|mB0>JFflz(W!Wyj${NRSr>C0e;3cxMHXgqQi$ZZ&
zJqiWGWPwPg!Ieu(MJnk#R3_^IHr(%1++B*h4lhPPh!|ctX&jlwi%D&hDSHUd(t!C;
z#DB`N#P+bzpDJt>3R_c!TZF<bAQ8&yQe_*3vW;|<Kn*@D^+WpWN|TBi-P6LhnEabb
z9qRe(&#T6vS8+2t+gB>bf#~{!2HKZ;Q8@S_ED6(YQw`882)^BOyHmw2_ljFSf%a3~
z2Ze2<@>B|irk%ZXb4$wIAh;X;(P+W_?zs4&3b&`SE0GEvJDqe$6$Sa`8{X<%Y<Q;~
z#)n{}`$)>)Dfl~=j-<9eBW!)<K5npQdTNae!>Oijp{ZLr4!-eRI?q3UG2w1q>`t}s
z723(pP#0?aU3-UwzoGgg-@7OS2|P=5B>^XPnfa5qzZCw=!2dNmT#?07(V4P%(Id@U
z$vS#C7@O3T2&J*hd4G+DkbneeI=XEuAb0``<w;L_!rm^`p4f-1{RRRXtm1!!z<NZn
zq_4CdX{<}~sylu1E*;%>^VBRf&U2w#$T2%)I;<~revAs-q%;6~rpaX|raN<IiDahB
zilr?X{ET7`M%|~806~Bx(ee%rR^UV=)EPJ=QPnZEq_OkyL706AX7BB=;<PQDz~E>w
zaD^Wnk4a_LogWL=vB<g*LTX{L@z79sFp{+qMD>-la!5Z1JC&c}hyVAqlz*N=A5e%9
z#Q!M0KTEMRj{G>i5)dLj0ee=&Da4?$N>_{`l)IHF7Qlc%_ysv7c#27F(@UC9xe2Cd
zLiOVd%)V-AoqRgUAh7dKl{L5a+}x9@>=Y_H7pIbydvFgtyUXTcy0}cbs4Z2zODNv8
zyenCJ1lps;m8AR$6Z5B&#a(#zl+Ae9yzFC^Z$+;j#1r$_{EtbdCu3Q*YX~W_*-NTM
znM}XJLhFfI`0^?97qDYIZ5hSsoyX7KX-g0qVx#$F>4se|io2B<tA{=3ppk{F86tb#
z(+Bv5N^zmSveT!d6om<}{y6wMZG&Lm2GP9Ey-RNt;*<eeEjhKlI`m*HKZ9aKNkP+F
z>gEHpV4%`bN@<|3=!-IdV*&^Z&O^{DgC5x*A{jG00Jx=vojetT!HNwGhk0moK|}l!
z{|_`piE`yXq|o1y_xJEbH_|bsFP4m`FoqX#w>O*L49fn9Vn3!VtK_NQ5-kj;vZ<eC
zd|47-NtUHbRROg$wdLb}Gc=>$L&3~uiQD%}`%<pvd#+|O7v*V52R6**Jq$FY0$YW^
z)}_xR1N&$5aL(`g(TBy&iQ+8@_ZIkRf7eot;P08i<$3Lk&k8Ula`Zt-<$Uk0=Waf?
z=uNfm6k1`1^xONsweNc+&(0kFep7q8pd5Nz=>i`N<Td9rGy6ApKzLF5oB?R9!2e61
zOL^MvdD<QnH>K+~F25uc90B5y#os`R(A?U2bLYY<OGlHHP_y#E=KiZ07Oo^|-y_EL
zNq<L@lK(D+GzOau%SY6ytmpqFy?vX!MR=L2S!qf`-Wlq*ckve51nHhbA9M9M!8f@=
zKg%#vho6;a4F*ex!uld8vA(Muf-6?1#kcsvyD#5)d4)r8IrQzww<4<)T&d$aH-Cit
ztgB=j`wI;a`q3TORYVMwvul%V^knC1HZS!G)jQ}i>?*MC(k)8t4o12Vy9&gBbd^%V
z*Dg5PKgHG9vMDZV0cPt3)L(Q5C!$dzu5hD$YzQ%`Q#tW}h2+_sc)w``JP2;)gZ0Z1
z*xq`}*iUyXfe#1oY{T`})}VuNs@5PlW@R;k<8}qz;NkOdDK_|DnTPj)hj#`GLb&cG
z<d*Z9gN5L<^AMANQRSM{nsFBcT389e23QfPFUTbofm@<0s*9O5v8tdKCABDNwclXL
zI`O5U5~(i1vUO6h7P1=Zlp89MIdva6_0nMZI%QD%baJb`P=OYd1uH|oP&qCd*G(%a
zl@RPjT`EFW3Zd<O<g8>Cru~3Z)uLuS{Ky!YEDW-%wFe{5VCRh=q-(a%k`V4yc7ZJ2
zxJqUXAQG2;9qiV57G;|lXK|Q7{~n*>|D3#EBkxaWb-aX7-w<IT#Zj34RtZZpnhNQ1
zohCZu4cCl%8=GG=5VY+_M*a>8m<&8W8o4IZA)r@qZ+IM!u|RBMe4OpIqk?1^i2rxU
zf~J{<A~CI=F{%;K8prV~789l)j|>ilE?|2$#N!AyKe<f>nd|jfr%twifr8n=UT8eH
zic_v?!Bstf<vu`avHyd7AFjAb=0jI>k3@iyoJQjIR1QXEa|z$r@yGhE6HhtnkI;3_
zu}1gQQW<t4mT27^rzfcarAqefRB>;PJv&VjV$e?VlMcFqFEyb*N}={Jm!act(!UBz
z&l*A27u4HlAfcc>g2NXSsD-V1y-Tn7ji59Nq|}+dp2S8E@*uY=1JUvifI5*}yjBTG
zcIK3t;Z#Gt_C~kG78q@jX$-VOm07J*-zKFr?H9RJ+6595d!J~*!U#pM5Y*Wv+8_(0
zTbkLd6J3$9k#Kx~?q&{+NF}Z8Z#Cd{Ns4LpYBC4@2eg(R!V?SG$vn2^6uARqxEXfb
ziBfnR27!ElLVrcMevd*H#EHf6aA@EPcB?bYursEQDcwtE*GXO^7O;xN2-3icFqCKb
z|A3Md&3Uysl3>S9pR<z3IDI0pu(aVa8U3~=FXsWELG;GJAJZECE0prXEZ#r;2=DK2
zPWiVA{;eth5y5|il)YuXzjiaR-PI3D>Ty}|JI9wx@0KMyj=_?tY|qWk`I;E(UM0Az
zRB^zA;+h5Pq9a+n8K<D+lV(m19KNgZo~x0xc-n5arRsJHbvsja2ZXu<Gre>H@qKsA
z2c=c8uMk~2lPuji<9ZO-xMWRr^$1-(?^WIpyg+rSBICf%UVk>_?iSqLptT%%Dii+#
znyP{wgqcv-h2Pa*g||M)4rUl=pEAB?xJHVu7=~P@CoE>WL&UJ;xT^+IVbwIX$^0d$
zvqJb!hf(E)E|K1ZP%ya<;D_&_u!-MG;e+tR0(SKBatJrQ0og(21lKH>#>d8`DMPX*
z=^*58$|&0gq>hl7NqR3jp_77}7(&5;3mM@nk8qMT1LK1{&YyzsrJL%)L6T5OoF${H
zCVQS@?mfPU@6wcf5tU-fwZ7^blXH^`ol6ZQsc}D~%hhVYWj<`{e7F5hd#Y`}(6)cZ
zk*;f(biT0t4-*{yAAqDUtVtJErRz5=Ju6i0$26lIWV6G`&{5VLz;csNPXz)@hJ)W+
zCrfUy)xehg8NAQjIWHmv8Nu1u3F5LDFq+)@<i2<`*WXg}3A8g&4w=EmVtcgCgrwNK
ztw8NbCXD%*TV*^4p^Y|W_`2b%OiA)J<A`Ls?kQ)k%=+rjbb>uOPC1aJryYU%=`h23
znrGjj@qkl)v3~SxprRrvJ^8q(P0kHuZYJSSA6p}AQxPK60s@_E0GXhLaYD2MD=ih;
zOlO>{tWCtzDuJ16COKjAn{8r>g_pxIkdYaXT@suVAeP9i0!cupp^wSUPo509c|N46
z@QbJdrb6ki*<h-4mq7n}m(Rh&313%f!c`4zsu`S8EvBiG^3)2R+Jpy(em1}-Lp4}E
zIEyQkK_Xi=Zx!4%DR-UVu7euJ?%TU%H4OJQ@SK3cWIP53eV)DfY|7s)_`8>;lKx(T
z^%)0wbQttUBr|MclDr&?$@B#yBq<~Vlm`aUsw2e)(&5*(G2~NgxHHcnG5<vvF$Edw
ze47mslMt+Pa7^2{SeLeyB?N2K-CI#N0G<NQ9Z0y^ad2wpgly|D?Jk+UmZ<B#8wE-!
zua^$e=Ap+5s$ke&B63Mmp)Y0qYrJ8gMXwihr?;kjNczoRIEfxKs~x8X^mZb3Y1<5?
zPrXHl^O`ymBxNz_(UDl}T#)+(jNh=4(9@KveB|Jrw9JSMlGYj%WquuLWIYww(?y@t
zYQxQ-;Za#Jg^eP%O^8m5v4xhS`j9^~76tDP69+8GWY?3IRCW$CIxzMM>VXlqb48`8
z!X}}xNjfUH^h&bu(2N!FxVO_)1v8YlcHP{Ss@x$|?nqT07Ag<V9DmT%{`RHYmzJ9T
zpyQhz$)^3Orb9y0p_wE9Y}0IHc0YtW57n!;Mcb87c;o^E4d?~c5zNFagWfCr8yrLn
zhTo(E%j%@SAk+IC_YL`384es-R+$v#9hR7ZnXtJkYYyQ$_aFp_mpR_>hC67YP|O?z
zeZgYr>P#J)L~rWASOx^`ELT?$CgET@gPzJ!!c#)@FMJrZPuoWScFG9x=F8GHE*X}C
z(KZLlGEfb1?T8*cci^gcxd+*n07<rTT+pHP3r`o1m{@sRGuSQ|Ggr#MmwEtjEF?OB
zc{G<Edot|?Hg&_?j1>mi<k2v225$5hp?zi1I~%84gMYJ5TBlmuP5Nyn(UDSLnCr=7
zEh^72bV8NSaX}b0fq@;hwlGFxoyyBPV4m3vM!YZ8`XNq?2y;`eV1C@MJSpXAJ)+bL
zri5%f>W{kNB=0(XO<y_o|L`m3i#1AZwBIR<(uW2ZZF=M9FfN4aJ$<bf5XOIrgxFw~
z<U7o$ofatxdzj{%7AZ-7*f9`9{wZa5cB*0^$<ntRZ|{_4LQMZ|vX~#k(S~b82y}*F
z=6jeAy*gQv5jiv#8yLbhGofHsbd1ccNYVK+m)a@8iz93Y=<KAWldf$R?U!IXoEX$e
zN2eOh?<9*T+VjsH8Joa9)TPS-mK1wlf%t_`0AC%tG!DJ)c%UWJIno(ujJ0+I&QHVx
zqhoQLW1>8iP9gmRq^qxFW)!TJuM?$jkV}uT{E@N2U?|wh{|>sVwScL9i3L<bkXQu#
zVhcNlt9e3kiMDd6*nlW6(Z+|E6bdKtMuY5V2;Ys8SaA#ojKCO<`^q2>!{#FcW4Lxl
zVwnR-B${xKM{B;cVNi{7#Zv6S4_#6|9a9t+MHj0|3>TdZ#l<|S%2M@W{6D8^C~;Ef
zixp(BJs27ugh3wJ-XM_8AiD(3$;x5}8bp_rUV5;{E)0Urhw&N<OCq(Ql&Q;)qfW}W
zvD7ibvP36pPNEpy^c}^<;biBNQCnvEB0_ARqCu~59~*6TxJ9QL*EW|`&Tmasb_tbT
z$;!>i(k)<@>l%Nn5l7zZ+dv4;^v-Tbdm0waf~Nx;6c0U3iw%OOGqL&DduN5sr$E^h
zmP6QH;C=JwuK!%h(|Hf?wj8<}7q&b{$y+-U?xwWIH{XlRW^iOTcFpZd6*mgSjfvt-
z$h^5*@OJ*q&gTX1w%KPFT#GM3X#gK6>m=(Z(hlOHYpFk3d0@8pAqds!x#@)$@0V>@
zYFNG`Y(9om56U_h<4b4nm+hh~{$|wFzhU-px}jCNXnOX<_r0|Xjf+*w_WRzR?|aKv
z%DG)94J*~0&#zOQ@{#`gWnJk_+epn3g(g~|DrnqXk??h*(*DiMl|p6j1Akr0zftgS
zTrqOBKVyXTn{=QXEM!&nM^3J)@nQYW`ChGd-_NYwg9hB-T{Zvt`(1}oZe!`}iI1#Y
zNgY-5zIXfgJ*|turAtC*&x7K&#jQ);`^DYg_xd3^S?Cpft+SQ~f#yZa;^*%lcp(`$
zH=FnUf~xt@!YlU+wxr$VDL2Vb=7ZmJ*RLElat-Y(M~oTNCp1j^TC4a&w2XSmJ4|b(
z1m|zSk)FSX-MJ7B<UkvAI6NYjj!O#$>m2*v87qdJa>VMrFeaa~I8Q|xY4x&QCAOjT
zvlK_-1c{+KN}(1^KmHfVE2hMoDXxq{OtVwlZmOa<LR8X$);gA$ytgTC5nkp#)IU*y
z<h_k7v6m2_Q>_JHQxfL#kI}PR(&Y^c;e@a2Ba5lpnlM+8YG>h!(QMhfxCIQqW$%*o
zv%KZ5_glL@rWn%Nl#*cQ=pfExe9V<fyIT06T`l~qba^aJ7!O)8;rF4VZsDxpXkE47
zVWrMssenNO*``13bKwRlhoyG0bcMrDV(ZaW`o%olbHI?^u<0XLzPib^VnG-aP1)a~
zr;PnAdd%71qNx0={jF6G#Rc4!(uc6%G&MK1VnG;%N}FKwX2IcKwNaG6&w%@BjxN5i
zv}M`yZTGj_i7mathQmU`krj?!y|?AP*#EfWQx=vu80zZQF%eqEkq87r;BsS~gXf2&
z0Rxo5sKFB*!xN*pxN{5}4Mask{Tkq2dL|kd2M?~1CKXRoaNa>4k%|)eZ-@1fp$na(
zqtZPX#mZwRD-&NFjEGJx%<dBs-Rv?qa1EHwF`gJqo`fVk3FUc$sZi{K@+V<NG8;BF
z$`dsyX@qu4b6&b_oF=hY%F;^Fof?zQ7tzZC_L6RU<HNv~ILb(}X5Oon2mS--i7%m;
zMwXhP%Yo3<5bpRG<7MTx&OvnGWwztQmr~k>$E0OD+syPfDU6A=k4p-@ltG>+={!%g
zAWw2DvHfv57{inyVkUx5Y<^4*+1i0rc_IiOTfRo|gxC#RJn1uvTOL!sq^?K!67wvg
zNm3+PI?;UM2EFW3M>9;$%OumlL_Can7(gDrmNJ&>Wt0-t(R+{do{a9HI9O$<r&wuD
zXp;d19c>iz4ODI;c}<k8Bqwtx+7Juz&GfF~k#~|zpH@N(mC#CF8+q;Ib-+_<tJbCy
z8v(=N2<0IyRxyti8VkXeGEqSUNJSruV@>Lm^aDX9UcmW0ej}CJMQNN&r)C&CeK83b
zZ=qKt-{7~=dyCW~jOro{M5f@#vrP?#Lg>yb3C8!)+aP(@D5K*z>5KM}mH6MLNCxx&
zm_pwrPt%yJ11w?JXE8H@%n~58tih}lFl|hxVIUUqp%JV$Y({E(APnw5OXWRB-f?)M
zeUF5#_VF*GZYUgjrU<N<3<krecFwRv;I_ZdHNMaJf55c~T-)Dp?)SNpA8<7ZuI5vt
z#b8|J;C+(M85)1UZG4~G@&oSq_qqD_xjpZ5J3cj<4aSc+c%L{q!%@Tg+>!UW1D_gA
z2IHr8c%R?{D1Bpgy6#VnR=nfLL%Dn3=QjL++xMwi`Pip!CG-(sc**QbNk{c-FiY<=
z95gJr*EsrJt8g3I64hO69DdiTs|-#YPEPDRDb$@><M6b0z|dnrWc{wh?$bj3nKh0c
z*Nz(V3{~?*WXx!dLvXFG-cUHZnXK5YaR{#U83ql8Qlu!qS-!?mc<rd^kipPAfAH3^
zo5$8T3a=eE_Tp#3__pJ=V~wNm+DT)ZVc){Rw~yUMA_Ui7Hn<E`i*@g|-f3Oq5L~O?
zW@uUXzgM)pa$)5c1|aiG5u+ZX+JYd^u|!`OfXpu`z@58{iZF{n>@OkAf{Ypyf~H4K
z1gZftziSyWs(xeu5?`_y0~r}*VR9h$hYThLCXEY>BG(z!FEXm%U{Scisc=J32iOK<
oV*0{W!o(<hgN3c#v(fVc@McD<6}6w4L1Le|fzltr(%^Ih030bBZU6uP

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/chatglm.cpython-312.pyc b/model_executor/models/__pycache__/chatglm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..88ac06579254f6573af4a67ce41912aa3946f3a3
GIT binary patch
literal 19890
zcmd6PYj7Obm0tI}pBN0@j{z{mgTN33KoOuwnh%K*B~c;?JuSy$%flhM0Sq}afVu~i
zfB-hvRw5vlOXSu%gtGP;TGvLPrNl^5wM8f1*j1@Y$w?|TO;DLpFBQY(-6XEckC8#I
zHqMXaJGUP*12rf+`LiwY&VBdk`#9%2=bnrI7!3M2JZZ-_Q-@D;+%G9%JRUu={bd`+
z-QWZ+&I!C=OY?CazxK2(V~^W;%5$V08E4$d;<mIa?n0h3?aH|0ZkFdtdotd*m&M&_
zU&bHzv$!W6$OPj-7WbxWGNE`VQyZ^kX<s^=sf*WT>f`k+?N2vk8sm*D9!NK3n&ZtZ
z9!$4nTH~#mws>2nJ>JgpYSNKRN4$f@L+Q>;SG<eGYtzxpp7<UX52w2`J@KAQZ@ibK
z>(YIhz45&)UZ3vI48#XmydfRS?2GS1yisUM4`%kq_h*LULz&_DFw1LBk7N$S4`d#Q
zKae>XKbRSfk7mZ=W0^zoLp*2Wp5TO**Epe7bYDsv16%%m*RI9mhgr=w)NKEZnnzg8
z2x@kGM$MzFW+!TPeMZgCi9uF3in@EO>x#qgIy73})ya<^V{N+8rpLOC`E|!x&0f^(
z6OW7g#Ub?O(!cz~ye+nO;n<VeNl_BB6XMWJHa#DGbUK-P;@tUYW=0Ux(TSPNY%-U+
zm=>e2q;k{I7tVbC^!ey3VrptSClCLMdK!=Ms^`g^C?!z~aaT%CrzR+7%VrUJ&n4$Y
zX?#Y?P~ucBCuVc087gU%=VoVTq+B95BTY;v=v^svVN?B&CMTxFM`yB=sVUX>Vmh7C
z;wTDCiMhn=Y+_29nVVI6DTNN@87aXCPRu5yWI8RT6R*rjX(1t}7Kjqx^QrXQsjP5*
zE{&A?x%1C6dhBZ3c~P1Yg-2)7bD8WjdfRiUteBM4@Uv%M+?n;<%q!Jd=q_|_W-67F
zpOI!JL>ZJItM1vkB))P1LpPJvX~!rLwbINiePWH-&G|E8Qc#;-oS8^oG%_E{ToeT%
zm7PLgje<CtoJ;2t+NdYeGf6?Dm()L*#i(aQA(hODFR($7ksZ`$P<!pKcuY~ut_Ggh
z##%l%^V}(nhn{-o88v9c8O<@58a_3boB4t^#pl?|)S#X`pPZc)CAB#v(;Q?{vJ4v8
zm}f-LqV{K!m&Jsbna#~7QWezcb0jAwlM|TidDYJ<rfFr!Y9N!GzbGbVC2=zK>V&pB
zwa}|4w*Lr`*TD)!4lIz1+q@k8C-?=MXcz3FL*N(O949zLryg^Pu1U`_H^~dG*Mf1k
z;1)fX>MFa|;(}+Fe6Mx>q)YI<=7{^2xmWqP|9LJJPy^U4=Bgf7T@%`}4NTA)#-e76
zIPfwp2qWdvKh;@55J>~#N!!E7{WgDt%bA5M-bL<P$Tjvq&n@zobe>>VLS&IkKwfB1
z4#S~6Myn+!S{ahXD8w&XnRG02mzY$lD5e_D1@H`kzdXQkvh6AE>-?_u@P72Ca~Q<=
zOEuMfQ3^Fo>a1%>0p!<yx@FeC>o*un1-)BM^rG|fmpM*q*sZkU3!B&%I<0F~)MF!&
zYc!}7Y}PF>dKi^=^_ju9`;8X(7Ry<*ngi+sZ3AXo?vfcd@~Fn8mU7C7Ent4pHfW?#
ztI3F$fA8DYoJH$ef_(ui3-1US{pI!;F|@G$N()L+*J}M)&nSPX+jvL$_f=jFu>H|n
z&NE_*_C?1ZgGqeX_MY=yeFcK%dZRoSGh(~aVL>w+UF(^&q)?~A#i-DC9;h(aQEtej
zf*0I^$B^YquBsBR;4@3ySV_Z1tMYGvTk_-{Fw)jDXPqnf*?MyefkhYlKF@o>cgwW4
z8hz#t88P(pJFiF7?KIkzf01joDsB3B)nL3r6|>fEw4CQ+wc`?PFR2Z|l$O8slZD#h
zm*+%jK5<!`Ph3f+=fs<K)p0SElqK*nPNK<Pa19F(oTBO@v7C@dUh5r{9#Va>_;MmG
zW~Xw~zv7}C_bYlys<s~j)j=(CN%StHG9<uWP0Y^7DH8X1M-n{-AtSTm%&Q4GH=h<4
zoWsdnE{k@7>|7>s`AT9MQeT$P7gr`H7EztRL=dE&1mtHbmq@7o>68E(8IqA`h}C-P
z0ljHBO6y1s<v>n4K}D=*)mx4>W&j^j32ijYhH6zd!&B5;tt<Crkg3}7ffCKN>Y?7*
zN4s8TG^uXXBABJR<%wh(ct9e?t%j0<kf6~{AdlcwfHGc2Wy(}TJLX0TQzNG~8*Tt4
z&?%|G87VcD%HqRlexwGfV+_2QxhT0Q!@)+@r#fUYJt^%)){bFS-MLw9{Ag>b!OGc^
zr7_C$CK40rq%0>AGBKd2@m&4wlOwsz?8t0tb_mlAx`tkzJACxW<-_7gI(2bmc0M;f
zlO4GNh&rMHQ1Ml90{BVNlJdv|@bpwVGdw#l9Y)U!jg@d=*qCP8rE&)A>u;}e_i8wA
z&5B#`wA}Hu72Ed|+J}_(p=HM%Ps`o92RG}EEW3+ceTA;0O4m`!jTA%mg;0+Y>RFpo
zLPHzj+o6Mb&%u1?V6nBM&^n~F4sA3mtw)v}Z`2g~1`B<sl)h8cu)E~qYMTn7!P}w1
zlAR0I7Xkyf0|Q&(=0bQ-2@jUsoHuyK(^c|uf!cz<Tk&_VP2Khnp;<#qp?;rIzi<5u
zO8wX^{&xM*eBfxl{%Fa=HMFn3Q0N#_@PAd&-ALCOzcyCr`JB@8xm#08&tsdB$BB&A
zVoPVCWuMZrZ(S%1Kce9OmPbHru-MdgBYQo&mV0OE?IopY40--yb9<qAKxrOWAN%2n
zn<tcJ`m6wQZ!BG3S`(D!eU$#It^-Ao9Ed1^2qJHuUpddxQ6&&%ksc+`Q>5?gSHk_b
z!zb4tEDWAh22U1S`-)AGYkx1_F_f<#z8CUDeQb#D)p1SzW*2K?@0@u1gc86@>I#8Q
zCD3X1WpuFmV!pojp5N7k_HX#8dB^IDYhT_N-E2I(?7Q32wdPt6YzUhz$CiT_&yJo#
z<bV=6kZ(D#9K74sZ4j+}*E+8>$BM0ci{Yl#HYMCsZ0kqY?bLM$tEI7%s*kUX8?BH!
zw{nin{ywF3AJL?L*Xrl<^*#8kMzsBwcN?n?`@!Ha*mEM#xWUL0DM40Ul9-#5vJ<+x
zObs{^1PrRSK)JX<po5f*9nT{FuAWOqj3xV$W6^%8vKPHRT3f>d6GWCfMqP{CDZ9YG
zXEOlSm+_7z=aOs5joKzCtmwnG=v;IeqLa~v+Nf*7vWmK>x#%|PE_qPP1W^^WJXK%n
z#g}@a8Q8~v^?&d{BeO$B#N5*3XafE|n@;7VQ;18CQ1BE5XDN6BLChzeqxf?aJdZ%N
zgJr6GLgimp`O7MQMGZow$ceA!5=?ti{lxteGjqAwxm-2xib~H=2kyxk>6N4;EHqSc
z9wQf3<ZmFj%3+(=H5I~rO1N(=vl$*+aV^`IpDork-iTd~t-kQRFTM4p_1+)uzq$XG
z<0pY11@e){-amLPwplm6;$G&LA6QO;554)dm9MQXu0OlMZ-x%8I4Hl^68WC@E$`Z%
zwP)A)&6a)3K`hMgwY}B0c7C(<;7ZN1|Jt*~P+Q*9COr!}ZraDkRnn^<0<+1C2odN@
zka9nlrg$I$IhIUoB@zJ<i6&Vh5U1MZoW!`S>SQJb)upM$(gi9F>O6izOs5lxo4oWi
za%Ebi53`Yy`VeKo0V=qH;BQ~!z|r;}C?0&U*wpf|{|Vmd+p6s-IVpl|+uXf&T4@?6
zxmnu7HOJP+l%|oAm!*ANxZyXfP3bwC&)L4!9J#T0eX-<3oEk@Nq_3w-Zc2GLU+B%q
zO5_tSQfwR;Arqj%d`Q^QvrX%!QW+NbxSgrP9;OPD5^Q7YFe$;VN+tL;E)Jy_sw*u}
zuj;~zIDhV$g}*>B?DLV(LkyOlbUK=YCLhgBi_ugTD@(KfOh+|V5tWHm?2pb$Gnd4P
zTr`!7=4PT}`=(hJdL1l!Kq~+u)DtBvw@fq(3ljqa(VUdb%9O_}B>SVutYG$rm$H7?
zOQIK(6PG~)`ZwQh_B_n$jcYRB1a%XY`~+%=#;YE|MDI|m9lx_$ZSt+0$x#5gtyC4>
z3I<QXY<nLy0T35zi46ePUIDU=>E?0-jo4$T@=zB{I?4(tD6)d!yU|%WN_zi`8YQG4
zRZ?PdMnG-nxJ0{Sp+*DFiD?+`5@XZSU}feQ%bkt|qz94BcBFI~G1X&$LWvYb=?LY8
zCMUBALj)0y3^EXC_DmcXXmTQ#y22JqVsb7!p}|GHrtvzb#yc4TG*^SR%SmL>^1iC=
zbcV!2+Uhqk*qf*$e-8m+us{U{+ai22th5Y6-UjcvxXvSGxew43>`{U}`9Sa5%SvG2
z(?H-W`TG5k)}0JUwB4)aqWk`MQ3Dm|YJ_#wtpp(Qcf}GFU3{Rk$q5Km^P%NQ|F&O6
z@H+}*+mapP%v{)JU)-YYU0rZ5kwrt-`pV_d^UWGed^*sR<9Y5TKOVD7v#2P&Oo4<T
zrcVipGqthGA~>rXTctRaxpV<$%#$X&7~fu~(dS8*SpN+5Wm-*Fxvif5LeC+k=g>xG
zv*)zpiRL{Wt1lO$y@lwQ5*^DQdTKLz7I|BMs||aVhQ0az<C_g9R=mruYkV=(xEy4x
zHf9@_E}}yS-wFIk0tF%h)tyKPGZTq~CTK{;NRt%M`eDRLDT-Y}P$@{#lu5zsRB#Ld
z1j)xXr_)nv;6@LVDDg&gNrGRJ1-jsHQ_@3ngDU*ZahJ16lLpiq5obOI1K3_gmX$Ps
zc{K28d7w)Mm+02bqi&c-JuriMFOhb&;}N{O<om4iVIK9vJnCmMCIA@|R6UrzN76GB
zmlwWqDoW;J93`0CUzDN@#puH41w$$r`AiDQl_H2V&FGip{n3m2qth=jxuGFc8F3~K
zw3QT{nPk#S286(C7sM)A(U0#etKAcoYn<3F+e?4)X@LQl`1{&n!IUi^D;T)B^H76?
z)Q(4T<xKICb>>XQzT~vQ9*Z`nMXuZsxwYk#5qpm}pz&^EgV;W^jA<gsp|wP9lkuZx
z3(FU3m~{PrQDuVaT!%sRB41&xvl|c`Z!|58Oc>n+x)x{Uh0ri5|7EKP&|M5&EjWfV
z>DgFqSq`ZKIKoKJCnQl$2>_C0lFtIe0H=@zM@Q9JAQQD^a(48fRYlb;Wn`)%(IiMT
zznUluv&Bp$2@sV^!x$7|@JYk!tVthgt2Ncssx`X&6JX}R`c+#PDW<8WqB-#am}Anj
zH{BJ|u6jMIAx1}n5yGS;L%OuGNd{I+!LYGEO*!}%s3-qB1UqdJTO^^5DS=}!7LZ}!
z5I9wAq%iP=GVlZmw7#vr!FRs$r(gMQ|BqXjL%--6HbvUn<AvViO7HP|cAKG4`?#(_
zlwUiyw*S`NTP;8B${&6f#a&EH5<G^9qjOa09HpMyKX!4kved2UF2?Hj-Scq`ZL53r
zz8W^ZcBdXBeaoXUPg9$cUchHn>9Vxg*>?YLh<vu_+*N4W7j5N@1`W_stCj4F_9bW5
zw#ef!#<}QNz&n}lNmH}qfsSg3VG`8(rmU=F_U1xw*1E3U=mUokXbPR!4W?`xziBIL
zn2^z5N15~u3cgCgKcL_rB8Yi*YNNH~6|V7FwYI!U^&F3}xAb+$mLb~)66sVjaXYpQ
z5omDi0&*5=&4s87`kzzfKSTi4w1$gB3+*FH`^ZLcv;Ab=)3VjxRcIep+J}p6WZ)<{
zxyZ;iXOH+$RthkK)sfr&BgN+al`~t-y~}5|+Pd?7hm^KM%OR{T>h6fre&klyX8V)W
z#I>`@UNi|e-e|erl5g9$86I4pR>BW1yS7Z&ASFRtEVu(RNUtDwhhka*8m6dpnt}@y
zSi*;SDxu)d@lXEy2pD{D06x@JD5Fv58J;Pl6d?>@D5ET0p^UP$ri`-aX?~Bh$y7!W
zr^dQ6N~y9kij=m4h?)ufGanOv{0XxDuD}n`Pin6YLIMng1Q`e+2w4Fx7V0VzQD*oZ
z*0sofe9kV&fcQLP6{`#xyw1OFd);1jPWvf*uws2KRB=v=8r1KO2Xc<y#GVS3)6)F4
zY=f1>J_#e(Yn}=zuD2(17<w}i4&vtf5H}gmE-dC4=(E5SKqqwueLyEBa@5cX+B6xZ
z<zM7lV2Jk|73jnQ2MEq7-nzevc9odGH9n#9P4;T~Si<ew-3Y!-(`A;f*jD%z@K*3`
zox3vLC@rC8jAt7#=3p>FJ5Sh)e6}=Xsvf<1RZ}Ka&+&9Jb5Tg1T!>XKGgG1t9|r(V
zrsb1}XjPj)g-inr8T*|hYmcv=yS4xQD<8DK$hO;pdzkTAnb9H<2VnfV3dn@YaD_>F
z)kh~jdOP}B)ej2_ylYsN>J_ts9(C!Ju2R3%5Jvg~Y8aYiXD+N711)<fx9c;UJEYf9
zOQsbSy>Q_|HOgq-Wn^454jX9lzjvN{&<V#OrRxyWl)<2I4$?NLv<)(ww~IS^nkQ@b
z(<@JZ6nK%D>{q{#ukX9(b{zF79@eU5wf8&2>%H#{>f)g5w!f<w8~I`94?4d)_2Vxt
zKmCiIgGHQw)OIVi-RrKxz{ASG!+;>YHOr^(1fusm+<`Cf#b6{K=vci{=z2iudSKgb
zI{?7(foK0`0t?!4j9dH-B9+SyJI#iy9gp??L$0}7%MA=Pe42X+_<P9?>}>~Lt^^?b
z8#NBD%sC9hk(J3x4(7~#2OkDLWg70EC)2)#o*{*iA1>2l#L6cBC4P~|X0ne<{|JTJ
z+Vx7bZ6s1xrGHGp4GKubPy;wC#pxTIqmtRn5^)LXk0^Kx0k+^diklctb!y9(ZNh2@
z(X?Zg=|G~77MYAru*Q5`Q)Kn@_s+g`cD<nxJF3Kv-WvPK$se8kFO5$vKlWi{PqB0G
z)_yF4j+&M8fVoX)c{HhweDkY?(7xNDeRu2ku7_@Q<olo4tUr?voY7$eTUvk=><nk4
zV>9y5^7*Y$B=3o6>m*4ZQuF_c6xe`Vph2*N3)iTG0=R^7GD&K{g%2GO*z?Pl>ki%A
zfZs}}K*<WEKuHZKQ0!#b*<r#2#4BI|r3{#mZy8j)gP(Yjr+qEaGJ${QW2~X=F;G|y
z76hAMpR%Q3!4@2X^E+_Yf-{#}bWS>$-P-e74SZU?@N%p*dov?~&pLn7!K@HoW)pAN
zwRO<CwNNAagaEUjhjyu<mDY;>-6#-!42T4T@N3R^K&TUgVvXpu?rqZ6iZ7yn=q)5V
zDTXhohaIJsL6|UhQllEs-TKaxU*>O{H9I<d=4LJpXP6Hoi~qK<vS12UdM&%PGP~No
zdJ*qqaz^#jF}Cib#^jzUNr_<*V`mJ_hSUyA`lo;o3<k76cRW_i3>uZC0R%dfrR5sB
z4rF#2#N<rjkMl)~MS@%ts+7rr_GN?3ork5{W=MbZYMNZo$^ycmM%g4{w}LaMVVXqH
z2RWqdcu>P+w-x3N7+`do?4Zd}L6iA?6)si3|Cc&<e5uL4!OAV1aW3`lAR9?gZjL03
zFRt+g-!PmobVpTN88t6>hT%_)bt<uSwGbTEG(!!3#Of=oF#*kKLidvNPEQ)kuOBbe
zdStMRCPNL+;`l%m5?9DoR&(e$Lit{k3hCR_>;z@{;b{Wj3mA9OGUJY_+aQWut<*pz
zP0~L>7LI6{r1?JeLDr+4z9jdtqBK_SP80XhnUlPYo`CZ1dV+>e$5uE}2*;FgtPmbm
z!lTQsVsm$)c|>U*S%xQr8Qp4%0POhxs#QB9=v4x}ra{F#&yVNp2kv>DZ9pY&)Id$H
zgh|!T9y>fqn)@oPFD?1QPeJOnP&WY}pANFk6av=od?{Z)h<A1{(@SfqmJ5c--=GjU
zq6CgG+mHc}RIg_Kf+vAydZ|P{#7r1Np|$qerkCeADTj(c=Ii)@1%pl2dx*=_t8PnB
zLu@g?dkUwP<iW5IshXM{r2@?m?S-oxonC)+<*Tcy&Co#JGr&aIxau{$A!N0o>ik0U
zI+x++MQ@Vf^o*SVe~HUDYoC&<Ov=OwiEl73=1M4N!m`R?K}C9`=0(RJfGaGyvhCQT
zrUIvxQdj}ETv_j;{i^1g3q_Db$nJI}07cVV0<~NkP-FOt&>8?217+mEHkpzPRQ5v@
zNk5=+eVfq8OB)pY3kv=v1^<cy>Pb@rfX?t#*mxSM=0b;OQ#1z?Xasmx%LQ7#d9vW|
zzwPfY0zicZiqWC#!7bxRXXA^T(T9+(@6Xqd<^!V$i;)8xT}tHC@_FDBcoqcS3cx?6
z*xC(~P-`DdLajcy*Z{<J7;sE=>lYZR4$(~crh*<^y1|8;Dch2*tS@2~Xu0lqj5#zc
zZA<o?Iafv*$ufZTf6H;Ezlja$FC&c}m)uL9CGVnV(RqcJ_%{NJ&PzngjtAv#L**sw
zp_OloVA}g6vM<_Me`7hCPWB+rbVSCRPC=3~xUuA0^jV!9FZrQb_!oWfg7F$k2hZ_b
z_KX8=w4j$mFX`Wdmap$h%bR6dDkQp3aOO;zZctFB$`}tg{5md?mcQd!bQ-h5b8r0A
zfm&GWE;^=MLrv*z3TW#Y8GlL{B(veJNnVNz&AO8(m;i0?;Z*iYVp0-cR)f`-G2nbC
zq$YA|E%~Jg<qHuqTvEgw&I`oZbaFyeJy61Bx=15M=~cHVI72}*0@V)jhBI@<*Z!O`
znxMc>TsAtC6B(Rc-~>(e)8T1Gh8rf{8Dtki^q0!2gGewlH8NEnYry<zRKHF-tLKrY
z;Ti-!sXAE|Mv@%B%h}e|1Ga<J0KG`Rg(5GsR&C|VqN}u@aUBf%89Opaiuw~Jx1$@D
z*-j`^&F!mWh4uqV`+?2&gPTpG%l^CFec$g}4*s%dpAzU=K7DQIFAtqnY9F}fTRpqp
zQmpTUTVMUYVnc+y{NO*cc6Os}v-$Wn$5wswjT6^TtTo@MkF5*029@E*Q0p$d62~?g
z?$kd>O<H>3q0<t(<}6103eiy|I(jYmVQt5%xc1V<nLD*7KCEplwQ>)h<4X~)VQ9kv
zpG9i+`}BM_+Q05x|Jt30Kff7$(d_+B?PxL3S_pI~FdqmX1bRvjaJ_@2gB5(}rfqyY
zR<}bdRGVhCIoDjC%t@CBn_3!@8D}OP5vS-E$sb3$KvjuX!4GO~HZ4m3hBDr#z*2)G
zrw56GqcnBDM1&llT$~q92|dL?f5~a@^_A?-PFLR129WUxf13X_7j^p97E1JUYxFnt
zQ##G_&e(e64<k1tB@WSBeLva%qy5_yMXTcv^TnYDKK3_5tE_Lias2x6k`r;fr=gXl
z+?4WgT?aQ#E1gG5UP}77mJT-Q<l0%Hwxs}9-&zV%tVZ{m(lpTR5ak{0c6O|tS^xaT
z=q)F6QyV?43_YgwK3?Kb^8V=i^3RTZLQzdurLUgAKl3pS+rLFtrLJn@aMcJxA;rTv
z2IE9e+<^;7PQmdVn*d)c=&tOdk*3259>J@hvHPIKdIi7evr;N>_HLOE9WVeLFdzi2
z%Xe!hc$x0$5NgmmD1@MSLXWlXqpW*Q+JxFFjWev)>O1@qxU(~@6CU-rRVQdrhi<3I
zn%e~KyOEzZc>-m{R}%8vMfl;xYz#xIwH1f`iQGI~!M=}y)9`hkVss=|w%O9EH6`&g
zV9q-<O?Y+wE=TZ|nkH$K9`wKCfi$(&R!wcN+yHn9XM1Js6OysgxDNT6AhgGx3OR=R
zX@bp=U#MeJp_%S-rtDgTImD1^Ri<&17N8Jf&pRHgg(V$DUDGsQZeXRiT5GD7ts~{0
zj96Kt-Q|rIZ7>Q}nyuqfx6y0)*Vt}oV``wgyot2M9S>TW<I9`|)OxxBfXf|obnR8Y
z;USHnnd+}ttxz${r5bA}E3ML>p{DdtDHxzOVRpR&>{|0Cz@1f1aXdqX&6Sr8DtAr~
zwcn&F^|_Qt*Hx=F);g8AG*K-Pj#S;S&CulwiH1OWhq7wZ?B*$%c(kjhnjWj4+M2{m
zY@abbnh2IYpx|i)vIl`K<F&&K?T&&W+s&PCYP3Hf0r6|Jf<{|?PvJf~?N+3}5E)Y<
zV};1$O62i8JpMJ+wz%gYnfE)lA_Mf>dbfXg{Yw7ux%Y+5{^u#D_rvx<i17E$-D>)2
z$L9X0p`u2Z)~TJ>zIklrSi!&Vwtru7^l)MHQDyYe!svNr^n79T1!eSw<<r^?fI=Xq
z1Y&pKu1}W-`jzJXLi3o?O!o-_ccUX4uEK#c%7HVR(I@Gh9b3lDfkNQ85;$I^&`PBB
zRH+Tbu;|}5nIf1Li{G7(mEurV-we&x#@2(x<oQ2G7nOP~%Uv*TXO|~thd%r7X?{rk
zWBP0%)TM;F3ZW4tG_v8{41F%|`J5*9NJp#s4B}esGfpD1t1@nVbYVIe!C}x={umWK
zNgpBryk?k|UaGpZH7nE0u=F%&SwnZf=U}YV3KzO|ik{)>3O}RI>_QKKm>%Y}zE=tF
z#YK_Dw-+~F+6+Gmn@ahdp0Kp_#}Y-A3OUpxU9!`sSkD?5kICZETz|^WA5bxDbSK_L
zXdM@|?GoA782VDfFmORiGCQkT%*KY{eT)s=?XDUd)^MTYQv*_oxbrj|w6$So3U{xK
zZH5Qf02D&qN~nA7@WxnS^hss($$Y4LGxSv6^AuYIpMsteji~es3J4aJ5vS^4g8MLK
zPEjyT0b8g4m0~oP(to1heF`iw=6|LV3jU0UCA$HgQnd6HBf}fEeETT2b}QgzBg{$7
zt;LaJzxKBQQM$OMXvs}6a*8Z@DdywayH*#Kw*4hmCBXS=eiNjEBfRri8GRlrqt9a{
zm$Sm-0daJ!Ioz*06mMkPO<6TI=ULtoI)1`Yk+yT_6DIJ_d;)rG`=^Lh0!D#{-?t6_
z?BB87?|6e9Q`GKulmOUhefSX&y&BX5K(wyGfFO=DEK5ZVCi;XBjws6a*~4m`zSJI{
zkseLX$;tG&^U~w^H0Ih1RA<H+_|s0Pzfa|4GOao>a3O=1#`eEPKsXLK3$dM#)p2O0
z6=e~y+rUIpKRYnOA?1>ze8pXGl#e>CjyM+`#<qsd-}zk=zJHxBJ65g$yL}7phwLEL
zWxS8)fEe84YVb;mt}+-G_=8FO!HQH4y4D<=om6sN8hf!~z!rY|!nBA#o<Vp2=h&^%
ztmcrKlJ!5Vk;+1Or~6j$QcbcO6u9_Fe+)y8YOm6qUdhoFw=d>r=8%Rp0Dn{hjRfY}
zN|%7Nzu9pGJOk8KzhXH0Oj-nVkIvyAUF6XFWfu47#rY^K6FGqR=!K!7>B*rPbRwk$
z5Y)e5>%Sn~!8F1D%fvdWdpaq@*9#XppPK_28Sybmnvqn;B^hpxPGK%HE0-}+%%!n>
zb73$@qz1tM%ok}8gcb>dAe8{5{nKmEgdl%O{NplO0fH2FqK>=%x@!-vK6J-FSd0wj
zhab)loyxaAvV87tU1!N=5BI`*zc2RAQ*S@DzPQ<YJl}KT)^jDdJ$#Dawma)<N}MxT
zQ-(EbU%J%<*RT&f53{X5&V>I?lP9S!Rn}f})eoa&S4oQFdRV;7a~`tj8IqG{Fu)kW
z_t4AEcaqqW&4H^lu(nwYoNi|QA2e=z(UQ5-;bv&dfYLHh3^ZPw&v!p~D+u2PW+}y;
zP}5Q>{S5VCk|Kszc8iz(10_i#v9w2!DMB+rSPFu_reX>{AcFo75eR~<$WWeK`C|Fj
zeIGmRnxVm`8yfu1Q#@H3=$A|l^jqpS?FqgLdjjHM?S?&pQWf?DO75^HP!<FTyL+Xd
zV+WC^v3ephc2aZb`=5xbp@|v%Z5ie)EDt9yPG~k3FBpN8o0-8m69EHFLOQ9whuuOO
z&Ssg9uv$ZMpYDNcH@CIh%k3<a;7uyc?ziA#&BP3N#*8FOgwM5OSpXnnCfa2;8hW*s
zH55|NwNu~`qQK1d+7<CWR>pRE!nlyEyA%zVZ_-F~5UKXwr*7E;sD`TUxnEUwu}izx
zLnd48hR)#qTI^I_>gXN)_i4fYh>HGKb+j9Q_v>G`-7<ts)(Y+V_~?E5*A5nqn<-^&
zO`;P+iJd_XSvA)NS_5yxx_Najm%@TzcHJOrW9XaAzeVk0c@^5GoM0{Vd6t<6sp?}#
zPWYoaqAax&4Wvj*kW#ShX)j>dlHs-}744ybG-#;@f$BQX?oDbp8`G3MPr)?`7{ntq
z!#3khPFwTOAOjw4_#)i5JSpKXi*fj$lm8cjlAY)Ik9{2f2>(mY{}I>w5f}L-7x;*4
z_=xNLYf7H@IXCii?&*)X;~#NHKCwA?+s7P&-=NJI{v+=3kGO|FvDuN~;rM5eG4v64
z^uKctDcnP!*xbDB6Ar<>h8K9g{o27BN3S2f$5H%V*0!H-T7K@$FRpy?9*5|?ukcUt
z$dTThUzxwhQT$%qHp+Kgd+x>;ucHp4r8NEsSo1yGG>>f7*=lB+qtvz?1tnH+??w9%
kf0n-{-I%|QjwpWb0^h-R<XdCw$8WX$^rhc$NU@>$zu6*0fB*mh

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/clip.cpython-312.pyc b/model_executor/models/__pycache__/clip.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5f39aff999e4ba0853f8e934103961abd4772663
GIT binary patch
literal 39577
zcmd75d2k%pnJ1W87wSaezKEj$;v^0dyl;u(A)cTt9=6JqiXbXM7F7j6Sp|wfgErf(
z8G~clB4?+EWVAhk`WS&DZJVCmnWkrU$8t|>w7WZ|qf(%|%DGgS-q!4nXJaBt0yOIB
zKX&)`y_Z)N6O?wlJ7SZ>tCug|mGAiO_vN35LVf{P()FE0!<-=e72W8UPm3&HaS6h0
z;fxR$;$l)riBU1-h&ocvs8gggN79vYN8K#$OnOpf(Xx~`>Sgz?q%Z129#_(z3Pb}e
z&7BOULeWsFJX)R#N5iR#Xho_rTFIVyl2xhdXf=zMC2LZ((OMSwChJo5(Rvp5B^y$W
z(MA^cC!11hqH9vk(PnlZNVcR}qpd6+Otz&W(Flu&lI^LEXh&*obZx3L+R4(&lU=Fq
zXm_e7+QaU{$=+07w2#FrlIv3a(S8=MOb(<5qk}A7l^jZ~kFIC&>g0yhaCDf(YmysN
zo1&Xio1>dkTcTT1TccZ3+oIdpv)bhL)Q;$m)XwP6)UN0*mR6VCo!S%KliC~In|dbt
zOzPR_v#EX2ee79%^10Oh=zbP&NFGQXj2>k1#^j;Y^U>#1hogsa-xObyJd!#ZJ(@Ze
zJ;v^vlgCphq9<6qB{`Bh89kYLA^HNlZ%uwB^<wnJ)T!vH)amHy)S2j+)Y<4+QE&*)
z3-Pu$gm^@H{yit3@#t4sYCBRpq!*>iMkE{0z7}7Lf1UW(^?g_LB`GR>T{=DPpghvK
zc=vAn#(Si%k2~VMZ@8i_vzq!)(>iIdQO7GRwI8Vi(thccqWWX(*&v<`Nqb73ooCP1
z<Jkr&aQTmUZ>^!x!UdLd7&$k7LC!Ija}#oI{(_uwmU9boZvBFs63e*_Ik$g7&T*D=
z2XgNGf}9sw&Rxj4`wMbjVmbF9=iV>KnP54eLC$BtAm?R=Af1Tsdr#z}jl1E?e`y_g
z9+%EbuSl`?pVQ}o)xRJ0AF!`qIwq}u&&|uer&Xu_Mw2tHzJtG})IO)`J(7{+(F;jQ
zEjuwfHI<mSsCrLHuT4u6V^W`}hQ~(7E=lp&lsq{l$(flxhw9rmF)^7L%}8;z?0AAo
zCrA3+YVf(y%-E$v(r9K{mQ?@#<40cDKRGd;xTuCG{(?L?CZ*GpvRY2Jr=_bI?QsR&
zpG~9_lM_4z&HDCbGSWl_Nw}#xF`djL4ojnPYpVZjGMO?8R6IADmJUp(QZpx~s8|{u
z^~4ib5^+iGyeMU2s1A+CQj>8h8JikKr;~`hJ}D>Tv2<dV-qla}M#nO-acVVyy02`E
zA0M5OWQ<eI{>kKYYT^a0<nhFWG%Bl=UpaQRH0j03*Nc<TmGT3L^c0QH3zL&cNmf1l
zmtO8G)1!FN*-`4X@j7*9C&xxF=+zudU6A5&Obzna#-;I5j7RKsDRJ>qCYGEWjiZC2
z8ag#SH8m+`(yT%xRG&C={Pd9%ClBm99((cN^G8mde(@#D6CceJlkw5yfziz9fy7uw
ztz{$3(heo0WSsXytuT|1OiWE@($<W}ULTb&rm=cbX=|Nl&Kx;Fbz;b>kEBK~O2)+V
ztUi`_3L}mV(!3fyVb9UQdYVe}kx^c)q6gY72II)Y_@r8e`_xqC$V6PadKw*)(8)@k
z_M$YE937KVSVwA*C!Lv!W8GqG>Wt;WU+lT*M3N6<^^plI>68>tAm?eeXlN}3dGr)E
zLuynFXm^)Jr=(xg)<upQv&+VOVPy1KF`uIO8hsL{upICzvCPbrggPqsO=l**$|g2_
zoK376OpVT5kg)%x@x)b(P9@(d2Pej`l4UjqYj~2j^-f7iX)JRpBcuNpXVliGJVYk7
zl@|TPbSjo+<*?PSu&o%&OumY@S6gK%J(;{BQS$U?G6uLn4aX*@GqfVcG~mL1yxPt3
zIYe#?k`NW+Lev2QM~pfpSDYg=cic(HO!7!&mn*aqmLGsXU)&XU$35|~_dp=grJ+H0
z+)E{Ae0_fGM?ej}z!F!bB%j9FMSld>fdnR<;7NKXyQj3l$c2fW5eB0owBIA^B6#Zy
zk{p>Fk0fZJrY(8Lc1A{wr(>5!Cnlt1I?}tT&ywfT&d6alRaAonFv+X2<am8&<g1Bz
z=8{bYH8@4xj$Ii|PD^RkMGHW6T$uPZkqWAKNflpLU0AH6BY0PDEH*Kkl43E{A0r4h
zouqg$7JCgdqCF{##p07=v6xJgpoU{H^qHVEjRI23DAk>rl*cZq9=>|z4M@8uEF%>D
z=Fs{~YHIydVrnqMcG2L~>1{i<zq(CYpG;g>KQ)uNG&!;U3Lx%!w2yvESEVtmRhi$W
z*N-I=Q$tfT@*Y&ig69xPZ$j`7gijnEx3^Fs1gdThDgO2)S9{)Hee>Y$<F}5#)4v$M
zzwdtf!TzO=XR|fWD*k;BUHjw{dM!oE%Y#(9mJc8>msebroN)*KoRV|g6L*0+a<RB0
z?nWHT4e5@!2XT)UFGIX+#@pvp!?cX7n<>E7LhN;#H#Nv_F0pA=J+cJcHZi8*YLIvW
z`=cpa9%6l(6E5pdaj#!G=8cQ9n4P#|77tDV`HuXWs*r~f04UVbPGm?Tc2Q2mV@YY^
zV&)Rys0&+jT>c7WeGx&L+QW*LNARoG==+y<mG9cw&XU&}vdi@XRn~&wx=;uT6*akV
zpAzm{3imI*ri3@#A6CMfv);{YGK_adZh_vg_?;=W<N{&y#C1xzCyoHjg)|T|#_0n;
z?>g<ud!qbR6iZVR+6$Ib*UcQWt#+?wKK~j@F4rKqF66`2xp2D@ZqJ1Wl<+{-JMee<
zE^-vD^f~0O<45)LiKBOrUq-?cZ(u&Re*^P5)hEX&plwhz@-*sf<j*5=TX_0v!&Ayz
za_MXFn&X-{C(b!$v8&?ZtG(#5<EZd0o`$)@TscN$nnb+fEBKKwP~6GpM<xI-k0K~q
zjPhBe%y!vL&=c#Ls!Z=ffO%@~%C&D++BYw?Z++m(Z9k@LKen{}#Lc7g{(QLc&QT@Y
zz1aR?xIgRd&xZRcDXN5fvfdsxKqGx#`5@|%4^i+u0@azA$jG!1%#O3J$;T;;0T<dk
zGHn1BoJ1sj1i>3Z0l;cY!6Vc)7Ro5*73!M`K8pDTe`q;Cu?o>WxZqqC@Kf+u<4$+)
zLV88O4{wDUP+jBG$)xHYOOB?~eJ<5?;^4j!)w%EZan-s1_$k$OeBY_lYGdq$lP8ZK
z8F@Z-`lS~R#!jD%fn3{n`rz{~0aI9rgrem@1U_31^ftEzpOC>XzvcvD{!R&Ng^aNg
zI|aEy6fzoHK+`@a{Ep)Xj`uW>6&JqccwM;ad`Wm+>~oCF?i!hljB|QE!l?rwlSo>l
zEFy_?1Y`{8;CN(wQjS=Axif-=l0*ko?=flSpe%#z_n#$H$KrjWoWeuv9$6csZLYxu
ztx=66iRmrMub~htxE~P!ElgF-qj2wHvl8B#^=|#^M}g{31sBrF8ww6F+>&qU%Qg=b
zoMLEb+35`XF|8Ffg)*nFrr<=jzey9W{FXN$e5bL~Ifl4#8K{O{!is9%5TZaf2nofw
zfmR6Jc;arUO!9(m@yr6za%u(72+jE8l<vcyTk-)t`H>btJc#E3#6v9I5f36>KI7>N
zsa3RpipkufS*ICiv;HjW8@4%qOE0^vpK<BA^cg=Ta3JPXonx7+YKZ3G(s+!+Wtk*c
zrNB(Sg2dU#lU-yO#wdFgxzhCr7!-c%>W!<paF-J9`u)pG;o+=z_({-4ePeI68IjvU
zMq85t0Xa%9xpXjA`X&y(si~KxU03TZOH3zY6JR1{*RAq8+H$n!{S8!{u0wELcoc5E
zlgYIWD{aF|ZJU-%WT|>yWxP?*tkJFu;7=o79Q0neExqi}ra5opVnUb`e_#BbXv~~E
zjVja%ZRVzQE?cIy0J#a9$}<Sk1O_ysL8iBuUAxL#V-k&OzCk5h5zsvL&S&^c_A24t
z_gj?kz6ae1vR;i~JB55BMK4WlvPq?-bQ=IC?nt2PpnOy}L)nb>;b6HGYqHr&bDkDl
zNh%dfCQ^w^dezyo$@`mVHXTHO?pM^`shpq7de?B!Y>-n%hpDr)?^%cc43RHFu-BZJ
zLj$^^fOcJ`wOn#t)**@|{hDjeb)6yIj4l!u=A4&l=1ML?)bES$X>Daf`r|p*<#Ii4
z{_1-|&(Bc#J%>p_0%Ot!<x3~X33`nd3lSIxd#8bbos^AXQi8n<YWKPMqA~_ht+v@G
z@^2x3nif4MRejk}MYBDtEIZ;sIT^=k*f*#G+9HfPZCjgb-Kn(hTx#8oDSX_}{I>V5
zH`g$zGz{h%b}0?J=0o{#b2i+Y_4XqCI6RmSw&jAGmEh)la}N+f!7YTgEDO$1`HEKv
zZMYxGZ8)lIIJy)(2Ap2uF9;r=|0z)EJUa4)>jA{m(_qzA5k!~M#J_WnIj1?R*cJ{V
zj@_K~@NlLBc$7^Qqrke+i9Qz}ei|P6A5!pb1Zi4w#z3p>1P)A^7~D+e5*WucL|Yu6
zr)M{>G7V2Hb(@+RMu7d)+F_lMeB(f_ahKA#YpHQh*1Kokebe(O+;C@l@$5qrFdAD8
zH3-yWw$(WCf~{nLe0t0;9n7D@(!Yk`vquKS+XJBSI!Xih&EtoyUX5&3gPgh5xVw;c
z$49z|lI3hwYV>N+l3aD|mS+4u8fMHd#;JQ<uKT#seSE2VMDebj58g~YCccDVXuhE{
z-`I_nS<#1;NsG{_EyBKV2~ErJE?Ww!XY#^jNO%|!muVDLCnzLYqL(Fj&G##<6+QrO
zQtUVdCgq!^TMAysUwQ(;8^Wg!(Y^6g(6b<aMfY>!VjWSq&xv%`yjXv~`u^C113$Wa
zzfI}eM^Bmyo=P{-R75IMjFZX~<D@dhx}EMV_jlm!h=BIE{R?9&0)BW`r~_m8GcFwr
zmI#oD!<Sq{ZV^!nUf(qi@(To$$0x+SAfVhOIXo<XnU>#0L>WqX$GsrQ+)*Fo-#)dD
zHUN_t7l{B>A27|><n%-)EfYe68l(7PYnF!nwlE`tM^gFV>bUk6o>+0M%J|nfNv0u#
zzMA3e(Ua{m`pL}p*$pM-cT*>H`hWohX(5(}t)^l_5QxyPt0`i1x8d+Grq09OvX
zJw;epM-4zh_9%>+F1d>KqWhX>&M8*{UD@o~xTvF`2?zkMl@X(Hnfg|8&AI11bFR6v
z_no?+k5LD%5&0T&a^}-z0y))h;E1&9o4g{)5R*v6Q#k?eR2R{5Y{{#YjGN%2$pBg!
zD36gs|CB1GIg$yM$#*IEM-+Sqfg0w}&#0O)2n1H?;_{YC0<FAeOae*hW_#^dl4VA<
zocGX%iPGxYZoho%<%MmF`<7~l=KYVm*S(u~Cz0#^iqid+rS4N2u=v%MXYQ<fd+6@a
zV*SIW;SWyFhq2>AH8)S^YWtPi{(N0WzP>ZRrYqmnSMUjS1IvQDuDswZBWO~lK@(2o
z`%6IztsMD#6foHF+Z3y$AVR_06qJCCo0LYuAK)*22>~(8qPuFb?7s8<srz1~cSixB
zq3XdHL5QkCxv*!S_=&ID?SEWZQ*h%Ky{}nwXVZf7&UU4`vrtA!UZJ-6&i-usaJG3^
zso8k{v{JL9K!pg9G_M2@;{b!2E&>=j^|S24GW<4{ye@NwI8X$baDZ2H=?gdN2Dqq-
zJL9hJivSvsKT9qGC=5J!Bmf7=hg81?Ho&)8?wl-_PYT3&OauoPoEOGLaCBjCaRJE_
z4@%`vtwWT;<NkOEfU6>2E>)J~6<K>#8u#dlhmo(^rp^kf2JcoY)luI8(khX!eqOjL
zMjJpwRIBy098GnD#z{`f9GqFVD}go!&WO5T)D3=1ucuKo*Tgs>We4aUD;UzMxFTvI
zB?nM)9Em`~gc&)X$*4RMm#Jas;$rD3X)FQ#LL#2lv9-_4Qm#Qp(n(Mj>b0>Y%lWQl
zx$$tedzAqgD$e%->d=t%<C=!sM{XU-)$}Vh{Yy22^S*pz(|q~kaLd9=xvsqm{)hKw
zy?e9ay-3S?TR1?5(AJBsJw1&csU9#*&_t<a+Gbbltc(=#FPtk>tF_l+vUx30UPNcc
zbf8OfWPtK<-2AqP*%9T?oI?(noUsXJA+~eKLGXsIs~B@pNC<xbARl)o#6J+Pxl9Sr
z4bPnLT_9N^nC6@Sz3%s2x|$ek$2~GTOJf%q9UGITGU*5*tij2N<V*wt9yWUXF2S^c
z0}*H#A{Qnzm)avoNP}X17)eQ^6Y0nlgkDf^MMfuh`3RAsbSGh~W>^CeK5#>7)o2{L
zSZy7!K}sJ2w?R--{udO`MwZ{FfQAdpWC}m38;l=TksI3U<V;@~hx4lyQhl))lf=bh
zX&PcIB3#!QY?tpNVYX$p)x+xlQ)EeBMDW+wg-@!4VAZXQkE)sr4o79vveQ*vUJzWN
z@=t<7u)5%Jt}V}3cYjztu-H*>;^uKh=YsT!8?kJ#ZN)EC)ZTdg#<hHPW4>lhe(jEY
zWK+Jjr4SG*T9$<(mP8HkAz}msTXImlr_#oHL3h|yM4Et`IK<$$&anMU<dOde3XE|q
zVbIhTlK!AAuBngF8z-c6Y?`S})3aMv8=9vU`!$+mV+}^G952oGj_N~8d>M^VxAlv*
z0DFyR5wVJaGDa>tP-AX|_YH9-lQS?%0`kVasE$-Aaj2%{cHF3C7f2s3#WiRn|7#?&
zktqf)wTzU&?j0w^cv@qOX9rgu3Zf56vww=Z(`yi17iivV9=31IweMBh_da-isr~tf
z;lo+)VLmJ&=v7TvQAFGsLqkOVw}o$u-*(>?ZrDnZ{t*abbJveM=H2rma1}`|gMbG*
zoDt&Aj6s%N_M+O7OUImZF2D(G0xpsO$33EYX$=D0UVVbAt41x$A0YT`Cpzf1rx4BV
z8MG*|&qmkGp3Dh4HF?c(!(%5%x$HA@>oL&2em!pfA~k5<=`pMsjmp2~yy3bi&N*k%
z4|Dy<zlofEWvY*{)wK2GE~Ien0%0`Hav9t>fYASpRMo>kW}0bB)Cz-m)l}>9yHt{G
zNFq%QaCH4T2S;j{nv+c{hS>v8U340Z&^GJP?j%e|lIgvS47JoE0=qD^Js=q1O|G^_
zsqI-TdpLYxsrKOfp?qUou5n0d99q1()VO{A=;OAvZ_nJF$+hiK+V<p|yK~J0O7lRz
zr6<=iq_hlyd5!D^dlvyrYbHW&ZMJ%CwtK5my)_%$%BeOY=CSv@5HyV@6PX#+!x?Wi
zVCfd16dMnT2Bn{ZbqE05kvG%l;ZWU#UjLSI{4oVoD(yjV{yZT0vz$t=X1lg{L}vT{
zUku-WqgtOs@Hb5S)YO`598eku=F1B%uW#G$k9{uSXQfUEwdNZmkLvq!_3M@T^-J}`
z`R4wWGT?xMvj~K961=gL1gCy;>YKeh5#y>WnE*c@p(l(&|1QNkDd?bpkd)kmKy_V!
ztWN${bWa<Afi?NxP;4y)w3Xxm3jPFv8qyHom;`Do21V<Skjhjre9Yu`C@Td&p$A8>
zO#b=}A@8msHB0M)^HcEct;<fqQ_B(xO~USH#X_JJRC>9ve$%I6#2!~v-;CecbSrTy
zTyWD9k5B~~pJHC2y?4>Mcy=+ML^c<El;js$yB1C@b}xKgX&JtMKxx^oS6AJ&kWs4o
z3sffz2mDQ+RZ{F(vCLijxVE9-#xLrw?k<#3tfX#ADyq8>proMSFJBH(tjg^^B0jEe
zE4V3wimY8LV`*N&UwN}STi2hh>{omP%RZJ`-hg+k>MFSLTUv~gyh6iZ!ACJLE>$-N
z6kprt0o?L^Kw~?GKjYHD)-u5mEB8X;3_xw-E&#EkF7Pd|iILoPz)RytAOx{}>RBb7
zb1`N1Pr+4qAt)(hT!j~a(9g9}WVL58Zt`#`agm6GmMme4<$sQV=vGrFc?0tD?_yQz
zSVaUKYKP3PIZUjC95#4q&H&hRLX6fqyNXKLfcc_QWqPR@O$X+ce~2WqwMk4QGO(`+
zTuQ{_U^kdfznPx-uaH$9OHjj{-H>$CJhh&LfK!v{1ex5#jC7cQJ(;KrasPs9^|8FM
zcp}BOB#j^-nMRXlaW}h$AXo9=59$4^!$wUXLN37bN8ZqlGR52Q(A)I5rYTp`t<-eS
z`#x^la(_Ix^?7CM^FM1`YCARWdgyI_)UiDutjYz~DZzD%N0yzAwf=e6&%JGIsg9^V
zMw=0<Mfzv$rRXlii8lU%nuv^gtY0+uZ2o0Lz_mE9x6X;zSL0f2b$fG$_=ss(jQQ1@
z0RLhTc@SWMk0FDaYwkHWRx0$?TMmN9fMM5p;~mZu|DxTp(N3R_q^8qgUL@i^$V!yx
zKw>B4B?^9yKu0<`O2||23j}JlF&vgT_M35ri!gt<I4&xKR0{gQ_-vESENagpG>NBC
zJ;OG^#%v&x4>x4Pkw<lre9bXTPkmKEa8y<S#I&^Mnl~uT8}2tQHSd}~@t6ehTa?x<
z_mfMl`=K1k*LGyPwkx&UAyW!BX1$FZ`Y>x1Unv5jZ6ebelaEqxjDn9S_%jOr9Dx-@
z{0B;;0EY*J^h<~UMHC!fxBt#JJ`?a$XcmSxe&VZiH$ARyxV`(<?uAYTP}+?Iz{~pP
z+sRu=5*9ZRsBF1CcWZ7TuGFt9Pzi#W;kTM^G=Cnz9q%-?RRl8irN$)0PXn2xp0@>v
ztAJ5Rl*wAm1bH5AVtAHWLmt$(d0M7DTLke4lCTx;Kv)9tps*-~cz{?Mu}OTm9XX2}
z`fE}SJ2KV+^^n63)(J79E!YL&t8E>2<x0(gGGV<IJ6p|6wehq@kD0${*9La$#Jv8C
zw+-lJG9=Ps7v8E#kDI^tH6qn^1ng4d4hWkyh=P`N`5|fJzx)_s{^Bk&<wFg|_@IVX
zv!{A2?k3oTd=+|%WkiXdE4ffhq$CNqNVOYDZ5^TZD!mMH5^Y#=#XXjp>MePQTl-e^
z8M@s6WC_^j0tC>75%uc4p(xA<eLikB2GNZgNKC|Z>sd8OtgUeucvX^NRLha62Lvx!
z>bou^M$_^c)XEJ52<k$yGK`;J|KGSEaPvdflLmndtM0x!hO#;MqHQTF6#OLx=O`FO
zpgJZdR3BN=rz9A5Gcc#R<<W`w1P(WlO_qtP<ytBbBu35XXP8^A8Sq^V&|{VeyWJ4G
z(eNXb5(b=L7(@-r(nad49J??*K2CQ3=*PrGN%crqr_cpm_P{#N=y3uh#kilzqe`KW
zf&I4-Anrm?jQ#U<&GW7|1B{vLR~q|qQ=V^%<eK`GCb|h1--N5*`sR&qF4Vl+_D&m_
ze(w7)yd~@1k_~V9xUK!|xw~`kAN=95d&eHQep3G9@}+_2m)Z_9BI4t=b@_(YTtmOo
z(4TK?dAs#)YaXik@ZE5}y8iYvx1PyY)~y6Q5s(%jIY7y`w7-4w?#ac>55IZun@aQE
z4~CUB2k2Qt9$2kqP-z*wFM=7Mq^3t5o$n63Gq9M+t>34t-}k}hKiT`!y-OW0(!;jA
zH<<G_E8gaOu<22-@~z`Hj^C-tHPX8-1qX7$O-gXn{pXj0yYuzUg)+g{@|ob$wIL)6
zdQ!JXK!Jhrn;1<Jw_Zj<=@l0VLNPtG0mRKbcEqe5fM;Y4wN-MVO`RpMJb{sbLGI|A
zj!Z}F3`OEjJ;&vcr3x(yvwEi?=^)LY0shRqmn+S<9-D)iTimU0@@sAjFtG#s?m5>*
zlz87`wB>=GPq<vK*Ju7BwZXj8WBNNVvJPcI)|F|tsG{nQldZf3Nc`_8c288DAfRDA
z=T6h14EetxQT6aMGV*71<H$^^W#h?FI#{IoV8l3)1|=uS|0f>G%M=`?Y|gRK4BNbn
z<kQ8;v}9C2lNfS{rCSoP&VWQFS)xW0t3eA`Nz0E=)R67yL?NTGW}As1d}3>BBq7ch
z3TYBbl9;Al6Vr%F?K)V+*00Ic_bc`Nx%!Pt{l;AVcBOv%e9%bF2OHixdE?~5!2HRj
z;Cc{`4gUEc=&y!OUTksSQvDDw^`P<rZuZUx9~akof9HeOKImAgKR6$JRNHj>rCTp8
z1Q(Opwp|}oKCIo3F4VRybmlsCC>=W<bmn#*Q+6I(>Nu{{9xoy~`<|dTX;prCdh?f*
zn}W?W7=(rxz1isYXWQ0)Cg8WQHRx_yIQZ`Ica9eXMDL&ZqjNtx_c=v51xcmH@Ml~)
zsjxhUBr638COb$<6DS8=WIw<Ze$2K&QxM`n3YmEl1i-J4e%TXmTpaf^X59x>pg-=%
znLL|Sts8tYrn($!I>b-L8Hd_N<bQ%Hv6P`of?@4dMrx`-9P*d|;$*h+GEM`7N5vur
zVohr7mkvn?A`zLupxFO~yAop5{r5(UT1ibCLIt~AA9Zw3zh==xkS+!zZV!)EDGO+g
zCpK-px(!RFJ7YjGW_w_h?{`4B*w>9G&L6mS7zEXtEu1t6Km%fDh<ad`eb4OcvF`(^
z=g<%L4;+A^Cb=5WTd)wywxh604|uI*sMV`mTwn$aOp$5P>wiy+;Hg32X4>_qtMu8H
z0M>B;YBJ^o#;=5ZI`sO?U!>aLB%~Syt|c#xkPq+Tx4esy4}@p{ChUxEBiV|<@6(~s
zbOHxnBNt}q2w3bA4wm9<*G1?u&l}m#?~Ke=K~EWvoHz1Nnxk*%BJaZEpUnD(UVHTl
z>B}xddaWQCS}jy&2#7M!XB(wu54JAbzbHqfFe~R${ai{xQYJOPPt~ysEcx9-wBcp4
zap<dFmF88esV#=zm<Wo!m+CV*pn6&7NX|rp4q!^?2PB!Wvg*}eL?*zcdiDOv#NerA
znJL~S8eO&Cs4)gaOJ`{_Oy;G!sF(LNQ9UDRjaQb-=;eQe;-+}SD&S(qSo`!dzXo-C
z9;LV>8j7<D!B=ibx9sR!(p+p(8aFXw7i4Jp-SWlG9}e9cQW~}+EtC(0-`aCy&z;S0
z@4dTM3G^+V{^2Y4UimPvi)nDh%C3A@-@C88^GddJGmKca)Z}3mFmh`I3XO%01-GNJ
z$JFpbR#Df)%y$kbwY{j^|8YYfk-lg%k0+^HseE(f?UB19`Nl2~<2S!{=cR0Q4`|^=
z(86zq@G_0-fUj?V<JLFyVnrE!ZY^WE(6D={eh&%-AN33_#(y|*Z{k7xC&?ctmwJv7
zDct$18W6!1xnQpn>_z0Q6E{xK&(Rx4dBbP$0xLduEgJr=k0C`hq>DD`7<alznqiQ^
ze~8IqHX)dU(#w?4F~dw)wL-C`qajOXGBpFgO^6BCIpnzJx<;mBf~}$t_6TzxgUl>L
zE(1C68YrAII8WBL7j1jvu=D{!b<eInLY4^;Mg!`nJ+DSi<2-2OYGgk@$0_eaEizG!
z@_$7z0%2?=-VrBsE=^CoDwAkSu0jCf<*Sql&M`py(FTDo3d5y}ID3f$^74$H;D1#z
z;z4$zQ-9*bMp6T`FZ2Vmgf2h@@{0)wIW1UAw4k{IG$QaVw4EMB5hfP|hZVXTT1YK5
zY`zhi_ut%?AKsN4-lq)j`=I@2RoUTvOT)(%?+|QEFE0$_%d6f>+(_IBE?mApuvGrc
zypuSzmb)zr>7~a08|CwXn_qbxZn|>-QpT(|VhRcGJz;xF$XjNV8|kpQ$=EX#BUmjH
zg81?zofB^)QxKz9OQS52bY5Z8wnEt;Q=HT{ei}gRaYZXE!jy{Pf}7GIJ?vZDtkkX7
zv%#K>vO%p=U4L`t*7}75*}h#$=WeBHcOgU%%AxQ1EKIRi#DKf~F{F=>H-7F$oWCsf
zVhkNHE*+IG6XQ`#8Zr$G4w-6XA%u%K%!$<rQqdDfeB8?jK+hYYXc@>vuN}gI&6#aF
zM2}vG9zjCFhAV(|>{rWZHJmv9!U&@QO;o_yRzo_7ZW;t%4c?}N-~*C<n)I<qUt&Wd
z=_C+Pw?={pg5~UiXp5>vJ2@eUFiv{lv{{k-O&@W=LOj{l0M^)sFfi(MmDFnxN+1K=
zBd2FwL*rw^khc6sjF>r^EO}#JuoR^dQ>*$l7zu|EY6wB%3OCpqpOEXQ7KZODanjK6
z7Qpeo6D@Hpir7Zo_@)FMGE7K=N^ro62$?esOuT^t{~2wQe~6qA@T>$aC{PpeJZkA#
z^yGSX!18jbWhWP$RQE8|POB1ZWsy!L*qN`aHBiy%o6i6f)et7~u9OQkU1ly)39)jv
z*}v=MJBL7G5!N8sPk+l-5qwFk@f34@edXbZsy(JKG(^V10LzJ}Ui41xrT{*N$V|)t
z<MJ9Lq^YAAb_?)jr@(2{HL&}yDI4+p;Jw$hy}kYJ_JtEmYc@i&HXpkA8W47_VV%;j
zZgJ02!wwugc{0mmoJH|A^TGP>P!HDFLHx*vD0rR%JDB>V^)PGc<tX?8b@UwS(}8Hd
zuHh43T@m!eofUf0tyci_q->yL03-tx+u(M$ES!1w+&kwA0;2b&KT7^6`8h@TYfy7V
z&{AjVmWgXEhL(T7j5JPE+B4WLexlOCV6*L{9q(tJTsV)-Na<40%1G2xc$YC+AaoJk
zLaZ%Y*}L)nCGhnLhT62O;ue-*P{bcNU_Irquqb-%f_du8R`+19*Rh3zCXEGHZ9sBU
zOlS0l;G`kQLtaDY@%PjhD;)NW%=(AOl>zZ66WEr;+yRO3q^UGuaw<86(`v@kBKS-=
zTlE>W$o~n`qx$&NPRc0`mCKXlv?n%!gczz+1LplO+cv5bZCH~x%1n(;lMTpF43ZlO
z7hBhm0h@n9yYC;M48dkAd-ABU8z9wyx6y2MFHEgKgf|h)Ee9NLZhd?A-Q5JacPhO*
zKk($9J)=B(=HZ&N1i>2~RX5$)dO!Fx&j(k3miZv|u=)&v>PKr@RxR{%Z^IXX=6{Kf
zl3bffuhH|;%OvU<*fo}^nQu<SaW$=^26#dE&xuS<3+p{rGhwxotE6T-qTZ+%ZCh#t
zF@!^LBBQ}Ur;`{^9;RR`1*H7YO(__a?uE0OL>x|0IG`swiDuIR=^LJyObz6Jh`Q1V
z6adJtj?8;;#4y*;t2Fd3wk$Pl<3Jv4<Aczhy-RBj8JHllut#awFduqMWf)?xmH|VE
zV~Pu?VLfVSFfv=PLljNQ?esQ(j+j;1K0t{S{5$H}Z{ev9<Vl16RS~e8NM(vzXl3@q
zLM&@JiCSh+TXLB_;q)?#b_Y#dfT)fO5ao-EdNqa)8JA9*E&mKjR$M@ye|+#v5Dy#Y
zE}(!n1gZ`egIE<#QHYxM;uHqX%1eGGWW{L<L&)lnJGAo_0SH-xI2RGR+-$UOMB*VS
z3<0d|GpWKpU2g-Y^UFbpS2Fxjg{4;kCt&8@pZ)Lsw3tql<^YQ(1q&1HWOxL^S<*?8
zp*ws5o#(RJAtoo`Hbe{nrO%Tag>hC3Kp^*T7U7SEA_vKX5W6AI3Zs#)pSQGqoB-PS
zmxuhU@IE-+GCdpd)^@Tp`TLoam}RoXbZXNRor>wFotSKj3u+h^)VU18f`sb{AT0lH
z2uiS^_vu^)EPz6w-U+mpT-Q7k;0msJo{oDg9EayUtUJ062yc~*IWB?*eHpa)wK7wu
z&M=*e@a|mM?+8C|;)H{Ndv7`3Y;d8>HA8}6#g;R8BC@BigJv9=^$uw>bI)Z*DL^{#
zL-d3*zC_)tl}`*U$4>qe%wyAWED)x6z9_L>t$KL<x|qS_5a7v@3kvyU?8U9>W0}d^
znoH5FVgxJyz}#YK$jZP|{~0x;zl}Z;o~p9&5RbVS?Qx(h8yL(-x^t233jPOM9!GX&
zgDsEh8c31_)Yj3H?b-gYeaCXxi{lODLdVXVM^-{YWqW>2d%k@z-`aWSYYSgnOe}sq
zyJknerR%@?+^|&&BHt%eV%h1hC-GC@zkTY!Et3KM)U{^cfS21;HE_>LF**oTESjQ4
zr(d)n*&>t?Axw5rgzyIkT)-sgc`UyNgqLBEam@{BGc=O=(m`%VT70t{Cl{@CYvs&*
zqVQ(K1w%6#OY{`v)w;t4hrEyG!-KOC5)}BFwDT7zFYl)ZRYm=WK_E<Y8Ey(`z#_({
z-5@or*s0pG<#k@94EryA4D~|<<QLio?!>a*rhG#ea1ONTU;qBs=TH2ixo>fBsd@YS
z2{qi4ujt5C^eGic`gz56=)PO~=sZeizPc+L?4m>R8e@X9t0NF6m+&Qr=}k(Q6N%Ek
zN5RvjK7UGC2m?IDgls1UNv7ae_)GsGG6Sn|4`Fo>0_BId6ntyIjsyw0g%GpgHcGdk
zHoEl+UA>E)?;O<&0nbq(2!EcG3WezbtclA%tEAY@3U`Yp6e_q8N7ZY43S|_7^)ItT
zyW_fZ=IwKL&w<xdeCs~<;TcDO^a5k(yK(7+^zu49u_8dAz6w*T2oaD=6CA-XH;$9B
zn&8L_q~-zYvvr9_dPh643Is>wPR7UDSgkA<Qw8j602;NeS?l9!?Rs&D(G5*!xfGCs
z5}e=I_Kuy_Cgh6#ha@+}&|^B*Sk6#v7$~+<Wow>nTP=vy7I$&{RK%cRtW5^(KjWqZ
zH9f(g0X=-7`5g|(7-A`taz#0VvbCTjU9bf<FH?>Vu**a_Rs>_RW0&o$CR{+0Bv>lB
zidZ|H<t8&L*T~;^hcuWX@4-mOLkRjpC1{CpMDl+?t;`aEZ9OKpRm=3k|A`)Mq#8CM
zP%Gfm35qL@aEOP}ft-n<NDIyFtX5a)Fyn@jc{MQ78Ukubv`ZMN{7H<Iw^%PX4J@8r
zYT67ADEx7K2OXEwH6>rmR(C(DZ3SNi0|zKbP*eNbcZ2T)^TFDDMP06<OR4BuaXZ`b
z^yk{4O*w~F?PXWn@r22)@LPJ>A`63QF_FU~6qJ_`=>7nxxgvi6VXk8|Y?HYkp3;FT
z$+U&Ws~%N>JK@G!x$uw@9$K7P3h&5zcW|hbr^X2t*`FJ`f+wrX=14*d_D(~J45`{8
zNUKH%HrMv@IYWJ}S!KIM?m5}Wn}*bfz~dWe6Vd=Sa&WRO$Rh~!HAll|mf@JR5>|Wg
zQ>9twGo6erHZ`o~Es#aWs@rKm&!Tc&u|hU$b#1h?nt%j^#@=PY1r=NfhzMx*_}$}3
z&v&gWxP=yS*3sgJVKwjs8DkGC&BNJ^`<I#zAnmcKO;O9Z{ZX-kjksSL*yRIw&D+97
zkgC56&e=THiy^fc`1eqRE`yG-IFiwyVbVlUJ!z=g@On(q=D__9P4!lG&3nx^=bdw3
z5oPhs;GEl5z2=324W;SA<bi-DxP8q(=eM)AxE26)6`1qGzRRaC9Z?X4i3n&XqiiO?
zszWdbHZEg8F};LYi{3JhhPW;pmIr!ils6U@=(B0G0lEyt`aLHW5L4oLUSoQ7Rea4z
zc~wh!)kxtwdsV!mhKju?d*ugc3rF=}EDE33y3uGF9#-IBqD(ukCclE2Q_FBV4_urq
zlhK6g#MxyCs=kW2e1;y^L0LHVs$NSvmIA>D{t!obsn#@15=gJWyf<qt!3!+4Yb5fn
zk!ML1U=Co_fYx1>&kHT590yCFx>*+1E#~ct*i`*uvJW*#4QVc;)7*VqDa5hnI8M9c
zr+Am^@CxJZz*=vG%&LCPoz1y58<aI0APZlr+cY0|)Y0{OAVmLaEl!cN%^$cq_`hyB
z294cK|D9ut4f*O;824AN%R@g6O*h&4AG_bQRKNSC>v6-{g#$`M-%WQu(v^#BQX-pf
zhJI1eaz|Qt`TpUD6?=YBQCp}KwjLJ?H9}*jmiJMlXVJa*&4<sPS&E!B@;|KDln*xM
zf-PWM?!<o{Tw7=nI{OQ)I7Y2gy8Q56MJcJvs9aN{St5NW`#Vm@(r$$B-03M;OPr_F
z6a{}qQ~l=%tTLOU^n`*Y8bMMKnKB!GEQ~}ph=HorPmvjVO`d@yH58-cYM+HDwpn!V
zT&(?J^Sx&Bt+De#*G~q13_l-;g3P7k7FE!079F=h0ujpEaSOUDIc`Bo`f-cp0NwRA
zLgaIJ@yz{A58OWq{y3Q3bU+zAsB|7Gz|5}YXPbVO{?qNBQ<S3`ddD%mo^k2K&vFn?
zN(f;1s~}4NnAXAf20U{V6TzH7ErTAF$GngR`9K((-ZjXBV&Dzq+*s6)`=I4M!0Hcu
z-vNR&Xm@TP9+t{E0jjl80Vxr0&1YYN`PJ~iPe+whDOJJT&$eFftAhX}NcU=~jA9^h
zt3l${FcP;G;Hg$+x_xfvX+cGrxt~)eeqXJW;dDPC!_zmp=_0a=)4L|o#l!+K^4bu>
zv_!r5qu*tGqoI@#{vsL8D)N~xPYBy-XMq%Kb-AX`GmysyscqE&6D>05h7<?-;*3EQ
z7io?SB!V`Y@YW?4WI~298xU$k$z$Bwoz~Eit9_lX9>CbI&$R1x#o@XLeRThAT0(hG
zk+GrcddJ_UzPYkjdx5T9b1u2ZWK;e>&rYTOt}{ZMj5RIyWRguBhkP6X)Z8Ttm9Yq<
zQk!i(eM!RkyTnCeD-4k-^D1&_G#!~;qlrKVA{St~Gc!3Ip{*d{*hD-s>(%9>eO0!M
z4Vm|H(y@e#3Brb!co>;&B_?%XhANE0WFj>uJZUju4mXD@XB&@kJ&ftmtba;g%iMo|
zNi9=FPZ!8BchyhqeS;CgmqOrA6t%1(nk!<2h8C|ZHEktE2tEv3+K4J$Y<%F!Z9k!G
zKk=}6gmg!ZCXdv!j~jq-Hi?YSIGaT0FxKXpH!IEX@7?$)P!7MIb2sL4;SMF-u@qRl
zFrMq)t90-EFt8VvarvqZ+2QB18}<YF91sT|4Q{w!^GD4;YR(NGP~bCQ@L+b}&<B^`
zWViAK5ngu51qz%j0(}KrvVqP=5ny_<&dzmiQ#!XTMYd;mpHLzvAYJ@b0EbZd5s#S%
z<GH=3l)a}OcATC+@bh5X<Bo3j%aF|&hR3*Eh%qR47!j+3kS|9z+a1x+xi`26nSdNZ
zqqyj_P?{YbD0L*u68V|jCnuI22>5N9Rf0;_g^$D4HxJxCdF$j-P1jPm`zfx-|32SL
zzDf&q1_8c`B3((0J>jKX{tY~|o=C7@sv%zF?o-}sPzeuay@PDN?!m)5_ZO|nI@S8s
zJUX+ZIM=9e-#}on<!H!sfJAiJ>TIhHvR7wVi*gt;98{`Zutj#ng=x}lQoFct!o|>0
zLUwF#VNKTKy3~&sW1*d;J3GOnwX8A3&Jp<(-WV(iy}eqk9Uf<f$=ax~A;AF@#uyWO
zC^Oi#3(d$^=$3&df<QX6Ts)ebSq|%BXKq@YHtlb%f@jMiGwZx-y3rrd#80DLFw5lv
ztO&s@F9w$ywvbX2YSKQC@(@77$~FW-6V@;TcLx}|yzxP2wrekV<~2Rwnb-K|!(bzz
zAPBBu7OQRG8Yo|+^WDHZfm~#d64{gQ+yy{ISplXh+Q4~mf|HmkV|~y_8+>#(diQtD
zM_cCKcJ}RN-dJaD#)bbc8W--lRyOCcJ&k3Y>Vji0Tf6t`;+vhTlr_$I$!jwPQbyit
z8k*uOZs<PZjF&h1=_OgftLLzi#5cb-=def$eAoQf7+0@J3OtvMvkhk5;QD>Wj)6DG
zIS-Q*1m}Wwa?EQXND4x8!MU=zfX??@Bn4Vo%ejUi4y_u5onFGMMQ@o&3Jg-u(mO+0
z2uZ=8Xp#buEMKLaL)&MzT-zC%o=+8r_@S~_Xh(&aBtRx3RnGHGQ;coEeTb=k=9eZ-
z-pu%Bl+ZLx>ftaeBac#Esz$y*0rgHMB-U4M3JBylJ(4IGN1z*{Fwdj%MM}Oz!E+QO
zD7Z|)s}v+Dpz71*s99(9`7dMl8G}08LCT~j5tNnB|1oXscGUFc`20t8jdwa}bLW}{
zm8QX^x}o`i$@{~tEuA98$*hMsLV7y4<*>5laCXZJ`HBWGqZKvg!$-|+3$Azl@Awxt
z{azRcJ|i2Knm66_<*S<)0v}fQLtyY%|9_Ap43ivT;}dd(x>7lUX&Ft6KxSI7?@^2}
zm+Hki51f<8%y3$Q(5!rvo*tv%XB3d&*%UR%6O`o(1PxP^hXQ<*PDn%IW)U>3bN7I`
z-?%m3HwbgUPs6x>ToEa_Dczzz<JmOzS%B_fmK0g&yt}IqqPuc35~RYK&WvJT69rHC
zC-C?=NS=Vo$@eEdfuW`0BMVyE5DNFN&mTJaX`sp7_PA~h^ZVdNoCFc@^?7S%VY5=-
zQ}9ueU+CELAfvSJFHmk0d@$wPa)|D>cdjazz!P0Afhb24G$i(N37U)&xkTmPRxZIT
zTdLsu(`TpBfpRTSBy|W$K||_bTLMytawyh9@FN<w$TuLph*wzdE0}Dd60(JA{sAMt
z%VB3AB{kLAYqUNXfxztOzO?M%MT}C35{-ODf_Tw|%+@c6aJxeCBMCkhDljO%kdrR(
zibSQe3(6|kQ-p@D@DGbIfAdc=j0R@~i!Rf$g62~V7M0XIJg)k3KSHCH1GiS|2xk3d
z87zYh`xWh?O(<B(hJD;TtZAIUO|`D)4Aslo>V6O@EljPXxmPKsz3de*>(IdJlx(pA
z29t~L@66%#VgB|V`q3P}7dKSw_?-cfS>^!N`j#3Qw?Z%3g+4Hy2Yv4;qJ$$jEKD?5
z=PqbHD%zp-AkV@2S@|N?3!UJs*O2}m_$|HcK8T<*SPu3gPvNO7f-<(4hZr|SjiyOu
zdR<_y)2Y|FFg`ueo%MD<$szt-b(2Brm(eT}@M_dD<C55EHR}L#{>Ww9&mPOSikKi;
z##d$qh%*kNYWWZa&r|SJEV4Sr_%<rDU=~}c^bN{G!DCthKSyh(RGPbMH<1PI8M2^s
z3$ozZbYwwyCbFPAjw~p~4J;@&z;VDQK0oTzaRB0|*NOwmD9LN!0Ll%Npy7Z3-8E<k
z1_$so1Vf07BcfiGwgN<?eRGMu?5lW3XkfpOA2q1?0cSpIi*N%CIbF+tfpM|o2C`a=
z!@ex;{9Q32;#)sr6#k+iyDp<MJaKrAj+c?WA}j`Raz}@Z_#m?{?#J=*faE8`ig6b^
z6BK%*JQ{$BM)#`HX;v3x)V4C_c*QE|yp+fODU)BjqvfpKD*HU~YDmGKUW+GQ1AJ5w
zuZ6d2k5r|-wJTl+33qk89x1D}?}|5&6r4RLxL0yr9w<q`Ee^;xqD(#Oa~XYz`6&|p
zW~o8zd&??s$KR|~YFxFC{Lp?IOmCXBH*A3PK7u~1VVJ$=3udf+m6kiCX02~epF2LP
zwzEDSjIYJWx5PW8R;lfa^$!@kF7!LXD1&w&k6!Mv@1X9uiow&<Oi2o%1L!!oy`$h9
z1^*tSuZjtFx@=?&V9dBEPJhe05de3I#D<h!ruSW0oDob<z4*?6mit>GNC4)GcQ$g8
z{7Ey<s1c9?%p)jSyc(bH!M=TiIyHr6;5O7reh#RE@;^punmPkkhw(XTHF-#7UwOSW
zN#Ad!Pla*!-^K6Ee4v)(t3yrcHq-{J5~$7vT9rWSo!1`*df>X|<MM_qK4ntAJL}!e
z=}J1|BGUnEH9%j%w7O$3a3p|;sf5{!>PrYIUnwDl(R86q$z^LQ3p+<!{X1C=+124M
zsT8+Nn{Ras2FaFb(*%3Sa+@;X>+Nj2Ak%Q#9dWcObRdnevvabz`<g3TC5NHh$&h-M
zUG$|0i(<rqHAmx(3q&U^3S4O2uo*DbG>|wHmoyF}7nL-mC>bJ=*mb#EkD0%a)YvGK
zkV<FcOD_1pu^zTDM&k=xFjQV<g<q-#LrSyCs;~jN*B}MrAEAOYNQfCNXV&X&XNL9I
z<&ApG{GIdad)$(5v-w<)nfc<L?;CIdEgCZ%$ARxyvz{MJgLg#rXCRR0AMKVm5KtgW
z_z)=K|A>6}SW>{^g;RAiqp8z<Ef)UaTgb<JjdLq`cB)9NOwos@8Sv3JGI0~Ajat)k
zew|Xv$w>n~wnHvG$#H_h5?MBGp@l@XLSs*i6lMV+Z$)1D4t1KC7*6_<l1laH9}h=4
z`lPbi2E2+=56lGi87-OQYBI^f)G$bS?mn738&Z9gz#4|v820HdwLF$cGf(l{zj~ja
z3!VNcb%JT-OwQ^1ltyO=*+)!yV~l+w@Bt{xFDnPdY^n|xAr*s(Y9WY9f@&~PR!^iY
zy}6bxO3Rj9%QH&LGxMH&eFt}!43|aCJzNo$Yd)kjAA&kcJJy<S-$>f5R#>R#>Ux#B
z-uVFYG&Z0#48ZcawKLbcNoj?vhlg-@+1kfFVDh`jU@o#liR_@emXDk8A+UOwbv>$X
zTkt?=UA+bFnIT>#C7NGo*$CSa<7xR)^)@^uz7C2sh^nEUYJ8`W$*S9xV7n=_hFh~T
zR|m`2ifSSq<RjaBOzs$%aGT}R-Jb<v%93l?fb&ARhP_I|UP#YjjjeyOEZ?$@nr-^H
zuJhxzu3Xy|1#VkYOKk@pkzb2GrIAGJjob140J5idlRf>L0Z`j*Yst7#`>I{Bxtu*0
z`U2+m%W|P#LaU;?U6o(N%ma6`75{q_*KFg9`=s(O%*8c-2x^F}c>S|vrP>LVeQu{H
zi}r2f;w4CQKvAx*&{`z9+Ly5JYi!9i(7IZDd5OLwXFa>inC)-iWr~O*H|iynv;2?w
zP&%%+6`Aj8hzSpk%MMBFfRi1YGZaon5fEF@xzl(5H1vkU4uZXdIHM-${h8nZBwn$c
z0P>dCP&41+DT)y!m4BD!N&BFm@vibcq^jCiRg9UTmuB#QlU`Lc<cx|lzbVJR{QKn0
z6lWWysX2$*Fg1Q5xHcPD_o(|w9`cBa4uuXctXC??X;}|k%C7}uNYg_aCT5%2$^{jT
z>rC@Z^3A?pX<UClwA8qleY8dYKnwfur9qydMW!?g;8&lyRmj=6pc5CE8^?7JwHWy?
zIjeT$8@~MKw3?N3zXfxyxa0fe4?&w>%p5*_Mbm(7^c;TV{S<fdQx^viS1WM9aWZ*D
zid{%d#9>aDhLcU_)Z`Qw^%2VAo-g-ML2X`VD3xke{qQ;oWCo+eOP2WSrC$MQBg@CM
zgfGa)>HG8veB?^frkYtT&u(PLREp>M3(8E>q?2$FlMeR3_4e$o*@dC|olEuGfCU2e
z*+3iUZm9j=?SH2~*Rf0K*p=%zq;vo!9D=8l=%eu3d}Uj{vL(NE@cvPt5x`%opbFnw
z;QYOHmS|k*PyaYOtk9T>id45);-#1ARhkRmXv9Hk{2}cT&56LjLY$3dF&|P(D4RZ-
zVjZS5|1el7vb4+jTQoXE`oO%qzU9vNt#7~~AAKc|gj@@AmT$`zt!8=$_I^YgFp!Sl
z(n}Y<i5xPQ2((nTkCSjpI*kwba7s)2f_L%!(snP-Hcy=<O5LzY*Oj%0=o{}KLQFDC
zt%mQNcv6Z@PF|tUn=rCXtu-^4PFU0Ozo9|?w+IZNOOr|_-t1++g$Qw0OluF9Dd}>E
zq-iMFWlkdhsyS#%%d_8vVcGSt`9a+qbV3ATAoHBZDZ%b3Gf1-><HrI4KTF-h%J`qC
zzecAar)9drcPW(#vR^=~2pJX^uy>0^g}4f@WC1Z^kCS%fp8Y#C3lcg4qN`9PggO>Z
zXM=qo29LjgDm#2=Y4G`<4J(7k3r@io0;xm*w>=x^T|AK;*!QTq;np@7=q~O6Rg?{G
z`8Zs2<8>@JIz7>`jVb0g;hS<5(A~Rfuemh`szqy%&;o;~rxCdgmkHQgh?QP(<IBYi
zqC&QYLv^->?&bsn-{I&TiNTMfI>5yLk%sh-Xf!ohIDs}e8K!Sf@exrgt+Y6Uki`;m
zwSteIx$^k=3)?|9GyN`&@(#3ywO+ULW;|E7Q=$I{9-Ku0+B8s?4YcN~Yv+$VZjR)d
zw<^tB@BhY9GyJhP<}D`ze7f`av|3Z-ItHhK)01-XC!LI;J&%U5-kra>x*L5f*h6l*
z(r`S%2AS$9x%e?zlmBJwdA8$)7f2FAU-dGiG3?v!nM+6pza%9&mFHB0FX9WCaI3|>
z=Pt9gPDDu2GXG<mu76L#FVH;y3bpM)4dxiXWCk>y#lN6|CsQx1?g}9o$p-o#Rkdc@
z_AgZ($OaDpmyjN#<HIlx21T;Lh?YR#8pm;t#l#2Ku=Fdsmjwr{V2ADk_zZegWKBY2
z#GuOoM2gMI;y7mtVX$Z-YFff}XEdx(1gIP;FMYacr_RC%|02FD!QAc*0YnDVuO{GF
zZ~6kHR%x{<aS?WhQfwMFXd0I0Zb0#cONYFLMv&~zbxcHWfFr~(>xY>d^&GSrqs+MS
zzs&|kTQ&dxj>eVrIAGN(JHWZ%`;l3=r0d<9?I9kh%0KUch#!Zjm{s7ywxw`?*4xj8
zVNvP~(_(a#Xff0ZfPLaaL7Q-7qSj6Ea}ZcQ(@A_xOg{)wiv#r7wijmjm$fvuTMaPh
zx$xC}X)<p8I3+Ek3Tl`1xE6H?tvaqiCp;~Gm!1;!V*(3)3fpsnwJ-mea*-T^>*)#1
z%0H!m2BTC7PXlgm=zoizP~fM5j9~kbN(IjPnzOE&$F02|t~;D<Ig)iX!3|*6)%e(5
zQE<52dlolAx8~k+pZ`4A^g+#!cYaDKq{XOYSupC)!O-$kVWWHP!fb(l9&GxIehQEy
zkhy<3&aD=i`y&DCUN`rryApGMN-|X{bk{9BFCG&=DXVgW#n#mGh@%=^7f+8+kEVyg
z8H3hBZ_w=r7hZ7U_pz^K!KL^*m)*E2G~@fe*@0(a`sv>C!I?if_tSIQCx1nE8@%%#
ze&_JJC*L_qXBJ4mzZV}BE~{l~o}rET&c07WxY1sz;HC#2A+q^?Txr{>=d*q+B0xEU
zLTg8X%3;uXA3qDz-H^xKzF3FPdAr-Qn-AkddN|wAK%Xkg4-S8VlMZ@2+J`BSfW~SX
z>01>AyfSH`+BV{2M6KHkcxTc?6*WysaG}vy2vJOLdO1vYy=CqJ+ana83wXk}4lS9!
z6g<yQCX-yQlpY$rFecLu=AU~aNCdIY^u$;O`zS3F#Kae~X6W>gOkASurQj$fdoz>r
z*rlO~3BJaIFg=>kd{d<PH=#(7BNKi$&vdKhB*7+^qTB-oKMh(_oXCx$m~THW@gCB|
zVzdX<I+mHI44GJxeLWW9FseQdcL#C;7Tr=@uA=tIGEMDb&lo0&Nmr$@X}o~$XTkKb
zCX=L8ZF@>yG<}78>u-NbE<hn^ROas5>ZuPTxmBN5f{V~B0=J&0RL>kUCuW&jIGMzl
z>ZYgU=HCvYlUkVhq)G3}ME9$Mb|v{ZaTq_O9sQclB(Nx2sEqAkvNGu*MqG@Kf+vw%
zDQ}q9Z^%7m(tK$1XigxC!F^_0j^Lr(PC*9+YboeNpw^aDGsHMW{xv)jmh%sjH9e7w
zb4Rp-dns2R1?wp2r+~!LYNJh|@dP0fd61rm*mHaVdm46o5(C$2150B=GQ=q;VAo4h
zYE&lawY-7K!M`pnx%p5qxKCyt_|mhH8oMwGH}E8~R^5Db8L}nut?J?Aq`VC`9Lo?9
zDDR|T7X=K}yg;!e1rI3r9tB4zU?P_^#copY4h4S!2*A%{v$G3Mx?M{FIo09EvyV~?
zz@97Z)hgpF5*qJ_Z}~F(Lu4@rD<g=h-rbmd;Ml$Le?eLN7t&rJCYa`n;^!Vg-2S1k
z?IWS<mqOQH3Biwq+Rq&x(ear;L4_c8eI#u9Na#TLOX0{z!tRfRZJ#?_qT>?*!RLNK
zJScu79QsH&`;l<+BjK5kg!N|m&&vhztf&ZQ%%sndwC5vX@R!2g|3i58BVqWL!bbDy
zN|j%HPQ0^wMWEl6rYf;FTi28A-LBN_SP^gs<AG3hK2VttR6Pz>e-iK<79Clk@y_N2
zXSQp9HnJZdjsS2M9fhhgvF1KLH;tc_ntsurZR}qW@VjzOtjAr;rtIcJO3U*r0`68e
zzbGQDbxU^ZVWsuRia@t3Nk_BTbf@a=#=DIx0-`H>dvU+<?HzZ~7erUiio3-2o6pfF
zf>#7YSLVc4v1R@O`Bz;L5M6mrjEF5a<=Zp2W>y45R}P6=k<f9w?^fT6far=0bSt*p
z>3F;EE>bAIa?UYLNzc7~<Sy!^_{x;CTkO4g;dbH{Dn|5^)1u(0yE(ojw&ca0tXPv1
ydla!J?^=`ht;tvRfKqcfR{YZrae%)-wsY%)(6T@Y%K<zCUEyf`BuMvcrTjms{CM;L

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/cohere2_vision.cpython-312.pyc b/model_executor/models/__pycache__/cohere2_vision.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..628adefa0fb157df290cbe5e79bc9351dc3cd49e
GIT binary patch
literal 21196
zcmbt+32<9ye&54=69f<NCPC^VBoZ<u>L5kk)MXu(McH1%b`Xf~QGyl#>GwcM<btU-
zqtuX-T}$0=MQ6QTZf2(|$4*x}&CD|Cbh1e^neC(pUZ51nt6gimo=M#{Q+P>_lTK&S
z-~W4f4~HR3Z9h>TzWe-t|LgmI@6SCRCkGcd|7Ps>j&R&BD55!gDX{jck>l=hJQwD8
z18<BQ62`DGVG5fP=CIj7X{NX(VGUaowy=%G&2f9!j&w`ho^XU6EX^8sCR|}x!X0+A
zxGnBUG=v*i*dF&L8pDk&?1=jkP2naMcE+0%E#VdxcEwv0{;;2g-SM_Wd$^s2J@Jl2
zXSg%b74Bm3hIn_PC)~rr-gs}KFWkq%jqyODKitp4zW6|5LwG}CV|XKrH^nz4HitJS
zwuHAN2E&6atvMb{Yz=QsYzuEo426dh!{OmXC>%;`4{vArE%9d(BjFJiZjJ9q><sT@
zVSjuyu`9eQu{*pQ@ix9az9+Fayf-lx9!rde$5~oOd|zTBJi)@9@%@Pd;RA_-;e&}o
z;X{eT;ll>b$erN$u3H@6E$n*Fr0zrb2utljYOmn9`VX~jD*x&wCt1lplne;l^weW4
zwI8Vi!iaFJ0~PhW<1B9j@-_-vYw}JQIidgRopL`~NH`%J6OO;XNo$3*u^DY_sXsnp
zOc;O9qSk(|)JXW$f;l+2`0UZyL?W8xhYt_G7?WbN$-v;z*(-u5>`<e@Kw>_giX~?G
zDE4ud7vh0fVlFNugk&n3qVhAdV&K}DGiO7eP|HD+Vn3A<#OS5CpxDkv=jLL`%ZhzU
zczs?-P76V!;y9d4&Z4fsE4DK+DjGi*G$_Vo5}EEJ(bV*n<3cnwFA7TIc~MA-(O6R8
zkIp7%VwX{_xoUWNa{FZ=6`7sGNTcycDi#;`$aFM$Eh?dkzpBc4adujeq*)O;&KKkH
zgx*Huk*Fk0&L<KJ&!M5&B-M4EosS<*@>8++JcieKRuC`KVB+(M<oPIu9v9+gFutg$
z_%6&|uTDbsrswCQ$y98SEtTGp<M2z*>yhTOFPyn}>g;oqhtEVV96NDp>f(i$(Nz;V
zPQ}jBx=%(^(aG3!N@*>poxUCwFH2bIgoGt;K9z`G7WA31WW~V}r(%nO(p;`cjj7eF
zN*hhMoTb-Snkb_b#r~a2&dgSJemo|`OFN?YP%JT*x**KOqtgs56t|l6!W@rXR+=kg
zlR_#Qi?dD97yDFlZayU)nUBSJfi|W2R1#2;5cn9XUlfwqDv3Zt4Ngs85fV|wRf=7S
z&Iz9wRKRN~PvuzRlECvAx}-Es&CkuviYcj_t2ni^^XJi_Zz^^<9-C7E9xE=ygJ#8d
zcs@1zk`TLmB_*AijbdnurxYcqMzk}QjHM#i06`H^xEzx(Xh0o1BZ@l_UAQDf=0ss8
zc4NA9<k*jn-0583;{+~j0D?EZ0CXNU31;3%=s~dXrV0AB3bw0_tX`D|#Ngn~yoI;&
zw)f0x){Iuu_{5s__h`l7^g0fzv)~N6l%A@?qQX_|h7ebGDGEBkIRkK$F`xiK7}7Y4
zQ`&GKIX51-ctr@LaKht(<UF=P49w01=IB@pQegHP;zD%#3a|(uwjw^qz$g$)>a9_W
zfj|naU8350`fy-+JaA5LdiqK<nH1tuMgEoXz)7}q)OAH~Y!nscu8#*^it(u{PbhXN
zIUZnmDIno61-4eqi_JpqT5-?OIz_HU<MV=~m{SXL0<hZLCqzaR!xhDFT`^utDlV)_
zq_iIAf=<OAi6o;5AreuX5rUriIECGj$m{dbcqzvgiSV=2k%(xcw!D!Drc5}LmLI8B
zO0}eB#px@GRXrHuMx?#Vt-<I1*ZJ+K#N76|*xYamSVKq+-<aPsw)d-hgzfRzrR{SI
zsVlR|?F7i%8T3Yk8^Sc8UsR*g_Gy(OM6NLk5t>^Nx1(9+?M6WQ6?nhFeQLB@?8O$&
z)pRE$JNt9y{zpw+1-s`h_iguI*_-c7F841_t!&8IHy2F?$Ka<XQ?qrAGg+)fCs$oC
zXYZgQT`1CIU8f@AA+5uz!&IVa+*%yjZ&Vy7I!wHSH{w8<1j~#$!_63Y^DR%<%3E%6
zVH<B1>{pvmsmAfP`sp)f-hRs*c4oL6hOldj!@dQo4oVrh0Nq^`rm=d9cUU5p6h{Hz
zt)>E?qp3h5Iwu9x<qXWI)K0>o38aJ@seqs%uYfcMoEma6kbObI`C%Xykgm+n%*2HN
zKYKkXML~{%=s<_#@!9JFAGov-n7ST2apr|UbUGEg#-Jp`noz9MjEpMQ5@ITGIBXFJ
zF;RT&n>ga%Hr(S<`r6z!r@3!ntu@}kz@-gWOK3+ggg}~$fMZo1N)TAqxT_lat4Ock
z7H?QY*+ulaWI_qXEmu@R5GBwX`qcYLd9@O0Q<}T#)?($~%Ldd!o4k=XrH$X=c=LCS
z?^`t92yN-(OEqh?v{@rpA4RH7%dOuJM%=EIDF4=*y*?6a%}6|2y#+34JNF4K?8W1Y
zju18*>_%h+WZ!%#7L^nin520z8KH=H48_WYb_5#~i!@Kv3TTGWtBB&$!A6M807Pa%
z*;G)Bl)%GvCC2kYGD7H1>59f<my^Wrp@A}CRx^EHND_S*fnwK2DH8QkOz1|W<EFR>
z!nJ<1Qagec#ViT&8F3P2*c=o`jM#z*A4@2XNMt%5m4N9aY#m2b;ih<)N}h(d7<|$}
z3~5uph~m<p!u#8s+y{2gZJTUwe`xP4^l!=ckIDUG8S_JXZ_&!NcI8_J<(9#G%c$Hk
zx@yhuJumM)pS>_8@12rcE@m7>H#abt?>{Q{AN}d;a{ozI@#FR#1$S$~<I8(C$es;Z
z_r{giW%ppg*IH=rDfqkZd}aCNZ1a|Nm$k#0G5?lly@6}#{niA6_7B>F1$SfKJs`UW
z3ht)7yH|Gi=G|Lm_twW$|AvR5#A*G!VODf{)f0@sJ)DfIB{Gkw?$U<$N~uc*l&Hi2
zr7{&Ij3_}%UgOe6y$vcsM5)GAl`u|m?;6g5r}C&2vV^|G=TS+#Kpt&O&?LTqAEklO
z)QE-^6^{mtBr`}74Hy8x_Fu6<_y8l!FIEdJb&zqWRPuFHmyW=@$rU<!@*Ugcj&1kP
z<vR9d8Vc>*-}AifSxM&FcV#>jv%hU$>B+TkS7Vfy$hD6m=IzefyH%R>3XR#S9>J>J
z(DCV?VZDJ(^}PUYsN6NwC&wFz@#Bqz^|aN!VOTOU>{o9O>bGK|R)GDCyjf!mm&|E%
zy*<+K+N;3iOO_?;l5NS(Td<!x4y19ZZqbD@j*2;0(+<L;+DMn26?wLrJQw<}Hv>!B
zS--cm>oMu}_e!{)%?V?wb-W4M4=}~Nop)$uuj-hzTw0quYv*xeb5*Y)QT@eV9-f<v
zFMJst1{H@KFh4C2^-je=`+>tsta6Ez69zjB@vY1`Q%W`5j|UjX4UT{WAmUIZl63;F
z92p8s4Fx7&3tT5LJuns6A2_-7C6z~@W-c&lP}BCL#wmb5D7AP!2F5p*oE8PhdVHY7
zMwbWcq{hgJo3L(|)wO$cP$by><nQ51NyUTWP9%vZC>@~0eM0LQv?(Ug22dXwwPF(m
zHDD&1BA!7B#RjsJn1_Vu1ldW&F3-=-OF=h70-}1Vt}rHEv0Nu6T`}BH3`ubmRmELY
z-!QGXrRgZx<q{P$Ca-|uzAh2nXCp6pDy;}3busirT2Y0fZlI3zF}$1HdK1^#v-~Uh
zo)Nic<UzmOGrDS$d-mlzCbIU4jP*`y!QH7M@RbAk4SVDbdsYqdhVj*7Ki&Pa9Xa>8
zjG@r#zxU$Z7r*tD+s=$3Gm?qk@fF%SmoMgfcFOo`+nI5H;Ay<$yYs5->(6-xGRB%{
z!R>kL)a_GuqRUNMtp^uYTk>Pi$z#uDpTCfEPoWpRkZ<|$^6M-8E6?ZLTk`H5vKzw~
ztt`;Ad|{<2=iZ1kZ)3*J@EOEm4x6wSa~8+Q8z*lcd34+qlavw}*%e=-wEg5AAdi+;
z@sud_v=EO+BJUc+myjwE<~yWr!ci(p-Z{!3q4RHVL2xix?4LTjEY57-jv|NO)uW%$
z&o9R<mY!lmlf`%c*pJS<d#1=Cxcb5$z4`~QeojFZ15<O;_^&$+f2}PdsVrji2EjCA
z<c;9tnN)zd6@0xJaT}8ojF1h?q(2oLf>Utu)<sY@RYXQT8}i)9^B_#JKm+eU87k)z
ztZG^0x@PRW8@b*EYtW-~Re>8M1JXQ|6e=P~P18D6K*Ut~zjg=#M!)e}>*`VL6dgO}
zG<-b8i7z7oJfdkjbwlxxcI?VbiSJ@NiOnH$%Qi=)rs4wPHQZG7kV93?e3PmZmkUzr
zZGP*<?HhUTCfU2`;pVZNcRXt!XWOG#zsgiqRWl_FLEyAD3GW`XuE6&Q)w+6gvOL!r
zLkx1r4-DTl=(82+z$%TUVM69oHGLvcfOm~5YWW(%5+Sh?6Co}kyg2kFJEcuqZ|^QO
z(Fc!aKA1_Vb03twgAaoTW$&{;-3>2mf0ivk{fX1Ddi=zBeQNcV0PK|UoOlo|1dVL;
zidUr_`T)gWqY+k2Qfa0&sVTL%{YjIqsql}f)n0fs?~R#M-n&tzztGAxczN#u*?S;s
zKftDau4>*i6aw!xlAv&<0i9P2+ZHsQQ!K0#HXV@;Yz0IrZ8U1gFQmUC-C80Nk0oL$
zX>sS1Mqa1VJ!+h214iH2w%n5W2U&aX7q`fa5^Sjd1cAqK(K`QN_%d#8$@rLDrmAC{
z9rae@mdq*O9o40cX*2OzY18|r_h=E}ux#dYVhkaX4h>+S95#!;PU$o76jvg8LsK+~
z#1;lE>IwKd718U6Zy>4*Rwc%|zYH!!up`7QKshC)biRCX|C6>r1)j%L|845@EIe#R
zXK%i9hupa%*EyQ;7JPxcZ<FlXv~orEZO>Q>jeYsXjdJ70m6znk;f$r=-<0={$o`Rx
z>jQ85iuHb%92i|a_RxDIYd^wvQ*o(1t6YOyjg(jkhkitK@T9#au9EHf|3(0NZo1hB
zj8uu6kxowEcT?I_?`Sf9vfiFrzys@g3bifrm#j$F=v6tHTe2Zt*EW<hmh5S}WLPky
zbe<LvVwf?eZK~oJzf1x^iY0B;BmlZcTyiWq(~h*0X;fTk7jO9LB*4Hzp+&T|gfxPz
z#c%11-_dA%dOi-Riz#8t%3QXhx=NSsf1-iQv1>w7Wnooa6Y*Y5Wkm|ylgCK`rXpif
zbMXQx5}?RnEkii~RcD1(wWJ*_H^f-bGROvP4DE>o$N=+LQU`N_Wfl6p)8g!0BsHsN
z(aG1?%iC1!P4a$|Ja!<yK_RNII9dNp!66cnQ&qOp?9xY4?4-XHXRk}*9^}<$HWe?O
zp9)3q;<hK9mWsmPr*_|kcatmnId^N;)eUJh-##q250f-{>QU#0eCJNNb7#g|Y~tEB
zYX_p@Y!q5I=39euYcS(1bO!UCV{+$M#`|+`Z=t#6<G|j6r(=0v*1e_RX<N3-p8l2b
z`<LYnyR+^+1$P_%)*P08r)=-ZxbA!f%8s^ym6Ni6DB~)){L8*K52D2Ki0tmpoPOl(
z%-TEIxeGSdvW-OI8CRiLXD^ZZlM!Nd?--t<lOl@bO_TQ<<PoM4Gvxgv@`%i_=2Zsr
z8b!&Y?UHEsZgEAU!Lkpm;~IzGqSatIZMg3*B68Z09etKkPa7!t;QiwiIY{BY`)v=J
zA55=K{`l&HJ~?=pGWv>Ei{+@{!Ppu{zr}{2r3>01e@D?qAv@RBS#(gy$+c{~KPfjq
zQ*=?(%{e{m9)#3!(&%V9x^t95Yp)_u&5sIZXr~!9AYC=MQ4@GatAm65YQZHCIM#|1
zRu;3B%A1KhMJ+oxPTMU@*n#_8htgLCXY4Yw>V8defQU}d&L>ln%7B)L3L7GA2SbBt
zHc$|+Iw%md+o+Ku5IC+L8muSoSE0^&s1Rz3w2{yg(2(hzcnf1-!X^|)CLAZl9K$uF
z%I}mgd}{WqLQ<n@M6MMl9V3RHB=u-BIz#Lx;iD39YoNo)(>-s5w2?JJ;TPA8@qgv=
zS+ph*{|3_4+I#P{yRWV6xqmp<8p=2ywY1+mb@x=hB_y|maxKqf90h-0-oH)uZ_BuF
zRF=cCcT3j3g#pSr#U=@_N8&<Kabi>G@*3AU)3gbi!w#z(q96deWPIX=KvVyJy&;yg
zN%Vo9)!l4OqDX>eTe9+`Go(?~xU{7n6+>zr8isAQf}1JLld*x|XDYUvu{A2T{|@?5
z9CT|a#&|&rTE%6gh;NfeI70D7%9~l*cVdcIZIB5Pam4SEN8lm;Q}S4wPL(ZS8txMJ
ztoI_(1R1<&5aTO%f}O&(c64#%2?wnLXi8NIXjLNpBhb2=^Y>LjPNB8q-phAi&bJ<t
zTMy-0k7S%b-*s?#>-R!$hwisM>>T;&Mc{fX=V`ffG2gmPZrxV!2lD>SvVU`-tv}y3
zD7Ot3x;6pT7ag2`2nfvIP&C;Zokh;(aH@FeWpo{M*5YW|h6)t?4n^r2Mf8*R1M+H6
z@V6<Aynl!P(iM0>!B(qf@V@PV>A}<kyF55n<Pcw-UZbC4JGcL^;ZsMG#reqBQncU~
zGim8s-nn90-YYk6EZQi^&b4+gAI<iUWV=V?mK_f+$}M9>sswcF>|S>vq|Sr7uEMVx
zjII3+a;k3u1ry;_;7tw75<V@*%vCW9^Z~fx!%d;}mK!<&8{~R>O$n-PFX;rVyaU+U
z0Udy|rko2}0gK=kJVeY&8i59OcjyIj^L*Lep~@uD4IP<PD7F&tFubiw(uxy!FQSH3
z98UO6b3|+y4sQWwuerv9T9vNx(grY%rgT|B3__E(Tr-IO9SEkftx}u7_a)Q-g|zkS
z1tzZ7!Qk~!0B?biZXzKaEG>7HID#6d(S>?yT3pguWBP@~RsDLe+yrk*HEJ=PD%s1I
zcd1q_H?3PeXtSB*-f~PEFLTqz*KiB5<iPmq%}T%O(^|p`+ON{i*0{7oYx!ztO%|e0
ztkYemj_rN3X5@9(_*)mv+>#S&cv3wucQsH7RQ#l!+9=Z4*9qjLEmN4I0sogA*SVne
z9OGOSYYATx=6%;B*6_qkz2Fm{MW)gOTPi5@pg_{O_zFBs`V*y5#lygiV7NtztYz3Q
z$?SwL6$hbEn0qB8k#t6iMT{md3yKNkk1=`*qsnEhTtNg#$*5RWwYA2<{}5^7ee#G=
z7JrwD_)4RLreJnHMMg#9`;_jk9C&G5e2Gg?3^BGEs;06=b9__fIsZ8tsnIx8-7u*~
zHuS|sDx#tUYe~9q#BE>Cz}qL}?%lZHE4Z8Ks?hBRpWWlk!rY;W^K@qWNl9Di8u;G6
zxA(2w$aOuF^*wXPpKaX#sB72q==a9n9?N&_lIicrssmo;46vrJHQ%^NZrqe>-13pH
z_ioRM?Y=+T_e{<=@{zCeZpZSTha30ge0z&F^swH}b@sg@t?bYBjXdnwvF5RLHGJyk
zI(ObVTy&wOdycz~d}B~<3>E^z`M`u6m{@&27dV&?9Fqgb3jLvc|9-iD|7tYXe<<I7
zLhe6N=-rBzeOo`{%)TaI>du`-59etI+39LnZ{(iY^`rE=>DAM@?I*MDp5=t>9(v>r
zWbJ{!`(-OiFiQI;O^4eiEoQ}mZDN<clH#x2F#@5I4v`R>=5*fZ1EhdAdJMCg((BZ-
zSSX`59eJ3_+Lx5ZxpVdS7$7HICsR?9V5r9NChbT*ZMpKX2feVU2bM9zj8DQ<=`-j;
zJ;o&k2QwOx!16E#i5(e>01C38n0eR^ian^HcxNEaM`l1;m~<;CHfCBS@IkZ6D*Yif
z`!BV&C1MVU5n|^+X=P^|yD>xde^N=CytuoH6RLYM=<L_lqjMp>fDXV8Ik~pLy~N$b
z%GuxF^^<)+-naVtzc`TdA0ZV_^9LQFe8&N~<G||mpSf}!7e8np&bRN9+jl*<oNGV8
za(BxeyB}Q7bsSu`nTh2wmslRfj!qfQQ9Qs16@Ww&)0|E*doiLnxHk-MSl+O{VSB^=
zhT{z<>1c01wQ`!bg4!90+P!JJZL0@xZ`#Y?g%Wmc5anOh@I?cdH=QV@F*xNy+?x)h
z*8#OREl6*uC|C-<Y2}S6ox05!GnR}sW6Rhxjtt#K5tCxN<%a6fr`6@nx9w>&jAKd%
z=rZYRZRglMpJJy~jl}pHx*CnD5$`}|Gi!FN<hSkjxZCdfLPbiKI`v~miqty1N4k8)
zY`pEMOP}>aN<&Z`_?S9thSWMMcH92GQJdqE>9*sxi)7H-&P6n}WWH_v4hMn7L}}mQ
zZri@Yeb=;PDH|Hqv(8LgZacJjRmifxhX#WV@yGaKBvAZ)3NcZJX*#Y_G)7(kp5lT*
z3{)meL=85Ge?}SalSf=`>FBG9DkcWQ;!uPQuHv{f8-v;lg0bQdw4nGCs`K0Ml$KcH
zGPLMPA#w>fzh5mCZKhPUod~XFnFY1@uc;E9P>BGF@Bj>NN>0THOwC2zmP~&a&psV4
zP?_7vJhKp%LKE>>Fc{JSCNotu2P1z@qO}42EVTCITerxqTkhK)j!foSk7bS*Hg3&t
z9FsSWtq$fk9?d-asI&Kb!MCC8BGp)-dvm^fNbVjg^lZuZgyf!3p>s1xRoCbmXYOjq
zoCebA-jWSY$XyfJgHv+XROSqX^*gVubU$#({rj>YeJ`(`&NiRSOn%(FIp4fPZr<@=
zbhRtjd@SoerivoOI+4XYv+;`o*IHErOR~w*7e&3Pai}{@%o5uORpa#*MM;hl|D3#k
zOCDXY1YIgVW?R7U@t;!Ge;}`1Qr}gziGPn=$p!CMe-%4*h&gqini=M<UiHP%|ChbO
zyA4kI7W(*mCdIbzxRbiKaCaf!HX_sCX(-&_XWRw<K;9pc{UPA+-u{)L{J@wzFt$1(
z4@~5G_h;>0g}!b1zC&`~Az0EBS_1i&t#Zp&=u67MqS@^@Zur6U=N$d6t9~!%=`C~w
z3T*?0?rlK#9*DVC!ui$`&i|qoQlv#AgfG&#MM4)Mv2=_iihn{OV%J6D^F=~IBJtN^
zjy#FH6uiny?0-gy<oyk0Py@KcE?PHR`X4nm7cKaOeB0Eq+`K%q+=ZKrqK%U5s>o|y
z-X}M2DLN?0$wb~2|MF=Vn-yJ@1YM&4GY^H%8=MfBoBN6u{G!4B!TYBBFWz_Ix}#{L
zBs=Hy-D%GHw`G0XWXI5&gA&{OQK@ND(SqOFN|a>h+J}n{3PGxFx-%p@`aX9ds=_l(
z3inBblN7hA@lrXmX{6{*BQI;eWCXKPqZu~AG#y6lu)|^I>F=1|w`rs-Y$2<hcMOo1
zt++F{m8^2zw;IBBn6rCs>9;FkC*L5rAV1p#&(&_dUp=78-z0(YUcoEaC<NVUBc$<0
z-Y58w+El-0sbmvMHuKFw3rhO<7Ix2X=39~4%KHUB-zK!7y>`UgQNnX|hu*awxJrg7
zH4c^m9jMb)YPlP2bRyp4;GoeR;JfON32%++&XVsDdeyPv-BJA#Y~-ch>Xs0C+1%WG
zA2h^$c$HMQ6q{q6b=Fs=AF~KB{Y5_r+6HA)73w%XE8;Z^A0z!`G=4%z;!O{QFD`0!
zr70LDi=jn-g5I={kvksg02`?m(V@lGIAp<jya!NUPlT8idT6n&CK(Sct_V>+giESs
zwMfZqwbXpKn)tX*)ZCgj7wvkhc&#%l#)u3?lEU@U+YONvcCeK=h9AYn9($-pvMfdC
zeu$qTUXFOBwK|#?>(d!f*W+*4HE|t25m$|Mjj-!+K1)#XRvJo!qv0Yt4~(lqE<%Wp
zIcP!Z=vkP)h-L|A;L2Pg)W%I}YNekxSLj`gyg}oJ%A6K@Bud2`+8~ucjjO9e;UXTb
zSc)VX=F+CB-gKc1y_H6c-t;-8`t^E-`aM^*X4c!NKgt2Ewel}`=F-}tUww68#%(>P
zxGO<cB$cqzS{GoIhH6NKg!Wfdnxy0k2vj^#y!rq)jyqJ?*ae%#XHkk-XyFkOy=Br$
z|7WW0#-kD#a;ps}KGriz;W(DsoTO6C>ZK{YK+y|}L2CCbdBf!WC-SD?Db8!)-Y%)v
zrAH~11afhRypPEH5T2%rrzx<Lqgs0ZoTC4QyqDlr=-o@2m(xhCxt@6(veAvaUnUOa
zzo8<S#!4ga%_I5E2jtBM@|#b}n@_^9plu-Ewq0)94rZl$OTK$l?jFr|AD6q2LmvZk
zZP;bI3f+Tb+TBs;-@#103wC$j9+2&U761M2hxXkccMmgj?SSkK6x{6}H21+Ep&{42
z2b@U{jJ#15bhfKM-#H|A4&^)d$enx8uJ?mY$58K`iTl><GbeIgC)Z8J&8+yqx|Qo2
zE3|LG0P_Ap*+0nI%nt6&HIEfK16o7la_9KE!_tRJe`#0m9d%rUsdEH>3>Te5pvw5T
zuF3a%R0mEY)%7G--N;HYCvj^=x8x$;E#V?xQY<{ZcB(bs5&tWithxDq?Dnx1h|7|Q
z8N11S?8S?rd(Yi{F4wXt=iQw54$0o3tbK?vDvIs8`ZDiJ?l3Q)nd+Hqv%{^Wv7Q+n
z^x|B-nZK{&FAzT?Jyx~i{SM{}J<L}0qPXLDAQ&kPN%7%?f`%|!p_d~uO8kThTd6P>
zjkX7Dx~gLQABZgOcq*zIs_g7KE!ZF`1J->5E2BBzARyb@n)eRK-hq`p4@UDlPsuw^
zWxWHrvPqg|A;WmPDx-B$su5mZ!~1els@2te+_XIl3oZ?2ejSp#YJ5VJN;N+LZK`WN
z1BDsdB?pRB7ZTGJy@WMwt*a6EQe$?lHgx;8l5W2Rz1h;XtHk)%IAT&Y{0{xP-%L7k
zo31Ulk+wYQ!;sIb)+?n~i_AtC@3pRov-6j)Xz#cf7ZSi*>hfc+r?B^CdoUh&5wC3M
zxh!Amf+Yull<{6RNzc2~mtX4RLh8f`*s1TBQUF!yj{gZ};b-t_l}yV?EeQR(-n;$+
zO&SW!!b%6Qu8vFZb+P?L^|`n@>zD+i_t)oRuzWA8CRK&y39LEp=o!5r$^esaJXlLX
zRGy8ad%WRLI}h4bk@tV1jQBP3bR8!%2N(YpRW=9`@j}|nRq?h(yO$_gII_iC9Dlmw
zRIl#W=vaLd{XocV=Nen`-hd3XH6fsr+0e-xeDBaBSj8NW+jfw!+rKg_`=80UAacQ)
ztz)a)vGx8$u48Ye0V%NEVdC+FP_FH8#*LJ%yYs<)a&X`3>HNewdE#7d;{3zl^EvMY
zIr#j_;X4M>!{fE&^WXMngU`#}3t9VxzxxaC1<8sb{c(TC;r(W|Le(~wv@Y!I4yb4M
zF$!^>(;%LiCzj45>go>STe%E9zN=TpR8a<&8($}!V6MOk#+!x(uB?2=4I|w-*2S;&
zxZZl2(f_~NyyYF^`?^V-s>>`x7y(y}5ip)t;>9K2*#=6+r0NlfsG9Z=<YW>7*;@oK
zXCoBW+fy3BjLpWcLCY3{WQ2F<c;aT7o1If%&Q4Nc#!LMULYf6j4ban&YV9)n)Y~<@
z|K;hSF+&+uK!5CMfu1hu9^1^f3I6Y(f51QBxA)%S-NlvAgN?biJp}FD_paW(y3+H&
zob&I3O;}q`b-uSN>)nvGPh~ev<=}faJaV;VU44b-wvW9-1z%sGV-q->N3eK!<?bu_
z){xv9%D0Zmtz%>aQIqtk#njud?y!@J$F5m2u;u$XhBr+_RC6T3FrJ5$J5`k5_(grQ
zc&xtkv{Z5ZlcvW+`lmWT(~R|?QtAWrch}FWci&yUax!oWrGKz@QkogJUHVjn#*P!#
z3|bW@aBWgbMezj<5#+4Ic-wHT0=z9Mez5R(HZC#Ib(XRBu$TdgB`zh&Yw)Eno65I0
z(w7S=S^OGc6Muo87RR0%pzub&s=41KAbJID;PTVSx&3$IKRET!1vPAmi_M(=pl|ca
z*RrFhem0uxJD+u{dcZw@(Xyw|7|1pbJ!<UEH|~@hcjg<%<;L;V1Ap20Y|+B`hKnYy
zl`b^h+r>j@zl!rET*aV(*vQ9mFd8pwV8Tf)->NjxeO0yiwYc}`*5Qjae?rSZDl_P?
zz0E3PmbDLjapVNQ41Zr_BY)hZi1OP2;$v^Zeql;|Kv9x)QCW9sW7Q*xo5%p#`aArH
zpHWzSa;Z{VqPta0snW<WU8F1|)?D>HmY1)s_lL9u<7gjC;2*!k=l$a{{Y|dE2#;Bn
zW?isMZG~woy{E`~=`95;yS)cjt?;t;gKW99N5L^(QXF%$64N+IxYDS6m#o?eNQ#GX
z0a6KFPwV;(41>rhTj?_h07gt-2gPGNE8?~8F_Hqapn+syR?EYX+p0<jX3>J_idORQ
zRVGfP%P_1uiNT76iR79zT&JMA7q6mhg*03e5?({<;_%bK;f(q)_K(rGbO7~$$QwC#
zAnV#z=niDgJ|cVKZF2jzeEW#pK7xx6`s?3S=!9yTgJl3`!6Ri4)X|MS`cqdLRh6_r
z=Zu}Ty$C$+tkqvXjZfE3VrhLEreXDjH-VA(>}9<3z_KyHiLD30w<a&)Q&wEf1;%5c
zvAW5Jv?5(-3M*n~tQ|>8dGCnq9eFUE^Wr|@5Cb+ydgp=zHRf_q*3cJ#B9|7_OK=TO
zZ$pFP-;hTqUA3n>jgVr8niJe}YJmyEBCQs_)G?1QD3#yN;ZYqvb3`H_;|>%v@x|<b
zsy7zwygDhnnY>?+N6emLJ<IUE2-_Y`+)T+Nwuu82B480|nd;wR{71?r?<B3qTkz-(
z!_D>dXU!cyZ{PH2!;ZqxWMR`pp?&02ho#%OZnAY)v*uP<svI#)8h**OTbwJ4MfzFY
z`5FBbM>%W5r?AByUNa#?R@uWvs}aW6D<|*2@L=bv<&WHd;Lh%xl!uSW8;=(`%KF*P
zpGp5_?-~mi?d_H+L!oPL(L{kq4o^mSD}FmJJG#~^lu{gRwm1vzy+sp#A2~MPZ;>6t
zYZgR`TU}_Z;K!#$SYY?bH5Mp#8Y~-Dj{WfD_fP)tx$i$mR^A)P%KH$r5U1bl=t(m7
zK4gHY{lp<dVR+<Im(SAksJZ>##NCOa1!1s2EgdXoqnMrR+wovh?%i8-P}Iq__uNb0
zO|S5B+two0#WFT`6g?Db;GEvKx^H)9ao8N&*1VLq*=#v%c+}QSm5LUMpaZqovRQU?
ze{Q2R27_#eg3q$|mx>oJ5a>pjtb{|+OVbRP)Qc@bZV;#z=wn;#YcT9XF)D;HNO9vc
zT1g2=0pKgCS6~EC%0Okhs&|({(^a2)QQv)@cyhszYP<!2Cxa-A1c!rtNv!nU7(CMj
zSi7m)iKl4ovF)%&1gb6`L#5Axu|uc$N#jyV36+T!vu0H`u}p@2_0QXc;?V^xN2vUn
z6!mKr{a;d6{jLT3$c6eri!EPLxRRq|XII(wl%+$_>#s9TPw}cX^pCKKt+asZT+5RT
zsl-k-+NFz3rM0GBNHxnNMZ5aMg7_n)^9!Z)-4h8(irwV(kVn_j>dj~XA*G{E&6yaM
z=d##O`5u-J19$e_H-?jxc9u4e&$CG(l}tw@_Bk(c12w*p>Ny!P$BS-3Qc>C#${M6B
ztHi$3#Wc~1g*C(UZz99KLsX8brngfFA2L*58nf3T%wCz@*(y!i$GSAZe^zA2tj5e)
zu}`R6^#O4!n!+C^dEn#2L<YmBcFyp;;jg(pGPma=ZqqL~_lI1|N8Fwdxg(z$jRxaq
zR`O72!-w3?54nlYjV3jI!tfz?_(N{{N8Fi@xEEyZh0l#PgYk0?-e--RVgHBR@JHN%
zzvj-!+?fx#O`jVr1|!gu!MNVoYOt=HS?BPx{>+5Iw<7*<;rk2g9D?h=X4r4&$_|XK
zbNF39Wb83G3+B#j*KXOoXWfL@`XR$t43yZF?cO7s_pX~LTD)fDjDuN2OWv?WHf$-F
vHx?Wl3%+Ndyfzxwou`e4!-o4uest>HQ`tSIem1_wv6M9zaz9mb8It-xtcvhV

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/commandr.cpython-312.pyc b/model_executor/models/__pycache__/commandr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4cb03614635d922a486770922129755d2ed5ec28
GIT binary patch
literal 20204
zcmb_^32+?OnO^tYCuVTpH$Y$r5Ig{$;we&;!~>SZL-t7YWQcB%L(Tzq4|u?UMenkr
zfh<SBIu5~Fxd?f+C2++=+@v<9w~|<u+KRPFrD~d>J>xEF&5E^^a;j1ViB#m;R3-WT
z*V8=%xIxL@bOCQ(zvF-R|Nj4b|Lgza_j@=zaocxeZy(^eU(<{JxC)*}Z&*0)Iwx>p
zPT&PgoKIN77M}dpxHVx5+nC=Lw}<Trv&ZcTN7%u_9C2sD6?P@uVK;ks#ytsd*vtH`
zxG&)k`<dSzFG~c%fkZGIWbdAMd7>g*k*Ew;vUhL1Dp4J-W`1A1CQ%!%P1J?!67}JF
z7UqvPBpSnw%wHC7N;HR?nLiM3NwkJrnLikBOSFgEnZG>Vk?0I}Cc461iSBSW3#*8)
zN%Vw!n7=aKn+SzN%wH8>o9GMo!Cx)Z#QPKL!s`+P;eo{Z@Ol<j8{d%F7~YuJ6yB5=
z3=bxT!b6G8;mwIH;VnF8;Y9nnq~4*$UomuUtoWw;Zr8ofYkr~r8uxx7IK17$J<ACV
z*Epe3bev1;sf)kwTQz_9DVDMcDVx6}<xZBe1u0v<B;_uavJENQza-^u(a+L$AZ_Q9
z(;98t!*X;XN4I$nah*6Iu7BTAXyM)~w$Pf1>KCpYPe~(Z+xDl<ijvrtNC{$m;5U>e
z#H+67)1nkT9T(wu#N>EvL>z|Kl1zpys$a{pX@4p?8at!<v{&s7iQN0rX)&3OrIL85
zmdD4&Qc^mSrotj4sl-?eR4uA^e{|%mSRmm!8ILCl1T3oWjF^s$jYZB#sqrzji{3y`
zPDv3~$;en#ipJw&JaQ=|#f69*o1kiXj>Y2R`;x-Z@p#CpHXIeDGor9R6(3I|Unpca
z5=)9vNiBcz@X3`yFQqOm4+6!&k<^)3T7E%FjfgUeM^MF!<54tiB1+9OTI`}KN~tlb
zM$O68Nc6N$>zTx9Q4nIuGpJIvAdW`I<LSsHF?Qx`IucJs1yNG#6VWTD#fT&(qGOTs
z7bEgWG%iMx(S)crNU2LDtu4)ll7ccyEzpXl(~?YKBjb{U&X0`6qv_F<lt5VJ^GOV5
zLKI@rw0N9#r2HFNB&d_`m^M7}k<?53(1nG!7hX{Px}UW;<WS4^ji*yDvpOI(t9qq)
zIW0v;(3I#EQHsQpf_Pc2jmb24iI^;--K_cv5fxB-64CQwL`;mOuOMl$N`=9dBcmXd
zlCG#;mXOhuRiD;9W0E);yNuR2Pe(`2i%DUmuwdDww!@|ON9WM4>)a%Fjs-7wrmP4r
z%~gm_+w^qj3QI(Pr(d0&Oc7OgX^iG4c7EIXKG-`wQ?^NN(l&t&;ha|sDRl*#PVFmD
zvg?%6)H?Q@^Xb0g@1%XwGJ#i}@&r<&uKXX~(n+pB!?d?1t$InvxR8DLH~$yUaT=HN
zqBthR62GCI2su@|kiIe|s+M$0wX?OaI!7_%(}SB-TSAN`RqI&ll4_Ua3sM@h%YQZ|
z2x2lKr!h%o)uGL6HFz;9#iGd(%$qSe7EdKrZ!9@Bo{li;(t4Doy7V+M4PP63{^8L2
zbYg7%SZr)vItoURUUzwX>-KHuw~FiIvD53vuB6YVlIt&m>#Wy!ig;NZ!TgrAS9v`c
zRU(=cq=B(3YCxObNi3(x=y-BO+J<uW<6nLU&Q<PVMQg62TdC;2dN^Ozo~!Cos=D4i
z@!qL-PAygqUOk%k*5$m-inn?0^g>tG+q~#qfAv5<*gS7jf?c^lNC|`%+7|=;xxhvx
zu<=gET_GFTxER=f^|^d?$NX`nI&}NQ2d~_E<!)W}z;R{!@x^r~l&TY;Th(y=`Pt{+
z7H=kQBo?ds7p9b|orU5W6>sC*;YDw6*4Fz7mE=aq(I0&gJnBWr>sT-%7v>?GSOjZ^
z8|4N5nmcS2Y=Y$)AGT$<%Y4{QgRQ!c&^jMRKbWt+{|ItF;IDJV{dF2^?t7S#`ewy*
zC9~ONwWW;}c8&>EdX2T;NnW3O`tKwcF{n&h@aEKWq|0?5)~(695%_e4o+8HU>zC)Q
za3RaE>R-mALmt(ReGELz6#?str6UoE7NzPYKF_$Dw2t0wsiY`NgYZg2<kXW>2Pb4x
zZL%02RlQ@BBO;%TVsTh8sa1C*G7^u<awH-XBf|8(Ds82Fd*Dn|7+pS~7yUJa%QXFd
zdzE|O@=rSzSKWPA!-JZ->+#w6yPMzJ@y?Eg^NXE37Hgi$*xvN!+d4D0`>y5(uDZFZ
zn~gUb=U=<O?WOFRV?TEtm$rkB`CuMF42H5GO>tl;=*R+_LzM9#)L@`SAg9YyQ#|rn
zMlHv<Tl{dy%9c*CgAnjE@<^NDsBTG=W5ReeF3U7Q(Gjd4z&BFTrKluKlo$J=5Of0R
z<h5|n6Lmd#U;W(B&8KcWwP4Hj?oxVpJ+fNrJsJO!g9|p##j=5(tgDB$7(;yK)3d+M
z{MBzi*)2Vb{NO+sTH16Y5!DkRL1P@da76V*A{S64Ertz=^gPn5{=%q@i1BzNa*LOq
zp{h`4?bSx_DR?DvhAE;9&Tp@ApIdD96Z{uGo4uFSgC$tDH1+xW=m2t*E=@P*<^-o;
z5v`(a0;vS62vvdkY@%b-!4|Ilnm_Cm9M`z8i!EC>maR*5YXaKQBQFfAj*)`UhE_pL
zD7-ne?RBJdAW3zhad>nHty;0FvCA!A)igOG#^k{6W2{P0C_G3(^w@(Gx@x2c;TI{4
z8l;W=6BEponi+*NU|zI)2^Mez>z|^RerUOEd!H7oM&F>64rpOisu?BoQVqKH6?Bc(
zq$_p0I?qF^3|<EA;uw}_#vYvT51heX7a1Rmj7h0;x2&q|bSx@MFCkJo24})EAfzrO
zS!~EF?WS<z3DS#jRIk2aLi$z9m&sEk5KGiNNYW)GNW>9Uw?R{)NvS$Wej81O?Al5s
z+QlkpvzmGjt8qDBGUk-Qm%fQ)@}I*2UwZ80++{jv%GWe8KGfKrYh0%^t|M+#mv8UM
zwQpD2x6@n8gQhKcUohuuQhZH$e|gT|srWmyzOMNTimx|cUX!oy29=qw&z;Iv_C5AG
znmv@Q{&5-C(8n@%D87y&g^~>6Y-KMpG$6y9Wk_G!{{48y_C2r0`HU%xYSZLo6aF$h
zOo%ji9|8(baSM7Cd8aI^36+x;eTxDI<jxf)piYH;S5V?Xi9g0^+{h|@11Y3e$O*#<
z+1Ti){AJZy7*drt_6v<qGQKoXUL2PKkEGVf#E7nP`Re*y^%|vm&HRPM>d>?&<D4l+
zr@eJ}`tY1{(btyY^MT5@zCHczx#(h`ZQ7RMGaK`PV8*30O_d9Iq(fAz!{pEwArZ%t
zXjw@#^Hr;ymWq5*I!Y0Y1(xu}7buXNQ}}0f18-b%af4g)HFcl5>+GEmgH3Z&O0a*)
zju-In+R(y~QnP-^Nv|%hyy|mG^}mK}_HvDp615Th8;>qXJeo()N=6D+>RXMK7MQAC
zbdG|FLK<>_sk#Iwn5tWFiJo&cMj3`jaIX^XF%KVg2;OV9u#YimKbW*%4QK;r=+491
zGWU&;nq1)1#f3RiI-!VDvWa^i!?1!=J6Ce*qWq=vrztz*-b8^tU(TD6!r*9nF2=o$
zS|Npr%mq%U?{CC)iT|v4ChZegR!C>?Q=~I3%Pe;xuRipo1y!vm0I#4<J;okTHyO@J
z`}tQfL#tMcoj^Ye{P|u?-kL+)AMwz^OzD)QvrxJ;$%E{{K4O|fYrigyqNaX52hs<1
zfAJTgh7?;2r5zA?js8WdhGMMldt%<w-O;23!8(BvLK#M#(wzof9;$;O0AA*00F=vO
z?SexW4?)48j?r49(<uHTg|VY9qv9-<fi%WAFH7SR+$AMd>r~Sutg{DwU_QHyTIngN
zwPte;p(Zm(a8Ft%ZIC}akQ2P`7iK-`S*z1aZ`6IO(lx1rHnL`QHcIrd5(_I4B^q-s
zy}6`B6WXYUd1#lOulS3!rek#uYhvXixNrM)@DcTC)Z^2nd$4DcPw&wEC3C+;4-;sn
zwd!vud#CO%{>lUCefry^fwN3GFsq){!;8O@4(b-6jMlJJjx;1)t$0eyOh2PXqI6@<
z>tSqenD<><F^%p61+&!%c@;5c^`Lnaz^De_$C{%DH7l+*?%Y}}wA7WvG^r`<`F(0U
zYC&Hd(sLGnZ<m*hi!t)c$}nq_>5TeHW%TG}Um=aWVpt+cO=^O3MvHm)Q#GhTH;L%w
zNL);wNuO0~$v>8oV+79vYAk@Sa*S&uX_z2dhOYvcRK4S}7`bphLa@%k3HQJSV6P;I
zOQcjzI0sUi;B8kuQVJN-l?cEsLL-X>Kwyu`qI4GNRX<SAq?o!40P9K|0y!Xaf_)<Z
zW;HB)!ae{$<ZRWK98VC?dsd7JvLqlk+t<}P01O2rRnL71kZS4@(*|x?r2Uli0Gv>7
zi8eqxgeEJL8-+y#G&MDzmR?4rT1f>K<5;<BAdObVBNU|txQkvFg|POrtmnlmk&Dsz
zxL8P8QOv40L$#t~q!g9rxWEv30D{1>NjY&6qD?*S1P+I4ND>Vpbt^_AeHLM?3#Aw}
zgw~eoGRA_bEDmibB;xVLXkc(vPYe(<5JTXDObk^m7dNV9D>|>8a(Oifk041|qE)2Y
zXf&Aqt(Iw#4BsO}1}z}J>d+=f$W@{m8N<Z}MRlgfv_`r$8ZqIrrZZ6)q%+|ug>&jw
zNO^|xbQS64GRR=0Je8FwPY)`#ELLpGICUjznc9?Ju2Qvj=UTTbtxTnA%GWpN>engt
z>+aMl_1j4M$=5aI>Ux#B-h~6X{=EwR>h>bspYQ0+b?j6+c9Krjn)e2B-VVjvF@NTs
zcO7K!s=8d|TBUOB!plnK&|Uss<@T&^d$w{r<nXG-x#PL!Aq9WSq8>E0&hzs_xy~I*
z=Z?E)l+I@sn+`IKEnm}cJvp14Pro<y&XiI!#1zBY#$0W$Qro*Q^uexMyOdh0tuJ5O
zcztSiYF<!k*V6lgo`JltB3rd)!3JEX*Yg=?>D~Q_ziQ@Wwt354+oFHhlAUw=@4LEC
zXY@-$pVH8WjDZJDo%075hVLF&Y}&`_@Sw3{e#^qHyWNY8Xg_q(2X&#M?g)M8==4$c
z-lq84n5R?mb(U(O-^f<>JPx=3E}{D#S8%nxM*8`o_jbLrOYv<eQY_I%U(Qx`LmRE7
zj9!d$V<(ca^0d~nLEEg<Z_bxjUvHglW$$a1`nCCn*2jKlBjpP`uHq`2=T5%+>SDzv
zygMJZbWk%INqM{U#-#^!eG3N{>jpE==L6NbK)VuXp9jd?pWU$kUSNNIO@D69Q_7mB
zW^DI^ou5=SQw4^nhxK~k?a1_zV!2Sf@z)*7b#GI;w`ofFiEL%(<8pU3)yBP4#X)oT
zHs13#K4|F7H@DyX=8bPI9RJ|dty9^ir#`I7?K`RLJNejZX)Mbec=PaM3{DqP<(dbS
z=7Br5AN&8(pKaO=FgsTjQmR6a?N&<oy~9gx&ex=A=~x!V1JPSkcK!qk<#n76W5Y5c
zi=HzSPJ70RM}Xko!2Jj?(JblZwiVHMo#p?f<DYR;JSbaMp=|j_Q6|y9AP|<8Zh{Ax
z9yk?|1s#F-1Ny+C_rV|B*5wo+HfShs$T}?bqFKNBKR6e{W@oz?6LHML@NVfMBBTsC
z({Kz><ATbcmm&z!0q_FwTNa6qjm59%oAgA>?=a70@j0UKGdKV`d=;5}ZylUInDq_K
z?7RN#?6Y(G=U$pQg4g*Da)kF1?<DT|hJbkd9!asjzBT==xsBibwvLUg3@8%oUS4kZ
ze8)Xs_p;(vOA!dpv}e*84WUxqx;P_iD7gco-MExA$L!x=YXb8Nzbl^=^Tvv!N~_r+
zq4}ynD6PB|k9p`BtH9s3=mO)bSiMvBDaRC`2s5Bnsz$h>kQWPpQtdEkU?md`q%?sQ
zWFNu}Ww%H{szEqO5Gx+cRia(sDr^;Lv<*eGn1NDGI`y<uE>JYo$dXhp9qnV(+~`|^
z-V191r=wN~kHBzWLl!KCv3M*kO~5aGiyS8S{0aH~n4D|me21KWO3qa{K;1}*k-ksP
zCOE1UA`)9O(hP;oQW$?x^^#N*f#ioXQq`gT${s{ANrXAt@dRlH6SXTBQ~@%4h)DTg
z!MVyUdAN$2>&>&xb5o1u>!uwUYv#p#MfLU2Y-sNI%~x)`ve5NG|E>PJwx9Zb;>$KY
z^U<c6&|<~#w3D#IOq2-|v^C@_Yjc%rluAI4IP9$KpFWV;m$`uGx3<2qbw<e5gznXZ
zkm&lJ**){y7ovB{7b^z~i6An>W@8X2HqJ*EYkD)@d{y1`!?TCyy*Txpc4r(jz%8pY
zezsZMvJMYR{{(dpm936cQjajWQi_s~q3Ub^2pCWunvnzpRLud*5z0jl4XAt-js{@%
zZ^&=jLKvp^1aB`Zf|&G1C}zj}0i~vQ$;sYb2CC_1?;e6RS;o(j7N@;xslsosd01I@
zedp}XB|H3}P}h8Ya&~gbNpCLB6L_m>y6Foy-ZT`Hszm?BLk*?p(J$cq|3E=Sw;7}c
zT+}?=y-K)taODxb=JDpCqZU%yM_s>zomOb`_<%S9BPK~ZC1fg5QM+Q|`ZCm%wqPrD
z&HsS20yPDmxAJ_;OjLj#ZipCZV@s#4uz>#X(Aq8U7laI?F8DaE<aCQKq@|N8i_U0}
z)?l|KCsn*@EqF6T0;gVux`CD(O=J&rY5On^mgp>+R6>|@6+z_*+dv{dCS5>EFdRZ6
zw3R_hB%AH3+sMb@duV+~PiG6#>u}V7W}CrOA=02ij#V`$O-rISGNx3jBQ^f+Xc}tL
zr^q0u;jC1XmTN+v)I%Vz$ouMyb0c;P<hC2fKvfW+@AQAP=A*joizhyO?SAFUkY!yD
zT6^>Lt-1O>rM~aZn%t&ml}*n=a&3d4`*W8jjF#|VmwsR^{d3f4+2JV-G@D$+opF|=
zofDbv$}p%Y43sX<VUMA_D;}Cww+%xDGBh$hRVto4*=b_YE(1^*?i4!`rIUD^eq-2;
zy#$Bwe};JJ9ddpIM;|sLh4d~$)mr_;k(uZe0R^>uc?9M}i6u_ScGF-ou!SARiLQ~)
zpcL#lWn5Kz#+C0_lk3=`bZogZ_2JpYj;|@M){KAVGJ@Y5cxNDA)0%JSfx_3h@eyb3
z^kiMF;D^vXp1bkf{HevJ!K|zPVO?7m3TWMq?5<&@ZaCwA7-*V1n+>eVy4Gmy@@;DD
z@3~FT4k7)J`oo?cAB&4m*d=aKQgW8?FaHZTD|d-1yQjEG;H7krpx2Tuf?l;9f_(ku
z_8wzvfWKsGpf?wXZKHp-f4&M<NlR`D@?f{fjK4KGJvn#c=Bqbe&BE}=z4i+);<V17
zijLslcyvkYQ3nR6bnhUOx3^)rEW$=ew2i_-2&ZKBYh|!qcEAGFL=qF6=Ha6@!G&`$
z7tZ5?tLF8X=M}Jb2ySKo;aeqz7Q0H>B8wgM2>xsKutzAvUgQ&DN?}%iZRcT-u~YPm
zHntDhgaGPZ#?J5pSXJe)X=S#wN6D0y$sn)`IfnjJy<};oAL3ESh|UUV=@S=Z%;L8Q
z{Q>{F^>y3p_GMO75PZMNeq<)1zhQ$SOlZ`K=M5Y;o1G)PVV}nC7coxqrom{6d(pJb
ztb35c*!_xjSLSIEYJ!yOED)4*k%ddw>QzP_GNM}XKoqrQ?4wXNuDK>Hz{oAwL9O}@
zN@@qF5jx5q_>GAPzj3~mZr4+o*9@T@dWz!jvfb5aPr64>Az&$-v6xdVX{&K+g?-sM
zY)lHGLX)Br|BtBjA6QE*v8FB4JQ>zuH=un6598?)9q5L5#&Muq(=^lMpBKsZ5*$sx
zzIs*LZB^IKcr<ZZi0+<PQ!;Uly>?({9Hz{1c{e;-x&h2jnd*$)_kQELe6VKDHy^*d
z<#Vg0sf=+E;O1=imsw?)D8cj<wu6MKi$VpEbXq040h0UdsJ=V|y|x;t?YT(y)C^>m
zNb}MlZ6Cw-VN?!NU|H%yxLVHeYt4#OtApwVHVo5q_NKaFG+gjH3Uw?>E;bTZq)wvK
z`Xy${A*UwP+@{Kybh0Md(0YJmvv=>_QqiW$te<huf|GxZ^#6OAJ>SFfrd)YQDG%k!
z2bJ={j3Zy$k*i&=)UM9}8!dX9dKswsP&2Z5*w9u)K0j&N1TiS*YgT;Ca~E^18<p0L
zz)p4J83(uh0O21wUzg(R`rKmiGbN=NW;O+!a=S-yZDtVZT-VzJ3thMSfLT_zn8`>Q
z7zlK4!^?c$-!ykF>kBPx$@T40`p6D%0~4Y8*(6cjnw%KJ@duNfhzaTsF+%!(M1%U}
zRyexF3@`l~q{ku2)A*788jeg<bsNHfHeZZ#CkjF)W7PvIB6rY$(Aoo#6sXJv+LS=s
zeEnjeFYD@K4H#y^lUlXR>Pow!Amb#643uT<^hsW(au|$WKnbNQS~tZo!xg3aN!xcI
z$xYdl<*UeihFR>CUEro1$+Ai7Rc3H73Fb(96-+#=0@I$R93_g1DIS9|3>J*6g$JR!
zJfH{RS7){dxKm)LQ%)d}PAESn=*pYrwh~)XqrC=8E)tc?idzU#60C0<GVL)sgr|{N
z@vssLv#5aQxF*SF**09lek>(^k3`L3$9AJJNyhb!X!5-D?-3^1$oVlje?`u}g`@g#
zyayxQLNYqSmhQp{xr_5n6R7_KMg5eVP2{`_N3}C{qamE6iGeR@Pl;??S;`p-Lh&w|
zhaVvWI}-BMeRp@x+jGy`lMggy1HJjSb+i75ZC$yxA*F5T&Nmj@_RRQkXfplW!^)m)
z<zUt~2shuf;ZCc9gO8*6+P;NDO6}Ina}TN;=MLOFeB<y!RW7t$32nbS^wZrx+5L;^
zLz!oOxu!24tcP`aK3Mn2Y3nJ&$w%hsjcrR-uI4Zgv%X-{cfXwrti2al`=D}7zGMB}
zuPecWSm0G<OPt0)n%Zt|zp;J()Sc%R8+XAr8Djeds&YYrQk|M@wLDU~?1^8pW&d{w
zy^cd(f&URdWhpT~HdTuBiKN4CQ&toECP+XBxEcP`9*!#k`)Dz)c)oKM)5|2>?6$_F
zT`%)8KjoATL)mh&rRFNp?OlQ;Z7dsou}rxq9p?=BqgVyKErOL<C0HgMNgGXnM%96(
z<(_mEAyFRpOiaN|r(Q3fd-Ge97A(zI(QfqZlxNC2<(u?Q+As1F|E6!!Zn~7blOA0{
z0o$;f!JWl>ED};oS{c2eqP&JMPN#vA_Mva=THj2%%p|!fx8Ax*pWaJ6$8*W!HYl%O
zxdxx5X<@R5YNgkJT5;7f!@p@+rG^w2EY|VM$4{@VUc#zlVayR8^Y6{4(Ha|=l6^R2
zhtmBTYD#C#%;<n{0we6a7B*WNRxnPup@n^e^17KRD9cVu3E5e&vtUuotR<vfh+)PP
zFhC&t;!v4t6JjH2HApt?Lh*i<4AV_9t(hVO=t7%jdC0D#NmE3nh8$93RcllbRHr23
zmf47?x*%D}mtyI&QU|4AC6eqO@@w4jZzxL*WHDUaDikP3aNBK+nPIRC5i+a|P$xgT
z6Q`$9ZR{4D9$2^%<SDrzXJ?sNiK<7tS;4Y+aNZ;d+9f)d=7+FBx`57l*)QY2s*egS
zT%?mH3McfMU{D(K3UT8f!nw+QW^r}^a%g!R<Z2t|hH{M?l*SE<jhhy01~c9V9o>J{
zo$){DT&wt6GY4kY88SpR(4TMV$hE9jTGr=U_9!iTKC~^iJd+JRGvk2+9lpM6{*Y3)
ze#ZWwt!Kf$@Y?;oCl=dI&iEg8Z_0IVQM$J*c5l18?_T$=*`pus%D(uLvi}$ub9u|B
z4mfk-{HgoFLGbQeuw4nZ&#%27gp6MI>!CwRaKnse?$ClOU)hWsMU|m^RTG`B152Ji
zbjPz;i__qT0N;1b?wYT?Um02u?)E7I&mh$Uocj;msk&deg|gIj0>G{d&Dis8-MO|w
zrEPG=|4ZDhK*@KWyC2;3%V70VJ-7KVztjS=0TXhc)NZ&_b>~})wfkpmK>KHQ{<5m+
z6Qc;c6pL8V1%+a$fxh~JNGtrp*SU0z=eqiqj`O(Vp>Hvo5p{4S{_myP86^ih0mp9a
zFeFFY_SvRR$08E#L(&2{|CO8v<Qyeu7*6ROkH4Tma&T>$lSv=|!1Hk5{?E8ZyJvo4
ziGJ=5eojA2J9vBlLiGntx0;qXc<*-qwErjlkI1_e<OVi<>TR+&8;B14m<?6+4ElG{
zn~Q7RbmxH5vTeytub#q50JDx*qP$DK!f`;hu1|6IJ@Ql7&dv7b`R5i++!?%UX9qNc
z2b6WsC|w7aIK+H3_>ug#+rA*L1_4o1M(}Suy7v6&T{N&10@C(p0T;&3SOnYK7F-vD
z#v8+RG2Bsc0UUDUb_#%-0yyLaIOG(3qRUM87yRbo0Efx|uy}9*++}8CsqdHUW=!3x
z)Pv^Kg>um+1Q>i&u}TUpc9q(RKFSODsPdX!uSwW1RINg56)IW{(9&vxl7t#DAO=N;
zIgJt!$}g6S%z_a)Ymu{pfl!s$Tk6%q4S<6wX@7KFj>eB1#m4ZTFr?DY$RT-B`df1T
zGaTT+v<+$34M>AhgPM-SR3frqlNpeusq==)YakW0?--)n*D*={u!9scp^NTAm;qOG
zZVdp(0H|<^ZHQQ?P2rI>{fEFSn;uqjkYY7EG65w6%F*+1gtAa8@qm^`^Wgx;0H-EP
z%(^Enf^qI$ycCRl`a&Z8r9r1r{5{uH^y@z4GPEPWLpHj9Z)ba-YG>F9#?Ba!P@o8{
zNOwR&`b%;M^wD6H%5+Sm`|?7GRis3%mHssx*vHXTckS-E8e}iH#jRg_XFN{orqut9
zoS(qa4+)GaXa{brL^75w9s!gBAcZ4<lF4bnO+O+YO5zQ`rIKrn`6s|21<V7iGFXF)
zwD$s`tSbay`(XhSdC<1rz(3|s=DN2k-CJ>-(+(^G_aT8*)U;#2xqakr&4;y%{m&z+
zhD@3WclVdSb!hrf&bLMJZNV1n_W#_affo#0cmiy(4J}yh2D<sNjxMk3P=-b8WTuP$
zJL*ZAegz<dZB-NPnzC5hiz^_EA5&-26lD;`TNBe0g^R|a#lTS3HB<s)NQTO4j#Uik
z4FbuPkABpt<B%k3>&@U<GxTXfh>V$rT%0CtCE9TP?>4ZY6aO_etP8|&P!#0qn{Rq<
zc=EpLnJd|jEqDFULyZfchA^-Rsh8=R#1NRS`48}v!Z28zg{6)N<1ssP6%3|8$7)h9
zauOR{@qBf9F#al(47O)wFvmZNo*Cm@Sq6>)*-cznX*thEWoDVnmN)GK(%-{TJ!Igl
zfu;p(Ee31g5<aY*Q}hW7DXKa&cCpfUi$3)+j{A*T>_p)^Bc*e8d5WLW$R<%L&<>n?
zwaf`O&)qneYuT){Y`$}Ov1V_^`%7;PyTZ0ssfJYg!H!!ya(z!LeNTUQbg}xS%t44i
z!5Uomb#pZhxoS$34_00G%zARc9wpe53vN<^o9-ONB&jJwY8OkbNj`sra+l2!+FsZk
zc^aPObA*n+&Xj)h0W;vsRyNqT>ckNc8CFkJ77WU<W(Q))i;+=Dya49zm(R!OE+~EI
zLX^SX+fX!<KCyvQH6*GfbvJ!{W7!>PmP)seEA8S^1?K0}!D~SR{I#4eOU~D4`}bwr
zo(A8m@MIhXHrk;CI_9^Qpq-c}!=b7b!n9g5rm1t-if~i9sLz!fl0)GVwJbeR?pB@2
z6u$Hl6{Mm7{y(X)Us($OJ4#K?_o;#SQV~hvpV@5H9!v;-9k|1i-CFPY)bD9=WNi&g
zbzDPlHuO}sZfDk3&7}28O<KnfN$dDoTFcuv7p3*hMQMFAddX3F^~CF^zH{o2Bap*)
z?&b6AHh${$l!))}mx%B5RwBOB>k9Fmf|iT#pZO8?$jUjYmn;-p=YuIwZ4)#8vBMAY
zn(@z^O>s9pa#B!}&ECI?u#XsB*oRk}^3-FYeX27O5mF<#=^hwK;iEbubaO%;h@Ku{
z0|2NVA8JXbQgK<sMb}Yh)8bHl`1DIs23t;GGHMq<iDju}bk<3C9khE7nzel+3#0`f
z!-r{5#DD-}9Vv=0Zpad0qS_JZfOa2UA~B0i8+-tSs0lILDvg~6I}sReE0H{<cC$Dp
z3q|zrcNC7F25_r6c9E5&U2|@KLRwr-z-NKjjcIoOK)Wd2_oN)`!$2hh5=l~O&l7U6
z>-L5325A>%pG3dNAVl`{AnoeI;1lR;r(^_yurDJSi;$g}sq4&gY8|I>lYzqbF2>U_
zj5Gs!NP1x3u2AdEa%(B;somO$>t7s_B@%E|Kg%SG7sf@po<WNn_ciFVKlscKE@3ni
z`4)0oDax+VYoma6ayrQAB&Um<ZaAt_n?NGKq*wyB7dSFxpOcCdz6r#>E}=S(GM1#-
zCA~nIN65KJ&R>v2GyfK+t%9xa;~-SyV!I_=RRrz`HbR~yE6?+vZs7Q)zvsF>=9+%Z
z`99{Ve#H&3*ImEj*8ht8+Q;0^FDy3R@+k-Ba}UQq$A8Qn{FvMOF?Vu##MY0wzK^+e
z|DD^TaC^S6IC;w#930rsTLM?BUvK_SbGEi8SG!xO-F=_m^C=R9zyU0K`6co`uJZD|
zGnVV_S@&ZO-p4Jie7XJ(@8bh}lILq?PLr+VV~+ffPg{HWp1F#f^*8DtbMP*m#OKs%
y9|KkAn`b)6hVu~)Wq4vVmf9s2{5WYn$n*VkmYePy?)jZ}8t$I@oTCudUH=aY<OVSS

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/config.cpython-312.pyc b/model_executor/models/__pycache__/config.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0557e5f84ef926d4e709ae6ab9ec0080748dba14
GIT binary patch
literal 19057
zcmeHvTWlLymRRvAN~HLZsQ0V%7G;Tg*|IFRY|FA_%a-N0+pF0@fnt>;%6xTINwySf
zwtF#yu#*7e*~O;4K!SCWMb<_)5C=#QBM)Sd<YSOzgDOb|xdk;=gLFQed_=w0WPp4m
zIp-FOEYeiV4R?Ti<iftZk8{s`o^#JR_muuad3hNHA#DDep`YKTsQ-)^Em$&%w^1WS
zeL>x$Sc)}-sfc00V8FC7Y>b!|OeAdzn<JJ53rU;9)=0@h2}xVRwn*thDM?$yWfA*=
zouo^`j!5}JIZ4~X&WLNl6>%@PNxn4fiBv39kaStNGU8qEMyeL7BGn7k28y%rR_NOv
zu8Gtx)EX!w#g%e(UmDc0F4P;T%M|PQDaDq538Tia&_K$ZQ0B^(HIgznlzF&@FHIT9
zCQ@1frIotUW>V^f(kfkP3n{IJ(i&YUO-gH_v`$yrN=oaYv_V(eMoJr@v`JUmPD-1h
zv_)6iK}u;TZPk@_lF~LPZP%4{k<tz*?bMZalhQ6I?bem{kkTF~_327|A&TwgI{(nX
zp5U4w?jvzO*9d7pM?*ZowL(0|wLv_@wL?72wLm<=bwGTQYlip~*9Gw?*A4M$5|5GC
z$NB!yu+Yn$;QF|JuAvSVf60h3=V#A+1iu?*-}oEc5}!e_u^bl<#^M{0Hid%`_$j~p
zJ2$79sVmb{*JkH0&qIkl6b*??IJUgZ@d$7|#&Y4?+;T_|d2HwouJJq<6`6QAATGuD
zh|j2)gKTJBvGK9BD9fzH0jl=S-P_D1g8c3c=I)K#Q&-fi&!l)}*23XQQ3NERSoBVu
z3o5181Chl5NxHAkP3BbswzB)-aAYbLT?#D+aV}cOoHgogGn9Nmanyo=r522wi8Zmt
zpPIkSz%7_J3_i0`b)VxyOB<6>_FkL~h@6UWKA1W01Q^qZ^{o@4FDQ`|V)Xll7Y1CO
z%K4Z$8;OUx2n?TNr+Gex%Vb}N5i&tCL;;b||MSX#7>N(WL-Bqwz%O%R|KqjOXT~0$
z<_5x{#ew*SxDtyFV6%Y;E-}MB=7MWtj90V5fQrl?-%x7T$-tQaSzR1@rl(DR(JA?l
zg0F^w2{wp6rM_{tO19RwkfvUk`6~F~T@Wc&o)g#j===+dVq=(SAi^<>QpPYa#<eh}
z9SrlyS|FUMaR_2S3<V<`%!cJ_5F5qUA~x)c_h=DzAb27ADV4T({>o^uw7oS^){1X2
zr8Yp=582(zTqF`0xywBk$&oF#yU4}J?%svO7gT~;h2O%kn&EZ&@-0Kcuxi$qsA&h4
zFfiIFq&6tN63XGIIn*sxw@@ivS;}mf(y%6Q%wmWQ@mvs3e;~{RG)hoPLjn^FtO<dz
z&!}!mC!iB>JT$E?D6a6Pzvxtt-1SC8(gD$@)V{YR<?WNbeJSs#>>W*(rrS=W+Ahm&
zm!;;*$<o)h26ZoxgYXR)(HP}6v<<TuVWoh3oY_#L<%%J*qnK2iAm9gVspqoD&2x{A
z+|E)!PquRuDDH>Y&Q&X5EC{UOVGnM?RbT;d2#|UT0&C1cuqHSV*@FV`L?p;>0Hu!n
z63lJFHg6ddMiI%7goJ@LCyd&K3a#8)P3{*;D{?t4m50N^QW_4{`gbfazU-JbC|}9E
zQVMIVQj20<=E7@=Wtm%sA15CJ&b7gCkwu0LMHB}gi*t++41`0`W#A8`D_nqOgwQ6Z
zlx08(SS0Y6iN}Nxo^Qpx7!Wvq07mx0&f_8E@k}eF3=<3o1c70AJf2F~N{D5-C=&>Z
zianDim@A`eksOII*rlM906PV;;guSFUpP>XWnpjv4hY67t^k};o*CT3N5F@L7bZel
ziZw%=HZltsxPV8A&LgzmcMjl@MAi<C-+loR5Sgbj<?+cLU&=Egdq$GheOFb=)grrE
zQm!7^)${z?w(GQHJ1x0Rr?G~XUG%e=ZC9^k>y=!+`;F~M>#nVCzp^e>*(q0cKCe#s
zreye6IhC~S*R}4|w?6BVddFW~*{PpSH@2l3$K}THw6{Lx?UcQpdyVbSW}eT#y0p_c
z`K{ebmnE&QZH>p!wGT$lV}vC8R>!Dama+_4LrO)0U>`u$9ar(LpNa8zxKGx&Xpo!2
zgAiH@1>q)%MZc48KY*@(2txnV#sV=jKyqr>0N(w=I6vbvku$24$78WD$7@{MiCi0w
zW@w!Z@kNF^Uxvo-a_5QnnctD;=rrQ&g9y%1ZF{PAP_7+J)t-}U&n3&#_S%%aTef#g
z_JQ<?!Q}PVj-CS(<rq9>b1wlp9-~o2uG?IbWhk?`kW!H#*avKG_0>=`a67ih@nYb3
zzAb(S-zHaXc7tG4nSea9*j23ZY5o^bTZD@r$G4$XmMdyKQ52LO#i>nDhcaS8*fJOA
z(}F`p(SU@6nKfz36Tq896pqvyBXE3^#;p_Pyc!Gih!<`_(4g~RL9Nru*%ILSMkYHC
zJnBB%JP3M(yDL=>=B{TpYz7E%MWw$tc+c^Ej8Kap44fZ?l&@UJ#cMP+pJTm@xDn@g
zJZOZm^JADggV9-tlyWW#Izy0SxB%!EJgzxEjukH5Wkarv2`KehR57Rn!OmlJ0izL!
z1k|X3Tj%lXf#Rp{NMb{j!oPqBh^?kARWl&h3?v<CPgBa%Eql6wbK5;ByHB?Jo<G>O
zpGqS~ZkH?DQ<Z&kWuG*7dAstm<hU$VUf!>1O4az}8sGE#ss76{{HwW~ypnEcO*Nd6
z8_p!>4jh!1PF41ASN89<bU$~z4D7UwJ#idZsphV|=FVqJlK<Q<Z9C1gX}WK(w&j@>
zK$cRYbMoliPVMzQy8F5HrSq5O9eNsgdWSPP^V&flG*FJwV`%>x%#O$C9L`lo`!yD4
zhV~()B0;bZpndOrED{P{1kyjA^4ow$e+WiijMm>rVq4EhbfO*ROae$-Cf2M`4O|Xc
zE&>!?OzN|s)W_RcE5Md$SfZZd(0Z8S90E#<NOD2rV<KJhZm7rID+omLw4iKipfVC_
z5h&<gH_ufR=L^DTntWSdPytz9t3yexAOL2ayt+ykR6`aZP_rWe=76MJ5C9^_8x5<l
zs)Yd{ay-(o+ErMOy{zJ;SrAm2T14rSgoF{`kc$<BO<*RP*=x&`cP2_$n|3CER~r*1
z;L5tSWJ>|#Z~;2VYHjjh%XD1XP9*W{Y9FDBA|EXX!skc8BBw0~p9)97BFilZTNV*n
zE(!17Dq+svWL9W}47DI6tlG*NDDi?;xjLn#a=)x2VR`?awG}qNeOA2HR!O2{73G<N
zuw@fbaw7pCimb7CMXT3l#}5^UT)n12=6>1o;^SE@vg#WCEo-#;{abBW#p_ys30uxQ
z%R9sy#mWs-!kn-%S;~Slds2hT{jz1K_5&OW_#}w;v=q$#zLw7YYCF4CnkZfUom{z=
zVx4f}Gcp{Ep)^s#oY3lEw#S?nkW*aqiYt4osFDeo8?C~l5GbfTQapbXBE^jA9{({(
z3L(&4t57i%`9LVju~}tQ2vIg@kuT6}{yFJ@26a#b+Yt@_xu^h&2ptk=HY5ZV!yN0U
zr&a>dWl$|?M66nO!d#SI;$soIQ=r8d#D4m2jOL=);$3uow7_xW^ol6Ph4F!b<&e0t
zw&)MWBE$yRALnDMU=mUdf+Ejx0}&Yf0QWe6#ztWvwzLFlH^+pcOB|SAgB;oiall|V
z%naDSB1XbWdENjOCuRli69z`REUx(abK+Z0N>eIx$_=x$7A2-BBA1cn<xwdCn^ri^
zECq+ad=(J1+_0J}|K#C1gHuqmW&%>B6Y0=u0EREH1t`_J;t))M4|9Qaj#Vncfelc(
zqF_>HxH#-0SPz`}WlBjD79h&;iifm}aBK*zp~O;PjiMCF5{VN5NmIpx_JfQ;fs_bD
z8dXeyK&jLXWr@c%h(&pLx}kVvg^C00b}_J}@*$QJl<F8Cf)fB1ySx?Ve}tf>NGPh*
zfl)6I4z7V=oXZDNtg1m>DFGWq6poSN1l(l%U>m`#t(1j?P!x=*u(OJp4S^ZN1V#>}
zWF;UFOGgQqh%rILXjL3HVaHB53t&FZs;Z`VEbc2)#b%^0RbnQB`~t#z^9Ii>av+X#
zWDe@V5U|Y#L;}j@C||2VXMXI@Qlw7KJ5t8R<q`fpFoEL@BU0bQwrfJNO-QZ@Vj1zt
zE}ztYUUr?AZ09A{`90rY+EF2S`=77BH5q%svaxIHI<QfWij=)mws$_S-L?;<=`NIx
zoA&9h6g@7}<H?y_$f2dBO?I_CTS|4Ek-N_9x^BI?pPINOPu$ve-I8p#WD-lRTj}b?
zRCTXh-J7)jEjwv<LUx^yTqBZg1Y)8E3~pBrO144CHAuQSBhzPaFiq)p-=CfPd*?7s
zr<>aU<i~&fV@%iU%ZnR!_Uam+K6q|T^<0$UU(>~%x~Zg-$o-&a{K~sS&r7x@u>Pd$
zd(w?Vd)|hpGtcH;cBO`|$ir85yt75jKD)NYgGLIhQSKhu-IH>k+IF8xyBoCZdD(ql
za$g3`q+=k}epYTjn`)nx+h-*Qz1P^H100pzqte)QSn?)k@;a<{d2PxuBs+#)_U}3_
z>^UlaKL7drfzjj<3{dImENJ?h@{)4rK{eIbooX178%C0I=_X&QX-sY!OU{4es(ad(
zsvnW-NB+s(UDx<N-It<qIaBn6Oi!e}?azLc>YR`}CsLi)<j!j_h}Mc<l*6D~0dP#F
z$5Ql+OwT+iKeSTrnkPSb_Itao(|hikr_SfDUH4e})Yattu46deJDBP{C-<Iv^%J>w
z9*epUZJ>KS3#Ym!<*vz{ri;n>w4*-dXqFw#Qp><g@2+Ds-8+_?1JHd(jW*-gjtj@A
zTz8R#FhYV8P}t7c$bV$8Oln4Ql2#ER=m)4>^sPr+bQtVuH~CnQ6NK9w@EBG{n)xqW
zcpW3>c>4gNA3_ByW=r!K=R?7pMk-@Z<5AvH?1IR}88NWTgjjwSO5U}dojGnUN3t2z
z;*YYM?W5hSL$-HF_P%tFAMIwHXgBLWW+S%%Cy&uTN910JG8<{O3}kd?NU2B=>;pEj
zPMi4u3%ke9z-02au0)6}iEwiqv2DXgj{eB~`ggdbD8Lo5bCUg{Wjig|d(s^~+^<&L
zFW)iy^%<b!G5WWNJa4~xv-{PnB0;bZ*sl(p@yPcwVxz%|5Z-@+#P=gS5!;dgRtf`~
zeG@`ks9@Nj^6E`FEpyA1Fn#6}v(^c)ErP`r18XLhgOaNhYxz<w0viI@GT!@1H22D-
zz9QAb<7HMt`UF>p0l^{=eaP`MN)>tR0UJLEDkw5DV(cLoeS^Gc^KabcH|TIIfDbn`
zyx7nh7Q)y@=-U}A=YMbsI)9Y-(q2IZH_SW=Y%rN44>rgS7$$kPQcaa65TzBX`sD4)
zyqyzK>#qZxVkJ`(1T$n%bkYe<6Yq0qj-;4B2ZX|7h>8eO-*om7!D#ShCtQ$SWs<G!
zTN~x>g~D$<wNI<1*0EO|JD&4NE67!ntMyNV&%6G?!<V<VyG9QvQ)$_O(NMk$R}&;9
z*C<@#r)CXFd&)-3HacbNm2JJRZJ7rG)Deq54gU-)F#3=1U;i}hvdn6?9wt@#L%<K9
zzfQFD-k<wk1em?~{s8*^egv5RT66@FWDSOZJ`>1e1?ZfG0q#s7T|Ef_5t-)SAayQ}
zkYKr>KY2<S>M`NKA{Q3a+q4Wc3UJgxO$%5xn#WWNIbO8_@|pazckaCw?8w9SYs5MY
zQIW%!Zfrssw=P}uy{cWdw@daD>FyKA$2*XZ_Z`E>e-8cd812J<Js-DN`Z9bRQYsPz
z`+##)e<vDyv=k0J<lcGe%@><Wp&!D%|G%#Rtb{InPhSIAX4Q_PT5tLRllsgwfGM=i
z@~1E&&lT?;<B_BH>&UbF-w@v<MktH(M>4QK!di^}D<&>tL>gex2OP1Q%W?6BAONeH
zBECIy*VP5cKVNuVkn{Cj(!o)0qM5hP5@0F@CUe7sC66lhPD)r(5mxo-33y*D#;TgZ
zr$xuA#OyoiYB`L#Ah5c(O|;CC*G9{{0xy4Hp^FAW%yL|e!E-+a6W*M-p;}imb~QS<
z#s=tRJ`i7_gMm2sp>Z^tc8GP2rI%tn4OTw*iJ+Op?<-O2z$tMph=42;TNC4JB6v`#
z1{F8Y1%w#dT9|l%2Okur0*r0(5Li*b%A-NmV3(vv@Vp{D5@V8})T5oGcqRV{Oj<F6
zB`&6M-oFba{GUKng!2v_vHwS&*Z+-p&<+E<7BusYS-E2teD%`yj+FhBY(Mp?V%vT;
zeddbf=mZt@pp0q;ZThU-bXKy}qjKJoa*WE3QOR*G?QToCCuH}8<euLD=z`>E-gTTo
zef`?!*V67A(ye>HF&RNOFQGg$2H?!)=Z_(gKgM}t^uKV7ItjZX`<e(T6$yfU0NJ>S
zOK6@Nix;>SkX8u2jKg_{%iOT4)#!fVtQ(5D^MPDkj5a>?01XtOjf5%ZDgrHwPziqy
zT4pIDHw3;~bZEI%mzK)?f-Ik*R|6GoJO(x^y@NY9_zC31hhy4Va(#e=Z)CFL2e;Ug
z&3{#fVk(Ad)pR{`Z*Gp6oWI1}oSmMU{&@Dzw4N~0_DwHt&@8tUSPP4E4-alU;LgZq
z(SR)+OqcX>EXL~TmC$bleSc`x5KD)m^!*{9zbxBw68y8qvpF1+&aHNwUZ0!0POHo_
z3pBs^vyWAi>NtIq=axc`fpr8|kfVV8KI5w#-pH8c!H_>I3be2mkH>hCjEEew?1%)g
z{{xQ+p?7Z}?5A&naa!PLo+I#q=muaF);NLQh^@g>zy=*#1lF?7`8V%e*;oWaF=#JP
z4wLLhV>e6Va)n{BL@@3{_7Rx<fl=j+Af7ku@yw$G%)mdhdF2v$fxzhm17Jjlwa@yC
z0&fI1NQXq6X*8Ba3f&;9Tv5kE1|azF`bvo&qd0JRGzVhEO~%SBhGW5pg!8H9>?-vY
z15En3qQDx-iYiT+g%iNK4O1+rCVY|q`*64wZ|30yT9QGd2VWHYVogC1U#kE@)v5j=
zq>3p@KC&q~+CP$4!dDEG@C49&N*z>CAb@H<965K6eS1yH-Xq(4B>P~xZ!Fa}Blpdq
zRnJFi`nT=<X;(wab!OXjX3t&yh5Z-y1EaC(g5ftNv!~+FL3wJ_GDFqGp~>W_03JJf
z_K9QHJq#wtQrFMzpWD-p`-dhY=uuXxe<<mAZPS@5URYF5m?oSyI;tynq7CbOrg<9c
zh_F$OsXx`CDx99iX5D{fq*aG4&$pOT8zAflu-O*%*iLFr$b~CEAJlVQ<c);uCM`#E
z-J%@VD4L-y39BVqD)*Z(e3|8gNAPm+tS!cQiN{qD&bws+PMzhwxt=nzQhCB$)PKtw
ztrXoFba4zQKyF!~eGz{R{-%iAMM5!eE!9^TU#58@Yl?!0FT6%0LK0XDU~SNHx!**V
zgF`)@qk^DWa1z$9tY2o<c@>XZLD(vd{){bw9$U4F)iy1a`vs4O%wF(g-`yWuidH1P
z^SkH#S><=vvvz{T$U0zTo!U75@2`c}t@TyZ=fu3)tJUXz6Xvh7A4B~vP{vl-mR&?8
zhJ-}fDylIBA$PW+eyE@lvbuV6F<+9eoSLsg(LHq}9IT71pkbp7PVC8dd*G)M#>WN$
zJ_&>U#K+u%pq-zsa`B8-m2f0VwYU2%r+7A7UY@XJ%UubVu7xv^{U{7QYPQ@7H%KX&
zvqVwRiiAxE?MT=XrNr|l!(lRQOsn`nUl2ZX!OV)3C)^LAHQz*f%AR=foYs7GQcLB2
zSs0f#16Yybc*)4NJPA+2@$h$n39CL(n8OpVuJpwmPAx^oS)@GSc?j#y`v9Mb$x<I{
zL;Rb-y>RZ3vcsxX95Z@Pq9Ql?jk1k0Uq#?2u*g}FXgVsO<|M8JL^=*`mZ}aFThd7m
zngAw%w#C6~HIL9ykX^D!K&T6ZQSm~HEV=D7G7?BoODJvh(E<2cDS}`B1i~O-2_W(z
zY*swUq9VdYR*?heitOl!=t2<YwbYF|BxKQmst3>F&{N)!bHmF{wU2(p0SZ<(^lV)g
z8_X;MRv(0k&}6b7CWk6!Tn@!Pb?@%n<efVVe8u+WQ#ciGE<nWp0wNH9%5rj+;y{BQ
zcukNm8hB(2iiJhz**AFoykRk-U|Z*vvKhd5Wp;jM`t}<dihTwmJ;9fBR$(O&2iF8E
zX(;gj6l!^-rp@3TP83mU%x(vrzYU$RJZOU_t}FUI$u-C>8p@aFCNifWTk79@cr!pg
zw<xSZ^`O%~ywur=2S|@xJxEy;G<?yf8=<Zo&M&yWknL7C$JfTAw8;M%Mkw=;kIht(
z)&&YaoI&`8E~ER~RT-D83jfa#7zm3}O3;lz5)LS4F1ij59rr<>U?%V0ou0otdt;ut
zI5~A~dj1mcL|8YdFpPeSlyWS|eewdGE~}m=%;JW~2|Q|5iWgo%SZ+N89?oD-2rP!e
zA#sC8F@#5{NAd8S5DTxvFvvH5APy^z01whN>IXm<Jla&0R_uzb6@%Z`K{vS1>dQ%H
zitm7s$?8E=r;g`jR5^UXm9=O_(npgfkJ5sAZqTZsO7GQb*SQG-F|i!$tK{*bP~~^B
z4`fF=u<Tz$q&VR?>sDTI;d;Y2jpRcgT=xce42r@wsbm1(5iLhi(Ng_)s^R2C!B(TK
z>X7<Kq?G2C%D^bDg0U$s)U%k}w3G&dM?KsO=yLjnRLXRKE&`|{NoW2D6pz*yIps_|
zC<^GPih5~5&^_{u9V1X5smh!MVi&#!>IGG%KI<%zYPcjfT#{_H-`HwXwjtRz^zy{6
z?VR3SJ*VoV>pN5Rr{wxmNf*&=(Dwdp9TgmOxEPR|20owvrs>qnaB6g3hJQ^rlJf^{
z$^p;gE!*~%z2>%5^BKAM%&Q;E%~z8*{$l9Di}qhGN{;Tm&Qs}zMuKHrZW@1eey8bL
zy1pw_e^RbLxl=!yuI@N2wRAauTSmE>KaYKDr^?$8oYaYaX#0(u2G<kWed=X!*A1U3
z(J8NA_WF0cgD<DHy{EtN)~37zvUfo8p5CizNYxC>HN!8%+cg)#vNbRyxlinMj((rc
z53ut?Cso^-su`7QM$<4oN2l!QOxJZDT1>TNpF5JJPliCTYv@Q<Hl`}i$(83`{k5IS
zYX!L)&?blEnxVrIb3@s0ZIr$K^MQj>s<aj~O-IAi0IV3iuVt0UgEp#VV7vL=%f8g`
z9eMc9&hWkDjlEv~^WT#$+~4W_7?%-zd>F|;yHj^Hc{SbK^VLad@Y=5yc1}Eyn;#@^
zr2Eb$=UzK}uq7?y|MF7W-6FMqB%Qw}x88$Sy$R>Hl(EH`ya5Y~JJu%K+a!DM^Ki;P
zE&Hc`<=XatobEb>nr(Z=#s|-Oo;kz5y9K5IW<DncTUIwH*9}S|vvS>R(z)+yde*Y-
z(p;JBbx)aXd*8kTb=>m0lw&}43`h?6ObztoVc9kOGP>=$v_E_SI~mw_S3dd4bC+Cm
zT6T}U0&k+LXhLiTrMSEjEsUT=ds;yw_O$(`)B@d?Q|{@^>mO=7{8t#!809qIe}q|#
z(5#nzL<G(EmQl4Zg6fM&wFv@#fbLs;3BHF1ugr({N6>#pGtcL%yvQJl$~y-mI?B*^
zgvtv-of;BG)}RS(_$Z(KoD>!6f&dDwc@-~{g0PBrSV72{5BWwg)0^MhBxwE;W`lvK
z1Vwsd$>$A%tN2)0D-na6P)U35K1*_aZrC<#zS7NGS#eDLA|DJ_@iAh*BR2owng9|e
z-3EmW3pS^4pbafsAafD}7w+C2b@#G(z>hM@a^U(Ki$7FM&`>GMwcZ@M2PQMHq^WqZ
zuZQdX<i;wF*FVhvV^|}_wzvci3gXb{W{-+N%jdPHa|7}Z&--kujSCf8{t-sxw)`dH
zD}!5|7r~2JT*(>D;JG(<y<#iH3c|$t$S`SG{ClV32l&V<Mn<Cg+khIbm@=vgII;d)
za3I`@x~Fx|=5{<oN$X#@s*>f&b)a9JRSivPc&Vi9e%bDSzP1Y=MRkKi->#!0!*ZnB
zYrBrQv<66SpO=lPp;>uo_E!trLm#KR`}5&1zIIF<Sg7F#$MJ?e7&woSRKOcNmP^FJ
z0C)o?Ro;MriVdC{i5XF`>)v;j7BvGjU;G<X#Z~Zyz2eOGc~$Dsm7}=Rol>dQ>3q4A
z=I{3XP+Yms@YDgjvk&&S!HEWrt<wD6AC@YfcOIG)^$|tK+Z4}rwA||1ol-pmPRp?<
zsmKStacO$)4l{LQerEPEbA9rrZvg((2mJjI9vPxy20~mR0wg%SY{X%RJTg3`6pi+N
z6tVe#gL(3|G5o3nG>;5VsV5MsT&Mln3qQ#Us+jB~0NP&|$;j4Kq;O3Pg#|x$&5$Hd
z#8@-{D%Cmw_(K{&4T1>&YM<*v{;ZHnT*#LKK~9y=QSw%0e|5mBpiTZNhHAhi0<s68
z+A#8AbP1zt7~RDPy#R>^8gYanJ`ChVnY@{)Y74pH$WeZaz-tgGCeUpaGb(?Ii-AA$
z0qQk*rNqzUX@tsNkc#aiSSR>P9Orl=PysS=;lD$CU@{mC|HDcd>c6JEUsLpdp=!UT
z+P|hweodYDOKR|I>g-=q_hjncuTAc+&0W7P^*(v9Q`-Eg^|w}&q3v4=qTf2qhAW0|
zDU1)D9z&T_+kZ&G?_rO{FeIJ0a7e-Lp}WrDl$wSQDfm4c`?0|=X^<KQ4=Iv5ykN2#
z2Bhwf4k`FOtgsq-CHfR*dJii+hFJqagNehQ5<{QVH+e|G@1YmFYaPvW=Y<}cM-D0Y
zJ@mIh-!*-Q6#O1uHQX^mUDw$|3KNH6bEV;ufs6(d2YsFiW7_PL+`R`TNbZ|GQf0@1
z1(LwUEL~Ff*g*+qY?P%MkRFs`ri`*wN!7gvcFZ^^ORLm&@t_<tPRdd*HJm(fVa82a
zI;F0w2Oi8+5Cr`Pm6-8TmKv#c;-CsM)fuoF%+ykrTB&aEpbj(j1gz(v0W*!H#&^(!
vnP$q;BsKdFS};SC%*lgR$Vimu$;qdtr+1~c)8H&E)sD%PXK;~><Usr%X>bb`

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/dbrx.cpython-312.pyc b/model_executor/models/__pycache__/dbrx.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0060ef446dd242a1fe49b5f6ffad268c402863bb
GIT binary patch
literal 21474
zcmdUX32+?OnO^tYCk8hL#5K4G4haGv0Fe|0Qldms2TAC@V98TMbb}mn1^|187d(*Z
zEjb2kIs$9sCFu1=P&SFcl`4Y0l^Av^v9>BHADdLr0<|;lK($OPC+nnA1)5OgY^suc
z|9jm%1E@jDo6WIJ;`Mv4-+lb=|G)o#^QXa}Pr#FOd?WGaj|jpqC}2D;-E-$*n;={h
zBta6BLP{JGMe^H{wv>Iy&iwYIW5|Ixd(xS54Y^pHBk4|ghCIygOnOtkAs_R*lKxa+
zD3A&c1zFggEJ=liLaEZB(p1?{8H@8I%TpCY70mBVR;H?ks#4WM)v21H8W!hEhEuge
zwao8NZb{V*)iHk{S)XbcYGD3gvN6>()Rc-0MOe5b*_>(_YDu*YwX$$1*_LV_YKOm6
zDobunbqsYde|d6SDmoNRZ6Dg6+A*{v)j8Ce+BvjS6l}tyf>iOkAXUn))2|qVRCvE*
z=l-E?ma+;dtK|wawui;mAU1rD{JU7nTBO`^kCeSEWgSx1-y>xoOWA;wjrT~|&r&ua
zW#k?y?_(*Ok+Q`)rQGq3Lm!jfm+aBjUr`_`YM#e4vJyX$l;L+J(#gcIJP5Dv&<W+@
zBV(f@iIWI<4`wp*XeKc>8ntQuN8-b$Wd2R_y^u_%^mKMDa8l01#>ZnPm9cZ<S|f#!
zFFmHjQe%>wjE%>Ycrpo(5+6OIwQc_W!kChjV(G*LHOq74Tw0cnj~$NMwX&y=zVMV@
z%CW?#99Oi`XXJ4-JD!mxJ*MoLu?y=Hp_I_Ev6G2R`YB~>SWcr!h$?^jTpYcch*QtZ
z&U&a>%GkJ!zLuE99DhuXOIq~{W5e+iM&#kt30aa7qbHHFN|Hz7=aQM&1vzo@R3?@j
zi%YVi)u!T?PRKDuPQ}M#XU@mc!||jX8;z%^V-=5&V(?S4ltAO3V*{1`mB{DC_w2dx
z@i7Grek$tJ$_}2(jJ?Q8P9NhX*Cf(3)Tu-|jTW$>P01)u>qy1V$T2xJp1BlD6jh*4
zMLISTAI^*^moz_1n2cYNm9!S%4INkHk;KJezEZerlAhl|_-i0OvM?k{!jMf8hwNTK
z@=A8uAvt8{=|FKd?w4#6Zb2AvObH{R<a|9i<d$4WS!$8eZ5==2kUXzDhP+e4MRCaY
ztPu6_#re$GIrMhorGpXfizHIxNjZgO%BC|iGNwchJ^ai|k<6)hCZfohbINEsl4Og3
zeU!0`Bl5*@S;_b!c;Ja-#?Hv2T`V}LxrW*L*8<~MaH(`m%3K<khjq%rI)JVT6u$GH
z;CxHGCS+JNIn(y6@J**6yraj6LIxrJ7;#x4W|o!}PkW5-h4*Q8A{4^pLoQ=V1mr4N
z|5Z;xEn`on%<yFe>$H~BCT4At@UHD0z0Ii8Ym{?Ih}s8_U@tmOB;skM1@T(oEbXKi
zA27_2Gkp%jsd-{pfr(5kruZq9J2TGqwB{Qb8PyYOq0|^Q#JN<APeocQqd;aX6Hl5^
zZiy2Rg*vM_*^-SqG)G!ajwsED<E`+<V#CRJIvtCpiPm9GFaPC{?o4XDdpt3|GZR;^
zvv*!Rx99%7XZFb5$;657@k^OgW24>YLBzT_iIOkM!`N#I52m{%(7~?pOG*a{oTwnG
z$d_A}(Y1bjNPiK|Z!QaKKEYcu?N&YEo1QHzH4iM;?4NR63FMnQa?QPJb8oKsVYT_;
zDaTDuW4@;0+G|%|qt7c<?fF3I8^@-P;gt)tsDYMzS#`d)Jzv|f=66;5rX1h&-9Zh4
z7Ce=ZBzZKJ#v+%~nu{;%VekazLo14{$u4-VVYQqlin8I!itp&LuORQFZPK2#JuBQ0
zLHd=QNE>x1lwIkCqXj|DvDHA*h=6LMIl2+0hrYY9)h@&pX`;Mnc=Wi#NRY0Bb6LpO
zHNCm-`o6i;a$P@0Xeu~!HXo{A^3*H4@LjnNPSj6JhNxpKrukwt>E}Q$V_F~<!wO64
zU)-^nG&YP?MXOVDVz!1)X->91**s}3PE3`(^gXDrieWjKjKyw<N;hKD)cuE8`;`d1
z%wZoML+CfJ3%6}Hr)RZ9=<K=e4mo|dO1G>!@m_TaHTBodTs<>)NUh%X34K~^u{j&&
zo`3t5w_aHl;9ZcvpZsp}Q}XhjQTfC8Gaq9s-I+yHF-7$X^iK*%HrdXosz}sxQ`*YE
zI%W5WhtXFT=&MI^%ihzKW?iO7@_@cpn?chfd1bfcqcS8v=xl(|*&yg_Q1jD#9%d9W
zJ;?W2JM!_(=F*P}okFnk=m21A?-Yi213h$ddI*Z8^C4yn;5ltlv_kAADJ`fZQd-eT
z>zXVMsjOWRB~ZLf$f(_<&<@Z*y=)QG7Ie_8f0J5;m^mWYdlm<sW&f>OC7dod+EaK>
zV85ajW`7wqehwtpUra->C%|rKeuG?qk<!Z6F$2U~@rf)^Wa->6@hEBVFKNxM$fILQ
zDxRbiY`(XldgTzDs9)Jiej<iSl$`BwG%t~GR-@8M;SiDcqN*A7=j(?R^*9pUaB&LL
zOr@Bsiq*n5D6I%kaL{nROBn&KELxE!1wM+D>2JXy3S44P;C#3-7mljoXfAxe8oobY
z9?q4ws^zV@@||k=PJDf{<a$ZIu`Sowtu}V&8Xr^}A0(Pv*OU*}!?RMkce!$3zM^)u
zO7PaM34X6{H7wLLfMWZLh<CoZ{q4H9>T=C{)aE_8=10}$M}N})Zw7ukpf<la<@nIk
z$Y_A(WITixWNe|NGl`mCXBLUBX+D;OQNLkx387as5NuQZ3@%s<op2Xei%BPzV(}4x
z4D?L8umCMK+oU@Ks=}YFGwYr}ZCR%zP9Tbh-qA~&^knU)4Qgd%!CSH!$A|Kjtiv*e
z-AwUph7N!BSg{&lG#u9LM63mK!&+;(u}<2}cH4-3k%X_>vL5~(vDcynSr-pU==E3i
z6eIQld>L)nq#rJ`AHJ-ukblI+a-klKvh^6b&75D`r0l{Nz3~6v7-ij(hp&bWBNf@C
zH`XI1>LcYeMz2oTWW2oQc%9v(hQfFa{ofz2(-nLT7rQt%JfB^2#>y*Rb9KTcp)dlM
z5Q_Q+l`sm^Y!`NEE=~x3^*`|_wE47vP8yiNsM*f%`W1_|UFePa6r%o`LyCi?C0Yu0
zo8)%QBacey3yI7rWk1EbLD5ge!G|-V%P6xq1Iar*K9-iFUQU0XL`vl;a-JsV8I}=z
zI+M_Kl0+40K9r?!nH=?zKTVW@k!W%_FBsID&Bfn|+G2XW?h`RY>0g4DF`8YmYq`94
z%AK#;a&749(3CG<Rhz5Yp;qmf@~xCs&77R`sny%(UtBnQ;|q&VsGUcaOCOzbf)@+a
z<or#lziG~K)8C#C)#gGiYN%yy@6Ax>N~Hbm;9J3bWplo&X0|d{+pX4iFSLEX^ShmD
z?Sc0lKMwp!V5#!>9jCpyd?vW+5qcl|;o0}we^$2mC3V-)8Q-^e&Bo_^v&la?xKy|E
zgVL^iSzWHIO)YDi`{K>A{(Nf>Pcqy8L22Yx!}b|p-e3LK*O-Iipr}<=&7AvoeCFtF
zyX~M@&gwfoziWQt#(|~A`+vA=scztd()}2P^7_qN7TG!DyS{5C_}A6CPhCPq{nhB~
z!P&FF+r8=*${I0r&0T*K|6bX`;rTOaWFOUcHF%3xd^NaQCIq&!L-2-ua8MJXCCdG@
z()N+_06BEnDI}({Wvd*3PqU{p3g_i*qobOa5Eq7SC=XIPiJXVXIS8kimw$vJ$$5f4
zd>IaSd9<)^Pku*tzB+u{U*&vBWZXP?h@Fql_p8<D3JZIR+51&5i}ML(m7lPDt35lN
zUAIDIZ)B&lt4{clKiqIFdo{c2rjSRdu3hz#&nHxcKlQ`MMF46Mt$6b>4%It<2T{c$
z00&i=7~nU66%L|EP9S?02crJfC3|!+zzs3L3wGaSDF%40;{mhy!2bIg`yT-NAJE*i
zc>%jk<PSzTjJK0m6aw%fh~5lv>GJuA9vm*fD;?<w-}~uET#+M;c*s&DKCFzT5tU3v
zh}yt6ipa<ap?y>VE9Q)>jH13oI>Mp})ybTa3BVzdGcpcwzmsJgNsOYTOQ;E84>7bX
z9VFNBbD1<NO0SRArDHrBgc`<vu4BH4QL^Lj&VPktEzuaV0?7wf>=w9nlR3-UFIN_r
zFDt~yC=C)h5Tt@EkqM#!>>(+{O5QOJBIGjJyCU=l@{M)AtmF5gP51*FBpsbuL<z?F
zq=U*nIN|Bi(HQ^(792Z{q=H;P2Ms@f$_Pm{a8WLvx6sE39AFm=RbZP{bL+(`gZPxT
zWc^F^)o8N)zfVcW;jCl(0lXA*=l+@{f741`Bv;p~*7X8;m^zlP-$n>b?Z?%Tx$61K
zTy&or-M3u*05SF-*R+7+=g>>8cDq`;Jzrfv^U~}~OBGw!yv{H|F#*1%2^vxQ;H*Pm
zXaw1M`5`<&U&PaRZ+s?gh^JH=9>}1U47)M2ll0x3+d}37nuAp%Sh3?+GX>_@0rtwG
z_N>X&WB1zzl^0L}pl3Sk$7RiNJ|SOV;+-;z56T$(T7(k$#+1a#7)z||#z(D!?MPD&
zWQbLoXgyH}&Mq*3W+G(FtiGwgi!|wH;Q%wLYROe?Q>(UtB?!0Y!rRsG_W9oV%zN1z
z+2!!SRPa`~{!RaN|J?EAaPL$w-`MhI@_KT9|KiT&#>bXCb@@<BF4UohI_7=Lp}r+g
zAD=rJg-3%M&mrRItqvpQBz@>0hn+rzDp{XCXXpz#zl*;#Wn)N^6G&2J(GgUs<4JfI
zA3zk`aQ;vfKYqy9>2mfPKoh(M&;&2<7S%kAKl3qm@n=pM9cc1@7HEPPh!sX>O%bT%
z2B_q*LL+d>SjT&<<40WVl<~1s#?MZfAkDt1U*a&678oWSlMWGcc;FCvwT?6s6U??+
z2^Q4`(hSLWJ^21PNV8}OLJ2XQC=%>qP2R1@xDM0Ma%T_fw}5!8j&l&-Vu;Bqmjx_T
zOtLqr%K{TbE*eFng%;=_QkX5s5RS{!ZZ;BTX+}ymYG!}d#g-OAh7SbL&W<A+jwAa!
zScvqX4JO-@Y2tBrnGJKkjFec;M!61Fu0AU$*K9+k)kuw5w(f;>EQxR%o=m$DfwC+{
z-H>x7=ew>V1xtmID-$(*CNtm!P9wysjCho5HKxu9oSc&T4CKAE?Fr#`=(w;>2ZjXY
zne&Zw=13TIAcgbHE1+kUn|&>+t(w(_Hd>Wal#aD3LpVEofG}9*$U15N7{?x3YK}6}
z6MwPcL9E5>aHJ?kzz=(ns>kpb-gnKr#YktJO7c!%e9=C0XJkmWVGnYA?v^4g9hn;*
z#9Fo2rtc9S*0R57k2DzB!LkJgk4!kbUOao|eAKSA;X{FjPI$Y(c*Vw*vD42%hvrkD
zX;Uu6q(q8zz!zfx2NI+Yhk7rbmbD<%%%k$yMW~!EC1r+9FxY|)H$1m~^q0=AcqTK7
zq5_0KL&tpzn)0-A0bdKXMjJP9h?*M^F(uSOT-QgLd4z{vtU-P%*-#YvP_&V!ypYGJ
zQ1c8Y6XP*-nff#iK>Cyn*aAv!v|T<MOUk3l1ht76Y0W`nqY&P&d5qyuh^}gOz~ttr
z$f*+?yvCLS&RuAu9mOiIQKaiE*J-**yH7Z~n;;vg<P~CLH3u6UcM;gVeqgj9z?Oo!
z1INCJ@G&lF9r#_n?xZyN;D3t5Y1paUl@D%efAh8L&^F%m)C1mrGjKgH@5pT%Q1KsZ
zl;cV;-?A;&(yzAk=UN_ATOOp80Kx&G6U&tg_o?ANmTXHTx203v(wW<`N8PdqQK5W&
zORm04t?y!7^_okl+FDR&zHxl|IMZrI)IfxJTGc?SuHIy<_47*=t!p7q6<F&l-nDW8
zEVro)Wjax=3T0_uUaIJTMzogF1_AZgwNhHDqNeWJ<kd+iOgY!SQdT+h+_l)%*m7BW
zeoG_r)KQ+$TB%UGe>r>rtYS?YA_DnPMK08;hFa%RYN&7F><6K}OP;+;p}nlAooemQ
zg$BSyNLrHjhjRWF)!#Cg`oP}@#;r1(tJtnqY@dHst=P91|DfW*rNDzr6%T@mt8AX@
z&$aGT@qgW?mHMVR(fG8OQd^HM*B@i!mapD&ZS?BsT;}b`w<gu<e$)sxLtU<Bn_9DN
zzW=@bH}<PFds&ltU*{yXW;=yfDjR4N2B!y&!O+Lg7z`%Pv~xkGXtclSWn3f78}uC?
zOJLg;#F}Ceflf@uYh4Cnx2aOu6d;&V**;0QKGx;N=PTQQ0Gpgq;j49OKk;1_rMxQ|
z=K}<9yQNrUefn9R6{y4F1UYG!h!4?ge+45j>6~;;x{=xx$BWu8;*@q7MrLdbkQ!-;
z%xrilW!7z^g`Pz?O$gYAC+jhI1zk<=AT@o|F$jYrdnz%id=nYCpeAZ|kZ_>7Qxx@8
zIIv$y##7@lNN})^$|!%EKD<HBH^{k4&NLhY2_~6^EBx(58}}fniDxzOj3%Df{EQOo
zXbOoHoIJth+BuSmCaTsGC|#WUANZ91hj1<nkY&oNuhm|yo!!4&7M*rY*{7bywt8d#
z^!_D(TRsqa<B91fW)Ho2{QB|P1Ca72Z%j@-aWk+#UtV=B3efSnH@|TG3-fL7b>8S)
zbo?mrgTPY#;h*%*M3>74r`=QH)UK&GHuM``p8oP|cK+!FaXHjG?VxztU5Tp+?7dxc
z@#X4mQ+~2W*nfTheBE;0eHPXTGTM71uu(#!MXL~T=5QsQfm|*my!~Fn;dx3!4nYHH
z@^EOfvnSuXn?aKYMO`o?4@rhC%*tTZ&B723b*R$I!dxz7-Xpevv*A{C-L>S^<f;??
zB3zO}9>EuSqkg*nQ!heXR;2oe@n=4N6J$kp0y1mBL1?HC8b*n_ZNmD4b)Bq8bH?bG
z4fJb+tf(6%7`*o9f$<6u9)J~tAKM6_nR3WIbXAtJl(Fx@TT<KE^S@b+DG4x0PnkrS
zForpV7bw71y!cWkrj;#IP9aVqsCkc(ksyt^<|5mG7&KPw-MdbWzkUMlqQ-9`Lh;#o
zG+CMw%u+gzn(qSbtyDJW1LZTv<~kR*E{5N)TH5pIn%$<e5!gGmv>E35-yV2tV7a=7
zj?<Ou@P@c=`uS!sNgoIFXr&kr%_3Vle+wR*d}JzRZBk{Pet`D`OMne)rEqHDbcC!+
z94XTCQmxL!;!?5FM#xOd2Kuj<Z3c(`_fZO;u73bu)XBL`Glk}XCNLqvfJzfDT0(G*
zn@osK!ePZNq+dqSjD%M<PkD%mEW+KuaXdc#I58SqI#!)Ru=<W*5BjD=P@dZ6xn0)-
zV7MwGpUD=gpFOn{+PdW73L=H5uJU)uIS8j%uQNxH<iJo}M}3)Ir$9V|&RtBcgLg6M
zq+k){q#!4p<ZCQ(c9>)n{vxtTp#s@Nh_4iC!rwTu>806yI5{?a=C`1fS@iT?l(Jyb
zdKWrq?xu`!#E>Bs$9e2b?VzUstuuE3Xq01cBGkpG4C6h>r~ExMYQoV4`=Y3;h-T5O
zXeArc5*n)6kyIh(!&<4pEEd_wn6#&x7T96r*hqU;8vBb0PSet!r$KO<AXnV<)Isd2
ztef3EH?X*SaohWCi=mqpk3m=9`TX?di>Pu_&Uzi?FikeCsmun7VNjT71!W#pfO7mJ
zyp;FIuUmPVghIK2Si^R<n6oQ0S5TKu5(a3P4k0-s39TKumiyF}`%DVZx*HUr)u(!z
zVCQ*}$UwuJp6i~uhUIWKXhFDr-lK+l;488K-F)}IOD!g+i)uXw&qmhC?|htVb;(n_
z|5><*0I)Ep0L;6^U&J}VUqk{ZR3HHe@yVoitRn#dM9_1m1+81J%av^35uwGk!-Uge
z8o`$gIbj5Et;=;=$LmJ$9vFv~ZkpF;omcY9UI0~KBc#A4Dfrh->XzBp5uX%%-8tlw
zN@TwrkR8?~jo1inqd#a2g0h2rXnP2n<r0SZhakR`X^bEprz;`K2vV?Zt@+6c+kpIO
zWesCE*+cS|3x7l>?p#FZTjJLoUvqxVwa(xkQrYLh{H;*_uagCx$se&gne%lA;w|LD
zue+up*A=K$K{-3^w8HceYk{vCawSSKDPzXOc#)^N&=SKp<(P6#xkg~H`no4;gW{GW
z<vIl=2^FOo3zGb%oC?1Mihep`lw5dQw^nkz>nv)qDXoInX)ok8d<HjtNO<)KI2?PX
z!}tPYTbEHzTD($PK)WHuZ#PmE-kC<jZ-u88m2@BScN=L7ZwWSkMk-Ob@|Z)&>@vPe
z?vtW*Z;c!nHCn^$!I|V4G#4dB(W0!t-<=jX-?A4QXHMIuMY;n5hR=bIc(_)TPB0kR
z6A=OVrDe{M(q{6}KyvbX`SN9MP~{nb5Pw37ADCz(8q7A0c~*4|;82ez(+A+;sa_@m
zNppkK>pS<)y)ggE;=s~VFML?{A|qZC?yeKW2c+4SJ9+!mFQ)$SZ$3VNyGV9<Jk60}
zLV%)M3a2YzVRm^-zYXI(HDYYi0>4jM4$XI-E=MsCl-mK@FW}k$!P1&%G^XD(^5g1)
zg6mNvP-tEltm$5t-Y$|ils}|AT*4U9-24_mT63R@r@;y+nlFJXPbg<}SmsSmQ2KI3
zKAA|<MFnO^OLw7^div0Gj|)*z59gQvn5w23(OkUB4Ku?98X^+}emwNhLwt&u*u?KX
zte>5uG#8&D`G3DGtayUPy^vdFFxQHzWzk$&pIX*8<;vHz<Z8Orn(nDUk@uEvrm#{G
z1>2DeG^hdKeC34m!Dg+J;7re&N4WoxNU={&KlxGMMUL^kxKz=;=62kV)Av4NPQtTo
z-|3ofdv^z}r|4qQ?za!TbzmWLvzoA9KcOQKmVR$^>c~o{dglD>`42-|-`%$`^8GX4
zJ@YSme?0If10U{q>Q-rWt~9EaM(4LKw0&5*2gYAD?Px*Ii()=lzZ7VgJx>_(9lNau
zjr-8k$yS`^O^m_<hhd9-7>jk*5=6G>?@k+>&6yuV7zPV-9};5w5axZu#;5Ja@TcjB
zFl-P*K<#A-H;?psxfLRxn+>02W4plA0Kn13>5H@8<xtC#r-e0skV#ou<vPoGZVHu#
zW`rt8<E9;IORs|)oM;W}*CCW&Oce~WXa#60HCe}3z!pzBN9#aTsf-Ozk)4Ng)SI>I
zN<JJ0M5891MX<zg2Ys3cMxjCjngjv&qimNA#?yd0%p+jZc_j!^ivID(?3sDU7+)|u
z!GawURI$#4dHd*D0(XgmZg^0SUNVf^ot$zqy5v*nsAO8Hk%W@QMNL?aDL+G;LS$C?
z5jp>ioPQ2S3qX5?8)15~8j61(PE^;&(9+?8^q-RNUy(!AXiiRzz%#MEj_qCqb24U_
zFDIQDrt2>0ZzC}?W(|bDaUkdK_`u&m+-+!EKC+YSA=`41el^m+@bYrx!K=Z4SJAN)
z=zu;WU*EIPq}CstI=)g>2ki6c^`m5zbiW$Cf3g2Z2Yzti&#Io7I{fqc=DE&=;Bx(e
z>Eo+*q57!!aj5PaujNA9KL~AKsn|LnT5MSAcyzhqv8BLc8-()$i><kJJG^zfkSH2k
zt$%@CguCV9A>j?%u<a!F>Z^dR37(K_=LN+k*+)gm0pocv9)DmPv0b%YDRba(pR^U$
zfi?6Yx!yI+;mw(K6vRhk_0Uy@L&A*sD%b@k=5Vl`&e;vmS5BcOi+D@xC(|_jqB!YM
zj%FQM58E-`0;HCO#bn0Z2gd53^kv;v@V(Jq$xF(1#g=uCI$$vGWu>~YSA1D7;C-S>
zcmOFn?+)*SG5J!~WwjF|pD|tvR0fitiF3Gez!@txMt+*1tn0j}h*$h5#bhCQ?d0OS
z-)POGD?=NBJ=oJGbA;U6F)}VbGFk6wQ|WG`##-<heWMx;&PGHJM+ZO+HY@j6MW!RJ
ztfSD9tn0FP<u`>|?>!$z{YDv^j;%T8BG%KD?GDVrvslq0{w8e~NJS3d>^XEzd5N4M
zIFOCa2+e+BS09U=aHNvsT}QwpmEs!r*m*f7ozpLzb3<gBWuq)Ah83u}^-Dg{5?Jad
zhBI0z-SUwN%t;zX&T@wFd|HSsCArNLH~4oWf_NQ;CR6!6IGQ~!Ny@9_gJJ)8G7jd4
z%no=PNK}Xh_<^WW?9-I6iknsPI@2-SK_7==TJtjo2^X5FS;mzl9;Z2|mFz+QEdI^Q
z>dKR5P0zrWri}ukXg-`*4UpBp-tF`R1M4}NERKJTXys4gTo!Hzgh=llzpL4I+Xvr_
zA1uX|_W6KX+ke%$*p@G^p83*DYN@pC*G_w|1hROfchxU=8&?Hnf%><mZni&H*Q3_;
zyx+c5*Rx#r*mCvbQ~s5f_CIW&3Vz(WT@5r%9h%w6l)Mo&6j=&&!bGt6#@G9f<;KHH
zrH5yHa3K5Fw#_}EhP!8+E0K<Q=lqv%KJ@%@<b|2wt@hqr`);*;_j3E*#e*NT@4tHd
z{ryW%KchbKEXZ+L<82q5S$Xc&o27mE(uQ1Vvs&6bxBX`6&U|V37FdhP>B*&r?wg?=
zD0OEOYE8$C<KOOhNG<J{@y#C1S2RMMTd_S~Sx=g5*pts4UD&c*Gce;=fquDvq4H+M
zZu%H*g+?eGopI(P?YT&w8tIz}{=Bq-DqcAHe&x;5BR?;#TCET|4~lDHp>jtd>&G=c
z3zZ9BTCRCy#*we6nHgAD+=kxjMN(e^wVd^wmHsTyx_VR;+IFlS6NS<ST-^O{zmAKT
z35F<tweoPcgR^I)8`WlXz!Vu#?x!HLq-5tdJC#X)sL&yV>%7=qvXZBWe^1Us<Q#-k
zj0b;@BFTAzmeV3UK!oxKANjQqcKYTfR_V3a_X)jL`$cE#eARpPH|kdfco*A$)cJ$X
zJLFw06}ozF`zrwfRfMk%Tpd_-!cXu~JyWH*DdZ8FdKV6<jeA$U6!hs9|4jeBN_kfU
zx_WIXyhHWwxD%wf&Rw_^{Mh{S3w?`Drm5^Zr0zVdwjEg&@Z~3cKS}>|@2BKtj3(>K
zFnVD=#!+<V1UmSC8dL(TRQ~@QR{E^~F%D?y(2`#&1tbNy>2rWmB_=3U22d)*K&etN
zm=zi`Lq0O5JQ6>bjwg>DFF;d@DH)p5Khb>RL>b@oPcTLIg319T5rewnvEpE$V6p_G
zn8K(CbOPLAERv#96@TFtvt;twFa?A$M!}S|z>jCejLCl!pJ$w_1+xd_Ga;~|6W(sc
zAD~TJiW;MPvyOFjnCCwLC4Ee+!6}p${%mOmKZHCcs0Ln;Aczgm>6Q%<2qG83BkTd7
z;~Jc}FO!hT0!!kO9Q~e4n(mv7j%6bF84LOm7TiYxryn5zCXymBB;BR?*;P73<G2Ll
zU@j5O4HT0s*bqs04%e`j7w{B?sFm^qa@hA~__PX(M&QSF;>mOJVMQ5J7=cg-3RC_g
zIW%X=56S5y=P$^i(a=iyuQZT-AOD>j<zFHi+LA6xVz#pA76)Nw*4mLUb+~9pn7Gp)
z6VW9B3n)_&vXQ?VvQb^npay?g&forlzkQ{=eyQQP<?`p30?(T_GV0oJ!o7QJvHJan
z<<2LeU8!f<l`ym`VHlOIM?s)#SgB~5bIp5~D|+?I8CL>p0in5P!IkSdsP-IOj<6rw
zXt+hct5L58>T`hsH86k^+Z!|h3WW)Qedx?Op@=p%+uVEMVbBEL8y{;eudzT4xWdM#
zj2(7AMG?hd1ruE-xIVl<db&2i6hEW!Ccd1(6uD578fwagy46tk0^o{$OP+lkuF$-O
zEmvAGCE9h!1W8P+TeKWDM_j<&1BozpCzrtu?1k2!v7Xr2{TD<Os$&9lVLcTK&NUm?
z6Lt^X;`-Ory{#w(x}*|ligMv?YIs{dP&IRDsb%+K5Rei~{(?A{8QZ~6Op?>r%@~mq
z*0lrhY}z$TTQUGEM9}e&C{>uZ|BM*6x4_=B{X>;%F22RmR2ev6&ij@OkEH+y$@;IP
zOmK~Q(Uh+L{&VUw*|MX{9vDUC%C@RyTVef|eJi{0>T=m5fCWQUQ$gNW;^^1)m8xca
z-3L!Gzyxs)CDTJa`Mm3sXf|WEjDAvu)KB^it9AWksV3?-PGm8Ie~Y?Cs4r+kS<77i
za@jW48U1eVp5@SvCC?7lF<dhmjF$aX*~Qz`Y8nOQ7v$v0*_>niC4DC6d(^&L@E9Cp
z73Uc7B90NS)h^NbK!Ia?pujOcfb}`>keJ`O>$cxl#5KZ?)md4~ct|&einvA!Zr~az
zY9rT3abc&k`WBc^x>4$cABA$utyzcat-s@@s1lpAa}&-IUkuI?UcPpy%h5erXm|`4
zH;2ixJKYsOG0d55ZvrTJW^62(=I|M@=9-87pibB5sB(&efue&h&3|&Igj988_RW73
zj$1l2{aqK=5^y6q;`_BymR15XuOv=jgGda)V^`SuuR^u41ngMF4?gi<U+Uu8f-ZI!
z6h8wbE5zz(&38!(lWY7M9JB6bKNH1`yLa3z2m3vvqLY#xpdEL~!G7gR|GhY70;t`s
zeBH91(Q@J{xP5uwUCQSQ6yuU@fgj<=J#jeNPOI#E@c4G^(y!T{%Oo(X3_c)mKnt>r
zu!KJ+liq}+E+|sy_u=q+aB^Cq<3)4wT#OztaDfykOohXE56uO69>2(>L@4?Za?X%*
zo}4*y-X(_#XSD8a2z(9pz^{1*&`e}Lpt!LEiAtsa1DsX6D2ktW1hM@iq5c;_;3J{x
zBcb(|LffAU-JjYVqV2W-=M$eG?pq&xO#DbV@{#b+r#8E2`_u!6O6mHg(DJFxg@6EO
ztvoC?%#@SK>6!rV+U_Hw*fq0lO`!MMGqyIdf9k{=iRr|e0PotM_>_nY4_|xy>f>ty
z`PW8ljbg{_GjG0p{pB?Q-nECtS|qVu^Ir9?3GlA%l_`%NLH@O;>^)-V%n4?4y5$oA
I0X7c*3kHvz2mk;8

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepencoder.cpython-312.pyc b/model_executor/models/__pycache__/deepencoder.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4300e1bcc508637207c1baf995c98a6f557b24a
GIT binary patch
literal 31074
zcmeHwdvIIVdFQ=&KQ0LH{Q^bsA&HPEQY0l=mSx%0%aSZnmMmMgA{zk-P^1Kc<OQe)
z12%HTn}Bg#k#$;9Nm@~Dx~6LHnrWvKrrX^pZFi&2&g>9@yF~6P6VAqMR)6da94eEx
zJF~mL@7xDK=+cUtw$qv2EAimmbI<GEd(L;h@ArM@yZ_nca&R~zrnd&ac%I{aLMQ4W
zD3R5DMvj}|LR^TCaOddP5aEXm=L|f>jS=IJ>70qh`H1<PndP$#S<hLOG~1B14|#{|
z=Nv4>6mbp-=L8lvM_fZi=ZaX|5^)cC&Uske8YvzsIah+XEo6_B4waoN8!A6n&T|It
zIWFXQlM6Y+){CubS98Dbp|5nDt7JI^<a9kIXBEp?gq-fj<g8{nJ;+)7n4C2%X9;qa
zJ|<^vs4Q&0xLfXZei$kb*M%y=8}zRty)InWZ>UBQCA5Sp-!z@84^`=xVD(k!mkZUb
zIjhhw*Y60`qF!Ifi~gX^&^kRrUv=-J-xjJz`G$~B|9Yrlo%F_a(!FbXUAN|Jy*>z`
zCiJ0^y_IIXm5q;iD@~zIZ*u3FLz@w9WTjeA${#M*#@8m6x&^6QA5+)nYrMbp0lnHD
zKQGyi#=~N;HxfqNIuaD)gTV-*o&(2^zVPy3Y;ZVwU^v=8cmZi8C&nW2!6V^ds5>4H
zN8`9gsi($*h>r*9T+3S?3ik(*J#ZyFcwrzOhztiqVetWvR{aLaNwpt}_6;LVD$6x>
zXs9<F3Jpdt#QLaz>S0$Rt6xLpOPKp%?i?TD&KbhSi#9b=?zf*0@nLhwfInl{f;>gJ
zYif+fX~+~Z_uG;j@>||?owJ3kVf)20HAn6@WYSOXH-&6?i_Ro>l|LuE$ocJ(?ZojH
z_D6>ME=jJidM|;{;E-e;ij1&`G1wQEEMho5CPsVuOu1G#iW9Y1{nrS7lb_+@+Qmsz
zf_vM{aqlT9JQv5Ad|b4svD|NhPZ-`a$ma<zptbUtQicSdS4wNaz$J`o%cxCj?;3Z9
z@9|qDb8Kt`@6i?r3`Pgzfq-O)MkUMf!Du)rN~XwQw1b76q6a<ln<Y~$9O)P7rHF0{
zC|R-x0)3HSEEWjFs9_(D>wkZuJw7zjJ~BA6EglpvgyY+;jy>_@?n_UE+arU$?IYLX
z1H;kw%aO=X`w)gwBoMwD?i-5_i}Go#JroX)gymt@HgZiYN5$jC>MLqf`&)<P*wYC9
z_B!`a;Os?{)|9R4LtD-LvWl6b(?@5A=Fg_fb|y_<v8yQ;<|dSsAC^|UgG+DQR#5>b
z@mKql=T4`b6@ToVeio4#F2P--8BlN_RaqtSFCbNW1G#j(A*F`G-xoQt6#4u{k;XQA
zsA3gjcMM_;C2T+tqrUlkq8C4swSQQ=5)?z@9_@)JDJ_(>5y5pX<1W2%ZSvY|*{!OZ
zRddbn`fvN^yMM1WUEQ8`Z(p))7wO^oUG(y!!J#l-z9SI8%NUDLTnGe4$AS_0idaFd
znw~p!{3Xda7>!G&__dL+WI4fdvzH^8@$&ixB+Hp_G&U@X4OGIVjEuf;BoYYR;l)~{
z#^@<L%Wgz;A<6=}t=KsPfBPnvb#T7MTUTyg`PgnZSFcpoWX<@^TDX$(td(LmuBc?H
zamGLGpA2Lv4@x+Se(t1L1#j+{Ex+Zx>CJM8&Tssn^-k+AD9Y}aHMWLA(R-$2wI4w~
zg#y38hmD{`rjRjY>bEdzV+OS`hb&=>9%Uk$rI!wBV+FMVy#lqdGiu{J9=sM7dxpiK
z&X6QT$A$uZ1HouC9EnNB@JLK7MrV5Z^2Zj9C^jBHLZpDk7(X42iK|qZyU2JpRG4=>
zI!^N`$0yUFyqa|=w{FeaDv&Us9j#~AlsVxLiLA3BCXYh<3qcXX6-%G!#}&ym91X`L
zi@aD#=JBvN9Ft7FgTa`%9oPLPc@DKxEtDXSL87Zfr{rPCs7qPiE71rH6^lKG00ic~
z&83l-imI8&bmW^m-`#V2&wM1^^i;ZHFQ|-@sLb){<KHZQxAu1J{P}dlo^;t$M1C@*
z6+~*}K}ZvN4YAQ)?gmT_5F1{P*o63y;eDe@<|jb%6NYiTKs^!^GO0x7m#E38*7V6Q
zH-TZMw`h;!Zq(Msog6p8BcIN|3W3T0R|X3EjYQ}Y{5b9#c~$WMY3fm!m)bzRJSLC1
zN2F15hPa+fSS7GVKOo|W<;*k`4n`&8$nX_qY{W*zxct_4Acwe%vMB?C-hsrANqj7(
z3<jCFGRiexnm-s6+PV`ZVqZi6+A6qi9G*Np)iE1N9!?8QNj~E$nkt@r>BjSu&(HF2
z^(+hZDWQIjpWm@0)Tf2*T86KNXD&`(oGYF?^X@CRU%Bl~SG1*sHe41wRQ7B9?2fsz
zSyxKfG+&$&w#=XT;MF^?{^96i^Ig-zL~7filyC@{-JYa8l>Gcp-~OL}Jok(Lw6M?b
z5Q*@MO%ya!unB==?gs-GmnRTS7;y^)M4rX16p-YTPm<dxkplXQku(94{IS7guAF-@
z%i(8!jQ!j-{hZFSg4tZG5?n-8f{Um;)~T8`1ef|p$LbM`^)&<+<C{or$c%rMkTqn}
zXA+UBH@YC+fn+;E&VElw2wNbmSwcnlbK}p0zheBAgsl*xED)4z5Mu18Nr!1<3}(eA
zUads=D*RRBuLkwihMfq#viKB&VAJ2omWz5U7Xri;*F{?33J!=X7Ay^oSQ^}+rgiev
z>8GPyGs=0`l2VLWu~Bj#9SU9uE3Em;gJ&KPTl#=Fv<I|qJfPL%0Zp}^%Kh*>`+&n6
zICEH}*>i`JY=c7=0<ppIu;dsC#`^~3xNR`X)~1+bXM8bZh0USxNPIxD)50|XsR9>?
zOBP9zknF=_aixfD^wQ-3(PGIF#ab7L(5ffd!AL7n=U6Np2=>MTBcR&sL<BQPC&fx6
zKop&^r;_u^U^Fy*MebMWg~)JkFcJvH<564=fq{&*DeES!p6Wq-D&7C;|G;e)ted5U
z>m~>x7of+%j=0Jja9EoR{rF>{F=2Y2e~*X;4&+y2kV<F;(>T9`AnuA2gToFzz96pk
z^J0mbFZUag$ufGw$TR(#)K*n;o8MkuTRMX}PYM8umXA1%bao`nYK;fE*PaEbEshhb
z#*Tz3VM$mM_JkwhOt=z7iQ<IkGA|ku?kFEJX?>%`2z~4~yl;L_nVu6RAnwFE791Ce
z^DH<LC29|N?koFET;AOfr7k$~uKEft;S@c#fsk0<x2n%8t`Z$CVN=_AOdU4VA=hGm
zPkE<$wWuxNO=$1%lWQgtg_;G{L)UwXOos9#1F+*U<(;7--SXO7zh>~egJuj%2Ur|-
zbc+{ad$co3Qs=s_1^m2!kMC%7WGs$UkPsiyfVMTcbM!#X{{m46ot!GQQ1kVSL6{bO
z!~MR&ycSeucWo;geNhX`jcDSy4@*6y3xE}C%Q0f4mN`h2iP{4RT$@cJR%+H<-#|oU
zRK&-q8T#rA2XTL>!`Dloz}lKLTIXwFt1F)0X(D~pEUx(m21B86l)CGS5Bt{ie{Dr7
zdGxjP4i87@HT3(=h-2YaUoaH%1$`07;ZcHkd_+X4veB`yc&*iUDU9H9Ffvx~qH<K$
z*Ak7k$pRYcB}pR~QJ@|lBg1QZqLJja<+}UggO?dTq*o}9ct3gvxab3AAC8R0!#+^-
zK|+~=k=)~mt?dC-rqKLHE2GDOi|EPabt<EW6CXg6+N&H2j;w9rkrn09c4)D|+ecsN
zX@zy$1k@%AAO$y&w>qgK>?~Wb*fjBhi}cA^^7_aIS3x~G3!AScG8mJmDO>1RWpY{H
zSPZC}PcD?JId|uNljOV<79m^83#TO(7YBjfodB&7dl1O{G~)vN4#|j7E51P2PEqh8
z1!pLDiGs5fyh6dN2qXua)U4jaeuH?PE)bI~9zp;-gAxdvWXPa=<tUN{0lstMla$9K
z7kUkG@v{`L;s@wbd7kL^JQ5@aqX&lwos*n0Nn&$LvSWA!Sd__#VkcF^m|f!8C5Jo>
zj^hzZ7Wt`3W-%DO5SGmQ8RTaPjsR^6Nsbr8m|(y}gAvIBMD%iJi1EUbDH;YcXpV;C
zflm3S%U>o-mee)zI0f1h6;IM>?jfG0(}E}YGNrA3oFV}r5<e)JStn&lm8d$S;cJ6@
z$+fD0^V6i)XHYiwIWT#UULPLg^YF1ul@C&>>!aF@nd+vwb4yj*Gi4j*980BJGv#%e
ziu#9kv)7R{eQ2x77IE!e$XoP7XT?W#^|#L7Jb&L)KI5ErX3EN^uFmaARc@QVy0|CR
ze(3JCRimM}WYuWeP?S9Ql^!5+mDMvt(?jnJGugPfVruNSyvgqSW!0Iox=c+I{jYAw
zpc9CAH)k5VGFw}hc08Bb`rOUu@14qco97)VZ|B01yN=Y3V@tKqKP-2a7bOp6t2kFN
ziA&4EhLo^jcI>Z&joDhRWW&P^TzTcpiRlyfg`yirCy!=4)%4$6mnpBoExC%&C0Es~
zJuNgolB24cGC3{CRHSBFt@o7UF?_}Tu$hC%|LXLsv$44Y3#S%G?=>u)KKo($E4b*m
zk2Y~BBe<u^<~rt2E%JBG4~>QjlziL4q#((v^0>D6g*clpYrq|1G#QiHiI>IXe<Tzh
z6JQ8+Wql1;oG^j)F<g2ABP)))8Y`NsiAh*s+f=q?!kjQ))Y#lyzPJX<=*e0t3pHWR
zV^xZBrPWx%EVInAJomm$Wu)|41W=88r(?pBu&mQ}g5osRoASK~=9mDrJQ~Jm4<jy;
zwRf;@41Z@1-!TEZCeg+Ogfk2Ygw1ghOk5!J7a-ycgF=cizfCfS2;3CM&=ZiZusDSE
zOELi6B!U9ymBi_;PKiG(Il(%G#gSnwOJToNrUoO(B#u&Wjk4QfVxLTQUBi(O2{tmF
zl3da7mE38JUV$>fWr)`a%v=?W#%l{Fc;3a|LCM(H5df9&RL;1jT}kswY0b>u>AiFO
zJI^F-E6&oXt3PnoXS_|fPTo8@-#tIN(6DeS?R_G7BIEThds|c9*7slf;I%uirM*uj
zPu%y`-8ymeM8*R;uwl-&RPN7|Z^+ba$ZTlB?5HdHg}}LsCwr&L-x|!iI9Ck_MBSEU
zZ%4}8LG>>3iydk2)2O@Dw<P$`m1NI4s27bfHtJuIN4-A8o*UhSD`DX%Jl<#{u}yEp
z=;z1G&>8U<SIYQP5jF*L(#5<WCPB!VFhIdVsuy+S@?Q~5glK6ZR<5sTRTBntsfF`V
ztBJ5S5?u?9yjcRp(nU>x%w>a+sP+bPJBOFC^*uK?{C2Syg~UDzzCZyDcri@DB?{>7
z#RvsM2>h0uDnc^$MlMNCS`h;f^&vM%LLaS_YtFiqvlt0D^3ayS)&`u9R~C+F1!Ma|
zT#U^iAdJnkEO=9bclK0Ts0Zlfbl=!Fxo^q2G2<zoI=EccoGNPujQ0BN*B4HG`{i%F
zyx9FmucphMNqL@0cCVCH&OG(ir;-PL=qa7*e#bJ|oi%c0^-v;I*3Jx056<!L+Hc$E
z8|F_f@CzMj-_CT!uB0=Ai{sPdb6eAuZAn2rYfV?SCxsPv?UJpQjbwjGA<{-du4LCR
zLvbU{8T=+bOIJ+9-HV$kkrXu0m5hx<!iAU|dkge*^ntnkbcKR__=`P<mrS}63s;Sm
z)SJQTRqf4`S7xefGqoEij`U3}??!G%G8;F)d-nF(jMta(He?z%Woo^d_KuI6UgOP<
z73fsV6hTGhRaq;G+PKn+ter(2Tv=t-$)W=1Db2cAw1`sOEb8IPs<Xu`T0*I%ELz5u
zR%Xjtw1O+Io-MgmeY1M{WVVteRdHoivxZytoA&8vvehi9hO4N_*0QLVqIE2~f%E#Z
z^(^Y+Dyp*$EZWFzXqxMqH_q+88OXA`$TpMyXCu4%YlaeY?cC0H_uk%{<q%!$TBV<C
zi(vMuI3=PgPKl^Yo#@HZWYCUECAMn8qh5<so`YHl${v&6+K5yF*$NJznnqd$VZvYq
z25G~e9oV5GY=`-Y17&Cg6&!@l0LlEMt1gr;!XL~{fN=_8)U9BUmT}OyP%&DpU`S*M
zkVqG>&!USua0;+d-E^RgWouBza`6H>HGcLCxaSzA><~nIMGUzz2(cUL<dI=9PIB-g
zqE0YMB3x`R1ht}XL>wLoUSNWygNTD%iFgFHD}ZE=_&QGVnCJrjxqx*JP-Y^BefhN4
zjs&*CtRPYV{y7W5KhSb>j+O(EF`y7T@_<0VT;Q>+30uM*;xAz~0|;|Ojey7OfW8cQ
zaE=BGK2op7m*u#p1RvL^JytU#X+~5!p0GgcLwA7#y`oi<9cVLOVP^81gM-M%o+mxi
zM?oI~Bow?ShkeMnj6Nds{~?oq3drRDRg{C!t--htB6ctm^KEY>ye6s*R~oW(5N@<S
znn5{opo6c4t)w)jTag_1`v9`^KqIUnnxHs@KmmGUm`PtS(l<sh5+D;oi&RYMkzV8h
zRvO+@0C&oWiCHF5j5_6L5|Ja|A0!jyEM<D2q9bu$F_<8%u0wL44o6-Xj&-ZBm1F{f
z6$QqCtDUle1k>Xg0W31m#V^RL*rz9t%=&^BCwhp=k&h!3F)&0!5B?)^#)u6h^k8=$
zc<{sW`Z?n}0VevEH9_nJU_h`zRa0g|duHSIh3+40+&MkI`24-vrKetc=(5T(^v5M!
zg-<J3TAQh<`(|vuYoYqiGwIDw-K~bmTt>pS4F(?G%}LW=*{aqN9Eg2qWIchUnZ#u%
z!~cQ81Bm!Rypboso@)dfwJS%6Sw*gMjVZAwOcTa6%Y&|nqKXvfv7}7!5W2aGv@{hQ
zxy6U6(6!|!mrdzyO<Y^#nCPRE^YiA<8$WOAH)w)BEnK`J(vY~MBa9$bTZD3L=6a<r
zNNOz*E=)bLTtRmu19~>`ZHhB^&>R~G!cNGeAfwDik*1<}16iaJC3!5GyD&{<rx2_W
zIBc;2a22o*llUVNe^#;pQ49=R(HAXT@+ejWidEDV`v3t1iqf*Ajr8otCXY>xzI7tW
zuQ=Vy&f1i-b~Z=?a%tJj6Vp%3c1-V?9VPptxzU^B$x+}{RW0+y^9Pq(_oiC+rmLQw
zJeurIUS2^>fS9I&ZyhhJ>At6Nu468=ylGcz)2>C!-Qv65cP(kpbC64fvZ>KY6o3W6
zlxfB`ZG(MQ&CQy*?yuLSJ)2X)X4I9_?iUIgk~I(r4fh2CGR~Q#r?pnr5GN^36E(yy
z(`h*cehRiwu)d5z+#O@_zK2NcLj+9u&zp-N<$LROWC~TF*w*oJWvhAfip!HV;}_xt
zgaIqXY$PGrDdr%lz)3M7Unp=<3Pg&WOyH&z56J<=6e}Sypp;@|Bn6aH3}QviY}0IP
zwq^R{TqsqxB}>f%7=$2DO|kR5Cuf*|sLJpoDpM7@*FOAdhdTCGzlx+nhTqPq|3WTe
z{b5-OLj~BWTJUGZpAGh^NK@Ev17pAKAwz!=W4|3>zpY^PZMvFXhyr@)V7~>h-wvka
zcVe~`iNB7njX%w-dAE_O%BQUxG7Am18*I3`s%dJMe5Ff1W397l$xJj+SoNSdqqY*L
zZ2=Q)D`cWUW%3wjRXaRkO;|(xI9OL)rMlRWXDy~^jMXdji?T2XVJ1SxH4Lz#G3B_&
zmsja7TGj3d?0Y^F&0X~5w<^cQs|m|>>oG25eowjh1wOAeP1Bnz8K*hM4n0vW1gJ7(
zC4r9aCuAeDt%OzWok~~HFHLm(m0Pp@60K=#z%|n~liwcvQ@mh}6Z&TrA9Cs{;!7S;
zi~h=bQHABs8I%0us{a0kaHK@iaIAb+*1z#gnbtGD|0q+v6aMWR8jHn!z0jeG!<V52
z4EYB86%FDeM1yp-WPuG{xs9#uxuqVINMmFf{|ifUu-0LDSt8^_GU6plCNy(V)^Zi-
z<m~DjffbP&y#i3O24(Xke;ooP*@*Cw8Ir6ZBi2J<X4lwrR-InUSZjQ(9iu$<Ur~zq
z+U7jIHdEaQ_Ol44nzQ~?X%m=*^19jh^y|dvepFgM^W^lCvoFpy&GWZ6FW5dTeUf-p
z)vUa4t}9&zru8fKmD){AaR$5+%*79!wVBeorBZ*EGq{Q}o-<I9xr%W9(8g`>kv8r9
zjUQ~ivvnc3xaIDt?`%u$dhT9BYS;7kUP*6xIbC;_^l0~GwcFz|zTE>nUQpmHLV4Dh
zn9^fnRQz{Af!0$ood*v*VVE$2t0f*)qtqy?964@K7jQSgNYun=9PyYMrB+Lmjg+PY
zq8=3-0Le@+bH%Ev=2}-7MEtC73-XGg^g`o*^&t72k?eWg>4bH{HenB08ISIm06e4z
z<cVAIfEp|E=&T+{)mb6v$-st;h3egDZCNjB>qqX9tapdnGuG}7>#OZotO0=5uUG@%
zD7_~(#fy~*$ET{>aZv?da}R^oVoY2*P@CR$O@X-1bxlp9KK%(;w0)|6Id$93^-KSH
zu3!4sAMKZuZ0$(O`c%F96`u;8h2B%Os85~dl_pIJaoV85j*CRH3l2SV*NgQ9nQ$rt
zsR;q9VMY3$;G<jrG3!==Q!*a^R8JH0^f9!GDWmgg)%p|>HEH*US<;~MB(zbWn7Kox
zeF)he{2v?ztM3D<%WvqRO@MYnivmNz*d>3l_zu#=-$5W*fqRkcErU}ulqAbov=`<`
zY&DiDV3HFEh5Lqw0Ca^zs^OJ5M>X80?54|u;VZIIkV%eA#pUQ9i^3v|?6@Q^Tk%oL
za6EuzJ~RfSUUWvbqZ4nT4!<i;X~^#vXQ=X7s+<qV-Q-6l{*uIBhB*$*lLq9UE6Pog
z$y<zARCRS{zxhhU!WCYT`CDm$9|kA_nZLYZ=Ir#@Nk@`Tb|iyS#SlzkI&x(4$keH~
zU_K&S=|fl_y}c9Kz%w7be&_YY(`n(^W#LFlIC8J}UiZDxrPD7iz4UTgI13%3U4TGa
zS~0VAdh2YEnejvam}=;P;=A};FD>p*mprpvayV6T`0i-B<mjYTZg-`!VNyt%lVciF
zaKE;L)R;SF_D%1b+wtzc+xr%}7e*I$Ep{)CF75)8;4K17aA;~LnsXJ&n+>KyGtuej
zTyVbOc6c70q+JE-Mubm!O-4S_U{1=aXO2xD%k@Rx(h~f=rx!MUd&{@BES~zKZFkGR
zU-P}1d)<Fthkh~p8z>8F{z1iR>gURD)-6}Hrm9*$xy_B=-}1dJ_fGx!wp8ayG+SMi
zJo?bW6;}{uvg~O}d773z&!#-jQY{@*!MP{#a*Dh8RnAacG}#UA>d~wWhZ#+K0N>Cs
zD155L^ZV06`;T2^lV_(+&GNGy^n%l_ru>xNw5uU&<?IeX7#K%6{3nOmm>-aa=FH(U
zJwR$3X~;KG&`iPCC?GgjhG{+>I76~O0{}=N86%_&;LHzA&jDAdsU>Je*6sp{aW|M>
z;TaS|5e183QH<Tnter(2gs(VRR3L!G#iB)z;3}*#pfLbeidmM!{MH<@f~bnDASxp(
ztfRz$G89k-6!IZTjTQYYZUn3-cM*9Dk2S0)G-3cR!A>&4nZ>{u@(|?<Q>_rR8KfIC
z6Xd|aU2j}tWc5Ja1l$qOKgyr5^jlQ1d;*(i6BeSKr17KQ3Ht;94?XJ<uxd8+1$T*F
z*|nHi)d!+3UC5XAbTOuvSYCx))?-yw7(%b@kd>eknDDDhj05Zg*tvdeSpaBc3%-QM
z%*6T^Xp=b8g+Ny_?28UZw+&woixF5ql0rnrV`DOgq!?|Id>9RfAt}lt`dU=rDiknm
zzbEu9vK}!$d<hA16`$GP>O0cvJKO3z@LEp5S5RLjjVj7WIZ08ku%4b~yR7qU)|I~P
z(K;FIhwYV5LypxJeOr8_v{bUUD%qI{R>4VrpIVNLpr0eS3%YGc#RF{byN`6%R|Z3X
z)Oy2MTp%{9PmuL8ClKchYsBBjKzRUOi4(tx05~>Vl_wC#&a_}i`~$kgR%8dPX5xbv
z#)ijYeka@ID^HkzLpkym%L9^`0p9Y@70Ga9L^7Nmk*vyH#z-5Gw@AuMB%zoh1?Pxd
ztRQlo%hqrur8AY&m2Vuo-hF*E*^oT70(;1g+0Wg4Cgs{Pe<>wAdHqmEC&?-#N561w
z>d<WWZyddkMd#4up{a(c;B4`1_v{#!r1GWmc5R<q`Q)phpNDSRlZNa2S8VnhmPt!;
zbgFUInJQ_T`^-Y)qBGTb;O=Lzu%>Niu6I)w`=lKe=IE}iY1!76vbCjc+m~%SQ?{K8
zy^CA#es1Z^OKIE7p!H?}bWJFoIz3x5b!5ruT{0<>?|13GZz7Nk16S5;(<i!2lwkF+
zOm_@S{321;$YK_VQM$A!#1ohXDqv>9r83WHw$mS@2^xh#M&-a9B>F@&0d@rnZNPk2
z=lKL|2J~1)&;)rG93VqAuim`ZXu^7J!;ykU6YS`Vg{UFuA}AxHi}kQ!z$O>$$+RUb
zEVNQcDg7q8<4<apdJpPi4}M*xE@x$9_dInDsbsM!LL9s>NS6OGW?bDDj<I<qhKB$_
zf$S)hMvuNI1N<>m<{via<+>SVP>mwwqyjZBn|fD#EoaDP>k}x1N<(s#ZXmCe_7EPS
zEG<ML{W$`|Y~|Y=`eg9x9$((`1)<74Q-=IMN^)fyMWl#rn=K$z;<s_32UhruNNJ==
z{0@?#t!8uSRVsUvg1Z#_dkX#o1saJG8O5R%KjuJ?BSkVL`c2AA!DXUEe}M=nQ6pDW
z_Qv7s`;&%@)AhzdB1ajU`-W@MH5G&phuPC}jW^HEJ5zOC3!h8X?N8YbT<@j~!laO~
z*^`}9(A#-ud*_}{ZD?PpUA%O!6I`O*a-CQ^yW^K2C&9&%#nX37(l)fcVzno`zi@e~
zWGeU@72v7A97MDMf2XH{Q>VXHoQzDKToyKAS8iHpAyY)*`Vq$KNS0CAyw`F`{)OPh
z_Alz2cYg$80Pi4p4Du1;bF4`Mtb@vWFa(Wl?tV|n3*&Et9`h2Cw^AD~J%MNZP2|zR
z++Y@N(9<`^>1DA)54X`;Hsla5U9`(^u~e-m_lv!dpU__*Zwk@UlgUB;h)gOu5-^;5
z-=d!B-N#y!SKZ#2U^t6sPls-cV8Ybv6Xq!T4%2p8RoS7Z(ZSm?T+}cSH7Cbm&!N(e
zN?K)&VBUKMGD_RzLv}SMz3mChW7-4W`S|u2>1H+ydF^3b>9hw%8B8rk0MoMJ_i-f{
z18l?MVY{g94b9!Rx){;2fn~uFJg+Vb&xPZUDkRtJ1M>y@V17?}26Yn`CehlhUNM*y
zGKxsFh3$c3YY4W%F>0;spjykE$}>}??Tp`qU7}ogG)JZ7iCdVBYR=pBr_5@s0xG-v
zNEh>TtiG1x;CcP)5%EJ;<0AIkfqLgz8L{n4%z@I{$MHxz%Du{%5Q$Pb3NKmUvIkoR
zu@!5KE?h<cjK~rSUmolW_bBS2>@!f`kPs>vhk{pS%72Zre~tnM_9Q4qEUWly6ue6T
zV_7ZO`-Xi};`fmP*FeM33((p88D0K!3W&B#0%~P|QV1Ka<ZTdc<@q6*-a|;Tjbg_I
z-g!*2T~cF|iM@3tAx1Z+ttD(Jk=V8fr802|*S|_jN&o?LIj}3PoErT`*X-rF%jw#-
zRAt*jajLR2UD|d1_=>gYOA~KQOr1(uD`)rqz`A)w-7JwQsh-&~z2zG(-FofjYw41$
zN$dTZ+FRRhZp#RzH%?BT1cQ6!*2K+;`BSO-_JxwPuwz-+n-caep1RB5?MMrUGR1Y7
z;_8Q1Q?26{HqPmqY)roNmOl%7fhvgRwOf{JI#M+q3ylkrbj^X~n&(qB&l9SYt~oX7
zUa4tFx`AtW%5Nkl6SIfspZH+koqZp=_xwr6VrcP+l>5M6^kr;CQx%i$*-|WU&+(Rz
zIfKV?{fJ(n#T|cE{E3CIHdguOT2hr;<}WYucgFwp#k&>vHhr&t>GVtKr(aIBy_~9e
z`TEHfXU*(0%eC#P+V*s9N6Oi`Wa^Y9dorXE=P0<1ppT>+^`Lc!DE8`a;blOmmsx5v
z#B>v5uAyDYt$W0RVzpB!{DeL4iUn-5M*D%#>)KN>eT{QMm~i2GelL{XV5hnn^v$KQ
zzePD4Ej<?|5d4c0cCA0|$K*C3w?oVANx1bycC09P5_C+s6CT|hxvd&h$GZ2ygbpk8
zAEvzeJ~4L)R9ef8x)UA-1z3WAjKzu3(F2MhWZ0KOfqkb{vI~Pmb-V5%+HNV+rG9aE
z$hT*NVC6lZ9lAUizufs*nT`&`<0G*>?d=y}eKOYD23WbhKiC(>wueiY@t{b31MO6x
z9d_Qm?Hx}(v3u99u8we5*Y;5Vll@)0Iy=KVcWm$M-4Wc;@no=bS68sJZ})b&2yNJk
z#M(7z8ScQ?9TX7zJkqR?ct{@wJA&E1XBjDA=(w*12*qe%00P8l;EGJLRf3~Ztbx3W
zRRX2a?X@(2fNEf7rYe(vbue#luUaEX1;6Af!uq7_93~VZxTZpNfm0=u81}?s=c*<X
zu%(e~@zn>yM1&UHFx~YPtWWCAs%zk5Yhufy`~+JrQ9YMfJ*=WfFdI@$<lU?G27TC>
zE!QD~Ess3bHQa&R%kiRKNb{`&m-@EtL+p}renmZJV9SI5P0A8lHUPWO>L4#}Z26*f
zO|pasqp`6e$vzg1;h}`b!_b<nC2G0V3?>XvNg%i)8F8-^0DCz-fWIrU#Pe^diPx!O
zqZk+!Y4ei!M+joH5kY;n+OI4O-Jwhr{5w#GSPBscLoJ-A;*BHM4<t)7?s7SD-(EKL
zA}rjlrS1Of``4bWc#3DN)7CeRG7zUJ<8a>aPx`02r(&}Q=1S9!jn@y{7m9BjpFF-)
z?T3Y}AuV)WKcthCK`vV20DRX2_j%;(#N>(D2G~4w-F$W4IFEf;?Q*XCbbh{zrLQ<W
zQyY_emrRvxt?0v@X@_cPwE8<p`UKNDf!wWyVOFP@(ZSFz?+oU3d1spOUC7oiFe5uV
zjO;AfQ)AT=Q)u6fUOJ5IoG`MpGb1|(SXY-AL?_3a*qCP9)QBsUT~TPnP#%<pd)H5(
zpx8qJ4S=4$d|Awj6t+Ho7LfugI!mDy-D4ba0f++N3tIyCp;6WW*p4Zy1INMthcWm9
zhL<+K*V0NFk$D~gFhvz;Lr&Dl1{uhc0Z*8z{PY|^$gTu(6)5K*Igc-^z&^RcYJ$qC
zKfa28Zf7HkM*~swR?y=&=NUqgid4Kv0n>geJA%(sf>t8WNdPm)r(q#eh<r=@(wwIQ
z&1~tfiC(lKJDDx{^30Y#l6_rfU|Kvl|CzfLOQ&9eDLvWTzipS<HbQ3B7z1g{+6%bC
zG%%>V@W`3^Fy*<ztmWrYwHF$zp?PQ{8CaH34pEGeWCMFF^2SmhQuAF}%3jw>@@`wv
z<^C_a>lWl@8$$CGZor_K_KhLXqiLZ5uuPs34!$!FQp+s(F=CL3Sf^OPI(3**ow_Qz
zFH_M?6qHjyYsceEr-PJ-f)(oVTZk~zX@l7YRbk8aOyibJlV9GZ`LU}EJ1=3s+%;#M
z-8~)1nsE-+9R3mdX1k^arrlX9rP#QVN+Rh~SEuW<c1nQ-bw$=mF@fx>sUBEPLo?^5
zSgR?gmqS$5%ONTc1M1xxvaHdhW?Wf|OF=DVxB#ErzstX`IST-Bg!4UmY~phWfEqqY
zae@%VKSuC?5EHl?DOMb}%3Ix;!!VbcBs&h%a%daOq*^tHj{6hHu#Q0Q*dTV$$AUxR
zF>0`m0xtr|tz8L##SHX{KSin$?>R;@41OD(<=ASHsi?v}S*f`Lejo%(mNT0z@;YTg
zCiN&ngc0d4A_7O{`~-|ZCg6-1@C;t7e1P-<(GQt&fJt1dLl1t_6*vgeqM?Wbgq*zH
zSpjrGWAMKHJ;ex^jHU@n=@E}2mw14JgB1Ke1<xRWN7e24IrD(}4Q=yDy1>?-=P7oI
zf-@A*G#8Ik@FE3gDL6;Ls}!6@07AB(;&dnScxTisNtbNmf2Y)+Q1B52e~m!$U}+c{
ziRZm!#~`_nl5x-?dKKVDRX1`j`I_>QW2B0a$)4iVR{R^Pm;!;`+-DF0UnFo<wM(Y5
zOmX@3W7yn$z2`pm8x_@NN}4jo2utsm)_h~<t=%_wFV}8M)oxqZ@nPw1x>(wPBAK$P
zjQ5F5Sw*I#@nN;A+;aUy*2@XiOD1_=(IZm<ZE~wL^>c2j$px(L`-6*Wa1KUr4i-D0
zJZuHf&qq$I>1GR#kcn*&u<Bp!x4=EM`J5F-*$%1dAe>z4IocLSP$}~@p$|6y7d%L2
z=&6m|Tqkng4%YQ5Vt7v}M_xtXkJDHK4H%$Vt_ENw;8C+$+b0Xl3Ef@N^2Vx=kpM`w
z9rbs@`b*cX^-(K}O-_1XHgt4W#WTu(gLe^itA~0E_=USY%s0TqGy`zx`Bnf?Wc#?a
zJUYO)3WPGlRa!j?jyTOLcId&m+I?7Z4*2wp=>Tp3r0zG!elkHbl((S=Zs%OyF^wa!
zrUeJ?3-k<tg>vsKpUyL)HW?U^1Iz94O0_b*o#kLu?H90=yzfw{9UvXYI?rFJ9iswO
z;!O}G#z7?%KQGQ6Cg<tu-DAj#z2kBGfG(0$=JzldRI)0vo(y`LhJx_{aWAgtL7#s>
zr_?Ode65RwO2)om96Un}<<zF1ECM<e7e4`bc9HCTkywD)LWtKX@8>CCAnO~5NuJBh
zKYyMB7+N}2f{0&PR{R1I$D7xi|803*U^Wxc?8Sry(X?^yiW`y1$ZTi2XhYJNsi>P7
zo*teHrYl<D;-aZ-UR>bko>_Pv@TFnl<kZti`$we}UyaXPo4z(zyWG&3YUo_(NHy$S
z<Wmh#rYrZPOP@;G?rT}9(v@4%rCVVguOg_bhnW>m-Lj`K#WueUEZ7#C(w==kF0Puc
zlzFtdhIDcBkBe)kYu@p~h6<iz9L#gfKb8L(@@><W^0vV{RZFUU|J?&=?-97Ssc*h@
z?dG+4|H5la{sZ@lKdgU#N$_Us+n4Kir0RFTj?Z>?cWU?Z_kyY2Cznp0N!Pzb*Grq0
zgr=M`n;uCR8N3QrAM?Q%!x>xZ7>F->@7AZuSMiD%O~#uoJY*{aQuMunzX?OM7~rNd
z2lDgg@#UB?daxmsXA14s)8K=KYo8ck8)tRaCq1|l{0Zz5v{`A&c`wj&ZVGz?17^Mv
z?m#g%=^$TIxFa3<gH#<#iqtZ>WPYgL8T?jhlqYvR2fC`Q(xj%A!AV(^&8m!RC6PoX
zCO<<A%+ovgk=%Ljkw8!K_r!23$qt=OG)C64l3V`Vfu^wmtaNn*rb05`^mD41X0BAC
zs&`}_iPa})X@j8{BTwp1*T183e^2Ecy*a)~$ZHE;bhS2PF$=QF6hkH!4LBe7txGHv
zdFm(;itivR2!(~KXk0GeoGRZu&!@__Bpn%N<&v{0Q@eTc_)2ZPtN~aM(zQ<~k7p{I
zmMgcWD!0ye!#U1!<?dAF?#1Fooa}>doXT4H;&Npt6fO&U7Dw+krYjF6h5N7*g=@4q
zVLq}{|J2>$56cgr8SEc#UT*A6HFh#5KTRp2Y3|^1^UhTB&a|*=(eYjPcii{*^zLKO
zcr-bn@PI2d5|BJKOSWp6^QZ9w#<USXdG?h#L2VOVptm6Jc3mqnh*`Qo0lvM$#fWW&
zD;<L`=QsvYavX!7ER2Ot@-Olq8{Os_m{{IAe)D*i#dkmbUEw>z-8hH^OIWcN-SAF&
zADWR-?j*IahRam9_pMf7e&*v~;2}$8Y5E)BG4R;|Gq#uVj7OvmrgF>*AJh0KK|eNx
z_VXe8o9=T~@*(r4_HmJO<Wt6(ckWQ?6~4j4AGTAE<ADDd{dBoaci0s+SK~gEKG^hg
z!>^6!P3yTLc#?64;ca`JTue31YO{smkDFrPqD#O<moWUT6tlEUs$M&Y^PJ7}Nc0Vw
z8YVR|AFHw(=~#fw7|E+8wuX!0{=ut~1-5ng_KhUK*+dlXsM(oFTfamH1w@535{*H?
z5fLO}yZR@%T!7EPENtyJTu21WxrYJENt3bQ0E<jCh8;PQjdD50S%pP8T>=V>PY<vJ
z=12X-fx5I7a{EtZWH4d+I`&%qwjsxEVh^p-GRmm~5!!#f{TmQ>Nxo(W$gqx`gC4V|
zk!IaGnaNpuyg{uOzN0PZqxn~93FR%nt?j@00)Gu(0q7AQpowu?n<8sMvUSoM$7jL-
zL{UHkK(di`0w1o4jc+(J5Y8E?DW!bF(a1I50G#fQ*UHFetku^G7s=O#$6(F?<w1-T
z_~SO^VjC0*v|7o45j7||WjDY~9+oMNnOfK6YN?3nqXNulFFyJKCPEC;fEFo5gk;2t
zG_E8kTY5mi;ciJPeq``V#z+`n?O~N+iFld30v{4ZI4rcujH=G<%P2u9^@qWbdGdHZ
z4%xWwOw?dWQtrkibdz97PaZ6}QsKpRNO%dYSuWd@D%%7$v!-)lSGr~olHD-S$F4@u
z()sE|%ku6Msof_&^!Cuk$?A`4H)TrU&TM05b9bh~JN3%!D@&!D?w4<d`$5$ysfVj;
zTK4Wpd3Rt%xbG}V#+TjoDR=#{dsE82Dec@mziD~P{?wNJKXC59U*gS_Y+vfwzqI`T
zJ_>V?-*$i7_Jy+Lj_y=P_j1RPRL7C@wxdg}$L_UcjePMLe${9!Ey{96R}t(?g#)~d
z6X98D2gyl{SR6qlA2`Eg(c#!snNXb|dWKxuM}WxJ?A18=;8)!YGr<8e4M`m_>V_g7
zTtjrce*IU(99jMvy&o!ho%_gLI(2a7<n+mO*~YYc)3UoY<!)WFwf^(opIAksu9|}H
zqg!GPV)=JPiG_Sj-V)Fz8?$`j6K-o;%DrvLwvF8uphFivS_Kt`vQ&tFM~xDnC3?}a
zwgw>15q)H@^)e#s!{WIwbO9RCec^c)X_P~w_^4Jnz#aoi8RK)*TwziTJy_vf%$Q#B
z6&jPO<d2R8g7}P*N>t)-IvRsQg3**>dYbsgq2@Ma?M+IqHKioCinYq_8`t3_8`d9L
z3N!gddI^L#f|)FWBf?wmo9=l5b}m&1lCDgZce%=+s`AfoOIPhqx*(T=r>xnMs@amM
z*__$fx!An4abMQV)oxwojJ1xW8#z4nOSTQ{#lgCr+2F_Y6&H8W>ZhN06NVhLq)ti#
zz~IhvC&y{#;BfIqtO-^@D}LBP+e&gyaWx^x3g>QQNv8=pJb(*b;YqXg!1oQFfRj)o
zSRF%;<XZEUJ-<aVg$D7NIS+k!3;tp?8Xy^C;kaal$d7eP6p3C-MyStK8sCVQPfoEx
zGh#s8QH6_rxKF7ApG2Y>wM6xENvwd_jKYsXvXVeGD4zk0jc;0iIOOM>r7;mg_W-<C
z)XeT!uHBxh-JY)POjmRzo%b6z{@%u<>nBZH@Ohl%!KrPTvidnws%&HO(0y;y+@bkr
zKHLk}w5O9NekfGWZk((8P-xEx)yqO%N~oI+{gu!JyQ=1`Kn^^0OE$&gpUDDcg|Yxm
zI+5O=V(SLor0jUh2H+YdEb(hHAj61|COFXd?vS&A$`L7$9q4Sv0}|UQ*h*=w2pGwF
zRu;YReNr@q;4^gdL|dTy!D#M!B5U=*caDSW+y(u^&s;cJ@%XZ4N`xy?|NM?rMZ213
zW6ON=?PFOdT@<+DvMgm+)H@VA$a9vWj}5$e+o}<<EX7cZoYtnLwW08~j;z&Vu1CXL
z+kfUnY^9=>K3J7CQz}~a(%IaZRE1y7Smm8P003x5s&aFdN}v{po8*~Q7o9cR&2@7}
z=3iRqS~Qc`v($BvzDCr1ILqP6y{>z)zuf%`in7Ve9)`a~e27N@ad|jG1Q^>!V{O6S
zKK5KCJKIVMzo@aC&Ox%VkI1z}ql`<EO4ZZ0+`dzh<}I^Ll!QFKC??YTmdfapf^C|m
zNgHE|WG-qmyTq)Cw66`y*JEu=NKjn;u`wfU)5|RvX7fsHQzkBa%i$K-d^Gh%21jJR
z%}JeXp@4XN=0jfAuUw$hU#DOT1x!r+GR3}1!EaKqM8O>jf)xCeg1@1FNv&+Gtrce_
z+g|hx-|gEc?!_R)e=hcy2*J(p{Av})3qRtTf5g@OghQnK$6WmqSN|i<|JPjCkGR7>
z;!ggQ>w0K$@f}H#J{b6rL-b*@z!%Hk*n7w!`q1~Rf%i`JlJDGy9K|0VHtpy6;^cl(
z!#?CF{_vRL6n@lP6weMAs`<K%RrpfkjYQT+@y3npcg5^T?!2*ga_?+8`Bb01db57X
z*^)B*SIx+k-CfJOGOm&v=O@o+jfk&cKA7=~!RsoSYMP2owM?GOS}DZ_rZd?$)s-BW
zbZ709;@~XKFP(qm{Hl}A_BQifv&JlkANqt9ein9qd+)d49v0ENhrWOOd&gHPn(g5m
z`6{iih_ATI$SgB!MjQ>xMw(eGoncpQt{Zkrapb2sDMe7b;ldgG@7Lqml+095S3l$s
s{n=sO!dre;Qps08+|kL`EY){C<na6OB7d0Y>*fsPq4?(<#o3(tzYlJ_oB#j-

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepseek_eagle.cpython-312.pyc b/model_executor/models/__pycache__/deepseek_eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..479c62f59e0e4b474cf91c4bcd21b569db41cfd1
GIT binary patch
literal 10569
zcmcgyTWlLwdOkyP$RRl-btNg0lBj!V*^*<)aeR#(%W<;4Bu=u~E)#=Gb4D^{-ZC??
zV=mQo7e*^%v$c%fLQ<2$+7`tsaDerr@{|HaixhpRW~G$OzyY#IiX!L>6Ddu0U)uja
zGegQM<;|kN9!O`-{ru;g|NNKl@LxS17lDwr{Ur6PenLLQj2Y}kV#Ci6GEW2|Flmxu
zVhn?6OWG2%(62RPi`i(IHO*%1F*{A$(vA!l<7k>qJ2S4Bi>B>qcZQGgH0?-xGTxY%
zrn$5)(-3Q*X=l1I(-dpUG{>50-j#02w8mO9{uqz~bGp-kOfVMAw8h$Jo=>-DLa`8}
zJ%TqK&UC~&GM%x`OjoRnAr>Nr#K=8Z1BO_)Xt$8lMDX1tLW5|V8rRFW#`mmx?w(N?
z>!m#!p+}S0X4b~~u3MtbpJSUSqjAqEqLjFl7SBVbRi4i0bCMEQa#HegJekYnQ)v+@
zT(6|lnUlHfL~0Up{G_PF^ZEFsl$*}u7|%@0qHr#E3et`j&%Ja$CuJb%JDZzKDe?<a
zE-A`#PKsJI?+Xbjkxq;0v*(@_6N2V{C6`QGG7C>-E{TGW%1%PdRzaLdOsAFjH8C}L
zS&64}2|<*!woKysB{43EnM6K*<!W3`CemU&o5+aJ$3HHLd07;%ys~dxOy;2d*~E3|
z)LJbceI_TJOiarOAOI+Ir?M#=dU8^fKF5uYTD8U#(@O4pbW-`OJ}IwHnwP|h)Ein$
zUSCjLOiaSuI(<oF%jt)*CZsm@!kB*nEGUu~BM@LaMz9Fhw=IHAv<j?f6YL@@I0SBj
zn<W#B;JoRL*#(#Am}=NMoSqgO^~)!0g8QZ|=G?I#U%#K=*`eGa?m$8P_7j#iAaH^c
zyg-Fp@QFP1w>_#YwujYtL>ujC6B?kWcb2@t#C$K2Xrtz<p4Yx}aEfV-NEYY=Cu}#)
zz$+^WVAC`nZ#*Sv?yJC`z^}-lQV`loIJ9P$L}gmao=+N=h~NeB!asgD4%rC#D`uW3
zkkP{}dy)K<CB(cy3@I{G&}w^_GDXamiYabO#z+=P97fXvjKrJi+IPlQBvU58)QZUz
zQn@X_Xb!VTX*5%RNdLMsHJKyTzD1kTYUYZ-wfAuQA-rq3XY2;h;?~OuQE;zmm})mu
zwXf1)rgxyU)2y$3O`$hVZnH_tBuQE>?jmG{Rl3bKMdl$2twpwIEkNa4<Zmn{we{zF
z*JcXBJC-+h+hFV&)|?MkRo&MutLignt$pi{JvC5kVWy_)?61HUfG_@^W7ywym@5Ig
zTg>^CAv3kZ_;u*nq2+FKq}umguC}}JfLZ=WoD(lM4S&QrtNeW(xP_q{bB#ou=QUnL
zjRo5BikOw(v1t73(}}FIRSp##R7T0eQ45tznq3!CpW}^s22_ykQYs<C*9w{|+ODyn
zfk9(&@i<jYaji+ti^=J9LP=c}je)f$K}t+0@eImFv&?yU!kjk(LrYx{X|AiNUgL7A
zAWC>$HTUI|Ac$GLq#4`c?bIyUtmXnyJDnEKresB9r9^g8)EcwXnYhtIUxtKYNwe!2
z&3-nO6%&%iQc5(-L{dT_sPR%pj%UFLh{K{ZR>Y*nUZx)##!-i6lg0Fegz};$uXUoC
zl;(`blj(#k$Kx_eya)|9e)qzNlF5(cQ~5n0{lNy=^TzangHK*LAdaL{mqzl}mCL#8
z2x@{6eQU%wVC%q?(X;Z1V3-HG<{r*pm%wx+h2S=IGi+`?-h25kL3ey}gKT<<(|gOI
za=~@3z3lHU`NvfMSjm4{^`9>JFR1<tv$i+g<v>p<Fro%VX8Ce^=iQ;jp;G%^wS6zt
z`92HpEAtJv&)hmw;(JuSr<&<i`QCC{|AXePCHt~>t@*&FlkITL+Sa)?m^IKgpShEP
zM0?kQa`%UeKP+_}QM-<;w;kQ^I6U4jc+!4s?!=~>G!B+qx*miEm+kilSGrfS>Y=l%
z2hXkUJ--%uz8vbhdwB8ie>-fAO%)gP_yYTGSe*fw=S}yfpES45NAE<dG<B$aM~RQB
ze02GQ%I~RDUT*YnI&96@-?7OPf5*bhcVAt6wbU`Dc8sm`y+8EcQ0dT%>Y*3cTVH}U
zt_Q8*-`Aogv@m}6%;K3+cvKCKuC%-#dM{KuctJgQVZG(WS=&#Yzx}cw$d*z2{$ta~
zvq4UCrn32I1xx@rY3L}Z)Ac*m@py#uC}~X#fL7~Kkul}|OXM8}>|c5r-myprpk6u*
zk&I(TBGMuFXg>Y2S0^lVZReY94bI{Sc*$;%vah-1i>SWHQrntuXq6k<fMTLK^Eo-C
zq;gqV^O!eNNhqS6v|+swaJh6b1F(qSznB@Df~{$&XS~2>RLuyp9VjE4xfxLJtd*Oo
zqSdUQ1cLw!0b{#oSZH501<ckkUR9~iSOqczhE+ZDXPjL0fns-9NYPQW6s<+OsnTA9
z@n@_v_BR`Cczn=md!VfiDvZ_~lvyV%U_@HafBruZP_PQAOqA2*983Kg&6-Ro(in^<
z?Z;>zMk5$K0a4UhJAdf}mOc%U#_Q)!k6701G$(7EB+4maI+4~`Dibv(F5~9u5({FT
zbsQ5p=~_Y(3W4n`V^lm3edND}=mx3qBp5CQ9#aF4Ew`-&MrZlY8vXNaciPIH#@n%5
zu?2q3)4!zrvha(-{XJ`g$5;6i{~&EzElsXjd&N%LI_^3a9ZUANe6yZ%b6}P$x3<l{
z`tw(3Pkl5nRBmW1H*}O6f*TIopcll>?777!D^}v~hFQary9XB!E?vC;>{{q3$hle1
z-0Njucp<Y&IaWFj<Y^Aw-Ff)7;fg7P@(|CHNpQITmYK0A)jKz3922yw2K0mkw0^g;
zx=~xtzJ8ZAZO<92Qf1Kk%y-Wi$7ET!5*~A6vkn-S87Fhh#V8?^ee5$1!CtgqB@*){
zU$g*g3Qz+pn&D=gGp?c&>KLpO9JCc%v=?o(q_t?T%b?C;)moZy7de5u@))oaTXY-!
z9xuA#V%VpuHm6A=_(x8Yc4%+T^IXwZw4*UH!x#B_cIAu*E|RCn!)0=r7l|PZ$^JcD
zA}g%uDd_7hdS8P*r>pX9S(ooytO6+c))d%_uA=W<*FD1nqI4u|q-M99Co$!(t=miq
zZhfx=-Z+sD|A2k^ubS<Sdsh`zu-7-3H-A@KgAy|5EAoOz37a`{?`r#LjsYGaJB7B@
zwg7_5;C2Rh3jK;A3u4H7K57F@fu97S9-q#~0Xmq{oHU0?-L17sFTiM;!>E^#9iUUg
z1fnYO*8$~7=pDJ&jg;B%CG6K!Z4kefQZC0cuP5jb(gmz_3b|`p+Fg1P$F*tA$t!s!
zUZsJ8Cq`kltzOtjTN-5PMQ$_+#W%o4RpdgmlmkQTdK`q}a4LH>J|T&(7x+v%KWwxZ
zmXN{%J4}sSi^j>9K?<V7?$ldAlG0l6=(<z4q=z-nL#R)*K|+nCwPzAnL}T`N9*`t3
zGXV$617ajaut7sM4v>@ryJire*@RS5fpP$d1igz0c$chMWl_-_l9*2?lA^|mSwY6l
zlP<zA5-MEHbuA~Q1>I6c;h{Oe;!G%tB%vFxSrdW)bWu~`JQnx?l1N@LXQ>jVwHhmZ
zm|o3o<SBg~if$PM%9;(y)yzVDD>N7FV4Q-nJ=jiq6=!#2l5U15Xe@0?*P=Ph4SEfl
z$%rdeb(4|MRTPgT7+{uM2yfR@TWdue=}Tbu8{|uiy~nl6b#Ath?r14;QjMG}M~3jP
zbFdr?-*qp#OTjTUI0hzdH#F=(gEq7<RtoJ^Lwnak`_}xUv+f5y{eRa#>v_<-OXa&}
z$LIExeSOO|)wdfo)u;Q<s11+LxfaeW2R~`<ToTmgUFDW=#Y<XyA=9$!zHQ}<y7x4c
zl{<UxrWe!8hgV!{ohRqqpwn8rR(r;N-7*FS`*H~Eb!hcTXkcy}6lF_r{^*^fOM&&~
z=(4afqz<3L%3$x(xEhSkvE@jADKe@?M&~>qHFPY9s2A58j(*h8T6u~*ahBP5njw+>
zbEnHEzoWJspZm^|d-?k-9N7QMeQIF19E_mJePr>-vip8)Ep&Wt{FCq?tSP)_?o_!i
zTIxHX_8piz_fboCIoMGS_QPhCyQAfvp|9NbR{s~Uy7o#JOt9HUf_*>x(^6os8rXaP
z#IFPUS4KW~Sv_<CW`IQm!}BwDW|qFU9@ulgZ{>=*?>Q*nw3G1u`!BB?UJIR`8!rb!
zb44hv&Htcp2qs<l(fZy~8&*rdf9~8DcGB9j)W6)Z-g2PKx0QG_{}+UR=X)y`ETnI!
z@}h+_bgXh=Y6L_Z&_AUN7uQ^I^h3dMjK?)T9tQ_Ft=C8>_u-x?l4eb173yk9&tRGT
zW$>1Bk_5_#Xsj}wPm9tyNK0r#NS82@vC3n3fk`o)j>o|~KM18VirM3oXC>4dH0r^M
ze}m|on`l1;+RB|>U%Cg_ml)V1f287|NsctORGc*FB5mP{-hd}A?^hmL`U1nSyO&#k
z6@DjNA&^|@e}DITyEiadvA3|hKWPrmAGvd+!a^E3sEy_vnBz#WW4?H&SaD*`MO?nw
z>D$Fy#f9(QeQoizRbNzf?%Hr;-R_GF+p+ZQ@^|l#uCVX(@A0dn<LaJMYTq*zf>j@k
zejxwLlV8&`-EO+VBrL8POj~9n51a8Yy8JdHSOHtMi8jE6*_-wl3mCJ#9-0UUY~6C`
z#{nM8If>A?V_#SOzJhy)a(;($X8{B|P~xm#U%%8qoLz$FCL43@IOh)Q6X=|<${Jqn
z1iZTbUQlcsEv^X*MX5d4ozW(({S+eqRS~)MQ9(jX3|N(7&{cG!ia(<rT(y?-klTtr
z*RztR4C|?S_K+x&nymq-GHR=Bp&k}p5Bmk&u-Y3&s)IStSfL!X#<nokysZGT(6Wj`
z)@n^!!3MA5g+)eSiZ*Z}@y0^{I#8+7u*D{;>oQJNtu(U-_OIt$PSrt{i`Fd|GI$`S
zT?eSJ;fFkg0r#78)Sp3s+hwi+(CNWPx2{V$3n(sf1%$0AZvFYD00rM3pjXv?hF<8$
zZVRTJ&5-LP%AJ=Uhx({>8}_C--~r__yva$pYnmG##o%d-KCeyc<5ivlZ<?hg(V#Sh
zt?W8xsLS>ND3NdrB=B+wHOO>8kJr&S9r)C|_;`p`qyZxO&{)AIK@+~DQXOfO@Lfa#
z_l!umZV6dV`VmGG7~wtA8YrDI8o2r+qcn`gUYsD46U|AQz}%yGY8g=zFlyJ0x9TO;
ziEYrKMdN7+hLLW-fE04l?Im6HAY&AIca{TH4Dp|__Xb2a$OF!G+j+}b;@VZNePL{!
zi+n2_F*HyLjjEy1Qs`+l^mLgIl=wlF9|YAM28${P+TIW5L+|qG)$x}B2k;{z=h_5?
zG*CtDc7_|BYt8$>HVa}W9*wik1>x?M#VgB4S9;g{$G|p=j65{V@(|3?4b9iN4$yO5
zz1X_cd06c{jAfxR$CtP+mFxPD>(<p50%;ODTJ;gSC!vOdTJYT-rVRP8wR|gTCmn?v
zK-MX@pgAEOgJ>&iM~#fau16fyHqh=jH~<PN3fkQ++$xkndHbTv(KX-LDmO;gbbbpk
z<k6uZbb>@cA-BqFOydeRvJk-<ZGYBX!$fKzT}__X!$RHyGzH$Y(CmTmV+QUx=*;b*
z$RK=X$|CSQE$0i5MTDFvN3uC3V!Z1|GVr3Fg6o(_M|83y*F|L*ox<}u<+%)4Vi_?D
z{?jQ*%1N3{xsHw=%%#f=wjMGj{RHY|Tq?aE`t?9_uF&&{T{m#A&#>>)5CQJxC4Aee
zyYE30AmM=p+s_V_ng`V8fz_tL)xqai8(sj0Z}wJ*#p4CrtDyytW+A%t{rjFZ-?3Hh
z7(JMWSj-0F((Om4*bz4+_0%pfnIV*CEJeT*O-B237>SA?ke}4`L)zgzg#OS$#>rq4
zbcf1|zn%bJ6n|a-zk(=4AF&$`H~j*Jkr88nP2otBztlLOHVy#fSNuis{>8P%le6}+
zuXWa=UoUh%A6m8@3h1(b015o{0sU<ObCcVO$lZdUqig|j0XD67*OV$Z19w%o#N<V)
zPpq}ab(oIeo}--JI1Uj$t`~K14d6gf`3%5itN=q5pmv6-U4~m=W|%vUkM2c_f#TB5
zF4(CC83wxw4UDKwdJaBP8lwzGcoZ^D4ZD9s-+re8Z&)(0S*CF45j(%tuN^*;hUc=h
zd~CSd_qRCkC`9lARPK4K>YfIdz&-6N2fCK}?)+%Z_JEHpwJa&?{BD3;7dlpfYxx0s
zJfJc?@|6@KKltMjQ3l4r2Uy+1v4V3BtD&5P=P3OgB4j80tqWby4@`cd9SVcraw*@y
zI5J8_pnKE8ItM|tH}!%bhgYdh)=IHrjyQcKE~Ijyw@)rPmk+FkM?W;=o6hcD{pwF6
zVOKFiZji2F)Q{0K7+uGRie5ZZ-H*G2DP%!P^gBdn)I(S>V@Cf33AqH(O;SE_@=Maj
z_AC`D_*og<z)$4~hTUIt#`f2ovHg_>GQ95#x0`*c>XAWui${jJnn#8?m*JlQWDwX@
z!LHyZ)^*Z6Sl7<7{!ap7>d~=~hOu3~+u>W`1)J&&Z#b~X%d`9I`f-~CYV<YZa-;p4
zFPQ@iCrMv=h7*^P`sU#NX&il$7|v#Oiz<ZAm&5uGui(u$mmL=1mrPOuTFDY}xc*ZY
zXhDDKf+wPN(LMq^+)AlSh<*)MO)9{o0PaGGp!LyKx+!Kpj1KEI*szW?g1w~UY>#S6
zd*B<c{?t44h*AHKX+|x!(MR;qpR23XQ<aLp2h%M<H!fpOz3%#|^lLM0U}MutDlJp2
zPC|cK8`!a<4128qZY+LvAARALeAvT9d+6gdU;(SA>HVd~C`u!GNvH~dACXBv#u945
zQchpM>~V~c`!((ePzqSdG3l3(MU^h&#j02thWUykO#i2Z|CqG?2RZsN>G_yE`7t?2
z<I`VTtc>Mr&Wx~a?|+hKRr2g_oGo*IvgYi(fsa3yz@{Z`VLIk6&8P09HVCFStWaE`
U#hc^oQ_TL=?kBz?@TGM9FBoGt;{X5v

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepseek_mtp.cpython-312.pyc b/model_executor/models/__pycache__/deepseek_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..679a4e5f53eb4e6d0b00dcc3f7a00c5595f0f852
GIT binary patch
literal 15043
zcmb_jdu&_RdB2x0@hMUwMNtwZQBRxJ)0SP^vE3%NEWaH$cG8qdK+wEb7A2Bm?!9s(
zhT6O$z?98JBy^kPwMFDLh2_OVv|{K~pg@cP12XI%-bg8#TN`lK^pE^UN6OOmpY8k3
zeUM@(C*5`+oqHbNd7ty0-}jx5|L$;DDR6PaU&bEor>NgzM0I8*u=z8Zq82HJV(2)P
zphGl`VO?Ao(vhz|VF(#Wnm%q!m_jBJHpHtE=8&0$jd4rD8nTkGDQ-*HLv|9biaQe3
zp=uH~$DIjR$VI}Icuk@<R7=9vxI5tqc}Un6uS<AC-b8(<p2Y2OU!oz@kZ24wlDH$@
zl<<fABwQVDPPBwtAnasZ@zz8j6iBp%+7j)d_C!ahgQVBQI}=@@E)uSdcPDm*cF~lM
zV(skicVW!vLO~sMielVvP>hE)j9-ycOZ|8CaxBzCDC>aI`xTVEgt8teeP2P@$C?Rk
z1JE{Bre(X>ws(zkAKq0u7V4kT1)Dy_Sdf;?X9SjuT#d6AA>z8ku>u!~C0XXgWO6ii
z4btlPsZ?r`6T-qI7aa>nCljeyoP`YQ3-NeDBeTVlF(DkEympP{u-cI+o@Fjfo`i7K
za~CdOoa7P^be^BQ78CeO++>vH`AMX#{q|HODa6tdAvT#*s?$l;mm*vw9%tj{FPvs0
zjO2Y`G8(z6CZ0@OWf>-xycX0+bqqTinTiYH*Vx##G3-KwVL7QG5t+HlhB-D7Nrfk_
zhxuqE&W4kb1a{pOo#Hq)DTGt;h%hR5&3z^bGm&7KSVUm2uu140|0ynX&>(q-SvJM9
z?8FQEhS}&O)PFuQ1C2Bm(=WuPg(;4GcJ$<Qisb}ea+Ksvo|HPSu|k+nvC(iGi-u#&
zba<4TOsL&fdS<;W&o+PQ67<t94<f~}qp|6zvVP=aQ6ifh1pXXOAWMa4h6?E{6k}m@
zte(-c2FAb|89H4>Q4D-X&2!W!&6wVBgiK5oTQ%+~txyg##>(lV2FCn`A!M1Ors<IN
zG8ME+*2`lNj%9FlE=r~-*)Ebv?y6*e6&DpY3vMFG1iNaAOGXVP4dMXsaBO}E-e1#;
zl%Qq4X~<CDhfS+)Seg=)Elg1vdfcQDY5_=98IqPpQTOO~b#gRAg|!+4he`sas?~7u
zyF&|lp+=?2=op<^^F95$%BY|Xby27p*fbaK(vlu_jbs>uDGKViW+>13!Gp;&!l8ow
zV-APOu?cfnRI-i57=}%T`B<8j>|BBmCt+`fNhKKK>_}z3jz@tIaXzfG9qTko2A++N
za!r_mt&sL4OE?^jM|eIQ=5YoB;BNfk;((Ay4WweJJ|V)vzU-TxI(Ycd#6fl-9=ke_
zni0k(lLOb`bPpt8ugAmeG#j0Q<1a_~0Y*6u;e?RtPt9<hP;=T{+z<Wguy#WR|2%lV
zzd>!;DNFU6RifFqVQzfjX<8b|`TIqG|LRC?|0!|*sSVHRIm1oM15bP2UYoNwi}q#`
zXc6r#`G&3s?$%|~ifP?Fuw^mUS?3Jjw`@Yil;lt+O@MRDN0k-FEV94I9>WeUQW<Jo
zVcaBF@iMf^&M#AUY2bp~F35rP3c`o$1CPf#0|BlFK2jC1i`OC?lddfpuab5UiE*3U
zpz==lTQhIYEH$q?cV*4HxL!!*2EYs2aMkg&hr^OJ9EKU50>%`U?BOsRnz)?9;ii)G
zyufibEQte<jD!PACYd>LgP7(});G$=<KggKn%e`ZJPz||(qFC-g2cm7@t48-{To!l
zN(~)+Y;hQ^k6eL*5xxZzRpTjCVaQC?2Uqrs-hl!V0I9Y5a~p<QXyfkX=kL6H`{e=!
z!BzI3<Np}{0)z7Ku&HfKN<C?tzl5ApCdJUepme~X^o(KDMA(w?4SUFFp@4na853)&
zbTWZyRZchWkZ#!_-9T8Pl{EvCtXSiyow2=PEMa#JDS+(!GF$-{;I4^XnVevga9J|3
zC@hM68QAc|C@fDtfh{oXi&5NxszcsIcI1D;o+{&dRpnd{I1z4xGFOTJRpNfL`i#Dm
z??G+IKFZvzL2#-`8GWTI0a9yKisE-0ZzV7h^Zp;|!tG9+(4dCKabuOa%6(;YY2b1@
z<mvAjR5%9nqH%r!SBbdsfD$PA0HwzFg)TKCqi2lj4FD8wEu9+gR>Q?F_Z;*HSz(!*
zH44a5h#N-+QRZO9`pc3aI*#YQ%w>!Mo_pfP_o<=c7dRhY5@qh5Nxi#fO-X?3vnJty
zN&<UFmoeO{Dw#37S%?!3tDy`HRMfb({%Sg`f$5%EtsQ0v?>^$-X0%-70ucTbx#|dj
z9K+REgqN(bB*RVv$V^QDs53IcOp29E40}BmWrO;%YYn(F_C|6eIb5M|3|T&Wb!v1J
zz-J5B0eLdZtVP5%1t2eWomJ6DEyG1d1!TN%wJ8Y2GB&E7TylYuyBhCg4%eK+MU{*!
z-ocV_jC^#-q+~h|NIAkuRqR+e#Z8WLh^Qo+-03imfO`g0s>ULGL=ZU16yw9!hxT#b
z!b)+jq0&T3n2}t3bd1G|fKz+qO+=={$*Dy6YDB<1m>FO>ykv|e1*id!gk<9h1Pdd;
z;BXU47PyhaSL2h>iJ)1&z>Z*31P^EflWb(#<O;dtNI-54gir_&z}=8954?8L!LQ<c
z+I4>v$a#>G@Vb9scBq&AqZ)s%W<abN$kiMdYmVn?&WknY=S+F8A1-`bzP>$IKOoi*
z%-KJw^Dn)SYaS4r2UcIm9XKr>IK5GK28gT=cFw79Se#jyS@!1IhQzj^)ri=3aLt=L
zd`>)kF8kbfHtJu5^7c=>-8t_*(Yp^@{KVV5G`bvL_YRTvZO*rj{Kb)cV<6YqBR2NT
zoqN!}>rT(@p1i9m=js(*y*bwj(RBi%54=r_6AKgh`liL#7hVS((orqiTMN}x$F8is
z^^>Nqyt`q!do{DA*ZBdVY?yspCaQ5TZ?6X=lXurI9$7e&4-7%UMg%a`<l2-hv1DpW
z0D*v)EU8I8hH?-uc>zgZk4;YT;cfUvau8}h%%TXyOHLwE@B*8{W57;FOVP1*+w{Vk
z0RA!D(4D2eM+*oKh#SW<SmrXiaYTw`j?qvOqniL;#sGIvdBZH=^>Gj~${kQBEfES0
z9T({`dW{0^s&S3?7b!~mTH*G}7&7{6I)(-mu8c&h&jj^pH(Rkj;8!MwD&7PyL%CVg
zY*nTzV@d<rtSMsx@y2-Z)Bgs?VXeTT^h_)POy~uO5kx4NIhKzx0N3D{$>;dBF_vQ`
z%T$tob&6%vEH{G0r_ehKo}`aP1P<YsdN2_d%Qb!nLocHDUGxxga<72LmmEkLeG<%<
z-u;yaQo*BPtmLQQ-Jl9C%GI28?#`Nbga3)I`EA=R+wz%Q=RvXa;F@l|^T^t(V&~KM
z+wQ-z?z=qa$ou?nTW?vHkFERmLaeRpPUG#yZ13^)wi8)%%Ol9O-?Bfj*SvM+%`@|}
z+3urR@3H&)HtZvtdR>Ec&H*U0W7nPj+x>ZO>&onXp`fQa_HI(T4y$Nxopa1j1K@0E
zTRtZG2BCVVKWp}r({NXJQJ!=gw-@IDFEefkJ>1M3sG(%ePG+6^21F%2a6~dO9O7^8
z5O}2k_$f?84>=+KC*UCf*0mX}%V!G|eAe{jbKmee#tN5cs()X;HSpNsH8wwT`xcKb
z94#0j3_bQVkXRMQ%v4+V9s6y2!GbX><!fHdEM%4$v3^g%hDmm+vAKYi0E4hP-}1ld
z|H26|87pIlDr4nuz?s>Ol^NZSXh5ofm0826K|#yaA>$v5lNBM}Oi*^sj-{=YF)?G?
zA>F=1x`m)@2W#00w*$(q29#|D%wNkmcc|q_<xPwW%G-!i!Vag_Ej2yiXh<O5$v2^P
zCq`9Hi02&n3&G|lh?QY;<NqF;BMz^G&jA%_d=@AwaW^WgaaBQ6)>J~{<8{#YGAGol
z2|FOP%D9cHBzYlcR5|Q0^_C&3i&0VCD}a(fe$a4wk>3l5HHbrm_(M<*XAD22eynln
zALwqj8lZ+*?S_EaC?fJ!t+c)(Cf8R&vugjKCQV)uQ0OHNW;mb(OFrst0cAXD@(lEg
zCVhJiv;Y^==6<5E<NJekCBV{N3Lm+XP*|!#w5D9vauLamaEu2f3#cVkt)JvWx+FU-
zBmp!M2~y7FrE1K<B64w=$DPKytrv)zU>L+r$;d^LpkyVi5ZQ=iQpi!<=HPCYL91jZ
z5JAC>9Ab3I1^QV~zam&w^slB$C=pmHGc996<hox%gq=?~Wf~Zqfs*`Z;B5zkc?5$&
zu_l<S84_!T00wpha~(&-jw1+|0{NECT+1=B<rv1A06x|G7snRHa^9fm4Q^Q}e_P(;
z%XxZ5Pp=kO5pn~^Mfmd^-!kg`wVM{Rqx!KKLh~oKsz9$Xf8qz`jmD?)p4R1&<wGln
zR!^)R$hIAZtE#E?F{P`iEtr7#F&5j@Tk8Rv-L!3aspg?CYoa!d`ep*{8n)m97+f{w
z2A>fJpIHwapEG=9ZvL;&nxPUNXYF5H?I*rz=EyaVBIf^1GbQVeXf6dc-Bol`SoJpD
zlv7@D4Ns<fp0rS9#0yv(3K2wkm2(C}XJENu-Pw~h_mDg5Vi{VI93|M3*^WGsZxLSl
z4g?7DtN|{ha$87KT~Yf67!kN^B}AHr>6`_o47moiT=6StJQDH|F_k$P*QqBRnH7;*
z^?)5s>eI+&MK@<8^UKA7h?_)@9I|l;1*_zPQVF$Phy3D`f{ewPX&(DUj*g-_l)+oa
zla@rmZGQzNc|->Ux7i!Awm{w=$ocz3f8R=M-G6BALcVGD%Klu>H%0hs`exSb%RA4{
z32(jr=IcKiS`u=t2gTNd*{9Bmt!LMp&WX<Rd3zoC1LbN%-tOPDnOxQaWwKahID(k7
zvZ5*vIk12z=0m95k)=WCju&W|D^c20m6TQ)J-JqtO@RxuqnKc*q++OeWg0385yefW
zUJ|p$j8R?ms!Hq4y$b!|o<px4yr9A-2{y;|=BB}u#cjfUfe91VN{+s~>axDL8XwH2
z1Qwshfc2*LJZb&6)82t5_-o+7HUQ2CO4)4-?(r?2TR8WQet9_8c~tB?n*G+ZV&}8#
zflH$2+jEwDO<k_0Tde7ZWzX5$M0;D#-Ywd@S1h^R$Hd*o))MQx&jSanwa%FU*}A-Q
z4tXm?pg{mixS&DD*9GC+6p(XQ(L?nVmqD*09A_{GJ)A)PU%>-7o`2@VXO!1?f?iG+
z$aih%bMh?=(#GDEy7&Bd{it*9UF&+k_ZPjJ7zBw1aC&pgV@D0Bu~nQ7;S!vVu_8{#
zSQ$>oBs=A6DqtlVPTzE5te0wOeOzTVdLO|Z1kk=<gfLVN)R+ntE2!QAF?sHAT-#8+
zDuHhP2)6mxMfGn`Pk5j+@AyDx!3R3T_JF7BcYNTpRW8ricSv`zR>n$@eDw|#a;}rL
zF+26Gn&5Oh^vkznJ5MMtw?ArPY5?s!m|C`)b+U%ay&2UZBf)>@jf*v42;?3&%uNkE
z(%YCicy%y?9A#p>kXB1%2RFzL4U$benO8uw59PQ~^ePJr$lS>Vw+ewWVFCEz_UFs5
zugC`=YJduf6Et;5hAw%u1a*hX#qMd(kWdbLL>zEqO=Yd7l|H6|3RZtnG7<m_id1cU
zK}!+ea$``Ez*<@JN=~g0)BX%Rsg{Sw?8GD+PQfdEf`xZ;K4>UMl6!!X$I$>gEY&A^
zO6FNZi$6!=Q{a`MMQ>Zq+b??ibKXOu_YeZJ2X%vaU&p=kYu@|y>%C_{*XBjQh6ml^
z$eCL~zwnW{jhshKyn}iv6t>8UjR9+0q^<#+K>dj9D&Jt0;0Bb!T8P`BR3#8nBJ7ct
z5g`&sV%pk)5}t-yHDOPs0=2&;)Rd&v6~k)iT_rF~z48xmqv}e;K%IaqNSwNZc%l#l
zm0zQpQ~Z{d^{YAC%a+zZu05rwwD2SpP{Ud|`sPJwu>vg_yCw#z<zVa`#jqNxT!RYp
zXatKDMCz|!(|D)aQt?}?{pNcHY++Y1PYo5Z1`TEaGHmxq)hw|JQH(u!`A|(j8AaxU
zqa+J)QdKg1jhmcG$>O9^jHJLD2_89xt{TIMxF##&xg?lXGF^|vr&xSZ;bTb<K9f<F
z=)Z{eQGO=SLqQHVk7SCZQf!ieCk(}G#S4Nd7m0r9c<agWmTc^FB$0v#YiM3F%6-A}
z0B2l&GWZ@u(k-P&{L8%JeW2lg2OfwTEde6w<y+d{p13uUYdJ2qfG7pBAL<;NZa3xH
z_KR)%F{R~EBR&{7wIbfeIa|K2VKKB2%GGs?b=|qTKC!OvS9Jq(Cm*<*m)MQ2lN;`l
ztbHWw9?665?%9QBwVWdx?xR`z(X9LE182ih*W1Bc!FOKy$T^g6>3BPKD>iS-yF58p
zhv@3ax%P;zJu3&^JAC)>hU);NFFF^TIajyn>Rz6@Gjn?;x9gC&>(EE8!v!bh9Ry&4
zjHp92cPyX#$UG=RgXdwm+|F{~A;=~c3h*s=;~K*$<`lP?3S)JIHOoLu0K!tqkff%I
z%CRe#`pcw05lf)PNH$$aznRWCgQ7FI5?pug&zkp>K`0U+f?&x5T35|nDlEwMQnD5s
z@o`jRX%N9Mj$sqAAsHp0p>n54WyYdZhMF^VbTk>=m!&WQ$bSHJ6`S5c@N$>#Nk!1w
zfP#D%c!02LsfK1$c>`XapIPo(ZNBeNb=d%qn^gt%HYv#fMajTW5A(+@Uq-vT)gdYi
zh|n3{8Z_$@4yTjfcE*q-O>EDIK?1DicERC4umq~$h~VJzyhWCCx9Hrx(!AzacaCJu
zBV<9PD%ogmyV(pr)R0l(#>1PEq5qDC+dx~iO41&qLt_r$i8v=^u9Eb3&!|2R&*}y3
zX$Z<|sHa$odZ(%U7nF_;HCN38iH;to=IK{nq$u@Khk?hO>l8=dw3iqrRO}&aIzR>J
zX3ZJ%4f<vm^rQlc%9u+iO&J~BvJA8b^E7Ljwa(fyR%nsN78!U@g0^8hXAC5zE@K);
z^-7t85*Dp(d&a_;@p%o(*_Cp8Gj@EGs-)s&Eb5Guv~va(8$_CRWE|t(vgRN<TMep|
z>Wl-Pylm<d9!=3y@-EzIdKl5SfX10|z6>i#M&&9Qm-B0k0!I9`dtl1gGOl}8RS`q_
z!9qX2{&@dTqJV~$wYh{jyP=z>Z(3o^s7m-|TthU)Ihp{Ol`}CmvWi$bSR9K`R7*P;
zdkL<=vjVO-uWBCvg%~R$4wJfWH0;=$FTr?08xeF|3>t!Z$$kwC*}_vPVp1SkNQ_t)
z;0^`Oumm5eO3CLC7D6G{DB9bGUj<9oh+NS8suGe#c|G?-ELW=$gkOsZW8uWB5mE(r
z3v(^Z<ZGyv22+N=#d-~rJ35gP!df4Q;hK`D(aMQ6gi`62oMc0NwgN2DZf+73;WPMf
z-5*O{2jf@v)wCUeNWVhSPkNX(_M<%r*npVPx`Baramk{<pcs>`Qnc}sW1G2eu$DvA
zEj1=06RgstES&IRFaS=0sjzG@;!1`AT?sH%D&R4o4VUCXyE~>to&n=KFonkBBl*CJ
z_%$vDi&A30i}X?z$ASfMl$FeYp?I87?x#?KL$P1Jj!|hQRe_Bq+JA6}Z6$q#VS+U>
zgZ~>$@B&DSPN=PG9hT~pVG|*%m~2zxq~8u=?yPhiY)whG)I@oTBx|wTl9d!zmPeUF
zEW`Z-dt$>NnJ|`-jD(a7NUBmN@f{!|CXN93wmVtfWyk)gFgNWhy>m-*KE-NUU_;-a
zKGPZ7t?;J2RZX=8bAc0L;6y&qgMTf%@D&=~sdK*lqHjN#O|$`FGZ5A{E$z=W4T?>J
z>rMO6j>Gn#z3V4kbB+fcd%z-NZg{>g@9bPLh|b=;%lDw+=-QR{U;4#MA9SuaJUe$b
z?`+6A+aLo>GIH)g(LK1@xOQdTeSB{C*9XptuD$ctrE@F3NA4DQ&2{g|d;Fjos_TG=
zXV0o(?VLDx3epg<#&5+}j;vYNTTaZ|K($oYnr+|zp=W>I+qTjqdiMj>qo(fpVbn<Z
z7LP3)Tdv=52UnQ29<l!<X8Jmohecm--k1+`<pM)uU})a)u?vvv@++&SH(bX)cGVS*
zQQtUEZ$3>^fdliW@+Z!Uo~P%}F56bVyJiN{nUzklzCZ5^<eOUGK6>luifuKt-t_eR
z@FV{&7{0%6{$##0D8KU0U-;P5miIO1eO)lG`L<xbz2|eAsm}WtM%P$qg$4?pl+V97
zyD+;9hBJMuoof@~zB5q!Cr$fTudE$eZ#p$U4Aw96nU8$|7;gj2$(`}r<GJo(v3vMK
z-*DdFwQ@!D@BNK0Q0%~i&K_uW=}$KXPXeIo^3Gp)Y@+Jgm%CP)H#`SHA1xdEE-}Bd
zcNAXIQJp;nxWJ2ui~Bij7Ve+G+lIYRf=14}`7`h|lmcd@*XUU=ES)vNzlq#uAWahk
z58ZVz47h1#41g7?;C7`r9faW*DM=bRFz*MMQo}e<sp1$w7Vv~=`Y{;&kx*6fA#+xj
z(Orhyit~PDS+ja8$Yp|-v}9FJ&~q|>2?%3sKt7ZKJc$8eGLS&?FOmV66(WJjQ4*Wv
zV%K8HNIXFFIQ?2x&oE4&U$X)WKp~_6%Q8L?O9nu+OY&F|%LRz=79hrAgbcZaoTyb6
zNiqTWodkA8HZ@ZU$$jLpe^;@WsX&~)&c=(q2r4frBQS?WBN$nqo`STID`|(^aan}y
zm+1bqt=RAWv`Nkm(%e0uSB+-0tsvDGnOf;jD0s=O7{!$^H(sjw5;eSD$;NXs9k&Lp
zR4}+fc$qG~cLLPj=`uJATZjKKkONDzn>v6~p=DU0Kikru1!>mbmNhrPIhb?&x@q6s
zxxBM+iTTjkp6}e9b+zT)E!p-1qWb_u;h4gyw^9C~$9Brq_6W?zzyc*-+q!IB%B<|o
zx<E8pORvR0=*bSe00+ubJvR(GY?o)w_PC0wZc++>1Y=#vtnJMPj;&3vyHC#zgGu_F
zjlh1;|H)Q1+$_$m=PR`Q-vgqey^SnkA~r79_v2{<BlRgz4{(2v`M*RDXRz{9z@K6c
zdU&?^9+*FP3V4K10aeC!d<lRLJ_Nw$vs#yNZ=sVm9w<Hr94I~p8~~a7=+kt*Z!bOw
zIPE2dI}k2;5WtvOG1VzpFlMD%_pJ_#Er$v=jKX6;i5-svld4hUk99&Lvc`Y224n5y
zeZXiuMQaZP7*SpbNKkzuSTcwf|E7hcRflO~^YZDH=U0c;jPKijVb2Z?i+v}>&XEFz
zSsx62!2jE!O%g5~*S8owt3w3}K5J3(xgY%kW3pBOXD>J)Iir*CTd63q9PE!=jdHjY
zvSFH;{Ai#*ndDAGnq)8G0KEJwgC?|FClX`~4P_^j{S5rZiHkr%o<psvL@e8Z0)Nay
z?68y+c+vtx1P;Y}sgu+~4z2ck5!G@+#-^Y#l0n*&NC`V2zjZ;GQ0jR?t>v~1vWdg4
zCzK#RN>YAlMt)Zz4LyNc{+SJeAp9MgY;cLcIU~Qq;ZOjT`YIKd=Rp1$TED`Dri56W
zC-9G8L#dh+RDXTO%Z9@alE|}QK!`d!JYr}}EdTN>e0?9$-EkgBCb~NroPymn=wU_y
zgz_BfZzQAKmJiAHVgkNQ!ZJyw3*;V<e-VNT3-Sy{4&Yr%-cCJ8Z$1hmfD7ZBTppr$
zA@c8mSJ2Zm{ke&vyM9aAA5wJ>so?LZV-KnJhg8Qy>hMGA&_n9fLu%v;ou1ZxVFvGW
zGe!44r24)v7-`)m1>Wa&iU#7=-&j2JFRoi!ZkV=AHT3TJ+Qo*2hAj$$Tf3j4o0mD%
zs%=pa+)C4jY439To#5@@76rk=H2ey)eoM#eXwQ86VsIh26v_rqY=XXv_H61Q?=i_E
G1Nt8UwhrI`

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepseek_ocr.cpython-312.pyc b/model_executor/models/__pycache__/deepseek_ocr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b6ac06bfd00d59f5df9ac181a7d09b5063e8054
GIT binary patch
literal 26166
zcmeHwd30OZdEdjnk^l)3+(~dJ#6_Y+Eu>aT)IyC!jh315AY)@7K1c!ukev6xkwk-u
z>@$g>*vUvIO+_6$8Ooh@I2kpjvouQMG;*58N}INLf*c^P@-cHfIqf9vIT(}a_@qnv
z`|iU7Knyrz=cN6sSHyky-TU43-TU2dyI23Ntjx;6h4o(!{r(w_`vJYE&YTUbMYSAv
zm*Y7f$7^_PSmV>+sS9f(I-f40_vs@BpFu-u`mix#@|hxLpP9XD!xo=~<*`O=J{yZO
zgzb?sUs<HwSI*vzVMoO2bF#20ToI}CRkE--?21(Rsv_0C>WJItW^tBqO{CUW8>#cv
zMe2R^kp^D_i?@awBTc?07Pf_(BQ3s`h{xxNwE9{jZN4@ZZx6ReI(!|GPG4uF%hwg@
z_I0!PvT#qt>+?po__joPeZ7%BUmuGv5BEm~d;=`(2ycyS^KD~cXLvBO-M5{EE5bV>
zL%tyvt_<&t?DFl3?Dp-B?D6f14Eu&7Bfb%q<_hnP?DOqo;i~Zd$N}Gh$U)yh_Ff%6
z6dCo6Mh^Q9<K4~IgpWkVd}EQLzN75DHhe5{+;<$|I^PK`cbwzv-{AO$;DPsa%J=b&
zv)D$&Hob>0Mb3AU#Wf?YB{-Uce2&F>5ZfBul8ZgXV%reg9vldsszd%<+G&>7fwaz`
zw<v8w%LSXJew9_Y!3$0VPX$ju=u%5zWptyAo}g`NX#*&G304Q)?-`W%_p-^pvp2L}
z@BFdx=}SQ&I6WEcpP3Hd@Qek6vtlrKwg1eKbDqcy9}IgYXCkwKXy{@%=(!e(Uh$lm
zyL>q`efd~m5)r}B<ttHf-~%dk!mE?b<I$iH0IX~}9hjX3oNPWHd~J?u@M>kt==AhV
zG!PB)vguTaK*NZ&9}Yw(uN(^oqH{t}b{;u3{``v}F*GxMWM=wO=(1NMTVD)^Be^%{
z;eZ$%n~OwloSBUROhm<1r{}`a(CHaI5I!2Y802|WEy|VW=VoVTgs7NLm91*r^Ur(r
za>eLebmk?c8>eOhd{B_fvai$uyw-=NLs9?hXn<b`UJi+9b&&V7v61bOz>SMR|Ev(a
z6uORfx=z1v>caTxGh?Ht{O67yA3uNL+{>t>GGF~zAQ~78O-AMFeB7~6Fw85xlb!kK
z=dJ|=^r37bh&uTT!D(?u5K)?IJQBDZ%=Ho@9uc#V&kHk?K@o6Dq=iAA56uVBvfTJk
z6IeRRs-dCGC*|_Xm6VWu#ZY3J%*YjZkIY8T1!u$f_>tgrRJJQoFU<1zs2Biu?$eA<
z&(1}~!*ii9#uO>#=L3=1Fp7FUAOs>J4c7QH#xfG*L&&RkPa{{VbMVDeFK*9%bAxO-
zJbM19|NOY`sBAfM?#%Ok4DwOgI(~Zecs9C9&4;O*?}u%2W^Ov_kA}iQs<Ux2FnI-^
zFFJEIIE`@;{Fl%t|D-a}Fcp<{oCi=OAltHUR|2y%d)=daU=~e2HFG%>74vnt&(RDQ
zqebx_Xs{@dt&SR&pVSwGz_fU21|1h<$3+?+zZi)4U&kc7h!)yUhi6grRB$pnBmAvt
zUx+^TfywN$We-dCWi5@sT`tIB!{B_{7qCV6bU{6@B@`1h@Vb5UGzLvm&TNi?2at<}
z*YgJ6h<~Olng?bTMO;$zTRt_v3Hhz~S31A#Q}gS2yNXhCwU$w?8|7Yy+)(gE*-U;u
zbUheWCf59)T0L-MAxuL;72*hcr?`I4#SsrfDIO7@xFCLd#4|Am>>zk%E_v9%iUp~&
zg{eS!m;;5$7qKAxR3H^D23gruPV`F9Gpnw<g5p^D*$k}ppO8bg&r;X?uLr`INU}b9
zV>T#jFHV0zdys6&RW0i-PS4UL;crX_BB4n?AHv$#WAO!KYraC+rgY9fDa_1%Kzo+#
z%EpL<%L8GSGU2t#X1^aL1^s^6>L;W&7pAb??|*GB5YDEU{C<9B((e~cRFcE*4=7li
zh8?j+iZx)iPF|6X%8C(s5%(^)2A})eiLKGd?AF=PY=0C8Eg0>;KDT>#&(+<*t>Mtc
zt+O|xS7xTS5`Nvvkg7j;Jva%ZEGVzyRzABY`DZ4Df!Q0v5DI19F$Baf!~0q8L#@eR
z&Qx-?%G(2ywKb`4O<P@QbJ?5rTlPOUyKavywl4nEa_^%T9vy#bK9$jFEEAd!bvm1I
zjnf&788cVePyl^&ad0ubeCn~`(Y2@MGX#B>peu9G_3cYL-`RJ6-!~f`UU)Q^96Xw6
zKPuH7d#XPsjH|8Nuw-+zo`B^1lC^MHJldd+*WsrR>VrC3y1Zr{BYnxp8{Por#~ZPP
zm3UL>rOca4$D;(x8+xDRhQ@1?8z*LfxUt7h90&d_LRAy8b^0=**>sg{*Fw|$%r)i3
zb?pi^>M-^_1!?+2yf~>xD^*9+i>B!seU7_aOcUe$Y8n^Q;*Ibib1~g@jcC<y(JV0n
zLP$;F{8R>WH@J5-6JEV=8gIe`JXt3OqXNih4m*}!42Cb|(^#}f?V+VFoFs6}X|`wk
z=Q}^C(*r8lXOT&4gLjk5*tv$zxc)1SbVFBM|I}QYZr}B!{ouFSe-E+WHGA0Sm8~;#
zQS5Fs6tXeQb_3Zc1VO$`Pv*LT@@T!Vp?M!eaF>hb2SW2+HXP%ovNR=NbM7kQ1Z_-v
zzF??mU`xSbwt&a5fq$sy)KV98QL39cUb{)X>YP*o@uZSeguI~NBwva4Qa-c;B`g@C
zHnl+Y<1QGZWoleZA2X;mjB%eGK@L-XI-rjx{43c{D!rhG=9ro1cwIdg(_QVs_tSi(
zJ7%16sP*KZfMcsi9UBezm3?|HW<)I|wngg6f-z<kYNIZ-3|_D1wP8X>tJV0JQH`f9
zi@uiEFd+;eEYKKz@ON;sE;M}!%TE^$PP17HOgT3T`dAkUTxYXeI0snS0IJ|JVgo$S
zrnGFh6rKr0Wj(DtuSGadrM^Jkiv(UiIVXT@k7h|v*)9eHz`uSGC^jlvvv0v^UM{-`
zY^_o}qO1wY2Da2iq9SO`Fqd06lYwy9|LF@y0lSPM#J_@flUuiPc1L{v%Lf-Pyyd^=
ze`4!PyXxYn->++4oL?UM#+i4|JPb&E2NPQkCAJ(+v>Zv+jm68~uc==g{MzKwmaopN
z=u_JcN%(6%l&l$z+n-g}F4q5&e<}LT&)okRse0GL3aNS|ZhgPD;j4yt*|Q4w?bwp<
z&nmXXN1s*IEpAylyIiq+;T!&U{gQWIqJDp}>OlNx+EI1;{OybJ`NhvA9ldF1Q_9&Y
zIa`-Hm$mo3-*xt7OkCw)#>&-oE$dS~ha~*f9*UR!g{}5k@3xid_x3IK$B+G^p~bSK
zt4p$XuR5yZWeR>ji#~g;!YCfXVe*c^qfZ@WUsJe1aRKrODGJBQyF%Ux^4Jz}l0v6c
z?-c|@%J2q<25lSq&|)?m(yUh1WDFF@7&&)c#>9eVuDNx|b?-CF`g{I029~L+HMm!+
zY8PF1#xn+l0bb$0YrkX9nCQ*SSsiaS-fCR8;7zHWDxSnI=TwZmMlH;5P%1?kG+fg1
zx;OOdlJ*&~U6~MPzy@Q+7G}V^g*UQ|OV67SYrSFgn&o=7-8>%@KqD7zI`fy0UMHR)
zNL19!>p?*X5!c2Ds%rvczC4rRfGB!iRWWss_f=15+A|}7r|?8)JaeGyRT2;DY{nC~
z2-M6<;DfJ+z@aiq$~en-j>$sIMIC0iISouq+tyTWEb@Wt8UYfJ(rHtayU6i5yuP3<
zoeL#4{zN5W*j0SFp!)|ZQ_mM*`Iz>m=0@Q@qm2?p$DCTTV2I&UU#-WKbwpM6gX4`c
z?N>S8^eZ|Q4}MWofXj6y%h8o6#~jlYmlM-}!BbF{J_@|7IJHe;VM{DAeQ^mlxEolb
z6M0hM10Dr1<jT<V{GM0yG|#J^D*=&a)Wx7D;1Qz&SagU(W@p4uH1v89lP(&(92ELI
zmuI3LSu-#{{AvM_^b_Tt-}h<>lB%ePtjL7%DN5C%Qn%MATZ7l5Lcq_213J*tp!~(q
zG%!D8EJ6r<gt&zGh@*lqBM3B0y#`q~85V^w4M2{pQb;FS2L)Sz11w00n0ddlX6CnS
zzJLdcV1Eupi7qUso7`%3L#nz<s_uGHJ+Zti)w@sX-IwY;B=sJ8)R^p@h+EU{#+18T
za(6#*zp#8P)wf^j+n?$imHI{>^(W3=NcO!Dx22mqQq5bX=B+>Ev@O<^W2vE|($LY=
z(6}@-p0>9x4Xx?4JFN+G15l>jov<~fT{Z7Jup7KR`P8vxdFtWlugyHGY)n_4d_3~F
zFY)3_3Fl{!#Z{i+v}NV%M$TEk*!#Bl)X}^A`G<igTMq&_qt#T@q-)x4N0tUb_*ZnT
z>2#DqS5^)@YHvx{w*1ye+TQYZ?Yd4oWJMvarfi-q33u-@%QR4s$pk25Qqb;87@<iF
z&<4k_kRDNYIZ*1_iDPV+cvr*re378Dbge5S(pLxJ0Q&azfDj5yN9PAV;ro<;|0gI;
zq;Gzc!}iEpHBlNbLY(^l@gf(~3${W$q++^hh+IG+=csHjI=YztfkBnYf)+Fu;2vQb
zL(UeQS68$G!RgFW;%np)Ey$<>uR$UCevBnsI~}|R(d27>g%bfum=yxf@A!ndv00{n
zh8Bo#!viy9=CDftA1-5KZW;f@$my?5CfasBZQhkQ{}Pt?GZ1h!t?AnKv}eb<N$<2~
zIK9Qn=C9XQM2HDvXufP?v_m8a@d7Wj(zwo1wEp7EOjx*1@BQQvTfr8bvO*bIc9r7D
z`yzfKMZEzDgT~MX!pc~Y(bgNvmp=DH4v#gR8j;zfF;p*ISmW@>7%L3cRcCX?fG6@;
zJxd*urEA@USEU*%d=kH$Q#aK$9#Mt#*BhKq2l`5{&|eS-=t-g%H1h^VYcW|J(u~CD
z^CsT>H4Se;sue$5&<betB{Oe-!|1aiYzJf+Aj@tTyyc2ulBE54iD_2Uy8%ZLequQ4
z5NjIvCOnH>DQYOHSE1BZbDk3z>8!(k6umB&VfXT1xs(;Z3he+FuE8rndcqg*KHps+
z3Czk}vn?IiP{i+1=301!-CS>8zjZz3=#(6tPrLRc9m5IpFdKc@c$JCPH}sNlq7A<_
znml(oEw@QO3u#C|lFRq=k|qRd@omj7YH~dlZURDfW}BH?n?g6Dy;^0FvuQ>JXC)ZI
z8wk&D`P5G5O8ZxU7hB*_zkA|QrRP18qvxr2zvMXa$PF)HKA}uL+Jz=Ibe`&FpO~mD
zs3L*fLg)fEBiX<Nhsp{m`ZjV6^-5G!ETj{O_`{(HMC0>=pWO5kS-y>mMLRt7z*)0c
z75|xpxtTTh0_2@$5@a%Mk|NpkUkmZkE3#b?d0t`a8zGL|xn5CkawPr)+sdMdQXCL>
z?lUeJc+G;5*Fp@TSJQ>=7!<IK+_i%6RYF*Ky#BIw!8~1Afc7;I2&mb(Jo;aNc;Xe*
zv0z!SP9xuS4TbWg^Artqk&78(#(Ct4ndUJO)g^<RwgvmA<kWAHvuvR}W{cT*Jz=?d
zjK_i_2C4tmF$}gL2JAo~!4b2@$|yBviIvl{0Nyzb+_K<|Ibu#KLrKBRFim_w(vuHp
z%tANOY9{yaYJ~lWVDz=uD0ES{gS<}idf>_WNC00>KN$>#y%oyzzeR~ZPab_jrG#OE
zwK6HZB8PNBA~_933HU|702%g-Y^6z&4LhdiBFdytR6VkjB9w`djnQ0@HP>YAmF=?j
z+IHD>IXrU_a`4wf!E2%-*@U_<JOjbThB&bT4Po?gp(mWA=2g-3r+SoW$aG5L{J<yA
z{bKk(LP_FZ!-EV3T)ro6eOA>Jx1_6UKqNObCd{>eX{$;*>K7-UI9iv&E0a&UhSSY0
zOBIVR-XZd{*_*CvS!(>&7SN;3mA9?fv<LS}_Wt-8si}W;aC^eOJ$@$9Jn+7=>aOLE
zWpQ}fDm83R>^dgZA4@uqC(Os=n)vAZmF~OVJKja#@`%*5Gci0aHI64MPbSPK<J$PS
zRn#}Q^xFNM_pV|qPTT4i&pxp=C)&2JoPE-^D~;zlscrYeGmkGy`<_pnzaZ_qAho_A
z*_&5e+Y;~{ZHdm^l4JM7R>`q9VcyHub#AGm?;K4dhJbtsKvGI^%<&qM?g{Svg5|X=
zrYujD@sOWC(5rl5q0E%m^4h`_$mc$wx<Z5-LY$dUuxwC}iBXv?pwIHtwjOOL-jU>1
z`s~UlCv^~}UGxf6ClHWdQdHRD{N7KV1D}}rFHxu13-2cP%vQZv^~Bcnws$%Dq;1DD
zSL4#2l@m{0`xEy4&m6Uj*Osq6b?i=<ce4TYmKW1Ow0FwJnTw=MWP6H0;|y_n6tWhC
zgfEd7Bk!x^vF<KW=mdG=<k3tQep>bZB?97QcyDk&1VJ>CF=`Csnq@bUJ>w8lX$&pP
zH7l-_$%kX#oLXs-yrY!Tf=PKob4v3=U5jB~y16yOo`XZm^UxT3u3GGC2Bc>WYjlP^
zE5qy1%<NIxK-Ev;mvcF4iR5O5)KU=oPm)zJH40HpdXifCj8L?IVuF-PvjGB%6~IG|
z#o+ZsQGwPXipd1ki{*yiYmu7@z9lm{*r3^#E!g##j#(5KcbD5((6ZdDrXglBCTv8-
zj_h~TxeKXLN!j-lrfac#FB<`=kZ#IYoC;L0hpb&o=p5);HzE8SKorERXS{~2Cy5!G
z7Fm6vf(BL2<DUW^Y9ST9iLxa}ZV1arV_YOdiV8L?r)9yDRfazb3B`QhCypDV+w#!=
zl?ohzhwZ<*`R-@$e0FK~@@TSpAZ~?V^X~Ya@l@4-R5g&S+6LU{Zb`X&C3kP!whF}P
zlN{X%b2pnR6S7GpPAE7nTk&CL6#I}3`YIYKhH8Et0elqg)TezE{omuGV5T7#=2NkY
z8K!`CiXCE0Q3U!2I+dYh^q9WzGwKAg4HDiW?_GG<a2XHz4n-`%lPmoBZ^Cenn9l-e
zrc-!8(Dbc^e@-41B$qQ00~sE$y;r0mQ?@_lQ&;4R#UPXRd4B7U`?a$f)={KLtC#8A
z+$|eFd0o?6b@%F0bz@T9ShDU|yc|qaS=H?esp?*-x;O3aNV&I2?k(w>&QwjGRMVGk
z=!7ue-M7Z+-Q^jbk=R3HmOWHBj$&aw!-T@u(EtS#(rOZH<W-UPP4bG6;M){O-e2P<
zUV#T;z1C>xSvIZcR?e@OrJi9_Yv_46xkisnEw_JE^P$BFUa+DnW55&LsA^c;v7}qv
zBe^;<CW<n1)s2fs60L)Y#zCoS`^p8WYB)ogGFHyoxNbv8!Gcuv1}vz~n6-b5l#N)B
zI7Z+$6%!Jc%fB&2b1uygG+weY{?Wvnf<`El3t<iH&8%QZRiO;-(pm&(3)+BR?ZGm_
zq>SU#`^s;Wfy-<zm>H!kjf_Amuqu*G*_pvGs=}bjR?t*_C9GiALOe*zh%Mv{>wZit
zO#JvfTPcjXDbH5|yYdEbdOG6t@}xP8VKgyK2rL1`$8t+|!4NZ?-;AH6IalOpE|Oa?
zqD4lqB49y4#ZX@<mX$`*rQgEa1z9^A1rbvT#i3uE4Nj7AheC<U<%&ug=$M&~vH6T;
z&+x-d<drL!8V?M39<#qe@p_&t)EIZ3GnDe06nsII3cpR>zaZ~-2)-hlA3UI<8OLUk
z%P0~ORIo=@j#=sdSiKuK#uBq+;Nw|fN5F|UQT9#l!*b5<N_#rqvD~-3Q+B^B<vA#M
z4yK)3ZtIEWO*ywn^tXHYWq8k=Rg!aH@mRt+uyh%rw6ku_q;D-x*qg9oovjJ8Cu8G)
zfh_kdsoJel?bc-NV0`?~J>Im_y*%_t4?<gkHY?C<b;=eDV~E+j$?n1tC9XItZpeN>
zG?^pPQ<=Q4pc|W$2GLxeDLu=#!2{ut-MexG1c(8s#krrwlu@Y~;_-5^kRvIy4#g6^
z170{^M~R6JB0@K%(pv?!^M(gG^*2;hxyhMV|L2wdQ{@F2vq9dZw*Bt`S3+^moAQPQ
zuw~1(2c(Z>LO6svA!{MhOgKm$3o%9g%XocPBkN#D#V90@|2qld5P1jSLHEvf)nf?D
zh9EH24R8!sU<4}bG3|Nb_X)C^QcV|`(HJi~E`<Z&2FS9II0RAMYyXfy|227s2;L0&
zJQ*hPSU`%onI8tH3TyGPJ-3?e<(N#D$XZm)%FO16J{h|Xl+5L!r9)@{o3E8?>3J)1
zFOujR{iB`V+57Fik6%w7c`?~cLf3Rv_pfP|2bc9yRsV`csv1n}8vnPgkIz2tkanF(
zoI5Y=Ixo2{#LdqdTi<%_-gC?5#P*}9?I)$}Cm#!m?I)Al&m}IrkZgQ0VXk}Ta6PLV
zNY(9<>UOPMOV%BH=GmF@?3X<IA6`y+jy<dGPu1?1YWG9<lc?JQElpkdx@p5cE}PML
zm?FX8tqfSEU|kii4B8;*+pj%@_a*L2nlBkin0KqR(30jskz<IRA#fs~ORc(}H|FI(
zw~SF*$;_#1P}H8}z6cZke99$l+z2k4y97z@8}>pI8D4kGcv%xO<k9<OlDiovFgegw
zSQuU3z$a7p$S!5A9-r`+b$7X2hSKC~o?p(3wJzoP3{AcZF-;y;?SfDVO>>DwAIpiQ
z7PQmH0aIf4Du6-frbwn&<VsrU=t^1R0QFQBWyWiiNHpdiXw`+jpuMHXKo;>kSk1Qp
zm=`X=634>WcbZ26Ns0wRhXR@9DMH#T53dNF7*CVu)|IW3vC4VUyAxTlIX<Bhj0%;l
zNS~B^*}Yg#h(Inch{LxP{v*{*WO#0qym|AcLSr{lGljgVwVzkbAYTt}pa0B{v+NbZ
z%0I`9v&DgZOu8i=V64|>CGREF@bhTVkBAd%N>z7D)!kT>PwV@iZati+JA$R@E{`8u
z$L3eR*!2`D8pp15yEoN7BDIe^+>>k{lboK_nkI!XU;a$8X4h@~YJ2xP!}o_%?W0or
zC~ef%`_^=8=Q|De8=f_FfpqUUtO4!bQJHXhfRU=(6R!3|*DlGmD`DTIP`^KiHqikC
z*oZ<y4J2$-tVv~CL02}AIB(G4%H+}4Rml8iDkV$Fu)$~8IDuH%Ubt%u|B13tX7*)X
zeU%89L&}$NF`T+_aOb!G<R4@k4fQ2d@wbczs@;A&diTbi8>yN>iT<8T44s4@x3AW9
zrs{^Ix}kXaGibL59<)Do3?$403CBQ2@38FttsNh6c&vADWzFe2Pr9}%QPZ7n+ygZk
zl-3)Wp$V^}SV;7B>M5a6;XZkU&V+B1M|+y^AINJU&rKfTAAuAN!YX+u$Qvh*iHUxb
zLgbmKYmX2Bhh(fWw5~c`83Uf+e=6%1U5l3%8>9-bY!qcySR&)%Udh#+u}~Cd09c|W
z_u_L>RZqr7QFhMiUMr(eUpe?GS4+l#C(3K>S=KGTxNMU=Lm3lA!P=?fwhOxWL`AP;
z>07f<q^Av;Dmya<Jc~0?l$opT$yg`^rmOOHpJZuSx8YUk9CZow1MQeFy=Ec~h18ow
zOwOseaP3>zR=%`>A@k{AZV$tJNGcVRd(+npAW|?&<a}VkptLh(m3AiH&QyCwQq`%v
z0F--1z8uOu2UssBL{@riCmO!ujdCdVDuZ??`^vKU^t=lquX4UB=$P`b3O0CvEEx|`
zSvB%i@b1#-e9b2Do0OO9MJ-CL<m)!cUB5|u!zS^zpbP9}Bg(Aeo6zS?YDaIH0aMM=
z`!);!dzm8YugF0;+JZc_+3~E)ji(2(^%f37#4R}4RdV$BwoT&OgAGbKe8(mb>}yk<
zV8c5hc5LLkHi6uvueo-1qn%AS1=bvFfr_|fI~DSuu>iK9CupJ&#>$JFt#R(U#@7b&
zqgQqpptEB$!jZt77zm#_ePO;W3_I01k_<6p{Q<=f(vhny+c_}bSP~{2xDgb@f%*E9
zsna+RGcaFMl!h}`SAqe4K!yp^ysK1QWlE%4xJ`LgN;9k3=Z#7<G>MfnLg+GD>L>dL
z<=mF=3}YY=B4#p%iAka#RYzg^t?h%iIiIF3WkGX8o9Cy%7iE|D7d2j0cDEe`&3n$!
zX*)&@&@nr<qj^H2C#M+&OK)YyydtR=1QD4)%tZ0XH&>*FVPDE_OGGfRlUY}0=*$&t
zfrSk^<bv<WNPr^P5aDb^hrDWYrEJZTt$Fd<Q(Jf1)%bpSZK7^(vV32{ypN$oj3neX
zbm~pEv7>Ry2`b?Ov?xcg5_L^7DmH$<iY?}sHHE63TecYY3)oOp6vxaW3u$>|C0A0o
zO{S1J%3FaWA2hqB6wO{rx(Y#x4yO~0YHsLXIX`W1%z^YQ!L<T{#2G4tQw`^zfXKD0
zH2DgM9BEy;wJ?~c&6l~nk@*5l<ELmBE^<*KW0|AHjMB@puUxcA4XI;{)SQWYv{g+d
z6-0h(;>`~%?`8Y2V2-w{P%(2%A0=v+Iq1c$D!cH&rjp?(-=#uCy=n+zxe_C#t_|eL
z_f|Jm0$Bqh*Kdqz3DgaUnoq86YMYv#e=b;fdvu5TJ~gC<^3Q_QUHMow6thHWH8VH0
zM-Anl56aXLQu|7p{RJz=qeL(Ha;De}ME9yCOcBy4as@3S@kEh}S=5?hR#N@s-Z;NU
z1^vHNer`5R*G7-3b@7hUef=u;D>>N}jE0Y^@a&LFrTUhCZkTsYbyOcz6wJF06&f`X
zU0UR(h(axLm^Hci3}fNS3E@`&5#lgeg|8s=0j;bLR>>n=5P~3qyZqsmAH;wANADki
zal7qGi06aT3a?l}Hp1$0Rwc?s+Ot3u@>e>h%(gO7uAs<lMrGSlEFNy72Duz;1!-#u
z93m;XoI&_$Kl9^cwrqc$9gJ2sU$8?)1@Fps9M{8XkOC~s>@gtOGVsb_!tG=818mdT
zKIS2zlRp}`ykW=jWRH}DZ!k;a5f4>fxYuL<`73H8NjeKE@^;AvY+Eqjzd)&Ww$-Wt
z{}WNdM-*QXp##WluTvBMJH?k}dz9^nGdln?LKaH4kv37yLMTNxybd#si#VjHoc_IV
z=DDL23ZqABT(;10TGk4I@T{<vJepI&-;g&5kLfa%Bet?x9Szx0U=!kp>9=f}_A|;x
zI7WH&;%hitV^pN+vWcC~*#T>k>1o-*4mAhy{n<etep)V5IDJqVIP(m~pX^NhA`ale
zb_G`1w4VzV<oypSx+N008bn<XE<%W0FpaXJd#_y)zSH=#JyxKxV*@Mv9fkfkd5_@9
zm6PGnEKFGFP^>y?7HsXZMIq9}C@)+5er6o$_cN0#;%&1|5k9alIp0#62Fx9sn<awb
zzrp(vEEUXUw@i|`_NlpkwR2mlbHCKNKh=3$>O3Ad!kRi&vsJ3u8n>q#yHkxrQsYpn
z@tD+j406F$cO#D5+0w1s>9}3<YEyfvX;5k!q__ICrz_>zEqQj+TT{BBHPz5BHT1KC
zd8_$SpH*#JX`~ZBmUMIXTQm1&9)zXly#&?peqB$pZVPHCf7aBWu5C;=x1~L8>1I#5
zraoO$mu_fIH?*u*Seju*UcX+&HSJ2fI@5KX&s;4_#^v&)Yd5&)CM%Uyw{GX^yO#J=
z*Iub>Z?bM5m71<?e#>#sfnZs>r8CvCQ)<~sz>Q!sT{Wr7ZmF_6Rk>BF+!{BftE#_d
zc*}av`ZhZ|x?=j)+#f9b?!wdd)5+QiscHhvw>jS2e{28Z*b|%Q{nqw(8t*qg2!7-0
zyH_7}CkGBcdRZEnNVcAdk3F?Fzu(sJPT&2$2Xo)}{JWojxI4M^$fJ<7^-Qwu`S{p(
z?Je(<+54eKRo`j)cGDwA!ufoG-Mg7<874zocYVs;CAqs;UlTohlCEKNwuN=JAydwk
zRix}KlD#EmKPcG`W^|mT?7QYZg(LnVrdp29Lzw9^u(xq*TQDIur;`f~p3ngqz!p1D
zBKgB9MCFx&fsRAn13>X<ztEMZxl2)hvD{u$N+Yk*MzDtK!79?+fK9*`da#S+=(v0v
zOVg2g4F(i|TGE*CP|}4o(2!scCI_RW9Nm@Ie1I!3PZa4J6y3xy^1u*-Xbyph0H%r%
z4k08vg`hYSem&^Fh*P?-f)(dI7p{PHAUxv{uguJac{;^1H!TEl*8$zdF@UW~H#;+{
zpfQ~|7lG{u1fT+ku~jx7B7NlYQBe#EwD+*1BdXSdzIAaUseK<)QMAyR5gd{aO!IV-
zT{%Xg;6WxXncuY;M)~A?zm8^#OQ;cYG9y>pe0ToN{L;WmN3v!&P)c*hTT}O@65a!k
z^vUL<q_uE2-krKLwbZntPr7%)M#NT=u(e>(K?1q_O0s<<)qYTFKbUMEeRTFo`!O6E
zVG!*=52@NMQtg&h?M|t7XMFsbYam_So~~{M+DdoqUWJ`qT}G#Et6aC4t8ga7j6)<<
zoTDkxbTC<dC}BRt)`n`8s-W%-XDetzF=i-(9$}Gir6zZ*@C+GO%B~tjQeKj;%iF<~
zVw7@<KbZ9XtXARvVe*n=K+vMB%PSL0N%g@VXmPrYS`P<F37vHy1`iHPkekXe9ZDSe
zvD~>?rb;QnPQ8Ni77PnU7~j%n$XpB;Qp{tdRMHiuwEC$WQ=vkkbeP!2Olpf*8>;fD
zYKWAfibC`fI|V$IV-r*eDhbOrUy|ihMpPfOT*g>z=zqx;@_Lk-9V19pOxd%+c@5;t
zXoK)?;QeQ%F{=l$(c`M8ETzJz4&5Y90fX3JWTb2Y0TG!4fnWp_=q|dML^<=NCkjJw
zQnWF6eHLpF2UO2f1-Q2f<X4uqQB4&6gCCFDE}PY4S>uPP>^0$!Q2+>^5RVIevb2my
zEWJuEsKSRDKW_NJbwU23YBpHI778FXf&XK)Rs0YYK>N_>d28a{#PYsm;~o$Scuh6-
zOO5@@;l#ev$;Js%D!OX#4&NDGb+&%Jb?NN=b4#6)vnTCrO*y@i)4SZ7boQm3Ly~i7
z<?KVv!@;C;f5xC3<f?G3+l*D#xEcE#?8^?^Ik41|boIu~tJO_+KX>PIx2(|DZI6r3
z9F@1X-xlxe{&Fm?Uv)Ly-G68QQq@v)`Fzqf7&oUY-KokBsj_3~!t&5>R4jc~s@##P
z9FZzV9u7UKcyuILc_MDgwsP^xvMJHDZ6)y3wFfyJHE%B5T39@{<Vrd^6Xs3@cbKw@
z;H+^o`@S3GQ8^T1$I>ahQlQk;0C`kW%G@Ql?<pp>wC|O+Sj!_M$V*D04j`obA=QFw
z14`|dF&sW+_6gYMa|lUS3Vr0IXQdQ|kXZmFsms3zAwiNel|v|)O<4yE0n9IQWJFU+
zwa5?>&=KSwd6|T%2q9St(trp^>hekBo2%2hAs@5D__6ZY(AH9D%LcoB3;yM9?%8~t
z=wy&ei%e02iyTe~Sl9^wl*pbr3kr-BH&tH*j@OSN)|{*<5382SYthE+)`7DO*>8YR
zBUDo4AceC7y=n{4D}AdH{RetA7ob<zc@VBu?q6UyHiuq?7E~#afJXQQc+i0nY8C1z
zmK5m)IG0Q#gjVu!tsTeEtk6!O5asAVNH&20V|bU4t<VY2Tc%)I+-3)MlVF_6Ndgs}
z0^1hHY!`Y6+DjhM%nGW_op=Dk#WgHA<dQwTU@tt&Am9o;PNW?-kB1Rb<iKtfwQg*}
zeE(*|R~B<`1ed9X1$gXOg1zF+;akJEUrO4VQnoh9)|Rw&ENh<FyhJ=Tw7hlT-ht)r
zB#sr}!jy)VR70QC(6{^&4jCjHaKfNAho?PXuUHzre|V`{azd%>NjZCfu$L>6&fb)B
zhveL`GP?5GL!j+_KQW%hbrF?|=kL}0(kr+m!p&}kxYwVm@005LlJx^g_tv=W8E%^x
zSqj|SuW*schONn(ZE-tD%ChP=Pv1Jd*tcw3@ja@4d_HME`~9-2TQA){yQslcK!K%-
zWLdis^UBgmsd`|=_HattcH(h+vTOp{YfA;xhQ#ib+zQh6+Qkvc-nsPJayzkM*0>4h
zHmd4q>)N;}td`sq6xy4FeT)H^)FY%iqT^^`tsTJJzsp@FS`5q)L$I2xsh4(x0a%s>
z#3_ogtO1yzU_oZ76}5PJVnOOkp($pQhzUY2PZ{Fw6m2Oc3wN`WpgGkoD2F1odGj&U
zT7ss`->{(O!7Vbs3WRO~<HfXDpcg^SU1n%`!2%J#5=%nY91Etjn*6-LbOGv!lADG(
zmJ@U@*kkrD^c9R(2~lOt4z$NjZAy!(o8Dy|Xvo~Dm4&kDEuT{Ek5?*DrUj*fb}oTB
zV`b{-;WnHl+=inEeTutl@(47CJ3)~$Wce6_CHx6IP@TBPj|5>ebT^IgIZF6*^7=6w
zgx%yZELwq(Y@~ZUK#P_u7;-1U<)*S+#kfNeGB1A=JglD?&<TG^K>r?|tefJm3xri=
zi^4}jd#4~+RaU2BSO_cG*{$5W8TVF#Lk{vH@f{oRWEN4@`wK5!Bb^|VkP%P4!5no1
z*}7?#|AkhH2jDSd4o_Rc+_?G=XFiv9w<^~qBzlIGt7?)xhm-Cjz-lh2=K4}~gHqk#
zN^7!i=+9g`<3|9$)DGEB{CK*yV`*~f1*x_-KAx`YTRsoC_{r7gwp8<o)I9QV7)*2g
zOuDHx)wD-y+VimH(UxS>>G;Gd_*#eeS%c@T;d{eigO~g(d}`OYv}^ov$CKyJKJJ!w
zol8`mPuJG18+478cg(l}2xfo`xPzo*!&2Aq!;U}HJnWXb4kxOPJg$J@Y-8nZGmI_D
zT2uCJT&c5c{;qv6)5%rs%Jgu~j)b{gA%nB0JekyB0|!mw6o&790|6#x!n4@1yH`qJ
zGIoDTA@<B>EQPP~#(SlRlm~f|cr)Htxep*mpk}SMaSrE4s1>60jVl2*Nkw8FEyTo(
z0n~?Qa8C&?ucZSXjG;S%a8Z8Qk(KzW^Z#SQnJU%DJ9~6Zk;wFJMif8{PdAAc0ykqw
zMOy8O7^Xc{(=F9>Ljpr{vtM%e(~TY8RP%nRd4H;zZgTpgx$n$>dp?0Hotn=<Ftb|U
zoT?v|>W3j<RZj9_?`#->;a7t-?tqDpvqe4hyFs>y?kXRh$WSIW!L!(94_xEg43emS
z?9g5%X~#F}Gv>XUbpGR@{nT~BBVbD%u9Txq!jVRE8=I^fno9GNi9ydHu=y!+K6g$W
zbCun{gB>GFAR}YW<pq~?$_qGJJ0YAvDvXhEixBLuXjbTzS@A{03p6$4itJp-p);}Q
zf;^|93dn0@HXN`o#COGj+h`zmqb3Z5d*n8sa*s&#H}>#Fc$fe-+{4lgs*thkJEg{*
zD_4_^hlzi8coORUc@{SL*!6i9<%%8LB#F(SgysW^6lPSf;AU|$D^F!3WQ5NKn<#tC
z3*8sMQ!+si&6pxbLNj(nhvvO33ZQG=*pTAX@;MsKlQf!H<G?c%@jQ8F$z$m>!g86a
z^P_8w#hl${j{G)Vnh|ij06$-N?xk=@v+28OBuT!D)#T*to`kIzV-`QXN>a#PpzE}~
z`u2@P+pb3uh~DdPv`JfMjh6v=I-9V!u&F0pK-)IpN18(nKW2xdwApj1nU=$7>dggO
zMKx7U_di48l)YU9GmqgQs#!!Au(L9@LwE@h^PQWlsEuXdnr%)bn?iIQ-KkR6Q_3+Y
zIR;nyla9P7)s($pdP5)S^RYg@h(MtTq`>kRtE%LBqC<Jv&yUPG2YgO_fy=EkvT%v8
zOUQt%iExzdxR8(cXIms!Knn_zff>JK;j#<yGZ+cF7Lr{iT^YbtrYxMxx^XcIKScxA
zzRAE9R*Cz-IdK3jfx4}tZD}Z3(F5fgDa^J>kSo<Zs!EN%B#piVAycyHGtg(H9XQO=
z%4P}>$Aq_C7)9=a3+t+J2Qe(UF5XZM6{zY$CqdD<6yfs}`Z{@x{rxW#BA#8j;O;(!
zNOPbdBSt2YCcl6XB-)ehT?|zTWhhiOo@Up~3eQmub^@UL8H6?py+9$FO6=Y$;T4J_
zRLVw4F3ajICxdiJA(m}5AlYRhhm=Y90|F(F$`St#-j85`YUi3-6Z*QpsO<!=*KtCV
zZrYn}*qyE&Ty@ue=rA{0*LBu9V?tkz^FMUGi{7w*c?a&7G3;Ma9uIdss`}lLA5u*A
z!WV>4>|xEA=7-!qgLP>>Lyw0${)Qfzn8s}w)j&6x(NSR4(y<hkEWK+6ddqC9G<2;T
z{hd?aJeA=PeDuP1UitPbYZT1%v>Lk7HH~*;cVZbGg$H;2PUANlS$Ne_PM7#C>Lp9#
zngNNKW11F2$Ev&GZum|(gQL?O=pNo)x${cKL~pn$u>Gx9?!A(+&>IX}Yu0QOI;<%(
zw4@t$WpsFEi(NAyoN3k=+Lw;LbK?Gqch1~DLr1sUGe(1<b=jTa@JI}ucswKxAptKL
zH@EMQCfz^yq0M1vT7@Wf-yQJn2%{O`Zt2ZLZ_qbxUm25{_hc;eYUOI1sDn$qRI?>R
zc`=f%y0tP2wdrZRvLj%i7Zj%4UZ`~3#NzBaL)+4c<rh|VJT&}){det&9b;1eQK{n?
zF6uJ0J>KzH{F6N&QBXmXG$Xv{*tI~yFCr{ECTGH7#mqt+2wa?0W*Z>}X5kFp<_6t1
z!mc)Ew;l_O6f?6+jt8cvm5FS}HEh$_tGq?UaGH2r#UgG%F=$}RMRpUK$i@uhw_SGN
zRPJPnirIvE_pxGEDGsnL@e*!Z7nPMl9I-%zi0t`<Ty!m>$dH!6)-p3RAXXJ*A~mF-
z1*BNXHZLEGYU%QJ<tQx4K^5a~TFi2FQ3(S~cUN$ff`~L`F)r7C3{)X1X=ED-ibRG&
zGkIipDA$#Mzk~}O0q&vnDwfXf06|>#f;x7!6Rb$6UpV^B{-*(kOXNNlSNM(mY+$nA
zK^))<PE@eVhh%mQ^+1U%S#lT`@aJ>kI_iSUO}eNX-Q@L9TU$4)Ja;Zq@Df}tgHzh2
zXbk-#yL?{QLS^+5Obdf~eQ-dz{$!x|o-cun$=GdHvW@zr2=oNS@MRm7VBgTyK?2tk
zl4Z#I6un+0@2AOoo4ntICs(Tf-+{_Hz;NYN%Er(v(V@!nI!VCheVD<xJ^X-h10eY0
zM3RK!4n2+LLnEg-t@#0G`#!f@;&y+Z>-+&{{~lM3*T3Z2zQ^tONUPUqKjh$jWHo5C
zz%Lr@-`F|LwvV*x>qqvFhX`c<_qeU!<NCkHJ@=8;h+G_b<(%d@&G)$jA8B<|BnLeG
zJ+2F=#94RKzHW4Bj%$|s);W59)Yq<Yf5^dGKc(5Ju_jt~uXA{=&uRuVdlH`Q>l~iz
z7d3TA>ljJwy&!eGu+HIaea~|mjWw-rNHp%0^t;w|^qRq~KiZyzrYfcBmNeaIeOubn
qmaZ6pWrbF|ZoQ_{v@M={>*aedCwfL6o?PQ7V$FuM4_O);(EkGmcmNmx

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepseek_v2.cpython-312.pyc b/model_executor/models/__pycache__/deepseek_v2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8c6dd4e033153b74f192e73eecc948c4176e229f
GIT binary patch
literal 68524
zcmdqK3v`>;btVcB58_Dx1WABz@J;YdilW|<^|T%&ZArH5z;;lI03}iYN&SFiNdavo
zbsI8qYO1-Zs7Z58&q|l6vAfKy)qA5%J1g#;-dnewdk4R$6bPzWQKwqd$?ap{NSS1E
zXU*JipZ^KyXB@Ygx$Dj^>fk)~dH&}=XYYOX-sjJpPMZ!-%=qQ$qaMBPuP7ire$n$N
zZ`SE<>LR+3E~1Z=#PlIOehsmbxFKYS8$(7t#T#R$xH)8Iep5^zFAbG4e@V;|vLM|Y
zv&5|-D~l_Q+2Zz)J?;oOSlAMC#>+xw%x{gk;_i@}`E4;zygXFS{PvhPUJ<H@SB5HC
z*b%FW`$9hEcgFnj>QHsOCR7uz4b{f$LUk;@ELI<H2sOkTLyhr3C=hQ7HN~4l%`D9o
zYl*jpTAAM+Ym2vs+L_-I>xg%TI+?#b7L0d=x|rV^>yGz?dYHc=)*J5&^~L)`{VZG=
z8;B2v2IE7aq4<{2miTaJIKDNsm8Dh1M&jE-+nC=M+aBK$+7aIw+R4KH*sl2Q&~E0h
zj_rx>4ee$An%KVhQ=zArzc#i%ejs!pelT>9h3jI6;)g?r<3~bAShzm+bo^-ODDyYO
zj>V6Mjx&E_>_mJtG|K#e*jRi#G#-B@^b89(#h#6y44q{D=GdwD>CkEBZ;3q@e?Ihl
z{7mQ!3%ABzh`$(mG5(p*XAo|Sw8uj6mqIVaUk<$-e<k!v{Ij9YviOczIQ}c4Ux`nI
zCgNv9XXBHh$#^6b(d$Zd(c?3JDorTm_dU_em11Ue#-`%uLg)3mSs#PHtH4P<8Qu)|
zU~DFSf#BgUiN)ga$r8OTJ{y{2^|eRm-_r~ELKjPPPwOIGZ|EZ3QR~b@sWj#HJ%b3D
zV30k4?EM7DB!lb&WdA2XUW&XF8Hiqv4C4P#^zxKBvgHj^=v9_~82Pt;LjEfZas-gu
zqL!I*rPY#8t4GnU_l#nnu3|JTGmj-`<yRWb$o4mMl0Wph$PPgNRDqIwk)6?n$gWM&
zc5f2DXOsB7o5b&nz7}~3|M%nn0sKF>30%pwQk@Q?soBygf8@{`#?b5kL-gb@dU73a
z@MPpj^!3QWbNcA@=<#L!Oo{Yfl;8KCe$OO?=nKG%KZ-eX>=S0!7Z~JmK%V#n$X{iU
zqktUy1jsj{_<~XYIAEXo`LOc5`!$y1S>!kweM$Zvf1SmiLhNbna-yG&{(AJ4=*#b6
zKF|~TBFpg{ay%dXqFl}*i#>zb7gVuJkr$)(sDsU=&tP^BVaBnUg>N*3asSfQlHkkN
zx{u9HMY-tgWVCl~Hg+{|C>otlM57nZ4E4+2ErIx4BpU1cA+=#VSdz0GoQTCH&c>oS
z%dupXBVSOTGfyXC)05;g?4P}gpOV>G0K4UKh7QinPEDUv#cUB`09(e*O~%6$(<m-H
zH=jU^b$>D$olQ>9%_88I0|zE1FGOb}DA+X*Z#WUX7*2B2$+_8_=hAFZ6mnK3F3r!+
zamjFUj+;Cmo}7!%PoufUoc-X$<oT%Bq_SrxIP@tR6T`MMSaU_c?_4w)p1j0il#=1g
zh({sRkDw{%prq)0_#8KPX<i7;OQ8lzLk|*jT$qhtcwVd{%uUQ*$hB^s{^}eTi-Z%?
z*P^+Ab_r-}_}oPDe3U~My;RcF9QW!37ooN#qgRrMwolJaC&RJ1bLSY8?eui)(*D`V
z*rgZ}%jE$bowyq14ooEI#g&~tKfy&KM=m9zk+HeM7-TC;9-rglxzbZ(r^$nUR~(#+
zU5d|2gEl%n8=c^CHDgikTr{GY<~e!dOcA*IRCFE_W+EAlhy{2~&AnO(gf_WG=gv(h
z6VGCTL=zZHG|DzMx_@jgaw!%~<QmbR<n+<#L}U~t%_il3y}(V(&$FJFpS(1IiF9p(
zCX?_|QEoL7F)1*agx43oNKoOa`Rz!w(2#O-^HJ0$&yCSBswP);W^QugtkllK@w3rL
zWP0`-AS)x$sR=YE{AzUi+<6-NiAa>oRmUf;o{fgNXnbNmeBp99F*y;7hG!?@G~_-^
z;7j!VDbr)}{H56oNODV)Zay}V#QTjS&U*~6my1Uu)9CGUY<4B6jc9f_esO|cHwG(L
zLE-rcybV<>vR6l@x#%Ri7Ckqepl@yRQX)AQ$0vtG<78y|G777fzt}B9$7UnZD>OgY
zSC^}KGHEQDoQO;$Cy>#8;tcz!PR~atb8fsO`DIYd4+&$zhvy!fzLLDeMW2~Ed<E|S
zt#zIjzR|?tiE~&~98z#}?$rLAO$t5xEM{KWv(JuAClVNMHZgO)=|mWxTwI7_V;GO3
zW4Vs_#D!=$8lO*I4Nt4aO#CDh;i-v9ED2Y0b_N)uuON|g2(N0Mi%v~n!I0RM0ird@
zGCd!?LhI8cErrtK6Fra8@O%+eL{tarK^H2C=tBmpPWcxpj~JrHh%su4n%TN+ik3#q
z_+J{eL@ZHj)E2c*l~kh?VWo~(k!FiJ#E?De6n&1UEdu{k)uL`nA1Qmo87hmoqOO^M
z*b>!G#Jx$pQ#&5Jg9p2VXHj=WA1Xhs3wm=N>7~oB^I9J*1QW5q*wOug>G*ss8po%{
zzOMkS9f7mTP7=60*f*ZDs}|0jSy(`G_Vd$`2);kI(phIO#lz?EfhBS_`trh9-I5bI
z2lLY>gLj_u#V4+W=jRgB^eN-*ir*ey+$62$;>w(J2;Z_;jahh|IWrf<yqlf0tA>Xt
zLkd6ocfgXrroX96%85(Pl<q6QIiy`&uS*$Hy0DC!B*k4>fmm>)jDQevQ=KlQo3Y5n
z$)1$s8feXk{z9itmnb=|`+|N`IMjvmM7#(7k{O3wjO+n~+!B;jCMU?Al;gt7IvrQB
zS*of%RjfS@ZAcXyYj@HkRS_xC&Vjz75ATU%hL&2T95j|%qeJk3V-!2V0!sEvd0A|Q
z5|Vt^FjB}XzhC6lpePW#d0u&ZwV@)0Yj~rm!ztC7G9e_7d8!m4mz0)ll6<VU8nvPp
ztr?>E79+-#^?lQOm^<{K9(nYWZ9*Iy7wz&i>Sm*55K9&3EK2oCWhH}>PkSsji7my5
znBO-`*g8tAl*&o=N<QTMh2JV*YovV2FJiUcttDkm*}krelzyY+eT#%QqYcs;t-GoV
zTE{t>klao<e=U^w;JZh#e;LnCPb9c!5ru6Ei%@ccyBdy6$7x$omK}frTjIt5_A^u8
zL^3&h+n96E>V>_XEnwU;NMq%2C#f)h&IBwJo027ry$DEIm^)4o)To>*iF#sTdG+H?
zP^_1g7rh$3JQ2GT71zab1yrgkXF$`qmne&c>SoO~Ulf+qQbINei!2q_Pi~Z|9Ve%m
zWw{85d2VioYo(xhP6%{SK<YmhS&qJ_oRPX3EXx@a(byDs6j9tUa#&ZW(L(7oE<zQB
zqmVOS0D^ihkt<Ekiz|LOJQ<rvB*NhYeLw;AbNy#y{mJ-z|NQiPFJ1%CvED0}w(Zz{
zVOz96Hhs2#{%Z34+-yJXD*Xa>4K!u)5_WVUnCOp)luY>YP~ZGj?iJK<O-5hjovcrK
zBeO_P+y#pA)9bp&bvkR=QYmlo-?P+YYugu%_bmSV<s%#A+ZRi-jhz&(%euT7R}1fI
zSv|+Qde=R7T|;ThP}((=t**~h_wv=f>ps4E`=as9vTSo_rg=BtyqhvMX6>$wy_vT+
zub#VW?*-qn!k_VW@!qbr7kKaR9sOPJj<jP(+Pfof(N)y0JeR2-=J8jMbib}~Rlho%
zY1zrQ?7VZ1Z#leCcZ5o>&iY$clbMcPJpTN<P`fi*RdaLp#_VeH-Gz4+_^M&V*|Wad
zjIWdTb*>G6u;=z3-bd|pAok|MjfK?+@9SdWnpXU{vK@P==+=k+VAkQwI^1uKEsfzP
z;|TDM0Q0o)j+U&aDqG$5*jZX_LoVmza-FYJhFTqdch5U}c*g*hAOKoTJ_58qF4NVv
zNTmub$W{+zJ+)Mt-CRpRE&x?F5YYJ2xCD#P=+Y<~?k>K%3*huuRk!@&%JXS&%VU?N
z5_!L3eS}x5%ULC~0r;kbcK~IHCMHGx7(wZ1uch!KKc>P>+I<LXEqYQV68G(8EF=qt
z1!KxEqb@~+M{XGxP>MjTxP~inY~|L7J!gpM-!GB&&zDihf@#6LfL&%r-bs~GQhHi@
zCB6V_8=wIz?}#c`K&DD1*aZuq<ULIVWhv;X6+N{ACp3)z@W0}@4N@P=W3ZH)LKZA?
zpy!g@B>Y^2ob%*NlXDJE(8kS>f1aF+aB>DLKRJCkr@xrfU&!e%=j^n^gy$|L=PxC(
z8nNGm4WP=>z|n`AD;3GzYcj2(e9>ak?*T4x9nN)K-li+Bx><jteq~|9)4OC|G%TLX
zmRH^k-UzNd_x4M-URrDYpyzha9piT$-*Ket4u3SX9NZ`$Un*VHFAgqF;7fn&^`+NW
zuC6t$o!oHsFBvJGKC9^))A$SrS0^^AIv4HP3jfU$H%_eDH!6CTtc&Jleb!aE=;Y?m
zh@kn0?hbHIey9t;9nTS7jopBVz;HNc3loa~^ep_2Fj1m0F{Lydj?7JB!=TNMqrIJ@
z7oRhLrpcM6Kw&0x#>n(!GG|C6IgX|f=O(9<99r~pCdT>5nFVT*dyV3p;?g@A1tTGR
zThGN2o1m%w6dPdfX?U4)ffD{LoS(j-`@V5|-mR-|&h`yuJG!&o{n??BY?c3G-yyxp
z_MoycZz2y?G*45yWee}#k}qWu7F|_!-paf-U4<`iXI_V{vL^3j-ZGu9c4f<|VP!k5
zQ+!o--o@hGy5_dLhk3D@G_M}wt2*;u7Ov3wf@{NkRe!#cg{yR)iacvbzD8#&`*AIc
z9WAk$svda#H+SFIoj1Xc#`)`Srf#J2r4+L0Y_7NJmg;_DMTos9)@ho;@*|;hk4_;<
zP2Nd_UBn(Ki5fuK0ht1MXNsC4dPd%vqh^qH#t4pvrpg$pW(BDRlI{&%$ifIL`j{L!
zr$k_#85$dXcAV{~IZpxA%C>QvxNd=RW!MF{X3@wcunxFr0&Ir_!!|f-<|NG&>7fsZ
zR;NdQ4yTC5!FOLs<0KVoL!T-+hf^@Z6M^3wX}thuWdLSnRAHf1GJBHpij*oz;nV^-
z*cyX8Cgd@zurZ|$L!|V=HcT~FQeJ%`mXrZ`tluz5YtI+-N$DlX)EIC&xsSl<Y~w#9
zobJdqXCL@t(eR~thROtu-1CSQM#~nNP7tp$oSbJPb<NfnnR|6s05mCp+;38ruaQIO
z8xS6F&VJ^9eild^u@XVw;tfn+X7ujPz|Wfc0?!cdl)wVhiGTuzr6@2v_iA6z%7FkA
zzDKT!%5<n(DPUh#xiLB08N&JwbKD%q)e^WF6^5r~Q4U)|k5ggG<lG>KFjm&+Tm{%6
zPcW2(X~Dj5dPUM&dR_R^8DdmbFau?z=zjxv;uai2iYin{(PM|Mej9D&&W5z3akWX_
z{<FSrVF!LC?d=9GP>&rLSjl6zuBJQdsF!#DY;8~m4W+%E*sN=4qc6*s>l{@pRd?-;
z_si?D<y~t#*Lu<;FQnZsJ~EVe%ksJsXW3)3&e!zS81{BM`(`KU)k_b}M>gB9z_aNN
zu9xN(+a*gDh#Hk=vQ!jyWqGGxASzv+w<?IjlJqD^e_D52KOQu2G;-W;lk-pDU@p?j
z%jvJ=O2xO&Q5zG4BhX6`-UqGE*D4F&hq$Hvkf3+LxvtArR%a^P`O5ayiyM`}CEH@@
zvWM`Z6H6ynN;e#VMeIG^w_aO%ZDnG^6%cnUmwVA7>_*1%=Z<inM@iU}zkna^SIK#U
zoL?tri5%KOK<v!T#n?u|b`I`MO8E*L^=|PNMUwM}ln{l3-6HSMZP}J>Y{_E7z$W2o
zGqpUZ^yf|Z#VTCam@g%tMTa;m`E2rvZl|C_S6!cXlFv;`J7ve*z{>80?>~;~jV6z<
zU{k%5_%A=wI`rroqKX&nh>aHOsF5wu1}xP^EYiYq4Q|{NmSu3%%vh!^Sh}rRoC4z1
zX~j<&BUW(E>}+9oU}3ixEbMcK#~Hmu=N7_QgUGECK3`gCCe`yxUbX+%(kE7J;D4K~
z+V6?Ofb~(H&&tZIN|ozUR$i>yShppd5G9~y;ZZm}QVE*Ww~BA0k)ui~P5DI~pTKdM
zq4lrmk=lUVL^!f1rJre#{K_vN<edW$0VPH90fO))_JF_EEcumRKoIi99+c58`IX;@
zf$d?{3daOo6-`LC7pnKQZmAT&_eg%_7qJ?>ikKt1lo4eKTn_O~qMb6Aqu`xdBRc7w
zMr_1&<PIbUr8;JYB%kt|+$#BJMkJr|tKBAPJ(Yg3TJ|Y<Bwx5r^38hChfjdP`yd`o
z(X(Je{O+Pi1krzatWu_#y_ygKDHe6h&{7;LgSKb(0OEk;SAG%uloFDBw9=q{dG-M6
zkd&tUB3ACd5-V~%Tcj93Nm5Bt6n+tVL=_ahBFD2;N&(bS$*=rwk{1AIbDIR09Fu%A
z<C0JLRef``FR%wQAs~8HKc6S=F`*<y4`-n_9u7*;vnP@NIVq(4YL`kqT`(tKkl+BN
z^}U!8uknR4{;NDnQW?N&&Fnj}13z`B@Kd>s$<Iizk+x}F1SbMBgkBdtU&R>=QZ(i}
zQe0?}#!N$s8!4fpq7X!iN4s}ODMyONm?6a*F~hAu`pcSSR;CO{uZsBK`U}>F>PU^W
zJ|L~OAg#6_t&WXW{WnSg*H8f05NTAELAa8}3`mqjN@ndylUHq}r6@6=J%%&e6)4FE
z=q5mGtO7`BM#@tXr1FcD7Nls*0;II6X8&iEJd#hE{hR~i8<1j^-&vgZeO3P(=y!NP
ziUn2DKAx+DXaFb%cIb-}Eb-X!uLYp|KJK^R<8G3(0_Vsz6Qf^l8&u>7BSP%Sx%mrW
zoNb<;i{vb`a}$@Ygp-rkTzv_4WFL+SXQ|-DXb}hBpb8jS!wM@a%#<?{KAN)=&si*o
zxCS_^Rux9Mb9M+pu#-P<l?9^8jq^U?03DsAHa?egE9Hoi5vAf8J7c-$Y^*CxW<sFD
zEPYa~j>O~~$A;<B>?GLMb5lw1w{yNI#&3?J^F4@RfcC=SAMxsQ_UJ65=padOHdjgY
z5=A^4p_6>EOpf}FHiZlOd|MYBR1sygb8<0q2uoo+Y9^&o3eGc_QXKa#rO_!$&Jl@T
zhMbGoHH$3%;iL@U?@N6~0xJUKBeCESWFE9coDxz4|2dUfP2>0k=?1n?lyyKL^uA7w
zpp8O!FTYDZ!qIY85=USM-`tldY+?uB+_%YZr@@hM%{!FkI~46jJBr6D=b2>^1UPM#
zhA&qR0{Q&a1OzpdI6r|=#1ko%MKR$7xcAANw>TOiJRD)TjAEUlGh^y%Sa_Y0Ts7!e
zl|+y#iF==NRZ`3o3=&3yaP>m(l(`%hB|UOwG<Vq~C7S<it`)VQZkkP0Uf~3h+fpjN
zr=Ue3zK@}N?sv$cB~Bo&KO)~UIgHG<z(*7vp3SK2xx+G*{V|{u{{q<hPeEmusi^Gx
zzFix>J)nvm_kCM8eA~$Pu&rn9OnU3+N0S?Er--(0e&}!gdRfN5h4*g(fb+hu<*Tn{
zd|P-Q1tp$-#uwy$!3|$Gi)-u7wC(2G*m*>KwjlJNbxWpojBg#IvYQ^*JsEo)Z?9W5
z-?g`k6!}P|dpF;`JKeP>uhZ`xg5w!_WH1nMZUAv^(^a-*9pxEE1MdLK9v=C0pkBqD
zx0{JO|E3i^c6gUZR`#s5ZrJ<Rciy${xj!)UZO6A9_uZ8@?KkWzM>2I=__{3{?qRS1
z2Fn%?y>)Eq*!LX0pdAOd3ZZ)lfho|QsT$;~2EmH0?aI`S@U<h<3;%<bzD&y@zU2^w
z0@<dvOw$P8#L^nF&Fz`y?R@k0JHwe>r+NG}pC+)zY-dlVb06Qi@5A9g-u;KW`Oar3
zy6r(*@ZFc+d3pU%X80tJzqXSU-TZ)#L)v*q`&vaNc!bBF<4E41vpP}XV~eh9dnP!_
z2S+!8;{@KGrE#S*ptQYfEt2UQz1ug6mMk9no}=+Wpgj}V%?Ebhxt!T|hR0vvOxjWZ
zu(>~5*PN;A<Lmme&0DgyO_|yrzP2Y@AI!D|Gi`hMw!PWL)@)5+#lPB^_6>ri(t^Rd
z=V%1$#^3%UU9I1it!>QI_T8=R%Nr1S;HkV>{hQT!6Z{yy>c)(}|E|A3UrJ$%&Rd-+
z@3~vvlebdX#?rg)`n&RW3OjU-ZJCChcN=!*od|zirmJhpyC}uYAbaond-EPjDc9As
z=e^{s&^0vYE8%-wrE6$gJ+t<iJNkR|JM%t@^6UJKE0<SO>nHE|w&kl41x~K79;Z1k
z^4|7*Ey2|3YMNH7)*9|q->W{DuP2yRc78T^*E{&JLD$lbK4m=Jyr=u8`3_3%)Zv94
zd*@iD_3+)+!}%b^b%C{z@ps<!cjmh(+@ovh$TaV~+q^U1OW{5pCPmZEyG=Xu{RlrE
z(zzQlt^>U5z&+O?yw!$QoXOp-A4Xk2&2I$+I8l&Oq0j#!IfNn>@T820AZq;4-4e!=
z($64J{K%Xry%r}bqE8v5b0EfxqB4sf&aTL$q-4GngQgX!=+QcXXEGuZ|3n3klO@$T
z)Pixg1DKRk1t5BrT2-e{+U1#)b1j@I85w*jJBQN14zC+irJomMW%M)dC+kg?OL1D9
z8AhGgp~V^;h{RBe&b~A#u4^cB!7@wOq(+NAUzIAoF0`mLLfk{G66|2*Q7Lp@r&Wek
zF2j;4y@v5*{nvW4<w=<jlCngM@=UNG1TJL_wX_ShXwa7t(}hErl(k6Jngxy0$SJ=m
z`P2{Xv1rXkaQNlf2u_!IoJ$~kutYf5!;u$oUQQH7<kpa+NL&QnI4C?nF(1ttFHc8b
z6|kFr0{I@CTsih+wz1Cwy%5Ub7@ouSeN!ZP6}vgZaZ1_g*Wd`3rpydKqj$itxLms+
z$VYOr;u(piAg#nur_VNLBm9v`ghB*OJZd5752u2kpkG{uD!D=#oFc{`98~7KQ`6Mw
zg2UwmO@4+5kh2Mg7r21P;eB2YRNw|2aCn>gGEKug{wxiPw&mkle_O`i#rwO~hSsia
z_;)Tku>@n+vA5o}x8ASYvOcy^cVKbsf!+1i?xo!sd)Hli*Mqvi+oQKevkl#M_F&zr
z4?fbB)R!%dVKEQ1zJ2x9)wTMK#%;W#ZgFg7Fsli?IEI~|Zx?UrT6Cs;T}*hPfwwoL
z?d@4_0G#`@qZ2NG9Mu^+rF^sP-QIV4@7nvbUSGyb3v<@ZWD@rC9s7AV{#vq5PsSPG
zoq@Eohn3QkcJ!pZJy}Qf%4rg7*u&$m9`XWvSdWB)u~!xXH?ERI0S+LrdC4Que1NJu
z2~?q_Oh{@OS--G;E!}*8cQm5rw_aX)d1e1yXFWFDcYEIH$uvLDH$RU|au$ou-I8&2
z@UD(E+xqbh*S@r6pTIXS85g+b&SI`PeOc^emh+IWlbj`T=y-+ASMJN?dySko$@vN#
zH4pup6iH5=5~6U3hi)StI=JWdvvkDj4v6QfCJLh0HJ$lV=C#Pob1Mtmz%&0b%alKA
z*kXE0zxq6(EqNXJ*Q4K#eJl18<`=dtsu!OnQ2J=j9B02jXBRsTXz0p;=8fqVAo&+5
zxln_~>#veD89OfohmQ8Uq9>)3xP$CW(Lh`?tR5znJQiCl&i#{H^n7O@$z;VL=AJV^
zt{Dd^e}xR(LvsEdoCH-NeN{Qv)d>!?7v#3Z_WygNewn_fZg{Ti{=(>bQ0iFLf8koz
zRi3q%Emtk=UTJ;1^H%5T*01;T_Tbt<-rk=!_OlV0L>~ER5q*!IMRCOk3eqXCRTuG#
z=fDu~WycG2v;a|Gi1^Yuuo(vjW{C8fA<}D(*df~Mh%%vHQRG)Rgm5CQENT~zBwP^w
z72@4dr{>}=q<W%O2p8+8n%VJ%7snT_NW~^ODmRHQ*N%rka21X<+`q)~d<6o=)j6+n
z+9iu|jB`gZ>O~S}Irqg2;aL(6mSx>2hKUHvF*ZR8k4eJWFJcqoCImv<0bw^e#Enw%
zW8{pJ^9(u9!pV6Vdt!PPQWeoe`0S-AD98v@9>eSC`<5P}U}+LQ`U7w$i%!-ni_d5Z
zrH64gt~#N?*}7V880Y5nZ6FTi3J;SkHOnF3EXwH&WFA$g;Y<cu#<`M}Ql9rj&w>XK
zo?=;E76<GUB>`&@9$*aA!=eW==veIl=a3RoHiUq^2u}+9U)8yc>+_|@AvGY?&ZM2S
zaG@_GWlRM18l}>dU&LzU!-`Xua?3IX;&`D2GM1Q>K3}w1s|2i7tx7GD@BLB<$3j_J
zGO>g;%2=nAi^fH3%-DJ-wba6-A(WQNZ)kRha)N|%w8!8dR;RV7P8k#a1x8&S$%0;D
z4irB$XXW={E2@z=Z0sp`A6jL9^81i+?Sk>rDr>WMB!5X#tJs^9XS5PaeJXf+bXK62
zZmyPKl~c1#XNFe!m<QVLS{_M9QH=^EVCPIYldwn1h!LLLA+-dni5Xv^4JpR=T`E}}
zVvVsUW#<m2>@$0$u<{#mtEh`|l;EKbE_jpsB$$*pxnK5|OFO#swJea9f&6|XIP|fC
zMp1NCYe({+1cQ9?td!!|*l4Ulo7ACQf>T@}$}x^!)hUmBS_e*jg@}XD*~+y;8an_9
z_RP*D35#b>p^%Tp26p6U*1n732|=RzHi{)_Nhnvc=(8;PXQhB3@#~*?`>;0&u;Evy
zljlim>t{BKlpzJ#?3^<q$u$$cld}q{G9Zd>o47Nmg?oXV7s;W`E$0M1H5;9~0!Hjr
zAa`W~aug=Qh-e$Lpa#W#hBAcU1Y1;GaYFRCzai&u;pFVtYo%?L`#XyMdvg8*IVZ@W
zZ#?HBGD=_%6L5lyQqm|nY^SB=IA@WEhE{!O`NYvo;?81(a!yKQ8d(&@1;h-(P~;%p
zPGgoUe{#rjWh_q4nzPCy$YiXT94gm^@|bLD&H!|gBRrA&B0042F?rQsmB8xNKtYt@
zC>{aULk)z2%Tuu@$%&EkU*P1*2**~=g9M~Dj+6v_1L7Pj{84j~>og{u%uoKG2<iRL
z*vpBZ+^*s$OQP)AzyNU}>*e3t?sVT?zLtr3`?I3dw<!0Xtz+`;)!FK1uxra?F?g4M
zWgG8mUY)q>>PTBU(yk6j#;-liH-ha<;_)P5-og7i)+%^kFXK8FN|R?@&1qK`SjJXc
zzC`cr1_#+{qZk{b<!X6*ZQ9;(zpf|iuE@9pygQ(HDr<=A$vB<WX<s*_#OuN7d~*!E
z<mMo8V0ZAr9mGC8#qT?Hujw>#K^yMZ4P@Q5DCB0@jk48>Ow%BbKlfl(yR@&2L1?YE
zU#axxX7r_fK@wJ{W}HCAmMxIR$~fvkTQg5R@2FojW&&Gz{5iG?BJhkGo~|EAdk2xX
zg^9{Fq7RMjtC39mHokq^oimv|&+>boz1P6l%(eHcd*$Lt+zZn1E0IjY7QSK2dgR-4
z-<sna4ukWoDt?7Y*V)a2bRAm8gz{O&=iUzA3iA$7-BL@LV7|bke<AH9>3cy$AIx2c
zKij!&adf4YceFjMY0jcwz7APVKU>oXVLw4sAN*bb*9SB8y?lKyCf0|hjrt>t<A_@8
z<m<OAj^D3rUH$CuJ%4BK#@6E-l_wUDfGz#@?pwRp+WFdnb+GMsU=&9mRzO@(tz;k$
zrY!VNIu@G>{R?#MJbiG)+$j+9C*+u+?eo}@n1~=Eil5Kl#3n;fMUNs97}2w>(E#Cp
zlvDg5cX1TLh}A|tG|(vs|ChWkv)P#NzmdfMQ3kD4MNi5oZN*@xYBOhL2%+UOuA(9k
z1k$0?Vz44s1M!rO{J{{u4hR{MRm%Moqouw1Yt+gRiC@Mz8h@E1kTPyE3$&0SO;+r=
z5}<3!`^EykATY#bgikfDCi!iHkerbbJ1q!to?27ZPuXAXmTL&J5Rxp<1*%8;d-#RR
z(-;Zcf?ZLkoRLvCRe$B#z2HzmYLIq#Q|(GV$tR4`rn6t8*C?k`%B}n&mJp1h2a22G
zm@GIIHApRyAsn?>2z`fWk|rV@(fwM9z%fGlKv6XaY6<j7b?bGix`&_4OC$pb2j_bt
z=?Rr*-OM%(I3t4+SH}esev*j~1v*tG%~5u^<H9kB3+%p9HM=hfaCUZZyCi281S`0|
zKwMw2UO+Bk_DIKFCMbqx5+2II7?+MSk@I~D>dB`g2bQ@+Oq3z577D@|mrg*{z69W$
zO)v=%o4yd`{+M!S$$?oe9jg~sOs-5p!9Qn-$G|oMt4Y8Vos)BrtcP$1(=&(B0HjXN
z&0mGir%J=gEuf9^t^-AM;IU+uB76ZQU8M#X2}OlVQVCaB1n}8tt^}%3W`VhtGhb#*
zE{;Ac?sMd%$XS4saKkCY3&mrFoLxLafPI4GwMH!jQ3X(n)g=*v!?dG_c`hPcv=#5U
zwFd_SwcGCK`P!X}qrd=#W9M~aX5cA);HeK=GY3xd2TrG-|4ioj8UFd1bpM6)MJ`>}
zw^5f^8e81Im|T92Ax_P_yLokR!`-&HpAawS4JYK$-GNmP4goUmPTt+QR=)OJrguNz
zyZ^)C%)!(A!P6V==a%+AKr?pT+O@i{QM+}0g0J0P(2Q@FeXH!lip>6#JpKkwrcb|+
zIUV6oN77R>nW@k5Q=d!sr}8@8!IDEIXcYAS>JOJF?eg3--!Lz8E5n)Ee!jMUy&^NX
zpC8=6;Xbgq|3SI;X2*>VN*f?#q%|}2G(Yroy5{IdXO}xR%1<(-u;B-!{Mk(C@9>5T
z_%R(Te0J%xD~C3mP0)sLwl0=rovycDSbAak)Jlb*4!V}i^dI8;4}F;Y<JbT2b-w@1
zhVuo0RoA}lzvZVxkL`TR_B*ZL?f*`Hy7_qe*;6b2jq1}&Wl$tDKXiBmWOC)?hNE#&
zf8XI@qW=1~OK+8~>TlUr4`o`n^Q}_;Q>QbhLj0*v`s`%p>@<IN`krG3xh!RGxt3fj
z*45#)inWXD-u34)TaWYfcOpG_g6|*wDDto8{$wsQet{pqaL*D$hK!|#x74hRtd6V=
zu1(yt3_SQ$dT#}I7hygO@9KeXQ@raNSWSL0yh~dlLsr=ku^bYRDtb_Z2EK(@TM;0F
z*o)Ly812fy!T{@h5*CM|SV-t$3MCr&l>#BQPR&jhvI;nu2Ht}@NdT?rk@sE0>{UR>
zY&Hc<0|)#6a^ws%zr;QR_tt*D+PH@H`z^-01O;0ytV_W$2v63+x?~6u>!JhnPuE}V
zmTTZ21y~o=^JzvxqdX0)%er90!Gj?}^IfA|0xrUsk4@5i)5Oh`@4}A53VX!Fg#R^4
zB;1C|!|@29KC#w-T&o72r-kLs1f?9x@9Q{YLrogr7GgEV=^ADc#!3%1u((cr$~UZ0
z6VWs>3zY=uyOs7yJ{%wcJCo{MaHgF9_<E(%#5bbRTM65o>6O}{{4#1$d!^DSsi2P}
zO5d-PB>8}QiYq9?8OuQJmTihN_Q52Ri5bWU`c>E>Y_fhzlyNg`k#kW|^jYO>Q;<j|
z!Q+Wo&M-d_VOU?T6q>gr%OWVayNb|1hVXHfR7Mp!S5OcKYpyzutP60}<kXO(h3L`d
zQH1EJ#7Am>4u028xLsBYw-ZsY_=dY@?IiE+2UbSLDhBxKf%W>0>U|&T`RW6i>Z5%1
z(T`d)$6w-)zm$GuBJ&Ezzrv-DCDK=~rK^u_RDW*i_~N1E)_)|1hsKa}=h%k3YYlw3
z-hXUk{(p$pJ?QF#DS?*7WX9FX(_eeq*3MfxfZi3Ld)cl5f=j#Fmn$-!cHYwtuK=3e
zqzGV)ZyjAansGEj>O~a6bvT#x%flIO3-4`Njl4Ve&K&REns$xcnSgMRvlYTYPTODG
z%9dIeIRfk8y&Y?<nXa8Y{=7RkY`gL%9k{g+w5=^ReNfeuscPq|+E=-?;Y{~FzI&g9
zpKny1$~s(WPxJEd&3!la!IO40e{3l6p(@W($8z&>BvaMJS9PsD_d)n}n6KKsVcSC$
zRiL8E>dh@Glya}*6B*~OlRGX7=6H(*b7*x^>?R1>tzV?LMRJzNA+%IwG=a!OL0IP%
z^3~D@`WpG(B<Cw|)M7jTH${^3Rlp@ea7b*&Uu-2okm6~%NK!mxD1kiapJFJ1MF@rx
zm{%~Az`PD!ZA0G4yfBs0kasb!n-pg~%v(<O6}-#~vj{c$O6IL1`wBkh^*>=>p_;|l
zkbQ+(=B<<ME7Y@agDg<g$ie|#L(AJQ-+FoN5MMu#Z(?!Hq?pV41Swo-=C-leDMP)=
z<^ufar(|=1LXypeM^*~$ZBYTkuL7o!1pE^#LIO{h2740!<wrv0A59@jEuIt6!z4pV
z)To8l!(4+Iy1$afujvg3G=9wxqbZHrpvh|?O<w5p>Ov00IHyWrw80pH5eHbsBPNDD
z=aW}p*-9cae#o6gD;O_9IP-Z1!2-oz;;k?$h?ovVLL=b$Y^K<&#Wy}D3sjvW)gzH>
z1MG=HG7pXkp3o#`4-*fOF+~V+szgVUvY^9zBD5A(1nS2C1xpQn?PYLMlEf5e4~Z;)
zUH1){9wX5Y?R+T%;e0rTEg8R7b?B047Bs-l@d9KCWoIDhRGmxGCz>-05}i2<7%Ge_
zBaHk>qzTeI#7E+&N4avr>?<?aAZo(os-T&YoSrN;oXUM28K6ZqLzy*RB?k-YqLv2@
zqOe1&kLDB;x`p#XKAsz+?fDDH`%@gxnN`Pg_p2M;uDeyYdUm5anD%$!%*>hf2iQ+l
z9e(WcQCwvWg0}nh!yEM@nfhaV{joF*RoOl1%8pFsULJq;y-?OjH*Q^@T7NNJzjvd2
zU)r%RyZb4?Wh{fdWpKUyu4RYtK^>*8o`O>#vrZF+O;h4#!7d`YEj&Qn(1YSfOIn4Y
z)$+tsa-an1n^hupkOvnhFupItIMWp)J8WlhmJB<;q;d8Vz;jl11kJ+qhJz-Kc#py>
z57Nt#-x}nR*=wW@!uUD8ErvqnJR~M4O`C86#!0UQH~F0Vo&bFbB_#-Ty{^0OYLqQ$
z2`V?)>KZZ(6u%MA!sJlbjjqR5liQZpnXIs<hCGw<Fd{$?8)EABP0WApZFsofhXa#5
z)O5DfsKtgAzFyJn5_x;{3YkHP>$>H{lQmN9!rB9m+Sui3q3)ob8$k-!3qV!fIX8_0
zGtP8YumpRp^XHA18Zt^PqSsBs)tR<*vQ`D%#T)gnQ@!+I3u`CanTgpcNYJuvd^-iZ
z=@qm6*g-*DPO!<&+)OFtj8Y5E0GM{>5{GHOKI^Z|8<?jx`0j~!PKbdWyG76F3qNMb
z`8u=7wie3k@N?(HBl`J~TW6}x8}+7Ox_Rg)I{XSB5mi*M%*%(2IaI$HvrA>sOH(IA
zW+G^_#9(MhCK`3;bPHCM^&XiKaY*;d1{hK{EZVSrL8Jz)&=jIyB4!utAhrz`Ix$}Q
zH+?D{5<9Gkq4o5@wrL6S>rxJhAY5>w#xneODfT6_c3K=|lu#}B>gkOYJxO^b(2~uA
zr6HQGcoy8)Je(;vwHd82rz}KHN^Q|%7-IFY$gTGf=`6OxOgUM<%T+C>xmNU~JXELf
z4p3+Lr>hez0t1eHr12}mv6#HQDitY*BzoPO-!tkyp+#18nV;BeZ_29$qZ)G!R)j==
zFL<Hrti?|BN)US5vPInwwp<HZ9!~o3lIUX4A)Ky!AO4&P%CN9Rz7>8!f5QxwRf-`r
zC})Ds$Cja-0p`GA><EUtXQAbMR@Cswnb=WFu!3tNSZgE!L+oTBDQ6cpha@vbZ=bxx
z%)!TC78~2fL=yJinaV9w>|l@y*h@$Kj1WIdttuns&Ph_x77Em#&FK?40}O5E%wmpu
z%JEkO3?2Z)rdTx8XQ4GpCcR<M6KdT;ZmS%@3_QU+yO5BeVHQw@LRZ+18Yf{io>_B;
z>I<{C9lju%BNq@G+=8MzkBOA{8az0$aqF6b@0Pt&#vALeA78eu?9aOV%tRfBBZ=!r
zvo7CT3rh<tp|$c2SI_mM4=R1v#~(V&mv{cTvjLWY9KIF(%Klp>=x46huAO`bikkh1
zwnIApOCwoF#r?AK<-z5djk2aiL)KHba&pzU>RmOiyuf?f7R?Xb<%^~)Irl4TZoYiu
z<<*uo{W~4m;NS<1w;S(w_I_Z$ZGUVksoJ_oBu-<;>gBZ=zGDaUM0XF|IiBt4|Jb14
zGr)pyItM=1=^F=sFu3(w73*j3bZ!hDB*n=($N^PWt$0^1-tw&;=ly+rMc<<JAyh)G
zH>_DGayTlM&#WA{5lT0WtOnQ4^UWjhr7K5x$F_`PH}BYe=hTP(4af1k$xut$jE#ZE
zR->nB(FEem>dRQ_c}x9D^m~@p{61Y-<KshmT}AcH9XEEYe0JS)&$}h#-OhWr-zmTI
z;)eIg_0b33#*DX>_qKlX`FB72&Sy8g!-z9Fzxd4OpIILLp0P>T1TL~EbwNN!A*DuE
z#Mzt`I6<`b=1K+Q@X%dnQig)Q5yM$>PBJqqSTn^O&Xoz~UZE5orYX(j$O?>C(+LFI
z&3}Z=MvbD$*t@v+08V~zj;>G!_N0uSNefk?Qdxqq{J{tuwhGad8&0NSUiUq_P}pf5
z7F9t8rm##b_QE5VDJaU>wKf23EOxD>9|p1yVcCaxtCl>9m|BKZ4gMpxBv}?ki%vm*
zN)%2iF4+;bHf<g^>tU@fRkp0>9-_V)sdvgRHYc~1cE%yyvi_Bi&<l?uW<3*7@=3mw
zXQo;5E5E7Ib1<T(C7hm=xvN?{Zpe^Go2F4EAWa7OJX*2|i0x5om3)Zpll;oBN|Hbs
z;Q=LG@?p++v?LJ_J1oH{zcnyt1djiw%i+;9PUO)t7b3NKp*&SSvrDO0@+J33J|Gt5
znkOC1EWb3LaUv+IU`9-Yl3=s+qWy$C7d;W6E5B9}(Frme*RY`yEavaa@Kvx}gx3~5
z+GP>aQdAzr=r7<qU#L{gvAspbA&5H7s(JI27KGMZgCYcxCwLaBQWdGnYuJL|^UfR;
zV%2V{%7t%98YSxI%wcu9;8(Tc$djos+l?CNfi%jem=QF_sLwCtRl5=P?xd5YW&N9f
zW&~QdT*AGAulcANQt&VMpb~Q8$@qv>Y8jN?d^4j@LM-?ZPeRT`59dx2TY^0}P1B`Z
znDKsjoT_IBOMs9I@mdCkQhv>Tv6U%Of>pwxnT}Jo8r?tD|E~ErbPLs~YE2kn{jS+0
zRhZkgsT%a_IjINA@8%^EF(F=VP?M@9gnOY*wI&laR`jH*u_n{GU>(Lrvo^$b6=gy&
zWqIHBp16zQ`>xiS!wdE3fzXNu)mQSOR%xmF_wCY~(VPXcV*L!UBZ?lW9@SUS_z5*O
zsB1(k>01tbVjj(YDlJDj7?XvjO-3?6YZhRzdZd~NEz#_$B4gN`YD_hgk|)0W^3A^d
zB=O7H6LCmiiZqg&t-LAolWXaxUo)iI7QEQWX(etZ+<~1VYk!Yj$*|N`tQn^zzw(=^
zp^`M`x3Ck4JFMy}{ztEN^!@*$t60hgCYe)|q)VXPoJ@5wO6<t(5`m9G)D^fo#3}pX
ze}T<z_;Gh4MN!H%WAF6rRB(W!`H*umz75O>u?u~2wrL2wflG?ZiP&jL&YytkN|-5P
zU=pP=g?n~5k`c@~60tdG--3DrMI>00ibN-Ibr`N^A)OG0565B&SQ$b{NRssJ4J32t
zlFAe@XhuEeO2vG*Hij-nN(fA%Kc+sPKo<nry%F*enZ)fN2Ukx*$Aqfkq8AfnCwWSB
z5fY)^bnla3o5(5zh~jhz6eO_i@CCY4hS8HO1ZxF^uH(9eX(-(=I*^GF{!{8Wt`JIG
z00}uY9gF2kU~YR0RS$7S>U_?6X*Pi?o}w@UWfwb5=zPwNrd`5yOt`>kg54m+5kAia
zSkon>KUYCbFTTl%8)6lJcAbD7C3c)uhP=?-Aqs?h8mUEO2X~a>j*)YgKxhsK!<VNZ
zuFM1r7!C{{OeDm2gZp{l7e}9ao>JXnhzyYllf=YcO3o}^JmpZUPUT8zV4w>mdd^Ri
zI(Oni&Lxh6R0?;F3a_GZz%X7coEzLON;J>nR<kfJd1Et402FOClu7qw3G$;kk5~>t
zisaQiItk-tbFUJCO?tgKr%+yaZfYtKO+rnI2yfVYiqQ2!i59>YQtFx^fqeIBd=}hm
zX!I(U^27x8J}~<0bd{YO6~Ro!Hojup^|6Qc%H{YspSx%8x(~$}M|IXw1By25aI!xy
z*-56L5a0O7=O8As1Bb6Qy2|EN5W|Dl$L>=Z_uBT|vp<zKK9#mV1?vbIZ!hody*`@t
zG-Nzoyr&E2{GPt+$Ft>)Fy_OT_pDvy%LlHXVAdqI@&0XTW936*X~yW|jlQhKnzgvI
zmWs!vMw1!lCAK2jm-Y{=^k!;$`I_Ff3BG0^Z5+&%mS<}_1rf=##h<Ng%T)G!ud-+H
zuxPUh3Md&*8`uS_SJLi*tj~Y*%8e`ct7_>Y3KZ@sTig$$L@@r~_GjImth+MfZsOfd
zY7c4YKmi2?rOI%;nW^mHD?0$Y+?FYC;mccA55N1&JI|!u!z{mV#gy>}d4F*2@CVP_
zM)Yo06p5e8o=0|bRoUW^JPZ{zlWgfX6KlKfn91b-ho|`MM>jf-WxIR9dZ_Doq|?{+
zXZr`hr>GlR9DU&MuN)R6VE@_0_13jl`8wFlfHF+B3hGaMRmbAf<cnt7xAX1Wv+do2
z2e~_T<aX}5^W2>d_}dTa!RYWE)MpPLLD2WKe(~vtuuP9L@zvegmd^XZz7J|{*JQg!
zGF^N4u04-S4Hf$q4}o)mOF(clNbBOEY;8xTb_-v-W&OGJ!*_-@ps+Ox4ogE9Df0Z@
z)^G3n)~=QCM*TjVo;#r}B@XIp+q?bm^rzi}V73g`tdIV{U3tT_d=_okTEn8?cxqt$
z!daWgf?C!4BP;}#@@!2<rlyat>05N6j*7aBw~hC<;c&_uT(o4X+GJB(_L_{n`>wqk
zhQHdk;%%hMThrdww7YHfbC1yNVcyY<0?_@{lj)8f>CPSLww;-_1AH3{b<_&)9U`;t
z*449lfN#%s_k6JJ_O|uG^`W(0KcX1O3!s3io=oK+Upctm#8(b4+OnRGjHj3P(46!P
zESj^f>XmS&ek)(UHB-NfuitfNKVQH1u4`}FvN!G8o2_eKtK#eW)0XP{9>`Dxc@Hi#
zff^G&GH<$~Jzd$JcHl#-%{W?lM=SGm@QA7DfMQd*ZPA>E8LNRz^$1@*vRI}r4s4^*
z8>6fB+0K#227TrBA8g<M9qWfpzwh|tGk<s{+t$C{&bMv9(~Pk=qTfrbt#YzoUUxHg
zBbII%&US4_F5k}Vo`W<i4(S)|5B>FTJ8n71T)H=y@ec6b0kG4mhaL>?{20HxVEF}>
zKZ2R+LB4u$y_>Jz`(YJd{dBgv9VOIs{GfC2wspPfJqOiA=jrb1l`-BGTr@uL_%far
z-qW)B-0I=?x2{*cw`aq%17qi_zxlZvpIhCP?Fb^1zXczFANM=-pge!y5BdgfpZ&ec
zZ`XdS_PseOvl6Vik?o6)<(F5-@IrXYP*$D;Fznr%b=PIwt@K7i>*eb&XSP1gZ+-fs
z5(pV@xJU8MADIkwWth1(UDpV)4FBNLcR%-?&#g6X1aS}p&L2d!)AfCDF);_**Xw>z
z*L3UfDr83VL+vaIPJKH*CTj<J=V(kD8-$ZCkuQa{TXm7kT?Ev;F|ET(aJ2+pi%99R
z5=4g>*}|iB0{^~V=C#lv3eljY@}UGB0Tn$zzcdMt)za^JPb>-iGQ$0EKuQ>2U(l?=
zhX|$P7%IeA?lxS2mz+L#Y3@=2$LIer)Bsn7OhJVKXYJUTp`%a&%!u%mg8fhsOv7E<
z&~t^e9msKl5Nzyw0Z5@R8J>o9e>$);+tK;%m3OY(Z|{D0_MKTw>&lVqV|a@;-*RH*
z*vgA5$Ch8?t?e0WH*f8}Z*jg=wp4~M$L9ZmzxkH!>oliLr3G)D?X<WVvK018NmPJ&
zNLUZIc3ol@{Dj%HQ&vJ$!*p38EO<_1%ckRj3(>2S>Nn&O1CKt0M=eSM>n<)yoJ6$l
zA_$O>g%@1n$n3q)HI9OB6BF@bsukBfx|yXG8!WXrU<*dmpgiouXvaIX<6)_#3_>bS
zCZs}AlkQyUG2uLcBQ}T1n9AQ%@L4$H!nrv^0#715sh+bIL=c_xr~z(~qzX)a6iTWv
znG+y9!UI}fZQi6r>%hN2M&*;QHZ0NN1EUPN#o*dhNcAhffRNV(a2eI62WllK98GHQ
zjS#EBTShG5+C>j>IB?)-N?Blvqy&Zr3=+=~HOlZwrA9Itr%}3GhOwv&5(j0EqT9Af
z2`0!Ti|+w-OEX$mRJYtFsa$rfO05@+%8M%@N|0N*Nqtt)9E^Op86k5p@|%dj;IncC
zATwiACDoZEF$(r*mz^At(lvR>)LIzFz;%PN#v1C9`SUow)ZoWz@rRMCPO6E_0fuGC
z{s=BsjWxs@7obK49-UP&a0sY?ln2M4?s2l+{OZN<S?)HXuNnGYy>RX;fA_zv{^b8y
z-^)FsC}*E|^aGk|ZUzK8eSm_H*mLmZOqZhD;{!juPOz3fkp{-CA&g)n0$vd)V+XB}
zey%0C40bsooi)+nBr{jUjy;1-Dv2ri`v+CeC>^5H7(FPFKC|K_gJ!{#D-+;kdk?G?
ze@pGe9U`#61nUuk%ykRJ8L8*Fl2<QqbTlDovf<8Xhq}kGmnYbBX2!5V7$?ZySa>R)
zgk2|g`Lb}D%S3zFio`@XzC=BzO)Xa{jtN$F5Y{otrZJ;sY4OUn(|v$_xNw$jSR}38
zC(5fN`k=Ab$GQY-PQO8=d1%}Uj@W{BMP5j2u`F6ESuujaUs_?59Z@X~<`!3AS^VoI
ztfh%K8bIP-RVwi>**b$D?Dar0@Ji+s{7}jlq-2>Kn7<+8@8$huRskYn2=w#*eijgo
zHax5V3M*;#!%hG$>{~hX_K9032&GkN`LlcSRF-(XxQI`_;ZFs3dU-EsF)tbHEd@R1
z3#=O7b-v?VAHG+$omxa@8gQyy@pkR4+V$ZNM?UQQs5kx8i;oQ@;srq1vKyM;e&yCH
zOn#KQRP&&kWZTNJffm6SMGG^?8vq&M@5l8vH($B&%KdWR&AuCbf<=NC)82Nv63}WQ
zgR5^kK%X|i$bf+HALQ!~vQhy{4f;2hGk@8%`_4-nO~)3E-?In^B13_4B^NnC+6_y#
z{K!YCJF)O>dTWp@%E*)xNEP3tC11hh-ZW52EOPR3t6a09IBil6UNz-tNF7E)f=0Vk
zZCGOXGSwCNmKW9&LCsv=VwAQi%N>KWGUEgCmZE}Fjz+AX&<ofq`)||>sEA{U#$Alq
zWNccpHn2j5?~Wb`X%~BMQ?*&%xCBUYQJzH{HF0BIP`@j!95yY<8KwS|y{J4I72?4b
zJw@a1!1y~fdnO-Bpd5JvR0<>X1SuMGGGe6dn;p<NP_~A=4`j^5QG;SVp@i(wI_}m|
zmYQjjawxxqD$X=3Vaca;bh8O$yOc-y6%Jy7f?3G|ou+EO=Jy9!tz#vf=ApReEgy<N
zge(n}M7so$DB9YE?b^?gWgbCi{Ra8imddub%LGIk1RP2DaKA;)6gk6ia1VmOKjv;y
z)CxIgDBeih9ixA^uTv!Lfdb!`F?!j)_&-wuZKj|AXDIz5Id4<!Jo(O(bCsMc<dAj}
zSy&<?i-KBG6@fBUC1N3OM*F>n%-3AfUMC8p-lVPWyT}ERC9okX-nzPUb*22v3*vQT
z4(D4(mX0hBEhicG;n2Hd?~H9YhM=bm?g;o1V1+Ilna+6f?S)$lYsn85ZZGhSyVI^c
z9}Zz_@!OUhi^jz%u*gvMt4psgFKoElq{4-}(DYv(|J3Du3^k0vs&#F6z2e&q-)i_!
zzcF}Vqw*jwSu-w1Nb?%z=a-W!XO?Hznqhce(8gwQbg|^>{;$5iW=>c2ub;Z-*uJO-
z$F{0QysK?tqjIZoSK9-JH{&3qKr3fA98ILXJ;LM9F><HkyS3k`{V>AsIL<?O3H%T@
z#?D)Fv;Ri_YV$^U+hXZM7aK{s-7Vu9<XwY|Ps}dE71VvmG7xUY%{Xu`AE~1gKTBpT
z7h(krOArk8BcU0*Iu=7bFoo$XNbKsl&*LQrUB!aCL?0Au*mP2yn;bU1zf8U*a+pdD
zO%`o!nkAZS<b-JIybCyz*@aR|^~c_wrsI01J3}6fiK08hA_UzT=CzSNjGcKMvKot%
zg@L<>*ND1U*j=F3;$d;+WILBtm%pMPFxhZ{9cjMg4dm}1{vdTb#rzMfW$f-y6XFH=
zFKYQD8ZAF9qVJInDQbQ~L?1FJmSf2W>#?|&4k{_I7|XZ`jIRLRLMi@R@ZXC6HvBJP
zsiOVZ2zUWe8~6$AR8mYU0~A?~6(C_bR`hwIwn%xjOlz4IA#i>w+K{aPXTlw++yuI6
zlX$OoJUA1@HeU;FoZP>k7)(sNl9V@Xgi4P=vN8awCW<R(CZPZ#%bO1c=1JqSCxElB
zz!6*^e*V}jpaRFh+KI+d3{&%9WptiTCg&47`}-%jE7O<z=D2hH6K50sL&F1G`v!)G
zw+yo~B%pIJym#qrA9O|f!SYI+$H{1v>z$ZZh5F|q0ouQH>tL|Y#%iFJ9>Fc2aokQ5
zK!&+MA{q^hjqX1<7mv@)QkxLHQ-)<1mR}z1mkE@9i9qQGfzp2|IUP&jx^f1uX#)2j
zV1JHn3yhvRh3Pn{M&F1FfG<t=s1+M~5r?Ph2@Vf<7GV(q0y+V7RJmdha#L#kqyLc%
z*lO~7KL4g7p#cO!1F=G^7LUaMW0WrNEr`D(+XTYc(PGJ-0`sUEC2V4@R?YK~IWa2f
zKh4&ljWTyfs-Gc>HYFta7>7%0J@JUtt(Rp1{~MUFmFgt3x#~I<E>fe^#!cUZJh~Dj
z>!pm$DzPLBgX<iGcSJ^W)iuh<alt#%DqGuxt@<6w{KkTJq*c~t??{7`ME^AiMCwz)
z+auGw>VC<D$1mN4tu&HkG*?}t!UrW2wvYghI7wPZ(}b<z{W3|u3*U*%nfo~=Y+WF<
zBtnf$*fOP&|1KtMOClbrX0%l%aqwOaDRWHnaka^(CBG<VZNbcgk_%fQV6OH(afYI-
zRta*p6lYATaPowdf?5V7zw(RNAtfaF5W7?IE5C@<;Fuy-V;y4GJO-4!l8>&!)6Q|7
z$g(~OPWjzD2dhJa)cb@ST}s)KZ}S|iRXq}%@+;;zs>Db>^g`oprra<tEPj2E#T`>Y
zYwr&7`XxcKHA!9<3Szatb&d54ZPQo*wBH9}wbq+T%s{MvQeQCFI;6G~8A?9F{Rk<H
z-_1DO+>a^vAIbR%IX@-mKauk@a{eE3{xdoMg`EFN&RanD!0Z+ovrrgPY_^@J^mF8t
z0ElB&Jrv7tX2j)6#e6v{tQ-qcI0CKPsbYN}ry~A_oWCVUM}_?z`Tm}q|3D6XLd<xv
zU`sAa!BKL?$sr_OXaj9DoPi2p4GB<?*`cG>2rX3FPhV`2!C{Wb0L9>Nt`q`Rzyvv1
zolAr-Zy92w5BDws(X8ia-~~%`fSL{ZG}+Uv@k;-Sy2iReld<TU1A$qPr-T?e?3LK5
z=7&@%GjInk`=wYkA+We<^CN8c$w$rZR`gScfCS5Ez0CdI0JfPh<AWgX_dnP+@q;4U
z#1B55ZQ=)?WSbb5=*R}~z}hAYb$j^UJ=xwt(KECyyYonP+n)9Fcc#<BN1<6%e_YQj
z5ZhE1h_k(0GQCgny-z{Hqxk^RVTJf%-GF3pE<3oD_zU<E4A7B)!vXz+kzLun$FsZk
z-|74?nBG46*lwyHM_$+?hV_SjvLd&S@86g0-}1q0w_n4L5Ju*Kr}PhocVu@T&F<KD
z$MRumdgLfF*RqD4K;}<xli1Y4j5#+x#$|7^O=1`$5haui`o?|4bgzB*k2OmSvb>YH
z7G%%(Q<x=o7nmi!|MSffGvHr>S>metm8sR(MipJJXs7Fzc718r{aVPG!M1c2bK$9D
ze=S*W^>XJ*XBw9ad8`n6IrNp$e3h;)!0a1W1%&JP_*$HB)R1T#l*w<te&cmqoOE;7
zja}LHu1xy~-#(IVKd}7V%~yW&m5+?f@L(hFYJ|OQFoy!InZ}X3jU%{;E;}$RSZ7QR
zjIOk1YI^S0^rTOn(JF-9c{s#352c%T!Ya$I-`w?~F<ap$F(zurg&P;Lfh~{gT`>M^
zf84CA-p+VJvMuWX?+DP#0*i?y5SK~qdFz>_X9{x=ql+CZ`Li$$?I?d#?W_hj?JKw_
zjMkoca)>WkU@ee#O-7s2Qn=}n4D{0^j7!mBe-G;zt_zx>a^=Dct_xxs<kuP$rb5AL
zCGsz)(1Zk$Hq1ySc#Nb}`I$B6hHE5k84<W*g;r=7i)=jjgcX`!qm~e<Rm>>+BE>C|
z!`NfA&u?yuW^=yT@6f_c&Y#lyIsy;)W*?WBO_qFnu_>A=e|F2Zk6TWbh^A=BQ@~DR
z5du4nc?DB6%qy6pVP3%$4f6`7XqcBw(X0&L2<5#jD43&RUcnp<^J<u*Vex`F8s=4*
zqhVo{IT{uYkm;Ew=4~!u;jw;+=4e>*l+k3`_5gyGyKn5yo8U)ZC37?sQY_3MB+N$|
z$Vt2j`LT<>M<2nXX5%r&9T;t}Gb1wZ#Os>C#M45W#Z)t{YO*l_pi;2eEOarHCNwUK
z(u~IiQkwC?Wl*?oN-K5B60t)($jZcnnEF6Y#e_S=gw?sxiK|ggWIQpx(J}Ox;Z#qa
znOc#=KG46%cT&VW!Yv?0;z5S%RS?LakGkm5IunKYOifsrp3!TG65(7-uXSb$lf!x~
zgc$c48nng;$Zo0Byrj%1gKCx@3O&?UJg~B$PBBE})5HZ^L5eYAlJnRLQg9uZoZ?W7
z?trx;Gg5@Q$c<RumrqwC%w_{EZ}gA}K(ttzow|ZL>`=myT3l9;;#8%$3R22cDei(4
zmny}xiMpAal)kR$6BRHsEfe?=&l^ykO}VB@4(Z+#nk^eGBBda%G+8G`Losr;8Yk)v
zQds!~R6q&=%AAx*>jf{)e7%w8X<ei|rT?lv;$`>T(=9X_L@UxO(fU@YEaev|_EZ^M
zXUYW^cS^ynN)iUn9?XF%X`{g{@CL2(MIsrI%a!uL)u*g*VPylZF=dDAOPS&NQ>AdB
z>;@)a%{NNmuT2@nyW{1zkMet@nw8(r_v3vVv`A=DCglQ1b+CKA9P}nQe{xXDi!*WD
zFv{wz11qNfJ@Grl?2(y2vm+|@kM`GL&}0u7G)1bE+8R`%aB^+QT}s=u-W2+|TY^x2
z-*1%O0a`Az{eB5$1*AF(W_=*iBz;4uuStRd8Qd~15QwiMPIZgibp&z84lWaCwyVNZ
z(D7l%z&Sk`t288{^UT`0K#vlSN+3!Z(MF_b&Jq#t_bIRxL?7}N{C`Ba&<T*Rgb%%f
z1sIq6V$#v;{w@7YJxqw$jk>G)-!;6dhkO~8KQ5RPD#?}f4RDtbQD6wky89did#}uM
zd#?>CxR81;kSVvm-Rw@E#NIwR&u?HBCFqU*dm`uZx{@8X?*|U8coz>Y4}Rq+A2{@%
z9??Aeg3F^X7C=3Lc!2<ahJ4SGL;KA&TVEm?n_?<vY}>hJgyhydq~O>_^g9K>F#W`c
z`(=u~QII6?Bi^OBHFAC*POw?U75Htep)e&iB?*x!&0uw~a{mS8{B?3J!^v5NcRC%p
zlCuc{XmlBE&Vaj=xTguA6!+MNag4(-F=iAHW<sEZBp>z&B6i$u)Xh2%5jeTCe?%oz
zPEB(#ZgK${P_rnDi_XU;pndmEN;6;_gd6Ua{>lsq(w&>XlvHj_%K4$k#B4SR2Wv_S
zyDB$Wsp2KjzzgG>Cm#)sAnL|m3mcCjHo~_E<PXUC8_Myw<S27k7>Dx{ISa8Z!jmzP
zg+R;Olk9^)U=s#{<}{q6Iro>C*_d&lX{}{TrM$&Y;$(Ku;@)g!AXC}PSN3KqxAB$R
zaI=iBIpgc+ef^7$O}sU2nVPM9&DKR1lep{UYavz#iM#uibt`99UtZt3QMqH$cHh^4
zyUAZ$Pj2{jFFNkymZA3a(20+p+h{(Owlv<a4y;zCapln9M)jV>GU#_y`d7@P#IfdG
zacuZ|*Us|(!HtTcMXPv?5<u!&R!7p^d+uD^sND}GDv*$cVX^)}$P6g;U)=ERKv&BB
zq88LOzI^aUx)QJL_fCII-(R+AFumm<K0WC3?6AS2=ZI~w6aozn?|onA($TE5I^%4*
z>ukF3>s>nf(ATwi^!wFKKhk+>Y~S~{<PG@!OD`^j$1l)i`Ihuj3ge2|`b^cp-Kv4S
z72%I<x`w{IoqQ0)>&rXISElnf=UwpOqM`ng^{G4YdwruTW?Wp1d*eZk{xt6)FyTgc
z^5JHB+z3y;D!L`!M?Sx<ZFjz!d^HqTOFmru-kz_AFAqw9?t~BVxOBLYk^;J>;d~Q(
zpvTMdojNBZD_VF*OWJ|Uo2pmNWa@YD^*ipmcTi}Yhqc*>yYBvnzE-HcWCQ*3O;Q!h
zuaj&c5$Q)Uv;1w@x@JM^E8E<O>*4w4omojHvmle*Oqt%KOaU0X$#m?1wHx{Nsm9YZ
zo$Bs)_Ji=vI7rrF^+=|58{fJOGAu!~`kti?)1ke0?M!;>=tq+qZKp_NvAKvghS+U1
zF&()y5u2n%ReH$Jknrd5O<-3rTyF*%i7&JGk&rKDnO;N;)i8>c_=S>LTwbar*hscu
zqz#yf&XuszOzLt3Kb>blH->f~JPRc%qhgw;rHWvglqc~l`e76DtKFnS3TdGY4Ds2L
zg3W$y?)Ei1_81W2bZxQL*{5g*tsLmyCzU`F{4&BOwFx|Y?J<(i4%Lt{B40Q@8Ycru
z`CLF6AFlr&JU->W(D<MqQzg(MF^&gI6fTN#n|sg+yIirk*(mo%v=RIvIdnlX+Y6b(
zxgh*=A3YYXXJ;G6|4tzPlAO1YfQ`M7OT&GHBxb>ob_zkUi1;3AUQNNqAo6Pdi1r0C
z)dfTZx0O|-?X_87YsS~b`?@xKJ&Q+iy?Lf?fCu}vexq*R(%1vyuI=R8ci!3aQRhbc
zX{;Ey1$}$gU-x#|t+H%YBUJyONLdYSPy?7%PVhiIwJXDK@4dD6Uia>M?mby|ea78_
zi%h<G>D`5Q7Vf%-q0#27dGZ4DtjkNXTC1MBE>dLlRIeOdZOt_A=J8jzn|JSCwjjEt
zBh$Q(Z{GKz^P?*p%`ftn#zp7y6>5&<mSwem0|MSo(i)E3Jb&Z-H=XzFed~KNTaNHs
zj{K{(f8F~hy?3{~0EuX=`X9LJR?d^bXiGa=Q*M`xk3-b`3-n%om7F)oVce-D@>$6F
z5;<Qc=MzM>KA=}g&MduwuOkPEY}s_({lsRnpVpgB3u0T$NBytJmkNFhWVlv`d3Q(N
zDnwvQQ5hK)@}g5PE$kEkW=gtD9WpZqev~IMb0}odfzi`*qi3~(FK^3RDaxj^xtN%i
z9U);&rPfZOq4FawDUS$|QS*05ObbeVhTjGa2jMJJ)HG#ed>iu{Wg)uMyHx84jl{LI
z;$c_VN*oxbOtx8G2zF`Zg)*2eVq>CT&P^bM)J^J+veYRXRK!dnJL3U4n2MN7!TZNZ
ztKtabVcymY2Si6PAj~I|BebLwkA!VHm*IX*|3&>5&1z$!OQpr!pCwIhjyC59urvdU
z9$aci;z#mU^Yga>K+0u+lBBs^^Z<hRSL{&?(-5aeT3`Wz%|dvv)N3rt+$oeTFU%4w
zHW!n^|Im_?Mh`W395Vr>1j&~&C2J)AOta)uezi9_#gguq%(GBQ{gOG^Cgpig^k^9l
z<9bxWDB7cD(3F*iIW=%I4B#vnRh$KR#AaQJqL)-ZMpsT(^C`516&B5ldRX8#y<uVX
zm{E_+KO+mOC`%qC_+{P`{B=^lHAX-~0D|jKnF7=9t6^rZRHpI^qg5iRgE|9J{3iXD
z)0MlABi4wGnQ`ip@+!ZolI0ly4upN29iDSzSj?bW7LA{Ug05)p;>)za;lKRQXG2n9
zj{<PMR-)F2UIL!8q*wHqu_%;`!#oU;g7~4e5=SYFL}b(<tq8(V%5{Nm%UO2ECgNu!
z6ML_96|E&&%mWd&5=}}_lR(Gas~yC-*~*#pj?o_*O6tnkDt)cAkI~x+?*Bp)1bY4=
z;2DBYa7!_xSAU;?7`@6E1p|O2b1Ro&>?2HMx?pD1c6n}c;;djyno;5ZjIzB&4%_hl
zn6kMOljoy!^3BP%!bw$(D0ya7R2gTo^TH7h$gWuyXm=Pjy}<QQLyuE}qu|Btqxb_9
z&+M3-pN7GcS%EZ%K}cqgMhNAsWQv3h0BoxeQy%tcAS3{})MS`dp^*MYc1!YpDz!0A
zO3uO+cd)1$<>JxEG%lbE3%1e|L5n8YFN_;?hP~oAiee_41HVE@*i&ly+`ri?{xNO;
zq_gld7<#riWwP8;Cs<p^c((AKEo5v!p~wYYt@~B&nW`baYKR@E)&w#&-F!_q0<QZ7
zXRTS`tQGhEiV!F6H+Q_-{Z2O~PsZKDyL&S3gS`77f@Erhjxlkb3Pl2tbuDGM1_Ov;
zOGnz#_|WeA^4^TS<1X$O4vgT`R<b?<4>K7eT`pXo_Vpuk6Ue*oIqE^*HT7@c?qr<f
z*WcfMkkNA_DgU^n#90PRgb}9V#ko6dyk#q6B&@XlcHdg-``sXk9e%2}{jR<JzQ1wR
zoCyr^fuTF*%=Q!f_7nH~qaZzxJ@mJ4_&Y&Q9=qRvChM$QnMpf>Ya^NNJ$&~bQ1t_#
z7{6!fVc!VkUKrPB8n<kp!b>YK;7%Jf+oW6J+5G%eqCu3?(+plBxQ8>y#{B^P0*;|e
zn9p*(>YD}`{vfVIGC+&;p<mYl5ze>*yeqI;z2WLkTe?{%#u;&utI(RSq?`)2RsvHR
z%Uhzrz&4$gvi?QTM)is&Z82Jw9=Ph1@$;}}x?q}xac9kYN)>e{Sfg7o&z6Cv7VMV-
zIUsH)-G3n16kISD(6utk0U+@~9X83Y{32FDIh9EH7zqZuU8n_DG!n}ma@O)aQ;g<@
z+ToiX7>Y)(g-7nM#(_sdee{EpfXd2BjIiIT(^4j5HHzDrSfeFnVw9kuJwzlLXhLN*
zwy{N!`*Xx||CSuuZ@9l8-}lMMk#nD%K}z^H@CB{P1QV#szoPVq<j4i*Ol;|6s!0h#
z*JwFnkBTr<F5(yxCZI?Ww$sG>m&n8zg~F#tpM2I;mv(h#1HCt#4<J7g80G`R>z~;O
z>|1tXy;wT>z}u1bZb>_~z|DeOY~<_qFOFq>-D}5r-?qi04=Za0U0V5~@!{|8{m$M$
zuROkZ`1|eMYsc0XK0LqC{tP21Z*7N^M%4*D7(DK}FGF9a>#nQoJ``D-`|rHSyN}?5
zt|$ZN9P5V#av^W;xV2;TmGz?=wR^zT1Oa%FT5G8j=$5z98K`l6fyVGx$$0}#u67Cx
zXzWb5Bq2E$o==7&mpC#>9h<`~RSH$d$T+sieVMYd*Tmk&YZQEwoUg!PR{x(8hWG!Z
zmqE_Qw6=c@sUYnhG<T$pjSu!8{E@E5WLv$Kr=L4peoR04m-Tv6&syaNb+_waq{Y;8
zr|r8v-|2xl8B<T*t?L{5*j{U@m+3e7v1-D84js*xQV3?6ht?1A4cqfp3PKgQp6OIY
zK*i@NFHwVxoJ;%3LdZ{?h!X~f+Bu0P$`7p%^gKEO=cX>I3*n?BRPwwoilch^j-xQ2
zzZ<_G$8bqZ#6ZLq&`cvpG|{RD^k_;W257I)bugBzhM+Z9quT$buOu&V(PyR(!-hDQ
zgqb-y_yLz*-q530CP*m-Hl3s6+H3PXT8*_?e|?;khQnx$@URflR3Y(;WOgQ0nimWb
z??(kmUmtr|nluh%pF(}S?Utal)&LxLi?x%HcO0T?DY>e(LG)S#66&KBnms5(gH!^9
z+;%|7XuOn*A@_2B03jpv1rTx{0nwnONIrGHfjYx>4h`nD9rP|wN23?c4DAez&#6?5
z#^w%-x6e$?U4ohsRFT+;kBE}?!L&*l;e+x?pJ>#OtjTl9@HuYo66_hW!yht?2RjF0
zAt{lopnUV^uO<p&Ybcf-usxYpPH8BStkg@TusB>j$0>2#chDzhhz~~fVP<@So5eD~
z{V8I(KO^T~k@H97{Bv^t1P)elw$1+yUUtDYUj=J>+{7e|OJGXF>LU#60Gmu)8{B;Q
z_i1N2PRsCZ)P?=uUX`{tWSd(EgKEsSwbO4iOajqwYqm2;zirvRe){dsws+8Pi~Jkx
zqHz0tM>)v}rfbi9&+)>8j-gD)q5rqIYY&R!zVExo9UR=j0e5i6Q#_8x@fPTT1VTar
zBy5DES1c=*G2%`VdVsnIl8uoQcbXU_>KOgeF?6OQ+4YRk)Kil*)1XXSD~Ts|Ch5$r
zIC;+-DJG56N7|+*gX=WSwEcX4d%Js_R}yhLlO6coZ-4LC{(j%z_bFC&Q51@3k*a&d
z>K=MSL0hDT{bIv@dP8yRrOKUR<xYA-p{w3}8zkQz(YJ@-JOxQ6L@^}7J#rXirLAN1
zg#7fs{6BCQWQE_vXVOHt=$H;%`toAm6T=Y4ed$aXTKfj{QkZVm`0vNiXbxZn5YmB#
z2ewv6j-bq>0sWgW7JE+8SzUm}&~^j81xEXV3TuGUybYA*nAMmxWuVxQ{Ra&hEk)rM
z<YSADEk9as!fiNm*7!L;T}onK3p9qRXkcy7LG2t3tVRRNC9!OYACIPta-!`4tMg%*
zkJ37wK=WeEev+d>bTovT`))b<Le{>Jqc7rxu8Xj>G*Z(=zg3ZnEel;z`#}+Z6$dG(
z44j*ivoh?goZ1zs?Vj2dwpSw+{gyFC%pGFo4tj%{4F?%;mh3*!?z?TTy_d?l6zn7b
zql5$Ad}cT}rqF;L0|SF2BcqClV{l+V_)i++uh7W;ntVj&R*u6F^8E{ik<&$;>p{?$
zIWT(86p5~?MRQfuWCDYrHOtb=&)47dip@RC9KA#<(=ByN#idaTesMxqR7X?D2UfX^
zl~nkYDyZNgl&L)`OuPIW#H>c65)$=<X_(NdK%)Yknv4@SMMI}r89J5Bt&xnY)d*n+
zEm_9l_WOjV`!m4u=D^9F=Fbe+{8{*?uw;KW!t8$M{qh-y19|I0zI4X&SA5^xImWsD
zkeKynF!ZhaJ}H#gbmQ0niv{}D1N5!KpJ$v3(!j=Jq~tdH^U;G$q{<3pL(bR|u+a<<
zEJXi+eF_lo^cMzPEZ(pzMbenkqnw-o(-4laDMHR%hE{gtrm#-V(LY7V$L<;&4-TH`
z+bhf>pPUL~CpcB01PLq?=a`2fofS+EA(%dmawh1X?YX&d6POJ@g>D8EV6dYaqnnY|
z;NF&qZf2Upv@*xi(Hiy;!Z?mK(6TB9w?vhF2n>pbELDCpof0voxh%C*pgKvuHra@2
z4krnX1$%IRBLF|)5wcEj{^VCl$%X;c=1(D*cTA&4PV&0NKF|d<L?)OHV-P25)cQN7
z$=|6bff2kVw8UvCOEN@U8#3Wdnpd?YO>F`6n#aZ-ZPBD#fnN2gT~}KZA3s*B#$xQt
zRKNbKLb%AIp`tNn1~8}*%N=s*V`zBGzmGJY0Y1P8=^Z=&wbr0zoAtJ<KDFP>6qCI_
zk+1BVv_<1zd*~DTEg8v#zeWMd$?`4u;=x4W1_I(?!njY}2=}Wpn_Z;ih_(=wajYYe
zaZLC&N(SDUiFqZTRyK>|^U7Xv964nR1IPiuYWszpa^@`KuoAvTnF|xRy@Ui5G2`y~
zTci~Jj-2nqAr;g^q{$m)ljM`C%$!|<g<Ystu;8OmupJDaK}$?nr2LPNFPUN)lDC4|
zn5k&RrdC7ebZ}G<enLqj<b0Q$e}^MyLjiRHoc$m??Y~k*|3;3Er&W+5@p#%e(FUVQ
zAsax!qo^I|_c&}VtUWypTdNwO{4kMUDd8R5HIlnpbXODFWD|IlJZXPZ4j!eBRXj=^
z#G}+ktUGpq7Z56G|7yFu>EKkCWGD5zb7`WzWu=(Qt%!Ka-{@P&z3E=8>jmFTE@epr
zRwWLlTHrH8<=%0ZU+bCcU36~(Dp!%g0VcPwX0f1_#BlDEG|neWO`T#>=VHlDg5rvn
z(2hqgJtEmjAq%NsNe^4=fQ(4b(qXo_t~VdO{-{*9SHz!vZ!A>-przDw$+`~Y``cE<
zD%7g)55uk;WBFJqFT-XZwh;s=&lr83?7_#b9X4thUHtU}1^KkptQ0Lhd!u^T0~975
z1S)8z2IJR=eFoQwK3peEaa^#bG3|&^w_{idbgfFE9W!bQ<=PXU#t1#|X{MGSf4LKE
zE!uXhH}@icx!+8P5}Qt2)%9t?wCw#*13;xJ4^ot<e*G8Ys2#gV;nibQA5v&X4pQK_
zPJEC;V+2Bqy2N;f#Ly25-uPh9IkADFF!u|8g<=@*@I?J@hnvV(tl9w&5!1dXu&u6_
z%KIg4IN)B5F(?O>OB&nM7`pazv@5X<j0k@UpU!K@DBJgsLqW^gK(`=Z8)HZXcGLSI
zmCCMdKO!HyFuzT{k0?JwG%S<v2NZS#jw+W$C<oym;jEU+O2u~(XI!*7e)IbDKKVLr
zV;`baAQy_EPLN~~ORMKxZx&oHm><5GwOGou0v0djlU6{7ng&vCQ?@1O7(8<22vjqL
zb1I>^9ty-OUMmhenxK^ajuW=w!WC^{XM4!r9&)y`*sH!--)l#2J6e{&rZPM`e8m<`
z=W?rv-^dNb#+~fq(7OJ`?8id($0FqoQuz+Cd<V6uB;sw9ygNlN+g@;g+$h!bi#7ce
zR~0F%m&!WCvJQG%m+)56Bvo{Y6}WGz41scH?AA=^-GTGNfeW%*MKKZjS4Ax0QZ47G
z5yVFfbQ8##m_&xp=wHP|sPS{qe8rPeuybHO5+4<C!ft^xk&y^MP%+-KPEpwj4`e(v
z5LS=+i<nm}ohM__Ha%YT0Tc&w;bam>)@CIP$cS!2MiAlJ3@du->K*{Awva(bvV)vV
zIKE_}td5@z2)Kd>b_%wUvk?nX&L(ZDvEfy%^kvYZ!|;J<Ov<F8Zkr*@R+p-<LbJt8
zSeJMbMGi`z@ETr*!08@e^i5jJhmjrh3OiR?Gv|G?@p|KXC0j*%;Z*PRI8G%+y_aOK
z6z!GQ#-*z5V%7G=s?M-|XT+W**_mKwaTR!gBh}j@m2J^fF1_?)&XS&SFNG^@Q*P}V
zie*SUKTxN3E<KHb`2C`^j0k2}X~zi76@R@lI={v=G?sP}@t2E@uU@#~!6aVXWs1j}
z2ApFx(^MurNTIDrnC3G;XrI!!PxP$n%EmhN>qxT<L!?>4R{TBMC0|2PMu;@wSBQlW
z1Y42Xys}MI_%B2SX;#@{ROmT`BAVD_ycQpZ9t+XxoI!bOM~_u*WjL=6v9bfw=~YZr
zyv%6V)%Mj0$o9imhNqJvjlI)J;mo>-ZyWtqMrs<Qnl7=Xi{4-c#QC!AicQL_7c=W`
zXExrWU07M&M6Wicw6vn__gmP8yv`aOSfz}c6yTpx&VEY6i%%QFtBfs$PE;6=Z34;s
zA805E9AFgjmnJSvNDdziG|c%H9UDT{4N6bWA%URLM2#um4QiiIdE%pNl9L)k7B*<m
zaG8a1u=UU~Q};3&Gb0jgFmW#<O5sG2aUYM53ZOXne@=b#A{}GH%`3W^Hk%f)=S)8v
zD%-S>4r(W{(gH}%EYhf&MD1NQWo87>-n85ShfSGL_Y6-a=u4$Z!2<?wFfS|JH3?RP
zvdftYeNd&sIh4B!`j9iA{0;mDfQ~@584KQT<6fQW9`$)03Phi+TsAD<REk-Z*T!C-
zd}VU}=wj9`vQCmSr3kyPx(#UO?o-Gef9@Kcx&-}0p3v}SV6<2H&AQ4ZpyXhu`G0Am
z|CD+TUFM2X((4x4IdmFCV+|#z7*S9H{i7E~*p*ue%wj2H7&{gu{3Vsfz&f))s3AFD
z;XqR8V2p62-=Y}=`ZndLr;(>wRlc58CvVJv*!_UOxHCGI@>eweO(+ZpCstOm<Y*Ng
zt&x&i`onPu7HZq9P4a9IJsUuLf+A}&rj(o-Q`)!(?O3(`=nP=%&xH@*VY8y{?H5fn
zKPMm%0pwfKt2|B@!<iCDde#Ug((JWEdRBvujLt$rp!=b2Z>@K_Ns|Coeuk;F(-J+7
zJ&<8dnSdWTw0oZ#$8q3u#9-3{9#{R&!x`xfR!2sK=fEsOC?EEyaU`G3jO32R;7IF5
z;*L(8w4Nth^y&It&$tJ17T(h)(_Y{&S577YRtTUp%-}`aMLT4q?I?{$X?7SUpmJfP
zVKSM8<V;#mX$VcVZRk4`l4<*h6=~?>PI&w_wO?`NZHq&D!i<1g2I_u<EY?%^FJ??;
zoGMEwjKTq;PC6hdojRGWB8_>D=SE-?-fxG2VGH^-j&xa*Sx;hzWPQty>z%`&j#Llt
zk29`~&Q)z}LK~e*8+C43BR=6V?GEhE7^_kHq7Vj*d#8>>TrZuFR?haPzu{1oyTKT)
z3-|xvr1K(_D2+UU+kU2Cg1J`e)q`gMW6NfgQdf=Dt1Y5Xt!B*QmneR7T>s<eh~m2S
zS<*R{Co}w+W3;`nN1YqJCu$A2ucVwJ+-kyuHA*`j9v<ePFJCYN>*LSD4v_;w6dBay
zj7%aw2-%C3@Qv8_;)cmtkCFVfk$N}3^E`Il%j@EJoIOU|%zl^JC!rRl(=nXzoZ68P
zfY-IQ;$q%N&3#JU`MZ<~1F|{zs*`9Q4v?{q+({3@);>BpM2dMMSDj%%>)*s0L|NsS
zxhJ@3)8#|YBt5}h;C=3Xz!9@(ta7B{FeS7G3t%VfRu+Ju<CKPQ*i6N?8jwV%FKx1F
zfSCfGqqGJ`v`~oH38w(6ukb7}LPA^Gc_vvtVF$Aj*e)3NQ3K4692*`C_8e^RCCOIe
z4e{dwjO(s)7Q+iOm|$3f-OKSILPyK#$|aX^iUkB*oilguKGf4UJQ5fb_6EjIj{0Ty
zp%G@9V|XIqUloxD1-CE;84L#e2O+CGDg+;I?QHEG8EchuIv?M+cThMpJQAPdQ`b#G
zsx2p4uAd|%r^X3MYC!y^^Z0Cp-%KXG5YZ8&M(9y|NCsCnBkCSfY8O4UBK8=igqr>&
z-PZToYtXqb#&iUvVf&yYgw_up^s@6a_0ZrLzfTVhQm(0o2Kn?J8rSu-bwr*t1*M1f
z$N<bRnhE1tj8cB8M{BG>@6oC`GsvyanQ-zm_0M2D@6$hnlxymrK|Z~I#&u!Fc<}le
zej85%oPF8?P_h#78oFOux8xe3?2S_nXru^MmjS9D==AtB;1xNIjai_!0XQW;Y`5Pv
zZl@vj)_`Xa;JJA$_T8cN#d=RvAJr4%-r`P`sG<7rH2*^NL+9RTKg!q3P<?Cf3+CSX
z(EZ4u27T^7Q=7}wmg>LvX|qAfHMQ9wpWbHUx}MJZOnvd{eNcVI<r@)$*3=h+8Xnr0
z>}h_ab`n5nu<D_`GT4!f_QCt~%BuES|NT_2)>wnytIyPCgE_xXn+;N~sm%uY^fnvU
zwT4w?G&%-zZe0GFR@EA7cxYd;AF!iCb=dD`M+c!MwV&y~0ry6=30u359Q<<v@BpAS
z#^6$BA5N&E$Qp7OSnX7(nO~*UWF3cT=9QC`EKCQlYzBAfprU1`j`A@8oGxKP0Xff8
z9Vveh%kg6>sD;9RN#V(?(jaW$Oaz3{Ah7F1){*UsfjV$O6I4v<dP&a@<zSi)5-{x$
z)f+h#0QWQ#Uzun%Mwv1Sp3;h-u3afU=OvsU!EXSQ0Va+7(rXoSMGNM|{B2W@MjQp9
zb&ub2JRWfthnzKc)^GY&-q-UMy5H)*(J!^{6WjNN4jh&aoE8t9mJSHw0U^{D3_Uv$
zUjN*5_sjiP`X!f7bos)r2GVOYe)aj;=jWck?e4hKw&SfWH@4giyfgBh5vgZT>=_IV
zos@>26NjGrg!m77P4|?aD982ikC^cDInzGV3dgnYH_cc`bAse)5j`zoPiv&GR4Uvc
z(qHHMdF$@La>}#UpH(D6q^*0!t$W`cmmWJIK6XNSY(#u)B(!BTG=4tZcmYj>CQ`{&
z1uoUFt4?X+<m}|!Q(<@eoh==2<=x1;+5Jx6clxBRqhi<5(12eWxF8N(Kog(lyQzuv
zgSK_?J@nIO+DlE`+D}b{QXa{(9_o0)o=x#hTyo_{TzQhKPIT3UTrKd2Ty^g|^CI=l
zZ$5SXDXD(9Sif5tz1yyuC9hBNZWO&6r@Q}TZzQWIRN8VYt0j`@V*b{}EGUvFk~~eK
zr%Cd(ik?=<(;<2~rY#Y7;cJ%HZLipFxobn2wIO$H#OaZoUKsd>o##8vo4@7zx^Lmo
zTTk71O4@cn+;$*z=!kUata#|GbZA^WG#+X{ADX-vZhl^!$QsdA6LvLz_9dV-H00U*
z|4_;;&t~~|neETIOjdQ{cP>QqY{r6E(ig;r-)2E9Wx5y<2m9MEXp10)qO`M|gnb(J
z0t!qEb|z>fqkE_jCg=Ms5rilp`O9$WLJ4hNI@0{xl<EdKQ*h)=vUco`6V4#@a$|Bi
zA;^R00z=B?Lo{$83r5ezm_cGTl4F|1WGgBQUVz~nVFwjli5lf($V)?VL^cmW*jOM;
zxbP}DL~T+wU&63K@0s7v=ty$9(vld{9AisUc-WbUHB;Qak-E|h$Cs~=D+%i^d%+h6
z^=QK&#WM!DRRS#ofsw&uX99jX7nFC#mA9IlAZMRFIjD4BBQeN1F>FUdQd{iZKRh%h
zr_;u(j$BYSGpo^Rpt2v!Y5EAtX)Loca5g1gA%2w8XjxdSGIE(X7h(;Fm6H;qQ3zg2
zYon?dQz5#QqM~6uqoBV8$IqP`1<OwSIU{VKQG14loem*3enA568BN#FVZ=z;9)Gk<
zls)|TNuq<s&kmXo?fH^@yJ+9OXzwJhwt8ZGtB=@gqABLGw2-y<qil0Ae)AEo@askF
zWr`d_sHQz^-$u*}jZ#UkSkh}ugSiKpKN5?~%2BAeb+<C>mU43MrCRbbAm2xda7Z`K
zN{+1*^%Sk-b8aZ!kqVl`f~LiSX41TEyHi&2=M_`wcgkxZ*FDuWT^}_a;nQ;>&T1GK
zbv8v@g&!8}xaoSQ;5!BH`WK51Os7ShMIomT5kG6&C%QIIAGuaAcXG*HHs=-H4G~WX
zxOnob=QfCWjq?X@7Kj`B5C;9+SKDXX=WO#w77KPvcR_Ld%NMU)y!Lq5T|e(#I4w5!
zBGrfPhPko%gJJhpyet(~&6&l*`swZn9TBAFYkKedF6HpHhFzWSyYixqI4=2UGgn<7
za(RDT-a3;K+1)RCx@OX@JvyJaum`4K=lo(pbEMD<ieg<;$Wx8qs@m7jymDr~?Pl6y
z<)bsU4-1;%H-`(lk!-1?cJ5KJq;<x!V&!~|Z`!WgzPV@Nz}w!1C&UfABOA6z8+OA3
zQ|i86ekT2=WsUQeNYl1RQ(I(9XJqTH$o5^(6<^-X&!l{0hiW?TFU@qlUsxL5#(B5g
z+re{%b<iSLQ~}a0q*S-fZkuyMYs0+%X05ns@B4*b5Z+3*EVve)TU__(j2YuL(~eMT
z;)VrRxS#_s)Wj~aWc`c<y3pn=^IyEv)J^T#P3`eiTno${4SU*{R;5xgv-FzxJtzhO
zjon-O(KB#+O(AQ^N9Lx~oG1jo70R-5z`o~czO-kmb80*S!+2l3^hL>0B|54?wO_d9
z_`)4${>(<HphYZbnLiwMc0|gnrSdkhyiF?KDVFb)%KOCfKB@eWSbpeA-;y4=M=akX
zmG2kJ_e<qp5X-+X-4}7L3xVOrxg7@qCW8^MLHW%pnmKf>Z(-wG+iz@_+75_q2SSgJ
zifyCsWuA*Vxx5yrduK_172RdR0+lmezYcE3C;Z*5=020@yW2f*zvtOif}ihiNrC&0
zDTmy=403&TayK`@{gKJkmtqlqh>gJKNe~edAS)iP!RaV%8N^8!r^bmGk>VtU66Al0
z9aZ>m+LJ9~;}BUDN-4lh<+PG-A32xl^^f5&(rrvg_<v|;BIhiTVV{ME^gmg-RQF85
zwc(JbDVk&|P7ay#5w?@>;y>cnTgpgm7(XO7jGvE=^KMHwK8OrU#!~*et97$=Q49Q7
zY*6q}_)1|kh2E@ONySybfzecYgI=eMWgGcQGA&I^S_!|%Lefg)BWb1ORPuRw%SK%&
zd800ryb&LL`wkv<9q!rE;slf7M?tD!GQGtKCev$zU@`@*7EE4Fr!bGjlDh<BmM{xR
zs>gFts3N^QV-`~jms2PxBNbBAU2{2e!TDVa&V`{+W2fi?ui&m_4l&W(T}hUrYkTGn
z&9^LA-m>4Yhg!PC`fkzN6XhuC-IjNQKWP1g`4z?ynu{S!lJ?-8J<Ehu(*>cQ<$WgE
zsh$mSe3t#!lM>fgf?OHt8WhO+0nUwOq6q&H7cs*wID9O8&GqYILM`zv5Drld3AG-k
zFmnDLwF;l7H&!7FXJFDJ2wO$UM?!^^|2FHot}}t?3@YATIEb4%awa~0)9EhM(T!O8
z5E7mQorVVaRk9z*b)_KKl1g)pu&);emJTp8P9T6;h0{zFgHTtf#tfNw?f}PF94-B_
zhvb2wwHK;YL4hHVCMIyMNHv515o)|tNoC<1n10-187Ovy#*9fHtVbw-99)yf82G0u
z*rgF<+>A0myjuKH*g{d{EE2GA0u2Vg1-|pl>Ew{7Ic#lV`cP^`do2`f+8Y5rE0?LM
z)H_+Z)8{4kCddK2m$iASGvdgX92KIYVlEv_x}{$~J3nx<GgR4g+p#+W)8gx|K$)Hw
zy7#hM@xj<L*(?K;rt80g1NfToW%9S9F|uQ5^voIDwPEZ%*f4l(NC8-B!k`@mfaTce
zDD=<L8Wm_YC_5rCV90hzIFAIuxCEd)s2gUG9n6Y+3@jZz7i2KHoWVjhRlb6aiYQqf
zs9T$dnMo!;Ezmb7=OrXVp=4$f1|o%YYEuR!Dqx9-wP^SZGhx}_hfaR*se-m95D`hX
z#ZrtMA3mX2iO8bdge($>nkHwm1bz}19X>|#;)09fh*3izM7v_+h`1JI7fXuH6W12$
zIT|DJ?L3N7ssRTS<j4gAH{}YJn5`?ow}GK?v`JlH5E36g&)O>#P};@^rB%&*#_lG^
z27>{Cu=BF_0lAJttul$^1QZUV2PI|r7N!n~F!};<4alVrC>k_M&^m<@N{nxm6UxXb
zC&vp%u6<Bm#v&Fc+fzX~iXV`JP)3zhb`_<pdO*q;%~csz5F$8v^BPk(C?-UYpKBdp
zKEX%1AJh+>upIFFNn=0_<!E_8eTot-y7%DAgJuKL&BJomA}7;*CD$8eR~8VveF+V*
zi<Htxx=^zFW$cSeSZeGwsB}$eq~<AKBeY|W(f1n^nkX=xRT>PyS~g6^GF>yVb*>DG
zAL<?kP6W=L6`H9&;?<CISso=Gt9s~UY}htXWKLY<*}*Y2ZX@OXGwh(kCh`$DC+D-I
z=hru!K0h!th@1WZ(`R&?)OQo>sj!7orD=gdp^ZXG7E{<p4slt?7G*fLQ@{>#I?35d
z&Mr7i&DhYme{f*%%<$=e@G7;Ti()?yA45w%b8b8~I0M7y0?!Q4{?$!c3x}UkwmPs6
z#Ej}T93LN1HcnC`6$_M8wNN3G%Kt+ue}$F5mx;wG3SM8L;Md4`k(_@fhao%4C~1aP
z9?8-LgdQsCYn0{^IbR{?c?#P{&Wq$+B8M;~Oy`^;az`TO47g-a1v~teb7(ba02Oqo
z1rmE5!dGx6AQKmSBZ=dpNj%TrYv%aopK<9Qa1D34!n<7V&p7*C&h-J;_H(Z0F6X_=
zZTo=R!`#D*+~H45$-L=fj+_jR-*}fRzst4X<@)b(+dtrTt&ZKpf53hIF4yz1$%N#|
z9N)=*VoKsopIG61Y~}cF{w`O0m#hDP>t>}?#-b_apSXRC+&;ZPD9ACFg_4|7QmL3!
z8cr(ziMc9bDGXV1Buk-aDGXbR@0uGv;OawM{ZCU}(}x#Ri@%h-l6-*Yb7xFfQ)g3G
zIP$NYG1c)|(>q`8z0$kF!MpMlf7rzD;ME}Za__v^!Z*!qjB@yy3$UMs?qzyg$vkgD
zk!8e|y~2@yMX==azL~()ld~tUj?Rt(MqS|$5^d#7xnIhW_#BbXS>)aKOf7ubauQ_y
zqU4K?@P|zNIv_ZihMy#QS#r6f7V_X|$93(@r8ChK_G;y<=`T*c0O+2*rm3$s_G;%c
zoG(3j>B(q1d(GgobD|FB&Ey=}(Jbc8=1{nkd0o)J9?fB1C>CFLwQ#l&*Ydo&sGEg(
zxMbUlPrmTvavpm<XU>glCj6|G_>F5Mz3FYFH@%7UrnivZlm?PdX&?EN=8;cn9r+R(
zM?req@J5R_KSK7k)<v?bLRr<3jLJw>sg%`lE34sS8&>H`_F0}!n>zN=@TK7uj{GZ6
zCk>kT%`^M2J~8{m3P=8xJ(e9NzDf-uf3(NUncOR;$9TSI`WUg@FLUIl>2pU}@QUA5
z$=8KS*ROE+UD?k+Vd0A+=HwT9U+A5h2o-FcpS*c=C5b{;o=M~R)KGro3WwhnE4>sV
pAAX~D8=o1m7lzg~iuT5661{Z*wS?a#i*;(l3rAKg@G~gy{{V4wLO1{b

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/deepseek_vl2.cpython-312.pyc b/model_executor/models/__pycache__/deepseek_vl2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..28c9438d096b66a22ac92f90e523499e524e1741
GIT binary patch
literal 27455
zcmd6Qd30OZdEdjn6CeSC1XpmCAW@LGXkRH&>qyjSw2TKH2d4NQNl*aEc>qTe2eg%m
zY*Wd^BQ;G$)lNmFZpFz=J9O$ca!*dII6cjDOYw$sfV^ssnR?pPIXx#BlkUuMy8XWU
z@BokkXYAyU_L02rzPqpAcE9iP-#Hvs4o_77Yms01JjeZrKGesY^DKW~%W-$PiyY5|
zI9|hRqneNgZ(URy(}i>~eMlcOgbW&r(?^XlQ^*uEhs-fc$il+3QESM`^4VhckUbaX
zh}j3V8ZK5Aa<ULZ)D<famB%VV73|v>b;mp*5A&O%l`(I~%lzhORjfKx&HR?AFIE$(
zVSa10HdYs^V}4t-KGqOwV19eFG3F2Xncop@iZzFtV=bYUSZk;?))s1G;bqbG*oM%C
z*v8PtSRfRLZ3=B-;m+vhSVyQMwk5PB77PVrTSHr8+d|t|oGaQH>k4%-e|fY!))VSs
z{)*`K*pASS*v`<-*sjnn7Uqubj_nEUVSZ0^Z){&^AM;m6_s0%|4lutrdN6h<bSTyv
z>Sf<m(ZjJLp(F5D^S)?b>}cp{>{#en?0D!n3#*Bqh@A|bjGYRdiai&4E_OO}8sW8}
zGg|IA$JgED_<G^c+d5?qL;WnY0ilgWp=X7D;p~)&<3i617U3N4--qNZWfM|13--}(
zsf(fT&X;+frEEdUR$)s%^a2ZQLuk9uC0y_!V?OR8i`#&>jY7woxJz12@Q?n}LOrTa
zxFlQ<F1`~`OJQYfLK&M&w@)}G9Dm!O<bFF>Na%CdwSkVQV<*Rk1W_0p6t;|yMX&q&
z1YsgB2v@dTI^E@ujq^g(KR6zn7)V4eM+N`YNMgi)VsdymGB$i{U=RU9WOyVI5B``+
z?GNZ=^T~uD4j`>;Ix{dafpoI@yzt5-)qrSA@7UOQVjv;#vgve$l163Ah3gYSZ!|Ix
z4`^kJC=7_=z}T=L8%1G47)S&(vi<NtVsPXbJ|;y0-_}dfXza-N*id8`U#`OgaiMQA
z7Q23SA`uxMizBRcSV)8u!dQG<46|N@Ck9YgREUPJj*C$~9FI&<NfqZN2gVYSDfDlA
zEMKArHAm6Ca5OT8=7a~M192+Vedgln3n$N<?dv@qe&OixljkqI@KQi8SDcxQCL(9X
z`GIKPKw_XTGMJDn3t`71LX=m^E)IU~>VP;L$8g2s#U)(4c(RX5K)LRdv4LUXXza4U
z^B71asS^0SI6f%E(K{v3!cv|`pU}otjbZTtgIq;}REWywmn$eD_eqtE4UNmy&m>f1
z%8@cQk$6EFpO`R~knKv)#R(qMib3+`r{m<<#AG6Vcrp^@1(AmD<QQf=Ch!rYyuc<W
zjx|xCuDMI6FLmX{sp3p@0_BbhgNbo57v{bciDQ<Ijtyd2<^oY_WpVagN5-kTy1{|L
z5rGdU#;*ut7#cA=gvN&l)pcWy#4*9~M0k7%3(u}J=sdE-24q|AYh+-8`cxIia^i)d
z0gNrm69-4ad;+WX#~Lhqbiq>?u>5pkR?kmPOpJ?(cp+A{s$tJRj~OoSolK0ssO+KB
z;{)iH?8tr6?!jkGWGs>hzl!x97KLH77Mqn<mb7e-4P3u0geOE{D01y*rhO4wE(Zp4
z8=So?xsT;pc<yon2Q<Znv_M>%kWSF^S^`Fbf!7h36O4js)RoIo^a2>N@Os|B8+jA2
zAJM#HR)NWon&0x7`K`R|Z6Hm0^11Ak>$)RQCf61wv5T$c=OfpIsIq{jo?88Q`XX3v
zv;g9J*f)i3@n0UB*yCs5!B1P-zsWx~i47zA$A|oEJmRZ@0LU=G@uC8dy+5Dh+33OI
z=)sYJu`wYU_iyYD6csVD$A5y&Ayq11(J3_-rMSAs|6+s(?0hzXY@eX6hF=|sP6}~Z
zPs>Wyp<6#DL?vrRWX)BqKs$eZY#<gH4D%7d3qAJQfULbd_G21S*{$?6949zE5DgEC
z;}iV>t85O3kx2-LWoww$%w&}O_Hg)>$$@At#uN_o<AdR_2%N{s&TtrABnV9djZh<n
z8rYJTjmoAFHzMpUZW%83v;M7#*u>U}$i$Wez?qQPa&2<w?p;@Q3R|O*%UdU|Cq~A{
zw$k$5s(@kPnlOkpFDjq$t$YsOV2O7HC$5V<D3m!z;EA7y^A+wRt;t}{R&ch8+d;|N
zw5V^&Slzde-aUQi^n=aw!os;nx<}_z&tH7+>XYUdQ=S(k>*p5rpUe1~=e9rG_h8?*
zYad;B+_~6!G}Urc@*R7kKPH|~Ygx5fXawk4o`Ul?-7KIQN^T<BXhc_FGg+0*q+;*<
zb}+H+U=CR1JQ@ZTzQp!J9<1c{#C^89*4q=Gu_cOD=FlELE8jn)U{|(_isET)M|fTs
zQ?}Q}*knB6kI^pjM}eg$0daC<!sUU%E0@Q|1Z8K)cD5$N0%5PXxC6Zx_rsAjL*j1w
zpuYA8Y~msM=q2YcIW+BTDT;mMqva<aCFd9%Sx@kqtv~TN1+sZONxtV)=LLA;2jS4V
zF<{-4m0CA*J@bZl?QhwomhF;f`?p_v-1DCMy}`wuFQhy#NY?XD^yihbsaV;&7C0$$
zuxjn-kdU6`O>n+ew0d}rpc~T8a6{k{ZrVe7UU!oV8D_X^nvn542OMB8Ms>1oaA<fi
z2Pav9#BxyK%l{SbZ))yx2^LJwEn|}Vb&z!`NvGkGnj{y_=T2%yY5dkaNTD_s=|`#j
zHIHaI1^l3v`Z~%iRSvJcvXSF%Ys9lCg|SSli<#CU+`c-DzNU2vry5!c+aOnk8ee!L
z)KmCUeN*WDr^a~Il!bRvN4Zp7G_0A{Cunc7hu0;wylx7;QRDl#FYsuyA*mm&RZ|t-
zMLnr2gsMJu1m7kq0T1Tqvq~v}ebK*ld+}*;Y7YvvzcHl$>=yig)Q@L-P&D2R%9s|r
zN&VNkX?;?U6<)4}U+30Yy?R=`Vpma#rN_SXS}ZXmYHOcuL83`*4R64VmDrQt;C@T1
z&eQ9ffU$onaDk{+|HSw>c#vU#B<=@R_Qw^1QsDiAlOnjbMD%)4cJt#`$KnIA31IhF
zbRs+~L?=Z8L$XofU#99VjumoFsARRDNR2)IK!t2TEND%T3yj(fiv&dFvV6)gBT5{M
zkPhdXBpY~PA~7Ocs7jIO1z9^bCL2#PmPximi1;UJMRpanPf2JRQ}BXp$Z>i^>yGiV
z{`k?;7eOL3evv2{+1)>$I7vMtRzu*AisHD4ZVg-)#CX6Y>*GRnNNFu=2WyfDsSPKa
z6nZBvYr?W6tgvw5aGY>FQI3B94Ur*^7ZEU3Sqy`N>M&sAbMarr=KbUb_tfmTWs=O*
zPs}w-Ztsl#4RfZUDc!J5YS=cTe`2o9xV>q2>-+B3l=)n${oEp4XX}#9nYJ}ZwuV&m
z&PChKOm*#j%RS4?N%A=EIc83N=&HDDxns$As_ve-b7t;Hx^<U?U(c>b-RZq&CH#8M
zQsi@Yo|_9up3Tb!U3o=TXQ(QhIlf}&ytT8Pvyu6xd$B*Q?6|GTxT@}!-6{K~c>n6X
ztKYc(#1+VeJoR|*p1gB%cJTg{dspU9N)6i=;=lJAu-;43&i+Nu*`MmPDAvGvw`8rH
z!}DhUt^RLz-QRg{=QnmgvA1RH?p(<3d%Ne(Km7cI&oAtj+V(vf{N9!CURkU?^~C<%
zQ*ZU%*qzwiiz)Axnd4a(SJg11|8-l|$(2>49e&B-pF8osql1z~?nLHv4;>F2^YM3I
zd+W7D?_OlE=Q6BVICp!dA~+vUZ|#+~_NIb|Q?4V+I<31b%V`~D3@fj~kHq0H{P;5P
z-d(~52w3~Pj1<$_X&v?^H=4(fg;czTL4*I50A^60q>k540XM3<@|tGaFm1GONkeIP
zQVNewVW*3oKY#jPv~0pt)21<CtZ5VaZByG`cqg?e)0ou1tyjXPHAxe%y8_ZmY)ClN
zbfaaeukcPnm`OjBK4}^<f@IYdO2Ig2M)NSXkPA5&msm(yR7*)n`U{LsNh+k&xbr%2
zsD&P{*HRO2R7r4*3pZL>=!fb{YSj4$sb=XHFCgMCl*pxnA}u7@40%F40U?sO3!e<`
ziU;6>RKRvc5Wy}oS(9u8;Tqu~7MmDg(wu+|V3))T;^(LsT?8c%*cHR{X%Yn%DQk|&
zI^;k$NKPgbkcv%0LKEf1A*#bH4pVB)HSmIQSvzu7{3R-a5!idk_bQw?k$4Q`!C^p8
zHVuu75I^x#o>hP^7y1>-1TiyrgUi&_-#>ouxMcRtXlD-Jwq%MR+WWShPd!z$6?3|K
zwna~C%HBHD3m{}~$~axOd+zSKvn%cHklY>bJ3BJon!6)+M$+D`l6UJu(*pl{Bi|lL
z?>H;rx9hCrJ$pyD<gL1`%ecx39?mw;4$PI$om_MUXL>WvireRY_3Bek<=vxqj?Ol*
zsNT8weD8cbRo}f3dR)HfIYJdTs@a=n&&_G(Iu~7SGrdnyr1_2+QJFgb{S)_2r0cdz
zb=xylwRf-Gxt6ZlCRJ_ARQpyehVrtRUI3zU29i+^%2;$Y&-5-i-EY2j>$Ta=U;9$Z
zT+bj-z_gZcX{OO8Tp}jn$c`Mw85E+?aQH2ac!kE4=)gk?+Bru_$r+>wA}2n%$z`>T
zhK5vK@TVN!|KqU6YiLl|5H%r^DNkOm!{fWas`45z7l2%Xeh5(Eraolg^(561%)Eh^
zPleS)oDp#rNOR2J)bJL>TJdKi##As5nR)w7W5@=-9Vs11>9}ryjK){Q2Ib^zIkDg%
zbxeH-7&Cx;2p#}rt`tBXr4(zPL~hF#fbMzjEe#2kb%Tj(vV%mrBSSg)o!Erj7*|^V
zY+RL<E#AcU)P{9i8eCP#eac)72MZmOeC^h?w6jfewmoUzwdmZPGVf-iFB`8gQSGW;
z5~3i0yW9uoF1Y%2`dI?m6#6-&i2#s(OY?Qjc}{#C1qF2Cuiz!Sa?Jz<rigjPR*KcK
z?uuW9KTZYbwzD_`|J0_>>~y}g-=+c@;ZVOf&LotcZ<L%Hp9Bs_&XbSZ;iSwbbKMsO
z$lb^KSM{H&XR{0(g#P0!i;JKa0d2o*V4T0gpfgZHt0M<^s;FamS~MJsK>{0#B;r$@
zpWgZsS^g19jT3)~PPnROJu_cUnU(Ew0rE04$-vn0gG~`cTqXINDwP;v;yUrykvrcj
z>Wv<MtXDy_nXTR8m5oSxRJM)?{ZhmPV-~5THP18<aVg>-$Xh2iAx_=YMft$cYlrfz
z0g*V<=4ngPoHR_qpR_3NY1_1QOwVgTq*$kIi98`tiv1>nfaNt!A)SiekkdZxNZOMQ
zUPIC^Vv(oIlD4FsvDnt6gWg4P&SY8ANhy^uHuDVm0W{Kbl&#9JlTcQ+GPx?lg9>`{
zf^LUsKYUq$_#LQjJUU4NM_CWa(uk}d6e7`pOIhq+M`7Zd<j`!%c0hpqIu`Fx_}?Li
zVNEM5Pnl^O^D7fAJ0TPfv+!^t5`~!6MFC2r5>mjKvU@l>ei>5KS0lpJxN>>`S$=eU
za7|d87)BMZs&56qdT5zb70Mtm#wk7({PZ=xHvK$`k4tcFa9JZ)U6-!vkg7TstAaE3
zOl4ELvO}uun6VanYd558cS*IoQs(MEx4ARzUFr6dQv1nFdEIO@<=PA~dPA9HZ<#qY
zYs;Fs^4i%^$+a=#s-2yZTmjJk4Z&My!2xu2r|exbXHyNq4_zLHkN3>iNVVOmoyVn`
z<BP5nDf5XL4G?2P<6P(5D-X8cyOIJ2)DT=Kmm0bjzWiRfwDZ(^=fGP?^=DJ&nvAnK
z)wWY|?tIiFIrpZ_dl_8GZ#?vn!{Sml9$`-spWWg{KW*!2Kz|YlTJub6izs+S=%%@8
zen+eF=4=Cj3rGMLDi5Rux_5MHJPG7h!#Qf08-L3?;E?$3mZnt0lGq0%MZ%jMiL5D7
zAq%O&fZ_QS9ngrsr378aOF?CnCdZn}=6%tD*kyj;z|@&fUpa-XhDDwjfv6wbDksp5
z2luh18$SS#Qry2r9r0#3;A>}F(>2{vO*aU=*@1g~^RFzFzm>@9xZ0i-PFt(+TL7oJ
zE5dagk{Oh}WmI-fK+n*vTsb%}#z*M*uV^pFWnFCGnn>6+U|@ZdEd}iTEd-1IkeuI!
z6Q@!BB5fgM`!vz^`P5EL?fqMf$RARbhvA_A8BcZE(=K`17d;ziEE#_w?LR2_4}#Ep
zT3riTc3G<}FIzDfeAZiz8RKmOxNetkc5?pG6K7A#+{0FKplmHQcoT)o#_`K^e#yY0
zNcce3fd>%d@QH8Gr~WdeJ8TKCVG<uw%yDu~ki*0iH^@iMKfqs{i2j@0PqZ4to~%)0
zIHj5QE_3vzug3YR1^2?>qrPvCE;LGkUW#eNK0l#3t@(+r%CHX-i!6J0_9*W|eeAtt
zu`e4CpY5_3wlC~n;qX$LKot+-FaM}0YWZaZ71NypP7?)#LSHialLX!R5IANYv?op&
zAqFo>VPs#XTzWmxrpQIKr|G64WVx=#AxM4E6tm-fMeLqCPln)$&T=Qm5^?bs8na3$
zK%>p@IDr!;6es~qNdHFN_z+f?6by{g%3Sm0@xLyqD~ZoZ1gRx_32>t87k>@;8LtRo
zzYZ%~)<?j?DOfT`oG=8D+a}^aL3-Jm#|ClPQb2g$MjYEM4BsfbrHpn9Px=qgc(|6B
z>iE=gV-#>9^`B6I#42JdR5slG!ksV7?VRsjtPIXrmps)ZHA;Jek|((6*@o@mZA^PN
zOWw^hwk2oHY)Eo$NSQaVrP42(;=(K8s4ym5F)`zcCdMF5g!&N7Ws@SqgGter0;H=Z
zWgThFr%s9i#8f#ZrsRaH<jxq#)oCM7TtBsH&66~gk}4pSXx%jrrrHQ#pX(<hf%U7V
zoB=om)cr2<%9in01(75H@qkf$7a`&TIS(nW9I{(=DjE2T7jlEH8m5H*oE%yr;=dq=
zm01QzTLdp<rvf|kH5Exca}c(?P!VQ}PLrp${=Ca3m*G!Qef$+TAWtBQY+Su|eD(Kz
z_k3wzpXBRX^c|Zi`}6GwXE)ss-V4rGJ*nw@d|}23qQ>F5eIZ@BS*qNe@wTSDn<Ve1
zOjVmg=wxc!GBts$h4XeSa|Ul&R%dcqvz*CdRbbQWs5)R>3wdcG#J9*{aP~XobC6R(
z&hL|RoSXuLeTP2D`49MukH8^D+-TT1Z(7hToL?|Y8+T_pd_NjordPI_+uy7C$l^9w
zm&!d^1K#L~r*^h`PB*(ta<^tp6lCTq>t>InnmSW;osy?(;ezDZouy15u&i|}Hu#iA
zP}QqoERmJ;EJGLYnWIF4t$>{>q$QYI_|mWXG6=>YD?4~J;^5K5n*<|oUXy}yn{!eD
zBX40+0W0JHtJB#88(_Fya1e>Z<OBLp86bNFgX&JfMd1vFmpzl$xvEB&P|iD8N`p`#
z<Z=pb!84>|W!qVM%WpbDmF$Sr3lQp-8;X`@L6_!vl{uD;0Fcm1g3Mo8%M3RtOuK9a
zYz-@Z1y2-1bR*i$KoadiqVAH~c-uOhJf&On<S~H({6CI%2zUV)<WipJ3Y`8e6OL-J
z4vC*j>XQ0*3L;r!(#RXA^QHJdh$wS_j5iUtg|y~<?2Uo3^k0y*6A92|6_6=H`$HHc
z?GJ_9kjoUdJ*Nd12eI}&WE3Bh^M~YopPYkme*Ay%C?`fXLOVGv7~mrs7De#F3MC~f
z@e+kqgux9(NgR{MO|l+dJ|~haRhMkZ7b2JEvO$+=d@@05Vv2;!jKUde%b(BuTZF8V
z4wP5`!Dn0ZSI8E>3g?p>+(%`ct144nM~5%z>a9}s*2U`1nUjC!uA9B|NdMl2C+-(g
z_7^^^Yl5J&Zb!!L%Xn&m>M~VLfIjs*0e$MNDYFl!8jglkL$_q_N!xcz_T7(~7w!8W
zYb1Lw2xd#o>=wzq5&PcNlrsC--ewdpI|z%*-r}($!ADN0RJ^PR7qR8|6rT0TmP9_!
zXfb|89(q93<d#gHxX~5(orFrkaiy>sWc_(ws3@gfDY@9iX+W-)pEn(re12mD4E^GJ
zD2|auj6j0qYdZzddK6E?0ls6{@hJSVLBRID4z(vJMvBCa$<CqZ0C*fy=pzwBTsB>1
zs$D$RIm44g*ogm;9I7Zz14Ro<A(<)}qQxW(k#1%@CsUm2`E)oFESbxMafn|;@xX&t
zuFB8O!OnbV`|s`j_TERY{Idg#-orDt51sC(zF^vSK=K`UboD*kqVK{}|Ms+hzvSQl
zXn4_ojK%Jdd^;AdF8U6xnDm6}^f_E7o6*z=(-d`JyA-XS;`t}Q##YZGc)rGcP4hJ)
z2`0fw<9qE>ihJe_5JzfB9LYpm#bxKR|EjUDl5QCjv|HJuuC%!J6!$v7U?B#oFGk1;
zxFJZTZ`!8~1>qF0yJZ~KBn^diF-!tPW4~;su7)H0wN)Yl+8m4%--H4GO&vIKLun!}
zq0P0b2>wEbmJ6NM6uOYq6w<2kVg*DC`AwphM4Y|4;HR}?r1Apk+1jTl4LVm!`ZnrZ
zn+GN9N~*!=N~ysl@`qG~qbVrj)Not@?@ViN=`pY>2cnXr%Ar(2`oQFAIEAthDaaO=
z=tbkiDmakd#Ut!kYfw;x(K%^?a+bw7jskzKP_QJ*D3GhN4y*w7@Sjm>MunJFq;5(+
z1xYaho?KQGglQLvvQ(rYH0QKyZ``<{Y}`6(Y)(6yR05!stLUqf{@~Q-exCiS&<f#6
zrmtKi9r?798)=W<MPq<XGL`k|$_-NG21uQs)NFaO^>E5ZC)D1unPV$}{x!4hPnx$s
zaqh^p1kx>gq?SF8b}hE_NiP3VeM`E&ORDc$*tJ-{@3wWRWy8bW4|b<pdZm`$jDJ(w
zzfJOQ%QS6HH+4x(T~F)%bKY-!e!f?#-;y<Pt%o(soW8Xp<?;j0RJNqtEvfb$l6yzW
zzC)oTiP6Mqi5Z#?1JMZJrBTtzlx;;L#>ii=9)#Kz(ZqiyA7LDYWUi-Da?A#s2?j*d
z6#w_g`4KskhjA5O{36ZIA!T;l3_z|P;Hj=(d{XG_k;yuK#(0bBuG@*b*Y8|US9MDC
z`&_E$6x<p6lCLf8>ydmtGi6VmzS-bAEl-@mlsTAk2D5snW#@OgKj!dSX$9iW`23mb
z_Egn|Ox-SkR|ohBBf(f>4#xJ&jvV!vgS74(wZc?kbJ&^z;>pPfA0H&rQGN1w`zAsZ
zGO{#iV&q{C5b=6;4(|oInaAg9fdxVl@X?@ZTdyK0N%yaapj@2}P?TZSV-Vf3gJ+;k
zw*L(ZVfNopk%An5OuoN_1K|XN1WcqNyTee)iC$kt;3<?}4QMT<R{v}Qb=5FBvqTjN
ziKp)AJcajHsC{bpXRVTTYlS@#7muP0>`m}yc3;}oEZLgpb}npB*_sz^yC3zwZ`+@7
zSEb#XCHLk`Reh#mb7sT-OzX~!uPJNeJm4>l9_W`C9c3#n&Q*Eqs^sh>GO%Vtre$}=
z-;FJgbgnL>D_%0nkzJK|2$dJ9urltGkf%6L4&e!rs8~k0h(917k^3U)Gm3<?#RhWz
zf}DPG80SiW9*WnK(0vl?DD-#8p|KLD$@vnT;sfPBpg?l|J4NippwNM`(Q9a0a=Ehx
zyuqbb_-5U+L$kF~d0W;*L1u+<HO}sp+#9kM3Ic2a<2vV^eNOUh%-Sf(&RM-bb&zkH
z4P39gF>AmZ<uz@b*Uev=w@Ln<tcilmoVEP6JLTP+D&H(wI+iUISksJ56>V7q-fJ^a
zkeRFAlC_WztZ~Kd4$0EEY@^Q$8g6U%M~+%#ce!u#v)y+hcbr)RzEMo|=B$Z)=2fk*
zP>_{tXq!7f-#+(wslGF7qaZuyZktO;6`QkE9F&5s&Y8sRBe$-nYPuHsQqEnHW%tKU
zM191;5l^V233)wZg6xXOOd;k65u1NhI$-%vu(4Nb{)TkW_J)xKuZw6v=3q|f34t*O
zI}P;{9J-tEHnXF7#(ux8B;jy44}%FD&fCFII|S2^o-xK{H_LD^?}U{XF#g(Sl$Obw
zhj&q4z8s9bldt#%^0@^U@_CT29E^T|uM{eHgeh&M7NO;iQZ+(6;Drd+%~uH?q^ZpH
zPS01PEHCdv8-i;ZiBG;}op6&-T{?z|3ygd%O7-z|sOQsD>iK%4tU;=ud+eb6(11L(
zxt`QvJR0#`Z{aW^n|OcecJWQ?gf|NfxzTG`Ck0yvRNIi1Z^alk@@?y+q+XO7MP()F
z`F6C^&u<W#gk~szluWA#eP|RhCM|-Aji;X9h@7oV^wI`me6w6tfXkP<j=>gdU@|@s
zJ$>fFlttD54^BB%uVR=K1lFk-7bC+EMTEzMt2qlL@k3N5Ya&bx(?3{@^vF+t%lqK0
z&-ki4NYq@{7MS1yD+<+FmD=q>K~w&-WYWl}OEOYmL=mad=CuhRI<Z1|3np50ZU(zT
zGQwd>rcCQ38fR@5e~QB5)IN|pIZB79MP?&70%a_imf>V)YV$f{#YFCF67z($8d2m8
zZpr3Wv_xmGKCx}cxa&SFt4{g$E|%>}nfEbBBtz4Mgj{6jCEJ)Wm}12y{x6h}=aPu9
zFyoJn<i7$2T4OF?dDdK@lmMaRnT8G=50$;<0i&oXS%!5@LVQ9mLI>6CJmEy@j^VsC
z4qQ;#vw4t$=mqwy!zXd!e7lf>#Jp=Bl#%D>O1E~}Sj1Q5C2r8mFqKlhPtchrduY#~
zbdoQ#2c#TP&ubopmg<>4LDSD37#(O-{!<l_pj?+4pJ-8iC@UYTh846pkSE`Nj757P
zh3Z2J;-T4t6dP54;f)kTn6QV}CN``7(GJyDco)T%fJUX;I=ZcpU-cz6slHL#w`-ol
zS-QIaNpoe|jPgtL5M(uaCEiMGSBn|lq52B%qL%L}gsQ%uzvXI+l4d&Z%YSj<{5tr5
z+zuiw*)vw1IH>wzhEQ_sR+}Ltde!t~R#a+dty;lGbp^j;Dq6!$`7*fC!>YgV9_=gm
zRUcMhv+BPN9oK%@_$ssfWg==oLIbnCm9<@cQ$YsdyZZd3))P()FiVL%crRE<bohtI
z6MOu!S;bV4H~w!_BK~7?2#N+;7=OcbIAK{!mhY;nA*GS+u$hFsL4mt+d5o;A8BS4y
zjJYU>(pWXv1$J05V^%|KbV{515ZkD1!>dp(x(vh2lV^I59}QnP``pof#$tmHQ|y0P
z|8pjsVkfnk0|H?Rr0jTDsX;cY!yr40l$c<$5obnpu$Op6Oh7EaY_G*HQr)JZ==eaQ
zyGwkTzAVqfOg<*S%9z<^@ME$=5zYXOlQD^0Mp{wfI4tvF$}ujApHN$9OUq^I&?-cL
z+!!0UBEZfAf?IT=VECOskgzI(S~d+d1EQI_WF&`Vsv@q>;KYB=TE(mgfn#}vg(Tzx
zRIEITWQfh%RFU1}DrzNf(s2c4#{Uw|C#y_4GHu(^ZTqFR{pq&jQrqzvW2UM(UA0xJ
z+6rB(x((^N9;vP;U3W~XJBEXRC2t)JKx~<&E;9XSU}Bw4a2oVglkvBw{W~T9PWr0P
z)HbDSw@9^H=&O3EQ0i09wuQPy&jB2&w{$!__~77o_DL;=C{^u}w<hfkO5R|`?n>Jm
zBzwc0{hjEe9glY{22VrKRAr^wA!@2=pX1Z*d!_chi@tpbE6Y?j+;`q{!t2O1wxt`l
zOO4y9$U3k~mELa}?pyC!pW4gcJbml*tS9XYN+gmdq4Vzx--~@W_QX!b`@jNeE3GpY
zWU{;7+<$BTY~TAf|A$R259=P(J#|&ywcWAJ_N8&GS=X7a+bz}YUUcnw^pfN{hTP3%
zGks6&4QO3U+ry3r9iNrH1?hiaZ$x@`eWv2jW6vMg|6%=OXUg?F3d<RNAhL0Hrn&`M
z<Y{la<ZXZIZk#jDTNmBkkmNLCI528p=^W*0d!uA;Oxq7i_JedL<M@HOL!qGb;`n$%
zw(;W$m=Q6n=v4$Lks*w1x(v_yx(O<Pp9VPu(g!kaURT4xMi2-dvTZ7XJ<tj;sNir~
z|Avd~?vPqJ<J5w%)=%}mz_e=p8*woO2{HjoV4mIKABv3O3~wNj5Lqh&eyEE02mDII
ziHb!kKThaIg0d#qFa9y=BgL%v1SEd431lf{g?w)q5hCt>;lz44vVqLK;~*kgZL(%8
zZbSlQ2Pq`2M-kpBt${)pYeTUz$(kL-DB#tp=V*5klm}7ks!h9^Bv;d1%c84&#*itm
z#I7p$-j2^|f1?I!`4BQ(nme~xx#89^%v43)lC$#m<m?M~uBV*-lzM)qdo_|^5MkA1
z5k<%*>qFFcm$)&gb3|cS3hFLTPa;k3QF&@i)4$|6rUD34o}yELqJxZ5hhpkP#x-v=
z0T1S>J+*u$tjkX~E8jG2E-D}Ty`?C?l9ZfQDOGGvnqjCzluUi1K(WCLhfI1P5(ITm
z&$Ok8ay3CO*rMWI4fn>izg-*9-+O3<ky-)&{Z;KS{Q~XyeJp<*?X+-()0S3FEQcCq
ze!~<FEtC4!wNTE{e@TB;bCtWMdx^WM0S&-T3V-H)J}Th45<feeh(>|+V=-AbG}tMd
z2FIgUBXL3epBNPi>Vgf;_*DwR8Hb)Fw84@P*KsIDgbvye>?RFtsJJ5kCKM=sfgD_d
z#4!^aSqBRlk!WsGa8fo`4so?p8iua6z$a@2Sx;rkMrD(VEfi|W?_{WS0dp!AnekN^
zEXPy26fJ2i`7ri;I59D`aXp4|ZOXS$Rs2V2Bt)QEon_yDvR6SaR_{;OZISA>{Au0R
zTc>CGZnu+=y!~6v4+9SZKY&qA>&A5JeyMf;qrt~Li>)WHS#KL>El=I`vqN+I!z&N2
zJRE;8{=~iG(eC#Q@9#bHv}rpK%$#L@-(&p>AiekYsTJUry4hoMC+DYr;Mw!ElEAY5
zUE5o>cb#uJe^9yW(M#{OE$%=2nK`pQu6|p#j&r$Zte>p3aIV^)a2m_Lrxo=$Z(pqF
zdDN7$@BQnn4q-ow(*f1%`XiOxA5~h8Y}NfygZ;=R-5+f-z%Sx@EpC<4nHh;0toR&a
zieQDlpeURmNXVX29IguTw}aq<jy^b#wGWKmpnDI)H^VzdRa6h<GLC*!*rDMHhHxr8
z;!W%TpaL+Z#Hrwyjmg59rSZ$gQs#Dr{auPWSL=Z>9QsZVED&(#z%%=>2yqqdLj&7~
zhA$Zk`>=)U1SGf$y`+~g8h|iYa{CjeaRj);ji_j<g;sEUyl30CoGM9Y4~`9oqmhYl
z_pYAcRpD|pa_j=m8?2CMB*X!bmAuRpPuM+6q@Ax`b`psVD<_W5;t<%wDGJpZR0kC>
z+I}KgY={AB#8EgovbJ-FY#+ppQqWAsrWB$gG2-G*B$c&^aaqxV%U$ckm<sg>gVvF<
zw;5&1YQV*2z@x03XB6thGDNN~04hPne-9br578WK*)nCzg3c*x`_{#WUwH6^A2_<1
zW^$Y4Y0J2_XKMXW(9SfqW&Eu;iKuMHNknDY%+Zf^Tv^Xb1!v#3XzN_SImdRE3#P(>
z`8I{VJh}vm4F+)EoJ=?FkQ#R^HtxD@UUcmSN_Ki??4PVOed=!e*oYcZj_#kuo6*+S
z^@nxb{i?%$-S>5t!}YrF+wF&|b>FWxkl$}OjN$t#lI0~*@H2@N?V4phdc3}Dudr9x
z#Suum_5rb#-%kwJmrA26N&{SZ1G-i>G`Ivn`^%fK&vMwcxa3mOE5+Eiu)ClrN?Kd6
zoZ<D~)E2Psc|e3;b`%s~pgyAq49L}j<GMVw;7#ftgp3l{jD!<Kx-Qy+`3dw_NM6D2
zM`0;s7c-D~RR~{>K+S$^7}ul~l1%w8j6kAEXvH5N8J~>u{>y@Yatw<ew-w<YwqU>r
z3)1lk1{xKEnI0<tIXH4zZyYF-Om7sSXYSaS=5S3DWvg%v`ej5sLr$9aUwvjL$c=Q>
zT3o<ALOfk+q}T;0Oe8x!ncBG?R{M;MGVPe(LDR5faQxG7ck0g6TyUXvv1%u{w1(FE
zqxVKrfdh~Aiw#G~9;K>&Rf;8BRm#>lcRJO&3x|R1t0mLEDc!zHYTuP^KO(gsN!gFU
zHm2sOJD90#fng1f2$y^<8DGms23>Q-ip5N)gk~HadpLV_%GUDKjiW(IxMI*zlnw`o
zR?b<Usz10`b|_^&q?{w=CwmnYOEO7@nZ6De`=Yd(4y9Q06f{4u3%F7gFO;})dxI(R
z<nddfAZ8E`DtOvdSiM-?nl&cxur=eg)7D|G*s2VQ+a+k=0_ITb?!)CUU$_LUW5@2X
zldP1{#tzt(Ih4y|;)Z0I;uCeit~Tr^N3x70Y12+HOjgP>?IIs8Wr08cW|n6)+;n-;
znsh30Q)tt)HR&paONlN{=A}~8u0**y5*WX{#8eH#iHJUF#xBo|{d7fv#x5lfPP&p6
z!(appJ0EQ>*$y5OWfeN071TZUB+Gd-?CBiT&UY+t=jLm={4?8WMK1F@wmdiB{*0EE
zC*5mWTAnN~HDaq;T8>dFao)(=8Go|rGwO69cb(eP!dsz_z5?q;CPgnFF05J4Sl~0t
zq!xX4nXck8leW>kyuHwhq(@z?8m!hgUIM3rRTyyei!mfph#C@3Pg!~YmIM9~f2W^^
z+173ZK@h3K^(G>5;8V>Tak*RKYQVp7#1EGxrl1joB(Aa`5IkC(F=-Q53&4KLS)7u}
z){3~ZRI%Wf^&`Rn4?9RuS}+L)Pe3O7dAlwVm&9_SNX=vl0|W3uz(@9$dJ@u!#AAq6
zl!#G8y1{{jNI*v{r!ZU>%ZZoq8K_ib1$iiy)5nUdHRVKrarG{*Q7Yp#I1nn(1uuo}
zK-rqaus~D7HMu+|2W7H5hPPzhD1S}7N7?^AWv?J*V`h(uEQ<X?UT&#cuR*NH3@`KF
zZk3CQQzk{qiIQ@x6$@lJ<jR}`banoCC2Cg09&21h3Q`j;zK)L$F!Sv%)?`{E3t2bM
zCm7{;HwXgYEIU`zaKH9mZQ8e8@@-#;F8YqllmU~$RHE!&+1!^Ft9Q&ema1CQRhy)$
zO}Fe&o9vpId<xBn!?U_O$A80~GS`vWC9-&{VE9?r09oWyH_i$>(!Nf~*SXNN=<7+l
zx6d3|+IHme5oy~A$-V`4ob_8W&W5?B_nj@N4LcuozQ18###Na;rByVQvnRD&b7!ji
zh|~lG*nrX-JLXSG4LfJf!Vgs$XtbTXQ#MyKKk%R-)zv38!D>v~P&U(#Xh&75reppU
zsb-sG-!^j!niq}1bVC=Jfp#toJgQu5I5=|_Tw+UL-jfdOl>&Poz5L#}C(UP5kolpe
z*87ork@?2do-?V9{izEVpEO)z)#gj-T9{mH*pD)x(*cdUhK#Ex<8H~gn==(|{H{1m
z)RGks*9=2ePukTixtde0+f#c^y*EHiY8kpjd0Xzkbnm74ved3qsSVGi&b{!Y{yaKh
z<{CQE_1mQSZ3`6(7Z>aIvQD8KXN%-)nS1qp=a#1%x4dh4%d%9x0UG4#>djL1=J~$g
zZJIwWRrf%lENjwNdY5&^K!xOLgZ5A$sHAQ$m3l)Vb;{Mo^vToqR>|I)YTNUt_PyD2
zTF$d0`$BGF6v1WALX444t8Cl|OECI@wB?AdRxD6+_>{*t6F0&n7V*lH)D|Q#rRZK2
zH;LLLgp>vP7Z{)T=rxZDIddm&{sOgIkn5DvfyHSjamqO=SuF+i<+<QuYB}EzNcVU%
z;R?_+Tq$mt*;QE7askDy{R*9Y8krP&n$G$ZpneL2GWGI{f?pwJ{W<M%KOH40H`DI*
zCy26!Z7WgK0`voLtLOkIZCrqeYdi}H{Y*d$ec541X1mq=K}Ng-p6B6ez#_I&{REB0
zW90mh90tMr;iIcvh{RXURKjSWY7zKF_*H{?vehb-xz-lYquOKS%)u0jyT~GNE#OjY
zXo^!`z{JEKpgoMtwpZPL6&F~|1>d)A%lKO7E=j(QnNuW4+Vm~qVe~=tiL-mDsww4a
zdWw5m_N3h{lDlQm**dRz-x>I@s`i^l@1MSRdcNjS`IEZ6i&gtlE=YCivRX~~InA<8
zM-qNe&43%#Eps~n_K1=Xq&6Lt8bCkS;_8*OGblNO8DCp!Z$AXZuC2?QmXz?cIlawQ
zye7s;*%L&rtVdJl?%KfRAwHxRzk;MiH;Bj;B-mbkmQ{SW#_9olHtiJ}J`yuPQ<z%c
zEW!HS+{`xfs<wj4Rc;Wuz}mXr4I+I0ju7z0+8f$oSe0V^m*NZZh9BSybXfn|enr_=
zE1sZ^lFEr{9r0DvDblhMUxc&9I>MzKw-t^!*B3;tO*uxrC+Y~j_wKpPr@eb5`t5sk
z3C@fyWAmnL4H<VOE<vk<c#^K-S-7%TcNnNFQzZD$T^|QUTO4nW$0O`ITG><T91-LR
zyJtE_o($5sst>_PCVQZbkM*GYWhPt3_@UQppS*3BCQnZ@c^SqLBwvgMYY2`iBBCP1
zE96AUVevGqvSWl@n2O^{$erTPFv#qJpsB|7nBW|lH%S9Yf&lD77iagUY@0D)GiR1m
zB$TmN-oBn{-tjnwUEzZYD-P~v9KdL<de8}MxryUw*eaYstA^o>+<5#Acuw`E8ZFyB
zav9wYk9(=Y(eYv2;{tfc4xXsyRaex!f`F;^^*X(}kgrnT>9$Su9sL0|rcIP~c0w(8
zVauX3&soc+-2L;bI;mGX3EmTvUWESg3L3PPN^T)ibfEleo_F%<Ir*&>fJRn~-O&wI
zf*{h%b{wSh;arR4a@c!;dSuF4xpX<pBoRY_I}DZUzAFZB8#43fv##Ea;v|h+>v|(s
zT<04!ZqyW<ZI?IC^(>Ze#F-lz9WV-~>ai!?`=ZqQVyb@IV*TgX#T+nIYhr5!EBvpK
z6KlOc&@LW=x1iB1SH=X~?Hs;*U9p!^br-f$s#mEuHYT}+-oVH>Uu1pzGfH45=S6ZD
z;-fPb*?5MXV=Biig!Y+CR%{_3Nm3Qf>9h37Ko`T7gd;^liwu&9!{pmcVG;8A$(JOD
zmYPVbT+G73r3(-;(;$}Cn_i}b<Xl3Mcr}KQ^rr1xeN#&B`}69yC3{uMw+R$)opnX0
z_Zd_AO2it=vs%4j|9m%$v<&+fl-Hx~$DZ%*`3Z$A>(nGjd|1<``3cu;u+B|o>Gi1l
zr}WB>YK(@a`O0^z->QDM@vTNOGH!YtCnMvgY=y_*o;&*R#DfzL&ptSt<?xw0a&ej7
z*&eRS_mRbCs9dVrlr`WDLcA(4--El=vL^b(-7cOiB>-Nv+TZlu@-5rwYe$`-SA#R0
ztd2ZOmd3eO$<n@Tps(z{kOsQq-rBp-JJGCxK8XBpx&QLLm$N4J3FYpx8R5<7t*B(F
zUAC~WYuZYKHB;M})#1HlaTMYW2*?IChL%D%=thc`tkHm8d$Sx~sh$(Cu0%~<Zr>qI
zW=rQsHm9L}$z6SS-<^F~1N>-%$H%@*^aV`-sB23NyRsJg1ldr3H+d&H$AfgpQeF(V
z+qdi>U$dS%Sye{~vIhD<VOHmxb+_tf^^&D-*~G%^Iz#i^iTR5Q-H#04vwzo~>h6=a
z9F<y+fif{Pzt{a<{NL>Qn7nMCu%!}sNjyT!=I_$_a^mEXE;FJF(}M$-2bHBqK!hpx
zL)+#$-9x2ZWlcxdBGJ-pGeBR5{+B>-Y)sL<fys&T8627%V<qAWRBOR6PEv(NAu={T
z5m$J5V)A7>PEp3<z#Q18ab|F!Xo&_Dl_a(WWiNrETu88h+nIH|>|&8T-L4(E3~<h~
zlM;CY3uZ?iVfE(rpmO_akm*C^{&R*%dsyC5Dz$Q65-e_E5SKkcwU!;KI+Z+mZ7PvO
zbGfz_8W~hjykf-fMheAvf_Qnka!m<ACVnp1vMG0~5aS@%Jd;!*e`$J%ViXDKDApGB
z<Rj%d*;gXdPy_<^VUYw%vV+Cr@(cDqP8b}LJ6Kq8pTn%rx#5oo`69D5c9osjOcfFU
zl-YIps|GBWIcGCHF0RSnO1YZWt1@qNt>~K7vUF-|)Rn8$!1xonx+sOh3x(tCzha0R
zsEyDDP$x(!g)Q1#0dxQdPKDIHhVTzm;tGH!)lqQ^MH!T-CnO~@^s$Y6Orgy|AUc0E
zAu{0KN3pL_#5wZaAm<%&{s4|#q5ek<mFa;#8UyFYDai?PPEtDaJ}g3<@*faqQ51f;
z`15daoUGCO#L8*TXnw@me#q^VxSc=bwn^N!A93~%xXK@LjVZ42hg|CiT-$%)nm^#W
zKj3;l;EsL3^?$%^{a9<zXaT%5+K=r8pHZXzDMwBjr`i7jx8-B4UZeepgY#2V^n&IC
z?$ifd*AKY^A8>pAf;%m7rwiqP&U5*0*jJ2p&2i0K#|lU9l?IFEf@Us>OL_3l)^G-Y
zs`;>_KMbl*Q#ES=-KWv6Sa)d}Zg<_?eFvBKz`OFQrbDwm<?mYI@Lu^PO`XP?YTc9C
zdqHZwxWeIU<-o8;W6kJmQy{_hJ63e`nZ2Onv>Q_zPg=7<(rn1+n=_W?OnDGWR$A1N
e&}*7!FO$F~1u;%&8RoT`=4Bh=K4Nif#Q!fVwmWzL

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/dots1.cpython-312.pyc b/model_executor/models/__pycache__/dots1.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23d9ab6a881fb97c2cd721a07a7fe785e38214cc
GIT binary patch
literal 22344
zcmb_^d2k%pnP2zZN6&$C2EYt4xH&j^fTwthw@AViDN{05@+^oRkRWFOsAoWt2w=-8
zRT;3Q2+XdFV67cO>)IF!l`_1Wl&Neb(pENJxi$xyL+^|_P?lR(Dy2&P7#Wo1b#2w=
z_q{%5FdER_t!;vDUcdLfvtNJj_Z_eQ(&KS)xDu9ckN&Ik9QSj&(J#9eSvzmyxZ9k_
z4RRtcni71{G-%=}Zcdn!mO%@PTN2i!ZP3Qz)`We~j(l6fo^%X4SeiZIOu7bLEbd6S
zlft0D;?9I8=^ga4xGUjH`Um~ViouFx<zOXCb0?~j)q~Z^n!%c6?O-iS6B2=Ba4^W?
zo<v=;ez2a!y@`foXfVX$zC<{=X>e1raj-EN8H^;G2Af#AKhd0Q8Ej$kibQL&ZLp2S
zD--R>j=>HVuS#rAMhBzG&cRN0U!CYmb`N$Zdj@;heNCb_**DmSc&!*nY)Nh%+?w1r
zxQ*Qh6Wf#hgZ;@JgFBKt2X`iS4em<r9^9SWGq{K6Oxy`htb2_U>*J2AX?>y#zxT{)
zeDEno*#OGWZ=l@AD8r!K^cyJmGs;F#Mt%e3fw-5^Hi5SJ$+Y*h&JP}BC0bCTwS0;A
zw)ob2R&9KTZd#*lQw^uaM&eR@Y&hOCK9;x{5y#W1t&!xo7*F(mLX=TnahyuWrJ+lS
zIO4X^RAO|PV&=nRHwW-*8XH6CK1v0TjE{|sUdFBSa5^0yOOK9IUQKFpVq#oM$I|1{
z@Riu`cyeMCm6;Xyk)h!$akY@*K1+>iH?E6`L{h8GtO%Fm>Da_X?6NdIIia-D9coXF
zOEK2b*u;=Dlt{!Au~){WgcwVWPQ{f-c?!_Qq_{ZAhTys|nwUI1CZ3&4pqt(cSB8*v
zd@>am&yF8Miv9fA3j^a)GHOxk&&H+8aq-A_Vlp{)PHXSX=vaJ6QYxN3eX%6Te?C5e
zc^XQ`MV;vU_$%v)(17pE_~p@b>YOw_98Y09NUD5xatISQHAItV%%_9KER9dZqb9{`
zRCD%Zd`MJkFOClnUD6YeB`?KAadhl5C~L&{$k1dW9eX7{dihE^mKYxr<C0RB9J+Za
zj%i2^O~kHUkEMo(67ksBP?8>N)u}N&?POdWMdzPmvz+>br-firgbV6}Or04&e^_zp
zcjwMUZA!)A$@KX1tQ};tcD(1#ogGc3(3dkqH_>ijG(}G_siv`~mW-n@r6W0XEgp*}
zC(<`#qeabYPdODE85+jgxv97rVS;K)DS|qT2`N4@dSh5!)oSR|Zr08r@=Y+#I5)_H
zd77LY{S)1yDQ*_c_-~0@L~GnC@>5{7qAhL{?MQKm{D^m!8{tLgYaXys*K6FMW0t$Y
z4>~V!Q9*IA#eVk8xdFv}WmFX7W9pi#Sl4;B3|(422A~Kp)1$@ur<X+Ws>=|MA%#bj
zQf%r#6q^)JPfBCMI`5~kIPstO(%J(A-{Eg_1;#aJpXT1cJFRm8o=a<QILA%%)27Qj
z28R^UG;Nu-{Q)PMzh`>KqH}?1E~fE2j!RQ3?3y-BW0wKFm6fofgzcV9%j05&`pu&K
z+AfZhd})tXloK7(X0+n`p7|cF8eIRJPwNlF=q1{9sJR?>lZ(0rKEVdZ9iQ^_UdFPE
zO-{rnr17h7n-$BY(V>*ogG{Lp!IZ049Diku<wh-1Kc%zGUY$a*r0`PzI{4)=jqAk4
z2qu5@I(wn^Mt<GY8~GA(IwFgVrXmHhk#Q+9HvUR))TvmJiiPQjVLgtfV=<`;^@9%;
zbxx|KB&X3G#dUEgF&RH5N#l~_r#u_ljg5>&9q3a$F(P$RAG;{%rl6$X&RA?XF_cQh
zVkw%Mh<d&H>l1zH<V4@Z=tNI?2rMYwb7OMXp551W#rqPYm-;4drmu{T^<4+M>{FRx
z{6>5jucD;hrurC1@13|Q?Ln<m75dWc)rU5K<kT$$zj~E>T**1Tb9UJgeCViO4eiVc
zft+X4iqN>&BnvIMirQRVTdp=V|H8scD^*>O-L|l6*7DF%_t?wTcjbgI(W^uaQI&3R
zrE2qIkG&pruY2=;PN-d|ec*0ftqkQVJD2t@b+7Dve#QU7n%Pw4&2uJ?_pyx&H2q#;
z*7AmX4V~hKX<_IWtyT6O+(6_uH_ctu)|gH}ztg<F@?J#Q8PkjzbjB(#P)?h4x)~l6
z#;Pu&SYH#5n)nOc+x$S(EbRrEw4Z{f5MV7Hz>mV;Q0&?wQTSNOf;4)L(jm&UV}ZRg
zB#Bdg;~{7%No1#}o>#eCO<lI8U9M?gd^uASopa6F=PPo8|IO2Lrx)xQAu`M7d{u9L
zZSHFeLm6LW&N9o-Zq51pvkvJn%16xu&nbAHXyp<^kHr*MjCRRMaQK)a#A4t<2`$GA
zcBPn8X-NuF_bivj#}jOoNGIstqb<ncIQGog+q`rTsVSQ9Lu@=!6j2tOrHmm2zj}?!
z3*7cyxyF`UZSYfH*xK@_CYZP4H*e!Yjd?r8930Y|6mxNb=u*F2+n0CKt-#fV^B#(M
zxr*vM6~~fsc|WT_?3V{D)(SRA*5)vpGcKK1u1z4Rl;Mj`jon)`HgAbrM{JC}TfyFK
zVEgu~^um^0*b2&~k6?p%%`)g@8-fcP0%lu%pyS5|6r0N43oL7x7J+_MAi@^#pCc?`
z<kpQDxz5~++4VGk)nK7|^;rB|%xDi3OtdKEQVbNvQU`^wK9}x9o-y^h0^7!BP?nNy
zC&i4O#>XzuSL*S?FH)-ucX~{;h#cEA)Qv{#9s23kDNv4<Xvu}mXERpd)9D61<7!Bc
z6@Jr=di-icj}?B)_ef_9`Y+f6ar=@hW{h^M0weehG-#>J)A+^-q_>t-jN9_mw2{wP
z(j7WIsLIW<1?gp;>$FL<uz7Z1Lw6Q!=*BY{v(q?Y#(kQ0D|TUYnCsFD?HII$JfzYF
zS8{F8*RrEWKl!V)rI%b7feSfXN|JGl)NN%_35vMCN2|C0i@Bmu{+V5E{vz!=o_iXI
z!TcEO4ba6qAngFTw37m0A%GYw12NKe+$fH*@uA5ZvGnkiuQ$cyi&*>yphY?rwLKXS
zJU8X&)krU+CS3W0QJ>;nUyI@%n@s9eD%SKk5Pea-G>3{C@*Sj@p#<b2#+MX7WE@qR
zii?oSCax*|LN%J0<)U;o&Y+hfq=v^Ofce<S<k+xM16d5x4HF(%B7^8kAdZxADGrn?
zNpaw=@v#^|xM)b)jlQVci<f$3Pfsw^EPa*k{D9Ewrbop{`>0F}1q7amN^4e|8O1`o
zt>R{Vg)nhtT$Bi?Do&DzROtef0<lxEGWkM^QEp9gJicDiAh51(Xcwt9db5?P!kj>G
ziA$KNYl@eqlFb=`&`XMaOq-(@soYCc&R%%J1PY`J6fm?$5LQKiY%isr5<G~!s&1&o
z2yOhBfzT#Fmikj{yoAt%VuTiWDihcbWF_R<y0UGD<+j5F$C`7I_H1OA9N9&8;YaR@
ztUDyTLyNWt?sg4%?aX%Vle_k<bnee{{DEx<Dz>ee%>=^C0AVh!rY$E_W`#|%u!%)l
zbO0Duf!&u^s#*X5YY5mmv0sDO9hTkU#rg;CuGKBuek}Y*SoPQ3cHeR@9M6Wf%c1QV
ze?M^ER`2Z5H&4x-`kBxJB(QaddiPN1Vf}2D-OVfRUN(Y#a%A8A>)C@BW&A}ht_b1P
z=FVKGIUDMgL%q4??YV}gY(ux)(47lMbB(RJ`p80Xv2i7^6^OG1&HPMg%vW+P9kWLt
z3XLBJ+Hwtz*@j-Zp*I)YlnwUD!M<E&Fk9IzS9Y_MPC3|_+tixfv{&A=H`fqhi9K?#
zhhT5GDHm?J`_(&N%>}~Qz-BqHS)GU%R;t=_b&c7&Zn>`eQFB|ab@LBSy>%+vdQ5IT
z_PD7ch#7iAV8BK3=+a^ut2QMOA6tiSY3pY20E#TaxBOKklwJm^<;$U3k)Jl-(=hXI
ziEAx0fF4(M3{}(|<VVXpCcQS$lmQ%UOR^!a+~($<wu$CC)QDdT{Z8Tk3{jWao<z&F
zqj){s1=uld(>Gw0v6UMwBvoUyKw{Q`PyQZP)Fct2Ry>SZNYHzbmPMjjkq8YyBC~?q
zOvDw-_0jk%5@AUxK>_h1iE)76r5LgNsGUK3wMG}Q1h4_<MHF4M7e|xQ1W_MHpj3^F
zjtwPZ>mGE9=9azankc{kwk`(XP1nSLe+RPE+Xx^AH1%ei`epn%HqE-`pUDN=vO!v(
zOWT&FGQqvGo<|LhclX@cv-nb`VLJr2S<n2-k02+UnLD#M^Zwb{Ga2E0&Rd!FZkD~9
zKQ;57Xx_{@Lx9|ZKkMEkyEm=4J9EuDmWSl#-78NGeDJdT)U$H)vk>+kxqWZ$o7=b0
z^uXP)+Whp&k&Bt;=aHWCHD`Stvae&wwfs!RcW}jVP!&2%1JX(KI_j2A;YWIgg3}bx
zxS4Pvk%*u&{}IF#o2pr2^B{eR^3EYB7B0?HA_Zy6pj;9z93)&ovT*LVx*qu(@>cvp
zve2anJKZ`UJA6h2`LFRl>mh#e%RhMWtrzng#h2qhPW&kGIg6{Z1T{g=-?#!=Z0#qA
zl*$sS0tqUliXs(~87d?TqzEe{2FMa|$B2p6x+ZNnpk{K$o!Xr%?$ToJxLp*WXsTtB
zhzF90TlB_-tMx`tjELylAYCY*K4KI7kWiq)g38K=_o7nqG6}`d$_}XesgsuT6(|v*
zO`|B3f$WZLS&EAkj<NKWczQ??Se!J4*zA=+a_B~EVmvj<_V>81azrh|q|wz>Tt#~x
z<8%g`$H0hNFiy7wo>w9Wc}fK#@F6ay@iZ(5gHzqpW@yF@K2R+9l;u>@?kQ}z5N-fu
zQ>JI2mnzTEK!>(aUqMWQ1|f#B>Q$b5O}noF0Z7#w<rcMF%i4CAr!1mleJpT82w`RU
zrrO^Emo8}5(xkOw*R(~1?gHh@ad3=Qw|Zcl1|J8t5!dUXc_|0^X%|3Q;|YVxUnrx;
zo><n{5z14EmMQcdZFr2@uxrH#O0sJjdeE2#(Lraq8qqR}erAMpi+;;yqnz+kc8<^|
zqkno0XhoQIPP-stsDi7uF42!lou)`s+o;|$ePFZ6i*~Jc64z`+8e5~pI`Pa%)!U}o
zD)+1~Q_$-|04xaFhH#rEgvu_I{jHxqXv=Udq?TI)4sBE}jLLnlFlUB<pC-Xc??bs!
zS;`4>?+8V2fFYp$6Vw&bdjnz5Gf)5#ii22X47>kjmEzHRQ_kL(!9q!O&7{BMQ}*6*
zO;=6a6bjs%RDetu1^x-e+fXVlO`{fwjzj767_^B5l%%gwU<eLx!{!#BNJYa%l2j*A
zFmcM4M)ir9!O*3f$Wkf`sXA|0%xIj|4^<^tdm8$`SBcj4vTDV!lSzn7Xm*X=OaF{o
znIRf4$W^-@lj<aTJc`2@G_51WrVd%6J<u36_6Ui1k7A(#O7wzYPf4a?Oq{~7sCkMj
zwrlJ+>Q!ME8zGHFof0NXvHs9}u}+mtlk~fk@dgD<$fDWNu$TH%ENlhVZ;OV=^%p3V
zY6oNd6-2K3B9SZC&`v^CaJ6!0rgHbJJ=eII?n6+@W_>NPuVwMF?CV*sc;MT%;@Gz0
z+m@>fXX|?8x}N2LT(_IF;JM~rD$<y9`?7A5cNQ-{aQ6VkR0p$FopM#@((`gv|9$>J
z)t(h$&q~!EAe!oih3B&2ei?u3vQ|Tli~M4Lwq>u}viJUFx#d_Ubew9hTMafY+5pr}
zzu%ud^1O_{{^v8n7tjGuuD1U6*sZa}^bcm<nvrY!k><_?8dRZXssD%j-`+0=sH*}}
zZ_nJCSrp|!C%dn2#g8x7ae&%rWnxdST-Q76{WusU<v#%E*}1d$$qEr!h_Hw%IW`)m
zgRiVqbv*Vt>PT|*Jg(*-Na^&8{Xf|M)_z&oQZOViYs2#^Rc#P9160KQ*v~bz=q;%o
z%++nlRWzUl5H%2y4;G0U2(JD&2j&KJS`{6$2hu6mbyA0Pa|V-UeGXNcg%u>QX+gZ3
zypvq6&2Bv^Z$0|3_82w2S{p8t{)StX?wmRzN-<$!nDC8$5uamt=Q%8@4J{XjMS{tA
z<{7B#%1S-lRgx4-F7R6eqZG2rr(QOTd_l5%5j~r+&e&$Khh8<TfJJp!uNpghAr+El
z`CXB_YV67dY8_$d5?#3(r>*6747~)CQVm2?s2P&sM!hSyd;H^jXM1ArNUGIkheGEd
z!_#i7kDfhO%rt0;J(gTVIc?WzXB?n1cCrHLv_qc}R+|&6gv`?B0cjjWFyWiA#ejYO
z3*14@g&#s%`WE8Sw<-8NO0~o2O!6<=BpCOXUZ%|7r+{re^Ax*9!J7!8E|nR7hZ2$q
z6f=0fD)90zEBrNuzpl86v&WznoR~~w6JWn7!Vm@SD;=T=P9T`7E#bVH2wVZhN9zBA
z;8hMBv9k7d_*QsfCR5QfXPY(8KAWqoxgEU~U3l*9@7(#FrPd#IzukS`@}BUnuo61<
z!M6EmrgC7;PA0M0A$se{XvW`l-f=EAFN!}Hduwc2{BiO}$xQHQMmUxg&dS2s4~G87
z<)2>82p3^kD=m?2-zB&2x?lZX_}y?Ocp@X5%nIjZ;apDeym?~o1e94G*DQ~I`m5jk
z`rOwSZZ0(~J)80MX;wL~+0k30;LlqZhcdOBXWhB#;O*15PA|GM)!lQ>S=&5pc{Q^h
zRfx8I;_u+Nfls&yLQSCdmkQKpX#R+oDAo~pbEFlEI69nGrE7w763w?Naqpqn2nE+E
zph+(;Y2Tn63VwqBslP!$lD3x%H|Kh{<vO}@U46N2J4xyeoaC*?d1ldLG1{{NdAk~S
zaDn=~Q;oa0icsFI#s#jXKJQWEUM|qEuzk_Iu$#6Yxwb3sQ#1Trb6dVbjf49(FCLX^
zH|ML=1Z)wSm9R!ls3q&5+L?Ti?1Ob``g1113KR9FyP-RwyqV%VpCWmm#UDAnZ-(YV
zpIecxivBd_Vf;5PU9?!ckEBx3U-TGeL>Leu^4l~)9wNUM!|#Z|#CZqAc?XI8<p8+o
z+92J%LAvUlVlSUN;t&N0`)(%e3t$9ZMK$stjSs`4N@Bh@1F905&^^E>Ia=v5dI4i@
zLFRDr4notx_AClZWOUaTW%TlUQaQOD-X-uaG5DOVAkiboEE>}2jD1}WTy=~xj$&_>
zvi#rnj$P-IqJx;NemCQU1X3i=7bI-(+j9FVUykoXH)}|Fs9d|i?ZLsP9n5#e#Qb1P
z@3`*KTZs#;YB9w5awf%Z>_*?p8atVGA<A;g$XZNm;3mz66iA2F)~F5aDAWr9vX)1m
zyJ9(cY-hTuK)u1}n{|r9FZ$S8xYJ`rt$B;2OP`)!Bn|T$w1p9rUhnvdBs;PNvFo3p
zE|ON*h0*lt@xm|W$=J^!`}qe{IcO0SOjuKekGF8E@V&I{rs9zNa0@3T^7o0+eu$m3
zlM4KUBp5(MZpzY|OiaMhgh@O-R0qAiQL9>C7bSF4U}Q<JQGT#gI-DaSwr?yTrZ}1R
zTx?Xl!FaxE<SIyYsxpvSzOKb@#;%h~lcphb8iSH9QB5@?qf#mzyB3508_bCkJRXOJ
z<BFGTYic7SQv7A6!-dS5m{84Yg^ttfBmGON$u~L%%%B!xGGGu$I!*JZ$(pP>%3%t6
z=$Q+4HJTLZUsF)vWF_+9zoA?v3%U_2ppjxhu%5w@VwP#hf=xWO#p?)27WA)^1z~>b
zksEqQ7z(b|gcdF?zPP+2Q?qB*wF(L1`r_A?)0x1&Sz)y~y41e1?equFWtz{gI2u>0
z0}Hmh!X06$YC*^ZdzLQA!L6C<ZL`i?T{8p?@5gl=xnL+8+$;yl%#^L&BG+zV;?{P#
zZhNk(E*EGb;idJdVkw3>Th+KVXRCV7Q<W7+`dShCa{ju7i`noVIlSkAe-GWkD7RI{
zpMUG}vk&|`KMpj)u(fpN{p0WN{-FQ;#>Zw;5GJ%YPCj;U!AOzSZF9DHuiOmtSds0G
z8Q!YrzYg(>3cY?3;#Z_&@p`snkKD0`Y<TD8gXbSMUZ9x@t#0l!Y>SJ>v#q=2)?H{W
z3c>B6qYa><y<0bC{>;&=?$rh4=>T>e72(CS&asC0HruNnAOiWy{A%^I>iLBSS9%qB
zewoH<!1c@06f8@I#jU&_8N4jt;dLH0Lt0uxb6jY-*iuzgA7QzYtGIVmYQ%(1-82BB
zmN5xX5d8?Hq<>4nA5*Z5KyyMXkV$`n)b&niD)_GZ;%e9M_XS$)1dM>c1x~15aW~`w
zt+OX{p-48gMGkFQ4rf9K=gvNA@65LEmD~5;-~YkpO#20_ve~l>yRm5Rdhd9b>ptjN
z@RGX0lWT6zHXoFm55DjD;6|qT1=-OEQ`HS3blh<)0$2Be$QN3;vf^uBakR6?{kCaf
zAnGXvzcg1W)TQ_M9|Lv&h{{nAp<#X(5!GX@dkYZmr=Bg=r+H>oq6pR@P^O(lfo+@f
zP8NmBnubo@>|QXyDJu@#3_R*%St9SXc08&I-rjd>U*3v1stks2Pv4r(+v(21A+P&Z
z_hPkN*_L-wl8bZs7)o{HPF?xb-E}BcS46KJ#~_MPs>lzTMU!a$F0cDFk60KQwY}zr
zo7)ENY@%aBH#aA_xxv^~xnWrtvC4rXQGl7t#eAwg8&IgZ8?+r~xg##o`<fMIF-Kg8
zd*blZj(g#{#|+5?=tfMU4?XmW{<xpzm+gycj3au~QxUhak`}Q7B`X<buEOh8rMTED
zah9O*ap@$e;qXX%i{d8VS{*G@%COEYXq%=r$@tD6;_f^AH_hL)eAD_(+mk)Cfj5X>
zm0abtH{T*hs4}$QvLc=IsU_F9VC5;NxBr%H&Qgqd=Pc!PG@vl}QMy8}`kodkhj*p!
zw1LRV*NIdEXX!O^+?<W!QXaU}bWa-}TGy90H|8ri_37;w=NB+8>fcnTSC2tgV41bf
z+Tg2ce$Bz!vY;(Pejtq(>htULh#TWYoS+H2%FIH$o>%ylI?_@7ZiDe!t`ZC^xnR|y
zHG~Uo8nd*)*p2*xjYhPKj?1R<Ef&=rRNG*l_RazL*fWEz=Em^0semAjl}!a`C6Kml
ztrfv{ELhR{y65Jw$IY4N_&E#qJ#DX3_b77-6pQkV-2$~ToW>v;1GEgW5p+#a`N*rd
zm~u#Q>`M$KFNs43rrHW`q=ChH_a$)HC6PLSh)VW#;^ZU|0i8XBCy>9E{@@S9{yuZt
zLSDv4VTxfWG9{64&#*GnWU)OmT33XcscVY!%835X7jPx@Tyb5e<2I`6nuiiRIM$*<
zVQFaWnnW5q)w(Ve&$HA*>9ly13TC8H&yA>kQrs!nhBO4MIOAiY3WgP%mM@?U91g%4
zAZmh^r;3~{3>3Fft&P9o5KYvfqULw0@J3HVg~`NN0Fw{lD#plFWgf^CntmJu<o@ne
zZq?z@&kj7Q2xTjxaz!*-v0bj%K5NSbnzMmEInXx?qe9teZHP4NkLn}Y`YyS?i<I~u
zy93`okac%FaCfXmcH+5a{Y|pJiA9=ae=|K}20g<ofxgF1YZLSN3IlvL^<^Sk$n7iq
z@$MrGY_`fm>n}|<j~6?1AdC|X%%)J~+T)TPI~agpX#H;QQtLZikAs{Lq;}iMU5?Bs
z*~m6IvhBVtyZf}f`}D)$8Q|hm9|zkr!OZ}>r&jwe<~*T=t1Ciu34V3^<*xlu4Q>IP
z{h6biEk4DmN;sop8K*DWKG+sQFWQEt0plpb1x`8wLcCdjh9A7X2k;~P6hVrZiGJ9?
zr!GFD-6>VVVH=#r0F1m_^bqM?hu;y|u_CfBvRIe#b*(tMSpNqYrc|oeoo|A0h9he!
ztbdZ;QaHbblV_=6jUS*kj<exE8=8m~iaChR)30j$k5OxZR5xw;hItxZX=4=|U}<AA
zW~?Io$;Q0E`>IC=>>9Me!&U$&#A3zTrHyRxhE}G~543FTMuk*ehjNsA$%j_#CJx#j
zQ#lR)>lKzFj%kdyjAbO{E$lK>69AlH2f9Eue0nk^7i&?QJI$uxn6`okTLy}_n(79p
zayXYn%u0Hng8xbZ?Yh!`q2NDL@aGi#gaX=5rN2NBbr#l^DpdS8%KGmVBq{h41d5fh
zDCs!jDY6}bai|yL=c>F>S;RRsLF4yn&3yoR2-WZ&WiK4P=nw@~e4BHTo?D(rk=AUa
zUyk%Ie<c$+IPZZqa_;1#s*aVa?JL4|ggJ;KjdJMl?ActPYv~y|uxs|@YE8q!(YvSb
zoL;KVM)%0kJ@@<HJMiv-zp8m=_SlE*U66cp{&3D8T(es`yi97jvm2gqwWoQw*7`%=
z{#w@8`M}q?3a8HIzWXo8{^NL;tJSkf!0(}m>U6h!GSjeMbGxH1J3{P5S+|24tN%p|
zvv~EFTlJ(7g^x~I4P-fFh%<cj1aaZ1TL%;;J9fle51vAzV%N^l;p}SF@U@9_%*ba4
zgS15B^qQJj!6>zoEJ=DEl|is1bfna)TMYAGSC4O|VmL!O0hcgUO?3%Wz|F*wm@i*M
z-P0@S^s4F<t<z71i<ZO}v;UY@M;EHWuHp-4eY<7f?p&mc{x*?j<gWXUI~(kmgZ*Ip
zepjBeI$bKKwX0`cQ|tU{X<aftw1Ri$Hg_3bV1LNZm<osn^G^9Cm;Tlonqza}Y^9zD
z>swjhStB1v{U|rjzqFa-*qaI~D?GVu*ExxQU6?k3lf;pO)@K|u&KVapyteB+<zY1t
z71;#METsmPP8vzcg%S=O?J+-DcL@P*MT<U$qWbn1PHmzMPOk%PKQoQC8TWKgyUR%m
zGXglDFzp8SbLl*h=Xh@H`xb86iZPwRcs$dd7qLd!xV%Lp^ZhpC*syQC|A4;Prd`us
zpnh#nVm&;M9+tNlmz$%Hig+`ggFZ(z&#&^Y|Gy1;`L~5$7J1>hMO)giN$c}gm`lBO
zp8VGg-E-k-7W|=ktf<$!FcJ&ie)~Yw3Pmxq_ri;Y@qj--DI@KgnnwB#BTaKt`ktD$
z7e5lI&X|7_h*&~~63AhCs!DTS!XDo{I(9uqn%yY@N?rYkN-tcO*f|fA;-G^ZA~ehZ
zvMQ@U)U)mgdQ_0Uk7{wA17|eE!b$KHDbdr?hm;2!wW?5d01l^K8BJf2TB$#OLjjpM
zq&W&g2o&>>C`NtiZlzE{E%5a4HN9$sODXONIu??G6Bf>6d)Rq+t@)HvqxDuJ(HNUz
zp*|Y4>M#@+BT|{BTN@hDNq<ePTUjpasbbd|<Rj#y02(-be=Oc66@mJqozqWEscuOs
zRx8f<55yM#48g11FHE*(*NS5kG}5rC_GcTm$PHUE4cjuc+h^UY&28UrgIbL?P&x;a
ziR@W%gjZWSWubBQ=zLGk*SchpeUO%d|8vJ_sDS5P3#XTYxvEWY^{ML2Rflrbu$ar$
zoy(T{r{ygtC<U%IP+cvaUap5ud)|_(3f$g*YyV>4VO4ZVyx%4F9s|`X+?V>7s~=YF
zq$0r<7;=Nrd224xmW^zeBirXaANs=!@x_;xPd@bT|IlBPZ{T*G;ny~Cksb3Vaz~z#
zs}IdTv*=#>%6$g}g{4+GfYTZgoZPs(@6Ns@_wrz-;n4iij|06+>E-7h2KFNJQK$o>
z3H8h$%e6*Tb@Ke#538GU!7$wBv0LPtqPgZS$bvPspTaMwKHrAc@|(F}h<P_X|1i+A
z+<O0-yzLZfTW#oHe(wHLnT8YdM=|F4X-X?@E@w2i+S-LS7QX&)%Q1k2w%Yl#pW3*Z
z=Eb(9@Wbj|IiW5qgk=FPLw_Z-<l{Wo+La&SIe%D33o4MWF41!;4I}iGic46)kkMn<
zy2VL$?uu4|M4+_9n_e~WGf>B{+X;{;mc(c(jRRqm6A9RWsSv$Y676!*&nftnf-g~U
z4neW&{f{Y;0z&Pn|Ah#&q>q|ARxFK=4j=gi*I{)nPUY$6{`Sx4Cx4#jt=&sCKMcJc
z!bu`)_x-l_y5H?yqiEjG^=|vr9kPZEO(^0(Qq^@#FKVYd2iLf5`KY{Uciu_2E=^6!
z{Lb=J7P@FvF}f1$lAT>^9!lG1Lr0D-)hwl!kKC`iKfKa+SdKm|w;oyJkdyZxw1yW?
zE`51<`+X~O5!rrJ?!lp)<9QA_A8h|1_0!#-Q<MP*HsE25)wpP;=~^SGTC8VP;RC_7
z%Q#W_T@$pfR?!BnEBkf?X(*Z2)ycH3t_}2`8)#0Uup(<dw64&*2H+`BR;P)B0_D?v
z(7Sq=-qpVWg_^rT>xSO7g6Ul=H>hKS(rU{XK@~<Ih}F=^LSI|Hjv}qBJMJ^IvNb5_
z7v0d)Qb}vPvP9ooi~K64wXMd+7gW@f^vB1gBSVv^p~RW9*t%Bn%%qPfprxzsYP6HV
zfI?fOy0x987}Es3OEJ=i7}%ZUssduf!!PlD_`*T$@;cgbsGYtbP)=`4o_^2)8nQF|
z2a3)!6rqfwZ)xB#tYLL3`0}9~sc+a-Kpr|8E$5CRZBH9m1OA4FwotDH+DUU+|87f>
z=LB8`9laDJ6ZFN9ccIlJB*8AdH^uoyeh6jzpyOARDbm!IGd`5{OeoUn!j=zt$;!N7
zuqKS>uh^mIC;PYbr|4z0szfCy{U@ZVy3z|2V_dR>V!xt*N!Lt%CS|1b9tF(u|F;xt
zp@3#t@vDc?2$8AZ{E<iq#$n(CL}GNN$n1X*87Yz_8DJ<@$f;($qSbHcNu5~3ssD&F
zzgnl3%RNagrz+rbA?DCrw_4MP?facG_iNt|WV%nmK3hwUwJv<0qewf3&wP~A%B==k
z7LPBT$^>>oJPVN-`3!{oP-mv03ktI{tC7BCTXxG~dCTEU<Y`jAh3V+pGjq>mg`Kjn
zlTNC6bln+KZGG{mByD8$e{DAcrZvNF=~YgsD|{YA*QA-$C&)I?zeE+qdNighnTjxB
zwRoaSv}+NXZ+gB=gZAds+*H;Vm3`5rXvWvS;^;5ZqDh7lrM#-F7qx7x1tf#;v?2OK
z%>|{8t`DSjs4t|SB3@2sQ&>o<Y_95Of?pV)rlo12akaB?L2p_YzU#W<$_X{>58mB%
zYfdZtxINgOi%<>ehSrJS5CYX_MQeP+v2o?pB6wQFj&Z@T4nw#)R+IE=q)7B?f#I_^
zhZ=>toSpPc(ZaynqG}(!^uaNlRo9MzPBngEu<Hr7(U^%>!36Gr3u?BaU9M<{xBT>5
z)5|YqDvm&#ZMbbpByOx5tg$fnBBxmE0|^^@30*Xl-*#y>gPvhEeW27J4U|5ywQit{
zO4F+pFV$iJVh@dtgeS0tisr@sOvPq4nyjx`_BAi=D$@BH+aaj&)jaJ9?nLAt^0w)$
zzVPH2xBL**NI3*WY9a<ur&_-7biSw^!e{ij6xkh%-nMRtGZ|m+ilbMBbN?RM(V9|d
zT|1$Qg<$^pB90*!{<f%E`g`g(Jz?oF1wW^N0qHf06<~H*T>VR;q2TWbSBDV*SO3Cd
zsd3@`@dWWw<*nvA*QXxWCfkao9<HrV^GEq#a5XC4#t-3b{N#Ii>y854-cf+tJMfn7
zJH+RDwtnjN6hUspiy$}M6+v#gErHyWR0_E%ZIjhn`zR1%J`7gGQK^c{7c8<fv}UIy
zugTiI0q#bQio4f1MDq^b+E*69e-6o^PkoLwU(v&gJr)zkhw%v`-|#p-^~XLek?I|~
zG|Zj`>?`<=TpHgmN-@2*VoTp-T1f&_suMJApo)-&{VWCE21z}o`cZqyyicdDR97?g
zkWvFnB(^Y`VBZbv72!-P4dF`?DT$z=>J`wded~wJ2a=ltk{J{~D=k9)l14AlM>14!
zKv0OCC|BAT0RtdVi>jaN(yWucg>RLq9}#PP0__NWst{jyimU3`Cy_EGJu?=P@la`c
zLajLAi?158FP^dUUF!EYYN=S)lZr9cTZC&E-065i3HCWW?MsKuXZ?xw7c@|D_I*S3
zeA)IV)UO(9Nf*OD4#~D``ZA(aPfwzO2GmooxcXpJ4%@3KcP7)LSX-oQV!9{A!wRP2
zFHh39GnvgqaWV54zEy}%J4A@GiJGvgMHwG&q109i+9;rnRU!zf*v>MBq`F9+r{o(H
z{1F8VXwqx&HmAN4hY*LIT;*X0qy{h&{BbE_NqIBR^Pl!}eDnY2T0i1KA91xm=Y)^A
z>W{cqma_k^xqULX?{kxdH+{+>_{_!e`#<6ie#Gtm++^iVYaD{l1dcz+f5aXCh&%MT
z$;_KRcOdx8!STKShuiYG$&M5b!Q<*yzG7B-^XA;m#~h-M2ly}X{2^XXVmFUP)AKxE
zJAeN6S8jdfF-P&oY13hz?^rO=;f%)|#q%dkoGI|w^qh$g&sW~AyH&TwQGCse<UC7$
cJZ5>C=lkZR+c$6BT<ly*d<G85tBm6R1KhClzW@LL

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/dots_ocr.cpython-312.pyc b/model_executor/models/__pycache__/dots_ocr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f479241920cdec00f94d1784cf364751fdcd1e59
GIT binary patch
literal 40858
zcmdVD33yxCbtd>8Hew|Rt{@4LAVo@oC{d)SeWyh2TWP6snNwv9M1T@0fTSKkEiBM3
z`zt4)t16<hw5X&qV%g~~s$Fig98X8?PTF$E?JeoA`3iCXzo^Da$C<>PnQu@<dCKXY
z>7M`Gw_wqu<hav4Gf(2hefOTbyt|xx?m6e4`zJ1!ox>9~y*^ww$#H*4FY04cJWCr)
z9CwR*o(pqfKFY=T0X}9JF!1zlh#F(20aMI8V2)V^EG*0zEgL99oH1&R*#>M%m_242
zM4Fgmz{x^Ph;<FPnBN>NkGTij%x{TS#5@BY<}Zs@#;OLYV$}oH?A;oziPa9&GQTZa
z7xNByncp6*k2MT5GQT70i!}{2#hM42*}F5^67vuEnco#{jkOK5F@Je<MXY_GJ=QVM
z5nDO1GPY`96$^JqSH}Va0p_oWu8DOHbTYpux;D0MU|p<hpewe1V12B6pqqtPMtfo#
z1~xE%RkSy@abP3!S4TI+HV<r$Z5h}S+d8l{wryY=3$KZ8kL?)P5!*SiGq!7BS8Vsd
zZWdk}-4ok8u$TGkqJ6P_1N)fY8{Hr4ALwWP`sjh!!GVL!-w-_%J3MeWc4XiPdvA;$
zjU5{}7CSz09PhqxQ}jga<iJVzn+HxAxI<jH<uxwsj~x55QSR4)=U8YfLfZ;LPe-1M
zoSrP>xPdbfOXO^L#ZG`T$aX+>M7C(@&#};z2wfG~riDHqUi}(3@Ip8cDI57`>QKu6
zhSw|;-l-oxWC^c*%{1^LD{CFf>WbJ#zLw8V^=ah~Fv#_Q?0yF1|G*%70J-5AkS{UF
zUO;Yq2IR{OauXmoKLhep3~~z~w>|?h$RM`?a{DtN|3?P71CTqP0U0uIk$ofIR$DLs
z8`&CpK638eU21!>9CstfJ^DFD)<?P{U0=4yIeb~kXkhTVF|hZi^cFBk)+33C5IP@?
zNM$EN<Kx4l7Xn7f);BsjmIx&xVX5r+Fabm*+qvuGk-q3~D1I`)OSa>o>k;APm=MED
z#p$b&(G4#ge@+-1jKt$(0>Y~M5{bxYVt8zHUuf`BWHfwWbRvfGng=gN1}_CC#^VVg
z5{d<fLc!3L&~P+#emFXuxGwo)q3h=(!3&W@@XBx^I1~-VF9t)2#AxumoDcH0zYvYa
z_K%GY4PT(r_l4q-{)t%Z`l)d$FOD$tL}EA^r{X9hR0Nd@#>T>tXmC7)uZhAVghnq(
z?aRks9TTGAV0?HoLPee(j!yKAhEGgH@m6-`#98+3CaHS=Sac#b`ka#M@!`=(NRS#%
zM1%{Gux^~^^syI8z&&Tit`-NOkjm2&AvEA*h(1dD+L~}=C^QjG1g}PhFI-Fnqhq0P
zL<pcFs9Iw9#8@~4M07q94x=mMlJo4u`1qKRh#wz2(<fD`Z+TdJnF8_Lb11Z2jfq5$
zMXpm*%AI>~OxPcqh=-!bPf%HMhY!b5Gp(PcdSw`}zBn>EK9Pv;n;4FwdQyWDrRE-r
zYGXyJDIPtj_L0${F_hxzn@Eg(f_)~cPoF8dlvf(6l<n{+#>f?nhM*9+FdWB7jfCZX
zmYniH8W$o%!`JW~)#{Kc8BA3to<Dx>$ca<^eaC}m4jeji_S~6IQtRid+8;`U`iBP-
z2(3CYiZWu6@GvIFIX0|ll)3uH67f^}&&a(bRnY4TtaX%rGe}Mu`YeWjEF?LUw~L|i
z$WM8iiM-S*OpFG@<H7jFkPxQN5XQzMm;}_w@;6P|cP58p7sf;3<nBRbHnSgPhI325
zhSytMgd5<)+<*a80Y6}jn8Jp7gh$L_Bdr%$Im$*VSh^wySjQGNh0R|!$iYKuD#J5V
zS;A#cq_R?~>$ZShs#99$NGx<A^4##XNK_silYeIS<LMucp&@DFZfEZlw$48~zTJQB
zV#J>S9*X*bJI+T0|Jaa!Jd{8a#{FYg@E!>bUi1%BwgvCw!dPrP;U6B=a-$sm{seM6
zPpP$Vlrp^Ce^Sev<rFW79vqJs#t&W$jgCg5asL{*8VorUy|A>BbDTahcqJ5_h{PpR
z0*F&GjE+l2<Ok32Pid8x%2{#23&L<Xn7DZL<XyXD4F*R;u}Cl|*@M*O6H)RzgTc!a
zp{Np577T{R27^I?I$d%HgQyeXYHC1)nkm$r7!w9BN)~yP3F{Gdms^6%{l}y06S492
z<HO_Y5+R_d#JXz}TefYzv?a1WI(&Zp`1QoavC;K3qt?slGIA|4h-oOuukrO^4DI09
zpwKmbUFb!I%-IJ|{3x8ya~~QkW^1m3b5zcBiT2jCsr6B1<LrSu$8R6M+qn?FcOboH
z-=c4ySh+uK+Mlg%nvL9v-j3cqcF%M#lwP}cv3ajp-S@!MC-keC|Nm&DHx`a`4GSxy
zeS!^+Wk&l@;W(2=^iU*}m=Gd`<MASf<Kf|OI5O&|b*W&aE<2DVr##Fev?j!bO=wjN
z!6C_TF)nPSCf-KQb~q=69pv3l4r}}a<U6D~r{U51*o;0dU$&3?(`)(`eSKo(zO-rI
zGy9lIkSYsXPHwQGe%JOpF9AA_;lg|b_$^|VaaGt5F%6l*M$n`d8yB{Q&A@rZ5Eces
zrofwsmPRV;kTqQPnt8x>-4w7%^-5iI)-hWw791R#7)`__ix5Hgj1DT;64l~3?8P{m
z+e_54x40xfLb$!;3G-otiY=!M2`zonFp0@~mJ1k9N@mt+0>xo@F=C!djw2`f4jl-d
zJ9X^9Nswr!cqBR`oCJVm2X+jy1o1eP4qPWt-$~`P<b{bc0ts|2F}Zr#59=z1q^6HI
z!FiR-)->OG`R2=WTju-HHC-wDLwCdMfaqSeXkEod$w{d!9=RNhMn)w&8fQ!<!3L=%
z)CX-Wx5_<u&?<&!wu&jqjcDznX2WqKgxpFVm8!)yfSWQ;S&~M<lQim=@MWbpMzK0h
zm4$hfLUk*7lIEl(X-by8Yy7hE6~jDw#dK1jDIoWWNits@4kv(OFEaW>cpg!bjTR-K
z^GG~k63$SFX&9u8)Jm-@PeYov!K=fGi$L#jkhjVlmpqK(mHSHW%79fkN9BEj9O`G`
zMRHg{P8oM2BdUW-d6TOmx#g0yy2PzWhcUq(d0=?*-HkpAgT9&U{6)rw0(=1(#>e2i
z%H^C~ZA;Mrd9-rPJHu}eXI7pTSDs$t_*Hh%x+3MAiG66{Ht*$U*WBs4-8EnLprPmf
zxs*F+;at@-=Q1^&VohhZwk=!No^9;NHUx4uu6FGbXRa;J8Oti{Ij+oRX9Mmoe==Yf
zh`11Tk+Yi|>L|&GErnzp9!&@@P*^!RYsjJDT#DCDP#8Jq@fW`c=QS>8Fql`*mn|3<
z&MsKR)!T9$-tP@A(GQliU48tAwraEek*7Lm#xLq#-8kDjXPn(CR<-BKD9Fmy_-6Mn
zw)QOgdc^7t3+Ke@Z8=JmvvYReV+VXPa;2iFUfM&wM9)$bPBDfXGK3AlX(r$@Gf{70
zBjGI>hat{{IKp*hVT&BEU^fL?fdh>OI9u2nu_GS`@T3jzPV5EkQjOC23Q?|*;KC`?
zWUvr}5y?RqW~l+8n91A-UP_-4f+%^^Svti7Cl=xc1#U#8U<=ZP`Ae(OHFXIU_XATW
z94bJPS7-C@aKCF%{h#9#t~^B8sNz{+W5S&e*Q0(Dm1?|}rXf+IhJ{VTgw1uR=HKIg
z4c`=0dk;{+73Pz|S|pwH9k@0g8N@c)uQaf{9a!tXFqZI3E`_!qWII_lKm!gCiHU2H
zizevBA*?mD$(3xu;2<`_MBmZCm-pfa1Yt~&7xc1=p*XfRf@H^TVKklyjSfZx>Kn-v
z#>Pch2XDZ@@QGxR^NbUIRTc_?hTP-|-9f-s2CXKa0bo1<2MdFz=9c%SH{)3)dRC=9
zfs`fduF1GtM0ZQZy;^jyo<H@zd&k4d#>M9Cf4K3!<zMc+*R|+7lCC_u=sfxpkcXRR
z_dIZPe%*d=b7sdWamT3#r=Ne&{ldc)z2b^v3qzUBM@9T!aV&N4fz$uUU6XRj>rK&s
zq>o?&(hkopY<I#OA?v#a1zGP$@LisLc$@~ZvM|<B^Ty?UFYUBq!RT;oI1!&*w|pDu
zfKMaGxDyUqqoQuMI`x@FYqLDPHLN{YI2*L;5?W&Or*L*5j2>;S7_mYb>2m~XaditD
z3tdyzlEfJJDzwxTuM<*5DM*}V9HD<1`!~?n<C_Ug&LfD;bP#-=*kt$e4WOUm4P+f}
zfrGWc&iVYA#*Jd*#&qN6MXMK$vREHjbgx;ou3^n0SuS10t|MO5hqS2Ev|jq3;N0Tq
zTjdAnrLggoP_=o$c~c$(AtD_FGNMgN6_Vo;G*H+x#M6|f=?fxE4FqwL&lk;a2x|Ez
z4Vc)5lasEU$tzgm$G}L!Hat)!oJC@J!m`H10xw7oc@1U(!X*NzP-ZlCr!tRBAhaeq
z<h&SQz$o|RD->bV0E=ikfo9<3%H?|rQ&mg(n}CfI>F_G|*vhTlk}_qi4WhLnZS_5{
zuFh7ko9VxG_~zkE^*XV7-9xAEL!+_A{;0hALo<F;Hl%4?o3cHyHf8<m<zKfK-O9Q$
z;3{2%3F9$L!d7D;La#&QTp<Sn3{J9)ogV={WS`Eyq;yrjNTB3=8h`Q2aA;MwnrmmL
zmN@+6s(EwEeBDCT!r;CB_eK_4#6TZt40B7)Vlj8Jg&Du43o`{-IlE`3YG!c8E7}^C
zY!p=CFxNk-^ybX?MG||%<1+Z<`Ac<pVw5sW^V^7_sY_(M{sI^_61ydAn#2hGyg^=m
zvG5_qv*E)AErlVWjefl)Gih*O{9^exzN@ipFhVVpYtAs%ZQOq`6dht*kBjn_F+3at
z-$V`?CiYxc*U6v$7d$_usdSf@jDWz_!VC@+5JDdUu^NRE2;#3vhHE|e+fXzbC5OPu
z3Q|$Rn@I3Q{KW_0yvjYY*;BoX6>T%Ew^rR;HQRQxbIv1HwjpHE(I(nfyt*$-5HtL(
zvYTbIhMSJr%VLFJ%tt?TRNUA$y=_LA8JyiP^U1k=4;-r&P4c!wvLqPyO)?J&k;`$J
zRM9X3$|tPC`s>?IAyuZR2enp43guC8%oHv9PuX-#84<6uh0xNQuocnB7d3Z`4UKpi
zapXf)A4V2!5tVxBrZ=ht&r@q}Oqz64|Mw{!o4BNrwzLH#8K>4eX`&cH3RC8!c|;@5
z)HdLNiB(vFkT+o6h!#Fi4s~_FDw)HKxn>>$8$5x*Iu^$+V0curO^n7bPedY<5!$DZ
zW0%E7r({Ts1uVj^Q4TlYNcJ&d_(G6nBK!u063PUcnn)1$ns7fYo9e>Z2(EMVdXUDv
za6LFa77v1}qHt&h!V7ot7yp-VuozmnO7AV-P2a0Wv#zQeFHOJn`lnt!_{i?Q5tt6V
z-udeOY~K6G?z*vVdfhCawl`$#tzetYwa%TM$LpGmeWPgKxNtgc-;%NK679Rv_C1vL
z@0kEdeI`B~ee0F^&FPj63uncat)goi>Vv9%a{7}qlWA8Q-W;A+PcZy9h;Psyb$~C?
zmiAYH{8aujI4t0<5Z5Ja44Z~5DQ<`ln_qJcn6VQvhK&)+2yMbj9_&15Ct^);*Z2V&
zI@TuD$jov=T*7sYZzlXIQi7LxF@j*)i<~SXrf79%GyI>z^ILo&<uHx0_a?@dIu9Xe
z#af;~i2UeL3&7@l*qAVBFqD7E^R7u{2_*SR%-l)9&@b=+r#q9)Nn_aZZkalldG0z!
z?a2#rwz)lQ7_$KlBK0OhCF}6$l^~(CgP`~9z`}8oYK$fV7NF$`l6inf%%mPc89`eh
zcpAMB5q_OgyHzPj@chKk5X3@enWCVE6n>YSIdWof;?x*4v|nXJq3|WVPB!cILzi0O
zA5pqvaDM(O_t5H^E)%WZ2iAscRqbrY?;UvO_}j-9JPZ5pdA{B8-Og`yK4?F=c>0{!
zeokz7UaWc{WzAZh8LLmU`ep~_z4s!ER^Jb;{R&+O9uincMa(p+AnV`nz=Ph^NM$|N
zP?FYGt?!UPdGvaE8A!eU=GC49jhHWAqaoE&2wUmrs%|DRLX3=lylapw;mDO?Y|yB~
zfsJUL6@HJLIdTYx$Ya3_G(@63xexyd!hzf(ml@_NA?eG8#spB-;mIcb9#o?LHS&lb
zgoFMoueuSPj%J;evm5X1y1gsYxL#~rzmWKYsrRNbTaJobjy^UT-1e05v4!*0-g01h
z-al9UPSe{>>5BC!bJks*a>|4tFAwL`AMbsVFEd0RLqn5|FZomV(d)Z#B$u+S9gIYy
z!62pp8<^D2d*wm-7J-uUhxm&VQ}ySsLBe1(AK+*A=Q#SEH_N~G`hUjWb9S@2W_B>g
z;b$)LPW0{Q$K;i%I?AdDwYd;L&l0Ufg{aNO$^XI*1;r6M1Cj%(Bc?K#DML<%?yNv}
zmat7<qy{voD{2D@v=cLip+Gyvg;R1oN1`bvHWp;W=fFmt*tS7XWm07vg0JCFG#Den
zG7~&W7Fo6_c_!i!#>CTP+X}WUW8Wq_v`uBRX#wq9f-TERu_Z<`HlGZ;VHPI2{GJGm
zQ7%aNum@w_qWbf{VFNL4gsME_CP`GPNu3MGLBqtOt;^(LW_eT=&<@Myk!S7bF=!H1
zYR&X#sD3E*aMJuc5F-4pA!&KnrYcbslvS<foBvhUn?#)&rk^`j8a01=asDd4K^swz
zu?K60<0M-pBwLi!E=HktapBGX{ePbO_&W=`iEfWTu2?3-;uLZ2;H06e8{%`*dFX0@
zLT6%%AiW5`kNhNicsNc9AHl>pAU9wm_eBJ=2`V|{t%5whtQcQG%2FWID4C+8!OH@*
zCIm>}_MeS_!h(WAC@N4>NTx#vjz2HZmrKT2bX?_Mv$f|vgbH6H=U<US^$@;J4x90m
zJuO9e3Rk1*f+?Y`L4N|+I5|JZrnZu^m20a|<I2S~JMV?WHG9Oyy(!ZJ@E^SXl<5su
z*5SUfYkJr0vG*OT9(r5nIu|xR@NP}@zj-9<^4xfN`sLZ-_g#o-nR6^uKk#l&^}liC
zCsj4KcHP|d(CN=sRA*>gQsAkn&-z-k4gOj0T;<GEwsGxaSDCB)aRujc-#9dV==CEH
zolOPFs<QeCmTD@i?J3inRv9^c0UuSg0MgWAQ}%y@XE|=GuoFW}n~(rh9)xO>Obx?S
z&XfLy$Uy;M8&sWTP@T9MK@N`RSz@~Am8-iU`upV!HjD5Y>ICwI4VOQLU-%{*$#i8n
za#bKYL}6zN)M`b%Oj=ncs|tsXviRi)G6)CUIvNpQ*o8j2WxZ*gt-e!#yMC_ccYK-p
zHDdjm`3>`l%=$gz`aS9Tz3Ga+R3C`>3Qx+KGjd>hQVP$V+S|2rhPnPs`$n;SW4eA*
zx?*#xFYB&I$-RkH`|~JD_~&pW?qI-C$}M3lV}xQ&=f}pPdh4U`70ThC!C|~hWldb5
zKyrRS5m7i;6Ty00(Vq4AvbEl9+o})UD<GwCRpiY0Mcr%bb7kbSa!vl6jeJfHG7J~_
z%E7bC5j+GO_VS;3$aj=Cn?18NcYL>fw2pe_JHER1?pj($J@Qbc;s^1kJ(Y@Y=_7bb
z*U@kd?Psw?;KQc3X#E6DjK4ChrB)KqG9j!jVhP(3;(!=K4snM0p$fLfx?Xb+SRv4@
zWjo{Yw+vx76y9|3Z@6NaaL+Q~a!Hk_jqIz6I3hClMyZ2-x*=z{`n9qFPypD%xUhcL
zNmay>lZh`)BkH8^9W=+myC%sA1&+~#!p_g5KdGir87ZiW?Bw;|Mq=HIkr1Tz{{q<v
zg!J-Bg+HZN+7%6|^W20NVm8pMTpEH~vdr6bmifY^y-YBK`B7U!!wl+jhQ)~TW>1o!
z41jW|Aq7wxF;K8fR;Y0KUm`D5oPxYH2FWv0(I)FD*a<mlgn7XNOoX{QJo8lmYXYPU
zB)wSTjaY)qK%OYyUAXin8r3AIvq4K?W+^NxQGgWMJ~u(UaQ5hzn`l+zN7__h{#R>D
zYkt#++_n0Lt$5Q2nnXZNiL%;NfBqMtEAwxvFIkW`NzDuMhhLL<>F1ePtL8J(rTX%}
z1+m@vP}NruyFm@h{}#k<%!jJJi>52Q;7x2%-@_Qqdf!|u4b+DzDCz0npjQvW6>2e`
zS`QFs_LBmAEZfXanz}Aux&o;Htx=MVrmsv)xtStcaM?LcJDf>#7kKw0*z4OFe^yTE
zkhxLpr4$oTssPV$!NJLu&yQ+CD*qLxH|Pg`k+pE4`o`37xBCN41q7ds=>^diL-0_I
z%MwsPBoPKpTlU7(WQk@>1esDTwy(n^w2+z$XhkMK(#m33OKPQWEe?w_IB4J|hDl#d
zsHH-TXfT;<G||@!s}U&kHe@vgMc-BC^f?O=rsSrbPk}12;G_&|3zUYhgaq&vf<qId
zg92d($$s#7-`T^#zH{eJO7?T7&g?%NJlp?VpJaXU;Hfhw4xBkFxz3#0e<Ij-<lKQX
z!GnF0^9<B|prXjcty0Z!Tu&$2F7MF=syZWh|1J5JMca((rRp%6x0LSn=`1B0{rh)F
z75~TB!x8=KEueoN)%!r~mj8vPZMyHl>f`CvCqb^*TyHp`chS^!^YVk<)9K!`0C7I-
z+M4OwBX;e%Z@mA>bk`}Ol{+8y?8x-&6MOb$oi#IwTgjWrC8J>j$kPYbE(n6EJF?!!
zY;8lPcAHqcE$i!m_%~bMk*)R3yf}MqW>2<m^<%e{$k{inAj@l3X6qU#MFG_Fi&ZNK
z%vA>AlIaZ_z?yop&Wen4z35#3(CNuISBTCPX=g{aZOh{_Qxhw^9;A)GgR0>JC&IOk
z(bcVDMJw~PixutJl{*0KD*q6l3lY}?YyIrT2aTIS*&uI+PjvV|#b=zIqO-Hu6A+yN
z7Sbg;yK**jhy6p&?6g02a#bza%B}aRGuw`e+m0@7J+@eJ9Ia7R4uud`IS8tiYcd_1
z#g5Iz`LS%w#vM>rF|I`Ae`sxE<Pumuc9ONqJT9g$g)teIT<QcOP5ZcHADmD?;!=4r
zk6HL@8cu%$M^mf<;$~7)w%Gq`EM3?jETe9wk?j_sLxL}Pk`@($DN$Lb%AU?C1z+Ey
zF5fR9zbWgKZOWds>MhP;o@8ND4#a8%L%w*0F4VZHBd&a$>Qk4*DQnX9U!8|7Y5%Xz
z!=5yLcJDJt71Z?t$fUevZpvA}hj8Y}pD9;CPC68A(gnJi@=^MY^$^+{JxR#3<PrW8
z+L;=><VjNd>yS=z?~o*BnRrGEFB4~?g4B9Vm7{m`OSV0uWc_%#Wc|3}lHKT2{gUm^
zC|N&VE?GaWxa11-f<_?bn><;bbSEnmg3&~ro_DQZR*2jwPtr5el!sM)Ne3fnn$`FG
zFUs)e-&CI}hnT9I;YX8z(IF-i8cC=}242ECEBx#NH&vA<Bg1^6Q!ODce^cjrKld`W
zvs2ZHb$OU%HFi!|$=FyR&Mls)nqr8exZ0#OjKhhaHzaG4wW_RJcTOrhM(s=MlD1zm
zr8jB+B~#WX*2~`n<x?GkHd&YSChH;Lv1_$#NH+XJU(=AR8tGN@&i^JGR9wt+Z`?C+
z$tt0)07DQ}R`MjP!h9aji~<kK-wHRcOHesF^2{-!L+r9KvJZQAN3=2Ko1#OUhOje=
z1DsPno=f^h_LNixuSs*5u*u#hW8QUX*rF-fII{mqh$Qf4(w=NWDcrl|>h@}?a@3JH
zphAb;Y72diPgd%-wajh!#a5L{<e@hoD|K-PI}$^4Rr``kwCf?YZu#G2rCLjdv74vL
zlFcJW^6{!KuL%GyLPfzwLS`Rr1Dx<Ha4x6`4q|uU%u@=%%SCUO=-87=X;56j+a<{s
z#*rfICW7P80%WJTWHuWwe2DBJa5RpM(~&RFzUbKCrT*d2g|X34^h79r2`V7g%PIk5
zyL3hIGGP_sY%*0&{APX}g37^AG&0##xE;~<0qQ;^&>{R5eVjy&AC6>;kK+Vjkahzp
zdM|^tGX@D52qOqWhA&KvO~hph(ln*{ZGtfmUYr=cB>WYF$5{!cxbkC){x{_Oh@31r
zACN;7x9}HmBr_A5N=DFOOh-xL4@y2(?J!Q)pn(J&z8Os9w=a@~PMnQ~g?~@Ut=GU)
zgd`>|EYWMD`r3u|>l%t(40UM@B0MGt=MWAhsni{7HK{EYiH$*xATl&GJUEO^TE4KL
z!m$*7g0#Y)QwC*<IzymE-f8@lV*Ud;e@l)=A2NQZ#0Mq*vczAK_$!j(d|a|!zC^qy
z=<-N*cx9!Xuw=L#lnj^fcO@v?rczw0$cc#=q%uVhLgI%d9$g#3UM)B*884A@1rA9l
z@ngD%?`9t=d`#IG5zKS~we5|*M;7wEizJim<V*?stV?NzJy=)b^B{nrRZ-2k8svS#
zTwmI`GR0@zRX46pUz_D$e`VT~;!`~jD_3SJyT!`xh3bXN>B?=>WfYnUWnJYrJ~91?
znbXq)DZ?YD>&B7kBQv2{&uri9<+QUk<6J8`*QT9a$nuwteB`KKbaXuQHr=t^w$1g-
zh2~byhaPylQ%4@wZ(R7~{ql7EsnpSjRo+`WZtj?!obOp^eNeS=x<A#Iy8OuD&Nw>W
zcVK5#d8__r{p^N0{++V7%jWsF?YH;L_kH!y-9rm~caPrVzghN;vitlu>}k*b)V}|w
z&^7g$nr^YCJ6lny{BK&7)&4g$W$S#oDz3I?iL=+1rw-<7xuz9&j@>?{!b5VhS*+O1
zwrag%MemZ$+*JOB6JS4=S7uzzqO18q+vZGLpV-#-zN-(+>(rr#H4U>pZw=0^`JJ&p
ztLd8IA6D1R+R>Dk-`*s81L^8DTF`A*x_addpRKL?ZGN_A_VjG;tmWo#rgoKByK0`F
z@0kxRc+$1KGsb@ih=<<#jCZr>-MkRLxBq_C;&W#oc+bt4v*>EqZP#3A-ZS4fe>v^#
zL0CoIt@4}YvlBn8=*W4v+Vvk+a@+g(w+`Gna{I{Kg@v9U`ZnDU{eb`8hVS*^&-|^6
z(<dN^Drk>AV%whgU3)%ouKmDy;E^{Vmz=Hl&-dT+eAD|4FLw6zTW~C)zC3jV+tH@h
zjBmf_+n=rQ%=FBJ=C&>H_o@NY)XxK`seJkbcJNg#i!Hm;m3tPQdyu4lWyZTs^sb{u
zTIj<>@ovj_`$cbm+IukN%6dC8-Zi3k&HS!R=Welc_r1$vXW#t|_l30gD54<+p%J<Z
zYTwhAlreQW>#n@<%JeI<J+FUy(b~jzy#d2diCQ@)gy9Ctb>$!5MU>zrCqfRx&tD>6
zA36KrK<Wt26H^z^7l(YGAj$bT{^CZU3RxV|;DgjH=ji8|jH7ppEE&n}>iejMg;}_A
zPp*u4!QH6K*_hYPxvR89b%FVfV(t2zn?+TS$i&0El_WE%V%}=bzi}ZfwrtPI+18Q}
zrH)0x1jG8?oDIU1W(@eYmD%>yAGzu6QJs(YD>*ZZvT!vGw~pUDo-1RoR<6GJj`Oy2
zE+Kk5wbV7<+4h@9b1nu_&Q;dV45IzdiJsOR%aVjQ?i;>o-^U&Tk)<@$Duejbo-)O^
zL^7p9DUG@hf6K_EGqUW%0%=Scj@HR)UDnsipQ7hrUslh-!491`BX&quOv^wqs)}|A
zkN`O&Y>x#E2^Uhjn1rPqv{AWy$olNn;X}utKX~w@DqAs@%0>PJ`Q*hUnm`rH2S+<#
z`dy+mxkNYu#(J^F7`Q1WfR#MZMdbB#9&qrC*P|H0OL3@K;8>aY0(3jse!Gl>AP_zn
zAWAUdsF@-<0c%-Dh{BGfsVPiPq@eF&PoBr{WhDgp(X3(*Sk*X~@_G2dXdW8u>4lK8
zghk1?&?ZD~fW-2PfRxn&JUCRP9ebDg!)ZiHR^q=h%>t4dNG8fu(Evae0*Ng^IDw8D
z8V%SASfs^$B)Jtvn06Y@F$|Wiax_k^BIB6ake^CP6e<eT62nv*85*nfO`;n}&68NA
z6$PwPi0(5D8^neUDK{9Hnc9_N?aGt`$5(EAX8JQJ6ZniZ>$A?ftjo9PY?|XmXX{h>
zm=(kwbv9Cp0(Pgu6m^v;OwkIiuJt#f5cfOe+4%)j>`Ap{8lG&3UV~@36C!yjKHFU2
z00TB5l&a*(!;$*=)Aa$goanp>L)k`QB^ppzO%BZO;9RQQgRJ7P90Y8O^3WdzWE?w4
zmhTCLfcpvoZw4?V?;zK%PhX$)yq=WFH86m09GgA{`t76+F_#ypOJ%abi?}wU>0=3_
zvF3UUMX>Wfh6{#5T|NDVQD=v`N1HO{Ii70Vlqt!B<8g=MSkutaQUl&0ab-NuGU9q-
zziNh9ihsii9cC4~QoWQ1@tR=-rsqr}xa7ehHPoFR0ea3!Bg=0i#FJ*ih~TT*N3<Et
zz?d`Tz^NAp_R5x|wio3&o*Uf^o`G3c>szm!@q9T2npXC(DWM58wVke3qRI~f2f#E!
zQlpY5X;!}oJdC$d9~1Dm8HbkHfRc>B60-hwKA@LL(14bh&XTLxwuw!+j1r^@GJp_f
zI&QHD&=IM6<6LwZ^t+>>!H8tV_AE|EYlUt!s8ognH`s*<0yU##428o1r#yhyQgkg&
z$w45d<QK<bC}#XdazHv2ip3!j8%#(pW?e;vkxWzrEl{o`lyoTpv)dp!l!`MrD>LK~
z91crn2EwYvj*F={jDFeVk(^YJV$vl(*-(tn3gdnsb&u1g6Xz?O%~@x2&TMS6<JcJ}
zyt>BOjhV)7v9UYdxB--J%JHzR<4YYW*PpLgBRX4B{WI(SeA6+pqG!fFdu-mDt!kbN
zi&bl~)xK<9BT*!C#}*pWbvtKFkE-fO`)RK3K~-Qre6LgNIzUj~6>}gF10Zqz9T|VG
z=<l6z{ip&a9OhnLIQ*bu*N-Y{ay8uM<9x1xtM=;T@JP$yp?}r9dHypG_CBBXzo6yv
zprSYHtj{=`L}$}%_=nCFxd7MRnOnnEG(lTfCM(^glw_WMWaQ+R&^USeQKlRTML>~!
zVmulVU=55D_LB1zf+SL?P`##=V#s*|fAJ(@WqMMjAU|?7n^!=SMkNky^lB&C&_O;Y
zNW-5okiEPquS5f{tVFZK!JBjX%uREL=bvBby=VTW^Bc~^-hOf20kQpHjzi4%dcPO{
z{??DlD=!sPok7$@d(4V&=|y-72|1=N!@p)703jEKUcMgcfFi4II7luNY#@N#gHlTw
zrmRIOr-8^+shCo}KI*-X+LaJfSdV@YVhY5GLH#CuvI-E?ckIz8umGWvX@Jl{m4Hy&
z3nDVS=@3|YilfL)%UP`hY0&AGp-U73Rx2x?!w?P{=!NTt4jJC%Rpv74t}P(>v&qZW
zNJl{Qu4Z`xd6BT3Js=E?Ct+v8aS6JmFkC|l0FnjUE{OSsKLALPj;NF5`l=}$LVwU(
zmXlQB1SyP7K}$IwC=j72Fv0kJ_$15zvC%6V!i=jWE0a2*xXRQ_gQUi4B8Aht3aP=8
zG18AlL9uoyvnrGyn;O-Zrg{4wz(MsD9#ZhNWqj*J-+Cq?W)xtj*w6_<v^%>ZkXf-y
zT(OIy{Mq`JOnpGC4<M=><RN|>536f$9l3b~%JLa!3s5QZ_(Z3V0W+P!gPFCv#I?H?
zy}Ps34Vmf=vASdKN@mqoan;tvs%?*LW<}`jBm)5lGrqN=Z|%a$%!UKvh64|(4}vbV
zmC}XU$j8TMgboZeK1I|Eaz~p{NToao)f>sW%G-d|8M9wjW{@UYfB+|K7-FI_Mq6s*
zQZ18aib@9PTjM}UI<r+JE?BOvd~T{QpDQ3ht77CbCbmpbl*xSGLue!crWZNkFge6Q
zmB%5>FBZ|Ul2tXoq(jWIZAHNdQ>fX0k38ZN$P&~nIE4qN4`!X^Opk$<E#_$#o$W-}
zo|-<T{46;vF8fDL&f)yR=@~w?>O+^sRh8nQqyQCU#)*9WxU%k@pKE`o>+P<zvxiub
z6>2O|$EtQIBhc?!OIN}#(RcQdL#&ghFirMTtB~_PeM>ulvB*6(xXg$651Z}zWeeVW
zHQ)4o!}l=<uRJ~}*&tGAkBVIXTQ5e6hUK~EK=7%DsEbx4nlJRX1S#b&zami%>;YcY
zoi+au>rH+X0}pH4_v^~e%a-4IvjGfI2t%?LRnOG|tV;c%VBz7RVc4HJL48VJQH(DY
zt)iml(~xG4(i}#b5~Nwzl&M=S)~yB-bY_cQ^sr>Z>iODqLpN}l`)Rn0T9x(F8hDo9
z<3a$f;4=B}l)NkDg%?m)^-$Cokb`iFTEHS(GAKS5#ioENTPXf=WitPqKAg@hU^0WN
z*>baG&NFv7?ODgnStvFqSjob30DXd7JVSxx{2!Fj3S`7)lEvKfVTA$5))ggcc-4sn
zuiQA4Y7hyuN5yta?<1&?s#Dl=dG+Zc1|5{BEwcLZ5YANM1f~tFIw(=&pB<{wj)+xH
z|26DfCfv15csbdPVXE40u=4DTT_?X+=%;{^wC6QTfs%Bk<R*GjmhvzWqr$`!et-`y
z<>UP+!nEm4LxvU$Hf#paa3usMG@FVE&isBJB;Ru6mNxN_v+^uMOv$`Do;YtwGl(c9
zr9LsaY<W7;dvN}gLB1Sur|=17uAjMp6m+O{&g%#K(j^y?f|irmhm-sgXA}P|$|&U#
zex1UocNl31g;yN*5!%ovg;XMA$ule^Rq5z~3LSu#OjHUZ0)=DrZYJ8VhwZ+EKSlv^
zzy@g3o}=OzHCW6#l<UDLM52)V>?vdodP_!}hVlM03XH#vG{hV%JV*4C>Qx}`@)RC1
z2)o7F?yRSd(1WJ*$kZ8|*ORWI$EFZ>)m&}U><gKubz;-Hh0U4XgJSQ&2Q`O)J?#&x
z{FH5>%4G9;kcA3&5N5RWQ@*L#i~3)w1%67-e<0^?$@yz?{)QZO4nU>+XtK}%Ws~JC
zct|x6)E2(D^g$>=l{^Kj69zsT^1Mm`P6C!FFQil#{({s9rG6-R^7*M0p_&WmH^a%h
zCcSS0ihmh37CuD|jRqkIAI2mb3(K`c>6v|b1z>xH0=%P2mVIb4#aczK5;C!Q(^qYG
zZA5e(ojy7<MXIQEt=Yx^xz&w12N&3|#90E+6SdUaQ!Y?%ERFT9b)otX8s2NTcOu<$
zG`;$m=sgB0ncJr^EuIj6l`t&`x0N0N8ltck`ucat_Z4zVxfO&81#<px{KdZpkYa8H
z$-CS>^I^V_W5M2KmId<?&m!ky-f~r(^)opY$Y(`x<uNyDax3_epCY!h(VJb7TIC${
zhCPlVucEgSaTNvSrB!&7S3~-ULDXM+Diz<-yND@V4RH{tj;(I$ks`BlqzLxW*!l#a
zmEzM@MmnGi;gW?`LnW^Gc##dOn=|4Vp?)cOU}B~GHIvE~9)Ku|K{k|t;T4eX0!SB*
zBbDPHW8|{+(up_6h>nsU#e)Chfyk>uCzWm*z*hp^6ULz>y*yFNO0^}_TFBq7ScEg-
z5R+-3DqOQn`X_6zTMn$i*CL;4#y6_LjP}a*<mCBw4w^P`5L?ieQC9naS!!U%AedE}
zAX7DgNm<2oqU3?`gNb3BJcWIYgnaz;_t84?aZ$GH<kx{PhK3L!rv!xILlv_To}vYg
z-k1Ir+!Er!QA#{8E|H2&iQ}WQBgS&A=Fb%zbk_E~h}ZBVa-i}{9)xO4_Iwl>4Vtnh
zG`2d_`FILbG3PR5f;E5QNpB3RqZj9#G{Z8;Nu@aHET_(RPWaS%>5Z>TIEy1}$e(BW
z#cH5_hfwqM+>2_*kF=>Z$^QaE#Su8o^{Nx?xiTNC`bJ?xZOWEcaUEHs#^iqs)KzV2
z{rb5Z_Cdo1kf1MPdoX3sD}rKl7}(KpW73Y(Mn;HW==7M<+cynw)SHlM%C6>wdTLlD
zX?nFS(W{n>R@YG~)zayH52<8AG-VQYAvLY^CC|vlk^sC4tMccjmK}>*pG=omE5$cx
zN|K|vKcw(Iu}e*fy!HBNxzVpTt1RzY3P@b-EZudqD9>8;Di<h|h1ifM{X6=&o8%B;
zn6!4CC&k5hm%O21oJ*5@9)}o$@&R-rUjzPv9X3NJU!!>1k&yt17@F){l)TM;i4Y9Y
zQ8Lwq4p6u(56PF;EPO<-4s!koj^rlgIQ57Jaa27|U_IeJ0oq}-AC|t4lcLLiq2#m{
zN*4KB1dd*8d1P2c5XUIc%>olJ8-Gd0lM9rag;|IYRAJY%k)>p1r_{*G1hXV8BV?h5
zzM4_igu7(Q`U&#7IZs{}AbO3+?g8S8zlV%|4kEj@Py#RWRkLlYGi^J>wjIQIZTU%K
z*ZdV&4x|_FqpJE$)e5m{1#waPMEtMnOIaT__bwd1&%bvf-Mo*$8Xx+)v$f3+E9)|q
z0kJZWuIwy6Jmds_P3EgTXx)@)-7B{4ec!qFVMW)w6Pfh~#q|f%>mj*1@)Q5YjDL^l
z-;?Tp03KdTN2aAmZ0VsQd?0ly)-1Yvpit$i$~fEKceX$Bbmq!9Th(JbS66>4b~A<@
zL_^E$<b(P(OCB4JB2{n=oilxp-JHh{c5t?JUADP>_Qkmu=R@;n7aM!BE4O6V?D;<(
z7EdL}qlV58DbbSAQAY=(962xNY+7`*KlDT1_Rg`lkEQ+H3kNeBkBj*4KMtLQA31!m
z#nSk8W2SZU`>mTFu2?g_In%jA?A&p`Hq&=b>^t{h#q+8DAHs0vidFPU{-4z1z*KFf
zq7C-dvfk#5ceUtU&AxLhY(Zt&R)k7_)A4s7b)Yhgj{bIy?@)tv5dEh;<Y(*X2t15;
zqebOCdOT=dT&05n^pt2+jRdoBfd(ZpfMl&$i!5)IQ2?=InIun9NFcnR@_y)gfx-dG
z4ik>i=%ghBvQ&4KYPxid=w6d?uNU3xGw#izdvnIUQ*`fKwC-ed>i>5eLlCH0?&5QV
z(w3mW$%0dbMJ>T>5s?LjU!*B^iSAvC)?G5mPJB0wLxUpnLW=(j+1-N9Iuui&Lovg@
z99Og^j8mp5bAcr#z?D8plez%vZ7}ot@_HLh*znS9AwplnqNfLe?X0fgfru>q7-(hu
zJyWPl7^{OuWaYn<%%x!qqj7T>oI4+{`c$%Q%JPgh(=;x0+f38^&}*|Kt_M+hP&lPf
z_WydDQ5}AfHY2#FwHfr~^t4k7T2dn))%L~+05Qi-?rA3+M{4r1s*kKAscoi?RvzR0
zjVsW0Av>`kQHZk3OQuSWb3nVUkK%uioZo^YSt8fQLpWdXpDBb<Bmaql%W#&Nj&KV`
zOg5aXAf*-IA0b9Hufv$%WuOG0XaW`egv4Kz_^Vjc)gbFt#iwHjzKV>}D$&97*V$bp
zlL7rTT?h0kVU16sVql(ER;S7y*0oF@B3<^G)`zl=>s;S&d?r)ZE!K5I7rU-EQ@35L
z+kS7uz02vkzSQAtT}!5Jl~}im6qjKGeyxcA6>FKg_$sktxnO9Kd&^UY!DjIK<@B1m
zcU^BmuIai!>hMpVR*{~2=l{D^B<rlYadP_PTbu6exV>ZEy0Ch2)sFj>4;uS3jmN~s
zW6%Y^oNhe*XU;RwdGY#lYq^TLRJpw76k<st`Pl;eZFrU!o~WY|x^UVyRc{G~WiCFi
z6aZ+AeTQo_u=VZNY$$3uk{J#g3NLwZrWGTB9@?HHnNF|n=`0PuD|S7hlS&`RjyV-A
zue770z0%T7ILAN-)91citt=(bdW71ZQY0pBflZNr#NXnfdRA-Vu5({8UgZ_Z5zJDB
zuE8)C%wq|pzbH(S^9r0|sgY#cc_A{2`6%q3+^9bpaDqm)|Jk(@dyY^vzPn3H^_w&=
zXutF~MEEW??tbsZyQ}6~=T9&2Z|$Gs=X&lOdGE!)V}*XM!N)UH0mkO1sXBc~CQOs_
zS$h3j@?C*XWqi_n7p}pPTy(aJiLaTyMpf~VahN=aMp^PwmMAmYtJZ$9^_d@dlfLFt
zs0YpR+Dzpdv2xA))^z1YO!&&WTY;N_*+cW52bG<8_cn_3wduy)Y42{ZK%3h#%{^js
z&%(NN^WH^kW43<n{3pcvO_};#V*M`M_*1_(Ri1T2yGvmM5_7wVrqIUwQG7FLcrtBF
zbUj8PU`wC;bt-zJoi@+$re~(qAxkNx&<VS3IGNahc>zTTV*^JgU-jmKx^C-@e>D!Y
z5r*s#R*PrWM~8XD>Qk><pQo*fMzu^_X96Sn1*;U+laih6U!rZ<AjB;uQ0$RUzCp}N
z2QpOoD|J_13{f(Tyo0!i3kUe*>-%CjMyQ;Co9xmbbj!itrV&W2Z)R4vB_LWGQ}&rd
zkH~fe>0A_U?Vw<sar;HL|3UlKO#4CT)V=RM_^6?M?)2Q5*{=ER3xf;7{2sAkd!~Mm
zSPu(deVO`$V*SB%{o&M69E_=GnBB7IZd<gr<;=yWl$29BkOj=O&b7^adfvX!yRdKG
zE!J(x)b0^$_oQq4QirncdNl)?O8zP8J*eSeyjbzaF!)1!*0LBpZ~fT#EDR2|i_VBG
zm<d#3$pfV_rA|bn>y1;4N}X}1;dl}N>5MdDj;WN<6kkwt9oZ+=9*$0eLy<^6SF65b
zRuDs+os&?*Omdi-_Xx2;N*-t}qebOM&pOx$$@xnjbv6o4P>VX>JL)dTQ)A=hGs&~a
zrc4E2tHVr%t~4zPB@bwC;5B-ZrVE-MD=0UjF~8(^8AgR>Sdetmb*%$HPaS<TRR$gL
zGV}<nkkbhgu+|hN<rM#h2b8L=)qu}>5WXT`rs~TJ@tA5>hZ>&$ErKA`EKtGoh?Ys=
z&y$b(2bTMOmHdov7sA&Es)S#`kG%B#8b#5D6(_&OMlT4rG*H_6lXQTrdBX%UG{B>g
z&=n{u4o<}46EVp+GK}M`u+NhaLW8)%2A61!CVDrp#Z<D5My>{7)@Up)yiR3ZA}2=9
zC>)iTrn$=0N#u367`sWv^U+IB64A1Ru}L4JDOx7~gb*0%qcH^5&@3w$&aY0__om8m
z+@!kx*3O$d=d24&nVth;&w)RE{@)FJf8asYi!ho@NAZYRGhhAHhPw@E??yVF=TpL(
z?pf2`zLe`HH4QTPoOM?J`srDI=G^qj*%!ZvV~KO&+n<8voB0>N7P{wI2;cn_4B6D$
z|Jq(Ly%JRS!}h>CN8Ub?Y2PZgZ++0deP;Eou3zu^w)wk`Z#jVf9G)f4=&-{FUKd2v
zjki8|^OJM-jDMquV{fO^{w?<!7F+t$H3w4mN3_=O5Sw@0JDP4jq@d_56v=n|=8n|<
zANg9c6-{)tQ_DJXy)BO&7CM;-u3B{qgs)_)r$uzMEIK-~xJAU*E&93_n$o^KsS}U9
zzB`WFj=2+Q?}j3=s!Z3_ma4(6qh6%BDqlbGUGhc9!D_7>Xo6`|T&^i3uFHdt4MiGs
zvb=R4`4}}Ok4qXRY}C9<5nmyvR1iyqt3XaSb@h38NDyn~dbi}tcH#)4o!hWE8(5b=
zg;<5qM-~2@nPM%PI=KSev3kD!?V~vdMUr@SuKo6ooQvMdN!8p<z6uiCddOF)N^NtL
zYp$BkAl8sC$#a(SoPjs*nwhxu%FS0k!c`f&mW*m3%9W#c&zkAXAw}=jqIc&kUUS`i
zKh9APzE^+uRF1>zebfEtzx&d+UK017S)%vcMvJ+5u7AFIe(-Mn+knBVtkVubISxMJ
zj*S)BhL$^PZ?DZ6;eTW+PsK4hCucX#8E<dHDaXdnMR%uYTf2m7I9B8u{N|=?Q`?=F
zZoiZ>l7G{-d+qn)-w3=HWba7NjyakUC$F#6=s+niqgN!Sa)BDVdv*{Z+M}ZOrIqNP
zLTNJHkcyj6!2}_u4D_X#ap$)TFxdh~dIroFxUlVu(54DIz#4Gk2%jrl4xjri6OKee
zR~|BD7@iD!AQ`U2Zxy?p%R<ssb$J<ZzzAmTTYR`K;tYEuwjmSK)T)Q3mMh#4DMvcD
zlFk%vWKv)sLMkJkNTr@sE8L{XaGOc?3dl-5$=1kP`5OvdNU2+prcNo>3puhM@AYKx
zI@}p<U8cmgWx`iP8swUX+n0f0?ZIkD%+``8(!g5F9`3-|gU0a6W%8i!(@Cwh*(!X2
zFT6U^gch^u!^$nj<nWb|=7>#^xd)K41-0{|UDm+g%H-H>SiaV3w^AO=-+p{<($18l
z$jo2Yq(k<T-MX%TVbZNdkp+p7E;WE8L2^J{6xRADaAB={qi+{(E+*+q*JMpe1iO8e
z^0aCo7Bx(&WY<<C#)7n}#V5`~a8w*7TLy<^4$Ea$FfLwFey_;CwhOR1CVR^!#+m0o
z+O*mWU4+io)66o#@CWRDQ0*lrOQe7ca|A<21SKmf7NXm`Wueh2baC-j4Mb|v-x79F
zMDjkvP?^AAH?T7a?8e2(CU)y_a(Djn<DE&I^%@((UC6kB3HKy`Eru(u>FgIi**F-D
z3tytjkqE0uuUnECUUXdS;uu{_9Yo7%w<#6$GQ0JR9V^Sj{Vid3T2>$~a8zX+&7z}u
z_A2hA$yRN^D&|}*<D>5Y0wx)MA3wO=iLR!GQ4L(;#zF{Lv4?Prwh{Om-b!>5o=|8+
zo6%Od<k2JiA)D18k%|_*k_Qk9AqcWlKVKDJ7NjICTs@5i`JO)Hsckb78gUL%QVY#z
zrAM46w9_go-W7ThG)37HF2iMAzi?jcQZHgc>88jZh#sxghtR7ZNOI$6VYp3CPlDYi
zYEEe6{c<9P0^6|I^r+v7I_PbV%uo$gdI@c-K_oQNoU~N*TDPba&FFp@N6(97>l*VL
zxwNb8od4Cswy1~JvzVXOlek_GcZW*OEAl1fiLtBDKmP$Tk;;qFnLwKvFb(DjUD&ki
z1m#)c3gNP9uowo}b;rVf0<F#q=wZZYER0i0$~2<G#CcUv$rGb%?->G8Af!s%REN7n
zkVt@ydxmIb?V)kx%&tXb2TIwkh*DhvFsY*k6+5Ynm=jh}3fglCwD<_5iYB$hLYE@Y
z4;W8em$xCxb?~@jcQigG#8q`w`c_#lX@Ptrl);~p6N3{cKC7QSh3cy61=5A6NWFa}
zNBCzAvI0-B;9%3Ej_ypyF0o@*rsI&<LAs`ntZ!Auw^8(MB>6RL)hllq-$BuLa1kM`
z8#1j2#MT4fs})<B`OoHuj+&Y9txGpAWop;M=Ec{mA2>EYq(e$a<`Z9i<?bt)^@m0L
z_Z>-{$gbX$>Zdc?KXi6H^7+Z$OUAcJ^leI=ApS|~q8p?h=W5P4H@)xN^vF{~qVi^l
z%9}ReaA&r@Nw%{7u&QOwGGCsq+QPVm8^z|0B)Z40K(_n&xSZ=b#^cN>td3H}82sYu
zt?8<5*~WE?4P8*4?O~veAcaZFPbaf7&OIUwoRH<yA6nPS82J@6wT5`%XLo}+@VoRc
z;4Hr!g*kPKG9C$9zVsn(paw&Cf$6~*3t+$(e-&u-RsK2{)}JlUa}4NyBG`d2sazRw
z1&xT;&@?2QP{akdftFD`XTjPISWXJ0?IRo}XFD9I#B3rz3oQ&NfRK#iW8?DG?T09d
zazzj|Qb}&w6+y}&<rX@74TBF5Q_<b_!<hRK<tj>Mu6S|-ZGunjKT|Y%pPr@)-xL2F
z%4R!bZ}Y9mo0D^03+?H;Eh##2Qv6=ua;M>T!(uy3uB7XCq{<&T>J}X>bH^9kw_>Ns
z-c~%siRPLW*`@$?ny?F74Wq3v4vSrs)4S+EY?odvmhW~pSk#*v<@@o9IMEi=l3IW1
zS1=K2)F`%1!N;Y!UHXLCEhurrQ4V(M40>wT>gE6oD{h`*gsF+~bpv>3R#5b$xj@%c
zlafboAt1a(&y)!kA|Y+268?d5Tt*@;)E8J0(5)v~IAAwoDI^NxeiJS%c?eFOS?Zxf
ze7TOoq~7AG+LdH{G`-f+7QcM4kg;o$UOn5YNn-+{C;8D+vCMB6^=yK|VxZC+kT6?_
zvq|~}PaPFy`W!=8lu&ZQ76qoqX`0K@Wj6KMOsDw|!w6t;1bf3EkZsIMSLF$J2>dlT
z0XNRtlHKnwAUhdtu!WBCLcUH=J>&@F{1G`{Bd3oX#-n=^$t1Ga4f_Vna-YgX`vc04
ziKSiY;YwVu3qm_zHG9D=MrM*;#h>J>N!7IJpu19waLg)Q9P=b#Cn1&|RD~gyY8by-
zFIIJfpXRQ+F*Q9k$G`7xU9@7cYQ-%vcigw#X>TCqdgQ2`xdOU=uIqhAceZim+^5CH
z&6&m>V&jf`{h6I7#GNNHJI{(c&!!vCO&@>sbb!=xrdHJPzPsaL-PUZiS3VY;t%gom
zYqoh67BFumF4$m7VE*<@OSjn4z2Lhym2Np9Ro5)mb>n7|#@mgV`fjnl8?TGi-5(ka
z{>m9A_(`zEU9(cGS(&NXCf00A*?;2n+&Dgce75P`$X7@1jy!N~%Q$z7&fWKfv~yn;
zVvPYv)IT)xt^i~Hy}p{3<#J?H;mf#NMR)65N7}u5(JF6aiq=cCqKx?(;9(LA{FXkd
zk`~XXq*5Iusgm>uiiyI>4xPSy66`qjBu#wCA4#~=CNl91L)S&sq{Wgg>*wIP#j$IF
zOKXYuaKXjDSdO9NyX;*yd4{}teVa_38iapNgZx`?R7n_HKWXSo9)%ia8l+(`qT?lU
zu?pGdex7jEuHG(OI7@*}Q8R2q{m~4y+h@X=+U+9!@4xo~9GEY1)Gj)jvsE>zBaDGc
z6xqV1v~M2~d~W}u)h{n_Hu-7+(iS1DQf7!hE>#y<cv2`?$;DvVHJ6caT)Sw58kMjr
zYwSOS2V=tcS!0-1n!cpz)ji8Ly%F0uGuxgmXN#N%ex!|!i3%xx^wvFEFAHQ@Ce(pa
z+lo`t8%d@Z4Q0@@v!Fo)9BMiV4C#X0Am1VA)bCOUe~+B+lk)>|_9Gk6OW%QCa?Aar
zH6}xpQhC9>&rrx=Q$fXxdO5OD^KU3`5<NVL1ZCj@vj<Z`R}IM*{=Gn>B89X-a}}J^
zFSF0dpkTwIt1au_G-t~AH;MFr&pitqXpd_A^=w6b7KZejSIuwy>W;fRGMxuR{BJ%0
z%+Lgzj;5w^kn}j()08>_9(=~z36pf$+7|lXx+&YRDre*B*Di5p<t$X*NDKR#BH{_v
zlu-z&nJ<Sz^p?ZCP)S8F26-D+u1breV;69ByLulKYey`t*jzEwI>I7aSJrYUX~E+3
z0ySi#+>lWCt(Ngj#@!>jNqfN!?S;Mac493uEc!MYs`PzJXW$fGRGHLHZIG~E|LgRJ
zI)*fT10D=e0}W6M87RVSkVc^$q0E4d<iSQ7OhCqD(xM6Z2~<bP!mJkwMI11eaI!@Q
z@fKPcx<-wGnT1jH(9<@zG3{B+&O^(MGPh-6W2X0r*n0$m^0fQtqV=dgGG>jk0ofEb
zik@;XbRofhFWmhE%#%Cq^8VQGKNLx@d#tg`hn~D&W^Ve2NB#L3>t{TIxR!*Ck;$q;
z#zdE_7(eMM3PgjlUA+zLg;B5|#&CH%<73DSS_~^Xt|fV71HLecGI}A1WA@ST6DwRf
zEnVOyD3+vj$6PT;lA77ini=MsDw<`r<7^`)S!dR}3cHsI+$CYMDMvt4=+wZ95^0xI
zBhymQ-ec8L*(4pvRv=p_Qth~G=t^$AyrnCza#;+}d!AXs_&JWjXeb_sk*$kk;evbI
z-$8ByX=chN6+cJ5W8|>Ku#aN<=ye}Cv^EO&;gc*UShop(Od&);Fa#=elJ8w|Xok}C
z!)YS&?InjAUHB3Cbj5A66hqGUF-_uxrb*o9geBBPQ~h6fJ07)kW?R<c9(x~&-s(4G
zYuB-t#|~S)Wzkggk=Im1k~NnX*PXzGRy|#gR@XN3a@JEjYo00pu+G^GxCR)q^0zOV
ze2>f(IfKF6JKu{dK+L@h^3T2A`_<pr{t<<c)Xc*`kkLNApZ|z!HQVPVbM$ks_h<Bz
zJIL3X%b|UrGvfD=t#LLi+S-=Pc*%9Qm;+#I<c#<w8QH{*<aBcO>>^ZIY^_UXgy#0~
zym`gkfp-qSefXVIZ=a%T?^on3W^?O&E#1=Ay14N$aIv`+R(N;r<+JO0K6EtT&?bxx
zL$;hV!w>e1ENRY_(VLaSRnYxn^VXb=UhSN>iCF;)i*;*qlorB9*{bLwP`|Bn$xUHf
zP3AscI|@oK$W{iMHHkLgQW*<#8qCM|Wo%qglx*Y*=4s*2S*>WR@{c+E$T*g|HV~HF
zgJaPsCMC4@<6WWigYqaLd<%OI*T*pz1tR(cB1Qz-MX~`XSuu+TFLsTN$^)=UeeI%a
zfGD$2RI=y&0#BpKO1b)=JD?s{jCaX6rR(z5$mj-OS%Ihu$xrB(Bqj2_N?i)S5QmN;
z7igDrUA||ix&(}!s*z6z5pP`<4Rk3yO`23vElVMXbmcLdK%}o!!6NAvCSmwIbgIGv
zDc=ZxMsY2rab09@4h;uOPIR>lyUR(w-l>CuvhNB;u0;kX&@^50fuAne=^Va-OJ;E|
zQzd2F{uEf2gk23v3}LDDX`sWSk&wWy2o-39%`SbCjfAdxN-}m~-teScACkIA>-3=I
zPmve8F2(vDyQWGu`=|T8O1CnKcL<`OxQvx(@fUpL5F=j-EL$8K7+8o@OfRnx^0+8z
zTBRs9f*226TJe-@wSnfRTC|eWM$QU2%DB_dU;bi77%;rQl2WarRJuK*)Jk3l1zP7N
zw_Giamo5Y-R34J~vDhW=2ZS{g>0(K6sS$30#ckGv&n3A>3n!6$X_zw5<6U8J2*(Bm
zVJ)C#2E3PL!@i(P-ggA!gBK&QkkCai>nU4{QdP#0I7`93<PiT-UV-+K?*us)$$66;
zwha9?`TiH0-*1s`ft>G?(@J6c$)Qt!?8qHs`Ae1B9qJ1EVN75v4Ws^L>~sJbNY<Tb
zMvQ{p0-e3be=h!GxH%)w^B-F{zH5<N_hYVG<huWobAG_p{FrN5<XS%9nm^#S{T0{u
zvBAh2erDzP6(4ZDA8_5;`>qeTtsfiAyaC7@5KfLi#DBn@Dh@h;pk4W(kDZ0^`w_YR
z18&m?RDrWU=63%Tx9L%N!>f+R7AL=tpN&4|==X861Mb|~#~l6Ud|d0+#qH0F{^u9D
z%9$f+?)k@-dfvY1-}acp@8hkleEp)Y=P`%hj}G%Des!+Af`_3D#&*aV$=|y29pBqN
z=6__i|LRMheQC*z@W(41e9i1WvVTs6)jalf@}8MCQXPKG!Tb0n{<MK_o^87mxQ!6<
zKfY+%&+|<)`^fIvV~+ffj~g10><sB3J?7wjyxqaqs)^uz?CVB~^S6d?4nOALeLTd!
zVBnk7g2|r~Oq^l$B43^1SBd<ptf@I`YtDMsfYdS=9^0=Nc>8Q6-3GhZzWJX0{_!P_
Pf|eYJ{gB170r39-Vq4gK

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ernie45.cpython-312.pyc b/model_executor/models/__pycache__/ernie45.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b821a569754e3fb0f117b70fe58e8a4c55a06adc
GIT binary patch
literal 1632
zcmb7E&2Jk;6rWx1u0IkdruixXBqvBgP8AzLsuVSah&F+WwyFf;U<9Mh?%0`R_Jf%<
z#F3GDh(s!iL=Pw&dgy@*O8<cV0o=GWQmR^`_Jn%KEyk6oxWJoTn*<3CjI=ZFy?OIK
ze{X-u=W_@aGrpleXAt^TG5wY95#11oUF4!Fay3_Hnx|KFP0=Zq@{Fnx(*`p=t7-vl
zx)w`&nQBHuIwCsgrQy@u%pK!ic27&J>gYY>=C+YLK&-t~BHQaZtY({orTo@Am;D;y
z#COPC;In3NnNyz>y}%``=mcJ9M|72u;+Hg9E56^T*QsA$u^kW)T3?Gq`B0fFX>v?7
z!Z6?wjsotiVfB<U0vEZD8S^d%evQ_FD_mi=XRieOqTLWSyK?nVg$fr#*RNltLV)=z
zc9ZbKKVg*&nWcW%h%j}9%!YxW5e<AHN2wnX?h%*T5y27hMZks3$GQR&Z<V-0Idhx7
z?NJBYypCP!38$BPe3(6^TL$85s69bd4eGCIso#ORlay-^qh{=&n&z6@LsfGJZE98P
zLsYWl$TIgSna5{O<RVofR>(<>Zpwi#AaAIHN}Rs{E}ULdpkD|n=c*yyX^?)e?V<>n
zWZg7c=v%mNX)XPpwx_gVX{d$Pjf6hAuUjX%guaA6brJe16=nN(tyC04Q1N|>T)Q>u
z>aEoJU|;L_Tpv27`xFM~Cd)<t@#<7x<M_mX`*l<Q<JCal!mXNtny6%4E9qRBk4w4o
zQE5<`fH=Zs24m{e2xDo+sFfB|01`4s0Zk&Z0oq(mnam2pYS@k<U*>oa*}SQs0<aO-
zC&4BbQIipA1vuovx-?d)4VV%eG{lO;w(FKmX(%Jdkw`Q4CbJkj%oYM;p;}vnb>olA
zmB<S#Ar0riS)D|4n~jCH&TTA^3Ztu)uo<ldenr8g5=V~7CUF`tKM5-;B!<}8a@gc!
zV07!{f5BY2pZ*!p5F4;PzkwcS@;B4_nbUVaxj+6ObNV2&bd*Emle^X1)kkA92V*lk
z%a2E1`GNfS*~5|f_W7mn%-!MJ!;cEH`-Rzq!nt<&jlN`Nzc6!9IMZG@e^T<WFyG0d
z@z=WG4wcfX2QX*^dXU2ya%nI{4`Tdz!)D11SJ;&)5%D+|neP?MA&g;M()bkI3pFB3
zd>VE>+~490C3?P%jz-bD+9mBblrtCaZXK!P{+qw6qoX$dYX8x-Qck8Zb^`|jc}dl{
zocxmDe-`*<mpB2pq11w_DNKeHG~!{6BQ3^n{@Isu%!)Eo|1hrlEX_tlnTYWfNBk2?
zVo>qQ%wkfDw|NCvm7Dkgwxg7$X`R=RwxT^n7oMQ$C+NacG}W<?K5=BB@rm}>M7ucE
iesQvsHOH-IW=7Yaof^;<A56}65uDu-kaUzJcJ>#K;-J(3

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ernie45_moe.cpython-312.pyc b/model_executor/models/__pycache__/ernie45_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ec94338cd4712e07ad8951805c6e7077f123e8f3
GIT binary patch
literal 27862
zcmb__32<D;nckcGK5)!|doVZ$Hwo~*MG)c%OVnkLrHnz$00cM#KyL;V2@hnhqbdVl
zIRdkB5zN{p$m?A}C8h*t*JV0M#o8ma+N3r$kAQZ@Z>cP@rjv4ZD}hYP@}`nXzQ5nR
zH-q7Wv^gHZetrDiue)Er?*IG$zkB|j!(ruc#r3~A@dr~J_cIE}mpSiw_?njEZgEjA
z%tbX(ZCn%9;I4~n6S}Z2p%3dd6t9mP62`ER`3-SR!W1?!zcy|Tn~`pen-i9>g~gfT
z)`Tr=V}5hoo^XU6%x{T16Rxm}`K@txqAXmNC=Zt>D#8^k&K9psc*359H|$OL!af#f
zkNXo<;VR~L#H$lE;Tq<5#%mLG;X3Ab#p@Fd;Rfb+#{-GRaAP7E4kntyO^N1kGm9^a
zw<KD_t;}B@Z%ed?+nK*29!hkCJD9&R-kInMcO|;R-7M^h_au75y@|eX9}9cqyAr#@
zyW#gm{qg?9KzJarC%h-IH@ug{RmJxu_J{W;4ulUR4u%gV4uuaT4u=mXj)adSj)sqF
zI4u{eiXD4bBlUdvxR!g8i&nqJMQdV~$*;>Vrf`2(m#2J!QPzU8?sF(lGRk^THhd1{
zAfpU`vhi~$PsLn}HVE3L&!&AhU-|G5%h8M+E$TU9dt-ZI1MeF1EqwC2Hq<)z#F?qF
z7$2J&jdf2?#jgiW@e@<A3)80piRox89vGcY%#5TaF2!SkS0+-I1E*)l$0w%7hek#b
z5t|sloJ#imf(jfCX+`tNk$8Lrw4(V;D#nv9q!Eo1$@s)5`E)0yuH&Yinu6<oijSrE
z5j-t=a(ZfPVjOXn6RA{eDm5`p1fJyV%*-^OilnCb(aRC4$pi}2iMEp?qnBe+CeiwQ
zJf6t=edDoIWOSBCb5fD3h({(?vQD&9QfwwN&QH(INTC@y)J$o3ZgQHBuvSNAMtHO&
z7LU9#&BvpW<is3R-!?Hdk&48p$H!wlg4Smy;<G2Fq8Dc42sxj*Ji^DKL$k?P6y1jy
z)5QzV3{UfkkY2355aY+Go$=Yk)KmGw&!g!hyjb@1x#vrw+!tdr=(3SiEGiRSoPK3H
z5gy<=KRrH?N<PI;kH(UyJfg~<o*hB|&Eb_zPbuAMrUvrUGcmj)r&7#?)3K4L=zV^A
zbmWp8c`9)!7LDQsgVGa?jg8F4QxWMsqv0db7%x^OMy_9qMfg}^WF~UuY9u*25|2fu
zMiSIT6=$aK;uEpx1S<b5>(b;e=;Om{b6=RamYU^bUl==eZ6?O2lA`??=?y2(PhUKN
z{>+D-dMacR%TCOureBao*m>#6&ZnNbFp*56cIQW~qb3!xYZySIcqJ5!OiV>%*F@h$
zGJ-dokO<kEOvF$pu`MxjB^HS#W>VKdTBv3I%_k#cC~BI&F4`C&D-%_eT06tX#wM<f
zN?(rTmgNHvpNHogn9gGyrg1K;wQ$nEs6DEU>7qLP*T?ixL(C90#*9(ToQdP2CWOq0
zwL~>z?geg46ScnP2%Dm|*SN5GfxD&&Tb|)U4$*arpPGmbMD|23Ovf&qe`;8?U7m<W
zV^eHUie=kcLgQ4l=F`y{(Tvd;xim3?cDzgjBmX^!PK?yqQF@6<yx^p0l-eg6@k!3|
zQ={@iMNPEeKTV1c@4@-D<`$R2UAh*{Y3^GFj+3V#4VOYly3(4ob{xyv9AeV?v>|Q!
zZ7!<)uJ(@Z-8@a2i{vL;j!V%~*p=2IC(#>O4n1-h<S7d|3gzpf#w+_cj(4RTa^9#Z
zt;18y-_^+z{?|1rmz*ls5~V2ZyUv9y!@t04%*{D^#xZ6ivonzyetPm9ov5dd<98#C
zA0Ps2Pjvc~DV7@2^9LxNCHBh{qCSZkVb1^DRDR})MFV&X6Ia>ScrY;6*c12y&9Oul
zm`DZ+WMk8OU~2l6o{&W}AQr>b9Kk5XbQ9q{C?7LcQRR3)MOl>UU=kdO&&E#i{4~#(
zQ<{-Ji?Jybr%%S>V|)+Qv6q}aa(0nZQh7@xG8!LACL@s~y^KKqy7AvH^rjLsy)zRt
z-Ki1GVyW(Hv-=M0zp^jZ8=tt;J99mCd3vgsX4_tA@{C=JjpEzorC_o*#zycSOs%n=
znd|&v6h7xK8P+{=YoA7H@+O>L-{2lqau(;JNih32%+>d6_vY-roTENtZ&+y*>`l3{
zs$5k|&Re_m#pRbW6`hZ4#yabQe#2b#$jMcA=InJuFA>#*B)V{>qWzJ>R1Lb<om+0s
z?p^lYvo+i=ug#TrtR7tL%Itk1<No49owmZc#c3VRM@G)q_*?M>{kLonQ7LYehKhXA
z=w)BVHF$1uX>KylX2=9|Piy3{_#*PoYv*;KQ^tLPGOd;A<~5*D#(5FN_L4LxN%IW%
zj%GNd<Bx!hKTgh3I2fKMa1%AxL{om;h?+=Jk2rd({7FhQVa&ZU!bj(PrSBr2@G_{9
zhv3}ca-OQJr&aK@uDrbN2`yR|OiN`syZeoEi|3Y2>-NBcCg-Yn<JHAimq*rJfkpj-
zW?@&(<z6uJgUBD!4-G#nav>`XYFa2F5z!i<rFIr8M?|zoBAA`x`4k<dG*OpK@%R9z
zr{jDzN??PAKMSAe$Pd%eSUetyyrbctKx~pa{y1wF-%a%7JVgo9aDM$7w`J$58*;n%
z<{FxEUjN5s^@gTRkAKU6`<9WbZP+rA&&(mtLOv^3;oGv2&(8Tms{?|!cgsORCs$Rs
z<szS(E34e1g0{*ztMiiz_<nU<qc@bXHnSRx;^E3A&u|Z~BI@z=B5KXA7W(`Op~nhg
zh#AMQ8enxWvem&9Gf&d@U2<V1QH>wN`tq7SY-Q_-4eN=mWIdTaH7pt>9;q<ViMH4j
zv2I|O;+IB?2ci?tWdnXcc*v5a!15VOfifM>8!)k}PWwfZv+~5k#GWR6#L2ulO285-
zU8yqJCzqhsLCC>S8PTfb@XBQr?#N-6L--skWq;v5SyS-KKDiFaO?}0#v}Uqi_80D;
zaLXZ-uTaZzm^iqI(zaBK94|j%-k3H{w#u=E`(%5;FZ<?ASWvkLtt0G8n<l$tf8h=a
zpBzGs0<ynw2L&xW>;eU?BqbMOX{9N-<`72SDmfZdwDy!-h^;M&LU0a~Ci2oGz%EcJ
zb&%tTVv?5Vl8dn(Tts<KpxRqPg5VB$SxQ8yQOQ`;%40FAy@DwYHLR0MMtRCuljA_4
zItnN+-<qP?n_W>_98_|HsnM&KfE2@b4f4_fcITK}7U+-5{=!|ol&CSvG1kchcFSDE
zpf$=lQ>SF#<dEzu+*4;{|0GS)C71d$Q>SIJ$@8+WaKB@DH^0=%Z9~t{R9|vM+T;kN
zAC&!tJO3n}PAfslg;<qujz-M9IrWT8465U@zi>~R5&vu<Ec?K^68mZWt~P4CV=H1>
zJ7tO~6Z)BpDB;wX<P_ANa74+4=cvscn#phpA%Z*9Rkiha-}ZcM9pBZe_w3}b$}_mh
z4%Jwdul|nn-TVxS7AxssxLw1d7rbC(YBmu`GSD1}Nq~^2S3c*FaARO5kCVYJ&&2|B
zZNxE;^D*$jd?0msWC~6!fI==IJUtf3mk|&(JwtN_#?15kQ65mKA)2~A6Pt7OY=2zH
zSjrbOmY8M|o|yV)=gd9%QbTspxjnOJqx$EQMMG*DV7RC_$}id=h=2fKB#s6Yt*^cq
zK=U*o0~&*<0svupih(r#1<K^1atWVJMG3LV73k%O6_Xet8uOwhk9womcv?wBQ)))S
zgeLIlBdHY6)8OK1l#BLg>?%YsdFh8)k%Kt+k*O=d8TkYg5-5g%43H!Rna3r+F1fkx
zDTothA)b({Cn9Eh|L}y$M3?*$W#nlirXn9;?d3;^t^x&?Hd!p2B4G>UAaUg}<-lK;
zuP3*~`H75(9!v3*#6*%nFe$O3G&(jF70WM=Bukq>b16@YB73o-o_J}VSP#)c0uxED
zfL9OklxSd*1#s06lcf50^Ist{4|UvQ5M5$XY5C+|B&UK%4MchceJ*_pAuD6yd72ao
zLr3bdOGIxgl5g?E<x235rpP3%AjIgi>xRS@A4XgW?3zBMz^?0*?T7gMeht{=EP`DR
zD%)0#>y^C=mRwbkP}6<ip>^L8`0Ni_yI03DdxtYmJ-goe93ii!`~K$Nc4qzkg1;XW
zj{Cl*-+DFc>lb_!wC8*^x8`roXMG{T7h3mqvbdJcY|9~`<q+ks%e92EEysnH<19qr
zt7qNYyI{+C8?)YBf_GQedqnUaK}1a}k@z>8da_M}Len6H0=dSPY~x;`aW94HbHUbZ
zaK8}Te|I2z=otZj!DlF;A=loOZ9gWoAA5h`PY?g$VWIsC6y1V{zy0D{FRl${2c8!2
z*YY$)2RH5Rti4sRx2{%ZLqh`o>_b~R&f>rWQNyN=)z-}JvmcyT4-RLZz9<AQvS)1C
zTyGp+JiOeRt?m=5`|jEL7|3i})xT$d$G-CF7N^-8%7uEfp<_bmSf>5>`<gACrtGBV
zp-xBGQwQv6<vcApdwJGgFWBpuCn(s1xiar&Rh@)qpUYG<0nd5}&srXpbKSk~oqy;2
zeR~;0X2z_)NAUOjLF`9~A0#&HgMhW&pnSu!XxT7_fOgO_TkxJOxasz0-CcsaYxQcj
z_q>2V_jxqYQBUpLovRIIYkP#+o?Ng$SJRlS=@M$Xa&@6xbzs@Q(vb1($~82j7ER8D
z!4K^XfJ04f3xgZ>h6lcuTuno^rbnph$@%N0+T_apx4Le2v2cgr@5t3RXX_6N^#^k`
zft<fqf%IR@RJ7)r+uuI()|qVcDWUlk60`nx!Qal_>p>xS@KKe+kM?}a&JdUAkOgCy
z{bEUe4~FzMxUNS8LoZ>VMZk5<BqB<$d5E9X;-ea3UkP%nf%m8;t&{nczbAax0}FAJ
z3XUn%gT!BVv`T44P?-y<vX8f?jZq!d33ol+iOZfhPC;-cg@F)MdC91rah)|t&1(YW
zGU-042-6C&X`{@8G1NhQSaKDF7XX=t;a~hOTp=xg17xCutrR?)%2P?U#Ph^fLdI*r
zk}(q#^;aiiukf!Rj(?S$tK<-N7F#9hD`fF(dB6&$Dy9#aq{;FI<*`ol6XP_KqhwhY
z8l6b+|By;0K2@w3o0!6Kv2C~{=}qKkOliVAi-;202qw(DY~;_8nEcmpNH!A8dfEj~
z`+`;Ru9gd)E`<FpSw9W()!nOe>;8iaj?J2eHxJxCu=3J+O+VyX3y!6iH|v9M#&5@S
z)op9@_~;rsA9C6TYsOqt^nvDrd)7uUlVuJKfAF$!=xHJNv|w-8lw;w|PdAPCY&G~k
z-tKy<D;s=H2tJo{H{r8yazbi`^4v{XSDWB!TeYsc`ZMN!Nj#$)=Fg!iLm@j)oH&1h
z9OC|X8hDZbhFEC+X>w>G;c2}PjS{2A<TCt4iYCUnSQhgfMUq1jvSb7f$zsf0|2{}z
za<z>g+b(Jh)=hU{%RnB8Vq{^9iG|H1W3e!=mGf4A!pOHSYdwa6mFH-(-s0e0i~T76
zgZQW9m1HmUL>fQJB}2f6BBCCby~q-Kx<@ODr1m;UV03wTj1kg$NbO_Bm}yK)A6!1(
z3<?X<tTA)c7K1#W$@lFsYu@L8%-;zqe>IcixFE-|Mcpy`WVKQ|#S<;tA>OGTKW2=U
zL%!o=@*NjGy-LwjEX-51X~Pl&V<Fb^GPFL>2ap%q8!2R_TLfQ;XeBjK1e|qhM6@$M
z>35)V5q*h~Ymu4h<OJhaW3r+MMe&Jbg!o(tjFO`HWt1wZ97ah^C-Zs*)|ySs#nTM2
zD>SJ*?86jYB35#JhFHliPfJk^o6>A4WjakOX;Tm#%{$T#fDl>$*o7&!NRv>2_V4D?
z=bZpYMM5S_mBdDuTxsVVCQv-P9b;R2mis!%ZPn?(SfM;+8cze}M`U>*2_VW#ibgQ)
zyaMKsuiPoM=-FQOY^OS95gn^z$|FB3O2AL`$s}}<7a-KsCg(`&uW6DnCZPUPYiV9s
zlZSoO=1GDkB^P2<L^ye2jWRAk<t@pG;AiGl`d*zXs++?bKzkI85EDi!HB6h3rXq4<
ztyQTpo}xUlP*cRJ^{FLoOWR3|!}MACaf;^=@6WDONcQbmu1XzPuR%JTFP+3Uh9dEe
z@~%_eMWw5hquyia5$G(_Mu>#+tO9DR2nkcWipo@aQI6Z`UExV;A`SJoZOymKf_7Qo
zE%X{qzwClI!8TmrDaNJP&7aI!dT1UZO&${h49%H(rX|&#f#x{i!0T+jgMPO#t3l&1
zl8lKCsF0^()7JnOug7EjO%w`&0wDDi6f6G-A^zLsC^K59x`53^T|73$w^8~fa(c+2
z&JkTHJT=aw9&FO(zeTa-g;-@a)}c<)bKW2l<I8zm4+067=ci<Ti3<P6<j|)gO}(ti
z^oB*F)L@<#Kc&r>w|Sa*L_KSdTVkA8EvY_*$4Z4$+odP`7Ww`OIolgAHIr6bNfSeD
z&GS+6tr&sUtFBK94*gHaoiyfgXnhe5z2Cog?dtCzdcW+SAKM^Ex>4EtfkpwPG90{L
zzIVNR|AHyk&`v0<7FwySt4VM*t&9t<?zOUeuH6~)?u=`9uBt9u)h$$Yula<k{XkF7
z&0r4$ZaJF^ph&O<SH|zzy1|iD`m+@sLPf{w3qr-fUCq6U0~z~)OvM4PF_ksT&t~fe
z1pIAFx?kI{qFEWpHXRh24&EIXnoh0P4pHe<Ie*}u|IEsl31prY@Yix04|i;Ot8Y!+
zoLWh}J^$9c;2l7m4QM&*YZrX&s{`*HdFP1WqiV_+dL=6OI#{^688=t1?I@Ms{J<X~
zttV7-7ZxwzmbC{2dw_YGN_3`Q%2c#Ha+#|LJ363h^|dSXD+6yIdFzN^?_(NNuY$>5
z$W*jI&FZ5pwnuKRrb&L1gzR%weYvul95iiJEdYcyMCSsX2k6!P#_-~>Opeg`#q;bX
zbO==)^Z;3v%OI`GOpx|l775r{WUeF05XC6*3i3tDBE~!TB~YiXgH?2^Ob4r**Qa%A
zFb;E*!XwBJVDp#?Py($=>^Qi^0(g57HJdlg8=-*VCYANRsALV<ImoI6RyR<CR#|b2
zXqiQXOgj(D3stCQmU$vpnguN-I}&jCUq?|8h3dfM0WN(HA;2$K8Kw9);pbP#`93+n
zOV01Wkws9yM-eyRh&s%v5`@ycENZTZnyaFXrjZC_fitry%sA}6UH&Agn;A%$t5g5_
z^Pp+~uP{mVyum>MTkgG8ce8GJe!Z-F(YT;nczUzkb1QT+wEXOwU%vh2)#mrQ-s!rl
z|B3y__Dt=m4|Xqw*2{+%O{95V7$I%+*A~CFe0{ZX_33q2ucVPCcu{j};^qWC&Rr`b
z>)!SS+h(Qz*14PKR&48)U5l0l;}SI4o&|>lj9?lPc+12M|AK=Z;rPdwf41<$Uq3iH
zG%Vqzkh>HveStd3z$Ad8J~}a);-5kcPvb<wPV`=j6xxKM_-~R!U{f7Jy-q3Q{2c$2
z{{xPs&JHv~E|crooonmP)i>p;>T{jFq~L~jyXHKBDpGHgho&&!mWg@IoUeMz!o1LM
zdzbY$JGN{rXy-iDTMp)RqL-HYS9Ht!X+{#fom(yz@8*InTV>2!&iQJ$DwwyDH02)V
z^>V)8%AnwF-}14rUqN$KEL=@!j#X}}mQ?0-EcQjM)8O5#@ZUOo^YE4depJ|BcPo7}
zy=9`1nX|gys9mi6)Pj(N@2ERQ@n5-QuJPf&LX;Z5i#k-a>k?7}qJv$QDQW^nvonll
z21YXj(^=HizQB3v@xXqn^s>E|YU-FdY6pU|F$8DFm+BO^nZ^vpMq!4@GkdpTNf=zR
z{Jww|OR}!w>4;cdHZ8sm_wyhXWLm1zUIgo~bQJ+B(!?v;&w1mv6kS0_KX2NW0`s@R
z)Kz5cr9R<m)O4Vzr2;JEdO@3?X9_V*gAFb`pUlUYo=$~D-<HP|HOn<4jaXU_CS77T
z^G^fIs{pr@!mg+F@<cmtNyGM`$iASsMz*M3E`8p*?YWMklw#nji8|3z73dRn%>gJY
zrP;TY=8n3Q6vwudva~g7CwQ!+JJU|SJ8eOE=*F~z0Yp22SU!lB*cj}rgU@~iA`0H0
zQkZQ3A*p}Lp))kxsdzU(YS4Q51LUTjNEI~U>f>rBoo1l$R%PF|mK47!r5<-Gi=c^8
zi&T?b!VY6wRr`C#Qv`Yy5cmI~EM?RHu6Tzf&Uy_sWY9uluYW*6V)vPC-Vlrp$!;&g
zm~^{@BK|M=^D9&+eaVtGO41rKMHn<wWHDPonkOk5iZCgXNod9LLJCu2T^)&wCNe2S
z{G7fg5uX7ddY;Nxun^NwJ+4?Ks8}F+2Yd)*MWM<9Zjzc9B{G`bp%8?83ayu{!SiA&
z7I`IhJ%WnN#-vD|fQe{PdaHoFpg$yWmt-x=+LvUqNKuE1OFFn-dR`wnl~jsrVhU`G
z)E6Ys68+#jQ$^KarBDji{u7jqHC}B-UZT_jdb&hG_9lKrzPsf7n4Et>&J%EwZa6Yx
z%HNBDQ)4mfRJ<%G*lCE^r=P?5HFS9HBJ9MJHr+x^H$epdeNXN3^D8f|?OpdAT(I8v
z)h}ONd37zd?mN6-zaI>dHtXC6&#woc&6peRS3z+jt6jXcS#O`<?aNg)WUKmxs(z`Y
z@LJ`%XK&8eNGyEwA(q-DRCURzo^{W@Vg{etU{*OK8_Y-boTq)ef)P5Wn&3)nrsL4v
zr`M~GEx7InfcG+ePkvCg9ypgV*WIrttyrcqw7NIjc~a;+`TmH|`6Q&=Olpqo^(`yU
zXSz?kziYkjR0fu#<yFhAE1}iM-Is;#<Ll)o7EB)-IY(u#yk>diW_PA(k5IPfZrQ!E
zgE@Cqrf&B=_ipCtyXWqE;A_qK>J(*H<<i%3wQY|q20wIN-#QIVslTmAJ=UHLl3q$t
zlHIQgtaw+e*PdIiI#gT+un`sT`e~@_0&Oc-vuy{2wgY#sW{+JIj$PbnU~0<R`|Z7o
z_HSh<+q_R`-uFnS4FMT_Xl{`>p#pDihAsC*6lRp8#cMhF86R*D9_YMuH!9PT2`a`(
z=~d9;%xkAS02rz?1x?rI7_`Cw{EkMRQK45;H)_S2E7KH}r>vocIu_TCR_ZY=*d;Bt
zo$yL0U^e<AWZ-{7&L5NWhj8-Numv*yPY}D^8dicQ*!)s3w%_)R<q^svdL;Q9$PI+z
z<m{ChXj^>E3#W6nfoyG`P}{dww_bZ}@xo?nN4E8#(0cIhkq_F}Tb}{+UbwKlf74(4
zrt`Kl=WT$tXUo7<wLRo?0N@T-nKrd$gU5v6vG*MxTw4!*Q7|_^IdqM3m~Wd`>el_e
z&>p#JmoH~rtr>Hx1W@#OC^8gslwuL$S@;6pc#48glXIAyzYp^GArX>uidy|WcqHXb
zSD%D4NPpuvA?t6*LjWs}08A_lypcDawXm?25P*$&?a=3JvFzwcfB_ea9n$&?Z3-BG
zzX%La$jkvKKz+PYDU`QtSt!aX;{zK)(pN#19>ss<k{QQ`gJ?=IJ|JfHJJ@<B?a>(1
zGydQ3nlsGyYN*L~p#w6i#lzOt3{Kw6bVy~i(?g94=s`W6G)I=a=184FO5Ne<F_t=J
zjXGX4gsrHfEoP5l*GbF~(~mLrFmZ8X+NhKCMNwDG#nM%uBx$#Z9_6@WEH_%`M$R&Z
zQ_At-m5XJ?AIk;WEXK5mu*hZxR9{1W<{L$qvr7w?zH2rgJrDQWnr|4sVf=>a8|H1B
zN*=Q$R_Ec=#4q18f>z<yrN@%{O#|Xd%~W!I)4XU@Llxj?l^F;Wv^1Ao#i(ErBAX(0
zjz$dz!g4^T#?>=Xl!`$9o3PncQxO*P+67Mg-F)rTMC-`_S`a9yK7#ylmHa^!x~_ut
zv3g%1w)OFR*c_w<meN3UuPs6f#AvZ=%9ZMr{c`=$IwifJvOxJHpf0%<3=75u(}Ed8
zQ}>$mEJ?XS;|muF-%y^?xA4=LW*7X5`t|SG3vH==a_$}4Yn<FKQxxuZjPmM+XDY~O
zhqf!}MHaz8J>y#SCl;05AU~09Xu@75rk};m$t&1{_l~x}dMjTeWuP%m*yLd|oNw##
z70TZ#x2RpzEW&DhQHM30gsixv_13T>(;L#T<sxK|W&p+(GX|N-C<r1XsieRST+GHo
zG#`$SBrZiqj?Q&GHk&AXZO>t5-j_TIk3{`Pv>?$71gE=E)1T+iV37n?t+wqGo3Yl(
z76K@J@_hdXAm;xiIXB251|SqDpbu>GqX|qlQnXwilhxL&5ma^2J_8jw>(IzVRJ0*P
z`y}DNCR(r39!jR1kveCJ9x_c1Yx)TJNF>8lOJfr}Kn1h2tVm77XpbrED2w#zP(NWK
zmPEqSm|);Yv=_fqp1wG~gPix_h&Bn)vF3^v!f}$<nC}4ktR$$UC;Y;bwoz>OoGp>E
z1X!8N`9i}~-mZjWXqsjC<v6Zl1XI29EB;-2p)bMtA2+!BW{14zYqP92TNV<^LfNu@
zp{#$wnDYg*zFxuCy8uOq;@u>pG%_+{_y%Ta+3HTAn#>DbFq0!)MXtIfTfIl9-m`$1
z7Ri*5tO^zHW=mhTWk_gYTAJVko9{P|W^HZvY;CJU*{-2`T|@W#4*$M0+js6>-?{sN
zy*V<NYZTm#%o7ycL501q%lLW$5E_{=TpbWXWAA#PkL=;<9_&BK82V<x-ux@A(cuK=
z<Ez8=HKtdoupY1q<~^(p%gx{ES#7@4`N+@N{Zy6Kd$!j5{)QD}Hn3X=?7nNv?ms8&
zKeypO4;*slfxmU#-wr@==0WfCIY;gCWX8_W(Gj8Z2!K%^gA85ln-DD$$eoC)n8?x8
zN&ne|@cBF1p5gc*P~*G*5I0OSCvfBc5>Ap9dwHjsOB%S!bLX~US;ji#=PQNeLmCh?
zHNn1$ba(;56<DcScXejWovazdjGY%Nw;9(;#$ic(WrX9C(npotwuQ-vGFc0wctY`n
zCoe&hRP&OHuS)BG10tt+!&KQ0Fh<#%H*biN8J-hROR@=pMu^rOnEUCX%x-9#&{Wm9
z56@6xRuC)mu|@Th#d?F>OPFEiO<E3uPl)Fp*DJkVrZ1Y{mG-I#NR!UOCMhZ@s{4+j
zL3@U5Fcg7Sp(5;w`M%3*vdn1%mJI!H(VQ#U1WNO-l}(8}AyfW8kVA_DpCjil$jOqk
zK~8|2pTY@Q3PVi7bALrio8;UehbDH>z~(%rsM@xbwOA8X_4s6z$9Op!dVh>^m?gCI
z`O!>}bJb>C?YThrO~+=SIU5)d0t0JbS`QpsazItPczUy<EmP5-vG>Ex0SPt;wI>!X
z<b0j0X9eHBh0_l_HOqr<p1XaH?1&Etp#ygZesc83NB_cecHz`dTRT_Jtj)iFdA;=u
z3@hH=4^u$zISr&4?%LmcHS6lQ=jyl*i`ZcA-7gC6A$-)8(hgNXqS}CDQ@D0|z2=B)
zRfyV}YuTsr*pko2KaUm`kAJmsPw0qkNz#M3<Wgh5F)~z`?>qV;2Es5bTG*CUW~Xoz
zg+ihzZMhB^#EQ`?GpUG@&NhqYBbCk0Qe+vU%;#iL{7Wc|?Ir*NLIYH+mX<eWP%j+>
zkc{Baf*CB^(lUKT&H>OuQx`K`ltzhIPG=@a#`tokx#q_Q&Er(RqVcmArD6Qw?bT;p
z`vuqjT%eQw>f0bsd((E?CK<^yQ|7}$@G!LMZtE6jv{<D{+LS+AW19gp%?a$?jp2RV
z;>N*Te@`>7Eii59e@ZX8<S$)OSm+A7^yM_b5LIJjB^>~2kXzEc^bm|SzVf_ITjg!5
z&0KsrHY+N^`9k%eNJ3}P#cN*g#Yi(=CEoxxyOFO6xrl2jxuU@4GV2R%xoNVjgaE;)
zNiG?>cP-||S0q3%Z=SczTcO-AUe(}9_NbXXiFE5a7UNNWCUTgIo~hm%i~P)F*$(Zs
z$`pLziNi%oB>+kJDX86-p>8p<wZoRSse(#7W_vqqq)ch6ybfqM4c^m~L(fHRuzNJ1
z?cc%sg3{+jj2hN{S5XhRqIOWJ_VczjyNhb+-d4-Lv|IJv7WalaMR9Mq^Zow<+U%Cv
zobt)<Rn1;7r2x37BULL?O0o;}-jaKEzR+v#v^9+$z*aTl3vkVsrOT3<*Z*nSJ&%Kz
zrl1#1J9zDq=Ji*1c%#LwR38<ER>G2wwUWyFy`ugse(RL>2Pp;4Q4Xcv$bW;<|D-T3
zQjJo*0d;LrS1Krn<k3)Qt6U1KH}#V(GF{<bF!HDI^ZKvQay?dW_i)I7^98;KLNY{S
zvo=i%O57DG?oM%B-tg|9NpVMT;~$Vi?16k(!OtmzYCq@1IXz?%*CWk&P|u`h_^%)Z
zC$T^?1z?k!7)?t11E_>KJM=g5#=IU_<}qty12Z}vdbS5A&6sH`8Z=o^AR%e?hZkp_
z(Ag%D<m@ONmm@m19cvS+;D4VU>84W%qJ?8)k~oS0#}xey(xf$Gov6$JSV=k$Ni^};
z(1yd1L{swR*;oww{Mw21Q=&3r*CAO>>qmj+c$%3d2`s%`K1vQ*LW(*d$xyk(*!(R;
zc+uq1D{?KAHH$DOHk~D5w}_)%9PBurd`*+0C*ROKNq(6V_0$}NHs8TkMkKAHwtO!T
z9sh`)ZeXcW3*3OB`GWI#P4WWz3DMfvnGF;bi=qdlo=uh`i6Ovkj)eH_RPFqULdm&p
z)_@WaC{EYlbtk_G=LYvnttp625%tiRz&d3hThk}h^sU$IUibDd*zN~gey3%@kt4Qj
zpAgu$9ymaHqNWaPl2{mA>LzobuP%Ny>*~4Z>RB83(UBh<$((q4qyJ*g?ca1&F6$TP
znXi3yP;m9pHZ@qEtXzPK%y)1}50)<**dqk61!Fz1f64K)J?8}Xt|ja8xmEvWMLkUM
zDmrqNwVRbecq=>B^moq*eNQ4rF6i7^HMDC>ddRXpRktqOys*-?QQ5H?eJ}A&;_j0h
zJ%c%K^-8DU?M9vlFf<%ktK6vAOGWydU{B)@Eg5owmTaJ32=p&Ge(J7Uj;*}3c6!5o
zM09($Lfqc-nyoIbIh1h+{<2|U>B-#5vqI(ZrL!xx)i2#OZ~B6(&4Le#ya0H`_O482
zGww}ov`1w1t9Q??2cKLz_rTW!|KNu2ghW==ob`7J{;t&*HvD_;)?^P{5Dr}UV0`1i
z^MKN;UlywOgATHmRhv*duypE?nQQ5M``laS?)w8P72l7pR0;mh)#tL^$DwfpuiD~W
zx&WP91GatDVN*=b-;`?%<$|5Lwod568oWzS{?g6)8*&XD%le=C>$bk2;R1U;zNq2+
z?H`-Dszy|}s_sq4ZO6*^hQDX6`A6M9=zia{vHNtcx_;$~P`&G?{s1*0wf5|W?;r(g
z2G*XvduYAp$)!QOhNU#(Hc?%@P}{w9>V9)4Dzf~wjlNTb%6Wn-Evt1KmHTq`s;s?E
zu-7d||H9t1^`wq#?%X=9<J@&JNBxd=co-ALd5rU-%`ybeB!jOK6$=A50ZKg!N7TnB
zk}2#Mo}Gbl@fRqX%`RA-IsWg+!O?v?7=!&OC6n_zAW0JTfl6lc#K~WBJqGK_+!o#L
z_J2aRt*>Y_hOSl5d$sS>VzZ&4>u$?Wx_;dCki3vP96qkeb?^GvR%@tJ)GhF1h*nlH
zODq$G%v{6nwLzhN|CWV<*1TaBvp(ITyii<8)>#>Ur(o%P=%Bd67F1?%)w7yhJ9)R_
z?r5g>gb;c{Xg>LnL&}!-WsRY3<@D-vYyEc(%zm$bQ0T@Mzo9LTl0NAFAo*weKV^Q#
z4YL-HqOr<FT}{`+JLrdEeU8Kv6KWaPM)lv(hOvVutcPKc30fXAPE@hrL={QPV}+In
z=WSuvjvfCUQ73lOxS->(V0VsHO;jIssK-M9U50#irunJaF?YFo?r22}&t{sR${i@A
z)E%B4b5LGremv0pIHTSj%Ge>d^klTahZeY^e&~D3u)|5U{Y82qN31-?I8)@TLe2{G
zO(n}|jG3v2iG!p6&^T2i-NW=oUhosO;<n?4hNk(GBeTho`1uQ94E`%}@c)gREpiyo
zKzsspyx*e;;v|NcmWgKq-LFyP02~G45`RF3whSh1K%h`!`}Y5!TVi`ZRR9lZa3I^q
zv!siiwL%{=y9%3&(nUv+rL|E-GhQ$kMkz}91@=&eU}^w>zgA$9p<hyT9rDw`7V1>B
zNczIDXsC<AVgjn?YmT}of+0Xd6>*fBu8BVeS`}^CWS~$Z**6)KeT6%6E3AAWwy-G&
zdXpA8UhbFTnx@+1RQ2AF;TQ6dK%8AW)VM=VFWiyKBZtOGx8#*Wsb1NK=l03|!d-su
zAoqr0R6CA+$uI2#*r3ypbZTeeFdMv9mP*6B<YIPtK5We~%pnCOkhG!XVpe@dX4MB_
z;7#r82lNEm4XFb%VS(XCOGwMWt|*<)L~JR$SSuAU0>LI3va7w{<M|9lHvrGC65vdo
zlq1vTRI}`t;Rs-E<u;1JQVMBnT``U72{fl4%cpt$MB1!I%UVIAr;=;(TuB6i>LsY1
zSR=n<4fpyyz?135@zk(f-XvLGlw1W71x~Uh4Kk@@*u_H1_+z2YZE0QGLfzX!J#y$e
z>M;2a<WS*W{3K9(rH~@~K%qPx6qn@q!W|S!jX)7Cq{u!{D76H|m>gfYgF>k}C@vRL
zWFIJsS~IHE;JcYOyuyXd!*pB*6n0n`lr=y!<#8ncZ&3h)mJD#t^$t&OGwh+mZJC5P
zFgA@tRss`K(pk58U13jXPeC!r|2dWQ@5v!0pacOK7e?*pD~VGh5tSsTrn!q3$f0`k
z9!e#=$kZdEQG!sC=8hIe(M`vjKu-ZwEuG-XixlnL2Dy@=0lGpQIr~19^doZalJjG7
zejASHBs)jNR5K~rJ?6_`=iMenYay9Q*hT9E&QS%<#JRsrY0E67B=blk!MUj@+lwz6
zrQ>cz6OIa;A~4HrFiVeRsiYc|oT`!(t0{Jeqgl!+t>g?D7FTkL%m}seWpYSh%_qr;
zlanB42F~M3%I7JGUYDquD6(Nql4&bW!AatPyK5r}aNpEv{9hCG6L7X~TPfCDZW}&D
zEQ_L|rt`d$*WmnmoBlHQS^CSoX0n#;RI9r0X$2~}bN;UPecyW58QA%GY4?;B$f`&K
zh;uB}G><rEWo2mf%(`zcG>^4pS$H0dxx2CedULHEZ%@88nQc8Hv>wT}4hpS<OZr>(
zoAwXgO%G~9>ouK}=|P}(&6w>wA@rSC4?IDd$U2;U^2XW4vswFI!M+zd2|D(qi*P|B
zCD-7L5^v4&-YiZtsOjJE3_LWL>#hIMGq9xDbeAnXpY`k#JiG3>cjYQQ%U;Q9^j>9u
z&f{G!yZPMmShjwjfWOLpcX!>ZJp4-==Wymc1F(#<)NFAm3246|m<bN7*E79nO|B7V
z(BNp7&A#1|cDEW@Twv<(%`ncV-0-w6oVxF-T5kD%{RVKn+y9^fSb3x6$VSD{jQwb)
z;wVdfGju!j{m6%|J=i$&=EUuZC0ov2dCPUvm36lY?$(vrx39l-J=?ZlXxsmx`@oiq
z^S0qo6T2^CtG{nAr+sXhn)4g>3%NGvTsQ2^x%Lp<TXH?Ubnncyvhz=xlzXUyPDW|n
zY}=h}8x-0G^SS!7?L$KQP(JU0Y|llZ=VHEuUD?(rgw`i0gmSipLIc^*X(4o)mHBtS
zJf}fNB}snyZ>)#UwdnaEO*>8G>_OzP`gXamAe||AK~j39wZu2%x3tq%dC*E1+ZHbe
zq;24Neo={phxRET7xCci0?(lEwQ?Lz8Ua=51)kv&cm`b&*Q`@Bqf03~h|EVoXj>0X
z$XQw<O4Fm(`eOSmgp_BaZh6sfaZXU!<S@jgDtz^4o&E?8AgbrC=au75>0Pk5(nxP*
z1SLx=2h(-pKz+$hmCe4=49Dg=n%tyGxNLSNiZg9wQ5@uLP;s50<iflDYXl)WosLO1
zHY9qJByNFx=F;gog5#@3Q0&Ou{$jOO@$~k2Isc5Ny>H{eY{Q<r5&|~C)sxwM{+{c6
z#(X~GI-hICuGI~5W3Gdp(A1V|IdFF{d-z!ae=W~aQc&&tEqtL~wqb8cm+L*Vq}y<J
z<w8g3-kR&^$#x719fK5V%egCV*>2jh?ry=|{h_<}V+X!jNp?Wi2-~!1G%OiB+z-!A
zpMaVkt#FdBZ1<p*UL%w5e1y`9tsa<4d#-J#t}QW%5UD3g-@)u1-k4jQ%eq2>E3_I~
zcMW9B`EyNv4+K0(efUi{>UIspdF*VtL59=Vx|IKD34q9L(Xh5)=LQ>B)N5)Ab~ew@
z*vgMC$!@w~r&i`w>K{?-no%S(n}#IMdfS?_dzP+ef_v{eAcA8y&`_2t5;pz@sJFc~
zsxo_R#JKO+Ku%4KjTeUs&;=`WSdB|YD_R~ucOfxp5IwL~-v9~Yc)*k;>0xp+MJN6G
z01mv%pJFuEx>Jj{)6vP|Ny1NPxEVWIvt_M9Su3`Ar{7Aiy|i9-5++T`c2oXuL8#tl
znhJ`Q^=UG~$hQee%B8lCkB0%uxCY0da0N*N^@IA^Q!<Kys75zDXO>kn*g5P-UYQ_8
zJspG}OTwt0ka$5S!lagRM^a0uBk2bNwsj<<+O9`0o^XnV|69~|glxf5l?AbL92;EU
zJM_+>Z0Ff~ooAQN-ad?j=N=h!<<<owIv0GAD=4^vEBlJ9gcP|D^$_(J8$nd)|H+5{
zF6G8m7&(mZ{~JW{{{>Ew*#Hye&UNfGIv%$c_>@{nQiY-qze{j+tz#ZF_efKi6XP`G
zD-kz~-Wf?r1R#WCv<q6InlU;q>k<-Str&qhMRXQF=`oIxI}+vXROhG2VKQnaeeR;q
z;5x;9lN>gi1;}@noL!VkA0O`~-`|ms38--nOkQ$*k>Z|#!#d(PTXy(zN+xHPT6hK?
zh^l|7*L$pBO&xxG{#yp@efZd6tv6=$)mwh9sXe1_V8ZN^8p9b4iL;r91lr8Abyn*#
z^ljERZW(ZgsJf+n%S1kG5q3VbkT0k)>?z2+_Y`E_dx~V<)*_iV{6#Wv3Khw`DOe)&
zrl?YxH^uo4*u?CsW!shw@S{*kFutr8EVU0!6y-D+x^|FzBSjK>Kjh%ua%v2{suJ{1
zA-?aGMg{e4=(K2xM55E9_?dwJi5DQcMyK(+CG1GiWY5T@QAz7auMc*AIJ`226V;QF
zp%t+`(rbtO80M|`DUGQlCT!>dlkDIx(Md;4(zz$nCOqlfkQx?A)7(Uy{jNbz6nm8U
z5uAdV<cY14PNwY1pDIpllr-ubl;&o+qfmhG6PM@!QFcD51fhwi%V(BACtpS}Ei4Oz
z`(S{ipB9jzdg0d<q@O)#{tVhN`ehb|_$sK_&mv{g0cIvkQbMuuGfKtLSojea_8SfC
z5EkjUP+}Ox&d<tL3jCQopzSkqu;1^<|F8=?Lf|vY&!2FkSQSf$!1RAc`H~4U>3-P{
z-xP8(p$5qZ#cs9i(u<L%`n(1|GMk#fD62;vo)$mR!7?Ue(2$e7AwY3fX1R&qT)|O|
zL85FTr<sxrQhv6+v{EcdbtSzz$;c$D=T7pSCkMYmg~jFqn+BzAozGG9>*V~9944=!
z&*dFX`gBer7PjZo%z2cDwh=}%n5Afj!zr8^&BuM5=8WcNoa3*!o{zZNk2vqoIQvIj
z<wsoT=Unqg+>yWHP7B=WPqliD_G1ptCss~__`@G@$3Eirf2uWTwD^({Z|5|pH6L+9
zA92S&)#^0bPt9;XF>{)p|I9rha8G=yH6xOP^D%QOIjd*si|dy98^%Y*7ERgGB|5O;
z5eM(1r!<oq&43(3{zqZmOB#)L`H45r+&=S&Bmbl0x-V-qZOi<d*Kc2c#F2k1t>v`7
yN7`YXrfymLrscNfAxHj)Iz(@==tq}~C$*a1<x7Nzv19SY%*kgk>mrKv*#8F6<m;gT

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ernie45_vl.cpython-312.pyc b/model_executor/models/__pycache__/ernie45_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..938addfd16c865df7e42e06b2355fad22ceaf2ac
GIT binary patch
literal 71702
zcmdSC33yw{eJA*E-vq!DAV3n7r~{HniMp?rMBP$T)UEEOyA4wWC{Y4P>H*Y2gK@Xr
z9)ot<O~p<G*_{>Jabjv(vrT6*YdT+MBPaPLoo{#Z;WcCf{h}mt(wW3NlO3wr@sY`7
z_V=%M;1PnPw&U!#c@hits_NCNs#o=||6Tuw%Vp<q#f@JWe084V{)%pt%OOYRvnGza
z!9}@VE~<;_<GNlQ`_=dA@oR`162@L*!qjU@n0w6$ORq&o<&1G_!q#hJaZ}u$aP&G7
z&R%E2)$3wu`gm2Zo7Lm#^{`)WqPn+Q&Z|jO_v>|BqPDk=rI_ROiH6>Wgs<1f?k#bD
zqOrG;#jWu`BG?;baa+78(cIgdXz6WX_x5-w(c0U};*R*D#Nyt?EbffAC6@FqVR0AY
zOM92GcvXCPBHSBhad&)0VrB127Wc$gCE9!2S=<}%NUZK%omkVmCehj3$<nIhYZL2w
z*Rgm_e0^d=?*<mHjc-hB>fOZRb@9!KExlV3TYI-Aw)JjHZ13I9((B{TBzE-fNbKz0
z$?hBCyAoZ!U5VYjyAykQ_ayfA?q%t|_`byc-u*1@j~_@J>^;chjqyW?!@Y-DJP?02
z(cRmfIMRCr_rYjWyeDzA_b7`u$B!kB_a0B2=sl4**?Tf^s`pglbnj`F*AicvIMaJ3
z@m%k7iRXKtXKA7M3yI#|ULB|BV&T}w-qK0)q4&k;$!KfLbK!TCiBkHFE{c6Ty0~)Q
zfH~Uss;M_(<DT&RlFH9Ump&%_N$;~qm*IV%h%SH3v*E|2Kfe7dUN!diMOVhoMpwno
z4j7~DxbN3<2e@d*t6X$-top(`rLj<AZyBUmZ;X{(gOZ(3DLKGOu0_dpPbqnhm0XXK
z8=g|~JS({oB{w~#<RB}#86~$orQ`)xaw|%1i*>90ycoOK8)rG&k@JiuClO2Z4n=pw
z&c=qvEF2fziIH54ku*nlVI)T?=5!(FQpKFz$l+}q{fnN8?m=C9@ke#;!{2_?YmXkl
z3`nxJ97J0VJ*7V>R`M`PJ{#Mu_Ggr(b|dvjtSdI^$LCb@F0;HI<Q<LeFUz}vb+hTh
zoH7qezp=})(b$zc$CO%F9mi3}iOTJZor;}^osOM+3u8vtThb5Ld+nM&e0ps6p`n2o
z9~<hAwGR))uZ8yUgF~^<neI?xI2wzG`iB!EeW}5-@mT1}VCsD6;OMz?gG1-`_w^$o
zHhAuQD%tTvs<9_*6s>#u;_*I|6|IL-F`mUNNBTxa@PueR8M`z}?+NQf%Sa!e8tjXQ
z4Wg}UXlOXqmx@J2L)XwX(b7FgkH*7#(Z<L6c)oAwTue0cv5{C`3XeK>_oe#J@5jw3
zPgT`+rBbn>)Zp;Y?!Nwuv7zX`q0s~$Ztg!H>%SNo9Z9B8O(HVT7wNm)H;Cp9#s^c^
z#89H|+Syp-Tr3s2JeZ0M#QT!xBYmmVP~@ys59+p`iN_OrhKB|Q&*9FqyDu5rJDNyb
zJ32z|OCqfb9YLRC@ko;TfE3ecYA{Y&j=>?+8y`M*F2>{5c6@ZO|Kfpt-KTM5IdSA<
z&oG}r|7-UQ$43)G$K-mtG5USH=so`InewC)!&eq2p`z;JqkZW77(UVPklNC^Xl$Tw
zG@gn`UkHupi?T-4968;6>d=v+d%L<LC-xmUbn?`R7x3MxkD&12k>O}xd~aW>Z|`7#
zN~|lT$%B1zB-Xzmc`z1_O7GMrKYOK*KbOS!PbBFZ9!m6`i=7-Ci-|R*8tE-k38UCR
z!&=HZ#t-+$lF4CStfmb4783~bbXfG_J~5Iy5gUnP1}5;~MW>W>dL$}+fO_>a9U2-L
zO(l1a4#uV4d-_Lt%=A<Q52prb_;q5<p&?ASL@YXpr%%O(@M3DVQ;MF%Buey&4*BkU
z-$?9-w2|RK|2}?bFt$FjA#$es$Z%}`Fu$j7G}#yLJ`y&GwWa>-OPq~GqiBCpbe<d?
z85!nN$?oA3U7}05J91+9*gmmZy;Z-3XjjsX9m7oVc8#WnpOe;HH~XTZOTMKw7UM;y
zG^a=S*udabw6Rv1-P(CA>aNn<M6ctqzROs4SX)?2L)eN+ml;vodFDj~H@LJexhBnB
zkoWLXF+gG9baxDI$<Mxs-*Nr8Atmox9CyK}EiJ{<1_zhc59qZ|p5)S8)EEVx7}b5&
zFrX(m$x=+(lySqjJ|)93j?=uw`qADJHAi)KEDGd2$%U;wKcuGr@PFdEtrHE=!9)k&
zj+8N9M@L5}8cJOm4z=$H(amyp7sj|6kczKt>OVg^bWt>=hWY;UqM^Sp#S_*mng9#>
zFNTf$X58^xC`o^{6Mt)yG#VjX|IocUl^9t)GC0zn!g7hF+OLjo+OqlLrr7HE;Mvt9
z*HY()hgM$(_*u>1a3pp$){oE6OSj3@F*f@)L@viWMy`nto`KNF`M&r7e-Q6@34h5?
zB6yj5&rx6WR^Mp2-jMZ9=_ecV-o+E<j6SpbzPtAIYZKS9YqN{9eAYj$zvo_=v#xyL
zt)5(W(~xb=8YVYi4`lnM3{%IaPEG5kPEFZv#xuJ!`ulF*eW&;JXD6P`F3Q$q&t`2?
z{5|K2+^YTWbbV;hd+c+Z-ew0yfSw!rhm)cqIXKj>oe4H%vH9h}oTB-4feM#hQ60^K
zsD2C-#JDkS#0)GeLAO$=i;d{8{xJ7xU1?UNb!kIVA2keto=|4!xHey3Azz=u+obCP
zt%9-(bJ7$wr;VS*{AF`gN3Bayf7ta%zPdKjtRG`2MP<^)s9CAw94H~oN_h>@tQ>pA
zPP63d*3j~^wB1FL0HCWv$=IcMY-m+z=zOd%np_p4AI#V=D~xeQiNPT}qm-jr!C#A@
zNN9CvZ8$W{SFW$D9IK9h1}){cBN(fdmV&$tIz!9XhN9s|Q=@oAM-RUPkI>>s613!<
zRLgD(_E11`Gi;I;#$if$mIAg!%=|F5G)coxoe%K`5EJVG+TzzDauZ{Tvk|u3_@l@?
zkH6$^BY2sctKzD>ufH(y!X!WOQuesuYJPct(czsue&f08&t*?s|Jb{ZP|g_2IYRgC
zo}$%pdz;`|oZEh4-k^7wU*7YfnR9q6CS#s&nb`8c>B{s^ZkpUbxhWH$IGXJjoUPw@
zc1Aa|c;?EidFIN@s&BdP2J&r3a>q^zZ6^ii$s&7V<8@Yk&SbFJ=d7H|{h`C`G|zEn
zlbJt6-P5H+(*Pg4lw1IQX$;u%_y!_a9u+~ag2;{Qv3yj3iwERO%{L%lozzNh2@xDO
zrqqc(ZqjpUQyL2+ZB)SI1$A<lo=tNKK{swrn@@7Lbv^XW2Y_j$_|k`^k0e@B*G6KI
zzGT?KAHzL=oD%h^NU5CYDgVf#d3ZEMyEg%QHXD@r5Li%jWH=e2IdOR~2?U6L0i|EY
zUy{c5Wv*zmzuqv>@CE<NyNh=B>*0y;7goN!M-#o@(4I5aJ~VSx&Dpb4i>H!#*UExx
zo#0wG)0KB^WK-znBhr_0oF9xvV?%5yqE90%(ytwN+Jx9wn_@tXu_d^KZrq^bN<by8
zS4M6x_qwrPe~#<dztlhguC%dTpqk3A(uiNzzvee`<0gPa!v)%K$}W6AF6B}ZFH|Y9
z(yuZzE_h05N(`I1+$SAo0@`Sn+ZaR}&6+k=D^HYu(`JBN{TKil0IpmMTHB1)TJUV0
zQZjA%5{H_tsN2B$k6w&h)7HJ*OGbK2+I-#cn%T&`=E9S<aqEKj)+@D?e$%$7@s3FW
zpyT$m{Uk<Jhre;-6(wetV}^0_xb+GbHjnM=ipSf}^`*|o_z;57AmNK4P!m7`aid^J
zAd33>`Qc<zCW#c3KXi^C9v$i632yfQD=@Kp32rhV=oGySR&_)NL4*vR9VH^ip}jFN
z>W0Bb(LNT#OCs^Xi!sp-nj#{#jITlUqLVN=%sKW7(HV_h9_$D4LJa_<9RWon8pZ}k
z7?2G+L}z@szb_t<y2AIO2L5AIjgek1>LQ{?syr5z%Opj!R9LJp&xuIY8%O#EdC@)0
z1DDo3=Hg>XqBNwZlQbRW<w`#i2(K&kCQ=$!egtK|fWKrB!OPrV8{6LBweRk^Kdj0(
z9Q|(9Z08%Mf^WItTRt89o^RvbDlF7o!_lJA`njX894%UX*;RLj3LS@pjzjs5XA2$A
z3mwnT88}nzhn(JIerV?o=$_L7x;LBO+ka+u|7)h#9TSep{n=-yHwnSDGrPZM-IUvZ
zhMoujTWL0bXyt+}xzI)-un8zkgZaI{rpfhx5S`usdGp<9#+(amVzocykcZu(uJOj9
z>xZ(#Gi&eFZhZMj(c#M(eLwxc&-sq&e)@qO75;SIjG{>|I`@^}9?tmPrLB8R#^0~?
z?6I5sk*Hp7IX2%6u<<#7`xplvDM$R#UW3e`sErz8#;6g0Cj6OWCSXMXjZsU?9JR(Q
z@|`WJAE?T31G=dFRadVy>WJAc)T-}MBT-xIaXC&2s{wb)1^$SWaYyQ+RgbC1{g`ym
zW7557yVUOLm@8(Ku{-LAt@0BC&S(vIFzC}&U9TIMQN8FZ(OnGYtK|P!_{_qD&?vB>
zb6{n39|;ZceTmqWVg6#M>)4@Wk7&cDfmsZEL$rZk5Mc<F=pNyRFU0zZmX^T0^AeHQ
zk$%Pk5X}-{CDv)lsmSo<7|#!4Rcyro_tSo*Ty{j*elUdaS9CYHl#;_uSkl}Vu_r5#
zSi3`1LOYdmX)Xc?DP5&K<pRB_?9x1;?(QjNs&SPdKlXgR0z>g0b=QB&Q+i-074|Dl
zO={~>*yp4R`viBP(hj0eW7-4NH+>C=|F02gDUT>xM7SioQUN7~HY=r#C~bO69vzfc
z_q|k$TDsypQ>{w=g+)rN^sA1e`HorH(@?wG_9(t&gkUtgQeh>A{<SIb(l1h%mhO~T
z+I+{V)J-I`wtmD*`)0*DQ>&DEE_5id(yu0WO(|80X>!*pX{BFH?)p-y5<73atmFNu
zP0D@LR=LmklJ;LSC|J*@>C0Cb8O^(%+>1&r(O;%91BN19*SN5w=hT?7<I=^;z&dIF
z6K%A_rB&@tfi8+iO6$J5lyLE~3=52B2m6xzWjxAXK`>_OAm9LInVq2tQcVsCOJz5u
zvbPO9k$IviN|-Ny74iLH9s3;%O5kflJ2<S-;aD;R=4U7=@r6QTu8_=pMDmr6a1-|S
zQDW>^BiJ~>O^is`KpVpb7@iW5*aHeq5&?{hOWl-q{N~3O1@3W?A+juDC)6Oqn3tkC
zI(QinO>EYnyb-j6_@ff9l?{^EN<+9XEy>EEIjKPcqddWQ(SYy3H&V<<gUHjAk&qrQ
zHBaGIvf&b)TIedeN0Tuv6PG8HRjk*rYcKbKku?+<7#-^8Y0ZoF{oP$B4@SC9o$3+o
zr;eW3b1-sp@3Ah?`uzT*CywkpaZ+@hIJ)OZr0dYBeJ3LOyF}-SQSeX`v3)!bwqxC3
zvJyAgDjJh9a95Jlb^_%5C<W>SVV_sDMI!y+Bqt-0B*8=(6?&QBLHuWsGS>RI{i{Ry
z#&4on@(thuKY5w^u$r?~O;`l0@1C{s{e~rlhQmU`;e11P#`v1^KHcvX8usQJ_Ottr
z&4rGgLdVXcGmw1&xX)^P#(2-V66ng>?S;<WLg((Hvu-kVBYi!M+_fyX1Bg%UlA^D*
zSl?Kv-y+m+DF&AmTb38Sbw&S@VtsJ(`Ru95ogccbwJ86Z6)mb;T5MQKPbm4Pb2W=U
zw3+ItfbByM*VL(2cE7rzP#qSk!};o!#YLMwv>2P%YyERhF0_Q27ew=1?L|**!P6>u
zT3Mt`@U#_|ZbNBT)k6bk+e8KZ+4c7V8|OTn(^GH+1xN6{GgNS{6r3v;M#6$K%u+f8
zXUCk)w8Z|9Gdb-aI=PybVs*!Ks<3*OuzFXnqw8){&T|waQBwsJ&{Z{O=9aD~EZHb5
z*|@MqR*}iD4SX%bQZ)a2)<uja<iCJV)lr#puL2zZob7R}trvk25Tg_{90xhrBUe;+
zaW7`q%F-Usc1(3AFFjCc@2y;?vcrt)zz=YgYEWWPu*&YJj55|j6KEyuZ%=4pv_xs9
z)E&1Xc2Thw4b^4^=fRpbDf<N8s_wB$3ptL!3FA>%)8>y*(#-0#e1wt~#`EARq04AV
z1)6if_<38#22|VpDq0Q7*D_$(tKxH-(UbFlyjpq~Yx#$S6Ee=4#4CdoiQuRTGn4&T
z`|3pq%{u(e6D#glbkA}+#t?c5D95-C-K)qsozQ=Y`&HcyosN60&d6Qk{+;29jz5VC
zK&Bcm55}%QoS^Sm!}xGOfMZu8j9ZtamW4tRxDsvK&&7sfS4a3AV;dd|v>0(10etV+
z&S=i$jt=#)|AE?)O$dJSw*<>_)mv^~n{J)lIN5n)<MoZ%E%$1c+`jfx#uNXHKd1{k
z`6DRI_AN#nvgIXFuU(Wum>~Z-1Y$sXtweN2`r^Yw=OO^R*h&Ty{J)`MpQm5~LD<gU
zpg1j6(E`qB1iOW(KbzzSDMfcl)Lj&Hmqjb95;Q-53+YM1S!L)Q3hk2USex3}u|-cG
zkoT#YA0t55ANYf}{5Sm*RT;}<_2luQ!~Od9iS60ecO8NI)yt+0)2H5k{`T{Q_Aa5l
z>+bqL+Wy_``RZetJpf2G^*6%T!`ZH>&PjmKB@>p6F4LLmLypr^s-vO#zNfL^*(i86
z-c9{c`nze6u)eCyL2$Ob{;c=Qj_lrB-8Z`hPdL-{p2zpp6k=7@7M)c^fLiBT!MT=2
zRtwJ6fTsZSws`>4tzdt4&h*{BmapETw5#a$OtwxQ&s@n=Nf44mAfmm0G$Qe&lVX+3
z$(1>GqCL@fRnBCe2VW=IuZ432sc2r#XR#C>#|usClr_#oP&)9CxJo=xO*w+V7VwsA
zX-g#`l_XXew@3A_a%l@7lkJi9Ej?{`WtWC4R)G?tr@`Xaz}9g`N`=2^M_LsTj5{?o
zsniboE?;RUgb!2?jR!8)SF{3sRbj7`Lm__<u<6Nd=PnR?qU@4-3wWpp9cGMLqSiaM
zw`6K?+?4|0k*>5W3QpS{htir0DxIQ~DABj$Rg=1*=PE<elus#tfpEmK>*8|s<oC~U
z<L(rJ5_Uy(8k$b!rz#XDxQM{Y#yx01RKv!wlG(1|rF#~uPFqOO_*s40o32)bFyl38
zYlYNW@D?8}TNia=WNXs3>AFW|Ma_8ac-@m}O6kd{<&I0CSI6r$<60lBQu;DppLSnZ
zqV&7;o32;pJ3#zZBd3`+m1ZDR<w`sIc$MZ|RZ+L{t|x!Lp{q~*dKD;J_Vqp%HAFq}
z+C<%W160EdQ7@_EjYAbL?Yq!f>XQ;nL*$D!S%DtCQ?1Okaeunu!UpAu(yu&s{dfy^
zr{*mgj{JN*Mt_M=DZ4&ZrHnjVeJ(&67xwmAX>VV!b(746ZQaKZQ8(^p+PG8d7M}*I
zPyGV&y4Jq(E%`>?&O_MFb+ny_^<&k^&{-y#hGgz+C`r+tuwIfu+rhI+4W1hv9!=iX
z^ZyGfVVga)nP^{==#eSJ$JRY|CxeCrR5_v*Hg-2!pIn5e<$e9kA0N7V=_^~Z$8(|e
z`I-%dnq5N8u0qZ3KRzVw?w@X3s$*<&hVU@dr}97%ZLba#D80uGlsp*Kn!%`*M}VaD
z%MlN=;kd11!@<v>;$KYP>#6SqMx?&iAN}qNcXeO6Hs#H=Z7nox`|b-rohOv-)Ac^x
zIsCF~f7mQKOM77C(t^8-q_?5$ft07YyC~YC{O}0a43QDh+|M*j#_Fa1orih?I!lva
zIpU<4pga2uAJ=LcSNT<E5lM!kJ^XK>Tfe|DT|;9UM4fC*L5sCkzqjk?Z0A=FW&3ii
z8w#}>zw7=f|L;)%Y?N92jMd0Zp#e}DIL4+xg;6mKkB~x^cQ-K9i+czA&J7Rs#gFtQ
zF9Hj;UQ&<`8(2RQk^=q*ldmA#CNU$x3KDfBX@OKF77j{?=`;-j!&rAyY!3x5P|!ue
zuTn5c0d4jC+Z23>0@|thU#8#_2t)&+qq_ZKkkt*A^e{d(KO7zHPnB3JqL~zYhNAqJ
z=@IKyQeKMjN&a`~HlW;gpr0KBiSvCOYODGGNF|&D(3(;(F#awjErK@XFmwZA0|SHo
zgQOHy;^W8*pMMPn!;KR9On4lBn}UB!0YN4H4h4io^WUK0Hz@c`1fsp9v>@6pT_pZF
zlw(9YqJ;fH48}iC<y-`$VppLh*LMwEE{iPl6?KE64LUS@Dl!<oDq7HS7BO6k42p(}
z6kJANm6>mYqVXzv&brEf7xg9yjZl&IM<Nn3Z;^XB28~BWk!zv+phGUf(d_&p04KBz
zsyR>X>sKePW_4fq<b;uMal+9XZggDlnDXYU7pr)1T|HAgIDWl1WB)<*nRkxojvddP
zJoU$i^3`Y5LJoh<vE;t5>6Y!LZK`vsZ))ju-#y=&%%S`K^)oNrt;+k4W)9!4@!i;V
zeOq>Hx^t%WUd{T6y_v4er3Vgo!Lj6B$CCHzkKXNj$NNs#cVEcYADuWrnUk##>imVe
zHA3B*qQ@)$Z(3GV|2H-j8-jB+Tz%&}XRoiy?ElcmH7zZA>T|v|GlxMuG*$ggm2cw0
z7vdk7I9DV3SXEtcHAAc7-lC0#MP0(8u6JEs59)oH1NZA1vz>4BPp$ac@b~LFCUwQ&
z(y2?+oo|i`!S+d8v9WFH_|5i7OR>J;tGeu#spoQmRXN`(p}u|6@KMtq>H!dnU3>5L
zzq9VUZt!bbtFOBz4U;Fci@`ezHWdO}gus^B#k0w~dvYhw+zUK6X}uq4n|eOCdT&0k
zZ_--yG~B4VUX{K2J<syF2CjZJb$8LNLpKjiotx>r7u=9Javw}DPgAaC1FBa$|FBZ$
zcM6MkzU$igXU<iB=G^zd7cTfV3cig+e`tE|toQeP-|<0C=-)KY>HSriLm;G@S_{EF
zLU0d0!(``V-_({F-E1w&H0{-)P*YXr2s%N7U;g$v_I4{*=VzkEM80;_ge_yn5WDL#
zE=FF34Lu^)b6elj6ZR03cnDIiNJO+ph%G!Cr?@i`fe<S$=U5^DF#Sk2KoHB57zMgn
zDP96fpTVufmNlPZ%w?#yjgG`)JV83q7$+(AdlYraT+aR&#MBY&v00=hu}nCLQs#L?
zSwM(K@}Cg=<W=rH<2q>RtlLzq_Z6S%dg$)bnd}d0>gP-p!4#`)n6t2`m1}I8v$3e1
zYY0!T7wT8fIoQ3E^VZI}ShR`@t)GbsEnDYUP2daKtNz~0vi9p6O%2)8w_d#Y;v9$Q
zbZlndx4Xa9eRpwg{XU^%|2!qm?bdONmKNKVKXe_|nd%=n7(G2_q8qdZ0^aWH-E$Up
zYvugSx12Yfb2fHs=jwdfw(E!I9PHM~Ro74UU-xHE3EtK@RvS7Bg_Gb!@W*Z{BGJM$
zD*gCVFNFx4{|b_{lHZttlt%^(8mX@-X0Al!5hen8uoZ+3*dve!+Xn1R0&Il@*iMq(
z3qJLIY9wl}oDR9K19D#%lebm@t#yjkW#I8h_pu&cL`|eb8X1uEu#=)&78R%owmxiN
z46c`W<O}F};^q*(J5M`hnRFD?`{Sgeq+ue<2X&D6=@kkJ@*k>=U0{nD6ucSfgpaXH
zLv=%EO0LCFR*TAefE3Bt10m8te<!eNkd(3{h*H)<tn_J0VQYp)STvxVXh5$eNe6DJ
z5aT`lkV^jF6#N$o)T*R)LjxggQWE1$k`n|T9d}hi&_g@Yb9fA_C9vB|5`z0R%Zknh
zu>V!oJhAR=CW&?b(8<*{eR&&k@$c8PQ7M#Fc=)A)U$mB3H<C~rd!KsIAhXYQ6_Jm~
zjsc?^#FYAZ)ViPrtPoRBV&f_)sg+8|j2#GkPjV73)4=~7s^b423jP}cXxy^l-i)|t
zze*fcrkl@j6jk+BqJ0RCjWt#nV|mk$(GXKb&?55%Z&`0zr@UWtOt>=k$*v+G^7Gf9
z&tAyag){b|yM|!|_Pl$sgc5)WmXXFV?B?&I4*t(5_;U*CDR_WDG?H*o)DI1bW@z36
zSTk_U|9}dxS;er*zoc7gEdSRO{AUDOK>N3pNC6DCxa37d0BGmz+|t#>wHpCwAG+!Q
zWb1r$Cj0`b0kB#q2APj9t0%nU`p!8UrDz~6-4dYvdwO`T!)Wqm>uv>a2In|Lr<c6F
z>h`K1Q&gHJ^!9%Ish7eanr}m!9)W6rYf;?**jTDQ3-oDY=9s0D(11ZVz_gh0oUU>S
zNnb^Ve%6>>jsflg#yRCX2i{oCprR8{(Z#e{YND=K)rDrY)oKLVE|t^Wk4g8SCld7a
z#t>(1mhK&upMX|NHMCm149Zp$^FXXEn~986k>D)96HQ|hN70suk3@K~^<aQRv=4y}
zC<n4k5Gk!&nQ6zmW<|)>Z56&s8Mw8VgWI&}<v>aFlu|)rC1Dd-ORCz4tUjtTV*z}L
z3BoP_WmAd$iX64pl7b0<vVrueRj6P~sSHX6_;n;`fkFX*cG?P-mRtvFQ~Rn>Gt{MR
z0P@lkCV+YKTXJhqUfFvg9f4rxZ@&0<|6%IK|7m8&ZD{w$Mv@Ts6AcwMKUv=U55^9B
zlCYr+u0xVh+8hYH^YaKqTQ`w8WcMSQ=*x9VKWiC0VCa%)q_?sKEgGn1hXm2oDZu}j
zYGb>|PbgN}N(dZ_RWw25otQ)+StOR}<Z1Vqrb@F;-DMI4QixEcU8Y{M%RF$@<s41-
z{h@DEe>3=IaAy5I|K`l$_v%`v3}235cd=`t_x-`_$*C<jBYA&&rt1CLRmFOLvA(4k
zY*BX}k{*+2*kzFg$kkl!(xTH{bT(2+?FQvA(@rLDP@+pwPau*qS&2GbfN-cQ;0^SN
z1hd$2(8coWF*{XhPBZ1`wCRpcnN4G;f`qD%*}=FAGzH48(n?U~x>5_^fxhRqu~K)i
z!RgRq{(qt}9{Q~uPqZl}DckmplyIA}7Lw>mS|k#Jq1pRnMHI4MVq`CaI10&o9aSZJ
z@fb*659ePxZG78y+Xf-f>xU-}PmbrEONtGx#Xy+C+Q6KH3$LB$%wY)H&3=2v1?-nS
zW4&#isr`22w;E@U<U0@Nmp?1`p3S(5?qJRuls1n)#XG_^kKH8sQ`DUgD4-R@e@FpA
zG0k4d_$g%@=KECS@w?`aD4T*f_49uqLc6AucFoP(rHzv)l$u4@J6)bR6Mkj-gksn`
z{c|>o*|oc<gHoJaT~oF{dwOd3HxIpeDA&|3)OO6&3bh;NT$Ej<k~40)^$<1VrC7B}
z%+O2cYKfMqqu2?RNb#7O9yA0=cVo_kxQ0ZbyAp*$cO?Ra?#k#BN-B{jxRX8wjmLt0
zT!E<bM7L=7aY-lD2CdDg4wQ->e+K+PH+8_uc3CraSqP3|rVAB>SkPjvm=4;*3fjZM
zc10^zfn953$L8oUvV~y=b)p?ssj^)RBSiYo_YDoj;z<c!Z$*oH`qixmcNAya9|5$o
z?GO6$3#koS$`KXm1-+r6Eue8&k)o*7RXoYegX9oI9kxnp1uoR0f(2|rh8|K88%IXi
zs@Xi?0fFP~6eN))Z6jvMMpR<Y$!ou?+!ZR!fWNx-wQ#>&dR-b<75M)Kt&9VxhJb&S
z2Ka-c0}$^n29}aej<4ungj)didSX(5pvbNeoNZHMg0pjG%iRrNB@s~nqD`7(1fmwG
z%g|u3&+>Uh7&U?4@~e{iNhOgjGlWqGwNy)qh5(eV4D(g!PH<eIFN|!6MYCi@%fEse
zVYf1j?OuhqqEj;8i!j|aS$`s=0kh@mUYennDUJU?BfSlEgVJaS+_-lATA^W?(6Fq~
z&@MEzXPiaf5=9R_@7oCQ337z^h3$E83SAFMz%*?9A%lfqMO}k5;Tf48wv|KI2gv{E
z6owVe<0<$CwevYVOR&<+1)7S1VA0=HbbB8<ssJd#zA@n!S@r%o3&j8^8|G{ja}qpr
zQ7mLKHBFuV=8JEFGlS?%?A!5g#eYmuX@=07`tcI=QoiT>2_$KuP!v2527QbW_8AAv
z4Dy%&d5E4Mh*XhZ0w`kvlmVQAM!5}8#wIqGVL>OD)f@veWVg%kZ*aoS$MC5oz#=bU
z)<zYpAZ~dXU;(ID2w0%n{1p4bC_qNkkTNR$uY_>}@0IfbSb)clp$+s4kfMS-fD}{D
zIjNSpos#fvJ8q%CO6I9N>_xy<hfZTEHo|5$u!s`Qx*H`SbC7KBEzGKG-CEH)ICMEe
z#%c<o&Ct?Xnjj3;P@{lnXd%tACy%WPZvJ<gT+}{*oBLLmqVZVt1+p<RHSM10&R&}8
zpV9qp-S0Jhr|F*az&nct=aGj7eG8BdJ&+FL7bTXcXqJRH3&4yD{olbWpofpQNmnJ%
z!Vo$211Ke7%B&JBr8Iz(N+oGhlwCj<<!J*G=F<D^WyNqy`%R@<HDs0{ZNStufb+|w
zInoEzizcR;3=OXscu!`@?9xx4CqThn)GYxq6C@|_2OzUc;QNNSz_ClrGOrS!Wa(4B
zq72FY5EUi&<1P4xRW+~2C*nnCb$0!&XKp@I2&@(Yt7lT*9{<*OVbft@6A2mI_KX3%
zZ*Tn#$92cl;_1C_AGv+xo@Z;uRCL#7oD3j@WhrXr4|YM5>ppd%#7ucWw+u!648>^H
z@_$Le<59mF8VL&iBQ<tC3Im)y)EiCq>>lE8*r!eGXLj%3)7_lYWU9;d6RfJ6ihVQw
zCWBRV60D+X7QiZnrkqbBM+>V|jL9owOA5yTxDYIQV3p3exA>L0w-&%L3%I)G$JoW_
z30Haxt*5KkE|;vA?zJJT>}{Ho#1*ks<OtK7eA*|axWW;RIxFX+g;g=Amr(n`{cxAK
z9}6sryucQ#!C9&Jj-R<r=BOL|lWM%XCT5~HqL&^(^;!ni>##Ix#B$!=DFCx1CMx8n
zJ))H{PC)0E5zrFbM7z$(Vusf3Jdqt`;N4pe-l2?H0UAI<L{|xRK(kg?3A{s}OIOLF
z2byZSN?0cB9d(sN1LF>)Ly4mN8h0YSx;zymtP9#RT1?l8I~9_p!6eeKY*bw@uve_e
zGlD5o&W~4?1DB$2#I97M61xyoVx`}-#+Af)6>4>oEh#j=T9h(rchpE}3ek)<sXZ)N
z1zlLAlrR0JmMHPGLwOoDs2<t66)hb1q?V~=@b0uLT}5`#=$R?)`5O0Y1`z#b#U2TE
ztpOuhn0l1j(3V>Dd0W~}x=%^VVF+cEg$m~cs^wC}{@b8yr)mSDK6R8+?P|^L)M_Pu
zVT}?i{VMN5TW!jYgPPPYfW2jHsk9PH5hP^Sg^fzA^m}m=fadzt7A57QwLlpczW&Lz
zYg=~>?6_-+#jXcdy7rziXNN@VF_S%PT9s&>|Bj|f&I+s@XGzT?*#Y588Qbh9ROm7V
zj6S-G*w_X*|5=uVn<H}a(;+dGLW$92Ds(m$g2SS|cqlcjWUEGl{6A1FFCz#yY0xHW
znOL1fbK%=40!VW%CYc5?3a*!)Au<kzL9vn4dC7|8$COG~ujtTpQ_^*2JP(qdvK@=D
zbws-)Ea)a->?bJeM+ii-)M-&4A1Ybb@L#0-FHyh<gX<I{fEKQ16pZMS%;shLMjj6B
z%Ew0<Y<RbmsZg~K{BlZ5QH`tzG`6CZ*;p~7N+$Uutqln^Byc0KpfsTtQCwVxVram%
ziX{GDcxCc;5CBPBAoeQOEh^Nt3w7;~#x$)cG(96UJ(IJ7d$_nzzZ$~hj6)l(Z7tNU
z6lzyyY>>GZJc|X-VqhGa)Kc`pqV+`Of(gl}T!q*TtS82oZ!xhanSsoUxtbLavju^M
zf+hyNT;KG@2@*d~U%gki8Lg@bPT7Q-aK?JSdHd}1?|8rSQoi|FDjayf-ghH$Jpl&m
zqGeN~-w4jvIbicr%Ps1dJoI4==Vhij&C81T-x4miwilb*vd>RFKRr18v0PwFamCIb
zxvk!6Fpw5?JfuhG4Xy?><2A=zGv^6p2j6usW8PSb&OK0Vu-S9&Wx%;=>TayMzAF34
z8RNa`4Jd7SKe(n?-~1$N9hbM@Y!aMJ_n?r~x=U!?^{#W*eNV@o(ZcHe!s`9`)d%l+
z4!s{*UkL3KLOU~izvpa%27~vo4!RDI*#Go{b!Z*qMgGCc=Kbrf3pCa6QKfD63?lzr
zK0u|-wnWp1Y2p&G#*-w3A;i#NxPb&FSd)qOS8)G`YLIqPGJ@ZQttc5nQK<O4YYOfb
z!QE1Dw+ZgHf_tUlURiK=3hvIFwUZ%?|3B&RU9^{n<H-g6rNl>U(-!oXsl<7o+Tpc=
zdu`6TmUURPo`Yp{Bz6AE0&0v%dWKW|D#9Babh|<H?&T(RFI|LAJJQH5YTTrulJM5@
z3;s#a1-dGUjiV|<rxNoWM0Uwrg!w7&Q7w`xzDKodt@Ivf&zD4FmbAH|Clw=h<O)<E
zVL6p^$iK(W_JqPNxZsjTOdAsO1j;6=<@5#GAj&QUrvN5v`B&cuSb9~mdeF>*3b-)|
z5n;nYB1CyER??PFgTt%jE3;FFdHvcDH1y@!iuqb!HoUln)w`ioH?0TB>HuE`b_x<H
zbwS19O3$lbhHOAo+_IFPwkqua^<YagmsOR%aB00r-cuA?HOZR^by+f4`zpnDAP85L
z*bAa<bSMemjxjj-Gs9r44~!)X{DLqCP=q_c-y?kNf#)ECm&Ei;`9GqH_EJD10)7ty
zNId(lG9*V4d#;n7g;$ipXp%ohWpw97-4!4jWIlvM(RxLRxkzoA!5eaxCDtsoGlG3^
zJkBaFlZQ(1o_SD<$Tmr1<@^pU97MHBxjKwXGK)5Xb6Z`TvD|NHQS>kGOOl$Yt}lP8
z(6B~mSTp0zH>@i(Y!w=|&aR!klyB(D9DHJ-&e^l9&;yUJ;0XzyP_ecyTU+q25%9lu
zO|jM|VKI+Mp0}C2)jx*h$4`FWvR&YwwdTETf8q6AZ}_r*&da&#=IUV__Aga;EeyzB
z@0sX%W5ca&H@8h&XO`!dZM$22FR-@|cvc8J`%c$8m-2z*-*=vvTg~}GAFkn`=1P`s
z2d2IEs#j(#MPKOa-l?uPcTd&bbQgRp1>efNuN~~~=0%0(PNBJTraj-hD`$nO)2iv`
z1pkJD{~5vm%xquYzbjK!bT{R!GE136q6_vPqS4v@a~R(auBmlQwMbG@LRR?&zpnCC
ziMnT0UK3WIQb_Zwc~Z+$kW0{${7S5JeUxj2I2tS7(8!U!QY9Fxtn^BjyGkD5287cC
zdUB@tl=f5*%(3?PE4JrJdjh<MNbiKU9RH{28#8icfCHkeGV0?il)sghwGnP!6Oul=
zIW<hWr3yciiLj|lOu>91KT`COLs~!*Qdb{}B%s7E>$N{($f8}ek9%kXt>FI^uY#Q0
z%(a9CYXAyf2Of~wV>zx1J+Fd0B)CKO+BO&3_6u$M-*xYQK>E#7C$b&WTW9)b`01TO
z<JN+Ir{Le2_jeWi`vw30y#HY4FlzTSW;f;Bi*nXQK#LcsQ_C8~ped$Wrxs2A(zJbM
z-OTQ3x6rVuP`^{C-<hxP${Z-V{YnKA`;iILXf7)k@oLz-{&RHe>8g257)IsGE{(X%
zm^N0zdcZ%bFrU?(##nNPSP4(TUdJrz!0eP<C@S~zK1T{bY8lxTsIse8#$Zw^m#PvU
zOk??GN}DR}{hHm+j6K}IZ13ANy{L>4z_R<CivNwH?kHnMLWKz<iaYam{0=ody`FO=
zHAtvPRkA^k>e=e7Ms7pd=fW-I%Bqb!`>GW%g_32xVl`UgMFCn=;KnK66ZVwoKYPkH
zZigBd_>I6pjbv*FzcsSRX<YYOt&!l4%Bw52v!v_-o}{B<|7>#q92Z(k&ndA5{X-3;
z93a`-NmvO1XsGBicF!w_|L~vS&b8!-jW+|}@PxXAy>P{hI8?vE38COFQYD>tujFD{
z<Dm=&SEGsKD73YpED!k?Gn8ju+9Z6%I7B*D8>kxi)rWpp40inRT@BgFN=jTsi53|%
zf=(FGm^`goUP5dntN*B^u0v2yG)c9qz>gOw)o?Zr8?k{wSS>|l6Bz>E8cvE#w7!Sb
zM@-YTa8MT1>?W``iiR+-=Wmkb%T0OTCP<WV?+*+9@bvP$e;u|`|FVLAh2UQ?{Y+uy
zPGKb=8#dVY>lzDntAx5$MQ80VAJ6J0Pfhe>pZ|K_w0A0c^W*TzG5!2+_04)`qPIT|
zwnM%BZ|t6lrIW|sh~2t)^I~Rc-o64*&{hK(u{TigkiU<q<9W|AFk&1qkpKL)`%t)t
z#r)Jh0M^mm;%D;y9ht*0V42q6{P^@ap=m?r@Ff5Fp7%?|a*H?S{hJu5b@~gACc)7(
z<$c$&s2B_vg6o9fx>;Q=xGo>unmIzSesQ6Bo6x*%_He%WfDHEEuWy+$e$(-$<NNii
zCicUSCix!J)I1P$!y!sLg}xT}?`*1?I0BwVLpzu*zTk~3*RN#9^CYQ%;AoH>lT7K}
zbwE98nJo3{$^};E0~<5l58MGDED|q(=B#oNFlB)I4-wIdC$XF=0BEL0g0DxHvPdCR
zloz7L=o-4xSiBqL#S4-eTQ$>9)jCv6n;~yj0jR<<9=BkjgJdlc$}rch>~2ye#9@lO
z2_OKX$=gO!XAwO-jLa^_B2ie848j5|Cb|}QB)@GYkA!eG?jiG(C{x%@#IStGV{j}b
zTHqZB`#jGRbb@YuG<w@AaV{-VJxOAk!nIoxjvr8si#a-%>q&}6s#Q&to)As!0sc9R
zpVmc>Oa{PlBD_S&m5-H6ueD1_TM*|JaLGZm5rWV9#_ak+V2u!1b9YHDuqGckn6E#S
zaok_D<ky#ETz|C~>M<>uy_4<5T1+;fc1dR6{orCu^PTs$AI}F*WRAS&^k<h$LBzef
zh<VJ=kZkmO&c$;!u5BeWyI?0IYtI2;`UkvJQWJ&;N+#tG*OyC4PoYdDeL2wzJ3|m=
zscRA`_X?G}OTk}Kz+mKGQS1Q)?^8fvP7<zujAEoDUs*4`jdCdXKk=8O2x*O2xj;)v
zz0S46v`dGjSmT?su&7nlj<d0QJE_MxSQO5JWMd!cDd?|N{k@xI?b37RsyV&Rw03gz
z#wV|T@&gXhd4rOO7f9LbvL-U&q3m^P_PRN9v#EJ%-#5G8?4IKgojLvO7r*u5JVobr
z=^UoT#m1Ift8T8EGa&xJR+UKt(v4-;PZ@4*nMw(Pl{ql_Y^&x?$es&w-MS;Xhlb^*
zU=j9ZWPZfr8@5uVERHJ3ENI?@GIOVNHfX~nr`NrC^~W5d5?)86)sN9uF9p|{CuF+h
z9`ZEy{a#X|XIK;j$p*qV9;Zr=<0RlE6?`5U@JP59Ig)(pQ)Wo8%Ac~*Q`c-z($g5K
zbTeoF#|E#);)j^;{ju-cX_wjy=UPMLpf|ad-BVh7XlP_>=+yZb<SX#T7Q$wD7JgWV
z2SQ8?0?%mVSTPjq>pveFq%#CG_n5ah1OP5t)!L}W5Od<nOi$Hxyk&4}s7I}v)s)m^
z_m3pC`HC80Xob`aCcas4!=4qLBh<;r<-YhRG><>PSiq8F1kTP!l86j4WJ9cCZ<BZu
z;DPqsenf%cFYq8w%s<f`i9msojALn-;OLDYvPPp}6>e{H(gZm`S?4iJSnx>#K8KO?
zS?DpCO;%`?VhimM?5%lY>x1e*b|1NZxxI2GI=e5wVs|dMTd3ZXH|{CcHf3YC;y2^B
zpPe;=Y+ki1*St%p?Yd{|l3qh^_*Xg)&%k@#uy!8)1N&_MD(4}{WE>g+)K3x*5_4<8
zgbb}vr?a#QO68=vTBDt-@RW_Ak)|w9>hJtT3P=%Jp0un$Y0~mTlr=)ZA)0q=^6_*_
z0hvW7pOq({1(UBDlP_1jOt3G{8<#^~HnriK+uz*&t-$Q5yBqSIhjNP#3I4-*<Kd^y
zKB`?bOHe^H55TStr!2@&2=C)KBmM|Enr}m}5NVRs;@(0HbV=H`iU0_Hn&CBhC<@gn
z!hre92(+FdL^sQhoV|u4W9X&)7)rcJ{Up9Ec6f(pvOc@?dQ0BXI<;SLtjHNxu%W5k
zy3Ke<+q#MxXVgYV37K2iV!dcgz)7`e?2iq``D^9vt)gU2bAJg1euJ9ZC^y$l4(un-
zWCyNC@{T3bX2H>sGj{yTHkl_4DCQ3y1Ncaj-Owl;<~4181*LB<Z1dKMt&;=U%h!kV
zj-}J}f@5{gxSF+DG@oZ@popd`gHa5NJpnsZHpP>YGbt&)K>J&jIDH8(A&#F`x|GJ~
zEBl+~@CZ#RQ?4{IuD~fO&0<SS9DS`)Cun0;=A+cQ5Zz9jBo2p~YZ+Sdn7Y6RQA#Pl
z<Cc=IA0X)EbwN%s&ZW%@9H(eV1GN6p8m*6cd!?S($P*T8zmbi?Rt<N9HnOsdMoTKK
zo!{ejO&`EdVB@Q{Yuu{I)jg7H8|qTqV7Q3y$!~c|8=!_OwW6#Isx%Dw_OfqcE%`OX
z7cI}VK`%%i2O5PWeAh1+6>rI;4YEcn8LXvk&>&JtC3wLlk7D4|f@}K2cQ9&Wew>X3
zzy#_Chz$^n!D#3_&Z6SChQ@5GLRX|HII4_$YQUstfQhH2Bds=L@)DooY5C*eDnd+{
zKU2t3K21eFLjeIh{#6P-i$Js;>3TkLqU+S5qY`gJUQpx@P+4QF30P|MdeL|m^jKy2
zi8GlXe;tteV1MGte(2xPdM1%Km<(0G<X=8?-(t^foZOJN_}|zwWu7+WgB^mUW5)lk
zWh))kvG4Oc?nB>q|2K}#?3>+~Z`+;s?IBkf%cuP_F9_iscg=bKfr-QK!=miWHzG4<
zX3yl8?9Kc4!9|8|8F;2I2+OIA??C3z18*Q>E_(bK)B8^Mr1=f^w0Q<OoAS=hFYmiA
zCz+-%L!mzJ-1PFkqQ#jRePw)d>|IOiec1ETu{cYoHr(u(J}me*=H2i=df(H6HrKxC
z!c(4&857-`rj2hprw8($4HKrKt!lDvqAA<>u5GbWMdQ@v8Pl7;RH~vmdwJS;bDTXw
zRWxTur&2f5(`WLY^%>Ix3kD&(@A?t6V(Rqt={H}R>3w&}&ihrqTwwjo>6rtwTkf8|
zdm!iU&Q~4DS&zVF!Q_(6_MEXn0_NJar!WI581E=%J5j@cktxj^nYoVXRgP5W5dz<j
zLHRUhfVyU_wo)lBQ4YjngfgomW}ujCyyIjFnB))3E{4wZ@q=^(+=*BcN1PE}i&$TR
z97;fkDHfNsu(smqo&|2xu@Ooe`=1yeQMr7?Z8|AyKh{(Sg7T8_KQr7>hJ^$BQlriY
zwlHZ(m0c)78wb0<i9u`1FQirgdJL32AxEQB`3tPIl4_{bl8Uymm0iGBOob3yr*Yj5
zk`XS;2=&61HcQsH3v6*!;ZljkT#>;nRRN}PL=`Y;tamH61tYF1e9DjG=cz3u>tC(4
zuv&+vg^Nn{DY3`A&0IRI32j$}11Mc#7V&Q{=#yGnc?ZVu=j)TTtWPycjha3Y<E-o=
z<}zJqxw^O)v``%zshm{y=NffeSqn?*tg5QQg`aoSRV9j#&~}A^QtHstXN<k9?W))%
z)u~hiv`<ZixW^Gy4+yy9RM0hyGQmf7!6wJmbBbx8j(Iv1HPJXb@v#%kJhJ{1UDEk0
zGNZqwuKLImYb7OA(tI8BcBoXMT-~EdYk4ws6`ee|rHcAHgeJX6<o^)?Jbitd;-8^X
zX5iGM$4M@^Si~%8$ckR2*|>+lG}5%FR^MGp^OD>41?i$gd6MdNs(HBMee~WJ2_tbU
zh2(BX7LP_cHdAyedFNvB(ejdOdD4?Dm7yMr9`!A9b)rj6VU?5@SgR>OHAqI*^pSBS
z&j3&}HgZ71m?-B4TFjIF2me(HzDB`K3a(IpvIw*s=9eYXnT8ifl{{r{RCQk8B`oS7
zf}cR=RqG5Mil?OIS!`&=k5jp8T}w)(%|%6TwRKscb&Jrtg{6WO8VoUYjM_qYr-1)~
zop;*`yPp^EKkz)$T}2reJK3)Y5p`9YP}TO(pmQyGpx&AEt|cf0VR+RNp=!xPi@~)N
z(h!>q4%(sk8d}d>1qTIZuoQtS`Nn4W3z({(Zl0}$D2Hjy!a6!v(*d*p5L25CqI*p(
zw+`Gq@U=tK6#x4z>q=FSM4napv(yE?*EG7iMF?-1P2CIbWz{mzY4E(<dcSS+La*~o
z%cjl`4U_v#ZBu8aKR$aZ-?Y2f7|Qx`t!r})>(JIERhhl_oULf<qPA}~yxH*Ue!6dd
zU#^Q)L9Xn7=DOfWVLDpq*dcW6xV!gW>mjLH^5>)U9M<<RgCoEE6$X>}=yzFEAN_$v
z5LSKTx#=@AAHRDlzl6-K0%RoTmQY1`_r_f0I92*2>)uxMD9*&c<gUKrQFH9b7O2ND
zOGMyU8i6*mr-iASB#tGnF@Vky{O~x}oX!GdONqE7Y!!*RlcH`<`5}O{%F<^LMpi8w
z+wjy?ROzv0=zDT4-UqEMx99aM6IW!fJx<r_hb9h9^4ZQ@sB@-M2(1?a8*=qTA!Oil
zP4Vf|uN^zW3F&_RH3Vew#Sm)UtJZNt)WqWYS8d}Gnr%R;lx9SXT+>57r!c9;brTg;
zc6eyq0$0_L;>_#2#*+%Whlx?CCbD1-n|l_h8&g9GL72aXfb5ti^u+xuztWTrXj6VE
z+u1nft4MUIROxg&Hc{XX1LaiYxl%b+ldY7a#46TABth9#DhGZCr*QYo{2c<o3?AR2
z*qao5oq}ISfRkC+Oe0wxn|KR7-a7`a;OrFePhq|>_RLdfmn=;$Imp#K-cGaZJYEC1
z&7e#e&ex|~r%x5y_XzEK@*a3`d{EO+s97e|ESuKlYgR~p9aV?~bv;j8rmOf7$~>s4
z%^ZAmT@z)(KKT?rK7DemU5r8brQm~=B+W`5{C643ly;PR&;p8rDm#+URB3udRW+Fj
zZza_s7<ED3!Hm72fb-9+!SWP#kfjo(1jXhGxV!dv3cxs6oD%>;S#S9$mZa{I8XwAH
zWCEnzZqvBiCT~RQQBRP~cgqUz_HhTCzpMB$-eoTxp@?!DnR%YAlJbwHw}eNPUCfNl
zL3H34a_A0Fnqq32va}WW0V)1wBllVlRF+Fvda$fo+-lxi!HZVfrd4QG>b}tWXg#2Q
z7CoA(JTY#=2x=Xcmyh7d$|H#J(=!Gob|swuTX{UI{y!Yg)Bnuztoj9wXO-rwwmmxT
zIGY$=vr1=V!}zi^3m#X#N>kpWDZjKr{qD4f9fn|4=A8t-!?qsDNkKcFDd7sR%y|U~
z&?PbUT^+>9?6Nn8!J%mEs-%csOH$WSxY8O;;3RB1U@9uXe*$)*3DUC^k{Mf)s^SkL
znIE9oCn)$M3Yd}nZi-z*AUc3%kh;ncsdA}mVxp7175b)eoDm4+Fjfe*bZkpuDqXhJ
zuzV6GPVAITUn0~xvvdcI7D_#TMXZ)15s9oIyhf}`4PS(uoSmRGm^c@Khy=no(J6UT
z9v&DVofuaVsx+~Pbcf?KB!Xrb@<B$7sYDXHv!0a;iViBL+*B>7W3A}C8lm&A$QMMU
zbHUwOX_q9XMX3Ce2pZ8%yWU8=uRnHvIF4fw$GU#LjZ;&_CfYm?OGHmGu=v*Yo7=y(
zLsF*72Rbv|#pV_NwsX1<j$xbE%&hvIOLtqpyJ&V)Si5iXKxTijbvbz@n?9Rw?VO1g
zHg*deyWi;(HXapPkL8@r58Bog+BOJn8)nYt+qTR`3p-8;J5J@!JSXgUPH1~R=WM+n
zXu7reCTN2t1<wk>vm&?lKw<3>VeJv%(7~!qH>jVMP^LTUoj6)-Szl<`CbVqJw>&f3
zKg;J@c2h>SI_C^N2sXp5@YZLTSLGGc-9Iwuw^iYQmdUCq=k$5l;I)OPz0*CjUEg24
zWAa&Mf4E$zU4Gx!NbX&V!M16~Oj=mRTnDq8zT58E?ZUDHLh!)6$>4ANdxNR29;aiq
z?VPiq>JMwlr!h#LJJoMD-)^3Dy|epX_-H<OtPngY1W&^K@D1yAD|2rQ4LB>;9Ln@O
zxp~n1n{IvAzw&z5jCZEzZWnscRz3MF`d_!WP#YF%!#`_dEvP_htdDD6ObRl07QNkZ
zyJNQbowN5=9M3nMC^VfGnogG*+gz3Dp`%$_3xRea&_3Nab9^>&FVLOoz8?r_(uVE@
zjv&obcf)zznT=0(=bE<6^7lNu358P8BP@OOBD9^MM{gkVB#c<uiZqxlJzI8Z@zGx#
zj$FcQjr=zVaFJgo{x>Q3CIxRJSct<qX*nufj<Fp--&$0jKTivh>~08)B}{a=P_um6
zo3B}^!B!Uuo<&ogdCw9VTYYMoCx4C;c-=4dbCd>AFEMncD-WH8h7KMS$F}@@qlQO^
zX~34L19oHc_08F?FK<&v>xTQfdrFu0EYeQP+dA_7^#&THI1E;I6n=)9N=kJ6pHPrP
zz|KVfganN>o~D+6)JCtOHXfDQ_@UlvtNZ)f)wa41&+1GFs|>a}9G>j*!NYwI$X;?Y
zPt20{AnwvlZO(gE(Fsz)?C~$V5pmW`c75TnmOADmXyF1)2$j9?CwQe+69R}|g?02Z
zDz`#>#MUJ#w;I!WoJgvB&G9d;=DJ-{bLCIdH+i0dkJE=Coh@aTl)emUNRG8X^~-3L
zNk2)SCxx1R7G+X*O?I2$h7)<;&#qVMBE8Zojb15`E)nmCiQj$vX#DN`fNnoS0i&|t
zqZnvQj{hqP82<E^6nlzt=$C20C=js4CqITKNIBHQHTWO8Pm(Wq5*N=&QOT=2rG9Wh
zZ!md3upiNxymKGdJD@pvaQgJjx>?ijIltq~t=lWK?}Jg!9EY5D*1ePb<IO*&D5Hzn
z+xqb$^-=^*^MnqTbSk4d$Un)Yp%E@+3~(s}VHb-V5jVqC56MMsQ8T%_k>sE#M-Ij8
zIELE>ck3))%27(o<;*yg+t}-Xn7|ozy`d*(I8hv+9mQeUQ7>E-<4A0&UOWevI&kF9
z^g7uQ*ydi3T3%buHeij`qE@e(OSLU5VUO0KL^W!4qpkIb*C3ACqYa4HMtyjK?u}7D
z?&~V{!!}@!HX^tFvAF@{He54@gIcGJ-N*Rh{#cTZ;XX7pFuZ^vg<+RCXEbg8xfcHl
z`^NxUAaxZd=#YF_Ikww&en9bXQD*fHVGE9*RkOAF-epbiSWxiuv_y&6CKe*|{;e4O
zcL?r|oK;e;63rKJe$u&x$2k)3jJR3zWJG&|19Pt;+piK24wl-m6&wUZ^&7e`5sS|V
zM@A%P8NkVhr<jT!=%WG#R`kft1u;b9Kg{3OOMKQpMXpxcjsJ5bjIAg+-*`;F)r!7I
zU2m1UzC4p6*XITIa)JJL&9vp*U9(FO%ULBQ(gmMf?K^<>6Z#(24T4ogeXKMJ=(oN{
z=`6KgbW3WsY7_atDC?wHL&H&4YOMXqoh~arN&O~12YvFkOiKFT_}WvK5ft1z1ow`d
zb%z9PsDBIDuXtLT?Iaq90vi3(y#e(foZWGo9Ji5%vuI+vmy)t&`BZJ7KF9|}!&D*x
zzu$w2!Bldr^U3|F@W_{`FQoj0zWAG_je@&9XKk07{&gh7&v*hW2D(Ve%FJ%U2p?x(
zs9_ma+}{_lvW?_lNg4?LeSEdBUaX~lk}0?J0VI;RlqzYbN~wzQfZELekfws?kq23d
z_MvjoLL+-$g1u5pe**;`TmR&t#VFDH%AO*p7P5Q+)*3+&DUc(qhy70u-ckcC((TN1
zvx6`Vp(KAew|=kS-j}oPlRg1)Ku%#K?BHm?-6CvQk~jrySk|qAw_BPk5lL6eDcwlg
zTKpWwfPYBA4-lwpkJcUW;%O4j|8K~_w==!$0pvlv{8GOkd6}Rm$}TnE41X51`IlYr
zYG$d#;)Pc;^94eX$}adNFjrEdfgb`RzgeS&2cHP4mR)6a9aAMGg_4_Yh9?r6m8d>;
zfgS45cvW-_X-~I=$VHo1V$NdD+KE*SrZz&l;H%74(W`@%v9#UDt;Cv@ay{@e=4OgI
z9ty|3IF%BX8Y)A)8h*&CnWmtr2Q&V0%6tI*pP?_$@);9tJ6aZY@qbCFA_eUfkdG>j
zyqYxiN*aOuB0R%13`_5Udu}G8`+!Q$Q?PKF@$XSug}QOnE7Jx9ze`fsbt(7K-1UyY
z;!@h60MHnN?)OlY%qu%D|6UOtv<_sW5YbCFvfC<Y;U(#FDp<GXmm%PyCqnC6eqazt
z$dfj^^0K#RDRXEOR2Zu{XCMb_LUKQ_QE1+nZ{D0a%DgZv6>68}YnQ{Fl&`hmTP^rj
z!-!Jjkt(>P5ZojLH|4DUV$;$>(-xs=3%pbPz)^dD)#hRYyhyde^g9QpRKtd1U_~LY
z0dhw*0)xZ$Dx7GZ>B$~}e7$wWjO*^uz0hfRVtPLmo^jmmz85;4!;QCgvNyMQgHX3&
z=2G6f1^SQPMFnqI@P?;*1@9*Le!1XX4y8u##*FzveUS94p%7l*0S{ThWw}+)%w7^!
z?Gl36zx@x~q1>W%IrqApbsYmtDm)>mKrn^Dll6!^ZZ9BMpEi^{pQ@CaN!s`fd}&e<
z!~)^*kN8m>+AqwM&TID2_t$O><=*Y3t)jftSjUq=d3pK&L|=Xly2g}O$yjuq(7cXZ
ze&INR;L14**Rp<|Gq%{tbX1pf1jsNil(V)h94Ug2D*X!?&QnGzZNyl~FqMrJ&R<WP
zrLi(<#)>UK8ZaIRq{=iX4Oc0j1f8(1WNQX?AM#$sI0*7mk(LSDb<2x=ltI&Ot@miq
z)=7irVHUQUL4(6IjGK*(n@KZn&PwBkIzHMABgH?Q^s0JQXQQSg|2e=D4LyUO`qeCs
zOHfBj^4yJMGF1G6fgKtpnTsadfwmIVkfs@xz;2s5k2BS9!nkt4)!4Qt&!{Ip{638o
z0cl`hzz~9+La-D18aPA_x0qZ_I8MRXgvsU4RAqHEx0)4qCh96&Fh-|v_qbK4?AYqq
zRNU8TtzslgUW%EIVg8?JJ?eQo<{7W2$tF1sR{fq!pxh;UL6`9moJ-Fw^xMJz7u55#
z`BeHU5@i3cG)lCKVU(7xC@k$3mUict_6XL+8Rul;fr3jFeQibmQfc6V8!&J|JMgLn
z3sN!+k!r2XociUDI)HE!1M?B14O$tJBo&OO$^%O0gy1M+IP{d4G%aS?ctkgZym8}e
zi&2Yl3?L$^V@@`~#6qnNKm*`<15?<fm5Q0@Bd}dv{vfc?R#$%&WjZM!r*v$O7TrU1
zxF#)Y8I6<@N=WOYfS``;fmA|T+0uh!s~<nvD?ace`gEUs?5C@%&)A_-R%~8A-Fb5e
z`zY<In}p^~#o%&yaKz?U47Cxk*gVgfTB<Tfi9gjc)%dP^Wzkdjz`q=3{(k77!N;Mq
zKC7G9kv;ydqq&H9>jaL>eBkzD1Cu~88lqn6rX{f=;Rp<~viu?<TSe^P+@@j~u!z($
z&?J8nqAZ<g#AXS-zwE-YGm*<5MaV#NL}UJf*`d6Lp^^)Xe@e!@m?`ES{y!6(!^h|N
zzoA$O2{eiZz%#Z6`D&USWJ988F@BvMVAPXcU4XJB6`KM{{_jv)BCVLIt}>Zwskk&h
zn8;Ep{Rj_KWU#a}34ab)`oxFbSY63sbOKwoovUxT@zV8|rZ!D?<?A}&c(bl~!MzGJ
zK#$Ef3V}TeQARk|%(>jIW5UK`@JmI>EvtWf-OSkC&iuN4LJP>V;QQ|C9F%pudH2ek
zb>*Yei@HwJjoDm$Bxp<ubrmNM(Z$HAJYm$S$KbULT)+Y|;?v@A3I?kQH1K{(kTvYo
z&s+i$Wu!3wU-6wk3XIn7`AszX2bIxZw(=1uO<t3TJtRZvhCrd=8KL2s*>iWV<r|I@
z)V6V+FqXN;4lnCAI~&%publNv1dM1NK6?S8cgD1m=o%Uz{s$C1px|#&ivMp^)OdDy
zIL?!PnZ%r4L@`1x*)GPj;b8+s8<VssXtdZElv}%gkBU$*K~U}ABl0Tu0UQpjo-^xA
zyLHp`^YAIK8?Fp=rk&F`TogYP@0f0wshR1Y-TSQzGc7{6i!wUq%ofvr-2?EqO%#DF
zwKkAlH)Y6f7HZn&EG*5+*}aoBll_xE!PYo$V`)JSr)@Mgf8bhTT91e5hz*LtWkTbe
zjbe1<&zyr|IOWkd$I4aVyuWPfX5*Zj(!ol1XRc)zXMRbrHP3q~sYmBDh2-ieCRIl<
zyYi@m?r?sGYu-h%U=;%8h!5ofN|WACF{kn<4*UoKaN|)o#X@GdSJ;AcqTpJ=V>N}Q
z`sX?P%+)rS8fOf19DZgE^Yk;f)@fSB#t6UVLqtg!A=kW(VnHX49--01@1rH@3=+HR
zLzI-}75j?)m<sBpnD5NLizKZaAZDn<t$;LujxMa22Oha9C4g&sD`WvCSrVXMa7QwN
zQXZ_V1|U5E|C}Ay3TOC~>y)2#Kq_D$c>uGrvPPXK=fTm1Ho2Vg1_OJ_tI8UxP_Fu#
z8^;2xhrFHXJ~A3l4Z`-SFMdp64D*AS&WzzFF{>pH_!T$JEK(U%QwOgUdC~?*%7Ya-
zMSxd;aivPsSS9{Z)C{h$p18uW-KBNSu1cIE7;~uxNJ=@VtEs%Fii&=!1#l(RzH_j2
z`+7;i*8J4>lfF#Z^$UFe(-a&{m8|wY>ifZ`GgjhdMGeG}V%$2_przDB@+?wP`mX4S
z6jCMym0^Bl|M|6$N8P4U8<dzr?<76Qui%YL$!D#2^7ED_J`ewAP^oQI-dp;8@>naV
z9^?6$3HeJ~$TFFZo~l$ERuAo7WtUQmbYK<vYyB;(WRPbJ?fWW9OEDD-<PRcW(ySYy
zlGSj*2!5D`HOM%HyXnb`2t>O?!X{#ULwqAWOA7m<O(twpQO4iv@53qMvZDmXT0BZ6
z4^c_iV3Oo+sljuj!=p+5ZK{|l)4hTi4s&5#MFKy33+=omHX?C0L~rTsib|bFeYKpz
zx8Xsty5#U80%vP|d@PzIur4z=@FVd!swFQ0veOo3$uqV_p=&Av$BsvzXeWH<b7&yL
zHl?H4B}c6J+V%x3z+&U3Y}>8y&2XV{lR*FX&V~_W-1md6q^5=QmkZ9Nf^+Ge*xQNQ
z2`HB}!AqKVV%aaR%G+DWJ6a=@#84L6Z>;PR!MWtl>9=3H{Sqmnm6i3QEIbwAlwMXA
zUZz(3_L6V6f2$p38||4Y?2XMU3r!o~Ic?^W(6kv0$OpmpLU4l++%Ut>uAMob5AG}k
zj|;)$MQ8Jrp7g{(M*Hzxa8)6&P6(`<IWb#3b1)ykVLnHNz)_``L~UC+Piw(V;?H~T
zHN{Y8A+%ixZO?~xfHhepr|9jFGTn2p23B2Y*@{!!^DWz<B!}u<f$WR7A~z#a*YZu<
z1n0Kgj-!GTZwNj#>3vNZCyM#nZhY$cr>3rb^HXnrD&MdP=c1LIsflLrk)h`)S|E~%
z_NDqnJ81ogEPmA@(X?^U<~DyHGlv{OFqM%W80nMh$YD4?H847S-(xl=?Z${|=u*K6
zIhWMFOUi~QQ(dYW%C5A9z=@;|wyBs>bVcci5wwji5~Z9}+GsjQPBEGOx!hVQMNbTY
z$Fx>KZdh$nP|1PjW4GZ78u3vNwqXNp!<ruG&JpuSM-UyqOl_g05nL*#JexMs^NIyA
zHXQ3Kze&3F^gOw#ex(lmsi0vG2iB^{MbX9A2y?8JTyiU4M;Tw}(huP+c7Sd>z3*is
z#h&3_b3$X>N=_(~y4R{vyOp)Zp|%U6B9hvE7UwC+sF|Jg%W-IqBkf{6w?-Z8Tj1W!
z$tg~j0<?|pD`}fY?RQ*C+n(s)yDIIBa_K5K3bsb8Sgp=<6>}VHjk@Kx=+KW5s3y_r
zncf~4agwAkDVk+Eo+<U{0Kv&O7xSL2A4x&A8oI$l&=H8xf#hKW4kicJi0>enyqbb_
z1fpq5N*f9}3*i$KkO~9CANeHRvR%c+x1y+|Si$&h<PHK}!QtBiy1_1b;sq+q)D*nf
zJ>sN)QIg%0M4u1SYu`s%(ReX-Ey;fyiSP(Gn!tJLY}Z&p1y)kPwvJWwO6Xogdz!t@
zE`bBqMUR>+o79RP^=*ogEyIBgc$MUs)3d-~5}HU3c#;=YMFV#7D0mV{QX(qtGAyQS
zHIMY{sawq>Pn@8w=11tdBz>yQZW0`ermoIh5ti+^yYZb9zrS5R3Q`g}<$ax*L-4pH
zJMUbY_jkfGM$5|kp4usUHhs^tYPJoVL8wXsyR~gO=i&#B8dhsDv?z06@*reN#Ya;D
zEw{GZ+#;Rgwp9phEjpKG_L8Zbw0#NAb<=(X_nn@}%aiA)u1sGQmTkV<@QzRDI&sf=
z66tUUI=Ln1TsdV&Y~CU>XsbA9Fy~lS46K|!2<{8ix&hJM%Zlxtg?1=&?Jd@Zroz~V
zI;wM?(3B6F*x2KI!5sD@#xTzZ*L}ZX{iLB-vv_I`^ip#*Yl^<*(=|CCoGS*4HTBsQ
z`I<ItI5T!=Xipw2F55I~6_$17YTG~-2HU>gHFarf@68?4T~I8Z+*{nzb+_$1&B)Cy
z*&x(zr2F-Emwcy1O?lv3o`W%|Z)?G~Q}FG)+m-X}%=`8ie1`?!;k>UKX0UZ_*s3-k
z)S)5SmN|odb3LA(`nXU_MElO8NMDxoEl0*q%E&F*D%5U64xFv}1mD`ZcFwn9ZjDAF
zB3iMdk*DmWSg&0tr2ippZ=#D#wAI^wOd9n9QYr0r|A@%v44<=n&iXmq&!}|dP{^*&
z146^5$?%4L99&8KL+taG32P<NE@~oT;qy?GOOg1CT~SL3Er#O}OU9b9W#EDYq_1-v
zL^TfMGRuc?LC*#*lc@FV0@oZ?KLkNF>Hu)Qj03K)@aei^S9TK|%N1hBazSj?uh-#k
z+>B$SoIPW8+tUml?$Q_<q<2s<1CI-n`M<`xqr5{$x(@7%9P94dv+v;1?!Eg?q<1hD
zJPyOeR{?~%icdro^<e7S0?7h>2c}+LkD7kP2!l%y3v5?ldjoUTu9FT;V|xSZ$HHLT
zpm9f~Jrh(N(^7e5B$E2W9GnZ`OEHJaD@wa>W$&%!`{RVU67fvD=LrkrKpTgGKXaY(
zlM}F7Wg}oD(uWD?M4Reqjxnvn7I=hZ2pkT49>PJTL;W$0V(9~PnC%A4*d9mQ?x#KA
z0D*riEd%CLp7twAd4_@hr0A7wY&73pbZQq9^aa^bUGdn^IULKi7u6*RQDgx9Wn2<a
z_mfNzDhp)l0)LjNNQ@sEjIG~rIX-skDP#maDep<6Bj{f&Suz@ZY^}de@c&oPj-NpO
z)zCKeywK1A*xIl;bFkRZGPQYX#q^<EXd`)vZ`dw0Y{!8THBH&`cT8_PZ#(bRY{)q`
z<Z3n)-3{4I@46SgU)zwi-g4b^ea#JJ1*jbq8t~{wSoha$deE>Kh;|)J{o#%ILnqhV
zI_3Lj)0<7d-jZ+XoOw}b>YBt6R@8!;j+sWGW?Rm=P2$t)*x-Zd%)WtH5(DBejnXJd
zXn}>H1rp=-tN1<=yY>h4IhRsE>PZSoNZzUWJrvNF5UbC|K&8gCCPw^m%B5HGJro?J
z;1~jh?)wBj-L74`r0-V4BvcEBzoa$y7{c$-FZLz+97M$ackIVb&bM|lB^}n>DKy~!
zv$^$$5i(k(zP(tt>Y>Td3<|0d98l@r0*NkBRCu<n&_LQApv3SsopVN~ZToM71B##D
zP5zjESp4B~u4(nW%i^&=bRsrs{m{X=nu~s@i@-Uz(6A1kgL7@qykor=JpLn#(NzT|
zY}4w8^uQcvvDtt60f#74koa!R;;t=5kyK$B_P0>6k62@jD*6gO4On~??S$b2NTq%%
z!hF?<y#k9E<Bz^<*;TRzX8r{5&hjg2{F&cH)Yp^WrD5BZ_LfS}4#z#JQa4S>O4N{g
zIFzPb1?FQEQaxo<G$kw5XjZ5JP*Cz-4oGS3VJJ5w@tEb%-=g3d3K%xd1b-y+1N(<D
zR2X{BkaEh0q_37%$ZmRI76}pvWq5c9X)xi#sXP$n4JViyR#LPulfzh4u}3*WkFzC7
zHH$JMhM6#udPI^nL-a_3p;Gc=#mf*#560qA#vj7Di>0$Wp0FB$;w*URca-(WI5CZj
zZ#CU)$}QW31EK@p3EVxC-_o7;AA$S&K)4X-5CR?3d_I7a$$Ss|i#}@6_uV!3{T&7W
z4goGpJPkQNp`(pe#FptS1U3tS&9nb+d*2@1#*yYXgBJl1Bmfd10SE*E@GX)MUlR3x
zS&}KqmMrUGTWg!91W2MpJv=0BiwF9wi<6b^d|7HYIgx8`8QNTx=+vf;dzH#+D@iT0
z+0ANm$ps_G2P`a|=w0vCUFH6OOgg?zrBeBQJr6uIl;qk!?yf3RWKT~|cTc0IyXWig
z@%w61E4JMYu1*Jciou;~p3p;imYf!vl@?jRwGUc#cj<N9qu?(oU~lJ_6k9>P&GtZ_
z(j}8|v7OU4y3s&sOt2NA7|{Yk3k8SiZjfT6=}{`g3Q!sa9n^1si)`<5IbDO%zfiN{
z+Q`+BoDp%5qAp*qjA9U+*cno_g|7DS>y5z$M|IAKGjdgVr>mz=Os^1~O}R2kg0FXy
zW0_!vQr(iXP!c3U{^_R@HPd@x)|e}&B*>9!7Aq+B7QYgLo2sUq5oc5wYMs^39-K9c
z!R}lcC7C%-XU;+~D`%~m>JTmUi{*6rBJV=UYH-MKR!Sb3EeBplu8fi-@maE_J?SK9
z?j;Kn+1HBw{NwoL>Y>OH7GFkEvGgYf*UYN)#sD%^4~dEiZj8;amN1g*`GOp9IFG9`
zIlqB9bB4?Z)){5*8jo5o8sKJLmBS1kd1lA>*|QfVi0tj-!(=tfB=C~(1@A~b=-soG
z`NxPXzcLqSBS7`(u^J2ds9~~Th0QyB0e1vz5}8tA4FnkA1fB{Swd_0k2@F8!t2kiA
zu6_l;jlpU_M?pDrK{-odIi}A7w;d%~3dEF{Fh2+Q{&67|WGse>p7jdheelq>=MTj<
zYm)9to}K%4fQ~mEAz<SmD|=-3j-C4l)v_A&{l>VIhn2;u%GSr%&=f`Y@Na0HV;a~p
z6NSZDO``&1KZwZvkn&+A(G5|0yI@hjH8#<q5QdsBomrLSbKj<!`ManV^j?YH!b8{2
z>dU6P&YG!-zi^T*p{*)Y<(uxFetl;3bW1XHFzGn-K(DK)ys`_M(yE3fD_2#U&pT~`
zJFxDV@#&MvrWcYmFN(Go<%|n<_vH#US@sFvMN6PKb$0Ol1qMo9w6#=8hEwP$3`}h`
znL<?>Sm!-<V3I0T;qXTb=+I)TDjOH3)n)>#RJ)`GNkE!z%EuVYN4?<0)<_=6((|M+
z?-d9D62zEXKBqbnSWbA#*7D$mZEP7fvKBCV@uKNKK6R5TrLa`WhiMeI0)9khC`V0X
zEJ9MA;^~7AeqQVQHFRCpLa_M&8HkNS^CN$cse}$8gAk*DwznASY}gaSPEr~n4T!9h
zk;~Gkl*fKyk~9Sr4}IT7gQca5HopS3KwwW%HPNz8SvN4R#G^3M)Rt!Ltkyv_K^tS%
znV(!3m9$MP(o1`IQ7xEXa)J9a#r_P9W;Fccl!cmC-Wa|<oNhiKHXleeACwgjp|kSg
z?wQ?bKUv~uU;_J+A}o1e=GJWGr&oR$0dj2Z9bfnSq09DPtlm<Rf{#`Wyyvuw?)FSg
z7+X7XE#qs;S-6@GD8kfK;yYQIp+nA7&hnUQDj(P@iJ+*I2@2sLeiU|4B}4_I9X_R(
zv_QczdOswb7RZ!II764jwv|4QPgB~fltzI_U3Cgc?}AP!H`dIS&FSY3&Y8v5b!1~%
za}(+tIOW3JrfvKKOTDazfir$zkx~mKnHe#V40R{LyL0u-9THvZa#V;u@BXE7#H2>h
zqp={<pv>CjQOJBr6n(fA8hi0Ae2oZqE5;qgBs~f##8JH@t|!N)KpHWApgRgh1AMXp
zYm1M!<pX`xDj8u$E2H+P;{((8oXT==)D$a&`J_2o4FwAq&TeMtX(F>pWx;`(#)fEZ
ztQ>}uFushsPna0amlq(qwx};wp@npcy0p`!`VCPspR`B)%jBwCCViP&p@<SdeU51T
za^=u!Lo|py&S)rB6|)dmCK^Vpn#EkPWolN9QcckYly<Y<)q%n#$LUB(0xn^2+K4iq
zXj9CKaz43l4bf(#u8>pxYHABo>!Pj5w`^;oZL+$HA-WQ|1JU-F|A}&UAa}j|#2|X2
z6W1a6I;^%Jg46~Od>f<g=&ESf2fAhZvpXi2iuNqi<Lo_0dt;5P$NU<-V`ZbL?_K-R
zCJTqBZd&$ftCxAknpm^c_GteyIi%5Mj;;k!+7ewCYsGsuYv+}ERvry)F(wT|PpwCv
ztYje1?f4vR&K7t|edgKov0dkdr_RGG8qo_wBTvW9kvBBN4?(PCdYxEcr(qQ<pWl$q
z766`tyF<6i#xJl4jNi<!pONp|*nRoVMD57Xxs&5$0LN^6BO_;FT{IMpOt?#KNVg~8
zf=b4mmJ75&k3}tHl5;g_7A`G1;ZX1dWjN7DX-ZFIqC&|-_@R*rrvjw`bIo(HA)))>
zBovZSd;sFZO0}6LRGd|*SfmT(l$zxvlq*f@jZEaxSo0+xN<-0y(t0E4_Nw#3@JU#S
z3=#%B?6Xb`zg3(zI(}>v4!IcbjVNHYW!YC`CQADQ`d@qv!SZ_+W$z&H7nj|$6yzz`
zuRxJVCf9zCSM;7Ix|QvKO7?4T`;|P5>}L#TD)$w)3lnYo&y8GEoDvB^M!N(RAwY0=
zG^pC#k`*VI*uvN-8ITCSPgED#sE>^1d$8E>gqbQAaH<E<+Y{>xb`g)5WsKY@DccST
zKsIE8urFO65X%G8Z{C5}t$G(^eZ>i%0cqa5BUP!|qGrqA7{O$L77w^I4A!>jO%w6T
z-t=bB3WV80uocpA#S-WK5YJY=n(!XSYjF*=RQ<p=<h7J98MhEmDm}E60I`RK+lN6_
zQbJDC2W4U!gtzgM4g5k4{u?9UO=GI|0k#HO%6x964dn70yKm|R9C1SdA~a-W3S9wN
zl|dop(GG=rDL~kZ7b2{KYEeq&wLwr$ZSR<>)`l&FTAS1c3Qq^~aV54)&aiSne_keM
zV?KuxTP7#5^h*xyoJGB*IvImgQTe^$H@lRIp#8uN=KEdKW$9@RS_GxEvBEX_4XzPX
zWP9Nw?KW%CHU-APn(qS?r&{l0^Fq%=8BdSR3!RWB&Rdbsd%_55Ynd!<MPHMq(Is8H
z4AN7xftxhL$xOG>@27i|SpFP0kCAaCJ5G}YXvy)tN@e___f`DBi_o7bzLq7lWsuO?
z_X&SQJCXm5s<JlOV3&QKvBzzqJ8$5Q1g-rR<*6+GW@FC~$DV;@fDfnQuRd<hP!(@d
zK^V}>zO(?Y=VD(8tg__2gvkpb)6G^%sj+i_(ju)AN^?nj)Y6<%YGF=E5!0VXQx`Jy
zY^L8xzai^9OM2MsgP|;~)VgdfHmS0rjO5<>*wAr2Jjxs?N*2~HQ%z(@D!ffUmdI@3
zcPaKQs=z5JuACZ<M$u+w+IW<5Fo_$3Cw~WdvrhExIA{&&r!m!*`m;l4VuK7TQF4F_
zcbvmSmr1HYqrxS6$abpi41%m-<ovml*#H?<=W7}ULtj=UIu5seF-4%Kz8C2wu=n`S
zs6O@{&1w%reo$PSgrQ!f%PGlX83<9)=KoQj#X<a};jzKNKKd4tk;~r!TFG2-rA#z?
z?wEZUr(d#@PCI)=XD<w;Ys2Z<RbuTbC>i=&(*8ct-<S6968*c#ELz50myy=7v2}!!
zcKC;cXfADAecQHr!RgMGah3p>Zgu_O%%yEX(H6W5X84iBt8<4^?)5MtzFST1WGYkD
z{h4q-IhAD?=-wsR&8~%+F}s~?U7M<2w`A1UvzseWVQ?!CK=5zuy|OoLYlBs|deI=-
z8q|xTJERH<?6zwgu5OTPU6-m}pNCzCWqY`p;lnex=k@SUnzn5bZCmh@2-Up<;tnu5
z`ly0L#q8Lfaxy!C=Ih?8dnL`+yV&jT_;Byc-elXBc~{D{s~}<1&9RhgM?u0eIUbao
zLRE`KYq0Wx0kNq8h)rF7m|K1B<ec7|4rx${t*Fa!$g)(!^{)Lv$M-ujjv&O{){m@E
zZ0ZFv`^UCbXj^YTi~Z*FdgNs++MoH#2Yd$Rd$~wSLnT$$Vo-xr)wV{EKkmq)9(kos
zY=iiTO4-4DaOC_+V6tGjp-Gulk_XjfroCps5G(@WnL_4?)lW#|DZcEbI?vIVrWKY+
z!GJt(4~zD2+TJbNyXQJn_N__tR*A8~1cRg-QAEP2eB52QLwwvz@4;ptY!p&%r0pLm
zs%UXX6~YeYs`!A&=Bssi;Q%~dJ+d6c3Wo2fd{d~bXyS@Tfxo4EO5oyH<>qRUhXsOF
zjZZs%6Fxss-!$a`tJO5w6FoS-^1B8LsqDLa)C5vQPC-9#r%B<j<S61MGn;7@%J$pH
zI#I#Ip>Y2hJT){LoLCbCdMs&=j0TxjO7O(+2ta0mkk#?#sbTVUIvRu<&|q|!K7sI_
z6g+k@*c*|Ay`;;pX!v8u$Xb~cgBGWeIU{W|GbCJiSE9`ZQ`r}OiVRu(g`udlfbXUo
z^!Y$lc^!PFH6wd0RczdgZMfm1l-hLu+#vKZfNT|=So4HKwxrxRjoF)M6dSWPSF*gG
z6k5!)-Pdg*9BB_gXXP7jUwJ!auTO+Tdqd*&+xFJGHNi|xLt@~@zU%u^jeS76$Z`Cd
zUIcEq^VQc@<v6{w3bWr6OxL!EweS=U8_?Rw<$=#?J=eysjsqJs?Pw7lEwko7b<S=3
z{`NUH098Fd4$U7Ry}w(|lw)t!;m_36E|nQPm6r#=ne+u@*XJ8=dQ#r)kS5#VeObno
z>p~Y6ttJNiBpNM?pCMRoHF*bWbRdH84y5BEu1+f#1!pap2ew5rVO)@rHdZu?OO68U
z8r@@NMu9v;YlIUcRhfguEpIbUY&{qo3la$t#Gt@dm_Fd}=u0@p!B$2^t&;Y~GJs2P
z=v*`ia5loOf}iiU$UY%J<B=&du<>mc-b2R<S14fSBJ=oV!X*l}BY@QkG{Yq45fYq(
zKrbR&TS`1Aqzk<fr~^s5Ks7*bW^gchs)ZUqvFS-ivS#r=paDIC=e)x)?;;U$v01(*
z)6_;@Ji?#>7Q)Tx@J=zjGaVif!vmRWf4aIstZv9ut+=-8>MDHN8g}!GoW21XLiPC0
zhg)v=uKS?h)xR$l+Mf=+AckJZ*ea)Zh#JD620k_i*s4yL)TGQU^?0@%6r?hFi<WuS
z?!g9Xst|-zOWa1we^hrWzwnX)AAVx#5#>*E%D}*W!XWP_uwN$h0xfME<)eXph70=)
zARsJLv+lR7*@T)ot!csFsWj{&APCg-3jnd7re^?H5R_@bO-+^~U4vsVX#<XZMcg>5
zkDI3S!nX+3KB}Lz$9c%kUqp{N;*PlGOe;n?rrV_bTp6yd>>7Lo<a5NCb%Ib6w@3Bk
zkmAHEwd@`8yfNVTcNUd0Jff7Ub%as_%hX(^aNUsSsDV5iIP?2=Er6>$5`4T;DGP1i
zf-&<-zYO16HCa8Tn&QQ)mE4oAxGO42Cs;V?#x=9skW<SiFeoQ$;!dr;h*!nk@tPAV
zk%4xvGjP%J$=ax8(i3;?;HGr1{F&@Oz&q)iTv5PRQLQqf7UoBw2A&hxlTU|A=Ruy!
z6=m%K56Lp=k9(s=dVf<q-kCA(A!6!fEJl-clYz<lcwIaI9}HNz;`P#bGCUcY430G@
zwV!TOV)=7CsPxQfQu!%4NUo*K$J1>kH*p!Y#zXNi>E5cj+8@rP%+bk)$FwE%$hMTT
z*3jaML#s9MAlegF$g9(jYDwc`S`vOtOVAeeIU4;E55_|UIUd!LCP2BVJSge6QCQGE
zEe=#eyfNN%QXPkJKaE<Y&ESlBFm6b{#xupgw+G|KB#)a2R0bX%H#RnEv`5b>rA_&f
zg7xM9pzh{^HmbZEB{xQ4v(lb_{38p}-G3k>D_Z{dJF?#Uzpw^VM_0U79%r>vy7%6W
zuZa7|_;|AAv13|mC2D!(c%d1GwT%v~xeo|r^?vDWp!FH;`*Q<#ZhyggoVTL<dv34t
zyZORduf-#+h?c{)Pw9o#Qg0N7g}pG@8gD)Q*e{D#f6zNTjqhmbp|0a?@zyvb<*Gf5
z;Z4Od2C=qENwb(~@a{S!sTVQ$pkB1R2yBdg3A1RS-8F4*B#TWjKmf=~q`Rc*&oh50
zq<qZDM7Me4$k5qi(V@)~&p#oVO^QBeh4U9;lD7Kbh4Z6Krd(h)q0~7~v^VX4-r?q6
zzv=wbF^Stjjm>W=B!y|RS8VeOBs)>vY|5w?Oc81)+AOgs8MpIY)FJ#+3iABZpHW#0
zZC%EIF9SvClfwD&3&$=B`>5<^^w6JBu%0frQ_M@T?@(+F#nw@<gDzjA;0y&%Q9#D^
z!VUy&E2Ule`}E`wC?L>gc1tq5WGdgpP0q^Ob%lW{XtX%%AORlwkBlK9gB~4&_I7^D
zz-&Gh^((M!kDnPlF>*3%WL2s;VHXNB9sE#X6WWutvN##r2uhq)TrTm(nU|cbg;?TJ
zRMzfdP*H?N#<nS>zQxR^Dip~nYm0E3IwOT3YXaIH?5l+5C}kt{!6y3AR{B8_Q>7q&
zsv!PmwhSf7Lr}KtloEMUju=^`Su?3;4#MImTOoIlG{CYhY1}CzZV-D__&i^UHeeI^
zgom`(WcEUuqj+NLZ#xgZO{3m{0A4|%+u4$K_K8lo-mJ}3)FtazC2d`B5mRNoYyv}M
z^@bnp`Tm~dmi@^C2k-P9N_h{9eTQau0GyzGru{pe$-YCEE0f;CnZET;lyAZ1A=WRj
z4#?ItB6=fWi`2KK>o<w@n}Cv4h;f=(2KzJ<YJevGr{&&nznWRu0fW>`pyBfVPrOZ2
z#!R&*>F>G?Th8W{SNCV!zGR^5wi{RNQ~MWO-sx9wyV~bg%^wzf_GDa*5(9en>5pA~
znVJ>TZ{M!zoZCM?CicOhPT|c3^=jA0uHIZN=WEXSxQ#$3@ZW9dNH_F}4SjbV-lT73
z%F+JOtK{jX@~VAGKXnw`??5=QGF8_J8z|t_IcLtoU^Eb!0%B@&LYUb%3-HFyIUWd(
zQx@=}Wgb)Y?3tVElC3*GcI?VkpfaE@!D-O`jBmx|y?0md6dm1D71I}ITRvN}F1dbB
zYR%qTL$}xLCu7m)p)H?wb%?Hxlq)jlyzS~q9zFtIyt9_{>OzU9;e90&=$QSQ7+81p
z>8Wi~uTO^-Jl>4Qo2-k7o`@QO5Tdg`VV&9o*jR7iL)(lkaWv)Wy6>%<aZMjfgx+6q
z-&;RZlh7shz^JQnL(04HzBf2i`@T14fwrDjsi8zw;=ua>sho9o`<yl9-SGHA&cyb7
zp*=TsC552w=x&ll37)zS%V)|HFU+2tdo$Sx^V+TRYedg(@b}#{`2Fr+0_uZ}-`op;
z-Neb1yHlell68c^t9FAL$@hm1{FTJSUxa$5jh{(i9JB6}f7SiE(9EGkI5G78*Y4Lf
z%p6H<pS8{%6<fEY>bBmmYn*xE{g==)-XMBL^0YMTOZoexQlZ52v(EQlmC9{P2(#-`
zb!#49=)kNlUua^kr=$>i#@i;DcN1y|L@dA*Yq{B<Y<()_-!cD&=zsPLz0T{)wQ%9y
zTtw*}awi3@DF)Iv_oLH-Eillo?|}uhG7Ijan`u0}nDRu@o?g+@JGX64NRegpHqo<f
zJ~aP)$}?~aJ%2#y`4-gm0464DcJWI`b)09#^u|<eD|odwf7(XUr$63#<C*Kv%z09c
z>(h-}#KtZ2{CrQUaaX$WS+ViiTSHiVQjLf1*baY&hr`2FGTd{MzeA7QE_$}lch4V7
zd3Il}$OJpnK{#LSP6d1ChQwh1e`vTll3Kr44DL<W9}w#gr0NgSDr5I213gJQEP8r=
z^ZDy~&Ub|WP1bvuX%7FJ+JhSn|H)T-h&L2bF!+2(3|b!|%Q0vbUlP0|SS`ijuOix{
zSoA!x?kg<k#YOAD&mAST4ygPSQXUC!lIE~P!_arXsQp;)CFc=>)P8MC59q-vR3`!9
zY6)-1H>H{ff|_^uizND~ED+y-DGcaly|QmU$iaKLVPD?73^t#iqZI`SI>;E#Ul7P3
zK#?pk%0;zED-kEuLkcgzeFZqegvm2ZcCj+%E~8K;c0FOYKBk@^_3?hz$CwPBz_p31
z6N$)Nql6;kt^d$B<4ZR7%|)>+U9MaxuO)dzbuEiP5F5$38!~lmnfgx11zeRmjtnjJ
zoUM_)q<?7dhv;rb%Pa3EpP&<dMAW2E`hL_LPx5{wb%)>n{S?&GMepZ;@_y=@K0G~h
zI@z{)-jE7F5p6~0;WrdWmN&CEgvd(vhE`@8`yYBk5=5usFoCr>qAjp_4Sj<30ASLp
z$P?`;JtUiY)xus+d9{G=z<D;5mPJkt(T%c~gvOh;$q42qG{^AT=wLkUaw%RIlH)5i
z51G(tJzYa23IH^nroczluZ)`*uZe}=oEtS!dCE@HuCU}#cAv^G#4ZsCwahMcBeJq(
z<0GB4di2tmB>@l=MxLcOTUeNa%O%SDM>K3nb46&OyMzWK#OMZX*c2Gs|4jE;O>DjS
zm$-y*gt^LyojnFfFqkqiD}Pdp$r_p2>cbAZvMy3UCZ9P)D^VfV_aik;GzxE};XQ}u
zLfQ!et{&vMSlxBmOhV4dE0YQSwmp<ILx&`^P#aEc7HfObwf!*aziCLX-7T)&onE_N
zT)RJ2`y8}Uyme`Br|9j30?C{ii;yp}$SLq%9)G&FU94?~OUZ#$?as@#1-CctZWi6m
zY4<wOy$)cw4$rlUs}<A7QjSpKsOVTVw_bE?x@=squSnY=XbmNrZggDl_*apXy*p{{
zX6qX?K*_ESn<t2wv?tF$$6NUSlLs%D9eDu^CZa=0&7ZY|L-|Q2O*l5yG}z1#E!F00
zQexUujd2OsRAcM=PicCvIc9s}IYvrp3~1xw+4f)6*+#WzE2TlAh#pCQj|Po2@r0jI
z=359JIo}G#SrNAW6V11R!Ut%+iRhfi&$mEZa^)5=ur(dnDF${zeJX9M0|t^r&qC5#
z4{7WQOj=R{kfvS7+*@CH+AUPLzwyeISEhSX6@f(KjrQy9>F`z&e-&FZb}s-pDtrJe
z2LMNf4|Q9}`pe;8c0v{r9P~+{55nRUf@|C`Y3q<c5u7dpUx@N=fB_}L#krS*d5anW
z@x%OWLGY`iA%l|oHwXx=DT+_a8$4n#dBu3fJ1jklN*k#3dt1SDCTm60J}5%5)%d^A
z2p~i;B(UN5-zkBii!szNoiI-cKc*bAQVNldSh6K(ondl;#Fn5z0tBP)8?j;}K1-7p
z{a2u3$;ypRJo8&nlMmH)iU!&1Xa<?;)?T(QnmJ$a^6mw&5b8EzQ3U{1Vvp#GEVS%R
zjHO%liu8B*)(HetR$x6l8d=sIw;h1FLe|^MX1(ob%(+o{&ciu;Dyls?M?KVC!Cxb3
zd32||TQySY8U@84<uOQf7%qnyZ2`{%Oy1l`!+_C2L`%pLJoRaa#8vtL6oh_^p3e?o
zT*&QW(kycArKcJ(e0oqPqnEI>aax)IaaFoZCb<Q5nv3gv?*$AlJq8!{BFu78#i_%<
zxlM!U=M?-34HEvGhLc6&rm~$#5(!y%!OLU|R20frvONY75em9R!97~-6m*Mxavmcn
zKNcPA_F(=I6a7y(>`Dv%4vnzu_!%_9woDyLySIq+w|gF+^xc=Ozp#5j0)xG`0Zg|#
zj6ZJ!Q=FP!d)wYXj4F>9=mC?ep(Wk0QEb?F^J}Sw-2hU9TkG$+ldHC*+O~?0tw~1{
z0R*j0eT6cjqbcXa<8m&}(Udex`=DJgbs@ml{4dW|pTf=#=&<L{zd`t9jHN8xL01YH
z3Vwk=)loq_?<nV+xFBm1>`3eBGbSB*lmbaP5oX)kqf?a>L9(iYR=fTk`xvbl>;MK8
z_lJ<R7AkOR-KE_x-0|oXQ*Demz2u7n8>`|Ufr0lE)Gd6Qe%0?GmbFVSQ(CaVcUM3K
zNKvVzu%zNl>o^Ufpse2f2{Jyhc3sKCzDWb;1S<SHd;lGsEtD+p__x)`)q7Ii#ANIS
ztSY{9EuyVu)^f+zgU=gfX`OvG*|F_zwdZQTSiN!<D#C;x^_ksu<xTP{YjZ<QIpb@|
z1be{(bF`G;^=B;#zkC!L_2(cMDA6Cs*kDGyGD&b;T{F;5b^Rig86qU5zK2^t1J)N!
z<+w{<YNu;{px9aleI(RgdPwUWLwx<$kIL~?pT^{>W%*T1Ywrgmf6d>f*-o~0o*)&}
z(w~6q(<J^XIhM%@Sz+mc{iVFdPnru_tg&Czt}||im9-8~1#<sFMNoYN0Jt?&W`TyJ
z`8$RSW^NSZM!p_Kd^{mB9W4VnWBOzGRbgQ9z>~$?HSfbLWz+92nkn3);4dklMl<0h
zD3ePRpQnH%g^~s$BTuYS{8>ufPQd}JN(I?TfR{B%$ZnG6w^6cOkwLDt9?a;QN?DUu
z!E!8zk}iFYNH8V*3u+(J6{okxmIoFvsz>+*(u$mQJc>@1A2Ul!Lo3>jm7$9B!I@b&
z)3_E6cOF=b3?v$moDTT=7R#|BbTWoylW1>B+uKEZJER`=$XsW-XQ$Y+bACwd8Mtj9
z$N*G2&@BeK=R#tjZ*DBz|E$>mY`XuT*ncp2=&;y-L<}66D*p@^Luam@$+&}w#&meC
z7+#wWZx+Lw;chMrJkIU#Y?1bLiN3D1Z;j|%!`x(ciz{T1CGg#9tETi2bgf+VC*F^|
zb34+&TI<_$>#1b#bIBtw+-ZAp%5cZgykPUCZ6OiMS;HFIJ?|6O?n{RE-?2TXXkspS
zx~C0kPrK-8PkXvWPxk{(@3m$s{W(3(3zaT_wt20WE1>%8fTFKo;=_`%uJ+dVdAx)|
zZOXW+)k8FvChbJ(zUtQq#pMHzw`eHhz-ZO&gFd(E?9hb^F#(?&GO!Y2XhhZt{5BZp
zGNVlOHq+szHfBxaM;uzUG@mh4q=7;O^8j1Gp?TCmDRe~s-`HqDRj`(Eh7)}$XDe)D
z>~4umo#>zIOZV;;dv_=8;go$((!59NtrVWe&?tmYP`0h31d;;u7h}U5yC}hV$re!A
znhRv?1jn}LqvInn5EA(Hm<a;uO$dL5zR8v!9~l}QJsTT4bv`P5O34cp{0>bMC&m5=
z1=}h3B?VJ-gYk~om-#bFBiX-19R7Q{yGWNy6#PfJT!A24Q$VooCjQZG_T^$bl%ktQ
zXpbx3q@9aIc@ohnK^!w`loYarG^P0|pbxu1!elmoCFkj1qYk6DB>b9g{1pP)BXL`$
z_jitpP{89uIr>XPByZ_;p`^k4xyj(RV#8SB!6!OLgZDv&HDF2_d=Gq_w;AI-Q`3o0
z{F(tC7B+q>8T<5QLcN(#S0=og{q+Da&~II;c6w3FoonVyPMF)kH_a@R>*+ivpKtcg
zyMDO-bC$NKSF=5EtTpy0_T)I6ZUV#*r};x)&?z^@8;#reg<Ai$_|<sMNEc{}gex{}
z5H0@2GL}~9G6qx_GQ^Ro+H<YrY6k&&1wi8}P-Jw~QDL;s8Gm5=zAeWgI`3MfQ!cPg
zXY5_5@lE$$9nKl)0=3lmlD<`<yDL}55~!lf<KKv1iBBI)+JmAcv}j>Bb{TkMLt^KR
zf$IY|_Fvymo_ZQ`rb=UF#uLctabB?0CmKad^P&+Kx#045?8ctVitd~q=LJh;$-|6D
z&4t}^7MwM*AT<|p!WGVm9EZ~_{5+g;&2D4UY)y{CDcLu0t557hD{+zQ<2J+f5CcB5
za*>`)W83Ey3?R*OZR6FA3P@TI;thcAEBQQi^hOd<v36yyoG{aX`5DepIr7)TaNoYL
z(^Vh05f*2i-4Dvc#<~T(6jmqV=v<eVU6s+5nXB)a+aU(l<}7q+<qDp#NM&;ayw13n
zPYlc+p6k77{E_X4wq!3*o_C6kyK)@ey48DY^yh28WN~RFVIyC}RA|%xjUN+Ycq@pK
zVUGI=*ES*Cr@3;S=0+Sjvi9TWM@C}D8BkSZ=-6?A)<9`~5q-&E^0Jl_<L8bu#T^DX
znl%COoYokkpCm{<`qB#jj^-kX&DdfBRgv?;@l%m==h$+QtyV50tTu*pk+tUI!cS2L
z5YLCtoxd<D5O+o(S_&Q$g`sn!_!49N8)Zo7*&r?Ck)bgdO;W=nvc2bMM2MY)rjBq?
zAkiQ!Pm8mS3|$1o6A@Md(L|Dwend9Xr<E{U!%9dgk^Gj7LH}SQOVvf`0mH|}$6`@|
z`1gW~g0JW6gMHaaJcihi*(O$m(KLgxw_?Y~(FYOMjM2ytI{giX@*&hv-o{7dWkm?$
zLLfe7HuR{h3@$_PAfG_Y2!Uj_*_KC?fa?!*<Al@{GKtG}YUP%Gh4iJ2yvaNh4~~xw
z1CoKp7<8eicMAH9)Y9b+&8J4B?TiGY#6BuPWD`P^*IiOWgo!yN*UAl)!S_%GN#sC7
zv5~52qM(@q((=xFHS)u3jIx8fLfltsGJqe(XmpJVq~e^dV2Pu#*T-Q}9An>{tcRts
z9~+Skbw{D}b#_Q-r-ya0%3>0#F^CL&i(|~h7_MMwPX{+Ifcj)#v@XiuO+gO@y%aDq
zg?+BcK$*M_kg=FRs)>vSAo7F_sb5kG`y38XY(E7rQLsS41q#?VS)kZoQ}DkiFw=~z
zrl64mk~0hclNJDyXbOKzu|t$^f-c{t;1UH_Dfkuz<id?%Kr(!*Y?U<2VuB*_IWMs9
zYzZP(*1S=oNj3|WSX594H(HHIPS5lFgD#HW&HsvXe8QFA=eDJ|ZTGmk``k*ATlp)l
z>J!d(k8|JW>XTgkeXj8y*Ys;{+m|{$ulvHx@eTL5-g{j8J+A8>hxmqj+}ba72444o
zL-2)_<Dcg5ar^IatG?73c^!7#yzWaI$8Y2F*I(dz6RV^1KDYVT-0ClNCY0q6d|Aoy
z+j)^1)cUE#HT7c35_re-z-s2LQ>)p+%^^A)&C%)R_>ba0jKdupZv~(6IsP#JK=0;F
znKIkg<Co$&7KeA4jv3fFQ+j95pS=9h%Tjy*xc5j~Fj~L<@}-v-jfm&E%zRa1^^J|!
z0c4D*wBEDmE%*QM|J+Ycs>;<kc<<c79Ea0<?;@R+nn!ee&9w00#hHss9L1MjHTrqy
zbk&F68SfH@=+frZeBE>pxg=QP5M8>!*YI@--3`li%Myp^Qjd*yC!W9Y()E{?I7F8M
z!#ZTBy5YT!8YqrBZRnds2i?cVGr;*)C%Kv>lU8cZ%Jc1jF>RXJ3tL0JeXg3FZdQXx
z;M;R%o?ivrQ}@gUN?t{N>~JDKb~w@9u6)@psce^2whN!yYBxFmu4#Hu9^yg4*>ifF
z7s@MhMx619t#IVZC}!s1;?6=bD`Jb3duf0lr{5*qxOn~I5=Zf+3&z)Uyfqo@S>h<N
zw99ymt{XQbHy#!nk1TO?xwOaFNr~%|8xDz$hnF~9<zC}CU2BqerTG?-Z^;-!8A~|h
tj9}-b(=AyC%J{u}#$fvT?n|KdLy3)ZzMHQs>RIw)IkG&Evarwg{{zS^`33+0

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ernie45_vl_moe.cpython-312.pyc b/model_executor/models/__pycache__/ernie45_vl_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1e9e8138c145dc70909946a6de3659fe94b756c5
GIT binary patch
literal 27968
zcmd6QdvIIVncv0xO#plWBta4cpWssxAEMr}^?s1HBwL#>aZ#EVlt=+2eF51L7mS_M
z+fW;4O|{L6>Uzg?cBiJsZq0PtS!Sl4c-uef-R*R61!aNU(z9%%ZO7eChmPbr-L}*I
zzH=V{Xi!el{Lw4%-1B~X=iKjnuXFI{E|;Cd6El8i%KQq){geXgV^%zm_UJk84##t2
z9IxZ`F<o3grq_|*5HrM$V@BpT#!PYZn3?%aG0T_*>E@UvZXL6-I7`eHw~yJG-x_no
zonubsx5ZrXvazzbd(6$k_LwK`9rMP^$I4mQ5vzz-j#V<hGgcL^9;;@4SIigpkNKIu
zELIb*9jlGkjn%~iV*wWDj@8E-#u}L46KjkI$AZl7jWxwXV<F}*k2S|z##-X7W34P)
z5o?RLkG01;#yVKIG8T?^j&;Ic#aG9=;@xB2%<qf!#CykjncpAli|-oS72iF!JHBUZ
zPrQGuKRz%v5FZ>H)Ny()S{WUBPbWiiY_Fa>#ql+-b9`;I`#pmaJIrG15F3bErv(-K
z`L~vHKg(H<oDE-+^8m})h@8PM$$60FY(mb^m*hOeayBDpOX-}^-uH~km=51Gg<I#J
zJ~J~J6{0f}(Vp3v*v;SxVQMBCynH?wpXH;m;KXcvZag{lVk{bbWh!|!c>4O4D^oL9
zPL59?B06>DYBJIL2~`-@N!ByTs4$MK@SCR+v8f628J?QCIf}P_W(Kb3Ss|Jf#?c0U
zY<6aH>I&j)PbHJlndH>$Ojs{Dj*U-Tjml|~{c<c8SMup4=apzOGB+2wBFtW&lUgW*
za*0_X!ulGS8yCi7v1lyv%B&FMBZ;YbYTq$6GnI_QX0Kd{3J8{6x;idI`IFZZQGR6h
z1Y#@~M=p)d3h}T(@?JQ1`B|lw^XTKaAbBoE=P;7-WRzE8yccI*Db9pS+~;SnOeGV~
z3bPZ@1iFN%@(b6;F{*ihZ+1o-Z0!kQW-2-m8H`*$e{nWBF5Em3e=*AQ04hdbrd2$0
zIy%lv)t6@{#$Qw;3v*WS(aG`av1CM^1q^VUj|x&veEjB%(TEU@kIzM}y&OqQjK`vp
znejM*qT<X9W+)!zr!bu780Zq8(88wyX#E<QjgFju7E$&~*XQPD1&r$1uo+!@c4R7%
zKtIoq-$Y9l(Hoe^34oS@k*OIzdPDL}C1{4?az-{I@hIAq+T-KbqLFBPE_oAK^Sw}J
zFcFzVRkOlP$-y$RIunvp9?hH(ot(NcA+KB6RTeS#=x-tXZJ@p=H>Lyn)AJ@?A2m!{
z3p309X@*9N<9Xe@h2tjmi`*no<?F67GxHf=w~kpBxf{AM>m?3j_iDhod|n36s8p6<
z3n>!4F&71lCV+so#{{1Pe~<RS`JV0$msHRT$K5idxbLF(yl#q1>HkpoJ31Yg(xteF
zR{kaz){oxfupCW^>!@3@MgTIb;fT<N>cU3Jn25$ESwJ#hdu3d>l8|hX$V6;Bk%&YR
z1e#zl_}bq*+n0>b_03Jq^<bIdYw5Xheeb^EYkQ-8v8fmP=58jh&d&6`j4!ND{(ho2
zq7&CK334#e7iBATF!FK?A6T?^?xxU*s^<$=unde|wSyx_Pt?Kr`D@&U)pg4vTK%Fm
zv^;d*8p<_vFB*Srt$T!It_WJxVM4TzQg8@bDQ+6R?aw!x5U;^8pPJIC$UCXQ@RlA>
zwsC;0nl_IDm$)b8xWwJljfM>ju0j~uCClWj0PymN?4q#lhR}m|f;tNT3%z&?G{y5Z
zUsxc$O4$ok;1C>uB<FBv9Sx$RA?@hQRrs<MZDK{+%1fDw@cSq3ox1nT`cs+i!(zqZ
zwDa)83jgiBw~wss&Q!FfovlJ2HMJW~*hcGtKIlk9vPTH@UB?$5k(`mpOV`I^N{R{d
zIB``V`am*|usm$`Sa&6tvRWphu~;N>PbUwHV0%;^R4X+{&UySLXxaVzb?#HW-qf>l
z{oNby+<5oZcV1nu6x$Dd#v$%=tI^c9#leyLNd=3()_O$H^Jo)J;n!;8zW9%?q%W8^
z;LnIZ6aLs&%A2D`-V!xM%~8vwz6LcZ@mA!p;m?kAN7TwYqc$bQ6}2nAvZ$GN^Sa3Z
z`@TK+(jB}v>YT1cHQOG(e1~{<>G(-AU-7zetc>9cH}FN3<SSkd+Ws~wIj&Ced~}9w
zPLgfrdOUI!cpjLJyujCT$V#sWKNXkk!t7i$lDryCj!RDFCyWjxEV(Cz=t~i7c-SFm
zhmm~o@f(r3*~AoufNGUp1$7JYL}Ug#TqHV|kgPAEnHQ(V5kEm&ZDfM&!;%xLXC|qJ
z%refE%-F843o{dC1wbOq#=h5ohA)?4H!bm21-?6AzxR|F9hXE%eo`*=TjX`uj$?f}
zlEA&&(`IzMZlNqy28>8}fjtaAYV{;tYP{OYf;)xpJ(91Dn=b6HT8n!gp99+Nz>?OV
z<-P^1yF)(U5!9#cAt~VO2(XF#pj5f)&%aadYhTBhDtAgPXuF!V?Jk|OARp^vvPx}(
z#~4euJdggqr{F&Hl;(#$DdP=Y0wg=ZuhdAX9P&H0{M@uh_2=Ix>(7T&-#q36Wwp6L
zu4*+c|9)awZH`Lk;tlhd0kq*(>r0ss(t4P(BIH%mlC7$bjkZLO(TdihnwRP?2~&H@
znR5Le#~XiN|Gw!xWo4ng3bkaCb_n+DSZ|3wFsOm)Qfjxb+Le`!+O@e(Sr$AyK*h>t
z%`y*ahG+f-?=PIQJW2bP+UpYiD_s*HZQ{*I+Jo3Ly-W4w-|DxR@}|mDo-2m;Z3R#x
zWX+!Bpz1?Q+Dxi(Y&J^wsv)08^`VARE6$<7)(+S@3i?1~341_aIY$NhTm*`{BFAq2
zXx`RKsBuo1od)e?Borx}rd(&>oSe7x&a$*msASk8*%*!{CWDYP5%Pqv1t2yKg~t<7
z$pvC~COUf~l1Sc+MI{rTyg7&1xQxc56NIPdO}*pE<V@Ho9HFL8k)t&l4lp`|ZQPO}
z7M&3qsdk$}aq~9>A}j>@ekFGjeTYT09Yr`yvE}(#ZF4bTpO9NSN?FV=$(xY{8Q5qn
z$_^tug=97!fo4kHI0!ldp+CtigF~P-E9|8hFL7ilTOtoug$#BhfzYXBWTUNQ^pxCt
z>Sw+?a-&aE+%a+poWcomPLfj$AK`h#NtWcC+;MX<LZFq*SC#iG>@5>FmB<RJc>ALe
zag4A9@2jz9AZ)c=TO)73iaHXbn19f6kAs}8j1jmGthF2cLu)Vp(SZ-W|MbX%%Jx<B
zgUY^-bc?oJO=!{hMp>?|ZPEC^>fb0I%9IZ;T5^pY6b|Iv6<K$)=x$!QBD#Cly!YLE
z($+m`_nur$eYU1Ytm#?vi8aGi#b&6NiZn6`G9)@eD_8D2dbZ45r9WHIDOPl@{)SjF
zu&%pbu`li1m#)~iW#uaCmY>Vk4~Y0*l(Z3OT+yuzWSjSk&HLA{h|MQ5fs<5wP0k;@
z??1EhwYB5ffzu-Xx1L7huFdM&J2SUuR+8^7yt5!y4<OEw^VMa29ip#eb>M?T_YR3Z
z>ZTL1cNT6htni|*lZ9(r@N(zc4^#au5B=es)0cC4-W<6#f>+iV6rDllX%?N$Id4s_
zrZra`So+HHSJM^kkKNW9JIcErS8~1%E&s~EyNBL6BszCdUEXS~$Zw=8S|2;iJ}Tna
z@^Ix%i{@N;^_`yEJuAD#@|KlX#qy!`-J<v4&hZax2XYu~{B~R!O0MNV&RdtOZQLmL
zWy`~2c{o$vm8)x78Co4m*X}_V>!>|9x>(gfBOARnN-ueUZ=Sz(o=s+_Skp-zRfqR{
zx}q6nt5Ej4Hbyi{HkEWsNG_E~OoC5OOc1T5KD1Xb+6z)OaJ|5Rr8pwJN@;x^i*>=U
zU`!dN3u{qoLurl1QX616nAnDG5Av3Xy#m_&eZ5M1d>w5pm=??n7Ub6GrF=!$nN2CP
zDk@`rLvG~ND3*e}$eFUJc^9zPPiwSBK`v|2NNpIY4HURx^ppRC2Qmx;aB|opfHdR4
zPD7HD6zD4!#>k0~^S8-)0Z!O1W2GoXOu~^2*bgLKMAE$^>8?q-mn8>bugL86<lOZn
z5FmReun}{4v{JwnHtvK^6xQ&cpkU%#a9-oK>>O5V{q6eYg^ai7mU+>zcww`=>Q4A}
zc=@@vzjpU)t1TaN-|JpC{>b@5XF71=qdiMlh@-bGi@L?#i{ro~Z@zl#)#aP3O{*6&
z?!H?_iU)eY_c(QX3ZMJ#mGMk<$D(7i(tqdN?Q<)ROl9{i+oE|%mvdJwy4Vs7+ebeM
zzGLA=KOtoK2?x>Wl~1q!bn&16{Ndq~qoWcR_6P$=5oi+^hTupB$Z{mpB!o{%$;eMl
zBqc*4DG0Pmu?f!3#spdh0@Ww8pKPNr%d#iNiwgTFZ9kku0sncBBFXs*B|sug{O6XF
z3%29}p<M5tTw_zNy(ibuoU3Wbb@k=;4CSi*pVnW}ne3ZY{w))E2s`?=EX-@=e6?FP
z=CyMb)yu})om&nTbaGX-TQ24;1Gtv^R}9O;gzUuXt}Qo<_i(lKTVCcZ=R&Pp70e5q
z6xga_-fFJGx8-AAKj#ar92cuQwrW_omh**I2gK^WtvVJCaNf!-*3Yd5&R+IeBa5BZ
zmzk<JEBtp3-afcxf**bN*WXFqPHkBzWaaGcHv_i<pW6_Ud29mC1pc&#wpV%{y#Z%C
zkIg$2p4zDJ!^Ws-QkHd@Na_XN+ER)h1HWB5-U=SuRyu9c%G<#Y+ZjLXz}M*fg8Xdu
z#HeJJ`OZAGGf{|(=v!xaE(Y3r8;=Rza7P}~pyC5y0wXAD4eKQ}e56sTT!hvsd-6PG
z3j8OpSMd(7Cr%ahpcnF!(v^Y}a;WeJw^fRxSTN-|xs*xkC1F28AlsglnQ_R0q)$!Y
z!Go5{Njyr*1lRQYTCL!0b)|SV;AIQXBqzY97T!!``GO63OGrT$>_srKAXh-`Oa9H9
zi4S>F+7%6!3-**<Y25*z+`1EGOK{V2z8%t7$vhXIB%+u-(?P{k@JcqTf$0|2mw)rt
z9ok?}N`};&(`~9R{|1MntS)snu?h&&u?IYp;~L=lBuRsC7OfNMx$V(L-@PpXLE<16
zTzOs$HI(9`T!=5hr9n<&z*+%s#5>-1zNhTy=r=6|_RLs#TJKsIUy+qbHvSQOY(&C4
z1zcR|)}Jt^yyMAGReI<G_f}TWKaG1!(tg1nd=Dgh-S#|bK9NQn&9-L;2tHwEfK8di
zX}V)uRR}6`M^N@)4Bq#YuNyGcc-Wbdg8AEN6s2ZWH%;8qwx{$=7k$0uyhB~93VbWj
zx5@(USnFHLmU0%XThLS5?6de^dG^^?`wPx~)wbCWszd%2XP>qGYnXjy3{RMSxh0zY
z>TR>%q>kYx_y67O7xXRc8<nb|?qQOIVigyYnao$o#9MGq(US&AXb_xl4^Ab5SA-}y
z79p6tIz9s@8iY9FMTBQ3gNm9gDCv5c*hQ+KMr27wbcUDphr$Se1a-tkyyo4##m%1#
zo0-Hw@)ju&WeJSJF+qu#Cn%&cD0;6?kTx^{O=)7jyf+D@rK+)uTtQzUcsY;8Bqt3A
zVsa+7$XD^)ysM}Tcm&!BBnQb^lp#sbwLsS@OEX?as_=JN7AVyrbBC~gKFTVTd{L-l
zX9beD3xX{EVS;!jV3MrRNVDMI7<=QfIWR5MQbDc1ML{C&^4*)S?0tDE!NmQt7Ltt#
zkSmT2hw^eHCPHF@6DBtj#;LCsNN&K|2vYgg@kFE;>@v*V>XJ|fEf8T2{rq_Bdh~=K
z%nDLfem)bBh9#95CH_Y8GO?7b`H)q+vS!Lgnr)^amL*6grXYsijTnmlJ;HaWFst|r
zQ!c!QG^U~w7+@H%NE$48zc9%H$$cdgb?}<xEKC+?zNCs`a4{fCWyO(Ux6B=WgPJ`}
z&KYt@0wpZL!Fq=JWjmDq9;MW>7E6Lh3Mj3VOcfaL{M(9aUyD@xg~D1I8<;HlBJp{i
zKP6wG&}+LkclLxP?)ne~6aNh~&d(w4au$fY9+HeJQ`x6UxHfzTGQLBQgE%)r;nlYE
zp0gi4l?jceFI*Hu7iGa!T~oHMN383ikbko_n62F<*6vz#Z!|Qm^ko_#`KsG=xZgZ@
z>tMRJ2ePe=@<6V<ebxAZ^PY3%8(W-iD4Yuqr#tqod$$Za@4-g~Lq*vZXK<B)cW!FW
z1`mqCgK2Ahu5~|TJgtY)&^WgrT)!Z;A4ywVat$rnhGDT`7|m=nwC0@UIcHPORgrbI
zimujGo#+a$4rRNJiCxD&92dJzrJbiAS&WT#WJmQad)HnPoA;%y!CdR`x>syHfZ8|R
zRatkd=x$vZ7u_AJC$rs8i``FuxLfQ#ao>F+Z9S28pV(**zngj|wc+%>dG6M^W!>^n
zwr;mrw|lKgtQ+_jCw?^Y!;uHhvyTk=4hVuEAltHXp3Zbnz5;+G>j>R<gf>0ZSx>j<
z>0Z4cdivJdvU{Ep@!#{zmVt9MJT`O91K^CafnG7tn+x?rLY1xS7VElm_2FD?aM{1o
znD*_?HMTr<S(?ihkN?=&xK++Iw=W)l0H2w2Ri|tE?>qZ*o|<(1;C;{F!`8tZH5n2;
zA?9flJy2DPo^Y<JcB4M@_6v7kQ0q=N^{0IUsJRU_KX8T~mvc>hxyI&f;~ueb59`(*
zF|cQCw-^|Nbni~=cC4VU9of)fF?4wSB{B3AI+zOtsosw6Y{zl2<M@Xc#Ew()2<p?m
zzQ<LLCf5D>$F*D&!~lhj$YV!+`^C_H4FVfA!IkRO+O_91H3!rluT(C*3h^6N^}t!b
zRmpj}(|u>|yU(PpXVUI7o6f3q&ES0}Kmc&;z3<ukuzl|@0gl16ZwTP%VAZz(9L)fI
zVNZV@;GhWwIF#80IIseW8u_Kcp;RTy7bXdFd4XVHQxHkcUW3j$KAyNH5KAJQh4Tfm
zBnj~zt%5y)SW-8Q!1f0$dC7QQ#~4u)QZ;rxUzUf^P!%vP=u-M`{zghajaIflDqAm{
z0%M@D>-k)$T@wN1W0MMb&T-Sue5~q&XcM9*dek=)TFL@WO)V+sAQu8o^ZN#^x7H=y
z%x5Y6lJ1-T7=6}MmHGT?pO<vPTgag)7xOv5+;h_!Q<;xf+nCk_1O;h|cR`=hyTRZm
zX=d0{N+^&wkpY9wl@bLARljHrP~LM34nV<1GdiuBeJHKd3$yve@hm_fkYddDuT<KF
z+BI=NzS)%X*EaWMOt`HP%!O^F%JOs1)`=TRT+g&7fXL@n=RIXl*+`JL1KcZ8?kARZ
zXr)W7ch|3N%w9I;QtRE7@@^Y*`9eji;)%Vsr}R%8bNLfXJCxE8Ax-KRtTQKenDJlV
z*S_<N>k4O_sVGVa(gbJ9%A4qWz}ragdHkX0CN<1TmJ&`GnGmoJBMhR*wr9G1TLgkB
zO&x+dt);MO%BW&8GHe_buA-Fici@Eevd+T=<65wAWH1YRR>rC^zAsz}{mIpFs8@|I
zPeosm46r;Beh&pDJxt9=tS|g7Id4&vVSMH$nGVf?9h5m38na{vCp4Rg#HOxAg*Pd}
z0?v%;6qc#zKV(spF>oSKbu-4KO*Q~UTVUcCFNdTrTKt9;g)(hg!uQFcZA!Aw3R72z
zok6ed3WrEK`ah%`G0IUfIW>d*tw`SnRXTBr`8`jnlXEGo&$is<a-zaC!7>@Dp>kG3
zajlgKv0fZ2=PZJ`!oU<&Sive(JD@0_)EbLRtISMM`6{LH;u;dPu@tiga;QLwwcWB2
z{DGprdKz0}!i60h>MJK#-JGrJ5UV;C?YXLu>|HGvtGW^Pw`TpFqQ7%>&+2@}zkkuS
z=?J799qFFK*`BAxo~Ix59N#3$Wv|!>Dyu&035uTJA6_SIbJ`Qkcm_cr2g^ifU~y!b
zlv>U0+0dXE8q76xtsesY+dTA$(>IshXOwJNqv+~P_Z`jl9T)qK|G4kuW^i{lI4lN1
zxUV129y~7|Jf8`UWP=yQ;KfYvxwNxB*SIU)uxs&|jn2Mo=YFws|N5a!=b5y#eY1aW
zw*Tz?{<HtUBzJ11{(+}2{p@o@bT@)n5B06SDmER-Hk}fiPUSr1OUJX7En;O0IvgrX
zI~&m1mfh*yPm9gRvd!nj=5xh)T97A*YFfkDmi=PO{+uV2^|Xqf*7r|*Fmi7s?P<+;
z_M@&=4894~t>{qU(EjY;NpbLGu3=aD=tcBo=#&oQA3~lz7)-ix4>BEmMwdNsSv+t#
zbKol&$f{d(4l{Fuw)^h3+|a4)&@<xDGnt_aX-{b7i0J9xZ0pRn9TwXT=R7T0PrK-8
ze?R&`{9ZimY0r4TZ0Xxke>1wf(uC^wAI|POFYY^^1K;-aW%ObH2=!q<@(iV&jp?Q#
zjLO@V_4J6Io{XoD;MD=%O?2)@X-{R=&H6EXE<1cl9KMtpejfcuHxG!O!OiBu^xli<
z&?S*gXC5@A*F^zntZZTQi{O45y3z+m&}j1jTN&sQ`U86dnUx9+u8oVK;q-ygk6scF
zTo6MS<hGiJ<alSJ!ig?7-FMV&qPw0Z(bJUmoEAN&bCvCYhPRxC6vVpsG-uuIqPu<7
zo^ki5t^KklRX-|R$F~)BZc~^Fv{B3I(3|AzB!?l---Hh;<rk+R7<z(Ybb$(x^CSEv
z1URG^wQ~J?Ndam*syCHwdV*Uf@&MGT^3lS=n3KxSSe~up#tS;rz@{(2l#C_{AbX(c
z?Spp@Zdq8+%2m{C*_hX^>K`2xlo<r-#037dN2Q-1<q)-90cqp-vM;J26=ft$dU-R9
zbD=VX8NLMyNegeq`IU05Zp{OwW9fMN4)L<-FwBBW)+VPqVJ2)Yonz9;yP(W;FlD9_
zd!}33CNVi4oxn*M;XIv!7!{a!=oGpu<Yh#RTPoyONVE^U$vyHIzo6VK->%#Q--2A*
zAE*=bYFvRCZISX4Do2ejgj&<UbMH~Bcoxh>DMsF;rC5qm%zS|fMqY&qilkJZbfpxO
z=)bx$<i?p>)QUCVGcpiKS)e@Al`_^WDrMvCYOhJDkupN)?tswU`JQ4Z0vK7<CX*U(
zm8XE9`m`aB#sQ+u5(b4(gc8xlo|Ijso)!v?mvua;+e*-We3_yi-7&2|J?czq{8GxP
zwc|=TQmz7pjBZ*})u_F~e3liIEz`=ni{Rzv%T#zRc#2XyDL3yWT2o8+ro2LT%7*@<
zk(7rSC3{KbDl`FR4yF<cz{h$f_>vkw1ny0qiE_+Dg<2n=tZ~0HPZyf%?y!zXn!D`*
zgwg)?r)V67D<a>E$^tc_){A79S`+Fmy_QQD3%_5b^4%DbwpM-(b!l8Yj8m&eWg|#J
z?!wdL93v+|4(5mxlH?pE=M6X~=k2|89w<V#Nnw{vZXc%9Bjg+<=P7dXRk2!5P~1s!
zwxO$UQ5@-8rSiN~n#tc^9*;>DQd1yaHlY13vf*@0u~1ym)5s#|-=f;6pLv9M4`x|7
zi4gV|XeAC&j^81Nctfdz6b6hBV22sxQxPokTJ&ZF{kR^Lk4iAxP|2nNpg_IBWbcOf
z)Qs@=sa{f8FiAbzJ|zQmEVBCGbxL5}Bo0?{PtAaYmo-zQz>)kg%u5z@hAA*8C0tRU
z64(aBQV?gl0@kY<^or>UWc}9{^d;;lM;`cjsXl2Mgx@FUPssUK<n+Kv5PJI}C0{7$
zZ!We*E8Mm;iT@oPs_NCt692LSi9eI3YU2Bis=)H)m9MW2Wvccs+BbX+%P+5dV=bBS
z9b9y7)HbcOr8^I-U(D1Vg?L}q2b}xpawha#+S>TAW>?N1$oe}(e+Oj2+3H<l^{!k^
zW45MWtm&649$Tx-R1M{PO=K<^=pqwL%Fr#=bgLPvGF5vE?J3976&;W3%4*3Lv+Qw@
ztLi9LP=K~6&=G93w5K}`Wm*oWtxdnAHsG<HYi>)o?aPGrV>CH;N4opiefP1n^;p_{
z407rcYK@KhmX*uto~J(CovDXjpmw9YX1Q%8obEXaWkJvJO!<jL%cl^*SLVv=md9`R
zq?-pt@8G)kz84Gu<j+I*JwwbhaNjfV5Qeb6`qlFvp8Rn5qk#__9~<<3h?&28`mvRR
zb!}b+@C%E<T^6d~jnfcQ2isR(&bIFp+xM-%oIP?;JaX|t<0Vo|1U5SQpfkxj8$@s+
zC$lYk#g@HjIt+OK*s7dPi_&6bVq+`V`Y9fQ<2)}uVM40<ke_6dkA|?`AT2h$R+-W-
zkbx7z+n<ysgI&<iRPB@}rAb|x<V~(kp>_&uB<bS&Iu(mULdunrB@;cN=27b_*lD<F
zjjqVootGr5B?Z5pBzq<DqJHC~9tS{8bO4m(v?;@+{u1RbA)_vYfSMCWL?N-!Kn|4q
zXXuLXZ^-#`IFcQD;Ta$n9PAeUlwyfqM>g8`^5ukoN5Sut(+wwKh9jeq0ueyy37A8X
z1^gu;jz30W$O6haXJy(^m-DqOo`yCj8`vcVcCFQC0!MC*FgA0)*ajB+qmE1)n7n2%
z^~0O~z}sba%W~C?x!U$E6Iavzh%><U+XV)Txcwty=*Wkzk8Wf_UlFa1i>{>`4;@uY
z{GF?}uRaLwe&B$Tsb%^2+o$iIUU?xsa6$|``%yKV#Sw5up8DmhX?I)N+J=hjo8(NH
zK>y;%raPb}$y}RZRAJj(CD}HbnjLvJ;a^hf9&+}PvmZ{OMJw@Z0y)1+p!xwkGUL|0
zOEF$`oFwB_;@!wYyqjW3YGGkmuquY6HWs#%At@^Z7{QR##bTe;2TbjnAu0T*M>Qm+
z5O_NOo$lM+E0tn->z0k8><ZVn+9KBVZaFB*Nt~aHd}S)*=SE28`)CXk_|qQZX6SiT
zhLIKWePl@a7WfVv%``@hlSanfnO-j&!(pPRxfFd5bJLRXlSbYOF3c()7UexVmbaHK
zk7J=QSEZxgI2>BC1trz>#MCnIi97T#%4(l1<K3^D3b;kDR8jo#;3#f1#$*F9b2$U3
zNe()JtsJ{#F%v2h#6HZS%QCC@X9#^y_ie+sjo&umJUOD}=N2qTi>+Zx6SSqQ_kWud
zawX8yZyOM=u|;Z29QWI%TgFn%9Ef4+Cwq`XT@Y#%-pHY~bBpY9H8h9(CDdEUp|zj4
zfqhS@v6LE1=uT=jf~EU_*g!#-6z?rlN)N_S2X;lTUX6j)HD$+)JI~yx?H8u!?MqRA
z%NOg1CBJdeG>P-fuUlD5@`*xaYoZeqs4dT&7Fv)NoChoc1H#wa9-%#NS+>JyjiszY
z-#4pU7W$$wyE}|rOV3+@@(|Zt(U)$qpk{4;z~tCQVOhn_D9eKO#65kULD0Sc8Xs**
z1fNGCINviA-KC(vrK9^4u%R1~hz9~1Y>dWIVwkXwp<g7@XD2f~8s8#cn(*3dGQlia
z55~shFY@Du=X*<hz8bmQdyo!a#}bF(k@JV}l_rRp`}u3!gStVGYGiVN|GxUqY^FdN
zL!mfIs2D+Is3-rL9HN`pW?XdU&naKbAY01g#NnihCr(lJ({RXejaPIPQ@rFrh^`We
zOz}4)`^$8B2s<0c0D`Mf;<%C{IdK)qf`dxa5yi<V0sM_HK66c=p3C-L&ceA7NaP?8
z{241HIb?=~4MMUJcOrYu@~|W)YQ<#~N~QEE$!waDxF(?qVX5&;?gN4O8>3VnP~j32
zCUZT6bwI8hJ$kf|(+NCj&TKS8VW8OmnZKd}C-^qKfvh(ydc#?7zv%792{B(N>+2JJ
zeTz8Nrg=BXuBI0oB{O4U^nRCE+eIh9z|G+0U^z5S>7m2-ox@p2`+Z0IMi5jyENV!U
zoVO)W&2yM>i_N4Ox0JzxCKKGn%u^l?A7iw4i|B0mOmBk0lauq+<BS|T@aDDcvy0Y2
z)}Q5;w|ZAw-tT%`%{l$lZrgoF+lIe!#heZ95rccy&Dr5|;_$f#{_|iN&OG$DW&9nW
z{m(q?yPR_cmZ#HBW(IXg>^cM?_bx`=ce6Ds*<`kOiciSa9{{8F5Hh2`M}+@&Jd~zg
z#c@fw$wDV=B0oNSHq-wZ{sh$;3^LkNa?49lYj=Jd2g|ln1&3&v255Q-UEsD2I$jwR
z-NBWbjJqps?P3ENWyG&kS!7TsD;06@j@6TpFHcD1>Ea1OLh3_{jy|48SFwr;(b0QK
zj_E?!C~-nf%J@ylq!uhQbX>cT8&Yx<*kQl~ANt`k@I~@91vq3!SQlD&gK~hv`eob*
z+R!#or2)JU>&%B#pDLw0&b<Kn*aE%~NcQwh3Tv7)f=e+Im%{iU%YyZd3S+@_Hrkj=
zNXrssNlo5Hweg0xG+vJJI@-3U_5?jdK6T4bTC}GuK<mcQ0vsvps%3m>XP8X*OVlC!
z7jkGT5PnL|e<0^SlJk%p62c091t;vtFFBbP`fE!1ujG869NJs+%}FMP*O<mQK{F4O
zqdo;}Qe7#uqwq(2X<3RW3QJ1xN9^Myq>yt5((aC2u;;dGGuV<14v4{lwXbG^N0wYT
zfO_lnW<`6tqCf5IhnoWz)hGs@S{%vwx>nDMzP*d5A6C_Y?>Tq(+-hYuyiW}8TOat*
z;U6CUi>kAWCw|h_1+l^Mq16tsM4yrdFL&k{_GVny-C?M(s?X^l(eMPm^Np;#^S--t
zqoOSr>RbPc=s5`lPzeJ|J@Ac{3k2WZcX!{)3u~t{b%$`N4_L65z&@p|0rpYhz~$&D
zWRC*`w?T4-$e|S|+$5)yoW10bo=cu5HXUEWHQlG&<X8!Se*_P>rrcA<e#V7O_Lcc9
zdad_=Mz5{QI-RL|wd#Ywy#UNbP2KCQKkEKr_apLxk2!c$m+RS`+dcTHD`=|MSS0wt
zB30I~lXn&hS-HkNYsX<Kx@DuFUE!bDndU7AMLCN&CaMnggJW`&&!ccmX@8e!>-yY_
zI0hm%iU|xrd(<!HQ3`mZkZ-yIa`gM)op{3)J#TzVKZZ+i#*EOAS-?$MqbBIU%nCPU
z2RCJ*OK(bQx16Qp!A+4)%TC-B@87YsyL4&Z6Lml@04#_LbV|1?r{WqNa9bsFL>=tf
zEhjF{F^#$S%F?-ZDlNB;QB+|RWqfti9rfT+ppq@g7X=aaL~Y(EJD!1(K9nqHI=u?u
zmKtfBmBYzd;n?`~#CYud2(E&_4GDDZ0q)vT-tr|8l8p`!$WfN-bIb#o%-7KtuBxLX
zCGsTW_XI}lY4nUn<6>cB9+VAq454kO9dYN$ugc#+q*ju@qx0aP^tDZhos=ZB$)3WK
zLrIMfO6hq`Y?eRqjaoFmF0W$KHiZ(LozS1>WpFCpueO?hBbHFZwkKsQ>We0xd*7(i
z{^*PPNpav^8r2Ha-V~;n-X5oeYMK07=tJHT9PM-{pGWnT;{Q;(1lJiUSIZ>ZRbOdn
zsLDL_UW4WiJt8E#?Lnz3H40ppX_QVuKmvhvs;xxH0{H`JScJbo)^K%!R^}&&5F~Pl
z*O0j?hLW2p_;Ye-Ka{su(uWBjlXHli|3MBh4pK#ODoS@U@&%VtG15;m%a<1lL<mS8
z+2oAABl!+R;Xff-6<KQCEl@Tw%?FWYY&R}s0k(-O3%+NKc_S(<K`nq)Q}3z+BanL%
zBOsIbxd6Mrqh_P3Bj;~^|NMIOhrUer8OXz{N&jGnD87LFt_znW`!{^eD<@aaWMC;y
zj3Map^N-88Kxd||3l#ZzvOqa->p<4gc^`Mhh1%Zje5W%T+9!tgWkW~B(9y-?bhiYI
z_cwxlYv$~(r^H=PWr9x=8&JQA`zOxcI-7M4!5jyhyv_Avt4zfUL}WjKeji3Mqu=q~
z{*<&P`~pp{msbTN#6Ce4g%my8_UFUJWK!YOY$N!8i)M&eQbx<aIe%+D>kf<V@M<{Y
z9!OhdI~19o7ycUAWCD(8w<2u=Ef89z>@vnXxYPij4}#kt(hQL9no+#6T;7~A=Xn)c
z?J8Hwz{rH}#qBbhF@dd7UXcnX!=%FVO*@ZUArcp9yuBz4A-adFX<jzIZNF>JIjfd#
zrb9#PF3@f@cA17_vT;~a)vFX3Yq|8Tiic6-j!YR>idg|Gg09d*stFYYdf|T|hJDw{
zg@~+C$t-`j%B_eB^HxR|$HI_Qu_K-D*m?BDIlo6hAlwZgSaB&v*4rj}+i>>`&e5#B
zkntV^Yp&f`Az73=Xp2U!?WX@0Q-22+JP|pypwHjIS!&EgZt=!~+v-Z*cT!4Ps$yu|
z6Q=B;3x>SGJQkZ`jzaKMpZ64xT6UpecT>|Aa3JD1w`6z$c^NAtA3LDsyzMEqKMBn#
zbIAh*X0=VBJY|~Jc87eGyp}`9y>XPcq|7gK2`f&@)7!|~=q>2p7)j~DFusDmf%RXo
zF4%B<fYNkGbMkhUi;Q`UET#&*p-*|+gAy9MhnrwZ_t>HKIN{wPhh{D#<XapqFx!EQ
zTwT%V-Pb_xFhUSV6&$5#jRhx=gcF8078v|sboA)(Z%IGXVdP-!LlBrLFu5_8I&=VY
z8xZ#N@NObN)zAVRQYbZx8YRUFF^Bh1N!*9%N|o_mGA1HZAl!H87Ai_ZlrQHi)Uhs@
zXX<v!MYr4G7Jy2snd+rbzFf+Hxdk~u2N=GNRn6wtTQI}!|A*24(&H~0`7g4Leo^R@
z?*tvbG7pO#*U{}AR^zX>Ue|w#RcXe-5ig996bhc!=FGo0LQqrki?3E!p3u0%czwJ-
zKi-sOI+$O9st<yzz8&hX(duv5q5fLF?#t`v1MIunX-?|#J*m6WuLDz{4u+fbOZqqd
zXooqbv_Hvfc&J2SA6}z$F+XnwhHVbMA=#$FPQ@X4yrR~EyE#kZVBC_W;0|CN!y5+7
ztqF{3<7n7~y_Z-_;Zt(raMXyOQN&C^#3PEBl_UN;`5%)*Fhmg+@fk&sT81S_Hh%V%
z8OFy7l!BY4D<-bZCE0ms7R~M*RwA{$a-^5#R5)H1B`l(j`7(vM=#_VB*j**(B&T+8
z8N7((hPlXid@hDlCyY6ncfvNSS2?QCiyIQzZM7zLIDXzykS2T+EqwC7anqM<jYcEE
zEsk2rvZAy5z4M-J=i+;D<GPj3N#Obc9*PWhh92H|H#I^mywdA=M`1udkgXo2C`|Eg
zD;L>4?<z<~P(89;qBJ}04y_p3eL=yJoSI1VO0J^o-Eq!^SX`-A)}F}yRc<c8h3|9F
z{K$50OtH0utilb-@1a|v`TTY430%{KYxw_$(yY+mB<OB`oZ8`eI+8ON!|nb;kV@n7
zSWbAEd_*!!y5|Jik7PqVKYZbGS(1w1n&6~r^m^i&+D-!JMOlxeDh05`9VK0reB}aN
z8|Gs7*DGC2NJi?g7O5;9J1ZbBH-`cj$|ty}brVZvJ(lbQ!`aD63{vtH9ep9l(%l45
zkCj17RdB3EvZxRwJB9=?=!~r_a%9bflRB$hyq}nF+nKa2%=Z=%wyU5fUgLhIw}f!C
zya9TeroL?Oj2JwV3wF`}hV~7=BGJtT_KJbM8UHZ&!zSde2YZP7$p*4@yTrO(nYulh
z>i$K?MyT}<S{Gd#&7C;Iuy}l_hpvMA&0D{jb@$$P_pS~6@u43aN<VesLH|W|vWApT
z>Cm1B9-Q>{Z@Md&jkgw7%GO%M;81%1xsQ_K{!2*s>EJohvwO+Dd~VghS<wK|XGLeO
zGO$@0g154B&A5I}+;s{ubV(vEDO)+WRtw|5B_l+sRW)};ZjY?AKd9_n<>>^;`l$!K
z$8o9RN|#vOgE9|sS>?c5<%5bLs?y(#+tU2uB~vcgnho}g!Tu%JPhheWC0X+W&mqZE
zwH4-u&g-^%xymNwt?1ZjYFT;i-LZGZ)(n3TS-U8<4riM7EuF=!a35T|cP-m{M(jQF
zQIptvK3&<BYwb(-pZ(~9*gq<^jxLS<#Mg>L(r>5krdH3T_npZ!p1o_t*&~Vo>{sn8
zsdQi<*U-B<pFVg=?7NiieJ&k%{*lQLtX(!fvU9<~rBk_MXT{2+OJ`Rct6yEWZu&y7
zobmPI?o6D*54D!;T5BI>;=m6MWYLX&I(5>2A^qI*V*m4E>+?&an{|zJ>|)iiHkPS7
zx^(;roupo$%QT)}Hli_q-)eI0xd*=eXdApzP5s-hyRMZh5B$ArEq~negPsp95B8kS
z)i$hL6Ki)PPcDG_6vRN!(uvI$oH!yIzNL|$R5s=O^*Eyiv&>vmI2Y>r%wevo{<Mtl
z#XF_Lh_^;{oIgPKdZt^49{BdE031mlcs|p3dD)oj82rF}&wba0t1jQJzgwSf-~Rw-
z?G>;Fy3##opiCeLVts^%DDSds)3*y!cHgjC+cWEzGL26m%a;x0C;s3=U#~K93e*j(
zJ-2=!Q+I0VIM(A*3UQm-NFTOzVR*~0KG<~veQ2#-8u=7!G_=yXTK}MOZ_Zhhb=Hf{
z`eptvoXuMk2Ck)Ri#HVT)i5U*1=bxPtT#x`5FDv`PDXUtu5kH&9@EuL(n-Y^kqDK1
z1Un~x9Y3dXh5b0kFQ*OB5#lA*1Gmdur>zmcw8IH4<m{tv?1ximUbaP%<a~|L454i(
zN`7WER@tGhaQPub*fPPQ?o*e&!JIbMZuz<9j<m6HlT;}+vML2HQl;RvHKa2Q<~1pU
zc}>corb+qK;V4j}z+a$7p-_Pug@W7EC=?}InUPPmGLv;CkK7bjYr>6)>hUD_QN4Tz
z;<8b+1s+)_s_c~BRKIe1_4&2_brZW8v;Vl*b3$x6xy4b^NBtiq{&e_r=9iT)1flQ|
z$r6e1vlIBy1oy-&eldpK#GL3Ie{n(vxorw3V3WALGQpIIk{K5_)7DDlwyeb>_6;}5
zz-S@?;SIK+1UuP<OJiWnMK?Ojzh@)gdCV-ldX?)ANjSllg5+U&`6*nOIrSn$C9+9|
ze4Dde1cDX(XpKPf1F41OX7mv*9+H2kLop-iounVLVMh6kI(Sl6rpaVx7$n)3nx0TA
zeq{hZfWz*77D$gPU;Etkq!R4RaDf1q$#vVGP=fvDfbtVL%(PNE@PypTHQP)~NLDVr
z(fluz(9O^6E^4X&2{p(TF+?e_9}3cH5~^u{B%qLbN)?yk&S(@tp$Q|`lT%nAL<KRT
zNOG})iReq$>DQE)wpnthJ){#8qz8aqF8%rqe(ffj5b7zyB-g`CY)I}U6JAZ^3z5@I
z4&fgrXruMeN-@La93*FfoF9?HMDq+2bWpI59Fix(o=L`3hlRty4EWC_HsRnR9i8se
zU7YTW?ytC(kGa6dT=h>m=f_;-$6OdOpPM<|uD|4-`Iu||m^<<@H~hKYsMCMS!THS2
z=}zlD=1zX5*X#73n+<TRa6Yqgy57IyIzHw?pX)7%<luZ-&e^M$zLK#uyk>rEw&~iI
z-H$oE9{YKnu6p^!x2Nt-J%*G{SN(X@@SH(6u&jUEcGvcpBmd(Wb5y5mUnzgL=AD|y
s9QhyfhG%rT`sL8u;k)6-9Qhwl>Q5VV^(*>!ZSUAt_kYGwh(X~00uYoNR{#J2

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ernie_mtp.cpython-312.pyc b/model_executor/models/__pycache__/ernie_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9fe9738d9fd842f1657dcfe76f826adb7d2a8998
GIT binary patch
literal 10929
zcmcIqTWlLwdOkyPc&A886h%ptMO}QMY|)P8__DSWJ5~~VZF$|;Nl|7~mgbBs%Dj1I
zWLsPc^=^Z%gl1u7)7Dxf!7{tRMyUg=_MuoUP+*NdrRYO7k+x)}4(cM=hZKFFBL&&E
z5AFY-xsX<=1PQhW(&2xubIzIn|Ic^6GymxEI0=M|<uB5wqlA2f2|ZXfVSN`v$Q{Cw
zIN=!1lwq=_xQRj8oH57E^w*MQ<1EdyWUN_R+(u<KW6wI`4k}wS&a5l$qOvXH&U)e=
zD%&$HS#R8%^~HTO?a27Et?^bWJ2P$BKs*4li*sk%v%z?f%AQO|HWUw0xh2z??TUA0
zyW`yqF_C8p=Y5%QKAxRCtWTu=d)KVW@g7>!4>eoAq~<nSvkhtnn%CrmcP(14z0>As
zd$IRSZk!kRT#6sg=Q7igr-fXaA0E4OA(G8=d?xk@){ZiY{fxv5$;%o3JS2P<1YQ!7
z=^W3U%IC(@S0K;%LMD?nQnu&DE}qW|St#(H%U?-L;sqg};zcnpL`_P|g`|+oWcbXv
zvD18#Q-Uw#Q_0JE=F{2BJjbPT*lRn-k0+-xQsM@mzA_;tGWjIO3sBH@CI<t`@?1J8
z@t61<bS!=XuO7$hyf{@T<OO)<1xWeNWs=$CD4&A)2<MX1(A=bSq{T#`kjSP*5gwE%
zz<9Debf~zq$?3~{q9E|&>6<Basnpn|CDz{n;rpOtJc%=)XC{u}&76t1aAwXjZk;9L
z49C9gj<XKb1S@ZyY-#L9l{woM`SvaH9lV`0H!mA^a?Y38xMP;wWa7??B<far=xZE<
zg-c(`U*&V~zPNNs%B%BNT-V`UB~tX&DOPo^iWT1Jl#n~0($tO)l!X}6>jhZbzhdqX
zNgY4LbCweM0hHg>au`x#CN<?UDuFPmn`T4ij9GH%$&z`Jnzf!*e<9cXXbz^{W$v1^
za+0v=<-do%>_%U0x-=QkrTTC4v2vy&tiu*%=65Z+A(u!(S0W;H>b;hjlBr=<9zB1W
zL|HU8GhYxt!C5~83CrblQjE4JtT<HwZM7#7>0DY$BtUP`T=jSAm>AbY0assfO{6)F
z&n3ikkyqS8R!ro;I1|t_G?WSnK6{zwC|*oym9dIq%H<U6Ik5DkpcZDR3<i>)6i~4h
z2R6B!$)~PHS;ZpqnQ;NvP{8F=teTQJ5{XnMDT;}Nh$<C<aO=O$?v=8Iy@hmPSV{_4
zcxm|N)S)AXuO8y}X404U7N(_%d~PqQ>Rxqn{7pVJ1xl<Y#l1ZGssubfR+tvLq1)n)
zFVy>(zFPaBt~d|T?{1L|CvmjQ*<^cY&E8e@hb#W5?2lIbBeH*F*7|XHp!`f_@Sr?+
zaQT_av2V%8zO@#<Fl$+}ci!*aQNCW;c|_iMWchmK$>-!JpIhs_h(+Q1y?sBP{?T;R
z-CA*Plil0Oe%ak`^z;0N*%WcoiW^qawR`dCvURod$yv(}TGnAqMDe6^g(*qIx59Ix
z;wa?Bw3N>0L?sBedOe+=67_c^O5pxP#VZ#0R6>;a0_X$B-%Q~m>j5=@+VH=Fa0jgP
zmg$@1dkn{*=5fr`U4$Hik`kFj|G6oYn7dl;3<EV9eS=oBWHxG;p+@7AwHlIPsgs7C
z)gJ?+FkdlorgzP{6&U@o(4S#34J}M1mLqk$`Zid{3_D{jSxamYs?D$^7Th3vUO=<?
z<bNQb9dYSw)GX|QEXAYSgSvcnffv)<R5BB_3K1w5`Y;;Ank?vBYC<uml9I3;GNLwN
z2Nv$e2>TL-F^XZdAEOb7M4T|{I0ONZ3Q=t1dErJ<;ELP7SVOgHPhux`Ai70rEyUNe
z;@!1k-v#l5UC~+3e7gMDt2x=e{Xr;P2}R{lba8k!ba>WN?b}}IdtB~&eC6P|)xNP6
z`!-r*j~v=_-|fGBX70@V%*u{qE5YOU_OH30SvQ+HowJ^roeb=JJN8zr8th%1xhK`k
zWZ<!NVj6JD_Fj0}&6<^T_LYyzp?$NS2j1|CJuD2t*xq62`bJ&ohH|iff*W!s5@4%S
z8I;|L#5Gt`wM0O@P|TtvP)ijKVA85?+=@A!lZ1nq<I(&?iqB*c33vi1ClOHtPtb)F
zT0x}IUMvtG`rXT<X7aEnm<R2>H5LUJuRl<;QPEDEEuT54xQj&k9=bZ%o(CP_JEd1k
zH5O#38|b`q?A2p68>Z}}Z^zs2x7;-crktd!r-m(RZsPRb4$p-@_dtryo(>`f&o_eZ
zx!1n|<9!q$aHcl^fC5ag@Ro6l1`%4~>{o>c;}*{TvL$YJ5C9jgTefyK2MU~Pi+uMM
z`HmteGUwqPTfvoaH`fBt!wI8l<Gfq+;^SRk*oU3-LmzGmUp!#90VTARktnEixUtl?
zn3U$808SHvkb$~7E2K8T6>uhBAFjaW-pqB8gyHU*0~Xlw4d*BMbXA!|E#4F++c#xE
zQtHt2z!5eBNn7PML7eCqbq702Zd+2OG)b9W>H&9YX#gV@-T6wmq0)fc#OrW^Dp_79
zZyHYeHPb7-7U*HdXaRFIo-6elt<94WU9SJaYW3Gsx}=W}dNNi>+Nqa9n}{ygfA#S~
z8w0RS!?+kawi_gBI$yNMGKl-dShQW}f~Kkq3Zn$`CyGBemDP7twWiXBs0Mad0nQxQ
zHj(CTDj}?w<8MkiJRl&VRtrU?1xv7r+MK#K0cWT<$EZIXg~|#mBy(4I;V3>BC#YDp
z>IjAv=XE><QH&;R!wfeC00{{ZyeOa^DZUInOd<TzPE%HOKQbVffa?VwmAk3>PTc+J
zMs!PcpcE(dZDn8vM2bT*@gYP2k?z|)IzW1`86Z^$qLqQ8^1xBVGm+}H!OFJd^0woc
z>i#&`eP`m;iApdk2csKq67H)8LY2TCIk3kN7NyGGr)2mGJhj1^!>#Ksho|MC6Quc5
z8xHW}^QT_3uXP=&270R<J@XR_6J@c?uLSn2v*zyBhs5k}t=XaWLu|Khc69)-dd0O7
zB0VD%e)Y)i9s`F#n;r_hIyb=4?_07~_MMdXom`DPHEa2ez2`qa?S)Q6T(Q6R^`Cme
zt~e+XgLf|qXr3wbF?v8hLwyb61b|gv0-r8|>jF40j6v;pOzKO!0J4aE>M+5pzH#HJ
z#a&yzs7*CR><X3O7O8sMD&C0fjg&iAy}MWJyXk&)z5%Tucu_nJn321g!ddG9WjeK&
zL4c`QZu!4#dNURiE<xi0X}w8x7uobIsA4wVjPY1hvXo3EbBWcdii<>e4zi;bx_H7_
zkX0Lc26Ht7z_r{oMd5kKqpy=1fC|MZ&M2xpN0S3`OhaJTvFUk;0D<|4yK}`AsfHt!
z@UR>nUQDls56_NOy=P{n+uxb{&Kn~OQl<Bh+<RzwSnhpxwfnT}JyUgeR^9DYcRvX0
z4%X+a5!T^Up~HUYSFynnd;-{ylm$|Hz_p?)FM&XnN-t^nm9Pd4u;Pua^;|P`_S(jX
zD+*_GGHGl?S~d8Abv91aGnSI2zS55_vVbcQWmT=k(F=cw5w0)zFzS+wbDf5GTT=Nf
zoML#OY>@sb?%Yz7AFcR(=u<od5iGo$I6SvqbFRNUwP2})_5lE00u*{;HE{BM`%_ha
zd&R#)_U|a)Sn{m;pP02)z3sCey29Y}DK-_bqiBnO?3!={qi<k@tE_4edPCJ&;}J->
zgwb(~5RD4B<qPNug(ongsJsD-p2SRy{s{iXe}V|GX!Yc&Pe})RiYXUs^mlpWGx}TG
z&#-$I+kYN@CtM>SE^q(!o?q=*M-enEw!hl5?V-oZIv=!!C>~`&Za}A)s-sg(IZ3Do
zacr5BJBDg5%yN@ZcMUs%Q-cav*S(k;BHMZ&I_zxFfW9C@=dF>N4JA9a!*b|U1G+9q
zsoIJ&Ou@eqyqdKB*RUA>|3DYOW$^b1bsd}zYnwB3YH17a+!FM*0Bg&}T`;bWEg|(6
zv{#=$ZsmLkdpSSv;ahl1bMQQFLi5Fc7>$>=pah42RyYLsxHjGoJg)^xfOq8DA+ME!
z=r#b+A;qp5+@%Y`Q_x5_g^__09zo5h=G5u@4BqD^)C@=ZuZx-ikr~cOa=|lbC^3?L
zPy+YE8SdxZMiR_$Rg&LmN17q<W=I-bT@$R{jLv&xBnGmr6ALhd`na3-8q&vC{}uMZ
z2n-}#&!6n7%epj)AaqlJ*1=6#kgQ|tX+o(%g{7=m)Kq_~s#nH09rZQ?x)d8yk0sz)
zMEGNjsFOQ~5`s?Jh0-Pgv34Uba4H9dWV}c>U&X2t@vs-~z}kjFsbCY|H|({IP}8rg
zp#d#lgG%D-5N(2%!M;i`CI@4c;9)s<7-8J~_Tg%1;N5e}!FwI6d(HrF7DRaG1llaL
zqw4nEK09}|;_e4>%}5N$?t%Mly=Cj7W3_GnhRqVf7H;s2Q2prK(TZ#6eb-R6f5+QH
zZw*!YkI4N;D*Y$q{u8sKx6jR;`;EI7=nuCFnFNX{wg!H<t8BGLH)YBUE=}KOP3kM4
z+s;K?mIg3LH>09<6uxvJwh8e46szO;kOIEj#kpd|8<oA$#ptT{z>57qBj}@eBLF0e
zabuE@)GHH}$HIL)W!M}fP^KQ?Gzc(7t4b4!wr>*7bQkh4d=Cjh@EDr|o);0mm8^F)
z=r?07nZYNS)lIp$i`R+U2)%OxE*r0FBHEb>GWiHS^Z;B&71cSnI>e(8<T4c1$Nzsg
zHx=ml4E581-Or$vcmyKA7p*|8m6`XweJl2{m4UHUh`oK)Q258rA2|WM%}<wymwN7b
zbe_zLOq@o3HNPdn5q>p|fF(4XBsA6n+z8<EL(nzFtZE7cBZ$3#$)pBISAybPYyh^W
zp7O9>vBQ}AqY&$Fp-}9D2$sM}d;wK?cFEpdi#^MhU%P+hzL#C~URtqVqDrLLRGSwc
zIsO<b@*kkHcgPhW2!6uMm?T3XU}oAJ;7LZ%l}E?>a1&&l5A-rXqRc3nXI=t)Z*aR!
z&koHTz0g`>o3X~AxZ2nR=9Rr1DCl(p(gDswr7(=w*qDsrB5t<UQ@R9a6SPzaz%`pj
z$xGjXk-}_eY%}&5N68L7GSIi1_KlLC15O&A2XV<v%er8cI*?MkqA|3!HT2zlCRTkW
zqJN9I+VmO?PrTT$nF1N6KLtkjCupt+EoPi0XR|GJ#s#N4SIG$syF=GZ22K?@IJ|5z
zg0DBm|K4JZrg`QS2dA#9lXKAZwQ^4Si)9`48A#}`X(%~4mt<_E`nc<J(N_RYN0v#P
z{-ywLS<@H>wDFZQFjqJsMcwD4Y}BmSuU)-PufY`SHT9Rd23C0mI#H}wwVbO)j#ihs
z4o%%x;MOKFRZuHAXo_B_p;AGM9QI+;$^|4fi!It|F{avLu}#PWIW>*@b1a>^o){PS
zYl;~dsG>WYDa81ja6KrAu_7D88$*Rn&>ss@RO%@jorvOj^jh7cSdi3Ge8|~z^;>Zf
zh<mv3-w92G1h%vDIZnKhmL`-?Lf~%*X_yYB6I8AYn=3YfFJzJ_UO+7u@I0&7;F2#X
z!4&{<nTk2daZ$JG#(2yK0^gRpsy|pvWRrygAP>bwujj=C9h--K0-y~}R4nvadZs!Z
z#Yr2`I|;?5O_A2KixY4O1ALCc(kgUVA}%m^P9vySHg0^7_T7P4Y&U#qWA@)cOYtY5
zB)7<?CTqVFZd^8eq@#P`K&5-1+`VtLd;e;1WY%@RfBR3j&wB0;49V`^+0pr7;AoIJ
zsCZ-Vdt*xnetG;C$5&4N!P>}kRbQy;9bB}?-aS+dELi4dsvX^xjstSXfu&2oeDN1A
z-Wy!)cy`|M(c@=j-(&O6g|myH2W{Kn7}z#c4TP(0p|VA88w3$ff$am39~fG)ET5J4
zJ&VO1-Sp6ScByN%<Ji0fPJ!*6cg9{FEALzj3@vg$&%Tpges(Q3S`BuUcgw+HX!CK~
z(Bgrmz*^fuNIVD)lt<ytX`Zb{wpSt}a%5!Q^MS8tfiJ(bbb8Hq`~zQm?GQP5j;THI
zRl5EF#%m{mu5v(b+g=UyFAmCq*wT@Eqw>h<e`|c~{m9NmcJWWwPCUOFdBJ$}nhyxS
z&WalezXk4}-2=623>n;A6PSiwTUFs(@YWvLzma~$y=wh$ATstcGknhg>CFLlCo_0_
zFb2G5ESavu{nRV=lBwBl$H7e{Q0L}1;pPYFbKC_mezU%Rm`Wxjt1lApF3tO}YHe+G
z@_hzcfhV#TFFAFseNHvQh%~`RRF#jQ$^(#!WRp^Af))S<f<z=gPE&ayeI=bsX0%Uz
zjIMN|Edo=oUxgN}^t=%(nq&K7MUR?L`Rka%#EPwI4tf~+H2~If#p+2os634w79r9}
zJL*wxL59-N;655G7H+>)mx6rupFu?tcVl(VD$<#TbW!880VQwcj$nz2_+6+AmTG4Q
zz*2kROwit~($TYyf9c*od$#KBTHxOI_G>m$4Tcw9To_wyTL}zTg9GI=<)e$qCD-E2
z^2wFJ6F?@1TETvRI|={LRr8SW2;S8OZkOgtRd=L3wiI3JUOv0he;V+k4^AOqX}-X$
zOC_kx=NlQSz*l3a@KD-7Q&CWe`U|(!Q-usK+`#fb#|W{dfJ@Yz!TL6qVDv-y7l&Yt
zbOx)1JxLiX{6z)}e`^tjeZ0<KJzi(99tQ^N*a@aO{1~!WUJu-{>MRz>4J;O>V8JMF
zRfB6;ykqU%zceauJ6v;N5*VxoQp<x`El5sbpYRZk)be9$5J@c?%RbK-tQIEVX;7c$
z!=uy&3l`ZC1{M~JTSghSr+j+x`K6I%7Qyby$f!L0v^@AsjbPDxBkzg-aCn`{wR5I+
zHn6hy$r^#*dm{aLPy8HHDmjLW7mX;kM1sqw;L_Wh%EO0kDf+oaEO|L4;CoSTyY2K-
zf><u6UJSY63%Z<$76~^~^hK%PWyRD_X4DJwLHztBMlCC$fBvFhW>Leyk95>;e0G0P
z)lIiX>SfZ%7qn3CqHvSM@AT?4fJzt8`>Nq)&DEi*pXq5>B{3zXGorfZduSVxzcz)R
z915t&ijy8p#{nvc0wQpQ&EOY%>eofA+L&Sp9~N52=zW^{A;3voTzm!Z5cPG?k1g!S
zU=;8T!V?0r44~9R%s^B#GYs=^A7OU<mJEJG+#izm4@va5r2j*5_(SsS=O!~_`piz4
z3(SXPm}U?DD>=Mj-O2QnpL+YuTW2;1h#QxfgG_Kizz=*j2#6a3^R$Tx%nG-s=cX5i
KJ|mc-qxoM2Zcdp1

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/exaone.cpython-312.pyc b/model_executor/models/__pycache__/exaone.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..765dbd7f0eab50a2e66ec468596c99cfa997100b
GIT binary patch
literal 19637
zcmdsfYj9iFo!`B9KM8;!36KOyh@?nDeCa{cvMt%xTB0ReWMui3AoijV?<EBZ5BdU>
zB?e67uG^4_Q&ZEXqFbkCvTZ}vZq02wv&wYZ<U>EWyXg$Bs11<2@~qNzXUAVUa75Rc
zwA1bHe=hC?NP%)@x1V|?o_pS}d(Qv-{*Qw{b-NuLo}}r!i9b2baeqkx?Xgxo_Z~HH
z+;vXiqMX1Bh9sXdL=8OojY(t56g4rwDQQkwq88>iC#_K{(k)4A$`-Y;IBU|Lazq`>
zZ%aB;uBeOo?MZj4A=<$Fj-)5$je1kQsE>u6$;OmF>Q6OAn^@SDY)-XATbSRS45Wh5
zAoDjQTT^Y(wp4qxJr#<ESez%>k?M?gGQT(3l?q40%<oI?Np(lNnZGgFlj@E3ruIhn
zvamndm+Fu9rv{<}EZmfgr1nMk!QU*jBnMMN(V^6EbeM$$$&u7(bTqX;x<7RwdLVT$
zdN6e;dMGs(9pgCz_cSL2-{gc=(RSg2Hlfw``$p9t9cMY)khA?uaz4y*hLE%4OL87&
zIXjWF>q~MzA~vwRVdUNO;JoiwIv>Siz}UJ`qNjcdaY!6~-&`5rV^_?P-i0SmrDsG*
zOizo$nRN0>_{8OSCM||j89_{jr!%R!crI}+DTZH9<j#jr&d<&!(z6rsX+(&L+4H&V
z$fs0YgjZ~*a-tMRR`@N6Y%(!TKI5_Ul_|Up=`>vL8A;4Z@kCk_p30<W60?Z2AIs&$
zbS{yh49(g3xw(v#i{&!X^!XUIpFoWU#rafx`n;$XQXDTOlc`Dt2E{ci=3;Ymu~{iI
zKd1Ck2o+{CQj85EHW!!T$)uQ!y`GVhLM)qDppH47PbBA$rG?4)Btq7+lh03Oq*TPH
zv`vcAEcGurpGu#pls%0u$0f!0+_Nw3j5?cneR~wD^PJAiCUV&`Qf6Arq9=%Id~QCD
zQ7&LQGiiPBHtMaEnWG^#=+#V~6yt)@@=|6xeol)#kvb;|0wy0hn+0(uKA+6R)Nc?=
zX5xY<DXppam2+ZD5>xTH*u_h+>~uUS#?tW=jn{uFjqj5Zg+x3jzQE=u`zcSK4m0??
zI_uffnX|_*GnLSpGZBm8J2s!oysUof(`q{nXU<F}vRU-ybo>h14J5KO|0y+&&38&f
zV@iK2eo>5xskz*hSfZx+%J<2}X5!QM&{q^E%b29vvWiO`#+)S1BrZ>@i&b?!mB76-
z@O&F|PvoLJXrIB((Lcc{7(}CB#Ggqt31-nO@C%@nf<?3lR>ar@ex_lGo8blfn{H4+
z$D3T#w!~fLqxR>yh)Zcu7yr|kAz||LnJLA2J|PHVnynedw`~Ztj1)&D9m7yuuh9p_
zlBIR6n9e2QS;e9bLa|`k&r9iPjcn66Z1^KmbFTpB`}}n-hqwAHTl3uauuZj%&2zcR
zrscRipEu0%7#L#m=DaCy`KO#<_<`XAqqed0T&zOEI4)<`>dYHZQp;~besfL!YVAhB
za`9n~lRP=MR#LF$jcCL61LOO&Uhw=~KBs*Oy^m;>M#P>gT*N;0DNZKtx9*Wy%w}wU
zE;c7+E=0_VBaxn)&#5!&%FO4qKvvp^{8EIRK{yN6k!e=uhFRK=u;Q%Ayd$q-%3?Dw
z1Yb;7$cHF|@ktVw*k*e)ys&2^{1qZ@lr5adhO60TGEz95d3_{eSImgTqP4}aRuj2c
zO!88*uG;=fjTB{3I|ecoPtJ=cBq<|F4J-kT#%9tH8#*K=XQVzvO8w*vki*8tMo9xy
z?6KH%GM>%GVp*EGu=-s6?a9$xYHoBcF*lrxgA(P2FV8>x$l;3*i=)ZJxzV{Rx$~Ly
z=p|6VQI)=lm&Ix9QArJEM@2@#N9L|b<EVBauzgXFXu~^+#OyzS^P8*ORwHL`ShmWx
z;B8ymozQqG&|PX9EVK@-zb3ctFZr5Ft$Rx?p_Q+$zFP1PZaFO-jwRD=TkBQ>7Z@nv
zf3T-E)5`__UStX&(_7AR1Lta4ZMo&_y3-gcHSSw~bbY8W{&K<l)q6&RzoE<-+zne6
zF0khxCYMa#bKXObxM^BD+Cz((ZIsLKT<7xKg~~G2GSEBEYm4(0lwC9|8j(-m2GyK-
zgO+cRM-F}A*W}n<6OWqs=eZmFRKzG@XK>P^<Q#?*F-ec%rSO*(Yh{%vd@O519DPga
zC?#64!d{O{!a~cA?@)=KL8dHKd6g?Qw-%fG<mSG$*EX9Y%Z?@Mim&AIzWwa-v#Zuk
zS9pmpdHipGWBD7a2fq8wWz!PBbfDz%F4?5VQ9NRtnoziigVryR{8&tJ#OMT^#~Bb)
zT(KDFQ?im`1SwOD*_<RbQ6Ej`GMOY>Ez)rcyDKYmT1+Nmu^YT}1hH9~^(Wb&q`mMm
z=V?la!}-mdT-n7PdbrfwR%!`;<_Vd5?luR@X1vQ5F4R@FlF!B=&Q3lD7l^En$t|O0
zCk0)c$6t1nuYvP5m8p2y%Q+f8_rdo+kC@CpHb~ayG@8?&){5`m&*8cMNKg+391V??
zqrp@;8caA8%s3P*qE)ob7^s@cVPV5TVHfR{kVA9`PSIHjxkRhr#vu}9he!hs5trZ*
z-4{Z7e{_%F-6h^#KYqp{_}(-{J?uF0;yCgv9(Bd&_-G20hn+5ruqgKQd@6PxNC8JC
zd2!;aAqN49Snj--iz_bXCnSL5S_!1$mt%98Y=S@t4(1A^$W}>{;+iI)RXN5OC6<OT
zsA-ozGL9p@gzd-~to0p7SHsSu3kMGu)Aw^uKLWMGZPAs-UX9VNVGnktevoK!*x#-N
z3w@%Cprl#DGdO~F&4;#7pT4tkL~=2dRUee99f=m}y7&rKbklCBHEp-Bwq5me*5qS-
ztR9mBW}$w|3+V6rmH9zW^|9ytdY{3~37p24AP>zydr&8B;2qD^PQ>f;SxrQ&UVAl`
z+TT&9UVk-L{gxOA;bKlLA9B&5x#M|YS^aC&&n1`^&}Z~dha&(nT#Sxe_T&MTVmcVf
z?a||DzU#~lV(ZKSV)cG#HK0{{-j;U)`j`QiEbmuVF52^Hd2&Pu*|TfCb^5?&&7jwA
zMeVj4Fs6TZ!M^Cu+umr-+b$4v*zsulM{v-dkPL!z(VZh;!Jb`5U#CBqLv!AecYok|
zzp_s-#ulxn+^FV5oxk(SK;Aa3T=k9Edh5ecnP)d<qM>G<gIY-dO3#!;n?!1dqu7Yh
z#e_s^R?Ttur@yt2yaocuK&G`qA6X`b(>=LNE}o2431(w8LL-|yFy(@M1b~xOC>=yA
zFDRzj+4-3Xg0K>5lde$v#H>^)Dh|?kR+L_#F1o=KrNzwUST=VhDgM?x63^w*Kn!P*
zD7{3E4s|1~(nAzMa81RGwAiJulk*%opiP`&L`$qRzy>IL4u|(wDc<s$3Z|{Z@exyE
ztx$XEc`ExNIkaFEn>IlzinVFOQy3FU$UthQeA@7EJV>-x6cg*Zhk+gG4As|14(l2l
z4r_=;t+rOhxon)YCKYRLj`dC=u%O}z+O>p}s?SvwUC=x%1a};MI&MuPHQR%=@EhRP
zPz`P^wf7My4c=)S-)ua*WG!_KP&fq8RP^-7o}RT?*)zQ1yX84pupKOT4whOwimk(P
z>+nWEZaoaF+ED5qp(0%+r>E%bmYv;ev$veX05DC#qJN+4-?#p<>>s<y-||0Fa6MA+
zKLSM4)V}&cv13fe|7}TkLS1Y8+E}sYQMu>Qo3nDyiOtXiL(QKAyVfl0j*a7+!AH=l
z8?C*4bopq(87_sw#n6x(8rm=w_aB$>KXiQQ_*;{umbUBZYw5Mzj~9QqD7TCet}X@I
zi-7?-Ft9%M;n5pM<p7Pqh1lzh*A~|VIk1m~+j{Zxl=>g1rh7jLMhL5;y41B4Yi++A
z+F$DGDRzy^UE{SN{%Zw)|CYzrN+907)x@>#V=WHKfx&g*!_<wG9C&O8?q@}u7PScQ
zTWiM>1{Wwed)8gWfur)k(anJ;el~t<;8ZEJXKC`2wr+yAlgpEpUYCg1XeVByt$)jH
zZKtL^TVAfYlk!b1Piff^I=y_FeZPG&I))M&gYsg*--B*9qwM$W3^Xcs4e?|Zx5m(8
z1Buz`S_Xjt0|PaXTkg(g=<EYyGmML-ys<8uvD*Qx0}-@Vc|a8F#LgN8{sV&s3|>Lc
z7R`&6MI3h*>{`j{oALG*4I;3<Avf~sM{`YHBKB4-@1hO4^ux6#mrY}oSZ#KUl!PS4
zsZakJ4+Kg^kiUpkI*%e?o#&E?oFu|8&5(1EoFq93I1z_RJ80`l890g&v`Bi2eEe$)
ze^KEtDNdp?F_p<zEb2Q;=S`J9sN{iI6pgDrrpXRRD(uvMLSptRoU0sojK-Gh9oITm
z7dL&w%a$eM(sQN8=IfDbk<}O8`}#XyU+?{J=*G}Z(@$MLaTP)*K03G(*=(Fzwi08t
z6enKmTg%^Cy|TV%{kcugXocaz)=6ATU}qm#i*L3JEICU}!RwRPCf5cxn?{!HOO_RI
zY0XP+w)AdTKlS!=+|;LB81BTBbOJrQ;gcrtlAb2#BsqjEq*HJd^9*EpImIL-rgPFW
z6iv&LacR=C<f92;2Zds0B2vYo%JLZFCY`3#NjSC4+E*x&oD?Pe6&zyL8n}+`(#XM5
z|6u9hIB{)*qr|wiPVr{PU2nK-CJ!iIOKaK6yr6V}vYmOsytS2`%<JNs+sba{g)E?b
z_0XDe^)OK?xn;2IVewwBdvDptyp1~7=V#$2V*8qzw}lIIuN{|L2Fd{z4iX>8dQ)yA
zMzEd5{vCtE+;Z0+ynf``k+K<n^f1_QJ%24<wo=H(IXrKNmP23I5mH%38u>K-^ymL)
zma$1aHGeOenZBs+jj6xkp?yE&N3fgG$lr%&2jd5p=s_||FnJ~hGpzu7_Pm1uYaW2l
z@P36x0d!K`>;d32PAxbHG^x6Q8_vJsAON|l;EL9QV%IB;xc@eoMny41I;#{a9InMM
z9reD34rG3gl35~VJAurd)`610m7UXFbgl*VklXthxizA=Xu&_Q6>zoDN!OsRb)CR&
zJK2a8WM2(@!tN&<<jNoL+Ia(kmtiVmkn{>8y!7``8Zs~vc~#@HR58Y1Lz+W%M_r-M
zpCWrU42RKYZ`0e~T>fUMr3(js+01!6?{P-2qs$rY4s}2a$SEz7vy-a*0Y#GYr})eM
z63&CDT6=}4;a#C=<Wor+`BaKVK9!)6uMRz<XqB9iuZEgYP$g#MtD$8SR7n~6R7ys^
zM{VelM#tc<p<@)P(lLb8si3h=<4=Do+lIS$8&UU*z66&p@=~=RCS4z5hCajsF_wdg
zv8+rNVuQx8QLkI~KonL#-my!(rg7ONy?!ZG05@Y3oDhLInF!1Uu;Er3)wOh7oQ6J9
zV(O*}HQUZYsica|O6}1})dpCF9i+;>lT_vT`tp)`a;rR)FM>gbPv)vb3n|8`oCfgA
z@<wP|s;QbPdC(?tS391(MKB#f+_rLNL5FsW)@><P!KU@(GM{xrQAAjRJ?M?Sn!0Gq
zY3qelNcG_<Ur!3MtwslWT}M))^`S!GjUe%cya|#MCkVW&hQRB+%jq(dUHejJHKO%;
z@(bg(KDw);W_@TtA3QaZ4SgPR8WO;a)cyW^JsHLaUX4iNz@k;gp8p4Rd9=E4`1z((
z?)@8xQ{@TajFf=x9a4;1i9@XnmvQ=e6i^!U6D~$-$O$IeQ2b0tEMAFSBDIw&E0)et
z1AmVS*;2_lmVLoA0&m2ka{2v~fewzUjF?G<Z-4_3=duxR&GFht*#vUlB8MoJ+G@2w
zOhT=4274(FRj>G~%DULhd>Wd&Od9fz<eWrvqBJtaa4Ze|d<;z{l1Mcr)3F20J*aUP
zOfs>9EbNd>e2<!>?X{h;s6DgW@25EWiTyd1B<&NO*bUo64||I3!*csDG1<X8&7swo
z)?V3oXtVi|CC8mW=jx@kZ*Jr^14ouzDm(mvwd86nG>zXhZ5a&_BKN*P(fhFMeYkAo
z+^vPy$7I(LD8+jAt@jlUKKs!No84y%wl2i9?OAInL>{^M&}QqgUvq{w$A5kqRjo{{
zo`5!Of_E&DF0DDj@I$B=9FT(pP}~(;_RB5%@3e+X-j+gec>Pjw^pre$3Psu)=;Z0H
z0T>K&FkK&GrP~{bm43^<)yXw=mx5ZIoxR1*ak&$k!j59#fE+l08t(Xlt1WA7>o0El
z4yoG07gnACAKye3*oco0txgm}BXVeDW1=`VDUVIwZknRX??8xBFQvl4SK)?Ylf-O7
zfF^62P>uHJ2<H}JpdvJ0ZOW@EKzyv7PmK!DkZuO~shcNn)VBGTC=|EhrbQAv*B(Qa
z#z7A2)u)rgY9DKRN2O*A&vVie(g9@uF<$E4xlX=+q{eOsWYQ{Px9cDoZ@AD_XJJ=B
zSs!K~OQZ&%4BFbJg0sC8=v_Jq0nvM>-Z{0F+6;{?Pu}g@_v6G56C3WEmpA)P%C4TJ
z$<@PH5%1aGvFi}7wHpu)0w6blR8RkpBR`C+Pu@Jd*?nBLbuGD9E>nKnJGQls&EP16
zL!Qv;`GTjfVC!Qb2cTc&k%7$X@yLw(r4vBqjY&`_T_xuYIN*rq=aS+BIN|S5R&uuR
zm;DhO!i+X<Xg~45;C`K>=CAOK`y~%{hQ^axS=gqtuXYx85Rb~rV6@;--7NMT-(>FB
zu^s$1*p5Or4!CdV+R$2)+_<-Frzi*5)}{Hk^UL|w7vFp3omUE;h-}~Yg%fEi_@hp5
z1Ap2fd=J)e+rS@zlXn3`R3n%f6N7l>Hyfe=5u)XSeqf=(%0pVvdhs(bm;oHKL3`@m
zwXB^P*f{Ff0L`ggP;<C;$)Tq1(gTsD&Nu}3o93uPXb_#EOElH5NrjM1k82g(qKSMM
zfd?aKV1UvCK<QJQ>Moch^EOo)!?WW|ags$vt=e;1BMZQfoCSYI{N4K>3{8I9_-)g-
z&D%_NAZ**t{?^A7^+bK&F(GdqEchK*9@Nvge8;@JO{cj`8Zn*dESu_mOytms&8|80
zK2&v&?_<#P)WcobFluU1(`#MnNS*S!E~lDP8pyS4A&|{FOB3~nv>es<vKfpjeGNPq
zm)`5NC)cIMR!ygB)2rG+)Z4A)tiB;2G%cBDjDq1!;8&nmBaov>Yl%d#s7*(u@avj7
z_;p<RJC41-s;k>&l%@+q)xK#ym~GK|#Dg{is*mG#8M&UGJD}wR-)EgQ)Niq-W*r#=
zi`rnn$-tk!Bd9Xk5j6gLG?CvoVlQa>g<Cc(^UKib<11ATX>2`+6HKZI=Oq-VQGW4^
zA|r8-;#nd?auEd8bL{F>6`(1$BguH`oDhF}p|55e>+o#k2*h6TWcG1*)O;_aPg$A;
z0Jhuh!vHI#jtKn^bbM|%hg7M_f??#m^aE;qg`5mIbcjaUs?ZjCKB5?!b)WtGj7BP|
zqoH0aj!R^;sVd@(ufqtE2sKj%&LpHPY(3-Yi;6#&5Xl-<sDbZ_3kpM+gQ;00>a+^L
zX-P{o$%>EZFI9`gimjwG3r%DW<;V`xE~bTwmp{*-v-Eu`M_74A+C$#1FR{pkK%c>h
ze@2bg`5-EICQ1UC&y!C+S&N)2vPVW*^>6Y7eF4H3|LZDu$L7{-%<lR^MPEerMT)*d
zvhUE61r}$;z^EJ;1w^iT@3w>h51pkD)8w_@Z3`FM2IaOvM0x;mi~e5OPx>v}9cSRX
zj~AW&x19Ze!$nu$Emz+MN8W$DI5=@@aN?7|aLL<r-E++Y{9E*P%ieA*f-S2l*syf`
zdndPCT(EC5&<{=9$vcN0XBG6yuHMfLW_JTl_CN;=-_EWa-SXMT9I|ac1Np1H?~bhZ
ze$WTam@7za_uX>#-673hF?>)CAG~QP9)3<f{M_x}S+sHL6SNQ<Kntfn8GWhb4y|4&
zxFYN0#lfTU;8Ec4{lLh7W*cIsy<%5wBojhbm1|UXJZ4=zh1f~di@=v#!vQ=#iHz96
z{{pWY2KDoP2!EDp)vVM!%oYfSk7SOCb{8sakoqxqB%Y^lO8h%a)}SQ0ynK1pzUk>M
z*t%Kwrx;vUnzotCsutN$z_BK>>cY=X>!%iK)6ZA|_1Dr9{S2y|2Na-3YR#M8fM|Kq
zoc8Sky>)xOMYF&yTG9<*4^#^xsMv_mEt>P7`OIgjktFP9DMBE0$AgwNKvt8YogBxx
zSHZ_FS`8d5Ees?h(NZ);-CI6W4gJ)|TjxZ~Hq=N?P?KPMS64|sk2B$dekN5r!dk4%
zU8O}^-VB;-nyR68h8n+vkuB+8q7Lcbl0$S{`hc8&MGo~)S|^8$JfwdOCt|NIEtOyU
zca-$+$<axwVrG<zY5uZyB!P;kPmTQ8UrXC79Lhynavz}pW4zT3$2PksRPYRx!o%0x
zcf-BK@R%GP+xXgM_=y!abjr&o@A~@-{zC=VA-JW`{*5j<bZiOg=E3!6<iNvACqHR!
zUp@Zb#5)sf$BVsVa_`uN@W<&tO8=ty#L|gh_6?T2ttD?q$s4?9HT5?zmgk+rV9{G9
zc<}$;(09LC^z6Ik*>}g^SLz<U`Bm9FfxX<M8npuGgMWJDok!MQ-8i|~eiYWV;DBBO
z&r`64)QxVfT%y=!?@H8_?ePDNZ+4xVh1J`S_(enYe8pF;pdaMaA8plWYTHF))o5Hx
zgA$iN&aLpTPH~*J_F$Q2zQjrVTQ0#!zAQ{6D>1|z)2`g{ym7vMd|kz~S?kYbe$gsD
z3pJ3H?X+5Xq)jmA^!=mljYWIjasm5h=cA1UhUx=YTZX(P4I_BLqV8YpF|yjSXjq2l
z@}>*Atg%`b6yR7=^zhtU%XtI#=qs2L%<H0K(FvPGC+2{sS;?F0?kQ*9p|t_}VZP9;
z)>i8ZdK(gQ<c+Mpv7C;|5T{%Ip`~M(8?!n$u=uKjmly5Y=<+UYmU#3({h|q10luUM
zmP!u{EBsr04emz2YR7Sv(tW%1k<z-Vy{wTa@A3t;{%S4k`Ze@b!ee#5^&G}y0(}DV
zG(+R`HB2h51H7ghW6dK}jl8HvUfLF^+JQ;0tC6E>@#)yibZkE}B17@o$OFu%Y{6eK
z>%wU_l1N_yWD;LnXs(Hz&SYcEI#$>gjf*gqXvMwlLJn(d!8}4T*hqu)E%Zb2lAV=M
zy(5!_88)s&5!h8cbQwrBzhzf<R8cA|1WBTFV_Xmvt0c}PasNuO0qte!R+bc|96uq4
zR*$CC{A2i)7U09_i&}$O$d2dc$Pm~$hl@?AEKJyNbH&Z>4^=vqRZP@HJyIQ!;;3FG
zQp~I{Yf*79KeISjoR!hD^0w@GSiKXL*r_2^b%lzHTCLn*%4+6bD&D9~d5b9je}r?D
z`?bN^?I_qfAxVU#!C0|<zudlmv;E*^%b_Lbo$kGVxOd5Yr)Qt+>RLL!GF<ZXuA5}f
z5U6*_)3@F$dqxTePkr=)eDFC4WPGj6EG#U0!Ug2%>@IeW%AKRd&L`x~Cw^wy>^xEM
zo>+0fLFU%pwP)nu=!*GHxPRTe{;k_jzPK5FX~lha@4@2Uae43f=HA0MkKNjP^xEXl
zjuxIfD?jx-4hdi9XK1H$Ra|@Zw)YUuk)n5x?A^1r@3t3kH2CKaJu7<;tT<MmT@RN0
zov_&Q?<+Nh$P^0Z3~SGBv_W9JV!G=OTt9m4=vv^mKe8^|9F#{+AlD}_MH|~_y6qoF
z;BK%7mJ`9qin$ctTMQqP!-rPfzw~xc%Nr+edyoFg+g$GA#!vI*URbj2tnQbnF0g;2
zY2zE4fu~kXC4XS$2*v45AW&^$#}rhWp#i#Di>?mY)v+r4!qrn2d9HV`Ji~L|4(+&8
zk*HUipr!gWIVZ_+lJg8X<K$c==M8cg@?ZetI0fm<ll}=g|ACx8A?GwXJ5|H)QY1M?
zY3=+J9*Ftw9((H7T))||wos<m%|oBlt9+K{%{}YQABJv(${f5m_x^O~Cqwth3r+9H
z!Oxss=8lRmZw=f=U)hWZtcj*pW`km-kd5m)xN%(WJY2R@&`~i-VMcgms({3U%r2!6
z9F*;Y_uLfsd;H_(j<u8PFK!&VX=XM^hmOm`C*<CVGKZ9p4t<pUFNeP%uPOti5l!Py
zf3zd>-kTU_tpZqu41z&0&Kd;MyN0Myfb>tW!Uvh&EDu?rU2s53=!7B|cN!{ELN}y@
zHb~j*^@KgR=TJ8uGBz(MZP^99wp~j%)-NsiMVH`XGQ_4`a;T}hv@W`+EF^@@kPy0s
zmR;)DrL@{IMi3w=p%4^3q8Il;>W`B#2t;5p6F!lF7?f;9$wnq$^y9#4S9~gXoybT}
z#pko}<mpLVDTRqH873<h^|Vqf>H$R;$>>a~ybr+M;ymhSw~Q38%8N19i>`fU6`yJo
zS0gh(0pjWuD<qesSd(s3@e|}Qd4|r#>yjJd0tk20Ub-hBv_mugw~%7eJ*j$9Ofr##
ztV-wf*nJG*C)iWHW|*(JRG2pix+zN42okl}^m00%qv64Ni&nZ`gJg{LFcr)<iNfr7
z@}}y|4fI7vNRS3rdXB#6+!^ZV+))97(kM`}_x|_`;W}~M_s5}h=>FKccMsV1))3*M
zIoGe1L(l5q$h`RjtA@xh4qb8yDdM13Qk&In<E%fPA+1dHjZ!UIh)EC?Gn1cT!Rl+0
zEmlMj^r?v8lXPoZy|z577B4>mOH(t$9+5y*94GyV3jHBDtT>6@7{!-*;8UEqW1h}}
zb%aT~%E_)%2I`XZ&&lZ{hi#T0laFm8i;7-U&_%0D@v{ElZnJicTVk@fe}lC9<z%c2
ztTRQb@(7$PNE4^Bx3zMziXyItMCj78U(tc}*C_RyZPK#R1EggY5!u~}i0qU0J{XSO
z@sowQb<@9p%WMomv;?j6maSG$)gED@FajjCGO;^>p0$bfQ=5VDEs~EyUUeF07ldY>
z$SqH#)VHtLH!k;$7yBNS`yMU!9h3Wxt(dO6uDNb|dp?0~x^I2>rhl{T=+d)ydI5PL
zY@-&|+o9&(i`xFowFlh@?b~c0WK~-@x3B05$*xe*bp$GJpeDOp6N5<~(nQkg+QuFe
z>0;#TFg#2EhWE~=9)n!HBB}|+4AL)9P{kR41YfO4jKwbOxsRNW>=1?-K}4B|SrvvY
zEH7ZLWKU#0vgsKs*v4u^Vv;TqsW0~$K^JzH=#erwuhSpmIkjQ%(l1dG1{+Lt%VsT2
z<I<bcq}LUrYGUctWmzM2X}y1>71@i0Mo2q`X@_9}5a^c!5VJO~Tq$&q-*iLb5p*oM
zfQh`2Y_zLjC4>CiJ{!?Z_SqhXXV+137tq+w2Oq8y3-vmw!=FSBP>w&xOQj+et3+y4
zv8cOtn_;5TK))n0kBjJP;zH$TE^7DS_8g5gXxi==v<-ITMPHxn>%#?%{15XRuWtID
zg2-Ao^OlI$sz2H}q}0kX^CY9IGsb%MM-t?dvwRxAa8Nx1X$CG3UD@%}E^acNwN)U&
z2<WFfdoe-x@9Fmx#4I!|bXuvp7)JgGNrNS3tA}xom_qtNiEUHJ@b*II{i~#wS!<<P
zqkReT<)h0Tn7g6<A3k>DvEtw}w+5eCede7bg)=YUZg`_($pTvgqAcCAr+e+;P0wJ#
zHpmtabVXB<rX6g8(lV!VvN%X^rMb$=`gDj?x$T@)TB}iW;F*D*w4~pe+4vPr5v|wX
ziR1V=WhCdn5&>_91CHa@CQ~!nle(KruBNgXRuP}M9i5hfsjVF1pn>rBeTGPcn=wn>
zgKN%$se^GTVU<h4i?|fL%E!T_JXGaU9;$LF4`C9IJjs`a4}9iym_xeR0sJ*g3WaKz
z6bkNOQYdOClR|MpGwkgHA!cE3h98xxoXo08wukOnDXPI{9@>SEL5jx5z^jr5ny1JS
z#TttVnQ2^2_e^K-^DNBhD?1WDH_fIUIuIz&a=4eCWx{90lDk5Z3-vz4Rhn-iV~VTh
zsL!&C6iNeW@~f8P>K(Rr7D;<Nkz~ILF(SaGREpygMOGq2tQr7}R4!OMr~xNMds#st
zfy?rVbD$uC3MfdZq3mU84B5oAUtt(gHFG0XlQ#9YA$lK>mlYxNHr3v3&x5kEAEIGD
zO~G#UsdxDXA5?<<6ip3?Vc4es0VUWEnN)tMM*V?+2i0E{kcn)osh0>3J)nM7MM{Dr
z_Om?tW>o=NfM#~MUU7AzRoXOCku}Zd5?CQjMn=4u;${W2;%oEtlSWKEK|eWywS?cA
z5wj9OYN>;An$@C=7BXBHrldXObd%EqN3l#YYNP((!B;5y56JlrIq#A~i}?npF6^W5
zLr1L=sK=%MgCHmYm;G;W%0`~&KO5utr}_WR^?uBSKIU5fl5>5`HGRxQSj^GC;70#~
z`^v}Mk&n5<Ul>fh;WG}-=MIiP$$!jEe9S%hg~7-hzOcdh+{W=Ef5q+p!eB)V2WP9P
zhxe_Vz5capU)$o~-8#*Go#$It&e3(HEsp$Kc|#xXSUpHOi7gJ^t+V_D&-br3zSsIr
z>lR1;@>v6C2y7Wn8~BcuZn`UVk0bv*BcjVJdh7R1FYx@(s(}o@){bnnea=ys&B6Z#
D6E4X|

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/exaone4.cpython-312.pyc b/model_executor/models/__pycache__/exaone4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c0a039efe8b83ae5cf18cc1e43af99b472d54556
GIT binary patch
literal 19564
zcmb_^d2k%pnP2zZ_kqDN00zJiCx^I5f&xj4q{tOWix-x<?Xl#kA-Vw$IS14;ph)b%
zOK&Ohz?N5Fwzddn?Fi0RVlY%9Y%0mpTS=@`rBY61Q<)}c&$vU?GG(T=^dDqGk;_RX
z`F*dadj`;e+Di73c>Vev-#hxf?|$>2+-?VlkTiWS;W^83zoHi{SSyJqjRuap#R*)L
z6L`Up<Wq*Ifv2=FX-t`-CYClO%_&RN!qVoXHEKn<C239BqBfRiP1;kAsDq_#NoUFx
zb+NQP=}vi~9+q|_y(wSRm-0vb?A@7cNCl#SRAaP}y}Oc4spe=iOS_XTsbDn7(w<~%
zsx8`<YLB+3LeUV*^Cmk|ozYH~_9eSg;b@qp{mEUa?r1klHza#fz0uxOU$l?C2a^4%
zf#^VLcXT&<Z%jr~d!l=gZW5Z4gQ=nDP--|j%-&m)BdO8oXlieCZ)#t3Uuu7Je`+i`
zmO2nUka{Ni49^+3uW~~09ZqN!ZI_eUqE?@GjcPi2kkxEM&Gs*;d5F~vp=QUI)I2PD
zSlv$4?Rt9MyOkkDzrtFC(PCHq7UGaNeAiqV^|RN_k?#59r_<A-B&Mgt;Y>PtJ$&+7
zJd+l~sf-{d!&8~mY&@5^m=wcrCvum<FU-x%B+@gd;#0^F6El}`*^y5OT!dF_r*ond
zM^&UPiEJ`4MJeNn^z}(R4e2yuw+j8h^O^K?Vg?!Z6S<t2&LuKb+LWD}oy|zOSS}+?
zU5ZiX34k*w&gbJ(mqfLZ;&?5YOjQ6F6xWQHi_Ol)W~9vAtkO$w0GQ24F*bwPY+Q;b
zlVURVc1B7Hv20?VM&)=pk(@h`7S7Kl@n(JL{L7OWDHSm)ZRbU4MiidUB<E7;3zfF#
z5@|6mDgGDFzP3H<rOew~vjEO}E;EzJWiLpXDKU$YAgkfUxj1GykG0IC^~u|4v{Gi4
zrs&bZoPR-#3rh2AnW^|iE%RjRq9_PhdDLtY#Oe54G8a=nKrESw3!<d7rsCHxiZMw{
z#b;wzuEw%c@uV0_$5S-l!09wTPD&IK@tpVyTc7MFJbgE;;LGZ&XU}C`I)Rm`yj{2u
zu`2!(bGgjx>W4n3_T#y5;d~;S#aPb8ucP09cr7Qzr*g3*y~Yx0LA<84B(n5TQffu^
z5mF*XpbVtqSHzf@n$2BD)#{ikA1xc32B?g5U2(FC3}#kwsdJl^#OcJfDRuj*vA6Q_
z<N^}k0ge;7C=WbmuygcJa0&*|C>Zf)5>0|xGz<JZu%ciQErJy}Hi4h^6u4<#u)pI5
z#&f*GMQsJ{8XvX4%tc&^x3XcsiggptpSv)rI4>mxK}@rqr1-bYfi{=osFY(Kit8=<
z?AXY(+ZEHrL_Dil)LAGNNzBbj=_w6I(?o3eBb@T2i0F^`TU-uLH7r{5-1l*EwX@E1
zxym`_xICXX%<z~Qa`NW9DR21`PB8q?@PSb~>v=9#!BrfWvuiN(2DH@bn^50eQ@;w`
zC|Ir><T%Njb89UHYu<=HY(F&KrCo&Z2YgQZ7Wx>`E6s?7>s-V>`3cAn_gnYK3|2EX
zHyfLkGM6J}#gRzQ&gIk<b!Fyq+Dld%M15%wMMH?@9V0^K?KEq4$1Lqbmg20bzpc7r
z%HovI2VYHB@QNse@l_I6*(v-=cz)MN_;(5AQMGU)8?IKH&Pd^O=IxP)T`?mU8`l=Y
zeof?JG08{Wx@xB&HBgpa9~)3qJUJ(xl%$L#d8o`n2V^=Ov0+SNa#|WdrnH-)2t{m$
zY_2p-#U6`ICF9v_ES9D93#;MAZ%>crQnRD8iP_;?99Swhd~NRF;X_vrilfQI#nIX8
zxl5V!=v83HQ5E-z*TgBDUrBw<j*1Mm9~havF5!D}^TBPKdqkV#Nt9;)5YcaLaGMRB
z-Lq(wZNUe&wuhnda!Yr)ZLrunwEC9Zy0`3aD!2BPn?p-qTYj?`7~FJPIvfSl16%8+
zhie-wx9lzldul61i-Fy!)P_p$dNw?qt9iNkzO(CLL#W)aXZ0(qL&fpei@vWtF&YA%
z4bI^9Y+AUMU4N7;n7;3Pf)R03w1>1no0=V%Ye?MU^4#UhcGN1+GtX<A^bNFKFf15R
zPd^UTnt6j(Z-GY*{Q%U|*b0dUB>rXY4nG+&N{3KQdX}QYh$1HG2p$T5O|e$Cio(aT
zCgjoAl#WrM72E9XxFpQCZ2u6If+^I>63iQ1xv90()Gs&nue`P16j^i>tV{l~%lF>d
z#k0%Sbyv8+m%V}azP0$R<@mZcyl5)$g?(kOuV9m&L;Hwv@|40w9JGyzB*bEhBSsW*
z4m2XBxMDG2s$`|a2&ASMvpGp>q*0nKW->{(VI<lYio3Eqr^IA37Q4esN0FPQbwAFg
zCG{i8q6sR9Bl^ud+=h!AJ6LXND>nx}^@hwnkD7uTW;{16T&QcqN+}zMJUgWvTuWs2
zfZRN~;iOj==M8MQDdpk(jT_W_!^b&1pZSscA4g1PKbs`$la@>mt(DZ1zeM7T)Ip^Y
zpb`xgDq*Tn2@~jp8T7#-T1DHmfxuMgh7B~sF4`+^4$&bvMQ7#BC0YeH=t+>#6A$Q#
zOYn;B%OQO{dP4B+kngUaKW!2G@0g-qMwxt|OaaAL*)uu=HK|xsLc_3&Vo%SdVwb>5
zfP7LCEP?vwAdVxJyCmk~ii@R*RRBF#T2k?AvDr*EL0k%mbcN^0R`HYKnj%iDLeUsf
zmWDB_DVIJqj&mZ-4&^_<5!yz@eA}rQXb>0Ek91C_h8mq)aOH7aV{~v>z`@jMik62X
z?wYsIH@X6xnl+pOHQKQr`T{)taD!TMF|<_!TGh@(%XM9O16#Urr_!3fn_1tk`Za6n
zu`yODrhrwb-}5}id$+Pa7^yz@TtFW)q&R`oWD(S1@*tH0CY|7I;YKI&_4TY4B3FlA
z&87ag!PMbbYt`?G@grP}_5%y3MZ|MkcxqeyYt*kLnC3BNj8ErGz|U|oqPZ;O!8OHn
zz9hFx&!_dSvo^@Bvj)i3$Du($ulBqx?*tcQ2IpkCTiLnj&#%?V^=YXc;no=gTQ!3Y
z-3sWo8oo^b?m1!|SlD4M{AJ=RwuKMuHM^-<EBsr4)uO=?91HHe?b}Ux+hyX=wgv56
z3r;$#l0k4SxN~D#rMy!o!Ja&S`GA&Redaw38@s9Xf;aD#T&Oo*E!R?MNCEg3?b^HG
zt`F}jFhxwq&^aQuEbOqR^>>XGyUvn#f8e=W!6bm$sX@vS0cHU(|Hfwrb=$Od)hBZ6
zogfExB3Ew}*#7il2l?(+_BBQp*5H9B_fJZMTqIg2#YO}oCL~fbYK=!f{jGiEEf5aI
zr&}v@g;iprjyIRd#gnlrp=qdQXyj%aPd;xQ$uMvdee*le4~VnbR}|CC%-r-T#Sg6k
zNx8AOt`&fEAfXrOI*p42!77CUXA;kf(yKIdHw4bKn7J0q=B_8jdGiP$q$6hOWfV%U
zQ$%M$34)cc2&!6FZ$o0uyv;~iWS2xcN#%7Ii%w`o0`BLemneD@kz&Lc7+i36prJYN
zNnfXY%Uh}hV<q96BtdJ1u1c>^+t(-})S%e3B~|4HOJzX_O@Sb%FcIh?VptafNomD$
zMSU`b0dZ+km?}F}kvn&NR?I4%trJq3;<K~K>rA~6g9b#MbyjMkhT4*X#7nd<6cbx6
zKjT@Y7m=e%C~VSf3E32ArPX=RVya)3t?dxOu;ymjyd{y|>=ku@a1G*JHdYy&$}7?;
z5Eon<Zm7H?lS^8+vo^Y5as@53e~KOZ8we($8o{L8-cM3T@L|LFdc&cDwcNFv-a}xD
zOWq#Y+p{twdxzKj_r3dzw*5u#{&H(asdZRx9bRjZTMv;iQtlq1CS7Hxx8&@Wo!u)l
z_npJwPaA`!z#ciUXZ3YCaNr()KXAC{I$R7K2E*FezWhq5<A99+TZ$frx>op=1Erp?
z$UR@VHzW6)To0XMV$tJZ*NSD;u{N<DJd9r5=<U6ui${yja5)q%g@)wN(3+{VcS6Sh
z&_rS4-Sg$<wp;0&>6P4%7k;!LHy=PNXSt=l)UsP{*}Zz;!=rbO$}Kbl7jkbc++0`@
z<d!|`y{#7yZ+YMtb=~_o7$IQ{;8HhJthc>#Xm7czr_?nrca7IdX<sh}1~$F6R+7@(
zn~faAIO=gwZW&w^K1|(7$t}-r6YO3u2Kpe_wNMl1rjKjsTo&F>-A=7Fm-bD_`z9VV
zpQMt9%^h{~9|c1NEJjPw*|X{@?LI2+KDxg9xsS&0?>=1)?JAsq+&HjmS#KOI*vn1r
zrKSP7X<*eZH|;NupO%|W7aYGlcw%|F)H!y)bL^uWO}8CiuK(~ymeTQ;<l`?D`(C2V
z?#FH2BsHC1JYQL?GRd&*B*V51Y`U%OG<+|H-_%L<CKo5Q>UcZ1c#dtGJ#y<FYJvZK
zky76wx$lrF0l!)d^lbX=O#t$JJCjKiyT(sv6}P520@4t(Q?(K(v7?M-&S7uwD97sZ
zDU)N33#PoWt{l4)d#AIx=&ce!HtOWg7zO?VgT^Slfsrkk7c2`PbC-4Hkp_X-Za}F|
z*y^xN(>mM*uxgie=Bx@YZ`PRrGkPR!u`Ph%<+afPie<-9kz!_BK%Y+^l?62jOKuB!
zi#{p~di=6c5fq)hs)EXrXb`NvYbmK2`8u<r<$}p11)W7>?%8+8mq6W)Y8@@bm=LR0
zcY#=fF0HKk%-ghiFlct{B2smlCO`Q<2+$Q9L1;hu-<0-ANwk9oY&Mz5NeQH-%amcC
zOHU^miB`!Xkv}OzB~~q;5sg{O&r+15XpW+*6r~VF94fV$r;Oi2q!>XLCDIuv{96it
zMd7b1PNGXORmG=R)Mu8qT9tIDbmJuQbbZzdje8iW=u!RyO0!m|C~k1jEi^RW>bTjl
zys+*cUbGa9g%`^WO}8R9Bg?P6|Bc(<Snd6A=+4kR(@$MLaTP-+f3|-qvfePcXeEV8
zA^ynaW-1p0Du46#H&<Wz@Xb4K7DLajyN*BuQ_;up-<zZt_j{)oPcL0u?p}9wsPCk#
zLCaFdh}<!<X8LpYpSg>nW9zQxzNGCVB1xV1ot-ParS2p5yN{FuEw`S#`P|Ck)%co!
zJutR7Q8-a}i%@&wW&)IF-%5PFd3V8CZVcW!d-LpybG>nB(O$4DK}*zBaH~2Y>nF#5
z$IDHA!i70*^3<es3ab?HOJBu9dV!+T6p>sbok66Sr(tTyDJCH?m6Og=HlZ!1B$Cci
ziarcuo)j~);3yW=)WGyc(s?SKL{zIQx<Hu}(Z<UDH6qd#dAN?=^2q-3z+id*I4O+=
zM@etg`gPvyc;xHYFjE5fy}5P6%95bOEgN>0gzl(q!^x5^uBmOq&5|CjrG0s9#khQk
zD5=~$xZ!2_KCZiO!_Sfpy3#4Y-Wy5l)Wnj_Tub-LgxtJ)qlLW(Ne#tDv(ZL+sCJfn
z)etZ@KMDkI9l3dA!;CaW80@%}znR~#(wmKQc;5>xhCa9BP1RV@%%||D2TfLf@&H+1
z)L02FT~npnF-*Ee!widt1==SE(>__5HNyrgU>y_)4Oabp#}4_L&18r2`mI#G*|be?
zLUZM0nkyF&javy+*t-dF3Pwih9NCQ~RjyO#)N52rw8^wUf<2>?YoL?cR7>_RsFwKp
zYL0s9raa6if<ecf=BgqJB{k|5;9kqOLt9EsRppE1g^*bhw6r19Gj9=0NATRz&MfG7
zeZjh=#46adkzC`mZkT%L5VC;L*sG-rww$(Mh*H$2`+Plmw*{gDqpm{}wK1r41!_1O
zlyxR3Je&|HU3V)zL!i`0m(!`@j$^5_9npKEHoxjKZ`?9QcXifm3?7WZTO)4k>yRV;
z01JRyPtC>G6RaU1lN^kI`RMASzXe!2f1?W9OpaPaH>%hg&PWLu)FDLI3bwVXS0*-o
z7Y!5-qqs~pONPW#O#V^=Ot&juk6k5`ld9r{os6tZBt@qq&i_|=&X!8f#;B)x(+H9g
z%hRn^(l;?kunglgITGX4>X#_>_b4J<rw+F|5mh5?*GH?`4t7)Z2vs+tV~LhfO4Dl)
z%yh1*98hIiCLy=6l4(&CDkQ&JrZE~X5}0iWhJB8zSo=p*g_$#ml<7Q1t!x^qgS>R{
z^kcNj=D=r=c<R|Ap6)8O56kVtB!mPXHied7TX|#c;Cj=u1;;~3N>^9DwU%3NIZ|+`
zBG3ocva6xkIDXHxX*5I}ARYdelJB7GJGf!w+^xmdXJywBSjKwxto9f8pZ(b@>)kIE
zZC%J|+qKeMj2yoA%zEpIUvq{w$G?9apq5T8pM**66z?c_Hf>zno^qhI91N9$yXD|+
z$S$Sky>j#3hppkVuelf;UcFixJuQ!(Mw2!VQL%24b$Xwr*xyAlGx#xEUb{!N<!yFy
zjXhPEoxP>bak&%b!VXnZMXQJY;Bxay+v=<9{xKE8D@)Ho=xQXP%Lbt<vKM15xjJQ6
z=gO&4??JiuAe%p}S|27ixW8WcAe#T&HlR|}Dm!VD#B4%<S!=2m3s9O-kbjN@BrVk%
zh)=dXkWu}Es+2(rV`{f8)YuFSz>o&&e!)<IT1&Yq?Y7kCF6)@H3U*748i;x0v;pMP
zFc~pO`XpgyyoILHZHksD`um6~#>Z+k=}(Zm)%eJGvibIUySZ|L0$7x69u2`XyST<(
z1sirkYsdSZ+n#cB7sTZaGuJxsgfl`*;6@E7RD#dQ!DrS|>%j@g^1<-RQ8~D`;C>Vc
zYi(_}Z7Ut?!BI3ISf$`WIe74%dp&q+O9O9c`BKr_U$phBoT_oM!kxP7a;J>%Bod->
zr40FepI-kE5qQzL*`)Xs9(0MSQuGji*&iSx9@NGS?IrFLe5dn3h3&)><JNdVE4|uu
zuF+1f4&n@{J{AOwp_@`kzTG^a^My#$iK_60^k(D0GY;JxT4|IU`Zny8<p8T#n0qh3
zm|uSN{WosEQS?S+`<~C8C{wpN4R;IUsL}5y@O#_BI1*p;1Mo1a3(T~Mv4`e&JW=o;
zqUEwq>j1D4$naS&e;V#GVC8HunEG~XYiI5?j`|Q_EVT=24c87e)Y2VBAhObFhv0t4
z9CZjD(J8t_Q+-G(`$^0I=HnJkl)?<Wn1P2eqh6dQzv8N#fb-<<CXomPi}ny6ijzDk
zYAu~p8kQhVfwU$JkNhR$M89MFj_Et*Ee<=7(ziP7)aOU)>0iEULftxi<agn3P*2nH
zUGw4=Gv*>0!F24iXsY)$>+@}QF)a%9#D*-~3hHrc(vd3Pr?;=8`;d0m@Kap9F#&#?
z+J9}lXa*jx;NDv9EbYzd`VFn$+VZNo4{*C{A*yMJ{-%O?+9(*_0cQ)o)(D=`r1eBv
zFF@1zRipzN45W3A^=~-$f!v_hdWTt>F4MN#7T}Uq<x5+%!X0L=m*@6rH6apOXAJdw
ztbwfa%-~XOaMxtk5`DiDFxu}l|0lGNe{94~*G>bsXjtSIVWh`bs!&>$PMPY-bbw8`
z3nYqWtMX%vGuwk#l|<dRp)y>G?MO17x+uht%@5R`Qk~rzIg*5vWHNgU3AN%GqFJ;I
zV89-<kAV3ocSPuaOUGw+bI8MxCu~rvU!k-@Lm<ADDWDjYjI>obSeTm#D`@_E_Dj<m
zI(VJh(1_U-6~|R_)>N$@gov3rYC0i-S(W1HD@q`j5Xk{msNw7t7tA8?@=~ivG-%bp
z=3<T)@PWMoKTU~txYR>1{mjm$Iv=XzSDaZ`#wwndid{?#D%Y!6D)Xyy&L-lLCHi(s
z*O$0pMy#r0?nl&fosXn4$i%sTK|X%`crAC_RQEfL(N}>_H}^kpa1U*6&6(_xKUDHZ
zWPhaOACvuK1q)ouN-d*u%P833YVuKYhztki5VPpCK57e>+6LveK~mH|bhdo&SjjnX
z-#NfI!~XlO{tu4aJyse#b${^G<M4Rd*Lcf&(+jq?<m;Aw-PjA8R?{v|VdCemj!hT0
zYji!lw=nU*)$#Dq^9)3<?CSl@V0L>z!CN}u*2WAQe*0mEY<q^W@5{YE7+LN8U=Vf@
zSCG2zzwhjSNOql4c)uLpf6r1nbXGoe_CfGmVdDFz9|!x_gS%nLIsJI_wX!?3e7Wd~
ztd5rkkII8b!C~)Z?CTKQnu=X@g-i%p)vu;<__5e3xnU%y7cV;+33L~=mpSPKD&oKq
za=c?uzbdi4S%RuLp?THqruRFqNjQumj%+La27OAx1Mo;A(^^>ehF4nGy@N&DAe+G?
z<2sebEsn9OM>Z@Vte32M3bIo=g#tXCp1y$|YO#xk*)P{F1sYJ0TJxrF8}p_GbJ`F7
zycV8Xp~m-b!7OkKmb52tyrDV>!G=I+5B3940G6`UXdHHO1R-8?TR_ir=(h!pj!bZG
z;utPi4IG?N4E416@A^$O*i@fy9nLK4sZtw)Bp837+k{>QwYscRsOn(0T2p|TO_Md)
z&QOzfNHh&;m7;%15n*%bLyG<>MgNSVe?k!vX=x2n#8%x^s<`p5sOZlrBAq@%sft-e
zN5s$oWw21AwQt;lGb+NzH))^!J2YT|w0g|gDffno-reQ!@J;ulaBnGmKn@>R`}%tL
zxg|FYdW$bS3JeqjV@1~(;&N#3T9+I;QGl&)aP^Gba<K5i<EHlIiTBUmKD*jjiX4_9
zC?ELgv7a3KMbnwW$zS#lmVK>dUq{&&d}1{Xcw|>k;r#7G5V@Pr@{s3!q3?aG<lS@M
zyXRq`zuY}~?`yK}6i#rX>ZuAw9^#SxwtZ!Io#dV}#%c?x=h|AiEwROWm2fCK(Ekg2
z`xZ9?OWHr=7YtR(T3_bWc8F%jSuj>z!L>42b@&NxiGOpF<20)goXpHuIf;MQB^W7{
zg}Y-VrwKjL3EURGeW`waJ$qYqpIze@tkPLX!&Y{xYIT%0!JO02igrR4?69X1soEB_
zxxoD#8X?J$x1{0PE?CsFit|JcSQd?o;kmr2o>eYy)z*pU-d)Taa30^lnqb`*91Bjk
z7do*9Jgo|BjrGotGw;y)0Io3CvkeM*9};ThjSSv_9MN<Zkf%HGp{EmA8?(ALaFVKH
z4P3Bmv&*}*RpL3GOTTJ@ga4O|z)~53VTpg2&*?Tr%B`Kp4J!BVFh(lts*bWo%e=!E
z)W)mzu;bUzZM!^n=esXrJ|^HK@SJA&P)D&^;LhGsJ%rxDTQ&2Fn)!FOWU8)7(%)4x
z_fm6*db@yJmY8c3Ah3MfNaex-^L3gJRJ@8n-$oMYtFdWGd~3d`CUYv2jWK6eVM{hH
zzErXm_m&GdtTQ+sk;XLQk>15v6d(EO2-WK^S-4e;In@=(OP7CCZ(4R$N4kU-5^V<Q
zTh!JV7X-yBiL*&uwo+_h?y__ROWH*>{xwCkgCcGf0sjRxX$Ctubw%qi3!U=pEcx|1
zXK|4Uenn)sQ{3#nP-ReA#Y98YGu0U>j_Tzh#mpMB9u)^mGY@jbS(!a+Z_8eSAA1aJ
ziyH%};P@I$uehk!%8jM$yyoDevKX~RzfXAo-ypid{n}vdb`))$<V(`Ne4y06S8m_C
z-oAgmd92`k*xmQ1eFgW!o;|Xwt1z)NT=w>^nq=<~aCh0;zuGH%M~eGT|Lhfc|BFz!
z_*->urHDG6-KEY^xpTDC`JCMO+()MM&XYyo$t4FORBr8EIU@&0m&^~t1FPoM-+yrY
z)%EaeOYTQ~`%8V}a^LuR-=TXa?)M$NdH$oL#TQ?apMM!7!r%ER`srL2SKfT!8v_+7
z`F6>^T`PMY_=Yj4|N6{X*|%@Wv3zzlSPpc;M<=kS+!!J+6c`9s&aSmV{kvp(1jFvp
zn@3k#9t0w*!o5Lx<Rof6hV#*ZwZ;d5alAYV_P`byj4YYU;l5IMOb(ANxqs>Fpq|%W
zc;Gww-+WCQUEKINexnz@OWVQy65v|)t~IXx-g?XPOD0&7myS@L-UVK&U2I!|N;fn?
zS8K`DA-mws^9xtchRAchgB#O4=j+gDp2~gtwrlL1v~|x?bdVxlPp7gRjI%gN1w<I7
zA5!#hDf-V8ou>#CZHo!{eafV0AMKr=A_4W?qZ7~nn(H?^R^~V8ac}H1dTd<adGpX}
z(}$rup$!hndwoA0`pM7}O5#Sr$o@~AUFMF8s&1uM4)kxBk%2wY*vhQBR(i8>UHjK2
z<jzAIc6xPGlzGhUYJ&if?vGh|i@`zJKKR5<dB4LSGk2`Ku=?uS*gZ3IE*P7Thfm7A
zr#3j0{A}!J+5dRxb4oIffz4<NlhK1lH=n$NdDfbSRlY$m2*w$MVETa}Y80T`6Rb!<
zV>iP?(`OeP&;dGOBE}_!iVn~X9iR<5G<!Xr4lXX#&4&ifN9J61xvp);)(!Pr3jxt3
z_?d>Vafcde=?=Y%E@}(?Ula6yZlQSx7(299d&Ue}NCzkcMX%_?1&{jkWD)^kSgeF!
zWSk6IwxVSN(;fyuwc3@23h#O<BRwCV%f^%E&f^j(+%}2)klUvERLPWLXE%XZmQ}m`
zW?()x?Dml2Q-v@la*-QsR`FMEw^g&C{U^Riu|hXV)-$PuH>S6gRw(r&iiQyB+8dIa
z?D%7xrhvC?cJu!aJtf_Ls;8$U&ot=Bba{+jvLI=Kh3YlJe9fi7yrJsTRrNgs6cQWM
zb~<;aafbDFu5_!0r!m&!uHZFCXl7f;o2u6_FczIxf<~}1a*Rcn$pE8s8vwjYqu`f)
zU(CN8u9MgO#XPhQeKEK0g#vcQHQsQ+oEy;EVPthU%DnjltHztvYA>Nl9MoEBtGZ>L
z_2)wyY+FDpUFXZRh>DqM&#+<jJ;^pJGMMI!V8Df$?n<kdm1k6l8_&TB&CEEENJ~{2
zC;cN7OaGW6UGc_{q|{4!zodvzq$;7(P^2GIL<^%Hk~@^5Nh%hVcTrg`+Et2=jRTjK
zwM*No;_c5+_C<Y|uCJ670?7=<R-{yhr&b@P+1G0DgRZ@NK;-JTXa-$njaIDu6s_1c
zRoLUEU2wvE7$A>g>v~}CrrFp`rc?(^yfvDs_6Spd5jRq+2YcAkvvO+n^m@zqCaFfD
zpgIS_1x1-Ra^D*%_wV`f<sV%x^&ge{kCyr;<o<~z(=FFc*8^YAV;GtHSBLKf*4vI2
z&OYn~w*&PW!C!5My|#~O*LGnLp*`#EgAA~RbNk;rvv{WD8kb$;V3+LfpW9TOmqaS5
zr)awlp_pmA@Z28inq<GA0W+w(gXuK>1whp5zZlyw-~B~AzFqV68GSC2=$Pi~z4^s?
zER^hxtVY(o2a2`>HQFypSAx`6ag6}V&iXqjiJ;QbkPeBQRZSl4ayVif!9!iPc}nTs
zX$tF#qa;c6HB7i_@@=a#)r!*PH#9{$O|bZSxM1kk{LT5Yt7++av3vZU8;Xvgqu>HF
z<bz(LUFA|p$+JbLVL}F@G{=zGagtm;Z65CF60JfY3%WLGgG62xD&{b%GpA0W<7U6I
zkfqKrNv2RzJoK9pbGTft7S8XgGuf?GOz1M(1sIsK4X&Xjf4}VShqHbDNBOlk*Zt2!
zEv>suN`HZh^`|?Fl3KN8p44%b>7Ymt^<0u9s3K>0y0KIxe6$30-2-ZNH*WRL+bVp(
z2#}^bdnG}a>giV!#4JoKM50t948wiILqi;9yN6~%Ye>Hxv1JVzr#;_QXW?q)G$$<^
zolM{^Ke^On@rL$(`0Sl$OM_?b51v^*bNfi~!YjBC(BLRou$u_4bj#lEm4h|PVt6x5
zMjE$C2uky;D#e0);CgaZjP>hWQ03-wR%xwf%|c$Lt3#Dml9T3smZGQ28NZ?`w2A&k
z!p480iWGfBXQc@dgpFUDOig6)cL#A=Hq3B{_|)y_v=mKk8zHWBupH?B6q$H$!YXwS
zt~iUP4kn;<sR9ZfB%t5{DS<aXQx#C2sR}61U=fcT=gY(UK6N_GA>E$<=^FWj-fH9%
zdfg_UP}X+&gz|!BIIp&Zn7gVOX#iD)m}Qe}4?VF`md9ou+ChXti6+7zsUinjr^pe-
z8jA^;DO@x6PG#^@EcgY6OgcLfzc|H~9VQR_3`h=l%(G14tXOcL2_I5*E@t8(;W5R9
zUl~bffvIr&Da*W)6%SeH>86+Z3o`0ergoM|hdcovb#yf%z|T~Q!y`E>5g)7?_D3pr
zrAeR9_KM<T4TS_Qz9%jMhX^V=;ie{itc>w9G3{3sDn`VS>Q73jzxB}jl)6k2&P;Kn
z?^Jd@tt$J`8TM-v?An-mS#0oWEf_+qVPP0&Gw_ra?B_`;ze=NC_J11us&Y(ZM@_v;
zHue<ws#%njM(ihe^usDK_Kb+BGF-2@y3i_e8mZ`+=5h(_5T+j^u}pEZhFS5gIr{A)
zW|E*E62V@=PsoT_i5O|AgKC=9rVJSprkBDL?V_lgq8^HR5h<4Q4CSa^h!-e(i6T-i
zutR@`Q#UrzHdv=sRC7$?fCliN%l-n<hLPv_Plq`EtNefGdOzkuA9KyW;#?ndjURLU
zEa&K7aif35{qD!yk&n4UpBqfP;ZqLLXAX{kf&Z90^)Yw+bAypLd~QSZnT_K|{+iqS
zxxt1U4$-F+Z8rDt{-ulL?!U<)xp|Jy@O<-<bnE)f>zf><HwEKMJU_79{eI+jWRs)x
z1}KuDWz%rhz;`U|zjgTL;U^rWpBRz7!Lm2sFulz4L(2{Cx881DIk&dwGmhTby#Fr}
Cl+EY>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/fairseq2_llama.cpython-312.pyc b/model_executor/models/__pycache__/fairseq2_llama.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0ea66532edfa5fec6f6e629260f2ad979418beb4
GIT binary patch
literal 6728
zcmb_BYit}>xo37}pWdgvu}$J8>qpY89go{Mty9HK(i=M|i4#>#Lcz35*L!B2UC%yx
zW;TwuYg9p`u6uKJZA!5t3Uvh%j#5-3U5W4uq$?y4e>`!J%_x8oAn3m>PDRVF`<*j8
zyN<htTituCJ@cK{ch33F_x7)RJ`aMT2>+h^ODjTuqz$XsE5PR00GLM@jUvopo5H1S
zqc)Dhyuy$2@D&sxZ6CF>KD**bJ4c-ib||j2d(@rwjCxqxsWha$qh1EP6kpmu>Ic}3
zJxU-Q91W&JqahC2&>4gqt|RP~{kM7Z45N)xeAHKHA5miISR|drvJy#TNhA?V5><ZX
zaAZ<Wj$hGK@dG+P${DWDYch$ADe?tqxSxxWSXzc2Xn4M$DCtw#Od>fRwHbTIWlhrL
zjG849Lo4NAuA<0_L}Hl<qig5!$t+Q@q$Ue8U=6B($2^1-(=?*eK6cvES#m0tS7XY^
z`42dHIGYiACa+~*Fi$*^jbWJ>zDo0aESHl>+`P3}vj+lj^Db1c!$Zhul!M2x(Z_fj
z9zo`@APWhhgc2OKU-ysNu|syqPFav$sm86SOgLft902r(ow7$3D3lPe>$))7fZehe
z*7?ji2^;o6uOBza0z5}uY!9yhjQ?WagbVusXP|_xaihVDDC##_PgkCCJHZV4l#U#c
z6Ul2v!&P`VDb8Mw1mVnaN={mA@Dt!inPu}EP`$;?BMrW0nc<7*KY*EwT+#L(cbm?J
z!XeFKaCF=3LPaE17!D!LUFqC9T3vx{7_g=s)|}e++XxHa;m2)&t2#P`qV@|>8wtTQ
zcJzXaF`Jmv{^2m80uPO-)3B>~U;x7<Ny$u7lO#fs7)~w6_>nlR7Uesm6*x6J2`sAt
zZ)a2~dsQYRiDfk^7=kJ*iQ0~aTaw~ROjRXGrL>AfBCq}9xjrqO>&qo`y;_U_r}tjV
z4?J~rVnFUwl4E_jDeX!&(?`kPXUc|rO^yTW60@oHS>h)tR4&Eb6xju+3++3-r)b@3
zKTK1fh3ezi(0!M0#;Lnn7r%U`dBxRw&vo*C%M+_D10~^x_kPQ<)t09zRCXa>%Z5KZ
zdujf~xff?IEOxGV50u^ZsHY_S+O>ZZZ~>VrYQS(1S<915yz<s`5H-M$amaJPH?O1D
z?Z6`z2LW%~uE5i_BK%>_l95!EBN!G|S^P51)p&?<1QxLUZ5}(Y6T7Hd!wuMreQ!J8
z^IKdu%@_F;eZ*~L%l=&LR5K`5<-*zmYj^9!Z`d_@H&$j4tnpf{+BfB|!4^c|yyIL3
zbjf>x>iLACkfLn5t(5GbU2Hgb-Bsj<suE$H0Hio{!El>QG9gbDnoOpa(_=E0wCn^Z
zSdlaV&VmbM_=+6EVw5kmU^xz|oJa|h&43cdB3mF9T$KT_(2z)GVv3X_*_2oaiOEbZ
zuSrU53fMhM(qdt^n9HgfRk?CTOJ*}$#~MW{0(2}RW-BNHVp_?G<1tOHbof|DKKIZ#
z&Q4}39S)Ig6m=GwYv{~fB=ZPCF_Eb3Tj^=3%@nhFjUL&&K!8r&x;tA7x5@w!tUJ;v
z53TZw?7}8;FdvOsk{k!BN*Nhs-&Bqd^{M$WRin1fr%oj4&8YsA)vCUvZ%frmKm0b&
zLiLvI9O%P&(0?!OM(9P5nrUv@HY22}@&S`7g=*0m-ZISJ;^sLH-Dnfg6#5}Q$=%|p
z!EGh7dL@>VrK*Cc2xio7*u=*SAp_>v@F~>x;fmP=Jx{H)N~qweRMAou^%~g&kl`L2
zmoxIU964S%x}$QT=qkumaZt&|V~ToQtgd{X;_Zd%<G)h1Q%1bc|A(H#dic@Vp@rTu
zk3zfFg1vgMcL^__|Jjpk!Lz^VIs6GzmS2x_a#6P-;AC7g>`6_AV^SeA>|m~yDI-Yl
zgPH5V+zgdafixVZu`-&pq%48EfF;J?IGGt&4e!?DMjh<h<Po|oP$8ByNvJn~jmCs}
zn7%hNfNAC-7!F1}Lb_pvN+0uOAXnrhBNsUg?ZW>56`>xd>wgZ_C$FIgF0^Og!sNGm
zOM&&q_Qk&C9=+qZ-gsiIaaeC0UTr*6az1dNy*(Q}C)eA$*7rp}bP5rF*^7FPuXmkX
z?>VvFd1Sq-e|`Ux>yd*W23!&U17BdTXT`O<96?R{*BZO^#_pwo)yDpk^G~5&vv{q!
zM{n*~ZSGwSi6zIMLLKYg;CfHr`^Rn_TkAP{x99A_*_(qa&s}<8=NmmG2iSmM^ID)o
z4|F`RnXk8LhwmnD4|>YT?)H#2xCx`lL#m(BhpGMz0A3e>(Ybo8Z7J3v^wMZW3~ZpV
zZS_n5t{RLt1Plh_Dk6{6j6r=RZ{fGpCgvwV)ChOuXwBIu3E;#D*In5DX*CNo&(~Ca
zkr|rg7Ki4>iy(%ssJrmYMOjlL+7&tSa#EE*6iH3aUXCP`*my+CMlO-O%)DsuA|jPZ
zmLqL&B1kEy*bk@)eMoaqLNd*90D!l+s^)M}tx@D=fD{$2;IXs<q4xe3y2X=60Wf$F
z1H%a>BCp7*O7VfDo1EJNjl#(tIhP)N+kNVZx&&BM2xlsyz7jsC_nlqhXD=?C`Q}#u
z{A825KwtNVxLY>EyVXh=&We39LZ71Cr3)aYRDpn#mQ#|N!7FkG{4DB;@v+Pl0SbVl
zXG$`aOLCA+W_pbr2iQ_;6*)D+_3l&X{Y=;YBE^fL0-d(8r~RG5n}gpyK69=#G`oMj
zdG~y3F16V7X0~)@J+NybJoDA>cP`35NWGi-p0e7}zZ|>UF|ZMAy&np%G8#dBFLVxi
zK+Z$$i@R2$gLm-C!Bf8u4t=-_wRM~FMXyDoP{k=3tx^@T-vP^jf8~Ubk*j&(DauIO
z3btug44D7ta}y30-w4;e(*lTZ9UltYEx~%ji5)Xe5XrqZR20Bop%i_aZ6#$zR$Kb3
zevmEGj-3q0BmWdf9bc=4Lkn1_OHL4L7l^gHj#%Hro@qOrkp?x}3T~Jf0%HF+D4{x$
zT+vRA<qo$CZ$kx5rf$CTFL2d4MFGt5XV?Y!Lv@~o0Nzq~U*mAYIH$E(CxR2ugKsO=
zZ0i;2uG5bCbSXND_CZ(=n5cuWtrQ&=j%k}lZ7M58zR0|K?8E-8Y7+<8JBMJWeb(IC
zx5!(#I2J)BY~bw%3wxe7U7TtP;!)Mooua`_8qN%Jb5*hzP<_f6QCE2Li{M?+NEQ67
z+ICf_p1c$}MiVeMu%;?G)g`C^G6qp;9oevGYsNJb@Iqwoj#z+eAqwJl*n^JJvD&s(
zsGgL80Y#~X>Xa%#{YbbEoEY288Yo@4Q_5GJRs|rsvRRUqs>)S$7&rmeS9A=#kZ^&}
z26>8BRM4X?@)&#!7mYq7oJ<qSj^s4$Yq*lcSkACyjv-u4%9Dm$gZz&Q!G&x%E8Z-q
z_H%T}2wmc&VFkqKhKm8<us`IuR_vMKgkV0M*W|*#?Woju@|9~YYz0RK_Eq143N$@c
z?GtkoYt7wybNA8<dh?OenT<g6Lf1QoZXVJD2bS93KXB{7?SspY-|D#=cw#-+vM}_{
z$juQwcyQLat<|z;{?)lx*IGoqMJzqL5e&^c<{Yz=i_WD1J#u(Crbh<ugzh}M8XW$8
zX!qRb79L-Sy}9rAq1L&Ug_gyGtD&B<Q}Fps(=b43<CtK<jNy2Neg9v)2XYKB6Dsm`
z9EPF)197YIL5bqt;xzb&_2|%IXGxtMzwuQ7KOraR5l+&Iu@>d3LibgOGsYO_fDe_;
zD>yPHM{x3LQcXhoF)}t4f!q!C5kztd7Mv!}KphPlcF3c|uNaO?Ecs~g$&5xo)gzNj
zn=<*d1d+6KHKyccQ<WI3vli-7Mpnrgx`whccqKIEGCZ{tkzqQ>SR67UIXR{=ABB7#
zx<MYO4rV?IGv>@~CYLED9>jyPJzb%io(r{~EX1e=8PxqNJpP#}pMYiR7eMtvz)=o1
zxc%SE&ll&4Wdz`RarXHy`NztSl#ggnc{gfmneU$KUby&XU&&c^Aa8hfQg7J%o3_ry
z^UFtmeC$WZ*7~2<`=4KJyEt=x!?$apMfXMOjh4<o@FH(umAxy}_Zo&b8k<U|0B11#
zpT(KtLhNo}-{SeTt^vJk;0~{M4c^gy`sz<!T|04EKXLhP*X50H`&#%>2pE@mJ$z_M
zd%t+AsE3a|G%I|$%-cdIxs9e1n|2DUhc9pJX<O+0K2K3UsdqiO+I4g_@|3>&DUif{
zo$nNH7H6Fc{G4|q(z_NpqDPJ_zpxs4de(P87+Gvy65efFdF<5BF0b^RyB8eUXlh@4
zL2o*=9&TL=_v+!^rNq7P6B~i1*_T!V9V@O5CWg@vO(4>sRFVvjL^IpqY6I+*q*wAW
z#T+4EU*WAGRlw4AggWBDmie3_lP>{GAPA!4vc>{Ra)|a(4bAw6(Dyfdm8@c1RuoB!
zas=`RNTq3mN+?S6PJ~unbl_d6KE96DpE>n6<gt4e3uXGb)Bh3ulw0>h*RxBPm;3M7
zf9m~-ccp(w?;X~=PL~mk{G$IC>MxIOQm}l1^V)~Gr6bGy@|TwVde4bXL_5lDN9>&&
z{!rNtUwGHnM;L24Y0CxiJp=&J*{|rquCkkUd5|Xn;ypY+GB>gki0JP2zc)a?smbV>
zqfLfWl5jQ-qzlBe@Na=QO){xsY%I>m#pq<Xm?(>x45N;js1_@UYDVKAjod|?1X3r*
zz#3qd)ism3?QG0Uomu%+GvT9(N-`tI2$NYOQg0qx2J>k8mC#h7Vb5zx#mqmj6a}Nb
zsXW_Y+)Ssq22GAQP6+hT*HWK=s?2j7_hA>}4*nT+{SkS8i}wB*b^P7NbGDCMh&%CH
Y^z>g){{zQWj_X|6*Y^>k0HfCb0L_qlO8@`>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/falcon.cpython-312.pyc b/model_executor/models/__pycache__/falcon.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bdac436cbf684a3d384be9fddb5734881b9f7e43
GIT binary patch
literal 21587
zcmd6Pd2k$8dSCb4CuVRBFqpwT05Ld80wM|C6v3N>NQt6Wqho4_Zh!;M0rm`dU<Yfi
zqpSv6tqE@JhG4ulA=^~~E!x7SoLa2o%F0zKN9!czX$;ph?t)?@;>J<sA80|9T*)8F
z_r1ObP(#vYE3P!b*RS9E-u>S9zVG+GH~+!uv{CTH4Bw3&JWo*{<A?m1B+vRcbQE=u
zdXZwN5XI1pE=GrFc<W=jxIUz(G0YG%#El^%@f%~NxH)7deqGEGvOv5kW{F!vRuX28
z+2Zz)o%k&=N8A}IBYtbl6?cc+#BYn0$16e=#BYyP#;ZbA@#;`D`F6xS@tROgyf#!D
z_lCUjx=<YncgB2if5=b#WwH8rL#QF%7;20+g_=m1E7lxu3AGTvJJuQxgaX809&3xY
zhuVq1BDO8w5$cEsLqYOg8S9L9g}R8pD%KtE3H1<vb*wku7wQAQhpCBekM9WWApY9e
z&Uk;QKRyr|h(8m0CcZ1QE519lo2J+@wr|QzQ6VR5X7@1O{m{8g9XrVQSj%`??sD}#
zYGC|t7()AW)Cr2Ie}iHgSnK#rHD30;rx$&p1B9{>D4V{5@*tsX2FjMNpghD@5ZYFt
z4SYH6ds2l$he?VyNYSpHg5B|+L8|kSTe{%3sp|8$E+)B=D^15Ev5{n=DV}85SnnrD
zGaRG^%c(TWMJ~r!@SCEkSabw^){D0$*dwuMBn2P3L;{1(MsBg(aFUC|heOQlXfiPx
z9mB{Y=`@>2N0Ufdotm7ONOI|L8p{ojB;ylN$X_Sek48qWuwo*?b}1H%OBomh#~7Oq
zPfUczxa8!7(12f%VJgXmNqxf;5iSyov9T~0Nn8~ITgTr>axo^HicYaYlXeb}Pnctw
zNzzao<`fx8hes1Zy-;;D8JmnJ&P#=zjV9O#CzM|}b7^zX^T`_<gP`56v&pe&I(42)
zj<6}HIs{c*n2bQTOhvG3l-{ynp<HqT`=m_C=G;j(!U&#A$&tuqIq+EgGRrX01om+?
z!;VHKW9je>Had1C9gZa<42y+So=U(N##tsBNwXJ8ui>y+o_|R!@e>-x8Uk!Dh~ttv
ze?Djw%8yK@lP{61QfEn4LQOP<V-Sy~Qcxu6^EeAx3)|w6t8AE!Po!^!qa}q&W0VSy
zLKh~vTY{Ys#&D*j1V=n_>oOaj;MmdVP0j+95M1eGIuZ*fCgb5N(Atz>;@I>gml(k+
z$`4ZFx?BH{a7KnsE3xAcviT{Am1ce^MTUA$N-e*qApdDP4ctO}#<9Fj5Af8|Qnm7>
z<@^}k6mWSvh53qZTITK4IN|>rGk>IiPin=quA~-@ja2x>7#Kr_o&sM<j%8n@gB&G3
zHLWkn(fvirj4q>=4tZy&tGg+Rd%q;r|5a}=G}O~bDSiDL^ocQDDc2k82l+xDDm`W@
zsp%Fy26ZuEU9jI^6xFfN?m1~}r_CifSIIR{-x)(myjIT|GiJG#V>-t8$RvMF8#0C$
zsGxcH6CCzWaHL={8ksb(SgszvI1GPC3wkCR584GoJd(a57)N8tBqtbR$+4Y+k#JJM
zBr-I?3~`Zk|4zXKj4Cn43PxCz@Ts3j-VpThXhP7BMAAVE7l4d~iji0{#ioG0CU3A@
zI5`^LDHtwCQmkMiA+QKjF<?e1!N%T9bCEEKtHd?RvGGVWfxJLmtqzeuOqRl#(j-0q
z^JHH-KG8Q3o#;tNIN)zRHz#)w?zy^~?TbY(_f6bNUr8qVt^>>O6B#;tlN|vD#EGA&
zzEQF}^-kOp%EN>wL$YXCtQdC)N;(1mQy?Btx2dAH?nlgn@%!VCs^0fL^e!IC2ao0(
zhIsE#&fr<GyYK9u*<Z9+XXziL@7=n4E7#nguNhdp#@Fo0RS)v+!Ccv1-m>rCJ@fAm
z{N;hCdY!{`d+4c&DyzKn>ddQi&2twZ0bk$$7tj1`-%s~FcAmI>e8pLD=jEA~XVY_+
z^3K5R<Ev)xTzJ{sy;5Cw@724n79GynBR?8=FnE7({z5Lek8j(T_w8T0#`_NEyhr$|
zBe{xadB@TJ_{`rN_&FBnv1M&gU}H<s(J=4I?HuBphSv4EMqAF}gYeq=dzrf#$TWLx
zc1NzJldtULU7ZU@{_Mq{yz=8$AbqVZ>j1inntR^6-nrv{bnM+z@0?l~U+T^WPUL(i
zKa4ysKc6+N+RJaBTZdkwM$nNTtK?b#0eId7$&;l(-lRf0D~10UJELRujGi?xG)h#A
zfi+4#BWoJ9WT{b*H{WoE%#0ais|q<=_03qe2)Am7kD3@8$YQoEb(0R+VWl_(mndE+
zLdCFP8X=;F;21#>0%QslJOsxz++O7`lep82z}i<HJNU?6g8R=8>3fta49++*)c25Q
zNyIepnsF^oPlc6TN96%>s%ayn(%_jHDy-Baqqz@cj8njy82V}lOl;k0>bHU0Y3&z4
z2jxS43MT_P&3bC3meMM_9i-LZgW4q{7u7DSq|WrX7B{5AN}oXgXv`95k318x42?Xv
z3P`ENiK#G-DtQuZkX9pi&cf)R1eLB_yM?7RK;e<|Ro@xo)mMQ<S8WwrGKL;9hDL45
z5;`*0X|G%c)>OM>96Nazfto6^MA|2(g_PPe;cJia7G=}pez^?w&FC}wjNx~IC;Xo7
zk?}oggrR0GnFeyx*p(qvqdwy73M(TIRGOpxC27m$av4*)P4<ts%Rcq3T?1Kyn}T@)
ztx!sbd8gD$&EqDWau6QTsfNiu2c}nMPr6SIhjO*YM=NyeKBvaJ<s8*F83{9tgylVH
zbweF$<#=erPT8-%fuc_S0*YO-Uws3GGV)OS0X0VUag`9hNB&aZocT1xSY^IQxS3Y!
zH`4p$G#Q$)F?L0EHEoD-Fis`LoIaqW(VR=#<C`&OOpnTBeHdESDCd$sBKsia*PgLJ
z3%q*s1EI>yQRAeQ;)3yUzbA2Ss6n$#aSOSgRxkcx`j|{3_vN%DW6`cBuAymb2Dlwc
zyI(?MOQZZm9-vY<i5#X%?hvcdMpBMFW6xMKwmNG3l$uWVDRs5~6ZEaUq<70pW`9ZV
z{u9&!bSbh1af~apYZ0s*Cel5T^Dj=hd#_Eh+^z6c_Ez|MBsR%DG=L}$D2w1sU5!qJ
z(Ho9142M&II}Xm6*uQIsrcAvIsP=5o$YJkur_n(&p-cobKv+)!I*=mCraGPnMVq_T
z6iF~m5fr7HA{^TkpG;2z{Bf&^y*Uz_OhvD=y@Cyah;aG}n~p@?+aSN1c;qJN3aKb!
z7NGP?2t+DMHG$@$#{`&l7_=2s@l{$5r}LDtH<C^xnBqVU;_7u#bx>OrG;rs!+741J
zS;AKu49J8rH4=%jgo+yi(vq}o5IG5IlVAx05D`s>!-D-vl!2ZhkPn9&kw8=zsDube
zN#zGH#;O7j7Sw1+8)_5mjWENG04~ObBY;>%)9eU<5-gw@(4o;V88flc6)Juqw+s}n
z$W0D)Rx&VxYts-5rfVV`Wrh@pOL54{1w-l@mlj;n#Px6jFf|E55u6h;(1pDy_~fxo
z-Y9{<q=81R19~LR3cyjwpa{0f6bsN24v=6ZJuFx;Nc5UPvx0m%t_G9J0|`USp)4jC
zuuKlOYNBz0zL|_gQ|X`+YRkq(xuY1faYO`jdO~c~S&Te~*<cWX>1?ErQ&5?-Aoe$#
zV7LoNV-1H#Vv$rT98NjmTUI0SeVaRoSzQEYs&<ni&?^sn7-Ca@1Csqe-lm?GQP#2<
zGjFMVY^huIH5Yt6yssx~cx<U%so0gT*poG{HntTS2l>W94D}aXl?7KT?`oYN<6S+A
z<;$*}Im^zRYiH40U-0(u-k!x8-n%Djc)P4v>o3%H@U<NaLxt|cJp9!jhHxijac6pF
zdM;gP?C0Un)xVf7>^{NoKC$dNk+Yo0xlXKh^cFf!@Es?x%(mi&dac@B1$)P`y`$LP
zU1%TV+Xu5lzi_k`o#h2*{j#&Z*uISfthRR++V}G9d$U82AsSP)@b;GZv1NPDnu)5a
zEr4!V*}3o%UpcTuFINuc9D}*a!8Hq2<(s=$s2||rZ$s3Izj2<PA1Ji$<y-eIjq$C=
z^8VvkL+_Ku?L~*X;PCSfKX~q(n>k0mn|MbP@wD<#h4PwvzPr9+T|?2^R`mF1zmco&
z$yN3~Ew?t=NawCqQ8m7MiMxsU^t;pVO!J-r=r4P*##gB6;A=V-2HrpL@Bpad5bA&?
zG`0TG#dlwR=jDa;`_m7n^KA$C#seguRYyg^(ZxHumK{eIt{3`_@_k3w^tx_RN(ZRF
zo^7SomFm5rdcMYjZy)d5N9s9uDOVYI>au|HZFt)Twe&SV=(!Km<ZV~c+xWnL-w)oh
zVpZ+E=f3~kg5mwLKQ3FNbXHr@u?uu_t1ai+4c!X;a_Fr?E8eDg&w_t(GVeW*J-yQ2
zvoM<5^<3`4i~06TIY;YCLwnI(b<cU%S@bnNIB@?!v3{Uf-T2gMY%I$Tz5U!%2jy)+
zin6<9GNHSw;12NaK(W5LP~Xef_ZI7e#k!`s+WG2S&9<jbvlo(n@6?)`Dyz8j`dhEB
zcn0#GUD*>wsLH^*2j4l!dv|0{7i$~moA2A9>%aBRxA>Z8vL~Ooo96?CmR)?yuDpBq
zQlPMRn1?_2@S2`-dSL+k9SgR_Jvrb0g6}BrJDT?$%bs1SZT>pd+fYN7MXce|sxLOq
zQ&;eG@}ABOjnhoc9fpN1Smo^pHb$Af1LI;-TpL7>ph7P{M(_{?|5+N3(Lj8G_vR;~
zlSTbkL8Y43BP922BW~YQz<s7ctr;)PQ%VkbX^H97xT1)w<p8Zl=$M|NAL(Qj?o}vb
z+Bj{RHUqV!JgGSV%kw}us3MymfI*EJlPnCA7C<gQi=1=QgOmV7O05CGks4Q&GnF)B
z+0Y*r=nqTAFscLaML+z>|AvP{B?l11*Wd+v?nEq_=3WOshm4mSMQ0qHtLQM`1g%^g
z{V8<P;0XF_SFej(B7IGuuL|^a!HyeDI60Y~m`tZ|%Tf3~;rRe;Cb=6Cj+v_2%=e{;
zJfulI0OvNfW}~XTg{ls|s$-!(U$uM2n$>470*lPqeMN_Bc3|dA_Gq!9`d;vEaPH!R
zSMI;E5O}})VfT{ZXO5pba{gl<?wk$gD~4yxSvtET8-bL#w2PHB_YU1XG(WfySuD?2
z_RkDuk7TbEJ$3h@ccZ{Lcg#ofo{p@&=x=&(`u^$pZ|42|yv3Wf&t5FL>gI-WuBM!&
ziA>{%`r%=Ldgwr5B@v0UAgtKJc%C&GL%$;ol0_sY#*pI?4hNq@HB!*0V3)=%kV9Qk
zFp0-H+%$eTrM+{6g_ErCLz?3tG=<atu()+T3tkQ#9I@1OaQ^WP3Yb^-_TtW6MNjRg
zc8)fdt-AedM)Uv^sA-uW;yoQ}X7X*JYJv*`yr*x?O1^DWdDUkm&Ds^c)7ZRPS$l8)
z-TiAu@Izt|uUs?ZmxZ#q?)Yc?pIhOJ^a82K2-HD&ByE*ipMapv2qa_uBK|mPBB-Mg
zP)8GEV$E9GIiQi6;c(Jx0d&zy&_x?eaGPKiC)c^N=Z8g+MiD+oO4mCoNw|*IPeRvj
zf(`-X`8v?ybjhJX1^`vyH^8qz@zz-V00V(S0pN-r)Coh0%7`3}JZWXUGe&v+f=VfO
zC+6#xY1Ov^TWG*!1h&9-k|&K)A$gRV!V%FHb=6jS#TJ;L1?CckNKvqF0ZSSF1UvcS
zRGFyHgs;Fcad_YgcM?Jc!x$TzRH6n*+?5R~&lw;qQ3#ye3m8CF%8Tg3R*GE5NhD(>
zf5eIeJ)Bc=FC)oibZ}a7RTv==%O#pbW_A?gmD$0O0?1-RUQc*esjyn1%qvAqeFAi;
zKLrQHR7Z)J3L;6t(*a8^YkyL|qv)u?GX(q0b6=FN=3dWLcEkSPKm?z<r*5jMVQw^E
z*#_c@<tv4xhCVrCC_)vE6v;>u;>1E+7A)i!mO8R<1^TAA-NKfsJh&jpqIe5DTW+_?
z*(lkp=xLbRu-(!b9ocRX=f*rXJsBm{G*T$jUL{j0lzbsi+_oOl!$CdwJs{<N2c0|M
zKmgg1W-$PD<`fnRqb4#*WTjK(>X1o03>e%{splZ>Hnm#eDO3dbiopDZe8o1hPYlTW
zi*vSW=2Z3w%E>2ZPR?HV?wKrI)S`E}X9L+A*)r0lLESL-Tab6q&V3tR+;5}v&(J}J
zKsZ152Kp4v&;4`!#JY0dLFY|yN?H932BPyZMxYKRviknr$mgx~MjK)C@J22#adk6(
zT9BzD!P-Hyv1YCsCEzs*ybEo(O@5AEQfZR?2;{6hxO3z4|ML-&v>1m(y<W6k(NbVH
zoE9M~#YwXM=P>6tv3wA?z81^J^B@gT5EwP`J@TX#ArIGtgd)+vG<79drIJTl5#WGY
zM4WJo(8)p`<g9EbKv8n8lCG9Z1f<m<i=inq16zf9HUjlkkZYM9rhg@bD`>JB&Y2l#
z;fB--qO4M-2GjNO7l@?vc!T_<zSR?QsIyxR|25MoCjbdXyB&-X&#Jgzw?4{d`D@k(
zaUk*}{J&;Or6t<^u59BPy-l`p+{VZQo2+?w%GHaIO&A1j5e5S>@i;_J8G7Tf384mo
zuvh{xG!<4N;LkRoK~n^FA{DIOytiJ0NbV(co&`rJ+gJkO6M%-rCdfJy%vT~Q$dlvl
zVG4EA#YHAm5E~&8`hv2ev1CH11+5Q^vE&+u2?>H@2$O-vP!eE<x?_C>6L_#h<WE6!
z$*w(wg=%fxSUlOfHvmmOaU&>Y7s@6M_LEd<5S-0eQ^_U{5JJJ*&wKk3L|AF)DLN`<
z&(3!*wJ+6v(3snO0Z#23$p(%G{8jaHm*!txy0moigQ2Cq$CamXD~HVBWq;!G%wEqm
z?s@DQEcWck9)IlUgoFHoJ;>XGIs1;q(Za45mv_Bb?CBNbT-5+&ExTG*x}Pb!ee<3|
z^IpDrFBI1Uc)?>w5Q+=*EWENbS~&O;fAFQpt=~Xksc99{^~mVglg5q(-%@*F?+g6i
z7aliWoHhKw@uXqff_=$T7<`@|eExC63$unF+MjIOUaV@Izf@>D$hRGYLOLpD4UgRc
z(8ZjUTcI_-uyly~h@u*PQHw{`s4!j-D|DcfQ>b8WezXk0#3OXBbqk?E(fvWorN(ji
zH$5skFl|iWL9x8QmC%*YU@i&+S4n{N8cKA1*gzyrUy*)QTF#s?gFpnDIuVFamscYd
zpVq-=s&5Ngg@G!`DGoLZXpsjt4U>d(P~!@NQt7}X3??@|V9fBfYr^f=f>x_0zAb2>
zmo`6)o-k}3)*VtQTbN4sTZ;BW#6SxifN37$K`&dOmn|79Y5f*QXsHIE5c|iXYCtMN
z0vHO86}VC^8}qbe^mz0(ZOfo?X&B~^g9ddf4nmH8f(}vkAgpj6D7bgfK_r9wm*^n>
zD&dj8kDtGb4)!L9i<__&3mo=D89)z&8V!Dl2#Zh-Y*FQyB*?AOiWrPgriPGXC>th{
z;w<PVp(Y8j!C5b|PU4ox(RCW^Qxd56AorXEhd?$}%~=b8-*@)S>?_!Nd3*0-^Rm6a
z*xvbW?48)+fqeTBz)y=!fp_ii*cZ;_oA&aKdIbbug7{Mq529@M_CnV|zUyGo(^#zA
zv1X*Y53N)BZX0ju$XROVdO^GeEZg3-Z0}ku%WXehbol4Xct>x};a>&l{+l!3EV%lY
zUHypTlaG#NS4T0hk9Rk(x@&X(Zr<HJYbgdg3V|bh;K&CZ`M{Z+8_^DD`JFQ}X9|w(
z%Z}{`lG^Xu3+~{uJE(m0^X~q|Ys>CEt4+Iej(SMb6nJp+{>@y+V7?J7&-_{2>`8*<
zlj>P=+lPt{&s+!ZXvv<2+7(=V%dS3XfwLx8*U39N0b=$JE_LR;#{l7V)#qGLR^40z
zt7t2_YI3et{Jz4w+h=X7<v#G0w`Wa7S9R7Ya^7#@OuCKEo8Xk{4?n;_beuR$*TAzG
zD(a9_2zWzF6rcz{OK>9m6k#ItU8Dz$9t9-=KctjVBK%TOBKQ)kh;_h4pgc0$T!$+K
z8&D#!&DH$~?ni)?nt?Tp8YFC}EMx?1$fU(I0UOc`m#`rVSiQNoOl#9l%h*{fV<i@H
zjx8v}*e%LtN$jYNalT;;*_blc&N^6wc21)@G#0}D&=MzWKp)iI1-Moj!L?k#ddda6
zq|Bm$KT$Kee*uJo9jz`U8#xYTK*iV^xi6|2WasUMuOHHH>fbcHY208Y_cawCEv4tJ
zE%2ka^dRIaxD(Vsdfqb5!0xIVy3H80hO<=R0SZM_mvbS;JWB3Bp`qSD9`XdERC6kz
zRg7OsbJN1rWOWL1QWUgwvz!WYYLWfw8xU$k);J2M0&iF{I>7pLpvWo4+ju?zxhd@d
zzp`6{UlH)rU2=}F?`iC|P<FRWp}qlAly+OlOF{b5J7fyRI7UNC4MVMxbU5?K14@Qz
zSeZx|gcAv?yN>Ptp&q6XtXuJ!(aq2^AkaOcW&IZBD?lMQJ%co1KVTJrQ&T)$K8ik+
z-BTzRHr>80qHKa?e=HKe%tQ`OwU<nFMNaSCAA`FSvD88Eh;-jUriT3nlKW#{Ptom}
zbIiw<c73MT`9(x#O4oaZ)PtMDLet;`>r}l53><JZ$rh&8E2Hv4QuPZ`TZ9G$D>0Tp
zqXO;{=0;SdG4x$Q2Rl!&UB~+!qD6oUE~_vl78V?Kols7U6hxy2=_ZApoS}=mIh2xM
zBrko1LwT0_Jxpf+RcMsM87MS<#eEG~Q~DE3tkLh{i2`N~8~x$Khf7h;Dy^=+h8_Li
zf&PEprdBLY<uJb7Unmdq<-tOEKVRMtds0nHp{9?o>B~AwysM(>Lv*Mv-rI#b)CPsB
z<bW3RnWkN!T@@VlAQ~Y4Has)DZq!Ss&j7Lx93s&H-Vyjrr*o3yjr!Sd%soGQ;Hlj-
z03yP6JYcS!3;d{eA@HdEX$4i?FvmPd+)pgF7j~ZEcb<7%br$MiUFo}2boyZnpSxaY
z+`%{QfP>)e1R?Dvo0eb|_0lLK9ZX6K4EjN2s)Vry;Nz>2(ibT1`#=cG;a|h+p-z<e
z{sR0d%vC}y1(!I*lyave#q}Jy)wL<|`#37NCc$K0F?l$ZclG8hy`%xdL`)T`wC?l>
zPEtrpoS&%;I2mHIq;315gwmD%9z@`yrKWK;aOf(kBsIXeFpo`-itmEj0>`rqjZ0?Q
zs9Ie^ItA-e6GN!N?l*)gEM5(jQL`cHH4tZ~O*#tHFkQwdGr4Kw+fG9X?^0T%!5CA{
zw1V2ek%=*?AlNV9LA1iW)zYCH=rMdixiN}dknkKE=Y&A$bGS<t<p2gj0~+pU5XK=7
z<bI0IPtaKcM{ocgn9oRLXb#N%IXLpV#%UvJARnObFVVqb1f$4Mq?L_Qe2EZWS-P?%
z>HUW|h3-O9VrJv0{qDhnecQ5qThZmufxz6<bJw}r6eu(e@J$1YFXx*M!MA_=Vk7TA
zl0COl?VB5VaQy!9`JqB!fDa5TGCxWDIPtgD$Fj%%&fh#ATzD<--#2q^O;34_(@$K!
z?|!S`>Rfhpu2i-!xR&a3+fL*wPv#sa!3yVr^}cn!Cttfg3${1@oW(D$K(lxmE;UlR
z^ssqkdj2)IWa&Y`=0|Ia!a;?${)=O<>4E92O^X}hre|88*h&M|n9dwbd`JO@CV+wf
zJd9@GaFPhqReYdaoGhCj1|<n;a>;L4I*M!}Ph_whpogeg`n8J`Mf7JgYPjRdL{_r}
z$XLpcgUd}B<8_*&->xsYo&|Oc^0I-LP5^q%WWibiA~s*AxX()fXe(o4D0%ULwrtUo
z%BJlZ+qYLB4zt<xWb6Q2gYhXs;EWk{ZpJc7bZ;<AwZRn?458}CwJ*8e(-v6XmT|>g
zUd>WTVa*uiT4~9CW0YL(AJB~DF1@j=KcN4_^gGnF<Eu)+v)|vi6zA6|h4jL2URGJU
zQSPhpCfTRHGmeZiQ#Pj0*dE#B88B_xFxvKXi%c)KeA)#qaDfT2MNR|e^rrDPnNEF!
z1&cKEXqc&QzhnS9V3v+y0;U{?>vL|nnwGrIhM7q)O@Yg9EZChQRv{X!*hIjBNMhR{
zTkbkK$Rdbci{RXNg|<=zXNb)9G7_CfCj^dQV4@>w!Hq^5jCvt91@;*%*ffG9mbwv5
zU*VcCK@<}hQ&%DrtYEkvWp4<kM1<quPM#Uy8Vn}J9NaD>u0vuy*!l+D;#U7x7#cw5
z6^!zs6eyaKlDl_dNG)5_3U;&-ji;b}P&p^L2rShuB^a=-N}$+K!AKHtKgXOaC3>k3
z#QN%PToZIRuEPK8++PD#$_)<g52X*;D+C9omo6cvWD8AE{wR(4W868u34IR2M_t2%
zuKQhux<S5fFzZ4~8-oAzE!+Ew&28`c-tiTh2YL8&G=K@@omXaFDL4bm&Ooub1%g(a
zx91?D{h8e08NU5Y&eFQ#shb-p__p)D?H{z|eB1NBlX=gntbL`W?GM|s&Xra`O&YU9
zvptCQpqb`Nk6mpGfyJwQ=aHhjcE!~`pI*557z{q$wFqb%_^P(-v7)O9tYBOnEA@f-
z7Z=Vh1@iTW0AOkF7cDe%?$%;ueXcTC4D2WbcJYB-#oDfgGYg?y?Vh5qC)aoS!wY=h
zaPIu`xw;oV)zjXK^lDuXT+7?>Fp=v$n5#SVsZr-WOt0$=ZJyb4Yc^e7!<=MqTC8oE
zzi_{7fzEXu2O+c0^ADc-yJKrcQyoGlkjpCz<2mo(ni&Hul-IXrMV}3$LQBmLU(fX%
z$axR`$_}Bk&#skyG3#8%(GM>CzsouTcCH_m|K|CFEpJ;Vxz5Nf?p)*+VjtKZ2hPl%
zd*W}MKelk_@%{^W|MS^%f9LSdwawQ*c7S<<S5yV&n7;*N@CBL*bOHWEx$9*aL6ocA
zn@`+PHq<<9CqfqysmQTA3KDPu7x)az{U=QGpV9daI&Xqg3Z^~6Ky;Eg_kRi=0Mk~F
z9Q_s5Xtd2wt>J5_|1*58JxkNZzJ==d{SV>P9lT3zKkNQ!_d0sP#<O?lr}j!?y#k?u
zALc=omzZ6d@ykLr?pz$=8}_VO@zW;ZYx4|W)47Ie*Bp{5R<5>-w|1>NF|6|$WBvTe
zg%=n5myE;=u78N{ImQQ$uTc>5VgHAzpYQn`y+pbqZ5e@PD32_ItdBwqOHH@%!u%K=
zr9*l~$LIl`189yhvPKD>Grds;rdwN>Xu*ZitxUJ9Xu3tNrB;&ERZ2}14*+qRsTl`r
zXKVzZgC7Oa!bzmqtx5+_4xl*)<Juzi7U{%X0iJV1-JMK1{4|M+HEQQk0_<5>H)}+(
z2U1o*%5nniRlu%SB}i5($CKRA$Yd%KJA007b1KHiDT=%T$>3&(=U7Az_Q2OBbB3>J
z!KQ`kfmEt#6$a;P0P>Vvdqpfyk(^cQwG6FFr5PPaMp##P)YCIar^v-%o2wvVA|1Nl
zc4&tu02qeU$_XCG${MLTKZN5Bx9QQm$W?lcbf<c46UxUueA5G=S_q<HLyHw84lYqj
z{R4HD*A}J9UfN~IvJs?F+OS1?S~gV=J|UGN>k|}Du*0SQL<$tXIQ*Q5PMu2^1v3E0
zD1AUE!f^yD3RbA_824ig{a5Ia_@n3}T(A{=AA=)QrlV|lGth+?2loUWG%?}+3>}2f
zxN2|&H~i=U{E!O#a)|UxD%`(;;Gkrbr_6OxY9j@65T8QDi-;?waFuj2RkC&zyzn28
zOaBi@1n6K1XjS|&&`Lt8{2d4(c~^Yx#oE?KXO}!5)aSdOg9C9tIpnVe7Vh>GTtVIy
z%(<Qc{T7eM+m{{ftL4>eX3FY(Y-s|XjYm|i%l1~dCQ$Ho@xCtcz5*EfpMBzkLmp4T
z-3%vE#M8pNTi{N>N=@th@r6_Qnq6?6z>n7n&I0DuynWGB*nWiHek9-YELN?4Rldqm
zaO~$D`=JU}=PxWGZp9IN0OjrtYBRD5{J*{joGsO6q}cSRxQ&cr>B!iN_{F~k>QW4g
zgibY!U_<G+Y(lR9nxRt25he7hk#{x1(HQUQTeRj~dvlh(WRnsxEbap!BtXXopbDo1
zX;LqEwg%xuBP@9>iqMP<$9)Vb<*Bz7uA)x8Qar``#U{ccL;H3sHmw~phBMJJ3N9Uy
zD@H{}_3W)&%dRCS$WdNf)(KmFi5Qax`VHfStb;V}Ab7THoF*0rBPKCjw9QmU?Y}`z
zWL?U}lUOJi*^u?P!G2OG!{2q9OtbJiM7UU|q~Dh+9ng&w)!1lME1}UA3T!3I+u@uN
zuBv3-$t=E>FF(5B$nvj%P`kAg5L1dd!f(WAwo&Wy20|-iG;9(jn+^7Wrddb{ng`b+
zrYsUO>;?5xysjz!-UOS1!wYPe$d7)BK9mvVF2t5#7virqZRkQmHP!INSyHM-`LWkf
zV+0;m4nG*;E_U_3zwhC`Lf7f#uG4d;@9)o@zxdRsudroJ(5=XIT6kB>{O-J~D`)8<
zO9akZhJ%%x1Yp545gEA(TCI2?Ar+2CCMMvgUbrt6j0M}-WMWLZji3t2$VEAvi`?I%
z^A&RPe?b~_{ws3ePr-w7vc;S8_vC!NaLKE|lrz*pYo4Wt=wDG_ql&^ayij;17OS*z
zpDH`=Q)TCUu$=ZEronRRQ@f4G&xOiXzOr@A2wx=<G=7yx(D=DYg2o_Of?jvxSFI7w
zv}^qM+bnBF@I!XuU57aXZ}qR6F{sRF?A}7Yh8S7C1}_;G(g(q31#>veBuBzw@n)!N
zBniKCHiEZrQ@xSPBcxy9r~!V6E1gWnQUnl&yP3DhXc@6D`_M6gBUs2U1@$Hp<X}i}
zlx*!O=_j~O9uJFC?x^@9DrI;+jF)yrLqYK>sE-7SKix)tybP@MN0M9wvQKdcwu{Hg
zy(1(K@!|?j9KlTzGH`8_i(Uryzz|?tyi|%<Br#|a+6a|+wkH1)P_Kwh_kxLj^g1b%
zLqSDo{u0_4`Gq#o=pW&B(U`yM%TjC>Er`Ui?MqUS-<Xkp!cDxK^JV!<m!rvEhCkdU
zUbXH2lKjO3LFL}Bnv#e{xB&`1TFJ%U6ZuN71m;YpqcA}Tw&WyfQY>Idi4m5=wJJ1{
zu+ljZCMl$0OmQf?3N~^a1V8Bp_w5=mz$j)*cw7?%kV8gtSjn|wyek}zBoc7xn9NzY
z+N6gZM9cL<7;ge}2<|))t5ISlN{)O*K@r)&LrPo@xR1dhugH)Na(3Vj@CU*JxNCZv
zrhnB*(f*Gq`$tsZBgzkdA5)HxsH%^shL5N{zr?@;e^2#&t~1iQbqbu%929-vbDe?K
zeM*7znT?`P(jQUBKcWtQuG2$+g`&?xK+i|iz%Qwm&vhmUqrd_A&DXhblCK-M?Z`&+
z)WDjlimsSXtx@n=n0!C;Ftd){r@hbW=;qnWcscATh5o0f4cq9NS=~MBUF%Z{yiYIE
zVVd^LRXp(C_dcc2zc!?&bTv<PNt&*oZNUp_>i`+h_3IeCMuML*`a^X0oQ@oO?EQ>_
I57I~f2Y|x)cK`qY

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/falcon_h1.cpython-312.pyc b/model_executor/models/__pycache__/falcon_h1.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..64666b4bd1d8c51dbe6cd66acc375b3324a71ae6
GIT binary patch
literal 27523
zcmb__d30M>df&so6X3pqB)AjYM3EG=So`9!Hd?kc8V6$!3h{vwBmkrzKw09DV^8X2
zNRKm?CX49AQ`1R$OxJElX_Hn?dTQtNk4%#Gluwic%!}OUbUba`)Aqn7r_O1cq`&W8
zyay0|lrxh&LHFJDyUV-xyWe&%|J37g3V7n?Z^wQuEC@fMfcmf$1lIqNQ4nqkq7V{9
zgJ_H!62_3xKz>u)lrV?P%x{icLKehX;+BLpWMy&IxGiB1*_q!KcO;x4C-d9mu7o?}
zW`0N9lPC+7CA=YT!WZ(fIA^>(Q4y+OepkFQQ5C9Ues{b&Q4^|ReowqMQ5ULX{<3&|
zq9N3fXbd$b{2@P!^TwMJ&7o%I_r+Thflz??%j2zywoqH5J=D&^74eQlXQ-3;E8|^>
z?oc=LSH*i0!B8;K8|r1@>UdwGKh)3sHSvMOU}zBjTCpy^Ein`tN^B2pPYj2K6C<IK
z#As-grParGB*sExiJhUHiCv*xiQS>yi9Mk`2EizNNe~-e6vW1;_3~A9zzgrUP23;a
z%X0dWv*`<R?qfNdk+bCsa_(n21IXF>1vw8y-7Ie#^0q%b@7wvthYqq59VpSMUm`jb
z9gdDhw?{|bw&#0!=(;)BHQRhVIT@9r$%*K|R5E@&@Mt7HF_nC5dmu3-M&pAYQ|6#S
zu^&%IrO1VN6n<+g6^~6s$Kf?5lW@z_LPw^Old+44aU4pgqseq^iju2SGt<*kQaYTT
zk|r*NC#Dk9F#s|tt|O6&OHp1(ah;|L^8x4ics!v&>$n(2;b<~7C52hD!qX8c5|2mY
z;pe8LxEM~wW~pIr$~Qe7z9>!2Oe5?(8;j2zN{Xjv;t1KEJbiY2N=l&OhSO2$VpKdb
z6`x5Y&*Wj9iY22FNhyEg<oVL5C#Rm<90hRRQ&SgX>C_o%Y9g9K%Mj%{9Z6h>oQ_?K
zO2a{;QqO{C(~)%aX!`ne^azG_CLX~k6epd%6e&&un2IN6A{e{b2#udM2zKh6G&LOs
z<T9-_ryq+(M5X5Z)I{Wh8hI>nAu5WoBz=f#F*+HUiKoNQMPnB)rNi;5h!~}|Rvu5{
zizcFC49z>o#y0h_fj+iH@jMnu9Zx2s5^FoYed@967o?b|xX<!0nL0J~<RPU&4Y7Wn
zk)o5aYxG4?Glo8&^UN6lEIV`NbS#xZ!l}shsHD`!QuLh?JdS<ML=??Yx)YHr(Qq^|
zoxUE96*Vyb^;6-=$OOjky5eFP;{+|GxD%1<7oy>5)`AH>y}9ek2i6~h=Uc$1Q6Xdi
zPBl6N`X@R>W7H&?qGr)BYZC;~9JPp+s8zIzhDqmwFli8NFM2{Y(f*<kvM&hN3?au^
zA?Q?G>Wn{q>dd%eonZ4`aX(8R4ilVKfnvT8i=-4QZ<S(|qUjkaIbkVk9<4;eIqScV
zf&W#*Eg`KXE?VY<UqW7Wg&TylR&vg8*{WsKJc!M&Y%L0&iw5)zCFe|Y#yRtE2%_<O
z#&=9_=V8qWVGU~9qn6W$v_-8dTr=QWir`{2`I9bJeQIA&t3!?3qAnq9F3M4*`U~%;
zu{#2e`hCgoR#O49LG>5jqV>v7L6GXxO=_HI)6a=fvVYI?HZ2A`KW|94a9`nTpf;Zx
zcU=fN#y>`LgjvtvMJ%T9%rvIr)Md<jXDm5AlV<2iaZk;p)j&$>M}Db~oB=B792BRX
zOXiD7+YzO>it?9aSIj9Ow%NKbC-ay!Dh9AFVpkc)*b|s-9Sl59$egkTVyQqO+vJoK
zNKQRB7%W#Th{ck#hq2OP>2O%0E-9`{F;R>rd7H~OtwF-Fz_CSLlq#r*Lu<Q4-$1dY
zr+IO2B9284>=T=g$7rE?S>ZyA;$=mPBAof^(H+HkJ`$ga9+RXgNh%}2R>X!UlR+y6
zAR3>PdJ)M7kqsw}q~ZvNC*qM*DjZJHA_>s*!v8tBEuEO&HXWNDNJoJA(*xILcJAJF
zWoL9-Ja%E*^!4<mspPh+*mJh={Uv%WIxz!8!-J`9lWbQEU)nx6eO(#@+}Wxk3^1q;
z;Vz`4ehlZYUJy3Q1V`DTO}5wFvp3xLk7a9{GPOauHkfS)WEzI$hT+xvk=qfuerLA4
zI$PhFt?}P@YU!EP%DxSkwaK|)zGtrojD|i|aGPAaEnC-|sq2;NdW#E$Rx5i@paBJ5
zE<^shy=%4m;CE+RyECo3<<{K<sX4pjk<5;hGJf`9itsOq_nL>ZuJVk_FT4E9*1N8*
z`xX9dMeoX3rf;v@w|BL7UrsRWABIytylyg8mgNMKr)<M6)VBU|e8K!nu61-&n4p=j
zK7>pdLi-zdZedYg&MzW01HI=A>e8Y`Ja3pc&H*Kh!Y>#_Dp3qCUktGtIw(MzMb2L^
zP8zS_Up>JU^w8ogrs#xe!nl{`&=5}nPN6;X2Efozie8RFi;+`9IE9>qY5~P?R(Q)W
z9<)ijktETqkRBmtA32A}*+b5LI6;$i7%#<eO)-R1G<cY>(ou@CVX;0Jk;K``;<=WO
zd<r>Ivv6Jzvfj#!Hz0ch%jIj{_C@o8VPSjL?s%zn)w5$Eo$+?c-p-Y(@B82K%ibM`
zTXpVOvya{B$m|)H@w1O3ly&=FIk|Xp$?)y*1p@%S@{PrBEJfD5fjl_3=Y~1s>yYtt
zcTf)Bf?Ya>>Vu~7M-|!<fk%>&L^K>$oMEEUX5!>`hr`$u<2*&86)Dxi!R9zM6<18D
zw8WN^bb=y1`L#O{jmN{`w+zw|#HMHp9b_XS1>t25Fu9N#hx1o23OTzlvNK!Vkgciv
z#MNwRf8cA*S@6zTh1%fCs9duxXQQB9@K)v=<Z}w;RXNI<a|_P0pLpQ=-v<p=OF8Qi
zt6&1KwMX3<*Ow6Wc`5>Qghz*t;1mT>6WnKw+C&@Z3OA!G?4T>`q62h=Lv%)+mus}z
zG>_=oBA&sUG>h&R%^^SoRpJ3vQl`|Z^W^N=(?_Edpr<89Z;dld2{MT&Y?VB5PZ05)
z4;8i|X%O{K6w?>9le0y=iUn6frC3X;lsPP+u(pKL8Wm8q_iIZTyRXXaYJJ9hZrenO
z5aKU+P)^%@3rV!}RK${W>BC0bGz5^YR?CVNG4R#;P=6V`H&S%I4pK}=sZ*g8-bgV6
zJ<#4*@*u^6GCI@=QmjbvmlQw{DMY6<>!#R|63|U?Af-(=#fg*--4q(NF5MLOoDuEt
z%$eYp&6(kPk+(-TuW!x*3ab2jDDfSd4ca(kOlZe0c`no5UGf07&WJNQRtOXRU=MN)
zss6$nHPUXt9@Mx)^%vgiTr>!v-73c=LMBRCDwPPQh*#sZiw{)%)$o<5l*E!D%7>wG
z#WRy)YvyX0QTKKVa$l0OohikUoJoW)fh|iZc6x=ySVD12iBvcV?lT;nPASd;wI+QT
zwM*y8>7#bI38I>r6NlEp1hJHF3Bg8*y2CLhBYtQLVp|I_MBqKc;Du8O#RR&IxFU*)
zUYm|2MczpZOO}Y9Ry<k(>a?0$B!qBP@$y7A2CRGe2%>9wf6I6dt=D;Q$$ZcAm5VGW
zLC7UY2dLJ3F|~t=g@KWtrnDNyx2MAC7`Bn3PvNCcQ=k!3O2zE83lm~`Q=E@eu?Z00
zSEIxuV)vzul@p1Z2bm2k-&_bmVZ+7q0^efB5HYJsK}ry*M(ABYuGCA|nTXKy6%l%%
z;y`@4?$<t&C&RGq_-ZoVR@vLS>J4s~1ds2AHREfSeeKJWnXX+je!gAz+`Au?*JjGw
z<?{BNO>lT#c5b+Zn$}N+@){?n`|j5D=1d4ZXl%_iZoAvKEoVUpn_P28rfKMI(@@Sv
zVY|@M{`%!#znpVW$SELq!_eJ^p`44tfa%Xv_uZ}T%XuhV#=^aKt9x@^3i||5sWrWK
zYkG6#6s}<DJ$I{na+MUW5<tAx_usAW&s9^nMgUD(+jF<JCs&K`Cv`$YSFWCX4diPi
zpPzh9l)IUg9=uyWm}{YM0JVYUJug>w<XRDdk#pv{gzmmKFTZg))3saf+I{EI%-%CH
zeqCpXY;DiB^<>(1$!)tR)RMKkGxjFg-t>XJh3(xF#q=g^Vr=8;!j=P3Dp7ZcDt!p8
zurzJkD&(LvBC=3Y+qMd+y7VT`t;32Fy*h75yVUY}^doIHZ|B<qy4WZ}I03rYq~CJH
zZc$GOU97W-ie|!+o2cV_Z9i>Y4;$CNR|^?cuh+t#t;R1XrT6t8`YrzsV{F)JjQ^qA
z@-TQTO|N%_x&5=xBFoRx!=JrHv>G;Xe0nq6`nfg<mo*`jy85u@ZCGFScO0tNALM{3
z=$!eFKp9THB?JQFQ^`OaQsE?tz5@`K3|xp$O<W12CL(c2GXs3936My8Dg`Ob)MOwU
zk0v1c9(XR6ifV9*cCW}Z2}8s{dMXeF1s+I6ry+n&M*##v--|O-GpPWt1i;dlq5&=k
z(m>^7Q9arfpbZ(@9R$UJo>*Rh6u1xtlNb$5&PXWF@{ouc?bU$vKoEm)KUI1aQg8y$
zAHZ%G+~d?T(I5;!gTq?0ClL7RP+(7hQ4r6l<FonwUw-ksfzNNvUmbd;1msf%kPIBa
z4hMR5L2m(adnw4n1&|u3Vz7a}z?V?PS+sl$ki(@QkLZESgDC+`RdVo~dRja>ThuyI
zTC12=tNm)BBYkXqSPiH-niSaw*aGC}Glft19KL^a&!$EV@NvfX#B&s+Rx(Ai2h)m?
zTmz};$V8NDe*#ceU@Dgs{}L}s#m8r$YLKWbC*1-)Dm@r1DRj0_2(ye=1@Yu8TU5Ms
zNr^-8cp#P(p=e44BACr$>}pKJy18&Yke4sg63R<916(^4pru55p;#)Rfs=?ykVxt~
zE)g31m}r8JX**Y(1#<CG=tP`Y;Hg-O`W$pflgJ@Wlfy{uIQdA5qgX&)PFzyVQ^{yb
zk|@S2MK4l0DSTmO66!QnsN?4NA)F!|kMta}Zj$gwDa6e7Y{9h;mQu9ert&rD!V5yK
zSMZeGFyC_CbS{oBJ+WMsY27R1*R)r5@4b_L@9Xb=J#*kG89(<^Sx@;ZPcJ_GiN#pg
zu;AXX3N?+lLN`OphUL9$)k6!;2lk5ZZeOh#UNXP#eAT%uz8QZbF4qksX0>v7%|3EF
zo!L1q?;QWZv+~X-Wcw3{LJ@@|LR9~f_<H=+xa{j)dG_|`zuEIUd*1rS`&EDB|3kmL
z?ewa5eAPX^ZZbNY4?N`=PlxR3SbjqGbfYnjo^=87AXpuh0G366s%|yhY*_r-viVK-
z8*bU%pY@gBIC|^E%@a4vv>y8QK7e#;ZgK7tn`y{TB1wPFWcD<zo2&rl7RoA$tMOQ=
z8cM17Ts2E#rg^uFpJ(?S@xA!FaoK&MxW@A3bD7SAGJdTGW#7R<wd01rU%ip#j!fG=
z8NcRzvS;7>9e>pShyAj9Ty~$ynGBvM4Uo2?#nzI(*i6(HN^ycg$k_cdq_|J7?0LU)
z)$aem{um>G6^|;vC$0`0s1!}bL`dK!Xx6I_c7B2A&~=*LP&;W<v##`2lh@9ZScA%z
zJP`U&O0m!=pW_`vVRuCy?A;Jl8KF65iy>&1t|O!3<O;ud4D9w4B6y;O^KbJM@eRsm
zy#i_IMX1#Hj+mmB5EkO%QYJ#2ZP{uu<;AA|9%WL*iGpu)3l(6wTIKTA<$<;Gp#>}0
ziC3J9&aAsW>#oSwHr{&v=JUjjRc;7oHtfEd8`oC7EvtEM<1O>}__%Zu(1K;sDZHf9
z<cyO;gCRM|A&C<cdP--=M+_!g_`L5{u6t#zm!6=sC*c$eJ<m}jIT1=AB*2B9{X^Nl
zZQ0>5l6!i(EdeI?#GB-vZOcdHnx34Ef)Lo}gANKhHL0kJf^L$9QgQHtkcE2T`}9e}
znB}-3H*IhOYOVj)+|9Y11%5!Tth?2JvwyituIT*ChA1vErPfX0zxL4NqG$bo!TG$z
z^b6#rpVPiZ?RwHQ(XmCmRX={xDmo!Cb&7WV^ey4Jw#d)ruvR9Abul@to5^9D)JdpW
zL3~~sTM+qhX~ZA~YLjx9<_@jd^%pSDOT@0uQn72Xa+u78)Kxcc*_2`u1uez8Da9;W
zv=kCI>a1l5)-)WF*2Ji9qlxs)lPHqfT=Jll1`9ZX1Xd-_oP8EKpq_;|F=adfh3l62
zu=fF;CR9d^z7k*vB8S#GK++Mz&e^X(;3QRTm0HxE8rB}We$JwNtldQ-Wt)Bp^c8(j
zIefHKT_~H>`=Y(@onENl>TBqYB|&GxZym8TYSTs^t<&M05UW!zFLqUxAS4UX5zaoe
ztX7wPF3~Xy4ixS4s$X*s<_`rG`y56ytZ{JZPA!)~bgE-1HR!{}=yj?23vcSvyd&AU
z36@KP<v}UT#?l8R-1@c5JJNk>Zv7l{4)nr0XA#|^@Q&y0{2WHVw6RQY(;#fI{`9^M
zYSX@|TAs<Pbml!o_a<fp;)St>uc!^$S5J?qFt&uN<yCWngvDs;&r+>Mr~^<V^3j7{
zYbua5N#EIn8nt<%#<8C0)QG$~3K7I=qge!j8@^Pa1(k2-aS>XesanwTJ%!w=4>>eL
z5vU2O#uX<SUxmR@rz01U>o2c9w(~IL`V^TL2Pn0P$h9ye0WspIVaAlV!%D@30Pqdg
zCg($>ufaz!@H}`=sRq}Qjz!|I?t*o~^}LOf;*F%!Ni`0z&IN6XgDDi4AqJYmax?8h
zalO(az(T<qNktV846TyUscR6YUynx>i%528kIp&<pS^OGTbr0lY)fWsgHtSJ)-p&9
zfVG^P6dK6SbQ*l$B2$ZCb3q%S*kDwF>=M&6a5IofDuy_22bk9jc++TgJglimq-UtH
zEbEo%_3%})_{e9iC}dSDS4`-r^vfv1hETCS%at`YWMG40%YO-Jf%3dWux*zjDb})Y
zQ`F1k(1fDT$;J;OD-mu{?CO|ss}?IC28mXxVy2-`%BYD2QBKfRq+vKufC&fi?VQz5
zAA&W4YyZDP!6R@|g!LKa%A8`&L)Sw|2TlL5Mo?bEgd+XJCPR~I|I+#8r*Dt0RqtAG
z-mh(5y1M+0+v&C1y$kO9ZNZhU)!~yrIJegJBxu+yX%YtH#sQM0*WIreTdUZ$V9U02
zW?FX3EzEAj&uk0YWpDfPMcF%WyZo+qc-20<>K)G3H)ZMv<obczwQ@bA@h_J#(fnSy
zZ7&ziySy1!o9t>^zIfL)0LrndE>qbnSN5)aMXnsZW4K$nd)2*rwQ@J;)2ha$bD5@5
z8NW?Q_x&y4Qb#lGd*t>#cP`59$JYFh67+g-vA)_HSC?j2M%TPUtKMBXC{`*n?q=ED
zOx)F&+%|UCJqDf1t(KcDT%+P4(zo$e@@8^5{pS1|^K#87scJyyLxUmL_N<J4f8SgC
z<XY;Co2dW!oAb+}T-(dS4IOxSv)%it{*I4a6*tCK8;9??MlcYsH@(`lQj-ZDlkuxR
zws_*cr|QP})uzFFo^9FsmQ4LNxqjQ?i3dFA!ikR>+Ojnbw-PrK+1l1@{SaCIls9G@
znzI!(8(w=ODMGv(RYH9)_z>PHvd=iZcp9&aJ0QCQ%+oHr+q300n(@%jtyXrUd_9%-
zY*YxfJzD<d(Kq+Ku}^jn6(ANB{K{%&Cya<{sh|t`tm<Z}Z+vl_UcA~@PA#5d-@I2w
zvs81XFRxa%Z+L9gRL}wK5#~<wh}=A~VE(|~$Qe?HiVsr~v2yx+=omQAE$xMjZ|C__
zW_@Fxx6GL@Ym_KJ<{w~x9UTo~HTqM{$#xZ;*o!97@QzWX0-i=4^VWGAC|jcDK%taA
zjEbN%TF)g9cw+0EO{J+>%K-~{H9D$LfO5{+)x7f#<kBdiqFjzm<KV<NIKgh1#y|dB
zJP==*uoVRD((5P!<3324)6%cQFZ~8Nze&zNA?FQpmf@)Q>$fO^vDx2*PcZ=xO2^4(
zcvdl7Q4CiV7ooo}XS=1JM^Xs};~Y42=&;Hwp#0hXha<DixjXQYQ#Sw`(k*c2HMg2>
zHZ9Gsl@Bah7fcIJWGkv~1#bqI&b|KCSHHT_@%{d{`tO+EbHD3e^&k7e@QvVF#rUF)
zET0x4S#GREDpo9z1p`TLo?m=^>H13R$`fneZF!R>tiagK7!b_%<;Yr1&w?vkRd?&;
z&6CTnwW|I_$Aa|+%$%whJe<WP3B*M4{31Vn_w^w-Th3j>oDnh*+WGO2MsLoPmw~)x
zl(d0|JmjAvJ(w4HXz@($A<<XS6?Sw!e0=jFj}aQ!e!#%MmI*-Hb$xPOU$&+t+t8h}
z2=)CCDgkA9fQWrfOP5x?U90vk)@jVGym-T-E8ZYBt5mW<0v+i^a;QfS5o`P+C6jX(
z|5N`8jwaUNG7Z<`2FoZDYLKT`s=>k#YvirF94yR@x|o++busS+qsLP708)#+H}~c&
z@B>a=6O(AzDC88J-dFsK{&g3Hnq8J|Ei?Q@nJHx7B>r$9iq8$|#RUFqkGgu-e+5y+
z;t$afGI7&$7>$)N!*kW-+{g^j$w-X*Y*BmOXOB9_P<^tD8ICz&IOc?Dm`jfv5Z(Im
zFc$Mb^x<JbiZWmguTrB<9`)D&xABj>jOoH;=Z6B9nALwk<fdfM2Ef`rfLW!PM+BID
zfoZ9jr8C(YLnB4nrl`n(#FCm!9@%g%<Km^jg{kx<R)!G3fJPw(E=Z9i6k@PeVX34i
z=s8U`EL@qulLrImE=6O|IWTK#t{MPMo`fbKfzu466F>{ZnTaR^G8s!o;sGub<ywb9
zt{pjd32o&)g2hcr)sYNneLJL5uEnw&)_YVJU{v4$QN&Q->GWcd^`7)+>M)m>l4y{M
zwJ!PY=0}3V$Q$oDSX;v}@mh(+P?7j3&s4H$NPZLkuls;}O2kLlV75M605Pp)&I+VO
z2o4VzA%epmuu3}H;GB_6B(S+z^)^BXqcEfB5ly6+g^7dhH-zu;GWKFyKVnW%xBVS+
z5u>Q}33clWd$blIhYr(=_7k3B4{}tg{=yqMG{F^e=&_JRqLXx^T9USSSh`ujSXxyS
z4_F!#TR1lWr~$Q9;f>g~LP+(!V=IEC_2(Y|R;5}4*jf8HWbeI*C=o*{hC#-rVkcs$
zI(Aby<uDnIisAh30xMl&2Hyht0n4^vRe>jD$X#)$yL?h9XIvjYUchE^N_vx;K+<C-
z_g5;&(hDoQh{;mQDGsXb0^g<7YB-}Lp{|fn0;LiujDjhG!wh{DcX4kd!rYvPC7U(H
z%MWm{){^y};=^&C@Z@AziwQc5n81HYrFF(k@lYqU6|6WZ$PWf_hLGl;#t;_sgPJ~L
zGnUpE!Be!k{|!nLBM2RrcH#gWQp3({Wj&GV_*K?#I4t~-090Y%N$Q5=x}n><<+{BK
zo@{mFt*383z1+T5-L?FzTpe7A-1e+IzuJF5u0F8fB$eSn0Te-N0=JO2*D4d*gPFER
z<hDmR-?!=5!GrFBO!qOl`xxVzvdGzfSZ+T|p}<G}?iK5ut~+(_H?8h`{GOi~c-4Q@
z(zSdw)4f~n-hJn4=D?HkfhX^^oTUQ(`vDZl^z4y)_PlS+96T!@JbN#2j#!N*z7K13
z(<UZ^FbE^mp2k>#P%|<$RvsrIO?&1vOf_#bl9)43wrLsQA)8+iak{Jq6NBL-*=wdb
z({ID}l@a}xc`JjZ!)^c;LDKM7p`JV><7*%nHAuF3h!2rp!&N2uiMh}b1rjWVpNaT1
zt3EacDw$FMgwav4HHcMRvzbjfpwd$zf~YW$L-DPB1V+3DjhwR}@>#k72a5Ig$$y8O
ze@o63Ie$RTza!`O$@xQa-h%^v<}mpSP`^n*0+;7X_}<PL7PhW<M2d!0T~ge%^8{jM
zo7MfeWI^T8*>ji|sT?vgE~Kh;!Je)2XX^Upy8e}C*6JQ%WO75#Qq}9tuQuldEGbS%
zuXJR3AC>WIcr;tx^ob1#AQ!#WpU|pXEL(8hcml?g_3d2Ao)gUVPLSVJ>Y$8Y!$B%#
zK`cm4l(NCM=vi>yI0UA;p>sK%={_LiSAQVuu34(e)DOw{xraV685!wr73#ZI>{!ug
zA4Dx`vj^n5ftAD>TjSJ?pj;PR8Ca{^g*9InSl-79Jn;IVK;|pxAEW0%Zwaxl*ur6P
zY62(3Xc9{zIW!4%HJb(cpN3msqxn0OLe3!??O%fjr2i*IyTzXK3&m<pZ_x5(17iWm
zLp`g_*_gLTsma0+?c|l5E*5rc+<}LM%Sg@1z+ph4=PYNj=M6oUCXL{SUnBTGvmwOC
zgc>@5|JtK+`|BSeYBO~&8ehY)030bbN6nLFMz335EW;6fD~@Grgn<SLHfZ|spx5o7
z*X`_(YT1^ho%*H09e`tC{Dgap96WWa+MVDQEFm0##nBQM;}$&XvN=s>NSMxB`aSeR
zanY$c^%MzF0-6afVNaScCj4K|BJ`_<Z<)Vk`IhxtwoNBpp<LTcje;)9)1D})J$hoC
zm*_NwPTrU3EQJnUeaVb?9sK!{jn3N^6qSn>y^n<)8a4X)Q>}Wmr?j)65(GBYnE<Fs
zhu$or05yz`oDJGwXdbl5qXv>Sg|n@1=OdA>K_IisLT=HRZdOZ98W+q9mIdpA4HM7w
zqI=$yZdKDzZ=32byy-kKXkUKnm%cC_5}2U|jb?>kqdDQ%DDQ%*4CkzE7mZ&y2HFVe
zjQSw2yV#Yw)7#asK5WDet2qkqckD&uu8s9|L3dP((sBOxB8QSYz=&aO2~aFeLmGzl
zOK^VGTx@NFDUlyKBxw)R-_zp3BQhIkZA&(!waLy%6yqW$^rB_aw1|UPIM$sfGT2ru
z{VvKgvp4L)edMRri49uB3&+v9fRK<IPD)UcMAWO|;#4X-L(7?iUP@y`EkQ}q62QLt
z0v@)lDh|4sfR&mJZo(28kvg~+MzfK4YX6{?^<BdJhX4w6>;1aMrAJ>s{p#tJ_LXPX
z{M&E0%Kp){x*ZG0?>7uBocv*BbJkar_0?y6e)=^9aUvE%=PDdXwRy@Il7`lbwIIci
zQW44VuTjOOV>8qdsL>`>lyx3qK0MS<#d(!(Qs4)EXkjr8+GI>h;qHY<@`^;Cou8#~
zGxZ+sw73EbN~KCu_7yW2?UefrIbGzu3rBH*;m2JVthtH<ww!sdHQ#|w%GB}&_aG>4
zDE4s7Io~SAwQz=o2|PGRVpu?K9j2=PgdFyj{}cIGuQz{K&WI4JjISFwh^Lqj(WFHT
z|7&0Nx9Kwu!})*sjCPND+&SCY&(9ubT93%BM_^f1+m@-NGt3Lntmt_k@N+W{=xlVK
z+|WlFkdIuo-`<~bb>DS$-w%vseO0%-H@%n&8DE?1Yg@ONTFVxW-g7sB&<bwL^c<0U
zjw~Ggz}@*#U~nxk#FDZ-ee~|knVpWZ*Csv_@XC?1Q77y^YGBF`I?=iuyEAsD=l$;0
zT_-k7#@$ZYzJpkfx}}cS23I=X=>rQi^c6$a<6pYG>JHKo>3wqFJ{UF*LGy9X-j8&5
z9W}O#&QZ6sL)4Vx{jtoE^YW4N_u9WgO$&U~zJ0BIgn8M#RUDkbjEO0J@G`&d@fG;S
zN%&#C1J2eGW)(Y}6{IgABV@^IctO0(KK!4<pCYL0sbVjmw_3fknza)Dv?a-_^o0q3
z6`wP%U-R~@+WS}+#u;s{RBgH{fSco{uzKhMgcMhWr#9I)ku3o0-7IP-#)|6JrN@3r
z+vm*R^f7Bg4HE)R{$ctUOR@)eRokf5G;B?p9V61WF722zy}+%Ipba8{6>O*q0wi7b
z3-Gi}wx~Yc4PVvr92K5H8O9u1!I)VJdZ&5I%Vp*wn@nvybi`jNPg>hzvAtVjS|866
z16y5ajq01TsPhH-BMWv4(>O<$-$xE;gb3+LcgeX&&VMF{220A2^8q=3M$Qk(@sp##
zQ4ibEY~#GzUy$zsIiy)qEF8P#HxI%vMLb#c=4~U-imlPi`%@HVDsH~K2p43*uXua1
zfq~oR%+PTezrgXE#P(FzXR3PSs-BhlwW^WZVrJ}d8NaH>KQRgA%|H@WJ*$-?tL_oF
zS^v=O7TJGj;q*t<jY~&gKl$p(m8wi|w;bGkXY{@O@9zJz>Jtmce&}z_HneA(`!+15
zrn1G;P%_t?G;BBppa0w6$as72dVB9zc0H(SUw$TMGL~1Yo6NK+nLTCDE0Ch4h;5`+
z=eex6jN{`$cL|dvxoE7|UNJ_#0w2Xb0UPNPl<)*OPr@m-5&dI|B<DA2(0&OXa8wTt
z9r;w~wTv#$=IC{2<R|pXJ!LRh`d6yyJ^<Y9VClcp`Ck9KPy)dV{m|ZnhU~z0I!Iq&
zjNm8UtDY%QaF(7hZp-lPqjK{uI#Az)-g2D^Q<u}p`X;FGxMJlqoUYF^Qq;Z){MR05
z-nafg(CT7F>LL#0{U*#9Mbky2XnxHYGKpZJL>qiyj4m2NbgCZb=E3MdO`=D6>&H$q
za*CgvSC>@?Oq2%87KLJk=K^H-5n@tntt8YaT1hulI9@P(j;KfUMa%LGUpW{)uULT=
z1hk%N9<*3D9&M@w!&lB2zNRfpSL>G+YoZlm6=V2nx5&X#C+%V#7`sZbev4dNw2s3@
z8ynEZD%_t|jnOI7hrvgR5GVRt6D=bjO8QZ<mNArdKswEecBjRoQ__*hOezvTbsDxt
zu;`&9O|bROzqy$bh)kHX^C+8ozmAcqy4f8YijVJS8WomO%DIN9$O;Q|Fzt+r4Gb%3
zZlwQ-5T}gT;v-f<|2mTuq!e#adRvn|C#uJ_>hq?0eCZZBbv7GyTTzJsn?$%@sbI&e
zhx4bYne`VZ<-bc^Cn``W=Lfm@Z4fMnQq7}CNL>_-d&f)@@e~`dO%z2dQT6#E>;OH3
z5}uT%RKdXP4i&=}eQm}JJhYe%bW7?e8i^eMNH>`AJ|cS`$+~MZZX((;?q1mq6B#Wy
zCcANwi5A==yZ5Zy%swYjvct)Ul}(?Qc6CO9&@DBfuMC$FQTovBG<u&~kAj$o;8*X1
z<4Oyvi#^DpqCGVVZ^Y_+RHA3p-5OTCy0GWXX`=qwqpKi;h*l3l0-DB<tL0fcY6>CM
zhrD_=m?m9;gh}rb3#b$G6d4x3F+wH@>TP(@06QI(VhYjIr0(rb6(384`j#}pOidbK
z(=nA-;Sv>b2nRw`-7SR!fg*X-p1{>pr%n?v+{acp6!#>%iLIpAxtVF4@I=;h1lM6D
zFKz}pz*?kUN<gQ%_5|3)eXP|er5>V0Yl~Xy<W1u401m0)m?#dYZ3TyyEIxq8`l~?!
zm9-1sMDgGNT;bwFc6kD`qvS@BP6meCL%OJG`CBZY^Y_Bil;4}k$Asg8Rlt;JW9FjW
zDEY`LSE8v<f<oB0QmQz8U$};mU665w%EZY@kaLk75_&+H_$m4Sgq*)3ht)`3DKTqN
zK8H$JeLp=a`CPFILM8tcHA1f6EHrjy8g|GHI~Kgzs+LSuzg*RysTz~3#ugkPZG80^
zZ-?ydSoQYv`x+b>UzhCbTB*+j_sjVC_TO_Kcu?MuDescYyU4n*0f&h+{M5WH+Yrn&
z?3Ww%XRDht)dO<%0JH>|ngJPlG>Ykyt8uMYAX7Ui*A8auS~GQna@`<I_Xt<n^SG)Y
zWZf)OB4&<+N(^;Xz$NXzKJwB-TtHGJ2P7!$(JzS{YKARLyP-kSm9e6vSuL8@P#wF^
z5Tt-gI~nLk!XkMpv2+DHgMyrI&QM@*a9mq6r7EyXD5uo|M5TwmijP?kIl>;bC3;9q
z`rU%e4=^=3salpH%0MBc`Zl%Iq)HQE&p_V_587JJeGEc}>My*Jqe2aVfz#=YG>Z5(
zHBaGvxx3(3eaNYU<n@j=sM}0&3k!1EEyqBAWOVw4yCDl>p!F*0EgX7KzejNkwrKy5
z+P}gZrL-*y_6^o?+$=+y3ebEE?F=9*r}usjJ{U_{$WlBStS>@=lu_}ea4QyFUM8s$
z!agdxgPbvPddVSHMxp_i{u+)_nT|yXBa21UCg-GoNO@?^NisPMtrFR(ROE@!B5|SO
zVqn-sttm#TO2phNzBs#SmZ)ET)vVM`u(EK1)>82vYu?{d`VlxqcOY_po4PRT*Q3VN
zI}Aq&Qy#zu4asb_+@C2A%H_dK`G{OT0y$n|7n6%+{oNV=D8#fBs(%1{+PG70+_`G6
zd$1|xqav9gm+)mFnM0YT`_*mPy7qTY-KlxMcCG(7q;7e80;|x`n`z%Cx8oMWd$1DV
zLO>>0YYZ~!U#skE)x?1JYulF}T{*s1JGNmn`ymi~`4reum>qN-kh>0$@UNZOuy^0}
zc4u)l&fKeWnU<Y$%T8F2I^T6>c0DfddVH<r%nkFe(AntD(alw`x^QPs%{JU4hZ;Ij
z!w2qGpnHGsS|fyusLm?jg!PHV6B#!Vpb!!`JRjKm8NDfyKx7lqNvnYVuhaI&gnD?F
zK6+|_g7`|M@r`WqaS_dj08vbov)I{oy$@X?;3F%AR4s}#0pBaLi?bPTQ1%8_f@|K<
zRr_d>kWbQtI-4YUq;+uN|2i>HTgxdS<${5iYE}kg2CLc;1MA4cWJuoxWF|;b)el5c
z6-kg9^*WlDBhgluBKbSEejmg#bjm&Ju4X^j(bum#EKG-92J=@{M8oRZ^xez=z`oo5
zhjmidW@Ph~K5D0pk_n59;iUX^0bEjM<*R+uMFC0~-7qo(4wxs-w(0eEbDnAHb_?&e
z9ro0mSi#YUxi{u+KeJX2sr&=YyjijF`=L{t`b;D{>+^R2>lRKdkyK{hSU4^Y{7mU3
zkBZ6FJq6lC685r3O(W_7BGCT}ts!8~!%7BrftIU+WO&&HyBP9S%vtorxVRF@tnRGy
zxUKo2c_B3_<ef93#;3WSlFa&HXm3Yp1L}0^*M)S=8jr-Kmo+v{?GL0JHnpD;a?F_+
zywSonPh_*BwgELA!XjXo=FB_ioO(>(ybJb1t~n<T1r%LPV-S+(%)(F6f`74P3;qCK
zO-B<gSwtEQ`U3x<(8eN4%qcq38f~KP=7rX(eFSA^ez@S-AiVt7=!<?U%Joa*peI%f
zJp><2q-#8A!Mb@JG17k}=PfvD#DAlRe^wOnmlQ#B4>@*||6_76^R$TnP7zITW-AK^
z!v<sEo+hQ}vx?;qEj`6>h?y(R^4s<Xne+k&<>-n$wvrXkrhC?B%ksPYAde2Z6f<r#
zNh?0O5LGN(e4fHpsL`}ylcLjcT)(2&p%+X&7lXw#(NdC!Fa>%pNWVhCMmUNoB8reA
zAEpQgl9U?oeG^wys3}Nfrl-NkDlTIBaQh&u*uyS>&)1w%%+wA=jpU8QH7Hbo-R7#e
z^8I1?>|m=v<KQBA3(LaVl_J3f=Ww~pwZd+yD1YmGs&JuRvHYhv$2EM5R07?2LHN{Y
zYjdvJo9O^k<I-rRaY$|)T5B9$s~K5v-EZsst<D9{pSMHw)3R{%#z5BFv0|3JxGSXY
zfwyL<WAS-9x`i7HmcO)ecCB{%4fE%spINJY<c9f2xC`00{f2Yt<Vsz(vKgZ5%HC|1
z|3SX=$=eM$G>6iawYT=&+_zkNuQIqI-szJEk0IAbIL9`6yXs!$7y_VUaNR;(@P;KD
z=*$F0<iN-c&ku2yBD(y{?Z@u<_WjUToof=tP8o7-I0mN!?*1llm9?45zPpuuw;gxR
z$wP;zQCbaT18G@#{@%eauLaI)wcPWKU?a=8n`C#>lK6qUJ$KR|boAxM4FV2~x!Ui#
z+O_o6=D~aJZAIz`=|}j0AcRlROgc@@I2@%0_W;ps0vQczxG<f{H5sd#q|_IprZFoq
z>9iylGbF&}{+FgOYtkfS;i?TLfLy2AL~^hZ2&F2J7b&hp`++}eB1p97Ncf{ASg_>i
zYD9iadC1v7mK5n2p%MACLa4@pJ*azE>xMqDn3}Dt<_4%L>ie>lT?p4BTn!08Ti>#4
z)!g*J;>*D*&H13ZHD|#al%CVOF!RdS7r(xAjC4k;-fr2^^QjGK>n6ck&T_-fk9;lp
za(L&<-8j3{e&ead=a((Z6DuRPP0I;6FuLj;l^r`iwIN#`1Qj@J5DpuT8a@@eEKXA2
z;6>^iymDutzS&Vw-|Q%;Z*~-^Z@fk78~D)zReeLDBJ~XgH>q#dT@=-3#jzRn>JRu?
z7wDkOl38~6*KHK#+hJ*1er)B-w@2<+*h#FBqw>Hpx#Q8CfRrDM{2=wmyFMc?Cxz)_
z1P@DpgqPx-n8Gzp?B24}VC2FC`=n5Y;|irTE{0BVmE(0}m56ju+-X=}q(IOma6=O_
zLsY6r&__p<`T1gQ|G`h|HnJolhhn(F3P-UA=?DuhS(`#(5}k0XwZXg)j5c*{&`4CQ
z;$x*n+~*|4E`a6|`Ell!(&#}=n8pNdjNel_SuVzU;^tL;iG1EPWw7YdSK5D-j)&xB
z>QXY`U>500>%+3Lo8Z{({p=t!Kfc`euo9*GBx5rN9#VpBbbPzRU+tj3Z^AE;?f*NL
z!3A^psHBqMLdEWflw*HHBmdV=_+{Y_>q}v?jxx-{4|k6|1U|R$(LSDryEvOp20n`J
zQ1Fk+|A0z<KM(VMvHjS?s!T<nouNOb!&Kw+_a88$@i$9wQ5cCzB%;Tq06DGXw82p<
z97sDwu-(3se9T~oBn*o6G{eCB^7C_)_KW2F4mp2J4lOKZTg}(mQ3MtHUXHi-OS^&k
z@WahxaB;ts!SIPyFm(P{==f0Z|449uC{%qYbpKfB{ZQEV7s6gy*!!Vy=tE)GhveDy
znbB-8ej>p6iBm8<X82Gz_L<RykX<l*388~p=nO&wpP8*l6X1MSrusH2x(($w+UWG=
zh5+xzIYZK52rONAJ@#sBLm>ag1ykH$=w3ej=J7X<ZwTby_?qc!21C=*ldu2Wt3S6P
zkUw|WBp7QqjN|a%IDG5)&Ex9=`GGf$wK*2Oalv@qXlTlst=~HS&Er{fdDiU9n#;0g
Och=ne6Az`aLHhp~0>`NU

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/flex_olmo.cpython-312.pyc b/model_executor/models/__pycache__/flex_olmo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d6e08107eb23203deaa36c7fa575ec81a2506e3e
GIT binary patch
literal 6661
zcmcIoU2Igx6`s4lcYo~l&)TdPY%g}eS+Lg>6N4#4At7#)fN7JE(hbVhvUk?L_T8V%
zy$je{tEfV%X&W_2tuSgL9H~-_$OC;UkEzs$NPY3jRJ*zgYO1skd0T=bqQ11}%-y@Y
zHVZto8R^bFGjnF<%*>hdoil%JY4H+Bs^eG6w_SvMi3KY;tHgsgfskuNCUGJQvP~7@
z0{rc&khaBb0@gWHd)g6qaN4Ol)2_IS(=OGW7ULqP-Kr<;je9vQs=l;8?&q{eZArJr
zTRH7j1L?MSTe>~o&dWZvBi$MA6o`#bkp^#p9GK!=Hu3`^`!5r@g|^+YS8Ka@Z7b9U
zsBJc8);8uf&JgEp1J3rRaQ1M{4&dyh?X~{ld0RBN@Zu|(6lFA%q$AmkIv<%->BUoO
zIvYu6WvWJ!*>o<UE9X=ixuEDXkss!#r<Kg~WFiR_RGFU9wb)lE-c(dDY?%z?-nUdW
z{ZclQQl_Ew%rw;{oo2KwllYKQF2NG2N>%AXmZ`F&DGL<%d`d>qB{e%eO&Ju$$-GA8
zli8PncE5h|jj1e41KIXE&8bQ<p;P&UlA#F}wHd7_E<L8hB)XE#7;U^fnPo2}@>)VY
zaT5BqTFWx!N;Yn2O+#?Ae*ro|3Froi+fYwF03D%r*+CsC#}Y{ivh#9l+_^+93USvP
zB<eESt&!^jkeh<x$}yT!E*ie`uo+U4?*?m!36j<02W=q40UsXxgX2*9JK-A9p<t#f
zjskfPL@Njd+b6;;<c1_bc@}$ZNwcmk6;NEX>mIANVAuH-!Ll`$W_y+VT+mx;JY=@j
zqU-+xnQg0=ENTHIv(I)|<@)~<n>BucNVPdP&C*@xwy6JU7QZ#hJc-(;ZrT`%#Wx!c
z!cKEqw8e00`5a}2C`nw;B*Skiqj@rhXC_rWB*Uv{N=DNYa3dIw%tXkH4n3<UR4J2B
zOLOO?8JdtaL&TpXD`~^e(wdY36_sE%!!^fgBT(;Sc5uDR8*Vxchep*@T}~FpIXse-
zR1=yeNgC>81k$B{zc#9;bE7#WH=-vP+@+C=`GXUO<_^+PRXI1Bo7ZQunNd`-QFB4`
zB2DJ?EHjJRXbSGLl!Y4-%gwV847(71L}O#tuIz+%?J{KFULv21Emzz{F|_jbo$fU;
zbXR=gi(r2#I9v=4mxANP;P{f~^FYsX^bhac4IEe#53B_a{Ik2a>~Aai2aEo}75U@z
zN9m$}>`qT<;#6_s)P~)*&Aa6IwQs{kw)JtoNYNizIq>n(kB%1o`)(_x@e{@I6IH(V
zd=Eel5_RL5WfEyBNrqQK6Ovbv_Dj;c`Gjh=FuW3mUDFv~qR~>_$s|=(NxCVpXP{lf
zoA(0S1vx`S=UD^@tq-zqFO%}Im%b)Gr*~zcg1<Xs5Ak;&Gq&66(A;#)Li1+R5x2`W
z*$(CdOo!~G&Z_xvf%$OBZt8A!t7NfxeaazwE<55LZg#w2cD#nqIz%v$2@kC7Sj054
zBbIrMKubhP=Tw>o!w5D!n~9{dtZv}-nS>tEW)e)+A~cbliO`F1MRYIfT_VY{nic^&
z9bt*goEG!)>X++mLz-p(BMC;$aj5)A$4DXrm5~%$bCie=Ge=nlutm`#yc(s_XDCW{
z0i=oK;0_G)jwvMrBFw`~5k}=aU=H$S^Lj3?YmI_dg+$R=0FMf7R{ef$GP-!FxzYXQ
zqej<h8r@sKg6X?7x7Hks4jm=t2~27eW82)&0y+Uo6>PsJvh73LC-z%a2-swHw>6C1
z#8|_~XcD%h$4Y@#YD<zGTnY!5!wGV@ZdE}C<fy^PW9A`JZRKFP-BXhb&e$|yd(>e#
z&M67a@G+|ASw`XoKiv0>-iW1dE{HKxX|<@w@S$<877eGK%}H~HZ$^=2n&D1{(XM24
z%F<L;U=FjY)l@5qQ7y0Pd_pwi2^E|Ywjb7Nxb+-o<#-ZpW4NQ-$gm!ya7);B%s5t{
z-DbD}>^aQFATu1eB<4o4vq3}&E}Nuh=h!&5xT}J*15k>(*dYAs`fE-zfpy%H;ZdWm
zM=qJ>jNA2KgGs1a^h3a@{TZ?bi+)!OKi!mfjIVbbT5^N2?%GxMca{7*i~gN;qP@Eu
z>Mi&5mb-Vne`fjgTIb+Ki@OW$yJsUvLXmQ4XDKvN42_gKwwF3aiyfo&n!ce@-$b!*
zqP)GoI!JK4InJ52&fOcG-Vl!CuY^c<f2nJKv1|X5<2};^8!gs>f<>bMwWfk3tL_o3
zlMp-ue!s(TzptUg#H%-Fi?-(VvVh0BXoprDV@r~Sg57d&76ouxaIP(>Al!m^F)e}%
zH;d=KCBfJ=$E@CD*@IbMz0RVnwt{1}=B`<7;Lugcy6d&*EI6CVU$9xS0f^YAzWNWO
zsEr+k0gM&~b`?|-TyRC#0C$~$4LNE!&MWi+I}9xB2=cjPssjud&ZL^nP{Wy0vkBeO
zSU!?B%am!!?Cq_d7kEkR7<TXEHeK3uj9N{fBV3;icNGd2IvaJmTKQ8LM!N#pCGthr
zK&k85V%M`v-m*omb`-mYp&Z&(3hgO|_N?w-U04qtUTUehNKfw#&vnnr$a-iWFZU1L
zP_L`y@K7lnD~4n1;eDm>criS_9zMh?M~dN*_3&uLN&5FbAohOmnz+5<C2fPHz)&$T
zwCY_CjID`d+&hT+*boTCp2aK*nc<csIh&Lu?wznbSdSMKZ4-kHbiK)=BK9ga?8R&t
zvPLfj0}_VWC^kF~8F(r8Z7!!+X(KNR$Azy+zjF-T75Lp5`v!lN7lnZHz{=^5&wg~a
zLV&zY|D^s=eTby##o&NR_-e^gxCeiMs?A<ZV*n&OWmn3@gCI8sLEx>pnnet<=P~u(
z$JDzP;F5rk^qBFU)GKAf>zWc}-zNXaZ`6$8ahilcmYqn<Q`XEiV7RSQn;e9i0eJ^5
za`ULnx^my8gMg7AfV%*o+89&S42q87Bu~v91gH&K9Q8jq3RPnX0BxN-`9F+>_{Wou
zaL7}21&%E%sJR6I`p&5ZZw!MWDWU5bh5|Eq!XXQeSX#|R15d$Q9Ln(2`(vzTLNEIC
zMktrnbR5}y8jw`f0t9#?%v(~F%2lgUZ{s)4u*39h00ybYVhvc^YuTkn^{Rocirqeh
zY%}PVpBg{)>?wx^SI@7`+@4(<J_eCc7?H3QKsdUuhP^BErJ<w6p`*|oh332BE@<Do
zzghcU-afP;l3@Sp_dnhJY3Q@youA$9JOzL%a%*6CU?UU^4m1-6L~w-^86vBs0~TN<
zq&cSE1_ChE1_()Jt2k#d;UACOQZT?+@?;bO4qL&#0R52SV>Uz78fx(oYZstCZyncw
z!(OmiBg!OY1EdqCq7L?BU}vvm_9kX;KnAsgNT0?Gp^Lo*nTCr+=gK^9G|vk=nx1!6
zbr!Kx8nR2I(n^9mm&9^t$BowOtt<1l0cu`YYJqYo^jtCY-0k#w=s1>lt%}7e2w5G(
z>*7l9dT6xDey|uic&BAOG>PTN%2Cc<4(wQ#*8&4;;y`oI*@89f1c=2>LI$Xlhgk3l
zXmbi#F`I)=y8xLL69=3>5)ftZe`n16f9Cjxmn#G9&cQD_L)VU6JyLN34KN$(y;itd
zsJO8t5@;K~I=m7rcI>Knu*yrkfu;O!3Reotr*E9Ses=YEv3K8EU|-Smy@x(vFkuQM
z*#uK~w=q4yL);8g7;HnBZU4Xq;kFZ?#3j3^n~KdIs5oHMVa&^eY9DBcXw<xo$@=5r
zBnJ&}lF-^3UT#4oeIA^5jHh@ldmE@4g5Wi&Aqawga|FSQQn16z9`ZvH2v|egRMfs@
zT$s5Qazve5;{u%73<+>bRNBUfpr*AA>!}&3-$DlsHv^2+Ml12O)?Rx)dllY${wDs!
z)G+^6w`O|^VshzRA~^@)i<HwPInUrp7#zoh%=M?PgNB3e6fV(lo#an9X6&>VY94WS
z;#i5<Rrs_?$WQ?XhSnVY6+hY5Q{H{}YoFVBMgSG-j#S*76iIuq;^Cy1boDHE+~~R9
zbM@3i&Ul|-gQ-tAaCAF+4SwdW;8OAT*;w^`7B9ZhhL346S%JqS<s5j#GQ+JkA97>n
z`!qv;)p&+8Zhm!(asAL@{JjGntEzF|lUQq*WIi<Re8Q+IfAZ$>r4eby$A!^i_}oXC
z7gvf1Z}f9s9Ue(EFj;BJG%2qus#aaMX2!1Qy&A6S3K3YDgc-Vv=CR@q-X!L3?gH8n
zkC@MK&$C%5A{uBp$SQV05bpO8;T7Ra;=f0N{~`nT$gz85@E)1CM-JU1&;OmAyhjfI
z!xMb}%(|!Vl54}|7re`@8w7qEeG|fg_Xn;;uSPcrkQ*0;L1A!t|BZ?36B`7`jT3@b
PI3uiu_k2T;;1c~8ZX(Tu

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/fuyu.cpython-312.pyc b/model_executor/models/__pycache__/fuyu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4f1dbf2134666ef7e6aeffbd47feacfa5ecf5326
GIT binary patch
literal 16120
zcmbVzdvF`~o!>6rPlDhRAVCtOC{hq#lBl;R$&xAAv?WThWG9ElgM+wB2{azeE@+E9
z$fwJ=HIz#lshz9nX=Y6K(g|Jb52n*;mEN_<bb1}%qz`PM9?-2k=1tVzxb3uX$c(Qy
zeSN;a#R4D<p6B`-^0&YD^ZWjN@pHG^!6C#=zZ+XU#Bsl*j2>*|#Mb}eIqo4RaA8j1
z1w)(<^Y|L$hJ-O}Oqjx^ggI>Hsm>I)B&=a;!WOo%ydiE6+gTq+!Wnk5GIQLOaEINA
zrf^fj6ZRyU!_BPR689!r!YwRqjkhM+!fh;Vi?=5_!W}Gak9Q_~VINC7;{HTexQnHo
z@$N(*97yzpdlJ3jURLIc_a%biV4^?VpBM-aurhaiPhv1UnAjWMn-~fYC5FSpiGAUH
ztga~@O6(8sXK7D-BrzHuW$EVlSYkXpo|p(vAnz4g;s+83!v_<G!iN%*;Yn838b6#k
z5<ZeR8a|ph7Cx3Z9zKrpw(tp|J$%x@y}$__?{Gq=IR24QJJawfR_a5kU))<Monob3
zDD4*ai&K6yuGF1obph1%h=X-?XAGR!weYrnan-MQMw}8)KkC&-VPo`RjG*XTxLa+f
zr^G|z<VR*L_ffepd~Vqg>R)NSx_mt)&D{!KTv}cVCQ^bJAODP+%!Z7rZ6+;B(Hn75
zwO)=cF2<5KRogZ3TT5bcP7E1T`?+K?m5!!GLA73rQPX(Hq`J;W({r~jiqZ6vB&rS?
z_xV(EK6X=Wq4Z25dQ-eArRGFgPD!ep$|~6quR30f#}iry<eJY%WpR2bkyyU6n2x2A
zGRoSXPsNuK$*WP!7Z>A~Vo5P7QTbI-l4FTPDtR#_Js(|?qw!0ZQQms_)l1iBE?=2G
zcPaA9g%@V7U4P{_u(_7YOYwB<a!QECr=#iUbZjoIwpYt8#>BW#UU*IM%Wp-cn=;NN
zA!Cfzox5Shs+|>Hi>-*5ddD1EH?!JFyQ)@Iwy(BOMLCPpo=MK9R4?+0#q=xUVmvx0
zCd6b~b!kPfE($n&wY4@kEvBQfI2}_*<>+RTi%V(w{8B6~h;&e`Gf7-lLKI@?eqBuB
z9%NjnOG{pxyCo)~s<WKC6<riR1Et`w-L~qQFC=b=f`B#3YRk2y#l@7AmaDa@Lod5}
z6(Hd~x0FtOU5wqlm6k81qF9CME@ug@kaf(*qv^DmjNC}7u0(YCh8S6t#QE6m*jzi$
z#oj<PR|Z`6v6M4g-$vpgCvqTOT-fj`$W_=V7{VseEEovUM2ldYqOVo7Ewq$-)qH?r
z4#6atKQd^A^Lj5!xtCLP(KxJ~^&>h6gi0$LwOY1^9BNw?xC#EXGhg`wM-X8;hHH}v
zd{44Gm5l{&Bu@qzt^{SkN^pNLxr9TNf~omnjF3d$(RT4G8t>@8NK4o;z&s{nr4gDe
zavRNSvddcU$lR@HGAYKjnN>GiMx;ELYDzCJimLHOa#1zRC)Ji6wGp~N)qv~smfJ^g
zuMyT}Hsn@qkw`L{5F-)Q5s84zEX679ibTG(6pfc_tdWS2nu|oF5ge*yMWlKn5v+)a
z44odT=;Bp#nn;#v(Lhw{qcT%GCZ|<nESdh0+d={N7Z)eeiN%S<*y30kI4h>dZZ91>
zar}*A;zT@lV`6bReJhomcoWoSf|0$5cw3wUoJv|&o|p$^8ed$NLKuuir;w1phUl+z
zpBv0(Td9c~I&yb9JA8jaaSY^5hc|uwYkPk*`oZXrosTd4>~Q|Ti@AXp72izWG_%<m
zTx(mK`@sL<%a2X@(bKv9(@N)=yy;AdMv`b~HpdPqudwPYs;f{g@b7R0<)UfcAQ;~<
zg#qiLNid0)c|bDqR-|pB9guBV!7*ykindnNIRzWasm>(2M2F}o*IEPzYTY%pj(LmV
zL|GGBdeGa2bn~(Wm&pkEPBJxD#tbZ!<A@#7|JHMe9&#CO0pI$tKrQM*+N2lgn0Af(
zkSA7ToJ-$U-MGcbt@+3t<0q0GjX&g7lPt#PWtu-I5jsle5v?$WwsVc+JG#?F%AJVr
zaz#(;_ix|3UGVHxJbQn*koO$S*$%QhQ7vyUg1=*X#7Uj_-<n4B5Ts$34VFm?8dXAd
zgY$fh%kV$s|0aKplb%C^kWo5^kJ?;b<)Y3bC7SC)gG94Q7ZAxbaIn1D7m!}rQ^Q5e
zd_&)CWti*KvlkKVcV9NG?RcN!+4rbN@tk`+geYe_SKhWHf_*0&Z~G($*?rqWWn&8s
z4gmLQn3ZURkU^rgtDZ6)sciQ}l-6!hZKV^bYqc`8%a-ffeVqo=cRiR*7d(Rs{f)1^
ziKyT?qj=8bY-iZ6XLoFu7SDi~L}|#$kdb4!tB`S4HM2>iAS&2ar00>Ufk3sBRxE35
zQ4}JHL?j+d#M1K0{#{nxplz7ObRoihHFvIhvzeT&Te}^nw#m0*Li(2K(lWOgd#&t%
zR&T;T+rbKugP~z9lA@A=E)U)@W{iz4OyG(A-7)P_%h=@|GiqtJx=`+G*`-$NYt8T(
z(;HnlN^{1LF;hxDltFq0aDT^^F=cp`vZsk7u#mB3>^j4~<46-7(8>)N#|p4hCmweU
zHFbPl9iJw=Vqt-fxh`N;7Miy*mh&sx8#2}%?OhpX#x-v!LyUG;7VVZoR_QXP1LYzi
z(NSf@sxc8uN+(!dB8tm3&55yi$gSZ%Q7q{diY`$Lm&Vp2+R*NDPMbk>YJ-+RM9Y+`
zTD5OPo{NGB&qwFL^VAmBa%Wjv3Nm*h8sAxJPR^y`vT9CBskda=jg^o%QwfX&tKC(U
zo!2yh$W19GFyUimd>16p0QpPpU&j>kpCG!+m0VnRU!m)e(sd}`bvWxOb`BLfN0iQy
z^%s=R!&z6+H(c<ID!$S6Zz#T_S$DBxZ=vIW(s5v;Q|UO7b+YycmCl13`;^X8S=VNB
z_iE-B%_AGGpSgc=;Bs+bVq;VpIFobr75m3FoJ#+xoU8Zgo}t|E$=uXze$SPhEBLIt
zcQun6Kd<zi&v!qcz4WxJXZ4NT=yOW%bNQ}w*_WR+w>`8!u&<7+JC&}<eDmR~`DwXm
zbUmPS9mzKz&6<mzw)<igr5oezacp`wyajw39`QOBd=vP7$4FS3F%bp;>I}2s85NKT
z@sfbiLgso<x`9$@4v|c3ja{R5g>7_&5J}6FH=TL|GVIFmE_YYoaEV5oK*TQ17btWd
zQ#y|oeS3=jy(Kf}JHEvkeU5vstU0?>a&XP<_m}S7$=L#oz*SBI{W)3|qhgCl>~<Oz
zD#oX&Eejcbcbc?I9ivE(jQXkK6iu@dF;3}KMBrG}w2`5()J~PJX_eEICe+-)z51)D
zz(nu2V(D9ufaP?g4C(U9;av_@Lx^2^eVZmC2mycS>a9VFrygIirN7WJq_hmJy`{8F
zJoXfhUs8@=`uH2l@z=JEhGs{JGuR#Ms6$@qAT1kKB2Jp5=sY6TlDe@V&ZQZLmWTmr
zyERdrQBF&YMoCvGYfdjM#zh8Q(oJf~jwD7YV)JYkO)fh_S&FEi`~yVqaKAF}=0hb5
zZ$8hjcWiO=rQF%|izQ^v=8nx!;aMsRtaom-Zp=NN{_(;_pAtGp6@ikagCefOU$Rol
z#&vd;?38kF4o_CT|9tlLy}m6cl^k%Id&*5Ir8T7#n!2}~l<G2>9UCXMIefH*({c$r
zDnVy9Ti--ctxPT&MQELxG|gml6O+v?c22MfX6U2*jusY{vzFVNNKQvD+q?}@x;boL
zHihhJ2f+oie(X@;RXYTVxztiJElV?4#T<}-M_}keclD54=0ONl?J5Aj3`A3?*#V+W
z1fl|2St4oic6w!R<9V4#S#9<m8iufw1WGSEu36P8i{FaG#iZ)M8i{{EZJVQ|=z*9x
zTi;_O{wlhGj^d2enILi)7HIOiKw_GXzIPyaNL~mZ4cqCAJqgRf9jm}Yh_473)j=VC
zm@}4)6-1%D3nm1DEL=e&iB3Lbs*(lOQ6Yq~YEQi>O5l2;3>%0k24jvyXrUT$+^RQH
zJ#>cWa>%A#k4yv89Z6}5{u)IDY|@*EbaA;dv`k8(&V4n??X8ZCOMs0iy0Y&pZ?xR<
zdl*e7b&b*O;gKK3K8O{DzNQR)EkATkvF*va?k9@vy$@f1@cP=Z^>g|5@vP%dkDOiI
z|Ni)U<LjMIx(@#Ade#FhbGO~UUT7at+DD2V1I5n4V)x!+SEyv?I!3oRb4OFjXeByi
zEz==Q1#;9ABRX^G4T?x8k|c^q<dD1+Whkm6GD#|<=pO#%TZrD_N+2>V>(&k9#<dNb
zvhM_umX^nJL_k`g#GgLLe{OFvJ2t&-B{RNQeOveH<eG8yxY9aUvQm+aYY(hGpX)!E
z3mjD14sBdl+D??H6A_QVwi79hV9?Y%2nJD43S0ji(Ytjdg9rr(flfAvgj92;9XT`9
zdq<X==LO3<E~xl0Xo+@`%|TqsDX9N8DCwl$L!GbdO(Q!i%04OfF2N<b>)N@+CXDA1
zn`vYaqb9WTX1UvZxCPwMqjnM?RSkV*1sejS1&Sujl&ZB1NQ_8n%CqW#@DS0`8o{bX
zNP=HR5Cmu^zsG|l801%W(Wt3iUC_xwBP7r8I+BB2G)8Z8wMA7|s7m@7^GzO7R#|Tn
z47IXBx}r7QvuC*P^>EPVp}{}`dt}my1xS!ZFw<Gyv8D-TS;$ljiBvm<vUF>?id$&Y
zQ`K+AI?a9GHfOjAQvW)@|Bfw9h6@%lHhpyu4Bz#b(Be*|1fw%EX2x<2<uIY5?kz54
zorMwD9wV!8BqqqJVKI#YC(N&~1V_lq2a@*N7+tzc(eF@1(uTC3q63IRF6lNtnn8w1
zhEQYx19%v~3xe7gfmJuYOs1NO`5~eSkdag}zAVw5t0sX=?q;aI=-Lv2HWJ^_LmHy#
zj#5*Lwl>uW&JuEHWU|2mp-M3zWV`Z~r-uHWT1t}zoULEw7gc*CG8d1^uqVodojUal
z-qqxk@1ji8)EfZ$_?H*@`)Dr{cK`WZ?(-(DxpULs^S=K*f5Cr1@gK<h4;B0;6#t3G
zLwWzX>`O&|Pr-j$@t=OYkoV7IUwYcw_e0Z$V?FaEIQ8-1lUC>$SDpp>-+Ms`94)r`
zi*4P-j=o}NKS*cKF_6w4N6zL4)$;FOpHO@!v+k#3#~!=$V;51pI-%J1KRtN#p9Fp!
z_zyk%^RAKiUSH+Ed+omWd#|m&uDC|FjD|zhKi4&;*v3KCn)`FM;Q#!Um2;2EWLy0g
zo|f}tHq~7|NbS;g2pEKe3}62a68}F8{Ene9>(()uED;r}1K2rX4=e=701RHp?G2f<
zjsrY!kZIg2mZ<}`4;()8+5bfVI1{)^?;=v|#2w#E%|&mh7J7V03c6DCw^?-+oXuJ*
z*Ns$EgI<CwB3%q%G*}@nvvO<~qB#B)c<@tnmS+)x**ds(|HGLFGljMhrEMhNHkP#)
zoBf66JxcSQeDmI{d9yRH`i%#_4JFs<TWwLCfi>4JoTEjTzu*cguHahWiEDh*6VP=i
z)eh`qI4-LlI}i~Bx@^>}C8u=x>{|a361Y}=p@FeTs8O#PDpv;mA}TVNv1+!d64(Wu
zDPk@?2)K5=S53<bk=5IQ;TiQ=KxoUdFD~6Y%V-mm$(VEodACZjtkN<@(8!5d1gBb-
zzC#7{CZu}k^&&D4;=wEwvTD7-UQh%;&NQ|9yA=I^A|ih>i6sOCn!MG{L^&MmJiQsp
zW%KmP*sf4P5Ln;*-_W=uQ!-fS8G8TndzW+jPygZ4Pk-wtzxDCKKX^MIm<8fK^Rzzg
znkaOgRl3f?ESU4}2TFH0ZCkj$!-d{cO7E%1FXVftx9w(<uFPfWO0{7+ywE0O)eT}u
zlb1n&cA^IYZ3Y5^xcYawclmd14<SY^==C+<M#lRJ{+cqTM!@kMTNM=U+0w)VSkSLf
zHoU}ro8M(Vr{22yt;}c6m>bP^$5NdyW7%y!fOKUg^M<S~%R|P(<H|cOaBLDaSpaZa
zZt_qAO!}MqO`<dAS=C0z3c_%EhtYzLm00=~JQTR!GvXMnyWmqrchisI4iDU`6_B(Q
z;E_Rx`a6buwgtl1y0BocD?k>cwgIl8v;kf{s%TESIVs(wkBH41$*`1eu9mFO_{`jN
z$NUunjQJjpkJ?v9tQDom%)<1kc{G76(j?OJa)s!IoEp_;5G;{^q%xJYY9G<)yMUS+
zUCa}ixqR-03z6$rUcN9JnVE*pHGARfmu6<GMN&5n=D`aRtR2<)?9$(-a*L*zsg9b7
zZqOWaR9iN@Yb;U)myjz1NPmx7O(T-&PKZ<lgLm(0@`cJQYf|++KQa%QdS&J>B^PCW
zyu_aT<?*RF7+73B!&LJ6p+2K|iJ3tjDYo|%+J}|);dSeigVXu;3)zcBe_z2ruK35-
zZ|D8TvoCFS_q~7Oy%UA*=alZ}ih-d*U{nc=7JG&ZJ>yExIIMMnb3Dv-fu?(xvKQ_j
z*|u@LW4XZChFJ+5d2-^V-0_!{z{?*mDc#qzm!7o_6<Uuftw)Q^U{I@XE6rn1`^LA;
z#<r#sXLL7dN)p{Q9`$T^c#Xzm>17Cb?1@%&*6amVa>ljKqp`Gs2=^ezl5#o<_Y+MY
zB!(`Ld=Rp0bef$zqtm}n9f${(9}8D0?-EnhTb6!Iy=h=}Nx%7<?3RMhX+*u15%rzN
zzB2MxxTF6_0~3q+3#LkcnY(ue3!P(1=UCSD)Z<?rePn#%8O_;7bDq)7HebCcuzTZ@
z$!%|XH2DRG&vuY=_ZI!ZqHpm2+r_|vZL7%*P1{1ez@l6HTI-eUH|QLQVo5~mnQ$(V
z3@ja|=mbS1<}g+%eL$%Wiio~RM5v@LiXJ0U-DSyoPJ}QY`H+|X7E0O6n0Bnv+tidI
zx+!@R(Vvrk-evCJY;G-?@rCx?;$LlDonP%%yn9PlDza$`xn=c~(mGtSQxW7PDCBD$
zt1l~U`$|qKa&eB1U%M%F+-2_B?Cf5B{=ss|j5Nk{G-c=R`M0c;3%H={xAsvLDf|8V
z){X10!CW6aTtYo5`ws8@)?CL(&O4&mN4M-$7}$eOEihi=Ti=O_Y@BbbWTzA?0xkDP
z6?@+oPGmKRr!7MsA%Iq0nhi}8&WMy$g3jf({*ZCtTJvJq2p1HSfCqnaSNVbQkws?*
zVOR!W4Y1<r-UiLzDmd7qKYP5_c_jSxT!Q-tywHS)e~)OLH!({>^E*v&2=Iz7^n)dU
z^)m@A(D|E$R+QNB@NW{@kZ(rXyD(T;X(h2RR7qA6a29AspSJSIG)4#V?RE~v&>%eK
zybGh1#+8KN+ojwuc4})Ax^`*7R!+0cJA`hSPklmQmzK1PMsw?X@4-6#La*2*cEe?;
zVO!0HLR1H55)iGF!Vde;vxiwqdLbF~s~(~iHJ)hKSK8hL{YoVxHOx&OUulm=lQ);(
z??Y}e@V?XHmCm~2cp`F3j0)o+<4Tv-r15B4U0vrDTcta%w!jQ|6Rawd6yGX)SxNs8
zdr<ipv(C)Ukr1c{O4I+=6r$br0v#A7ewnL2!N3*^K&J3*9uMb?$FBshzyzSVIFZ94
zV*tUJ9IU*7!xzl~Di4n`dMklPU^KoYUXY}e#2i85GFz_1v?p2`=ysWAlVHu<<Zh+N
z*DZpV3e7j7<{lW!tZU@OD&;;5b(h<8wicYdinDk1ttZamVr%EKCST5fD&I7fvrTEZ
z{4F$ukOGSrd8nyQ@*&dM%pakyA_*FhA$66V-zaiq-b$lD3->HA8-al8NJ`3UBSE&2
ztOq5TU#JMK`iL+M;kmrw7!9OAdbZDSk%}Y<OE(uGg3bc$<`wBrFXOm{iu_kCL$At8
z(xgwZfYQpG7>ig&T@d&c^h2Gmt^!$-H8Da(08hibrUe-Ch~Lx&jM7_Iglq-`vue4=
zc$L+s_vo#0UVHU)_1k#&Iy9$;^_CffP|-mjRlEo>6G^EoV7>eFboINizna!l=tXa5
zEG%;&%j{<aK-bAN6JB!3bQ#8Ab%SdFpj$I*sZBeP9bD#Lp_}wah(aCG@8Uz=cd=wF
zO&)iQKIqW;kE!7wQwwi`JXIMw>eE;>$%zbuw<~iym`#Lf$<jZdj!l|u%%otbK@vIK
zs4jX1(VYo(PeJ`*pWZVi0xi{fD<%kV`ebeptqtgz<Y7~=C)27ZM~5%{oND?K(KkfU
zQ)u(pVAZJ=&sb#3lp#Wr5MDhH>EBV7b}ao{ikNspD5}YRnt(3-YZR>b>ge~leui*V
z=j0NaK)ilxbKkQnHs2FlSJ4|NcteUeRPatJ-pQ<`*f~(>oKQL^V6q7e7XpWsz~MsR
zq7ooWU9lsOHGS7v>_3z>J+bv}b_EMvqe|Ckq3f8^bqrOWr@doT)m<FeR~VR71|~PY
zrVJc?+)+4jNx|R1C93Uvw&z&U)m(7xQCxe9u9kwUS8+iC#9K=*Yyg7}Y82ddaeb3`
zdoTD7DZWD+M+=h|l*tQu-$mFS*DSex$MdZxAforN*4>a_+}?t#PjU4XTxS*6*^-g7
zyZ^myRHJ?uu=5IqLz+=IC%#*M1JUjrLf|SIt^qh#<_k1{9w6LQ+ZZ#3yE}OaGp<7s
z=Ni$s7+*EIYqlUlFwGz|h7=4rBUCW1m#WQ@D5v6Yijf<!By(gY=CYVtWNw(!6Ri(}
z9@=r$l2m8>>4Sf)B#UrU6(Vnfmyt_$*=2$Wcq<cMf}_8@!yy8%YnT#hgN5_=z3+I>
zv37Q2I`2CHhnB#=`!Bus68upfPv-;h*Yj^WeK}{4_>^Z)(HkuGjTU<+ioFAC(}lrP
z%HXM7&s4oJsO&z*mbb&SYr?FISCIxqH(55r;=VL9EVxcXbI@I8x<OroTg_BtfXd6Q
zsgd~z6xWPt>%vFnykM-i^;K?CdxYgxqYz8LiSkd-1Fs5;&?})<rpPTgWYNgLC#b4{
zfR0*<!$3guV&)^v6t0m3O|odyA2N1a?ckTMR`X)4ZFQdRQ^d^dK6^vC&}pRyK8IZ(
z3b}o!lmG+^|E8z4;2Bmt!#U4n&Nhj-IJmDcIHe3u<xXG84_;MlFx2<1@tdB#1<#1$
z8Oe>FE{skqqtp4(iyxoMc}DUc*av4Bj_yEDx)OG&#5HlL4KJ|lg9?R>=<1jJ8CyuO
z+R0{C2I@Ee<u;dT>qP0vLjW5bP&@-U+rXFCNEgpY$W^w+-8^cmuBG&ba2M}k*JwYq
zySh*XI_&IaRDvr$#YcKZX`==X46g|$WEuh2t=)CACZAUsqUK9nD?-+{xJnzH#30yc
z$I1Ibq2r`Nf76d&Lj=DwXGhN2TWoF5&aj&%uiN$Ryyr;Hc0{A9@1V14Urfm{<}#tS
zHDYJ*$Y($0&@>2nt`=WNiepDeN;|IE_&cDckOmv$r2bIJ*FIE&ZW?AmC}}Oyf1&8V
zQuN;_`p<}TZrZ4x&Qf*j{G5IiB+FI4T0U7TJRsmsEv&Ft<k|x*SA3n$kv0HaY35wP
zoO7fY2xc#D!hy^;qWIuT&_{p$M~Ypr18{!wCGb14Zs`8aJ^Is!^xrW;W5PC%n%!`q
zAsjWtmPQN+Z_OmFArNd<eY$^+616#=x(WARorvJM+*(%1bXcS%s}`-<PH=3R!@K$t
zn2J`p(p!&rJL`!A%ZD%;j?l)nbQHXUig&Q!J)(GzFiAn<>%)p`c)bU22Q7}Q1$?Ht
zBkN|6s9N9BeyFqK00}`D5jlwjbQnycg<7jLtjdj0vGRPbABsU5L}%3%$4`MG<=OOe
z_%+qw9Oy?vJI+D+0yQgv`pwslL3SpY^aRLd-hs8ldG9_*VV-u4@T?ungKFAF*e(I+
zv!T8^Lzvp05b;Bi$c<&~B}bQ%_tKiYkUya_GhHvC{b<R_9+49wen=wJIH~+gG?!cy
zksPVn)IyYE1gM`<&nP;INHrvrs^v2KJ&g2cRQef3c<baO+KKc(DB7loj#i2zf&-qI
zX2&7@gv$OYqFNK%Kchm5csh@ph{(j|;(GdXCjX!M_HOQfuDExq=sWni)f8}S8!diI
z&eRTkvv^Aellk=eWC{Lnr#H0E<H?`3{p94YsAS8iH^FG<`Dy-FoX_l7TPe}!@#L@R
zQ##yab`*WRB_qC@_MSD9VjtWxBU1|6%~$wh_e9A^3Dj+wDN*X+&3o1^{OH9GUi{IO
z53Z0?&YqIRY(Bc)fd?$}(cIw|f#l|+r4DZDIlee{@N=gZ*1cBW!>I>TB{R|h-!?zX
zSt)1Z`VMVOE4{}{cFH<9U(dtLgUp(sbnY)vU#z~>zvZUXkk#CQhgGUCnUTg&4$t=k
z_X4X}cVNp(MJ)#N=-P|xuWn2}HviQ16IX6>S{b{b48lVZH6KrYEdTNGFDR)|ayt3Y
zdFe3S!fzl_J@A*N=LK?w8;{<Y({9p4^+doSq%6}<E7?z**sq>6$gr^=IgKZi(*L4X
zuCx?Q%Ak{gQCYLm+Gz*}MMU^DJH&X|+)ePOb`Z3dOUA4GjCoM0{j5?`2lbymjmM+Q
z7=Ap?ep9I_X@ia0v2OA>JU6soTxyD%M{8QqBqdU}%d4nPKdvz`&4r811<aDHw%2tY
zXJRsY?a^FH$%3GEeW{fuanS*G(pY3mU{3;?Rhqr;_#1SZk71KHr2q};X7%t~WWQ`>
zh^P8k*-{!mrW`MO#>niKkrLS%wBMXL7?Xwvy(mizuLr1V4-IK%JsF{sh<<3!EKGAH
zwORUzB1RR?P%23g*@)E^NxTV>73zK2e<dYJ|C?$VS`+!zz-)>d+oo_4_$l2Pi7Z(7
z<K!(wB_q%CpAT_-*DpEer`$1xJN7BJ_m`aO6R!PJ?s}fP{-3ykPq@iXxbvTI7e3)8
zzA%`0!{;2LFB}~I8n1A#eqpfihF^0OHF5muPq?v9xif#pT~fG9pK_P;+-0CjtM9I-
z*yhi1-fc?@Z(E((=J46xf0TFR{3F{OzS|Ptfn3jI?(jvW=Y?$!x$Q&W<WbgpBzN>h
zrFUkVqipGI183Nm<J$`Su)+@)P2EL%chNhHCk%sO+mYh=(fc<Z#va6S{gWHvEshGd
MoT&Sp)v-hQe?7!ARR910

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma.cpython-312.pyc b/model_executor/models/__pycache__/gemma.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1fade2f63937bcb80ffaa7328090d38da85fdded
GIT binary patch
literal 17051
zcmbt+Yj7J^mR>jBPlDhB-~%KfiV_9!X^ECCjU-F9EX#UuY|BrKXJLrlBq8BJcZ0Ub
zfHRs|rA*p0WpR^@sEQ}1H<cPHR$?W;G?l81^Z4OSDqCz(6JUC!T2<|ArKa*Dut~>T
zNmY{X+<pM0L3xt2%!~Ut_u2QJ^PO`~`#<{q9u801_Cf039Ok&criAf0^~m}kSvc-G
zCvb62-~~&X&sgFXp5oTDHDin0SlpJjXB=?{i`&!AxD(}$v@_$1yI7tx?ap}O9u{|{
zy%}HJ$Kvj^KT{X4V{uP9kg1Q?XM*t{OMBA|nZ|fyrYYXU(!O+aCKL~`xIZ1vw8UFj
zye{3EX^Xe9cp%-LiNqtBj(A6=Gv3Ma>eF4BXgtc|!Ss$ycf6a$8`3*7J@FnEZ%psX
z?2hkd@uqZdW>0(%i#MlZnZ5D7h=+u5x-Zio@6Qax2Uxl#J(wAa4`qhq!<on8k7f47
z_ht6S_w$^E6GP(2r@Xd;@yA7*&?+7f?6X)?q0Nl7i>`}VW4SB8;|?Km)%K~L5r5Lc
zJ;w<hS2>}xHvOkoy`O`OvI~^a@1Q)yD0hIe`#UJVC)P3AouKV`G_5(}!>q<G)Yx6S
zhS)C-d}`N6ePqTS>z#e-`RuqTiP<r6AeT+gM4uBgnPfDR6U20MESH%|=2I8aV)Wfq
zelmJ$dSW7#oj92sLxz}|n9R$Azo*t>yy|*BFG@*}B5of`j!ja;k&@G?F>w@8OE!zp
z%bI^CmmN<{An87y&x_f7Do16_^7PbHPRb|pIcaP%L7k`2oJI9ML(OTGRL`sFbVhH$
zqWUJpd}3-UF(Kuqr_>%wp+Pw(CD;rSQ%NbAPK)WpyE!Q>B;?dA4a=L#rt*n&Zel`|
zkn}t!rl*f*g>%zsq<n0MFP%F-nv*gytJ-!>lqN*snOu50lYK#N?`$e7CM7la;+a>s
zX1$bqcXJln44lnPr1J6$Qf^F?F*;;5yf~f2%xAH_xvaS$E}DUqo1#&MUd@dqFBok-
zo4Ftg0#+X-&4M_doKEKx+DpJpk^-Aa<MUa(g^Vbql6moEwh;2~=`>&!edo31mCxp0
zI<9(*)C(`f>}v4%bUyc*_D0XL#?)|1riIO<WEq{Zh0KU(T<y&yFNp~;GnJo7q^i2p
z7hX<`C&%yxXH+jEOebeVNmhNC<je&zF(rxPsmrQoG9?INHUUaCSc#|JVXL7!Br!iN
zWyiq(%!hU@owxOWiQqa{;IHf|a6bv>O@fR1X*4qs5%>aE;EZ$1b9sI5qr`H{YVe8k
zXiczP+QV^@?-3OCZ&5g^+sGSyn-iP`?jLf3>lbDZKjmZY(d3WtCfMfcm7|!sKHKQ{
zbQXzRHu`Q-j;69>IY|=7@;HjJn2+XjQSmZ}aW2okg3@SyQpCBW^AkON{`;fRah#Fp
zyOUxzn#$`fr1B|j`kAOCrp2Tz3WL#SCX-n@xvX}ruF*|$YD&soPGzujw9fXtHGy-H
zn3~bfV?LRkd@D8>eSSPTlbc3YSvI<9S!AuI#fjwDO!Tc?@>~5;Y(Nxl87cap8NKzb
z_k9F)Ff}<ZCWUBjyqe;z!RUEWj85kBQ}UsqAsnK~=?jBk4MUR}FT!RMhw@S~E05#2
zVy6vFO{ddC`wor_?~5V}oJ<m<f|yUH((<5cqgmhtd8=lt2ER2=)kayWEt|`VvrWfq
zysO!r(Ucs`=JHXUYl#Buu8MuigE5=x(7251d^ag&@dl&-wk4QYGCeImD@kAl7O5Lq
z(oO_2ZTM*Pe>^vo&rA(XrKSe*N${Thz~$*D4nBG532`W$x-f(nGMUQ`y#qctq;Wa%
zvN(nVENMx3Xo7h7;M9y7Ob|a|NjhtZ@vJn2F1|;7y^G)qSN3qO)>UV;<ZWK{?zr!3
z_;7S#v}|z(d&>1(u)S2@w$beM*KM?L^=-@J_W}c}u7Q%fZME~UyY9#C2U@H0md5Y8
zd#bX2SJzUi>s~&z+`l^b;;QeZb*m-dDRUOLXB}O0V-y$<tqMKse}v#YoNtkf^FTfp
zH>dp*yn;ov3Re8tAk}#$(d}l;A=>pkC-PhZKVCP_jq`&0sz2@!JXg86bDq1*$6e>S
zm``=Fw{-683!|!6-;E?0)Ziw5Mp>12qx#+^h7GYqXHRu#oJ{J$c*o3>kAw?<j8EM{
z<WKqQT!lj|fG_+U9LSK@)%>Wy7c3Jz=74g+Qm_{s;2_ptSZ>)2d0pTVCWp(r(Kvew
z7Vs{E-oAz2<aT+#NpCIKKGpduS~N#K!^Iq<zo&wev;M&eFoDGM6xem{;!Ue+yO2uC
z(&H$U4j`EI3<|k-v#d1cQtdbakPEH^!~w)=LJEQglDVo4sgbhWW-Yc0Rfo1E(S%JF
z)8o>9>R^Nd^F&lSRo#iiSUM@oiG)mR9MzsH(jZj;hUR92#%mokh7w1%JcZzIuW%a;
zoV#wpskmD1x!UeW4wQW1lD~7+*R{Mu@$D=HL#5VTrBLMB>q|deZS33dIyyY_wtKGD
zjXJKaujK0>`YNLMYU3UdwSnkob)X6FS@EonJi8V;IdA*9R~kmAo8%Y0JGL(_BLexw
zUDQ!3lIBz34Vm;NUd5bc&I&s7t(#<A!D7(OLBd@$-*Xkk=9YN0#GmJG@}n`UbOdD5
zQxqIU5VJ|g@T2mVRj2;WR6ZfwkVi|*)>n0cm4br_v-Rd0>p8T&Wnw5-xKeX#v3a-B
zynFfWwdUA@XWn@&Sn}0>cxK_ul5@=$o##t|#t(nA@S~;VS|GY$o9E{rD+TK3U2L^t
zw$ag1m5aG)CuNfvF_BO`3BqyHX^Q(237o*RUSh>jRjqPflA6&sd;ijNh^c;kn~aI+
zbRuz+myXi_X|0cGTV)^7Q}6~A(D48EDzU-t-K9PKrF{oVp_VTLE%xX5hs`ZzJ4MP4
zF49$YvZ#w|ZdvMCJY9CPqz5I-O*amey)5bD!m*VRB{Wp_vveI7Y$~(Hz)d}MUk54o
zzmM4LK{jPJj4_PBd}uQCtlvgZix0Xvp}vX}S_L~eq62@7@0ncCEjo05=n<XZo&0zc
z<A*-*Lzmze-4~l!Kbr!fZkv2>?R@A<fvdK-mvL4fIBQU?W81?-^`q=etM2S{CNT-=
z4jf3)OYi6@7iA`dR7MSFl9v-xIT_d`mj$}i!LF=&2n{EICGttt$Mg!F1y@*u#)O$d
zt<Q(z?6Ca>!YxeLyOjxp^>PWFC30K^#u;pS&I2aPCFnq~2M3NA(3Yp*nRO80B#<au
zPIEt{gISvneW5+`&=zpW6R4{_sO2-_mEVHr(wo?}P1}`L^&Mh;dumfw(Xlb+4Z%x7
zXPcg9G2SYXVa};w!?-Jgh`U(*1}d{@sLaBMk&r`OlO8?S8)cPW<ZfTrYtYrE60EZr
zC;Bkgvfx0<6odH=vp&728vP*GoT))eE!KKFg00{xxFN7f06RX_g(~_pS2w@IXk*)U
zYm9-d6I2tubth|G-#2KT<ScvgyNuYjbE(lfKn8cQ&8S)V6<oL6RiJ}JH+%9iBZhkB
zyEF3G+SKZWyVz2pF=A+;)*E-~GxcDm-l}yp*dhm*;v1Fduu3%Y39Y?{zdkwZ9()^Y
zg#e3m5V^C?!5mAy3=j?;0w6uZ7!4HB3ZntCfr6y^q3dSF+~tIvpGk|e_Q7O6pM_jJ
zPyM_`fr))$A&G>YCU6*Fp*^Jr^5`L*F!`MH66H2ja!r<JMgLmEFB6I5ZDy2EogiQs
z)G3c8)1)Z8O5M<csxEV8^e$9~HZdtg31e#Dm=f(*)yBr|V=`SsR5X-IkJ2lYWQ}j0
znd;0>u_0&@lMW8afBmV(S>er0-b7mkRFM^kT0&bbRcNc!zMG&_%l(D}YYk7%J4;=A
zC>;SDC<b;aft||}N?_o2@NQt=s%zhBU|*@Vqu4s2v<}=3E3How!YXwSQkAZfH&FC;
zE8gzqiM!qbNam)NV&h(=aqr4&O5?~K{%+&JRo}tY#)D-S*VMlBa<OAX!GD{I?n7qt
z%Ok~|hm@U%?o22<pIwUpwE^puTB7L8UkbHd&n{+{^S_+?WKIc<AkSM0w->{E6u`WZ
z&yL(YqJ(K!KIC4XTbx@Kl<;1bZtKBM;CC%Cf{VaD=N8W4r|63+z9@_A+yXY=SZ(ax
z2)J4aNBV(L!+T8n<&j?=`Q(V=8{PsvUt4Y51?U;3D&CEHu6?J`lQx=C>u@R9e7$S2
ztJKyB!geAI0HZc{5+M{kgC41~3uoDC?^Rm&5&||r@GGm0J29?i)cv`ep%v9_$Y)vg
z8){P?C|@3{hN#4!nCyj(czd900$2ugt#h`5wI<NzE}C)|?dlJ>hbb?OJjQ=&<W5)x
z{+7j%UvFY$bM`sM98|H3rtGR}gD2I?Fc`71ff}@?ys4rEWx;9C&bdHk%9koCmjTsT
zYi`Wc4X9)t{r&&O15<<*@F(V!#!v;S)Kof^m)=5LN>U(FFiwGhAm-7I^(1Aa5U5tL
z2I(Zl__tO5lFGjW(*~GVA~&6%n$Ck)uwR+jwQ-bnOwZu*Y-r0_)=~ZEpqH;8U>1Ug
z(DjbRj-|P^;J|`o-a7wcsiFCLY%#X<^2a~8@q?9~&-!on-?9DL_bcCO<k>IwU5l+X
zj4n6{-p?lq^8a|@$4fISJ62v?3k>P7A15ren8Go9Y&p3W+B5GhHMLwnvv_9NyVlgd
z;GTC}gR;;(@7GiVdy0#4T&lj8<3>lNQy5pwFFlVR=`;mrC^(BiwU5IVnwMz0nqqK{
zVux7~Gh?X^%`D1hFO5>^_YqVp2rp751%HPM{xt$p5b8K+2az46z9C&lXnvZvdzg+u
z5#mJQvXez!T)3_5W>F8<7%F>N)W>!2D*IU!C$X&@V9|Om+`W843GFEdSsDyL*B}~M
zx`{Lh)>Sz~8bp}op0arCp@)qv*AFiqF53}D_bnaQ3yX!alTt3u6ZkN)5c$T9l%{IX
zglLbMkFlfI?;-2ks)pdx)eOVfVl$NsJCqBk7vmnLQaGVfI0Y9j9BN2^!M#nsXPbP@
zu;UQ7DX(2?+|r6UjJpKyCUwNGY8HVL;ux+oq_bp+9#tKh1!s#~*K`OSTd_4F0m%4R
zJ>bR`9RkQ{vmvLz*XC2T^a}8aT0D)fi8uM0NQ<w9LNSIqHu6mYa%&+i3$zX!5GxO)
zW%*R+gus+0Pt2Q`YuoV>0NL`Ow;E_K-)@k>SY;JVgS<Wl8^&P&ROj6ogE@<QSEb%I
zYZf&qD!)MB1Q79T!pQ&sZJGNUDAYL$D;Qa=5)5y-|F57HGxpBf1~ciYnB&oAubU7M
z;*=a~+zLDCJgbcaI57b24oz38S>`2iCh-m#nYB!bz-9&dscv)V%mz`hy1@nnO*@~L
zR4Ya&(biFYQU>@K=Jf<dq6Sh~NR|Y<*P%?c1+XArH43u?b2~=e&QP!!Y-$*jUOAIW
z)#$Q~Nu=sCYXZ!_0KNQQ5fH$v+XOIo6x#=s_5nh1E%#e{OD&ON%O0g=4=j4c(6AC3
zF12<QTlXui`%BI3*At70QqSIE&(liJ)1`2S2JEWQ53}wydUWevh-->eTI}p8b{<eV
z511A2ckWsqUmZOD`N&%5DHA}weC??Xzq5(3mkS^*+P`wL*nd>%Kl=H};)&Ok6R+Lt
zdYy(FxxZ(m<ZCGUIu&2%^2uV)6H3n$8&*pUHGkvUrE%|y#CJ)eoDyIN8>?m_6lcup
zE+VilTCX$}H0vQi*w&}YdT7Zu<9OGkDOinT^c}WHSgvpJ2JIY~5vtj!-Z@Mtwc68F
z<?0bukB(}MTL70VqqrwA7Xhl-AES!&V+yWP@Dl{OA+tgz{axg4He_m`r}f)gOvgR{
zjcQP1z&&-GuW8lWUJCcjpDIP7#mKM{8NS`I7I|vn+{4{_i@OggyARzt^2MID-RA-7
z=g%!YiB0lx-Hp0Z2*|s)Z0A~g*EuVoy}#_^cJ>y#pHjM?`rQA;<+bkD6<621|Jr4$
z;kw~k?pSLXn)jCik)_Gi!0uJoZVmWYw}m^ja<y=dG))EXAW-f3>8Z5%2&6-%Xo-UV
zgg^Ns1cY>4T>r3+alBoCIQ8viJAMH%45;FyBv6iyRNR#G5Ktj{OcglAPqC-@CVQ_5
zQxLC$DU@<?fH3`w{mV^C!>+QMvOGX8^V1&|779zReEjB(H&+8O#l80%FUqu&K*QaH
zV+;$=I($nu;TUq7`3UkxyD}QLF|=a8S{Jv&VCtwPD`7;fnLmyzB_InIGrn$D*HgQ$
z0OP6PX4h4|Z78(TZTc2j>9|MmU$w_QFwuHNpJ=Pyl7@o_3t=XH(Z*1bjTvd{n2|QX
zjI{7~!2RGka`BJ|OT$Qh06(git`rUHD&>qBjDh4SF>A(RPBA?6p6xyRdyYq6Z`DRc
zwRE@l?Vxp`hb_<hHssf^HNEdx00ygAO)GZH1$!;LgIrU3SGq8m7Fsg<$cK$`)Tx1G
z=56!#dB-@k%B!w|1qjLl^kOx%K+-SKnyCjOZlW2)YuE#8j|{op#yBd!xD2cy8*@Hj
zxW*Z%kk+(m!VwB<%r2FnNo{=uN5#T-aqrer%*%9V5S+JM#*A@^IbhHVZoxBQsXe2r
zk((<F9OWG~HyO1;n~aQH>oog6wPJf2Taa6@Ebt33l|$B$w8O*Xg7iLOF`lt8NC4Wl
z8rEQ_gY0&i1h{fV0~xC8a5|Z}AS92@?y8&v6JiV=PQ&XaEgwZhBMV~$GToK{blhw2
zFV%;Ze9P%O2fnsiB6W->!PcmGxv;TFq&80A56{D=R1aY!SoCn0d=lEe2Un$X3a$>>
zJk#KrjEc2X&>cKw=wKT6%<jo?<3v^v6q_2YqUw2ve1tT!9a$q)AG<n%3)Llf|432F
z3Novt=5V8pQ}xQQhw2zkb&FX+gLCj!VBR_m_DMgb%5Z@I#0yB`1PxkBT$mn*yBHHP
zsspotGm}KfTJ8D{x1g9y1A`xcSbIw!QjAT?d{r7OBtAf}@Yu0q)xfZ^#_NKQBPaha
z(EraX+<lkdxZZsjj1+@0B^WCP_bb8u^Nv!uyBHo)!b9^g*_qLYp$M7Keizxt09c1Y
zx4b$MTen+{3t$&_@C45adK6#J*A|Pvj)Y+cu8MV2+(D1xdYoa;rJj!lS9)&sk+p5d
za;Ugtzp`Wholx=MS>@o_drjxipBoYq=8qpN{-D_0uQd0sj492J&3j5NU(pp&T#=<W
zZ$19m;hTr=c-H!!S$*M^RafMm>(%>1ua^9grHiY+*vf%o-w~zn2plSg8A$AB+fa3D
z$UG&;nl`KR3apOCxf%EFLE^iwpU-pBGa$sd`uq5~Y0=)@FA&##RJ3d1fVSJrerGlC
z&P2=LmNK|?ax$H5TojYtH>w1p%dKmHzExKr8~-RnZfeseCk$<i!QjaHkhPmZd8`^?
znu2K-JydgyPth4Y7poUS%i^Rx1=~-c0?*mA!EF$$d4oP@XICZE&z5HvOnA;NaC45V
zrvQ;a0vFU)ff*#`994cA+g+K|VBHvxDKsh_8VvUY_d|%0Ij4myIDwCAm@9u4v{ms<
za}`LJ+w#bDd3q!4p_T;eN2XyGUUA$-(+FTtK@3oj`iklXQdhwaUThn!;%JttxL2Y{
zvRjt%lmuN7?pl|mW#mbW2hhuumMHiK6kJE3`fw!!Zx5Z8)>XQJAm*;@L=EVFLPdW@
z0U1OYJ5}wBjY%hwA(KIam<f9{4}j;8HQP|dO?2?zM?3UCppa>ozLpP;7QMZ9y}dx?
ztARbG=)j`?VYH_h9Z{kqx8GQcK6TAs^0mSUnz)freEsw1a2v32>LHYbE+ulDl6@<u
zmGBeur|vhmFP-@K%#AZEO~u$jC3f)6$ghw7>ga!NK0W{JZ+G{V>RU_o9i{q~b*HVj
zj_DFNo-A9r&>4Qi$JIwZ_)#&i_ikYC{l?v;?x8!cEA=OF_M7V9OvPAHB>M5e8wZzv
zc>B~^`w=*}K(Tn62JMPyjKQfp>uz#LAq9eQgjIHICSVKtGk(re5x98$RKDdgwv%Di
zp0ie5CXF)KxOr^TUvZpiLAN0NCemne&N=6rbK|DZ{thqkKl2sr7ilb89+W$cZAJ&M
zmbG3mH>*TP)XLf$$$O2akZ0apqo?DrH`&<{^%Oj{Fw>kDhss;<z^?B$jvLSMT=p3o
zw*4PGg1K!+@P1_k6~tQb2-duLIE{WQV=-2N=L)uq=5aOVNC(n*7d-c~e}$3S*kO#>
z;p#I6GP+}A_o6u@%)Col-c)s-et-J5mPc+vs++k4vFdc@b?+h7sXK?UTUcC}l7pD)
z-|UX;QEfsB4!-r|vLjSHh-LWgh<Vj1iBoBKZ>lcf51IVSrB3u9{c{SgP(bKgwI&52
zreA0Nk}^WTE@PLB2IWKsuAI0pRlQU2&4!_h_339W(R!ycPz;8k8kyQK0mY~Sb2U;u
z@+7>Qw75%)rv%l`DA<T(VqrQLsjw2&NB!t-*z&A)F{(+w>VoHqu{aT2;l8psyFII}
zPFRG(?MoxY_F<)cc&&ZkT4?{g_kQ=Tf4pnn|Cc-WD!#7y6W0d*a^$p9KYY!zbb7^A
zYV25kS!s-wV2i>%A8h^0r*C`K!r!}Qd)OGheq`~;a`;|jY(==!rwl#|s{6PU9l70f
zukip?Y1xTuhL+ehdnvlB7~QW#_h0k>w!ULYB(`y{{>X3Zo6D`-<7fDCC+<}L@aFDE
zdspl$KfZVDm9^-rW|Q~o_k%SSeFUkNgx~mfmWQ~WzVbe<zQf>38o;REdW}PeS2AyH
zD%K25UNAvG{97W{B)vz$zo3AwX=-2REKmsr_(q14!IQ|y@$mRFUvZsw&+=@Ue(vo5
zntsa1c;4Q>()?NEW~9s^dS}<K`+wEHPEj~;4etBW8?kqo1`Wi41DjgeEsT>=F0O0e
z?GsAplVvw0J^G~#yB;o6T{4cao0-*?KE>U)?x(!NJ@$^}Q!B6B-hao=F46X%PzIh=
zdQO%(lzg%O3;EBV{Dz{8o3pvlxi%jILaY<-uD;39c)DN_tP>W&_K_tHcQL^Mn~3f#
zrrSi^u!+D)R&>_VoMFGHnGc(Y4>l1ux#!{&o$YGZ)vhfBL|8PKRiu6!3axaT-bD}9
zg;gX7tB6-<*rttbYHK}X29213PiTUzq)xQgZllVk;uQlTlOL$rjGFb#rV<3V4Xc`8
z<jI`$OmbRIrq7-Or@V<bB>htgNH9vbDEMaxV9KQTr}<%$0Y=jsKcLvR%r2OwCZ><!
z<^I22L)9|4kUwZGg9}~6!%$)3Yh244+Y19R9^Ju>9KdWwUX?)O^FbrGU=d8)aOD~v
z^$3@-r|P1~dNE|=R(=iPhC1d*08LEuM}@MMGZSi=#u%6ztfQ)(>DPD%=6c8KD(bhi
zi1wsEp@3`$?CwHs%%?>9f=H-xOk~GU+Cen`mIAU6NPiE3S`U|heC$K=Rr}gUBFn0A
z8DjRTU5l_zj-y;A^@2&3YMocJR99^)(@-&o?I4rw17?XT&A0Rj%~w}<9|oF>f!N(Z
zY}FNmdG%q0Ipeh6Z|;JSxOMhU==1Pe|MR$k2+`ezXT!nm7{2W&4j)&BkFQ0aCN;O?
zAv{M;FPtv=4k*3@K&o#4Z(N!dDv^@-2>tU(6f^x3zgwSLc(dXXZRn&HZNZmOTlyG5
zwMNRM#H{uaTlK1K(M3O`#S5b@(?vg=U6{p+D1q2YY%MUd>KduiN2O1wA5t)CE1iQV
z*<PQf3k*2i>xYDJtT79o&BE9fY|$pEC$l@I&s26rv`TkrVY*B8{Khr+>_4G-^`IGc
zebL(SvFC=T<ZHe*v)X;&jvqP$yNhsCOW_pFjG&$I&{#>huD^s}+nLo=s%ziT8u%4g
zL%7P(#J*Mf_h?;vkz`>2w>(A}G#d8J3=WV?qri#KObvDPJ>WDxOVCc&Y}dEeU^Br#
zqNUh{7O)g9t|3$m?pA`k;nFqx$!xLrsM34%bN^a!6s955%|!Yo$ZM|!!Q^Vw0)19i
z%dAjq1tb^-CipBqXQ?niT8o-mk7;y(RI!fEx?qqeAL&7u4*l|_6n&CGU(ks%Y@Hn#
zl*UE=9mNO&8S6+hp>?G10ynKAqnhpb*5Xye)qg@uM}i2PCD;vLF*v<^_Pv|mEB2kf
z+jn~D^o_%-FTA{Aw>Eg@9a!7?P%+T01iF`>s50i@#%?s$um#+yp(zczg9XE>-^A{c
zm&X4GfWAK`I@%V05c2z+2q~DN36Yf$$nPtgt(oqq{4F>bWjk)?zVv%K9jmssatrq~
ze}eyttJiQLeh3%hr`*HaAFsf|$1AY#aoiFfKE{^@9{bYkse*=xS3yHcRY5~aZh?lB
zwG|ptUW*-mKH&)S?6D(`Mm7AnWK-Ocbth%j+3o$?z(<rA@DWiBKGK53j;hW?LdcEb
zyNbYA4qwQ!FA(Ly<b^S|zN(vjm6*$=Wr-L9Y>Tk|=2@DVYo?JYk;qbg)nDI91Xt8L
zx=11?TFoy(b4+b#nRG}~Y4(}tpa8!dDG9eMSt2x`-9O>uKKj5)yV|6Eq1LmC0_@LH
z>H;``z|2V!iFLh-_KlrHMl*F6qh>NbVSE>-o972BUp{J|;q^R%mYI;q_^tUs?06I@
z`xuyg_QV`^wXdD}9#vy2LLl^@_CBHp`}j=%T9|pZsgG)3_jhJekG>h!e1-QvqJ8Zi
zf%IMWxpbu_NlA5}R!wb<H6AmltNzn@d}gUB?tWHB7T=zxkIN;}+*A*<?b0`!vP3>X
zQiO8tS}n%Tm<fO`6r?BxJ1BUbf<6j}MW~K*jC-(e$TaVj7pd$r1q&2>j^HMz?RFB+
zxbo2$&Qa-akOVW}<a&f<E6?*^_Hg`3{%^RR2VDCDF7nr$?*Z5Jfa_s7NB)W%`YZ1H
z54fEVxWf;)Bi~qTyyZ&{!Pg#+KgB=bPCnp{J>Xt_Ktu!og&Y3H;y@vEP0N?~;-~rA
z>uc`LD-Il6i?eKL<2|MN#%sc&r))+1VYqGS<;B^u9dS@NT<^W{lQ+I{BDHQc=r;~^
z@xgiN!<mJd4Gz(b6a4piK6LG+>u)T+vB6P%L$Dm+dzUO9yKlHRI7G`5{!a+u4a+#s
scU)_@-n!Vjj&C9P4r(=AX4xArSr763*QDz+i!;mpw>@8TNU|0CKh~DZz5oCK

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma2.cpython-312.pyc b/model_executor/models/__pycache__/gemma2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74089ad3ab2c5e39e7351e3b499397b212dc2e4f
GIT binary patch
literal 17800
zcmb_^du&@*n%}*AKSffMM9QKhO4f^(EIF3^N^HkYY{&6K>m-ho<s{|Mx>qu7Qc~`v
z5?iHayn}2bWipLiU~9RXtu@`nj*JA2yW0XDpv9#Br4JOkk!Q%cwXp^^MKNgqU`7fu
zZGpDG@7xDzg>t5gURa0c{XXCK`@ZuX{|CR{!{N)?ew?{@gya5}0><amJ?l{m$KB)v
zPT;d#j!*JD`7K#X&YH9`zcp)1+7M^U+H&@!oyFO+j+`^;WPV51m2)TE%<s&4a^9qu
z`CVCG&Y$$>>XLOV?9K*q!DKKON`_e2ldaE%lVRrfW*c&i$wub)Wt(!5WQ6(s*=Vjg
z*__*!+?H!ewy?OmY%JHBY-RpHwk_A5Y-j#pHlFK9b})Y^+nL**+|K;<*{)o7vOCw4
z>|x<>wl~+8?1R5SXv`*ZJCZwc{mFh7Zpseib|!b`29txiq2y3*S8`YGspM0+-O1fN
zXW_)KIQ%iM&0KQC!o9!=k#{*ED%vk!HYT?6`>|EextHZ^M$T>Dk#ir**@B$0@5s4d
z^s>CI$lLbhydUdbN*-V(+EF52yM(wy?El!V_xkB;)<nl|D3IV)*Nb^kN?**1@H;Yc
zHZvxU!fTnFgzI}j%;nO%pP!l>&rBffKAO*qlljaPB{s@4)6-K@K9!%6#xAACrgGC6
zRAW)S&!@*OiCQ7mb0M3}=@nR1--MV?O;4vLq^X%{wTnWiP@a-fxhX-+rl!+UI-7;(
zohd0Rq~y#j^~;-?%;Zzqsfh_uLeTSqn4LK~DV&|jBBb^4<+HDhPD#0hRo!-0lqN*s
z`KjzoZt|R7-<iy$n3mMgOQ$bvj(U0OoyVh4XW-1#L?$nvlcvT*8NEYP{Yx`xjC?jt
zqc<nSMI(@=rm2@r7pBJ27md1(=PrtZkeQsogft4`czPzAPrV~%CN9xP(t;?d&AIfo
zi(*O=bLr{SmA6y!SUM}FCet~pE&Spn7A7YOnRH$}&*n(}4ee0W=X*t)dHKxL%STm@
z5juA+;ZQ?IXYy08v38Km+6jwS^HO>Y?WV7ZQYtekh*#A}My7?xWn>whWD}ng(W2U$
zOJ5OFVs1Kr4OuIF&=*Qhjiah5>6+?g8CjjO>eI$DEs5iqt7F<m)7*d_SicU>d!R@n
zm*fR5X>oIIPVfm9(JEN+XA^CL9e)ndF7UIUVuBMPm%xwL&2!_t;C|PibO;{Nc{!-p
zSoI^gYR8Y;1n;}Hq<fyb$|pUqa0$Qa*7o$-Gv`KC@1=|&h?8uesiDV4OIuI%=;;`-
z8mjm+Z?j#X`re{Fft^psLv?6_R~?d=pOGfV3_?uZbm5PP#(EjfpYS)iJbtxr!CByb
zf}?31W}eII2bJRre8DooV>%EcSPJ%n<4-xk`e&9;Y{p?Oa4DS_aa`VQ)LF0;cr(9!
zQ~pZr)`D%!a@BIBkK?3(;GkbQlJ^_62u_0}{s_#Yc6{DgUQTd*;x_W5S2SYwUE>m-
z(cgd<aVKW|gA>@zshR22v@~`3j#af?%%o*0fkbHsoLSGHF!jzPOI1S?IOeJ8YZ`gU
zrzbDXzOSuad`1@K`1ik+{{47bj^{6lac!yMST=pB;^Q-u2uw{5#?NKNv@FJDF(3ba
zWl2$VQmBs53w}SIpQ_c;plYKY;h=ic(-_RvOb#PUxK%r-B2JMjg~J1)m6B+;g6>s~
zTdJohcV(oW3+e2PcwCaEB&m+l9CTX8ClfB!CX3l|sT+|}4>`T$V4b+iq^a&yYAl<U
z<y1<hS&wVq_5XQtD4&}in$Aq`%%?#T^E<E3>^rdk%06)@o4GiIiM=#6IrKKj^N>b-
z#jD~Nh=-&F<)H~i{0FD6Nh7Fsw%$BAgT~+vBVJyC^SkTZMm^`QTW~6_=zZ6=2eG{+
zU!>%3TlKXscPPH?rBG9;xx3U9TYP=#&DC)KhS$;RnYZ0{HE+~$+xknsR?1(MDY+W%
zL#A!W^g&&@jtjM{whi46o>(0|@kQ{&gZfz6VhQ!GTW#UGGH3JGm91Rp1^(Od8y+sw
zv2x*l)5yH-C*F1Rl~ehvW3(TQj}8z!oLAww$rZTEIubB4&~Je^HuoDSJ7<}*BA<Em
zDme=lBi|g49OhxG%JFzjJZj=!;qLIG39GaR*`)pC?1huCNe9S(2#)I1w~)%GWE&!A
zm8EA`%J`J@PFfOXLzNZMqy8S!Wy*A&D>XJ38+(+-p5?dJ8WRhidFNuN<O_aydg1hv
zbIli@=SzX`hd)^O!BToH5MQv(^Yc%Y0>OEgbP(kemQj^Ucxhh~gG!}TPl|Z<3^-Ow
z^`%lEg;_nt3PP${<-8;{pd{Nos-2x;)uC}R={Y2*etqALiP>x_b%&RpMyyP8e}oN8
z>Z0Q0&;-acaDMkLhrKYouhbO%D$r)%^QbXew&S<#;9~7%C;40);@sr(P@I>1J}#12
z8Bv;s%6<xBH#L;0csa;<>b?$<?+9<Rhn5;|$8N>2pX{NP?oS8q417agHUX?3W9WkU
zHS50he+|!O#>SXiz0TZhRm{z%u{AI`x9HFr9hjQ#^P0@hC%Obbm|v7JzdA5Kw-69L
zmz&J?O^*=VBHmv+e%v91z!ZIqDf+<_!)id=IVQXtRUH~vW28rQPtN30m&CLHMo(UV
z6)ohVpOlcvsgYdzYHE5)&JdLae9+O4ta=C@r9hSQY1KDI$WUjPjDo2R>3n{YupRJL
zN}d`AJ55hBW+3%rgkwH)m>frbc2F<k0Bqu-!OdJ0ypv0r#~d87CZ{yG?wqfH1D!ID
zD~>J`v8q~!x8R#~fD`kKQ(8`OKcXXEJ0Ds`eaNkS1sg&pB0wpk^P9ec@5&q4@C{p~
zR<+&4+V<7XS(T6VF&{D-0w&m^<yrLiV|}*J(+ZNXBV>*crK{INuNJX%&^LXASy0w%
zL?ajRy-nW}%bIN!_{-Zi6+}?5&Vt{e4RbCFz)~p_k>op!GPL@&`iNL_Y(`$HvF7UV
zmpdzY3}3-r@B)+BfU)c!>+6d?m?O;-!)D)>ZEZDoz;I7!(ZO2O_bXa7Ysu5GF<LZZ
zjW{;CTCooFudR~H@CnXOTvb@pq(1o}BS*n&GCV(eyvvBM{1*H~Dg`&4nz_0{o#aEl
z-Ia91Hwm#|E|4c4$UgMQ+yO@1mi^~0$0~UYA8IgH!iYl+F07iT5MV3k!903D*7rN+
zvBk&--0B;Z=txMk_a?OXN57bL555KZM*vnDMC7b<aEgV_Cu~IQfVHkMiU^UYLJ@&<
zfjU(`q^?PE>S{{PU(1SW2=X?`h$#?3O|G7`4-!F4IHZ@T<yXlec&r9Ckw`TPn5j#2
zMlJ6^w3~W|5zj<S8m6)%<op3S-Q>`Gs)0N@nN68AT{=gx^_5tYyjw8@ts^f}7ROtf
zq~s)FmE@zww`N3)7J?6r0CE&0Scut9`o*xM^VB9$AGOXLVTvHX>N4k$7D#nyQz$i3
zz?eiZ5s9{>>eU3-{IzLOR_iv6mJXe2W0Mxr;8JC{G_XqlrB^7(`ee?lbb;b_P#w<v
zv^FZYE+-3DRS(unZ%?{HIT=Ku5fS{V{;q3~h30!Ux`~^bczGPDatrp<?|_$MRd^Y|
z7&zBkYUv?N9DPu~cddT^ytCBaN8uQdSuwC(32a}UPy##ehQ0{wUUltW4eTy8w-%ds
zD$P6ZMwI6L1eHsjgH)uw<P8+Por<?}dEyK2PT-@4XfeD)3GY~WO$m?O<G%<WSoIxP
z4IcntYG_$HUu+#w@b9st2eI~LetD$0{b^<U)AuHn?Z?+*Cm3iiMdN79UuxQRbMnUI
za{gy?Kb=zuVq*-EmSUt&iS(_Ee0u24AtgfH@|7a3#mKM{8NPd7i5y@t+q&=*_%fOx
z<PRWvcHu03ioUqwi!;x5CO1Tip&ljFV@eNyxEk)=2)LR_Fz`d@i1eAImPdYe=%<Gi
z-!3LgY%ciPYPcH`MT81^A$7EDH(HIf+?=~HS8Co>3N_wrztLXW)`pBNlrgXo<Qn@{
z9BU0j^X^h(OR=$6Y3yBbD~-EX_r9n!zBups_3nd9O~vNHFPaBG>zc3ovH_w@@WauC
zQKNc<&Mcf^OSMC3-a#Y5zu2x)_pl}qy}BCSz7h5`qQRfI8QN6c29%Ojzb>W9dB~9R
zShdVS<eveeC{Xj3l8Y&kFv-O_XDe81N-o@Gz^ct3NT>;7DrvQ2C#(YhiN$~sZ=h#$
z_BqEKnDS*4P*l~ylS0GLrLw*uH}aa0p(-zO7Mw=jITv!7YKp2{E`t@Z+T0ka8}QaT
z`kViQ53;%yNHyV<h?YZ8pU!6T(na{CF>*5GWXZV%C*jeE$uvd01xK}lWJyQK$G@fW
zS5*FO$o@q2re^ZfGkMT3_A3*js89xtEIfy}*~n(HpbKe#jYRo6oa-E9minfftv6bi
z=GH<x7aa4}`Ik!djW-iF5=-ZAfA7}!R=P+mxo7)@@8`bN*zwPIFDBONM;DwVt<9%N
zg8SjZ50|d3bgaCz78uf{IGobVjSP<RQ_JbKroMS^sUdpv^o`TY-nE8-1^2vT5wc(7
zykC>_Y@?&2((~v}qE0%7AL%$bC&;0lAiV%bwU0xInU`o;H7V~T`53o(k$k7fp;1ex
z$vFe3TCy9ZNOD9<_$3^Y>>9X%U8UW7OFN$;`L6jiZ}&V3#>#f`fPytOmz~TDiWMol
znHSRiwz8LbeO$Py>}TFOuCu!wU|t;GZRHU2f>v}cA5)t8%3&66Fr~sq7H;C&yOxDp
z*>Z#hqa-D=PL#KinApN%lNOJ?=}|a(^WcqxWjp-nShV$K;YOkCq>zjA1U`%{#J+JO
zq)Co6PTFDSXKe8G`-u9s<Y+2IZMsxwGo?a1WJXAh;~pjzIw2K0q55>yLOGBxYsY)G
zh}V>^4snb0+NH)Vgzd&%OwH<L5~Yu+S#@pEF>wrved!Eoo<}txQsKSCb~P!F2$}KK
z!2{C4tv>>z+$7~e8hKn-3M5&RXjLS?JOKpukwjQCH-8y&#O4n*(@Ea+A+{DK<+qR+
zf}4sX2w4OQpIR$cutAdGfk!PL>pKK^)a=9WG17?9+Lq&t8aXPzsJDh}h1gnn8X99$
z1Ff?K^s$!2ReN1(N;Ht1u+sFQE)%a;NpFAGy24tm(2Q3k!M|%=4gVkOB9zNM$QX`M
zD7{I^%Mf(JTLsqtU(oBUZ7`RehS<=Jinml1-vJ90r{zRbm2kic5Q$R5BoS0_x~Ab_
zkypfPskcc-t*Lz^k_IYhT5V!%kO?SEg#!)FG~mDLHpiu@@_MLPFFB9|!BEj-iS~}_
zlX8%YaDSIV@6<qM68uz?Z733=&Xk<5>KVi5ETx%5k8x2HbXHnbXd5e3GY!+k^r}oy
z*hG#Pz^ARvSa>z6Z_(IyHAORl{l7&4`6xgb0sFdYVBgYFY}u)_>?GJ6ebC%j3OARc
zv0}7OiS_~g6`OV`O}k3X?ZxI{rFj?#^JeNss?@ck*!7&!^&ErE1g3S+*wI_;IIMIW
z)^H=!kw<*Gj(i&z>#S}o9IG_c)>UlVtF-N{)Mv&RTKV&f&u;jg4Fq~!0KM^nl@rB*
z!^*(n&rTGNy`~&{?SA{~G>F)PzLAozzUXUHd~M4oie3AZu6-L;O9CbDySg_V+z#me
zzn#8=rS~Ace_yTiex(1>)vK}03hHu6qMQ++Tpp{Y^W<kdq6u>j;A_3!P|#HJ2ygzX
zRPvU|M$pEZc?wp83VnxyA9r$}@J8M_(kxYTFTL^VHj%^RL6yD{A24dEYOxkjHUT_q
z%|H*8s=!kW;ENonciaLVY#B{hBy%FM=jTyE`eSky$a$Zfe?ZQU;TU%fW&!B~#L6_$
zbP}py?6w-`KtF!}jf(sw93WXA=WAH?wv-}W^CwHOcrmt1iS4@Ex)ytO;q0TH9mSrf
zm7b^X9s0a)t>+a8dh=(O_G7=^uDexNYJvpTTefq}z3ZG6f}S6!3W9EQj}qN;H@6l&
zHt&Db*;DL1qI4c9`I?vZuUjqKJ&LP+-oJPic&xegw(FK_xpgf%H1B7JV4o7*chA2T
zJ%Ml_wsdJV(6j35(eSR-fV=*haQBH27xx-7(^>HeNcRVr4T+r3@F#x+hmfvIN4kKy
z-aZ}W;un24AgYssE)$`;Dd-_YO8GIl0Hl8Mo#&hEy(S)ozY331$i)Gx4%`@6ZcysG
z%WjJD0HV&%d{|g0EWLXBjazT51`>*U$2VT2X{V36`xsy~AkR9CYaRov0<M`q;*I<J
zaT|lB_IK-&cHHATYJnnLf7Fb}O}z`35-!*T1h*{fW_AId+BFDX(Jg2>d|TwuQn%=V
z$Wq5Wg8yB6(j(M~UePDoYS*N}UZ&P`ihj|?K(I{+U<7px1P5>cL#kIhDrd>Ig^5(S
z<RZ|kdg<ELxCfz_F@q)%5+e4)sM`gGfZwydXMfM}WSfE7=&+XP{=OY~YvA4YZHPC~
zCVHTM?>iRg4uJZ^z6FTrm3xxP{r`f!mSF~BO+;tZ@Yqd**<#*AuP9Rkr_S5v?emUt
zs2JXL6)ZrZ79eG-p%Nfv1Nvnu1>h$+f_?DUK&Z8QhS*M{T;&(`7Bvtm=(=$*Dp_l4
zoCQ1GRIn>!f<K!+!I4iGQI}~mZ2G__^xeU<@w7AW!6IX)<|Ey@;F+-09#K`#%^3#n
z^p2Waj%uOhCAhp!qyG~tHk+{_xdqDtzktgzFg@Z1_!x7MZorq|8EpgepnhxWYKE$4
zKpOM7eq94ms_S4jox3Qc56|{g9Saje4Ia$Gekv;;hDXcSfG)^{y8){1x9ltho0fdb
z*?W7xwpwC!j8Z}O&aj}&IwM_2-U<BSd-Sa8A%qA$^sFeIfbPcweYu>GNzcyoIgGz0
zq7@_z8zyFhrknG)FO3@qv;q;?*ys{O^}J2iUQA)E-I4m(ohOXpuE1DJ>YzL!refDj
zjI@5LUTE=PGRH!yTbvYhuR|XPZB*$!Dr{o_Hz0`<)M+Voab|p6l%y9a&4E$CEKQ12
zp#3`xwh}H4?fxTV)|TlXlaCF`Tq{knO=N+%{gER_s*!I)t@U!y>X7rlu5%Aue#7#k
z6p9r?2_=*$hK7~U@VuiG=`2Qul*rILl)x3QuJDdA1$Xn8vE2+4wkl)@qJzhEyVbA}
zad8KZ@hqWB@pXM|vB2O1ys{P6B)VGn0QmnN2C|pBJ{nx<`lKH?ys=}ssn{{BbPV5X
zDjqna95{2o;Vb~I8w?amvG3jZUa@gNX&hJ?QyQO|_mo_|qARAjVoPs)vggx-cMjh3
zto1*?dhXR#SM0v)!h@j;C4X$`@~SVfvbWfONa;TW;IWJ0)&aI3RktR(WCU5$Yv@!1
z)2dN)M%B9z*iu<*8i%~XNzWo9PS~H~=Z-~N#J_-Frdkc-kASxA%ywsWF@^D*!A*(X
zv}Sb7VGcr93UMV6Uv6Ft^sl=5*#JfvU{o6(GlkPO8x+y35m~$3m&dA6ugS4~gchoa
z$H!=lzRT4!p+!LoEZF`C8ihIgWM~T%ZO+D=9m?XGs_0qpmpMCb4jq$qkOQ<^d2k70
z$tYzNn1*W3QDq&s)va$0YK}HdKB9LUKL*!1#=VIHJLj};xOrywc}9w%&i)`|t0JZ5
zYy>NH89uo#Z|W;ZF)mm?GEx02bSG_U4U7`tc%(qrXI5{~Rj`9R+eWKsoTbX|mAoj<
z?jgrB5~OM=J$Xg?8R8^H6^O!1x5@c4a{ehC)rU(k*q7;fX<nseI0<)UOKNh)3MJhk
zhZN?Fz^Zme*qGj2b|aR^3;U`hif}c3(M1VDn)0tufC<#T=#LK<y}e&}dja291AV3V
z&Kv$m@vdTgM2U~w{lm5Rvx|Nb1<v12-AXCGf%&tzhgvxKDBQam9$xhg!^Mru-F78*
zl#=>aPAQRn^CurPwk#dHefrkvm4;&CfRZ?HZ{!z;e}4E^ji=_1|GKBY6l^X9TT8*{
zy3^KM$E1{7`(bI;beiAralzP+e^3nU_#&|5LAa;XIdt!JC3pf9p#c_Y8i9(%Zy&gI
zVEN6vC)ZjI!7>i=$y+o4S4<-pPR$@#e#{)ri9s_uaThCl6AVq@{~14LsW4>h1sww*
zr}-Is%fJeA)`}gek%kKq{usB&zuCue#tyB0s{ZJe+VM3na_mN%SNS=ov={nKCp&$v
zJZ(1i6<mTPZ=NsXl+3wlpR>FUoFO-E=FR=ga|PRFVuzbPTmxZi(8qHhj2A38gKuCo
zn2|ZpoELUH-h%yYUgAIS73`PkrgqbZbdPanh^kyRPhBOWU^Ci~i0)WfeIt4E1QIPW
z>Of0JF=D$m;)1J|h1Q(g7+t|<jGagSCttSV4FBFec$lX~*hjrGdO)MN&VTUVx9s2l
zsPyl<SH$S4QTvwbV6Hlk9rZy!Mq&fyv5zL~Fk~bcM)m^COyV5`%(yFB9NAi$ak@Fh
zH7#xrm31?7M^>B&oNgPbI(6G&W|N`%A2X<D#u_l7AOiy!dfS8y%(jDMlqgi}+htfL
zih13pf~@y7lQd>~4;xEZspVm~NJv?=rUgNDO5$`jJtnFyfHnD@O#YJ8jzsBSkwaoi
z!mp9Re@;c30Pn`G812a^SoSkbsCOC<5uoE_UGg*gf4xsKfF63N8j;$FR8QqGfNE!j
zS&KliR1vemM4n5q`qca`%@5!~B9KmEs|c;?qek@y2(n?Jpn-(yloyEX{xO{E+;1(;
zPS2{V4a&es%hE`(WtY;jYprGXTGQ~n_d#d(pLfsuA8g;D_}b@>E$%e&#A;xm)Ye&S
z8&cYaifzv-ZO?vYTWdSM8a%$}fkWz<uH{oobZF83Al|!TU-{wvBd@N-FMxi>cdn$B
z_^w6&uY;{i;_{pKgTo-d#bAdL>{#A$KL`;Z`kzNmDZyQfo~2VOu2Q&l`MeTNlp127
z_H+lgeCn=eE%MBw?NK;#^U#e$%aQxx#ENjQUl}}(Tn}LWFmkuyet0hxiEhVjU^KC4
zFU7ly@nI!CY_@#&<o)2GUk4k@&D@^Te7OzQ6E&*)GP3J#!`;8X7I}WrRtiTJ4{qJW
zrlD31(AQk_5$s(Oe&yR<KFxDo{pC@f3$_|uLW6<9&B`efoTZcGY`S%2%$x{?rj;UA
zA^k&g?ve93Ij6}v1E=~<c99~<vC$s*H}F7H_2}sHzvWu(p5@sx{oEV=ntsZMdHcXh
z<EODZFqVb)UiU8sem<~HUYOJl?*7W#YH!t*Qp;URxTkDK1eU&`ncbT@DdghXci%mx
zwCyjuDd^F!QI`cJvZG8Dkd}+xrLIQ%6?gx-pW+Vhwzn>yTzU2G@I5=b1Rp-8>^!b?
zohWli`F!|u`QPpThP;f!vhj>zDCTGIpmpM>)pxHNpA{^Eb;2UpKC&dO0+d)#Zn0-5
zqFq;RxuM+J`WcFM%V#J)sD|9kD!6IOM=W)<OOxHN;Ag6@;1)Tw)Gb;UJyaHotq>Gj
zUZH-AI<_dSwG8!K7$fir4N!O0iT2ucRH?<hVnAd(5hWW@GRV|oA#jL@s@tibn3A4P
z&&cWQnX@48cd<m$zaZzY$oXq>{v{kJv5A>zrt!~{j}#A*Db1Q{3}O=)r-q$g$LiAE
zF?3pp+Wgg$M#v1m*6r||Enm@n(fu<pg@LEQ8y~kCw${=J$(l?;7Qi}I$Bm?kYzlnE
zKDS^I%$tRZAq~nAa%Nu@kGIxB8Zhmtp*w?~Om7)=Rq4oT>E>$Q`&MbwpgXdSs&=L;
z!P=PX02PbNu-{Guq$PA$x<yWcoMCbpp(2%o8qQ}#dgCWlS&Fl>Ds@uE|40tuGU=aC
z?#Os%5(bOkzF-XMMv;IC+Cx3*&ynA_-ZQ(V-KnyEY<<0_Uu#rtN>eqpKm_q7YK9`}
zN&1a1tJENxe&bP~u^32v5lF1M5>T_3balsr#yGgoCui<8eHK|8coDZ}P0%8I;KAis
z2aMOC{~(UA;wbi=Q2I_Fxr1Gv5zX|6K0LK>s_5IR`1V2)ar=Mi(sU2fU(kH@!+A`a
zAo5Rt>-*s_tpk2Hf3@U^%7Yg}6JgQTh4GiaL>1L~2qr?#c4&fJ^&D=}Kzu|~N$84c
zAU>R3n8o}kfy7E;Eikg`8mZDkNTxVhTh%a#TDDfBFf$9Ap|K>0Yz%{E!!R}po3&|F
zRcVe%uQDC_Dgecp>1^}22dK-dw`pKqY+!g_f*UB$El<hUxOi=~bMHMrq(XL&<*4TC
zZz1<%Yh^<OTdSAh*>Y$#bt$zd7gkU|^>iy}4BslPqIPX5NwWmfdw?RSH>yKBP%`xb
zgJ&|jT1QWNXYg)MOPq~=dlDYcLBf+vb_KWwbitrav*3i4=<H8ti@k@H-ou~y*FvMv
z4VqSG62a%%lR=A9tx_tGGQ=dLNYuYtQy@VRG{KW$d4-(PWYoNnHI+?ZQr6K~7j9_C
z24WDD%`acc(4$3q-73mZcekQZjja49@)4>sCXz-%6G?AxADc*)Yqss%vsVqk|BB{r
zFRFl6HPi_c(o+A>r_bDZrr3Y#i~dtfr*0iwJ$HV?ZmsvsJ21JyredH|33M*+tJ31(
z>UT6zzX>p^P1Bla0?Lh7Tc&Ix{k}l*mo!k?7{3>q{P&cRoB|E#f5QVb`CFT<kuER&
zQ5=o39e2B5`8{opRok|5lzWap#{ZTJX;>3Kgf;O~?&0lwDp+$*1#8knu7gK-m<xX8
z^_X~*jPk0XCWWe?CIvS^O^VtKH7PD?hoxU6#%%lS@B_bUcy!68xMS;1imJ2Q2eyEt
zNHO3jyc!&(2}wMo2F9lF%AGw(l?T%o$Jn$&c?>;&erhT!OGF8ns$U{4tLnr1?MWGw
zCWkG>tT5F&x<RD30@}L)iI9)l!XoJ~X0q&w@}L0wJ1LFFce3Q79PHw8P=DJ+sDdrO
z8e|0p+%!m;i#X~6Qxj^>1+*eK`*?jX5qMC$S#E{^QpTfE{UT<t^5#~1%G&jWyi7Gn
z*BqJ^P{)(9vIqR^F)e#gpuM5(e^LqUNm&IN5S~zbpHPCm=GI^MGox1ZN%iY5Js5wZ
zHyqmAh2baEuiY4t0MGu5gG$LJ>e<d(CAB%$Xvv_i?3l@CutSK4GW~<<X9Z;uZ!spv
zM2RFnyj!4``*^7@$`ZY3kzy2U*NQUQ)kd*QlMyFh2RRIT9fObY0W7!bILnBIX1+B_
zdB`?ELu#~_?{M0_eufIU4r-+3uvA76$6mASEn9h>|GJ0cyB~6~zvX-nxrT>a_kZEK
z9&(5Nh8y}D?hhVv+aGcV5&Xtt<1Jr70JVJW;rNsML+->w?#M&#!Z#Kx;#?d*_+PnQ
z-&mZy<r@ypSM{8yaq;yvciVNxhNGJgEn056Z@4!&csI`Ruk(D<;zhE3-r&f;@wVkC
z&-X6X-)_Fuyup#beA2>MA{)@I@~w-VWM{n&eLdg0ZbfvNMQ==6pWz3VEVtda+{*{=
MZu^=;kPZ9)0vSw4k^lez

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma3.cpython-312.pyc b/model_executor/models/__pycache__/gemma3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..366bcf94d8591e06689b57c15365685d63db9b14
GIT binary patch
literal 21915
zcmb_^d2n0zo!@)7PXZtSo*)TQq$r4&B<i$vMiQ-)mTg(K89NBX_eenkNa_KUB`%oA
z8SeyioE5b@8BtSr%=DP0#+os+ZFiN~w()M;9q*>o@`=g<d6gS=)}4<3qat~n?M`?5
z`TpJkhz2cZCU3|ezVCOR-~0D|?)ADjJSoc$lCd)!_jmN7KXwgx^o)t)Zg2u8@F_0M
z5Ai&~rj#jd9x^l7oU#mA5NA$V)3#v~&!z1{4whm`S<<#48-uMWXWBL7Vz4dcPJ4zt
zY44Diz1ve&Y2T2K!H$$a9T*CvtB0!DyE7F`hlWDw@KBh&yHYjj+M!woyHj=P`k{IT
zdr}SQ#-T<AdsC5g(@;~od8j$vGStH2s#4K(>rg9$eW|wex}kLp_NUs@9YY-q4y4wn
zJBK<MT%FpGjt#}q8;3Ts_h70k-96L|I3$EqJ?Y+|Ucfa%ZK^N5X=qb=^U!AYUYFXE
z?jPz;Zynm2-Zr!?y?tnVddJX?^v<E3JZIv>T5;D0ygIi-nA+z!q5f@7Xb^4ZFX>ZX
z`u)JH<=oA3HX>)_DLMDBoK48t{FIz~MIX!Cg1phM&ijGZrJ;SSL@P?PRW2cJ5;uQf
z)q1`EiaECKGkS^fisNWjloDrCB4ArGlS&SYg8)rqV+j4viRpBr|Fn2HdvJVgBsm&0
zDb54gtT>iUj*lr`13Z0Yf+`4SCMPDwrEEMqE)AcH509rOlBn6FxDO_V&xvXsit9`&
zl{V`0jEdR##6)~l8lRj{+UX7TXU3&?dR!1w@ri_#NTmS0IWDDycqTbTExD6p$!t6|
zJ~}E&cy&D|rX~-J2`490c=NDszj*Sc!Eq@aGb;@zMQKzN4vwcL(_^Q!`c5Rr#Dt^-
zUO0Ycb<~UFZ$24?I(;X`N0ZsiDQSFI%%FFOs(xWIfr*$(&}3-i!GzKXq;WPMHD|_$
z6KD0h4yVtGf{+}eSqux}NMbUTjlU@-N6*nn5`rix_36ZwvtnEl(}{`rg-h|wa3Uqf
z#}a88bMWXG)+#Lu$wXE>&E_cc8Er+Rg$|DmW4fg0$5K~}Rr!o|G#c}~q%KS5#Q2K`
z6qo*X>Qv081P)AQ$6sNcKr-t@5X&tkhS90S6;X;O#{}`RQk%@sDy5T|3`W3KB`u;m
zN@qH8L5z#(iR=|*Ep<>^#Y}tzRgFtm6gSJr>dYt}b)XZHIFh_POnXs(yc+N*2jKg_
zaUwUw3*3;&$vHW}Eto{JV8*{iv<OzwD)3XliGmGpc7Y%9<hc=EaJ=muvI$Pne%`NF
zTly93mE%V&g6nO|kTcI+=7(G_aWRkLRQLbM6Q>3h_qn7Xh+}L6DuE|PN_$cXXz3Vj
z@)Fw;isvG25F7(KI*LsltYVYI?4&d{Y%6t%a{#85eDq%t{D{B7WsSrcTaNo7j;?;#
zc`mCRWRA=6InyYQDL{;1%2{&Oe+GpA&rP>2`eDy;aSd5<T-K>qnlt5iBfoW3{!;B`
z!FFK>$4Tz2z9^hv*U{wn_^eN_PjK9J>hWliM#G*fT+B8287LJuFy-wX#kP%4PQ)jq
z@$<LLisfuFk&(KPD0L&4a`g)1Z;r84B`}Kf9G|$N;*o4(?A+8l>RLo6Gh!zC?JuQ&
zJDSKuv**O9x(w0MGDJrv$FL^jW4+N+DKU`|qZu(9{dQ@&P;^WvkI>fd+tKWJrIvaX
z3-t)6&YhURU@j-q7+K7zSb_d<A{=oX1YoDQ6u`I?Px-i|AVoP#BXylgq$b6~k~A(!
zG@pu%PTt5^%&u56VroR%fJiAu!A1&<`BI$m_;4zb$;9Is;tHbdx%z*P^kvf%eG|!v
zo@@eGFWYl@a>uTn7j}q!spQ!{OzFAtvA#>dz<nxy6)%g!Kmn5an&}&5D8F~&inJZI
zPE{L6pjRK(KE!9<LGYWa++#oIteUaQj=Fn}hWnB2MNe(f+q~pynQxUn>xzMzVtq%k
zCNlf#+#5^5uE%a$lPhnz=cs>N#Wi#lJx!FqEYr|Za04<mAk({5D^;AQX(`%&*WG`=
zI<jIi1v(#@Ey1c4&f=|l?BZ%$7tY+P*_yZf(ESL#;S~PzFzq${p^eWD)nx!TxEyz0
zqwsnL`pxnB#(f=Sr%lsl<TH*;DQC{4=bPq{!#E^mIi9SEM@{@o+%0}EW|nY@IO!P*
zb|Q#bq-P1HiB#;`_E7kE#)1f1MrjXA85x(}Oi031ptJ^B)VGkHp*pT|#c+Kgyj~8k
zpTD>qj?K98_Srzu<G*%%=J=d_*%Qt4MPKmRcV@mbmss{iXDoR>zq#o1=N-~sl#iJP
z6)xtcJxf$39#>p(BD|9zJ8{Jmj{}9Jv=lRto?^~qB`J)OY<nnHc0v`KN{*yMNKm}m
z#vB$?sd)SrFYQKbhUR`h8<^Bd#VMd3WX>b_&D-3HhwI-_tf_nGZL)5A5UyLX;&;Wy
zMOs$u1UU$D5`>kHEo_x*`c~ZZ>fr*R6)J@N;;Q=GN6=o2H82-`KXNmI&0-BKbbQ!-
ztNRNA*{E6L!)VudYBlH)*ugJR9Y%R-G|FSqD33*@IiNcZg9<rCn?{dZBB&9gOm5L3
zctDwI7-jN;GC74R(RIGYXxjh;-x~3r%JCyM!4Hb%5dxLdh3YlpgKNZx)`(xLeU}hM
z`(8#dt3WYp6`#6Q4Hjfjv8m*b;W5QIHkpo}6B7bB00P0{sBaGXi3`cJQkza(j!%qd
zl7zCsS7<yF3JenusZmpg2bEAFn;j!A5S&>&Gd==Zo0wqKMC!q;4!e!1<v1c?3>zE)
z;ax>y{i{hV2rCyia0$p|MKY?B<Y{*fSR-!W1mFiI!IiZRFz22^%L0D^7(HV;#(j_Q
zNacKJ8TA<q0th=7Cmhcnl&aF<(r?av;dPv<&|0ZwZP&22-Ia5e<zs!!5)ESy7=|@k
zo<e^=&}IugEwLF^ycr`zX^&o4=@+q~(whzuLxZx$`XN`fo>uz(%CbgVIsSY@sf-Q@
z<|(i#Xv3JxY>S>o>s_f=h&4u|=cPI-t_OcUTFRqCIY-U~7R>^d%ld(~qUeJ$$Jq`e
z=UQ#8HCtfmzM@4NYf;;wXpz_u_GF2*V9y$3=Fe}`bCiB>+soG5z+}IJx^z6uWjE`s
z<y;2k^<a!!^!U<m&Qp&U!9gbrV>4D8BidTZr9%?cLcGnYXADxtw0Dg%jVME;d)0&1
zn)E2aDY%k^H=6aBu{M+<s=w+fFNGXL9#=i(wPcA+V9y#WRC%vLY^c<>K<B<fi?=-=
zX!r(gN3{mI>_HuZz~B|!y5>U)WQo+X=lp;Um42tI#{6YDj+9b#Xu2v__0>6OH6>g2
zm|kMcnmwVz)6kLRd>Dyw%Jmd>9xI#?<c*Z_=n!Hn;T1d1X;sdd^Rm-gg|p-PKs))E
z9pYTr1M$W`C=ue5XcvsCu@8PW<?Ou(%0_aIv<Z<@_TF(->fsf$IFV5T(6f*tAP)Ma
z=~A4eGKgoPM^WsWZs2sxs<@<au<=(IWrWOJqKpuqAj&9Sh~;DA_~m#ednF|*9##u!
z4N$w{MB;E_GLuM6S$m08#_ZBd)Y~%@bRkfjjDoUeeXHoGQU_s1(*fxHeG|%n@i!TT
zjct&&Q8jduq!%c_dT|nwS;dz{uTyb@*h?=`Y;`Htp!;TwN$t~V%3`~y%GY+%eUMZg
zzBnmj_z<0Gt{{D5Xwcf&wINEhdP<csjd7AG6^AkVOxm)klP{4j05g=vj6p9Hr-eX!
z1S_@+>{n`~EN)frL6eeET$n>`^h(u})1ZXdY^R{(NyTY3;v<rHk(P{B@|=i;JB#`x
z!jHy6f}sJ+kF+fKXa}X(4;?=E{Gr1yDxSlG42VBJc;YpQcB@1rLb1@uV*yoWD9tp@
zX=&=Dm+945Sm_md?WW@P?1Va(PEDU9T$V0Tsz9j@Hm$>{jLM}GB_au={JE-f?X=KS
zb*uP0Lns_UYNmj*@EZt)4P`<hq(2CA?qcJ568!4!S8rdg-kG--TQ<;p1j0$dw@&u0
zn;(^ZJ&S?6zAa0REla*F#rmc~eUDt<vsf$F?<9G!*w#x$T8eI8!QCdi+vZ2_x_clZ
zgz5^xjdF0~!Yguc>mB}XaMzM&*HUm7WQI`V-04EoRvCX!B;Aj+%=7bG3+tYd*FAG*
zR9<&@IWoW`(_&o|jd_bT4L8QFkIiTQc>2fFGD(>jLv3TBc7t5IVPWfsdv5KKYpGkF
zVr^5QwqLI8Upy_>?xL7a>tZC=LI^uKa}qxVPgM3q8L*B?#kGaNdO5J(kd0qk3U)sB
zIqFI5^**lVYBw0A=C}Uwo*(a#J)4-Myt?2kOTiAv%e7R{4OzT)otl4fq_F*{y#46C
znq!o5zoxBX{HLML1>16{FYhciL<<ewazppRYjVSmrDq4_hC!6{6}N2vv%Wv+o2x0*
z_uj4V{V1ES!h~aF``+32pt-%!yi0E0l|S_E^TpQgh2&CnXa3MHJWa^b(otyclbick
zT6BFO+Al}@^M~$vn(jBW=~GkNcw_qdbg_O@F%Z7da=oS4(9D*7qg=o7vDe;6!}4K1
zJi*!RbI&eV?zwyJ*L4)?dgQvEnWLW)xJ9npl0S--_Se66vJlxWN4DSfZU5ZNd0RgX
zG_2S;XW*fS3q#T1zcx5CsJD!_6Ei1_#%Lu-QPEP2Y$|s2s~U@!mxAjahuvZH;)hNq
zH!4nDFv%!hO@WlbQ5G}9<thVWvxs$l^p`jfYbqWLg#uGNSf;HxOGU*4ciw`!Ry`nG
zhImj)svJ9N7WmsHond<&J)O2q+ov5l+j)akFV!KeC6-hqwj)Np)5LHX8o^S1Ih(=0
z+0Y^(m{pH}{^`9#E%r5gRf$wTtygyRiqsXWo}8h_oVKIIr}c_zF<8@5RS*-=U!5sp
z>xh{}UgAerJ(M%&(DP0^bLR7ntFqu#fKpqZi%bn_GT6&f-khOpWi7g}bD*vUL&Tjo
zSkJQDtlbgla&u0wr{;gf{{fHIe~X%9_QB8o3C}HXFObkb`$xcv>s%rehvIWo%nT^z
z@yTq=FO8#BC_yJu$*go9uylbUoRecCDMq0g8z2#(mn2HD>+y^!$x!?i3Z^O13?eB_
z5ELFuBrj?7|IK9fTs)n~T*$=SDnWdUN_>y<*)Bj^Hkwh)Apa6Et_puq;V&rsB`9i%
zc|b2GCbNo7{msx3Eu(WPl_R!xs&+M%)6{N1M`C6lG(=ZPT~%Fkqv?9n-1KswXU3K{
z=U*sRhi}BL$L3DI|IM4<Txchq(;dstJU{g;MGk+wWj3~4Jvd`0{aZfqz~f~aIukN~
z>*lu>PJj5utv8k;&n|m*LtzK(MCv>K2ZQwDy>@iw=<M0Kwq;L~`c8=`S!n8&n|c>5
zf9Cy(cPX-W*|YB{WgkEj_}!WB&Rtn(U3g*H*QaR%LF$s%lc0y2=M&2{8}jZ4zVNlF
znW?$%1?xRuFR*!i)BEn5?)l@(b(?06<_BgE6od8olPeLfcJr)IsM#dfY+4K~9$366
z*POm{VX5Zy$7cZL-NjJdjpNsk&%2jH-80U-Z5GPNaNesb;jUvgr9Y(Lk0_WyFsw<a
z06At9VQBPKpe&$KzLNfyp(~)-)ekm!1+-}#KSFYqOI1Ltq~8EyGOgKug)&cR--OyK
zAm5x#Fx@um2w>U-B!S(w`e9@K?b|e?wx_pA`fp9vDQ{P@<*b5*@Y=L}%nI15!hmcH
zatQWmXUR|m3ChqB9OB;inBz2L<%V44nxc9jhXeLBR3sZELlb0j)7Q#Z1ufjysn3`5
zRz&y?!D-CAH&^x4JXJa0Q}g(;B!aM~qDBerK#nDuoTP+Rk8Z@9_UHUhYpD{+5lm%-
z6?H(5i1}&ca-M1DyMJThau(=pU4zowXjl3^1;39#@v9OILzxWK!W@?xKMNtJEXt7)
zFUC_aLYL%UsSl-NUd3`LDZW{T>j}Fn0ZE(?6Is<n3^Uv%QJSQ9^Hg$zNJIvLo(O@@
z3Dfgf25gq7@B>PO8Ni_!9*2*B1hWKeV~muLa#%{E0_k09R1=OWU=-;ZwNg!@D2b9u
z5oT<NwHGcauF`0vo0Q23Rt~-kN#Qc&OLcUbd`z>T*u^n{C0dzGs+cc`R}||dGT%u*
zLir3a5oPp51y!o@2S}RgSWQ(b(zVA_)t{;~Cd7HGt_{o#%x;;@-uTY-@2JwqvS(YK
zf6&y*2uHTiw_nCz)BYt#1JMdCyC$f#f7o-YXW6rp(T#$qMfS8TMYr5B!9us}c~+$+
zzg>w3ZXYrK#d@kpuJ4~Y_JF{CxqfT@*n?pG93-)hyrUQj=biW4I_A$Uy8gE9S=rN^
ze{S|QaM<&ma!oA%9MWf#^Y*3ChC*nI9NMzDc{#K#f4Ep3oIN@>x>UWsP`yd6231+E
z?#~}wBR42hxZ%e0*Pow10P9yMM&-jddam~nEnBYcpn~;Jq<<Q&DTMpwaDUMsF8YHk
ztS|aQH$2xpkKDGJs{8=VNHvi{xI+$i%qJEC%i%7y#Ns#Zn3luO<_C%$UHOBv&biJd
zPg}9BW#;Hgj9a&RWh3Vg=3S~)%`!MRC>_R1#(dHMex&CpI6?v8ZRsclgk_m2O|g!^
z|063MqX-hSrQ;Nkwu@QRB-%dGNeTuLl$+8{Q6vQ-C4{hT$dp#ib#H>?R_xhK2DRE@
z-s*bbkFHn=z?{|8uh<y~`M7q)$v_y@8dls4^l-tN6)yv;xVDZJ9|Iv=w#^@sYc{L|
z*gK?D%?cM}?;)<GeO|bkS_!k)8nVi<mRIV?ELYEBkC{8IH4lPyH+Em&y<!E7-qbbS
z$X(B^*y+v1xqR0mGm%GbdV7)YwFV!!{nvKSAU9y-_5|3Qo!%V!o0HyLTvhPe>oc#f
zxakeHKvvTiKD?>?22Im2{*8y23wj>iL$KP_1kNTN!{n!$@+^j-&k92yOnoCRX4JF8
zsAq>6&{0X52sf0<@vb%Eb%&NU(kqu5F%c0SaR_c0<lM|4=K*r}Dw_TNkjUJFPLM~>
zpsKDrg90UY0@Ywv&VCsNvw5&Ts|;o^>^$j{0_Lm&y9H&b!DMAgm&G13u2sy<pC^Ub
zss}Y!U`G&JN%hNDG{u085<u)=c;TVSHI=DyjrP7q{|!REX759*x{g=WTY<2HQK8<f
z_S7*(lr<#7HTuO@Qf9-Xq|G+w-H^n82X*=Nas3YJG9>NaL0yJE0E&3qARLIuVTLg&
zF;|&N`bBjAYbZ*mEWPQ}M9jLT$BpzFDvAZm)ZQDYW<o1UkQfYuGtrFNED~HooG}S%
zq$>WBvKIV?-d)urB1W}sq!cqc!qnB$MSArm#~`<=s(7ZZt^<Em#t4<A)RU%sL=**0
zVl7K*V1+8C#cXBD<yClrY(*I&T8y75*9AAK{7gA&G1S59L5VUkB1cdMSCy-S8(RyF
zJ#u3YDO>CA*KdF%S*(i`>Nd!A8=!Yng-LK1g?g|Q{l#$OjrjF=v3+Bq{Tp)oH#9|E
ztL9Y1{Ds19&0naFi?o$j9*mS~CSB!rxp{lh0CdNs)3f`aLJg6w(Sfc;yB7uu-FxNk
zy&nw}4!t5DdgWfrtJK-Z{S8}-p6Y_98O+T5K%sqy+`i+n*%U*`dybCBHf|%_pT3;F
zk)^Lkde@Fh>0L<wg`-oYQEy?QRc(et5;I8w-Z#VLh?N$C$;1tqTgb%btD&6gvxN86
zPnpk>X)Fx1RWVP_kT;oxhT51a$w1ttTHyfzheLsX53YtxjYM|xa+0BCEpHb&48&im
z2@>6xT1C!E(y5^)g*42a*GYD%D(;EaQ16HdgwH$}GfBo|-U5D*{sd*DMGF261^<?U
zpHT4c5a8G|mn@@*^rw_W!b65e$TokOhNz*!-q()YAZ9s3jX_BS54O;fyRlf?o<CBI
zL<^Bka%9tD({g0r%*hAqHx|}EBd>qv&Yq7qEU$kFmVx}qxt+zj^>dc@t8S8;TfK`^
z(hZ#ttpLIN_`(nEfbw22J1~#bZIkP^EvA?24&}WM+SV7^_RDSii=O(qosZ0>buQV_
zlK0MDMmeZ&95)^FP0MwCc`rK?JLI|@cf8AW19<mE=FTno)-O5MtIVre=Uu&0CEnFw
zTPyLaa0r{6NQo-jT9ISDP4h|tocp=VdjN=Ib!Z$b*j4v>ja$Vp`mS@Gc6xOfOsA7x
zUBqNkerV&sV|ocX#n)Lo4HgqH>d;wCdUJ4KKfAAY&xhpdjuj_Gp|CGMc`Y}Sn|t~F
z*KfYQ<crD9jbC_?rk+ab?h~A&PN^Slz#z&wM*)7d@A0~W@`#1;ht{{NhM*>aYrf%Z
zf(o?<?#LD6;g0M8FXsRs>R+?0lew6=D%T*mMW>+V@T`$TO<ki0B1;`{3EsD@LoPV2
zxkZm?sa%uFe-aOh@pwh1D8dMQ7(o@|MtwMx0mZEzo0H_(&*UR`2X>>7;wFz&-M5Qk
zhB2}1Av{DF1Uf+O(OJCxi2uIj`_}K<o^X<e(*5f&q?L>&?^wZP8H^xnlLhZs5MP1y
ze8)CJeocgl*+UN6CEu@-Q}m3rlJ_}c4YozEf#Xnz$zV@4e2-d<*0YB30p;sT<#Z@-
z$y@U_DEZBAJ6KJshY`&g9y0l$He%@61K8MzfJ>}mtDa+xURuw$={ZWjw{2x?r!h9*
zYW<LuvR3rA5bWfM#r$qN%d%>q;3#<&Rq{jv9np4*;Joe9^}BGA@6qeRodM6Nsq%=*
zdTz`xm`U#-+|`-uA#So<fRYQuqzm=2y=v@CYJheD2?md7Vt!=Cp49g(H)ERNXP`~J
z&3~Y+D2{+>Q2O`C8RHoWgd;HRb=7SD0zuS@>IQuEs>*9Aj@_w5`mB)HJGH*-^cb90
z?{229%j^Z9=KDQ#Aw#kVc&~enJw<=boM%3D2S!m-q>3RlIHaieFj!|8UptEYcpmIi
zT*P9+fn-XQ2H@lFg1Rh|%#fc7V@w!fjMbI6VBF<k7j?924$gBU`Z+Ffl5A`=!;0$?
zU5Q~1393t|r+l8JcFGfAjw9-I3$>q$Th-06H^oVsI2E*M;~)`5WtJ_BL-tAHD0Nzj
zpPd{T5hbQkQEV6m?(RtIsFjwdTwIAcRF>dBP}OXi{(>MjC}XWuuL;5)#3Ah8zrUP8
z4pmyO3$!{x1pjcAyYKMozVpREq!5V7fmk8XF9-Vbwqk8tp|(%1?aRZ%pag2(6cOe<
zQU7UV3u7spWOAj~cu&KvfVtc|t-8y-hud`s<|O25mp$#Dn@nD^<<~aBIbZW5*ae<p
z8)MAp+TZJ4XusVBhB(|hUsGu9ms|Vq)D(7|kawN97di=M*$KJ{%h5Nlf3pzomc!i(
z!*Y0Y-c@vX3XX{Eh|Ilyd)tS*Z|%P0TJAcybn4|LN93O4%>BMIMQ>#8{E{cOu)WZ=
zNAB7KW@QuOfxFq}gxeAmcalOzRZ0*A&>zBR^#6!l$JaEi8=m;ULgl5kTFATfB~Chk
zR~+oW!jD8td&{IQ_<skSp<=otzE9nvMz^Lk$%m0K4Nn+}@6!5`9Tx1Ljq`^JzNqYr
z&et#dx)y{F$8U|xzCBBhJ#46hj73#KPuwO__b40;Sd|&o1v>MDWsI;6lLAK2SUJx5
z015O|8nslPv%Cex!?bNIfO)CJw;S^|ZG$hQeGC?rtE#6mO!P$DVFfb_Ow}}PFH`7n
zmFOqhFz6TS6bmZT1s!k0QiPK{?SKRVIz}e*5p$BuSxMT^&Fk-0TgtGkF=B(FmD<Ww
zmAsd!F2VesAx*qQ=5j-&Q!2v@`r4k+T6E@Yz}%L>GW2IEgIy94I_8Ntl9V8q!+>!?
zx{El8@V@jn6nsp<Un5XFa45sI9W5LAs!Bgc0F4C`Kxp%+g3B^Nq?u$=NU1@^%5WaD
zaA#<S3G=8=nSc^3$32>4a-Fs&b&TEH@znibZ^7Mp*WC#TV9B?k811?4eGqLgM7PS(
zt&6WMNB7No;qo+d<Uz1=DcHZ{=|>0$nZ*`4av*=QSlhL5Os?ILKXO0ZICtp%<2R2l
zgbJ};a%|U~tv}oQ)4hKiK9)cH%k^DFKQ!!3MStBxyS1~581VXsPC!iHxw&)2%+(y{
zfoS}ZAAG0a+j!Tv@qTc9v90gUtFnIp$RPw#NX1o===-~F?wWsN@yK%H9^5&Ccyp0D
z?}(_F!>-<@%sg=o$Y37t199Adm!`n~3x3*EBGlLjgi=;L`o_}Pi)nM|-kqK{4Hoeb
zH_N~AA2su)m3hG!tYN82sUNLWh_58_>a`1|3mdTdH92b~u~#q{AIS={v1JP6b*<Ll
zdTEW;4VJLf)0|Zw@nwG6E^UXd($0>)qr}?g9D+4VB$qw<;e}TTwBjn7zyWsR2pg;+
z5B+P!<7W8b@Z7uqdX149d8C8cu-<CUT2diQyK=6#w&h$o^CeE&j2^qbZjZlqKMf~z
z^z-j?CLpTURmOVSJ?(*s+LN<h;wAoF{8sc7^5on)vk8Bl$}8&7XC5nx(XslrW@#ww
zL7Z{T0xccDI8`IOBj>1e#bMg1k1prc*NEqMZtP{4exKF@nEP1|OtbvE7uT3|^ztgD
zzqLjmDeYRRmrvh6dVlqqT65PJdz8oNd-pFiQ?_$3X2oT@am*HZ_A>wL>v%EZE~s&T
zSRSYOY5$QLw}Z+$*_Aw2oG5{Ie^0S%cUPISw_+I`ogA5R6Svu`q8&Bf`^1fIW*v`N
zrX0N&)XUs}v}@gf;O$Hoyr<l~Xbem-d$IPC6LYLeu?WfGtm3EJcS7mHHT;`!f0YRe
z>Roe6R~%r8Gvpkl_~17MuW!04#p;vD*FqwhQ86b3L89%X*kO%NC5A<*jS~MCf>@PG
ze||~HHQ=^~FX*ji;BYlDK@R2a30$6s|1|5Em)%*{dX`ZvtRH%$Ithx4b%9+iRIIEp
zYfSO78}1Wmft7NxBn{4-!<|PJcBn8oL89(Dl`ErliibL(U82wE-pMLoR-W<`qI|7b
z%&Xk5P4+g|lB1ctWgF+V78*CnjhmJmw=CE6=iM+^|I3cN_x`$#FqG#H&Gvv=1;Pb?
z>s@~<e3=TN4ms3O2=&UL-sRAy#eut_XUN6r<n@#DJ@-PJ9{8K)1G2wu)(cN7mGN8h
zbr+l4RA1Oa^FFzG-$$0^=EF<=!?P{~U=i!v=a0#CeY4j4(ar_y!gufOe|b522BbII
zvyhOZn`XVg^f%3k^Kabq!)o1x&dC1O`HlDdknHLhi+OE&W_qdV)IHw|pGJ4xY5&N*
z96f>Z!RS)3d$H-GE_w6G2a(PNFMMNX58rR^D%Lg4efQp`!=SAlHM1ul!iwHD-?7ki
zFSMf=YE=h0pS~B`S`0-V*|=@TdD*{d)-`u*!BGr0&7YQoF{FSsAj9qau|?N%?X$C%
z2f^AKd#>-9ue}$HEeLnI<le)`bsuioTNgw3g4?M`-8z_%>teIkVzfhb2{uNzc;udc
z&oBMqm3nG$r5Rq`tE>BEDDr9Trp3_W?=9CJoV65#wX?esS84(;r6yKQXW1lr>I)u{
znC67P^{iW&=DGH+mHj5p-=s4Vs%YSs2IzD=N5K&a+!P$6U^@lJDL6p^WA+#;cZgnz
zn~;7=!KV~_PC-Ro=$}&x1xebUe+dA(&<6(&{+esCy5^@==;u!V=k&Ak4c=_syAb{`
zatn7_0p98OS@%!79}&0`;(E6{bT?a@G`;71yBu7<Vnqb@2RtCi+HR*e2iLM?@sQlS
zbHz!oE=@B!FUYkUSEvHRZoX94B|Ezw`6zBbf1I~A%^z8Kd9nYFl{qx_ACh|x%k2Xz
z93_3+|8eH8cYeWO#)+{(4P!jULp(A)kBILo*O;pO7+jUiqb9-fo@vM|KvxPKs$IQW
ztLadk(4pD{T&u05RD-6oVmvgE9%vw)+6CUVN>^1bP1kV+FVnF4*T|u!uF<;aqO#DR
z2B1H6<1%i=KCabwwPlPTh!J>%5VWdQqP21zW!hJ_=o1-NfRc1M*Uz-C0SGX)igu5D
zU|c%LZUvn<3DWjIuqe`f3O=FWe^T%(1dxo0kg8YL4--U+E6LD?7-}#gkp_?bDpr?#
z1)w@b^y;UQSW4IAD|rJ<Te1efObXW@2FkyI0j{D<=?ce2eSeiTsa>+A%d^x+_LT7;
ze3@`q<|tS4lt($kAXUZznJZiLE2(8muAHdL;I+YvSL^*L{Z_K*qm&`mLM>?-RIE(b
zhP5%)0V+C&e)SpNM*j&lO8=RHE(*3$z_1mmtdw9jDbj~@gtCj(?5s*1l=1H=AkCrl
zUnqC&NOBBbf9zfuyIzgk)r=2-hakIh4X#D~8jkeekYBeV8(mXv@T?!ZkzUz~tXa~^
zHl?B3^kCUCH&F67_{_mq=*K=SQ=_T+F*q<6e6hQ}*ped#Yfe#9m)#FXK_70PxKr~{
z?Q-`~7;kH!czV|b+iWW?*g!KzWMRQp*f1b(7(j9>v)vNj^aidSn>kkSY?nRTA+b8W
zzi_DPDv3$#q-}me>LeOK|BvX_C{tA7clA?A?ks(fqNJi?>%xePj4H}?Q;hUXwW`8?
z`5dlNS+&qqk^&Yp2`6wkcVm8JUu+?^?AyBJ*jlEJk_^Q|Wu4O&)N(_;Zm@bhcqa=n
z4yR?rqU&uSltO=^l2o2;F<e7@7FpGqdy62W$&#)kLpVia`O5Sf^<N&Urrl_xA@-sW
z6mNd6ejTi+uA8o+Cp>#)scrim??bZ*_SB=#vtO7{p`0rb{O_UM6YFO|1Y5rs0j#NL
ztf*+Kgw3$3=pH>VW5YnLPKR0ge~3|!-CqF$I%X3?y-{rHA<IxNFb`}Flq&kB)+D~8
zqb5#8zdRjJ=IEnYp~H<?ap1~=dh-m9q*FhhDs=9ZJNJI%T@DOF-&}IcCmEpfWK1BX
zT;G@@Et)nkBpFYoDUhH;9OdbjbqU4NWK{GIFf@@MT;{<k2aJRCg@|5YJ8$Mfl0G6t
zUyc$pFrh@ztcq&>fgobH^ogXA&_vRAt)7@jmTRi{%d=N5HEgH3BjgE9eSj{l6}$RA
zeD>C}g|1_FyN=BrySaPm)al1obG0jP!{qvF3cfbk*EYWcy51#67dun1_zcFXS8<X`
z&4emn0h{AXD~5pewK+_D&hNKiGryo|q2QlTEc1^5z-Ip1VhNMo+*^kuvSKyYyB>O7
z&9)^=0~|KL!5`v(%>`5@6hFj-;%8+&Z{4Qzpa69q6d)MK-TQfXoIZ5B4L)?m3b>2~
zrMEH`lwMb{pcJLMZt5&3#Wh&rH(DEEo}yO3s8sduoU_Qz$Rj&NRavdwYcQ!u(RoyW
zDvL@J5<8&yhR5-FIrf35OmE`sFyr1~gMjTQJ3fwkv4ja!^HGp}?51~YtXKb}R3ar=
zk*v7NBHpJ64|8J&W=dn@F`r+hicH*e4O_kO&F=Q9H-H;i3Z2^|E=tjtssy-eN(nTV
zk%$FR&Evh=msCjS%XW(5X9Wcqx}@Y;U<HAxqSZUt%%a{4G=VSVNyJ4c9V|CvAmaL0
zpENsQZ|QSc>Q|`RzalSFKa<`=y;0rzRax0b_Sko@*i~)y^H*J8Rbn+~LF|aq`4uJD
zN7l5j@Tu<9Usb<$pPrFNx`MCX&hGz;`c;D^X(-rd2umf2oGLw)N~&|Lq8&{+6rao{
zv6)B@qpD!MtRU_gOp0Sr#E|r;bQ-%uUl*j&XZ_;i_^w~czmQ!H$JKQD+#Wu!CuSrv
zI7uy3hgEGTN)fFTv{A5*f_4fRqep@*BQV$;itQxBLaGzuDav!3f<LE#p^iHQ?WJH3
z0vM!Kw6#~lH$0(F1WqBTVa3ez{O9c)-|-0-`8&?@E3RdUYx#r=eZs~557++*x93+}
z-><mmKjGGW!tKWE7bXjDddMO8+{N)n_)oZjPq_V`aA&?SnGxsU_}>4`9sd=#=?jyc
zH+{h&cv#K3!n3a~JDacC9^2aaz^v(p^Sbjf2k`MAwEBE-_AFgydki|u2OsaZ9pL%S
zx$5`pZ`MEN2wpj2;!L%VO)r}Grr9>SuJ?!|_>mdWD=hl)dCP9Td(QN}^QLot_hQ56
J9A4S@|38Cy%2NOU

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma3_mm.cpython-312.pyc b/model_executor/models/__pycache__/gemma3_mm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6df0ea69657e2a91de9b3415eec8cdc506b68e80
GIT binary patch
literal 30048
zcmb__3v^rOec#3VO#lQ5f^YCmh%bqH%X(N6^_FN^lG6mXhfu^N2?-$S3(%4nuu)of
zhMcsf+NPq?w5HQ+rWSW$x1KY#%~rQtx9s%n6gN-`^iEm0)qP~=Y=ca?j?=TA{r=y*
z7XTs1O4414-~I0Qe*VAz>-*zR9S$ppC#wHq<e4#!`%C&zAB*By|B9C5?r<+~VJ@tR
zazT1)qnemDsEz4@x|lww*HD-)YKR$w#+WH+ikXAvm?dao;hLy5Xhpm}YK_@~HWp@x
z+GCEOBUTlxiaCQ$7G{jPV(y@u`AyO4m?!9Aesi=YRvWBkeoNFFs|(gKzcuQM)d%aD
z-xh6%H3l1*-yUs>H3yrS-w|zzwFX;b{-8hB7Hnf-RnhiXN3bK-8SIR81-oM1!EP4r
zjP}HOgT1jpFc8}k+!E^x_Qm>x{jq`IKx{BL7#j)>#kK~wvb3(~w%BlRnEBn&?Xexf
z9n4=H-5J{z+!fm$+>LKfxF)(Mwl}ypwlBCZ_Dt}Z*#6*t7G4`Y5IYz=$o$^uq1dy*
zXJdzhhhs;AM`A~VM>U+5<Lmg5Z)oH>2p-dNC%ACkYh2jJ@A`&L2|dn2>k-;e5_*C^
z&Yze!aa`~uZ{bgc8}}nQOWA~!&3vGc|1=A2L1-&K%%84Dx<cF;7UxG?8{b<Ncb3Jq
zBd&wDUHOXKno_q=$|(BLeC0Pw<77X7mOss(dACzd$x7@(iQSb;<e%a9^ZUMGlyiSW
zDKL2ch9=PS1Ns^b=p^&01TTzTj`EV}+}P}FWO`CEU*unz<EO{@fL^j3o}Qjbj3xN6
zq&qx)Lo%I>Q2MB3xpZTeKOBvW#RD2iJ3Wn}>_^5D<5S1^vBaFfOZF3dEH<|N=*;v)
zWKwd<U+0CHaXucO5s<02Ea=R&F=3KQvwkWXjmi1&<vKDJ=SSvZu^Z3LCL%M_l)@I7
zjwC|SnaN3>N|LL(aPH#hj1a?j)w#K7B64mf%tz1gHz<SW+zV$fojUj2$l<f03&&2J
zx_IfrXVBtmHQ`uvWGpc@5*bfOwZ*XG5k4ALI#3cUHx%O*i(`a5r($E1{IS?&J{-pA
zv0x>z&|5js!ctz0%=2iE(n7gnxh#uRM|~|u74l2f6rp@lCDRi#Qr)J6vDw56vtdkB
zTxx$p#NpZ5=#2|}992to=c8le{M1Y|%nQnl#aXFt)Pk}u@UxU4#!n|CyBs7JFL_G8
zM)<^7BpR1$1vz~vF>{rl4#j98@HFt=!t9-zo}Ej?kIY4=N}7^W(^yF{J{&=#FY(h@
z6!Cyovdi9!$R8V%Y|7Wv*ew48+SnNInqv0~qaK&+7w2YYXM{xj?97G3QnmV3Oe<N{
zu=D3pz58NhG8&ovR3wfy#g+<+b|0Qg%=`==nVh0>#?Vm7p?uQjz-I$nd9PxDh6H{x
z5=R&Ka41GgO|r+vZd~R=vjRU6xjwFJH}*0sAM3vg&mE5Ef|@WF)Z%#11a)C;P|q8}
zS^_1!F{~rd!<%^Xm1-qd$qS&t8rFvmVPn|z4ZR#Oq2|;+HK$nxj)goH%5%dSut{Ed
zJF+!;K60Ip$`dwb!mwNYct#>v4K!Nuee9dU2K=-8{G)SN{DOaG!apm|yFUSt5%u@Z
zyoz9cY<$Wep*`X+e$TQ+=8sJK6H|PlG{65c6%Z%{4EV=OiyxmFo1W&Qaewdj(lk^1
z{3qF*Q4?5otQ{q#T-)dWnMgP>^~401r}z08^zz5CJ^fq!(}g~<rpH-fl6{s2CiLo9
zbPoGWp8yDyG_yaTvqjQONt$bt_VTo3L*|e&6r&hfb0{=D7UM%9$r_@iG8ZMkJrsIn
zZY-+Am_niO%y=jy>_S-rtry7|3Zc6Md}+)PMSxr~BxZ#1Daj~r451fc_qcVq+>g!-
zC1SHfvys_>1RyD&7`Q&Sd+(mByZNDL<nqw$jl|T<^bjrGA+}ya{B?dD>s^pP<3p1S
zV25I{!Py(a4wT581MtMp!}$g7k=AT5=WDpG?KekKJ&S{)wJoC`UaM|gI`-DtyJzq9
zt&ZQ{c7Oc6?U^kn(oHAC>XRA$$u)Pw($2T`-`#(&arIIrurJ-XPjo-?K>v(zOs!(m
zUcn*Ep7kJJ<$HzKhc#@UV85`{Zsbi@TuP3T7xsxItfQTx9+t|AH-t58#Tx@Asi9=W
z7a)ne>Lojy_7G2CJ<cWthg<}I6Owi+J{qtJG%mtHat@JGm^a}tebQVBN60x!4o#CV
zLJsTnaq^v1o#)_*Q~qDza-GAaLz}B^%$Xf;+Hcwa!t7ZbS?XNYXUtuBoyOAhNT>4{
zH#nWaC>KekN$!#!$sO4=w05MSXZ^3?6o)pfd5t45#Oo)tVcl!`pdqa1F|fQjY#^LS
z9y-Js5oZaT0D{cCjW^LmAf+8C9ZDKw*n%`wVJq_5@JDG`8AxZIFo*4kbpm`jzN%qq
z<Ty$x`>G1Q(wr{2t_f?{`I<54eq!k^lwOURJZP&M{+b(xK($mO4+@SgLOqnzb6mj^
zX*f9Azx22MESx)BlDmR;`E!L*lsyRr1Oo?D%Dc$j(-2yv8&6!99N2`Rsfo}y!+``E
z{(BlpALpYJaZ2wO*h07n?|gfuRt|0|;6<d1*TK2T<(!^3uiv_!b#{r)uCGTk&h2UQ
zcD4{C<5h-7ZR(%_nQZu5rzLm?i0u=)2%@F@DRyx}6XBAYuWNoubCDCCN4kJcxPX`B
zQd$Y1E+cn>gJQM93wQ~if)l5L{YrN~4gY-CCv~?_&_AKPEpVvEy{UxU=U&m-`);e~
zJbM2)oV59<(s6+Y;yFFKspnKNn_8mT?%=!)a}l&ZpdFPAY>Ugg@)A{4oD!*yx)hf&
z3Oe6op=cx)NyO*-pV;mSsmG{PnsqeaRku`=`h42lA~)7j=%b{+3LJI3bafF3WQ|V4
z^SbeM6V{}r(wcn3i15;!NKa33(hyIesO-67E(^ftyP9t()4!lg0vgcne!~>jB^b3!
z=_j-)W6FfRrGL%7pigQ?xHk>s+6XtUeHn{u!H_gyVd;|wbuavi_Dc>uViyb-;cA%g
z8W%8(0{yCGh$7BfA;d5$dC^J^`LqowpE?Z9rs>q986Nzt55oDf_70a&_8rIF(k8h=
z4>U>5O~Wl+lA~TM;7eVy8p(vI9ZMvHfL^$aNJ)p&Tyo0bzAz~Qn>wn^@4tDIZBxkx
zj4wVDeU(S+<_}d|2Za=JadIyP_eW>O$D;9rgN5j;*Iq%<@eVjYyvaSRu3s8j*`BE$
zN*&EPt5cuLc{`Smir(Hu-I~XnI?Yy0z$i>ma~+`=kHcLVA)$)GEQP^TC?j?F;^?MX
z-i9wDp+NhIZAf8~@@cNJGUd+Fk^n}B=h<iF4%ZgiTiTuZEkAzO!zeQ@!1?$lm$!0_
zo!N%%V#D^7Gv{u|x_d=;??ZcAuDvhYzEf=9nQcETwja(Lxaz<<r>nN6jL1{py7YO`
zH<WVZ^#)7bS1<k@hu5Pju77LBx%J+T<*`N0?Pr!=`IUpBt8Hb6=-iq%Z~gc?&aH7;
z_J8DZ9q!O$Pze1DT_Y4wJ=v!i##mTfw26p$!?v9tF1DQRrVDVgu)q+jJSr)Tjlxyh
zeo5UFAkA+TH<Ui9mp2qPi9W1ji_!?6p7~7h8JN$UG{iMGjK%GHMa72Hs__Qque3=6
zu#nVVeF>BL3i;--4U^`p*v0~tqB5hn1i^mxBnUFI=L)TyvIk`tsSLGz_5Bm%XKe_Z
z=TWknyYN=QizVS!D-K(dmcpjB6kD7$m4=6{3)bn`q&BJfNB2<skL;n+hNtw<x~YfO
zLJzH*dRP*U9$G4nas?U?vt+3>OAEFiy9900TCoIsN&9R`yV~xgQC(9>3vvRRzzJ#_
zJxK6Ta)xI>>`a4J35Vk2W7ASY=@(c5*F!`PjSDlg@$$IHGz$+A(IvHS&WAXGNFT5i
zLSy5J$g5xz2n05TI5`AWgakRXtmdzNwyYTkE(vq|XZ=%SaesX7@(fr<F_5Hy;NX75
z{WH`4Pi^yG=Euk8;-E_>hztek7n_YnCL(;;j{^dn571pi(xTpJqy^^aN9yq4-=IP~
zYlnV7RSN+)pa%%85n^y8qs*9+>_Eh(kt;L<UYewfMW!WP1pE{|*dtStVIn#+BOrL}
zx}+cHBhi3EhSbwk&<r^YX46Sjsoyf0$%Zv_t@L9`vQa1-REjBnOvP#YGZ?QrGNfmS
zYGIZ>0T(T%K|%4~0UQEguj1^rX<Jjy*Oc`Qh`xag!1bv$`WhB}!#R8H2U>%pYTaP2
zw*rjUaE-m`-o0YOJ{$vG!|CnMiCyQ@=Jrkgfqgmq)<-(+pfzpY^2p4&T63P7_svyV
zbE9Z(%xg7{<C+bf&SK5mIeXnw|95QNIcLMtOQJK7?jQY*b2L}yd%vOiq095DBX>^U
zKE3q0^uP(R^+cxTWX5%>BzWZ|v32kLqhjl!OwF?y*Wq=8uCXe0W&?*+%hK3#W2Rvs
zb>?A1bGl{E{k}}Y@zj}IL*uP8YtF`{t52*fnI1eTww}z?oXWUP7b{DyT>U93OPzV&
zTmRM0w*q$q%V$>m#LfemhJzXJp_J`mA^hy>Gh*k#Ov9m!_t})~eOp!Pb4zD3w%&B#
zvG3T9Vd&N{I4=TiPMdpWY(gVh3UevEhRH0PgtV#Y>|`h55@z^y8_q)gQ_n)2aaR-w
zkKBdl4I9qUhNR{T+NAcT_B8i%8l0I#kCZ)hekJulLaAOnG7@^V7mHta%eG*c?hETG
zorWpfga!zyxdd|Q)DvffQ%`C&WWg9V+_L>T7d9r1zs~)Jo{-inh0{^4ncQ18^hPC@
zi@`+%6K8g%6Li6xG+!y4ZpDmhI~H)>Aw>nK&dz^pqE^jw#jE;?Z=8ySGXoIVG<r`b
zltBxc0ZHR8%qC@~u<iI;Z-?_`%^6O^h}@Sk%L|%Y+F#S$(P+3Ynf2Ta?zeT<G>o=m
zWD)3C?ci2P6Ot^KXCg9hH%{{dq*w+Vmi?3bG=F_oI5@wnB3ejvl#G25hq#Ce7xHCM
zT)YO(5C4{M;dEeBJaF#5=G_2ZAFtD5{CT@mGv9a;j8=an&H(j{5Sffj1Dvyx{qtM>
zIDGt5lwu5j@tGL!XMhomNCZb`{WoUj{BfQK6enoz57=dJ{Y4Zn{5%{<e`N;X*&vKf
zPeKx+aI+=P#9TD0v_Gy0MT7{Yw@}Ak1zvwy#V#2RE_6_&6BIr_o=}+Kkua)bq;PSr
zXvZ<|E?MQ#N$}SbQnd`tl@Q{j$0ZB3B}DCzD>lfLR+S_QMZyC0gprymV8>fQ<Eu8$
z!F<P$F;Ra=#cjaBl;m9%;d@PUwx&m{=}B4EY&8V_JuPX^mX&0B=tSCnBJDZB&VwzY
zZ%eMJC)XUvHFV@nTz%g<r?0O{og%<pyQF#JV6MLX*6Fpj&Ubuo`!a#iZ@uu|-UkQH
z!Ix<pP1{@6ss~mgD=+3b&EBoKtw+*BN5TGbAJgP@oTCo(L2YZcrdzD(UcRv!$PPaz
z4nLQvIgd6Ko0oIdXI&klt0Uv;N*QwXElW4Dtvf{guiu%fdf(Zebq<Tp;nltOr!&rT
zY4bS-AqzW*);qx~dau6<=O0BG5R}uEKskL<cZC*t*~91rEn(3~gMx4AMumThZyDXt
z$?KObU6;HRus%aketI%71yZqWxiLh7)|^6Mhm^#ONRn5Kyq{}mt<b?xvb^H+fhVq*
z@}z%-I^q}LJP|FZ@yYX*^L6CvyK>%EEQ;D5EQ(rd%0l#ByNouZ9BZ!nrNg%!%gv&5
zFl`>(JS(Vzqj6)iLbxDi<&$YOI(H~_*^|_SHB&`O4X2dMVP4QB3a3;Ub4Ife*1oG#
zabmz<{V2mie=v+9A-OWjB&B3vbS9W%1&mN=pcMKNLY$B~$*~DHj#GDNF65bLEACpt
zjzPR8rXW0sCqfglfHnS9i2H<mKSVw8({R9*qS*+DHGxb`ANEWM%9i%+NZ0LL*J&Bf
zX5{L-)7?iz-_ev~!^pYnm$l0;i~iyJ?GKy>(&hs)PElLV6DP)|WSqHt1;9`q4eFzC
zl^j~z0w`CGF$*PKoCjhYh5%L|l9wUU3^Fr_Dtv{)ev=#;O5y9|jF5AToa5vW7o9ml
zc;Z`txV*-Fpw$?5<c%7`h-SsR&e5B`T36~;J&;w5{LYotRxxmxVp{XY8pF0VPkY{g
zcizZ3s~0<NP32AWW#+6^sqw|_si|8n>lO;>KdLbVkjh)1H!-i7t82(xnAghHbSz&I
zJ%PN9ecL&!W8J~Lm$Y14*9W#v!zdbp%u73N2lFQONd+v8+`f{xuul{Mj^XWnc{#DY
zP^N=LS8>+nrHi7aZQaSf&uZL;A*DU!lbb`nlGf0t+!*q8TMP$R_ik`_$-_t^IF7%<
zqcRZIX`V{u1-y=j$WrF{Gr0kn8sN7ZEnFC!d<Zi&n^G9r7dVH6<b?GkQ$Q|~2bf+n
z1T8o80gL35VGI-WZxR(t7I0t3XXd68ap5z_KVFJt(t2VbAjw(?ZYSow`~lNft8Uu`
za0x4+sg+RD0@4P4XeBNxc%a~d7Qr*|=NUB$NwN;xSJFoyr!Qg}0fP(y{sq!W)&l5^
z%XHqaAT&-OhhTsL1lZ9XCf$b+Aqew5PZ}g9C@3a0U=-r}P!_g$ZOfgPZ@;{}d*yJZ
zb}(gKtMT1Ab^BDdW>Bmd%+zd6Spb8x-hk*0q-;bc1Vv|0+T6pI#HeIaP72A2Ss*GJ
zqR4R?b@id$%4Xm`JOIMlr_O->C!c|rFy{+~1!GbtxG@(M=U7GYr@`W1Fog-+Q`^d(
zq#+5$ThatTuJnS50|3fPW>5GUatUvf^Dp5@77|<wkuWqG^uoIo{M+Pwo#Naf0@U)*
zvqLkka$Hv_4b8RiJLIsE?6PE5VMRKWFXiA+n9zmF;zgFMx**)e$}k^L_ZU;zv5#+@
zk~N{Eb<nc7g2v!<wsYRr%?qP@%R7;`BiZif#qQ@b-4{i3N6Nk!`|mpsEp2&g@b2JB
z-Ghd0?_Ekc0c9LDi<h#sePV52&fA`=>&!KF<r)Hc3+L@$=M3Jeyw2pZ<~ftaDnpj%
zQRm|#Q<{L1!{D3rNwQplh#-O1Q#p*kM`7eZdyb1w!SfoI*BTAIE2dT5>cv&F*t<8+
z;rsshI=%8f?!aNqBa6piU31su4S1vVHH}N#mvu{fL{DelL_ub*wrS~Tx@}v!X`5Ix
zyn0Ej*_)?K0G`&S4I6xNKd9<W5YmbOde;8|&g*3`k{}}>p9&`lW){Eno4yRZal)G7
zK*}0lvj<I(n;IcwElqD=U*=76RtqGdB#WhVHU+xccsn4lgRdf3TadVFco*+x(AU9N
zBi^Ha^EGOTtoAC@UK@6*v0*timG9!ctV9OGCyXq$3#sc;+;vUR2Xx3S)yv?isB?2(
zl?X~kh*qFhB$<?@$e_9+rm%u^Qso&8!WR%Pbb<B&gD*{h0bkZY;)4MBx#dW5zlgMq
zb)ZY?)g2AwSz8I7hczmUxUN|+e&N4Xh7c;$zoMRgYIS%65i~{$rBq@ZgtdtR+n{jf
zm=aF4kRoF^SzzO<t%5wwJg%L@3HP!G@XnkxUBSEjNfwlNZfn0(tLGLh3uY$JB_g`)
zsl-GG8zIKkkr;QunzW!!n^NZv)M>+*R4Rw2zU)cbt`II(_8_#WEC`=TE8s27A|AAQ
z7g}uxySh~l;kYY))mMCj{j9)wU<?RO8p4MC>|Ky1ny;yHMH}Rbrcuc#Ltq(}7pNtH
zvdIh$w`72v7J6LOA&BInB%CkG{0Op3E*YK!vVyBE#7P5;y-5a4@K&b$Bc%K%(5MJ+
zQZ5}RFR6skCe&L#Bp4C!^OUf7s2rgzMsS!(5wc1~3jTnSe2biaOU}QeByOc`kU-DO
zB}jcvc#p#67KLRZEiP#yDi4CHg(_TWub^%~ZF!CISwf-l=vW-OMDZ$oGekpmZVC*G
z{$qrzLhcItc<}LI>m*Pdfb+wf+(s4G+<y0j*t9EWug=*$;Qi+8-gS$i8GPJ&FcRuo
z?p(cnb-6d=?MvJHQpeM_J!`I-tgB0Ob!A*V-*>m%ZeBL6c+;(0GwyBQcQ@RwU)uek
zb9ctQ2XvyNVZ+YtJM^vidj~Ryo`10S0_c;*s=wHKVfFB$BkSrHUHvQ1f7dmX-g|-A
z1HL?mXaM}CT}wOO+Ix3zwsEIO|Bu|az)78b<l>rp*Bz$%sz-MC7Dw_n&Ru)Qa@&%1
z^@y&XoWJuO>)X~`Th}{{Z#U*zwxA8}-VZswyBa4$b8p_kIlMUL>Z>+f+}54nOx{c0
zKb09e{%yB7bUJNsUW$qK{xzpRZT5fsK`Yww@ds8UW_+4I8upFo^?%&Icf<lMTg+I5
z=|@W5(#fMmCj-gK`T-9yTfn)Vfb}Mn9f$ozM{U^yoLJdk1vsTk6fmYDJN1fs#+Bp`
z10z;*m82{{zGBjFff@Vbrh8YfLJFKIhEaL*0`_xkSA(qHNq)AaPr(;3$ru^iQwAPq
z%njikN<sWn$vF`n1I3K9hlxYtl8I>;@?n)4Ck+chB!@~Yqrqz#EWjK<CKL_F6+NE$
zp(h@5gB3HJrX4~Y8K7NOuFiiac00Cw?ss?on`eIKnftH&YcTVVfNAgaJggtg)*lq>
z58l7_ZCj@P(nH@s*0)pi?OdJA_ztqzU1I&N)oYphLmMVNVOV+v!;;KsB?C&51E8X0
z-IUHeovZ9D{bhJw=U&&mZX{)(Tb1>lXw1u=umNX>md=hhjJJ%HR@DL&^b$rj8`Buk
z09SxM33Nsb#WjEx1Wl3RTu+ixj&W2nQzyXCyk6kHQCU<V9fj+D4CR+~ceq>n%0xh-
z(CDHJeWFPGX^IOxsVSyam$J}$%TP%*rs6@*u5{ee6$y!pv=IyPb!xW!KrKbtXbajO
zzkHxD1f$Cygc62a_MjDIo2HbQnMP_^o=As)Ol;EG7_bO`LIFN<=qLj(8tQTJ#2Cbt
z^5OLriuzCFe2tv9;efd)k^en7D)XA1F#m-@iJQ;PGnKP=Q`MgF66K=s)k&)yJB6+X
z%%6M8W|Hy7(44H>UKAiyF7C6m)$XDZIE-?&&Dq)>v9<@gR}UHn9t<5x*B`}+;jKy?
z-+)N5VX6B;`_2c>T{t0pO?PhGzLBjP66=Nl^#Sp7Ev*FbEu3#FNE%;to-+XIS8)yg
zZ2h2EKe%!|Q@<y5I_Igov-kGitfx=(^yQkmvrYYCQ-7|xC)+$IHV@_+x^ZUIfGX10
zRAIY1s$@cf<_FRhGZb;hqLIW6U;|8LSF)81k&Ln!O7Ms;((n>8B(zZhCK+{LgU(=B
zj-rT>ApAFSXiDM)(m(rII_95cN4(@=Kx*^2&JX-V)9^Di%okDcj~FHC8(vJv<F`$$
z!~Zks9jD=@?4S;_-hR>BpR(okHI}M(FMh<~wK2#!T5|RNTwQyvX&9i)0gBN`@XV;f
zGdJMb<|b}B0Sl0<3N0z43V_3^RDrs&8UH{Beoe)buo9m@r2?3MumUAeh=(9iVHlg>
zW7H8acc}5xj)J()s3`eZi^>^E9RzviNo~?HSt9P-6c610De;uwTAClFLVuT?nUco(
zBdyi?Bb^nF9*z~e_K(mWsV0PL3{h~CO0Q|K1tu%278J<@IwFKlII8f9A*g>zg~;k=
z0Mc<u2ZahImlBp(%rt*38ky!p+aO+6yu(HB_M&%(@Mp+SF0oRO&>tXbe()1kWQ9)r
zEG^0RkP$l{())(iyLFK7tWKm4K9{LKf2%5GS=<h$M{T{#{pu5I`Z6^G;C^kE4%O5z
zb>2RMV0gN3pOZbkx1W<eTf~~Kl;!=J03o&x?~)~LZ^t`zX5GZ(7pS;)%TE!9hC$fT
zk^0%RxtRe7$${Z3$PYJbhtdJSPVt90?7pmdz3O%6>#o<`uU9h>2qMd$N@9<~`X$~b
z?WVG)5KpRWOy&NKD)?lrP$ztBeZS#?k14Ue;SL*$=YH6jAiAAB#ZcN26Z%wD%9(Pd
z+!K0me>dR-n^P8AP^!pQz$~b&LJCvK-YHP$BizfUIgWPz8`X?LHWVpm+LslNYKwYQ
zL$%ISDMhLpJQ_394JuLeh1_Z>k1HTR(0*3WC937Ifuey2&?*4x)|f1!Db}R*3h8;5
zJ!*f6W`EQErej>sbZ<W+_j19uU{6A63$YG`qCWu$<Ves^u_x)MNU=LAQtT$AZc%d<
z-&7c4{KXK}htPJ_Uwpr7`G&H(K=+?w+Q1Iz1-}TNe!)RpfC4q|P^ft&92C8ERQM|t
zCHyrxe?!jS!jW`<QnDxjd%o~sqDxeR^|Tpo>6reA{uZ<xCIK1|qE|w+Y6u~oB^nO~
zVIAcN|BIaeP0s%zCl5#F%>$p2fs_m{nQ$J>iO(PZ1aLJGfo>cfXvI5s@y9V4+V1gh
z5*XWx>Ii{>2rBX&XKT*aw!Al8H;{G>R0vwDsaxEcI?KSuCZw4LWIO(T3bha67V-&i
zz>&<PY(WV5CdCioONg64@>BP@p#JeK>MwDe6!nj`)8dX(E3bUL7q5?nUql3?Cf~=4
zVV#l%*r@=GlJIq4OtON6ITDwz=>)1}OzD48YIb}PrX=a3xTPmqc*t9DaW%n9Mo3cl
z=`ds52>+21{}H9D1(o;sG~t#2WA*qcU7;Pq59#w`a()CSP$MH^k0^kS$l{SGe27n}
zN?j+o8%f8e{9PDXWsuP!Mcso|0+dmp`4MN8;^JA!(h+u36&04K@DW9@gO!GqaK7U6
zEIrBr`wxiyL^8J0P<)N1Dgx*KGNkYS$4Q#k8!h!;jT7Ei|MkSXN8i5j5qa4+SSk%I
zUmd?&|LcvZs)zN>1#f%b%DF#p-zVBzQYROu{=(O_JjFB)bM}U;y-l>YEe9Uh`wL&0
zw$s0R>{}i8BY!aXV8<zZeb;^(IC;l2IIP{?+a}R9urf_pg6n+BkZ<7nwtlnkUf;U|
zAJ*Aj)<<5hZ;$BeUNkTD=W97fEm%ek-Ro{kT@~{!9^P<*C6sG!c`JA~sJ>djhWh4<
z_g)lR_U0O!-r93_j}r5DHls{LbU$K6a28;`HK<~pD$8?ri}m9Vv?%=J4IKjF1a1HQ
zA;+;E^M9}(wjXPE{fW<jk3VTAH&9<LZ@)^@PXxd4&&aWn^T*^6FGToravI4Yl0cvX
zMj+TM5ZD&}2RVOF4x=v!^y9AK+-#H=h)pXHPA2%tp~Zu12r?^ioCg;*bWbC%IxG%O
zrZR-zr=;X`(6Yg;f9{7QtLZeft+_mT1KuFJaPh&jG_lkuy1PgU-Udkw6V4cyo)JAg
zBnfW=$ApA4%ig6kVofhe!`n!P?fnpP@V5L}jSZq5Pix+QHwtX)UD2(4YQ-k{cjQeJ
z1j)U7(US(d(cLFn`qwQK*wBSc)m?c5-fE_cD`wHZEpMVAGv^z~TgV6bPxWHIXlY%y
z(dVe9-OvJt<>JNLmb?Le<ZjxYH<1rDIa7(nqqlCP8}_H2`$fxv4=ogNQnLls)io|1
zy?rBZfM3Z(KDl{|;dJA$=-r-nZx<~)KC&R@5eG-66=@L1@mF{V`J;#3<|-FDf#pJC
zB(Ph8K+<?aB`rpFg-0JWG0}~gNQR1{8&cbVhO$w<zP3s3PIwr@L4OISOd0(J2|LkW
zDz>8Gii$Lqr07MSP$f<ySSl5`iWONSno6vZN-0&UP{q=cT*$%(6i!hA^CzmgQX6U0
zl|98fR;aU(CqbK%Jx{2!NsTYQpOCTw#x{=`D(Pu~eYB}o0s&=DSUV3Kz9eS>X9X4Q
zFH4M1gc7+}_E7EUt49qkSqr^tSn-WAx{F_`uX1Qn6$|Cps%dYKS{Ck?>G;{WFo#em
zX4$SnfgjhliA^OLaVH9r{D4<J^>H_w-9HNn#O9VP=f?zG)rO8JySytIAUc_eOO98W
znE-_WEZL?a;V_PJR-lbEGt`&{V#5+6pO_c4f1ocBy2h>=2{e9ERdnnI?z~OIP(=t$
zlw8OVpP5Jy3d2HW@cTVVYh`!H<yzdzeew{5SF+qk@*t~>1C<0iOG4u4r$7u6Sn+su
z^8Cz9bT}-T$6lQb&B6~(`U|K<upxmAy=g<Mn!SPx!RkeTO@bg9Dh#UQmPWcb;T=F&
zADSJvOrqKMz})cumi}+{-|K&9cfWb&)|s5kn{{=HuFkA$tLWOg+MOL95r;>z!{^1}
z^I*y0c7RUbXHDrJn0p}NX&Zp}C~NnNc7N914;cz&I4%w!&knyJ4!^LW)3&j+&0yoT
zca@~=6YYH~uV#miibF@UL!%=8+ecA;J4@cOVdVTB%e%522gHs8_v2#6kxc7Rs<bKB
z*qUwJCN^$cy_DT~O2q%hQxxHQ=xcb(e%H=)S$joa?`lnU+hK9rVYC67ar$3$$mDvJ
zvOp9uU1eBF2o#gnV6@7gmoWGX+6CfKRlL!;Nr#D)*6HLfdq{yEdxc<g*;6^RL|$&F
zB<)rqICx-OB^G$`rYAIWD$>(M852vP9$Y1@+te>3>M79G#Y9P?3WXL-MfrIpC3^7H
zD$1`_h|kpX3Gpd=k_D~-4nru~f*|LFSK$Qg5Ezs35iq@=8y=sXi8J+Z7A7=cLM1DX
z$3$duZe}hnv`~PFWKN(k1RuU+Fk-}wpV(Yf@UnO^8xext9E-dGTUjYgF2(k`Om|s}
z`n*ydxNOvjaA@-~lWJ)rR|qEX@_4XMfk}_W#Oe4ePzu6ve4!UJ0`4z`=i4d}c?t|r
zlKeF~5GVdKNY>8bZ08;k|IKYF>*C?X`L*_~Ss?4}`(PPjEYtpM+T5CJ-z#7Bglu@p
zx;&EY+$VPKyFZfMe?i<&GTjbHi=mInb?nQwkBIFfnfBudSc5dy@wOv9cr4?`cXQ6a
zGwVMf`VXL7KgyK@4vGFl?`huKmhm4$5b|XGJ4OG_^sX}*|5=2*-_iTd{<rt%Kql<S
zb{qi=K!u&C(2ojTy;<jw=p0(D$~X_D&4<|L#ylNB=Spln(8<jJWQm1`L7Hr`l_HpF
zIPj-p!d40-=g%mj4G|0zt}$4bk{@z-<@>7*&uW(WccO1cKjO$QBYu<zx9EQxIV8KH
zVa9~S;|M7{4#l^=ilcTjHW<`RLS^M^8nT2jsSO*x3QIGvjKQqOKv5IwLtoXuYg0E@
z5GEhOb{JrAz;*^1VsJ9!55_ReDyX0UM#<daY8Y?u@V0ObR5<kv+pK-9Drn~&Vee}N
zv=2rg>Uby0aVh2K!#=2py2JHQKx*JUS1KI;NL?{}!WeEu-r8^zN_#>Y-di~@kx;B3
z`fxMKsAKtw!BX~I87>RJC-CGJ<Y`cP(g>DiE54g7xGEg(5Bn?E2;*NBdl7Euo8_?x
zcRV2l8*!z!<_UYa6Y8-oKXE->D7^y8h*9iD>s!M;PpJI~BU_liUgY+N1AH6b&YLTj
zAuE&7m}8tfcr*DhYFm)A6Cqs~(LVUQ8RgLfU^^hS$nfR(i~vhp;Rs<&W6=}1Rm5(8
zPG5qU%=ijJr(oJbdA};ZEtBBq$X?UjEb{=}Grw|GiMO+OC1$=hipxE7bP=4HzZsO>
zc@?)y%v|Gz!Fey>bRt4Y#-gl5Mg$Gc*Oldl0jMc{EIb&{&)3Q&l_i+>$iWK8R*G+u
z1D{ZdxlpP`s%GpVTz(}<fNWDrW<dQZ#+0!?M>mPY=y0XK_5E<3tQ4Z|cH9ux78OK_
zY8pSMp?eK4qKtXhewo`g1LYLDK!0%F|J-!+hH~qQjSxhabSbM~`vSvnWtrl1Ujdff
z$WqcVL4ckU*+fy;Sps!I;V1g#<Hkes+!7{N2x$8J@Fy<~rr=tZrx8FfP7I5i+?vgk
zwY7-0mZfVCY&|(o*ZWnzbp11#s{Lv6ei>~eb1cwIBzs+wjT!Y)Otl;a=q)f)QDjjK
z5%&Me30@!_n+aZ^aKwcvdnzGjxaFv+q;bH|z)EEhl~VQqJ%b&BPyy{DBrsIS3x#Jc
zR6rIJ1@sDHp8_dZEHJ506i79?38NxT?`l=09F$gQL!y96K^+JqMi1gE61J$X0!-Re
zTS27=r<LYigNmM_#6qhRbbPW0CQ8T#nu1a;7!w_Z7_O4wB5YRsA_RaWRv?rsk+0V^
z6$w(~Jczk*ZIP^fLWvd5IP`{iv+Mz}Y8jR6r4T}R7UM`%VkxLn?K%;R#D(>-=-G47
zUphi5Npq}Z%}S0jSO){kdYo)9#w8oBqQg=m?&U}MNx9PeA<4x;;{@ImYmBvw8fG{R
z%-E4NJGImkREr&!%Am3#S0uR^^kVy8O=UwWVGtDv9`eyyDvXeia2Tn!BDfQ_Q7YId
z#VsCk!uXU-xUf&wS%lM+(ZCumwZ_J-@}Q8R+Xd<x#JOTM5SJokvw@0@6B-eLwysRn
zo+aNoa!!%M_~Kw`sF<$83ulC`a<Sq`hfsmqZ71+T2;OFDH|K83x&xv+kOc?Ny**`w
zW`nFu0v(8^o@~<&v1v!P>A2Vg#I-)>ZA$6CWXm=65{X%#Ya6C_%ll15vNvb<J@m9L
z8&|3_p50K8Xl4X#Jy_P=hwi_c={in1+TU;4L)YlMO<8X*%*C)A>E1mV57^Fw>4u>V
zi=mZeYy?qV*RnLR99zAZ@$RK7;?;{gvYu|y)1B_!_rUfHkY9&8Yi||pty%k4(Y`fn
z-}N2)uKS><kA2rpDl*0BL!$i<^eZin@0$A=94$af3@%5Ihn+(w;VCuHgFT|`R!XKm
zDrTv|k4lhJHQu9>^tf!CAjXKorGb<rOyrbs3FVa-a1vg?9L;w=<@{h-kJ6MjAp1=Y
zI(UmCcb>bAE2Lc+XLr`wFFO0vN++4!oJ~C?Ho6Ue>l<*MeBy?Sx5i;T<O&*A{)Dw9
zY3M|#ltx#Q2G@?hunpr$CsWx|Y5XdlJSEC_bSD+(1kApDRSUSQ%o60K`Y$+2MC;%u
zziU*X=tbNXhst%iHl|kCiv|h%;FPLrN-jVnW;^LJglw>h0aKsCDN4DEQW_=Q?98mZ
zYZ(9`{ui@8D9|cWFSLG&LU)owIF6j3QmV>kAYo-}qE*)2W;RJ+-YG(MQI#vLj5{}f
z@F^?fDfv&(nt1~?LlOq%v6egYx967!S35IxyGiM(>CTngSC*Ss^%?KZlr2}+yeWRo
zR+qNn@@w;3jdvTf^}}NQaJK${SbrdO`k^O4H>Gi3x@X&ctJroFTVK%|gD9e^A?@gT
z=oz3SwH+G<9YyI#cZ#d(mPtkib7_PsqlP%OuuySZ0N0S!4Yx`Bt?&d3#cW2>>Xk8M
zRxsmWJ{Iqy?s?jP$`^_s&-o$^C7tg#xkpyc)wFar0~;RZfQ+CimYdk5ZDOj?-eXW^
z3-$`_Jy}U5tYz|j1HPH63d#JhAZhudSfT)BOcV+(1;T~|^F7I;Q^itBR5pn5R=~1~
zwc%2VvX_}68MV6X0bW!PJ`|(Mp(2zzjEYhRum{FWBgj+skX=}He?r~D%hWB51qBNu
zyCfl7s$_ewxRnTy$T!Q4^11yYnk|gN!5IvrI0+KBlOSE_LYS&}_!1>56e1}$3Do<^
zY=24`o@pRrYtkcc&l(l;*t93NKWzyq=t^m(%d~n{(0FV_Gc3U@z6yMQdGI^7tuRNh
z^s}O8Fl`@%vBa#?FG3HWL36lkb?wUs#kyhItZmB!qIWCqKGrv9>vxOwyK{C|*4`}I
zn{f!k987~XRfV!~H=0x%x2+Cl>JF#uYk{5Fz%ydtnfqt5`$xt7qnZ8Z9|WGyI4_8S
z=a&yJYUmchQrpt=Uv{Pg&x_6rY4Zh`CA%P-CEHPd#HHVKmS801^-L!b)^o-6rk;b~
z57Ee%oq19<(NLQ)$N6nf8PvzK%+ZjN>M<#xVBp$CXFJUEJbuvAa%acidDi478I=qd
z%tm6H!34}Cj7On+6;Odvm;?ijvihr5_zd;+G8|Q6!Hxl1dz+z?iy3PT6_Ha_!{Lco
zU3rG<)OAvsLD#+e7Q<QZK9T;9-2W6DKysTmZEMMSYE!4yXlTd~<w|45xif9vDZ?v^
zEc_uI4-0t3jGGacYAPYEFvY-_d5VqM@lxnfHnd6I7l0uwfOl7UT~xvY<V$f-yw@c4
z5lzy-E_{Ja51tE#mM{#Qz_g4c1H<>#Jw1saVTv45^<W7Z<|8>&p%+<$k3Y7l1!92C
zcRyvhO~_2;&(lDkWdlvtMf_<Sbf^8Pb8EhBOZu#@PxSR=ecMFeHg<sscZmFtOvZW=
zmpAt2E#$Lu&e}&d_+U}W#krc(<|cUttg*59)eyt%Hr-PuAj?+kem!k48W!1vFvwh{
zCRPdQQo(Sg)vCtfRzqRxN+lwbxP@GD-Jl@DfL`K7fN+@lOEUJ@CxL(HDUvR+ejX(E
zRg9TXN4eztaCBUKVqWXCt)yiI2?uWdnJP+ia2t^7Q4cI=D!!nH79_@r-Md47Z1}T>
zb!e4ogj>|S97R7IFlgkMM_W)X4AUj84ctOilFZqujA^ct3?8PL^+^Z*5xQG}5dlO~
zVQ4Hklg>)_Ad8avqCv!B+mWZhoIvB0C#-+BaC>sWS<*tf15x%QooZ<du4EN99zo`^
zrxHtp5Re6T(iO%9kzc^JExJkQyk6H{XNU>r5aTnh8`lylyE%2zE$4bt>XLR>U}K;x
z3$+0^Y@8}8k1@1Woby5-q3>F`hyJoI<MT@U<6#Tc$?BWhMa`G&C9UgxJYC7CdP-7u
zS4ineR@*qt7uG#J3#I8R_1h!w<D|3V%23Xm1y9mmaU?wIY-_NxzchoD4-;TvE1MlV
zd^YCO1AN*?FG*IgDP%k(&MZDK+(|O4W_18si2#+1VgA*~I6to+fF%fMC7AJJ2b09#
zX2M0uJsF+33^p?u9`u_DaVY(PH3MEvNl2gueAC%E$uvDPP09$e#^Re85SW*MYNBMM
zA0~i0;}HZ28FB=w+AtA;W)`zDI0j1;P<oh?tW28$ri`HwVWUKD87pTx1K_NL`RlM=
zLw2+nTSlsigLEPThSv}`a}9P7rujI_&I*jGdXL33V;ZF@$AzM)32F~KCdo|ZE-*ZC
z;T1~qr_@eTqLfT%JLz)@2@0PhXO+U8@=2;R4d<z=e6Vm=EH=r8O)`-W=dExP`6Xxh
z7y@PH82VY}$k=E#7{FjCKqOn3hNq%Uk7xN+EYtXQIKV`!IDaQhB_~C56Uf7cj^(kt
zEm>c`=<Cn;2D83hqHkBmw<qOz=<zNtWISCdGvO5Ghi>oU^<QgE9nSf>mdBuMP-0Fo
z=X5RZSsJ^&pY(wndR8<mhwmB0hC$h&Zl+=9Z4>MrE=7KQaM6^r*Sz`Mt>>0bEJwtq
zq3_za;+|@C8(P)UjaJQz=7zPV7UDxS;@I@%YHCxKhjp!~6EFm_+(ULiPUKp8RxGPM
z>6U$|=W@Q*)T#GdJKy@;-OuG*ZuY+pSE_Pe+~4tM>w3hxo(+e|UzN5u;V5=AXYK8x
zz5VMuSG>P<;DLSHTI-N(ZtMP7x^+jU^;x8YB8IP7&Px2My1l8BId9iW%{LqGHD&|H
zMf~?3M>Fg-zx@1HG+)`aG?}jL%GkSCpx)Vsw-T|m`)h|cM?93<xw2>Vm3s&7x20i7
ztQA(onsRnDt5dXhrn`1Nu<u%HZhPy+yDw&&cZkh9vdu@u=A)_6oU{2m&cOTaJ?{*?
zJ(M0kl4(D>=zNIJEpKmG34Ocjz0W^r{~0-?@9n-EZ2Y_ejl}epecw9vUiTlIBe`|;
zB3Z|9x5?LsSDb(D+LJ%3;e7r)DC(X)DPtPww7DbKwUfMUBCK9IYg4igi4eou-9+OO
z$YM0^9(bNa6I4P?O4S);OYI7(S2YeJ40GUx$P8ctQz)9%yvaoSFQO^xm9Qsb&zsB2
z(E2AuHb#lzPB$YQvd(RybKB}b#t8xavoeNelJ%kDoB9f*Oz!Ii)>i@s@>6<y61N{K
zkqu<(h4Pm@MP)mN^8)-r4TFBf1$4v^(n|Iye&R*Z&WcNJaMHoiU{at$IyOANL_h^b
zUFr8=Hjx~{Z5pS(r{KJ$wfqH*5)NmK(nELq@{WwV7tCU3tvp)GyH|H)x1SQXpTauH
zI8Ud|rz?|PY*i4Gy_CONi3%X~8gT74-431KZ&l&o2|mFLDuM#QkCOOhNf`YqOOc53
zGwMM8{S(S2lb)mKIAauGEEy4Dfoxz}))%!gQKu|q#R?;NlH``JVB-|RX~J$(KSsSW
z>j_Y4qp?S-r!GIDT#L!SM+56;150;1TVy?sTq6wB4CH*>W!I%a0*wZG%hWm`reK!U
zFW-<`sERwhvt#2|p)(^7Qe17Iuobllzf5bx#;htpZE$KPTw>4$KUKyF#M+YODrWF6
zu=;R6op1wLMf)7ZG6I(gPma*%QF0jng{fl`<tr;E8qcw562cU+g;GtBk8meOeF<Nr
zPujZzEfB#-zJE?WTBmFx1TyGaSxsdd#gOy&_=|U9JV{Lj782Uh`uY!yxZei7YljaM
zS>B+lw?1-MTa0Oa!y_MT!vW}ZAINnK=lVx-zHOk(nyec-b3Ni~q26wE=e2snftBsJ
z0Bbm~D!=Y;f3N2E_I*Gh>pC?FYB-`9(R{$Q8m!Cnd3xR7{vo~cknI?&9>Jd5041-2
z31GuO-dJs@%K2LII=t5`4NI5EAesRm`Cfxz%bK?*Z@?R^t82Owy&cV)=!+D!-)y?o
z1hW+Qs&X4HYSwDI^9J%DsT{eaUwYxKm+rm<^Od4y%esk0c54hB%g5e1`S!_oo_qT_
zvKrTsHyRAPR$v4Iuk?<SxGHSemG^S{pVj0BFc2O?^P0zZXaDW}WPGR@#n;rcFW4Pw
zMoU_US4YH_J!EXC88of0`A+h7aycy4ZOKz!jEAQ_?;sx;d|P*tZ_5FLw@@hjC56%#
zj2SiDIdl8Wx`n=eR--o@)~uobC^&DRkCHx$mL}X>q%gbIa7MFya^;29?e`6TX#YKX
zdi#hta7^qx4kH?f`u6s3$N%%5b>`2T&6u95k2t&-d}7Nc@VxLjtTo9wJ`*MDr(`K?
zaP0E9ycP*Qv)cw>B;KI?E&oCeF+|y~9SKCA%Q!4(P{3xUZU=S&_GDbX$-uO(h^UnM
zOCx1HjyRM7=sx+N!XzX(BZtU8k-((;gNme-_N3$`NUwwp7U3PUKqV^!49a%A1ve${
zWXTyYEc|fNAXDaz%P-QolXZLpm6FO}lp0Gv|D*sp88|xS^rUx!Xb=a4uPW^;Hf&I4
z7s<x4yhy=ra7eXfnFpD*n&PE?*<d0a%u>T+Nee%TBQ#Ng&EybiC13gQldp}Oc5*t%
z>4YQIS11VN2F+?0#XDF$uzmI`f($@OJ{C5Yz^}y(%3@ncrRg``gdQrF&P13KAmQ!=
zes?Y|!?!+)>L+J_;*D|kn{7<cEE!l?>?D^#F%u`#p(w-kYvkKO&Pj3@q&-Z&=g7H7
z&hL}+8vu8*n7Ug1MK_f_JtMG{U1o($GVhmX@u2XpkQe{CI7yyimsX<zW~;G(pW7{R
zyT8xv%y2vZlCyu0tNA`RB61_&<3|6AYyTd%{d-);_qYS!qmZGGw0e#95iFW%Ke8G$
zT0ju^>{d7&oDZ4f<uph=@O|#!M|w5QhjvcW{gGDv#7|;aYZpJAv9#PYZWx`K{Yx)x
zaCmKW8Z^e`rVSKp1T^>WO7FQKwq8hc?!~<s?!ty~QmZ+bZXDR)$g^?D(4?`ZTcIy`
zT5LVD!QpG;U_^^B|L*jjv!egp21lP8pEd+E&uW&n?^xcpY;feye;Pl**_+nXWHmja
xrYEOw&RLps?f}kSt#-r8>onG!-uU{dF95q~Ti&;lT-Q<9x((5fSTqAB{|~L>kzW7+

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma3n.cpython-312.pyc b/model_executor/models/__pycache__/gemma3n.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..456987f3bb458d8c37aec824cfbb6e2553512516
GIT binary patch
literal 43914
zcmd7533OandLH;{-%(Xq3R?jv>?i^#kXX2gySPYPwUDB_(NaT2RDl9mSoo?Sk?2A<
z<&jT=ZP_BzaR`pPBgoE)z=)2hj3;6{ozwKRJ(2B9rk;x3RsBMZnOKg~Idd|gz#e%^
zX1@Qv6~za#-O=RCBY5k+`|iH|>;3Pa_<U{-Ps;kM<6pYLaeqcH%HxndtFKr%?kbny
z5~dV4X&N?}$Zt-Wht2r4q|B3+VG9ehrmT~;VH@+?Quay5u!H&SDd(hX*v0&glzY-M
z?3wfqd)d1)<(n)UE@OUI%0C$x4lutv6`U*|E@ysEs$#NoxN@>;xN0&q9AaVKRP|)d
za1HbOQnizH!*!GO!}XKl;qYX`aKmKda3lLxmTH=e3`dyXpK6|L8E#?zK&o}JZMcp3
zgQ@n(j^PgGFHdz&b`5t;Mu(&9y&|<?vU|9j`72XBlfA>e@K+^5sn}%Sa3Awmr#4P*
z8s0S7Kioe#Fg!3hI6OExG(2SD%v`cOx%oYl)RV(o@NS-%Q94-rW#PQ`uK3=QJrfxv
zMEg~9-EQWd;u1A)aEaQaW#YURL-D<b@uO#WCyQB!nDvi|xr@aNBWA;6V(w-!8xgbV
zF){bBm=VNmeoV~0=nq$-<qhsetI|rAwhd|9ADvd|vEe6K9vu(m(TO~|e$G7hu{@#=
z<*@;IbQ|Z9?0e5D^|o4*{jBaiNYiVaMjf967tGPvPbqoSBsvdel6?GhDtR0)=BX*T
z!KadwlktJ6lgaa$ebZB8<7W`)+MCHFr!wQy6r(CVJ2NxQXGSv9{OBtqqtlZ!<EdoS
zEPD3EM_)-wiA49QRBBSqpzTZ&@sm^OX?|pKI+09`%*6S4Dh1DL(|js1k{+K+BJT={
zH#W_`7UvVlc`AciAlNfLHJ%wsO`kcF<f9g`a%AtmlZQ_2J$dMv<0H=>c<RuJlh1!y
zbU&3$&F-B_9Ggvv0nL8`C8a5E$MeTd9G~VVqc*W}-*jqra_U*R4oAnQl5t+FJC@|n
zBol_;g3lc}RT4e$d~zl=J{r#?6LJQ@=civ=8wthwk4~Q%&!nH_r$>`%v>!p`&&|fs
zn{#pMQMHep)OLP)hUywRH9Z<Xt>krJ@^mth7@s<WPOeHM$Ktc8%*boW@iVVbr^FLU
zUaXyrUpSo{;ggf`nUS-vj-*H9spQC1e3JF*A#@}^nM{nMvM1Rnq)|xt$f*;r#Cha<
zFrLml%O}UiQ>kOgOgs_K#D7W~3L^PVNTZ!*bw=L>_s(Xfe~A^IJ}MPnfl=b)qo_>$
zLXsaDpGqXpi`C=lk(rs1$?<d=C9v_HOrjd1XEJ^^DMd|-Ua8(QRQUN(X;w>anf$W4
z6*c)LfJ2fSHYGR!1k<o3VNO~TmZU9V#jg#&cKkY$_JlL(7%N-g#!Ly<8{T1O!ku(Y
zRO+*p{0Wb7_?R`}eZxBJN%)MvKO$Wj(s>j9zjL|(()kj>b<&lu6TV*k?THHHhaNa@
z8up*yqLrdoUeJ3}nHOf_|06mRz9c_|$v1T-GCPC8PNpMW2%MdXx+8c_zLJcv*byw%
z*;F#}8XuoYM=-=wX{^o3Bp+b|osO}nFJtf$<D;3EBk4?XhSH3WjU&s<D@m5!_|(j7
zCX$(^fQK{biNvQ8?9<Dm(>$M4^O?a?h@WAVqlDA58DzsUoE|gIN+}~fLn}UYL2g_k
zk{F-Fq{muI$5;j@l1WsPPe#V4SWbL0jrBkJN@ONJljNUZabC$}X3|ge^`RQ0Nwjb3
zOgc7|oaM)7(y`IeJ{EHX3nrPC{C)i!`v>|cpl_^y<IuMLEnDKFn@5wIHz&6whlU0R
zHg4P$AB%52eR`<(St_QN7JiaXPK_pGGl?-)sOWiRJdsFFvF%Xw@{{S2DRlTqawaVX
z;xs}dQ?rv;VCagp=$Ar9r;}qNqp9&3B??yJ_^Zj0@x*!2dyaM*+DWmIi*|XLIduzy
z`~<sKfk<$_VY<p`Xuu_Bmisju$0<<8#APj6ZUph9Cu_r-4EH%MYsH%kmpCrtQDa%M
zmV_y5&pLh+7~OZVd~aCZv&%VfBeL(I6xKP^OigEdD4l{i>Ps@|O0qwcLTz=XLam!A
zYrf%lPi_(F&oEW`nyFUeOw=eo?Kf*mIH`VFZX%$CD!z$2#i#vFgf+k7yW!H6>{miF
z&5CcLMe%9Bx_Y%~p^7hS%7hgEM2F(jezg+cqwO6J+N^Gm7r3bV_`$hgOkRjsFqk>X
zvGjGTXgxh1PxC!U!S})uJ$y1V%TJ9^@K34#kWAhO)MRsk7&e1=YCLlRaBUWw&UG{2
zNvSQE&}ZPmv+{%MCefD2Tmamw5^caO03w_tnB#!>BYYH5_-=AGkVAD91Euv71Eoca
z{*sb;8Yk46Rf8=m(Z=u>(JrASqFn;0{AP++E=Oc5O#-Go&27;|Fj<0Qwz(ufofaKq
z0Ku7oez8)n)`+xKNvWbP(TcrjjJ2EZLKae!SZi3jv_5r>U>V2L>5-AN3lV86rsv{c
zAL`3Y&h*WU&-7;Ez)&*1=V!NU+j@3OvM)7$x^Lz}=9THGzE^>7^`X^3sgmcDqX5#p
z^qTHFBcXJ$nG5_@WIR`;2MIByuaDtV+K+khmlwGQm7J^Wl0$IT+;P_3i)>u5-f=b*
zmEWcqy@x-IY%F@i^cM^jYuk&V@Z~S%8e+MMzG6+o1D~VW&5}I`aLt>fh>LN-+w|Dj
zlx=lsw!OKEn3QdVWgAAe;nreJYcUXhV6%i-V9f(3*V^@N&pSQHVX;#1HY}Yiv~LsI
zw-ws=2<>|c?FWVSgAXj`Ru;YKft_pbeD~-(NAG%rZymXGWYKeD=>477ci!=CTeX<m
z5$Q+H=2i3yCz{TSc4^L!sv97}X;QH5^AF&;N*jW_u<)urS(CQhCiJQ07<1TU=gmlq
z-_j>*R?^N}GU}!`p>Aec{H$d{-E_6k_hhe<%Y;w+ruek_o#3vUjz=B*4t(PGkh7hf
zop3~JCO-9wXk*h|bkKqwiKnAh{s6@|L@|8&Rg*@4(P~SisgGzP^G{KvIz}<zgS;mY
zJwST|P=>kAwG)#_3&V&Pkx`oF>qV|u6E4(r2{m2I!F)~ka-tABAmFd&z=E$BtSSWC
zg<$*AWIi~!V883Hd~5E~++xSuJ=c1EGnV&93;s=lf78w8ynis~9OR#-`nlv~oJ_14
zXc}ZT&@=F0piPDY%^3}^()AeNbq3!sFLlzK;P|5`G-~Fb!4JP*^0RI~0e_k@ReCoh
zA^vI`<jrWVbxqG2NBR}YY$KeD+&ynq!P|iKvzRC}ZV?){<h@&O4HmYa6!7Og`KRvS
zrOwOIygR&NGrJn3j`JzFONNlPHJwNEmUZ3~R>%6Q#JGcMkyz=%pJ$a|9jNOBN#zHq
z1ZTKv3_}%i*=R*2%n3`vs>GPLX4Dlmq0lT!q4>o_F<6xeP%jCyl1J96AOiEYtj#b!
zV(ZF8tgLAc<+AueU2(EkS@oa*Y{!54|KQ<imhk=LG{T9x_~*&rP0kZ=L<g|oR|qjB
zkSjXinIw?SmcD&5o|yz$?Ix0Z{LJk1Y&vR}7XB%U?bg<?=mJ?Up$(!(^^TkrJsONo
zrwQw$EkT*K4*BC;<(hdahkgsO)8B`4ky~+cp}IoVpinhf^wuu673%r~{CPKGzYe(<
z+$(mjs<u!W6)L048}gMy3ofLnjub+jLa4LoEh~Bh1#h$9ZB{+24r{ghb0_C1$CPfq
z{M@1`@2*>Majwb-Wn6XmYU)aAX=kBztI)djR`Ax|Tj%nvdv9;ghn`vR+zT}qLQx?U
zU2a}}?xrap>R<2_ofVho1!o(4{<?y{UGTT({hc{yCtD=^%V-6<h%j`llEf&j3gw~Q
zpRJP3k6I-<c#t(`X;vF-Dzs+ifXvQYvsOc>!cC}%w^BTz+X<60Cy|nyAT*@p$y$`P
zm@v=b8=HYBsq`^|GYK{Aye*?5yhbQAhzXmzChQ;{q}dMNgo?atCF*9o^*Ec}e<6Kb
z+0B0mzNlN9>;%PUlJSg$hHb-F(R5OD%}%Ay%_fsT>DYv~V7BuwQc{OB&0mI}KTXa{
za76d`)YLRa5V$V?RSIPrF>O0+QmfNi-iJ%3wH*3eh@QR%2h-ZCPV1Xr&R6YTaNnzH
zT&iC_S?GOIz+dw|p=uumHWjKmgsP6EOrdj!(7EGQ{B|%;Uy#9?d4J0yRBm5z-K%W4
zdgRIxc|o+~D|;7QKzgd`t{%E_XmMgWny(yOa21`w%U=<k5ybb`6#T7%zcue~&pF%K
zoQ(zuA17AQ$cX43A$Sd@0Q}yO5s;TD`HN#@Br!dTV9WSahCfc7LNt_UNoRP5cFJ3c
z#D9_o<OPZqCuf49`eX!nG>I)_<hqGJh|n}4RC^fiz!OQs9D;%Ae+}m^-{9_>?KbC1
zV3Q5qQ?p{jFE)Yd@QQ<cPOiRj#YH|hSJ$-SA)lAReB{FdkFNO17vO@GKMRs?%w(|*
zEgyLQ==Gy39K5$)_`!?cdvTS#D{hOe;im0F?+0G`)Ns4%Uxj}^OrIK7+#y@n(hKjt
z_|A(f9K1J^AErJ?t&(?TV~wq&SRZ+N$F&_R7V-~n`|#)oN16YgtL&}trSRuAgiAXF
zwQ&^x)kgs@s}~XUFe5Bs`Ho3ugIU1_voSW9c@A@tm|+Q5!aU|>3^Df`WnhS{!#GN~
zj2TS|LyR$$yZ|RYv0UDwkH%;DWa`P(^yt~S$Wbs*rjm)s-q|zYwP0t9JfBRDConxC
zM~Nv22D3yxcA^oYC&ki^fTMI)B8pThh(C-7qgFWd(AGw%F54FW2|Ohn3VSJsB14-f
zd$2Wv*FYPIA>TpWcr)rIN872I!uk;ZK+RbL_$b42L*1xAOVbX(9?;Tu(9+&mit(05
zQpvFl--l0gJ|&1J{w+U%u&9&Yf*)y>5Hv>z>5^4Zh*u7gQUxd|Ff*Mdo+}LlBWab*
ziu#y;l^jNJYJJPr6V*}Lr7lXViqVAi509!!8Qw;UbQ%s(hUGfS@YDJ}MygfoXu8E0
za}^sTN=+fk0$fAv;dn3QD!Qe34U8JAB|@=FrRa!y{E<__Eg5;S2BW0mW0Qg;TI*w!
z3anyyqdMeBB0oCn>gS-pXt)XHDG0fRKaV&50yz}Eh8S|n19M*V6Av$$P)6!}2|?tL
z<sEZ%216i!yNBG<1erkaR8$u#T7`<%rM>xzjs+)sZxbromcEp)h~d4iQ9_DtI`ehg
z7W_qj;PP(4-;#5-NZYxOKZ}g`6giXROp!B9j=F2}MCE9^Hh+#@zfKPIH&1gxzc0^H
zAUXe%K2Y}9mw#g2fNgbP%V)kud27Zmw&qanii3Q>%fc%z@_DfhFAoZ#z7>j!T{&2}
z;wN8#bC>-rNWMKLtF3jh>h18g@Cpa-a{K!|*LyxEue5Da>7)3sJ_>%Z`pXE?Z<|2v
z@Gs$o48Z~!0&sa%hG0*a*v9EVh%;eQB?-P^2P6s3iE=e})q_peFdQ4F2b_2}+c-UJ
z<Ai{UiPnxCefGG-2MYpJs)8Ab=^K=(C>ccrf+1FD{t?F82189_#Yr2cy78c5>W2BZ
zcq!R19gp5H&tL;2ZbZTi3d4?#)AC*O4eNXI)`tyFT|*_?rV<~F+BNajO%tqH`&sOA
zyhqzU6Aop4{xUY|g!3%GI$xn-h6r=ra4UEqN>{h)3tUE}dJxB><g+$T)O(y!JO{Dq
zk|bdS{B!X0C$3v~B6GDqoO8z#)2~gjk7Do)<cK5Ssxk2<F+JwKC5>EUHVwJP%MX2j
zITB~$j)*jN5pBF8W3yAh^{1y|k!MrMcsdzLCo_?kwJ}Cgh(B}zL>D0b%OuP&C@J<A
z%FN@B!3Une|9~G*S~F<a`Ek%`5cu&6^vSIQDl~CLuf7j>231^Iv)!lSsoCTKo`)2M
z)(%g^tY}ADM#iQ9p$<?OgDkI;k5&~cTkAy$U8C72Bf)z3QlU+L6|Ve8L{0w=oKm=Q
zH@unPg|9K^ZCV1g)~bgu1UDXd><Z8*<LbJL-Uf=Vu^|_Sa}`~PR0kmPW*K%AZ$mCJ
z@Uds$Zh3gcYz}s=TC5di*hze4E0tWJb?L;%{;mfO&eu?E+j9F9IE46M;at97^E_~K
z<>6)fonYUJhXqLc%^_6V7$Ol&csxXU5va|)c^(3l33W{&q5SCJ5>a^SDpI}^UqPAk
zEGH9kGHGz>5+d?%lJhM%Yv7VYo&}<5WGx_K`}>@N-C>i8$-swr!fE0I0{DQ)kO+`-
z`Kst8_k!bc5R^3IojUT~$bzZpuXyY0m%hFj&-){ntP7@vO#na(P6_l__-`Vc<02RJ
zmI5ILe;Cx!fDj=jjB0os{JBUG$)VMerU3x_0a)pX7W+3BLpAsP?J@|$FF;VZX~jW4
zC;43Db90TYD<1OcfDye)z=(VjFe2Y^0HdG=jDi|43QCiMs<H+c(PE=#^#&XRU=)yn
zkyVGulRz7rA~1RhD7hfsmV9pD^&WtyN`}{a-|zviUr%6NW{lUbM+c1A6Mld#kBaXH
zNtc3wEma5PxM-IIiV_fWkx25DWIO?BK6#;iAiX*1X9U7mv3fFoegxPmxV(@lB^7lB
zBp4-?5m`Q|+esJ^;AUMWIbQtGI$1qse+Z^kmclgRis;0Y!0e3RmclidcQdi3y2h~H
z^d-xc$hzlHa>8`B3p31om;=OGFCJDlN<?hwVS-VI`o<Y@3EgMGZQ#)o<FC51L#%AK
zaZFu2R!1F_B>a}P^pXedLVb;3EEDglJ%Q9T1|<(dRq>(ri7*KCfJX^IECbBxk!jVk
zGWBXM)B=Oj5USQviA&`hw$@}Mh|M~)E*002M+)^<Fi1`l$*x<LLA_WnfTVmxiKW<*
ziqmA;m6oj2W|N_K*RC5!wMJh+Udr~x{bG3~95<W_UlIKpQred3Q+!#M0?p<<=rO|1
zN}jBTc$x_pt-pD1*2{YlufHS`UZ<cVgfb{Hdk`~-n1jl@_B-!OxD%dn(|p-f4PtE8
zz9_zVAHoR;l|1uh2q&g_$%D`xB|&&)d{}?hll9XYN8Or~I0<e(fbrd>ylcPwVT2pB
z?sap*ix!&agIRwz$Z{^vmSb0<-D6|Imvz0$@l{#Z#9l2g#h36YeVi~+_smyJ`7`^}
zuVriv_`j?2XtBdpU{(0C<!}Svway1J2b9?B%u3_+Y0pBxDO+}<T&MQYs^pX*M2bDg
zQ(g5+7+c5cOx8jZ6^L!Lr#P^d4SOydVC|~}eNy$FOh;fW)O7}iP3X8JBq908oGW$?
zfQ+aG{#WST5u29Yh+%UuYLQT3npUFwm3UfK#}k9;)Ho>%jl>m=Nzp|*eIq0<6&<qj
z9-~U;oH1FAYHs5TQ_1r)(0u~m3^EU>!bM2YDxRUANGbe%BGNfG+9@et$+5@N5j6u4
z4kV_DL%FF_DWQ|d37PE-#i#@+;!T3Z#MGaToQgp5LwbM_Nxwi+?~2X&W2Cx3O__?3
za}w%*Zhjh(E-<hT<vk6oLq!Dijp&2g-&At?{75=;A(ey<6E&XXjmVx)P*2)eUJyY2
zed;_HLlQ{+6UrZ?w8;Mkg84;qdMH8-BvG<rq0+anLBnwRH8D(jj#9-(q>9V&h$GF^
zRH7X^8tB`UWhXfVE<}F@4FTUwL0+Wllxv|X9%Df>rCR+1N@zbPQR)sV9`)ucD6~u+
zaHbO@I@RgJ2raujdjeEGwlJ0r@r6YDSxFtm{wn+Bo9QDMq@+nnlO`>em9)E(^(pwS
zs6O@i$QYkIM*~CC>=o#5^1nrS1X<H0eKKjHiIp;bM!m)uQYZvS7=}#l%47ng0Ik*x
z|EpBd8p=l*aiDEHAvL0v=0dbeq6oEKrQy`NiN8v(>M%-LLypXh)ORkaeWar1M(J_`
z`Tv>Hu*%ntjq_k`s@0N5776%&Om(nNkBxzp7ONhL!IV#HpaK}5l!O+ilUPKG!l^`~
z(vZkB>Y5)t!CG6o>{PO~n&_duz()TP?9dt=I}{o)AU8e5`VLZjskvLeIbXhY!BK4L
zV)`;5jU?g9(iy?udo%d4zdz^f&-wd{wGD;ZUZJ-4X0=eel_=I?3sbRaDti0{PmADb
zSvvEvrx%n<Wlf=CgHW+y`Im%>!CR(}E4Jml+j14#K+06sFP<zk3<~&L^XYE5Y00!S
zSZIAhXno?=8KLz+K75cWR9mcxpfF!CRCjgi%G6Tk-T8Osh0q{tLv?+jx=X0;S{@{Y
z7@?Y~<^8lK%J{f}w~k#p#w4f_!5d+oRz{^)7lIu^utU)XTKsaZqVs{@SxaQN53J+r
zE;ZHC;JZ8D*$K%lqufgq{!*@@9rSxOCG?OWwsE=b{od=nw@wvyJ}c~e_D<+I`f@ka
zuwFP6L*DjX^DS>Kbng<ncYQPjqF&C<$yIeN+w+xu5PenE7pgjis?KGXP}QH?d`PG|
zwBY{9mc5H(g~ox88wYM@sH^Jl+c|IOUTssMc2KAtTsT||cP`iF>IW_z#h}zh3bh-A
z+6@S<Z!Xlwg!<S5h5ITB-ZsJ8w)ASD^GN}J-Y1Ev(1K459l7X}LikBG4);2{bIvw4
z*5QvmVSKJ{D%AA~b-lT|ZC9SVb#CEcv2EvVyU=zp2g$X+ZQ1m(Ke`g)DjSzVLPck>
zZ|ME(_3W*~`M#$<G6{W$h02~!>)KY#rrK~Z+_JcJg)_HxtynCzU8@#beQ1TVRfRy=
z4jeJ%HXZqBYwqND?!-iH;zF)(E*C)37NY5Ch^y<b&R>}?)^02Y>%myYxI(Y1o(9E_
z(X48erw;v0UYRVGSFx!~eL+(If9=si`&OZSYcYC&>4z=8kgI5YP~omZ9>3;d)UxPO
zD8n>=3JdcgnK;oAt50CPt;<zWW#Wt%VueiFYRFaLCalP-<N>~*(rVf#<IpouWxZim
zu<RF6r+NFlW8Mk5w2V_|IcSQrS;r&4Iv@3Q-iiE4?yXW&S_w?2#TaKYp!CMndLut>
zLZvmd{IYfhLu4fqTq}8?wPI3Qk2sEXYh{45q0C3u3cTrw>XHKSnpL^P^A42wxLN@N
z{6cF*_@qirXtm2a)xL6~#K+Z&a#1N+T`o*9TA_{D?8SUS+y*U<;v*Gml!`e=&%6t<
zR7ye$BUhuOSZ;2t1vjJ*(2MvIzCzd50*1^_|0^_tq5+<Gul)DO`6uMOM-C_nU}dvY
zV=0EwFtms##D{;MzChho3TJ5AO$z^joZlnoUy$=p;Y2+WcJM<AphXQd2WNWDq(uwx
zBK|E3F`W}lXGPPiU|s{CkQLPc*qNe#nx?xBHcOI9l0ePXJOr3!KIOLwE<Xo{=~I-4
zt~Ok0Se(xXdoS4+EDO(Jce)zA5?ws`_E)Zb1yBR>qg&P=c)#b(g%5nx4{f&c<Ch%7
zuw01WE3dfPbEW6ov885GCjIT$&E^k#KIr+MVheG6HWj@-#_=>GudiPF>hj6=U%LKM
zF1$VO-9aBEcBtuBk4rHRT{?96^kPfi+ps2Op&=$T#BN$Y^nKvVg?Ht>yZ=8-dk<XM
zZ(RDu;sw%F%KQ6d&Mda=@hjuN4mK^t^Pw(iG*#A+zQ~d%U)giXwP3#tes0x*kL}af
zEys`ZmoWm-ha`wLgh~=bC;4a*{~aZWe~*%ogOitB`W8II!7b-{Hp(2_syP!_xPj&s
z8+iaCNsP$6z<jD#T+Hj{s_Rxf%<JVULMuMzE#q3+SNzNy;Hq1e_6wn|l^}ZuMj}fd
zE7*G_i5^)|fUb}|R<qFa(Ao&ytEjoU<I0W|XljH|d`-jE?3L__gWlYn+t0K(Ja}V$
z#hNmTR;Z7%eXsr-1Q~FE6>+3h=J8rpzOM~@UvPfMAWFosCI`5^j`f6&(Bd!@My@No
zv?tdQYZ~V>W~QBR3|b^>c*H(Yk?!nIjzR;SKgv`-ct#tnB>^O9CCwM*A^1gm+UjP6
zmPjjcz+~+K6uo*!Mupl6M3VWkCSyHM?QjbCGzJ_)DYYh@L@Wb%g;1j5N*;t7aU)EI
z{7U2cS+Z8}Sxn$hnBUWQkjk{-GAaxLcYD2>)s<8WuZSBq3?(i{$%D9&k|4Z7Ek>%F
zBn#GfCn^S^;|i`<vyO-J%|w+j=)Yps(?g9!EjF;1H4f@vnjnTi$+K=Q)SJX#wd=S}
zDt3|Cq-29!jYqj(iJ|=>uF=>_z2iVxPMxG&9gEBsC5Ls(+N#9ReiJUa*WFM=A_=!V
z+rhI^af3BE8{}bJo|?1wp`6t@k=d=(#5fP*p19#tRw8N{QF8bK@@oD9^J@75^J@J9
z^J-J`I;{B6%LXfftr2cST~Xj%mK~q7$Jl8=sDLpR7qOVuJ!u4W2bHl0J{;SoS*pjg
zaOSMB$<z##zghg(sgz$PhgPPf4$uo9xTTWzQ`9C!e3d@4I<bfp=ippbOk?dy2dzjn
zEosT=zY!A_yite_p%OZXq|r`|tw;Q$@u@V_G)9v=!$Z0e13EM8w4}`PluvL`ml<`B
zXk)P%&=xC*N5)WGCajc1nJn;Z^1{fgq$DB9HzlO_DwXC^yOY02Ww3ssNy|D%tk)Dm
zR0SR!hz5t4pAs$TPo_J?H1<Th)N#^Dw|eDB1=x%uC7mT!mIRDY@99Ieev?kW`K3-~
ztT)DbtYHd-T3fX*wcsm{jN#m?j9N?VH<qZ5B{Ke2%f6M?i<0p^>Ww$yC<h0Okb{Hx
zuAL3gbK}A?(yvD_REFI9CM0{^EHUKDbPTz>{@TTkJ1qlu*!iBEf3O(oC`7ghkuAh`
zX#j3p@JGQ)$vLArfArI;=3-4_p=N_n1NH@2Jv~BgPqCp@Vyc0WQV918;eIVdKJ&JC
zDp%14E*H)pSl@JmFH*OmSOMmml2s^N2yGNX8(E$MLhS&UPFF{+j1=286xyB?+Mbko
zC3JpHQe3HUONuKGh{dC3bg!|k(70J>+<a%t;g2@ww>&R2o+v6|lm|8LNg?v&T`061
z%m=#fTg=U6z*VaoknzdOyTNy<q&hm0Z*^47SM#WiR$8`}4Hx3thl<|vg11rdHZo64
z@Wym%H@SxXT*ZK-)Jdo3?l_yF)F~%oan;nCu8vWnN-l!a8cIolP$AGN1X^*<PdWVO
z<f3348bpY)V%u>La03n<8bsK@B6J`^cfVnTZWf{Q@i~Cn=qC2!J^_EB{a|Q$B;;SC
zdi^D9K~-$VMCS;i6MnZE2L8)<TNGOI81k`Heixm-03X1Bt3^<P@p)uiQlG7k&qKTh
z1J0F>=i)SzEZqQKPFR77IufSun6uV@Wcqaz<4DjlFL^YM1Y)?d_Bniq&V@VcB%h}3
zXM|hnz8c`yI6;M#Pml6DhyH{FnVTREf60?owFDtQHs&;Wm3$!iHRk%LGE~TbJ=rqW
z7C+*altr(G{2p7@ui!|K{gU)|y|D|fldFpTX+>s(YP~6y5m#t!3<6Chk3J7wudCRS
z7Cjrp86a%7^gs^HO|(mXy{pd+F$h^GdDg@TfUn4%x6r>j4svbGqEYLpWz<~HWdrOC
z8x$SYRrMEgR(se{pX)Gk!50xE9V8*>&;NUJ{tt5gEjfQi&Q3Tui+zsI@Vn^!Q*u5b
z=g-NZ5#(PW=N>r(srXmO`FG^}2RPC45}p=M72*GwoR{H<K?ddls3m(Cz*oeYhk}@p
z4`Mc-tR610yBOz8bTdX6f$@aQ6q6$1z!-7J82EKE@7UODqEGQjAF9+>IcF)KDj5ZW
zxKFDWtVu}nHC+&`FCD{8_Uia<$_arrAXvr^$}k_&OIVCxy@AJ4e|6%@L?P4#M$2+T
zKC}gg;UF)u7P@u{_zUmKLH5+zS!mrNv~J05J(O=foO4D<VB@*w$+hjs*X&&I0d55v
z7c!(w2tCb!yBKOJ*7e`F!HZA+s{0Q37OY^t1S$*u9>L$Ud@}FvU$8<)F&FL?s(KgP
z#p>pzV?y<&-+kf3;SYxY!1k}azwiC%M1Ie6`Jv~9(DMr(<V44&`i08=o7?l1yCD#&
zsJ^=O%GSk0l5#zrF5V*4Y`Nvk*X+fS;z;-Mq!8Jjb2cDpbNjpQcie?YzYsz4+@2Tm
zkyH3mtlxOEvaso(fWP{ua?YA!ebd`dTzjHWzeA|sk=uDJUw<5-$RHdk)DH^vgSnvt
z`TB!$%<b2<=Q_9K>$l?lE{+XtyS6RYK6LXNd6w5YsS5Smg!*l{Cl2T9k5E3&hQ;{e
z>AbTUNd@N+Joo%<5Hd*sO2AmJ!^L|f0}nP6W@jLx|2onep9IL$7jph7CPVtS;UPYr
zQ{&@#UNYGZm>46E`OqGPCFhU=a4taR$+@HeH!<a;bkNQOSI#Gef8E?;YggHF@FOpU
zEk|!oocLk~23+)pl>UX;x3ZVAi!Z$W;<Xon@CmLBpZoAl>J+N=C~B=f<OgKtR%3A1
zh0pR%sHTEP*2BGSX7X>bT9#3hTF4kIEzv?GQ%hjRd&p{otp3OjR7BW<6P-I!@yXMP
z_%8mxAV1hY<5r3DaFJW;F0?!$v^-I0dH&;;=UK&Jq{)?>A}d}a<71=xdMLnn^*^I2
zdY+?XLP>XWj0`B*lMX@}pmpjTb246|6DP)8;3>K%Li%haKX{6U;qt);Z^CQ*9h$0!
z=@Mn^=*4=uN_wfjU!XQ*V5w}~+N@WeH4#KQKRYT?wQi~9>$Ig}op7m*kL!VeacbjG
znJ4Q`RK8&w4l=#na)8W`dQR^Iba>=Fdrq=#bZBZcHJiXu21fQqRDE1_7J*1vC<rk=
zu59PYO~8P${y~8EV)*&LC5L=snH*K35Mh)^)$D)<P@K=GD~j+O;ux|Om3Wxf3klg;
zUN6(iRaY0&qNTL#0cV6Zs*=YDOO-HWoi?r^zi-~IY0BaRz5%X@P$QY9J!@9Ew$wsA
z;C&HR&mN6yYh)D2IM0MdHZ5eZ=!|%|6OBq~+Aq%F$UTSJs65LxZEVqED?ZexP4R2L
z2qnfz$-}f;rPdRd)%>2;dbOV(+j@h1zwp+plt6~&D|?Ll{qNd(2xS}zI-5>2z==L^
z>G<|WoMyv*M5zXx<~66DG)^+@&+IYMR(*7DCsgW3p%o^!DY<FCz}5d7W}TAr8XmP)
zXSE%=@(fqi7d{8n6{7K?C-!KyP<%RVSfUWUO1Snrv0w8mK4qot=iYLRn$O@=&`TRZ
z899EA`KGQEB`<(q{jBnVzV?!q?{9M7wP^F}iuuicE6SNyH6zgDtx6sj@WsTwzQ#Di
zz8Kr!VXpHmtl)u=QdzJvA$4yzKZL|{)jEExKFPt8bM?AUl8q^ixp>{iPSc4#5FD>S
zX;G$VNW!8O#m+hNKcz4ljJXPlUCmT#CEjj27H!kmx;(7?a=aA|OhhuHR??9Z=!?SG
z9W!Sq@vT{7XpV{QSIK6kq>@Plr|8u;LOMsZiz+~}4av-xM~cDpPQ^MceJQV%|L2tC
zPbt%oK2t58Sf$HK3+4&piFFzmsI>DKXI4@Ot<_>_oh#9HHlFBK(VUqUtF%};<7E0G
zbcrQ}TH2XK_c3O+;plieBieB8o-C<Scu-=LYl+g32pqr{4aRF@p>;W|JU|umAmXKo
zeI!$h5k1RRp%-=dhsv=%2<ViaghMKn0UgJ-*w{mC!}_9ZW9(iqTnI*mV6+e%5P|~>
zc16dsx}{LvCsg+>cs~V8mKc3xu1I6(DI838TF_-vP78Xua5EWVP$Mo`NO7?|R48v1
z%3BNN8-(%=h4PI;`9_^pF*nz_lcnetyuHk$sP!EZIu8lnL&SZR%%2VBDuy1oY@LjW
z*!lox(7MSe1WQC5(3>c4V7>A>SgID{P3~4}XjmTDr%=bMY0wJZ3N27Dp%w0BIq^S<
z1^t9j^F&d{LDl%5sM%NE`O5EBeHi{Ad}}nn>B)TiKFLBFQ_`gVl=K%1-VK6x11#()
z^|N!`8%cjgt>YtmQK^!XYiWD8;hhF>pTo^d!KMB09(m_Tp>2=Qw&za$-qk9Puk3y$
z7k<)odEbKyF4$hItSeM@2$db0r?#=!(ou}G7n^&*`Cj}|u6^sRid*NtSAENstAFzU
z_B(^+P#QrN_bInki?0Pe`XguKUwvlAI}<JZQTNc{UZ?1iR?m1MEvY2P=o02K$2sty
zp{bw21B;kM2(rh>)DGE<U<W(sK$wgKDe>voNV)JVN>jkbyjhpO0a8m=DReOa3`!sE
zD5$C&M#oAO>Q5J4Gv0&m24ZhQ>Oeb~rGpSS^vjrL9vEJRo#WI9jw(w#08FWKqU|;8
z_DRvr%pi`W#?K~sIw{J-wz_)aw4NfCZdvJ($$0v#SY5J{rDX`U_Ef6aNM?~sqUw$i
z&TWz<L;7vz(Mf)tHlGZ-1$&Q^YlhHdlMsQhplUIA>G<NIW$XK%>z+c_aRGnf<Cyl%
zZg6#AHV38!yWhcK<L0GpH<E?eE+Mw-)`fiR5TdjqN)tE^zF@)IDR?_`UAyz%J;k!}
zLRptk)^*=v@<pM5>vA)aUGyu0J!UIyWFu^OsHYs*#7rMwqXuh7ZP|>hM2D`c2CE(k
zp0|K$Z!wy!XGp!mV3sDJdQ!*z7R_NQtK=~vwyvxf*I<TTG5wDH*Ex3B`H`~{G0d-r
zK=?_frOcT7#`6>e8cceaPoS03FU{F6q1KqQL7IeLh95^6m_aipX;dLN4}1SOBLzn}
z7Trn#u+lH_dP}BXrNLa%3>7|R(xtykQ|$xP1$<FA7ilXr?Gl=H-TFqp>6x4}Tx{B&
zYZ@ptZ5NuhgU1<h7k%M^uSM{+EDbC@ne%n7SP*zmQYb8Vqk=cOVnYb{Ts~&6vfv#6
zH2KVdFk~l}uv2K-ncMYzzUc%N;i=DgI`1_N<Tf7^nxH;T_BxlWg~$^E{=82h0J#Ms
zG<z*vWRN2GoAAcwsqq1KLZTi&2QhN`Jr!x_k#-pVD7?T#aXkaa`{008#&8bWFV@&I
z^h;=!x>?V)7%caaI3G}_6PAhd>U88HBKRXqwRu0Y4oQnv@Ph-r>){p>Cc{?Q_fZYB
z&~%38I08$b^;(9#96PA=7_B3M70j+NObCKRr?T)QY!n9bo>V@2Kvw?T<tlJwKljo&
za<Q%_u7fcRJCPEED`Q<*=~pG#@V*1@kEy+!>Je?QQO@Vh=b4^h)}qVLfSAhKGAayG
zT0sK5Ijn9H{!oqHJZsh0N@Zo>ll;KSlg@^-yc;+r!yjx*IEl&izap~eIGaq)K>L}u
z)3l=r!v7&0MFS>E0g{wxG8v!ZaqkDm*TNAUH~=<2IXfv@4m^7TyGkZLdR9?mV4KG&
z%03{UL7R-9f$d`O*F@8}=$lHu25={bXu1tDpBEMq$*4D*z;lfTQ(O1_cWGJ|P!h~@
z)^_D;qRac=KXUy@q33A<e>G1p_()m+Im6QQ&2vJ>)?24PYP(baOzy-fp&nw1n!CZ!
z<#UT|Z+BnoF4S!n>Nfv4xMg8)v1!L*rqDDbG!5O1-)jCKDKzc4_0mV11c)h`jxQWr
zg!zr|r-7=g?kn!aoy$R?zI*wc013zG+iiCOPkl5X1de0p@YT_#RJYii_l9$kjlVne
z;m!|s-fp<_?1}uqNg+Z;L+@a#@o?o^ffLs@lB8$p*iHUU%@dHS_`}$$*m`7AJ{%%s
z7S5%9Nsp>)3XLb$8vS2ADy>n=>##3AZ=WJTBtl9b4L4%KaCyb)V}XIAGRv6iy}mR#
zqE28=%Kn5OmOL<>h&8RO=y|8MmQgPQh^VYQtlAA6$5i!Q5Q>vhzrjjjVrCCkwmU&9
z%n7yt?#KBRbJipMj#+3mC#>JGWNl0o?|iez%B@pV9O2MRkK*VGavK9Ay>6G+4DH%%
zb>NWe56MrnTatDDC-|UYwt-egCpkmp3?r085VJUSNeWyl=?*I&2PiG=>QYu@*-`?v
ze@q`}@rbqY#KbJF4uF8N1P78zuA@jc##ZM4B~qoSgA{_3eswZR#e|j~F3Tdy->2pC
zV<crFN^fn>(^hQkzVyt!#+E{3ztGr!b6dV~=fX4h+PVsDJB2n7eD%48Uf_1^0ItoL
z-Z-TvSsHH2*KA_~%G!=XO|MYXyBxn6yty}Dvw6YyX<h5m{zBUpp>4~L>$YAxys+<b
zRk5a??C4S<LQVg|p??={#u2QBvSM8;s!)t<`@QB{U;bm$tv(@g_`U-lR-9Z#?R`+K
zWtWbvIJo+4&_*{X>mJrk<CdI%OU}84t)A=V<Hw^FrKVM;sH+LKFr9qSngS1i$>=1N
zeNr5ixFhGthpUU^!DYkDM)-63@O5%{a?)`0=D$pogdAMy!=?M-fza>1(@bU=x$4@_
zTnA;9{m6=gd7UKDlS19-)?C9zp=Q&Hhkf&MbqzoBG4HcxpUr*CMrSluICwv*`rpHU
z1bd6{t~8e0BKNS5kU=mT{1_kXelYC3T#0jYD-H^B%6j>$E_&-S*>*2iy&t{~3u5rz
zYX3pc_j*>zyJGj)8kUFN-*J7%3J34413x(Wy`!t-U1{NB{l$%g_dPAPt*WdMew0^P
z%MJuM=*=lh9+whA^@bG}1-aK$h|=T8ouLfUk8f=JSSOC6|I~;43?=ymWsv+|Ap`zz
z;ONAQOsL45|A+zO|0_j#8qO&GtB-<=tS%$yznAb3W@(ItgX;(raTLJ^F&zwC;=U6f
zNY^s;D8fD%=T9qguSPd*6fCHBJ=qoyuBjo{OC1m^dV&Un4ahEd9(P>fQ6j7hvQ=-Z
z5z|w_E>t<2wyE-r=|)5vHE9jUO;M86H(h19{a>^;BS`j0mfMf?a9G-Z8D(@B3D+pE
zsc@LKRN%^HBj{TK70nsyIrad~QE!$!22jxkxJ@c<22?47iVi?UJD?)0eZs_?1QliI
zsDp}<f|{8@MdO;Tg^G-}<mu)i5Qzle_-!;fG{`2~L;E3pV(^jm5(8=kulVicFla?A
z9X3*MbdXBnj;<Li8C3lZ4b``hj)5wJjsNa10Ax1)v*67`zjy9tlMvav4v?ud0x~+}
zEL!$x(8BMeR+AouA!Jz}fb5}k<opG-{A<Xd1c110eb{hAfFI<Ozz6yC(1YG3;6c8c
zN?U`vU&D{&if#zK!7ea^7Ar1#Bi#^ofXjzBX(y)Is0$wz;_xmld<b_W@|QwO9wWlg
ztLTF~W-qS9;z(B@Luh%NEp+S>I(8L0P6_yHIrZ@NtWZv?{~2Ajc6&~kVG&q1Y&m9S
znjAK0a<Fq`Z>YEV;1n4&J&Z)%>zyuxW`_%#t@{^9=SDgY)1|0hH??=2+W6K9_b`2t
zvPXVh&p4+WR?ck0-v3|KD1aK#MPPr|F)2simQhP!)U;;Z-j#Z5y*_?)FIFV|2`T-f
z$6}q{PWox2#=J~JC6K5}261Dh)wrFKHVdO>oXLtL<5FPWh0w-I2IQ*%<ZD%%baYE0
z1Y5}z(@rUY;Og?l3ei+g0)QmHVfv=?o33xV*W7jmwc!#46hls_5hVJS%UB`hTTX<#
zOZEu7e#?Ccl%A%Pa><Q1mG0E3-x}~cGPFgoXT9V9Mv5v5e+5Ena8^_ywMDy6>XOUo
zrYqx6b_IqRwI<aEE8V)K3aM?15`-$GRt-v_jVkvy)1b5hB{V92?RUYs;978x!D#Fo
zPF9L^yiUd+$nXMkQ+o$~611`he(;Z^$2f0<b|^8lUuH}TJ6yt@!Y#1#xM3EUg-uhN
z7y<;)iS&VQpzSz92i&Ah%SG|Q2${7G=E`s+PR4UkFI6do@RWoq0g_89Q?MUa(k3M*
z!fa5If4!2x*W;ixZCz6mEg<%kmXsk$KYNTv7NMJ!7~1cRfHHs3im(!X$!TZ=jT=$N
z6MaKWyprd#iSNX^AOyPPnb=bjfLEwy?NdULA2Ae4p7-Q;rT-=lmPEiS)G-bzp%aA6
zmONQ|hA1HROb~av<jFd21QqTM`hfHc*z>qtje8mGFyQhSt=ln@<UOmDru|MlulW_<
z#7V`c{g%|bTlw<1daqMMb!3%%XdN21g@iFB&llVlRh{bsr>eYIUgKK1O`vsO12Oky
ztXLCw+4Sbk^Oi4jubB+KEJ$CX<<hkwOw&bTxz0{WQU#r2M2yE((`%7JqDp8#UTuN%
z8y3B+_>%dO=@LfohDq50WXUS>fQe?pl0jQgBP1(X-zHxV97zCm@uI9t@m~-$*DbS#
zRd}b8b+H}H5LkK_Jd(=rCc-00vj~LVo%$GL|BK$G)UC}wvzWtW43T8VGs*Oq1TYCa
zLW$T1ds_14yqWkJ(VHgQZ!)nA1KRpmRQzv|NUFU`6p6l3qPf*HWwABy{Ev_Xym;DQ
zM0+Cn>iB3f8q-m~xV#&-*~nR>%&9LVaWn0pJXzh6c=C)<Py0PP%L)D=<DnZ27~e{f
z{y7}c!<11aB~{{8k~Mzx03Ekv9q}PWswHh~+<r(G8Z#^0vD4u6BXXL5no2j3bBLTh
z<Qyi4V34H0V`b+Y|C%zY)T?=qNXpp>F_4C>Te>@imo=Eg5E;;;^QNcc8Tuwmz(p&}
z0cJ!uGh#-j`qDgcyCo*wlT?5WhT}I6N<392L{oK|Bx;mYl^CB@VZmy{#mLhi(06K+
zSf*4#QV){~V*Rg9NQvV>8<s-H?%A_Po}I)zoKsAtJv=+BX)b;r6YOs;a(A6R<wn8c
zLs~tWI!{sOmF=m8nf<idPov%MH(dW>)kpT+uDE^f_p5J1edMr#`iP<|6XCY)hh-ON
z8Ij`8&&*^VTs~JRACcVV#xV<0U8-4Z`%Y}R?M62gQPwj6_A@W%+5wYdW%Y}@e&pM5
zH`0&uF~z#bV$D)RuDY+-)cW?<u6-@neIVC!AlG!T7-@z|QFGbC{yW}=&n;Y8_x%8+
z-Tfn9_ub|}HEm<AdZU_lKP9KM+mN<}rER3NJ<zwRf)v=`Xe1fsdea4>x_wij?P;Oy
zX?BA19@(I4%X`|;;>Kv9VVlsft<dnS(D3ZS@w-*HgX`_SYkm2;?tE2Gp=v;=8dx}Z
zx1oiM>=Xly|0wzH*>}#~>VWaJM%3ZW<4~h$>3p~To%&+1X(?1_9uS%bZl3(`D<6EN
zF!Y=-^jt3RJgkXH_jMIQF(DKygm5*)V6nR4fx{}d12);)H<0$wy~>uNWU{7Exk;$p
zq`qv&^+ziXE7XB-O0(WLJHN9XRr-;)d8MB7w*S><(<bN$eU7DF)-Cup{PpMP;~v4+
z{nt#E{J(HRN21O@sBb?Kv;1M8{m6F9pTulOwmSY~yX~mWp^_R{4uCoTZ9H2D#@QxA
z3mcGvFdjYgmV)OR9s&pwxRO@!lmY@EDpVxk1%EHB4(6P_5`TlqWC#&5mhscNW-@;K
zmOh3@QdQj(#R$FJ2qsR5qRM))J`*y`^*z)E16>Q9st-@CBFt7N*Dv^Sx5@6?uDt(n
z&Usj3lMp;p9wd>tHeXnSm{jDU22tpoVyRWz2TL>)W(`}gQSfiP3H=0|D%;LlaJ)oV
zwnhL-{6r=I<p371LTyK}8m1|UDG0F<HwpqjL)I&w$~s@4&~6ybIx|!fdlckfwy#4u
z7!b7yCiFK%1{G$Nk|BPLPW#f>&bxGVaAj0dPN@T51M9{HdedMNyNq<#A<{J)*>BU`
zMF-;B=yV21ICq_~B{uckF(chLBLX(z0O9tCd?6ZuvH$PjdMXmwvN81FT(bS*_Dr+V
zO%pAOPy2mbYw*2Ii>>$&YC!Vh>MB|vc+h*E3Bs#N9%UxsJhc5Wy;!zxYs=Q_#jKr1
zTp`<Vy*OuN?*!wpUJf3E90+YJc^;7idVFminEDI}+e#jc=X#@w+C8e~__l7H5_VN&
z@6S43uY_RVLbu?^E6tCZJCHkiU-A((orRn$>&J+YybFphJFxXIMHgnh`nuIn+<pX+
zaP7?xkzOaS_)mC^*6_5Q$j6CswRJoZhbGGj%Js+e!I~H!&G66CJ3CGNFDTG09rI$A
zmWh=kR*{luCXIW$5j~lPc@tb@pAgFlyIuPUhp@?NGF3&ijZV+ta&QLjc2a;Hc6&)T
zorna6iy}&DdMc@_G@;$FUHE9t0s_c<f}EG(h!s+G*%4`_iK3ff-I77#Iz4$avPL^o
z)G6l6dMS#=0;`o+OKp_eTiVq6H5Aa=eA7faC>XW!D;@t_OFzg`p}F>l;N==JLymTy
zV9Xd`AQK)9?G~JypuL)F+H|+3J73dVsM#*mY-idFxC+(N_OYjJxdFCl?^ZM{PTn|q
zr=maSg%OYbdo6v%K;>1>70=?6SNw%QR0u>1ftV186$0CYz&6+xX)VL`JizAyb-B9U
zJAFs)_>UI5wimjd6S{!L!S?IcLi-V+{YWlA7H>mMSHF7YtGKkRssjhJo!+;~E|p#W
z+9Gr-S_{so;EXOu?>GmGd!D;(E$n$t*z?>9XWwgL$G&Cz#9vvO$b~i)>pF`Kz4u-8
z5y%}5f_um-ICtWPvs~Lws2q5kbDpldZBe?}yBMgwT6U#u@mxO8j3eY%r>{&GaUX1T
zr%>Gqgt8rNXkMw|Y6l86TZNjfdD2HhZQGwHwCxhwcHz3$w!KjQkSm<4-ju6BfA$xg
zTLtG<=nUsV-Ga9V=&g&?GF`rcvrcf<<?4rW;h~&!bHTYoaN@K<M-KOOdUxvMH3%4%
z#;v&~9Q58+aAKgK^WUE9*e-Z?DDgVCEhP#aTcOPbg^^Bl2D8+hYu}yg*qsaQVRyat
z2z5QV-luZ0r*d^q7aN)j4gCV_unZi_4Iaxi9EYs0lWw{}N71nabT?gx)R^-`ixurK
zBwP{Ad84_CC~6<<$@T2c_3q9E_Ar&MTwPyo<G$RceYv{*g7*N#WPt|KGqrIITNjRz
z_K7SlHbzj!Fu$)77u8UgF#&^aB(nt=G_3)Hc3Fo}kH#S<dXUCU`dW~1DVk0=fQM}m
z=1sp!i+zL~wyVkLC)+IKJ6zXQLpp`5)1=fTuR>`NmJvM<t#@VlH9fTa)<*b4T6kxX
z3tM>IJC@rD8@3A@pxJBhmZmWb7|3(CTb;Vyn7N$`zFc)DhNZT9(JI*=!f@A0CJ$H&
z2i}x1gfVTOG87D5WV_HBG@f)fP#bRbAEH0>OerIbkd#sh2I4+nV0?79wT2f!WfWn0
zwN?fPiS1SL7^#RWI2)AQpjyO~(hV_32oM~qYN{#W%vvNdkb)VYhAfPrpN8eG(-t-L
zBiaMYHByeMs;d4F25~w{o~-rfP*nxv?y<F_Q+)Eoo`)SrOkMZ!s5z#)o%>5D`Xt{&
z6Is<$jY*2C(s>L%M&ForDr3<wcGxir>mz3)9GG2W;E^UaPx@H=06Bwj(l&&#c`nUz
z-x}_js)MSLFl)Zwr8)i|kOPiRcsXDBTZb<lzC6ElN~rF+X@a4RoBZv;JKm>1+9!CQ
zAyenI01xHWMrx;Rhe%D1tY6*U1P;uQ&~~U8XjmLw+O#+(1lmdMt_<3zt&8UtJ8)e$
z4r&BLvJPs+a(p>NDyVyf`k`C>w=;JFM|01f5CSK3il{7M9+04Y==-)G_`c^u?%zox
z+ihj{Idca&zOp;m`~9Sn3iZ0ix82v=OFM6#zC+4=I;{t>a?LG`862XV=F_A4H9&qs
zqE>IgS&wYytJzj)u&uF;(1uxW9fvXtQ{Z$=g;;DWGAwzFVq=RnP)gNVaeAzsCxvXc
zNtoX>&6jiJ5bJ?|9?o@H=SAB_na&GMd7kNY{xK@b_M$XVj`Cir*LhJaH*1qi-djJT
zX>}2auyvMm3SLqS4=wI5golLi5TH2wYbXXH0R7OAbd!c8ZUH0>N!%~Hkz)1<VIVE*
z##}f?TP&0~$-vw4PNu|3*VSFPbYZbUcS*bGcr8hH^QPDAsnox0Pu&RjDt88y_ivf>
zhqo{W^u6R!C@5twgPK3BK=vr#aM!wNKLiyoy&|guGo>e^5!EbSr8{wQ++fT#x;7nJ
zCx&WmHEo096s|}9t{GMmIHMi>^%KV7Mi$m_V>_k-J?BmH4t_I0J2NN(WoT9Gn{_7a
zx}8++FW3dcsb@z0+cE21P)SyAvI13THMCW)o_#iPZ~nuq889Y}-b0S_?s=l5Jz3kU
zCf@X>7dyQTw<4L|45B|Oq#Ej7#8mGXC2J8zw!;$Y{Zu?zT(hv8w`sz2Qc+X(b(C}v
zZMU)Zkh*w{zBI`{?^4>C^(r(t39F`FutMnkm>Q5m9M!-K(N?|gel&zCb)a@!r0?D9
z)RDez(`xzn5mM@_l(6o&sI!2H-p-;uRtd`4pillgXg*z_LsB*VU*km$J1d3#Z~8F#
z{-u8-g<YbwF0yJRMWu}t$yu;NzS&he)xl_01`%oBnuB0VlVrt2pR~F`s>NZdT7tZE
z%mWt_ogR;;q2w0Fn;0P47CPy4kqnc;;3j)qIOAr5r1Wd!nOB&EO7s)cQo6>F9k&)8
z2mqnU^L12V3+Q0c!6#=@@zJE{Bw-Ru+k%h$*HI8(PwntY0Q)s6Im8Z_C}q=W$(b40
z4iY`AE|9N*9*6xfs=i#mG$cl-r5Y%;5Ot*smDnvfqKzeHCCY*&DcntW0VO2AQ}W|X
zEG<}N182Vyvf!mc<*TmJ20Uo}=Q4n<^bgUVi`-{sM+*p#Mo1p2>lX(L^&0`b^Y#7t
z(7=M{ZcF=bx8v+eE6x}<E$qMC3p}@~_UbcNo>_YOPGv7y1@m9?=eqXYso5{T;5OEp
zzI(MDOPQsyTy^hdtIFig`Fo0_&)+9B_7xg;3yr&PTl0+va)ASv-EctT)V3`h7Haw~
z+wMj>mu<`6xWlY=U4~^ZXz>e?jhB5t0UDBAdg)GJ04PHt&@2R+mp0r9^cDj(|90@O
z5ZHLxy?A&T_ii^VofImf#mex#ijHO6z#W5^ZcKq)_@%=)-TCV6s2R+O?Yy#csrpVu
zbUAUWTZkP%th>0tXYgj_or=wrqy{GjgqrAO8xA%XA_GEXK&`~hr|$%I{v=Sf(gg8?
zX{8PK|CDC;lgjX?)i5}A^K1F)eV47UUv_y1!n7jrq7_lnYF%5swbBv##l(-jtt;T4
zv~{nHnIwu&A~T556vZU~$D^TAJy0SzG>iYD6YCp?IdDxi6HXFmN4mn5Ndp)My#&Ds
zQ<SfhLok772M#XM>bOD<Phn{|Ob)V#O-B9zeIcg;Nz(r(Jd&xgCr$fJpK&jkY-LMx
zEA02yz|Yw4%9NS2m)$p;Y_U}fe7GRT7F)5KY)4GWDFgB=#|+3%Uw3Gy26kwt26h0M
zkdFo&G3j(o=>_vlIUK-VOHK!{u#)2eER4<vkRIx)pS_+oD<xFv3V>giKfRS?PeCQQ
zQ;?Q9y~UvEdapXnE-|o?4y;`%+d*%G+@_)8_T9zaP4|6uwk}zdb_uh*W5tF5T@C0>
zQKyv-U$`j9%{BGk+%Gh4UGdPXcg+C_$`fdt)Y@E4x8Ukt4N}<FUABg$r<Y&2IUtQl
zZeYLAdjJ<7t#J7A(ZEOPKic{^d8H{y!#|37p+1VFVf7#2i(V~O!q-S~?Ti_Gck{3%
z0i$P7l$9^pl@(=OP?WX9w3)+5K7rE-hT%|9^g=<=mGH5DW#6%^n}gptheTkVa3520
z4JO?Q$yff!c<a<J>6R5RE8egVdlHrF<grd_sbsXV3T^ZzLP=k;ENL^&L#Mv!N&1rv
z2SUnfqzo|i%^+}r8r3w}!D)V9d^R0V9X$p}egQ+q&yn*ra<b&i!+|`M@CF9yAFJo7
zqUm&+gU)9_(@dQmn#YKF0MuM1w=P+s4GJizpy)t%pv&{PD<lv@MecPdl}Xd+#A#La
z0wwJtDWoHki9MQrCr<Di2)Ym&QsQdAH&oOQd8rHxn1;6=7j4Yw40=&j0)e)VGd(><
zc*_h>4;S^co187kktb29q<FJPKDN)ck&o6CPlfXy_{8e5@hR}f7<Ye!vO{hRQ3=Ql
ze?S3<0zfS*{0OxIQuYUtmCBFME0idQBXsjaRd{-l@QM^t{w2h~rFtZv>U2yL<&n-p
zcu)xARy*8ycekn?u<*vwTcO+4`JO{yv&u%hVa!vqCrwsQmhFYEgF@Fqd~Rm;L*(7&
zzk|%2buj~w#v*3r_`AMmN`%bg)IrtgASNb%Ywpq<jGPO8@YnOq3_9C6k6*V)=P)($
z{f9KLYe{<51_c3ST3L+Au^FEA`MSiO7-M{0XwRCyV^J6ySqGLrtTg;4rVg|kSVLch
ze?4Y_a+Fiw(y?hCw@4*Y)WRL81=s~Rv(ma~CEg8~@%US@IlwA~rb?{XJOqC0eGk2R
ziT&+^53JLG9;YD=*%~q*SxaO-DOfUA4(eF?fG9R#;~1T2!uex4rgSo$KZ?At*Ih%d
zQXde8gaDOa2bDA?NlR0o1NWAh(WI3&3(`mWIM*yQqxHSBHp)fnq;}+iPI7WEaKvtA
z#3he&@5~iCcL|-lZu|1V<FKft-tfc|`LU)qXg8yJtUd`x&q&V73=nM(qxKmwK(rIs
z7=O$0sC7=Z%N3tZj8DhreA4uN71uaSPsQfEEEtM#uO)eWl!E0~Y+K&+*>T(<I(r&N
zSjm=I1odJ#qSA$of<hM(ZMUWiS*$sQiLdWBJ=O9}t=H}b=^Dg;A9((O!&dHIuwxRz
zjFP`a@V6{&fi;Povzsj?*o8hzwV*wTpM)cZW=L%?LCTcS_EQNs?F_E8#cF6VTkv5@
z&rsmEX>w4v|6F+R->2B*JVSM_fCqT+XI5(!O?zJrTN9RA_kEwc(Vnx`LD(f>$R3-U
z5M=xievF@$I+JZk!*z!=Tz3eIM!^R^^Ox(8QTTPJAib4fo)qL&Q9&QQmaRbrDLXLz
z)}VqF6xL<KrCSPy3cre>E?Nawc-28cWe!`<I_M(4DCi=*61qse6g?>VN2gOM#p+!A
z^r+O=Y&g(`oVY0iA#@s>4Gy%YV+?wxV`q|+lktHmsE1CCjh~stNq5ZG5jm9IJR+7c
z{ZY{V$tn6M-IiPbkWwk>)FL^U$UN<-k`Z7zU!L#)Hc`X?OPHX;+T*9O^b^v(#g!~r
z-U&&OGy`2xNrca=3CFNQK!DB@5+Js-$gBk;$@9t4S(K{W39Vg9B3;fws54J@-ivLI
zNW}!{Ow*Ob*JAUdqT+(-IL}Pr@ubJYE=pz>oA6|mQ|x|JT1lHg#UL2kA$C3@#ktuy
zdVP)!3%h~tk@?HFShKx{?(3GWIv#jL{*rY-;-X;gq%^fOp7?xXuTe^=-=)1MCUc!;
zGvlc=V+}FJkLY6w)5&wQNxH#?HUTlh!d~4(7iCLRNmWFSN$DFXnw!Zb#=uuf^Gy_B
zlRie^=bOo4Or}=ywUI;H6az0bKj`>{Xafp2HjO)I#;2IzNVFegdluh8@n^}oNY39Q
zCr^$EOGr|GW_Tgnd`RFbEwHEHgYjxK92?&*{`-iGKQ2wU{EEe7GX1QLGqwL2=lz7M
z{Dgbv&$+fwxSfB>^?kza{e&C*glqlWY&Dthb8vp<=1ki@H{0Rk$SLDYPn$mB4t~Pz
z`Gh<5x!Hm+CufR%!X5f^u3d`=)mV4c<uB!3jTi0r?By4e-%P!py1f1J(ADi%wtstP
zp#n5)Ti)J&(el9ls>#%Gx&P|6E88A$<bS|hI!&#M<!{$st9`)1`{1Oh#}vF=ezo=r
z0^oh{RnrS*Q|K~(^}>}44><Ban6Vx;o7xv!-i}_2KH$iI|79y@uKr2c^S~g@<_GrE
zX46(F*Hw=Es}2OOu;BYgZEK>on;N8?Ryla(i16J9E0eN3C1?4n)zl!>VySnPqc=G&
Uc^~ku-KHL?#Gi5SveEf}0pY|sGynhq

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gemma3n_mm.cpython-312.pyc b/model_executor/models/__pycache__/gemma3n_mm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..863919c8c94171dbb6bdc5fed896965f86679fad
GIT binary patch
literal 32596
zcmcJ&3v?S-njTn%_lpDwK0$&c_$I`M9;BYu`%OJ<OSZew_P`XYNPz}Ox&T@dLw4*L
zPfT?>v6PvP=!|nLC!Mvt?Kz{_os*+UW_P{G%sI{*WoiO+MNTUl&zU%9&jvEp@pPZe
z?tcHhRRw^8EO)0<hrD&`zUtP!|NZa(|M&lY{EMn8kAN#_`|FABj3E3+dN3}R9$EXp
zEP`-DkOWCg3MnxrrYtc_${MqZlx9iVQudfV<%l^_&X_ahin&tmm^<Z(d04(R>5chN
z&YG->RpD++R;8+A)hy4R^rr%`K&mEI!=4?<V5&A&o2rY|rRrn#sfJiXsxj7>YKk?n
zd}lJ0YK}FtxGUL`3dh2!)>vz*E!M`;+{yM-Bo<+DPqHJ`8S7+mZ?Y@Z9qVRsU$Q6F
z8|!89s$^fPKi1FU)yZgTLu><!`;!By!Pp>+2a-dn;n*;X*CaQlHpMovcrdv+wI#NN
z#cPuzsnOVIYHMt3YFlg@ORGz6Pwj~9NbQX6Ozn#8Vrlisr&7CPyHk5&ds2I2dsF*j
z`%?R3`%?#E2T})P2UCY)hf;@QhgsQ%<dM|T*ija5Odd-ej~!?6rsP=aMC?TBWb7oK
zLsE0{RO)o>bm~m(OzLdxEK6%iKAn0d_Dt&8*t4l~v2&^OvGbx}5#(<9xgUvqR%6dg
z;n)jOYwTMV;g}$`y(viT@`)c=_1tf>)Cf{LN>XF;w`1R7Ii1MqlJ}V9Uu3D>NbQl2
z$}fh{jG6Zm%j-p6pS*ir-mkH|e&j{v>goSohq#iP*~-i4|CZ^0Qj(=d<zJIulwbO2
zgHe*TIDi%hE4L`0k<b3f&MW^&ZzFc$iZwd)1wBQrnrkd0E8`cEvgSNJJ~x+`nbKV6
z<X7kAnF%@S(A)=RW@a<v8ClY-2WGBl&Ql30pVVAu=Q4@e8N}?*%^;%LCdSj5Gf`2q
z%*;eBs5qaQJv}SQNzHd~JTr0es63vTSE$Y4F*%hQADKBYFC}IV&CX0FrnGQrnqKtC
z<%}{uk(pJrDm_;(9MB)1R%R#UbQ%R}^px}R<&0jaR!@39kw*7;B6`<!E-{r%%#EeS
zr)0DKQFI++;br~R>j%%x$@0X-^Rp#wdY(@vQ)W|vgX3xW@O&zDg^xuV&3n*hYA$pB
z%AAZRZ(=5qi6>{Lrep<=&Sy`bJ2R`K5UqK3_R`bi7|5iYJe8P{$0@(z`Pqr_3r6yh
z)CF0RFd@h>hV1C9a%g-$J)S&u8mZN%=aZQP>-0(a3cbE*?A+OHBRk`p<L91x`suUJ
zo<DLpe(J!PW9N`pd-}Ok=f_T;J$&F){MjSN#?GC8_S^XApwY;9^6+?O{BU9-qtzGF
zjwa-!qz_3+^2tl%%2XP#lS-qF+VbIK$#|dMJKiu)tSe8%x27>PZmp5VvY2Pij25H}
z{Sjj^HZwV^HI@~`a6dOE0YuYU=VLMs%*`dQJS(TsA+7Q0<oJYqaW*N*iVkRL)@lu(
zx@YA%Dv*+AGMbMk@#eMK(x=06W;~HhYxN2*AJ5FbBG1HA1nM$PMS}?)V>5H}ne@T=
z1ig|bVr&L$C?!h?bo#tJ0{~8A#rSyi9O|dWHLw13aePkxg76rIxn%H6;7Du1bMtd^
zvq~mi{CKV2NIS2L&!i`m1Y4|8n^r^1@&!3Dbup7ZH9L+DX;u0oEq^>VGnjo1fF4)m
zsYDuGm8E!!ujJJDl?!rwPLU@Qm%k9utuOuvU7H|WVqE4<`Z7{(2(l0pB_U>c4m)bh
zDp_JS*)CZKXUY!Ax|{A!*)<(RWZeZE=#gxaU2;gyAK7^3q*2pCHLth`a`bi1K`?Py
zPV(_yxaEo9I-I~v5(Y@`V$YN|6uB_7E5fi+B%N50BO4+!^H^<4WOg!=Ak2_1DLb(%
za>mS^xHvvDBPY|5{*h=&nTxw3$JwA#3-b8H#mF21LP?2ByCN?nq|C(%1vK9rbvypr
zcyb;<Y|8+7XqF2zU(g1ni5E5T(wPsvnkyck8BfXaxaNt|e9R{)?u*A?ogYu?InH=o
znw^Npl|!hi&{SytcpP0O98QCPEC;39fmSCjY7P!%%2uR(D6AnAetv3WCN;NlE-^Qh
z!5Wt{Lzm~b@7(dqc6nnmabe@!mCVK2nT-S=8yQf<<;(H}fJ)(y>5WqyyT?<h;khfy
z0W`^i<A|iUBlu0>fyH5W6#_!f$m@rf`>qYEo{m-9mVB^f<;Z)d-Z}N*z-{TyfjjAs
z53O!Eo(&&YgJXAXW6Co|OJ(5ZL@Hftzm4Em18&CVY66?{n}F$$KseH6)^afrbw@oW
z_GTNN4xJpreqrbwr#-V2I@7x%Y5CQ7Ql6R0l)~HOE`sU!B;R#;4b9G~bKp3PzG`Ax
z6DPI$1Ysz%Y<zB9lCa^|u1ijhr(Zdv&^#(nQ@|$VS&E%Eg69xPQzlKa9g|!wwDqt_
z?o&O@tG4cZOZUy^K6vr{7k~e$JDHEqebTi$awgkzMr}E}YCD?`b>7_i!S45W|9;Dz
z^B<3_Za$XnI;Mt>-?bg*FQfOA&AuB6bgjLMpg8-I_@+R}Mz&2_B<q{Dm|e2T4nj1t
zn@|s*BjnkU=aC$;TXM2|H_t(7SLrjW<B(h^?Umdp?ZLknWqg!_(#}bj<U?-Nx>TD~
zh1BXR)lt7zuOq7R&1^!aQPGYd(1NG`wfzWg2#dlr?(45<DzWa$==c$osNUW=;Y0BZ
z_6+Mp=CW3WWgNda8J}RpmQsV-ABvhSEhi__R6e4xX^bPf&{eUU!(}Z@qF}la!Rtca
zU;FmutCw^B9@XFT!_=yOH0v5=v!yv+VMIdN7ZNS%#s3<C-wn{|kNHM@F`<xo6~A#(
zObCnO55>PJo)eUpP#|hmehoJ*p!aglAPg1SSE3eW95>|xf;2T8(Z5$he4+Pizt?Oj
zL6zGP&?omVXZT0=tN#AG(VeRQ@SW!oWL<~#Pgi6RyEA2<ZceTbtuPi7TjIMGOqAu!
zhZfDwHXemm5MN#|BUUmyS|fd2n(y_rBd6lYL@JR<FAP2Y3n~;(QnOVE@FAhrTQ=1{
zlywd9ZaZ~UqPfxf#O(Y`COuIKZRRJ0QU8VjCR)ET=6vx_Ql^jrnkI1m?8zf%&c&ZT
z@@#zU^nqhX%2EzIcX;e9=8nzIE2yEc&e2=2OEZ|{U!5Ai%;~Fi93)B{EJ*6>zPdv3
zS+toBAb4GP=n$GW+#Nlv`j2E?NBD<(+2F@7(GIQo_`^lEp=)jv1kBl_4%+Zf_q7EC
zSgO|70{~@x@gd2)47O{@nxXRSnx@+8u0`uK?ab>gq#6WONsh7CoD-tr!k?H_#xXe)
z$y}5pI!Q_-Y$OAYC^9*#aJnYKsMPeZ$E*X6BBI03ASx%)k@Usc`J{wK2!dIAlk>@B
zoDT{Bgt3N^OBWNMauPEW$$6=STsnAmjK5=$dV$SHmdf5d7#W|DB1eo;!)8CCc16M$
zDw_~!eqbhfBBRsP32a3bx}a6_E^)#;Aw_K*kY1%`6bjM^(lpe7CLNrrX%X>yG)fEI
zk6$~*QUvE|+Ra}V3eAGAKI;wVo5H!KA+>2}wQ1w>*ysMvoPUez-;(#$=X_Ds7rnJJ
zH*iQDIJ9Q91Uv=7;`T5=GeL*|g?d&BLgEuaNPGeai4{Re{8fPvqaOY{K#0|kKN*A$
zJOV<cZ#F<kFI5?Ylz9xU4mRbl)vEck2{!ufz<{M>chDH9@Ul+=m13!7yf(cT0YIgp
z5~u+C1iHQ%u$+ndl`%A>oS@(&1++tJj@b*-SRH)55D;nBbVgB#7SgPVnT$eIgEB_}
zZGXyT3Kl6K%8bDw-|xRej}*xGPyZo;H-#@PqJ3+@A=;0Kw;I+2y3^C}t;XB6w=dpF
z|9&dF`H&htOj*MPht+;m%r`a{tSr(ud@FtX(5=gA-wvK~-(7R9Z>4J`z0$7+yHt1g
znw<(3JVCps;1C)@1t-N^0-A7B%p=r=v*AItcBtT`XP@AyTC1X1e+>dhG22PcE@VG+
zBgVgqzGVXc=EVfQcv^cAK`DJGTV*h!I<-f1qK(ms4!0n=Bs*ACv8)8qj#R_NYcQ(M
zBD+ELIp4I$JXdUBL_<0%VG<!u<?B2@+tw5s<Oy@1#Dls1|Cn`dQLMCmNTOsh(EXC-
zF=asNnq{omhDzUpw&|MIrGWg2hvwE~TeMZe97}ejSJ-}*9E<iv%K}<lbSzrwPMaV$
zBik8;=p=>S&nTIwU9$q?YPJOAHVj}P6C(zjqjt?(vKFIGj=zZp&^*Mvu##yWX9d#?
zr7OQl&Hpt7Y2y9}x#QyG0$a2a$>id+^DXp0c2XEcTP*o^sX1C+AdBkTZoG8;rJLJt
z9aya&UiPeizF*gLW9<4^u5MVZ8(yv3wCv6|wC5TI)P{j&Z%OpNzj-C5`ulDT-0`Rz
z4yyixS=T`ZsAm+Sb~F#DtXU?RNly?k7#Gn2Y-9NM*d{<*Se^(Nw#Sqy1q}Ny0T_-&
zM@7JJE;=g$h70A5HD`Pc?n~}P_cW2c>#mC51(A;l%${GMo};9mchRcUfOe`tk4d7z
zBF#WBwdDJnlGd`4RTw}2x(~qPqG!>&Xj}AsWD2QJjySA!*P;uHrs^Y?AzhH%MEgfQ
z>z9mXXH@7H_fcPSa3U0>&G+%B{7nkpq73)!YqFvwKzf14b8zloq0L8mn}Ul7qHg6k
zDE=k|5(2G8mj*y&V@TFLlamloGvR^e=PT2scflY+IHuLaiDu#}MPHGnNqk{OtJhKS
z%J=BC)K}gu+FrFrzT6+}hMQ-gBg$`4L3biGrBmY`it4nu-b3@-H9xOsCZwxTo1p_U
z;CP{?_zhTekQR?G415#RpcnoC&8ELXfNk9;G_-#$e#k$9AMO)b*r)pX3Rb}#!7f%m
zn5)~S)@=jo7~PW_J*|$OUiRnfx^i{>YF&S>Zcwcoy!FEEiPgGYC{o{@tB<Pn(OmtI
zT0eB_;vMU1{qAMYf7rTjWy5>J?_h7f+r0VX^UMApKaxV5Y;&%DK&>ADX395q<Xd|3
z&C!BeXc$}*><!iQIYxoT$gSAN`_M<qvousc@Oy}O_2|SaXSKcSX%fO*%6BRFs}x+N
zfM^kgc1fj+0z$6qiH|oZje>XapC+XLrckiB?1#i#&fC`8=We^y{+$JZ67Ec_v3nsb
z>=zG<58Q2b&;6RZf*p4v30hW0ZdzA%sI}b%CndRr`qq^fZl23-*p=<srM5n$*6l7(
zC6E`M@Ix<RoL->USEd&{z#MO_qZlABvOt;xN&)l%$&>7m`!IntD2CD}N7<7Is=>1?
zOp2ftd@;A=l3kD?m6jLTlZUr8>5x23&g7MSdbuk7Ek3y#bctUM(8z-JAlXt4dJ~ju
z8AVbp*CD^&c$OQC7TMeVczdH1Fmfecn)(rxn^=qNTP7W>bPY;}mW9h=tQlA;s5R@W
zrFh8jv?*kfX&5nJ=0%$q{ja@-;1`i&85Bt+26;)$(00!*&_NaGl8;Q(jxJm1EYi(I
z*zvRi{?bH*%5^lN^dr!!(&MSQBo3D13V2mRQbhTsk|Hg@aUjqJgrjt1WnzyC<1xIx
z@IRyGh7f?Z2uI!<duJ>c-lm4Pt%i5x!Y9=5iL5Jh&)=0D-j^Fbtqz~Q>pzoqonauV
zIe?CF!lgNNOvFSpT(G8jz{A9KAsdJ=^D^m&Jd%DOLe?ZMT3!>By2nrn=CCaS!imo<
zigT{I7lprp)x3xn7Ojgm;~-|qE?F1tXmfNCF@hf4ZLDr_l8QNYDq-yEhlRHtZ#yTf
zQy_<50=0nibYaP{<ODJ4q;l6S-}l*sB^OJ>uE~#y7VYOyUKA#*OU@<7B_ZlKqdEBI
z!$?ht1Inb>%D2#z@@)h-_Oi~+&S`c?!*IYAj8EX$mBgXNozA+Dn2UP&7WPA`_YWxe
zpC};Iuhr;9A$Oad&(Lw6@&cvXNG7h;%+GL<xhX=|-0}ECay*UmmNd~r=5F*l=e&Lw
zX{H3LA_zUw$A5(?>3@XaFR%yI3BI~(msD?CzP<Oozw*vsxwT`peRTQQwPUI;d@tPb
z&M`n&-WSaKY9W!x`x@5V_Ery|4DxtiINQES^=`Vq^F%%nd0@5ds?Pdavu#^d-?oPV
zA<~tv>&f<FbK1@#ggYPFt&!kEyQ8D}feo?i$F3c?mccer6TH^_Th4+7X$8Ab)%HL@
z5xipLu*jMmR(%`u{z%pp`Po_xveE>Y|7Vr|Kra*vF#c@9(pp35RFGU#2Wi3}#zjEI
zFv>MVAbB*g&DTprip1U%%2^Cj@0*tU$Z8OBC43JFZz0b-h+7HxSv8x4Q+1^q$(r*5
zJ0X?~vFHCvW&Z#{nm!M3!s(TIhC?tGlXU)`)+P4~n;wsaIo4TU<4bD!DFl#vdW1mT
zz0hzjv`r0dyM1XjwC`T$_FU&awR7Lc&ehK2_aa+!kv(c;&z-5&$kB&R8*TnJee>5`
zXqp7CX{`!Npk$hCXx+HXX@ag0_RqJ(x7;M;zgqbqqXL^MIU(A&kZAvV?kQo(CW%)?
zV43Y#-4(Y493^K6sMs}WS#~dr*uAXa<$YjMZPP@Dth+K^BLP^^zUcVKW=y030#GZm
zv$t-;TPtuaOU_5$iW4Qtfp@x|_)hzxbJ11lor^XA60m*(-P2q&((#0Jxole{9AAt7
zwSS1<2i6<HRa<2ar-;7|oVz4q%Pid^&;nhH=7G_Y<*L0BuUBadv5!>X@{n3#w60n|
zvKS+bFSPP61o)TBX`@cf&1AC#VoEQ%#szSkCm}|J@83+AWimrihw?{M)M1DUip4cw
zDOyqf5XBgNXGjR^?Df|<F4pSlwIw2RE_PTr{iLPFH|F>}*F72DorLmEGQF3{6&`8M
zi}jGEEd$s)AL_`32Gr2Ntz&n$9$yWOU327HyK=2t)YdJxcdWMVzUIj{w%oXK{YtKJ
zquRJJAK8$LY*Hhe@*M-YjxB1(mVDcWf>UVPv?kb^f>@(9K}IZq6?EZDemt4TT+tky
z^wGQ}ePJ7A8AuV*VIW0Y_YW)pDa$ls>#s^@j#tG;=q)Cm0TJ~k>NANWrkUnP`6m>N
zBj8x>u|v=H^IzT2v*sc+^qqJ&4Sm_TVic`x6fHE07JU>MqXJ<R`v{3T{+kpKa|40{
zIx;hoGE6Cd4S_*4Fz_NYuFw{(RhI(?Z{eRBm6T5?Mq|Q=gO^_hIMTJB<NjKP`^#Hc
z82-h;@h_?I+X#NnIM${u*D@TSHmi;JJDD9lfpFP(Kh&~Z4Iau@d+j2T6V1K3<}GUT
zmgSQLo3kqT2iC6y+zLUVswL;^P<<Wu0v-8Q9OL)qBU`aW)C3<|9aYsRP^kqgweVjB
z+`xG~p@o1DXv?}<In`T(&8B<+%FZDPkuhojs<n*3EuKVP^@3nUJ`t=2@?!+1b;$<7
zOzCEYM(CP030D40p}~hh0&1^>0L^>|$Rv@7Rw7@yUK2I}Xg0AlH)1vx^AxuokkQxz
zrYwu@DbYZTI2<&$CFHvnolnT8`kvDIM4V5OK*@ea6Fon-csxJ1dJxzUcz`B9LLard
zIN&!4(P*iz8Uu8$BEZrK)pA_?8mS{Hn^80BE1`}5B{k(X&QH>sRe{zLe`a;<te)nc
zkuQO>lH;3;(JjU3NHIF9{4Z!SO`8W>2RzV8<xi2iu<`4lzrr_dq&5FBYGTcU?rCm+
zr%?@Uy*-)Tdv-PS^wsKR_q7p7KI%hUkUOB(4XoA;LDUim<pN!5pldbIvuw}Tg;u(+
zpF}buz1L6kNdNV-JhDNp>sfYxUKb@AyQ*Quo%MC%zI<}cX{+}vyYb@s4ZlPlIu;16
zbS;0^Tn<$jO7k$Z{7624k7P^X9;m4wh;LQD<$o*iR?S<%Uxw{ovO;EBfl4sJ9R~#*
z+`m_i7?T%#&yN@b_wNM|W8nV18p&Ry%Opp}WY&wRv@9lV%hk*N<-l?c&R-xMS+ZwL
zimkk)*#pNDOE^oGlF8W~7G65RInD0{mt0Ugu`jv|dJocR$24g~th*N7MhQ`Xyt_h)
z<shUwt~Xs7Q!bpTF&Zh>Hd;Asq7@@W6uy7TCS>T8j$K!4fxMzXUXCL2TJkJ<rb*Xk
z-DQjjxM}a(zPGC;YzgA0zpeArUP!jRi$3I5O;{MGeGEvdDnrB0uEnb9W+Ps_BQ;!n
zGGahjRnu+8Q}IrXAtzEyF=9xiEqC4Zk=sy42ai8yLw}d5e#`Rx?;vJds#@|bd37Ei
z>6bXSucw3Ghot;pqdn!{P>`iSMW9)Mi1^tW*1UOPF>tzucIqG4Xfa&1z5<btV!J9{
zwM+q1BE_bsSd5e@L!*cj0e0mlsIL5&0*!)yN5MS=X<8*jL+V5%)372+i<W76;n>&V
ztI5O+Q{Q2F##|9O{V4g!8hV-V*e1M+XcvF*TH;fGd%mgT=FV*6P&P1BA?bcy<F&2J
zr`R@HM(NRrjNpHb=H&<CNkL?ixtG8`En!6dws=DXIJ#`Y72$WSmqaG)<)dKLEW?{L
zF|N60mBbWrB|5LFf4h74lsqF}o>TTN9Qx(I+iWC7-&{xE{GaHvvmGbY(Xm^v{;(gn
zpD}fg-|+cG$n*XfWjOioPJ`HmUWarUWH0S)X>d^KxJ(-K(IBVfR;lz|3K%74OG33-
zbIUkqggrw>)*Lt#0coe%p)oxrYgRgoV4G$=c<@Ij4EkD(QyHQb&7LTKPLKbIf-ew6
z>-e_$870uRspKdiv7GWB5NOo~$Ut>GA*J<abC~rJ$0uoSqhuOA1e~SWOQAYk)Mke+
z=UgRNRsM|L$F^7+){-q2(fxGkTkU^A?$?VLDviWBny&<czhtE5uVPOv*c|TAyXk^}
z+Yd7z9eV%DR}^K>kWn?ay*u$v=yyQ5-V3#w(awQer~hr|F4fnzeEizQA2;>fyvUSu
z^1fzHy55Z5^$nU&s~so);K(0!-AVl8;k%<_c=}V{2{2V%Phs1xX}IoG14FlFh+YUh
zy=;ft&%mbN8~AYGqoJQR`U0K@4Z^?<HPCy_wK7<!7pm$XpjW+XHSWf07Q1%fp<k%!
z&$qU{7kejW+}Z|jJ@b3t`S3ex+s=GT_`MzP?9g-mtJhHzgy5{X_W^4{aD$|-!z<S4
zWd*_K_WbNi3mX5~Ln{)}gm?exzN#aAu0Qr2@Ez$4{7I7?4}a20VYFra2@TMmp!|Ib
z*f9;!z{(N@bXunTE(P5b+@YY40wRf(9tsH0DH|#H7Zm(w3fMW%0Af%hpPx(0${?i@
zp{B6qKyaj0=@QTh8N$~1hav|+fQhi5u{p|nRGxxQ@Si?_oWGzGAdCI1nC;w#11Lla
zt}c7W{XlKOjyu?tU}&XwWpbrOt?4N^Dapl8e;g}MskMCtHzk4U3a=cx*|2gFM`;Bw
zB|(d%;ipv;J0ZGpc2wJ5u;Y#fJNj=~Z#{p@t42l(PD+ACNzJv|Y{NjdW<YfhuDL0(
zVUxY>ez2!t$K9xO?v_i9Y%Vw{$t5%m72FiV0aNhWpz3a4^U|XvcA{pW?%KKQ?t&e0
z)DDjnoD{>G{L7hZhpt}9Ht){*cdPC_KXp^aad89s*x0gi==zm{9dW%9#d!CwN!gYy
zYQspjW<+(5e&t5a0|5cU`fN-mFs9~3vq{(53WD-eEv_YvGa!e4#$?5rmW`bN*>D2n
zatqLiapQc;EqkULSSw`#K_cl-Be$t6gFUcZXXQMcbGe{9Q^n4hs=>H;Obr?)5NCo6
zZsvmHmgiV3%@xBUK$Q{bEv9EDq2S2yJyUT^k--tG7lEcTuz3awikaC+5*U3RN+%vd
zeaM%Sk@OsFe1^4}VijG)s(DFoM1QEvbe_OgN~bC%Oed6Xi0L$FGSG`+C027$h!d^O
zuF6MPC_yXEC_yaIx(g*ti6`2iCA{uJ31h}dcZ8Pvx(g*-MpA~vKkNc~T(PxEQbB{Y
zMoXq7Fk@1wXvyrO(K^W*D@hF@L?Y4z7uqtv_gB!CNv~&GdHbvfmHS0p)VfQu6h-{#
zncv7R>sf_*mA?|LnQ~^dX4bnx3_A`gt@2#@DDJikiE$W%DWJ}vA9Qg%9lylXkfSx6
z7=aNGv(Jia-irxXY0Si#jz&WX9G9m1lvFxC1Czrz+UJe>7<V3@ot#WVG0VfBSR(-j
z`6bmABKbih8HR`ou?AZ0#c@UAv=vz=vgWl~T8rxv6&iP~&a6%n9a3B*Ytgon)Y){V
zB#X6Y=<@z0T2TI93K;o9po}G~lPgw?(L!e_#aV_khK-?m6XntmQ5DoAHg|XRRj2A|
zy6bAb-@856dr0j)v~0WU>dM!4=V~{rwVRi1-*@H1L%HxSHN1<mLiy%_T=O=yc^k6)
z`N%*nvR#dAr>xe`LmTtHz}si9p2dwTc|gap*@KeRcv<&=nVb*Q-EduZ;V`Wmxp!TW
zCujHI5KnKEMMwabuW5kXt%o(y@z5u1<YibEe?z`8j1n7B;!j-zT%P9UXQM=7R`F9e
zK38eZIhjZagG6IY&uc$N0KQ3-#Cf0*gyI60r{XQ1y+P{`Lrd4ML)!L65TIY$63;?i
zqtudhW+Td&2u?468>Dp=QN{w0i&@)-GNyQ-q^`{@LAsCLVvZ48G!?m+B+!ndA)yjG
zzi2mFqJxU@Kf}lUDz=@nEvKk?e*gxwMVmz0n#@Vs6(Qwj80Zb3nw^>AHhOGJ8^_|G
znPN)$Y~N!$A$B;nnua6KGYdjPga3kz7P&zHu{0ifMd|hOcS=#gV5IaZGN3;aW{AFA
zRI;W9${?uN*UJ4Y-K5Q)7DwS(W@fN%AdIiqTO^xG0|%uemlCj|#5ck)HuCa!*l{XD
zf`f)397U3o!`#?uxMVvYF2QXtm3-5gg<apCosXpE(-{y3@<d|tN<_X4)AQt&$n1>F
ztU{S?flhaneLoJaJZ#*LD9Ws&_y9BtX%8t*3cM6lQ9z<<L&eok2>}F}3m?WYsLMdB
zT9uK;u%hxg!1z%`S10soVO}LIbUYpb>P0@ni_(7st$;sk6CkLp!|D9Zq1%~k=To10
zci#(!^MO+^RH&`SAqW@`m*5L!z1=t~;pb1ct5zHLUOf(q^u~9ufA?nMc6V;eAr*hU
zhgKU8FCQ-!bgee-Tt0rkr9Ia&s<w>Y{?=;CUZC3Ls%x*pPK;~4-`=z8Kah1DV2BB(
zPZhM>Pob|0krfK<x(YF^3Q;KvVSKJzb_S1{r?@(lvy|UJ`9Gr=Aunb;r867<jS?w%
zod$!B9>HupfUbL8!O;t9yCstC7|Cuup6xiUwu}|*NCVZ~(Dzd(#o$q5^Va;P(Fe{J
z`$6%3Eeut2P*Uf5>UK&);ikw<`v<=FeQM)Sft6zv{@dZJ;ji3OgcIk~2mORh^XW>J
z%szYq8Rlh35!dzup{}RcW!N)L!5PWl6D6x;n}QYNyOx*(=F(0wm4^O0>=Pxg<ddqT
z>UUiq`3<BNb4dZI=3P+=!g{e*_ULqe-J8|0YOII0S%X|9R};++X>22O%lu|4*Eq9D
zO-$pAmkpv+2+y@rGxX9L<T|;2deHm=GorWGf|89=SPnd~WGhNGp;Z0!7PApEGCgWW
z%?Qrk+fb)P?`;_UYR7XcIG4RrMCy<_-?d0xm3t?3<D0{bPw7GIv0otd%5AJq6~0i{
z?(2KgA8Tj)(!R&Ot-tacq$u7UVZGS!wY}gYADQ$?1K^!H;P#_pkI~bw`4)`N5XPrd
z8kW1{ZrM}04bBg;J~hZavPYlCji}j+_WLmEn-K4pqta#=>Ti)Zu($GZ4r$~~o52mm
z22f^H9-NMuQ)Wh_t@5z6P2MPNM~_)uX@|T?+R5I#3++B-rZ>o&Cj-*%l6JSCU8=hS
z<r?H+aFlyWaz_|vIf|`(zt*lJNm#obnw^mn+;zz@h%F)e13h}4w5VTY_!efX`u#P2
zcTYh)$fM5rITnFsqwCdI^n4%7*K-zpY^RE|ljq?DLgmmIdyV-Z8D6M2I8p9TVVLov
zD8=(3@x3G~!wWuE*?8ilJyjS_vX_H`o<*s~b#1|4!$o;q8eXVdm%&~Vbu9$>+sgV^
zTbgF}k|(ZfW<f7o-dDZRvL1(dea4bJ+HaT9QO(ZEf$0e{foEnmPRCr_xr7GGM$&yG
zM-!Ttd86R_xdLxSMP*as9Ep=<1nbivUDxsDAoRWoUtWn@#aUQIB~u(DSLE$0@wPZV
z21#1NuY-h*6M@YxoI#ax`_@X__q53=8nqaoT!DL^rfqWFh10wWGMl2>2Hp>no?k^d
zz++l!HcA%nWi6SqgG{?oqVoHZYL+!h7PUjsC-a-jTB`8=C$?nlqe7;~coSHSito>m
z;FDdX1#8G8B<qw2&Rw4~^vxXQ3<*Hll`;1OuoeAAYVmHgRaSeWkw3l3h!yXEuy45c
z;f>}D7VB3U-|20|d?WS?)ZSs#Dc&o8?ewl<2_rVW+lUqK(|e0?BR0L?h!yYu1Kx75
z*t!w>$ZniWVwO6MR7htWB%N_^+@n>O<3xo39ioappd_ZyT7sgqs&VjdI3t=MuUF*X
z$05nDB_?FeE|G(mXcrUcFp^gDF-)in9hCuU&Ihk9Glm>eVRDct(z!6iMKO|ZY2Hbw
zhZ~|xV;|9b>nlaon!c;(d8XkVb{s|*Yx>5;>uBDRZ9<{hQ}$4>fnH1;Hv4piQQ>yz
zi_E6AKpKvV$SI9tbf<yr@X3x(S9zrqO*)#Zp){QpOO9WWm9*AU!kIA>f0oV_gq1Ef
z9=t<(6AmsFQ--KN@K*;h6FCOpwOC0KO{EQfizbL|9B{vc*d_|tkTR(f2}?O&Tq;;H
zEC(M)GMM6}|AN-i{{X>Xye`~xRT;vid`&o46IE-XISA=%MwT7<#!k*pE&KA}zFc@z
z4Ugu+N7e9AC}!sy!jKqw^WlCjaO&7Xcj#k9a?OKk^I)!dyV?wi)A#+KhkJ72&1!h_
zorc`b)9TLCcf)5`oqH|axt2|8%ceVy+>Vp#j+1v=PEkhFz3^7(g6Dh@)fc(ho9i4^
zJ4eCpwK5S>=pjxdcz(O;Yrol$>ljfxMvxz7`ArX9!iK|QzNrgc%r*3@4gL3O+iyCu
z{X14`ag4Pw+q~(a+rEJnZh<_iz3Xn**4vrf_7m#%6RT|}sS7Q5NzaB4PQHIK?`zEY
z`c+?l&bLqX?SoY7?UPqe=6qeMuPf(+4m!G0mc&ZcHs)%3)!N=%Ei8ivbG19w+MT)D
z{c7$0T<tNn_E<jHkPG&x!Jb@jKn)J$f;-gUj$Ck`8r+u)9#Mlw9(o-lG5b?j2j{{r
z5D3c%%8tkh%M)-LJ{=xskZW2pJk}uBA{EO(r{)dk2{?r`=wT9;y)Ir6imK*|Bpn6>
z(Zy7_m<qY!h=Rd$+H_PBk!Iy|1Rk9tx_1xmU_lq?4M#;*89XMvkGWnlq^azy3Hd1p
z2xjSX3GUf(oYu}QTi`4T^eR+H$)lR?DS^p57WO@Xh8})G1GN^s^90@rF$B2fwi^rA
z7j6#U?p|%&jup|^TK0V3-;#wzjO%o^=kzK<e^=hynDw^jYa2iJ_uf8rw<trXJcV<3
z5lJsAD@d12kA+XhV@j@@$o12<XvHA`zKbqQ9PFRJg&4Owv6RKxWSmE4*<_fdzsY29
zBKyB%GD;d~r^z^t?y$+|==;F)z9&0y@Z-a)kuj*9<-L)tw;zLjzpeYd>362H(Y+tr
zR@>k(r6uoe%X)j+Japtcx91}xkZ98(wN<wiD4P#DZedI6Zy|C+NC>oKpp3N-S|?Z-
z5-InGB+S8UqEi1jZ$OgW@b_aFD4{0P=1Gg+@0DQu{F;c^0IRRh23}`gW%Zen()SP8
zAeY9BVSBf5dktC=+<Ki&is^@k@+k|RO3UU>t0RL5CKkMKg|j)NcCAa=Ux7cy^7YkI
zX?c_!+i;=c!jWHQl|9nTMw;GV#{fWWsJ$cW3a`0@=E(Bc{Xi(&x<?J{$=9`HySBr~
z=l-Viw{5vi=haQ;9|)GsL11~<1Z@sx1Kl@YfDQzNST)Vr*3s3#D6jMB6Y6}5Iw8Ca
zqQ*dX*44!ju3`1hKC;XS0v!f0?(Htd_i;LluUk&g5d)4QNG<>ns_1ElfJ3qt&)F)u
zL3o^oBY1)eCxa5RTf^H-e#?ZZif5UXXz|C?uEYV+IN+*eJ+8Y!G)kCfw!8*~#_mF2
z_?UN^C$+^|m3l0>7Vy0bLAFGN>H1=6BL=i*>PA-5O@t*rW|J-~G3f0bMC>SJEPPw@
zNVD;|*;%r>B<lonGZbeAQnYlxpg<vBWeWee?(c){2+7K!gFJ$pRs*{_cr(*aKgl<(
z<^+XJ=K(PBqZ_C4$OK8TQH`)p2(vRvPC;@%Qsjw3bD~0O9<6vl8)p(z^Rx451%8d8
z?LR+r0jggH#vY>v=~J|7y+Pd;aNSC;BQXs*rY+k(N1wc~AFXu+qmljzUI{eqg85d?
zA5mdY=O4_v1`*zG?7X>GZQO$WGt`<3ZBRoS@}ZvFJs+QkVMFr(bZDAAf9`2fJuR@$
zb2mZ{hLrF-Rp==P+H!$z6^r~CHPA;#liuszTp+3jqPf6UHL%r8f|}C~C^T19f8`OX
z>#x3W?U@yEW%FuP>rbj0ug3oRiv>TmT!&z#`@Mm8a8Np;Hjm_*_o>bMKCV@p538=j
z%hmTu{7-$q_1&yLvg+TP^B;i&u8+r8{l~K|?%vPv2J$sX;xfkLn<0rxCy~YTO4^0E
z(()6^(Ne;+ufNC`)^Cz{>{QVPVNd0=O<R$;TXGa_m@6R_v`}G@N)|c?of4<SqEd9F
zg$p(23TOqat&TQeqfohr&W{|%f?aZz^w1Q<6u%$#5EYOQJhbYg1lt9N`95+VVhT)(
zZM=y7EV-9FOR&|bB%rFKO0?*qF@RFDYr3V_k`Y^UFGAhfd~a3BH-wEc#XHoiVNws3
z43|N>;Y8RmZHldmB_$KhaYV*Q142%W#8b}Tqd^}K1Ik!Y(B5>k_r?E*3t|JSlt?jO
zIMINz73rEY4ex0(_~q?XgK^Ies42k#utF@oW=rC@m$d{hAQ$0yS98zL7<HbZI>f(f
zEu4_6jLx9PItLmajvvP}%5x}gxaRm4)&HN3zC%7iu0#!UX3fJNnLV@aA<OU`ss(u-
z**KHJ2QVnS4wt8aM}Y`{rxlN6jh7g11$B2FoR!DmKskgwk$^HXTP6WPLwTyvkH<Rq
zC?Z_m0fs;pzB$4zsTC)Ldm1BUBHVV>-=6gkWL*OY?}xgxJ-gM=o?PgN8Y1)+I=)<;
zZ;NI(>{HwJ=h}{|ZO1>U0ozNIa(92OdsOWnh0bZVbyGIH30!rLM|E}JKy(2-P;*-@
z6jejfJ5||GbTxEzx%y#HXzP0K#dluJR|nsoy*hhSRI59(Rh?O1*GF4_Z`X&r?#$%&
zo>TXpduX+^!JxYtt+aLKT8Gruq3n(m+18=eR=m3TUa0N8mUmiU`K`14!Bt;(ws*&!
zVRQk?DRjuY`-GT#>a2=C*N&{KX=UhEd%nGktjTljN7eSDpR}s&&x3T#cZ}pZcBvh^
z@-Q85+j9FXn&`y4+aMWeZhtTIPUz+tn3H9@PG+BZ_HO7LA^X;xzgzWVb6NHGWnF!Y
z1}x(XFv6VdBdPA=FuLL0Q{-}|mr=CTA!d*aH_Ih*3tOJF%RXA?H)+ZVZ<2~VcBxL)
z-<frFKH6s@RT(eye<SjE-=&h(;8w89SYC(m#W~P2Aj>S^d!7dl1HZD!t-|16OA?t4
zLMJexj-}DKc@;HMfT1dy<^bE$SmJ`xAxv_pHSj`P(VnRU$nz;IY0vqX_DoC;Yk+To
zOR{plHi6pAe3aV+*cALigP^=X0S$*TgILtX)!i>p0)EXw(CSM#lcHFTtF8x1^4N;i
zYIL%ySkgc##gsIW;v}`8i%Tv79G?`MGj-S>E4y1?W0_#!@1SMkm&R5yx%M%Y{?2`Z
zm2i$0fww*D?aSBJgNGX31`ZhvRcHvh5A7qjkE`u_vc7QM-?*~<Q-3F0_IuRsJ=wiy
zR=dw;VK5o!$pr@0z+iT0@7=&YR&W&syZUlnyVb7U**&LMyUt_-k&=RY{xq-`q*Z9B
z0K>?htgD;B<C&unBv-+-q4=?+k2fR17x?V#Yh;zr=v%f8DGJTbB?>MhFqK*HtpYJS
z1aE793psRXwkW>w9$*GZ>#s^|RAn750}`3lWCiGh!TtXTRtj{%`l}KhWKsu2r&XYA
zB&?1~e(1TGTXSVb$YgY|`YdmNDtz6aX)t<om5v`blXjaiGUtR!x!ko1BuO@2ldrfK
zO&rY?_@?rij8<`k*o6{W8)3Af@SClqq9SHmd77Fj9vwVIkGm<@M*$HPntft+?n<01
znELtB;LSka$q=D4m8J4-Xn}RFO>-^HN95^?c!_Dk`GhrTzW8@&N#4chL#$5zPT+Ml
zg8eDizC~@{l55|gw(rQbzo53i0GmzhND+8331c^mY|6E7SKGJe13{C8=>v<C3+z+_
zJJ%&0QUiy;+wi)uP_D`OdQ>0WpB#XAJJ-Kg?caOnRki;>)^{-HJFfbU!($3|Ug$`9
z1YZXvWVcRd2M^q<ZMwc)t=({I=W6ZNtZ(b*{<^D|RDUm-enLRj+y@yM9Bu{r;Bbos
zWp=}*hI?){%~TQ6S{)SC&EJH8>q7RU5RC1epl!#vXlU6M^gTqdXsvHRK*<c7jS?ky
z0JN>r;^k75X87D;0y7=xN-9=V#Uz93NeelAq;2M1c>f_U9bhS(09SZ*&>?k+pz5zu
zz<73B5zLA(YwQyYroLNNfjQ|`s1dEIl*La!iuake*FxWuHvCDhC-=V*IFV2o&=e4S
z5N{5^7t``-SlxspTwN`@_4Mr}es1x}W_A1NYzy2lHQjI8ykg5W4X8~6xu(r((`M#T
zr@ml!hDb%MZ8+bt6?6Q+OV2*RU;m&AvE`~lPzbbQ=U{kSc>`ZmCif!b%MkDmL>@-~
zRU`>YkO}w5W?>_%RZqZC6yzB6doyqg4!&d@O|v(b`m$1f16?uQ2|RW+mN%x+=n>y#
zlEp+N<@}pf|K{66tN#62*M9b)nv<W*rOQ5+K#YCtv+QGw8pNgUM_{TzW!7CxGq?hX
z7R?3#e$3aGBSp>`6ktm_f!2IU{Je>-J&!X-I0J!#2~#97%dznx?QnQdWWR+{=7UFh
ziw0`&N$^$rn)@_NAiyw8_i8$Cj;_}9<J`|*&xy*L+i#ENM#j{Uv8=yy)eo;<C)k*k
z5yqxGbPJj(b#zpDC6`M)F%<TN-5y38AvmV{1IOty&SfK9n}&3Pi_`<xO)mbR1P3Kf
zwyoFQVd6IoFC7AFZV1a}m?{!1W=L;|O3O(=U4%xzhMh~pEio~S%!iTkGSW-Q_iEa>
zK(NqspwyE=vb_A~G}iPkDD^`$)|T^cRQ((CE%0+VlyB-?=e~%OoMOTxf>2Q~!IC(7
zB7t;bT)e`>LyRyNuh@#<D%lss-x2<<snGuGA`TGPp}|6Mx9)m|>>wBowwIC1$l&Z{
zkz3!p(D2-h>6xEqfO%}$6@mC5h_PkA+MpYFD%X%u29{ba+whBKpK*-x!pM`rv_hr-
zhemLKjo^K6?X^pv!v9BYU%sk-rSa3M2%?_{;VW$G?Tfc#+1CB5L2QFuYnOeP=1FHv
z{e+DK5-x)mBe#3$SK>^~!2&OJ`fm_jfH;H2lO(f+=_`aG-1LJS+yRPAW^RIreB&}_
zX)j(vzU<&&gS^5qR!4!vAAVeI3($t3bjhyADwDF65R6T7m|`G!yQ@e7SE>hXTeF_W
z?2mWRt+>$-=c1b+h4*GAgnSo+r#j?QKj9I#n7`;@Y0gDYNt#RY=-+~!w~`gtq-9Bz
zyo+K&M0>t>Elb{_*sJJq0b()CGhM(ARSWNwU<dXqY{n^aI?_3*$np^O%T#B?m^0>`
zxTyXAf*gTDUIg0<unGAkjF6NHwh9qgV9!X<M~AsUdFAv*W6tUKhs?L@vyY!5FtF7^
z-EMBiJquKgGl9MH@U!SqZV+gB&X>RtixUhjc=<0Dumz^{px}Z7=ncJ5R`>&9p~%Aa
zU6Dr@;cggv!wQPO%Cqj(43~KroYSvZFnp<_L-HM~{1C$l-`2I}DmFnk&7AIPUglR)
zW?m(^!VC#IaD+kp7U!dXn_{$Zlpj#=w<&msg1<uny+NyHKYKvSiv9Exuqyo$gZT_R
z0|Rh24{3ISvfhP?&LA@nS7f8lm0jt00#moJ^_$>~N2+~ASVKRO=oW%eY;dmXo6%c~
zpLRZVeemNJ)pd#`T^mwe?aK}lbKz)WlN#ET3yrEF7zNx>Rzn9NB?`Ca!Xs*UBp2SU
zhPU7Ge*Ele7>5C&``)@0->2U058I%&vf^0zZnkYW+prPN1g{<?KPv;DR`vYY-<l6J
ztQ@_$H`}=-izA1?$Ti20{otUHnC%+Pc5cnWVk@xin&ZB!IvYH#x=t@U?$<P|cydj{
zYSVBwun`VkhDLA8*}>hPIMl|o%f5U5+TT8L)3;juMU=Ab!rYq4EUt8GCLisRP&60B
zLbILuf=VS`hn5@gd4N=*_&zX!Umt`&(wmrMEu2cs#A#lpuEf)DLz;ol;~8o860>K)
zZa@Z=*l-!lFi0UFDc=o3gxF!Uf}biR0;j~<Wnt$xncs?4BfxiQ5}fnBwUg-FNWQ7{
zest(zm6LcFr_RH0HxZ5KR&?t+vvUZ4@L_Tsr{jzOFx1;R(5~_xeSQOsa9`m+E(iJq
zLJdv{DCDnDSw;z^iDKWSz)Fux6eANb^Cz{&=m>9&8Bp+JdQ!1qXZ6ZIq!^P@{b!1i
zw4GatFrgL6s}xe5)EuW7d8Euy%62OC8e*`-#1W-JtgA9Yi47DZ+F7B^K=})*YJ~|U
zBNG|Xqr6S^yv*-sO2*HmN!(KYw<y^%Gp9KTLn`A}*t{wvCSX6&rVwgSen?G!NWstO
z@#hE_wX~lJxs(>lq2Qn6Ki!HxkhOe3Xzj?_V4t`pYis<{0k=bR#@7TErC_&)JP)co
zZH}z1`9YHq>cu2>ZO(UX$@lE0uya#>@NgdNO#Q%vT2I&m&jKNot%sB4gW_TFOQF;5
zxw%lF+ntf0(hY{`9@w$uo7xIiir~i`vcYcE-Lqz=$3j!J-NQ0*FUiAGAyQ}WzB5@6
zaQmcgjc$d(Ci|FpzrL?vrwBUdsa}@fPF_u_?v^ztOB?OB_p=hXuP;DJr$o`-b@Rvv
z$KOBx!P)oE(oa%!6&yA8o?8tC0k`bv@in>^289D6e#gQYL03Fv%F`YFvI-CPYnyKD
zzP`I)rwqsr`m_DJA<Q!hmRj_9sfZ84_5xJ|*XZ$+Y0ppn^mIxT_8k(*K*-x-Z#7#*
z9Ie)c*gIen)C#G4dtbJ1m)iDJ0X9Lc=uFu=D9I<(h6+^_!#i5n{1n?|vmX%eH->L4
zUSBNO=>hG+(Lm3Q!RyS~fRm;9EcTP)&EvP8yFGHp{(t!X(3c%KtPUMfyN|-K3t69x
ze3JfWJIJ%bNwMH^VScO0v9<@|6-P}0KgxGdyfp$R8@S)r?{{{5eCQANe96+*tY$F)
z9@Xfz58wCKyuEOBfh?x*b07ld6Bbj$_|V4Af}3I<0p?O8*YSHE^yGuThAfQ3YPS}u
z=($=5g$sU)1%!sSm5J*w6>8`yD0u3=tVK+JDWyFvvX^=QWi7n~f}Z@yHg>=7Zut^0
z=wXE)S`g!0H?5cGgyx@^#qX>#!{hYu_=O3+f{CtV?k(Um<_d8j?3WR_>kFbkxuF>e
z7ug1`*`c<IA2j@ZT8IppFzn%D)D00$&|_sfxy-AE)>4|z4L#DsQ~ak9xmg>DAlXl`
z@n317Q&nc_rZrcpnr1&+tB^7Vw};T}8#x-Gje;Rdt$|ov!}hVr=P_sOT7YFT5nFng
z5i*2&^!E7A)GEZ~Yu&6Mqk_!ecO2%ry8K2q<=h;+<LipDU$*6T;3HpCj$59>vo`xZ
z+@kc78=!Yqs>%9R98o&E)uLZh5asCyGmR}KLgl}%Vf?-ownjzipn`thu<2ex>7-OX
z)WtC#<^!vAAyet5pofapud6)FJ&5;Gfj$aIV4yWWQi^MX5L`y7)CLNOTjSnVhA1{n
z0a+5TpUq;P`m|7mh9(oFY@?7!L91f<#*Z+uy-jOkY4aKUpe^iWN%j~gZSK^#GD?ka
zrFtGFp`3)<j5OaRNpPj?q%1qD$;2*v@7_&WOksSC@*!QJUqDu7D0!BG0~D~Wnv7G~
zZxAVOP}+MG{4S;aH^j7{@e{O$N)1lR*-rR0m3xK)5-Dk}-F$xcD*qaF@h7BTL|Cwj
zqWG0V5O=7;_MZp`a>9ZCC<OnV;QKS7?kB>guPjc{0tc6(<);Bb+%NvQa7YyneI|^2
zCiHzKbbTi5_)OUMnehB)!hz3(!=DMqJ`*;6WwD8t2LghxJjIxY+ClJB7BmRrp3j7#
zp9p*ZTzEkhUiivl7cCI}q9Sm5{k3ncy4zkS%DApED+Kbj4G14PJmLv)CHW97oDd&2
zd&DtuB}`A)9GiuPp{x*m=ol3}+3@f~0r!V9ViZr2ZQ1Ro)X3?FFqrZ@{FXRxL1M>_
z?9MZ4$JvJhJwBYX9}~rc;!Vp3?)Tjf1@=%lZxJm0S+OoB_NiiD-qx0Px8-X#KyG5O
jJoLP17d?5K<E^nbAgt=hcI{ZRQqr0ixer(_8~y(ud&<~W

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm.cpython-312.pyc b/model_executor/models/__pycache__/glm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1a9f8283d467b4604a026a559cee9cdfe7fa6712
GIT binary patch
literal 1516
zcmb7E-)kI29G|({-P^n5lG8RZ2-U69$erX4G>}T8Mz2k(B&A?0vZBLgckZ&++1qty
z&gR02eF&Ih1^XcJ!G}KhBJ~gG|KLjxQgRFx1nEQH5~Emra%T6oX$n60h5i1TneTkQ
zKX!g877IWU(Z2Ry)&Tfj87b*Q<=|bZYy%J2z=K|fz#wC1pwhD>8)&vBb<NX>9vHR(
zK?W=V&)5WB4r{lwNenyJHOu*p`g`pLrnv3mnXpZ|*7-%N5z@fn*3$CI%&ZlJ9wwF>
z29d-4Rf4UnK3}sgoxgl`#kz|9<{D?!hbm$jio%D41og1p@SD;qEfXhj7DHNhI?N%<
zD-U6^ZS3O36`wJ`-CTCMn7Rp`gg;KOD($aiiWt~XrkPP`{vgxCSx>`SL)!uk=;@nd
zw!Q_{p>2Es%7z$QBEb_E3I)oDC~o-cV&roP4!JQpsw(U%IEpgzQ}?RE9DF3b-$7Yg
z*n=(Uc$!*j_fv!(`?!%VUDtZxn`Z#%!CvO)%<bV02zsCuw>RCF$kymlTUlqpCmsM_
zWchfy*30rzs;3btym8#i_Oh*K)0IQnI)1398X8G85B$fesdUGoM8#D1wEuBxEIoCj
zp@A+a>ld1d=eM`Z8LE)Pomjk79v7qWqzxM+@@tJ$oroODeTN_#a))+N!*O{?h0Zz=
zrou$XZ~Gh}p~nG)LDWz&QSjx2G49C8rm8C<&oF5qhx4{53`5~yRTO=O+BjTCjCTnZ
zMu;LBwuH9oJ4_VW6+c2sMULl{b)l&shscE<-zM@1xx`@%A*LqDl638#b2T1BwaAZV
zB<?2WGwYqXH%?!f!!_cs)}k(73)?j{m9->wypG+DOf4~4tx1Av)TMHWz{Yb&C%c+v
zt>%V(DcPfIU{GJ&8re0izG>~6mA+ZoF&FNe#p}7gId$vfJCk?KDe2iOfXU~#?VI-Q
z#PrU@^wzoi$4-2YfBf{`vDv|yg>Uuk@tfnjrAoh4*(seKR9{Oy)BV!)PU+Rb+?gjm
z_e!(-c`*6PfrJ3cIn|D~6JXhn0zxva4pI6jLZ5XUlB`hmpNTBvG)_$vhqZGtAqbTr
zJt5bb`Z*Wq3zAbaWolrUay{AvgLmqGfDwKE*2bO^cV7QniG9WBi|K(2WmDu3@<LaF
zh#!FJ@BxT1SgQEdqs325Rwe53qVoL(Lho>&uy}}KEI)zd28BeJ^GTL((TX$`YIahx
jy)1-q-vID^_yD~0D|qt(IQgeB3g_=mocaq$8He~6KXq$8

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm4.cpython-312.pyc b/model_executor/models/__pycache__/glm4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5b0fafa2dda775d52226a6111a9943adad982a29
GIT binary patch
literal 12153
zcmb_iYit`=cD}>+o1z|kNR&i9EQyjOIhJBOi5<u9IFYrE?KoK`yDZHa$&`nW%#0k1
zr8Y(zpc1m%SU?w++XPYCA8W$~qCW+^=#SkWMd6}<G*%X5r#50>Q*5`t=#_#jTA=MY
zcQ`{zOL<##N8+7x?>+Z@?>XnYXa33Ub`W@Y(?_ZQ93<qI7||YUh1mE9hLD?tB{9M>
ztbu3JhM0jt+Q=JYMtGZeW7-rm(KIt}PFrFYN?Ukq+7`2=?J+xzTX{#?8FNzF#=Fw)
zm^<x>d1&0ud(#cEhO{r{qj3k{m~M(SQQFBjr(0qzX@AU5<1Rjs4#t9%cJrZhYpj*h
z9=<Idj)f`h<=fL8u?|W%@SW*MECRHTZRESs-LdX;PppT=oA}=Ju2>(Xn}P0+^;5cq
zA4o@I(ez+!Fg+9-Vu*p9BCP*I!Uj0g%-h-|Ro{1wDjgf9oI&6W{T|K{wv`)6F|knt
z;hZp!ZSZ5*@F%8w?RR0$@u78fKwX_&zt+NCHH*ad(A)^*cGYi*>*jjynpO7Lb92UM
zcmDY4%oHbZnIt!y&G2)PQxj)~$A|ZfKQ|spXIYMqB(v#ULP}lYxybt|>2l=N+3D$2
zX8L3z2?<<k`m!XB{2Hr_GK%fA#0d#torH)XlY!82icgOp%Vwrh(@}$BKO#w7MoMKf
zid!cy%;h-XY!PR3xvU_?rL2&=9LIK3JO_oG#}diQoLYzCxXANqy*}48C&hEQ__UCn
z%_+SYgZjm+5T~7w=MqAK=Q%$9epcYwxR}agOV)E|&QE5AG}P^T<MoSYD@+rq43`iT
z-?{AjTa%!OcOpBTlEkw@Hpz)lKO{B2F`Iy)<Y98MnM#jf3a}4CmX64yS99i7F2O>X
zrqdaip)|*)5)yZT_Eh{eE-iG$bzU96IFUVfL~&@bvuB~4ZGumv6K5uncBnKiPSmLQ
zj?7Bgx72l*$R=1$P&{YPo=J%!EYd_`4&ttKV(t<b&k5XA>RM7=eKl;aL^l2nh(Civ
z&5;-b2ipMK&cGU36NLC@=8QA8+JY)QWoIp%nYD5j)&@U2{2cIe!q1QgalyJcE9>TL
ztcSB#QoNj_LN&k^SGjzgi*1Bo6Kj|XFOVsQZT=8M0o%fPW;%YiRo1^ldQ<)MDGM9;
z&=hM}AlI0f?>vbH6*q25egCEKSWTWxHS`mr5XF+DyH#;sPO&VPp_@jrXJ*s!%dm)|
z;zIJuRV|iIT#M(jVv25R8?waNR9dmU2P~IT2~lz2Ziq{lIVqvIlDL&&Z{vATT<_ry
z(qoiQOeT0(ImMzbmts#yQYJ3J5m77xC(R0(q^D+1P+X&++1P6$<j2fSBI%in4F&Qe
zIP98uU`WAGAaR4nAZY?!=a}~tjKBdksZW8_TlIn`Z-KRCt_%<&8eSuR!tBTgZ9#n%
zfdjM&Vo+AE-KEjhcfoVzT|$IrsIzWvP1}Cjwx>R44Ik~J<ki|J(7mk*&v~!p({fno
z-wv(9NbXi<4#r^DN)#;D7}2ZFY`wY4t202ADwcuzo3*mlH`M6VV!)wuYiT=`%frk<
zS$&?MY-6>IM%8b#Qr7)!F4mlfa}RCkd#+%Em_C<MmtG$BR{gQnn-}2Kd#%*~?N|$r
zg6ppcYx&f0&w97AKcPK+g``~?H`Gu^BGvB$9jk%0Rcg1>+AF&fYH!l&l%g6{zaB{S
zYaG>g!3^nj<W#{~@Upghj+$|_Xr-iKje@fO>-7fSuvV`6hSYkiZm*2i`Kh7czUR7I
znJpM^Kr1^(qV7onx3$s&no>$7cu-wZLYRwBC6b_qr&Z1;hXw4p7W-M=K7!IMCuC<p
z1DR0D2{?7a5CkXl){(55XF=IVs{@HB^g<>uCqzydMCMV9yHjF3!)33<MQM)b^5zi~
zcTuy@gB&1WNVQ^NH$*{ro54;1t!9hIQ<;<$j|;d51>8=GSAypFxGt-OZcJ^grs`tb
z3Thgf5)>oIZ?!etTEcT!!1A6d^sT^-CWB(FNM)fPdGIW#@*QVDz{8+e)FBJF68fmQ
z^d$ksonoS+@+l^f<EMlOB&nUo?x~IA<Os9}eMr%Es>7%Ag_BF?K(R_W+Annq?eTb$
zPl#eXF5)?fY<sT%$H`GCog2-ia>K9|Fz(@Nv-@8-aAiL?%BL=k=H{f!+05uwFsnvY
zqlvr5CBdi=)TlT*4a#yPHzzy~wdeg?ROg7c2xE{Znqe#b_Bz>&5W8p5D%*lz+FDC(
zeG8^9ZNW#4`_>x|ELcmO0~imNyiG-KkL>MPnU=l7tG<Wcy=%6;Yu>%3P<t^nEQf|y
z19IrVg6W5zQuhcJ=`1<DMQ69{>|U9E=o~IvNOQ2*G$=O>-hNAN8o$pxY<gkM^}<@y
z3uPN=Zd<-kY#*25e@oV*NdIli+MZJnn${y{)@<#M!ksJ3%6PHoMY-q2`_ppIiS_VF
zY%Np@Mji%Ft-QWEUK~3m!+-B7=#0D6+VR=&tzjU&C4cM9%u;4W`pNv~^Rj;&(wwD0
zTQM*o2L^7Be{tx}Avu5}a6#(L`K9?4Rt^l(cxx|K@F*B9xdJ6u!^dY9&%mqbipZ`A
zC3<96PstZ5g?5$v;Tvx+e|N2^f75FVIiQ?-vylV_bpDm`pB(!9knGxnb@}{yk+;^G
zc5ON>0W9L&^pLh5ttIHq2TLCyqp#&==Taw9-TO<eozOxXvU{P0mJVc}T%6QOL2P1i
zf-cXX92&$zTJPRmYw9WaJ2!py7AXEB`v&X=qS!UFNL1XKEd_^;6O$Eagj@vWFtuO+
zzkvk`(hTk4ZBN0V0ibtbkIftBO$FmjZ7mgkD6LyB)hZxWw>o}b>NEh@dj?I{zYA^5
zo98X_R;WYQ`ZaYhApI?xEkXMR+`y~r^BP{@ELb((dC;RXy7sN%vTYfu9Y$&go7Fh^
z>;Hxa%zq=u(x_E91Vum;=J=E(ya=@L5(bAccm;!(A&5GJBS@db;1mRk5#+YQ#1-Z}
zg}I_IR~08UFSD~!ZdL*zM&BYTq^cAVj$=vdR91LDA+Y(DtpcEu`~%<-uS0O1lpUne
zf3tn5eR+P}H@s+BFfP1NYHYa~U5YMW`0Slq@7(VFV)vch_f0=@{nWJ<KJj4hjp%yg
z<f3(fS$J+C0fOP<4;DXIp1a+3`;B$)=%NYJ@vNnmQgBwETS=_@2Ns;A=HSiOmtJ3S
zt~c*qv@ck0FePuxf?GHNorpG~ddMWwTs*Eg;s^$3d8A$OIN030nj=_&Rk0pFaqK(C
zPn;8QBPzyJMgk?3&GL$Qiq9q_0asl>!K#?0*&NR)Mo|)|EQAC^s)|Jga>99Ja#y5r
zlH>V!{0<`=gH#c>^ec2C1+)}suopAnl7#&BLsIsT_P$bQPbt(<3U`%;MoWA5m3Bo-
z{$MH8R}78Fp^>NUrx~;3NkePdj0A{3f2eGwB#65}*-l9Z3AC1-lyo8Krlf~7`Ik*g
zgJmy`Hjt)3*+)q@=dI-?N;Z=~_sVhEKTvL=aX$$}Z;#9V(Q<&sgCr1MW|#PKh(=q9
zuesbt$uPE0yI1ZY4$n88H1(pvVfH_13f?@pbg*m&8oC^8zgbu+l&u)E5r_BV@M8E|
zJH+U+(P>G-wCIm!8f`p)q*{P#Cw9UDfaHv<ku$L-fT0Y9obaBqQ4nbX5NQE$YMp7&
z>(dDUto76FJET`?=XS`iUuwz_f)=N2tOEe3g91<|9A=l&fQRTfmjn<mP>?>UI8g&v
zupl+0R679;#bm8aLvsTq-^N)8w;?`|DccaA5%39Ik`<VGa<QINoHqh*#a4t?^atb+
zQ_oVJH-jXuXUo?hy&CL=*MkOK23oe{7+Ip{SgWWEF=^cvjCJi^V_g(ttZTV%ZQsP2
zwf494%TnzZAXqb?6a!!s>!$`Os7=pIt43Ad_iT47@*Qk$9Y0B(8pn>KifA0wH_S2G
zirXIO3-$!@j6=KDgSK=uAfXvapB>i7ID<Ckw&$Kx(|%A_6|wyP>(a5)AD~}4hWP{3
zrLQ93A=f0ey;H9o^%4qG6c1=f^~#c7=bWTgdfqXDrhJ^*^=|c~cELPSz(J9YYS!bV
z3Dlyew*5{Pecm*Z=5qjhunxrsI!M1HQ~`*iVm|>Ys{$f42DqFU4GH7e44UU~*N69l
z+Le<1@{}e~s!h{=9>5Z)ij*cqOVu%|cU*zmTdg?Y7>;G(R!UU4uW)nms|kLVQ}4j2
z9u?lg%Ix~AC{`44aAPS<VN=tXYlJ}xcqSB=kOtfbSFmvyfZ|PM!2F2wcw32yN)RkZ
zsisrgbM#hf$~4k4&_XpWYFF(aR4FwgwK^4ac__F#1}q|~dd=>+u4-$Fc|zNzwGMlJ
zh{b+@Ivik+s|NNw@dY0G4lTb_Y#Wo?#)@r+<hDZ#mQtX*7#NiUqYD5Dbn;1CSFvqa
zZUaz(K&d6Xd~xO7)&1)&FD*D81v-|muKZwCS`QptaD5%>D>VT!2^WI{a&Q2kLD9cQ
z_U|c$I*XzGa%ev##^lggDbPhLTHE#f>g;;UA+^@nYV&%_zKZ3p8Sk;Rrh!NPo}zz9
z_782gd0G(xcs4r#LseVq=q+~alRNg60_`fk(QW?=Hx2{JXvRV|KpBz#m8-@67v%mI
z?q4k)J|`bO_hsjK99a0#z-Y<USafyBu8x(H#oqmL@BU4rAqpkGwC&ookSHLSXXW<{
z-tH?79+U?U{=Bbv^iBEbn_qTcTrmB@)~Q+#RWsKnaAJxDLvM@bL@i1+Cn!Wj8pi9*
z1q0~2--9^j4VjjmcnU^MR#Mwvtqt4Q_7s?c;U1&$&f{Gfnw#66D$1c8)@|7kg&W*@
zE!IOOI%1-A)x#sT98m9+0ZbFaWYkc_3sH+8K&wIq1H4%lL=18m%t8<~Z37s>RY(<a
zqVXK5M+nX0eDHUUPz5;r9TxZ-2mm;Eh^u+c*;WelF1%U_M~dM+a(K^b`+E5B;+ZFX
zgT=lV<-Qm1A9^sb-gh4G@xqzq1F%Cs^W5?P_$;;dm(3*9zd?+ElHGtp;36UTyc~Rf
zHN74@4k;GW(_id9EO#INx%<Jj_3pQ2TjzrN#x<<NcFVTXz8)N1aML|MDhEeb-Rr@Z
z7u-+0;pNL~-o7<kpNcIE0;=%Is7ts2Z{bZ0E@FVjssNYQghB}_kA?4H^!pgRg8|Nk
z5Xaz;AgF}}moO27k1*q72oM(7NFY?|9e8RVHowI@Y3VGRk${na?QNx`jricILvH9Q
zQyv&L7~oEt^?fF2?$-@)plb|pjM)en=ew77uQbbzyUKP<g3{iF*^dj0h2=Ltd-vA6
zYu>1AAN<w{dFmO%9#Wr#suG3M5RaM^yDGs`tVlPH(!525sV+IV1)yA_s!v2vUk&UW
zK(SOZ4);>%H4&3go&IPiWMc%9YK?!iAwL0kGZ_CS&NOAB=DztuPs~hBYzypTi(;qx
z2elzxFF<1S0u5WBR1$;$eGCv{Q+RAQ5R`2*szE@YQH@7f!ktYYILyco4@1CgfMa76
z^r{sHRan$(1L?YUrt7Pn8J$~2h?O%_t9Bao5$O8nYiLkJuN~-{M>aRTWGe-GZlC<}
z@OR2aVh?>o40eaQPpv!ePt<Dlw;|$q0fT>mpV$onZo@`$lsV4)h8WF`m3$dr_s71)
z*HaACoq>gLO!}jNf(;2~x_0@d!Flx8)Cn_fU`?MG;F|$6Yk>u|0+O?F=E{QFVL>h6
zP^^#Bob}VEOsosAmYw25|Bj_S^-Htpo^(?j*{}nLn!7{moCC{FIauF^=9m+ln*XQ1
zt1ZI_nqUMjwwZHt9?o394i#A<x&(KtmornGX<}QTWYy6bP`tQ>PG*H;iCHnhPn?14
zdbr%iYiq@FrSeuU@)i3uT+OLT*4dnTfp1W+nOrohl1NXJ@By@3-SAt^5-KA+8ygWg
zS=-JMxJtGG)IS6;MW>}EEL10>eoiI*imkxZfI4t+Ys$EK*$1`Qpx^Y7nl$Qeg{TKB
zg?9j0>99sC0W%W@1z+dZVMd1<RbFUS?_=huq`Bn5JgMtcGR{P*Wi_f`+A=oXM7U?V
zTbYS1t$3v#t)w=(+WZ<PTirfr7nD#&pQRnfi>CIr2TC<-Ngz4RlZu&Q7O*>Xk*HYV
zDg==TBu0Um3hZc0jU-KB>I?=nKY|pMU16j?!oUfE;sXB?I7i@<j6~*&(j=ug{1k+(
zg)}Y-Z{VwwEATyrfEK-g!%`eqv&qCI)zQ+0scjhGswxdU{Tc)hiTXK+(wR<N;h@%>
zGzV^}8u(VxePBr)!Q%Q5g$PDz=Z^s;S|C81DN?HesMS<+e04qWEf)D_2x{~II$M0<
zqAx1@qD9}B>>JwxIG*^!=m>Zcrv8`EBe>rW_S~De@BevVefMcF#QkW(J2q{^75wPs
zqO<Rzvkz`mi{9u%ZxpU3Kg-|B7d!XKo%?Q>e(d_XbGX#pT5R4WH}9fEpWNJ6>KcC3
z2L6>*`+D1pn|5=g5m^Bgga_B#h8B+haN_I8=&Gf-=ZL)L$a>@`8vgBIl(>B#zqa^V
z(X~%@?L#f*{)KI~s#NA+h{7-gNz~HXV*~<!8;D}5%RtMidDnFhFxuWdPwp^i>f%mO
zyy_0nZ5T+Wi-oO=*sx~G{ut<d=Qf!-vaK|t3lZ-pt`oe=&M)R+4rOojc68l4zGfSz
zBb%gll8^^B;g2Cm>hcRBxEJX7(D2#OB?9&cT#e}`94_L_=ZWwaP$bIGacO&wP9g<I
zdUMnpP~CI2mU>|O@G6FS2#3`RwNpbq)c%>{mZRiqxiPoaz3;wz!)TyZw}mvcui3)t
z>YW1aEenUjhz{&!Aa)!WnW<fD;KZk(3v9qMfK=3h8iXatqlXp@ExKsfsA5qMsECch
znNnRC9{i+i7L=TtneW&>(yjTsaKLEl!+>qz(kS}+WM3b6`wE{IR=>CII|j!~_c$ol
z%C~U!$BT#wzRiIe)u(`dt~#TvcS|e4o#`}_f$y@astV^|rXD`5+2G(a%G)Y(bOelT
zw|FImdL6$4<3un+@y=2eLw^pG;sSRE8?OvQo6Wz(9GFe~ux!h03ZFtwKD>PjYwOsJ
z6Sxo9z*hBjgBub28ehD0=cVG%YY&HBTYl}<!L_p&HqFLH$ASfBxWQlacFW%GmHq49
zp*7nO-9unmPevQJS+a^hmq=dW*ot3AjHeU199&P;ATVm-R>2n@TmjXNiok9mg?odd
zGVthd5*<%{oA^(W5rcn+pZH%8fKB`xlc~i~b`f_F4nf%rnDeRI(P3FLwU&bwYq?#u
zmf>}O>>C2F^2?0*`P(gDgztpQ1jzflezyCkyEl*o?0fJPrZoKAQ>Vk+u7ft9K|VHz
zs1F6aChag!oqJc0%N+;G;5KOoz^1xXsB5{5WuZ^1Uu7*gB-@8J+?W<LgDWNwrp^~L
z&`_z$v}}^?;SDP$dCcbBE3e*ub9L;#nY!l2j?2R*<ld8I0yz)H9*F;V;9Dfs!;KRX
z-K$vRaW<O-*P1t(g)c3W_!*oylDL#q=a()49(%<lfeIEun51DRsm?YJx;*fUj|!MX
zxu-hi+Gq}*#}rS$uN+~)St2CB;U)@bq^a(b5%ohl)klZ$TWO#L*%bKbQkUSYv(yYw
zzYgi8d0W467@<f_R9|@asNPR@J&TooCQ82oQNR5ddKU9GLqWA4`kzsPeiK;vs#Ntm
zKCAx9_ci(rt@;7V*fZ)^ts3~;NBuCiT9O()Zdy|0-kZfwg6WY_9MqtJFM>ExKx0=x
z<))Z<{3KOCi&n^D5TdEGQi>N<(L(Jdw8s?78R~#leV>;wC2(Y7B3|*l#wU(^_r$sQ
zh3}p{ab7jzaBtlq>OMP;?6!ljY~aFuS@>Isq8Jtb9)hxwVVI|T2=hAgucY^v#Pygo
zKPElDB4dxqp|8m3SL8d7$$_uPxyR(xV{-B_dF3&gd`yOaMfN-<eUC}|SLCQnj&52m
zGK~Mm(VM52PHz&VHwDA14AXx@xH-2pw@HvLzilAqhBaST*=T4ptdYP|2QdVmwD?Oc
zfl{Qa6l#5HH~TG{MytWF*<fNEHyj%TUK>70C}YB==M=;2zHx~<vctFY-w=$`QT`9Q
CuUjtw

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm4_1v.cpython-312.pyc b/model_executor/models/__pycache__/glm4_1v.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9d7e4cf521131a8a7526fa24126feca5cad77dd2
GIT binary patch
literal 73665
zcmdSC33OZMeJ2VK`$hl+z<mKpi6TUa5=HHjEm5KtYN2*7uw9fQKnWB;QWu~W28^B9
zZlTzzsfk-rjdM)5InUII`oi=~Uzqb|CUPcioGvrGh8)1RYOA!KljhC5H?--j=e*bV
z`+s-AC3Pt|lgxRqSK^27e)rqA|Nr}M-(R_0b{(FC@s)VFL9hEKdXXRY1uqLHO*-8T
z-5Fg}7uH4f(UOEdtY^O^;S&5B5{9HPY)qQMrldJ+PFlhiJ;gI7tVvtg#{8y)J?RKL
zlFqO*=?c4&rQuQ*UXpN!JuEM8*vo#)lD@D{`sPpi`b+e>WFTD5Ld=PZWM#OL`7Md6
zWOcZj`K^hXWNo;X`E7~1WPP|k*${4E@AgD6*%)qQen+Ay*&J?WerIAua%FfW^Scr)
z$yMQ1$<}ZydoN9dlB>h3nctmgORfp8Nv;jAW$&IudvaZPU2=VRJ$v`!y(7GV`O6ZW
z$&KNS%<oHVN^TBsW`2KSOLA*?EAs~u+mhSE+mk!OJCZxYJCl!vA7kO=iN}+>!n>Hi
zBC$K!74BmG%EX@J-tb=LuS#?$_l5T{e|2Ji@<8}N@?iL2vM1b=JQO~ZJRCmEzSSg-
zB#(xVCVRuZ$z$PTEUY$hJb5B~B6%`=GI=U|DtS75I(a61hJC9`Jdu1d{3P?&C!R_^
z9e$em8xrB<GvQ~F&xW7HdobFVcrN){;opM4DcYQfB!4^n+sVFgU-E4DY_dPxpNxj1
z?AwY&EIAM!NS+IyWA7^y9m(_I^T~KPo*WDhCNG39u<({dBAE;)lSAPly{<$T+ZY@E
znqHiK;gRU7@Wm3{0bR89C0#TWd**8f=?lj~S0l7d6`G21vDBDFrwgZJrLocInw^Nw
zVy;EZc2&$vEOZ@0*Q-J=$1cS#v-DS3`VJ-i2E^=)`3650%U8QfoyMXYW1op`ihX9l
z7~TAmF`Qv#Y(dJck4QPrVs1ms?T?80Sr&5#V(xrI%;#Cm#}M=JN5p)A#oUFMyB`tr
zb1Y^TV(xiF%+Ir!dl9qy5iwt6G4~<n{@6*SFJEGz2M~HN_GIj(Ds;H=?Pd0@2j33G
zPAvKMJD5THCiH`)>JbwCvEPZk6npvhVL2a`%Ms*qRJ(?;{#aiu8aw+n%qM!jCjRKc
z*<Z1YUX*bxmX*s@^0{`kBy@aichArOrtMIFZ0+z+;%e}~k)vxjJ`qd~M`MX#|8R1o
zFC9Odhy^dl)8~T+N6(#$51rfJ*N=c${M`9;s{O}QuilVRu<q?kB>E6nu=b>59P?R@
z_Kl1ng<w4uyEsavg!F=Cq>oF-`w~cF>lzvwPWPo_QNhqPbXBk%iBr;qU^{(vB-WLP
z_oZ&>1sfOZ<G8+|bClY-r!U=qet)blJ<8F$_dp`K@zN9VRD5`7@9@w-{9LF+@Ug(2
zWZ${iac;OjmP!qCf-{vw!4a&{_!y-WBRvt1#)g$h2zIfMqp@^fv@hL<0Do6H9UDp`
z|2=*E7h*%veM6&36jI-RKGuIBGCGn<qk_rEKwqTqQePZ>5KqL@SA}4*@9NoD<XkKr
zxfD-F1`>U#^O3%EdMI*M%m;bfpTPd3RNJ$sFBR(^O(w4%8=>-2f|pfB9fX2cP?o3?
z8Wmv!6+w@p^J9s~<zX%njZg!HQYA1&J&eLkqv?1e1&<>>gbF2w&z*~L^oj~x>Wm)g
zyUJcICy$=$9p;i4AOGIr#AtHpxRm{o_z*@ys6HCw&c&jd-@GRdKd~gb_vG;9#X%^u
z?8Imv`g9D_OBpx45QxSG`bHD!h&a1Y#l9%3Q|VEJ#*fmhJRG}9ZSWmEbL4c-(PQ0R
zM<OTp9q2iA`sC9glTao{>`QcG_`2i$X(3PyljhB-ky!tt;CL*7_R#E62OqxN$DK=I
zHYZbpjg18PLk7Xdrq(IyW?wOLDo~8<UmS?m12&*`6*R!bZ_2b2%IJgiiuHm;IV^bb
zo*YS^jEy9);F6evf>R7SGlHp!qSbHRn6TpLmMgQUXJ}+Jo!T=RPl&zf>lwoGO2(pb
zBtOk2Pzv+ODSA&~J}3JGhxB&7ZzT5P5-e_Xw*6E*G1@g0Mb&>y&=E~hHF00^Y%Cf@
zwNrxg)ab~_Fqcjp89v!1xa7B^Cx?&k6UvlVX)v+S?Q+=h<ETkpq#sKu9gAGN92?qj
zDG?c<fx*h^PY-ifg&OQ8iK`I~TLyPEGBTWs#FA&RxM=NTwtBlp)5A}S`_d6Ma|D<4
zO8Za@GnY;LOIUN*2F}G(=#5xZTtk9WT&^QrY#@FGb@9s!SG{C~Ms9Q{5*>-8&i8Rq
zO3Mw8#H1>S8O5JMr}fjWC_iS&v+!@=xuJ{cfV=9#CBSC&VMDYeY>b(rB?Mz)=BR;S
ze#{cH4wgx&R6p4H?NMXY^fek5JOgs7l1HX8M=cMevQnz6wvb&2sP@bFl~_WYIAecp
z58~;LWA0HGr?#_q3R@c-8rdG~9mU9V!Qp`*zyxMbO7*>eWKo3v^L;}@u|z7kT8zu~
zs6{WTv_o-q-f`N-)mfk09z4Lsfeb1Y3$}I!2Zp)eIRr=2YsBC4((mOE%UW=bP}3rp
z`VynDlweE)!U!cpBZ2`{g(v=F!tR7pR$N5P>HOv1TMoe*i4656W08npkI)#8CdluM
zL@ti@C8RHwNF+MkABk{BkO@cU7Qr2fpv?r{sPFK}N}(pq<o@%5SzKk@R)pQsEx^_N
zvS(d7IkIjfKC%|`8?$fimC-HRwqDp0TbGERT{m(yeSUao9ZlYK;;tXN66?o|=fv04
zx^sYpk&a94BUiaY$d5Uf;7Rqud0F>SiP>bG_vlu3zR;arHPO!78*|1D_seP~_q}=K
z=8;=%Gtt?7xz&5-YWMJEdvnIU1%KUS?9If@#I3`##@W8yn%#5tyLo@tU1Jybj9kFK
zvYB30oaxH8CC&DqvT33{+Xo()kih{F1xW>4FZFTpSSolHTX-}$JQQRzC<r_Qz>~&a
zoPXl7Iln!4FdmJ@hJpm7gRRNYR2ql^R!=Yi3}+NmT|&MHNjN(^6jP@jdY~G=iFF~)
zcx<JyXo}5WK|dhq&kOn??l=we2{^snN%DrtVPpR+`F=}wUWVsWPqY5n&fMx<bG5tp
zvfVl3ZuK-X%$~@t*)><ci}&xoYuqgsMWqOy;=qaH^{;H=iCe6QZ5FrKK2QjB51Dt5
z+-1|tZnMBt0Ezn&Kn^jxr2SUeWN9|4Kd4@mIBSE8ru_hiP4HKlZ^6sw<Cxd+RB$wf
zof4;u4z^2=h$wk1s+1HAULrJnnT^}0-nap45mTI}+)<ht#(s1H_uKHY=_-`67{wi2
zbLPe<IypD+m!fG-8>AH*q+hqDOHVuGT-hq#-iir&zp80!)7v}W+WC!|+0%D6=Q<9}
zH6P-u4(E)AA31lah<{}>Roo)kOkJ`?_5~h3TNgomHVQIg5bW#chEu5^W<l_QdGzb;
ziU0qYqfT+sE!sp!xIT=2ab|Mo@v6O%4pKyNrtzn2q!vuavWLLyUv(p;0;G+U4X?&V
z>OvHH7O1YjtHM@oI`LoB5iN-sq6YjKW57j$yXuK%6*U8UwZx1A&a7@gAGN;Z3R|K!
zZ9I0MBx(nR%AVC-(T5$UbRnlu%C>j$7=QH0@m@NkMr05xxX&|~Sqw0q1!+KV0s$LJ
zNBYHsn^{EN1@CAo7NN7daxCtbXeg{@goP2Nw{RQI@9S^q(kz&qYnF`ei>4y2MXyWa
zO?)!?OvyRWoW~H7F=UJx)0cJ8lCP9x%(o3+lQ8^@E<!o8CvB5`nG&RxQy5talPZN$
zLR#*7h1P@ol$u}Fh0ML&He~usSNl0SBaMzku#*nnG7I)N9rVOwzjJsrEx)8V4)M7Z
zIn+wQ9*w7nFcV3S{L<bY9lksyW?@_sk^2l{hpd7rHA=@OAi(V46yX{v7pJ;-u9<>t
zN?zP{dN<?578w{q7RFR8F~E%=kh@6E;u>+IEOjK(59$bT<P?n#!6rN}a16(I9wB2D
zi>F7sT%rGfk15Lh=P&3!Dbv|XuUU9&<y~v_z1q!%il#z!Xs&AY^a;MIz2FTLs#X@t
zYbTzXd~VLyR;XzG#AT_oXN`BQRiAit)olf5O~F~Aju)QuwTkho5%1MfM5}20QX*^o
zqJv>3g8oXsbQD7s#A(H*))l<m&}DRk*e{np8U5F!&}Wf$Tt8ldc*?XX#xBMi*CU29
zO|)VtIq6U7Zs~hN2JQt!<33N$=ingVMe@H4N6<%7R2+Jkb+BN;$q9sx=veuZPL{$2
zL{8DDzMw0(eR+3~cL%4uId}6lV^*K-C^$W@9lmyWQvXVCR*wj;efHXCC;M{lp!C`8
z$y!-&g^c@q1>OFTlRJgXxYOjEfg>2=AZ-}W4i6`|73>`ZHI9azdy1T=$+<=!T+%%0
zk0lb3$Spnh5<*kdo4duiGE7m)`S<i82IuE5>E`Xa@|wbi&4u#HLer{`+|{P$`+>@N
z6MpB-y6U=l3;C=%w{PA?KD(|WG`*28UpMcdSEtVFpLdb3R974P2_>K3YBYH#18>&e
zto@k|UJ*^Das`L9Q!x^pB@IFW(ENV&@GASy6e@m0<YwuT`f>2SRJ%=yJW0BBuNnJG
z&guF~o~yugF{YIrVUTiK@?>;!y6YvcRvC5Urg3A&Fz8qk4X+tfMpxW%v?$gxrFhWu
zU~24nQk(S133W6}b*x1l&8j+TP%$!Q+DpeU`J+ZT7u2>MwY4B^KrSs~`8^$Swjyr>
zYd=~sZp~P`b<Y{8l#Kbh;Z?Iy_o@piZR6HO<(A926n`_esPVQ!I~liU?5EJHdi;$W
zFUvl&<TH$$$E}yK=Z@{`N+i}|$2$*72b>_=YlCS<J;Mt~NQqeAr5LbV3CCfFb09t<
zNfxw-;n9(HaEypd4k9dj|M9=zxuq8jpkV;|c^Ofl9lLXyi=Q1OdbmUVVq(;9wj2ce
zSPZCCBoV(56YRjJB4XXR8We!7nMlJUKz>oE;EcvD#rr{mW^bm{2<Xy+VJuEGkG^!s
zAvhDm{Wu|rjo~Jc19zRWF|xw5<n@TzgVZI)N(pAsBa|=w5)lh9j`YPj!95K67*W^c
zWG)<tiL@)d)0D&(BtPO-6ezX_5J&D>?iS+y5PvD!ieAwD7vqW#ckjD%?z^SAievAT
z&UU<E%2&4Xm95jY?^kZVQ#xn#&s7{N7_Gm1>~qHo*2;p_f3LJQUmD^|L%GtneCbxc
zbnCoDXYzl7)ocE!RChrCq<+CrQg8lX{}Z$OUp2kvxaOGHKY4h13tzioX3zW9Epz*y
zm^bK5HS;>e`oyZMZI}yg=4-ZmVkoIFe^9e!V&i{|&hGz$`A#%zo~zkHas40Z@a+?`
zE>L}==X%fN@XUt0{>?8OEjTLYjFrFmxK3AjT>p!YOOfF(7R-p6@}haK*Y4FB-)U*w
zYchVv@7ZfN_ajhwC<Z+XL2MqH=$T)Io*96i85Q)*1oX@twZ<$`h%Krg@GxY}4rI+5
zb;N9geldHs3nXs2FHVsF35KH!=$w-f#AqN|x=cRqWx_qngnNNvil}8-%oQ^bfmE)!
zc8URK)c2ApT*}Z&H_*y*!LI^o3LB?aurWM6g2gA;z|4u9kM%`Uf}7B(SU-_$*tT6n
zoJ2Gwpr!;zhA+i9kQ-xynTvrJHPo-(j_s%{ZIBC}g}VgFv@S(5GiDA#3`4f!_AhU}
zYJ`%-DjD(>5z9d;WyzyTDU+RbX}26nYbyt8S|XE%QJ#XfJ|Y!iElLS;{y?2+pTmQk
zl-i{MxWoq=zfOy=4HUT~N+`0CGcm*(X!4MVVw)JkZ2p?myU5om=a!}|k3DFEUP8$&
zU!k1Lx2-A^TVcnh8<Z59^+-3$-v^syU-4JzTgz>m47gAq1;n9TUBoBHPlse5+Dv%O
zk_VwJOM>v4vD~)Hc@tKr&L93FaMa8*y++P)uwC{Qe^p=C7ei&A>gxtMtoW<?y0I84
z`_3CL>A9-(7WqBu&~7u1OwO+uWEAD|G#fN}Mpf3sTcK5xl1tQQKtsd_$0k=Vw*xN>
z0`DKQwO_n&iJf}JjN}bj8Qc?Wv<HYsD0dn}`$VL;F_aYpkd|#0OV2TMVEU!0opz9r
znY)TN!J#^dskRb!0HWx(4BVemJX4fd5!~0|59!&@Sf#{<j}C*b3>HEV=P+Wc1;<<<
zGczVMf-kp+>bTD$nTRY`laIi+hzis%&m{&naX}#DlzHe-n2s>suwahHiI5@GtI*g8
zDo1>4kq6G2FEmo;EDlStctCs7aoRyST0nvUJuIFOjnp;V0jeHh^@5kGC$oE54+u{6
z{wlcX7_VZkbA-|f<tjEh=<bOas05=!{Tu-<!M^`U*QtY%uG6P`1^ek^C-)wVoa#Q_
zC0L)@f9&MZeJ4)|u9L_19*uPMoZfdbvcF4ko*V@eIvLx?aS#v)#8X;adYgE5B60!u
zC*=IE<S2(~1{>J0iN_JzKxM2(eT1#k0!7L}_Gd_y`Zj<%9c2BggX~9UU0L(BuDh*A
za;?2UD{QV;ogZ0Q*zMAM>lwcFOs@4w=>w3Bb=&goyZH89IL%Hz4V-2jJK?tB%Z8o#
zjy-(Go`N$lk-m|+p261*>}xv^8vn{dWn-bdI$yqxFW*+EU0G;oEqKduX8vK@mWctJ
znxE!<tL~U*uiQz`M(9-Rv-{~(Z2hEM7icL|v`~8agneet*G#F|Av-|PY-m+ohf=`3
zvWk3Jh%XD}%GwG|TRyQErK32GU%{1hD6d78U26*-f8Nu`dm5Q%1@Bo=XxV|-uF{Xt
z7hBlreRAX7n$2KrIX!ttE$^tk=M3hZZM?H>u_wekLoB47cec;lOe^gl=}b=hCr+KO
zp-{GZdSkwAC*QVnZuMic&&_!bqj!9zK=)jwI2*RC&ad3euiU&iN0yPvu){vDGqj+Q
z?^~P1qu{qOn(d27130mW2*JOF=Xb3j4(JErTlzc;bYZ+?+<;S?UW+I|@`*TmNkEpx
zHsPdV0RRQ?8KhE{JP6eQ(*wpYShH5p>5MN~aS}9VECYsah3=%vSNaBI%G4`zgNOvh
z{XU$2%vR;0k~{IYuoKSj>ksSni~#Z+z~Q*QWSQ1pEBQU$ALwuB^}1IBM%`82pBOId
zx!*+wI42n|#bcKtYEja@UL;%ChGLhA?LHEd$QR<`5^Ouq#fD;6M!3hvIy9FUJC#JR
z5w-7R$DP#U?MjjpXhW(FCI0-MY30q8ZM$`Kx^ZIjM8}QI*EdgYyX#wd>*_C3)Vdd|
zYV{B@FtI8KrvCGzLl-!rKXF8C2uZsHjl5t<#V$s$H3=nWQye=*=`RZU3xfU<_n+}S
zrQRY$%7tK4YB^T_@K!($Qz3cXud02s>Sooo(yV2oY~lpS8NTuxq3fZ^uBna*EUlH-
zEJUKo_F)RU`~_zzh&6fV2Hv@WdDijHbyx^kpSA_8g6%W<nU0yhTUT>s+vJ1=w`Zbp
z;zagxwp5(jjD%$GAB~`mXktnzT`Z0v*pq!%q>rp4C{n+A3ew4s;l`8b)=y0(Gh-rC
zswGd6O2#Iw1!MqQ#-g<lqIx<(jN79nF9FNSSTnW<ro5Qi@VVV80)`r^m&&Hp=YVD2
zHp&Ze+>xeMu_xomC<}Dlsme*gTjiL*?wnB*%SUP%qvN3#Xsd#=7GrY<qvl7{T{kG7
z5R1vA))J0Q7<SYWwE};Y@ceOCTESQ|t|*8iw;eM6IjCTp#mr<Jc)WB%KlCK(sX=H-
zSIY4R2`5?dTxi9T`OZ1rxI0Y?k3CVn3Nu$oUvlq);ByHh=Ry4;s6B>r1sh2(y)$1~
z#u9~S_{$|3Z>H?!67f_z?#oy;Lj52EJs39-b)si|8Gk15z^w3%`^N(hKN*NAqn6vQ
zuSr|*c)6-y%cG@oTgJ;X?!lFEyNkb>av3YeW_ZP@Q_UN#8R(AcRkN>DRaR-#EtmE1
z@f*7G$kEd{pRmz;CTfU!68>ahyaGbhhNw4Do~#&$P<*Cxu%p-}*_SazF$V`VP8GMy
z<heFpm8lrqB&R6;iYql!g;I34ee#)Z{C}v$Xs>cYDVFejsoe8y^|?S;bOGG?#Z$u~
zAZJ1<2IP*zqky=20&!^t7-k^crHp{ajwP=k3Gf90`1Az$LM3Bm5F!b-x3>q^J`PWc
zyuG0kj`%`?9bB$-{M_j9XzEr8_n#2Nz+#F}0f~~&&A~smP7{1cw0sQ^NG(hevMxcu
zC%)fv=i=+zCQr--H|Bhs^1j`?Z+G6e=leY(9Q^!>7Ck#lF(iO-q_jJUPG?Fdd6w@a
zsUyl%9pRT+PaV+;e~5JjM>{BYAI`7e>I>9r+C0QommhoQ={x$@uTFXAR&38#?0Dzt
zUo6l{{(O0*{v3YUvp-}OoJGhNxwz=<0!a|ckdMBp-Y$Sa20=j_2qPncxxa5T)t4A6
z7h85d7^P;?(6_=L0`8+f`y21kGU`#OsI%~-g3;dJWPiR){Yj^8)}KI|8_Pb}eQdVl
z^`6PTxyDU-|K@kxzu^865pc%+5q`#eQZ?ksPL&&D1Fz8|hT#zs`t|Ms26v%5-gj<z
zs4sD}FLePJqV=MTZrE@-7ts<NWEtt3WOc<;CHTc$0_6gM1IarUs^th(;|k>P<S<^-
z6#4d$^By^WNzQl4p*6_;13BLzhmM=vUyySXj$j~UPrqNNWqC&-3W$N`ASnngsB%gM
zQxrm|Ls9N~l*D=kOEMYbQrv%~*Bbe?9W8AiNS^O&FV_3NQ4Hq*#DQh3i~H{s)Rc@R
zAr~8o4GhHl<2aue3yVk#p1XsHq3R<0kNW@t91+sFza{4$IfSEf@00Tba`JEl`&mV9
zNU&YJKwNe(4Fo&9gz*uN!Yooa1Q+d1u`3WMClPYNA_k`feH?f#WEs<uc=U>3LED+f
za4`}W3>V0`1jj1TN#cU>3L4K*Yq@ziDZ(D)qx6HnBFpa@;*8ZkY|lGQQ}c@@#5sU8
zg~$Kem1|ePt^AD0pCp{Q;zs-RcCa*Y(3bG!LZJM{lh>b|JaIjowg0f}iFZ%T9X~O5
z>h$+}a%E2_ksMWXj+Gx)*1c)FX`AYp>YHkr?z>yLKHGDzYU9k)cS>_r$Fhg+`6_Sh
zxV~d@Y`SBn@vd*<weD<J_TqhqJMUQeo@3<)<;U*yz3Y9q>z$`_<;SiappO%c_XAb=
zz<NHgzTojn|Lay2l>gOrg^JpFpRT-PL1!;7&F=rCQdief@RZM0uAeyso<v>gk4h`A
z4Zf22*ran+qm89yc~?E}s=wQ`Ip5U9H+8+|>bhTEnLThXP(9i4M*r06FAx79&_1Cr
z)V54robGsQl&@VoVJlRxm^yKD?S!RJUh#+e$!$|l&eg1$t6amEubnV_+OUsGup1P*
zy6^PA+xd<g=jz6?>#hmI#Hq<<obhYx@-^G|nr*Yqv#C3K=T1Fwx8}(S>%E#4Q%}vU
z>(15eo3Iu<6*o$+mrh=J-_tr@p(|fU&24(K=Vs5;xtWf;wVSd>?}1?9shexqgzS~Z
zf27s;U3}B7_guUF&bj9Aocr!qhVqr0`O3|Os^E0@toPfM->L*HrE1H9uB56o+k<mc
zU1Pp>FJHSC!!Xe?(KoeiMnCIEoVsp3BGr{<kD?LO`AbWmXQf+pfhxxSN#^`(uGz9?
zbg?^-bxADoUhWH+!25e|mGt(8JWDv^+$;FTc;eg_$@eNbZ0mWRd~C;h8a@aWkB%f_
zY%>##3F0EsvfzG?oY&x}dE|tDaOC`yK3K6hh)3?!b#4(E<b}t&KJp&Yo9y>}<?|-;
zVEXtg<}J)?C5E|;c~yLJ_AWBYnU^@_^KRz#=z<$(qI|>ld6p?wpuO}bKKALU61S;h
z^30ph-h6gm2k&%jX5TlDeB;QS=DCgg`1bt^6ga;|*VIy2(fX0=u-;UD-{E;}=e3>l
zCVD}=z*;+U{m8t9y;^lu^=~?FI_GWd)vgOvPOi9qXx_nIow~B}iT>+Vlc#xa<2=g^
z9DTd{wc2a7KXX$Q@qkNR(~m#pk<Uj9cJ!4N&&{TbmM!JF#SG{4G1H(^$wl#qrxS^j
zWmdRx5cvmh&IWFqUHXRKfilLQbAUhRVB9rd)ERSXovNa)Wx`9B33n^pH4l^x)!a3^
zb_#IUyx^|68F$S?7_uTtM#=#UGWT+SfOaw}sZg3sj6@_dGBMihLx6W8gwQ0O&LCyK
zbSh<?MSjAc7igj`;i1_c;Gr2`s44Q#(h9vnOGpA|CxzoRZUk`(#5Va10Nw#%`RsY%
zi;`=RH%6ii_yd^?ybS|*RiF*vWM&a_KyJ$EO?5_tI9L>XE|$hjX>MEOlMPbfd@DZS
zU08d6^u_=4&!&F%7c-BOv_NbmHD+RnLCC`0My!Vur1yixfl&xOAl@~Kq#=ijcR=-p
z4#bdPV_IOO{w0`bz&gaA4Q$5{jD(Xg0UN<U8QVp?LK$?<g(bp4ulgbMacZ6d%+&;P
zS?*MsO$u@RkC9=D_DPWFKy5Bcc@-RiIY-^Ss^C}4-mZPCc4p(<s;${W9|Rhv3}1?X
z=xkSc@A+E`<yD39hC*$_VmfvGI-)?ktrDHOOy_SZINb$jwMhRKWyVfV>?+i+gUA>W
zy}u|*G_ezy7DBa%-bH=O=J8kIS(e`Q2<jGQ851GAt^b-dKXFc7Mk);4Pi1~96eXf5
zNwX5wP@arMp7~=4gQOWG$U=tRTSl#B0Ry*^`eYQ++?Z52{OdRp3Fe?1uj6q3SID3*
zBQvcW1oIWbQHKQQ74U7KFA<?h#?>I{BC2Rmh1^xDkUO@^v`e_{pHr#`N&;f%!R~&e
z>UtGPqaC_-XyW24M++5=g_;n#{+fA*uB>K3XD+j6&DiyuTHdaHt9rU?);v|6Yuv?K
z>$A>@^983LjFBtXuS_{}6>E9t+N}P5QF_hPE5mAzfM&?639M<LIT#Os2qd%>p(*q!
zz&A&L<slH;NuSC2BmAX)f)YfCz3nkYs*QlQF9?|J^30p?D}ikC0V>wc+sFriSU1@}
zd1h+Q+dXgf%+;;s{p~Y;-oI(yL7$z9+?$JDOG)m{O+F7nb1(VI6ktw;K~x^FJV3r)
zy$q$xOkM>@!>@wT^i~AX^j3t>^tJ>*Q&15;<4pw5)DMfmvjhD>&%z}*THrYfKnh@2
zlv>8-8#NC=`WXBV3qY$8fL9Y#lXSBt2scJ;5O}dLP-w-1aY!0;qWto4Iyf=WdBI-P
zu@HP38W~K?S=Nmc1+WMX_Vz142ye;;@&aC#077g6izSvx#3F*jj`(2PP{||%(CH#Z
z)i*5n0mHaSMZ9L43<!1vBBeSYjRN=pk_^44ajJG)h;h*86B*`a5?h0`7qPYhn2Idv
zMw+=z<V@fb2TGYvJdj#Mz)}3(tVDu644ueHrFM&uLJcO=?2%$mE3o2kk(>$86Rapz
z!;0z^fC%nF^JZci1`9PU^jmqqV)gW)S^Hf1-mK%Ezkwux@xQXU;H!ry@Fxy4L4_~c
zip-BiY&~UY?xU{DGW9SV#MIMf=|S>^<RFw`K}OPpP^IJLFp>z-3Y7<o$qK8nC^;_$
z!_nlTkTj2icNEK#>6j8+DCy;1$43Y_FpA0Fz%Pz28^=5JO5+UB@FMvM2nhNkf_`s`
zT1P{v+Sb+laMd_Ud;2^MBOP!^=-Bhx<!hH^X=B%G`>*ZCN$l+8ihT73zIww<_cxDy
z<Jg_k-;2Bx$vMwt^#lWYuJugxy>cY)tmB<^lYLYEd}9aS*pYK?!1v;&Zu~LvSw#7e
z<M73G=yCA!PEqJ-a?X(R3OS3<To2i=gEWK55vUP;NK5;*Syxk6XkJmMsV&qreB|(9
zv&N~)gkOBBZ=AP~&#Ei0nzxY;Ld#Y26bt(zc3BtsRx4u1^AKG0POtp>np<mB63A5M
zqP@|Lvguh!z|q_rovM9N78N9&4pE!K6t&_I0)aa0ls2Z(VP96G!?8%C!zCRK*vK+_
z0bH+Ok#(&dGQkK31Mx6GTL;ro5XC8I6I`UVp&SNg(Z(fv-~(D4i}%1HD`nYbrnUIc
z8$h|#S{@Smq~1e|JEs<$&@N9#xR8&OqfVDr*ml}!nC^*@>7GEIo7GAdjFYwq<fbfp
zl?*j4Y|Yk5xj<ZQiLjguPjzV`kF$r4#PpyHqJy$W)p8>HE_qZb<T(ibe#q8)n)@?E
z4Vf6M5L}`NaYUp5s*Z&uAH`S;+-34zAtyu5I2_PPiXesomLPq)Lk^){oF9(hhkXD>
zg_T7*8K&7tkzOFDnVip&vz?sJ!x4-J_8mDR1VGB<V9W!OpqH5PHWM*|pcvcLV1r4=
zwUd*gbW0}gO9)#|iA6l%s8)mmw0@54Qh$%61hmv@EQOjT2BqlmLah5*-dS7pK&7R+
ze(_lb0ynCI%*s`7A9?G@j6dJe#dmb&R_vk78kufPO}=6kU$LrCy>hZ{+RIn1Rx7?N
zryv8^C|5$IPP43<%&U%jsKJwOJ^9B^tAt|+EGz<|gl8D=w{RcMvIisufUzUZ@@g~7
z9E#*sC;u`)sjNQ~EImb104v8ZPAf=RS#m6_1x1XJ<)o|{Rg4E~jKh^E-(nVLYbQ;k
z4su>VI+ebT3WACPBo?d`CJsl7c?l#H4@l~HB>~YO5RcS3Bw(65uU)-%b<+DvMh2u9
z$rj$(GL_D++Rd-peaD+ywKwPN27Dyqa|<5;AvhNZU9&^D#7i)hw0tZ%XOJN1!_<6w
z_lrc$2Q+<D^h`#|WJJwR4OZ7sKauk@{G~?FEK#`!gv&s+tlZOLT6Z7k788B}RsljS
z<g+SA8ymgaN!Q0gK9OcgK9OWeJ`cfLFZqt^%|$&Qcts?Ts;~&k(%hwIp&O1G%F?-G
zpoBrsl9!w~XBd__Pn19oOMRX&EjmvqTDZ`?0N{j?nnlZp003J)1ypPaXvE}w=<z_W
zg-fad9B@_*ybv*@!vPk8UK{ik4-HsAnt5oYV`@SAF;LA=hO#`7gN8f|VrWp;v~(Dd
z-a{j__(7<WzW7DPd6B!as1Z{EhQ*lClA;9qpau}sE>+%u1{;bw$-bzvsW4R~X=3RK
zbV|yfuwpWtVgj~crNMZQh`PRx4EBRSXosk73gmyV0v7?vt(Y0&5sZk2&=)0>Dx!`<
zBR&ZZ66YPEV=FA9xY&zSN=hVV*pxXalqnTpN)%-GM{vv5bRuU*2VhT36!A4f1qw#H
z1T&=b`i7#i5+bV%gOk+0#d@CV!<|xON`aHBX+!%aQUOlhv$|wuPf+M^v~v`y8uC?b
zd{rA>N(<G&e03XNO)u_6FZXMMZyvjOY&!k*=WjjF*FJuygRkjkP__VG52zw_Yw4}}
zUek)V*Sxi6I-OtF#joqSv+;Y6zw>ym=_Gw@C|I3&Yb|dDG_Jnq^uBiF+L1}WSbEO6
zChzRzot-lWa?YK^sI%y7bwAM=ZFX@3VaToeWTzmve~<ad03e#U^ch6kmp-Hfr-j~0
zvTl})QS&P^8w4pcv)1Z|{G3q};MwGvn=w87J5xHeMoXBi&`K4e=v-QVX!H=p+=iNH
ztZxXq612lJZl5p=@hT*_BwZ$cDQcW>Evl0I^4H=oNFlbgvJYv=tre9T$4gXY8C0n%
zi}}eudA~?Ks(iz*P(CzR9x`%{;=Yq{M2)mt%40L`L`p@jPOc+%Qz!meWN9nSy$439
zqIxApV==Aliz<?N+T*Y4rzSZ~@wX_p44K1~ayWF4umRBnHC1V}#dpya4P#vZWaa)D
zGJ~Z|Zg7<xLn|LSKS&KmF>^c_&%<&a!#W)IW=aP`a-PLs9FbrUR^-<WwiUx=A7&Jj
zKa@+9e<26wUN%3||44qX4nQJMfkuOC<Qf!zGl~@3uQ@hlk0{42xANC4$2atYhnJN8
zl%xEbM^ZhmVWVvz8PQMQ$51@3Gm;9h=Qq@@NA%yX(W+lz=KRK6<y#IWeCjn1ZN6V~
z#(-mry$(}8;~T?Th?<BTBFY1g`ytmXek*(6TR=6>+KVej_A!~?lBgLxSP8-oK78-f
z`f8GA59EFo30N(O*NiJu4x*YZN^;f`4n1C>E&Hn4Z#T)cE&fK$a+#XDITS_Y_Ka6T
zE?4Uas|j_LT(weYo)_d4P^s5v>_tAJq+IV&l<VOOIaS(t5M(7eHf|OU9aHh#-zAcL
z2%}{Jrh?^cynhsb`vvn^rc(~?gOPOX1y^4per^bYY2ZX~um&^I$E;8?GmN1ct_y%g
zFpHK%MS?XICX_(eo(Ri=2?ny#S6Sh}h*R+)h^oOtt;mi0D#b7+hKJ6H_9tGU`Vhez
z=4)X>6Ds<GZFDFFqqZ>^0ksUkQfaz#1NSjSyGahQ=}0wr1ZLv6DS9y>|NaZy0{I=x
zzF?{^39%h$Nr>5msu+byuq%jlO0Yn(@Lc*lS|{P`OaVr)o=3CM8!5qhS@wA(gP35d
zN{uGkm|zo?7a<oZ3JrQ;*LDQbd$RpZ$niOcx%fGD9EhYY3O4199X80uCSq@h3NFzs
zVdOlF52Vt{>t*)J>8QJHOgn~2`B~-Ig6z92n281#k$=w%M(PHkf~oqC3@1paP%3U<
zq;rE%{y<eD6wc&!i3XziEW=_@ohBse$aXqR{1j&pu#X{z7R=Xd;A=LB!f11_8c^Pn
zFNdJp8kmnMUzc?h{IxfFulG)M@cxxqTfy6y_qOuhR`8QSzHfQ+nVZi{m*?u%&$NEC
z?Hg^g1Gx?RCR(#rd~^mT^<Q}WUU22xj<*~nMYdz=(%hzf`AvuUO@|??*I4?Vv+fhS
z&Qm?P>Z=>?x?As6H@vy#=9;O?Gnc-5=6m6H!gs5WPgw5x>LwGn_kI1yts{4R+wL{2
zcr$Y|Q}73;%m3}@H^;s)hMa<B6HX8}YS-jzaHfH{Az!mGd*oha&E%2kX2|p9D%-O?
z_dUV9XC?1hITfF&nmwHJ9Q+4w<@Jh5?_}5H#hkbCAH3BNlIr+U?LT;Z*UKh1-wu4e
z?pEDIS<bs<-llU^fj;T+O>B83GnvTOujlL6&v^Oz&iCA%pt3YJPq+%frU}=*s`@ul
zQ(L~A`9am1iLU#>#;GIu6`T1Ln`bWaE4J~$Z4*5Oe`DU?%KKrpVJ3dZJCoo;d-I_~
zeCW`-TS(G!doJ|EUH_AxCffV{CsDQPwdlm!#y7X!+&1-GuBJ0z0|O143pI^m3m~#r
zOJaSsWfN8sJNy(8uUpB|1B-aCyXUW)-#zzNYwmVGne#uzcRx9MapKvj#;FriEBL^w
ze4w2Vv`=52xp-^r{lNCQ?k9QwQxHY0E&EZK|9aEp{@W|RzV_DIiKblHR>%c<tCSl2
zrZdL)R|ao<=K5!*TmGHt+pcf9CO(s^*q=REsA$j*ooc@R+38BYykq7BAJ{zW<pbNZ
z`w?3+9M$$$kvQv=dD=YJux{q$UEfwH2k^c<cRF&ueR<z8-ggYLvN_+$Y&T-BYJEHT
zR<hu!h5lwCP+zETF4V0AS9MkCoU<7M1m4!XXC3cZH>1yaHsn3qdC&IQ4LQ%_dCz{{
zv;WS;cN=q_BN#dt+3IQBk`L14ncIFSzx_DB{dg{TA|E`>2TvC~)uNgxNtYt)I^v%N
z=bAeCKxfuoa97P)tA6n@t}O^W4U-#?8+=-yqSNSKRtHb4wEndzcw)8nLAD>UE<Qcm
zZwod+j+_u}EX_zu^vRM^lYOpX{ZDlGoezffrt15)QYLd~q8E`OK&kqXKzU@!*TPu@
zEg~txY6lZ$05LIY956HDq6w@yV%fng8^WOB1!AIEe2-bQC|`(UMI0LwV1OAMm;kO;
zN!gra29}i_lL_@f#`HW)OmjrM=<O%Ujr<S|jougj5zZ3&BLof}N`C}>vS>0547ZYp
zTekqU0GEBF6{?*U1rgGBMzLxcJ>i0MI;LOn-*tluGfIp>E+p{`4EvMX1dS%Dl~M+D
zmsG4ZQ6^7JJ-<uTgV}~x7^5OAMzF?*E=2~o*v0+a4w?#f6|0Jg$qmyiA^d~e3!h+O
zm;<+m{BDx&C%w@~e;+7u0Jtotl=KRw*^88}m<@^bilP#PNfI<v3raLEKcWgjZIY&H
z9Eq0@)O_V2n^{3u$B(_>E1z8X)qRYW<ek|&>;3M^@3p<tc6UYZ+=<itiqm}c8Q%9q
z)~e9NCd1Q}v#~jA?Okhkp&>{Fvs%#BhzBH2c)={HX)K~+6TZpj5wXolmIC92prsF^
z1>D0t(2s!zM3M;@A0-lvoff66C>yFp^CHU~TC`y3B}#Ki_bbq_HECH!8Qa$`Nj+21
z9)&vi@Ora8(x9qo)d1yc#nhmS!$_927C;A+&M0WVLUB_%TSwwWTDdAG4+Cf@izHf$
zlx*%I&0fqu?3Zlqh-ZQQ2!&|sD1BVKR>X-<igp~E_{z~iFoAyzqVpw6Dsj#(!!H;x
z%do<*8dHlUP=vBkW<p=RzQ)!*WW78X{ViHK-$CucTXT3Px<y>(JqP%-WfOhZ4g-cZ
zhqB#wok5Z}_4setuiHNa?1Z>_p|Yw_S^K8-rWL+>_04ZyxOt(_(ER53&GCFgC*ROX
zQb*<BNLAF_IDh^8M{Y}?;UkmXTlSH`34Md^SC4*Dt%Fv{n(J$z@-dk%CY;^)?Z>|L
zSbj$@zoQrUpszH$7cdw?@`tY<o-$0Ge*3w%p3C_=v-=8-E!pn(o%Qn}oioH>(4wVC
z!_SuD9(W$jkp;m^bJ1bz)K}|do@WV{p|NA5R3dI=G)jwf`L3b7v8IO%goL}#Qtvm5
zy-$?*2Hx5*Wxi`&#Viyy^6ti|Ra2Yi+^grTt6B3xk{Vz3Kkmlt(h~1s6N@n;SvA=f
z{WMB=h@j69wTGM=RGkBe42b_xiN(}3xp!WNpJ@~OneF}wz0H>eOsl4S^E&*@_!sDB
zzP-fMHrWq-IaAwI?Cr!`iJy^I#0n_qeq^dVGW1#?K~ObTARA|eCW37L3-l1hG^+`A
zzev-7bPPm`T8qVcNaw&Ba|~80B`F@!RO{EI_pnonS*=7+JctPqASI>?nhFjrt{5vx
zgIgw95p%<S*mCJSG0<bl*lesU<|T%l_$E^OklqcP#uxQ0lirC`QaYBFTC7zMGxQvc
zVSltN7KnLb=4E0r9*UGtdCW{c)WC<76%4DY1XdLg)Fw4ggBzB@{DsnAuiz4Itst#B
zx^%?K4#p7gSINMPB1_S(3}YC{C?Rz?O$4?+FJXILf^wBUh;nHW)?qV5lb8dxkX{QE
zf-R)U3MQhD76?!SF~rbd?;wWKCbC9ZM7a=O0lU;(@j(nMGs&;l1V<`F4S8rWfmFaq
zWtNPYgU|+L5V)7oNlnvZX=Ms!N{V9l<75C!1Kc81qbG>z4O0;cLl|Zu3=}34*3fbV
zOs8qrW6$6U*;o86l9w}fIW=r(x+D_$9+cx+WSHzz*KwKtgt3c^5vni7jO)v~uMirg
z)U;SDNSK*q18yKqcQb;!ORgVU7m(wo*UG+S%F}BZHX{U{)q<qiG;6TP9GtSvr8|qI
zscNHaZbbtXsEt-n=?6E<ITU}3vj8nqW`}Crwin~dzGd^*n#0<2Uo#YjK8mxK#IM=&
z8)%m@SJPc`t{G=~uk0V}mVL!v88l!vC?@XEL&|){$n7u2mVN1ivTyK^>?{6W*n&NB
zWBRBZ^66?Ik2P2R@Z8n4y9yzUtFo0?7YNx7TzbYe0uYNL&_w}uFNJMGjmE6)XGvc@
z)ehM~c53?*gg#tHYX6v}9RPwZ<}z~+6*WZZR3?bGuqvRa5HRWa7ODY>NrYCZj-QL`
z3bS*uk@R^{DumUG;Ehn0f*1%cXN#~(NcQlk1eHNJQMTE^<V8esEk_$UM{|OqL!x>)
ziDC+NQ48h>>7?GI@1(y0N<QlsCe0;y8TnVbl}b`55W9d;Q@E#CE4gHf=?X;vBn2On
z?F8(+Bq|gV^c2i{@eVSzootayr1er3k*TFK@y`QP1%}$aL%#2jLraYNb8=`K3b{qp
z^aYg4eU2O^=9#ANMToq(FS(Z}UMU<9=E;m8Gc3wVB~rL}L?@UXT=b|9>kTTLSA{4j
z2lf8|aFC+Y($AMjh~5u0<pXQ^z*>;G>f7?TIi-HroVBJ<-kdLAClanbb$L%S?`h7O
z3N@|ynvFyi#*w_TP}P#JTF+OlXYw+Q8z`{;e)TF*te(luG_A`w?ctl4+-O6gVNJea
zC*QD>9q2!-Sx>rE!A??^sH_z&@P1-5)k0qanM3!YyzY%Br(5qb3Y@PZ?`!6L%~R>O
zKl|2adEch2^<Mqf*~&X7zEzj2KR`)p?v+>GNM27uxw~oA)aX}h7b=`E^H#2FYM<!&
zB%t#)D#aA)o8BC{IaFv~pKspHH}5VqgbIyo3-v1|pPG7VIzIi(T+OxuY__%R<Xd(Y
zR`2?$*XAt)wXv!FBg%8ZP+EanzUug-UI!6aB1D6#-%+SsnXlZ!S8gGZS{Scmw&I_h
z^Q}a2`TC7~{YI$&NeMl=n)NfTT=nDBO&>O|E;y_5&Xv4#<@96uwtaltJ{-SRu$~Cw
z1Xfe`X6R;!<=??qcCe1$%vWt@AzS&%tp#5&@9X4!o#?<Cs+t>S=^9$Ja&2I_)_^ii
z=Je{9H>Bs(xxAwO!(ABQXxz;=?tag?`<|!$_Go_HetzBl+`5BzJv|==H|B%8_~0%&
z5Y`cK`jDOou3aFMKB-4<rD$<~*Vkn^wAtE^Ij%h9XISVH@cb%bOIp~S7Fk9<IU2d&
zr3H2e#c)T+HwzyqZZG18NC7%YuY`gZ*@957BxYmMgZid|i1vc+KH0Kw;N1;*_X^&<
zBJXbF-EDby2k-8fvv!DQV#-^7$p8OMYZ;;Ab(F7eD+P|Jb!Zl~l^H+rKeDkKc=v`m
z>ju_X!7AT*wulr!gU_1%hj4FzO$&i&eYb8x|J((gj@ev;u|lYjDP5&SeajeSkgIi%
z0i=$k)LI&<py(BiwwoVOj>3o6EJu;9)G7xO1VxUy1yWR6{BO{+wPaZdS=atT2b*6l
zg^aKby5yNx{3ZH6OhB5HI0RIdJTjUE*+9#``ZmC@rItlI)hy7WN}}bk&sTEWEYl&i
zETQ4hpqIbP^G}a?{pt{8t%|d`d`b7>m26cP^QQG6T9m`czy_Tpdqf0*C66*Pq>Bw{
zrKL~CD%S&tZCi#>7&JK+%6g$o3^FJYv<8bLSMfS>EwUxJ<MjIba6+X;t^;=x?c=)P
z2o~sblSl#gG6j)2OcG{*igs*>i7;?yDEu@zQ^*Bs|9w{&dIu`ni<I{tup}gU0C{9V
zpXT}~n*K5{Avw@`S@yZeCYC7r!0t|6Y&sHZHi-nwJmo+pDqM;2^aTf^%Tf!Ah=l5`
zPZg(<_P?*7ejw47`LmXL6%Dd|oqH9vWC3@o>r2n)E7tQBU}EPgI`b9V`3mqKXD{X|
zy0Ql!8mVLUEQ@sCQ<?V!c~7w550C^f;ZwYSeZgOu_qXx>wq=4BY$k8n&!F;LC9~eA
z8gt$ij1~W-s(G)@6__svpZI@P-hS8veXaLe?;D%m+;MZqv~{L+Zq<%EWp``3^EHS0
zn#1pQy?ZfNbK(cilk@AqQ2t~+5uC}g=z(eP-Lkf<rBE6CBkxq#TYIJgH{JQlHomeg
zSGhLpVz^QVU*9paHdnu!Fwv?t(@*kMoAOnU@l}uE8p*2N+0uf$Zu0V+yJgPWBGNiP
zz<@7;J9KPiaEFxb>6#R#j>EKQA*ZUV25A|q&QPr*dyrc9>?o^^h!WVJmp&@aj>2sz
z#v$3|RNW&}DqO<FDY;ds-GjBHS-s?uYpJ!{%iplW!1@DQ<;GrSe4r@xAF|*+j$vl<
z=R3$+b(ndVUjL9*rxBNG<2Gk;y;4UPEq^Uxi&WB$-{7S%8x4^p?5jxz#}-)?R4=#X
z5^SZl_XU&%;To&1A;ep2vi6As1qiY9O`e^2eCp72YNlig(gL0NvK@Tcj$GMeS<8J=
zFC&dzHO8u3I&^o%*8Gb7{EGeWx%b~E!&FlzC)=mD&-Bl5)4TZU?fI%*eATX8Rad@h
zKVP*!S9LIZ2(16fEpzUsIjdxv`DN5;5&K$UJN_f8jN8D_W8$MVX)q9)v`IQ1N~ts^
z6KIGumGKa;&;-ibTAG@u19Fq5Gt)fNKog2OY%GQblCUI(qJ1jXlH8(TwxkDVRP~G&
z(8Y8o@E4T;Ab_O!j)_aKkm;_<VMZ}bZig0ljv7^cssV&SQIvbZRMb?}GK~bWQQS<2
zyM|~>!81-MnU;vWf;_SolT~e<mS`oIu4Hf9D78;&i}EhDUuO3bgL<%0ELrUqg*(|8
zHL1Ueeh9E*<i@QqLj;;U5J@Nnz*La6nDeV%BcYuuA56PweD#B?9*hx%38g`7a!a3O
zLiK~Im&OG9#YQ8m^eeS=twt;(EN}p2QpM8^u6r<EvChlZcm0E@lvzOH0t!917_XQs
zjRe{1=;esVEN-FO5K-nqGYTCYA!V&9nqPtyR3;J(O>@<hilJA8RKcbqqa%Hla`^A$
z9H;L`$)QZdBkLFGmAG|+R}=+RU26nozR_fA6o!^S0E6u40#XSE2(fbi3#B5mmx!oc
zBi{r$e?u8FOpPZWp=;c0<opgfufUP*kkdBDa5IKa$+ue5MH7UliKclJ`;UU*Y~sSQ
z_IK1eS?aA{V#V&Go&H@E4Z@U@q{DVz-#KNS@qV-N8<pP;e6RYQ>bt%pOc2sl`dat3
z?n&dDj+>6@jbGn>YkRgk=iJN;Hi)XtlP7Y{2I+kT@5C0LbFRwjA^NqtJs;Y}hqleO
z=0baUYfH9tvh>41bw03$53GUVo_}*<Qa^F}TJPjjf7Cbaor>Q4E!h8`e(F#AX1z1f
zTfYUduyXs4?4D~a6DQt?5yL&(lC!S{wZrBEeWtwP#+mD9Cbv&rnjV|&$ORtDl2L|+
z=6wAQzJAB-AyBAf00uqSW7m!qoUZKUN$XVmpL%DyU_+;A^K9vNAgp#L&2K$|!d!OL
z+O9*3i&x{p%;b*OcVzc|;PH`3#~R$Qu$J7)2Jrj6rPsPZb@4ZVN=0Ow2Hx2)rO!E=
zV1vjhn!MOBk<M4N^A+tg#{BvN{Q3j$djE69_bcX3ocex^WcR`)+P#ouIh~EHE2+Md
zT{&lc-r3AMo2T|n8}qF@`PQ8|=VM|7rH(~&M}kF^Ax<qq$`oS2L5w#M1ETsrf+ltm
zGGGl#kPh=tdDxu=NI{Qs#4!{_OB6&0hS;#{f#Aw^VBBnwDZx7ysmi!J?km7$Gx}GZ
zP$;1KEP1e3DuVpj>0v8@_9!|iX>v6k*j*hsM42<nl|Fi%UN;oP&Z?v>DiCDsfJ+J|
zNP+4~F7j>!i3p?C(G8>wsUKkGdlY3Du_Kv!L#B}7m&{NtT}jhEW+59{?HAjbO;+el
zeglc5zzglnM(g6hOYO{ND*|6YV+9*i7H1c(&>kiSTcjI9+19ro#=JZn?8jb;MWV1C
z8HaIKh}4Ut9)UPJ?D^33ozZxITJX><_mCKeLT54tQJWNr)}-n1IFjgt$o!w7eu4!z
zx}e@1NAO56Ko}ni;4i|@eVsm+Gx2vhmlUwekrC1z1s?&qra&`CK`vIXR8mSXQn^Z?
zSU0k%gai@x$syI3y;yOQ<;cXWU}8~NwV0Tv>L@9a3hCxM(CMW)KBg9xQ*UwVNTamR
z{RNuyg6`uIOOt)hT2J?Z)=X~9*R1Dj*56q<SF=7>b1+xl14}|pEB|<9*7Z-#tFex=
z-4kp77Si6HjtM*Nl&gekp{XeETMdcw0z`c19C~=BI#;oC!g#;3d8(VQ3{98{!Ik-7
zCm-ybaDCvZn~Y68Hv?+zV;^_|I2>+1qQ^c_wL*$}FSu&jH2wVD-Dh&aCzSYiJ)Mkx
z%q-wU--ozuoo+?je7z2qO0Bi**aeY755`6|Yz75{Q#4+u$vHy~p^h9a?`6%H30BNA
z&<~(V!Qdf-eGDExO=$`CaW-;Zp;u<<jDa_j^x+62<7VmWpOf=@^!gecM(ErvO7cHX
zU&#6Qn9Hf(hKIyzt-6|qMb^*U$MvS&`ui2F^CsrQ{_U%rw}^g~{=XPtC*x)g(eEVl
zW-ifRsu(yE^OKALh##XRI&<lKiQcqfVw7a5Ki0v!V2}e*qWHOU(nMxR>2s&@xpUrJ
zZ(23Qq$uZg@Xnn1=Cj{;c7eR}yY&uSN-9c+&70syUUqjj1&B5_xpB$>iS{&K(>4bh
zwQbFUg(6h9s|>BdPwlOkNKfv)e)amgc?*SDCF`aOHhTMQeT}JZ>frR5na)|$x1HZ|
z&UJS4Yxm(eHLt^$cRSxreShoE$Sa=6smuE@7Rp0&fu4o)_;N!R(}i&Y4?}14C0!Wi
z)!;G%2auQnvQ1Jtl3Y$n)C8#*D<qI?Fo0l(lnluyJEV6f-bohOMLJQqT-y1D0k%vn
zkOHzq-S~rb(x?}|hL{`DI2I{SXSD1kbJ&Ye59E$W>ZVLdWk4)*)Q>P9z9U660KZ@P
zPPtOJHCm4FK(s=7H%2S*ULLK&dvy#lQ*vo6wmDjZuNBeSSS7wxiS>xqv9#4O3jrCF
zT8}t2(S}&<pazqFN!nnne(-VDql+ArW=7o_kyG%hG1MgZ7;Er2H{2gfK}+de&(Of|
zB0dc5@dR}jHp5w#4?{7QJTlys`79;47c_kZR(WtW*ZBcSHi>&3!>#5#{1x8E8Z|1_
zz9`-6v|kcORWv>VquY7+O5VLP=Uz2uUB%|uqE;YRu@$7Fw`?n@txF!I_S|1057KwK
z5E}w{ky~1Gv0=*R<=db{xj}89!>+0gBwRRWZ4?*D48HX)Y6f*P{oz6#Y6cF8pai`^
z6k3Bwp}kcCgrDp$2qt!CJQqg92dY{@eJS1g2AG+I<=l8Oo=%OmE!XiHk%?uKBKiQT
zUsX4)=Zo@?g82gOd_I?2RCg1iI`FqZllO)WsF9`wc2pk+_3f+r-_vW6NN@u+?8H%{
zLM6C8R-8(J5j1;o$(mc#V^ad41Nb81a(8K#(df$8Qu`?BlE`DLmTUczh+jd=7f9ZP
z25v<*E%Nwycl*>OIC=Nuy!-Jv>*Ej3!rxFAa6dqEaE{E=jC8YcrV9bYKHxskZ0nL(
z%eQq{6uBeRFBH9z*C)u(@~`-{IRfuf|HY<Ub2)|R3>+9PDW75a)EqQgsF7QYfp
zq+o}VnFP5UkEYMdx`yXt@pI?X+z%=1e<bIh;3yM@dP+GDWbtJ=IbnI1Va6&n)-UKR
znin=f649c?6=oMaX%Jq4;~Tj)6|Qc`*qO2bh^IqPOeNYKUHil+QKq6HU3S)RK>kjl
zq`_2zqbS8S?izBbzClSv{SBuCltX3&#?T?Sm_`PZx=bm;(OytKq*jl+GcHZ}I4hF?
z^x&%&Wlj9*&A2ljR(CJC<7Jt$3~sb$>Mh70*B!YsK1L*_^8_0;!7L7;U=qjGJOG<!
zScB|}t`Royn4|wpL;E9gcAy1JatUfHw99iZkkd#GBRVvZk7$J)k$D(#SxiV-g#6+{
z{*WU57jhO)9Ne&}fD|QPRE30{L{l`BJ+2dDQ#6WuCTaEwbZs=IEO2!;HN7J^bBGHG
zVQeycN$(dgs;O=kS=oa4dtUmz%soyecqyVJe#>_HRLYO$1T`L!@8pTlRwSi}1Nx4w
z(AtKU#`<I0eg7Zi3=()5ZUM;qTX=s<&ff~{(aOer<vPA{9rz_G`5p3Z;scu&i}HNn
z@ZVdr^}ereF4*~=uM_tk*0$Uav=%Cw3+0Uv!I?S)nn0nZ4Tj&=mg0`XZ13bzC}}pX
zo^jn7x*I$La{7nC(2V2Gk-NbYq#6gwkyX>xbDMkkP!C_*1J$?>z5cmC3vNE-1CN3E
z<?YIv3*M%@H^h5G(_!AbMS3TN*XcvNcXQT!zr1$x()HnKGhf~g<=EO)u%fEJb(F8&
zj{NSsN%wBf-8pCNd~lC7qEFB_x`hpJmfJM|HdSWY*%~FAZ=!kX`15}-2{6Mca}B~E
zKf&1Ir28WBgzb4{f1@eFOsGk>21@6@#v*i~7?@q@^H3az#lQh5Y>#5njcw8z<VPm^
zYZ~<sDgnp?o#NUKz7~Q-4b$g9-KpC^H%8cbYZb^>MAh=t&sjxuTiI4=tDvowb<jq5
zmg^vFX289%6;Vt)tc&R4NFpg1dgD6Xm#9CKE@Hbk_jBqcNs+AhDU0+t<YQfkU_e?H
zR1dZ)#C71O#xIRD*1B9bEsgme^$byPu^u4Y1mapJ6o*NA4B}RGIJ4*)HZJIl4d|bm
ztbWc>0|J^SIA?8m$PDU5cFT2;40n{dqe+{hZY*+C&~-pweny>C!u=9I-2bhbR!&K!
zUEGQkb$GT>EuLPitBR9Q?9b)9YH7@WpspffHYO2?u^r)Cj^tW;d22K5lqZ?wQY-In
zEmW?6C>e;Dp3s8M;Gt_sB^y)9bfU>Y94Y!Oo)6Hbr4RK3i9}#R(fY*0`VFEz8Iy>-
z-lv{0swUJAsecG35NDNHbN??+EfH;zrWVzSO)Y6XDsxL6YxxcnxA16eI3nivqhg0a
zZ)(Zhf|O$2dMJp~^fIZYms2&pM3^XMwut1Zti=~l<4-l!z@v`p$Bi}+_o5{XDIkUu
z4ZxCzIy_@iS)GD4uZ*5hmK5%Wi0X+4%^4`4Q@V_4-1urJ1pY5=5DZc;THG`i@|4Au
z7G#F|MT%&GpZgaYBcSslNEY0<E>&E}5@sj{&?J;bhwwUabfn=4FyKZp#PJamj)k<=
zzGl>)(f}opt@ex#lxOYtOUnxNt<xPhhqA|*6u}n0eoLXYwNSUZP_vr0hpn_dlxC07
z#?UZT{hqsR`uRJJ@2$h#JOMy8Pc=XfRzr0tduToY8;@+`;BqKcu;B#NKaAU+Q;V3t
z3Ih9oAQDEmL`#x@PH+keXILf<C?HB4k`mJxZ+Sz?7#IRavw~*Vk_QXXL^2IBp?KV^
zGGJ^j>PKUCDff>O`dGBYqtwHqicJhq#G(hw8JGF;G$|;AdyjmC`{8~&1NL|h7xsc^
z2M6Ll@gY%&AP_m)^;Bg4$*!aOPDPI6`s^oqy7wKEjp9-tb9PF>a7zY7Qlg(tn3Vd+
zAx<(eL^Mt!%|ky;FwxI06Bm;bsxM7OHSne_K#KdT0Plw;vtjE?Wl$bK6buM7+<5N#
zb5mQUyK;ec;ADaNMep}(8bo30T+Qa$YQAPK84aPZO?=I!nR9cykMo<4Lxu*y_Zo1c
zNbOe*Q-@&ZAV~M`-rd*(Hc=2%<XTAbdVF)fRny*_yKT-YD*p*q5ZYn>B;6-C)qS*R
z_7aJK=Gnp@px%$#o0hXbPiC&Q1ajrsvg}pVkV;YFkZmRd%~~Atv@fnUs%LS=Nczt5
z3`a^dLdgq?X;G1BW6fAo^v1O7#%;K9wj8W?gBBy_LNzAfSn=>zJg{jgT(MlxXG<Si
zmvXJ--*LOj7NA<G${{ILZAYses@r|cnzf)K#*zn&C()$0X8)^uNUn?AM^K{LY1EC|
z#vManES9F-Guor8ZYgXAf|+*VS@d9_s1&DawZgQL>oIN{I`MF!izp8DP-CN;hNXTU
zcV%2qMJtth4JXJ&x43@#UMm%QO|FabOM4j}^vycfH>E{2Cwb?E^s)zsa2uG4K+$3M
z4~ObY`jq}vD=hXYDotWO<Yv5b?qKM71{;fCWS=_5t8I`RZC1W07UeL%X@~VMlY=K}
zC+e}fB$EF`UwNgz0!e4ws~TtT;`M_T<MPz;GPI|Rgi@l8mko^R=|g+{#c_;URJHTT
z<;imjeF8BX<l)zBr!T`aZsk;9Usi&B=|3f_L^%{IU!{uA%j|s#h5@MTc*I?-xcxGS
zBUq!O9J8@5ctD;KwRU8JRjIVS$A`chj4|yO-D$dm2p36?3`1x_l*ZVG&I^@se@}hv
zB*;}saLB{~+QYOJffTt6#)E?Kus+bZ$neH6C+Z}*D1os*7Eg!_s-wtJuqI#;Y=pR*
zj6wCkQ}#c>2WI0d6cEv?0F_rx&fnp?V3V*TwAVrVx7-pY_sUuW?&KA&niAAdp)M&<
zYT;SRUq?AHi@aiY;EHwW+>wew7zNTBZ%_<lDuzo(jiW>Hi-Ljf*YuG1Eadel4i%FU
z-03(7e`#15ONl1Ce5qI>)=yTpieDIwUWTuWe#KLti28{QD`x%>)Ng6jDr^9$gJ>;)
zDpX+_MD?Ov^~S9GK5S~iAi`8&+MRFR!ME<n`FDakQeJ-}aXm5DylEzrEAIw%0bJ3(
zn{E(Gd^JqG#D06<%-TC4e#7D1nj`OC<kuX}`A)z9Nlo({tW4Ex0m%Kpjf=ik%&pwS
z*KYp8(fjU-$zA!HE%^4Hd&@n4#T&*q?KkaHTc?Nf?Oi<nH+SVK_vHM0C-jhFsc)X@
zc;l%Bhq<xrBRi~nP3k|f;Wk02>%f@S8{O>Y$-e2(TgjQ>Jjf{c-_nz-J(R0F{1cM_
zrW>qCgDa=J^&jbw1=z$5O;gaMdYo^1{7yr@>okx5O{a79XC@rP3~qbRxAxwO*4u&U
z&*VZoaw~RTKl&jI=Rfn-GcXV_xpnH9*^N*qYAK)SMQxhaFPID~%YWFoZnEnWTvb^+
zdGvPY?ey2L-nu&LoqZbWRO=4p+77;7*;8m-2W&Xdgk#~#a@fWyulmxN$vxR<*7&!+
zV0Lf8T{gMm3(u2n3hQ<2r0;bXc^%gslY8Iy1c7h+8-bcQ-P!aj+a@l4;W60+ym9j6
zP3v7JX=7zwKit`qt2y+oqcf-8*b562@weRX*RG#EiUF9bIaH`#eXDc&#B?WLy)Nr6
z)Z;K;gX>Tyy@>11)vo`6uLIR^Hb{o(pPxzbt9HEa+)08k8}2iqO)}bqF8syE^=QK{
zKCac(9@aCC%y+i$I=IvL=Yb79dgJ%n0zGD<;1FkCAIJ4wWwKBGY7kFoBtw?|FHFTp
zB1?}z;c+U~G_4HuNAsFB82~X_H`Qdx!)V<=pO!w1)~(2!6u*MjZP7w(pm%Q8qA<fy
z0!jsq+b8FdF{BlgM9Ubm3>H!)hjgDO**bzKOCFeOs*!_=a&~gcB>*4XnDJ7`>}W_{
zsx;pfGqy}-2qQ%g09+6N&W-d2CJE#j_l}pP8^x~#rZZ(~geK!;^mGRP0L~PUEXPL*
z1(73Ty#RfuQM<r0aTT=;#Pw@RTN(#jih0Yvb9xvmRUwotwN_me!`jQ{A5ekaCkX6n
zw#iY9r2@<V$3!+DC`mFuWgwPEQX{c`Qt}l~VxZg;pNjiW<P^yHD>#B*qy++g-~wkB
zlSFIE#8A4+Sqbw?TmF)mVyHSM_unY@W8^Slk*859Zaqes0aX}^AL@r;Pw}$bSLho7
zT(Tbzb(E-3DrP7b8!8uJa0jJlfSBo`IKgHpvfBQJ%3^K$uhb^z+2MGx-p<&fx3j~S
z7JXB{iEIkd7^h$_LQfG|dt^){Dv?kG{b@meP|!aq_zB|?`<b0-Sxg8$k=)ez;RISM
z*d!zXAR8E%a@Ji0i=~rqEivVxN=+Awi@l-BXl%VEIp!fLju2=jD@%+d3nku)HGIXI
zTt$1<$rM<M42$ZPeD!9&dNaXnXtoqTR0Q)CoA`=NNI~9CzM@m|YJ|4rD?0d!ju|)`
zv(678o8Kzh6}!unF6Z1G?Cz0ud|=&-_1`tmUdU}flnWfj72F3;;<#LE|KQ-sI~~~`
zQCjqkQ&ZkAKQU{XbJo7^eEeNIz=o{~rgUmac+*!SU(=1lH!kPC_|~Q`k4-<zH*CX^
z8@Gi3tFZd=)@t5bJ-PF)we@eSLfIZ%{g!vu^UnIo%v~qMN~O0cXFj-t5AK+2*g3cB
z6yI>_uJg3=adFhitM5BQWQ=k(2naU6s(|}$kf*AD@o^pMmm>1#ceXU|+h7beE|s~W
z#V4*sq7JDRLyl&!dH5_{Xv7hlmlG%|u?$7*_f_&SVJpU;BaTRsh%Hieh&ISbJDi_<
z{~JZIQ8Ff(#g-z&el0^$5sntuX%8g`Q`~3B!EsT?y-VrI`4T{D>QCT#3DR+TQ|rfO
zJq#YfX`8N?@y+zlc7J1VrhyN2EkG)&jXvy}hTsu?=C&N7uw9yAP_wS1JC1^#AG=qX
zHey`qN*D4$q^o+~Mn1Yla^68ch#yzZyU16ntEr!7DR7&MJ9~AqIr~}OR=?n-k0<p;
zQ~k^~5ED)H^G=5;C}m4NF<bK4b#~W+gM8IylYOcmw}--lqsOI0C!ZLdd}1xghx^)G
z3oi22drj3dhIt)+W(^DUGv88bT63Q+sKGCa_18>xP8lY*^1c=G77BvQmTSRAzF>!m
z^y(*1O*KzGb+dHdK<}HkvETbPSGNCJ)q)9O^8@-uQ_cNA#f|Xw@Vp6rn*9|MsmZ+)
zSFX3uTPVaT*$bPu(Hk}G69;_aNYeQAV>FdVHc_)c0(ojlub3eQt5TBeQ%Q_$O&TDl
zWQN@-H(i!VwkcIHV387UlFXJU6Nc;NtdMT9ykrW4c^$RBfs5sk&W=9^{+#%8!NwGm
zA46P6%t?3$?w&4%yq62|P#&Rz?Q-3t$>i0ZA!sY5_Ke19A7%7MW}k8q0iSR{OitYb
zne_tRr+*}gmvnRxcj*J=+akeh8Kp8Ug06!55l)FUwDi%EVph@+kytAYt=T1ylEw@y
zOAD8z>p(PcNyL^1T$Ll@(iXGiIcH$khA3EM@$(|(Rp`eM<^v^GM(QT=9*EAsLKYL9
zA!a}ab||QUsV+(!D2RwGk-|VHx0&{y?c{8s1m-ACxzQNXzlf|Q!ZQI{nea@01|L%#
z!F_HAC1tq4aY`>q<j9x=PU|YvB1L^y1is=axRiLGQJQm+G|-W;mSrX(lYuM7yGQ``
zHu3}8V+r|q={w-+jh^d0qSk26zZU0U2nS!iepQ5-P)}t*c}bl6HLLP9oqSDa)^Xn%
z$U7l#3|kbHdFLwLxvD@Rt-P~!-eQDR2{#r#V03v4U*0nHe6D;8(zvT9!@PUdbla?*
zU%iKS@0qjiVY@=F$TzWrZ!$cR#s%*w?bFnGaaBE<abo-wjFaVNI|0Hak38EMmr~T#
z!pJUtwAL1JI+ZhuHDlnsAdzaVcSX&52!gISi7g*fF)YAh+OcLe)+cFi;Rart%0R7d
z(6O|}STz(6S`HaIbljwtN6k!x5K7)lR*+F8zH^eMwhaRP9Nos70-OJzY3?)8o*$C$
z6s>}%$(h3|3=A=H*)a-Wylz4X1TW*?iBniwPU;|WRms}l3g3r&l5(LMh@~hjN5Lx*
zuZomESq4z4sk|PQ0B!wmZ*dJ`RuXSSqC!0g3slQciuxk0#J@ssGgS9cteuwCZ^z$?
z=UYzjEhlm<rzFNZ1UiWHldnC%*B&T1eG^XuDXjw!r|KiCZu4&a<mxxuZ?;cY+^z1o
zb2{t(VAHN8A%ti^XQ_=3v=z#m3Kh5wc4eWO@Wt{q;7ym80(n>(VT}~W!Qz<9OFwd#
z605&dV)cjg;*c&k)`}<qO(lg0VgyJ8Ff?&L#rFT;9Mp09wZk(8CQ{d!#z>2g7RUon
zNi$bmnn<7+k6x$Z2Z0N&RR?8}(svD_39F+<xX4529#u!!717ESgbb}ZQj0XoQtC+G
zHGnRwqegh9<Wuz{wOli`W*w<T8nKl+mOO$hh8wCOQ$$#usi@?ng$BU-h15smX7Cs+
zDzcJd=><fUgCME^*MnGzg}7NDIVp%k@%l{gIjj<&14|U>g%#u;Gcyrr6>my;!;H<>
ztfeF@1A&ZfpoEdcD#Y2PcGaYwR}X=BVo`V&R%XU+>^ZilwHG(2pu7<UTUSOy!Pu4l
zSS*?f(xoGbRru|@5>JjMgGg{T#s!B5g5vR?#a<J<98V;IXJbL!O)|{IqGLzJ?3vKe
zr_5Q5ONBp}-7zscQ9SZf<|jqg%#fJ~`SHJ?%Qy~D;hfZWyK&MS0X^o@e!vOhsEAyP
zD)QCBAq%D?e{&Xhnt(XN*cs6GA~++M6T|0V!45ivecTW<7C2(CsDKeWVH$~DA(%$N
z$Jxr*FyO!pk6dLW9~rzXx2G|Y1sQ20>jo*24kJ;B6xO+2tRss-khX}`iS!ii8B}a}
zAfkeVEThy{35X=o#20iQmEmHKg1a*BZhp^=+v02UzEwP!_^aRZZM^5NrmI4rDpb{@
zzfZEBYxv4Fg~}#a_X?E%zwLc_bQ{N+XXE4n5Cln(1VCIQLGcg?N+cyp)Jfg9qSM#d
zG$lY1X^N5?lw>hrVrQ~rD)Ee|%;bq2XU1?gyP;p4H8VT&qD=l6Wp`$y+3e9R$N?6S
zR-BFJulWZunRSwv&F=53>TZA#D0%!QFT4AuA6clbuBxuCuCDs(JANO@7wY5g*=Ld+
z{c=Zt!n<t>9txaqejdE|D$k8A*SEw^+^K5Isbn+ic)NV2JmvJNHGu8EGrs<tTi)4{
zaCXC5j2hy<1DOXkgaNIcxl`4iQ^yw8juzPotudcki`zSWGX6{wLXxI63D?>w^N04z
z8%5WPrrq%qv%BW{CFk0khQIFm;kqBJyK6rH{5ay9+^eXW8vk)c!({(_tvlseF<T{j
z+Ec;My-@euzPq6<iH5CmXv=KH*H=rSEpo%wRDEkI*!r-n$Y+~81cR!&z}syzZEv;D
z+9X#m5E@i2%k=mM);8$vR5oUug1wG0OUi}DejVeM{EfL}=O!!no@>iznb6Xf!zejP
z!_7%)Eff%JtVr8P&g5vP7`^y>X2wBEqu?UF=I<lh7vaCbZrZM!Et)gT9h)nbTh?a;
zO1KGj0R3j#g-!jshb4Y^bEjQBe)D(rlvFHKd#1Nb^{XZ5gF3qAj?0eq87f3uanFK<
zVlW@?1ec?S?ceQHnIei63#he(Vw}G~F)Q&q$|z<N98E9`t6G_1#mI5(<j^($Vg)Yp
ztvx->X*`H_sLR8`zd=$igf#b63o|YwH{$|)v>8TF>gJuyp|WT24xe+T!<N33Iie_n
zm)jBmJj20NUJlA%su*vX!=<>31si^=lCMl*DOh3br6WTxw&^bpmmyyTgHx`={?V4^
zo{kS*8W|e`uH@jzXEc+FIXsR=>Cn^C`b7T=ZUnio9!$j%pD-Ovv5`c|3I}_X=6OJ0
za?Kl1R-MT7h;0tn2PgWIEMlV(QJFysv@67?kZjg_G_=Z4D;$`XH{NvI&Dx=)&0t%@
zB~`jeAz7Ky8aLAc%lX1f1B%H`?rw-?HTIaZ2pJNz@@QCYHP?z0dS=Rlv5<chQv3;*
z!Mw*n<~<W&=*0Aw0g5G_&mq^Kc1-Ul>xM%mFp%$=95n?c-?x+&g&E0%Ji9?MFtPzV
zLh6dVBMhi^wMGyTzvM&#+vk-)8Ap4*oOZ&3yO6at!KJA+!BM7RBkq(fuM!VXe<?Yu
zgS5sP)=`eI;j9iQ$r>gKyH6=sT^WM9!}H*wKoVt(mB9|(OjaH-8}-K@>ff+2vc*Py
zr_^X-_tdO9t~r3t4b>Ci6~o3PW`xr@3<x@)mQr4@H#F%JTv?h5N$TL>lCIEvmv_8`
z>5uM@tMnD*9fc%uv8>VxcM@9xURVLe7_`44tXa$hS;IVBpI1FjW95&iwiGRs&q6(@
zjua@D{3;iOEvvRN94v5`BDLHT@@Wq9-m|KsVxoLBXGCcuqCD$fR()e!KYGa<tIUq2
zSmhZqiYsSdO;rvGx29&J5uGHDvmHvCIYq%WFi98WxJZn?U#{F3I~6%QG&*qM4Ci3Q
zHgAlvyc8i}TJ{38v0p|Rktz|%cuu5kS-ND1*rE{DMVXF`cn*Cgo<RTwVfx_-&r*Ve
zO8^)PfU(|~Y>vqSKEidtkzBaQxdcSHGce(FCH&Dq(PW93jaYLU$OzeA;_i&!28kQF
zl^);>JMnw?dbt)2lPkojQer-;`ZNU}N0a8ID>*%<0#y!-zztn3Gh`aLJUDVG5>=Rf
zbV2-AbT3UfsPY&vw<=SrLcpq%t?kn2rD#N({29uEO5_3nnHbIDEA*HZyb(Eqw=}Gh
zm~9^vYm}^MJCLzX4UJ|~I0`Ts#O6?;TJ%*ePa(OrV&YkFHF>1xAJBTT4W)h#_!S%R
z{jdCC2hiCZp{X65RTz>T_}eh&LNHkZ>Y=Q9y6BG8e-HlVdgJTly7u?NAK1I^!KvHs
z={<06m$0vZDyqG0zP?ei`cf-e;He81EQHzu^YK$ZcCMZ>rdrzJL2k-2{WQ>18k^;Y
z?pYUtsq)m?&EFmQ&Pd9!V%7-eNN?p-xdeq*dpA@`>YM(h8UEqgduKPzc21Q|pOfv)
z^9?;x{hBEos&TD=wv5aD5MVD|3nruA_jj$U<Nc||;Orr}u@9Oo^$pP1>3?U#JGNBo
z>W7r$p#cRlhGMAP7)rY<r^+N>2+qWSAY8xVogz8Vm#W*7^0cOW9Y6>Mm!*CKxGeR^
zhi>q;B|RN*iZ}aG!qYcZGVkyv9qqEC9a6*!_jGIgYO;BYj6e4l*}fG-T~jC-?3IJP
z$>0t-xZ~C{i6HqolY>Vkdp$glzwMjxr5yb!M-veL7K)7S$|*DMQqh>Sx61a`*$!#l
z9=UDrUHiV2y*X(|Geffz(x#(w=dlm$$1_jq1XtJM(>lRhe=pej&AspJl|nlc!CmC%
z@9NA|32H(9jf*CO*LLk7RC&DhZ|#~q_@SqM2CS&HsVY~>0mx@RtikY<-d;Q<V@qMH
z;R&Ry-iHQ*2m1AO4^8-mZVss&dn8YLqP#;Y?)b$=&*{*aTqwD^Vt2WX+3K-bB$}?t
z{m{t}S)oFR>QE1&NEj6oLxc>6b7scE@{3#=MyW-eeGA!q7G%9Blt5PVM70DriT$Wk
zWV70jXcl;t0y1G#48+9O@x_Rf2$q`dC}s{&EFX%DfD(l09Nsy`LyXy9@Pj0lB>H4Y
z{w_RRbRAkiTI70r>D_XOlI;Y|!x4BA)+X*CK55-0TX*3zv6s%5RxOzHFk=w(CDn{}
zhXy$08ML=emk|Jaw&xX!fpr@Rl3C9O@N};Wuj^hnyk7KrF};Ip1&y~0Nt41QSiAJJ
zc73U6*>bseWw$2$FSQ(*ofUd-T<_>ha0Z{H7SHG>izbUF4QJr4?u%B?nEBUqlLqW2
zVBUbMIcmXS)3u_)@~bR6DocF=@eK~{vsccN34STpgMpVe^edLASC(uU=m}|=TljYf
zzG}E3T!Rq~(Iqi~Lc$N@?#PF6mVW>RN&6z87p3)9p<Yp`53XC4W2B)kBo9!(3zf>b
zW@6e+hHC|-d7xvN%#CerxU}F1+6tUVBkfr7m2bX`YiT2vudw)8d=4-h`UCu=i)qAB
zCvkjNW=77HShy%{D>8|1AYkC&w2Hm@Dqq6Vb@WMaB_RbK=zL^!Y~bw3`JT(;M;`wr
z@eR-b_qG)cZG@MA!I9`@#?4=*%3buay@;p40tkkB{3*G%WA>a}+sj;DN&$eou1?mj
zm21}m&=u&D=iW2DZ++K#w`z@KT_aVk`4F6xr{8{l=J~e<60VLp4=_r>lW+u*j!xOp
zDOIhS>yxWCN!Cs5qg*mxXbxlJ<yVM&)rj!|w@SbH@p7#w_bzN-1hda;C57h5LgNWW
zXOP8d3|!L_n8K!O1vLs`wuaYF2SyqsyUd7)C{669ZQNzBDqaO9-4u<NJiRYAJu{^e
zGILFrbKPW31B;1!A>pO*D1L<kQt#sTVcK51DQyD<U#5UYBNGSb$Zs(yb4Mj7-2O>N
z<uX+sqEY#Kc&tx3D(8JG;#XuJw4h|)`fG<LcTTN?8VorRNV>Pm?yWF*n|dYg#L`h`
zo7@lL$<dswS}RwrP1);G{*_68pX~1gx!|xt`M1o*nL#8v1SUi=_}K8AJ$4nyv48*p
zj+Z5;OLzxgq0VGGgd)C-vdsZgH)1M$G;N4o6p%b!1s!DXfmT)iGML)kAJOSF1?*MP
z#KDjTUwkp}BBqV4Te*C_iZM!-e*fd`|Crfg19kb=(4=2+Wj4U&Wu@nG?S82TcJlin
zLwEO12YFBS%5MA}k@`M^5SneZOZC$-MsvyLKX3e4z)!|*EwND?KN$+(I-<;%as^<9
zpRDbaYdce(-o+wgnGMvLa$$#>lqs{2#Ll8h?5gtlmyFGHkvi%3sZVKQ5%<w4?Ttj5
z?!`8WeTiZriZPw7l@uciK<uXAYjpJwDE20TTnw%AbcKSSU|ouSfUAU|1wE}TQo~wB
z`|60!6q*O$(L@o@yOpl#s_8S+b#g^hrii5#b9E*2^ae1xGbJnyY)No7<2BR!;mJ8;
zVQEl+s`*(Ni=Kfqyz2QXf5wDgR9fFMYnVMbYmoyznIcMpzEj0il~l7*s$kewC6rj%
z4t8o~Q^tf}wa~HIVmYunQ$$I{g0mx2LNTyUE2rA!692~*obq8#&xxHbO)qJyBFAQW
zLZ|WE+Ce=_$HE-)EoFp0YXGpJ{_F5GdsY`Veog-@l;)t9#9?HMzh;0<6TT!m;AL0$
zEP2%{1-6w1dP`RPmND!rGc=a6-ta8YkFrD8sRAs|%1Fr>BV(6VebENoD+idK)=0Th
z&dAWJ>`H2dmP%MvmB6YhN8YN4qaYlsQ(>?g!!G2m0g6?{C(6x{t#~_}AiO*%?LtY%
zFwM+)M<JJ2z}WJlj7Mp;S8FxlVflcE<&Q8Mr*HtV04<Trw=0KDOc+@8<l8XZ9&T9X
znH!f$4@MezE5c37<Y4bfX>q~+j5M$}X$`M{wpwGjd6{~spXlq%JG4G%!BYgot&t|Y
zx01qn`Fm6PWkrO+>f$}Lp=2|9ss;VK67g2X3U9-L+mYt3KXzRZx5M0Lh!k`NM|MX>
zBix$m_`8O*`DN0B9tP5r@_U*6GKffkP!$7dGMg}7J2E(W_7Y&JfPw)rXK3U+5LgDo
zq4Dax3;gmgi-3o6X>cUeY8Wrh=2glrt!liCC#xl(gnmIBI*XNlU^H?CZHSy1dPSVU
zcgUo81zb!MWzBXuFCwzM4xjp2in^=I>hR^{F=i=txYSTS=`ZM7&0Nc7JeL*6s88a+
zX%U4Lr<`Y(&GFX5qa#-XEIn{R3@{3TWXEjH4GcvC8d4VkvPzkHeUvPi)1@bghqY4_
zFNj#C4W~z<*-lxyPi5FxISi-)u)D@rv(<9B5y5EaydsmdWUfM&!W)jIDrxb_7T@%h
zyO!ou)z(yg!iP4e<l2$2?Uagl@`?6KC<z(K7=9p&9l<Ez`(>7*QObC&_=1)9M~hmX
zze+g6$afK5NGefiAH__Xi&1yp!AzF59a#2aA>{~$5u4+1nR%k51(+S+oU03knuK2t
z%>eIk+P!0@*9ebR<MU@TGmS9w81ens0bMgv^3OZ6#<WnDAgpX<FBvoDSlB={L#4T)
zVP?;(0;kN+BGCgB7Y4MJ<DP_tmUo2BBp(m~#|U{x(P;HDxr&uskdYu45Zs~eQLk17
zuDD^iK|Ra<E@^eC*6O17EULT%?bCV-PZP|RRbz#0YEX)HT<m}=Y3m`rvv>m^@7agv
zemeOVKmTwuvDRs7g8tiUNH65SEp1}k(R4X|GW5j^UWyKm95@K%T-v5$3XG&H>Ds{y
zk=)C+rE?+p@870b>mTSg>@z4E6i=VSzWFqR5CVJsb7-pgc?7UTrFm8TL|Bn1rB|FM
zaVDD|)Qjs-U%C<uAH^PKVC*8Bm6-#&bZyQB!U@(?FbJ`ev%3D0V!P<p@1uRdVPLl=
z^lxz|-P1xktm@tVoU-`O555$EGrx;tS2;wv>W>eWH-PPnsw6&pUV2oK8p-?iyVM8o
zQ`%op?2Cvk0TWkv+tdq+-t4lI)BtWiG&V4Boo1#M+yVQid&OnfisWMF-C}pD!oxwS
zk`>)@MK@5XY8yE94Z7abob>d_o}Q#<m+aX^C{#5ba`Ki^Jlo+nS-(@R-+8-6u0PD2
z-GP#{*GuKZ^DP5B_L@7^HS-nKFnuiXfsC*1fG_W)H6U99_dw;IjK45<JW<^TxT1Si
z@HRbLoTyr@xrR$M^lIMW0QZH07LRQ4#Eb4=I`xJmPv^CRsj{kMnNKbwi_fx-lo#p%
zUDpoIdjeqP`qmK=QjI5B(<0Zjup3A%>k?J#Q|@M{Ybajdpgy6ZgD0(9Wa}2Pc`5s#
zxSh|)chO_o#Eb4`NKzL3F8n2e<rmJdCU9jADo{)Qfk`Qw2YO-!6=n@NdB9?L70`IE
z>aK#d_?j(esf9=xVl<;V#R1#Kfa}_n3x8i=P(bxnnF5c&?ItbB`_UwEfC9$PGKdE#
z&Qfy|a&ugz;kb{oy?{W4y`oOat1U`*$8J=`p7e9U{=gu_Z4fLCfpZ4je1?$7xZ>lR
zXmYr`{4i#E0m~NuK8@}#;Fj2_ngyrt#`yK|cxWz|0M`m;RNkfMkS(}p+)}V-E}U>}
zn6%AXY9)(5en1MsZD1`sYrI$0lB#Y@d0T-gk6kEj`>_>;{K4v!EV$ZU=&C`m2HCjz
z|8>Zmp;!MB1&lGJ3>lW1n~<A>4VefP8Ah;V$Skex6Ac;89s1NmCZ~9Uh78TDY{>YV
z-X5MAmRdL8GA4W=$m%}9pz%qT6|)<qm0Q@L!C4y{G;OJ1@246xs(}W3y3i7n8#CI;
z$o1dD2S~FHXIPRSBkI-s1BxLaL=;0~{o|06h~Nt|Y>TjwktMA-H`2bTkQOq?3TjE-
zF<hLNfK!$DpD>QbP$NU1`6sH8Od3iby`$KiWxEz`CkWBU_C?s7RUW|{TF~tLNp--P
z4BikOAejsImPSPKd@Qdys~l5^<b|HEMw}LM!Vdn4a@XMk`nqAwG#iExW-=op{?}ti
z1sOKcAjmu52trxOuw#bX7g{Em9W-A$*h)d`2mBa7)pejd{H`ut!lFbe0aB7NoJlE`
z0gb#{27d(b>??kQQrPN4)D`#ka*68RLjgldW!eqjpi`*z3F39i_op~j@v?qE2~<5W
zsbQ=!Fm~<=L+IcO99z_g&zd$7IAt_SLzXR1+6v{MtvkU9FIkqlp0q4ITIL^UVyVWx
z*u>)SOa4x|Y89|F%4^@8xHb{j-C=OoQaSJ*0;GhRaJEjC&0A`wE@QVC58bh>O4Y51
ze@?Djo2=U)*KN4D<FEFAZ+~**L3!iBMBSll2j(AldGY{r@6~jtyy;%;Iv5?_*nfS0
z+%x;i`=5XJ^NG%_xAy}1!dVHiC>;0}3xVL<pPl*a?8aLyKkWQLXJXs2>CYzo$EU0?
z8@}<}_2-h+-7>iw{?J<S=7DPmroHb)-XDH<_^x$*(z;o;ZoVldtlLshe0UbB2M-Op
zvR393=F2dU62R9bsd%!S0KVgZDQ}UATiEibDH;<O@t-F;jK!Qo{lu`3{^yA<r(Y=g
z+nVUk;odnD9iwj;_44m&+WBh={sRTt)F%EAr|R7FpXd^s`u>(;+0sn%^B<A+*!d`j
zXc_;c^HEM21D5P)^KW!MYUq$c+vSEG$%egh!(IjSCTXvi?e!3-HQFSrA7r`R0e=Nc
zrlphvzQR2>4qrc<fR>Mswq-Ok!I394vH8q|EORa2?fgz>qH8<0W`UIe{0&r2SuwTL
zxPNmq)Di-oXdVmx7p4&05QY?w&ChSfDvupmSa%uP@YrSPp}q=1Dn47}%Rj;<sCF=n
ze^><RH{vo%8ZJYs^hQ${dpm}j*0!8l@siR;D*eV*Sl*BdhWQX=Gi-rl>o1c@Dr$*r
zq%k=%lRWB0a(XY`LZCXYq^(=pL3%Mv!|~KrVvBHDrlR!tQsio$Ps^r4d$}B*3#%$R
zzWqr{Cuw>w-O)W#Nh6KjFW_mRir|Nn2+u;X;0{dgowvIr?<U#430hiGW3TM!onLjF
zym%d#R~>&S=vP-_<NwfrU&&4y4E7F;mkPJ!-EqghgO|DUgfe$f#)X@ad!L|G-1z9e
z4qeBIayKF%$_u`BRf9?=5?AOE&G$;u?O4hKQ$R<S-3mWiVm<W|k(KBr^1<F9XWery
z8OWea_(1;eti{U?Rm~j*Z7`x>ID~Z==z8dme})mZU^ftTNSIB0t0DUF^a^_c7qlbm
zoeMZlIsVCFn&$90^wm)}U=P@qMfXM*Y9bKXyd$S3n7?J28(ET+*Yw6wd=>_-K|zC_
zE9}rWfFXZ}UcrwjV3;2N1u=DwW;_fD3F+#bQOMLT!Z5hvf&(C|W?74Dn5XTWiIL5i
zw)43+n^ItMw{v}tY;B50+_En{KmSI0<!|Bn=)>4MJ(l$EmFe%;?Oh1)q5L;8p{m8G
z->?aY==f}09njzLchBvS{ZPK~fEt|!a$7^Hu{qheQEuEQZ914}JS4&Gvc2iOYN>Ne
zqIE0uG$nfz%bIv{R_L#0%5fjC)a*@CG3SK9^#z+*xULgG{Gi&W;K46JUeyE|cI@qP
ztxJaSPVx`JX%FkqWsS};3m4j5E;W33)2LWQf=$lU>k16BZz;Ee#iRoOS-^;1re=Mv
zNyVqA+06Eb1$NF1(5%4zmI0c<P$K_efM$jElmuv|?HaSC3hgf^EHEH}xFrgQs8a^<
z2F}XD2AE{%@X2H6MWz(762>2Z0my`Hv<T;=>>Q#M<SUPHp+-&27B*Z0f({&SXabt-
zy|Y3=7$kHoDP??2DQ&VqsXfcotnEyZ=UF3+E+_0+<kdo^9617&GL__p-z<$Mizn|@
zAlnHVO#@krRjRq+Af$>rY~|sE1Ls^S&*aTv%Qzk#AZYeNeF2CyN38mc26TXSuQvi|
zbfP9)GEp0|?+~W+&;M7n0MqJ(bHX*@&H;6^s%;3DFstVpnA)&A57%dVTaBq>nzsky
zvyzFrm@{mm_Xp#l8t^n~X*y?j@=SOqd@)bV8?z9XAm-!06ZI2;3I7w!LHuf~3c8zx
zFEWiw0fU|VBU~B_#OfKmoASjEuguQ_zLJtO(eQ+}1RmQK3wcIU`QgI_S`+i5J@s0S
z$F-#K2`#CALQBvV?LGxt5)0(ycw9?@F>9fbmeaoWM|(8Z5NnJD&uZf^R!5^&Z8HG$
zYB6qTk*=N6y|EADh6y<_Zn|PMP>of_4*bl)gZ$TZ-!^}OQAEmF?1*V224CB+aF3>(
zwysihWq)H$YP<g5A7SXR|4T+#*z(&QVQ>5zB%3zMVl~QmtC`Zj@r9T>=3*%5E1o#E
zgV}MS#$qcTJ6`C^Q|FojUtSn<s(L;DtDt!r?Ym<XMi1xA%NoGV#BaI1>T?4Xq*3jS
zVNx&6JFsq8-YZj|a(GSNWt`^r!bEeddH9JdOriducQ}moH2=`%^Ojh13|d*5QJ+!6
zyhaS>eVo@!e3)Iwvow9$NOJcjdmMV9OoyCkCEAs7Q3-Yg@I$i!X<Q3eC;kh>bG$I7
zi#Lu8o<9{H+&sSb@jF-AfSqStZBE)=ybxvTVma#dYE_qsOeZ4mRblSsn-zaH#-+;C
zMh>;j8iY-iAbu4=t4E}92o^Q~wIiZp7{tv58IPQ)2#{F;$M5Q;m}ZK@u{}$mEFq3v
zxBwS)MP~uoeeu-QbV&rr8l=b;;RgF3(GC9?dm;`Rx}9SGnbLMpY=(jpEJkVHpde1c
zG^LRdU~4Of3Hu4%{~iTw`^4-6nM{D*6IbHMYb^2d({|EqLa&iQC5O?r=WG%NNLHX4
z7oI*BIsMYWnUS+;6Wc*xzs0u`<aeDtUfKW-MY@#5$-n~6*m!(o2)2wC4z>!w^T;dI
z4Z!hcQ3bDz<AkDf*v5nzpcC*nsn;<k2y2U|qvzIB%gu0Sg$xWYTpXl_{1Zwpr3X?x
zq-EpKKhx5$q>E6J-MZ+U8o8oGOsvv$G1DOdA}ahd^A6&}3j7&1+SG9d)6bEyLFN)m
z6=6K_m+OSPmL0m|y`OT-AE6QM24ex%lBGgrbF!jGuIK>-MXJmT$%kYmaP7*{Ni(*h
zYc_m$-*@&&TMom+`rV%63D*g^=lJXnD37n4S@|a&QqS>8AXuD8_4IwBe1z`?*#=<U
zTn$OrYT31V(w6eKB>kIciwjIr?~0^%z3c@(shh=nWN%N>yIc0|rW6=s7CZmW;`-wk
zQf=+DBla~;9{!1|3D_T1PRX<CPSq;7in@L{Rqd91tL{|eY~|Ep_!ORg;f`bFT<5J5
zau@7cf*fCNcJ~L4o>WcU^ylu>bj%&TH757$UwUy~%ew0WM|Y-HaIeU?g^inW>wAsu
z$;KYJvF9H6TJE-ledW6^{7-{EXuDoMWte&v)(F0acw55T0bCO}^r@IRKie<+Lclur
ztcZ&<hi2gutz%9H$7oX}DSIGkZ-z8xwrcjJo9m^PogdhDWy(+)_T~NnJOR1uCimZ4
zvy;4MmrY-tZT@iWdI_koYxmzCytDSO<Os%(LiL>6ZYCU|xr#fEF6qQcGUKcT8`n`E
z-<_yhnew&IJ_lQh>$|7=r(T|}pLe=|tuA@V37-~$6sV&&UOKf8mb5M(`EZUun{cjr
z;PTEmrccG|->Q4y^3T-7_3-23mV+A-u8j{|ftlL3T(G*V_7o~L7_W>UdCSMkmCkOP
zD}@fnlM7YEw`B|MyQ$AB1jUZ(CjKVxIlas>_o>;lb62Dw;9$1iS}QwAYzC`Xvrrv~
z19BwzmHqS84e_&y>W+D5bH-rs*UY<`p@;A4nL9FfRC29@X{f(O?H%aVyWCp0XpwCH
zScQh>`1p_OyQWPrLVf$d%z@eJgs1a?w|?e$ydggL)^iWMjWZ|X+h$AWo|Rj+B)nT6
zc!M)fz4Z)w$`wFQc^g<Mcf!-dOV!7Z&Q`qj0x#De7iaqt-nCCIbYxbaEi^vYl~)Ko
z<!a@=7Vn{<`)Bq8kGA<{uhg<V;n{KPvg|qdGlL#R#LYrOcP6BE*A%{n#`wz^SYJ7e
zPK1ATm+bGF+M|6V)a^7ro=!MJNoTk0?4IkN6BEw9q_bak_TQ?%bu{7Ja~p5si25d)
zQP;!g^upR*y2Tgug0pUVW1_YNY%Z&Z+l6u{<T+;|*q01$k%L=q>27tw1~?f!C<hPT
z9>hG92p+#{J@FxKUNTc6HFVw7-KAS@lbzdct-f_C;oJ)+34xAeU^R>-5`pfyK{?P1
zAmx!n-+no;Kj}Xr`;R0T%Pm#zk$hcJd6!h&^^1=#83gx9-7nIv6AXLr+qK6w8-L)g
zJ#H{^qxTYZI*$Sud=%?eo_=7ujIDH0s1Tk4hRSK;-Kq!XT+YWOnK@`2!)suOF@}<w
zBj>juUzSwHNGVM7O-H_DK_eLkzmDbn=%vxXnF}Jorow@XgV89R1a==d*wJ$`R9dPo
zHvRB++^3yUDqowis`mwUjX;wU+VkN+3v`%IgY+21Kd`^FJb}~j77~eGByIcAvw^V-
zfx#t}QH2cZAhaY|>$b<-L(LOFQ$FQw=<aQ8hYla#+1Az<*n1|x)?iXL$Ag?2q2~%m
z&J2Pb9Ee87#^?#MowTIER1*PzMK4?uPe(ZBSrjm2pzs3GbAuNn8ot?!E#2*??d1W`
z0Ie^!KUxbBg;$26KtdbKDWsHWZ(Z6^g$7k$;4p(89UQ@X$d0*yqLa!V;o{K62t2h!
z9=SbK@BmYRYti%hcOonYWuWHV0(J-;0ByiUbQgQ?fh<>iX%%g4+z7re&>vQfF9IO!
zu3W$ngiRgDS9qGsmN^7&K4C|Qzoy`SQ$Vs9NWz%%t%>R9sxJEqWMl+uy6oH#9NmsW
z*&kyws#)IRg>mqRYxs=Dn;uUYDc{MDi4KB55OfeGJ!?R+tOU5_<iUAhz&lsU&Xq~$
zYT3D(AO-MOzXnREG;za!smWD3N$?4FFK8CNKQQ1?mZ(MGoQs;s2!1(HQ{fN&TOd&B
zPz6y+580F#GXP{cctJ<U{Vp<zbmv^B;i3r%irL_<WlUp2ORM@h^+X*iLr*~e147>h
z$fJ_wtL5_5a~+BDty1w;{+REhX-gi{h*I>Z3r7*;3ISpoLyD=qQJ%a5dh<ddD~CK!
zq_CwmpC7ykwQT?wY)2j9-w**`0Z0ZI&oGk<?eg!^WojeA?+pSEdx^;iD>&Zv_`yNt
z2Ci^-roX0s0m~Kra<8Hx-jk?kfx2~hHSeEz?_5u^d#~KRS1NBvl<$*@_dP0cq&0x`
z5AEc0`=^kQghV7^L#|qIt7&|r_EqnWjIk*QU&^JCNPyc6;VTVfg;L5~r4<=>ER|G-
z*jF|Vj6i0%#5_8PA@N`1Yees|53vN3|0tCA;Un8JcHs*4wEWA|i!1O5>54M|=ptJi
z%%2?c;SmX`jqO>^5728tt|yJfrMdMG@k9f-6Lu#Ui@s!er(E8ds>64<0xqMW*h^-l
zM#YR&EXK=jU72S~3V|T=s14aT1Eo;3{L?jXW%Ux!Xm|$#<cv2^+=1JP#du9=r(&0c
zsgb+kAhQG7WTq{rN3g5{7VR8h0+@yBm#NfyG>?%6A2V>^2CJv(l*#SSQ;dZ7Tzbhg
z;+~<jA5j_!GdcDUlX6z!QA8gFcj*FY42WrpF(@M9GKl|+PS;Y5<~jDIi}VF@_gwT{
zu$Ls-@GOO`VBe-1C?Mfmlnj^23f2xV70KxO$ZV`8ds26c<ZL0ZLbGIaKXd?<W*+lk
z(?)E`9u^rrrHg=^!KG@H3j`&jXWnGb=*^~Gy4mgwJOu30%_+Y(yKgzZ*Y^=iTQCUb
z3Z4z+w&`~0J`!5sRA4+qKR3I7Mn9S3x*C%W=!_Wye&<VE(>vsnz=8=UnN^Rw(hBF_
zRHk*l#5Q^9&Dgcr^f9SCAeYor;nvJ5pNVI|Z-FdG&1}^<Ou?IHG6H^XI~M3C)2=f$
z#&>>m&pUg*dH9{fWF_2~F;|(IW@|D6ex#l~w|nFsT);`DZM)voJzwLV?!G>hG0_Rg
z<{G!;hA)p*nIe_|Ti^1$_LZ;;5Q1;qs!MgOerO4pyz^B~a`KfiAx;}O7dtDWvtq&D
zHMc|dt;>|qX{q4!-iTd~#lv!KTZYPFVXAUv$|z>T-QM(E^GI0FN>(nEQ`!!Ae(2ZD
z*LtW_#zZH$1J5^YluJAS?x8fR-n3r_u%i=m-8W5tW&NI2>fRxD?39CWSwWX>ci)cw
zExgfEJX2hZH);D=zz<(2Xo%5wpdA>I>{#&OC+klER>nG58DrWz3)3#x85^#e;DR;4
zCTYd;sE~1|7^i{!XEfsfEd}4eDNz{5P`h}Xf)f<j=|f;j1<%px?@-{NGz!XSs_`HR
z{yJ<l@_`HG1YUf`WN?)}EGzYyWuu!v4rOosl6aEJ{|~xz071I^^aW5?rx`MQXz<i&
z5xHPYMgh(H%q$(AZ7z*sHU)Q2B<VE(2d>hrC=!oRaXUgW3tcmTuLbzmgOos%1sF^h
zU`!Pn9TjPINLQ(+Ayz3fcukjP<KhApGDn6+FI<d@WprX469-45AbBt)Mwu;rx+6D<
zuL#l5Su*ATT|i(ziaSD%S0a{EHLI2{!__GiRa{yXSXJCPOT`n)a>a{B%2rY_=aO6U
zoR`Li(2v9{P6ue|53wx^y?~Gc!W#{VfR4lZbX9avHb-8zk-@9Lh9^n4NH&PvXj6G^
zHj$@mSP9+}q3qJi!Bk1=3Vji}b(rolbc#r2(M|Oc1trpW62DKmm^o;O!vKpUj86Mm
zIkub*L|%!UzJ%8qVhxH?3oeWFZKQ*b$;C1QQu(~-r>yml%Zd#F+}8w<Ppqe)fr3T^
z>E_22d->Af=-ALW^G7KLDR)Pq-25Rpkrm?P(g1%sO;o0J*)mZYa3Ei_#g|bP<vhQp
zsv|a2E&NSnUqOiPuSFus7~7pALXdz}BspoiI<J}#$0qHd3?T|gj+u5pl8dW^(^p9%
zOmQ^@M6hv8i5@ECDp2Um5O!T>MH0aPC6C4gHg=alIYihZop!P`)-55vUmJ*mJ$`;r
zB)N)6JA-tE^8N=gja=rv-bd-BY`1p?9<rjG6xc*XXuBeAp<pWl*souSjCO$t=3rmj
z=)!gi7)7&_V!J3GS%cym5qDF{9tzkz8K#-cM!`Nxdx3(}6g)*igo0rT7#YJTlM8gp
z2%mQ;_ALsmH2)Ixme@`~F9o9%Fk8&q6gx=wAWVvMCI31>RVp7nI0}p=VYBkmnHusP
zK2|o1eVAEMkr4fTRFX01bh?k$3cB68p9=P$2$lyze?sWLFL)maYZAhmp9+;f5v=!x
z>IZ^f68!fC&wZikzOesey+Nn{S+SryqPs72{k_nyB{V(|c0CY|+!t2e7aH#iz4wK6
zAL~szJ+^u%VWm6W7Y^SScH9>_Kh~R(CLs9OCg`5h$->EO($A2z>AukMK-m2ELR&VS
zvL4Z8>-^Y?rofS9Y4z08i4xzdW-P%jk0ewtmRfb&bkheG1^Qj|S#|xoxRuVZB>Mz^
zkF@r%>^m$8_Nmr{aCp&d!v)Gtzl#lJN_P6q1Rl*^TCb~^I(p-o>(49-h-UWaDs`^8
zV;KQIx4IYTXR&QaudA8vdVBrM`bB}_i%*-@pqNNdGK&JDix+inUB&b^as;s`AiCJs
znazOcBCNx8I=7mG;)}myXw<EYSANs=j%!gsbn$@hm_g^AKKk}EGiVLP7e~y`8gzA%
zyM0lh$l|#9oDS!{9%;=U*@t`4>EcPl0lltN@~?&4EZM(*QJ~Yz3r0cTBIz7SUGp7X
zbIRyRm3UGWE!Z&V^^2v?nRTTpqxto{uVJ@VAKy6VzWMxufl?PN$dF+fGBNAp>agg{
TQuB@l0l%!!!&1Z;eeiz(6-vG~

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm4_moe.cpython-312.pyc b/model_executor/models/__pycache__/glm4_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fb7f2a37bad2d7180eb40066d1ec665fab363a30
GIT binary patch
literal 29377
zcmcJ232+?Od1lXjV+O|@00zKda1M?E5AXm*QlxmF)<GSHWRF1100cM#Ks^JBL;zXJ
zs>*;(M_{>91QR=g9M=kpRBJfvtf{J0N!e4I&AQM8<Qa9SGOEmM;%s&^G~vjV${yeU
z`k29}L3yjPP4M;W|NZam*Y7{yoB!f+**RQE<2OfsIKgp0rw8S-%8>{EUe9qixj5I)
z#dUFgQrEA;-H_C$4E=_bvEQg8xG`x;nfuKwZc6G>mVOJ1>yy@gE7HwLYs%JdV=zn7
zo^td%SlpU)rd<6l7PlqKQto~?i`$c)RC#}Ss-nLlRoP$3V2)%}%G>Wv`TBh+f4`r>
zoXJ3{y1$ymUCEkMZGSC`mnDO#y8b#AcPHyp4gC!)?n#DHjs1<OaDO<})ZfHl<;mt$
zOMeTCS0r0gZT)R5UYTr9MfxKwUX|=fb@q3ry864=vp3nDiuOlSJ^elG*_Ygw+TOn%
zaeq9J+>zSZzcba_-<#Uizl*`Dle<%U`uC*v_U}#g_4lRr_3ukP(*H<mfB$|Rr{@yY
zi39KIq!I5wsOL^_@tW7Ucx}Qq`ik;G3io#nGUg$M83bnC7hoP{nDxMH_yWww7-k5V
zjbDIy1nqX?-G=dB7jOEG@x5lH53Gz9l+pU|GTxOt)qj-bXhV+n#7?z;#~3sMXoq$=
ziCu}_#IbkH@^~DNcP1S1uEdFWcj9DRKV{*#A#*(Xy0QP%HGQOK>h!6xp#+~88%%VM
zk0q~#PMkg0-5cH2B}aCLQsePNGBh}zni$B8TudfHFOOs{g-%Wm508uuA0HS5ATct0
zDU*)=f~q_p(Tmn21Igq7a7F8>OoFFaL?@a@(#erQiWv@%UBgX3Hipo3BAMzvH=Z~$
zJ~lKm41n!$CX*P;jEqyNH$6EqG0taVnQ?ybQjD50g3=74<H*3^B{`F5e<qnsNd<`h
z;Y21jILV_=nb;M;k%^UT5S^5in1~JY<C7E8(}eQWOlhb$J<i8imtzwHJi3uc#$F!h
zlkr%3WQyAE7#SPM#FFE~!wDXb_NPXYlZVIR=O&YQDtqeE0H25-pG+s>=f;l#VtMl1
zQ|HI|6k1$!F2N5c;z!1llc}-C<-*U7j3owmvHXcM&y<3m9DjK;2*tV2jt`Gy(vS1w
zgNZbn3Q)xplLHv7DZHKWF?A5F)E$0&B7xUYrWSMVWMUvL`komd9Jr_ekEJdq;&Hr7
zV0z<;p@GR{CMLa7baNn{;Kl0Hz_p8s7@tTDOvEl<iKPbzl8M;ZK#B&W^3)jKaVilX
z8OS6qumMc}g1%dH*>i5>YG#s8d}-*|)rkb3NsG>>r1zOVJO1QhjGp}T_~Q|?Sblgi
zGybeJna)Zzmp%UYxsh}ltvfq#4K4AHq+@txDGA12Q7VDz#kSPI<wPuzn#f#>jTALV
zex>Qy(7+(3&^6J)5R+6IS|fFAf=>*MTpg6Y7%6ni4-Xzk<m*`M6C4(Ku3vBC=wI9s
z*Cz~d1O6Km#<(eAitFgpiklPWxCIa_@Iz&@+>kDAd)?J<iQ8Z2`mM9vRb9XBDK6p^
z?eeTYclPn~qT|v?Jf0Y1Q%o%1)O?zCqFqi$7ewbv^t$CaEtX-nO%BqlN#nJpMYGfu
z(aa|>?qh>!l6u(?qgC?39R$CtyUAtLq&dqp_bn60DQl08%iu}6rghW$VXS6TfW-CF
z#%c5Kb8*9W_3s(qm2sxIn7sOOT!w04*R*~bv=R6wmcxV`W@S}Ejzal{xaIO5j^o`K
zmy$Pboi?Br+jkAh>iOHcjPgp<R-zPzB6HWci2eL8K$f}VQ?BSRrebVzA~wN~kG^9N
zjTc7-(tHmR`Rxd%?9ur6%VR7xV&r!doF#5kFhpY-pY=Zmo*t8zpF})_!5_K8KC*qG
ze{76~zC^1fp@l}$p#s{_I3F4te>obli6%fXHLWqsNURw#-iz|F>=ZSQ_Y=sbHU}%&
zKyos1jOWLBzJk)ss5dq=7O|pDiR2L9MQ!Y+AWA_=yKS-9U~(Xxj>Xb6G$HAF^&e07
zWKt776C)GdnE@<9neMBTd;0cX-jnD_j$G`SxR$vzKGs8vWskJ>C9Wn0@iFq!W4dP;
zYc!U{M0DaB{|E}6sw~XksM5bLAt8MO!LMKCHYzw<*_=hN2G*=KcZ0igPJhl-zv66I
zY!sYLxpH5wx+Uie&Of*Cm6giQ4TrhTK5JaFR&SJXHJv$U9pOtzwGj!gf2Fd0!)2)f
z-u1G)hjaQCe0LlTcPoOqijJjyOI<6wpIz}h_rRd9EX#9xSJ{S{^EZAwIcxlu;{h7Q
z4btpTE+UWYV_3pcb(5RsMrBq*L7@AzPMLl$An%NR#sEBZsuwV)^$OmMZdx~LETky0
zxUQPY<3?q&tib6$s!rkpRI>~{mBBuh!GDgD9@f$+Fu^m%3}b~^8=Zx=DY4NqC04kP
zmKWkmOj-tp^l?L+77clHW=vyPAZASHN%0~jXPP!CBg#fzhmqG|-87y5#s9&@)0-5n
zpzG-j7DEs&BTZY;bcH^ih>hQmbpBC7GNmsK;3GUhakE6#L=)pBc&b*k4^58Y!yX?S
zNQ#Dufq2BsA0oK!s%VivR8bcbEl467DO#?^29hJgV`+Mk($~d5Mj0&l@LwL_<5Lwy
zUxo}D148;o2wvrK-s-HkRq(bhzO?F%%-Lrx^W{0G=Z!OSXBI50&d{tb=WxEUXKv5@
zj=4t`n%|7xie_tigqogg%`Ty4*Ybc+v-gf;Z_Zb9bL_@g*4HWcI<vm*f^YkBqu}dZ
ze(A?A|M2D8{11Oi@I5wr;;ygu=A|2#vc8Dmi)4M>g0FjNV7YPm+2!Der&peNcE#7d
z>U(bP#JbNvdm`tqeB+h5R~Cj>-K}%RS>5dRoZB;N<&U7@5ySZlB9>TM%!uyCVxm1p
ze9|Nsftcuw#Xy#la*6>IOf;l3JWmrAtMB-DlC2v2Q}pbT*QminG8v1#qvH<)nx@b1
z5F1Lq6HykNr-T6nzkZ#|JGq^Eat%#6U*NvG&eXK-4dhL@=gnNOA#b6Wl>^L1F+1mv
zEcFV$p1gw|om_QY-bJx8uDmKw*|C7w%YIdk*gqV!naWuwS)GHZPQ4Uj_TUOY8eD)~
z<^qf|^*4eKFeS`Gp!A^pW=8of3F|1W<Rw?!stq49f@3iD+ZnImz?^r87HLKuJ1?3g
zR<=OOL`Pzb*lTdL$%}(3O+{TQwZDX!T0-ruTT^?511P5HSSU1>C}5}yUB;pGPRT#2
zv0xyF`l)N=@F-;z?#Q9M0$Mz^7966fC703$<W}2-J_Jh8@CXdGoxrHk#89~sU<5yp
z5!bOLxjNIJq=D<v#AJL^F-Oy=<QNSrvBDi?G#8$f7@!*ch#NDl3dU%=5-Z%_Gbzh1
zdaRCErcgg|6(v`uO#zHXm001f-HtD4h521txN#|qJKkxB1St+<Y7a9z6}a+FK`>0C
zy$ZB&A0;lX<eD*q`{ZKkJDWC-?khpTBQWX}DB7det-u(D`fh=7u#lp}040)Ba!uhG
zrH2$SunsBl!W~dw;Yo>2VWf~(eM7*~SVRCN;!|=Fr;fbpoC4O-5)?dck(Z^!niPDz
zXN|AowG)7!RB#G+ZER}Kj3skM!2_1o%(eiozAFV6?bOGOOd7C2g0L1z5bBH{v&5;t
z>T`w|QFg`aM<7L@r)L#N;r?x1+>RPG-ZxSlNFm9u<U)#5yY)zMAw^?MkWv;mB6K7D
z$&v!`h!oGX9$|UB0%0YvE@)y^A>|p(6fYYe-*>4L=-Log$7>MQqURdl*C@$3B^R)R
zz}{N|#v@YdkfJfazpeWn9mZW<J0OEKoaZ6RaXgj7_aQhQ(K7){G{rO5CK90b7Xh7e
zN5Pjtc8w(@y#UxQDrRfJrff65=op(!DVd3(gI=Pj1nQvZfCdPf7qDwn2}UtR5A-sU
z@&`2|&*clEr%;Zp7P3=<6qlq$YgBHe=u8ie^WXww#59VQ^vG~(d?YS<p-#%6L{f{e
zRHkYeMjLSD9~J!xB#rY42<^~HF>W))B+?g=E_$g2B*u@$NwAmedWVa2^R!w?j1$pD
z(UO^9Dgr)5a3Y4HGoH8totoTqtE$^_@dIO*A$H0M79<da<XY$x=#fP{W6%+?wkur(
zWb;T%VkWJ562okkG*;4J(<d!jFAhOZl-a&pG!n-w+DNk`X=O}IA;XVRZX%<idqPpF
zNt_J$7cefeHiLhW@Wu(R5)CUI60v-Y^ll><Wo4Aa3P|ynuBA7@0)$3LpG)zUKw=Od
z_>5Rt3QmmSr9#@>tVyB~lX%lOwX;%cXJHz~AZK7!T^7q|+OhdXDu#=qMSczZC}puI
zQ{KiOqH<ysFfpEV6Ko7bN0Hu=f0e*Y;y;X7niwKU@Cb!ol^A9wk$Yq=Q5DC3i?A&a
zSAPw0ysTIp_dl}gKL9b>nQQ6Hwj35(4wLL1z87fz{jzLerx4hQMAuz^)3;yA`gaO`
zdUWRewKr#O%w+u$!5>-mcdGgK3oZL8e;q4LeOh;vXB|Po5nMFiakR=}`tEG!exY;!
zO2>gbr#rX<LHUjc1_Md#21x8>oY#Nz)QwX)XGPXoFF5O2q)E~k+^z86jNXWD*i2s1
z0oXR2TzAh8&c1W@uCtuUPv&f(M+o%%X!6Ie{P2}E=kW&yUH3`dtnm%ooNdh-*|2i{
z=&G-0){*lyN-|T{cR=tR0HC&&dJtG|ie{UR3Qb4pDU@q$$u{m58h6uEeJ<RZ4eu4g
zdvEt<A9+f^U-&6XXvnp9W!oPW+8_O}_do6bv;9K*mk8Xl-V%BHg|}W<KAP=)Lcm|k
z69f*gJ3U!vtKe*1s>()=3;1&$&l@<K3l&0wLB}0o!4Y0@M026mY-qm_+JE~>_R(hq
z{Dq!ban{`pcjbcNY%nSWqq*?TTy0~vwo9n(%GE`34b8cl&_ZCbVa2~4x{{`{*`psj
z8}b!gQ`_v(HD|*;f6Fhq%78sr+mNk|-l>h|4R~4))MMoC1bXr&JVBtUtj<<+-Kprx
zTj<%!RX1b<9d`m9c^f_3xrUZ({k}W(`|=Jv-*<As#=MJC${1$%oj`ZqO(`C(rZrzq
zu?ns}oUbIDDz3iy&9DC6SMy$a@^Pr!-+ss6p7+ypfb-WuC-j_9*_yAWj5S<MQ@)mB
z^;}bHzJZWJ9ESGPTc@(k$L=&A%Qq4%3=uCIXulI^&o|L?GrF7&@4FM;mv6x{lt4}<
z<B2Xs*P6jvmF9QgBiW=FA{h$b4ENw)>6l_jM;~qJrK*E;TI!&<ZrY%5x=;vlqs4NW
zToh=zDhm}#&sdfCs9lK_?(eB;CWU{V0e?HH$|nU(=xmMe71}^b77f|ywcxag^~5}5
znKr+wKh6ENZW@~4QKB{_7vm|-#L>=J#@x{9Zi$7mG<nsy@iMqjo_G>xN#S@LRi%<b
z+O$ROr)AorHPX;AtG#6EA^sS$^CZKA@AwvOqKgqYo>7iWnh#NugFi({#w#O<m-%Um
z>Y)-MV#d>=$$ygqw#cU__7VcIRWcR8BE%>YXs)KQC}NdXbyl~XNINJ3j3TNIKR%M;
z-=G3rLu4f)rD_Z$Saiu`7x4)^Rt}9oB^BE=S&LP=A!+3&h02s$S@~sk(@y|Q|1|=r
zn;N6p#$Ew`*7{ld{OMev1)s7I=vdmZG_@MoH|xUZUS0R5?Urq^I~(31gm?U@_k;TP
z>sP`%R>LP(1E*$P>w(~#&Rfo0P22JeR;ucj2b{jzj+|JnJXuG*;HY15bmX=l6r9o7
zb1SvcTxDpbvTMcJg>c=|v>4B}9un~9IrQNH!Snci1LvZpu4&tHb9TpB0e|7M&<w9T
z+;8lk+rQ9w$5D&L_U*2>y0YP?h49lkPZPAdO=ZAAYduX_cbnjDTe2^oUUfgZVttf-
z*w9e%#5W(0IQge>=ZRJ3pQV64DyE9!zf7@y3W#K~H!hkbn-$Yd@y`?Z1q8+VsIL-`
z0-FA5;$KN0WhH%-FOUm1-gi8qGuhWYb$Js-&_+f3WMR)%QaagK)Xw>8e#Ox9L;8T}
zkZ$p5A`*Fy;>(F2Cx4jyjKx`>Sfw<X)k~2>AKU}z^9m`+IHiPfud1Gsj8sOLr%W(U
znG;Y-4Ka1HthlnmWM#vD$%thKmLp+{JMrI@u*=Xg*pa1lcfu0)z`#|{)Li9Ib2;M`
z373}i7O&g_?$L(BHeChvmz$}-Jou)4qRiMNRI~7TiDx2#LA22)b_rHZ81pC!>!kE#
zC*x-<b19J-5S=V8v*)5eHE=aHF`gbFwJ%JDviUPDS}A7?A1E@U(lN%xB_;rW38fOl
zE;>knc<C}r5}ku&fmV3e0td%Pid%hU97jtzBPoAi{G2MTyi^s3C5?;emE0MXNW3e9
zX57=TLKIYQSWZ=<q2z+l?4E+!52~ql%vfn*-wF?Pp*)pDF_j7ON|*LxJ?*}XZ-lSf
zDz&I?A0sMmZOkG(*2aQ~4=OZGGJ$@fy$W$fyVbr=Td(TUaFn6((;5+3p;D|))F83Q
ztD$C*6)Gw|urx^IL-RU{MpUDQxM2!CL4Q=zNF+9<l6E4?F_nZ*JMg5=u!0(o^<ATM
z?GXV~txahi+F+k{O_xDcX@t7P^sYSrP+z%%lW9?6Tb8TQ1~!KJxLGcplsTp%12Rcd
z?8-!x80<#YxJ_|<nek*g)fCOQq&@x^IT)a)J@46zR7a}9EkmCzyO3LbzY2`rh}L`n
zR6}h9sMf4-$~|_V$IhbhR7*g<`a+FLjPENbKeuRw?LAk~mr$eR{C~_>tK_>zM)b1t
z%(%w*q+uy#{evl6l$JoUrt`Z1JU(TKj<ZM63xPf}0#1b=hb(<fcC%1&J{mEJScq8)
zTUU#hUKoZ3(h2?#P$2&=5loq)1DVViEb`wW(Dx}&SJijmHH5V|5-d`R5CPz6$VGPs
zbtGddE#QBjpcMtEN)`-gfmHq?p_pHi6d@KMNU9N;O7P!BGXEw8e@Fq%7>N+DQDA0!
zvpfbC7}U{no~Ku!_7{YOr`1L@Qm^<bilREADxz5;A(0A+S!5~z)*EWK)I3%{8ynV$
zMM`*!g6~nl+O&Cu7@NulQZlH~H>l_d)O)eQpjtLms&rM=9Q-Y^rhBo_{u-KtaFOOf
zk(2LM>|U+dJ8Q``w3AR9gy}HrZW7#0i^GDud%66Md&i1($BKJL4pLclw@}@^>=&x{
zLTWF|g`<+x>~Kqx?&9zrM>lw;szA1~L#XUndRD0Hy{)@b*|*~CTdC{=qg7SAa3NdQ
zE8uTa(%oRgqHeJ_+q6$;+IM?cXganUJWi!o=K`TSfm4gmlk|O3z+cNrRPK_^ri+=k
zXWp8DxfC!5^cs*r1%LZe?+*^Vb3pJ@GZk&eVqEZdu;-d)+}ydggH(RAG7$Fy5%N@k
z0r%Y8Ioz_&kl+llh@`csR{b2lyi(b=;kJTvMng8LIDfl}zu5csfwv9_&TR#+2j&{_
z>`G+|TqFFH#j)Yx8rzr5E89+dRJj^Dw_>fkTN74lmUJ_@>TS95TB<R;2jYJ%<#QvS
z7kU)W8|UZFE9iJSJ9n17oDQM7gK{YD7*DTMHldl4iUra-vG}#%$nVxPE;hg2{Z{w#
z3u`rx%^tmerWEq6GkFu|3`%0QO<}OoObi<&{ztiprZ9f!FEGWn^u17pT_&O$AnF=4
zML<r=R{|@h%EKttvejGzI&6sRAX=j>biII<&6s9LBsPtz+=7%wp~{DWsysB^43YI=
z`AJOHpg8;=0It&gLcM5>O7RO&s2a4XjwanwXsIGrYn6z4XsIf>lpM@ogBHJ%3uCcW
z>r^^d$bvR&a0tIq>&y>rof##o^sJ~p9q|B4`D{Mn4Fk8XfTP41w_s6lXJ9HHRfH}D
z1@~#IG9s)r8)hf@^+5(D1q8ez4Ip<B5C6w_f)C0>awNn50C9eq0Cp(9Gb6*3<CAG=
zCI2x&EpXyv&MJ%uEE4u93T{)tNaCMR?B7uEuMtG-67_hW08HOt0F~w+$D^owNz`2y
zbyq|O5g$@8kW#@c-P1JfRFY7vNeFz7B*-cScw}?w8U(L$(EnBVZr0tXTbNlb@18Ty
z8fKr!Rd{bkZbTL?y!rgC=a-s)(DhE&ZQ}>d_nj-jV;}99kE~XlpR<rh$?QPR>7upg
zo9E%_q8%l|Kr2qpQ+3mE!?AGq%~Q8dEnY;i(RZS^n?LA&zk4-!a@BJx>v=-(JdyL1
z-?ZGYKtoVoHhUO^q};nXTejm7q2rO;7e4sP`(IfNo>}#r&3Y~fo(m-zt(>Rojjzpp
zZQ<Hd<I)qW?jG3(2A(z}H%35bwl5B>`r4r^t_s{dbK}gSW3{Sl&NgeF*X7*aS(l`R
zu>Zo-1}ErWaPVM1KYahv&u9PS*Y^${KYm`)PDIKzl@rg=J2NpeifD|F3}z%v1ua&R
zx`M<9NrmwU#m-Q$KmjR$w6zw$M=2DbEnFI|{7h?6#?^&$(H*(AZt|t6Z^~8ILxYj)
z?8)ueO|CT!kLyfFbWE4QVi-?fb>1SyL5cl&n-qtOO-<e*#hskDChwBsWt_iuVdtV@
zVegHx#SFZY@@^@?!-ZS&<x;$YtMn}xZ*=4<rDssXVBRameO#qK@0a2Ms7vzIQoM%q
zhZm0uzV>{r1PH2XmO2SgPkI)q1JDt}y{A!v$Ms&5Z@n^bbN`L~c@yI3RG{wW^o{Af
zg`TXO-Tg*zF8G-ZPm<z=#%&P))k|5CABX^HDPH0(RoNmbNyrySioqiYiWf`V0+orA
zsZ6X;nLxII1HZ;v8@F!(he}2hU#i8D*dkp!m!$p~vc{cIx1d$<Om<-fD-#vZ&ZCJz
z_|);t?^@QllrWqxVkjg9dNEb?0LrNQZiFR{NA}NYJ2br|A#KXk7!Jk6EwBsnARLO-
zmD#*0#SrJz6w9U*cxS6A)*|<0<0ySpC0E@1o~m??TgiP*S?6bL({Ln+sXZ;|DxhrF
z=0S9t@}N$O_CZ3mOj}_T(3lT^s`6@~xqxa>Rw%@$jm&kLoRDe?_(}|Nu&hTwZweX(
zot6yxS{wST8x1LW3wNgf31pfS2*yCF7gFxD339GcN<keer61c}a4ABmGKNwD-2sKZ
zs`LW1qZ9^QwLVC}vi7RDwoJE@XUn=YM)kcig%3noDxdSuP?q|x(3%}e%L;eYMw5+Q
zkiy;PCHeC|03Zp-ObGmscocO}VlUE(3C3!`mz~_gV?^d7Wd+43lYoB{NwVad{zFtT
zWsIhh6OhB1T&jxT{EJA7n2Oviq5u>`bpDShy{1$^{}CY(f#d%afoNk}FJdF{tBg3o
z(hsdIS}*PRk(IX$csX$`#vFPjAiqdukO(Z674VrK1vOf<spG(3rDyNZ2%pZxF2}I5
z0$N)hjt1DQ#8m2{0sWIq`7}!;7YF+CMEA%T7^N6%Ba_qvkYh4M?Nd{j69z0vho}HH
zP$eVzA|;ea@joHhVFYPfdkQRAu~;6Id9dR3SC!141{qIZCt424+_OnChZ(qAsO={4
zG;r4&TzF>jh2>qV-o9D;U4Q+;mBm+<Gpqjnv(CHW$WrUdjx!%Uvl_mzVr_t%yf?65
zCKJz6<$`lH(7kj~2y9=i+A(X(Rfi!$mffq4<SHRk2Vr3q0`2g}&-%6rzHK=ehO2i9
z)jM<kMiL;KAIW)ZZ^mxKSVEUj-G%3@w?pu55;4h>KSwraGDL0Exn-CBX3kZab&}Y;
z;_S(Jsu!Ng*7XT>eRn*4_x$xae;rx4nR&Zv{%g5l8yo=wFmQkCB-{o9;Ub%OI}E=<
zc;6<=xRMXzG-bMe5~CMtTfCBO>l51g$in`l@aU6k4a}q;yxZQRx*#kb&o=K7n)hrN
z^brWuu<V0<Xzfz`CO)=?C6=MUhFihNkHp~*Jy^WPQ5+Oe+I|D6*YIl9w6voDue0<j
z+EJh%^Mbx;;uMUZObXe0e*(7fyr)xEwi(ip%PVGay~W1VqViPwTfi-D9pxI*gLBYh
z=O3>Q0#=WYk%7NM!A~hzLjdR@imPaR7LREf8u}QDY?`%NUx6%)+@OzuzHta6PR?1i
z0$IV|JbN-13}u7cgy6R2y4B#LbLZAuJF>0&gw}nx4}8?V+WHh`*6g{3y_m;umfb2_
zuKuWdp=>qq+^mbac04MCAN|nv(bd)PbAq*D)-`{X5UsbYi*>7k9w51c3zt^htt-}6
ziPbmCJpFO3yIK}U`oy<1J2LJaj%$+>$;3mL_&=vID7Zj<UPeSRJ$7xA_;s>Ay7rkK
zlQ?#YU~(#avV}dv>qYj3x3OnCamfxAbrO5cvcq)){IZ)tuj<N7Z7RErcoDlyPgZ!4
z-0Zs1wOA!owB&6BvV()3oqS_@ZhGPAH($8*!iqa0*g8IQAWix>SU;F(Y!q$M8aonC
zvw0v^ZQAfAS=G~`i(#cD`&=3%&lA6f{RJa~F>GKWBVBqBqoH1kCF8;C7^q_YoOs6X
zU~{&#Q*X$~_;1teW&I}FtEc4_K?YJSI6U*M;FYax|DSiu+;;8U%%Eyxdjy?ZU`VN3
z)Sh6eL-x4qbyL4RPR3X_%2D|WbtJgB2XGC}5B;)%-!DfW$`E%aJPDYEAvG9>jKqA<
zf9%q!KzcdMwiPU0dnB0YnD9|fWrF3#=#b&Iib)b)X1I0A-|#uwLClQvaR1znT>Nzk
zC^o39YsBxXdchyz>34NsH+<drb<@|)58tS$&E08f|Gr@au4*qtee(4U>@CvL#C^jI
zxH7L4WZbpp#y3oJaK$NDBj=2oTz=7ZhKyG!@?ANi#pUyz85(AGX_pD8#=D-@Lk7^n
z;-tz;Xr0RKkGTt*6_nbG(+d_wlpa><FWjN>G0vK1&3NaA*R8BBvKFd!kq#B*shmIJ
zs(lY}RmRa6gN{NiN{nwS@ZZ|K1(aCPk_+}lS&BrR>UXk5-_`Vj^(>B^yu*6!8jDI+
zM<0B<^*lD8GLHh;?T24Sqtr=G4Wvm<gYlpl!S5O|xs^|Vo72zfXd2BKK&)i~EfH4J
zmK<h8$H)WNa`s_;AB9S|FH($n_cWChdKDKVucCE-av*gvK5%fVt@!&?S<L8u<~^G}
zh=_#v0nr}nCYa7Oxc5k$7??3cf^ENYn1f|(m4{W3vBzm92{4r;qwkU0f=qxd*R&ca
z`<HE(h7<=1)^sLpe2tp^A_c@(i}owDU0w2gb`!vbP2du9Pd?3jkTA)5COS6_eG9=!
zo`mBtIf+Pntfdx;4(9qRG5Vqn4!?5LET=nB2R71T4?R^uGgcBkj3gECZB%N*7i>9K
zT*1`EPBLjSS>Z)0kahMjVv1weAza0xfLHSckwzko<2|^4dX>9tbt#){*UN+1@`z9#
z$(HXF%6HD1bN+DF-y`^YW?{`LL_g>I>I;&2X}u<tt?3kM$gkIZ&*A^(!K|b0j-%~v
zXm`%z%X%6GPvhe5Y|}2GY1fCo53L`$Rt`P`p16_unAX9$wy|e5w2j<M>+bD6!r13#
z!P)!|db6tx>;?1dWCpEDd!Jpf?qY(<Li2Z`OU>_fZUi`IfU0aIU*SN*qB$GdA%u3^
zHfQ&q5%!*03!DX~f9hVKbv4iq_Wjh|o@a8d;KJyNGqMDy;sZkG0ce1?fkFS++9mNE
zB8@T0+ME14i3MkDIDLOx8lTjSzfW=R=+5IK`x{`tqnEf>DmYC`i_Ec#ZfV}Be9e?1
z!!gPyF9>R?K<|&10J!Io-83Y)LyOg`?#>l!Cu{k6i9h~JpzwDQY}(gH3Mkh8IEpD=
zJ(PufR9^Ier(S&ZwDC14Ot9$|4o8~IzuMy&Q=FSIkCj0{ksOC$9wQnA(+@WAvRJX|
zP1D&1b=cL))d-*(<Wy149p%1)uY1O#=b#FM66x~>o9pGqqSaFEuS(X`inw%Hrd)ZV
zlH!K%sOH3{$f-jmM+z1Q7S$+^oophqPMfg)8qXJ&GE4!ov`EXEou}o9|7!{!P(Uj!
z|92GpEd~Fbg8xB50|oyR0rn;zqBxtI?^8^D%Y}kP6I+CsC1;bnf3bj6wP|gTC8IT(
zTK^8kGLL`hi=vMhvdfCQJs0Y};aU$hXG6V0sCW6xtD#5dT`+&oom{VMTdCZ+;@pWa
z2l=T%2p*n2m-BZnofiCiW>4Pp)-D`<^USR?<h0%=MEY*`esJ*pgFp42o;~(SYv<Cb
z<(UsJt+sxNNm#e`<_(<hj1GzgPw<<sWZfNi+#Po-TXW%_+s_FexaI4sq#gPYC4!+h
z`)>6uer5UOYV84>767^HC2Flzwj<jw4rFld3)_2f5gilF(vFu+qBSvf?3?%rBE{cC
zhM?@yRySfMs0v*LQ+q@Hke&ox&}F&A|9>SzTq&BXFeyT;rk?Y^rr=iyK<wFsI)k`q
z!lsn*v_$iX2r44>XN0ZhD-p5(9*I+3n`Y1#5VQL<vtB?p%q;T3z1P_KcI{iWId8*a
z6-Ba*dxgfmD^-0TdOx}XvJkEST3wjt%$7KH758lxSJ?xD&127VHk+NTew(-@b+x0a
zi{Gr)Do3JToQ`NP0=eYUde4Q!2=JAg&Wkp-;h*{U96)x_BA*}<F^ZLgmnSkYHJ$B&
zmx1cp9TKpdVahofh)<v}ycSw>#2RUw*{(O~_?mPKr|L{#-<b3cuL28V(jnZK53=;l
zixqU9kF;}0!Jlf_^a4MR@PFu?k%CitXZ2b4UctRL7wV+H`ZiK;IBq$zfnFid3uPL;
z1e5#{M2mc=(<a(UYdZVRh{3<f4MW8Eo^D28;9xQK>K6xG`BGMD)s$i=oGzoJv7HRW
z8<$*ax@lT>l$+OmWehGFSf$B9qsW+}O>flo9A<p$Yr5;9X+5Y6UI%mXu+7+K9B_9u
zU(xZp>rS|wny+9DhbhLuAYM2%xJsIXN93?6bOKHU+KvzEF7Kl94iwQOI3FlwpzhN!
zW|$debxu3A1jiW{sG@7y3CieDRv;ax<HkNV!clXkY}$l=O=48s)9x2A`)8<co}%8l
z<0fEzaevB-+6YdesEymu#&W5R1+h&_WX-6eRNR~)sexURxly}!N-agbEQgD$CvJi<
zPF|m9DyA#ay6frb@)?|{H}+*CH(kc-=XKZd{xn@r3U2`Kh`mw5Zp^4I9|Tov2F|OL
zzP+gb#qWsH9xc43g7`e`j9W7yxswGGr24*;8sM009BoqY3U}}v_)6*0VRm1C3H>r+
zHL{(Lm?8$reFRQ}Y)$$QNGj~I1pBjMnCzkXZzb4%-1vW@0G|tGWPtxgfDnQyCu|_f
z&ekY=FUgW}{6Z9`c3EjFN*pE{2u9LEg(yy%q7$WJ>B&JldQ5a}IwB07j31#;Y^TM}
z&v@Znt~6PyGQ0tO6q{&;N>3yPB~gn^K(QfyJf$2qMp-3^51ug0SR+~?n5F5wIlh(J
z?WAJN*hfq!u^0y-p7FHYNG=lOL(Bh&0(!-w0SC53DkW|U=P`1k4-((tWu<ZIsw+BZ
zODf#`$?ZaPu@lea4x~k|+<zHGUZ_PQHC4rxPnEG3x+dCL28kdz<bh({!)cEo*(_D+
zjR$h3T!~zcMIi@v!gWwKw&Ew^*l{ckK9e3uVP0}c0=|>_AP;JKO7ZfPM3Leo8|FpY
zkKk4AmwHRszGAJ%sZH?S=*`w{6Kc1u*6vvK?VNSo4Y&MZ3-sT_IPMWbdsahz<b2rF
zAvhamkIr}Bt=<pkn&;nt{-fsA>MzZn&bg~s+$}jz;4gQb5j@-H?F(m?0_&Ca@TIKm
z$W;X)40^FCNT}*qHr_rXY&!uMZ7zjB#^Raf8W^eOjq8>En+I+jSoE(|Mwa5YJB8>m
zVBLjxXzy~>TIFs$tOuIl4ibpWn{uI+Y-pzt+Bxs~#8bDBAZ~KabKnz?H{Z?eKC8=b
z<C-HYp3q-5^v<8i9XTyj9hyJA=veylZ7T%hrDnk&g}*46(e|#Ds%G4q+Gz99(r?{9
zy&66-f99S)iulnr|6!o52iuk$La=xK7)0Kd&bQCJb>?m$v{?E5_+qsX=v;a_+kHsr
zJ_IJW#W#QMzL{(2$_47M?<yB)$~8uE;m%xJC!8}IeDf!M>EQwmxrUAf<0pZ-{1F`&
z+I9c9jtjKk$DYeZQo9Ff%kAQ`YyR%#=G&Kr9j87Cguqw@cP(GI{m5$ViTR@#x%p{8
zsgarG3v2#;c%Viag<$vmvAfNksD9yVYuk<$n&b^Hwk*}HRqe?+tFz8J!CAKu|EaSn
zKd$GRJM&mCJaq~K{*M0q`G~L7zCmJ~<f2sKj>N<u#+*JyD9=%FkpjlN65A;nlOy<U
zKOrD33p_Dvd>O@>D0rS8iQ6mQf%P*2Qt&;Xq&*183{t^8raP+pCD&}SFHYs@c6;Zq
z=$1dL)0w)KygvxO6T}u{Q`ha554zs(dO%UkzWs-Ex$f=v9kr%9)y#o7#=EMT`3PC)
z$;vhCSUxJ$@6Frj(Js3TF^}Lp<%R7@@*7$SbPBf42QGr`bDHeAn!3D!?ya3~Uw-Sd
z6o2H<2m9aO&*JO0-~$uV^Fb?GessyZlwLk^yYlwnO3z^-@|e(k<N=42eAST7RJV9?
z>FMR2w@u8OZs$><`<T#tJdfjrOm!da{3!jO_kPCWjCE#1G>BnRFGad}up6MlA%<}s
z%pvS7P&$+gYFr~!_tG(jv_p(wP<{et#u=ejQIa)Fk8*S*t`4MNzM?IR=O3bIAz2uT
z7Tv3k0;3pL)eYEks?%cTp|d5r#V%kd9Z^8I1B2!cyR<d<z)<r6Lqkyj3=$rdGE|MV
z0%NtPstlB&;WL6VRJ8_l!20u3ZRf{B5^sJi#6<bf&^V5F2#t(Mr>V+n(rCmbI-i_`
zD`-kS@$a`$ujCO?a?k<)FDRvo^q3`w6{PvsDXE5%w2wWI+#xCmVe?@R{58tS5=zc|
zcnt~cAO^^uhbZ1o-yOXVMdjs7T+Q%wG$HL@W%P`W;Y?3;vVNCL6|fmv$W&nZ5(<SP
z%;8&c)ZeYBUuihGT5)Q{d1}3FN4D*#&~}tGip{z9o!R!|Li=%gYRN_Wve74n=#%u+
znQPsiZGB8=g;V+(juzbf6zR=IP70Bev=Lsi+wwTA80RS<*yNN>j0F9E@V^l-y&&$T
z*R;N9Lmi!cf>NXl+5s-6JYceGOQCeE9`L9hb^%MBehQ4^z{_J<#gTW=I23KngNs$s
zbk@{d07I3b;4beel&QqDG+&C0rQ@z2Fk%xBe;?TJE~YV(Myr!z<A91~^uED4N<5r2
z`Pk&-Uqdq6IW3k?PQ>Yq%YwM7C?(XPhX>AhVzW|049VF_CwL5Ji435?fvH`Zlk1DJ
zy+YG$3aw+l%bu#NJ1V%ND?85Kai3kWo?UUD%{61s$C|Y<*TD{cXv?+q-9DP#e?h=s
z%LPgb=PLc#%GR~Y*4ZPu&SSGj)|~CYqI)<;ZU(f$nVy<*PB$G!k#$A{XXImN=Y1Pj
zB^kjZmQphMRT{EwG`5UT?xNTP!H!Vy7zH?XTMnofq?Q2T)7wm^bjxkGkNz+Uy$RwU
zUU<Ond7sPFwO-$tH{lL?*3zE0Pz)ZfWg9lcq>`!7K@_E4%KG(S0V&1Sb4kP}waPG#
zVfv1~-w-!}P=GkVrfvnPu;H{j$);|HP2B=3xAtjwPHi|yj|*hR&TQ&|EpxlIbHmc@
zh?g;&difR@QtB49CmifJY&&e;CTwA@+@g#va!WPKc5heQn<#@#-K<@PB>s~4j7`<B
z&r=LJedv2RAQdd98MbtcCZ(}-ecX@qD%GN1Eh=YA9v|nA3{0j6l4s9Bu!BI1!+9vM
zQov+BlJl^5|1oY%@H@`z@5~&zh4r2Gs;~txkFdmV7kgDU9}f&lsM22KlP@hQO(%D1
zEpoJ<2TLKT%-O~E9jj#)jsl)8I`|hyfvH|hg&jL6MO{QQq-0~4vZ!f!)bcwss&6Nj
zNmXH?<i#Rw(6p)>i@bjEO(?>BL6L~Is9eStmS#1*U}e{CgQ6HfnFV8p=58O&<J5}m
z@54lN)R94L?S-ByF+e+%c;PM+ES2j4R<w|+#8A3AhO91{zU*R8suBo>r7aE)(K@~l
zWN?ubeVIPFFmBqMAt|3-%Gg7FR<#LZUnz#P|GgMT>oBv-!O!K>T|W%v5~)o}F4l|Q
z5+EK&4}Tt}U4rs%p%&t_{DFV-lC%y0ER=rzdr&BGqsKJbrJk^>qkX?nf18+P9*f3x
zU^90D(Sp<S=}-g!dlX=#sbJ0L?-BH`C}8Qt0Wl$jk5H_SmLoUCm=&y+V*ibTE(-Qh
zY750^@`xT{c{4cPT{+vH|9b+LZPJdUdD_jwud)>4Xo($>O!oXY2*^zRau#;XKTcjL
z!r4J}{v9FOM{ue<9Ulyz;6JA_*C-&0j3c)vCZKqdj)5Wa{CP`0>nQ6oamM^VP~O7`
z6iYrSW{NHOiaTS`!mT=7e3vNu8z|=2o9y|yhuQNbn|&_Gw%=CY^)^Dg@ZQ<mz7PGY
zU8i7v@zK^#J2VAFR&^Yttr+rIBrJHsaH+*HUyH|=PObWP!v+u}huX7ns10_k)^@_s
ze)evtXW5+Hc39YUcs2AG@j`Vt!s?CFbEmV;-GXyBs0E!}MchV1BPG{T3<pH*7V3B3
z_GSB?7Vua9G)u}gw!K~dRz1b**K5e{z@6*vVM*)08f>ldR^RNu(T@|7*SxK>$L_kT
z7h1kwzvkWsZPL9;sCL#`_O2-#gIVgEkz0}PKl`z}d%eEt&5>Ip^A2nq%X*pw924W|
z5Ih}AyMEC3PT!hm7i}kV-*9I=t%9d@aq{hJZ(Yl_?G@Vge(dSXS8~2K97bhxWvxwu
zwQ2Fp$JT8UuO!l|-P(&_FOs*C7PM?3g(JnElKE`C^qD-MdVWb$2-86kvzS?VDlEy8
ziQ>sq;&JfjG>3?$F`t4rrsk%yaKUs(mLjX}-W6*v>&tKES3v9g)_xHrlS~&K;!PHE
zNnX&ge#qx%Z)xBzJvW>AzE0I>^iVcw|5xf+GwT^tH#n-ue#@S7dgrgLgm>R|L8rxz
zB7#X$Rar4Z`X;*-u@#K9p*4QXzHypr2$kW0+ceyqrM~L<N9ePs6%72>A(YB070uEb
zmZr+E0!aGUGWyXH9I_}MK{eH=(b>%?pHQD0PzEFxD|TCE%Ugx=R_t1zertO9E34&4
z;M}8bIpj&Zy{WrYJL@iy!eXN-3_8H2i#qe0PEQ(qrkhi`%GBxTD*ZOdrmiw9)ht;&
zU5oY3>(o2a(POzQ4=?tvmbbJ1WZhxG9bVj1<Owq<H<y}>4V7}YBwZHB8Ut?*v^u4*
zf`zxo2ouvj>QO_Hot3F1r&=`L(C5vo_oyFURA2PXbqVgSRS1{XsI+=CqxjFMPetE^
zWQhR5#rf$4Q$+0$9WQnfiEtl`!QdR9WXFxt=<y_@{U$nBD3E2P>L-+=pjo9Yppu};
zdakKx-9tDO{0?<4j0hC1zcd=Xc4#|Y0epCQlcCyv-({~iuNZ6c0j{Zi#n`ZZ_{cB0
zPSbW$!{SD2SlsgcP{Zyjs9|>%)UdmX)Ufs<H7w#qYFK(IQp3_?i5iwbrD|A$1x(oS
z=?}6!o+iXmsHCf1FbdGVS_o98H+5~HT}6tdT*XmmBtGj*J(_yj&!AE6k=`^LImQ;?
z7q&Dgh7m7=eUyKM$mWl-Ak^?DFso^vmt1i@J3DVLQmLGh3l{i-)<-kH^4Wu>hAZO?
zez=C#@hOzU4*G$Jb_HL-b+-Z?#AopoN4g+l3<JbyjX{S;KbeBx`GM9?X1S=TQx@qV
z%KrtP;45LdG?2yyEuKF|13~<nXo45zZ~|JO!T|k*;JT5`Iv^egIDunC@HaI727tqS
z7p(5tD>%|}&9WnBEz4Tl1Z&$;;~i_~dR0xfs!OQqnzh|6_sw6)`gaTd-9IhgGkZ8!
z9$2VeeBxH!f_w2L>_=F7{tkQ}{Gr9|H)ig5nsHP`#a_$`r-!}1$Z63Mi^azW@hdGA
zs9tmrj^nqV*jc^l=)lE6$<RoHkNpeKbY}3I25HIRi&V_gj%<1hVi2m%u{5X`teNR3
z<EhipVfpt{*jaR986EFRhuuh<-lSt<Y8j9S!AO$*%uF<n9k~1eP9{wAb}E^j3LC}Q
z0r;IP-a)mpHGzB-L=VdyC)3KvMLN-!oewNA-=qeVGlM?icdK}kC&d<)g*6bWI_dXb
z6wP$u$8Mxwp=o{yu6mB4<l*u#R5nwX2Q8){CpJE$RGg%YAI4%onZpj>k$x$s^I<tk
z<p(BKv^^vT`za;)m$TST9r0o1%jXy|&WnBvL^|$g=R?Yu9G6Ku&VEO%kdsM5K^lT?
zt?be}kqB&5HXl!BMlj)sZ1N-ni!PQiop@=Ie!Go1gh8gEU%tXGUEyHUM#2nJ&_w7a
zDStBon9S8mu{H`w86e4PPb0>77|apTe2!5kX`3X;MQp#OBrE-l9+_&AEqh<4$LA<u
z-|uD>CLGSuAJDmj{3U!@_~X(~BFr0fI^F$kobCzT&pFr6xag-`@KetBbI$oGSM@2k
z`>(j>Pq_m><4y|P$<Opgo&G+D;8%7|2l)O^xko?c_HKrs)P2ew|CBrQnckq&e`ZDS
zD=Vjq{x$cQz&-Yv-U1+p0Ef}qz4Onl+Uj35Z<r&x^7)FJ)i<g)aBN5U#&f!)PIpK*
zd-08txseTyJ#2i{a7m~0&GR>}-MF^FQGDYW!x^2fZ6QqZ#|B67`*2Ir``5j`oY$WV
zVLxQeeVfT=-Y{77`VG%9gRX9V$IZSQeGfQ_KPU${&%hgxo2zwQE47^)9PS%?pVjGl
x7AoGXzE!<=dfB;h@W~C1K>3W`uJgcRn>WzCy_4P7P1f1o*ZMb1fU%YA{{oEV(>(wH

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm4_moe_mtp.cpython-312.pyc b/model_executor/models/__pycache__/glm4_moe_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..41fb571aba1d4b1f5aa0900830053fa99c1781b0
GIT binary patch
literal 14288
zcmcIrYj7Lab>7AMNq__hf+Ro!;zNWaf|5vCk}dfqih9#ZWIG9J7lE)#5)>Zv?ot*J
zu+?PT2|ZP6vYAFy9oJNwsi<15+5Rar%}m_Rbm~t3U`;uIH`0vSq?2)fbfAzPyZO_e
zbN2y|0cB^J+#&Ctd-vXR@7~8b-#Pc<-<(bx1tD$t!&KWriux%g)L>SK^#V;%*C~dI
zQ4G!K(sV`_)6q!l)B2d6JPjFR%t-PKX;a1=GZWgFwq&d^YsMC{W$ZCK$up%L8E4E%
zXmh$D<BGWmZArT`jj={TThmP$Ps~GTTiTmxjx}d|F&|0W(=8c)%ui@Xx;4`lYXjQJ
zG^E=zfmk3Dj0H0tv5rh<tdr!s(xFT^7ACYiy(7~V>!K+gb%J6VU!#~N);M`m{ov~J
z9lcD)dPqqRl=Oa1$zD>j8A|#-r{qpjvIR=|>z8E1Y~UTE(u2MkeWW#i{8V;~<=AYJ
z?ayV?Goce_&-D*Q4}{J=e?FASF>E@N%w?t$Lh53g4ZWHYCPF8t$H!CI@sUIlGT7Ak
zguq8XMxGH`vYZlFE&)YHA>lsHu>zM!Wm)D}E<2VQkLV@)u|#r$m6KA#`2?3pr`fcU
zw!N56XOyDAYh;>dnRB`0z{>pPa~DQ)Tn0$j+1z+a;LmfpB+K(T4zilQG@Zx_sXX*D
zmsRTPs@%_>JIN*($@gL|nYgGnc|3EGWf=GlsNc-6V~Ods5SKqEp3Ws078!d^W#M}=
zER#wI?DK3En&Ur)HA_VdlJ`V9GjuL>MVRK;=f;j-nPNGCm&_zLcU<zw1Ut+oVHCNu
zi5ZrYy2e={&QGz)cpB636mum$#^o|<!`VcJg=TFRrl+QI!0!BcNI5cznTu?Eietx8
zSCaDN$+1;QtaCto3w9Dq#c0?~IxEFk86B%<^sIp~uttW?!=7W{IcAxo#%RX$nlol%
z%&d9RUCU6W8DstYF#}_H%@DKBQCH}g?E)3CK~E<V9LwPNj!LE^nPtf&cU5w{g3}UL
zb73(|bJ?V!ra}Aw+z{&@K=dc{bxP1)zHTT`--f07j*>%Dg0gTasz6Vgw1OG|xfU&<
z5qIc!baJ9V#WfCsQ!N0s8dSRa+@=M+(5RLv=op>K`Hub_<*T3#byBDqSS6#kX-Usc
z@seQzhA5)r+Mzzz1`!ONk)MV|BU$3{R5m5V;~Z9%>=P-5VY6{Qm1iXfm*L}CSom?m
z1S!serEHgRF_S`^4|#?liWnsW&!)$?R?NXxNPChs9#5tdJRgtqI07LESARJ=AY`Tn
zrczV=LV|;J*?(pF;Ne4;4zdI3)Ww0R8DS!q9k>h|a)5||ID3UnP766sPVxieu>9kh
z92?IFQ_-mzZU=DAd#dXps(uzoe~NzrqR*~U8xG3a@VZ&F`0rZU?s?l6M@oUH7>KTn
zl!i`-LnrQfPtF;xS?_swlpReaM^JPG3DF@sI?Am*_dK0Tre)KbXJEr>Y_`oAzHMCx
z#+2k#2Tg#D$|sc>$5&*1ku}y0iR)B>n#2vfB^2m)l-vu{Z5o6Z*8?SBzIMWc+YJ$q
zJVPNa0uRYNmg8Pca7@0b=6jXA5iE?$<SJEmdES_LeP%JZ=Gs}b?BsSqF4qrH#E!F$
zyFDJ4Y;hPyW;%_uBOZrMla}9bxTqvOFL0b4YvKq?Mwo)+gk+MX5f{Zgr!v1uHl2>g
zZ_`{K<ns7IPm}&~ejrKo7{0gw(Pytw6&p2p@S)Xdv^{W#Dn@u#OjM({Vn)hBwM3SO
zMBhLK3qVm@!zXs6I%s3x(hIj<y7^Lt0&<1@`}E(YKSfghJZx%{kWzQr`hUQi%|gmb
zfuM5L6I8585m_eItWfYAa}eQW0pVpKb={1WwN840@s_~Yw#m0|lkeCjUlyEB)(*n5
zZcAehrr|YX40;Aa(FsDaQR-Ag|2a@8spoT-*eobQCY6MlBWhr@x<4gH67``XBjw%d
zno_i)nj3(ROV$cJ#7|^NFT)&f5u2vps@T*7=r#iK^F^@s9fC`pvwAwHK7U4+haPP6
zPJhRsqN`dlEHta_6zGDkV7OzfDTVurgo1GrSMHVod{EkwAfV_b0r=<(2H-{2t8>Ss
zA}pw_sTNQM=25N#>VJ%aWCZlO;bJPmNA%UjK&C%plrs)Psj9Y+>}(cc6{vyq#fXaw
z<6D#mL}zeaNTGa_j4bL1$v8nCx@=Z5odp1v;3P9U0T?1TN#uZJ=ZWHuqgvvg#OfZb
zZUtc;znIP?FGb9<?5nDhYL6br@<hhqN<?)63PqMQ*r$Bo=WGB?HJpLc{JRjLYH-)8
zhUUQHi>2Uz7#vu6v2@_1c;MvS=2M^=Z1=W*)6#l<W?^Q@R|*e`;lY)J7(Te_D;+)~
z9zIk2@>lM*d==_D?zQ)nJ*`W<D}@ccE&wXzuEh^>FR;7R{+QVQ7)jr2-2-Jn-{2n*
z{y@p!C;Iy~?4~wUIt@hBN!C<$YFYpg$4l0!9G^n;$xA*!KbKRvX+FM5CrM6Hnvb&x
zJbB4QU?4BBQ=t7B_R6LWj+=yR@c#k=be7?&?lkpHnxS#oG4v%E`y=pX8(n5lb=fRn
zs7d6rB^2~p2|bk1Hg&a_fD=nXJxm3?(2oQD0o;R&8G^<S#LuL*spNMU!)7rtRCR;C
z1odW3v*v=iV9LY$SyRCTveP)qA;XXV7Xs`MJ(J471~~y)L<dV2j^$GfD9DJ3dkS-(
z#^@MEgAhsjWJ2JM0~N8zs~45AT>m6er!YE=(Qb@JA>u6%krfP)yoOPy=68PH8dlVO
z5_v2@bd{>ODR;2w>ML6MAb!vnnRCvkmi8@VMN1E?p|@=}Y)ePi{QKsd<#5lfwwrCm
zJ<qO%j}<K)58$oihU1>2@r_fjpPHX7_8uwvj=s15u480fuWPl<IYA+J?YtGe87=!d
zmuKG-DtfAG-#Vr1vWb>XXy*#7;nwidQPIB_*t-HnOMooWh<<c*^tMhO*GL0506pdQ
zVzdt<L>SzDjBpXiFasB#EL(6)xgm%oeJU#utic_?JOU$X@Wmm_#0bZh{~<&&zSy(3
zy#KNCz5@@PJ_TjKQ$ZO>0m|61G%Wi1DppL|G|*wkq=RbfTkaNHqZO=PX+R9(Lh5lU
zy1(2RLaxCF9{=?t3r8wOpn<cum88s=vQXjPTaKF!WF7?O{^0e(LScy!TXt2Tfgm;z
zMBYK<?Rq2ddf-#wAC!R%ehyBq7BnF97<_pxkU`(Y_rPZX_LhM)j2Q?>F}~IiGcqRD
zRL{HsFi|&Ov9M%t)3|MITm9OMeVcs8Hu+X!6*^h#w*8U8jSXO06XV*3%cJU>7&m|;
zI{`-y*x(+iZTo#C0rVzTi)2T;Lxn$R$0TvFVL<VK6M<4~{WPSuz#rpQ_yb@87x|V@
z&wiZM7xZ<dU5(ucB{V=#WeJL2lb3>KP){~hOQ_VO21e8ziV|8>8f2$UrK`_vb2V^L
zEsL^LmC3`@8-}DVMJ07FgRGo22&l?QC}<j@2Gr;ax;Me~RxrFty`_gy3#g^5Psl|C
zvn4=oXiF9(@90z*^c~%`XAIDbS*=wVFU^h?depiww!JD{eL^lGjV(d_M&P84sDPFg
z3H3RtItuD&BR&KDqDkLgr9f2XEm7i_;iI5-HshU$zY4m*C4-(Z)w5xp7*ol{>~u!e
z`!XlVgOG{`8(XM4eI!4Y%d%I5Ec$iOHjrQPQUkuhDspwA*SKfkvn1O&VkHhkVadoP
zvg52Qxry-I+*!$_)W)sC;iwXbC^-oDhzn?w@Eoo+$(<(dG=zqVKg}eo&KI#3?mdD>
zK?5*XWXy;9fhf#c$k(;~w${+zEL7wju#-Q#O5L+KRX0GnF;HrZh>ej_<Dl3$IA<z%
zMM_;yh+R)07z>p<x=S5L#g3zxYX6z9{rbehM9CKseUXhODiAJv{Uz@n(Yr?@mW9&5
zvm*R?pWQI(15N9V4rjwdH&FA(He6uh&L8`Z<!;;IvbU|=5}cn{oLJ(Q*dlNU?<s{3
zi{ZmnqI;m!{gl}K6hOcBriYZNv8mDkj2<G(b$vq%z`<+wjSea}_^S?!b)!B=0A}k3
zsG_|qrqbSL#J$g~g`S-=d}s;&&o6p_36GNFpWM$FhC>!^1cw_p-v7^oA^R9;E&-fw
zD?SWly~&5+lGlQUVe`8lF@;;oE+R8D7>JLf<O+$d&{FG~Yj@GIn`qC`Euc$s*1%n6
zGuXueAmaS{KoGFo2qI4v_>iZDs*?tQEeQHaR0dl@9#-e9Nr%w5j@YllT6mAZZ%dHD
zs46H>UJ{!Ttv$`EyP&vmU<<-~?q!U=juC-TzXOzNI+58V;I#@q$Kk!?PEK>+atBv1
zf&a`EvIrCqT7yA%JYq%^`1vOA;}ND1_~~dZ+C$|)s1)cI1O3aXwZNgdbLIBF<)PB<
zCq?*cf3j%tmtAM)gg3tN`ZvBexG0o54~m@!i;tfcJ5R5*pAlVW%Z_I92QIkQvLmo=
zH@R&U%4D_4xCoJR66Z?|Fyiw3m4SfyL%UdgSMww@gXTt^S*vmFQuS1GK~EH$vL<j|
zh-ss_TC2?z4E0oKU8QZPYp7_BKvl)e8Vg2s&dv3vo4W|jbHf;gAOh25C(^{i!0F~v
z5XqJ`k;)*PiOA(~;N(dsb1pUDNz1gr!ubQ9aO5M8nEuU0{{}em*cPk;8x;W0-KP2W
z`mdi^IP-n|(r~H!h}eCk_|$V^_j7BZ^P=}lbJlWWbE&acZ0v<uFFC@ZBV2OyijLl8
zYpL(3*mra_v(|SO%#bGAoCy%N+c)QwSHgK{5D**AXT-VHvM@ugyd`!ZrI`}k7$(1j
z5!zW?2BW%0#RYtWQ33w>e})K*it;nZenGVwkI_r{3VE&$enOs=$7ti8<>q$-w*%;y
z+_T#Aqdh;^vyLR#WneD^J03b4!3t6B1)yu}1x!`#1x#(R7ck2~`P(bVM6(yxU6|TK
zb#y*7+l;;kEdew!Dn_7zIh4j+V60ddR!GTXhu?+URtu^(Z2h~i%76RT1t5CgZ_vK5
zGO8_6*RE0CHn6sBEsX}og_Z*Jt7Tg|<`MPf7RF?I!@)GNPPTzH)VEm1bSOdaA9~|r
z4M>6I)dXi-ZpH(B^uno`87w&y(+qiy#CmB0>%}kG)Ghh^dG2|r#=U@%29-9MDYyfO
zUfX~j@|!bL0KRIPO|U~7BoyeHBQ0<dsnQEzIPOmfP!D@V!Z@Zh{a0TX)-zwAmS&)A
zQ_H8eQGG%!&1fPmBPu0<q%<>zp}+*A>e<Wn%#O*h%BA{zM<Iu)m;aiWJYDL$f<fq3
zX>~++;#32T(W}0xKEYh7t*e<Jo9ot=ncP*aty01smD1|b*G8emI%UbX*D<;#(PgtG
z)aRh$78=nHBKIxfi*uSp57CxT<$mp51Ga!7eM_i17HK^G)Q?I=VkyBvnzlzGZB;{x
z`zkQtzJ?KQLL%+u<4g{cQUgm))s@q6o_mR85(5d&9Toe^oQ;ojx#=m1*j`EvlEX_j
zJfBp`HITE)v}Ra+9hsRfC(_d_6io4{EEs8U4TAWwh!atEiR&}zDGp6}$&{FyVzUf*
z(v`!09~f|40&F*Aji)vl7Oo5MDgw|x8NByb5}7G*-$OykNILWgTS~n;09P<H+v$hU
z0X_t(;j_)QlP_HIMMYn<<U1t#4xuq}uX&*C@49n#)%RY@+MZM3<@TYGg6gd^Ol&C7
zOr2eCU%GLr)bXs?0mcZ}Rp^myzu8_24~gL+%;|WrYY$X&mHP+e0=~96d%3ywdTb$9
zYVH-AdrQszVsrnGn+N8O-}3|)*}FZ%cRk08j^jno@iO?~o?CcMdvoZn=Wx++xac{2
z&(*rv^LFG$<ojRw(A8h==z2SKBQ<X?yS*iMm+0;)xp#@~UCRgFJ$(D{UH1XVzwTOa
zmE66eyLV~&*38YB(#}KT&O;x%4_922Z!ai!tFvV35-nXzXFjy-mDTGA4A&zJDKweM
zQ7}BWhPn=O4Hc?LP{-j4mB9=PRIO=6a`T#_3ubYP`SfF~fIbNMh&caxzT}FCuE=s^
z%{5fC43Te8Oelnrk{8^s+C7xGAYVk0z1fKRlA2(Lgr;_I50j5nU^67OpqMqrs#$~H
zFZJVS@^Qav#t=yRO<+=OdK=57sj4TVily=q)Z@|F0~oc5Y7L@091!RH%u@eK@I9yM
z=LUcoRGrtG%nVd|M4dhk#IHAb1x*R6U#LtUf=}@D?1V=Zuk+Xn;Bwgz!y@_Cn$Ovc
zynha_c{~{;$lL9GgG^?h=;~Vzt~%FTBSp&ynNG>9+?Cp7+M@+SKI$(azD|vU1Mbi1
zS)HIwSv_ls(J|m@1__KqvL)2Bp5Vk&DLJbbG@A+PYv`fMMAe|Gv<E$?X>0WzSVZ(N
zHBY~MnWD6V91~;0V<|2Od^L?;<y-HJch<s~3l?xXTHeynnzAS0h{#HKwEQ|evbzP3
z+D`p3fkm!hpjk`7a+SXJyHHMZ8>)2yAz5llnhH8V5ul%5f|;4M&e~?}1zW*%ndazg
z4hAVWGbxw~29ncUFimPs#Tt&bf>mo9j<_aK%WVmaT^;Khen-*cfQ4rr1xGzyKI;S@
zhqK^-12nsOo=sCUmHkuD&3foLx_lc74KKmWlis^(`tSNez5U`nFcs_t*ByuI@Fo3t
z5&H3Y-wPu`#!oj-U+aU>|H3Qh(m_~hCdNtT18bkCj+YQr2e<&I7lP)nR!6Bia_Y<g
zUNTPBL6fi=lzm9UYQHuEUj&|jh-)-rgqw_(S1w&92kMgP75PcO0<z>=(7I&0q~u)E
za+I?4WvJ>Hhg(YV=_$F8m88hgJT6nH@khwRti0#&K!JM$v#d<+Rdg7`A^tp;G)SK0
zr70n<F(6lpluWIxoY_c9Dm>*ZJ0d9s%j6s2zy&V@L}fAcOD6$tsyjUIkJelmh}IO$
zx5@=;J<AG@yaS+9RB0fZH%7^Y2c2X=Rt%h*OI8K0rI@@~X-aZ#zJ%Gxp`9YNWfGU*
z_JfQE3Dn}_8Ng$3fm8NRyR&gXfdb2@UnCjOtuDFoE)`RQ&fr27+)5?d8=Z9=-X4<t
zagKeJOTnzv+|I<Bl9_`m7jV^8vH<ks@d7M&18bP!%3MMKMkwqgeS%>kZdsB10cQ9B
zOeQa>4QqXsn(KaoWLG|kblFMnpDKNZtAnH;YNk9olC9cL$wn$GbE=FU*5R&WPmJWP
z(rI<b7U2z#3rqGtRb$x`<-i`Oush#Uqy1`M{5LWQ!J55F{X%EnVS|J04IdSbltRbE
z(6Mr8H~w|(#G`Nf4SUHyB>IQo-d-3A1~(e0miEP=Qu|)9eeYWP{x#p=oc-R8p1<gs
zbKdLPB|19ihUfd?0$s6X=LfEx<zV>j*o{~z_=FgIV%}D6?On<*rHlJd7hBFO7{G&7
zY#sWbacEPq1>4VpPrv8=m-c^bf1g<kUVv(zVA0c4_6Eu=?WL9>v1Mo__MUgGWn|v)
zlLKc&_r7`C;+bXt15XDW5_@(*L2&dmcR|9tYsIj7M%;Tsu1wC6&#bhqwH%o@Jn*z!
zKe}*qspYOGvdpaR7NY=v0}uRNaI)=>%p1$0o>FK~3=PgZKXL<3UV3@u<X!jCkKE0b
z2=&-mdVLQSIxv5teC)L7eR}@%l70DWtCn)h4mkR5iI)ALa(n07M{XQhwy(t2+Mk{u
zeh}EXYykJ}{PA*kq||*->^?Yu?jvuw><^axc+sF7j+A%o{={x-_C19Dw^cf!fl4>!
z4_u#Jm|cRKF#RjttCz(6r#|wBz|YkRUwCWs=47dNSnM7Cz&~6L^ejIw2KN2CKU8h(
zUiWTjVe$9x?mZ4zt;aWi?xBfl-m%oP9K7p22)<(Zy5=JDV@FrzgpTUoT{)?%0dw46
z!E)i2A=(7%&<RQq(BA=}As{`Y8>eRtjDFS#|0bf*V7ZbDBf86QxAB^VF#rxRgZ`j6
z9ndDweKbmFK2XrrJ3U|kwE)&Iy`@(u^IO{Wm04XucLDSj=lk5c7FBD=bt2ZhWK*}#
zmt`3e5+>A}@gdxYAt4vaB!uJyc>!=35~17}N#(c{T&7RJPYLiuF{-h8hG9Zc?J`yf
zDq#t@B+7?U*$`NrSsod&T!>hcA#!Jn6hpxvXKKt6StbPM4cHY~iYt|5S;1rfE@CgI
zLTUDLZ7<+5S^{Tn%Uzpc%)=KW&vV~}heSv7_G)jVd6WD#aE*2eUaOaJv;`owRHaw#
z)puU<C|agQit$q8uat)4B>DQ9T#mZ~t<<^5^EPDXwUbG-rniyur$Ep1Z$W90WDZjo
z2&hij`JrgBBU%L8I1nyc;1*bL&iRw}{c~r^uC_(y1J{mncVE#RE_*tPI}V7R1CWG$
z2)o)&1qL5FD0dho1Kdq1H+3%A77NS!if%A<R`aXr_jeZuUW8rbZI~Mdud>@aXMbp>
z8rqc#U=i7t3#<Ezp`)u;);uTYhCvX{*@+#27kY@xoy+3TdVW2>J9?S7I^S{k!L{OP
z@K11mhVS3S2*<9zUw#VTVDu00&-cR6seXCCaUZ(n;elRxcvOaH<AJJE{y^0!e*o<E
zBTv)i{(b0}cR6Y<@&H}qn8%bwxw=!aV#-E!?q3-eI}TOsm;|SM&AlEcW;LMa9eF|{
zvgaL+fFZSm`00(t6SU^2$AsdkC#34CUo?o;z`B*>HGGXW2A57Qzpyg6YW$Jo2ae+4
zu-JcG>>jC5`0D+^_xXQ4v`*;CWnG8SyE0gz;IWz{kN1+FVoLT*;J`&9k~tn{a!I)H
z?Mmk07cfb3cQBf`nB;Ie<lAf(a@9MU&C2Khj+$N1%Xh=cJ(;Nd0}J^E7m8C3T>w%y
z-l2(-ji}w-SK-_k{;~$0Q8KuCR8b;c$nOr&a+G#Ig6r0s1o8!gosXzNejuX!Ziiex
zlLjAATK>rc!WsO{kbIF6f5Ah35y7FED)rZ^E{}oyqaFpC#;1i;nwPPglhonaSElh-
zP#kU%$uh3|x`D%sD#ZOqyn!-Wv=MjA7@$I)LpxG3%Ithdo6ZqAE#J9EN0aQ;#Cg9>
z$!j2j<t#^_Um(z*<lcuQ>>`T)V~8qxnx-G_rRcNte^T8)r5yLE=KECS=hRao_0)ap
z@O|pged@%0YUER$p4NS0q3HAUeX9RcgOS#)QxJXPpy;mqROg1Nk?xysy573bx<LWC
z(KkQ`moDB)-ArvzKyEPf5!$!ZbgT6y6aaGL_vo~a_R3WjPZ#@+d_rLc>GS^qfdf#M

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/glm4v.cpython-312.pyc b/model_executor/models/__pycache__/glm4v.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3461fe017497598aebaa3bb577dc621cfc2aec91
GIT binary patch
literal 33722
zcmdUY32<9ye&54=^8`VFCrD8uA@PtX>Xs!@qArV~EK8Pc_`p)c<0XKkA3z-}*myJE
zF172#)NV4O>dlx=w_R%N%yK)OthQ-WZO_eYlHx721@bD_Oyah)(_{uVx$A6t{{G)P
z0D_>jX(m11kRQJH-RJ-QzV}0y%g*767{5ApGt6;+N-yfeV(_y1y9SQC%Z0fh7uJRK
z5nWJ+UqeJ6H3SVh3NuEGQB%+qH3!Y?-4wAztwC$l7PPT<eZ(HLBb_;7k2-=57G{Y!
zqpqNf`K^(XXlbyN`E8N1XnC-l`R$R4Xl1Z6>JGZ2RlzD2=7@Nr)xm1!cSgKXU(m<=
zu1HO^HdxF2C6T&leXySSOCt@@#$Y4!mqq;1reG8Emq(hTTY_7nEx{J{UJ=<E-4@&y
zZ4I_Y+k$P;Krj&99^B62DkD3h?ZI~DcSky+oxx7#uZna<cLsMdzbCRQ+8ykU?hfvb
z_5^#PdxCpdcy(lNbYE~E^Lr!vqX&Wqq6dQqqlbcrqKAWrS-3CqO!P?b2=muOjz*6K
zk1>C3q&Ipzc%1p`A}6AK!M^Cp;7PpKhZ`cNqNjtWqi2F=*n4B-Z1maSv(a<GbJ6}_
zfAoCtd~_f<pyTx1X)f%4iwigLeIH;Z=?Pw7q0I>0!aK$nS>QTHOL>u{Y(dJcPf7Va
zOSugxTc48h5=+^Jl!2$Dyv$N=N6H;fN%;ax*^ZPQPf2-&rR+q?uBW7Yk)_;;l)Lyd
z+K9ZwLc0;V`vbi^Xu+3RSP#PX@CUV&K^D3fq5JqFe9(u)THGrvZa?A<@CORwUe$B_
z&hdY|ZbH}#|0*BkU-?k0ft7IxWgO;D^XK_<`~ctofkn>ufs#G=`YnCnnVG|9Cx&@}
zpBUmhCMP1d{3j+ydPn$)xIa1><|F>0$>`KzeC%q3_um+ckNPj4d7<yT{{}xcG8&I{
z{)EaJ2<Rl+z+jY*O$`q50lj27KR7itHZdYuFY#|oQ_%>t^-fGo#s}kkShDnw#d%>c
zf_(ak3Ci6+c#9VXCWR<o>~UdmA~uYd7~aayP9W{nWCV?voH&m*1q_n&_+Wf!^b|iB
zpB8wj@;QOOEDVlK@Zrmo*Z7IC8D5a=m-&g<q;UDx6i;QIjSi0RXD6nn<5b;c{$^Z#
zsW?9!iI1J(2gAMbIQorRD8rRVBzj_UVt8x>Z)L{^V|?FqG<xg86eXaBwT$rb5Hg^W
z5F4t{)FAp4;Ul3NlR_jMilH6oxBb#sWV&}EjA|r1<ry4`hlVEtCdqwbGBO>VcuvXI
zj}8n9Qq6f@7~#W3<H|3dyHb$6?0J4FGB!lxsuWQE{N#=GiO|}Li_?SX+YB2;tzRXq
z?=+~9bNnspRpt2?`Y)e7f1$6pKlJ>`(`PSTe*WcvQIZD<2?ry6gYm(>v7xwBrDh(C
zC^K<siXU1RJjO@R5gNq&;Bz+yg^}3VIL{`yGFJ>0Ee9K=Y8vuf)N{h*5Ff)>OBEEM
zykd=E^-fCVc#lrSX(+G)qnJg>DF?kU6~@q@V;*e^*~G_=Pme{yyg*%MD=f-~$B<H9
zH8c{g6QhIi)BWd_!O}}kIquTXC?6e^9Ln41;1vH89d-exx=hK!noff%Ih7DL#5Co(
z9-WL{<-=k0ASO94O;1ft3h`L~<nz6fOMN^4{N!^dr3&qp)+w6;tSKeKbI%PayP5r1
zm6z2oz;l=5IbdWisDA;tIA{p#gGSyI))Tbh&0)h~`nB-Z@d|hf9>5uU*cdj2&0)(2
zMmcg=&1t2aw`>8s<i_}1VO#6Dv73BE9@&|%*!_6=#xM^t+AIgzJB4-luO9TXz3Zpl
zkrzI6&_6JZ5fS{8!~UVs!HEez67#q14&<d7J?KBf;0~o3qYa%GdE=n}#j!8|)Vesy
zIYkW%T_220^D)U72RM*)SARn2PSTA^x*L)a3uJI0;E=4L&;)>3C?wfKw4<jZ<adTb
zZ%hwHlo(4W6rLOkg@pYmKp=oBm4-rSEkQQwE27L4YKl(^L!**eUL`_1!tQgcaJj!c
z-4%~cbxn;;b;Pj`_;|<7>3s+GU)#rbMaHgnP2Gx*PEK@P2l(kiBhYsKCO<Td;^fy@
z*GMGVbG>uwmarG4F{c-v*giO4;y%@zP1bA~w{`cMeRHkzoua)dW$ez_E9Xz%?Z4Ci
z{*I-g<z34|4|b=Tk0#wmMf<Tw#$&=MwWM{cNtt(U^$McDoVT9lxM5IwZ&_(g@y2nL
z9z-hj2^)%s4;#bAw~Rsa9CuR}v|Qq_B|Imu^md=<Kl|Ks1k<%$F{EHnRw4~4P1$M!
zJMGtXce%J)5qDdk;C{sf{HcWKxH#VAXPojCJPF;nx=Zq65L%=c2zBNqQoO}OKh&xF
zB*BFgOv~lBrEFtK@k%vp+^za@zhQmxR;jeb2LyHSpgxD}TUVb~4a@zayqesb>U(l6
zD7{2Yd5a4e1_0+A*LVT@lVLc?9E%HMfTSHr6)2TVvFRzGUu>qaiLp4g1C6$11{A&C
z9hMwp6CrhXOODa8aG0Nvi?M^s7#fxR#wlTPT(S`oi}Jw!!U-zF1hhUGlUzfQScq4F
zr)1MsjO3b_j)tZtV`FS5N)@U%ml~vlF~&!RCG(Jsm29EVP-HNMZ5yNY<@diSoW`#(
z0B5GL_{!{5yLJJIVqb#u7jJTpt*+Y^(dvC<t$FPB+&z2eY{prUb~cF4hMdRSkoE>d
zZy;0YOINmtl`U&FQ<Z(r__l4$$u;=jd-dL{A8!5jj{7^72OoIS2hNEH&ZV~Zr|Qqo
z8L8anmT$Gc-@bG`-E~6jI`QyI`s9n^$rn@2FU=W$Y;9zlSTZxX7?aEb587yA-7cbi
z!FJJqz{<JHVcwM$gmCRiaO3$qPYEAaVS$#8<BIOCUp#k_U5GuT)IF<1JE*M%PeP}z
z`dNKKKd!C&T(YoUO)>7ug{r<VAeL4KAji12w$&8qS9#8_`cPL9EEzTuE(Mk}snq+d
zAzr2C8TY8Z+;75=&=2dwh7Zkot)O-k*{wy#yf#;s>I)my9?zi1G%kRvmcRT1J7HXU
zw0)F^iRESDKj>$8s#8W&S`Ny^khzRz{c%R-$_zk^C?0>?@pk`-cK?}n|BC^;mhXAC
z=<=%Bv~<wxGL6rNHz~cp-QSnP{(w5>Fn@h)h?h)Z!s0)nmBN6IK)#>+PdxW^k|8`6
z4U|ZFRD21+l3C_dgh5Jul|n4TU?tEY$;S8$00~|o1SgsKn^S`mVL&kIp$u~jAgqO#
zDb_YU5d$y7gQhnMK`QMv3fA3}Yy^<v#CXJLm(bWTAcC4E1(3SonTAaOi4sqx#fYhU
zlgqlf3h!Ot9p7Thw*v16(#_psb9cJ=fY^NCq5I$XzVA!-UKD#Trh8u$dtaRQrOIEL
zGiRJ-@0`7Tc78bJte?|moG$h@_|^WjvsrXDFYa0#OgY;S<MyWA+eG)aw7WxecPtHl
zd*uGe^5FgP2h9(zrrf=Aw#UwLmiN|T)BMCz(<5g)a#?M2m(#8m(bbZ6?GRl%(yl$C
zYtQmv%C%p#?ni>svN<aQJ^`z61icWBl5>n40;6mog+B7V0Y`EvAa{t5L_(qaI^k7>
z#t0G}lVR^!N=gppj<vw~i?_Hnz0LHpF6${Xl`rt`Meaqi9K1`@-%i|5d`@1OhM{aj
z_}3nl7FdlSD4&M0aW*b&1^r?O>t=wjiDDTxGRnsImMe%o&6|rshp@SLI4BznC>txI
zY;4$pHmO{lc8#$dkenbUC*mOm{g|f&et7KW5Um^aA-Kq(^qW}M1+<Q_kk$bV&(Eur
z0h~>Hf<1AK7EviA#A<np<9@)SBG7pTWg@ReQ*BarQA$e5tF@&#<i$*&Ueux0o}-X9
zsjVmk-=tUigyCH-tp5%DhlUT7b%DAxx-VX>j@c%46(4K4R3j@@8CR65(T#BpVx!Mm
zs9F>Cw%95|Xc2l*#WE;g!&~tNwXAW!>dXC(Z^`*pA9~lK`g6Z34nf%(RSJ5~G%zBk
zS@~x(Wt{+k!mZFX{+7&8-Pa4(5i8t)Gh^-qEf?bhZs9zIv8{iRd_>wxmiUxR+u4Xn
z8-=tbCRJ$O5a4YH7~z^^rKk{qIKc4GV1yS4!%C$E6$><|Km=5wK<HXB0;W&MpoSKY
zWa$$orzWQ%2MEia5NOJ)QVD_}0}3gD_f0Y=e+5}`U6COYtq_9c`4nNzh8?XDgA+&|
zvjdEQ7z8zED^bb8Ol?!TwnMD#AR^BDxcX44`WcXX&P;Qg4BnT+-;I1HA~qkV1dSOY
z61R)q?MuVy&LblJyho7Sm8tUGeeKR`i+y5M8{X}oH15n1mcRh#Z=YxHb)vH_<J+3?
z)Xl$?tnWxxcCI<heh`_DtaWQ8oToJ}mr9^2$rr998A<9PlGKjGRY+Wxc5V@!TNW>W
z>$Ue^TkiYrv)_4k)u30XRx{Vw^4{pZ(R4$n*w9Io>2a~^c&gz9QKYppNS>szeH~75
zTJ-l316q_TN{edL9t5ADY-T|{6{8AC`+z;Iz`R!hJ!g%xrdcyeRpCEsQJ;h{VM>_Q
zy)<h<Dh)2FX|OLX>W*M_TTwSRZp+21zJygxH)~B;0r!mq!a+m|VRCpl0h91c_>oLQ
zqtg@DgfCL~o8-I&Ct#CTAdQk_c;ni2Nf(lIZ%DdplJ2@>pcQPE*KCX`rv=F#8C4QO
zo$+m4lnP<-tB8&b!+Dd-lvkz8w~FOkK@60)-8Rn|<}PL`s_q8v1QvQ1yXOO`ify+o
zbGo@*bAu}-74MAQ9$U~Y>{=L1mH6ijARX>Ld*|7O*w-)Iw#}L6b*#7+vAkvRN~*ja
zG)QUHoQuu(ef@yM-M1G~0(EGGWB{vJj3y8S#0oKLZ5|ykO@ZV@DdG$q&;eO1w|ig4
z<NeguVCvIl&0KY0sYmp5Wi9O8%9Xo+Dn}jDSxlaVs`u*d)nz$&m$rVp{eJuB<dqjD
z75)DVt>926@qGVt136H%jxwNC$|!>}jMCF713>a3Q~;pAhFwvf@~CSVd9)o9*Z3#o
z(eRC$13N@l3`Zqoe5eCH)aOY=w4IaVk2c9)ye_#^LqVw;{|8KE9GEe74iD`TZlQ_H
z+Z}M`;UWg(i6xWlirfK$c*zB4>^hU(K`1W}2_O*GlFG+O@1RJ9Wz=P$(i!G~uUq&M
zlErAWXhY^>33uLHYWU$ErG6962K?Zu1GsfOu5Vp3r`ryQZ3j~I2W5u8vH)1Oh|U%j
zwl7?sKML`In_#sS2*<sZ0d|%|lRT(^J(u=ZWKvxy4wY$ju@!a`o?j3u>%eh7jaMgb
zURzfvT6uEZJcF@RlI{|BUpEji2sB>8U2^^|oco3xm=ta!KoQr-oEBp&W-9ZCU4ek#
zrlbep00Nd)zH{^T%>~_8|JH3I0Xl};NI<jjM#|Ylj7(tyjk6KnK@q|oatfi;uTda5
z3;2)q!C42T+$MWIkfK)^Mv<@G2yRA!Q1Ge{3SJpPQL)7#6k(VR+>H52+{{~Cp48PM
zdDX$nG2()(gxdu8Xd>8(UjX>zM6lT88pD7#D-S}80HK`tXEQLQ02i5rr-h0KX*Kj6
zCt8p_37wKwCd_kbbAU)&kpJ6l)K~{bC_`st;HP3U_D&{WAR(j*i=vUKfFlnUQ6pq9
zQxYM~XJ`W2&JZ$7rDLR{46#rOWC&2Q<w~SAAsJAh<b~)0+C)`pnU`l%$kepitZQKE
zyC}XWn0nmUw&Y0%4vB$74?XGLD`M}JM~yEsvhuNSJ7CXZ-2=}9>qC2T@3}RDzJ}mZ
z$(osSH|FAu%ae#wK$e*cbZfNe;;D4Y0kP!(q65hJW9wG71B#Q3zlk=I_>uu0A{Yvu
zO~8>R7*vrRk&_9-401!<sG9|IT@*+aCl58Dn^u~M2uoI)IbpuU3Ex1$kQMzs{0QG9
z=O2*s_bJrEpqb=S1>mF>$K2=UlC1)%EEgctfRYUp55YQ?h-4?P94s(Gk9Gl}B0PE2
zp?}jUS3u<NAzSQaH~^6~t#hTB+QxKkmss1iZ2WG?cS;`oQflXgRPA#~t2g6qO>RFZ
zdJoRIGVZ218(5NbRkv8xz1;KN{omRD;B0F5sZ`bJIeVtOW+5n+x8~D@420g_AR!{U
zQ1}`-1LP1vTbvqvk7CIAZT!bN;jDwRW$WQAy~=PFzMr*dG#?f4Hv~~N^pgisH>2c8
z4nQDj^<Tm%pyW)2GM*eTEe1;C8bAXW(*P2RRUUPD_HpkRhx8-h!d`=fde)dv-KjKN
z!uT%t8wSvA3b?$Zf4ka<9JAVD&j+@*5Tj$UH%KouW9?*6E7r-N9)y88IRInH?a*CA
zr`kUji%TXj`y;$m&LjY`7D&#_rdTq|F9CBg_FS^D*w9$`rp&1mf?>-(p9rffvhFn~
z_Xs&+5jcg!*kh0PZuCwRyl->s;`MavQL**tqo!l4E{m(=QzzHltD8T&=HSW$8Fx*l
zsUy?SvhdR4OG{%*uOw>^{LEr3ugKad)u)tU)nKazF#8q9&p*@SmC=g7UDI1{T?f{T
zXa-vg`{7|U7k&$$KJGQl?W|tUVXic;cvkne(+EJQ0vnz1kB||>QxHGG5**1XkCm*>
zE<!Zb78@o7GW;hL5c9(UWT^AMckUbK=KBAru5GD4Rk!c<`K*DfZ(Av?OIqt>YK75A
zzlG!*Xe6S-1aeaN|Eum@gQ;FFp9=UJ+PfO}b-MqB{5`9Y2&kIYFq@~}-besFVb9Wh
z72CIA9dtq1ZyV&1v>w<K*SMRaa>Jsfs=GaZpXQZQOs1&Rh8!9s$?<4;GGnbZai5Zf
zIKbk>U5%O|_d5b>&>4)U)^AgR99H8n<Be)AlwYKz;<ak!nhVO+`h3e0unxK~ymkgG
z;9MT%{gcAj$k@bS1e&g?2s0gG%%FcP=8q#f1`V`-Fi)fPg)e+THqp>ZA%(Im`wWdj
z4;1Pd^*;kEx{an?ZCVy;fUE-OR7n7s!?YKRA0D0vZJOrl*kJ6LQ-hIMLEd~N!!!9W
zxhnFscB}&<AVEk*I{yDh<JBp|bZDcN@7KDckVx(R5IVNLr)@WL`b8#6R_AYHo^{dr
z`EH_AS;+}aVcRPkt6i5<DfqQ^KP24GbnMF2Pi@ya@*?k#k`bUkeq*xeO7cTEG3lS2
z;QgB$3+Ak@^2ddZ04qGK&i3X-{M8ohE6R#4Sh279xBI(u>y9SwueEHSHuE?0raG^q
z`IDAEAgBJ)*%@J$mux)9LWG)^<AMdkIWx}Ays~CWl>OerHvH&7pgfP*A&@0AcaFS*
znH`KkAXYLFW4B8(o<7<C0u&cR@m&H)GSXoT#k&Qv1dvJ#22pb4RWHk+T=L3NnvhQ_
zF)N#4**G@8Bd?<5SW#k0lUM=&X++YWQ}QGnB9gA?@>Cj+Yj<Rv)f)4bDfehnsaKPg
z+o5o%1Kk5{2Pqu9cVE5p>f*L^bC1~Eld9T7x&<<kIeq8!*U#d`_SoI<^?vevQoAQt
zrmHgT+9JBPB%LjbZ-~yeCsb0#HFU9zr0&j@kk_i$la=jgRRd!!Yo5SbuAsYrZMj!*
zHd3S7K2TUzX5*rXE>N-Z<mfw1Dpp+cpq0o<((tod4oPU$y0nrsTG1^0QzR4~lJmRd
z{0nlvPtLz2=QrRKp%*nShgOP0C-$I2v0<cVLbh~iqgdLws7sYLYjQSbRS>>AerJ5K
z{Oi$_vxQ09HcbiJ1tmd~SlYDMlqzjeiYk!E6{R-6N6jba&!`LCaEMd1D|!RRNgd-2
zRlR|Yz1vA|z@mOO01HY*{zioqr#Ojs*dTxVo3$ozsgyd{C_a);rD_x-8l~w7`XKxN
z#W~Bcb!-!A?wh(_g=i#?%gpBmHTpP@n>4E2B$L$>#f)biJ(@41(-pI;Qc56czcEjT
zpmDc3O?@%Dsf4j;nMG?N+b!5)DI<thy5#o4lCoO$jgyR`;K|Xb<NksuyoN1d3#inJ
zjWH@`t?o<IsEx+|u^P2@VWhTgY$Mu~ZvkK%0P<s|QrPamLX5i?eh2x$X#Okw6rf6o
zyq-g-<b-TWv-K3tQNn(5I><Q*XPu=0trN+0eT)po73&yg10<EocA=WVC*va}M}C9Y
zhQCO~GLS}$ns9;2GlC+yE?lPf6Xd)=frhJ-V-VEBDIp637~qG7fp{l{d=#43ryo+z
z%~7XjzRb3zhCFd*i;JxyD<RK(bAZR*CeeF<<emFP{CN+|xgIy}S&pU}`($BiZD+>m
zTXH@$Ke+iYk$mPdM4~D-HFI^O5z<Tq)?;0pNloYEs;Zd@s&{MJyG!)$%J>@7z8#`(
zN5<>RRJ!xcPJxLJ-#PqE)3+S&JC=Hv-dNt2?(P%2`%?assmfD8%ht!0RZmNjY1ol&
zI4CwiZ>8z|$vkeO-k-=1n(Nh3z^A8U+D&y!nlKkB^w9t7zN8Q1_e-#@^r3hPEoK?T
zYy%8r9gwq&N*KcivO7}uB<u$CMK%3~1O&SYlL{@0TA$LH34K_DD6IV&OhLnxC$X;m
z<E3hN?iXb!bV4zER91(g-DP!XJ2qFsx;nUG7Uts`jLXkeY}^z}SHLwDf-$=ZqE!o?
zzgC&noV8RjsGG0=GgyaV!~3CCwf3NyhTvYag32{#1{4v+k}aO_1%wYU*fS!hSUJk<
zMrB)#A%x`_Y?KMVPXT{G4q<x90Dem{ULWIcNEVnXMW>+}{zHl#BWIi(273N2`L2;e
zbh8X}qU00dsHPrlV@y)$0XUK_CLE$)+X&3)nW9->#ZU>G+I&>4BL-ALEJ#3y^mELR
z)K#8#`bDRI(IcCGk|_^a2Q6GoIU7M=IbB~FoG-sqF~{FNGpAdrsJz>Hr&YB9dF-x+
z{m1Tm=C7ZFpdU7+r*5B`-!(tB=v(SdIXlzNy`ppP@*5AD9$b8=OF55Id9oQQBi>dv
zw?Zv!28>NcZ;!q+d3$nU@V$|HBa4Ig#+RCxuBJ+M!SLjXv8uglY@v4{HXmIof8^Z3
zIyP@imu(U8=iEYsq-vo01U2ptXg<h!hQ_cDo^|Sl8q=X{o~;SJ%IXF3?f2!3QsGsN
zQsI>amsBjRFzr#vrd3j7<dczP$n*^yp@vbaQ8Pz1y;Tx4F|$%=l>%nTjzd>HR~Whx
z=1~AlXm8+0a?qI}6?am|kODw((wE~j!22d%3J61JzUT-I=}dDvSRE0B`J^TC(E}5A
zjcLKg1K=!t$jDt2Y!a}?1ENChHOGuK0(#-!BV4u}v~<dtUyu+4Jba#F2FPLdg=}(O
z!K-AJ)4`-FNU>T8ayo{ksTz_I<SPRzb3>+K=o>WAN01m8T0On7_{swh6kU(3$5yJF
z)74#Kb=REp6VDb}+vjedTc}(1EL$H~lAXtZm1WsJn_?*RsH8m0XQHw4^jZSF#^B@|
zIQ<a?l5?G!LJ$mVF4KGBGuSBE7iY+7$^KwBSuEK<B}ZOOlwsX!QpL8bZz5*>YLX9V
zVLh4XFyAnaUE$!C`7LMAOy<upfOdo}bOeyM_>h;GL7SLs<!uPH6@=P&JMYL#W#pa1
z*0B98Q_#iMX9?D)Qz~JDjpLW{fz6qaou=dRC?u*-L*Phpc#@Azw8s5m*givqH5QNg
zCvQyn&z$l@{wQaX<wdbc95l`eX8n`XI39?UB={P|ndMGavcOh`jalH+(O*V%3=Am?
z5B<uM-FIW83l{$d**&&Fp5+u_mylK#wnUKy4@EMp$Z4>^DFN%qPcf-|UaThXR?}mX
z7!$@}eY{K!DaJuSJE!3Nyt3SCj@<7DiZ?G689x;~I1gj|(4>|)Vo+%g^x3H<#db9h
zNOpE&gyAPT9Lubu)Kl33!^rN#f6&vK{0~P*ZjAi-Z#&L^badp_-}=M<*yxvzBJ!Ot
zA74ALOFTOA>o-1%cYZH<bmWU4)!JV82jWp2>o7+7!3i=A3<q3!8=odsSRv<!<Ph&C
zSx(@TFV1U7=I41jKPu2zOP1qjPrQJC$$EKGKF5O7=wMYq+t2VYsGx(QA&p;HN9C_j
z(X9MGA>Zaye)ak_tpSlQ)6RVxd5O%o=ZVNxWUH=>uNfqC$qE_uwu|0&XwIve7Y~b7
zJLh1*8%Q_q5*v4YQdW~LYZA+vGF6R>HA#2-<L2Gz=0jrhp*54CykZTQrdGyhsj{t)
zDRGNf21BsJ8Si11BI~k~w$VvuzCTvfaX9OWL+<h+l@j?dm~vV@w$7+f!wdV-6|$;$
z6H4M)T^w)nlhDPL1qTvY@x=@Y-G~liCp}B8&r7W@np%(4M5bvtKrNlHj=Jcud2*OV
zBap+oYi*bt!x%Sfn%I-jLy>J(6xkqpnUSvw0ds|NFz{7+03~*nk(;&5!aOQ(Gib{@
zmnmoRJEjAJpb_N|jTryFE@8sIA!lZMNmYNFq5g)^FAa^b4-U46Lq0GSqJv5SEA~!o
zY$6sP#6<{_F#`QJTiB8z!cPeQg|eN11B3VY;LtUJ8V2P#!*72^k&Isab4r0?Z^mWw
z4;&ho7dA5niAg5*#_Ep|gd&hjk9-mdr!m3m;<(Ms#)T|L{3b2r2gnH0(aAZ><_>2n
ztLFM1m--f3zG-|^x)mnC^Lyv|GLG`OBbln|xl<Ii?VBx+N?Vz&`P``$PtDzlI}?kS
zQ=aW}j!zsVbJxFmXrbvxj@nFZ{q6ogK6x%x+yDJ54^A%hrR#Qzbvu`<eq6Wj;gz}m
zWNm+@Zu^HPzkTlhxd+Zv`^jYOsk#17N^7%vgR3M{QJ*#7ccr2sYr-!mFJCL9xn=e&
zXSUgY{+WfVJFjDc?eAB4k5?OEj4&_|C@n<Ey)>BH$#Idx$O{6s!l&fWY|99n05h8f
z;dAm8Mcp4$3^`w<ar-;)0Cj(=H{k5G-Dk3|l+|ZV_yx`AZp~WAXXWfAKedtXAlI`$
zv+q!*d+(>VdZaC>UT9gkb+1b-2`u%AB|Ebwgd%5o?ZV~7?P7h0Sk|#@6w7+D7K%Xc
z>lVgEZyW5My<J%<0>VwZ=W_>qGKoM9TSp?O+ivv=VsiHa;0!mHBN5cI*&r8)B(Q}U
zDIoLHIJ0QR=_WhkZ1B@bCx_y<!tcCg!g(i|%2E)&ay5fSgQ8-__!BB!JqBkpQ-@*(
z{&9^CRd=;&@?ek*L-CuEi!Rm}9agDdnq`p1w1*hMC2s@azu|qRDIb(8t?XQv{a?_W
zRwJ!uG@35mDwb~jW;9jWleG4*L6*$d*fkcihyyvahaf5;rqy4Da~H%n;GPzl^AtN~
zo9pK=napa?Fqi8C#f#V?P*05w>%IZA0}|bWBGco@HlvXk)B)-IUr~ls!j5Na1Q%P(
zY=Gpk)Tk-sWuWMPAXAKBoC;IQlrhtam}z;!$ZDznH4W}bltY8NZ7xnWx#`kvV(GTW
z&YG;jRAyhPtWH;M6)U%<VE^o?NqgEvPa9y$rxrwF`IlCGY9k+KvdQaxVBI34HnK%V
zBm-`z0!uYU!(bQ?euj{o{89Mtc+FcLQZ@Am$Jgm94n7=;MnjRYD5%q!9h-HmNa8=F
z{t*mE|H`Tt%I6YE<s?k;R*te(VmkAe5W?tDr<2SRi!B$DZYXpoST6Zy5128+u7u9p
zL8=9J)`Zh8CbGQ17ywQE3Cb0oCx;*eW|uYvqk$C4NV4Vj(GMw3%ON?Khyqw^BtDu`
zBq}(@O`}KlTnfR(4#dv1Z8mg;DMcE$v#1Z_rXEyHx!WLo@HVBrT>y1+t`&`T%281n
zkALx5(bKuyBzktwIWna+3$KW!ZAohz+or__9R!68f1WVtIE;u?Z2!nZr4y`3zG2nW
zt?##@cU2Aq&+L49|JUb`XdH-Af0J7&txT7;p);w{?MoNM($1u{lXVJ&asj(ZlZb;t
zSI7CGxV)8Nn#T!71j|S*MLr{iu};uIH710Y5yokX{kiJ=b85mlyuHPJrq`MFWX)!i
zeaQoCYqBp7tkO@mOlPWFs$Q<dRU&=g8DDM`1HG#p!m?(IDX=)S3Vt<^t<amgmWI|i
z{K)lC73&a_3d2@kMNB?o;&B|8H_6C{E*SxGG62zlZ^fZq6Zl!(x)f&iW>L}`8IP*x
zt>8{A;7)C~j6hE^>BDYuI!hL`>J>mRswJ_>^h7+iQC>|W$e>9NYasR^2B+{L7^9NL
zvpC&P{9r<#+j9)=U@vli*>yN^m504iXmVKICy6766Z}MYa+pXv<s~nYY|62|)FbC5
zs9dsZTPG&juHrHz(DgUt1!vDoXjO*k#wr#&vyH98jh$zhFPCnGroI_1#V)LBU<VHO
zLEu-_IcHySpPaL;lzJBq0u?3|1MLCH664<p0VKd4IU1UjZ^v54U=R{xBbb5buY&Y7
z=m)O2s2~b(O@@9qb+cy3qxHoQCM4zB$v~XYGYI7gL-BMfX)%F2lV)wWeWfUhg$BTq
zuqJFd%_PGvCIzx;Q;kcrOgHF4BFQ|;E-eyBFe}+6uR}tC`%+@K`o=hh%d2t#Sit3m
zICvDwO&tTJv4CAh!MNv;6KDwt9&&J{q71ktr+kr6NUqPNyyaJ`aKT#TF+z@D50ppd
z63TNGV=n1hq?y3emyMG2Kch9VUt%i<3<M6V;tG_sdxz-Wk#cvehvKb0%dd*9$CK9M
zbI$qM!gcn?dyXz_f3Ndi=Th~fnq3bs&y{A)oXb6bIbF3wtlE+BG-s+?GPPSXHG!;+
z^R%yWCQnJ$U?GaYqEG~~?fr&Bhy~!#O#?`Z6QPkDKfMxVk_QuU4JFtGI3MFbMz|WL
z1bUNc+mdD3uzYFRisM=!L`>Tr0Oa8(>*1b(^{=f8bbYxyYr-#D@2*|gy=Yk2j~idI
z77DU*Rdov|l1;mkb-P4&_wr@YeIQGjh?1{cbHFDzf~sBzFlpZCS$!MMdVon_l0<y~
zg=Q5Hu6r}_mSH=i;{g^y->**#po*M!h2A%ZiLQ4PDbvO~0f1e63CX*d_|F(Dz2$)5
z&&w7|?uIjk6TqEq4v>GipN)Yc$%++&`~RXb$pcD5BMgb&l1XZ*QlUQOV|n>>w#vxR
z5YWQ_3r*`??v@Ue?kQQbtcZuV(CpzBPfplM&NevOfjxz4sVA->*9P2M7#ZVZp=ow)
zTx@3VW?kxhVm^|%#|ZF&n=awXs@P;Q!b)b>*9j-7PpluuSU+;IlsJX5rx^GPYjP8a
z1kp2ka%65mC(9yW&KAaHeL@prCCgR1V~G!|7UBUK6&jj#hCWgigFu*$VY<IBrZ81A
zotuvZ0gl4-HX4IkRLdk|W$s5!d(%xv#HJ$;Zlsz{KPo+ww4Ra2#YL6^+U&1G9-4IO
z2Po*v+?UN?wtU%om%Ck@qteC;iIwMRNaQPKAQ!5o;Q5Lb;nspcyne+J*2UFL$PMe~
z%yX7GT>1g}ME{l(QX`TruqSM|ZN6>2Z5c5nOh6V&+eU~LF%3vo+5vQgVFQ6m0BQ9l
zIKOU0N6q7MY3tl#EV9;7-EGqd_ywXqX7#rX@au_?y=@#(2wE99>IGbhD^r8eUf`-)
zPAby~3x#@BWlU^4LgEC=2{{H0mz*%6$i0>1QT>ROS#R0_z%Xy(kugjuEfgVlOXJMR
zC$A|5Y$&_2^KfJm(yG`IMzrJ=Q%6f}KPvkRkS&c{-n(`0R=V*SvGJKy<IyCpL#W%H
ztlg2sRSLC7=K5FM{`n(|{bJ?L<^JU(Vr6gA*((EE!rid{v_eY(*>U`qWR@|h<jAWF
zgT)4pu}wWRY|bg%Siy#fI*!YIIe}5z+o(9@cz+HEby7S--MIRf6Q~3^&tCYLzV{0Z
zDIYs_OdhjJwj0-v#7z5NW!%bWc&5;r|H_1W8*uYVwLe|mAy#+HIU%o3`?^G5*IY>^
z7n(I1ZO3)r9QvH2-z;-s+UaV@`1~1f%i_dxBw2kTQ@3NyVuXCopo-?$unq*u3b~c9
zp)JA|au`N-py#l<ot%saZ8RLjJu`qMbkJ)vy%LZVTFJr9$Q#gfGfM~Of8sy(J4i-o
z+G46&sq$t`_|2NR%57N-`K(-1+md1F%92C$_hfApWak>TE?!#Nw)l!zzbosYASc9i
zIQ0Wxg~@bQw^G@dHIWAe<!86BFv#}G=PQ$*9m(<?qOE<^#zITHAOb43W=;4l%tk?0
z&fAf-kq=0}V!mCpHLf}E%0^9~E`d9zwT3%P7$L9V4)jiYR3*~tpCH{v-5(BJ002Pu
zXBg3kP2VsCjkvxDTon`GnR!dt%3H%WkOF4>+KFo#HisQ=8C75cfuECigk9gzhf9F=
zOOdJ!sNX@TA6J9ghY9lO!sXCVmxL?$Qj}Aslw%B6f`BLwyAfjMD~cJK0cKVqjXUh&
zt7KhcxEel>TsmJ}JQoQd8R=mTdy(7AO7GT2MDvUj$5!y5=RV}A<?F@|7DVASSg-V<
z0WGURx<;lW^@nSVw<KJ*Nq9Z)mq#Jout^Fw)=F(f$A<T_*>Hv%!M`>!?P@bHN0U^>
zcK)eJ;l$u{Y%tP){<3_#h++<|oIrs!iF%#`$eze@p%*JeHu8NPuj|l`MuE^U;&M%-
zl%HZkCt`MSft`lY2%pUywlkmw=QJN@2WJ38ao7(UUAo{3=N0@>y1tfyR#^=k)3VG|
zYT7wo=)`r=&=LzX4f%nx+CSe=zi513765Xbt)3W}ChZ^7JL96ZNn9&Srhd?*Oy0n;
zYZi`OR*&vV<-;ISLv))ZnFJE)vq9FwxN1-;QTcxBna0A&V3;YF;1EGxKMDs8WaY{l
z(xqKuX;-FpXU4NP<J}K%NnDFj<yuGuC+Wu4>#m7#p#Rmwa7aN{TmqqzfP(IpK1Vo$
z_f;nImvtolW9%tiA2Q>=K$m?ptWER55FQ<R(nOk2&Dx=n!mY$~?>8>QrYm$$3IYrz
zN$4Jl3DjKSES&Y^V<jPZb`kUFBwevgL#oJz^Oh|ese)7|X}E|NgY3&unRYaYj)sLB
zj~uO;%DzuZyh-1oRLS9_^{@;f$@T?vcLP6CS>DVuty`XH$OW`eTkbTH+H&v2OMx{&
zo+%8JeL9tFgE0)JBf}L4(+ve>qYaw9%0|N!s(tedrF<I}kb1djKaIs!G!QfmaIJEm
zRK~jnmxpHRJF*te=3Aqs^BJs5<*RoDlF@5Dg`Zi2JMg>u7M#u3PFPdyl0^B7?T~z+
z_QIzq6T(0-<S($P%qeei77qvO$*%GnWWh~ij^`4MALJyYBV|Hm4BR2|)56B65&<VX
z14k+o_}FCRIv=_^Ho<PlhA_o2H8~|~F@8wt_EH{&&7*F!QYAaCaKr|O@E!|R^WP|B
z`Woq~cF4_e+aq0MHbz&3D`IPgV-=}w{%U<n4qV#L#V(;8ps>uGx8d&0oteeX<(5?S
zzB%WLqdMu>lG(QXTi4#dmfm($+;;S#Q`~kw={!I8>_W|Bs5z>(WU87nt-BuB#ikPg
z3+@tt1&~rsuFTC=JI?elI|kOib?1jQ`0y1}Pjf8G#EL<QUwmG3EG1Lh7h#Z!sh@Hd
zr!pf-lL<!jD*c#*5&XzANCC2S<wq2yoL7F4b_y+y_29&<vghk&XzRv}qj2&0$!HnJ
zXpMm{sBT`|D^_opDP3G-cJ4dp(mf}|o|DPyj#Tw2OcROQ>FkQEj#^CQYx|sR;8niJ
zLCmglz-k>YPx5RAtjoY7J`IyH!)5(wPIL^haWM;tux>=#pn1pmE6CgkTq<!{1&>O<
z!S=xo+XoXVg^HF8TMt!m{l8VRncbREginSz)>7;`0*GKO#SEinZ3tJX*}UG&+7Yf9
zMCBrinMTbzV7cN<m|&e^o;L`0@#casz9gZ;@p*96v!#jBgiW?42^(iiCM<Zjvv(5O
zm*CCH-aLttuwj}LDiW^os$89_57+%-snVn4-tJhJ%lL#`nnen7o!O*h?b11<2^u-{
zpe*lLh*z#P-;I-mg*^$E+A4_d@@DllY$<m9t9-U1PK1t}x<XAoTbZZ~GfO|&ops~g
z&S-Es)Is8d*{VcYv9U;$C)|muVU5f{yAK#)S2*hl+h(g1WqsVd{x#S$GsAoDtZ%j^
zcXTG<RND}?UF*Z<_avNh&Eri<GxL7bH63Q{fso!dTbuBPO*CWkI^;Das;Skirn=es
z*@i@2qCVkZSC2Nxzq3uV{@KR(7PZ*%7S)&gO*E>l8Yh0U;0fEq4t2+j2MQwb8n!3=
zi6#=hXsLE=Or`c^w)rV-@jtOG4%Qk4y%uXtq7m(BQW5a@lUlOnDJ^MwN=widt)3#|
zl4wkTC(=?psU<B5XR(!**S_|RBbsPVY)Q1_88Ft;s#V(z@~s-{2C})?>UrJU&tlz}
zm37md@IXYStR2|Hay8s<>VC`o3#_6pwH3J)12_Y@(CpT{w(e9@<$e=e)pq^=zrrwL
z|BtM&u;c&k3VZv1;3^hvl_fmNdh^Wd-~Q!9O~N+=iePrzQ`dGeh_vmA>xFh6=p1^A
z!GJJesv4gt*cAk)(Y_xUxrqyTa9PtV{NHY`+HZW+BL}mK$a;V`93Q&WUXJgPM<d_O
zABEZ0MC<rdF-)=Xpg9~T61Cvb;CWl3HPJSVBS*Qbk#fF3$pFl*7#YtDY2u?dq>}5<
z1y6?5_fwY{i!Pa1u<&Q7XB|UF^UM?kBqJqdx=ieY+}6vdn`Hf$j@|E=Z`))&92tyW
z4G$ifIlO^#X4)Ivk_;Y*T|TFNHzSr4xU0E;jR<NY_uk}i_^13I#${HVnkAo~>L4G<
z*5s>i>jXdiFew|vWh#QA-;?#+=J+Htg?)t*lki(|%VWWW4w^t+s*porB%y^db0w()
zpBsyh4MsxjY6SU;PBR2ENGaK%UJ>GuD90qrh%h-lb@i5H<DuWcXU7o3EIvP@mKmah
zH)Zo%Grl%5F~SRvs6E%n86#(voPP)h+5q+y1R+W<7O<%FnE>eUp~wjYWDPwXz!F{|
zhw-G7<a>>r*U4d0f9k0aCWj|y7>-m%2X`>)&>zHLbB6n|%JSF^CeM&c<zayOZs=NQ
zI5I+C7{Vt9w3M(k#wtQjB?Io~#+Sy(PkL5-3QhL2f*tbcg0JTB<pLU1*{c*kOkZ3f
zD=u6(A)5f8O)#%iB}8&tY)T=Bv9KcG!DnDtQe8a9)Jt~in7p?0{NT;Ca2%*3i)Lz#
zWmNUtP&_8NNGmgYCL0r%GEmAFUffZ(YSr}`!r_wmV2r2_RT}x!Us=cE+jI-eZ2!f#
z%Oq`%8jyZW<5|&~F7FY`d+4SNSADXvE9u<1YBE&V=gbiO?>R&_X(x|fNM5}3sONIZ
z_k!4Sd8u!q<-HyEcKk+1vgh(#Nz(U1rsv=<lx_tVG@rXeNA*a7vrF{tf&!<pP1b_p
zhOSKgwsidgvHn2PTEqN3Vtr4#{<K(snnIek;MCI}JA8ll_00Bm(wH@DnY-}seOu>E
znM!Z6Zs(6GcS3w|=R&5cCfTs_M^$*+F@Isj?OS;LNA4ZVT@POnyPwUtTV#WerPDul
z_hdY^3xE4Zo{r@U594Cbx%H7NTGCTLcJIzsb2ZztHQeDNsQU4i_Vkt>aZAtRGGDT0
zd#Y^5{nvkH(6^M_DV;aW2XUihL-XSHRDH+1J=4&(RDLhI)Qh{v=N*~4ZHvOafu&ty
zUB|LctlKqj%ar-kWvyaa>r&;?wFd{1Z6|+Rb}H*aVfaE;qkrx~rlxl8+~Ykb#j;)V
zu7z7mt)J{YkUaQoYVWxp4E|{Eg`~S>@p;kRmUg#`?)H?sbGiIS?(XCZSF#4Kyc&WY
zchlnOROOCLL;KPzV#9$ur{{a;-&kl`!6|F6FIi7ki<$=#yN-Q}_W5Ta&GR+9=e*}!
z45qw0Klat%b1z(7Y<jo$V_)Mv&!T?u+2tCs<xt9Z_+y{{UiG^^n7LHZ-R&E44K7wJ
zUVOJf&SzgbzHCqV4m~|n`Qq_hre`1M3o?=U&Q^IQAA9THbKG+*zPL29d?VR%H03?^
zaIfe+i_>pa9`wJ;zX<!4mam;7%gm8fRmY0A6}I|~o)up!^lQGJ<%`SDCw==rH6ctL
z9jLo}HQKOfp4|B0p1sz^nSa;Ry<qyJuIau0d;LpQsk*L@>znRfUTj_*eD{@)>$lvy
zvUq&Sz8n<Wj;895eO%vi@5Ogt#z^`67^(VZma8UJ*CXd@T6}(~{N2~(e7%dp(!o^y
z-lu1}xTMcznpy5H$b^yd1!UvY$7txed*@&h+4^8#vh75wuJ7S>vF`j&4SHWqwv}t%
zo$XYIYaY8{3of;Bw|(sb2GQTT<P#ga=g(++god5g$4e=1XWF}4^zL5nT^3T_gK2NC
z=<R*j^ziwV_skD46BpH)Xhm6{LJGO}ly2<{dd^$Ba5z=nHg_iDtdlSB|K`bW^}pZ0
z>`k>COt%~rTaG@|J?u`k;2whWV$1m-3<3_NS}s3wzVHbux81WPo4X(A9#NIYMep&4
zyB=OmdC%hblD{ME-zEBYrTn{>2SxwBf3oF4Bz5qd=s%ZkyeKwaOf_C2c!PTZ8@iLF
z-AQZr&p(?sa5YzSKbL$j#2f(5zg2zdi1GV1)t3#%b;J!&p)5SBfrp5jar_oOis3)3
z`~Lt@8#FW(1j*OyeP*^41>x%xtr6@d`4c3CsvIz>d{k>)BT0EcomjmLXLIZRu#PTN
zVV9>sq)w-#E>VXRUL9GrCnq!|vr(CnJBe6G$FC5D@G>0L{*zG^Bqx>1WsO+w(`K;(
z1JE*dV@4>abyE&L<O{V6ll+_p;Q;E!Ab1YWhtr;eBK`F}xB>^p)ecY6(Le`-&aTw?
z({+2qx;@L+Qgtxp^JPl?NvofcgP^_`9SLeivZ=^9Cb`$$s4f#z_?#O{t9;QdHbld#
zJ|uN!LrubdtOvsv^{~u@hNh@&ThTeFw=>{in0g7X@GCTg@}0ZF*Jw<?PR_59^XufW
zVO>Hc%w|iW85m_C-z+X0w&jo9u>55w9p*E(3mGByFXNp4q+<te%A7mD;;l=2+i*rF
z<E)y$m2BSoz=e-y`0R5op#HLY^~y{T?E`@=1=bN#l}yiGy(KFl74s{}gOBT8qhkq7
zu^Ll#kW6<e;8V{y9>zXphcD)hPKNWWz6Yp_e}qN~kQj5anq`1|4vL_$l^5Cx^7WBJ
zOHQVd{dfhXIgP6kg|AX5(f*S8JZppSs}!=ELQ3VOq|LiPVh`aC#S=O9gnNCDQ5te~
z(Biuf4;{QO<LaA|MjxPKeP<FkqSOSExMbS9Wigbj-t(!&*kDc?YqCx&&PkW7a`?fA
zv&`jLz0vf{(r&0uOwTOKKM!_4bbs&QXB4t(P?I2WwJ+1L?=y$Xv=w!D{8<b6=tzIo
zMm{@N+qf_z)@;wRBxDWpQx`=vxJ+)`zmhfJcg0q}XcTQNt0uf;8w{pB$(?;!4!=LB
z`nPqzSGP*uto?-Ev>RvR7Ixnm%bMtgYOG1tbm0_e*1`f{KvFt4{Z8U`V&PJ<)Gyka
zR&6ZeS)<P6Up)D(Gw+}I)`j;kkcqt?*{cI-&wkOf|IG_oquJCX+vYbVd(Mz?epA-V
z9X_VZbnN=nQEIARsr1tIEm;%%$m;g7Hw(R4xyJ70KCxkc)<&;(&Rc&saVN1DhMpu#
zd4b?6eOVXzO3=i2>TcI1y)bdv@p&o2gi|!NG<SiJ&`bVN_$4d8YRdF$0zo^ebZ8PE
zMaEYa@O9MA!K*{E%@6H!a8$SGGtumesqAB_@{Jj6jalVe6(=U-JM*Bh$M;lapeG*&
z_T+`+?k9@LXM&x1`rw#sPz2#0tf#43Z+>K_%#csV$Dq-sLx57ty6APLs4P{8Z0-fp
zNq}PoLz27hUA_QW{vZ*%jiD132l)6g+jx?PC6+@vb8wkiAWLN|GE8Sf$FAafk+A&P
zq^&F%TR!hQu<A9-xi43+>jMQ3wW#R{8RXjt<!@Y&DuI1lNg!k^-zeDnguLt$QRVZ|
zLLJo<D3+SFG}bA@sC6I;3@nXRUcVct6nRi`p`9{1P%N^kX-(ubQ`)M65<2BowuRzq
zHpIzS3DELtp%S)|Lne95icInqNk2SBw?PSQRGy2)<7@-_d^rPRQX>n?UmYQ~Ae32-
zvBRa3m!*;;lw-g#_Q_~r2h~opYsrFdpvLhXU!jwNNRW&(!t}in+(gC4WZ+3?MIc!h
zgRlZwGs(dEU2HPpEWJ*X^K0b1N6xp&`5rkxAcukckIDCQa>$gNS(Ql@0*;`>P@Ae*
zofOzEE--$VtcT@!JR*D#dGW`^?!nC(bUGa_!`7Y9{V7-W5!diB*YPp8^-nqHN1Pk4
zA92keaXlY%r$p}5M_kuO+`<3I?Ph^+dq3vRe6Ba^^grduDdBXdbsuqkNcXwkq|?KQ
z9-%0E@A}tgKH@q);tqVw9r@4P?p*%03cIdXw{Uokqu;ffI$im~^Y6WU@8vZP-nAob
zI?sZhsM$3RUR+{Xt1F*xrjH)2aqzAku0aBU>_yi&c-IbkboC3(?*;B59^SR?0bMQw
z`PZ)M_afvtoo-m;;9V1RR-JvmZjHmw=bj@vT-5<*?YO>1*Ojbkr*ga24%X}J$%dZf
zo-<+t^5Jdmm@a^@#=XgX&x(!b)}SZ1XJ68B`nIIboz}IAy4H-bE@P|9l()eiK(Al3
hf5D)u&lufFPuo)a1N+1Cs|E^Lbs+Ln7Rli8{{oV_uay7*

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gpt2.cpython-312.pyc b/model_executor/models/__pycache__/gpt2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..98c741d8e396685b7fc0bb3c91b2a81d3bf7a7a1
GIT binary patch
literal 17469
zcmch9d2k$8dSCb4CkFR90Ef7UAub+}C?29jk;0NI5+X&4D~+X^45k~zfOA0I1Byfj
z7URg)U?oLhDjSl?x&)P7Mbf0b++53zU0H7Ohn1u%nGv|2ahoc$V&%|3DJZ~}oXsD}
z?|VJn(-;j%m1Fy{@a7%g``*#-edl}pk6y2fLx@}6kNvkj9QPNL(Sp5{Si4~2xT~DN
zg*bs1OmRM83YmCHo8#t$C1hb~OWYc=qRbk%CTt-aE3?Jz2}j7m()PGB;R?A}+7Wjr
zJRuKDJLBF&O{gZ}3;9^y6|YUyh3XRZp?a2g#~Tujp+=VW#G4Y$q2@$Os3p-FYGq~K
zcw3@9)Xvg1@s5N)<Y#GLyfe`i>Pl=0ZDIM^cp$Mgw3Vgn;@yd!P!H1eLPNYa(HH7V
z^oRP9Zxov1+Y$qzfkZGAWclX!_QYUlFfkMwN(_gF6C<IK#As-g=S<vpIHBcTPG}Wv
zGk-^0wDRw5vziX=WRPuuY<~jeE(X~FNdFTccZ(hd+X>jN$HU$(4JkCnT5Lg!K=l@4
z@V2Ei=BF6!R={>|0z06?J}vZ!CUKAWjA)&a%JbJ!Q>Hc~=}+kWc5qV`q3>NwXx}AE
zuz&u!W63E|5|dGJIF*cF3Vi3}nc-c5L`o3jfoLi*8%f6|<6_|LSb92ebne`_Sn}L>
zB#Httc5XT?k9<kv2=a>KSXz`K07cpsljE_dIDw=onMCXY)?J5F$*I^m<eZ1nX)&3O
zrKqY&o|~ObN$GGpB}J#h)MX4vOp5z(BswjsjTG0}csx-;U{XBi#B_LeHhfM>&CM#k
zlmkLJC573z!?O`75|4}V@Y^XVE`;USJdMglaFJ*_Je3TZmBz!V_*^1+vIKfOmJ}nB
zQg`a5vz0}!q~6|G1YEx3sdKTkd{Rn9MHwBVsQ%Pk1e2P_f~AuBP;2z2Cyt5{L1{jl
zibf{2!WR>hq99;NX(0r0Dl!*Oht-u0$5RnOB*YEJl33b=D8wRZ@eG@%{3S>RhefJ6
z5|i<XqSGf+skkU9Hud*QUaf9AtuC&7SW3zAi^*t;I#XO)@yU}xt5SDpE}i<G`Z<rY
zPL-CJOzWG7$ui*CdL~2+LfMvxoEO7lVm5s#95W27wEl8<3JaW)E-7vX7>`^MC0X$#
zB9|t`@T??G#V$r^!)U=-N~~p&cn?%i<U%|sp~=b7KfxuKM6+NPEdoCedMQ{$&_I^5
zinb|7mYd=Q+q>S7U9gLenR*Rv`B!jMFUJ{h;taU5+(ka*KFtN)ikCL2zBMNlTa;~B
z#S^8Ch@DB>SMj_>pIOV<N^`Q7d&ICgj%d@G10U%J{8cWkS1#H!+=qbGXa>(^_?Z$-
z(1DQ1aAEquEC9l$rOUqy*0i>EI<^H{#+tFs16ttE4{)4p`Y!hyJSzh>;M7N%;i~p(
zomb)X{s8AG_o<}>)4YS>(>NHHuG8u^!CVzj#wwUI=8WZ^;=BH~>5lbwsb7p#pIf@=
ziI}UbpN`kY@RsHcylxF!ng}Kf7%}6~T3#=$GIPMzY=om+##EYx9lbdWv+!!Lm$;yF
zLZVN4PAz)$vorJdk!U!QPA6}f70YBSB1`?KleQuH6;;hjshM9{M+hQlQLJ(_f&<=1
zAUa&I2IX_JIG2tvj$<qx4lC~Im>`HrM)Z`1<XnRKP^oQr8Wc#DXkLnwYFJ)z&`(&1
zC8S}(?xSj(Iy9-al%c^$^tlxa8<0b>$YOj->ZKMN2c`JZsdOYBE_V=k5^+|X;czq_
zk>zk$#?ImbYPkHX@zHc*c62s2JDiS4Am76m=l1M<=KLOUG#;BAoxPNvP9;Y#fHjP&
zgkQWUMnTLZH7k#vn@#T;nY|>90_lA7hVwn5t=RLZlkFgwe|ec(ui>0Ei}t*u^?{?k
z*s-<HF`Vxh&RQNgT8r(0Li<?0eJtyHIQa6);HjKrpy=z$Z9SCt9lC$&Gv9d5F`n~{
z7uyDML&x)N$Fr6XYKpD?LhC@jb>Qa9`PTg?@fMrfuD*HY&E+HcrUB$#Uo>wkdTI+E
zf8OIq;-eFbCyJhqVqH_Qt*_YZUwZA@_i_z=>t1_{3*hecTCQcl*r3$165eeq!Pjt2
zU4(aHaY931-+XoZmF<LI>*Cd1Ll3%WLKh!8*RUR(;?=fM8cau4Y?7Fslaf)LDglO0
z6{B;%hs0ITml@(Z6(PglE|tE4whN{ObH+4NlH81-B>CPk-!9>Q0}u<A1uG~TH&Z&j
zM(B)%sG24LE`X}e=(MN|m$7f?+m62Np!AlBFKGZ@{$B*JP+N3*E_q&7%s2r-i!_ER
z#mdU0r;(PPLKJjJkls1zS*kR@b^e0FhZX)Ug+H(G7Zf)giEwHzJv)~+?%#m4pWy9N
zDe3KqB+NH$+<>LxX~4*@A-c@1Iyiisjw>D4-dw30T(o7)*;B>(rmMj#!R4JdyO)A1
z^}~zyET7$(jTD>Pug0##migtK%aN7lfvmgO*7<SA^^WCVTWQ<5Sd(=xohtg;bB=cD
z0Fd7@PfRG>Ee}zOWF#SiQn<n-F3rU$?Fom$*Wzl8M08jp5-br%Rm^f)Vn;}^G9gW|
zsZxma64iQ3XE!Rw<KgfvUfPFJnLhgSZ2nRYk}P_TDx!$~@?Dzh(2nA+r;E+4U%C6O
zu1B@)t5*E3+PIc(oQ~#!RXb%JTubogSiX65)k#?wSJ(JUf?qw!JFFd#TKrctS2C+s
zq|wsl`^dlO|Jsfmn>6c{I@E*4SJsFpSIQd(Y2$BF&al%qIC1>sgi^Obgd#CjC8#=q
zj~e$rQAXOhYySyRg<OGiQXyBEs&RNo4f;933E~C5#JNo1T;|)Q-oPhyo|@J<W(Jak
z4p02r2v0kPg*34b7I4mqdsGDNL>hTKxTAIA%)Av$Zz?JU(Lx$T6m&@=lqTXW?VyNw
zuVP_Pgqj^qiI}X?0I@T6fr;MXsktOFsia~?VbHFg+}8=7aVvdsRh(?M(xQ}jj=E<V
z!>BEND4kW%rjh3meS=jr`wPtj*tA*q!$#2OmZGQANW&R{b=!!*e&7U?AsXIEV2`2O
zja}EK3SH0SyPjET*bBn!P`5OZAn72Y4YZi{1=|}Jk@%Lhm|rk~Zc?j?P^Q@n{3i5w
zBUL9%{AunMKM^!bzXoj5n-nq1X)aSvX&j|8b%?cA*O@5DyiZ%_5=H!wz=&vF=87F#
zKHhtM@A8`~9lODmv)-k*z*9eVTz4#YuC$J3y#%oT`u^pGm5!%00G~hS@UztlnkJ+Z
zKos;yFXKl#Nzo}piWx^wrE^5$q*o|n8|^fu&QL^SlU}9hEFvRCBWf*CB-0<&5=C=y
zyZ111)?(fFsH1DuieC_=x{g&lr3{pevMME`)Gmv)bNSU9Z+!B`Du?7<@h9;g$G@he
z`o*cEDE{=I6R`}6Dv8+NveM+FZ}&nx6+J&uO&Huj!042*O*#$kP(i@HrDC)IqE$^D
z`g@-0<w+=x8S6X<+k&mEFjW=!33C;Z|Bgu$N<gx7;%QKLcwPKAgD6@wvyG9!{WbKg
zt0?IfZ69Q8AjzuwWUc5~p9e^*ZQ@I!=C^poEY8Z(5KA*PW8N~7h|dPS6=YViC!tIv
zMM)xlpg50{5<iiW5=uSO=fg>)!@w1bgUDLq$?#5<$CJ3k^1ImKP|SqABsnqC+XsNM
z_QL3|;$&Sh^@EXOqx^56#r66=)2Z<ffK9%R=rPo|*gte5`AIU@|NPSU)ro&NaX<3u
z;LlT8=NFC5SC3ygzT9!Qzp(42{H~WCG?KvXeAu|P=&4^izC3iV|6c3;rre(IteZ_G
zx^3f{TB^5dXur01dFp2T{?z@~K0R~)xd#oWzct0agBgHgtJL_h5;UX6bbu;ChQFiJ
zW5~FWu;&2*XccFPs~a0tP<VY?mthPL7Hn{fh7t0!33fdu2}4>wj~1$!9H&$QQP5hZ
z_=-ak<(L4;Qu;2cl=dl66v8DkAKsv1$TUpGgAJUauKd+Yjcx!+77#IMxp8aOLHxjZ
z-MKux(z*luKoyH`CYE9=%?GmXN3A`})A`nstoKnv;2Xew!5goA^4iVBO5cH;qx(^7
zAlLJ3zV%t4Df1BNIC_&ND5~TGlT=92Kf<4U4pF6KTWdYTGtrh3M%k9-4J?7>Ri40-
zy*_KFF5Mz+kZzGv83XmafibvIKw+&5`^d-`NW1zW{0Xq7Swzc}h1t!l@7BPhV1xac
z<f@7Qds@|U*v%ZUn>jXZ=d9jNaEVUA%`A7GO(4|TP5Kp`)ON}xc*$xf)QE1;BU-9s
zGFZgzqF1z#sR!fsp=AxT_xZ4kYZb=2PLQFS$p{jCKgCVfgpzfS5y_}_BuO>J5L6EK
zuaWx!|DO3h%X`)h2EK0!;#CcN)p*$VE#N>z{wl)v%_!IDf4TDe)<p}rj4paFTB?0W
zi5US=S49}t>#7(|^}5D#k6H@7YFmvf8`986y9QDIg#g)H&S|MdYsLh#9}m7|GH^_N
zBc``#kTU@-RsKa!-Q}E?s@{`<d+W1IZ`0ZU(}0#P|3dG!WUW&$JiqH;<5bO)CDKdA
z39LYq29LBpL!@>7Y?uRSFBPHsXfd8$6@bXzu^DEeuW_185-bSzb39r;qvgxLhIXA=
zDP#i21bF}3Y4Mh+%#QVqPH?oT8t}J9>-+;Vwzzf-xJA<<zi7^I;5j5$ATXZ5jt>~a
zBnrS7XoXe7AmjX`bjbuBxP19CBk+pjKs=I|6e0)bdzt)C2T|wkBL^T-M&j~8Bvhyz
zVIVUzxcv|JE}y;m#=Qf%lV^X?@jXTi=S?HiYzUGF7?nMBl?5BPAPB!^ws%fXX=l7F
zlh8n+ND4wYO5T#P-Bj7ajIYdC8=fS`#|3yb#IPz2#e|DWizKEbcx%Fuq!6B)jYed6
znqU+vi8vy;d6<Yphe>f=ARmxwp*7<xl;kYk8Kkr%A{WE6DLF=JEW9lxClPE^Z^PId
zARKkfysDadOI{YY3?pe;9hKq~F%njx@Y7NZO{5uWN8;L)M5jx!G1P*x<q19=O@&Sq
zk}BU-HTV!|1p9ve`RCQ|tJ++d*v4qA{%QXZfN}ua>Hl2j9y+|5we?Y*zfc#<*98l8
zyYqFsv$kSOccEo8-!hu@7?O{g{bUC%HnbHQhCgc<&N+s2zG0T#`&q-@oMUg!x0hvi
ze%7!v=h&I^?JTx!DYOmd+Xm6H=3zq+5?;a6nI{cgHH>O@&@)TVtvjuaq@_F7Jsf1j
z16K|#+X{h$`M|;ZmOrlfdCf}0%T)Vt_d$lGH}C2F-19xvQv1r%v+H)tm@Dtt!A!>2
zdVe@_v-eK_x=Rxr8*g-d(slQ2;i-xIQxgvw36=BV=-HyzpYwEHyYTVC^@TOFX$J=I
z3&#-K*CZdqtQd~LaKE|MPh0oNTK{QI3Ih;_^fG>M_L)udeWYcuGkiVuVEWYUs`oqJ
zRz9B<RYht`hZ35)ui>MMix;msSA5-&rPRTD^i7QMD~%h>U8+++o>083Ct2O+@&=8O
zWJ034Yosw6iO_8nQkbEER|IK$#&WstNrsCB@Xo46W0Pj0g02ZOGZTDmNoU4<S#_tG
z1)c;7qdo~tRroVXJrzSk7Nt6uE7xkK>?7Qpz_egDaTz-d+$EyBVEe#hF_2(=_EmVg
z>`fElW&ygdEvBmmr>Sq9YiTeTk)fZAO(o`JWeU0_H-7Ma;MR>vAZb!0d0zSlD3ks^
zMMTe~_bB>Jihc``;sG!`IVD))i&7SmrUuexlRlzoiJ~ir6ra9H*zS^5E4x*tY6f-C
zXfk4ofl60Oiou@&m3$Ww^Wu0~-#=JzZ~M%>jU;(rZ!yqY2#n<eV|QO)2|TytEp~N(
zJbit7IkVC=mVLSC55hs?-@ka`QNy-e!|t4CH{zmy$K5S?|Do)OFPb{89r<|t`uOsZ
zLho3<ckHh4ljM(+f70|~_QgN-Z-wgN-?4aN)yy@I^XoRQ*8l#m7kt}4^KF0F(0|i+
zuQRvpJ1Y%GbDpD*HtH&6B}1{7?o({A>Jb-a+y8jQ_Q!{$@`@nv5T;67M*CebrRfl{
zpluuIh&(phC5~f08TeV?FST3%gBC3GEAb!r40d816itjkji0nZ^#BM~V1c<7{uevi
z@u+oVEHj#UO6wNCg1*IM{)6_6b%r)pMbJlQ{a_HAoy@u{WNd;xtsfcfpe(?-o^ikg
zV%5e5U%GjQXi-JTShTg^xexxX1yI=Hj)`&Htf-a5MCyVV7UpJgUj>e?c^C7yj*vTc
zzD`XiBJz1~Zz_Uya}3y3yEEB2;lowGo8sMgYs0Bngjh7K)RIR<C|{re3zx;T)P=T+
z11wsmdo>E5R_yR@LSm34I-syz3qsJT(&wvG;GV@jm4pl#0!Y2=YDfvItXQZIy|6SM
zD{G+C<JQ83oq~3!gdnAV0)#SsB(Q5WsC3^$XiJc?>Md1In6Z4F8vk2FVBXE`*TxDR
zJMtYn?)T+7cC2(9U1>fB3wU?m@APH8f7Y`-@7a<)vNT-ubzDp5eLcBt`|b((Z7+~f
zwCxLD|8n}~nFqdI#oE?Kja!y2`NqENi)#*U+hIOe+g)tvyLl$xu(R0cFSc}CUAVHa
z{Q85IQOX8}Z}>j(tps*n@vgcF9K5=-clpJe&pkMBYQ_Ib_Qaoh+OG92cRuip7Cmh$
zufHbz!qc-l$n_4c4so@ex`nv5!ZIuoC9i4^W`vJXw3i5k4j>$2*gB&0+f;CqqE{(8
zi^ym%CNr@_(NC%3pCf{u;L)MO|BLIex|Zix>F3_=U((O&KHl1Mv*}0vTmDrJ$$Nc2
z8~W+c8YNe4EwBkRw31Ll#$~bz!2cD$5+?(5Ck)J6cHKP!f5EDgvM#Q*lbmDALcV4D
zs+)>DB@bDybujN7T=P=dt~OYokKTOs?(TcmpLu@j$?ZOpAAT|4JHE=H=F{Du%K!eE
zuPLe89B39%{OLhsach&HJb$w`2X-T<epAbXtGYEnaKrMztOvqomIt-=$(9EzvpiI_
zi)>~uQF|^~AKXGMtQN3HR3GUEyG4y|x2S{N!pH0uwV+%L3UiknXV=Nt`7B#6Bwa+;
zl{u1+NHk|`<Z0w8?C#cYI1azHy@J?CHG2glE2xKt%SL3SAX$M017YWl&O(9L2>Aw!
zJMn+DU4xba^Q$6l%`|HD<=;&p=?qr{NP1+CsI=f~o0}x3YJKXucp05E2H4heUQ5mB
z`nOiXWWg#D+zfGtilDJDtfW4s^i~ZBjIYY<4Q+I`h_O}cu~)-X{zXr^y@WYv6?Yo)
zpA2yeJOs*vzSrg*BQTlKB_inp+6NoTYPSR#gOf;vR_zSb4<m#Uja~YEis-va?@+V@
zkzz05QX0}RkuGowMg`c-3e~%c(q(EyQ&Vc=>^dghnNsg#O5aCu(57-weWV5l@IKVb
zBwsNOXjEBSN!u|TFI{o11A&wO3!1<JVNhI)k5gPr+NvLSeI7X49(ME=TYK&tzt?=f
zb7kmdcozIn^>DceLSt(`X`?SKzEtpZ=RMterYG;|(J$(}mTTyThT2LRst4p8E%q<&
zFSxgV=H5=8&;!>G6yPZB*nRg%VeCkL4Dr$Y*wK}aW7#7g9RDIPde>IiaVWpz&`RJ1
z>bUcfcK4{@Igs}pfC%gKYO1I7KIZxurIXA}OzFgLWvC{emR$-ZMHHKe?EuDDKLiS+
z8p`yH`7M<nqe1~4z&BYVX_P6T1>csuZ%e^9n)i*~g(A8y=h(;C)`a5JlnlA7d2CQM
zby<4^*f!UtRcD`O`GSgQ)h5HU$=oXKIktBH3aHB6F}<d|=Zxx1OXW06O3ff`xqddi
z)f%p?Q@u=9^fWD9%5^_|&kJKgn=9*uAW)WQST`Hg2%^1={*wV=)2UU}rSZ*(gCM}g
zZ_*41Ch4D{MEVgTh{Vi_KnkN`Q;*>W7r#<NSGwoYFqg42I^R_}*NydiXv$=tDqV*v
z)b;1<AS&L-e3H3~Yf*<`8S*t{y{b4u!tsW=(mdH*Pa<Ko7(j^uW(rV=2!e(3o`k#1
zRQ0NvL4Q`wCuWIAxzZ9QQ=x$-mhLw*Iq+6#S(xySWudFw8<vGZ&HF3Y!YFDVq?I6h
z8^}#v_wv|E-9Xm%us(Qm+e-betR1UR@O9^X-OGDce1kd1AX|}JriqDQ-CtFv{Uh|o
z1Y7AArJf+xlEx-cR7)d$gapLeB8jz4s#uF35^M3ZI>KA`m&MxsWwCZYHuiz%`Qq@-
zuiP$!e2X-;bz>WocI}ii$hVZOkZ-A|Qog0KR;#sHccdW=r0O-XYnHszzh<YR8nbn1
z6B!sanhcDjy6I@jQT*w_T}rLtX-tI-95M^0kVSys4gNPPZm+}NR`S2u;eWGlc0XNk
zZhCLs#XMkc<^i*90;RtRnKB6;z<W!w^Cq|9;ZLi6d)_D32wvv3tK9@bt=(+2E}`yS
z>jvqyleYYLN;)mRHAk;b4%5Bg*c7SXFm^}Y!U_^ZfQhyN(7}LQf()=L!aC@P%SF8V
z%ydjvYXaiMS=irYdcv|xZO&e;%;ISTUNHnv7m%YVNepN=#N@zmfQ(gvbn3jAWaxlw
zQY7d(Srl0JReL=IRXsKdswVGa&1fVBQm`*@C>e+)VUWiR1F0#)kaWBy5+6vxq|fFq
zkLak_Fo6W4!`%yY7?F5%E)GD9O{Jt|aQF)7^~X1QRUd<tr=qPyWtV53s6vprfRWXq
zzh)Jpd^IM+8}1sKHc<zNOS4c`9jXbm5Quf*RcirpyQ-KB+gEj!r;3`e;d+lQh;P!q
zigEze$fBB&)4Dofa1#c~W7SenOsc9Acr8(4%!c;eTC4K!X6*&r9lK^r`zvB_lrad-
zADVCD<Wi_m99$EMg|6XCe}KC2ph?<}U&Sh<FU_(?S=#ZUM+~L(B|!Z#LD|&TTJ-n<
z#}<#aYS=+l-wMR0E=ivPO8O6oHc>jrT47K%$P%j9)Tdt3B4u3UMvF%##kj1v)OQdx
zFosj{s>e$66p~UWk*ulI<Lu(S8fb<-6vabj+5{Av+H?~Q<UbRp%{7qz$C5~0A9;ni
z?w3II1bxJybu_OG9o?XHG`C)T{mScbWvLGjG{0C~bFsd&P`^E2zr9fZRKETxC>_nD
zbht<i?JczK$hYn&v>wd29#rqj_y+JCBIg_UqPh2r?tw!0{(SfTV&m4E!jEQd&7jAg
zdZ;*^Jq7=0-VYmIsp5V+sye9(k1N`S@@+%qsuonW*MH@6d280p9(v92p<89Y@6+mS
z?hE_>R!gLRK^;`rM}{B&X)3gnS$rYsUlO(h6m2f7(q7n1SgrnEqAa+Ug>oV(sul8Q
zNL3Lxw?BULM&XmpmogzV3ZK<Q&IxIwo>N_|BISNl-GlB>!fI5$QlKhUbk)qFs-eth
zMD8M0pSnjWW=+*~c%wem_xOpHSnu03$6+={qjuH2rP$V8Y~NPg`qZkEYYVP%R;FZm
zj7rwe(d-*?wqg&5g;W&pDQf8fr7Cx*Z&IINRwmx6%G}I~OswZI_mBS_Ra10?W<YBJ
z!TT$d)9P4l=34zZOCvKb`&B6%KO}|YXZ675Qn<~ui445Pp=PyK7t*~3AsuOhkWM*+
zkWSeOA)SgeA^mGFa_Yfg^P$tB9&1cW52U;H;BRdn(Muf9_7L1oxFy4!SM2I}wTDL#
zAWC@TW-w?Y&JuD#cb3WYuz{x@=+b1yG-dk7{8b+AqA?41iTi!?+kDVGG4C-5cq6Lv
zi$}%m(gkzlKow?l_+8*pY$f-$85zii%)=u68)R7Y9(}h%$o&r@-fK3lEwJdpoueu8
zqQA5F&b42E;2XJ{{>eK(e&_zB2YXHx8@A$2Ov6C-NU^4VX*?TWakPJBN2~wMF4g?T
z-u--Vzw{^6u`im!(`WVoLLP}sMpZwBGlpv>X>3SY_1d1MkuY{>oR!RO#49y)2acRy
z>a#)h-CqYQRG()vadkux!IdL;5hP1wrB$!ajlkiAXR_++Au^dNTUbLOhDSt9Virco
zHN~E1W9=|3(w@{uiG2(-!EWkkPx(evKk!KTfrt9yW9wsJA@1WbH+wF^o-?Y?7zZEM
zqSAiI%!=C{(}Fz%F1_|vpGob0477UVN1r(36Z8~YwSG3zIt^EAuC9e@KPb5x!*l5v
zJ|puJdRZGyL6V4Uz!AtEU5}^|h*XwZT<rP<9%zfQ)In?RCvdBZj`0pMJhQt&Qh-uh
zson-n3U9>J8{V%`@gzk|vLZ#8(IJ&|y+YYD6wyY%RpNU4k;Y{&%mio-O8*mCI*c;@
zdkJpU%=7$L+c|!m|F2x{=bZm9IM3%?<L6ut%Rc+(-00UPGjIB(gX5q5+GOEPUvY?j
z>EigK{O8=bUU?F^;s4I<`g3mY*CrbvI7I99JNb^K7p@+=a%`PLa($Zb;ybgGAH^19
z>l~8nFYw)b=aT8F^NMqwLvr=I_<tu_)=j5*t$2;2^qLvPtE_lEZraHYElsk=ckP6C
z2zZ|d(DDm6j(u`0H+p29qwMN92GUXVHZ6(Q4lg&|@PFdZ`G@n(BYE%Wsu@*}tlq4+
bbog4+$Nua7Tw`Cpray1pwr)igBa8nJf+)eP

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gpt_bigcode.cpython-312.pyc b/model_executor/models/__pycache__/gpt_bigcode.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..de9abfd143a479742fe792c9acdf7db4cd5d6362
GIT binary patch
literal 14468
zcmd5@X>1%vcJ7}0<P7g)h7>Oy!`qT<$(Afj)?sNy(UL7|y%Tu{qv<9!(j0X6P?i`n
zP<9n~=p!p7*oZ<Lh{`Tv3No<VKUwXs)gnLEIS_D6IWyalu?*HhU?2hLkcJnVAIbNs
zr+bF8P1!#ZAT6=_RrRZ?uIj4yzV}|u-+R3-4p+kRc04-BalfXFcG-)>>Zd%%-Q)x=
z%n7_;O7KZj*u)cUPMDLHu!Yf<gf(nMnKfZe+QK$gW=q(Uj<AE#_JlL(3cDEXNVt=p
zu!qskgg03gu1fmCK9+YS{K@KYb+RU0!}9J#ZL%(0$7oNYKG_g%NH&HWlTG0!R_0AK
zCtJcTjIK%qlEHA0(Y{1$vMt<}+!Wr#^8Q47vLoEV=;}mgvMbyLx<;r?bSF25Hz&7*
zx3GL&Vrz0+cv~_Q4kdfSJ;~m1Z?Z4k$8#p`1x~2H#t99g?Lt_aq|*JKS*61RjI$A(
zO<%z|$T*w9+42>fL!yWA2EZG9Jny~YD}|q6HCj=l&A5iRS=@5ZT72v6S1h4TlZTF_
zMny?X#l-$}DsiR#g_EbBkB=Qp3u1c`NuoWLPL4-2@pB2W{f&6$eEZRfv9Wk+>_{|*
z0x>>zJ|ho&Moorz#c?bnN>Q+aw#DT{JSL8SG^J8V{iUW4rc<NwF_bwEWHMqZ6HgOE
zy*x2Ko|ZC^Oj?Sak5I>PG-XoU2cxm`qFPCDok=8;#Rg1@XH3jQ#>XRLQhH)s>82bS
zl+#j#y?tanDn%0sF%fwqEhU7A9G|3ja}i%OmWhm}LT07zU^+38Or0#U4#!hsR8p!>
z9Y0f9^iukb^+jmQH=G`eXXKMoIws2K7)3RwCZZVBB&IE$(qFYouX^IB7!{O;GwE3L
zoK|=^c}^4rOe{@=AdW^S5}AlPzmY^bDu~o@?XeUlI4KJ8XhuBE#wmY>y~<&dJTI%W
zCl9AzI-t0;+{u$6t5SVnB9s26`mu&tV@hLOrg=-oWf`5ac}j|CT-ln8UKAr@ay)Y-
z5-;nnIInVK6cd-0t|)HCn225xC0X$#qgT#}k#R{JjbDzbD@;wD#mwpyh&LftL@vxj
zw3wV6{S#b*Ni+*)(IW7Z5I}-Ogiv9WRkV#dvfL;y*sgiQcEK(>F4UAat<r+SxO~(i
zIImg4t}J(%54&IHLT;tDv;_5qH=@{LY&j~P7%elbJ6fEI=XLssTFzD+S#k5Qo=K3B
z2v{{C{XTz_%cw7ebjCi#y$fD#Yx3L_f5D<Z)`=-DV$w3;uxWJZK5fltGpM(QTKaoT
zS*N%QOr)3U5H*Rm1peYSj+0H_;J(9e$cO&Xp58NBGkQ<!q{^qM2-LYywZ2En38qO0
zYY(Y<VN?d+3_a?jLQ4i5l1ng8+XOQ>_0gqjr>xU9@O!k@OZRd<<99=8U5Q_#CNYz!
z>(=s_W{m>B(M%YQ8?$Q@EK}ww%b#<C^)E~x*zOf)3T=C}7Bj6HwPD)^J?ib+S-ZtA
zk9K`pYncv>Lc4}@WAv@S>(}a)?kF{wr72T!Y!1AGvuteDTFon5$TcF-VjfeAmVYKS
zf;v5EABaVwnM~@gS+SgpM`fuC#Zott-_oOTDShF$)&b&xq_WDfXhKvxsflFd;-$!W
z2ufM%qzZbiPz|^y#v!U45lE<bCK6HH=i`DPrkH$JYN;~XQx!|G4Vo6E{i}3?;-tE)
zSH(fMh!9UoJyh47ghY-<UY`)9D^f3&*zkh%n7#vq2pgnCQ%V^cmPBhnv9O^z6pJh-
zMkV@G6$4UynRF(ah?KgnDHUjwpg1FuSRyLRk%&y2t6jaW{`SORCOJMh9v|<|L?!68
z{>u})p5A?NmpGV+pBo&%k~yDF4PJuI98@);cv*}=8%Sza9vmCbM9#&>Vo>%2<5#49
zv^^O#kdp)2WIqcIIRUNno2%Sf73Zv)vF9934;?LqKu12%p9}P7Ee{<{g_ibw%g$WO
z&aCgz(CMY2GgR7N@U_j=<vWh#@ZWdj!;X)9#}^&P7k$SI&D-V=<@-+M@W1&~*78nO
zp(&Ve+LmkDHveL-X%9-gh5F{3uibcU?oh6N8}hE@^&Pr>d3WF=cc9SGx#(#tw0C3=
zee7vn?igaZ?)R(iRAmo6^t2WlT5cw9B<F<umR&jgZ`g&#+>aWz7CipECz$gDL45DT
z%!z_0P(VY~^@Zlmg@)kuS7*PuSi5=6=V)|MjkP+iaa(zvV&zJHx2?!u#nrb_(<3t@
zS`Rf1H+ydM6q;M}%{{qh5S#VBURkW|LSOah>s{w6CY@8f+A_~T|I3O^5;GH0Dn`3b
zyGT4Rr363@WsB{Md*wC7-z%1$McrxBw0X*OfofG;sBIvSP^znoQUz5(T+ju7=?VA^
zO2^Cs|AFaV@!ij&_i4+tD&BQrT-Jt#M68Cmr=eai=wh{u%f4=0c8tpo#cv+@?7wjV
zK$)>$Lw4y&RDlo~PsB6Q0BC85lAV<7qU0$gA&0b^=zT~O^XnHcDSSlXUsw2x3V%s)
z)25E3Co<y`nezSEF6||L`)FEvBPt1#0i&H%d^iqH`AsBOxfKV8l@PcQn0;-jx_8Ew
zHD^y1YU*!>ZiJTob$Ne#&fh+FDBpc7hyVU#1%KU5_YHUPwqmz<t5#fGb?u6ms|~Jl
z_FC7BJ<DgG$VONETw~y7{6>6^pL=31y40{O>&9xk9k>;k`@N;+CuXX$?(3%tzLrHt
zi$pv7u6blc;qH1!xTc~>5yI6KAuv6WAlegw1dJxsClW0Ki4?g+8eB2U8HouH#mXSO
zVpB1y^bLCIEef!hm`Fq-cX??KN@ZGy``M&P?I2k~Qz*xf{N@_XOy5vp`%{I6rqA6^
zSY6Bh_7yAcD>kmN6Oy1|+lrmC4z4jYzcbe`xZ<QNW~1&4;$Io%eb&HoWANtGjj0tY
zXw-E1z89PcerZRJ4Vv{z9qN~cPF4xiRif51%=&+cR-NkFIWc^4M5$f}#mS6OHAxp<
zkLl8wjtEgg+YK9vTm45Q7049$sREgrj5axNXA!{wA6ch(fiEHe6A*w|Ga`XPbODjk
zx9t?rrp|Av;MYY*M#nD@J_blc+sf!e`x+cjhIQohq!qYfG$w7q=%j5(LN2L~Xi{G4
zh9+#PSQr;I&33dz5<{tl`4YdxOtZ-7L<*U7N-?7la)E95SBbxa5`A*jHraZmNhzvc
zb=5M3S)+d{T}^%$jPeAM-%*nd!F<CuEZnU7Q62P0V*x6uOlL5;@3xWLf5!<0OFE{N
z*vfdA9xBr-b#1ew`L^A;w%tp$PeWfg)MZVwOL`8;Iu$`HgRPFsAik!G;HOOxxm2s-
zDyfob9vtPXu*g~BV9JJC;$P<O@*^R$L|zr?EG10jnoA;AI*d}8I>c<NGfh%tvbr?W
zMKSswF_Or*$`t~eZa;nN>ABaI0y}_7vfk^j14Z0++;YsdE;S8iy~MER)}FcPrNEOK
zgD<$~2(tMKnMR~xG!*hkBe+Q~QgRZBV#fAUr5y=6=@cbwvAsmp%aqXDNvA1!1xdMF
z`z94q@*R3`1_{YE7q?><6KajtXO;tPD^}bgnyNci>_nBxGs>#+jHvAvYwO%A@1MPM
zc7+4EApRur<HVOls^6SCis4Vcw9WJX!2tJ_)Zz1qbnN1Yy3soEvZdX&PL$DpV~h1X
zG)09d`<h1fG{lz?V);Xlad`@^h$$->hSRo^@oi*elVCJ5xJtMN!b=yU8QoZdfYb~s
zGsL6iUQvjai@N`Xo?Y4+$TVuylns5C%+&Ipb;A)t);97Pz0zGECUIPrLX2j5X3{c{
zOpJ%T6#`eWr(lbvL`fnEpg4!gEi{srl1dHp5Jgg;BWNq0fVj0JQjsTAeZPy?DZia<
z5yecc7oisu!t2)tlf;UXb;XP?CX`9vsY1E^YME4Ss#tBhZ2lqm<y%M|Bby6b`rc37
zNiA;KfBneKkv|!E5dE<C=jp8T)4GP6!#9TK0t;L6+mGkAAAeXkOp^Lh9qfmi>%((>
z_qW_{dQiW(>xDJ5sVK#5Tz#W)t=i!1x8`jNo)2vgE`OML5P4Yp%GZ|PA7BKK->PgT
zAXRadBrlWAhSK{3-4p;=h8Zx4Ho&d6`B-Vr+SC_!sq3;{Em-CjtwjKF6THC;P=_qi
z1=LW{_C=x+NJ7?<{8t>3D8~h0P3agODJ`R-C`5`PKeEmalIb<s=P%O}jg{ZNSoN>L
zD^q6-bk}uc9i$<gx14kROHD)25HJn_mkTXhSIk^v`zmLG@#cm&Ztk8tpKBV(dY5b4
zf2Y#s(EG36d38Ryw0ZBMqjR~beX;A=T+_2?uB2V0<LFg7K}n^Ch*BXXKfs?nhNKet
z`mJYp27QSr$G$9IrYu-q)fSBGuC})7=ofSu`bADv8PxMSm7$4()lRIca`a2#p!X04
zg2&b(T1G9*J8QjGg+P!EAqPTT6&Jj=hUM_iI^dmkzys{xu&&FvuHY7(f|L1(JsWVS
zPdDgWWKTz3g7=y=>=LR(x9AZq#x0GS$RS977>QT35QTU5;oYm4XW55!U9FTUwi6UK
zVK_n>1+(HN=S$I#tU`56D!a(`B{<CV+X8am=ifBHX?fGS&XxSTfZfoQY^34dvOqtP
zaICoAGNWAA4yA{0S!XQJK{`aAu^4?)i8++<%mB2PYcOyaxf079x@CIF*zIWO8a8eh
zf~+Xu@DADn<}v|obQgjeRl1|4wo*=`0Amdt(we6Nt?T2?bZK?aQnyBz?l9vmS?j1-
zFkN#@ncx~$wSDnD$>)LAYBhe)`h0<|*UHPr(5ID^?#6G6_ZcYhXw(PRvQac?rI{TX
zCD_Jz)ZD4%OZT#R`iuf6*eSeMla|Jq^HS7eSaM8T;?x2yCmQ4`sq*ievAFf8Go~4S
z20ng#Ji;5en3iB02dW~90;md_S=DFSK@?58OziDfud3=^aqLY*ljnr!zR8}F+-Dn6
z*ZBi`0XU-xc^?Rs_gB;oy%<oyd(Rd84YQuP#QmqfFq?u^OfXKG2F|lrkpyt5iYr(G
zJ_vfzR@XvA&hw+%E-zsgdSRHHf)I&GX*h3nw{#K6uqh)Tqqr_nIFNa;C0YiG`3;2Q
zR5Yar2bIQT^m1f8Eyu}hMU<`>G?c*&k2u8_lxpTjR{i0{=$u=IZ#WZSImIcagd)kG
zm(J73;#7}7*r-IiM6t1^1!dD$!~!*wS*At|zLM(VA&da^ynp}x4Zzv@5A_dVmvK~p
z`>(6qBZpV>E-zOH^VOkTbtqrGBUim6Yb!K%<{Jldje}WF8M)jLB;RbIwmDzh|50uK
zqN9J&*T3AnDc{_iYwpFfs%7#__vTtC<9k#aB46x_GcV4bzWwc6-+o}r??08>e+t;G
zjx2D;nvDbE+k0d0oGstJFW0{Bf#nxfKd)M<eUY9%+OZF)FYoEjdAh$anc#<mU#b<J
z;+L*JyXLm-bmbgF%pE@4{ocTQ_Xk^G&=;X#-TQ5K+7`~_pB%|OIr6ZMnsYuHJX7!n
z7d@@Bmu^qrnqD=VhVT*}JNnpqB-{&sV<e84$i`MZeTT2M>R;xhZ-Wt=Y#O(_CKY*Q
zY3@la6>V<Cr!G*v-^opt`>TTCGireh9a!VO+V5SSxjgG!@^u0gu_25o9)0y<7)sqb
zzm^)FkrglNPgd8ryv`n^4MFmA^(<CMxhT1ZLb@){>sMUTwkgZi>aTK7Ok1X){Vo_m
zT9f9CVqn&qvQEK!O;DgbJd3&pIu)h5HY&XqN)5o0roj$zuc4)Bn~8(HX4U$hw!Y)B
zlnGCL#JWBzwJ&=!B-z+S)@)pd`7cvUK-VoA4>|ct{Y+U^F--oWkXv%&hHrw<e_WC?
z5h<FwD7}p`=_(}_O0H4z9ZJ57MDc(b!Kxx}1C{>~5=~yvGLzn+<XuYsm=fwsv8n>A
zC@~1r8$)_kViY0$zoVvn8wra?d79qdmv?Xd$i0=Yx39a<-kopXnQPy<@U5lx=dODT
z!O;AnA054Wbm8n$-}AZP^D`%wgF_3Oa=`=H6Q9-xW)Iyya_a~=+jr)=cP<D&N&PtW
zPxXhhhkqIDfQ=9wnmGZ>py3D)!Qc<R{Reqp&quzVN3~n#efL`zx4y7cdvwurw8E$;
zSpkZ@cxYywOHN0D0~M<p--=dy#l<2g;G|3cYNibB4R&cO1124hwFFa(x!w?8K|tMd
ziIezu+-2@vta?qq<4F@4ZES6qc|Rz;ozYjfwoa$*f|a$m2`kl3YgN!=G<1HdSZ3Gw
z%gP+3vXoQf)ZPNeCCrBL9g8+vo_i-@0T<S(bL0p>h+h(u=}Tfnm_Sq~hVa;=i^Y@&
zDCDeo*PW!9tWkrt1FBeKA!q3bW=?v6lA}mMcEuvZV;RLyp$?&RJ_edr7BdooAjOVw
zD-^mU(RP9lSr9bO#h+4vdmJZ<k}|YA+VQeOJjI4&#X`;Mh3eZWR#rj!GgLN+DS4=c
z;*lV^JVdK*hVrL4tjEbeLNm~y4K1@f^MRpUVCcc-#lX-~;OJ7rF}R*PH~(OB*89(0
zJvq;&?4j$3%m!vNIbRnPSatIw-<G+|{OO0j?FD~Rp>EThC0DmOd-zeXYwqy;a}W2P
zS_;0DJ+bWTnnRV|U;0~T#ktoO4nFknHl#oH@BSB+=b?W`!PA`gwC14WgpWO4D;->S
z?@A}<Z`Hi8s$TL}xL_q(e1?u!CW)Ac`3AAjc0v3J%RrQFQNbNbPE%58c1u)9$=~5m
zzK;ZE_ws>*|H%ccuDQt-y4~OL1>IJj;jLZs^*;*U4X$t??{EHD-%tBiiA0EPVEgCp
zI@sB@O#~EHte^=81aBs8Bv$N{b8wrsFC2n@e#J>y7uVEE0jW75*VwZ{byqyasMKOp
zZ_e4f>ZP(iBy&gSUs>33-}*DpPd$q}4(0j}=em!qaCq|Jjt}L(-TftzsvS>5iQ!Mb
zG{v(@;ra?Yo*(1md>E#QV1`8xYhJL5)}lpkgGFzHy=ylz@o?VCu)KKQ%E?Z3)oxhZ
zZCqRMh%Uj!Y<lko9O}~zdKcMK*z{Gf>D_{FgEls(t@ex&_+i(3glbs&Rif3njWUmb
zL-dK(qDP<xHT}#ZPz|9}r_`5#(vh@uFghVe6T>H1=(*$^kaXm%TTBFB9QdPkyjp`?
zh0`17y(;2&U)vo(>cGey0N_LCtaSB3FsLl9=hfEJ6ki^*6L?KruXA_PyR!?bOIH|L
z8Q__LX)Oi8YXD+4a32sHVOQ$#y3<-lEwpI7rTYeb8Mp`5jn=G>)}pB{%#!{tnN3;`
zP+bPSYKjYW^!ME0O**xfN_W)Kg9j`Is<<<NVKNX<5+_4VrFEp(;cTLlOR5cBQ!-a2
z3inA@DCwf4gAyhJ$p<3+6%wU36Bp^ItWaiJG6O++pLhsTN>h~lJ|*-@ia){5ztVvx
z^#H8&CW=Eg)u7PVcUeSr51z|}cnIIEbJ({T?it;L$2o6Keu#>{S!Wp*9%C66&B5g$
z4h%hXG(QUT6q>p|7{1@|pmnM5MHqQO*jG5M1aS>3aL>%1yu0TkcMsx(`9N<j(3=ko
z<^qG+L+=iM8VKRMg?bbt@9)j|d&{ytIe*Wi#;&;|^T(DNpIWn9f;ejQ&hVOt>lj+F
z<%bUBh7K&XKTln?E^DWZ@}9jp&t8B@r&qJ^B!-MPw(WLf@XWTuz49^wiX~sXX78EU
zhgRYHTWF%(+GC}Yn~gt0g`M{#eG3wO%+AaEHsySq^1i{GZ*T$j-ZP7iXNvZoQ?vKv
z64+m7(Uq_-THDxgRU>Aan+P#I*eIF_OKVqKacl+&0GGOBwnb^hmD?1p#)B<d7Q1PX
zTi761syH0dV&~Bcp8D%o7CWE1?}dHd?8<tvc*@`l88Yj@y#)nKn$wdF2WV)x;`@<4
zz=f!}NgJ?9x{DIFB@siXHKAHhHgzkmi<&D{bdG)^BjOY}ol~FeHXiYMu0u3%l4!-F
zN%`t6xoSYd_owbmE#QdKLAYOh^;xfqI|%I>k2r%T^g|MMdH{6gWoWF!v>rqJsbtPf
zaZ{#}j-fb}p^;u@;^N5Hq@ySZ2Vfm|<%{w0;^}lzhD)&nZz9c8Lb94+M3l0rq|rz}
zMxtOo>EONUYlNs$ZP7b;G}&o9i{&8vIL#q_a_o?%AVNWIUzvbu-8ws*J@Kfz6W%8T
zo7Sx68duf^oak@J`#N*J&beJnzTQPgFPmaS&PGBt6_8kI7>~v-!Z?8&5~s7|NHRJ;
zj>G(48!D59!0@v4mqdL9TK*yNP|{2T`wtL6%Z0Wr^G)-v#nv5*mKFw`8&&9x8$oB>
zR<`rjJtgS8rv#n%U{meg&lmci_}uL(gU_I`rRtg)n6^`{3_eq~0zOkwC48o`CabkU
zk9~ngqw2}8Sxe3tT(whCmBZS%0mQ}=4Pt{-mpY9<v_r8+B0@Tb^Kiac8b2>#hlu2X
z=((6`emLWB-DcA1gsgf;UZSZZc%^vC)V9n{lqgjcA0k^-J+G`D8V;~R^(QdwtkQrW
z#?n$0=jvpMAeI_d8c=_%pq{}aw59l2MInx(c=2=C_5$<XNMs2po7pq07C5c7W55Hd
z$7P^&DoQ;j)$thK1p9@IL=G%=_*p&l-21p1l^B6RhpmsP!G3*F{0WVEx^Ty1xK-ad
zna}LUKDu9AMJ&vn-fvW0oeOoF4-|a_6PY-^8#C#>td1<=&^LY{C6SS-xR}QhKY|fu
zsflKQl%Qf&YcXL$z5(V(Xa0DJ(3N6?k&ZnowbL^?qQhbvD*U1~b(d4u*Iv+wW~e)Q
zpY#i4vD-NLZ;-5*d7l5gkK>Q?|H^fL!UccLc|PIlKH)+v`|Pi{!C!GNe!}hj(q!RH
zpL0mQaB=)m{uA!VmnJiE4vs&GT>rmuLtmO~DBzH+)g0vcz-;I3(5=uKNA%jTsf};F
zZo28b;auZDu079pqu?Ax#@9HID<g2_G_IMB^IGvLNA#*0#Vf3M?X2k;zHj#V+sAGl
Oo10n)f59Qk2Khg+Gaico

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gpt_j.cpython-312.pyc b/model_executor/models/__pycache__/gpt_j.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..20c0e36683a99245937bb433871aae0c4d8ef223
GIT binary patch
literal 14677
zcmd5jTW}lKb-Mr-SiA^;APJBJAEHP}kob^9T9$1+ElQRxiI%K~9mEa-VV5GP1wieB
zvc!P3oKeT1E!X5sQ&N+(hT55$8ha+pblNEGOrvx<6Sw^+ASeO6Lrpl7<ikH5IHbp!
z^rJoJE_MOJpzM!!+AHzyx%Zy?KKGn+&$;+FyWK)T5Df1`-rYq}zs7_bj3r?8KWK`Y
zr#LD=aWtnB=%_BBqY>5%`lumbAh1DT0u1Ca0uwa`j3mz}n4)ZeC9p{_M=b#hfmy*C
zwFPVhHVgJ>U7#-N2slXEA~>V2fGb)bs3&Qw;Epx~8VGC?8lz2trl=?2iFyNGl4lp1
zqb-3J0@n$xQD4AEV298aZ4a~)*eP^GI|H53O@U1$?Gn18n**Dp-GOeBt`~ZuTLN1E
zc5@BF*66mtHUc*a{^<6=_UMklj%aV7H`*8Ii}nZlX-Y>uM{!LzDbB+i$G@d6So!;*
zUV#HU38oh?o4*2c7r|@+%+{~K+|Anvt`BhA9*_HBX-I)VQllMebkwfFZ~M?t8uQR~
zgTHg?;PbIjUgTq8zAqjVu6I6n`dr@&ozXbQ3!UM3bRv|9Tom}u*CUCs&f}ApE=6LO
zj)lUI!ACBQC8YjOu{A#}v(G1ZF$Aap8zYhs3G*WW>S8g7Ezs%<N8+*3$R$Xb4<{0Q
zED?!gQKK|DF%cIN!9-jPj|H*I2sEOTtw%!PF<z-8TP_GfwA6r3wq4>A!HJ3BB{4oZ
zA$Ma68kFK<kc>Mx5fVd!zzf0G<D$R?rN|VH%7S>Ia3VMw^Xuh?BXMCe8arJ=JsFAd
zAyIanIdP#n>!tYX>$9LO$I1AmNJ2U-#>2b>9Ya?AnaL1LY6=!C9@FN^Vy9w!0%ugG
zHFN4XAL8Vu3-NI1qMCU$dXeWiSYE(v<oMChq>u<Is~i;KA&wX2=4j~pMLsC<(a=Qj
z^3|Xe4heiP7K-BZ+|S2g2ckR|2_^V*WI3cy;Y8!+Sk5YoES)~>XJpsm$wd5RW&chp
zEqfvoE@(6&NiYJkfKeWrleb1gm-!$cok&~{Mk+ceEw~gMg%yp9*JUd~6hhZ|QIc)S
zKqo|gG;%Gh(3=vQONrG#1>h}UH#`-ff#vAT6#nC^oQ~IXdfvd%QznYy3_LI!0x`UC
zluc2iG-teN512R;&yLquHm$%MyFtFWcK)c5v)nWUEGg<59k8CI{5IK+)T+_wh-?fK
z%9U+lq(~r9q+{831@~J`8B23zDn^8JMFz3zg!p^(JeAN2XUs|JUBFcjE=?ur@zTN6
zkN`+h!4iuBm>y><%M=(ew0cRZHpaNh;w!38=}7C^coTNDaHD?4i3m}#)ZS~g&CyAH
z((rwX)BU;bBmIY^-eIJ$qe@7)RA__VYR*+_*Ff4WjUC!msftQ8s_m*PJI%nV)R=#g
znSxx7xx9^{B;5<tcj*oBl$EloEdySSmEeq1ushSnM6-rRb0&^eMMS9&db~v~FMm06
z^;p)mV&SZ6E7PWRB{t5km9U96wZ+;agq5z*calw-IQpZy56i3RP}@mtQXy!uNrlVb
z4f-)Ab*24xz&<%E_Fvoe>y+O$a%{@ne+Agsgcu*ctCtNIBOyubhUUc{h@db&32Yt;
zMc4uAlG5+WPi3PRPlUwl=RU=3*@E0Pm>A;|p@?%UWO$;XYr%=Q6hTG|tgFOUr3lpt
z%+P=puzHY-M3GUIabW}@iI?rb3uAozT2M+{7x+Ig{h>qxB!;*ddMgjlUoSHtx`0Kp
zLEwy$L@+43W0TP!U@O8cI0j5!k{t=?P6%R=l3^W-a2y{aVo5e*9sxyMc9~TdM0Ap*
zwgfgzn#--2K(IhpqS%MSa$~7FF_^N5Crvhxky~Vg#0#Th7b32ogltbtR0v7ggc1b=
zfVcy3d$A33Fc=m>k`xR|NcEj+xbcVQ1`^SUfr-dOA1o(~rtjM1lTYov{3JghL@o|Y
zTu+R}V*^(~ZVxC@nZL$|LGXx5QX054kqD0WPh1xVq1~ybbxgNkUDJb5Ce45t`~3}S
zt&TF+&6u*R_aWO-=;+CJJeBQuDrI=c`U<U^@~wT@);>&m3(al$W`DNXzj!X+cQ_0G
zn-8Z9x9Wc5^%rdQd0Ttd)?TnV-y4}3fluDnnYDEmTup`Mo<fsv_LYTiWZYZV?51W5
zRI;x*spjn!)ztdc_*P>Xe}B$<AZ0H&+<C|5tYdRJnsp2=U3uWxn_>569DB+5`m)V^
zOKsWa130pk`lk8*x&Cx_wth>>wCre_y}EF1vEiYkKg0HC9Q_4HW8Tr3b#$h8WgXp%
z^aF=K!}>E0|8k>m;X?Y=r6+QYPo*r&UH-)_ncXKoK9}oyDZ_Rww{)rV^t9zY+p?Z*
zh31_FS8JiAW6f%8#R)oKSsN>sLs=C!E{3`u=QHljupW(o{;qiyc7&2`+5w9IjoVd{
z29o3@IG}uDQjCQ)(FHY-y<mFvmk`Z^U>ir>q$(tJAC_`og|j`apEe}*<CU$H@bP{E
zf(6e%gjWG$nwd6Eo1oPa8&gV@I7ug&q)}y*q-DScTumI6u@N(AQgNqQz|w?E1s1z*
zoGgr!1=YbY@+l7X)Bl11TAVRFHW|At$$H>4en#92MKVM3#C-sZ`!RY7BEMNYfbcLz
zM<J5+zy@SGDAQMD`m#)4m92P`gTM_YCKD2lNIi$0;<H%6G#VFQ4~g7V<N9+{%0|sY
zia~UPDq1KYwzj#ph3TBDZ^oF?r_L1W8|VFV{`9WJu33MszHi2qqEow4A)w&*-k5n~
zA-Q;FiOxB8&loVj(9|*?nTw?9^saO$*R(BV1%iIR?RH!GJGth;nYxs9_DsRil3`oK
zBhckt{m6(+-L)a3L|qjar6q`(`Xnf?LD?1zf+i&>B_c{{5$7kOZYS#{;Bd$vWQN=i
zWTT?lif1v;UgAw*UJ!!8yR>*1awVjoLu6INO#qSzmsh$1(eH0kMV9K_S=ha&(B%Eh
zI>=a7oGnELzC|PD=}Hf0o3<5Am}DuBe{m?=G*C2S(n7f!K1clGIBj8CSDISqg*l<f
z01P#~ZS%>wWYL5vma;hB^Ue6aFhhzg0U1LWy4QkARI9i%)p{^z(X`<IG5vScz?s+S
zxmMYPq;l%y=@HqrPPNDTk|HfMVH~bJR(NcX&R72xqAI->j#ZUjtE;8gPBRJZ@WGK&
z^+g)=1)X|9t<-E2W$g<Ov!Y$<tFSdKFQI8LN!>Wg(W;;x-b&38G!nzel(By_4AR`M
zD+~H56XwCm^IOE-(2zooMxt48Vjbkj45_3@Y@>oKqB<?R;c^tYN^XR~(a9Jj;xSnd
znSPUU;zQUV5zN|Bi+eDSP%<u&a?Wok^h_kBv$SoRjQlR3Nl}QtBqN)A^U=9z%DUVL
zg3nX1wP`H<LdM;_W@egD0$A2;6bJ?=1ss*<znpRR0D=b*tbowazA&0^-<xgUn{$KA
zeV0`T8@ZKu45Dy}83U+L2ceK_kl2vf)9OADmP}9UfZ1ZLs*u$1rcp<)q{I?t8AEG{
zK1<!DM?h=i07txp5f2e$5Kc>mJpvgLb_i>%tS@qvDTlhgCEj@((U4)^pbD)W?>~L}
z>2x&LIs|G+%07Fg;Pt)F-e%KnIqv|7d_Z{S_A}|}T<a4mg2R_#ePp%#x)Jd_G~~C5
zFT+QC1*303B<tY-D!dQbo*2LgH(UHBMz3OoV-sJ)2n|t{T<+VLiP4+zCtZLDxtxU>
ze3G!ZM&{|2*7hO;Utm<O)}jfa3hstUg}WitZ(!Qe=RbJ$&Z|WVz$O02!jFV65L9*?
zI|{>}7Bp7&|M*I8#yx#jh=(ta)Y5}%v$tOQYp}PP*Y+C@xT?~%uANgrzA-D58MO7&
z0APyhTGqT`)@~7U@orERfQ^<8<VM$S?UIIU)KI~6wK0@0(-kb5slwJ6GcZu&$fr21
zyR@w5CnRwfftAagp+7220Ns~4s3``FHpYu05|fChS~j0V^U+9LjLP-Ik`#;q9E7$a
z0x(X45DV^7WI9ouzKwPC*lvlN5=Ocio9o7?2g}W*6TIv_j;GdZ^r3OpJ5XDC1EMc+
zRsX;b+wZn#{0C<bFBspq-?l$!=(&I4=imC-w^HWihNk(Gb0^bHAGF<RTRN5>I+Yzd
z^{`<CxG0ouf_ud5$#n0%E%&_l8#7Nnx2D&jR(;F7W~3Tg7oJLwE(-TY@4xc#x%&qn
zy3dyR>@ZG<a4o`Y^^jBpE;*)GZ$bpjRyVB&HVL#_9m?AE#;i7}`-oO42ejJS>{ip#
z!MI`oLke`1)ME_o>Oc?Hjer2vMhrZ663P^H_bNbsW3{@=io6uzKnoOKf^yjcd#dWX
zDAW}hSiz!Q<?Sjl=_Npukhc;Aw_#I?MaFEtZBF;)ygPw0D>^HRx0bC%hVpc-QhE?>
zR$zos^vc{T3(;I-Z^}~eZcdM9y*rooX1&kg9Zuuk;yGwuME3e64lH0MMrrtyaJJQY
zrky!Q6Gan&N==ibE0{4!E8LiX?RKV3(=`FE&^0kt)-@reFlZb{82+@NvWL|!Ac{&|
z6R%M}0QU}9Tn)To)IhAO%*{G*@EE~;fVxdp0IO@we9$gg&@Nf9;5s*~YpGqAv+`!J
zfPu2Z**3sXN;l}6C#9nn&VG{#Shzag%G-ED?UqJ$Xr9AAn2DV?AOvG~z}V}E1=s=P
z>ynAMIE6kCBCkcfImlMDWt8l_gtvs%GlrZN>6Dy83#7hBzomc6@D{Vq<ojjSxTX}S
zB{kkQ0GF>}{C!&w`8AA@Z!<G+c7r%35@x^%8blVWqztvT7BI9P67CAz1{E%UfiKij
ztIHBclL}>X<&2@0`4MiPh7>cZ=jfYkQm2`WOZ*LQ_AoAu5CJZ$_Eb<CLt?W!w()Ki
zDt~K_7RIxsjH5yz3Cpw4W}ZNM7zrG6iH4fmh}3*A<(KO<skuZZYGi`BxFxu_t6dO%
zPY(p55)n0{o1tfbbpr!7Kp_OeN(u4#X~JIo210m>6%Sh=f=)v8&KozBOM=Yq6GG98
zT<E}5H_>E~j5Vp&zYmn4kRTlZK*4$dl_eKMAm@JYRQkf=tM~S0PG9&%>&t|lOzHZ^
z$PmOh_J<<K@2L>uHpRGCa*CM8M%5F7TcXHeGSDz2WizqH5@FnkY0FjgfGL(x{p;Xw
zYR6pA42blXtrA!k6QzWik8vfC9wYjKC}9@~tb(e+sE7t|x#KH5R;scvjg@;aA|usS
zbDf%S=+L3cs~1rd2w%_^^q-&w>E9vx&l}V-Ygf&aD=uH&<<GkOdDmdpHJCCMJY9Lu
zK-M#mvQ>a9O+LI|6@1&!aM@gF?m#;VWYsOZ6<cLn7Vl-mR=LXP8&Fwb*H~)kAgB^(
zs(WO6Sut9^G`oMzWEiq!*`34)y3qZD{>AQ(wyasGMi0?R8a`;h)4p^e|HMf4iIIm5
zFQVSDJaD04_hoEt3s>KtzCFFF*X@KZe!=#V%}4DC3{F9?@jd2}hez(KFL`GvF#?D{
z$$t!=yE;V&xCOAJgQ#=`lN}0)X#Gw#mx;KlNXEKIxo|N9L)EpJYYXO_qbtL9k-?7;
z6+~`WXWLNx#9*-`9Y~6MKw78&BcIg6-|9X%nw1CiL&(H1j^nKgq9<v16U-9ROw6-^
z)>OX6GBGe=a5M^^b%v0Q+;=rNJoKT8^@@?GcFSSvHQ>P0MjZv#OkI*udDAp=%WkM(
zIogbB@H5F?cGAIZhKXq7Ka18|O+u8rhki=T4D>=qVP1q^SVR~NnCrl?G8z#jaEOOu
zm&NxWPej%w&S3NwMk$D78{mP<p@ine{I?-e4=$37qFv4+G=~v(BQuKkxokD5ywwwx
zQ8~ILmGKeOk+3%LEZDs79LQU@KCo^@mCv!Q(AhU<U+L`5cMfGchnBvP>pTc)-_E6u
ztnYB@)N*6%!tndYZXZhz=evip-9t;<k7GZI{j%|B>gXrFP3hhxd(L-Y=2THnH65dW
z<7j>7kMfS~4;<T<-CGtN_u4XBpUb(AXKcr-)YP)NDVs`9EY?|8aB_q=i$H|);1uKN
zzXZ!kS&G2cV0l$gH(J{ueFDjx1hov*eR`OhrC&P^CUs~XP3jyF&s9n?aC-cT^erc}
zuc;Mk3t)K|tDRrdc&?GjHG0}4o&al}i5vyC!pg^ThJ;4oDp^mPlg4pP0Vwyb&Oq_z
zin^pRW=I-2hO~-@zzkkaqk0Iy*KQa`wow(p>|Y{Zn!0r}se?lVh8N;ouuNO0ZAmMv
z0S#+lOENXd-<q_jec%BYM-f*QIHTH!2pCB{X>TauQPChzQzW3L!>~5WEZ8JFjwhii
zOq<o&C2i^|(G*R^&cQKnRgtl$%8}imZ>@dh_>86T>1OF$)(u98WzFR=e)ayTqg6+<
z;a+GoLIXwKI$?l41BPN6@iTCp+zS(vjaL-k@QaYp@-8cRrz`Um2eWvF<iXn^a8U&(
zCkUc!CMnIw4DEa$+cuTTMWmo9Gx}co(K|imBw#coUFNwU=E(MSPjrZ<dWs>){yN#f
zMZyW$iM|c4{HO*zLK2@Kx{>U__d&|L67rfyd<J?HQGpas;7If#j+0FyKOw-QE13ly
zNW!OBq7O0t0wbgyzg>~0e}+|>Kx+!)_$J_OQ&bAVW1$J~>B`npnvBU#o)oD#vH^!E
ztC`A_WJ~#dk<5_Fq(|98VB*V>t)=Oc`m8htE-2I%(E6?1+DkFHyvsK1we+Y-Qe3_Y
zORmiS9n_VU;3(dpey1~aSu$)p_+UM)3q$$Vo!Qo%xz^pera>@jclG>LPs+Z$d3)B@
zks6-u1E13Zmjwl2%iep#*)4|(PVWl3V9{@yar742yYlS=+4g~a`@wAc!TW|>`_YW^
z=&S`IxK%fIr(ei=2WFY&&aI2g;u{YSozHb%n6<C;?9TV>$@c8Y_3XWO_(9M9xl{M|
zXU@EoJ#rS9yQ}>(u&K5$@afkcItL5Rw!Cvw*10LY{h_lD`v3J4C$i36vzCPui{65}
zJ<Vm^+Y1f8f~OVTMd=euEjiD=S;LCkGrxasf7<iV?O){X?a1~Y1*~QF_Qj#4hKKGw
zSOx47!&$F?mML`h<U0qmorAOXPn>Po^V0E$&i$V_8;i}<o|E*NkMizXYFPSC&U0ke
zP;h%@_d)#{U3^m61tiK{R4qZN8=Ro6Id4Oibb<S&ZFBKFO?B@mUZ5#wn`+}$lsspZ
zfm=isrlwh&XaPjVpG6duUEu4RoDg{N4rVN2^cqIhX740sVssz=q<av7(PicEk>62G
zj3qr)#LvCK&+${-Ni&-l8-M7#>nl<K-s|~k?@xMH5iB~X{@tHh-C$*Ld*}Df?JF_>
zqlLyt{Cg%$u~f(IrD5=W6wR2ll-zx=ou2JQtXs5|e0~}4j;wjdsvYyT?*U8t@x}8?
zgZG%9+J0io3=U`ej%K@$6)7nBc<^KCU-o{1AW>JzRKhR|EvWKu^&%XG|82VsSZ?b7
z&n-7KZA%;3oD`c;$$DeuoM80<i_X`u`_yT69~ant9K`P91nJ_IiR<TBTs#t*ltRME
zQ)TOqs9hJe>pb29kgSP1_SdjQRjyDF<yEfGuWj!E3vNw&559+}wB&&GwetC&zSf;U
zB#+xFT%vSYuTSbY&Dy)pV^GTnps)D^OkYba0d>)^t{2U!@)1+<&<v#n2^CM*YWAWk
zP3!GHwVr>Dcb1y0_&_bqQba5=vNZuW5DD%9QC<X7wYInCWD}V9@JW`q6&mon%7zZ{
zO~??xi%~a5T@cCcM1;rpQ(VO}Gjfi_4#fFejL?WA-oywGxA=D$q4p^|1@eX%6%pkT
zvG@*TtHyC{Ocn0o!%!}v_DzIprD4L0m*fh<)yxy<!;=01s{DSPd7|(*^F)<R!rh#A
z_dRg;W!S!qqi?yj8|1`CC+{`gZ_D+*2o4M%7!2Ui6?ibbTgW>p#bi<c-l>^W1y>`O
z+?U-QY2%_f=iUvEj=X5Xu)(9FO*@y2`JIQeI}hhNpT#EHR`4;FFKhGVZTqseeIQ=V
zcGVOil55{Fn8~{P5FS2q08u9-MhN&;hgvtHvd>sGOz4#TA_D18povPe1i7qEbyTl%
zl|kZJTx?Vsi9sUo=*T)c@{WP5V_*pk6HjN@rwOMYk<IGsDM{4su<L9PxXEN%{Qzui
zTTy&?s<}|Pb*okuBtDgx$lCoqWR$xjSLQM?RbG`n)zd6pn2+N0wm>W3W2vLyjh%N}
z)(h_j8fUL(y7t_&gYgKSz}Z1|R;UAbGher3c<&@r8v|g&sns;Hz&nwe`L&#>>TO7I
zNhyn>7g0-4j^H+cK;1up8N_;ERF31i2LW;&{vKfxE(}WHRD1Q(tS>)<E3^ZegcV}p
znN{AkCF|OfPJEEOlU#c3{_xLF{_JFa_<VNwe9m<NY=Vx)lwA@2sJX9OCXKM4hLTDv
z6kHIY7YsPHuS?pkfKPNOb<X6f0CUD47Oa~y!J6__Pqb1)e+8%61}y?ladoAKa;|M;
zGI>WAsNd-)bB-Mub_bal_yR|Ojjn(0@U^wUf5cJaN{Bzg=nh63D};Z8#Tf0t@vQ&=
z3Sj{i!Ujblgbyl&@G17v%rj+$@R_ng_zaNtzC(1OZ`Ws5ONCMhFc5Y_Gf@%Ynb$g{
z5R+9(A!b!8g_!4Mn5GrbE%CJ&128nIycSz9WX--+6K2)vnBEN(M<`JhM*tPt!72Nn
zkWIlL7Z1aWI!8DTzkVT)jimn2#jv7On<HRfPsHPbq!``43AGfryRAYRO5_!aT!+3c
zeE6(9WmcXOw~|cd7dqrkQ$NRt<6;P2=1C$8%_%Oje#IA{yy8OzNp_NoTm&BTMJ~c=
z;)p#^MEzFoA!UjaL46_IuNd<B%de-D=Tw^>gA31=;RihAJr;RMt-QwC@wgh*;+II}
zt&gcee(_QIg^%(+@p0{!o|zLFfxqif9%&CgrhUa5g12k(>!or{qC*gmNnfq%%IYa+
zxxaKFpG-txr<-t-(Lx~GNkxgjGKs(S67j|*TZm~Ke!;^_Vhd(4N-e@Hh=l<UIdRGm
zg+?~QZ5>{1DsM2pjb#Ex<R*qxc$ZQr@>zhv4+Y}_>;vL2Ac;In`e%rWdYYy`+eXpH
z=-*P^k0{@-Dcd8e;Ssf&B=`S{8u%6U;v;I`7div2`;3C<a|=Zuryo(r9#MzB(CKO2
z7c4}dvlQL`TdL~|oe>fgL~HejXu5Uw+4<+^o?oL7UOT4q(QT=V??q-JYZQQM2ioYi
zS>3#O&b&qeSUd#3^7E|eF41cCDuwW>9<qxhd+nTlfbN~WNZ!1*d`>}v%<{hhGEaN{

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gpt_neox.cpython-312.pyc b/model_executor/models/__pycache__/gpt_neox.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e9f93834d5aadb65862279a60e4df41d2d086a73
GIT binary patch
literal 14815
zcmd5@Yj7Lab>78`coHPR2S|eAL!d<PDN(W|S&A%KvTREtBiZsJs8bBYU5cOpg5CvX
zivb-ab!#wjYN<&oI!SA0I#W|)%|!jt8ReJLf6k<x0SqTVw)8|Zac1iF4_(rArv1@=
z=k5a!gR-YHnRX@Ky?gfD=bn4cch0@|g~#LMaK$a(j_n@jxZl!)e%Z9l=D+eBcasyi
zFemVWDb6QMVG~bzbKIP;ge@#@iCe=~(5!K5!WOnMnk`<Ju!rp|Ul(^IoM9)++vBc;
zJM3n8N8FRB57#HWVJ~}j#v2li;l@N$xQRWx;=V+4xS8eM@s>nuxHZuhZcF&Xen#`e
z+Y=q(4wkQvcP0Yi0Ly#hU5Opx9W37v?@siDdlJ3jUiRD=?@R0q?_~L=crei)?nmAy
zG{<)(c87Pfd`o;F5ekPAgW<u%P<SXY93D=LghzPJ#689dt*>xGn`oPTUZ1Se{cW?F
z505cUKRDYzhjS0(>;Pxy=Wy;7-HbN?-md%ezO8jBJkCn&K#A_!CB)rtTeLp!yJ`vb
zEI#tY+_Wf(b5r6-axQ+g=dp7aMkdANb3KWqAjW&9l8O0fDt0k0_PiKN&GbCJaOqNP
z?$W8~6bNGM(o9Mo{fH_I@rwP4lqf~Pio7i*$756CB(kQtIiwy`O!b~f&P~TIf#5iv
zN{Mr+Sd!kh$P4rHNhuXcC8epE2(=nRJtoC<B04oAs)ZEiGx2yrtH7kVFNvwh{Cwn+
zlw6osg7kz6<)jp0U60I1rD!}Z#v?B#rMM80V~f-=C-Ft6QjzJokXdOyk&G`S=FVxX
zXJd0>R8ktxpLwR5^knkIN)qbwo=skgrQ~x`a!QoZFi1`37or%{BIYbPXN=WOjY`RR
z8d1Gb&BWtkR8U%<NlryC>cmGA7ezt94AZ0t;&gN&o{Fdw9f>ESf=G?{o|wZ-Cqy9@
zO^FxSnB|YKaOopBpHgR1K6fr;RT_^kq>|67-{~wXuC&EunzcksmeCBGrG$v;l--Hw
zWicWq=2KTAv9boVS(PKxn6{*JRdF%Kc=W0$$%;D>y?RlM%uC{Q?4>DHwA9q0J#2mt
znOC7zL@vxjvzQzl{S#b*Ni+*)(IW7RbsQ&HMCcTjvx>H9dxo3l1=}m0aGg*m+Gm@}
zt5)-ZeH*%?HhtPAIA5`Zof+;WKJ0pm3%QjBO)3ppoK$R6OhOg+6iFULk>pizzd+wr
zf3j)AwU%{?hD+*T^Ess7=WlW;<K?n5&3y;F`ZDFYG(W2?LxTyKG#Akn3iAA{z5Jb;
z2ZvEE&DG|Z)s=Z!@kJA>-RN)1qrXh^r08`;hWha-)GO7f=k$IrS<z;V+SArWPzCel
z0gjVRr@3$P+w!UX&_#nwwdieZH{Mxhv~(`@zD@1iY<(pkJ*CZQ%MT%3e`UIDeOv20
zM(NTyQ|)?gn;vZQ9q!YXjkTrCHQFl8HCJmiLfs<1^pY*rW%Q&bANsdL=P2D5Nv>$^
z<65dq*9rFOZ&C5B9fDK;)=Tz^H!i_#ym6#@)f!1^YV|o?mv*G>w>`Qs!6*%BN%fbN
zt+8yksnM1;Y2T_I^XD!5RzAJHt6ZpIQmK#Xh9hz@7L_kZkST7lVf2LsQMwwrEMARV
ziN+U1Xm<;}mv-W{6eJ$or~qXtUQ+A3_s&ODQgM=Ej-+P9R5aGG8-%t*^rgsrQjU=h
zheFgevK-@jpkmEbAQeSZLM%b*uf&T6qq4YY9YqgeU8Fu#Uur(otXN^@plR(9DA-sk
z5>b3}3yDZ+JTou|vf@pl{&<95sRY+dOhC_>2~!+IQ?qq2D<~{U=rt#~X)q3>l;ovn
zZ`G_w4MerFc~Hzy^TufAr&1Elv_ZhYB~k{8g$>80SY$CiEs<nYjZEqJJj1Kh$y3od
z?2R-;#Y2<~Qr(V7WGWt&<w!)PCD~(K*Z%YLSSm3;HXoZG!E9rsBQGr+ICSvx0dXuI
zyEry~H8qo*8@mETFs9mj@g;Ez)=p9%<*`fismPp|d}(z4sx*eW7u&0q{iyyOj^MTY
z*H}frzs7CVbB_Aux}4qrzP+Q^-CyWFl<Pi}vAk~&6gzthog=x<5qk0$+q(+wp<H`t
z?LuMXcn<&Dk7q2e)vq^quAIsS_umon&4)p7d^q&w{LuNVeW2*|6}&rh-ksT9r*hs?
z@AkguJ(IPc$$HPQx<+#CBiX&@bM5D;nh(486x~e)_l}%<N73Ez`sDH?ZUuKw&fQaN
zY`NKfqrKSPUu+Fre=gfKlJ$*ldFpzcte;yAT<h+#!g?*0rB<HF`hr_7TPq5^=G>^~
zd~G*JZ;Y-6b4|N4b?YtumF72hys=|#S7GpQ4*%N^=Ua|soJDW@%JJowR~z5+_GRsT
zS#RHZOJL=h)#vX#kZ(DZajy4;)^=sb&%Apf-}hwJ-o4(@r+2@tx7fa?*x0${uy#_T
z-YqxRQZ_hsj6NEcHnNqcv%Z}eSPR&{<JiP!;uN>BG-FsS9(`?KC5W<Olf=}5G&g0~
zQIsG}OwXIYLUNNd8oqS(l{V>G^m%B7CG(OcZJsT!MJqto^0xVH(j2&+2gj0i$p+2K
z&1xE7eWRvnK5b3gbiK-I1~+(VVO3qknXc1$m+as&>|}{GZLjF31O0RW%2*~pqRxKw
z-?#uWZBsJ~bC+es3>_7+N)O_dVr4YxA>^gQlpH`3a!Mrp(j%0dK%$smxO_$7BMSe5
z!e3VSD~gMje<Zn(nqNpMHuWx(RW{aYk93Sm)=ej+7o(D}=>N<@)85R3O->@Y#%(yc
zrq)7Zf3C5AHIZ-Jzii8xGv|v<EjL3qLaTe%`mTraO(V;789uW&6UEAT{p-tLUrDc>
zzr*Lf<I5JJ7h5}S#%{z``PIFv(R}Mb##L<g-#mTe^vc)r%|pwMjO{vK^tNO?(s8tT
z%RD)$aJSr~e&?bI5$e|&Azxu3PI-4E0*n_|-$;ZMB$|GSESO@Jp=C*lC|2g7C^i*#
zOHUHbqbac|F&>XZZt>E?pvoj<$JoqBJ;<_z=3RaP$?sp`HtgK+p5pj}#a92vu5qjL
zUPIT0755Dr*VeasGS@n=QAdw<t}V2-Ki4|8;h;w+*Vz0C@o&uVPHXGE*3O&p8}SV*
z@+j%=x|zO_-l(G|JLmMi9#{^1>cA750@jBqG;dtG9Bv*3sT!mUb)SXk(>4aotpMgW
zz;iBK$KbRbGH6$v+J~Pwdu~!S6gyEZGrm&>ZUu!}C2`$EY@r$}TdJ{g%2-!GK()|k
zZG;9i0o=y}OPI<~icwcN_Nj@ZYqzD=YObnPpGB^OnbFr8*hgQxz)J?M1*)-3F4n8q
zBr*dRII@4{mZ=0BjCcFl%bAc%8l`C^d6Wq9O5;eB#tNs6++D@P?7Uv5YWp>sR+mKJ
zRB>ub6b_zZMgo<=v_dacZhS&jtZ4>m<zG`pn^{(0>AM>?^=0tMl#oqzm)X?yuDzAE
zDVTEy4Tb;5S>G`1!wzQ2I#6)O7~^J4hCS5H!)LggcdSeoc8ukAjOBfMU^DDY?x!?$
zjozq&$As@CJZx(Yc>Pl`rOhvyppL0j)s;5*mdNQb#H++s;xKCBpW<%ulK_ZQV3VdP
z5s-kuX8i;a&LWYiK}@we)1+z^o62TdQ>x!3&SOZfamCJV6`-so@|{NjVKScUFBJWO
zH|=lOSG)55v5coSi#L$92iR1FOq0?DR2Fhb&)_CKOUZMTFqKF$Eq#R&CVkW=>3K@N
zilkiSMTkhr61^Y;q^i7q2T0#JeAc~8-{DUBPE&Ao^k^pqM-2ZlXt8#wdW$Ne$uch8
zGX8%KF1WRCb(SI}nm+8q2udqzs$5<SrFh}9N)e9t7Yra6lAbb@(l+YNP(a3{QqY0C
zh^p&0ufrXvEu+>yQ2j>GBjwY(0T89Th9)RpbD26f#*k_&<2K+K`fH4bso7h+VixD+
zMJKsvYV;B2I*76%Pf4jNEekS2T6+9Y66KfxXduzoQXJ~%OiBq=?bfqESY!@_2&z`R
zu{i*x2%{2F@dK|S<fyk-dc&--;xOK@<)WAq@%fOgO#fDjjH-lbEkZF=YT=f0c{B9z
z55X$`1rpN36~0aXP@(^Lt{+az`}V%|?%p@kZ=?;)yn3n-Jd_I_+A^DTufoQKhJNC{
z<*vmOV*0v&%f@vK;{ElrtHXD9-Sz*hBYWU1s^}oNUyrw>pI75~-#$Y(m!PL~61}WI
z?iLV82X3}vNo=dC4dlLL-cCuU%_SiQV&-Z^-=tyC4e>^++EwxlSo}-ZJo;<g(^lPB
z0NdNrmPMkOD23TDJ;kLh+7q>0s|AZuo+4~tum!bl=<ATFG>5R<655q0_$VbQktta~
z5~{0)`c8)InY>Epz@a!Gdk9Ss(05W+1N+ovCT$g_sJTMiG-LD=u*$cPFofUQQD_O}
zT0(0h`Idul9f8;9Zp@Lb?+9*KxwigI&fMnAxBzP5+PeDRbM?a-z_0c{kn=xqCz1D`
z%sc_#_)Y&C{?$;veK>Qv7}&MenG5W{vy=;*%uH-FaSdItT^kOrbJv<D*YQB+3=E!D
z!R5UFk?ktTOcYC2PkIVnmY$}h+K|l>k&++aPo76ojoq89`<X4ny&SvKV;Od*M-{tM
zZlK-TWk7f2%b+_wm7qJGR1-*Ds4#)LX4~w;;wXpi<f8rvJ9db!TSUvWMFZ^h*t4@?
zSExpi6cP5C^l6J=N5tHYXnn)BWu3Ll3NFzhI9NR2y$y%@cAK_E_IBDScwVuFokG3n
z65XPuc1_bJisI5AM&c1IltbUW=zBeLPrPtX8Wr6jPtevDLpjnMI29K~k+j&p>a1W!
z*+tfrbS+at3bV_vnqRfNYOM(G!=e8o*14AR@+}K&u3_`kMk)Q48Fa(CmC>!sP$CiP
z6T4DgJ-2L`ZP4?jJE#QNs;)A7ZnROdpeW<7Du740=a!6h+AQ#|*wZGsR;n$gnZZSY
z5cI1o)EzP840NNHrNHtm*|n;xc5gu?3te^Hwv>&+zzV65&L&td@wMwKD`#v!03FyS
zr}WQGb<h-3wVTw>@0;<#jkn9DWquj91~!E(6fTGta5D*0h-b<oWMP7&21<KDXP{3e
z_MU6kRNqOlABjg37lr82#oaorC&@HS_vn#0_6FnfQDjucb(EK>S1{&3I#O(CU2(6*
z?>_j6*%YW}YGSc&lpzn9bw-L)%O{Y8TFc;#TMd|MTU(BqX<hb9P=j@uW=C;eq5Vk~
za8?12okhf9CM4RhP#RgpSq)IDO)D-L5nBxcDGqT?P%)2U)4E1DN+L}vQ7A-dn2yaM
z-pyVz93=&a-2FNGk-9xgQ$-{oRg<kECCzpnJ9ezxVb!4$(*(wR{}U>ab4dQ{8n<ru
z=t1Cnje$aADAyP&H15ka?#tMUZGDBdv0U3&#$A@Z*BSuGaee3?WdNxw=k79)(x%ni
zP7uhmW#<l^<Qbhj+D}X-PdyopuItaOJe&3PBOZImnX^B@BFrnnAC0aBZw~>s_3nJj
z{o|U*tCu0KE?}!Y&+<i2AnWd0xl-ufo9o`YX*TV_+h5v;nQSNy6`CS!szNQ&Zu&**
znEp0tCbxxJhPV3^C(VEn(*7s7AzE<+H|bkQWU5sI3W`^k6@tWQcQH^Q=v8n3g^D*K
zfhUWA-_r8Z%2)E<-C6r?*8fQcbCl+aIET9PfH*K4o2+iv$Q6zii5nZ*5v<_yb*%4e
z&X!LEnCX(*(w1*v?{LXF*9J^h?x?8@aF$A_ZO)p8VkEP(WGy*HC|5(ZgK8*Utt#9=
z)eU-y$m!AGliXLaJ+fpoaln@*;7zT^OV-ysmNLy`jL1;FrOISaDLN$}E*&%a4}{9i
z8Y;9@q72ts(^gf-oxp1ZjcKz6bB;p+F$vy{6rH;)eFrp&G@SG*C4WlEpCM7);KL@5
z#zvl+ltH2|V3HaY!TverUZ;ebQLL)IxIg?<m#_vu{|&|D?;>Hoj@$q3qXpOQ_guRP
z>Ujr>JtH?f_j-bbp8dI={dc~S?|B%{fjxJ+bAjWTiS?Gwm6LCtdE?Alb0Ksn7dmuz
z|2s#2dh}N<r!$ZKI?%g1e8-ay99^E+FmtVE_z%6E-+sB^9emF_xbEAv=DpjM-TheJ
z_juO*I0K*~IsXX4F#aQmxs-sWQm37osR&8Y2$_VM@LkI#6yJsDRhRyi4f!*bVx;;z
z_(D9S23sC1>;yT+H@95jWV>KucZ&e&zQRfTYd*oEQLGvzP$t8G8@jZCHw5Wp@M;Os
zU&g(dGW?aa4H08QX4#%d4N0#h=h*G2`^M90Yb|iP<N%$tLe-Ua2wb|ZgG<{5yWp5M
zGq1~m9dIY*1g?XlyD>+Q;F>Z{d*-Z!K1z6b)>#7>lp0MtN_AC?*_CS5x%BnA<itvK
zVyzl06=y!ov!o!ZuC(F%@!V@g3%Ib(+=vGoVS!QF#a?VFJtv~_Wl><8--|wNFB+P3
zG&Xl7GA)TOEVh&pr;>7non#Rz$T<6>k=4y1r|Rm_p0;!fU6dZ9gkYfJsXTt<Q7l3X
zapDHrDG^HNhp^csiz%s-%I&9wL5Mw6gH@i1&WnoWN=$rFaipLuWW+>7r4Er5dLz;N
zA@D2+2yHV%@;xHBC<2p^(I+(LVW*$8_GHCEts6wOhl-UIkp7Zde}HQ6X@#^AsEysk
zo2t!bHNvX6iCsHwB^%qts)8wh#leoqCy@Xqw05lQFLdt7b?(V`j^|tVWnAlh{eRP+
z@%;17!JNB0bMpGgy@noa=QIoyeS>R4&Np844XmBa`S#pv@E5(i)`B_jXm<RGcQ53|
z&jSiHwy%44t)|v4yzd<^f}^>6)sk!O&pdk1OVxM>ww&CK{?(_~&fX2?yB@yoECzZ=
zX%zy8bAiLx9YtSP))y)c9w-ccDL43~Z1e77aBm^_U@rJz(Lc0yW-XlcA1rnTSEFl9
z*^c3l&3yaFy^fK!*}Hph&1FZAW;-7K*lKD&#&4P}{jJw0;I#IS7lMa#!NYe?zw69C
z{mjqn^TB7YPq1n!M3jAKA|IT*KJj5-=jx+t55Irpd_M4GX5!cG_LctCuJ_#t;I|jt
zgojpyU%Gd0Jj!#yp^a0#>ba}lEdvt`)gfon9%a$yFg^YeCCt<?L&74^q$9C2w=f?U
zr617yzoq1PN~+!YuMv@wU*J!^iv;fcz2hhToolx`R~I+vc6Z+=blZ54w+^he{3LKI
zu)!gFxBs2tpAK(QcB6qC9sk(ngA?!b-#l{T$c7bp0&)Si8;3wPIq}`&cTVPZ9Na)O
zy9@KEZqBU=xwgR#D!bv<cIdMHp`2rA(?hhuUDmGE$Jd^|v+u6;9rsV&*?lK-Bah~S
zr#3jed3WEt^3M-`N?CQ{Xed+oGcFxPY+i(b{-MJH2n;m+p9cnNhAy@XX{aFyEjZv3
z8W2=Kz~Bpn73z(!LL<ToUKUnpfUfo_`ku_Gq;w*>AV=e8CrZHu$#72$?~<?^*-U2f
zoA6Y1TJQ@7`)h?0$m-X^oOGH2Zn%MB5s@rANm#xYS_&wnO@a~l#~!MNI8n~Pv}GZB
z^K7#rfkp-v&#;UJ5z)|!HjH3B9C`wexX^|!#e__2VTcZuvpki?z*{2(G8-u8QuDP=
z(xG&Xut%-X1;$llv^qLK?+vuFO^<?~?GZ{Dff@uOtdojeKfr|et|3Hlr|CQzMP{Wa
zY6<yDe!X-J1nC=;?4+cZ5~lCy+@M6rP@;ZI-=t)mlG{iWUn(ZjA!(uPtQ&Ld6q{-|
zB^r;?5ND^Ianx5k?kp{XtZ!8qJuKVze;Ds&ileaLak>B9skwn=OUCfR2cfr^7ykPS
zFT8j^FI;uKi-7_1o7>m@!J>cX?X!1Vf7X#7ru_%a`Nr<Vz-OIv#G}`J-K(}WSKhZD
zd(Y}-1(Y*RT^(LNTyPD(=Nc>q2i}_a@kAl`P%ijTA$U9&Jf1m82bSJ<_pbMh-LVz+
z9MA1Jp6_{ty3lnGWha&=3hqNW_aQh84v+4IGbi~z{`W!57xTYyufA$I10^?9_sLD_
zr)D<tHB?dVku%G=*jHovt9<ce^cBd$8oqeJJDl?lufZcfkhLFBJ#xjNAI6d;!+EQ4
zzUlKbMK_Af_HhMuhfh}k1i|&u@N6`?m@!}R?@(2#Ip!;t#7xC<>|oAfM~!i6p5h4_
zAFV@dRMcb3;Z4sQo}#<u`qgaTgLgfMoIqqeFz9S|K{d4}z+K_CSwLW8qr)@Xj*Y7o
zUcgt=6so$7qefFq678R`Rat%*0D&{M^eWB+DE0I!iG`Gi-v!XG5EgrD47QTx%QWV0
zw16?&+3~Agxkg~kw_g77%XgOYjgKO<WgM512!mG)mxjuQ`w%jfUaGG9XfR(?NJ)h=
zpr#L%8l<7puN*3d%D5K0YmBcPl|MtHqmU%jMq}UV{(R#A8&AR8m-F_m9>{x#vi2eN
zDG{ul3^o35(dOS%$7v#@w<!4>z<G;!C<#&j?jZxfStP*OtO8El2yo)IG0a;JmH_9$
z65u=t89j20FOKZ}*ySt(oybE*o7))##i6eX&`FO~pp!_|pp$5RD^8LDyVBV)EApsR
zJv+8y$vFa>bwsK+S%<d)rg)<RQ)JcE!iKzGsf$E}<P^@=d8d;2HO>^Bsg_5h7pK?^
zA|#2Qo}`k=xU5Ew!Zce1QxrGz6R}zokOp@6M5(8Jn$pg_dOEq25!GJ|v0vTbAk|b-
zisGD}ED=;uw|7R>Xt#Q%j}V2@zzPa69PNu;#5xjKP)j{V-Ot{sVRHRku@+b##rde%
z71ok^c&hh4yg2fV9~7yFv}g}RJ%TlKzY^6(mf7Cj_bI`CnWFvTNIk81zxqp|0rhuA
z>Y49-_o-iv{~M<vn4O?sD5+S2?GcRBDz46+x|~Nf4}2jN!<T06zK4~OMI2DakIy7B
zHHwpkcJVtSQI;rHqFB`eOjUH!{1KL8`wkLe8pQ_Z9LG1M9wJ95nWcn*9umM?oGOgR
zkjHilx&-c{(m&!6tC5rc0m+7$=lPEZIQ|L#cU<rTF7R8<{Q=kf0k?}ie(5*d*l)Nm
zf5092)MVjJA9F}PadQ0Q{0H2r54dBWn#>^BIsP07BfsPNJ~i1u;E-%JJ<PXWmu_CY
zadnGBcI%|6gYUZDL}$0RIApgT8pZSY%|ka1ZE?tMz-KeHZJENnPTs_CrueQ+Gsqi^
ZytQZ=<A+z8-fVxPef9Jw93I#Z{|D<4mlgm3

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gpt_oss.cpython-312.pyc b/model_executor/models/__pycache__/gpt_oss.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f89119c669d92452c64c694aa9ac2a797e66addf
GIT binary patch
literal 29609
zcmd6QdvqJudFKq?PXZu85PZK$ffPwe)LXJ_J*_8gSr0q3QiS4w5-EVB2cRV}VB&V&
z6S8q@GHH*fu2VB@&xWeCjlA8inbSRu(x<xp2V=?sJS&|t8+WtWSLsTwTc6#t`}^+9
zU_fdpJ58J2k$C6MeZTMb{qFZ&{H53H;_$>RUmaY0iQ|4qAKK$kEf2nC;<#&^zzKYu
zOYprsPj*w>)N5jIbHdVVWp3uUDPiliF}o#hPdIuVYFKB&)$3w*Yuugi^m-EBUN8H$
z#fuWYULUjD<NidTH;^dqEoR@2cu6AI8%&h;mL@{Ip+s44St8sUPL%hSGk<5iB2n2}
z$?UFpRie7Ln%Uj)nnZ1HEwg*#b&2}k`b0x-1N-*I8xu{vP0U^tZ%(xIwlKRd-kMm~
zyN=oY@kpYrw~g5Y@%F^}-t~!&-VXL%9PdnY^>#6PNqj?MWA8?055_kox_i5sy)?c#
zv88tlvxnka6We;XF?(5jdtyiL4%ov&d3<MLSMRRG?%v&rCwiY?ZWZx8i6?uXOgz>5
zRAO)M-o(D%eTn_O`x6Ix4<ruu9^^R__cSL|zRC$zG275<T1V;cx6F#Y_h}Zg8X;?9
zrXi0WLbE+K_F)#g7P0I85wVZNd@O!F;x|0LoNuYc={?F~G$KZmag5j#v0bs<Z`suP
z9lL6ZH2;`BBE0N4l8T9a=i{*+e3*uZVS1h(O+AxL?jIQ*7`zZM$<Dp0RBSjkI5I4I
z^VZW>M`H+Enj9M)9T8K})QH%BG1@<p7#)nq5Xrs2um569Nkev>jmHyedN$c}A(n~?
zqtOfE$k?dz6<hH&s(sZ^NaURy5u=F_Ar_C0_KAJ*I4ok{@FlrvZU4(7VqAzO2ghS_
zopB0CCwieTbulJVGaMRA#)K0i2VoCs_Gi`1)RObE{kapTdPc+q>K8b9?5yU0d~i6{
zC(426MlP>(LSnw-BNql!$!Eop{#X+AfK&0wu|72Ccpo)sK5YlpMI2FD6`>Q+vEi4L
zfH5I@A(o(Ai}LB8I2`K}<j~oX{=V~?<H5xFm>>)eUqB|MLTsRKES`#9jtyS8n2N?n
z`UF<fvSjR~vDk2bOmEBni(|u=5Xav?CW`3k=xDqzH9+;`<&q=A7$Aw5FxZ!hon~E;
zgtMhz7<`$s8SP^^uFU4gJPj_hTy#nq9m#`z7viyQ*`s|QA9-%C?9#rTeKum31AE6(
zBhRzKCXchi%3k&JMBnIWOq5GvS5jhMKkCwVH6}&}hlSV`xoj{Q#dt{!CX=W*t5YI|
z63eZLzDu!aEHRq8ilBNO)bW&z4j`!!@v7`*0a=<!*^}tIdLB(9#s&tj^eYoaF`eqi
zgI|T^D_GNGTrV$hy(T9|{{**SikSs-%p&mPc8(J)F{^5`#%u$QNp64_Y_EEI?Seh#
z7%DDITCod`HQb%X?gKW#^{S=UHOXD!d)=qFh)4E3v-e1ThW5y|el~?=4;x3AoHU_j
zPe08}?aQWC)ml&>FYL4!KKKQ={u+OcOXWSM>}l?o;i@e@JeSJHOk3Wfe#evMqUvG_
zJ3pjthKi>a!lHd51lvfpZ{>|N^pts{Wf&pUC5`1$v@$+@Aq2WYc~Sw*mgbC0Wa!Ep
zbrnh+)Kb&msgPzL3Trm~E%1m{p?_;O!Bh_G8h+--_*ov~XC*(u_J&ok-*mjCwgFlr
z-$togEq|>iC#(hKuhV?>_fVs5*KDaW%{J7e+4T1s{c0TtNhCOLy57Q@o`O+RqPS4c
z8IK90J{re3NwZW@!+gIW1%s{IxbIh_P+Cw1gOMw^$Ki^c^1W?58W18ss#9GBY3BPt
zb7QqN$Z5?sFshd+ZTXj+;Q5B>rdQkOQG)z9Om%Cyt(mGp30S*uLq;W5@+(4qzPHqw
zjQsNB`*D4baFzMe7|(32H>>jDxS{-9*W56Q{Nr#H0+-ftoajNGJ9R(JHjG7j!j^hM
z`$qk@YIgl?JTBn6UJs+$;JRJ2>+iHVZA#lxdo-7!r!<@XW_?ur4HHsm(Oos$&62m&
z5rY=0*Ici1kzkK(x!NZV%Qj`tlIupq!3%@Keer0b?@DxZBsoZ=1U5T$|4+)!^RZMP
zwzy<UwI<^umm^l$Nfbsj1>#NIf*eF@3UM15RHf4qo9q%tQhnmps4$qI-B3?nww&)v
z#$>BNv1JcSDB0f^$F?hbu?r8!My^DYsjKnWArJ;$5oE@o7)yf8>k}>@aXd@k{lwY%
z(xsQNzm5zcFZabkL5K}2WSa9LC>q7;OQ8($=<rw~N{&gnSa(2d<|b}Hg5o9^<Mz%G
zB}I$u8XO)SODU<iN5)dxhaURJwCadtd}8hFOQnWEdw3|Pe8L+k0HrR6(M&3}k&F)#
zWfi>)vSZ}3?4+1VJ5mv3E2xi4$w&h%V??Vsq98g3Q_-l1p~=Zkm1GgF$PQLbYTXjb
z73nCnwOUi=cqw)@`f^`<ET&d<AC-vavRqc!BZVD~ZljL9h;Emyj2M^g10ecR-J3)j
zllgwdAQ63(9?e?WNwlLvFj*O`B%UB=+e=Cl+R-SChPJCcEz<fbJG4F&X|a@TO7qL*
zRG~O1()c6QD)3rWIk{+M(~30DMcT4t`+<Y|pE+>wIoZPc$st>kvG{;Ui>cC|tfyG}
z+f$>gpyGLo=!{1D<9*3wG@7JUtxkDf`Q%7fDlytMIyl;aAr5-G<I32!9osK$i*>~Z
z&v%VpO<f!r?s^%#N|(ZI#ID5pL6wTiXR_<UXev6AOm>c56`w)6<E4f4R;SkGG^djN
z7-4_^3iq&xa~4h6B}e$KqvBrq`uVeq<(nrhuNCFOHE;T^`(X9v8Y9`pC#1$FCM|az
zb*sKA>$8;|Qe_AEg+Hih$a(y)pO`w4E33RVF*A`Xug#WklghW{0%h4igA{1ES6p_j
zW2R%Nx-nN#m#yfKDmvybN)_93n|Ee6KP_#3Iv3pfq1m*hc-h9)G-azdNYxu|RZ7)Q
z<f<DBzCQFhDvFkixyssywf;&Mis^gU#FcDYEZ#n8|Dd$u+6yx;WJ_D6($;&P!0X4R
zj?LP#;Z0I_)2$0q_=!7b?s`r=Fq=XY(Y5U0$||#=PASxREBH?J+tpHN&+S$zbOfGm
zR3uy0C6#sEYI>*R?GCBz$=lncvZL_wsCAqZq_Q^lO%-aFD%$bk`yd?2g{!jRby9d;
zE>v+XF_Xwu)n%(TOI4e5wT;=@ZBp&FTzPXYR5ks=?B_Bitq;BSaw?Dap`R;T_h`O)
za$2nCGbPOroz^mn<z6o0+BRe(`=!YK+n1$C4|PaOF4DEy3GLdw?VZlIJ8y54HXXRb
zzq{$kY$#ja`EGgVoz!H}y<j!EFzacPJZ)NEqDzlY9nY0lt9^<5@xQtIUZ^n}YL`Oo
zN+r%@N*Z&;p=)h3Z4XP`r6|=eJ0D=Iak5uiM^j+Zu=r~`LQ=MgvDBD2+@B}M5uC_s
zM&54+xqgjEEtPDiw6rJ9Yh>9ujN}RPge7erDojNUh}d~TUW>~J8iVZ`VGUd_m<9f(
zNh1c&A&&{`glz(h#*oHy=?Qb#WUXnNhSjjLA#~b4<Sq!LTJxkWrA185s)tfa+qJYN
z90)}#<Ekg^SkV$rw1gAfmbvH0{|67YIx`mYh(r82#KZDG8XruFFTyUKBjW{fb%FIt
z4PF=<8B2-+xkh0`Tw;vuLu6cnA)B$R%6wGjUy}JtGXJvdX1k2CjbW8#+gXxm1a(Ej
zOT0)i?cmlg_ld%IaK(zGy8Z%!B)<yd6%L~lBdB_&dUj$l&@pA3G*6z)6_;L%%tU5S
zzxm?z7w4P4z5d4f1<Q9m-|=Ls4&K=`9a${ynX*svlN%@da=wz+zdZHj*{k#Q^CuU5
zT~iiv&w0EwfWO)^$<tIEoEe<s=QhsuEr!-jx^uzswPQ2K=G=?H^;6DC+ccl^l}>ua
zL6irL*dr6;itTb3+fXzryP|~jjK#_BiAKS>#uXothOI~phe*RhHYZaeTZP55^l4MD
z3Gpg@c-8g4KL(5^dV?2<{z%d&e~Pu2*a<5$hzLrGF#i5k4(n9+wp@ExE)@RIeU!Jl
zmi$%AR<fYg$|CcdrBK(hoqc0PYnVGAh1M-Q*|&=e1V3VNmR~SAt)X0X!<*->pIbJQ
zee14w;%~>9eaTt$dev0b$5yzr7GQ<wNB;RoW!AU{)UhjZ2Eiflz!*%x7|b#2fQ?}a
z7GMfC!5Xs<`SWSyErQM1eZV5vfgLy*cHqKjcFK+u$DiGY&HIw<rX5hl2gGNQ7NfHI
z3#U181Z)ZUBP<S|h7f=*FN~`e&S)vX)G|a1CalK%1SY=Cn9I}oek>SVl&Apqq%DU0
zd;zb95FstJ{ze-41qLCA7F+coM1F}$RcoF@HJVL-Ys-=tEC^Sp`)f8W95@&rsps*F
zRFf9Mh>IACXukS;jXD{&g|-kQN1YS4ticC0=y_;1#*vwbBTJf&a=*YA@V<umt<jps
zy<k`l0k9jEax?f}%QsAd72h^2<px~qP5WCa?~K~z`w$$KqerBwFt*_IxT7<61w?!*
zc}R99FArXbkB#&VVwG|eeXDvAkv$r{B<@2rIj{m?WCU}O7!$?-vVsEw3Y(PO09Jvh
zf?XPq>CA{+1!yyV6}ayh5K0Y11uMtc81M>x$>{mPzNG8|SULDILyYAhn5{=Z+(^0D
zLp30}6nq;4%T>V7d2v9S&5Wz@jcOpe8lW85_oFFd9gc~wQ<}5}$N`<WSDQfm3VE^y
zU|fsp93`eHHF8M~ta6AA%NAh}9BC0MK-|$FYYjmzBIvsSuy^Tpwzw;-icN*tZAxQ_
zQ<OVR3fZn^giV<3sIQVwe&H(M7rsUwY%ib%LES`OQMLp|&<C_dFi*@=10-9qbr3P{
zDIn&T0#(^SL<&T*fo>_#J!#98H7Jzqq$gL=oUPa*Rcx8`Ej4v#n@&hgCx~9GUn*|^
zEm@Q!s=iyQ>}FIw`^wY!x%$>@{Vu6~7x~rP>)w{_J|uM?y4!vDjV6Vjzgy9Dr;ljh
zd!fo}7iTVB8<`oI8_2e7ms++jv}AWaC+&Q0F?5QER&2FdU#sM6#kSscqf7GbSUCBv
zZ%@XtC*#|5udEhaNH)Ad3UA02hqJ}&rQ-F>rA-RA<-i@(Y?W%Z<|+}aDo;wkkSPJ#
z+nFmZM}>3s&Dr{$QvJ?{<=!w6q#m}b$@~>Dj)o&9DF4vL#`cVx3fajM;j{V?ctS2G
z2q7tqs|FL@1!!}gK%L-I+NNoU>}u<%cr>N2;Xqsk9L4@3j$x6P0iyPcrU3<+HC#!I
zHe2I0$7sLN5VHyMZ~(D<t6KpCv|c+iLgZIsJ!G0sn{~2z0y~6Zi`D8FE%s1q+*Oa(
zIs&h){74IJlQvawWMiZ*TNooIMymqaQC6!sJK2hOLG)hi!=z_x1?_wyZF;gDvz*Sc
zM9P#c6XF}>Zc|RA04HH#6Td;8ellKy5wR#U_%|q^i&h*gBsg@E`3p&+A!y1f)0ODF
zaescgs+8{U!8Q2~j90i^Y3SPXGtbYSoavo(<=nokyXjqb(>;IdJiq8~o80?>yE5x;
zl-!MX-Ocy>%{hN?y6@NdOl8OH>1=g}RNVn<Cfq?xtK}W{+wSa!ebR<~w-5aJvF{zr
z9yl!>I1L6jP&Bm{WMiQ8ntR4QyZ7rwlY5D&12H`J(gHtue9^OWl3&s@-*7ANPSx90
zzgKfRu;|~9!2ZB=`}EFfis$oBI@s(1y*iF6MBL&R@e<QyOprm8zih@{BYufKX~k03
z$1jtOT10$>jGu>5NbUX$awOwd$m1XkqIO+eS^0;~29UX>waZq#LFER^mhEIim4Y9U
z-|}JJZw<_rzFBp>YMFy|zM1%gkIAYKu#|2;{_>ATYdxS&Tt&dT|EUOA9HJQ$ybgBw
z<}~&laIhmYo$U3<{?j-~PSRm#Ol0J*$aW9fC?6$ziF-BU?}30NY!%rHl4Iq;*gpl?
zTd-i6H7*pSOP-5P<(G~$_;V0IJiuje$XFO?y5K=*twXq!e!N1<g~6i7(l7(mw`g23
z;?uBWPr*`RNCFGin>K9`K|Gxt&L0yQ6ML)T<q0<sX7(QO2=b1YS!d{|-?*hS5g)}&
zA@uJ@A71?7<nRCe2YYUS8IO%7BR-uL5~mSBoFQW)8K6s5+Mttc0vR-fWi!$fseu%V
z#-{+u47Vl14Os9<GF5<U=6xde0;(fFZWOA6WyuH*+M#Ims;eucH_BI!zC7LW=Lnyq
z#qlShJ3c4?81Dt^a-QM><cOh4fU^iVdd&%1CRjClY(Dtynj1B@x87cNr|GuuZppLo
zbKI+KnR_|gx<hK+v5>l3dw?jBs(b6YZrPMY@Q&r~I?yxkIhvIvfHrak!2ki492CH_
z_bB_nItby<ab#zcCj$#$C-W=8G(SPR8z$50r(pl%hfCKAlQwI^jR8SQYLv&S2YY26
zU}8HZVF{}q+D{Eq%TpG5@Pe{gXxa^!PH{K*9_(FjBakwr{tek~!H8Iu(UET>k@hI@
z3XCL`f(?m+EiL@Wh)}n-`xJws0mLcdJi&~+GFR3#d6=P|8>FfYx2hMbo}4<d)Y6u1
z*(tT`TzKNny2X}LlBaR<#O!vEaBn)VJLfuXl`n>OO?t7|H@0RQo|GD%yzRYnWwGG}
z$x%D$oxYO8W)_|a&vq;Z)`6(?l}=yD_-ZqbTBWbQg%TL=ObRyhlkH5ugVaPa{tSP~
z1Ppy=3R-)3wl$H3Au!8!W>q#PW?dh!)-9D)T}#iTm#whV7FK?3_ss5PJAFC0lJK?l
zGwbJqQgQRLlbl?f%f}!XH@=iAQU3k-%Rkzp`as6WEZo5aUNF7E1AH+<yu&hJVE~Nv
z)uLW2fEJq($BBK)&>aAb0|1PJiH?NVjO{XxEx2P&!O3<y&l({V-?egg3Eo$&y)L0B
z<`#VT^W!gozv7rD=8aj5(^TkTqUMB>SP_L2f(35&m@md;5(bKdQq;}=&z5=!sRurD
zS@m*Rgfhe|W}sII=-P7Gt%$mvAa<D%UE)ntPay$lXX)3LCSpeNyZ>+C>(}_Na9>#|
z8e^VXMFC8GX5edzi{_U~#Bw3GRS!bs7cGP^*t-!TPZvxXGD1cJ)HtLLpXp*V#vzT^
zn>9k__jSE$+JcL+=j*If8Ed4I2X6FqCb>y|z$EamI?^UkK_*ZzW{rZO69uH7r$%7U
zmjrfgvU90=Exk4J&BxNhVIo*=S_|qB(0o$OnoY0?_6w%Zo?=02d1@_{hxAfy`E(u1
z)YI5E)FcmEf^Ks5<cBWBprJ#_J=hH6*G!P;(grp+1zsBi%7ELx$!krBxnk-8`$toP
z(O|ICs;Ssj+AKy6ufj;u4qW$&Lg&bi-SNJ}d7*F5cuT=#%hNfXyV-$pat|y@I17rF
zBta5TK6fkIbAIe|)w$~WY;~tp-T9H-QdPv(Z5;b6LVL=b{nwQJ?~*Y@2JNz)kupO<
zu!{mPO6_Z8+eZdTq{yz9Nt{wS@pk5=Da3a2WB8YP&ZgumyOTIZR>cuzXKYwdWCdiK
zS}tmF*+SH#Nc|?)eu_vUFvYRacubt9z-4`7SE7aIdP?HS8!C%TEv<CO1=tvO{Dm*9
zATEPO?frlSMiYOs3eU=g>XkFvY-qa_+Ro6Us#fJdl?cG{Ty0yncBfRklaYhDhL&%&
zf3rQ?utRFtF==_-J>|aZsJ&O-Mf@+$gR`Cn$-_>o*+(PDkOx+C1<{^G4;|c&1AIPU
zMDj!)nk?QTVo9rUTFcH|eU2S2$+3kp3(q#a(K+9Av;AQ)S6VfD;LT&#k7cX6rK;|Q
z;N9RJB4_V)oy~cxW`{B!oYQ=J*Nt7-_I*<OKCtK;kmX&+`iC}dUB}H+w;JbP_~w@v
zTT#FF98GK-$xemT9~6?0f>tz?>F+@kj88u+J;jN?kAM+g{P%d>Fe$VjBW`GdX~%Uw
zHntRyH;R16D+{}7m1ltF1FbB;G;sX(rKvB?4lerEWgP2R@p}}?JGcUZRwSO2kjo))
zn4}^olI+j#AV@90n=K*z!UaKFQH+)Zu{>@0d2`w_VP(KoVR}fCo&w_7N`hCzMIiLq
zK|mVkyhJ?UFb8K?%x1g5P1tqt4rG3wS7nJY1FkOpOS5U~<N@yU2aqP6-5TtPX$Q;4
znI?aO_4{Rr)!^(nziw-(qaL<bz()^T=!}@q7>)ZTJ%Y3ot`PRpmPhRr`n5xrf`v8T
zj>USank`wB%0qgTgJ6Ecq~&mm0LeVZti?cy=-gXfrqvu>DXJcOaE^_Bq(`t^LW_u0
zayzjmX)Bg*YmdGxsyLp)h){wNuSmNilj0f}6v5__biMc&<YtBSLQMQa*v0RXahr@k
zfg#&SEPGgxJplS3ZKK8_!BX*i<Zq70hQTVZeSxL`8>r%cAlqM(LHH0WgdAAC)&cMv
zl&x$T6_W^-bi-h*l42AvOeKX=N9C1*G-aSlgDC?698dVGd$R7<cipWyUscApE*Gqy
z;g^EpY;c_vTsL3780?<rm&z)q4lk9oW=gs<o^F^qf74u4@^1k$SJpm%R4Usxd3dR+
zCgUi-7YI$KvSqDOS*yZ6e?PDtq11D3ex_&gAi%uo1KHpP3IBZ?a{l_Pf1TuCH-9nH
zx#vdU_TD>=?;XGEKly$|?HoV1WB%e|#kQ$qlY6JGEIYa49S>cczv`=B%KF;g^|jqA
zX;}!|aY(Hv7fYVYc%Gv*;Of-X*}&}KMPIXW0RMrzDC4VJbl1=Aeb?QbD+y*os7PzZ
zgBok7qU?r}1@&u``pm0+uq{k3Vj^|y<c5OCE+(X=_}LY_HYtbj-G2$n2y}jwNJ92-
zbQB_So&AM8GEHE%VD5pfa9P2iCihj3Hc7O>i{&7{sAzr@IQE`!B7UB{)e|vVFeY3G
zYp`S(Ef5oK9YQn0^mWKgD~&#JH5a4vVuMfyWGi4gwN2QB_Dp!!C^?ZstDcFXbWz$#
zveXkk{Tw;%OMA3MV#1&HBLv!WB9Qi`1I$*eOMa)lf|-^!#V1{qk5`hm9^j_UpWnrC
ztX#o~Qk^(X2h*GuQsiF?3YK&b%jl`JOLV16u`Kd9Q?V+<=|pI_I9;lqv)IzbR05pM
zme8ApV)E@1p|m|6WD9j!s!^+Ex=gU^C*4{*O@y)hhSO!~P&!EILb_cYFFcoa47F;p
z^>;d`jV+#g?ULYRrG0jd()v(ZYr0rz*K~>U)=q+chUNUO;9}*xk}fqo&v&C0i&$&A
zwU!xb*Xyj=v=KT{x<-Bfzv`W7{<U3#ht+#*&3e1jMS_h+{ZCbIwV#!g(k06KXW!4L
z@xK+kkDWh(wdapE$9`6`XWI0dTPR|sef}rO({SvS0@d{jzDwIc1NhO~9om@H-`eP9
zBp1#3(tpgHN2vz{KP&Yiz0}B&xWHA9;3GU&8(Em|WkbX!u6l;LS2^G_9nx2sPhW>n
zrdw$nNY|5CVX*^DluuMlRHiFXN*-$}=D^SvgFGtI<=V<S5!CDQ>1$>>tgoa@SHh*P
zqNQ4TJU5(oOIK<wz;keKv2a-P?I@XP+KjUO<ZE?7E}x-o%&+Z1jt&s5fu0}Np&4$N
z#R0rzJ9I`BVRTp+h1vk;PXe8nH+E~HGbE-S>l6=Dc&|dZXsVB9*{wQ|K%wlwp|vQ0
z`vT|Aq<vuh#NT;&(~6`%aTla64pV+EJq)xNC~rE*{=`Af>`0qPY9>Y>sU(4y{*>&e
z996oBloOMXUW}zgLLcN%Y?#z<Rk@<PQl@f#^sAH<@eguv06Ljq>!J{J@9P&Kg$@;3
zMUdZ3fqtC=c^Q2-IIO7FDiShv<Y7(>4vT~$$#%%vAR$q#V(!r1lr1k0#xAqtci9Tz
zq>-p>8}1WDXgOGfK2j&>9~r$Gm2u1kz0m$xq)H*_-$Mf8_sPhTkt5@MGGrLCTO|@%
z{k=^4R3jXrad~B6baV7PlQy)G@KJ135hhal8C7K6J4FeVtzc}a|J8_fBxj^nxIn$L
zAVkI5A!M(b2{cxK;mB_7lZayrb(i>Cl)G1H33W`!R#q$V2jt~qb|$wf{wFwyKZKE_
zW-VY;9<egcMJ{23QcV?<G_}WgZ6POP5CA&yT(T474!D|Ph}6$+&Q@-aDmN@vZdwd=
zPrC0lH2+rfq<1M4hSY7KG#hA^0?paLZYi)E2RRVTy)<(v8|s!QEFhSwP1(vrQstq0
z!R?E|oj5N1dQUdkAq6{BD={w*fwlpK2~XOm%a%P{b-e<;?2xK<fDy_ybl>`-)UXeS
zL-*RdG8>-0Q?}TC62L^R`QRP5)O;%AXuyd~d0nPqw-nwz>Ae>!pWQZh^7^h!+X1QK
zK<3c%i=h`L-5*pnP92{-Fx~QjuVpSZfBLR(Q_de=@-;y8-`DnolJZ<r+x!y?m6`Sf
zxBD~gN2I2sGbfgs+J0x_eBZ4Osq@L(^|vp5uPf7eGIQ!|rv0qc^!)URrEnu8bi<Kp
z>%F?xdF%X_?>=>AvF_}&_kDkLE?5pGFjv<ESTR@A@R8dVD8`{$peF0Dm;Ci}O?UmR
zC_ygJIG2(F?Q54H7p|QB{QM=UddI@CJG-RaXEW7jGvTvPuxJiVpTPN3dDBl{h?==3
zDbRw%D(c>>yk40L*3Jbo&0D4VtqUdqTouJXDz2Jo`}+E2D;FsH5a+rT|1a9>eQK|2
zoU{d+R}{4vMO~<uns+@~R2<f=Rn+<JTi)9N61aIWbNY;Q@JwdInN0f`sp;%b-?OZw
zRdW_8(DdPBieNCh+D}SN&;1h>pmG*Nt8wj7icw$PICtV!d#34$g=D5_pH#hn<`AY+
zxOT4oYiZIS@?7`4QKSs#*{$=b1>uhH5oD4`wP(dpW)%+49+;`sv&+@Be9QYyFD6jM
z!p|+%9iR5*{H51iGp?+^PV(2yRp0e@<^0tJ69TFH$1TSs|Hf$-<OagIk{V3UlD1s1
ziWGHl0y}r?R>fl3?rBSIt*MtQsk_^><K2=S?+5GWn&(6B1vmUavE2&a4eos3U%Fh%
zZ9UE}S8&1b>=%*x`$&DQ)KK%;*xcE>{`EOedDc@cd8%iH?|T}TM=V@*)AFc=^H*ma
zRSYFvfl)ZIMuY0&9{eGYi?39Er3x3cG*4DeR<R=_CsRFv_v*(85S?)7c!d!@k)piV
zqfxWENRQ@Xgi9ENGJr2v;RjBJeE78-^|#R>9gq(lf^?^y8YMX4NxRY>h81}Aqqww7
z#R`~D+MN$wQ~*J8Lv)I=>d|Vc(Z|13rK1&^-!E0BYP4uWb(&3oizdMWDR?uGj>m=r
z;z7uT>GR7fauJv)E})JfYpIo+As5zk0LaA&@X`TLw?_m!dml_Y#3KCwj}Q$lmViUI
z;TGLb$iu>);$}&E8MkgxxOOeQ0rNx&C~@Qq%pm}5q6Av;c|7B_nBe~BC?T*QA92vY
zkJwu)jZqywrG)<u{5rK^G#xO)UIee8qe{V_ZM&xZ7&RP5jdP+j-^M}kkR@q9bk<cY
zk>|jJmxDi~TI^h-7LYa2+6a8t<3|T+n<IzMocHrW3Cnx;r=(kD)H?-kYmG2d;RplL
z5xiNdk1*8znh;|7pPs5p2N(tyLP=a0j|!5f9y3oAgI{+EWh%d3Y=lZ_vl&QSXowCx
zS3O2Ne!5s&7kF-}(ugNd2lNmq@81YvR^AuZ=&N#}BHvemf;trsZCq6xd<tbN_<f*?
zpSj#+dZ|7`xlOMf6Dq0PNr!-T#@ixPvw8@MJH|`RuwC(ky%yuPZUQwmoK-98XdEUT
zh8RRWv|$?Ztx=BFC|7$pG_>i_)|jZkJgES(TAU8wY}7G;HR@Ncw*c^rKS-ms8Af1w
z?R$E=r}8*PIwUluwraU*sq1-a<@`+J!1US!3&smDf|j2C!eapoGN5C3CVWhS4pWc_
zVU@O}Eh5y&(o94NLV#uwH*G;iS1VD$J8k|I5`DJ<nBpIIXaU6ob+N``YSXs~RKY$}
zcqpQ#4IxCZaP;upRX$=Gf97y34j#2`U~CxbJtM<)sgb&ieZxXLR;NG}b;LO1jHT}K
zVCrJs$S4Ksi`PM8zMotXl(^u;7+8AvbV3GEwkr-X#?XuP$V~iO7!jvvM&^vG73pY9
z_NW2rrUxh(QJOJkS7PE;I!^qAqW=SoB+)S{Gpk8<c$K26T<rMPwb|DZx@Ak3^jHz^
z6XcUTi_{_Ru>{t}B?a3j55Dg!hi*GQ%G;-H@B1oq<*l=!H*2of%vWW~w~`b2XUp59
z^0vkD_0zU{9!62#^=#0I!J+p&5k~!qBs{5Tco8x*UZN>@6@WX?Vj%2D{A~p2guF3B
zaVRv4hci<*HHZhsc(EQ`LyN{M^KQ6PEEXLbWj9hpS(<XOft!CdYK1)WS+Fh`59iaw
zl@r5-3Hly!ScO}S2l8<>gz6CLK*d+m_UrzuVJj%T;hF^!bsiQ4GyvTOK^Jz&woB?;
zxxhnAQR|G6@iGOoGGC?#4XtROiuq_T8v{*9;rBEEBtpK#|3L<UTjKvDg9NceHyMOw
ziGM=|lhh#?NUS3RWF05|S2F$^8UG!IY>5rOjI+tJ$B&<gKEHkM_UMUc4o1(MIv9O^
z^WN<W=4EALTl{;9^N@_cBjaN-XljTbk?{jEJ|u%6oJjR&0J%im!pMpLi{cP)CH`+R
zSZOiAIguyB1cSh^{!8kGW3uz|=DzJwz<C!6W+Zit>==$+R`4V?5ZDYPX()y)u}Q0x
zQlFL8$Wfh@Mz5!yGK8DhbbK7#!~!fMXGj}y+&{d+{aw)IY+DXPcYGzP1gV;z9!9#?
z9LcopT6li3`5*wJT)6hr;G$5)8qn7Vm9^Q*t?yQDo#|WH3qXv{_`9TF*QC=JV#@iN
z<}H$M{jIXw7HQ*wJE6?;FG@#VeE-NZZ^XcQ?^>*R@^*<-eemwt7c=L+uz0rbZvVy1
zU}CX<`0nUf=H<&6k6+{un=ooF<AtxIrepN#F@264kK*-!<6h!>$?+`zqG{SiOsg<=
zX#T*$)y$db_x)eU1)AppnsnT1y&aS`9lX<$dEuON^xUVE;boTfA<AWlKSaqNHl3o^
z^QQCUco;8aE%5y&jCfo`Nq(11Bjgw}jVk4N$+$e7w}3a1+TWYIukX&R+nw3->|*7~
zX~(A&>8ER!)(zKFw+5#@TKgQny*qPmAd^gI{S&!B`#ivs?tGDUWOf~2tUO^*q|BMm
zp^YD(81;Ez{ioDsD3chM2FEk$2{hbZ({XCl3I4d!s3(;6>sir$y_wUW%ldmY&`^gh
z-ZzGFa-~&s{MXLqf)&?}&m8~No|X7Z=&pZV0siuR0FnU);pkvXXt8X2A=vU0LOPUW
zamB146*tUXM3=X0U08Qpkaix;HBxgoc3<Cr+i~ZB^whK8DaoAu+_dA7oB;>pl7smd
z=8xWrW!iQx3@uh4nRZddk4oXLX=|>oIa}8))paw_m9UzH7vA$9(yP_>eSgPNN!d?=
z^yrWj%D;SpC!_}oBn3zhZQR=9fQ2DF?_x2##$CXK_)UJoq)WeQJj;YRMd8?!ce6km
zg9yr1j}gw3wlGNyh_>M-IuM1paqJP~$4Djx@-B~tGZ18B0&YfSF+hbNE8|StS$SL#
zd~>n#xYG{7G>)36-yU7C+qjlOUK<8Nf5z=Vd-tkGVB|Hp7Y?#4Uct&v8$*bn$C~sA
zX;0csLTyYtM<wFd6n=9f^dn&-ww{O?bkklW3UOeCOkre+?x@f#j7-rTRRV^{7DnF5
zCF)hHjE>gs##Hak#PwJgM+Di*PH7?@k(ykgRv3Bm9DP!kDQ9pNc63Dtcd{Mo`|PZ(
zo;Gni8Ms%Oi{Nem3jRJBG8v3;U?fETC=E*O+G(dMs>M#oWPhPjJ<IC*l)`&t;F4x8
zNu^s!3n(;zhv+fw#A!TSNURt7oW%4=5?%8O_qQf%gDc~xfe2m6#>L`IllFVXTiFFr
z0GKOk=qw^zzFjKczVNhEzJIa^3)<|Lq|%N_*9XNlU+>How@bzC6p4K_Lj`BjzUmk%
zSJ^V(DphXGIKph-ryHauy}7cQxxma9Gc8-C&{lR<<u98~UHc-Ons(gv?OZl<UUunJ
z*3&L|+UI-T_3T;-lrGyjXDMWeJ>l7H@46duC1u%?cBzC(kmJn9Uz77!<osnhf6D`}
zJy^8N*&%XV45V2LhA@@J!59~D!_?Cg2^uNo8tUWz1$7CNhP+C)c`|5?5&sy5Y>DG0
z1V+K?0|S=>!}}Eq^YbtYRe0YaM>4PtaY<q$Nm0rJ72dyfR#|tTLqc`ScCsnjQDocA
zTO;$O->$j=&0Sa*n!mgLJL?~i6=z+$pW<^J8$Wc{S_4Z^k|LEUE9^)}Q=p<R2Uol4
z)&Z$z`?8ZhU0k@DA^mhE*D}RL5fpu@2VVNx$6qyBtCvc{%T}@=wQ%LKomp`fR<-P8
zRu_i=Zf5mx*n*np%yVbHb?%$zGIblJicQ$*m%Yrlh^ud&JA<<z^ZfR2My0wf%Rc7r
z=Um>&Q&Zsw0rvT_HOi~Gl10sxS(RLwRmqiE*UXjq8sy5{^<3HKKJ$8O(cIzrGq<`I
ztn9j^?gLWCL8<A`G6$bK-FK3IvHfGRDm*ClUO)cw56Rrp^WYx3bETRYHY(F^@`HS@
z*~HOpKZ0eD$HgYlCBYp)PWE=;#$nGJPF(k?Zg{;`+(O&{r7Ig$y6mcQnjg0VIiT9*
zjJbqjMPNt(2nh8vQqgilk*mN5#~-9x<q^ta-XY?GRy_!9=#JFFi05O<Y>jKiE;o)X
zRK)y3kSViOt`S1<T`PB&Pz7bSfKa_g?6u-qgc?!@L#?P4pimxjQM;9+*7S$gsD*zJ
z_qdlbf8)9{bcw<volwlqVp@cH#4KZqW?_I-O>#h4Zx4-#`}@X{eevTb6h7H3lB}{=
zN=69AxVtmYe0Pr9*aelH#LR0~dv+?okocdGqxd5-mdN;PGX4u0KZX%;jt7+}>ir37
zEV!;fBA5h563Odug6gy?AcHYh22`EAD^eVH=}7@5S(zE6WX65EKNFV0o#w@KnJLPN
z3q&tRlVj(xEUtDNz-8P8N_lxo4OPukc>fBmw@M`+y2Yzi@}ZWVrw;+{sZ<Bj$v;LC
z#fX&$`cm4o1$d~-4yU1frcFfsRu06Y^07ykBnCBPB%K`8LhA1|LWcAZnr%f%@|4>O
zHU2zRnaZEit&zS#NodER2Q|u5oQUmLTnkO38?O+H&>i+bInCMwVv1BQfk?dyN2bOk
z+i~d_iJdcbu86-tbBl$UrhqeKFsh4fi0kPSKOw=16=eGZGWL<NiQK4}WWRDt2|-iJ
z1^nV4QGh>%q1`A_sE}Xr$UMz!s$IjtN&YtC0jPw8zJ9GIh#01&WS~LyL1`V>p?f8@
zbGCW=V#$VwR<m*^Cgg9zEqM*7M^vSh7|z9#O_0E$i*;V}Aj|p<+EpZnqz#7_>z<};
ztCyf~b#&@z*0WXeYz1lL^uFg<uWUKDQQA(X)YP-$Dju2wG>IOxz<^d0-39^M>L;pp
zI>%jA^_omdYySyCqVE_LdmHv7C8#MkRYJ5ax>}(_RbCtKc(i>V6a06n$!WYn^{E4w
zCB5#Na=qthW0hN>-)KP?R-v=7tkOE5vaNcIxH@fwPta{^_+uxe(Dxq4TpciD5jXdU
zhmp>YDIahW5?)Gc+$IO5HIzGR6!pIqjnY6@T*cV0AgtLon;&hPPmlFBHBmcC@CtXY
zG&~!8v*LP%3X7Mv<Ki1!FtZcH^pkT(Zw0>Dlks(D9No&`_%lRWF)FBHtP!`v!gSs6
zUi}!Ihv+(An*N(QP8bP%2T2sR1=A}UuYa_%tMuM}pK4Zy$co<E_|$mT7m<9C`N*Pg
zbH=e*sl_D(&~=K8HQd?|W^LU)9CSjXO}j5es{zmYR=d4{+G>^hlHu(Q<&V}%RY_W)
z+R!S+u5a)MUq^jrBXgh2Y&dW`vFJOUahz5vL=$mEx8%q6p2t<g@b)MDND4P<K^06<
zPBe+#v^>%piE+#(F=Yz1Rd%71qQ0xm<|6t@7hFyUc|`ghlkvJoYq&DR_o$+TOQYLJ
z2(bmSYjde@rN5cJ_4&oXes-mVdj02$DNN^OZ1nvctELXo7>V7`MGUy~&lr|4*wmSx
zwz`F5D%*NwC!<Z+v4%5G{m6Fp+(x<Y$|{%iU&58o`JfD(R~_?_6vqGysU7<;0n)Ef
zqn6SoR&*EOuz(+Z(QXgKT_FMTtxz<A75U?pYE`-bFtkajlNdW#r!e!yY++EMscKl`
zO^^1>qoMwkdS?St!yabi{Nb!`lLTqYx_0_s(@M95xUajj;Vn{lORk~uq1)znEps-f
zOBtN+Bc}1-oP^KHg%`bp%vL`}ORosc&<i|)Mmp(41J>{imG-JUQKhF2eSbAK^sl97
z+@Vqvopcv{^3ouk$I)-P#OT*+Y}97>H5{u*8z5_Gxg<3hqe}>df?L%YLoNq!e<H|J
zb}OnHQJpr_95ij{r*&3L8y0cA=FuK0gjzDx7kiNemhJ$lO5^TXMRob;yX{A3j{<yu
z_B1GlV%MY%oVY)f^)*Nkirsc=bGG}4)O{r5YgqIh%{Y!Ko%1cK3x0SD7h9|XDdZ3x
zKtTdsxmq``x+k_$loPZXV3*?xV2nSe&v`PokS~6AtMIC^RnW#B@@*&MFc~z96=Y*=
zJOjT6#))LSLXGeeEWk5zHS6AOJDjOLlCf0$Al$s<DWBcGY&KQVePqqsmzp-_>N|2x
z+j8~YOVw?;ik78@j$Ccz!*Xwx>!Gu_+?KJFE_c$cX7*C`Rx`YT2H-9;a#`-=t($K(
zFPIljEjZrpB2Z-WZGixh&C50uybdljE+iM$z5UDs4xh^o-nvD{Pqygz$(92A#BM#q
z=K&P@C_qryX90x5zE@!=%uNST*k`fH8k#@&?c+C&FQXu#g)`qh_nmW8rqHs(X?4vV
zm@l1A-rB!Vve2LD+ABr&Nlp77aPV0US*^$TH82VC(m)BaD}#pmAaY#x^^f3ZwU`h>
zva|1eztV|BP00cFYXY5gbEi0X9$SGRy9++VYt-GeNy(lR07>;OwIsW*S$5K_>7*lC
z5kEV}$wlm&X)=(+LcwMKmCT3sl0j%XkTio3>mL#Okb6?339sBs+^O7I%I<(>gI4yl
zh=nC`Q;8TNOT1bEUQ6tX+{D5wH>7G8{Hr%fbPmw3fU%2D+49`}S%PXMA~gK5i8Hd0
z-3C!YLF*rrIDS+EzbM9jY(e>ng~yfT5e|njKCO>Qz7XtY*EY$IOJDs#kURvT{1Qdo
zW6~c>4aU*oRLkzi1XFI?ply%+q??`r<K~D<l{<{0D}ARdyDG8~Rk9?|N;WJRi<9hB
zf)RP54n^&!&XUTdm0p&gcDpWvZ{<?v#$t9R@Plz`UUiSpOI15!5;*j;Bv4VoueZdK
zVk6>-O=L7v3Ra~^Y$IaJ@jCK~kU?}SyL?0>Mpw3-U>BpaE5q5Hb;=zqj1#75e1lV_
z^hFBn*o_+F8udM59A5a(CI1G-vYF@kk8B*@{6o%jpR2pi1@Cjsf6ayeitE15J@Hpu
z*T*J1Z~B;n@sXe7ci!iE?sMD!ihJ%p_w;@4(0%Ty``o^dO=fsIIR07wK6l_g*M6Vt
zxX-n~=SSRA68F@{CI_Vf<3lnYhR*VQXnNDN9Wy%~;vAe0Jrqq__`u}Y>sO|((1r33
zIeb1G<=63b(_`1J%v`zl<rz5QbNMXP|H>Ykj@kI4=?1!|{sBk!2WB`gGv|lrJZE_R
W7(Z)bH=OO9|I$MGBaS(-2Km3^wQb4(

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/granite.cpython-312.pyc b/model_executor/models/__pycache__/granite.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b7703a08f8e94e1c17bb04501ac1706a2ccf7f55
GIT binary patch
literal 19471
zcmb_^Yj9iFwca^+KM8;j03<;Ye25~%mrTjBWIb#}lx&5M$d>FRh+P!oIix@VBz*wN
z76Up;$J3CBQ&YW@if)o?`rb@Kjon()>D($aohCohsqeHuctj;YPUS}T#_g@AKMIF*
zok^$DerulxKpJ#Boo-S4?6co{pS{=m*4k_1KX|<^4lZr^UTSQF<9<gky0dG6Ex(E5
zZgBz^=LB9brTL60ZsI9yPMb59xP^r+X=}z7x3RD_ZI9cLZcE!Uj<|!x+0)L9EAC=p
zN7|k7#62wROnWmm@fsF(rF|KH+@A@=1MJ<MuFcfN>oWE6diL%~H)MkGAPalbp-ea)
zX5pH2W2PzIlxdDPXCm<ki}R&hGOh7e7WSvxGSPUHg#+pKOh>$fg=^EDnXY(OW?y_?
zraRuv;_A}-Gd=O1Oe`K_@Ac^encjFW!VN+&-IwW)_h$y;1MEGN9?Tq!AIv-we<U*$
zAIcnxAIcn#ALcm|_Y^0DU*m*E(J?)(PiXo1j#&-IkFcCg$l3fSaz4g#Mv$}RPvkr*
z*08*-$lLb$dEe2x6hFpFL{Xx>dI_;#9C*j7_4@Ja)>y~F+4D1#q9o2ti2buO>Fd$+
zUmA-(B_(H4IWd}<6~uIOVm33E%%v`;#puha+?D9l^HWo)nW=Nh2}FpgsVlkcz(-VP
zj8`1zbE1?)R)lS-Y&tbTA@k{(>*IKuW@g}fwd&8z&P=AJ5aB$X%ZW3&)GVboWasDR
zW~E#rH!DqCNl@b{RA*A$XOa_FM75COdOn@bXcd?g&y<);%*`dHq}lm7rHkHBVRlwZ
zun{EYl2S6A7SoBBXQi}|$fg#kSFVex^!(`=VQfB)H~X_=7sqF%Ow6n_jfv8fD4dy1
z&u3;XXk|xJGh$Lw0?&**zdP#L*_U@lp*r8_>{Ke3y&%m_h*|UmQMJ#^Co#$e%;oHi
zF?a{{R+^m?so~+X=T1L2dMWYzSI(UNQsTnt;o<Y+PbDs%kDpa)j3&mO7L$S!e13K!
zd0CG<o4G6s0=^0+szDGZlk@3ZLj5?2^lVZPC8aTwynb0sNMa^Am$-T@k)24U#l%c9
zLvvAgeg+>dBMPZxPQ1kCF8dKr-xRZZQT-y>(b;EDW7f2{3m0NmC2)E^H~Up}5sa$s
z)LghQmda+)m(k>Pv>Qrg>Dy$~IQA_vA{tZNndDV5k)}*p#iRCaP7)_muS}>bRP}w@
z%hm-1z5@~_a&aDH%;e<gpWqfuqFFHGzeThNR?#Z(3m|%eO|%Ji#5e?gvSx{!<OSzz
zUJx|bYh2v1#J$4Dofo;7M{#M(acuO$xZ=K&5(IIEEfFP<s+bft%B7_zCvuACCHkIN
zp|p$@%jHxutJu^5C^kvV%}X;AI`yS7IPjk+#?}VBAMm%h9G<FMw&%I;V_)h!ndfra
zF6Fp9pEphM7!+di*1RQe`ynToer$TztncJJm(VB?$K{-Qop}>V>iI3mZ>`8*uH7uy
zu0F<bk}v1gOA7Y98ErUzY<`E90Ng*|bNXj6`iNF(M9f|1V$Si8z+kvPdIzSkgc9>}
zi8*O@8cW2Lnwgu=snh3~ozLknS?K`sOEL0#;VrlZgxQy8Sh3qy=^&yMcSZhP*%eC`
z+jk-S+>AyrL?Mc=lDfvW*W=NJ_JQbEh@ernXet{mXPcarqBFBE55$~`6|q=~jzl5_
zikC=8erncJIRvSeqMSzGKzowudGV|y%}P=YrP<JKVsa+tK%d0)q|}W_X+L>A<gpR5
zvC=RVXCg6?PG+--M3&|+s=6D0JU^Jr%ni<^=K6C<ke^)tEAx*XJ9_moaWI{_JUDkf
zcV%{F@EXY8pi0!lSHuZyK1qGe4o;~=dtmOmbOiM-)RouufIhsZkdXaH@cwXv+pguD
zHOqF{5x(zedJs8M40RNndN&&T)?bnv4;BLr#m0TbU}WWMt1oWU^=`XuEv_ZYeMjSV
z4cF9L4D}Slot2s58+AR%)Pzj0*OY2FPjEGO&)xQ*Hd3rTu>SaZ-^P)zZuq~pWj58-
zlsJ>OX4}Sv+W#!QWcj{(3q9f{X!+=l)-&5HuOM)X%X8D(O4KvZGtcYm^97V$G%cEu
z&)5m&oOzR;Z;?k1W9?Vu*jW>gn)r*{ZGJpvmasWE>2dOo!i!m?<9I0iD~erPB?_O&
zS`bGcQaVYAcC4_MlajDdTk#FFI1w4LRK*Rh*w9#L=$0G0*IwFeh%LL8>??ty$N$F2
z^2n-v(-U3di@v%yUR{25HM!}FE?buPrALZB|B^#Gh4L};_&J4(xoGhc6;C7-SArPc
zJji-N@gx$UPiZa13{s|;vpGqsrw&>!&(5aVGLeSq-K(w12{D~cByRK43B+b;%AaH-
zlJ+6UymOS0g!hNnxRQrE^jNW>sTd4@?2A}CA2x(bRy<2KF49)AQ^>&~&PgE`7mBSP
zmV<*OH@$i|UtP&dp&BkwU!vkAKj*6XB!JNWJYlg0*dSS(6KKwGjaq2yKO*p1cAzo^
zu!UNUEm$<RU;#t0f+5&MyXcrSQ8gN)aDYiTMW^=W5?z8@bZc)O(JpwwK*EfH)PR9_
z1fS@gju`zh0)l^!cyIOiNt+OO%@X%9R^$gOs#E;haxw7GxMEY;3!^EDb7nr1xB~7E
zen~-aarMnb03wmQBIc5chlPo|g9R(0O!Ae)+-x>Qpd%sbFd<u}N{VNKfR)C_7%7(e
zFsccUF*J@N`GW1oKCJXzyvw_rcY*V831c_s3?8U+w?$7LJ2gRjhB@p>gOliS*xjB5
z8-1gzAfj2*m%)Sf%!js6pRupOBe?|1st%<pN214iuD*aJUB6dqMcYBvwx@c|ihQh(
zWj-lj7OJ<rfd0Ot%@2BNj6GLp^chl_!0GY@^3eP<hdOBo?{YU<5pT?AIT5i&?d4c%
ze^;GG{pDQMTVg1LOStuX$VDu3m;2nZ#@ER6(@nby;uSq3uF4$n3zsmEM;<6CVYHU(
zG;+~QSD6*WRvA5FjUMPVpjBtyk#__2s7Og$vuKaFKXW<a=*;a|Z<Ri<`7#-`+knID
z6*$Z&kt1xN*KWk>aWpGcM`*_k+1_<j)ELyu<OcN+%6{SRi@a568)A)l*K0+eT-uyD
zF)G(P<v9!Md4LPu;}R`(iE33GM6MD-D)UF@z)PTB3?kY!;>OZQHdB1L*<3Q6C{w%I
za)eIvcEP~~`@k%#P8vc(F^d9{2pn~t8YAJNOa#IFl37u@glr4efn+W>1D^gYb@6%f
z3_KcZlpduB0#hoaBY-S@gS=<R1O4C>Gpc5#0S7>RbKtOFqj=j(D&n=1q(x(@N17_+
zCNdDtQgi7PfTvxf)6zw%@j3DWRNSG@j*32Q+SnQ>O&=MExkT$*v9LkZFkm8GpgI@=
zWu0ULW0li@)fUQtl#Q67QhRQW^;6~iv;hgu819A&186Q58h3Lk172p3oc-T`4SxW<
zj8wqOVskfP$MA#NBb&8Hm+Zy19(s=e-xPeEvafS(O7`{N3EcAyZ8(NDd_%>?mO^8{
z+}M97BsU%<NLlO{pdxKWx3A#tklh_?Q}^8cfExATLfrwm?!fw2<+{Un`FnN8Hay2R
z>W%?>)HknQDzqGy@wX%CL8NVsUprjrd|d8){O*+8d3G~$j)B_`!)<G}b=RHY&G0d_
z>P2gBoLoM+;f@v~(L$t8j`ZEJ6b=r{_=^lL4Zl8C3^v`GxjD0z`|0A_i*oQVO1X=n
z=0d1P4)v@be(&V%lX8eg;3<Y$3ZWr6G{jz-y72H7_n)G6yFLuZ2v4J~%*_mI>YyAs
zSZwPov>lP#j#L8euW!`t-}X5g321u(;(^4exn4QcyDq$!xt)<i$9G}#uWr=s12zv)
z5%;#AYwjeNIkr58lD8IbE*1&zHv{h@Q!{1q0pvHdQl|0caXl~IMwds~mpLFe9w6~R
zmk^%YsOv<Z8c_E8P6pf*rw%%@idPq^u|LG@L?uEep3QItRDgTqd;`BToNr#V<jqxa
z{$4!LzyfGZbD(HdVyDak|E@{r%`c#5i`GTkBKXd<Q!iP5GWpu3b7|H$<VIeDJ67Zc
zozC0!yo(OxGUV-wTn=4QVYN9iQc_Zw$3OZ%aM073LC#`!X%a;syMl(~q{|3P6XabX
zFGb!IyqHTR2v;d04NozHs7Plh#J{BQR~7!6;wI9OP^E0erarU8ER3D6iZo12SO|Y+
z=W9aEzeb7d4R|*=0R7tFt(KcDtBad~{$<;edFh#AZNshD&DiRtx4!Y_H`cq}>$}}|
z*Yb1E&paEEv+obB#5QZkm+d6oEG0?e`PTBcR<EzOuRpWt8`Pv8Y>d>+6gKT6Yst-E
z&yu@XAHFqmb7alES>LzpT(Ye|R%%%Cs*;iYBR`n+_(xn6{<(4KEP56TNayg7o+9sQ
z@`zta=iw>VN$ALOibY6G<fJcCG_6Y}DoG<0q8VX~K(R8lq+(NbWNccbQA!<yS1B=l
zg(AtLsn7l$Jd&7dxR#FMz)*32Z*k}diB7$PBt11g&0Ad${VgRc1whn-jU_t^f{2Am
zP8Ng&)l_n`poeQ{DtTG3h6^>X9$GW69wj0q2YX9C7Vqae_LTxG2pXY@UUlrfo@B2E
z77TKsj<sPq*i#Cz_b>@#tT&}5lE#`@>?M=S8hlt6zIEc}iINpz^f26VD}OUzveTP`
zbNSwgEJr?d;!Ty?Xymjg4X5vkt-nIlXXQ3Sjc3s$FN>kbvqF()gAC?kGMJqy@f^@^
z8_3LPgM%DbJ>Dj|s;5+sRpmoSXf8--ZYH65n6gk;stk)0(2Yw>!#S?<T*gZoYwbmc
zR1wM$Nf1Lk6$FLbx(7V8ON4TMMug(4!}+pU1@K&jfB~>l8_ZRx0--(>Oa}3>?ntQ+
zG(fy;-;V4^wUosW$%i(p0ZE%+Ie`{;l(Py3VO+HDNU;kJy(h2mSua$b25HShM_W!^
zbd*(+Ahp$rJ3nm*3)--E_r!%>SIMLIfdDiF3p1dsDQ|%Q;0BoWyrV5w%%>qjRETGL
z^`#nc=cj|^p6Q{ydB>=|<x#Uf)SwT(ceL+|J{ST^uGy%e`U>Hz!S{FlI!i-cKD~zj
z4|N$r0f2sBTm`W&qke|2mFTRL!buU3d?o&_R6;PoODaC4rVNisk$#TBd!>$PImGLU
zYou~jl^xI%la@8XK(G7%74JGS>A3{8v|t%PFlJLRGuTE|t?g~FUU4o9CbCl|Q0gQx
zn-ZXCt3dS<>BpoS<PjNEM^PT1s<Lq!gHV-gM#~T>(sL4hC8%;T*~APEr4ndc@u`Y*
zc3?u0N*E9;NAsY`6-J8A`k5@Si!SYw1-?zaq}{ud>sR9ah{p9RX`TW3{~Z-w1b8FJ
zU$X=9w-=iG<>r3Ex8Y)Etk8K<?mS6v(FYBY)#uk<xbx^{!?7jTgHY@0wY698<TgVm
zmOMpwXv5w4uD$4~-Kalu*RpLk#a!Spfl$H!nCyS7Wahk$8;!?h&k1OdI}faPZw!sR
ze`&Mh*$qb<Vw&35f*Y}8cOTtsJpFsl)a3f*S5ei<xz)2!J)h%UOQd*iI#8@@EQTY6
zaE~1BftI@vJSYbbK4^><{lSfJ|N6DU;CXrQJc=~c5VPwbsM~d%{6L!ldzsF=xklA_
zZ%4WM)^eS#U4_;oax2v8K>Z{Opwxpvcs01zwEo;?;E<|XzqIniw%1-ynA-th9^Joo
zt+4-?y#LtUYlSDCm7jR_e%nQwvdDv;K@6kdX_Y;#Yv&4GkI7w+v8h?I{K~OU<+)es
zTN2#Z0kKIf#Q4tNA^=soswT%5+wCgU<fKqB_((Y)9Ywv%>$GIi1gc3nt0<mG?XiG@
z$fLGLU~8A#)t<ox%Gq}0_(E-gNt?!FCdrtJm{s~7DwLMU`-kMcPTn#+O_g8Ht2p${
zyi=dAg5Tz9+d#v=e?)cJ@4y58^>Fp=OAfXW`s8rm`iq<4<4az=zg6>QO)=P3Y}#M4
za*g}9I5T88FP3&=``XDnhYN>BWc+oG$l;MC@58#NR>`As_|ZF=&G4{ViQ`SjTFYj5
zklv!7Em!nKHXIQZ2Ajt<=<BTteHo}Fj-^80BNX~3d3ksMy7O~s@pAy~tCW?zU*dn3
zCX@iKgX=p;&=#Q9eMrN!cw!IfK+{gI4g-=p>D5KBlk#KsfI7Vtn&xY*Ee7aBxB_(2
z8-dQH`8V>*`PJv%dg09%HheMJdEiqg($wuheVf34!|7afs|TyU5`q#s`VmyF>KXE+
zg#k_LYc+A87|~V@J<vfywfIS#Hv=*{Z~)=ov#gVyPrItufWrr;pyu%GkwZ=0qX!~O
zopcG_*Q{}uP$RlUk7%i0lL~X$QHWjiiWUlC1U`(QhJjum_ESLdXe)n=%t4qig%hG)
z<W<~s9$9&EFrm{G()rPzXO!mx{2%b&v3|$)9s7=BZ-~J=kG+A_s!)?^NcX!o<TbDv
zTGHHit<_QLckPJRSAd=w&qebxMD~P1pXeyQ;wZr^wLsZm;GA+n#8weNfM}Uf716&L
ztg1!JvaPD()<V<~Eg5)vk9-xX_MCq7WgNj*Q=ey}s3}tJryi2xRm!*OspY41F4wNV
zfwoscw5Y#B&ryEv(SLK+mg~}U&A2gZ-TGVkxoqEI%wV)R<14Gh-_f#T&W!Y2zg`Dg
zAJD_)=aO~Fwq&1#Wyotl_rUg6;A%rIA@vSwGnCZ`8#9csaWwG-=WTzEPKue^bB2!U
zIm%BQ2hd)DLz^vXh~utvRYzWt9&?N{ojTL5!*-~4R+?fO^YR&=;+ab_qaanY8$;#B
z{-lOTzMvzgE&7~4Fk@%xyO&!wE%VDbqyx9t_M^&KE!AY*7|-|s_$d(uRgKP|C$*@u
z(i=BaM5#DVq?4J;Lh{tY{z|H1;K_j#Y1lQTv!@VHGr|y$%Z5-B5a#{n0pO`(ON{<P
zEuT28ks3zqq5fA5iKKr_U3d*%thJ2QaRNZJOSjc=UYXR1mVu5HcY0Pz>e1AFrGdqW
zujCMajjXLyO}>+)8A{43u8Qay`T*s3iD-@Dh4Is5N&-xWb;ebtE|(I?2u-LEf)o$(
zz#v4;BGGbGWsx9N5Mq5$tF8Q+iidq?Sjk<5wU!j6QuG;>06R5Nt(ep)QQTRagyd99
zE5#|!2wKplO&Q4=(s!w_h2)BuQ&k-P8AY=%`a?={m3y-56RYxr6PcLS@X05itP~#_
zs(xpfhH_aE-v7G6J#ct+JCuikNFflD1F=HjkQ_L)WP?>oAv7q51|b<#1cU8`V80yf
zUvfVTMo6n&jIa}h#*b~BzZo(@O=H13AbSVy^cIGml82tUH#GYGBlo;x4+FI&JLjwe
z<Y;a$H1*0&z3bC*6DjC@MZ)ZZa_b-=?&b&X(DzOi-23mj_cP?(eb3YV?umC!6?)Iz
z>pk~j^hnWPf6I5%2Z^EJ?~wf+OvX7ZcOL%O!G$|Nv2(3Q0aDP@hNE)BQLNbQI#+wm
z((tc5E!$zPeQ+~+aB29yr{%%XGpvCw+0*rj$?B~E2nw~p?uM!D1I}YE+3_foqE@?p
zG_c<FZtr$I=Lu8iy6?HWAJCCSAvz>Shwj=6M@QtNBlp9jOT*tk|6#a$Gu%TVwnr4F
zDnO=$tg4;T=nlS{%BLBxCSv`k4Q?)S(v!%Do&OU&ZkyB<Lo_-|wd#g2K6Q~A?JnrD
zB!dzIyHZcnnjnG%(-=A!ipsv|TH~g#cf--kMljB>x>CQxE)UW#>??7~z*@<wJ1aX;
zsd}R@8{9RtP)X)=rZQbQ7066ZI+(Y7+nl#7T4w@agq8KF87l0L7OiwrT@9vGgD49C
z4ye_cH{Ve08gS}BoM+LRb8A)8d2bc4g4immEW}m;D7u1cn0pbmF4{~S6kVpgRcAMg
z*4Mq33X*TkMHN_+_2%g4kvRcYg(<^c>LT@&sPis|b}-lEXl@wuV4`Wv!w93ah7{>v
zkjF@Ey}`9A^(YofUnlRMk@r*b{(?Nxf=RdG;Vk4hg{kwZAom`H?vR&;r&v`QNAQjj
zCv9b_B3=Cs(xl09!?X(j4e~REhPuxf5rAan>nTS2Z+ag_y9&|6a`f<>uWv@5Sn)pe
zG^%GCg_e^t{yZm_#~#-0->5sZ;W-4q7&&;SO^%#i8vC%Jd3E@$kvB)y>kF}CGV~OO
ze}3v`r+(e=<)yQ~iL|f9ATCCZFOPwO1xI*jD*Tb}y;|@cxaT|YpsxF2edpSXC9^3|
zyJfc2!;H?th(%+|Th2F~YyF$ygOCc#0-$2o%(Hix))}b$KV#9~;-+9?^B4T0sm%NF
zL20w>a{BTxKC8KGqN=CixQZX<R`?g6;JAw8Fv1zT+_$fwl`8R7kJ*f+^a{Udmqws<
zu(R#rsMszJ!IU#LjK1_2oq5|dakpJg@2_CK+Jl8+%G+jORx6lUt+Y|d7{sP;6rRgl
zrs-6Em&0+Mw#0ev^>5})*k~_c+?cyX*P<InPVT(*8ZYs$d-B$4B5S)G(p`ERv`MCo
zEmqDbSoAg|A~9xG-{G9G;fU<$b)cowm>a7)H+jdjfo#k5Ejsnl<vsc=@f^?1T(ZEp
z_zU;o_Z7Nh^h)mmjpBxBg@4_&M-M5@U+&|d{(gFI^%nO07RDOkvHo8F5=LVI(Xo!l
ztT5sHIwk-J@g>zjM8aD+@~Rq{-4Ur;rbsz8a*&F<RJ&%fSkWN2#Nr(TnyIsD;o{w4
zbkB0a%7hfnu^NeFKE+QanL^nPJ`1}{F~{sq6dzp%P|fj}dA_PirVlF3Qdu+bykeKc
zxil_cC=NimEM3Wv+9}6hkw;QX%&QW`e?>)t0Dlu#^#-$0#m~)=VW4{s7aO2nrZZ2)
z%kBthoyr0RqKihPIwHkYzA&IzSz*?q;$mTDf~vT+(X;Z7>=oF+CIC0+q+6rD>O(b?
z^-!zYErqOMR-!_K$|Mq6vOk7*gZsV7-r?GCv_e;kW6#5d=7Vzc!OiBO&ETOW_k)go
zf4OhT`=IlH>}gvXUg<Yb#D=f0*xI3jyF%*|a_bYnuxz%T-SD4XalwOTsj+MA%W`;d
z#rhz+f8DzNt@}?tw;6pNq<!B|Vc!vX-;vFINAI4#x9{Z5v0t3rc;;F8%tg@XKr8TO
zpmkMTd-1;iP|@E~@VCqU_O%1|{ryFM_&+^5BKsd%ajlN5hl_QsYXZzviuDn)y1?1#
z+Q^+IsJvG!59>m=PToAZ7P?;-TNm#3$^&PS>qD5d9KKV3zwQWL9)>${OdF1^Sc}np
zh3FwUdT7P_8-EM6eCO%={*!;>Zz#2KM@IQl7c63`RTnyVr~b}2H$!JuEXBIe%8B1p
zHi4IN6T7BBYla5sX)JhJWKYYg@M}+J>FYe#)mw`5oWDiaIjX48zgyqvrlt91@^)$&
zRRqAe`7ost-;v%R?=E@&p1e`=cAu`_q)767v^M@N0#H6aJbmW(+<-N<woszS-9w+y
zqxAQA-rBd`@LuG0q{Jb3ci+$Ze%7}|!IGaF82Z@VVkjEdy5zd<k`)nH6ZMVkz}rr5
z4z6wJ&aezf@1$3kcK(e|8ahy-3P^Lw4#79Vy|S}+%S&;mj#^vRo?d_M&Y`<jX76xl
zSnfY7cbzM7NO}Lz``N!f`Y8ofjU^3e0{;!CbF{5rVwja0OO<O2Cc!*q5-dM5#mxeA
zm4Y21XdtI}XfB<C3p!0V4$oo4tm!np&}llL6LeP7>%g$NYCJT8emVwcw{2SYEL~f@
zv`{B{gaFfc*6)!+P2Hn)(L-gS&uoA`(<=n`sAG@PYRecwh;*7lSoGmCpL05D%&-v<
znh@V%ycz+_if7UxG^2d25E1LddKi#bpC@KiPQ)5z8bpRs&~gh(2AMWB1di0E=yw9n
z%}QsI^Vwv2bPVbn*b5SCQEVzdQfw*<Qk?9P0ZX#$cWO+`{)b&mQ2eTFWx(gG6436<
zl%sGS@)Pt*u|ro&hmVqsH>Sr`wIzn2Z)k@|9HKo-`*G__@ORlOeCE2+7uVa;)rx9D
z5n;z_)&;;6WGrrAMM69k`dKpdwxE~Hm5s0Sd@i8J=1qceW>q%sLOIe{Fjp3CbYxiV
z%zlNJywG1(K~<=WSR8YCtJIdq?XqgRSs<(`n%M=EoiLSa$h8@DaaC(ES6jb(^vnwV
ztFfw~f3;3`>9v=idCQL3GVt8HmI@mL1Hqytpyu698U&)RB05eV*qxK(ru#k{htl1j
zjZKgejJXPPW=89D^tx!vJ)-Byn*~Fg3TqV`dOD=1m7fdvf+$4?`OKkZL)WXvK^t5B
zOOvrR?Fu-2b>dviL0@}J59@0P>BgL~3v!B;X(6#4jUC6fA{3`TKw;^hkViUG?QkVc
zS4h=+np0}!r6-gc7Mo?!bl;PQ9U$H0jJ1^2ozk0B$v-u!`yqu$&SorA>ZH&ndBk5-
ziTckGQtIYsNXH1USfR)K5#=F)qpX#b{*qo96?vONjJnuV?8hLhV!x8i!Z1OSensgt
z4T@juIB1!AC02?eI_6NZYI#OjKiMp>Zr`U0PQcr7Tdu+!SwEMppr?j5`Ck$`_<QjF
zutUpO{5&n=XH|=u@v^RB{IH=N_O<Vh-VOdDwAptar|>~Kzjr}e*R*n*?(X9L{=)vF
z^8TZw;_Ld2uL;`1g1_gUzh`}<&^IRI&p-Anf6s&Fn3^K{d%n0P@j<9_?cDnL&CrqU
z26qHH#n(qmVGfE&U+kVQR_s3T)9JUT3*9H>?vsV?VYz#F#d6DY({tb7`628hy4U;f
z)@?SOTpD@c3$9$-XdArmJ6QBLuU;#(9hULuKfL1punTyWx{QvkcNY#Emk%8O#c>RF
zA5&qrZ#%fifz9S#s24|7^g`?Ya}<k5k<1i}c<y%96b|LveY&#Iq%K;fHTvhMqEgk!
zkmN##rqHQe3%itz4`@lya%M`#Hx`x`Fln+cwjSH`9o}#pu23{e?;#u0CGF5A5-TDS
zutg_Md#g&JYlHSsKR!{lU@AQ3**IWwbe!sE({`0YMsxacg=UXS4OYlas_v?(%1|{8
z)^BNuMCM_QP{V~Iw-#<L6g>?q*Ec$j-1WkyCG1-A0N?syD$uNcyEJm|&=Oe?!3KE>
zfjtMwRa2be!x4UfBkPay$5Rla(mS&{a%xnusbnEbjbV_gWLQJj{^xOxSWR4LuQJ%3
zS^hhXnU2TsSpyA)K(`#|hE0C{?fjh=Hv?yIkYJbxE3V7Q9DZ7WUCXcvx$ASHViUw`
z_^pBo8n*7}aG6a3sR1gr#sZ(Cc;>1dS2JTp1F+~h!S<-eU2YOnls5yGXf;-9R$=$8
z>P$`2-=diGJ9w~XA*RC&H5BWDD9vV7%1+Evw`lnr%3&1QY0RRuv1|8YW-fOfm!8YF
z{<WV>$Sw?3ne0DN=6}%aKaN(RGsU{<eCTicNyAT@-)=58w5`=spwNC)Za=zFf9w|x
z?_UEI>8LH4p}pKP+x)H)XLGvLbx10U>g!Pb2;kMovD;N!g%XtNQ#{V#u?owY$~^3!
z$`}w>)I3f4&|R*Q^xz{bI5glq0B-BeUQN;6cKV$HF^d^z{OWDgAQ5h3GOPX_Xf)D)
zgGZ~JeuQD?r(k&(+Nw-<rS{{GG`GY6v6~%Stp7dtZFiyPse3(7tv0>sdH>Rq_rpL3
z?r6ZSXxnP8buHPDjaWg4?CV&2tm60trcvXu@GjY03C^kdAz%~S94;$}0)_ygT`JBh
zjpZo)EK(~axoN0hK*E1W`OcGPtWW8`(kre1FC_Z^HDx64&uL;#!Gq}kdyA!kjEB5o
z5W12TmQ^2nU9GkaOH(PrHTD+kx<5uF-WxDE9ldMr4ND7C7xY;BNL_#jsSEHZU4pvc
z(XzVW(XzVWQBczpPx8h7M?QADtP#UD3E>KD0ligd3+Q#1wt%8`YYQkYY_bN|&%QT$
zdlVPst--s`{rrWWz3~39eDcB;y_XzLtE<@5QZm!CyZ5J8-@dAbk3aeI6F)n_!VjI1
zEi2MXK^I0=UG;zzUG;#Vy76d2W5*SHA|cF9;QF|4Viv!cg5Oh^oyiU)FHf-VgA+v1
ziyZEbXC<PPiVegQAXL3B@lE<LMD`R9PRwVr;6@oNd3Mi2sUb@tx^1W0s;U>)npq?f
z@>H7rY{P&6yLu^!I~G~VNi{J8qXF#>w2K;`g{JsfK_P_;?WxP)6M~9lNeEN+u{4IX
z6Z&r?XvP5p<sXPpf4QOSbMmr-BRUUPZE@Q_FDv_P81~x{?E0R1X|MP5O0ZvtA(3Ch
z!VDts|C|!+$40atk5Mo2e_s9C<ws+`N_4iM9QvI4brS>amvYJ_Ndi;xKS{nyf3-T)
z*;Z-XfTjbU&!w<TnC_ayE5*wSX2qB0>Boi`7o*<>!GfBEGCL~~^OndUNwKO$899wo
zY&&@!<aNSRY-5a6sdm#}q3Bo1yGb6c<J+9NrcWXagA<iRos!HT75L+_zlK*b^F06Y
z5XX=5|Ap)NfQx*<1%JnRKH%y<;JR7N$=`B=zvaI20e9j9?&zl`3vc?EgZGJx<Dcd~
z;Ld%(Jz0+Z)MZAJgX0JOjyw3N$%YpW-ga##A6Tiq)p)aUn?rDWlz)!rgDcXl>o>1&
za}?g5Gd<1oEvp@G#oml<a}+K;Z{kd$ZPSQ}Z&?|-b?oM`EsnxlW<-}*^!5vuNuKXp
Wt$nNU&BnFSI|n|&58UwTUjDy8bg_Z}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/granite_speech.cpython-312.pyc b/model_executor/models/__pycache__/granite_speech.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ae4ef455846c31657daba26800d8ff67cb1270d5
GIT binary patch
literal 40569
zcmd75d30P?dLQ^|Us2c!Kw&Qc1PKru0gwa<u2{IQ5=pfhl7bXb4`hK=0Qjmvig3}9
zJ@PbYcPuj9HbHlL2qvBgvg8&zlN_@XC!uFzTXQ@)uGhs*Rll&O=~!NRCX;{y+Di8y
z<N1B}zV~WjL1cU8_{<}C>%RN$zI@yL?sxyVsK_bc37dZ<H2xJq_%nLZ9`*$<Yrkp|
zgu6me7!!hqpfPM1GvL=0HbzWirigjWY@l#+*b=dhStGVFTf{zQXJN*$W6a6YxW-)U
z*BvREFdBr2XRMgTu!LQaqOl_8w}wk1rDLU$vavGuZVQ)3ykp)-#aKn8a;!2^HCDyK
z?O|V}daRoH9pRct?N}}IJHvI6`my>*!&n1*cZC}x{xLuEyTeV9=CNkxFABFrHjQm!
zeoweHvUzNCWXsr=NZVK&3o8z{N4Ab_jdYB4L^{VhSy)N9E7CpI9qAeCiEJC&7U>=9
zW#OgazDWOAKl7J`w?}r2?O^`$@XpA<*Z}i;!@DB8$96M+MR+i>XKYVo@7P|vR|c!X
z`y%_t_A|dPd?0dg>|kVQY$!53HXIol8;OjLjk0gm;X{$bV}~P0#*RdejvYl<O|Ujt
z7pxC91RK9;89QbajtD{jyF#!@-18yEi=MILEVLP+En<%zdV+;+LTIblEuN@GO#RzQ
z_H8r1Z4vwPzMW#<+VHJiESmZzD<a3yb2-CeZbi(F7sNcvVs;{C*9&64!eVwKX3q;^
zzRF^5L(JY6#5~7h_915f3u2yUF}EY;ju*tdU=+knQy=AY40{nziYLTVAMMn7iRCze
z9CsDYQ5+UW#36C?LmSWQLp95>FWoS<@1AcvHa#gy;`D^rH8UN);XgKf%6~)(Oow8k
zKRPRl6PNvwnV=Z%{t=}+-ELIu$6}%sxEK}{+o{0pY-svYyGd~jO;69n0x>bD*iIs?
z6bLKki9j^gZcvQV(@5qX4#Xxd9~J|#IZ0GX&PrlT3WTP`;K<DMWav`6S#ga7CN7Ko
zRdJo7Qq`BTbF3!kXU>an$J8+AYvFK2O>0m}h67P?bS@IPab`9anwgHGT<2M7CNdj4
ze`8ie`QDM4@LXj2YyedYi{X<fIv^>fug+Z04MM`QSLOoKvCw>ga?*?NoSF;ALabUR
z#2ZvV`Kb#h&mTK=W_0M}_^XGG96NXZ)i0wj%Cv}q@Ms_w7!6Itl!{E);gA?s8=W0|
z;(9>36h+@gqR69sXf7C<K?5elXmmzm!6;9y0neBRdUFHOn5ZbBH>;>eGT-#9lrs9D
zzGCn&{xeD`-qBUBinHOsgcuR0V~U#xU6>7GRMFT<y@!uY&(6i7!*ii<5GA1-j!k30
zBVsUwnCHc5)R%h4J3+%49KR&S#%HyL<b}s(u87m2d1QkL!jqmuqDVk-sc)A9v*M2o
zn0iQAIvfto_Pug=28Bs%AlfZTR{IY{E{ee*+7wmX=jLW-XQWv4<jku>N}2YS=?}%J
zg`GXCRA~P5nEBBODa7UwhM{z5E;jQeF?8uN<rF}Bm6{ON#`rZ%zHv#s6pEthXe3)B
ziaQdxaZyBT#mUgyitW(!rEn;ES+O3b1%}@v=%&ClCMIe&cWF+HVhx>}#bS$IMoWz1
zv|^l;6k||SjI%MkM<>+9%6`-ZEUf)DUhfK`00b(G87}~Bj+sQWXqj?nN9TTk5nIq0
zGzHBXz?d`=s21%(%U=9Cgcqc=erV)5>FI2GI)~__ym%QO(kS84<Jl?R4M)3E@u?7n
zFJm^f`6LPeRSHf&9v0{i(bV!!av%})PtHg>Fyd)dVB}<JMnjmXQCjVT?49!I@?RYE
zGf?A?Vq#^5Plg8lr{^$5B>&9hb0uN^`(u|y|0yv{aBm_e&0LZKk?!maX0kJwnTuuD
zwbLK!7Q0y%qBad#4YG6S-MMYhe>n8E7}VP64{B{-jm;}vixp+HPz)C_KSDoRLboa&
z)>Y$LSK-5qQl1+&9tlLRD5U{{B;%}7<J2Y5)9o(BK0ZDjh=}9kigTPM?_8Mt?(y-f
zbAhn>#Wp@3oS7IOmn>AEB{n0`9Omm%YNfE^@$mqM`!op1z>N7GQ%s@h*ayNIVhBGy
z+Y^h-_RNN6yJCQEVyx@!xq;ogt_+Ah;n2mN*&DITGt)h^ntIq08W-OdC$Q!u{u=GU
zAP_DZ$Cv;Yb<f_A_8?p4jKRZJ$S(=cjCPBC)hkpqEQ<HT_rf2XcxZZf{!xFj^GKrM
zi0nO@G#^cy8=qD;FYS1L?}NSHu6=m!(WYeYkwnW8xtf3Nds^jR@-9t0sHW7(&b^7I
zy>ivQq<LT3d_X#-m7238sb}a}+YTqQB!dQ#Ey$p89*dSQh)FEMcg<tgp!r>4%oeo3
zwF3iNmDZfak%3ToAleFqIVVk@o=}$=E0>lgQE6*LWP`Q_T^%x<6WUFu6$=}8X)``Z
zC*gcxP|Q&=JQ=0*e(5w^rHWv4ltW4aVv+H1C=!ZA=l8u-ow_$jK8w7g1dHAg(j`@k
zr3>+dy_WT0PUR7SSKbWIUEzkI-FP~5t6Z(GbRMDEmGx3-k-*#Id_ptS5uG1=`I_dZ
zy-o$t2%?(B<u6%3p=_S_=X3Qd&8=TpoSq-}+f<GcX4kBe)vVnijUZGSCFc-1)N6_<
z8k3|G^!ge(uaiUTf(<#Jv^3JvS<RV&CrXR=U18N|u+%MAt(31!JRJS@)Jmh=KC~tv
z>@$zS;$5>EELA)QN}Mz8b(Zd1`0|y!iI0hH#6&j-O`;`e7OkR9wDTo^WkGKabwOCM
z2+UyYtfDI~o=tQkZjtCA>@sN&+7Yif=l~{j=H%zfd2{Ey8AQvZb3vFi1dHBvkCiM4
zZyUx+u{1o2hEh02d2YeYNYX3R;OuoqYmBY4ci_1z#DyvR=08&uBk$3u?I{|qyyvDN
zZkV#>1>!Ympl07R#vIzWxbY+7hiZNJ>UKo~ky*fOi4$iI4qV5h66gqXh)B8;nvRzz
zGo+VN%omPMiz%Ln7$#gdeudGVQZ34BH%S-pqm-(c1ppaz`UD`dQpCyxdBsYNQfq;5
zIV34zWFAPx!1yeqK<9hEc<#?g-T6s=5gA5z!ohm1^WQ&q?^vpCr(Cx)S+^@ycT}!B
zny^==eeEgVF4?#1VZH1-vQYG-xMex=xOi{EzL(8a#epU>G#FJXvs+KVjW=^5dzh&E
z*}z_g=dKXb2R)|8Dl~LKgEky58xI4h(ot*xrE@5+-6$Qvk2FkvlVT2nQ;@3gqS!7H
zvm^%9(U7QiQV33NuUD`xM9U_Lr-+VEFji`Q=gW0{emV$lglHF>cZ7APP~v@3yDe3_
zORnAZuqs(Q^rWFb)v!ly*z@p6vSD=HVk&X23MPk>ce@>#0Zm7uN)ZU7tj^A!_XKNM
zXS>nOUom{e@fGJ?5RV(ICbheeMt_2~kPtWimf=?oH_aQQqB8OxZ4KVE#Lb1)+b=ug
zmMML$WfJS@tTC4s8aES;)kx`^wzxHJqt*J$j-V-~li!oZ1;>JO!7vH3`(5`<d#qSX
zAGF+ZTr$M%A6d0LE)l-ApH^I1Xzizty>a#$->=xITgOAew{rjzbt^EXu=Y>k{F>>m
zaLYEO&t0uB0wpoM8@2hzz)pc~iVNDDzG;jb3w2bGaSk_4x2%P_D{i`^uZp0FfiUwe
z3mR*lM`>uJ`81pLKl&Ry5>*SZ%0W<yO&p0*C?>osmMC$3N)?;k({m9O<7>2TyIqP>
zTr2CMD9coF^X>!kycD~vR8lGcx+xIyGg5|1_GEQ3`cx8;k2DP@YKH@8=J&tz&O02W
z6;suu3`abF>gARdiUlh@KF1j6X!qXm%tRm@-Oq@ntn8Mk)V~kszX9A;)Tb)8$Q4_b
zZI63LlNE;+4yU~}caPsWzW8?1+qQ5hUF*NU=iZ(r>E3~blj+u-sn*kS>*;i9{cX>h
z$++3`)KmP-V%%Jsa5t}7g^HF$c}rsRUb%d4!p-3#hc_n04k|kk4#jRLR*o_hS5}=E
z)qw5|pjy&JI7$(9g3hH&6BNeA>>65iQL*83Af}NZ4fxvbV)%n~DuY-OQ5=dRgLNEw
zc8Z1NB3(rc>F3G0Ne&H4lvbSo@3Rr{`wt%ELsHIWL~aMqZ~xm2%N;6%oS(iUth$AY
zp4+2$kKH+z@^;JgcQnyUT*HDR?e+2S4%yq0^mZYnt~FJ+L$2FF*r=pBRnj7tv?NPf
z7cA>mp{ijqv|Rttm8=|HaHXpo7Jp8z?pW}wnr)7Kzcul>fS+}*P}GpF_NRTD6IEN%
zbsg(AbCGA&WF>fN)!?a>H&U?yt`b&N9Pn`br8v=n8ZOIT$2u<iDcbdGhHPvW*U1OA
zwsqWwi0TtGToQB$VToHL{Evf@BOX4c1Myq-xbP2)1R-vS8{?+9`6JVZ>bINLAfU!I
zLD~<%Op7V+nbJXM=7R=c3&|}Av<A%t6XLcjZGteRgV0R+phbgNh-;;q#;t%ew$l<3
z(0t09rCa3xWpaLnoUg)B9Gp`Q1*6g&1rEc(yuU)<OtUky06}xJ5cZUfW9^1>$SAfr
z___dn!7;AJWV4wK@*^m|4a$5j0-~LWsX|p?Ra8pVWdY`k%M+r~*QgGT@$rdpAPSZ`
zN{C5a27V5iB$~JL{V$&O&(;0gNErPF9Kf7)k5FE9`})_q7HsKK-`(0fwTrJWNy*Z!
z3)Vk%l|F53T{v?4i0rQWw65vi5l~_2^6Ip=HeK16u4-C!2=xPNf~DSxMX>4-+~v0~
z$*y{Uo~G9K9S<BS|A6ctNcwlD{3m4piG;iUX-U&khg{N~=o^tsMt<liy)|*W`ByHj
zTCf-r4ZX6vZ`Cf8G$rhQMo+Yt<#Rhkn@X3+p$=ipkMst7igo59L3u_uNfG*1LynJ}
z<K#4wvp^2@n^L59?SzPd9sj@}{W?M!pUHuY^cF=W=O56A$8i1|cqOaJvM<rRb4|eS
zs?%<9J}qxtwcwW;-L`C6er?$$`?s&!D9A22OK+DaDmxOT9kQcy%|U_Q1|%wLUA5ph
zKM@7l1z*>ygM3cG=~)QNj@mUBy&g2wTbiDhl&@Owi<D*6i{*=xi?woT>#B`{?1Hy;
zv46?BxJNGEvg)89r%+M1II>i^ctZBJt-2`4EjTMbFM{ux0EcsS)J%fu`lFFSYi}Yb
zBhYXNL3_|Bn!wXR&M2Bxe$LF^tQvPm!j7Otw1H!@zH1q?=f$>wBQpnW;N=|P^&LuM
z&J1S4`(xRn<<p8SDqbB2N@vh-VrFhS7FC=8gfm>m&-pYRIHATm2>gguA7o5Hq6ie6
zN)~~RG)bj#Q{i|Tc$tQv^`<3g0B9=!IuV*(2emJ!&>8uU2JqtMxCNk7&5KEFRN{!!
zMJC0n5;9Jm{D~@#nQNjXg@R(V-7JytLMi1e6m5HO8Y#+AH%S26tsM4z6MpG8$@w41
zc>qV_1oix))NdTfa74>w89|n>ih%O?x#vfV(Kk6sXz4_0hA|Xd*?9M@J8vxwEDt3s
zx)+?^-*I4Z>;3L~-OE*vYkD7@Uns`RF7n<!pQ`APD>~9uwRdmaxsj^sldJlYRom0G
zt?8QfRhv-Rxh9w^^YP_`I-Dp>5C|ty*RBys0cPD$cyO~Ofe}NPodeR*GnI{9d61wD
z;Z0LaAK*CFMMl1kDP@iuRhrkrX<jz0oX(Mukve`EI!k(&LM?p6*kG}7a%Xd}EIE@`
zv612f<stfv_j(MR`h52b)>PIgQT#tgvC(~Shz4!Q86bTGdgZF#WL5uy`$=W}VtDz~
z!#&B$BcN`IYZk}k;w=gL76wZ`Fr038=0oih$T|b7CBorSB{}~iIm_gnB!@{?nV^cW
zlSGb;|Iy2E0DL{dz9GXiM==0ssdv?aUrZJT^Gu7o<nm3cHVU#cn3rhkP1N<u-oBOd
zvUm3?B_e=Yx8@>Wv)R(NY+Es{oLjNWZM#<myg!^+rypJkD!MR4jNwbRtjmGDlb}<B
zijZIdK&TMVI%#K;C+oXK5cNX-HC2Yhc~8(@I2<t2L2@xBv2uZ)aVhmVqk3q10(+y<
zS&h9ptyonu#Lc$cG@`@}S^jiPdjmyDyHXR`bDCx_TPcH>{fuJN>v+ooN)K_h`EH<f
zR0zxw=*WBG!ng|Bh*B&>4I+k~7h-7g#H@S}L$B!uF$(59kCq^<UaJi2JynvGz3Pn-
z56zw_ujb4AGJvl$^_lRO?+FdWYls9jb7}d+h`41>;ru{f8{_702tng-8Z&e@asd6!
zpRBgkX<?b)!nqdW>k+ddlTPy$im9PZ)I#sg8;rBxjAZln?yK0c!{#jHRwNpheutco
z;k1`ZxA8;!PHg{lTqyzRtFq_n>~&oZ1%u)=+oV#8gEQBsvxJ<A>pJM_nd|(ki_qfL
zIZ+CUQOQmjJ7^a_B4RgIIzsOjY%0%06$?eWA#I@`n_4-=s&4+f2n6cuBg`}cG_*+s
z1g}182(^JziaM%PiE*N-=Qn@h0`1ls{a+9_`loO>{q6AFvdMPeV|z`ywkcKHC)f6+
zYWK^v`xnfQ?Y?wlYpQXF+_;0@>R5~}xweacqxkf;Qkep$ioe<;?8B!ORd?UK^X3zG
z>3b(`omez1Zco*A$h95Iucf+1<*w0G*IBviY|{M-#0Hhl1@l*(-~)W^X?I!5-6FeN
z($%f>S6O%a^~Ki{<(t<X79T}(ue*h+>bs#kAw6o!-6Okur~)H$??|fmjNE$$xmF?i
zKXfr*suXD>N}3^2POfF+SsniT709%WFtrAO-ULj!X}oE=Y5roFE7pxrXztEq<!S2>
zqCmj6g0TQ~;-+~(q?^_l%`Em5f>2ZXI@Dqjw1apM|Ke6aaU-O}DwJa~w*nk2R=9;I
zg~D}->wES{FHDtY%F%oXEr3}H!LqmkFhuQp@Ycc<$(i$>xUCSEO?50>Kegt>YUMoy
zg)<b9-s|?b9rz415miL7W8Ft%KvAUp!PY6?rH(2UP?sPSH=a9xh*fVd!Zs#$u@!S9
z070L5LJWnae}NAi3^*s}rYA^k2l_{**+5V+Uki!XrGH5gzC(qYNtz=4YkL3Za5N76
z-_SQFle#kqBN5rGn6Nvq*rqQ+gm)z>{SgI~f-T3siVCS{UMo&scY<d*+`6BWXf}XE
z?5_mpb2obPv3R!{jb!7||B9kOlC^A0wd{~vb|hN{WV?UCdHcxXxhG|nciZo@FCJM6
zrZ(@C@rNCfvH@`Mo{B|t%GW02&(pR%Aba{2Oiz3@_lxcorF`wOuYI}eVbjA`9vL3>
zKWzA<CUN1lr0+`$MQLAa%C}YaZCxIGXp=h*Jo2W7UXh1hNu1-~pJFfO<h_&W>iYXN
z_iFAp-fK)Z_keM)ZwE8XB>+yLvgYm^ciu?5>r?J#+1;EjsiB?UO{to#GX6@oE(cTH
z!!rI#hSMcwYb5eoGg$$FoFMK>Y9L17M5OVwBDA~n$w;CPBto1L;cLeCO9XcrsF#kC
z?@!2CB<CKSY<`~LheXc*MIUIJl=yk4&_9r_^gVOcfv7C;uUha6qOz)a)kZ$MP}RP?
zU9Rj|b<nF*DE0oBqOR^Ox6~|Mc>m1@Z>|dPu86-I{&x6t@^bo-3d*4$3C7X0mQO#D
z){aU;f~#iqBU2Xu2W_3S{(nk8HszqF5$qB%EPYrMgNN10xs6`bDM(5-PzYffDTJF@
zWWTy5{d_fapOzSk)Uo4)PSByTI$)1uHs=wR=6u33rW1OF05XUZ9SpOMWR3<>K#1t6
zV>&=CoMyvNPbOc@$3PoIoFKmpAis<nAV+z6ZL;cJ00`4Wpa&^*@;0Ue-JiKG1$%*n
zu&ALauZB9w%1AR%WplG^GXz?JPA>Rl5Y)v*jvU_U<2di^Cen*1C}LC_Uu)EE#c?ul
zLzGTqMkr1d2oj96gSi-=MyNzcN-3GlOs4S&lol16S_Q>?E_Ct&f$;F0M7^dsGNq~f
zZ|=O}R2L00vAx+u*VY%#YMt;RHM8gg<Uxd&TgVVz1Rve^+)J;eT6fB=JCnWv5IaSm
zRzUz!pQ>t;tJ>1O1{Hc9PIZpR`16fyNFssyI&$a8*N!0*$EVd>^-Pv`raFdY{8bI>
z`RSRACCb}CXVnnl<l#_+(9!ec5;0Zuf9*HmFf9Z$EB}e>n{bS1p!j)DCdQk<!#54s
z5-2F@$i!ngX@D#%w@eH@C+ucQA0P@u9N))}^dHIj0XhFWg>vlziJ@D=c+PG%1L5=S
zFCJ7CN*$yzJ&sI)D1CK=<(48z-*zCh+Q$2P@9kYKO4jZKdA(3{`zl3n+;c2-C4Jj?
zg#GvSFLx!ey{$$lu1nbKc;_dmqR-)=!_)?bi2fEhC`pOQX{Ab^fd@F~`{qF%4LK@R
zG=yJ5Ln`vI(W{-14@FqrX0g<3$Om2x`M}F-P9@|ZAB_!WqOfe?1tFiH1HucYrZZ_~
z=*A3j1(b3`TOn2%YC46(ZH2=ptxRpl!NeF&kbTZPfv=8+hGH=&9D`<?|EIb)5BG4K
z<DZK{`^10la^U)ws9zGpP|&_6`e$dNAx`o+2}J1Xm(gzjIZ<RPnUgc&@C+EpOa3=z
zv9&C{)pj`+n~e_k^aP~0L)W@zq)R=s!O5Q9UEBJ*xApbz*wN1N!c+q?lth0J`<$V0
zlq+*`%=a;McJ}fj7{!*S9qx;e9uPn_!bDPf5ULFs4`41KqnoA;P{z+HNhy#&P?X+|
z4eBL~tGol_RSMJ`vM(SA<fP}HC7sY^1(`;noI*%b1!y@)vsg<tMWVyJr*J-y$db%N
zZ549UQDRoDewN&r4ntm^I=S(JJZa<#wN>p=)J`WrvT|z3YbaiWAe{;kLo`2vmU+a$
z_X1<1@qH*s9|^?N$&yS-LF<(o0I2H1UkjIhWfZW@6>HIQ3EDK`>=z9nK<uY4@h?yR
z?P1bEy%-8ae?(2^s;T6g-v?MgvKXc??GHu$VhFm}l0S^Y4_Lo}Y5z7qR-*X!1n3G1
z5&fjhiG@!bBQ^_3w#29u#SU_0{IUqn&p|RG@<kO_R&2!$l9ma67!hQNVwY58%%hZ|
zT+-w))b+36Q_QiM@vEf#JbvXGbS7qKpH^`k(p0=jeIl$?L~*_r2+xU!Bxy$aAe)#W
zP(gdn(_m>)zl}+nw!+v?2a7sEbDHqTRyZJNp4f{tInq;Tjhwl2W@%Do4ZS;|u%O9`
zxa6p=IaSvq*Y(g_b-KDSRoyOEw}W8ufHJvXe6N@Ypmaqw+YA_$E86hxEKDXn@m7*@
z#NuSCp+|1$S*d<h@z@JF)K?u(KnQ*L&X*Ujr5d-%joVh*9|peN^+<eNagya$=_5(f
zl7q;iy>iFiWaU1DyPnk6GsJCJ9!+)bmGRfM_u*B!?ck$Lf7JE+z}9D36P~(?Q?5GM
zRkvjLuB&P3JSW{AdQ-cP$-9qzxAoYQvbuB$$)d_VtAde~D}>F*4H?P``(GN$!Ei)l
zs$@!sffy|!cIkcXKLDP+6sct>w1dQCR*+cTv}7?0I)p_2>VqAl!YkXAC9|?_7z;T<
zreg~l*jn5Z(^qyO&59`<+GwR?r>l@`Nt0z2tXbSfGO|gt23r`3NR(0DlOYjrLU&}U
zBJVR^GcgLur0DF*M|vrY%yisz#_dzp1#&V$9j|b0g(<+b{3mGokZ?Ahse1mK?V@Ch
z-a32S@poLJBkue=F42kYa#EJadw{+Cc|my9VEj!NdR&M7nRs!R9>X1XPqk*gXueBA
z(E5)Ju`Sv=V(B!77M3Z8u$!J^QAQzisx1>&^I>*$X#UJ^1~0{n7{<(+S7<|LCZ^_N
zbeBh8S6|I4wOfmm`Q32l5iH4jV%xNU!oB;ET@yImEQU0>I0!AMUovuc(zq9iv+B~P
z<(2u3d#1K$-ZY=qe^WcPkj$@3xLFeS1aUkY<(T;IB-7%Y+MS7|`QpX#5^Zf5gcrb@
zK`mA0cZ&9$^Pay&F8lMc!0Xh(=fkvi?+{Se5$*dF=$8B^j&&Y)#yy4S!$%GcUfe9D
z9t!Fja|Yobl)eatY_OUO;*Fq_z#HI`ij!`ZqDDvZYYW)P>cM7)nOqt@K5AN<&j~F;
zFXW-uaa{h(Xum=D>T7SCzARifw7a+*Uiu5<%hceY4E4wG|A-0&r@ooOb>~O_H`I0^
zska1UI8dutgW|Q&1Rbn(0GUp+vu4u&sikP&#7U^PDd69c^9SVoALLLoIKB0U<ohFX
z{xdlwpH(aqm*=LhC^kuCO2E=zQJ@1y5T>Ib_i!*0`n*4-*sJ7xLe6n=z79um%uPoj
zj2E%@M^#bGGt*)eB<IXbSg}mfu?XoW6m9}NNQX6}SD<(|8G<4hYX#>*6<0Jk8yLSL
zO4DK($3#cZ4hJT1Oci?xr-sfSRSbufIz}`GaXgM4Z4J&%#Kv`!Li#T#0yHVp{3Ah!
zw9d-B7@b$#M3ZWI%+gZ|XBs}7zf~L(j=qxmprmbxV1EQVXNvQRcw=1kyRQ+EslDOQ
z0FD4rXDHq*QWVEFaIQ3n<Jfkhl4*!&#{}mAo#c+QJQNd%*(k9l#5d<YZ0|z)6MUQB
z@*<*C706s9nv|#}==)d&Y!_sSWEwkDjeRoy>~#yKg*O*_KLv$J6k?oq1`f#hYdnyw
zIJn?Ud;Lq>Q!U$N{CT&7e06zmU;X8MP(!?b^xjcUyQb>;<+}cKN&S*xsdp)`>`k=~
z%I$*>zbv;OPBb0?<yY@nI0cP2Uma-?E!8KhdKTR2mM!lOJ{Vk%BwO~TT88D8;YYon
zG$&eylP#zC_R7hpRV}Hi4jJM<ck%6-#q+89Zn?gD#r(UTZ+jjYk+0ABm(KEA?YD<+
zU;P!@1aVZLsg-`Ny}ePQ%KSv-NaWk}Gna%z8I7spCb_t2sVmjIQ*PdwEQY)?U0IW=
z+$>jaUWz3vJE57=xHZ+-BRBT^Gso|ZKB`R(y($mAn%sL%-gYk8cphS|Pq90E?AEc{
z;Z$X(T-mw&YO-=$qW_3odE}E<AG^<{J!S7r-I{u4G89#Vbas?NO69I#gHZ0fJ9uX>
zUE)oZG|44Ry5~t{O}a{L5JZ_?&%!8rzq4y$^mfhdcJ$=fVrX$JQMyHTw>_z8yx(!J
zW9jny(+{STH9Jx@yXBhQiR#@8$J1`_KYC@+_!~pFUzgntDR+nL?pPjO+4|VM@6)2P
z_g=sCda9^VE^15_b;v~>A07Jm=m$qro%`j^{i)7la_6yB=V`g~^!JL+JSi(rm2H#D
zwxvtJ3Scj)E?v`%e!4q#XKLMLE%z*pd~OmvXAP?*LUGx9kz0|)p~b67PgBa%E_>RS
zTb6I8dWPj5%n-Tf&?717Ilf@RA;I^4?$*yO_W#D!rLLvDOI`o0G=Uji+n+4np0IEK
zyqq#j6rK4gJNx*@t*xgTP5-{pa;nV+z$#-Uec;O9*gA|*E>wJjd@sGH^`9s<IWXZN
zL=V9OdEzsp$zp%zEVFnLjXkRZejk?qn0{8<_E>hL>znVtdGF0t6Z!WJ{o9k@Im!G_
z9iI2<Zq<EmK{#iTDBlVE*B@OebQ(d=NfAi}ilm6Ng=L2H(2}M6WQFomVX2|LaJZ`c
zl#v>`^3KQVQo~VkHg@?-p(q)QxYiq-@BESkYZMR~kjxG{zkq%I-cbk#aTxhJqWQu0
zUxNt<k`#6;wh2fTpo)S`Xz~zK@8S@jZ-+49p2{4sez3tMytwv{;N%JSu$`W#DrJH=
z48$zd3?PUi(iQJkyj!uAZi!nN>jbHLMyQriCM+c2QPu5XEeEWSS}Ua1>jyClHr4+E
z<uH7G7+BeQNt&6PjY@xxK<Kn&1SB@<8%RR=ez}$R9`@1EJJ5h<NUI)`N`mnl=uVSE
zeZe=sok%-AGdUTB?T%kZXy(*R?#@iE79xtkm_REiZ^(3E#y_D+{3`Ox6J~g-7hjP*
z4On@VO-n;}W|m9kimkv9zS_leOM`NKSE8yLas&6LTn>?j8v5&tKesaQsAAn@tf1`_
zM~3NtemljC64{Uj;mJNNQHT%05PYF*?ZsOpnT-)A^(v!#U`a@jU_wavz?h*IqL?{?
zda#mX;I6_LIKMwtJp3){&Q|0B(U7nDzU7`}F|vIA<2OHeGwB<|?gzlwjaxSs>ysJf
zO$la@=;+P}Qe_=6X5i@rh5c;csg9aO&JtB+7#Xnbj-AiU4vTZiv?}0dIm&(>m9w8u
zCVotTtCdDeo3_INueQShFCR(DGzT_mYhY~>r920lNNN55^$v%ow65=DIP#7V>l2(7
z(<!!hK0l@hGQgv4sZT)V1q2)IM8F6|RD?!%APhLw6C`lP;8gFZlSnbd)W8*DglXIL
zi?<(i2<5~4$%9Z3FXcg~pLzQsa~ipj;23NyEvLLkV?qF{0R8xrl}`adRN;I8MGcH)
z*H2y|N1d(C%8_W<yoU+xF>B~SDqS>|wHI%K%9vrQfErWWh~0HFcGoQ$JB}POVt)-U
z3R87F|7`a|^#v)4weYN(`n9mkZ`_pCU%EgpD@~#PqM8@z`OFzrl&|*+@PsuBPe^}_
z!slJxZ0?aB<Tac~)<J%Ic?N4Rskl->Q8;HoR#(O+*}3qH>|8N36@V7>Hrw#0=!)qG
z_WMnju-#8<S1Dn6WT9HcnJHd+f(o(SV#UR5xR9bjZ%|XrqTE$|0m?=C46${E_-xI9
z4K|TSkccl&9rZj!ouYq$d~#6_PG6?Ht+Kau*_vt_mGS2tU2qVdIeF*gQe~>CPj2c<
zdi$BI8+wt%WT>Gl#~vBJed-ZZ<_{5WdQx6-cjuj*i-E6`h}-_8=0MtAL4TxH&?EbL
zxUS_JiSl+3&b6d#Squ$@Y(;`6HFfNuM0K);3M_t7U3<U!UiH%M<w?#uJt|FBkGx2E
zKnD-o(d3tsXcs>0VkmSff(}Jzq!rpUelbpDG4y4GVNjopOqj)RY2le)U}JqDW`*j?
z4>@(v7hs{7FK!R&K!>z(M29eQhRy=L1hamE)I}592HG<+2mRw73hE_?sXg?QkNRBN
z0_S<$zQLAH)?8K5`u|GF|2tHG>pNtrGeEh4bXeX>wGPUygAaQj1~4O9N0Po#((bFf
zZ@*^;3+(IRZ`k62YJ_hmf1_+Rz2EboXQeCId@$)7;=!JKo~4^f-;R`TpX}R589o|H
z`VQk`mZAg^4N?s`_fV~Dox64lB<Fv^|0oFn8Gm8~e_}7Tj2ak&LLTB!=y$c*mQihh
zS3~^pa>P%W<sg0yq5S_twV}2!g*Hr@qw{|cgUKmit~}RC$Xz1?!ekZ+hW9`Ya1C@7
z*LOOJ3ecrWoqmXO3KIn{Qb&Lp%zSzPD$=?1KxTW2cnw|ajpjQZ;1Cn{LGY|ES2ZTr
zKFh?^C^8{iA5X`m`pG-wNg#<m&y{Xr8f}?8Gq_&gVk)fUTu4Pg0|h8iR|8;}aNgWK
zIoS*5oH(3$OE*c$@Pom*#y<76XY0R_a*bj_0>*eNW{S<`I3wWcOJ4>Ra)jxC>@CLh
z;-C)2SgVha31_Gn|3sJ@qnwSqHhsZN($Q9mmen;R&P7{K%D1n)_UPK9%bx@voq1e-
zo?#qs|H|P<laF5i<U(TP++!~VI-Yp7h+<;&{A2G07FZ}Xa82F4I@(YkkT(w`t9Rw$
z8Io;s)=Hlt2%&b-`x@=0lU*u+Yg9S^$$)vH?&1dGlo`O!&Pz>1vn^vpB`dBz-!i#p
z^3~$88tC(_P|Um<=(D^~Tooahbk&9fm_*bQIKsCF?UeSCLwudIj~p0g%~5@0aSJHF
zwS3Xot7zbd$SX>xKe?2(ZZUZO^1aId)(tyk-;RexvhUDB(NlK`lki1W#utty-G@FY
zlHC_bmRHFovl{YP0dzk|5WluyHiSGhOz^Uxe-|~FoFrBB5Gu+*zroV^%xbmlW{@Ah
z1o-i@TH>_S>!K<0YoaOmb<q_391Bps6PXd=`}Fj_HU=l3{lob@m}OytDGO;;tLE5V
zLbn<=tjOk6<_w-wsmdLj^CPMP|NNnm^CN!s1pqoSD}|Vv8o)?4(2p_zPO=xStCkDx
zHFatxYxx%1GC@m7dx-vF%V|H{Jl5`c;S(0y%L|qYF>@Ngq?4?Ls4SxPwB5fAV$j(a
z6@0U^G?pv@S0OgW0yaix&9r6<f{Qfb3WRI>V)$B;iLLnvjGzznB^;~Jz7#?a$fFSJ
zXDF;O00Eo|oKS+^lB^O6=xxQCwDM6_v*yqIYW+Pbyl0&-UJ@pZZ+S^r7;DwysHhgA
z!*2+`X@c<}wQuhjzglTV{F_!S57bIWk+Jqn`a-QiZMJGLGQUA$hlvER0SVi)#Eq3&
zoLG<ME1UyDYqS`dUp-$(UcP$oXZ2!VCY|OB8a{GnwNfvkaG#<dbQbysddR?f={kg5
zr@6_G&B*t>^eJ2@$gAQNX%O%Qs2}2BK=SY5oAe*Z`Ezn;RdPzfP7%f<upji-2y3s+
z;*%MEKY~zLC&HfPC6VuW(mo}&Hp4L5CjE%=VQ7=68i{F{srE=nH;gc*;^u1loFG)3
zoM}Btwlys*SH5e=Yt4Wy3<fX>5!b(WqJA(=%5=?qXcE`7x2d&;&DojB7;S;tqTHhi
zelyewH5MjJ#H&ofjkXYJpAnWlgKvMK<Tuy09w4I%7<J0!zoI(P8*o6m<Y?l94+at9
zf)Sl!?|b1};l-V)+HSeFJL%~m0dV!*%Xcm>N=v<8n^`t}Z2!Q%Qo1tyVX<5}u;8No
zEIRGzA~I#Sym@z`b@#)asXeFVJ*SiIGii@E<?+iNKkaBW5f&`Mfl8P-t8XMDbDFZ;
zLu+c+F?rXq#M$$Y>p&1eJ?;q<)gpHysApZ1#@|1#?O$_Qi#*SqLf!V;BkK;Kv=icj
zbi*dtPkDWLV);U%w*Rj!rqVJfZr5#pMse3nb~+Y`)_DbQn|>-Fa}=PoLO%^~{`LXv
zP<bi3eZ7RvW<GZkA)OVS9ny4J)kB&%%UN@G{?7c;#m7~o)8|gt_)|3<a!m)ww&I_B
z){n|WiF5j2wpAalu`@mV!nPC6Vu)TwN{~5=Sy(=fRjcEQQQ<9sW~Rf1bDS{z2H_P_
zX`CFYr9D|^70J?2L7lFknYLK2v|&COzS;#SP(Vtc3E`NzxI*#*vj$OEt)QoevI<EH
z^mr^M9kOWk1-{W^=sA()Gn9GL@YT2(c#NNXB(MWh))s8$OEKvnEzZB7Acu4We#Id|
zLjW>i$PrG^HwGt;(-%MwXfsG`IiI0Vr{HL(m6@8st1KFW14?Q33B@RbRZme28++m_
zbG8?94Y6b`T9xFiM?Xh@8_AjEK|4#B^zDNE#hR9-(f3b0II(gS`?$A`FO1x-_&yd(
z7o8%!AP-%5T=&|-si(zdw}W?Q*bYwR)@1S4^rqg_rU7}=KyuUW1on})biDuegSQjg
zhLT%wL~s*=mU`2h+TK6;;AEnAIJs#=jTC<nPi#Mw+;UitR8pUSFs`KUPSI+qP&>F<
zCLlyR$?*a8>=&HmV7nTGE?<7<b(p%Iod1mfnXQd8*zWEhc;@J|bh6Wg_ywg6V-+^?
z>8A;QOc7S!G`KWj$L9jPoVKM*A%6{^I*OZ{^k7&ZnnUnvQ*Z5EkRka5uV@~#K&{UB
zkFir2G+%-O<2Q|CIJbeb8+Po(I>_Wi(7|jHTZ7Jb&D!#S5mr~w{Y{ukg(+4K%(e3K
zAjR)`#@xXYu?XorYC3bU6ohecuuLo|M9Ls$!Eo%Mlp|eP&?}Y~j=>b3HcnlE)ZSnv
z>R}fvHqHU%R3T<1t4BAwGVht%mKT6m5c@u)sa9KBgFLG7UJLeN2N(!Lu;!b_U~S<t
zgLPsJ@0noz1~FKF2OGq?4f}?hscn3>c&wfs2;I41Y5on$Xc8OLS~PDEgV%zOWx){=
z8`!*X2U}pesWG@|gM2m^A$@kVqUZd<&0-TqX@j`jT$DQA&7z%r=<_W|*@8aWgz;#D
zzZLVgUEDl%`uPzHZWY^bCrEp+Q=8AY_hW0Yo8{Squx)y{UF?`F3HD~q^-kp5Cw8&)
zl#d<jg0BgCus<taH{#LvF63nw+i{+0d)C(;wi~z&Kz$%jL*ej@1bLsv<{c3MwAn=x
z=V9X2dX=54RIFFj-)sEWaS0HgdD($E?BCn3UQxff**Eq4q(nx^6hnxKTux7@tO)BN
z^3(sdy>NiKH!ypoAw0=&!<a$d5Z(j)(DRE1%}}Q#;dS1BhOPx+b~9-clNpbsBO1Ed
za8%aGuvzpvPHjlfkO(a`O@yPYveHEYlvFVd=_uu7w20j_ae0RBkbo|mG`~BCzuu@5
znf;=?q=yMTk>c_@!c$jy%GDsd8WyiVc5O+QH+<^xC93x%J-UHlrijDne8t5saUeE5
zbcqr6x`kEZu825i-T51+e;&^bE%RLQDLOlwUq@1U3Q;y2o#O&sQIOLm6%z0=I*mkU
z0J3c7fL_U{fn-h(fvz$Y;*2x)ZeZI{=g>i+QA_b4H=Wzg-XJZ=A;ZcQxI_~FX7j{4
zl@-%<>d^uiJY%s*uxriQOx0;E&|Tnp^Peeyeh90h&htZzYdfuY!r-*#0+&R74F^<L
zFJa7>Dd?=x1)HZHVMheU>0~%MXSZ&R29ny$$KOHmY-*_XYxo%>H`W18{iu19U^C0w
z4NFXzNBTW-h*g$C6ov4+;!&%hS)H+|@612}vy#ef;wX)gz!edvn`UD-pr!<JP`zJe
z9A_oj1uHf#P^Ol$8s^vf*HLhkB%WAyc(O&zx#~F^E;Y?+4K8dFq6y@bD{M}e)}>0@
z<<j<4X}?_BzhF&QHK(e2WTtAF@jm5zUAhhjiRi?U`U^g<ad+C+0=6$z*(O)EJt=Qo
zvL@PgCChiiB5EV}pU3uEGEUP2%af_{Ho3e_=aCrGV>9baPt5>Xr_3^4lXax}s~+h1
z6_uvkjk3Ej<vt+04=@(+d-hI7cL5eN>*xC7M?;w%L1HJ?KElG-7?x%fz;TAUFuXNp
z#i6}=3|Ia`>h_vI2VlVX4vx*mP4AG(x4JB|Q)Czon4r^T-*ID12N8ud$TG_HlR7&V
zt;+1s1kG8%LpK%+VUzCvMSzrF=*=q8^u;A=Ey^jyl2wY1adJz^D&Ylf(n^rN7SpI=
zSO+h7)KcyBpq1D~*n2b<I*61xAOhR_FPo$N$^dfoW%Z<^a2;}6i8#6~h|K6>#C2g<
zCbW<+t&qk^AtPQIR=;VSK8oC%GP!ELjA`J%>l$T_jFKG-2$FSir&c!{`BA-7TQXsq
zPx}V3pt?>#jX}J301>1ia)#l|_Z@>VAxVObSU;Uypp8~e%`omtzhbA`e`JQo81&B%
zyj&WbLXBR@PWU6D0{EGU&#CO4=lF4iVE%nW(aSS);h_Jb=<gr(U&Nh90UR<XjWDu&
z?gxU(ZA80QdJp+2HRBiQ+AUxN67OjT3HU`nPTF<=A%?5mvh3m<rwS2GhLfyxZo>q_
zqSD*+ZqtrR{0&8kV2N-Mg!MYR?~0$4sK<2<L0s|^r1J(7SMmyG*YGH|NgTunTB75z
zbpMZL$8wgk%x#CRt>fpmksA4J5v%|lNeIC>lc-vIXHA?x^m0_;3$nRN80_~^9qgIe
zg&IE@GD>XPz7kAU?^*Cbba#L1-c+J}|08p<;SlbsN!K;sKYs6cV$0ye(PZ5atP?$T
zRVQ3c>GCS@`R>MqYje7JbE<hrZXQYupG!8MPq-UDEv{bd{%FU?dq3Fwd)~y>{f~<e
z;2<h4St+f5Qs1=Hovepp%Dz>Tp>+G2$wWs}O*ong)p}&N^`8%>-HpFh@qXQdI_R!$
zcLF_@*K27L%{!9yI}>#Slz4Y0F+`Z|%G=YwCB7ei5Pt0Hhn%vc{PzA-`4-p#P8PQ<
z4}G_|E8WzSY8sH61|AxcO@p^RPauoQi}Iw>pZ1<iSGDpJ35m*16jafTf~v|;OD4%|
z=;UW1mSZ2sKZvJ#j><hpQ$1(oo-?VQ3v$neWc_QmPNQ=gnp5=$<oW~Yk_H@?Xz=`{
zr{vbf+upl%cR(#{l}op#N_*wf-c;#;Tsn~S>>>-$wd=6`+?K9wPy74R4Lzxb0l8ry
z*|0m+a8PbIm~0pZK|t2g&8l^Dwyq0{ElGO*VpU!ZDi%`x(Vz-&045B73K8;vSp{wK
ze58}rg#?mJO^VnHJYWTgA|N^=?*T=iW9ci14XVIQ3P^$fger{$!V_~?aon;+E)Zh?
zsndV`atQY}UdO>E|0TwMhQY!C*33o4pp%h<aAGqoHaktP>dR{Yh3U}4@HuQg#mK}W
zpcjkA?4z+`__HxR9|#HY5ofbdVC*tKoDa1J707B?c02V1L%8QKb731*hu_MObw$}A
zYKPm#y7^^edP=S8Jec4mq@_9pr&@}*a}a8^S95Bdxq|Igc86A8>DfgM`cDC*XCQGK
zPHlBkDLSxir;bBk;;=zDgfj-QnVjm8Z32#7w3hp^AxvE~gL~z0^8(ZT&BV&GR-)(A
zZs14UNLI`?t03m3JtfJE;m7qpxDZ6beXatJ^$EUcAeRuHQXV0#6W*s<CHQGKfN$I}
z151oUh?fV8CDPxTKlqaHc0)AuEdsTdkv+C|8idA8_e1wWiMHLzhQU<B0lDEovH{?<
z_DNOU-T0k2U|za>Q>wf}F7LpNGCt?$R>4(#YtzD27>DmzwbAh^yU^H?=-Qv^8j-t3
z9u0qDNOm2U8;%o{E^bcPo4N3m&`b_QAU2e!g0-JVvxtJn=BiQMTm@~%u0g=({D<GY
zgl*MwGu9_!nUKz`rUToVZG19IU)M~V+(=c1R2Ia^(B+1>eu$iEfDK*~+u+@yZ-iLC
zn2s*A{at8No-S*kf4B+(?qv2B@c?RNgXv7`3pU|#QDkQ0WdoA{><X9<(Wms_NIwiZ
zs++6E>zdE3`b;;iHxUZB^)(E|5!mXP_6MN%0N{Y7n+LfNaxEa;AkBDg`@EA*@enw{
z#f&rbtFI53g%#CEOsRsACOjrs<r$Qby`-}s&*?Mg4-NV+L~+Mq_y)_LPQs8hD~P=n
z4QB9)K_I~IUhPrW5a6DA6P8{PQpqDbv)XwheWla-CRLC*9N&bdG&Prk=z2$OMefOI
z5{|pl-L9w%JDCY(5uyi4@&+jb5p^*JT>;?&eh!7H><n<9hV>*=M6X#J-A38zkA~^$
zQsgo%LW)Snk^su0?R)&!al0=kK{c`q)d_(9y^PMl-^`W34Lvi^l@oyOBK6Xi7-13A
zLhBV>Ls7*&M9flKnc1XJgf3x4?e)A+0Pk^D9P%VMdV{54{jS4VM$~eYf_V|53x{dU
z^^90Ah&U3Vhdhs0a&sJHQ}2!Jx$%~sSVJwxa&I8zuzq4jlqLY{wb{i)Fh3Jk$zUu_
z;lJ@5Ug`AXcF?y7cjH3YoN8rb9~v9hyMec9DAmhMwK+xeEHHh8q3s*$bk50&by}w4
zoKqokgljT57-zuIjA=eJTj;DdB)fr_L_C9LJC$HBj#uN-R@_lQKXhe7R9d2Jn*k~K
z*)c1pF_aRvTIt-iddq78o2e2h2+WVXBrf_Q4&@IB9sMC{@{aIqo6vXAkn|q>cEhse
z_64$6x>WkLzqit`;7E86et-9HvTWo#)yvnu-hcbX*Y+<RPL^+dSiN9Nl#PI{Zfsua
zUfJ@vVGwAl%=xDcgLj;_Ew`iVCIRPCkKQ_}iI>QR^3tK@q2;S9O)KZf+-joZ!1vq-
z(+z`kTDbU`faD-|ahiGez1>T%t&~EaAO$;hwL4dS{!u_4IGU_ImVoi+;>Lu%@h6{E
z2o*zypD1M`KUuRQWt1eJzf?KgV}4LEyxsi!w!z`uR_*FAHrsQMAfX`>{;&NioQ-$$
zInw)31M0NjPO0*qjG%xMuKYGI+H%Q8cm+vi$hP^7V4BE=5wp`MaD)L#PRizyO?>HL
zGyIaa@@V3pJb5bH!rK?Eeog_gUKz~QOBtdoaoI}eH|uJPpMKdlj+_7nFOoQxU@*+T
zO%vqG2H~WW&0}iN@cHaWLcn#msrGFutBjldvX(DzIJ-P3>Zc>D8Xuoosf7vGIa~pm
z3(p4qq$NaffFn^q;7lf$JZ>DKZpQZ0K(M6_wFDwjHEMDJ;TefFqg121-FB>CHKd5z
zsK4fsm5P_PwFr~u@b$UZwr(tfE|8Xthec^q5X^j?P}9KlldmNDhULv8$?DMs&r{fc
zB=e5l$=cmmN>6=l%e9Fe$L01DvhU<V(WlTaqGR0qmOBzVkI7q)CyP%c>?ar<nIi<I
z^}tpSshY9XgWvo|J=F>QUnb-~kMHatgeu@Dqphyo?TPtaF9+A2Px&|0at}&?9!7C_
zs<>IsP{27gr*%(k<r-CI<0}?}23)6TVAm<)?yh&Bd3X*xKrdeVSiQ#i-On%G3@_sk
z<p|k0IRhK9Q81L<(n-_`nhtTAcE1WoQ;uf>BR=W)+SO5n87XLSa;Z@XD~K7E4Y4iB
zyc;h!oKE@aj2K>aIt5e7DOByb9ZXdY%Jet-@HIHFrQoVexEj*s6${6nR@bMh`{e4r
zl|9Mo0}vY(L(zomZeR<vC<HAVBH>ttlyaOZ58{5-nVD;J875oX5<y|5A`^=*Aa-HB
z^lQ`^zYa&=(<QV_GJQ4$&%#5Ska6QLfG2sUIEHurXcu*4bl%Sig}!nbE2I<Dmw0Fp
zPeagnmkQQP$FSVSN2Qo|6$75QC^4!j8c`GSl5l-Msws_-w$XGC+0O5HxtX3<mWM`V
z1o>gV33qzCn-Z?J<x`2yp(o|OI|Fk0*5%#F@*N5H4y@!`*X82PbeyhvAYHQs@*`YL
zR<Z?Glaaj0qTQxP=P;PsbyV>d+Dyafv5Tivh?a9l3N?(arJe9#08GDN43a=*g98n`
zo3&2Hfq&dc#|+|1x6vc*>aHE@M%q}GzCq46$)VW~Hl1xPa{bM$?K?j63!MhvaI!-#
zLuTijsW*F3cXVcn;Pxk69k^W=I$2e<sj97V)mHT0?Hjn->|qhJZ?fQq;!+8$;qn{1
zpH~s2`AGlQcJU5*>AR4#XDGK3Y-B)F@o-j291qW2!tLYFACy}{*W}&vxM8z%^XjA4
z*Yegw$mr!jGgaIx7x&`CTk*k!{UF~4v~jU_G>3rF+d9bFnvn?RU6xAm@}5Gi?Lr*I
z9iD+mT`dg@kev&9K!b0kFF58+xnU)76FmQf+TQna3n@G2UDWbM<OD&CT_|f=+MX<J
z!zOKU1@D8Ufn;$<!rt*b-qWc@Qo??bFqNPD%xC}rtXSqdj))o)$PCHztA~go$pAl6
zCc*X7-5hT+5`>5mbO<3*#Q~aY8nhSgop!}$u0u(L#Rq)yQYV&9;+9p?8v#wmZ$EzS
zK6Z9B7GQ4#942DD?EE3Ln@M$mdXZH6-w{47u1^*B$i+SB+71|`Nc)=d#nR^xPr5?2
zheC{gv5Z|q|1e_(LTQ|~VMu3&*|eIFLKj8Vz7@%I6^|rh%Lwv2P(IlFr^f5_!vyK1
zXpcThmr>wGw0-tT4G3#2K@-~m-2~`G=q2wdBo2?muB1k_-*m+7(D*RN9druergOR)
zIa*kbR`$jEn?{6sGGeBnEpEx(_{=&!Xe=b!(zy^<)|RS0?u6|%wZ@kWH{Eg9l&(3F
zX++$O`?y>mxwY-Un?;DHZ{%jhE7D8xz~&uJ_lBVQ_)X)@qKtk_jHVfT;ze4?nA;vm
zNY%N`g)dCJ!^eumR1gf4kevz8wE<?A6~bIK8&^ztHchB8(zh^l^F9_&7wF?cb`dgc
z<R$$MecnC+CgaA;oL|chMGz~Y##2QS*Cj}nAzlN}$Gs>A<|{8u>k3+ans$8eQ!%4<
z5@w%SnhA@rf<vZor(=iDBgoE(6uMfa0;iO4v!JH9rcOmfp*x%CZetdc$O5H=EofSs
zfiSzM7DhxSX$6$)#p}~I$}TNrn~_orny*;clIFLrmNPlfIIQs?d#Jsz#b8ynV@Qof
zBG$LPSQ3#t??PH>(r=SP!zq14&d21ez=1(GV)Ce}02XsF@kYyVd>W!dgeflS2eo0+
ze@~S$Q_=jU*55_?D9tYb;p~S~pA`flp6i|YJue5M3no5FQ0A{tAaHbzP~l5?>AK<N
zBP*{Yy#ou5r!McJ>$|R&w7-SlteW!gk^Orfp7^9T>A!&6RnzsG7f&R%97r5|C2`=@
zM9sNdC(=cgi=E#s+WfS<?si9_{*^?@tIr^;@BtT;*C!fxtb|tHNYoD{%Z3x~;ZMD7
z%XO*tJ#zb=q<8Ov<4K8kar1J=<C2{TW?-zeCRN%kmv*P!CFzP9Y<)sBU)F<*7|Was
zR&4s=N@RY^)Zt`pKe1f?ZE0MJ+M4ihdq(n-1uKdz@qYdIk~Pcdj8ejfC^*LzB*&vU
zhu+NS5A=($)`#K9Mnh0-D*(LoB~6FcC~e+TNHD<#A5gI?oFW_Cs=0xnD;!r>o68i-
zZ--}gpzL&jtB^5XW@6L<qmvej$8ANyysa~6V(DBNeVIb)d~p|SNr5=k+YVE!aXaM+
zP-ULqtAVPFq%cR+0AN893?8P90%7T>IMI#!J!WP}l85`$xt#DX&@{;Wn(-t3OIl|W
z<O{-4DgYSN%iOZBX{*iz=UwL}jZ@lxN6sI>!9i=buK#DsmMv+vxPOU7LYPuSIgKN4
zW}Zv21*7A1NCG!SO-_PJfMlCK>i5GrrNDKy?l5==T|M58j4(rO*Z+nBqO?_%z06fE
z(@RU0WUo3PfmCz;B?T9S(q5%izJ$U+k(CG)?Kw*h*KejOy5)-QRK-5IV&B8CTycU-
zT{WeAy|S-2<vSw#j^GS#S#7GULoVw`l^v4H4&l}(f7eQt?B4}e^l3%wvNP4TU&dd>
ze%!1?mI+}etD<YgAXoG*IG<LxEM2|VxZu(5kUG8mmRvWOEZehSds<wXsP2}FyA$?q
zP7>1E(;ixHY%Ny8lf4!{RAXSi8Rna{`3CBTWM<H-<%p0r6&S4V#?~fvH>f-|-fWZ!
zaOcpxN;P#KM{oevzz6y@ee(xi9?TZZ;1&%6Re=pcNprHeC1G!2EmnDw)2G{er4hu)
z7{UV6PGZRMi#Ir}scCQej-5NRvw!z^@A$b3XV0E__57jH@smTRkDQafLzA|0mJEjm
z2|MCCCCCRjC91gC-QKvY@bXNMTh=;3#Sz|=NW8;OqueFm9&(tVglzyHrB{+KNldSY
z#N@C|PhvnONKtLNonqxlcPL&PrT9AejN}koE;UiupO8b0l|%zeXZ>Ol@fwW2mOg+_
zF;36o_OoC>k^(m*H^rxplZYc`*jV~~ie;Gu+YyugJ*E8<au(_PJvdAdc963%Z_pQV
zIxv@_Z737R!dHDleN)0*ov!Iin5#asnk$^ZCPhB5q^lNFwewk#v%#7$*C3v?bk%6K
z>|5@qD_i%i@SlhMkG$U*{ER}@Oj;D=Fl-n#d?qx**4X?i{XFddG5xF_HSD1~xP7ZI
zc1X*^*}OC=JKEN4^g3^-u(Uj_^^*zuRSWzSp_ptVuG#3VyV>G@>Z@D4KxPziUD~Pz
z0a<bA?Wn<PIca!W(Y0zJ5Bs_>_g?%~Ty`KE7S?I7V2j}WqYsY0f9AoNH36@yR;Q(b
z)eFCrsA0`Uz6N3cuwm6!hT1uW?!Kp++CD4B%Tt))+<OO=qz_iX4@D-qaZrortEa8?
zr65@QRTstZKq+UH(t-cy4f=5@y=@cr9yFx8dY`#GmO4F8_>rf#nw4OqH|)Uot&GYI
zyH*|a>J)NHpdhzUUcFjGK95>L!iS5`JJyOR%x|^~8J_YT|5XdUuzsPQT{N?PVPS3y
z&Q6t9FSah3xCOX`zgMp5gKF`r1)nHQ(Zab~zBL=Yd8`;+&l+q9IC18SW=E@~?P+o8
zd-J#ES1s@(K3(QUK3oipYthN)6v`_X&3Di-^ybDL!in1La`}$cB6{}-)pe`I<SP*>
zs~5N58Cxx-w=%)${j3~5b&^roSpzGy!qW4!1{cBO7X_jiOqCuKh@u_j!_C7*3$a@@
zpSkd+Ca3UjmfB|7l&;;pYNFr%o$U9iqxLfk-dWsrBYYe-(b8#uT{=u_i_oT0Jb^oH
z2=!rqxI1uhf-Pfq*E00*ZV<;S5sS!ID-qC&1;}jnhD5eQxU|2VZ-q`zcV})*<R(o1
zkWxAkQE@Z2gV+iPCL}si&+L`*!xLmGg$_@Ud@Kt<5DZf)>2!q}p*zF&vpb-b684b`
z-MZP0j6~flO)QvU3YZxaC+1K=?QAwb3(d|q^W)50z92HY`8YJsHs9Hufl7O!*sP>z
zH;2y}c;*6zVjf?Y=t^WmKy6f}HQl@k{7!39=#_jFts*aR_iR7{zd?It5^W|(B#}~T
zo{PmdN@(cnC>9-{kVyC-ksL><E)XBat0}slz8A6YP=1;N+axk5ul8v67>>gND#R|J
zr?`3pqvtk`r!j?+)Iw$WSQ$JEaE>^M0ID4-8Ubk&K1;0>$8s?on(gCv?&7{VoLzvS
zI4B)4R755Tq^;z1kkiQ$u>7Ph3g{-Mha8#aDZ_sx{FdG#=NsgFk3JCL!EV%I)_9n0
zIc|)HOoZ^W7G;un37cV@&r=)A&=BoE@KtphKE=M5Pk{Z>XGn`bA$lJ!bRZ3eXMKX9
z=g$P!4~4ED3LUc0@n=HWe-zw56dDsk;|~Py4~2oh6wW4vvp*2}e;{o6p>W{`!r>nX
zqdyROJ~x^T#%BVY&z%{c#bAVV+F<;#TQKbVfzb5>VHkfu6!!nQu<3K76(0mRpL+zu
z8G|gG2265!)6O#XSDAK}<2-qtF(LTYy=8`jhQ;{0K)>r--G-_}=l*p8zw7=p218TY
zT$`vHlFh^GCVE{D8hwVgw7Dixdr&qHt()++zN^nrvo!qvu?NT21$ftI4SqxYvhicb
z2aa_C-u1(V3kJiErHk)}9)#8f@~_VtOAKwx!yg~}0EysT-&}8~Uy|Ox@!-a~0Pp%i
zLnQ*5-*11=zAnJK-nZ9Kzj%=p!PW(MSD}$*Y)crtDZ>`ouqAEYly-EdOSeIqW;Cul
o0~W)kwAuQVW4~}LZLUn4J!x}E+FZTnq7Q2>#CgWzumSvk0Og<5A^-pY

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/granitemoe.cpython-312.pyc b/model_executor/models/__pycache__/granitemoe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..17109a28087ab0dfdeb81bca1b00f0215f037cc2
GIT binary patch
literal 21202
zcmb_^dvIIVncuy5KMB4Gk{}6Eq$rRgDUsC6mTbv-*^<b}w(Qu5JqW~mDS-q?`T~?J
zF1S%zw@Yo5hH7R<)F!FmY<5kJy)pNnuH1IV?o2!5ot<`gO(sBY<%ZpOXPa*SfI_-X
zcV?&kedj&^QlOk{dnF!x_uTWo=X~e)J<k0ruh+%lid()FTYZt^enB_-W!H#xkBQ@M
za{?FU1YR)3`GhHK;)yoL%?V4`!e~p}ny`g!jJC$@VLP7N;`W3i>|k;BxHI7jyBO_=
zyAz(UhtbZsH&GTYOZdV*cJGRpCn~}fiOO(gqAFa);@t7-L`}Gc(Vlp1qApy=Xm8w~
zs1MgC8o~{U#&9ExD~ksbP2na+`{K=smT(KB%j3aBYq*us74f#jj_{5|d$^t5SH?RM
zJHtB@o#9S)Ulre#2!%t8u8wyly2IU|YlPbP?nF<xC(#@3W%qUQzQmsJp2Xhp-b8=6
zKQRy<;5id_niKqQaYDW57`v<wX5sf;vr32ev6Kx++4v<X_p_7%q-^?<lm|q-EY#nO
zv@MTM`>xic@IjU%h#ak@bBH}+@4Hs5)rYQGLv1s`=O#u)Nt_rFdnPC1*Mg^|=tL|f
z4o!-|#H1j`dw)sEL%ia6E+tCQi*XUOEtZVOMu;*Wo47WNU(>_{Lg%qmN}Nc=Ch4Xo
zIXyKsDWxK*NonMAWMnci6+>>5;yxZ7xhx)^oEVK=Qd}>`;|Y}xnHA3^F%_Abid>Q=
zr>B&5x<i4<Nh!h_6Pb!i(Rf^pN3KpvaUqh7&4@~{bPA-4T#BYHixS%6I5nLVg`vrl
zpzSXVy*NB6B~V?(^JiZ^uN8SNHX%kOrThhP3Vn;FL_v$GcwzGD=0qsOcW&}hER{Sj
zO^%33v=330&re6u_n9d5U+WQSranlMQ`GS?qnM#*#i*dvzC1Y+y{Jc?Ok5NNAvSRd
zDQg6AG&&tmMXrjmOP5oT_+(TNC8a(Qy>?NINMa&76&b%0NsdJ0Vq_wkpjT0s6yKPp
z7g-pkk;~H)<9Jl{+yq`;LKI@?*9A79$zSsHUQLSUMfEi$&rQB?OmXRV=g)^MO2x71
z)Z|xL6Y!Wdp)QuB7nF!4lV~cdDj}k9#hr+bi;;NrnkXd|kJ`{FNgR#6IigNDHLTEX
z)_)A*_rQ%rF3f`?nFKy;c5?bZ!6%qSi(tW@6@NDT*+uJ^r?@DU7ECkXZ-PU#Ym^gd
z)i{^v7%iXUMtQ;gmN)DaJSd^ML<!!~@uL=@>@7>!J;%MthdnQHp>oArSRR;6Q7}R7
zm^S}<rnHF^#FJnwF%=gRSPN`61V<;O;+2)U98Cq2m!p!942oC`t{^V)%_&hz1*0R<
zWHK4V^bKMujwgHB!;?s*rRYos)mec=lBgCV3XkLqMkf#%9Hog*O=882i_(M`55|%~
z7ER5<3Zdp*MPq_f(PVNr%QzaFKnt#+rl2GW(<35FH#wb}nocEIQCd5T+BmGZC#Dk-
zwI4~vnwrEURos_jf*?+)YqcU)G!fM(4~<(Q84*&~rbNZ_1}!2m3&tGmsVOy)O`Az<
zkJH|u7r(@T*FQq=2mEa=g<ti$;YxGg2A|V8BhRJHX)c1@PrcF(+-cmK<5Er|-kjzI
zK5Z4awDWtMVETdSJ@dOZEe{vbI45#Y-Rw&9X%ot}AP;71+LpGnoYo(h(%hJqQ%_63
z@7dmUtM_PuzAtmvxR8DL)Qq(k3`@kivs{ctlTru?r7j9~Be*c*=+%Zc<d!-pdM5>)
z6zrma(ko@^>jIBRf`23xH+VakT{I3>sTS5vX{kh|8f*CxrV(-|R&Z{tXh$Rx!(I@H
zsCDe6e6)NO3pG<JBhqd(NwFlw_~^C`E2^6n#2Vm?L`LG6bCF1rMuk>^dR_nfbA74A
zRNqu=swWkdz(af9oIY^q;P?TtFCM$tH+3y_d2*uf3iggZb!QOY6i2|UB=t7gcS+sH
z5|d)@)HP`UrO(uETD-k_@6O^`@}DC3^>uE;&pFF(*ky-*)zOe^+&O1ib@+4b2kEzU
z!^YKg<UDoszoIr*-;t|t%GCzuUs-r*xoXFT*IwhAv)puURC4}c&c7p9Sw~@WAEj(;
z$@v3BR5z+wURkc%nQQIHwmu=ZKCw~f@gwiIJ?m%&r+D=x1MVRv6`LfcrlpAyWBMYE
z1%GVv_k#u9=F<Ea<=k@3nh<YH^TI<+ac+!C*mAwA)i6uXOH5wLU9?pAcWDE`#ZqgN
zT8&Y|w2|U9lsjvlwV+gE;S^G037L(Wt=rUGoAT*7u+&UN=}m&E9*<^iY}wixxLIr3
zTB_G+lip&ma`W&n{|_#Sddz10<tVt1<w{JvS~S}m@KhS4U>^n4_>f)NPxKQA6xXB_
zyA%N<M_w-=3swcTY61odA5p3p6OC+snJ!|HsmXC{!bw{H+Ju)5Qh9cb5zo|Yo~l}O
z5^0hd1lPH>nzn4sF1cpcoGa(=$ojivf7fFFVk+DBwA}afivQ@Gcg^j~y4yc-w?7CB
zEDfy$o|zlU+qgjR?x8z}GOw>R4q%qgdFS8AHMiZ3--$0Cx!<$W{Oq!$v5>LtnOymf
z%=7DJ(~h!bPYbd)v}capX_`BeYumRpzBIGk_6*|Jd~I1@r|j!obglRXmK_7qAv7{%
z9UdM&rEnoHaS{S4k%;1o5R#h)YKbVGNCezIu063wBEsYdqRrSNX!8JQRIF@QkZ99Z
z%*m9*7P4YfA&hjAqP-dq84&^aBKLUd0AiCgH;=MGmD)kF;5a?_Lj=Emi+gCYS{?ZY
zZug#C|9*@>uBk0o>wj3Y)9PBQ@#n4hMQ_Wi@^+#eTy1^cNtBBVwB+4HdAPd3?eSaV
znG<sDuDq9`%DB4F;-FmHm-o?aIagUTpSsnMub{hXuA=&LDnEaoud)tiUV7)Xw_nS1
zAeY2HkN;Wx3nJOTvBr*|oyJwCQS1L1L@{X6;gb3*R0t-~4B%u2a54ipnRVbK+C=*(
zTPFgq!6k=AIYp;Nxd5Ehr*6?Ecm#g5mVqZPz>`ZT6WwEeqeTWG__m4nl#U;@3FQD)
zUIwbluo5eks={P9<cDFl3Kb`<mdn7(fRsc6^J;gA=$nzL$z+Vcw&Egy9RZR_MHLUD
z2^j;QDxMLNH8ecI_8_G?stYNR1h&W+;Jzra4N-a$-5M!oWrQ~vo3(&lZowFyM=%E1
zW&vZQjNScRZLntDzzST%V7y>;4r3e*BJG|5>lOHM?CD9<8SbADGcKJD%nRiisDxo0
zgKZ;M3ACJckH3cHP`%yLqPlBY-R{yUi_)<+7TB{u$fsn@Gia~QxY2H-PuKuT_K?ye
zT>+hOW5xJS8!_aqGzQNgW-uzqYotf2a^s;vJT|W}57N$Wn$pgRveKyq^9*`|x{N-j
zv57^DjV{%sSI7EUqOB;`7z;ful~`&NfiWFv7qBT1Ca|P7$55ZKJ*HaqGPW(ZL>t(6
z@kZ%(R=PH`P`WO)ajA}?(o2+6dW_PR6v0$>Aq8!#TP}TT7945Yd(I-vZOCh>ZaoW1
zFy5;k$HuF4drB}Zlu&9m*tM~Bq4(~hv8~l>0Z#V}Gt3|b5GNf$aB9Zc`v&;Zlr%XO
zGE2P_-$el-+!=fCBztlpWF;;IEPE{?#1hiWcnFvuO#(Oog-?i+Z$^@-YjII}g|b<D
z!K5Za7U?A_=~W7hGDCGzKSdCxRj~@qJjItn>G6ocFr^C=TUm%Tc&8b>lNGEuh?!D*
z6x$oBpk*hm0%=w38V8lWO4ZP4DGt4x5)HIsQ+p=WP=d1*qjykDT$E^LDi+oYuZoyx
z2Czn{ouUy?3#T3z^)XDhG<XudadkVV)ubUM_H$j`+8L}5l-NEDaR2+rnEYQr0|f3H
zN`U(ZmHSsJ56;<hExQQh2XelutZ#?x+mX2>`+AltKJoQ0JNlP>{Q&#f`X0HyXQ@uE
zhd^+%EZ5dcSz2-gwAy5MTjtUy?jFE~YJaw>ORnl#{Hk0vc%T2I>d><1&~nuw;E3wR
zg$voHK^gxyJ$evm$?%!M?2aeo9Z%f9B=0!65;#Sr*F%QLq_Uk)%J}bp67_m>wGFo?
zZcSuT@65hEE7uMp&Yi1k%+~Fa>vk;;zJKK25xI_9=phKxzU=FJXy&}FYZW!On{G8_
zOmanA-p)C_c<$mFJCM-#nLoq?oAU1r-5APw%CnxJ><KbrhwRy*i91Zzd3Cv}bHnGT
zCt1e}S*LE7kv=o{&XKo|$euj~35jL->T*@bhTB$0S=<|CT;mR8VKvn?-k!ZR3%Te)
zMfLoJ+mTz5m5PpBLo;F^Pc>2o-$prC(@YtLZw%}CaCh#;Ird7r<oYfWtnj}ei}@TR
zi+$V4@RZ`zfkKkO_K{+dh<F^^;r*B-5Tv*<f{t6Rg6Lp~GUk#ZMoF;>Wg5G3q2SW7
zm&^kHo*~}6hL+7*XKk}~q&D`!qB5YXNZWKhG;14DBdxJ_6{SVWv|Ud-3k^s~Va%a(
zVpf_HLYtF`ON`gugTfcw0y5Aj3WlBl*eNBAfR+RbE>jSr;1Yt6OI`S56v5;rGdPI!
z3~m+v4TT?9_$!K=SVTlsEP<tH3MM2eEO&LSpG4eDW2v>SNk=P4ki3rII)`~(Sxb|B
zVRogW=Z0<0JokLAvgUT^R%qeE-LKvG+G6|ryYKD3Z~4&kfoC~z^5g#b&`Ra-4f`BF
zw|6cI9`K!S-1x@AwZ+!O=U04vH!KuS%Pw{+hGn`p6J4p@HRsM%`){AUbvEN(sos6V
zIcJ;abH186uPXi6F%Bl~m*rr4kb{P$Q)pSpC!NNR^ehF>QNZ}7brkyDlwuKLBPnT^
zqG?u2^un3wqq6#Qbo&(wXegxf6g-chSk`%wA}P2*57rPs)`6(fv@;iI&Gq)@y8B4p
z=|N}w59?0znzTa%@vXYNoskZ%t|9Maq>D&5BRyPAL*C0sNIH!R0~zzeLE=MlZFk<s
z;>)?ZHdP?1VE14TnnYB^?yI?$_Ka{Rp08oIwUCMOtQmPf=PLWWp2faka#?HFs{FSP
z-#VPPf=1K)O}Epx(s?`GIXIW^JAoU4FPykjB_`@JO+(|dYt;I65St|?0rCzcBNL<@
z$VsC%CgWHk<5(dr*~Un%wdI29xpcg_bUb7n2V@)vlW}PIxRfH@(+P0|h85`?Y04Eh
zsjzhMgl&2xgA8wCQMA1?7WDvtc#9C?d{hW2rP(RPfM%iWECoEV<oQwn3wjm46eI=1
zF_#)Oz()Noa47>ororH#zoGu%nze6wViq{#i6d2|reV;o#9KkF1~}AHBCUDMfNPs#
zOTj<_d{Et{O#svusBF!ppy_+ocU@{p=#kNmREu6Zas_p|@Qc{C!ktbb)+j-bV{L9P
z-02jt_OYG%UE!Ct)&_`bFM_DXNEE^3?dqaww&i-yQ6!k@+6M0bLs`bCqvwQLw_F%e
zQr@u(;MzH?BEo4zs6g1&OIqa!!;vl(?GmnK_*un~44-a+kZd6lj-09Jy%?Vy8IL4k
zWk`z9J&D-7I;aF1S+&4jL@{`6Xr^hS6Q`1)h62=vO^fWIx@p3Bc~oDv20T}Mx(!Hw
z1m+K|9@N+9fW#QHQbh<Ix2l~~Q)ko_t1}|N&#EObsiqzmuSKpz<I|#=TB4pQPGex0
zzDTK{a?w}F0J;T+Ri)iTpwTD2BQq5!^)UZDs`{tlQOdUtm_(u_)GDyikR>64aZ!A+
z2^fM@Yac}_en6~LQMZ^KkUgn_B_bw3&sU^v(UHLnjXb?9#im+(io}5H^sMl558yUQ
z>(Iaj#WFxk0T&drS3?Z=Z<PDICI+~Q#DKMmK(-<zSA?<^19HW{oGn+^maXfP>-y$A
z#biTAwqc*#uy4+{*4UbD?2#LL2%Y;ss|hT;oOx|&-%8D)IoE@_=7lSn-(5<r)E%Dl
zJgDCdrGM7HOZM*qHqF-Vk!$zl>RYn)2juz#j2MvX2Xb|-8h+IwY<Rh9SFW`)+j>}T
zJ-kulZXg_72HQkyZ_eMG_3x4WdvcZjY~^mb5>+6E)W5mr_H6Thxp_a8*19L#dPZ(N
z!!Yr3Q}1$BA3%F63R-nEZB%o?&dil;=OMZC(ETgfr(ckteqpucMS2)`u&XcUsmyws
zWlwYFRJQ$q+<sugYzncg9oT%^yRtiu$UBbAS$^UOs@t!D@HXvRr08P%)?b4Fv^HVK
z`4V^yiv?E_Si{Wr9<TE#q%xB#t<+9OiVT`oNTb$g>_Ldst^%BA^%2h6a&1cS8`Xtf
z-ZUICNybowtkSnos`Sq&_%;PMDIj15xqd&<Mq0(8FOnn;8cp#c(A&Jt<koO+8K!lT
ziUscVaMi7I4mRs{%l_SqudhI4^y2<**`2anZA-49GjHYUJJ&fg1UN6=W_@es$kJeT
z;H-@QJI>1fvq)bR)C$=r`}Zv+R{SSeAz6Qq?C)8`{b9NfKALmQ7g%-#Q~=DYkk_>p
z^3oz!QSJay=P39RSbL4qP_Tx-BryeowLq!$5AEI7r`Bp(@>cu;Cjw7W3}M8w&z(et
z`ATb(fhIv0p-H+cph?`R)0t}8geG-yYW-!5bupSGEc1Q1Pce<VWz?c!$+F)bOTyWJ
zVMZqhE&g^m)Kwa93U27|olLLq*(QbhbQ>Hy>Jq$fSydgs=n*ZY%TVnH^%xuAVXtT*
z3a$15>6Vdo;J406b^ss4$mPrq;494YA=+x${DDD-?dHZ-F@jgXE`VXqhCjw)K0@pt
z@V~d&3jli9&0YXE_);vRG&n}u5?Wb+WAY>blTk0g$6}4XxfDP~3Th|23VL#|FOMEu
z_ytTVp_$YfA4)Qq6;c|YuPA?!&O247$0Mx)#Pm3ho8#db!@uQVfKv5!&|o>~9Z;8{
z!v<}@R?ww%%_ZB7dP{)d_bf&IF?6<of7W5+<x(q&6_O0F-i(0BJ^HKXZop(v*bf-*
zmA;EqA)c`b@L^-pBx#-mRj{Bq4#%U3i$e6NnXWC9&43EMhZ%@UJ_SNedl1zoX)K^a
zTy5OD)cw)uPa209tAKu2^>|{nOKECCRRJ?fzl#Xz8x(X=@GlT3t}EpA#k8yvy&=`o
z<zb*tvkWWM1_UfZO;RgmXE;x@DQn(V?j-ce8X8la;)I|AGsUL0joz2^`;^&2knEmK
z-F}QE#oDE|kijgPt--Hj6Do#S{_O^=gNElXkmY}0=N>q`y7$E6kkwjkfK-9G0MohF
zuQdd-4c&4>H>vwR3-ptg?<+UHV!)7ftGS86k9u(Hj_z#x({lUM1Xfx<J9wO>YL`9j
z|HU(;Y5<wK(QY~9k{$aPNLy(Ce(z%Yd)*t*U<4LUWdpr(pm*t1cJQ=3czU(^*&<D$
zifdy+Qndxr+|e&u8;sYqgV<J6XgEE*$lc@N87VCw^*xh1;u+BDd{p;$#izb?qt=-s
zAj^1Q@0J8l(O}b}xXv+6bx`&NGxaOJ?qx?en~}o|Rlv2U*wIS$kW9kVK(IZj3K+=|
zgNva&qFL`Qq6YX<Aylt-wcoMgvC!hAooUNA;r%pgou~jmD=tq<QE&nww+y5)IH8sR
zKQrI~D8ZRFUsvs&P!Z7PGHWezH`&hSQ;LUjrG#u<v2cQW9ozY=&BQ?;YD!ymUNmdH
z>9v&VcL{!+^cIv8<S!O0dh6&TSwyy6s7D)78V8kOJ%KcE<sxvwj6kC?2{IHp)JZ==
zoOFi*VuI2SDEJ-)-$$T$U@?N*l$N%U;{O!_-8Cgc5e!@YF;Ra)0oA2gRenH-7>k>(
zB9vLTb$x5_@)*sye~m0Kpp<bQ|F@pXx;sB{cjf@~e7kbNo?G6vV0$(=C<h0ZUR?=3
zJ@3tV>dDHnU&epW{u@JURh`RK1IwNPgt@?;r4~7GY;Nd5P2<9eyJzp5U98TA4#}ZI
z_Xj_G>Vv0#T61RZ<j(@FnGn!x;K>_9c{5jgmjBGx_^sc~`no>xbv>xsxmLX+^LpNF
zs;FEyTdK?QoW)xPrEh)HUFRKVrf0>!2LQEzMHRc|F}cZyindZV<$sJpzRg{N(fx<~
ztf?^dOHFyfL|Q|<WO^}Mu2Pd5+9NIHta;OP)-h#K8TwK)ri!KDXsACUE!+uio`3!C
zIgY95RpWrMJr|1m=4G_9MEsbciz}ps5kZ@tZ}PJa=`3K4gDpX4VWOv<f-Pl04t+Vz
zy3+PB185XV)Y~iA$Dv=5OlkXsC2be%tW-M|pDXQzIYMJ9aL}}l(W5O_+Av4(+|A!f
zo3MBxN-?vDd)71SO?%R|E4;+t#P1j_ge@1IyY)Jtr?ibVZApMz!Kfoyu}uo6J~|Q^
zQ7o*+lSLXpm|XN)(3TgrDaB=!;wv)JqdYw?weUKBQ^M%m)X`5n$J!ok@vKW9zqD6>
z4?M?n6aUo${U^pK2?ke|E_)3#Z<fZ%S2R+--(;k=?OX3Qef!6a;Y+_oPi<*$+6S||
zw#l&mj-tQ+@9z|&&fckMp1=90+w`2C{oBX9HG2M6h2DJms?pz|{_eM30mjPYvFdOB
z1A0u`hiB%;F2=zTT(}H>?$POq5%Ps1-|msgsTiETN2SR`@asddH&Zw?p`r;oN1&Z4
zNPc~HFcFQ>nUB<@QI-JX#57#j)yxSsFI>W}OvdPF0{OK^M^Zu5qn+*u#$)4R@R{Lf
zj3Sr^w{{FdbzY~2hRkq|7{y#BR|E2ukfv~B#Eq+QZxqL=J{6KgnM_yr;;$cn1MrWo
z8X2ET(diDHbwE+fxloG~Ca+EuMOLts(^G{gru|jCn+{emmku~xklVFlji^8Da0L!X
zIGCe;Bqjh_GZ%f3p-R>Lxq%&e(4sX*cAU+a!ceK8`k$lm(pBm~Ir%vXg#!~wI5dhW
zhPo9W9THJJ)mW|4Hz^y5Y*K>qnxlfC*d?4yiH?Yh0|-BPHI}+81t|q_3W+x8P`QdS
ziS;VAkO@Y{^$L>_tyM}*$;K*f-3uQkNX5&Jn`muKLTEtCjYxIi6c=l#I`USQnYBT2
zF<OmxYlBSrr4Oi8c71UE4epYJtY~f&Uks7Jsk3;d&NOYsCYv6=MhN8(v6Ecqe&w;Y
zxt1Nx@Jnb7WrN4%;PG6ro&Lkc6Iw9$9e37GO05m2wG|1Q0BK;!9LzTEksJ4{H1@C5
z4$Qe9v~~PZ$DH@UjxO2LGIwIW$AH?)zTGG(+uSEN_hp-(mYbjc$g<LWa=HBEybA$T
zOZDxUGqS&L-ufWexoBPd#_G|RR)R0jd)GSpvmN{8j{Peg2k#&Iq~pk~p^uI%KmUS!
z{6zqqispyVT{SO=nb%j#2Xf_2+45GoyfxFcTHcc@_y1zwS-E`gyldg?qCZ#FoDtw$
zlB*8D>4U7InX^j`P&m(9P<>7P?V(#kna<Vfu0`Sf#J$A*)2qEFV7kt9%e6ho^BLSy
z2A8T=tM*d?Rdu(I+&Yq}TdfLx);PFy;r^2=ji={Npy2s56nx}+azgfp=B>G4M>aSh
z2M6Z8KPzvdb}l`;T7Kkb<u&;bxBnc!zMBi~n?Id9enzf7I)5hPUVQbw0}AxTcDW8p
z>mVH9?;gH$c+tHSUTHi!f8w*c-o@0?h1I$z@Nf-p#(T$`xwPu<U26aHo<HmP$iCYD
zEc`$+<8s4Z${y%kw8(*;`IEW!kgAiOANpB!YtG*U_h-D>Tx%%T*8RELR#W@1jO^6i
zXivVM5aDA={+T~mXb9bG9RtLz8C5@M??!zK-&oyq5+2bVwev%GX*F$`j>V?c>H`41
zSx=MfX<86|>e-S1nu%-g&I6&9H|ZMDP2iJsOALJ8#KgVL#YkbT0y}6s7_cLUd2=am
z6v2=-q~A$V8SF}1O37a^wQ9gl{{=jFon$MNT|zZZXF=0eW)3Yl<&%N;acQkTD5SMx
z6SNXbD&?;t*aR|LYM_tx(lP5KIqV9r`MTPRXlSO=w!<h3P!Rx<sGD$~z4_g3#>D_3
z(y4#cxB#ebJ1!1wT%1LHb?JSDXRoWM-Q?%%Vy*2$YyZbKtu4U8mTkt@B^1D`2T-;!
zN*2`Mp&9@Q8qf+DM6|nB0EE*1Kc-UtJ~~X-X9q!x;hBy{tfsx1!H*r1>{a=?x@$H(
znpQJ8_RhF^ukO_n6Fs2OzoZEu#SzTxd^ES}0~CS#HqK)f<?h$%60K9uUZ}b_Jz3ME
zMH6Ds9z$6E_h^7(g}i+UCqKyPQTm9*uv3%Le_}L_!X}a-&4ZC`tnLZ%st%zPenR1=
z6dvx9SNE!Wp8e{8N;nY1_Cm#hD3!8b?bjdnYf(;yVrYkCD#qfiP}324Hf@DP-j0t#
zy8l2s;Y|e44%PaxkySU|I5Br@?v0$U{5vx@W|kX{t@@sMP~W`p#@#D-u4JO$yY|!i
z(EPDnbIaY>omkHQbgp4=>G`GOIN9NU25PsK+WFJaxwQlz`?#xnaqqqA_Z#jtEFHVQ
zcd=n5bVRP+Isfd!<y>RiVz=D5Z@GHka^t=&cijW?XES!WdRI=RKB?aIu#s!%$_Kd0
zs@n~>8kPemRx3_ErnyH;H#gXtskoDxf3{?OREv*l!SM{OmgB1xCvt(NyU*QuE?50z
zu6lqJj+OIH^xWUN=$7jSmdgj0>jrY6u6g&ub1UUL*IL^^9s6!s{x}bvV*Uirl~-qd
zt+KB*)17S_klO}U+V-vZ_Afj3t2U({VmgH?eq&qMkC0qqnw^tG5tqlA7((XKUr+?i
zPU+_qoTuP<1jT+}|B@mp*g-SmGY~MCtsOi5E3VG^9G{uVv)}szpR?b5KX2W=So411
zULenbyx;NR?hkga6Nypk?SJU5FEXKl2GFRkXYN^cy2AwNUpgT-AIv-H)}?uC0jAV-
z<tZ=hlB&zrx|i<ukMh>0%qxrH(((H>9|k@MEDxTPdr!$7r}H?hYi;`Y`11J||MJ;&
zc9TDEZnqxDJiGYP(!hNybJ!a=A@`h=+fU^=Jo$Lw<K$l+{DMezq^a8@_%klIMy>xl
z48~^bT^N2~(EFHw$jA6F4sZ(a0sFoQ);s$pJ`67|!3pc03rCCHI7+Nq_dIWv;V7|J
zbd~Zmf*q`6yk;l!&^aBUY1`ZtrE?3FqE{$q_PwfYQm9Y2tKB73!@gH0)NGS`n|x}W
zXnQSL>V!J6T=1iWHe+NB0-s25jkO!M27&SLjyi+}<gdcV5vs)+(NVe$Mb^bKu~uZ-
zC)6B3&N^lz^kZvkR*DYBotl)6N2im~__?7|OtOS9`KPE^`Y{FXBT&lKUCS`0B$Wzn
zcPT`{Rzxa##ST9_a)+1xhO(ccfGkSV3<YFOGHg?{dl|aJ|A{%Z#V79(vm^ZGEXcFv
zDy1!aj8EPsvtvOonC6R2ia12CgR6oQF${KwA+ty?QQCZ1+I!BjsSX3|!H}o*3w0QZ
zcz~IPEnUT})CX8nLX|!icr@)88T__f$X&vOxs55(&{7r(5y<#Jt_NGLQnPsm90P}I
z=sn{?-zrs#Qx9q@)&!ZSF>#E!!6pqNn3azv3p*bI>(71AUuF?xj9Q{qCH*Z0<i9B0
zrl6AonvY6VDkjoLFN7lJFm>MAG%!X+A*D<`eab!zLC4?9wR>nu)bCVCcabb<L%@(m
zv4OA1&7^2)8FtZspq=DDBIB<&nfY>$aiG%7e4o{{Ly&y$-2K{*>Q;6?2WO&Ma%ggG
zV0+!k%y%R<8P-0yFFmMg$=DX1D^>lF)9GY1jw*OKcqO?zK5=*C+IGIv^>$ab?U3Ad
zDBE^aZaX@6g3bf1dRjgUs@_Yi#LB99fsSaZo>y|^o(-#+T%dm9&>TH7=+0vdeFyQF
z8T#<M^(yV9RDjXa50L{ig1ylnftLOVL9y|V8F^+p3aX9bQQu<rtHoSQl9rvB{Rqls
zeIeNwS`4lD2A3V`xlz^hC;c&1_9qB7+4ty`6N*^xMX<f~k|YTzq_t(O+N#v9@T@B#
z&32qYDWz;og{f6+TPo7u6nAn|{p>_Nb*>!+!hxxbBzD&wSI$#2e{H#K|9vk+ZRV<k
zqb!Cbtsdh*HshiOv+g|wV%zR<r7SuyQEDZT&)AEc{^tG;C8_J$tm@UCKm=^+?0k2U
zD#H>|)m3HmaT}ce)((Hqw3mLVn^SdAx5*xXcUn=Ct=K77?8KR#^xNsB*H<cz!xhmu
zOrW?fMpO8P4ii#_STh9i3ckQILjBe+L#2>HOtA@9;0xk#shx-&Or#02<tpU>Gm0@v
zo3Xpl0N^S%ed1I-do!5!)JW-92;c_CVC*^2iWM@}WKz|P5^vKT;T}?IBg<wVIHg6^
zu_mTc*YG`x!gp-6F9RiK_LUy(FUc07;ip#$yC&w=j<xcZAJx3m_;zEirX^ENM7H&y
z+<I`i`p`!;A7262YOBnfVP{-7+sa*e&gOKfc$1{UO{yJZE>7V|@q0*<XkI*P@tm$w
z??i$T{1QKbPvaDJa+;r|6fp%OJ1~-Yc*dbYnO=PQ$D16Fk@lND#3Lp#;N-WizJdQv
z6v+?(PWy?bp3nrR5B+SK;4IZlTj_Bw7EcFhP^m2J5fyFl<G_KF_n*A?WVZXvC*5Zj
z&fGb?eEtHsaHVU`2C<>MHtTDXeQlWoMIH?BqZ|&^Z;_Og#!>p9(?#gC;Ug1)_FtHm
zu){G$uu==71nIi5FXPh!1!Z@I0rT`nN_`<}3R-n4Ldzu)Iw<Lw_#=8y5XSO!dzJ!Y
z%1WQpEiDOYjRGd4Z7-hvHKn28?`TuqhXCSPuB~&~Lf=?$R{e^z)VT6yTeEH1(ts}q
z)OY8qc0RP4>v3O$ack?&xR)(Wnn34L<vEus&bdgM+gFh0_7$YLePFMLkMcPF^U&=o
zlITDeNpy5qB+=3B7Kx6c3KAXN`Ayc^#gp%!yLT?nfxQ3Hhp&C`+Q%p4Bj?xYKJRc^
zUAcy)yqSJ?cE2<J_P9zvdGy1>9~@@%nlrF&#q)fv)w+8dc@Ix?c@Lzz{%9OSPe^C*
zqxeQ9@p&+22ut=xFOH~!vlChzDK$A6PcnB3#fDD}k%h)euYnkoM9fbqqq8`4@K$xr
zSC6nZvPk0Gu{isdQ!kmwq$s{mk(7wzsz-QwHUD*z3)n<b%2`GshObt{E@E#Gn4^b8
zFqwTwL}_OU7?gy^zWVhV&6}*3eYJ_)@l`X^<B~F;4sz>K{q$QOQ>v;`V~2U!hkVp?
zyxot>!8SWGo@wxrq0G+5<S4fOso(8*T>09GXk$&X!^FzKW6D>Z=SZE#z5`dt$xt&v
zB&DZRc6FRp-lnMlBh#rErUZ!<%!sB0x6PRBRnwASqj*^|{liI&F(@v!GmXMLmy~Ev
zmq>(BtZFXCa)T7xN<kYvvJEj_#m;W9gCWduQ56MfM&IMq*-aP}Zi_09dP=GUufTsU
znM05_^F05spW{3KhHL+n3w+Ae{(|#-%2l)5BR}W*zA#yM(?bry=Pr(a;#2P6=9p*s
zPq|Z{a!0=~nR(L}4g{Y&IQ}GJd;XT&^K<T%74DS{+i{*BoPXx_bGM$`;E3KhXS%@i
zwF_-`Lw7<O9MKySrlUOHwD7{+SMR*K!4aK5W#UYA8>SOx{=oc2Iy$+|5xs6kbe=_T
Z4BLize)qyNq<YJwm%^WObkBPJe*yUJw+8?K

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/granitemoehybrid.cpython-312.pyc b/model_executor/models/__pycache__/granitemoehybrid.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4faa3bd01abb2fd773058ad119fa2f7cdf7e4950
GIT binary patch
literal 26784
zcmdsg3vgRkdfvtRO#mcFf+RqKZ-VcK-qypCC|PgYlGnRt*1=M|R}v+Fq%T0(VnN4F
zJY&*PDr%;?rkc%|+its5?a4CDOrxEoiP~n`%_MDbP3;1{ksGCPI@z`}rA;|bx9POs
zf9?Yybt!o>na;G=)WLZ_{&UWM{?|GFL!Zyh;Y(V7dHgp8j{9>8XrD**tRFIS+`Aml
zjc~k)Hz!Rg^N86*eoN9aV!^L9X-Qc}tSru!w59ALcILMy9VzFClldJ<SIRx&W`1YV
zlk$#uQ@#;js%)f;#krFHRA3~){O)8hRX$SA{GMb*Dl`&ees8ieRW(wTsvfCkVP7(w
zsu`(a{<36ks&1r?`TfaADmoHP)sNJ(a3I-`ijBmWKbUMxHH|bee|fSw)iTnOY8`21
z;fiEis(qxL`9sN$RD2{3e<fd)>`ZlybTNN*vOCo?(!>1WWN)f(q%YM!(w`a_8AuI|
z45o%ghEm%`wz2e@<o48#ksYa>BRf;OMs}rkkL*tE8QEjv%-k~^U;7rv*9q3kS2cha
zf8Vz#{*k>bX9PK;Psq8C<*Y}}h9~6QFYFWc^09B5M-B*XR;m%DnjT;3eYJBVPqPxu
zDA8hELg*6)gdw3{*d`3V?^4Hc@R}vwI@5N1;({Ow6JtWp<V5mX>=|)%Vmu?9o)nH<
zJ1>s&vD73lBzu2Ch2kdJc|0SCqvw;t83fD|6L70G7dbpRabf%-Qd|c!8DSzbK1tas
z)6-K^lVT>3nH0w^CB`OGQ{zb?Zjn8QN5?J+N+H>EnwnDs?iZ8ElwMoQMFE9{iS(qH
zV4X@#jf$hmq>xO!Iw>akM0$KiKto>2H#L>GC{9jKA?!GN`rMgGF%>t<!RJrD_?%kk
z)cAxjD$2pLldo=!LJ|L|$&2He^mF3mn2<($i1M5sO`RV-J^q>?4x*+S7Ce_3%?QJp
zYg5AE(d5{4auj1LO*(gJv@{9Tls`W`3W&^%5>)h|IjPIy<dlG#%k<uyJ|>Lva@C8I
zW25J_$Rnxq0?&_65O^zj;lk*2GLv{!7{7QalSodE@&fg>;`jt+DJAgZ=-vwqV(Fil
zlnL||XY2Ij5z1VQKzBufKYi-CxLx)g8%-adm=HuZM$CI!Sr4-JoHCE;Q<G;8%C%aE
z!Q(kmxG?@2%_n*&yS23Eo|Ao=pN&6mlY<ARGm~Fs9Y;;nak+XtP4ku-Pp46w&2CD-
zK;-t+=oKL$q^2_065}O9Q&&Seaba`}kiRB-SjOb&H9<_v-qh%|^Fm^Z^=V95^or|O
z1MA;{=WXCofg3RamzrIi@*nTx&4Puu2v*)I*m%>7gX4IcU{`&1!J+ybf|GahrVC|r
z+yxWwddoNB;@yJ#a#d+_il6sv5zlJBVCB7USx3Bc+-s&0-#IQ`CN~x*Mgcto@vtz4
z9U`8hF`kj_V{EU<E;i=GIR6@kO*;tti#DO`9iz>qhhCx8r-keaXk@!6WTwT5F$_}w
z%Hbn~w|*4vH%;$y89iy<k>!5H#&H_@F>zT_mP_D3QogL|vR(5Rf008)pd9jFb{11K
zA97eVe?~j#D6dg%rpsO}Z}As-%Zee*huDDTFa8?WJA-i{g+{;WLu_bM6oQB~m}<m^
z4fEC-#zqWd>kVQpS!>powf`y(`d>4DV18d+$bg(aLY_k?sFlsMYQ8K;1Kz3~V!ZXr
zFvp1pGwsFn%N?4(_=}Nr7DJj3vBq=Kt>q~Gs{OU0zxMalQd{=Wv7v|Pk7(w(i9n`L
zs}Czp8NU<txwO%sJ{{hfp<>=GdT9Xf58Uso>lbzDv-EdRSDn_IYh2uOX2#x|q7x+U
zmpzxpd0v=chn8HHPNx!SI!u&s0K4~U;))<nU?<bDCI>g*Jr?DgPP2`DHF17?G%Y(R
zsQ4z7vo9^XCZ<z~OE^W4Og{;JJSBU@R5~$%12G{?rDZoz=lE529Emi2Vh=gJ<Pg;5
zAXSmX5tK{_uT2SJCM^=Aej4mOkJu}T^wg+`hEtQmZM*ED%xX5-mYJMNToDJUs_o<y
zD-EaFNwX1|)1ZFp=~a_b$*J4sVv*Y>*@EuIBeE?$jc&-!1WJ!*5($wOC~HNo5QX$O
zKaH-Ya4e2bCC3F(q`e^fQgnJJKqC;4>1a@b1ZORTeveM@vR_GKGr+*9Mofv5mlgPy
zDLHf~tCdfvkk%_Fh>K5A^KNyr0c+XDO3Q)G;FBF70!A|#QKU5^?xS)QCGbpO)S#WN
zD6ph8EW3-a5`7fmAD@_-1|dL)1I@4;o|;T&5~x)n!-^@low7A8Brhn?>!KEoX5W=a
zj3r0Y=|mz;7(1qXZ~XLZUnVuxH#I)hlNlA!@1EDDckbSGWv9@W96#STbuDvga-#1l
zsJA}lG!kAD#&F(?N-*7bQK2%iYA!J<vv=y6cnl59bUyLW>(wTH2lA({gRJ@MH@Ju8
zoU3f!AvweMoVA6j$ei`Mr%>0Juj`TOdgiS6oZ&)qJm0)eYTieo*e8{-LbyI3?v%ov
zEMK2g*H?%(=cD~nw7*c_lCK|->IYVi=C>V{@K=AdP#eqF_Di+>h03~oWtUXh#XOx-
zWhdIpS9MBNoh+t9s_ZD#G~{c#rJC+Sbu?eyAyp%$RsE}qEPQS8#au<p!-hbW8y$78
zwQ!BC)UD`!Px-=*TwU*qY1K2h^8AOM9rs%X3X!IKWSbP(#@gwZs`^<>uN3JmG<D>g
z_DD^83eh+^xERhg4(6(d9{L=uWpl&#yp0d5xIp#7)m+2wI|Hl!eRqQ&`VW0-;e5eQ
zf-QwW)za7Rym;r>-IKXJ&pou5%gfdroXdCJ|1iMC+Lx~8+jmRtyYF1hA2=%=ID4<*
z9Q84BzoW0<Ezf)FC2#%G(R|BJsbwb$$1#*2Ia}8;DcEira--b_+@tNwF`WcJE;{V#
zm|y=(%;CE@N@vYk?lO_7o4%~+eKmI0l+kOrtP=~x>?Jv^sH>EqQ8VEHv1+Iugo_ym
zDrZED5Fs#wGP5SNUphfz*cu2RBZB0Odc+%$ByV0oyheo<D+CORBb|6*i?Ta${OSjM
zvGDt<ch<H=-8Q{$8xB$KGGUBOU$K2<?62D<f=|i`2$_ihd=eD1<_qR?+-=jDxJ&#R
z+NJXWjG*jR==$V1j=OV+7mt(k5;<Qb=LI;jZ7exCA;j(C&rwu@oNrLP{mQGrKWW)M
zIh_IKlY_u0i4BV{O*Dssw#1jIh~vVfh(i2K{K=?B%{qZ{>7T-RgIn`*p~g99Asoqv
zyQOgV^2@8?r{;Y3gH`!pqZDjh>RAo;&)Ex3?+y37dtu*F+dXHz5RNVFSRT%I4@>xK
z9+twxbG`=^F}0rUQh57HYLy}j9{-I4^9ORCrh>mB?{AU(EjfRGA=Z+QZI@z{D>i)7
zx8~#mp<-&wfU*l$TXyFHjfIwue9LYL{yisGTTW3-Y+z;hx1RltXYZa~-F8-ron7#K
z6l#4CYx$o4JN^~lYHa_4kGi;TWm|seq=diblT!F3y6BHAUds8~a?UpK=P~@-)-z|$
z$lUERI(;WbQ$ivkyA#BWPbbOmO(eizB$X5qJBX7lpj$+eIEZw9h(tommNX7I!uH}A
z1?>ulDvndYrye+CLNb|1+%}0{M{Jt5|I=*x#5lanA(A5f_u>5YTilwP>+Uaf^%Vwp
z6sp3X`ghpe4+3p#HvF#Hxlr|*gM3b|x@l=xs_IyCQP8aiJrwkE)$!$RQdQrYkAh`f
zFtkP$tpzxD+2=v>O_`#$_6OCGce6LMYc}{%c}4i$?wj39A*sCe3kRYYpjZcKaQdfh
z_Vs^@C_|RB?EfOm>3tk4$~%oyFF1MM1{T#Xw{G4-y1-`xoBDVnL+l4gHZY&GUI@>x
zcZ1Y?GV^J868uaIX@**4ADs^ySS<CF0b4-pnSG4K(ixzPHnqUshAftjtAV$F7RJ)>
zd^2P>6_#i-i)GxytyruYZFF0*So(R9i5Bx3!rpY*fO*}(V(IMa-$7kEd=(bU-Ai;W
z(YzCJ%O-AyQPqrp5%*&Z;sJ6Fk#m@wVRDYZiI<Ddke?wb#=sm$P_Ef>xyvrSQFdU7
zU!meUAuqm2LB<3T;jSEP1W(2uu;WlU@kS80fznox9wUu=w`{$1v+3mV4XO$<`A5m)
z$I-<#gCOooDb<l&MaM&zt(GX&GGN93ZzxrUsAU%zq;ZnPri)a?Sn19qKf^_L0ZLG*
z=2;799hDwMn*L?YI(<cSES1^xVP}~?Flp2$s9g&vC(dXG>C~rLZO@33-Pj%-ubVzb
zeKK9r#so%v8qu>QH8SecsO-+H*@$w~sZXM(jq0}Q(6KU_TgSM?z7-+Js893jRz`h3
zHs_axV%9>`XWV=yZWgI_HrsKBvh}V}1nuxmWTz+~E^bqZPQ4VPJjF{$O4E_RXiH_A
zjw3kJ^X0awN?QIlRr3X$ElJA<;mCVsx5^4t4TakFH5*sczRp={+;c<))-)OrZU67l
zmEvUpKunTDV&+nE?<z%-LzG_npTRL8_c~Q_55Fq8N4^qrkAfxS9tBItJqjx19{Ch<
zk9=P<#cb^lK;Z4Yxp&P5KPnGL8S&?!kh7HdTXRvAn{)ebMCK!3co0%ZLF)V%{^_4~
zj;?<fQHG?TS0@D(&BInY2xuWLKw|*SgA<wuC+`wmMnY<6B#h%7#_<>Iya$Ayhv_1`
z*fl=!HFWiiLdF@0i4+P>r#Fz7FbBh$E5M&mqTu+ybM*lzEd$(DO2Z+C7k%9HA%~7>
zfyYWmq~=7d0Y5(jIu&Jg9J~dk$0hV$WvaENb<Alut~+a=K|gr&l@4qG^9k-3iPtvh
z1M(@o(8q;*Mk)*Y74TGIXsgtc)~Z-*)Gvd2O7gK@Wr*5gA5SNwK?$XY+W7}~>6pEQ
z3fv0nI>o59LJ&8EgK^u2@(H5#p-iztnP7Wgoq6<2r|2_{T5D*_cr_Tu>MKDjkKQV6
z*;!jEFM+mn>J@9IrI=gu@eZ1IF<GLh;SAMT#<3<NrB0?xs~v69cHZ=9Cv~aXg?DQ6
zCWcXpShh{yn_lDi320V%6O=V7q%dZk*O+iHUP=#Vh(u-|;H|54v^X~7#_K@eR~zyg
zaa&A<hB<d*9y}#;uCHEj5#BQ|C`>{vs{5&{_mwMGp+=s(3}Xc=sRW8@i5W-lBukR5
zq`rr41#Th@Z3(I9ZL(XOgn;~-qIXG+zLwC)O;j|R7Q{Evfb4_bdqS9e4a$jYNnys;
z%Xk;7>?P?xnq~@|O`J?TQshve1s<JFk0uo*NLf+Z&(s&8Vz{UkQ8Ww16h%km&!D%-
z1U0L)xre&Pln_^hYl*9)$!SQ}m^!Jvm{so~k$vKBDq_J<MZ!_CQ-hsIn+kF|1zOb_
z9H7-#4H^<;Mj=*GuIf@q6?3G;DM|%Q0prXiXiH?rrO`A-Au52>pp803T5YlwX%lg$
zLcnz*#!$)O$V@RMn<8tXt*gijV{epjUrk$*bvnoOrzn~31rjEOL|}tLqSinmK}v=p
zseXv0>UD*d&V0)OspSBL8Ve1r`G(z6!)_*VXTrt~DcnIK#HS_vg`Y-!J|_L&D>dz<
zTn!H)i`uzbzH83GM2F3izj^7R<nLL5%zrTF9L)I#3pLSvO^;O5vr;Y9>>`E^^2WTU
zN%Ax;UHs6~L&Q@!U(qR5bS{5Ys@QhN^kK#BoOgGwVmFALP~GAS`RFzYe;bnSH@7Xl
zvfPsIJScS@y!%zD^VDkdY3fq!lW@G?4dlHM$s2*^#_9RfEF6=(G3IHOyv>DRWj@#<
zK_3AX2~&=|l&ffe=y!s~#ULMsIA~8wYEi3uq|{e)6|E0F_G&8S0Tl-wg(og~;>$07
z=oz|S-&P2O-u2z|73vz^+jnap)Ac+hMW4D~8D6Z)*K|rXovW2ypH$Q??pWG?uVQfJ
zYJTSlY3GUD&KK7#9Of$8|6#QML1j&$zUg7m)d2m<uROa}#Wgg~4PSrulTeffcxL_#
z{b=KCmAugU0OkWy%|Izr{gqrrGe%g6zW$0!Arp1>VuOx^RxzWa-cq>FCvcu$$Kso{
z%v!S+L;ll{*EBxam?4DmnQ3?u{%!JKgq<Rc7|>_>zK(Iu+Gg#uFfTEp-rlT2yb))~
zOae4h00sfng1j1?tyIrklI&$2THaan>$cbJuTy*aiC@fI<VJZ59Z=vjiG#GB`N{vr
zNBU?e)7dcr1Vh3WXr`fY&M*up66O@Ilk-h-zD3Rg91R)i(=A(oA!SoSw!Jbfz=X*H
zOe@<Msx1`+#Y#BLM+}1wYWm$?m8<N)YDxcVGzYHI&6QWZ8@(A_oLvp}%-iQIbI%td
z4euSlb^HN#MA^-<rO@}H--$|rUhI&3phF6DEN}b%zT5kxz^+GQ)*Mz}8R`sHtogWT
z+dAinx+Q1LoNX?>aAd8V!|G@Hi#DwL_Zn_BEZ3|Yxihp{b720&+>wPLVrE^pTuZIX
z70beEcpEex-r&N}qKy(fw>(RySHpuV15k({#UIHzBg*c$OrZ0LDFWjJIg{iN6}3sZ
zAihFz$H*b3OBBf=zFbU`vzfglzJ@V3{}G<_KY&B*rE`Ne!S{?w<uAzt9I0s$94uVI
zX0kB&OjVEIVPP*R5?CEzGNDQEv)HrdDqB?NE#WWWEh*&G7)cjG3Jj>Pun%<Ur#4fU
z(J1v#+aBxtu>eY0OEMDvHpJ5~YO@N~3s%N7+TJP~vGI1nZbU}&4&!(jsyV?NI>}Iu
z4{ll7ZCn~ga4z1(%;~&a<WN$#YTXSTgl)u)-gyMCfUyWZ8V_wy`gg(1m!WrMykGFM
zbi=V-Fl+fyPe5R$F|Ghg1{u>^j*VU}S8hJ?Pm^Vxcm?f1G1Z43*+VuCsy!Wx83W+i
zM_5hA-p3I7rs-|#+qSpuZ#y;^(>WhCrZbWV8gU=**g$cEzux@4V@JFJ2l9>;@dlLg
zJC1qigA*!!&T(YmSJZaQ+l-b6a_F3LrpUt>a%8B%fD+g6K5EkYgq&5IN5eR4ZDE6x
z$mo2*1@oL0h{rzXz~q_V^3Ga{JSb`+N&BXcB(9+SEuj5%Q#d+z&<FhlfM4e^;Md1i
zG^OLQX)c<dII0S*@l0Iv8J9sU(WaZe4;&>B(xC$G#Cc}pN~3Z#+tl9r9Gq`jvBI=<
zNL(^TxcMW5pw-W_?Vxdeu(8nB)V$Sb-DOSM_L()CArYU)x|+AmTjp`<eqhn~Ja$&f
zre3iYZ8OzM+^P`pc99*Fa`nMerxL?Q4nI45<ZR;9!I$8^@X~Wf&dDCdnw1!WG-R~2
z)5I<~S^_gkQWzovoI=$1!k4Bs3F7??eC)uKU1V9!s+$=w+|D}n-n*Asxuy5_>P5az
z$LRB@5(NGIaNXk3_fFqBz1+O~%4%d_r4bf6t2n2Q->)55Y0D1|OM}CAUy=r&m1>`x
zJNZ#XJ?v`=fto@fLVvK&sgA-fCsek^IecXdql0;5Jxh!KghruTH7F{m>LP>31}M8O
zUC=O159Ox;Gm)I^zDg$I3J*haC4~|6GS-Sr#$W+1hl-3=kquN%%Qh5I?EF;A38h!E
z2gY)+*JmNwB~0+D*RJ-umC7|d!8V&2rYTl%Rx(M0^~cXq7yl_aY-WF*d~8G;CsSd^
zNJd2L*wgq*`LX)P&*pKOIvbq7!PGf@nrYaBU?d-mOTl<PI3xv!V5m{ul&|iSs{7`=
z#@+|2F<GR8Selv#WCqqH)pmi)@P874wk&Yt+4*O6i>P&*B?_t@IdO!yc9rmSYgV_b
z?Av2saQImx=V6%JJ#1nnTO@DG()gVncRKF2=XRZdIn{1ZRokha@M6oidzV{2=mLM&
z|5a1L7g@ZV^TwBV<h%AsUHjH8=6=>*_d_RF8Cg7<kC0&)8LmAeZF}Zk=$Ou8$S%b?
zaGXyo0$Y{v27nbNgV4k}$)KR-GG;V%^Q3c}cpe$!Ch<4$14B(Vr$2x{O|`}pa#i*#
zOHglj<`IJdcBJ-h%JvFP9-*^0IL6DyB!6tFX4T)7b9S+vbB5_~<j@AASmkO+8sZc(
zf=nxNgY=jxYC~-$2lBVjLMf7bpCxnL<x-faabic-`X<Civ$lyC;8I$jnxkko1>-9+
zt<sNDH3NQ#L7KJk+^l_~I%|2uQ#3i?b*MtLYf+Ff>cRB`LbJ1W-a6|jv4=M_G}Dmx
zF!yo?SSgHR);a4cF->q~^g~TU`=TxD;B7NtlV%-2<1Q#8!5+a%TRko`R_c1Ewd6R_
zA!Tr+r^_-VzhNKM#XG*Os}#@Cn$m^dS}q*D8_d#hXgJTzv>q?H<PlTnHHPaPv5Cn{
z?7R>=17onp5`;;!#?BdN{B_Ps{03s7?$hyV+$)l7oXOiRjEgXgg%#=*@pq{3Kc@um
z*=gL(NeM?p5%+k2@upL_?1URA|AJE8<G7Xrl!&WROd}<GA-98ZtXd6CmUstF++Exa
zN^kxpCH*crdS7HGN!ds|C7Z@&n}Sh^4kBEqd?g%T)EL>R+#a3v=|4wVh@HwfZ}^w@
z=RNHodfJJB@^=(sJvV(Y_R7b$NwIA!FRjK7z}zd=vtrHnAD8eKJC1O5-Tbi!{^p#&
z>wZ;JuKC1j)yZ7oWFgYO(jY|+&Ydn)cP*cgs&~#Edr%RYbKVa(F138G>pNXP4)@L<
zn>#o+ecxZR*m|$==so{4g+O@m;7#9x^P{$|LT&TPz8~%aMr$vFuxIY{tz9rOt?5HY
z1Cd{TJ@4=Q(BFB#qOH)>cjs$T;3)7J9g$`*nNV*=8MD~48t&h~4(dcU#>~-_GR*ZK
z;K7wh(=14vSu<~8ih9bi=`-5nv(}8huVEkxfYLY2-LT!T-*AjsFLGn%mvKB{2ZPuF
zmtiAwM&3?p<qH<<IuJQ*zmWLC0YyLJuhQ)W2gKh{%rP~CJL_PAXTlNo3)Y*K>k%t=
zz1zx-VTVKTVLOLbOnT^5x-kF(hHeFr^jUWCldn!FUdQy5;xWHEAe&zu#J{1L=w_4h
zUey%8_tk-+#7t!C<iW&D&6cU+ZGZwBi=EEQEZv5Eb5T%58FIzgm8ncZ?<O-0R3r5c
zE0IB#Q|&s75}!uh*lFx$0j@8}PBLld$>&jTwUIU9qmmH0oTxOlTxxV`3i9@u4&!a|
zXwF62F~5bTAs=ya4V^g%VC&=LMp|>unnG3WyH{>r$yW_YRYP+g9MtvAOHbX4_I+L%
z2)I8DarONRt_Q)&Ty<wI&;<cziKinMh_5@Won=y>b-}sVwdUtS4Y}qWxn0L|O(&#^
z6EMFHLXJ38DDPT6zWmh6=pE0>?A?R8z)?mmhClOxK3pqD4QmzT3!t@iYIltbxZMBa
zAqOurJoupRV9Y5y6fmX7N>45#n%JJG!m56od%ODW@Y^--au=~X{t?Wqi_F2iA#<SN
zcx@lNQ&Zd>TG~5dl+{^4w5NW0di7j*t_FL={FZapLVm~`aHb(-Ra30++vcj(6dOWd
zT!*;@^UI(H*=};oI<dzb*h%GC$7LGTrjN%Nqn&574)lmn=%(+@7mVW#1%wW5%&(bd
zUE<EHbJm@88;J+Caq>>4pfhLP6V|Mocd|1ZS9rl{y0ZGMA`>?sHZt1Iy0rF8-1S+M
z!f3NaRh#Mh+ZeabNEQdi>*dnHEpoWEn#HA(Q`u>B21B{0Vm$2^80}49JI@wSck!OA
z2e{1pYZe{)-Y4YsmE`qhomme->M}W-KE8~1e&E;YW$U19)(_Z#UNKw)0Y0eZ&X#4p
ze0kRMLB;zjKBtS_U#g@(>*GTkOJ4saE4N^}etZiES8CAOat^Ar9O6rVt2x;7m^r9a
z=b*X-t^p0Mv%$xVI?UJT@Cs%FeC?)D?`5O@{Vhgar;jPR#eCH95v~5&a`eNJEibNV
z6G8MdJ~~^GHLKJrFx6~mwsN*ATS<F8ZMyD7DXVeq$P?0P$7riQsMqLKT<>p~tsrVO
zTOpbk%-364+a>!6ZJV$6Td@~GXU5LNEjZO)$La$k{)%#(nqDbJT~VX16r&V1uxz@z
z0o&3_W5SmU@O;z!E=S@th6hS8ZPpCYm5!seKF?ZMA8~;~8xt^v)sV;FG`O3%Yv8!f
z$i5BNzHeI;n^TgG$(B)`#~p4Hh|4M2h8udLDUl@HvX9*n=aswFY1zY)(oj#2W%P>@
zn&`yFE|hO2Hld2ti|6U0=!6ydT{>Nd&>X}jg;2wi>E@ZaBljcCOGlOu+}r#7YUJ$P
z>5sf17ng$fp#SsM<h@bJ8(kdzkvGQJyA3KZ9lF0r(6y9uZCQvaHMpe*N&Lj1ZYf?8
z0vA;x&eEZ7W$VjA2ANtM;BGTI&$1ifevK19MmHeIB0jkYaq$7gI>kSu*#AV%J#vUB
zXMh(!A>Ut+L!5Gvp3wzW9tOGuBY$Rg8WS>)fw@xf_X+aDXaJD^1WMe2W&U2pP$AsB
zbnsT$g6)2+ec87B3-_M>%4+OITmlJ17lozgm!0<l1BE~|A83>UjZ2L`3bd@bxX?Cb
zDpWLzIysJxd$!Og;9(0L(rX5CTal#5;=a7WLbn6tb|7Ma90<V*y`Ne$0PlG6f{$Cy
zFhD}oz#zMd9*CrHhdfCKx@;w4u_S{5{L`912~3u@(!C1o6>4&3*Ut`orQ{zG^mn6A
zPhR&+!z;V)Ui*>vd85^@V+mA6y=5RLE|pgQya!nGMPN**BfoCNFVwxHHYKClt0vKO
z-M@wG21;RVuRxwa)FJz_j(MLJkJ7#KILFzPI<rnA<-)9sH-RQ{y;+6{bpZpLK(SzA
zd2><pOEeR(_zPJF@iXT*D=-!mr$=7^Ce>$8E>oTzNTjF7=#>o^*EmFBDme=Fnr$vZ
zSn)FPzv4&7TMEjP9V*2yyBPvgScxAYqsZ0;wSl|HbU}$S3Vd-R$_}+Txl&~wR1~Pz
zSh7dUP>afn(~rJW%azrlJf)znnf*Wenkg;+A+4O7Xb&srPwM&?9EAf%rNG_=_u@$?
zP{DH7FYz$SD1;&p>YLt6-byY%b;rG0e|W(IsbHuJA?v-0eUyx?j=Nj^3${Y6H6I(2
zVnbl=Ya13ExNerK=>Dj_s}PPB!mYpwg~oWHsjJZ51+jEP)xtBMmBYlNP}lZhsBLX0
z7a3UF1#1w71Z3MmjQOH$I>_|hGp&!@{q9vS9<w)9dX-t4>H1RHn6;EJQ~PLU1-9wl
z88;YMty1`hRR2$Cqlo_y&P>_H4$SyAu)g9SQO5s54hacn+8%97xj&eI*%ls!(c0?%
za{1H|pl5?xNq_Ig3TM2<4h<&6e^0$IfFfS3fwW1{3TRbDAMFJ3+G_Gqh+t{CzYzDy
zRyxMz0IhrVgs0b2(ztIYWW*oS=>I!8y>MhdF~!Q;AY`p3h`&ln4=BkANq_p)@ysRh
zk11$nj}6$yE=^BdiPtKktvn@EK^8W4MQbX}wi>u_@joL`{7Z8F8##YPP7y`BS#!#c
zT|<&=62QX_un2gD6ps@zY-7q!L@7SUtAkqNpc<tJM`*yZU7>8m&!{<u3K*vOoPzq{
zn}(Q%`$oy8F7ZOYps0+zrN`{dBX(bk#JV)kZ_@7lLoCMs`3Coy+1BLFIqM(7zPxU6
zTfVMes_S2^8(bwp!u_V!f7}X57762aO0k`*vE4am^mD7#)%aIlyQ}r{0P{s%;fMPn
z%%2~IVC|KHziP2@K3fP?zI*)U@x_Zv>D5rzg6RR>4<*5P&fg7_q<np!RNt4cKOof~
zxNBOiKa>j`T5!XGT|r~hg6~1=V7_&S)VgD}b=RGPAGYqhdHU|Y-1BFp!{=b$6s-T$
z&IPL$E-&@m3-lLhfzEq@9!T^4%n!0)>G^y9b_5`h2n27;%+KU%58m@1x;y&sF8`~`
zg}^?D_?|J90Uy;iEWYyI)mvAWMt}9%k89!!2MhHL?~UIYFN6;iYPYRCzjAnGCKo;g
zO$lKglE1_ro7~y8Ja9Yo{o32LD+likEZ45a_er6)g=34CJ__L$e+|h9b4`OQ&*BCx
zuCW%v4TZ+mLR0hS9(!fgr)6Aa<6|=Y6=nLYnXBzw>*vZV-mSe^n~MzJ3m*Al@Q-W%
zptca$k8z!N!nmF`9#^b!DR?WhaICbOLn}YOshdg<eAI(ly$6Ty1&0ffC|T(gLQfS!
zL!?(KUvPcuq-h#o3jR3I{Gg_O!Tu+^pOr$}7fvjBmcIrC*3#&Q)$Jbvw<~3ruB_}?
zjqJZ``r)z9E#{h9EQY4GTlO^%x92(2x|a*re-x@&Y+QW)TPN2pnz7{8ARG-uHM1LV
z8E4`Zo2_n0#A0Y>LnMkww1aY$*P0wp<GG8>^c2v`6h$)}M3jg4H{^J+Z;Z`yzDvpE
zJVRTHC~lbLJUDpxGp@~c+_W^a#(wV%ea?Q@o->(j-OH8VkKB%|aq!-0{k`rVbgz>a
zHaB~pHWhjXKJ_$}7~H@QScGcW)eZ-RunY%RhNb#lYc2}9)teqTcdI+ss4Q-bD0e&7
zeH1!os<FA3hL<as(<_JXRNNWM^&OPrhoqLn>l{+ncAPWYqD#k?zp^rP$M$>PA9!;^
z!&1)?spaSzM@c^%`eFJHc74J8?2u*S9m7!dPm^V>e+DR&TJtD!Jl=c}7Crc9#XsA(
zt$6ki(lFkMN93%$>!N9d9;|Zn9^Nb9nJOa_4C7eEItC^cxb3S+xkg~mqt`{YHy$My
zYK9*nrmNCR!Ujh#>E-==0JcYN!N&)MGS&8|9JWV(z5+dn>EqQs=&@lu`V=A?9cFt}
zzh&tv<I;S!P|jB}+oSLnIan(0IoH6(sDiKEBG(qZQ|d+^>(Iv#9}y}6oigJ(N-U7P
zLX}WPy9OnrC|S)ckVrz&AlGdsE00c!hncPSsnejB?W)wmu8Jz`s(gZ81-m-H%Z_nX
zUEnPx&%nIiKyzXxZNDmV=$5D)Q1a+z0%<v@(lEs+XwyjFD?4EHM0Vg}Efr^~e1;YJ
zk@$#cgf{&8GMrM@-AD;zY|Uh(Of|M|G7|o7k&~20n?6ktpsBVUB563~a`s%$p!zx!
z&y3W&DZ!@rA*zP)gz_SgLQk=Hxl)Ouhn-5IVZUb?OQspfHfYKli5^pn(4#2{R!ic7
zIH{SJ&Fp*3Vqi8ak1c*4^a&FUKuPH40`a{6Darp-!CRg8lJ!B}+bMZFOM*Kj?~an-
z9?820Y7NptSY2*KG_aXZWfM)Nr}UW1<xSwFAb3`j(Zn0_nHCr^8|cvy>wL6ord_ud
zwd97EyR5jnN=)6R4>blhMIne-0}VG~Lxy>)3}bauwPGqR0IOOP>~Qnw5WuCq9Vx^h
z{ej6-40_$zX?mfmJsqR1Jei!PE6StE7#^sKu_vrzY*D3q-ENJ9J&1Qu_UIvsEwN49
z6T5oq)M=^=j{+9UoMjLHZ7TKx9oUpLGm00sCN6HQw1@Rbd#sH5yC-&zeps(J_O_&_
z8#>kloqh^$f#R+S%R<7djrAxc@wV8QpgcgTj90G(R$<!#Q`v{B8^y;z#a)Oi+F#>+
zEVh*x1LL8tsZXkbSMn22!QKv4V4~QNeV@voB4>~s61;3e0Ia8SNU=#^TnMX#nh>9*
zGS89oJUJ)GISB_hh+{gQY$G3QhX%0e2C@7I8er}H?a{y^#Z!a^ehDo@^I6Z;wdHHK
zOSRkQ{E*Y;L)}uSJ0IF1g?7xjpb5=K2Bpa0%1im}CnWquPCzyKiN8a|9QA#L+IYTp
zzf`-wP+6a^?2#&aa7j5|)gx8)uo(78R&^|2-78i17Q&7BaIX~Z#k~i@B2E>HFmqbP
z0Im<+(pCF}Ty!<&2MBGtMG6u7=0_-v(1;NVfnfmMIJKe$_5msBel3pKgz5+mIW%Id
zn1RDRi>+>v>WB-n&Js&m64DhdYfJ2AO&MBi>?1{iCXg%MjzBrR2gSRiKt~2B2C>BF
zZu%e=G&uD(w5tmUVI8YN1nuf56ZO__suV%74>cPgMI*xQa?_*bQ9ANytdZUAmZLR*
z0Sq(@ZILgxJ=)fchvSN7PZ+U2nk`1w`Dh&|RjI{7*y%WfcmBv)9265Hk7#Wx)Y35X
z!NJ?RHYN;-S8X!&RPY0plLKiy-%8IbiJI*viEk8JjPH`Kot!R0Ds%*iE95ZbMWmTr
zkr@{VLGq=y=okrSSA=vT9er{cq<eVpSi86=2h=dkPLv0bMKYGqp5H1ChyWqt-EB^>
z)wCnXj-ygT&6dZJE!tat?_jH?!>9-X(8ro<*0nLC$U>xDc@s}D$^;&(+bPxU%;BBC
z4Jq1FfU$nc7`>0j`ohg0oVrtWw|cevI9Pk-1wPnLhTE7WCMlwHV@`H=i*AP9uV`4Z
zFS}MN2JsY181|Oey<i9FhFR-}9>^NnzSsGk&V18uscCn<>1nCy>AB$>r{+)H^ETX%
zDX-<}^)gR+#R9Kbn9y^6QhEPFhqaNJaYn(g`hqu3%%8}6i3Edi#^w8wvs+;ie*ge)
zps$JKVq_Pce9UYUznecJ`|qO3qDJqUl~u%;_}@kqrQ|8Ik(=py+)QpV;Uo-}CUZY#
z!b#$yygx4a<IC|?|F)b{Q7$QFoT6?X_lT_~HYT@D3w~>hR7IVnp)2S??Am}#Y(StC
zNaH3F=r&v9U7$EJ$<yq{Y4Mhr-8DaMz^d`xuhT$VPzMgw09mZLZ@CNJ%7tsWrX6>D
zFlSSr>L^N8Sc@BG(Td`17Wc!m<xmZcQ;UjY<$juCmTMLVXj2jjfXao9pN2_7QrhQf
zYD^odTt-i^L+(r>ek4Bn1ZN4;*}F0C@6g~IP#LqMD#sgmZBnppDf7MTcd{!luLcjp
zz}jCq=TlZMNsTv*TVK7fbHKPubcnjrl}7bt*KadwVL~Ns%uGzJ2!_QCV`jM?H5V%#
zXsLkr-_S6lY?$|hO-tKWgB@&Od4H4SZ(7<}Vwo)Z2<A1LWM*;|C|MGf<4gc9*Jb5$
zQ0J|+B)O&-H3c<32yi{g!!ADHP4r8Xyy&MH9-|>g$=68E6b14BN8m&v7D|M4A_dvj
z*5z~J4$4PU@FZzmkTQ~UoZ#?F@IV^(S;$&RkE(<s3(!kN7oIBAwCBPdp9Wp^_MEjA
zH)CtM3Keai+AK8)S3<tl)V1WvS)&hZfi<%eH|i=I*KGKO9M0{Zo4)b)=KtQ}k@rsC
zI+^pgORkR397tQYaP}a}y%u7=TD2U0)p85x7MmBoHvbDtwxzM<p%u$g3RbQ;|2E0B
z{WAx$sZ~&cUECqlu<0|d0fIY-5b;A2MEtBBf&g)QQGmF;C_vm^B0%((2oT{f5g<~i
zM1V-a4Fbe<4@E_6wkrMgK=|1R=(U(dtK^ETJ1DBmZ0p`aYKRm~Xb7*erD#^-hh#@0
z!B39i1xEkaB=`}$=!^%gdPmQXDf7!#2_YHTn}O+O8mJ3u^0e|oV~E&9dU8N{B3MyA
zDc9%gSQ2gdas00hP-icX*XLmoJ&D4^#VYsTfE0+WR9<)_nw_maIlxNu5CV(i=Yd~%
zk<hu^usOO{XT=!1rr2n=uw0CUf|aN8c(8g~M){$;B+8@5jgQO9^m*(l0_6dMuE%9o
zh@c|T!)T+P$CO|amtIBg!XEY>RGype{*q<D)<YOXat4LhY=2BSrY~0i#}UdqnvWZc
z`tF2|OO%Hdh8|PDa)(Hti(*MeSJF`~8-hZaBc^@R6sHMgTtt@3KGtMf!0l!-oG0`n
zyD#d`KeIRT<Ulb394r1G6e6(%u(+pt0QjFf2x*bfuSo2NNau|hBd3v^COEQ9X_1`(
zEfm{IP8&HyAj|gC4Dl+jhhC-V*T{LFobQrD8|gNuY^s+LAv^afxO%_%6(r%0OaCu8
zYZjBq1ZA12=W{r%f6jS7=0YEHeSg7qe$4IrQ*N)s?fsZL_%XK&e}BrI{g`{^WA4Zo
zW{b)Exsx+JWBQnTS`R&kP|sg*tsip(Uzi;x^A{XB0Xy<?a2}SwXfm}go4@b6?Rv<O
z|Dk9;O;LxwfBg3GhaCAIe#86?lPS7n{+{bQ$VL9OV-~J_XTjGC<XdOXan+zz&D9Uh
zuUkyf#Y3c1TIa|Q)M&0=W6=)}!H~n$U9j5UKK|zMf;CvM1`5`)g4N6X^`HAGnStm3
E0IewH5&!@I

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/granitemoeshared.cpython-312.pyc b/model_executor/models/__pycache__/granitemoeshared.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2bfe3b67164a0753c89b385ae55fff4f98e1ea78
GIT binary patch
literal 14924
zcmb_@du&@*dgr}-KSfbbN}?o6mSt0tDckZhmS6EZwl$tOlg_fvaB1BunKoa!m-0iU
zr*0cy<e9W_FqpNyGlMAIT}0jlh^D}99iTw+XBN9?btAWAFC2`4X0e$4i>VaMpamBD
z`_6rkk||HH*aPX@^Z3sDobUU6-#Ps6e!qu<OWS^u`t>Ns{S!qD=hOo$f5mg$eNN!w
zoWKi~G@r4=Ej)#-X=}z7x3RD-ZI9cLW>4EQj<|!RInvIIEAC=pXWE_d#62wRN_#WD
zxG&?6`&rzbZpZ}U0T%Y88#BRpkcGYJrc86ZnT37nmP~8BHPaSvV{w1FJrjzDShykG
zk?D+gvTz{Xl?lhgneKQui#MiwGQII$go8p;I+E#&_htIy{h3YiO)RZBJ&@TP-<%nY
z53+bmdP`<&d}}5ek7kDALp*2UPH{r(Tb$4)I<CHMOiuOtp;ZgVM;K*0C_}%8a+~O3
zv>l-Bd@=2ZdPDITE764#;rb=S&EnvPcD*m7w`|ew+2Wb(lqiYWNpV{)o4yq}B_*?|
zf_OeBUc8c&L?M#N31T|t@w|3Lj3lMWE6AKI%t&G+B}WQKlam=_$dPHSU?wL<F3%Jq
zH&TTwEI%m-sX{83jpU{xGON-f-pq?qL5_KTLtTmTs_RTal#-XzBEpW8oK8)O69`(e
zS@>=1yL2p<ok~q3r&XTG=W|jaQOKcViOF0hpF$lL)q5;Cc}3LdRL|?_bjB>>n-&X+
zd_FNP<!17z!*el}o;jKo&d;O~bG~~1;zUl$ppMS-qBJcE$8zbJO!h)jN~Y6d`dlh2
zCM7laYVO9`B$N%D%T1>W@&ze3DavwALQ>OrXOh`MYBos|pm)KdHkd`vpB9sX+V*;G
zGI`lZJdwF9V#=~Kz~(bqOiV@;Qptk&nwUkc@^5g`xTsZau1?F*LP10`xvUzfCZ4Bt
zQ~k9GConAEMQzUHbGcWKV)T0K!Ua?rJUUaz{ehU8zEVJTQV=E8n@L_16Y1nFQIb_(
zCVA_!n8-`wRO;rWwv9C3<O6xce*{h-a&aEqz~biIoZuELqE)bpHi4f7rC<~7Q;s=q
z3Y_3Af7~HBMCaAU+Um5h;H;lMWfNR)+2Zaw?j|4iT;!sj+R4zi?fG*TCRE2H+bOE=
zO<D%*585}XL+`(>rbQRRbVgU+#_ax#zt0uS%)7QC_vbh>#wp{uB7e2EtWH_v68b6U
zh=OWd=RjdGk_uiUROGHYjBxdf)H-cU^O!;OMX(etMeENw!TL+fM>gX`qkgldLcpl2
zeoggTHS4vbUPn#6=4ddoCZp!+S8!h2%W+aiq18weT=gl@XZJ6yAJQI%`%}Kqu7#@e
zi&6NDv|Cu)iQmwqot*W@QrY}WA(3WBFltvlT3k-eimER+Q=m+W$g1sfDk)156qEYk
z%{IjJY`v^i8l*gvK()zW0<)p-Wp#!EwwIhNq^`4b`%+}KFBbU@F-IaJzE>ri%1M!I
z?nW%?SM5l}iE$+oDR9t4LiJur34)kqostI7q8ic|APB0*TFdrRwy$=CQUfLV*YsTV
z=vAV3;A_eBjCewla*{;5Np&DKF_p#C*kmz1CG{e)W{~bgVlthS<wQaz5fFj9^DnQC
z7BczKd@8@KkOaFcY`ZzLcmKX?d&SXo>hfs*R^du6J9-@qbd<?~gm_b&1e1`os60At
za(!)RvHUG5irQzxRmNkU$e1xTTR<WI9lYP&;Z}W|yWy@=afP0^I-hk$N}VH0=g6Gx
z?LfJ!uhjLD()H4u?TIV&G`y$W-gW<v-~HoqXHThfNa-9}>KI-~DjlQcU|YFkbGa>i
z@B0tlSZW?#^*XveRH$RMf$JG9`x;BWu;L3N@XmMcey5iF2TRQ(An#%1os|a8*HrR`
z6>oUn@r8HrX;Zk|G_<g%G(4^hk1q`!tZ@9Ho$!J?SFG0Nh6-o(H>|q2_P(E{=WKuO
zUBQsBX2!Y~z_n%7A&HQe*-7*4gN8T-<2N@ExX<A<>L&tG(-nE+oLoZL+x%?{=u94C
zl7ZV8bhmj>=<>aqPyEQBFl*v3a*z0ls8t#Pp|qX6ZSat=gTlMvseD4F=CDzuF^W5}
z+ixT#VYaK@;_8_vK`9@BcZVx?^_IFul&+D5H<r5&V1?)W_uedr!tZ$>dgsqChjz~S
z8Ob)KYuiF*xog}Y351tiVQCjCiCQL9F6yOIl?Bkisq!Qe*orf03i}cXu=cc;BN6kH
zNRFshxgfD^sM;AcP#v1^lwP7-zkU!V#dJE6c*ILPkt)*y9AV>>dJtqDu?hJcyx+aW
zRb1TI-f~;$Yj?MO)3e6GiXGpIgKLj2>{8lBD^7~KxM0gSL{K?ovv<#b?}JP4U#f5j
zE{cDh{#E+76lCLK)lZ^k(-{I`<pGk`i%<wr@AE=b7pHa+B2?g~JWQlIAyS=!OLWy`
z)b0(^9re?v9D)a;7BxfEdLe3k>T?JCxHt)@A)O<PFu|CP>YF6|r3>6D3zGI=Xp^=3
zlQ=y)2Y-njzE18szqQ;oPgcReA=vSxhZwl~wtY>GRp87VN5O3@0nSbxnF~3_^dEyt
z`y$npQq>%!64zemiuR&|<aN;o>1X?;1yps=&PVnS^>!cu%|2BnDoVAjs~AzFhU%u)
zA4z8&TCHCWNPOpqbcEp019Kc}X3izJjhPeN*S6xASOhNHSRhfuT#?tu=|O#7gBJCf
zBQ9*J(rz%{BrDgsk9;5MtBksujm-ZKb+s6EVJ3%+aP^DUOiTkb;-64GQZ6qhp!pP%
zsYVDg)yER#$t2Ll^sFaFvNw?|6tYo|L^Z1J>`W$c1xTME=$narPG%aB>Z6Qn*R?$9
zG-#zW<Pi(4o*K0Um1+1sk(o&sQu%aBlxBmm%jw+YwS=5cO0o!^C`KKsmul42E8>0m
z#5JuC!RH}IgjykdBn^{C(>v>p=?Ep0&OfqL`|yZYtzuq|wn<oXj<Hs)UMDaEx+h6A
zOKLMUU+t|n=JrgoI_89Es5i1keNDWTxK2PupM~>OkK3F>iSVHsq<S&hWZE1YYf2w!
z0=Nr0;5F$25jU=%7shK<PjzGx9bK$jMowg*>?JTVHK1cJ;$oDjhOkV9n!zv~h~+d(
zqMQ;ScWRa+>eA#U!(40EuV!JHpdl;`kxK54CT|#E+Pq$-*78*oIZdFjd=|2bkW)hq
za$;bK1StbcU$urGygq+varbiT{yERn_MQjV=YP0ZSZ*Jm^F8etfebE%wkn~mz)YpK
z?MmDBaz}5eW3SS&mj%X@j<IrkAAu_Ek3p;WQuEew-<DF}xY9Si+Uo5DXnMP0HN^GB
z%AuZ8XuA^HUTzANnnsi+G=Y>MB{Wp-87TGaQF`_m5N)YDw$wbj>UZ`r(AB-#!Zo(v
zyS~)B|M8CHz`@UgUj$zM+RFKZUj+xsjcxOn9>4zh^k-+6Ub?VqwKO$UoSfVLc3`!U
zi)@*{UfQx>*|Puf_0r*2mBX(->Agt94?o=s(AQM*^(elc`IDuAy~@B|6ppe6H$zGf
z43#z=R5l%)v;Dm*!UVGFHjbstz|SO!CBqRjWn$_IW*%_Oa@)EAWV0ARYh$ohw0y)H
z%nVdkh=#g?hZMb8Gz=Q8JyW<D-2$Ut+a7JLb?#0RYB#V&O<rxu?4F|KDrq3=+=qJn
zHdNrcb=b_&+KNPDimhrz)poS8{LuF8MhvWBnTT4XB&uQy5_L*Hpz!y}`?usJ$h$<|
zAHq}Zlj&SmjM}w>XqHo5#&K1HV3LV7;M~-NG=$6W;q1T*PofTUZ=*^1f55xLReW4a
z-<*pbsu3kbXg72K&=x?q;bB9$t+(8{rDEqgwybd04$qt)`>&&K{@~)S(%4xAf1A!K
zp|hZGj_8%_RzkZMGs~glNc0BYIeho<lDEGcj+DYXl<<zlZOh>!ch3WQ_Qgt(F(op#
z9NE3(>n=wIN|D_P!h23FM@~~pc-x}wuLHjdeCA)?KB0ss=FXQJ`^urn^Nl~Nf!x-K
z3F!bv7WGNv_(%uIJ47DA1Bo^ngW1wy3K8>?j*xehJVMyg%j6w{SBt7oP$GH6;^jYr
zr=jYR?d6?&2v~c!*$**bjV}S~{`uod+t!McqR_E)ob9Hl2ROSz^q6~3!#92k{ebVV
zcRy<m-5-B<ykbWfb%eU_7vC*boD_3$p1?cdyW!uu5z|08^=1<PrZW!8N*D*d7K9U;
z`~|Gpuw&Uo+mubWUNyj;?SQS-L`!B(9IRJ$({<~W3y{8X!?K?GWd*P37TnB+=G%Zm
z%iXALkKljH9`^_hqF3~Zw)%BUSvoKb`o|djqK!i6bpVP$15*S7IGjPXb^S467Du*o
zpi}jskm@DNfuROa$|R<hIYJw>n;2JhAoer<N7f(Neq>)`dUJd`6`-C0?Z-9%x;p&u
z$5y1*0rWq%lcBF_K)Y*43>;W<cWw2S7!+m;pr~UQ1BJ;GYoI(=j}|r50r+?AkQOvc
zaH!2xIzU|y%yS8oj~BYNQXB_bQfb$@IqRHl&OT)oEN{7r7Souhw{;0$v}eM0go8!}
z2%BRqkS&L~4f=1py49elexdBp4uC^lwE)`zyFY`S=1w6Z+9?G3SNh@o%!)l?>?7{3
z<t~30(ipR(t2|6{NZ$n|s-hDfwP`Sy!7>KWB1n~qJaXrbhQU<VcsiN6EF=%jZm+wq
zO#~JjXFyawgn(A!S5zD65x`_my7mIIJn$`!fA09kY6&+mMl<V-X(n{(3dp2a;nhNE
z7}m*HZy2cESEh_J!@3-yGSqL?mrn`=bYWCX391({x+p;Srs}y)mk63MkrqdT=RO9v
zwIZ_GVuJ4)<SKPh%?x4dqEWZ@du5meVQ(cwth&Xlpa&iLP-rVkZ%|<y!D7hg9h8zH
zkIuTL#+dW1Sy>3f0Qep`a-<gf_Plt?e~v=(m+=1e4)@gMH;skCa48s7g3(fNObL$7
zIm+$*rS?&!eRR%O6MWVd22S;s!&{k2kOAeG(iLMsnHe01mCj)@IDQr0X_yEN^a#+p
z>a^+BM2MZu!=-`4%D`bN-1pVKV+>{vD87MjEEazQNv&=eA^%{hc{8kv`#p+lH*4m>
zz%OD810M|owE~%+EQMoAIJS7QwCj|z>(rB$(=Z;obr`DYAt^!DtR?y}!QeG!$r$DU
zBER2ic#)I#fe@!a!UyUcTc2A9%T%jj)eC5Q#B6u=IZcEy_SibIPpBR`l(6#!noEI*
z5{S%qEC+^{T*GWA6AZhlEo(GSD6({krTSTOvZfBoYivTqblE5`<B-=LbpwuGt(_AP
zlamIEwm*R-<F-8;1Q0bDx0XwO)dqUo4vS3PTbEg!9Ms@0TJKn1!R<uRD)1!zU_Ub1
zI7-$LA4oM>b4{CEJ+Wc1^W)qbz#F$A{g{2oWQn)!Z~JXEEY2La$&9Nl$o>MY0doRh
zw5Lo<??tfIt0rqTXfO|U6SQL<G-kOQ*-@`V<HE|wiK&zX-4~|)Yf=$ul1v`)OX&uA
zGvr-|hZ_qST*08Fo=7+08N7h@nug$SQ|O1}QCq5A;~_dX07Iz7-`(}OfeyU?2Ib}d
z3XdtkzR*t&mAqTN@NOvs!3MULBir8fKO-c(ONs1S{5Q*y!}t7UU&n*jO5J-D{Q36W
zJ^!qE%Tn{$l5Y%tIlO(bR|y}TJO8w`>%sB&&OSW5&{B%-SEBnL@A~x6Cx`x_^_963
z{}}F@j{?_+4*+;uxwf<XSAnjd{IC=l`XVs&w0ZDZ%cl7^DppIdX~k-5!M%VD%)rBS
zbie0*=$_xU9NG>jUxnDJ^M-cIy5>@Vums!q{|+1cK9?fRk3Y`c<KKYvW`=t!G%;(v
zs{+AXcIl4_R0nfKTfKt-v#2gTjW0GL_&AP*^=cg*lOAyt?aXv(HKg`!$M2!F<C0H5
zrnjBY4efM{>gk8DT$ABZr)8sb-FDM~xX#PkA#~P+fmDhP(n^YMgq#$5J7MGA{^<tu
z;xfi4o&0~A7hsnS=f$PZ3tea$WAzwgz3nY}YWnR(Z#}HHL+I`Q-k`T0v$wq)%&$lA
znr-=tzM2+nXu(G<+~eQwL@!`j&|`gICWd0O0h@yUZ(bOq3f&ou$7m7E!Z$Iy`8mVm
znw!~}wzV~TV(0U;#^VoIN^k7Yi77m06x@W?@%F(gq%yOE&zE0wAzD*@rxC8xKfLw8
zg{y|a46^R$tDeSvot_<asV+bsnVzwzc5uRJk#31`)$EkSd^$NP!rpLY1`LugJFb+{
zcrTIAPqk{tBbkgG^=lIM&xpdC6>pgNd{*W2Dv!!;>|pm=2#jd~7gAu+O=eUVlC+TX
z#!e%1r=H}dzOqD_06%e1(`lD=zS<tm_SfgBwKOHvBmV_h0|a_oXwLhzrR(nTxubJ$
zmIICN%-)?{>OA@+@bc4+o(FHfcm3h@`Q*=U{X<9e-qCVT?|Z3-sdDIWxpUXzcNdQ>
z&Mt*sUa?zy+wPr$*4-O<VfN7Q!j4BRA9p_LTs-=C$3o|F^q|r*c<=OsE9I{Kg<+*@
z_fpI5rLNuUV#8zi&dxiPmaSzi^hL|oue-R;p-Px*YQEq3Zs$_?_><s?7j*YX{q9Ek
z=7SFl_fFSsk6H;(D~)C=$DRa_m&4ufoq2es+;X7YGKP_NH{Ek%<e|O=uhKrY)Ht@(
zK30wn-Sa*;v)nlNtgj!Tqd#q^9OD58SC8{tV{a)iq69`3URyj+8au9x9bX<hxg0pP
z<T}N$lm_G)*V|(Vl+?At6e)v=V`h&biGb^XnS5Hr-KbcQ9#H<v<Q;=oYo(c{MDiX|
z#$$M}(mXqQ?4P-?{R}@pTVdbFW8biEWt_K<EVO<ceiX*7xP9dD=1)gH8CjtqrYN@a
zYwz<mnU)S_q0wzJy*n3=D?R%vWR!u#)C@NBg3>-zp|WJ(VOE<JKgIS8*iZBGrx(7r
zIQH27sqYit5+-Zg31#49g`=#`$3B<;+rHnjur_ftlu7)X&ftVAe}k>Q*2EKsE<BA#
zHGj#c__$552{7*b!U7YIbDGC9C0u^N1mqE&FvGZX6Oiw%hPYesi=KMAJIpL~({*Et
zk3Ej+-mrAAercge^b3v52-Lg*g_gTf>mH#6MxX|vb%W9yl+)To-`ija3JC3DBOWn&
zuJ)TVYX*c4qz{-;Gl2Q<Pq~Cnly4Tg#1^qtbk*-ejR~qjY!h9C9?)_aCEJ+^Dg;^7
zqdxZz;bcxamYk83>2v2#s;)P2x0aW3SMjvX@g@tYj%)f?%TXIOwZ~M9Wi_Y^m}(NN
z(4;`APS~>ON=y0=h%q~trp}uhuW7R&G(cyQ&fSUyv2|D5P(QxSld^htE!;fRwQCVF
zge}EXd<v!=sL0nm2D1PuQt#kCvKS$hBkajsRh<9=F)v4rT;MKiy`5gPt!cx=LwKA<
zY6BeFFcl=!QO9;AjY46mqvBi*Yc<sR_3T+F9jc|#!U+@C6#9(Z4M$dIyaK6;brimO
z`+gR@1<&Sa)!{H=GQ=>4t7GScYG-C1Y$tQaXj_SFRT8xg*kh-QWHH)YbJ3ci>@0Z^
z@|Z=1v1ytZ=|7PdB=1e~hRCB0sx}u=V&X<l5^C;TwT<l1AsS7M+K^_?RulRKw%Vx2
zad7l^td8}Dopm-Hvd%H^QESq9?h>WuXqvXPMzCP{Z&CbrYYaQ(7Z`SQYtC1#L*>w>
zkIp@A`>cI=<P0wN+UPdYgU48*L1vWcR&W7QW5#*f+&k}Ba4$FSTy@(+MC^lbq32$k
zzwmA@_YZzB^!`w(f4|bdztn$3=|3`e{GD@m&pq+=eihMf6U`b~psD$uaR1u7*R=an
zrD;3tM0BJ1_b&Z%fhoUxFt{~J9&HZB7WN^)Y&iI?cQ1bBW!QBr+S)T&PuD56Rvo6d
z&knCgeYK0Q&Ypv3?3_%u?aZD-fUgvYDuL)ibUCnV$+fG-rX!i!{2Idz?E^Nn7y=uc
zr${p?ntXwbF~)#+HlV1!-`M;mQB}1$W;~G1{Z?x<*z}^I>ZXHjG(?h1xU*{@<=peo
zQ}(sqyS3E6=dpjqYGJo?4z97=cz&i`1?vnG1v!q`85<;Bh;2AXuAYqw7AU<Yy3#cU
zZIS*nYGOxr&Eq?Vb`ICRz-yp4?$BkRZqQrv*`XJWdM)jK8hkgJ!ukeVOTj@UI5=PU
zp!j}q@r~u+F<4Int#f|1%BtsbvVaHmOy98!g<E-1bqL~hJj<V?@f*%GSQL;_YpE0X
zs<K`GjSrYAE#o>@@4{w^y>*7LqFINlwQxnP6WZOdMfw%8q`!iP3t$F(k07ktXGJL|
zYb=vEBd!8=;3F-PXBN?}0>HvF&8e5Yc^5PJ!mYJ0b#>$A?12}}`tK=xkd}c!Im}ns
zX?RK4`yX3B=z71a+}b<eLV;4>KBaHpQp^6&T0g%I#@63dvBI3RVs$inDxAaZ(SYrr
zp^i12#oU>B<kYT4kt~6=dl>oT>aC0fi{~_-#oPTVJfPiL&oETAr~-^xCuUtbK8it%
z`Q>Y=y#7l8QO2~Bz}ME{0}7D>Vr+LBiHhw`KR8&k-5J&F))&ootpa<Rrj{5kgh{X;
zmi+SY=*I^h9ViXI^2P8g4_<jVzI5TWRlBvxGv|PI*4S1G^ech>`MotpYdkubh<2>g
zv(&CB{Q4ttIf>_1g<K+ENC-0$UA$21YFi%ZqM*M@l@pm{K95W_Xd*}>OYNv88Fx2;
z1bE9TOW#(N`<N!n3Y&U$`%3=>X%Za|iIg_!-;+lZTwlZc1?7<UfABBw#-u^REB9|%
zvi0Kr!rlDOoUPSUu{wGjOSaBR3)eARZXW#FZtXz474z0VJnvnybu*nXWcQFth!1Im
z_*8cB_T5#5aCcQ9+zpmHeuOV?+wry6Q*%*|Fq$=#LW;p;U?_zYU8fXMQdKFWSjb{;
zTR8FYxku+J9D<L(_vxiiE`5GnIe1}(;uV+M?kRV6SFH3M9RA?i``5Jafg_)ee=^R(
z&)ne^JMt@ScKgT%3MO(4{Sra#6w*9Kx2w)XLdZ?xMRH&=hu;a|w*$GX97|rFWXqzu
zVGoiDxm;S-tmsEjN+PJP4isQpk|Ccm*!wYt59QeOx<~cw-G$mkm+3L>M^5aA2{8dL
zZ>1z&ILnfgDr48}prD_*XwNigSE-Gxppe3&=oEgMB?_9Me=|#FO`6a8^=ryl_16#D
zPYVWKK+8<|bOWe8tLu9aDf{h)M5>AQ^M>IU5o@^A#Gw*{t6N@Bg8j@#|FxC&5Pa+f
z)Y^q9S=i{8T~&~*foX#7s-G2?#W!c@2XaiVsGjQTut$%~0H{4v#4l2?&QmZB$`Yv}
z5~;1KeWsAY!ZQX)cdb&GQXS{n!PnlJpP*z0>1jVb;<UXrMs%)mjYAxg6hv`YIho{E
z#me*i*A5$R`^Lxdo4@43|HS#e<XXPuPW?~r;IFySFS+QK-1wK=zTaA`yyY7g$DiiE
z<W8Eg*#F|rD%{y$bK8H-9agx*tBwJ_`$7ME(TCAh4#Cw4{tVA|&+q(T|NHw_ISN<4
zZ{aNMtCl2>x*oht7OxeKMOLiHsAw6hr>)=N`H}hl52Ei!7cM=1=^KvXY)JnXCsR2u

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/gritlm.cpython-312.pyc b/model_executor/models/__pycache__/gritlm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b3ed89767d79338cdca11f7828525d11c35d1c82
GIT binary patch
literal 10482
zcmb7KYj6`+mcA{uT5n5!8^3652#CZsCW9fwfq(-B5)1=mk|@cDM%}XIv?Qmy1=uUs
zk{N18-Xt5?Y!*_R+BjRO8d9Wc$n4e*TQyai`L|p9M?z%m>4hz_!_-#(iI`L-`Llb@
z?T2JVNp>21`}TdDd(M4)=W+EP!Jv=8BeSn2U*HM(J$_gZXJ%HmFoawpA`uyxq?jnf
zVBR4+qE7l|qbz;9Qe2dybxzrx@<cr;Z`4b_S=pEJNBuPKk^`w=G?;3LHl#w)P%0b^
zry8S;sitUCsyW(B+i-GAsx{h5^KQ8<)gEo9d5_$YS`%GE^Io|#)fMfcd7s>!>WTJ1
z-Y*8^-qhOYT821?<d^uXz&k$Cbq+F4#Nc@%Hb~s`6Gmxudev!sMf+*X5VQ<S4R+~z
zptn|RwCK?`P0*%UYPH&2HOWOc%sL`1pW#=8(VfR7Z6e~({f9H6B#&j%iR7g2`;jcC
zj65{)C(}tSCTAumB_-n48=gq2GlCYMI-1GIlA?3w+h@EFNP?(`jQm7KNeOatPSTsP
zAeo*#DkwrqeR@U|G)WIlN?L42$)sk0yp&e;mZ}0R^OBT~B}ElD2tOqYDPey`856Rq
zAU|~&xiTr95Y(68vpX)trz9~(yTOP`ECGaLaVikh2MmsmWVM;B2H%uJVCb-<3BZi-
z8LkABw}?_g$jZQ%!Ej8Qosr_^)X|sU{8-ruU48~zPa;u9BvFURz?O4JY{HQz2}X3D
z4@6yF;)O*JU9hMP)kKWE$bCz>Tk?n=_+#hXgos|rlkkbY^RB2@^nXhaY{QCy^K8@y
z?fp_<4GfWRz?Nd8LD*CQC~bfiA@~l#)(KDdeUl%lseU=qqMS5J%|PcnTGj85eG{D6
z1Y@`4$yp}adYnXB^oDUIsXcZ0uq32$b>?>LQTdbB*U5+YQ(2AAq~%#YnU2d@QBwJI
zCOwc$tD2IHYspNSr>m_F>VXvQUURkMjw;DuWP(R$<yly*w-{V6&8}W>Es)n;gjh#|
zAvtD&#O(eW_NLDQnP#ng<!v3ed06`=$Q#bMBT3?p7dr@<cjlZq$F#T7*2?9alZ@3*
zbl}Xs>3FS^g?{r+7#p}T9?_`<th{FL9c(YMTG*<YZnAQfcY>w+&via9&pJqsog^an
z5B8Wa1_f1YZ`Qh3)mr=8s`ad@wRxHajv31J84~eML_A+RN7Y?l;4J<3-@Y=cGw?sB
zyQI`9Nz|ELUvr~d&TiSWOJ}pHq$oJWI%h1O&MA_XRnl=243RT}Gv5q<D``mHVqn$m
z+G%@zpvru51m>TKJ0@}d8)5#L1xLLV%P}~E7agxP(;2sC<+vpcbB27tOhlZzBR!+L
z1Vs^Mb#DcWoXR@rue)f8&Z?4}P;q<l{JF0W3~8yEp_$~&fF>w_WCLfj+aKBS(spS`
zPM#W?nboE;>7mnrtV70bmCj1>td>!XPjzS#PJ^5poSD^w#>4=aApp(|u0AJ&u^2_<
z*x;y~i3_s2Yj9Qjt-y~u0LdTEkz38Jmv&s-@f)txJ^mZ+TK4jZcYpl$kFV@2^=$o^
zD|U~Unhz8L2fn(|J+9))z16nW6XBFj$SU2K@OG{jb88`qxamvjva5RRT%}Ppk$Uw(
z-KAz{Kz(>DX_R&(gF9Pq1=v0<DVl-isyPqJMyzAyq^jvozyM_fe!J76u}WdwSTWE{
znxs(0p|7EvFP4_hfa;M}RW%w_Rjonn2r__Nm@AHIM0dj6Di6}aSS&6Jsv3)_XndUH
z;W?*l#!fifbM4=<Onp$P{t}X}U_Cs+1$WWYansXzr+ZVLz3EwVw`I$<mZjmn#o@iB
zma)9|UYK<JkXdm#JAI$FAHCo#J4rBnVa-zGmSW?UYyH<+OO4yFGsVW8#lX(x_M`W(
zVV-@hq3mP42buTRzpuU*DHF{9ljB#uk9=Ry{5_7W8@w_2Oo@LMNA3AtWJC`<w&HYb
zhR!!V4?un2(2b$zO6#I|_7hL<SD&u|x+=oaM?HHtvJ<)!rWuYb-P*cWg^UKf^Q`Wc
z(jsOQlrwJQ7kqf&k792hoZU+#=M<Tj;Or{?%2^g278d@5(XcIja`w4|9-CnH8mj8-
z9!A|NYR>PbHt(uOXP(Qk=NviLJgeE<=bRPn&#^gIj++D21bqzrT{ZE?dOty4gmW?P
z&M`SR{Nu1qC&@XG^LiS<(l#pdT2Ic6D0-Z*WY!hognx#K^5MS1XMZv+^4gTdCz6T^
znlK*EDvFejOME85pEMTYB<M!|B&^Iyo~{U3G&~wUHj$I|LY*A+*`<4wNp+|Fg@XZ!
zo%{(Hj2<RXth_1-N_>hxlhme?>A_Wvjj@gPa8y;qvE*rqSF@*7>E$ft5hx@;fYlvs
zW{kcz%g|6dTQw+(z;B{zUj@RE)l|$4XV8ET6uLeI=`0uyCIwr9V^rJJ$d95MG+=W7
z-;-Y9i)yqvzG}MpR2Ek4lthh|v@|K;6wUST18aBIT(XQ(S;urn;{{pHoRLHY72jw7
z3s1xawzwc?rG1K$0W1P5S$8QydQ#Gzsbm_?q%21~25{|wPRb*g?8M|zNOU)>CYsi|
z&sZ{=XOb$OOk8z*D1zz!7_L@~uKrwSEs|C0kgWRmkenmsO(f8I;pM-4>{e5Ep=Wog
z>G49~@mv0ey!z@6EPiKfk^8$RuMFSleu%c%TWT6B1jg<*wO)w7xhe0y)!K2n?ak-&
zzB~S={O;wpp8WXT#<mNy@AofGUO98Uvp6*Nu}~ZuFZCVxZR5fGp5<`!g*}&<%ZJ`>
zD1<j&87YQ`mqH`O(8wpD9n0+<f9)x|NYf#v>>=T%72uHQVbi&w>Je4xD$@`_oWj$O
zC_IVGyd%em)Ii9QX(Ukd80Okb+hKOwH4_Bjh})o1X)fA81SX~9I01T=zglU8Mq*un
z03adLwvkrpAhM$CL++|+h>9!%j1qvhwoz7T`yI5MBKx7+@(SnK94mULOyL}>g)9m=
zTLOeLm>H1bdt~-rg?YpWJYCl45%CH8t08S%(&*uWEjg)8A&%iutG4I?&alW>xGKbY
zM&iW`FYu<u=2Pf_;=wm@=DP_!WFLOPz|=Hv*qq<ZP1X2_58oI&sRC1Ji3f<G5Tr@q
zBCAv$@Pbi1FjJsPwTC|?#leM@s$}GW$Rr>`nio`%53L(IFX;aA2cJ-DAVxv^bxz)U
z<hbGd0J>;=B9jHNVCsx%dkDy9Rg)`;;*G%vG*qf*dyqE{I!wmP*`xvvR)wxjZP0)t
z-0u-b1zRGFk$(*NIrqb?q@bTxam~JuugXXucXdb1!|Z*NH&84!V^nwq5Tw>2XM`zq
z_ZdM+!^|r`0QQvqn4np#JdDY1NFpu+H4i{u4^@qi5J`LK?Q~jWwU**pY7|vLXG;vj
z7BwX1`fD+?PNS1BxOx{70Mi!I)twKOITGl;yr<~zU0nb3!S@EQwHEuf-|%n06=-^6
zVqv1}a5Qee?_`5u?U9!LLZA=Ou4mm+_ts+f)`Dlvoj`ag&|M64FNgWX^-F!*q4&qb
z|0bXf*|S0%(2pbG#?Rf(U?Wgiw_%CjRpfUS0zFXPzj3K=Yq4+Za-h4=J9K>*I`uyc
zo%($R&srEK(7$-<hJVv?@3vn%3!{fiJ0^;~6Zs?MCK6s-@bumfkzljM<Zg?}wS4}_
zolq~-E8`&ODjyHG6a`?!Itbx0qGJkRCgPmXIj|wXrB~2(_y9aIx>zdWi>a@gaXP_+
zn8_#_hJ7Fkq|Wu#%z2$Q7lDKtgybAq4tHGMSP1nMJbjcmokc3ER0MKIIqZZ?wGS#X
zAKG>(<@f}|j+(4vWcV$paNv}nKmCEj*lkZkUPZAjwM)gYLQPp37OO8tO`E?#LWUT(
zLVef7o1sSwo<|Kaf>TLRgxDEaSDK`P5;P-ODKpd+M~SQlBNSA^>r@F=EOSso4$H!w
zcUJ7?dR}#vt!&Q<_~WeUj}L(YVZTMyvD0?E!D6WrkC{dZYaYvbwv-L{^25}ZXX%=l
zYI)uzI_J5HI;&D$cI>1=7%|nNJMY%e{Gt!Ua9q|LfR#T+$O}M!-ZSsbxu;vLR+Tr*
z8JF{-!i2X6-<@O{9m<*qVml_EU_L;!sP_4gwMMn11Tz9D!hFngukB+=&TU65Sct#4
zz&(r4WML0-qI5bLm#8@kVO^(~OzAEWgP4(^f_4JNF2Jq_PYxok8AZV<R*qouBCSnl
zQ!}#)EE&XSPS7U0b1pffbHdCF*xEXqf^ePgPRJQSdw6TaXKd^!5_ldv`KtoD1}6I`
zG#U|JE|W;8k_N3{Q^L8$(5vpNbkV()#)t|OW~;E)4H^ufU7TyHIqGKlCFrC60g`j%
zzK^s&u$U@r+gEDapZDKt?Y#8D#TV{_pF2_**?)80IJnrshELaxUpNRz*VwugjugX@
zE0JFed@yizXle8A;^y6@&3irx?_FLu4qi53r-!txx$o!Ne0g6vOq!bW+^x3GcecGd
z`u1qCZBwajGYqp~)0M7k)4$!Yrx;k5KXlo<9B5w(^cDlX%i*5OiN)Ds@0M#L*AEpR
z-d_lhFNL2fhM!vQSo41C&wJkMK|T&M0J)7#7JdesFH9E${KEcnkUX%Lfnmd41yAQ!
zpZ5bpR1<yhgRyoGXlC3|6OlFysHBCI6pQJ;SPUXfSsC+zSnTDjAe%MrSWL{sV=;w=
zPBeN!gDJ`|eCp0*S~FB8-4=)rN(hq^nBZ|$p2I}IM8pJli-M6zB?E~bGy^4ZNtR<V
z0B^9E2?g)Rjc`dDHpK+vN$MR){&=4Jj@?^k+g;Byi_d>S@Lk?XI=hy8`|kPsT}^j_
zp*Nxn(XtEjpsO02FZnL|%5MCERcSAKG3O)TTWA+M%h;nFAim&A5Oar^A=lb#$9@(4
zC|V|v{djBzU*%H_<LX~Lex<9pVcQCUe3@fhqgVV8K5>l}c07q?qh+qc)pe)6`%>;=
zZc)6l?H8jTj20i*QEcB)c0mm=)3v$m#+--v8uHQ`@`7CSc3qa<mEVTU<}bZaN0FI|
z90zIb$8rj2lymi6g5)&s5gc%jz=}=@?hp{CAg0ek9Nmp~3Q&qse-6IAqFeG!<DAw!
zaE}mxc0q{0d!bzejlYLLXZiGiafXiKQB-K)YnAfDy+Kuj0vQ^DwMj2Hay5bTs?doY
zyvdOm_NR|#hr%@*@GZ!-Kn~hl6GCQ*vK~4@u<;>y8Cw*k)7_>zQ;?v77@@OMU@u0T
z1`;9M8XFGBULB!ptrpl0qy8hbQ!)03@zP3s?r!^rMY+`eFvQjZw_1AN`Sa4+Ev1&>
zJo~!WSj|4@Qs15#ff|T+)pa7L?J0pq=3`C7aZ_lAg1W;vZ^t25W%$s-In!=8R&KD4
zne#8$3pEs&Iicn^atpbo&`>cnR0<6jJi`Y6XpF2{aO4dCRxp(Cr|@5i*VRZsapGB^
zR&Df9^r$0(xv(+Q4Ei;8!_}-2;Tl^CZ7X=T8A8~KXO&fBZ`}z?5;Prap4Ao(tX7?s
z!CM?l7vr5yjeLIwBqMB%3RGk$rQvi`Tn6GHF3z>A+J2_S`d4g>dmMZK&{$oU<csp+
zV}-4IOKoF$|8iUBrR2rrqQ5ZkSgCCn6ofhf{;BMdurdSvl$SBVGg^h_D9ZPMHpOeW
zDltG?$ztv_B-KED77H=?C05{S0#KJ7tZOTRG`z|I2J#gI-HHf0Vj$><iJ&88&TS)T
z*#&tMGcgC4+4iLua>jDvSUP)n-=2v$<m?A;gYcm{b2U!lookeZTUHNZq{sp)x<oF)
z(K|5r`C!yd5zhmN=hZo51%#JDS)P~z&zlDH`DAKFmQqq$Q>kN4Jw6&$q!%^RYo39N
zYgI_f1444hATqFh?*QKBm_Y&z5SY}`QxaU|s635g)?Qun7=ZwT=X4S;GzC5mQ9=lI
znwy^n3S?ncQmV+N1aNf4WFjFM;onn|c1D8e01cEF#ywB_U<klqj*f!$7@kO`DcNsu
z0`hB9f@XC|PNp*$1Hf)|eQi1(y{@P9&P)LhCf~G^;demH1N{z@|9yD>N9WQo@>E`(
z%4B5`1Eat#l1yYU?1>Q+I1&)oF#^*A{4)@Fu8s`s<oiZ*c*&F7<vTcW{KT=R$4(qP
zGT|G|(FKFjqsNXMK6;|h2$>iJGH{1n<(g9(-)K(78JE(M0zq21R{oP&tuSV=06f7(
z5rlGtv<7_j(E(2Ae%vqSEw#?gC{iM6T$@a+LN8Q;s3cdW0ku%^=9p>R{WVX$dr<RE
zWZSp&KwPYO=2_8^V=IbU#L+N5T=P`jOv9aW<x8`Dv;_`~0=P94U5Kor^BqUd`9AYk
z4Bo2O<-d+6Ht)*0UfEgkz%<*-s%P7PcV^<chNcmH>W^i$6WMoc4;9P}oA+5TI3nBx
z)w}z_nEnaSQho{v{xrr2AJbh!0}{$HtY|Q<3jInp4I794PDJ-kC9LK3Ce;|m`UF`I
z(BGz56%DGK!~+q7EiY!yRO}l)h=&PC89!Q45cCvW2|WY{!;C2yTu_+gjOJh>q482-
zS?68?7im&eeul-bVnPjYq=y=5wM`T<0K>M1{tH^ES0Djv2ux`3Ui|$<fB%wysOTTM
z_Q(zY=yFH@Qpc8J$CjmzoyCrw`Gd=S8}kQm2G-sg*_nTGDX_j6SbsC{@STkhV(I$3
zrb$)s99n$-dRx(R=;M(ao<nykRCX0RcIAW1{*How{jJVTcl#qt{f`v;AGtnI>OXL+
zCvxS%rOkVboA;J_#=sA2Y+7-;x*GCNy#6HkOMwlBE@X7T_ga0Zf*5)j7Q#d+bcZBa
z!GOK81(N|x>T14Mum+QVhd&i>JwWr_V?!=axsP;o7uXim)@$y$+g%NJTGy6c@J7F+
zrHmy|=WF=V54n5b$}||d4XH&Q&_i*+JBj{&MI97Q#TBZnQQa9nm;gE5L!I=&bQ*q#
zkT!5*(A*YyhN%c<u@Ui95H$34R3WYYdBGr64eFq=TPnM%Vn7={9R>$zG(hL;QK3ZD
zK^cFErQq*TbRTU-BX88yFh|$meo93ohfsJ7?geGl_;~`}rW@D$A=>fu@F0LQ{2EJD
z&<fF8tx{xk&<a*jw-N)iaI2pX;*uIWC4dTOL1wA-^Cb4=4pTpuI#|?Rp-V^4sWJDP
zv6W{OgaCJVmx32q4E(8o0ZG}(Fw7SmVff#ZrvD^?+obh>$k1)l|E0sjIKCv1+{5IH
zCc^BxP5N$=L$}GM+hq6;WcX8W%Y|o4-rjTEeeS4(>AG<2(sLJ|yH7BGKf$&@$;f>I
iuX}^U(RLwGVtVd79%LE{7><Saijz2c?_mk$^Zx(|f8lii

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/grok1.cpython-312.pyc b/model_executor/models/__pycache__/grok1.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..141425f5a18d159647f4161bfd4264c75fbe178a
GIT binary patch
literal 20514
zcmb_^dvILWdEdSJeq!<71+V~?cyjS135pMiq(~D4DUpOkih6D2>@0CF$R&0G=<b3d
z;Dt>mY7N+O1Um5$Y?KH}+zKk?8txwnJ^jOK(oU3S+`-kt+4U_|b7H0*bvhl$grYS4
zqy2s7K6U{vXeaR{arQjE^PR^%=R4o)+`saAT^yc-<s0$;^DM{xj1u}|*CG!pO&oWV
z6SxQ`@PaA9CruF(PjPd?oU}wNEN)3yBUa>D61Jp$1m#Ib#K}sm32V|Gv9q`>;YzwA
zZWgyEJV|fF%i@kiS<)BrCCek_EbUBGBr7A8$*M>dOS=-)$(l$Fi@OuGNq@x8;+{kx
zSr@5G)<^1-4Uq<x=S>8YjgdwcFH1Bfn<LFE?n{J{J0d$+ygbp8Y>l)g+ahf&U6E){
zc0@XoosmwKu1xGqh9hCbtAy%ASF$_Oo$QJ9uyjqLH`y2IOZG?lle;3jlDi|jlY1h2
zP*xim5d4w7LLl;(i95*&b+2<my=cFZ(5JNUd)utWBl{U-10aLH1o8lbYy@P}FM&KL
zdKqjpU_+0Fy{&aA@;Ixp12tMo*ATnKp4(Qf*H27a!mTq6PmPa?k~lsh_D+l^rb8#C
ziLu?G<b)t5`aU7ZFt0eCN{dqLVnRgR7EdMOBjPZkrtxuv&SUAcIG&DAP@*O^H90vU
zrK9NyY2<QrWFk2kM>Uh;J{}vnEFPa2AB|s9TrVUNNi~il&m}P(ot%tbk|w4ml{QKN
zVQNB(vR*_dV^S=U5EIeYCZvQAO~q%ZAC94^lqj5?IDxqR{MqM*C!}Q9tW=yk{lc?a
zg){MSF(xVH=fz2MIhGa$EvMrA#A};@fW&uZ;!-@FdRCek5mRU#S(WFeVi?&>j7F#R
z7cEl{rHM%zR+)k3>?tuOD77z4jKnVLnJ1DLML~#<Ujk%}AdbeS66xq`V*JwObTly$
z6GTa=OU9-zicv{S#wMd<SEH$sSVD}B$C5P0s;9;=@kvpLqw^QooTNVC>78KKo>ON!
zb!OuHF~y~)o_#iKRVt26r6*ow?Vy;o<Bz9kj+60J3jJYoniPRt=}gAP#Hg5@OixGS
zMa^mNAQc^rjo@WYD{cmuh)s)9O7W=Oo|MGV__a$vdg3dif4KA~PhJWRESz|E`fr}R
z)VIS~{X2`#9UW2Eni^JUi3jf^@->hnk&EykNhX1hn4O&ZPw)w5(IQyzXT_fle|FJ&
z#Z!z(jSHq3kT=00+O?Pyuxg%5bc~kIaihH8e%%{!3LapnE`h;YI)Bt6l)Y|=xaYWQ
ze8lq{7cN&EY+qox#cX&1$3p4~?VZ$?S_mbfcycl!Cb1XTdI^nANZM{nUyh|ismn1*
zNQFe~gOGS_Qk2rJ5T4kGG?7Y$u);%9Y<w)$=VI9>3Sgb7kh*37C5b8?QFy3gC^nAF
z&?s#S>JCFQCQ9RCA{0-BST=PjeOaWgy@uX|CS$2o534vDA4eCa(Nahfg{cvd!A(r1
zC#TY>;*M&aq^=Ju?(wN)R2@u8v8E@mgcbMYxFCq*Y@aF>o0b%9UByFlmP|#3^z<ZB
zuhJF+p<sl;o}N_e+0>Oa;w*Y;Wr!2Seej0}zRlm{(njIDGsArobWNv(JeM(NxG2s%
z^-1gJAm#G{pRo#D#_{`{VEO~o`{vs=6$&*hMh&+f%kUW!YFSVR%Q9oj*aa)AYeQZ8
zZ4C}}H7p!A&4nGqLo?RCOW3wyi(<JLkENteAe44e(1qZFV!0$Hre+*{+Vq9pQY#g<
zQP5672L)71DN|nws6+}BB&E1PuR-o&3CyR8GE87D?9}*Gw)j{ZVY^}lJ;o+?M6tKy
z>1b5N>?3Fk^-iLFrP%d8xD-oDOpI>ZlR{&x0mT`OjwG;#qR|xbAhamhbNwGq_NSAR
z{gd&@-gHa?!R);@wg2FOvHfCyB7U)dayor^V!Zz<j)8ua$cxv+5fCj&O{V&B7>w=i
zo1B*R0PjqNzWe(0ft*8jY6`*MU*|SzIcM3tU3LW49QFBzjycPkBd}rPYTEN2KmD($
z&DXW(>l*X5!G)I=pI@zN-SFCLTyvH;oEw!~Ae0ZZ<}3XaHuV!^Lvub5q)2r`-mleq
zX|<|j!|w^8);B#5&@iWX^_7kdFQycmB&MgN@eyOy0fx?6wr2khk(*qGzk=Vb&#Vdg
z1hwVCI_0hyE3!~{TWevK%8iv>D9`Y>>5#zl3Lt0AvmlFUV<%l<+@e~phZ!>nCswjv
zZwCFI#SXgS)gcPM*bio-2iA<WRL?Ue9TSMBdH9q6hv(-iiX%tavb-F_=C@ppi?69m
zasZ_YKcraFvGL2&UZlb{=`s9B2dTt0A;m96K|)c>3qAoW7bhs4*9sq1su=Z(Zh9Rl
z+K%dKl=c$}yGHb8%8kXO<-CUCl!V|qcdw=;SF=;D**WLR2ikLiE;-P(yk|L`>wi-2
ze=-|5I_JID(ERqnTL+iEm~9xqlAH4`yo%NG)~jz{y>)ddxgy9Nk7t{okONQ5dGk#z
zZzpagmJi?Q%{HA{bu{FCEjeGO?CV^1WqkvyjsfWanhjfqhldp|?4^B5M}IV`xT3`U
zOo11ODxPQ*R5GEJ*rQQlVg%V{&{iV4V6+q~qoz_N4b+@UOKjUHHkD_PhA7*s?bQ)6
zk%&g$<E4GbP0>O*$|gu^L6iljsNg1ozki+k)MT?d)`MKnuKb>T7*D=7@M%?>)pf5X
zux`cgx{WKZTDMco!PVBSJ1OSkg3ar0ig`GH@aEW!v86$|cIUd6vdTDrczLf}+rRFk
zWI0z^vyi?~zg|J9O0J^%Gs3@qhId%^E<OM5EAPCr&LO%Y{%PX-iO(s@CXMxU1f4XV
zDlPWl-yu@WUg)d^{erzPiDs}EX0RA$uoz~Y#SnOnov>*!Cm0Ktz>iiMjD!P>gmW84
zqIABiH2kRTAqJz2txAKJ9%kD@anb>M8Js0pE{cLf)KbaVwdmwTDo(7a;v#l5ijzGZ
zQ#>QYX=^8H;lPm|$E=JL?|nMC7;RbvjoEUZdLBAYL2C-<X$I$Q)Sy@e+HzZa1+y-k
znOu~pAA3Maid)umT{GCE0zZaRF=cw1`z@kprQtxwiceT}x*L=awTL&^@?>0NuV6t}
zZ&zB>b}eh$RT{Dgj`cCEv$5bFO4rD^X3$@qMxx&a?FH>DIYNR5oH2Glm0)<0TY`xt
zT8+9IA42gfL<Y7zkF0C7RT@e#&p22c#%YkTqD5oQ)6IHgY<wm92)xGFbXe9?14khj
zJeHmDS61*>w%giUMtkKtOuAK%ZHu==AJ{xWx1nLTGwj+51$JZ3(w#-vOW-LzM;S|+
zcrf+=BB;j;zxs(NINo>aGC10;(IE=!D&4E+Wt^ZuZe7nHc=R<j>rVF@F#m|Pf}Yju
z^$NepHAY{Q3r;uVW^claxhlJjH9!yg98hEI4bm~Y<&heTM!;Pu0Rbvpu8#`%>U0Ft
zoKU_w9j+LbusJx1U@oa}_kK7u<LrACv~W_IxDqx?Jp=$EqO#UA_Pz;Lasj+IC?goq
z>8KD-N-qKe%y=vX9s=U<xHxewno3V6M5Q*CPLHb$MKm=rnjVQwPC`tU4x@(FD98PS
zwU5BUR_O(5>SYS3QN^cnBCKW<RaM?t#i>eA(IoixIJ6L=q@i1XGF&h1CKP)pXeT^2
zRSJ@5D=WS<I-ZCc^j~_Oaw`kD#!+C#QNX&SIOuGkp(?glRXNH|Dg~0d?4($rA-zP+
z(Y8|@`V306vlN>;X%Zcy(izIp=T1ysRP5m4F?va&x2afYA`~B+wZhQCUX^2`!LaVC
z6GhXmHfu~7n<42U6)?%Anqk^Hjf_DdnxnFDYIt2`R%q5{{F~2ALpb<t6sC4#*^qD$
zC?Om`5CHS<zFWC3TX|s4o^ResGD9%$tIGLWWnb&kCE3@zQt^>*&#Gh3s&5Zuhg@B+
zT-Uqem+KCoYFWOekE%51-M*Z=MRvC=UHZt~3vQ@7kgMvFtGbq7l&kjM;XkT6xav8$
zT6GZYQFX)Og<Rua8UHsG-3>M`@k@Jit&hvCkKef@x1PubhX{KeM3SX+uJZ{Q|G`jN
z-tgvY>u-+V7+*@iJNwS8T)UTsk@q*`{5xg;&gH$|JN({Z*-t(6Aou3%joBqZ_II&#
zeH(s!_XA-j6_vkvcK&SMQ=apLWKW1iT4hhGCMz*P>E+d`&JCZVjszty1SS7Y1Ab}m
zyNBO7EPHkp#4A?i#nr0z4Y$otRook8Tth3Wu$I)`K&ZM~QN3{CX7olhThX4cZvu1!
zLHjn!xlrqO_Al>S9XS2rg>38j)eA3Xn_pUW1n*Zj5|-ilVI3J#XXekax6&oobusC#
zJs;dvB;ZvzRRM3kmK)?x@qh8epFQ!$$%Vn2r*E8I-Er{FK-Tl*x|wr&e~j0D;YB^l
zSWCsJGgc`keT*2K4%QW&7?ggn53DmJI_`=lYa!2g3i6LGfo04k<)o7G9dMSQnWb|t
znFaoRlYTC|f}YJ<XKk}~KpR|#(JjcIIJs>)<z;;XG++(xp$Ha`8M_WU>j0E-{ue<x
z^mC12bIw|bH!Q`E&ESlgb!MDQB9smR1vH#y5Ua35x`GsR6(EplMj)lj$dD2gj8ia1
z!32V^OC>R{QpQ09iWyW)8l)Kis=|*c{8h!xsEJB>LDn=K7C;JgL?t3a$eXF%LPRv7
z@V}xgwSeF{2YIHl_GaUa#>LreMen?A&OCQ6Us-cAd?UPg;qBkJ^&87=-|Km==Z@uv
zo*#HtgC{=Rvk=Z!4$s@?__^J4F;JB^zcT-o#p&f8%jdGb{&@@K(?*Wph-2gLUW#RF
zch0%<)d5<aOYUrS&%ATaw!r5dWeaV&$_^R-9UXJFysu`?tBQ=aILDc|Ps+ip3=c~u
z(a&L!-&6RNo}%Ds3K$i)jzZO(mK>Bp$Gr3m1?<#0OEH*?I3^)Vq*Ia3BPf;%FHj~0
zzeNRqf&fw><hsU=d~ip;yPw3u+5pD*Y0Xo-CKpnKNTGk-&Y}*^U%&2TQ5QwsEb8HE
z>esz23YoA)6%l<bU2e#T6)a6+;d&K|)^e`0&-^U<g2`>Iy;l{udFaNWbt~d%GthW5
zb0f2Er<8+p`Q8l92S0Zrr3#HSkP-YDkIt4pSVh*uLZjej;-V@Vl3rSkSwyP<L)oZ<
ziH0`lm~GHf+po|;y5%ALbjf^(mnHMn7Odhn<)v$lnutFdbqFr#tzArS?Z!s)D5~ac
zP#l3lM><2w`{4rTq8`IcFw_`f)_EcZjKsAd+#(o)3~W)f@}*Q%VB&~tV-KmZ3c_N>
z{MBP7t{^g!>Paxa&gq2awpMFXostAG)tENO7O+@!A}CdW*m^WHML)$D1?#LeO=?i~
zfM7uc-ugf(SK@slmv+&X2f3w01*@t$hN2nD;tUUUu||~97o+b*bHNJ^!Ku&0tZh?C
zksvT@Pt)sW4-sj!Ub_FKn0=_S(H{?3dT){9+YrQxg}H68hP0-Oejpxb?;9gC1ms@>
zE@Q5L4Y+g#5%+7rWxQ=D`+dVhiW>sO=;VRuYX@QnHW3(_Bx?8py`h`jG#@q%5531p
zL{3$jv>!3WaVQZ>UKC<SW_s9pRJ>yizP9gB0_Md;>Ifn#^e3pBBFxvh53MTm0s}4e
zMEVjn5JeDnsw!3zAeaoKvgJ$=D8-St0`3z!E|jVw^G+0Y1Xy*)KB4zK<LXOJh|!Da
z&KUHxRAZ~*VkhNwA$Sj`yf~Q(*K8Gc>@Z2Oo+bgM*e}OYIJYI~b*e~oT5TSAs&!dY
zeEEwNU$9$h7S@ysJtj^^uf`Hnq6)2Y4=seTgD^UcUQ5KwC>{xhC^Dr)(L==xqf?ae
z4wR*ofeTC*r9D(k2w16?mFh{%F;iAwq^7n^Dw}9FMgNjYnN&k$K<7q^C7Sx}U;f9a
zl8S@bB%!8klTfoG*U&3B^peOBxaTL)#*=sZSKY1ohT*sNFCAKG{Eyyj!*I6Y*}1_t
z&g857HxGU5(05KQpSiPht?hWexjWaqM{eG;VEH`{X>l9oTz9Kmpw!L<cFKXBV5)Pq
zyX4wk`MTy@-F~@lKZ^{=bpv_-4vqIVEGzk{x{WHAW?ZS~{7s9a(2AeS*6yEk-)(AN
z8eQ!>{=vCy(@Chq@7L{MrkD17ph?xW=bPGcP5b1geT0_bjI37egtexgWP~yZAwcm$
zu6@7UzW>e(xx>%Oho4<*JVzt1XV`Nc2jq?ecSdtZ&dEp4tu>veqK3P{)}^6b+djE%
z-<_e{p=abn&#VQXrJ}mKjcp|n{@78kZqEX%>45z$E<h7MLOV`>C~n5zgIZM}Fki3E
zn3(b8k%GajX}kvKPDz-8frT;EDmH3k%L8`a^ggdsUYL=%E5+xy23-(F7=(Qb5+v!A
z(y<h^sGU{C@LO;hXIKGd69n*%n!tychQlVwm`G5J8>pae&TmodcPV(2g5N_BwrpYY
zrEepbkvZBkMZA06!`nq;-^(zusXs<Fu<vD@r+U>5Q(oKLseCY$3--yuzUA3$@bLWE
zdmUZcl4<<Vk?lAK5qR$G;(>dC;M>ky&U|fizP@wa%GI?z;LH$&z2JPI3kY<}f$rtA
z*}&t-v2m@Pxt0OBWnks(2M4k(XJkh+tU}kYf!;2=Rkk#n4Lk;05N#)BPCA?o9E2Ik
z7hJr&>g!l_bg*>>GnvZAhdo=__(!ttumDZL?cfm{{FiB7DY#3scnbk>@D9zS1AC6U
z-+G?MFmxW=&eCAoH9L)yrCr2>tDqj@!M!Z^B42OqG<a~ti+FHKIXLj=JvVxms^!Y|
zbth%Hz?RQVy_uQMEI$ACE4N-*^@U|;*XM4OsXLDPI)Xpr(V4jiU%*=}X41)*?JfAQ
zF>8)x)WX<t>+5CkVzY_1Qc@_`^pg2-`EY=BcECbZv29&f>AHejbP7&pJ@RY=p_Xpb
zw#Z6HU4r*@Ys7^fx<!u&2N=;SVob#8(ch?v*^J5rpXg)drN_Yp0fGmfa*@@>*vc`s
z3MLj*VmnqUF1B&bl9v|~9$^lovs!VJNnW=dQO<}?py=2qtpp==Pb2kh{%hv1S-xi7
z<c9%W!mlD8l+tf}-2yh2mim_G>+skpWj*-1b>0GIllsJ-d9q0u<Zs?m>g@x<XaNug
zbE)HC+HHgErEB#3c?f>#T0NyR=)k70OfKD^mx2hFz>C&`Iz-`j-U{7~M%aPP5J=KH
zbQshl_GQZh4TNRRItn}H>yC^G?7Ri+yj90US|DIEdV#pX`XX+yuIX+a?KZu$T<Osv
z3cs+)&|1I)Tz)miap~Q9Ot1@%OQzBoi)zvmWe*r==de<5aB@Yua@89y%riB+u@b2k
zy>-S_)8u^Hj5VmQQ*Pcg&(Fhm0SBXYOtS;%JyXF#0E|RqaL&*YSNXMz6eFfpJ!h_8
z*VwY(M%GMwVY@tn86QF)QZ&2Z(AFAy^5wOQo|Qu%+CDRzf@O@f!8D;d&`JM_nwz8G
zAO&>56&nQLU`KmX_lt5~9@RJH%LGpSWa@MBrV@xPhr?A|P~1q7zaiq+6xUVqMP%xK
ziLux%gC~ZLJ%8px^u*aOoERK@YWQUIERs(>d*-PV=cCUZKX&GX^aq5Q*1c+y@UYjS
zHjt9Y&Zkr`lZ5KyrFjFoQ?RkXrIFMNic=gHw5UxREb-dX0#&vU?<_S@wE34f9)|5I
z7x4R3xx{-?8EN8Xz!MxjdbF60t}5}qdg<+05&Yll++BxP_ZPZX5zJMD<%)2wVnD7K
zfRfGMlJob={{A_r(2eLl)nbqjGD|^Sz5zUUpWMKV0D*h;p<I2pT;EN4?E782^PbAp
z>RoGlE<7-sy1}@vIXX8ST;l+#ub-KJ2E{o~lk8~%le=NJG%|>~4G(v4kY{CWvZw7c
zlgV2~hjJramNd2cL6_`!jL-!Z+urJ1ZhOBQO7oiF;*iSHtPJJ$o|N~VT&q5XjyUi3
zzmWF^7q6^(!pr+|-G}Aw!|2a0wDx014_l6kGd>RgKCG6M>K>qNY|N=j=ozseLSkD*
zx8Z68-jevwVhjuob`OX$l|BbikodrVgM7BmV7YsY;@_o!wn2*8(>XlFr>;Gti!-Wl
z#15^#EoJBE<<hRW&M`(SEC<5N;cQ?pF<$M<mfX&hGX4inBJB&prohHO%y?3zdXtl)
z>e&ftkTslAMa<NQak8KhqCRYD1T<Srdv2qEo>J2w)nzPSh4N+AI$p62qh6Ry_$SWV
z#>+D1>#AP_wERRcXRV|zV=-HiPa{|A+(a8L)|pKKa*Z>qP@tb2gWMN!2F=<{9F$6?
zQnrFODlA2`))=p$J}Tf$l@%=7gh?>JRpb?hei&y`p$=<NTSA(3!jZ9pep`l%=%lGA
z?viMb%$_?Mmmsf`f2y>CJc+2k^lvFxrr<pUiU-OOI4o*lWXG0h47&KvRw9#AzE4H}
zo&s8!j6N$?M$VYAAyq8E7fU3SMU+PqMP8t_`RBmG<aSTs8%J{P&X3%kv=Dte^P%1w
z-g}|8TxhQx+Pm^{HuU6z7q+|kQ}?PmSE~kAJp%|~+gfRsgU9C1=KbBvPs{%ObEodt
zG%OCjefrkv<?3Acpd3DUXYUV>{NTu6*E~IU;wK&5%TKM$esDS4@eC7bZXJM$tM)Vx
zx5)C~H@=+nb$#UPx?9zeZ|T4Dl3YFn%1~Xl&JoRVaKVu3;kI%r+i+O-aVu<_hfZR)
z7w7;j-V1ocC5QoW?D}e(<<rKlD#Z~BQ0l_hmIudCILYn9s=Dc4pgF|`lQy~dJJjFk
zZX<RTw*RV;vB`9l++3ME0CTO=GKGoP#)~p5806GsA&WHv27wMv)lf~_MyXd1E#|(h
zI?<=1@Z2Y70Z=wZ%~}DMqLFKos!~b!1ym1P9d@R%Xqh}*O!k))A;XHn3DC4Cyghbn
z3~q!wvbBexM)CP`zCAL`(jhFLu6)x@Xi+wt)^gW6XLY(%(r(v$#y7d6(yC=IYY7v2
z6Rr&c|400+slYtprBV5oN8jeUsc+U?cyW3e41Xn^QH^rE$U$zw^hM~@+16H#l#VS;
zA^FwIz*Hi?q><95_vsox>yS>vG0efpqccrR2YcW|V@ewY%2<4^jQvW54paEm`zx5q
zElo0I?Bj4563h%M5k?mboOYd&g`>HpBq1}*qCEG;mog?0)^B3mnA=(RtY_An@nmdQ
zd5M1mzgLLe+VY^>t+xRKt?i1zXcqus@xVHvCsnZxgjI)-$e3$pEuPq9J22eT(3kVu
zU@_)c@)e0Wz*pSE>--xMX5XgHe#Ti!+?jRh^Oy1J?}6udZhXVSWvrN^6y~QaQ}zm0
zCz~f<(M<V%m6_UhY<=5|?VmP>&;KJvYRh;tK3IM<Qpd)d!Fd1q?-c8Ty;IWy|HgN>
z899~xhey0MD*r3Nfz=4>aOoKqY_Lgbq#SF}c*nndhv{!yuf6SVF;*B43h_o2X2*g<
z-!&XIgGaoA6;2LK<m@F~MZ(A%Q}bRc&QqPjq-#{kyXmeK^CQEp47!b>SflC>yKjZ-
zR1S7Mhh!+HMylh&jEkg|J_e%LR9s=7ViDpaX{DUpv4z4#sucXL#kBN8w9CXZ#Yc2q
z^~Gfv)T4xy2ojb#92X#}DRv2W(_$l{;(*kYdM%#5EHx4YZFlKEBM6tPr^*M2E47fb
zM#l73jgyDOKJ`isb<E3dmT5gpDK*+~G!X5uf*^+O8?frw6c_8LdQMtd1=a_}#o}td
zTbom=FMUY8vTHb{zeFlUCR4ERn;xdIRXo%&?fP3v^W9RJ`Qm~v)7keHmfLmi7ba_q
zYt_*NYlpvKac{0+m)x)`+ps5FJAgy5rTvfF!Oaurv|kSG&xQ`JIvVe`cFCURxxs~A
z=F1h5eW6uf5B%11P5p9Hf3E3Cx#`IdEZL?LtK}yaTnHdy)wL}>EeHA+tan45%hu(u
ztQ~zm8+u{Ed#`;@u6>`}zAxK;;Lfp++7I72`@!MWbLZvb&w-h$X!_KKU{PH9;#&DY
zzPvG4zC$kGvDCFz-kUEE{OqyQa{2BB*W&5rK)$L8Zdg@a`RX8fWx+vV>GVo{)_-Wh
zg63=LZl1kycByl%x@%eZUh=)<os(;QgYXYo>XvJJQRhCq$@Z>PuT||M1hC#5zHxZT
zzg88#->`S(!ks6w4RCA%;)P6}-DQC%MIgLj&4=1^p#eEGu;Bekc_a06<<wgF;h&V(
ztcSUMXZQy_T<EcdllkLM%hg90o?db<zkJ65k$1UG_V*DcTy!{e>(H`$C6aA8x-fX(
z-?yAzxv=Jc9EGGH_uld@U0MtDt+f4V@ArE@u&?bo1&6MsF}Z#>RS$M9TjXHx!ijua
zIM=pcZri_b_9xY__%uQ!gOrxv5ze=Cf9AH;)P7n<z98M`&-xzd*B^!XCxK9*BS?Tj
z3O=@Z7LZF?=(eS_?C;Jux4xaZm03Qy@=~_>$fD(*(XG2}-RR5WSJrl&0QcKoyKojS
zw5DaLeYtV1dVk(im-95rp2kJtuRX2nqKRwkULQ4a<&C=ZD18r0JzTX_TTeVzNgo>~
zlrWKlBx=Qyh~uKhO@cl{0iztmd`Ul|fXscRJ#ubQ2?gD>RsI_y(C6PfcKjDyi`BI>
zvra#E20o*o^;5jr+PGZvz2JMnbq>)x?LX}KK@V&h*2eW}u5Zt$?gne4p}t2P6IWfw
z9BS;8a&XOiRtDv!1M5yox-|b9=2W;&bzu)toorTN6LEGw@KWC6PIP2&xn?=Fa{Nx!
zosrf4V{-Tla@+9-97@(}f0MU1E}dF_er4c}mHA8!49dMH<hG%8j*31U_%QXC2R>(U
z#>}$Oj$ok1qsy=lzJ)p1Y!Qe+LIz`N{v$rlM{r|Lu);!MgToHA@0x|c0Skd$aEgvn
znpy#uM@!{Hi|!`p8g`4McH7$C(zS&$(JgqGjlj1Jgj%{y>!O?L!bVUI8-Yit*apWo
zwbhm}f=Z0QD^!VPup!t=<4|3Rh>gQcl#7g^L(OWkARwob)wGFKG@ArPf3Qu|puCz{
z7;12I`xW(;)zE}=JT{ezCC;23Vh1_S?mt5X>CY+nPZW^vnyL;pG<}AENnD2^v%G-R
z7H=e|{Qs%u23TlInj0X;(A7~xFvZ2s;%lJ=se&)^AHof0oyRFSW1^lR#iR{o2YizZ
z1w2NlJ;*i83wj<D?3PV!82tA87F{4l8~RotSJV;;pHdG0Qa@nnpx*M7;@Pi|vUbaZ
z+C;~;Jf+MRP*+*gEjpmi^P|^>aiZwDMd_L0uC(d(3%{F;5XO9NGpepaJw1jV7*ZDu
z5cXlk$`tMp;*C|P*kKAIk9z5CR8#y9x$+z4iN8R3xVFf@WeFM5I}|{M)bs~Lv850N
ze?tLvTKWzJ?G*eBfl`%@i}aNPp~$aARhRx3f=Logv#!K{=J^ZHK7Zk14gP%sCBarH
z*Bt7>IIEvDklsf&tnW-uVT@B%Z?KN;LwVuiWU)qFwX_#)XTuKiKj{?uJ5+?#<5$$H
zYs&O{nlk-<4er~vzJKOU?FasB&r=&_Q!ROWxS%r+bTEZDox{ai^Sf2eOSWZawrUU5
z9&{!54G&rQ%inxr{)wEs>mzqpzNO>cu6Md}EeGY6gSnQYa?8=VL2?>j^EBV@>;tmZ
z>fW{fVVwLsnf|>EjKmJOvqLpctu0;1wI7q)kD)U=SUDYj-ikM$o_{*$*(ZDUX&&RM
zB3)HsGe=4yS^7h#IsH92fPksc^^&6BQVN&C4c_NCmCZ1ztA=<8UD5Pi#ETV8OzSzL
zesZArMQu@)<Fg`MisTEZ%Hf$jGe47q0p3UIa^K!nhkCnG)r?Dq7PPebyAN2lw+yJh
zk2<A->Kck%buc^|jJ^<Q9IA7O(Hv8{78YW$f;GT2XT{?iRX=7>PU9j{!8|^|M7nOd
z@}8Q7>D88fcf5Gd%zXpu&jJH?5YU_SV-{qv7j^`ZZAVs8v58lvy?WKwp})4D0~6cb
zy0wEEh2oN3Ufyi*D5KA%;A*pWvw5cZp`mUD2-1j~fes^fz(qY*(IHoK;A%+boy^J?
zvlYjSJ;tRE09bmkX_RccI<-Lo#CRlFBQEjd_;d$UhlPU@ZbXH{567$d(Rb6qC76fR
znc)?0YAjCLSNfcYn1bH*B3hIFmI5-HGj3RS3;KXE{x<@eMf$kO7SAB!oHYe&@iHkE
zGFxfpXuIOZcW3vzUwY?Dxz3@FI)@hPZn-}kob%qVXo0N`u0I=AbERv}hUqP@&G}kn
zU(3?|tgn03(ajiBgHZu0xZ`V!hp6bb^GVBV%cH9t_3feUbrJ|*sU~909P+hYK-n{`
z4=s&{waC3RNIK<;HhPcj>&g21Rvmq;|8UG2#=&(8K!s}qO2a5V1rogoRRavaQK-;`
zDT$2AG=oa*q^g3zaf#dMh7Lmd6~!Lue^FaB399JxBZ@Iu=f6|z3<Wg8(xT5jDxu(~
zbm#;TK=jGCbgo*OA-FiJe!*F4T<d0AlWo;fkE`Wh;0O6%a64472tOni;b(n_=dF+F
zViBUcScE9fkwZuMeDCg0-L4|h2=OA(h*CwO5hb^XMwGQxG@`tK6;~E;C!Q`TSP=(O
zReoBu$j;ycJ7twQtUcR^M<`LHqX)PM-?LuLTl-52TAy<$QDrBZuJ9r0G=3D{$OOKm
zgs+55jHmiy7f0BOfE5^@Q%FxtBvPu)>@0y+u@4LMjgR+@PK~n~v4ljMU2zp<9Hoph
zavGw$k*cGvdPT5-WfH-PC)g)R`UG4;kYYfak|4@xzD9l8ok!x7*&0&HSw(?_<M>5T
zLxEZN)Ju_Vtc-DLu&AhC4ADF)&`o^!hWvBYZ<;&`l-co^CxVwcvf~k0Rl^dyFe#CH
zj(S(J`%yI*Whc#~#&j`Wtn(2y*e7tbuS}_*aCj7c?LsR%)yda`UD#9x9)Vx=10fwA
z`;1nhCgVYgLMXkZs;l#?(%3#t?KhQ<W0};_Ob`#Dcv;1i`05mWLQEpDKyfj9I=&kv
zrX;$7AT>~~Rjta%In!~HV8L8U7+0(`>5T2M3m1l?4{^8B{~+*xO_*$F8SP<TfMA~D
z%$tWP2^evB*tcFKR!1ZUC<gv>srv}l%{<S4x{Kpm{+4U|m<#@l^Zb-+UgerU=BioF
z;h%E-KjohJm^=6}ci?lAg*Sc5A^6P2;X>iZ+|b9|(a%k0-t@Tx!DkMR@B2Bo>vNM0
z2@U~1X3_H4D%X^6*$brk_I;~d%Z6<~zjsc0b9#PygF|#9&A-U=wF~EOzI@~54UXa)
zY10{=?_4yI1L_7x@%7&{aVGzUY0|_uE>zyEyHWRmqxb_eve#Mm#;Elfp6_3fZcg8r
PUg}wKea2Cmk%0dXUX82U

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/h2ovl.cpython-312.pyc b/model_executor/models/__pycache__/h2ovl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a69c3738bb5efbd7ee5ab6b7bf82a3ea697b61a3
GIT binary patch
literal 16115
zcmb7rd2m}tnqT9-4-y~=o&axxr+8S0Ey<R3*s>-0knGyPGmC+UM+r1Qavnfi;()vI
zly(hz4pW;<iQ4t<VD?DpvXUrOTf1^9mCWX-n%Yz)c%rxX^5Us*YQ2BVAE|;&ZakAp
zRr34#;Q=5B%}!ckzdpadzPlU$+2yh`grxC1iN83@*xyn{3yr13?v#PCyDZM)x+F{K
zBD$15qSsMgpEN`a_!^SNlqq83WyYjAWr<jL+LW}WY!Mqzo0ImGBjVs`OVXKgMO-O&
z#Le^8q$lN#cvB6LhE!vuk(b$$zLY=WPc=oFQq7U(R7<3Vm)nzpRBNOaX-C|dY)iFA
z+IiZQ>_~M+I#XSdu2e7*Oobw$RClC1)f4GS^+tMAeUZLYf22P(5E)1fMh4NxEeypy
z`11<kcmw_#g<)Yx7@E_!V&QZ4xbL<xG7|TrMHBv-t83%>6$@kNF<M>9`&r{H=r<M*
zpie9Q+77mfx1+pjM2uQJvXR4a#ybFKJl-jo=J^?E$D)4!LAay!`w{GYqiL({!e|pu
z94&|$Ydb+RufH3^f?@s}`{zlyI^((HA&fWqYme8>&!;Z*Id{AVu%`6v1s3nU&EkDR
z?<c@m3Xy4E+K<u!p{HCr!%GKIIwW)pGqfk=x~KF^aLgxp_kEG@lrSTN?uWIO9L6wU
zj0k;N*(aqQks~+t;nAN{F05B97h_9HiG^#5^|J8IWnp1fxD?hYrt_)TH313ltD=w*
zV~GVJetL0XE^!TIjjt`o7BY#ISSGQ!P%iadeB;8E^A}$^bLv9$^|LRWzkKEOe+2kV
z7nhTn#KpyUEcx=gG4WdZd`3v6mBvc(8*iLHb0#sH2^$n2ANFkOst}K3PHI!N@Ktef
zR!FB8#ZqCV|Cv}O#tXwnB~U3Ybs#VcbBjs?@~NfF>%vkpHY=org^c1<i{4m@$1;NA
ztInMfGO<K5jm0`oE!@1a__nZ+SP{gZ>uA$-O2heuj36$&nMh*?ur?tXb|{YX7hi~;
ze&y1Yv%hggu~6phr8A0+5|^)>di{#h^?WQXlzLt`vz$uZJioBCoJl{woJht6Q3+Pp
zA6UqusI*l#s99fAojP>UW_scD^;m|_RPkJ;@uE1@h4kE_m{MBj5)1L@Y;rLzq%+Z2
zdP$hgL`6DXrR|!Ki6;1B-$_O@I6vfhRa$9CB^ILbn+vg2Vm7)I%gkO!QS3%dQKQx(
zK^PTHV;dFMa$1OHt}myqE?}1xGf-?<T$nB4Co>|U#~;zj?$e0wvaDXzXW4=-u3J^p
zI-b^L4Wd1Z(zlN=CYmU<;$m!7mt|Sqoc=Np{F3Mcgpb+BMlpnh*iBInMZJj9G*$@V
zf4?x1Ni9t*C6>n2RgT?QK632n+ed_nWa8??(#_2E#f6D?lF8IWiq1PK+z@7$GmD~{
zO;22(T6`xtzI0P*6@~O-@*N?{OQN(%v?~kCDKU(}CTY|Yh;FgRZZ`g$P6~v7{93`-
z^xwvw)sjE6_zSJWo3Tf&6SB2+<2A|JRj{`1I64Yl69vaa!8oxC08FtEZ~#U^9YJYa
z5)+H!zB8Pqt)xJ>YsMen)^8(mmu0Ao2imYtN-b9nS^aw>S;HCjp>bA!jm_%69>S&?
zv--G>*iqJ~epdjkwDn%pab}G={;jIhXN`CC-|aE7RRdrcE(4wpf2+oKS=ew%q(S)^
zg>_;O>99#0p`uZW#t<p4{di|m@y~=RI=PTIM2%VqGu18M*Ic9xKZU<^8qqDb=VVP2
zo9{lfZ26zNb+Kq>*0zGB|FN014epvut@fX_4y>DGPj|js^7Q4GH(&eF4aqa{VDgb?
zM)vmPCnazHrfD<wu~qUOdT{EI_o*)}%+)Bj4irty)?8!&QFJqBYrz=!<(D4hIEww_
z{^Lf)z9=THMc+-tGuIUdPhS@j*RE&830i=?LLg;Ipfy64t4H>`NPrS>P%91`hpFoD
zOj%Gz7SwQG_X+huST$!2S##+yP_}B}c>^8b3gxX@ExwgfTh<7Qvc(N0ib9H0lr3w^
zTC(UfX9QIlFM(N`)RmY^i<kl6eTUhFg0NkjqVj2qXqh5!Mx>`W_i-9u>D2ZWI!lG>
zNE#lf11jdL$;H{X(`iybI3n<<gblN?<m_@1e0?8Iq(!2<H}RML9YnWS(aZc@d57d1
zxpiUB%-UyUt6#P@$?kycX_I}Odk%BExnOK5Hlkf2H2vU|6gn*V4&S;UBi}vq;5DiH
zh~z(V>!R!m<r^edZ(-or!)|Hdxa2y1>m1O^+O*M}pZxuH+3H^JUUTHkJC26+<N40Q
zq0<G&>4NdJIE<MnCVu*}8a)z?mJj|XD5Zm+M`3OF8pvnW2xOohJY<boFhZi$`+5x-
zz6Lh8YF@RhT32m=Q$i7~2Yu;q=k%YH#$UBxW2=q~&47ojS*tn2zJ3L;oLMJ&=vOd0
zQ94q9SyhJe17*Z53@d<lpa!k0YvzoruB?6DRvNtOlXYqHSaoL|^B{xTkacS<bnLrt
z8d(P7Kn+=kR+BZq4VIDCzr?;x0%WRQn-T%^Jz=->S$)-Rd7dyAk2a!?WgS@?7f8lS
z=fL5fL=-9`v?xZBlN?z|I&z^2wzqIiP>i$U;*w&9(k3j#6+=>32z$koSYi!%RSj{R
zYDtcY&roy>k>XIH#-oYUHO0H6Dpvw!A*IubE}<B%F5XaV>7`@>8UPx($^x6RX)mBu
zs7_6(v=`7M{*ow^0INhOUO=CB@t2+io`Lw>EZFzM`Frz{vHjLd>yAAyvxPu(vOg#{
z_fn#{9Rz4IKX#Z*W)M(`IIZnPKl26dj@}u~J2z8>;PI`-6SrQLTflVvpSv2@4}bsb
zIo*!Sy*`>BmKsMT*VuzL$@z?olH>WOCEu9j8h<b>IgiV3k5=Lyf6y(trXQ?G&Qnx;
zA^(!(AD7%<{gP|up<Qx5U$mJ#_M8FJZVGMt`y_u~{_>VToU_T+z_v9gS%Z1o-&lu>
zKIU%UYi3SQ!4uqag!1PeIfe_y;eulrg8d_3p>u4j6{9_Bot6WgKXl%6=I0*_7y3_Z
z1y1H%6<Ds%tm8Y5_Cn{Og5yxZct~Xw_5|sST#qVq3!-N${)h+c{#!)*B)cAr-vq%>
z;t;FmDqcZ6LZf+0rpy<(FfnG$_YI$bb5P)X2Hc~<6Xt2envk_ZXMk+yIs^FfD)cz;
z38sw!J-}%s*<UVMwPzu2h%!oA0T2Y@<zpQe{ZI)mVu-MzA~rahgMvt`i=7k^Rw*W^
zVo*R$=}c_)?XW|o2<ls<O!QKgGzwMV+A12bSw(x5G@MI`8&L4xi6xg|a1f8F!gCeH
z8=_UX&HIXPpxvM0FTIQiYDOb#8kMac`rkgbXE8RJZ(W4$(Gc2v`ZMq0TjxLTd0Mu*
zIFk1Q+xKjyUbAEj-a1!s2KU^|-+K3%JI{PNw-r45>D+@ieq`J1|C`XEhjUW!?3V8w
z#E+w;&^lUhj24Wezx>j`Lg#d8Fj)3i%yX*Es#r<GPNieB^>O5{(Gn8HBwnaeBA`IT
z!4Kp5IK#OUFa&<?kQ_DbpvT4aSxZej!jG~XnlE9F3P+8z);Nos+89(0^=plr;;fBb
zGsMkh?GqSrxkfXEdSifQSvxN~q#4?VEvk}#1!(c4BmX(g>*xO$f$J#1C^|6lRYZzm
zHkSESC`0;!;;P1qNySyIryyHhJEiENBBUg%k38)hVWOGEXmzI&i;SY%Us2b8fe0po
zpIN<M3?7x84RTAj>~E6&?Q&a}9PHh5S%&PAwJ+ydUj?#tj2&n)iY6Us5<ru0qDi3h
z?#(+lWmntA^v3fAS1{kXnSP)zbWcC{`j4l6JY9I|g@W_NpLFjU^Z|R$S?plW05qRH
zA8Q}gV7K$(2i4)*?Q5Q#b3F##h_~eYX%^Eihq9Ay2R!C|V4T1rx;TqKH!1zoe`Jgs
z1Vh{?7~>|v1oMqtSLSlcBA82M)^f@g*Uh<eY)%)q-*!hVf;DavOmq6U<F@gW($EoG
z+zA-2G8~&=7aXMe&Y9zGIAomV8F(;*Up=z7GO_@OG!}<sk2l;lN8Dvdw5G<7%)d4?
zUp2JSD*aV6_EgvN5#8}7jOfKU%^&IFEod9SU)9cFZq|4!+BDc0{fl?N73UEe=ljZM
zQce)We_*aQ^!3e?c~uii>u<kpiZtce4PB%eRM@GwUz~d7%?l;R#G-g9e8A@Bq-37u
zo+QPV(flg4ra3heY0k46J0WILR*196{6GgGhp!seAY{HrDkv0RVijEAmBbm8FY_&D
zR#%T9K^RskxtX#^)0k07Ni=6!6iTWZZjx643?zhX#hnl~LHH~$!Hr{$!eauZDJt^S
z+TkQxfLMZOO)*|wTug?oQ167~oOqQ05W&=dQv2DWaLL5d>1Z@f(<;fJTU-E%b0}G9
z*}vW6+PIHVnZAVR7m!1KW^=Duzy)MyqwH*wyC&#=aI)xNw$?pnw%K6=IsFAkyWG-w
z_qXr-cJ9T`J*^u<e|qLKPq<(W7d+veKqzPYo=c_glC}WoRZf~S$UMnHnb(excTppa
zPBV0@JP<}*W*_TlV`)ni8`<;kEY8NRicQEv6G-5brr}E#zgy#@aLz>&@s-Y+?bu%p
zM?Xuqq4zDe<MDm?TWi0y?HQCjgIk{P{SnD?xL`f3Dp<}rAqIC;$yMcmdqs6_3F$I2
z0t%y<)5><QBdSJ4nCC#eRYRtXFj;Q(RMtv1(5kV5cy%=?V+FZ2WW3Boa{WTe(T<2M
z6g5-SfJkuwr^s=a5pHDAgmz0@q-cq1UC_mo(bCe=icQTfCzENS5{_J|YUAb}Kkloe
zHV1Zff3=Ht^$;Kc)9kFZFQ1eGQ#se?{?5Eh@{j$w1-5a{_JyZs+cPeC#y4;Nn~^Qg
zxq|f^-)nJ@=GTj;tftVmlIp>?Hjf0*N(bt#Yy2+gvO4(s^t`^j-RM*bsMoK8AMkpD
zToX`lfV0cU>q`nxbraMZaZqJLRO2pCrc2ON4<juDTOPuv!VvhnxXVvFjXL$UyYJJS
zhgELFm7W^JuG0qBPb^J%1*@u&4IV8FJexbS?d*Bv>?xdmvuI$pwxab3<#y)n0hObX
zt6|&O`^ee5)6iSAFk5@k&L)l*#!qh;w*$kE0>eM)%(=es43&9^+%^ck)oX{>%Vy^%
z8aCJ61yZ^d@8UaxC??`iOjWm~s*B%1UHSOw5X#3-?2~g9BKn$e@F=*Z3J*ut{GL8b
z8Y`g?58QEOf~8X`!J)zL$Z_u#GzjZOGD^8c5w@v>6QY7{ih3v_6s^p*Vp60DHA<XW
zb3`_2$Ft83xzhK9L)_PDnvRiFSRA9Db%eItr=|Ak>isU-SjWsRGpUN5Wxb{7WX_I)
zV^D4$$i47|XFzuP=znk$HV2)Iv2-%9sJJ+CsBBU7s5#Y)>QE~m0&NpXMf&dkKBk02
zP-zGSwV^~qY`zZtk-Jx1sP9675~GLtQ0fH-7LCXQKU!9oDVpNO`=$d<EjskNPA!--
z*0}k;MLYOv^YvGZVmmO39j-I{%bK%xA~M{tl5y);n0(T>_pO@AyXyS4R_4ssuFO#y
z(}6KCT5TX914Oo6I;Z-K^eU1PHIW@uaWKuGMD-1EEdC8-A!GMrG^8sPfO-i>)Jj??
z_ds#mTk((}tP-hVmr5z5i;1fgmAfjQeMlXJc~m7uqm$xqqPgO(wxH0arqk5^PE%Zr
z@pYtK=w2o|N~n^{Pok-2mg$w=8oI03=mL=)ZuW`n+^m1B&^NO_bN9sWop?Buv+e{s
z!2P7aaL)BJhfnV6+3q?jbsd$vdgbmOIQ@gic9|jQ&b_i{Wz#R|<n{r%V@Pff{_xp*
z&&pk6=l~zqv|Dmc<SuSZZp89kP`HA<6)3%v1jxbx895+38#qxP&H&)_l;AV~PW#a2
znACOz9_O}a)?VHL$LKgLbsWazz|K35>@t0)J9iPD?Y?Jf0FKCABbZnp0ETieZ!~P2
z+V~~_dfPXyY<Esd`0tr4SSM9EeHlAGTT-WyWQ@EboINN=?DID1G{ncv5G)6gM0Xw5
zfa^Q`s;NHtl&pPX4<#|Hc_Feo_?N6D{}LGZs<n!^hzXPxc$%adK(sIp>X8tP1f%BX
zfM+VqJyX`QC&~&>lu7k0oa530WL3|-KzI+zIg5`<16-PrAz$%YX>x@&vQ|QJx*4Gg
ze&t2J+<J1Qz2uuc;5bO8Gb_V2SpF;8-XdiGE(U?h24o-FH2=xVxZWzGd_PdWJ$OL!
z1P@4_$061h+V$DJ_Q#D#t(*25m}^M(HfhKo2+H_R1anC0IwZGt|1X!t<pz?qg&tG4
zBD34<zx<LR$@QR5M^6nIA(}5;3b&9Ig_~s|8ddDkD6U+WlazKwqu*SPCDj^{GzF2I
z42l7F)FNr(+%i(E@H@j4%iI(fsEq5!hIB?0$vFpK;qp>a;6h(9CKD*<yzY0XDIvMY
zy+Y<I!UCQfi0@MuSIHQg6_Uwl6tZ+4rQ8^KPBqA4)Q_SfRp7k``^9Yr*&H5|heqY$
zaXHlYWka*6d&e6pn()QNqd!!%P|D6af_eYFr;85CIklXNa&Feyou9e)a?wLMFY~o*
z`0tDq2@>=?yZi5blsd%B?xJ32I+8bh$?(}VXaz;H)%1dHr@6Igq69{5Zrzx<6DeAF
z*2?Ui8<!<p_pXiS+bZ+z4}a-uGuhFjG&>9BtXj@SIlDGH2j!eB(6JG}^Q|K9=Vo?K
zF1>y_cVjKM>!JFS)xhPaj>&@~UpBO$qA~>KDnn4NG6dx+Lr@Nz)06Mbr}IPiUfGOG
z9aBXQ6@x2w<&F1-iyS!ZQchSuz2RGbacxnub?y47(Q($@|D|KfG{v{1XrYvqwX_v&
zl(K6Z&09E`-L>nY@&#Ra4UcKfJ6`|#8+YHj^Oof8E}CeOm9<c=vKGo!)<QWz#l${L
zt|cW~`&YDQDz7CZn#Er^5U-`M`x2sR9~%5-dcimc4;nmLP>tdyc!kXHR*~1t3XhtR
zd(&)!rIgYOW;`9U!#`xbX~c^aUp3dz9?F>C=FfCg_X~JMIS{qcTz0>W=q`Eo>l$VC
zxP8U;ox{_N`Le24hRr@HB~e>8w+`0Ebsy=ox<A!@U&jqEXzo|hh&v46e=*EvZYXZ<
zdnw&JfqZE@6&FeU>vPeP<B4a>&L=?O#_|u)GEJgNQz*QpUS(kWmH5(zjn}sNBWzll
zq`@sFdj@iu4{xm9*!B!ao`KJuZAAm@r5#_(wy$6E^>6v0x3_IK4@u2KTg}6dEo4kt
znWyRTezWS5_$|N_%et0gE6<6GoU-ap@{(8>m(An?;;OqByIOscD5s$9IZR+fJueMc
zk&Ts`BX!RWm1*#?v3-94U?Q<k&C)GTRQ!mlNW#@vy1e<yP#py1`&p~T{Zrc0V*mpU
z4eqL@f}=wwy=+VhjBN!ba_4tEfo;#2<QbC#y>e^6+|&t;$~(Tx_8CDC!#SGJ8bu!<
zQp}52=ixQsXriv;J5<L-39U#RplFz)A&UNq7X2a3D1sc=yxwfGZ{qC-J`XPK(g)si
z@E4Z{DPp-r3#C;4LMc1*_vFt=zM-OnvQCZN@DAXdu00RR)nRGGef+?S0t&mdxBI>7
zDo22i+N}Dh;admo3s%9#J+`=Q0jIFTFYE-5FbNL9N#&eNSP%5I3C1c&cEJ@l^Oi=z
zt@VU|*gMA`kIXr_N8WMU6=~oe;YMJKO9}7;uJ@MBnu0mOp8__6Fw5v1MX}0&6xSl|
zIm=m<9}#|Qq2edNQM}LI*S&9k-}1hdIMdp%&6(oX1l}VMNBIB`X6n6+C{qbuJ!OsW
zFmVbuQT!d$2bPNVxn`+2kL&50nxU&Yl-DftWW>}2ZKMw@3$3_aqp^H(c1@S@Xbmwk
zzkAShY%&7T8uzW3OS#pWMXUe78aHG#d|`9?oH=L7>2g+_739TjC(Lf21{*hVW@yA^
zWBD5KSlcC~K{fiSEI6g)HW28YW?He*F~R|Rqs)Z}B=LBHy_>}8{J?aVVa-U@hPbZc
zC#{kadTqZ}b(KBNR<+gY#YQ;x>qv~so%5=G;bpXO)Q*hHg32wlVa+!0JlJBsyr-2q
zU`csL_myh5U6n$%W?Hkx_1q4^ttxCD11ydb4zKFhaIHY}2RDiFy~e6_8Z&+kh_=oW
z-k9de>su3GFB!FVI5XHR{5=Tm{yAL1)M3V9r|Mtl1Srzhh_rg~8X|>@y?svbDxWZa
ziegOQMJ?yx;$iA`gre_IMEW(}eEl;@U#4i0BJP4%LP~K~)4KR)RQV$+x0e}ynhWE!
z9i?R2hi*|&4g3H}T5?L49`KeQrmkFi5}O&1QXg;^JpGL>^M}6a@#A<m7E7j2a!FGU
z-hTz6rvEi&@C%6Wrq1oAL8)m__O^W1Hul-X^M%&axFc<L=gz_6_qJ^eeAe^SXP(1y
zuzx#vSPC9~aAPa@+#TmmXYY3Bl+-!(;OJK8@pU^cO@Dav-p%dc2`P9&4h?UI4oRUy
za`(t~_mtE<C3g+W{djEh$I*LN9`?i73Y~<TFVwj1gr3_zy7{8i_Ehd=yh<xTk7()6
zkK9jx)-ql2P8V9HcYMKZ-?-!(-^@OIYs+`O;5@I&4#I;K%W+P@C-G#@3PUP}2R%0x
zv+AOucR=O+<gyN@cOSjDEL5ztdw3m<cfVBjDn;vv(0!2`PG_lvpFB~DX64e6ihoSe
zpCH0pN0pItK>w18|2akc^y!+LTf5)*2A%eE&#Cs5;;VCTE2IBE$NVWB;!gnn|3GJe
z;V`wHq5JRcmPv{Jzg(Dk331N3)7-n=JSsJhZZ(hR9I~S;KO#BC<j_cA^jRtNT*2A-
zxvvusZ~wgMFFXEK$7jBi1?S0v@1z`>+zuU;LPxhkPfN~D+10-BEy*<uao;nLH{bVd
zzV)z68hddod|nEjM}wVE4?um<6u`^gt)`Kjy=e5?Ueeu9f5qtgn8$nL%+)2ghUAuz
z+%W?WF3e?vnJi`8)A1v{q?lD~R$LH`w4)^{>MQB9{87FpLP^LjFDK&ZSrV37AlA$k
z#M?;FJ!)28pEXx|XyeAW&*0FSp-NKUnxMJkAwbIhSv=w>i)&(a--F1j-!5!cS=Ko`
ztvACQ$BzM2r>05#OAI7Fq=@6wr<5Yf#9M!ULpZy*jF<erDBi;*Z<2~%)+9s$&6Kw2
zY;5*A9=0895Voj#|C5GLZG74+!c1@?RRjEYC|H?(GA2H8y#GlEnM7}Jm0|!-gtr|%
zlA|Yo<iS$~N6(hy*uztg94BP54My-F71yzF(aD1+<h~>Do#4LKKMLK_?*=ls+;}VJ
zZCZO5PCD7wihCHj_m~`-CbieWyi;gbjWp`Dp|3{w6-fmV=`h9bQS?U?kth}E*hCU?
z;$KkoAw`_Xi7SiWr^rna*OF;J#5)xI9-?ZWNS+EQdPplLP~;QQPr+_(>@S+|1+{b!
zZ5lS;+;m8x8M4AjOAd^Y6;4{Ry>We1vITcxhTDsHf;2Jx*ws#Ew{JbZF?}a-$5S*R
z4={m|qJ>h{eE@A#WM^Id`OBLF`M2QJEIOzN3U_}#BQ=f`2^<(Kd=;7X(`z>iZBq}<
z6g)>I+p(`asCvv0sl1dH0$YceqvDLyuQwon=;s@=C@BYPDYZ)`!$D&m&s>2}P{~br
zdSS+64KoyS%S}VrQhGd5{+R~1Y!xTGT??6#-Fiu}B+~GOEi4if5atp$$~V$vwwCo_
zA{Vmz(ifojl;%_Yf!`G`ZQe#7u@fz*Z%wH8R3d94FBz^r5U-jS2u3MgrMc9F2K~g0
z>y5HE_cAsB_j6^fEnC)CzpW$fg(jrZzd`&DNGolm9b8Yu<GAQg#%>B?I;!0zivI}>
zR)#KOQy|x_hv>%{p+q{gu$T!E$tUoDASr}0iy=<2@Deyn_v9Rq;(CYwhDY-ZG#nU7
zBvnlDU0TeXPr++QKO7R`XGL*Q3|m$Hah0Y^^A!IhMKmGBUjnPCQG77*uc^wAN?%J8
znsBCqNL6kc)kh<xe*8BkE8Tp~Wt12{*rWk_mA(mJcq#^t&?5JSw|fsuy@w0VknHKr
z#~yhGcl>SJ{vpXfwC#Ud@;_ZT@tWj+t#IWH$^XV<18e93&Ga98I4SiVFL=AZ@b$^w
z=524E<n5C?!}7>+@F86C65BCB8o8P8MDFzGjs5xAt;XSkbC?qcwjzf~RP1WiHA}ox
zWfGjh{1?jB*wg=>$|!QsN~Vw?w`r?sggZ*{1#P#4H)o{giK2zFcGlQjbWjS9DgApc
zq*VGOAmO8mXLd13?;!BQtn_&7>a5D(I7cJ(MKQd3{sQ;%D$erzPaqVZurf$L@EPZu
zU;cs5xQcP(oDxevdJ}17ibritzi;Dul}M+mG}n}lt6W0mti(W-rrH)uF)=Mvso}(!
zm9_(|)JNKIJE`24G%l4(bN_ZXZ(qHp=yC?XVH+<yx>Q#=9uU)S*P`zvGAeFcwcmHC
z&q|sJYzsvJipW3_+bC+MsDmQ@?6!+iL5jF&xK1f98p4#~GGmfb^otAe0!5@bs?RQ?
zl!{SA-VH7zltxjw24B1&R*7(q9s4mxu^z`}<2K-=_}|eNl7*#z4BROibUNKv%}h7`
zx6Jud*7Q>r{yTQ=r)=VXunS-5jXM2fhUhE1NvDTit<(R#lj)xMI~M**??f@vqQ{gf
zcDZzicHj&);Y-4$y=bA7m9=&jZIproCs1@y%E`=*-1NF3cl5pJu8T@S4Z2p@<t-ZU
z-NDy{FLmwOn9WabT)*ep?2`iHMH>~{nc1G}UpK5@Ubn7INT#-32Ne%@=+5XM<%%Xs
zU<Qp%MGH?_G4O^-gG3%A8!xwm7>W*_bkf{hJn1e?ZvFB`f8LP4oVVV?56HrjX?WMe
z8$7QY(M`$@?}yK<JySFwjj?J6uu!p;;M*vrE}c?*=`-u5yN){!$<eVP<WFz<@-N<7
zEI7s_)A+878huR{(2bQxKpG<el!a1O=58q3C}pRVgHr13Ddj$}WgaT_(wd(7@c7#C
zji!xs{`AI;d%=QZNHT?Y8>s&1s4h?*59!i)lv2l|lsX=z)bS|gW*%SBLn#{K{ja_E
zwcQ5f_I?vWO=mAO4e#M5Q)l0cm;%VQ&FnFJ_YS|RLoRr-@a*eS@bVs`Y;jJ{^g{)m
qe_J;w=>}zEhivPR8z!L8>-Br~Hr+^}X<(P(yX!#7V=CcH?EeApxaTbZ

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/hunyuan_v1.cpython-312.pyc b/model_executor/models/__pycache__/hunyuan_v1.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68e8a2a8d1f9c2073cd68d9091fb4fe425cf84b5
GIT binary patch
literal 39860
zcmeIbd30Rol^^(O-%*9N3P1rU>?o`xK!O`6k|IcvA_<BTB}=g6GKeaWAgciKRe>U*
zf-HAyV!)Ooz)6Qtw;Vy~o)Os6#BffZ7@d=oR&r)e)Sb+ndMqeaeumOani;oe@&{<Z
zOPrp`{O<RbDij|m`NYZTnbVKpSKs@-`|aDk_q+GLf8}!7IXqG0x5kIx<+#6~7v-_Y
zp3Mpa$KBz=+%Ol`h4oS0unxb5s6J*GHpGm>MjeG4qo$a7*v$N<s4iw1wlKdwY8|$*
zboOC8e$7#P%rWd>ah9kv<{EY}zcpGEa}T>?o?#Drw?&I%CBr4mZ;zJ7%7)8g<-_H%
zis1?t=7@S@zF}Xia=0>9HCz>|9<FBL&Zs|DGhD;`u4rwnZn%#5i=u&8{ct_=yQ2-U
z#^J_T({NL)dAK>&GTaht9d2cDo@iSvI2>gD;%IxUW4MF)OQM~zuHi1`FO7D`dWL&q
zyM}kM_p<2jSnqIetZ%rFy_ZM##P$yFg})-~jrPa(4eyKXAKo83FnoZ8`JxA7hlUTu
z28IV>hldZxo)~^2c4YVn;wmGqa8=~!m@!=arg8X~{Qe}~{dhmF=bqxiHE(j^+KA)o
ztTIr!-w!cT^bDV1kad6zd=BJE23ZfthR=a~ia|C4vgvamPcg`5K(>4i<mpHWgKY(D
z+v8zBl$yp3Kh07Ek)mBYMPz^Ez=tLYeE1B5?f`UW<V<AWhekR4EDP^Kcz5KC+HdDr
zXb(bnMb4?ALo9SRLVF`;)zI^|^})XBW2Yy^B79_GG}1LW5xpHaH8t_l)W}32HW`jY
z1EZ6%>m!NrOVLQ+)$zm?#9qEUK5_Zv$S49L<Cm`_;@v-?8Vv>YqV@PlG&%xU(Rw-&
z;mH@&iRSTmbbOS2hGP@A@uQ!Zfa`gNk0kh!@rg+I_~gXc_+?~ZJC;a9CKBV56QWD?
zUc7ys5|_uPu3w+z6QRT;KYArZ6&pwX2GMbRWb{fz%0slj5RJxUzxQ$^5gMK1(YQqD
zCc=@36=W2h6cxE1y39{bU6<ajD{oB{hib$p`4H=b(De}>4U0rWuTJvOa40@L9T5ZC
z5P%Euk?<62ul>34=+v=^@VTid8c_7yl@UapoQg-n=O#}e#PaO9=Y}TvSkNSv9iNO&
z#U`GSOFD~g8R5mMa}oYB^^Zne@r5%l6o7l4ja)}pk0c^tIfLS7CtuwTgks%iCohjD
z;?MAtqmejTiJ+1T81lsUG=_R|LLLsCXr-RuC(-?Su}ID4+^NV&Sgd$qa&+X95_lqZ
zDH0B2VgRx{92py#iY7wR{0K!SN5T<atc;D^z7#>{#73@%uH6j9M@OQO(8NfL2DkL|
z1SU)@5*|n8FS5Rm|3rsrh4J;A8^4v9;v?tBPTaa4;S+Ju`J6Nr;%6tHJto?fw`ZO~
zM;0HON=$x9nwe*%l8c^s=G=HZj@q3axs955$KxT4c1#LmqZ^B$c+n9XxfTgU2?&Kq
z^}WtV#>Q`nW@+k(W=z^CeqxmBraZJ#Y2VuXhj8w22{kTB=L)B+w;5eR-rYDZsY}S~
znBzXwOBwN|Bu=MmgB<r9w++%P#pgjbCUty$!ls0W4R0dHK~C9WK9p;~7bP4DOj4(W
zDrMX@-ZlnJL!x71Di(@JUCTED{*lJ@A#ig5&KXXJ1}3>z$~X?q$u(4$kQ<S!<locX
z(doFiDvaE1?teDCs=KSBEy6yIafl~Iu-%A;@reY2^xeBeT_jE!1OmT0+mnc0@3}sH
zy(=+-xu58|HMQ@+{%iXpJ<;(?J=bq1u1rq!&|>b9)@I~ZWE3OLORw>sD^nA<F_%L(
zcXwaEE!qYyM<&oV{)y?T5QaTA8R;H~V&+EUPjsts&!gzL56)k5zkGvB745rwXldlF
z>BahYpUb%G?;iS3aT=`Os`Bej2F;=cwHiqzc)k~bJoSxejE=_>q5+FvG{i=31@(L<
z#r43E+r{@2oJFn!Pn~(5VlTpZgIh1DTx?nDS}9AH^uKXt-BLW?@os$0(wKEuEnb-W
zTFP20g(cQ3O?RswIEn<SW4dVHnq%L3X~q0&>C(of5uvm-<!rrQ>dQJjo5=Ukfn>9E
zKVlx4rFvzS#&x$1c>~LZjbVcl_Z&y_#exkiG#VW_$tH{Ffj1PVtt~V*GK!H1>Ub&w
zKhz0vnj`_K`R)*HC<HG-^2ZSOG6B`YK{q%`=KB{9EJfBFomsbsy{4+WmT#mTyHm#9
z{9!<i;=lS7%f8JQ;Q0nx72$x}al?8WC;baM!}^FJY`}kG#27Y3Okv$L@WQY;Vh&pn
zV#P18yD`r!H>L~Q-*gRI!j3n&Ve2e+OE+voi(R5!J`&HJeFm%L%6K>&nUD^FV$5K5
z+meFpay+_1bl#v{RX%k@<E8PDxM-F)lp^Vrz<wCVUK!`R(1KB`+A@wKKO3)m@cfPr
zBc?{qS(DtivFj-7UB@M4Y=L%`r2aDS+i8R(O-W<Y{Ciwj|6Tn@1_h%?av{o>J-Iz3
zsYgl$-uPX8((;k%LwV;xid_DNu=(0POm26=rQ{N}Bn>FV`dx#v$NZKq;Z|amS|S&<
zeYd%wZRjVo<bUPrzKlITG<7|6ou9ml9o#-XaeXQw^`>)jDxti@`BQ-BpCacpoN0S^
zc=FW=DVdocLXhalgD(K*pC$lf97poB@A(NCn}~!17^(4_?BF{Xn6B>*oF^=Zzyjm(
zKn`qdk`GKwzS<qMi6(^NxUhyo;}heFP>A<Z*3SHP@KqFKQ!5C>WF$HjIl=RjJYPz2
zW|SKmn?QEPcqBT;W8dfa6XcvEhc%NmnA$2;-WH<86OV^NaoYO>^795;UHo$hnl8=F
z)o!JFv}EE7aIm>;m2tMBIg4QRty!zq{ry>QL$<0TRoS_GL#W)9EiTViHfJmR^Di#G
zk}B=ka+quEv&J=R<yH|_)sgkKWqpnLK*Oohwrq89%Vnto+*?H(9?n^@SaHu$w_f7U
zmb5P)T<%Que<|g8anqnLE!yDpuA(h7=dJ%c(OKiS9ny+cj}BCkW+t2Ux8R|p=Bj$g
zAV7X{XW7e0JENa508X9L3KZtQUYU<GIzXs%I1fTS6<JO?<fMC!<97ohXy9pc=D$P^
zoe)7I{~~@w-7Ope(v%f-A$By-K*&2hrpc=#e0aJfZy@Bb-$v^AAvkYv+49Ovd5ciq
zvUDR|9-On!TIP$hPS4wC=FTiy($2uFF6%CR`}Mik7e~_Wz?^YbH@h1<;;fbRSkO3h
zQsgcM?KA}mg9?R2dx((LDWFs#(HRP1=ZQ)&(g|gV<G}J$^^KP%C!=h#@L!>KmprLP
zBS2k4cXj+rR88vjqtd)O4lhs6C5o7Y^UF864JX&PFI!%ft?*^*8Xp$dni}ty`!-DY
z-7s_hx(y5YtQ^8@<g;_$;PM`!qG!WFuTIWgy5S;U5m#Kc;U=GltE}0ej5bO*d(qEI
z;rsbfozYax+RSP&io(^WTJ~-J3LdS^Up)lM<U_zH9|A^f|0Znz=7=R?9n)7Ly?iWK
zaU|FxI1tz&VUO6uj)+5kb4Dy-7vhU>TvV~+!j0p?Y2(7>VNb+$m3p_}2^a4WUJ`L@
z$K=(eNE>3z8ZLd)G>iia2UIZ*s0z^|&oz}~8j|o2+EPRtp?6n+vIC_hFHmpk%}$to
zC~*bYjOb*3Ldk(8i(cR`q3e_JaiRu75e2u8=QbtLIZ8yAe6+FcShO<4IW!)Y&NB6M
zKqZJrW5EB-DAr)XSyohdmf<AgLh7E7P`EhiX*c6aV!elq$d5f(+3LBXgkkNwrg3_O
zb=TT3Y4uNYzePKMHXO>@cETC)rsCX4<;>-(_>!(`z+3pTonrIKu3%-mv?250SRHex
zW*EJoUGg;QtI!OnsoJIl9V_es9br%)_}ZlID$w=9hcD3%M~;l6M(`5@+wwH3c~aVn
z!W>yI=F--p{^}UzU=ga;I2TH7$}bsEYEC&Qgle>eVLDt$9VI|{a%mLbW7Dd0RU0a7
znns;bzalj^6W&w|CuzZ(T4thAg#x!QY*Dahz?7&lPQ0n(l?bZgH0l~{M5souAyjR(
zk^|~#OIni-hL7n#vVAD8ACy<Fz$6ISWY3QIYSe-CvtG^J4xG}Fhf@*`#GVA5p6uDN
zEgHF_4^2sP*!htw59_4ekUfdLiVt~y;h6zgjZGP$>R2hcqSx$luN9$P?z~=8jv2y5
znsV@pk3W|<p!fly)iT}Hg9=3M_al$8nlLi8O89ReuR0~K+aSDy#X~%8r4p%TrHwxn
z9*>D7AYdg%8#@dr?8j2N`+p)jh`_sXEi?hv)X87jx^LjfV7R%3A*rH`Wy82&?!;tb
zBpS*cF(tVG<)A6R!+&Mzo@CkGH8Gr>e}?LJiX4XX61scwF312LS@XA9b-|0t9Z0}n
zM&c1Z3OLaPntmcOc`Fo8+>S<mW$H$|CV;42rR*lQ<#`wU$H?_~Fu*@c;e;(qI5!cI
z{Hx@QlS7CnPgokuM6_HPi8E^d1_kkOMDq=aII$2Hi+F(+`QYTQ5loC6qJa4XIfO9r
zJ~*OP=}3t<FiYLQ*HE0&S{$}K;r61DTEf$k#o-)7D=`@0SjI*7jj0H_g&npOD7vmi
z@?P({8J3zu0Hjv24q?@!ev|6Rx|?-8>nZAZR$I}MxXv0Tp@Ou{$&`ltlTUC|7UCW%
z+3_u;i{HfT`z6SZ+B~u&Tirr5g>Sv2KV7na){?Djqjx`0-i*6Za5pYp7TjGc#rNF3
zDQj=a-J7kf$y9a;m0c@dp>jXb8QF$zN>Z0~xHFCh!O^gE`JST-m}i+UQ`#<+wl9B4
zDBZKFyH|Q3<vfroJpfd+ta|Zcre=?Tzim<L{<<aI(w<D?L80;B>SdwvMB0Cn5j_tW
zKjPq;qh-1Odq@88NY>x*-uZXV&klb3+`6l5{)JS{?lo60LNorof`2cC-}eVH{!YQ)
zxnj)h8Wiy7ADkV0>s+>?>dwT%#8TpenfGUeialtABkQfsc-sVT+wz|89lm>5@KV#9
z2)#42FtZdEyzT70stG^tZ0i$Lr>6DlhNb@H!>i5d>Z26k%lZO{cRlb0i8ezqv4vQc
zYOzc3?*eX~sp}W&`tymlmr|vzTW)J5QEV;{grMrECLMyeV>$f2*xi`mJybyFeJNGi
z3}VnrNgP`quDX$^m2-3F<l1J5cC04av8ootU^T(H0asp2a6@xL3OL@*&Yfig+AdVK
zQwoLPd_Gm$h-#HnTH8h$=k#P8)%P6L>y7PF2d$1}p12@9abd0T+1bH0XJEa)ZMp1w
zHFs-PPi6+r3j^oZ>Yte%{M1>yVd9*AMm2~w1&xi1E`@Ug?p-7<+GzDM?`S@nLdPXT
zRlkXuyCVUr5|)f?G|qr=qDg@6gaWDPB}$VY93C2>mknXvM|$O`co{XDG0#|LzyP{R
z+eE<w7LGZoA{?x4fKFOwY=GA|Hu+hEtH@6-v!wZ|irnNv!-PU>9i7}&6|u=dD`?ME
z74682lf5c=Zbr^30+EADT6U}l?WhG0^7yZ<2N1cd>Vcojo_aNDRa!J-PujKWg<jJ@
zH^K&qrc=fcsky7_A)Qx-UFi)rZVt>T2O(Qy`Y}DIJmb(${tF&D#c)`&Lp|u>zk&2%
zN8#2d!M_PV|38p3M-DrD-lBNp&GE>q(lJ1Xm}tjcMq>Q()Z|p0|2BcL!{M70Wdb7?
ztgTu2gHGunnJ0(^a=t?l1{`AiE9BGN5Ovo?-A&On$&ZJwi4HokLJ|W`G)up6!cX%L
z4~eBfjE8C8BPWN<C;4}XjaPvK@dmLON-FNuEYvK{q>H=e%(I5s3)zzLJHdtE;>GvA
z{LYt`o4(h1w{z9_C(b{1ru-*9>75UzONQnw#4wp1AtuV#=DxOgd%1r3LfYLUGg3Uo
zvnF<O(Dst`lw~|kf~P6#DZXP~FwgUgd)|BEohPI{C+#_q@eB%{!L;WjSXjkHv&V4C
z6qjc_4T7g3FG;4lQ>gBg_Rq9uAme#T@I00FoK_N9Iqd7>3*$Iyb}x;jE81oq_bci%
z6)i#qm_Q%A`u?lSH{PFK=}lMk&pNVYzB^|Y&MZ07Wu0@jS@S&DLFJ34#T)a}DR+I!
zTF*AOyVjq0T5<FG6D|Pv<PaZ1$MJucoZWElmhfLC{|Gsk$RQF!Vh5SVa4VM(jp6ap
z1V2i_wD&Lu5g#TWjT^&}L=(Gj70uGE9A2lcM<a}N#778d3{F0~=n4grLlY_<z%UZK
zsEDg+$aeQ;TRXD7{lquw=pojTuj*m-MV;w_?!G6mVPZaXZ$;&XMe^g+_HNiDKUhdr
z8xG0u<jSiyT#~;CJ-gVqWLVr!=c`cBvEh~?JX}NbMzQ2CQTb1$Qa~ATpvonG1?O#8
z8WbwpHoQ`RkC;-GlD~>8t=Nz%x#1_qRE-pl8?W7aAKEHR4Y+Z+Gq5nQVS*pE_to4<
zE+jWB^oIIZE|$ONf5$JBwk($krCl480_-rm`)&W6{}&FtN&GG9G8zf>QTCy~;cu18
zJH>H+G9EvsP%e2)u3sO=eGHGP_iuPq>Kr7`e+M4b-|(WSpE2*i3sBK9pa~k>g#WI*
zs2sP)3a*GPkK3anb$`Q4+O}BOOFl0tK^On*xk@~Nf(M)?I+XEX<cSf$9*lgG;?Mnp
z(?l2G?9rYZ;L1LsK;(Y6ahd{3_-`PudL^$%I88j^nT%P&$H_;y=t(esZb*zDLjk*o
zzfC~Xa4zz%k@pQaL6a62N3=04GXa?}{_6zQ@N2Pi_}`}NbG6Ii%zuj_cI4j>vzz!n
z#0F#B8-^k?){TU16EVgUg(bRA3>`l|c;ea6;0gB26CT7EIXrPhctXh~wEJ(v7k@l=
zrB?IgQ&}wknQ|EY{|AfZuQhX}qCM;M(qG;Mc_B~auMrz%y`nKw(I-^&Z57*OeoDn}
zgrCB1rv|k-Cof2x6T=(QwVNTwBbgyO9~431le?&Au;6dx1mH9;k<1FM%s3mwvnhDM
z39%$?3dOGEiqhrnHXodEK^*xZk{{d$^)SxGGA@XE5tIu@-Wt3Sr3P2k%br|{4`r{~
z7UDjr2Wt)ve1)Crp?L}SUtJFxCH3khuO1fgK}<@E7#BpNUg$NFeJOat@-6!|E{J;I
z<$#lgTo7DkL5RsDb3qJ45`Bvq#s%H{_wmCo!x8O~*!2Y1;N#aK1?&%gk$}d@Vf+3&
z<oh-`SIJ?!^Y4;x7LGR4gMW|W|2{e2CFfmoUV$T;u7x13$S+aA`*0q|@2Jt<%Vnm=
zGgub!GB}Ls;i*iyn^M*$xY<(woORYTdn4;Cmc&9{n|p2XaM~S|xEbpnFe3tjC$LnU
z_B4XAk;n6RKJD(4c^<?l|Nl0-gZ~HA%e%?>AIT|XJbXlf<opW%zX;>uIhFCid@|!f
z@=J^d$uBV;B)`OXko+2q2Pr~gJV^dL#)A|fF&-p;9^*j@kQfh=Ut&B+eu?oQ`N8`m
z#)B`9@c@4w<AL6^7!MSlV?5wZVmwfnZDTwrTj6FBF<OE(VTUSEBMHhFAx>k0BqaoD
z#_UWq#sbk8E2JxJnlubVY_!6mC1Qt`h=Yl?IKlLEiVErf-1QMY9yvD|c@omQ*JRTF
zDb!E8Upoz-=!i^^$^mZ4qL)UApQSvsOBwKg^E(JF5I=Dgil5{}DV6;hs5zx(PflP`
ziPhq(BZXSNMheZ-BPYm#-Pfs<m-~I(34-zn_hiqGq8VzQ$X~6Uk_rTfrbq{gqw_5Z
zg%<^Z8tv31WU8G5VhrCkDQ6r6L)Bd$@an~Pt{#bi;#bZJes>b$yCiTU3G(C%SZL*-
zl$A74?PcK~&9ah=H$P*ZaB9~D_=--86vLg0?rMut&)o0V_ik&Q21KGwfmT~bWotlA
z6lsUcb+#lr)SP4wZiTE@JC)Gf@73;{U-1ENA`uq#76qfK`V|;Pl&W|@(sp%EE=KVo
z4|Q%Jk6tA__lr=K1kQyLv4^zkeF>m6$YX?Rus~#Cq1-&u#JrI9V6HsHCo@^pc?YNg
zB`){7Ls|f!&g$Jw;+T>GBlV=>&;24)13wF!!d%jbRbd88#gfNTX;4xk-ATot`^5^N
zwfMKU&9GCsc*XZ?t{;sYc33|ekn&u#v-P79KVwgvQR=m0A2lfux!<Injg#)`*<6_7
zOX|a>kF0t9hAR;1nXsT|xsdvvxS+&fJcks2?iZn2bDq|`)@WM7B%oxYQGkddjUYsz
zkjJiEj*1VV8gm}vQVt0MwG1k-5YllDO_xj8D*+sHOw|km=+lwFbSufAU*;pYvE~Db
zD^SaWyk-F6Hka@|ITn!Bb^@ZVn_UT>oHj9Wdj5OJ9vl?Z^%0@+rzxxv&a|~#P9JoL
zMNEYwtSSQa0D$g(psSUa3#AnuP^g3831mg5BRQEJewE_NNfd}w8z#b}`k>_Bp2wvr
z1|0u3ImG)Ao#Dt$s0Yfbcve*@&&7{ST!VnU9AQBOg^&b4iQM3oJWR(%^h`iaZ3=2{
zN`d?flt1l8q7^zn&>6gbjXyxIhG=AhiP?+g6!C}x2fH8R>4X;D%3vrO91g-P6q#4n
z+~NtSw_S$HT~sakpHb3MRH(2M#1iN#T)7?3hZcR50VRJVro148gcbONSXvkynF#Z=
zNlUU>Mv_byi%EhjHhv2o5{p99Z4yB=Fx$qMNmTQ+(};FC0>C_NxaeL<A55W#=v0x0
zdXjvEZn5#^|0(%Sz!4pJ8kYQ@QE-}^m*5mqMfvhW3WsYuf~Ru0qC^(`TrUX`dGdsa
z*1d<)-op?TaX#=h{a#VV*C+V;@akIkHvXO0Gu}SIORtJJO~xA(yuq}$gM|fJGJ#$p
z&`Sa|HTNCvw+H417F#k^okCUTJx3?gU1(i4e$RQ=x%B!5r|S=9gFTtxAt87u)i$tt
zY{Q@{KC)>rkVb<68VycpJ<N~YnOvCsg9Pa=l~ym__|D;!GcbRc)U$5h`P#zQ(xt7-
zZTCuhQ_kL0X>Ycy>dyIv^Gm0MvaY!k_ocVl6TsqY8Z-Vqf`3oSTA6heXB@49qc!E|
zgVsb@?c!Lb_MlLE@Sh%ED?Pel;EKH&Pv<>P=l$~PO!;o1eD_M5P=08`!ntapu;J}a
zSM=aAnXZ|43l+OF6^Dh2!w8V&ukP13XX^Wf`hMz$+H7NYrg2bc9Hh5EwxK1{uwQ7{
zzq%)L=s5v@4bM?TUAC<=({@B?JM!_Ke>w2a2ZXls6x^I`4u0_R`!BByX7*eV@Yj5S
zf*bBbh{xF?IC1xx37!=2=RApe+gvDO3)%tAS!YScSt~dpC!~0aD<B>u>7X!?Act9I
zVHI(JaWo1J=(^o=w4z5mRWxe7LRIe{4X(KlWW9AuyT3D&@-)rQtb3~#`!m&jLUmu-
zyJzLrJ@1i}=Sa$XB-_-UX&Mlk23B7bnobIy`uj>i%2WTKwvCB%bqoIPY(rb7;h@lP
zFm-rHXc)>?*GqT&*_vRst_jjmbw!Z)IuE^tx<-h2oqynM&Q{mGcjTQTS)V`S>k@oj
z*%EKoSDW#*3%>SjZBMp3koDCp>E5xaLQgNIN?RCso8W6>olYfgd7VCpL4DgPQD_Ua
zkh<Uyt5<!D@G+{U8*2oTO1i6RRL(O)Sb6SM^@Vk`XOOy!mfRAsd{uz_3#!hL3>0@&
zn-gcuNiZ=EpjEAg>iN0@XDh?T@oS{I5r)X1?JAJ!k#QkMP6aKQ;|Q9;FH`9?HA$W_
z5C}_?#7BanCiSi8Vy6es_HyXrQ7^L-GHBs{m;8(52;_W9&Kf!F1S5GP0KG^7EGIi;
zVJ_1?dp#m5s(>V~lO+hoGAbP#pTK^<O&Bds{U(da<VnaV9HWB0QRW!^8EuWrNcaYK
zzq}z+j-}r=YtJg)<r1O16YsueY5pzuE>EX@2WMT_WBh^l4!m<<>6J9rht)Uhn!k~)
zZFn#GPBdH9x-x?WTGz43>Few%Yc-%Dvv*|fNXpTYZP>dqf;}O1Xy}t0!l4U7!-bTy
zPT4=}Nmj4n$<*-|(hXmtaCbw--72_Sm+fFfrL28yGDDC_V&Rdn%E_RM|0;e9WmJeP
zkPhNe@`cG^0=v{){w_IRAtyr47@T|olpjzaIoGIzV(^dvik0-0d`w@-U;ohcvd&~@
zGAHCg8x`#&3wyVc%!iG6?Ia4~U|uIzQS~#HawDlPHtkt@p0>OV4&If>52D|X{(`*H
zlBM#g?&?Fh4n3Pz)Jlt~0zD$P23tj9u*l36=q!P$0{x>R#$>U9$znq~PZ*j?nzV*v
zhj8Z(;ZkX?$PV$eE>%sb9bmL`mb9$K?BOElF1Z+krwHq?SX2}i2P2~}IKeXweVM&8
zfztBuONMz6)+KF)`CAR4Yiuk0IX1-t1`jlEw(H6!p#z*_CNMHs-Bz(3nvqw*19V;8
zP;%@Xz-nww36;&VjlkD{WCXrOc+y1Oj4~k)AU!#)AhHmU)5o5%Y>P4G*%|;V;OqWv
zu^>AY);;e=-8C*NlGd<^sNrqt@-$dxY};b2VfBLLmM#t}INM_Fxmb{a>h(uXcXP&}
zj0Eq)C^%#}lYJOqPeLX8wWjriJ1^d+^iuA3#+h_J9^zUXN;#clYvH<RC#D$fMFr2c
zb~@0P8Zb&<li(=CI1P{qkcdVnh(;5%T;zFzaaOhlZsO{;dTTHb<a*aD75ZyZ@1h(_
zE?ks!{vP*TRX`dHzvf(R71jb@nNZ1ew84P!CxY6IzA-~yL7w^O8+9H`Jegy7?J!oF
zBF-2cB3=rfq+#0_7U$-wQjd>H^7N3@S|oaujF7L^PNCCc2Yghj>;-5MEpGPw2J)&>
z@&Xf~OxE<dhA{s3$%(=d1B8$;j3Zx%CSR$OPDuU_2(}2a6|z<k*(x~6#56$5lGZ46
zOm30}yQDk{-Fs4650NkiXhiB^iAyj}zN_T0dQcS}uWT~y-=>SNR3JbS9?-`(c7rAb
zBZHOj6y?T_0hIs+c@F}YY8y1?@hOO^m5z>6<YVAphc8&2$B1A#4N^QY3MAe8KJx7+
z=g-MGMh@-K{6B&tS`?X%EA+-XCf8+>R;^9#7j_pVI-i|_uyst<{HNWO;U=&X0$Tex
zy|TK}wJ(zo5#5scgPeYk4=M}^>S=js)R<sVo~qA|hh@Py+($u>09S2r<PSQNs(A?j
zaXL`*#kK?aB)ea}$jm>oRf7G`f!@UbCz)U`$s^daZtvpmZ_cEw{@EE>XN8eeT|#vi
z(Tcw9^xW|^_kJLvuF{ON>7KLcK1ki-pimrKZWD_8K;aSzS-WNDDry#ASbBM7Z@T=z
ztbN^EyLfZy^_4{0J230aI=m@I<3|>dmZ`G-RpXXHAG8AzB&vCz;MqsnSEect3C;nO
z4K0(FRPUKjE~XovO<C*KD+5avso;Utz3IwhKjrjQ_W$Ke$Y}oL;t7a!pVZlB$&f)s
z^U@1xLbHKFdVJKrCExPXAgNdD@6{jLLIG77XYigg_@KBpQ`{mHw@}r+xQ269z57b0
zrdO!xz31p%uj$HqYnav!=?-P90-35kLe-x2nkFy`QvTg5{h7XVLf<(QU0Z^({4GR<
zwjCk2ypi0hz@l%dD&_6WR@QITxNC_v9oh(RMgDhZGIaw&-M~H9z<N#Zf0J^y8o1KB
zRQ=)AiPYh9sk)(b$@!G?JX4=~>&QClgvOzcmGx3J%jUn9^|yk8_E9ZQK~KonkZZic
zdB`WY*USAF=HZp{boo9t4=5T@25+6(D&YdHOE)vE2ZYuGt2Z-8o)wNfyH>{-7XJ0N
z9+kJSbTZSlPiWf5X2PuTQ){z?t*cTkq80X7#=|h4z_cAkRTK>Cf&2`~T!#nrw&9Jk
zq-1&mQ@-%YNwm!9C(3bPX~N{FY$l<yvmpx@bx9gO(kV!V3{4bwehuYH09K{m^YYC{
zm{mySKn9-xsUT-z09LLag7FKrPgqYtr}8h6i2o1d{Dhnz!@-{WBKdQ$|B+t514nc*
ztq?`WDo%%`w4>w^xYb%aiA>%e!5$L-7E(bV0#-%JQc%_KHqD+=b=y{I(*7fJ=kB+(
zXIc&lEeBT*f6|t2c}{RP&YoM`4^4v)UVs1fY(*VtTDVwuZT*{^vCS@6n?Ui-KqaBE
zHPdiJXgKn*>yumQh8G2E9U^Xl9rK>`9qUp}+SfDd%DVlFSC(BV_uiCsuSCI`hVoP`
zPD;i?+?sT(lX`=YLrKSi9WG&dEg)w9kivGRXg{N9a{euCu0MiDqG&sJkun8SqsW4&
zb$>-6YRN-Ht*q5xVeimDkxg*e*t<m8GOv^9T^I8ffymupIic5~?NH1@pEi)p0hAT`
z^OPO>QAAGJp&vUd6d^hnI+x0Xl4jC#=*K?yi2eg*0<|8ydv@yW<Xm#``S)Ia=jD_;
zDA?M6;X<6WBB`~b_^&?HmGo?W1$~fDKa*+BcVX~AGVwHKWR$V#&7xrw8F{)&Ct1Nm
zmOr$@A%0+m_<<D^b?J_2ZL(z$%^YAY#1@tyoZ4l`u{+ct!qS3Dc7aL;t*o8Lm_F<#
zF$uK88G%I-{40tW#~9a)uuH^y5buWd5!fX`tY%#$id=>-0emr|%1f~R%S5NVFwc<@
zNTyc=!!Qhs`Zp+m`BW=$L_E{p!uG~qxWA+OhVdJwZ<xPfdA!jopwLF7D|ocf>Tkj{
zo|fd^H;o9_AfdlW_w&k($;)4B)EN&{3s!?b{-!x;(9$skT5nT|nWKAkwN7(n8baNp
z=S*7UEFjeK0ih!GN{);fKr$@s$=&~cD2HgtK*R&cDIf#n{qO@C=^OF@WG~;AN49ZV
zbwd6vkEWZm<W4EHOC_8@vUe!ZO1<;rb7}<0w_AbC{mvR80%xAJV2$eEv?ldTszm>h
zQ9Thc?~tF$41ixHwBT3!^b5AWH32q+^z6`1la{;!Os3Ilz=JYtBp=7!<}}-$7auea
z!CW4ZH|naQ#8&(##>wW(aDK;_Z?tbtpOcW)#sb2sX)8(gQaS18baOCpGiQK7I69N@
zV8w$e`%mCwoLL;|o#bcaQ2|-8iU{Bav^z`u**g?qlC}m0%aRfpYfhY|e&7u}?9>;n
z1JRM#rSQlT)2;bCj7mM^8E2FMUnMkP7jpUK8{ArTH!#WdO5lQYXe>9TYr2<tpwQ{c
zKEf~YM_6?0&s-LN5j#hwE!~V<it`VtN?(T)tj&>tF!D(ooN~WwyE3NS?&jM4r<Cx|
z$YHIb>s{7AqVqb8X(T4E!5H9pSajfx44}e)OSIo4<EYXFHEkozPQ}<b4?2$BVV5Sx
zBV<e#_tmO#CD9367O?Inf$$_{B3<b^8H`j?oNuG>cFL38=*rg!QX@qNyCartLx?uq
z49i}#+zB}<(?~b?L7RlWse8KAPK|Mtu5oFPBOLB1o_vB(5z=F)g*ukQG;)V=TK^R+
zJ6c_e(YgD@eu<LH6!(FYn>E7(UB=rZczZyx<-ANecH6DxBiESCyE4rug=S`}q2Ydo
zA6L7Mte@GEsAR-Lw@}T@MELF#LDeBt(e1DMfy4W)CvdNdD?~;ZwA^#Hd^GUk6Pb>a
z_c~5K2=qfE_>OzQo%K}6TD~>GEsL=pq{gSt8r=2P_oM^6$O1vl`u^iAizdO@^mDz%
zMfUH!H87sXbOXvA2Y_tuWyI}b)4ScvO&@h^`8cPKif_5+Xj%8wEt#d8=v8xO{~2Nb
znKj>8kVK~+_*&AwHuAA)EZQWdz<5|T6e;gA7!T>(WoK^_UUsxtpza2Wc{?5de*^xm
zUYY_1!YnCQ#gLs_nssWq(+bru4RS&3-=eXmtqP{?$cjfma0iwu)9#LxwS%=_h|vgQ
z**19#a5P|k7?v4WDRF5r#J3S$Dq`_-R4{)7R1T4=`CWku(8E_IjbAq;aV0rXti3tr
zaiPH%hX7y^$T?YELB1L_LFkYPt<RWqHpq}0ZOR3YvbD}Y012uK4kbG8dXm#ZJ&>CQ
zl7UdVRxEgwgH9=Hkb7l6jHjaYGqxGKp6nNauM7cw>xVK@#f(LmU@pRupmon4?fQoy
zUa92IlhFYS<Heg8x7m<%%vj&rM=g8npfS(7u{r`8eCl{nB6s|f*p&HQl_UHd4o6KR
z3xHFOPu4CI`1mFqPL?6b{=k1k6Zj)=PO=+XOx*<vp<uAWs3-Yfkpmn4GUtvCBiaY2
zVz5RI5h^;3cpXLm7xHoBLoagtUy;*5jvisSm3)!>v?wIn7M}uu`aC&mk^KJ&5U~j6
zTyHXS){<2b-MDCCn=K=P*^O_UP&e$FxhIbTF57kt%B1fcttLqq0Ad`{e!;dYw?E}>
z%Lcj@T=xS_nZO<)uxI6^bl}Lm3wBuMPThwA;L^U7vkz|8ziXvV@E@CniIxtqq`doP
zPdzAaTDthbm*4+#x_mcohAV4ki`ISh>)>kbxpQdY(2_9|*d+vZtu+0h`}^H#=dqs~
z^p*CxQ?tirryiQQ-hEk5W!6)Z_4u-$+D)6Ow@7ey6Ro}U5~}I(&L{4?w(#20>E)?4
z_ukd|)vJHp{mHR=2hU~e+ZT!;Y_d?aQH=~?3&`XD*6SH}`#pF2I>a9udLW9y%qx^h
z7D7QuDmT<Cr_$Ajl{;!Q-zwR4;eQW(x=k8_a2d7>E~E3<E{K4_M{Bc~(dQ(-F)<61
z;GM}lYlLg%rYs{+72v0kr0NW?Ev;O&=$si--u0qps<3JchWGA}ul>=gVuL&RxjCym
zqaAa0YUW(ILp@~dGCxgH&w7L;EZzCxk{|phSm>O_3)3@_w=vimFIHf+Hbz_@!LV}}
zoGZwMnw9=%n;-PZAm^-YLk8yNl+6ax+*Ymnz^ri&2A6oB3uDWxsY>}Mbw{h%Rp6Lv
zBpF+qb%_6W0LarwJxi~R<opgfe-}>BAtB@sD1dEOgXH^da&C~r!x1guTr%S=%M?U-
zIWt<1uK@(@(so8`hG&`3d=$&J-|MhXA;hIS6v|N2a{4a${yv;IO{;<}Oe_vD(=#v@
zcT=|ZKds2~$+%!){2$TQ)`E=`hyp}TuDx?DQ+rsbJq$?`Fz;m(xT(tS72^*a-*;qo
zofmeU2h$tUP)=~00(~n{q3%iS0%Yjw+QPL=MVC;~HR~W&v$TiV*Bl+$`sNR+->=Tp
z?-lUptR-Vz7w>#|;mfIp{x#P=HTsB9e+1Fknk4Z3LjC>}EJ@XadtH0KsQB$`bJwy?
zU#hBmr5G}1sXZq@aiB78`>X-He=xf`7CIJ3Q%(D^*<DCA9{KpfTFFzY?HQ-*?bCCo
z=PxaGq@69$-1?mNb$1!#hh12Lg_y<DX?IJ?+QM+BZ8V{Z5G`Rm@)07eLiBCnqo51?
z{@gC7wet`cElg&VHS*9xc>t-g&ww76c^%Jjmx-=~xp*71mCO{UpGWOrK3=u-T{?R0
zdLpF8GgHQ*6sQ``mI8|zq@0okF~MJ+s4>v11Nf2F2rWCYihajH5@D4-?*PmHBiFBk
zJj*2mLyHdieEakzWS(A5Cc{tHZ9AYJ1^CxAp@}mlnXhM)aLrMN`BB!8DIE|>2eM5)
z^w-b<&h>j|-Z_);_X+;KEU~SR3N1%*4MNABnGp|V6|*wNZ;`*Qvh9$gE@y|_Ut$`3
z@xh<bU&bN!56HT;_5d4^Z^1KT+=lgPObceARwG=Csi$nqGbX|{v0X!|<gz}@jhP_M
zWF-a9u!%(eY4Z=;l18vF?WFV>hK$IV{xa2D1MeO)UDg9TSMhB?scf=ba}+#PSqk}5
zGfEsYsHPq>kEX>jg70h08(!Hf<J|TcN7$LP-vm1OmNV>Pz7m)PBO0jS3A@5Y>QQ44
zyB`bd4y$%SXYAo(f{h!)$eERNY=`mFIBa-RxKvK{GE!;a=wE+QJ6u!sS5?csrJHf`
z%{a=Ogy7G(@@9!ET$ZR(8n2FcQPL4EXRr=XDMd+F(xLPQJ`eJT;ffh|(g14aU!i9)
zw`V*v#WN*IYPpW}tygYEak4n<V-(4=IVPSK>oZ&lC1QDA&Xgug`GbjirB=z(t8}&&
zJmGR>Zd`3Hh{9{QN{J0uQ#+Km8C?H`{Y)vxmV}?tOy%s`2)ehfXwL<-D{p)O)2dNk
zjZy->2xCuLSU=3?*$9RKIi-E*q3>cW?9x~yU02&5&2Oei>Gx!bGAcR_C{Nd;usQW>
ze9NnL#;xNfbVe@e=JoTsx86vaF;4#&<AjyU#;JU!V#ceERnc#_&HX#J`FPTy#Uz&I
zS+ZOn39!m!<-f;6W3J5jKED^k<ujGZ3iLp)ya$xbR3$5uRY{++bInvIy?mL}+i<;@
z>A-a80bF$zm*4*rE_GBMiAz?`RKB&x2=a8||3dG7-YhZ8vqV3yf9qMSCx6n0T27%=
zHOZQnvA46as?A$fZj7z}3yfA>-U!rfn{~U;Uv=^huv=;)r>Xvz*rUXT>vFbmq{}Dm
z`KrwAym?!fEJ@aeYd;DoEbEy-G7#6j6;Ia9*wITbqL=)bqx!e*<ylb1+EMd@$;LM*
z{@>@dD1RMM+(x*b?KL~?;|<})y!_Nv_xU@ZGSW)wFS7dP4R7s7tE@nxnudZVFx@er
z9RCl=c^8fx00#Fp$tn$D>bXG4Vl%_s5qJ)95ZO{OEyh1l!mZshUL}zoj2>YLilqc2
zU?VFKM4dorp7u~lKwh5{mX|6>b(5?l5Y;eUDqC>|zp#6J;$~=!kK7Q8)QT|4t?Ar*
zH~U78Q$h6TZCZI_ant2_8IDfIL+m>Q;cdbA!juwRgpa<FTvoS)O^L2;-y~yoKRNAy
zD3+oL$2xf0A@R#!?tVGkk-HdSErx;})#_q5zD#B%wW%<1|7|kX2roYDLth9B#ivH;
z^J>#h%AFeA{p#iJX#*T~pBk)@gv*FUB@tzevMa@g!GC}-=(OR(9^u^A$>O3Rjt}Pf
z0YJ3g^(a2U$Ny(a{S<+_*{7A*M;X|c)%XB~>iLLhj^k5uqgU8{jc8(Io<ts6aX}EL
zuln&p%BG%jHsBV6={$&LNQ2SGAdI89li&&Kl;rU1;S1JF6eYe=$w_>$3fw%5UQ_Cu
zL$@DLx~p)+GKmx<ojRDameFgvHev5%h*EU1PsPb?j*I1*7`$ktj!|Ldfwi+nOT>bS
z<teqtic6KTNoXUAb`~l@IOJ(SIq?nDZc}U|fj*);FBn*jOyDYojH*iAFB-?DCPqcm
z6u$O@FE~w(jbS821L$YbJ`s5}BnNm<mRx1IRu+ZoXrwY6?1L;66bZv-xHLc5r>}B!
z^$tGi_RLBBBNN*3X~pukL}}+oi8#^X>)7}~lWb%8{ZwyhfKo^8MhSG5em&yb$`#e5
zYIm>fUb(q?Gu40c6JyGG?!E`+Q}Nfh6kWL>wDb#}epqKsdD~OP9m}ID1F5c~ANPIY
zOg;I0%JTv<wAvzgS~eU+?3io;RK>pq8yMA#dotC#gz8=CYS=&Rn{})=H2;1xWN(Pc
zxlah}O9u|5tTiwMEja6D2j{!8?xtm<;O-<=q`Piu50p&E5H-whrkeJka%t~V^Tw>Z
z29hZ5W;teQXk{qvJx<{*%T0p2JJoyolZ!&{1@IM$E5UN~l)VkhDj9e8J;e1L|2QG^
zonZyY_ZcaaSKE-O?Gb8wGPOs9+9Mwu)3qm3o)hzSILM~5Y3XUf*E4Tg540|umcO=k
z^!aq)1u$m=UCSe2tj@cB=&4zZEWNVk=|j%<z5dx#KiYdn@a&$qFP>TUWlL*e_Pew_
zTjtM}24ImCA6F{#-$!WhUTMd=zxKV;@0?zmSP7^7hvrZG(Cc4sY+0K6;I;Q(TiN~l
zuV-2h39W}#kEdIYeq1874yGGVELyYG&C9yqePa2_YL(D^{No$<x*<T-q;$!dl`2R|
z&KvKSdhZ-wIK1RtD-AA(S38966Darr%&6~KDO)S;r&{<LQ6XP&-joeAX99gfpigbi
z%BeNaVQ_{so_grhEj6uqTA>LyZ~dXCe4~%+KdXDV2hx#0^!PSCTuIAAm$|qo>#1Th
zr<A#6)JCP{(m*c#I(73lWxVaMm%hAP@OG^jp!&IT<DPea%CkS^-On_jIs{+G@-e~J
zz0xT7_RgC$o0F}qnm7NbdDp_Z`BRId+4|Py#ud}u4lt4CpZ=k@`iH(|h*`bAXW5l*
z?8h>=nrb}#$^M^#NnZ8P%2l>3MV4P#?f<wv)phQZTWh`-vo);?CpU_@mfa7_xZ;Y9
zeQ5l~08G>u_Vo`j-i>W3PvA#&d*+|Y9)DUWJ39aLl4JR$RV%JUF<ZUe5ShgcYwJvv
zHDRtcwtmq0e&_OQt52sJo|-?i?(K$uaLs!RV7LHZc0hr2{sc5En>#)@^ZuE2Utp>9
z55h~8)C<pNx{eB6N5RNyu9!au#(rHVv=Y%vWb?f~NQ{cs4#-y4Rm?y2Q;25PW$W4(
zjX(6&Y#inSdmkRvalSTcZ~cSnJu4Si52dT0njgfBnos`F7kGf0Bvvl2c@N^{zPA}R
zZ@pcxLjPX!o#gTfm^ZHLUo_rF4UK}oYyQM~QwPdk{My<slB$*KQ{J%Dyj-(ZwlC|f
z%s6WVXU$^x-#8mL#*JK4#|GF7o*MNYfN;-XDgRac<SCI67eErZdyagJBYKy7>}sfi
zd|x4lowf(a_lM;4kwXV8kG&J$q#$2}d}DC(Rm?UhkenB3r~MD`Kp^k_vEx7G+D*Zw
z=?(f>?fV)1Y`mz`nL3xtzvsW}hbFP9bG7+TI{&zHlf1Ys?(Ti)2%2hSsk)^mm<ir6
zApm1tR>`aiTj<To)%C6n3bp$;Z1ifE<?h%=0yZcECQ(Ngg;Tx`!Pc?qqOccq6{c26
zOKp>bcVm~+RIxO;T)rG%IlfxDI-2S^CIp`pnvQRBh}i%NZK_#1wfy`_->QjO)b1M;
zx=uh%_7}JqGu1F|By0C5nyfy`wZP^dp~Lb;^CYelF&4q=F}|xG28$jyfjS7T(U%uZ
zvap^F!g^-<SXa0T0(2IwJJB#czNH!Ng20`fiR2aS03pS?wPRI*I}a1ME7pbz?~qz5
z86rs}KIaIRMx5a?<e>6E)E>eo!VvDyy(>QCY{Lh=Dww#Q7vg%w5tDWua^iYOQxai1
zVkp^%l%+fN+79(bx=N%gV*-EWpfIXM`dl4-H}!?x44rrqUswTs@O{)%G)n}AXqIV;
za#|J@a6kxr0|3%z@<QZ$NRBE^qVlb=NHDrG>#_=O1uA;5H&>vd_k|?`ne?6pYY?|?
z^pP+yDx?Q2#=K94<z39<Q<*vKWWZRI6uG+`g-NJ&`^4YLyIePDvDqLo=u`5{{U(ih
z%4ej~M}33`9CX@y@SrY5k`I1^7Nd*r0RvBkQD8xa2XcPJceO$B<$jS`V@igK6^J|u
zK(=rd<`HfwTNN18OoO!u1vi!SMmtpY<PMT>Y8#-&WE}!7PC{9@-dAUmXp!kSOgW-<
zn7o<jAk!Q8P$<l2L@rAe+BkxbNt;+mup%et#s7>F{hS<@oDp4Y6Ca|<%tQzNiehWY
z`A_5wlG8yBS>}@nEfSa!%@S@eUBp#Wh=<h!-;`E9sLh156t!@*5z++(EB^vz`4ZCR
zDSqb*RFPbK!D>{+s@?@D7N<;q`NhSmw#!C6D6e0>_HpZ4`O^@Gvad_xP)r`FI>>~c
z2#d>?eu7DjrIX92)876qo5@cq7iV$aKs?GFyyp($CgX#v?_bTd92Qy*XIch@mce=B
z9p{2`&C~dxs(z_uxofpFU3GZ&%z6{hUI<lD{>#-+!f0kPRrSDA{O#%L4#+#5m8FHW
zL@$V6xlK4oz4Pxz%+8WeOtV2<SFlq6p%O`IU&qt<D_RU1Whw%K^4Bb=K#4-j6XB@R
z7%W+k;~&#lH6amn7>YQb|IYNnbk<oue;XH(tFGL=rU!xz)zay@K#i0)19&-(wgaNR
zH=lsBV<R>1bs*&==S1oqN~87sMVfvzt+B<^9hhXgz${JUI2DFQN+f5|=wu8Z;Kf(b
z**D{->opp?9pqn7n@M^RZMNd;9g^A;K75pXKe_Tsy7)LG{@mrWF4kPpeu?OA=`&iU
zFe#vkX2~GXHruka!?RBK-{Hx>_{vGaYF#_+q#mnznZz_;a?;EH?Q({`LY^>G(17ov
z^IxVRd6^vWGfASB_G`(ssR>q&CgalXF^Ew4JGA^TL96KszC&9lU4b&As9G|2)4du4
z`8jF+lt%Vt)BxY}g1TGdgZdV_H_w*WEtTb6pqCx^xcrlwSltaJ0IO-BJI@_qYDym3
zAUC;buzBnooXuvJRsk`Vv{%9Pf(ei$X|nwFf_QqgrUQ?UDP7i0;0xioBcE1=w%HPe
zcMtr?Ff?sdIEgr5T=8q;bcr1qgNda$#-kMlN(00gazr>NON&|}Vrh-QxWTri#mEbG
zy<E7{=d*G$)aU)k9-Dn}1LPy{;gs(kx_c<o@$|iprx%}oXCU>=#VwPe#6D}ra-%)D
zL2x%L?aPzB+}4q_ir7jbcH@q6QUp=(<U}TO8woo-8BJwEGxOy~8KpJdpfSk`BuD=(
zHPDN)nB?f&({s}}RRni%Ihc0C29jh>0~%>VIM2TdupE^qR$P}@jzAai-D8!f$nQw~
zu{FgAzn4&5iQH2c5Fes2BNf4jK@w7tNI=#=O*-&tf+6Q^YDEV;paXwuG?v?OKDvC^
z>NiY=O8Y~Xz1EyER&DsWCv}6mpK?A^CsB#`Au16+U<(W!)n&VOKXlkl;P}WNlz~5w
z5Tv&}LXchy2tf)W)vA0#kivW>Qw6w9?7K83_>rjuv}hD;{!I%76**1zY*o#Mfqq*$
zKDhS&HOYVI=${Py@c{GR2e1k88-5d7phYNdaESS&@00kS?%yQuMv>06H%I;Mm8joe
zfclk`=~(ZLqSMvKBKtNk!IMu-K3>s_l)4~GU>h?t8?qMAm#{v|l%vcA%25u`KCn`Y
z&nG*uww>zdlg~|_cwskDKGKJj9z)C!SwTx=lRj@)K+Hh>hlm**J$f7_^3J4#I1CVB
z`3-l<FdUe(DZ=7t=CKEowj}RhSKf2KS}IMr>3a<~e8xO`2F3&-wCqvJ$31b`HV9S1
zSb>mDtEyso_@JGNwkx^8GDwBuSJUa<I;IWFTA@LjY04L9mZn8XE4wme2WD_TW_ZJq
zlLi18g(XN2tWFRL!XEUcMlBRbjDy-+AZ8krRJmV3sJ#V<mRyYD1BBXFfM{33bH9L4
zdkzqUuNFLjP{~9<;EuWQ0ffp~0HFkxo%6K)Gy-nAeP}X(z4j$g@R-E`c6}9K_a1@q
zi2$RgWJQ?nd=m&_(YE`FxTI4ehe-l~qMghn%K9U0zt>TzR6j`<<umgAn4BNL5zTbH
z0h5HEQpo>7&cCGKA`&*t%L&pRvH=A`Ec5Lr{%;h+WD^T49maV={=_QEN!w;3|GyGI
z2>}$CgZ$TsP=v)8#!Cd0L`AwHw?<<4q?y!4zKB}KNHZ1L&!^0CmoD;Nq0(i4K}UcQ
zsq^Tvr7y2mq^!O*>rw2ub@ikPQk|`Dpx@eT6)CK^p>2$dj`GSo!wbWi@|Lyome~{Q
z?#jjHKd4=E@4_v?gHl`>tTpdnQ$A(NV&4nC6I^RP_^JC4*zq6O-nZeF!Nb&6G9J2P
z!L`8c_itxf_Y1B2KlL2gaB~%{xb<;XrW}FwlG;?=nRLn7l=JL^TJY;X=y|^<UCXQ?
zR%aV`Wg4Fp8lR*}2C_}NGfjg+6Eg}}pKaflX@5p&e}>{(A-A1rI4U%-&ydz-n|l>)
zoKLN?W$_8>%Sm#GbQ>C_EmL{aE%d91-w6*%>Pg^7vEYma09fe(O~(<-Nq!^qJ?aLk
zgwmZi<D;nMYHtNvTP?QLOW0Nod7L7H7O&;etrlVlwOGJKxmqYb@T8!{pVJg2$>p4;
zDC$NtuHXTLLkYq*t8NiW7!Y0JK@>b6%J0}D!$#;IO4M$VG!|@BVl*oM3}B1`mUJT6
znpRgbTWvh8MxL!6TF@{odOeJ*Y~`90cbOnn*n-N9HLW0+H<^q`%6~*JOSEJ_PF%RI
zL$OF=1lf*E@6PRE(n$=_1XkXTN&X*Nb$<_41GQ<#6&|kd*wx<Id+xI->)Dk1Y_<uX
z)m^h<^0G<Xnr%L?I+z)_DB!R8B1JW5Ex)`4R>3~pIB&@IoSrwVc{;Pf!}QydZST&s
z4+`yr^wyg7l-_YHI5M6t!PE7rr{|#yOO8=9DjyWp<Ol_z`MB8+XQz3uWxr4v(*o?9
zT~}12%ku<T*&W7o<0GB<sPw8EizZ%<n&e^Mow!&{;|kQ;&1w(xK3@eu4(~3+ui351
z6wRmHO$w`3gp!TH$-g=oBS3QgJ&hbulR%lXbahf`dP+xFG5r!+OurlbZqu&&we=e&
z{9+GnZriYs&kEB7n>O+_=uADDR~m$4_DIwu6*r2K)Q2`7dN%1G{$e;L!xzoK7tM@U
zPABak)Yl?k5M!jxi48mUvqFp!*q#=~h%;U<o$=rgJd0$^YJ@`ls|T2LSW*61X!%D~
z&bWqJP4%!UQ^x(#!|GG(QEA*QpEK^7!+VQ{mz+{6fv_oMcy*>@Y<TH+wU0*UnC>BS
zr9q-Z+Xe~m?AfIIr8``N8wTM%tiP=b>P6)kmWSZvB!7HlDn1fDdv55ip`hM(IjI0z
zaQtgjKXQDi-zLoi%s!)4f}rp(Tm^6b^2)COpQJKo$T>_!vU1;`S91I)mw#Q2q@dt4
zq9qgxPmYE{d^g@j_vmCa8W~NDPfo<UM=p&@(l<y5Wwvpsu_Y!aqj5=@jgAb_#78bi
zZt+3Nb(xAJ8cK8~plcilClWF)arW(3v50ImcdMqP*q7#|ua;G_7~<rOM@OjO?l258
zLTL{AnLM39l6~iHd^&h+{Ic|USVm{lIVXBp>hL%Og~l(D9d2gYTjHx1Q-w+hs+mDC
zWE2NTWONFdD_H3WT6>cf%$E{u(_>)AVBH#qttTUrt?I{tGQ5>ko!JN2#QMkN8Xcd2
zoD^R{)g^uePiL)US)0&qvEy-R8FMu60)X8Mv_2-q4eTF@@oA~W{?E%lC-W9zO6Kgt
zb7J3P@|P6QN#qGL3C774HFN2PgJ>hMODnlFIug4|7Mcr9CB`w`0!YKxQ$iO@7?0eT
zicCNTjTX6RXH3R1$fU*jCW34xr-h<SQu<a3pxsZBHX|ZQx?c&CZ-5+jk{p9iG@oNU
z9mzo26^i?a9HKBJ;{zMyW9%1pps;O+t!=i@wl6+d9YC|dB6@<qgC&ALF3!V+6>pvH
zVK1jUrTYuc_2*poXPo~tuHrAak{@x-&$zPBxZsbuzR$SBf6ko}xKqE-n{;|GHFWx)
zIXT_o&$uI>ar=LvH{+cnr-(B8j63-mck~x}gHHboE1aKMIbHXUxhDng$sFiLiCtGr
zf*c%vm&-QkXQRrX>rMGPVNhJxyHdJIKU>abUGaR$oyvvEEe_tTXLK>0u3?_Pb9>?T
z7DxWAuNo%sv-l*525muF8$p*0*LAu*N)Y+C#tg6Obp4ABgw<?u<lg{)TkqY{gJh|h
z@4a(i;lL)5FEyJKyupIEqPAyry1k1f?^V82xpa1=eT$>_tucMKt|#RUraBI7aqw<k
l(&=@_bg9aYEsi`}cAd_a3iNJq_}#M7OKtbh=!I>F|1X1V^aKC^

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/hyperclovax_vision.cpython-312.pyc b/model_executor/models/__pycache__/hyperclovax_vision.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ea8210342e5ca2a22aa0d9ae5e771e7ab1b341e
GIT binary patch
literal 45437
zcmc${33yxAeJ6S^_LTrgfCLwi;7&+fL{Yn_h1yrjvSd4^?Z6ZPN|d?C7my{<V56jN
zLnTT~O_Pd>-7%E9V|wgPndyA5Oy7I0Go6{Z?erU5K@N~x`h}UgZ<^Py^HHX<&CKh(
z-~ZeN01Zj@OgryNJUI94_bmVO-_HO1xzlOm@QfP1I`ZFti{t)^Uew2{cvemuIqoL+
z1Q+2V{3tg-zq(O=OgEt8$*&*Pj~NCGW5xmFm}$Vo!VIJ4G0T93`HiF2G24KR`Awtt
zF~@*o%sJp3D;X$ZVf?6Tz|G3`40zaY=~&r78H+QIddGYNKIXTKmXB2oRE+rt{OsL2
zS~*rVP{sVV(dx09fts<vKwzwPpq7Q%N9)Fd13~6@jMk4e3^XvmbF^`+X`qSuOGcZ=
zS_WE}-!<Ag);7?_{O-}v*qVVg%<mapJJvqXKGreNG1fWI$-+uUyT;ZHtQ+ed=w|O_
zqwB|d271Oe3~U(NIIwYS)4-;&%>$cRoOg7~*w%rq%<miBHnx3WJM)*1_Kxis*fF+q
zU?<)yBL2}`W4i}-Gk@i1-`JjkJ!5+Z_Kxiv*vG=EM)!{$7&yTE)uRW;4h<X{J3MfB
z?8v~8v7-Y=S$NIpv9aR=$KekQ^hat3PDCGzo{ZG>VkjfQfydcfJ-u1E$kUOA=&49!
z^mO!8^whAflF~H6XNokxVjOrv#~tJ%Ew6Bq*65CR^zvL7cryCrz*8)y4Kbm-n9oH&
zH}EuzS%a9h(G6Oj0T$Yh(2nTV=m6ED#XZB~IuX|u?O7G~Y-C+@BU&^tY>0HfVi<TX
z!bjG>&PR|gvOz5=vN5_Q!cUr6+k1vBkxj3d20o9Jd}MQE%j^2c)@X|ozYSk2r`#S5
zE56?7W2j+w^Z=DGY>Vtb?&n#XcA`zYqGjj*wfyDzuGac9Eah&b?0ZDYAsrWOJO6%u
zDY8HM`RH@eXWreTmdQ%oixT%0FEP3|y6+vVM|$3of4G5YWPj9i{@*LFc|VZ@t46nI
zDvbC+^zT_p9XS*|haNeNu)_!&i5w{?;V5R%x%?0sP1gIz(7VW&n@bpr<0#>Lr2heJ
zJAoXJ;jgd;)Sq7po0TV#>T!(OsRxwQR6KmRG;$g(c)?1ueIW7#N-p~Std1uUdoFs4
z{OrA0JLns!Ee~qPQ%XCV9##`t^*OAs(JOrDnV-;D^@n)L9*GVQUL1`_Muy@cy<|BY
zj|zilMx&DX_~3;LBjaZ!%c<y#7o+1tQKU9s7!=|ogQM`;28V_&j$Irbj7O2r+BZHv
z5r;n_>HEg7NakZBR1hV!3eiD97#u$v4e2E7vB4`*p?^XclkA#zeFVuYk4Mj*iVq@{
zUUKXij1QeV5FLzP6rz%Q@3F&=JvkB^nHb+YF+MzURw_L;a&~m&LVg%ZaE(udN5)6u
z;Y-nxv*+S5YUGonqhoR=yt(%b#-jT!j*VS8aUqV<C`IYXi-Y6wk;y>{&{CEif8yBb
z!^cnT>pK>HeE-42r%pfqG!oZP0mso>BgZEqgQJfL6GPEhY(m&OICPHMU7CyAHy9t>
zhdz~jxv&Ex(b0(V33<UsFAWN3W9ay?81>NMF?7PIk;$l3mdi@T$tjFd#RFO)l~RP#
zD2&|U@!<)n{P6gNi}73_s*gu6$0ZMf#xBGkk6suZ9Ey%b$K#Si4tnB3gvOMY%C+ud
zWyJPe92t#71;mscMj^sjG%|ver=#QO0&2QL_MSp#j15Y5<?Y<yh3HRsOgCh7<%SYH
z7#&5Qd2=7Rf9y;&5<$yj7~zW-E=&mVST0twsbP;jhN3+Ab3iW4AbI*O#wVVVhyU2b
zAX+QghA~Cs(edz^ajA+;kC!kf!b0@yNDLnljfBUjC6Z%o@XDEJ_<|4}9=VM2E6zsa
z;g{H~3uE>pjeyxTJTd9)O+?2d6T_IB<B6S<w%$a9rc_U2r({2Tyzk)t@aYpr_xDd$
z_9ns?$1ldB;jxie3||%QUbk-j=5>_r$;12hpODi@w(*N&;bCELEE<za#s)8k&k7@v
zaE!W5G6_+t20%Rb(2hudE3}*5<Pz9%2yWn)?WB`{(Nnqvm(Wcj*OZ?5Oz;^J`h+3E
zzpxK*6X{QJA$`9<1q-ck-sVC^VFSHwgd;hrA=EHxOiXf+cW7|@B}}lG<Qk0*$0uGw
zhse#2(Y6qz=f9lpijQ6Bx-fE~BaTTOjdxtWxOwZA7dA(`Mn}$cUAPiIH!<Et1JK2K
zJsiCp9m0?a@@uT?+?5MaVQ6&XB~&kWe&>ZN@>sAYOpKiw8ONB(6$?91F?B<1C!DL?
zvW4?CCc8y%^IXaNi(=bW(Yy8P@nsX|txX2Rvd*i=vgN_#4zYaQ)e}qhirHOrC&lVc
z(cYCZbgiHSZipQ9VF)T-R^EhjlZ$c#e1sd&0UhNB^by^FA!?MnJZg&QsTEOk)DpFx
zSJ79s9Q@J%VI#Ij3=w0*6fs9E5#u@jUF$m-7<yzR2<6z6a*CFslwf~HnGRYm2j#lr
z43$WghxUF>28#@gJT`JUIx4T;$=7T&Li<Lr)(Moxwy}2#>j;i-3-({c>Jx$!!@&^(
zK(V~ov-z=XLgYmb<wp*k8yp{xj>dv*J)yib=e7k8u|=5|c4=GisgX$h91D^h7pSG-
zmj*{KVuBgsm<AF*F7ao7LQ`Gh&q@5Hw|U7CxiUUDHZl~BjEu#kviwY8x!FIVzL84V
zOE?B78dD<r-*!lra2VO6;jm;2)3U!fN`6N;{NlyIQ6<J44o4=2!eL<#3KHy8nkyW}
zXVLaX{e~zjg&IZyKqMn3@6b8PBm+C4g)(g+hi0Te<09-<ox||NB5;0<yQec7Ez6}`
zbI;X%)2%a|qOCq{Sf8zI$XXoJPrUl<wP!_3)vcp*`ngl{_4B6|8s9(l{{Fi)kEbk;
z-_z@=Oe>tuXu`y<Y)Cf0)qcDEJNAXW?|IVe_NE&4ivE3f4g2H<P~8QS+JOLiRxZQ&
z)RX!l)4Isiw$da&r+e4-4scs~w27)?6V)Da<W1BkM<UUQ{E7NqHYGmAM16^J=1<h&
z{JAKDh`bs1zhD{{&Pcg^@<iH;Zjkt40nnEd_LFmfoP*>Xg3~V?C-17M^Av@V^Bn$S
zPr{+8W5Lw%a_xOQ&7D+ft7vOW8+I#`=k!eT&GsAZqO(r41b=8Lo7p>CHanE;P7clW
zEDXKZvoLVia%fr4TaWPf^!h5(eNJyQ$&-aDDwr$^y3eir3Sx4TCBnbL5d@3^0ut<F
zBn;bphIJ7G5MOfy;edrEnj8#C*F{Yrrc8*#<R}_vMw|_0+EIoDeh2&}_^t3eujoTI
zsX~KoIdq0_oFPIk)W-l1fs7T}%WiUUEiS>Gr|?yeO3A#Vq&vmE&G(0NLO0S$PC^0B
z4Tpyq)(P-qh($+-W0W)~FKtRT+4X>Sbv^)th#^y~9L`m4(bbZSXIi(4ty|Nr+taSz
zl%-c5i%p2{FZeQQJ^M0R!Z(TkfsN>O9rkfu|Jypr$UvTCWRp&wM`0w)YpuME#$?2b
z@Sd^o=*ZYeJofM}D3akND%c6<DwnMc%o#*iN6ON{8ZMP7I1^|F;YxTkI({~OPWuk(
zI&Fjq78HySA6GUuP?(BO&?Wd&TwI-qz;bdUCD5XHTQAvwq>abogCJ2P{Rj|QeeB}c
z+dAQSL<_@kVpLdA9x};Gqe8fZyhX$(Uci1h+5WIGT%Gy~id(6NbCtVq;~eFw^3c0I
zckNx-vX+#i<)gClRK=Qf+1iw2E$fnh#IG05p%ua?oZ{ceCPVnseq(;>U!{V_$)Sx*
z`vmxN1Nb~%fPix6mBmAm>Z2~KDL%nJY~fwzr*u>LyaCoF^zZWO@UzJc%EEYwPzA|!
zj$siYy}Uk4Xee_#y-<V7Lk2eP+BD2Z-30*&1h)KW5)$gema$Y{SWx)VNc<e|gIGK~
zEYqN|$*m8YAh|Xa$@(=^6(c}_#Zudlsof^lZcEo<rB`Pw+cTBh#mepJ${i`oj%nkJ
zY0>4My*T&eUDt+`Wy3?dz8~d1s_UP{w4Xxv7KeNZKB4<$N89C3k-OU=zbKuq6KL5B
zV{kA4&*MjO$VfgunnuT|yvgZf1go?jW~+{93c1KnGb2~0{wF9e)&mFq*s><ma!hPF
zmTu`6EsfKTnXx5TS;o~Sy4te-rfg-)vXOI#Rye)ew#@0RHrA7&5`nr+I6=;1<j|-H
z1X}<y;(~CVUZdokB8R?IxIhj~Ecxpb<Xg2#KSN>6fhR_^)hpb`I^MWr*~A+==PKsQ
z=7$#cedqjqofzs{;SjcLvKZTez17wyH_Yj8Z@m>>HdBa&vpH9+<nul<f!?@rek;Dv
zxN+HLGTM?u_c{Eq4`q!RLOZmF5LS9to`sXYkw^8ki7Px<Z0Oje_1JJt;9G%20fEC8
zq%g5Jvy$GRZ0#0s+|1xCS+5vER;gNBDU8)pz&ntv*mQ;_E{?}z0_|`Gge}oRY=a|s
zhK&KP{1k^EV6^H~I6*{joYpjZ9*`awOMZG9C@c=zKn?u@b(c&HN8rN*UymP255OSM
zoKt4JaFs%BjNlIwAEj`XGk}zfoLuveu3*?fF74|mSfOI?Te$N2<kq)#+}@FOl+B!6
z(d(LQ_c&d-?ITCUZ0L=STOD)ec~82kM|AYuGwRAWOxrM-+*K({B^&>K$sCKmNPDkj
zLw`@m%&sA=e^8YLf2^-}19k(D=!(Jc{2m7Tpm>_RUY#-m)M#5cYEYi@+V-u6<XFfI
zNSUV05yO-vp%**}eess4+x|Fc@G0v<QtAs*+R!3}2+7qAW{D|bP8br_ca85Ty@GV=
zBFRgbFhxw0-~%Mg%C9A1OxWHvtBml7g&|<p)$`{kK@@_mNZW8^E)N5KG09526Yy1{
zF~)iU<3&rySTJ&8g?ji3N)pacaYo@w_>m06g<{Z1@`P#Qk|&W;c7BjtLded5weV|H
z&{cANot$gre3cwp2*S&7B##2Y3E@#VQZ5-_Yb};sGM1nP#E3)&oL3)tNA=_yh8YNk
z;^1V*r&|n4^4~$Ju|I+Xu8xB%ue<r&jpve^=lasV&S_iLS6lGD)UxKSk=rAgmXl)3
z$#lypWlzY~)M82ec;l|wHE(p@0wlg$)&1V-Y1a=w5rXAYUX}5!6@6>7<qg@2rfhX{
zwkou2<;vSvIAeJUwIP=vc~UHIL8|17VntiFx?M?aXQ@r)CHGt<wDFWE8xKQNL$=ks
z53LGeiX67_yh1)7IYc!HwB4=VX}&;V<h+Kz7=g)GxMgq>s+P*CW_yzQ*)3vO)3Ol(
z_#kX0X7W{WJNo#0)_~Er<nb;W@ry`rbuPV`g1|YencbVJ?@rZ#f3|-9G+1ZLlxf+<
z*=p|F;gk0ks=i=v!SZ0w%D=-;;oibXM7_4Z&|Z^!GZegmD1;P@2t;$l9MwlGQA@;H
zkiu5*W{g^q-j4LPB5569wHc$1sFS)9yOR^?N+Km7Rtw8CvNB!reg?^t3+dcf+#!!t
zqs`VF2U;OJCj`lKfpO0zvoc%RzV-s+<4ZOmH(}W??{WFik2;IN-TxbKr-1m;6~mGv
z{8^0@QsLS@?l~|F7~C{YnG&Y+3It<=pg3{bOWAXtApNT6h0T~f{PiZ}rNz7Id3av6
z6$zcfb~g4R|MepVq63IBUG<zVSrvfS^PW$J=^m87^pj~Lju9@Qf0O?@AE))g9<aYb
z5WlNa#hLHw)xCbo9Iwz)>D2Z|48#bZ;e|J`uhEFCdLl+OCHAG_DKt_P`_cce-yY!-
zmaDo5H?B)q&hiPX;<ujVi}r^tVLMOjV%4KkY?xnQtF!rKpK`>j)no}ryhin_eT!LC
zk=MHpwa?_<MQlsaSknt_n1Q+@+?V)-BVwS&By0&gn@PJclPtofc%53;`Jn2{{U&S?
zGv!k2qj$>v$Xu3Hxh#|`VHIW~hO>OUQLO=7Cxq_P1l?*q-{z;B@n$tu-nUuR6zcCj
z?$weZ-C1C`&y@ksEI|ux>^q%_67?521&X4#D(;5vy3c^ra!U3spS7MAs^^hCU{`Bb
zfAd?RwjQl%(^|vEC1E~KVxm<~!lvfnfg_zl`+4>am-2ieXTM}pP!T;?`y_od$=HhU
zEtE%sLonF@QDtGOWFT}w#>HPpJj0QMWAI7UMR-dpf4_i5LEw+j_7$vg?kL9-ipxFc
zCwe%?5sYigKF3v3Kj%03n>^25uQG5~xZl-Z;^i$|#{^E29+)*+t?OJTL{NSK>&4o8
zHaZ@?d_mYbx#wY9NGHT;qoc%K)IPkkcXR@Qv7Mb-8NZ<7YvKG2_X{9GoGw`Y!^0=u
zGv4)g{VV<a{@=G{{M-Mu{FgD>0=`rm<b}_{^MGzr@JS+GLte=m1(F8|Jw%`kt29QK
z%tbeTK{8$h6K#uR8jMkpaGi?O55+G_o=-Gcauc4H{}C8HNWF#Il*tGkfU%e`0>4aA
zpQca~gs~793$!swMy41bnJ&sgXP1nsev@+iCOJ3BnWdCg8Sfm4Tvol%Dv&%%?}42;
zaWM`_cT8Y&h9;I&s`hOzR^nff_?M)TFv<zz;~->&3_;>YVlL!RaaiS7MrBJsIZ}BH
z(<0bGk)b8jDE7}m8i8Y2!Zml!o&CKR-hN@B?Y%we&VxT_IwU%R(}!oSWL^GOzi{mf
zZ#KNucDpU@T9fVClIhwdcJ2B%y6;=QXGwP*o-xl_M0b5MbjRHe9!K+G9++F8{*A-8
z4!?2y*6~cucCluAwz6l|`$pxh%1mXCNdI@wkHA^<__Dt0Yz6(lZ#I;cpnyQ{3TF=3
zfF|EB<s7c*OJD7stxwylv%Z>}&)j$>=}-ICOdlwG1Nzv|@>b>T%C`cy1DX2WV*T!H
zVDs$hH=e%rbSAJ_r2qRCLU0y+mEaF&8$-#Rw>B)8<}c@Y(Sq_)w4kAnM-v)KQjS{4
z!z$Ni{Od&jx*z!0-!RPZGu?}2f!V<~y&sgdyxTMP;yat>``+2MSY12&;%l3dC%?5l
z<!zbWo^9`#8+>~o{K*&Zctgu(uCnKzjdPbTZr}aKz2EK4dRtPh+eL3LDCyqPl)E9-
zxLI^>xo_h3^GEpaAN$@hmSUgi-H#Oec{#~$(cO2?f>M^ezGc0!q4XnP9jI`&0+B3O
z4jEi|`LYo)GbQ)ETy5i<J;|4Td;8r$*NWA+qZD~-*Uj>1jjuJ;+ADf@Wc_HM=nu{H
zFLW=w_}z_Sd*8=;ov$1nTD$HZ<za2xBD%NU_ZO7sG^17b9IU|mcFtFI^Vp4JS^t{U
z+C!rMaJFX6T(?-$F<-Lq;(OiSy(q5RzpU3)R{d0OK;bqjoE5-Ir_Vx1J8LtJCehK9
zYTkU;v1Q2>Oj&}z{J0Tq_~pkAsx3yy-1ocvheL+<o7W!hG)Q(C>1BKm$pXxmEpMqj
zfBBP8LBWH|7?V%YtWg4o@^N95FXO@ly>4<)OVafpU?dMn-RBV|{O{!aALRU><PbTS
z(>0J+XP^N3grT!EIs%!m3{PT{+a3;s3!1(vuM3=!81W7OcuP39kC8u;6JRFykp(;z
z>M(}eW540P%zfE>le@+dX}9_*hHt9a7x*lOVi-L_HJm<I9tnWHVvgwI8kQf?$5n!i
zix}e6CiV=Qrp?n3#72y-IHthX1Abys@RK06MN^#MAA1s}Yvu%#+yNufFm>=fOyJC$
zH2m7E`hY7mFkHc;?f<4rT*%VTxE7LyW(k2?Oc_#|8i`*KzK4p2wA~jk<OiC>t!zQp
zeN#sasf4W6!q6jVu|Ug(kVau!0t_cYT|RrqUNaZ#*rMzq1IP!ogq|tm_z~1@&}ujS
zgVtV*=~P&|J+2XHIXvY{{56x@LqPbA#Qp>u)1<JW-axZMJQIB}1Vwn00!+d`#SgaM
z2~u2O+j@@0EtU08#1D^M7-gzpQ0o+g2_a+={sdWse?tz9nPj2aPXh|=2khc9qe^Dx
z13Zu>*|`bQ5o60YMw3$BO0Qm(S8Fw)3qnrkES#tBGx@~B*D7UIAds@Ua|qKziiNs0
z7yD;u2_aB6&flE;oLJF0cUi31GJR;tRWZByjtd;0x>Rt7Sg|uxu~)3vo2fV=RvbxJ
z9Gfv@vAME+ZMzuQo_g$bDzH5rc;bdF>#3Z5>W-)Bv*-M%JT%vqF7HXXdzQR)NsH(W
zrOMXK4Txo%Q;y9H%0K|E^*K1t<j1%%g(}IO*L@+YJdB^G1SK-3j*SM^n^YnrOzOML
zWMb?lBI$&BatOR(l%FSm4$iWnwgNWFf^Xs9Q#5PPpToz7^?7+*cgw?C#`uthgEP7A
zvkoVe>$%vsQNu48&(BwR^YD$s8Sh%ryEg6Zn6@tYYBRnL(boa?pX|A3)K}Q1?aMZ|
zb<1LT<+2{XAK}-CU+nHR-9IzKcdwVjmR#v{+wS?{o3Y%l!1kA|tXI1qo29=L=>tt!
zZ&x<ZoNed=b`mK4nce0rSuRJOdz5>bb6Rb`{Fs9`MzHvMWzBut4H9+K2q{^{3P2hy
zY_=OL!IRJF$&nq!z)?iwD*P`_r*TFeQLmN`AX3@Q^CTz{d@OeFBluw?n?SILQ6(}E
z(hI*!0ab7$^BL0ejYd@2N}6J5qc0Sy_}JtEUNKDSvoU2-POg9S^je)~KTR-Fa$$0N
zw|6nPF@sef+_7*r9XzmDw;@y4E7tWcJe987zu2}T)3#r1+yCC#bX)(blm&73?IxNV
zCWYDCAM&hb^s+@qeI=PD&YX{eJaW^g{vkO53O1aXm>3n_qj$D8X?6(><lG^LdQ12L
zIYhiM2*K8!@C|w;=ilNlMhFY>gAek?`XzVSvXMN%ElVq*0W>^YEqa=l%`D6!^M6gV
z+r_fhWh)D_F$Qq5eD<j5ZCkdpFb8KVUvV<;<6txUmVAEVF8feuS<5oG%RW#a^=;5n
zdveY$1~)8QDF_H>bMn+&OY#{p(7kM@AQV)x;v`?`TJWJuo0pCFMKSrA%@kze{2j|y
z@`3MMI@2y%>sIXaI>6hJv#f5}h~L#YDG0(-&rDgWd~M3JR<yR?w<1vPE7nc_99>kv
zBcR2}7N{Sd`~{lO*h;53neOMAL={^q6_T$};}4%9rReavq00(uf&l}_XC$ONMe~jD
zD$F+%=V(m!r0uOKLn~_))QOBkq&F@T*bYUC!vKk}h)kMn6s2%9dst(K;VEov5v7@u
zJbenN%rHSe<;DYL8ciM+*N~6gC#z`Bmk1jd{t`K`oEZiG4E*wp`#$;hP?TQYe?FuD
zYIEVr4HWAgg<uB*;77>tG<DG?c+f=-&Qdzl1lGn~^SVXX+N{H!b@;QT6@bOGzzkL!
zlGtlsk0dv|c0O$jr3@j~lM*QbIZ4ra9BLb*bihFJ2spGbB0!&;v^d7;ya9Ojq}nYx
zpzJvwSNFF6NKOAMaz28i^*Qwx^%LuJFB-{|EfBE!nKI_!WkMG>sPQ=t>3A9O%3pXE
zRhZz@O(F@9N|GcpzZ#NP4i_f~z#g?6!JR)^7*ivubLYe0g8a53`JHMQRKkno2epu+
z0kkFX8uwc|PzO0Wz?3&bjCl&=kaqqxDv+v3czA9k5`oG+8;e+2l@;dtd9wP6aZRr*
zC@-C$jBRWSLWjWfi9+N#cpfzf)D{7>04I=aKxik2W}`s!GGvyV%2HIY7iyJIILyM|
zAWYJa#m+JUPsU{wU7$MojDW28AD_5HTJ94<ZiNefi@YN=ZGR6QU@C5|vL)l+Ec!R6
z48BFXZ)WVxQ+MqlDDq~l<+Js7tkv0?&|DwrbJ0?{1S;Jr*6etX7i;>!b@|Bbnd!J&
z-+kA-e$iE%b%0;eoNe8bt%WjKWo~By)5zwXIexcs<6Y~fMOW~F3DFv7+q;Ij=hAK4
z!E{L3c3j=NXba2^rELu<LjzkcLuj}5&;+MvWjCBJW16dK?hyV%_oJBjXjl(I63Q2^
zSO<*I7U2d=)7)i#0PNq8L2~4_<<SfML)tt>=^70CkLbN`@_=Fplphc?+}9AVQo-OR
z8!q!PaFY`{I=G<uK?o+euujbfxr?^q)G!>#lS#$BIY?LRGeBZ$G9r{otz!=)QAV{L
z2-m*g5v5@@s%sUwG#Gn@<XXkrsAB}>;YXCJi|7-2BJc9b{-12ATH=G+n_KG<!+9dg
zS3SkQM}-RNFZK^(KbF|&1<5fo4t)n44GZH<IEvyXeJ@W1M`A(f)Z?^)Msz~Q*9fQp
z@C`+MwhY6P2S^;Y48oeQ3KbspxMVtpV<3Zqq#qvYmh^)-X9eGS1_2}!*6Y|{JY<&X
zniW(i*+<4TT|UXBfG1VCPjV1htG!uKoU)Br!{MRP!5DP@^8kfR%L*T}56PeIoocIJ
zCGhYUi2nt)H8*E1xn>qE{=1f{Y(?XpiuK8trybBPxKp)d?wM&<wtoGz;jX1NYj<Vr
z^`gB#`NSRjn#GFBn^$gJNmkEIq$_q#@4J5JhZVu!c$qwERNZ`gx?<P#zONn1Iz1U@
zqv&i*{>mNaMm4^AZg9R!?CeWd>?xYxlMIXX8|FvT6?>_Wk4l@f?$(UEQ*?LE#WP*|
z#jgEn_W`gv%Ss@5aF)oxLtA_JJOUnUha826?U4BJ)lZIT0bS6dO4zGXX!AQ)Qb7tR
z1j}fdUicZ32tOz17jQr}KaU@Yzg!@aF=IYJG#{Dt77UgWI!9yGiEL0SbhuwVbnVd0
z$*&%r<{$Fna!*@WXMl8GrBQgF>NgzRf9wf1KLj47OHO4L4MidG3BSz?e~(lQjg;wU
z;qUOyoUc=3YVh_8Ao4a2ymN5SOT9N+Z?yi@Sz#>s*?NP~!>VS<3n00=d9VCS6jBJu
z2lVVDY6a<IM4*Kcf$jzLBcPCvKQpxaEYQ&?VNl)rij%bep#SHO*rVq2M5(NLB95pP
z|Crd8cwrG6(*ty>Vaj_+@!ZhHa6wnl_K#eL8+F+Kf$Fdp{}TFke2oV+Iap1Vk<wLt
zTZVTpv??7DA5u9Z^se+fv`xxMD~0WyF6^CEQf_|k?K=Y&9pKP}F!@s(;U}lh0ba^S
zmI!j5!9l!8aAG{Tw<DLdJ$UKdL@XK{9T@_1E=uVxj)NN)9K1k;M#uWjb)BrRrzb83
zahflPz@Zm{@pIAOgfMb;WPETGNLVBq9E`JM=i>1Tv29&lXQ2*#@l5B?#8}r0IN&7=
zb>S3W6sIMlU1vro&UB3pj*RDmG-w^`%6V~$j}<vM9tmEG2FGwTGdLb4f$yMjg}!TK
zcw|UEUnMtDvJ(nOhX}yVm)!Kim@JAiyHutsb}O))j(SP<{FhQ$AgJP^EP)y1KsY*f
z1_zmiC{YDN#G_On4dMSIte{m0iscgs3iPV;5D}<8hE-e&>V*)jY9*i7ka4vlaIZCF
zJQtQj@QW$UL_o#?VNvRM2Q8!rwQBVMxE5Kh=Zh%NoY&N5<Wk6u0M&R`Lt%Js+zhpn
z{L;;WCr{x)<BubaCS*|ZXzyqd@iSIEK;eKa0m)L(BA$yA7lb{?QK$NIzbZPWe)aia
zE>88K9opAl0nyse^ajqV(Pv-w{)>Y@p8Uox2<{DI(ZO+2`Hp~Ba}OzGSPi2gIPgc#
zX$oVY-1^ucoy>)lTry5Zg^8HppahJQZl(z|I2smcECnaRC9BL17>~v!1GE6*k_`vu
z<@_<>pCK7Iw$D>)GnK+Bw35$84y&3KPi4uQ1X1X;{OQTZI|ABPmIo>{{NoRhpD9lg
z{^8BXKZ5HB*9c@AHqdX~J+LLp7OR7AY`L{1Q{5p}cPzSnH|;m<vwf+$u2lEFw3|et
zH6=hGj)Cdo^t^iP+OdoyAUXmWN3-Z?p6i+4mvS_J;MlrUT}P>uA|Y7ZlCItg#NwC|
zv1D<)T5_!<>!?Uow$Htg+J5}LUI&_<R4-?n-srm3m9AQw_O)kx>qQ?>qOZx^n|^`B
zX;O6_IG~fk;Xw^TLZOx-*}+s<<1QcHCTxP?C^TjdqT;{k!Nfx~tDgeAqo{847hOb=
z6w`WUbUwuu#b;<S<M@TLoavMdwg4R+J*%L>Ctf(XD{LarlmJGo;48`j7uGAev`hnp
zCW*`#<dJ1Er^1*&N0efIh!pHVA>*|J@#($Ro3b}%-QJsy8;;qNzu}thTe7>fV9(4x
zk~xd+Ai|OS__gC%hcnx@H(Oo@5x28yg)=y9(>z#xZjXW<6-Y;kj$-5RpW(qc@I=e6
zex5~&DZ>=>8uPdrkXB9t$f=7T`g~fC(xG=~a+|>iQN|oSsrzC@LVs1(E-SA6T>wf?
z5rw94!g4LjANztDH6Y3GS$i&r>dVi`#?{#WpX9iuU6bB3!M1b3OQB#S*s(Ks20!$s
z6AmB+I}Z9^kb(uu@k-*53A7Q}1d!!81Y)IXbxwo_BZE-#e+e8gWz)PO=?Ms#VS6Kj
zeNdJ0&{E1x8j0T{@y8@R4pU3IbC>eub?Q8VjU#UI0kB4yNPkBY={lN&iB!V*%5NUL
zaqyaTnxF2T9$Iv|XFM}|Z<K%anQ7gk!#6XSs_dFyzfgMD(L2pA*;`Wf_1UtTR9Rcf
z(FQkLR*@;|5zBhAZcnPLbKVNr<CTdIuy+A`H0)e0EbUk)qv`-lv!1V>z>9{R7fe6e
zCE4`*CunaW1GU)VRVSOwN|03*nTl#Y`GX?qk>%0(gMJp1IB&{mA`_@qemSSQn<M>k
z%s{_tifa?H81_I@epoAY%7T_z*sjWC)7V{&5d(oA!ccz=ilGs>vW~O*T~pQvevMp)
zrqDQLjcd3{!WuEDj0mRms?r?P4a$?q%L%0gj~br)&82{b-8HCt8UXst{lb1Ek=6cc
zXqvXtD{%{i0A8_i-X?#LqJD>bj2Fl@X-}Ur{rg@z`xqoC>mvfK51}4up~iOM0_=4_
z{r-6hTeSj=<Izju%ffdlitWkGl*b$!B(4P53s^fbLf-&cl}84!bx4*c;milH4_TCY
z%$^vDbg(T$rKD_T!_6%>wtRIe$=`9+r!4g;SN)QsVtSuE&#xVw<-gjG8SO5eHZIn-
zrrP%YpmyK2{^`Eymlr+WnP-xXqOUpaX_?-$Snki1uMx}F%<Y-i&235JNYKF_Lhe&P
zdpJ3G>)71Z`I8Ht?>r%{-JYu1{)Z=1H9N(sUFp)@(|fa}ftjY8Z8zFxyKk%oo3OND
zdhbW2)pQhKbGmd3B`Bx!<g>AKY2)<XB?rR*X3IWs1eVLVy8S#(qPu<54n~w>Bi2xM
zV<dV3hXSqO`GlEw$cztHAM&&17(qwUZXm<>VtcTP{KafXu+$PfairC-FY$T%gi?k!
z#q;)w96vpxhlY%XG8bE1Ih`4x!^%#hEHQBGb0|0#MsAT7(Q;q4NNsG964zcs;-~C+
zC1}X2+C`+7Oj^+@jsOH#s}DO?5fq*@bimc4e#L|I+TJ81#I&p?+qEGIj$Mq!gJ+__
z7$hPB=rLviq%)``*cN1q5L{gos8J|NN|wk7tm(iChVcKQ2B?1k1D083FzJAE*r3tk
z(X-J1V2hImSs)N0<I;vxBVdbAPYJEG%51V>DY7TUmbHpK6PK_a2|^Be$+p8UtU{AJ
zC=3?yIDsu#G9I-D+Osc6x>&cc2I26mXDV#!x}{%v?UFcWvbHD!t)cH#v{L^BO~tNO
z%6V|Q=0-`zwMKNUx$9~NH_U3wmTX(tx`0F8#38fVQm%GjvL&9G%Gtd)YSYf(v<~my
z>P3e)TjtIB%CSUmp1pB)v7!NNeXniWa?j0`lxH2DtfLM%@rv0{VnZGqSLVx<wuq%I
zbGo@b$;;`|b<^e_I(;l*MP5P&=Pkdv<Hn9;Y4WMLGwHJKX~T63G&^tp%8g%1j?7o5
zc0QJ_I0-abUYZ4)p|<*9GqGSZEVdQq^U2Th`5PNZQthNRwzeZA*8<4TU+3sSdg7=@
zeu{D8)zz%7T;l#eqLd=rFk4wlc&?=D#|-(k6D(i#Bn)3C<ta!zTM+{_DcVznpOQ0A
z4(u{=!Ul3S!a@A=6v`%`Mz%>NS=1%*VWt`)Pda(JZ9=YxPB+Z=-89`ID3^&r%X~LO
zH$t;VQ=#qY(%zJ3$FynDQ$F+JZ1Zo{P4{ITrG$OI-tb22t=88<cO6Z+kkGAAs%cYd
z%aL@|(GMKQpk7;Ak7?*GeRb;E)a-D|)ts_4%dAV?=>u=;`ibCR`|eRx9&)c{XP%@_
zWotQ0K4N*x#PJj4J4FspJwte+KzpJ<i%XzS7WCv8;N){UX~GHQ{2oR8TR7l!-qRUj
z(WHjho&LZ*Pte%I6b<kTlC!#Y*-SoY)7CFr$!FuB;$tVDg9`+go#ZRwO3RmB<a5LK
zQz~Qm2+!@>%j2y0J!`4avt(y9&ax4H6x*_9u4yjzcIb9^J}x$IUp7-P^dkJT`Wstk
z<6>FkGUXyI1lOxI*J@Vm^wz1B=*=q;{$eFk@Tw9iC|4rAt=CHQLBB$6BmBimq~KL0
zQV>cknU20XdTms+R<GD8Xd72vk*%z{=V~%O&M%cgO_@9>6P;*gUK}#6T(&Z=jk?j!
zyrAC7mYvL7!g(uJSpMZ>yv^9M<bt|3eo+W=n#l*%^We{|@X0J`8duCGA_fFf2^hkk
z_NY7LiXZ#aYWDP5?Cjs>u{RseLPPa+*w!K|S+DcNn8uMk*u{#PBX-7Sc0}yM7RIV}
zzEUy(!$j;@pDStuTiPV20c+L$ia~`c19s$gAl9kG8o;up<A8FgOA9Tf!+&7WI+4~B
zEj{0&wO#W>yvk8Q0~or70dJ%{>iSfvE0Ef!)L4!~_I|uqAZO|Mbz0$?=lpujt9hWg
zTZueXN*UECqYCdejPcwaseV9vYaS3Dhz6AYtbITVxwqv$D%uy(0F4J&+jU@V*G7WT
zy5c1<5kY<NxKGh{rbq+6GZ<+^`46dq)$(b^tqG;oQ!k=No8fPWv^=nFMZa5{FRjSk
z7-@^b2q-KX6-_J87Nu>?vOOe>TnIT^A~07w&>C3_w~Yw_LfC~m@`L~f$gt$a*x=}~
z<ELRL(exq{gi59tl;4-+U+Y;M;*q`Pix-#&JWk7tFDUU27O%tzOPEnmWcmm{lAT#X
zRMaF`h)LGn@0ZzVSkCOBO_fkd`dj&@SiX<sjq}As-o+HyA>8MSp#%((D6(0z1FuBf
zt$HH-OCaDt9++~XcN}jmmQqj0Uy;^;v>G7*grf+be9DZ2rslBL4x}nyRWV+Xf_jEM
zNI~jks~)7#T7vI2tcu3#`KnKb0fEm^-rRYON1jUwF1lHz#}kIIMvceo)if#)+z7fi
z-l&FxG%@CmF~TY&?6s+6L&O{>JcvC|SF)((!&sq0453|KH3jh&BARjn5I64pS~V{B
zi*~}`f?5OeYrUA)3IKVGSZ6Mm>dVWg^=-UIjRoJsRM2A0JmR~KyqsG979T@lZyd8i
ze$H=EeYxNGcGZ8rSM}w7(e9nOH`Rx}&}vn~IPP7i+M_Cxiv9?y@#rZotc@PVDWB+r
zl1xrb<qFrxbpyA$1SOfLF}mQT{PAV|)7&LKRMHP{VK{psz8(^>oIy>=I668A!>oo_
z1X78kSlwskYL|C0{ivV(cRU9qhoU|Op<HxS_%V{;l-(foxgz10a6a)2v#KbSjKZSt
zMHq^d&8LD_eGml-B9b%U0x36>cQoV#EHJT3MXH*2Ea_iU@pd{BsszJg2}{H@J-lI<
zZXJisAVo!lk)Eh}0usqsIELehFsmy3gvziC!i;EmZ14gYKI2yenAX@zO`$eORkAV(
zWPh;{m^Q`%gxJLBMP|%V@)ipfNbQ9wdP!y+EkGj#f%a+P1ilf+3Yl(7zG4bKEl*8F
zvgLJDDU8jY0~a>0^Mo!c>m>CTqcuF_J54P$Mq!ip3KIuOPFbHH3@UsjOu@=<S`{F%
z-X@qW9HQK$*~;|qgwy1sF8Q<qq`YlL6ClBIIv2Z*l1PA5k|#g{@>d$jctWBll=1Y4
zo}Ot_wxS_Z(Ir-NO*@v#Ycl0+VtL!NJ!>zQwOLZl`$hZyY}dx=qjw$cT5$5YJK+6>
z+9|YU$zPlCw~PMvX=k>+aoS1RFm=suOx>Cye@(WfJ=3yHY}rO{jagq%*8b1<dPH9j
z$X-$hZe5#c*)O*22Q4&n929x0ZQ6vypr=a$A2@3lgS)csK-OKe2;Jo2xrqfKUArgS
z(7IUBm^?7opRU*rs=OXzuDg!F&-GkM9q5QaeWs>Itm&CQuyFMKK)U8B5}8$g)DTid
zSeed!V&^_o)@WnWG*DV~TeJSgY<c}+SzXeUYTJ@7+Y0s7Iu>6IdIhxGj<4)ktZ#g)
z=5~!LYdb2}v#{Zhw|#fpU8Zu=z?xDE47(zLFSKU^Yp9B<Y<0`D;RB2R=Nr++l(Y7~
zFdoOBRINRz*MDDcJm@gX2Q|Kn2~cnx0lT)$aErsk#4i}#)lcs5fndt16+=M67h}x9
zoRU%oQfqr!zJhT?lM+K6Of|9;L9LUa6XT;-WJ|NqJ%9!%PT`Uo06QN>iVK={D7a5H
z825uIXtK)2%rY^HOt9@u#$x4zN_ren9*yNby-*Lij2#`yolXjan>E>{F@W+HK#`QQ
zv=(F)<t2Mr#$GGhYiBRrwYM&o)#A`<wn*4VCH_?9zI4g{lx067jS3XcsjC<&bq<~f
z4@GWUB`Z}|d1w+oVi;gYkA|5&Oune;H^QtXy8j4bgkx|(q~-Y~{e_7O!fpzejpxZA
zMN3gATa@a;*gc?Z4OI@Z*E@pK`ccKK8`IF3+)%V<ACc=e_3|FH0Sq?_hsA&X*7;Ou
z=X-{9Eqbwf$zGeXw?IC$6li>7;MPE@tv4Nj(Y&gUVDT;3ldbE%Z!9qOR=mgep@PrS
z<N5swTN=uAM{mM(_UEX><P-Pk&leEKEVZhqSr}NRG=+1qXzwXU+e!ETGxT0wuJ2Iq
z(XR4{-jjO^a(7aw2iH>O+ABu?*ywd?D)1;Rr?R^NFX*@j2+0dAkV6=Y=FkI0JpvrC
zre2~*3+0IdWAQQ<?E+#8boIPMzmQr`!Hfz$U`Bm1=^s%?5Dv*Y!tKqt8bloL3$9JI
z_ldzh**YAV-X+%U24~FOxXL~t=ph0_vYt^vHyBVLt*n)HIFIUv{COgbuljsegZBBv
z7Jb0y=QU;W5ucxz^!xPr%@6$iWj*`qg3&KnC?;fOpy?azLr2I!9uL;;Zm@PCxKI?U
zD?w-JUg8BGlOZDI>L+3Z-NciD9y;(q2s85PUuZ+)`0K5pypS8d_6N%#^YR-g|MfkP
z6OySuoN;A<>2(Ck=gPiCK0?_ssYcPE!UXks9wcKZC2cIENoJL`$X<wESq0Xbivg%H
zy6b^$OY*G9KTw{(ZG5V{|A7W)0u6<xsjp(%wqoI`VD<q<A7FFqj;nkA+<WK6O^;<;
zkCIK`qayu(;{9PbGd5WEayQ8-({jo?4@`N--2}sBRY9N|Ih%k5!;B7+=QGhKY(C?6
z^`mOp@-n6xMtuI!r&8J~3yFZq)}rh5lL;58Cx{`4o*=uOv_?}F<#YlyPJM{tWb^U=
zf#)Vn=mP?&ae2QHUY#$rRmNa;=M)YBV8-e&cfqQrL-i3^;l7DxBr#-|u|jRT%oPT`
zG^GXLHRKzn)egQ)f+|PZ(4<vn^m>%3XJvw3D<-%A?W>jvBZqmK0Twk}F7x_RnB{uR
za%|Q#qjR=QFrQyW5dw_>Y|dXK>GUP|RdRssHdiRpmp5mj=@^wS)R0jl0=JS|rYrK|
z2n<PX8I0tDV<c^q1sQOeEJJd$=y0xz$>yR%zB<{DXuydUV_>;_H$QVa<J%?D|HJRK
zz?ruF&{df&^GzSd?!O%ydjPAWvT^!Q7ALf~+;KH#Yuo1hV(t1Fd$zGP)7UFE_AWe=
zZakcF2ea<xcYUd@UFi^PTkKA`n^~UpXUHSEo0mPPj%3-8kTl8Lq5>-D{tGLpM8FSN
z|ChWZ;#BWGfh`Pn`3Z<Mc5sh$OQVt4kiscpvr2=hgn41H>Awh#49v))Gr5>)2yi$c
zcE({ZUQ=>{**7M#0{-!3ngu$xMkOPooz;U6uOLSFHFAEP97@PAJISf4$<l>Au^70x
z>Nv|1D;_EHw8!!RowAMplE#zZGRD)*If5zs+H6g5`uLK+CgWc#`eDVTTl9Blq4IMj
z)v)QkG3-2*>tQgZ(l+e`wdM|_EH$#wKtnSN$Q2vPW;^aTP*Z`r4y63pVG&Bt6t)#~
zr1B<*$!;+w8(4&}PY(;CM%MlG-K!qR=JD<H$VxL<<eKUX0EV%so)}k5i=Y_m5!N%5
z(i!j}z_#ki13pIDcr_ax1ab;&bf_i4`i9HEO_}r0=oMpS;=CYOp0Hf1fIOUA^r@B8
zNyPIN>Rayj9mR_t_UA%XUoqy^15(zgd2+uG7`5753f1?3ltDE<_luMbxi{7KfHpO$
z@wwl3E$=7{;VDZVOHl*T1@=v>{ikt+m$)*}TZe)KyOAn)pN{Z2h8j$;Cj5jf>V+gK
z7EEeIIFm#dt;m;@$j2rXb@x^JtuV+n4h9_Q663tQ%zm@VmjprST{wdpglDK4uRxfu
z%=~$RLK(YCheHIPr#FJXvJ#cdYl^{C4(_Lt*=6jYtb%(JQ|;eTVnP}u(hE_wdRDbe
zM$(1fpwhoVX>GYr%C$@Q0;1H7N?Yzy#V2oX3DaFov=hZ}AB(K%PnKhZ87kYr?2g!3
ztCdbuOkSubw~Fjof`F`(jYT&pbud_)V^%DT7-^J%<7ML-J5n9H-}l~a=ucVdmV#|_
z`!el2#rB<<_QN9n2M^!se*eXk#Sil!nLwu)=uCATNCyr|4rj_$C&HSNBZzxiYGGKb
z3L9GOx=dib7+AmH&1^j)ZatFO`k1)&u~cAvI&cyx@(Sro2lgQ3#~r)V<$Yqu?&Rrj
z#AY{q^9ousZBLc=Ee0Cic;?nK&<t33=KaCDfya;-Y^SO&P{6PUC4=3xzbD(e_N|w1
zznp13CAOX-6|S{6)@Di@#nMKoh-4~4VnrxZu|cfZkcC-W#<I(l_lV^^*{a%1Rl8W#
zo~>_wtNM0zroK<C@4N4@R@tUY?w3Q=Yv%K5R}=QgUw&N2RqWwqOBlOK_Ztli9WS7p
zXf-h?z74SU%f2s{7eaEtH{GlHAw9E_2xv&i8xS@FL$CBV^w&)W?z$7Uh4fSUDV(9s
zgZn_f9sn1Rd-anC_sK$aF}QC~;i&@mjd^gNY^-XUSGlrL675o}o=3oa6YN|=c@ugx
z7AT2YQ8J;ys~*`R<`mhkcCU)UYcc39{5|YT8kk*IS??M4Fkb+2FYHKIi)xA$FIf}I
z<Z4y>1)?2u!p6{4bHY-zObyB9VOMqh^gm?H5#y(=`7_m8WLGQv-iVp3fB&P@{fNH)
z^j|#w1|!iy22a@&cC4S@fUm%AtNKlvRo2qa)Jy+hE&WWjK4NV0?b52>H;HMBe#3}i
zjXiRXUjHVb%j+PxxMEh2A+WS2EE=|CI?H{f94pp|^;?2Jocbt$US8BGLoY@g=Cw}4
zC;`uasa-Dzw&tcgPZB1K)fbV^lPJkc@6o=7N-9Y>i>@_KF>x^6E~jF~YAIN^?u3gG
zr=^L~L<y0s!n$ka#Y%mI?O1#}FeC-n&XrHSl5i>W)kXbteU#ONlwk4*Ik9uZnkaou
z2QhESYr5akAnuoVXy|Fj#1c-mWZC2z)B3e1oU62cbLrh``dk^;%GEGNpvw@E#;Z)R
zct<^3mP?-~Q`0Nhw0EkE*#jm{8ha96HO062ulRDf;k0kM9C{><S1j?6nl`UoEti`6
zlNN;)oRaNuiq+hFziz4ww)C9+r-kc4O$0h0yb8yZRpehq#H2?i;m-;a(DtD7jyooO
z!QP;3I1J~ba=~><n2I^6hw+*CvA#Z7z%8O(oW$)b&%^nqPBW*A-pMzoTZ{_3roW~b
z@}u7fyLgi3VwHB9M=`Y93PZa*8QKLY+lmCFm&mYGJ+NyqKfaAHrlk)vXOYXXJkza;
znKSiE6t13Pa8CGb<eS{|Q1p*=S}bQvPBXsyb;1ZqE8rJ@Lvm1DB;&LF*tc$mzpv+<
zrLP{oc6eqy`T6-iv3b)%?fd-ueSc~cxAv#XPh=dA{m{2gw#xgfYdiUnuNY!3{3Z=%
z4l}Q%SB7zy50412S_8uauu8x#1`WqXCoVBfRH^wP=(s%ol=f338%FVr9FWY)6{)gn
z=eN-g$?-VuXu(yHOuWWS^)f7;X~c#qWaj<n&^0i&Am3bSWWSQX0I8R|mSOe6>r`y1
z+(H%eW@M0skurql)1fzZI!SWFx*+iXIH&-n{KA{{l)%!0+T<3vR!wc~Qj6UD$Hi`J
zEwGDdaLNN355)IpfgsEBTBmZwa(S6SMaf0eEpHYIzfDbl6HbiiXz<HE`Rv{;b5~wM
zsz*>Ha=(RW{{1bSUxFmDa7~>*tlx0gaTqomW?uS}mIdEeo_Mci`iWHihC7bKkc>e9
z)&zPZ2zAi<(5IkR4yFT#{>SJQP&8iOv}MT`m^lKod@XG$Nad?LGSxj|br04<^(Ih8
zba-(4we1;u#~pjeQduKR^J>SuTy;q>yqmJ_wHfz%(Y-$F_1`>t<7mdaA0~Jqo${1|
zN93tY)wGN5_8CjoU72wQar7|h|ABkW(j#)s_T6w6<hlFkJg8~zMX_d`=wA0(vwotw
z58P{3OdQPbxEud+%?=nPUaY7}Rd=K-I&o)D#rmwjC*$8H`nQ2$_Qug$ko_MQYv?F!
zC0*K4S)c5?<(#!-{q-4to9GAA^RE99d79ea9ZId=m+sszHtv6)7aI>3<p03G{$2&Q
zb|+YHZQG$`jXTH~#hP{0rh?lSo`(K{N~c!UOqXQgxUw~1&{byrmDA22H*Z1X{I(x9
zZ<*cnC&LR*T;Drm{MwQChNq9<h%XAY`d}5=PtuH<&gr9BN8rt}<TL5|Zqd=5as;xD
z>Wrg7bTlNlXBsz&jhp6QT&Pbs_TF{uSgKn)cU-L7mU7f&U3IC(4R>4{vhLc9yBYl0
zH=}f;%e?EolXqJV-gO_!HZ;w+pu&;#i0+0NXSNB6>X$tAsiuu-&&I{_hE&VuRLdqb
zDYd0P)q6a({Y0wqv2^*#l>6jzC7O1>h7Mfq0$Ug}(bcA$;pmu~NOkN?Id&<BINC^C
zzHFv9?FzoRcdjJe1nZ!iQ<lvs*XAGh97tCk6nhTLHNW07d-1onrFsrbyHZsLvsKlp
z%5ATopQ}sPZiR2UWYOitwVFQLN4_c~{X)9B>#lFziV-0>k>f8{`ml{0;eWZ(uS56!
z^5agf`Vb%U0DOGS-S4pdX?taVsp&8DrTu<G!FEifD3gg8K<efb)H#g}72P1|U9scG
zDr0XS2({<Z%85ihj&^9IF^&-dOwj|GA0cv{{5V;HQkX)3WRIkLQzkGs^~DJ0h*oB-
z^Z_X}*-MNc--$HzovR*bDyl8xBIYXa(;tzFT@*pBikOO7T_|9=nj#iL84FmgTB})a
zZB=^9jB7!lnhq)G%XvMcOR&?EY74<~<%uYv9u#W8#g}ad(-^OMa*77(*r;UyfwvSh
z!=$DwhRADi4`J#)><SRN@<eWH!hBhGnaRr%79xX(^g~RZd;Qn*&|FLIVvzGi7`Q6Q
z0Ak?wr|hdOYW>B|k3O`oKwc1n`C0Sj%FNlKI3HX!NO(<HBD!}q4O4ZD9^GG%5X#qo
z<oeSD^V+%frZJhx*jIi}&+ylK4Opkwe*iM6QEgEoPZ=fTkdH1g!r*{pR&*@jk?{zj
z7Yjz{CkIRd(pl-l4<z9+H33l%p;7^;hH|LqUy$!MrLy4ctgLx;6Nx0l`H7Kn`TQ-N
zi;_$cs7K=dYyHrLi;@wj>4hsY>v)7pAPiohqe8ggVH_8?N0{|jl@&}fOISo@*ER_M
z8zub%O3IGpz5u)7O7kRpSU!%+jEL*PFBM_)Ld6pXU7(i)b<~{5URGw$yR6|rPNTl_
z!5Myo@UHKnak!t?Q}g=iw5I`Dj$USS|7QQSeK>#n;-af`ru(Ze&GKKFeEn3?lkC3j
zeeLNv&$ph-y8TPFbxGgMmg)UC_;+*Ljcv0dcgx!5J%3R3ovMYyce@Y3#==rV<6Et_
zTjv^oyL~P;uS+%b%%A*&r@r&l!l~bX_Pqvi<Nle;GsdjH`VGr1OVan63oq4;$;)Cj
ztQUXO*gkjit==218T;(x*)o4BxK1ov2P9*5Q?mKij&wz6?&w1O+b8Z+Y|r{@XD{Az
z%DR>Bo_^=ayZ#N?%4)hA;<f5G>TcDgE7xQy*NK(u(v|Bom0QKit?A0`Gkfr{vm0+5
zPr~kU=X`_c-Ei02x#+7)>fYS{*0I~iKJaya`s&bxmzh9tz35;6uQvStrn~-ai<N=b
zqi>Af8l77|-+i}sW4dxvkxEfHH3Szow9eVn-VIrQ5SE&^mVe~0p561B88;tp4FdJ>
z1wZg^__&g5T8Dk!*LZ&u=l0GV_-X=LW3q(tD;UZGwlvLi`diro=RxWZ#U-)oidU5*
z6v1l=Y$HK=D;kznlR>;bkD>*tIbXj=_%j4N0QWB};a}1mBqm3J9#h8EEkgUFBkkIq
zvh0?n)aFa<PTW}WFWknykOchllQZ;6?5a=ujUC7=IYuX-#jMn(YPtP6O2*+w#6*Px
zMK|Fu=u_*9Qr`ImEzpOO$sb1Jlr|<eq&;m|ZZ4m!7LweYcCAfWl$(@k)YOMyCmY4P
zs3{*0qQm64Hcd$z`!g`8U^cQCdqVg_gaeCO{Xkb_AB`McP?dwx5IGc2t*1R+-Q~d4
zdkz>x9xnB%^X)=D9H5o;N`zA27fi!MaH3vf!mN6*pH`6_CE78Hw~RypNYzmsN20uE
zwS5HV2l~LC43h>537%gyD}tFu1>?abonVUUiU~Ma3(OCWJF5d@tr?6@!Vb-(;ez%S
z5qxOOFo?6k_JS4+$u)BfFPJfTmIBCXu&m!dk3NwcWc#=KayK&pB%jy)7NuZ9QN_AF
zq0q8qlok11%EzCVbXQ`M?s6<f-K&!9GMPSr3=i5mnErpUg9CqzNf+ahlL-;s6*DiT
z>Nd^`cU{}Ejm?k=Vp_jC^_8h?MIckLR;*Y%H+ZL_E9LG=Rdg*@;!>MrOQvCy*sy8A
zBQ|XN0YEVc{F2?tVOjru0ry+({6S#XET65eN%G&?lpLJv{`T<vlbMZ&?rc1it--yO
zHM1|?+L%0$Y1$$-!2;8kY|Xk%&1SJ?^MYrgZ^86I&8~Y^u68#M%B`yRUMbhO8H|Ir
z(jPZ$x@DTx&F(>Xxqr4JQ?*{if8YA~Jqv-%){`RsZ#a3!`*^lt6O<=C&G$IuB2EBo
zx3n&mRc6XM#j?(nqw|+5PQ);|;J;qmwztVNl)u7=dSR>fK6;6?Va_99^}|ku0cT$Q
zDEfy-avD^{&Xi$Z>xz}Cu285xP%GF2l@7b=&;6?SvkL8t&H02eXBswPWHY*0i)F2|
zC-Y1z^TmXE=!YWb&kzd1!s=%d^~m;O@TCv<R;;fgVjF}O5v#z=g@T8YiVO7jbIkRk
zP?OcloiC!)QLNW<SM18ALxU3=hHSmnj^jkCokPaQhU$`;7OI7uRVE+E3>Gtph28bP
zqECeX1}Ef_ZKthJz<qLlN{)}xmXpJj9@we#TlC7{0#j9Rka0rNdSLbdl{eWaplpxx
zG}5c5{TcM200u%NkE}$hs!@>^2Jvy(oR^`93`3qn-~*H*KY4~IL$HIs16w{0wy(+5
zY!quY5*x<u$=Dl3I}pG-_O8Y1z#Cg{ZB2pcY|m^tA#OR5u6}I#*kXNiax~MjLu}cR
zZrPQt-<_#HAl4t4K6V%PYPE3g8lXeV&0L8$<7^h4&2xb}&P|KeUD=w3OwC@gW-so%
z$TVyN)L9tI?0izh|Ar@lzuwdH4ZfwOjoF%xY-4Apahuq<4OpeD<fVC_9{>|^$Cex9
zdhR>9nzpRFJmYQ?-SE_BgWXKWp+gLGWCB~oz}EX#Bg+95Rce`xsO_L0U$e>v0Tdde
z0@P&AT#+w;P|t~#!=~j6WK(z|a&Z(lKH=!s1yWq01tZ_83pt={vOuykBfc=>cWxpg
zn=?2^W0^sMyz{n)Ngd~~Y=EB>iSweKBnGh(Me4;eGh8EYm|7;&$CR(Pc$t#WY?MsL
zS@VP`3JFnzewBPp<fDB;wxK{uDgyC^h4;xJEKwk!2^)pDf1EHWfwm)o=2LOI3cDzV
zoZ|ovu^BjIK^D`fK4qx<*u?pIvXxEAk(7TO?o6pQr3_UtYf@49v30Al6>P`y;If%~
z77kYgvoP2pDW5gmShH-WaJs+Yr%v)Ec+TWm)|re4__-e3dV$}0<#(ayJ@0q7eaymE
z^jflIcL`njfSV)mi@I#JNrPx@S~1gWkS=wgIQdcsEskER%!u=a=*9__&ozDV)x@>L
z?5UJ1C|c|3c4OOeDK5QdiSSE>e<BfuyY0rRh2domKks{2=x4c#H#R2szjf&Lp|?)l
zKC!~#b=l-MHnYaymo;?7Ouk;OcQ>Ey=)Pw!F$R{({5N}V^wP%!kj7id-ta8}bY9*1
z`F&#TmSrow;;x~<&BTpFG9p%>8!5=al~pb~$p?Gx%&bHT+LG3_D=rEP)}s1AeX{wj
z_S@}ZpljKP0Mr4MpJTU<Et}~Lmt3s=LMw&u=Fjoy2;^=`UVJNYJ0Uh~5Ca>RjTBt8
zUs%LxeZW{VziEZT&+<-#v5#M>sG&wL8|j5*B<mNm7_l0dsG%^2(b&F(+mD))`s5RD
zJ$w7vRIr;+1y2v|!ZWs09_RF_YyK58-aalVH+KDOU5!!E_GI()_h@Q6Rg<$!QdvN~
zkj5;-5eRMrN8s6Iv?MYwsxu2q^$;ksG%y_q&XIl+dpfkYflD(V;jL!E=!H&Fb!1_d
z9LEQ`wH9V#9ktN|wH#axPih3XngJ_`6mb-_ARA(A6r)*Hll8u#cmWImhU!02Hm>9?
zDBFP+IEt06)qo4;<r;?b$`0YcQ7hUe?~*!!2@7ev4LJqsPT|LByi}s~>7|hfjBmNL
z_j8O$luCv!3fSXtWvBe^RNv+FJ}v!V>;f#VhhfHcWJ2<)sR}|JbpAFP9%fdGVG0U{
z)Ra=qbX*v)SaLDNMLIbw>q)~t7*esiVqhk6!Tg79nUbAlQ4|aRGd}8Pv@QMsiE&n-
zrAIV0UhSVbk!@N-jEH&9d}*p_gJ`Hn;PE9~gBTWTdI9mW)opV-#p<mogMZ0fld9{v
zWA35*+J8l?*f{N2^!aD&=6c1-&1v5j+$LXEpF9HGb-r6H-7sy=Rt3N9NgkXVU$`W8
z9!NDE_%l9Le^{(KGVQ{$byO4Vv~&KJIhR<m8HIT(W=rO3ME}OLchj^rTNX@i70cS^
zJ!0v4rLb@JB`?hf-m4J152acUrRoofRfnftOZF-hCGUJhlN4V92E-7HLR|u+Iv(MH
z!XjLLa>p<+<)P*9+;EOXoj1vG@PH;Kw7A#;(2!wk4w=S6u;x$Jyck_!%#?k~mRB~c
zlra(z2QFBCEE;;I95730W-)BaLr(<LpOMxM<^!u8<muB1XTtOX?OXiya00gzCY<;Z
zXz&c<?uYB=K#-DwKr8?%R??4*594^daTr_#Sp6RZJCdz~61D_ng7G7Cj__A-B+Hp7
z3DKeF>K_}t9F7hTV_K7;%-k7pAQ-qD;1Z<an5Vg5A%@xnfvPmJnJ&2_6PL!B7i<u=
zzC3v$%G~!Bt-|w(;$uYq=1+h1h(&oUI!a5AH9W65{}rEO2T~CG3uM&R!ikyB;{?ss
zL)p4u%22adgWcn`V^{!xRoQXPIc=ITE<&2Mf3{!ru9-V99~RrmqVKfvBZq6IB<T~~
zEon#VB3@ic$kSTWjyBMC)$I`9Lf{;1%sQ}k)`^aF^PTVQ64yTtAz2V2<{H5G+Q#IQ
zw?3chBHR%;>XN-K)v)c3eOnfX0h)T#j$WXBsiv)I_tvG>?J3x(YTB4`)B|Ho8fU(6
z?a*=~SJer;)Zx8)LS6!dnM);17XWzN1+bZMmoH)J1?K|L0rJ)`15Y8-Cr|vP%s&C*
zuW@f~78fNJwfoj+dr>!$d;&3H7$&QKN|`JLF)?TzA&gie^gE2hY4WWE%5_Pn&_LWw
z5sQOy2F+ywsti#amlbFn!N*{P$bW;MeWN^WX~qg{?rL-IlZ*+8-Jz%`ZOiJ`vMx9?
z4vQmF9CT^8*cmoUaCYBOJ~RGi<gR_~J&0;6K61J<&Vc9)%#Np>9WdN$tOQol+O5FV
zMemxd)j!*rvV?F>62t8?eew9!1JnC4;ttQu5gdI^n&#Hvs;`uNL&~s0W<e^J3KSKb
z+`<vQNgu?t!%0cKz}C9P2hah&6M&P?kV2AzU6=OrDeU_)IDz~NAG7+A(=!FH01QKd
zHwV=+P{VMI56c17Gm}c+7nqNfZITn-frkyVm8sx@ySDm)Sw<_h4zfrk7Ogc2e*yeN
zlj!8~L?8u>KyDP#ET|Ndj;d`!NktVBkzZ53E5@@x4OVrMPH}lQTft+=3wNpQD$0eR
z6LzrsPRh^Z${0v7&cs=2rCL<pFLIfxIGFO%-Qa)M^!4IqD!F3336<9Zbvo0#wp@!p
zMQ@P6Z`Fey&m9ut#y37-WR!7<nALIo9~v3Hpywan!<gUrLcZ_|vAx;zuF{$`%bUrL
zNo#OTkZm<PCWFEH9qif%<z%$7+B%t0=x5eFw}VOeenJ3}A&IhCKPK68%IG4&2FdW!
zNc0k}Kfn<-$SWip&acEr&R(3j7!&4bwGzserw3-jRrWaO&veyD*!L2ymXNHtnqoW#
z)=4yE7kHGKx8xaIBXnlf;+IP4%8J6aOD@u7lTWqC8!Ef!K@O0+AO@5rf18w%#31%X
z0(Z;?K_0@W-QgoR(W<Qk2fv4=fT7~$s#<aPb|o&2E6;lCll94ll(+fn@g=)wX8*OF
zsX$jIun`2){Gb@va>u>}>LEr`)?PZjX*x8sZRX<4xm4}0RO7}><94xe`$C`CxHHuN
zAxs}&q|ubJZ^3>U+Q(-tr73UQTnM2dlW1tZdLrc`63*9<@wSNGmaN4;+cmdoe&a#|
z1Flz(<CbuXGwW~8_&Y>Dt}zEn+s9O7{Jk0fLD7FO?LQ2wDESF+yd&e^F8a}og%{KQ
zzG>&8zcG1yep}kVll*}<thcO7?!dB+_xNX=-x^GMlkwRxs8apNQ*onwS<ibmWpQU&
zWxEJN{HNy5q$<1Rz@7~sQ{;d0l-+<8m5jFyS3#ydp=GNP_n<mBPuYE!g`METMeVrr
zOl>i1&<@eRV`1<;PujotnsX_?y`ScT&~A{@xbHPp*FC=@RonO8i+8<;X?*;^;bjbg
zP5}uw$RQiv1-l8&5=Jq;f*9;3M2TSrT*fgAI%EO9@jhf*1D}rUY@bJ})sG5)V`kb-
z)VG2iLdmT{D!Ft>muxu{BPU-2B7Q~LN9;g^9mS9jc@LA-@`Z{#q=OJ=+F|Sj+Cb65
z&R4<+PO2gWnsSV9OE{Dr(~-L$x+tF-D0hTe0za=orrfuqT}6(Vs9(q+RnFqKBVjA1
ziIQ-r=^;aU8R)tV@C^36F#yndL03=KX(ok>+Z>iHuUbAWED;z~vk5&YTW06|4pqfy
zVp{k)_$BMu!alle#udbJZW1vdMF^%0sn{_(npiTzqG4cCDbcJlqNOSsLwAB5-6N${
zf`1PnW`$WQj-0auivAvrWT2?LF1beZwWkd2K&_rwGDGL@jv1G4t(n^^y1O#2?V@Y@
zUDpm-Ma|IxNI~|6chEVnKq|0#p-c?)rYmts8irwK$WUli4ZzxBQ%9<E_Ya!-L`!hm
zI<q5d_bbL~UZhLK`tI197i)U6wQC`L%9dBdl2G!BSlyj%-kPm~$)ak+fR7s}xpthc
zJYF+bFV?hA9|uYC#^GCsv!2?db1otVdosaIVsO*^RA%#0ar4o1@L0-yJay_cbOZw>
z)5p;mYjws_FIwu89UoZM0ncyV!xN%kn=%C0Iu4PJ_kJ2Ma^NS;lmnqL;qUPaR_(+n
z(LZ$7nkl46uDp=W!81dQGb#|?B@m-XvJPJy$3;mKu>V8I7sdwIw){@Z1s7*uVT@tI
zI0YLy1T6&G7=*XTM{Hclf>V-1=Q_v76~1kBWPIWRZhN6PJ2aukI%NyL@?|eXyh)`j
zm>s!}bqdk5xNw14yOtbme}oz_IM*@xu3u95V%Jql)%lT~EH_vsVVEPs2b8hu$Sfmn
zTN)o8k=fZ&d0t3oPQgW>6TDI@i)00bqnD#Yu!ANjjqPMtosLY(Cc8->B)R0&nv#q_
zDq@mvRcNPtGc5^=l*)6pb~52dOd!xCUrkK%qE8mVtON-pC6X^Wu3BA3-f2_P8WTth
zKnRjkPfi0Isj^6>;Spx`t&!rLEIx+IUU45(l=0OiKMP|W+9~s$U@GohbZk&)rgB>-
zpJ8Zp<bnYH1D#o=1N~rQ!Dbxe(66CXYsvXK%@MNsf+M(Wd`J;O*5&Ua-#Usi$@cPu
zZhF!0KXF>NQ8h&g9w(=V972|5slg8N?I!0#D*h?*{a@sJhJ0Tj=Nsfm<ot-7EIEJ6
zUMbz*k&jrTQYmKL2>2F)YBdM9>M{;1>0HUE+$r)A%_$K2$M7N<ERpVuys!4cCs}$i
zgCI!RDRdwm(sQvCc2wX6JP+K4w|~er{)pQwa+^Qo0v~e0A8~6$Zp~kDrGLpeKID8K
zay38VIzQxEf5aUXxuYL)oBx_?_>k-QkUQ`p*YzQ{^XEDPue-;=`MHhb`}m*hOuX)=
z962Q%zvDx$<44@izvk+H#2pj4V;^$OKi3&~-3kZirw)#9Uo!cw>a%5aSMAfM(p+7(
ztW)-Nf+yG7anESu*Ja&h%X<7Sc`IidXJfN%H%`D{F~1Hl$z)wI!*{=`gx}969rro<
zg}BP!o#MRrO)lO<f%sW&Qo~w!TdH>5eGb3(ALm=~*03dobGr>E?{j#&f0{q4Ltx{!
z)b_{4##8q>dR>0jpy%7N*1BaqewU0jQ2OQDfPJpt^s&{+ugTi#m-YBvDs4-_T19E!
zvJr3K>O0!znnZi&G9`lKz!X@qldp}dZ_YM{a0TGU&IZ15skA8>7faVJ8}Wi%U_E+o
zY+JU{8^jGYvymGwFWc$Ofm`aADGR#C<V#hwiN>}S7vAq5;cI!%%=(*KZ*0BK!FzuX
z|BQ}rnO#p(#rqujmlFm~*OubF8NOBITeF7xthGMtX@?~{9W2xjn)n(yd8%d0!kQJ1
z0#@vZTV`>~hn%H+^{nv?$1TS)2k-n75Dn=UwtOedUf=iqhnhdFS)rKaHI=+~u6dcm
z&wFw9lX~ol6?$FX;^H@Eao%`nwrA$t4cD?B?@RdNrrC?QUA!^*xm#ZltGYxl<Rpl}
zAVYLzCZB~f*{6GE^wV3u7+$ebNYh###zkbojUN6bhYJ^w^OeX1pP77+e3ffeSt-QE
zRo4|%wQQ$g*+Mq?z*})IyU6EO<v<>KD@FZZe)j)cW6Wn^5D(baR0l?&_(wr?M!6fn
zI0~H~Gc)F*gw_XUpuht`(FrNQ%LOtg0xvcP@_{Zwx0M|v44Ie%vA94dbaR7Pz#9M{
rvroJr9v_3E$_IWB3wR)hzz2|RAeV4;sP^l0>Re<M{~`<&0_S)DLL#CB

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/idefics2_vision_model.cpython-312.pyc b/model_executor/models/__pycache__/idefics2_vision_model.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..677cb0f9529878e6c171a20a61a8355fd5f65b4f
GIT binary patch
literal 17722
zcmc(HX>c6ZonOy=&)^sUgS!EO1cn3#Bth{qMTr(En-&QjrWGwjc{rSI00Yheb`J;w
zJCL-Ak_F533f#>W$+aCqb}9l*RSDWkN_16H)_zIk%7?`WbY|3{D@?RbN}mD=aJ+F<
zYV-TQK4t(mMVIp-4dC@V{_lS8e>eVPAmHWjr0w5J%^cyl&nTfk4lT02VBxsyoWPB6
zf<>^VEg9>G)k1Mw+BRat+n%;%>?3xT=SVv;&JkzEHR57vXWE_djCfewmG)+QBR&>)
zr~R40NPxvX>0l-_63Wz!)MRQ$YFVB)U6-jJsb_ItI-F@3X+YdB1k#O}rjaHKXXU=Z
z3Bk8GAtc%-cI$(#yzki5_((H@tN~>0V<1}?WE~*u9|PISAj5!ccnoA4gKPw3(_<jp
z8Ds>I&5wcXn6X7$W}9A^Ig^u;<NQfM98D$Vy?iDoi0RnpH1DWIai7eKQsR7C97e*L
z%|@+CPzQY`mmN)wDPcYRa!O9+vT81%>rPLl^Qmu&3E@~iFJ|*7LvGKQn2#eV=cG96
zDn6Nz66v&<j!);Lv=En5vm)TU1eZwW<D=QAO$k4fOHXC8FKD2rQduz}DYY*?_wv@P
zmvYmavuGqQP9@O)Y=XvMjIRMRPGE@fX)!f6o{y(<2|<)T$2p~mw@OplxG)))#}kqu
z3h_&9a_W$i>Y-3WkCs^fD@6VjXI$h)EI8*@!Gd#b744(ed2STv{4M{8!@~()!67;)
zg4Io^alwiF8k2k%^6O0U?Xxb96Wk~bKU_NM7Cdh`Mtt+!Wy^^F+g#MAL^f~KiOhLX
z5K`GOIdRs?ab6zJnemj&<2OOaAT^p21^$vK(YErrQU08q8cU}pV{G42V_EDKOMjca
z)a|dd${IY!=X1Q6r4z)bGKn!!riLyhq!eW_5J{A=xwJJguQmu#>psbL48xH`J|QF~
z^BB*ll*{n1zL3b{&}Mu27ZS+}hxy^e%c(Q{7`8eHwHYaql}B?@MwEEG_(XPwKPFF#
z$vpoOwTldaf63_lwZ8Fueo{U>IGB(wr!K{E(%4|)ygayfX!n8G?)^i%_eEK=)8i@h
zj1!ximifFSqN(hdKDShs&yR~KiO(YY5(cgICmH=sr}E>usXRfk*0Lg|geAfv;M`Mo
zhLU*mav~%0qp8aPpt2Z$GRxzx<WtG1bVBOqrvZ{jT3r#n!JL#DOJx&jeo_(#@=^jf
zMc}bPr%t}0UhO`00#h=!qOv2bp8+-o`QjATn~hE_kFu3w>(8h1{P`J78|~7xaV{!t
z=(|dj(RNghv33+^lHrOZ&YAJx@N$G+*MEmA_m`IIT;3?UVl8mr2kE$@<yg3aWx{S0
z8<7GRrxw@)2)7=uya8d<0|X;fl~RfULMKvOKA@MGT~O3Fxt;}X!l~D)ype0#mszf0
zdCz)B8v{n8BNU9xd`4z%%wlCx*XR><O^||Mo5dOd&ZmzQaE*Gr@&<%oPgSi+i=J0`
zqkg24(qqUqS(7{3?xS@B{mpPu`>^7;lt`z9s6+9kvhn12BAXS{vf{@@sib@tL<!l9
zJ}6E(FQo)gaZM%|3j3Uzj)oM6JT)mwiaQ?1`OL@Tif=q62qIysSyAzbg!1A-Dx-MW
zu~oCZlY~rIT%yCGI6)&W?G+S%b}CaDKu85+Z4la2!c@#MMLCXc(E^6#tIAaZERmB_
zgx+MuV_-+6Zc@vQ8x4Za*<~?3D%H~<Jn?ukosi{tT&6S5^Kbs{9}VU+lY^6~$pPGZ
z(8qzxQwI(myl_AqOsCEdPR;<eWCt&$)0sh)vWl0*<WxQ<sY!Vd!(%jl6ETZT&PeU(
zV7BW~<RPZ7=3#)z{}#dDzscQq2d=n^?#MlNOS!qT)V!<MyldWmHCS%pOD(&KEtCjt
zO5E@4x;1lirX1-gMRpY<yUNY&w>oZilp}4oLN`O@`ljnoU3;n=Zr$)XdGEaap1W-=
z$Ze0l`}{l4FXume<AXPfJ<n2hSGl#b)Vi<Ox^FpAY&}3(k#c)isePc>K0v9K``tb7
z_P^7=lrIe)D-Is}Xy1Q0`Zq^cyI-2O|I*#Lj`4HDihmNAH66#nn-XOutnO_>XH?>u
zgnU8q<j3;tSjdV~67y41HfbOeG-4pIXOVlIP!u)2<vEM8Is2Sr&N=78wWvmb8l)Lw
zGrK->Zqzr>U8NiJYoLs(T=yN~Wbo+kIZweeVO)H*j6%VpLrfUxuc{P$jDB(Fyagx5
zU|ik`6hl8WzekkK`R9E3S{>e$n*qu<Ls_#Ju>d~m(WN?%J{PF!!3?R{3%-JX7KnD#
zD%jt17_$oIoAr?utom9U=U)4g<A^bu3(eIOY=2T)uoXfCDA*~StE8<gU6<Wis1YFH
z{8O|(%JL>!^>!<7our|DjoQ*zLe*8x$&?2aoLHM$S|wv0>VK~~b(`vhtLn5>MytmP
z^@V`ode3e2(eN1f@D}*SLW8z8SbbWrN9-qdr_eZya<h|atX)%~sSs3mqfj%^sgJVq
z7CibsPIOgr^_bocgjMe9hMg+}O>Yo4(XH30yiIRwPo-Rs>HW_I3tr51o1R~J7lJy>
zEbbldmKR*QcUYoBBZUx*sjzELNsPK#K^=&Sc}G)e4RMWq?(6y=|K}h6=Tm1Ou{gl_
zjpslA2RzYwP{Q#9XcCP~ajFuI;t=vPlcHkH=M>jynjt&jIAW7Qj6{i6N^yW*B*zse
zB(3b2C~c=a`{-0U4eAME24OHSDmHm4qj=6wB`=5&t3<_qDJ4!Tw&diL6lEO>;-yql
zj7FrLNJ=pZ1}PvBTk)PZ=&fRjEAC9<ay*rZj~lUR#jg^$xH@2e73Gx`uR$<nrH1Ne
z&l^;D{Gps_beEgT3XnK}=lurNO$i{!>OfM$WyLoc$9iN{yzk%CVs&a-sUMXfm4ccl
z((z<2CkZkJZjw2zgw*w^KyAsG2KSPa;~0ocEEI`fW{=cQYvzIkGYv^}))3UUid!)a
z;yHlJ-8eCCa%+BW;83amXc52e=)8B~*uv$-NV%!C)U>PEw5!y#x7f6|)O4`eba38p
zWG|h1|M}a`-#xY3e{!|yTPSGgDm6rl4bi2p)rS63!~SB!{^g5zkvKB%ec%t@uoL|*
z`g_Y&@ihn6x@*N9*>H1>t=G?9J6rY#7VM>(Xc52u=+e-#W%+n%-{~TLcb{IjSsT6c
z-VG-gX}>;uZMIz3w$c$>*>kMeacrgb>mOg-uvsJCc|Tg~-MzB=_<!1QqUi6QKe_P7
z<xpfL)Kl*4TWT(L4lN%mcJ5#BZ%SVCKj_@~(>+UxrG3TD-K9>1`&Lz`olARezFz9w
zQ|#Qc+Bvk~zu(=<_=bzieRq$2<S!mMwc34p#ozhJ{Elt6ayN73nr(|C%Xy5kGdTY|
zCehjRaQ2#;tL1-eS=_hiD%SKZ?JMm%Uc_(B@sHjp*1Y^*f(=*3zL&zP1;T4i?itIs
zEc2&sG#CBb7N0Bi>?`){TYhP^=U}PlNU`V0YR}P6{7<cI=X#&DtnJ_;J=fp3_Qqnq
z)O)npd$iPhqS$+))O)Jfdup}mG`7!Ow;+@n2a1gYOX=0duNB>2oA;JO%`5I^X#i*C
zwq-aPAdWc;c@rG7H%>~9sWip?@i>IRv{vGZ$Aw%n9+!x>XFQ|yB%Mv)vrwJn&oG^i
z;{AFqm)7E*lUY66sb)zdR3V_Twn-6)EPmS}?Lw|h?8?*Zv`a+kSU_iAK8N7%-{QWo
z`W)`HmXPDymX*$--*6OJ+sO^=`NFf)(ej|Nwba;KZ0ucgAcZyT>?w7`iXE{v7p2`?
zxS9CN#WThF=o(d6^K#zM+ih3ce(OVuEd}c`iQbIIr^VJ^M`WvV$HUQ&;1g`3U9gJ|
z!O9deQ13vM;}Tqgb=1pLKkl~zBT&bP9y10<aGB?i+6C`h_9_LAUuoLRp&M$o*(aH*
zZD1U_Hc0yh7prOpdJQ=Kq|6^nr};n1P4UA}JoG}J02(o@3LJiHbru4bs?~Ese*mR`
zQVT^vTu9^-hMrE^gSAL%@+w;&lDmm9UEhIlizE+*ajPT``Hu)1d%(P!NQ!^}+iXA>
zQmvlHWLTpf$g8R3KVitQm3o?-OsqS5P}hWIMXp(0Vopr^x^MvJbw`CI5-jF$Kj0W6
zYtlAKY(H}748cF9`X=KN?3(;;F#K3Q6FDF2r=MJ|V3(|dBkQR!xp%a=&pFKJS#Zo^
zZ3X9rK3qQQw>UN$lQ9Dh`-r{_u^~@_Bzw%~Z$7I>jKW&5VO3l|vKH)MJhk0MZ^Rn0
zCvUKJkL=ClTnL_m+On6m?5k?o5K!{O_OJ&nn`=Exb_cK~EV|AzW8@^)vj<ua|M2YB
z7$ZaK2tG3<L$N0ELW=avq%4J&jdTZerDeWvESKlc8Q|v*^RsnKDR<6*p*(9ertypq
ze$F^Z#yHM;Vizx5icd<piKtB)#{i@h0>vw&WKzP$^OI))L&_F{xoubM=Tix}0x6{d
z9t}$*7pQ2TCL(oEK)kn7Poprfjyh(=V+>7k(=1fA%gZEhpOB=S1P(QsNQ+8srJ^9^
zCNT`fr9~v#KBdWMh$&f^3X~WyiH^A9*5@YC302(sG$gv>iXDw-qb`*VWurFcFOjsa
zxbjf(gN0Q|5Y<t6us2mg#1tc2SS|yd8hVjGMm1Rk{eoU(BglDzhGwL(4QdeIW(5gp
zONNTgLrhx&<wx*laH;40*zH&`au9ievM==ZlUJU+vG3N=n@5Yj=+c?@zkB<;pZLCZ
zzpkxZclu-DZ?nJ1uAF{tjkA2$5-x`$*N3kSuhef_+`DG8)b_61Z1ur4&K3xQ=ry)n
zf9=|9i^q!%eQ4TSZfY+z4HlaQk?{Z5roL-k_hK)t#?H*U%AxwVU%&D?n3GWN(w<L3
z{VVSNl~8}Vch|eGzw`Rtreg2Yq+03uyGXR`uX%g;$}qi7UpcL(nzxr5+ZJBA@kcB5
zz2&C9jex5eN}Q{KjT)|brw*jmtZgVi61<LU03%sb^7j?}eOQ-)+XHvQKX3V23wXo^
zwD^4wBh^YkSM22>kjR@9%S4(OIr=Fg(93WW#9C~53WnB$$@tbeTfu6kT_J1bdp2EH
za2D;V+8nf6O#-#n3-*Ge;MA`?)A$&qrZRwnOGosqZ#VjOL-w-|e@?@e_9K8iX9Hr0
z+NEiv6i0G=Dtkeiq2kL_>`{+2ojk>cD<FM?Vj$t7G!ute0BfRnFNj9m&lFvHiH&ZV
zkM2esvB{~tOa#S{KGd^MtlDhnBUlby+E@Y*W6&UNxVgH<>+RRt%l>9;R-N~XbKW-p
zB3QA#Pkh+?LG#@`A9XJ`ukJZfbjRlX3lod|D8jKzT}j>WFHS7?uLhr*w~<z`{bu{3
zyxP3$N^st{@M1aCvf@@5wA;2}g?ly{kj|o8=`{+zOF^6hq7V|1B8aDX2}lf#XoX9a
zl2lA{k^~Aw1l26(7-dpG%PU_%0G9Jp`!~QQ4jm{rM#|m2U-))8ybo%6)*N_a>`hUK
z6pe#xE=q#E53hMB=H=S>H3EhB<qiHOK(P^v-_iP@sqK2<T4BwBII3&hrwb{S`=s7!
zl*Xge@by__Rdb&j=jnxc(Z;w>3*$VA2W8x+V9_{F7dTHBOoVPT$^<UeG#{L&2b?E(
zSC|fc%yd}0`52r&^@7SYRuKt8r(eMuMsNqWu!dkizKS)>yYz(slS7nX%cI{R5LV+R
zR*V&>V@9G)O*mlJRF=TXSOQxWOJFcs`3Ajvv}|SuGVRZ3+5S+=`sQ+A1{}j@X6>=j
z<Q^%5URZQ*)W4PB(pVI)hWDU^Py(chxJ0(aEX?E*vB``oE48UC%=Q^kNC6Qr`li^Z
zbw(l)+k4yjNRp^hLb^;0A5;^<mWNJ(K?3grUcQRp5hU<_d+(C7)OV=ZcWAZ!u&Sj8
zq43w0{2fJq2aEI+{XOL>+Hhv!DV36hiITWMNy6JJfJW6v)%d<!y;g)HH_-<|vh=r3
zSN->-50*L7KvS(PPlb-m5z}s*#0ppif?<1V$?|PZdKD1h#}@FC{)~caYQ|2A)0i1b
z*K9w06-sV?co#I)&njxkM-jZq!A5fH;LU@Jr&n9|!b&qAShxs7ODVFm7}>e><Z9&5
ze83DO)VAVoQ<v?Zp&gvTEtu9oveG;a@d^dRBr#3E<8bWv2#|sg@h20i1C9metRUEC
z4Z-4FjbJIMB3O#42$o_hf~DAgyQ6*aJMW%-=j<AX=(6}>`h)auDXPwfdZiAHN56jm
z|8c9~KXW3Rgzt@XDlwzW<c~$Kv>ogypZmSgtC{i|=+ijXc>~=Qbd+deh|79MlgG`G
zttqNCwE>$W&kBQu_Kh)Aqg)L^t7x=(H2OY1&UXKYj)qVsdl;IY^~T6T%XG!JtAr^g
zOxy;~CQiyg-<k9zn3OiuQ!j@hDlra2@fdBW_GXW|<#1I|f@#|Qcoy+E+ERR#^d5F~
z6dM|^&fY8iIr@=J5q7(dDyol`fwTWJ)w_Y<A)H-p(7oTh8%Wn+*hg0C`^p`I8y-gs
zVddb4pKI&5b>!xeCHwoq+rhifmX5qwJo4hbR#;nMn7v=$Q(c=-I;*Uq^slJ=OLydP
z_*>)eRowiQJU+wC#xci~wWorc0f8gWEHQ{NZ2y(GoV93hD0+KPhZu6j<`%(5S!Vya
zSLd;hNn`S1BSpEJ<Qcy29J9m3s#L4zqMIvFrIT4O@4CYfJ1XQ}#Y{i^xjtsz=;vke
zVmvKo`*}lw5Iv{4T2UL2F@A*cOMgYdEeiex0+1$y5-DzSPZFRBHX%oCre{o}Nb6`x
zCVm^@L6{47&AS;D>MKV2mfBY%2S9~X33zdCHSz>f?uHwYqPq*Rdfpt^ebc>&s)L(=
zA4|7rFPU)ghtRFRq{<X1_>+l6+e)_@p^JV{)3N5DNHyhRX_a)bs7kw7R3%<4y1UNN
zZb%1+S4js*sn>w|-$cQ5_I91Phid7791o$F4hdEm&h3KZhc<BfcIcUP4K-W_HC?p_
zdTOueh7Q|0>SwxY|68FEj}Q>OW`03}&paOzLl6=JT7bk5z)`PJLR*f-?9bR~KU3wD
zC#v+0hsIe>$;^$8oD5Y3bc|_zROcObu;p_&$m!9FcAK@Q7RC4z2{`4c7a#?HL00za
zxh-QjMY#3cYuef0d<E5B4;#9kXP6qCwKFXJDOUJdxaYJyG^ltE{*mO0#B^$m3@~lF
zO1b|f>Qxmm#kr1!=uO0h-s}Gj!4~NV-X32i9TjYE20%;+?QePJoLNXSbIuAeH**-P
zl9ZfxG~9Wdd)t+?j)7Z#4gM2zuDqdYW$b_*>R3y`^#krlwt@pLYZ^;%&3ZLrN1ZuC
zs{tZz$ZInwv9Qu<;FRH6cTC$d={m*@Jw}B}l73F9eQ1eQ8tFaFj8dm?P+;k1wrO@F
zooaKsLZqVO+p_lmiW>JYV3=Glt5OcJ8iWGrsTOn$Pg#v_8YHt0D<#uuAd*>ErRjU1
zYWg1dwy*dG%KVNJf3S#OfBOUe@QT0v?;0c5GuJW@VY+))dJo>~I<y{g2ZCP&x$eUY
zCpQ9I?e=oGrQ9`8?&!Jk%Hk_asijv}S`U?X9Qa=zM{OM#-R{F*P>pq)w~4f1zW@ED
z6-h?+|Hj^WtlzB!QbY`7)t_v$MvQifowKJAAx|Yn-w@yW!0QEPa?WPu;O%1g!pzwV
z_Brd-AUq|kM8^_;j%8q1gBEV{J))dV1L6BrN~RhBO=#Hjld3sAJ=2exavr*3B4U&9
zeIpmsbF4Kolb_>fV7N*qvV3wp2ZsgFJ!25mEj>a?f`e~*hE<1(T%~zr6_Z3*v}E|9
zGkIC{OI7Qrq3-$&dl%dt_|z!tZ5k#q_|3xq7ziRS<<dM|cz!%LO;i_oNaY_IMfI3d
zSplvP@U_jN0_K!Ul2A^5)k!RjoQJm~bN6K~d%f~QZ81@v9C{762R@z4U6`8WGYL3B
zUarg}YLRYZL!%Cra^FFm36e@c!?baB{FQ)u3pCB2Or()5L6wYYSQ_;UpwaW)bpB(g
z0D9iSHSYisZtuGF>JML?KmBQ2bZKC<?cn_Ba$EGuX_&G*qM&0n?S@3jB;MdwiIVB=
z4DzhlFyB9fM*oCnOM#n)_!c6}WbA^;I06B4&DF*v$G!ViUEY@=q#4Dg{3>0Z3bq}p
z=Xbuf=A)FKG<yMx1xd3<71wG=vsX*8Behke8}TaAjg(5dX;?}88IP_%TK^rgs!2D<
zc9=BI8sWBsaN9t*?SiV{bAyDdF%L+%7sT6#w;$@hAS2!Z5N|hq&obg+rs)QJ*J4h{
z)mCay8Zky?M6^EqC~Yw^jmW4|sKu8BL7`3zi8Z3@5m3y_i#)vqzgR1}C<Zp69&AD#
zV-xCuNg9<c%8V-ZVEBwicI^_Oa-~)hFHYfh$Kf=SX97|cW!-}I{~8slN;lD6!i7Yg
zZ1`Ju!hpGj?s^`kyJliDbo<cvR77X;jI0=~^M+Vjkq1z2Q0py}74(#7D@1MQCRcES
zih|Ocm=@>URU$HHrj;~f;_l#r&|}`_h2vPd!HTh1fNcU}v;V*Jg!+z6#%(*+!Y~@c
zK;2t098Zv}yyYoitta>`nMl6p)a^28&sd)suBx@}hiegDq-S%TsEc?L4N*cQ8V3YB
zc$ITB+i?b;Wf&h=Xt4MO0_0{qA@j4XDhDd}^XDOz5wW5(D}tm6{H$9mj7cPNN9(H?
zAEq8)M|gsIrI|>lC?Le4xU`NW#=_Vj$uTr9Nd)oN6wr~Den7zw5#XCGc)aIR`57h1
z?g~Tqq)~`^w`zUqW~ptYD8{-clP>E^<&nHdsuU7oHIvk>bJwaTTGiDx*rgMMi#Y_u
zE`_VvrEp6ryrUT2G4Fxd5PAe(xoa;e3_9+&>|Nf!+5#2v)zJN>9h&l>_n2y3d}XD6
z2PqJIPPl`?h6zO6zOB@@uh_N^{!I6M!TJ2#g)4<psJj^IUiEET94+lQTHJB;6W>v0
zJ>9*s=j$uGpMmN0xMkq}!0zSnhixCUmG&Gj?m50XaAKwZ*^kD_iu!`3%8csex?!xv
z*uL;{HC-DXE)aVA)Rj}^nr859rEs(uj&3-}-fH7KfnT~?p%SSJUvItE`WNkM0X2)!
zfuwfvu%H|*ii&~=!!ji_<!*U&HL-;q2hevC$(hwkRR}9#`bth^kPP-fo{c?vXUyQU
zv`Zw4Ky3_r+#6TkSaEl#l*@41+~oL9)S98syNEnmflfNR_bi4n6qnx2{atFxQ+w=z
z`P5WTr(g3qN46FaW@;C^j@Fo0i=ji*TgG)ayldv11t*A)br?Dh;$<qXsbHPhy<_))
zh_v*tDIj&V?nJP;g34cov>U1$Q<YkLxRH-<(&*5bwQE$xXKnfBqWTVL9M?tKoO7tm
z+&N(!rEeu*J@0y=+}OG1;+p%`IXg`40jR}cHurUX;_JHKap>;A$Kk(i`$gMo$IDlq
zf6&o=D}6H!y?@7{`RB`Re5q})*fzKvT5Wq8*QOleSKK_?aK)v%3U3x4XzXmi&x2fE
zhhMT_`7uO@ym6kfCse-W(Gjh&Gq%c3>t%EHDl?y{Z<U$wYP9GmSRk@|ra9`<Cl*fg
zj~MhClI3dT5im9bCV=?_w@d~}*>ZLNBkCHbPuf=T0s|}|^(~KJoI}A$Op)FzKJRcB
z92d^wyjiYJ6s(xn3Cs)YI_H`5&iUX*?!07?{TQ2x$Coy*rY)TziFzL6{x~7lv0mr=
z1-}{VHy42D7by5aa((*EwE$UVc?f?--F&OwPr)y^@@;xbuTg15?-^h4+07jF;Vhw@
zA`5r**XYBJo9V{Q#NC`mvx@T~^GZ@I7mb_?TFwO{NA+$}ESF{-<Z2X~4Q(cT$k48+
zu6<A}G3IEm1U7yB3&oWk;#yv*A)i-)`8;Ms*ivOU6^ME1-(W~8P9RB3@v;vvW%{U7
zrK0asu0x(or}CPA5yZ}PA}LD$o=RLmzwo+{BsyJ+4d1RsgDOe>ca+hH=HODVbt}Ue
zeR7gMH1omdDUp%kK}AMi_MNg0qgw)!@Nv&8b{e$-q0UVDDK(96+|UH`@l|}<lo_y_
zec%l7T5&KCHc*+yr(vsVq^0<&bM1p^d3ML6=}a};KOq!$0KuEwmsUr&7t{qLvZ?jP
zzEbP%V(V_0C|4VY=6(0OxBq1OeBgd#^NpTc{WtqdEd#}tfz`&?yzjGZJB$9#`Qr-%
z4^#?uWBOjGw_Fn;2{X({R_E?}p*?qdN{3(g<nRj*m)vjbT(rOIeaE{r^pnuCrO5AH
zZ5vwfl<V6TeV^3tDu>%Xd*Zob&7KACjpvpk<@%0Ap;*6jNhrmRe-b;6V))0C_r~IL
z%Pp%-M;7em$Ts*@MWPFiGQYjV4;A^Lg}|pZ?Ki~5*OtF|uja{5YZ}%<-2PLRwK}f3
zM}xi3_bxe>-njSlcUJkA4fuOCLvWfY`P-o|x*`11zisUR*RyNw;6u{0b$A$#c)$_W
z-Y+CosJd-BeyUA&o?^@}`!k9?NkM{w^Asd07@>gBHop0onoNt*FDT<v3Iqy71l1lg
zA5bO*$7w$wAfju**Id1jguNVu>+T(zd|ity<|{)*Rr0k8sms@tf(?jY3s5Xbl6Ht<
zHIzq9VC^7j*CY1jOBRcx6VQjAEcfsJ!c*huLc6+`_j0({@x+>oGPk&TQ<m=Pz3!t_
zPcLl6-(336^3Yw!&;391uM8b84xGT(g=-v2J|6m5{>8!HQdH%EXv)z}=3}IUk~#dV
z0`~of97~)}vh`C}*A6gcC|}WU%j$RXaxA5Nb{T`Z2>&o)ihT{9#g$XP#*~QtVctth
zm_FW&0Yj+&E<r_BswZO&D}u`=bUu(SL_u|q+|IH$f9|Q{xQcg(MEsD_^%byb_8%2g
z7ZM+hhxkFI_bX~JZ*lE^DyVK(17^_b&=}5=VjAMX$Np(q#eq)pcZDw}F<XjL)$ytV
z&=`&4dlZnKmx)5`^xfvvZRw{P?jvX)-zprH{yUO5mz?}#1YqGUmM?a2mX2R@J)d#@
zUvc5zT5T5VZ@ipk-><l1zv7Pk)@rv{zu*v1<~J<A;-3FCH@M+EX|c52kmy6z4UXa)
zuUL;*T5p`cmAaYQ;1Jz--NIYiZ&+`6ZhAI2L^qzb>_W!gTZe8Q+Tak~IBPj%X<s;h
fJ#`IL5Z$<J8MRp27p?Dl-tqhf{|v&S9<Bci*<P??

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/idefics3.cpython-312.pyc b/model_executor/models/__pycache__/idefics3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..293018f11a63fb995d2247d27fb88e8eccd00c00
GIT binary patch
literal 29966
zcmcJ23v^pYdfvtR{UAYr1PPKLDT#zgkrJsVMaz0nv?WoLY{~W-YZs=7O9>P}(ifm5
zvEZ(E<7A<YQ&UYgqLS?qz1ei>+U+t)Ps>dot8GqCoc1)qHIxFmN6u=q&Plef1Do7B
zX-|`W|6E)=C{Xq`r*p`;bLV|${`p_?&)`4WY-SEFs{O^twpTdr$Mm8&V<E7fQ*+#H
z?l~^Z1-Y;)td6RJDm*n&bxae~#I!+eOc&ItC`}vH#|%M3%osGrOhFTiQ%B7~GtzWX
zbIcO7usD6x8nXp$F?-M+a|9hRXVA&w4bhrdZLpSwjZs&uE?CFHrl>pS33^!A9IcNv
z1RGe`67|L!gN-a~jW)%6K_3g-qRp|EU<(V|qpdN2(9gn-Xj`m3*dFT$cEq*?x3M^9
zbbD+^a7U~&*vZ~&qFu2-Fc8}r+!^Z*cE@^xJ+WQEU9sL^FH5hD_QiGwceAi7x+m5j
z>}TP+=s;|5aBpm1a39{?VNY~_>_G4!3)e>v#Rh|evBSZ`v7z7)i))BJ5jzq*!ouF@
zld+@0qp@SbV=7L~J;j9^-{8Vc{N8sp@+<_8vsfQuo6BNP@W=TR^9GI!4)Z4dWVmGr
z*;&q3<n;49i{(dHY#U<R`Q7}87x{{5PqDNPq;2B^o6??UY1@&ugSSlm!vai{J&LuQ
zW;r{Nv+FZ*o?$ry$hq?~a*nDw-aqwgWz7|W{L}mh|I~ZkO6#n~9@Mz2dX4-LfB0RU
zT=?BW9l^01>Ok-O@l(^2yueRS@VjQFqc{Ag!u(`pB0k`c&4l@=e_|#!JD!MKit_$z
zk;E1M({q<EN2V{2j87nfk6gZzi1+@4Y8(q_B;%<BFN`CvWH>uMJBxgh@dE$q9Mz6w
z)3NF4nZ$U44@-v82xW~*ri(Xb`D4+@cs!tz)YH=etz<nuo|w2Y!jC8B1YWW$9Xc^H
zJsG(yd6f54vGL3Nd0}RPkH=>OsYZz}MxjFU^U-KbE{Heh@$oo6JQs`II5(S!%uG|0
z&S&}AXk>yqH5!@b#|6YWMrSTZ67lkiYM+@KpH4*PF%&b?#R~1`$MFqOK012#X?{G6
zqV}_M(M04d4c!_31~uS1``qZoQ)kZ&9~%uld-ADM7cM^gBF3Ut$v7Sz9#4!9M<x=I
zyA(GP;iKWg7nen!xi&6bj$@Q#@qk)#RSp4*mP{=2LS&u~=%sr4;!>@}FOq60q40`n
z0u0Qcr-i=DU6QM-L8jPjf<_5b9^<DIl2wj+ZZ?cjlU(I*!+c^q5~a`f6vz71^z2+B
zeta$x4f8a*u2a*P`WPRMp!h|88k0vKW0iv!Ca&<YamiA6yD~n@|3n4wLP2j~hWnq7
z#4!sOh4Jb5<P2&OFrIa#&Yz53;=^HlRa~-On46uQ5fbsynP-nlwaQy5FRC?<M#p30
zY|7A$nqzZ`nHOZh9-SFSmnCa#{Kh3dG%H|XT%Rbc9`-2Gi1+b&o8vi91}>-utxyFu
zyf&;RJj3h48p2Dwo;OT6S-A=iYupsphIL_m*zm4aPMTCosy|0bDp$ah#d5~aEN6O`
zh83<@#!O{ySOQk5L0L;OfJLtJQF#{U|C8AdHyi;V&>X}E**nGU@?V-B^s}Ywj|2Mr
zJN?shm<ho@GwF}eT8&rao&Ai=73G0~02k#IObq(Riq%hC8K0i!qj7)NK%lIVD}(;0
z*-VzjT^sbj5D6!)uqeqoOWziHZ9F>1$0cn7xJc4mnx6d$ji;o#BB`!Pb#k8ZL;}E%
zZw|%A<5wm1rD@564-6H$HujELGKNCa<1s!IlFXqH(C1u~!q!me)w%I#A;l01g=Z#0
zApum2lN_NCdQLcz1{1M*iq$1%go!JXUS0#jHpIQdt;6U3*Xh1QY_@MUGP^4QOu#30
zU7tH}=-|}@d|xzjsc-g1;>yf)-)lg6eGGkv`0M-x09ue=<9(3=cJH0NA@rg`<{d{M
z9)b7s+{bEz&X}*|EVYZhqPZ=jZOhd*EuFkOdS~>V?p1#6nR}Xh7cx6frG2Nw+S3{B
z>0D#S^2zUvzCHR|-D~{43-5Pi`p44S#>B>R8SS}TP2<wOyF+(|-f3FBm<bG~n+C<2
z!}qm^g=0$F73+z{gxq=%-rs#aJ+dkc48n~8ljN&_@FK=2K>2So==i%s`Q)IVtswuT
zOw8EAC<8_U&`3DUPs=N&D>fHT_+td?{=^mDf2Ax9izqrieR&S+s6d%7jZa*?G&9Z1
z5HDHT8Vm7+{NloH44|+do}`)-2I#2;wjLi74pPEV^4Jv6)C<Fk_bdYOJ@5z+bN~c<
zIUtx_izjc7-Wq+odnLSjV$GFle<EG?glIl;UwcHZjVh8X?33k@te9N~Qpv5K2IeWv
zZdk=@!fIYSsSRu1&<1q~15@(Gu$DMG89Pm?!#bo9p48*t@J&tFh#V&To0Xhl3qsc7
zo0>-oZ!DCzhHY=?gO;!z=??rm@n4z47_LDJ)?$uY;BVH0NAkIl&sH^`ancyBL#jPo
zS=xZ_F-&TR8sID4$l<73-hlERq&lmnQtkCftwE1!F(M5JyKZO$-V#r=iK6STGJZkQ
z3p{wK>4^fyXR|=upoM0GCha!3<|H@85-PnZNI#ohLaW3~sv=xc^=;KZP+j2OQ4tHM
znMhohoWM+>E0Z9Z1@26+p#-R_HqJ*Ug)?}GQ@wt_zyR<(!t<TVlC1oQ-pzGgqSCGK
zUgvU-u2kZ!>o>1w9bKZM>waKRbevq9gqJp+WFR?K@y*mGVfJ+r`)-rO#zoNcfO<^Q
zvE{>7#ycwE8KlQ)wB!y-_0);D%uDd$P%IXTMq*$Q=X)R1=_>hos@Dn+eRtL`)uq0i
zHnzxXXFFmseumii^-z?bMj$fH0!E4<iYn=^Flr|0t`P+jo<|Ac1@gWCulS)fu{1&K
zL;o8Bx4ER|b!(zH`AJn${Voj!+_WmGS<ocaN!2`nVL_kNeZ`uflFTJFNu82Y&UN)A
zG*^Q%>IAhT=Tay2RQlaQ3k#}gCvvFDa;T64`HMNwUJ^p|JjmTVKw|+tN~+7=)fK(f
z7W<$oi&rO0@l>CBQq89FC-i9qi5NF{k!eX2nN9=@Y*K|6kth&(*))8Tbv!=HPb5MD
z(c(B!BI0V`7>G))kigR<gl6Uv;Ah!{%<tS{_N(N*f(qmR7~bn#zK#p*UUB?N$KvD?
zf4_Fy+6yT|uHLuw+O038ta&|WtxH>4A9%b=oy!L^o}ScG6j!r2^7SWkbxo<058Mq)
z?q#3o-Ia0o-W+-8_N7K1)YUKP5!bLQQ`eh1i2^3a;*O;~w|0s~UrL`d+7{hQHMhK?
zu`#9F&~vr!#pjn^$kc34=^r?O)|U=soE<6MLx+2DF13(0`WQ?~7MZ3na8n3O0R~+d
zj+y9OfgvIQ4f911Bmg4tU?BJ}5C8~rQ$+woM8UmVcrIv@+G?0)L6_7`5ioCZVHM$0
zfU72{zdDS`v?LVXfeWh@F#9Tjm1@DbU_k4pO;zAEX-FEAn)fscpYReOXTh*wq<98Q
z+A+x*otXyfnh5dX%l!P%D^))G75@Zd;{2C*&}eXF0;u=+wEq=axbg@R<h&BlY=XXk
zP9V%DIpj=5YzZ_;%ia7uv85*kVMY+fkuPA9LHH8F!UTC?Ds8Pmw3jK$UfFV~**J{?
zgX$7wH-`whRYG^E*YkU~g7L?d`b9Jo|1vy4yPa$BW$Syy`kqXEZ_1kMKa%Yq6Z^+f
zj-0nE>)i!FUYQoXPo(TQOUrW02bR7EwZ5ElY+a*v+4G#*X3rZr@Al=Zi@KDag3Z~6
z-D1P;oXflHPVYXE*KpoF>zvwazG+M87j*!Br>6ppO~sL|4x!HiG8vL|eg>3klA5Ye
zO3=GCl<JU5eElX@gkd0ELWE)U)h>*h;WQW4DC+_cTpe-=vi0w2t3a-f)<awe$Yvp7
zZvv=Uc2h)oHaWn$t^#?RJ|jQst;laqnv*74En)R_)q-iE_#V)W36p3|AbdQ3`<3#A
z^ol<+EenMu9-%Yte}%0RKVyTjn8K0QAnB9p>Cz4VqvbcRuO2MBNF4n04O)p4<8yI7
zOeG`J6IemO?S9a0nIrPgyv7RxP*yJ%W#xJTp`b-6&_WWfl1Hdph{BV!;LWc{+6g`q
z4OliW#u#O*EG60HWfcw;u%=CUmr<(zGWrmLq{p7u;xtpm)u~V(A6uXDiY&+xA(o#8
zYkuHy%X5oDzkz1rKZ3_rr`4Ud_;OgI4ZDbbH1wrTJ?uZ6?LQ;-pGi3$(i%M=dJnAG
zMekEsqmGuWqeFCbERTtffs{7qa4k-Yj%_Qd4;+C!r!|@LYPGFrU4u{>F;*_HE8BHi
z>^hxm=*W4u=lt991}<<$wa#e+X3@AkWnZ%8&78GyY3u{b&Xw5O^as7858U3{FW!1_
z=}W72vGqvC{Uk_SA!=deOJeI28TXOYh`iEYOMNMAYz7u+^{1_^sgcF!b0A}KEF)vp
z7yVIu|5jv)xCsyjRmJksf*5H5{2**$^*l<0+t7@?Qw~221hyk7pc3Zjp|1)g2_y+|
zcyU4t@`TG=hJ%o5nO0$b#}?DODc|o=We4D~8EtIIdIv@CU}3~Ptr+pf!x->J^G!QY
zq#m>4^epLbetEe@bhM|9?eaL$LRB1*Zu(!p4iDp`di}GIBRIOM$PpyC8gc|bsj7w+
z!3tpPliEqm1x^@4;{mNqB@4_*V&*EiW9Q`fRlY!63o)0YGndArO5FHmP*-B(1vV)(
zU&7yqC)HNwquS!ctFUR1XTe#v;#lQd$|jpLet?SNr{Q59z_e9aS)SIcr(5)Nr!2Xq
zZP})MV$;5~u_4#IBinpHY(9`SHs&0SX<tve_h{O2G;KWkC<qg$!=~nMK0n>!rl`aw
zm((bn(o0BP0Du!mRduoqVenA^e*=O4f+?v3Lyy{$Ch~#vL2t_5EudP|%T2DZtkf0D
z%DP}nTEiNmeS$e@D};2QDmtq10+%RqZV9$qN0k!yr_jg+djcYa?2<O+i-x(EAs;O`
z%F?W5X(LE;CM{EnPC}^w&!hu#KRuoD^SzP?RFkw%)s$r|1d}yN%_@|_*J$U_Q%22I
zZ|<*NCaf=&dGl#4_vRP0T-Y$>dbIY-T+;q6Rak#Zl{DjDcT1&|1OhUS&AW$$nQNiH
zKOMTV5So~YQs~;k5#btYVx(7K2uUqzkb}HylFBS`0kcfzzJzR&t-$Z`uad;cP?w~Q
zM&b!c6Hf?|4x0AM5I;%TKAw>D*xKQz!;*GtCNdqUt%~Ak0Oj@OEUvf9A-0%=H>gP`
zBVlY);mQo{3`n|JtX=Hyl;tl^u1iFqPDPGTS*%b*rBV&0$IBBXRYX!vL4Qj-7jh$^
zSzZXSjJ4>5jCsp_dHvf7yUIf%VBceY`(u!BDcgsrG5#`^<d#%*@JM#>oH%$cXLW<Q
zJq+r1AZ1Crx2HP~09$z5vkiSB$geHe)DN8S(Al&U6P?{DU9N3Udhf8<HhgbRY#W8f
zAlKTL?msTJ9>4dT*m@e`+CwnKpMmm0Vrv(l`TF6d{mak%+TollknR~0T|;T>&__Q1
zw_SHm{rZ`-(fgprv-sMtHm8m~a5paP|J9clRk_Z?+0Nr)=ka^5zQ5-ObLnR<q@RC5
zeD;NO=kZME7t+pcIcHne*(Ex=(t#)LJC8hc)j<@kxnurih^yPPbv<HT&&tI=uIvBU
z!g)GCrfXaCPR?2T*0r10@@k#Uo~vokYw&#Ntjp{0#8A|9<_#1way4yv6GH16gVUVn
z3?}oV=#Y>%Lx;qoeNHyMIy&4$^+_nLjt&V4GF<~(Wndv0$4Hct0k=YVN{l6=K}4T7
zlbSk(kjrqy7D#-)`!N7V+(CI}3m`6j3RQ0jcAmzpXQ$}dS<VjBcY__MH>WJb3N$Uf
zm~GxG;?J=+ZQNTq#HhI>%ct<N71LD2$6GQ2WeOp6HPSCjM9Igby;oFRG3JZO7Xh`b
z&mqlDfme{(@J2*1<{cAM;sl68j}yFL-OJ0pt+d>Ur4G?PH@0se^B36d`24}gOo%)g
zTa;|3*%?M_Q25m~Wa|QAT_97}oigQ0EcQo^hFoo1wswbDyJPuFV(tE%t3B)L6kVMw
zcF}cUL#H9w*A!qsP$wLs4;v)!Fg!^=b7>0F4b!p8kf^1!Um!0;-gA^omzbN4V#}Q(
zXr(YLFEE%T8X)`%dA~{?8@DA29VPD=dB@2k#)f%RN&G+H)863nYL#w8wc^Qh^i1zP
zxy}N4y-L@*Qorh2omd<Gt*O;kF>s7hXzjOl<mwx8tsS2@+H}pd+UxQL3K==4D{rEZ
znG{rsTa9@Oy;<>=w^7K>xjakSTRZctq?0o{Qt`zTsp~ge*J~(!MCF06=RDrLfkH;E
zzA<m2keO>~%UdX9EiYxGnB6V9mO>#4$%QCn=IXXDCq!3w-a@aHB`M~p%BJfm6s3?{
zltN`i=@mt7>oy9tm~_WfIq%Mui=uZ=UPEsWO?LW>C0A-eG&Qg5C@$~m(U}W1Q%J6v
zLS;46t6VdMUQ#)A`wB%UBp0DjSrK}bi%@8rL1$h)w87yaPczN%1pbRo;l0+O_r=Or
zcDQNJhS%~sd3Oc-5z6k3-o%BCVIB6oD|6^senTO@vador8iqG?K@)Z{Oj4t=$e4*n
zh1q~)g6KXmGdG=x3!~`CM7gL!(9Q_Jw^$z`Rsb?LJLvk0xMM*L{<OS?LgpzVC7WCk
zt7*0<Q;pAkl&>byQC%P#nla%5T4Br?%w04<Kaw^A3k-Sj(rQ!$$A5&dWG<rocuAO%
zRG~+tN5;2=$-X6&;IAj<16vPhFX6mW)-H@#L2k*pTW-I6>*eJGE61Q;PMIIpHQYXR
z>r}R`SFG#J)a?f9^7-$cx^pV)+b{a|uinV`j)_KZ%Ch*(lIo$OaVaP|I@88Z22f*?
zAucnOk{L5NBb(h!(2OarD9!vOVnAEepE-NlEoS0zvqySl61F!v$UFKe<EBWwhS^>n
z^u`+6?5N%&g$tj?F4BTAOqx2<-)wTwuNg4+M(FAaU(I%$pc^Z~fK0`-B`PMojY=ew
zqN9of8tx)SSSGJhIVIIF5mcT@Mv3Bzn)ut4n*d1oP4cKtVTwGWfUHeL@my@EntHgV
z1Syz7+C-l3`CM>S$i16D>vc2<{=~|8S}TAnSKoB|#;qIK`aNR(o=p8frFyu2N49>S
zSif&|TC6{rvi@k_lS@1A_TK4TslVU2=ibGX1K7@1w|Ft@?iStMIZu18z9ZMPJ=Yk>
zn>bI;I;Zp4^Oc;VtWhv;BB26JO&P)b4SFTfQ1FoVPslq;-ZAnRE&L{h$b;1+7r%l4
z(L%khYsIjtS-r4o6uS=PIlQk;tkWakz&&wH^|7f=XMPBRr^6GyuWMQwSk^2Z6kX7Y
zQIwH$`<70m!SMU`h;{v|7sa|mc`5`XZuV_h5RyAVO;=!QGa|^X6Bhj1CR|Mz8W>o?
z*Mz%EZ`z7C9j~7>r?^Q-oNrizhOmLxW3RnDzmB~rJL~$e3H#6{?8BQk<+Jb>Py#D&
zBWWF&-imzo6n9+}bbx!aNlgkEmCUgUTfZ>p(?e$uyEANq%0R~`Kw&%E3^uu-$d#!<
z`O2r&%&37C{x?)xW0cFBvaJZcwJ!eb&yH29>o^p=0NhetcVCqJ7xX1vdzqd>e^~`S
z7hpv$tO4dI&?@Lc>~bu}-LxmUUuuJvf(b3y3N2t4w%1ifi=fc4DYsHX=@|xgj1;vB
zQ}v}3B^1^r8kDfon+0Q{Nr_7|E1{%O>ACV8=H4<*s4s(Nzl?rCcVwKR-TO^0S+qyH
zrGC?`g-&U~#B36((P{st!gvi^V2Pk1ON0eW(u_8(g*Nx1P3snO+wo{UN$b?Ms<At&
z#9H3dE4nQ7dOvz?Td*bqO3taBN~rWKX{eG|TSG{|(?~01YF8<j5(*bb1)3#8*!=nO
zUBFnY@V{WXri855xPWy`(icdCN-{;rEHe}d$0hY_0%njFn76?cGekCUGHtqsUI+)s
z>m!dQLfA*%QFwv+5>1k9L?f8&3i%0Z7xuoefR$Q9&=f^)R9J$@+2SFxH5LeG!7wQT
z+gBZ|B~Y|BGy#L!iV~8njwQ+iV>=;^TsHP3GYpEAOw>H=iDPkr21xiCRjVN*iZV?O
z31~9$WHL{XGQLRO5z4KXzg{xNVXe$V2n;x6nem@emVZXxcgb5N@3-MeW*I@T5v(a}
zFv2uMHV=pwx)_#4^|)}0iWD^1)RVYOiivKpA(l*`&_r}R4jaHY5uS3Tl;8ilOmqGf
z5=s^)Rj_97qoemUk*7s?e+ByM<eJ*=cHik<zOt&$G!CSl1B-fiIdAh_?;UT}yIb_`
z&UpK?-b14I(AtiS_gLyQ60_bXus^#tmGPcRoqphI{kC@1ypp`{A9{b=eb>3P_1s6k
zwmVOO8O&L0b5<ABTRE#|-K1+aL!*R7Z8ceIn`mvzSUY}bYrOgL(o@UNr<-~*wp~B8
zd2YVAc<sJ_AY<E$T?&(D!^-VH{I3Vr7BYv=-rq-?!1d-o**CVTN}bJGyF_c(O3fcz
zyVLu|ph+^-VSBiq=x9U#Vxq)Ii1kNSPr*xBKX!87ZR<8ez4>D+LW|nG1-*Ie)Xh^_
z>vqw)omkn^cTVS;+wOkx&KGlyJJ1K)j-PT`D4)zIkhif$P=3S7_3ZiX&^tqGmQ43B
zzH4chXzW7MrpBdS(HO`Y`$c2_>Yn??eL15y-MCvc?#UVlMdRQa;+}Zu@TZObzy72X
z{r&4t%&3r=0sWq?;pC9^_ntg7qS8txY~-_58J9fed-??DGUb~f!lt+)q0?h_LFTp)
zdrH<k)fD?BV~HYK*OW{tN~-rMg}qQ($1{xWaHZ7$Q%-AHWrZNNzVS8W%4&RUz7k^%
zrUGm=Ls$$~5rYkd5JO%JZ=FO0OUE8BW2o8E*YV&pZV2C_L?V5XV=_7p-4FN=X5|x?
z440VsaTt{`J<|J>^$(QF;zW6Ay~^4oH)F^#Ws_vWABWUR#}?-IJcilnty<(YTDeoG
z8w=OW)%$P9ZpD_*{_}nR^6+mRUVHU-j$}N?Q<je$t_R-UtoMlMJ+gM~eM`oB@j=`E
zY}<&~HbNF=O;|wfc3Av0_GP{MMeqLAYZ>p84;pr58}^9}`&KV!8jft(DwL~|5uIn)
zRI&k^l|f&D#Xy(JRDv`ZU*o=}`kMZ01~MbO`MJ#q!+MZxHIeME>$fOX&e*YL!T1!}
zC)%|7x&hl(+OR576z;<61g#9_CbcPj%8*iloh9Q^>w>PtaD}xuVfuj0ox+;BOoo7l
zG08}u4y=A%W-SZQ$f~2>5Noym5xj3`Z=)~OMZ-jqX;Ib(EZkJp)C<Wno4A{XY9eY?
z!zFdK^$5|q%1XJZ1v6Rr#sy7+hzoPojv^#AH+3+FD)b)Xp)H81#0t<+31(f)lnanD
z|1BbAf_slb%j7XFVu`l;5hqz-^huU=q>~631==GmkkFFqR5Ht9+Ha9b<2+^iBl2j?
z#c57yk-ZKlFSG`t`jo$LE(LQYpIn-M<}=q?fp*WaBP{XWq38_Qj`$I#6{%L`TeKEu
z&;?M@oVz*e?iAgfD~9`fhBNMysgZ}?)~vTz^!Bb?&v*}}PGdVpCa8O$<jeVXWPLrN
zuP4{snQiVBn|ozC)7Vct^7hneki5FitgByi_2-<8xuzY^_}0PlNn^9ivK~WZI9&yk
z{_$ueaRb~6Gyaz>Wqp;oGQB(v=V{zXkt8dC{S<0}hv8=!jEyV9U};MF7I``H2;T@a
z^lZRid4-1j=uvsVT?|cC4&8j;&p6h<KqEPe2L3nG2W%$XXVQC5i}h!q2dGdoB{RO^
zqLL}EwVUkk#q%5<_Ya)@l%DKmqn)$0<h=e|eS6Ngcf&wbT%#xDxn5D8J2y-IOiNCP
zO}IlIkvW0*EJg~1Kco=JHUf!10wDl_gcsofJjqtz*(P|ftRa{U|2|@w*|0of!h4jJ
zyr<}^{~ZE<MOuO$UE4#bx^;MhfvEK^xt1oEn#7vzc>_fmWwn5Q=`gkc@+OKhGqu37
zXX%Vs*Oj+W6tuXWpV}z&lFAOHf~z&J!xI&@b**Sto?o$uey~&&W#r5?i>|b%J6+Q)
zntIkv6zOk8q1x?v9iE#DQIwHu*p)X?2%3l5#U9br`l$u4GDy-#P2j)iNR3Bso#wV&
z{b1st5;j2rp$XHGC>0s?he>s;XG#X$8@8Z6yv5NdC?BdGnF2O9lG1@G6U@L<=F;)M
z3y~Q1InIurhqNQpUdf8{H`9p%B__=RJIGZ|&1l*QN3PQ%Af*BAE6eUC#Q0yr#47?c
z1hK02EY)x~au#WkQXjrvHIG<kNTEdzYI~EbRu^bj$;<(ENMTq^m#}#fqpRR;a6|>V
zndCyn_HQum=q0o?B5ARRr(hzjy@Yd@!k-~d_%S@-^xwsU&M`%%BMF>cvXKEEjyx3x
z(juQok*(3Kao|ioG&w$j^F<^+URQ=#a8ivu<o!8STQI%;5k(Xm1IA|(C`m(-rOc{Y
zUPS~?gnWv^&tD*7zPLqDoaJ7nukX+j3nLRyG%%{ke$yZt8}7rN#@&>42Sj%u>)t22
z_pN!dhepLiqwkN4ht7%a^C@%A<I8%wL{C@Nvsd)&O<5k)ZG!-lv)1QoJTO^<#Ivkl
z(PvzJ8y3CWoYMZ1i7f(2Rp1fSXjO3pMGTU95!h<0G+9)(Fq307+14x8PAYlK3asY;
zKrNC6qr-6YCRWpcEdw0z2+u1gBL_;uQb_t;8WqA_pj$QW+umE=r9HpwyQxoUQqSZZ
zwJCWyzoQ-#eh!&n)OZMw(%zy#8f}4WC1mX=O#%~`g(oTWF?k=7_owj6G2cUqByWW}
zFp2<SJ|j19Am?fL*yI52akk`jcmns-2UalfeR%`DV$Z+sr<5VzuGYDh+;@F<d=T?=
zu9fZI?Rlr?QwqvBh^n8!f6)=lkXt8t{Sh2w{R|vrdkhvbLA6;O6OsB;hXelR>gijS
z(}pd;U>1hKtiWLQ5(dMu-)ZnmGs2iqxnwH#O=w{=KqE5031wl2<ny2`pob#pmV`di
zD3*jTAQn{-u@o6elq{eaoERlDNXexzCuGn|+tEN9pol+4=dgW2XhmSa^Is_RkUWMT
z{wG3;xkTm1%4mRE*%Ap92dan!?h&*Nq0A#lz}KGj^@+Z|l=eQXTsrnLRYe0^+Uc$*
zGOi<F7q($-|FO|8Ll><)f%TT4x4Ps_&21%lEA)by)@jJNt|W;ki4I}{6<HSwXgw6S
z)g=TRaUdh@qJnoTNdo!GS}<U{5sO!80S0<(`>~=HWxe406c<*9H8@~b*_yHmtYpG7
zsoA=%vK0NJy$EX*>i7SpFW6=+w6N*x%i5)714l9$R-S(Bvi$z=Nm<89G?E$33H=BG
zI<HVf2%e;UEy7=u4A4}@=5Y4i0CR3Sp{}siMVP@M;`ls_=lEA8lPoiZBeAk$7_@i^
ztjWpDwM{-{9KSL*IT_{WTNSpt1mhJM{*VCuzoQo5^_JGVlXoV6{fcO80$RVY7<l0I
zEnQgdxbuZyZ%!L`z~C49INMtzH%Ar+V49^{zLBx+NvX=>zO7k4xiTtlJDBkwT03+v
zDIUI%v0jw3Kv%XnzErbxZ0XgEwXGPJvpODF9gDgptLWU8v2Ldq{gO{~ZqHbEKm)ks
zTYmLUt7r{C4`?%|RNz-_c2c}mt88)Nn*&Sn<>>0Mw`auG{h6i%Yu<a&^u_0XFe4s%
zK4X0W%{rVZqfB;PvZ$!=B6Oidyt+ZaD;S`yX>j#T0R`CsI=HG5dy#g_@FVXiYJ|T<
zTQa_2I87}JS{%(2A=$z_Gm=@N*QMDl(Ca^?{MfQ!^V*(m*)6v0PVX7M7tW5nAdb9{
zY579h*pzEQ%6_qBfBL}bOv@RHDOqs~pP)4C&k2eHwx5lj6O79rvNdJjpgiP#pSn7Y
zKm}#D7AQNO<&>RXWy+4w$3DBRW@+wj@=g+Ro33VUfIaTb{eJQX$#sg!`!%|bm3^dd
zg&eHwSUdUs(eI6ZN<kSrQwJ(&zZDVW)(6q8a@tRZAK%1vJ&-@J(Fu(ZZEfn_u;ZYy
zp4U&=<znSNZFyFWH&&0Il(#_XDDux%PUZnjOhT&Jvb1fBTJ6|ywK8eSu|*C!b&Fo}
zW_G;V9Cm_#De)n-l1)K9XXzFb#uo~oVtgbE-78QK1sGv39;_e$FY+T_#oH!+MECjl
zk*Z=39TT9sH#rz*!Xl@{g<!E(6QmTdC@WoUYEe^>7$$0z%&`0*)_0RjY7=fHiVm$R
z2&1HCLv6%2GneoxAv)AhQL<cME083VEDCvLd#b9cJEody>OO_wSF}{LV8?!Cf#X9<
zB&9Kz=ukq{zqsm-Xw|Wqs<KNuj~2rQBKoMkOKGX}l+!Ah6)sd7;p+2B%;P49FCuFV
z=D?F0adxvHy|Sw?-cgsyo~8+f$Cg3c%%oQ(pB5;D0l17r>r3n_?t-C3p~%CuV}qKY
z-<RwD5gHf%D?G{k8Z?TRWI?$oojr1IjqsOLfWAebO&o?+1tW!aQYCg~iCSs{7m5`W
zdjFZV!LA-*ZODY@4OU2|j%+s;DpAFftn^K+lYd5S{yw~t5t*!3WnB8arve8Q+3P<?
z2jVsGz+OKv+7t=<VOvkO?U2}ZDBE^IY&(JT#`W#l`aZF~FJ*n`@ujqHT5^powDFj2
z+#@#b$u<s&jYEibJn-!UBc8STMXSFkY1=a}dNpX9!Ht7g-!OBH-DTYRiY4PB-CiS-
z-?SqY20slQ*@k|xp?`IMcHpEqa5B>{A`9)-jB6jXsZEsEfxInkIeT5!-Y(kPv-Vx0
zeb=fdyXU01=VW%zc@cm1^XccF7j1NcEbC~;*{J1XqGS8V8kMbcU88AXJ!%9YYwfsu
z_0H97%R#Z_Aju3(GF9rMQQb%0D7*@pfdm;^<m*SV9JZ1fs&gdO_U)>n%4%q`8dAi$
zHcTNowkuHuMM4VT8o6qRW8Reua&&r2KB`mgKulPReU(BRNzK&*XbGCGq?T}DwIeRY
zTFIE@vvZO8W?i8pWsj-i@-IbBk?v!Y!#O_nRMB*$ln9L)3}H$p9n3heT0Tf)kK`*7
zjk5ZTrBMi*=veMl(M+b4tN877NWDM?N~z4i$MBw6LEAWlWrWOP8N+UjF3fB-wj*~z
zf&s^;`N`kH{p4@R`#<oIPXpNl%03ew@~urwpur*Y1V1ZdIJHoR*%I935q*G3J%KWg
z&d|nZsPgKgfJ0J4IY9`kupuPhwdIgAGjWGvB)xn;oZzCIIwmMdI@q%EQAkE}G06<n
znTTATo0*HtiVlVios?TY2Xojcju>5<nTaX}jm6a^xu!1_?rdTQdKku&oC2>L|BFL^
ziA!);RdTm*GAKTGiOw7exGs?s7++3uElFU^6*iS*?8#)UIBZo)M*xZ^F&SIbyH!3l
z#xH&xO<;QiC*QZ-{_?Fa=W0FK+77X{BU{@m*7jy=kBGHLvb870+LPJZGh*!-*fKP9
z;s|?#85cm9xz=u(@n5Z3txdP=&9)4RErXesA!77>T`MP`#>h796`S_voIVuw?L$$Y
z`Jv7Ku}<x4!_gsd-VNK*+xEhCGFyLCtUsEmKaQG>oPRGJBx*gGZ9Olxp3k&COJ|30
zu=b0$zL<6QitgU5`;h291f6JOZ?<ut*tjp}sb88}nMX5C`_T+ADOp`M?aac$p>cOv
zDjmTuq_*wO`Ugb+z?v})!w&zkd&fjSnmi-6p2@VHMU$wZwIkcoC${v_k>Iv{c^%if
zd!5s?!eXQeBjD^%4y6jegGs88?r4oLOnMLjCf(t=*;QXj3QkgVt!jZts^pMG^rA%+
z!2cOk$eOMY-gYAQd~+pje55SqzaFI_m^)l=efj2>vyNWT(YtaZ<2aNy9%6)IOft>R
z#3Ss|FR2c<lN9g6!zL-a5D!Q4*tL0u`<y0<+BVcoTit8`b|df@@s=H<1+v#78ywxG
zfm?diKpny^d<Y)&^$LSP<1BO|Lg*ona!9rc8N0+P$T|yImUUMSM?sG5p=HpGD%mo?
zcBtcygV_Z^72(e{Vq1&zcELc`Yfjmq8gN2UA>TQI{*65<wvv=qRRi5ceWhs;+9}J{
zVylMokoOV(<M)smVr%Z$iBGsD-J#|AJU!M1eoBx0;C5ZdLr>G~=&fj8hcJQbw!6_g
z(Y%4)u$|_3%XibaZlbp_l}b0b;{LAh9jK`hT-*Nrp6|i-7(pO_p`)tYu00=HY`W%$
zu7=w~w}$dMgi&Lim%SP24Gcy9>M(eTyop}TTtoBi<gMg#SghZfr?Rx$$J$IcU<a@J
zQye8}mRSz^B*5!3K1i|_%)lAsOdzJ{6e)LoH|C{MIu2?s<2*YKm_k0jjBB>OsSaXy
zj$~uneS`iQ(k+t|^<ncHT7_B#jbTgJ3c1>b%M0x=8J6X02jpr<lra1?^43B*ExTCD
zhAXk`h;>Z)i@hoau%AblYSo16P-=@jd~Nlz#8a^T$ro$6SotbqMm1whT%twSZFvek
zu17!Uf~^K7k++8%s<#;SZV}(ed*yG&)wNZ>vydu}Pt_c}mwk&h?1NO^h|6xP=GtnE
z(Ek?nzbV|x`}k&DqgJ)Fd<cie4fV9}dJ3VWA0=B6<HxA9A>79HCfdPmbV$WpVMk_!
z6Eo9chPuY1Pw~?@QATL&A{Y$)t4#MV>8}=^ugOo-WoYQ+pkZ#71#lIZ@ztw^bSq0Q
zqzHe4-Y|1X#zT))FwsTSKZHzMG0~97u_nj~svGK(GP-11_EnW)*fMVzVubw2y#E|s
ze#>6yem!Pq;m2(v#Y?=<Wpf;M7l}AYWkLk?(<M_A(RiuLmFEgwWS~-h_!wuYOV{aa
zHImE*WmBp1giTw~;_KW)iz{ns5iKoC*X~<7b1vUU_J*|gaK;YqU`R#@KS!TV8XKV~
z^i^nTi0xtY<6Ee9lcwhHu-VNnbTFdsO^#Uqsv=AkeGO<7X?2RmTwt`zbUbC--KsJz
zO{ES7-$V}OirW@otg8q))kFxCD)uTtRGc~JEvkqSQ;kY`>A6KtUnz$Yf-a~iGSHTV
z!r+(88POL<F?aPZsMagLQl|724q*hUXtJi-OL>$~HC<0Ntqy7=gQ86?MCNhKm8{^m
z7?Ucar>t9ic~Sqv%oZdaQ@aReENsaDCFB*{wk#Nk^m$6k8Nq@G!Ajnrp$}3`jP5gL
zi&@dq{0Q-k3y_sA$0#r9GX&~4)7%I)di@E#5*IJI5)qsTo)N+_C&ok_nQOGloS%GT
zTfk-OsEV3(M%nGrgy-a|sTKQ&;%Y40);&SRm>!1okFq3Eu81if;oA~jDE1F80Py2~
zgGx5(W@>!dnt)gn$kq&qH3Jp8nVhdP>)R{(_GWz}qHhF7&5E|Bt)Fx+Eg!ktp<8)x
zbj@?GKGSn*L!<VPCWSQnl^T%y#-@+zw=-2vi)d}hS_9bmDSO>1T6Y%pJEn}Qf5W7M
zu%ms`3eLvreCzPd!&ytaXlc({_J3g6pKIUoot<y*%(fp8+Ye;hhsE~cZ2K9p{Y+~3
zt<jsK_pPlD{C%tX?C#^@?&I0rXT{xTGyXAB#1y!qGZ=>=&O;bBNQK)jX?tL6$`LM}
z3BnoC>IT(NjVNoC%r;(!5%lY-8_;cj#a2dZ==z}In!W%t*RQ;=MSWTY>KUFy?>0MZ
z#uj3M9l5HQw1_WDWveNJ<Zb3M6IiBh0glB6b6EdP^?L@za0n-jihAg9@k9^krfE#J
zr#^|6z;==ZB0NPN(|R3{V+SZ=FNJk-j-uo)pLKwwj=KY2<3pDqrqey$^Ztu;b5|4>
zu>0dzX6B-}w~P1BO+%u`)y}v8tT$kgG_y0a@>R7zqWYP#fb^j33S-HBERK^Q#EP&B
z^OPM~0)$eJOTC2V;yPXTh!Y!E%EH%*cBZrxWtBjyeCh-jHHS&*5W$fX<>nzKqs<>x
zB%rO=sC-^!s~To$>8_!tkQwWnZ_nSFU+!JqmZ?7gGssQv4=we$9CCRyz3pJmRnOi!
z9=Q5)?v9+htz<U}5yIM#wshn=0^b>YdobNQoas23Cdtcxcjuj*%P-^fN9s&&$IkCu
zefw&5$CKiYC$l?Fi#txIt*29`ml{8EbyJnif!y{(z!JI6J!@uYc47ZShN*g+9mgRY
z&FSVRGxnqD!W~68TqFw~_?n_4*^}`a=MkWFSGe^Kt4qEe9c!q%!8n!L<k+QLWvhy~
zxFTploFy0pP#(i_5lApp?DfYeqL^`$5tUm()P-9$WYy37{?9R~GJ>xt_a;r{Ao{_k
zatQ}lcVQA+x2Jau;np(Jwm>N`e{(+T=ocORIctNg{BRCH`B8q$gK}1g4QYk?gXjbs
zQ5^9q8&Uc8KtV@pSz_pcbE@9BSu#EQSx&*@!dSFMj__ibsb~rNRXqWzsb;dS2#!iU
zIH9L4oX~?R7r0Mb?esL=imzZ>oUrp~=~SDxc)m@GQ*DMZ8OIPtl2H+1A=#3HRHM*u
zoTvF`P(gbuP(|VwA8?IPVuoFDWT4|7P`fB*NY79nyR6?+E&!47mWqGm`j$<=BO`=;
zKP&98V&5Rp`6_x0m5GtF)-S#WE`PcA0}F1tY*~6ubnQr6cd(0o21M_`>Y0r9D6Zp!
zYNhc`qjHUAhOW_k=xJNtC3<$_im||fY~Tqo@Wk5H?2+^0k@J}&&)yGQ$T%*FfeXvW
z7FD-Rw@gcIOV516kq%rC9T(Hai+}xr<08}a{J`%$Hl(efq67mB_K107nkPIrJ4Lys
zl85{v(#x+>t|h5Rxyqbw$>*b`OANQfppO<J;U!LNy{u@%ngajA1fYs8lj6*R|8*Gw
zZFS9cxOkB@09^e#j;pc-R22y+APmVEc9Ta@Igrj-g0U~aQ!blfl!sucQYduFTw{qf
zEu9S7^5Zub`AzzCBC_~&&){M>>lqa3Z+Pu_c$jvJCv9oTx!kzP(czNs#$IX4IB?V4
zK3PQk9TeWA?0ZDT$VQF!u`tn^uYm2rBK`cRnpg{Lc$cXkan%AqqmPEDfTNlEv0xlr
zrAO?ZaA7wMVTm~|S3P!p<~o~{4P@V=0h6&Zjw4$AX-hZG7o^TUZ1CMR-!aQKUqU^(
zcq84u|6UBrZf`Ht*-SZ!TWN~QN!FPPY^=rjuoZDc9;oU#x9V*pz{KblIRZIl)u@FL
zd@z$e6iA{Gko2-tQ3*_T`gI-{qJ`wd(qW7(L8-F9zoBuVJt+WEjXPVjL#)}cocK=i
z?d0mqnHt*2b+}VD1~QVN@M}L6pHH98KA#2`R`cko?8?tIflO3eM@2PF>C?MWm~LDi
z4~Gh^DPu5R7z6r2mWnYDXtmGp`b<bDuk;6{&wfzTzPvY6)5Siuu;qIo<LFKsyV++y
zf=k%fl3if=*H*hshU|{m;r+t516%0khs<CrnR|*)u-|w90>saR_~kPRbSrKNGswU5
zQ2No6c_+h`y(L?Pd50W>jWpR}c)nJSC^vk7mdaj<Z<&b!EcR!v;Wj*004tI<RHYjE
z)MG*bS1uo56gJ~;cBC371Y`0KJbezBBivmo@b78x{b&qk`dC}IO}0;T^yQj%<vg9a
zh92zf6CZ@zW7+r%doaC$j!kB4k{dtza~bl(4Y`wwJ%(o%zllNj^Rq#XD}9tK>}Yk2
z$FHM=%dYu&5_Jn~YvC`@ANc^#(-dOJyq7|>tYusG^OX7L>6Ng&Kmw(tKg${tf)vw9
zX)jTzokDCY;uU%&01$qS^1~oB!2p(xwh*Dzs^;^1DTTZt8m(0X$jHvhHMga;-cR&e
zH(mT>YXHj1>oi{T$2N0|KCNxUB_sNpyjrV!Vg)93c&y5gwSjwe-y8gdV%9ZE7SwQD
zHLUuCtJj@V(GCbbX$yp&`Tj=SLbayPbM(A-IQ`6X;)&<h*<1b~?u$zI4C6jNo%wzD
zANl^kw@$%)twr~o>Y>}8*HHjU0(sA3NxSsi-IwmXBsT06O*_{OEU{6gYs3%7JpK05
z-#Pd8Iod91%<FZ!{dAKU9_hVLV|PfmKkq4Sp*YI6P!KNLLZP>^Efjj)w1q-ZR?g+k
z+bCqO*i2b>P#g{$cven+cl4c6I&9!sd+z%$eeWgE0G%gqRO@<{pI&)xbzn{Ree3tE
z>49N!*GX~P2<7Z~f8hQ29~`8dJ$a*1XI{2{%HbhHFHK?KoIvVoVTK^Ufg3vMFeK#E
zc<=b72^lzuim=0FU`lV$&!(~80b)N9B#=f`215pN)<o%Nuj2A?H6qjkaYF0{IN40E
z7bt<uk_fsb4;k(iVtPyXh23x?wXsBo1&Y5G)EgbY0X*AF0{OVWj`K*}kIT17<0UJ?
zIv-PloyaQuoEke{A`Ltyw`@!WA)5WzT1gYf)OJ#!T1oan@m?7dD2PBtat=9vQ8_4(
zvav8orP1k?rCIp~AW{XhBY={7Q{i6uN(vIW*u{BL<0BblF_C7Kj7bDi2Fqs(Nr5UK
zC-fsEd8?G1j9?Bf3vHBcW9hIdXTPV%u#D8e;_x#J(KzS=yTBvPenCy>pvt#VId?=p
z7~3BzCkq0Z>IrrLD4oQ@4m1vO;aUoY#kwddKxK7N`f)Vb98JfX5r|03>Qjaxhv}7J
z%_k^yn!In4_a1pM)Gs`w&<1%LYOYq`FXL`m(4L}-l;JwYO3Ul!I5JDdA$j(W2tSWv
z_~YUi;O8|emFkmrPIXH4W6ttJ?tsW0_#wAj<aYm<vwq0ceX7=})Ic68^-t}bs^dd$
z;6v`nhul*iaw8vdV;^$EA98)4s<kTh#~i#*&7A6(>Ql7=K@Q$eot)~454l}G<c|DQ
zt45@rQ=L<ZRIvGnT>pmNrW#sGZg6;P_)V%OmxneuJb-x{`_p^Ri{A6ETT(A(xbqwO
z6B?B{-Q2gqQD9?K-;CF`1L=cfV%xb54sRPrRew)~$o50&!SiDKGaDSeZXDOtsa#9y
zyQVv)4GzJL-gZ@o@{ZufY1MNoRrBI;x|eN(qi`N7Bz0F>RhLzDimJ|>wl!yJ&DC^+
lnyS?s=25lEyexd@#@jd2{loX7>l{U_TaflKOJjrne*y95(UAZE

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/interfaces.cpython-312.pyc b/model_executor/models/__pycache__/interfaces.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..10e10a1f5367110bf3be7018eacac59172134c88
GIT binary patch
literal 40067
zcmc(|eQ+B|b|+Z)BnW`t-xMW5lqiZ42~s5WMSW5dDXCkcI3lIiuv-m*Kv9AO5Oe{Q
zL@s-+v3tVO?)aLr$8L6b_RPNX-BRw^9s1Uelh@wZz6hUp;%>cx5;QALxqHpI>x*6Q
z-5=<t=Emc&<L>t|vkC<e><{(CZUvdhs?2)%GV|rjm+!sI`rk`R+!C&+{U1k~epQnG
zPrA{sA`w~pQ?DewD_xetQrHreVwN#W%sOU`*~V-!`<OlE7;{)C%^G#aipGj!t}$1v
zc&s?)9&^V$W1g6I%o{5iD`9zT(bBOp<h4c1$I97nMXYkHlBL<B<*}-<Di(J{t7A1|
zH7xFo*2e0_>SFa{_3XYV+7N3TYm99g+r;i&(WcnuvCS-A9NiMzI<}R?-BDj`+t@Z1
z_e7gx+sC%ExHq~Z)-u+DcuBZ4x--@~)*9P2w#y>PMM?v3Dg*qsu{M^sJi0r!XKW9P
zS47)m9b+9VUK#brI>$OK(xgl78f(M<9{hLUztbwo+vL3;Sa|D=b;~_+RReD1s#&zC
z+$&dwt0t`Ugzm@o$sT!sxcUh0izT_lDxHzSHE&DdTG{=9jl=kW|43s8M0y?4>kFhG
zl)d2w`H<X2(8G;#J>mx_PX813@TRxz2CP1ow~OUsd63>@PR~M;y9m>Kc!18{qcps`
z`EC1HUx9ZHBW(-Pj%<*&6=_Ec;C;}9x6g#vF%#Y_58!Vzrxz%P+QEPayjfh}-Hh^&
ziFVzNcHL2+U5^*Q@3;xS7E}2rO!%=pz;CBHeFOXqc)*Xv1%9o-?}Wf_7w~H<fM35z
z-;MM=1=3Fzz`x&wf4d34Qzrab9^l_$PTv5310L{aae==d_@6594$(y?(oPH9yMX)N
z0=N%|^lqg06i6Q|P`3e7-Fi*9pE1>q<pB=+%;|;jM12m)21KeAp0ImS!~LkmnL=*@
z`T?Y!-5~8C($0z69YXE;3e@fu6UMJltpM||3FB7_)Sl%Nd5@U$7Qln*X5>e`SX|WW
zDDZn#;CBr89WQ|2c@uu;MVTi|WnL(NAIm55_M7u=fS-{c__4Ua?<DZMAn-c{{7x6Z
zZ^(q-kSKG&ROZD3__2H<@1QyF2KX8Ifgg(t{LTQsivqv1!0%iE{DuLO^Wb4o;wyOT
z8{(~3@z(hQZ(TCg>XLZxf(g@+0<~iKMBX8D-VJJH<VUSoT-53!@EZ~M4FkV#6u@uP
zgx{zr^OC8|%LVXb`9$6kbKVW`Gx7sJ78m%90>8@wzstbyN&)<?6e#}+l`YDD%~bwt
zrn;~^7=c&K=^Nl@zyp3PF7W#%@VojI-x<R@uQAEsb=2sM53E2H*Vs2jJ+I;En+57Q
zR-m3^rg{cU^?2P>PnHMuylzh40A~Xp>dE4wo<ZRJy1;K7_=O7K_eKHy-Z0@8HkE(P
zgdfWT{A6?b2KX89fFFws{3d|kHG$s^;CEAg0~p$Q%NkPBn*}g@(}ZEfgh9ZBA<F{{
zZ<*6Kz|epP3|U-YcpDf71cp&y7%Pb3^#T}PH(@ww!XRkEkmUh}adY|x7#i?^A&UzP
zr+{HlVE9YGP$|&I;|1^=H{q8sl^-(U$MOKbq&a;9{0w-&kHrOk)4(q@V{5zf*VL_T
z4$XBc7>x$Uqq62Ymy{J2E4mPznu<)`(8?}MC+W$E{7cjFWJuO*BXY8>NGlor=I}t^
z)Y*Ykubvw^0~pa@B5@_CXhr8E1SG1thLw0S9*Re`;?bEYxjz~SCNx+4j;uuE!LU}L
zOiv~wF*y*rDTi)T5kqYj%{eMhCgKWW#pnBn&Rp(4GceL-)$Aj3bOMQhb1s2<&xLqc
zj-HB7PDE~Kl_OKK9J)CgAC>PV`7^xl9gW`xEFck^O5)zlV*~<sp2%b*8HmPj+>oiT
z%5O{ufz50%8HrCCAUuibsj0Y<OayM<{cBpfpyc8!(P)g7u9Zg;fvI>rie?JL2%pC&
zg^~>bC9lbm8#j{)YD`v6&4uY`GJ@BG(Lp(woK|Gu9s&YY=O)o=F*zIwCS~3R3BOjI
z%{~wtm&0Kcl?d_C$U`hb*|qi?!0%m2mc}e$Y0Qdcsb$O-wvO3lhwKbnb<&cH!ZyCB
z3fsqANGqlkJargP-KM8b<Eh8=w1_{&lFn<egc78e%4Mc<Ts)Ut9xj&4!fv@D?7^>>
z5ur0&Vj|$ma4D959=RHXT?XQ;LA-Xt8ZJk?POcAE$PIYXfYeIUTUf}2?cu8LSy+0t
zTpg~FH{I$M?P2=CqOq90?+(|!?KCiMWbf6>O>)Bx3!t+$0*nTZqv@>%;IX+_3O9wl
zD6#Q-R-;5#n}Y9bdb?<>amL%W8Pq9=DBG8_-J>^UUxa#mA{df=3dUAMk;A@;xZ=ZD
z^u>ruIzUrF#EG&J{!y*UphlL=QU|r>0#5@<@NOV7IW?UO#3!ROTD_46BN*V6KyoS&
z4km+IO-xp9$bs>hz(hojh65o!qH3}w1VU5OJQ0JJl^IFSXqJfPRAkWa<WNYg$Bh=J
z`!$*}-j!x7ZPwY>+&*!gk(0h8YCaW3t#8Joz{Hotm}T{*gzJ&($(z3GdNJ31U?nj$
z6n~42WWNDz=&{sh(`=z=LfMVdlsyO%R5(ie+w+~t*i`3KWU3<>L=BT2_ofdVI(Ykl
z+!>9GcTUYDZ^kD(?_jKUvi1$g_vFxYGOqC3M5oa?3IEiLRs{$F6V`!5QkmVkzGM9b
z@{IwbHLQ=M`%=a&6?@kZl{Dw=yTB_E5(*J|COPo$!T;JV1n){oBW(_&Sr>1V)}#=0
zB<U8tk#~iyx{}2rS*1DYmNPE{Zo~G7G-vre%YS1TkuVWBg2z#m(XN+Rza}^lvaayS
z2J`XVkSD?2lSHiO4|677BLhq_?i-hVjK0FYyAkv&>*_2hzuU+=6i>>1#vM@$4G>OX
zC@D*gW=vw!i6j*v$RiPq$-cNkG!;zbz#_^b1{_p^n7|Ug_yo~YMDc~<iXtbb;*-Qz
z&85)TFw<TRI5x0+Q+d>=HBjGYF%4uZI{W+AH%z<EX#dXn^B2TG_eB!Euso&6A=b#j
zNoqW>1XNU!W0*a|RN*^a{=Gf^F4Wg|XRp7@-_`EBdozNW6tgQqKwYB|S@HXZqjE4o
zuTE0)ByS=uCWH9HKJ?FZhNB7T>;56d4+3ekYehGMiC{9RXih#!YF-fRBu#a3G@`Pf
za$#OhU|v>wag!jb^!b!7{AlI*fM>TC7%cgjf&}I`g8R~oYROwQ-<xXaedgKsk+<@>
zcdP2%nz33d_Pwy#OG+`4s=McVpI7Zw>F@CJAcB<laHd4^?pJyMBWGmcUdm%j!J~y}
zo=9bS5;PQ@A(Ds&CvQv#Z-9)63HzoKf=4q-79#-ygNc$ysfF>EoSBM*z{+PB>$(ok
z61wT1ob+Faho_@57~5nbNz{m*Ap%T9Apa047?cM30<9(p3qneaqbz-yM*<NE@`tBG
zl>KHT9F`}2fS;5T*)b-Db?z|B!>f;tI}8gszv>}KQSnK6GHK$!j8q<5ls>d>f|!-)
z{Ys*Cz3I4QG}}_3|JP?r5G27XtHCQ-Pin<{DvN{@A%pcHBVFcBl^$CJ^;#K93XxI{
zS(b5%Gr-L@7r-hn&o2YW8u8it(#nzJ3?UNNZlcYjav&bR6NtqENfI?NnbNe)IHqaz
zYb6j9vnk4Hz%u4cy*@ehQ2LRDk3&bcCdvRk9i)IjBnT(sl)TZEleqmd_4yTgS2S_C
zR9VAn#NN(9ilB3((6R4Ib9UwKob6lFbG9<+EeGZm>zrlILDJp_)bY69a%ShNTY9y4
z5)0=nx9p}{5e-`i#+<WY8k5K-tVk^|hvBJfJ-qMRbo0P1no0AnImfM%yhpeV+x0rk
zIrUj~gyv4vQBN7cI%!CuYAKBf!1)|u3~^a=hUGhvko?#GA1<tl9Be>o4jF5X8O@Qn
z8HC(_j$V5OfmRj^CT`2&KmyDi!e2mhPfsSWu99cvKwFWiuc<e)eXSLNgox*89tt^e
zC0H*q3eeeZ4NqZNh5Uy>GrOw*l^4wU9h91QfZ)FLX}RRxx_C6T{m4q)j`_(4XMWt+
zw$!$KM%{fR-FWoDtDjWWzkB%6;gyQUceg&;x>%uBY+ro+dCPvaW&iRosV#?6<$Wu)
z+n(39s<o{vb<NM~+SIzX7e)5!(x17cvMmqe3pbu`=~B0JEmx+u^e*2{m!8ZN+e=Pa
zKJ`lFTNh^1Wo;=}8zaug)@)1U&?r#_qtQP_<Xy-}Ft))E_ZAFqkb8)N^DfY=bc<*|
z@6y)<g(zyyHfIM_3EF+jIcNP=Y0{vrIYZhC+i&kepMhFOq&eGtPtu^YutTS!U$KCy
z9CLs%XZyZWr&Q2ZQE(Gz%Pl(7*FQBy69+LBGn=Ow+u&W-O_R>K3CPTacn{{8gl`H9
zb2;4Z6GTVT3CYySxKW-7sxKG<`)BeHieobmNEYRqd00-_lfDp17%Z!4*}}0ucN((D
zy^xG~lQP_ihl1nN(V#NpOGIWNu1y#?P_jN}@aeYQHxr)*a7<-bH(W2kagPoLqY3$X
z7Dn6`yc3Uv@lupl<*dwHpsfjA>dCgGkcbR0aawQ0sZLCT;P;Vu>bn`g%cQI1&0x|O
zjuZGq9PJoVNWvnqDi%k*rW24C3{b&@5BLYMa3{qAR&(Ri6BArSn?$2fv%~>8%A1Fw
zWa{zkT+6wRMQaN11zW-1Rz^YBj7iNt5~7`{l9Tbf5H{FC6K#;&pFXTb+OaHSvf}g<
z#9x^jUlDQ-G&K<Vb4lZ7GC7s#>+HM%$$om=5BY#Cr#c{q+>%2{zP6g0jz&B8?(gnC
z<i}F2gkh5q>?=E;5#O9nMzD^%LKPUH;1~tO1vOg~Q>*(*Fgh&{C<;_VW<HraC-V1S
z!&~ck<CmTv7wPR^MQ~sG=`N}G;A(x-^ZIVJzI(-6v*Im(?%l3>x2L@=&%OIp@4l7B
z))ik*rdVp|S(6+M?gu5AQpvk5<=OT9Q>m_jbo<~Bw>@otb*0Le^7>Xi^(l|<qsk_d
zV^3MuZ1$?sj09<xcwRe!YCeDvT(aDa=f!S5H<L8bwncLV0wlu+FlhuxsDc=YxHk~^
zrRiW)q!a}L;dm$zP+IVgQcMAPGH7LiKyY$04v7#{m_YhYdTJks@=9r?Twq<2R*V(h
zEL3K4QfZ@y#3?l!mb#iJMA|*RaL{bv9m-xxbH>N1ua#!XeVBqx6tKP{_NSClz~-{^
z6eDKMyO$Ojymqu+P<H46Eh`fLD@2NKOFyw6S?xKHvezxtFSai2c)vq!=t|oUWUNky
zD^o7@9Z%VJF1ePgAD5=>$1+wMp1P&3eJOj>!p+6xdy{E<ul}^7J7sTJIJkKFy<=(n
zUiS1;x3stKUwHWQQ%kn@&#Id`()PpX8US)h&WeoH?(i=4pd%dKW&ZP|=fmnh?)!|M
ztl9J|8E?7c$Wm=a!cVIA>>B-McDNnh#dB*CelqovvvkFNe5p2NKfXNp)P9`ar6;Qn
zqL!B3pOq9jYF4WnG7kJ^oRY6MQ$#VhRKNM%xkqyu58ZjCEzKFqiFe%PpOqoT0A;N7
ztg_Ovn}NVDKr}Wl?qA%sG?;4cRvUUUMf4Qlwk+Boy_NCM9S27-0=HI1F~4-|q$N|d
z$KgiiUF|D7+CD464TDP$3AN?0y0uTwqXVQw4v=C5@I@J7yoafCL-;o?eP&#n#G@~-
zvkcp17uQ#Y9kM&@ls&iV4VXqGTm)^OOD>V!&_@<e*hs#daEFVb!z-I{w|TUN_0rHV
z7##Td?4OKc5;8PDI=AF%Ikp1Cx{kPif@}1Ufiz$=6O6~9-(c*Gv3|COV9Hvsf2_^o
z3C8~uejnC<SV+c#Gdgr%2x<%{Qj9!IArPLyh>nC9uqlomsV%Z>f88uGs%;WznP=*N
zc$uw*7{`SSs>G*cD6R!gTGixq42r)P)P)dD`JAV;quE0FA`}z0ND|_jy<iLvjH&K2
zpEjm~N|I3Ja~UhkRJUDNl`2VUG13Sb?-sxS0K)RUHoxzp61fqfsWT66%vmxtI2>&Q
z5@}GUC#lw$TNA=&!8&1FMrO>@n6XLi69SgB{x(`S6q;5N?FOJkoTuOAS!e|g-MkP9
ze0Z9;8K1_yt;iEm0>)G;Toq-&$j5kG26{5RJV6ps1aHNCQ2m%hxqc`GbC>AG6yE3C
zHPqhb>xVLkH!klgq0SNtDYVFBG6>_w<P8H2U980F9a?6iRkG3rWyq2ipPw1^LLV><
zsbE9WW5Z!xITMj2HM5W(p~{*d1y<<h^yF<mejt>N%R~f1$svdHaLJ|6KHtE-NP<z#
zI(q79_YJkNA;W984jG*WauN#ATc5ArhsWcPb3na1UFrP|YM2NrrhY1@O)(m4SHae7
z&nMw5wdq}yOECfPie#`Y+c-kMu}&)x!I)G?Yn-PQ&>BGKe24^cK__N=Hspi;4PSar
zMF{1=eqBE^)K;#%P6)g~!8Horq~In6h76(vaI4v)=tw0@DNJY}u|RX5k5As<HZLro
ziQu^45T$H+lEMvoM!~<se}by~ZRt}xpZt%Uu%zr;7weZ=mv=nwP`4dS+mC1Ln;hQN
zs=5W+qeB@7;$nWKm`iHh`n;h{ZD`9B)4f~TvMuAGm{)R_rOLK1URfGRm367bdta2`
zF`v$;aLvJ{1I{Id0tAowW#*DnR+j@s*%UIE6lGjWBT?<AltA1TN~TMfSvjApzchhW
zl#PJ?90_Xz=-|2aKq-mg+Js2HxdCPbO2dWascnd%Itcq_5tMeM7T&nnzsEa?Y6Q^Y
zI!TMWFV)z&T$A=dmOJn@u^_Q^P`QI}UHO#6#9ABrBT>o9|HxBGr62pyk@gIx?1Nvk
z^wtea*R~g$d-IHK$}HY5T8CZlvYhrDN!gFA#}4^(HJn*$T33HI+9>c)2}Ov&-sF@z
zyMIAoD+sKhrps5?1N}<WM0jq{k48P<=Dd!M4m<%JLGb5#*btx?mrKOfh--X#p%UK3
zE(n&z5GjixQWl4cgn`;+GBvxAr&#uco#7%Fq1~nw?@SRy${L-Oj*#kn6w1FSR?xF2
zKS!KoR$gY=%@rvVO!*G0Cj$YiZ=FF|ED5?jo}@XTH&kXc7Z!ZeF-(4p8GW%e_Leab
zo)MNjU(h#!b-FG<jL$$`!@?bFMa<BomdVA5+wxf9Os>+)XOc$&13{Zj=|q<(-=g4G
z5a>2qZYpBNg50WQ6_z9B_GHG@+?;SvmlQJjGkVmVkSCyc{ah;nS)?x+Z7>WAd|Zh^
zmJHp5tvN&<8663@WJD$+A&BXd5#AD5HA5U^tznkE*3HaTUe|9^HLVDA&1@CKZCH@G
zO-IPsvuy>*#$O;ST<T5rY%3`^-`=No$enK$8Y0R#1#eSOL&2|6kT<Q8l|!Kbn+K#s
z3=vv@pI<$2IA!0oaCPy<QuzIty1AFFkof{!tdJKIe1#lhKTkp*p8n%o>sHA6T6w97
z=h~6Y@hL5{S@*H>UwYcRPc@+60BW#i@V`C&^{fh+zBF4Uhzu;53-#Ib!ti>aUy1(_
z)D8HbQD8q6m^Y91EMHE0&?Sd?`G8_vb`e{nj{YkAFCuYAAS{^O+zE!3%y0>^lLOBU
zX^dQdyt12~iWKH7g!fA1V!S2N_`7(IISqj?x-_p&;OFC)`ezTm1UsY`!30YTCK!z?
zL9N1AUkgQ8LTkuAnj&>8cgcc|ETPp-1w&+X;W{&{j=5*sP+MuiVKk3=<`1Jsc&6FI
z5$L+uVEPTpL!(6bO$zb`(>wHxf-^LjXb93^I=R}h_x^?Xg9~S%hq|Cv?PjVd8cUT@
z57bsQ^Y<3*iz7?h7q7lws@8Qvf3>m?GSlXTdrS7Ek;ldA)^6y(Rw!@d!s*4T#qd(k
z`;o;hYE#!U`#wH|sMMTk(I5*F&dp>Y+qmsbwui0M(dcBSTqHZGi$z!3xvv;YaT?DU
zS?D?OHY0`^CzQAq0ds$oqur>&T9Y*rwV^@{H`M0JZ+KEtvIT<jU5c?bX3d+|vcFBK
z6udz#djOGdORH6l3%!qyrtQAfCSOjgr0rcRb(<DWEmkd@ee@60_Lh~c+ZRv0H}lNC
zi?<d*dTEBkYDR$!T$Cgt>zM)`erZl)z>84bgrwDXbUjdm)6f#=*K#EHhgoy1WzLeg
z61Kc$P1*<xx*kXqFp<6OnzNpkbd%QyD2%SRY)OL4u7}u(2BWBWPuVnQQ|gjrY-86g
znqu;<u;U?&Uiup_zrnF+&X%bCg14N&mu5*^{GGO<A&3jP<dV}tgkul>*N9|)%knDT
zgK=8AR)rc^vIgjfWV#iQ70Y+Z=PbW%dDmi*zEfkDW~6^+yK7;RG?rvULyv8m)!(Jr
z*}7&54}^qrpGzpkN66FT-js4|R@eL`;5n)U{YRp(XGIgo{6>y@)OSq)@i+fT`kVVw
zYV(!Hvx~_;tNUS1YIyWV{g=NNemwj0HIh|-wW7)LTSZM4HbMqxFB5ZQi%Q?FmP8ww
zykMotVS7hMm1+5UJ4{GPGV8@6+&hF=WL9LMIz*5|PW1U&60>jQffd>zSfwEFZS*ED
zA{>XZ3^oI9eJg;8AFjitft&;-j+!ZVDL9BgD-u3KZFaWyC7;0rY=oMdnlC`OCbSY!
z5q_H>hIQSido>t?B1R26gEX`%mX)PV3j^tr=KF&`@sOgv*8RZ!!YwsyNmGL(NY`I^
zQ1S^a{}wuz_C53L{c%~-N9DEemOd)YSS>XtEvwZHE7jXx6gw&^Gfk4W^8STS%cSaU
zraVWH1*RCJds+JWfk>#*AXy`RmAin>`sf*CSe_-%IVq|0Wn%!0<oNq#2af*!2w(HV
zGs_);R}l9e((L4fz&IkCaMrB~-v?$21;0-1M+?~d(nm!V^DW=2epa;Qqq2sDmS@|#
z(`7v=SI;M&ntAzqZ=^lDQ}*4ww#aW>#scdf;gNYJ`C?CFET6Evx<$fF-bG8UTeW!)
zaSJWJcfu9MB5bS#OD}KOP0KQR%41lDd5~5LjlNfN>(kEg@a(`#2pRAam0>Q1q8A>5
z(Wo4S#F2IVo|@9!<H2O;W`IoAS!WKe{4x4b)Pd0hJrvHbo#a~&UGLqSu;mXA`{06j
z+jq>@#Z;D94?s1_6rs}!#C|y;{O=yyxi84~0VrD{8ygrJ!p&-HEO=XnvKF2uaQ4W0
zk7J2QF7%1n-Pv~We?i{&i9CeRT&gSfwCX}&hYW^{ci5F*=f5<TSN)-oJeBmle*K&Y
zKjGbe{o3o~f9uy3wEhBluCaDAz?s@_ohtV06hcnYMj>QDNHS*xxR;6&^VfNBNg<~<
zWf?)vI<E+CgXe{34X^LvVZV6x`=&Oo*W0+QEMFF4x>K5-^M%kbJtKu_mLimGbo&De
z{sjej;?nQaGYY;-MJEs;LG<G4p3eKP&et!rF79}*L#^1Aws#7vY7um$)pcZtBt2<)
z%{%|#;Xfc-B<V^kYTxxf@@9(Z&Mmn&ufZzm%~X0>)~(&kr`0V7GevakLh3?NE#Cg3
z7`Kd*Ff2kqz_<){LRv91JINPJ!#3Fg4UO|wsqwB60b6n2DmQM82(cBgk0P)LH;jSB
z;bO)<U^0|hjB9bmyfekn-jo?)>+moaT3PGoj=e7)?Pi_qKL;kcqm^~iY-e6kUo<TL
zwTWch($;3)mPB=*KMKvb{7-}n$wK;^N|Z8Nmyd}c(mywq=#qBrVI{6tIAjI(&!@^V
zlvR*4|A-PO_!BCSC<BswMg2ncqs?jimW<uuXl9g%UlS$LU6vB*j#DDVO6`t4$ZAj`
z-GUO!Q<W`ham$Nh-1Fw6QVkx4IJ?X|%-nhkQq3xRMj90S1>r5E^pgV&^4ABdnt<*<
zv>vD-`fowTjYa>g$ZuK@KqOY`=d2LQjXA53FI?D?E0iZLhpku~7(zc=MA)#1uoYND
z*t4E-SVUlLs4oeWMtG2ReL=}s4$K+L4jdv;KWG0!Y>RTSy=PIZSV~x7v~Ug0-pZ4H
z^MvZDDYHmz$h+`>qe<&}p~;UNw_&%1XfDRfb>TeLW?>^dhXj7HixuT}Ky}LZh#rYp
zeLlWCQGORUvs(-?d}^w|vg8w@EAq|JmnEZ*?=2?(^zMh#KMeoq_y|@d_kOM{B3&WU
z9-RHgS7|uYT4Z>5!<ER@Jdimnk;3nN?m9&8Jb#;0tIMuJrl#0Bf-ixz>YM~f&Cu*7
z+0sP$@2IxMa;43|7bw|1R@sG=R&F$|fS|cVF$v{=02sywuKRGY1tV)i7W{~s{huHQ
zU$kuMUT#S@9)wHNM|FFa2GVtKORD}!QKP!O=Ob6?JEae4ZBlY{)mwpeN3k1TVcxAP
zRR<opKC0iG-i$6okggxq7d9PBHP1YqxeJ>UVqx=BTG)JAn!BPoY+li9ed_5+ZSP6h
zd)BiVVi1fW{uf=?DF2kYWQhVcJ22@bpa1?TB~$QoYFje;ty|Fi-qv*4-jr)EU(bxC
zJ-bpu;j?aZvPzOjmAiU_C$Xe+E~phK7rV0l;0eo&HLEb0vxIHgby}N!h)sEeOgw}>
zgVw{Ei+oaPm#ab=wl*uLw-UDG4+v(GGfn?1WK$@BE4q|u!!K%Dy=h@!@z7E@UEOp4
z!bhH}`3uiH%`0WqpLlBL-%9N~lJ*=;*@e!CUezzX3Ty3nVwSc(fAKbB#~Q!nY%p<-
z96(2CN6GAA8pw<{Zm@UJWYxkRB4j1sQMMZe>#8z5!fFMNu!j!d3Md1a0Q_%&XTAWO
zC*A%zWud@D4YU~%l5Pi9JA3Y5oWHtoV=??*Os#28+k42B&&4Ny%AZ39xc|~BI))Sl
z)l{OG{EwbkKY(5eXuS#Ox%2CR8k2t$z^^0NJbOK1xq*ejs6`VMm}g<wvjhu6mMc(2
z^y}-;P}#XeKXyF80VzH?s9?XtcfK4IMI*Om--Tdo9G+L?d54Xow|!vE91{1RA$?dF
zUev)mFjW#wVbMt5+swlplM`kdJf2MY?!q%I3F6JV`3MK^QLO_0&<5DR1Tfr)F#iJ0
z@dbqWZz&4}&D6l#5g{KHi{ljw<kRl`T-9H+WPiUzt@Eet`%L6XZ@n~mGSn!*X<G()
z_Mcu)Nyzf0Y2E<Z1E9)3#+&QmeI?2yfE!SzQPzP1l-aQ~o%X=?!7Uvjs)K%&h{)O$
zB43`nk?kMbx{HPVpShG`h3JLqiETaNaolkyQobDtJ^*h!NJ^q>tYpU3=EkuJiL*1~
zN+dk{-LF8_uVl%Z(JuLrGA)Ebh|InoW7)=`YQCLl2RDTk3N+3=QCaqz6JpyohCssC
z8V%0KN+Q5s2#|WPbrd`35`mixL(M}<7k!_%6FV9MclPqdtv<ea)p98WR`XyGGcL4Q
zA#x4C=%TGn38uzk;}aVzFwpMAqwwTsI~~aJl@G^I5F1kyCXLN{Cr1-feLl7u7Qk?}
zgQ1ln>53!U=R1S#Ag1E4?Dg$}&gM#2+ZSwh<nDPw@PyVa*Uz$p;m>EK00ZCW8=*?F
zI_B2RRIeNiJFv$Y`y`=7+z1YTGXayNuI^{8V?Yree!^$s8Tvx`5rSNwiEXrVlF@~^
z7_hCl-m|m2b&_OW6Q7&+91XT26at5#W?e6Zvp7aKFp#DRsX~4RTPWc=1x&6EQ|vhf
zc@y_jdPc!fDw(ULKDApNZCJ1G_TNAE;NC*fqW!%RwQOhF-a+pAKCJWMZ{U*Zn?5Zn
zhmxvhYsP_J@Y9N#3_YQxe%XWR`H_X~^H(4K@}grgwA8a~Ta2l`-c(tyTD<SGVq{w*
zxBXA8h%qk4uy|>H%Nl}$YpBPX5C^&if5KqNxoC8)*%3f7{CNrn18C3$^jQDbWV!@(
z1Ey;fC{uw|$Y?n3E$mqY&+SOrJ9zO(GcH4a_YofD^IVx7J3@jk{lh1KnV5;+A}$Uf
zVR2?m7SF{IB<wl!ArQ~SaU<-xey9k+DLw+&B9B|dH!w2@EId3{*oz}kO7LHb|FUp7
zG=&w=6vDp?hKeHm(=#U>HUbS{d0UlMej##?JcBMy4BUgcC7GD*X9M;Wom}IKu;T=T
z@ecAv5T-enog9f_H>4MQyDr2B+ISwWOx8+yQs6E>B1S7Er{q{%#?EPC;93RUi##`!
z`1DkQd+K95KJ6?QNeQi*@=e{GN#s0jq^Hb0xjwCu(g2a%{RMs+dj_tDQ%H<wH7uVT
z#)f!^PsU@n3CVJSAf4zFxD%1@YIQn($#}M8xLjy8dV(TPMS&~kARGWByw+%7=ohgf
zHd_8ABDr#Ip^e2Kh>><$x^@bV0U+YH>~A@+(bEi5z%Hcl!lqzDxuv6kZOtO8Lx)ny
zQE*GK9h*vNJE!FXQ68+!1F$k%+ib!A1Y``(eo4Lo-)Ag^NCX`iK7Ufoj^g+V(1%VQ
z#w#P(tH5?vLYk%B4%EQ<@fFyOm&C>|6Qp*C3o~%D$C(9~m}9}P>>JOTHH=b&(Hn6E
zn=i=e4PbHTNer%jv^u3dDQq(X?M>j$ZftpqseN3Ah!Qa!Pe9u@KtW;`3z@J?n;gXn
z69f}-N}O4cC*`}m!e&9>o7mtf_EEr&9>)v}V;MG6=*3>o9V6F$H)Y^V)=xPYrr{Nt
zG#ZO4$j6e8s8Lq1<CV2vaDrN$&U=cWy-Znvbvs-i6}(yS+y%Dy!0tNZU?{e42M2M$
zfe5E-u)UkvQqA>RFW}^l6WVS--AR=o7(AU}P8vle5<<%{J6_iIL^6;*i1J2P9~MdM
zye@t!i^xT7uX6^S6BP!RGba0dr)X#rYT`MU^JK_zIsyV*78(rGP-Y136^MlIDgPNm
zNcq1h_<s-#K~GmKgQKw1W0b$9=c@=bClHq>!y0o0&Fyck6dKzA*u^-PbK0ET?3N2z
zD`p&%%G4a3c{%}@T1(f+eTMtlt@&IWrbjdM?_#tjt|BMqzjkTc?xh_+=zQGy?|pr$
zx9P#T`RP^K{Yl4=JooNYy*n4DpSK=YTaTw(`=5DFu6Qe+dwr_cx3Z;mW!v7BUB_2;
z9>%`Vl5Ibg9N6JmByAH;d&Jtz7h`qAJ8}gB=#7|(@e`yd{}+N>5zxnX>1J6hZ#j6k
z!9SmlubJJuuDW0J${$h#2tm*#l~=Jzf4%L8>1U{g6~dZt)u7ECY+HwBot)I17ufbx
zg_>RYe<{e50RM`fQE;1zB!vX6konHbnjMR0m#(Ngde!QEY;o*>i(IKxQ=hiit=KzO
z>l)Mc#ua<lYC}`n-n3%xUTuWQX!DA_XVteoZQs6PKeSrEDQ(}hV&9vMY}x{|(u%!z
zwY+|z@^>5FYf#I1<~<qv7Dwr7qc7vYF9gcwU6~?^xg_7tOfkh^V=7(qQ0#=o?x<SD
zE)fTQk+%hTDF)%Qlq^iV$ym*Dq)KCfJcz31PHF2sMPS1yw@4=KB0JeY*GGn}w@>Sv
zGJZnMh!(^S4X!+8?aJJ56g)NAt+X22@Xf`NKzu@<%ay-Hwm+dh*oDY_=@S<`W}Y?f
zPP_Izb-nh7MNb^5;}=ukxRmZ1NnLqO?RqU^vpSsXg+ZOB*9c4@VUYV8GBM1_g+ZJ<
zW!GF#Ee^#mP9?BJCB@)mJU*2e!Vd4e{X~Bcu=z`lJd*l5%0j{aLe;531O~;nj-1uR
zGa<;bd^sJ2>|a_V!jPfh&ry={V?=m^ysX4;!290_-d`4kXAn>ml5+`&j=j){gYVTL
zfEx(=Mp^%k%KF$S3lZZoI<p;*@;h_mBL$hRxKVdGVLE|f+WL3z6s8SKwX?BN%yU`A
zF?8O1o=*sU9b2SA!$;Du?r4Wi2?PQMIxrYQhoB#_gdLkW*eVIZg>gR|CW*a|Q9dV)
zYMTwS4PX9pPyqpIBmJHY-S`Eh1`8vG9fD^>YP9Oj?m@!_>Xd!k;=!de%cmb-P`CFz
zv-7nZd*P*Nj$uW?f1n}-k9JDC#lj2;IoAer$~yNj1MDX`V7m&~guW6565I_a&?xdh
zQ;~Vv=R;5Sr9J&A(PSZWoxToL8vAojDe**NfX+Z9f_$0%IU$1JV>`P5B4>XNOA6>o
z8_`!Wn&u1W%SBlz$WRjz(=5Ch<C)k8!19KWKj-?gG{6zU+do5T%0s~TdhE=A_xA+v
z7oadEfQ5-ktIyhZb6a02!All2f%5AGD@2XM8mJqQTz;yr_%IE7Fbz{KcFh^S)w(OD
zRUvN7idr|aj8-TDfJ7tmajgpZt$LcDdIq1h9{<phZq05><fZVC1{+;#|1ARY^VsNI
zS8{6-$_=Jg0efbrx?)>~hi}>7s_d}Ul#?l4kkc!d@aIsbFy#vrAf*#l=HXHFws))y
zXSX`_JUEZlyd|#UfppI@R*4CxSS!()K08Er_Czk9Uw^o%$v`Mrw9mZC@(*bh&}n0Z
z!?eP*T|-uwQ@G}3`GoeGYpu;>Pt8UiM{7Iq^tUYNSKRRHp>t09b);u|@huxW9+PC)
zylc*a<1wvtJmy>WIs3P6&)Mf}fh--^3LO)5564b@3!d_Yjw&mtH!u!`f@Z;X%bSM+
zZok#J0ki^nZ&9uDuEJ1t>ZVe4I(FfpvT3xjhT~(fOvkA*l{oQrGE67SK<~pf@d`di
zBPp~CRI8x%@67t%aq<NQ#J5i10)Kj(WuWv@)TKKto1hd20_;?oK!D9>e7PokT4?X*
ztiiPzS@{KS)ij>o1<=2NIlQX=(Sb+D7kkoGtq)v~$Lsy`iRX14YF)=tGF5kM`Hot5
z?16X1Q<w5=U)|C5;OsN+He}oBf8KIjZ8@GQ$KSS8+4+_7`sd{>YI)1^@&ju5fz-is
z&&pp}DXV*4=2y%7sj@y(h9heEk>};7)bdj+)lJW<d(`Tl7d9*0#Ia<me^9nwI5w#A
z&w#b*m@-HZW+7ki8PhXMA$?W8W@;8t-?EWA*0nCuePvy>K(|)iEkP-rv)>}Gy}T;~
zEZ}->Xu#&|NrS%hcN3QH_~-0ACp23S+-DCAf<E}DC9?@EHE^D$W5%G&fM)T=O)lC|
z8ut57hj1(&)J-4<%n6dR83CkxZi~XvQS`pTtOqfqXwExy*i(WpX&BkjIWKV0X&@3L
zf?}C94?zs@%$kjEsHqttaYvk5A|qc8ck-{N>{g<v%XkwfJ~^f0J)hKKL(y;E`n}#I
z=MPFAmwZr`-hNQ6J@~-$msMLHoFbq3?F+Nd%66~RH9oIvRqI-xmbZRFPoHhw`=hdM
zJpK)L#v@g4#j3Tun$bgBRsM>GEuv{Oaamw1RVqNiZ&L7G3dSj*2H}H-+CZtGfJTSr
zB}-By#8qty)l@4HBPt|Eqk#Z6x3JBeNRdwP_Q0}IqP3+|LRBWh`I~P`KeoTJdJy~1
zY5!TtvK{skwGIpKBP*xR(nhnhi=#{1my*k;9?vZKaj@T$(`w5JwW&XCKfB`ZzJESd
zxnnV@R_;mLyEFC*NBvUuPbK_hc1q65jMeL?PIdNwcv|f|`<a9rvcFWmpvSCT7&0N?
zVO&%}y4J1&&Gj=MH!R3vH=3CFm~kO&!^}q;xtXz6r0|)}G3G{!M?4dz1u@IH*evLh
zOK%bV<z3i$P%cg`cZyTNvE?ybN|3^3FdmfSpPvC<Ay-b6=bTSog_*O$ymt;WXq9Q}
zcs0^JruPLTxF%Pda@8Ogot>U7w?Zc4M2#s=E%MaLbq2N-I2oOvv+lx)=h=^2HLy9m
z5p#BZcFX!Gb|fT1N@R-6wzK^&F?T1;5d6k5<uD}ZNAF>IUn^#MoMUOuK4?0%C?|m(
zT%IG-67%xle~k#3P44*R*Fzg7cTD7An|`i!E^93`DX(X@SteMBQLbaVz~?RNoK@-1
zp7aQ#L#d8a_V;(7ze(zJ4Z%V$8PBcR=U=V#-;w@_Awc|!Wd;W}56$lPi#9g5JaJ$;
z4~YD*z$tMyqTVS;3DYjI*;=>XhvW6=*u<N0oMj3NmLm80n9i=PSgA%cV{0dzw(!A(
z#PqnBv~e&T)YLnXsE`A`X1^`ZB$P2k8LQKr*n$EB6Lx-)Fu=utB7p;EOeA@MS&J!u
zHz3Wn>byFKDlzrv6+TG(>ptEmA;4Agut;@nQ(b!&2cNq3V0Tzm?R@BYZHHRhk*@Ur
zVbvdg^M8Kx58h1g8%XaRR4WG`6#dv!iBtGis%qao^61FCKO<STZU1O{+fwU)e>~NU
zquwmNJ3rdl{{3(M;LXQxraO+NcOFZ%9M3qc75%0|`!Y5hZo;^j<_J!QBXP~0Nb1s(
z=H-rkd~VZRdZQ0%#Yvo}$^0^Kh^$+u`EeNuG%(1wLMtViS>^`@V0#ZveT^GqiA%k@
z^%YIPF0_YXU8WNb9*~a&*%kPS2+W0nZu>_r=~gB-Pa>cZ&yZ#ABSbDrJnEy*bT9yT
zz-Mr<2UwUAFaVIT2lSM5>mc|!Xk_{1BsR>BVW7Pf`g!6mP6g~7gD#?(y%cm)&_ls~
z3TWqkf@)^Kg+L=|HRSD(J#3p!Q9z^2?kP+w1v6hFdJ$TaCf&s$hr5tIn>FGbBIX5Q
zL6al$&~;jR$MTLf1g;aZUaJ$vM{K!e=gbm$=UsO!5T$C!VECKX?=;wP4D?&px3E=~
zL@OS@%UuJY&t-$kLEk?}uu+CbOsclr)+~2&Z2|1-1aKaLPo++0iR|GLxkHJXCok(b
zHBKK;Wh>O?J^ys;`&+Ro@LAbw>bCCpsuwC2`j>-G63>rcQIB7Fy8p_&Wq$7?dum(v
z)3Vo6uGfB^E_;pj+CuF?=MNkQojJ#EkYLH$wGW+(t-6+Pm9o~!YZ<z|L#OA`#$h_8
zm)^;{bPkMs17EO{0GpoyBY%(pUUq*1((~ZcZK3m_^>TH-{ekFNETMpH(pY+hf&K4T
z!?s^U8JHXFW)9!xnEiWWxD8Au;EcdVr{3Q_ab`)@a;tL|Hm@@?Ef|Ucg1IU1!Fq1w
zqHllCp^m+|GlSoEj$0-LFUqDyvR_wV5V)H@?G&DbM0!VtI@XwoV1Z_MG6vJ`gI)6m
zKDgrx8i<Gu!oFSP#Yr%5TrM3L%+NNSd^S6NUO$V!g?-^*<MLV(hf!bJXG~V`8TxVp
zj)4Goq7(kWUj6!t0F9-$AMKV_W@|5_W!V>hOi7p_EB!v-1@W~B9D+}VQO)AVF$Qe<
zJ4U>Vwmb7Z1<Z88#P)VdpcxU~-fR*ierNXa)+$&70w-hOZZrk1%XouE?e79OytZ&w
zcXi6M2?s^=Jl}It#oyMGD^;5wTwE!sS*Uv6&_ze5Hgu~c-T0KkJ3|kLu+O04tOd5P
zmGUau)%Q_(_58^5ns&HLKd;%V*6dB!^rXvsUwEAO)B<)9G(EWZ2`0?ST}$;#-c;}4
zM|7at^ZHJ;zVmr~uUg-muHT=oI*_V7_{5U2St<^%*=%&St*xY#uZQ!8Gh+!fj>I<E
zE`7cN9ph6@WVmMESm5(#f$1yPPmawdG?C;oM)pY#4w2MJ?Cf+7akg{g*`weK_kpqL
zq@i*);|Ib-P?#8Tpu1oSs1m>OYnV1j9+rA;rDrgFIt;2a%;Vw!LY^j0c*Kl{Z##e{
z#c0ATZa@<w%kam*QO!_H`*5Zc--*iB<ykYmZaOhOWdW`bAqNm~)>AO1oBmO#{s9Uy
z)v)s|8CF?fq7#IOcbdrEnA~%>KWf!9@sK|eZ#Z7D><;DilT?1*UqgfHQ+U0xuHIB|
zT}_jYLb?FHhGy&PR>F?f5DGgq>N>?p=43}C!D>CF6~WC(QGzo{HKmawoI*R(l|z(^
z4f1}9okE~FCg5Wt4l*31r_B^>N5G7(V!e&8DN70k2MGCphzQo(Ke4|G6%-EWZN<7e
zv9wEV?ok_Xuu|{p{yx6oer;*={cCDdPukwM+Km%n=t#pI@56wN!;f*&;S0ALrf8fh
zjFS&a;0sw+@y_hS*^C2m0Iq4x6j972)iq~|DdvVeykLK{JL91{uT;G$wW(LF+LtMz
z`%<Z)DN{zVa;dffC#j5OD(J3Ka#w#=g%~Z_c}bZqEM|3FwJe@lI<;K2bXMK5?=y)W
zh+Gs!(ey&CqjafiDfzfDBO&_4_9Xnr?$0PHvLcr0VmWaD)XJuv85{lf^ra4usy&z4
z-D>fs&tPfSQ9umn6Ks#8dbJTQp!gM4rWmg>#bB{7d60bA_?ZWHth^WW4%azQhvdk9
z=wvRV2!`}|?wO2?DEMu3=`X-qV!-<zkqFT&j(|LWk#kKHV_cMkEYcd;9LxeLeH<#^
z0!&Z~n@kj=z(p#MNZoMvOf_~d!#V*f?BnGl(YUB=y4FZ0-_Rf-d^=%WC?eGdKSOH9
z0pFhro#74yZ$#yjI5L0sEQN(F!a2t*5A>foKhQCb%<w434nB4^9X5M}akeQL^8AB*
zTT%S(WB|VHH{lzmRg*gbJ>Z{n;rwPJo7_b-7k6A{tYVmM^V|!D=otn7BQ@Jjv;mFe
zORG)Wu-RxdZQrIJ9NyfTvez%{NZWU^C!FNy#g`>Hty0J&*r75x6OgI-luH2kM}&!>
znBkH26hpm5z4m3ijtL$E`o|`qr_ZbhN&p$q&oi7QJR2F#+AOmN46j+f>eOq;ycbzl
zV-=}HXv5B~z3sm4cKXOwPn#dh<x)K_Zw0L^_r7PH70#&EzoKf9+786-lDv%zEoqPM
zsi*JvE`s8Bd;!J3gdc=q5@XcPkKxI>KIE9hSS#cnEY2o(PW5})9uOYyE=>KS%4PK4
zMzl?7Utn)0RjWe5pHVAqLo4z9N_)Xuv6*gY{_MhQi=*#dQ>&Sl7w653&2;q6%aS!i
zng!2Ls_s31_SN+y2YkLX9kbd}umYgUDZIHJ9&vf3N^8vsayjXGXDr=DX64oh)>L`E
zRoR++L^UBzA7`nxI8NtU+OsER=O+(@kYZef1zl@o3D}UIvOPyaajo-Kb_{;lAq>0x
zOj0^1hxRYgSr;M&>Sj9h-h-3)+*;{~_y{GV$DY|?()zp<LH2A!gjdk&_*fis-|-8#
zZnE~6FV^f-b0PL;h2jzDtJoLpuq5LSK>T=h_!#3{dblay!$CRtZj2%K=6vOhEfDx1
z>G|A!MjW{5SabFOErDHCVo#Oski22Zx^^lDgLOi&I3eabS|w-6w~3riQJnyPU2Ndt
zcxB~b-c8Iwb%VU0qAhiKxU!&1iyA(^!9O(GPhW6-`3A`Qu$<luv^ZGb^q+q|dTyZv
z!RX+eQhdA<;99Mh#+Mw*QPhn|+CF|pTQe;$*womwVdL)29RqA*)aSqQccwNj*W0+w
zTX4-m<e$%H<G_-6#VX^J8m1smt_aXG3jPl&YZxzZ-rEA++ts^%BQtn!rn1=KU2cIy
zJ@Ul$2b~!Sw;zVr=qFR_LejvK?N1U<cKyM{7ZPq617t<KG^=KHqo4?5R~I>6xv-wK
z0{tA4`#ee70O|qI4cs1yRWK5M30BQoHlI}+g_coGa#{78X-|8~-p*@9HPJ6!kGK}a
zldsOInYGY?ZAI*CO>8iNZ%&~vm*B`EeTykO_Y8*<xwF1C7cRwz2WI;|hi_xIh3-(9
zBR*f~pjY9lmKC4aw*WLRJIYv`Myz@89m5I!P3nZ=LruA*ftufZvF@OL;Ve9O6+GS;
zoy1glabT&$w~eoiFfoRG&VXzL(|l7U(<zWd&re$>zaSI$W~vIYl|*b3fhsS8<F93M
z^yKOgwkLrLlIBV$1R4frv=c&!--%#T49lH8r-bd5U=s-cQUYm0@{l(n)ekR&+<l|w
zM(p#Q#~vTPF@>tnmK{EP1kJ#M_?W4o`+Vmn!Tv}AgX5)x<FuuQSIP7#HREfvUuu6V
zl#|zY(H>u;?eo7oAwDZ{JqM`{U(P$2BH8W}stel;>%0CszO_MG8NQafcAXytKH7P<
z^R;Y0=fTYV=mamg&v%+WYr&da$C19+#@BT)HyJPtB_CNQl-tBAqX-g2gJ?(2`uTTv
z*%w22SLiSkSzRg{JbWi?p^VMM41{?I-~8e%bEETtZxI?y!^E^nY{kgby<tL<vHbHC
zBfEeyNtyFleuSP;fWt_o#1&+trR3>VcvGwswb@bI)ll-lC#C06B;!CFGed1-su611
z?o1Kg^R2J%%srf2z~?G_YBA2W#B<L0si2o;{H(4N90ID!7$M#Re7`=tqXh31wa_|v
zNO@_V&zd%$=Npyir$Vpkm1qlVWn#Y>#$Li791kf(SbSFt(;l)-E<_ia6C3Hl7!;Zc
zOr1~u2nzX2DJ2w;@n3Ubj7-faXQ&(^1kI&?WLNnaWg@!Jx|n%}Mn0U~{d@`Nhx`j>
zsQB3ci_CJ(vUtetffXDLY~P^0VT3mK2&yE&o2f*mwj`~NaIRuQBEb%R*UH&>i~Nb7
zm<rQxii}``u*@j1VoF*o%gC@oQT)T`elDW=nNOfVP9dKpt%l`hAMo=}OizXa{9ArB
z?P+Dk8UrU1K!L+Q5JxI3?!x6ORFY^84rVKXspZ*-Cn6Cp{-RnwN-SZC`Z1EqHUchF
zz$`J$FvG?t8=53Ya7U{h6uUve5(O<3T&IAPJM3E>{0la}Ot<$bc!z@DreL0e_bK>&
z3jT-!G83|siP)h%>|h$@-_WyvOTk}I@RWiy1%E}s-%{{*6tHa>FaqNfc@!`Q@M4OQ
z8#8l~Vrpcrykn{;rrBVtQMTk|!VVK|*brbOpUZYM*AX-w4n#kud<#JFCnX+%eqpY$
zSny3&%aG;YOBa4-by=)GlMsAL!CJLssrpOF`>|B>u~h%DH27E2?*Awq_*mNUvDEsp
zv>i`AmOB2Ubnqv(@{jF1KeiwH*nZ?cVBb|m-ThZqsvGZLSZQj;H}+N<eK_^%C&ktC
zSJTB??mJhTcP`#}zkRt@Z9ed%<wNHWZ6A8nzVmAH`IJ;WA4yB+aUi9|4kfg;>V<XG
zYH=^ruSxU^Wv;a<!yaWO?JRk_#k=TQlkg)F5zCynNLKfXba^4UIQZUNO1ix4Tu!Er
z45<e$s$IiRrOT9;GJu=X@41CLDe2tO&eYyh>h9A|rE?<vT*hg$99;2~%{w0+S=gz1
zd>I=atU5doPNypHEyx|Jqh-knCpUH1N!4+3&4JX6*J3$iSqd-je;j>sMfIP8O9>wQ
z(7wigGcJqeC|v3WAJ09RP&-dk>d_xoQ{quDbE_MgLrb?P6FaUf-J-bNs&|j-X#dQC
zM+`rf5!!C5!PQ07;Og?u)S*ji_sCP}s;I$Ls=*0Meid+17_Wl>x^ySC|DxJCtU89N
z4ks*7wNvBQTf7VSs3Cp`9-1Dp%zlBS--M)Jz{B3iR@JeKkn|f!`UR51i~Cd3@X|zT
z-z%#B)u+<1KysLnJd%&&kz9~V`%~R#)IDca$5}%0h`_MSvVZ>InuH&LA!3<b40(s8
zZ2_c#ACZI@>>Rwqs~0BTYhs<gT)iAs*LOV2cXXjPB^_NHTsoreIQUdLDiA)Jac;I$
z<|2#-4B`1E)w@M?Y+c;B)TB1=R~`G;97v<xgO)uDI~MM|*S=J%He%(5`{mPX^aDE#
zwe~iPcOI0EAAvApjFypBYS}Y?b4|jJNJ9(<c2H#o=93G9k3i-FOHL5hD{AL)b=Qff
z(tyBrKv4OidC<rq;MJ%$_db;liR42W=Qc}kZe{Rb)lvLlaK3lJtyXbD-?4aS>6Y4h
zNOc@qb09<JENaxY2uIoXk1X$0w;!Y$wLKZ78ntCg9hPH@_QfmjdzbF0zI_>V!?7nj
zs5g#LAD~7qi)$XVg&$EP#4@$4Mkf~br=$~$6HC|Borj-FCj_P^L`BXo^e#HzJCc&l
zFAXmDJ}FUq2G#a6Po?uB-+7{^yc*#F@1D)r!>c-ci~E;4fV1j2NYvCTsHqq@p_TC?
za6$~mHfrV53s+LoX|(V!tGkXrl}?MYP79od7e*I%zV`;B@8!`aooXQ(-=EvcHp_mF
z6ZREvQytCt;@CyC<%sGyLOAUgI5k<k5ALl=_z^fEmN~|7+BXlJ_ANRW@2S47r_w%w
z(>{Sy|NQ8}&PTwhA5A&ByzB9s>dqrirGAmEpPES@#0GccBYD35;gIUsv@o%FRo&uO
z9e%>dFEBc9u~f|iCHfUOQ8e?W)n;)n*23~{apLQvJ*U)m&^K<xdlrkIYJwl}7GjL$
ztw{fsYT~q<v@BxC(XYUXqBQj|KHRZ_6XwB#JJ3%lZ2We#5@+jR4M^;_gK;*B^@y&e
z+&!#UQx$tuZ@cQ~pjUc~S9&sT8;Z!M1RP4wIkI?Z*_k@<4Yli%>bOKr51cqh2InJ=
zj30roV1*1_y)y}k{~8?GhIuZ(VrTS<iK!uvkDsyp%-d?I{!~Jc8O6K}&hWa$Qcabl
zUr|enX6CG-TfTBVFD~v(Nf(!{q<YV(9j`o<F0$@ekuK5@IGm62VbK+ZF+MDM!eepK
z^nxFOBVzcP0P%{Eh4AA3_o69jWa-XwICc2Ey8nXOIrLN-5#^4E5qf4}A|;){$AP>0
z)wYvQr86S^OvY)?#|sYxUd{Ljwdw#rPWf>L!3ouIV$Fe6F^hODu2gl)A_f{_0yV^7
zzbDjQ<x@~fdUa|4@{Z-V)b0Uw&)`$(RZ%jzCs4lQ3uv+9;7AwLmcFMFeYTiArUq-z
zZ?JZT*nC0O+Af+4b6Khe-)zpG-_CMb?SjtJFEE~7s`i{w+s{6gE{K9J=sb<42I6N0
zco{}(uB1l8_QC1-EjXD$b!@{leoWobr#kv*M0E(fe3*1WYxogug;)k&9sk7}>jjYF
H`p5qt%J<^>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/interfaces_base.cpython-312.pyc b/model_executor/models/__pycache__/interfaces_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..005431f760fdae0ee4f3cdf8d0d8791fa9827be5
GIT binary patch
literal 7934
zcmbVReQX=ab)Q}CE<g26$&xKwYg<yxvqZ_Ze6k$XIY+Xb^9LiJXyd}Br6}&oqQwv0
z>`Jy284wT$k(&Ug0KJ-S4>%eqP#M0WDi9zp`bRE6fF2s4AT0$^7rMqquR!}B@8}}e
z{MGknmlP>WcWD>ke7!d_Z)V>6y*I;ORaLnNd~xANvH4~~{v9jD&tVk`X&WIAh(Z)D
zP7+**OYk8+VGG$3LP$u6Au%C^q=Y?W=a7ewJ3<bYI}@&ui?!L}?t~}gNmPZZSY3!$
zCu%}9tSrWB6Lq0Fj;I{1f__rGKG6_rU^IK&n`jI*awI9Je5e6_jXY6n)TSq#DO+eC
z)T<PS>bTWg6ni`W(D{V7_*xjBYj-}y{h{XxtP#J^e$~#Ci$tlqN0e$+RQI<)Ymxed
z@c`EWrABR44<b!HxL_wlsZ|e63QFBQA=I`9tsZFd9<&Ca9ag1nDvalW84lnK_=B;%
z_k_~?M;Pxx#>IGm-dIlG9;qZ>#dt6}>xZ&K-zJ#<h_&*4u<~a0fZD=VCz|;a!CZPt
zf}^`gd$dg2mNIGD%cNyIFysDm`X17j#sg_t*^>4ENZW2n+X~Vi1ZmkhmCkFYv>m%h
z+fgR%p)zSY%cNyIAZ=SYeGh3%<AJoSY)LDFw4F@<4#SDMZUxMpEKgCA508|z^_X&0
z^-c0hJM?^Qm)U$EQ3ueD&-1>{|H6TMcB3lzozV;7p>JIny8LF~qG3CqoHrap@rb6~
zh)~0RC8n!15;q*9G^MAaDJZ4pR2ol36r+yLCiPfC4M(Tc=yYTvt_FO(AqD4W)HgN5
zjya6s;|zB!8Pmh@)XkeJeGFA?c4j6;buB!78>p@u@pxh=m7I*-gqk#(O2t)ba6zcp
z6?HN)8`ljX7>=fbKAzTt)P^&fnv2j_B&kPn6~zy9l6{50gzN!PNr+QOh*!9fO>rx{
zDkwHpR0KtwloaWn7?KpbYQI%$^(xC0VfS{}KL_lebI*Rx-TT3KE|}8=eckh-&to`o
z$yZZ~8ei}Sr&KwXgk7GDL{*up@65)is>qWmDo5gRIe}anaL994u3YsS?m6fRn}OS9
zNHbKOjNLILs_L^e8HieNR9Xwx3#io($UJ$>1s)Th%@8y-K1ugMD+TZ-8ZybU{QGM?
zdSa$$CN|TpN9ave@4hqJKX7KcU+sy<CVFP(^{G^{2dD30LWR{kYIIglQM0P`lvbgI
zCnB2ap8-t@huPVO7wSt(_7~f_aB>uGiF|yj06Cm&EIBi)hhvHswJ;c)2{N&zOhMrR
z(JdS&WD&eeQU7VDUg~p8#BP<J!WZ$MgMPP)+ET`}$Q3!p$h^%bEOefqnTgNKdTLrt
z%4%XlRg_rrrUni2cuCT6zu|@5f`y{!+g!i@>+#*1$Jx>1VV2HTlNA+CG8)n0;3G*z
zz8!;;pFnL$fVC;?^n3j$PWgLfP>Z<}{$77?mwbCF29^ibD91EejnH^ZrG9xduEOR+
z*JLE2%K8-05-J>>!lY*6S)#%&kNX2Y!LUz7w1}=#Lo#jD@Z65jB&;-?N=8+B6t)OV
z?;vFKFeDmovn<m?kQp^QMqFswKIk1JKlVKX$rAb0UBA+oZRy!?_ilOWf8%M(dD`+k
zU)T52CRA1DUBuh`n})7jL)Yqe)*Je>p8k9l@tmMC&gh&;X)!&PN@`!O?(_g~(^g1)
zwr%054;qRpZ!W<OwgwAU7V5S|x0+B|4RvXWWUmF;`~XV?Oc*p9H#i(NT;VX-!)zSO
zo^be`*+|@?*u!BZ6%B`J4UAyeG@a5mEQw$=(J4SmHL0a2JqB&G0h8mHpu}t@CLL|U
zDkjLLeH)T{<b`nNg%HSG$_jy}Hb_1St_y*@;1JKOHvV1f<JLTZ;?s_wcl|?G0gHJr
z5wCNZ#=mKO)S4B7CIt!~_iYH~s@M#M$PAmJUx}7%3@Ro2I|-EsXg!ec{O)o(+9>-L
zxox`~1LX-YxB(@?_0wudpxg(U;WDuVQKCYxnoO?}M!doORpSgvXg_rNI{Y+*t|hWr
z*Yx1fPYx|z+HyCoEM)#@-F+e}n2J)d0z5;8ApZ=7od}|oBDKmj6wyGtT!A=z89!gP
z<`TZpRvmYYeY@d|Vk?deNW?FaaEbdX`U#7qh;|&A7w09PJz%O2+9+*@WT77&3fnOG
zScm3AY)Hg34Xhc!K$XXL80ENy4*rp#Pc-a+SPTgqQE)!!(rG6QYS=A6V3UD4v7>7=
zk7dVz#(uMTH|(plyTh*@@s6?RIhgzn_-QdnmdIA?(aeSH@xiCcdh1YDXxVZ%WWBx(
z_iI}nU8~o#eV0BSUhlY;bsS*?|AxB<(B<90{Xhk_bbMp^!iMMYmZSRJ>igB3o(r3v
zx|gEO>B>7uZR2xy4YR)8)kgrc_@QlY1^P4FwnE%59ka&G^NJ0WtK^oJZIhfL+;c2)
z!=xA-7nR~JzsS?`ddWd861{k-Djh#Pp}S#A*avh^v3v_{YsXhq8M;p|1v|G8Z+3i&
zxCrW4ytHscZ!9uEs|5#&Gz~ZeCJl;*Xf*<Mj6Q+E>ML7z3Mhp^NZ#Wv6OJLrpTNYh
z5hZlF&x6;s{5Iu&T)W8q1^0mC$d4NZ2wDEtcAGPCyb4Bv*oF7^8vOKaqsmk=3#Ki-
zS~Bt6Ie1e|s&{7SxrMG*Rm|$*AB?9!$F+0*5_bru&=7sU_)qc$0RFz<qqo!ar+@s>
z!R+W;zdk+oKL6<L|IzR$zF*hMy=QOb76N-48+!O|ZAOj8CSy@~TAjb0qKYO@(o{kQ
ztdqwrL5c==R_@R!ZiLTG2Oy(oApuu0I}=w8R}2hT(<9)H4MB&%8e6p4i6{o@2A@nC
z(pBbzn7L8}NW&IalRm*TRR@F7>D!v&w!i>lZ;cKCAB(^s{CmUPyp}z8jN%O>h&^;j
zV1u^22htZZ1FOoq_ter=Fu9eh8}1{UHQwhnzNK$%)$d!!9fV}PKDc!Gg}wfLSLXDG
z?HkQKKfUyH_Lmd?6#GSNqi@u*!#vMb4ROysb(@}jFP);(^|G3HYL>sZ?mm!yC+C*4
zg8Zsof*>ZWBZ6X#yY2KJb8P7vYMK?RRK>J1e?qST<tF?r2fsNq@_(9uj$+^K;n{dB
znJyc&|Lm)Sq9bC?=n51nv7~5ccR1P%7KmKz1K_tz1}JWzl#pbbGG?wG;2E7H!%lW)
zdkdNZJ`K%yiM(_WXIpx9-O=$m;ho)Ep6*q3-P8BE4Jw~{Ix<k{%G(7|GMB@IvXY`G
z1#}fV?p@}sOHc&sRx83CNSqgZlCi%OY>lL7P`#sH1f!)94D1#LzT#4Z_KmD_mZvMb
zA5~4o6h%#j!B})vW1&o-;x2(gv(2|uhV$_Y2j61%CwV-ON~+^>Y*G%6$~2Okme0w(
z{(u=oS`qLK=wA`3R7X<@i2PN&;DTW<`1W3yzmoMX4uvqkL?GmKdf3+bB-#y46r*L@
zg9*M-(K<}t#sm?Hahmbrb*y4C4?j(Y1mnY@yda96=lh!TBIJ3AxZKOZ`^_)yP%}GY
zmkPj!dd0?++0sr8GMd4XbU3qc@g!17Gf1NdqCbFNaa|JWJ!Ps)3G#6w_{tCAOXgxD
zvgAk5sc5TXH(nhS50nkM0EOMn3LJ5HluEYat&$I_EjKz{f}z+~q>oh?<!*F{c1Hkr
z5nbpACKoYb$FvhMaI@Ib-i3m88WJ!>iFjJljT`PZK+;d`bt@h3dpGQdwrX0^9UF(g
zzFsq!bqs#$Zd_3}4)(9R&t!!&=2k%O(pSWd0%G>INnVHRGCYRxApxGeB!$O7AAhP{
zu?<4*B#IDn0L^K&ie{_o0uBkw^LC%ZXeifke6NAva^dx_u-O@tuXO3P9yEeRE$EU(
zG<C=juACnW8eZ%1r$l6aPeN9e2Ea@1W+q{fks=^bJUOE#9F8QDDZm1}FTzbMf}|6e
zU?{ZHmi`pmF!?L^X&8L|0Bq@v=e>Pd!Mie*zMat@-pw_2uM2&7UJ@PoT5=rj8_nrs
znNts;wKvZ@pw&yN8onRcwC*8n!2hqMQMMpVeug69%HYy7I`*pe1LY4ksnVeTST^YJ
z#a9Q#`It#z!2gGtlmZWK#TXLeL|b5ltpVahW)TB0&`vnnUgXbFo;FB!+5x;5oX+m=
z0-xlDv*=@z8hjWZ3B`%jY*H~iMIAylso3rkF5rXH4`CS!hY^hVDg1VMQdlMsmfP-m
z?sAJ92rn!Q4y(}=xEgqNfkz)r)#dSBl;6Lbs*d|v0P^Z>8iTwB_!aP0{~q^%+~?p9
zXo>^rB81m0jPY?yU9Fok#Ve5Mc&s>An4C>U7mn;U_jYuPJpY0{QQyA+-RU^7EN(b3
zOk1`b4o5Kxf@yFD8b@XnaomiWOp`&o`4v*|6$pmOOT5_l=ikf|$lgEs-<ZMe$y2*@
z`Ad|j75Y{xk;1{NoCQ`)S<KnSfe}`}o30qmc(L4V%`^$UehohjABiD6HFc(Ut#jQy
zkQD})V7@Lx0tErUqBt!@-Ppzpiq4o~gioEA;B$xJV6Qd)WRkv#)jG2~yngENe1ot;
z@y{^oMk0Hi^_#C~6fb2);~YF-_-FN4T=U~ugjtb2fmqz;Tdw&=beM5l_iF2T)gO<{
zt5oxwz-QtXgFXzm=qXHCaDXahz80awF{ISQEj0>H=Mw;!J0n77ip(W37sPOnfx;ym
z1l7R=Nd}j=uRD;^a14Tw@aA=n-T^AQcI~&IG<h4xalexs9RE84$!C}pyo9Uzgf#w^
zbpHoA`U&ZNVXOT_==?X~%=0?$(xuI++NF^fPVdUw>&`<<(q}FrdX|UMjUTi=Y~2t#
zm$-kmS1-?{XFphcxVWZo*aw${d^O=4Uh*~Eb#BFx_Wq>0K(Jh}L35rp=i7PiWTrhc
z_o!>FDR-nF^prdKbhv<7-c`rdt_IgSAAk4hNUj@n80sJC1<dltYPrLi;A-ci@2-vH
zI?m<^)Sm(kvV14uU7KVi?M+WUY|WC9)y_5VTI}!Ja<83#Mn-UUBtxu)`Pp<+mYmIu
ztPbSbPd_7PE%MpCWap$!cg>1)e=yw%_nN#78lH>p<>8f<``^xqt?9W;EZ5eX6MG9H
zkieVZVjY|()3SQvQS0iRr`+T3!LuIcu@(%ad=pFxj~v`7Yv{ZU%52nZ-SM2KD<^h;
zE<zI%gE2zHiE`e^jAY4;)w%5Jqq&}I&&Ul+&>MNl$qiHr3JsM*u1VScYq{RHa^hPB
z5vciQCTlZyGVRL@KkQjOvo`$rT!BD?B`cKjud|8A(!-gihgY&>Z1u+4aCYEIuJ3BD
zJMfH*SrUv{J9#k;5?;*AW&P)KU;E}Wa?zq+%u5n?x>7=Duq15Hc{*}p=W0{7cPQr@
z&WXbX5vZTl6RB!B2xmC)LF{4dVcUl2TjKFhYBO4aK$iD%+}X_VYSW`DYp>_p2l52!
LPopm}V-WJca771H

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/intern_vit.cpython-312.pyc b/model_executor/models/__pycache__/intern_vit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c3de970b546ad8d58194c3b05bc4d603f0c352bb
GIT binary patch
literal 19385
zcmc(HYj7J^mR>jBZ-6BDet{Gz5tc|<4_l9sADWS5jV)0Rdt{qq8;01R1PTDD1}IAm
zX=^5$1l*NJ;?8bJ)p#O0TRSFWXD#PtI@y#psno7rsl<e#DPlTut+v+t!&P~}Lpq+!
zpX58YUjWpUJX^b!F7o#2d(S<6`}V!xJ?Grh_|IOii^Gwy{C@lwyE*Q!=|VlM3bEoc
zaoh|iZ~~v;lKcSA6KzVElI8(3qs<A+fCYKxgf(d!uqk==q;1f|b4ka5ljT?vuB3aw
z&1h@Flk^UF8Es4WlKugIGB6NGRt;1os|Tu+H3K!Q%$^7)YX@o>?MT!m>j&x??MyTz
z8wVPbO#@BI=7DCG=Ss9BTL)Sh?M}2M+Xvb~djxMHl<XMj;JH|R%r?AFeLVdv_}(xL
ztTS;>aDx95Cj`KCP%l-fx6Lv&(9Jljz*&7C&h?D52AskBaBg6nwcxC~4`&bKtOsYq
zeK^C6vk{z4_u+hiaW;dq<vyGnFPOuvUr<McdCBqJOiYZPOvFIjN26jU9!>Ov4jdI@
z88I49#f0ySq=w?BkXL<pERl&Hj75dLnM^E|iI1ehR>>yB&&7q9)OISCi6A>YB1V!U
zLM#!1xM(5)LX4))NL_1}zcL~wgh)C*9+R5WqlvgCCz=>Zor)x)=}bh3C#8_Fc-$m%
zDw;VR6VXT)-6lGii43Lak&YjJx_?AWhRss&J0pp)Wa_BWs6%+Ps3=t(d+J1G*71>7
z%CqR%kBvp~#N$zVYOP0Vh1gIOof3H^7C&`56G@Cjg_!sSFZXS;IF^bCqmlIKs3^pQ
z$hmkLmF3O}n<R&rOh-~^oa9PGFT_Mf56S~nPHoD?$~z$bG3IZK8{h?Qz$EZ7^N=aa
z4e^5Mk_YqF9J3C4N~_AWV2RlUYs@}m6Kt0(0}l0Cup9G(&jCKC;6!=QK;ByQEP@O5
z+*$5CKj3+q3%jMd@1`)aQYY9m?@ykL2|_$|DlORt*>D;J9%+Xi6wS<)QRMy+Kf`6T
zqAAk^_c~DQZ6$~2Cin?1qSc<@ht*!v>Tn!5Eb1jV7(S}k@);Z|HbSCN-+@Duobju*
zhXX35pEEToZP;hLfEEusR381TqS4zlUU1-!Zkgh^k~=o2dHPvEuNX;0uE8iU&V9%H
zw$ewquUC}~Uc=rpk~@yKAXvunWRT!1k<g;j`dQ$|aREN9Crh62Z_%e{XPYivrI7p0
z`dPc<1uksu7wH9lK_f71k=*fAWbkw}m5L?Ol4oQrqhGntU_=AY7*g5N84<Ym1r5b;
zm1IqijmAXD5sAc80I-PIh<wR?IxYyYlw89ZqiMj9%oR^YPsQYH*Jv~|cv_}Ssg&d-
z@JYrndn9XSL>xRVSplFzO7af^3DXfKg(j0^0}!3tDoB1=f?nWGjU@rU5F1NNUUo5(
zjuUjHrRq_I)CDb=B}+P%7?RuUj6~!cMbgwIq0q(O9@?Bqj&2@}kM?GwA^^7c{Me3N
zJJ0NhZBE2bZXUgmIX#lvd@hklZkCZhc0M*ZhPKO>>CJJ51pvTI-{=Lg6H>?9jq#yR
z?Y~|yrT+@aZ!U7T9o{K>&e3qo(Nw5w$yzSE3ytl|jT>`~8*$+)G=-L%Hs+e>!e4gr
zd3(q8iE9(@?0@&Eg{Kzz#Vw1%hp7)z`AvuO?fqHHEk_G+T)1|j(9l?DY`xxgt*y||
za@~K;U#O{{d2ITzRi`!NVvI!}*V=LY$h9N$nRj1XcrDlR=*=y;=6zJwP-yK~Ztcyr
z_TJ!gty?Io>GRI6w>G`G>9(ip%2QKM&GNI`mz#TY&Aq7o>cXpe&!a15(>h50rK5cX
z56MYRycYS5Nc=&Ge|As<Fq9GyF@U@XsF)$ZqB<4Fqy_oJRdJ}$IjjMm&cL8agE>9l
zcp}k+N6GKRFPK!A8P>o}zmH%RECMfBRh~&cqe0QI1}Qo}z~3~1rBAR4_IDh5Ej+p5
z(*Y>KKTZpX(lcwc!Yc3@N0oj*m71`qAdSV%sQ||R#Uax47n>;wA(8AS<AY=PKLCxx
z!f?VuQ$q4a6Y*03mJtAmm<~H7tB|=c8k4L;&>1q4U5r6X0DyFpr1eY^u99P!n8Y6-
zOadH?jwGVEHf2V_R&gsaK1|6DN_J8ek32ggOmvz$Bt(a}oeF&s(u}lGHr~C~1T14C
zRXhEsNG@`P`q0d4)30SccRaOMj!YfNds_d}8=QK!5U45yf;0YU|J?Ss9((h#Twv?n
z*VQXdtIzkfhx64=J$v;SCd8K6Xx<wtR&mbi)gV_}H*<LUaKTeMdu)!MJuu&RvwPKS
zs&!?ZMH?4rT=s`@{?J_2+_&fX`MnF)yuWYR|8UO#@Qt&J9gD~E{>PU6-_H5JeREIV
ze{{)lRD6gY*#;eUOiT@yP6}Gx*i`y+5SU7w;Z!mspWbZ6LBo#*)0rN0IR@6#T!wm?
z9fs4wEWpnCkqIf!QqV(YS{WeUsZ=aEO{o0P@+$aoXLW#{g8ui8>20Nb7?5UpKrZl-
z8EP^H$Age5_E8c>BAExH8Sx2FVT(L&v?0Sd(*!m8K&e*;3R^JrRbssFJ|m`r|9g;{
zP9wq4A%NVTYu&yC1b6$F-OV|7^X%EVE!W0Ab$1nNx|clNpZkMXE=*mx6X^VBTjoyA
zot-=R&pYOJ<^r2An3e<Ua)EVAT@U|DyzUP=|6TOP`CQlIH#=?~%Lkq)TFqWx(ZN+!
zuexmkSCO+hUGn?)jK<Gnxjq+7jK$Jr8YjIqHVSUafND4jj7GpP^;N|&N!pmA!<7~R
zlt{C!IPe}7UiCa_o-iBfEid3+la@*Aq;1j;4kP&FRT;w?Z0ffYFizA_f_rdAfI4gl
zcBpAqN87!hVbXDL?RUa4Va9khy<^c@;zUd8^;W9Xgl)pE@wg_O6RvyTne@p?=Y$jE
z9~xW;S4@o);R4~rCy|6bA}JA)O*YQN$EaXG<yaZkO7<b(DNIVq2}?JX1~kURjjTrO
z{3tXoHhIKDRP8X5uv?xy{giQl_&g<gS6XtN)b%(%BH2zen^3a85*IS3B~OX+23}29
zOUqM`UM@{R<&YuUJ~Se}0^4!CZH<|yl%GW9bPfrDbn|lk#$5fz<@&9;`mM|LJ9G6r
zvmPzG;AtT2o;{TJgrR~oxUwDqY|r-P4ZCvqb97~0SNC2$H#=6SUndKi-<z-RljST{
zE#l(Q5^?ffZtPw>d$TiNzkj*@V6Oh)M=kmK6Isvg+NPQ3r=Oqm%qN!Gzjd?fR_%AP
zE`|iVa;>`-*Wc{Uw;m)wsBK^B+`inoBiFfO(Ub4opR3&uMt|dyqmj+yu$R>86m;T9
zL~=#QfF4T_?TJLrjztr4iAZyr>6S9+*`8s(2+54KlYt+5iIV#OEx2--_yVd(UPa#>
zjKPl(S>VNO)SWa(A7`&YBm;~ko2Vd(<TsbNqN&#ET58|?6^C=N&u=}(&s*R1EO?3>
z(Tg?m`DV=uyDoORt*&`w;&ekkE!KY6@<GcA<rJIT)~31r%UuuUx*j5)rp4|LH+`__
zYa&@6u=@|<*4m*$%gSYB-P<{Ei5svwIVUGL;S8`D!2rxS$P;Y$EVZLlGn}+`aLj37
z9dI(^--YSuDmVU*(zG~C9wBC5l;JR8FvH=aAbvN?KcjX4)L|6`VP9(ae1Tiw`>_^w
zK(ah6Xx)`x=J$!(f<(1&<QLtEoN~iNZ@XrgoTX|c)X*@w-Sps%x_r~ltmSn-dvSvb
z*rNi+5zQXA3B+2;$J3m68pRlh)J&X6)nnsP(d2@pp~X|9FimwB8Q)ln5hd+5Vm=3n
zE95BvVEAjUyf*dPlB10^w_hZ91G2G|lZj7@2a#2#L{TTR=a>gU_Q*x=gz2I?qdhAY
z9)<oP6qg@ZCQP)*Jq^wu?8dTapjrtgrc~8nanMvM2v-jM70Yr;?qr5M1B>LR+|RUy
z_J{myxOdpn|Jw(j9~ldsj-HE!G9#h%XlyV(bRkr#C4@#q<ywCBFX&N!+xUtIM`Sr8
zDfhcWa2U8wkbbdW6h}nKl7a%p-kW#~6;*wUEg30fNM6+;kbx?nF4w#m9F=2z$$M0=
z{sN?=Cy-p^iZ0I6u;gx^JG9ib^LBO1QtOd?_0c8I(L3(?CHJ~QOHcMN%+^5blB1>Q
z<$O&`-tL0GS<$8Ue(LWogu34Hzv;i>$%h`f>V*!)cvr1leaF(eJ&P|aKXN4Z$dRQz
zN0&N|<?D_w1&-hGw?G;jDhsCmeyoWvqAlV}ltd`eQ8+=Dq<@MpQ$mXrdqQ!LC;>?+
z$PQ5^C8Jbu0to|Ivvn5(S)70E;;rp?=H4xZO%Hx)4_I68)HTl}rW13|<m$pjD>AT@
z)wk$b#Dj-&`IntdIcL+?PF%}qN;jfrXopXsR&IhQN7Df_kh6was#d}Fh8fONi{OY^
z1rx(eXUrzJ;AVBl9N4HZ4SASb)_chhH>xk@8m`msp%H@LIDg0@1mH&X2vx@Ag2y-?
z^{P?N%MjRyksg%lWi(Lz*qXzB{1N8F?>!AKeoP24{fGQQp&@Z38QP%ng}$2(?M);?
zG++8-F=0b!l+4q9X75Ve0l19(<W~~LlF17Zk_OlAs2CfHpO>n}(y@pT%|x{w0NJtR
z!D5|)JB>Mj#eabA5NRNbla!QU3}FkIM+{?rj44>LG}!*$oWdHC0EZlCLB)Ywg3XFU
z_KQUH1<6p=UZXB1jPbqBz)BO>XR6ejt>s4kDK_$qWuwIWGiwPFTSb##NjY_u{cS}!
z7EUsZ*)c&}R&Z%bdI^{I^b=%IXjf`ote+rJqRuD1fFr{h_t6ZMOsiUWA6W()5vrk3
z>QFYmt6)<c)SBj!S*P81t#@qD`g^vKAMR3R>SuVKEO-O<pP44C@Kq_J11+vmd9ZTz
zsI-0thxWvHCIb%fWQOb%c7TJFiHZY~H&tZe61)au`W>fg>fz4XJO6vTgSMTKAw8QN
zYdnKtYn5Jgv0in*t>_A9xz-CA%o|Ov@g{-M`{jm1YCZj2(lae;F18Fj{o~(a`T;rf
zL&>ppCUi0uqK(jW9DAvulNUk+jtmw<J*P%8p_euGmv@K8t3xm^LoaJQlxGU}$p$Pb
zN2lbQ-T83b(s%aExdn@4IT??p#aEHfKvQxF@igt*Mlz$=OEkwu(~|#ORE((l1+<fK
zYu~6iG8{JR)x;k{K)AJ1DW(}A(h!zvs7>0cpa8p5YpCR)XQHPT(^Q8*TC!)b$BFxi
zG`QFm+wgVDYXkAp*q7=xDG{tBv^Hdz#|Y;5U^EdEX=g}s;AtcDsFE3!6gYc^ZHvNt
zDsR1t1Rs)5-!P5PliSY98>u##Tco)zS?J+K0(8lOCrT~YW&53(0jwh{mLO*LQB!3j
z{9=hw5L#n7)vSUmsFwa8(0O4MtX6YQpSodj$7sWXb}zQ&8n?0C3v4*}uKDJ>-tAlH
z%Qe7qxa@_G?8+lkkIZhr{^+$wbMEl`Gw;5%@Y1L5Z$Zl|n)sUTLU;JBm)?A7scU<Y
z;~xqZf(<kM)BQ^|>*lr=t){9CD`rcLugF=vzAt@T^}4COw|Wlcd-{uJ&gs4E`O?O<
z_D!F?we47b+tauoxd56UnBVtq|3ZJRX*V`Wk{={<jZabYZg1!<c$#O0>#1w0oM+R#
z@NQxu0nb4X+ZO49dR5mn^WyZ2bNh0&J*eQiUDH+Y1g`W?_0#F_6r8$x^+HwsO#5_u
zp|KkqIai;Xedg+8h5DXVzat27mmS3**Rf$av?CYVLAxlecgR;5`qUk|-PA!oW#6=~
z5NuiwhI7F%>8`#veXDj$voE{v@>8oWuDSEROdhUweM$4Em1<kQhwh`sxNUGdTP{0S
z16=I}@Gg6La-JT%pWcPu#o&icA2i|diRE=CQzj+;ti+!&wvWzZM66}!3H+ITm_l1K
zq~)*!sIB0cnnP!G^;Oq#?2+g-Oy8&m=?BXCQ!2T{s-i7wn#>i4?yO`^&WcjHRGwmg
z#;q1+G_3$K)y$H!?z)~dn>ehinym<a17xQ8I>|Fm&7!*pr-_{OLndg!id!7f8$N;_
z4RF$7hnR&>k(w;IppRzar^ZIc(&9Ab{sAS>IXRJ3B5?|dYRCN(%9ueSIar(uHf739
zIP9`SM@JJEA_{JeuU`{5%J_Z>nQ6K)406o<JyUyTJ3e(c-wr%@qw4*Z_gel{TR!l3
zc5mf1jbygH`1}1?zWkz8N`2d{_T3+C|76d{dv4V~mp%BaK*Ma+Pu#Qnt{=K~C>IE4
z_uidT@CUATWHVW}GRDuB`E6*J(jZ*%$OGJPL-GZ1Ov3QT#w2I7F{!`!7qI5R&uy8o
z8VzS`5SkFJK<gq7CKVp>Ne85A>bhJ;saT7AqoG{lUuO3suR3SsRVPpMghO5W;bZ2E
zyz3KAbwV;}PPCqU(UyLBH*hyKg}I^a%oQO17#Wgv@bp;fj7Y16_y#3^NXbu-gkAFL
z^fS;B|80ry7oVjvswV2=jz1@v5tERnp{e+aagtZ67m%mAukJGZ`V{}cUx6w810)z}
z)ipC4rZ-I4vwU_-Hd?5vooSeEnC<vU^OP-X&K@gN*Up5e!?Szmwq6bAtJkZH8Y*Lx
ze7R<Qu4et*+4+uq&8De+*}d7bcYM`X;!|;Di_aIznn`lwbmQ!{pR_5G{nc4{kA}Ir
z!u|>`f@F_Ggpol+QP4mW$pjLkNF+0YE}#mHj3jhVuk2o6y-7V_>|QueC6rvofBK&y
zfqUUsmM7p(*tVl+-^arV>*7Kkg}R19=Z0VVDdSEcRJ5`ZxD~?l+jDiBHO{8iqMH?Y
zxT;{$%Sa#B5-PHq#Q^8>eO1MB51Cxn;GFd>&zo=!gS=5o6MBWnVuQ<CGh2JT<ys3B
z)y#LlyJ-PVUy!n!f*L%Cf9+5~c7@EWQa1&;cj2aR38t7C(O}qAXU+)=+!S#6V!NCl
zaxuq*{gQXU4)=v)xLT8{5pVz-=EK3@go6PR5Z~p-D0fRv8Q2aVI@-^y`w|^fx93Y&
zGg1y2WHbOWD(rddz3ur@SFe!;qfSIv0oon)I0CGy2CE8kHH%PteynB`FF+PG><bG(
zM*$c})*vNQtMVJmFutEA*>aa;^`&ww80i_P{6m9V#EZBKBe!BBs{<D$PHb9XC6}V=
zBiIq)1%sLRIToCVz(<juS6oL-RdI?ONXCRX{Ec#qk(s134H?wdu&q)no}kL?9WsTO
zdVnEKsXkn-y?sps{$Jor)9m^UG+^J|8u0Db4fD3;o?W?~UHR7CEJ)^d4fLz(Wlvkq
z)5eIdoTm$5p{Znwdg!&w>LE0;V7JbwRb8vb>kfGujiFU#%NLD9HWq1uG5ri<vht`{
zo_MAKQLTzY=bI!gN*jSXo6f<O3X;StUVa#7{{oES+m!q%5@e9SU!*p(6+qddD8=|H
zz4sMVcccC3M^Oc+-rRnD=e3=4hx5%_5i^zbUOkJLrsakQat#m6Kay|QmGv61l=yW?
zZz3=A0gSsBsTD6#qC0mP8vhC9{hX3cO2U-9Ov&01JWs`x{7?L+2a%A6*8%*MLHA2{
zlY+T8lP6b&T)M>eez52y%0(zktVIujte2>rR%`3r_uhKp%@>Ls$Q!Zu6YnLyCQ=>%
zbXU5ecBp``LMv-IjtW(@`;D+9D_p%cpeea~Wi%zHujcLrqROsb4_v(tR>S)S0+ZIN
zG2{|_muzqfujTwT$<AMfv0h+owbUTLXC;O<HHbYl@eqXy%WhctEs3-glt6HWQF{=j
znr%X(m+SyKul!diR24XE;8!&YcmNub1a<)J94f7!!9f}{JHSEOO2tu%)oUnN42zi$
zjR$60VK*pq3w1SXM)!}h*f8?AnHjf5jSd615q28}x{|Gd))=Ujc#67;N5JJfR#h#<
zT{OF=WQF*<zl(wY)G!p59}eB!UfuU;=&>|>a&>iOQFIDU;%RGC>AD~H|4TbGUny2k
zTR(hW<m+LR0;^{-F<R#SqGc`2i~o>LwI!?SI%F^hnD`DT$w^`P5f-55lH+-qP^PRC
zmPlp@mhAmUjvwB7pkKU7SyrmEMLum6H;}*{%CDw)V0=|U4zkD)*69&Z4p6X+q!68J
zPNcU`vQ_*eaHnZpv(+|Ky4-fG1q9ma8>9sQ-__jhe=3WVg?FW6SFU3hEx&Cnh&G&S
z43nSd4qQk_rjKBCMTkhDWuxq$VLp+z%|$m?+qJ^!j*(z1F{+*uTBh4JBUV;frafF;
z>+CbvU%K{Eu6C2`ySiDoy!S+I?}=Nr&oU=bZOgqGKCh{r*)zRo&bA!dl?(0qv;7}F
z`N5MnGk@{wFJ8^>IgtyU$k&h{$L(*#rziqplfL0(jENa^KlB0G0pYO&qKtOk2Qz5{
z4k(5wShWMDr1d<X#xe}k(M*UuVH*dEU{@R7=t-*{CMZX+PQcWKcB$Z*Y&Oz_V%ux*
zHW;`kF^&nw#2-;YdJDW5OjB6XpP41je}p7W2rZ8))mHr1$QfU^_ON0>>@?_i(7<{Q
z+!whogIq&+y5m;g@qFJiSv&K@_2q(nh|zR$-nLIYhv&lcBe~8;Zr0~I4t}&Z*KwE}
zj!mnG;3P$l#tQ~kO(PAK@=!gd?v$x$1i@^X`g0HzVgOjyUI((21G(B#q~@XXHJ6eK
zUf|OfB%O~Sjb0WMH<GU{Dmn*pwZ)?(*GRs>B3CM3RrqYO&Hp~6iT|FGe?!S4C4Ytl
zV^q`s(lpZ4H%5xpxZ;PtTO&}-`(yOFo&hVu0~}oA`gzN{&IRX<uJ<2!?}5b^^IM<F
z_Z<2t^U3*-&*yrc%{4rm_1<ad29smKaU=MC(|b*ehx1#W%=bL?k?_gsk5A`%PUIR+
zfJxu>mo0YR+Nxm`cNhPJlAlw;^g|kM-$+S(j~FSbp$DN}QI*7^y~Fw(UuL9J1~bxG
zNr}d&aFUVENZCkdq->-!QZ~{Vd7S6!8=2wXpy;4Dm+GK&>EcKrQL;RuNZg8_sO=5}
zBp~`=VtV3hD`;8sq(>RVzjkPvCqYex=IJL-m!f-G3^Yku3&pot2sp4I;J{v{fqG+3
zqwkLpEblA(HY*_27|i=pl@i-cO>DD9{&<CLwxlB?=VBs#@lv^Suj9{u#3NOdYA{Q)
zk5m^nr#}Z#p?bp0cF*s;%m^_u4D^|_r(m*A+B4cbHBvWA+yQnK6ZUae9D}A)Fb!X<
z2L?FwFOp<ca>5E_lAmxOl*l|`)78&u)8$4BYE3#+Nl=FfV%c#4B|IyAg<R0%jy}2n
z`j}1<c9v)z)N@kRT|Lc|2g!wyIfOYLil;N|1E5neHZLTbEKc<o-m~|`|3r6ivKo=N
za9$2=Eb|?fsu?W?<3iIgUZe^6dyq%=eeiDk{*JqQ$=zEBtzQo9%;C?|dMC7d$<z9I
zUBgUrI*CoO&J9Z&cHZjPwNmB8zEptg+<o=CtA4I3jFqGi3>CVz723LHpPPGbK0g2b
zrRH6Q^*jEz+g4SLN!GdhORBVDcGuI!i~Ill+JwtAEfT-5wCwG5NM05Yr+h+F9_&p+
zj}5y$AZRIJmOSXnV;}b-`bOE6(DoW8O_x0uZUQ?BGW7A{U!bD8CGat5wt7k4m~5fp
zdsUcd<@*A1XjijQ|0)*zBy}%ojj-Swx?!W^YoqVK@%`-KU$unid-E+jr)V*43j>r`
zkd_QDr>Q00-wlhy)Z&*Zp(VxGU3!yBD0zXJMNp-~a2tcdtq&L4LyEVw3Rw(?si*{o
zWzKHwoxS;F(M?w#f>19}J~HV2L<In$Uy+F7<Gg0aml*HVj4}vS{dOxBG_Djv0iXOS
zKF+g<ty&dI1=|}IgP1KjdP@OPL{>QjFQT`6%t`8F(OZ7R&AOOdwGJPYyN4UlkcvZz
z0js)asTZY96%}!bxY_DU)&ZYT6Z6LcF}tyhArsAT`WL*hs+gT9xMPEW^lIiRsDbua
zFDWh|Suv1<ZGQ~TQdAdzfs7JIfdN{J2f<PX*#v8B?vRaB0om9-xhG`9o1ps%ba>X4
zGn6YDFg|$I>{?wzCisOdPtZ#<9S3S?N*e4v2CvGrgCp~vSO|5w0}@KSsLaPnFI5iM
zya`IOtJ3aLu8q2jIY_CC6y>@UOq)t4J9{G<l>Qz~s-vj329y>$wlV|lb1j(ovj2Ad
z1Ee`ah2F4NGtZt|s##CUwAYS6e#`3~1`2=ch+}aWO%l%_Nuz<B;&DuXRJSophF70a
zT=5^Ho|q&l4^h%jNeYQJq(E~T90$NnaD1QOVKW5}r@n>I;a$eYml8T$4P9LuPIM#r
z(1#nOH0UOs@Qnh8A(P&3#UVE6+ug6N5eTO`hOjSaLEy9D9^z|ed>2D~jYH<6Z&^lh
zC7z{3L;`mOtubM{9C1TftOpp&e)=HgeL_sicY#{R%PW&#U74_Rh^X;&#ixPt;?#Ke
zcvY6BpQDB8pF;dM2{}f*hqv*bfyUF`&+9^Kg%?x62X?+YZny1P?ENVCNz2DA`L+|;
zBQRzH?FdpYTDkUh*Av$gi><SXeA^S*BX|65YVf*bmp}C>U;YU?7=+yff!`KT`kOiW
zD8J$$Pdpvkdok(8yIO`IbRNnA203%+;~OmsOC$K1w3TdDVb?9AjUH`3*^W>KJNB40
z*CCt+hF^E-AD!~t<sDE#D2UzEFL}#;Z6a)wEJ7T6Kmqy=Mqn|w?CWv(meMhNT8fDZ
zLtYfC(LBi<6$I6Bkf#hc!Xl#hAqpnK%YMK@k&#9;J0wbKrhHe)$|{JzMCH5v3X+E;
zC_jghE{|oGF|f4!KhVGuAPAp$*EP{6(hugEAH=>zzHVFAeY>;!kD&<tw{;KXJnh+i
zS9=S=_Bl%~*qz;fyJg+n{`tpl?KzfjISv)c(>U8b*Lusdx!`GB_OwFxoE3iQSyyy&
zT^nJxRVYm2IovWFtk9aIy3y$18FXNh>D}o_5)m5s%D!R?y3(>Gcr3AOPtqmRt7vH9
z1OBm5gtiqZ_YNh4l+YtHh<#k%xc@JdNy(3>L;gDmXj^w2-mBK^D@C)Z&9-D|g2F@_
z)%8%5TwIy*g)F9gQBjHVC3C9E7hTE97g4hEMHDGt#VVqzX*Z<?)UUUe#o5<d+sotZ
zkwNz<jkBjLJ<fi`N!NX_f#(j+fA7Y&MeB#24?IiT_T_r_=eiCQIh1^~?W6R^JHIAU
zUMuMF!<+CM2P62&7;I+ZrwaO_CkI8=jn1L56db1`iL@M;Ln^G~U_Xw~mrBX@QjL1q
z$Cx1?nvh&NEq;e8dDy3Z0JbDlboOecApLLwd5z_tw2{p<Ic_k(iV$gupL#fnZ?Ody
z$;jdyWoI0jQgRqkH)F-v!3U@6&mX9kpT0ROdZ-ay_uys51G$prNXL$Qv9h1AkvDt&
z)DTjPr49F}!2<BrNXjbW?lt0;pMqh5*r$NaSSF6%XBc8T$9~jBq-95P9%36()Zl+h
z*EURZn62`6Rzt{PzDl<5$Lv?}CgsuFUQo1z?Vu&c9(me5Dz4&^AUeH_q-f@O{;MFz
zcYnsU{x#?MjH~@iu6>DX|BMU&4Y%!UlZ`ih#Zltp_(wkDc7AQL@TM<0Bwx8W{t5mw
z?#SP8n=xLi8Vc3HnN8E1zO<U%ri=Df&t9HynmvB~`D@Rwazw8lG&S<AY7WTNoe`d|
znLT+uel5Pr5xu(4+{w3IHO)AuovR$k)hGD_JSvIwBND3|(W}Qz>yguWJ$x;^%7I)x
T&Oc5(rt8jY&aXJ4*^vK#cH#D$

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/internlm2.cpython-312.pyc b/model_executor/models/__pycache__/internlm2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..55b3b197bd17788fa2bd51f480672ce0151077a5
GIT binary patch
literal 20047
zcmb_^Yj7Obm0tI}pBOx62EYIq0wBO4K!61J0!7lKNs*LD!lES0)<n*DgdUJX&Hzx)
zfE1yDt@SFafgcgDE*HUFxdd$<0!vDat)yZ)m5Q`UHY-<tELxy<#=T&cSv$3*KPhMd
zS*j%E<U6+?(|{V3T(wQ&&h6XhKKtHtzH{!m{onk44~Hvb`(FCDU*fo5(T#RF)yVoc
zEgW}?6F7m-a9KXi^AxvaELm&Z%Hr0HEo+b4S=^R!WSwy*i`z4<xC^w7j4SJoyIGnu
z<H>sCUKV#{d|7|o&*JV(RW=Y0u(&5vovn%2WNYKK?B1KH%ht#1vkmcvY%m_ohT@@Y
zI38xte3`~<Q@n}A{h8)$BpzY$s!U6^HQt(Si??N?@hD3RWOiiR<LxY7o$1JS#yhh+
z<2%`XO{Oc`9q(rG+RUzOEFNR=y3FouPrN7F8}DWJ^_e}{zIY#tH)Q&=d*gc%4+^2o
zzU)AJAUhZzWcT6B{_KJH0Tyq}9LyeyAIct%AI=WNhq6cFM|jS{o#lk4S2&?L<-U4d
z8}!QW+g2qWKguX0pltaZ%43YO6_jnCLwP(EV6;)t?sz!u+iH{IUt&4hk)y*rM`|!N
z@U~rT^$81?Iv{ku%`5jT?@r|HN}bSprk8y3rajjEArZ!S+4WdHB_^NGq!4#bB*lC>
znL*T%&SlaglxRIUc5@iNma#E})lZ12yqHXnrG!)CW25QINOPae=Tl?(^f(bT<R&L3
z#>IRhKQ4}3NsNqVC(<a~B709IN3NulOtR;hOeU)qV3&QDQ~AWiMB=hIJ~<(`(j5xS
zjf;uwxRA;u(5z%8gNT?MyC!#T|NO?dm=O}W^i)c2&P`;}dO69=_}Jw{CYj48gmhMp
znir2s5|@+tD=85j@jR8zOr9JQE>6;TIG?=u)bO~NjalWUiz)Fkbw4wi9eYA;+69bA
zQj}{hoquL)(v#yiHYcIDz=iS4>3r@9aeO3|Lq{<_Rj1RriDZ7{$`j+`nUp9ylwT0n
zUYbl|c&Cyy#QLbaXc)xt2^!lfy@HG9Qb|D$J~KX&d|pd@H2Zu?5Yl7xt{Q~YXmT=>
zPuxhQFJH+gGUG{sb+_)ZF-(MPN=PU3si)cK=RTy_gyMZqDep9QVf@LH7#Q{Li6>BC
zy;k4^nvFUV`I~5xO%A1V^h&eoT#iyFFizPNYLL6L$!n=ZDm#(CnMfPzR9|^6F`68~
z+_@=x8DS=QGbQF^Up9I3`BY*;OpT^r98o5@68hDf^~Vu;6`V80#d(2?Til$R6Fh<?
zWfiRWv!!f;J!Kd8DR5fBfjg(bkNS$-C@;8P@y8v4`xP$kEOIaMao1B^%q#oYkc?fp
zIB@a86T`CiN?H(7W6JcZ+0=A4<2>qfG+*|;K(7q5pO%R1P?{|}uy!WJu@Q%%{Vv3b
z^{g)=_z{1L%j*wk90l$NSm4^i<+;4N+&Qkm7c7@~bOtGcrC=-A|Ckf3KeoJM(^x`*
zOQ<Z3<MM8;(1NAF>-6?5^p(=Bg5%mDjuQiUZFo7sS+JrG*N?3lllcyx4`}6TZA7iq
zBX-^7V(#G&A<eimQ~o|ItW;uh0<UoV>K&_Wdp@1aiF@!+>_aeR?Yl7`+j3ZQQ{k_U
zsZ1m#L@}D_>uly9iB9e4i+*J+b2Cb0(R40aAsZbRqhsSY`eJU`j#SJuR|3-u93Uaq
zqkQlfL;Yfqk}Rmv^Gq@`nR-+d$3?N05*?^8F*+7=qA{t=sJI)6Vh;tq6zC0>-HF5q
z7)maY$dTxdvg_sleZD`Ro#>xPPwdGj!6x#1UYtBMbokn#RDUM@eE-DF{FU*s{_Eg=
z{R(eOy_g!A#C%t7bNy^yjb*X}eG@mugD7~a!8i^3v|jDUqudV=eEKrCQO&ulW}K2M
ze9zUi8aY_@h06ZcWnbIE4$0S1t_hYKcb0>Z*{{!kW4W$p!|Q1A6m9ohjT=>5U1!<X
zLi7frr)H0XrVcdUcdk`&zTkZD18>`EZKPbgd-2F(@AAQ~Emwbi-D;_;TH`GKstpGh
z+VR6o(e?xHIvT`{&@0z2nuBb9zlg{!uE1SYMU+NBzXe{KQ_msqv}M`~I(_z5C<_*i
zZkh*$K3@$Kn@i$R68{u;haZkvMNDW;JVL=?1TmZV2!3S#McJv&4Vh2mY)GS5DITMT
zPRy$tNl}=p-}DmH)Jq`AQGqXW<%Y&mLzmRhweZ49Lu|%Vbk5e4ebuj>pE*D8T=7MV
zd^u3}+KrhTvoCyaYQ|RNi~Guf>Y__Lj_fhZu#B}rQ+5noGLeuy2@-vi8H)Q732>8)
z`oxL}B3pBLQEWm^HbcbIh{=9+K8~ay#S(XT@hDPrG}tFtU&I*EQ!q#mo<{KLE8Loo
z8$47FhClK*+dCdKgxBo&U2|}ewlyckTpZHe6!UPQ*y4UE*uUnbTOU_bzebrbLp)U<
z2N3(s5u3e+b%<3nf*SOzL5;2dEh1aFG;wOit!oY3+6r!M1E03194Y6hr4jj5-t7c8
zcconFojc`LW1f^l@Pen;GoJ1PPxlD^l=o^_Z-pKiwFp(O*y4U6VE$aF-X`5^o<8aj
zYEWJklO6#`k2<+lpD{W-8fM%?c8^VF6IURoA=W5*?YesBA#t7n{>Ud~AB*Qkk|b2+
zP&WBuVq!d(CI|rGsS0!yFhZzG6*Lv@B=)1LBTU&)`%H1R4wo^*x5ydKRyhOd!X@-o
zoYzznT@v9btrK?Ty;{s519S-odBY|2{8+P98g=Ctsk+Rlq)wp>fxos3bJg-V_Z?dA
zUpz0`Zj?j?@RLME269)4)o;1XTXF3<ESgq4`@%U4?T)JLHtC&tiH5wa&v|Xxkc|Ib
z+JOGQt-e3>Tz^CKUd={vN*OPoHYA{`*5Z|4q?#-xLLjI^#|fY!>AK~5XkPuj=G(Mv
z+qS@@>?!n5lM85x-g5Ig1?v>v2k2__x@@@9-){k^D^aIC%M-(77aKd1{-YMX{TeNm
zZ#H8DTftRu14R+?a=fjs3)H8-=R5%nc5Pd(NgLQZ;Puj-taMd6qV$kfW`3U*Gas96
zQXPaZ-*Fj`C2?bR<qv2v<kd%BOJn0;(q7QES7@{tQcd1&!Ksd!8@=)v#;jS(2b}30
z7HPVRQ3RKj^at;rnX>oYc;VW0aR4a<Fvp>nfX4!u-DGMYl!^*h1tLx6QsR?DYwt_u
z^J72=PvA}@QCVTFv4}{0RwOS&hXjIUXMTcd1|m%ccE^;}Kpxd)5<15hze0~|E2%p3
zx1uquKG{XGfi=+af}(9WK}9--_!#A`zLvU~xK6lL(U^0xQ<W1UArkQ^3TQ^jHr9O_
zRDj)akw#1(00<G0SfXrWef2Ulq`+NjqtbO&9u0|7=;o175C$<90!+&FvVt`ZB5|tu
zvl38;ug`)Y*M@gS@HK3JujS@0!lvQX&?76MV}PK()zE>J&>@PI+jh~j2%uCc&>;mn
z7KFDlZ)T*xz*6#qz@cT=q2<7#a$`%WagWrvXQ}?Dkw1+{jZ{cgxxJ6Fww1kslDA#*
zwkugb@D2d%)Q3xTyQR9_i%<XLxjWBEbwhVAeNcCN*>`-o?l=%oefZYVxuXl6rS>5S
z|2I8ejkGQB3;RnQN2HD;cZGK|Kg&oRkFP||Gk{$VcP!*f-H%B4AASVw@Rx&4x5nni
z7V>XRzd0=h_an_)4mFoTyQI*r#r;1ycITKBI!v8ijdm=Yerx#6;iacb2hK?N-+5*w
zdX~y<L5^F~bJGig6xvO+<)%*j1j^mV>2c?;>vs~Q2mHJ^a}hr!UsUo%S)^l&Lh#k)
zx{i&2tAW72d!v@=11kN({<n_3c}(){eTaGh&7-+Pt4L{7xp8l~rWqOsbckjuHUKrF
zp_Pb+XNEOe++CQtz~0qvsc|<cD4LF9Xwnbd3{J{ctl~{t1>p;ZX6_+`R>5CI!q!XR
ziA_zD<Rs>><q|B{fSbiv@Knb#6%wTC80Pa*FO#-nQUh`2X{$l^)^(F<zJi*r>QdKG
z4_|=M0=hi)5f`)_m^ARu{!gsbC(_|7cT-A=V{^);I?N;#&uUQHO*LHAB_h?ST!i1u
zBpFicHJZw=;9zYr<>POwqr9nI=6yFW+ag#lTLoujRG!1=OxvdI(~wVBb%|7I4Qspk
zyWQq(X_#pm@^0G_&F97Em1r+G{((ybPBEKx>b#EUb@`Z&Xk%iY1Cm{v1x^bGd26en
zsjID8-pVgqRW?Rx{{obDM(OwhlniGS9HUk!P;P@n|M36eg00aC+wF(6Bt*h7AO2QJ
zts>zH`(mCcN4Z!vEI?P1FabSFlnDyHNde7n+0M+;pdjn8Y#mAFW!v?1>V^oM&xuJ2
z{xQ)x#gtMA%^#6~jTlD|b17nyFb1S<>V-rmH6}a3o)X#Qgv`Gn^Vekly6j@*!`zu8
z?5_z&#irm^EYrv{6)};J`qKsE%>6MGcvu%|8*atsV)G~GdW%kou-A^x9G&0sfw!3i
z!Ao;5K~P+H^TJZ+PkaBgcRBc__d5Tg_s@Ez;BfKmYVE+%;7aYG;;Gfz(5;@ip81i5
zLra!>wS&b|D0OaRo}V3=+cp2xLd`<`!pVjD+s{h1U5j;#mlmI1;uoL3(<s#rD4D4N
zrxu>PSG%it>Oob_YgcBjlznxxPnQ~crH0-`q11Ou>O1vbQtCVVe*Isz{JaGgqJXDp
zg?XqhtX6%x)Hx(|4&B{%H@Vz#;=SkZ)jl@kBx6W1S@!u~du-;h*~|0!H(t8^k}8Ya
zhE{w>U_3EAEZi<E3O~u*$w+NSR(y|q&cg?W(OM0)-fKJZ{{Fu_`tzgrLSHYQ`(<@_
zzUGJC`O|M)xP3vYjulUSkrWtiW_Qe9D&8noDdNekY34cEuNjH+FgNB#RQ`=O$#I0o
z>3;nK1lwA|bPE@=gjvCf%q?NM6_#;9@W5#&C{@gl3iJzl3wVzvNm!}GF}bU{R<4tB
zL|JfZw9_t7=~}aa%B8JkR+<}abU($3CqNOiizE0ENeqZ73Pvdq5X3yn(s_vz3KY;H
z5>HWZoq`(_yof;d5+Y5EPv$2k^Rh$v&5;2^TS%&Tjv2nDnoJgvYM{G|Jh?Q2mpRz4
zYJ;~L=Njjat<=P397SvKQW+_IbA1bSE44fIX$Ujjw`aaRe{*ri;-!^9ziO)kY)j9j
z0rmDRBv*pFirz9%;n}&f^XFIUcg?tqj#(J^8j60!p6B?mx|`#MKjfkahs8(Hf>^b9
z20!9i3eHi$u)KW~J22ouLV6@GK2FIbUPJ=b1_R$XZe@qEE2E6<X(BjJ!36|HGv6>J
zQt)+p@ZS+AX1<p8a^FC?yQkdKUmiF}CclP9dAo<%{3t>=IJD+uQ5P3#T643ghihnB
z^RlRq3pLLVE?DOe6M&V1J!^iJUd6TVTnn&hH5Y1MI4uQtt<|vmTHR<^$L{ONYRKwc
z3zFF|#8QVXL3?Qat8YAa`?+-v(Y3uEd+-6624MG^9dWcR+;XchS6Fk>os07XUW?2`
zK5^qtF*s6(Y3At{jUZj?_Yi#6;3)W1Q=?5a9@_M+As8G52h4~bW=3?vjOZkDqZtYk
z+}oskwn^7EpSF2!o=Y))j=BUdOpIP;V)Q{m`eofHeL6LQjZ*Of?UfD74rSYEi{7f3
z1dR-Wz!zgk9*F-fCP6Iy&09}^hc+6|%@>RdI`FBO2?0+5P<1w9-}J;PaQYL+rYG2+
z)1NpEu-P1-^H+%@Y`M@%Gf2tU8sMO{V1x0+0YifGZI!X12Rb9n>i`&x&#bq+*(5-n
zCQw+d%Z0k!2E&OqExEi7ShpEj{%X^f&fyjY5OuuKZXMMB1C&KJ40b8TluL+<FH=xa
z{(ld*Qy#L6sGI%n-^p5lEx^%KN=T@z8Ioc*mES`_F9rJ6+8rRh)C7Rs7DEg6X<!-8
zW9x%fyIe=OPj8KCLT8B;`-oy?ck5KjCWv0A>@zk=B&#0`@7Y{p3|svPv_Y=Yv$8bV
zH99)RVllTO&R(UaZ?TK8(W?yHQIO<lx@qFeXe4RTq?d6G>t>SwN?AWe@F~nBRh!Ht
zJ4(%aq~<-O@P}6$BJ<BIJhyaUrD3S(0nC}dzVNN3{7UF((YM+jTkKjMIRF0BEA3A%
zyV_P8d&=QRDZEPx@4}{FDY#b(?kzXAl^O@7#=&xE2Pxv6j~F%b_;TH@jXF;gY4cSZ
zL9QiMDWSEq)Ot{AJy;I4C`JrjkN?bGV_Vn4XsPS4)OGmoXzBPR>G-94txr<>n^(ha
z3yxBBK#C6Bb(9XDmkyu57ruZEMMa*9I%bevz~yNH+hHTd^+|EY$y8`%eYw7%Y$5_a
zZ@mngh?cPitaMYFf>m2-pR*;2jrezXjg}c3j67DYoOq8$V<=DOJe4*YTSvJ@EnxMQ
z;h3c|2(U}eA%pl&DfmMQUPGYnXI99>A0l=0ex?GLbgg64lvCH`-%%!7>VQnx`>kIl
zC8M)=t{jP$BK=aNf62cRIX-joLD%k5*O1gTba&7D;gzl@VOJ_%oIi|-@kZ6{s&cTc
z+|<2h=Nh}$IcuY*=*Na(NB3KM-rTd~zx(1!`#H(gR`k!l$R<)u3da`rtb`92{pCPp
z{>pNoYuVMMKq;$+pZr_#6KPfkpv1rv*&RhfOX4dCpzTdgz?bGUC7h>VD_HsiN~GY=
z@t6A(1O%2`T<=~LBYE5G7x@R((KS0ofI~EV<7D>$O6sPlo85Z|->^LBFYt|@rGA;O
zw|DD!25|$Pp*t5TNWF8t3-wa%&NVkBc>r;WldlzK3JNY-4#Xt)?oYgUrT`vl^d`Wg
z$-VX8;E56N2t4*nEw5YP1!IF3j2-)`jubN^jXD^_alBFmh~qQ|AKO8nQ5*baY;h0U
zw+(EY+q+GvzLZz+Fi#x+HWbR!ZGczGOL<2<*u}NS;ll%;9Y5AdwOpmK(}9cRI;KEx
z3v)4%J<OMgIVj0qa>3BHP5Urn;yewg#tMj;(BfoF<$oddNBpbSS8cD_Uv+Hq(1FhN
zMPQPdE%Cc{2!5KwTdwcgkZuBPzU!E=L+Cp+@)^7NzLOc8F{edptyWs)S7TGCOK(M9
z-$6p2aD`Tj6>UX36e<TM1^<exU;)Uo0QgunI7d1v$}{W{R=^9=b?}kjp_ORfHl(&|
z6qR3C1S_CO?@_*6qY&(Z<FduPL_<y;!~p_1hxMsIrO==gI9QJ$_>t`vyh&%QGnN^C
z2I@JuzYWQ_7^jBk1<j{Bqzki&#lXR<NMcir!JHh4i0I3>6qAtaXeOC`UPvCFifx|1
zIuPhPnt@ASCU+bWg|q>)GDnR9G`M}FTpgVEEoAN<{Mc%VC}xQ%XP@FcC%#UV&rndH
zfaF4~p#rYpT*urjRc|%-l~HYBRB#QoU-n!lw?btns)b4-1SePJ$FCV&62vY_tYJG|
zio=}h!spFl;|(5%q@>91)R>?~9cnA7FXAj^wh{aicT%+NbG!vLgWPS(tgmAQkg+jm
zsPZVDYL>Wfo;Y#B2*5(yj5tT*TSmtJy9IhZsEL$nVp2`4R5K{m3>F>bP<tuVFNOMx
zK11|DFao&bEjL9=O+8Xm5AB4kw(c+cYD>NriJYzwX_b7f>vn4!kQHFihKn0I4O<r;
zbV|O?-&o*WMIxsKo?BmAuA?25A&=xbz%bu@=j(loo$vI}?n-3-OexYQMf#S`l=h#M
z_Mg31e-8DzSNoqS`y=yLmwmCtgQcEhQqM6M<@TbsU$}ai9Fg7WF<4m=X(6X5i0Vp0
zzZLGsIAAAkwzXL4yBeAeh!;ta-mxeE`3~YaDpm8T3NZH-IOnPLPPJ}%16!WAX%iiG
zP}=xwmjdkzLo0zj%dS1F55o-e$n|LxZ&KOM>d7e+G&f?zX0)nV_XN}cwvJG_-d2Cj
z%<E!f!S;L5Bd6_SHNcL>^3+@vXSQj(z)d^GstVSZ6&Dt(x+P`D_73xCnl@^{rfx8(
zLubQk1^7X#ChseWx?X*n`vzF*v|`M+n3?~+Ut=@tZ<V1iHJYn3XvNT@1?%g&iSj9G
z2QAwz7pqa7NUFinRj`9Q+J+4r$YO|lM3N17S#bYNi}2E>&2#Y`q=_`b;=iQepHuKJ
z5Xe5zF=uW@MouH*TL?6rjHaA|gZ~x9{xt<U=acP>-!Q}DCao;0Y+auQ^;B@nlvKen
z&N6VhKLY_{3BK_6j+eaMA9%ZgT9*U6%F#V@{s+;{Qgpu*-M{qgO7u&!epu*d&ONB>
zUalKl_6;H|NA@nYNs*Jqi{((y;^Pvww$H6LG{Xjc{`UFB`ciC2iVfY}|L*ah9sjF_
z$BU2tva4tDv8CzvuB>!@g@Nqbhu5rJ@I3$PK=b#$RSN9>Ah3J2uB+VMfA{NB^%<=1
zdc`dhoFfu_W9atK!Z()Atu!Bldnge13)EIuge{yqmf_)8m3W56=PU)xF8K!(quIsm
zk+O{(x)pB+9at-GhK)N7mpQh+MNcUBE&g)!CKN+tsIk27(ZBb$Fq302y5^*qi-5D6
zVlX&1E@K0~zVBm3bDX#LEjIilawoFJA$oV`yS+c_U8gAYlcOj2@}7MkdBgS=9bY4k
zuGcp*>!FkGTwL40(rKyn@S2-$J*qL0ZJ)1EUIOdPqPQIHk=#9>_>rc-Y-;}q{`AYM
z#@4T6E^LO`@W%$ozHAX}uUq1(`yybs6Oh{lo1#1AOxeilqrz?vU^i@fINYHl54{#n
z@R_FrVfo1l2-o(|ws`~QdEwOP6RH^KuGxk{dAeQQ9-$U++b`5@lY5(dN}XtVJ-J8<
z4XHq?8Y+lszZF|2jS@znCgot`WfOwPS<7I49oR^?V)-06GcKM=PUe!C3m4he0~}rU
z;cpNMGrc#(>Gx5@Add(i$Q}jkuvuL}4gVgGbjU|Sf$TL*IQYQGwiri0<Ckx4!ZSnt
z*efwb{nK{%SaAtmoPdQId@Qkp3P0wGFMh!y=q87EECvkgM620lVA?h_l#d;AlUY}=
zZ>mE#SpZ?%lycE3Z3PhXHxW%{`hnOFS`*=7X5zdWQM+LHLGGa8R*hD42!r3CX>Yat
zDzu)qa@n;_i`up4m0#r24a3k4?8CC1%^^&&$^`m0=#jwSCe5>0Z3SS9Zy-TjpnyGR
zz_gog{{scoVew502v3Vtl3bThrxI}45{$_DPw0t5Ik_W-=%zZu&Jod}3gsY?xQOJK
zQ-NNU*3tA9S+%SIM{#RBwP0}C((RGPm8Gj8r$_*<Aor(RKympYpjbn~5$3(s_&*xj
z;1~7Ig}cG`LMy$GZCEWqGAw%N7y<m2w!&lB6IbhC9$a*-)a~1F+e1X`1;>U9(IYdD
zl)Sq?@a`_}*!fn|n@y!1N2DD`N;^(UJ5Cl)lk@#OU+ZeLf5}nWds5naawYm@!p<!Z
zkoWPK$4kD0lJ6j-soSsNVUb~ne)MpYzY%c)#tjZ5!jLe2w_c_v7CwWHEy_!0*oJ_n
z5gRkPI@PIz4+C@S+k%Rd^d@KyFjV~7)XY=~CZa%WF}4!ezwFv?K*l1;UWS6q;V(_s
z?a{rmZKADz@F@T}Wv`cKJ&8FgINuC(<p^dgmTv>V(ru8NrkM(}2#@DFS>GVz8(ZG+
z-1d}x4YN0w+YjFL1K}`(qJyh$(U1&-cbncA@hkSmjz6q-rXDl^@G5wPITz+vrMDLG
zU6jODC(e>QLh%9u*`X}K994#HDhhoSoqL?bfhXnRREOy+-Apt=y>3G(u)MmkSzW5>
zl4`o(DfrTxFD+eMsrfQAO?``5b}DQjx2e;_{#mDGl!Y_I03??!)0T>61ExpMw_KXO
zqp?Xit?7bDdq#o_dc}X_I2F-D6DZiPb0YtJZ^42m&*2Hmo_0>VrrmJawO{A)%m+s*
zYSoqt&z<@pV@jF183?)?k_d`|m6f-@;y6blQY!;BorH+A6I__~6g+0y(X<z0)LZbt
z#lfu^rg&)iW2bCzeE7mG_|CR1c&*Zc%E7pTN3iF0p`+DXX^Ykao`Xm>)uptz!gJq$
z4=uF;06FyIOg}}3nd`H5zUeL{L=jBYsh-YY9DV7r>xoe@^#VMb>D-;{-+cVjBmO>e
z$klYlNT{6E%;BI>Do?&p6Pe^lN_N3$le>}5UlD0>ihn`D_b6zk+}5NZ#C*!i_;X4K
z!r(J<O)D@*9#Ru@n8nKugXZAjjFXanb^=wcGzZfUnxH2tt&}}113Mcfd)1aRIv0Gj
zAR^O(Y-c2_NjcJ86o#XO%98X^Me4EF+|&-!1!*L?LCX;b-Dx>GIDc2!w{y*DYxgX>
zS~qYOs(F5Ysd=x|ymzH}U?n(M^sct={AW9h{=e?nE&1Atr)T$+1D%UDDbQQ44*&Im
z^HTM`S<n3W#c;W<6^cjQ?s9#Eytm-guyB5<30rluwg+{gTgT>(ErjmX#TJFTJyPGJ
zpjw4v^8TgzdvymX3p|QXW4mP5UXJc8MF*wm;H>|b)h+WW((>+AANyr>!&)PE@B+Wq
zN{-84xVY75_o99A+xJd<btU?YUgW*%!LqMWF<8wDzwmXe4RW15Yx|9?_XLJJR=-7y
zl!Ft>y9ZLjF*g0>Glj6CU5ft}nLkIl{4Yd8Tub~B1wW_YuP8WA!36|H_m_W1i4+{8
z_h&-@t@A-mXx0U1<N5r&?<2dl)v;`AT7z#&W4UMO@4XRS6Q!7<iBgO-(fL-Xe%Hs0
z<S1`HP*Fq=R20zzYt>xez(-z>K?z0NpoG$$K?$YXElMaQX-eq2pYFnT_`rlB%<ILD
zIEqtr)Onlaj;uQ=sjA)HvT$zkt4o7-?eF@2=35>-E$w*}j^b+^p1eQ!e(vXoKcT3i
z%+j#nJpY9YBZ%l1Ef>1h{}Y1E8ZER~3pR~l^3gVqa3F897V9J}R^0@`Q9LuPLhx*p
zj>B|<i|M1=X^zTMzj^*`H-Rc9T>z*jQ*?myB3ZbfX4^sH&(Kc;a{r9#=f!iHZ|i@A
z*|SCUQ#X9zREND;SpJC)7rr||G7u`xw5=jL3*goj{{H=HaBtpBDKy&#0?;z2HBq^s
zpy=}2pum}K5D7R5kAp&{s+&P+w7?ff1wn#s(@`Z-jM=qK`%KhIxEneY3ut8{NpM!Y
zR?O5uxGZAy=}PMm8vWFjNGM`1l7gFc9B5#qJ}FQwir5+1p`5P7Zp<L=WgOgRc4vH@
zK>c)s?9=2Cvk4Fymc7bJ{R9)1w84RM|LnAPdh}*2P|@sUC#Ds1NqGa=n2INRl;b<B
zupp%}t*)D5t5mk1zLby>wLO+FJs{j7*8=|Hvl+&^@aX_X{Ml^|nziicj;QE$zoKG}
zBGC3ZNcI``Iig01XIK=vZnr=T^FO16PmQ|W!auqjeE;!fI$Hj<U)2v3Pp`t~_w;<{
zFMMrKoEiqfmTFtJ?1wb%EHw>CO#`K-V^R|xzX|+0*sbq(z?YX!o40m=A-~afyRD+#
zmBTGKi=rxc^;~0TDZEz-?=6LoOX1_pHvm@FW!El*zYcbm{VlIwFSQ+(+791sS!p}F
z>^le5fO7x9t7<<?nPbi)x(f7JH#pKy*m5Vs=kKBinL%kREE|g1a%oc;i+UTsTb%++
zMbkKJOuv#Xa9RIb6v$?errMkJtUyHc0u8FY(Wu?F-3(CGuJ>pHJc|6x^<#UrtFcS*
z9$KvbN!y*amGBT=O-;kC=DFtiZ>-ex7}XT<-=Mh9n3&~i`Z$RCy%1(f`694@RHKKu
za>(?Ug4d}V^N5h(4>d2_>LFQGQQxYIdWtEco?-@3Pq*iI-LmX6c%mY15bAVi5bAWh
zMW|DfCe$^{GSU=bOihh_Sq_Yh<I^_y$i?_rt}prg2tzuudvtOPUqKnq<V2cI*rmf+
z0_C1Kz3c#Y0hCspg_&8Nlq}hYPxFlB@H(?Nc_5N=fm}t74i%?8<;Y(%OH{ti!@jN2
zC%}VLOk$?xL=rHHe?*_^NJ;{cVK%v%Wfao*{y_S9=(hsfw_#@<MQk~#Cnd;QChugV
z?CmDBk6fr5(tVYWdMF>==zIt*+pS?6!lWI^J03>LKElJk_rcCTDxdl2d039E<}+qh
zdsrO`KNc%oyZa%<v#-FYAMRo9-15U3Q_<H_>~lTJdCkFxl&|c^Yl5s|DpX90v_&uP
zG0U#J6{dNKeX2q=nNMT3F-^|T^5AsKWNK_ACDOu^J!#rq#kYA<IdKOP#CA#zR8kY{
z_-qHI+Lf|8iEJkYT@;W6lpO$K&<7Mh%wb9<uB$A62Hn{*{xPMI;YLy2Tu0Gh<T@_$
zSljr|<^B(XH7n2aAG<hy=Y6i_J{P&q1%Ji)?sN6`x!C{YI`4DG{)X%S#NyyBA9EB`
zas09S+~H3wHs10Phu~um$DiZ>hC6+qJ9D2q@rlKXG?e!Qf1lg)cii6l+`dmNcHXki
zA=s#H=WAvMZVk;1ZE%QgJkDR``QUu*8;!RcH{eCc2RGu@gM9b=0ByQ$aEPvn`0!Y0
z!}18<GW+DMXXl<>=MY`DB5{opHwyf7Jl~?^Sh%{>yTQ@@N8hq=mf&n^g^z4l`uX5;
R>%cmPU&`3>5v8!f`Tqy5-Rb}U

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/internlm2_ve.cpython-312.pyc b/model_executor/models/__pycache__/internlm2_ve.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5a7877c7ed0e96d3a7577cbaa19f933b840752d0
GIT binary patch
literal 6544
zcmcIoO>7&-6`tk)KPib4DT|V5#gRnY6lE!K<W!db6vuy(f8rVeYhyukmlkFIWq0M;
z0u?xgfy#A)*eD9iXbP*RI<OBus=eeIAct}zp=1|wVIYSfH@cGRpqKW&*<FfOBsYg<
zB)*+_GxO%}&HLV)uiS12fs`@bN{h{ee1io&nYGNyKOl3LaD-zrB+JAZ2J?oDA#Q-L
zF=NOY<3`FeWlULf+)VT4j3sN0TeG&fjg~DLd)5(m(7ZL{%(~((nzv=#Sx?+U^Y)B4
z>x=uc4e^F-W4tlj6mOz@N5-FRjyE&JK;9*s^9JEuym4};KGC)BL!+9H2WU$-wDj;z
zHExh{y}<SH4K;4-HAAG~JM0)?6iZsnq?7zOWDU6-P~RzmmxM$*$8(4Bxm5a6#Gp72
zC6W`oT2vh8GMTJa#VD>zyu=m?>?I*TRe<i+Gh^?K=Y=d}8&6Lqa#DIaA*J&<t%FHv
zJereuA$MYI;D99YP@m5!{u=LaUO1GP5)+vdV~VTB9XoMK@vN2d9G?OCO_Y=6xpYF}
z&+<7jFNn#ty&=S{6;}QQnP0<^@+8i1ByO-1{Nvo5fj4qS-o!D}Rzf%vZ`N{V-ojZp
zCgqqVDTcG&aL29C-ox2=+hk+?5Ne*YZ^CzM!dJ(0zOvTBZ_<0?UMWK>OeW>vTsO>d
z=PbF(#9i-^h*t^JHtyUzqkIxJPdJgd#tY+$B}orhaV7D1S-tcD9-CgW6a+q%zN%P2
zE2e~8Qokg)a2Nbg0avaV2>Bgzmq^H^>87nnK7qCmwK7AB%%n*x)P0JCg}!Q%;0)AM
zWH^R1=n6YyeyPUDky?%Ar5Y1wuGLs2drcbIaAanZngYF*KJp~4YF#Rti<Y9bXeb(s
zrr#6J@(05s>qAXGte`e;sX^~p+-%GZv<G&^ulHN~YGc`8Ec-)k*I_KD-r^@1%du{(
z+D=Gq`ly?nA~PA%TdaK_IUj0g3-k8s{QrY2pDybfiMYlUhmbGutTe$(iL|eW5XD6q
zVlt6Q=PoIMY~m_g$ct$-H7uXK$a5U<#WV>MGVSO~=w>KlSDX`Rj^lHzn4abpdu}Sr
zPVfm%R9u+7d_^q@K^R}a+a_#5(u4$0Pyj?B)9$_$&vR@lFZ?nga1pbBo2N9S(d=o)
zN|o=>21_KRy6(Q0y0ce!uyjVgAVwM#vp7}Y1;xg)>0DZ3Syi$XEHJD=5KuLgCY)()
zN!s)&^D=*py^_dG@fy=!YbBte6grS}q6}C40u*n33Faf9;=>+iMK%Y9o`tz7o|-Jm
zQ*5bJj^<!bO(LI338?q$c52-|Dt4AlW)h;vvLX%<*3$KVkH@5JAy!BiqEbSD)kd#Q
zy|riP@>_f?lfD=$T$3j9x!4szrC1iBf#t9A$tfu>s6{bGw?3E24#4dD3fF`#kUkyW
z#4PsdyNjnR_A`Whf1Rv)h~0D3D%*lfwk?&mt>w0;+!mcRE!l$0&7rw-^XDJGx!AmC
z*0CJun7cCn;bUnrFg)v8?utC<E)5+2^6X;QnUbw@xphY+7%B&Q<zR26B~)(dms|QP
zt)1o8LAiCX64+X4eZ8{nXGr0{C3O4!xp=9mceTl}#W8F8*t6O~+9PWcI<}QNcFP^R
zD}nZMpjQs`)_PqiHSJh+TH2x4lC2eHAKv*Rx|Q0arKUdU7pDC}(66(5K2`1>lDmf%
zQst4;^2q6>jx#8<Z8_LEZz+cd<nX|Pr95<89y-1hJTYtf#JvI=M-;n$<wV7;-zv~k
zUQ}!XFQ&PvL`G@2k{031O8Luh>9Ps&@=N$)0XY<3B(NiQNzr)SUo^}Z!M4JwtWQP5
zLybFQ$Te@)rfAe{(s__Mqe|19sCtP-rf7J?=xt{VAg><zw5Es%dYhU&(?@?TnkH+Q
zuqIW<Lg5Rjuc6agJ%^)gfJyoYle#~%)}@B8Gp3@+OJ>X<p=N2<n!!9xXs;$~__S8X
z;eNhiRDD+`(afz&`ifBgFw_;zuUz*&7zs_}x&*z=Kk@9$barrBDZ_hYvsvgXh11qr
zMoi-ogU}E26?Osn4i)UX|3Hd3h3&}gMzRBlVoc<&p_5eL6Ow9|O&9a|jL?gfR?zr~
zM1fbVsSLH00>BiBSOj$G*W?QWSRBM2UWvad)!hpb?}BO&g+6Rx)$nDyb2B@pHP{cW
z#Zxfz>!j)<E`Q0{RtapIJyHpU%b}PYiamBOhDL6VJ?-9J?%pGJ?^%d`8C>i>BfDOk
z9h(~hvvJ>Z&r@mXtZeD2nn`QV3Nf}iX5Cd6d9CM9(LY8XyBDr5b{&yzowM%SS1Zm?
z$=O?qj+CPZ<><ks=x8Ops~jGZ!$S)V3!~-X6Y}th#qd};d`1qRSqz^ox!Nn8{iTln
z*^`ynU^#Y3jvcD_+DjcV+1Fq84avTtg~o-m<-KF_-myjB_=?fc@A=l#eDl(+G|b1n
zrL<*-?Alqi5MO86+a-Iumb}|4yWTACIw<ctSn+S2kIDXlvj1(_|MtSbf>hpjQr>rR
z(SHgA4K#k+*m|euw-FH3&@q>neSK92@wLxQl)T*~TX)q++P9WNQ8^TSkX;N7&yH2R
zA-z(F!OljE<Kqg%QR5Le;&LvL<yls7uq+_aR0i`dmIa48qt*y$L<Brb0k5256alvp
zjubQCRdPbHsBsJwrwSQf*o#$e4HuJqCd0CyGeQ)&BI@FPstW?%YDxlF@fRT9-yl^R
z+1Xzi*j;G}K67@P$C#(SaMg?%*s4I+{HWa0TeZ@%jRYbO-jG{jRXZ&^NQ1vh`@kVP
zJkQ;f8)wMC?q|-hx#ww9@b2)P;i?((AS~E^w|J*mwPMLepl;`#o%4RV@%5@5Sq>7~
zdVl!d@Pln~TVECXqg3zg)ThOp#krr~KY#Ch$s3XF+h4e$j_xX5%uAu12Ns2C<!d1I
zp&SMZpD_@`86kW#rA#znGvDyU&03J>;jFx6QtwZNs04z!jrkDFaTXd7IyPyc);eEV
z>)N=Mx1r>ei*rMmW~X7AgNA9ox_dl^Zj3Mj^Munzi>Wx#z0qPa%1LTq2TufqpjJ_!
zL<6!e5Cij$ffxdsR13fW+BDE(2sqJ(@rY444t>?Z92txcS?OAV2mV&%qmI&3`P`%$
zty*hU8&NWtr|YUhV(aPF^$V(bRvc7|?Lfe@TDG~VUsVad_Tcc+zH@Np?5)p<!S0}%
zFs|6sxx$phra6%sO2wb9cckG30mFX9O<ReodoNNODzv}|NxW-%LQJOHGy$6j(W<_M
zH58r1&0Lp+)}rYni2G(NxduRvjl2M+h8z}-%vf_C@Kg-P$gh~9kz)|qW-O4S@%fCk
zE@CB<wsnI+abq+FZY>&H>!TmyD7gSOV8&)3MH^rj#;WE=#)sN*Q_sXQWBs_vw9%S3
zxEi9TF1iG1oawWgcSZ4Y1783~)jbt$M0?Q!s%;*p;7P$P!qB4uP(?gdSq=er0Zve4
zQ)xkzSRs+Sta!jDtP9ozJU7Kc6;o84A_M{wOG}EK&v9DT1u`IlP(=vn2q`9vQ6dgi
zX;0#y6wXg!?lcmF+qKy!W>qM|ifEu!#6_wqHrnIq;13jAgW5FIieCYNfB~R3cx$BW
z?D^W+1E5jz_Ey5tJMO39ZRPNw93FgpbTK?~+g%B?-8}NNsi)L5SaJ;lt%Uj?cgmpy
z05yRf501%!w`PwlH@D4=-amft_yd1AvPX{WS$N}%kw1_8t@+sOJAd!qQSr3`U{-v=
zO4s13-Q44$(0y+Ru2Rc!2Ap_b=+=j2@Aj{~+n1ZVD_yaL_hsK<fIq*dN(^ofnD9{e
z{+@e#<}W-xve>p4q8vc-4{+ADPz~kA!ROfrYZLY(Ie-N3lW-6TH4ld{H;M#zo?@49
z7<2CesmH6M$V8IFicf$5UR4ep`X@1(9rM#w{45MU$4|A94DV+u(OrP(&)gm6_8Rs;
z9wzQ@rATDOl8tl@JRX%hhN^ZfIy7LK=j6clsuNkRm!Js6RXqSjpN4LRO2Hknea8zg
z@KgxW=LfS>lYaA8(Es{z5Jb&8-T{l!Ql~VB*B&{kkr$4E#5Mc-lbUulLjHkir$;gl
z(-6^UfWFsT@_HAuZtgXEehd3;Y|l@wv*!`(|4^b073Ko&50c;DNcd2(k;1${g?WZV
zJwfac*#ZCp4=)n<;vzL70##F7rQ(8j?wkmhH_Hnmb<I?q?NeVuRX+`tT=60N_Hk)&
z*U}fKB%V`k);7w1`O%?IwNdH^jgR_X(({U@^ubkoCs+N#4F%J2#6F6D_?kf<d<29A
z^#KPBx#Fhdi2Mgrd@jkWHqZk81URFrpGZ#{x8`%AZWF4rVjBkO&}KxKgdzf?_zNIa
zBf~JyZG>t6hPa*({}U4Vmc)QQAwy5d;THxoV^|?Tp1TOsw`w`cFg<e@@2BsjR|)1<
d-#2Vy+HZfjO5n3P&X^cSseRXT0$)1#e*qgjttbEh

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/interns1.cpython-312.pyc b/model_executor/models/__pycache__/interns1.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..09f57465449c8cf2a977fa35898a8c24d793bac3
GIT binary patch
literal 35563
zcmeIbdw5${b{~51ev%*vz6p}xo8VJ?=q*d4M7<?SvSiuecmh)dC_x5D`2f^|1E!j}
zZVfq}4wW<&-FU9$G^y#@Ux#x$O_Z;XsLk#D-0wCij-gz@C-N6g<1g*x>jO45otb>S
z?ftF2aSk2=ExYOD>mT<>+-IM?*M6L{*Is+=wbowvzst(30<Mt$mxJ$L7lc2h2j#M7
zBO7%(LAWbCC-?=wCM1M4Q<|`LN*mTq=`@t44e7&%DMQ#eWel69Oe{?oGEZ5Mrwdu9
ztn6+J+o$X-Pai4^mrs?49aD~Q#Z(1LGlZPs%Be~gH-=o{s;Md#H-)OhHB&V#ZVuIk
z>!#{h+!Cq}H%v9KxHZ%mc2Buk+!ksIH%~RQxINSo_Dp$Lye!ljZkuXj@$yi6xMQj#
z+&R@5?waaiX^v2LxM!*-?49z4d#8HCeN%lby&}{f9+(;k4^9n+ho*+YTc);zho^>F
zo-;HO9-SIx@ygIxc<a<w7I%fVg||;_XYs1gj_}T@o#9<myYO7?uL<oA@0r>YerD>K
z@ZPDt;eAv4SbA+}e|UUqJbYm4K=|O)!SKY?ghtQ`M+AS}tAf8iV88OZGAz0K`xqCx
zrVca620%6jcB-jISgISTO?jzD14jZ!7fmR2EMN*8_c!lB4Ggjcke)oq6D+kAscm_w
zCj%z}Ct3MZtb99__jd#){hj#h3Y_+L<F6-hCNLS8oYmGNch>6nzN()(>+c0bAO3m*
z&*tYd7^A-*Fy~mC188$FFsQ!Cd6qha)GdM0z<GjK^PXdQ!^j&63>4*E&<cUJEB^rC
zMOWZL;C$e@4@Q+*SRG@iV{7Rz9oQS#7kK7<Bd_NDY;997+|+ru{fM5tI@x?I8W5*1
zh61wb)b!P>!MRJa`CQ<Yg}~fQ0NIxDxw-l1bTr_XO(%l{8j>yNZ(a?Ihl10QNkG^S
zOh;!f9}Y}M7sP<<JT?cQxeF)Hi1RanNMv4=E6#|4s5l**3-}Mt&&>uec{Q?e{NVYK
z!;^^BADNGyo)Jfmg{LnC)Ix`+BT;15D79S(`UCT7E^@3FLZPr)UB!XvNMK?i9KLz_
zYBV@M7Xd`&*@fx3XmD|w5>!YRukqaQg<u5fr{?{E5P-{1Erg;$_H-g}lZv}eJ$Lf_
zu~Vlf#!vd5J#^&Qx%1Ed0^YV#0h|s^Oh>0Df-_OMI+u1h7zkzGGC%pm^=a`^1YbHF
z@#<w4d)GtZivhnM-<u_86V+Gbi53QVF1Q##f3iK~4fDDTaxJ}iE=w&hS5ijyks6ts
zotK?>4quHv8@L*po(Y5lb5YsOlb*Zk#~915{HKXPbUGNKZ&9Ou-eYrD7ow2^3&D^-
zAktT2pEDfr2T}ZdU=HI=1=?n&XD$c)zH2mWzN-o<_-4_*Z-yg*R<`p3=Kva>mTlRm
z%hOi_Khh9#>gB53o2j2GBHPa`T)jFkMk6QZpB<Mgm8Tr6Y*o_EoIx$l@rCI8^MT-{
z%T#0<J(tU}kA(7gYzWQ;qrPiEDW4d)6pR3c(fcqVhinf|-@F*WO9W<vH)gVPh~2c=
zhm8(IUc*`w5T-PKVM-epW;K4ztL7=4U;C;srH>0YG*gCiG~F5%{LA$g-~38oCOR+9
zC>2t@Aaw!}%8g#6{+i~l5T#Uh-PXp0ZyP{Nvd<bJiYI<u$xe3VneH*o6?6VGk6&R+
zXkmJ^OnLTeP^w&c%H0=jXqQF@mtVVxdKalD*_4>zQ(MaGQzeJb4}boBLJL*-E%JD&
zw|+nS-O+oz9lxS=N(}WhDDm8#h&kZZFZ9&6{gQq8AL_M3>DNu5*reEn#~;x<c`IZ?
zWPuRe?DH`c_sQD1IoWb@`es0!oEO7#*)>K7vy)P`T@L#FfjM7<NRBQD0#V_gzdje4
z4qpugd?L|O*&3qKzBwvxJPEQsEy}iN;6_xb#2jLYzG0DgF}Vu!pCh<0Tl+MKrj7yy
zas)F&9|?qJWh18!vc>0{2~9^LK3{}pfyZ;}FOCmI!&ir{2Coi8K}`eEfg20kckXz3
zdtfLOyf}3AX7uv>+z`#-AvSS+fg6DtOni|)MuzY<SeYWjgI8~gW2ken;|u2Epz^^c
z02z6R;HS5QN9MBICdpj)(A@B-!TomsoBe5fWy<c6?4FdpU$Xaq5Lp{uyO!EMDdGR<
zWOC?q;@o*@=)7b<zoFAMTI2dR9FL7cedF7fH!WYjEQ4&8?9C~AuVnAtFzD*3s<Ovs
zp{ik}E7h=7!hhE`q?sSpHK>*6imV<^_3xGX_on)fOZ~^u7pmafWgB=ep@8hr$7W>b
zZz6IRD1Ie7wFy$WVj5+_FM$+YA^4&zrY(R_$x{xj2!hC6(NzGUJtw@Une^(#-GCDJ
zQm~(baRgqScmOxKJV-o*Z<ezn5xGo3X5wEWSv>NHhX~d*J1=5U_Aj=75fWs9o<)hs
zegwCKbe;Qc$D5AT@?_oico{vFy;*iIoU9w;Pv$qx_nMM*Lr>&6+zGQ=Jd8@bMw*Uu
z)8T;6CtH2A%q(DX`DDA#_sYU_i03dA6;A+OF3Zk^nLsGy^S!4L8BWr;>}M|{Zb6g<
z2N8)74gcw@!eg!7VEr#{gQ1DF%JOHBrCti9-uPQc$}L{lFllJvn$iahe#Qs~jD8)l
z%V3<%S4z-wu&Y+T-f!?5{igTzynfC?qonq!CCv(|sAViv=BCwalk1ex;p}1XMj*sl
zki|c+dT>ny!Nm|G7um(0DQ&=Waqj9a4`WL`M94h7p1B2ZTcT%v*28clf~1~dPamcG
zt`h$mh<NiVnAzo-R7=cUo}QZvgd(1v(R`T8yF5o3Pmx#d`YzA&L4WjeUed+6r*wtE
z%J!@DZoX^Np@l$1)<?l%%R0Qrk7#nqn#;20x~#o8C)@IRJo%nYJc(@a6a|w6X!7~|
z^D{o5c%G7IQppaV5B(<|o<0+@h(nMK#BW@djhyKcJCXLDz!8P!he#;Tf+<8IXAt~#
z;WMqtV9rzuoujuV;@!)GlC?FdA4yj>t{i&%<eMko>st%lKl?!U;9RozSi*fwsyv?5
zA5S|QR<^#q=gmFuHLjgcdUquncS+9O5B0lwW7JLoRw{&G<Cl>0m%++_wKTTU%1s+V
zV6BZ~t+Jg`@z2EY&+N6x?gIQ%dC)8lzQx9_G!D)M^Kpn{T^?FQgR_xcp7R)%5JyQ*
zmTWPM%>%p)u%m2I=D6GwUWi0JVZvEYXnO9_0!W^REqI=b(=#t$oSzGDES2q?90q8g
z5n%{{#Xkt#LesMLGO!Fh|McX0_97$_U&I&6A&~fWdL*O~e~|(o0$CpdlgzM2e2Ef?
zu5ns)kzy1C@wY*giV(*D#3?UE9II>j(A|@FPTm_^HGI$ho?U9+DphU${x=?seOQw?
z`&@GSg+$c_$@=_5{qwv5sy4gjm^(MjNCF>;0u1`Ap=;)+(lyKb*`-s(D=Wh*o7bMB
zYkXsyN7w%K7vR*zxoeve6SmbNx|Sn#vm(}*NFFYIIa<VN=>HTFD7*5>8s83PQ4z%L
zns@;NDn3ua3lyBA;1?($sxv8mjiN76ki)MqJyLK3e-R=dIl|OGt|7{lsO*-kJxTrk
zzZ_|zMhXz?e^JuJQ0Oa>CSXx+dE<zahb7T#Inu;3e-5OH)$1!HP1iu0(6l&<?=D_K
zFezT9=t~sj5a1Phq~JA*Tv0PADMuXGN8!Xlc7}s<KL1VdRlym)+9PTDMp06w0>Q~9
z+X0m=L;}9(Wv~Ks5QWG_2(lK$xtT1Fg9d3C$ui8l5COxi6~PkEVf(+t;~Ey%#B`!H
zhSZn0qtgb8EtUzwk|u`T`7D@Qua@uI*xQ25y@uLEh_(fh@Lar!AVSU3<m4QzTMR_z
zL)QY>*ztXhk6x4B3lu<%0rqcGp=S`>5<asFgZnj7o%g}ngueRYfqhE!ho-7Teede@
zNA*K#bN$L$$=sYU*RR{$iRPh%Z7881VxL|%QRS!@5#B<<u7S4A#HeiiTLchQsCx!_
zJ-jMXl}+}9@Ez@Ubl=g>=r3dE@%4T92-+Mx#17hG_^<Z?M)wq$TEOVhnl7d%fy9jV
zhW6zK{;ApBG^f=Fb9&03)&7e9je5QC#sL1t^}>>2Nw=h3(nskH*cAig`>ODPPU-VG
z)Ta?<^h<hzybj3}AFLVmJyDEGyYRO`k^|Z~`88Zfz?o?36-j_5MZy@iN9SX$ku^6W
zR8e+Z&3i)A;fwz1y^H<W<mN_~Z+iJ2JTkZ^G(R&PitI&%L$9HRNCkph!s;t)&iA5g
z)Au#s_y7HGu<?UTPWN))rdKN)L@*5j*$7D;gt}g%xJ2C{W=q!0$(o?7xgwVpv=uQT
zlkiT#yoSyDC6c`Vx9}Iajo_B>*e+DoE?>WAT5WyD_R!h?V}r5U_(NxZeEgBKX8Dzs
z)|KfuJO6ge6OU<I<?{4O>z%+uTi43<KeBaYEP~Y*AAjALF$$Hf8IxdftUEm!1MX>O
zKkkOg&jr-|xLmMTE)PhZyB^whC-l32_Sk_`_6mP%TtD7xE}-ZZbds)(zmFitZ1N3I
zK=0QD46}N_9uj_RfoS^^u=owcJn|)dR_iw+&x);&=`D?)axM6?g0W;!C}Wv5`)#ip
zr|f>0-ySGaO8d)RHB6Nw-+?;HQAY)X)%qQXJN*@?#mU>_EwNmqzY@8XHx1q@MKXSF
z7}7(Mvu8!Ti{8R#4|cE~g@+x8L~n+&%wl9vHonZH(jv{y0!*gyrWw8QA^R#?k^&%B
zd|e?#F1n&bqu4d831aU5rsi*IFu#?RbF-QhmQ5*)`>ZBvRUTv7D~eW6Ny5F9c+#(V
zOUql0X>+2;7$>m6{xZm-xLN|@C2+t*<-z9bW}-Lb3PS74vpI3KNF5N{5kLq`vf!+M
zOC+hE?BMH!TA{eiQu)fJre<Xm;<s5X`L!3wBg9`p{$jT>QiX#!SlqGS25@8=0pt<2
zTb84DZ``?&s@)>hZh1I-K&n0UU=~5#{;2y{+FtRUqqmQy?5&c$HKQ~1SU+vpl6E$w
zoCA_`Amtp9oFku^keo3Kj_S`Wh{f#>%^exLPyvBOBO@M@1=vA!j{Y`iNbZs*6_oBR
z{)OKIePN$PHn8u&C>#V92LPH+<7(-RAekg7J_*{xzECh6j7Am*zu*g$fPX;sVjZOq
zQQx$xmmC8L^MFF}Eb1u8Ha=L_X>+b@j4rd?yZBucS6`4`jL@IG;D18|gj{#4p|lw6
zedN<sY9e640>S53Oc$j(*`+Kgk=m$2eDL|AG~L)0(<!@#Ul+cs3emm={^1I}XVDb{
zvPV_vuhO3nw91Z_mc&v5JO%O!Ef_@?UqF`(F{ZGXTpZj~LFWlZJb@cmp}Pq9Jr@_E
zo=fvl4_2Bo_OT;APG7thhTI}anPe-Z&2y3HG?a@Xy$|$wB=I;Tit{4hqBat0@I8!g
ze%6<rWL!jp9V_YEDtKZf@QN=Kn7b6cj8%*<O#I&|c$)$mRN0AYiYlncB}M07hUn;t
z#jPsaezqWoTI~A*yezKr_tAFbbp*Er?0N0g37Z>o!c^UWR5t+0V5$zx*S`3%PaX9u
z-iMugA3F9us&uC-_y3<&4}!nnlGuMXQSmG!w65}upe-xMde_vIa*s>y@wB~erSAvl
z|KWv<PG~xy*$}i%RxoRTaC=gXTcpM<$;OdX<3XwMVB+xeQseUpb6wiek}$Wh8Nryy
z0=7-X^nZrlZYJziais*ghxk`}MJ4&DBzrCCkgnpqlFC>#Z7E&U67kE1{8<pw$G{~6
zle4wIh}M^kOQxKLDrStCl-a}>tMgtBdquA)58-UYw`L`LvW<9G<-su{&R_LKp`PT(
z#aL#>zj)0YorvjXXj{yUt1MH57B0pasmxKe!j>2CP>cPWAW%u@6l#sUi~wY<p*hts
zBsB~r8-`O2<5I(T+>v(orQF*k_jU|^ejJEU-;=7_E-}$`Q)>chipK3}dlUQLoNnlT
zY%#d4P+-JO%eCN?DtcGD*S04eyAx(Ej#KF%+Ro9zm%yDq4LfKjQ;H5=QK=wR$u9+?
z81|IFl2RDL#$U(inN6uDcUNmP_%#Zq#0(R{*FhH8vw6t^j4~4wjxB(N?n|~MEBaiD
zs#;?<=;2h|Uap-y%4(0<W5$;!XkB|_EM{LaMx6>=4CQm1hb7Y+6M7+L^y^>l0kk$|
zx@9^p_zg;*LEBBhU*n_~TSrte`JS$bkP+9;S1x0A%_6wPo`X!T>$yCAE#R4kFc3;H
zhz9fJh$Qgd(yCD4J18ZWWtj=CXA`j<C92F6C&Ubi{{RW%dlV4C7O{sCyk&eoFrsP!
z50ll=*)GDwz{k5JTiFBarbxWMT$SyRqL1M^#k%5DSe#s)4?@wXy)Hs3DT?2xX8#YW
z!9uUXim^3bnP=?I_rR_6GP%zCt_P!+p-+iKl}00rJ2shkPc8ZH(S^t(1ek<Xb*U<^
zROL-p^~EjgRdsid-Z`48>XoW`lU4n3OS-Ku)wWY=+nH*cknrE!61Oc+F`_>r)r~Oa
z(E85(l6f0+K#AsUe_Ydk`*8fgvNrARTCIHZ^y=5{k4OX0EN_b+TBns_SgIRNyIa#u
z?dgX0RKuv$Fp3>d{m6!(uP=`u%UFeq`b6VU(lM0o-jb;3c+@v`f9r=e5BttY6+M}1
zp|&GaCscb^$3LnXNDLoK44=hPVzH*}+pw-!tO>`nVD~C|66S8UFci#sny-xec@>c_
zHR}nw=u&W-%{?tv1ECZh0QaK9JS#x~KF}x}43~`1<`zN`Vv@ywN`Z=?NW~n_F8KB=
z&E=Ct*~M}MEs~zFWuBG;jy+#unJ)&0L_mlfN882tk?!hEb)A&DPA0o1C3Ab+z8qe6
zxKfTD$<dRp>qyskrE6MJHA7O(5Jt7ai&3qxW(2*(%0@#rWf>dU0={@=eqk;enaTgg
z>InTg8pjA}OL2I9jbE#*j%+n12}9B4hn7!;Ax<&Bl`O0>lHdnRj-iqt(=nQAjA>%V
zMeLhmhEn6Y2*R~wikWh}Zw%XOr4KCEoR??L<pB>2lj57`6_=m<9g1}!@ET+t<}$~P
ze@>}?4}q-1aDnbI-1rxi`umh>RR=M`<7}4_;p}3CnhCCecte?`L`g>j%O#Sf%T)x!
z<389`WF^|f$*a^Uk1`Qwm<9fdl<5mg!X8zK5Dx+d(<;=o-2M8Uuix9gI-aZ^j9b&y
z%>~b(R{6B6u_e_wCN+*F8@JtWAVv`^qPsoOwM}wwyT3EF`#A~!8=s@(mZ2Yvt}Q+o
zPL3XuS`LA7ed?%8xVl%JNk?D8+{by!qv(d$RZ4>-8|N>Q*$3Z6v#G16G0;JAB<@5^
ze2W5Ff7x`F^%v*oLwx<ARfkV>HlqKU9$%v1Fa?JwctZ*PAtI4~jNnz_WBq7GZ#KAB
zYcc|EiLpZ)bk9_241=q+Yp%7K`xD>4veqJb$2SC|Wh#X2yFa&88ax@JP*a~VQOqpV
zHe@UmvkFxMt5L}{nqeSz!CJOahK$d89ELq>WA{70zk5SKG}BgR=vmvjA>fu7GaIb;
zW~g0jrmEb~zwWHc7;r}mRgEj7_jD^eBv(hqL`i1U_}GFNe=mBa8T_di;T2sQFClnR
zJQXkmjH-A@5mcEhg5TmdlIA@C4ZaFtVo&BQe7<<f3{jL7LM5x*psbb5l#)x&v$lSV
z15c)XfpCdUH!fMilvgi803tFQ83Z6*nx~R3Y;a4$<dZI1Uh-SXHdkuNQOH#(;>4KC
zuUZdn0E#Y<N_|YrSWN>bizHzK0fW@Ikbrp&;=e?etPjFElTk25P{9b0Y~#Wt_Mq%>
zIUQ5?oS<VA&(g7ns7?GM1W#;h%ZcCdlZC90Otluhn-4V;H|0P*L~TeNgLSTmwmk7%
z({ML<Czz_)BGqh3){LZT_DVH-<F@oB>FbV$l_|;5z1nx*D)k<a90wBS18go#ibS+Q
zqr<*=ZqZwybfK@#@aPZGImV<Qq4@fu<%}^VdbX$)7sGQY%)!EzTP%%ObXA#Vu7ZL^
z*R%;tKIWQ%xw+zM?20n+)s&pECpI#cQbvrWB&6&utxGm2pPUdNmF%%1Zi1RhSh9Zs
zq$-$VkY(t(DtO9ulWp5gG5ZI4W#bMwbz_tVXTv7R7&FJpJ}|sb3=J;7kx3CvPs|d1
zZciZoKLC_1^Vb5R2;1TaW>9Xwz-9tpZ$;Wdi+@bP3IcEfNs2Sxk*y{)??hTU*bYei
z0b;V#mzyMvEsPW-@j2!#FJdahkExd5qu>FnCCh~7mT=Z--lKyAku}Vq?UqlKMzW{t
zid0#BLD|7+fSM4YZK=v^un6ZkoVm_p){tpOPU!F??arIzS?C^`=bxi;a20l;yYJoL
zJHb@fS*h!6vg=%yk4?KhZy$T}Sjv4wavw?CUCY0K4TU0vdKx3*tiD@+r#|KEk(@nA
zXK&n??(9o-?vy%rraC7i{5Q9OR}TGf>%NuVw+G+Eiv6%*_`&(O<Krh%Xt{1kRrg8N
zed(IEbZtkvu`}J^g_5YIe?u_Tl;aHw0NT@y{aF|rgE7{Wf95DBzPmijcZ-abDYmHM
z#xS&QiGN4|V_eb{Bhjf?O~I!WyhK5cJ(1{<f+qT`bBGXovOS|W8V+h!O>4Tfb8BX)
zXJ<yBg!^C^=#FjMGvk`iEUgAB;~Q|ts}}GLlw=mF-75zZt-}fTuv9g&c3!I5nV~{p
zS*-5IHpF;Wr~@<jQ!jAl?AjnEIp1VGU*!c(LE$TigUCG@3Z9Gs)2x-5x|?3LPnn_q
zGC}>74{u~omaMYO=(j?BW%b*j9xH^i2khWj$^zx}=oJ)ZWq@-qqxlLfo8_Ar&2v4@
z;yxTs2+nXLs)6~r&`nQ)X+4Mf0#-#fLQQ~E5zuV&X~XtiTy`y6vG!)=*qocm(kk{5
ziJr1mXv&y1(Z^WxtI&3})Jo*nTvB!7SckMFVYGQL#yo|Bp@c#~dtCUICJ)BA84T0s
zmEc=Stt$QsXz_GRi-&DnsWoQF95a_(2~4Gw3w|9|hAfY@WQmf#oLw>1SjunUVlsN0
z7#LYX2|&_BW7m}$C6>FRXQXs5y8I^CDbx7iTGBkV2Aa=Bm*1RULr{Rg&?x@!5=4hF
zBZP}LQLjBpdlh!wuEVhm(1%TWqm9{vP~*h(A6S&Naj7h3yV9bR&)s8XC9%P(tkue0
zBWwa`Qy`YgF*>cenw40rT!F}bVF&o^b|p7=$2W99RH=T&H@*Q;rVTb66*It1*l%F_
zwp5WfjulG1ceHOfU|ZotZl_Y;l`bWgyT{bN=E3#k@|9T3snq-wIMbD0rA+Rwl=a)+
z(k)prl9e%o_#=#@i;0PU8E;WlawJP(g(g;2VkBKZ_mQ;3%JHw{`_Y^s<H9dF+SQwk
zwmDW^Fxub7XuH0`XxBV-v|Y+bJY^JXz9d|ZZj@nUE5CS_1Di`yiu_srlp4&ap#)Ck
z*8utoy20!p^uMX`m-`(-ZU<2t9Z)b5RJHcEG%+jwDt}8oO_8-T(k@k8=N3mS=5<cW
zM$UZ7M$VTWhL*K*+VA&8pnVNOJjDf8Od!VOV~egmT(HSb`dyx<<9d6M$eGFfL<ms-
z9eO4HdkTI;!Jkub4uNceY<>X(c7FtB3@pXTYbD-R(W7NgU9cVi6p+O2$WGo=0VGdS
zAmwsyPKOOCJ2xn6uSOXg<*gNei>lCFoxdvn2K6RLL6QQJBgqz41!*f}BhIP9G()6K
zudIVQSk~ecsxGo{QDmFpQA)4$!B#3%VA~-Z>Ez#>U$$Q)^`FllplW23$j?SHQ)hM<
zX=XYq8+i}K&!`8qH}lr>O+cwH_a6x8KT<&Ucj8Yd*g%j~i~HsmqI8B*uFMWlp4~qa
z56I4}*#ZnBvasTRrt;ZupEr0A9N<VPGnS=;Ty)k_tvx%^`L&bGR2i4NT0~NE$aZ#u
zOKETdNfBCl3wIj1r(0YK_g?{$GukM@cnv=J=}!|!yaP+hPhlTcF1TPH_NxPNQ`%W~
zxA9Kn$_w{IzB?#-egu7a*Kc+_baX>+k#KYuKd;vg!xHA^otvrJVTu0lT|0&#ZckTv
zxUL3@n)<d>y;rLDLY1DfcS!b*`_)jUH}pc6-e8TF<7`%iYk6<d(ROe8Bc-8qefO$H
zs_%`Lf9iDIt+`XPVo%j=k?OW2Mvi<~lXRYm8y{_!v0m2@FZ<Z$Ot-ct?9G2%-?D6Y
z)Zu;Sh}5w+-PoOK9F-bJ(@mZC7834(baQvQh4wI=`>==UtV~q2VjJUZPgQuO3U8u!
zcdB=v)VuFNd9wHP!-_NO?tv88fA{cOU(&sI*^=%UNOkOzI(FUPnd~_9U|Q-piW<`O
zEpIo!*_`NkCb92K;@NY_`tx^;nOdR2^I3y1GNDN}Oi05ASF7F{U5S2oXJYtZ{6wN*
z;!{uOyY_eNiGh7d&;Cc9z3;yG&WmWKbMK?J?sxm&>0gbdhK@@^$CGU*J~Qc?%HyZd
z)B480vR6HPe%Z3(y%$S$ACU0B;eb?eaQ!R1e<QtrvoL&6ldL}|Z8@;2f2)1P|6Oll
z%YpduME$`}yZhgby%S4}9Zq&1QQp5d+4+p}{=bxL+narJGI6XTv`Ewq(04f^4Hcoq
zlNle^dhXRowI^10A$Z{bsP;tM{;8ue;htQHAy{2P@SqGq(s4RrKK--Lk7<O)Lz<s`
zJ|Z+sXd-sZx_`N|@?^XIUu~&8*`t?9Da&YeM6SuVF(b<=zLP1?AW?Z@={A0fskpfq
zHfIo9%Ekk_qwID^W#~zpmrX<M>gCsc<(l+)CWETr2^J!%2rH&nT8HLc6_@2KNJ?#0
z{4oDj`kDtx0+pf*dZ+Ar{13pDU=Pr;p+w6x4n>zA!s8N<rTS<n(Z^D48)8PK#t)3|
zXTKo!)ey90&^p(rk>H0*r)iad2@NgxJb#8_Z0VzgU1X57ph2j{q-ej0xNHbu3w=}k
z89~tEEz&kkcFcyL!DpxbNxl`4O>DJ=GYMnl@-)uaqoD%?ZNujlNw3A5WNnbBk4eoU
z)aUHd!)0C7Oi~Bro+W<^k*q<&;;<srF1Zkqe5|<0chO{oq$Et0*3|X(sW(q0dY}0x
z3%~b`-~Gmi!~gh~lI}@nWz)Gy&ZFu&*v}`c`{LHT=%)_Xqx!*A{a&elZ@Quu5Rj8K
z(DKqUmTKNDHSfNEB-uQ{V75v1+t#ip>-Rls+>&bCE;VkyZ+g&>Y&`kMvo+;8BzX?0
zHMBliLs6N>wRVze*%e)~881vc0uIAsY0o1EB+*hX`n-%BbYN%xn&vgrYv$K1uUTKS
zy=H%{>@H3?Y$B!3?&Fne=<c_Gv(=Kk;C1tDb1Aa%x)te=mlR*G+mK#DD)G7r>5AAY
zuh8pdrA;Cg4bPGuX9@Jz1aSl^W@d^1x;<wqdD|XUr%I_Kt;&RnFsaII`xRCGkn4id
z((Cp)?1f*q`?YF&?AYw<mb~^XU#UII7q(|%?O8xpRawZaHg1ZW<CeHJu8G@bVQloO
zeaTP)!WOs3%VrIJ1M-bg;_%qzH{Q0!3?G=3oqk@9`F2^%n9I3DmcG_WP6mj6$Yw$?
zaQ-)*up@CHd*eSL_%-8Q;kLEp+MtQ5Xq0C>o>R4G@@Re@tTI4iCDt63{<C*sK}_{Y
zv80`=x(!7Oy(=ssbhk~V(1}?uXm4A%;%-TQ+Xg#Wl(=oA5GxPqso7P^E-YraZBcrJ
z&x5l(Zvxh9mMuhd*aQ?wLM2is*p`M{n`dpcn2i&&TM#_}kZo{<0L?km)Oqb9{7CT~
zg={Y<Fh#Isv|~}ton#AtTnL3^2evo)<}G|b!iEf6iAzK@8PCr)Q=$uv$WEB%ii$-Q
zOJ}?Wr@gn>#R+gTy;pXxM1Ev)$5hy^X7Tx_QerN2^(`>RGkND(zPRE9(d+*W?~T1f
zy1FS<-7QsjgFZfN7<f2z0Gu1>Y)yImFgznvz%#<bwyh5x+tMwasg`Y0%eJ)}$(H?h
z?CZ@#ki9qWT(+fKdRJde4IG#7zvcL{9X$1#U2^Y<pGwzxS5HZGJMW*C>Q2OuJ#uxW
zTqBZeWNl|+@9CuLOahK`4x=9hI8S)UaGtiFzh(f=Te5hkxorjBA+`9*;++|Ihpa5N
z>HL~f0>C`st|~Hsa7LdeiqjJj^6RLsUl)kqffc!)i{fT*#7W^8@;RweL>KsM&EYdU
z{Djgt_+*%rHCEYhn5<!#v|&-Z%L66c-$R44{t68F#8(kzXe`3dnc%f?^d(#s;p|M1
zYYGsSo9smbSH;%|g0v+f{Geqw&!l_il!o^A5gUR$TzncTvMun>0~J}te}cY6zJ(qU
zDmL`39)%B%_=&W;d$m8+dql#2_YvSx=eGMzQs?0hTcpkx681LO_mO*!M-#_B?0YzI
zAzAUfG;!hnE6ZC~oGWMFtX?s#h>5lxiPoJTId>%{E=U#61Eb04k9>V}D>!)n<)rI)
z!hZZ`pPK~d3z~=l-T3Xw@lG?RJMij-^D5J!VDu(r7tC3TY|ERi;@<&07qyh-#4221
z!ag}00VYy0(|jalA{WFEug6b-8>92=4ERn;X-1$ZMv0JcRt~=KK+Cdx2dkr%^13O=
zjWOdvTPUq)w29~Syu`+PKfm~ZyBPCVNIw>bz9PZ-M`$oIgy6q3b!Xj3q3qy9V(d7!
zW)L2@ds6N($vwunK*V=R?p+jbfZLUAQo}ZwW7o8$Y6hj6!MJU`rae{DFV*xX=_ze%
zzSk$&2GX9sME^d?vp->PdgN-t$;uy8|Bn0n?uV|u3H#oJYj4^!obv3DJUfz}U6Q?N
z-O~oh^}kf<jK0irR`Y{%KN0BuISVt*7Rw2iM)%JI3Ln=AWzFe&Pr9}z?cVj+q%SLf
zY*mull%!0Vjo3<CmaX(U#gjDbrzn`D;6)1lkOE>X#Xq2csG;~@DIhjQgqK7?Y@}E%
z1%$F9=|03k$~aB2GYHr*q5W*6#XqA&3Qp2!(S87aO+MBi%ji#P3}-a!6|Rhd#h@gu
ztY2}h%&s&_&d!X9Ct}8s#g%box8&;1Sa_n9=}zy}telXldNMYi2-B{bAD8j?i`p7!
zUtKL31MaA}wP#hgdSTTjdB!p(N`lpvbJ>-s=}S2KBuoE>g%Y>y*Pv8oXU0I0;$ke#
zEYuBTEG!B&ZRK*mWNG<{jh;nXN!W|R20V$lZ0Ghjd{0jsF!fUSkc|<r?8O>f__V+Z
z0J~1+jpZ#p*fxAQx~5<WmetUjaX``Jx3Oc4M!)@4y~4=C^<|mA90wU4@aIwi80cze
zjZDMqe6@Va=C6dF)`dfitSmu*(X4{5ww&cy1CA>m)>uJ+1C-T(ar#I7HLq%>D*d$q
z*Od|q9`veYI?C6fd^Oxj)&Qn9+jG6Y0jYJ_)Ot0w5vdJ+cc3;<Pj844jiu}LH)ZwG
zdVe#@xU)4ip}iJ7H^Zr9$^NjfqW8A~riJyHh+olF@;hk#Z7Ac(w$qAs+VR{5d%ZEg
z&EMhgd`r7&n_Yp{>{svJq*r`QdIIg6en+mW_rB_w>aYlCb?c_B^={HeU!XJFi~da@
zcrW-!b<W!T1F$XZf>X>*zT_t995?m;A$*^1IM3|C7@A7M@-ZZ~8t?55m?(xXJB*UO
zNa@4z+7ZP2nKi)xc=K(tdLH)hym)Ya&L1SlIMbmcfjM}$r1<&8TE(*p_W?Kvzkrtm
z)BeH5>Y@yGEOc;D@uC);za9_=7i+@gtC7k=HG_qUdp{fW>KDzqnt0Ko`W9V0IqQ`z
zTc4XJZc-~$LGxnp5*=ll3tZ1SDiq0_hx1g#3{Dov|7f#Me;Y3$*j)an&<;^^b5k?S
zJea%#^iU#Z>CU$_IN8FulEtz;$4(vb9XvgG{?H5O_c9)2(Zn@Udl$W@$#R2j9y~a*
z%s4D^Yr~irI%ue#{={h*E8C_-$fjESyLbh7kJI5eZ|<E7&eqB<;$iX>9zIwgFODe;
z!)92(EToD`*|ArRjG#p@4Q9b!m9jNUw&s=V4{hCPS6kZVDoAjDS`OjRM6w*l(}x(1
zmjx*9U~fXMBw^i2{wA~MaCYE(se1|95tAr{jnSXusmT8$cC&^4AF&6{7wDiUU8Te<
z*a4UH1_|TW(sh&&y}(=rCbvE#Z-s3A@kHx6yC9Y!&aLPwr8MPYnI+>UB`S-mz+<)q
z)VOF--Sy{Gwsa<tP7!d=l&Dt~kmTwr>9tao#Fj3D)@bj+E<iLW@!b82I~P}CiUSCr
zYA6XoTC0+qyOU8!v|V|I0}NG44PzO?0bJ;T`aPoEJPoOIF1SQ*3Tjg&&yfD+YO7M~
z5U%to@!UOk4jC=0U(rwfAoh)2>`67eVNXPU*@ZVPvBqB+Q}T0n)Tq7z{8vIMP3SMu
zER*f|bPyBY4*z%%HssA2xxA2qLjAmxDBnM#I%raP8^uwIQ_JG7QoyqIAPZh#h)y#q
zqttnjAhuKR0|c^_X}P(4hV68AQL2Nq+FX6hg(uHYYS}bAszKH>LynLkaHZKzNzBzB
zbkN+#EO)ob2)Z~(?d+!R4p8hF>XVhjg+o_|<?50YU#@yWdIRa3T*EcK1yUVKhax@#
zuY%k}0RCYjFUu|A>6ZiWz5|Ip7u;kW_$r!s<=_nalJpTp_F3qgiF+xaZzIA5xWHWz
z(oAIgGz3}2Fn#Wvk@==HR`Ie~i!qN(qe5(^^So@Po$i#=D>=O>=cwcyg~@1bTdH<Q
zsvV-8SvTLArQC-l_hIbG)@$7GfN4v&j>Pp3&CTo8jj3v{RP9Ywk4e>IYiFhE?Q}k-
zWNJePiaH*(w57{xS9VEdovZMe(6@RmHFQ`SI{cwV8agJ~$#JF!jx!&c-NfN{r##yw
z&vtrlT5oDkH4RBkL#d``q^4)?PfJbvDWd@<vnlte<Q|0+&vbp~BUj5kBfLktw&Uzq
z(-_WvHL(iop+;=knXYS3*SJ$PJyJ~%gG}`7NV;}nTh_v$8lh(G>V4Puj&JQkvU3kL
z(6-*uL-$r3JEMF1dTS@$o7e3XDSL}#Z%NtrN%nnEb6d*($ecZDqK>D^7vS6Ho%qEA
z;|p*vzDganfb*Oj{nwO|bK$HXq)|B6mtCirloXSd&BF$oPg!T3%(-mDr`S95IjrO7
zRM~<40yvR~BIHj8aLYqdhO=zbNZn$n$#;|o@tTXHPhI+-oU8i?LARnZto-Ey2HU+w
za&Jkw4@hntTBv{IXj9#}VwBU}JJPOtoVKQ2vmv`{E;xEmgqZ%a-hy)8jbKScLxJm@
zz)g}h%ylPrhU!a3&>6fHe<gU_7jpgyHlJyX{1920q*tMBB&M39cXeCRF_JKkF#bfv
z25O&He%8gmffhF765l6CTrXl=;T#D^DzKiHlwPt`E{7#Bc_rDW^0ImOgTod1UZxd{
z!3lFs=_3q$$E(1V(grBKWOdLx6<zSq@nw3JJ=RmY&-{IUo;}B$!5K&zd$u}qYp)A<
z!~|HzP1auv2Cg#`b=ic|iQxsfbhpxi5WKW7zYtNBt=}YAdjvL7aFz=<%y7N&H>lDV
zD0rSSH8W4@T+6sCzsTi<+1XGaXY{iv#udPyC8VQMdL*~6xqIQxg<pN)HYuxy<I~H|
zb$i)&4&Oe!JiI*pmTTqgJ-5^}kgOm4fo^U5zFiudNNzclv>%RZ2=3VJV{i@STp3?^
zC24QvewUN>!MG;PE5YrN-Lb4$J}Fgr08!%M#d{~E>Mc^maMC`qVKJ1UA0Vt{<zG;@
zqatqRVw!V!iGrz2d@!3QH~2g$>2U?VEYyijeh<iP&R^F8b17u;SsgJ?aF(RvCyc@|
ztBNn~P7E@B><|=8yrH4FSNg!wCbj6PHJX#yt7ThZ&YV@QI@c~}w@^xF27Z!|5f}61
zKx*Wo>x<fkr9<iWGf>YIPL=gZk$L6SUT9#CnPI|@NpPcuE`a?z4!XXNO_v}2cU;JR
z76XJyz&I}A=HMNjer<rP{#Zmj4*-!^Jn;~LX4e%OaoKtezYvghSV(h(%@!tj&n+)d
zx!u4oT|je})zd9*dFoPARN^I?C%=#SX`a-ls=K7>uC<ei>aJw<I596RzoEG|{LaX4
zymHSB&L(dC6!vPzQ&k;ORmZ)vQdRfrs8ltWtQbm|hcLOuQGn~nR;{U?9a7JZ`%bB6
zH@x&}9*iWb4^xe3gp_Ej)(2Io@e9)Ug+z6Cvif<}n39!W_SpvwsqwSY_}Rp>=cV!I
zlGPXD)^)07NU9!MvnH!|qo|`Eiz1&d-^R<RJ6pur&X#sl8~>Kim(n&vIF6QwU8P|#
zb5xj3ZIAL`Fhgzu<8Nth3NigR%W^Z#PiFb5-OV}dtNaWLp(o2*7jg$GO6km$o{0T8
z`%dpybSZ04DUTy+p1M=a6;|?!`ck1lDD84n1-2Jg=WtB>&8?WbRSInGUTSAt>JSAx
zLP&mhNOI3Ea?uF7ft@xT*n@;QOFhmB(Iyo}_2~`yk7csRnCLw%_bz-1;LNZH3F?%B
zJ@R=<r%A^xTPqYFITwQv*3Dgt{DtTIWk`hRR|Y(h%kv8%c%KS*7UskNeszR?%4X2(
z5dRC6zevGvP>@qxnaCyy2EDRzVJ?W@xe<*t>4_YOhbeZDV(Jc%`M{RT$0Lz|NU}lZ
zsY-DWM5tZ#Zro5xeVY;vf?8lXEy8cgG_><@_Z@^{3_d)W0~RLkU)=vxn(>qxLPSIU
z8~O%b)hN_8-(9@3cyDm6BU!thwoPqsAAj?BqI=i<iKKg+R9Ur61rY1D+Jvp;-pND<
znAlqO)c(jdl&)@1SGPVk=&InDN(aYORv1wxJX@st;duEYTlMnXZwB5Cy%Tz9gGFm!
zs%cbe8cjBBO*QS2n)W1{_NJN+N=*loO^4!><oasxgZ77x!Gw7*;TTMJupL_~Zwrmy
z-F;_w%GEEq`ctm$l56|ziTHT@l}D~V>O_+_?H*XKZ%EfSd}h$KRX(<usY_;PuBrq_
zQ=(~KvV4ESyq|Nl7*h2jnHtT^|DW=xpG2W9rH*hZdH)Mh9{3geYLsUVZ^|tQM2dZ#
zX7~ohei1Q+)=W_XBRD?Fe~GfP6yz1kDx@IdGyz?tAV)fm&|?wl2vb>F`ts?8TwCB0
zn;A$l$xU7_SqHx|4dL>izYGn@tKkmO5CMH>G^E}8Ztpw2iGc$TCX#K(;85<%P?5HT
zt#>t+7&`b@MMb*CxB$e4mIuF>iu8hnq?^XREEQ4QGO&+3Sit=ge?T1j#{Y$nMZ07!
z_4RA%NLB;~fwIp!dS;%V8RrciqvX;5Tg>1Pc~oc7rEnz**AL!UlRdtdzkgNjrTr$>
z=5XnK0S-3`rTCaqoPH^5YK8BZ)!<#UrDXnorj6TdU-CbzeS8HSte|vRD=6$j$jXm<
zv4rK5g*$jg51mDy6OXXU#;DPy9=+1R$_X3`<3VPSAu_tbSQV8e;XCi=X=YpaZsKc*
zbK_?^-NFe035CTS6uf{m>@}{!AV+cIahbqa{fziD5`>F$0r@t5Px_~<R{Yb#=Lh}p
z2}D&mPPDk~OE3-G^=(19-==B)|DunW<}mxHTQNdlcyI4V_Te;qb8M4v5N7Tp$Jn~7
zdF7hq>PpzVm@6xf<nSaM{RwkF!u8t5RBfMB+qZh+e!0|tBw2ejZeOoyy*B_aAaNUv
zp6!nKH<Gr-l~+EpdDv;3PN}N%-o@39@AbXcm+BptddE|}r=;Ff$*Rc&v#o=6t*#?g
z>y>J~5X9E@gKw#APu2EFwLPnqtLMM>wfDZ38kmp<CQ<`uq=7TZ+Ou){4|g4ce742<
z@vcLwyW=NT`jhsq`+XV6J>77B)<Q-Z74DRyRdTc@+O{SgaK^R`22{w2&=&q*?6V(i
z))(wlD4FpKBwe|SU$meZhl9U+Iga@?FfXo$#hvz=My%e<OxkZy93f-Zuib;1VmiO>
z8u<<EgoPf;BG$`FV=#)Zg3@{_{l<Ph<{Ngr%wr(KNrp%N5qa3-vIXxyAkOW(w4$Fd
z?GggTRT^=v@T|ght3hZgvd8@3AH2v(T4yOnGf!v2P%pB0_)Fm4lPvEO^&|-wucC9b
z^{tItH_Tu#<Hy$F>kcyYif7VQ?t90vyIt=-aW9(cJ|WTn=RTZ8uxy1_rHYQUqb}hd
z1HRs``>^4oo#)b}AwR0<$T(0pe#)kzLEWd)8M^|?PNP9oc!Olj<mechD#ZA8Qx(o0
zrB9m`&Qcxu!dbb-7lH2i2@TBR_NRZck_G>iz7Yv#@r_8%|3~KLC)r$dh<CgJ5iCh1
z7n+=Onbc0=uT#&dAeSo3m83H-RIPmpx%rcY{){?I`e1aJoZz*Aq$JF3Pj;HtQ8w59
z9Fffr9r*LyipR7O7~Y?QR+v28VO~Cmd8vm)i><w42hBH<B{4TYG?GPEj{1`hI&Y_M
zR8|G{8x15QW2-mj=?LoNayn?BORmwX#T6VQ<kzY0h<TlFJdatd!z_kVsF%<$eqxm7
zEtDcxX+%N@@H0&d_~AW8AIJ8abCk|CgIsgTgi>r{%ncxDX;FM6=kgS1Qf$u36`a+}
zWk>RLcv&2%VA;OhM9m$r*;MFTT!emyF!FctS~RKmEuT+S?~~~Nu?LWB9gAB(cGRa`
z)$nO)7Ir_AFgIb+*SE)yrX95_J3ex>r<;3L>!jupm}<9or`n&9+Mj{#Yy0s;g(qFn
z`9XDJXkXI1U#i%jsOV&6l3$^WRMDAnqPa|!P|=w%cQB+p3^j9EFp~GyvI{=|=7+3&
ze*PMrpy4Xt>oi6&3YHM4iW4FlszCTx@Ia;;5W}?OX?WCwbND%s2~^<R1eH{QG5kDe
zzX>+ymLqpW;x>#fzFkHp01C1~0Ha5P?8@abVU0fLNEs-X{S68rTH#Azf%q9piz2<%
zC}NOj(vL@R76ZEEh{C-PohvHLHNo`iOdfiRE2sV%s`@fQ(86YjdPQbY6|}+d(PwW>
z*!q9qN^Cuz96s^k^hd*|;nqH7@0RS{tColMkqkHtfb^`MO7xFEa@E~|$e?$1XVSGb
zVc+_xqw4l`$<dXzSEt*y!v}KOGm0~|72P;vo3EXdEm!9w%oGe>9)t9gDn&|hU<Lc}
z+pG|HMimUApDOVp6$-{%_f0*#X^}@QnAPwRfRB9rl5sO8p_Ee9uLa{^RD7?nal;6)
zPk)O>=$jOLi-MQXDwZH-KVV>{1<H=I6f|4^%V+uTA1cmmj-!evg;nhL2N!#ux>#i^
ztD$it%V0iio`kIrPH^MLpaaJVVWZH{jsw_fh?Sap@lykI;2OHr`jHiVs;*C}>*J1Z
zrMiP_lL+t&in-rR6sdm&t25Da`r9B5d$UEZB!$kKFkHc!{c`0qa03LDnJ+Yd3BN_4
ztm*8_(6m+*uCEbJtM=xbQo_R8`sve<3>BXSXH%;9N|<sCOOD~SfuutfSjndA{FjOg
z-j*gdd)sH(+vX7yRR;v#w4@UuAfQl6j|6=by%jE?mX>~s+ZblQh77vUhg8`f!fz$}
zvb~X=I9Ch{LuRw4!W{sd7{~XJjRYJJ3k>hXU#2fL@Ko%{Z-=a!BiJe9J3Vr?-5X0f
zdtmk9sOI16-uAVz)aWs3^jN~tmUJ9Xn2$4}UBI=gJMs}!lmBBxB_|pD<T9s3^mTFJ
zTNoDiSQ!mNa3m1*L@%@7Ou=t-dbs7DCphQHEsFfd_i{h8#-<_DAF-_=z9yTO7U*H;
zU>k%VM7J@sPHtKXEOVh**~t&dMnwp?`Ki_?STg3q5$g|qeL#H)6eM;mS6~}`S`Qk7
z+XbLtbILI!!Gm-oT&NAC>$+fMLiA8^LyWD&1)?oSQ2^*M=^ZSx`3DaYfX8v)#hbjp
ziUn0a3W#qIPT1Hl_=W@cVP1cp_q1(Pt%IP*NJu26Po%xMc#ty4#zHopV!w$hl5GQ5
z%Bk{uk!`jAfZ$)IfNgIUC`Nl6@frohI`LD;jFV#P8BH0no8Z1dv42A`TAjo;ik+Z<
zCbmd;0RJKIC`{PP21ooAik&8qGYIleC=62$1wX}KWDOGvCls(`!TG+v{xkUF?^=f|
z@6J8x_K|e|1c;v7`dDYGH{wUQu=_ANGg`CZux53X{M8=TtYz=_M;}!E?yk>S+J;UA
z1D|q0Gl9b#U2rkGn4#N!l)&vn{g3IEIio4VDTE6AE)wn_xY#|9F*nonXce4Q8#anH
zYYe0C9+wetU%U7_!S4sj9q#CcvCQDiG+PY~tB1aK^1YK80nz)<{oaee`{D*gGj;8T
zaZS3eIisV<y2ZT`l`QQW271aI*L-nqqhb4cbx)#iuT;G^W55&oXLZCEz7xA0TRE3-
zcqB{fhKbU5m802Nc;+)Sd|0(Xw~R+)=vp)Uj{W;~>U7rwB;%GbY7Fi74!wKyoulub
ze&;l$wP%dghE8$-j9X&t=my<0W5V78nvAK6eTBi1bcgrzGCZui>hA8jvnOMq45Q!~
zTk}gTyA-&(rn|8_v3q{0wl`xV2)oeSmZ5T3wXBZsxNp0E?4YMHVb6X|dSLi7KsDvn
z*@QZ)>RAhDx(Rf@Wn^taYTl8t(4$o-YM}`&xaz5eCTgK+1GP70`t|g!Yu(hDjDa55
zhok0K^peHBVPa`^t>J{`-qF?P)<*9ee$W29_QWXUBZs7p!w`NT>%-9xBmZg#{G1@3
zF_V+x@}H2CV(~EHHKDNg7i7oGe27k-Lar1UoW3~2W&=OcLsS)q$!-$q;lBn7Nt+;=
zDcK+fE(LCge?bW}QDrmxb=kqWIX<23P>Rn*z$AcTMEJQNE5Xv#m+SH~2cbL<UgJMi
z%YQw5cR@B|ZX$#Dp&8%&j5spLC1x<O&;ACMPsxE{3#`1s9}DufQZ+CRZ|+)XkZ*+Y
zYEW|cuRJj$?LpA)+2AEcv|wim!_I8VU~U;;{vhRUmdSdl{{HwNH)$JWwyVKK_HvBi
zm4?o~BJW0I7{Y@nvvQNYrRvT?<3_(Bon0FElH%a-s)?&eYT#`5bNwFVTrKxxNrt}c
zc$QpURCtgnE%OdBlWc(<=aL(q09A)WbQ2V*h1n57e%{N2N4dU4q1hl*x|hUO$}eO2
z@Pxkr2TuV;q~%tYmOq-lg=jDo8O)9z?3miAY#oE+S=@7zFM?lq4o{06$Y#G<i=Vt8
z79ZA6fe2p}i02T!6!cOZ23DLgLLyty1}KXe?EV_&3Ny)Lx?!$kW=ql62_#IxD-^Ir
ziRqQuV#8LZ7-a-0c%6bbD3B=lGX!!a<`I5Z7k=e)Z^TxZmk5MS)I$Vk-owXxulPOm
z1^<P}zd@MMX*8OjR0^6M9|_z4MA#w;TmDq2{A0oXiBSC~!f{DB{)y1{W35)B{jre(
zv!H4JL>T=<IQ)rl<P%}y6Jh8lTD?a5nSkIYR)a>1JrZJeBY*`8$_33cp9lk=2xtC8
z*!vTG4nm1NuBg&9-D`W-`;Paqfav2vyJpWy?6H8`<7SKI1<k!Zj|IBJ)oI(V#GV(V
z))x{29LXky7akkG0&oVvThegVuETvDcLVOAjP*?!6UA`&uP$Sum{l;^;-kyD_>OP-
zHf)sAY}4#XmsMnRxUb`Gz#T=6)_CW#Zu#7@`Sy@xXxK0z`LX+wM$?~Y8hR{H<nei3
zzs8zq-JaMnDYc${Ea2(!FKU8XB)08L>^dX0oqa6OW99{epzTR$s#2P6Nz<Lyx1=pC
rX=fkUEUosjb=;t_ruD|xj(roXZ0o&UtFa9orES=d{Ta(<1OER3*#~vd

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/interns1_vit.cpython-312.pyc b/model_executor/models/__pycache__/interns1_vit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7ccfd47f0aa061a482796962920d0ca600938322
GIT binary patch
literal 19530
zcmd6PdvFv-nrHR<{m@%#NvH&R&>$ovKo1PYV8Dw3*<kD)D{S|)R3+4+)h()9V06;h
z-eqpYjU9&F*g%T$93pmZ5n*pwo_h=v7jb4HZg0GCcX3@78{J!r;}o~vKm5mC$d=|j
zcYoa7@5}0{ZnX>Jy^Y=21Z8DqewCS(mHB<Y@5?XyKl*%b4k2#+am=!x<Nlg%v|!68
z*8h`<<8E>SCz#^gglWiRqO>_~9x}75Wx_gSWqFpkZNffeXK8EPG2t9?va~Jkns5)f
zS=t`=On8U9EbWN<Cj3KwmUhMi6TzY2MA=XoyLZLQCn|<2SlS)0oTwVAGI63`w2pUZ
z9V}c0&wJ*f8Z-9{CwQ-Nf)7-?3#D4>eT$kJs$-OXPzD}D8Df+{P?kN0vYt_vgR<f=
zlnsos5|mYsp=@N7)u60-4CNL^SqsX#$51w1F^5B6&_IMuit|KTl%m6NaS%7b=Or;M
zMPmt3csiLFjh#oHE1i@^#v-vq8aL&qr{d|@?}$<1a5^m}(y?R$x$g5~Iuad8M@H$+
zarX2JgGp&3Y*s3tPR6Gu63<7aXgn^)Pod(dq?DaaUf!HVHJ_P^qQ2=U)u}gLC5WR@
zG#R-p#?FtWBk^QZ5GB;?lqOP<1X@wt@#qy%V(Ag>Gt<?Yzgd3?i63G1irkP%;D*d|
z+^9(~U3Csw1T#j8&Hg-X{vue6^GB_M^{REqKF7Uo8gjhAg>6dXi3G+k@j~}Yu@pM~
zd^9~Wc5Gr;6ogpfd}_p8RIwdtnttoAVKM!Y=_Z%f3$Hn6xOcGF-p}WlxEa&9_5wN;
zN4Zo>Ntm_Fno;5`$;K^m4PI~7Hfx<R3#K}vu&CE*^b~pKd>*?}-ZXkOYd0z}s$tYT
z>zFama1s5zXDqnOFFLef#hw0MGj`nR?=$1TokM$vbeWbKFV|9qE9$YKX3Gbb_w%*k
zS^Z6~aAE7<7Z_wtqJChucrM@@iSbA(HZ3alR9cD&V%VeDQd5(nq&Op(-LZ5eqPSxd
z(et88=ANW)siwV&sfozQSTuo3Qi^9RCJ16eE%HziBNb7Se`YK?DJtefLa}2eU+NJQ
z_oS2@7f0B7aVgf67#~&aBW#IDHPq2sifHhq5JmMAH6T)4k;q6qno30?DHrbfe0cMJ
z4|b&|Cc7qMle^MU2@7!7>r;IL{TKSgu6S&?Yw}8ZESc!K6pv4IO(X@pyZE{|GKICQ
z-ln>+pfM<^?#QKBx^wc1RE^rF+rD)=cWMLG1lrV}A^Po`+(W1DnnQNhK5&L|&F$Id
z9=W+^`FM8kF?sK?>(9=)b1gfvEq!uJ-@WSWz)5-F<n;@4-qo7s#pWBcOYY_FyFR&Q
zU(Q>7{o=LL^FvFfg;!<ojxR0d8uy%M&Cb<s-9)%NeZTpm*-zY=7tZ~;Pwsm$Q~lDM
zCl_j&v%VeBE)Cn~tPh-Zx%xJ`)@s+!Lk+jW3*nr%c7Esb{`=z_7IVFO&iYPZ9WTNu
z-pSbO7^X|n_!PdR9gJ{FN^DxdBn|Zie3KRzJy;T6!GxSOV@X<PX^L{=`cfzmUg*Qu
z^`xmj76jA#G+PmV&x9xRMWE(UjJD|Omjux2%coFewB*OVg>o&WwW(dP%<V>RlxGUY
zWfq#Vvra5~`*=XBxo{QCTJ7Wdf-WkxqC7u7)H+yzbJRR)CeAuIEuM~E5c$-UB=YI8
zXd02o=hq-F#3sZ9F<d@5$_m)W<JFJHPteNcFUQhjtSp&8HDa2NCDc0DvYV2ar0M*E
z+W&$+t3-?@>;hMy<;xbM;(m#y!!b!pN)k<a#hgwmc2yWDHX(fl>)bIKkCHHiq?DqG
z)MPRxhFua*HMY_t?qQvgsFm8sm@rdpmt#VDOmU04yuc)6w0VL&J7Hv-RzELoqnaI~
zN$GM_5~f?fec9&8dhkq&M9iC9uII^Y&ruowon3S8>!%jmmRfV3n)$ui`VP6i<5N$^
z!}5kTv#IRRy2VoAU*jx3|C*bt4&990h%CNxCvrQoeC`*Kk0RN9C*^%7v-{4-`_8Pi
zo?WSWfmVEHwq>u}vUm9mE&EV*;DkJI;*(~1;1sR>Tvb!Hs$H&XUox#!?Z{T`m8(E`
z4>$Yg+^d1Q`BO_fGxfchKySv`E484%VJGqEM07$V9vz8*p-sgp?Tth(PDSHt3FBaj
zjlmVgeh%{k9}O#wQ+#<IIwHp7k;q+>w3SAJmfTZpAf+IZEZRZ^G`7FJ%59j-Z0@x-
zudQ$K*qu|iPpxrCF2DGTS3Y{>Yf7@Nv8P7xfF3k4y#DWyRg60XlV}-L(TDk}cgPBq
zVKZ8nf>m?~HvHL*%SWAp11QAl0@4*+#x#N(`38bha884}JhEoH;JIoWax;A6!7B7A
zwVP*F0oq8-c)d;Rk=PckqxB4yR0+NTBP_)?kl6X9&v9v;<r$%vv<J1aU^rX=b6}5t
zjizwbz`n+U(4zKnh@lz`kF@_EtS35JNjL<q7`>zk53n$!iv^VH3>-Zth)@zh;nT9x
zjamw{G^0yGn%6Qk<|}!PDHAou`Np}Ug#2_N0O3TSrX-Bh(klrJz0x`_3DUv8+t(n3
zI*mHf+wV3zDzpw<fqIK~DY_4v2UYn{DOG`r@fx-SBpPhRMf%Ky2t*}4LHD+4QA(y5
zmQ!3K@l+(8yZ{N|pGt|5iD>FV{@z_kGe)8WRsLU)2n-kkm!@KgR63d%5mmTI>x_X!
zg{LZ`!zn0QX)yxf6C;orDb%1;7-WX6s(_+Jtb$F(5`kR^VZNzyMTQ8QAH@K4Fn9zH
zrJ%u=g2CzrfHKd+y82rU3k^RL?_9WjVYwNM-k$A$R_=dxrS0TO-6@dxbDpxShyT>W
zKitCKiZ8@J*!STRcb{0kc(3{1OWA|Z$p@cX+4=m+mNRol-+69z%htK0Z$I~tKX`9+
zg+E3BuQ3<mv!R`GXeWWd4LcVM&9|u;AAIjYpm)u}`6{yB#!tPCtL3%X@@;bYw#ApS
zt-W$<Z>Fqo&B3{RZwDaVYU;DqJLT$~+3G&Ix(~3D`qlHPr{`gN_|DAjnTNruo1Pn<
z`NQ-7Wa-Sp8_V|W?j!Q<BP+qD*DdDl{<))n;cZ!Sa@#vtN)-=#X@E)aN_!}3Lo`C8
ztOdevjA{NH%<xf|QdQ9~nZY!mx*1|hL*&L(y!>;vwBD{EYBa!?nmU@QCWY(5cDz6t
z)H@4Hd5!z=0v3)D<`tk^{t$nH>4!jg3^hXi`xZ(Q(dQ{0Si;(f6<viq`XrUp2=xk9
zYKPR=Sr^0NI@2vwQc!<q-D#bL&e#OoG=zmFI%YjH4nurvn(^SDQ&U5MgB_1Rx^}@N
zI0|%WUHpt!7J8$l#&sc}<$#SjW?VDwQM2F_Tpzd#H9fLLAP8s{`L8}sLs1gYBMbUY
z^ABOxQP4;XMGWvcS~q>*(ZmK2f;Y-xc-@*>dTuP1;=u>Uk^&EtPx5k#PbUGq!5Al#
zfXM{qMSfBecje7YyvCe(F)@;4Mw1SDWLV_MC`CyyIQA4%V|hUSF_?lxiI+si^uX=(
z=9&7Q>g0>NfeuCEsU#m2qLXP+pc<j}PbMX36lB@z9FHL-MMq$;>2&K=9nO=FO38`+
zdhRZMES;WA?eFS35A9-VxN{^q(KQ+!5r>n>3+NEcTO(s#c#UM&a6CEOC5Qu}xJMZ6
z9U0v-0J?#FJ<;KP`}+6p?Te0fk4C%q^zPf!+Y{}&#LPz#ra=I%Plyt9@@=QO`}XcS
z)jhDcgO4VJ|Bqf=>QVb4cK7t5#h&5lz}|u0(c!2t+7}f^dd1=BzFx6k=<n|ly2U;F
zSl96o8|&1gdo{4@R8M!e-XSI$2fz5g2+ZViUY${^homr45*P=RmEqXP6#kBfEiizP
zA;wCrD86Vsc0LgqNy0)SrS6&(3zWOCU)n)WK1&gks1|%Cl7lov^r=*f38~PE0|U=2
zE)J+|6A*){Om>e>C78t}8dp3;Q&6#9iiwvM%SbdG_NrpAgiDk4Me#AiPF|j-lz?i5
z!E{w+s}fK}wVolJrKj8p@p2@uzPTu^>Uia;i&8qWsm2r`I&Iz1Rn_Tgi+W1pJff|O
z>F!5L;zvF5GFnI_A(`Lg)@r$$=4^GFT-~;KQLYXz9hR$iLB!QIWNUZJwY#&my>e~u
z@<q9J;ND@m_TZdv!_Add-*nw@WrHnpu;oFpEf=hxpZzr0kqcJOxBfw3wW20lu~V+t
znepyi4Q<JWdgM^g&%2k0moMUPpBx&PgGr{4AN@$nUG>*y{aa-JmU&6`Z=JKOR@Kj^
zZ@sbb#?nQ(savk<h7MU-H-GL{WFfM2MsDnqE4$`gpEtHG&MuG0?E@=~`!ldMg~HiT
zw;bxud3~8cb7tGV<rD-lY&rqhjp}!(g$#0-?scz(4$cM01hi{mS2naq4(-W#>vQD|
z^RZ0X_FNfiYg%)0^?TPj8>_)@R6{m&L=GLf-+h1hlWi-ZK~xy1eD}(=EAw4Thcb0f
z+%J0&csk>Jnu-2FRr?QsGsGF@69xL7BYAF%Ps4G#^v~cUJxcmBi;^X8QR2pnpJ$a2
zz<nRjQ+S1Bot?#wSto2Vx{XOKr&yEfub`$`*Q|TiGGl)0BqXSjEy(~CkQ9Pk(WHiF
z#yqYoXoXe^Hmz}8suoITJX()uy)$;fJmV#7L&j!EQ!iZ!xWgvI89{eLTbK*dtk5gp
zV+_c?89QW|83tsG7zNgrfh2ybn#|OO^4LzONE?TIe~WEc)<NkMYG%w)I)fD04dZIh
zQ0^c_#}O%Z@%2ftcf~c8NL`!~MX*K(S(YNvlysD+hyhAN6fu4nMG6d(r;JvLh7l>I
zND<Ct3~e8k^-|PL1dfz=F%pLs;wfkyDaCYIaq9|7Dn*J?F;mL3C1yvN<{!y{@)o9l
zhNn~i2N4*Kn`_#c-LhN8e`o!iX|8*2^tzbq>CN^$BlkS>iFc*vMP_`$+P?nE;uE>%
zop+jUH?6>a?A!vA)HCyERz0DNrwuIRR@XvTHndv~?OqPu``!D)E1?r}Cs%__*<e@>
zhL^Uk1b1bF`{dxh<qIppBXfsyb=wv%E_L6YlIwOYd+tR)3dnVb=AK=xs=N8xjn}eO
zJLIYzOZ%6ldp#>vPtLg?R)uc9eB<Rs_tLYOroMY;9#kEIA<7fTdbY`)Z5dA&)hA@z
zo|fC5&Oy02zIY6LrrrM~XAb%2o(1Gb<~NL1cTI!%-u)O1X@H{r6cHFxbw~D158zg@
zfPG8!O%?YM@QNbCm2{BEpF~t_ta^$vDLRb5)C?jRtJcg_wvJ3w*Kasn*E+jwM@`^p
zw>lO&)-3F1_nv&>z#%oU>hizaaIIn8M#XDmCT?&4myQ}+-)eRJ&G?P@nhk02(NI&i
zE-crDmyXJHyVr;S@9PfGqhGslr>Z&Boe})$K{M#ACy=$-3P$^Gg5^CE>|9pZxokkG
zj#2EXVOP$1)jwp1P0KM(7P*oDtCe9scIDi#hq;*5$_-5FQ7ZBiRhW$G`;^lM+1}-@
zF>GD}1~QW^smeSdJicA0<4>gc!|^!(a&n3v6h)z(pCofI!!<xB0TSZE)WpOUi210H
zQjGu-`pT5MLER)q9GOOe_~iN)aJ0XjNemi~0Y8ROf~F7)pa9P-4WQ7U1K-jOUIjYj
z>c*r(F53Vs+JH0WypMR6__kqNY^S5Gz>8t3Go<?oya|l!Mv3L8HceV!f8-H##D7tP
zfuV;<6)vJnGGi*iO8Oo~Pao5QA<oE<W&9q-?_k^_>zAQ1?*m<`pg;N>{Uhm*Zs7Yz
z(jT2uU_ERt%x5iy5!5wpe1{e-zi^d?)9u<FD0FHq53|BFPAW`E0Ik95`oOLs0<=t~
zLKgnsS|A&p+JbH|c*JZqdN0E_&=3*&uh*F-1i=E{+JJi?SD&XEC0maMh^lCObejaW
z>>Y#CPcW-x1o|I8F_lV_5kQEMW=xiV;VV3`UdD9!?dOwe{`)%l_xJPD<)k9>-`8m<
z&m8VNuXbnkWB8a@hhxzc+yN}&Bow+!Q7KZilOGP1T6RNtRB`EzC>2z<E;rPkC@#H0
z#Yugm-b*{#ld6=!J+>4_qVc?1YR`MY_zN{rw-o!u2ssHT_6zyzCH3kd1MkHPs<TTl
zpMcJ+ddf&N1r>k62PQ)AhPs$<4C-RnV8Q($!bl~O5sDRENNh3%GdV`9C`DohK(N>p
z++ZM8bt~{4dgyN;^xzV(;pJR@%_(42wFBqs03>$Gb!4RVvzt9~-5z#R+i=Uj;9qL_
zu=8%GT-%R4U(OSF_u#dI^LuYSx$vay2``=d@U^?Ied>8a-IlCq&9#Q_ymtGwOv~Oi
z&a|&GS6O>=@Wx=KV%uWRn$29+zHYJ7wxt!@mZZro9sO|d?w}mne^2;$;+GS0-AQVh
z0O6}QUR^vYSHWfAZTIKZwKrooVmWW{-N9>v^G9zDE)1gOSMR<mH|)P(ojv@LeE21}
z4Zt-4mTg#?YwG?U>4CH0Pr>)de2;48CPd22<e}zVu=1w=hCf#s%2tNu%5aWvx#Pd>
z-*8y#VTXSEB$W61t&b)0a?RWBxNf`Dp}*Jiapx~PSNIdGHN0I_`(pae4{rZpIsJ>-
zk7n-+zaIb9_)6s&xJ<Yh>QhXw>u3jGp92a|(M}N40NN}!P8g^p6m(T=`#eUQg=Web
zX|P3gkTqP#JB6mCt;p9Uej$HG_eWr@8|bYw77c5#){S&mSionj8W)=-M5D{ZqLy@>
z926#?Qqy$#>pZhl?dP{2>EH)D_@~2Rr}PG%k=~@}EsB1hq90Q9Pbr$C=tqdcHdW!f
zhO}b3sF*G&rb{Ura;C1SJ2ri|ovt@prg;VJuRxHxj0g&vo%5Bwd-B@JdDD*v=S(!|
zjc=GHMDvd36WjmzLqBw^;v2QD6W2~$kIt9PA71fpnKP|=gIRC0?1iJxinj#~1cGx;
zHgCe7617NiL?S|RBoa~eqY3n{L`h=$r?EOTNz@em41Xz7xS<aHrS+LLFUL23<?6AW
zHLV8uH5(<cq(Y5rED!pr+y5I6%N;WXY-RIRv`@9hA-UB0VaMH$uPLdjH&p#5^+uao
z>uHn}t2ZtV+wv|r7Fx)O5L+(}Y`0sX<k$q$sFNu<_NzW9ISylGhBp3<lpiQL&P_^=
zTPe$b=e+CT=~K@SGG#>Z!Y3k;hDDV;I2Ajr?W3{Rzq$29l7lHHl~|@F$_bX$ciXQA
zG%^4|+7beUpc%?S(dLTbek^Lzp`7*%#*P5Lh17$elCdUV8|u}*0GHN5mT?WpHGn31
zz1EU?b(R1~VjDa+ZS5Q#=?+^Y`q0u1iv9o*%kF`GU$PmDuMIUmk1F613+pya(3hC2
z5xiq1>b1HnTo$8EkqJ?VVOK<TCA6R=iPR4TsUB^?H`60}!>a3ww(N_gbLbn>L6^<{
z168DmojgJ|KWuDYvS+ss$lJ-ZO6))Mu%bQZEzf$l$lfh1(IR_Wa%EMyy4GBE!}agY
zpSyl&!(*=`N$A}0bCs<HD*ZV_@^@4wp!hWGmBs*U_LQYr$!6y3NIYJUFmtErJBSlv
z)%tuy)%j2mCwfg_*iszD`0zJzk^YFHc{PKl^a4fa5v8c3V8KNUxbB-@BF}yuSZOJ;
z=fDH2zUfx~LjU6Fm3mmbYUg~{FEV5N4!L&6(!rJ5fjOT6$!ee><7`m5sCiI<t)qmM
zsvMLiv0{Or>vw0P*YSu%(SOHZ>Lo;ERdRBB`f}B^U&7MkW?U3kF#DSD(q6f`i_Af8
z(3DlK5ka1%QmV&hYg~Ns&MUWHS>upg7Jm`{DE>7iRfb9pjo?oYnohA!CdADQRS1y1
zNU*+V26ME)3Z$`B2iU4pguMu?6+TO_AGxmvh8&>vz`A5e3*Ra4Rr`<==L1|u`>wDF
z`@v>C%$DSZ)DG&lq&%BFMc(Fv%o-&91bw}0mKbOzuAth2*jg>*wV^;a`jfGlcm$i>
zG}}t}E=<iOeD@JEmbl`K6@1YI{$<uSdBGQ{W){*qhnyiEO0*Wx>cHi1!<$J@dn9))
z&o@|ffdPZw6alRi3@SR9GUmyDr&e^njk*o|j%ID?dbLL!H{PJ73fCE1n*2Li80Yhe
zqKom{YjTcEIfDHIN6}lCX%GJcx2t~*$S>#Mw7XMRGo@ST5(L*od@^h<NEEn3PNCo&
z^kbhSUYv?yH#KrziVES1f^>t|C3BG{g;8-8s-$(SSWu(l7<}&R>7L_*P>8X89ijaT
z)s_7!kp!96$x4PrFhfxZ6mp`Ykc3J#%ZM;dS#6AY^Rm5M=?E%O_kpeO=1nQicywY|
zh(@~gR8QEU0_1|c)Yl+w|H8jt^$u1gC@n$;oDDVH;<c_zQPOHsIKjlEXs}qrt!up1
zw9o_r2;cHt!%kH|4rMB~V@EL*#*Si$#H3#nlZy@as_!}PTbGm2CG!&0&NXi*8Qd@9
zKR=+$-o@kDmI1kC0F=$B1l~?i%=q@jOWF258ULI5jYxS$+5pyE)0nN^BUkU4^E|8#
z-SRGYbKaWwT5s)G*g-B(eR6BxN~mA<_J3kU3w6{@9~ywq)^{L%$EOM+6N5yXc$^i(
z%Xl0uHJo(8sHp+G$nt?nTPI+!@T<FsqOgf!_-}$9{Ues@I)99(rnhVswTwA;7N+VR
z`ed{cVUq}Q!EKAZ_YOS>oXj{+s$z(w_$C#WR7uwF|9}K-$O19weMeS4AXn$JS{`vo
zjUQ-N(9uYg1burGiXkXyDwYJ~>fF0fWLUq>T?=%@^=mlBF8vGy(h@}<Q1mY-x=YcY
zA_7C;DNO^CBG$bL&}bUvre%?bGzV#j$MFQ)^7Dmq{_=Md*AnyRvW-1*W6$!zmBzy>
z{v-F#{rc5ky(;_9erYlJUNFHY&s7Z#O{E{ZHg-Lot=TEp>|8p%QnP=>|3uzS<3CCC
zr}Fe}F4(BS9~GYY9tnRWrbWI-FGV&|iKdIXk$Qkqq$wNglmDDbC<@S<k%-rT(3+!}
zfgHXWkmxHPZWtt@%pypn(m>7hP|8c-h)7|Eg1#A`)L9b@M_>7zwo|HRN{Qkc*u9%H
zRS!#29qWvIt<rC6T&-!iIdfy?Ya7z)G^XB;;7<=ano1z61Woy{Pp;xAivdPb6;>yZ
zl}og5LRB8oX=ED*V)6np6@141O4a5?d5j#pHe)7>5@Kdk^&Ayr{HaLt5_Z{eFv}26
z{VTjkp+M&~v<eAT&~^R4Au7RB2IuO4Nb=YOE7tO+50af$eMy+LCxEbK?FAHNwAogq
z)7rH)f0TRIF=9RszVa$29-QiQ<B*EOW^9DoW*k4^erhQow;SfSYpr-@)}hsde(IX_
z6_l7*>1C)SgVT;qHfEhnq~oy3W-U}H`^MnrJ)%ytgA=D>skCClS(Wo5o9K#-)utU<
zX~s~f@L=<xOaBH1ii^=kV#4dHASFJf3ewHS;u6lBp9H!veU28_kMQho!J5m9g{f*T
zUiGwQJiBsyTb74BgoJ8b<@aa2jh|Q5kjWO@d~18Az5hY;z<R*x^MC2*w(h@vV#CLk
zwZJHvtK@SndvaS^=D)Z2yGt)Goy^qt|4)~#tQ_lc>;5n4iFJ#+8shF9_y79JjN25=
zfnQnc4|g~fUo0^>mCpNlZPrYQo3pt_OoZeE(>jqZ4M(|G!I@_*X3Vi-qvP9NE6!PJ
zT-hZ35)Wz?_<xHu<G_lKIep<&tGYC(RT|?W9kb-zsW!ZMraVET+m5H8XV$htlWc6h
zHT2%l-08n;2rungY3RRp8XS1bc5t0ij%w_(K<K)Zqdq}-k71@iCmM<dsYjzo6qsoP
zSfQKi>CH9q#7_gbXZ)1%i}<NZ*1CPE<@U2{9=h`qYxGgd56<`-dT{N4u5cD<nbhzm
zzNi_3);Ca6!WYZGJ6{yw|1|1l8mEV8oH%h#=W$^At9X=VnKuRcjrGoasT-vvtxCeE
zT?pV@j#mhZKAeBI8`q)wN|O?W(?0>xPAQlT%fOw3OrI?S+^Q_qXTcK0c#%FU{YyMn
zq{x==fHstF;=Y7l*oxSJFI>WXzp2dv?-aOi;dDm<*`S<eI}3$#KZF{|*~&oQ)p@tE
zPAP>7&Id-~>-~INXjj)xuW&`rROShaE@;W%BO%v7?<_c&ZEgW4l&77Y`DG3U(2V+}
zlCi#xJotHSX718cM7ftDn%;^dUxyN8XG_Fr0$zs6IC;pjlPS&<II5hErLQQiQ_OS$
z?W{;KQ`tEwX5ZAGO1iTZ&86sb6D!)x?6sXi%@j>@N@w+#XzBkRo_hqV|2)*Q+`AHj
z-SO?f!<vp<MP07_u&zdZFH_OB;j-0|YT{i3h_B8D+CB}mZQxW#fOaf?Osvf1d&dvG
zrM&WH!;OadQPuBkc{JO5QtmzZpzIVo<nfN5!KD%OM-P-{)3*}|W@^-n3JIfA3K|PH
ztKZ@oP(z2|aY<2~Dz8>5>6a0hI4L@jGrfH?Kw?X<(}?mq4P7~^10N4my!*zrH?n~)
zInb4HcB#m(6=mAVWwueh*}s&Q5_`KfBuHEV?wH^76x6YTmnM1EyaiD;Ye_sgV|wcV
zrn3%{@Nhl|W_I?Y3JS{O4XHQ-ov1Bp%Yr)f<*L=laR5U4t{gl6Y@qtQVS(W)|J`t|
znlth^g)e4-!UkT4GsL^ei)$=;i5(<JO^PG2(JOrML2o`O<?q$u`+|mSy6&=+Oq}0L
zNG|L9d3<9M(_y>1$8Sy0c0XH<JCH5?ilRSL33y7=2a-Oah*T?PF;)VabWcvD31~3v
zp)RT-316agsgoox-~W*2#g9=TQ@Xsh8Bf#VsZ2{hcE>Y~&#ja{pYcAw>Z!?iw&fbO
zUpt-i)n$CGxj=n3z{>%C@$jdC*4(!CJBMx`T0XF{?I}6PU-vCs{JfgaY&&r874^(j
z=D_or<})kRXEVXGaPKBp!sS=zJ61wZGq>(roeP~yO)KQ&y&Bk(ac*G~QgNtfqc@`_
z`si#L-bZ4SHNa4h)_Ai1In9NGDOwpeXHCFZ`|>W&bl4s?P7-;*?8Ky4fNQZSt)pmt
z%hmx@h6C%EF!?Et-`lVlPAPrTnYg$6fZQz1Vxjmp{~U>3u?jJ4_5|r5GQ7OCvw$hs
z;Kj7!z|w}vOp-_~Q!G(Iz_u@swDg}T1E;)kb}$9U5!x?ezi^VTBc)iWMm<wIcg`M=
z{tF&X(aWh*Cl3!5FV&F$y_8g`%dR?$iYb<8Dha3szvNIIq66T&<@(*&lvrU#qphuf
z4E*?4+jhv_rn#fncjYRZ7Oiq+>)f%24ciuvEggDr;LJ+HSs+Vq-F)j};{$J3&Rd7m
zc0la&!e4l|!35T_6F9FFXPO5G!{y&ud;c{$SkT@T&vCp$y4X{erWekBPffzj=2Ie8
zC^Gb){g_H9nxa?FAW^`iwSbbvm=yO6lTv;WCRNEaOiFhuCZ!Z%(zO7kf~4`6A@$W>
zlWjNZ-PN7z*!`uW!q${`vRyofqZn&8WKiu5<aeuP5e=+&?m*TRl3k&77v1l0VpHXJ
zmR?-mbI<m%_m|$xo}==vV{*&!H4Y`8?D-`1=lx$(Qk4z#ieVlHSCaVc9d-~V)fpWg
zk!Yw?TdGq%0F_9nP{CVt`Y6RVl9ck|tj?))ES{2x@hg?|%OVBavZ{}&UPY~}Xo4_+
z{-YymIoj8ELnT_IO3Sy<GTn!eiR$Cj{B5M{hlSMLRWgVv?cYMocE>gMDGyQaGNM*r
zfGtO<Gr!)|0ib0p{d<c3gr2rzQQ_wZ)E^Oein1pux=s-@CJ|0!6Yegjewl5^P@D(Q
z0-k$P`U1C@id^bnBU-bVOs3yda;Db5=DeSARiAO;&$#V>!|nNuJMbCT|6jQmKjV&n
z#yy7#Q&yV;;OV&0@ukh;F~8~9@bad<#Upo4+&;0vA-Qqf^nH`5Z(h1}W#P&ON9m2@
zmg6Q<+5A@eC6o=0(i>;ZO{T_q^DWncYlA~_<EZHXGV&xyZv4R1f{Y`#PAs5eBsT_4
OPiPds;gDpn_5T3a+$%@`

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/internvl.cpython-312.pyc b/model_executor/models/__pycache__/internvl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d1ebb6e08a448ef9b32d2057099a55da4267c235
GIT binary patch
literal 55357
zcmd?S34C1Fc^`Ub-!X%I2L>y#gCMx?APJHHK~NMa$r{UnLCk;zI0Ha;23#P}rfszv
z%1Q(#P6(xH1vyRx+WOV-dwB_6yN%)|t(?T^Tn^P4-|(gIi~16$d3lgP*Ot@f_5Yo_
z%?vIi+0E;(@Aoc=Gv}V|p5;5=`L=V;AA3Ab4o}$p#fcBT!*PE>FUsSUJ?pzI9CwF%
zf(vp%LzoNDuQ6<h7z4(LDPS_tyD4mrSOS)aHDHa{0yY+A4%;J+fFt4zI3uorE8-5g
zBc6bV#TmkR5qrQZ`+Wf)D?2|@5Gatt3L`~<V&=DmOCqI#Qs%dY%Od50@<>IXB2pQs
zWMQ^&Rirvl&HVOoO{6wZ%lwY8KT;Q{V}572KGG0qV18G)G13%hiZlnB*}FTuCDIaT
zVSZ1zHPRMnWB$Bwd!!@K!TjEEXQV6873mIiN45sGvM^t`C$cTDEz%q4jcgBWkL(ES
zVBz`UosnIEU6I{^-H|<kJ(0bEy^(!^eJrjZygzavaDe#>!v`aW0*9EtD11257wBXD
z;_#8k(ZJEjvA{9*UJ~w)91k3azcg4DJ`p(?I2joT3`7P4gOO8#Q!KnZJQO({I2{=d
z3`foc&LFHJ@K~@ia5h*Kcsy7gI2Wu5oHueOxM1z`T+kmn`Zbd@x`8KHXdOc9GeVyX
zJrR0x&c<<pr$X+~CxQ+8k({M$M9QX&luxtJW`u6Z2n~du4h2~LPqO?ilt0)SdS=`h
zY<u1u_*Aex^b5g`&`9Xhp=T(x9P#uQ><m2<?809+{<dbuj=O_B$T=F^hL~RbZ4X@t
z?!aGmDrayfQjG<7A;oT1#)fZ<TZ4O$CK%j{_<i`(s|S5Qqjc2KMD;^0_9Jg7cpy|d
z*@b|d=OfA*(a*(7b_Nfk<nc{QM(?Sul4|Cg{L`Gz;}tbLgmNwg4~M*y_czAVD16Lv
z`cTd!8{Z=s-=iU;3N@Em=rM%$hc2t3VHSEEp(jGS)zFBM3weSkLy<QJzGjr_6PRKt
z2a)nr=s;+S+OMXcW^qG^J004U6F0-+h7orr6j5_L%R(PR=-JS8=-I5&coz3K;?9L;
za^j+>S=;1aZS12^H1uqUfAhTZ1y;rrDC5ac!Q@}-q#q2O3JrYCD#d(FP7t_q-O&2f
z59w{V)hL?!jvN*9MlVET{ODLL5{g}#4z`*^`#>zjk6s9eMBC}nnVE^Hi=zEp=-JuO
z)L5w1B0Bn}rlw<~u}}~NOkEdkLlcxfEIQ6#p9%GaCq|>9jl55e@~sBZG7uTP7(%h`
zBcrjgOUFZ_u~|MO`X1v$`0T_~D0p;wYJB3N=sX{qica&C6WN?khQkpl25-J2qtVc@
z*+}I2nVHzc^i&jK1!reRr(zRxqZFW~bo4!SR(>&x`2$m^+SHR1Q6xD%9SnuVlFXpT
zs75Rt<>j584aX+f+o{lX`a<F9Cx*@soIZ1`Z)oK4{u2Y|&OiS2U3_?Kdg@AukBv-F
z%SIw77tJeBvX6$3jmAcgO^n6FVlC|WL@2DZG$Z)b)lvRp6dfLkwwlF4)>r+J3!z{T
z-OhsLz{mLMu}~EKBLzBG%5xKQA=FZ?xAbADEQ?r5U8Y5;`NaZ?kYDK|Q{&TOKHeiU
zvByI*;nA^BBs3Kh-BQpKGeHcsSeW^CEEF4^2vZN0sN*s)H8UHF9+{m82SYUMg{+?=
zq2L6vOCw7e+<=(#)0ab2s5uW1bW2g^#x8{-qoPZGyEHlzLPu9eL$Q%yXnYh69EnZy
zW0yvzW+Nl9OMGZF82zCEV2n;H(i*AuTvT+Qo1K}N=3~*J>BsxT0_9ChD>{|1#~#D*
z<@e3Trk@H;T)aeCM$rhdVq$6{HgW}UIKqc6PDBApp&%RXu;`AAUcV3;nc+j@6W8V}
z`zIn756)Tlce7v5{(;jcMvk5tKHvX|^9Nf^7oDl!m^tA54~H&(_sYL|t)lyXKXmce
zj(#!xmw)&DLx`*n1o!=iGv7OO@%j&&d+cxi$)Sti`xEvY8k46j`?1R}>kIJQ;X+)%
z5aa?z5J853DP#_^1uJ9;nrLAQSwpr-pPVD(2k6BSGzTp~YtZ&JvlJmMb;xP|$efO^
zQJ>>c^EfHbbyurfER!eJ5QEIeCa#6T5=_kf$mz#(Yyx0K^Dw%Xy;E4H|H9N>Kf??D
zC?LY$=EneE2=V^uaX*_~(X6yHACVaOTYCKMRLIB-&FxUMHKTyBz5Zdf__0f)Q&XXE
z)ZfyZndZ`7|49Y~RE5y!*d?hRepXyYSy%V^pPC59E^V4jbk9&9j9eKF&xWF+IR?BY
znl4Pu{E!G8(QrvLTov;((~OLVM`NP#!j$OBXu$AYr)VD;nHr6RMn**E2m#=1nEdXM
zk!NQ|!*YymWF$B}HZsB!{VaM%M$kM$)70Y#CGZg~Y!Zo9X`1ov2)oOz!{vTD*d2?^
zbk9u8bjE;@Lb1+kv%B`}zPu~c9iF(*J#!sv!&EoTg>J%k;gQg_&=_V6FTF;)Cm5!^
z67HJ0&hJ8j%o%_uIt1q*aqk&z7W-NO=PFp}5}b8Ob6vXBzf}B2)$3JvpS!o?t-80)
zz1@)P9!}H^3#Dh0<}>O1ip3qT?SEze-O82o$=1Dz%DqDVz6a)g{Gd{N*8Biz$e#5%
z{QSK0BjnJZH?)8g@re23l;)4J5UVr6#%6-O)ge}8%>)%E$+O|B42bk+115t8pc~+S
ze6RmJMl>u#<hZnwvWb%cm;}HR!C+`gno%v0*=Wokp~>KnT?+XxWyAr(!=qCdXR(U;
z*{J$2jE-HtFg+ELW`yWwbr=cJf)wTVpc6#HlxP^|sjZ?JE5qpUT^D}@Z~Remj*-((
z4nZM*oE(BY{scKE;fUriFew8)p1?yI%~Rw%tvH{6XZ;Wy0vij!CNC3goP`VhcZO~c
zEp1=6eBFK5Ei~*9igtYCxwm@XHobi=x$A7A=&ay;{DJv#scb4%UXG@ol(3UD6j|W&
z{~7f9<U}wuorzxm_Co;b!W96`CiwLV6%>_F?#MU~{F04qH_f;KFn>P0%D(SsAI<>Z
z4R|#-nOK;GGo@BYuxUbb`F#XM1fTo?at@M1u*4sRGtBpqHwW;ZqA+qU;x9_@l8LVp
z1zQAXOVZr(--ocM{49w3pAca^Ng(laBP?ksGR9IxSn?SD4?tM#OPL6ZKZAbfA0vkW
z#aZ}<`N!!!2MRt(VdPvP&v|m#N<%>!{$O1s;SbR{K}7EeQ7&ULVT80C=fIx{f9wAk
zp)Z(Uu-xHd6waQQ%yDwu4dV?%43aGAnUr}o<(+;rVio+95gjx<&wWk)ZbnMNygAQ2
zHxH66CKG%dH|fqvfY-^qjbU#Z75+G*d>yh<;V&~%6>KbR-Y{=`)1;Jm(X7<{MN6z$
zNgXRue3NC0Py3y$)clH%mSd$%wM28=9JfHSV}0I!!!&O?$F<sqvxbPeq7Z-U6>u;-
z>hR5jo>q!OHsi2pdi=x@o(KT2FDB6UQA+FQX~`1p`@^G=3&GKYb9EPp^%((6I~5(D
z<|AGE!_#A<;pjnlq$DpQLzFuHCikGOcjf54;s<qy7>J=@52K%Era=LMU;|@hj)X?1
zL{l^t6uoCoKQ=P_#OaaqCm-+cJ9bVq^klV#0Ee~ZNqBzMnAw_J2Bk}Oa0XB>w~X^D
z$c!0-Bq-&S)*85TTm#p`MGaSt2JUI3H*nXvYo@2UtA@LVVZH;Ux0?71_>l-ynGX{k
zYNMkB_5PbTrOvTHco4omSF>r)u=rm`mS_!}pWNggdfJxvz2n*S{lconbH8%%$0jas
zcgnNtzGv4@qcj12(OzqM&C+6P%@aKXr~6Ly5BHxRIo;nkEV|X#bLWqVhV!EBC>Yx5
zXh^gUvF;bGkB4ZY$}$0^r%!{J6>Ucbjy{1u(SCkfB8^4IFvf5+Oc_iV8qqinp+;!x
z$^<`+Q2~A2YUO_cH4@G2^Co<ikKmoZOimb1l!k?voWqBu?(pXH1OFK$_{Ws;WjG(8
z^}gy?=i?1Gk3IC|-*Mb_yzBP7eDc;wq4-eJefXjDlFqMO3?zIl-!`OnpAvSTO6@);
z>^}F%Wc1`cvT~lhmj`bResPErpSpEw@%&QsfxCUpV{<syO^$r)&4EXLuCU}w7w$~n
zp1d=4dn(bi^PVYLvOigH;O40xnT?kEH9P0dzd6L<Qgn|-XF_AK5uTt@^hlh6^cEE@
zSBd`-t(O?P1Z2phA*_$BknPO!Q)3FMBd{Pu$B^Q`f+rJ3G2i6bcf%4i-muOa=S_1+
zeZw|yIL3Vn)Z`8OygkT-o%l5~THJ+DM~up24-lMV4v0@J$vN+ww_L{edCR=>hGpJ<
z!}?M)3u{4#8(!*|w*@WpX8Mlo%3ok1%2yD386+*zA7dq)Fmv-(U<E6%!o<{gtC1&x
ztK?8yneQ*9Dy<&EEVhh?r@_;iAY*HF@t>t6H_7=NIiDxz3vfj5g-}%P<&ogT__*lQ
z0z~sD#2unV8iPW446+8s$>LbfC_08g9YG!*3G~XxC#HfUV`0n(d?zz6zku{##$WVT
z;N0XM`MA=m#r|Ij-vk3zdUG)C@-6JVb@1k~Kg+L)ThcWROMS0gS}tCG_HLO_)041Q
zJ}fR<tV*=(6Uz4`i}%N!X;<;0_r7aOx~3(5CS6{0YcTC8T|AWZw57d;3uB9eLP_&-
zg;3JF61vy-jY~qw!MBRvdiM9rgpz@zcOYF|f7`j1&lS{yRdkmm%*7HQ=0_%`MuOMD
z>Q0PFoV}PI8NHShRG_5D07cJiGz5te*#0TVtj5qt_7MK35n~X!7oI!ZypacXoH7Ir
zHzdD-`3>_X-Z_uZ%V28(P4LZm0DT6)oMGI^)(8m#h@QA>=5OPN|7CKhOZhLsiPGn^
z;i%$6(dqD&(1^k`k5KcdJ>dKKJ4pLY%0%?*P42xsuIsQtC~JM|EV|?Sore_f4{Sw=
z^0wvC`{mtfd->v7!CsTFm#@025;ffkS9ikPE%lv^3P-`BP5y#9Em1y4@WMLb|9~fR
zT2k}SRD>!E#4+w=<IAR(&12?E+?erGAgXT|wS_Z?)jc=;r`nOm^bu)Fk;aU#nWTw0
zX1r#+j8&Psn*G|QupCX9DSq7e%jTEL&D=|!`0F!sH!L?yprXtfhyW<$c}}A;&Y`9T
zZp?hcOewEIUO3DKD{BFz_Ok_)NDcr3NB}}I_+>&hLJ1gV(=a6Ws27{^G}c(Q4c9WL
z0iK|1t^<pMHn3SJb0bag06C&WP~GH~pIynn8(SH@XZS|&tIsKPf$4JSI^hwJ6&JCV
zLH-N5JJy~><l$c-hv-|;Fd-Ty8ER3N9cAuUY+fIpCjNKv7rg}sli$r1lrCIdvMtxW
z?s|~l@gs}1*!qL~j(Fe0{E~%d7wZ;BUupWa+6}L12z5pm>u!f0xSAKQzT;|Mb8t>q
zyzfQpnw2Z4TeEQv?`pn(&4S-_eg}Rn1@Chx`%xa}E?DRkn)W_$?Ms;VeelSOP}YPm
z^_lzH?4om;pSU<8tu!v?mzEpqYW84kIO3!j3_lMKjo-Xsjur@u26^)qEGr0~H@#{2
z8s))*rN%UG)y5bL4!yI5hAlvLB{nP6F>eM!a0E><LV%AU1joE%-ZpO^Cu-9?3`!{*
z$!oyVYG7Em)ye+`YQcYnoSWo)fgHjY(n|45@QH32f}}1`mSB0!wO#;`c{v&-lAq9v
z^hh|r0@UZ&Ea=G$G$WN2<?kYW3V+eh!@0?=`M9E*C6`dxesc&^MCJChy(n!jPUn@S
zy%p)g>PIeXr8QwL1x_xiN%(tL`UL+@p>XHTp)}s>wy&HO>UIf5yKbINd;ClJf~O(T
zyysq>(7a#p?7w;ZJu7D~UMyMa`Sr@QJ#V4zmMd;ub>%PYU#d>Hx)SCt2~SxV)>bDb
z4X8S>-vNa{13QVp+~*n0N=$D{1`;r1xEVSE10xUiGbrzd^@a_!1UD&%WtPN-&ZyE4
zj*Hw4XG~$yvFa-^ph(W6B-gwPIgE4o_8bU3_)um>7{WJ%Ass*kAKegx)R{5k<{R#L
z$D|{(ev*IQt<>X&XWltU$UEnm_b4e0+)GcIxfs?e>6v#bG4s~TL<JcKxzE$;woNaM
z4Bm~K^p<hnIIi_p-X?X)Q@&{6=ACR>9B;L34)ugtTWzA5Xh;U5A_z(L^3M<>n#cI*
z8PN)^Av6WuV>mR`>gB(RnB3W;O{-;!{Vj6dpb}hCaY1PAE{eVxNu>szjwI3Imne<t
z!t^!K5uFJ`_e04%D)B(CQL;f%CR)~ft5k>&=!E2w)n$PH9pw5k{-TWlWK6g`uD0>D
z$yX)?bLGv!1s5h=d%poQEnQTbE@>c7NhM}oyHzl6xp_Q3wAhKcS6FtZ<95fAdpVM*
zl_>UfX?en2^w3kVu=AHb6*sJU@)kOl+Ju4*!PB`?A-MOY5wd@2uTa=2c)C{F1o!@Q
zo>vLU>sqN3JiRM(g1e7`hn5C~qAnq?d!<M4Y`^Ce+(*_N7OyjILVb(<siH=qsB!6B
zvZyugNZZR&_FBPSyX1Js-nLfA<yAf^;oRPYw>IhWFCD+{YD<{g60SB-DX$hLsymbA
z_}cyQ-gH^@YwlOvOOq>YiKYX|vV(DtR+i_1y=&D~nJ`x}l%V1QGrErWKf(#?D{!(1
z74QoRiIRl{3_$hhZhCH5HPHl?0m2Su;07v}Vr|+?pQP{PJo7e?J|HA664?V>djq87
zyjA0*ZyR57n-O<I<3GT$$fO5CL3Wsi?;04xc-NEzt(XvB#`hRE$l!#@%0){w23dTo
zLjrJOH8a+Hwnp5fFyb^ts|>%p@e(Dhp#rG16x2xcaBO-cOLVGGpZvFxr4Bt6{WLs`
z2Pp1dzIxA=EINGi^t-;=<-HGlJ8up=^t7by9tA!d9yu&|)|<z%h8LCJ*>`*2H^-B;
z{ofp4dE#})a??Bht@p--+WutWajX)qQmh^yyl>+C#|=?JzTfip71~7$lh)~v@~0Wb
z&se~J#!-#|+e(j~V2#MTugURP_Bmkn6Bt)}OvSkw5J9VJ&I3L)LzE@MlUao)M+Qb!
zb*4c}2G+Gr5+ccY=GC;o-2=eg`AULGJ#iXAr85I6oeU~fEU!YP8bYg<3YAVkrFEFU
zhfnaMa6rwPNeRRg@4<*%5GWdCo}*A&OBjrbj&T?ajPm^Gb)M#<XboM90V_*-o_~Rm
zRyY4IDfNd#u1nH8jF3(U%rYq<M90iTSkgyGu+N~H<Yp>V!y^N>B<|f5u>TObb`xOJ
zI`AQYT~P9+**nkOeoiQ8NES5RJoRV!C2`BcqV9+8{Fl$%I<wfnY<b}BN>^-2m)5}r
z<QF^R4v@>f!i7Cw{LE7ReQ$ljUZ3#Rr|pF)dxc=HSlsiDy@@#4(nm$g1i7579sK5H
zZGv1DY6p{rr?Mu<DFY*azf<Tv(rzC^wbe%fhV{P(x$pu|pke|*1^_`L`)7L96g0ya
zzyfu?H3Zt0l$Jr8>a&Mza+o7%9CydLaYNAgd|to~#iujq2w5RBbv<uZriStxa3R)>
zQaox&4p`B7Xd1zGEl<l4$dhYg40>NRe?%R8T5UpJm@MGytVCxp|9LAcFr_yAtR>}V
zmL->0fbt50g{XZI{-~YSU@>gT3LOyEJGfv?uq2cpDw=Fjdt3ET2_Ml82l5tAl6*Ah
zk-uL0yd_YoeyI$pS<n4<e$%Uz6DkXN^uI6nr_`(NU^(hh9;^*kges7?f@;U$gFy*K
zz7p}3Qa$C``h!%qTwg6MYOdQ?NU0m1{iToS%_@AcD&t#@Q1y6Tuo`u%iF4Nsfm#rf
zbz(7D9t}w5T|+QVl8mF~{>DjI;{2tFsI1WrPKTmXTVj5g5y95XKM{-ir>{==PagNn
zMA|gp!SY0>{Z|nmnF%xdC;#*;tWb~=+Hn6RSpIZ5<)TCWF`!9*Y}!9D6@?j?td5V7
zRa4ZD4_`pdg2*S?xm=3HW}<t$yD!aNya;ovaoAUNjZJr-0TFxR$)V8;-AW_2b@m+T
z219qDI|8#f$*uw!R3dT&7ArBBS2PT5+p&$+Wf;UnwzNsK!ZwYJ=^U&&L`UbO;Gf5+
zj}ak75B<`5%m}Oh0!;a<29Q=1!=77UmVOcO3LXF%53$z>@Q?HmPd%cPg*ZLpX;NqT
z1m~@vme738LtObyH`3?jMBo*&B?T)&eiTy|NrfDgSsXLVU!;@YoRQzWX?_dKU!s%W
zl9AsMD^pTre?LaDCH8=5v=Pe)IT^@Iv<Y&q+((KdcJgZ&4|>qYYTJqI9H9|o59Afx
zh{mKsiZ-J5Hi!~##HFS*Ox7rV?H4IjGUPfbyM9PR+v)@LIXeRjIM^LA8@Lhvy9nq1
z2#)Bv!mKGrBtVno*G^^~#T20o+@K7IVsgYrVKK^IqpYetR5V|ho(_w?Am&zdlxCZ(
zUGS34lR~IsDltI_tZB^AP<UMXel9qFfl5zM#T+A$aF0e|?36_VOUfwzPmyG<Mi*&x
zDXsh@kqQtOk}B#^0q4lOWfSaW59}4IB~@|rORjWzJ$~|5EBvX7E}^0;Rk25?*aMk&
zZU6~kU5#mfbIQM4@b6Bzs~>vH6BX@mo_pYh(7Y$%?fF<qARlQ;*KJAF?G@_wCfqfw
zl#Vxp54^nzdvC(q`)+MLiP!fEo~GqG!QH-mCDnag=sy0oLFgV3+=J^Tqu&`fKd@Ip
z5?9%T+I!P=+bEz${jJ|l@3rZM)>OkTp<!3t{EodMoBu-JaRiJEO%N<*B8kr%_(=ra
zh0W*ibZkIDprK$t&rkDUd)`58hL}{$%NXU6iQrtL{-|W9`W%f70XK%m$`QF$Cy9;R
zvK^EJeTR`k#cuF_WVQJ;5<yr;mE<3ia~O`K$W+M8JSIYA>Mij0;ms<Xor-k-N`>7S
z73P19K0+K^7UM(g3hUk_cp&OB0O#n6yQU2D1}GnlEMCRL$Rt0AH{JlV#Ny3LsP>C^
z6LjK)6FEKB2=S1XYm5*H(n$6WW?C-o9Cz0^%$fn-HGBP$q?dQ_HAJy4)rn^uAT84}
z6<?^RLo&1=bFKP7p_BBNsG~`&2DwTBw`F&t`B3~=%3XioU7zTGa?Qj!DxlQV4|j4t
zQ0=Wq<jGID8}7RsR`VN3UR}B7<hu7Kx{fZIQ)O-U%i7+qj(gtqwx?^l>3?mH#0L1B
zYn;X5%$_aOP3mwC;)O{rY5wFq8@ratGA)o+Xp5=^vPXHC&vE=Jih$bj2l!#kS*vZ+
zZr0=lQCcEchbvuPtn_1+eqyfu!#h1I@mHza_n=@VKd$npDtm>>-pu}i7NBbTI%lbJ
z0*l6N3#AYh_}Z4Ytn5m9_a*F-A*bk)=D8%_mJJSN8NbqH)O>0Jn;$fDHtW!!0YV))
z7ia^m6A6a7Nf~}ofcnr1sy7RuL6TQlCOC$88A@cVuX+@YtRFHDABSY0s+T3>`~m_b
zk&hhp7Zh-p92P~P`~x`9>aZE}E(QEYa&D4y7>;Nd*`U`cB6O3pW=7}Q^hZ!H?YC$E
z$+!sv=;q3+Q)SzPvTf;#TFi#>-gVAc?u>gL*}3Xn>C*aiS!24i^3G>(f0nr5ikehK
zhfvW05oI+7w><7zIJ;<o8o^h&cs^C#Bj7(<=-9;IzlD#CsYDB22#?d?tS`aYY%nFX
z!-iBIIAwN_UBJsWS@O}$<abmWdmxq9A85>@j~Z%7Oj?*6&!$RAY)oZ%oMAiYc6Fo~
zt!8O9k`PTB(N?=OnAG%K9JxqguaNUqILxp`o}4m5tds@P*z=Gru?t6Ib3OVa{2^KX
z9Sw98pJIY%otav@VWz%U!&Ug#^Bq3tdp`IUERVdLr#<Z}PFL2xcIcHu>9Sh-UsIo|
z*(%g*{m(9|Cl5m63jceQXN_|>oFBZ;!OL*{KW*=GnPCAB8PS+3mP36=*v7!%cTmG@
zk*+d}p>_vP&RZu)TW6Sugy0;hfz;tf3GyR>%e*B^tg8Z@-W;E|DPPfq!+P_ZiGS@f
zxRL7Lo*|aBD`fz9ybO5Mkf7;RGG~F9?o-bo7xaUAypW`8zCi{nx^{U?6X`;nN~tR?
z24~=cQb%4KpfaLq;gRcEi!XZSJ(DVbq~!{l=iPb&McC2F{ff5KLA!3a;d$v7VDcjO
zJJX~aZ`iL&I(6d>k0e5*3h-~k!NPP9KVrUw(g``qyD)xg!wwmknIBXHizGDU{}VYU
zD2HhbRx(yd5TW1(^FjN67*6E>oMLT6b%Add&EvD-aBH44wf=^3>&!33YMmKpMxo}(
z*oHBJ86=t~u-%H^P1z5VLsXw)zC>RV4Y4Q@xyq!JekF-xK5h9?)jQOrxh<Pa$lQc~
zMbq%Vpj;-1bbI4hzPN9(?!K!sU0EF;T5IEcMGMa)ymg>#*S2u}##HSgq4rSPSCX#p
zrT+~(Firi34OmhAc?owFR@3J8H=cg|=|uOTWYgh?O>J*H^ZGO2Z{L?J+Ap;4TiX7m
zbBjg4`gEdwpHQ?Pj6ie2dlpMoUVLahkE`ohaHnh9q}jWYFVyrdxYD(4%jZ*_eFFa1
z_AR(qtLswLTZQVaD^>TNOIDv+aDIPqI9Yn;yNz!F*}vv^#j(`79QgXk-I05v@01;W
zyK%vcof~T|6pr;oYs?4l7jwl2K6t-?D|^hq3?P3$zu;)T^E*wAM@y`V5iN~LmSGCv
ze1;sh!@~$-=wDzki(ZtTd4pz3t4xBZY2I*=$YTR&rAed%NDBDjNqh}ITVVeVer&X)
z0agYzGI}{Qa)CBUfZ>Hr@1}#Ao6wGOqKzo)CI`!>gsVDTUKt+*pSIZc6|iaT>59h1
zs`y|U?4P|{Vp#Gd<G2wC+M{DC|Bg~rDu>urYBZ@?GZs5Y5=dP!sdfUA$&ZH3Fnf!o
zWsEJD25<xV7*nR~fiqQ`2sy`QN^(u1=9qxV-ESJ^?Z0WrQj|OAt-!!CPRd$Fp#rn;
zn@w79k1nZ0MrflH7S;cXcJV(Y=a0yt2?-NAHh`NI!v8&`e3hIZ!J!hbku47GOcZ@%
z(~%3b-E?GnHbx=(rg9K@z;GfwGP1d_K#KR$$lt<e7~656&+u0BHxDLD2ful6Wt5nP
zE}^Vz`Pp~MdhQ(*N(XPbVUaw}rc|#`-J8xYP8XJ|#4;vL4Jc)64Tz}<Bn*R;0<{GL
z&873nlD4>OwQ}#`W$b`jeg;m$UiPlHGEvoWuj_$#AYmW);QeZ@42lC<?OrJBt2aa4
zI6N%DzZE__t$y8II<%(nt>iE%&3*C_=!tgVIN;#eb)M!S|7YZY(gLQ&<{b$uTVk`2
z-blm`O)vg0$oVUBn4X9bJKOTZ@H}=4VMnYqptSBw<Le_I4J~g0NQ)j>gfkYR5rF96
z-y@2N4i2-K%KuwRO3veiOnZSJe)2r_2wAa5sDf+lOt*BT+q&NOHd=PC`e1K_U&uX*
z{A)JyIk~FZrJ`5%uDR&Vt-N{YEsv|NTiX80sWr-r-goBxD4%>o2F{w7wiK=z4VL;P
z)B7BL)=iwXh@8ANGhXopYtb6^Db=r*l&@Lvi;$A?#qGBPYc_hbbI$6;bAqGpeFt7y
zZkBwlNUd_Zsr7wNg~f@Savg2-W>?-E^yXCR=%P0_S5~zcy#3r7%a_MFz47S6(fGAn
zwd-DrKbT#(*RnsOaC*}Ur#G!|deaK0Hx!;14=o&BEL=EwYg%yBta~ZAzQD4LHFeEK
zK08-hvF0G3lXH63UF7RhEAgJI)Z$#ls_?{}Pu~8d;Hz7+ARwbk^rlsb-n1&wo10bQ
z<?yYr;HX^pP|#kjbWaVsKd)e+_twOk1%4EqU#xx0MnPKX^rk@ry}6aXrGluz-gs=`
z=&kFEjf>Hx{x^nRA4=426)H$_CpfmPdy(qB!v>3`V)^Jw<4W`!t#{Ad3kn@ausB;P
zAcg=S?m0l<$RIMkZRdO5Qp=!WH7|eR*ka-Bfm_o{W+AVUI$_X2l`XmBy6svFF70?@
z-|PE?nr^|@z0xT7cCOi23a#$!RjWLE)oRaP^SJV=#Yv&8WqG?$*1g8QOfX&Y<9v$e
z2bEbg29NqEl;ZjYV75*4i$>72=8vmk3_(fG^f*rF8uOU0(FI*2X&RkO)9B978<K_*
zp;8X$qC6RKZWd=lXr`vo1HD~k&>PCbsS<v*6{?4HPC-rI=|sBxNm{9M9!dvopbz>b
zXaiAVK2q9Q?vGhEau*<XQKse$B~_s$yHZw$KC2MAy0)B3;1wx#!>J}2xxM<WMea>|
zAtN_*tRJEiE<$}vGEzH3rQ<&6NiBggX#A|fQZ=_TR4(-q+Fk}dYDLf(s>JwYr$QQx
zsglwjtUyUsOovwu9bUD1JVS>5?$4b>Z9_Y!s`UKWP2*Q|WJjR_qb(a@|J8}uCBI~J
z0A(Aq15h-2P@4I}(-$YkWR=}fQrA%_8&W}8HyRwBfk`d)Ax=l+1fgq8FYz;~?|PxW
zYrv)es0yL==%o5}svBcMytKD+7=%r>L{xMsHVmZm_$~%pqIa@W@p)M9vQ>AqF016?
ze!S$U?m#Az>Q0d{W)gW&<B=LkCepBfAEfaxgjSn<9pdrtQN@TdU^P*s8=Ga2s>>E{
z=(#{=v*)I?hEpkX70QUJ<E(07dWf*vibOvFqg145VTfERfy6-;zk*_Nlt1FE4kr*>
z)fUoOlrg-f3e{17X5oJfFHFuvp*fG9FhNmxYFp-L8Y(=6Nz#NlNUC-PySy%lu8ad8
zco9i6^c{?Nno~hoYjC!Lqo0~h`oNpqs<-gv&)oV<%DYAIZb^Du-)tAWI}`Su8yiSK
zz?h`x;n}Q#Hx1WGW}*%^lFE;sA*|B$Ndm5%2c_hM(5tqEOz9xA1OSY1&nL)z4#{%+
zMa;{9e9{BybWwJS0qUY%C<<NV@}^vs0&E3cFqbUF-jb{yOL;p5Z|8C_)pbzlI{213
z>FrP0`#1I<^$F|08hAGAzaTfOvXchBh}x4g#9|)wrR=nk5msZprevo$LrnoUCyjQ>
zTQ7L)mm3q_u7q7ShqkhkqFKr;r&8UQl<J}~xla(=Hn0_g?9&K5@Gz#%giRJCAhO5;
zqAIYGnKsi<7jGgU$JrupniX+4n9CZ*Tv}A-&H^!zMcP&&2}=3D#z%oPet;kT56Srg
z1<3MkoSP<ZjnM?5WGc2n!d)qKW>i-U+Npy;q#n~tevZ03f{%b%1MQ?LD}YdHnKI|+
z7lAf>l<>2z&tPVJ@0dIss78kD^WUR8K1}u*B|RO%Y0eWRnJ9*ocEvE6s4DB!5|T_*
z<Hj-E>YUb<b6ONxW=1*!xtwR-0x+^>$V06eLK)RiUX_QcAxs_$(|pK7FEBZVO>ZBv
zEDt3Kgr3Bc(>vB?o>HsUA6j)4c_w791p11xB*{i0Z=EdGQYt>kMjewS%A5A9BO7(T
z6lAhd*8j3>)T+uxW%EiJIB11_g?@};X_hRKj(d?nT+EjcUADxOg~<|AH#4*3OK9$t
zlXC(k@@wS0N6!0jM5d>fN+LO?Btd1A!#bsT1Sd;`qRvFoE#;C$B_&zagveB?B~KRY
zn%q=$W_;=cMCl7uvLvP~$6SNX+|7`dvP1;(Q8QW!BESv9a#dQov^~|Z^M1olNov}X
zA!uA{;+or1P5nYsKS@m?FST&Z$008@HA7xn|H#R8^n88K-93pNr;_bMs=Tx>S#(5b
z@6+U^eL~TZTzToPjq*|^%pv(`x~MEw)FKqMEVr-3QoBwFyG|f`O~HZ_J6}#2&KN#g
zXzJnWc7f~66q=TD#YYVvykDeAO)CqI);Yhkqw#37Rg!y?xND3EEag$@LFzb3d^m3!
zHv#k&^#zt3wgU$7xzD_+xKIU%cBcG<01*ZQn~M->w~cj!2+@HYdMF9z2TVjr%Pt;S
z;7H036*);U<j!jXM;8Q+E(jb+=;(yd(VbzU;GVZ_*z(5|6|~)tLtC*JF`=Of@w|aT
zEg4eAdIV&M8a=t9MwT^)D$kZT@;K#_<4xpH|3^s*CQ-h!E789s>C&fvCBfng1o^**
zyjZJBxSky=<FKUf?q{Yv-|y~Uu4C2>g1dgH=N)%bqPzb+GV&4ZFj0z+FN{OX0kvH9
z$CNVWB(3d%@dJq>&6+6EohynQBvIrbi6RH@k)tDz>_m;2I5J+=cfhRK)nrjKv>Y<x
z>k>Sf7Dd>;2grc}pRgx;up=D58Z}ODFj7$=Mt3<g$E3_~HG#Aw6}9j<)fFaVM7Ezh
z-}gAq3m|X*@G(is>4MQ2ZG0yIGN6P>ogbncrZ5scgk48uyQ8S+kY1sh%CT%=a#B57
zFxyh-E)6&_JV13$uDo$63_X0@^RTFT$s-hX{<aNU>*9`gz4a+?m*DMMzW(j@r1yBj
zew@*>VxfeFVUNee-OTV)pVUa>8^8)Qm*LBOSf86S`rNG3=a!&BZ=Pn%Mb!W!mq-X2
zX&WV#`A;}3vzC9t{ZsQsA_04GTuROK$OGv2)!jZS1&U=C6sU*;&W_U-0;Xh~Gw$`n
zI)*GO_$Hc@I9nHc$R?*JructGfh5l6w;)jAX4L`aaojG)<NRGtEXf*bY($M+8i_&y
zxI~#-kz%9zp07dhW}~hxng1(|I`syoIm|CQh*>!z;D6Z>jD20(@~2?)_wA>Ix?>4@
z&1zA}ofEfDJUrb0*5wC>A5Xf^35OrQ*At(G-9`TGCl*dDZcEf`PgL)?@7b9+{J7vg
z2Xw*qDA+k)g90~+y{D7j;e>togZFKm=e(paxL44(#V*YXo1`lkZms#)$^sm$EXxI~
z<YRgQ#vw6E<s6zPnx<xAqHXwCAKNX$=$4bzdyI@>SeK~_d=#dt0;JLTa|)xG%KDUd
zlFtPvQzd}oo1t)k(@GtRV_YSb0391vrpkxY_08|+7g)A1tpI)@aV4z)`7}`~y=htj
zdegK5^yX8f`cx8RywDL8lCOm{0niWZlJo<+B-H=~;4>6uvK%)onU;dDJKyKXFDD=`
zJ}+hNUNVz%p<B(|jk>gVzh^6!#OCKzu{i=zuB@)0XkdJj&nu#F2L<h<ypGBYp*Z{`
zXD(h)OR`ZA?0cBvW1SL1X&?!%b7a@~eqGr$g;JTD%dS}pJC|Q1OSgM-rP~gcLK_42
zstp2r)kcB6`m&|ltZp<KCF_MO{+PjTIbmSB81kTkiZX`1s@j-!2YavJ8n&bxy54hm
zEN7%#<jKgzUa_dwt+6B+F<G7SV;4m+B+LMC4A81R3R$*3kD%<mI&@ek9n=XKIArM=
za&8;Kq@6exlENyxH*kuPIpD%B9w+44Y?n@u#Ur(I91>Q<y5aXg{))Xj*nvag#vr8Y
z0q=E7t4FNRu~3jtex2KkxQQ`o4@2klRQS3gd6g4niC;UTvFl;^tiWiOXuZr%ua)GI
zn1Sj;e!}9gG{|1rWm{opbbD7;$8SgKEOoq(md8uuu(VKib?Dh8%Ju8YP5f^N4N&jj
z<lfCAV+uAv*{44ti9~r2cY6os_(5(0A|6OVr7dRz2;Ly$DWxyTQXD!5HiBJi5$q?K
z+qQZ4vfAn7`6H^Nn^iLHD_ty#e-=nyf~0rp+y4;`Ho_?#pb9mKTr%U2kxfJJ&~kp$
zhXp;e`w>o$BFUo@u=IqSBpL?UPMv{=H6JDt>i6N_g;JSD7h-Eh1F4bxUK%y33emO_
zVf$Bjo9q6F&d9Y`{2ukhPUOTgh|?foLQ$12t4fu13T2(ivhMi6s<%v%=B3LT(&bIy
z>3m&a>B!2=lxum5Vl>NJT9BAX@58zVmLht>6_`vI^tczTOM?c+xxg@V9{km(U`@o{
zal!zEE>@zY@M~i<m4k6yDy>SDlpcsJAeexFhK3UlGXgWqCl0mY+@ee~Y^2qAoEw&x
z_Cojo^l`Zb{b!uF+;nMl6ND9Vo3Xziaysnu#9-1m(~hC+F+{}Y5Fs5#L`mjaj<S<u
z{g+0sg#4p8Ar!~K;t0{q<3{Pw+pTpF=rI8K0_Fb;atH!=KO7w2O~>A{9RP~Rfgnb7
zT)^fi$yEO)r7Mz)SEy+gC6?ue;t=u~5N<e!>nblAFY#KPu@e=?3bJha@`pN&*ruZd
zBoZz%4WWiYz|Zaf2$+=w^_%2=NC5o5pe?WfB0)f_P}G_%YL7csi>f8D0Cvll)uqaI
z31z#IWqabD)jfv=JLLH|sAuP&l{DNs9zU{ROjk868($e-9=K<`JG`(n-oHw-phqa{
zNmtdSs~gf4WS3sP4XjytUVH$nkgq&Z*`4%ur?+fP_!=L!Z@;(W?UD!Wj|sk(wPLQc
z5#*2CztnTz)tG2GoM<`uu%IeYeIi+KGT}bC>fMsCZ(#^W#Vu%pwij#$FCSy_=n4gt
zNx~+CBs$O&1kkPm+M+K5zl45q5d|^p46gd&&%!<gLE32!+1N*9_Rw^~QHEM2`jO};
zH^U<u&0{*FnTBYoc}Qp;N;VG*_J+87Ap$i`%G)A%TgW)Nycy~#jF7JtBSgr_EF-5@
zpDr<N#y3Rk^o2>VnarX^YBQO~@{Fiv2043_E?~2YXFYO)!q^HmNQqC8(@SCG{A;TJ
zEd)K!ecya+RW@8%E?FbPmBjV|&47hjw5(YTmfGdgmBN*=d&j;pxl${%_N^mn?V8oY
z$V^zY*vKatcaYD?6}7^yps;%l<PS5;@T_~tS5snXS=qDB;b(2D-Qrvtd&J>KTGgm-
zqH$yZyUZ;Yre~*uW2mG0IAq`Yr{T#amOv_*Ll!a@U@Cc2$RZI<0UK284rwcCRtg(?
zv&-ofLdgL_$qx0i69kb{%-RRWt`!(yMq={u^>YV-5VDD)jfp;tFmix67(**#QHeGp
zysA7j@C5Sf#PMT_8T6KJP$a4m-3=IBNGHZ%ia?(ARpgTn6Z*g5gK(LYYnU@^fj&+B
z>{J)oXp}ystk9BxI7rthFv-STXC~s?*hEIXXvr-oD_V{6fa!{B?tJR@r<Qgt_a%$F
z;!Z5m*o5Y7O4ys&cn^y<Tv#!JBU(f!`eItTv>{6>LF*ywhkNiaRD<8#M~`gDLNB!b
z8ueD{tRBQcPkcUzARRQMoj!=u-e6n_-I=~5l1Vw4oRLNl52F|}#{)#t=MXL}rMU41
ztKBs2iQsXlE?w?mhH=2OG=*uz#QYIjnWXMzI4i0MBF-W&Pb0~bnVW|3cvh%aLU3x)
z8zm58zE(1NpN{FC+xoGGTF&95(Iz<&lTU1Ee`DhHiB$7hq4{jG`J9XabHU&TI}R<j
zz1H<g*K+BDik`R5$GzaAJVguVQ^oB<aeKO?K3&?Fu53zIw8ECTqyyGcC3$Nm8{tcw
zQ7NGc`X*?GBh-~g$vH+&KRG$r@iFQhQv2|g<a~l&a}Xo!_c)#$BQ@tTk`ZD&xn?$5
znwM=Wrj>ImcA;etXh}=+y)n?0mS*shu;zRZmTb<|{Gv4re$k4e%EjI#)8cNSu#w~j
zgb|CY7LO+CdJ<JVLeaLB^Fq-cGJhis>8yGL^EbIY^z|`(SbdzbZ~eF6*=T45_7GSO
zSWLlrg#WZR9PN<thI<~yoy@e#_Pjd)9ET$n962c{y+dXut&ClC23;XnPC9qU4Q%QO
z<q@6*wuAvzz{`wve84+-Vr?b>Y1e3|<_vR(HXu!%R3C;lt>AZX2?@?AlwejQG%B%}
zq7!0G*)O5g%&AOZf#K!W|2do-GZ=XXyJ7|ddPAPRH!L_VMOWpmw^t-+g8ISq6~iwX
zu%pAOCvN^|!KFf!&*O~3{irD;&2dtknWv4%{4?Zyikx2{hl$b%njyp_>l?8^GEB~7
zjQJ-hB_oztawc3OeIU*aV#|R}!MJlmVk<REXwjWjC@YE?@6fu8#e+Sv_0Fg9#cYmO
zXOz1(R<)ky-vrA038dVR=+wV*La5qFRy{?PWY|**@d~z@0V7m9VJZ(^ux#5x?9TPu
z*HfiE0{uU@G5{y;1{0Vn-!7DIkLN*L-o5?n;k)5`2a{dULtu|}n_zEW_4*TbKf@-X
z15H!ZnwhO6{#}BtES&_kn1NCi+PV4atZgmSvzfr!jokDo%r$fwD*p%hwH%wt-)Y>N
zp41x@fGYLQNJ-+AoF}N3{&S=w8EnpjFPoKCzzRg3JirLB`1o6-l_(LSNdU(ODS(9z
zlaBxikoX+=2{c7Z2=iMyF^G4d6Zk3$^)f{`8Q@85oM>Y^F>t?>6+3}&=Z>O*Ay$PC
zlEc11t6`4DMJ#5ED#mu4?pun=rxeWX_z2|HrJHRp!7S0?SOQ^;-2B?<S57C|4t#s|
z_n!Oab8q*2>odtJNYl%41TGF@O%}Juo$q=JAJ+7yYK{suM<LijFy!#HbTo7A_EZh*
zdiUKsk*qoPu)Hf(zEddQxpFmGe&}K4)>P##p>o$f+glaM%ArS|tOZfDqdBxaCMtTc
zbs+<A<-tG&GdQ>X=#>|^7Yr|0U$EVwBfoW(J$gcqpdC2QNI33A5KMZ+l0tgjFoR4o
zU*Y&|5J9lBQeVtCLhY6<M)EiI=<Rq@z)3ot<Cblb<o`L3@}(DTQ{_+`(YFeN+(ko7
zwF$wO8B3r{CK9zEH8u&o2svs@1?6#L+#0vV4Ok>e+UkZC43yx~Ll+^zFw&;*pchF9
z=#T-MKv=X>$HO@7+6Fe63Rx$d{j26X92x;%?i0+|p`__9ac-i_4`4Twh7~f>D)D>)
zxC6pSIgfVo+zsQ@QKWI@B*1G%8q+Pi9!}9UuQBPG*O>H-Yi`k2OTv|SZWwRDqLe5H
zm?W7$SCG*zbF7FZfupob9(c=SsS>08LTaYs8w>^x-6h<@Gr53UWG0tvF7P!J3`-u4
zZSWGA&{&q}NJ1oL4Wo%}q_vVss6I!zK2Hu~vPsJXG&O}0l<X=VQq&j7IZVz4ieMP$
zGWlp>)lL|>iHGsvVi^(Lq%M?iP{XoAm(N`Z&pq+6u#ZIjjLfnN*P_~4!J8FJ2k%6`
zj>=#~O&3?Einj>GTYz*PRCGS*K9VRu3e;1Q7e9_I+`fv%<_GmV9(Z@AYnxKFJB8Yv
zE7y{>hi_w(Uqh;Tn^3)NWp}cA|AI4J+wj`;SFWdO4+ymf(*CxTf2-i%nyzb4)ol~%
zwqeg8WE}p3ka7467Ti!#Rdy_&6e@PaPvNN8gtz%&Y28x$o6!fQy$N4$qO^Clur^iL
zB@}io&)@rGvTz{b9+0SfHmbzH-o=H3ICl<b?Z>WT3n;sMiVo^j`;n3Ktxk>B5$%k<
z0aqjK?PFBWNfd?b)9iMk6}(7e+X$b+R<Y4z%SRaFD7s{1O6(C&8bxiO8B6u)PZQmv
zoZer^R*38|n(O^J2KE#U8`(Sl9b>F=shm@Z?Sn$;sknQ!q#;$(A(V6^OS<B&w5w*R
zU2t`#{q2d4LxTS>ohegTjibJQyZCpjzESm{@L<AyFj06g?eCEeok{xl3hwH(r*iQ*
z!P5o~roMT}`exzsC-2n=ohOs61A-qX#8j{P>rvF2xzI6acr*HAj(*pe`>2ES)TGP(
zxb`Mpwf&LJj4j?KE3s;@x@LoTH(!@aW8y2us-2`>&7;8}vXQO!JRwTHj>1Tkz!L)G
zo5*>NBAn#7;Lw0@hb8G&fC9;>rM~+EL}1s~_ss)q<`PTYs;_X(f?u?-pnS1#aeT2-
z$ZuM+QIK6?+pLTGgu*Rr4hnKIwr#0o@e~ZU)?5^Xokb--@{n(<7d&5K?V1I@D6g(%
z*|hxRvP<x9U$apVbcgv1g^7~(M1H&A=va49V0||-6+kh8-`q?TWar8{*Bs;nV_2}z
zAvkJ(?82)w52#sVXp#C*$I-LS!^!0iNp*-zUswWMg==A)pXqsfz=};dxY0mT8#0BV
z9STDSDGWpSm8D_C2jciUaCR<i%y1)*2a6(88Zu7L3ykYlugFxkWhkn`9g5jru8L6I
zhM~8~B5UEKg%4xMt&_&*qvXqaG>T$jF6*Y4m4S$|7`XT)aG}7tCZ)2EN!*U2F3dK=
zzDWQ@s}M7~Pk9>!Z)4Kiobv7vygL&19c+xUT0k@xYXNEBh}YCNrr|*sky3HW04rVm
zX=XKa1<NmDQC9{L=4^)Fl$DQ!79h!Ets<U}C;6`|+EX@)Fr}lkF_P-x_sfhKC7tWq
zq}7Blb<~j0Q}eq}3N0b6ovGIS_gnYl0C@B5>9^{Ebi7Bu)O34`P|%Ysz-d!QSDu5D
zupgBm_j%;YR;v<E&iaPd){h)rN}2O0eWJ%y-GEs;`^Wa6K|yEKGepu11_8?E;W^L#
zdCBBvW;8f|aISFwJWjp|@mIk7Zre)F{6UE3EYDsIO>L8YdPN7l_2QmI+zfMZCN?r1
zCGnky`VbtXe88TUUYWs_9N?tGQ^Rcca;8L9^s+=+r0A6@#O$<i>BCI6h?bR`kz%g-
zLxwaXU7UupAN`4uRE}p!(h+3`g^Gj8io>ajQ$oe5xOcU<F^&J_xXrBNJ%^>z2^k%B
z>(@$K5S9)l+0kOs2&;0)EEZWE<-f+)Fv>=K(l<kZ4e_;Z8k}0Hkc4yt#D@ucA?DRJ
zCsiOuzA}cL5keQi%v<!NICS<N6tuPsb2ab;N*!2i#u31D*^CkgXad8_h!(<O(%H5&
zbHJN2{+0=0m}-VB&O{RwONtOi?MBGL75!9H^0NVqGG)5xQzNm1fzFbYLSl5~qkKP~
zSVU>$Gjp*$Tizf+ECSIg?2(93ru8H>fSi~au4QXIcYg?AeQ3^KCQ!S9Z!)&Hq&7<v
zkSh{i&DM!l)}|`A3zgfGl{@cM2$jGlW$7wh7qAn;pnH2#`_2paUwNK_YrB6NXOq9x
zlkDxsLDEo{zUwVW6mD70PkP%E_I3$G$#^6SKNCIS!r%H59O8fV@w49AlEI>Fq6AQ(
zjniYxGGeI)Igb(>G`tGECvn+;DQvqlWo)}6Tm4omPD6=Z!zp=m`!EPj>10!8VZ^_H
z1QI4<Ai~b~d<kLvPB@uHG)yQsx8*~II8zw*Wg5}5s4$R+w>chr`P!{(DQ~j?dLFbP
z5q+zLrK!Rup|B}gxFuaukt%5sN?LF<0khTU5Xw4|WiX*4>d?t~i{Eo)(TSU=K$*oL
zTkDvblaY<AF^nr?1mu^fZH$U!W`1mv>5_<_p@ihzpr(Y;6h<N*TD5rIgC*Wh)vRvk
zBdgJJ%&=y+TedG1F2!E2ScjH!`&v<+rGtt4@e3+0OWaREApJb+4)XbJ7AGlG@srrz
z|6}@<V39sQmO1JQ>%KmN&|FeZPqE3!Imjq}cI76^X@A}mfHDAQ<l>lbs5#Y5mK#-j
zb2}B#@NbON_SI?xolHGQYAIU!^$%-#95IY4`WR}>44Mcg$wU)rtGA-^Bm-Htl1mtu
z;ofTWGo}qgyNpUAJ&<Cdq$xmU+{y&mW)uVLD3eN*ey&yNfQ{|X(R+S_K&lfZFh)CD
z@%gT|=+;#zK9?qv-mNQp?#&6k0|GmggTcfw&yYW<@v@YkBp*Ym-1<CXax@k=>q*<V
ztJz1e6_VPK^XRQ}{7b-kdTAAi%qT;_OITqodeS;Q(GheY`sJ(AIqd_ac~MqTGLF(c
zkqR`On#L|GYxA`-6rUzoXUbZfVUBvJ(mW*<;0QVzy3hqCQ|iXW37k_iWdt?ugp|`P
zZ6aZ-IzUNXp(TYYk>O0Pjm7<Q<R^Mo(yB|#DgP>ljXw_uatQ{4O!vsNF$|#*p634@
zW&Hv<42==IW+{Co0L4N1OjVOz2ho+G7?xHDDoM<j&tTLRXjT`6s8p50N`CeYiCZ9Z
zLq;J;jyxBr;&UAzYc4<xO|p{Tq3LiRg<(2iYgTF1?TbQ5H`F*w*Y5>zc3|mNoE=!|
zjJtqF-M*Li+}e|JHQdKG-Qw~)Pv3qzRoo#IcaYV<@pMgNs%D!|vn^F~K&Ux@W0L%h
zZ#Z6er2MA@|0yzzEQbuM4x6{CQC3C6Yt^q*FI`<RB+IwO2fx4P=;GvSQ?E=dKlPwy
z$J<5mGpl4tnJVuVa3NX+Q#03YP1m-jYdY6lTm@=nttePC*(>vIox;&8ICKj#tImb?
zgtv345>CS2DdF)+v<;(j1V2BA0$O)@`gMW_a^9rQyGoshb8D=erO!aB=s`n{E_%>#
zZ|p}<Mne`OYon_yU2J*6Z|?F$LHgQgiXm<Ek6rM+$H9?WNHrNlCDaELGkcf@Rd1#G
ze^VvR)-ESjy^o=mW@$Z0o2i<vRKQn96*;#{iS+Ble%MN<qdWZ&)$>F2Uk)PAQ9UcV
zv!7A%43woRp7oKgs%()55kGu0l+?<gYQZ24ZrDCorrl1Wcc{8{kQfxzhW*IR6xEQ#
z7ZDT>AOI3ohV?#80h$h)p+1&~iDW-Q5zUWMZYEr3c|KI*tO_=C22n@bEYdV10UF^b
zP1}si=1wd=y^PCHjgpobvbjyP%&S0M1GffJ?#BD>#&kn>s^Or}a4?a7aG@sQJN53i
zUBBD$jgEVtNp2ekc1qNA3GVK+rgr9uCt<3}EY?|F_DSlO11%Znb*M`r?bOm+#uXW1
z#>n!Y(bpA02c<G2dP}*sq^e&vXDZng^%~S>>Vm8(&?Z&gj#iaSjd4cG5-o+|%g|M;
zi@4sk&nQv7;u#A%#+DusA=pVu63=rSJ04VhBUZhN20&%ivBp<Y01G8(YxPJFOmYbc
zf*J6ts%n0mBA6aQRaEmADeMwC6L1u@f;!a7!IP5eS^5?c3d-(kIh?^cL4v#(%L_5p
zWUfa+R=QwLBBxx{_WwnY{#z)GAl=E8Ro}iUlx|;nI&t{PWa(3|mT-A9mSBJD8=lua
ziLSms*zs@o{r<kUpZ(Vdlm5p^mrxGl;I3qOHx4hXtbN#WAk}hOXgQ5l9l@9`tp(6w
zH|$Q;9}?;hy=6<*pL__7cI`f)78>oh0?FFPa27BfE{T=ZSG5=xyln~G3ufV}YT`qy
z-by7zT7Q@(hLkW_L@_}%jqN(&gkLqhV0*!yxhwP*b`<Lq#y^uGkEZ0tPQnjk<LNfy
zc?(l=!$-Q!7wy_yx@C_MLB$?DEUL^VS=VXTBYPFn`$aobTjK^|?FtI0t!;5wu`-qQ
zX5_Zc?BfeAg1r5*A*Sk9nUdS8DY<VONJk6O*FnOEY^9h4w4@2m5~`5MkLkN#gokbz
zzhxpKDfhWyxMh~Lz!1+u3oOr6tRNYe&*$`vNneaRZ^SorRyK_xLJJ^1F|f^=Ak<0h
zCg}s2_@D-Dkj^TyNSa+*pfmKjgb5Vm5k-SrLlcZq%=&uVr#^CaX6pyDb-0@sTm~E;
zJ%{>X4yP-(NX8)Xp>#$2$J4E*G2<@Zn@=5jN;vcsDDa|gP~b&*YaDI`mnIzJXozp-
zW8|<k+$~{1rgqcT@M{z=P+ze%{3Q9VQyA-2h9nyi2EK=JE!p5By5tTZ^({X~+1@0F
zE%FTaGUP{uiH!UXAC}P{Rbx)Q3ujaGm)*fe>NsLWewx9G^gtP&ZrFo!%Au+*r418|
z8Nrc;IZORNu&Pzjq}m;MzkTjMbNB%+%w&MpjJC?Wbbb{KUMut7^<h^Bn3Tq}{~&a$
z`2}khgvL*S-uG1|<O?|XdFnkEoJ@7-Z&DyR?-1_)6Et6DCXRra$d@&u_ywPkr4gl|
z9E~Ui<!D4HNYaRsues3D&NQO<MR{2oQ3}e@i2leyfo*M;N~RITZ*C?Ek~E^^%g~78
z^*s)b1hCXRY)vA#6x}i_%uMvh&|LNL$iDS1^uz|X#SnnyEW~Wsbq?JqENEr@sFn1i
z3hsr?tSxAN)c|W)2Rncem#2+e8Jj_e71Fh5E?j%&hMp9M4+cESyHpk(KS;S?FY80B
zm&KYxzR7yEj;aSG<ReW%up7q(8Uls5j;u)UAVAbqHyrtkkiR5Y94bYcGN}d#EkS6x
z99p4<mLjwg*LRi4muZ<p)%xWI%VpbOGY;r82WsS!YEg0}-u=O<P4ZDsnQ<|fIZ(&y
z>{pwrdUX527_32_digsID5Dndjo8nz6>F70Sof-N({I*?8iLZEj)qNYCB-&kTsG@R
z$zHnYd2gVJj%*C}Z2Gn4O}?=u)GXJcWs?+AEu@iZ9(M;@vG-(4ux*pno77bL2KuKR
z{nHZc2(@Ait@>q1W61W%m_uzLE3@J@2Ro6o9X-(jN}>z?P9`4i!rHk_JAP3;Rq;GO
zOSokT<HuOt;VkZjR&)AW|1=yZ{x%Wueho#?!yB&CE=u`L3X@!o?nj!8%iA;eEz;eT
zU!_vWMo1F=()u;mdWQBWGqWzgdZeRbKSZ~$scLSVx8%eXRD3K-$}j#Pa<`hGTM0+C
zR%Yv73u*mlc1M?{!?+1^1ZN#<h6HLaG4XItvOTmCZADe-Xu86bt446uEM9%!+LA7;
zO6LZ=n+Jo@W63=AOgg@UDrXR30gr3yu0how4$}@Iy2_3J-w>x#W5m&r5SNX^Z^6ys
zB4wF_g5BuCwvWp}Vw<q;rEH)U^~<1TJm;a^usB&#<xklqWJEo(2Lfg?2FiJ)D;|(b
zrS>)v>SkCXqg^IF-t(Fv3K9izI^3onXGuJyZrX~RO5&9i$Ec;U=5VoUB@GFi*|ly)
zcCDL9@2WK%yNdRak*YF3P?k?EK{pRlr~-A=Q)f*<3Y9BI3Zl$%p2_B%0K7_9+#|2b
zKcL53bkeci#Yk7I#35a$;@5sL=Aira*0NZ)k_smhYCODEk%gh`G9^W<SMfn*pxc(L
z(rgMJ@uppo2%t1|+)$rgN_pC^W_ypcRZ4geO5zc9G}#+jm$HYwk(nubQ0jKYul-IQ
z*8GYOCHfUV&R2y|@maj`M6EHggkohibb8y9{l};IqocFY(eTh|5*9=!rl(+j0&@}|
zEcdgsqf;@(?8G(^Ma<MR!wO<vcy#LGEH0r?QuDt9WWn}4WFU{$I*HQ%Q+!)=OO_~d
z^uI)M{$Eg@{K#xLHo*|7f_T15=?frmz=5`?3_lW^Vc!w+XR(KyQ~|i&gU4a{p|Dse
z-Sjb%Raqa@hhrgmLoU0=T~mo9s3RCpkt82+Z=!Q1I)V*z)O`8ue%ZFhGs=%$g4yp_
zY!>D_qKB{}1&vJ6X+Phh`WL|57W(qc&f|Ab$={?V(xCC*rgTmzT_ilygZqxjEyA_#
z)MV}SB-ne4B@(-~Asi?5MQ34<p_uPPFN?M8QV6!SL9+Rcgn|>Jv5<1ZgJK6lW5dQx
z(&tdO^S?*V7pQiuLl}ER_+4g?6pbYfopxrJwh}2f7apPIhY$-m$cJ{1dT(KVRVu$#
z$Zt*M_X_#FaVu_eN|kmCrQHw=Rc%RCZ5OJxr>c$%RX9$nT)E{?yC5)C*Duudzg;5K
zossSgw7XMwzhL(-l`L01u<u+gu9Va{_lwW0SW{b%30se)ww@8Tp24Mv6xS*gx2B4>
z3&q>%mc&N7fAHbYa%CazKJ@Pr{J4|wfxVhtv)C?Fv{Nz6aJgHk?oL%75ULN{8x^V#
zQ>qGFQ<W-h6-rwZo&7>-KhmP9{!~@3P}Q4u7hv}gw&~v)x;^x;uy)D1oR=)zwT7KX
zbWvF~yDG690^`~}blOBom1O6@QYKn<Ckyw0RjXyGD#0W{p>^i=nWf{j-QWC@W3{n`
zYEXx*;`H0FT89f4anmA1$ticO;I2)%4+-u=V9*_&ckCS!qeGL7&A=>DOSQ53=ZMZe
z9aPhrD+rM9*I%HsHyx2ZqJk)~q#N~wE74jQ?^o%^>1{I5gvSOPA}#%c$-Y>~(7?pp
zXpAtKjB98j;>ZXlTcCx9|3d`8!Y&jWjm3De1h{859Ac-vPE9j}2V4;2zmBBJ1|YSw
zq`W@D1DO~{5$Gr<l6(hW&?De<kkt&$pikmkOpNL-SqOh+;DHNwe&eoBy6P-`>S1m3
z(sS5C|MqrBJ8}O`y2zg@+I7EZSK8-K_&Qd7RViPu;OkBK_6oke_YS_}8-)BbzZ2tK
zyc?njcega+gs#-VCVGxcmKZ%p8xcTPo1#x)K;h4QNJS5733>Qxq@cVxj~=ZzZy_TJ
z&>wJbSf{8A*`KjXL$@?K$z-!j@3af@&T*PlRKHdV#RIMb`=zPc?1VO$Y_O%Lf|S{p
zCW67x)JS;rIu?KtMUO3^%im{^Bf8~7`B)mJT^I8=WaWug;VB1CG@x=nq6RtC{nF}L
zBrg`qt`Vu+6yi5rn8?44(78rM{+EG(H>^502#^S)-{f$2ny-}ItGZKY*qLzq)82-q
z(fi&lt3?&k(IBa!y+YC6#DTLy(b>fLCxoIW-ZOFebShWVo_jq)<Nk!N?%l#h9A}#H
z;WmiIbaiXGeSf;N8V8!C>URtEyCHTbNgwWCd*tJa+LoJBZ3l(6gUP}}3HKoea9M^r
zM6)wk`w|+&csK;)K6;SFPQ*deav$Ba8M__z(2NFmdOAwTid7n$?Z(f`{U(M2IxPjN
zHd59Z<*O97R>sd?e#Rb5nzQWD+Zm;BUmsDAj6IzSJ&YLwJ!=<AW|ShNtVA)1E_rq^
z8j7J!;}lL-I2U?$HZ&ER7!8Y#A(}YD(|klDszmD$?mHUgMe~XNp(hjrDVhmnE&^j_
zY06QdqL)x<MnLxAD*Sf|{Hrzte<Gt63G81(*<^pL-jBRjsMs6#sz@|dv0JFv9rwQL
z&42mEts4*Bc`py$8d|J<vv>K~mF=nClLG#CpG>w7ynR+^9~R1olkPK=3Yyroul6gL
zJ<E-$wnGB`Hy=vYAAYM(sP7ki{cn91Ix0*7oHpQn`NXXgUmTEgEle+cHtF8Ap1q|~
zMZc)8b{XYYl_`PW+(#MGXVA<WI7%J&fzlo3G?j85VurN)1i=6sGnu}O7%O5jz*qqR
zy1YzJC4%)ER#LD?mM7tds;;OE-MVFbfAgAwI@r9<Qrspr=kz9Y&~h2fC2w*-7=e?@
z|3O-Zi2?x;TS^#9#iq<Y425XC(gP~vP4b$rOoXno`5@Y0EghMSg+wP&^b;3nr)Q)5
zA7G%B1>#l8;Ev)5-q6VS=vZu;=g%OBKS0iYiZqOESQbQ&bW(Qo((L$nI5bzgafW0i
z_)VH5#P48|6qnq2^7fOz@`+nc>`m>7k1ph|x;-x+zjb_}XJPc!!o{;oRYG-Vvb^iJ
zO)Gu(+`{%_$*uiK_wl%a(qTd@j4tLc_ANe}bl0Wa9fG?f>F$af(o!M#dFb{o7#4;E
zpC2i7UY=PR5{kD9zMiCe+q%QzK|MgzLSb>})}h7VeOG<j?Su5*mmjx-gvl?s<GAfu
ztV6vFOFc<nQ_6?DTa&(R@xHXz7q?5q&2BU<Yr#>Kx};dbf}?v<9Xkg~o^`adBgh50
ze}pRxn9Ka*CbqfMn5k0KBX%T3EsmLmutixQVDv(lAL#EFG3u6LrmxXVhR{NuZ>X29
z)i;PFU8sLky|#JNy(%B_?I0a%BYzoHQJ<iNYNpch^lf#qR1-nns<fTHjk#hYMJbJq
zw6?rJKAJo~{D1Hu>My04z<6cGl)sNix_48$it~qv<{6*<N0d-L5ShxOL*Qd0p~!_$
zFv_M0n=m<axah?WF&>jjIdW~TZsSDBN%FfiRem2|ps7-xDsC2vn^%Ss#m&j$K4LCw
zzYH*ZecP9xU9yA6#LjzP;lg05s8J|tTmm(<Ww}=<>Pq^$6ZUS*uRdguHpnhJQ!TrN
zmfiRAg_eEy&c0=MYg@ATIF*Qx&<@&V=UYXoz9)sgClke6lEqK4k10`^c^`kPBGq?R
z=sTNu{JhZjM6&ovRtniTF3u&3+wi8{`p9ob$Ei|WG>e^62=vdbzl)g7rRmz`Di}(A
zX*#Bf!U{4OF3QV&uyAN;FcoeBwAr;V=FfSwDMgk$u&<H%3PRNqxWV=(LxvkurMr5x
zosygHfV7v|m-8qKsUFy>ao(Ivcva$Z>Y~zj%6BDu3nq7VD5by_VJ9XEF`YS&uI#rg
zClOwOLg-{i$a#ZST<U9&RVrzMbl#(B-VQ0GJYB&LX|hCzG7&#-Xmt+f9FTF>$nQZp
zl4S7D;6nf{HPWI()9bETN^y`v55p0Cn3L1tE1?nGWf{b##^_J|=PyC+5eBK}k6xOd
z4F~-fLjKt)J~TRZY4k!k)Ya-0O*7Lo{AnsATeUCR=<E$#yeV2|rzSv6N_RXk6!6D@
zBS}(4G^iw`B9W??*B8YWI%4gm^Bv{0W(dM_8puun5uKrHGZ5Wj%iX06|5bh+8MKY`
zB=M5=F4dA)5faAHso=;J><fpaQ4u1tlUy__sSG~s!?S#cu!$Mp!<HqSo!s!+;46cP
zEqm`BOIGzk@|CWt&kZT9zB6}wZmDafF<H6`yRltW30LECRigC(t{Yl)mEzu^hlSng
zVwg48J+hdH2Qy)Vv=et=C$ML}yeFRb&{e!J^_9>Y;n%|tT)pY)cIj09Wc7|z^?spx
zf3o^us`{u<eKc9!A0K`fcgA+T+3<i}0fdWy(v91gG>Lt=1u~^KF28;`)l7tMs(Dao
z9!$6g<AaM8>89?LNnF?qiNw2w?NlM$6<pPsuIqW^uu!!upo{Z3Z*`*jP%`gu!hTrd
z3eg$rLo=G@>i<l*2sTP@su}}^i<nL`Xa4{H8yDGfaFJccMGjqD<jlZDuHg)W$YBgU
z{|q^6G>41Gd5@e=P}uwAdjzM|%m0Y{BqhtiBm94+h#xbDVi^MY6MAKW7Y%_tMX^6Y
zgd!AYSfi3sGW#G_3s!*-DD0=?{7iU465Ibwcp@Xq|Cxm+8d~3Id%Z2udHij2vi@|!
zUi)$IM18{5wmhHcKKefjPc(0rq|GjTx$EQOiMDk8o{xbiM3;1g3hU9XEYe;TQvVx_
z5>YVHQ9wZ>v3pUw`fg(Ep9SxXtY(*00St1Vo5n#7=N0R216C*z1%ind3QG9EltG)Q
zXI}+v?3+FMM1PR3ivoj?`{*&RdN$JvtuapQtWj5|ZDZ`pCQQda)c4T~Cfu@NlCR=|
zOp1>Bo;MToj+-?cX58?G5Zx_Tu&BnU(WBm?VZtpM&{Hy!L_-NoZK={9694d@kQEb{
zu?v4oQ*;I8@I=T;^PNOgyhsk?BP`JwobICB|MvG3&dNVbxgNq13nd^^B(Wrtif*_M
zu2|U(t7!S8S*~t!&7=mTZL?Vko#>V5-{Wg++p?!@(F&E!(!u-g9voe>xDyxfElu6`
zZeJ~|S-c_?HYeQ8?0{dt0JDB?N5b9#ca@Y&?Luk$@~On`Q$oj3vh*|^)l#?ADU@uD
zyC8tVRaMU=U6qT^-go(#il9j-YFfIm-1znOyX~pAKB28I)plBFJDn^VP833s@EF;{
zHA*_G<vO9X1G>4=hE!>bP};IwuzddOpS=6YROd0F^H{3$F`@IZWa-(s`v-gJLZDjb
z_xJWM?~9*W1oPi~ubos&RWSRkrGrSIkMPzB-nvBnjwHK261RRJhIQ+A4!MuknDzOQ
z1$5CJvZ%)#!^!3tdV;E;0hZ8o6qoUefiK={TXoQa-70KzGnjZI(Xz;Cx&rgXmzr?r
z3-ZF(#&XMC29l^xR&F!pe(A6oGmHs)U=7HikU`G35C^uEtsA8TPXiQS<o}NR{}qlR
z?WE-eTkWOug(jdob}*nBxg5HlE#efL^r+4Zr8vtM)wUC5Lfb}ibwkE21bs88CGoSR
zap$@nlwy2f6{mPt9}#><(nVEEgJ4-#x13svrM8?B=>HRMkHcAT;@DBh{=H?1s@?a!
zyYGGC?ZEv5Po?!!-uE@Gc~LeQl2(AWWz?S1?1^AB3x#93lhgsypaU%;Aot;W5w0^_
zGQuX5trJTKSnmuul4B|e6h;!Nl=3>{JlXFg3MWjXD2tfp=8q}hZ^-!`91Qt8s4j0q
z1v0n4izT?Fhgkz;>+0uPHVPi}Q|_YiI*GC|Uf4ph|Hb`S&r^jRLSaXuaCgGJ8*aL}
zo21r50{%A-rJ9})nx07e3Kse>HJkI|$KG+1CI{MJ@@=HLQGcoP$!LX%#_*f_C<opc
znEAqnODPJ-WG&kYL{Ck%G1XyeUmm`O_R%@!bOC9?u2V~-lX!!_hG+8w6@obAMw<D+
z8^$P(;X8+WHE8t#4tWAN1oXT_8SssS8`%0thkB?0ptW3Eo5(&ZV|`bzlAMFk3uWV^
zTmm!Tlx-+e5)r~iOSep$vfkk~hRib6TkoVYUwR4{#{`T6O(h`}=|nifG1x3&1(@+h
za_kh4$@rQPDi&u<dnOZO9J*v~NXwq+lh!#cPC3<wVHeRSk)m3(9((L#(IeWY=IS>B
zb#9uYG~B;|_7M6xL<ce-66pWHTM(=b#GT*wmZuAgaj$@#+jk&guLgQ5Z-}2vdrKFA
zavIV#Ez4!tsJq}wH*85Y91t1~+`F7?7)<#5X<yTu#fk1i$=1Vy?{LD`#PTG6hCG6=
zX)Pb0qpd?t340@(DaT>H=^<k$)htOYyab5=#PieBS7;j)v%uj!G#Ulu6v9yzJMe2a
zf&4OF$W9V+pxPMCI`(KnQs~r=p@95NAV<A}5SE3;&w=K;>D7)3xdj;hML?r=bOGc)
zX5|}NEaS|~I5AO<1B3y+Q8fWq*^R*3#po#qwd#9F0r@EjSYcc=gY!Ru!xd7B&|Xev
zX|Ff2#UxNs?1!*mbGky;>~aGHCF98Z6VOOL&Rv&q{kO`lE~t&`3g4Bq0!b?bh#!Fg
zi+=+~7z-PWF}35L;QvhROx)Hjg9QO5Hn=N1{u!FVPnD++#!n`FDao`G@>DXDX>g}A
z$xEm1OGg{KgJu)PyySgt$>Z04-(3l0OxlJS&OP^kb@%Q$=iYnnIlI3ICik6s(tY~z
z$T!{RaU`&+wHjLMlIN+m7eWS$>{>dT+<oM`VCX@w5o}*N@Fch|sqM>JMrcWC<*9~V
z+{Q?SqfoRdZiS)^jmW84BXV$aGaaAgZc-eoSTvcqMSTj>Kx+PHcbQ`(NV&fa;<SPk
zykO^D7mT<=(}hZ__K?HgiVI|9Th4a33D;z|AwbfuK(3Fxa58TyNN%-}_oJ?$(U!DZ
z+LDG!sU$Uc<?>xt@P$?qgb2vuY|+LgaqQAb>yWl8n<`cLa@P>It1qRWB52{kPt$15
zl(s*2%nQ96NZDKm$*BTh@4ppfE8MAildfd5u5+SLp~Rji;iRtvmS7Smp=p&ki)m2}
zS3M1>roL2dJB&<KdlN;RPQ|Ofdc%hq)0xt$SG9Trv!`+Yifgs+oY8kK*>L`;_D-s~
zEphCr*03JJk@9M&!w7ZQZcvQS(dBah34bb318YE%O6av1rq?7IzD@q8`v883sc!eq
z^FLtQ9iGD;=Asy^lH=%b`0DgH+&$$)4)&Zca_C_sY`Xp16c1mo{yUBwcaJf0Fw9wI
zbKccJw-M-G?tBv1*q}2DZjMckPt5#)z;;6Zym9c@PvD<5kE(%2<+*%@<o>^YEa(u7
z{%JU#p|X~wG-eU3-ol?b^c?NDkH<G3WFx`6$nfZx)D4AWpXpmRNj9|@^eJ_yYwBpw
zEJRFBRMU5LI+oKVwIjL8&iKf+ygnsmhX$zZQ%0a0?~i{lc^xZ2D#*j1f<vdeu&G_0
z9vL0Zj#N(QujjYZ1z@_F4TT~ST~2a2!Sy|SQ+01n?)<hM@I67cz<YY(@>h8i{!EQ1
zZCvbG{>{^p<ItoGlxIz*_2${5dTm8T;v}cyULg5OeA|i3_VNDa?Pib#_0E8o56!=~
z$7aGa6Vmk>l;pzpFoY+k!khdtEJr!MQN<P*d0;0O>R>Zc0oH>9@F{G^PwN=r>6=jN
zwaJJ>uf$`TCAJ;z869T}wh`?&WKL;V7YrD->)@AZe7iYMd2_SGA32s`v<}@m%=x<2
zK$ii(MLXaS0?xi#pi@bPu;DOA(dGFhmm;{~d9JN%izyC>S!3`?HGJi^{eU^$=ur0R
zM?5#lsIW{mWz!eCIuegx8=IM!9?kQv^99GI1l{QWBH*c$9weaNp#BXp>V4_o0+{Zz
zQa@3u!szlq^lcX45<!=HAVVw)NmtmbP`T5|rKtW(rcq$DMMn=YDM?BO?~{|2MM{W~
zQ|p{}dL1zm6`d2wbYejxXRdrt`hI43*_00;|9apu6A8L7>*Ie#Ib09K$$o8p(p9y-
zvoYzaSyziKha2uEm!eP|L%5s`SE65+J?eiU(`YiQ#4ZNn{g!e}c_DVgt<N2c!3t_1
zc<g$~z`CsX)YD3;qQ!DbWdBfFB35;kdRUQeH;I5XRMLA;MVD0|<6co(VfiGg!A)e^
zFVX!z*w(7=wgkfED_>52KA9$(t}a$ftR^s&rQ?4-^Vu0o09|?atILlrr-@n>4KS#Z
z3e{OoBI}--g&D)sm{u9HhLkP2^^3<0&#sN!9cu4-`L1Ngpiw?(sfgiWy@AAy`?L3E
z7cL|NVZ&3OhR@7itG@`{zHbQxkIT{wXcVk{S^ZM`T%%#I_OFqQz$#VL#>L~G4t+fI
z>G_Y()3Z{e<t|s7X+I1>vS%pG(CQI`xV%|VCXK{K_NJQJUicAN4~8BNJQ%Q4X1GPT
zXL;1v*`F&Hs(m>7V0LlTsBE`<ETO^kv&DMwp5P7Kuen$AGQe1m7&xq?I=i1^pldhU
z1dcY#s$>s%8@1p^JNGUhGwS**52Lgukk<o~G!d+_@Q!NPLv1=hY`=?RU0K7Tmdc16
zICj6_GCVcu0-2_jsJj=3mfl^CuBcyWkF;bITUy7BrW2Mx&g1Cg_&@v7M6DJ&k1Be#
z={$;)x$UNYTYd&3S7JJ;s!p1224d5=e;`>`Ji;t~D_K7=%y-Y+CXLc5<>)*R)~Nxh
z^RP?T089-Uq}Ojpvc>lB+u?U@7J@*=CL&W)_Sat_qqf3m1dM4a4oL_W`MsOC&fOi;
z`Oe8RI@SYdc_Rx9$hLwkDNHdl<qfY$Rx_F;2p0~Zf|pH+Y*KaU-^Of}nUYWskKG!J
z-N55SY+cz%zOJ<-UuMVuSvoRu^Vd30#m(mJYS{cFB4zR^Y^BcFy0uiRHQWA61=ItN
z%CQHVtpx1y8;dzT#8%3;q(<cOSm%C7c04u*0?z>{EN;8{sX+;8Kl;rk<Uw$rb@(ug
z*0aUxt-awgIgKlFel)ODBS8~EGeHZ0S+z~2_a|}MKCZVi-!Jpw><XHgu`x-x&3c)Z
z|N4h-%uHU5N2DwxjW)KiZb+8PX2Ia+G;SQmCdRIf=<V#kgJtY#k*m%-FA~=~ndz19
z2I^{KalMOG_7HRvQ06dIyDTLo`wGlHV$Gc7Ed<iF@)Xmi33$41YY9j;MiEn&Y)qc`
zNj4@A_C91rg5UyyWNq`rB+GnA>=S~|2>wDKx#Zu7b+g~U6Z;2&pV276NrE#3KPUK*
z;P(W70x(PUvGK_`M9SP50QB?v$pR&}lN&Xs*xqRXvv9zkf`j@c6hU<n{|+R>aw>|F
zDHDqKnP_|_dJWP0Obq^841O=FzZKe=C|?r|fX~EHLmd5{cyvviSQAHHIh=~)WuZ`x
zD{G=_P4v8SxD>~80r1MJDh@1ZfoX0O5(Gs;IkYA^*F--$SQCd|xi$+4<-B5ubL(1g
z&Xe+%&K0DJYUh0G#m#eA*fh;)8MmekEX-yEf=r!9xu7f#WCTMvbZqEP4qP(oFC|5A
z{%23br5{z;Dhw$li_Ww_VD*(L6{*rn%ZU)iJr~r4*kW{H;-i2O+y#E4RDc_30n0<o
zEBwXaFu=&8!C`<E3AZm1op&bs?hdB|Oo{lFJ?oX#mWmJ@AhZLX1A$>9sTQ7-fx&ZN
z2u=fmY5A4?ObPpxffRaiB3wtPB19u@Z=!kLIe%fk@LrdpR;LS?TvMZTNvrP&QKq!q
zDj){a2BFt~hKI>sKC+LP#{T`pat}X$A#uo1tI`1`9#&cu+|@0<fAHQx%LyE9Z*8%F
z$@FJ!d5GD+h!}nm9`%05y$(aINc)*|Q3)!cjrM?}Jya|pRw#-}EDtd+F&{De@rd#9
zetY@u<#d3tNF|#ovL6e0wi#k}GsNs>h}q2$+iV80OwUE9a!Oe^nh_GoOu654U@9g<
zof#pq%#7=R0<kNa5eT0{U(@YRTufF)pQ=4`j*Pn+nau}R-ZGkhk`ahx`hTGyspZhh
z6{F=yMlhC{b?io3ZEr>(%=`*N8cDetl8pxpSAPbB8p-@rc~4Pxq+E^3rhdb9Fymy@
z!mTF9uB1}7s<awPYs$4V<=L4k>A=#!;mCMzsfu^O@dwXGo@C=b*aRL(3nry~$bBwz
Ib$<Q-0kQ_)UjP6A

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/jais.cpython-312.pyc b/model_executor/models/__pycache__/jais.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7e4091964004c63850715bc1043c67dc73a31208
GIT binary patch
literal 16818
zcmd6OTW}j!c3?Mv#v246kOWD9Bq;F(QhbTBWj(Bi^{{MHv^A1t8<7J;=%xq?52_oK
zL<XGEB-%CT(X7a9rbyK|D=NDiQIWF4sZCYnR4P_Jl6WioffhLnOs`x~YMc+Jc5CS&
zUCz#a?4EP`0T6=Z`PkQ$cyaE%=f3YfuY3A$9S$o6A#V6VY<w3*{Q?teFe<>hRYy_t
z6ibCDmS%NvIz+>-KCVmXLwXwX3~@t(2{8oL#f>2&<S}t$!W1%*JY(FPu!JlGHpQ(8
zTgXOWbKIVAgdB;gP!&mA;?9IC<Vv_h?!=bR7LsR;dlJ>5>O@VbCQ%!zC3&{EH&GX=
zBd|SQpJ)g*5ZDp-CHx_OqA}D+(pB-MM02Q_z|MFe(GqGQuq(bbu`RR>U^lxZ-kN9&
zwGr48Z%=fDIuf0s&O|U2Omv01Xi7)DO0m_~D7J<(jh#^!r}%qMFT<hjZ0$8F)I;#S
zfM545_`L+P9xxle1+$M}`T*1aEtvhBjo>x{ZqxH|?<rFV4UihmP$N*e2G@4apv-Z{
zq%PPpwg0u`2*-2DDA$up#wP=>M`A)Ckz%=cAeu^yN7Au#aV~H<mL3fppE!R$mOOtf
z5`_#dc78N1^nQtr4F_q-{92mhBY+FAF($-gQG|5KB*d0O=`@#2$5NQ65hljRQ+zs{
zPVv#vFm@7yS~|&gI1(M@4yTeMvGbDkOgx^D;h<i!pXbuy@$v9^J~c5eHDL-G6jFSc
zj5ItR;Un=l7Z3B1<OQkq+2xm0e4Gsnu_+E(tv;NJPb89WDV2v}NiM=m?vrnvDbM;&
z>hk6+n1^#Hbv~9B-r`eHPJp36)|QhK5t!x_ELtk53|=QyX;n`g=OV0BdnOf)oKrK8
zCeCpz3(Ja2!*U~$iFi6JuWmS=im)6u?0GE-tDE51SR~DzCNmcx+xq&U*G|d(d`ZJT
zVAd&lb%nRy3K}GDOu%JJ!~_9)Aj_2Cpe3mz5xKyHxx{#SG8`*uTUk~iJQ9h*{!B_X
zf*6lXa=akf6OqYtTzH)4Mq*c@@-dQQjlP_P^gP8;Kv$@cj-@&Mn7I^DhFRS+^7WPT
zM~tlDnjyqYGC`x{I(0er>d@PVqUqQrveJ_7$^iWBkc>Q+p5T*F<rb5^@U&xk{TM{^
zREAEIY>dW$7M6!GraXtDGP--Xx)7$I^b~cM9uDexM3k%}6G<3HDjA7O1|b%ofMaD4
zxcCU)48?o^A_0331OmT0)|XC<_l?KKd(sgej%d%7iCw#2y0DAui^tCOjZdaWQ^~$d
zaP0f!L(N^`q7$$Qa#H9UgPYkqJ}H?-QvBrz&ra2qFGR0WauB=qLv)oYINiVZ%KVAB
z6Zz_PvATVcU#adAon1L|*E*EL%{5Bqa5x!BaN)3I4dZ>9h$Czdhc8Y<;z|iaE~{je
z&mP|iRqs-K5PtX$jGENw0006OU!&G^G}FD%c5D01?Q0Z(OGke)ba#k=58nRt>?db8
zFjsB_>qnJE29TogK#^_x6#&4n=xfw8oz^faZC!>^x2e)5sw9#(>);R+aZgdKuB2V{
zAmbR6P*Pgqz!Y0jd!K>>KdmFZXa^^4QCnkm866%Y6`R$wFoJ)kuLlH{%D`cp0yf@2
zO+oq;6*LS#wJaVeS^pOh;j*y5_M)()VH<_RljCVRLr?3{+KDet<p^~{AJv_wqPq8C
zFw=TiFkMEEHF4;3y6biWluheTK}-|qG8NPhe~Ih!C2kvDgG3}fDjDLb^E)I4=<<0E
z2ojx?7y*ud8nfWuNOVlV8w&R$Ku(fWgTz~ir^Y!TU8&0)A5M*gcTDw%F+Tz~C8m`2
z?u!E*jSKsGE7mv)tqQ{s!5wh97wC`Ew<d2+F1df4S&E3weYwVdv93Q?J0QAtWSN4i
zCd)kT>RYDocdj@G?{+SpoMjf6g^M@ME3Uv&r|2BanFs&-Bj=!itF`Prq%-h40OE1R
zL5AOn@Cy)0Rv@`ZQO^UFWk%wu6mXQM#t!5IBs7ZOi#4`H<0*j?fWc|gRcVHNx%ML}
zMn~XJ_#Q-8sbA{!%+3ufWww7f`TfaR_wQu#rY6zUv}y|c+}XN#a>dz^Gj}{`Z2C8?
zce-wO-9P=4_wK&8eDU7dm92Zk#yvT6!{6Ima$9$<*k5>D)x1dOT3-|cFRoPWdO$xg
zJQ#Rj5UXC!?LYI7&K)@;9z2t)dgm)W?Rb}7)9Wo(a%ZD34lSt1dp!eLAC_<c3x)q!
zD^h$`&ly;H$^-}9z%dHMaK;gHmKvd1<26Uf#F{ws*cPo_4Pecc^G6J<1vrB>OI@Ku
zHn=c0$$?x^lQ@PYV^kI?>`|02K;R$(h8?I|GOebJ3QyDS0(6Yhv`m6vlYd0dQ$@}(
zW6MxK1YDJ<&_Ghg@En(g3>DT$24GYmF4IhrG^njj8#7GCI0e`&eF12xpnIMAZJOjk
zYtW`P$_!PpS7u7a)A~z0)q!O|>c6LqiFd=8Txv=2H$#Wj{ls}y*bQFC>XV==z*vaR
zfpuXl_F@|<1i95JT>O>k57f4)d1<77Bs^nIm0M?6CZo?7eoV2(-`CwY-BV@^Ej!fq
z(v2$g%$6(coYt<Hw5zN*w5zRTx<zeQ+c#6j1bt{LqL#~4bK0CSu@)rj&%v>zx2d%<
zjLIUWtr=^^oUt@e)7EsGR$j3uXuI+*)T;H0ztAdBb+UR^n5FF=+)NBGOXM*mOj1Gn
zFrjjiTL5y)g)d$Rv#E6W++>(NFXOBoP=F@~PEVP7qv1$8oxBSi;9M*s@JO`yqY(WH
zi^loX81Kat(~D?91{eaiE7?nlJAW8!X;p*OfHg4=Bo%~}STdFd0mU{NV_7aqgn7x6
zoJe4|vX&7Z1vy*baUmoNmXNe$#-A`7OGu{Chyd6;|0<%?BqqkgPfbp8;rNt%LYny@
z98?unG0KzV@ibt9ObZV)q0>AbL&-qqXXo27`xT5fPfBv8Q|U-NTpVDavQkr2S|n3?
zT-I@{WG*r*mFLAJS^fm}YYB&=@rWRV!vd}VvQ{NrmHEk=kULeoiAwgW%lbBy2^o;H
z{^=^UQAJs*W=x{FZq?jS@U`T9J)*BCYgjec6&eEhhMi)=&aCrs_nRx-Cv)b`g0m^t
za!7O@dU*1Y^H|P&EayB{sPD{e9}??_vWDwbg*tz}u2Zb*TzXTi+Y334$F?oAFXnu`
ztG2#E_dve;u-JV#du-L-S?K7=cN~7yarn0WGY|IISg5I=e}C@%#nbt=J!0FQT<adO
zW)HMs{i3#`V0Y#1e$nm+;KqrW69v1k;I1juw-svrv+pjvlk>D~I80tEpxZWFl()0A
zf>N^_-)7YCJp(ISc4SS38vjE2)^~4ySFGvDS_{>_g~;3+i#zY^zrA1d3}nrZy`4+V
zE8g8%d%?SH@%5!EIqyqZ`{U|H9M$m5usXOcwewwbT{t@VKN;iOInTBYr@02k_(Kcf
zuaZMO;Av3$1RlvvRH57eQWVl8!k_*K0MKlxF-<(iVmV}Jm5Q8&y3-)DWpra$t1N&d
zsk^UNIm21Nm^Mr^z=^0z!gR)f+(@;SOe57(Xh&(Y8Ple|P0+WAh_w75pnds2A%NO%
zjE+tuF9?zzE@sfczXL@QL-P3d0OsF?C}@^%(Fa(lzj)!2M298%qC{Vi=u47~T-4M=
zdVC@+fQ(A1=UqPTz(J|0n$5>uQItM}A^|(NO0AhG*cjiOZ{htFclV4jtIwV+Y^j+K
z&IK0-mbT6YSGM%bn6h+sAR8&vHq6K7VvF?Rz+z;jwlixh)HmMp-SjQ~#!CIbOjXu4
zd$Qnc03nO)<X!#nuteRp^Igyr-;L3BjF2SrI9}cjk)#)ZAmQEQdob$72*)ltlnWi@
z;_-0!F3pD_SHR6aD9`W^qGEI!3!)JH6R2NiYI}cS$BTv9y02{gjP;4DVU2;`H6!KS
zx_Csa?OZcq(oA`SOFPBdzBLObt(3d^Ys6n;X*1({;`PsG<}zyxz);ibyy2hme`A7_
zthiyX*r66w$zdI(rE*EIL=OBvDFK>rvri1YH7vO|88^`GBU56HvqTlnPR5UWfp=ql
zJ1lOQ#0NK_Oybj3lD(!GxL=ywMOr11EXe_9HK=)MP4<Di1h-G&#CqVwhI`7W0AFhh
z?ih}*EbyLZw8NCP1F{-&b?uI(@xYM)njNF{jWSee-|Ajc=^7PZm35#sZTui3m_W=H
zF2~NtCr(c>z~)Dy{Bfu<WhC$p{&h$M?L6vZ@)3UvAjtzpCdGymRt+iqCB#ALO)_9R
zKnoz=K{zd;1;o}M>7i=SBvS=EX=U5WWBc+w!AZ*mp_Ki(lp~@szJCd5!k<9&6yvM)
z=W9FRy1*?*uwSh0Up_9@?n7?!xEgqgw_tB9<u`<u+l)xduUpodC|C83-}>mcHk_2B
zrQq@vTrI%M3XMVFp$m13wK;F+*EXZ0YRv@%Xw5@e9M`QIwS-9l=kS&`Oc+@SW2$al
z@w5TMFw1xG0~r0&YyuA)In)~f5H<n7<$<q;<Aqpdp#uA;%n&xS85&4EHCEOZCiyMT
zU={TDG_@q@dKQk#PQY+MjcJFo*iG4JaTN3^ir)qpprez6HHm|`f)PsMGIKGMFqf)L
zOm_!=9<VlBC<slSa;oP?;Uu3R9v(z6H`tsv_I|Xt5NN$)y=`53c_px0v^Qpl7Y-GC
z&9`>n+`ahzif<64s;p!7BG6R%c&zCuhx^9ynd7tXFAlHT2cNiW=IiF_7J63PK&UB8
zEl_5E;MU%odl#oyd@m@~3r>H|>?hkF)D80q7yw+e&3s1E0}+&&4PJXbg;51Q!;fRZ
zMTkmyi-4IJ{Vo<DcShb~r3QBq#?s2PKk+rKG4Kmhar@Rx2$k>@Ov*e3p&{DJG%mh<
z=j`pXYZQRX+@HpO8vh1C`3z%EQTWq>y3PMTSQad}>92s<>B4X&fqoM&L9#=x-RRT2
z1mvYMUQ*F|0KBB4&EWg?%K1sKu4EXr&`leQR)tFXC~}-idg6WU5<Zh#Z01u6Hv?>S
zpQ!&0JzLe?Pot(tLdFQ3O4e0n&Q|Ohl^ha)4;hEQ#DcrDr02#3{tW^X?Q_b|n~0AG
z9pya8lmvw`$?>v1-!g<R9m6R;A#EX#9^oXwVQ4EBPbI;cnG6pQNsGv)B)x;&4oQ!#
zD`IK|Wsfi<$wIn96;$R;$j}vGwUjw+(axF1p8f_fg_{sPk3F?-zmvS3%(Wk!JvKl5
zyTcD7pLPFbDr@<ox^{kOZfMcB+@9a@hPdO6)oRqoERU;O3id6tLyOxVv_GhOSd-iJ
z>V{q?v#kvyRpYH(%hRy1dvRnb{&3{syPutYcwp6Y>f3k_UIcO(?gN02Fw;7q;BYa@
zLy>|L8jp3#LWaJt@fx7-pw1v6mrdEwW~n%*)GTWgFJ@UN!7zYH#Gtka%8Cx&Hu(<#
zA5@bp{Kz`V3_>4aE>prg%seN=Sa>wyFF=vhFv4+cSm6)hO?-t|k;%rFs3`8@t}B&(
z4$TO0h=_Vp-I6tf3Vq9R)3VsJQrDk#D0)btp#!*wH?U6WKxef9^{sDR92M(&vyLa8
zz*Cjlf_L7%{q9m?rEOo%y!A<4Ah+#hvF>GPuE<Py?3GVqRL&64{>)?a*YGDGe=Juv
zT+C^jXd4KWsv9I-!W&3hW)1{wbu*2c!U1rJ!T~9nL152O_|t-V{n!5yvPu;WRB1m3
z=LRr58#u#=ff$*YYgHkJHFCx=wBwWoFg{nz2P3l?jLc?Y%C355ZENM)tc|mP;SbIo
zYkvlYTx#MhmCLd2h?R9*V@eF&PKmIi6Zlk57(agvrX$(#1yM0;6T+vxAEE64wFz<&
zdm;W2{h|It!-vc!%l6ZHPDS2SNyquf09>Vlj`9(RVU@VhN6ZXbkTnfw#!zWfcw+sA
zvI>@Jt*oMr8m;C~uexlPAz7-u6fMty+fWI2tb*-SwUj_h+ChT)_>Nf?K=a!LH>Rs-
zFCN=kh5|{b+xm1a5VYs?t!Q-~wO%@?LNkUEEB_W~8zsWB03+A5x}+O$wwED5vJ@xX
zr<Mb5zX}(B!C+#@G9&QHbIqL5fkoZ`+9adeh|r=0t<|ge0BdUvuush|S*4fMyy9==
z^?>p0DdMQmePhWUY5S5spq8_y^LRQAs_EiyNxc>|7i0_bu*47>wdCSdrwu{24{LV}
z(eXUvo~+|G|40wFOJj61x*2)~R3l(vD5gM=S&X5QI0=jgi5)PWqwpgekBMY)1d_5&
za`mb#Hb~}u@krtv8`(eAN)!_$3YzRtd?{72%rGJWPZmfMAMY-B8&MsF|K7&0EsVd4
zP}(V7?<gTD{BL9TA3zk`T9lr^83a2~AJ8nLBP!83jOaK<GAU5<SvDNyQ(%w=JDqHx
zmzrgBJ2BkBOF}Gp3H(dAuq<-L*ejBk=Tba4zl0-6HasyNjllaTVk>eK*#II(;Yv%^
zOXyM~KLzM7r#Z<xo)Ti{mjOO5ihoTwJqZs8C?7}`&FMz+CL&kh;k6tY%#oJ?`!vqt
z_pnMez7c3`DcjEDv6bA!fG<BrD2_5VVwjhwBU!*QuYmL@|Ie|>53wE!lOsId0?A0m
z$x6-N;+CUYJm#>G3a4U|#pB??gHH*Sgj;9_<G(>O!YMcl|Klq4*z8bE{ZHKfygMkm
zgL(I$=pM`(3*N1HZ=dMxL({efKB@Ji38dhu&wF|vd3ti@o}9CXBzHgZ?9Q2Y=bXDq
za^R6?AZH%PIR^^$&H4InvA!E>Rz3Cvm)i4Pd&RE34^Dsjo1gsViU;LVGwQ^(d1sI4
z>{<3ca=x?ys<HFN(9F<6ZN7e&SikE*^`}jrG_Bf?gOZH8vE#ZKp2F=Od`swAwe=QS
zyYj7j#n!#qBR{jZJi*ifvGqXq$f~{Ni^2UM^yclYqP_KN9Rqe3JLPSJSAy@%zP#bK
z?6ivJe)7bz(E4%jQtSP8u*E2naP^(0+fB=7@-GaFFAT3%ze!~1zB2`fKWA@TxO8j!
z=JdK=*AHf&pP9FlJA?v17^TB8c#T3*vdMmrd>H@Mk??=J{a!U>(EPsw{JT0?@I-r@
zpo2*DpK!`oL+f{{zDN+tiogMr65LQ1-Gn?huFPCnu&g+@f>1~XKP=g`ivbgmsyEqE
z<)<n^a*&<``ECfCRA5cm*no~o$si6ILnSXBemrBi>i$+q9t4L<BFOi>kPp&Qc__MY
zfl>{R7gK;RZA^l!4^JH5qAaJ;7)b)OtucEwujt8>F;)^$fYjsmK$rp{1^TpP^jGBv
zeLbr~ehA9C#=@b8isDKoF#vGuNW+^VmEj(ti0h6C{E$rWR0BJJVcLkUJ4J@1?S#gR
zWju@pNAc+#OvJ{RrgxnJRzB8T#8jcuelkX2ZF=+!WmrOaKLD(ti$~oa4h?u1#(1FV
z=&;HEJILez03&?)kc{%#BJMMhG@-xzzsFJoMt3m!w;25)M3Nnvg4a%^C6s9RC5Tj2
z94E;C1fyk)ehQJ~)Q&Z|5CY+C5+l=YlwTE<JW#Hj$<$L(&g${@{1?C`52g0HAMDTD
zIv&|NP>XW5g7q&S*eM2fF2A=DI4}#k6}ezJ=eEMu_B)-oJD2vYY<+3gSqStjJH^0(
zImeSg51`rWKYshx*_&q{yJ}|Hd~LT_+r8r2zI-CT^Hp&ts^?8rUr{<o)yxS{^Qt>@
zp23`b5aNQrf4N!oAIhHiqQ<vy<kqp9#}<#|TX%}BJD1r%P5w0bpK6X~kN(`>0;;3G
zA8PBV+G8|m`7ZwtzMFS;J#uzE_OvfKA2jAVUS07V&jE4WtZNpP!@IiS;is&OJQ{#1
z+7`*~l8xy^l!{iySuDZmzrvq@rbbXIpBy^;OR9~rE>5lC&x66Q@n>zArkQO^H9zs+
z^{;^k;kE~DpKkwT`#OSaRn)$NbfIV9D_bL|lAgNxeRKQP7=Td?_0PxW;%g>MnW^R-
z%SXhfm)0zpv{H4A_{_D)ir%g@tP5Ph+PE-rD|0g=TDre+K$fh3;vl2&rv**_JO>Bj
z|APLx<^Qez$yQa?QJ<wd%bG7}&`!{xZLEv4a}Lf>xs4G*50NH9YgL>9A*ktwnoi>2
z<pP@Gk%;Ymh&WT1X}`QC7-<qY5?{R2gwy^3q{`m)m|xEpTZ!4=^Fk$kciI4EsZuX3
z)N+w_kx;@;=n}sy@Re2>#U?8(j-3P`xkx+9LPhT^Kj6B`5FuHawG`j+l1GcW@H2X=
zz$Tu7>3_QaO|#W}4dBHQ_XYy2l1+vvDy^}XjGkrGm4W9Y{a8T7DgHuDlw(LpHUUnn
znkxQ6ZhJAMLTD{7tzFci0l)HWx2koEzngSTO{;#!E>zaDH9cQ`O|_+gGYY_J67T_l
zu6V8`6Igf9_eZhzT#m8nQCSHEwBLsz@k0;=y+uuppU2z<jE-RR3PyzB;vVsT0g>cM
z$G9-~8L=fg4v{nYPZ0;rD{|v+Aw<-ohX6?)+3NznRKRZ`<Z(zY)RmNiNPK)WA~`Xq
zWT-rzPRXUz0_Q3D6AJ#1AUkN3C0p$(%L67u4@0?tVkP0wrP@s$O1UL8LDO;eAe)9y
zl2Fwx(QyjT({U8V#@~sGK>cH1YoTu2{h<f74;xpuzX?3p4<bG|K><$z&z`+Ad-Jxg
zN473_-OKyBMPGN`*C+b=vPXV6^o1{2a8=LS=4^RayXb1y5*?ze<1u&%9b0;B#rxuh
z$>6Wb9=SfGXfX>fuiApd1!}k0u^W|`)+gu?wO{Pm|FAZH=p7OMcf5o8OzY!7AE@nl
zZ>Q+(TsGwUkBj}sVTdhch{)(1ZrQ^rZ{H`{_W|FxI8^n7C(=<1tY>A#1T8SndNF?f
zYq6@V=*aPs1-w7T%|mjms466Ps=0jQ%9NBdxPQn9h?0_bHjB>Yyt7Yq_AP_50*=gk
z6lKMtN_9d})T^wH^s3W>rptru>7FsD_8CwY7<Do<nT&cq$=dx5)Gu~N1j*w0ER`R<
z<<nH8$oFu1NSDCGUq#h7$_{b`d(G@*ZtIH=9H3CvTeA*Si5u0IUee8`9Wy`!gu(3x
z;F+pqMSTn2K5$PUz?+OtovM!iE65?2AAHque56y!C|}u4{^?Q`e#1492J;P}0#i-p
zbKP9d;gpfQD^6E=cf06rUrgW0+|De6^VMN6I5=yv4q1aXDPNjxnlF+7GT-aaR;gwQ
zBv)Z3fT0DJ29~O9w)$K8;R9|Z24v`<H{GNt;w%Raa4bAIUZQyVx(%G20TK-07%b;h
zvqlA~&loD{oUG>lCNQi?c~vqLpGQFtrPQ^D9`@nO6CU(wBWs3HfH4;w>!98x8cNO3
zhm8z!Q^Z=-`3Us&h72>N>8eFEZFbD{ZqWUlYDvb(TGN`CpfcfU{65AE&#fBM1?P7C
zn5LnswSjFK)V^uz`i~8O1=5*q_!y{sE}l!IE^%RYVjMmM1oy?MDur$J%G)_*CEmZi
z=pj7imf=K1xBw4km?hbGE)L&^KojHKl)Z!(_QG*QCj{9Q=n6pKaV)nfIW~VbXO#?W
zESi>F_ze?V{P+!Qdjgl1ti(nKPD|-g9+zD*gPo2fB|0sc;G+_-H}X8H<KS(?vO$Y{
z5B?)&*v8?b!Gr)7Na(;pzSC2B5F`Wkr)4T*V@L(~)+3d?G{CAK_#q~rg9ZiEo(NOJ
zi0GY?9h+4!g(-jer7A6r<CR*2CV<D)HZ1JS`}##+|HHPNuYbjNe5LlatnKmEwtwB0
zb^PaTU821?dt|n!;A~#pDLOlVw7BaFPTxXWbZ*Oa?0LY79j_>v{zZcbx~!|N;PK8M
zm^-kzf7P?2;B8wnh~Dk9hA*6OZI@23I(Godlj>%`u5Qa7T{lx5hv}SaYr)gDbQ*kP
z3)TLD*Ec^sH@*1Ys<#i5fu1|g+s>81z?@^vhUgo1s<CzP=+c4JeJ5A^-^rf%xxId&
zZLx9H-Umu?-rfj4Gz;v{?AzA%Qmx%<`%3BIpTW$7?lQNRUt1ylTd2(=)sUDpoL7!t
z!HmDdXdI)95S4nw{5fV~v>R6)@jzECpsv~=>#FdBx+?svy+kv6i>m70qN=*LL{$an
z7fn?K7}mbJo+z#+OqHmrm@HFOF>8~my6(WNI)<s$UQz*uHf7h%1%qhuubVKdss&te
zjxW8vJote5)c%P*H+V$sIV!duTce=lv%$}V|M1c`2+E2t&Nw(InZn@y9}S1eCr^?y
znu70c$rq49Z{%E5UPns|zA;UwQgJ~x*`QTNw!By2>m*)x`5i!Zl=qQL`9omxL1!<^
zMN{y7Sc(^TH0H^Vn!Rv$;L~8)V;1j=<RTT>7&y+x&H)2riFJubIw?E<w-5yRp+fzf
zvRAhA^v22OzQogz`1H%Z{N2y1Aq%-haTSTD)bX4e<QpU9dtlkgcknsb@*@Tk3i2&8
z5rpu|U|IY|3M}<hsxHq@{#aO{h2e>G3|5~IF9)e3a2F@=D{mgv6RDZxmC#i|uA!{4
zK-|UPTQ>YO7(N9C_j5EgN{rkrl1uV%K^{POKNcB56^AcJ<u5@|43XVr1cbha(JV&f
z?%+eBe5N`8g10M}094)2{}PhOriITTTGP`s{nd7gK1%<BvVBgqeopy+LD@g2s{aAu
zm;a9H`$lJ=bze~sePdOjudNh)oc^3T_Ki+Y>%KNq^jnbX`J8(3AE>S0=onhJPC>Nc
z($U?s{QTtH<OT)cFRc#Rx)In*`(|I6e{Jry4GO@G3_U<MX3yP-&BQh+05?YIR=ROk
vH*cA<Y)}A#F$$b6Hgv~nHG7>xcwG<KYb1N)jP5j+o+B>f4PR53BGdn0iQ_XZ

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/jamba.cpython-312.pyc b/model_executor/models/__pycache__/jamba.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fc7d23bd26519543a543cd369d5d3b47fce43369
GIT binary patch
literal 24369
zcmdUXd2n0zo!@)7PXgctkOXgv6nIObPV2DFNV3Q{l6)a{5s2?mf&`HC10+i{**F<@
zO*+n6+BTKc^^WPJv!O?B!?xR9rrl{gop#3AOj|xv3E)?Gs+m>V$#iE*ne;f_&UX9x
z{@wwQew6K<{L?4#hu?kwzW49<3%}pP;Y-`TmwMwY$NeP*^pB+=uyWDDaW^@Ei*o`m
zSkipP61VW=x2CNbTinL{wzNHNN1Q!v&p6@^7UxJiGp@Lc`JHKZ#uN82zboy{_~Jh1
zcc=ZCvUpi05D#R6@gR%yq(hnVcscWX(-oP@cqQ}u(p8!2cs29;)8R}c9%25nbWNr<
zUYn_l*JYydD2ofE>oX1U2Idc@8#7JuCgu;Nn=>u(mP~8Bm4(aGZJAB+O_}z1I}2B&
zJ2IQ&o0-2d9m{maJ2PGJE*7pzcV~LyJ<MO7?#=YY`<XwS-jdlG-wJ<3s7Y_j48#XA
z+vD3aJK{SsJL5YuyW+c8T5WoFW>0)i=CSx=nZ5D7nSJqnnf>wonFH|yJZIs)#tC(=
zaza#eTzo}egyQcVtLl#*WI5}Rv*8PJ9%4Bgk+bOwavl~Bi-&~fw=D4^qK}noL8;b9
zm%5{ME`F4iXhVrj<|V`dafi4|+%E3C<I+ZPjFo9enGW%oF}AN=v&A+~)SVa|5hZbS
zSnL@aO<!v|narF^Hf6>HG2QzcDj(w&*NL1cCC{Zr_#LTiIyEc~!D|^Eh3jP{4v&qF
zq|PJgKA6jiqq)==rB!7wkB^T@xkPSE8orPi9?OiUP>WUZ9!?Hl5Y<A8caU1s0-mSS
z>5NfZ+j$X%#nJ4Tlwf^Ij3=dJIxVIXFO5lQA(2f@P_KNHZ+tv)UK+bRj<D<4<*X<S
zjva;Hd3x~7(3q4#v!QQ1@${2g1*cM@Vp39qr^Rs$D47!lEhcn&?4`AtP)Xp_*!fg0
z`=m5BEN0OgM0o~jss>Y6MJZ-cYFOw@4iz2AT^kn<C)2~1(@6}xH0jKRWN8x0l^scC
z$CJ6?3r~)XrA0|`sK2Pc{2P~(n8=AFO{O*@$ZvFQ@VJ;1l<KF)hLh*?$fKEaq9CM3
zX(g%zaU^*;olCqVrp{l;CDLO_0bRx9oJuD%$-z@k!e4P>6l<Fig%mn|mQ8f_H#{x7
zUGX1JW>1WciV_<Yc0u;|wR2KRP<&_9WzC)%JAF{8)kACso|MFq)Kywu^g{9IX-_^G
zb10#Mmvdv!u->33^+xe)!NKJCID+9+mX<M-%4SiVEp|pk2bGRY@{*VkGvm2yiBw6K
zwat-Dj3kFK*Vhy;%a~4H6Q!);%OtOz6BFaCPs8eIP~CtQSosrpUIWM#xi}B7YjJbM
ze}Z4Ih*rTW+5~>W$#H_s@YzNCMPF%!s$a|JF!DJ?rxxcDT_a`F+z2nYU-ie`f(JEJ
zn$+Mmj~}rKzE^E=?=*LnkNeJWu`<QQP98S-km49-=TGsDUd|-MtC-4MR<Y;C#uJwm
z-#B)BCYumwTPn`nI6E|o??u{PIFod66^AxQ8pvS%DuYXaaOF?2A%4K$<Z?!LXIzuq
z_w5{~gC(Auv|Q!0Kr@s4MVpb$@Jw<E4Wx41q}9k-+M1RZIZ?0rp)Qj-Mh-_w4(jE)
z4>_<}>Nm+<G;-^4SV{iU5ss5$xsV=*e5P%gmbM7or0qTH9j&Km&#l*!tI~buEhAP(
z_IgJAZrHln=<Jg=!6sM)%cNt{`G=ff|0BzLjyqnpI`l>Jaoja7<{Xk5k#G#a&vq`A
z%t~7klKSDCopAMPJ0<3nw&>AHnIsCAhsA^>W&u31iWkTM&@-6^q*a0dt16Hc1pxK&
zOKN@FP&(#Q>;U&TtF8o&XeyUTNWF+xLbNAyW4UD7*qIe2+cbe9NWLWXQD*Ojlpu(s
z>J|;HIq3xIC0Z}V0VofkAkpL~PJIw=#g-M*BT^4yS<9?OHdb|bZ0OWg#hpkDr<2)i
zB9WzqYtp_~{`zZuxy*Rqcxt>Smz020dahpHxqH{8onl`)b*^vxTJFNwXx|lJs6G`N
ziC4v8z%)q>X8SG@O6VQGChbAB6CwS8_Ubc2(b*5-{Pq=YwUTp}%{XOO<gTl>(A@oD
z^Pzc1zW<Qie`wlv*VRy{s{OEP*R7F!!!EgD*R<^oPob_kU)Lko^-y}G(A<%4-Yqxp
zX1VWs19@+=>}{Ss_@Q^xz1q$~ureQPl7mgm(=G?wQDLFJxlkWl^*ZXxrjNYw#A=X>
zG!=Zoyst&}wZQY{$(fTZ9F=|1VnStIp=MK|uCWlQFVwe?zdCyT*;~&pR<y5%eG$*J
z?fbqJjEYnI`uY(f%wna)++}HW7*wtC(V<~r<!OMGn*=b7q@riaf_MXD6ypURN5urd
z+|gQ?qI9zZZ(#?%3aQ3XE!H~8-yxib?|IZSWu3B(K9)0%kttv>?X_U7K^=l+gnDmw
zboq-x*325`J)2IGO<B>uiZzKWFv(9^OGaoqGm{p53_uR{q2K&1K6dscni^0V4ne#E
z%1yB|L=f}fxDqv@*si3+m!y5jBt1sX0XT#^K(Q&du~9KAouKHG<U9^1W|t0<|0o>A
zGbW|ZC)A4k>ahf&L8OwxC$hBE>}*MgDYJ8AOnNCP2@^r%U}!N(Bxm1(^9om}YROk^
zma8^TdkT?F`ADZ6>73g-m&^AZkoyiSMIN8_uifi~#@4rAzWwstzNN<9*tOGxx3@fq
zHotxH_Q^u1As=d!Lv6F)kV74Fp~YZVA>5V^cgf+dLUn7tIwn`gR-Lx`vgyHP4_8zF
zw(quY_J#SurO2Uae<2Xf2b$$T^K9o*pl8w5BLQV_F~<;n3K#Pepc_qQ#6&{zB#1n{
zoF>07kpOB<t0@xgMa2q0CJn-;&LV9R#hT4Y3`{5vmF|*GQ?y?LO~Yb3ok+aPONS7f
zrQP{Bn?$J_Ugqqkgnta@x36-`F0Qqs5N#@S^%WXg3R`y+sv{3Wo9v$Z!MbHTewQ6w
zb<M4T8}Vf)g<M>);`-T{iDfs1JX|<>^U{q=vq$9W&C6bj@^R%=*K;>&m;Dqf<HE7I
z0lB(wIY7Z67pnY}YF{4W{r2A3r+)nWJI^n3@Xm{Wmi`y%&&bPWi*<AueKbBD;ja7;
zQRak~P-c)_HW7R-BfadR!yvA7lFBK%4C2ZyxCMSB$OtSC2rQ4_6}=ZDM!SYb@NE#!
z+5ws62btw(WL6nYQb4IzH!DH*BjPYv73maFmqQHEC~ih-CQ`yxP@BZZ=oFQ2m{=Sw
z#L%P?0Ck%lladK>l(;EDB4i{TgEL%83DFc0@LBnDoZNMEm*;bI7XV&@PB{BO5tL9`
zIRn%I9GOua=JeH90A1$wPT<@lrCje-@fWcsG%sSSi+OY(Ks|4^fQYTt^Avy0!TzLm
z(#B{c3uq+k9StO7jtt<8+8T<r=)Oq{ozW@xq+75t#1YOl8)^Kcy@c-4kQD0Fw>CGr
zBe$uTdxM#8*K-tqHyBxIYXnj8mA00Psc~%1%~#pv7`*4y5en)uXx86BUB*g+`g9GQ
zopAJK7>iuSP>fQR&1Mo=q7GCVF9-(YO5&0zjpFDq5^q0-qm<=R0Ib=ZIG&J_qn8vv
z5uPk7QL&1Pg3RY5p9J=Xh*ZU=`x4@KR`Gx*OkH98vqTt1N|5s{a@ffu%J{GSy(1!s
zSq%}rYbjE+@A8Tj)x^RQfm#NuRpOG>Mf+GCl0QSRApv0o4U3pgHAvmnLm*O<qk^Jm
z&8edbs9B5S(jvyCv5RbYQVOjo9*wBNa1=W$qLix~ZlZ*cX0TTAm5xSd5l=lS(X2|u
z^#Tfwj$ej2fPfgAv><rD#K=f7CgxQ!Jfo!l9u+K393!IH1ke;Jj!Qu3=d&uk%}^CV
zE{&eX&nqg@V&rh6IUqHNV+kd*$9a`Ft}Z2xtD_))y@keJB6Xwpsz8V~sFVRCiTmWb
zzCwL#zP?|s?=Lj8<r}uh4O`}q<p++*_}_4>n5(uaU)wL&_7|$^@>N}ORac>=zEIPc
zuj!U+x(ng@e0Z}Q-V98dkM_&aej;^sYWL~Iini7IKsBh{H$2NN95Pq;0VmG8<?21t
z-h#LKR_OHu_nI~rg4H0h3$;zRBD3|2;XY6p%^<gb>8oG$am_I#=YuVBu!VUx%RwrT
z4>rp|qRmT+c^y>jE{c_LO&zmW@*TV7j@=7a@&``K2TtE@JfqG=Q^%Ymzj=?mdC&Wf
z{Nrcj$IsktIy-IqrK?^=!AEJGTwv!?0?3l#Qlgp&X@+V38Xl11mRBk#d63@RMXbX5
zuSg_M@uNgYo8|!-s$nBWN~5-%(V`jQUQ(+KbsBtov2_r?HoZ>B7t9HG+vnRwPJ@Im
ztxYGB!7A{RAl1)s@A5-2hctmqj7U>Fs+=jE0$932u`iQz6;3JbD@{@CBpk&7eiUbF
z9lgs4x`~DjcD)90euVPb--GiC2cpYYx#+C}jXHhY*n;!*OVI-}gZJAz^X+@&_B{*x
zKG?j}en$4SP7mJN^&nK84>il7=GmU5Q2(@};PSocneklTH`{*K6}#Wko^RPHx9nVS
zyzg3SIU&0mr~TKj79!DnBqm2<b3IFuU5wJbbzw2kzUXRKX<R!f++)%i^ePsR&f-UU
zikzp(A%a$Vh8)5*5|J1ZBWP{sAi<QLr7#_LmEL`hd_>qvadN&1r<9m|fg;IykrL+M
z5HaiFy8DTe1sU7X%_!ME`%^q4Wyu3twlcizWL_5+Zc)irHw%N5)xusD_8F9`pM}e~
z+J;%%?YiXv3lb%}9Ae%|&Qtbj74x3sL-vmQpou4MOfK8uM~fAao833MXDj9MO`kat
zrJgP7`Y`^C&yXwrUqqRaw?g165Vs(2*U1b$rj(LbG>><g$B#IeEYSxUq<OiG>ho`q
zUnQL#LfIP9IjGdKy>Dm)K2JVNX4s`j6_-K-+HDM09RUsW#Z<8=tSO<Cb4J~Fw8fip
zf&MC`!?k$OM;g_|<aA~fmTLm10y4$T*u<8T+;>R`VV)1L5%tj-Vjo&GC{aC*<uLkz
znoL9nlden8<K$Fslv>iCYStgfYt8B@$;bMgtI&G^>7r?gN!J9%pu=N~#TX~XLil9e
zhgysr#U!c&Wexa@T;|eOgPJTUi`76`BR|TT@f4idNnxA`m+<Sgp{z*@f^`D(k2Z|8
z$q}i@z70odQjhuA5o@xdf(=}S!;t1`yAypd^5$BNKA6s_`B*ew%w%PZ7M)CftnG2M
zXz*>hj*=FQ`PSoThRkLUvC(24-G^ASRkE=$yU+vo9qm-02S!fJcBfuL@wbFKQ^k7W
z9FeN*15Q`x(Stg@x?l};hV>la&bH|O4OWxCNM!E14|xaHMIpGRwc;Eat>t#=Wj1VU
zm!6~e`<}1lgw^Zuzk|9O^t!;E`G=TjkO>LTtMT`Lc5K4k`{Jc5(3y>0j9I1ah%a(P
z6VBc-mNH@QP3Cf=&?@+d13~@^P)24;c&kfPFilPdPOPznhuTN6w4D^D2S7!t!dR_C
z38=aPs+U!&xQkv^;F5SPaV43)ENbcH#R7Uq6l*4VRr)<@!$p-Ogj7axyr{CAPUIp^
zQ*ma8q1G5ZFVPuOT>7vjIsl;Q*hnQhiHeOzE4>7-Dt{wdP`XCWesV68L#UteYbqs4
zG~*XCQVi7*38`u*ddYVPPL?2}ITzKsF-|o&sRgQn7WcR7)eLJi2=~f&ES2w?b`}~p
z<smz5WSWF%AyAPIw90|j+4FLsXFl{{VC$l5>tbLlSfzYTk6hC;AC_xKAyHOn*_?0L
zE4S<=PNcCwDu@=@+cJCpLvIgJX_0(Ir(DrF_l#UIu)u#<v3t?Cd$D3S#E+GAx6bD4
z2W0$TlXNfIILprt<XiX1t$P;E%dJP3qQ|KA8iVDV6Y{->Wc-Ja*7k<KP+fa-^v39H
z?#EN_Ov%*)j8hEPsf^s*z)$wQyH5^NZ+(Su-OZ^RQ?r5`?xgU8NUY#1&-)r=Ujykr
z24@DD%A-m4sY;Pn5ZQ%LwZQ>Cw^-4!8gSJR2k2id=fEhE?u7Es4*YoEJNsl`f3e1r
zg3l~gY=Y7yOa;AAx>T|DhGvF}&AxeR<`kRYPPwMjXz{7Viq=)Xvx*A3m(k+?A3Uex
z9v{o5$ZjFa)C6moP6Cp&y;uGU4wz1JM$*t`FgDUQ1*NB%J_w~vP#a<m5(|xJpLy(g
ztH8fkWLm+jPC2HWAO_7DO{iQaT{>EUfY6-Dbn8qe>%9lP_du3x9g>ctFEG2X0v>_o
zynztZFfc&LNxu)j^d>p~keok&ql1rsL=i{HAyA=M0jQ*JkdJ>+;V&ut6~#;NDWP(q
z(sz)w4uCYN3YaodkR}X(I}v*XELoe?3T8ih5fw8wwY>Uf{f+utQ%j+q8OOAB`WuDv
zs++MJv0G=~{^sp(&b9rd``zvZ+s}MI^({t^ez5g=Y^i)`#yQPTZ<$Wgc}?9&;goNg
zO)gb$hUBC&a`TBBPt1CkD!XUg(~j$WAy75#S2?UHv^iY5#N=n&=R<g~eXNjKSeW9>
zOderuqbbXVG7C#lxyF`DtqmJt{YUbG_jnyMGdYQd@k?_~n%AdMbZc|!+XQu?6v-lD
zmZ6wMGFCihQ?bb(q1@-i5JtA5EW%U<(ej9O*5nWYTHt?xR<OWjUtJDypF|2>as+y{
z#zJk!vYo5xUg4|&m42}EtsR;e!vFr&rIshZtQf)uF~nDtLYT@Q*yNq288j6_yh<tL
z{2BhTAHi8Cgn%wBaDvxG5X`5^AXI;e5JHV8kwT~uC1MCQqKpI&YNY_{kUUhV@lRVk
z_Uii(HtfBzci9d<8j932L4=b+9?lbZGddGp@lq&KY40#H!(Wn_LasGZ3pb+FGeu*C
zLfCBp0w(2JBgdc<M&HVQ?2A%42AQS41#?u`MZp?s#KshE_E*bbkm?W}X56gcG>?a>
z%>{XZi|nn0(1xWw=B1(DgUXMo27MdkP*XQ*-2+9R9cn_S=oNh;#v=M@JS57ZzYz<Q
zW|Rp5F~HJI$2P+BM3f)(1VvUF;|gM2A*Mns$B8aiJnZ}pl6sKsXQ*|F@>9HIN}{U>
zDP~xQVW8bOLSY1jR!$=H1O7GJYxdV1uQ^|Ht+B)c3R-80Wy*(}A;j11<~+&kPQ)7$
z2=qYvUbi9MgqwfeHDd>dWuV*{yV*WK4g&_RvAZ(3Y`q<hLk&cPulsb!i<*pH2z<`q
zwa~lBx*`bbFgC@%?hq`wT0O^zW!g4vpLR?;r(Gj<!TPFi%9^X!Q_%y1SJLCa?O7)+
z;L&a1E$uoH@I2NCJu>)o_(OUL_>FNCxoN>6IL}+YaEz6DEx9h;XI=)e-FlAV?|ZJ2
z`7-7Re4l$r)rPIva8!;KumXQ8ufzF)9otObjzp!IAVdNNdLsfm3i@PE@i`kRVc(3+
zZ1YX>`ca#*SfF~C!RDHA%veWkGtNm)u)c)}`ltNw^Eg1ZA%*W%ZCQw;1WtSgKQJz0
zl#>!Zc<NN*$kD@JKXUYR;?%+C;GTW%$)jhKkftO%mmV9wlpyoRm`m0Ck=Rl3s;YZt
z38r$cBt=ks;?*2<^qOLeX}-21K1&CJG+Okj<dmDNj#(uW?Zp#raACcB(QY!G-QR2E
zJ4jge94Z21b}v$Q>)6|aw+H81=U!ZjZkcbEqXSEk?b9dj)oz(@&u={`Z$0_JZh7ld
za_!U8PkdC-K#HYcO(7V?|7EwUvJB{;p%YrGhkgo_aTSdZ1LWge{xSyY!LX}yApH=H
zsx%}~R4P**DPhWKoQnIxhz^auMY(9)s+oi53Yi(J3fek~-3JF#MfS#Iy$8!->AMu=
zWd;t=Xu_&gMaHC_R*e8PHKy7l#S3*QOv717af_pZ=5=U2-c02hzrgOd$aO1$k<=(`
z3|VQ?YsNgP7V}4_M_u*z$oDOBXrZM$<QVI#^4$biu*gl1(^smztT0<(T1`8gzrkv{
z{JJgQ{ZKR?ipil^KD12^ZG%!K+>#IX$>F|f@StYi`>KNTK4~Yr<k~K9dw~bht;8LE
zedg;1OSxjV)`JrSGmM3=>3nZs-kb0Ln%w`jrLN<P;S<xoWt-Ps_SW!c9DW{>vs%mT
zKEksK+GJnbY-(Z0!shoo7I&RowOV$2WY>18E^@2wt=_q|_qtXcT>mqC!5_VKanTo>
z+mY|uCwJ{zv0D0Bv)!w%jTDi;bVb>QQ{1X{IR#<RG0f!}%Rho3^taLmXG6}<u*EyW
zN#91s7%%+<KhVq{#E-;?G$2GQlX?mR>LxVWolvz74BPguOM8Y^j6fXh%t*}9BnO&i
zYnB3Ci>@x#{~<<tE0t?3Pt^+uS;f!V$ifUAyFNQyO8XnQdIT+$0#4dw^wGth^`BHT
zY5NW=RHp2sApqFY`n0Si+EKdz#&om{{En(&0NY9c6s)CH1-(;_qD}*~nc#248hEqV
z7sUFCA>F5Aw<FvOz-&`afM_Rp6v$R#N28$v#x2>W9B-7{N>GI{ViUZcEi1wNs7tWD
zWpHR`2+7detox`<9m!}dx+d*F3-+NRK!d1qEi(ir>L@B=j1eG#AAYPK?g^x%tZIEB
z{ToUrEG7L3IscNJe+5VJk)2jj&qic`^rvuQ?&1zqTl=?^^ylOlZ7FsJfEa(i#<*DB
zt*TDAyabqN{8yZI<_D+>5<Bo;k?-x#dpkb#cEAd8F|fJN)N{jszo{+XG$1z(%s;o(
zbl|!l@~oNT_bWOUE4D5Aw!tk#`{x_w=)vj1Lbz-0q#WKkef&XH-K`^UKXLnsxypQO
zw;bEOFz~beKi&VUs*}@4KWgtP)V9v=`(PKKK}Q)=Dc|0;Y~`w-;8#6dF#5f}pAU3?
z80frL(OzijTX<Fu9s@8S1Y_}+f!TnWL>(Dl%=;IvF4Y}}DKpf|FH)B^aA4507+8^>
zeI9|*Gh%i&h_n#M9F`Vn-DgHlz=&4M$##a~K2Ih_B*j+T!q`irs@HjWoOxn4rDFKf
zcrIb&VwRj*q>*2Z46&SANfyP-T|kD=4p(Yb6vZxGs5e%!i43l@kYJhNnO@`q#ZS<S
z>Ap3%RZdiaYP_!JpQta{7@tqRN_&K=#2#^Q!AL%^Rfbr$sf+$MbU>~Dw)eI-AL)}L
zeXDMJ(6h|h-5wP#JJnl2*);%}l=loE|1qG`P3}B&m_H<o4YZ?vn1Ai8>oN4JpKycN
zv*rxgrKe48V9jBqgZDVXUFToGiD#!8LN~h6aD|ijH++*8z?~#g(E5~X%01<obR&(Y
zH0%mBS7_2<YRv71fKG$9Qx4?umiArs3pTy)5}?bZmDRjEM^J)&WJjsjfi{nU?sqU~
z>z(wP@itSq$T#Vm^a4hDbm+))JU99WHfV@2mXjC@_9q*QzhpH24cn~!QltCw{c=ot
zCjH=Aw3TALJB;3a`T5Cj*w+We`6+?#Ucr$wxF3C1iZi9pFKl{j7Yz$UeFeZ%IrKH+
zu}|KpMqh0>+s>hw9nk&;GLlAzPPlX%0VD2`8uw31<5Yc?^oJ}CCV%YMYbScbqXt<`
zv~N(;B7Sf`M$5rikBJHicUYurg#CL{uvr|D#22N<DWkoYOc5bbalsH?5?~ArdRB!8
z@cP%@zw;_KAq7LeAQ^}Y#Vc-EScHo?=`T>B;*@YHF$r6J7s%r5OR3xisRQxS5=#VN
zfaFG!q7<?w1tC_ZBBozZL^a6j;Y)hW1}IXz`ZX|W+|MopYOQCLDy_F#77cnSHtM30
zR~?4pVVP9O=+%Zs`6QWIx3g5%QRzcOWC=tPL0$Y*s?A3|(5@zCC&DFguQcJi1o3_h
z=N0Y~i?hYE=xQLnOWm!3d|kg>*S}P^b*XyWwD(@irXOvBAroQ9opRI8rKa7BuKIhe
zowBcS`pEU3LZEHVCI`9;!N`Bz{)8Oda@}+5iMdFjq5;~Viq1l1v``V9waFE2<b|FH
zmOryk%-1f3_g=T%uL$4VcVpjd_-;jPPFU!YdygX51L(B|<}2@3?4Tl%R#+iLV%P13
zrcL>#ZF1AL>;8{|^|wS^CpdmLxbLH2)p8@Z;}pNr%~f|j^xCV+3zZFp%Em%vJ<8t?
zx6HN4;od@|=|Q-6E;oPnZg>v@xO4ON-rIZUyz}v;y2q~{DMULkj%d&IqlLCuzHO)6
zw)6VnN0rTVF(<MK2%rG_!j`U2y^gBthh<z<?Q%1kTW;qfQKtHO=5DxWzHQ->y!8ZX
zzgODSeWU7oZC$AE*0=BW9|gAGRDFH$p@XYxncXy3f46dH!B>;_)yuy6Tf(n=t;-pn
zYwKDb<+)(Jj`ZKP3=PF9*4vE{6gHL4GBS)2S*K|S+0v;j%v^Jq$8jB&_<VLGBtk>d
zugG~oPMn-?!YQ>Tdxs*)>85RS4;~0|?;kw;3D;pi%g;_Mv)_enpR(WO(>!nQo~!yv
z^xfz(2k*kBpLPEfQfqj@OYeQ0FZ67A=#ARz4G}B+pn586m~_@jAs5%Ub^ZwMXDz!a
z=+T6=OvkuPWnt8(No@TT+Uv4=W{=EO&1L5gFH|fHFZLajV~6Cn!z&z8mMf3&_WIf5
zb5G50Td*_z$+jbM&r!MU*fK{+A8h*|`}19&F+aoWY`DW1sqyI){>m=EvQo*dg@eqN
zQB`kQKrLa4=!@Hc_3c08Rhg9FI*<FQZ&@MD#RUq%hfC@X!GE5QJ8>x^0J(1vS1v-L
zTa){iL+<MlDmJ)KQE46z`Dhi{i7~lv`-Y{%=B0&*SSD06xo^z|Iaun5OQ?l>H$d0?
z<3U{X4?&_^k9Nz&3Lz*o2$drBuT!0cQrA3ImGq+Tjj!5t8YW&{QdgxIqBe+1K+T5V
zDA!a{E-W-}(Dx1IOdT;=Z@~y6cr2g>ZMe<rD3M85inXGfdW4c~C|QS5M_EZXdWcn|
zG?s1=HX*&9$*dcIWjhr0j@Gd;>2UILHkm#(DE%=qPgr^n#w-)wUR^yn+6xQ+gLLN$
zYRz(X8!R`L7!_YiWG|n?6(=Cm|AcbVe<tU@kn``!`44auXG$f@b=2)EMa$Cvq%1*|
zt!ErJ-D}S(Ayvz%GT|%=tR4vn6encqWb7gRFKXcoIX@)lN91gSV{jvc<%vHgpkmx^
zhV&T0^`9AU0&SzIjD5<MBRK&3NFx6IP?1&!l>=_3#FCKi?HIYu+eQw(I?z4{QNP)j
z3+TQ{zJ%hk2!?jDsM1C`qVw5Tay!{-YP)4Mlc29@!MKQ6ytarI49dAEL7y~jL5Dji
zQyc?lChfo2q;<OF2c---J0#imA>4-`tqO!g#wx4JPb(h_sp7qV2EP)_;yM;x(UWu$
z=Waxo-0ENzFcd;SL3&6|Ejj<39FljcHG^S6ZR#aQA~n?qA*6qeXsGlLQodqedMLO;
z&LKEiT5v`Qm5LT?81Ykb(hLdmuL+O+JCyk?<W=jXiudc<^L0Drx}A%z$b+Kv5m$4`
z%A`=&&P02l81m5pNS2x0u+Y>`zxC`2MeBQ~7OLM5FLj>)`>$SWfPgR3&cua;;SIs#
zy^6+J$DDhqVk_=4&~@K8d~}tepYAIkl=}}ZHL)wpgdF`Lx<j1z?T~#tAW3lhf9dL0
zF%=2!9w8GXD>x<-#P9mgj0r7@#&kKMMO`ySPy7^BWa+qQQbH!|nNVLhDV^zc^1;8Q
z2@j(flMlW*F*A`5#N<G1F18dHSac1P$Ot7v`13hIAdxyN#Px41<0N%It~J<@2_Lbk
z`Y3od3S7x&JBdvilWZByF(VKraLSTCjcq4=lte*IL_W8lG#Qfx6OwI17U=kcbluf+
z+f(pWUB9;2vSYyyT92vgAz3g;xi!)P;vCt~_QG=$kLW-;0N?u03}R05BYX-<9#x^E
zighjYRtMdbVizTqhT*YsdfS8UQ6$cZ=rS&RT^5pfZXh{+AqyNq6Qapr6X!0E;Mtli
zn~N-gaZCeaETsR9z(n8Yrr^=F2WV!RQIghu|8y=NXp{qu`M`cTuzz7n4m`8?<kRH3
zo>8SKo^$kM3sZ-znIh^5{jK~icJpshk<vn9pse^}8jm6*&yS8}bE#p>*f_4$i`r}f
z|FOODe~^F8p8p#}Ol<qyRD5xb<un~c7ieN~butdgfkW@_Sqcm-x`xyvO}k;u_-Tu<
z@z25YMIt_PBx)wyLrxQMwy7}NJm(_>-1@n5N+g3&%GsXWqFqsBSLIbCauTW1w<t@f
zWZP=5s#K{_bhlBx_N(5pw<y-(be5rm(uGl)X$iC<>?$P74vE5;ZVfQ8)pXe&S*D6s
z?Ff1Z@gStPv3%e$Iq+D)7tZ@g`IGm78}2L#5{NDd?vZ_aR-87H8rn3e;hME2+{M=R
zzrzE_W=bxxcN@@;^`Ds-7i5&xY_&l~83c>z8e7a17O0D44eP#18#92nnwi|Agdv_P
z7K4G8O$~tzhB1~+@#D#y;%igP;#cvMTw(RH`<v<&Ry?Z^AQ1?AqDs?(G8H4yASw|-
z7X{XBGxhz1N>$HPeBz2-hkcO>j*&AC2N%%r9-KyD;I%hSGAdqY`Stlt##;G`o9uIC
znrM@qM^Au5JRC@n+U;`f_UQmb8Tra?xw1Q7xkIkpG3|ySSiZVTuI`%lJ_u~q_F`=;
zU%Owf-4AJXzF|Oa7?^)qZa7p3H|4{<O#IQDkMzos-gVMzhV9mDMp`1a8TZ4pA(}PS
zx`A-eHYi!$>Brw9t)eDI;c2LbHL5sNLT?R@QOf8gGdw|~J#{gm-fS(UE7oS{r%7v6
zC(Xr`<H}yU9BPNj^5i>{^Diug4ns#=G<p05GMW#T(0eIVg^(IsfIb?EIhACtLMfUt
zs=FKyyOGon?}J&TO{kAaS(Fg$0l>{MD<vbD;Tq~A%?&-`wPtQuK~0ZQIw7S}y`3~2
zn^6PQ=Ao9^fu+!9HUarSiyUZ~-8nyy-*!UYc49HmvJ^PE=sL-;jlsR4Aczlb{dd6g
zRmjFWR2pA#-5H_(7l@L64yQyz!vs$gs=a;bPzZRh)!RHq10wWMLN<0o+_)6zU36(L
zVf-4&xCU{S8hVPHr^#t2Cxk^*s>fBaE%+HQDMh($$l!goCq}YLO)+X5;$M0xO)Di4
zM*b2~Hby0>(lsIy6fZM^!BcA&#sukqP#p~2SqZ>+$tfd;4qS;0j_`mgoHLci{f3gs
z`8mpF|05ho;~s+UY%g^6F0{#Y2f%jJI2LVHpSWyQ^a@GsrrFeDq#q*D>yN>Zr2%QR
z%Mq@ot5DJY&~9aUA#rQzn)NQ)>X~3K0&yDTdiWu+9)6Ywc>DIEP;YxtsJFdDsOK#a
z>cL+k)T2;|P>+IZgnBDpM14}r+n>cfRNnq|e&GyB48KmdQXQdX3#54WtD2YXB+YX`
z^f!I^&6j6hzIBvTu#15X*}eG_C(>4|dhX>)=JRXi@T--(e&$x|^=D_kJ!_vGp4&Ei
z;hn%@pig%9f8s<Qtvuy!u)|_hzpM&BD^50|w`{UIy5gj$GK>8QegnB8C8=`76^{JN
zF5cc}Dx>@i1MO2OKU&ve{23one)O$ug;Oea6!<s{6kyNAv*+{haGoYSbU=9MU;-y6
zsdW_fqBIWL8S%x-^dRM7dZH^eLXR`zCc)V+l<2t8GQ$ZG9LIGxL}5}!R+4KixHo#O
z&Xg!2V#S0A1+hYBj(uc_AsE&XQ}&|1%#<`SCraoZps94plvpuXNJvIJMnBBU6XCJ$
zBgRv;C&>}H&%Rup?lZl|2hFJ2O+IKA2`1w!DNj=UbsuR~&B_Z7yhuW;hwtxLgR58r
z$*^_QxK3u|8InFh8=&BZiNz$%-7#=b+Y!fr9>ka)1`V<E=rKFZe+_x?+AWYCUg1cL
zjN;k`mB$UZGG_j!J}8$OxhB;UsBDA-@zZXqbq_fP5vX|RI$Jt<P6TK05hc;lQ5@>)
zqpDq<N4>K~7K^MV#Xrto2h}B4B%zSV)Kw`T!ON&?JAfxZ5T|z=FFUfLuzWm7rG7*X
z2}4!egl6h&9XV~}972L_=tzQvQZZGB&XJg(PeW*Rh>+o5p&|&abgQ`8Z!T0rOm)}w
z_~(t|45K&Cy}Fj!9dmmZs+Q^wOnbn?R7Y+;cjGxj3{~(|7eaM~^7?#vr(E8dFW)Yg
zZwINUJ;_nV)wJa!{c@x~AK5QQ_Opi#U_7(v+6?zWb=w2FuJ)MR@>rp=c~1Dr#dj|P
z1GSdJmI9B5MEm4upONr>Et2Xf3Efj42hq#CA4XDb`NM$6U$$cP(WS2Mdl^*39Ir+1
z5MSdxQ_R1HqGA5M4ndn@&Kg<@at_c`w$W6+%0Vl+XscvMuSrFE_*vNY8Hb;T<fwp|
zip7pA&O|~O8^&v7f#EUmB6tS}cd>et=Y|;)hm{`QPt2iXS=9h)kTwL{hd$W8j%Klg
zpwZ2$ua{L4{YUpb)oYrnMX7o(vW_JYv75qMw`ikRz!O;#J$sv#2wJKp?!6i(L=aki
zHiD)>39`}x^nFt59LQ-wy%pNHKDyW7s2JC!8gsR=Tuk~4YD|5GQ8RY!9l@hO0%#&p
zwa|G~R>NFWeH^Fx5w&6!@nSH$EXv-YRPTv)J*otI39m#*%w)&ik0`+y{9cvKXYVFS
zl{8adw#emN3QJ0qsKnUJM-4}X3sMo5bUdP8?6FwwEn@Y#k8O|0tr`m(t7ed^syv<W
zi_&9OTwP6-tLW8i3)CS+sZ7&`WwO0#dec~{r;%TyyndD!f-^=+NQ8+L53}mTOTl>4
zu!(XulhZ;@D>-!16ua8sCW>IxIkUVVZbgcb(@B{egN#a7F9W|o(XWy-N6tIs5Pigs
z@VlIPE)OF@aqU&<^!?Hy98>(~vPAnYTX~*`j-7A$HP`kr7yV1l_c2%bG1vBMuJdDV
z-+$xw%G}<Mxq}~byFTW2!~M)+<1G(4IG=hr{y6_Jcla}lmA8E6;`pNo9b=(S5qc6K
zl<WD-=0Ii+&Szy#I2@eS%I$pbwDjh+nQN;YysP8<VV>`}b^7h+Za=rmk$?3R-k|3@
zX3KwE^G?kwNB-q+S-JA=g1;3Md7WjE3q!+g39nk7v+(uT%Wu})s9E924+_;1US`p&
xS8Z9I?<?3GubueLiGnRuumuaYvVzT5ur;juDQz`vZRI_So3?+-;g?O>{{v3?7;pdp

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/jina_vl.cpython-312.pyc b/model_executor/models/__pycache__/jina_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0c1a7b511c8523ff8314cdb42bbbdbdd8419bdef
GIT binary patch
literal 7014
zcmbVRU2GdycD}=(;lC(Kq(sX4p(NW96`P8!Y!lmB*N$a7b}c9V-Rz*-0nNFTsLYV`
zouO^9G$1Sttki6p<e{*FO}l#72M0D#KRQqKdtXF&3$cS3>tX{e@<v-q9qd!jxx=9(
zuiO+Jh-dCS=iD>*=iGC@d-U(2ke|S#x<1ZVqlEksEB51S7S>AwA$N&F6hS4LAPJg7
zatK&=s7}er-!9E9xjE0Nike6A@UlzwYCg%Q`6WNEyVZael!Cl0sv)gSYU5>(8rIsS
zb}b@Bc-^aZXq{507L}sB?o(r0m(<0}ezjYROK~U%l%Sf>dZZq0m$Xakm3lcZr1ok3
zQolAJ4QNRzsSQeloZqGnX~WX6wp-e*?UD8f#6f5q-FqL#hL1GjAg75EzC)CD>Yn?+
z;%=q)omNdsam@&5cF<&tI|lZ;=B{pSVU_6^9i;saI&DqfIts00bb$8IU9|VUXldSW
zHkS6yJ5pWWVJ+n_y=M%{GS^gUdZsg_Qob;AJ|&pJcQZzI_7u$+Wkx|OFkMurdZJj!
z<!4O)RaMojGOAuKenboU2dt=-45$b4g}foF#hDq(pk?$#Q7vnQ4>ByHs#HCfFVGA#
zBNvM|x3fUCZ7Q#q@Vg%riz;QNXuZK^=k%3xm(NVUKXv?^eDUPzGnX!3{5i7E6rl4O
zRq`2wUWQH-nf@Klc*<$UE|p8AA~W<8tf=cJ3)!LqV>3H!_H<b_@-V85x~Y08TV!BI
zE2&^F<uVf&ZqmZRtLLW5nl^u?P%0bxyXCy9K;H(MqEkf%Goj>-e6f&GPtyWSCYH^f
zro!fTV1}|(hd!FIrmV?<ew``giqPrE@v>3;8O_hk8v40n20s*PR&jBl8q_lL*Qi`#
zG?%}XZLTPPHT{RI?}h5GU`J6R2?~)MigS_V1Vy+Lgx%!0LnPNCxg|*MO9X}(Jex0M
zuAbu~XIaM<gXlGAbNvO7e-iEzqa|E&RmmrALTrx`NL83~wZyH$Z3pn1-q&J6;kMJT
zcR#5*=6H<QDkrbwIu+r8<9_o?RU)@+8)3WsYwfk$8k_IxtM*#Gng<s;e;Ir-SOUk@
zbXhUxOVo5-%V+eI-*oF`Tnw))b7z-L-)v6KHh0G?%_x>W!;zVR*}S6Af~@B&)O15h
zr!0U1f1#|&YUUbMb<<lc8?dUyxs=;<=~T_ZO5>KZt%{a)HjE8@vYb^jx-QE)tO7~G
zv+(CL<AzomFXc=7jSQQi#{OI7w-3GZ(c5%f&0iZY%^S1D!uSo?x#N~$dW&Yk+n80=
z$LGKi<Qr<bG|vXXXeGAQGt%}*`$4470r_EpeB%u*d1~JH@4Y?sNZ(pyq!t-j6zj3U
zwb;H|Y~P~)n^>wI>{tu-*Mj{k;#%@xEqU;9&+5gi8%{@;f6?`8|At5sW7~8N)RG4t
z`&Tbq0i6Wsd=grRuaRx8iEfEAxV`}7E~%2aW|)O)>!}KM@cmnG>)Qf2oxMfKPR_ci
ze_H^Ho|d6jVN=7lSQRdjuY~g{7uy3`rW>X+J8QZaRm*GyI3O5BfpE(dKe`FaqML%O
zqyOTXv3)4><cbVLN+r5&!kgR_sOWD4Ss?Xr=ckpW%JSgHx0hUt!s3B%f{{<pE}i}C
z`p46Y0!nW$-Cn-%Bs^e=>*4lAFWV1oQx1l97;cx8h;CcRXjGO>zbu0@lvOMTW%+tJ
zqgoQ~0_-QCZ-$!AmZhpH%U=oX4dCiH;m7y@ST7Vg=|e#X$PahO_YR-i|KD9McZBzV
z%d;SAJ@%$wzX+^t;Yy$orl^ZLsXOOLfK+jAtGTw-+*Hi@d4Llkz<GFR^FnCzm<ek>
zcM8BF>@+y7Opm6?O2){TJ}5L7$Zr%svdbc)Z~zvvxXbLP6&G&-2je0{oE_ZHj*U~~
z7coM(!?<sYRdKH6gto!0arD>SE@HGI>5>QHEKF!ss5+|7s>_aimk1k&))2nkd4p=Y
z>0$H+We``Az&1PNES$A6gd`ZIb>yVH+!5JNLC%gM`D-M{kh}%Nbl=FRWooUh7Z~WD
z@GMwMd=fa7eXpI*^k07P0JPBG0RnNN(M1x;--f;j{Y!Z1y~X2;<vKX-^wRVv?>C$z
zG5T#dx^%M^PTkx4aOBaU$8%4@7goI&EXVb+zXBT!HvmIxrc*Z<!wE9Q;<Y)NH5jf9
z!w#}TNDc$p>YbCwMDivIWFX+34M)g*QFzwg*>Gc_A(D>7a_4exc~>p6r{Uo|FNyA2
zo>&o=kJLIx8a~eRlUVQaiIuM9zo|t>8v)J>5`Wjr5Eh>kq?W(q7vcDD<>6pAg9-u&
zI4clAY}*C6Tku&&7uvoHBqu;VmjcJP;!@m-2-NeX_`qvNHOZ~`6#tik5}=|Iq@Elc
z>u}76?zBl>>QmaNM+s9uz)g=5sX#Q#iAu*Em+h8P0CYM*7KPtdo!AzgAn0__kkYP1
zaxSHNi=@p*d_+kqaT=aW@)2w!O5!#A9vZQFqwIQ(2JfrVOFN)fJKD|#`8fOTgrrWT
zpGIkndS0W+qX$NioI@G7<C3~~bm)fYFlY`~-VFHd61`rgg)BXRM`}Ko&vF2Fxf0Y7
z4yO5movwtfnte>CD={@wm?>vwD27m~rY-ts&yBneVKiOoenqZoG9rU?O00M-TW_ZA
z(m^n1wST1%n}*(3yms4)XlViV?I^PRjBFI;0=?OUgC+q!gf@hRW&n@+CVF6a-^kiQ
z3PBzM9SlV4{{Y;b!Ch4_T4As1P=xzUa0mdbS>mv-1;M~t^O?f{^2&4DS#>Tr&XQjW
zM!**B3=VDo-WlE*5xezVhh5ryLy#nM!Ogl|df>GCyrn%{NMC(k*IscwaN8HG|EC3U
z(*o>c=ax~n<^w>d_q^%7j+YKVVsL6-fDZD-gN5~T$Orz3z_VGN2c65HV~UxqA?FGJ
zOwniICea3`7+_9Yk6l4aKLe5q@<YNp;CqmZ(7+6p_?^pkm|k0*;cPMtQ)UN15^%V!
zX3Ze-?2mx&aU&_Wb=b6e&wh?Z-T<<RSFM9(5O|f*AK8j6@F}5%hd_SV1fTWz@Pl)Y
zx*qpD*>?_(6JKJ3IDCGH=!xBH@i%MnH`n4vYw@Ftp?bJ?H9WfN9R>PrY;fg`wV}hc
zp~FvNM-Yg9)3y8Cq0zOWBekI;_2}R|<zMH%nga+r+yM}^Z+NYDyw*G35<Kn!Q6GwW
zl52^5wZy(nQ8$QsI-ZC9p|*8rup1$4fS(Db7dCH3%^UNkkY~qX80WKF!2p)|p2V{Q
zV1=*~tbl#k+{a9qcWfeBrR7n-6jHA901Pw;O_et$s}PUiJ}T>QD=?}@C#zf_mof@g
znnGHDS|#~@L7h)>dD8A`GOs7$vV%8is=$Hf=XUg)d1Dsx0Eih*GFD{Zan7u&vtK~h
z+1~-taU=jBER5R;_YoOx)mb`Q#OpKkhE*nhY}t2cR6^4OKo-ceK<8SZzZU3UzWMvW
zNWJsew{7v&#E~a$ldIlIYr@?S*x9`4Rf^fNMhnKa=|&L2ryJu4<evaz{RVPQRpB?}
zpIvZ7IL}ww#>S?aO~=L#`zt~J*w_U$iM6jlg=L{FqeyZ<why`k`_K2I3?Pl?6e<V*
zFJs=`<|Y~j2#G_EBv;}q{(I?1u}7ZO@Ud0zF$--Vtow@_5+591G0>M30nfo5J<4Hw
zltB2k*KD`YadWTd75zH}+Tz)QIfw$dfi-UYs*YztYne+$o!?>+bXv{zA7ADj8vQ+5
zjspSkC=y?IH9T1J4y}1pHE-(P@PByI*82K5qLQJ9rVp&}B#drG^INh)F!ekwWQHvC
zB~$GhRdhB1#<#(GJhLzouOm+6Ct`D-5yD|OxC=Um1;iEMOIOwXJK-M%g!J55;Hp=I
zmJB_VT}Q%@%mRV=N@5wWQ#KIaNf-NMhU{#C0XZoBb$}dARYrcynVNUV1yI%zM?=`$
zXeWvOFFap_8$?X_>s<r*H~5o!&&YEhFdBXmjy(@RX))AjBkg^w-d=02JvXhi)HXMR
zNwM}2Ug97_)S9v?v7HKXK#ra6JTR3zUc(=>fCfyf19Oq0##3Lg+t4G-pbCjGx!D^t
zWEJF=&M4@xGAfFw2)ClGk%-*_iG7oKE%r-q{lw?cLPx7`=0t{8-g*)lg(OEfwiX_$
zg@;z&e)!hf#L3#k$<^@Clkllk?<qcC(Dn1F_^Y><_Pj3R83`Fb3pFy_m24gfCLGvl
zB!fWA06$eV3TYd~bb?DW1!Z|8=&P)N1fA6st<)#O92k2K3AzWvaYIU?T!LIG4twYO
z(K(bLISxPlEUX~jkGe>_chwdB&*<Q@_}+Rv^=!{%y*v3VexTm9|9QmM>)&t&V&cMd
zqldgJObIVY)a_rXH1PFk;(L5G_7O4CaJbw*y*JSy@Oo&y9!)%setq}_a@L);N+ZZi
zg8R6zqBjV>A7-uhqwM3UujgKHUb6v;AuOPIhkN{9Z-c<=(e4-cYN|k~(M~3h3HAL4
zo(ID2zGt2ByOW<!Hr!B#w$TKyd9das0|y^Y)%xFQ_^|3H@xHs&&#Nm+t$VD2ZJ~Fa
ziAD%ZZNwk`w0EiZ`!Lpq9PZP?%6s>&Je+vs{<q-Q!PSYW+WwQZ-KSncUrsl#f;hRU
z{bo2@gamjNlf!yCb1lo)hhJr_RrK=YQMynt9q<bpEK|^718d;H{EllO`gAi7h_IWx
zOp|RzH|`ltj+KFDi1f`tybM@36xq)ErPa(l*iM5pLPnmaDy_8S|E6pKye*(GY+1%+
zI)@Cb4Zj!ST)la*;*M$hd05T?2GCgqdynTX>qK%13Bqv}L(+w$8;I#H8+kw#xbLl<
z!T~FWGThzx9|lvL<_Rn-3x&wZ>|k^zufsnEHq#&6!FepU&PzNMP46W17;;}n*=JD2
z(4{{B(r^lb@KPi~`i~^|l*FErJ%1wOPs#45WcUx{${)zoQ>^a)6Zx=4K78qL3yyUH
z<YkZu?+P_?{J(tB&pv$O>t7Hz#C9R_*}=PqK0mZUpt!NOO}HqmCJ%2AEHs9QV{}!B
yt_dSGVWjTrtNZ%vk+BVr%i-AYPYc3nq3#;4yApL*7tnPdXRQZ7{M-`r(fki#akYT}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/keye.cpython-312.pyc b/model_executor/models/__pycache__/keye.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8fc7bb947e95e2febaa70ba22bb51a58bea41aad
GIT binary patch
literal 72080
zcmdqK33yxAeJ6Uc5&K4f1h|8wC=rxM?W-lrS}n;EC0X(Y+hHjJlqdltbpgs2113u1
ze5EE%L(RNa)Jrm^+q9-Wd%m!<wCa3)ugYuRRDCmV9<HGj$gMh68o#z_`_0gy({wuX
zI`8*C=Pn?0DLI|xo0%)|;M}v_v!DNd{-xLJ67Zz0Um5xKzY~NX(2M$b6wlIsv<bpZ
z;RPWnBu!}{LBHm-DPvBUP2{(vEg5UVnz1EpnVLim3$v!}8Armw{I;|+<4U+P?u0wz
zNq92egg4_$_*k4N?N0<)xxqw`{nlnei4cpcNry9ai8|)Dr|UD3M1=Vr>1d`Q(ZKx9
zbYrF|(Zu|&baSR9(UNIRw6b@1x-An+#F*ccZqIZiI+)*^?#!%8tYUs&x+}9fv6}h)
z={1?|L^tyX((z1BqKEl|>9v`4iFM3ho9@l@CHgY!6YDb@5*t`pD7`VWDY1$9!|BbL
zEr~6et%<Gdy)L~ivpun$`Rmg=GCLDHnLm==m3b=hRAzT#cV<swPv+^w)0w@Ay_shc
z&t&!`_OUe4^#06&#DUDg#KFv=#G%aL#No`diDy|{L;6VOXyRz*SmIdbxx{ms<B8)e
zyfJ+u)1T;P{-*TF%&EjF=5J1)&OD!Zp7~qSXEJ9KXEQG(Uch^6vMv2$=B30-nU@nU
zXI@FXl1U^InO769vbb3Kwan{@*O|XP{h7=_Vj%M~iJ!>~CI&O-66Z2Qi6Iu(kxph(
ziIhn&3#oOf;rC5^?j+79J5v{utMJ!_zt#9#le#eMN_M|xO^ld@XN6?^Eg{*HI{Usw
z$#Ic|u0`m&iqK1`i>XVKc0ov_Q{Gf2*}EIbS;{`7TwjrLl!b0U=*EiBvD9d4jO8C^
z`8R3#HzVbiROsR#E3>`gN2`;V+?onr{F90(#hcu=LiqL-!gs6?zB83Gjxi1$HaDOK
z=*L~?#|hTrr_hewPiV&#mU0hLKK+E0Z?Kemk@A@*q<oX5+=rC=pOEq@OL+h(4?ZE~
zBujY+DGxs(<!4#SXOZ&A6H?}rM^m=c)MNY8oIHm9{2VLuIh1)k^{h4rKF>l=AhbVq
zObfk+`R+@eOkMln)ca;WDH2~`DNiHi^Qr#S7igrk^j~CgXApNb^~Kb+WpQ6(aW5e5
z#njQNxVKo`ONe{<3GMtcYP564bWz>Cm6=LEskc(sQeXPu6}2|3%mm7OHT7jI-j`Fa
zre1j;YmA=v`HztJ*{i1bYd@s7{<ul@4W7&9#KEClCY8G|mW*3u$I)C$96Xm!$@UY2
z<KrWv=Viy4)a8lP=uiq7?Bj!CZe%bWx5>_ZqoZTF!CWdSTlS4!mF>qzC~I1Fp1nGr
z+Ls;~%*uB1zBnk}HpxygH7JUMqvxrZz$r0>?~aV7k_W~{heys+U7kI3{Dpl(xsfY_
zxskC^gn0H3=7ugDP7UTJ#8liY`}YrKQzyofsr1Q--1tOJZmbG;X(V^y)Yw=WwMKSl
zZcH4yFfcNj!%KKyE|(gmg7*&&T}q864~<S_5FX16UOkr@IG@T5Tp7s?45tUP7X}7%
zxzT}hJRQ=wUQDMmT0H~w(SsA2%+-_QR9+S-R#ASGpB)niGE~6<^wVHE4bK~6VmdjH
z9hszdyGKUxk@VR4^C=OX9X>FYp2&=zQqmqre+-Ip@bq&pRtG&l_Qvuc6jpnBVh}Bw
zWZk7y&n(v^Q^SK3>D<5@sgd&+=wpM)lqfgwc8aOY;P}9$D+Ae~!E|b1bTC8J@|{42
z5!SQMrLIzgLML80e)i~zlLz-5A9()Ivq#UIeg2iWU3MPL44zM6iezLDk`Jawa#s%y
z<_6_jwS>Vmy&oJI%E@(lm@<ZE##2Mff=5zmWdc+NKljF<cs@&C$;!?bN0O;A@?*-?
zQn`mR=TgZehFD3!s&oeZD+ep9#A8Ex9jIPBFuXhv9h=2)Smg+tPD)n{rca4uL#Zr=
zRIa56<&{1>Iy@!^@tzsaJ)as+4-Ta=m|L=k2fZ+!#Hv6i)@w86=qRRZcK^gk8e@T&
zz|e#!BFg|W=Z42bnu(#KqgX$gRB{Bl&$79c#iaLe@0p<s7&_Ulyj>U^PyLWiW%No#
zbF{w6%APY5<KtsuE_;0J`F*lieLL~|*r`Kut@f(5R(7djr%s_Z&NCzD(<9?2j-SF8
zg8L?NV=uA!gyPtI@+z;iNnm<4vWa~K>tsMoogc}fC8;D|3UXv5J1{;zkQvEl(RplT
zV7oyk51*6cVrqEgO?)$~uENUoC)ZqHAC_%zj3jdx<eFh@R~QplW@L0=eB{kkIt%~c
zn~Hx3z^(R>p8%1i2iVMS3V9)Kz677xlhcx1Q~(t%0G_0YQmWgkNyuqs=1qC?B;NAE
zq#K*60v1gnbV{JOPgS~^QW}<yud>oj%SuP+lqsid<n-;lNj;o$PPN{Zp_DsmxpWXM
zb?4ycPtvN^_lu^A7ST5=+QMrvWvfU*ZGJRGP2QHTVYRigFTI-cs$aV3Q+@g`)sLsH
zENjYMkt?95R(;52r}Tz3ustEK=`nd(?T5{01g#YoHg+#nlxfroi`tGATT!dlUH@gR
zpjl(okCm-3%1f<SDX-RwxUGM3M>d1A8Ox8(nq4uzYW8$xW4mK~$-uuZhUipIjpX5z
z+m`2K>uiOLJdWr4;XO2Q@^yd^IK^_Q*kBghdoCu@c@)b`WOK1|sThjJF(}4z7Y0XT
zn>K7%7dt<ei+vUgwwu>*U5u3(kFAekMOOt*#a(g@KQ3iEPK8lyAhJyyn-~SqfimEX
zjN*JAOi!c^i6XWIYi1Cegf)9v%*nRl^cV#VrAE?mhj<9p6%Uj1EICKWISNO%UBF>4
zVuN8n)^n-cVAg?%nDYG1;q|%9`1<jY@!lLxrc|!?&57+hcU;<@TAv;{w|@L8V5iab
zwE3;)hkxqL)DU(|k-uiwUrJp~^^ISZJ(V3TCh&<D@t6Gv*hj7ji$1~Oo2mKY=N~wH
zU-Mn}l|6^co?86>#BO!EK5+@b`k9H@D>ptjUoX|KF9tSD+seVnbj?G%XZp$)Kd0q7
zSoQ=fa@9s=Yv$^2`RBJvkqyP*#_5`Jpnlr+k=-@DZDwoH-tdhBb2am}VsoEl?^_6c
zXy5X{7hN=)ygQaG7Qbszu;Akk!CO1CdUo55^+iv|+>4TD?X^P>Ji(c++0{4tik|kl
z!;+`x+MzP4GVz6}naL0B?GOB+uU)-<b$0dK)?0n^$E1dBMgR6`>w`e}rt5}lcH7*+
zTYKiWNlhDzflUi9N`a@QZED=sxh=PL&##u6HWULJ7Y<8-UDLKjmq6c}-d(Up7M+62
zKT~(TWw!A{XQ%q1#<?pCws${Q`61^GC%(VsRxb)`tSF2=L~&hnt8T4BcQ#UYE^Lzm
zJJF}^fby9ojEyivj{2y(?b0klZVD+OVM+=KGe{|>ge7H7GBhq_OIipWP1U6A7Y+6_
z0QAnJHEB!M;Ggw^=>z-wSl{$;G!XgCPt5N~+SD^Z%jKk8S6y+p90nAZVsOzZIv_dp
z@i+HeG@lQS09MHo+`5asQ&?~8-01kO7z4Lsw0*>SV*L|<v&7igaBQ5Q@Km-U_0X=0
z=pn4^QJlgR@#EQDu~U?b6;=^3I#QW)gn-G)eCKz?o)t%uv7}bVSoh`_;G<Y>UF-sO
zia0Av_ONq*;0i7KtZdBz$&f8*!Vl>%m(AnZ+dv+YR{`CQ3=N>LtZW_~k$voY1LyID
zf!u{R`fs~r#{dI?2L@!<06{AgfQbiW&%nUtiNQ1h$9S_33?#>f1_neTt;zm@0W_EJ
z9_m7b(ncZM7^)%HaOh0jj<DN;_$q$HSIBu?b-n;kmV&-4d~CMc9E-JryLP5ea<vz&
z?d960vcvl|&vnm@OLJZG!TEy=tL~=mzI4C-M8R?5V~aUdvm}^pHH$SuUF&S>o%F5r
z?dR@T?+g~#JyU3XMhfq{Z{5egN*`P{b!!kn&(hDq`OlrYk4(KMPuQBI{gGS_HesFE
z<D=Sy)gV|tX(vBoBW^rtM~5GoO|fB)EmqE|3z&^ZMv}?YD4*Ni>}<k0f%%!ckcwTX
zh{JSG14o^}#Eh}MT${YH7$Jn`#zs?o67qHPUur`0shJ|wCM*67h6pouST<kCio<vj
z&yjN;PQQ48yyN8P(@UgRa{fO4mX5($VS3FTdgu79<G0r?B<~z7_UtP(?~`ix7p?ot
z;g-kGCn{X_Yoo*mXW0b%A8K!8NM*&|D1L_87pmM=Kn?)n$p=FmL^K}+YO|Q6)aKDE
zvX3Rww-m$Cxk_2c`4;}Nbm~`*PN8;<<mxV3yUPt7k6-<bpL+Gv$CeGw{{X9>4awhq
z^|OKaZ@&7kRBk|g!e|>tZ|qYaXM7e_tbUOYRB?iw&yvH|e;z*L_5V3aL(V@V&lPgm
z=0HJw)w13-ShXt7w&Vc}`m+@WL(-J844bEgVN=rlmM39#3dumylCl{QB9qpXJ!!*V
zP0Eq98>azr+wqny;Y<dT&Xj%FoOI#M<rL^&vNq{Ku6oqA>PdQyOG~<m_@DHpJRtwu
z>EE!W0eP$6DU4Fmuaak_`Z<z*)W|n2ylG1K&j|4lhoW8_Ay`S9msz=Hh!HG@Ku6FX
ze1X#${t}@-Z@MYy^o8r@yzo`Pcke5SO++UU2DIFH(?xZ0YQ+(bKVVf~k%BSx)OY@i
z6bjUc)Q03?q|i#v`PJM;5GnH4s`2`7UbslGP1S=?15&hcXwvk7S%qy;8?6;ct@-uh
zjmrS<0JMxr)C47f62Kp%HJB|(q17$dq^4DS9<drmZy2lfQAKaX)Kc_cd^@VYsXl}n
z^p*<p;M+kp<>O0FTAx^wHdaWvMlDtUP1<sC_3dJh>eGLX>;FF1KRp+F`ERA0tWjf=
z_75C7<?5;sclOIRfZ-!aPzgcY9#D}1*)ukg)8E{eQX+5!Mh2H_z;eLZO1uO{$NeEK
zh7n-E0s#B5><B^D10zWgKgAu0`Qd-Ua~Kf43xvijkrqMFkI1&{1Q8wq!86k1fcPb(
zmE9be;~#Re9hDFO*~I}Y!fj9vfqp!Rd302+0qy+CrljlvM?kN#pQmC)5Vcu$Q?!B$
z$zJxNR2C>mk_g_>p+O)@16mvOyy2>tAy6=KvQyhu<XVGFjpG0~8O2oX6um&dN@X25
zH!(b%62(z!eGM21V6ezFsW-<5M~R(d&8E`Bylb2T14H0$0B6ZskT@2*#&MGyc$sV=
z(5`x~>r?yo9+G71F+=|Pn()Bky>6Er(ff|Za((l(^=)^#p{>-gR%%#_7hkzCR%%=;
zHPVZJ*~>?5?eAQ@b+sIAEk)N#(Y57<mUmijwU(pJ@Az-|%c024y*Kuj!%d&KYhtcx
z>wQP_VnAqVf9K?_lk>T6fByF8rRJyaZj_o1Qe3p$(q3xmm0Eh~t?@zky7z0y*Y#jk
z_b(kLU;BfORqw5Pcinuhw0@toe&5|Kzx(ueo-TGgPmyg8de(h=-R*S?6L*roHToN)
z#hw!syyl_9Q*ty*j^?tb5%i6(9lw5jHq0AW^sFm+HcOt(3(pokyUUU0MZ4f^`LO`n
z3_EOPmo_?Cozx@;LHr&Z2DO_{osr?Iat(N26XNJHN;U1&G%8Dfi(V#5^+mi?Kj5W5
z@?6x;2|X%lqVsOb_EVHXCs@^!G^wk8ss<;7(RUcVW6GYliZ;-w9eK-?bF?*&6VGTb
zq@A47JSNtuQ>*i!qR_6d)xnjoxu`-b6*a|v>B2wz`%3*#*P4skPOc|Rnm}=}Vkgtm
z<uuxi(dl=wPS30Q@-=x!-U-;no^*WR)Jt0Ni#7C3HQmLCT8{pU8ktdd8hJcacR(Jl
zevt-R{3@LD6fOu4_p+^!!+~Exfb2Lo0yZbug@@THr+v*z2&?SHZhRga@fbE-F&p=Y
zbCkS>a|5w!66Z*EPK;*3(@jmL#GgmB7^XCK(1uy89UE%~6kYKbDA+YTF$%8i*eF=L
z*y0g9J_fE8zISCL^+wz+{xX&D9yy1|IZVzxIbVk(EBh$+w*j_5WDDDmM^kSMD2yE^
z`56&dt|hwdz_PtHONTxo+seZ>Eje0I5!!GEz@HwYZF;iTa3@<S`9~-`>&Kd7^w)-#
zQgpo(U0;fBlcL*7(cMyX_np&HbnmqHVPk8laii3@vDCOjYTQw3+%Glmzq_&6cxc-H
z&=)QFS|wlWtSI?9rY+xhH)BtnK30ylTtE7-p>1x<dwbvAD>ZClL382v+TLxGq8p}<
ze$=vhZfapjTC=m*va5g%wK2{=QucTY{`NxW)`jen#oXkY_Jiir)Wahe+80jWG2Owp
z_e}dgYHWU|_f~JIakJF8x$J2w*EY|N6oTF5U{krV4V2QRElYxpmEbcfL2bz0bN4!n
zjs4U9vcI+9Xysd)llW@v=rZ1{{uSS>%z2;+*lt$XaIOgAYAkw#%`0zv)BGmeM3SaS
zEbbx85Thg+Z(MmBZEI&L*>Q&3q`GC~t(RWIEF7$4of+1`ux>_M7{FPj6<Dgqxik<J
zRaKt620j7!H>~l+C+9NQ`iPB~w<Im<1~X+R#-(8kZA59y+l{}TS7NdCSo_&N1757<
zQtIm2xLy1vGK&8Yj%-P%M#WRi2NsBI86O)Le-p3ZtY|xcY`P$u-VpycN@XQND|ozs
z3NJwDf!^3&w2ZaFS98a3iXgH_VW5HZ@C2WLliLl~^^-F~Xi>;MK!vUe<v?&|<Mfqj
zYuW9e*-{E^knrEVq3j8iJYABfYc5&ztew9sc{bn|00~dA5SBvQ3Z88rxqZ{Ql7F4#
zUsrVZE;M}T-u0lVwHyeS0&yu2FNdS0aIX~ZErmBq;f<fzEX}^@<BQ;&1bOKtPh9fE
z=hxl$Y-eAjx00t<^7PK9?|YtlNC3?)sb$xlU3V|vYrl84*z!DW2|a+MN{)8P(LT3I
za;z!$JwxwZk^|M19Ba$iCLHZ-x%P_#Xr}l!IdpC;TeEb)GXP^ZTmTrRi|Ci?=Y1t0
zX}Z*nLV`%898HxelV){=f${zLax7HNj7dC_H(zt>Eagg8G)mCWRQ)Tj0lA&BP1Q`<
zryNsG%v*p0)sGPpX@s0kxpb5(4=_Mm!?apdvSmf#sF8-O>A`u|2iiK;+V9T0FNX9q
zst>eorFV_Mh@?Y}o$>&5`c~fZg<njXr@T20Kv2hF%9pns6kZ=eU-<L>*Dw}SfvMnB
zZQh#?<b#YYTubgGK0Fo5dk`M_vN;JU-Y=UuTWBhbHqy3P_2k3(V7@k~0WpU4)W-Ru
zhD__l<O4~U){}K8ua4CsocCR9(Nn3ud{}KW_Q24T_w7qoA=jqHUW}<e{WtGRnm=%>
zUwFbi^yEEY<$KW9PQ3)x2Vo0kG*}H;+KRd8dHfvyx{&mK)1sE}MN{0@|3iWy8I1Nr
zbiOdTQ`@+JwZ?`Re~5VB{a_Zv-nan1LnUFk5AaWSJT{VzZS9+ko{ObpL$M37H)6d{
z$GY(r=dZwbZAoHm{qS#r{xVqbEZduJo5VZx(N!;u0s|%qpHy;L`8xM(S8TGjFLvln
zV#_1ZmKYdmTl?a*tN`&>sS&5iSs>>YIo~GdUy(zk64{&^lkE_RBhfk8u0V{kH4P-3
zZT*DGjDz6<#1m3Lqe%q|1%+&AFeko?BI5P@a9F-G@yxDsIv(z(!XaWffI~*MD^vs>
zo|HYD@jk%11Y`o1lfjc&26_UpMT(s41EZe9nFI_%GDzq7$)=q6+tjq*p{7|-T{%#}
zc46uH0Y#)G72I6@%a1ENIFb-XNKQ5zpGiCxQtU$ZU&8@t84x_tlDkQAHx=D2bHNYY
z9p$Dqr6ypr8yDJ(O<Sgqm)((y1Vtq9Hx>My59(v(@JYack=jMU9IOSuFxXNGbVz}Y
zkG(ZsUpdfN4m6bm5is@3fx3rHZKbC5Qq%fU6IkopN=>_^rrp!WA2h9+d#$kfM6szK
zUsBU7cz)ggtNy#`1%GkFnPSsfL^X7k8hWLM-uZLIhK;3$ol?WjI~~P_J=4d&?_V?D
zUs!jz9Br7fJ!tRxrTQ7)A9QS(IaY4%zVYnLzM0Fj?EpCE+UEw}?V4|YHx3fO%z^Tn
zjSF3OEDP~}etKb@v}SK1yy{`JxfI<hMYk5V9lmF}xA9)G7(Mex4Y6C1x!~6u|EQtu
zR{fl5ZsXSpzph&Ywtx4I!mi`en&Ze@4tJEoaVZ=x^z6DHeyZHucH_`uMCjc3NmOX<
zeCM@Wug&+}8NA=}OsVCV)N<_J#$wBf85cn3aBIQSvS<-nyXRMxdX7pxNAImG_Pivu
zyfot~hguN%QEfAX9)jU=I93X;lESNs;njuEn!=i$ixyMxDab;Ee2|6k`q)t$Hyw_f
zen?nT+|u8FI35tOM++h$?cybJ2m=*~vci^xI0m0=0TLox&p|$w&42NCDbRfw0-8C6
zZ~P&J*m4u&keK;C`MnCwW+;_T4-8=G{|Z90m{Y<toOts^ctvuku<Y-{`RliYMRTLg
zRcKrPV*$U5`%OY;_s8xITie5M!_DJ2jxXBaN2dhCi+1ukgg|J~Nj{g*99yK6iylZ=
ze69I<^O6^DA0IIVZ5{W9mIVAPt`mAUJ`C2C+gE?=-DLAUtZypSuaWB4EZXpfVk6Br
z(>Ky{XQlf1qMd>qLPN{!3v-+2E%RsQ_DC%o7Y^R3yOX_p;9ls?l(h4Nw54Ba>6fA>
z%P!x?7E^<N(Mj2SN)>+M#~bT))==4WSvFmgEkk2j*#dz=@irPgL_4zjXtWeFfOUX6
zW+PAs^Z@e*7WH^ZTIq~5I%Kq?7@+olk#a2h(PISosNWOqBqNfB8qSo}B#efLc9E{h
z*r#leN7TR*P)Ud)t0E;<vydnHu>nY;mW$qaT&(4Bu_~Ry2w2GLl$sh=3)ACD`ma_C
zon~bRwFZ19AT`c@@hcczc7}@ontaq>z;Qe{wbEAyL`ZXpSMgq7`A(<E02AvtizqM1
zcu+Zcb0C|$nodE)#x`_eV)T;i!daIaIX^KrkrlU~RN0P%kQ>g(&AKRg-`IGz4>a%G
z*k~XBnD}og?Isc#>su}|)|Vc<3c8JwPCv@}hQ>0Pu~G5gQT+*+XVPsrdhG-x3=C$0
zhW(J@{+yh@Am=YBRiL^}tOVJ9S)s<*FL93nR@SmCt3trx67qlu#Q%Wep^YSD|0O&)
z<2-`f_qF)-_{_f9P1EtBt9AA=#9B(Ob&_jc(baeDK-uMeY&@jQ9MO`!O|rM$x3~Wr
z$LSx}n3?QZb7!G*=e_X#rv8E>`hAdDF2D1}tv9}Yb-wf4@!RqD*Dhp#{pzn?{U@I-
z`VN$Q&q==L?(Hl3`ma6vy-%OC3@Myv3+|?ZwTW#tLuixssJQo1Et<QWNt&=IEKEO`
zqgF6NA-u&{leQGZyTB4<Z^I78NVUJ^O*nXZ#!hvloEPZ~sd~U5H4f(`yHalD8*Z>W
z4O7x)rlcVTsbL!9P>wYyc~{6e>`D5Tu}Xt-hyWojF}_dLvzXk^#O!-7q#!V!j4>dR
z$cV9F2+qgWXz5}{v$1{YbnKO}2^T?I{i#%P4TR1>gzW3*tP2msu^=puwFXrYxrPgj
z%XKJHQ_~n2y8<o<*h<T=UKct7Sd*~yXE-3L7_*>;{Pc`jP`M28RWSJIJM7VgveiwO
z5zwhFRS$A$xG%PCjd`gjgNQX!aC|&#J|=vTa8~1V*wj!SZ4K-}J&nJpVbUl`BY~^A
zP(}@-ni1Y;7+X=FdR8Bzgc+o)NXP1((~cdGybW`pt!RUKn4v9N{a5O9qn@BLkk_rY
z2;U-Hrs_ec0Rx#~)D=u*q%v5akIk#@6-4PX_=3jD*6O5V!Hj-tkOw6hjksYSf*k@t
z1vsnin`Y1}l-Yp(&_*cNsdfdv2eu7MZAWT{N=HO$jm4Z>qop=%&*NFm>io}J!7fqO
z2TIr4m|I^_`a0FG|0Z3?=~i>T#z$7mjgmA*Jo?BWe{Pdn)<rs;tDcJ3ZB<ctt%xNq
zbk%dga>XPz<epN4lSF$ks6jRLz&KUKw;o?lqnenn(0p%IYXYXcPhlWY>hnDO;cuOt
zboO0_;@7x1cJVeC!{?x%C;lyB#s35ck;Jg4NGL+NMo3?YbI9EYS6}q>U^+QzV`phN
z#X!K}c$l>GCbFr4iE)q!QiGX+;X#oiCL8F4=zZ~cEIF3S#vni&Q>YiQNiUPE1U`=7
zH~Qjj;tbV_Ax~c--`^*Pjx;$$oFVNX0sm+)nU(!Hz;9{BG~xkHO2xgkdK{Y0!o-tQ
z665u&L9&Bln4Cb(W!`E#smKvi&Bhev#AeFmQ2S3L3YY9qdrUltS5Er~k_wZmfu|5F
zDvv3VX0KeY!-f!I7D4kEASRngJV)7e`1rmvM+WwtJ=-rkUOs&C`4fkpKO=jeKY8H9
zz`mnr4?RC{c%STf9s&fAlIBVebpSdmic~ch6~a90L~W$maIiiF=s3>Dk71Q`E-2KF
zO3465<ET2?HNk*Ug8xopUH<ho;S-<W^i_!lJgjdn)ptwv-P7)JQ+uhYS88Gm`{;w(
zZN=Ih)An*(SE+5M)V7n@@6Ba@sO0aI{GD^>C4cWi@I(Kmf@4#`zX`GeoG`Hvks5X|
zIfIVwQpawoV>e^xgP>n>cS!Dzx$_^odl~7zM+)`Kza)jW+%bI^+F9`IEQEGG3^mT4
zEwyZs@PApvgXT669k!G@cS)VQ?wpr84;7o46hQ+MSLl(VJ@d&@-+l@Iqx<oFZ@Iql
z=ID*lx!ikG?@meeTM*_hN195JZYk0|zvbI|ZtsyIR8vp6uHokEH(sARDAjf2-Sts4
zUiL)50{GgA>n9i|ASQWY%+o1(I?F(<8@eD`G4t~5E1*Dp;&(Ja9O7;7C$&ODPdU<2
zj&?3j;It_TATF_y>Xo^Xc~BcE)yAdTc(HbExnnz2NLrXoMFU33+sl|1?NXq<9P28t
zehRT(VBUfg`Wg2f4YOPBH*F)5RiNZ<mfXz`Jh75zEp$GZhu9X((<gcQ7VXw9*T;g@
zL;5M9wsP&-`Gci(d!%)H3TvOflPLs_gLFlN6SJ4-0IPdSUE8FtZOcn!1=%c5k*>*V
z)bhKI4hDnEUR9Wfw2ZS*R#rjFfy`j`k{ncaCM_7`zM+YMZ0a%=R91F~V?d06#c>LO
z254cL6L3Js(b9*Y-!f?n%;V|@T6Rh(9X!N}0H0qu#46KbORuCpC{YNl{NiIn&s&(J
z9KJ#iBlCmlF@?h~X-Nu=!0AEKH#G{A0Emnj7V0r;#70!(rrd_5Y2XU~Ho003Pu^h!
zI&oUbls9j?_A9{j9Y(<4c?#D+9KCGbj$b4oRs%8g*c%jX0C3$f{iB+ngX{>t=3L=x
z&L@0L0~$W{*PQs8YlW}5{)>OjHF_^^1&fT1Ire}}rOZBn{5CcNeN+DbnfqIp$s{S8
zyf5!p0aDg_tcd@%BZ9d|r+(EV9!S=_h1rc7x`x4=Q&&sHsueD3j4eGg&jIS3H4mm?
zl34LEJy!Jr2zPS-RG<P-4<wy=?*}dw5S|K-eg^qhsk!vu+-lW-5scUBhcR{cfs*J>
z*JbLbK+S;Pla6GfQ!vq!4_(|`odc+pCrNAB04)8$tJNo*uf4e4ATR5sd>CI5KJdM-
z?1xi9y=9*dCjBbHcX8*VC8)hS6-0YAU|Ua@52~w#&5;21=m02wf&L0&A3?#4;y1ZP
zKOGFYbn1aYyg7nUiGSAzgE;y_>^|zGCF+mo0NB#u@j7rTC}?Zxz+=|1*k3T+G?|3A
zYpudn(?7DjVTzk4!{=hzSYKbC!tl$+>7`$!ofy!wxo?APdNWIBK`h4EP0rotVeaP5
zaq;QNJ_9;SpTdpm+npYRQHSi)eOmfIL7lR+rTiHIXodQd-+AS(>3_L87c8vWRf;_I
zomc*SmX5A3)<?n5sF6K-{|sDS_I8PM^+Eh(M=Qluyj_Aw{NO|u(qZ20*l>=;ka3C0
za5q}YT1QP)S`AvN=^PvjXrlND?nk9B9UK`vPx56aaI6EfZ~zErUy_{!hI4OCGIeDH
zHb{VYaDbZZi<rj60NTj=^g=ADeyAJ%c)V2%A`&3{IP6r2uuuiQ3^@z~u#S)wi<%s)
zg#cAqKsSiLMvjY8c*!A^2+klSQm5ERuP|RFuun1usTgKq6boBczzE(XTMi)KioNvO
zq`oo&@NnkBV4qfXv5!)Ch!&<oEaFBA>d2%rW8&3;)bQ}g&<NRx(BPW^Wu(O)(HDsr
z8L#8))n@p`7II)KOAy=0iNTRAKv`tdfKD2gO;@<N1f^T;{5LE9K9%_w<oqQZxrPH*
zvX=<lsW)Lqgy_<;^-YW$tGl=f<!1?FQILk^Kb$@FeMC<-J!aDW8Wpk%P!(g6*4E!_
zxzRE^RSfoCubH+?pDx$d-HhLem%YKSy?XuC*;VhXgTAiy+n(E=f@f<vP`hXoLd{Ep
zCFHtppEgZzoE`)ZE7Cp}oU5G~ots?fT-Y@Cd8vL|sqQJM?x|wko>JX@scwI<?%*`>
z{bmPe&&@nNcWgepV4gcEg*KOJpOR{yD%S1+W>Qyw^Q9Xv&7QuIn07sMhd>+#k9Ed$
zv*t!kA#iZk^p5?Oea<phJL|#gT=KoqcSqq_Nd9`}S2G_54o>gWk}nF@psyUPy&1U?
znGMZ$%rq}r5b}^jhX@K^wBd~ya&<SoH@rWx<868$8WN1~&;1?pU*89Me4r6Rgy0|-
z+FvTxzg!5sT#mF|KQet_CZtvEzeP)c8iY441Q+%#WbYg(hMu{OzL~zPRpIZ@I`oc*
zp(kA*y1TwtfAa3&z2Lol-+852fAadXRQOE$!@7o2-3F;{1BAYm|1E3E+W$y%xwYe+
zi?=Q=hJ^Z!OM<K3H+}e%dZA_Y+;E}q;62y<<}<*~AiL#lmAtL@JGPZN_DUUlKlJYX
zL(jTD^c;E^jdLl{azkwX;GN)aMSmj-26Mx9Xy`WhrjG*Kfk0RD0jc=_6FZw3oZGoz
zx)Vm4mV+iFYVl2<0LP=DW3IQb@!4YZNGW<oik>M(Ux2V_IC}HMjT3Xd#qfsf&gq&N
zQ`uiP?PXZeZA-r_^g~kbaDV@!eCISRU_UuT5CVfVCo-x+6)#%+h?0Cr&YzG&>s0(x
za{dfXC4>3@qd;<q`N`zyz+nE^Y_f$h1e>>)>!am8`#yFbHrZSc1F=OLd58%dpWgy2
z1&em}?jT;XlX+c2Y|BDYYTNZ=mS^!rv#@@1Io?;^u!Rcpo-o<!AA*IPzmZ?G(F+P|
zXnn_X%QKgQ(!ipfg*m{ehVK4Ti%$0H66zXe>)vU;)hvZq&xav|x9DaO9w8K+wXxi(
z_tNjC3(-wd?Ph$xcGn{NR0WrrGH^CCHFpSq+M|$Bg{7Afw2T4dBt5yL8LS^m(mGtj
z*gQ6{d7$0@mXLtbGh!{qb^wO0(1^1poJ`})MRMPA9q25_kDhv-F(ePEc8-|14#Wa3
zz%B*DW&4LJ(NOZ!-_mE`RPi_<Z2wpu2PpA6-vS_(0(_z%?NLE6lW<kIZR(HPD#&wp
zkV-s)i2>_gglv;0PTb0mBrT51ED)T56QYu`)N0sTjkaV543s5!7NAR|(n+Wu)DTCx
zu91i-Wrv4sWqj8W<!n3DMSF;##X9C5JU4+sqk&qa?#XGLX@ti!W`zQ|>UqGDvE&qd
z9ZQ40RP}tI$^GN22KmW;4Cyz}FT^MXBiua+W>c~T_92uS(h$TQ{R&BUaW7XB_zJ!(
z{!2KrV`TKoz_6IQd|3QByvJ+U*l-DyU!qiOO#X^|zew?BK2j%WWmf>4;&TX?Y%?Am
zZJfO{JOoKWt~OLp<g8=Yk9}k7JG)`J!vq4@j@vsHPXA`=w=Vt0rTb0C?w$RAUjDt8
zrKT4o&x<f*5Oz&Fu&|w8u5B}$n2+8`6&%gqbsXfRpBfI9EYq?i;G2!-zkmlimfBbw
ziab-F(xj_;jK*Sxlt!a!QpaM-T=9L4QKf&3X~7tLU&VH&EO`soytyBvKyV+Up<~2G
zQH00_i-tvyl5GIU$VwR>vwlQkcTZi07yt%5%iwr|z$)Ob7UL0AfXEPy-w}KbtIHSq
zTKamLtj$0RYtM~6rO+BFw5AMjtoKH5skTe1?E;O^@0zwSGc-5dH{7!apvTbiZc8z+
z9yU|_;b{*WxVVYW&gtKN2AUxw)EHWGTqx=X<YUv15%+1D>Ecn3IfGy$6*ha|K(a*0
z?m{W-46@o9W)A>*ur<uv*w3AVP{*=0{K#Xq9WpI??6$hup+x~db8Pef33>SrPlXMk
z9PLqQRgdUFE9`v;qq3dc3PlB+28_{9EPnQ;u=i`Q@7pzT0DH<|MB_?2RtR^dTuRws
z@EfNgOioEdtbfDujYAc-KCion<!#j3u6d|@F!#O7nEL^_UWeZgk(NzLJWjX(=gsRZ
zA;wr(#(k%4k1g2Gpu4M1Cg_S(pG-!}weoz@`Rc};ZNsH)s2cr&W<U+)tA~4~SQXQ(
z0PoKHO*1%<nuY~ZYbWG?rP^p)i7pM!^*m4;E4Z{abpt|OJnG2dSg7g04Wv3Xo}F~{
zk<KTxVR_q9H9V8nzD#=jwpkC3dn?X!#%cQpD3xn|Ir%sPrImdQ{TmpCe*hnm-TM1R
z1|G^z?W>iMo5ZJ49L#j#t2KP<`Vy62#g6(Fgk@>E&=$4~NN6*jd>WL{N?QU|8BoG<
z4pgO9>Vu{hb}(7L?Yr%}bGWqow6y#5{U)Xh8hy~Pj<!CP>5?dfx`}1tv^5gn#rKIv
zXl{K>?huqk_1tG?_F}8V`DXp9gYPvf;pUIBC1@tH_3}^QAsr2-WrVd;{phR-20Bol
zs)x@R5F2fn>vVA9L0TwsG8uU2ZLqSH7#`2vs<O4!p{H4vqM}58oY};c8jQ2+H8e(q
z`DsC<EkPWB10ADZM%gRo0v`t!?UJy^l%=|`39{^%Yh7W6DCgW(njq9@MqvoIPdk_d
za<>%io^L5ew@-UX1KD>An#*g-P4RN;`f{YbT-UPb78=$p2{quYdBF^8Xou)3boRUt
zL$PTGvXr7#ML2Fb=1|~zB#Fk<#QtVLHGCc%pvGDZu{I516Aw|h5K-j`2;2WlNxo0c
zpOW)ua4NC3vs4T@E!6toLoA5}J1P*iIt5?DZzZ}$uN+$=Uj?#8uiJ#4^(vm$WNXpT
zH25_vZP89|I(|lPM(7!ZKNdTq1SA4HJyG(<B>Z=_|HO|#-kH?4Av8;SRNa{+im61=
zlmj{ZX%BERVe*zn)=xN9dA-WtWF3xim!W(QKVqFJk9L@=J~t%s4D(bR>m;q`OZn-a
zV$h`OoziLsP58G~C{_8s&-j~4tY52VK=TD5!&sXN4A&<^00e>zJ*~ysu9t(4th6V?
z0CYyNJ#7odr3wasURN~?fKv@KmOsW)UrYke05r#bMg~cd8%9NeRPo11a;j1r%!t9K
zvJ?&qUvmtZ&kIB5*XvQLLziIFPGnQw@pa*w7QhH*m05Me{C3oeJX4yM7usZWs@ow8
zhT5uMTYjDo;VuR$;|<cuoOEbX!7rm1nKbjVbNfqZEEkg@ZAV3I`vfy*cO2AhSj=Q*
zA%aXWhFLq~<lHRVBVb{Z$s98fTlR4YWv*16ITv@Wd}=dDL8F(;P7V`{B;VvHKQ&s}
zu9u(bjgQPD?KnS6`_*k^eB?M+Y)yn4OX1a^@=QC+<n5Efeei~w=bTa~KJ9o=A0_dJ
zPXa>6nz<{bHG83Sa=-nVCBFj_4nCn{pK0dkCte}A2D!`az2(+bvoFuRJU=r3YN2Uo
zxo7WRIc-p~@le8#DbJF{6(K0V4ccJamW3mCO}~1g*a``d?>d_P{g3L9f`KjHX>8hG
z=Xiuw#3nwW;+5Fy`*^2^j&3OTZH3RQ(;)KZ9FK;p;)-G|mV(hyttqyF#ngo~Mu&A}
zn(bBq6=wwT7-k7hW1{~-)(c7$P@aPF71<4erdLwDkBGR1DUr&xq*0}7QIX|D@edKN
z7!gr;R33;Qk#xoYaZ@HAJ(Bw><1;kK`%%U<;iH!JufGU2*FR|No<8=#-!R+rt>k_G
z+H#<SYt_#8d^fQ5;j%Z<X^-Pf33RB6uR7;L4l6Pt%OpoQKjb{MHpFcX=&Huh*pq9S
z@qy)G4w7OcVu$R0V`MZr_68RRgTXhl2Q>gY@5B}1Fq{U5;|sJiv0?ucG?HLALVv3t
z=zW?XKmp?61Zl@^1p$KcR6V-hIP^drUx1;AYv0h7N3?0=HwX*leVAG=D8eMr7@Z2~
zTJT2XD$)jJ(yt-rdUQ?qd~KeEkvuQ7NyB(U%ce-<GsME`^L``ZRlZK$*}z&37^bM#
zQ@s5W^g*@hYqV=a-_!!48oo^rcH_sVhCF^nYI{X$71iejF&CQgj`QZEts+MxA2HGb
zR(m~J!{F#BMlMuQkmAip)s{^)<Qwu4I<<|IW^}_!Q;qpXLjxfdb~9NTDyr&H>x2@T
zs-p0!#==5F<ES|)pcLCw6PthLFQ^jb&5!28`~g@x)eNDFX6O||PB`C`Z-jt?vJpXt
zH;C=T3&_CP4;2|ss-ofHIyPS=-wtxV0tdUva?WJj&ohkEfyEdRI^~PDAMv|zm{#Y|
zCC0E7FH*_^MHR{U3v&LFoDtg1TG%lKJsoCgU(spNHwN)C<z{?Q+6P3DUI}6rbL32r
zbA=p6iz5t%32Cw|ZTaRWyBIqeHVv?ID1Pi8S@GXcxxY=$@4!(tPsb^lJ3E+xP9M*s
zzECFF%HqAmG-q~cnapWW6-0oX8xQBqTtDL;>r8st%dDQjwh%wSTku`&z%}wz5C@q&
zE(nCM@vjhdR5=3N6(eN7f*t_E)GE}rm4aPTunT6Rqg}w2+@YD=hhT+v#knZo!sm)z
zhYOyLhp<E7j~9BMDfAwBK%4rEOZoYOwymmy=!5pv?=`>MJU_V5emk`=czfh-&HeUg
zp#ysP_qIyyr=d*Rv2MZi?)sVM;F-VtZXZ11)>61j3U|$2x*y(D@%G*DCZK4sZ9vag
zuYK>ecVAoRx!Zof>tG?!@c;o}_AKnWyYc?&Lxn)+N1^D=r*1q|4z4P!-cbnbEQjl1
zpCRm<KFHW~?;N>x<m<=ggSYypPn2V;O0msSZ1cj2Vr)MYL(3573`>!|Qe>MH*|u=G
z7}+^}1dP<1pTF_>xy$qI#mG9mM`Off`nqr4LCop*eTB&O>qj0&nx>CDY+MDSDy;AP
zEd_s9!O;a5)*jw@^&78FpZH#Lyc}pL2U^P=o6Ai-<%V|HziRPaKSA26aUh<7mgN|v
ztDirInTU&A!w;l*sG8Wi5>5#t<Yc^fh~M}kvh~N7-WW~YkI2#af<K_wT5`Tm&YzM~
zjcX=p*^qOFCe91+RO6Zv+W`|}4w9!5+hp$?-DKVhe3QLz5^8G6OmfGP1-?b{Ek+r?
zu(!N!15i=YLj@CZ(>4-h?d&SIuKu`b2N1_9o*@P4C@H<UgtpGPv$rlSy6MgHDF4t)
z;l7_*bJb7TYE@<AgHp?e#SjIBg_aI7y$h~r^ZLa)3aS@Ek=gK#wTlsYiwgCPvj=ay
zy4XN(jY327B5O&r;A;3u3&J?wOZ_~AQP7@F#kcgwh%vx>8$K=GTZ!Kq`IC)cW;ztS
z5kzdo=hS>IV~sK;o%^w|E9kK)c~{UwQ(}FOE!qFr*Z@fFhT3rzIC;=Gh4S@Ut^FaC
zMff}ZDY$#py8-SV)^gWrzIx3UN%@95l2KsceujmUXj_w9Ax^^$_MHWGm*s*-PsYbJ
zn*1MQ;#A?|(B%5N;Nv<aT&D~Io7E5&{YniTZ)S9L4QEDb4Vu%Hn~m5f!0}B+BEq^V
zH_CFWs{?d#hCM6Cq{y)67qL)a7R^Y><crA2Et%0elkIB0U!d>=f<#=SC&)hN!YTq$
zL=aagm|vn)RfKJZA~WhXHISdll|1lOIx76gU}{M5KcS8F0`fl@DgLOjZ~jWLaT`!p
z|AR<(C1v{MLTELoYexyA_2A%yMMl_=pWk_Bb!pd0Y1hg7t*01f%l8@vuravlH>qVL
zUMBk#NCqeogz>U~x5$P+82{{*+aA(kD}uMkSO+un$%Xc#3IfG#AaXd3A&nf{3@hQ|
zu#y0{hGTOTFdC5thUh?29}=6i;BRRZ-&$FeACz!M-UnK^m1l$v9b=rUmO;8U2<iG@
zV+TUM`5-eCpv);)*%1s;@sI}bS72K2E42jP<c4s!#yhICf27l@U`wbHlT`91nbkAk
z8z85s-vDgBhv8uEd>!p7Q}w8C9mh%7dn6y?R)F&L`G{r_h?z(>G>)hVn@>gaVI#ap
z$7n!m*bBHnjJ?R-53ruijki$=Hh|)nF%01RUd0cG_}K(vqKP{6&0ubQnrP7X<PjaX
zt(MTm1{dS->LUv!#-~XP+G})S7Yx7janT4uKjKclqW>P%h`?G7-kfGNrdKBVDbXt<
zdo*x*7c*F6umZ%lDbH8QVU5;X!J7AT6!A537@9FdJ{`kgctsFKSaXC5;6ehJ6Cg{9
zAss)^15G31A5g9S2oB^_`GsIKx<-&a3#$O{J0G{ND4dbsrEP^oTLI|z0McP*SUu5l
z*B;`9fyUw#8oFUTka0kKWQr943~@=oB5B`Byb>@<;MTR2W1Guu8%Z&#sT1~CTH;HB
zr^QupG%PkVDY*3jdI}r%6`S`X?4#C>uMZa-O=Wjo!QJwJ+g;hC8(4u*Ty11#vJ_b(
zMb^xlq)5;FX~5sVA6yTS$}p7wZ=9GuL}m_8&joM2Ak}tGA1K$Y{>97lT?>}^_&+`k
zfzP__rMkUR-QK&VV%`2}T%*%g@~oCTtLLtK7dlH$p>_j6zCdR|Q8W@6YbF3gE(&Z7
z&sh#%$Ah01uI8Y#4oO!5(L^P93=lm{6NQ|AOoQ@U@KgiQwYJk7h$c@Z5Y65>5Y4<5
zKs0;r6MFg>w7j+4w~7AuZlqTZHbd%;0O_p+NW;UR=#SUzuyx`Kiin+^-W)2t?4&oB
z(79$l{O($Uo;%T%l>&MIoI43{u8`RSP}~VjCfY($eXv>==~)a?Q0+2XF@Tdh0VgYV
zd>H5qIJpyWawX^tV7U{(@+0zo0Gm4jHdh*-0sP#F38+*RFmxyI*`L-FO&ewFP+Q+g
zZ>v<my^G#ftAIP}wQj++>L+o8^COf-bQ!o#>zAITA0eg^Tu)gNkS$5rIOq*v+X8tL
zD<n)*a}wOTeziFXk{WTO+(s73VW-ylmQ_815*{U`f!qhP#;>RJqD0@tR$kFc7wO!P
zSPU4U2QX;S1S|gTiyf6YxL-3TQLFfTDb?qP4?y^1as{=twW&}loT{UL3V>bpPMxbU
z$9TVmkjJoeN~_c+tbL(Q^VMrUN2-1}nv4Jlk0hh1C~9CgE|JUFuyP%#hLoLrknwCl
zk2Nyzy$MHVvs_obGlNf)N;A`qKLzyu85CXxy+0yRqtk^S19ubb#2yk@(=QzW<ZS7m
z^!6#x8naQuz~^Q1pESK?&$2WO{{0z*8;f&Pa0d7>&RVZQx;3Z{7x1c*=J==?Ml*FO
zi`NSwrq=4TDQd0Qgj(VRyEgEJ$KXWNLVL*1;6$RwGdNL;(mh6kgho<HMv_KGRCSfr
zViRxS`y39rh0p1B_F&TMml42t_loS^zruT^&O~KDF^%#Fb<%32x+Xj%g=ylBm;7rb
z|JsuODarp-$-iIn?=Sg}Nd6-Q#}U>c%UDzY9rgtyyM7%NtLzC1<Tmyy0Y5%txHeGJ
zr|gQOlK*JIar7}=u^;{UpF1to;kHx{cU8mqMW@`x0<&SrY!6QM814*xWKp0xZ5y?l
zc5(>c8cl(M<0-xl7_?di#xl57hfx{ax*Sj)s#FUmehFJSyVWkD`BU{^hXEIyIPk<v
z!Cpd`lRNJL#^vEjvH3yR)x&MnKE6h*(gxK6lY!O|Sl_f}6l=E#s6aGyY~-;G%u)lF
z!O<14GrJ4n(HW;e%^lSB&mcRX=9mB#9=84nV&-5mho0dAGUgyMU}b>F(ayyNA<(`g
zcmq&$_o}xB*tuc$>@rDbq7|?%uZ4RPHawE1Uo=%p92+CA3{h1EM@1E<D(uavu)vfx
zZ#oFZ<LfVhK?r!04DG^jj17jmO>cW3bq-$^_U4q3I%uo%5Qh@ditiI4sp|Q{1><ld
zwSv5ca=vMrvWw4Q`mhrdj6DU_hVH2&>C7q92gon=2p*UNHni}swl3*ndamYt&8RhB
zlXTHJJViF?oS2w3DgzNrNvk2EtC{WvqWkyrW}w=yDQr~NlpBm&H~PRt{gk&Evi{t8
z-7GG8(va=vR!0Z-CfM?1O2+i|mI{GS9OY^~5wj0{!-xR5J;7lF=`qb{*1Eh$?In`{
ztAQ^7QGZemNNk2`V4g9(?W)khMyOf`GVOki;u}|}BgJ*=wS4jje(KTCW{C;&_3Z@O
zW5q_|0pS6phal#<42vyfwT5XpYGIdn*q>wQwJ>h_M%;r;Fy1K#a1}aih7BZPZF2<X
zYEzRTMe+q(a-XV6G3g`IFr>B#O-wNUm3PK(Bii32GaW-hwUaKE5_LI;OBnd7RxV%X
z+Q+s&GPx7?iQho2<N)0+nba@CCS#VV93vmfe%kW+jWNvnjBG~$svwG_SkBdfEFh}U
zjScMfaoGW>jqDpExeFqlW8$ySrWk`y-74p(r|Lm$7`mi>Gz)s%_&8`KvU?oY#$>Xv
ze}g-0yzIVsrDEVuQZ=<e<q`>(etEoXW0~0(>0%ue#BS7t)C9kNp5=GoUI{TtclsFb
zyRwJAs@zzgo$N3^2rJX<qg|L-9@m5)nXMh5HMBxCA<{IvrPQ<m7suZ1D&Y3mrX$7r
zqtosO9bLZ!-sOYN9?8=-eQ>6?>|Zr+g&p^DAX@h0dIrhArm*&@J2`1Bl=TqQFnd<=
zx6i${a8~Nt$wCw`tAISM9i`UwQtSFs>t3mK?_F!L6)eU>GcGs}qn&fdaDN0W<i;Rj
z)KCt0J_yH`?AG?$881N8)tfofwAi)d&b|-3_S`secTeH;^U{Gc;PwSuKZXh@?)98|
z{eECGn1Wn6bgt)q00vv4OD>_d`(r0*k}5WTqYp!^z@|ez<#01h&oJcrxrN4JWcQ3!
zQRJA5+z-X)lXuoieTR_h0Zig-SqR?`ZKEux>_I6SpRob$=RD6D@Am?@2y*WAg(LR^
zd%hQ_12Lzz8)!B35up}RS=#qdT4cjQc;U0f$N~1fncWnoeE~1}7Yw@NW9YYPjrBB?
zJS~!^Wj6Wyp3cQfCSldu#kA=W-lrS%nZrb-QK>V{M${Q-t}{b{{JJCApBcmz1RR2*
z*~l~_s|0Oj2i7eN4(6_Mg%pCpxhMdU{^c6LoVXfR{D-uzR^*fFBpxeepQprk$oW%x
zt!A6vq!@C{G?feRfZ|gQbzVDOu3vTSBxo$UcBS7IXZ%zAR#JZGl@or*S3&oo*AAh^
z2aCqGqo$dOo1eY$*&hkyCq}9gjFPzbn2D=MQi@}GiesQMnQXh~&b>GC?#L42c4G#U
zt|sHXLSs`S9C0ENryaGlFoEJq@{gT@boMK~>Fif}^MFRP=p~<T83D&nK>?M36QnoT
zK>8_d35O_K{i6h<2!%&g!cGIdHL8T2CVFdD2|KJwtsv|ywNd!fPup7Nj?BNXu=$Sd
zw>-b$DQrF{^&XN|9bOa=b8qv#?C<UP33)jLPD4C|37|bH7hviCLQo|Mh{!5Q*!E<K
zMnwEkm5ppETZM`dDU}*tES<u|ibnFR1OPFmCD<EHk#Z6KaRLg(&~=PPxt>(oFhDDi
zHav{9K~g{-*?9^FF>K9`iT$#h84XY@c6t>O0e{tbWXrULG|9OrK+-4CHh^zbN(wL2
zV<kmToszKvND6LB^@EgDhpLBP>dh@f8pboOiefoZ=Xq*itC6W7L%`Dzq&CuYN?M@>
zgg&ANEmh}}kgMZiy37}1HDFpdErfO&x85KWNC5CU=pJzkkxKheu7)AzNa~0^E0#;!
zVbx<)1MOQ*W{pz+7KyU32UIB+DNKF^Z``47U{Yr1KfdsT>3{auA3ZG+f0v9M^6Rk%
zHi{6XCi{lU`z9#O>%3p0w2OD)$U&S8;AB=@RLCW&8AV@X0MkK{Vro!g0H2mEgF`v7
ziF^+2d(<J?>n7-QGHg}*l0N;pm^2|$3>B^93)gB(Nu!N@iOvZkul;ouZLHk1n(VgW
zO1vKWg<SI*`fbGqPj}C>N}kq|2cS<+*;iZgt&)7J=1xn#H88dA?S8mC$Y%C-0~B$3
zQ5^Wg*u|mMQi?MBcUwwp_eg8^l-3@V)*ih#QHb`CtpXUPdk|_bhC1PMd=!Ny6)w|h
zmON03Qa#lM?cAhOLk8`@CFs$Usp(6eZpnlDtE$Z4@myc!MiA7y+|}E@Ik$}w{m@I=
zLlc_bm;Ma%WF_hj!+<SQ)(RPHQ%;+*IStPp)-Hb%Z|S5}73-X`>Fix1x2g*i_~Yjk
zESoII8R~gg2>OD2qFa)x5S)OfDYGEOR0gmlVH=Jax+TQ}q88v`3SHV#;bG+JrL&e2
z4l5XLKpIvGTXDu>ty&7LBtz^nucZSHeT{HXT+U)LRF{DseWL(TXyaJ6wL<vWWORj%
zj;k8k>B@Um96Rq*$6_TtdtGeB=sQWev9ML|Pt~WDO1)*&?^-Xg{tT-5^k2Q7p4{V8
zZs5#@d>+`^^ZueKY2jA#a1cY}WmR_$cgl=!#I-Wxo8sIq5(|1G9_vQ%_$IQCWYc9<
zW%Kw(F1KnP-^3&fu}%ITv^i$T(U_UCWpZR({A~&&x}f-flJ9rO`4{9c$z8@!|24$o
ziu7?vxQb&*wv|HUm+geVODTyxE}JtO@wW-LpK{JUa8q?ftCA(kJ5xE(tIMj&RR(vX
zG`fE^lVyl;mPTS3WpA0XU{K#z6?)!#w5^ix2<Ul0vFb~~HBxX5%nzBT_djsg&5V94
z_rVKunfvZ7?ADWlr}aVahK1I<t-s%U3fF$kcxNXeGy0zQUGIFR7~4JLEjO;ZVV^P0
zY@8YVD28jn+RNcx<@yNz&u+SLz8q=LeX#AxFvD75Rrh;)-rcj%QtaF-1!5@lG8O80
z*8v^H*me}!x#p1snpQ;bcLO^X+l4;xg;xo<w#3u*(BGmMQav#De8CU9qh()n$=8AF
z3FkIRzSYx~a>JTZ!#b&9-3QNq`=#42Eu4M-br|PqcxKv1>X6=B-nr3YbZaTPON#Eg
zv*}K*wD+X6_hd18it9^Kf=n^Gg}>>lk7{Nf2ch8Usgl1P$TTqLxh-(!Yd`d_D>&9M
z;P|$=Up$De2T^2%X46G-E|Ei{Sb?bBpw|_7>))qXLnP~eN8utlU!+l{Qi!dtpjLDz
zitAxr7u|<KN|4cRx(|g=71eqTE=3_+B^drOC0#sXT4n2f7;WL!Xyy-n`}l2KOtVvp
z?p(AX21QgMCsK6NqMc$K%3UV2*4Y>6ni|-Xm7G04aUzam2~<Z|R37GdYIYgBMnA=n
zXeAM+q)9)&j96CsrES{2MVGfJX9qe)dvKv3zC+Ix8ERMjJcPT+inH=lehbzvp71TJ
zetzooLt}v`{dE01rKF9k>d~!jKB2^#yrzQkcS>pWZS7h)Sb9;Q4ea8Mezr#f+GQ~A
zIn<aNHO#{&+nC%P?%u|Y2V(#+nYdDx($K~#l5&dpd2%Q<t_JxI`Dp>kwp3;uWRCwE
z<H{(J;u;F|lYSO#$B;ETn7z)*c6K>e3io=8_bDkAtKOHTX)0t{@p6FGLRVnOW(js@
zn=oUm$h82guciiuM^fpea*KobhbZ-5)2bv|3-;a`p}vjmBo{h2|I-(K{ncN6^=^G}
z>ycvJ(QEzXNLMM+LxMn?ijls8HT<xy_0uN($nAen*Hfz7CDrY^v%PTeY_aZzM*|}3
zN|7y6WXr-!#mJrq%^OS2`=sW5WlyM3*98m4Ev`>cy|q=PEX(vs(CMjJ6r8piwxEa5
zDD6=}$fa)~s1oBR<54Nx8Dccexi|rY4ICQ&Zf5wqi^mLGnXxI$Tb_jbQ<dX+Y&lkx
z<7K$K50lR(M~Mc@F7N>DYcPFqFgJK=P|T7Ez$E-!@r`Dt`cNY=oWfEX4nyBD!2HRZ
zbX!U4?jzReFf^<j;WnnE<$_s<wsreSxbRg&%dcZc`YO;|9b%)(_KUwyQ&gM&w_!pu
zL$w~sU6pZD`sIlckw6QYelR1=e_@%PC>2++co>L7RC%$79GaO7MU;a?pNAeG7jmU`
z-?nfV<{_o|6{KE%mpU2T<a}JCuIqcGxR20dO9xR5;dBncQ$LgZ#=-mU_6MOZ*yx67
zxrgD7a(LCE&C*_r_}C^u3}KklhTiEXVIfd={SC<v^^~H&ui)t86Ysy9F)2|OX?u`J
z#QIOu*L*KwbL>x%WqJSp`KRh%y@(&9f5kteioA+W1^`+GX0SnLHWzf@VinDSPIA_f
zL*x~a##M}yk7{5HYy1(#kn;n4H2WqJ6RctO+tvfgp4rT4tc4Kp@2+{z!YfkuUdgw2
z(S~^JeXge2&2yI79g=g^kL?uH@l)sf3FZ4(fWtuws>%>*p*<?eW~m-AH-(gtfT7xi
znKlndc9}uU1HqB`E%4*!@>C7NZSdn_;S>=MEf6sV#Gq_IxCb3^B!6ZB5s}677&Wz$
zjuQ&qAZ^07&^OFUAJY5r7r<YT%nmT42dD#WP{Xcd?OQbozm|$>R0C54kUP`DC?|zG
zl3|1g;rF4Yb@11+aC5RA{!lWaq_aYa!kP%Pno>S4l|@DzcsbT&BjW3?)<C_YmNq_M
z35q1~(NW+Dw^6ZWAQ|;3Mp;<0!nq0CzL0Gg`TQ@;3gS2d#A<nuT4LytE+5}W=!Bi@
zdh|O?)MI%v2R^_~Qxf#x<_VuzkslIe%D5sCwIah{)TIW%@fcu>h3{F*TdmcmDy_S+
zN<lW)<eE#k5A*zTu$5o{qCPI|f^$;<`f6x?FKHUVcK$8X&zX#*uduxXN1#rHZR7ye
z9x$?kEslw@pLeJh0BDJ!m?T|UY0^#(QP!%&ldD%4f~s^rYA_K1Xbe`-9nh;J`rkKq
z1y0HTwB&!f;CPz#ME|nUp((<q2~mS#fsp>0zJWXGfcV@t^HYm$lZLZ~4VHGt>p&(0
zJ&DXnF1zAj8Ki}ZF7CHyb;mB#*h*~A-hzW;9k|jpb(!6`>O|o~W4KZzJ4E$WA7tkB
zKMc=Gn1@OM!|+z-Rm#v$YTk13uQ4<j%dk2Vd1vRwF43J0S}5Pbc_=veY*7CLa*F?v
zMwY$<@R9?UjjW^$TVFf_o7ZICd9rtf5k_-qomC~Tr_Sm|*#Jj9;Qo~A`lPzPB5cT#
zF<J7@zfr8){;|zMB0LsFgolxz&!R~#GOxiFOICI!#|Fr55pIxi^A<821G0y|a4Q6&
z35T^vw^VAgh87KWSl;XZ7;Qzb+pYzS@i4XLA)jH`_gZ`nBxYzVs~*rJ?M8AukTbCx
zu{x$;uz+r*5O?Uf4@A8fWs)&K3;|h4pcr61pj%Q~@u;*!UGWPSIlFa*t|{-Rw;~R-
z)yg=~LO~5BLj;8LO!+E|wD=H?zD;Vz-f)Sw*GPFR?_eek0*I|=Ra)jKvBA7QA7HIy
z7jHv>s1^nstjvZdz5>M{T)xfjn*=<{6i;mW{l((5C{jE^&QUnnrf5a+_^(iaNBk=c
zw(M1QIE7JmmuCFWBVMk};>zO@Tyw;^6g08K1Qnr`DXyj0ljIyChdvMw^Oa+vd4|hD
zA>Ty~%{cML^gW_DJn}7<{tY>VRfIdH@nL@DGMmvpKC_d!P-*1+1;~u3?|hC2!6H$1
zWI)|4N04;D@KUitY8V!YtE1WP1?Be*@qb0VWoD^HVH)y9nhhhIp_Ek)-vj~!)N@LX
z5uDkROarFsM5|5|qXq9kM_|F%3ZA9{u3aYaj%`xwwqom!>60+T%+1Xd!`(156KyX=
z*F(MoRIj>@QeCf9*9$x1<lQROZH2eB4T>$_cZVOW+fj~mmh0Q0A_Iw#NFP+YOHEs)
zCaBFQ9;kWu`f!)dbpPxLa6;O97QA;y@5f*uwFP9u1^3<K_hYA_fBvv}^?YMt+fgZg
zRBDD0Yr{vuaG`E>p=Xa&x985~VsIZ+^Mf6wU|b5u=Mz$JyYk*G1-s{uNx^N?HMoXp
z_R5X1`5LLd4>vJ2ubDq~$8`II)VvGjJ@m&49h(dO%>~D1c7|!25pA=yNa>f|c(BqD
zKn#z(1+t#X0l=2DmBhx_QHKp&pMf;*AoWb<M^)C?@<@?UbOSV1D$fR8o?O}Y*;!GY
zYI4mAJAQS-qcrpz&@c?W4^jZ7*3DAuW>R5-Bxf`1OvBvIl3;CfNsgvz6O6xu4j70P
z9Bs?H2&D+vdw3UZgXi&G1Vd4p3L@(yNM7b^I6Ppj=p?pGsi(wx>L<lSp59M-yxv)r
zN9H4@^7zS0olu$VvAtE95Y}0Q>}K9uf$H9Z78p9r$vVtd(P2=rdbGn(hCZi=RIp-)
zJ@!a@{DFt-MwZV-2+uOZM|ISjW;Xf6e~a!_KnvNo9O`CMa5<FGPWua=kF=u=kg(lA
zhV+0{j>Y7b6{g-}bDgK2-N$>jhAGQ!l$xPR2m6Aw(-fl{+1+Owq=pT}hD~MM&utf4
zHeqJAU}iQ<`({lvF<T1`E^eZ&-DUlJ>M{MS0tsw7Qa>5?JFW1_UWKT;(w8whOh{xy
z?Mn}+L)2OPFz_mG{HR#gr{dpY1Xi4a`iSrY;4*a-tuR30xJPXDacTAO;_80M(K+pz
z$uLETZV*Gt(N*P!)x4hq&_lEmsAg5AtzA0QH-su{kG6yfZC`0dF6$}t6i~-0tCKG0
zGBeO)1t5%eMqJY^=vHKD$>&X%4x-<1doT&K!Xl6L?Jh9xIIWkU2eFAyRo1;^#Zlb^
zR>3cJkkd&H?F6zP*Tdv04_6+bH}=u}ppKn|l!C8w4!2Hr8_Z$jlr$U{P*LOIsH?}N
z8NS+bYxn%dTcgt_*|EA^YTaIL?uMKKSvrZWqCH~=6inNE(<iYB2ioQuKP1~<b>Nra
z?h2@n+JwgV^f3s|`$K%+MQgQ3gOmF(kJzATQM$(nCs79ylih5j%ngVUCDH>c-Nq?2
zt7?#?7mPR?>NoNhf*BcvPL!mo2g}M<sn|VLQvq4mRPg_Czko_PWqf}_j<fnrH6;uo
zsx%)V4|9WRIFM>gHAXXK*e8Ql9kOL8_a=ux88*o7T4skVLpvE#1+Wg>1GaF*Zkm3y
zvv8pEV{{o94ZlnQgsI6Kr(~tDWyiKbm`u{<TviT{zw(ghA^g%#1(OO>8t&KW6$ZDJ
zvkjUKI3?{*u|YpJ*VkyG6AX@t4l&pxH;$CTJyN)*7+wd6u&%XKw^^#&yzp$XZa2Y#
z%ikY1wUwH-NKIRcP227?N=*lFfq9w22ozj6UwGz}wCz-}=`?~Lv~`p{&EK-j9a}IJ
zW1A$;CMFs~vM@zY&yvj&gOGDGgq#B*+zL4#Ec(|L9BUu5Du|}=X}7W!HhtQ<jLjWr
zD})^i=puS>C^TYH;2_X;EpamiC`RiU0<UddRVM5I6Xwig4}(g0<eM}o2k}Yc-G@}7
zDh>m>mJ_#e?zwZm7&%NwgHxcR!A3`eO*tCkk!srT4^TV<5=5HXxDe?a$u=@PO(dw8
zixB?};zSU)6w^t6LJ@1pApn=1iz4mbyhrH3<LidHMWiNkIvr7`86qS8C54e=rzU;|
z9wH)}Y>~MGB!e3vncUj>5czA#zjyvH`S&i?SZsX{oq?Iq%n<AdU7Try!CcH5Ti>F~
z0X8=-V6ovBM4+%rY7VVhv{Mk6(?QBM6P28eOHK-E6`GpMjjccOuCZ-FmimT8JNdvF
zZ(MYe4<>!1i*E9HARNBP(gny`@73AP>CZ{d)}<gtK5z2aVoCwz;{}k<Be=XvUh*~j
zv?S!?Nyx{)K|a_4_AdF!7jxKJA3AH7(3aN4u-)dG8(M-{e+UMLY>f++MFBr|EKBsW
z*yFLSyAxUz@N*X(hM&b|G;SVu2H<Dmz$f&>77*)j**tI*dLg!Rpo1lcFd*8aZrn?+
zA!s?_oVa%i(Hob*fUr!Y^BTzUI+BpuC1P|%iW>H2SJGRVOs+ZQ02$j3^<w8$YuqU_
z+o<~ov#Em<natIr%$nW)iIFs{?laogql`Dq6OMlT4yzrQ`j|A;4>8!(?Vn&_!!)?a
zMoU8rA9J+&F*+{QV+Ti})sUQIL%5^5BpiyQdSqrK6-b%VFTqh2hZB8Yq!S8E=<mQU
zTM4rlKS78}Rb#NB?5@}wR5*zUg`6a(9y}WMla)P{RAg~CEyg`?9tD$p1j#08D44y^
z$vDAB#>2zt<$BT&X#Emf9$OS=SI=#q-&d^bW2XeW5m<ePow%D<Z(J=!HcF9=#mMGq
zPq}GLscEy+w3+Tr*1Qk>jk5{ps?4vw<C1zv$+zIx&n9p`KXP3-xW~pxPboV@(?Wfy
z^BEFP!;Uk-Y&iUtQv}z@8>Xq8A_VaMlv9Ku8C(w1C?`R5RgX?T22~O&Uyvg~8>$~2
zVjBfd3mSqer_`idSV|Y#pf2x<LYW$?HSg59&`9U5NT7HXbyr*71(9qz6!0W#zF~$u
zpBod|u0UDTRz8ufj4sD1bWbB#c0vbD6d}ct#Uv-19gkxO{$3;y50dlm(PmIfzC-a(
zQ2;w&=@0>rTA!lIOs@=LD<cc~q6V1pZDc={LNyTCSF}@E4k`$n4iu?e7OkeTpRYGP
zz>bMWEZZzGIw}ctoI1yEMQ5u>NjSOgQ!OMV^{>%d`dt*w3G+-&WaZVgx`#AYN~=#x
zt4|kKpHVPGocr$_y>+zI{H)ac>^*z2`4kY0?{D2Z+w)G}t-krl{l<-V&rbWl_ecmG
zUtk5SmFm`(>pRMkRpq9xawA#Csb2>mqTZ+Q3Mvz<Q_{Funwomw$9`YPHEk!2;mEX)
zA3DcqP+iqvhYngW0AwExQIy8Li=5}^l^{D_#4F_6NnzxWajWbl1ib~2!2w%~^Y#VH
z!kGn!)V-6=yaT2?I4$WH$}M|f;o8||i!jIlzi8$%$bf<zLS6IhfkOMnLi0u`yb0=X
z;hl?=31_pb`4cyMydL!RWk;sEMwd9}OXW2aqm<t#^XTzL#-v85J-QTNRYOluL&+&q
zL-8woS?LD~T=so+O)n9Oy8Ou2c-<Bp(BN^Ch>db2+fsC&8&qT%C)$BK+@RnBbsMje
z4qRr6K^n^C=WpOn(>-p1t4`eD7NKda%YG>I=P~h77BW?z?a9P)FtQJ>S`#oap@K(v
z%ADd&i;hc`h#Yq}_;w%PA@r0FsQYL)!_`mzHAR?hb;Q{?LTm;^SCIU(a((3qNxVnS
z;g!9xwWYr<J7uUu)}jTB{?A%|*7dXQmD#>VCr8o&R<M~^!Bb#XV8=y))sGP$t0Etr
zN!3~K{x}Ss$T3D|!23!$#3cg&<9f7MnhPwBCVADv=gBwBe-HZNM*J@jjc_XeJs0kg
z3#eHkSE-q{gLoIN+nR==79=n{Q!uxQ>j<36bp&kyo}9Y6Pu_Xmop;g~&zmYVv~m0L
z2b#XSev2F~C}?LF6gbb|iUD@bfD_jYIQ!Wt!_;bUlN=@i^mX49e}J)EMk>SH5lGW<
z>7T>-dCN`VI*3`UCj@edrjj>7VaW7NwpNTr12ze0p0Fox(RD41fJYS|%`#Kfx{N5`
z0Ge-Ak2+>5{pPxjarUg&?YxfXP0*Xb4$H&}WG5F{ghhLttq;*qE(xZK0{sBRGf7Dh
zHgHj;z<NV=&=O#`2Rk?q>%tox(By<lT#n2%iPEXj^H9j98x5dhogN%YT^J)UUZ-7L
zyT(<1IB_0KGfI@9D}OIx7nwY|!d}AHGbhCiOpId-NM-fQp9vbMF6v`i@F_F~VrDqN
z=3WLzYW__rvV&PNp4&0kGk>%YgMH)erO0k6vU~c-16+=K;R72PGrk|%ipzEjp{*Y^
zG|#^L&g-{c|N20&p?9HKYS=S<tQ>Beb4cNM0gAr~DYU)d+0M2S*y^CEgFT&oV84zL
zg=Kd|)wo!PhXXVO)K~C8SyvL1Q+85=uHa_tb2^+Z;wpFy28|9A-r7h$0v=U3=Xr`h
zLk@Mn_zXFm;i(sF<Ar{P;;4=y0jJ{Ya8xMfXE-GD%rhK{39)^2dB0Dt{V4|Nk7yYF
z64m@02FFA<&E#~rUy3|e*aBAJbAbLEx8thg_^o)Ual1tSPZxHbf(tv+pg<kHakLa(
zD}~n<!@ZzD1sY0$PASk?40KJ~2v%vD-OX_ascs8y$*g#T-~ukQaO3cfuHneW0x*s(
z)1F0ZjdRBbn->NA{ATA*=;vct?pwd)wFg`u!?e=+8OJAX!P^S+)TGpXM2hwnB7F~<
zI}59J+}&~i|F7=bgWI^y{dNHY#ESq35+Fem557e41&I$y7RBiO7A-}xEWhH&lmJPj
zX;NO0p~ZrZ<0NzGR<|a{X+<?oMcp`K`o^7M+Dxz9ddA9~WU6U14OUPtSX`-QYB#s-
zbf%C=*Ue3P+uwKgfd#mfZ0C<mcgTaY=e=jop7WjWeBbY@>HD9>MI}xY9N2K5^1$kz
z)%LqjIC$B)-Cwpf>?tc^lEireCNvGu|1wcH+C?x&_UD#ClFO7286=rxdck=o3K^NJ
z4JIIy^_0)HB{7gSS4J#udC3i!AY_>tVz<@JHK%ea3rANY0!Gkw;W!PRcJd*&JS>R_
z5!RDK=L<q7IWbCCN<K17#e}bg^W-a_b&gROIe$%q1}bDSAE+f+x0x6|Em?Cd*g76)
zFW?vNy>|V)asIJ+ix}?67E_Rgt8C9&$p>Q1Gu<XyL(6u$-Orn##!wc@n((XSJT-3@
z!`<0p3X&K?NndNSv{kgW!4jIHra%oki?*njBH6M0F=FyXo1ZoUx5hx4Nzo!QuJESe
zX{_p?xuC!twY+I~*Q(6YPlK9@+5meDFlJ!LS)wIO%FrBjYVhl9QCHOcCJ%{0JIoVV
zWbx;+?>K>MSHe`MBhm7hGwQ{^FXocUpp+=lJy@r<SoJ{C5U6g-iUG;N%2*lF0%2~j
zO--bFqJEj$lVk-ez~b2ut&UYjYuHL30OFf&J{B9)kCWTz(2spkiL8Gt(Gb{1Rnc&a
zkoRi9e5wT<8i3zB7*-pudUX515UoR=pj<{s?)jo<Jwn5*S2so*^xGG0TqAs4tX6)q
zrZrNq_bb<_+iS5}_Joe;dOTrWw0Vtk*62C)DO&Ip_0iT?1Kz4dzYOWEvbW@jHA=$v
z=*c$ZT!)@)!fv4*{`E{Wz8Q2wN5)C~A2#hXREU$9lm3j>j~|lr796ZuSd$q9O{RG4
zBJ<$Xxs;+DEJ_ZXs2GA_rZGZLhP--gC^GZ{WNLsnGvO_WkfNJGG^$C=au}cSj0gkg
zA<TAqI5v*TV&?`Vx=r{Vwdfs;fHf>eKZhu=gY>z9DvMv>FRjTjR6b#((I^Gw)M;Mj
zVVRO0HBGekCS>^>;Lr%8iS4}!>F5WtL3ATW0?8(^oiR)Fa!8B^og5R*$A*V4g;|MV
zKn1geVMPldJP;47(vc*p$C@A^<{U>SG#hdHH58ZV0P3~;WrazPYDhT1_6ieq`NM#*
z{|eHCX(ic+@`2Q6FH75lqCGe}e#hRlShf?EH1Y#Jc2*|+dsEJRNy|QISIt!8c;Ww|
z0I)cR@aAP%Eebh{R<a8dFMuQDb(BsH3a}HPbX<t)uD6NOBffF`$?I}%0U)MZhR!Al
zN1xy&pQaU%UEuj@u;CM?ZxN7|vWzH+@XOe9W{u#VQ5O%sNV5%sD7&&<NSJdL*|aDK
z*dEfiUT~p>pQm*709DHt)I~zz^ID~%HAKzl`P@bf?IOuscA;H5D#m)#IC7~QM&Kb>
zjxrM<FptULIWuNJQJvm(LU;-TfvmP_r<aWT_;_r%YyXI_r++NoKh*aqrY;gWkcL=E
zzi{>f_BCfm#~{!LI%gV9V|FO9rJ?Cb8GaVZ@^^>?Xu{ag=m7i5l*n&Wcm-%G#WoEy
zT62bwr(jv^3Yx|67KA-iIOzpt+^5gb0SB8VQ8}0;V^qN|O7IOz5PG5i`52($p|=M8
zNLaxJa@GLNuresNa_p==ia?E!a29C)$1D>|+B(Dum-&;@-itloL`A{3d>Zu(jGjK-
zOds&?kp~+mtquD6NV<NTSidb@zfY{+2Z6hax^%?`v0?*=_nM}34Xk{0r)&0$HTy}x
zPBvXv+bO{^K)8X_VS%$y0$_$sw;hDO46z<7gRml7v}s3Jbc7*^cDF1vXP&pD$~q+E
ze#sUc!Q@n@eXXLel|WH-(}O)(LF`G{dL2aEwt{kJ<t5iYk}BJ}SlyniiojNF2w)6%
zEY&EK&>}*B$VxkQh>jf$2jbVVrmpaT`r_!t=K;4E5kUW|i1-{=9?O8?=!ElVEEXk{
zb_pZ~TSS_B-!VzN>HHelkSx$66cTuu6QRO)RWN#v(L1A01S(Z-&gD<~n^Vq~q@_h-
zamnJ?3=b-j$Jwwe&oKv*Te}%iXhbanqZ(!$MbAi=8U{U@^E@U#oT$)j!#GT6df^o{
zK9Ajj%-NuA1G{o~4Zx20TUkE3SZnYMD1ZuoQ^|y1rS=E$MFv%QkX%MJpE?<>j#HL-
zaGhxH!Y<wESf%M9CvMckK1`@7crM4Q(nB=_j-uSN534g;6y>T^;|R<sogL>_Djbf|
zVsPtJOa_MksFOm|rm9>%#h0+1;}gZBs+71M@<h%=x6*#prH_+=y%3EL$f?84rM~>X
zftkTa86IZTLSsa*kAmkXT~W0MUxfy@gl{=mtHkDhv82@H?iAl(gW}8mDm70!G*7=S
z7q9pr0?5B>SC-hpW+goLn{W)a<n9!oTE0P3zRn&iVbb(0?Wzl|9PH7TsN1BeTkqNM
z&Hh2pMsi^F1r5e6bQvH+Mw)K~j~gwCn%{N)SpIq^OLArjk-I}DcS#PhRPDtQW^~Ub
z3k#k{E(r^Xi4Fccy8Tmfo+F2JVkdeJk&%{g4r(~uFT}#bBcnN*IE-`k@aP4Q$(WvH
z)weK2{x3u%)$)Ija`vBm$12^iIxkcC3}yFy@?E9{B18^Nh|HqiJAMWn0uV{Sb7ZVB
z94W>GtlPqGks)J_0@U*C1rXjB$1*0wUA!c0rmVjthv}y?IFVs0{fCsJ=-k-Q5LDlX
zM>lt~r9*l~A|ixeQmS8*^DA;XsEmIEhb8aoWF!S(CVoVbuOI_#ZZP9_`Bp!j(vCz@
zNf?i79*Q10V+2P$Q#5*^e>`Ia*ZA}(utQ_4?XjVZN8Zhh#0TgEp3p9HYWZ=ZaAm?n
z{*jo9<wW*Shs$zsY+ahDFI?kv5<Nxh97!I5G?7he-1P^(@0)VUKfoE8ehgxm{)S}Z
zCegnc&>jQ}QYX6V=K5~~^3u|jbTxhKubbQcSN_h|4o&TuF27p|4908EUw!`jFGwht
zsbEJsNP?TG;MR0-rx@G`^S7zWJyVD7miw+8m^m<eC<SZ0`xYHlX-BQ-sGV!R<7iV1
z{l!wX-9HunV*DrLH!j^Oz2&(vncDKGSo<hYR8*rJ$)>G$96f6Ow;JDWx!y7#n}2d4
z{`1Cv)B3a4J9S6zIF2nkd@@Gl;JoMR@cft<?EbZ5Q`W^*b&>K$#q>9@yPAvKwr_+@
zkwy1W=<Sz5RoVc)B)|uo=3W-7H>az&iPhU~?ET=#dq>i}kBYsIrmBxl_1&#&db{m<
zTXMthTl}56!|A$5#kxlq-8B+t6$RBhla3HD0IEXQYOdDI4Zd&s!2X{7j(>03e?asf
z&?c>NP8~){*^EWxM*p3_&U9dp7}#^OFTM8(aqknUz>`x)AsKjW+tqE0f#$_f`(j|@
zA^;VEtO!3&m;HgonqamJtzO1Ct8=Ok)`x3q=gQx%zFs~5wHw=0wTDyHN2dA~%R*?E
zMAz7)t?}rki!tyTzDeVpRuzWOz<l~=buX<&>lEqGH71=fAX9<XDaLw>p;&lD4Z0ML
zDm|;Aa4euLh=tFtg!PX`;n*HRZKzZUWIXg&bv4C9DIAp=d03s`p%zj&4xCBq&@VuM
z#;ivds1CDU3e7sGN8#8(;aD{5aE(-&*2VUh=zUz8x{CGcg48iXu1?r>DID`E+D1j+
z25n;;td(lfx?h5-F>0Q8t(D*MK&r<0K&qxlQ@$Qmqoo)1s2UYfMwhC2aNWh4y7it7
zUnflV%3tP}C?6&Pb*UPtG(hpe8U+?R-mw*?lWjSwW=&cqCtfJgFm{=S`3HEzOlMNa
zkuNlZP4u23e48&zxe(EEQg{_lFMJ!0viyIK0uodun;<XaHUqofs7N{wzL2-@|3iu{
zj*p#Tmd~dt?+gWbq#Q5>m|O0t&1<goUUj9Hax!u(KGCq&Qm;+*C$!f84}93z)52_D
zJu{%CzuN08@po$)=Z62PX47kZSmG;ai9dgB`08*f7)b{^#b9SD*qsjch{2vzus0pt
zBL?>X(>hhTzi^FT`eUu}rCeY$OhY+*v%%Z;CY|NIesj96N383)(fz@;_qL_C^@-d1
zQgt9RLTfDT^=WsD=x+HuOM5Qq+DrSQJC`cxoH|MrM_5|lH!ACU`vcZ@02E8<=MoEF
zPgU>DTiOLeGf>&R7-CH0(2n0_;?P~;21x1x@*&S|2d@FF%qR~_4lw+hFaXydYFhXn
zDObT2H7URg*q<1B5sREgSbpFyH^LeO^1|1`a$~#~UU|8TDEH-^*tG)N01ST+Ag2++
zb{`otql@DRW1ky+BgC@A=N6YF01TOs42;u196kLF!1j<xgO(oFPau6Dj9^wY45+7|
zVIpDw3;@Q;%A!f0B46Dg)2LUahMURq#V5K~eVq&tD6gTba{X)iT1W7lB>G!1W&6k<
znmV-P_9p{h5#3(_^g2|6%OguoN9IP;O-Drfd;HcpIMX&Dz_=S&(!ICcds))kYbL$z
zZpeDMsxV-znYt7s1oH+8x<g{k(MrFTid61|ow%*51kD(DNj@WaqPC!0NJb++$uFr7
zXw!o}AaxAdbtv}s@|uWr5=_W{VNG0fw5l*6Bw-ZiFG0eHw6iekAIGSN=($8|3Jo-x
z8P{zsg*?@!1o(0q>nJ(C+XT2|C>z53jC$oSccM%Qi<A&tRVoz?mal|Lw~&;w2HDD@
zP)Jglm!U|TFyb45{?$d~6~0eB{w5rZ;OpdngB-R$&g~4f1KlcZVQHWX*N`^j)eOJf
z4qrOSqK&SwgnASSc{ZvQytZ8GI58yD-Kn%Ob+hQxxzblLUJDcaieC8-P!bLM9n&Wz
z8;qj&(9LylrfmPg<%d~<rJi0WtA12j2iYT6#q1-uUG=0TSc!FL+76h@bbYT_-+SYk
zRQ;i(JG|&_eAk=Yup`yHQ*`f4x*J)Z)ECGjx*M~loS&=>x*L<025Gk>&kNY2XROK+
z4)_th(*<VBG>_qJ#xt_%w+|kCRmN|DF~$@DabI}pDIiMv@=yj>Eg%z%7{kKY|2SUR
ziLqhg#{g0X-17c-oH1wUz`6ZYU&LlpUeqoi?)0d46e>-2c&MK6e&G4xcm(|R^*A&n
z`zFKqk2dGhgwNunB^JLp0`AQ4`S9pSxIeEjDv*HyM)HEy-g-bCN}4d5@+GUG+FM$V
z9y__OrKKl)=v?>(GSEQhxOk8=L-btH*tvcjKZRj8Wt5(PSXgwx)roG(YciFE%){}K
zG2v{C4uxYw@#Z%0yJBHjCPA^|14BdMGqLb<>$}=e9s|W`ey(kGDaay>55&=sQB5W}
zM_coA`F*7~obWK3BdoA|gcT;}MeyDR@C@2lUs&G7vC+6>G#T&s7*qA=ACe0RkDQa<
zu7+OD<v)rU=Fe$9pxuD*E;*MliC|e~XKW_cD~j@rPC`b7Fv#6iS~9|KFz6?I1#5!*
z7{8%e0fY%=1z4GNgp>AGh~iH@x<o4Otzu<sy0Sxrmb))Rf3THR)r7MvKUCZm!?W%H
z6d&1V%c{>iv!Q(`{Vx;qbFBqV{}cQ%EsnU9<xlPi=UJ$@j)DFd8aWTJCG^jakVtxP
zbQ-6?2`}JgB2e(m`FRbPDB=VTk4ML$A54YODwuY4h^~%>_LOU9(y~)}t~s<N@41SQ
zi#^u~c(i9xunZ-)o7O@7C&L;=`3o*UB2fErVWNR4HXdiiumBVja0t8uq0ClErWA7D
zkR)N!25L0x0cvB$%*+D`dEyZ)<3x2qS7@#ESg0d#jDe20TUs~Qohn_AGgFsWW=3vV
z=uUSX61xs1U3Dqf;iTp8YDxy9Na_%hqSJPWF58L0N#@uTcwo~+>w(xP`{XgwVax>|
z8wtwbiwWn}IC*Y}uy10bSUO9OOcX;l1t;tg^c4G8te8@V*-<s@T#SqZMNRs83_>kh
zmnoHSR7VBON|I>dDx!+%mEn+Fw!yS&AQ3^8i*``|1zG=nO#8bHqHDuqHPlf;fTY0@
zt`_4!NZ~yROt-{v^k{QSfldYJ1ty(*=91Jh`Pe?=yC~U)k~&8<4kheFt-`;+z{%Lp
z!f<u`h1lo?;CVB#+m9&jMZ^ge<eMRf2CW9Y`5)8m`_v*jyOqHdDQuV=qLC$vhXh9?
zl<}*Sj>$&8NnwmA`XPmFrQ3H{Ect#z4t<0IjdhK+9eM@Adld0E<Rh|@8I_czc!dFq
zA;(4&6Mb}mX~c|_Eb@P1F7lE!nv%*zhZmTee%t*LThN>=s=8mv`PVJcEY%Jn+8W!6
z(d0+C7l-EN(yYO3+Rx9E_$+=G<lh@zH_PAa`Gkcn!|INl4EAhx^LzPExCZF1PGsrl
zM%SnGlkMX<b2)@HncbiJ_F_{j1E<C>gft19ntU2?YPuzG>MSKCg<8k!{@47Ul;Dmk
zEYBJ!+|y<XlVU7>ZkTSwJ{Wp$=+>U(_G98BUtOlaY?SA^AGvSsGy!b1Itk$0^4(bz
z?ocVgS<7(M*<uQ^D12>Zo|*EHaH;F{n%8Rbp{<wg6nBAlK^^y87NC?>x5}64CtJsx
z>gV>oeen9hw~t*vMxv~+HSIPv&ik?)ev;h>Z*_~^h`>#@jqBaX!(jD&s2T;9$||q)
z&h%zY@S}0%es)((cQ8-gxv*CZK0?|_0klbLYnt++d&>OT67oTrm^C<w)yLYp?4q#U
ze35AvzXa>iuuz>f(G6-)9!#{>z=juvISi&F{2Io8C`z*av&@k{Ycb;$J0VT2Xc^O}
z!+Jsrd>MzNDJpF<&ti<K7g3gUEib{zsV*^L%u;>pKv8qdtS3VS5m(YIwgBkTiZr$;
z&%`RhxPwTeT@D2RryNT5d`cjM>p)s(%rzKB0}8IFLluK9LF!UKa>6V#ZMOjF>4}vy
z-<r8&07#=0P?>Tgw-@SQo=go<w)-KIM1&}vob?YK0O5**Limps2%a#p5J{PeRs`iD
zikvN%G)Zb#2Zhom)i}D8#hz!V@WMCoDs+WR7;xZPjfxZsECpzOCT2Xd%;NUXR?oe#
z@U@$pHH+D5CJwcq?IQjaJZno~MpaXg#N^Rceg!g*va~aaJxsTS7abs|X~5ih1#F^M
zu!&9>zU9m*<G{#>0lN~Fy$@s>BjVMb21^Os;+%lPV;m&VAm6DndnCwmqjWCILh0NT
z%jR?V$pJJY;4dlQS#kt8(0%<8`PsHMzqG>F^8>uHiQWf|83krJk4YmP&a%&K9lfnr
zQ60!KOsv5x6EhQYk%fj-#TJNfRRr?y{h@1BSF4f@-3!r_f7_IE$zGAPhvxdA`9Ql_
zx`S9%)1tRtI?KayObE@S4&mS&l`OVZFV@I8q|K;4JLLcWQK7Q?7_(g&1T2)e?@GWo
z>BY+dY*bvLfR`zSc2wk-RyZpD>6aT78qUgg8WrC`t!z|;8m|pr9ZWWFzsc-7TB<+C
zxCkcg>*jlttvlGbz+DR)7cGkoTfhVU;^RVi8xNH)qDHJIHqX&VLvu!ysov4dATzy4
zV)vonf9{LNRzdx`QKWn^%qn#jP&OPA+v+)_$(^3yCH{;8eoGFKZpu5OwhQ?uErsvw
zNA%7*9`Ys2!V#Jmb&6ip5!A<Cl&^NqCwkWdR6!%=5Ny6Sa&;sb*>m$`Dv13=^~bJq
zhNiPlbgY}3SlFK2b1LO{0^EP1oDB*(m_y>9$ZC9c(hG|9Ghx^~r6mjMW-sCI;L|QP
zdRq~24)JO(<W9aw)L5s>af+@^(9rZOk~KX&5^qzF=lEkZgD&WEmKTu?=b|-AHvEAl
zn_(MEl{ZY7M^zzjWkC_jG&obLH4AW0_hJmdB)H5wg^lS^;s~=#&*WgP<eVNXkqbng
zL`|AlwFUX<7-<2!)!!+aECwIBILFZidyUgWeq|PwRcSuCY4`zxgubO^8^Wt{=@g%y
z9N?r~(<?civqKZA_SIy`d0^K@jX<b%BuXYrC*9FvQb(NhOqS&&|0s^8LFI#l4R6D<
zAUh_@6K=V;%K<3I57HK>;DYsQm-4<Qy~9pTD^x{~sD(<O^d?FlTAEE$n(u+7`4ZlQ
z?|GUHd^j`q&^uxl&MGD=C;bTz>LhNv2Tx#`z&3Kyo$yXp4SR8}%*aYj+A=w98QLeM
zElv0)s}dE7O2`+WhJ;`GoeWIYOjakV5-!44n+$56)v5HI{Di)QGs-ll2OA4I47bV`
zhT3okg#_bdDB&DzTAgxKm7N_VHb=pg2r9J>wiZO;7EnP}<;@JX>%`k~@rjW3{X@Rw
z!Sz-@uwH94CmEnuuQgGV2#~h4+PV#^Tc`Aqp7f#;HyM6NJ8K@;PV^62N;57ly&g(b
zLk=OJrs$ATYF)J@wGU}Y;2|xcclE%QBx*D%9@LV$hmIuTbQN5QaH2L*cV5M?Nd##;
z6pjjv{OUvv16E@1kA2myX~X48oIbfUUxWJPv+wioX=481??h9UT8r{MKJ>}|Sl>{0
zL3dN%I-?eiT=16FDWaP1bFw~B|L~bauWx9k8r-_Nbamu5B<d3lgfA{*HWZC(eD&OD
zoszeK6Fit1Fsn*ePL*1k$0of`VcodAJkGsje2N?AzffKu%lqGyyv+{DN|i(qVhZMj
zr)jEx2fn;*4QMtAHG(YdX=$beN8-EErOY!zV{Xf-r<R61MM|DQqQ(lY9H)DdWFPDW
z(YRH5RX#HYg@mmxY*9vy-^J;%#H3K~aSr@lIc(A}$!pr?SY0xm6thyG^{nJl<`m#w
zsFa@`yM`pip(#xpY`IT#?R0{k%%xzUYlO#9a4Am+qTSqYM5o*66im4uy9nDzVFkS+
z+&?rzCxAE(8x2EL8z*I8y=YDvDckDPMhaDm=#dZ7o;lhU?s`@|kP^bfu{e$$!$Sk{
zQ97S`X0$DQp)EZAY(eQKVxY5!3yw3Xf<7f<hnz7ijEu+I!oZOLZH|(`(?^S?GtwC3
z$)Wr?aDD(xBubb&{-UxZ=`!kC387yg0Wlyj<xE^Mt~3)HFQP7yB)zO7cnH|ucs>SM
z_5RUJsZ_V5iZ&GM2Y?sJtz+lI#{Pdqp&0`(L5e6}#t5{Kf}Kys8mImzfiel?V@*aA
zI|iVGPgI6ODOFfqgZH5pb&>W(-$&(OLir#NGQ0k*y?0#AcdNtKdaw4*TOhM+d(U>K
zde5|F$yM?C%dfqha)stPZo3*_lXBX+R9^E>j?eM4Cufe%9sKj-3;a(E^N(LYHYH5$
zx(mkZj+q^EoqyIp@0qWi_sqqvZ%vi8Pwl<yskqWS(>!}}u5<SA{H{BmNZPYg^z6J@
zdW%nbcBVXsr}iwC`L6WL^t{olh$@2xO7B2&n9{<Z((M^?*c%B5>);0zE%Xm?wjv=9
zN&8HuAdq`sHz^N$Y3wNBBf9-I<&_2b*;Wpc_=<d=axbYMVv_*Fc6fE9BoK|gB<U0!
zqe7VG!4JvzFUfg}oLiJUNxqkmNBFmN`_Jii6TSULiG%fX3jGB+jF&}Gl1V<|a0tJm
z2&O(MlJ7P-)QXHv;!i;f0tmSb!It2hfsjjDzc@}OZ2}Cz_-Mv}e;8bNp??4>2Bg;!
zS8pZcTLl`CJyK5agPxCp#am#9fo05)k8P|A469}gv1rCdHA|nj#(zQMAJ15rk#_*y
zWXu3UC*_D@{7_eBiZ3XhaoJNMKMLdVLe_#E=&K|8G|uFKA4gO;eX0+=Bq0_5njgr-
z<_9ts*38#WUlC#c;wyqV*rs%8w^-V}=%`pM2_!=sl8%i4RrT1W%s6w{wCyhr|KxCT
z$Fbz`$L@5WO!*%dyHC#V1$Im8)z%-hC%aEhIg|d!7rT2tSGtdxwb|$$d+Se)3rABM
z_uTBiz45?epmlzi7>Gcqu&CS`e#`W><GSPB(Vy;l=aLwHB+DV}{gXd$_<8(i&F`IF
zrrY~%Tvh$tcEH7hTM59JBQr;U6XUN-`#VH`2ed#m-oUzapj!-drvnGXz=5Qt>SJ%^
zY%oO(mAk5Mv9=xn#Y-j5DZ^q@$3oBa<W$L0eUoSjPuZuRxm)U+o?u2U(xn@wb}hPU
zW?#JR3TF+*(oKt@)^w;t40S9-Zq}tj`(_Tpid{`;Hj%1sn}1QP-Z*XfqUkYr&91-g
zs#~mDKVL0YZBlIQF1o8{UnJYP_C<GKu2gi_!D_BIFk@Kyd<mxwU<Q|Z7Tu*uZ<FY5
zQa#YjZQL+xn>tL#N>#JFXU3-ve!Qh8x$Q`5OW&;*Z*Tc3j6}|z5xvclMUa$t!$R$C
zZ&&iv6I1&E>6~`di;nucZtoSxjAQo6lzUy;-732AR_BG3yEE<HD!RAcsJ(F_<=%O7
zv*<pwVua2L#C*L~SNdl9=Bj`+{h`-Cb8@zBw*QT1KJ-@4oSNM|X9L_)cuUIr$lsKD
zXUgC3eOOvKQ}Ko$`Y<KsnEy+Cth%RD?)4v1g6aNQ&+PFxf*+Pv%=l()bGzqlsnRYb
zla(?#^)i*t?#^X8ykIEE1Ri%uAoqm!8T;%LbLZ#BlQmmX?niDwnsLv~bE3PCJrg?E
zQ$9U7*CYDc7i^-hM=b66`@6G%IP`4H?lo`@=l6`$eJOYCZCF73yghuk0uV>3iuLoI
zVnsV-%D!}mTgcqK^{O>l*Lj1#Q`wWQ+$~n_zS(i}Oset_EWU)>)8P)F>!iY63;pQ&
z_v>#ArFxEt;UnqLaWQl}6?zPEDod`KWUw>o>P%WXfA`6Vk*hkz|1RTy{C}-{jpr)s
zKH>P%O@R8I>rI6=0(~je{l>wp5n;ba_dg)|Z{xK0{$~|m-CFdss*0~}FZzYmbKGe7
z#YWHZT7zh;I36^K0iN92isQW|aT^bpi2^kH3M2qDr}OL-zu<_T9lej!Vnrt{!Ykw>
z?z+U{&8@Y>y_HVv*{Vw`w(wsmjL9|T0IffuFmk*!v;HR}`wj<zRrQej2rr*<<HS@s
z=BC5boDt??I!sj#y5Ut$x`9qbF&>`@HmieKBYu~xm9yOhbY#L!cH`PHR+9}j2(m`}
zE?J#ZW3MM(OUyo&bcGpeHbS$$od#3alCNsEYi1y8q8l{NSCy>VAbK}ui&+4fb<WSb
zVx<U4sD~c9c}h5eN6r}g&zxnl5gFInk)a{Tj)20BM<^6)jSL!v4gz+}xv^n@AdCQw
zgt+}cPP=pwawG!nb0ql*;(iLWsS#-ZAxu#RGo49#IarfN0OJrD9v0}uX3VjH;gO4R
zX01Kr7!~@5;}Fb(3`m@fgG{A1C<2qH1K(f=uW`Xm*&FksWp?;!Sep<iDYP8NMhDQ+
zQc4@hOUoo;NB{=(FG;NlU}Xapof3NT5=teMQ$(1=jv`EOkqVE<s1fmq5IYarN4O-=
zA#0|*AlXp=C1B|KD2l<PL?E7XZs0tVO3C<GVksn&lk{Pjs*r@G3Zqo^z!?aAMFrwd
z%B4U6>^#b?qL5makUbNgK6Z8ty&Pfn#v?-m!?AurAVDvohMWN9XnH`77svXCM+YWY
zM>8wunRdO@QgxEVRb-sm+LHS_MAd|;n&ve##v_s}k0N6v$tJm^^eSwJP)DUmos{dH
z2-|MNg?g%|fgB>t7+EesmJx@B8AQ!^3kr-dlev;5-BwCPDp3+LS_HmK)vENW!m&Ve
zoUoA`;+!$Sw2WUT{kZ}3`FWv>%5$=K0Pl>_xQ+|N!^xDeK!|0I0fi(cY@)DA7RE+f
zM3TBZ9Y1>kgtV}kDkIJg$Z(R)gk|7ZT#`5Hp{Q--^pf)xN@SKahlTBQW0HpN4vO7L
z&MtCxle34M@6rZfFZl+@A&FrLxbSK6sR!T!n{i*DuuJ67@uxKRGU2IL>6UGAeoMaJ
zlk<PbIY7mqBnM(Vm<z~Z7%OB@UXs#c=8Qk2+y73^W|}Stua_a|GKe`Q4wdmp9~m}W
zva&J6gW2SrKcQzVz0$baF4&EvWr$hb1rJs+o`>Qq@3_YWKjgNE+?IP>;6rZvuet3X
zah|{C5bnLl)!gHn?{QuCxa}WukKg0g|7UL3rv?LW_!K$oS;Ve;T>WQ;BHnPHgY&74
z;}7tk8I15+IDQ|0kK6E>!NMCp<KWyU=QEEPksO@QoF?7?!BN~gIQ}d5xYm1IJDTuW
zk&@z5C&vdrGiYy{e`775elleZzGBXr*YlA5a%GM9U9vl~Cj4UBFL7s!$!8&HD=YbE
zIa;>Ew{nVi^1J!j-W861SLz&emssKG7j_gt3v~C1fxcH<)BY6Kw_^TcsrMUr=WOS-
ztyj0MaOBUPD5~IV7K<H!lK564YlMGE_M6~GQze<DY%$%@@<gIpSu5SyIJ13f)9byj
z_0D=pi#cg;6iw@v?TB0He#*f6X6p!Za)l%R%1cG%ymxjtL1wRT@UBF<_`vLmYfoK$
zYK4P$Wr+V8j}QZqOe-AuS6((e%JcPeb#FIcM=|7Ic@7LSq>{@a|H{syLp<L;ZMb5c
zK}PatpEP)Q$b<T(<Fos&^<C{tR=|2k^Rf}4D=oGBhGeK~g~RX4LH_Fo-j?*Yu5jeJ
zzuUx_OQudD;Et*76~l_Tg|A4~Zn<F)Yqza%xLJ9c=lBzRGO#82$YC*X<PLXy#oWfX
zCxe@kn-7XXJRI&;zRn*k;%(C>t~@n^$0L9Cl!Y^_Px9qyzUemKv{+QVXsuo>ZNf3W
j!LVXGVC1_Ni#*Blb+F|;c(Z-kNFmF1MBZnSj0E_9=eG|G

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/keye_vl1_5.cpython-312.pyc b/model_executor/models/__pycache__/keye_vl1_5.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc8776ad45fea79fb46910446c977b88e3b0cb58
GIT binary patch
literal 30496
zcmd6QdvF`)ec&$MPvT90Z}24&e2NrhNz{`PWy=yROV+~)Yz2Y1OOZ4HQVUSBSRheS
z_YAsDP1fxQYMc|Cc+S*Wy)eDBQ97B4(rM@1$8@lU65#gav)a1TOaCctDs__1T<`b$
z7P|{lkmMw7=T_pk-+u4s@B2MJ{H4`uqTq>Wesk*aFh%_xen=0AfseHdYKpo-ouU|u
zp(9if->L{5RRvX1bx=*?w>qMUYJ*zh*F<zteNZ1Y1PxJR&=@rZO(dL-n1dElhBas<
z@2aRRXd`jjh&}2EI*4BvaYkK17xC*O?x-i|A$~)oI_eF2iQgFUMQegJ#BYk!M(cug
z#BYw&M;n3-(Z*mS`L;xwqW++t_^pxVXiKn#_^TqV(Y9b)v_04!-4xsu?Fe>6JA<9k
zKrle!ZIP~Mcd$F!6YPoh279A@!9EghkMu`32RBCtf&<aP;2;TeM7BhSf<w`*!L9J^
zWL%NQqT7PoqT7SpqdS5-qQk*q67G)djP45VitY~Xj_wKWiS7;Vr70D~*0KBEp~XQD
zjxZk9I{lI~1<ISLt{gt0VZ1MCf(IU$&&Q6k2Wz09%K7K@6a{6M(oE=>8Yt~?74-zg
z)V@S9b?nePF#GrfpCF<25ZX`{dWe03J%ptMpJYw!VWx2xq$MevAf>-7<q;Cv452M$
zp=0b3c8uhIisWyV^S43DcGfoi2C06XBe&^kQsyQ|*}?9WLys|?tcpEexyKVK9E}MT
z6M&vRL-Kb){%*EU&VPc0_CRPayPG|R>E*bSB(4wQ`q@1j;!eSAwoKnx*HrSso@9@)
zr*3SPN+D$oKpBJVE_MgIjU8sUzXM~4&pYCa3O;*@4s7``ejN>{1pQOt+1aVsIl*v(
zJwM0B#@PTZ=x4)RVk#U7XawU(EH;w}Cs;;MkHjts`mw15%Y`F?@#Ljhb|f+tjzb0`
z$A&pB96N`(?Z-Ga!G)({EOTHcHZgS$!m6G)ICg4eJTY}4oS2%4L5O94I59r?I2%sP
zahS_=IueP>>CIEIsYEC;bM73=K`Y${W+HRZ*s(Cw9AP74P<EIT9M8;LTptAGIFHYT
zV~MGGQjc7o>#0*?C!c)k>Cus~&@%_0c=E)_XFeOy3C1U*;dAVh2{tNNo|<98k*UO`
z(QqOxc%GVzB&JAEsfj0M+3|J3Q*5Nvzw+QC7sK4SIF=X}jHjm<b_V@0kj~Mm@x;OC
zS(ag7xWxpH@;b#Jmr^k{L=1GV4}?C)VOZ3H;}|y+olQK$&PKxHY?O^91dAASYL<aH
z6I|tAqiiBP6^X-eT28XD_zZVqe3FfZ1#{_ZGCa%v7$F9<)^cKQc6NqK#K&fy84;|~
z*Hh2T96KmD<xhE#1d|kY>=<OP+8>U?2E4>V2j?QJ;KgsH6VR%0HV!QiYB3Q;j?P7+
zm!6Ex&L!ge=cXbI%Lz`5D<#Dti%rZ3hI8B$6G}{86m+o2=D65+3B-}rtpgXq%Gw`;
zbA?L6!NSnLp<-0x=1kFYh#JF7p{j&j#<Yr*v(8DXN~O?@TFN5<)|9#|uV!5~@{v?0
zRp(TU`iAD6QpwY$?O2{RNi!-X#R)2)ojU|gGWp>-F$-(bFZJ3#74s+j%oI#@9JW!P
ziKH2U6*o+Lm_tfC?0@cPkAKS<e}YW5e`dn}T%yN6+2g->M$GpN8Nsrw&;9i`Acd0U
z;v~zlel|Ql>E~uH`lsUl=LXi5aPY-&bT-0@mG9ZJN3Ptz+n<=>#wYv4$~&KXZV(FY
z@eiHpA!Tgs@jrIvOn@{R^Tn~7IIo>j^TjwhJJc&?m-`7_#nw~~EieBlhhxvRf^(e~
z)G&ImLbarMf^jCs#zT>*7g#|(9!>}jj-3UN6q<?wl#8(83v58c^*~O6P6+DB&_zLm
zIpR3iIM_cQ>rX^y`)8+SdlRtn*+lP)bK7=oe_<QjADKGaKYJ-LITP!@0HCcuI>WG$
z5c?uKJ_mJ+pYi?|V2y_^L<T}z`(`f*MtK~#9Z<to_=|_YxlFCLP)5gZI~GS4-3wKh
zM~WurZx1Ynm(DJ3UFg4j;Evh;+TMk|nJvF}KHHKV$hKtWt`6tTn=X%H%#MW}i%jOg
z;&a*XZF6VAJj|PiZw}mQ&Y2<2XihV_231gkDK-}kO>p5T8y_#<2L^~Fy9&-<*j37k
zPg0fk%R8mr#LzEvLi1IJsV~zBE!Kcfl1|_*CC@aLyy21d3D=mUr_CE8;Zr)srmYW-
z!+kz&yFVUwnObUHO2uf-(Fuo?YT7CJly{PrQh%L>o$irh%0@s=A*CFpUek=L&Qas4
zGmR9L(j-*?12lNl<C{^<gAc!IscElNp7NG@x1@U2uc1;}$gkx*2^nTg`;@ejFR7L4
zK0%eGtd-)GH=}`ZsaL)wAA~|%H$FGC5?XNrdPBosN^_A4=)!*hi@}78UxXiiTsE_K
zn6q*JEX(;X;Hmcr&?Fu?{)<zINq-y<9tl{D&&1%AiUGU_xD|yXC>#NZ!%m%>1jux8
zib+h8s<C=}WKbBFgOyc0>>rzoC;T&<1OlgG%oOZ$Quri`4L=L*1;8k-dZqObfRAEv
z699!1aX&x`j*Y{adw+4#XiPxW1bUJo5eqGW%rdBp@UPWR&d)gOPY{?J2Dm#Yj$~XM
zr7!^0L^y)2-9o^u(&L8#UU^vh`ufO-J$GLS1|xXJ{{Wt$EeM1Cn}_{_UGQ)Bc7Lfq
zpEl>fr_2e^8~>l_xv$_e>p}u@n+Avd16}ZM_rQH^!a-1`9?l=^(!d$adJ^V(Vv2*M
zK<2?;T4Qk-VeDyKsh^BcWe4WPA7>#eqvRhT`TOL?l8Imwp|TwzpJzQ~trO2StVcTE
z1|Gx4l8&Av(_FrU%Gy5c-`>4_H>8&9tkBw0Gf8J*z{K|bSUv=~e%R{dOaxR=%On7g
z7jz7JVG3}6yP%G+F+ofAq+ptgPsQSiFi-{D0Avz$;=UEM;}JLp1zln$0y|95%yKh~
zV4Q+8Gchw0i3_Ii`1o9OE`m6yme2))IzAVLaueb47X<A*%gw~OJ=l)D-~@E!jOBJ>
z9WER_GA|*3CgOo4xF913$1?LG2_#(;=qbTmHq>!ESj6Grwqr>)IFHNcf;$eOWAGRM
z2%O8*y<L>WmVWWIFD!f^Z*I&szh`dEX<BpU);oH~V%Hn&waC@TZGCsq(^T-Z^Pcv+
zr=#HM<2`+O&*rr0Zf(o8-mAUKBbnZOZC_5~E!NfNYWKZysnE2AZ`!hQIN!7vz9HhC
zj&gc`C!QI8{foC99cx;(OZPX9j`YZ?nljes>ibt{zJ4&b_0YSHcaQ(Mhu`{i&Ty<?
zILRAM{?Kr`=;&D0Qd;{e1=&8bP!{h!$X4~5dBMDRByaGqsx?|2)KKMm?YV{LGLCHL
z+kJ2L-SmCG>AOw0txvA%A^K+@8zD0ppFeT69@wcFhyKftvE*CJfaeOuQbC%bf+}Fl
z&_Oi|XBM7Utd>zD3C-$Q{j|N5qwEDFs*%w!T1E%|G?VlV{X3;IU&OK@zv_|s4UASg
z|K(gp%yr2WFbg$E51bwYREbb+$EIFnBO=A{^LNR17?tqiGT_?lKO37J_7h^$AD^0M
z{ayZ}GTh$?*n0ir!)4Lqli^s5jVO?|*FPH{_8-H;jua;E!d`!Dsyycu(v{`;&JFvY
zK&Yx5SpLo}emo#bIJpQD1j{UTD|8_onPcOEhHOqXbm7N{feEVFIH0f==29#iof;28
zVR1nfn-Z!>ePq`l5`FZ#Nic*$kcbV11XCykxF?Wd;J1WA=jXzaQj9(nVrIreAr28S
z!4?WZcahi!(jpF_xSz<r=MJE+1)S>?H;jJVU)%}F`8DvwKMT%pP#>xETEnW7GCLRh
zcvEv;(|p%iS2S2(vn*JaUdXmDJC;XR+HSG8p1ocDRL=0!M{1Qzw??V7x>W<^Y0QvK
zcm2ps&CPJWXJ4*yAMYNytr-z(#R}IgT?v(3`z?t1RhRC4OYhMOR>$b?%Vi)7))+7e
z4eJ-ILi`glcmBhNEZW$_eXGeoA@WMfSJfn}#zRvK!^Xt5-5H&OQ!Yx@CmvXnWpRKw
zM1Vsx2Mg0rXc2kw`u%4CDxU?2t{hDNb_-funk;fY;@oMNCs?r)f@(6(Jr5t;XV5tV
z&Qb1j=w;AR*4PAoqJuLWKMYQ#HCA-iWe#2&yE=Bgdxg0<n(rFP)sOJb{dvv)qPyYY
ziwX-D-0P=G1S{*7nhYiX2-5$mOYPqWN>+x<0C`PhNty$eG8lRqvGg(+%ALe<aFv6f
z5IJVWN#mY{XmPS|qjNz_t%_X`sz@Rk^pG>W@>E7JA39%$zc|iw`Bdhd9lWVCujwq-
zv^*SM)Ry3d?m_S(uNk>(_gt|oS#E3U#kGXhuA5F7a@>HJUv)a~g8{z+<appDDhHtg
zSI8v(@^FPr-G4Y-xlj(;#3d$!qF(=}J}AX?R|Z$ONtjA*3Y{1_1hUMa5An*%Yw|os
zqw|OG7soA7z9yw3?3Vy9um+18)*x0>2589KJq*zNBcy-1Y;77TBgL2*6{}{{@TURP
zj3#mxEvua{q^Sv-(Y<61!kP4dHDs(Dj_4hh19FmzsGStg7$Aj_HRHbtHHP9J^MFzx
zRT{{IOdu(-q^TF_pcR;&7Lnmg5Io@ePP5~{COaya6YPtL5YSy9ND!<SfFhZRNuL(L
zWnyxq4(RcTsTap(UK6wq5gRr9t!aS#`CS^gSMVV|3)&?06-X=bTxj4;C8-dSN#p^}
z4Hd$?<Y6#QBYgqKL;@gE5WJ@)(Pmi~q^!W@5^?HzsQm%)WO&8+kldeyMJjl@O7bc1
zX@}yMd{BCYHZdCD?Uecny^>BgO5t!xV*;^esjLLfHhC(SS~--_A>Zq(6r=x|>V`q0
z37}k=f0t-@WV!OVODQXlwOp5RLtQd2@Ddd;fz*rJ4F!n~4g+BgpZjR?@6vzx(+~H6
z3`xz-#!t>0`yxcn6dC|gi{>myy0{lH^(AnW$U&f)wedM1RT1STVyh5$0n=RsM{q=0
zU<-#{U^yTpLP&rJW)UkRA0k<;ip2!uSojjl9i8E#f&mtCC<Z<bCtOg6#}gcqT!KMr
z5QlRue-45qOA}`!6H2{GO9f*nG#&}Z0ijn2<jW!g{{<*zzD`Dc<XzV%b>uH0LHwuS
z{1m9=Dj+)-^t{1$+fZAq+mzPaHu#DSUHGmoHh18=aaBiI9R*7xZ)q%8x_C=hvC3Jf
zYU8Wgvd8(Vj*rx|we#-!Ag#*UiIlJvio0i_Y8tN@t{MuyF5cI*JXGl3$#?I(<;nTF
z^1dh1npdrNT+Mk`EBFi_`g)2Md%;rATj~{$!&9tjFILwtekSwToU7xWSyyAie9-)w
zE+v_iv0&-sEuF>6xxQj0*n>n~NeDPWSGisomT?(Azz6O$0&D&cEGm>fO+&!O=Xr=r
zsZ*MSoD(?W^7>YI;}a@rhjLdH?zyxtQ`&^QYXNG>X-BCuFsGyrT}q$SKM%E}3@KyE
zl#usvQU|cikTfRM^UxO9ou;IQ_%t_ElCU_XgVxJCROv%f_fCnsPg2PHs!|Hl3UkT=
zB~^k<X1OFYq;M%ENWP?;LM}-=E%V@|RL}!C9ZkJ@SwkhYCjgR9S1Tzb9|H;{wN%Rb
zfLH=^Q&kWvLpmuZMJ4Jae?<<uRq9Q$N}4w!g{U-!70YMTFba)Q9m-oOO)5Wyqg83#
z<xwChe#H?_nN={Zm81>lsHFAlAPHTfe_!`o6dc={qw{T@3IC*jcEEqpKRX!kGydK^
zeiC#s;O~Us*+D-O2xvJJX9@Hqa4`l1`XamrfBdiT1nk@wA%@$J(Hg=~)F$RYtSG4G
zr)D|aR@|?n^Bd^AgwB5gN6>-h0vltv5&Y0xm|~&G*ev%rCb$evz{b6d{snZ9!W2}|
z0r(pfoWQR{0W`~mq&+QIMLM<g4XjV(;1IHgw43`)EafX$idBN&s1^|y=#Zd6Mhv$Z
zBI7tU8(6X;Gg1${9?%V7=84FAJ(kl~iu)%lAqG1P<b5W}SzT~+@Q#iJU0Rjif5+@u
zjJ=h(aVi_VZ63PQ-2RQ~oTc$j@8*@pTa7>JJ;vJui`LA1v9@hVzeq2FaPW>lP;@sJ
z-NVIdFZ|C8E}biSYZTu-o1xjcXa#0XbNk!YH?7OjynolCwb<J6_U<=#uQcRa_wsf>
z6nehsZ+qMDreV1u@84EAfxV?*4?q)^dw*!(zS>0f9j8HJ>E4vHwBNNg6l|@$tu=cf
z`%KQ(nbs7m>I+pZd{s+!kgwX5Ru^kJ3N<}^P0x*IzWMC+XID<XbLQrOe9gXeRnb>}
z&3e_EjTJWS;5Y5K*>aO9>^aKsIhx<}bl!I?ZIu#4^S&YR3l5KLL*CcFG48IdIh`ul
znt5Au&eoG10%zIzo~<Wm=pjJ<y6UJv1*$j{w{o9HCyWk)O%7#)z`#y$9G;kEEU_j0
zTqLm|6XO0e`mCk%cASkwLZRz4mxj<dg3W#6sXGT=4xPWih-={d^d+3{E!&FKzK_f;
zTGL%m`>Gb+aGLr$SM}&KP~O1u5MSNDYQ#?y<#7K5ldc}3TeZD+eGS(vS1sAO<x}5$
z{`&KL$1v|3zIpOi`~T?qK@Y$CY2Nqrsut2gfi(@8Q`s%c>g5yJ-F(9U?;BjzV~l|^
z*<Pz(sLyCJr>;GJ^?5jcd1KcnMu-zhXl(H~{K=1mm#z&#kU~N;G^++RC>0?0K%lT%
z;1~nJf&_-h(}g$<#OW`o16sjbj(p&jEGc@3rz;Lx`GaTX8XlHcC{SWj9i2k_o^Xs{
zm~pR@VfKp~&WqgtX!u1@f}n^E=KCK|XWs)dR6{f3*xAce(dHt9ade&92{wx~4binL
zM4ypSy`ci&s6HyH9e|vLz!O1Bs8*55wOpyefJvg>4M3)76!a3JQ;GP)8(bj+=r4+Z
z2*8Mrs%>1Rd0SV`&_$XaFl=1nUx#*Z*U`aFaBrgX-_T*uQCM;R1wYXNy-6zG2_9Is
zDq8DacCAtHTGgqw-FJ=lMc3kZW^`$Kv57Y}-_t^%SO{hnjFS_9B%_+ox*^1EMuzaO
zz$Lg7)UoklXa#GU#$~YKVN?mgXvC)yeFoD1QoQtrGn$^3F)1l85Vaclyag(7x>8%T
z|K@E`m*HrNo&w?pmFfq&3h)^Uw43zezLNS>32%Ex8kGu|gA@lisf;xs%_fzX(w?JI
zx`d3OK}@MVjQ)jDSQ2L#eM-+5Qih}^sYlc)1-NA;97U=Lu+$O2Qemc3rj!}*6=Tvg
z584or&j@A0%Hn#Gx{A1-L8=?5b*OV5@GHb~E4A(gm}^d}v<X}I>h7eWl*{ny0S#3)
zhZXR}a%@+jejknrGDZa(|D{q^zyTSf)ayr-XaZf3(hC1KOsT6-W~Ek|q*mTAOLPRX
zb&e9;>$*zR!a}AT0P8*Q;$A~%1|4M3DOy?_@?^Q+2PdHCPNDxCI*7t?QFJ(T<cuh^
z2GA{%(ppd&Nn8SO8%sPkB;tZQFf}YxiaUtTadh^f^Ex;n!zSu+h{FMyjXF7kZ2|<>
zaBR#(35^~X^k<2B3lp$#-^7drnY1eyqL@r+k>C)SlV!qb!KMTe;Wqa)Rz*(>rt!Iw
zlshhBnr}cv9FLN6JW@Q<oWMu`eX$ADJuNZ8xbH*CCfJejo8S<LU)^-&%+i^n!S_b{
zweG9k*@<r-{LYbY9l2e*Z%wVL)?Ge|c*UlIw~P07Ef40sAiQ?p^)x;r6UdmWn=)U>
zd-^UPEjntiG%Ph_lFOg_<B^-^Z;tZ4BYDUEg5wbHIFxrBE;x?!j^la9iOYvS^mQy(
z-8AKW2XY$E-D=<Er|;-Z>EU1hV#e{FzP4zwrfJdfG-c_fGig)N+g|YY@ZO#udHWWg
zNROn?FE$q~)tTmnr_+avwwlcGSH4)ZHx=xgc>AX8`P=qD(e7A0zNA~Ei!Qe)W`EDM
zso31TJo0A4;^Cs(vqaw&lPuAzF3Q(`&rNyjuSAw2*}eJdEzlyf?T)9b;2GvU!#B6(
zMo;EFr|u8%_7uEBymx5j*}Ql6o%(?Sh?wd}iWXPSvk3;a!Gt5!t(0;q?>T)3GwtHN
zyKX*vYbNhKeaF>VaBb#Yn^(Mf*N%HGlSQ{mnY21`LXN{s%8#z(TYC#U<!oTYuUHMM
zoyH}y;VDVY^{fHmFkud>fMsi9O(on*L)gUXmn=c^rz*$t&~h|Tj+HQQt6-;V%LJZ^
zt}kjaiweuI#lSCOcJet5&BUIPvp)hJ!lNynFF@PV%84#PA<&1DFi(gF-CWSGom45D
z6VRm9Ktb?;J{;hO;<Etf_*Xnwq6DR|#YaU@BZHUgYQX@qQKAPf*f`LLpW={6#Qhc*
zs>F9_0vK{L+$GRj*$;(t-$ADq9o&js3LL=!8gZbc9TH&#_WQb8q(=V))1<+PW1s#0
z5-aXq_$Wj4Dve*?ePuoc1GR>b4cT)B%2K_^yfJ#)+<eE?UbMT5HU7KqmZH0DRjY1x
zLcD(vNIrMfDrK-%!4|N47B2F(&SiJr)|WH%iA(VRn~6d2Uk2#^6h1%AfQwL;EVMs|
zEb9mPuOQ@84zg0t=U|XIB-O|O0aIZEg-E9VO^hEv=Kwme&?wH04zi6npnWI~XPCq7
z#9=eIZ=i#FyPP!q0S2No29?H<+l-{4%BJlHrs?9Aj25Z9oD2A=?aP*x&+?sn`KrCE
zT8IabZmP>{$*MEkd1Kp8^cd9g3+MX;^L<2tBcklslyUfz9|>1pn}nbT(0po;IBQT(
zh&6~%htYy=5DiesjNP9wfS3vdKOm;EmeN&~($OTBtpuxdi~-WwFQF<$y-c$yI|JC&
zq7}jY#3HU@++J&l)s?F(ODO0GKthfNXfoE^G9)Ue9PJ^b1aS?CJC2+0eOUE<8<U^M
z$umQtm#I6pp0eEqz$F?2EjiHIsRlZz#D$vSkk)&F7>)?mnK__ZrO$B<lp;L{?@6aV
z2k`G@^~;u*tuI%-Y<t=Mvg2jv%dVH*FMF<liZ;*-QjW5BB~5Lnc8W@>-lBhtex>Sx
z`N~^RDo@D=`pK1R!xg{bk%s;i=Yq2m%_YZs7CZ}8mE=~qdS0=SSR9KD4~caz*cRLj
z{e~(9n13ZH8E9Y|pcMOpx)N7fY6Eb$Rh4+s4A5NCIrNJ40ckX4X&gXbA~4wSpq?CP
z$d!O?O21&etYfHibW)EpzgMgY#6!umpm3H6WfZSIOfiN^@gQR}CiP#XzNV3S@nw3!
zv94T4Sw4q!4kndyO_ky+l?&9FOb<#e1*+MsP)XBxAZ~aVOTs4wRpO%Guu3B$y@95z
zTvJt9O%-U7bJQ<flTqn=Ql_`c#>Q4DzS7tvnx#G_Woq>mSE5x8HBPrne&sFA*>r~z
zCi$c|X~q^@)16YB@@DL~1BlIq57vm|VX2_q&abJZa=|_Wvyx}JOY$l2ve*h^&Ddex
z8Xwl~c_>P1JL9_HmS*=A3*$+&NcAw)i5|&6p-EfP)^t_cmbRzWX-C?bcBS2E&x9Gw
zQY|SHLxY`#xnyV21Uvw9qF>6JG$*x5a?+fm6L=((2c%r)8$PM#8#R(`16W!#YtXjA
zEL%C4!OEfTD2Jm%WW<7*m<NPV7ZX&Q6QE@Z+Q`w_I3ZCV2YIm$Si?X)&Q~j%rDa)m
z&$s%S88#m4NcaJx1RegwOquNg!8GE#=RHbhrHb7mQTZ)w%O9YFl=8gm1S+zELLU;C
zqV2+NLO#!TD!T5nrYR=;yok>r<r$j182|k4`KC%uQfwjmMCu$zRWRU@g}T?=pTXxk
z+aQGV2np8u;AHw;GjQ$zBPSf3&n&o-G%l+oQ4>k2K%at!b*K6o(I>8SMuCkDo^Rwy
zsuihdC0?F1lO_8i2`>S8=EJOpq*b`!M2Tlgv*3WWt3jBHGDAj<EnlR$Cg6B!7u=<m
z>lSP!pMIfwp-S}Qo6+FP#y)~nQ4KX$IF%SJ#v>fNtY>skn*nP}>0&iW9jswvX$^xu
zN6MJ6k*<S-d@!kputM!%3#0??m>!_HRxU$d&aabt2E4VmOA=t<tu5Fq*)@HYO6rm(
zY!{psDv;3X#V<xfX3mzhKt9A?H#~&fW=U!*SuQPjDoIU~7O7p*o2JSn*XCbfuB;EJ
z*9+re#W7WCSl^#G{pu@_SC-!@om%igKkJom$%iAOl=kX%;1dFj5ua(l<Wt^B?SdC{
zTS})nP@OWYhZ7mr{MS@cX<w#GmQ+T7F{b%NQ#p%gy&0zzBkjFT;AjPgi7g8TfejMF
zzKHu(qE`{BfK3uw0<S9;3zE`w0-!1tA_c8WOUPl+7$I;16v+vMBO(luJC}t{&#U_e
zCIIMF5!Jg;V&(-l2Ebw7b1EjwBIFAF0Vnq-kV&MJ6$0t&81^_iBj5-+5P*W#vS4HZ
zqJeoin2kt47mF866XAFwL~K9=9q5CB*caZhaWJVAxp)SW0HwixEYAkoFrYssHx8`J
zQK9}I$IWno8t#8$#R$s;1ESkFo}!T_F@YpKii0LT4&~$w+9JmVy9huP$Sm>r$^gBf
zkBPuoP$l9be@`EuJ4?)!X(&R5)?&NhEE%5*#o6;<aTDi$gw3&(Qw5URi8R83MbssN
z<mVET+->Yc0dpBi3OEwDb=tT9=cRAC2<?TL@$lI=u5f9AiSNtGBeELZNCTDD6IzxN
z&g1;iM-xIo)c^}NG)FAZ<9)j#P-7&%he+2pmWTTyjyC7Oz*x0Vc3)=Od$yKhUFWio
zuNz$1&e!c)G!*MvvoB_+SB$x~VZLr>p>7{vw{OvK$J?Ckym9cGW7o%Sdw1mQJ96F~
zA2#^2zPB6RZ1_e~zF}bHdA?y}(Ny$p%6U7Mf!jHhvkw&=HJNAgj<#Y`^P;8L+Pgf-
zw{FYX{l&Ka6$9S}1vMAzKycoed69Q_E)TCv-g0~^!gn87RjcZqiv|#s*0o;iyV|$x
z;A^`V^><yZIahbFvn!ieKKJGqcz4_10ROP#6hC_M=Ghy%Wo~8b4?A}NPci3i%XOT(
z>uSrndWwNAkiee1Zq2#d@3eF;ANo<t)}_N>+<UQD*HNh3!q;ud)ehyh9=sLiw;sw3
zJ(=@CY|+~Zm3q6E&%fv0T=dmso-Z^E@$la_l%b1mf5F|syE~SRh0g7K=k}Y9eCN*F
z?p=2}x|X+nbJz7<@9fEU4Bw3K9fzSQO7g~B=l0yrBYfwP+wL)?iab`)R`7N6zV79N
zD?Nq5CwTbZbLfY@Cs!R*>tnz{@^u%y!@PGG3R`Ksr&jr#tCY%ttR`=Bu66rO-%V4l
z`9QvUG-n_E*~jfv=V@9rLaK8;?$iMJje9Vl7Pq2KG@usDWs8J}AOkgmW(tk}?YJb@
z?GP7+h&(o#m=>%UsB8%%ev)M`n8l<dPB52tv<P6ttwr?n448p%kp4T_UHCaZGY9hh
zeef-EdA^OlKSbw`(Aj|wfoX@)cMu&Buz?vI7`}-@RYaaSIH{;Wwa5#64+HY(;AR$V
z8+&3d13`jw9cO?vP&C;V5lBV)z@fq(8B=Z*eF#~&kI?xToi%h2ZgBU|`3XAzjLs+E
z#H+ypi12w4D){~T<VOSxF2d|szsKh{|DsR<EvVyv3kT-E{+w)l-{4~6%B7`C1@8cl
z|BvK`4uhMv6l=F-+O7qz1`4&?c>I4nH+&4-w5{m&U3qfp$%4C^cX#LAy=i07UQ@8Q
z^7huey*;fh)--04g{Eyh{IA&#sw5k~{e3qZ`RYSybI}X35Uh6voT0SkZbMh0VGG}|
zCEu_$2da%-`wCs7eAj5vQj-}1Mt`>{Z3cE**FL%sIKT%E+#1V0b2=Y*7DN}GhJvSq
z_jD}lZ)$U%j=X0N*a@1ebLPfkT~lULc9^g2O&_^qb1v@8+nTb&@7a36uFq&HR<*r#
zV!1BgzBSkO*eXSD8z>I!T(PWzy5ycUH6+MELS*pf%nilb#!Pj#3)E%Ohq0vL-~3{>
z3lv#O1+~6)VA=GIr*o}CP|nu-%jp5#k=mX@O+R1LU$oSNmE#LnUs&GsJ?;0+-!<QE
z9EA?nn$lI!!RpR}r<?b57cD4A>bcsJ<-YCtPTjZaZrAQcL6RwLf}L)6ZEQjFTdmpY
zZ}jJy2cZR9DzxApw4gP+Ctov|t|C3SvS(=zD0LQGUA(I+?*f)t?@D7~;2=MM0C3>Y
zd$vQR-aWSRg~GNY{I(<Sj_})#<{o>xSk;T8)L$B<Lr`{g-IeE;o`0+T?VdM#R_NvU
zO0cl?aenLL`K^ce{zLheC*S36d!9*~Ry94wgY=Cps}#P!*ZK*0i|$90G}X|*X4TtG
zU~}2fzi7B;rmT&{n&zUfHG7En_2#^Ncj{YnZQE~czg<7}&w7ou3P!e}|0B$^O6iTJ
zpM6Y$mjJxKP`4fK(h%X{I+al*ckpiw`6A_f%5pIUmxD+EmMC2SVEHn<L@^{njuL~r
zr1Rn-yA#-lB}s*-Ha|c3=>54d&)?z>MS27z3nt3mk`3e)U8$o1$3`xA1Gb7s2NCKr
zO%kLKIqV*XoJ0;0X$~&#qBs!U1L8Mx78U)8+?BInFoOw((b<m9UrWv`Ht5&kOH?}P
z&$T>;S|`Bxj?kbn<phl>^uW4p?nLdTWdrXYSk;p-1Lf;oH4?9hGC3D}cw^I=nS4L5
z)`I$!t7%mWZz=QXWi#&|TGe9^=tVgeUAgM+oTHmJ_S`c<px8ca+Bp2l544axYe)ww
z%yCpz5)>`#`)|5A3bPu5EZpbO38S-N6yP>9ibLlg;g9Gdy+qwri&8@p4m$1s0{Or+
z6z|cIG;AP5e#|A`8eHYDPM%22N<1Z#5;gGZC9@J8@bUGmt`Zk@!UVi|ZO{O+H{%;L
z17;x%qz0}H8ljk9stTGI3u}hl7STint`oBYFW*`Ut&&5lAk@a#*eXbCXC2dRa(iVD
zW0z!?i~~};7$@syJ&3_FF7Q<o-ve{A9$A{;hTL8vt@MHHuUcr9cg5o~+yOA`pF+de
zaO4R#h9n61k8)Y4rjk~@D00BFTzX_FCZ6)^x3YK#h$5AgHuM~%1hrVQp)Y`+SPUqd
z`(&QUIV>K%_Rv|p841M(qH#>wzJ5>-`ZnhI1Q!r;q=`a5?Cb93)Xm7dkLPVCa)uM4
zh>IpB4uBxRwKXLz16f%M&TL8pe*|j10v;6D0+Snj8=p!d2f`-7{2QK1ES_?Mn}kWq
zumB>5ufUw6+WQS!BD!e`OgmI)+JVYxr2PRs5KQFGos#hos-B5n(KN#u2lH>Z<t(J&
zejIKNBEcn^p3>yVWeU1d0cmKCJU=B7?iV0zzUz^TN;a;*>vZCXIRf!hZ0#$w?&Mo{
z7FrMTtq0S(Vy(YW+sD`T6>3NL+7Yl|u-!3OiTOqLxtrBFgYSoiePp@>ohUkzrwB(1
zS0?Uw=_V|?q7E6@`AY)`{JF|$RAp(@4@grc6~P;CE(0&@GJOeTOJAx|IC@}pph{{$
zI*&^S9^kmCAzt1?47n+%{MH$mQr*!F3P1oVPeW!g6!mbVfO8ls1_<ienOV^~eF9UI
zwisOHSjs1-m8Y<Dem0dv?BN)LCiqi81xPY{qO>?a@+qcQl>9%a2rbU~m!VliRmazO
zWqxTs+qcq|_ih7p*W0lEyQb+{?bX^`+t3P=ui2Tdx@-34%uU%bz&naAFZpV{1N5Y)
zwb&3SHuc`qYf!+C$Ov2&;lsNuT$?M!swqnwSw8EQ4FWN;Z2lHJWM9LWZG1rG;@@N0
zR9=2%!ZZ-+l`k#Z#-)|i!s02x7P7c(8y6R(&?zZkdFhW<R4CJkYmDfc%|Q1F*Bveb
zBP(x%@|l`zz;zYDWaq&FB?SV|$!e>ht)>`ZJ#5X1wCS(3=E{m_z%}=K&^WT@n%b{T
zU!Bec_T19s8xQ6Tb&p(iMNi$8;8HMaS!VK{ElAQd=FFRxcjdbGl2r&_U1Sw@72CGK
zDlFEu1D=EnQ40&P>i&heK7qUzC7PV{yKkMKK|Wp=p)aDC0T2FE+2wt}z$c;wWGdkU
zXAM1F0ybiZ=#~p{i2z#$K}xF9kzL9S=2m(sZW_eL8=oX7JSZlWuuj1e7hCr*_V&Zn
zbV1!#5e2A04Hf!~&qMR*%i3rc)0ewtvCi^v(T|s*f$$kVq|vJ+wtlCS@nQX9^kpMq
zD617Y3mYCVL!&Ag8G(u}j51@qVUiAulmSFCMn$PLX{f}wXUIisjCmfg1*sn(5NU<A
zV1l}c$OF`k!3SxeEo22*KzJ#$_mu{s5HV?~mCFI+vUU&zG)pNIA+f0BN?-#47G%@o
zjENU5p~OxUrtJowpq+@!027)PtQ_!^@GeliorNV#b|9+|AK(bz$s_59h}STLN|x>e
zSO}saaFN+YtyZ`wS!77zeNJ%G(j?w?ctJ#Jp2UJj(0Lu5C2#^(5mYrpHo;V4hk=k&
zWF;xEi}c_aWDxA+!km!8wg#p)dvRR@1vLl?$wf~b+?WU)`M4EwO6;UEbk@D0e<HAZ
z?9&{uqT)}fT9R)&Lb!v_4+7z;o3qutr!#H3Q`3^&nd{%nx9-c=i~tj;F>r0>>P)Wh
zz^#+{#=`*n?t1G)<`1fvR^>W(0%yZ#N?Sme)7Nk%xs=R~t%PrTw*y<q<ImQ^<xd6A
z5bqhvdmbxzcJrRydC%Uo>BH*wY;0vZUp-Q&J_JmqeD&e9`NKN@wOv<t-LW`c8(SF5
zG-q6yU*l`K@|Ny`WstWF<}E`7%P?;l&RcffY613Xy$R4dsJOoQ+K#I`fH{+4u(iwQ
z`Nqw+^il$#Nb4IR;T@MRR}&B!IdFqi&EU#$zUHwXxwfSbfX-j`1n&-{4;Gy*VC>^~
za~tpMhHy)L!P3fGTA@>(m3Xdg=MOErR`ry7J2G-SIk@7=wkc=WB;u78GP07a!i*e(
z(hW50co+x|5l*iCU+|R^K9%r)a+#`XQZ`s6^gspp%h2a!9HZ<?MSxrYu{D)0QI%j5
zh)dn2s}t4Jl}d)o86|l7OO>nxLkUIPtWzixsZ`FDz$H%}#e@Ka%cHRGv|xTK8k)j2
zSqTvPich60wUm+*GQ>uRCEoc^7Aw<6>(gOcAiP1@E~N+cF1^wgV!Z1vRbBQ1F}0zR
z;Vg)r4VB<DLe)x&K9yiIsAwpoB41gVvXq4?#>G~E_En5J1)}JrHRVXz89gxqcBWj4
zC>G<&PpnaDQFR7L+mt(LFO9a_h_q>QSr<!QFgdYF^Of?%s>)g+D+t3W1gTS=q~npL
znaWD5erRdcNl&u+1%OsuHJmU`oFifg<4yTeHA!d5IK>G)Fc6a%d(xAtjd?&|@7j>o
zRZ8oE_K9g7$?8;X(wp=p&BUO)Mtr9lQuV32WNp%h=VGd{tgltlDOu`ab+U>vVm%L2
zQG(haMGVv>QccOKN{T-U_EJevDcLC1I^7KgZFm?1n7c^$PVa_D_+(5<e6p#0{z0`s
z#+oYDTldg<jf^b9pRQD|F<GB%Ac_W3>-z6+odkuZ@tEH5NO39uBidR2(00Q3Kub%Q
zX{DAX>p<<GK~C|omNY-2B@K^g3C`6+Tav6VOYyLlv^;Vp4Q?1t_)Pkf&B>N?vawvU
z5!b`URRJr%E?JK=C(a+))wV^|t3J3az*e>!<eg9U=dYE;{L1^JtSq?}X+J))=baUL
z{vWZ2hAPxs#TdZ6OWFb3?oUy^KU1yA)<;8<N@IhNYI?{0rOSJ$E!moEn*bYI<!WNZ
z*GegBg>7KI4Uj=Od*tyK;aJM^SvWUdUAsuVsQxT<k^Y79R+GH{DCL!m-9!W$2T8ow
z6v4@Td=?i3uA#AiInI=%Dj2-9D}0Q~e9|&iImE^`JPMaIh05XP4bku^jVhxe3SfXC
z0sjOp%fJiorOWf>Zw-cuO!bs1Rd%&^CG|JJ_ry}vj7G{O!4y#Ulku}kLIyBG#mn={
zDC<fp+er17QJjb!;>d1zq#gpTrVFcK&`sqO$%aez!*IDRTt7VtmoY2%b(Su)ma<h=
z){^w5hSy(eEt(kOMbvP2JlJ;o@sbPF-I6cl-%$E}H}gx?N;go;_weJz{P7-C`~ut@
zN>2ERiW0e5lw3VM!%dx=0;vWjRBkH9@<fGFT&1FwIw4mBCQ(&u5rRckhd%-zT+0DN
zB4|-NE5acp=C+`N5Q1ns0FM=wcf~6{RG>J9kU>y`%EAT~D<N>p)QBD^xInFoC^s_;
z{8uy=56#ZRiF~F^qe#9ipM_4uzX~;iP@|f%*Je838og}`+z|<|WdjJeP2V-$t~;=3
zxNGy0`+h<CKJcEc4KBo3G~RXB|K9N|ojJL5G<)d39$%rqrCL7q=F@2|Jpx45mAy-Q
zvx8p`FFTi;mz`Pm%^i7HZ+i5O(|aYb6v&*+4rUH7kKA_l6`cEc=e}Excj=sSU*35b
z=q*?EmEon~*LUSCO`>R}WCcq=1F$7ZjDgRf53z|r1BYx9P+<wf^5aTIA%q_wDwXWV
zlw@x9p$|_~(c<Xq=&OZ=Eh>5ZGk#t~2QLHQkoZTNSWp?{{vQ2mxEP^i{|djU0>9hB
z{SF3$Zrv;}uDKz|B<Rr$7M3n|1k1ts7W8oAIo{R|3OS%N7ibsx2b-~q0dxq{6MlZE
zWUNcrAqd4eABKI5KGHI5lyt=ktSQih6V>R5-;QD@m~K!i#Ght>`=wRzXXW6xN~S>5
zkld^*f0h*PN}4^ShYA-FyZZ*V+W<y<BqQ+=PRGVuT~zQ3HzurE+{0!5$uj>%!9eb#
z!%MP3>l>A#1wFiQWCi`C<hfY#SW8_ISFYd|7qqmLL-2zTiEz9fS}5)BhrUHIV9f(}
z#{AAlGfy6v`84jK*ED1g!QC?*1;-HY7%E!4MQcN@sXu4g3>Q~BO=-NRck9mY9RAkf
z+}@{i$4}fII+?FI#Sfia9tBMuFgN~MZ*J&hx++(5syH<KsnUH&uC`%ro4dcQUOAfI
zeBf62z0FS)8^C~<Z|F-OUDdda{<pMmTi&$XNPPRi^-H{e`zi%t-#huIZGRg7LEyWg
zHT?XjN6{;}3+h2fmX3f{P)$prW`M65Kouax+ptO0ohvjv!8besYCa!&e3`~PVH(N4
zVsk4nTJBn_(yC&|z{>DqDs8>n+QA$AY4hT9cO2D=^I6bS>MJ<<(<4P&edhdoHvg(h
z?bupu>Mk@5@J$0NeYaZjO$V0_0f(i&DU;0C^#DJoZZoJg{(|WNa%DPEJF>QOxsI>h
zDqZtawAW?M<3&B@qP-#O;O#ANMUSUpNp<(rC0ta2+JnOhM%19O#M?V$4={$>`!lBW
zVbE*w)n@iDT}&VPaN98G3g)+sy?g$>ZO4FNls(IP0tHVm@9E8Z`d6CY^K8kTem4EM
z%xbzL-h!F=Oy0h!VDIMbFssX4-ac5c@8In_ZZ_Y1CU4(&>oMN`ByhOEFx5hNYOjnf
zjb&@|?w$`kHA^QmEt&A^&wb#jTRNTDpEWH9dH=S&XZt@mJWKA^t3Pn~mb|amtlB86
z8=$|V8ZUm$1oQUJ4=}-EIOEJ5f4%Vohj*zuW6JJdHsu{#q)bN4R8=XHBeP%0ba+Lz
zArpw#tPLVF4SQ%_GH0I6o?E_{tKXKlZ@;;nw;#AQ!Q013pJ0HU?!{?P|Elg?G4a*I
zykq#4{i`D?%DH)UR7F{;en-7Hmbb$V^v!oZ?FirT)@F9)K_zsM_x7d_{qh5Dz&rPh
zSB<%r!JG7L-*CaVpZD#*HE`=}-uEP2qvY=`_y<6lChy;}5{9AwUhB<Be)tIQKT>Eq
z&Nm&;H-YLv{assqu5mDD8_XF7fA;Z=nyNib|4gVk_0xOL)0D5}V~Tccz0=f^-IZ_J
z42pJ5L$4nK#VyCye}UnDNc7L+crO0F_t*~24{E)~_Gtdh=sd1g{n=*c@n#jT_8xE4
z@(nb)&EDg?wERvQT<#j=0X^>xN;Qc2lDnKlb<8ipr=WX^T#e4T@qj{hoOs2P6+fr(
z6MpcI;^OG@qi+d)%CXyzVdOj}2QVJq+$jwE2KwFtr`)_32oXY!Q2zv;I0X)x_xhxp
zpY+<3G`ac-J+Nl*?kD0cyZniK<LytYX5zI_Cd+Fz3pJpshMAnyetMMtm{My;=<GZw
z&B6QTmY<OKs;OEFH)=Jms^NXt*pStLrSO^-K2|r^lw#nm#K6buWA)mOVqO2L8s2w}
zRq46ck_*YqiJZ+3m;0<~A#`=uK9zRM-Rj!RmZhmxEq*}Tt7~(${k&)Ms-6Vk?NaOW
zeqzK3f)ycwMg=~@Jpscd*v4nzC*I(f;@}SYzVO*`QI!nNCD3!9n2UksJ^a7~(V~T`
zJ1*f**NOMkqkxXwW6vRTmY}M$m$=`>P@FC}x5@8O#bVr-@KeW5#b&^S3wfu41%9qB
z7DpQdQ1vHQehI$vpgu78Fa2^|T)dOBeO+{kFAhKM1i_@~p}7S7)S9T{M)YX<N{S=6
z#6-=SKJnM>I2(pEqpnS#sIDUYL{wh{Zv>5(ZXqQ%fQt8ic0438xe>SY>v!V4Wi~N2
z{!|;3AC7QH9tqVOLi-4o9T$z(Q9p<vqM}|N(cVL@py1h<i|9Itmmkz&CZha@x`0CM
zeMv>B4Ne$QghrVg=f|Wzl9Y^C>G#4yaq`o2Tr;L=!89f?e_=Ved4Y{{Z5WDJ6SoPS
z4vg2l02iZh$SL6h=yajejSd0<L01~=0~kUuQf1Q~$FLLVptgv(>&MY2%k;(le;QUP
zxwnm6f+fO`?_;_jpo7|gL={hPa_l+4S^<5Rb<)WS-=Ned7<R#Yz|S)5;i6D7{HNmo
z8(e^jG!0T9+VKI^`##n10kt(xZT&mS`M)U3`;_N>s{VZ{@IJNWeQM9&Q!VdPtshXQ
z-lraapX&carKeS&Q0UmTv}%n4=M#&DR((W)^NER~_x=NQB2S(8L?uOkR7IIQi=W9G
z8!zitb#D3~E#5Hz=oR>vJ>RUqUJtkx_*eUSXk8J0WhAl?SyiLIvuF9lb>qsx?~HwG
zjPKk>0`F>#>DDiOc1;Tj?tPB7)BEYH<sOCadz&oyHFl4}_o|=LHs<`hdChLP{FU}B
zPQi~r(5ibTJKZ4WXt=k@3VuirFStywa`Hno-J5Y<tGQZpk3#>w(=Z6#xyH@+U>v$v
z-CfX7TlHdG{CR+!x0AO8*3=MsFGx4j{h&v4kAnBTL-a++oofa3<{7^A#692yL178C
ziq;o3jk%`Bc+ECA%V|9zL#oak?Jm$AJl#>$_=`q=(a{5nH!5iTSv9?-sBz}po8W$i
U>07;PY7AL3L*z#!k^sE_2hExsEC2ui

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/kimi_linear.cpython-312.pyc b/model_executor/models/__pycache__/kimi_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f02a419b8884238a52da940c9ddccd603a3021de
GIT binary patch
literal 24934
zcmcJ2d2k%pnP2zZCuVTY02ly+n?ryD-Zv#tJVc5BbWoSa(vCrNgB)^Z0QL+h5(aF^
z)|LjcyaJQB2yN^Vy!Mu%NL8j&shHl%mbF!ztddP7XoB7u_flD=R$IINBUK|4TDhF6
z-Tc1S#|)qb?ad}F@XhOYU;V!C_kG`c`g6bE!{JHWzLEOLOC0yt^rAm*&2#@>Svc+n
zCvXCv<}!SO=gDtLTQb&!mHDk{Tf&AgTiTYfC+sZDo_1uM2`BSA(yoj<;m&vxo{Tr)
z&G-^N7Vb>@Gc}2tOdt`+1QS6P=1SLQ>JoL#?@rfe8WIi6?@2dini5US?@fm?;Y67E
zed*>*OQMDO{pr?BBoWE9CE7CWiS|rKqJxFkq@$V6L?`nH(p{PEM0chq(Zk+@>E29V
zqA$~*=x6V>=`ER9BF6l6>8+W8#6V^+G05KQ)7vufL_9N;7-H`Y>Ft>vi5<+}nBJM$
zmDmM;lMqVp&g@C-$?Q$+&Fo9;%j{3=XW`-Wfy}|g!OWq=q0HgL;mnc55uUSfVx9QV
zd%QZ@iH9xRW1P_Z8Yi@f_KUCRlTrD7&#I+7%2Ku>W#l)ce3YeZL(2Bwkn$Ky*@2YN
z-;naS=wxX-k+$o>Y2VWtpE$vCbR$QPc@A-pxL@2S?tRax_3@<8EAA5d#K(kw@swbl
zLHLA2*z%e!ar&Ay7W)Myi}8x<bY7Ik&ZR~8tw*!hM)7OOX5lvGrl+PRrF=3!DUDx9
zj!$N$Qb=Y~yvN4IFNnt`vlFTFig#pE5YyUA&68u&SUPRId!9?DGiqGSs`$=}`Q+48
z^1L)TJ*D)}TVBlOCZ%MC%1BOWnUgP1N@*dPOU;N%)I0?$NlKzHJx<N`rn0GgGCg_z
zyeQ$-b2gQpKAIIqrqg(Hot(~z!pP(a`0LK3GO6QYIzM(ak8<;=N$RKb>5;RelTrpf
zYdAKUp3Y?TUJR$Q;+UkgjEK^CQ80}QJ}pkAQ{!WKQP5J?K0W#J`T|f#V0iL;DxZ5&
znj9B%=yA-VG>?pB&W)YTBkS?}wJGt~SbBUqJ%+)qjyii`tU3z$JR`$LG3L{0F{gB(
zkNMOoaZDISG1<J)t>>k&sVO!Zbx%!?p{Fxr)LU&TEQ&Ev!y}YiX?kvQeC(Xw>=T)D
zq9CNQ=TTjwAWn>-mgLJ~>ih*7<}pD;6EkDi&WV_V%-B@&(v@Uxd@L;{vtt>WkowbE
zEUJtsq|mBo*c9gw9Hik_M@enSFX+p~u=`Jq<xXd_qQpi6OEP!r+BqpDD8Z4`)%>(1
zJ~46PD!P-;VRF?)nS1g{WUP7e$&pkphn5bHT|=uvsT?h^j2gxkR7ONo6mMqil9)_W
zqMYJW+dd_U6RE4?>gS@m0qy1flkmKbom=D*yuc+aZjSyFyn;ov3Re8Hi8jG5+6A7z
zE5RW;1SdjV0zXkx;3jy%{hB}F6g;nS30Hx;$|u}sxtLFJ(g=(UKRK#+FQf!P%&LpL
zHdQrVYLG{Z9~;jrzRNU)_yE}lSEH_b41EsMl2aUNKNN=~VyLp?+V{_TLUf4sy!*G|
ze2c%q<ykN}^UhiBn|6-VcNm__<4t{L`B}?(9(_ZIV41beI{q~$SifU=-}auCW|m88
zdnw1|b!x}WT4s5c-p+E^k;CzxLo1U@R?4>u&P)3^P737xdYyu6){0u(-?8fZ`PcZo
zJ|9LaQLjtSagB?4Mt=bU%bonSKYkudEjc}voRTIlzH3!%=Tc)iX$K;uU2tYRabfc1
zEQ^iVqyrSrB6sR36k874#;?QAX0>fk6rvdX)D`yO9E|?DGah{+o4yvMWYJVET1hrB
zDMhoBFUMnU#g0%cH&-&r_N1iLfby~NRW(j(q9C`?9L4k8SbADKAxV>xL>*Qfs5d#0
zjk(Y!F+Cy0sf|PAY$s<!yWPp;czP_COD1zPG*R_=<<}!a`OMVNRBCElehk}Je%saQ
zeFyem+9wXBQ|E@JuH`RGW{0j|e;!hIU-7CqK8@W+ea#JB!ctA9*$x<=x+Xn@vS-*A
zjP)DW`*#qbx$AI#^$NFE$GL0fow6%@$JO$2WN*nAD*4-2d>u=jvah>T+f-`qEj2|J
zURZo-rG8+|>uB>7Y<FDEYc*WUK*`re>D5H7F*RLcrGCqr-`Rq6Z`PE9oUduI>9)7y
zZe65Qw{`j8^5Dwe=U0L++_zflYs#F(U$f@mLY@CIU9f%AdmoMB#%Xov4=q^sF<gb`
z1~<!H)EEan0sYSM`to}bdFL#1R-`kQdL`woMNc=!BZaZFt5U2liAPENS?*naG-j0^
zMl$J9avp($1$hiV3V&5`YAZ$IlQ|p0XfmY}6zRk&dwEO}W&+wC64wF}h|L{>^9omL
zY%VtT$&GzWmscBO^PYlpp|<1;zIA5)%%XGE7cKCmK>b@^ng7b-*lHj;Z!7SH9i>39
z;F3-vf6O}ijDl~9RxfSj$)w^*5@`mhf!~)*VjoItF;;9@iZz#)qzJXnc5ZSq&DMxC
zOz(beQI3ls)X8^w={Q1jG~SP}?nv9<We$CcxpQ!S^%__9al7`FI=V|u;ZFkX_U?O)
z;j$gSWd|4OC_BmL;t=L0pN9*@mUqidLuD_$`ncw{vY&i4Tx~;{vSY<~YCf%n@9!Vs
zZT4E$OIGPP>N6gF`?`MxK_;8NN89vm+GcOVwr>|56WG|X(L2~i?-X4Z>x>c&kKi&7
zpRj>I*b*K_8oVG4UX3(No)}de>PBDLyc9PhT*;Jhb-a3^(PqIG^mA}G?Cze8yZbDE
zkrvd3XU>jrZHKOonsXrB*l8;<b54Xa+*1i7-<%8KzV%@&-2LD^9Jx$}4ZFNPDfl2S
z(jL0uK?<W4pif-Vt0zGEu<oz?3Ou7X&G}Y640OsgC8KoJG^kC_F>9Z73BYQMPN}p_
zn+?=&P^x^Vp8jH&?yLOfdv*WCKHXROoptG(ivEkOrM(ib`;x|p<OlSyS(<@C{jKtg
zRyzgTtea@_MWQ4d9)uEA+3+BgDC35Q_1yU#DrxtID7>1t_2QP#r+nY_o<{dEa>k4x
zztOKso>z~|f>SYzA?{?(k*5uWJ!qB53ZJEwY_cL|Ef^J*<FLH%sp3+M`M$=1!|;wu
zMB^mdV5P%wPR`gFuOaQn%Zw{7s*GvOuXwZ5nWXlr*z=R%i>pXC4X5Ij#4M1;SQ^lV
zecwtD=tKoXq5z;Zbx8?UiqVjghr(4qV`dazZhTS#)0>=_&W<Y~5#0BrB!WSdBoQpj
zWHw3M&rBemyD$cBQEybtQPmz3RwC9e9ieU#sjs9|8Z(n3*qI7P&p1@+i`1b2#Z`BT
z_5j71pHjKlMj$;PBZdxGd%@WN-_%hT*SAgj0#(Wyb(DOKRE~|Pp+p~<;wEgO^70s3
z;8DdcW~TDjBqAMBkdic31`a4dlrWr^#H{o?lpsmYmnc;WYcVxTN>=zgbtIkI>@gal
z)U0n|%*&{>^a2&dcraot)pl1nG@>kQXe5DrjO@|gM1)*@UQr2P6+bn3!r-T<H@QCq
zog{v$riz~eLsV?qA~$U*cuSG4Vq~`**}dXwE=Bu_(Zh1|@QSOgI!Q~k*s@)2*<J|T
z4INqy9RUO7EA<W(dymS!M~Um|Ds^osb{&$t4$)gjskw`Itb5+tqBkOYBTJ6k-ad`b
z+FKkrEDs!B*?OeR@el2UQ@iuN)k-Xv6)cyJYwRV~P2=9E8DR0AU8(N|i`Pi3n|m$D
zZ5#UG@VmqRq4B4!KWY8oi>n8oS{;14V0+6w@4n-TeH`j2g}Y02;bL7}u8WhueOIY9
zS_=0Q&)C*oY}+lj?XGx2ZN<<QIkZKs>xGs2zEX2XvH76fe6ZBB<p-y~d%D<jLhd=S
z)>;#$7Wm3h&KE3tyJT<IiZ@=0?zv?v?tenYU-XF;U)$ZT7#r2N9Eq2@P<3aqbx>{{
zEVac-9X+L%=wf)OV<of$%xHH_;rP#d9c4S`8)6KF;@6=ZLHV3SJL5XOlQtzrriU@F
z;5+$?2-x@-+$L|vZ3_IX^*xK4hw+;x8{Mn5*e0vNpH@YMqn!hxyl4>CN((9}SS#!x
z{@g`_pjM}wwZCuC+krGD1fOln&ac{D1=*Rk%^)*a2JT`_r4-#KSTEu0ki7X?J!ICY
zlRe~dnvDa9m@y9Enrx%L_(wc3i!_BY6hGT-B$5O{)*^Kyj6pIIp(wU1De-0LJi??&
zaxRdQC1-*hksKmQF_-$8vl2bDrLb)z$2LU8uk8ugKc=ShQjT(+fuqz<q_Sh_<hrF$
zjmK0jo-xN72am5_<KUN2K<?kc0SDhTRP5R#<ImMm@GP7ug?o$Pt#Wwl^3LTiuZ9m5
z{3UOovW_FsVq{2;4BhmvMjk4Rlv+F9Iq>#@rI%J)cL9bK{0o=wf&CwzA6}aKV5Bg-
z>U+9WQ&+6nBG+vB#LD|)Wh>{7fT#8~uXuY(U3+f%<*pMzZ1=o@w+_!AUhKT>ZN1y|
z=*qF@R=b`@cq!0T4D`!^{$<b2Gpm6|R$Pzh&_NnO2P9gfF`qO_{wK(JlAJDb2q#ES
zlk*fgjL6WJpg2?s5gQxn8H#%rPBmC~o&w1kqX-Dw8CY-;SZE5Dnp-~c9=6xq3r5R!
z`~ocKz`#kbE`kGY@_D$1(5IBNJj(~{NBN~^fAHdWUo3OvzbXDW{iF0}%&+1Es*iSa
z<LS_R_dkZG8Yc*R!m0|0G%-;KA|e|^M1&LU5DwWP9I^uo*abKKS(wPk1D_XSBcJFL
z{Gv;Ai=GKfGfLLtYeWc}SjvFt(|keEEz}B@iFSrO>VQ1_LcLgH#v%$0n}j!R5>Dm1
zgeIVpAVVd!_`brb$PNNWL$Elr-$P_<WGt19LVhNK_K%APqsK*YDkqAUp4%BEkwWxz
zW-2XaAdzI!6P9IErJO`66*qlX7a(}dDZ$H^lG({Ak-a8`REC8}>q0zNDzV<n_`apF
zq%@Yjr1&6tth{+xuKWctKc={ducC4l9}6Y<BsdVoH%_u^O_o+g#@ViIF!5+3?O3!2
z-v1@`+6~~U?sMSE0!CKbpTP(dAfX+fJz&7OB+Ag<Y_oRS6%j^!4ST?%a!CV(5xbi-
z_HnTFRU)rhNFyrHC{Iihd*0K2=YmKPoIy*F&e*}R{~BOPONbw!SpYnwGj?%+1TLvD
z=7<4=OwuT@2W8L)yx|cn(_GH-IQKP@ff#8kiC$IXyxK3d4gJK<4^W`y%j;hi!3SfM
zDkUJ4n7a)RLech(4~;9BdjD(<K-@-vW|WdAy1<@IYcz$VW@E?%q<W12Mi6&uvx>1Z
zO3C+E)o8Rs55q|Fn}8&3MWHNXrq{LJtSrtPP@92#^xv5KN^58o*Y(T2p<g7wWKVub
z_n{=Cw|W?@Ez|NbLgpiH%$;XLjRt(n6U)sWl(1FzSAG#XSb5WZfb5(Z$YtSCJyqpb
zfRYwDdMY8h4>1q`yzhNa8@IXI{2o0HIn39uF<yE~)_<c<>q3oPU|p!mT1RarbB9oq
zuMnYTE2VbUN8gIx7pyV^iUauiMu}I#bML3mFtUDfraq4Cc8tl;lP{<87m}IFV=4@G
z#xJXacjyp72q0}o%5yAe#u=Yf#qK_(hUI6%EP}y`+eoEg?}nKAT2joMQygjrB{)H<
zyX0k~R;AAH8VykVm(iw5nXb!P#fn31lj2Ne1qin##SQIHZfZ=*iAp_#)QCtyAD28g
zJpoD<i)@6ybLhVG6*!6)REp>o5h&@a6#NP~uaYxM4o!v<AhMQ*CJl@rBW_NO>_}gu
zG+!r&zGUh5$f+miIyv<1fKFv{pjZ-Q2va#}p2FWChnA1@COIwS&>ShQOnNLimd|Hn
z^;MuWPVuZYM#DF@wbG8)DDm%-vx6M^uoTB7NSM#(7&8o&8R}4_zd04hQiD|tTkTfk
z*=AKXU11jtVEbd_&AoyR?N<P{J=MUrwT}>JxD?$^ziq~E>%dC<A-VM-HMXS(FfLHi
z6GygCaI*$m@7C>It=nI4mO8d9KPGqVqPR#Y)LIPn%c1_|2065iKwwELBpk(?pG4tv
z^K(l!IncA>>RAc&Afy=RkOLhnf&LX&KipEFbtTZf;_8N53WOK;$$_q=vD<p|-L9Pw
zuNQq0*%x7+Hrdy<WGhDZ$oTW^snU6@v~6Fh-vLD2&6FM;0QVs%Jt~>s8l4|qe5Tm8
zO~#*ZTUFM@=U3``kuyX{){BfCeMV)aU{f*JEeE^T?A8uea_gFlYl&A9fd8kGg<|_I
zxqa77;m4Cdnv~m5$i9=+RWMD9*P&`!sBK$Ng4(2al5Zzv-(aP!Rf?STEek^V0tixU
zjmxd^Qd7%~?DZ^Wp;RBbap?M?Qd=iP`^ApEa>w3MOFMKGdPGCG)YMvv_N+Dg(MRuE
zglpbksgA}dD*K|;ARrkQ0fka$wdbuT=AT%fgJyzBCBh{i{_5^G`<pR7-}I}P-90s#
zOOd23r$R@E3h2hGcX09(7k8h&tIhRA&;;pp+Deq86=Fl_6tcv4>23N^wL8+c;b)ae
z-+^zvc1Oj9;m>_N8bEA@;2=i?;}ueoG&bKDxjwQKTYhP^;ZVUbe|g@mf-pxa2u|bV
z=;$Z|W3jpoI81RSlfvY9GN}SGf?<k%0t)@Sbe8-!?1p(2qEX)^VnS8eW`H&68ifs$
zV~W(iOflsATl~wx%!rWMCl-s{RgQ3NU8UysQhaA=V5qcnFDZFCzQo%-47ia8$gQcl
z>||aSuv*#8ydJK#z3gRPA9?-ETSJPV0P_ZsZE^SYM7fr|)^VYhay|1laE&eHM&@ne
z>O<ua^M<)l>*B5@>*D_F*`>VPG*E74;VoRKYw0*-Y~@z=9x;Gq8+&gjB*~gw?jp@n
zHw!&(b=VKzs}J8eeEo3Q4nMjPZo4sieYWhRH{j2v8@}tlvYXyK$oQETJ~m}+sKzl=
z##5{L?w8@I2ALIrDFh6K6hTbY0s#ss&F281RKuW@(tLoIf*ZC8fOb$>c>o+e0H0nn
zxi|o+dANU*aJ4SCxJkTuE*0tmaMl2D!eRmz5&;0tpb9vTi{mf|l7`7#LxYV>JZz9F
zB>*zc42^WF2%oCN)>LOi%~U~LHS0u75QB7A@mX(xbbvnVtsyqiCRD>bQ_UIJDB3jG
zgEGv-ZHDSt>d99?8fjIkw;#O>XenTi;RK}N!4_MpG!+K3n7v%lvOz><&WQ4+Odyr+
z&`U=>=K45u9UOnrjI}k_w(u8;d)e@yw#bGcyuNRJPh(;+mPQ}ZE5l#OBRz{U+AHt6
z@72>x-xby0E5Das#L_s(V!JA#x{twA8^Kd)OGQ_Qaj~&6QbDCQzi1tCMC?K9`gDKg
z7bzO_x9r|3UEO9gG^nSp{GxwEe>OZ?dkAv6svxIPTb`IY_8`C6sxsB@z3(<i8J9HX
z>;FMn)xg3t3V1+vEh+=+sM4S?PLzG*e~7j-o-|fd6+cU%CW%zZ(xy!B*C`v(=$YF1
zIk4xKG!y{tR)jIedWFu6EuKkF#q1RYSe4Zc+gDykNuR?CiUZ&R<taY=UJ^7!BGGoP
zxQ*Vj{a&djm;mlwwLny%g0xxdVXX!}T$g64TDQiDl$6USFC}3?1~Hce6U4D`QK=!-
zmTD?6A&Hln#8e4x?6G1+|ColW%BF}Ah_pzJ4WzP=Y*zuQFj%F0RdWrf74uYKkM;Yr
z^nEJNm_+IK>Ge3A90{Tf^zb?8P`&XR(4m{SpFbd00??sp9dv-2W}Dm!<{kjzUQ^^o
z=6Z&BWTwVym%Z(a*Y0>@ciV<aE!`FU4s<&7*R85`T2?}XQ0ufqt@F)Mm@u`+Sz-v*
z2j$2h(iB^E%Pr77skvg6T%}N3sk6V>xnJ(wU-1~KBhu0_eG;j!w##kXnTl#qZXR4~
z3s7}$j+T2kf9+dm-Z;b9_%1ovwGxb%g3XK1726KTZ3k`#5767mVq}Mmzu=CWPu&jg
z{kUg<sz!rIFSXLSb0xHE&1vgJk#~HZ;4s3GVrWnf4WdV<J`S~)NK3#vLn^<6a@WCi
z`Yop1YFPLx5Js3<bqef%w14SJvHyVFf8f@Y;=@nN4?lgU<19l}cef0In=bm=WncT!
z$zsnwxo6*+)e-}5{WDju%G7+DW_t>b;)0Q4N`TeSI>y?LC`N}Zm{c&<)>j&4RYNPh
zZ+xl@tt{C_?6an6DrzBJk(M{8u<8D1&|p}=n5)e|kD>13b(?XXo3+moZ8fFnpRXS&
z4ccDmQ+01hnKfYn*JB}*Fd8ovBM>}*s{SSgT!f=|n5G-Hc$Y-!T?+jXIX{GhWXH&F
zjJQO6H~ZWaFUbdzDz3>9=~O>ERr^dF{0zez>pnRRZ=A;%=Low1Z@}uVVa3~83iT9D
zv6Zx4j%>f#wi<bOe&k-?)?(j5x$oeuBOh*A?K=xIzrx7k{*Rkli%orUQ{U3uYSSJl
ztX;mhYUXQ7E&ZjYj#7Pl*~z&>Yn;vP!D4OhDfq!LclQ^&9+tZv{=om?)zz*SNd4ts
zxLOKF-f_L{T54Mj4?*=6h%8=M3G}VF`q)B?*#UJltP|XTbt(|23dYdXNyHJVAZI<Q
zfyu@+lok&FH{YY2<aE*atinS!YaVWJJHeS9dkEJ6)YLwzgBtRnZ$L6m=5-kW!_D5S
zOxW1Fk89bo+#@%~%YOC_9IgS90DBJ-0Aa<K8wh|jvd~kOW_!N@K;TD}Isl<J7YA@M
zcztlGL9Xj9yD7-Wc>;y$w`S*O7oUCS#kXHv3B+Xg*3bNiV<XFYIgSn*kG_`g{~dy=
zaftwn-*5A}P4t9~Aq@L#H3?FDIn2b7P==X?!zj)LG~j}rb<L)E-J0^uv;<%p;2f61
zXI_UEyIBi7g8wypm04auVb+$a&H4x(Qeem$_Kd^{C|=Ta>AEBe8P_)_;x-6ATk-F{
z4eq!2*X^%6UU$CkdfolHXPqIo_qT%{X6)}9WZYy!9UGoE$QY~|`e^ZQkhvd`;0@0k
z9)$Zg1mg7#_dMyQs3+{1cbI~RDxDNk7)+?1i{#xEbG>{>4}VYdn88qKpkk_LUM4~#
zdP$YvS&IRbXzcNzZbPq^4OGnY^xCWAQ`{R)!J0RK!Gxt?FE|R$f~(*zcyN5i_L^_b
zS^)-VgBjazWvw8vVA09Pi)amMGR6jeL#G430i;Yu$AtZt`YTMi`8XhSr`rE&7y2n$
znRrmA!QgK)Dn@*MpPHv~SYXbE^7reZm0wtVfYQLY9{?)ne4G<p`Y3;mhfcvgI^&N+
z!p}_IV4IbbeuBL0TQa^JDvb8&di=XD!1<N~UyJ@-q1|S7A+!nUJrkG~-LNF#E5{n<
z0i@?G^Uit4Jc#~;GsVr@zR&+2tg>PHtnhKwV#Lbq6L6d&hl4$NwiCi8guZSSi7<RZ
zm_hN0SM$(BYeI9z?S7w<5kk>yKVD%Eqq&Nk4m>gLd1inleO0@P!Ry8kGxb64p}3Lw
zJ49?wqe!s7cf+lVC*K))dt|wL`SNOH$IVWdfvtx36i(l*?*<bIZm|@Mu)hxGHhmIs
zH<0Okea9!Y<m24_8n(qlFT>iBlL*hK@MxC_Fo|ZSbNT2wF)F04q;e@76pNm_7OkAn
zinUc~O=t|1nhO&+*L77tuu`RDV56fB-4t{w%&-Pl&59Rqbliw6oE6U%I*O#)7!uV{
z{6JJH;31vAL}*_%#__FNN?39lUEfN%YMF_FddNoYsN&5*#iUJv;uf=lIva{Zizn!Y
zlN5PoTfmeuDkQRzR)%SKq<@2=Vc&9$>iQ#c*t+-tKE+cR6Sd3KQR%1TtX~=`5Tf0d
zab%CMry2?|zRYZO{4Onpr{MepmV(Q#pS8GG8!6Vt<l0!VcE4P^zu+i^x{9G8IW$!8
zZQ^a|Ew=2DTlN$JFrj0RiEs<a?HQJ0uxCJS89-FvV{hmi4;8)rx4r#$qk9=t>6C+=
z24+zaQQJyr2q>fz5aMUPHdqCA4y{6^14z<#FVtM{m2F;k&9}!t<M8uKa@Jb71IKv=
zCVFIFPs!J)TJtfTg41@uBfIvn#w_-HJHFiW{s7AKg{dWdWSbc7SaKAjJLTxkTaM!X
zGxGj3cf!L!Jf}Yn_pOGv0LYyFxbeVh<Dr756lg4h!3o5cAD07rZ*|@d9KvZ4x2NPg
zilZZLj~qC}J_#rY8TL&HCRThzP3YhK9ypt81N438tf2$=Pe}i+MO`xg4gMVM!1}3<
zfVzZ@dS^N|?hG3e{1Ghy+8bdjM(V1l9EdJ8uLcHITm!5VqYMlv4eJbcA!@*(!yG;(
z>R^tvtfG)xcbI?>0)1}xv#6nZ$JKZ6iyGxX8sm|gXKk-qXKiziELk7gjR?b2u`Qf)
z2(Sgr)&TCQRv}h_Z$>&;8(P&pd(N3RI1Q9$!oMKYgnL1#3GdRv>2q<MdkG`PfT3&7
zZQ+<PJcOPQG}4UXVR4Q*=bMeTDq3UoToXsCX;n8@Q)Rb^vIN_=4M=&Gs1(i7hKB^L
zI+fCDbj><Iee9zu{3GxND7YTYY1WMl*+Jw&b0qyoa%4EPjZJ58fEVV>|AhiSB<DYq
z^XKGrlJj5T=)xLWfocV}$+t?*?~}vuCqs{C@T%C=J&{J6?NZFC!j7Sh>r{h|e@yH1
zzatl9HGq!nd!?NN*li`Sr4-$E-G49IQ;hDGqq}c@VKw^jf*&fv`BV4m`&a6Bt@w7q
zEdgM5$dRKkXbcVDn+@$NoccK2xzzK6f$t713q`1f;}3n%@MrCR(!SF5<X?oJnm<)I
zTA2QM-vEhj+6PL_o!E)`YZx4Tdw<!=H9yTmsu7HQ<159$*4u%tcVRHxHFWC*Id~E~
z0Fgx;9s^K{L{<CAo2OP=k7yQ@)N)rug+-^(vCo?~(jb{3N;X646bw_6XUKULPPJ|0
zEea&(>ojt|2M<8yy`#r|$?dXxmS)QIb8FY9^i#gb^Y+2z#vexBjlc@qK6tD5r-MHk
zyiZ<``1sCGyit3bh6I;-<odp{9RXz^&}OEca?+cN>)3hoxZJ+K?50<Ui<q)%NsvQZ
z%Tz$Q2I%mu$b96p0N&J&Qv=8G&v^6??tT>8!vAkP2t?SlDI)Z2g7p5GSWsj*azaCd
zFvhe3l{!Vjl?G#Mj0X4551p{lW(W)%c+IA7JP9%a)$8?%0U@aB&CrV9=r_u%ttu}l
z)NL|an;>EpFQZlUK<2eDDy>7^HuEynwy|DVghr&VXL`K`Y;Yl^v9e#BoRp4@P3Oka
z!y~HEFarSwH)S9JqBn#D7}ed4w+$*g@bLe1l^t-8w&xQDGQ-a1bf?N%(-bM=bSK$n
z5*1}nl|qiMq7)W^*C{}?CH;eJI?a@9(qnlVXZD!WM6*S@NlG&mZC%%9!{#0bz-@Z1
zzdfp6XR~NRzXgbjbV@vDtDx&m+H3Op&D!2KC@W^cpuNDHu2IF#bi<&d#u`(cklT=n
z76J*aF*aWDvV#NaRR-tPZk8X$y#;o%;u2#G8-NZgPH_Y6Xj*5+@U!CBranLgE97{|
z`EzpG$oW%p;^h1#IRspA@E2Cgc^s!D>4*|kk1&wkoOWM?Cg?SKpf>w1<v$LmBH*nC
z678lRodGugnkWtx@vC)kq7>;@&leH*-E5d#HMJC*`sJqnV$%+}X$N73YHXnyWZiA-
z!Rej%hi^4~5Lz8P4b4CkSuJ^RFuRI($NBDH!wv6sZ!y>>2m6edemU3=y~f>8_tMGb
z)2pGqYi@f4fa06Opx%+KtE~fI>xb_)wJi$oTzdP`@{wEJt4$9TymzBeO0Z+jMPHZf
z>slT_#hpwgq0ukK_UuMi*PYCvoq+8w`{7|cJ$^SnX7Yv#SF7{+7ImhHCzDp-RCD=^
z518pSpNtLs{r{#pp*6tx`?qH1XEf*%TMgjA*X}AFUotp2b4GqAO1XhMa_||!xAB2?
z1Nw(q+k`Cz%?61<z=(qxl^Bo1v+l&471**V)0iWkUE>j}7{oU7?rLn}KTtR66JQ#K
z=I%w?JD#@z$Ql=}t#s|Z<^RNLY4(&(Kf!*Pf*{ytaACBCteZz00@yr$1)gf`Vuo4F
zC8lQ5RdX4t83NJwbba_7QWz~!0;C9r&;d772z12@69g!B)&IMcqBcX9z$Dc}2`n5}
zu2{#@Ikve}FCwLrBtmNPsv?sU(xfhep4n$U=D#tc7sNG3Uk8|W4;PFT1N-FwOz=WQ
zA3^h?Z>#Lvx_qWMcw8PlUL1T*9()dLbI`+3G+UAJb@M?hg3ZSkOf$YK(-Ut{rtxO;
zV@8ufT`guagcEJ1a&D=~Jlt&VvbgAE&R)5Q#7t!Ya|^4P<Xgq9o5Wd(L~jzum_4W$
z?Yi*>m?Xz2lfp3zUd5$b8!Jt@3v>w+Xv~!)6o6S=ltecpVVwjwhAA!*dgZ3X@tC_x
z1^+*2r8THBfXXFH?0Tg-N=&y7rLO3QVw5Jm5ItNw07u=aUeY)UhvPMMI97v8l9(}v
zMhKym{9B||$?f;aM=el~*!?f~D#R+PN=84ov{}*rH%t3-85?M6e+!jjqj7PqeTLYp
zp`+L^C^rli8}`Z#dkgMTU1zawuUxmc-~?a_wiW~1ZU?pjJNm=w`Y-y9-u4~6S6fHw
z%i49{Nj)~MqHl}r+p^qBX1~T;i|m8tK%c73Upe@++;+Cq*al5IeLD`fM+H{|z1Mv|
z#(s7XF`LSoIJ2(@l!^FeJo;W_k?!G*u^QlZj**`#T(`H>(B)n@60IGboar&&NY<y?
zLPJZIJ#1)$4aGnYOsSWip+j{ykE{lcuDFh}4k}Ld?x@_lP8zKJud!9&jy#C)&s&&=
z9Yt<@%(^PYE24d~%>l>>cQlz(KQksD$`KlPJag8p<viRf>pbqFaWG0vL#~d~bU_oC
zS3}jL$I%TN$GHXmr2-RmK?o)|TU3FQbIw)8W;^s!pguW{Nx~gUf|I_vET7`$+_)df
zd4-esH~aDidu!geijZl}GwXSkfAe9%O?h)R!K0ONYSsdwm<Yia#(vH_=bQ86Fo^RC
zkMezjm!)C{cv(mz4&xfis!H#X!>cbgc3{^~>{ZeTKD}4y4-N#g@{Ux27aVre%Rt?a
zlU*D2d9G%*#tg#D1;Eb)W@~UP&aXoTp5wXfpFwa(%r$#pjRC?#4|<7nsZ7`wd=azD
z`dVAn+u(20w@uqS^iOE7bGCNY|Gr<}@L8+VHV*Yac-$h|xP{GU+syhgXIbFiJXle6
zQVIGf(@ecW@sDrPD~fxe(yuD;RwLBpd(?5o+9v{!r!pfG7I2bo;v~sd=3>7ZU+q>7
zc=Pxo-u#A*ZrBKr^~*jagIOTE{fKVxVw6x1cg3}Py_kYdvAnzk|90ZvE?fauKYnQ{
zpENSEn~StS<BBacu$HCNief?PMGbqY?)u94qj(CGmJH}-aD9b-C@DTZnN!&`VO=op
zp3{S2s5hlw2NK6EA#?`^sI*(XRD$$eE;>Cfkk7yFHa$Q~h8=%^mZ*1Gw6Oc?w47w?
zjI%+wX>STjGPTj)MN(W9f-5nE$~AX6+{h&2TBfv^Rl14mBkHayxk$C95>%~b%BnbZ
z(?J)sVL3X}CB>)>_@X%JXH-QE>BK4&UW!umUy(xxHx(-scQ|LjsLJ0{KofY=@k@H6
zj7BSsrhOsJAL|>PJW%}XZb7X-ImJe2krW$is2-&@UNvy?RC=d)SUKuEd#idV{UbHX
z&SF`w6e|Wo`UiyO>fmU&rRqoJNPN^3?aIU4OqV%1tWFarV)!LEAchXk4?H?pcG|i;
zE3S5kSOHEC%^xay+irW?0EK(E6?-0&dmh7G74+BD2g9m&&b)o57}+I9b^-MELU!E=
zIc#tLim&r-Q_JG+V(WIfb^B`T&ef(}0K8qj-|H>-?>4j+jwAb$w9GGo{pcthU)Xjx
z+P!rAd+z0<f8bwuX0h{MJb!a%;bbY$vy6jIgQZ~j<L1M+p84q)fAYl-dsdsDC_G*Y
zG_M4D5m5^C!T2Z;U)g#3!)N53PoW>R&40P)4D1dUJd0<R!!X@~l(>FtsUd>4HFo2r
zVe3uXtuylW#}EcNKAn14I&-sSHFS8vb`R%%j$A*o6uMI%TNZ8&$ng_Mb+>-&^6r}r
zck1_2mN42Xhhq!&Qna@i-6cnNE%<*PY+DqUUb=bePVmUjgN@}Fw|AId8{~%hXZcb?
z?C-6XVZKgocx>UA-2B+$)}>1~58S$d#)iAm{19#riPAj?hu=QD?7f*-ZGB|n_}x%^
zIe+t+JE4OV8R^GRM7AxQDD}it1IC4spEq=t!fm*10TySau7Of#>{DD`()0<s*;4MN
z3d>t@!Pq<gxBW}!?}X!+uw^gi3a6HS;Qg+*7(IA9dhmaSqaU~KzWL0pL#wTiEgZ*q
zEX@8q9Ie!jmwQI-cVWgEZd?57o$V(8rh1zeMm}+Hja^H<%WZPQ(OZ4D8;+KI%|#!b
zWLgyd!q@%DSqs;wDk5MqI2vo*X!7=3>LC;_yDt!z>0Fo;q<@dEK>8bU{*Iid$hl9>
zr{vHkFX86kO_UcUiYDhClH|xrgDm14+@t(){+C>ns=&YxDKPL;-p<?iRP+~nD*B5(
zSWt%_;Y-_geB$*QI*hU%eiWyxFX*jGeL=4q)E5+_t1ni<1G0PIet^PSI7e;S;=o~}
z#!fn<LuPr*1n$f8UtT;x-yWLP`fe+(fw=UeODln+vis3r;`ol|zE#f&4GWb~Yxk5|
z`pQ=P-gDO!rWejGb}zgz|J5b?()jYOr3>E;+-$s=yLIg5)gN_y(EFkF!?Pc{{$yw+
z@RaO+`j>X((n^G{+-I{t%HIn`*kK_%y|8AH?q$&?yCe6VEX?;JZ|_+;wfyYOUAOE%
z_5H-Rvg^3K4fore{EVY0>7+glDjBJ#`TCr&i$v2jo%jC~PPLF^7QDC49Z1iB%g_J>
zk{OR+VLa&x#Da_3_{>?>DQ->jSMg(=;2B_uV`fJy0OrqHXHYzhxNMc1Ky&<?5j|!c
zM#E=0#yQwWl`vt|ER0R)YERrZi;FWgs}^d+jGsw<HA9!U^v4K`*%jx7u^f}N(z!b6
z&k(5CVOnxtR6NW=gb_j<+ha7D4dxdp4WHU@Xb-n_gH4C?O;naUk2H{<I5=0Ja0Pb-
z-Er<LxoV28e%aN(+<DtIaIc|7g`5TV-P)#wE5*=WIkfjLYWEe6mI5usK(8F=UH0Eh
zebD)%%+2HnM_2kz{w(lVDHL7WaeeM~u%~S2>h@!S_=0T0V~;C=@kv~^%x?V3#mCN#
zv(Hs=K-5Hh0!<V%AXabCY9(VuurYLtGrN@|F5s9IG{-OukZ5tJ=8Q-|*UYL`vo0!v
zfSN>mixOl-2q|3qm^w!nd#RFb(gm`+bF>m5yv9w;QVnJ4Wm(k2S^5p5`g~Nb-%{^A
z?Rh|2^(Z(FIH>$l`va0f=%${#cu;w4l`y*=Vgr=U2b8C>Kk9Mq2I?wdA@vs5fd^${
zw-8lC_^M=o@BulPa4)Wk_@?tI2m!-X6O+3<sKYoQQgt?b*8^%`7YS>3LC4RH;p~Vu
z+oS_h9+Xox$|63BuJ=|ANXTSM)o8R+_HAYrt256SJ1MR)W@_Jve`M^W;%6Ci;^k?&
zOol1U6?J4`UYE^5WDE<3T#{wemS--0sd7E7)J4^Mn8nKk4#MQ59xA(+oIY|0iYRuq
z+AS2onB1-88z5(t;vMR;RU9Mi##8l#%<~leWpchp&Mk6?-l^(-Ml5Lqc$ZW6;1h^a
zT!+zV+?o22v=>qM<8s^KmaRO`f9m4+-jBGZzvg@&aSeaN9r-J6c$FLe%wpp$pKx$K
z^>BR8N8I6$xC0+?M?T{Ae`c}smiru>PkkJJivP@F<t?9~nCJPAxTm!@1X0QHkGNBR
z%Z;pZBb8iWVLXisFRZ%TUvaECdimPIxwlgDsWlGXwI}&eo<GX#LF{GioF&8ahZm$9
z*REe%!~eB_KfLxO>+kS<zaB*X@}pMH5?Zr-f#=&6&fQ2|Pu=Ip59($Km09rGRm(*S
z-&3+VUO)Zn>B8LN#g(lGZ=G7RQfN70_wd1zFH*MB??9aW-m|+3yI)PLQ5+l5{{t%>
BtHJ;P

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/kimi_vl.cpython-312.pyc b/model_executor/models/__pycache__/kimi_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..44ef5c91b6502cb862a491d30fa0218e192ecd8e
GIT binary patch
literal 21995
zcmb7sYjhjenb-{8Z-4}d2cO`Z-~$vXN|a=Y5@kxV9;9T8QexB&0&#{CC;+5pKs~r%
zqU3ltaN{IYcekQWl4CmS#`M~4n4aBMX>%HFA7{O%+bzc62Jl2aW*hgkKK%ok@^Lo(
zvHiX~GXO||Rx*dYxc9r?y>sW@?|!fQ&HPuZ)kMJ+(|kL6?;=J08Vky0kTaX>DvG*G
zF%(0`sF3tahiE9PVyd`0q>gJsnz%NkrLj&O)5Y~6J;`fghPW|gjGIEHxH)7dFgj)l
zSpZKPv&5|-D}m`^wzxfHk2^vRQr5?+;?<#Qk~hShaaYJi^2S(A+#Pb0yea01dqZB5
zH^+SO+E6XYTVi$b`cOT|TVoCJ#!w^4+hR>|f5=br_E>YgCDamc4YiW8Bi0sg54Dqg
zRjec48S0F8g}O+&Iu?j`hq_7L8S9DnhI&cf73+%!L&11|s6W0dv@1Rk8X)kR*kF8j
zXm@-lG!)+x+CyOO*xvYXXgIzvv@gCtv_F0zbb!D;v1j53LkCIT8#@#q35}4vFLpS7
zBy=P`8X6_#+St+fv!Q3>W1%r9*D>|6WAWpm<M9)r6Y=Ll&k<Nd>}32@=oC${dKGno
zVj5qen5K7N<?wn(`k_LnNu3|+npx}2vJ5W!c}Fc3LgNIp1u$FLXN%AYb|Q3^)U-iO
zJG-w~bB;he0NTkOWY77an_}Jbq^=9<0_^a%x))Rw+dK2)vLVP>_67DF`~17zN-w03
z9_XXD^2pgvw(A|O)VTP(lT07$V1n!grk}mY&<lEsn$|J9UeScUbc+rQe1hl`0kvp2
znPj=hr5G#f$0Kud(ZprZaGt$3&nBkW04*AsNHQ`Ni|{<)8b=d}*<>WiGNO7kaZA*n
ziDKgz;HeUcfJ(F+jU=b89A_iRd5#qwV=Ozzv+UK2gU`+;rlXeu&vxS2nG2&+$>{Y+
zGCG?8i0NW17BAL2jz)NPY(5^pb#@LBc)+k+W|QH$x$tFfc76`ZhU4=*%Z$$+gS_Jf
zb}km3!ZDqRCfEoEF#DO=%h4o%j+>ogd43i_wsR2}XN--V8GnwAFfh~_hMkVg$CBY2
zZ1nP#WH>e(VOUP|#Ur;av0;vlN9Mv;uZQ`mNQ@09B5|Ayd+CA3XBjpI-Bh2SpPQTI
zlKeRI6$NM{CYlu3xpUCSJw7{|xEM{I<Jcq@fic3!u`Mk+$1j|jJUM=LZ1ha{g<~g9
zo}YZ-#ehbvE_F2qlRp-nN{Tfl*zqVEW2E^i2cNzX;V$#Am~mdTPOv;o$RwM9r^khJ
zo{UE>v&Z6>ScZWWmarsXah7CY=|*^S0)#Pna9K)K#YSQ^R>(!{IWaveRzW#Fm&BEc
zOtEn`krXWw=)xS36V9Z&xXdRLbMs05=zKH=(~pyKG66IdXPGEqDo+5Ebvhc4UOXc|
zw^f?cNttY*TEaX(bp;kqG|QzckvaAg8VDVxz;^E3c$DX1jAtUZV4*!x9%(8r!NPMu
zA8{7$ELtQAnB&;#=uH?<GdG_IGjn17N`zxrCLHHx=h*P|C=b*bj^k2JNn1}!WiCQ(
zc0>6t#Zo9QLaGZOLqcj+!)h7TL8yU}j+E3`x}^zd#j5ehO|njtvsc-~IGc<_DGf!5
z+8a?Oc}3J+A%r>+(2IsJp~!GpG=*^p^FX3u(Gm_{n~%hhR>NU#2)Y&3QJ8ysI2@7o
zE$%0%+5=T@Q=5=dzdhNXjL-GYMd$jGKtF7<@8<mQ{(V=6+5TAcQvcko<dxY(|8>}*
z{p3-@>`iuRJ~_)tMZW(kEKB%$EI4<I+YSAZgn<n2hU5>ajjEd4$I`pAnwosI`}Xnl
zv+Ei+hfhopw@e%`C~|FHfuC=cO`VZq3=GYx85OHx)U0+|m!_s^M)Qg_q+_(Ke#RlU
zEc;<}mEqGGMh`5|n5J&hA=7y(U=)24Wo;qu8FmVuQPfQlwk1{pzX>BFBxHhYMAS+2
zF$D`$yo`{;<=;FA!sk!vyHv7R^{OUCeFs>y!k%d=rAkp@Sx8Y-ik{IGk&BrbMG+}N
zcElvgOc@$v85%{=0^D_n-Yd0H728nZ;<F_!O3yPkC0F{LsVe1_+zxlF@H~wAU5z5F
zVMcHc$(5{8aw)3fJXC}-+N7u0PR;0)p5N8KBR>t?qxdvWy$3y0tMpd-tu&f#_cc_!
zZ*lIDO-gSHJ;11nRD27la)LwB;QAoB{OHQB(|`G!k4JzPsX?AjiiQ}Gbm0MzKblL?
z2+th_ydrooP$g>l`8nWaz$l`LXcG4PC}LP;t|gPT`AU>w*hH9*F0f)%oQ3@#zRGe5
zHYS0zum`5Da7ZSik#Nn4SuQRbfb_!&$Z^$B!|lT47~+_d?9F6Y>YO`)U@L;vk*OrG
zHx19mrnw^s#=%HqHipAQxd?}ORABsY-R2Hq^+`w;T6Wx<LFLJ=0v`W4B)_>$J=Rf1
z+pBuP;9WP==9>r8nsq~CK}T7gIg4Mg_;Z$C!P1+zxpKA^!Pb(q4GFfPwdV!f@FO*C
z-M3MxLaVawE2t@>b=}~7Y@vLOuN&?ea^7yi+r7Fs*K=6tIh^Y`E%cnuJbxkM?aq2H
zrZulwA9}m;7DvufFIehJnW~zH&ZZUJswwN-{n)7WnGh8_4U}*!)j3O}U}?-*x&=#j
zey1j`maMZit@)0Da8uD1MFAh4mNYM3)Pb@w&n2dc3<f3$HvnNze+QYn6l^OLjoYpi
z{f-QsQ6yOz217%uB3md`DCE8fOl?MC<fUq0c1o`=!H5=Bi)z3tZuJsk36Jz-F4ZWx
z5=OBn6|iyD#3%m<S3t*|1x!(MJ<8tTPD7SZCigt%kRk&b?gh+GLLyof`bU+P7wIsM
zkA^fzNKn*I&vKwuF$>K*lc9|AN6?Ue8Is#n-dq2=^`3Plk@fD$c@GHQ1NR5-Cv%6-
z3Wv{Tz30-_d|lJ)hwdF(ZOGOQ1F5F1OV_Xskkv{<*4tkh!Cs#+)RVOisE&(Nz|8H1
zyK%#q?877g32=ki*_f#2lN{MU+&BVtk~YNs6D(Ne4L8NcV&U-HG<P1LJTCbWY2O`&
zEQiSqR*XRMn^&lf^A{eeecHCXyQM&Who6yt$IpF+<-%UAwqb>REA~dLKtXnG{@<p4
zn))2GlC;MTw@7<M5^Vk(sM)S2F{%(zlu#D2I)<o7te!Q@Aj8>qv8Kv!BFBIf!N@W*
z8b-_LKpM!TJ58h<^h{K-oq8rM^-PhM7h4&L%4Q0fMYlv4L~A=2y~)NTZFb?iCZwXV
zDCoYZCh`YJ8DV|?#MA-*#5}0toPT!OKXnCkGd9MTBg~Z}%%Mfame<em2mI#{>PN<1
z-Y{C;kZ=U4ooJcE!G*6!V)H=gn&hoH7A&^8PjHKisyQAC(NB<9D2(JX7iGd%ZtxQU
z%Qiw2_2DoxI|U+z1$+)SF?RqH-1davxG>~IO)Lsz*o(ktFd<4G;p|8U946m|e;&!~
z52;5goz_rrQ0=>KkEJ`8f`X|zs~Oy=uFD&&-?O}GSxPP+d;QG4GlC}|7y=&{oJ(WN
z&C8Q3Ls>&tK}{RGAF0(&-6o~h>Ix>Rrg52lJ$5hl_UZeY`;lz#kxb(e!8N+B8I^{C
zH^=|trRZLpUj|T#8X5W(Dn#^7R*Q5<jA%kT(<;zEH6cCdpFmegNvsacYt$_btdW#d
zjNuiHBHu%%TWZiXT@t-)wU?&K*{~W0fd89E$Vh-q!teI05^GKt+44Jbf9I*UX|(Xw
zQ^}j66>aD%(~5LPZULJgc_G>S6363sC@VsD>mY+$+P{VEP|*T*XLo+@=Bqbz_IAPE
z{$?y|-<>h+mZtdvAWUp|IwUdjbf{B+V+~BBC{5V6s3r6&(F*F#Wy2CZcyrKb(9lK;
zEFO-5*^%TIdMnK*8EOUWKgV8C_k%$@Jj<^1*E5DjGE&hjiBHMUvPcEV+$s(qhmK@I
zhM$DeP7+jEa*%QA8Em!fsw6)bH9O!cgjv?dqIL&dg{79`>QbsjeTrT*B#W{%r7x-T
zirnT+r(iKs`tMUeR4L>CCSBIXutOVF%CNOfN_$%meW^>mqzoy|0?b27FZ~jOM0a%z
zn80Y#t_-%45tq_cYP$eWqLBEaF^MWBxd7LQeJgckHTtbJi{?dB%9JuM>K6?uEzu(^
zi`J9{#s}?ToN{gfW`6-FwY<D&OIc++gOV%a$u(GBv_n6(1sGXM%V<y-Nv&`u79B8F
zyIiN;R##OvZbz!B{E1+r=q46gCBpQ_=lP`n66*&Ozt=xC&vD>q@ym4!&4iRI<49Et
z4P~l+5s{x`r=rtQmMPgEz_uLn=ATnMYNB1*BPD=|$SGnsaA)9YL69WENpxgLdsQ@n
z!z95cBj8r#_9KEO9s#e0hQG!o1J#mNb`#*-Ev&Qvt15QREh5NVHeT*)h>3m-$<LuB
zZaPt$U~hzPNIzFZtK2}E6VW0UrA-dw1p!AqDxwkd^4^z*ELWJN5~<=*_dp50^^!D2
z7fw)OJ|32)g*4+A0y}c2?Wq3}`sVKe-@Z*1ER?rC=jjzZy;)B%ZOPX(=V}Iont@!+
zL80bg+5|dS&OIo&2XpQ*!9A8X=Y8!t-yXrYC+8azd}C=_zN#Uu%RB1Q+J|=Ea>tvk
z>-LU};bNwH{JrV-zMSd0n1zD911sC#bgtXmGlmy3fm848d9O3m`9c;7_V&EJ7Em&V
z6Pd0PSxD_28<wi2kYH(AIlek0wCxkj`|nS@Z$9<V<-L3I&dI!^ab?fyDWP@m{k;!D
z!ZT-umUDvR`AxN|#+E(?hFN{n^8CvDy~S)@-@E+U-uuUXI+E=_y0j;KEMMQevS(>;
z`q)OtfM93^eK>_STkY~G!P2qnUOV*QfUtX92uui;i9CQqg0=IJR^<+)O$7sG^(`L|
zEbXh>wfYApVc?X|by~2T&I9<AVC?|Bny$1FbOK+~O0D4SS*yGM{7)MnbPEHZON_(x
zdg_;N37)RitM{AVPTXG*f+q#{skHf_y?W{3N{`^|%i4n(Ly*XcqA-Bv0>x4m2B?TX
zO&C-X1m`L48Z-^4h}actiO(}ke5O}s(Hko7pD4p^7l^XCCy{5AS!k_DX=TJ1jxz7V
zy=0laVRz>2&4Rr-Yj4fjM+Eyw#xO#j@JYJ@RRT_f$yYGJt;^lO<U5d{F95uuT=EvT
zgs^Rz-Ymi}`7!+Ss209LeX63hLj@hJZCdrLIoGD{kNtFJtw{)sZc+d%=vuY?u=;La
zL612D<*6+gF=wJo)=e|!;G{=qD?m4gSJa<Eqr;nO06ao~q<7#Qr{KSMDVFBuO8_cY
z?^xoIl@xn)FM@ke4Jw?DxE!_Ms|B|sdTC`09VzMMk_Od5Xl0l-fa0eO8NrKd6ur_?
zkRyyOzHQM6ddt-8d?Lwns2NqZ%~NEA;65u?3grg@bxEa2Y+@f*(k{@Avh7l2G0{jW
zX%w22CZ$420}@6(!Ci;;g#Ux%Uk#j1)I`Cp&;0>_6-|jyUO+3c?LWZ^Q<10fz)%%I
z!Qnw$(X}Jn)i&go44(0X(POmGxzm&pO|FEP$G*_k00pk5@$SoaUS1hq9nIDR)20oH
z3*}rv!4=H9cBPGZcT>*YBe;9g<_$YC4SQ$C&`AhnLe%r@wQ!70h$dK*S?Qo@iz^q6
z8KUV)=4ndx)b#)jj;jLAtm3*UI!OW)-bJ7)Q0uYxZC6Q!ujC9atF55v!3t{MRVxNA
zQK~gtR+0!xNo3xG`-;Zd>nsOW9?Qcr{&R#>g-h!~SO+h;^oO95Gz9Mo8VuYIFu_IV
zeuxR_PF4tto$^R$lBkqKWL2qim~(WdFLeJ7>n`JNKyQSB5CQ3K+OqinW6$B`?$?9&
zf~%hO+JOg?X*<df*V1IJrbnphdFbxUx%&in-$PGV&eJb=`tx<|`Px9iNV$7ADXrU9
zQ0pD00;M;aBnCp*vT2*)yPXMsAD<odSFRqDA7QeM|NSw-Fv-C`e+80Pr~+8JU90*v
z_1gJ0gV43VKtcKb)F%EEywssl`jN3pYuc!C6}0dRPvWXu-o2t;-X}QQ3VH+?sG9oa
zXEV(Mnfd|2HMlk@xb_#Y5i-g8$7aY$&w;o8T^S*=KeTdX=0?~aE3-PVY|+{^fVGRZ
zE#jGqEYS>SG8WeAgL@H1s0rC_8Fn~Vk<Md9BWQO~a_%R(%N0Ge?5>h?Oo>C5?-8UY
zvLk;984$NSaL8n_O(i=E_@}%-i+mKVG~DgmF0f!^%tcL7ksnmaBAO{4B9t03z(<vS
z%P@;>|8h*F_jk2Q3!>d~R{;q$0_5x*n*Q9EFhPzCPzLh^!$7vI<lob>aM*fF)Bw|E
zL=6MS#asg*iuUPPBpIHDvsj{*^P>I|@g*?|-~Jca9g1esr|6LM1>*Wa&l10#Z`Tk8
z0c!*XLX6>MU&2Daw2ikMph*iItk~c)xFdfF64=Wos<!p@hI<W}&f%Ze{G#q>bq_9P
z_n*o7#zBj%3*_p8LS1l`%hnBM!252X9Il7HV9qxp_(s5l&-enMU)I`CyBx^X?Gx(u
z-S=ecM!~g?+gU4bXVCydj!FmPv-8Okk!|7lC^rdx%|Yf{)VJtwY41|6R(8Kskh}jB
zxO$00Ppi_}G!4g;;5>T80u)rFFh>2V_A;H)z@e8+sh80KqMZ;8I7HCXZf?;saad0H
z--P%e>QB`$ByD98gDwf_Dj$YIT#IyR2r0URtJHJVu%U`%uJi;(YtfuuR3(lA4jA9t
zuQD9<tGY@XV+PsewhOkMV;cyH07W}%+x2dl+ViRgrf-|F0$ZbKItEOl5k(DIaLx}s
zam|=~9TLfql@CdzGcKZwNQ93x&)r2_RBcQ0GN9-FH8$2sLQ!-SH62Mo=fSomr!S-f
zq6hy3J3v{<<HDmDynXw&BnRy{IIa{Lv2gq;+XuEa?C<bA37z1B2V=7klERM=-KeY|
z8_);;ZMfTSP&;bK)pQCqov=yPYx~ywk7j(&!d7wH(#LTZ)h>6ex9nNB@6ERca;*o1
z)&uwVWn0Gthkv7?HP<jGGz_lo%QhTbGUZ!4-`fAi{#@&*&^ns;cjx@O1plslb5E{$
zP-q@3XsNcNG`L;csxuBh?B<%*jI%Y<u~%^J%~<wIQiw1w2sDBKf=Db1oJuE!8i?ky
z;lsfUnR+sP#K>reXHhf`GM|J~tpSw#cbFh1(K5dJRhVDt^g?tJj<a>j7W#g#8P?%M
z9)Zq(OLUFe#@BuKd^z8M;2TKW3L2Yn_|2)$DfoHZLRlO0K7ZcZk@0lq>w6ySHCE6i
zbjW;kGV_@T*thEuxP?l}gs7Xngy9B+XLJ7w>sl~D9gl0o1X%#rfysZsWSfrhCc-dz
z4FCKbB&cK9L4$BM6}0dR8bou~s(SU}s#)+474!%)P^PLSXU5%=sp=7oy_-e^wlqSc
z>h^*bew9Y&R}F%HprA*Pf%5hhjF<y8qk5@VFg86lLs42~90Ke^Ttv|#>Fkn-p8`nn
zQoMDWDqvUTK^_<#1OMdM2VL!~p3%UsR*qZKmATRlV4c-5dQe3SfB{E4azKa?0zyoT
z36FbNi`-Jfm_c!|!cmTG1}Agd^^RO-ED$TF0UVtAZ5P;t*0Q@-GdAdbXIwkn&q?aL
zwsi!>neHcHaFpPHHg0+3p5n->0O~bT@U-<zb>*=!&K=+`)+hDD)a-ykW>&tZZ`#7R
z!Gf)2JUd|T{JdTmWgX*V>)8fYSGl#MDiQ@z#nb|RBMHB00=d^9HcFfG_$&v(Tuc;W
z{vxpxYy#p6F+a)udzdnjjuMS<VydX#0TlE2zj+XnomE0b)#B(|s*-wGQt-Y>2V_%e
z;qbwf<b?r8C6`Q%5WcR!Ah00`KGxKT0syyRslX<nu;4$Nh~4s&W`2d=`J=qQcpL#C
z8z#~@e<KR+Pt!#_k~_w65T%GGH8Gw%FZZ9|iFkZAU~Q7zaH8BOcMien+QQ%$PacsG
z+uA^^F2y%N&$p=!vomLI6wHmwH`dLadFSNEHgCrFOxAWVV>n25wP?oBFXhnaD74zL
z0LY`r0@Q1s2zW9)5%5G;(#XHiCs7uH1gZyk;<sOm+A?psrc!WH(xJ3bR2^P*iuxv9
zS<#qrDcGf7hQ10r83J^Qs!vKY<1N)Ixk{lz&`RNWR1%ePazXnFHUanq+zLkNw-hRr
zQkA?vVCmz$!&M$Qlx&q?0EKX~r}kE~Rlo)*^;T5BQd;O6We>TMol0(|0$(ddjV$U?
zx=QO@$)ize7Av<7%j2V{WREhAly1x1l!tnOY{3i0U!2iozXU6V;LYq(Af;dKU~;!o
zf>lD#$F}QtU;8biD+Up4S-Co;^MpN#IuE%NnFOOR*28MzN&2>H27O`ME@)Mxv*aPA
zGNoaRj7eGLMSb#csixvn>fbdh`vrRR7qKe_-OV6l*mgmyqAZ1gHp>K9rr`4tEpiB2
za`py>`$|z@HE|4{#z@vk43B-J@XLUjI|99yMT^;Dk;LVB40IyFsGx5A4I<#}MLqDT
zD-hZ(nqwIKEd_30h8nmEhv81IKqk=2JqJG|I0gcJF?d&IZp0@chprs~6wv~)w25Lg
z8(I(CDNIm;L$DkUSQ@X?NUR1U6Jq9}OYqx6Trp-wvB5b^PGeGw2~r*Rx0v7>aQ_Vw
zQ8P6=cS|%d5H627&Vx07hlvBLEfA^<5%^#>L=smyWKp8&I#>ahq~o^#j)*~oHpL@X
z*)VYjfPbYFMh$LO5(zHqL5M_>5FLajrRX3t1!2%dZ|(OG43U5kd|fVU0!GR4SDbB5
zz<VCSB#TY#{QM<|0xpS)3|5_ogh!(igc!Lb6G#f}lbyah$^Bw{-#(OAKZgYDn#ZQ{
z_&!gI<jsRaoTi>!(;lH|4;*{B>mjJloG(>=jAvlE+MrMy{0r+kIqJyRM>Z^8DZ(yi
zIV4yPJ#Y(_6LOdzMhw=s<m&o_y1rc9exYtZ#u0iS)(_?}I1d8}Nw{8%U}=%!`D|I|
zFev{G5YM-6@IgRd$Kkxwmv3yzH4X`lLj)<)bvWxh0$3dcs|C*a8Uh6WA($9__xe`N
z+1jDBeZx|hvvdiTuAF61ungubBZ6fFN9N5L+5|(}x*-Vuj;3JV+bQ?EFYDa@SgUR#
z{nmkfXYqb}Bxmk;-`w%AE|7P)bB<=g(M&Qef}<tp2nvqiLr*K5<ekiV_QIIzZRxS^
zoPmMYcW3K*(qpfk*}&+<COGcPSq=-9!}8Sh!mT}x%hN0Iwewl`emExc_pj-4yGDgw
zqwm$N`!C=FHRL<G-@5w7)m+CJq2o+i^Y==Wg--JAJ>lO#!MYiPWM>_Yp%ium2OpJP
zf2uMZbxL)czD1R3d*CxjsY}ckR8P?P7`Uh8Pg6_LOeKIyRL{-MkuW7CX7D4#E@Etp
z6>P%LaEKC*Bp3{{isE|?@@X(JgBC`fqN+WmeGIq37>odnQZU3C?=IX~SP8DRWj(_{
z|GuWzYwy)&+J@GctnZn$ZNu!zn49uW&&P0*Th#<7#NbVXbw<lnqqxO%vVA5?OX#~S
z!sX{sAcvX+yfwKkX;8EjV2%sIkf10M)mh$~+>Gl?7WD{_WLrBUC0v|JURXsIk|1%7
z)bKpW^-3-<>_Z_E;!!KDm8d80Yz#6GLTw~jjDUl6C4880=>g~*922t`wWciiuK`x-
zWZQz*C~Q++WfEb>FAP0(nI&esrPU%X?kwC5baFhJ^$T`?#@?GT^g_DfX;@AOo<6e7
z8SuZLA0ltI=giITo0}gxhw=`Wvcv1)7(VA{7aZ+bM`yma6+EFX8+by&En%Zv-kh@y
z4iQ#fS{unak7g`KWgTDgUJ+{8awv(5hKd*QJ>uS!7MxL`LM*G%m6xIzM7&sLaivrx
z&twwa`Q(}|`u5}=Rb$lm)KjX<a6tNU6$HzmgWjNEmwp*F8kBcbuQ@f;qK1$j@{w&<
z$vmj2a+i(+U<L51_%4G+u^`XGm}vN4RNo-{gM}6nfgsg`l>9#kAi6>va-udlKL;<?
zY2no&I3!0=FL~_M@V**A;l(uwjF&{~Cs;X&jp&=8%dm;d$tzDd;9c8jPU0-Pe?O8V
zjlP2vhXcg`zS`xzg1u!W@xFa1V;IWVhw{FLoNu?_+r4%=>pPORVWdd#-J!pzS?yc5
z@5>nWW$gPt=-iX7-uuSaR+^Uv?hfA>ULN@411n!k>oe7RAtW$o4+!?ayX`*-yd7AZ
z$aX)QwU6cOrv&?{_lC3f^BKeWfA~~QIfuy+!+rNrwPuS{z||m>hbq%fY)FoufG|d)
zDkTB6JZP{Q4d$&1<HEpGrs~Nie}WT*)*4O}JXQ<LRL0OkcFvX|<7Od(4BftWAv&Zo
zr(@_SY@|2o@6y0GiI4)kqICmJ<*O9ujvD~@nQDS~{y^vbpMb(Wf<)m{L@*%%iB+<8
z%_?vD@!PnTgVcme>Z@{kv!foiy}@0a5HwbRSGf-?F*)}E0sqGCUzDPe%<hc25kwDY
zQ4P(x`aMGZp0%sl`lA_xFAr?Z;Fq|Lk<cNWcVM`{EKeLiyy&W^wps};51K8!z{pP(
zg$axT`3RZzeUJf4QGWyU00^htfiIzufWsGBIVeYSl}s+o<!_(|?jJDuEhhgDlTAp#
z|Bq{0v7Su*i%?s1^n;>H95y7}exc(j1P5Ui_=dq7IH~vqAl)65#h)?v<m>(E@eK$C
z^Y%d45=1lLU-O=PZ6};t`|#WvULUanTX!@lZw7EUkS91enVq9hvole`Y*i53DSBE3
z#Hu31N{CR2S9%D&acFiZ6o@zGa4tlhWK(P-JKGeTVa$U@B-JV&`5lRFEBasJ?6g7e
zum`I;mRz~24xy@JCHYqBjnvx9Le=<#X-Gi#x7Vbt5_RdNw|e<4vw>2CaFu1v&RnI^
zOf0G}^oCLY060H7oG+_@!c>*q9E=WS<4u}}*YE+ODCOYJ@&(We(rf{089laz@Lnwk
zp|Y3Zt;ZkH3*bJ2<HMq411FFX^jw)?aBW{K-xw2PW-M?=G$XfN?^;WHAOX^LQI|xc
zkX%3yHA=qp`;MGdq#*_tk5NnX%YO!AG^7j+#n@^o5>9JeG?l%FXHZ%&HWK!$1zejC
zdP@K^Tr@NGl<_*n(XVwR5lAlBr$$AYTePGs-=JUH!#EI+*DzHw{s?FWMHh+EvgF_y
zqh7A3r14lu*e<rFUo)qSGes9ksTBnC+KP8HzSgLrnCeA4<0SX8!;DloKKRDpGOk5?
z;%`zKxYsn?3)W@Pu~@ZOox(BF@Jtq_hV-CK8B=-!fpW$BSEU@K`vXpMX>3Z4aVs;)
zmHInW=JqqfS**O1;ohep1lfpFy68+fXK({;yB1v_rd%l}1VdL(t6{I3aj(-9O(o#v
z&yve8rBm(;&p9E_Y0XQpi^$Wu%bpk3=;=?l<B0ozj}aTE)hTzXn(_QVRW@!ltQ)LJ
z%Fe5n=-19Zbslx{x*+y+GN4QlLY0|ZG^UKVvHtoF<HovIN+U1Ztxm?9M28W%lwDhz
zb;4ieIfp)etf9bF=9?g_l_)g<)q;Dg3KNvwTnnykaLFU4{;f558BNdmIpRoLFiAyp
zs!1VzY7SIbYQYecF~~cnlJ5yW)gU7U)W0<bufg{Zu;GF}c#UL4`WiUpG}vAryefmP
zmOv7^NMDCD@-Td?0bkZ&Z(@8X2zfFr><+#uF?%B+wbsj{fJj5<)Kxg<E@F{4++|=9
zUjkMUOu3~5GUJ)Nd@B++v*6_5OBLKL)ER=&#C3>+VXrOJlmVw^A%Z0W?^ZEez!0S_
zgO7_kNu8Qpu*73?LAm?jf;NaR-NH$ZQ38PyBO1u(0WfFX@<EA!TXK_~0}_B}L*j8H
zuU|Q?U4@ru;Y$MOv<x%RxQGy9oGK9RSI~$98;FA7VB*;$b18kRfDgkLD)4h1oB`H@
z`*Xx{;Jg2fRFB^>;6*hCIkuu&i;?}H4#TGpFvdg*3zA2Qt>FC|5+S3P&*X_|EE?cc
ziyTyO{WugS+zB2U<{D4uSPs4G97>9SM^cf1b4YGM(Gxy>?8Wop$+KbjzQxJoFNViQ
z&z(CtaYA&%>DSa%Wt7FI5cT+uef&y9tdS>`e37A4Z<fm#-y~}ATNk2+4BSe-+yMdn
zB$!{)LQJKn#n%8J&U6+%ve9YyW(mF{03flJywv~XM?hdoMR+>^J_jL_R@p3Z@MRt_
z>qxCM8)}$Lt_q+ew3>K1pG>3^JPQs~9wxug^Aydn9QkM1zX^m3DnK=N>+aO$s=9=#
zuC#8Wqd(s^^hm32HDwG<pbc94^OoL%Uef~QM({D>tIrLBr2&H9Ej<t|Z9Ptdnv}D5
z2zH3A&jpSM@Mk~rU{tUlgJ=$;;}Q4|oq0>kr<A7C_K1RrhK!{J9IqDV(%wv6-)eH*
zJOp0A_P$)(38C#oz6}P@pKk$uwIx@-Td2nuo7-)Ir5Og(-kGs9f9$SZ9?I4266$tA
z99P!8J8k~hRhJ&iw{)y<tMm%^I-AmCOMMUhtt(@HW?UWpk#%Wux%r=cX>BllJa2DX
z)d=?9yu<sk@8JE54<@s|Q|VKAyAR({aCkT1DcS^x&>uYc-lQ=2JQy8SzI^v+uKR@0
zed3qhCk02xl6Cn;-sxW%d*9iG@7^A~cW~9Zb|YJN_|6zSa?dFmT6OnlEFF2fXL(4l
zqvK3+m1LZ|pl)z41Qq{!|5?GcXX(_6dG*WSU52}Qzz6Gxr}T9~!5dr~dterZP6JH2
ziFqxQtvj+bw&AI}yLe}D<xA_HzO}adSB1fofc3E_xSCv>T=yJ+!bW{3JZF91(y@G7
zAlEi5v<)wff8c6fX<u!)ZxCFk9~^(*b@~IBuh2&wI7dG|0C97f)_uS9?SEv}`rOOv
zN0heFo%gony{&m~Gxk{5vC0T_gZcWld{gV|se7r_)Awt$O=HWNkLw24hVHx8>qek*
z!{4(y1~DGX+I&}EuIm}0>zQTi2i|sgD<fYY04t=R*ZXS0=h(R`-`@Agj0FqT)c&az
za*rJFLVTf}sy$HXqV^uhcn5!F4{SI+cMsh;wBlKJ23DE-Jwou<2d?^$J-gOiYk!dS
zJiDZU`CU4QFlYDb(3)%Axfco>URZy@8(7jl^mndmSHHe~<U-beamo6DqhXm{d0B8A
zTAN;X9C~z31@W&$&4*K+myr9YCME*@ZDBTIjr2i-OShzOMdh5wD<8#!HCZ~XAxBeY
z@+AWJ2+WmPrtD>h_mIh<2Y{SgaKC_@SS4-VlNk1Ok_56!R{1zq!kbUiEWC|1B^^@{
zA2N9-R&o!a<t}|wK{rl5-NHRaNE0TXV**A1MXX2eA2ElzKKFky=|}GRRm?>oA-)bN
z?1}r22*jilImI$0@X|J(Ff?a0zKy2VjHZ4=>nNx++C!_m!3C^6v?l%B-~GV#vjec#
zwTJL6iYkIqsHQx=NBTkSIK5E=K}49rjpZs37|?>r_L-4Duh2HFDerA8sNr|RSi3wa
z7@Ie>P$;xey4u?pa$29D^<}kn1(j9%ES>2+TA(oVVE(UDf0g=_<nhk+QhlLOtDU4X
zyGHRf@=5vu``59*ih->Q`GSqswyqp|>$x|cd+Y2QXYqBB)`HHUZC-U3DEL_$e=sHt
zJ-3PZLOpfx2%Ya6cx0~DHf%V(cMsk<SkOWqp2OuMB|Vl5RMX(vn9#VdV8o({@;2N}
z-AS!5f~UKHZDA6fzJe8VHp<knX~$fbO6y)d_LDPjpD9p~m7Zl2vjszn){d+^w|Zf1
z_kHazEI+ekc8>{t$Aq@ypM&2=E4^hSt=AD;H29<%_2layXgA`zZ~kXU;5#yaBwZ<Z
zO;gcJxyj0QJNReEpwnYe3mW?N3p}#LVARU(%XIx_(D2ojBSRTDV@aveZv8&RXnt4>
zmj(-~Ua3KE>3NE1wGiOyMI9{xFMOcx2S<!k=$-?8geN-Zf|V#oK?xKT=^%VFM1Lj1
zlk>`9m;td0JCMKGAfbs`I1;_ga{mQ}0ltVM@Iz))G!``-DU=2$0_C#gnt|`-!D%cc
z`@mS@@sOB&JH%j5U(a|3*7bvVgDq$16bzlK&F>p}He9tiSFhmeO&cFpxtFfzJbMMt
z-d|P?r$@ngD!us(5+(Ye`KR%<@PpAz$ML_npU8XsD+6~H-*>cukg47WglBO`T<go+
zFL9u^Arb9Uv+zA3_#PU3B_J5NG$n0!94?9b6V1q)2xDS-4#@%zDQ*$94_8r&62v1`
z>CJl+B3R%vV+kHSOTYkm4qXSF1>xRuco06yB7cL8mp;=%LVber5jgTY(Tyj%G9*}X
z8IqSCL<gy4@FoA~CDin#v+6bimh@cZTT#lIPUC0WKo4UjowoT4P^B;2kPpm=Jzs=J
zzVwE+gcNZu9c=IZf)>)jIcjkD9Vf}9$e<cc&ei)WwUnMl`aoPz)&}R3QHa$--Ir*=
zV#kgR`5>O_qiq$wK1h!C#r7{iCJxYP_--1{VUQ7r_Pf~f1r6fxdAaM+B#AB%?Gj=!
zI)Ov~h`f-c6$FC_Ke{HpxPrbADbN%}kXW;=hagN958tXlEMNyxbgEeU1eUY{IFYT0
z)rLtsCLNH7z6$u$QCQ{6Tqo9BNj<!kMZP;oM4;G2VC6&`CbKS6Bu_qhBE@5P393{p
z#X3Oz2Yw2U>%k%P;w`k&k_8b!teIVy!?1d80CT%Bfv;A|ff-W-hDAJ>BX9ALFk7*j
zV=n{MgB?|(IwF6+f_VEeA^hbT%pJr8!*E2yK_DaeP}>OiCFm6XDE=#u!pAFUdNTw*
z7t60G^GDRMKn;ILHGf2P3sm>7Da(hH3xFR|yZ;x}0_lfT;6rNvht$Z2)QQhjDq8iq
zPED&mGf?!i^heaW52<4xQvIK+w6qF@Ce&Iqv<j4X$e9$_XBLV+^dZ&v5q07tYUF=Y
z&k59XA5wcj6spXhLzf<qX|xAqvdUb*;$u@Y-LRs1%lL-zF$LMj&(RM0D82mBV+wx@
z-Be9ahN^n33(|+dKzK~S@8e5!Ep5s)?aAytB{ZFWOhM`Kfn5Od4`=qB5&YwiDJT`D
zX-d_Vp<Ow;Q=mKZnuffwAzy_j)hg9v(@70Ivhu=PFTU|&X4laNr#2}BY?`62K<Wx#
fHkfEf-cnys<8M!p{BCFs>7j3g9%}(c=Kuc#3t_R?

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/lfm2.cpython-312.pyc b/model_executor/models/__pycache__/lfm2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7b677d20badde4b2dc8070f9b0da638ed9fca8fe
GIT binary patch
literal 22592
zcmc(H3vgT4ncls4zd`T?kOWDHq$oiYNm<m>mSoA2Wj!dywq)5s>>v;?NI?Qf`T~?C
z227kCcMUquN@|*l>Sk*uyOU63w^llx3BB9a-fp{bw>vw$rd=R6a-*H7?ReVh&=x(;
zxU=1U|G5u<(50Mo(&-)Y;Jjb=od5Bi|J?uR^}0AbY0I}$zdFiszoLNluoMLDo;7jY
zHBR6JKFwwL7|)a6ls09|F*Ea<)0T`iW@Ua$+7`1R-IBIv95Dxrv!<OHSIouywzNCr
ziFugcp7v&ZF(30g(*8_MtR@qP1v0g<S{CO_*JbKs^_hlP0}H#-jhSF9$o%efDAN>c
zVt!A$Inxqr$%JF!Olz!_#d*_hnf6#a^ZU|~%(~dROh>GPh5hNyOjoRn`D@baGu^Rn
z<`1MdWH!b&GJkD4n%NZFl<A4}uy9>^bEY@e%l!4}zD$3tAN~fRF})@8K<t6c*4Wm}
zKx`nhEw(MQJ+_^t1=Bk+J7YUDyJEXCyJNdE55^wMJQRB<vnRGEvp2Sv=S<vVoDh16
z6Pl8ab9rsz%fGLi6@Tnuma`c-TfQLYewH(goULDw^8m})hMetRkn@qGkL8UZ@4EZv
zeO>K*>>w-AffAj@C6W&$2a?;8Ta(*gcc`O0bjcF!`iKHiUUnSKCB?*<bP|4BDw|FX
zlh1r$?9vc^U4tW;tp~@)MpB~)IS=G=$+28&d<=nx?BvA6xR{IQ#>L^Y@!|2zL<+T-
zW%t3v@Y$qNNOqqX7m{f;;5wa7XVltEvS&1zi%(3%N5%2U3Au|xs69I_#xqnVK9LX;
z=`=hqjEiX@o=r_r&s--{>B$3Q!imW=LiQ(5oE#b#GibK?L{c103J1s2lbNx{)v|-B
zv1CG&15X@3T^;r0_zSC}P@R8pd^DBIJ}!<AC$s2D)Fd~ZNMz0=PUaH1<e}W9iR8gV
zdU!IOz@RIWPM%FvCZQ_l$+MUo4E6#7wNFeYFmF={nmcs@F!eNKaeN|)W_)^IP8>-l
z1iA6__;BKk7WruAOi~b1WAqXlgycwKGM$URkW7u9&BfE>2_Y#Wq3-AyUS%dJq|nz>
zY$mfG@${ChviC?Ldvt6pDYAj!rDu;^IwPh8*>h5Pi`l{PCl6q9)zIUQ%U;dT`X05*
zfdiAd@uyj%$W4u+*N>k_WwYqmVB!+Ob;*l4F)@rzQ81nw6OtF@U@A+mIiqA`uQiiI
zPvs4n#Q9`AnVHC4Le_HM)n$;4kD#h?@sjLj8CjiK*^^0JI+Kh~h{=)E#bIShE3RJ+
z-2HucUIr~qaxq@uVkRf&<OHu^N}2^T{w?^oCM|+3X%+Y>JI4w3q)qiXlJ*f_fg9lk
z=S$w0LvSUX=jtmPQT&42IDW(;cwVx^+y(9;AM>2#qCVM9Tj<2#<3qApNM&T($Vi-i
z-5I>Y)I>TNA0Lrx6PVg~LO3^>&BfIWwId^AlryeoOku`6&(k`>UZV{u+tfKw_ciMo
z`H7m{1smYL$6w=eN{8XjIP%<gtQ@D&4xY<f#Qq#&lt<w6rYVF3)07*zXyxFUHs!6~
z@|APttxB$nbaUR6H%}q2V4eaugCCrXYMM6XFuTf=NA06LW|>;B<ZXHTA98~Ak4$ga
zURQgN=i(MEcMd&J%bD`Lp5KoAj*9#?Emux^_xk8in?5g>xTtgJBXo-Uh~`FYg>(3G
zbKeUOU~9NiV-u4(MqXsk_+(BCWM#{lR3a-rKqa=qnL>fBH>~1L_+@uRPH{J7(ep)}
zvK6!uugej~x=!WdaoLRZE!I#$(+dxXwTfq}=p&DfHq6KvidnMB^oY2bYU?GZkDPvT
zwveN@AUosn;dCOKjmNW2q(s!`#m^7-=Q0!h6RC;bTmsZE*L!ht=k8tScP9JOsWbf(
zmvU#v$NDdT3im5CHhD2QjHM?k!EApTYqf9UlDHSOPSvO@w@(`e%|iADoL|4lt<-Z)
z-;7;ygx+^F|J>brt06QSm_2>Hc`k9iZK+{n;qYz$x<!BQt)}o|YyZt|sdd*<)9x#_
zQbT0!^!#~g{qBVW()zvc^hjMNq=uow;XAdPOTp$+b7VF&ci?)s6lg3ptuHl(uRJq*
z^2)vyx2?`qu)Jzt@o{xsrC@6*)N-FJ!FAtF7cAd#-$iFRnZGF8#AI$#92=%Zpgpt}
z*j~8^&owU3om1DmmVtirytdMxMcHZ7v>ExRRMnF=Y5Ask<WSdiWu~f{c+|w7<Zkdo
zQM33kGKvSt*$*db5g#G{VK}mV6y!V(4#~%}v_I%wi-%as$hi1ILKLR_+KW;nP9Zf*
z%k)LA)X;S8>8nrAKJneyjH_V35-53UE+3ycK5Jj{L<)S#Uw8S1nHR1+|Lv(6OMx#u
zQ1aIl9O9!W8#N8dT+~a8cr1}gViCLI#F-~Svf{EQ9tSN-D=FeW>W<~i_;^~jj({QM
z#303(vpJD1CE3b^1lgvrC2^2az3L(!PNviG_zhk>h}bN>g8giKVh_B`p@pBl1n1W;
zamzK_z|K-*=;J`d+IibsvuwrhvW*MWFWbrI;2N8jo#b<It?QQE<nwT?9dn1S4=#Ht
z<l}<T`E62T|FWNgH7NQiRknPHw^#$S4X=f-hnG2c=hwfv`NrnY$jfGg^<@~{(4QvN
zclWR0spdGubr|QVRXL9ZoX4Va9t(JmRd6J2Nqf>UVxo#v4&+20a2++|PP$Z|Cus){
z<3~b_JNdw!+=4&pIoGWBM)wFcYs7nv<40^l09*@v4_wO+u2m;{X-Vng-jHlld5%-%
z?7~IaeKsWs$uWg;I>#n6@w1Rzz@W){{(>5Ek$@A=olWKvvWNMz!-+H`2055XT#QeQ
zXHz5;K@3nu98@q&0;J02%2ZE$3<DhY=%eH~Qk~ca{u~>lirIPZVRk041bzGGv5n*U
zHU?8OWIh_Joc81`$f2_vZ1Bo{s9nl?rjSG6&u_$XH67!Aj|hQrKJ)|im6;>8ud^$Z
zB34oL<UQw~#eS$?E48BSM%K2+IA=vZ*2i3(){uZ1GH#g|`s?c4Rn8Rh>vN*jLL)O8
zHPwN#nz~E5i2YSPh&2$mNN7OWvQWUC(`Tz(!F|i>@4+}1L>JVEHoRJW5K*|e-oreE
zr?@U;<ksoA)|vr>QJ`hL7g~8XTLy0%B9ANY)<q<BrJxT1tz>S!=3BE~gFYxTY4q0g
z7ORCUeSPGj6)hUnZ9KDxZPUt?e-RrlhcsW_E;!$Cy{@h)jJ82b$&o<B9+cGIiWbLa
z(YQwj<PkL(tsW<vZ#P6tPel)ik+CO7T!=j=Z`2llj^v}N=M8VgzR~;gJE*HgYY4)v
zZ%Cxg$>iEmCI0r?hd+1rJr6QGA&#Gm+C|U~PIeN7RtUB~H=awR<7Kj4TaM6(ca>l}
z<?Msh%PJHfM0KY~dKOWQc!{Yr(9FsN9pXSDn-srB&3d5$jwQ!0#<RIg>Ex8PFOkcQ
zLF)M`62&v*(9GQc?2w$uM#JJBiXstI{0ceLbtNxtPH}{s=g6V4%4W1GJJ`UOe)YUE
zK05|Mkb!Jh`HdK-A_;P656KQ~aujjgp${!YsoJ=}mPFcovW5CA5(SVQV?Z3@=&I~~
zUeR<ZLUx}o2ckYjf{P)4#UNO(*{E4(zDB96M{E*kfw7s8?YRloc||0m<xWzc{=BHj
zM@&d>T*at$QJv;2`w&*euOX_3D@65DQwPLoU#X?LV0qsWDup-FZ_};X9ZR*l3ieVv
z3x^>X7X6))zjJO>^7q~hyyxG#=-9gG-&$&FEjIN^O}#gRQqwM0RYxCH(Oz=<i|!7|
z-7z=%p1T(!S$(Kjw@IqoH2<_zw{3xcuWt9EXZK>=Zpdi$EwiVJt=lC0txCETZlB}l
zwiP=clsX?=7?nC7T?!v&9V~^y#n476v~m7War1r&f1&+o-Fv&S`P$gkvANujr++Xl
zHEu(kyA*6G1~*E<jq}^y+<RlM6r_H75PNO<>hzo-1vjy9a~FR6r49S2fv!8DsNO~i
zm1eGHO5sQ`yhRFcDYbVN+jmIqJ1SL<FE7?@Sn)fWNG<WM)N)OmSi3z^uxDO)Gjk&&
z1s^KcSfS3af^M5y(8slOl2CqP=7icqHpSbertPIb!?pIS?W6}ax2<^XE!32MrG{&0
zqY^_iLs~(E24@CY!A%l6qG?V~E!K6SU;`C&qF}glZrhLd{$TITk)MwLWc>XWHn*W$
zEgknnf8Yo)p;vZlB3f4VY7!rzVcB6_e8O5IeTRu+pJ2^FmolA0MD@coDDyN#srzeC
zET0wmtcH5jS}fOys2h^{QM16mVbTcmv*`D<ZQ4HV$lK28B1XCIBr2}KxD6PQh9#dP
zB2)F~;v~?IHCrNZpz1;U|F<pKQC4T7<!bXbU0a2ib53V+6*=sB4yr@bbjlf^854@5
zjhDSM%;N824oOJS-p=&zWUf}#NaNAjXL&$0n!H0B&$JV{TFa@LFYnamg^k#SRqBGq
zWFGqH@9{)=2H!;efPe@R7PBY^|3o^K6DQyopQi}Rg;eqdg@=t(*aht>ml~ZMpUf(Z
zjt~ivG+uF%oD1aS;6&XDU->#k<l%rB0f0Xbv{yV%K{L3T%s(&l=Vkta>?WoaSD-4{
zru=4UiR-LH#S)lCKGm?Am#ApMkC8t+0KNQ04mx$PtJoNo8lyArg5%0MqEM|@TW6=2
z0=+Y~g1PWSskY%-^lEhW)N5b4{+0PI(x4YCZ+qVIEQTL_ck7ktQti-;osfn?qU7;j
zK0I^y$}VL7>h-VApL+AT8_z9y9x8ecOP<3^o+H2~%2|r7eNt=RP0LTcKk+Vk_7y!x
zCC||%&vD9BQ}l!-Pk8o;B~QCS7$C<tXTCXmX@1@O6HESn73nBf&01GTcI!h+o;^nG
z*8jBiC#_QJz9rAYNCtmMT}^>iJusJ8YTQ_Gm+C{;PFy`P*RxdLH{&eWt^itTD0mel
z#r9Fn296v0h>O4-5>H@4qc!3Xe#9@4^Ef#q^fDktd=fs{BBX|M;z^1m+A0#x$50hT
zFgiuSr^p#3=QKG_!>PnizD$wikQ9~u7><IUw04yGww5;ZlzRG0TXzta(sY!!KE~g!
zX<oK6A2ILXvR&~jh>GHOQM_C6d$?fpvRCo@xQ6Cszv8dqf-SQHbLQDy#FnMTp5=g&
zP|J0!U#?U9^;{5;jMTVsxj~6&)KQtB5)mRuN9ovdGw1Ss+M>jtHU+GWx9dXJ_FUbw
zY=s}44Ygj&U(GMuDdgZ>{>$N+@Mlhh6x@d9U>N`UqbYKC?;y$uw-J05n2mNyVAW3v
zfZC|24A2|F0aOOqiF#(>1bX8-*QmFpdvIo89Pe2pUOAg^B-cncE~Q{eBM!j}M90ez
z9UthEUv65pxeq0WamXgJW1AsS7gKS%!p`0lv`3N6b+J?dU`QI)9^y)j>wg1WzY2hH
z-2=doLXCXN1MX1?zz{eC5J!0`(0`m52qv8-+gGKS1x`<K<Q?A%uS&I)Q$>HCH{{?B
z!LkQUt}160Y<jKE^0@+?U!WEPRUNTLJexOE62W2ePJl_)yba2|qH3!$2WCL^p+`;H
zT%dMcZPenR?(&A}GjFJB^XDSvl9~@SbZGwaui7sslwjBE>YGNt^zr3D$CL-<jpt&c
zmZSXphFjz2s7sedeg}2wy9`ROXGqcTUO~I!*Wk#JaWOTT8iSTwshCzEjf(E|ZRDMD
z_0ic&oGGU6@_tZs&)-mO``p_%l1vJ5m2cj#{{}}nVj8VSgB2?8Rz#FL0QeusX%0C0
zRf=aMopd|7jx={9DChAi*vcZ$Cojb>B+`>fHPWe%i~-oP^Gtet_`IUAD_-@)F`$Gh
z4<<uOl)>?&nqqWFSvd(zV-{ba9(w@<i*#@vXX>(pijq&0X>=kaUZ$a*A*W1xsubpf
zNUf4&Dz)N{HHn?BA^$6?VL!y0UqeH#t<;bk!_b!8IC^3~ioSfOAv}9}?%A8$ml}2#
zT(^R4vlr&RaWl6R+*9zB+`&b6=NtBtr*^S^$AV?WY>K+ThXTQ3%}%Li=dzjeHZ3+i
zBzg9%*tpJ3^WBSEkH33rspH8-NBf<o?owS-sj<BjYAc2|Nuf<>xY)QwYTQz4YA-eo
zNKFH!;5yRix*j4|Q|)4lbsJZLo@P?*d{FUQyGk{U#hQpz6G4T=x^Ahio7K5R3PFKg
zUu@qeweKr?w0fRftm}aq+lqRC17IfF*3X?TuHPxG-??!5?f6^q_gha;QuD1)`<$&9
z*(yc0F4*4ozvX{FbOdK?ii{&xNTgyin-Xw1G^`VJOf~t5yxsj9I8YGHFV^Rk!!*2t
z>Zjr`%{0~kLEJD;-mH-oCW^0pGzZfC2CwDCfwuAS91gLyJQej-vOBe#<=*AZBPK9c
z(@@k@o&cQQ{Zr%=uaWZ_Ie!EvYORvo#W}>vw(~f_8_i}(#$!Uc0_~7cH??l<MXZvT
z|A}l_QZXQ!`#4YiqPwLO>?#~#z(t=F?wg-p3h$jcal3m{v3r-)y=$TMUB^=Q6OyO1
zaAI~B(23W4*L^pe-tC?BErp&bcuO7KKkofO?@jN*#ifoTlB2!gy>gLZK@rIxnQMjg
zd^5D@-@WMA%|xpkmLW}`^{*|^66Rkaz%rqhz$;OgVsSt?30sK!2(y1c`N{b+{Ab^R
zL&B_!+q|VL#`?EFd}UHBc~l{mc^$gA>11K(F{=3KW?{&(>Y1RIg?%J^vg&X?2-!2h
zVg=r3eNY!Y;ja)qDdgZFmTtbfd9GfnUBB$4C=aC3!sO-rOn&yM*Pgxp?4my^IX8Xg
zMVca;(vXa0(|?Q<L)lcbWTErK|JSl9lR;Ih77vpqy;$%*MVi!2oYs&g4GH;UG~miz
zMXQ4ekw3yNuM#4ms#lq;tUAS8WnRJ?qWaj?5VuI!;vv+SDv*8Ja_q^K&wO|zpk+-_
zM;D8<nwVf_d^VtqDiwJZA<&F|St^7r{fsErqUHT<#JxAH8Wn@ErHg34gSrA*Zy;>h
zhJfNjNw^TTDYD9DBq~66nRzow<{whRcgbOrPHlyxLu#o=^CCN_DkhOw$j9Uqah8&=
zlk-o=`9pHPPY#h&MXn%8hzS=8#U)}JbyOqo<qnml2_`-eUZ?^g_s9;0OIw#6IIPqx
z2@v<l4vMsJtG<<(dQIas|5ZQn_6oke8j`L3|IN4aG=+0;R>8SCxBeU{1m}WV^Ne#E
zabn#>W}07<TZ0E{>ymL-)Rv=N&z^IYl7bpnHkV<5aV5pjbL1^roiJwO&JjjZ^<eMc
z(=KxAidH#$MSDCcd&Jqrqe#aRXZ)O)mF!Z?71OEnN%00E?q%@$go;0;^cgs7b9duq
zrgHZPtuj()z}-E+J$JtqXe<WSNr829y-R^D1zXACx$K;AmOM=mR9CEKC&{Rt8yLU0
zEjX4s4ru(Ij#{EpC_3M}6xs!$z#pDHyXfy;baX2`>yObVoNx`%_`XC=6@c}{{Qf?S
z{zp_HIe(A;EHOa?M&G6}dh)1@o_Q-6JquSbdKRu=^en6}dgfIaJ@fA8Ypok@2g3|i
zvciuhDp>nxc0?&tK^+~&zy4?|>uwv~UM2e`AmjVIYJh4Pu`s~M`jRgOz#(Zf;yYxP
zY7`H4>;SmqV8%r?YnFBymnPFy!O6^CJ!|ApQrBwT1!&0{a|ynr8_<-+xDEw|A`}Co
z@Fp$fL%;p2%!~rElSJGT1UWHO6h>ggG-NlKC~5{k6f>-m9m0<YDJ9ZzH;>Tw_?Nkt
zEiYSNw!Lg$ZS6W!EjsW<WX8x8;uR|xt^rAU#fEr;Q>Ireh^Iwg^}J%AvCdSO4b51M
zUMF(s#4V>Y*%`w#AJkA=)d+&d^+M%Q2`pOBdncH3x+pSYDp(5Ef~{c3Vzdh8mps$v
zGV+94jgTi;`$CwqKxnaQ_0tI&+VE*TgWq4_FAE`^TC89b?4u^*(P$(cwdi9lV@0p4
zRh%=xnZymb9<2rAx)Do~O4S3KVp>;t&}LBaaoi=YY^I^Lx;h<J#bn$+E{-xgin0kC
zTgCdCr3z`))Zzaw(ev+Fu~M}a4aTLNC{6P-j&o{HkWGJ#)?%J#n~NEnfiaszTaNYx
zd&aCeeU(m|O;EOHu%c&dGnN?$)MX)<om<Jikx3X}>QK@RQyF!E(z+fsG7(R9E2e*R
z2_nlhF-E1MPBvI3`^k0~dJu%B<z+_73X;Rn9VUt~DeMtctJ^NWNDotdWhdQ<U=2;J
z*J*<;clGT7bd^YF_x0)79wR1s8nr<byA|r0KfDwgC>*5&n)6rB7aMz}#@_jq)VOPL
z&!E&eSa|Gjd$)a16Mg@|lZ48IKE^>uJLI%d4WzX&{k2A6T#O_0dfzf<_xc!>pR)I{
zE@j1kPP0+w@Jys_st{>ufUvR|(P-Bh%FhN&<Ck3*=vIef+Ch6uvC8qVg`*wgG3}TZ
zw;W)`If{{`(!T7@!rDfiAlaE56O_4<ZEF8EP`UOmxK|;1D3=HC3O3}pfsz<IUjftk
z^kvM@Ik5|w@sjC<iEola^jKUVhmEf4#U4Zgd$C`GXuTg#rD$Dy?<?I&@6QS6@9_Q{
zUd^KXb|72~M5REq7#NTO1CU;V9mQb36zm7yX6U`G;B~i~BgN((sksNRnEy_AD_KZ<
zY356_r;DxqQfvP^hl_`vk`6ruj7~+omK|QF@B71_arpU|oRv0i_aPiA))qZolBa7f
zwXkDh<2xG`cO65a-7d+oo#3$0Y}fbu=DXhL0i?I(X};tQ&z@WKMCW%Dd-h5_d+(Y}
zTNt9YdBwqbLf_t3ba%h!?!MI#o$oGg+9Pe+^G^5A`v1KD{f;LKhd%JM-|5)0)UlO$
z*^-l;%C&@)kX4RdOqf^gA+k>Ycj?`HvEjNV$MPa!C)nTYUH%39S*letC-*DMP;YmN
zoft9Z+*g%!hF%(xGZ>hYp%4RynwI=Mi;f=F{UHX2$@NCpdSDJlH!iXY5T6~^^>Eau
zv-T0RP)Q^;0&GMc#iqRFThQ{Stz&^Tu)VT|VijQQG3EpQs95O26od%rv^8%Qm>Kr8
ztpZgrG#^15Iy*&C^+7D{tExw1k%zeFzy_!7AjWnaBti3k!>pw-eaJd(d$rb5!4~up
z>uj}Lb=FrF6sRu2@_qgK!Aa7D=-pI3luu)GYKxA%6)eCyRHkS!%KJLXRYaI7{4RxZ
zkU8H-O4LZlUs3^*mc+No`Pbz98*=`foG>~67LG<kXx%A|{EU3>lA}{p*~$nRvt`iP
z1JltfaM3`Sil~}WlGfv2p(a52z(Lt|+wh)y12mUK|He|J_p0}Hq^lU&CPlX0{PI%d
z;VWL)TFo4}UAJMeZeY<f0Jjw0a<g3uA1J^Kt7rb06x>-ja;KqX_Rwp`uOFYUFGhDu
z(cKH%-ro1tzW>y4tnld1yL(E_ou#&(Qq#H>yJdrqfvVScfv+?k=T|&jP59g2DEc?O
z=ihV-NPI{C!ZT9MVbBHQEGDlHDh15TTKc3GptK8Tms%dfT^hix&r_!zVTB6Vl}mov
zRrgj%T4dY*BHJXRfVO@}>NG;ig9Sk8RgboybZNs}zSX6rLDlB5RKLS<+M>*x5I&4B
zY9t#e*u`MkT;N6iRS)d5bjh{c7}D+9LYubcbfp{%P`Bzq=^g-cR<`wAd6&_Kns#He
zxM2ougUyXP9v;ZcSTDB8TD5+)Tx$ia=YrI$ZzHX)a{XFw=|-H9-B#YJ%^A<Vdf9?p
zOmd1^v0VfV9P+{QidpPGK&TvfUWxquRgsECuK2PNxdT5UbBGk9DEaB8*#NWVmA$KP
zc{;^ckuKNJy&Iu?l`@N~Hp!f97n2j|#BfsVrdt1ooPR`43zab^1R?5CX#ZbRL?dL0
z;qzKGSsap1Owhdy_XIA_X0m|ehI6u)T`yIe!j(8`SdUctCc9Vxc1uWhtNms99I$~B
zg*dL6T3Hs>r7TfNwxv}^5&S&Vkb0*zJH@P871mQ3{}S!<U!eSp+$SbmhilQ%hW!q6
zlWoP8EmF&trIxKrjROVut&a77yuRT5Mdv0720@3e^!{S|ajE8kE3Vn&^Py5*8*D)9
zHkInbWN-<?k-6hHn{kqN#c~J6s@rbXzhAe55<{J^Pzgn^SWA)h#mImZ8Mxy8c}?qV
za_+gCN8Yd5`}3NH<pyrYAiomg>U)d|-imCPx6Xg_{ryiZMNaF5->(?}2vhX5N}kqP
z;R8?S@_MeTXStiJY1KCV4b#xjy(U6#j9f7ZT77yVG7`)v?I2~L%_9B@Ig8}nB8Noe
zdn|<h8AXzVi}YOfr|<x4xqaZ^C*TSLb5qOovoP=}{Vbp6dF$r+hBw1Ea61a#h4pW5
zerxkx^5X1i&wjqt`@qNUR%@$%KmtEOGfm7=$4(&!*S_`UA*pTGvXg=?)o_QI<StWL
zc3wi(J9oVl+6QOu$ox|`2NtZ%hHT)F)cdH^b$FRW%DV&aX8*&k&&bQDB^${w2BAMR
zVf5Vn&lq1N7^Bck!6cYRO~gE7xDiY`DSQA|M)?@o`oNM0U<oXIjC5|nqgvWn$kIlm
zpD}<gdO14)5_cI00sP^s$mtRMLJa^RXVNPKl0LyL)Q;E~C{zbf$S>5R-3aUbDhE9>
zj7RMa09OJG6lz<ubfa-;A(*TcY8faLS|f*&x>oBhp$VW+ozT2S>9xvPgckI=UI-@}
zFw;Kc(&ahC=o^zh;u;ulD@q30nN$e$xE;6m0VW+D7Y`;Tvx)TJ349d5rqE>^vocaF
z+f?fNFlxY6+yR{1X5nS`FXb9V^wssBtQ=5GCM!%vP~gv~tR46i-8m5dD-~yY5!;=Q
zA=tNyTU!uA8}jZq;8cpVMxv}S?qq~f86#0fd{pCZni^me>4Xa8pFU7PiYhKjkU@7`
zAl06o*~wPLe}*y!GV}$6xN<3v#p8Pg=HYaf4SSUev5wSoC3{7c@ey%cL-VE{sCr3E
zlfQ3~KPB3<9X)|?=i+LjMgPN+|KXA+sOV=!4~YDxir@~(v*WJST;p2ifN?X*u<C`7
zzQJC|zkmnY6MqiB)ej&Q-slAxK`{W$bTP;X9)vNxk-lIy(iie(BZ#mJ<zb<lrv6s@
z2t_i&tc<e}$ib1p!zZ?G$VTXe;u{!rsWOp{u(#Ida%l|r0E`VD)I$_o0ku9DxiC0*
zf@;9$1<GZfWLKxFik+hKddiwh;Ewy)=;}&)SvS;m#rpVQ<RlqHv!1T*B3mg+NA-?j
z>w0kqru^j(Ij~BVWH)=<R8JfSF=NSe)FJyx#$X=|Q3jx#KEH)GE0WEb!GdQUlk3&5
zj_Adya&exDcvuUA%G!rr$A72F*k=Ejd{lSUo$Pyd0Bhs7+X43!`FFGfhR_%eg2G%&
zcd>c9)V#gmFV(jf>o-gFn~U{3r1~8N=N<n>b$2vJi_QC_=6$8M4aK%CQrnhNXk9VX
zCx!Z;tI*c4s9S^K?h39&z|N44T9Q0UQa0Nv^lc(Knm67oMjM50w;OI2!pd!^x9Wic
zZZ+CGqWu{38;!sI9-q^<(hTfLzXMjFr9pb9OTGG5tWc5p@+H^23HGEkHat+lRUgXf
z_2zU0SgZLQT?wmt#L<c)b+e&0rrFRM)3T~B`T-`;bmA0vDv#}<$wgS?D(771svrv>
zr-9+YxvqP2YPw8iJ7fNP5%$XTimRW7W38xDx9?n|N1N~M5n5{0Vin_pKH?IQ;Ym@1
zePjAkL>NzIBV*&a2tKSqA03J)pFUw!gLD=vGg}68E+dqTG5<?c3+u|u_+h(M!D7!K
zC^sa>=(9(V3+O{KY>T6&3M`ian@mEEQt{8oA>Bp6HAn^#|CF3($)VO{cP^FGR2U{E
zFz{3)Fh;IPvrh|=7@~YzNPGv;xS06}ek!`nT4jha^-{S2NK0BF;FVx%sG5^%pXvAo
zk&C}WnO_5*`^|9F+jZ^5y6x}PZ3i^rbd@}NfKxbKi~j9EFUz0#P)#Cl;rdyq^NqoU
z#&?2Cn~wq&Z6qT^*J`A*CCcm(*GV<&n5RRk=>WQZE7&=Ac>d^8aL0<%8uk?qy*db?
zKOA{&&-FdUmI0|{;O3#99{b6$;<n?`w&P1JgM~xi8NAaHU25r}ymun~H*Li&2c#_r
zmLiW35KB6SH*opb%(0?}SU>O=r}qQLW<@3V3rxc*?oZ^5k+fa#Fzgh+)sGQ;QnnA!
z1SylUCjJto#eWZ{QWRn;*;IS=E2_d#{};U}A~y_2y*xEDRfK(*KRO>>@^4#oY*WVY
zb!y;e<PcbP4_@j<<lR0vYa_w*fgadOs00RAs%+XAcs2%Y8PaT3V{<>GxICO}c^O73
z(70gr7$J+$S4sXijg80;m{twf)cTt1Iu=&Ll}n2qI~KfHU%3D1#k(sjy{wg0FN-?N
zUe-Q%)*K#Z#DDO*OelnhPRF$2n#9i$!*(mM7Pj?hXgEJ%yE99TVW%mOgpa;yHVMI4
zNt|k{9_i|IH`>d#q5|4=4aGpW6zIma)cg<fH=kPy9K;cZej`ZyYh*JX=>$?LwS+vu
zx#~!eq(4TyRRowl%8%ijSLNG{G<rjnPKU%9mNn&26`DSrXnM2fQxhs-OlBeXbfQ`1
z5U`GsxN)F5Wi^Qb4BB+k$Y?t0`(Uf4ljWKUSI=Q3yyK@CBmfLYL4gjO+`zQ+&4+G0
zRO~tSUeB@FW7qdAK7I<8E48kI4Ojxqo&6n>zhiD^#mR&CA<9Ras*F?Q#t8-M0-wMK
zY|3C)Kp%$sZJVszRF0YeW(KC9C%M^yCca*Fc3e;ZmQyq{ACdDv$f0#Aeo7AQ$_lLJ
zDGD-55hmXtIb`6XU^QO=)BKV$lJh6Dr!K$&O!JAu(%=H=^wKANmaS&L>tnC0&9-Q1
zhK$(MQ>yF!*lKP<xB*ku(KF{>w6xx~)-0RsR@d!@b<0-#V*4@k)UVHcefHp@zg==h
zKCvVIu9>q1SkC2I=BroB;8!hk<>YMVm1kzYDLLCeu_Ib7LK!x5kMM{1Pq;R#i!dbo
zEDW%pcP*b%Xn8-Nr0r!WX?qz;+Fk)AxhtR~_|dKgB~hpXN}^yDltfWJ^&;3^KZTl2
z*2eiq-yFO#2o`5;TzKm3XWx4EE_s(7R_o?9P$r~kC=<L2Ii?p8eN^@jk3-oQCOs?L
zmpC)b-XxCg@EyAxK7^EIM<TKfIyH$Eq;xWKXW79%h154TCY$i@!T0jUvLKlmY!`M1
zQ1+2VMxRJfu68J&A828bL~v60_#oQs6L5ozU8l&34pgq#%#ckcbT`G=nj~7b4&@qF
zT1er0OsO-VXo4chc&Xfamd50#xb`_P^|-qaUnWakV9hC?D(kvWUUqOp_c@f0B&@q%
zR`yj!_B}NAEe7Qa3_bTNQ7t?%nQHTWN-#*FPXQL74C8%}c&uoG_iIThSH?yZ1Jw=p
zX^DN4PyM!|^4+WZ)vtapL#Ht!=@#<9ed<?i26XMTT#|{P%~ZVCsJQY<6-wNv!t%;Y
zv``r@E0aw=KbaiEkpYn<`W7CRFFv~n3y(HLi0$M=$XQ2D2OQa|RKj>d7sak8r<<G&
z<ZL8|L}uA`f>B$=ocGHV{Riayh#V$Z(^k5{DckB0{IX+@LZJ7F>p<o3$7P9OFPnLu
z|J26u>p$eeA99Vq;yfR64Igry|Ap)NklXu9ZjZ$6`6c(I54k-ba=Sh=S$NaO9Gp*G
z9DjuW%w&ew!SRpqA99C3<o4?kk0YY@zj4oez&-Ps$-$dG<KTQu&PwA3K2SJwIW?17
z;ox04#XraMjaMGIcJ%7e6^{HX`^^V<{=qrZkDWhou5jdEIbs^%H)t{NE~oMJ+2D%l
zJkPgYF<o<Bb>8L34{B)&F0<&BXU!8lzqw?wy?pdrM+?)l>G@*|j(2)LWzlSI{ts-c
BK_&nI

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/lfm2_moe.cpython-312.pyc b/model_executor/models/__pycache__/lfm2_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3621f98ffecb6809f3655a7379547c65fa436158
GIT binary patch
literal 30736
zcmd6Qd2n1udf%J-K5)$p?!nC=E)w7^lHvhUJV30(L%TaGc?@C(Aix;_dNZI%1lZL&
zTNa?zmcTe0g7&%uIZiDYDG_D=A;>u-mtC>!lx;kL^31-XV!F&!vRjD*iIiz?rIP%<
zekVo`)ULCYN*B<tU-#GN>;C$?y5~Rod~OadZT;@(Q<pjJujxf`9y##fwwdE@a7iv{
zN^==g++?D#Ic?5Z;uaRRq^%iS+{VJzv^{P|x;5>{IO9$hXG^;>?zo$U?P*WO8~3uX
zBkjxh<Niz_9>@ga!AwcKgvC44rJ1sLS*AQ*o~ejeusByblnKYfEbLB4GL`X47WSm8
zGS%^F7WSrVGPUvAOkKP#Qy;I-MB`Bw?@Kpi8sm*D>`ymkn&ZuxmUs($52RZ&ZSgi1
z4yLzcV(}OYm!!95+T-mkT$=94bjCX~UGXmVUY738Y>RJW;qvtMOi#Rrg)7p%nH}*R
z2#1p4^v=w#_^!<E`0mV}_@2z(_}<LE_`b{&@h4b%B)va#AbucoFn%!eWc<m@q4=T9
z;rQXqk@%6!(fCmlXXc*bl9k`#l2s|^*qriFwC9@^DI7n>Agcjc^CghS8DuRW>%Ii?
zDF#^&$mo|qo?ws-fNcB{$df5AgKYwA^W$OPl)D)}#d5SDN2_s;)UMRt)V|d2)Dx*a
zZ@T0WIepC<Yx^<1#7v^|WG=-IUQDMDwvT4hqeB$393H<mfT!zlE|(h5jZTc?r6M~u
zIXS`S61fR}=u%>6A~QLPd{)tOba3cW>gdGy@aTx>IWv(=rR5j*v*~n34u?llxx~;E
z&!fP^6~v<i$`P}OUP?+$CPw&)sY&T=Qh95pG&CYR!6!0QbYgOlA55nacyWSHCllGx
zX=<|j+-Q30@ObjfR2py2<5SsG^323BgdJzkoEw<nGiYhmnG`>gN*<j^Pi4lRmdoiM
z9ZwDNV#zb7pDl_Co=r_+L<V!Iqylty;>C?Xs36ckF*2IVKFv=IrLt&e%q&)(8O&T9
zJeNb(zTCCR)X~B8&{TR5Bd1R~cWF?cgrZ#ME@6Z*Vps4|`pncI27h{xK7cfeh;`C{
z@Dr0MRO46Ma^^&8Fe!$fofsOts6-yiTuddCqvIpURgp{$4^E|Xi5F9&BbRcC^u%B?
z#Ur8Y<Tz$PCY2mTThFs`&LY~^Kb+|~Ga-M~ADd{l*hSxo!R*QL@f6Q`hRKsXaqS{M
zniPX)Mz7|k_|#X1k6oQi@wu$%JtxhUZ2!dB!}vP#+tW{rJ|)b$7juXuho^EAUuEqA
zG_?yId-}|1HjB3R4_?E2S?X$z9~?rv=`}Gro=ja8!=u>*=1E2ZWb-1ELTALb%;4oz
zB9)oUT?44rJ$W8w6T>KKg1;tu7$7SXEzS&HyO>H$@~Pp`t3%Rak$idOa1U~Le;L?5
z#l=lYE^c;lE-vX#np2jf1^?ERHEEi5a9q-svJE@uxM5S${v97Mz9Z!r3+juM!bzub
z{IE6Y`i?d3n&YmT;_h=?%p<zx4{|0wIUrh+qZ!dYJe;7X_XV0J@@f+8a{Fz%+MEaz
zK76nY@B5}39Q8wT^R^l8dw^ANiiyjqIcH2W<`ENmgqWmx#xi654K8W<P4ipUH)WU^
zE+OMtj>{>d#LbvzOe(w$@OB-%T6)f>v_YvGrD5zOca4iV27ZjKl{@}ZOV^9rV>Zz}
zIzBm-W9wb?PE6&Lm#k>LI69c+djZVvfH#c{J-2N99)v}Y4wBzTASztUDcXS3Fkzet
z%#+bvBEgqZ9`lRa`3fn}!v`o}r@1#gjwN8trqaXwb}FccJhe2@l}HSw2ea8kB5OxV
zl-x@{J=LAdOm<I>PIl%7fqQbDSEqLG-E(<&syjV;v3v4b?$X3~H=)CB3A?4PriQQ_
zc<D9UoyIx@;!AZ+UgHm<*y%EDB6KOuei8}U6uiHCiF@ehT>g27;EddHR^2V_D1@sD
zRnf)B(&3vmg_2OAvZWBJS@_!GxrKudJ@zv9ob^=)@{~0f!nK7+^<zN74ZoJ2vwqL>
z02Ohf>8fbwQ&{xlL-d&xNArQrwW|o+;AXfn!W~6!#`LBf`yBGlnrAJ5Q)iL}JY!bi
zW=()l=Z+3yV@W2IWID&)G7ZEmJdFx}n7l*qVpjeLg^$A%9V5VY32Zi|MAnK3`c`}&
zOBtTvUmWC<)1|s`mgBw(fb4E~FL8y6${Sz3{?)~2el0%lo^vde6uiOLPS2lSbgX%!
zbEZO|?6nu?UtD<MyVLX5In&(sLLfNj<c}e5%se2{g2tR1AIzi@3DKRPooy;jVQ(UV
z<(!sNEWloT6*bF}&GGE}i#E3XigpQC^Zk_Slc(NLDxFRwZkhO_h|SUvA7Z`Yw;{+p
znnKxU;r-orxOF$zySosIeCi3=n(q06>oz>s?OaLux`RSaE*x9lA%wcuUG(Zk!si6K
zzRhYYS*&=y=4Q=0hv0I{+a0$$9#N3>kX1B<I#j2ih6h&=Rg6G&C{#h8)|3q>)UHFJ
z4xmuy7_H7C2NY@;FQZU5L!lmqLM!AidTw%%&!(`s9Z63NT^<na5+R~n%AV9X(L|t0
z(ieyHv#tcSv)O$fu|=5Fu{kEyVK{Y`&zQytFBduBK$?%t<vdDA$v@^*Vzj3oYZ~M*
z*maOY`5?4D{aRT{XpFF5kyF}$+-kefhe#0^UIC%vc9c)Zu*e~nW_6Lfj0MQI=4zGb
zB&~Ua+}MT8#wD=*$)@0pUoqwCm9mu9&)Q~eV^JkmdyX|~VI?$cpRuAZ>ZCKS6A)!e
zjv4#d7A34b0ilj3%4pS6ln`RKDq-z8jUe)dlo&vDC}Hi1SQSExod#Y--mnq_D77C-
z96^kAX>Ur1_Iu=2zbv2#e-yb*@&XEZD;40}P9=o7vP%hTPvaSsw1S4P;A<9B4>d|o
z<fF~J$nj@$2b8EWLUlzhN4o)YW3(3(IrPY2R^|>VU}LmF6uGw?Z(^j$DYFix5aChe
z5=~0PcuA7R{jo5)lM1wPo6!4H3WWCDbcAV-C~_EK)7U^!BwlCCNoUfPbg|KQ|0b=o
zW&<e0`I__?_iK!{+#>gu_e~<K;4oX%H3O>8H!xixZEaDYX~yV9iN%Xfw?#*@(Gfm{
zotuy5E)9;uOGU@0z~%7KiQ#BU;yj|Fsq6T(t&4Ve5CJqxG|Udp#+D?8>^$FqglT7&
zoJ(|MM@KRfqsdr6^q|ay5|8b6GI3e-TpCR#Q{xi#S+aqtpw@|gK9!srN+tMI7F<?V
z^nlF;&pDVzBCB2uf+LkU+*A@Q^yFnRsMRC0zHW+_!i<vT<7lK<L2y+5c#;TxrDfji
z&;$<-DKR`XJ|u=y33^X~4*-ijL@Z;1$l_RxrzOE?2cA&9=*Ue<-KYS&4b~R<&`c_a
zaYa1sF`_q_x&m2%+%Bieocs8}@yj5V<pc*3C<bIPjRL(=fKN~v!Ex}ZtOljY?q>(n
zQ>kM-k2caKA_kOitgtU0+H&O=srM!0U{*)Kg{PIC^Oq=V8A|`cn3RquCNEvf>Y>F5
z6+qd)kWx_;lgNTb&xvKl(W&tyUyeHYL8{nFGfNE6=al-z##uCvkBcs1y%`V6pCeEk
z<3UBoFxc%}Zx264h0u<S)@ySt0Tu)^;<8u)I)5X>D$OmLNo>l1Ii0wOQI=+U%qdZ{
zU#C)4K13Qdk50nEUm<{_@Uld45UmUMl0+FYo}$i>GE&(K`kL9@z;j<<FTzi(g%5y(
z@D^Iy^DT#kmcw(_JI==Yk>=m<=OevBq!)?4yWyr^`({4eD}?FQTL@R*n7uxm566UX
zY%Sc*;-anjXpa!>q5QS?Jb~Bt&+lJs&R2B{Rox$Xy6=|O6iVBct#5m8d6&Mq&Y5<_
z3bD?7?4S@kxVq)Zl^516rjjG32Np}2f1R`V{13fcxN9xcJ?ANe8uFp-LTGzFbU+9l
zKty#b)e^ba(2{T1B{b}!x4J@8SH7uFXzHW4XrZw+-?&F;+_SPH|HL@~e~srTp}w%C
zBfsTIVat;r?D(VozrSDD@)e41xz`f=;d5_1ce^jY;~4>eEzeMN<2`RM?`;*lt;^;4
z*l_`W-s9^Q&gDZD51m{^OTk;3_tpvCIxV2%(Jri(HGxU1ASTVV?&kpPY52&~aCckJ
zyWV%acY_r-Jl8#oefgU0Le2JnTk(GFd$o6hPd%`hxBKV%UOPE|@?&o&==kkBrMElY
z&imo|LZl`i=@cTJh0;jAv_k-o7^%xgwhEE0g}UZ^-9DjiU!gk6A{iK1#@dELZCxQ8
zk$A_it(LX2Qnm<@Eo`Xv361*-m5qhwEk8W@#>ss1F`@a`!}?$ZE&raEaRs7JL7^lS
z%kocQQf=TIiSA{z^*%5z;2ce~T8iB)WD7>|NfVJA#QhoZk)R|k%0B%wa*|e1irkng
zkI>oysfhJ0vr-yhXiXJ4qM$%Ma%1kI1iU6KjLxk_ssU{~rc%yY&KbKxTcAw4QU5eP
z8H|o~;K%<PE@tNEP=@GZIGAThG?!)D9%OE|EXf{4>y^>ei~KC$_+KS2P2Oe7)+$NE
zumLkPi><&=2pe-qIEYo{#(p%CkV<yTUmFrC{<~D_X)3jBcyt_?c*9J{(jYUGB=g{m
zr=6}f#z`_O{@citU4lofcw@d|i%_v;&aDQQONELKyhmE3dA;1TJiQj#H|GO;TN8bK
z@6EkS&#zVYLP#>_TX+Gh^tJx^{-xOu&dl|%dCwO7rFs7r!N28Gi^&(G^;!e&7eIuQ
zu>Pts<$u`mMn}H!g3x%O5NyJNYx1vp>#@{=P5D5Z5NKO=uLXKnoxKvzZyDgvps~ke
zUY>|9{ww4?O<t5dB0KrB@F2>Xm`F>THSHk$dGd&U<1di+EId75|22vv@0Tcn@HFxD
zPKmEC)HHnRIcl=G?*(huZ4^N76_(z?-krqkyI9c8g{nSh;OnQ%CAJ+)7YL!Pa|qr}
zy_<d~{fL4RgHJUM;a_zMz5n1(5cNd{pX8)q^Gjt(sg+4eZIG7Q@$Ue$?@ZZKVDN{{
zRFEt~bs^22a>;L=lv@sYQ;wuBX&R0&`KllCRZlXI@*2_Z$>1jOKI8add$I&_S3eUP
z1hAIM#GpJ4RZYkMPy4Otk|oi}s}fb<q7D5Lgzyj~Q}FT?`OQtT`UFVT+@R=XVVT|%
z!<oUWiOGrVC?nQVinJaD43R=bp@OuXouN!3&lE@Kg`v!!0(lmRBYef;2(VOKLS|M#
zc0=T*32$eB>>ek0nDsJNSVdSsUix;(?V0gT10rd<yakide2V)OV&IM8&<@n7qE}YG
zib#>mNNnM~{2XR``DUrQx<jmPuQ8+!j<qpYrVJ+&D;U;H?6ijRwUI&%>X;~{P|u8d
zEwkk6mH;TC$BP_diPS7|GD}W0Gjo7aM@xxg^=_V5{SL-8BrVe@5#L1JfM&3PCDazq
zIPoU4Y!LPn_rx4ZGadnhmH<|5g_57O+F;DVpt@%~st7=yDQE+U;F!y`D4|WuHE4r0
zl16P-Yji+m;nb-t)cKK%>1s46+jwLVTc_mHo`_Y28M;_U()E`6O?gDoTUBtB>r|kS
zQ~fGR+-Bb%um&Ox#2U>W7aMO6dhgY>Koue7Na?{G@*DNuG}fa)XwSENx^<(r<rh#^
zwNeL!2L1t_5E~<IMx^+A?;roEtLp`zVem|2AX6Cc<{}I&ale7wL=L2ghPF$!2nBf;
zNe`x7UEpU~f&3Gw<~(Vocof55lQeO9gpRFzFq`6U0#5WnQ#qcRxC#dIS~>;c#9%Hr
z4&lTNYV>cAw*%fSDBe?(*;tK^WB)!SQqv_^`tbbg<oz@9mf(pN)G9hz$Cz611*v}y
zbV6dv<^6_Vq%6Nq9?fXcsSJ*!>vF1Hqmfnng>8wa=_p#M%{;9>(a9K6G*$GxAZcVN
zLiAkLUSfV7Z>n{IwVL&sHHHR9Y7rX*ZKop=RN`2v$1-s!J@kBQW%1^$vaIhRTlNV|
z3SwDnbQ&=*DPX4j3J+MQ*+Pt3<=xU<Yo&YU9EE!JUIPVAKF}ltnwCa{K<Dj}j{-fb
z&YsmkPoc6lU)d>CcHRyPm3vrGja?FF=n3RKje@6fY2+hMCrGXGNWN^VP_}jXt3uh1
z71Kv$dsn@CSIhQ-J}a+YJfE-KA>eOA(%qW+CDYQ5eA7OmY2V6-&~$9A<~VDh%5E+9
z<vR`u_=_Au?Y?`VsvG0i$Cq+HoPA?f2<<?e2Ml&TyhR9aS>EyXfm;WJFtt-*yO)we
zcq@CaYQ`f_Xgf$1G~bWJ)H(_%G;=*usEOulwh1-c3iVC-`dvc(F1>c}>#JpL4+G9h
zVorSzOS#IetloAZ+`gQAJ98@|grCq#)N!>eqsK01^mElsq&zz_e?}Gzup!<lRPHR4
zRNSb)UQa5^s=9|hM>SOyco^g=z%B=08<-zZGD-wI%eYlQLlh+^W1xKwiGfDOnx>^4
zKRocpf!o9HPP{X5r<#pz<ZgB27otCQMkKb?rBG;D#!n3qy`?y?c@q8g8D<(-R`ZyW
zqI)tGr)3tZgvYaP49*5Po1vm}vwhYGlN;jq5lhmfF|N;{AG7vZ$E*`9rAk+5%_jPA
zlik{2_fgEP#?;+eE9p%+2<FwXX-&q;iGOHKP{kRkur@H#+?cwvX>FZxsH`@XQK_XU
zA+Z1Ghtgm6%`l3;h%qF}MA<8UF=Mr%MCuP=_992UnQ<!pnRNk5RlsSWGcILZSdZP9
zrDT=@w)PbO#Z1f~A{O9Z#T)+?JO~(II+f#ZQN+I_?|bAi{J%`;ZYW)Iqa#xjQ(0+i
zdxz40hrEAH-rMB;D|j)Fw3GZUMa;p&_CwNAm?}v!1q=2u(e#37x-6Qmh#uOe64=XN
z9wOSMXO`x-ZWECtpZ$oOj(lMUkp&D^2%)mQ@LnQ4dAK<riV30Eyl2k2&_H;p_ImB&
z>{?0ZynW6x_e`O*;zsOxZ1Mc--?;gW<z~`{uUOyrzUN)7Ird@CLTs&cVBSG?0CR%{
zukW?v^T!wV0Qi?~{?hXKx1YcD{F?WPyqAQ7Yu*#E9?(GYwOvAO*KO;&zIS|U-h+AX
zNx^$^&3l@FAX=;uyfur@ta<AV-eH39t@&>)UR!Qher7GuE!!bzMYGx^L|yyDns>iZ
zz2)!LzEdmI9$fQ2iDc{wqt{2VL2X|eTnlZ1B(*$p<IMFlOYLjrUGuIv`vMFfD&~BW
z%)|cUU>nB`{FsZvm*gL@prQEV8TzU=CL|ZF$<d)4lZEhvU3o%pl6-_D)l97ZWkQjE
zN`U08;6M8*JQ9iox!T4;S5Kj>z0lrW=-EYv50xiPwx>)?Ji<b>X@}PxQrO9bD%V|7
z*iG>sDGb4K)w)j#`?-p$^?(!(a^dR5-X+W89@>tDQ2Tm`lu*hwwyc*);c_nAxYQ?v
zwyal35g}C~6P6+(B$AODwqC`#{hwD$@y|ji6S`Lxxv~HH{&gF|Xl$hR#?1AZbqBpU
zId|Z-n)#YXF1$%%8XAKQVj2ZIKllk!jKws`fKEtblSMAD#gIb~)5sx+Yaq6Pst}@>
zAQQ#7A&PM)Jt>coQ9#nWNxW~9c*&5?mD(iTIF}?q8g?fA8^kz4v8H&P_oaqlP0BO#
zLP?~<6PXGtKxSkrn}igRrEx$=f@}S*OS=@4!n^`1phyY>mFPzEI>uEKv%(y96TK9M
zBs7rZNKP~6fH@ru>Qo%<+>l~Pa%zfe#`W!*4XIWwl@CBTZp44PlGgpGazj2_(yo^3
z&Z&GqnFOK~1AZN`Mtiu)kW+NdxWL_m(wVV?!<YDNnFhfKsMH9nE24~t_PmVo<2!Qd
zZnkNQj5utmP8Yab_nY!qqfWJl<6)g_!z8y5&@+y=JVx-jCZ%1QwxU^q(4OG1<vD=5
zHTlB-eOcv79ZZ!jv3&m?aS|UIB>_E?!0S0xSjx(V!dZzKdmkC5-Cbnqm|&c$hsiwI
z0+E=}pOKIIsjq7|1r4*jr{1y}8BQYh>(oMx`(w-OUmz}4p<{)25D<f83)KN*N;Hn=
z{{zJns*_lJrddUTWVbF0VOiwm)V0JFQb5a*F13S_DjxcM=yWA(V98?cB1#p#`YteG
zJL7`++mz^oaF-{$?gV3jox{W9ECfOS5o(g!Uj7g1)d-&yal%Idm!)N@BUto2Z_DE_
znacm-_y?E00FU_Jay|bWssR%PrKt3fxZ(R1HH*(KJ$HNOTE*Tu_uX*a;+3Uu-p;Ls
z_s@9?p75%t=`9Bol&j^tR;&*#=9nA1O-VQ(+${umLp|cFT&;XU@a}(T=bE-Ix32b_
z{_y--<Jnbb{r$>Vp{%kHg3eLVFotUKp>0BFTcNT(U)d{E_7=ho#IH3!LB7Jc#aGL=
zJPdoQh~x9G*Kpp7g)8}Rmk{py$kTN<y0uVVl`n4<%3EQznh$pi;qF3hOtN#WT@80X
zblDo90sYup3)9wyU1Zv-PcGE7$q;uKL|x0$v-y_YLd))zXWvh}m$*}VhIrztyOH`O
zyQG(1vA-X9FK{Pv0t!uuz~OZiDa<}bld#(yQn5EaAcYB+J@_+t;0`S>mCs0~uJ|s+
zPE+B{n#U_Zg&V?XYD`9lZ*DjXJpGnQ!7)&p8XM2T$V!3Hm8VMOwKi(4o3RX=LHU~p
zpkGu60JgQO0OtRcJb}DFhZnOIQSSUlh!yRZVP89v%@TRX=D3a=Z+`6LmeI&rn%i0A
z25AnRc=;+6a^dE=6HHvuCDe2+&#u)Rm_Ku`b!)zLkI=ejrS?PTTI(}{w`uOo;vUE(
zUiaVh->&?ybJ4#R`P!V1)Onq6bl&!@TwQBCAvo)y6uinLKv5wOU8)83d^@rl*t_c7
z%LuDmwgH)-J^mPqmM0@i9sPQiUjGSs8!1^>^iEBtL5fh)1@fMSr`PiR0Y#D*p`O!h
zlB{<-wyC5n>H11`+fGWvECpm*mIYzSD^r~=_6~+de)q6<khHR;uaCX^i3Sa@U=V7-
zbyo6vDN&<kES5L<ZTnPW6k#1PN^edMglfn2j-_&;v}N5zQC`reb5pO)%+D-dc>TGX
z&#eYxf@|v|AJQahl{z?tf7Pkf>JJdL3AO6~e@v}1suZ@xKG2swrY7`bH3U@pQa!)3
z34OWwHt-ZWIix2mY5G|3|KNA<)r-hVC}WDq$_>iBoVtWTuo>GKv-2E`{4#+QGV28X
zv@V%r<d*@#D3f0*$+Srg#$=*Ieo3cDWMl~vi2BML$gc_|jJB)LAir!n@=Jx!sY0Ah
zTVX&z;zWu@e)*L8egS0>E5IB(zXCx&_=qbpyF><TM~Xy4{UL=IEx?GHKcd$U$@^pS
z808btQ9eZP@Fa_pC>$#l$`cyUs1$~9i-;2mClfl3xqfD9<S4+iG`tG=VMKcv&T^IZ
zND`J>LlIw~JtS)5Zh0*c1;J20*eC=Wi8|2j{2N5Jz&Zav?)-D;9NWw`NQ2e={-;PL
zX)yMC6We<+AjM8Q0yAscbic<gu1r+6Kclo9p#<i}<mIEh(^FR}$(vO)puu2KS(P$P
zq^VYyk`4yu*9weMFCbOEOb4kRzkyj5T1&J6e-i1K^Nb=mhp_0Dj^d?9FXOBgBECo>
zr~}I1q4a+T@3HiO@dT9VgYVM(Be^8#1MkmIAKWbo<x3ibl7^+uwUTXf_JY&<nrq%w
z@K%BZerU6}i27}6V-$mZ#ktmaSfLomt}Z4-V#}Rtkv$+Q0yT@5Rs*f8&Q@uM`xtG4
zkaU2$_!aV=CNE0fGvv{y_!$U>$509dDuKKq8iU_Pz?f2KQ78op$dm#L>L>;FuA>y#
zyN*&|?-HfJf)b^`f)b^`f&->fTid;G4HHz^5Jqh}+Tf7`QPSwJW~0TbQ|8-)gXoNY
z|0ik44@}CD%V8^%KH0wGk3(vavKwi~VPs?&kDc6!o!rUHlS($t?KaL0Sr_DA?7*jY
z69_4Fv)bLDBW#eFIZ~dKH-+P)kak&zt%U07f7mR^v0&Z=11F>!_kkHr5j@HXrdV$D
zD~NuTFbbs<6iTV+l}YO}B;R7zXgDXvwx5@gm4#^1Fh`ps;SNTA`~+{`H@(cgY=7DD
zvh!uv%kB*aNImn#q=?A~GZ|T2yyC#7ZGgpIaT#ysuh<dqmYS&dUvVSefKY)ssKsbD
zyy8TBP+x)+hE~IBB*mK75h(Kxys2%NcNiVM0faJlxg32M=H?9#>Y#)w1wwlomkW+g
z#{Q^5B{h=foN8Y(Y@V~vIp&;mt~s21gE^b!JKkBFCecE<jan^A2xOKSayTmpL7P$o
z=?77ZD$_%_Oo2zZTnXpel~5ALoJY*Y{ZV!k<P0hBxo#!&rW`OjX2iGUdKEb1vJp$u
zxX8hRM<(%5rz$DD#^v@ZfJ&_!(_=2W_@H!xA7Q2;I?)(aqOK4sgwQpO$%9wnecz5%
zp{yV5tBSsC)->-LlUo8X)fvtE8D_*R+0TJ)F!T1DYFjmK%c;!4ti=pz0*-E*FdMD&
zU<T&xAmQcRp6TU8|L_z{cU3tUj7?}5wNoWv&bLy;*WrmC$(WH2#$*|z$@Y+#TLLHY
zQ*^+Dg=B#WEIaBf(XdnmJ9Qv2H>{o`h|AJ4Au{qM<`|nVy6E}>R^9X#Jw{Tg$FBYC
zv_|$|mkRkVZD!A-Fc6e?Bkjw_*Kn@jB&nk=U%#9Wbqb-*<xwHDXLWzS5bB?M>Qkt3
zsz0}IC7t&xwy!%lU*uCLaOy#E7J{HVYv>Q+AP9vZ2MRdLabm#f^Rr!O+R-Ho0RNJD
zrO_pfD6iEK<$s8D(RFE9G1JsUdsCE?$uO@_=n{EsnB7<CdIsr)3@KS9a^B14n4;2T
zQi4t-iY3f6Nji2UwMq1_11i$+i7p&Vk%M-*%^j4l{!4B@;ECZ8z4)Fut&XcCaC}E6
z(DbV_p2;!!7=RUFrn*t^tc$F7{{`urPlKaKWx~u~rg;!OL{868C`WSHrld}R-=gom
z2j2g}_jdY}!|eA;YVsv9p(K_s=@m+PL79acCD|XOl!n23RW13dokG>lxj-S*BAo)E
z10h<lWm~@GxX{AvKpO8!LeYCw(R@|AP(=q*0{3fr$jIa?^IutfHecH<)OLSxJl}Ug
z=(_+xXf4E(FdkZW23`Ii3_arT_>8=V&D`ETXlQY^qgn7aFO9D3TG{eJ+v=WE$h6lj
zICoOM$YS#kx|W;YYKPo(+gD8mU(Mp!syDX0E8l)VXg>g>@@=gA4xAM6M!tJ6?`i$W
z(|Wftw%nTEx?kA3|AW>)>i+%iJB?>a(pi7MaobvB4-2xXEV`r%6GoE;hb?Fyq5lWX
z@W87W%NtedUZLtu{7(RX%Pg^zpCOzj+@>6!4@gs4t#?{cyGh@-DD`9d%!EK;!%yZ`
zOxRYr7HD5}wzD1#FbShrzTvo?bPOR2n>xA<A}c8`vKvlm6Vhaz8%7O!w5*_fBZSOX
z&RD;VJ1%Bz<0TjlRSJT#WT#`UY)Kf;jQb(dmCT%BT2l!qoEfns896p<*U4ZE&2dnN
zN=7I(Ff&dALPpt?`?%*pw#+(!{vD9cKsxf4MM-0fnr+tpYN=JX5ve^^$px*htUsrS
z*f=UHY5jqE-@-YX67+3~9Kk6Yt6ZaV#)d7&HlQI(Y&O4(e7XqfEDB?pv8ylyL^hGb
zqr8HFKBo*s3-W(M-hU(SzmvC4UOjoA!c!y}H1(uP{+2?I$WxKEXk+-0nTKqUWkhwN
z=JE}@kIXt2XiEMG3S;+ZNQ<uRBTpMxxz)gyLbUU`?_RVyAKf8DcijH^TJ*^UAB@)K
zPuweOTP^Ed_4dLq)NH$5FVq~KgFRdO@+l#_d+x;jit5F_*H7O(P3OS&3bDN_JKjI|
z-od}9I5l_dN3HFJs-{9+d!e%7p~KqdXL9PBd!Seeoi^bdTd?N4-^>TLeiYbx7ssv|
zyH~y@1djtd(7t8%`N2@ZPOrL4sD|Ks<<eU9Q}VGEYP7S4t)vZfi%Qw^=%{{q7%dCp
zwUT5DM&G8$8PW8BROu8AT)Q$xnkr8si9ZAncdhioineU%@?<W-F6AI|U3N2u9GRSW
z5r;a}$PxxQHK|3h!=`MP1x-U#y;vpffb5i{bS+Rekr|wv#35Hn5|^OrX<r5l#3&Vf
zc21fcVkwaw^1)6y({%lYx$;GTM>K7SKE!?%2<HPm0t`i?&Gc8-NcslPO;0}3EkwH6
zVY&T6<9;0L3%b`iyUQ&hYln0(Q+C6VIHE8aA|uPe8{7!aR{R#pfT+35VYDf|$SI3n
zr9my)r9Mg;vqzLEMtycQ9n@tXw_ti6TRmIouyVus2>TU|FNL)mwXDd|JW)^s?AOdd
zR-h1=ouPBqHS31X-+sl!n_l(8(w@ozDw(mcm<r<(kwc~8+0i#oQI&X2s@FYaON_1X
zV96klm#)SE?fN0I$WYpi)_nt(k9LO4Ju@C7?r|0uwas{EJV3#21^Jpd6F2^6R-jSz
zItvu-oAEt|6*Egc_v`u|_*r_oY1_Is>ES<Y3@-c}J+;GL!;i}j<ZY4l_gVDU(026a
z`X)Hi$Yz0g!Sw2$O?pmg$F<h#wk=Q6nJZOhh4MADFQj}|NII>Lw+J<1uD^N}J+cBr
zfd{l<6Z=gR42IwZ$>RS#ylIh_rO4mg5Gfrt;Qx&jxf>6jc|;>2D~0KDs$O<bLG<X3
zk5AVS^6T2<5dU<A-UdOrv!Dz51v=s{+N6{IX3>eWmwYmT3)x(9*$DbJUis$Xe;>_&
z#RCqiC$&q{vbbU>mE+A=Dx!nODg42ql;{MDk$rJAcZqMOzPOOc)9%QVz(KSOCUISY
zL<(9cUkL2U&}F4m73Yc`I_00q;*7*lPV}*>=j58RVujpL8AQgoqLrGb!b&|5-3&<D
z96WNb2#$A9?KYOm8YwyybdM`Gxh!d_i2cwxi5c}$TjVS8veU|G0*P4FC*itDF8lW=
z>Lu<ov%S&1>a2rZ0nGh&<g2#{)!Wvpd)7j|bDq16E&sd)f?pyLb_>znYf<QoYwtE~
z6=0#+x6p|ldC4jSaMe~d$wQaUtoA;$7CyUR{p+2lh2ZuD_u}d0$i1>U*yxwR#G&S1
zdHZrsDDPb<|KJ<K-lq|x<UD=53f375R&4&biHdA6+wPQamF(_Up1RZ32kv;O9gH#Z
z+{Y1w9k<Kxl<lG-BTcYBjKmgfg=kAY+ABnR7kobo)-I-&p1*zKPVm5wf)(pAZdbqQ
zK?fJzx$sos=qaK6(88%D&+^w-ocF?w%gwODC`6+7s_S3he{=t`=XQLp`p`n({czWE
z?)LdR;eAMih`h4)b>B_j(#V}i*X`zaJKyR2z;UPN1T6WNE(=xL0R!%P*(%g@E*!hp
z9LqQF7Mgc2ocU3CLm`5T$Xc*%78+uO#`e!~06z37v$Wia7On69l9GQEiE2&3i&o9u
z=6005_^mtJj)8n?2`!v~q@bd4sb#tLPWf&K`19Uc!CSkS{0nc>IxhKaZePa*p21p$
zin?VU7>Jb>%kPPbmkd@n>h*a>(lW}mpO%X?J&H@b{(_*Hw4at5PrEnop%7W@7_0yP
z6Ty(T1d!~H5P(qs-r=L4aocUZOVjK0Sn2(o9_zy<ldWU9;_aGSxSI>Xm6rEA-s^Zk
zLD)*{KV&L&ZvWI%YpYe2_Xv{$ppw~@I_S;G)%V=)6YBP?yXe&|o0+nMBkPox>GH|e
z^ns7w4mxb^rM~5g<?QXFD`hJ~tKEl%*b$-m=mQQZ>!n{Y*=m<gEMK_YyJBND(Y<{_
z=P{xA_&P^PANGEj{o_54SeVg5tgl1prs|Y^|3N7hqFxgqQA9*}jF^diiCdD;0VEv=
zL9#z$ij(E43s*FH=y<V_Y&YqZZAO_+U!i{Dkoc?lNILJ4polJjY#r96Dx?<{vq5Mh
zV5yocN%@nWWa+S-X(Y;^kq9KqQEyc3i5ftQ4C7IH1xfCcp_C^X#y=}B89`hr(^52U
zT4JSfiMS%SELqC56xEwRNU58($epZ#mZCgayGicN@>!F0Xmv%hJ{7{~`;BvJ<BAap
zr~L8=N0Bpvm`aw@k1ycgpciRCdKJ@dRAawx5|!Kfj!*DM2dA=w>HaggSk^9W-7q;~
zyR~SSH)zIw{7-xf7%{zt2fHdz3`%kfRRES1OQiDyIs-{$_z5zI4%}Z$NACD0TDD9u
z#_+&XNbK4`!xP^`tNg(?;e8pmWvmY|<g*OTI*ddL3Js*laO`{-Ex~3@SIv_266XZz
zN{$4(7)g@hlCYIY^~914-DI1PPNXvk+&gO-N@rQ8H%NaPh%u7Dbp<Ad`3dE&-{~DP
zBc=OHOw9Y(T;sI+?nH~gl)JfLEFXAM2s~Nvh9&7*-iz&ZtL}A|;NA7WW+C<p%36v4
zB??S&M8mQ#@;eAX_GNgX2;}c3BYxP351zGX!X6{;7w5ugauhk}pbSJk#u_V4^Ml!L
zp8hN4KH*f9-L{d9LVgkLKYpgCEgPjTiVKeEQh~vAlzq4^w_Blo4#V_rpZZ3zx|@Rb
zMX&VtpP>?PF|(HEEW75jDBF25S|iZhAnr~bAK6%FCu@d0u~-}TMbFWdBdnzxo5&`M
z)KIlySiC;mQ>9(;%wNRti5|+CfEmGfDvj%pz?*W?g#E7+B1<2GdCjU9%jNq^h)QJF
zN3)Bn1}Te|mD(>&a@aEBzH@m^vkIu}qFX}0Fx6QdKlfDsLawVc)yX~prVBM(b*n19
zF0ap*cL?Pj`SM*t`K~$F{lFG^8C1pcRR@KtgN3@bd|j_l*IS4*<Re`|qzl3%S_4*j
z4KSTA|CcD7sdWZanGmfFRno8ud_~4)#;d|;MX*bE2+I{YNEl2;n2TM(Xdolv9j74Q
zQ1(?^-l(n_(r|qb8-tPtZjNrRP^A|-e$b@d=76j0R4W#UNo5Rxd}_Ix!Ix69(a9Bl
zM0e7_Vt8ubVtB&ex}hzq)y)P&Hj-B{2T4v;4(c9bO}ZC32uM}?s-=!KYhfkyCgw3Y
z^jWQEJdkUXVzu$qr|a%GFzl<Y%nGHPO<L5Uq-#&q6jI(ss9m%bF~{C$0W(M9^-W6c
zQDC$uWG>$(vAFKCNk^_#Nmsr+WIN>>Aa*Gbxjjl~Se-G_{Uv&MqYEc<`<0wZEm_m6
zPvM;FJ|$jzvL0>I-j&c8Q6ojpxP-AoMPPVUzK4l>^&gWw<|R+=r~;))zOb5(DX|z=
zgH|Zz;G3v(E{QXv33Xm2=?0J%wG{gpaWzE_5bErLZ0PBtWV`}`REo?2;=B^po`7gq
z-T?76C9FLGK^ju#0P&m>)}DY+tqWj^=^B{cE>j*+`6md{*P_XZR5m(3k&EIIaQb0`
zsC0EY+ljEDiM9-x%7Ef~83jwKaH94Q(W^vE?;V(k$|Y~SRyfL35ZLW-Yh!d&x~r0v
zC+nBHm<)(rTM^r)+rwDVq)UcmM7o4nY8Bg@NPvBS>Smng*D1u9!!8PKr(KIwE0W5j
zhC)9kZ;(7{x#-D_rWA1pqhpzRm!~Bu2I-bX=+hu-mwv{8{~r|Xm*q3Ecv^JR9fh*G
znKU)HmL1phV+$W2N@=D8nmH=2PM@5l3lx8qfW2p@aOyWBT>&Xt(y4LLPik(hP)Y4A
zSIT}6A}f{>2=+?c_o&_h`63m^j`bAZ4tb4I$|+0HJ&sv^nv$w0$@oS{9->=Ls&3=W
zmHbsCNIC}DlvbM)>@#Se&6m15m;q@d4HExT%1A46gCa_=1FtrqiIt1pUn6=T0PpXh
zBmLRb-}lPu^JP0fD%%O=kjq{0J_%8W%e@-d2`#dAF}!^K=WYe0ElqFruY^7buXUV+
zb~;2SZrmF+&ebtytlJ<28#Jrk+8C~NTsppdaxJ_IhiPhX+~(DONCt4d8l*ybT&`B#
zd%N%5Q}3M0?>H^&IK5WgKiBuY{`=Ljwd!_)y&vtqZO?BzENnZx7Ck}=aS}xMN?toP
ze=6@KA|4trx+$>(B8d710;s-MMaPx`kPSh~2EkYSdOTmzdZ(gw?%3Tx<zmZk*WC$h
zD+D9=%W4b3iaU`VcXpj!4WC256lEEQ5cKWAszsOvbO==)ce;*#9Oz@hupZn$358y;
z{6^q<ARlZMf~`wa`L?}6+unTJVWI8t$H61(Wn8FjJ;Zq{S3S|YrFDhiX$&x3Itf)A
zhONGFsriT9Z*;HKv8ybr3k|q$gszutY@%m<p=n#b>4?z8Ivg!DZ_hXP3C--%$%ew#
z-TAFg3tOKi$Tn#D@{NatMqKkj`C57uONEb}jgp+?Gfb-uyru;a^#6c1G^W+Zv)CDF
zj5O7@!X=s|eDXPR^AF+aIXx!Xnr<|hw?!KMKc(qQTRhY7zcxKToyVz<Kx{d-7TB@s
zly8%Jk`UJ+cpI##RW9w9k+NA|X3UqjP}|sjUv!ohu#$s%oJ%M#pk}e_8PKTHpalU(
zW5yhy3@B40?hQ1@MbI1;oyNk@)-V@T%GOZ`b;evCC}#7FRXYqpw%QuCingiNU`m;2
zy;ZX{gpMPkr6?hzTOSm97gR&i%3YIfw*BlY@a%h#&8=j*#P$`Yl;2Hpe~xmcg9e06
zdBV05c4P>?WNI==vIH4{LkzE+0#m;-Ly5Sx2)i$RW5$?D;`peXxfpLJaHZ}biXEKp
zHJEc>mT8qH;jg16c9TP}JRj&10$r;;{T~JTSDpQ<f&M}>F37p##QJ0Fu&vOtccm}C
z|Ga>|mh+U<XoPGw;EzysKC}hr`WGyP?vo3aJHd`Z>;OGm3tPMLTl<8qee~8=2$s>E
zt@&W55bXRo*!`&w_(WRHze_{;x8yy7_XUd<4<aAXPR|yDI?)j!J2JorV`Np%$&kua
zS<bkj138r2Itg(UTTk4fxH)*6+{amEF!Zw3#9z?}6P<_=4w7`<eG?l`#lp4K#$78u
zphsNwLpN_~l5|$l2Gm81lc6pmZ8q&8XT*R4d7%O1$Y@gOv6;tDjY)J5RBuO+$|@D@
z5}lK!$}sn&ndhfpv%*!?@-3;;4F;Xv2=X`7XENfWjkzLU(khg+;u5BrH)d`>zgBV-
z#%bzJ7`z1yG4AXn3ed|0XMl~2x@d&Eco-dxn8xu#MB1%BGyuk@J{0;M@*~T@v{M#e
zcF|8gWiOACIR*XfQ7Q}Z2QaE^uvo_E#R;esHK8a|R45}#J);q&A8pz&q6|v4o6w8<
z^m;YAHYrPN80;oW8ewOL^NeplaqEeE`>BuGPc5FhxqtQP^Eh%*>YlShErAn5fkq+F
zxU^emBsPR5sE+0Vn?+RUW}Al52B;uJZT2v<$8<C%)WD8oN|S}@NT-!!*!r%0(J<ui
zse{BP>o&j+A<(e~1mx_JmVFh9$DMBjfYMHdh@nYIl?t8#zYL@4QcKh?A^&JhR;<*b
zCZUoAlb|Mfn3*on=cS3Hq<T6>)iCky7St<gqPi(WQW2dRix@Mu&+|`FYCXLY!^fYd
zR~loT+6q4~$gyEDR$$dqGI?idIDQWSD6l>&w^q18FZ$@GbJlH^fcsOQyUxC9t%BsM
zvb|8&`l-!QiT4V8`NsAo&#JZdo-Md;hEC~TMZ>y{bW3*WQ0YIK|3`~QR|EBeEBcuO
z@eeGVy@WyH02zhK<ve)Gc^1wsHZ6Q@{#$~p{xb)n<tzly!5uO6nLgw8<8ByIuhDa*
zS9*SE{hYn8&p^?(Q&Y6<)D&$y*X;q@wtIDGBA%$OWy`vQLb##D|G-6|t*R!@qtnD8
z3}{6YM{hb!9K9B4;wZ{5-}>?(KyOuMTWI;%+x@rtL5|u&D;M5>?!D(8P;lL8vvq8u
zghPs?gL}Xsxb8REx((HNkDx{DmgX#d%viq|7@B}6mHpU2wrlX>5StgUJH;<F<ZzF1
zmKpSkcG#5@=SsUhyTC_uvfnW38XxDsg*eeqB51l3QM$81x^J+WMH12-#SiB}nBA4c
zl`ZV9g)Hx&Z0wGEI$;T6wRCKXq?pn~rp;0evLceCb{)M)KSaQO+d$%x{RGg$02o^i
zibeY2ErmbFk0Fd+VHHb10oME&*kSs$L1JPh`?JS^GS->yijb~SY<Ntm_)!M@Fd_R%
zGInF5^cw_(O~m%cWh>_6LzJWAF*%s_rAyMmKyQHWMl`!5PJdiYQa(+O#LlRSZI7vm
z{ZyU&i-yt<TRpCP`D#rSz46u5litUaFB#aYB7Q9=lZMcCEp{4Zm!^QUk9EnGCDKUL
zQ63-5lTE!al_D_*Aw#jA#o<>8$Fm@VV1$xQupIJ)%<@r!!jINrG2oXqaIm5g5quMQ
z&E%0NjVCE3Pa-qXCe_C_Uy_hX$1~a~M1oYFBwjp`f1>>i+Y_Y2za$=$Za?`03Khs>
zG9g-`w>W9J_E9$HerYc`$d4lle_R$n^2*_d6HKPh?VPFQ6RzeHF7(%&_Y<z-KXc8W
za0mX9yRgPxcx1Mk%%5`bK6i7b1D|kvKjHQ~GTTgMAPhu$InxQ#BeMlTCucfh`h+|F
z33o`1cp4F%$n?nSFqt25<OQ7+g7+zT4@0%4l7-S6mDejDatJ;=WcsSfv}5te>nCrX
ze8^GwVb1)#$rM`PZ(O^6?IB0uhleaDOs0KHJwM$0#@>e<g&#g^-e+o4Vh~)P#xKQ&
zADYL_rrL#`8+)(seZWx|$le@YXVDKY+Af(*-36=t<&)n&S+JHAtigiSU$A;vxcu_~
IC9`4tKQr+rod5s;

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/lightonocr.cpython-312.pyc b/model_executor/models/__pycache__/lightonocr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0616a31174cf51b2d05a434d11b0b4e9dd4a28f8
GIT binary patch
literal 8682
zcmb6;TW}lKb$561#)5bg1Rn-Ti6UW<pd~V*T*;O#OO&aXV@Y<$h#LgNE=f?k0KL1E
zL=Kpd6D5Wmr<R%~q9>lQ+%I~h59O=wSKZEZ#-09POLc&5<yLJx)9D`^(xWtAJ?AbK
ze3(+)JLJK==bn4+z31M0Ui(izpNBw^Y(LBYs)LZ<V#6w~MrG{=L&z;65P^}1%%mBa
zO|vqW<`~4Wl1;X!?X=EGj<f@CoaB^UX&1%WB)9BIdt`6gOWSsdmwjm;tvjR^*`M~y
zfpkC)rh{@Q9g@T8upCK8Xung6%B|^ET6ak?xh>r$$J24SJ>4#Mq&q0yEp^IW=`LFL
zNKeU$bb{8sQn%cb?vZ=by|m3syX4*J-Ev>LkG6f%9=Si=FAt;#<YYQ2Kb?M>;#;J>
z@?d(9AuJK?f?o{X4cuW(Nu-BZa)JoKYeWc%{bDE%=sR4aFC}n7_(MjBh(khD92AGJ
zS7;Rz0=MWSWXd7Lt~t`fz_n}k2j-Z~P#hM+qW^B2#gEPuhnd>NfQ7r$7?9q#z$H8W
z2U|(ba7}2UlAV-9!+9n<H<vF=8?N)>Tk~QeCng!gd0}Brd_Ak2O|k}mG^^!i#>K2Q
zuZTwYyZI}cl9gW1tNCK#rD9<!KMeysuS=5LXgQ4bGkFz>Mvl$P^1?)6ZeCN5&gUgT
zRE%z`Z@j3$03ojdpR9C3EWm=WZgf}_XXYg>f2Js8rSB@mSuv*-6{FSa1XNB`Rap5%
zVXA0EGLtw#MsCcU$s@KSU&w2jOLVOnt$0~fGE+q*BT3mySy*+Xv6+|0j~8-9SRJxT
z+Kk|f^IGvw#r*V)rk*ZlaoN5`6Qu>sc9St|I-`iwFsG=9Fgfs$3|`JIOp2K~MV!iC
zfmy<5UORnZ;>;_@UOb&Scl^Y}`3vXX0CeZktSWBVBJKx-lFiMCAou7--*{e>1XH?3
zU;};Xa#opEfiyfJXQ#!6M2ZTWt*pYdP4OMeYFUbey~Q3gtr3Lr@|<=~oRhLSQ5FlD
z!JDYp=7g+<M^6dN)-h4b<|P&O(TWUrIA}IA0loIg;(S5KZN9Zsc>rSVuK>IQN<t)Q
zMj&ZcU_?$}MVrWp_9>P=1#U~rwxwkk9aEk%nPLRTH9qYWoT5W;ZKFV5E|V8LCigX4
z+AVlQ&o(-*=oRcDFZyuKDVM+lT}zo<VbcEdB<VA{PUBU0rSQs2=Qf1e6u04+qk=J<
zvYY`)Weqn}F4Ds>JX-OhRd*;NyrDwQzDXJ=4Acf|4?$o2lDS2+X6N-#iToUBOH7F^
zaV6Vb=8nzmT(Xz!vzxgz#t7^k(7ITb93{uw|5hTi4zs-(&bl|Z%(|r|mYk0n<9)&y
zSIIT&dqTgv<lbquCFg9*4x_9ccpf_{@PtubEo}A9My%S#Z^^N#zjXs|)k>a{ce*J>
zONaZ(5?^wZc)T972(}f0v*cc~3+!R&6>KH@C8D%L+lB+a<yaezeazX~tvQx_CEwex
z0%r$uUTV?62AieivuHNqS}fef0YX&vB>54eb#06&wOG46M&9?oA9z2QvrUs6`)44X
zH{nh$`6&!61xtRg(&Q(sKuQ4$gFj)XI9$U`_PsV6$=Q~IOMxXntjuoi<2>+Tn)u5k
z={%dXDZ62W(uZIVf_?yoJC8;plNVG4?WWO^)ilsRU=A{JR=sHObNMTxl)03Z=0(-;
z=272e)cm5TCjEw8okyJ<%H*<=l$n_V)k|#ym<w)N)C?Q71p%mT?erlA-ltdqMvCFa
z=A~jTJ81;X2__XWd(osY{3c2)2n~cC%u#Lzn1c;69I#r@-G+O<pn??@7e#}U#Dc*s
z=I4@O!={ST)Q%euHr5K(qd2djp;Vrx0@>Judt-@qb9pXvVR^xD;CkTKeNhzWsHl`d
z6zUN2VCD>F#$YZR?o1{pWmPqkQSo(jf1_Oe!|7p7o*SOa&kbo{R77p)%KX@~2QQ9^
z!%}{7cy2+PDHet=fxR21MlK^>5p!T96|<=V6==v}p_o%ra|_Ba%(D2*6SZdQo2P|~
zR(}QW|MyqPdJF05{osV&d7u`K*CHLY)<iAVQ+JcDu{C1v@>E>$dVoatR3k|}l3dxl
z8aYsQ*SwL6x4YKX`H}krceQQ5-nM_WZL~bm#0=|g!>euk02Aq|M*8(g|7s*zKK?M)
zd28Y3!tHpq=dj*$cs2H1`Q=)){ni^d-&kI#CJyR}gR9YJ%j4?~(w_LJ{e$*eApRf_
zy~W?;muFTSm9F8{z%y%huDzvBxOhu>qV6H7v3m>p(2LcfQ~J=U&tF^}I$PnpmM`l3
z(=~shvTIcLkJb*Hs6}>v#j#_dhoO$I?Ce<Ae|PQq;EmgF{rb(iodkO;z5DgR2rz3)
zR%3&DY;fiKtFgmnzUGZpyt``cdsoir?SE1}^&s4OqqG{{eV1D~wK{O{pTh?${J~22
z;Fqa=_Xa=n-cOzWnq&91{A=p;$MM_2kH>Gny29LG{-Wo`xf|IV=axguJ<FjR$zSl5
z)af-O#FZ9weyHvufu4%1`+wKnfK}0!{DZCIc+zFK;g!)Rs~WAFA6%ws`Em^(7se2R
zBdL{}feP5ThK?shYf{ZNY#WkWMPMx5^=;|yvX(Xj!_A#F?DW+pS^6przVU|TNl{S2
z3$_XQoTkKJI>R}MUalx4IpsNMD<=`00-)jw;lU^q@M}afs3c&MQ|OYZnH+V17f1fc
zRo`jQo5&omJY04U2}B;mQ`PtZJ$~Tc<<<C+t*v!C7x2K{a(mWb05M#!f;{!|e4sTp
z34OB=(Lta>|97ao!@T2o$9ao@c}EW0%53u(HaeOvfvsfQ>2Th4Y7nBB1t_e*&qBek
zhRzKw)}b`aPt#c_*{lP8*C8-k(;b*%%Z{?M%uInlc#U7OYe9>Xz+HDvGbQ_7n-$<p
zGjP=QvxW-=0=n=@u6es)5DEl!-rAP{e#zY;*Il!l`vHpuCP%wNi?!G#ro`;%w-9U5
zOYC*WY*Pr<c(CB?PT~M;Qy?3(8#k8PS#HTjHwgaTA{-$8!}gm3+sR`p*{?gTHPc(K
zoB{R_7BtM{<-DNHSa*MhMm6|?@lMh^q@W2mT4=jzSB)^X=kQTvrj@)vjjdrfc{xlj
z%2PPd54H_rGt(-9{F83wb;LX9V^hKQfps<P5MW6v{3ylCDws>Ox~joLyoqs_8LhRL
z&y)56Bjr4>QPEj7?bX$*SItN0RLmG<@#wdBcBXHhnWr&~nmR0jftS?hQw<&p&Vc}I
zPA%G1jrQx&{uSr_eaBX#$IIhje5&CAJv^||wi@1FK341KuXY^LI}X)4yFWVl!O43U
z{`z~r`CgqPorl*5+u3scbouy=?||Nn^;M#ME75z=PrCHzSb6+GcuzHaKo1|dcj?m~
zu7<%FoK?=jwB}hsKn`X#E9JEXkPS7!hPSaojKn~u`+(S>9t-GOQ|(x8N<&};LA+vk
z&>c~=EX47KuMzl~)C#^(1$}3O%NI1I6KYA9sqIkGRNE;RuphO1W6(7AhzO<tsK}%H
z2Y4PYykH(im}<nWQeNEm|2`PXy$Ia@aFx_~5{=)QxH(ac?A0S++K0fj$9t>sQ9V9d
zZu!z5Urtur_v!8X?vIS$_n)Y^PE`CS9>n&pOsvKZl=-^N<$i_vF!zYy?|LioJynZ$
zucRu;XFt2V&au9hI%h+DYIA$&AtVEaE0ZZ?WigX6JQ<AR=OwK3nao@BS*g*(K~h6O
zg<?30lbDZC@a<D)hZ+&(Rcy8+XhVPsSV31?c?*EyYj|Nf5xmq)l2Kj;tcuFW6s58Y
zNfDq6r~W;F-(MqjcF5lIFc7ZW;kWJ}q4;umd1|>s5BAlah;org$MVQ+$MPXP++TMi
z%0r@^%P-w-T|T8p2I^i!@x;^mwGV6GXIysA!*HT*hhJdWGqA#~yuRYqyGQFzM7fA3
zcq3eC-CGIn)!l<@ZbU}fVNj^AZinCPgAnB+Z3A^T);z=$x-qD`6OX*mG%q=B>Jvx?
z<S@5kUS(du+)%@bP!@n7XK7#*3Ca$Q(%Mk~n>~gS`KG3Bm=zpDONqwJ5HBMKD4-SD
zv&t2yfq9qVM?r;3MGXjiS;`^;T*X#<-_b}bZQSRL;6f<@`HykPZUA7#dBV5e5bk&G
zzwaHX*hVVekq6#^mB>ozv+vyZPE>3Y=4E3yX3W9BX0Z&(8uH!9ia_#@6BvPoRH03<
ze`vewu*^@|CO8Ebqz~PYbo4;>!z=KR<?unu&?&TtF3~MIM9=IFVXm1GLA@_{A@4y0
z$tj!QhrEYxfrsbNyRqTN<>?kJ^+NM%sl`?q^G*16vJwi(OxUFsV^X#-J&*AkjT};t
zGMf>zLTWL(t;6h2+7_c`t)aadCL*=iwgugo0V2fIqHBX^V~(v;LLMqqRPxhcqcR2Y
zaw9co5Wqw32Gewg7h@Ys>AektQ3e2<ZTb>;H}TTYJNZ*+ZO+upS~nL6tny^ffq@&k
zV{Qf&?6$JR0qqW+!;<YWJos%4pa~fxu0%4{6@wfDw9qT3Wy8I~JQMgr=rPe!Vj-v0
z*xg;u%0I!_=6W=ApG{hB7S-OiGK>0fTPbm~XnnSo$55h^v8}-P?rkV&0(PhQdv~P7
zC%dhbY+LqiYwp{Ar*SH<@1|t5q%|D!b35*53pYoTo72)tz%AP3L1v$}>KnhaXb83y
z7}b2x3t+&{jvM^u1ULA7K?O4Tc?D9?MODibii)h@jW(h?zEJQ5Lk$Kqc|i~hrmGjw
z#4C_5*@THSAGL+f<}@Ruf|HnsCohYTH!#O~OuvyjesMY}Jj=~mAv2lJg7*iuwV-W&
zbVkcoodDYTN3e2b4gu~V88g@dq+8BV3yoHrCgQ<T(}!>IqVzw<JqI^U-|(6o4cEqx
zOfg5OTtk4bMkxR=yqkCJrE+KtxsEjNBKR4C_YnLP0bUE`&jA<-IeSseh>%G~;|AXa
zWKqaN`aEN1h}5LRbh+rhsG|8x9E*!pegS|+*`~uw9W3Q0AQ$)kaebV!Wbq+#f$v{n
zk{-A`@4K(NtFCt4)xJD>-_>0Uc2<K)J(#QpNA%!G*-?x2R%63@Y#7oCo&D9$QN44t
z+BvRwjzfy&VQXjE_MW%av%hS+?|SOX&aoOFs_|{Lr*=IECvH1dT2{kj>u$)$V1FEv
zHhW%VYKgvTVnk1jR1-(^#F1Lpu4>n?-Zfn9I;3|Us`d1nSr$r$sg+u+s~X#@$M#lZ
z2lUv1+MdDco^gH8crD&XC#eh^Sq;Ci9(3=av-E;Pmw2|;wyW0KS#2HATL&6c2Uo+-
zt~+fBO4U(sA--UhPw0H2${*4BBjBXFegEPbq(<0qUN%4PG@T9*8Vweyf=ADMtJ7iG
z+$9#mIHcKDKnakYqGWJF8tRieA!u=A`UwfHb`W?NyaXSZGL6+3LGZl6NKs?dq@xLm
zWh8bWv8ZhEQIuap&*Jd6xFDNn`a2k;qKSh`670P_x*8mSyWo#j{k^)s_x9Mm(dx*A
zJ~C19_pbU+R$M1d-=#&tSV>V4Xb3_G@Wv?^s44RZ@Wv`ABg3xE&q<;(hIPjUGeyd&
zqDI&J2{E0+2_*la1@IxL7zkV=U-2Zq=V9MyZQzAk+rC=g;ji5GPR}~$j5{i}Xgx%Z
zGRK(TkzIDr?ZrC&d^$pZKDVu5tA3JU?WdUAFR#3IZ{$<^-|~OMS4NKML&x>q<8^{v
zpO1X5{^P-QS~u5%%Si4w{1B{SPz&CLn#xY*=x(U%Pn~**(H8KVse%^N+?|VNgHwfq
z@;=}U9zK5-RQT2iT2VE_1hgThn~`d06O@>-3(q=bYA-9PYBtrB^)XXHYpZw>P%VXy
zh=R!y1$CIw`vew{H^(orX582P1j2a@KIhRZX`U(7Xs8_xzc~uMJF3PNv|2`V8#ZP7
z_Gp`o*6n>}s?ZFQ&_;iA^jua^MVg7A0hH0codp=5#`j(Yzjx5^)eNrCK``Pw&`;$h
zJfsAYcO%$^0KID?WPP>W<j&J8_%V{uz#Olo;W`XkhFI`<<u}j-ol4aI0#N4|hI!;5
z%t4)ueL>oPOZYEH^byN3?AIQ`?0UpH8TJtY@O6N|C4I!&85Z)^(B=vA%opVO{~#yf
zZ!7+}|FrYv3zhirefu+4*>%SShVfK(AF3Qar|&+$POw?O#FG67e&=>FCz+auuX9*=
z7#dg!>7l{89a|8J@dGQnb#H2olGP)G9jGvoD$}ns{WV*n=I*Km_kyNm*>%r8<`h#&
RPOK5Eta$<V6~$2*{2xY3k;MQ2

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llama.cpython-312.pyc b/model_executor/models/__pycache__/llama.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2494c17fd90e2dfc7e8a1038da5688c36e2d9cb7
GIT binary patch
literal 27826
zcmcJ23v^rOec#3V{US(!AVCs*6QW2;Bt^X?%X-*)QMM&N!o));UXY>$kn{y8OAMGe
zo3nr?&P*;%MYqW@y`7%WwcF4=-NLlpsoM3lUb~&)ib??A%8R;sYkkhn28VK;rQ6wl
z|L@{nfDq_7dwdeV`@i4)-jDzHe|;bR!r`!Ta54QiCWA4K`)hhpoTUJ44r)2>7RPfV
z9IxTEF-=@MqSX+ri|OL}5j}(TF+<!qVq~x(W*RZ!yD?^pn@7wn%oMZ4ts_<jn`5@P
zeZ(Gjj5yf4CFYE~MqCWG#@unwh=;+pSXJCR;*D32RI_(`tS0Uo@x}cke)jH&)y4xO
z0R}r`b@BR<dIq~<!Fa<+L%eaMG2S%N#KPRMP`r7hnZce|OT2ZYmBCf9ws`wUJA=Kk
zj(F!tXS{2qD;^#Rv#{#ej(GP-cYNo_PWE0C>xuV{^aA$r{#ajp*T}B;?vdT`{*nIp
zz{mg#uZ<1H_l)d`4~-1P_m1q1?;F_{-#@ZHeqiK4{NTtz4X5QE<M_bK9A6hTU%jDp
zc=7p`PKHMgvzYaW8T<t?kFb~xh}rlHVjhipSllMW4Sjmtw+dAnd4#2CMv9ioDWd(+
zf#|O2?zc>ZnjgDq2)E81Jv}uZ6{1sP(Vpq4*v-(nbED^vh2qnEG!`10j?auHCojjM
zp%*8US3-}^PE1TrO`IAXLqK$L;z}~n`yu5P)=1{l$*3@jsDO==iP+>ALAqm8H;3`m
zPEEnLor{geM~_cWjZaR5wUXsnG8vspPEJor4i&s~bA}RDpPU*)9fS+0lll$eHHq1o
znQ0*zNlpu6S0YryNtCITY{y5(u0-X$CF?V>SX?c~J`qhuW@aK2!u0Hn)JAV8H!&?l
zSTiFtqrzw`7L7$-oEBnyBr!QhHLzZsjLjaK;?K{<@Me1I{KesEAs*IAb?2kPM3g^1
z9h;3$JyA$|ZgMI*DoCCu&puNg^wji=TZ53D>)iCjWHRxDFg+Gcpe6{adUAFYoiT?F
zpPnkz9o<T`6{gWADEP$5Q^%e@cPaABh2zH_jXZJe#EH|xk3}w?9yuvF)gsP69v$T+
z-!s!=qnDMylkv+@p2yIkqiXo*_~>jb8IeaY5}O`HKTCo5=*`Q~h!BmB&P1+Vk0i!M
zW6{XeXq@`OdwL3^8;|mnqsizc)^~{yH8k*g$#GF0k;KW-iC9!}Zh0M$?8^JO>8FmN
zQwx!wcp_|)JjZ5})6dEi>6}~*=MztypG+iB)pMgaQ7v!uMp76ZOGaY!8kwBpqc<e~
zWP-*sE=OeJ7muQXQfGYhS~L=k&m?amYO%_N@lHg>k=3+tQ?jv$EYE~wmzzE#M8_v@
zjLEA*_PvFd%`X7>I#6ts8_@vGYAu}dk9Y9esE*g+PaoCuhNywp%wdV~#;B1uA;gTQ
z1%FmvGhUVE#x=a{We1S2{bg>%oaSz5Ml2V(uv0R##c}@J6T_12$|TQ6r`SxCJX;z<
zlT)%5zN0ac{RNsfSO~PJB>m;d(S&4_n<6=dC_g(!gPOpACnPIBnV=;aNzO<{A)1^O
zrpA;#gjz~F4dJ!TAH(~$<`$R4Q+5lM6!%R7$0_(m!zJ-1yObuSozS4!2uT@I`jk0k
z{B@4kepmap?k!^>4i_n4OpZ&cWu~-9ODRl+G<u{lC>ScmMT%wUc;mIb94EMv4y9b)
zl+vLb^LKS`(OiW4hnl2IhKe;sE@ma{CKt90e~8VJ`?;fc0&_VsI}@1^rmu#Ll67)w
zW;QAJxqW&zsk|hFU5GFAkvBlzZg_LnUVi$;DLJi4*oPp=R+6YBP5+jJl0E^nGFSWb
zR6<?}Q9guWoV?DK{ejS2b8m=nUWlTFCKI7zwDD;nG&TKVZ`dLk5Q^z;j$oEgCL<A{
ziYj0)ZIMt-K^C=^z=@-=+2~0@m=**#eKXRs8lMVVQKx8ZT-Zq!?IEw1Jl0^=bZW4m
zHbb&RB4e@9L?RMN(1Zyo?xmkU)|ZUW^vz7p^dv`tB9lEgX7}#jcWrO9FE)9(Z{}w5
z%Jfv<b)e=x8SzGMM8|*u1o<`57o+W=cjl&W82Qe5lm*eNH1iCC6Sv^~>?Q7jkFz)z
zOrp8=uDR}Ba46?*$<=jd0y|e<5Cgk%o|;^sJ?C%E`GSkjEkB>}c0X{K8mwvkU31`p
zo2%>2`MYwpt%Z2?VKwSV#@qG4Wv)ZiSDg7O&hA_G-LW;@s|x0-cB~#)-I*DBHsgM7
zQ>XPh^PJY<d|>4K&EJZp_20B@qH5e2O)tgKoM$VFNQhfpio05vsY(QTrZmd@{Q}a?
zYv#3xr>>S_%woKG4PvNkqf!htC(T9fP0esvCmcaE;TU;G;UVBrJS5ExNfSv>VHif?
z1O=He(Ow)C_&K*a0ELh^J|_;qdx^`ryjfRBbcI$t8?M#`eOi;=owK`NJ-cvrS@VtI
zv<4Ag{qn+>mq#~Tp~7dEJ8c$DB6-*_d`jXjox;?^6sA2U5|OMC+Ky*|og$Jw5&>F^
z6~5?z0VQ1`DF{BQpZ@anbc{_AfhL6HD9p#PXe<_qyr~h6BQ!z%{0M81&<&7zr|Clq
z-p^j<@^)@uZ?2{;=c~;%wdU$WA9<S%t@mqc^9DTgMlRTtHxXp!5N09B%K5{qgQBl5
zZ=+W`=kn$q1UWfRb>2mgn+r7LJp@&8HGw>3nXl%o&W~#V{oN^z-r!+9z^XHbny9X!
z0Bt^nnwM@hMA7p){OR#eiw#D1RmEp&YHr+u4aa~D$5`BOq9)!JHAgK`>$o<6sJxbK
zOm@U^L~VsPXVlKS@aK+VBV*q^Q43#%KQFHx53&ub8XK0AuZg;@hKeOB5bv!VKCb6|
zFY8A<+otnZPPc7-M!pvLRk3zfYFDvMRC6<^cm0T$ZLrnYVCy6&o6agR`Jua$<Ay)v
z(4<qsS+qtn%9|)dgpy@yHXgYGQVR3|fgp+GH!D$Nk>r(Va#XT2m`EiMERsJydLuG3
zotPvF4pc~i=1LS%sbr)5IWo=m4aq)6Bx_;oX4{Hn8BHdqB1zD|!XT<N=2UtaPdol-
zp>8f><(KWw{!iJR?Fx38cVfS-xDPA4`n)Tp+p_C&R|&<Jxs+=TyE?DA)`jJyJ%e2r
z*r;+m;4|b`paB5u@mAnJ=*!j8_7zG=xvqiQ5~{cRT2i);mF=n=vm_p?W74BEgD3o2
zvE(___bvR9LrqmWC0QefArw3{&nevBygTK7DS+J67Ao;r>nijKl|ZSGyG@C^C3mcG
zC3nQ3F=q~CsIU^o${>_j<`^BuMN~QoX^B24a|qo&t=c=4WATPL;2_jbrM5uDaS<Xb
zm;*h>Mb!S@(mrEJ?|D)lo}0z&iKz8Md2LEA#V2Nihc^)pLtKR@=MZKtgb}gBT(Vn%
zXs%akAwnyR3qsX4D><Mv3+PfiXiN*}Qfmoas`gxx$Ry^r%~y@9!~|`F6^!~>3%T2n
zyZx=gevTH_Dlw5Kk(^}?G_x^fe%qnU6G$|;`Km3w>@4>34b8k)xRBhVWP%y&Qs%he
zPB~MWt3%4S;&TptG+#ZXO*!YQQ`O1+%9oT^!6w%*lM{|J9Pdt5qlY{x@2_*;)hn0;
zIKi8$X1h)m;feX0RE=OqSwudRx%sM;BY8*(yh?;hnWG#8WAYItc*>A`RDtJxS}x^7
zPkrX~fw+xI>f#fj>MSe?wPB1<KQ;@z7^mvD3RnT-)S|=#Ur{qGphGx;a+b`rRYds7
zxKuMUDkLXIW8mRI6W=T_pc8V!`+q387|k0QWc)U5BB5zv5<(WF*k(5Y{e!LN=a$|V
zuq83x#Z=g_SfPwTbR|(*EK=OUs)_;1MpnY2FpkF5D{o6-17l|d8mO{3VXXkvEVBlZ
zP3FjHuS!T&GQnTq(#NJ}r;>9u(ed#pu{KeKdFO9{!5L8a1@#Fo2dq<QdOUO)3Hd~b
zIGvK*4}>HS1WF{oh+uz|MMiUmUfL_eMqz}i6jAF{i@mc@ppxiChz+J+6uwAtsIB2v
zfu@^GL$(vNlRQFZ!X$a0Bkw9aNrzEjB}gVPG$>IJF4IS%-6Z1+GP`IZc?mJ*rUEG-
ze4gSwPjRaF=}7q)?<xz3{K7G>E>A&oKp;#gnU#4Ub9}}Eap9I(!@{%!F(R3+j3!tE
zVw6l5i%v<-vL2$TE!j^FAHQ(o<WrFg!{<IH5Uvz}>_K<4{;p+wgYX;$vtDC;#m0a&
znoSUDd6DW7{sFzR5u)B_;~-fI0v-N_WJ=Dk?qfYG`O2GGpvqE|^cp<KgdUz)VBZsw
zLTe;5)f7x>LS_XBovM><EAW!cAuxW^e~#GCW6A_mxz1T6PgH^O`Wd*+P$}10-MMPq
zsP0Q!a`hd=S=QdG8rrDZmp0{^y68Q~xTIFm)w(hvx_Z_;cU=7$bAQIwp9?f(13hA(
zXU#7L_7SU@Yw4vVO*xw@Yikj0Eh`guY(3yZs%x{}9in%~>a(JEa9wl9yFX*!pYiSo
zV^Uqed@0*7DB}N?PxpdNE1H$TZ0iBB^}zas*m`m!c#5&UA9(AQhgJ@(CO5o;X>-oz
z&DiR5{`#!HQ}lPP4raTLiumt8ntnW28$z`lAGGgWeI~Q#+`FS2?N3k^EjeG^t*ND{
zmE`y4-<TJDgNS8gS#*j1uGPWsAAa+&=%*&x5qfKWX?}$l{X5uuT^k;*T;~zWsO^L1
zu2o-V_oKH@Y&4(Fm>Y8~`)=zqEhkF4;f}54zPlsSd0KRz$?G_W=dS%2x+Hvb{kqt7
zDt+Rvz5RpQF!AxIRD3C(3x=}6U1D$-Sh{S}kk~X-VDOm~;By&oCs_LcvG$G!)f^-M
z)bwuA-@VFzKmKN1^dDq0fgs5aSdwQm-u4GJqo0!4z};CKS#yJEZphiIR)Xv2P$x^{
z15RtPVl?U+)6RQ!%_|+NJ?qsQbw@I`Bk6<i9+)||fAM;zY2dDF5Vh~zwbqgCKP%#Y
z$63)$yk_UFjJq}G?ReX}`uUCUevEOR(>a{Es?JQ;!A$3&Jf}H4kQ+F%)|1z1JjXPf
zI((%$VCCxCGwu7t!2ZnPC&a)L=`-)S0=eeSZ1a%VJhbRUwcLU4oX-Y_#Nf~!*U-o4
z#O4n?b$JtK@qA?GYS0q*tHTS!^f<q8o*w5G&avsaLk#Soj==x+ft;^N?vbZ6-qr_R
zYYlqjn-<2)N*0CZNo<jQ5Hex>%I^Yzc8a(JK;<q;ahSWRSD@mP*OYv(L}gR1gr3UW
z9H?uBQklay6$X_>?~t)*uOd#l1NBXk132)Ex?#4RfB3)Pu+dycsAOP@2cXaC3CS=X
zn}#%v5QJozol3kg8;wGDAd6OnuOV1Sz}qTb@kdCcuOK;wshF&NuA?0PRF3zzlp`VC
zm$>^?-bFs^>w`$*ciVpuekYu>JMKBXuU=cYmU9P|Ph^8niumt-64EM{^COxxn>xdQ
z^&`&UC(mn5n;^V!`wOC+sts3L#@r^4szVV%W7mr&#?(<l$waBLk^Lv=t8JxPYELp*
zlx|+1(p8jdah1j$qgrXSD~3+!c+J~dg{J)iYBq0}H_n3xxmuvrP+!$CiL+6momt%w
z8*yo;D|130!c{)1__0J1X9nkECVKv=$_tgmGh9`9qGG5r!{)&=T~)c6;&<d|OqrA#
z&O`EkwWj!0fl?MFAJzsd`qwJY*{>rClr}ohpJAKuBHkb{o{3E+g%<z|0tG;d!RS#C
z211fTU!hQKa#}L*O#JX=3M8o|vLISpp3dK-SUOM~!fApuFG!kelIFT(EzV=f#$Z_(
zE*a%#f|gpz)+=wjXAn5&E1UKOS>q<YCEkJe5(g|-<-66e)UZ6i;ptg0rgiBjb5%9B
z!b{=hORs<awa>4%eShbhJJ<DpX#b%-6Fm8D|6+KfYIwm!Ldo<fNg}_p@RjA8tIexV
zZn*ji(nz+?VuNA0ZjTt)vo^UAcqDx$=c!s8S!&F>TY;Nbj(zX3Hy+z??@S+~EoO3Q
z5*zF8mC+4fSK5}VuDx}3>FkPaqk89pC2d@U(6c7(V9RH$6ql)(@V}xxgb8Ua+|USK
z4Tm*Rz&H4$y0;1tuVuWGA!QIe;GKxUD094y@kWpi&g)AwG8NYe=27J}RRMn@ZiV##
zo)r?DN}Sdft&J+-0bgVsz9i`<CT7Pa1H*ZzNYzr9e8eC@`BoH~fwvh=L>ZGIIY7`&
zMW=5>63LsfC?mMTW?3Ifa$(6T>k!yv^`lp0x|~s-j1V28uqAlF+-w3fl9iFC#Ip-;
zz>`cUgesSyj*;i5JT-6PeXgl&YL=7Ku(9A0(};;VYKP=E?Z{O%-l;mVawyxnPi)<{
z0qSd9Y(0@Sy=SXhyq@(l66vu!{()SuIeq?vx)x>Il_@24DuQac)wI+^TW?)wuB9W}
za!71B1lpyZwp|ySVc{C#9EujslQ&ErO*6@K;v}Qq1sVk50tL}FHJX(4{Nz|tc!Gin
zfiq#c@FYQY@`wf&((ojstl?!Sfr;1!>J8y3@-D(Fm90Nbf#eYqNsOXHNVe|e8d`F_
z{khKWT>lUW*@Mlw?miN=2RgEWUNO-7QNs%wgY~|<K5rlZG>|WlH!%=&tv_#JASCW}
zc^d;ktJLKk40Lk-`sINY-SR#nLq%VA-o?V*TuXc2!@w$4RPSZ))g-I0VW5xm)#d#R
ztmXVID<?!>S3bbr>qw4Y&%hv6g4HqKNb>t87CNr87~0oreh_>onCAfAZvV5Lf3$Ox
zz`W04@ZI;;-a52&C~p9aCe=3FN-d@GCVDe-R@bY+h2W-z-Wt7y#^Z^I<?S(1uvu+`
zg<h?w#wRvFZ1h>5(-c>ovRpU+1A<Bw2&Adz?FB70lnAPZ8k*{HXrQ5yHbTHp+G<m!
z?FtHo%Hfu6!e#xp0g8u;=_-fHDhi10tq|K=S#1qaQn0+BO0Xf+&V>06Y;q1sRt}zs
zG9!_5WE%jrIjI&)#pyDaI*9(*f{tmUX5`E7z%LV|+sg&%gs2lfAZkq|GNlqio!235
z1(XV;&s8EhONa>rwgXy>We%by6>%38+$oSfMPc#0amyE7Q2+=+$n@3VmaqEaR{<jb
zN~4}K@%lrk$Ch*kUL~C7&0D^hc(X#Vpub==w&km(_!Z=gW!{=p$sV-As*r9F5bCa0
zmo*-*^Oh~S*?7BBmf%UM;?=9f=a;#8+myQ`MqSxwyw2N_4N52}KPvXWu9CoTOPw63
zIf?$toKjCB=paZmK%i{J7OI87)cIX)%J#PFtpa(8F;+>%WUG?Rw)JUKVicdKK}YdT
zfl`Jo^>i0Ug4MzUk!Dqik%rp)C4%(Ib5eJ8r&31o`L<UXOSFe}W#;}L<fV=+NQ&xV
zS-$oRGM5FCQG(dk|12QM2?|t}5=Kbhc8ZBHWkDIUkFj9a9~+%bjK(fWUZ&iO-i%x)
z^9WhT2kQ>9h#+C(RM_!<FY7YLV>7HKbNXI@AV{d|wzai*6SRADCJ_!4rIa9($RbZM
z^RZkRSMVH()g(8uilv4?ase|`3hNtUd4=C5kB9`}H^`eOkG5{P4~l&z>p3lI7sv|q
z9*W*e(RFBp;33E^#6hINEG~ljN-o)gh6(m4P^yJsAXyaI%2HYSf=*>58PT~+A}jZ?
zD#Vq?m(gl$RDX-&F)88~2|5lhLF-1Q*kr#{lvl?Hx6<7~mFB?~l}r3bqEjHvvzJKo
z?tA=qJcpMLX6pyU`hjfyVX^*j+6c3ftiMn6_oYdkmG$ow{W~F}@$XOD@7FhH>wCod
z9uip9-m3{NKeO_MwLKd(`_tBY{>J6&D_>qqZuk!&rOltQwZ3hF)F@Luw61@k(}rn(
z_xQ8!y`p<BiM9fnz(LV|2-YO6J61a~{b%33w9)cZ#@vJu2$g)9@c#8Z8-Zg#<+OFy
zKY12eEuLCF3C8}E#+r5#4bh&qeE>3ZX!*chTSu;;_4UYWk@PUyX!j!U;Hv(vt><2C
zd$zVmtnFDi{Q-gfVr_r=^ap{?oHvlG4Q6Y*#M&+hda}M<qHou|Kq%+-Womm?uV?#C
zi+!h2Tpg8F3$Cd>*LIM6PZP<^05E|Wna@C0^q|QtThKgc;i`khoEzJ+jYDE1taTb>
zY8VOcd1{w^D|M?+Z+IYPB6FQfi$`ItQ%yoQGmLdYoh#R~o%_Yk{p;7WN1qapK6SV0
zB6WK3URNJFB5Q9H?Tss^vTb|Cw!N%#)A}Eo+hs!OYcylN2~RS^4sMc%UC9<|fEYDK
z4cq|$VTSId>Xa6Hcx6)^Rj4tqovPU`PD-a>LB^WPxltKqjtuAC)+lkA*^i+t3SPl<
zRmx9gvWh8ECAFhe<66*4+F__|)J_QNh2KX4VV%4`An%9p5W1De7ycDO6Vx@dxJtP7
zz{4x6z_5Rj78c<dFhfqxUd<%SZ4e|YGTF6;jo{IR^Y=S;WIGOs9S7DAzuUFZaZ$9l
zrq3_$!yI|t`I>Vr@NUntbEEdTv;*_3wKLmtRBSnV+wty=jh5#`b5q)}c!Q#vUo)>X
zY}EFF<#Gj=uVh>u8FPosd6#m@sFOUnwDV(dHCOR0cjzR|+|kFP$q+-K1ruCYKa)u%
zQ${7PKu5*!8m#lKM+IS$kA^0vV4QcEnZiXAy<rVgc%ZLU%$A^<D82VD0nfEO+<WDi
zo0zMF6Okd_bJb;CouaEVWA2n$J}om;84f$kSwBLCGHb`!zQgoNyqvHK4>HTy8L-eK
zZjre@s!U~m?l<WRd9_rJHvteo2UaAIYY%^9IY~@gO;g@L00s#Bl8J#pX2E4%bhqSL
z9LBADY-68>wH`yK${7JB1XAFP=*`T5YudTAbER6WYR_9J2)vFfJ^N~EA+`MU>tA^7
z3mI2fwCvcl(YFq*p=<RFOz#X`nS<vuPh1iYUiyUI<mFCvAH$#Oh}tK&`H#_}Qoe}S
zz-Cwb9T-=^N|(4IL)2KAHwhs5xUs+~IY%tul&qCZ3&1H=3<v*WA^rt?7|a+d$KkEa
z_{z4;S3AtJ<QR@^V#r^&sX^31xksIq(?(sD!&$qT=@_LRxAM-H4I^%ti+PZfp>i6T
zkE4|6jjE`D<)P=@Xn)Zdt4gx6m2jSj8aAij)XD}>R#`2`q&h|F;7^d<7_DV;gh+`U
zVo3W2{BLW%uKBudi?y=3oQ+%f?ChH!aVxQJ283Iw0$Uwq$6)M=3>ve9(JOIMMxh~P
ztY}+eti*PKd15DbNTNIi_72ROzM@@%iBK)dC3=pzZQ^kewa!VEAXnszl~|@k2sshD
zEOWwR719UGBH>jSNH!^<*dQy}ROqjUlo-Y5HuX2ahP=?5Xf08l%uTtH?Fy{4ru2KV
zQ~8Q~yA-(igbZ0T4yozOX2u2?zy_(TEol&tmnw4ytTLH^)n5FJ{n44+t(1$pgcP{=
zL}-8UO@ZDvDTD#aRL5hRcB|i$dzJLbeG0^z<waT2PYueqByAPU@fO}X0r_sF8kW>V
z9a}JBHd#N$3}0}vq-t82U^XXZrjP2%rE+L2iTU3oj_%vqTR3U8pjm*eR*?`=h!(0Z
z!wPSbxiWR4K!`w~a9OAJl1%hV=0i~3U*<=T%(WNsic0eL9*W^GOe}E(fE?|+w7HR>
z1x&ze2iCf8kN>FtJlj9!OuY;PC9t2f5`PD=dKvx5Xrgea$dn1cOSSnI<n_UWMa;A?
zs_<pcQAiC7VMkaZ*XclxY$jqMnKymHk&KdHC-q<PT_7reiNVJw1@KYA=+rgIo1Bc&
zIVHZtzErY<pM^!f97UkH!1zDO&ISTUrLN(~j?hNov=k%{GYpc?n8>Y_Yze4?3a4x&
zOLU5tnKj8Me`oBT@OzY4PYj%Jn=)h4W&h~xjYz4kP)?Z;Xa!15zu-hp*ixjIN`{zv
zPc|U=bIQfa`jK^w%={773w;s);7S=kZ-wEXqroP!>gVA2oLe})VAc~BJ>jfpK=cf3
zW%hi{SznLn>q*=0`+}tX&jp!HN8lqP2dTA=a|W`GUeVFJ)}8HtOzeN`PXD=gci(ZG
zzwfCc?Yb943>d_^Zn3U=^{QA$77?x-@jrcHV;^xZ_4jQ4Zyd?mI`7yz85h%W$KLVw
zp|_4?yHDNeKJ`IpDCe%e<yvxq2g|x!KwITn!`aqBv2`%l5Po1WG&|ELeq?Vzo0|JJ
zLc7QuqT$}Y<1DW>(cX5?eqQFMm=%LbzuzjF_b_I4x$Qf>t8H(0Kd^H4TB<|G9b3n}
z+NKp_Hq<YM`qz!weP_jeXYbaYOP}~ASjCQw+OG78S5AM>x%2IdYptu#z44WePBe+k
zIQpK+IfBbqGxqT6P`3N9*nJpm;w~_6KQixRYf7@nf`LgsAzL+<Qs}gcvz?r#=eD|J
z^@PMlPIwFvu{w!e1J%H&?Y{(EN^MIndFHF-&dCx1MsM_%eIqq$f>2WFsfNIYt2<-v
zX7wLt?2}Zz<scRWOgOif!1|<PLkW2~CdNwnH_%LS)BYAEfINXOI|UI}Qs@bRl>V!_
zlz!eY<-zt@nqMJxsk|75pT;RCcvjgA8xmonx1d-CWy>Jr1UGL=QcajEIeJxD!B<)S
zS<yIFk!>n!=o8%YgB-^=UNfY;Ai*jTIM>Ov+q9k9dk(c!@}onzke6yn9j=t6sOw)D
z(pTzFReD)yE*=SIahs-`c-?nYF8Lz1`K#1TWsa3tn52agt;u>N5>)erk>vH)P5@8o
z5#L0-cFKUQ%P?HBTWE{0yh}P6Ru}#~G80HqL%4P}j+3)Etf;5JACq^NydRO5gNKt^
zGc!QRf=D5>bqiVYz64Lv&eIBzx%{6Hbe}vDdazAP@|5G~gru8<<(+|Hcc#n#6b*e<
z2~sUE`@c<V21mfLW`KTV9K!IJE0}S0<w8A6j{BjuY-msn4X%A|BXo4p0rA<w<M+Lt
z8Sg;GJ^()#+_lyu29KrB=U{+!M)dDZKYl;hm@x<L)wSM(d~5L5!KH&M`fO;I7}~Yg
z_JiJcdN=IH{!XW@w=SGXA788iBk5)qF#V#hUxZbiyE*Ib65U;^4ePaH_}E?dqwjTe
zuby6;zkOw+;{ua3ytXfILk6g|JNS(+XI(q)xOUw0cH~<6)}IsIr+~Vu<#S!&OM{`;
z_rJD(<@vS8Hy{o)*FyO4!Ur~I#ueJIHLo1IV{6ZOLzxz844MQ%M8+JHF`lV#JbH^k
zl!_0uKzO&f2^a$WGaU9R;swk`LWN~c!4}G_o7WW;{mM7!mNX~0Ma}b17FHlkT5!z4
zfYqjX#m?&pN`T8PgplM))hHE<`|6d-;T6qj3`%`qU~Ur5LU+Op^r08BDLJOhydkOT
zvy?Rq++eI^ETgoAH_9drDdUtL>(waZF@_6puv8&Mp^?*H^(ZA3pT*Uw;a*w55mD*`
zSBbs}xKYUic+&8a=9TZHw7^|oK+mD~=dJU$d3(x+bQ<crl%b;WjV+~WttgkPDpOFb
z2{bJQJRu-PO2_gWOse<>Vd`NMlynR|$hhTsbIM$a0h_ldeUMW1Um8xsO`X&O^ZbGu
z7z;JfE^1z>-lh)pt)*CtUp$UVeU$#(c1+Z{qQM+}<r3<v2d1<PhYcX?C(vaeyI)|&
z?83M4Rt&r*2mb1oK-uhFxFrV?!vlp4JNruJ@G_p&2`t>)TR7m$4Eg4~MXRUY$*Jp+
zaUuG`Tun*f*feQ|a4L)65{&ccg<#3C<=8wc4Axb2SRNMXq+Nn=?t7?`<R&W>zIZqt
zC^r#J%AA6Wq<-@0FP2nbni|?+gjXr8Zj|Q*;;ki<5S@wPz6HsQ4In|cFbJgN6F!8e
zXi@%#BKknUk6lv=OyKmu%nY3;u;Bp0D6}+W{2@8mVgEv<5+LQtkVXlV8zxy<jo7J7
z$-ok`!Xzt$<#1b}6Ign4;tEcSMnK(_t7K%sv1F%G3)c-K=43N#nG!4gut8hOpRg_E
zr&?2s6&Ase{lhY1Fk8P%tlza!-@oA-NZanUwEy$=wBugu4$<C}KC#%7bG5DNMc2-p
zyEf<QSZxzsy_x>g?_Lu7pCk!oKs~COL7c`GnE=l=9u*sp-qvq4p3JyUE?VIsa-ePH
zj9A;ZXt)>ZTs5qI<?bU-Z-ky%blh+6&$bVV?L!;w`__-$X+OMl{`TR_lTV4qFM<>B
zG=eAaG%iP1p1<oJ$hjM`?q<>5yt3o2yN6ZEx7@byl@I*8)~eUOwBbL#sLy%*i-&U6
z!N1%C1K{0@*5$LSwK;DiETz3W5KM;CFdSJqyH*GN(W3so*MIBq(%}{VU2k}mU+)%s
zPa@U_un8YrtG??U!pr^IR#>vsh8GRFP<u8sAch7O9q+jts8VZ>-*q2;&s~#m;D*j=
z^3cfCmS^`~X?A!iW>?k|g)FI^_CVI&Ale(2`5)U`^HB}g)}0^MaP9_W7nCXWhs=~n
zLMx~OYe~;!eY6`%M$8Hv04|y$G4VB{lVq~zHpSA%CUF+{4CO+*rSM<K`+M@9BCp&+
z>5nOpyc;yZeg;53{R@e9$KIdX`j{Ns7s{Imf*89xZz0Hv^SjGcuLoWWEM54R#k#D~
z7<R7Kd_VXmjDG;GxBubJAHw(tAS}as`#-X^8X5|6?v*yt+mSaQ0JEw(z>I=S^k(Lo
z`qxf~jr;NzdbJiL;mk%pPZ_|FOg0qC)OL%O?$zkp$se41=iKeK+p~X``lFQi=%viy
zC9(Hu(em`BgW{jj95FPkJihw$+Q7PjSwIe)5PMFFZKv`azPvl|ZsOnU`-DJ7ny{`I
zLocXK*`PQ76eMq{fLta}==AXfBxT>xj_7z8fbb?jxYlAqGh&#;$vEEnEnI2A+u=KS
zCwv$0hVS94;CuOM_%*x_zMrp!AK>fY*YiR64SXZ~CO!nenQwvL%D2I9=e6)V_)hp;
zybgYt-@%*tZhq%?^uM8jsZtNlHupkw-xoFWyKq){chnlSRgz}XZd(xD_rL5Mao{Qr
zXVk?H6i!4B@_QhhAA)e&%@3A-foyOuLOoOx;LlhNzYhZPDt>>|TS?}K5-NtH1_w}9
z4Kvg_wQcHyl~ePFqCS2PQyv`NCWicVo6@7cf^h!`>h9-{Zj;A0spXQ<f=AGTTK-rx
zfL^pz&Z9&%Fc__iTG-g=`A3nmo<ELJJW)9v8<|hdbKJ<EL@qe3j_Xt!Kw3N|$(I+L
znih^TLyvRkae)rbYY~MY8D+9UGRl;MWKoF+$)sEeqGg8D?A8RyEz1##Vok|Yxa*@B
z1jQdoBqS3|(8z#7z@=I;H#aBSZWQE-?1;B)oWhi_lJy07!^LeJl1(m%1xSv<hr+&W
zFYLMO<6IC&&c^Aon}W(RD)g4*W2OUXj3%jnVf$!vb~11Q;Z=xwZTqN_>6#Mj)5<j!
zij}l4z94AO0RXNEWF`yXx}cMRX=YbmYNf+OioZ|YXCIG(hAD8FOgD{`yYbi0uB`wt
zz|_`rRdLcC6=XTGgmX?d3GQVUCVI&{K0d{aQzR$8m&i+nUqeYU3w@TLe@z~7A4LJA
zDzc^>hWHtJZaxmb%wF&zMbj@~CkURcvZ4v$s?rAK7TiOMCLCHQxge+V0R&C)*n3LL
ztF{Iy9S%%To8XX(szfRtB38JuN_tM=@4$Q2%Bf3z<V5>Ab5MLWrLY_;aWdflDkzTT
zkakR4%wdZfiG<o^uCl6Po0=ID#$=0<!ITX(Xj9&bPuR+-93^^7<rCl5msrRZEf*^)
zmV`m@&_tq_xvSk}0eD5ss)s`>+0`kWBzjmazvSpS?wu;J%ruoKoVbepUwQP@BPS?D
z<x-(=+N0D_nG>b8*rp9bN}A#msp^$CD346Tl7X$^H+5x;kD*SOr2HvjOZFM?LUi(%
z4%o^nf!!1iWeaXllaUf}kZ}2<;o!E~8G#fD%*;%($#(p#a3M^=4TP&n-6D(F{v9C6
zJ3B>10~?j7Wd4HUP~XS~cC-d0e^EIBZm*=WYzN3t6dTjp$QPZlZ9-=FYUrDrH3S!$
zDR;riikkQE?K3Gygb-E!IHD(*R)ka{aHU!i*=VO^FH}`yxV?}|Odta&!nWu}a-Pqm
z8-ad-=|&3YU+>ohvNi2uO*>4&?s=h3ST${Ucj0a&XheJ+o1ET9HeFV-NmJDhxz3(!
z=ROhI1n4i?-gDJK>j5d=9Z2!cW_O+!@!x&^NA9kBxTJ}Ffqd^_jmSq<F4+08iL2=Y
ziCx#84IB~!hwe9o@A+F-POYBa@DDu*ID$}^ymBrd<e*S-h3~k+I41gf>a|q1X|LF{
z7w3npKeT4|T@d$O*l2oUQU5FU4+_UQy&H9h(`WCsfw`l)k%X}$yW^m^<KX(|Au()c
zikM~`^bGFUsPATl7;#$l)iVocvi2d-J_Ih&;!yM<y-W)-yhS#Magg^ILLFqNgmnd|
z+(j@{vb$MOglOf-OLAhx_J~BtTeKnd5IjW6MZg6$-P}$l-7TFQpA!28nlG|-Qm$tp
zt$)?JVEvJK2jeW%J(DU(vTU|zJ_Dds_kng%TgzM}+j<4(&Esl0Tw0-_t5fjQ($y5>
zIuLofxj$Epv69mv`9ix;;d(>aTuZ)7fVI$Sl@~@RG(4S*9td5!5)D1}#M6bVE``~t
zsi=T!E@QFKv|{1K%)Z#om$DW#G%ifX)ogGDP$)5j8_Z(3yX|^Zu@{>h4~<?Qos7{%
zdpko|)z{h01tI<>q$QJMg=n*o_~VwKUNtv?Fy@EUWsrV-2@iQ(X)FulDp^TwE7xSp
z@V1aNDN4654s1Kh0}qYzFHV%C!R|o?n5C>Quw4Cm-D`E(038h8sOe5yb8gS#ffdiv
z(Umi6o;QXwu7QksK%NUU{)!_V7MlxXAirfU!2S`Gh(@7AFs53V6kv`+zxT(8tk@;e
z##1ED%Ip%G5q~cDQ2R=d{5&;8*6;!Kxa(G~t#`aTa@X}-#{8Vj6#pd(*s>m}zO2ss
z05G*Ap5?BRw7#gFQ&g3O6-wG3;eB|eW5;A0bD@VSU#6n`8a04K%uGf3>fFK{@R#Tc
zuZA~VgBkOn+=#DH399;Miz<@DE37%a0Jhh%(r~2oioFd9wv|R`*mP8m(ouJnX`2)a
z^}=~iDo|c;CB~z*54E#E=%=ZDZAijwM{9$(=9cDi_L{|;nU<k-2QX}{HEkzt4>T<G
za$~=V*jq-7W*lqc5dhmZu_E@tn4tpX=vcVYWUYWZhjI4>O~=BKZYmTe5$x{Pt*5%3
zbQA3?E|io%7LE><V%4n?euY|0wlrw58OK|*o(|E|flC!qZ=}|q-|!rVHG+DWR3Hg&
z<;K2@FC?=mDv=hrg^G==gkl9Kj3+d(GvkWqr`gGP6S6IH%=}RYdnqWI6hcrz(O9_p
z;W=}G^@T00<Vakbq^mXQN>!X5M<1$=(7^!yHXn!gZOvJzFle}*2U*3Gtx$<AR6G?+
z=F-YQ{i^1c1`3{fJ$IA)E!~Tnf>nUzExpDT7sTT7*cdLU)%NZZ9-uhkWAYw_ryvoT
zPLeE#CZbc(8#BU@xm^#<(o!*Xi7}CqVui-C8+rchZ;6h=)eWuIzv}G8@!>`NVjNq)
z!;`g>LB`6Z)x%l){`We2|2r%GA2qdTfZ|%IPS24?#3B=ADie;0_A%k;ie5J1zNpv}
z|2?A4HGFDSf1T=e3h_{>dmcJ#ibI&+KltXsZ1<Tv-Dj51ymkoYvkwfqDr?$^Sx8h-
zi|A_EEHq%#fQI13ZAFtTg>#2$FK)RJK*cXpSb{Vkac=_(mR+R{pVua7!7|6|if}<z
zr+?W#ufsg1e9IiEIx8t8c~!|Y4`zs|{SKyZBO+1jyqT#K2cWRhrL@Sm0()KQ;MX=W
zi2y2d$`*!W0l!x${eW7!g_Yiq8z)ruvY1?1OT3jC6Eyv@b;R*GLVIv1JH?aYk`sQp
zmRDdx|BqUJxKR53vX<}uOf7Hx)RtGMV`<Baf{Rpf9vDkZKa2{lf~xn6=qo6O6@@j9
z<{4pJjX7}*D@LGWdM3Q1M``X5cBDg#U&R4F9NWVYKHPJrW1&_$%!l6gVMbEaGRKbk
zS?Pm<wdOUi9ED*F(j+vmoPgc1e1Dzhx(4s(w#fzY<#;8zT!so2*pMCYun$X`7bVkF
z;eJZ_@*`}+4=qrlfHr><9?7s4^jFKOORtrdYKmR#%ud8qv_`^`VzjwTp@UY}Dg?yU
z3fl<O3F>ZJX&KW3RT@e({xBnqnfewtlQArL85NcE*C(SdN*3VvsRWLh;qEP*?zu9G
zi_#4O?(gS>L*yNXCz(jh335=z`_u-aObUqKgzLiM*tqBRJcLUtY$ZkPUr6>g;n*jU
zC2%a=5OHnkTGqEi^wD)qxEtv)(m+<-GA<bxUtBS*?uBjL+Nc=XyY5+ke8YY6C!V^c
z!1C_p(Qh^V#8bQEU-qwbZFsu#CcVSS$Q()2D^yWKzD{j6$|7LFP9a203uJ-=HE^2X
zRq~igrmL{=DN0~rkv_4$TO(*EJjp<IM={|C6hQojWI$I=M1}tbSg|Tnk-c!7b)=$H
zHbHg*MO{L&5lf=HXeK57WHK7Z-Kj8njWEywvgb1H#)p0wUzm{*wlKxXwBZo)o@@Io
z-Tyu6?SG5tw9Q&g7U!?bvJ>_kz_-Wp^!S5|AJYT(?|S{&st&QL1J`lk`j8z<JC-kg
zs}C36z~<4txOd^`@{23NYhPNua;ItNy<jWUw#&)azx3LdvQ0<CrX#oYe`fn5TlSG>
z#Ydh6{n_ALIFB9D;aPla;X=;sU)C<!mcMex-OIGSbW_NNyM0x2#~uEwVC%~HwZR`8
zeCJ?x;3;w7sm!IPH-gXLY9%Cob|JFjU#)the$9NRdEfv4QgO!w*tSmGPHnsA@hyJo
z$DUSPWP&@ub}t=BpUCa#UcI({?9J&rI}R_KRx~Te-Z1={^Y&o+^!+_YGJDP}Czr=p
zj;&0td|nLh2BnZbf8P~cG2uXxqM$y%ws-xoH~{g=nI%0gtyuQ|)25YYS1-Ns{CeA+
z_9IHP6RVwTZEyB$`1dX8^Iop1E$`#p)r-$(TrC-M3!CU*{D#AgWyhK%-;8Y2P?%xL
ze3m?_-bI~!fnty%ge#;HPGQ2ZGfhRUv+zG?+7opl{7>@83SPKP9xWiDlTvh(*Gyh<
zc`+uAS>T<ac>VO1cHa^uG|lG9nrINZoIqYRO=FtN&_w?f_e&4tV0bW@sonLFLDy)^
z=<9HRF3^qp!0;Zxdkv;uOZSQ`qlW_7=Qrle?#14`4$ytGck%Oi10Wz8OAV+^6TxQA
zQoG!kw-9XQES;;?yp3R-ckNjDa^68OETKDAZsuJC<6<*{Jp@-lQkA}v_Yzz!!!-os
zzI6)s6I?690fOr|OCVF%ov){tAZPI}8}bbVH&Uc)`6hyKZ63kR1h)`8nQtYy4FbDd
zU2m?cKIabpv>QP$UC8gF(`KZb?^kv61j)L2g0|}BDdY-t^Mh;c>$>%e>*ja*@=(eT
z-sVX+j~mxa_;hl;bv?1(_0EM&4zFkcE8-)I(eOD9JJ3b|A!{6HV<3h_)&Fm@XnD8B
zu&1d1-&558??GoCdPI}!+5M5tY6z-l-2fv?Mg322CF*~AEmQwf&{p;Trh~$24Y*pw
zA7rS`02rCdHUi6f(GuJ=QIOMYux?`ofG@HYz$OPUU%LnQoI5>v1D?o9If_SbbV*4%
zv3T;<xutWkauhAipI8tsbKEp@!;ea)NQ9pr!zJymv1$Bj3NHAZo=WtNULIo$0k+<-
zWKH6R_5`zMm5ea&fcRd%a)vD=T6L10ZQNl0Vf&h3chyKvy1s)h^(<&d&9tsaq%G~-
z`lX;r?ZuDQ&`-of=yz+1r_9-nl~O%RLOeGlaZJ+2<E{`0-C(mV*eFwWTS#x=a!Im*
zVAw%&vxNAejHEDm8FT?J>jhktq@8^OTER(t<+lrz%0PWv_z?&B*A?16B`%ZUF`Xyz
z15)#+MP<J$!+zg^UH2(p^4a}qDVTJkM4iC244t2nqV&|Oe8v8!<zKXxi!xn@KyoQ*
z;8XIK^(SOL#(rf-Mbttq^*YhV?97VPQz;L*w`C5vx1a)_O-^EZ)l<SC74BdO6H(m1
zhu<+`rb6^{9+-&uy_aZ0AUTT=BCnae7I>0D&V=#aZ4}y0UI%%d<aLq9ltXNTAoiYJ
zmLP8=e@w3opTA4cN%Bs>!$~B0*Eu3w!E(WWF7cn?;o3%x=A(X2b4v4{xVHDX;QO5K
zuQ~hsT=n~0+uv{l?{nwh=MMjb>-!0J;eGDV``o@yw0e#9BM#ojR!;M{=6&we``jbN
z&`+#7d@^&I-oN24Y;YGo(V8{dPdIoVk@vvYrSYVNS8p!de82&G@Qh|utFbOVb?b9W
zpL@U&{NQoJ^BPUpvi5b$YnBHb!TCpYoYwz9`<zzOuvm2~uoT$j2;QXNJPUqsUH`aF
b)0)#8zkd3wr_-tB5g1!LKh{wo>xcghMq<Et

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llama4.cpython-312.pyc b/model_executor/models/__pycache__/llama4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a24c7100545fbd655baa820ab9b226cd648f21ad
GIT binary patch
literal 30028
zcmchA32<EJec#*r#_j^USOAM-abs~TNP?nxiibc-A_>S6X-k47BM{yL32<@f?Scoq
zNaRGRK}U{&x+%ffuAm$>7^x$8Cey%^PNGbc3DahpeFW59z0x(EIMcXkGfR<*6Svd!
z_y69p3-Cd%(@r13?|tw4{@;E5ukXMA-sf|3c#_s%8gKjx$NdF;Xpdd>JowneaW^=g
z8{&8qZ%&#f%|m7r`7KGyq;<&3{MMvx$c8Xm(l%)yva>LI(lO~Aax%Xo>6&y8xtZUY
z^h|n(yv*-P`X<YU%9!7s^iKwc0+Yd^Ap7<t%O@*_Dkeiip~>)2n1y+hm6MU72=n`r
zRg=|2)y!X(teK1sMVa59tevbIs++7Is-J8aYG7f3WNfl=sFC@D$)?HXp=RbUPqs|9
z4z*6U4YjfFie&p_$503Jhm!Hh&Y@2D!+d43YqEQ&d$MP!XEHIAU}2GD@8qtbU6Z?q
zc2DjZ+B4ZV)Mw(%oDdQAzKcGiXXr6A_Y}uhy}|L-f_);XgqFJRT9mJ$#~EY|AfrD4
zazBHt1!Ub%fIJ|SG1z**HV6r=tasH43>{>#F~l|s-9pE^R<$mNu36(vb4Q<<8WTie
zYE<Z%o=RSeojp4;a6C3S%?ruc==9{wNP7I$q!7C@p1v4+diKJF@u>@^Mn(}Jj9<8z
zP9=Uwxy4Pg^O>|DjsO&X%kimegLs>#rr-w7CPyYm_MR86rk|Xi8XLcWFxT;PT9`_Y
zPZL1+$&0g7mjwRo^yo-(OGIjRW@cJU52vTa(Tl@WopBUkmOW37j9wI!++_FXlF3Om
zXN&B;Af$(dnc)lK^z4k>LSHB;H7yRaHVw~=h$G3QkQ}};EhhQl)cBkr$BZEWH+*3v
zeNhlmNzeGyczQTFec=N8EIW5`L=^Z_vnhcem_7*r$MXZ{2B*czxJ3>=cjj}SQOh|y
zJ|&EZa^QJkCOJMjl14L?kl^#vSGEEnlk(?gN6;;E==JF-y|<jy3UPXdnjYqbv60zi
zdRQ3%)M$hkM7er$<l3vkuqaH9%nV<;Je)#T3d2()lQbTIf$^*9Sy6a)?BvxMK}@F*
z7D)-O&C;+Jdt{V`;fFM-(FSGIPECtXj?AV;l4l2GCmY9sv!9XOijU?<+$sl;&!(qe
zP^QCKr8X59YjI>0{WWq;5QoR7c;Tw-8XHN`P|jSEBjc&znVI3q@l*=)iPd0I!2B6i
zrl#Wh)Q<;i@O&A&lfVs`utS*z3vUvv6Kq#2O~7%yd53U|VCSuZgSQDzV+iBWF>^Hv
z7<2RXH>~=4a`7JCA-H*`;2E<naAPLk^@eZA%e&v;hI|X$Rnt(}IWF#%UCO-2?2vsI
z$9Z0u8cwA#0aCILvx?e1J)54HP0Lo+Cmt+9OrMb?%}Bc_V8EtE)wRl6X@g7q$b<Lb
z+~Csc?!$2zQ^w4j-ZN_}|7A1B&0FVfX?54(xQWtySY}9Nop7k$l9$#>ZEu^mW~>?8
zgsTKZ^`=pZ@)(VTmVV59j=N<U{NX>~xrLp9AD@id#YQBQZERJ`j@0;t$?0)kwvAyf
zr)6_`TDFZ(rTg{(uoZw}8#(RdbWl1URyO7eruejo&MZ?uG0Db9g;a`;v>1DS{B&=6
za;A4?e5NNoB4Q2oT%CRV!2U~*3%$wlS9@o!r7uoT^<KvA(W~qY!c}1ub6HeAQ@u&H
zaV2K1$&u07RC;<6i*S~W+}P~YC@s;sMtzVIJAj-(eNs=ud7XP$#>Mxn^?VSzy=Svy
zP;#~|_!fWm2UT@%`)>MHCUb2Eq_zVaZHG3h4lnrffx6|N%{A<j8g~75_;;e;j&3v@
z$@-tjI-hueyg1oI^~RP+8>(!d5rwhwtE2jW10sO`Y`Xj^2LD$~m@t%%J=dKX?yHzi
z+F+Y7g^Z@igoYky3Gtq{0M=O&pn5S;Ohyv{(@<N;dU+XcSf6?s%LLVQ+XD!F%3-30
zwngI;5FRZwO{<hWT8k!Xw2<N(Day1jgB0~zT=9(*dfhVIL~Suf^G!5szT#V}15%f3
zp=c$|;%(2oJssDA0MV)Wi*JN>7r!(gP%tiI{yMh1Z<^n;yh|Gc9+VeRd>ohFt@(Dy
z7u#V5s2t11_DyUbXkVq4rucr({;oRK$X)N{j8*hvRQ49(G~X0zHt$g5_i3TUH{wy!
za8wJ)IFOTLV!!rXd;`(}$T}^=xF-Oij~iNWSc5LU0nwm+@tF6+G3{%|9BFrA4|1f{
zyX`^f!EHhKoWp<Q-lW9<s$cUL-w16ferdirY^6x6&!zM;S`6U#X#V1RhngF&B*S@?
zKCR_8aaQvc-x)ja!W=VYY;1nGziCE23}y#H4aOLu2L1D%=UsL6p{2B$v*#KP%E41}
zj)by_1MjfDIzEz;y{{1-q;78_WhYxx<H^~%vP6m@Uc&;zWa3WQqn)jEZU%912;!u`
zkK>?KkUO^;4|GI4f{a9(BubWLz~E+q0pS<{MwOD?{CJ8`*x~eyh#}!bny2UIoC&3{
zRJ=?s+fsZ=_Ds!As&z@xi3a3LJW5F)C+8R(xprh`CV7n=9XPdAv~79{SP>3?ktP^B
z*Obb!riOqXJ%XOe9$|`A4v6Hda+u1c>QC|1QCbB%WE*g1;DgR#<PU^(SoSJsn|e~X
zE{<u3hF?d8l{lpWv{}oJ^o-JZ6(!9ZM!rDbE{UfIq#Bs-qm=}bEr@j3iCzNo^1@{t
z$|^GM)X{REI5Kq!6;vY}h@cP}V+<mFl81GlSV6f_m&!q^Op=HMt-ZjL7%m{vHX-}A
zj1Bq=9i>enT2UfRdbwii(SDNy2&9~NJ?G#QA^X7Ci-iGbO9?62Pe7$0<x|5m7q6wZ
zB&*VZw#SHcxQMhLu-SrktJt{<9U&yg!~+z?W`tcGqGu_DX0aT8WTvyef0^Q3!^5M=
zkyL7UI7O$Zf(^xDuZy%=MOyH4<wd+jn<;|`Pq{Jg|L%3}uG4qjAvvoyoi+D@wYgwi
z3dVE6J}KC@V9(dI=4u|3Y93qg=OazINUs#>UGV-Oa%dxRWWoBTHy@7X!o5<s7a#6?
zOJA;KKx!FSux>gV?^d;Zy)0MNCsp+!(swt~{I#FWMf#)&eR}he=#BZM`CKF}MdBNg
zE(*IBYs<y<OR@b~XWiY(w!F7I=dG8#^~}>Ed0X<q%6xTQzOr`l#pM^W6|E0F_J|uP
zJr4t1eOtb&K3CN#Rdwd;`|^>xe03|qGvF^|E4uU17z)irc1e+44}-3HBt(nvS8@AJ
znii*XmAmg$?!Mi!;Q8p_Gs{PF(S3KK`)<z?Ox5>yA6__<^Y+~F_I%J-uy8KlrZZM>
za&6tY)+16YI%3mVmv3y%HSUud_t95<zO_vWZRyOl9F|%R(^qZ2sV&#EPioq?9?Bhf
zPQqW)a}?2#@955T9F;nbez5nC5C6eospDA+Zv8=|H6LxrMSG-Z4{O~nscKigyee1T
zEtPlc?Y-O5lWRFCwVb4e$9t%uRjm1}?Js64+F0cdN{t8eRkgXQ4ymexRpp@6bns!F
zzY1OPRj)_~^C)eF+5=ot!75LH{J24QqZU*0=1qhu%+sk+npTAnJ!utV!Kr7`2!(mV
zKy<9Im{}2mku?_JnVb<h0wTx)5=bqN!P@5S8GFVyM|A-%VOW=nw2nn)9K1<O4|oUR
zST&T=aSo^R1Z`;B9^P^ZXS^6itN}(m;ok<1&x}KFFUvP>9b_j>+{{QFowlK^C!J#F
z4~{q+wjFG~Y+tQGF5(b5JUMixil2caw<#O|Vp^!jnju#s?i2+|(@JUFw4-862ZKbU
zfs{?dvRmEbupP>7byFn2N8O!>YE4mdwQYs%Dzam2TD&qM@^iuB&Y}jr1>n>=oY%R0
zxG5Lzkis3SK`Gp|;LdyeIZw+SPs`ofzO{jk+7k-{_o5ANAG&#HWqu?27<M3#NUz;%
zZ2ea4JGJ?mcKj7=TvOr!XK8Xv&iV!S;%Th9NaM;usj_Fmb5GB&=HU9F+op}0(+g*?
zVXa(RnakGfSvXVha)D^pSyS+EW#w<ZeEsF+<9B>@`I`E-yKi>qY6hg5fqWqPz+#S;
z0obVkvt<CD2^aU%!Ae{e9IWnPVkyl6UBDqbJPeE_sm6GT&L1BIOXK1+FZNQ$+Rrm4
zlx)Ga4IF2BItgrHb|xt(hyqPQ*^)|&Y<Ct#`t+&0_^5y(9lm7}FCsKWRR1w$BX5D1
z9UsRj;xe4SdxOi{f(5h7b~GQUy^&eU6fE%HQ~fsh3wF+5UT~1l$yL@AT;y|eZvVpU
zTbb*b<<GwT^39jC{<!4o{MduI2Nup=&T_n8dDP}!IbGoJTDN>cufIKE4%?!vdsszA
zQ3w6eko*T=2yfxvxVWwV_z?Iu7TzLQ!K1N)M`Pvff(<+tyWkL<3J-=i&0%u@&&A5S
z1R$sE%MC7!2mif-M-B0T$5Y0e#%dT}#?SaN0l{ZPy76Vk;bT@l_=a`J&+nA3+&JBi
z`Pumj<QHI^p&&RzVcD-N5uMdJD2}1m6ePz*OY)*H!UG8=FL-&%7uMnoFw=`ddPMdz
zKk@j$Mv^0wBUguKrc>j@kr);xUln*B;i)3JD|-m59-bba5vM0)?<jFkHOz?c3z5js
zQJqf5ha3MH_uy~91K7qrDBsRKDA~`w+WrPCpVG4@gOgy`s(%^s2>?+%6*wbK0(M!{
zW&1-X4R5;C!6+y_9_Nxy>lag8HHkj(It=%6FHvCn`I8Q6sWfVS-j}feg77K!AQzpw
z*TPT--yG_o)F)*=&HX%`YQ}IlsgNJ_Gkd^hE8%D$l@Yz=y9E4B4DA$KQg$UP+h+_}
z0>|oD<c9D&QF=b2QMJ<%HPz<|db(C?L-7p=z5h`ML;j6Xx;e}Nq}5MOq@@FI+k;Sp
zGS#$%RI|qzinq++@Io2-2m{XGY{y)I@CvP?U3S}p)cTmFby_xK;<0&YOjy9^t=<A-
z=N%<5VJ&OW+T5@{<{9FB=-eFCP|r()r#2Y%jmk@?(%=B4kAxP6IkY?7r+op!pf}NS
z1O5*0OcM>k9wV;JdoE49M4TYBLFeD3iE3dF?FNP=8m|=NmEg)aGhT4Oz?%SPL0z{f
zPv`Zd=}=V4+bLgzR<k)|&bZawy~y2H!e49D^5o0r%Q8;PkqXQa=fp`Zy!h7k4c<?C
z)4V_97lY{2Q$+~P#|H>PH1kg6X*d^Ck8R-y8Pt1+9(AP8Xr*Lq`p#_UgO|Xb5X~7o
z8>O=M%HLIYPIc7U^i+oR@j}R<u8u(sviP14WCEf+O-LzwrfliwHUE6j%w>Y8t?_&|
zZdsF-y7(T$UTie`Gahy1D!|hWeZz{Hl<{HoyFoq2O;e_E?l(-oOdQEhEpKq7DixfZ
zVc!>&@O!^6dmx^G6p;zm)X)!($?lPK8f*ca#KMJNy-Ck^j-HBJm9yL;%z&wM5ht(0
z^^t9S`r3@}V^`ue9P4xz#~tdaPiMTsa`C69(_lIj(SY(|fQAexJS<vKj6DGUnR2wp
zZL*uOm6WVJK-IxxQkW@+30hBbUbbGiFgqsOk|g7h9ja83G7wR|cx@Px8t{%vFbklq
zBPl_A1Nq24aHyt)>8p@vT}ujcwghzpn*H-s$d|X2B!>{E$a;sFgppMz-X+r1RM6cR
ze6mZG74lb=E-9OuW-?DjhM1DAQ^0>@53!wIyEIIqGLa4;agm%ak+VeESWsnF4cW>1
zl$v3GP3aE@2}T)*Nk^U7@TG-GkXIulA{|c8P7zM!fVc>8qIjKh{t7w2K+Z2x88%`e
z&4_e@02P}=SD-c!I;Rv|-@yb~eS2hwR#7@FWT!UhB29kTu3}?MxJ!hC>{d8+G(|)@
z3B+pzr;P{jI`QiiisOqDX~&bTtk)|Pf^Lk08S9aC1{(=hWg0M6?;<`Z{u2sg<HXQE
zTC3u(!jT;qST->#siWC=fhndixu`VR$$D%wnNr9R;?8M=VDVkbX{y?W>?SmR(<+jt
z&H_pNJ4nXrIais+ak^XGz52P0>b>CNl;xw0X;PK1Z^_m7N%de9Z91d*P*pC}E`{1x
zt?!rJDw9HwukV&ZV5q$5%10X&=E$As(KY^e#=kwj)<bEk?w0S{DBr)}$TxJ*cWvHZ
zk@Gi8{^penlD}syc*nmd>)ey|?*Th0SKT93_pC*v>iw(|O$kcUz^K(G$<wrQ;f|*V
zloYB_(J57QuD&2u>|HnAsW_1J9>`W40BIG9E}zfU?UnGiCF*W%!-{ETZ?5^E)O>LL
zg4BF+qxKZ#UJc&O+y0w=6zI!W*4&s{np#PJYyO>isgioa!x&W^Qlw*b@B2q?9g!kb
zHH~Ms!b_1(_TAp~t!wXGyVHJd?Q^-u&Pk7*qr6*w5N%r7w|Zo~Z6kV|0;=xTG_JI*
zcCTADYN*@%`I;8?YJY;k=fl-EzOeL#m2|Fszl6Uq73MAkxIif9Z@A-cc<AGNp?q!Z
z?SY#E`B05A8sIYBt&HB7T$=pEW%HF4%DD2%LJ+*MH@y!-Ty<x@s+n4bc%;nL?viSE
z<r|uF4f~{qefeORxO0p>^-{K?{h{AkO?*5bQbsyh<GZ9t*DC-1<gH05a)|N@*6K;N
zu>MeRbsa>g<@I;U`&SO<n)gf1`!~?tV^VYfg5x7k`QqhVg!Sc9cOrfH+Qx-}LM2A?
z#({r&;9-#Sh4X>X4d0RvoVK@*+&q%6+j}=$wOsSH;e5}5^_TASoVxk)?f!gy*C##)
znpsZG3{x}xg&MA{^II>y^U_M)oyNhneYw6tsc$grtpBL{#D^6ff9hIreiW+BdjoF`
zULT~_!1V!ooxOgx;P8drm^d}{x#~^{orT`eI^?t2ist)%#NQ8bp-!+H%R5#pbMbx&
ze}R+t!jbzCM1o`IVzjvI(x}0dG4t;Cu=Gkb2#i=`Kxa*JfWtwnlWzD_pE(c60h97E
zZ!YR07?EhCoj^Hh@W_$&ux$^aUJ4vU%$5n{zy0COS`MJ1EraSITsSIr0}{#tjL||`
z1k=j4EnC1wV|%yknw?5P-9?xaa7YON7k`_ae@zZ;?kQ>_?OzHr%RfvSH*BY4NBdmE
zBb(S(fDpPOMY||i=YjAI&yr{PrPYd?!)w;uu45AZYL9IMjxX5mhHGxTwDi*Q>`Ln9
z7dOH*ou_Y2OW`9QSfuci3+{XVYIRdOvEgseI@=ZAN-J{SBHTw`DdhPtWB&vjmYYz=
z0^$0T(fdnhomwUUzx^>DVT7tkVJW<E=mluxlrUdW#yps>jOl7H(qF1XE;=Dy%pELT
zTgI*tM>-4FkQwl$yU<F}iO^ymOpt9r@Mxs#Jjg7gxrN+xg0Ps|yQ){4cRQA7utKyF
zC+LXW_MkKa1XwEtb+qqT(x<h}zC+vW|5t4@m<6BOHv6Zxjq0eAxy5b~4<TG9T1&!v
z5w39(i@~LW11DyUlXj1PR8MmgI*D4$p5`G~_3B!gccBhCVOav@(ngHURX0Qv?sJ^j
z1&DY+q`3pmJ+%JP;;+Fk{yI7Dlk-~?<$%<gvGw1fpxxx`A?K^){3bd7f}HP=vqsK)
zaN^JsBR|`{TH%u|z$(Ql@|j+fO_yZTWo5_nu-!``0Dx;ULLfz(D(!OWqp*=h1kOda
zZ*VH_zJ@loVK}dI;1ZWt-l$uuTb|zt_FT6wSQehkmxph}m*UIk-~Rl~&#$(;-+ill
z-TM39?|8GdCvWdrjBk_=UUw{*7IrU;fHnWt(d$REp0<2N<i^pZqbmniN7jNH6@AzH
z7mhEyM)8NQAI^H3aR>&>Z@89R%T3Gt+mkmZHv-)Y$LUD+E_s)qd;5i(FMR!_jX--Y
z&?^Oc*UW4EzjNl>XEp-Ia)BqMz>^;w|Kq3r;HizkSxOW9>GC=I?X%dYa{(Ny{U1E{
z$1nWB3mbufh2w<~=MCgM?RPxwtNrgk^IOm8IO6K~25`jF`C$3t&{BOa&@2U-SB`({
zsdrETsx;7@@uhKKe7jdhHYz(7JV0G<oLM@v;@JpwUw19o7fpG8c)_QL7@XsQc8(hy
z=VEYAof;HV7@K&xn8r(-CFe3Zv?3XCz^09Ch2mRU%upchLn85%L^^OqH#uj?p|erE
zN)DS)H0I(wIX?@hRH*Pe1(NeE{7(fi@(?Njp{i@jC-&sqyYhSX<-;{Vnett|`O2#M
z(Fv2yeJ>Cz*vJE%xU#z7U|!(Bk%EhP-CP6`7v}YH;hKVvdCRy+bh&TEvb>*AU8%CG
z;Ai0huBo*UWZrTv5?|dbRrVGt*msEYR}{j`TS?N32=i8Pk*1Y?sj{O`&Aw~6V5q<<
zR;cCNWuMfs&=)OMTgPhn{n}f#1rFZz*5B{`PWJ=y7QBtN%6k=6Hx4fyF4*8lJF4oK
z{KP?DPRK{zs=Z$OBNx7uBbmBr6#w;y`kI~xx8anktCFw-Dx*aa2lTF(_yX@SClgfI
zA*cXfP;eOO!a?X^9PZj7T+LnBA>KHZs_N>58mo24&4d*mrpBsj3iJ!3(DxP3l0xrb
zQ8Pi2TrlxL=^022T-rS!48q+eK5%arA7m_7O{vQNUrLBYtO#r$2kOWkV4MNXUwmWV
zH#l#%h#Yi0200j<=_o^+7#tuBPCf{!Ek-9FuqTTVi)-GQ)=w-FNf?%DnW!(eLh~WN
znC36O>7)bG%*LC+{I@cNFALb7)^}B=I9i}%M#!P1m{RjW+|kbwOAxm(jC+h{LU`lU
zMPUTaS(jK@$}DHKv7<H)4dXy<^j@CoNz+-&o*nyvXoGDJ)Bw?1J#UxB{4C8oO&cbA
zP;0$JEeuqVWnx$HOY^<wE~zI?6ZZT+$g4)n3+zdc!k#=e=T4B85F=CK-l7OmVTS!w
z{2xNF=6s1U0lXgd;D<)S0faLCqWA=SAg~yB=@^9`Cx<Z;8C&rn#hb)mqF1zpu{S_q
zgXDaf9F`zPzHgB8O*pu(k(_=N{7%OGQ%d*+ihP5dUnJ*sIMCXHEEFh>%1Bg1qAc)|
zaBcYVNOD$C<)kjXQ{-x<Bb5|JE(@d_rQSwJrNO(SX)Jq78?5M%8L3qz6;_`}3@h2M
z@K;%NiR~v>f!1cUqFOaQM#I&L-8hB}N_t{zJ7q6eZ+a~i?%Gy-t(2=4Rq(aaU0G+W
z9mS!Y`ZYSa!C3Q_FxKt`BX@#FmJj8keNwb97d;|Hk3gTRsKiy`{Xr=cuC^&xyIZQ=
zz1H$OiEk&Q+T$NQCuv+Ojo-%DN=)~wO$xU`wIfoOi*yoO%A0TM$Tc04nvP|i4L_*v
z$X9^ZrRf}1*5)dANtL_u)eX7oKB*dNT8+f_XgNeKl(kCKmWHww9S^I0HN+PxE7Wto
zik!Dw@^-JjCV6*#%$a-xCa{ri)GyVqG)lqdmCL#IrzHFZp1QqT3Y>-Jh%0>G$$6{p
z#^U)}D3ipNt5)i=k=}<kOJmtW|A*eXhi<MBao|pMOSRps;!j9TPk^hKuZt7nQ%vJ?
zP?}Ao32?D?D(ryNeqjA_?&$N<(dRcC80W3_Zbz@Kw6=08*Ydd3^7uoGIgU1b=xkMR
ziQlGq!LWHK=cLAYXp(HX`C&yoJ5BGv18U#$dMINCm*gi<{qyFj@J=upi?&lS+C|BY
z%GmbM-IDi;YEdM*vuy*xCq#Ni`RS)?F-7t8g?boL(fyFPc@Vpe-U;B){0Afu{~bAh
zM$VtY*}}J>z7i!kTlqFjZ)UE>U}>nE+7((EgeZfWDdW7MtS6d}v@ATWvm@8)HfoPv
zAGp`nnQJ>JwH;hPa=T-r?VRLoUKm*3k6HV6+0C-G>f1fbWgAs5F8F{aHn-=Rj!I2O
zKk(hYy3zEa<ZOV-(p5IW<5E?8wP&MhKX{S;+U1K`e_Phsrl9&}hT9Kf<4#j!ipV{!
zc?FqgX#O_r{fiX4Gxq*R6iv<()Y7lOL)beMq^k3siTkd7K-I$y1smR|Ign%r`9N+p
zuI!Zp?F9lLWuUT8Jmi}(1#Rs*S`2>)T1;O~4k&Z?Quj(oDsL^gD9Bio=tmyJDRZ4F
zH;VuIqoG|7{t7{*crz|}S$Oj|%&KCL4T?c_!9u6%m|ex1%Z41lt%JavZNQS9Mw%8-
z7jg?W!DEDCsj5Y8!6(=#Unmom34TD^gn(chvr-rf_X<JYCj`gJ__8-_L*=|*s9<o0
zB`UeHbUrO-C=~^OSBDs09mbR|mp#ff9iUru3Y}+Gbba0I1Q}*xpaZCZas+<}-zWx^
zJ+x45_|G<l--CxxY)Cm-<W|RswQI!C1@faWf8=DqwlmVnG18nsPWr-6Yop6uhknaf
zTd`GOLxHBINn@^<xNF=k^WZH@3A#aTjl0Dn_V5w{#FOMaOU}#WoF?ZLa?X%L>m+Vd
zxFcJ8O*u-byNK;kdWeQfhCn|(ze+3Tc|haz#3oVOUV2*QqR&cErifd0&l|~k+a+&%
z&f6z>`*PlAB=0ktCh$YMcI>Wve!cSc>8!KrL+1-@1wfEV!ag6nxXEjhVGk+eLy}0O
zydI~7$zetFQn@Ax90B(UNJMEHqsym?>XzQ&s5cEAn-~eWxYKO{C1Dr$XUs;^gEuqf
zgE(UK;YWJ);VryXJ16GNye(t8%!w6%rQY23@VHV`#M806+xodh(<|u7mvMg0JLg^V
z?s*T+EiY=*lyMm;`|?hmqef|b^JVjXC`I_7=;6%xzs`Nr0vf@IFV{EC^UjP5^)ZR2
zH}_(~>U3DKT8MY*wGWgi`a<BZg(LMjq&DItyS2KcNO8jm!lOZm=$VX#)nyJeS%4P*
zd@vI<q8{hV(f;4$y_o>|GL-S~zRR4dD(2zKR8<f^6fpwx6&Y`)g5~8cDx?(^qUT8w
zti0G>&6f#L8Y8O3i2gL%80W*8@R!bK!ccIAqKFay^<A|vBkrjlXT&r0PQ<i&7T;Pw
z&R3$vl}d{<mAs#|qqzvD`Lq(|-BTtPZsTXlp;Uq%h5Cp4y`ZMB18USdfh}kIlL=_$
z;f8<tykpVy=4Y)?&BnG|G185R=T`ZnF}lti!v)@$vI6x>?`|F9xOgFTQ2(NIw7L(*
z&R-OmFE%|EgU+U!GM1i>(YjA;NwH-oP?9S8BF5k)JB0#Fdj>Q=p|nAzDLTn921R$O
zQ-*~pnJDQ~LYfkeBt<BpTw@g!_#HDa+>Dfr)SZbkQ#-7r7O??bp^d#NY-u`m*acyV
zlrK=^tJh-Zwp^=EOpaU<)GImLw!e<})^@SY@L=o(=*Qy1KI`+XgBHVm{TPFafh?Sk
zjl}5gIhi(KSJxk@mZCi$n-*EZlt4{MYtX92fK&{KWlVrNt=izNb)wdxLQ`6?sn~gO
zR_IoHSl#+#sf*LINj`QFR4V*X^hf_~ol=y~=ZOGTT9oRJsdw7Or*tnk{I9Uu;BL9l
zJ3G_MPhXjek&aPpWQu>Jb)Q#rKr%gx@hK$-ny=H;i>X+0{E`q;?pXb#rkxr|rv9;Q
zGp<acxXhks*WtIVH0sRQ_}I4Y98bljr>GCv!c_)0MSZ~LL~${1=@K0bb3|E=vDEA+
zT_+!#O(w5($5`u>Ub!-!5{jL1>W6f0G7<C-{}(Q~|2U)$Qi29zcy@;AdHv8#Ks|6|
zQ$n^Y#X)U~U3Rn$vzO({?mifJFkjh?|9v8%!^K;Ox6HDWE@tq<xGC>aih%cgyaM<H
z={UJyaA7J1UW6dqnA(o`yHpyaOfyN?>kymh%PCCpDKh0D`;;m`vxm$_h%t(_GsH8+
z$SroeM0TqMVPVUTDO`6K#A)30NHRtY6IaQ0<%*wd9fuZ`Y#HJCctpX%K0=<NOwNBI
z=Po(lCFeiGkzpbNYEEfoRV&rtWjEU|*aZvOqt=l2Q}Mr1y1%A$!71U23a;T!He5u6
zrWO-|Icdhzr|hSZQ?q9nmyKmEeoVQzw7$Hmu%aGPV5syi9~rG+_5?@^mlmMGqbLhR
zs1F(EMs1QhndX{H(aRlxewDDze}DsI6IZGlTC&dQeK+R~F20frw@cyn)!lc(-TB&h
zuC`CY9hnpB=8f7zP*-ttfwt8UG?((Ro?NU?iuJ7>U*D6B^=-tSSoA$~az~ywNnVJi
zmOU#ktvNxtH72s&I<P+i;d>o@xsC%;$AR_cjgBXzK<lDy@wMfSmE-xwwiU<9YpYeO
z?reSEq9-5gT+XcS%hv5#B!V#zU1^d0ZTUbIJ{p?ePTowe9$I&A)IYiKEJ_TtucTMc
zZ$g6#03a&Eq(ZZNVG|W?dB5jY&$?r?^H{#Ta`}=}9tX_5P{WE}3hi1r32{=cwpXg{
zT^RVjKZLZQ>g8vpimrULc_jl@RW{U@jrQeRd)7jCS|5AIw7z@snLMf=mpb~hp;j<$
z>UOPJH)<bSbmi+BnJltes_V<u9h2&g<?5c6>YmQkos;U$ExPj+b=ivez3S!_QL2uA
zuR3-!^7U%{6}?%Wt?kLx?v-lyZd5;3aB<;y!OO)DW)BYH1|G`F$M&v0C&eDm#STlc
z!|3d#XV4iz;w$-T@&RZLHRb~i`Rc}eP4g!nJJW*l)#SW&lDBSodefW0ExSA3hQhOE
z8ll4TW-id2bv7xafkT}-TeNlvv!y-e!B>EFe>rf2y8xX2*G$02!L=#TyrC^-+e7#}
zuy#WY9)uc5_Hp4~#qH;<KOt`i@^<jfqRKZ+J?L0Ca`$Yj3_dly?Om0Sg#iQ|uh!x~
zt(ZVLm|r;q$^mWqN?;yBsq4U&Q&!$XZ_&zo!TqwatAGabnJ-;L=?39OS`gQDT=1%C
z-X)%aG{nX5Pj_0^+sL?iUpl0<Mk8E7%Qz==6@4wX*hUSP&p4;787E)Ha&-b%1&&&z
zOMs&~CMas#lhJhxOx&Aa&Y1hTS8ky{Fc0RvL>Faz=m`^g#Ls%f^k(3Czz9$0_4c9H
zf~*(I0a>@LIDBS&8LvhaeI=0Aarf(iE!0x~4&{_<V=DU7jau$VYcJ+`J@C5eO+I74
zuFyySCq3*b_B*4D+>iF(lpdBT)5d0}UM-Hci8FyZeRD7Her}>!t8ej*nmd_f%nD{j
zg(e{q%}6u2L*G!`%UGKstW7^3X5+G+*6ELh04xPnz5zP6|B-bd{>D$!D<w12!$+VM
zN4o<aT>GqIrJDI_(2q6qWjl;jR3ED+Fo)Ze)TM5^L;Er^O2S5>5h=ShsN$QiWwGUm
z)g@>pv2}dCHXr8owSc|`W9_{LZRas@Q?5tH*?66lj_9KK&Dx))AODeM463wZY%p$%
zTf|>R^PqtL8pHEMV#XB%FDZe)za>!7{1-o9fj{<b!4o0VV`w8`F%0=bUJh)QutA|>
zlI&K(DcPli$u7e5SwXTx1%euX#ptD(G?_1hfiFUd7z(5W>hMZnkU^>`S&+hNBL*A9
zb0t`;av#|$dQc;}|H099I+Zc^=YXCIDi}~Ip%-zU;adtG%TtTZXv!t!!UTM(p)$tn
zhq4r1qktTd5JVUj^8+DPtYj$ga)1I<w2;BdWmooWf$-zI6kyJ&)kx=^B5!t__Tl}2
z=Kimk&R{bjCCXR8I>SA5({=M@?w^}(n6UM_t>91oE6WwrEz{sFvWsR;?7|gks;JUc
zgyp7a0cxy8*>#vG+N(3-6LVdUV1ViYpE%5L&D0YK9rz~Bx)jNI|L(6C>ya}j%0D{L
zzj|=-^h(QSsO>w^zh}~pUnmQj<dA9^Pn8$~0VR&01+53|u!qqOvbVG&#Cyn@Q7Pj0
z$@gF3#H*ME3b|%yDqEQejLZ6OkpgxyfQ|DCR?V0TxU?)Nc2#6Qsl+N*OIiPj|B?!#
z6H-i&^Y`T3C#OJ86FH>uC&IWS^w>tGt|_{2v~S2hc86mBu&{TsZ){5Z?*#WZaN<FQ
zxUf;0O5C#^h2g+$tN}U1$b5}jR%03MAxBjlozVh1FLhX9r55QFMz&PZ<i;f6lsWuA
zs1E;=oWF)6dy11FC9+vSY7((+&oPBY@G|sY9sD`<N(5v5CrV=~X%6&bHi7s2vE9++
zhUPeQ&tk1vXDwLDjlH?pGg9oCe5{N9>f4KARI(z$OgDJ!jYw7Zu$*guEZ6p|)b?yX
zmSE5@4pIHkWot)tGc1uo_iAr0x=V`g+KBGisO($t{Gh4z*I|+j1+{cZ-iC$##U7yI
zDw&bp-GAFE?LG??uxy|u-|=KN&`LxI?gPXme=O_o&eu2P>U*X7-dz1rss88(){Xj;
z*}%y~H=KJ_%`2y+s@_H0-B|moZT06ik9~F{_PIshz1BUs)_qdzzKz!X>&Nf39$6ar
z;7Inl=cOmlftMbvzYpBHepy&~Wi!wRlW4g>qZDXd>D&zTfPi@5<@TL5NrByq?&UM9
zM3jJ{;ORcb`1)QcaWo&QMHO+CVPI(>+jMX<bm#-m?X-049N8E+eDm<CXKiRBdTg;D
z#7n4ab?;hevtpl;2wHkamX54MHY?(HqkGrRuOHfoKDF47dkBk}d=**xsBVGESylYe
z7FEPHTMpnV$VZ{ZmDbg|4?~ZCU-7LwH$%to>5XXF47AIEaN&%JT2c6%iCrh@l`49n
zBbX00=0gq4jpu6;1s@mM^^kLf%I^oba9wGAai8F0x2>Uk(E~yyR1aBPMeBRb57g}g
zmJAZ*4>@yJIeMqAW7R6v_AH*f+tLNO`tr|h?m7v8*2={J=m}IcEYD{X{T~RMk+b)@
zcCGc_I`Yomb$;22d_h#<qQ`1tv-W^aZ~pdd?(x&o<EQV$PP4E*Qf$xK$eq~Z_qq?{
zx}TJ~pZws&ZSzL=ndJcxN7Zd0@>Y(lwR}*O{p{!d)?%)%xsPiaZ7ag+E1Ok^?u8n2
zp;jr>y25XUy3i(6cc&iy2&VD2&xn@)2=V1}R?OVO=d4_y4hu$+vzpGwE4PbS|A-c`
zhnx(pWGfT3Z4<Q8b|(@kB)dLCq8Zxl#2D>5*5o+&3ty!8Yvjz4LwlG=$AAd4vOB0&
zZc;QkzXXufU&2GeSuY7^dyjwY@z`E8q1BbKf`fTML5B)1=A}uTt?rUS-Jd969az5i
z{c|Q;^S!cQ!A2e=)l?SQCs}t`ZeAAO&fLsoYr3RxcfrLX+*}pZE|;zrJnYlU#adQQ
zt~Rfx)}CCi$acaq%@L{LiGq*CmSKe#SV6e_<1Tv;WT96rGiF=e%G0Z#UF%!7F@4{@
zeyIocW=<72in`r*JM|~~f5iNX+?U!tivRjUVk&wb{1{HD+*cuQp^j#`VCJpgFb`RH
z8*l#x?7_kKgOlX4s?p6d=uDE)O$X$*P8fl3@;<(7%+C8EX>~zb>>e{~X<*C&h9as_
z65@l9;d*(Pae%bfCio{}2;TN=k>Lgv=`dutWXPeM4?)@-HckgA@lVJT<yRt?3ML5-
zLF5pTRf{R7indmPXW-5v;cc>A!69Y4iZ;U1GW2@kKxN`x)LMjDWloVFn-od$0SY|`
zM@M;Zsuab=F9QBk#Kkm+w>?x0J?vf%Es1Rpq+{Dc=+lV1pwS(m&y3S(lcFR)MY|BR
z{tkD7GP;CvhdjL{nW<hw0X6s}nt-}Ub;7)&+9Rkl_i6M#39@0%XB?b7RewK^(xBfl
zfR|jI#+6z^kW^_0S?W-1ddc?L86HTsTr+(cTg*5Qb7_i1qy)xC7jc#Ap-Ev%wjd`(
zukJUIc~Jn)R6pc$pk$06$&eg|ra^g6AV_^~$Ziy()u2JMDa`H+JbD{ek)RW|h+#LS
zB6L;RreyBwg7iNlWab7E0hzfMj^)BVQn)7<eo6{IwGn;>3S!RkoU>YTRxfwuYW7Gq
zdld6Ko6f;|osZ=@Pe`37a-E-%IzN*=_oCGKA}&MaPd@v{U-*MB<h`xg_ER{xPMO>b
zo}4o#Ib%6zr{wJ1be_P`sNN*S4Z+n@n@67`nS3>lKo@DcxO_Qh19WsgbT+bmNnazV
zXK{_>QFY?8L6w2R*~7lDc9aKZF3Ge9goWE5qj?YR4VDP*$rbry=CoT&sZqp=6u1<|
zNWCJhbGGz!rZ;y%CT}p$SsiKhZ+nb5Va7Qa$(M_(_{}6}Vbkk_%&4c{9`;4YD|^_N
zUN`oo^ZeMC-X8Yl-;z#OA7OF29&)-xgPLg9e8qS1o*=Es5)-S2Ccw1TV62NRAX6`T
z3$U+r7IW8pfY4h7h;A*s_y&aDQa}(9wCw?e-g-dn+7^vZK<GUJh&_f7dM^QDuOWoq
zb8L@d<oH~Ca5|>Zrzc}f_5%ST3`#;isu+MzC<38`Lib1IGL?8z=@`1Ot}4~S_9fe$
z#0MxIHV7bE1#JfF;%rA!BuX@9vK`7R5JD;9r81IfmgK<<JgQ|d`|T-3?{~W)#t^03
zZcS0Hp-@GH^GIAd#ci|j$ihet1OieiG$o#9bwqiv@-91I&x{!Zuwc&>X(te0C5O-$
z@eAbq3^_y{gH1#GD;Y@}nS@m@Y87lN&}9jgIS^xnp!hg;khvD6+e<giN4M<n(e}9y
z;INujA0zGB=)Ia+XukS!sR;LoK-LT`4dudZo6xpBdA9;M@n-Aen-%-B-u>B%{dfJ<
z%dpefE!A|tH~yi2|GoO=T>UPoeix)VxJl(-^5+6=QlM>RR?%C{wI7$-kAE0AQSfk;
z?W7$U$$IMZP0gg@+Ca7o@ovhuchDR3U!2~p`9v?hyYg-A^lsMQ@lN_~yX!5do6gzj
zsSmwRfxcYfzcu~N^hVP@iY>`?Pp-XRYVW5|<PGW6DXHTWeW8Q{xy18Q;(7W)IlFUh
zC#1F$^o7#4e8u<X;!jKQr%91l(XteuME{BX<is&NgT{Age+KdF4lO{oKN+SUrRwL9
zp%B0-51Fwko(|CeF+2_Cu%`e{$EpBjfa4gc*5S;+Y=eZSxQAGbq#8vPyOQ&u9@vt;
zvuHI&Zn)o(v6dLIGT}?#^-woD<F`G4DDH$-BW)ogxr2r?f`!Ht3r)l?dvNhGWh~gJ
zkO4`y-ozv1qm4r(t<~aYp)54E<QNBv2Z$V0uq90?1d?e@>#sQ0XOImHflLc2!d4m1
zqOf6NYU1tt!!XFZ5g=hBb9)|Lnm;McKhQ$GiGtV_Nn(g3B!42i=j<K-*{t(y)_*qN
z0`mzlf12;?r+0h4^}u?6?(lgDf34>!sA>Ch-nM%4mC;;f2X446TJpWmELt`L-TC+t
zdbdHbH`m!Ob@tO&dp=M>x6gBd9x2fCVW9WE535<Bz?cT974_5}>KvMw59;BRngiIb
zqlrtcIe>sOOH`buiLK+3BIUeQ6I=FxEerF*>`<7id$dzaq64TyiWq_Hwn8Av@V50i
zD9H!h1wz}D>J!Iri(Hh}5v%?m!n39NgsEdtwm(MLnuwe07hnj8=Zg2&p}PnP<Xe`v
ztfQ6-DDxHYFqxLTVtlkz*HSG4I)6G9vSfa<+6wG&o}kT!dWpKx({sq(gq!{NwFb)-
z93q2rP8jv4%Pk3*oAjkFjg$Hanf4b_nC1;Aj@|Q-E7Icv{elTjF5TRpTnmMYNf<FE
z`#37^7wSnk_Q;+O<4b5ug>g^q#CZh8@e$=p49{(=g{7FQe{}3hIhHjvc+*G>!w118
zn6kjN(Dx7BI+W`=eW&a6^68t0v!6MS>lNkh1^az3*Fje;D%{_1PvD;HqIGc+$hj{F
zJGzp$XO&+Y_|SVI-=3h08iD&90Ez!tne#VE{-%}3H~d{$XV>39a3O-#^}X8Twf18D
zx9sk;ld;)x74wGJ3%n_fAmuTd9lSZMFAm<4)^|cx+1&aD$(#-KOkwm5Wzd5WhwaL0
z_;?4&!Elpb`*zYd?#R`Fjx-zX_a(K{@k*8{b69RLW}AZ1F7Y$GD`REya5ufhCP=a@
z8S`~xske?D7IQ0FS)jR|G1Dy!-lOIT)Beb_{!{Zb(mK^GHx%=X`vzsx6{rrWceDJs
z;#4Y?cx1##=Kf$Ey-6I3>$Ztvm35!d*kw#~|9{@HLkfLd^-O4_3{ShXemWbC5sd;f
z_iHdhiqT`<%uL8x8KfPfZzh9$^VX>YKe0T6^P1&Sn=y+uNWF8JmXb1Q##xjykw(Y+
zi!CQjW%L(nrPPgXeZH&qkdXxi{1AX{R(T>^%t!N;?tNfq!Ju&zQQ}{~`5{d`T!R~<
zfOp6_O3qiwVNxF3EL1V~i<c;%8KW*+FOLgXn4m}eHwXmVg4k8!OXLg@fP=9p#x*-s
zP+w$-ckx$W6y}8NQ1`;QqmS-ipSDdF1#>D?7j1BVh`NA_0TwGvlwVr9l&kEND#_{-
zOfx+NnZS)NE`2c<Nl1~z!qc>61>d@I{mM65-|o8Eb;sYj+W3C^t@gFXTb*mK-Ab%K
zeW$aZ6q{bVd1T26`2=hoIF=mWcq|u9NYTWdK;olNb3PQl@zl~&%g2{auaqx6yK?nT
zsP`Vyh&P{DBwa3~u`k&dudFy$A7^ZLXe6x%*Pq@9ocvy}W~q94_wvZs8on2-T8b=3
zRysC<T?L2LSEih#KcMa=dR6>Oa<C(DkQ!bRdlk=XB7XUd?qARlDK-PHk&p4Yf0ul0
z0BO9Gk^K`2yA21{>;&@bCyF>iSvr6Pz)W&VcInF>=IdcK?ef^n-Yxq<iq6)bVF;T_
zFMSpn%q4!hF>IwF`#y4_A@f$b%Kq6byUNeO``&1QUVqsC3B3w?IoP7;T<Tmt_qE;y
z2Rb%fyL<xH8TLz|t_9aUZ^hz?>t~jqki79b-WOLVbBW_p;`kqaHh1zx34e(fiMLb_
z>4rBfRrSE4*y5GzKey7cdO>P>?4wva6W=g%54ljE6za=|;tw3w#_~m9p$dHU#aFWa
zCg^?@{4lJs99e2ud3w!(>w%x15(cdGlx#fX;cfB_xpGDki>m#u-54o~JjAm!Ohk(+
zB8+Fr_eT^KC*O1A(BY{_Ig0au<R6NFgT}?!fJ6_)kn<;m7t>sWl;h7sFss(GGM=s4
zb>C*Gw`Z+2nE5A6{ict(GF#KiT!CKeeV@?l<5<1z8B^hy$#2_rufDNh!y7}>+EH+j
z55^eE9=ON{DF}&9?z^1oy*9jQao}DX`JB4c<N-kxLM~hP4l)bGC?bmo9K40feX3vu
zZ)B*+Rp^UMK`f*ePu@7Y1k^qzxf*|jTXW6I%A#h+56h0>VSaiPX2JcV)A+49rk$Tk
zjJ!I^I#sqq-UM;IVyuI8E)FlKS}+Y>U~JHLO)(oEavA-|6WLZ&?iMRn|9Z9tYD}6(
zZ1t&W=s=UBERFI5dhEC55<KiVK%spaMG;d{`8}zG`ZE(m60+GM2UtS<E=pP)f0ce9
zgZ;3FVtJ7cEH$0NF%kU~(!!E3%pX*m@{3wpB^ALuC^JR#;L|`E^Msjsq(e+@{FGc_
z1slJyClXSk{9H(gQnY_c3ik6d>d)*kdnt0)r$DO~F?Cd%S!a}$aoE;Q<x|0|6Dq2M
zpA3V!M5YKqWRBcwR1`~?O0XO2V^G*miG)VVu}^_j@~xp({|Y&^<d9~cNCcg1Q{oxX
z5TnpWa+=5?TvL1slU244u)SGqp^(?fVcWna`PfQ^T@Fr}-1`tFI}f9x*vy|0Gl;++
zm-=%!1&hgKy5Gi`PMQ9aYxyo$`4^n`yIknIT%3JA`(5tH_qg64nXM-CeGbkiZq5X-
zqu=HBZw-9P^j+@QkIWW;I62dk`0D>J+yRL@@FTO$WPZTGf!Np`UVL%GRsXvEp?%b3
ziY}VT%FjaxyiC!DXD#Q=rpm=v$?ncWj{Fa&tfx(;_T}=ot8YROK>osznKMTon&+&h
ky2Z{19KB)b-W(~gpoep==gp?(Y*k0L^WY~O`B@+QZ;TjgVE_OC

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llama4_eagle.cpython-312.pyc b/model_executor/models/__pycache__/llama4_eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..133cf08928a6e6ac52095c35f9ab3536c56bc77a
GIT binary patch
literal 10746
zcmbVSd2k!od4CJ+0*f0YNbmp;h@=jP5-5wZ4vUgyU6xIWwk%n35PM(<yQDxZ4()<E
zC@@h{bplS5ikh?$)g&W2^^ECSGtr;&Uv`^L#+}Y|xF$V-H_{|&lFqn)!6w}%{-^!E
zw^#t8K_}@O^6k66_r3Eweh>fVa@h$4iTz&UpLz-TEoO{hDJPb<GlbkG0udOAB$)`q
zVA>>^A}0DZC)o%~%ghp&v_vd4%}UlJAK_`5lWa+Q#7@%|$&qwMoHT8fTuFDtP1C&O
zNqQq*nzl&|$;L<{P1_}3vMJI;(+;UQ>5uqn+9|apTO+MB?ULG(?UD9mAQGT?x73mB
zjC4ZUBY35*WOt;SrW>SSa$RIyvM17$?2Ys?#6(1=*!K?14?|?VXfcsziO_hR2tJV=
zKdzV8#_yQ*+&ksM$VN)h1Qg9;z^ILEx?&3XKfyL3M&qB$igN6%B#uC)S((UW(sDMM
zP0R6f(RezUNk}48*w08(@=!W8nizweb4<)eGnwd^oSw))-jPTpvQa5LHYUoDwZ3%X
z)JR%RLeg_QJ(kESFUsk-s3>WyZ9F*<OJx(2v1}rps&wf(jU1nOp;F*Kla9yEz8I5Z
zk|at;l4nIhNTiT^vmlPfCZufil9(7fhkRoK@HJ_T$E8>@w&SoEPeZ}+*cDOM8uYTG
zY57oWLWxPoPe2bo@p4v<#eo#tL=!1Ny!;8SGY;>Rz68n%V39bH7GhG!tTj9{kxhS%
z@>7meews5GyK+{HW@K?Raan81=u?b}u`x+34=rBa2l{c9Gt1urPTz$yE0PE!5ICod
zU=qv%`(v}fiDtnfvVv9Q1YWcV=1D6df=w`w+Vf<T5$xC95v$-3`SHfuuJyEFt6x6K
z3eM|n#BL)()0(t8Cs+L*1os-{o;AwL;}+K#X??0uQyWZV)Gm0ha}lS|Ai98_{i?Ru
z9%k(pSxU*m-C!dgI?pe!phfUOzur8#%tRVakx;W{r)LAUSd=s(o1n81*lJ68N8L&`
z1~;L6L<G%w0naVm3A_ZF<04#$az;k(ayv!=h%}2VW+&uSynJ&B3x#g@$J@F5Lx}&5
zxlOW=(ZjSgN50PyV%%DW<d|`!Srx_&nO9Rj&evqh$sCD7Z+gg)apT+>Mexm;bL=}f
zUkJdBj8i$Q=Z$zAN4zRP&u|{~kZmwhe+hkEPIb<5wz<+f+z(@{_e_QigONBYEtv6E
zBVGMYaXB`}M4d*7jbw3iXc+G>Qq^y^+eoi5pP*4+{Tj0QFu7@oo5o1o^x9@ZrYzZB
zqfL%^Y$oQMC1;+5${&%Rn2cG~=XZ}a=6cI?V+#v?Pgx9pF#F1y<+$2eW;Ym|$MHO_
z3ge+w1(2=Jy{>%WCgEKD1??^Oti~K*#FZV*ZZ$^n=l8Wn%dpW?^?Q%6u4}Y%F0R1(
zF?0<tkzVrnnq4B7&0i;%n2>EmbBd^FK>eK;Q_9;6z1fpiDg%^o$SmW*p@o`77X+W+
zH987<gFTywDeyIm870)FaiB>-{qRxHE}$EuTBDK?;}a5Sy^EqDL>dJ-HkyqlQ34rd
zwsWI~SXl>MYwZ_fQbLGj#b_)gL?<#dSr$U}i>M=`N@7x!@t|vta|uBZQ+i1gjulU}
zE|pBFlx7EEHzA3~6G~R&<XCD<)EZI~$!M8OpQnsBU$f{LjiaW3W;vcni7{C-jmBk^
zIhs>WD$x{Z`6x_SV=)!tHC7R&(dsJI2*u{KoES@_Vp8-mIm#q7TQnM%Vu})tD%f*S
z57)jJ8OSCx1DQl-D+pq+IJRD%*tKW(`Ca0GlsG$(xspAXP7R<K9?%z1ybKErqt&y@
zfJChUT_J}vS7f{zlfJ6V4;y=f=TW%`()thA$cmTP+|yQ-Z(ZWsi~e;5{|?o^qu_s5
z^*>wipH%%P^Xv^rk#`pOjVix!-u=M2#2+cPcirv3(_d)crnYZ`2A+o<+lx-`&Ee_c
zg0n|;_Ea*xs<Zc@uY1li?_TunTCuX7_B^}9x0T#v-IhXdw;J5Nz;_mV2l9?3K3Foj
zZ2KOzcii22XX}caboI{dcx&$)dkeh>)ZPP2ozE=0tPPEyI!V_-W|moTkmilWzJZ6`
z{qslfk3ERJA6ECjxUlc!!j6{~yH6Fnd+%PobM?QiY_q>)N0LvGdf99Xxbuf^43}ET
zrhWP0C1>Bm#+KWgZf&|faBJYPanHq6=f?S_p9S6y6ha5o(1G_SN@n8gStceQ%;JW1
z#X_1pW)I&TzB63t7*sn3A2huecsEekb5h-Na;fR1Jo|myA3y5`u74=`DYuWDeP1YD
zu>SwNciYjY$<O--jy}czOS==&zj%tn_-Wg-yjim)QkjWtG$APQvfct3U87R1+6S52
zD4PtOORM!L#~5<+6nUEgGnZb9kV)PJ_3{uz3icTc%6s9Xd2|s_VK~`db7WT4y^O>@
zh^~>M$5-$KRZnoPZPC-e!1pghG0|+9w30weSJ7O?<;=ouhAicvL}`~wyrQy!3Kcz_
z)_*|)ro~=s_)}AxVxa}ntP0smzxB)qP?6?QP_Up_%gbsk)s$Hvph8JK1LH7x&4X&r
zL_nRHz?k3+G5;#`GG(6PZZxpC85I>>9TaU{=2dQOg)$fgm}KUWPyQDIN>L$^3|Zu-
zfl%Io(RPS5b3B%npTO)+h(dgI2jyq5^dLruAkuhQR1(5OOwu?i$28_K;Zoje>u6fO
z6qAKX-E*LpV7OfN3Us6VHAL44+)ZcOf+JY$2o^fFsU6$yw=H(;&7UZ?cHFhzvA)T@
zWqZRmzwg1;h0Vu4IJ*=)x!C$r-c|Iq<oRNA+wE`s?KkpAKHkt@^tKhfokef!vX$NF
z204&Fac4JNApg3OlXL{{?zyvP?zQ{J76bc0`s7_R7mA*a+2jH}O!5Jol~wn69=`)<
zk<r5f4kH|vG4O<c%1oKEm77riU>MeBb;GMi#i)Zr#lU9I5kj|$o3iA%@rnfqe9J*F
zReIraCZN~@6fmYK>l8m_%keqxA|o?5oIq_eXsTbRw;IO}jvO2(w5O-+IeR^8amoS5
z&XKdj(X$!HjsYt+HN=u^#nv@uP|u1L%;z`3IpG8r#zkOU7pgpKtXjLkWh+*e!KupK
z7%|w-?0ChtshJgLtO-MI{1mQ(8P;VB%!~Vfj<Or97M6~;?|HCbenbQd*pOw0-(i3Q
z3s=ZG65>MUFKpop=P!b9njW9DhA+^B##{gcW&{YJ=zO{8e6>h#t}z#Z+!Y=}i(?|A
zcVXAF*d29~faoRchYy!q$mk4wVWE0BOf!?NT1zUdxgK-YCq2Q05=^DDLF&8<>p~8V
z6%z5R=1s+tV1Q-7?@x+=OemUJ5wl=zh{^OtvFw^zWicbg;-Y*S*vcp^HT$KsED6-`
z(X3!B#Ijjg#^a!wV}cNJ>Y@TM6U`5fUHrVkM2RM2nG7Hcnu9V`qI4WCePH@P(7u7;
zXhxwv7tKxyqO{6Uo*&Kd$~llKpsh5HHlgEG&_XL4H}s>c8z(X<;|0oOOO39nt&o6L
z>4z(QjeKUZ_ShHrF0fQu0<${`fo*DF+hSn*qJJ>&c-XW4AJ*qxzwF(tI=l0SXSRYA
zD){<TU*Fs-i@tFF@GqYnR=rQm*k_05TZ_J~IYISpE;e-(TLQOpw{mmC_uCg+hGy7e
zYwz4)wKX)u6@%*w!9g`RIOF=*+c_(uh+6XQ``FuD@{pa!nUyBe6#T*df^UoJ+j5`z
z(D%gs^aoAq&J);crI&}njq}|6x0VjPycj%F>1oM3Sah}(oSmw(b5{7s*<0!*ef`UQ
zq&b*B{5wzJd*3X0HmROX^Ur+f*?NEA{nP69=RkhKoM!iZ=-ag5JUD+EOr3#+%?B5q
z2N!&sN;V(`<Hp;$z;{rY8L!oe6;b&gu#(>eCmcj0EbQtqUe-^w<=-|vPrk#f(Vnes
zsi*b!*^01SgR+kMZio$mK{2IJz5+AGOfzNo>&wjQI`HUb*5_J<2dbhdXUbL_enYg$
zuL!2B*I*}@tLafT&j1|7UUyEJbEbOEBB%~_96gX#VZ3Ek0b~s!25vM5j<h*}jx>zM
zP&y#+(Z(n%w4CJ!rW;;xh|N<Lbn>GW@Zt(7yLq(c5(#l5R9wl=0Ta0sq6#E~gTTE(
z+im$AL==*#QJDs}DctkgGX!lhRF!4bysRyoHsSgky%;Ncipcw+8004|tNe9{K)z*V
zD8Mml4r;9EfF$*u6l5I?UejfTI|HIZZ-R1Wa$k+KSldku4@uxAO3ME5<K#bqt`)Sa
z!0mb1^~C-4i(R{C9L1K7+f%ou9yYbiIu@Jy-i*)pKX9v?k1lR_cG+xdZ7dN}LnFOf
zAXL}kpqs9w<LT&_ls*g29cUfh;PTN@%DGx-mPBwulW9?Jq-gF`Ix43#mApNnBvK%s
zQy|<O(7BvI4sPm$#?pq5+ysgS+}P;og%r5zMk$xbib*A8)kQtRAJp-c&tpo)h_11Y
z<CXDe1rI^+^{PCU0l*=X>;J5Uoq?vxe?kNcSmKGd>E_kxs|C-1>KRz@>{{S=K@4tz
zUK&<C;RVmm1%4;Q4?T@DJ8tj2wYT64slL#nXY+jQL!jb;aG+!%8#m3Jn%}Rk-}B(`
zd&BPz7lzKL@VEX<p1tXq2FI}HcaG*6>CF>Mj_oCubv3>jFA@0Mi+_$EFeke<7dm&V
zoxAfR(A$=$3jHH$|45<#wAz1qssGFhXC8F_rvHrEv~lLh?9iuX($GCSvFKetms3F`
z_n-L;8{|hmat@Sy#5wrK<wnRWsAzxg@*V28=%=_5;SD^90B_i%2xH);L^Wp=eSAr;
zk<kIsx6zzPWo5jr)D_oFddq15TGBGL^Z{#_$Vj3*j7{+1%U{E26eHXg%~eJU;-Vx)
zqu|Ir1*Hn!+5_~0$S7QB)Q=S#pym(P2`ooTTd}LVxP9kmt_|EN2A0GhELmxiCk;&{
z8%^3tTSv)3lRy!g2giS)q!YM_-Tk?TR=vnD+?M&~pLM+5Q6i9hu>QR*?`~PfWXVgy
z+dp+Qa$A1wYrQ>mYiJG>?}icw1;DbY4U0-v%<-hP6ZLJ$hB<pV2g<l*a|!8T$aYVD
z;%06-H~aG4SMR*K;0dX=&C4#V+tkB#&K;Y7`TpPo?mg$b&V|9l>eeG_-_a6*nhyp)
zQ2urIGA2vUGh~E$iTTvr!nuoG>q_+d#G&^E^@-<c=GQjY|8P)A?=xMvI4oQx80Pdc
zbhPTh;>V0&hQ|t4WZ`*%yKaea@Ni+NXKs(9s9P1l=d=P;Zxij~{#8|wjW__p_X4nQ
zsR!%|_BF~KYm__JDCg<piUpn->hh^yT6v^!!DE6O9!5Ms&wf=~bY=vLz{5IuV9wqv
ze5gV5AHioLDrI)myiLgnSjs_+Ixs@oiq1l-1g{|841ip4N3xLALp_^iyyE*Ct<WMc
zbP|1L!2VW+dLDm0M+_j{3N<`fRIG<;cjJ{Of@&GGtT<KGQe#Y0<|<rX?_>aVg=dwz
z-iV=P1^lhHH1zNkTYU`3F#-ej1q&ER*^YymRc7<pvjAG~s{%gURh&aEiwcnjuo~*L
z9`7;gtKS@Vk2A*g7_d*qH&$C2sdvf=25g;>Wklns&lO^;=cNX7b-<G>fX@nOe{oDF
zEIkeA3P(#qO)?^%n&ku)+`3RkmNM9#L=Itu^MRMnT7cS(kG}{SQ$4R}9&~Z=jn;sz
z@ziN8*oq>(Wld{nX&4h2F*<;)%j;{%=o=W>FhbF-dFjX%bU*cnW5Ca$L$n;IM@3yj
z0Ej4rSGg*hS4WBs8)+h`TL9mNE~)mSdR_;A=yWH$>)*o)G>prw{5wQoBJuW{wrN{|
zZ&&&D*&Tq+t_=?dHWUJbYGAMsIH(2=7M(2x=SILz!GP)j*R6F0<bO}0Wslmjht`3!
zwz=Tkr#kmNxLSDnjQaE$G_~w`CjhGcAb3$lUwbjoUu;{yV&nV>wc1xeMRm;zchBEB
z56DyRqJKX)f59qVi=gv-|BBhPj^fLmpk!>W0^hCj-5>Gmbb0?Jix{N5E?v-gTFW~s
z+pzFBat&I662?8CO1O-wHR9Gw@VGD$8x!@%jmgj&>-^=WKgZti>QG4a=H&F`0^df*
zJ3_JARY+fb+!U>awc%ijS+d4$FV9E*KG1|X{X`8xdKDuDk9CcmI1Jgzt~I7r#t=V%
zHVVpciXno12(y_D&3*m8>%r8b=fnbkLf?qv(Bv^(yCUY#LJj^_fWH1S*ZEppZyJ8*
zGRE998^QxzG4r2rRZQTlpc;W-h+Ha2*pZ5s!8(+K)H51~1bRj}-4_E`ahk0UvF9oX
zGWFURz>k?61F#<_08{jZrkE^hE*ho*STqKLdZ>c`YF2nvKPScn`4lvS-*j}qD_U{_
zu&4{?jo*8~;)2frH~or?xLb(REIO1fzYbYB29ajb;TZjF8ar3^qHOTnkCXzvBqw*S
zv46GDOVxd<(0vFjlw%Nq;a}|8WI!!}?m}Ql4GcXv{r<kiz{%<30KjZ0dRpgL)zepO
z>7MJm^{pB9p))wwG?!g+Zb2NwKQpx8?54+Hk}uCa3?ka4oKGP7hCeP574Q#nKd33J
znE|i@floyro*emy5W#yL{aK2Fd-pn=Q{5mQh1_KCpD{}n8Y+Vj!IV}^7F!VDrN&-(
z{`qyshS?!_r)sq4Eht1h1wNqifgc~5v(4{X>=^ur-=QC3>ex2O7oiXN5=NIX!nLQ?
zf7RxvT1WmXtoR#@&>ql{emo}fRgCa<=`H}y;BBI_!1o#Xn@04HkWhXB(REUM=Fn%v
z&-Khrmhkgna2Y?PZ4B2wcjT>OZybB;g*RS68@(M2@s?1*zgzY1zV-qD`)IIRxe=yp
zv6nc^)L82@TQ%2dc9p$O%hod3X=S6EdvXnn9cn(<u|nXZPZ4Jq3Td8r8dPeWJ{*N(
zXXE->Y==sXr_OLVmD06$0AE1E`Y*NUPpZNK{QgOfK`TYZ!=V3E1zO<mR_K0c-IPXv
zS714D7A}_n$Us?#gYONfE6SfTo&KvX8U19fkJ9PZfbrTI*3AI@gRj8)^Kk!HHKo4^
ztLk>D_qB~*K~ZZ+P!Ce055M91L#b^YE<*<tP0$9vf`|T=URekVU*j*%^q2Lm^(b}r
z`o#;E0pN*jLQ-_(dEJ^cN?4+g)AXrbhQ~Cb1;3)P-lrFv*};bv<xv2?6?$<rPOqfm
z0r55}6X`8Pk$}I*)2~_!*3rB3_n10>5#A?_AA)Is<Gx?M2U#=$6uiDAGs7^SZy?P2
z-xB8|()@d}?-A*FM0P(Sy)=II5jpyZJokv4c|>0L6*={Y9QZxi{3~)yCC7eaYnpjw
w(bjd%0$0h@vSPZ*Fz%Vg+ikbnmI<bp%}`vT#Va}UlgyI~o#D?3eCfdc59NA)k^lez

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llama_eagle.cpython-312.pyc b/model_executor/models/__pycache__/llama_eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5075ce4bd301283022f15513abfb3599c86dfd93
GIT binary patch
literal 9989
zcmb7KYit`=cD_T-kVA4PQlcb^deVAWrXQ4T*|8J9;`o(a+lrls+cF6liZhZa@s*j8
zW6@NjEex!Tde<`2!ZJ1sE1Lq5>i`wdKi)sx6b0H81zK{Yl+08H4D1$Y{?U=rZ1+!l
z&K(X(Yv}~N0Po!Q^E|$DF8{^pv=az%_RnLb9zuSD86#NAiS>gFA$N#KL?%uWOo(AH
zZHk*hCi*oe*bqz0%yBMZ30Y{Gjaw6Zh^J{TZcErhcAB=t9SI>M(6lw~Of-ZVXqu0^
z67G<jrfu=YL{q4VrtNW0qB+z|(~fvcqBYb?(?Z;vXbZI^d?6prJLBz%j!;LUGt>$B
z2GJGoN_2<16Fs4xgg@j@Yzb{)h>1uIQtt!U4~9^miJT##`#KRDrH%*Ya%qRe)AA-L
z_eku-%X)cjY_xq)E({IO9?j6BMd~zaLtCd!f!43EO@Pt(AE=TX8I4OLka3)gM-q_}
zspME}9I`FSR63oK)v%h9qnE?cR3aUVOHg6I6ptq=&4h7D4X4xLaXB@W#!+I)m>Q0!
z#>XWYvhG)<bUYS~sFHXtmXsn`<~o-ekEzN9ITe)@C51&z7pEdgHI|8}u~f1$cI%~7
zG%|W2B1htJDSj$3Dv4q&IUX=+Euu6QnTo67_oUePWt=Y}O0wolM5afjuq-7a>G0&0
zuo8{LrEoHmkf2W^-QP(mnu4b1BGb^`O^Z&a<P(u8B@#b({wutO0IM|~pHfqQM8{Un
z>0`IzMnyR?riS0e#lnf;Noj&UXIhrVVpp~1w7#pb6d8x9_2os&S3*CIa%TM!Bz_D;
zERhf+l90(pY(%t)Cdn+CC01l5PUIwu$YiX9i0~b=&yg`kv|e|HthALy;`Q1wR^+d<
zA=@0e%7pB%k$_!x!QdmB;|g4ru~4rVQ}C|Cv1ED*jtoyAnUWKlrMz}ac}EsmQm5o(
zlq;_kKbS^hTpxqzFPS?;g|8lNa9Q#bsLwK4bC&&-F-VOeS(DtECGVJ2*nu7<cq3K)
z8U&jqVUtlhO{Ph}G;-f0`=Cf}hbX{l9FQd38Xtx&0Fi|?*XFI5l1U(HQ36_0rvny^
zRiyZs?8PzKFsh8E*}~yyJfbM!u!2Ixk74%r=ZDlpdMF)B?@}W&T==f5QwN?uIC(%C
zipNHW($nhYRB{LpbtnN;6c0;Rr6^E}tY?*>II@s__rdhE4C0Gq+W&y=g2o2=pk6ru
z(eGx-Mgy@m+_2{PwuO$ROAk-y__kI4#1ozfeMNV3&fUM(H}J`!j}Co&WbWh_g1^K;
z#X58)(aNbo2JeX86K)r7sVr9Tb_@{%^uc5fzM)8dO3jiysQ4*Gm)Xy+lYu{$R8%P<
z`cq^6E0P==i($)PfRQ~gbigFz;_1;UxB$Oj9)OSLMmDKskWB9%?tgQez0gx}LNrT$
z>l#>`TygEq@q6X1Py&ogMgk7JbmU{WbbB}qhd%{`9M*&|&K1{dWV}d?9ZjX;npsh0
znT0&P0~wi4-iFoA^1Vl;csv}w&&d5ys^BrbNH;(^heo|v5r*h@*Gb7vyuRW<;EBV@
z?RnhNQ{v!TvXI`bB`c<Q(%4+GVaiS#I~T;fySIc*O9HVseB;Daw}~5G`eBK{CwJ(4
z?!xQ&L$7~}Il4_cV-zN<1gZofx4s(|S1Tt(Ml^}$4^1E;%pf6H(E^gfD)M7Il@GS-
z4IztYm#h=+%2<_zXsurk62yTL<eB}1`u#-bGs>;fGgeT){g??kbBq@oU=<G0B?-`<
z{jRpy9(LoDSlW{XmC1%0s04HYg*R$;N_OXwP2~VImXS(<Y_Yl4pa6fDWnefa>JkEL
z<YA0DAR37pyo3CN@|5xw4{?3@XUH*-d&~rq-li~t<hd!-lZPM&E0Q-$CJZ{L={X_P
zWXehCRT*E!)zVPqdZ@3+UKKf5um69HUw0+V#z@t#isF`rtVv`Zl%><BCPOd4N-FDD
z@uX>(=rmH*uZr@MhG(3Ezg%7OF{Io{a*K_c#z8v19VBFiRr`!apr=^TJPFd^sg<%>
zHfzp6qo0wVn~YW0pZ8PlLHT}fn{MuAVU8Krm=|`}WXz-v8mao@Ow>6&(UL)3TK`_^
zwYLJbp=8?>Cbn-XfGmt!M<zUV3cRs%(fX<FL0NCZo?4C3reU`X-SK;XGe$H)LRbbM
zaZ*YuAWkV0;hkr!6k#YqxeIb%VbN*LG!_k5HM_31l~_j79H}W4;RwyJqp^sh328ul
z2_-D5(`iW)YL$u3y$&6qgt2wND|f@tRLpBlN*eTW98lyH$$&jgI%d=Lbs6E<E{~O~
zDYVe+R}g5@HBjv)AHgA!N;Svjm<V`6ufy|~_hYmL>+B$1Ko6aZDXPZFk>t3fH72JL
z;c^#!|5UPTmU701{e-6$!_j@p2caflscKdIBvBk`Oib5O$l!=m{Ij~MqVU2~m2(wb
z@jNtCPJsM+3RkT1?ZwtDh1Pxf)_sN6Gx^pth1QGt){ArOO-Hf4``(VbI|}W)^X<E#
zz_no^UBk<VRyvQ(v8%lAx1D>7g8SCl8)pkbZ(iuFWcu<#-<qdq(X!OA;yJKkWxMRO
z!-fDF^G@P+V#7_^dluAt*X~{`^c>Fj9A5PuS$FZyh9?cA{pkGh4JT>rEjITQn_Ctd
zZ=YW47+kU}4?f)TFqwbhT<-bvx!ofx9j_ESdhQ*%d+5JyTw@a`)%K%LaENuY-3!y*
zbZoQ|PhZj7ap&6YYXxsG?+q?D=DmB1ZJqZVcO8Ycp?up=v9Y!2>o55B<b8Vzz5{vR
zfugUg;M<<}ZPz!zu6TA8+qyPfyaxvTiS>WJZh<){Jp6~2;Zw(W&88D>OjPQFF2oXd
zkj)I$0eK@-Me%FoJ_809B_u$&D46845Iu#XTsmJ>CM?59s?UO(>PE3M%Jf-Mba@Ic
zf8OO^^sTsd<oF#FU1+v+N{OLurD#rrpj9x+lxVG@Li(ag?jIrX{ri|<VW-%BQ&21F
ztDee3F*^o|0Te=6H5j6E#w?N<Fed6L#gpW1P--(46Ukb#CNMNOL!G<@qs*9RxSNeE
z!EzMgGiFG^EC2+|BVYY51h6s9Vk{BhboNDN(>Q9`YG$xb<ugzauvYIvz5oUCMQkSM
zcR<fv(Rf)>Vj^Hpjni2gWh7-v0|8sdQu2EdS<E!maAvtog2svp(JTQfZtE;~x8=Rt
zmV7JT;W+`R)q2<ZSKKGIk8DeaA9m%opZWaNRsV&Rwu^JlqQ^VO7h8OH-u#O<=T3dO
zbw|<dE4sUi?zVL+JJ<khICuW;!IGJ@Zh@hFTbKBJ+ivLQ>Rd?VYDmGV+oVrZFm8h0
z{7>OD?~rlutNenQG1Zt4b#K~$Jk=Yl-n~%=RKlDj^UT`-3+P>OGZwhx3Rr=e%i%|t
z>z7ZU(A*T@{>waem6@^1XW_oBsCs62)nPQv@}fztKn;UlW^7r@L<JxjZ3!{ft3w0X
zl(i(;tVJ}_QIYO!Sw3qqXcj;oJJDF}ZKSeRV_ginc}--q+!Z3bY5*6PH5+39t#h-?
z&7WpXK;0m+-+~*MvClYWgscPlF*0*g$Z``c#@N*_)Z1%D0jk&cp5-Shin`i*#%8QO
zD;TH15QZcVvqZ&?G#LAzKx2DT5IKZPGACN-ewds8g`B3(`Tgf@%x<jsnP*qIQwHee
zW;^gR3mj}632*`P?`^?%!J`B2m5Gcs_%2Oo%)0@z{5C8WiYCiNlhq=<xyD?9?#|#i
z$h+`VS|7r$XK^^)Ffhvz9ET5<TgZ61n)50D5^V`y2=pq^`i!#{{R9II8Y{-4s^&(6
zR18xbBY}%e0ee(ZDXP$1X#7Sa(aVzVp3<yP5K+NgMFUuV9j7%%L{V<QlvM`*StKgS
zDC1>hQ_cQfN{)*ZkOZ8%#Cj9UTfwG@P8!oHVeo;a!CR&|3^;`=b5c)Pd1;Eq;zBEh
z`erqI)orG6v@@Muv(q#+!!<|wU}%3{xeW3S>?mr(mxZDJ(VYSU&RTYcDH(5#T&%5l
z4|btk1-70gUz@DG_8i|0;KAFmu&>auJKwQ;rDN|(>+qaot#{z#fjQ?|-}b!FGk0=+
z*JDHJ<y<?9-MxkGp?vpHq5D|A``BmfO82Rp`_#N0A~4u}{fj>YEHKZl`3IM{rT14~
zd}GCbY2NvGU~ggIx%|L$D+31~9{=^gk=y4#JCeKjYW~D)AW|E<pI9JTkQU!wbq|Bo
zEx5Pj-CGv7uex`E0DkOhUFg5@{+f69a`W=F74M087Nqt3;bL>=f9yY-ckh|EFPvR!
zD|)&Y#k^-b6eCp0-p($bU2b3T9){*^eTygaZGm~N=pQKfhx7j7dFPkzE}U`s<yH5Q
zFWoIA7kTa+v(ZeN{U01Hcy{JJJC~VXd-g1+K5x!HcOFK4Tp4B4?#d(K+67-h=*kOS
z3*x^EeWf!D>EBU$nIZ139N(!sT--964)P9+c4CC0S_UHu=rWd6b%)9un6<nPm_H@U
zuV98#r_#U{A#9AQL>|NF3PwX1?S`n<&w@T586)(6DgOi!`dJV)7Q1`Cb_{ZMxUN=z
z$%-l6zk(?{@pYDHt?pXEvR4^~+qu;8H=Xx8O9YY+2Y$8lmpj)nS+cmfosT_jcMjh^
zT;d=NgEsqU&Wbsnv~}T4lx&!@6T53}>Q?qfcHxbCZ{2+>=L+O)+t(df*FVH{Exx?;
z#`5q(?pMMuh1~GT{H{~^{?jD_HJ=ZEuKe@CZ!xL+b8u%-_*DXOH-`1SK;c!dFM4x6
zWWeKV27e9<ei-h$B?N+2vP_@=*c8CyQMbJ80p`Jj?0#lnd;Pwm;~C|`Gs<n$BW;yz
z_3P`GmOVUn(RrN<*~JFQ0sYzUYK!UxfT9chI>NLKJUT6>(5Fs?M~%x~ckVm~jjLXq
zit7duCZbV_Z8qq^Bl^<A1lDc}6BX=Qt;mw9P6uPV4sxl7SnIh<z>u!=u5r?kdJY{R
z3}R^O*=^t38s5E())f8L9kc2Jf_+rn6xE&9#TraKOktb|I94hMA`4^;4*;yO4%n?h
z^yGWj4<v8&o8eS+8PEWTu!7)>GD0TM<lhvs+^1FpVZh84M+ZD4@FSXA_X5<|`7c3#
zjiZ)0AO`eV)mYpPc))@e2C4|h^@&Qyz+^*?4m9f4zeTtHb$NIU`@e|Maf}c{$(J#j
z!RTd(v<6iC=pNAR2F-=)6d$$>R|J)ae~RtV=O@zzy6Hj`1TE#qvdu06%{3ZPq;Pd-
znp=On(C5J!<@aGcYRA?nWxDQ6cU_*UI1>IEJECl!C2PF>mhFbEz_;i5_Jw_`y#JZb
z1n?aQp80)u4&6SK^Y2|gx#D;}=QzIBJ+LT#GWpTu^5M^#SGrHny;9uq!rV#pDXa?H
ziXB@E9mDyK;X=nt`Hq*0g0~<H=7qs^v#Ar1KpTwN>IXHsbS8K5^$oMB743fe22Z@*
z3*x=WyOT>t9`>!Y9tC*dAF6mK&{eUt1DbDv=3nq-*?bm{7d?;lt#~vJsr3ur&7q#X
zTWi_N=b;C9ndvp6UX({5s<rH?w#*FFKle?B{oi3<Bu#4A-^$#`6hI@n0!x7v*S;LT
zkE)uH8e7##ZB-?#8>{tS@RBedY>)lXma2KDqJX5KD(vd{uzv=IA$UhYkYe~V2G|oZ
z>81c4Rxr^Gb_NJ<8p&+)iz!L*CsV4w{IKj#zyod!7%&otw<hobD*kCn4Z`cIXC$Tm
zAOUD10S|eScuJO2vc{q}P=_XXxM0cm!G}6dss|wd7|Ils;gr&KHyJ{bOjrE_FWcpR
zkKK^rz%Fkff-mRjUuzmz^LQ874_+vEw&p!sb4`P}!B=wb3qX;c26)GDHUO4zH{-1=
z1Q!2f*}396n&Xe^>K_sLQ`CiWpK76ZAc4<0^s$Dy&evMmH{f3kRlf+z@p|-DwXxxt
zD-L$!QW$(XHCJCRU^>FW5B)>yFG7T`7g^mD2NPdpvJ9A-oCrf@pmv6-QpF8(b$EQ$
z$ePM770n9I%9r7BFk_(t6ki3=Ooh9%=vOJHAS<Ua!fR4+1#l(0<5IJ!;4M|)>=T*&
z_3x$DE(jiugL^iv91T{w{Tq&nzEN;+7JIjq?SP`IZIR8p`itJ4#s1sx&$DZSf3bN{
zT@`i$9$)Cn!7U0~=>>s5$f-=m&>F;ddr1KufC`ZUR?Q5yQ-H17R`M;V0v|5@Cji~c
zJFpp@x)9-JdcS`c{|fDtJrJQ!*2LKc;la154<r@1UN<;%lYPztXw>E^@Ev)+<HHk+
zwxt6rox@+0xm*`4&SzrtDlC_;!X#A6$kUjrB63{neWDZS09IWyqWh3g{uZL^q<H+q
z*QANFFJ?;kc{sd|pVBsl+h2v)`>POpf5}aPd!INQ+_4JIhI9?i##|L=W6oYi-Cz!R
zx0kRh0ROts+lh7U0=K^|^xhy)qwfc|5*XB6(G;lED0OuPBcoB>6rt7%Pu+dNWKvh(
zLWP*XKBrH`S_i)D2laot(0`%?MfkUf9D$CCj6y~KLj|<Je}3rC%{{aa{Ix=rW1~|b
zt%4P`4)!?M{wN>I{q%pu$UK&8q5UZLRQ^Q})R93jPX8$*)3<^h-_?%(kEV(ZC~nY(
zzoSR(JAaVkhVot<xTf#wspE^v-l&4XKjY}HB)jU(sc%kanqb*qFr~)gitgz^^G5SO
zv!fD><DV(?_jp8e8mD)rY>LuMrq3}bcPLjNe~!byj^tS^p<s&A_Xn8WiV@Ph#vg`t
z!K=+t`D4hUCR1)eR5CLR^9@g!f!`3}5oviu`u~$0c|>|2k%Ny&-y?GL5jpdSy!wb-
z`qpG-Oy5G&i_Ety$C%a$MDUtnZ<+t&6<hbLWy8|M4CmSc8w9?k?Zo8WFeMqLYrg4@
f@3wE9V0zsQ#U)z2F>2n!?9X-X{D#1nF7^KaD;Lfx

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llama_eagle3.cpython-312.pyc b/model_executor/models/__pycache__/llama_eagle3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1cb5d54f84d40c0b448320081cfb882da1187423
GIT binary patch
literal 15965
zcmb_@Yj7LamF8^#4K&{13nWO8g!ljji4RGXthZ%Hlw?aHV?C1~b|DbENkIZYx*Jp^
z8k{IuPYqe4tjT$ls7z)>?`&1*vTCE<nyFH%rZ(D|AM4%ygEp7}+#^?1HQpcovjv6B
zIx~NE&$*3mfN;akY|WK;aUbWt?>+aN@1FjjZnuMgOIrRov3P)xf5eF9tmVLFk|E?i
z;R(+qNs5Uw42DffQ`AI%%_&RNLetDiHf4=kY1opqrMM_Z!)(%?azq^|XVgjK)}$-t
zj=E{smh_~&Q7;X1NnffV+K_6DHqy8~*_3LIHq)>p*^=@{{WR=Mwx-&mZK*&sK;y1t
zd#WSakqSnGH11Azrn;hCsqSbujeC-z)Q;#58uli8QoYe$2>bYkWM8U3+MfzX!>NJj
zKx$`nCqqm`a0`(SVa({FyG-N^;Tzv2e3Q`ip}Cye1ymg0{4ROaqES*hKhU)bmK#@9
zx@uo5`(ZgTI!H^jL5YCSt>s3C?wBI&pCe6#QMlJLf*8M+6eb|zJfDoG;wNX)Q;BJa
zwn%fcvom5QmYESJug4~5QnQJq5HTr^tI1?aB~x0bg-mR6P85Z7CUy(bfv#NMnMfxx
zvE<D3v>-xtwu|GJCT7GGRM2qY+|@VYVmz4?lIIg?AucMui^6O&F&WPYyqW?fyys`8
z6B+3Zab{AGq#3NF@xoj@ok`5cGl`jWxu+(@qgOWmnh@s||J9kv_%$u@RO*_*^NI8{
zwA{iAQ}MZECiZ<HF?}6-7v}|038dn8t_d+wNX2JkH*dwH$#_zTrQ<0aZUdc`F=28B
zNYBUb0KJbUot_a-#^<DX^87e-t!ezq`OB}5e{<~B^RbJk&b)r<^2P5!vU@_1U{IHZ
zG>ky{99KPJQ5s&I%glU>_CY$Y_Q8)c$&2x+OzdqOWO*VLm)f^kQJ6~HR+?wk*@y}8
zY3QOljLGtf(;rtkvbhdz{SllifkYXeL``;r|6o^|1T$|IEWAZvd1l^52+s;u-pVsm
zjzu!X@V0l|Q5&VQ!XBg)Qx=|k*Alh!cENGOU)`J<=B<LuILA13$`pWtP^$xKb^oi^
z>V#T7e4QTgZsR`H?S-cfy*hXQe<OGBUg)EDk=$mYzDp$1AU48;OeoH(Go)C{i*8lV
zlwwcf?u#Y(+lo~bGIL^jlC4?`TzTXlo3EJ&`E%wz$>^C&wk-KE&}NyeDQkYjXxxAy
zS@Ug10<M>3Zdi13J#a(g(RvCY3+61jVXsOk2eXXEsTSC*g*V;YNr>p>k(%BC+e^$t
zZ_-ZVyaj8<tx;#KK;zM3mERk_N>~fkp~RW3adjx0YsetVTe57XRZGvBc=kh>U38DE
zAHvx|XIxuMJBcLIq0#}R*=Q~xHK<WkejnMima-(~)zY&Ti0Na`^y=wmp5rarx{8g^
zr#>yO@(X2~wAdZ&H>^>u+fEa)Pee>&ClHBU=;7c$NAI-4y$!4q_|c7sS+QJ8#3jX5
z&ADiy4;aNP%t}gg8d!hqnlLpZBA=BK{9HU4X;E0XWPqV^u^7EAV!-Zz%_cSGXTLtB
z1%1dLtLs;s*AqN1q+?QIUJ!AMDRxOnPQ~JxOj_Zt!%Yz56Dh@;naRYHvGiOjhG~-0
zSV@2Z&@>U*k%*Hi;?7oFVoHk9E@S7lhA=_w#(W!e2AUC-7L}@IV2Vc{Bh6QuRWe}i
zaDMgSbBYB!EaKu<O)<70_G2?1oZ&=zb}mB)sn}z&$z)uTVljz>{E+JI{`160CN(=U
zo0uKS#6{@Z(CxW{hY#I6D2yZ%*G6XVWUkMoN076OsIx2F7AD~W64j_QlEjN&y;4Sp
zXYYu+pz`_lFWq~?+A86$k^Tw1-`yo!9%A<_*<`M5wPXG2lhZk_ZG$`cyrK2uhU2S8
z3mv0!$7rGBxZH7k(OPWnD6|gBt%K{|&9@$2bd@-=@92~Gf9_gsSiM~69FjYSJ`M~$
zy<9kTMLu<9(X(YGz59!<_M*%8-o(;G!PP6fdiBUI*|kfL49TvcVuQaJ=zrGKy=Gl^
z<eNsfyj-ti(ej>W$+N+AZ#9!(@7ha+-UD*)fhR8&j!wu&CpJ31xoFwo+KPdmMaw<U
zXU@jumvS9@A0OCo9xnET3q8l=o@0w+zjAdy$JkN1=O~SB!r;kdnG;}`a$d@P+aLnG
zw=CZw&(-)M@Oftb&=pAt(R*GH2c!_)(Pe=qr1JStA`K!#oDa=Rg>DIAVk&`@!x2Wr
zs^K&qh9A0VB<w&aBp$<rA@JsVzPxC)=jI&HNyuOClFz*TYd7=WeK~HQcpOp`w|1mp
zcMFp7`1SzdedHbb2qB^DDq~$>vdn@B@0%&pCGr6?@c|?52dWRuYWGh-SmCszAmPlx
zZdOO~5=7<)zC04cv-V9OmXOumB_%5fbQaon%56K>JM(P^7v06C&>~m#23N1=yx|-d
zrlb7IVPU6#kD;l<5?_UO#c!Z@61%Z&6o(*XK3s1U+gSmM^OZp~?|@FX1-Fl+W)O;f
zc1B8|7%VAP0YzL%9D`c6Ndy*1pnGx*){3qfB-A>dp*Qs_Fl?l)aaohLd+Eef%Nu1%
zkSBDSH(^6Am=`RW^36!d4P;a`4rP#O6K{TG(Qdc}bGoHY`{t}prPU6U&YCJA3VY4`
zNWYz_l%h)!73!>Uefs@cO{tIEjHPfNN30X{286SS8~F483l4;QGu$(9E>A-eO^<Nu
zHQ`lxHx=9H<#7-w6qYJfiW#&WaRd|EU@0?rZGjR63mVhu6>};%8)4NGLu)^yH9;3!
z!sUQtQ$9F~4X)Sk$3=cV@a1h+&Uy<<NPhz!92XA(zWVag%c~bYc6L2)2^3l)a!X`A
zoNw8?c)A$gRR|xJ!-qd|=fa2c;j6%U7spo*Jqzx5`1*s_*KVyZ<if|F?%N2SUK)p!
zH?X@9J|c&YJURZ+&V2Y%nVKHShn@$XqQAS?K2TywU|^G&1CB*^$w7Jt3Oy&}o)b^q
zAKlLPd|T$a7v0OZ)iT@zZVe9c$fEms&DIBTgOrz{0VN02(_%5j5sSg?HV0Y}ND(m<
z6_RR>h(fGlmNKG<2SPC?(iwWiiMT%~-xSYdhE>(lV1edllY)qBNW@btzJa;!^5r`z
zB$Kfiu(P9(Dj^emMP*wkXHqeK05e)3=XdWCxZ+v^#r{Y!(Eh@?gFW`VrMtw!FATDw
zxn#o-M;d~wyzJ{K*)i%M&8;OQExCxp^IJEDPBSKUbp33Jz)$Yzc<znM^3lti7%Oos
zJ5cQGdHCjoH%n#+Keu}p=ibXMWmm6YTFx7h?YlNv$SHaL1*9ENQ&ZdhV=Ko>EQGPU
z{`;;KSILGkj<j{&&#q)kc8oa)P!6sPt~JYz{Us+RLD#)s?#35x$fG=%&eJ4Lp5~DE
zP+o=XwEF(MftOs30}g;oS>v?x>LQm2Wz7+@h$6kxUWPKHSPGQ?1Z)!!2<h3B#N9vu
z#~EcXx|r%6q;SVTCc4JQUl#Gi+{Ij!fA5lw@Zm!EvK+o#<eCaxNajMDX48Q61u^wn
z>Ck{5*o8ELDzU`WB$Uye#*Q{G!oaIlbDrUW9sbk=D!CbyaSN!^EN|nvDUK@S_IEu|
zEAJ3&MoJHFGfoHP8r5JssQis}%esuqf{JY1mZwfSM_~k;P^XW^rOF@xs={p4$@>sO
z5ZJGxMJXM|>lRoH!3Y~r(WgqZ7npOC;-GwQ990O)r^O3E2N;e=0>K#Ip0fU|3fold
zjst-j4MAu^-;%f$QSGE#@_&PGtWaxU+rLDCHoOu^Out%Ta~mkkH*|FpdR2Cys_6=P
zM!&);LKx)h*KbBw{Iov9HQiFF>GyBbkkSAY%HSeVmo@W@cGZKhfO85CdZ(QTl0glV
zx*K@RYFuWAmQZJIdbIq?uf`0<$b0OhX&Qv}x8SHRuo={>sLNWm_0XJUv!;2-`3v%w
zCat%|?PXaIUCIn-#dL4T0<|x&T8q^RbS6@63<YL`Rjt4YV!JWL4OGTz9B)PVWWkya
z)G1@I8d{mmkX9LmRt)-N2=LheAR5+6R(@}wHc;cBPdY$R$=Wv8oHoC_?UB6#qr~(b
zlYz$q)&2e>tV4;{c#V7H(AtN!LN-9%9au$%uH^Sg#5tk3s8|i~_e}tA;l9T$I&Y&q
z1hg@8jm8eJ0@b}^nhFJ|#OJuvPb;RW$%svHR4MY#nYoOn)r);Vq_}1Q5C_nK&)fk(
z1otSdUva8HUkvdTF$~F(P7(JM6=0M`X%;m3B*5Xf1Pv%@R6%4_(^oZ0aS%)3!BQNz
z5F1x96I3VFrchiLk%5S~#wr>z2_eOlPAd-Jryy3HPe>Vs731k?L2009iVDA|6GAU^
z#i~XW+x57F_=qTAbx!o)@PX*74sRM05NHucG1Y>yG04n^F=abfR+<bR7gXWeJvCW{
zji}OCH7cSCWq5k#n=03Wj$!;EWJo`Oi}-id7{&(IUi9xM`1i~H{RRIS*?*?szaaZB
z065?*ws$?;{a|;YeUIF}2NJvhPjrqxKAI1nKnx-9S=WJl*TEdu@mX*m;u7bU&J|oe
zva3grAbg?16P|q2!7ZDm6W|Fbx#a>O@qTJ0wdEr{18bR|z4QJ%g@G}7U~FT@sZB5E
z_Pp?rp3}_o>sxNp&{J$4c-AqnZhbuPB=R&ZAGw@6d?mN%YQE!J#g6WWM;{z5b`AU=
zJKN9*Vi=Tqffa0;9j(yVJ?EC6xSE#t-#@x?G#A>x;XF_bh8~`KaIO$MA_tE=xgZB$
zUK)R{rH#tL(Z_K)cyMw2Sz}MJwGZ^tht3DiLfeSkHbMcHzCvKH9N1e39FzkGi=co9
zcFBQV>M$+&rlDe6Cjc=`*tiWan3mwS=_vY|?>kqV1>a8Dw{wd%w*cLb?f>+fz0hX~
zFSozz-g9Ojr`Xlgli=&15_pKd9+lAKLPo^htwAYwa4Vpcsp(N(_2lbKma#A@R}9zW
z{Q?W)-FlZ4y-fvgNcM)-0(tN59JgB)bx%VkRSOlDTBEA2Z`0KA03x&4d=4Ir!*aI)
z*ct53T35N;7c77q8_32ygIqLgsh@}XzGON}egyAAfYlqy(qrVU2E1ZS1g;4apw4hT
z!qr{A^vaqzd#}lY7aR7z#v#4NWXsexNV8Eb+B_k?4)hU=NayAZgy{rPr4~}(fdqht
zug8HEN|<>IsmlxkS4%C2D!7<MZwx$zrOZe1lo>EQo*-YTMoP>05~_3aja59MtQ-F=
zq)Y!6JXJSt%Q?H@KovSh<c^WY_I$^Y#q)qA6}&yNw`Xmi><zCE7IqzzcO83jQQq~+
z$KF?R+$%ZnE6<x+0l#Sp-2d*MeRuKHC*j@2_TFM^Z?S84F|cFH&JK8}a{S;>$xQq^
zKnsry{oMY6{qfM#w*1bsGS?4E@E;&(mCktwbKD@^MT$**>)XEl^=<Pb*a-K@G(4gI
zdqA+Nz(+$+N0R_GiDki@0eM1oS{`gKW{fN|xDDt6vI|z;lx1&$j+<qTmK=2$ZOQ4j
z(q&JrZbE)|9kz=>x*?#WOH{X+1)F#dw-0XZ1+MCO2p&B$D5q1WNtO%ttn~);yVhxA
z<5@fcqA6=lTe4Q3Y7=y;+p}EOs*M3;ddm%6YOd6kwQ2Llkb5h<mClK`N|t7`)$_pK
zW$yiltO*X(VVFrc<O_}k=YlKigmR3?+;bVvCgkf<3d|-PCw1&u&PYC6u){&6z0bO|
zSzri5(jhpYdfBg^H?5YhodbPs7}z8CnxPd7XkfO92pci~vwc{58k)BazfIqW6y|LZ
znf?vTA|%}`C*7<hsV_+ia|?>Qho=F4j?K+dvU!IZ#g`@(d^3xGg!OR4WeO3+-FbT|
z!BY+}Jg+{KO2d1G75BE6ep((l3%>71T#AKHOlA}x!bE(G3Sa^}&`5w42^qyEf=NPr
zQWeG&FT&`P@yY9gY8@b=fGVP#E1m^UF~@mc#4RT-f){bC!psjb%MZ%u<V~#wz#!tY
zvtW*(I5m+EJK?6L2<2W#AQC~J^h9+Gilbteps=(sZA@{{FvY<XXL-D|JO?aP<l(`X
z;{6mT)I2I3DK2caY(*f=w^p&l>Wq(J6w)oYjP8=(m~1_c9M=VcN^8gJ{zAtdxnobh
zV_)7sy6Ak?)Bjh%yq@*K%S`v;*z!=(+YZ2%7vzQxM2ptWJ?_Z29$&UR*Dgw6aK)~k
zLf44gHB#t0A$Og4YRPw<%K1($JHP|fDbTle79@>j_E~6Pon8OI#w%Cyp{vX8=l%N%
z{V&P=FXj6WJ$d!x{^Kj-Pmkv=T$E2<0=C-F^#TB^u2o^}tqtF3(brk<?T~#t)^=_9
zhKjzn=U)G6-_j4BweES`{P>-G>&azHv8i?WSg|?y4+qZ4zP-zi)pP4@#ip(`UT)e2
z$(0eb=Ua~fd0X$=nA{dwW{aWzLTFSDjV`-C@pWR0k6+vH9sk7FQu30Q&NHP(9D_<*
zGlnuf_Rtk5xH@H5=PLjAuHMo~hV<<&0ch{*%yB_gig*>bl~23~KjJ0yE~AGMl6V!p
zE9jxLOR-GxTNuK7RQxu2c;$&GV2Jn7`w4pAK`#nkHHi5=OhgaMO1}mVLChfO4i)`v
zzj5wk9k3|=P|1cNjs$`wJBA#HX3|_0w8XUQ48sntxBNW#L9j$1_@w`rgTENu#9+xs
zhW5U2HnT%I$OvJmxj8@~M;pc}AS1>cq&0XyxsqJFEc+uRELsO-+;n5!;1Jun_S*WD
z$D>c!U%Gzb%8ic6L#O1v(<K5qAB}z_{r5v(U{IZ19PuRl=}to?Hvb;>eZ`0dk-DEU
zU_N68tj+=m6#K3<%2LCcW<aK_My3ip2WB)@ijdjsP^h^M<J>6@kUW+mc`bF@a2b~c
zB+s}{o;vATPwMo=xKs_2SFg=Fb*gg%bLj&#&sDd_bxM~}KsVngfT50H`Klh`4LW7w
zo6z*;jy2*}{HM^2YLxQ5(-m_r3LA<%P^;=FYW_Mhh$1&iFnF3aPlI1=Xk#RF-_T_%
zC{cD<QjsA5S;1pm;|!%F1GEMZ483#}21tzXLfE}TlMe3g{90--ztpJVISmbY3^2$F
z!U*FqFtxd%V~mvn0wrGAHBOrmkUYW2#jq{C{VJ0hIE`5g;BmMf;9x#<dGKpT$nsXL
z93X?;Y7JP2QR_yiRvpTaR#WA-%2db1>!v-AIIVr?w?2EB0j*q}`VH_kP|xg|)CP6o
zy9ad@UBC!Qte}BL=-%(&dIk|D>WmP<3f{&$AGxY}i3gIpJ0LPmC_WXss)DG}kgKp1
z%K}+32r(6Qi(|SIj7!19luAX@v>H-6q1eC(6^(l6`GuFACCGuFIruq^2AQJp_FMuC
z4`S0|oR74NGgy^X#kkZ9GzlqU3OyW^YWGCNy?=*M3S@au97GVT40w4_1VejP9fd2S
zfixcy=itrpdszG-dbmTYptkohihEn}(IH7F_^L*)iv0})22n1h7rVlOvC|9)h{+ic
zAzRc5OYneF#>y=w_=vR%N<-eIc(27JAy%1J#kZ|{Fc5JK=qTW#N{ChHS+_Bh)R8nZ
z+>p{i@a~dloZ~(FlD)vS%Ut{F{tXVKhB{~(fM*pPYTx6ryz_9*`RcQ-{x$w*H{ZYc
z_}J6teAns4Zx(kSSsX(wZNs&**b&wYioPLte52@UEw~0`*8sf01wkrp1BqbQ5it01
zE;%>2@Uxa~5YyJr<i;*<nN5BKpd4H99NV?ZKfL+i=KAp`y?Ou3Ahx#l>yXq=8Cub>
zy9!)q&o}J@xULQBaBVrrjy*aNmU!%h26jN^2G<GW3h(^coA1B*%+-M1UbU!r*?zfg
z|KFba<=J1H-Ef^Lws!;86^0VO;(DkAG9li<g=(pKprkMn8ZJwUJ5l{~DTaV_(gL35
zkoVF12%oF#8G0C+cT^cCsZXXRb%&z(2T06e_@O-$|09Ne4xWS!<0etJ2olbR>uix4
ztgH`r3Z8iYSX{){{NDW1d;uP)y^-}u-n&1??N_BSiVB?oIv6-wzezCz$P8~iI%X7l
z>qCENYyu`E<=LtLfOrly(+ZsWDoE)+LA1uSf(p>{U3G?8#*YT8hUX~{Z#A;^oyYDc
z3wiH&jvJ@L+h%{HkD`$xIKXkCl3E9;20$M`f#p<cnp3?W$`#zblr<U27G;Rg7>O~E
zF(_cT`z(Bv0X;E7Zw$)(1%Z3nuyuG}vuH@nkHA3e5~<)4M)Gr=HjVB;laT~cZDvHJ
z7=xL@cR!FjOoq~m;V4wps7~Ju=3~lKF(U@4qrA%c3c}lCmgV8Ymp=rsb;@)M`jcfT
zqN1W3J*RHNQxAMe5K?c5P-Z4{J$_3FQIs^abJt*K-WeGTU7O2<re`uCxaq9Ca4P}$
z1#Xgg%TOXc6>*6_gNXP(dbkAQAE1X1Ln7X^>J4Ls3kM!~M0(r(H6$xsTKIl!YA%^n
z*eL)8GTH@0kEm7c5SReN9i!OPi$zi#<(mwO)?O=$2R|m61BgeZneVT2uC|jMz~l7-
z`UBj9BaQw-Ls)JI!)r<Q{p{nn@(m}!z|`q2IQwO1f6h5nY@)j48nbdjy;2I{V{-V|
z$4$pd#O(HzOiV*7s`c-zyi;f$l3Ryz{^9kTPr|6AKItl%nTFSyO*2sDpae&n+ZV?_
z^EOk<nlbgk<d7UZ^wj^~I{$0uh8N68i;e!(=0adphX0MDi?(7*$Nkt!?75E`&a7To
z@#>EqVc8chu~0YMNAAYu@E?zFI<0U+IRFjr*}3TWlfBE+%SU9ctLP2nxWJd$#=kzp
zM*&KE5W#ib_8`&%D{&3J)X^U|seS1DVEuLbGW9qvA6nAG@;S=f@x6tmh1IvJA4`4+
z1lt%SDo>QnpM~=GNrEhxcxC|%3RHmlt&?AZr<r?BU_A&_w*a&XrD`1y%6sMD@hn&$
z+9{07h+uY;WhpaYd5+cr7XQ!^zJaiKC^Og>>auV^wORlOK4k&;eF5G$q=u}`Nacez
z%Y8v$xh@q~p{iI>W`Qwe@u|Gr`T_?qFg~ExIACDTnk0y7%(hZ9h}({d(~3E>j|bz$
zeHqFOE>pfRZ>7@qaQTHyaZ5K72*l#&M*^7m)2K9e4b15z-~&H~`o(te6f3}*LYfzG
zi7CLOu!)S2k|OphEYwXa*APb~kVsD^=XemtbwO4`M_cqPRftfZ;l)42+W!o_zoU&(
z*i@8oE>I?+P8Cdk0!j0|b#`bqym=XxMaly;yx_I9gVAtbB**OlTrbCU{zDa(*}Q65
zS^)I0=v6~yQ1eu7_cv4sad409ixeB$*ZP1j6<fR4`c{4bP@%UI4CB20#hrsWUw^S@
z1gt3g03dzl3avG-Wq#!vEVUxs*G`~u*C$?(KidkfZlK784sN&(ed6uYQ`S5iu90W(
z0_^g^Ycv?UgHYP&ShT`{vU>|$hs<@Xju(O>a&ROc-21DtS$D)VF`)`~#`vKTbckAe
zEq;jaW8!~754Ry*;}3``vEk7Wf2w(4MnR<A;Jr(Vub%u3>1G{k^CkRwGP;RBrPmm8
z@MsY*K)aPapksg#1`IGXw4RZ>M@u%0Y9Js0v8}sGNDX6kc;5>y1%YKktep(+d*QUP
z6O3LBMyjwx8rAA4*=f{KHegh%rNu!aHL_XUbkhQjezyHNAdqPE$U+$ES9`H)k?p}v
z8z${x*+HEK!aB{S4P%}TcGM7(+#-;p&Ld7?WLWV|&VVvGNzJ>5<JTtD2|o{+3P-Jn
zhtp|Qadl<jvX(#qO~J#3YTw#{UwRCy-)qtjC5L(Vcu|Z)K}ke*s(xh#6!@j43L)Dn
z$#5sb<u9U`r}WXP)HADnG%~EJyy_3NYR1E-?D#5D`jIF7Mu!@MD7(Lkn11zH(STLO
zc=RhuRDVM;Of}u|&=AB`zN)0E5$n3Uu5qafIvT_%Lq-j&GotdI;qr^iTqco})EA)!
zEEuX=P#R9+2RGDYMr=Y_uS%;Mr>bVF{+iTbRT&cTY$~kU9_6;wkO%cD%8BV40hr>b
z>-blg{5|yO@%$ecI*uM5Suk^jp@4DE%i=SL;{7D8fd|qL!~B*bO#eR;*QccAQ_}ap
z$njs3qo0!APsyQQlMA1cGoO-+Uzp5{=?ji}gt@?cN=7~<d%m!+jA@gA2WBgdmgR5f
z?Ok`RTh<E<GmvYGY!M8+xNah*))x+w*Sh88Os1{IcNnH~x$%BrC9p{_yx9cFC7QgI
UHK!P6G}k%wTlhkpQ4h=i1FHshvH$=8

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llava.cpython-312.pyc b/model_executor/models/__pycache__/llava.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1a1b3362e13b777d705cd5f891d46df17d2bc0d4
GIT binary patch
literal 34616
zcmdVDdvsjKnICv>ztAtB0W@BXX9FM}O@MfkAPJHpL4p(?AViUrZ1-4hHgPY>Cc6RX
zc0(i}z@|NN1UgOx#;XV#dm_lI9YHZ?0w;4e%$(g5IWtMT+1;eCfjQl|ORYJHoQ%)z
zACLe?WAB{Z{e5*G{a}L{t<Ro4dk;{zZoTWPs;|E9tFONPAB&5f9G<A<Z%3wI=D7bz
zANu3gJX;Se9QPLY0w-_+ALU|vkmt#7ikf2PpgCp<T4L6qm4%t3wpdZHC}t1ZV~(IB
z<_tPxuAnRC4!T*qC0ZOTMqW#_B<2ZvSeP|h8Y>Hy#ma-_F>lZts|Z%aDub1=s$dn1
zw?(UCHNhI@FN*qNwZU5Ew@2$@^}%}PcSIXvjlo9dcSf6H{-B@vUD4)PORy!@8f<0X
z?&z*qTd<A!i=*waj$jA#mqa^bfnb37J<;8<u3%TJJJ=oD6WkN)3HHQ#gS{-SG};&I
z5BA3ff&;O^;9zWTa4!oli|&gJ1&3n$gZpC#f(K#;g9l^7!Qt4U;2{=Y9z7g85<J5E
z-sm&2qrs!hUlBbP8wrlYjt7t9yHco%o`{VGN14AmdNOt@cq;a6@Y&eu;As|C6Fn0<
z8$2637d*$lebKSl`QUlxuZ@n!o(nz~yAZq(dp`Jl>|*dD3$Ke_id_y~j=d0kf#*!z
zvz$=>8YeV}BR?{$BOH8@g*GCzDJ%3#EYy$C=B&^!i!X{_nk(Ws@yp}}zaqNCpwMy{
zMX~g)NWV+;-289#X_R>z^?jA4Y(vU+(P@Of#6mj|+L;ylH5M8`=x%Ypkv3%FM7Pi-
zh8}eP$fWh+3QM^MDSN~t;uRl)jr3s_*NeD5F=T{ZWug5D9T11|a!jzeLB#D9C&a5c
zr3ox<AL53xN)uV=euN%CX<|-}Yr;YCfG{kEu33abuUUfE1&eU_2fToG3eV`R6^@Dl
z!9q|)%Asp^;n-`o;0<9!d<owX<UEd?H-!^oL>R?Ch1rCY2)l*SP6^Ncz{Jv?7TdH^
z&WKUXcUFuc{it}JjodkMuQ`QtD1Q==?6~>AW=2W(i8sXSV)((B4lUNZ^XT1p;n5YJ
z6;J=js^<QYR!DG~<$4aeE{Iq4l7cU@(B~0)Q51|&X~&jG;>%C8<PvgU7N_;xMvd`V
zOW=iHQvCs5DG6VVC#3L1A|@toObG$AVn34*rSR3Ls1%(KPftfCuPgRT;>$DQ<b)Wo
zDUOlJ$*Dv*AqtB1RAe$7Rf@(Ulq0IxFGy2~sfnqm;<!9JEsjJZ;kZ&n-WS8tIP$uW
zhZ7SwPKn{fj3g?hC&tcPcrg->OiiAcn!FaduDHgc;a9@ihxbC{4q6t?Nl|)15)l}g
z6a_6=`K8G9Xk<D&6?Kc1g!W8`@%WU4kW#I<>@eqx(P&I9hf*95$Hmc^SZwyW=>!@T
zN0{@vm<Rznp=*-?lTvYFDmoLJybwmSqGEIm%?L|M*~O{bxk1QS{`^dMG7*^zQ%Ob@
z-t#YvT|RUExzUla(8ZI_p1E}S;#ZKko@zcn6HP?UPYL0u(Zmzsi5p_Ts+4EqM#G8l
zXk;RxRA$0XMKFssaFk|(&rD9wB;wf#&)p77*W(!9SUkJT7hX6sN@WHtiuX(`d|f;l
zyDAC-MqW*-1{$qW105{orO2G9cr$fU^H@AayLyLSDdiNQ6-Sj!UYk;?SZgzZ=uSes
zlTgYK6q`<56sM!%2{9&4CKR_C^un}&S*UokzedGGI1;6St1<>t1;g=~NK_DMB6!cB
zWGN;J5oEtCPGWk*F}7~idkGMag%y|fbt612{*qUhiYGH)F-&3<Yo#L7a|31o?WLLN
z=_x4@&%`QDJ?z2-nn>DYJbmiq<OIr+7z{F@>TFhP;gz!NDXs=ul(LbT#MGC>$n_hE
z_}Ek!WhlkkCoNli)<z~HiO?&U;vq@A9*LvZq7aHv(-n6tJbP6PO-tgn$Q?AOk>>g2
zOe_=^qv8Y>cjy(iFhhx{TL6(#P4QX~5CJtg6v4PnXlRVR?ApiH6?op_L@vk+T+jrv
zh!2_tQ_vz>1rs5C(I%K_I~0pV`^|EA@*bc$ClIz(un9#!0%=9hH9e<^a?aWV4yBSU
zayAbEPcf>FbhsJg<@DnjjbOeIdWjFSZwlMvzdAYWXL!gT$K>_z_M_WZMae&P%^#u3
zAJ0lVG3*~VVkd5dCnv>d+}}AE$Vzi#*ngT0Lsr=BVgHvRLgI##g^f=oM1SH&IN`r?
zgQdLUpOXAnZc~aYevE|ws^}LY*RElJCKG;)o&PE!N`H7#P}|ha%85++Z{LU@d;;qS
z1tJrcn?DlwPlw}iQSgW3{;)rak@iO>G2CH+Iu%w6Lv(^o_8wN2;+`gug<c6qXT-Q-
zNdQYLrmK^`B#KAjZz%lj@ef>zJrtS@$HY)bafWE>%tXoW4uxKx2}iY<qEJYfnh1rY
z5oDDdl;0By0amn45cCm+-IP<Ti79E~hGJ9Kmeh-|54bJ3+;5)kO~j^qrz6vQ5<pR6
zV$YqK{Ra=++AsD-BUgK;XR$X;_R>`DW%D;A-VrA-|0VS^-W#Qjqi1?nI*QVma~z)d
zemLLeJ~270_RT7;ZSd~sV#iXC>}+1Q45Z8JmQTJj_V(BZU2DR_k%#dQPpt1govc4C
zm!H|NoROZ>OUjw!j2S@8)*_tWW{!)_!gHV22N54w11^0H&^owbdSKUy2V*Tb*jjJ~
zT#C=YC{L`1hX0q>1Dj9k+WP<LTByig3n6?E-JwornnnsgA&ufKorHrO#4XHX>PIF*
zLL?TKjv;V7;Fg}H6sO5KL(W-pj1?iBqfc4|(il1C;V2ebs%#lZ;}pnd+y(Mo)E)A~
zUxbsH#d}WhG>wzxow75qZaI#5oVFLg;lAfyN~jZBt`5ldz`wV9mqwRcm*XoZ*5VIO
ztliwOk8GNG#|i!uv)OCg=FC=`S|wGIGs&r)^lW_%&TlixGl*QLLXD|gWT0_h28|n=
zsEW$xe#qw5Z;!_#*W$x|wlMtHRO*u<|LmEI1g9f{AWo{=LT79SXf(#qa5Ox5eFi&&
zpWz;$(}`PGrzS;p6Hwf2*9eJ3GsUwejTx0HrW?Smgr&!&Q-EduIDeVK$Pw`$-v@`r
z*$Qk`l8>#N-ldaojolx6w`)~cJNa<$ddsn7#WC4AvSArfhmp!rN;AMzVVE<p#YjTW
z);yfovxe5eIXJ;Bm_)N+#=k|x?u*^phMk&c>{gLzx#nKvuJMBXwc=or;3$l}gdMON
zSTh&cFy|t7hYz|gae-o`hP5<9B7u&(3DRRq8du6SO5+9_kPz+DN-2?pq3n=~X+4J?
z3_@M;#fXl^NQI*yZ?qyqSBVvIW7C>UgeFvG!=@5H6Z&K)xDW+H8{pOt;k?Pe#U=1o
zpL<2~+}{E7rn6Bzm(W-_j+^J_P4kv{>%8szpml!V^uVNJ>Ul0i<*_G0TO)hs%|8N8
zrU&sxDG7aaIFyzt&zx7D(cW1uU>Tot^h6mO66yy%YN38g0t%LBMr9%g0(Qk3pCPgk
zTRI~QLsAWrD0V%&R85~|z)+$+$cUh<7LbM4q$>!P!sJ{fhh|o$F2xZFO+-P5ghFuw
zBW(zH?n(@yMG!LAywiyH=uNtfWN|9@ukLc&<(#ABUXg6C*|67sT+^L)H>Tb7>9XBv
zUt7AWe(B50UrBm9wp})#bJ6nM;_VWyqA}Sxu<jkir~Oe)fKu<6;qMf)MWd9ct5?Gc
zam5Dyaz>hjY$Nl~2-5%79XM}c%x-F<mq|i%Kp#`cZny>0f*I*3SKc#k($g)Nkir=K
zOtMT0qa@QM?gM^2V3uwonRJVsD4c*rijjW`j#8|z4PwsY3LlCS<xFG1hCnI0HYI`o
z6XyIo4uh8B?;&5D(DPj`UDx!^k++YmHm=tlz(_0>FTI?usei}*wtb~xy{31uSWnQf
zUbkOQ;HgjA>lt_hrg4RPVsBK;5wLM)?0uN9Q&Ul?7IjH9MKYVCG=op2SesK5Vl)~G
zeZWhT2#pi;kE!!2M48BWg(3(#fAty%<T<!MT~+gm$7gjuu5a43;=O6(>KZqT$Y<x8
zS~eZzb8@>nH(lg&bJc;>y>eCWW-)!1aAg(0qU@VP7Hh+b_<r===q3m6+RQ(l|MC21
z<W;dQRZcV3cnIqBYz5(DZ=RxAv@q_+D)0ndeA~2d#?#=tNc&c~BgBh#H4WilEzUxD
zXRTncJ!~MyBDX}1`7hS+riS6l)Va-AIIMX=yrVQ~DYW^nv3nsB0VTxivr0u?d^9{O
zLUiNEr*3G4OJ(FR!iLtZM5{w0S|xv%Tc9v<-p0SS%cZ?FNnb$r?q0X-PFL42U%EfH
zZfQ>M3aqxidv@K@ldf%AF|P=#gYQP(^~kk-8<sv5-c(Kwy!AD<)rgp<!F$#O3|Vf#
z4Ev2L98z3aaDtesU|(71SYPu<wckap5;-gQkJE|3x4Cp#)l&R^?S`dJZ8Jqr;NN&`
zns4haJef8NylB2=5=_`BErR(qE@;L6YY~eOZpRL4ea)ipK0yb<oDeL#1sfApGVU08
zi;%Ziup``oe_nJ$0O~|o3H%<!(=J@f!cBr3{<2vc_F^WgVUW?FqKRdsX|!)58{3%?
zK>u6E;4oZ>cm7id?<Mqg!Rh$#5+_N>i9s<>B<?81Bx1O6P1~L&52CQ(3BR!guVOLj
z9=_+=NVrp=xji{W{5O=9HZ`CzkN1r`_wJ-TZL+8By<6*^fuwzajZIGHsEMp|d*Q+6
zZ*;scD%S@ize6VJ2=cS0O5cGmyZsb1*ZZ{gYb!8Y%Cbs@RKdB+J@T}#BvKs*<&J~v
z9f#IEhm-chtRsr;7L)Gfbcj0O!v9tYoNQ|5TRemP2M~urI&mg89c8jLQ8+0{Q_=?}
zbzk`|a>Z#U)c2554Zt9*)U`9$`LwQJG>w!5EJhgI<vuQHPTHGUtH*PiOI0!WJK=c?
zq?Eu#co2)&MXYR%s+c7YrmAoX#0|;ZNWv8hMI*6DBK~wZ7s&9BsExFQF=I-rmn#;(
zk+e6e(A97RliBDbzbeczdO)qGh0S`f1kX;Sf<A9{A`y&uOBRV~xoHr7C|Y}n@O;4Q
z=R5P}n}nD19z7N$glQZj`zGS0zYiy1Ri`MMthA{p6*Rmg1<XQ-ap|s_mQfl;X2oGF
zRmEFi%EpPXA>u<@x4(zax$dV;mi&7EF>=H&!nw;~cdqoMD%$0W_VtR+MMt`^CDk}A
zHx92iV*b~C?AeocH>KQrW%u56eMh<>uxaIr_ib_J;u383#Z_w5mdjS^+~jNy=Tlbx
z6;$}S<HpbPg;1P6Zg+Sh|FXu;G;hv~5}VHuxmwk^WK(AmXgeAQrG$n+1wXMp(k=w*
zWZn<pm;M1c@4(3;@0xQnhHgg^Hz2W#<LE-=c;j;ip9cO+odvS~Db?2x2MZ$?_Gw>t
z%6CZi9a{GtN!pJrT9<5(JT=QRt1oVN_9pFnp8{&yNIwtMi~<HY3nSp%>5u(n8AS$6
z(z|#`G~)nOnzo8tl`5iV5V<PF+LsFXIIUNGo~lbA7QU0S1fD)|^Hcv6<;4f#09ft2
zQ|)7N``CK>xNL7-bT7pod%P)6r|juW*X&CB+A&j01DL5aGtJt}43y`SAPXohYq3&`
z72DKR;+GliA>F40wB%GOjL~EN6@3yE*d$VcLVIF9dG@y`jGXuIA1CAr657OD2baIG
z#o_g-jkg{F`E0A8(3aJzO@y{2_n!Kc-dkopViW0_R;$;%YZDJge|&STNe+xq0Zp4W
z4+v=+SLNF*BA=bBuHAHy&&fH9w_N0FF<bYo9Rwh(`!=06t8-;yo5PDuAJ#a<6gmUh
zoAv6{%%m`ZMjDUKR&RY3LAk_~h$9D8;snu#1tgRiB##ZE4m%TXfZWPTVPjuKT6*=A
z*#yGN4x-8$bl}v~p;R-fgB=p)oGU2~>^c)@S|YB}Otcy3j|CnYGA4DwjOPpSkJ#)?
zI;v*#J-Y<0q(a=Hj&!h@m~ZNIrCu}M3l>NwOmmnUKs@Gg>3aynIWl1t#SEOGSm+!_
zoj|WquvOjrsa(ZrAmzB?Ft&1u(&Zs|6>$l4dKw~0&0PBqkYY4iCf%P?QNwVsSSlOe
zdg=a4EBjYR)+>7!osTPO-a2#tOsb+suIO2>=mXxbYD!gg$yHs8uE(C*<)G~8NZLEt
z92r-N;^NDps5q%OF%(nk3GM`eUVmu+WW(?f9t?x&bBDnKwDSdrfgvpGf^FU`m0>^(
z3Q}(bG#3m(!6fLL1rYbBrO@6EaT12E=z&>30%Nq0C1(gT+kr&Hi{hAiMU<q7AjYw2
z{2@Z5KO%<^qEZ&3EkXr7!}jrjT^(!MY9$(Q>7S58B}xA^Iq$(yJnGh9l$<Tz(PRr{
znUVo~l6TGpK7ahRq#vOY#=5hOzN#sA614ArKk{xQ)&9KP{``9TB@K)I#lEA<yWi<~
zyJxj}qqhIU%Znc1m*R@0%c;sPxw0!=)sn8>m9A?`*9JBnTvhiLXRRvPG#3$?Ez;1e
z%6&NVacv$J{V~CTXm6>39GW}%2=pIP7&#mGkKcep2-IfnTrFBNuU%TR%bf>7cUU_g
zPHfR@vxYk|!hhoMLOM}av1!E{t*@wC9$YamACSGfHj608&Q;bgpGY?MC+qv=ih;Gu
za>c<-%0y_he%l3~iXN%z9E_;X*{vGH<YGjfy__}EX@3D8N+P1)plRXf2p}%}Z&5vO
z;b02$6~6qZ&`QZLeb@L15Z`<J-=)pmR0vVsZ9};_F3&1lM{qZ(4SA0qN62s9lo7Sg
zLtv&3uT5G+9u>WL;ZvN`B-3Xy<t&OT6Q~ng1O~;O&A~|j9fESHE>`Z`t^#1xSy2ON
zZc}EGg#yu4_bnyfx^w?ds=80E?)&3Lx%%vfLvR+|m<R5fl&eK{wIp4TbT*`X`()p~
zb>IG!@09F2weCB;csAYMw>Y-pZcTgYK>e!d?*nW8JpKdJrS>~dV(}*wLCzNb<HQ-#
zbS<*huU2hyc&U?$668!OeQ36>Atp1aa9Y6Qw7?`nRw3$}r<r}()vXi~2uqIS!iv-V
z-1Ih_b(%%DSWGf5w&6lz!Or-ZY7B#K&PjnLxgjPbqN=%6We*kcfGRtz?#6`n^@mV0
zeec8*OMe%UAE<<*^e^C-{uE9wl~~D8DJr=}syA^>W-&Kl5ZDD8+fy(Phvvkcr~m?Q
zH|J^58Dqtc(j!b$r+8{6k?By*mPSjH^@Z5Y*SXjE*KKcc_X;o1Y#1OlJ;w3@jc_x2
zt5l=8@8I+&VbB!UOpCTf9%n$%<#^4#V9lIo2<CgX>-@a+fki*&yH0GobzHGi7eW!?
z&J!4g7UNbadjF;wO|}-^DHA#-<FYVGhD_oU#=bevXVU6qlvEB<OP{t{m*_Qbh@cis
zlgE*!0A|TbgU;O~p+MeqlO$Am4|e?0ydZocwEW3X91>~0TQJ?T0DSpG8c9n7PQ}3(
zJDLen3qqt;IEoY6IZ*KkLnlvRLK#D#OHAVmrDGfa?~%`783RSqzoFbVb^BLJ4f0Oc
z^KoX_K>cV$6CVrGzoxR7JdU6aj>&)b?p^h4!9#77GCEpwXFh)=05d|dD>TE@xZ*vB
zqf-;%X#5$5IJ1f>qXqJ}QQ=<^h1ig)?2s!vAf4H$-LuhqJn1{JWj0lnES}o7bEUP*
z?HeuoHatV=)<CLtSZ*DDcwoJCR4(;DZfH$449E=wYX{aF4lg;=tsU<leD`3gbwq9*
zN&9!F{C%>&FWuagY95fA2f&r>I?jU|*;Sq_^<%%SY)yJwlkG#YcPQx|QZeNB(5Mff
zFUigtBZ*nXrt+1FE35e+r`bT<BjA059LAdk;KOJznF@m|;TVZHN9p_ItdsLIIB|mY
zl`918V=An@43FeOZ?5l)!rM+@9Y@)}(Znk%sof=4bgftH0jce4N%{85zP*bjo0byC
z{`V$6<M7&U;ffp6K7YEVJz3q6uJ76|vOvgU&XKH)2R!+k5g{L`n4AoG#WpAs+Dre6
zoHla&<PgS@c9WAPhgzvZoVHKtC%W^0!V@RX_%-ga)w_vf^Onb69QNRiZM3;_)x7%R
zs!R6o-7KOYJLfE0@+Pagl4V`8qx(|_0yXB9qDz`Ujg_};TJg@$PC<6AX3wUBe4xI{
zm%3#~)3ytrYRjlm6ZkhCyXM<cMajA@9QI0JPhvVno5pA|7F6Fk)x9!kXXiTwPRP}L
zFS9K@xxEqa2-;gjhi1#L6BNpxLa08&mHbW9W$+gyiyC7I*~>9hA$<i7mWD-uR;ffo
ztQ0YgHc^oNCBAYtQ#Sf@Jv;63g}2QvOy8|NC<@!AlPj%w<m*ZKhGgH++U<4U(cG_X
zYmRiKz-iXgCuZLKQ&6i!&Td*l`{5z-$&T4WlMnCw*+W5jlW*IBKy~I&NjWn|-|{|>
zc&|1zzAmWJc>T;~X99i{b^Z1PyiQu1vq<X-lq?Yul6_pDQpcS;wDSoHc|XCk31tA$
zdpZ{r>WK}B$~FQAWzXot7vUuBqYQ52(m$sv^Ty^sP#8HwR2FT;swnFuPqZy>J;|#;
zrzAN*Ckl)nrudPq7-KA0khEC~HuD8l8OV+FI9k?Fa)FwR?KL;lWQuTrXU|JP=`*CU
z0}?3*)MlJ{>0BU*tyv^79oCgF^%)OHt74_z0BZqSQ-N{|?XF6Z#$z-2lu8jRPVDG8
z)G?uC{UJaw^kD%6^E6;wss;?xb}`ReAkx-o#s%xVwUBHI5-pTM4+J8%Z$3Y770g88
zFBD}FZZ<tlR#=f9cB_-7)LHIZe1_VDSfofNokqDg>~A>Ua86jRa}%bQz^5|-jGeiT
z1?Rk7z(uTYn*?s&!CdFJP1jf(?wh__W8o$&3(f_{f*mbmXYljZODKmo!f%s~4Oqhe
zgjP%cnVi2Q=a=LhgQK4vldL|Dy`GS+QXT>&6Q#3EjDm)-|BxcgB%U(QMW&$=5ko+s
zVwEy26Hc-~_>&61ic|kLDuJKQXd<f05JZ_0b)Y>eK_>n02%YPF+7#(|vXO^r(U2?%
zq!!d^8d~0dR<0jPdwuDOI*8uV)y<HlH0*~grNNoB`!-9snn0?$TdwY2{n~o<;YD}a
zRh@LT0{_)@ub!7{hZoO1@>VU)uX}erFt46l?>z7`?}4QIK+=0)+s5?{taX3r+UObk
zmD$u^^6z`b-u11Ny?biq`Bi?2|9j0#7nj0I7njSIo0rR%0^f5dd&WTN^_L{w4a<|V
zdk;`*DUK2SzutBrG)~*zPpaxh4%suC<Akx}A@cu|eNlRZnk5o&?X>R=JbjFauFhvO
zzl33u9#fgmk;BNxpTd{J85-UFBcujj=y=`vy6biK7sLL76+#;m6WWj{6m{f3g;u@6
zRa$q*LnLk9W8?vzD8#ZE@kR4R;8k^WomC3qmG3x#hYGN2-*K~CC0WTeFU#dhl<6_Z
zUw~Ch(Due29q(v3sag-8x9S+{JJ8HXklc+u;F%qZ&PCUvdy&5e90R`Do~YAf!8g0X
z_}TOLX4^Pp({fm5!nBNK{x9&nX$8yd{5+OfZ|edbS7zgQt@<n$*8~=~z^Fh_XV=@B
zc_Xv{{4?Yr!@cGO%RLABW~P&edqvmzITSE&p|1t&J;Jw4$0?)pc(cIh%v<j{^j=`o
z(?#EJqo`m0Uw9zD{-5AyEHPtx6)!CqRhV}jVsKT=_YWuy9hpj9a1@Vv$3<m%A)5%e
z7`UZ>M=4}VVZ{xXXdEwT>NZpYwL38GY?Tb1JH9H3;aey~*9j0O1$;5qjjhbM3k9mU
z8QikQFEjRT?#$;eeRUWATppPeOyb00X7k9aMH~I2>y;-LPo;fLDPNE5>sh_C?mMt}
z_HkWDs_u|ncPL%oo~rMb>$}qp9jS&MxuFM)Z~bBLz4ayc#uiU5;Vg~=r&ra!S}9lc
zto0=ON93xJ4_}Zg&r-2%i>H<b?w$SE+n(|gYrOW#!>_M<$CK`H6*UouENzfObXuT9
zWrf*UCAC&n`C-r{sf8-(cm-mBtBR(&rb3scV9c|A7C}%}L;q(g{p;iqwI}T(C&OVE
z7v!+lC=s#QiX&6Gl~t@V-oK#){|7mLO%CJ3iAV5X(RSHmcvJ;M;!x-MzUWAXX~1Zz
z{k6({_b!cQj=JQE)5-p4;erd-kH9i~`I8}~zEo+eT-v%`+O}wY>}y<}O*IY6`12iF
zEXm^INzLvnsfHmLf7SaJ-5+~=%YjsFzg*kDF?edj^K8=oY|``Wqw22JGwanu5Jp?v
zj^}vd{OSD(bGIA+1_FRUX+Hmdhu}y!NcsbE2$+mUVa(y@@c)E4q*vi&D}Mfh0?EPc
zaW4K7cu4Wn<g+$EF7=YaXEVr<a^JFd`Py=wT-HXKpUt2d*eQ!``H<}GAQjMNlI`G>
zWu<EQoLs?lL7Sm%;;i}=)IggzhrSqFw?%B-W<|RuNx(aw7o;Fnl0ZH~lJJ=epX!=n
z9b2T{O~ZL&4`8(UcM-Fb=0uhl6p*23fzMJ!;R_wTBn&LCV_V6UAjHL<%sz36%i!zm
zQ1z&#NYzjvv8a@{EE!++Cy0Q6fc1@5UpA|#G=;9x4b4!LE^>vYB>ff+QPJ#xn)s3L
z&{!WrR;(HuG;~v?&2nk;dtK|LJ$KK1TvWCcNR<cV^1w#dGaE%mNmVYs?&(U}yFPX`
zF2~nhtw~EOgEI8qtP^y(mSH4Z=wav9>PdoRLoJ5>H^GqREra_H;mH=M%yU`LHX#y^
zRFVa4b~6Bcl17LEepDWNke6sQ_83qv$>MUJ%xjEDp;6H3k8kl%my=*?g5-;A7#Q%`
zw4xDUq6_H_@{PcOhRh$4zX%yv&vRrm%C4sjONO~|AoH8}kADS4v4aeI`O>b9n%<3~
zzDJ&}w7WFzu1S|yLs&=$uoj0CXB}#iu8pGZN1l$tNnDLT5LWhn|K_?gkhBEU^+7Wy
zXH^)KF3phFO>A8tP5uKasPJLF#=~Z(|Bfk(7v&4A4tLh-;O`lNe2lL_Md3igphOb}
zZF9{?D^+Bu&P5Xh2K;OGd4AM5lhMZ$WfI-T9>J8T)cu+J2Do!#{(a*{3C7<t_d{HS
z#vNx|3}M$qA?DX^xT<#q{7kJo?oUkNqG%)$2}iO2`e&xq0LtQ|jSgykxaH~B$etec
zGV2I#kY}#bVs)y@=EMH;bg|g4e)&oJjPm39r*Y$oRoWR3s25Ok#*kLnApW<8;JnG7
z<9LSOUc#OZ?1gbvpZP3U|9$=~p69+>ZsBIRKQ!M~^;w}HRLaETtS(jO9s0$lo<7_;
z5bh{tbl{=glTcxxO?T}a!*Te!I4RzlmY$gluyUSApE;*6lKu(J{5rJoul|w<uw?m*
zKl%EH<_&M_%86uPIORR`ldu1p9UK2{m5-mR)08FE7HY>fe!6};?4K*6%e=TZ>o=5B
zL7aXQMXMwZtifogm613w7^5oO<7Vv)G<X#=RMAx13rvkyU*NQ4loI`fNbR>oWoez)
z4i>5k_gJb#$_JEsmih?PTf#vPr*crP9K1W8u4zuy^vX58shSbFW+Z8;Bs|>nUh76t
z`y)@&N=dSBWZiQ-X+Qq4!@D&8-sK1TR?crY1|E6J*9lN?);%vK?JquZdehFf_k`7F
z*4u}ZZHJPF#*+5)VEJ9PP0plURaCq=y-)|3b;Ur~Xd_e<G=%MkhY*6m-$Iy#1vbwS
zIU$(Hy@VK2iVD*W*=HlK;O<`-xBsrgxJ1FZ+wBK;@w5fSR?Va+3Ut|e${!V>j6?SZ
zBZ-2Gr$AqDOOftrsQ0#E)MF-sJNxQ##ZqN;=dVgysq{QCRfqkTaYa0VTiDU8JMOs{
zAg4^$e6=utX4O*wQy7!_05g@6H%Tx&#Hn+LfURr!vKdLvhcsVW5rgSc&e`jhpZ{4=
zW7^|Swhqajp@(I%XE<pePP-bD7FEGodIgC;FeznPr$f`Ex;i-}#n??Y^`4oJDix8?
z7;UPYP%hh^TM)e?`nP1xH8P|N4zUUKuxH*<U_&m=+K?@nJyu-IBVArC7m#yyeuFJG
zHuTc0t@`ux8{0%y{)}j%V18@~#`Z98(Kn6nbH8s|uw`u)hL9E8gP8=H0{X1fJ~3xP
zx|Ww@z<RFkg-HV)>FYvA`an;N`63*lQXA9<sh=DYq)7Y80UGBdLhb7HSRy_^oDf>d
z8`lh)11^hSXNRBKgj5ed>r|T-x^0TvFhc?5MU`rlXc_-o{Kx+oB{Mu#*_f&z*6Hqf
z2poOAtF!Ah2Q?J6XQR1)qX>8iw+el9rLf~by0I6+PTVNe)WjhJbyh5$-)P;p;TU@4
z@qd28p$*6WN1oOl6K<Ar#hni<t1qp09!ho`PCAd=J@LrduspHuY)M*L7=;58*`UZK
z&=KR&XUCQWvpx5WB51x2oc2RrFbkIJCc*jx7~8<zYi2+Lx~@21_<`ktOP?J<DC!7q
z(JmB=4xt2Z54%ES6H2qxbeuw&P!9V`UYtWzAWezjxn^T08<nq>1l>ZFSd6>~WqB<^
zHO?nILXB7|mQjdUPOjh+y*E3J9vB|6vT!(w<5<3u!tr8N;c%f=J)2=|u?cl(OSMoh
z)`-5}x-^T>fYNG(M)dW!X_ZB2LOFG;i~|NB4A0GB!)th;tLI0aMh(_Y&|hxGx1U|s
z?h;ydfJN&L;k(3Ub+m-G9a6Bd)M_g{Zp{qBZlN6-(Jey94(03sCu6R3q8F_~K-`7#
zv==Tz9Z#AMfLNPoCm;I18#&wADOd+~?rx=l9UGsTl1@xb3ZP`CV36urkZ`!p2>)f!
zezup{HE>*y(%!GAZ^w1qcvQVbGt<n2OBwc;Z)x#v7O%z3Rq8eXRQowS%o0G)Z}bb7
zi78;Bp5IilyXTZ7`|^3uTy<V<Sme0@>nuH>)GO7J@)FE>)nJWQREwXhR|9vb#BP)d
z>r+!w<T@l|p-J&Jx<*ERB+|52_y`j#jOQGU(B{cD(8KUx1KmMCT}K}hKWoZtra}(q
zp(-c;rsy!!BYI}e|J-DBR<&V6))T;JB=8x}qHj%#6M9TAmP9Or;(U?p(J<;2V`rX-
z##y^1cGga9Bx2+O^+c8Ql2ND|Q)JnR?y%1FKXp2=6K7^eDwCxI6ohu@{MhA9xf*4N
z3T|(>I?~?yk4tbz_0W2WamS7kDFL35Ac~7wR#G=Yl_<g1!yY0^h*xJYJq9=L9MzU@
zNdOQpz=al))IiadFC>$PmVe<g43b1`8o4;F#ohFfA$<T*lVybf%4+&XlgYvrQfs^0
zwL{thCnzAmu?<M&f{D%q3e^xYWKf7V&Ra4~xa&uFRpwjw-K^1lnYUnOwG|0a3l13&
zz}XIQX?c%e5KYpn2~zQ94<Lm5wh7WkP`^!rO()787&fT@HzIA=lW5g_JG66`9-ny^
zhQ!UnDGR^^`P(z4={^v$+3mI)?RNY~8*{YVC~dL?XX9D@U|&XTqRS|ChjGiP%W2f*
z(q&#K+ZZ)SV7m44GVhx`8NcpBu4>&6I~Q(T?}(AH99S7FKd*WS>4#_H;po_T#d2MY
z&akU3rxbTK(v)Bnl~XDUqD<WMzJfY-wrEk3i<KcN>qluS-AY_YpoX3IGs^|As7CS+
z{r0j!+bU(OZif4`NX4ci4aLPwnrI)zVc5okw(JDiMvUVU3oDM~0;;tQBC{2zCc7X*
zC+xB&yXYE18rs01@WE(c=@4~`RA88C1jVK0ViyW0D2`NZB%(N^0|cL@SooF*3pUe<
zS+LX@>v*`yqngLlG!<F*spk?&-BsFsn0%86%OciQX$pgjb`NN$9on$`QAv1s7G*)e
z@W@`Q+x>W4R-Y;h$Yp_4*`QoDxM)jPx1_3j<?3E&8`O8C>i5d^dsFqN<oZ+4NO)XT
z58EHEbo0QXWy9VG`FgQ8<!+SSjVX7x?CwtDerRb`s<cHeZAq2xkxTci`F>V9{J3v4
z*^6^BHR*=C`?0$`<?fK(9Z7dD%dkr>-IXfsl}mfqhJIFh@bT`x#Zw#Z4hW&$4JlW@
z?CM|Z*l-O$@*hI-bZLFMrQ=a`>&mIs@%8FM+YW1U$>QjSy8%+q-N$*RoVs6b-Jfbb
zA-A4LH+Q6(2j%9$RP#}}`DnVWE7f*PZabFV-Iv;ZR^ELU_gPtC$?g;D)uY?RMY~bj
zpS#<^SU0z^a?^o5^ltyS@j$w!6~<9gRh@EG=Ob^^iY?iBVBLEVlGi4fN!hU1L3&eM
zmU1`AbYu3Y>^{0_<{ZU;Ztqsbt8}!GBbp=bnl`g7QY6@!I1o5}>EnJ!VFCh5I7S-W
z*0>Age3zevg26W@{^p|DLYtz7?u#?Lx_~Qh53G7^B<Cq~JEh>JYit+jv-aRVuLY6<
zI<#UBZfr60Jc8{9CTs?@&Er8W=5HSQ0yP;Mu$rG-ttYMo9ip&Du<K+ORG<u5fIw1+
ztfTRa3_x&Z(g$4Q(lM06)G?K!Y0a+LB?N)V9HAJBhJTd&C&_Qlge#>$L{rgML|9J(
zaXooGJ{QmqI`^DD<rk*J99gAG<!N@Xdh`muibCfghyu+=hKBs{8&fk;feaqbOycMq
zHWguMwg+nN=IN<v6|FFV!ZU<cE>g2(a*mSILt$TrPbnFJy+esee3ewRspq^jd9!-#
zgd`XE6pB<JEDir{rYodM6;x8P2^s@ZT!hI&n7ssvN_IuH`@if+Xzs|<$;!{kewI+%
ze@4^TsZ~wmTXXm4R(jTUt<xcFy1F6f`!T6dHLZ*#cO6K3tJxRs`FP)W_1>%Mwc(U!
zQ1%S2&Hl`D>``@J+Si+I-UAKSnsVG9E-MGh>*#v_*1NY-?MLPIqp9|@a{Jk&`|RS`
z<=RKy&U9rfut~b3|DjWEJ^`dqQG(+bC~&)R?Fgz{JJwX?Pd1OOSDjCmp8wd}O~q6;
zqgKj}OZHH~^)w_Kj;@y+OWKdAh=grF$I$DZ9A3kM5Lz%>&%j~YNVJ#=>lP6mo%cZW
zriFt2GmS&uU#&|~HLVWalno{z+obNI1kCCfUh0;348Gh$E}u5oSRgR(No<o=W_)h{
z=Zw61UE;}%Q5y4R)O45oq=dtUfb*|io$sG}_gre%xV&pTPbV2SGT1F9L#~OOoB^sU
z_}EFVd6y|i&g1xqIOH8K$`=GM3{7PNQ%44D<X|w}0NXgNyJILm7i^V8bC7yt4*2E<
zKL=!mGTk9?9YhUSBGBurNO}A+gvFljq`e#N<7(3RtKPHdX1C|}$eul`LaOJe+;jB9
z`gPBE(yl6;=-QYJm^rW{DJ`3Jq%=jlm<lh!#25uDzL`=e+bNJV|Iwga*r1njpLfBO
zB@H%Zq{)RCHXZV~CCnAPe`Ki6qD>~Kxtb?TOvM#@0K4jK94=<sDlqd>P;B*DaP1qZ
z3YMHXqAbLQWsHyM`v`VEq5;@bhz$h$XwiE^ioluzEi7O_dDc3v?k8VCc8T@^_3F7p
zU5XcIVzD#oF^W1*4w0rXRY!)G!T*O7@J~Z(0Aigj;pZvK6cQ@M>e|zms#0v=0aC?f
zTiz3hz9MhNs@Q$t3r$#-=UX&ie~ebJ`RcA-dIe&Gm7bru`qJLU<yT~Hd(z#`=4#G7
zX7@P<W#8c1xpm*M#gdO*l}nTFG2>zzu0i1Yly{Hp-LpEm?md!pANh-um)2`8|Kw|H
z=a+F0v|ILduRg!->;3R+i^a*B%a5z;Qq}!(b^jl?{nNmY0}sd72hOcmk1e_%RoB1u
z>it(&4zD$=S0BX|!>)<``cntzdx2LKW$UYs_gQktJb+bQAhq!9glu%pf1a@o`L>Oe
za#Fs_<(cOCo(|k6bG%8QB?$!G0)VNE7MU(Zs-p3n7Sobugy{v=;+?J~3pp2$?_v?L
zMXnKT$Z9;9sn7Nn{iN$G&A2ba(RUF>Wzam#MTe!#0%$11?rC>gc4U3>(=Suc=@cA2
zuNqzwQdPq;{n5pTs?kMP+EtZwHKx6li)RcYBCB=lo_$ICKDOs74mLTVe@NCErs7N<
z8doX`v2<8IY{${)wF!cz{t#ixAWN$fbHV&glK>KUhh4f5Bxz5l8v-Wdh5+<>*-`7e
zDE#6Klmb*^gnqJIO&|WTvG9u{d-{9!X-B0*pgjkI@s>D?V^2_@bfOB=AEHFp9$^<7
z>I*pDykd0uiXS$6Ayu9AhbL4^9IRYjnSshPU_$4slshrC=c>2|Hz`3(;+&OX6h9jm
zM(<`d1@h$yn1&Riv)!cQ5Qm8c$sdME?K?2o%~<b@QpA;(7cQN=IPBMipkJN*5^R5W
zsO?2wFx3gY0j$QOU!5GebO}EOFfx95xaCS#t(VFAI_XCGwW|PGmHbYBw|}sI?}2WA
ze_tQ`0|yVPuLJujW}vUHj{@0O|6sR&-%vl&B31uBHT<AzRh$4bu%Dv#A4Iaje#%DQ
z{RfBkvkdzYOeG8q92~^!VBcPZ_YdwH8e-9X{V(OV*$=)!lwJX`KMnCLom-!K5jM-A
zZq@C-E&6YS5rx52!S2rz$Rd=i%{!?{^jsA&Gnfhs1{EGQ)-+JaO~c1zB;EeF`o&^t
zFw`p-@QKq<6wMSD#%~&^M+DkPtJV2CVf7a#+L`_ID-3W~0^QUJvLuU%7n%H`VDIVa
z*>MPr-sKF%|MMZpE-!B=zC<9Sx$WP#f1d_i6<V-GADNtp&d@Yxpriu>`ZbSi$RG*D
z85J-9cT*6?g2n^$pJ^9hHSOC!<nJ8V3v>Dddjr{p#4+Y%wB9IXVoCyNr*U4x6p&~f
zaSWYpfnRTF{&4GCi&2y|{*fNBhjn6ya@4g$1ALWmiC9>%i6$K5Q*Vc{#wpnq1785Q
z0Oec>ClZq({7_1mESw+=AYixvw)Q6zMyr_a6U)y!K<GGoedH=oQLRR@VgIQp>cIJx
z;O|7qAb-S3{0o36VQVT1HR|xwkYd=VnF^za-L+KJtki%k)Hm$EpzRDO6ZbR0#1s0Z
z_Od!O;OFKpw1beUN=8(u{kQ-M12V+Yi=fPG9G_nv-D}eJo?*ZGdn=fH=q`SagOH=z
zmV&65ek&uhAgP1DbA?eEXXxh}&aiFm%1ggP$200Vo$+e{>Sw$s%6=^%KhH}B9Klyg
zS7^sKsq#@Pn`rud?U#rk_!>DOaws7)nj*!qU1mu^)q^T#$ab#n>12=wsdtD1ID%3@
zRt9;_?N7S8()Iqu^N(xlQ#D<3O;@U>U#{s-yDOJwlPyCZ#vr`&4Qz2H*g!5O&Z$AS
zyvrJs!vfJhP5)bT`n(f`SIDegM$=HI|1_|aOhDv316fIQ>N?CV0$PkjXJ9~2I9)49
z0EFhcpALcCqW+u!L5DR4KS*R?%F{1<`q%cXdkisyQgmDW36z|!T9A`<b&YlPy2=;B
zpa0x#0#QRv&3o>8amgi{B+}x^NY{0PGlL0mgEN{3mj+8sT3L)kbL16@PtrdtczMR)
zpg<&nXTndeaZ)E72sn!4w<2^tO^3L+W5_GE82fz}a72t#XAF}KbO`o3iN;oONAY_w
zAq_A}8FVxu(qN~RT29Suv`DpFhojgi2Pi8794#m&7n6urp4<KOam%jif1yzeq6iSM
zHMOt}?ee5t^|Grz>DskgkqVrU1JH;(2kn@Y+b_HQE4|6VbC4@-xX*uF*0Qp9ZDFJA
zBt-n4N|o$i*}t|oHF!oIJd^aatb5KT?PnRC3p<wMfzG@u1~}vq@yj8htFx+67X7fL
z3N*+qvI@$6yd)kX5CCyXByEsxQRiLEY`OaTS6Sxs`UpCtZmU|R{sZ#8L=IyJ`pL(X
zo0wixhJSsLBFZQ)iBMF*C6i+^W|#N~#WXpo*v_-|NLc2aG(dU2O1?ehn<0l5jYQ)C
zL)rMrD;f)Fjv`)#lYJASiDJn44FB=-7z4Tq;pQ5elNR5nHm-6o?c22yN!IjzVl_9~
zl9t*}oE!`f+PL;3>DGaC_h`DN{}Y$3-nnhI`w(BbS;5)LHcb}mk<~#mdVOR~eLWof
zu;QN$e@Y=+u==MaK~2Z`QT|hI5JvmvHtF>c$?^KB<yZ9Dyvh5mBYe81annqm#}41}
zsO<1>S?OzYly~B~L{(d|^PpUHFnRcbTy<g7iZC<~jBNCNbmj7D+du05pj&R+FIVl~
zETTBvr}w;3f3JSox-7mEeLK2(BH0Kn)IQnKx8<M&HFoQB{Nqv-J0h2k(7pWUc$Bzv
zt|FGAqRd+VxDr+%@P2x7O3=<*TUSoLfBN0i??3nMb7bofmtU>cAu^GOS90%Z+?BNs
z;iqQ~ALG+|0Oh^bhR5ETw+`PwylI6WRaE%cR}p=|F!{jRsN8s9(?OrOd)4sP{QdbA
zL9X7tNqGTmuWz%Me9%o}5J+NQaCB{XC@jib2*3ava&21aBhv|s?5N)=VqtEZ^&G!)
zdi901!H3p=?*3=)<lv~h=cK&r6qzYI$NzNjr}6*cz-P>_N^@y`O<>{~kB&4y&q_hX
zdHNZ&_=UfziGsgI4Qz8lh565qw1AzYoJKq;NfgB1I50ObcBXVapN_qGQh_OypDdRd
zY6@BTHDJ(hM;6BKg)XILT?#Nn6vQHrGdp9_U6haejdV{=wNvH<8W6;5VK61qe@~&5
zBFhAW7oXY2%hVfgF6}g&?$G3+_xs2&*H&nJo-obu3&QLqbpvLvsL8g(TUDE?8j!07
z)~oiyD5Je3W%tQ;-*We=E7f^i?mWKUIl5s#nbsrHZv2izrD~5CGH?gofhrAT+j@A=
zD0_}SgqASrjI+sC*wn)eCWu7N$JDk`w2kh6Ijtv{sRw$iGnbO&%-mumrDy9VoNP5p
zrdH>Gbrxokg~aJhc@S3k$p(AIXameLWPho@k79!=rT$AP&a7WbaWQ2zHwM<J_*7V*
zfAWX^#<MH|{3$9{yxPS?rpBfjYhWh9W@f+xs8_?X&kspl!zi8)0gX5L*Q>t>fv3-Z
zGSX1!OmqQ1eL}#>e+sQ7P)K~{D)4uzGnZ%X)j;hD`>Ad|0_MWZx*jzQFmN~Zfyt^S
zBa&Ni%sXxxr=po8M%&5M1CxI*xZtzW@GZbNeu8EOdvF!I8rN)!a0R;<wb63Pdoudc
zf_)xWmhV;5b>;bDoU{^b@j!XWP;pr(K`DlkiW*NYYIjoY^CdbyVHcu33#CX;5qZzN
z1EMlRU1ovK1Bmj?d*(g!WqNrF<w#?wDrFMRmuFfB99DkQPy@=O(cy&?1@9XbZ&XfL
zB4jvYmu5J_yHGLjov%P_rFPx`Wv+$F`O2HknKE>rUKUOqDqu>(v{3my(|6l(_E5D@
zvEW^(%&0^OF0|h@@1C!E;MT|7I47vQjl9g{MkVFLsX_6$w2exnx8Z;lo2RAzm+&(y
zCO5+I8xZjS8+<<@52iugItGU{?t~rG5O5vDOq3MvO<8{5ELiXHG|YnSx}nL4)mk*p
zl>O$4I#r<{yZkWcfKZQdna@bwXw;nJaIg9q09|gmITgXLgsPXxlc+$w;HWCYC{-lt
z&N2)JLX<YfxuZKGg&t6<(b>#}qrwGvF*Vt5YCv%Yvf;P(-{1eZs$u!YYT4V-<*%(C
zOjhhmS2QGH->jl9UD32zWGO4(GTZ3n)>d4i;>hozvFx6<QmV=_)yvgPknGF|v|-<5
zgi?M>9}ns4@F^Y`sK^rH#bLhsk0=@2y1qfa-y`P+9L37|gdY$DM`9Q_ETNu}#T3ne
z@@-04&9n~Knf!HW3VOJjp*Sf(v6UfKkf!yd$0_O+CTb58$r|C6;0bWJpVv^umpSgw
zkFu(^7wu@LgrENsC0a`XpUUC>C-_xsFodk7R|y_$l762)e+GwsM~K9S(!ZvU60NIx
z2Wc)d*h$}10m!BTHIF6;l)tp*6RJ;80ZyjR%Oa)Ms5Yj|>&}Kc>^Q?lAh@8M!B86?
zmuNbwT3UpGh{Y@L98;&N^lj8I*Yr8_a*MXze~gsB29I6}`}|KaAZO$1{qG!n`(Uc>
zpj>wlykXi`N0tVL$<hE!$<#oBpuGBi_5FslyFBgorrj+t=nrdun=Y=r2{v=for^Y9
z0@A~~3-)nWzO?S$vuIEInp3_$+1I!38^BHXidtOjuIQj!^SW=-UgRiwaOqdD`C9^Y
zsk)|A?T}nM^l@o(x?xwkes{92E7|jmT=z`cKLl+E=ueojC`d)BZmY~u=Y(0|Dh@_i
zYX;<+0kkdYZIj*YX?NY0)$DWLD_(Rijevpy5mebHSN5gd6|Cu%ptGx-i$vT|m3!sd
zy=%b_Yu9VX7CmXZJ7sT|?d>bycv!Mwe-=c4*Klh0QF-^#jol-^vYMNnf3X`pOZ$?2
zxf|l0;>sT%Uava#<HM_aVKjE({=%EzSUW6N9h2SA5CdbwIT}CZkO?3x^{2}kV9J4P
z_293*KXa9ZPXDS$_+M|Eku**!vwv1ye9~wCvt89ED@y<DkQM%aSwXH8!<Yt&^SJA*
zANQfvsoFv&5?Q^^-%LJQA#Cmx=2PcTu0+nKG;`*WSmjfRHR>7oq<D-6A6V*L5|#(=
zNA7zztrP(Er5xsvnb)3U)6c=eoLpnu%B9uzmEVyY`oTIi9N2WR2rx=*D+#&0Ym*gB
z>{9J#9*X*eBUeRy)SL;l#CY({o-H?C86&r|xKyn)sw?8u4wnt+=eeFmF6lHmXUG{R
z=Q(mNkh4q>AZL_tHZdZMQMWqOG!zrS?_!0oPDn@q#0o1U^lQ9ObBgy+D2W49D+)yW
z!7#}z6J=0IlARm}IZkq1<WMIh5=|(;V^A;cnVghfMlJX~1R%9Iq>hl8#3drUBsy|s
zKf0sd)+(b<?EReL%TAjkL6vB`Rq6`G>$+y7NUUng_duSF-}q({6{U&^XVs9N%m%~k
zY%6VrB)96V)gCCmMqXh=vHEj$%}+_I{;(bUl{@tp?K+;4nEf=M_H*6r_sA5Fnwp4p
z$c}KfNK~0pnHSolnh~g{IJH-q?({Grc3fR7jYy#`5kL8wDZ>+mF+DV?g%Y%q1F}pt
zjH%S-*NZKJ&bdgG)lR88$mt}9Hb~WcW*2;luRzXg5di19)J^flEFQ-5*)O~^36xU9
z!e$cqE$tpvCLfBkAI6q?sPJCOXPLmyuCtqdutrNK0oQQY7guFjgOqA7Iir|vs#O+}
zlPNY_ucd4xIa92x0w%Lm#c{)w;}A=yvaQl#3OPc~QF1PlLmGgpB<>vfB&s1qz6ElA
zmz=*v&imy2LvsFvoS%@Rkn<nN`2{%^%1hP@RGTsE79+dEI!m#4$e~MxO1b_6+PVS>
z&S03_jd7t2v$4gUyWkc3VO8q*jPy@X3jVnG&w>2#E37>KU+f&;^mA^%%<ca<cQ(bH
z{g0gcBd+o@QxR|ajDz#5QjXvE5qIDhT+2t?;78oypK~vK#GU$x>-~s(<};HGDL6Qv
zl~{Qb#7ywHv$G!gh}-jX?wMb3%|GYHWNz%|+|iG?w$DtN)Eqy?Z`+Fbv;6YdHb?Jm
ze<^QUac^^YZMQr4<2-%Pd$X3a)+X!s$(DV|1JBEr=dm;Ku(yGu2i~;p^z#kN(mS(n
z&u(+@ZlB^UeE-soZ4R&P5}vPLu7UMMzJA-jn|CG~`?g^_)A>n|2L-x#IqB=$u=d|I
zZQJT8a_`zj2*9>Ed~82s=j)TT{o5Sg+f@NX!=mqi-1^Km*aGMFmw5+*nhqroKPNX`
zpoTiPYfSt}KH0c$8x1?jZ#&0$mMeMaqTG6E8>pXmZhp;V=Xa$YO`B%CA6x6UtaxuW
zasxx3Ix6_xX{USBjQ8X6&ed|cynEA%4{X!!&edJAt7ntaU}v{AY`MtSQwEq#ZE|=$
zY~7;QW~Ym9T5a9r@cK}F{S-0y+T6vp?@pIjeClfFp==3>DBh3Dcd0v-6(6XlrhZwt
z|LUfLzM#Qgx=D#4`Lk6ft2<?DXR_<4Y(2VFOraMcbLvd;6)C<$<~!1s&a|U5UDgR&
z#)M%J%{=6M$KOBm?wMro$cG@eSjd(Ov72h__JtxBe}Yfe^=zYoC;099^8_(JMu0q<
gf+@FxhP0z0QvuIAl5NK!_~ad|&`+H3vEA(d2J2@^tN;K2

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llava_next.cpython-312.pyc b/model_executor/models/__pycache__/llava_next.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da87f1d5534ac584f506182361920e66fce20c50
GIT binary patch
literal 23721
zcmd^nd2k$8dSCb47cjWb0noTHxK9!QPw)~+Q4m+8wCj<S;Sk**2Aml{Jp+=!0yfvt
zI#9f^NLLb4*|i02HYLcSv)II`z{ww`xBQ0^JE`dfotbpFwM<#DOO;9m60lx7e<b;R
zucvzk;Bcw6^Iw|8o7eB|?|tuk-}T-f7ZkWSJQ2&UhihKrxId#8{c&U>JCi1kyT`rC
ziJZtsxF{dsd5W7Nrl>h!j#>g1_HK??qqcx8Y7f|>j({WT3^=2%fGg?_xLLj>;t6<A
z&k`w!76uAgnl<8$76po;#ew2zNuY$K*&?OUvOrn1JW$Tw?U9OTWuTJ99g(VNb)cHX
zospVoZJ?ILT@hcjE>Oqf?nr&KA<)3$o`?`_3^YcY0!?@?5DO#C(Uw39i+dxj(Y8Qa
zv^~%s?Fe+Rw4#VV+8OAKb_Kek-GT0CPoO8-8|aPp1^QTiail*w5Ex+blE`3mC@>Tq
z4h%;}0wd7_fdeePG;%OH8W`m{6ZZlqmc7l1<x=CvW(}HwF_v0^)XJRHacN8%U$S#t
z;E?2!4vSTXQJj^mM#&nfM{<5_$+U2UrPm_eCv_R^9yM{2Tdb3gKB)f~^F>eK7%SO;
zl7iGJ9jiu~QT{l~YeZg?bX+>RCvO66RnNZ78rc&_6Vg$s`$4nb3TvYUZL~^-v%j{d
zD0`9GrH+rSTKdPC?7*o-i@)tNdh_#YVd!c+A%~_CQ7JJqC;CmQ<6J_LLsuh`YJVv-
zKOc@=^V?MCL@YL!2qh#@wVnybLJ`$|Axz~Ws^g+OmzbNHi>S`ai}TV%BpiyXc8b0h
zk|+IU)pH`0n3_2wg%S(0q<SwzLN`K_(yheFx!830np$EcprI)#9-osjirQ;ZA{dG-
z%2GTSj)tyD!E16@48~_d^OEXbh|PyYEgj$BdMy%(YOUd|^rcrXTt4^G%cmwT1YbG*
z!nsSAU-=~@m%p?SNrYdT6GM?RVJRXS<(=oK`Agv?i7KCq;j5yO7{<3=mSPx89Ha4Q
z(MwY^QZ%HxGjBAO&v*@v-jf&3U3@JZ56{KWhZMngmt}iA9la`vB0w2eOD-+U&(Fz;
zcs5sc>1h`)0@l70p}53=k}YC@My)h*Gihk`Tx@zytz=bBEkvV>=VJ2<iTH_ya72{k
z48$*luS*$-S3TYMtTdIFlhxXAESw15V4o38%-xja;PjjvjL?(;I>nd5*COHh+|RVA
z#S;sOxvxs$Ycq-Xg}D&*Sde)o{K0FD)+#0`C`;GEaX?rSgHZyL>WPLHuS&srS(*;t
zLKpQk@3DnwFfK(fCX_Qqa~;z$l|f?m!$>D$JAZ`W9w%`DUgQEM5K2B^7EJ+*WED-c
zuq2ykrUfn8CC6+DBKsaJ`Ml{=mxuye+7{6&+C;nP5Un%(1Lwy!t&wTH2h-2%L3HJ`
z<JJj;QP)Ft7hV1WwVKThEf0p47sI!th&G*}V?Z^Rfag>=3Qz#k;^XX{(t3oev2lT|
zG$9UL7CHq$@v0;XbJGG_K=GWivH5Xf(#W2t^(n=LE@2?2%v5fXshLnLCPm^x$B;j#
z%*?oOmd$)l+Rbs{t6?!Q<6>!(a|uaE%!Crc6`IvdS62i~yKq$!#PIYqupyQZfGEOM
z8i){ziQ0&}SqtHqaC0V%^eHS0G=)l`L`Vq7h51lCE{Q@YE`)>#&`Jo$fLkGvJ~^Z{
zhU^4e#l5U8)iX~34c-Vv7NodpNq|bJrmHd46r2Byb_kW9QTdy|Lyx!^3q`|IK`|VS
zPku%eU3F`Oh`<~7dsIg-h$2!jsJeoL%?lBVdxF8Y7DACsjy)I@=ca-|xf>10w4<xu
zAm|z+rZj`dB1BTHSbkG8s!by;s)fEsu0+m9+zvwSe_iNHMCbeF!}C3fkc>srb8F$?
z*y#0xQePx|wQqhA)H~L918c00Ev%q)OPa#Ml(pA*A6vu07!a#>eo^j3lPu^$Bz^<I
zH@VMEE~{g^ifbLZeQLG+POsu>+_DU&OKQ`Of_FXdc<v<bpML+sdl!^SzvA%!XGiIs
zQ}<ie__d*R^XBko+at%swwZUH<Uco?OKm%x*=pN%aV53)N8UgD-r@BYrMCA6?#)vV
z8@KvTC2LP9#it)xPRmF2f$Uk?Saa;z`8)Xe+pKJ?T$jjJuD)d&YtGKroWt)_>-MfW
zgIH_pZt1%Wb^i8?E<7C{7uc#6rnSwGtyI>!wuEO;;A~hFrI@ycJE9A~>L^<kkx=Z~
z0yZjvO)s!}>iX5Wn53;n)uW-NMEgu!L$)4(PBo)b)ieWCr$saAcgrJ4mJd*Hkb+SP
z4CIu@=#>ys9;e_C1%!q25enF39i!NU9-KfVPHhtYSb;x<`|-zBdgt`L3wJMk(6ugZ
zoZcMXYC4`QJFd7U9$6-|7O63{Z0{s!u-}6e8UBmgA>_?P3dt;4@Xt!*TK@yd=h+0C
zuoIUWZRhNQWg5sBTLCU-el8qK#3%js{SYEtl&L8IGnUXGv=16*sR#v^@E0#f@J%jV
z)39b)yS(1~!7qK_RciVlS^BlFrE+_|s}KqF?8Fdczf0sL^R!7cy$$|eG)q>*Er{Dh
zt7I2#_~Rw}G&UrpIYbBEo%nO%&y7D1{&)!~D8n|WX^&Wdk}jmW(NZDeo<*;}D8n|;
zhO>{Ku*nh_w%8OgIQl~*lKys%Be=&cbF=u}|IAW}eNRH4JnrL6dzZM6c;XJtQ;Az@
z0qy!T)4?gm63PXr{SmKPzynOjsk|UFtosV0ORdIa?j3ONo;JRQqH)69+g#dP`tGfF
zZl%1finsN9b6eg6Nyh;;7pm?0O%T)go^K>}*^R%Q-$8H>d;c@OGQ;Gfknv={a+(iw
z%l!BF-{4nF%cj{3uV55J<aR6Cb>^mMah*+{r7`S#^t=`GvU%AQG~m2!y2QyZqp;s5
zU&N1El!3*(&QZ&RWU7m8zd_o-)JiIn;jN_D6qqqN7$!clkTS9b{T7+9TE0vTcrZuV
zHouCbI87{3FKvb(!*WX<&zT{kh1aP8np8|uW&fSTy<2y0r7HWC%Kk?KCzZ;{hc^(c
zdbS;$rz+)cQrt~RcW1h~E>%6ERF7;`A52xBQL4{uRi9lwpKj}4z3|A>{KQ+Ebku6o
zo7u2$5<8-k$Qj137&A_@NGqIS^(o*Q!|Gg|M<zWvu;=n&xRGy3WCSjbTei&VJDJu9
z3zzw2(*s`T0hi6Q#1`y(^xPF|!oY)N(=tD8LV3@=!gxhb-ltRbF+DKpyWbo5-WA)5
z9k^Hgbb0ClEtNi<qqnqdTed$i>mns<&9UNKb}T!WXcSfoFL8d$<VPl%W><a#0am#y
z%Q^wUNRl&1u1sj;x2oPbIed*o%b+$zYN3&!O`ropA7fP2B7>FG%X+gZtgzoD6JE(g
z2ILL|Y8jz5mC{C%m?LpQt<S80%!ZtiI)Wq;C!}kOG67XSNA=mV$oYzzpxz)8Mny;}
znMUGjd3Fi0Z;eQ?Yl#_*iLE39E~?WYd1`6CrC59wEU(@yTeh-D1CnS!<@@{9)^%A-
zx)}+__Ew9#P=i*f_GoK$8fi=2KX0w>2iG;!i2n(K+uXK?E3ZzKwJBw7TV)-q&UAfK
zs(xIlAK$7!jP>`aZ#?a3NO^`8&v4q;p04w6Te*S}aD@ehSk46%TGo!+R_97Os&|XH
zp0j+qs%7nZvT`t8+mfmsQ)<W3m7S@|F{N^BtMbsU-O}R%-<fn&-S68j;R=dVo-W1H
zmG*U{YunQ09jWr8O8L>P^5f~cp0uxP+szep?{KyP*XMS#)0Or#rac1c6}2YY4=LV5
z$)hhT-j|b(m$h9vgs+mXQZPk<0cL|x(4sa7#b4nCgu=XRSwi}X4KXW=*=Y$aVacvI
zmhH<n7Gulf`YE*9oiGSXB1^n^lr&LEYC$vzgT7I&xUlG4OPE2?v_#9-y=)Ur%Wf)7
zsVlZvSKf9_sK>_gjCMWf*R!Wx`<`|&{$)G+s)A+PO5t+Ba^W;K8ozn+GXjJ>guri-
z&*Mk6%5w`b(eKqT{8_+M3#S%jlJ@jvTcE#ZNOUMZ51~JZ#TTAa%k<1WsV?BRUfm8Y
z5NTCZCnaia6z^Xaagd9>OClbpWvwrUJ!>M2jHSV6t%+wZ`EQ|K{68YV$|&J#nvyNU
zO7-w+VY*6KJEl|(t`<D0Y+d&%l?PWn>4xt0Usf89Bptpd?#g6M?~mNQkE?x;i^}iJ
zt=DbVEB+UhinE_IZWUeFF`H@%SI=+TxT>~wmr^;n@s?6Cy81%8u510Rje{S3U8y_t
z&g7?6wNyE_UbxwybevTx&V4elRrC@nR~N3Hqspyoi`Y~*zM@ndKxLnQ{VN-lAHA;l
z##Uc?;_F<0Q}K;s6{c%xbv-F+Og0ZCy~9bzFk2hO62Rwiv<%o@No3%;dnGUOY>zO3
zW8r6Muif{Y;@*Uu!pc}ytk{*P{e91}b=iU)EK?hc&9-c!<rL??)d0jaC5%0ml{6bA
z&EM*?aLZtuuVV*@W9Pi>P8b}QXw?_kuky=gptWrh$V{C~$|Q9{>u1$4%BJl{EN`jf
zBop3+na~YMfZBm%amZ-70v)Lz`WyXLZ3m*wLncxymmz?zl2i|;Wf@vdyS7@cQ+ipZ
zr9ISMt=gZe@0#*2Q;RE9(@A|Z+8-xC<f60MNE=ah)4~!-%s^EUPw3smm&Trj?9Z+G
zyXY<c_Yr`5E33-c3!aP}R~%rneaZR*>AJR5-JwT7)0bAy+&P`D@};T<l&XQWuW`e+
zZRV;6cQ_qQi>i~geOunXbbEiYsO53j@aD)T6_2_uDn%XJ1zi2%?IO-2tPT9g-IDA$
zp6odLxWt#Ndts~OY|?Y~iMKuJXlM93=`YwX!;#FzrbD&OT_s(oOpGccU2JZkep#50
zNHQ&dHc#^3rPw|(?*gS!z!=~65P6&1Hu2Vj$p(A{ez$E-t8cwxhr`cyRg?81kHuF}
zy=`Yv2Ul6M?PO6G=PKB7v*>xg!8(FsHFeu|iaEGy-?o!tF0Qm<+f6YKS6jbbK(Rt9
z=cQN?=kl(`@0?t{^-jZ1F{PZ~z1EJ6v0V;7+NMThRZYQj&}Uh%5`msVg7N4}VTZ)}
ztlTM?AtPEulVp`3WoptR$)9+0WMoMjNuoMS7;r9Hp|ytYF{8C6Su&sInz$Xv+0aa@
z6}fUmFd7YNa+v%QMlwa@MSp0&r1u??U+!@UJ)QeiUK4nrvWJTCTokhhr6}~pY-xRD
z)|M7wr~K;(;?xM12IG9xaz@C}?KD{e;u*1X>A>?op*L^6Kce=r5n~<fdN^-W($Sc~
zL)U&hq*2Ho3W(0BX7HKv+w@8-xBM;z`*7|ZN~7S1_=}%H@HY3vTDlEgOVg9mhHWc;
zfjx~K>*n>>*4>IQyltl>2j?ojQ<|*kN)~r1&h9UqNZc`VwldPvG->ET%}(LZcyvKz
zXBbIYi~v4BolY7S$!6dKz3I9Ih7SP;!vmi|Px9b^Y)r`0Q*AI;cUb57SejXjF;pW0
zhAG2TWm&5KH|4TY6JvT*D<h<Sv)qNwWdf0W0s*8Oix>t;p*d9TOouIr@^9d657x2i
z&EYNbfG0nGC8;IS!~wrtTv6HM>fTiK0j2uD#?7tjV~?wPQdJ{L)yT%Rt*WDY^T0C~
zxwbir)0II;=YE7Va8V|xKL;0olZsIAAMh7Hhye5tB+tbV5x@Hpk&^Zy;;s{k8v0R7
z*kvtD>);W|aFwACdytY=K0P}#SUrDl4_XGy(C>m&iDpg5E84$fec;gXApmsED8(F_
zQjBacP?<pymL*<dq3Hb%FBU;hTnwd|Tl7rZR=H_jEP1;y;1)|I59$_(9#+=^bFw8+
z2!pa$DxwszLMonZ(FT|sqE6m)^j?V;O2w-D`C|1m(rajJ`SYe7VlCP%gE_kVS!JYW
zjk8W$(3!8RM>~~b1HSheeM!$4H>q7SZ3t+in$@QzvhSHC&GWto>c~da@nv9LH*FD{
z@Luoa!~xMG@?!IMOkzv^Zx>soI&E&mwr7-JGbgr74bS?fX&0OCj<>x5!O5Z5!Dsg7
ze?}jjQe$QmUC$_?jY7kwyqF<1GWdDK?zgRhCb8!k?L1>%4E*c`<eJ4ksRc7`&)<eN
z<1}M{NULP07+~Iynr*AxEk4i=dN-st8if4JoD9pc7=};=^~?)W40eBtUtTKLtrD6w
zx0l%_dY1|en=LHJy-O8QGQCp~D0iUz(~Ql%YJtX?W~8&F%6*N&Ts#A7Ua#M}RIW9=
zufS5Nmb|w&pO%=vPrb_Co*hP4yjnt9C)mDWD!Z96OREkx^l)NP<-=^_n%u*r(5_B@
zJ7gt*OvKL`Vm=ZwPj;V@`9)K9uM*8Vz4}!idNcVSqWqHmFdN{}CE?{*WKpw*lHn&5
z!63-=8P}W$By!kr#bFUl#EG|;e+9LfQauuve+zN>w-M~whSXA~oQi~|q?tML4<KdN
z(#Ufso2l35_g4F#)OZ7e+uRd(Y06!%xa;rVeB^FVm-;>}tV&iN+A4%L=rE)AD!H53
zG(*4YCQGHR?*ATIFoaB!z=$(t0R0xif5hkVeeXDyxqkrWNhjbuf!l)e`<{F%cP51D
zJWfve70WZ)Af|5L10gl90(QlgAf*C(mTie5J+2F*ay{ym=&9M?*|Kb0kFD567#)Ic
z{XO=zJ#AO%>4_RWHf@N<a_5)tCsC)@U$*H;$n-s=`N{3SDnXOX9+6Kp>hWx?Z$mfr
zTRDgfeHa%s6wDCIxu7A~Ct8jA(4UFsM7!}0QC)}E1FP<Dg}Mfe62yA3XSQ39Wq%WW
zdVIEDk7a)Wm%;3t9?J)R9Txg8MqofXL2M6upgsH2Eu!S8UN8HL)bZ?_9(!QR`SN-_
zH9-b2_CQ6Sx8FT*v>R}A=&FBwg^+22Oj^hFc=mUe*x7v#Y8msr$oZX<OSKtt8wo9v
zdr-!bO`a6v!cs92Cpb4`3Dg<YlS`jLuZm^qt%a}*ryo*8#OCCvOccOxQA;u<XP6CK
z(`OeYAWjBzQ_74jL{EnMnp({WKBJM@JtlaSoY4yR?i=9X{~7v|uT#K!Zc?ovsPI&R
zO9%5+f*S|hMRW>9MO6>{I-t7LY?NwoPJfxCvdr)^FbOgU!SoR)zm!mHO44+t`tF#i
z<<9-K0?qA7s~Tr!XZf4dxfwPD&B2ZdxXfg)+O#I*Ci)UuM)HSL))Yh0iy;}#DR8x7
zmVDJJMdz`9xfwJw)xJ$NXm;g~DR@A2%k%D=avK#Og^$`04PBRltTn(Y>ns=4{A}WW
zrzUzc5EFFee?!3!DEJo?{7VWxLZCW>!Kny*c!I$=QT&YNO1Q0=C%%uQrOxN?OZt@k
zCCbPDF?Qa+y3IXy6ue_s9954THR)nss@Sg-`%}e3O7YODEnV4^s_auL`=E*SwWoZ;
zif=gOJEQo{Kn41wp*7Vot~5X$>ig7Po~-D6aPpD6Ki$}#Y8+7-M^cRwO5;S*Q=e{Z
zT|M=up88J<Dw9>+4-&uk>U#81!Qp)c|LA18s0Di1(|qCQoT;f06(J)v9nh-6v!<ly
zftVb6VXOCSvgcg7s2LtK#i(E|E!<|N5*Jrlw`%#8JKZ?AYI)?S-?eddqiIh`+EbOT
zZ+=|bux48?+$ue|>$KLns6;hX5cR_QZ@l-$gVyhNebluvojPz<IdC?0;IeYy@>b`o
zTXnBdxthnVN74-g>AL1rU7u3d2PGYJ$!z$CmBz#Aw(eBh8KvzE8g63^H|-X34P)u5
z=5&QGRnehTbg<r&9iv;NV-PeOSgBfQsK_$Yppf<FnBqAG9iOw{PaWNw%y$`+WNh__
zbF>}1@wZcjnR_<xByu`IgFQVze`U%kL)vDvxBr2hm~F?hY`TpN=r+Fy9q~7YK@y4e
z*!O%{*5VewVg(C8Xv`iFHeNCc!Bk`Ujw!pDU4o_d8wFXLu80wU;AeWi#3c%h7VP@=
z1HRBPxnJpEl4*;R2N1wQPn%)3gjxiz*}2FK3FHrKJG@Sz*=9vfqui2kc?Lw9Y=lC5
zW^N%Ok|W+iOqN3M@`K-Ruivhk=jZ0Nh5N6l=^zE26igsc3n$=sCzA-UN0CjFn;ivH
zj;Jo_7MXNl9i7RE-+WqC-2k5h8P-mC|B-uM82(C9Ms>}UhD#G)f)xDxCj3B&I8iwm
zX<!tozqfREX{~poWs6y5Dtz~5@6N8(ZCJJ{MpoVF%DO%IWU6sDtX)X9jHXK~*;{kE
zt@Fd{A6!qh9aGwlrP|IbZReAo^Q-6Y*E}xmPM0^s><JR{q`Em>-Tb-L+*Gpbbd+Ib
zJ75GYgHJ=!jV0Vq1<M<Et!B!CeH2O_Z(XwP*jC~3q~o}@Ziuck(C!gDtVm^iGC`iX
zsu0@cb;|kj=ndBdY7-B{Koc27{x#xirM|0Wb|~FMj@^{<HDtMl7!oc~f-&U1;zxC6
zQkf%WoCK{*!||m<Ut)$e!R_hFFVNf)hTi5rFXW1RL?CPGQ#IX6O?SGb<HHv}crn#7
zskBV)(}^+ER*N)$7v?^vxoJD}?=t{S^u!QM4g>UL02X<&Ey*SD@uB>E4{4^dYa47^
z2C%us!188l-Z9D3m?leZt`^TH%;fVL`2}j{5pBr03_3=3IJljWRsgm(i)Pqfw&n9W
z(MnwhODwyyBFY}in(5i~L^E0O?(p(=(H|&t4F|szKA&F-u_yHC{w4`hwX%miPv8@i
zA8Ll!pqGY+O8%00{Il}GS6>)x94;8*U78tw1*UX}Y@Ql!wldq79-~qON71JH%|O6|
z@Nk2ZQ_J>Q0`$HIKISIT37EL_8nd<gir`g;N?yz}i%uQ$^5#3yc4pUEvF8Yab`7FA
zd4}jWD?B}hWjphaYkE3I#1W-$Vow&iX)}FdJ}v1r4&U#|Th~^@eU}%_clqD7{RTJN
z{&X4C#LC<M=xYf&McV_z&mMSX&kKcID0S^`iySVp>vzQ-8+yiUW#&qB{EcVJv}ZPc
zKE&aafv+>=d|knE!6hz(Q4?8FJ@0%$u%FF4TWpT<!P)j4I6pNK*yP!Wawvjl+5Bzp
zw@mu%fTJmxR4vnyP=Z<2Wm0LV_Bg0;I22hre0fI7IlYka`qCv!2rqFuLxM8{r1D}X
z0@$v=e5QLp`#*S8EAs;RjA$wIQ;|tE0R590?)*!Qufh#p<4SObfQ}qQC7AIAo#c-T
z{tDGjqeCz98nwY>m@F&wRir^?qys=q<)+#abIfC(bU>QFnB_)Tx~bYxAi9u{R2PPw
z2wz*6TZqe~9MYsR^AsRJVwh^fh`{=&ro^0T6QvvBDM@w03oRChlq~rRwLO*bVShr^
z$pn+*1fY3}<?LcOXf%hj5^~0qQ*#Vg-AuWe@vn2S7v|%T^><R;h9?~kNK`Vwz*&!=
z1ffqq#S|x_j4rQfznW#WF34)=d;Gp?OUJ&%4*&BSc$Ief{|>svI5<z)of|)L*QHCF
zQ>9%>Y1jJ1`deG214++7RvWqar*8j~qOyDLyY5txUn%mZiiVY<VX$!b4&6PJD(zNE
zyHlkHmC}QsL-ZQmHiH3!qr$7OzBdkR6f43|(o>iAmfyF&^UKM`!Bpd@(m1+VtTZ0_
zk@wK!3L#zg3go-Wl5NgZTmoZPk)Zh*uZ0wE$NIpQw>#ZBvJu+2nrt0Q7Llp8Yb4cq
zNa;MZ)p<lIYQN*YAAnFda*<D$3u~RpvL5(S+<Wovi>b0<rEJ)E=~2phQe~q`+31el
zGE$-x4J3<%wLT29p>Lx>sXu<ljkeoHH$9uR$=1`U*7Hj1`E*&!+T6yC&4q_oG03(O
z8i0c<tGz#?l(s#o>P%G)!Z&GSU?a3yyg9M?)>hTTPpX^WtNFI?C)L7xm21Uo6W^}O
ziEcZ&@^%QAog?Y0&h^(fJCog~(Qs!)vaAgs(b@O?>W`|Q_<G?KQP*<+RLa+@_<Dcm
zt&NsV%leAqJMxpd=J#HMh+FpppKd*vYCWQ~9@(7Ql#{I|GO4Fdf5Ec<qORe+SCYbD
zN*Ggwv8}rCZKt)m296MQ4ZB_k>kxicorhEYlZyZ3!-<D)ZTZio{FfB}rF2#G{Q)*A
z_$C5A)m>leGq>&9w{`V@-~W+6UEY@L7*CcRdRV+`Hgy4V?c4QSSy$52xm~G4@Nw_Z
z_ro8BpZMT!C}<zMo?zO9gNpB9a`aqk^rA9)am)9WZL1lhcW`y}yKY+_z|{r*Uu(_E
z^&RJt@T9a8jg!{A_VDJ{HqR%kU)U-<n{=Gjl;<|hbE0=DvuR`faU8KNjQ<}+Ds#qS
z$$Nv_rt|QYScWSWW9f2C56h;k!+JgzQ)dF?n_zEAP~Z2w0Va6GObjD)DK_PES=W6e
zNfchT>zYk?M{=`<sGDsTso57Jw(QVH0#{=$pQH1#Q{P%vTwq9Cvw7HC8p$;i^74EM
zHhQq1-(}1OM0C?B?p^nk=^8g>dJ|e~FnaF1wHRY_*YvGY3%BA~ac3RBXAS+o@eyd%
z7~|jg>vMX@V@r4*Y?eJb953O^c>JxnZ<4dNCbZKg%(i1VDl_5j_b7oh)Y>_q|3tAg
z1%FJzA5idL5MU#mhg}L@S4{5v3rZ(uO69N0pR(Vntg=EagDQ0DI`jd1PU2PQshWJJ
zi-c;Gp1ywvQu!NddCpc9#6}xrz87)At37*@?(~y6cc5=hbP_PWbnr`TN%<=N4sAt;
z5MV0;*)L0Z1;r~Qz1>MiH^L{Cb@yXRWzVVyYQ#H{@16ee!Uq=~xd+m1gQ>Pr1^+$G
zs}rkVzdv#Rt+mE<b6=`?SZN;K_{wJO4}uRvpA>&GvDG}8^a$xzf2#GQ(h5ytS*oZ}
zA@9tCM9ra0r0t}mJJmj+v`?gq+K}3T)E1)g1If~^RB68g^+HkcokQDZQ(0lUaV*t%
zOlds!kbh`OHlF-~60va=6n^gD4xHe(gcCn_V}oBS{;=|c%Jt%ZTC?#+(ovTbPCRaC
zd4KV}#dY6S1G)7<_o=m$_7tT&b&97h*)W98o8Zb_zYAcLzx(xfzRoh+6i-{S{m7Q*
zX!7{0C_?TiCa3GKzbN1uPx5ghU_bO%oT{|whbtMG+e73Gnfto{HfaboLMEE7ljIE-
zXOS(#YdjV%mygR|Havuw?(pZz;B>O)_Lb~1(_1%|t_6L3Nof&sv^5_gf{cw57+Fo<
ztnT3gVCYXGYdkab10YI{3{k=eKte%KubDu892Q#2hTqGIIY&M=hz@Ey-*ruy8Bz0P
zWN9ay%eh%Pu(t03v2@aQvFsA9&`)MyhQ8|2mwCmt;xtHz<EBPTSSrYgeNxjko<Mb(
z6pqYQN-fB6_d&*)`+3H};ymK#D508Rla@EB>^?@DsE_IlK~Ka^@xsp>#~{HOOIZ5k
zg&@g)juL2wk)AK81;!o^Q#}`>2imy_;@#CkQJN0H7eV(QFVNpLM_)e3%;jpCMr?E<
zlp!l_w2(tqG@??bABWnbsyy%u(-emG|DH(7U!xmFQaqJ+Zor<t2KVs(bQu)=N?Cid
zv?J;1cv9PtsvS{kM>ei+)t(@i?TW^Gb9d*~qFWWi&|JDJlJ0tVl;3}Sy+Wz$->M$K
z@hG40{)_LunDUJ%zLC|J(mms;p3_Rt>7?iM>g4@5AJ;Uz-}heM<MCq;U600JgzLF7
z{^G`0?)0wp{HVA;IsT%;oY89wS6{?gjqZ`;$mvI2WE?1Rfp&Diz!NLWCrjJGMv?x%
zSMl_wi)!yr+$~HB!<)YXD?mZtPl?okWT80x5s4I7i4@qm;+Ocp-mxJiPRf8E^6ry1
z#}6ADPr7Y;Yy|+1#_rT0@+@{oKMBV(bCvuGisl?4R7=SFVXr-KY54im^>nR2qsgL`
z%MKW(yiE#uerleTdqz!4TEd+jLrI&L$r1OQ7`zSUgVD1*)GCLO0JUODTIMwhP3<S>
zNB-Xka!>8av@F!(jBzqYh_fJ_Fj_<9B9;@(nl*EL6`$n+)VsgVpA%HZ&@P}-F@8r(
zRg5e2|J3Gd2z1;`mzJ-dV>~lqBe2*9EUr#t`*aA5-G!C7ARNybi&}~c2t*vPpPRcu
z{=)3|mg;27CKwiR<SIMv9643S%{cJ2MPR6LiGL;n&iLkwh>(8?3_x@|z?;Ck_Phh1
z1@be=ZXPhs=$TwLmzjAi(3ul3@n|}8vuvl1jovXe{~VdBSA&-^Y@F9*gv&;y_g0br
z5Ea-4$%szIDC$JPrGe+;>%M;e2dc$SqCwb3$@0*cba$-3l<b~(Tv~M(!f)sL*jDLC
z(lhd@x9pvpinlH8DNi>YOxLuhg&|0NMeRGBzF;+Z#0j+oa|ny8W%<m&m_O#~txZOJ
zidKRC5ct`OxPS<NZ~lf!gx(oDkzOL_H=oX&PEZm%4-ef8*y&UVKyMDUfL(ZHAtvD3
z5*+Onq2Gze=|up{UYqEdl)iSkSG$>l!1^+5VArKZ=#XF~6B2VUgTW(;jP<yJBF<Dx
zSB%NJB7`C^l8K8#Xle@H^a-tDXjxoriVzq;p)(+KRYhX1=c?2L`#;QOxQjy5Q?bcm
zW`>-hoSchI;l#BRS?m^=iVFh~Lb$!+7VgH7=U~0hUiNXNX+nUlE&;<`;--Y#0zv}L
zN`;|Y5@r^nA-rS!^aC5+ba)CnHC&B>rX%5NIO>}nE?@&q8k`z>VH3o07X4MY7QTV|
zKxU-K{PaSkTM(s0C>)W*Zr1QTR9(2#1F9)__W?+A#^=))vjMcng|~3Q23ZK>+RYmT
zp;s@Req~(9xVF6!`zn0_pbR7A%@_tqvk=!nbWE7IbO|^2OiW%LZ@Q8LrOR||6UUcv
zt;s@yjuPYm<@JGXVQ65iTNoG`IWUBuk>LZ~!XS$d9vm6%7DfifkUcawh+uRCc|!vO
zRAiuk6iI{qgCir_og*~b!LiX%lpY@G*RzD-{(~q!Iy^j#q_NR4R2mo>IEcP7Z>;Ho
z!C~s_z-YFu1O3$0P(Rf>Xbfa<Y;1r=F*bS-xg!JUUGH^hfZ7=7@5eWx7=8>OQ*rvz
z!Tx@XYyh2)92h|1p&<mrLlhkxJBa8onj089fGAp^L2AG`2pAZRjr9*Bp8!U1ppM?$
z3vL0XWJ$(ZC$Mi*63x<!ui+*Z+!xa=+{A3tF(|AX4a0>T|3IYD30tG5s}fcryT1kN
z2NAZcXicCt;SKY*=@#PJ8_OlU*Di!YOq!QsVzxOt_^0`!W)_v!ozQ{HGjQb$yA|dN
zgV7a#H+=-Tpkj@OWB<QnOmA=R-voP%iOgb=@Eq)UH5S38Q-m`YE)ek@=mkd7T!VSf
zy_qP3Do>$=&ZZe%GaLamVyGa@5yg-M{gk+NWlDzbYWTy*ZLe@HHWgVQdQ0Vv#*BIz
zQD*o<W2H7(b#1H}XEpH|gEpE2=_0Bb6Rs`_uU|2C=!+T(qjS2Xi#gGf)<RQrXgGW2
z&DY5rR&$;<?(NZD<Gm5OdrP~w=ND=8&0L~MboFLvQTw1P#wLXg4g16um^orl+b2SF
zMGVrgII}hu<NFL-%M}J3V!CoE#RRU=$gV7+pGL89;f!WV!K&;)%dmM!G5m@CY#H>3
zgTb(MFn<-I2_d6rYK$Hx&1H8JN-{oWT)3FwN6;ot<6!rqP2ZTy42tcoosVz94Lvzd
zZJEoX&=_`L5TP*I%;hZhw?{ithT|C*UY^eoC{1={7jY3!B;?)y2|e}#Fb9jy(G_*)
z7(?}oV@pouHw~apLIU@ID+FiyyWqA|D_dLokyOTyx{xiqDWHPd1t0~wvm)IE7=PM}
z$DV=ClHWkqGtW3Z(3>gBgCmdAsW-5u5gsQzlWrX97jQC}&Wd&^RnXtF6QiE;JB!Jt
z0}rFdu~FA*0mR9oI_RVrS1Nlk&^^i{;_~TlXB5G+M8^Cq=ErD@9$lc!0IF~bycjHc
z!N}aTaDqIm7za;1$4R!(Z$iOcn%q+V^P#Y}Ioue@#mUxhXcbAWOnC<s@4!aSme=qI
zQtdajEBE$%E^))`b4l!l+kEB|$nQb_9CjZKmD%@zr_Spek-e!z6K&wbA7$72!Oy1!
zZK$3IF8vE;Mxz$vWG8%jn0vobjzOptgHdf%7+fO_0PB}Yo^l0&s`vSz%I)Yh0SXF0
z0P1mZ)7tP>aR*#Gz2%x9zIJe9I5l)m89JBrHf?#&CmrWC1bG=X;M6qf@7Q+|4gw_E
zfP+^TwL_u0=Wi=2$hi9yx4$u8RqdKg?X=u^%KI(_q^*<5VO2XpcZOn27AGB=+)P1M
zkN(H>N@^?3qwbp&BQ2Qb?Mu?T{BIGcwwKtQax#bBWm0*_W*Ud(>fBsJCP7dp#hqM4
zF~T;PW*=utp-Ll&ss$PM+9@#p!64TAA0nUWLXK;2|0h(Pg2$Bc+kog_;Xog3Y>i1v
z^?$8uC4=ITbn{@k`xJ#$1D_YzeXd=zv)Y!lly6sXw&HD*#d>6Y2xknfM>e#d&7p^7
zzd!y3rR?Cqsa6E7p5RaMUvL9f*V@uH{cNH*em=4Mlzz6Sd7pIxSAf)Sn<?_dS+{0U
zoGm+6dfPti#wo*!)?~++QZcq|#Ty1!>AM%X8`-wg8;%)z-}SxY+i}vH?-Fl4$KwjF
z_q*Tg-ZpD*<H!D>`}d8vSHG4?f8s1;6|Jn)_N=KMT@~TJ68xeQt=aq5`_lW7_af^j
zll6T{Rlnlw-?3AH<9sEGm!mj-v&Aj<UnL)0rK(eLcJA0IZ;-b(ubuwz><4E*eEEZy
z>AZOJw#{m7T(5v0%-Wb7J_{M!+6eLd=m~z?UV<tvu6OWBOUD;pygVtbx_9{Q;cY8r
z*f?Q$Lxh{MUaqR{-tyh$HBqVT+;&rmLax4Po9eNH;`D((EvC1A?(lIw-81mH`>?gn
zXcKX?Sys(@u+y7^YZ%-(rPPmZJL%QM?dgG%JX~q@b^*l-GeAm$T06UTyp*=gTWA(B
zMHtt%m0oh7qd0vqV^f;PWPOoeJG=hs#?Yqq4?Mr`Ne-QYT2g5_1499_J{kHX{_jSA
z#^Tx%CWQ5$R?VTSQ!<ee)r-4l>8?;FY*H$%1MPsd4aX9|dTBS>*(upU0httJG7-w8
zhR|Fw9P9$d-dIdqd>-a|fh`JTA+8<SCcBb$kJeyrW*$b3?WO2fyEv6GZ`w^lWERxU
zKJ|hT!tJ+=a;RR7|059vRiR}lp>h@bQhOOk71z!gm+#MHuCLl169p_Uj#CyS?K3K&
zR<X2&L^u-f)%cNMoZV(CSI}pX+nQ>b!sV_qkt`fqATDScB41o1J+vpuFdKkVh!96A
z)7c@Jj;F}vt|SW-G*ZxnK()o$O|gvh!5N3TWxIvU=xH03BVQxcrfDVF6-`+OW0?_9
zQX|S|DIh(O{A(1vL&0w%P)qcyWOWTZ7)abjtr4_+r|4D3VZasla~_okQ3U_Fcq>9U
z9q{~LIyk=JCtS}@xbrFQ{GV~2A9Ll1E8O{?nasTDr!J0f{xR40V{Y`vT-T4O+|mEW
zHU5OVpl}y{X0r39pK%C&TEy{fKQmc*6IL-^Jsdx@Yb)i?@N1r3j(&H0o%{)Y?ZPfc
zzuPsOwLU2vQ7lKm&hX`T!ng;6H|@H3e&BxJ`sgl)$gV@;`Hp1$$Sy~b&o6?W7OY-Q
zR`)-$4%{~F+8lgSvi;=46H5CFyBuD2D?Gd_ZD~oi9!A5vX1u{|!PJrD%Tj#1!nda_
sLfR>$i#y;3YeH|+R{lkP-SmCuN6zHX>4!@@981}8BlmMHm#w=03#k5+f&c&j

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llava_next_video.cpython-312.pyc b/model_executor/models/__pycache__/llava_next_video.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..357e2249cd925c9ea3190f6028fe7fd5d1800d63
GIT binary patch
literal 21407
zcmbV!32+?OnO^r?m=l9@a1DR~KpaDYpaAd$DUzUgh$0C|Bt=^zX@^5}0~ly#0QC$=
z0tR-OEv*eYmIZB<i)7i3ppA9~MM@S<ZN>DalGSdxVr7riw83O%J5rgO)t1YZY-J?C
zC3~xq%J;uM=HO6b+$7$-_xj!Mzu*7*uRI<nhbLzF=h3Po9QXH>&>y=N*_2EicZ(A^
zfsb(^`ZdM)xG7|cn?vTfC1l|#&m6PHZ6RB{B2>ZBe9RuQvpSBrGvs7>mY6H<4!Pr=
zkSAUls$_ZAm^WS(s$y|ltU6v3s$ubpSZ%y6RLA1>Sbf|V^0Bxh)(~$DHL|!f))a3J
zHOE^*EpdOy&+=Tc)_7Z}E#4k#j|W15ct@y%<-22@@vcx;d|PN+ygSq#?+Nv=d{3-5
z-WTd)@yb{*zCE;^#l5i|@%~Uhi&w>V#s@+J@m--^NLLFrvB%<rp~3i2Xed4$8fJO5
zvEA`Kp*<{K7uy@(7uv_-^|Af&1EB-)k<du|VCZ1{Q0NfL_r)HM9}XSnITLq^6B=IS
zghp}TJ+r#zp(8A}3AxSUHY4{a%WXlfU+fc)HleWbZj`-i#k)4KtK{7=_O2c80-|&J
z>-q-ge~ng-vyvSs+4&_UPnbBdar#^NHuRWyOgt)%zTc&{$y(fo7Q4&0C=Q9k?^)H_
z?`e&MPR;Ydo?lREENE8jr&FR7xe^nVigS_K*=S-?v0o5hnG+M^V$h^GMiYsdR3s$|
zO2yeI6^)^i`&cA3K6O%zq~;`1sXH5sT#by0*Hf3Gf;jWUOkyHBsWcSlJ|oSHi^=4S
z6yz1>rC2Pk7DKA)SR^SPpNq%mpPo%cXA(&&F)60Pk?~Y`B7v0miL<AlxfD&}<+&L_
zj3KM`+;e9yo<8^V@zJy4^CwQ7zHssU^B7poxw%*>ib9dt@klCiJUX6I>hpOgqhd_Z
z##fMi=2}FWOkyG8$)H7XoQ_8(#S75|5xo>O$4V%*Y?deDS42U;ausG8lhoU4pt<E6
zG2SaR^g>HgBZ-L_r5fq@Z0fu?8;gvKaWRon+-lZyvjVmN)Aku_bviLSmr5R+i^c?z
z*0lC?0=p9zg(ym16cbo!wvf?eI2KK&!ZQ=tO}F~u!uXUJk0>rJH5Hi^f58JDuz+>>
z!5TA6Dm548W@l%lR5Jfoaq4-`JcI6AqKRlKe3k7{I5l%kl)@7;QaDDCf!Ea+qLZ=c
zY~dbSl<LvB)XZ1J=;Tx?d3Gj(c_<z&NuY>iv)U@4B`k@Pn1(2cLO4z^pt$3a`72_0
zRuU(o*U?1-fs8f)058f&;V71MT!VY|!zeOho687paUvJu1ukTI4)ix<7EB?FXcbI^
z`=U)SAEMt1(LP;+NXa8Q%jZ+wg$fRoM|24m!7A8<3c)T|r}+0B@7dHwCiEUm)Wf_p
z=u(<WkR^IujHx>u`9186Gl1uK6d*x3kQ`xY%G(*Zk{AgvYz!m;v4QP@#2g?~3d~Fd
zt`asT3(8K61jdZF6H+8D7QP)Xd^<iBNhHKrGSD|1ENEeBB=98LFlt|nj86qvGX*8C
zjRd|D6;e|r1z3r(nUokvO+`|H%M+Ia*uTIPF(5=ICa|rEQ~&^@wt0o9OMf7m2wa<r
zqK|Rl3Tq%Wh4R4bKr|VcjU<zz5QroLkpMwBiUU3(0(Be-uqN<2#V}#OS<-(r6_`oH
z<^xF$u8|Ve^+Gd1EH)O(W9<yE+Dh##ZA<uSBsM1|0cy0miX}BaD=MZd35B2d1+f@~
zpHld107$nmpNPbx<6$8hPmTrMiai`gh8PYj&M*P-T#VxGaQKzENKAWE5e^G8<KeJ0
zfTkn>5~p~>VeADFVcL7VA}~^{sTpZ}O0lUptXOCXq;|Y{m)k_h{nPnfsrc-!+34)f
z6sVh++If9$-+}!v?-O^$qE~j!&Znkk61%PfwRSOl3X9jpap0q*CX>4u>V^}b>grSn
zX6L1TG|YlwM3R>f{2uqI$!)dg{9OMif8+RaZ@Q*ecJ^&pj^1zT%-TJ#yKlNzQnydM
zdG^j(xgjXqgMVwUT{(Wc>-H<FU8~8vU3cs6*^lJRyknIA)NF3HZE<F+O**W1RD`{T
z)bvMqoyT5*f0ZNbMQ9PsqIJR~SYEY+Y=V`rS9AzA!blbC@U8;yoOtI#+>W?gaG;D6
ze^${kVG~@)^B8$<E#EG9kY6cOYH5q$McOM=AziKZqxPV+QiHcu^R{5E;xEB%l@V%0
zf1K#9{t)=k-{w&Sx41=a8o#B_G?gfMQWibqJ*~Y9+`Bxnck_7ay5b?yI5iO-XPjAb
zpzyoAVo8dzi6oT|NRUrC=>&p>?O!z7fue@apnS3s!3{3!t$qFa&FdL&x9sh{*E6!=
zJ(#v1WZPIYLmDTW;ci53aVcZ=m}{AN=`u@xR?-uw7&J-S@xulzokXl~7W8Ie_m|G1
z45t{QmV5|qa36VlR#TbY19I<yjoyPB-a~2oAvPPu_A(O|ie^O;mJ5HI#}V8D?SIJ5
zLDnyQ@;f)dN4Z7*ZT{Q*1x}r%S)%roDs9ncbqPu$E`~KYg&*lOf+RH@&~}k_Wnt%+
z&L7}lH25sFL9~N5vTr%1Ze^eB?YkE|Dtpg-a1ue<enwjXNrc#!7%N%=8Ufo_8XFWE
zUNA*5k)U}@u`)_21@J<8oPv@aQ#rRriHW_(A+f}xspKQ<VwqYO(M8gY0F$X|xLv)x
zn6|fk0VG~VQHE;<EFwdDbog817x^!O&+Gh>X~~?@ByEmcG%cFn=ik%z8_QrCgY;#+
zMvPIhO)(A{G&3MpDrtM8Byxs{gG;sOJ7{5>tJIc(Qi*m;I*%Y}K|oRfLtmw%xS{a1
zXle><2D0CTDySzH4u2_F<Ofow{#U5eK?GRZw$4o3h}<@^(FWXT$u{+8nhwfM2RE7?
zPum|~wyxMd@;2U{Tf216yE|>)twN4VZCzakx0+BF!+<4PGMW~Hr9VOBOSi_nXr9&<
z8pVxg$pR!aHpIy0j4ib;TBnJ>mORFLTZ-r;d!`AfOP)pBqGiDaB~b&LrHV!TTR@LG
z`q~(MQfia4;M|c|cy?wc76y}s+@S7!J#83Xj!%UrksFSQiAlhRB_5%0T#Uwob`{Bq
z(@M1ZiX%_PpQlWMcBT5kMrx=xAX7oZNn)P_F7&7%Qy-=wKw=CtF%E+J%aE5AhQ1I?
z%GP-iZ6|*V!3{3w=IWa=bv<%j&qiI}vLoBpn`t{Jw}B(H+%Ewe|E`SxgzP`D;XjqO
zH+|IF@#gb)o=^AgPahnUd&f3fpHADG?|VDa+xE)dy=nVi6^@+7h?5535WpCKGlay$
z0B4b3H05y<U}9M`tJ}t~R5I2&$V->ePS9Gi2T}yNN|iANZPk(lYz1pur!OrdfBMo6
ze&N!VtMW3MP3}a1m96CbflSLDxn)nbu`AouowIWOy_=lb?@Zepb55=*u)1CL_NVRr
z+Cs%6*R`I<3vq;o$}sFIA`e?A9TQ$eO(JgszhrT6ix$DOfLcq|@+_N3-=g(>vu>hT
zvH?^0myZKh%~bmWw`g6md}~|KGDfy9j`4+e&G}_#%M0%I9K93}1S`}H5D{10sxS-U
zM5NTCrBouKZj6_Stj6vn6*VKj5=p{(wo%1sKqb_@QdOfzL4(pd^JqFr0|kZb*`Db+
zEBBn;=oypkUCZv3`2Bj{vh#jrO}4FXZSYQF`DsQ)_sMPhvi`no>-KER_FM(mzJHUm
zv{x=a4MeJHUv2)WcSp9WK4<5unt>zO^5)?3Q@IAtTdQtzMN)i)Xoune=NzAzOQe$H
zw7L32(`B1Y+lI|HO_$+x#ISXKwPb$C*763ivlQ^U!nj#5>#Zzcck?OmKx{ZkSovKi
z@e~j*#gMC*v6MQh#i>|=a-GHkCzUFSr=SPLRBDwh#W=<Q^BZ4=fjt5P{KERLVN6Mq
zm4S;+&ewkHr8iz$-M2QnQ9po<ZE06=bA587<uDNP6K_qrw(ITW+Q|AV8;~Vy58NHx
z@DhJy8yBpW_RvK4Qm~JL6BLmAs@P_(OpD_w=?vvqD8~%Wp_rqIl=L*^k(8jK$YqKV
zp0IV4QWRri7So}aU_VNE6g-8$<X<CrmHW)ZTMvC^<E@Y95S-=Le48BoQp&&9uwJ`9
ze)sqfrq|o$;3&QE=WJ%{p7jHuHr72kr^mW4XXAWLxeAKexrXMPgJMq3>DhEqtj%rR
zsTHA^T7+UwuD&tnqL`Zsdno3wu{N)pa~yu|nm6eu*XOVvzF%FJv*H)+)V16mUNzs|
zFV}9%RZx~4mA4#-vBhN58^_FyN9W#~#F`3~MbRw6%%dr5Cebnhr4h=S&B2kO1_mI$
zsDzEBDzx$zQY8hGXrHh{k+g;!^Om4P2^3RxX3Q)y&@pJ1&SE4*beMLQq2?kRBZSN^
zLroJ<vyhUb9z9<u>5zm(HiMFfu|AW=`pgB$3F&hdWfcpV&lm_Qt^y{eW2uUugfHx6
zQgIjxg+%iyMNcN^3S{REr(jiB*!5+L#<b0Rh3`?DBM3lS>)VP^udead={HVi>IUSx
zfsMMyAawZJGrk?NZ^yFhzPI^yNcQ%o?Y#_C#w4OIAT9CmjB0Qmr+v^Ll9Je-e1^y)
zkxP;^|3CMH@l-2#WBHn8<Wdq_bkYi0(=1hESIa_+PNWksZ7$gb9)0MzpwAJ%i&pUE
z3J5=T@M@9=@Gy<7kW6E%4Q+#QS7`~w6vxa}Q6f1ui2?*F($^?p9GmEmQq5#Ub?a2%
z2s%_IZjg5A234Wvq$vub2$X7#pXZ6N;#DEf=rKui(YUwHzpF`ZQhURul7X<4cONIP
zE5gVE;L_^6jfRuoM8HJYQsUmT{hjDr(M->?a?i6HJr^{Np7jUbJbmYM#(zropUS#x
zSDxQAn_3}_HGOL5_8#SLZ+~;(&cIs3z2?CWE-rgP$2@f_7c=!c<oX?1UuU*qTehV?
z+tQtF4(42(uYZ%X`6_c}dzCZC*&R-mv^{|_1)ZhLf?!r6`Axb;!S7H&YOhp9!PhA$
zVFM(bNEF<`Uy@e+RW4_<S^L&1*3Ih|*6niNfgFeQ-EoY=+LvqO9*0%V(O`8lLX6*1
zLQGk9uHJw9iFC(c+CM1Q4Xt04>kj0o5-|h+mJ2a;9@O=tl4y`v5NXk-kzGczMU4o<
zMo0ENBG!(QayHQk3!qDMH=!>^qG8LMw}V7?6jPi0K?Y7()PpIeTQTczQt=g<N5~?f
zT76UsPSinv2y+;<IEqN2K`UjHnl7X+T0OxKrQSE`_{yv$Ohkg_u@eO$A6W#PU`f?T
zC>5GX8+L<JNJ}><AaG4mPr!&ml@24GptG)|X7gLv_odSxU^rV^@z1G)76doAE$A0@
z_xc{s^qr9VPJA%A(KmL_3kB_Iw!4ZQRiku-rg&!NQu#G2BCf`At)R(oaNpp+VY|iM
zd}KSPu96VzDz~iPv<ZC5V09CwWqz4kwoQ<2*u7-UEA)c-rfrgknqtw_lu0sHS;rJR
zO(7f=t{aLa2FejVCW&kFF;Lv^m@#BadD@#Y_&|YSFHg7mltI}S`FvTOu1htL0Lszo
zyp_R}IFB+e8dUMKm@i|#X`LoYQ1VQBOEQoI4<T|<@*ua&kr(={FDZy*zF$DH2J=fM
zw!EdX#UzU3tjj^vnn8+0?MXfaiW4V?IKPSD)LAunYBnoo6H{$us)>Tx$QZj3sItMH
z)G~R-0j=@(sbQNYoG^V|<t3_>16}5gZm&~YgjPyrK^ee-p)B6GaYIEgFAZPHpV2Oi
zJtAsBI>PC0c#fUrCI=41X2v72<YC5$3fhw~iX>6!Uy+>CnyK%V>w96zyw|+*-mYWm
zrYFE*e3i>5w@4wp-E*&V&pq$nY*#STH6nM7+}*#?bzH6r+;8p5v<}IwL+krDS`V!_
zvt7OK9C+(MrfXF08qEf_X9ADOfyc5PJ2D+Za>r1%y*tysTW;UI{?(24!%#xE9pj;e
zZmUUG1t6x^cR`U!_w1Ex_om&d5k@6c@E^eGQ6v^k%_}yQc`L4h$v{3}dqtX!QeCvP
z2|>KBvM!?4x{}W}f~cBA6heB5g6~tnq(8!*%a@7!A5}M_mJzMum0j5L8*RvkXgf&?
z>OW~FELEc1A=mBLsM`sNvZ*uEv|Dc4y<C~IcpdxR9{-%f&(=21)0S-tWE*?Z4ZT_a
zj;#ud2Q1u1EZnBC@UdWJDf=cdlWBG;51*qX(Ru0H6x2~bI4BXtl$t5{0}4u5`ZDEF
z@E`G)B-x8ty4Cs&f4{apXQc>Oc1PcudF|4gOAhSLRj@oLPt_~6Y2S`?^$yw5zv*DP
zl>u=28d#O^TUw2>>|Eo{oP%QE>@_R>vZH;=g`~>fX&B@9Gaj7-vSX2Nl;~g}&fEly
z4zIe^L%VVmOFPJ`Smv(tAv+Q1QeTs2$jT`xHuYqyNVhUr%@omW9=zEY*iFdYui?GU
zPIw%=lw&7LCgdCJ#Hh}}K*CSc29`YK?8IPI<;#|#(6Fgl7NLJGplvdrEOKF*1$!1v
zg6ZWx>~?F)pyTCfH;x_*BMe$F_{ls>KZ50fHVD*89$4@m+D58DFDzIWP2c4N+xN}7
z1oOLmuwv{N!~&Iy2vh`|Y2ety^|C0zl|ZHBHq8M33JNXwo=d!(n7Nh+kg*yEq5(RI
z9tkY84g^kIpN0Jc2ly{s)>^vUAGiz)(B+qKl5WMh54If#>dZkTtW*~n*{K=nc^ZaC
zJ3!G+KEF$OPSsjYj6^XdU^W}QI!SOeBq$adh~hXGxvph6FVSKD2}y$Al4gedLu$jq
zy7*U!O4O$G$CT*^hsR^^N(hGyt`P{RTtj*v1r}P12@~}pN(1^N{t-oz)H(?NM|RK6
z3fbOxkIdio8E-H2*JVq#x*-F6t=_S0%htDK>VtB9FjK!<uHU`vd@!SV+nRHI^j(kK
zyl2_+E$@AocjdrOUH*?6o8NTbaj*M6u-$7swS4@w(^*gT%5&d*>A@FUHm<fcThq5z
zw`NNZoJm)m1@Eb?%yA}9r7HAQsytLbU@AgDLL4Fin|}cWe00&cJjw|?aS5ohWzddH
z7!P>^Sk!@2|6MW_oH~;^<u`7Tk%2Pg;YG}P$+AT1eR)w0Cl2^$drwmgrahQi$s?Eq
z7~BPmUIr>ZS5|<lFy@8hr)lCKB@f!b`qMK_B5cXS`XG$OQ%=0oNhFhwnXO*6-wvX@
z^bUfcOJ(9OAP$#;SELlMlRU~8VknlYQSq8mfn<CR-dq2cN>xn6A}KiLD2|jANhD`y
zlA_`ShNhyEb2D>E{m|=&RMs&gMKxo;lcK7nUvV;JNF^zJSTV!JM)4KHVpt;yWsbcn
zVAjGZzOYd0nxP`3_Ljr4CI1qG06Nw+eB`cr{q)V#D~XJ6yX@P(HYodcu3LWS{ef5Z
z9r<AQPmcWg5!rWs!+ilLQtw=L0C#*%x0_Zkz7u{c45{I+<<Go7^2$x8HtL^*t+;hZ
zrgc!pe|z(?b7gcTneEt>>DVoI?9RG<x1Fm`t((zMr}O8|>YKeQ9V^e?=5G&fI9p-<
zceH~yclNx~^j1@P$LL1Kv9!JIzPCH$-6?x_u0=Myk7c|gvUlX};9Vq+X1r%`dcWa4
zm$si{NDEWU9?Yu1?o2F#Q7DPbYtlgq{u2VlqfxYRF%}Dl-{qx$hg{}tp~_#<+f<Z-
z|3xo45&Q}Qh^g9InQkBcC5PW!kJ~!NuZr))-im$BQCyW4s8W%%prhgD6yB6d3sCcM
zv>;jpvfSF4<Y0y5U=wU&ML8}gRFuz$t(RPW9898c0;nAY?m0y^0W!bONJ@>yK&GOC
zASP6Rt0MDdxG<*<5~x~1&xY@+(iA7}Q6?XguZ33NN;HxjH`qGnN^wRfX>m&g6&$h^
z3o7|@mvVv$83`9HINhZ7@PPeW)ELL545e|=VAyzX(629P+4MlmB#g6Xp7}Sxp@^mi
z>?N9^g3~%;itTJPAx6Nh!Q$~79+ZgQDP~$CJ#Q#zQ>_|*MRot0g1@2Qzfiz{j>buX
ze-T6NHW+G|y)zgq9N@X+v#1Zox>d<JDs|TS30R@yjw9=CO9viH?|Wv;Y-)0XS9*ZF
zb#3Xkp^e&MB<;i*Svh~YZ6Lj8Oe^=AM+IdfR1ezrX$#o4#t?bf8SA292ZF3w)&&Yy
zUyXdT5`}<+cIhc9VbZ-1%+gQsPTHX09s=EL#HgxA2VU~*P8J!E7~(H%`@)6Q2xJGX
z>k!(8qT1+x({snOn%HREv+SXi{f>RLb)#{Ynxc2{jmF(bdHrd-UnNAYQbKf%Mtc<j
zU<tIi98HpbLS;TgP)LV}OiL7aX-uaPVRXm~eZ~(x2*042Ep539irKmL&YXi{PHtP@
zFI^Ptv{+kJB9-G1U7!2m;tv)-r>MHe)HV*KzlI+;cCteZ)l@i+9OJ3fVw(Z5)M6SI
zGQ%YpXXjw+np^Pqtnb_Py$!+C375kPxFOmF7k=H$Wzj}XhdK)mIfP2V`#l~mhfZ=i
z6kLLP!p3M}&8w9mmryIZQP-o@wFq^fbd^HA=oPEjsg+Nxp5A7R)rg=@*?gE;8_+^6
zE>C!%i8Uc!$I5Ousv42$ej{o`P^TGn8nkgWg7&r`-Q?hK($<Y@7G--CS|5_%CN`@x
z6WSkAf~}d>TiLe7X11zsA%K&+7NO%I?L1^XjCJkAEc`;3*ebTc@w04Cs@a-ER;*aN
zSV1w&e;aBB81Lx-@99x`3^cn$-oz(oq$g$)LX;eRBe7Fr0xA^6FD}%_B8ka4=u@im
z`v9pQv4I6$y<rab0}DRJaHt5m8|fTpK=G)OQ9`^%BzU2rq%nBcPr-3|AZT5vR~s%V
zuu!XJYrIhF&97#b?^CZ*+_T;2idSkN&Q0PxA1=n%G%tSXUtpOOKFWyc*to{T7(f}+
z^fHp5rVlwO)$vK<=Sg?hC?{({3*eHV<)VxwZ>1NkdOoyR8@v|T$QLROvEReY+=Ub~
zVI5uwK26@^>{S3>>nxYFS7r$#?{vd45el#qc1_%!Ab&jRPcRJTmK#g5*-9THqlf@2
zwPavqS3ss_=yC`7j4g~j8l*5|VoBYDL=qoEH#fNZuG);NO?I{2zIM;mo2~U{OEW&H
zY)m&D->5v1wx3{>PvPLoZc}er;24;$Vra_rCuq{Jl9LKSVkF~uxD!<>$ULIOrJPXn
zFl!65tXR-z$y3$}V}-(1Anf4uv%t2Jx2T|$1xE;m8bwwY-8v7eiq;$I8djB*VG}PB
zs|;Z)MX1jnSk=jnSMp5zOEQo|$+ib`A5t>#U`f;`QM}~AVMl)aWLsoUs#lLecr4p*
z(P~(Y)vy%^nT8DsGEAS|UjBFb5jh6d)u-2jP+2i{QgIj39N<#5gu7``3HN@;u{ALx
z#U+A6xGa>B9F@vqLIxS=A5d7eDzj=0d0`b7iioJ{&`p+S#f_U8iIkS5R2Rte8V>v+
zHMfm|AO%0C;B5p-l{RikOh)3fF!M0!MEW=M&ZSFVWPx%qWkPGtka?B*vSd}F#g%?R
zjab=emG*e#Wic$`U|}A%u>1`$xLBxHz%;8Bn>S5aVnhC)6eFEY6|PB?C)v7Kx-N0h
zco=sw<m}@_X#OvnDmGwctNoekpj;iyR1eG5!?0a7bY>cM$ql=f-C2Kc#=l$k@6Py7
z%Kno$H^1-mL*#a4JBF4m_v~$u#9Q}g-8ETvW45j9quTaW+gjyD?Y=FCwH2cJJ$uuZ
zo9o!KerY3ch?1=zb&s;cjA6NbIMaSaZa<QxqmW&4>#j`eLAmu{wxc)GaY*hsl<n!y
z^qiD?PNJ<I)>bFlYCk}(l|FyQ*C+e>ScmDp{TsChVApSFrCM^8oTobDZkOHd8F#nr
z?#{SR$nFz4Gw1O9SIza3`Q;nb5o^NE5Q!>m{yu_-bFe(UfxK_JL42&dkBEgDEq=;T
zPq?O=mn;QGpQIuZl{0_Olt2C?^UlIwI#n151V#ffaWWDsx)GI}nwg6Ufhm|{afeI9
z4XIdc<{DXTVSIVuV%pb?wy4d{GB>9>1Nm!gdcSmu>4hu(0rgT-U*d}9>DM1XRKJqe
zA5e`z{Q>3#8hpv<YRQPP^K<yzOQfDi!w7);0~FthK&b*+&cv>Y;VV&yTZu{du_)%*
znOPM%2uW45E=jezyVGf-wo}xM)8Q#4AHP=W@6-<8ZYe3^@|Hk%#-enEQ*$t7s>8y`
zN95^W(vC=I_Z5r|=T>!Gd-t2ucc#<9!yi~S+Q7wI?z`I3uAXdd!+qF{cD%JC(|J(t
zJecV`DR%<jPQv;W`pDatt?tPNhVR$6XY1QPwVK;1w<;>=1gk=KLLt(oxC{5ONIoNI
zWW4|Dh_EX#1ZU+B_DNPKc?uk|$@$b;@*2rJcV+IWM6pVqq7r66G%j7>TBvc5EXH8c
zAz=#pFgXv7L6lHw(+KrLib?;7LQ)Qab|*un@xP{AQl(4oU^HnP%+@JM(yeY9UpV@x
zyRDv*KG?!<(>|X>pEtNqE4k(#B8l7j-Z}Hunas8^dE3~Q)!gjF;iR2wZp$<c$V~%l
zzrE3Pc)2p$)S77;mYasx$2OXtK-$}ywyS!rV$-zP!abq2WqY}fTxPjIM(K0I^c45I
zxE7-t=3!K)8thp#<$WK@Q6yc0kS5`ZY}ae$e_zDz6U`z6I?Udtvfd7$V9e~#yx4TP
zX2}lN@#I_5W98v+(XNkV$$=|dj&gD%QOZdZ-jx|Aba}3s`vd-8+rG^$ITLpZq{v5I
zfvH8)aqe~3xM>o8p)Wz|TyibC%JyX@G4c)5w`wiil6%QjV63asXPN(n)M^H8*Y@-`
zUzLJh40*Aj7ssNT^`q@P)}SFT4GY%%NnzeX^<D1!hCK_=<HYPe+Uy}iE_oI`(}uj9
z?+G>&Lkh<l_$*khCC>$fJjGns^qA)w2i=X)`21M~ys3VSwiW`<B@C@BK(}^{JJQ;n
z-=IfD?(d*<fhGJ;Df#ay_&*f1BEYrE2%U4x!tsHrbSiK84|s)>{!>(p<RFq>q1K00
zT$XlGJ}F`fKb~hyN+s08@t1K|M=hq*=xI^^#6VK9v3OG9uPW8*?SwFnRCLE%UQCkZ
zN#~;KukH>8I{^8&6%nR|Lyt;~%GG|22+?^2u={yyGv0vg4W!wv6NL90TGMUAa>MRr
z_b0CUmDt-S-Z}f$*?X?RY->;z!)}f(A6wy923I1tt6AoN+&Zu(;i&TJ`YU%k?moNG
zdSrPl+tHorI3jl($yU{6sygJVj@83-B2t-lx51X@+nKKK&D8hH_5Ew-*Q?X@=hJ&m
zW%itt_niAM^5K>Ao@akrfBxplPdp8`-EXtQhkKskzuhys5jggP7uWgK>USF6YFMlO
zm(A-hrroXSz_E{7JL&Gx>f+t%d#wk*xPJ(xzLr}ryzxT1V>rF%<cFj8>c`MmjX&Lf
z<j0l|Ufei(K7Hguy7l5l&2wq@bAK1yg+rNleXFA@{4K{Dj@uo#pZ$(^%_n;wOWPm&
z^=GwQ#}oXoKda%Y2HC~MzZmwNsI>fesOdzlrAUOtlB<N7^vH)1X59eHGd)2fhEZ@m
zR;eNDLa|!3aNrT4;lZkZM4&*hr-4GJ?Cnh3JDKI6Xz0Yzne=;+4gFzPWCi0AER%jg
z7ja+c%k1JfOl91jImbZe`xUy7oEVwTvPpE)UDz4FBUdE)k^&Sb?JFM15=LId-h}fS
zU#SP>L$#sOito}A9l!{%M81&~A>$j7>HqP&mk=zwvMyiR)t0TTUp@_Q;*5W<?BBco
zwGIChP=>NVEPFt;!#LQ;$t4Yr_A^OlBupxG<&-`c{Mgq))aezUHqki>+laG>0EW!}
z%tRNv%CpFFcV5{U6WAi${VZq#4_)!X2ACKA_xZU5eK~>7Rs-~X2KE^R0N16_onzux
zFYdfV<WT*Z0uiZEe08N*2{7h35;&<I62k?g585&4t(d@{5LAgZtwUgZMuH$eOD0pO
zA*q=_#83cqT3GP?20e?B+2XG_j0B#cPdg;hcEMLI)Zw$QT(EJe>QFL2e#n;+zM@12
z1EiBnpCZuRM5>W5;d4v4szU)4V>+Sq-%zN)KP15Dw0i0?@Q8S*E%7?qOddjW5d8g|
zJCJtm00b?cyWi-~H13cacVrp|<;KCRyMARp-MROJI5gCzp-qksxjYaPs~`rdCoybL
zMa~<<)0qsoACZTVn)2ZB9)?AaPKeaSQ7Xsb{s<p{aBOB0m%FiMj8C%VAW21YV3rzC
zz0`&8p~zO;=1*urTF@321k<a_c!?fmyo0iLaD6Av!qfJnDl%1EQ$IUXG-m>5Hs`M*
zQs}U<i2Ll5JOEyosGymbpF7Y<LkcuuJb8aCpb73*{CB*8YSJ8?gaJzo&*8?R>g}Z2
z!EvtwHrF`&1`hPr9u!yHF?=B>tPNYKhJQMg3ucZr%CYst*Sm1!N`*zK$gV8m8(!SP
z@FRj)VQ+s!%St*l93iSZv+k<<efw}n7Y30U=dullXjMLSrC0Z@@6HULmWNNLy`3B0
zr_%PP*m6S?8w+-p9QMJ)CE~jz;Vbj1tGaG@>qSRWE6u{iys6?MzEmO<+;sRKRDejB
zdOXNHCrMFP={_+dshfhlF9Va?h#^Spc%j(Nv2U+PZp!JPqI5zmks+4hAp=2)AOT-l
znS=2Tm+x>*k=C#L>7zn5DZr=Bxa6NApwmY;*V>V`H2qy;H{_L`$Fp5S+5Y1cHV%I3
zsqj0u%#J2o+ESnMaklE5$!0ytuMN}vi<A7i_Ir2ugSsD$e8%!N%|@|Y6?cq3&VR<W
zTb-*5Ir_Pa8u<Cp@=N;39piE9BHP%OGvoKZqjUA5><DgJ=~Bj!$J%z^*PZS=Ao~vF
ztVm&a4gOoPH)3>|uML>v^uF%D>EFbKzP4OjgLN?7e`1rvZ*GXUcCDUx=gGI8eCO%6
zo~CPoUF2=rvF6Kh_(|`6a+7{BqeDme?9RbYUG>)1`?Za?4!v<GXGI)c)itqH1*LEj
zJG6dWZrh)8P}0dYw%%HNV{uiG8@A`DE*7!2Dd(YBr8cZINSkBFrkC;tEY?x}J_e6U
zIV&a5fjauz7TMw7tYCR=oAnI8`sCVk>%(`gf9C#?J3V|{-g!dac9NF+4FBQqhspoE
z|8o{+0LwNr_@wj#!GL!hmM)kM=<7QJkt^d2GE~=Hl4{`hJWroZW1r<=U+iI!r`XvC
zdIk~+73kc|*9nvxP@j}Yon+r(Vc+sl&s7FABQSxs;v>}7at88J2)p5<bhDSLxmy2h
z&p<3PkCq4ERS~_)P7PHzi}rG5S=HpgI6lcG5yIe>6?Iq85BZpCgUII&sA7eB!-&pE
zn2WMfUs8F1*}c>&s&q0?;O5`_KvCmsI8p-@rO(MoqyjRZXQio3`H3j`ib_Q1;onK)
z#sz5hy*h@%N(;-IOGRUtp|N#gmZ55IjRhrCJ9#+CK8YsLu?zc(5^e{OHGKjfVoRzt
zqLW^AQK!}zebr3bMsZt`eb|gq9L1{kLG)T;WQ>{XgRGn?aI)LI>SvTjsnk3L%M^4F
zb$Od&<Z7VQ=-)e|b6oX)5(CN-2XMuH2z!YSNgb9(&;b5(Nur(jpc2n-+Bx3+Gj5;E
z?fV(m{r8;vW3K*Z+(ntY_zzs?$K3G8+@X)TgCBFdJ~vr-)2AGQ&z)A@1RO@pt;c@p
z=J>}y=5~I}4gHKe{B!QC%$@z18~B*({@heprhm&;$J<ujTO5A22F~*Q;dIxYEsi2v
zzh&y=omoqBx@Dhi*}r8*YU?R}JLR>c{rhFhfh{vqTQBkfevH38^yYy(2evqhZ=K|Q
zeCz5EU0>MZ5X}v7roJ>^m*IP5zBg;>&N{lY)q`M1CexO4!o;89*Uta(^Y1>N-v88x
UPi^AEPsrJH;q9mDTZZEQ4_B=?c>n+a

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/llava_onevision.cpython-312.pyc b/model_executor/models/__pycache__/llava_onevision.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b647fbf8bd95fbb954a42faa5d7ea25f7d3996aa
GIT binary patch
literal 35923
zcmd753vgT6c_w)AB;F4KBmoj6!8gH|L{XHew<u9>iRx~t+cvv9XovtMumMti0jVVh
z%(PwYF_r10rDRf~VrQD|cw=_Dv!>^<p{J&5m5h_pytZ%~a)8{G%krkTvYy(?LQQ&X
z@1wHcf9}0_3G7zvovpbN56(UJoO93ff1m&U2dmY@;fiVhNp$2bj{6(BQ7(fV+4yrc
z$KB;#<icE772~GpR~=Ku)l=%YW=a#+PH9z?ritm|`YC<9W~wG`m@>qTQ^vSy%EX?j
zV&*9`D{qNgr>rbZ8?(jjQ}(!H$`N-?Ia!)6RvULsx#I3AH@nxz>f-fN^(<Z!YlwTM
zJS=XAdE<>!jVx}AHN|~XJ{C8{n&T}~E%DZ=*0_Jl&(h4Xws`wgd%R<+Bi=dH8Sk3v
zV(FGxcf4n+C*C{N%kHhQK)i3NkHu}V{`kPuKzwj&5cl@5BQ_M@Hnok#ow4ol;i=*H
zj;S5-k*N`uRvX(HADtSF@0!}h?p?9n@v*6~_@1df@x4=fS(-bxFTQ_jKa1DJ4#W>m
z9gH8EIut)VbvQmgHIDT9sUvFc1Q%|2n+tm)10QOn8JIfCQoTrREJ>YUsZB`rm82ev
zOhk??)NtI?@rWsMBHX+ml|+t5j<U3qEUksoSm{=j_DA+aj2~*{cb#JCZAfpA>@Bq5
zG)wJ3YG-6La@vc`g=c5jvo1XAj*L}2JIkK+;8}0PI{W+5J4(YsEt6_4;+y?vrO%{z
z<ZR@0<jh9_B`2$~4>k5zuQ9SCGV-BLD*K^a-PCh8Re^z@(A{J}BN|R6BYfymEF#vN
z3thb$ox3a=E=1nA7MYul1azWtd~R+&8A?XNqV9NfE))}M&PJ(3Of)>l&nM@n=VPMr
z;?1j(@mMsJK!uhgq2%<H<B?GE8XpneXJeu3q4RT*>(NAXe(vb}+)VVc*ifE|il!rp
z#5^BRi%pj!$zW*iCLc)zqw&z?NboWr4F?lfLRTZA`P$soP*_S2s6^9Cu~=NH5_gUx
zp+scjT0DO9{M97hm7pA~w&`SWW)63*b1$B~c<S8wiSe_+7ml4cb>ZR*UqXv(&s~cp
zqvz(sq1Z$y8JdVrC&jvA+VN;47M2@cl6>aP5Pvy=(TgVnTG4ol+Ik_n5W!o@s$)4s
z*GtiGWd2zEQY0M47?&m%dN0+b7M)0mUroLcxf%;iN8*vWq-c?nUc4H{R8UV&&0!Ma
zk#H3E7b9~Ry95T$B1JDuUx~y+qFKJ9q5Fvn^NoV`qi0V&_Y#{6bT|@2_ua+z7TT8(
zYcE{8dUc*pCW=o*lalt_b9k9FiEO}6&0W2gOdPoujfEq;*c6?MCWF$12b1$}M)=^&
zJRgkFO2GU4G*4^+Oh#@bi`5s#L39<Ko{hd9DO)pCM9xUVI5#toPB||`FUO)+OS`2N
zo#WS%^IwQWFJDO}&d!IZVOIH;7CLSlrFLQs1^LM3XaXY|2?ygeETSbIx_K!Qyvj#r
zqBnlxz~D{Oj!`a#DR8r~gy1e0;ign!Zb}WjpqkQz)l=GtF03ZV5YdM<4C>TG470UL
z@!~IFP}OuQOHc}sz#P_wbzyzDCTs}nuBbjTeyEqq&nRzD(;IG@0%ozLd}Fai_gwTw
zBqq&JD28QV^5dF_VqMXWOzdU%ls4$UG`APCgYD~2U?uze{Bzf^VtN1kjQ={V-$Y5?
znZ5qW!qXW(6pxfXoi2SkeI+zE7l|eOy(58=8m{d1pJek>lJ@3a{}-a+<P}pPZE`*t
z@h7i@lK$6bUh`vG{FfsBaCBw{vo)9WV`cdxA+-1swR^xHnhX1T(Cnbpq@F@OTbE>A
z8}LWx{BK@~qNZuAPrMOt0W|PO6aK5AL?ROQhZ6o!p}H8>3yNUTgu*mFA*lh#mSo#;
zh~*SrS84Qv*F&*u0BF)6irOULrKr9%C#q(CLWoUNT@h7pexMR9;hS@zcyu}#j>Z#{
zA6P^~Fo=XmFesXWv^1~9C~gS`-?$cv$xmv6!SMWaFvyRfDxOFc(H;a0Wq_Ne7>{Vl
zh`QuFKYc~iOK?HdQXlwMJo$jzK*;@{&u>e{uWq{<y*ii#aEl}dZ(Q5GXYBRek!`W)
zrEOPlCa=uTZM%*QvyJVNVB|(*8oP{_ZWG(s77xxV(0=IZO@0{lvS2qNiI)(3m3yK#
z>kRouZeU#X*2Gdzy0%9!^=7n(AA8$#2J5?)TbA3&<zw%iy?0h<2ndG2UmIMvCzd;w
z-&pBbNvwCQ*F7{G%4<}{an%!zrcuAiX>@x2nDV0P8}<8m{NKh#jcfr5!lsf9Z~hR3
zCS8S1Zjm>+wQ`d)%u~9_U;L#vIYYRm+j#D3={~+nTP%WYJnZi$&=8apN;ma?m5pEW
zt|}k^uw2@FZ1b}|3>5b1Gwo{sGwx<f>28*`+fK}psGhsZ??Qy9Mb3{=um{29PiPWF
zGiy?iKx%^DM-L|`U<>v*#ZD^0IYbiI5zrnnVUKvYt`XWIw}%8%TSmL%ac$FQ?2yhC
z)yl}KW_{;+_d~-t?U19iLtOd|+97!pSKG8a`riI~`&T=KrlIee*C+0`WwuYGn<fP3
zv4`4YQj@4PWqSx{h+P}MhM!+$4*{8(BxI%#u!YrK!&bK;U=-WSQ5aj@1-e8+V+-G8
z)B6v`VNWgZ=uBd-pS{69BN40&@f8-&p#KUooQ#IUkvRz^_QtOP?#CI9jD_YdUjx<W
zXTT6kaQgL2fPK<#5G~TIM~LK0l&lpEUMi}uBt$Ktm&t&cr>^q{C^$&LAqonhoIgyr
z1itxk3XV`fFuQUQO;Q>KVf-biI$A_JEFxRwA~Lz;MI-^%t`&F2&`ryw7puiw3Qws%
z(OYFkq=~3}#E3cRQP~P297oqi3xd)W6wySqj7-vnRcr;QK_Gg{-&aBdIvD~5P5F9c
zE*PB)M{Z08^p)dB%T?4w=aSOURqQpwKs*JD_)Az2e3i>J_?9o+S$L>zlXd_-E^EIH
z33P4z9fD%}!>Wj8Mjcka4Yoh5iRcj5BCba|V0^?F))7RP);ON&@yryiK{`D%;?IOX
zGyYT&gb|~h(-O8Irv<52l(Hgj3)_&(&T<-O^kE0m?1eO^oNfr$BHa;o$@ki@8~4s|
z9q#L;7D;bF%~VSRp4M*p)Ptw4o4SBk^p(#?Ir%N>`3N|@xoKiBl#Aw@{x%LHxXY!u
zS^QRBv&yO{d63j9Hy_INUEn@Y5ud7=PTml$#Liur2~IOMlBd}N(WFg8VlxTK@8=mj
z4I;YG_gSqTDy!%#$e-{ac#F%~UGLtwbt7x<66{?MyZ2`7`_hJeY*~o<*BQ%K)>C4x
z&G_4(Wp)?j`WAhau{kmou3}$jR8cOa`j+aqRTnt^Rb&Wgc!IT}LvH3(g+b=6^i<7<
z@WWq1kf4hFa=*ifFAP3QzY7(9mFggHLS64&N=lvY73{qa1BV6snfu2Pqzz}-2uzlB
zy)el%4R=ZE1@7k?>I-P!<Oga|$Kao+V_Q}NR<F^^it{8kQ1=oNpGlloJQ$0{qshd=
z&d=>bl~TltC1`xm6>syZR<IAI4TI9u+2{G_WfETmuP}~7v=tKGBz8kIK(N4w8_`i9
zHk7>fVhYP#7zLVqf;Mca|0X(yrLIY77m&WFM@+|JH7RvUwSYykXh_wh^ekpf8B)gA
zv1a&zBn=3=l7$VCQX!|Ba#9Upl|l?En_|(F(x*%d;6lUd1+0KYb4njpr_7X_QWy1e
z{Z;E#qa16?7WG>2UQ1cMHD&dp{izz(D{D%>XiL%vuxpkuRK=y_4Qo>1i5I|_u=b%>
zg?`vm_OO<XLr1Z_C}*c$6>>RBp4C)5bEX_Ar`#gPqAg`j*=A@B>L!0eQ^TJ@@Dn3~
zzy1AtbUir~(DGlzy{O~oug!%;Es*&Yz>qiiWS~~sSOl&3*C~im5T{@cfoPk)#uL}6
ztPHDiFD)WVC~-9cVG|#M{7G~x56e<bbCEZd;x!Ovku*p&QleCclZm*(*bXv9lE8|L
zycvtmMT#jp=?zwCF$ZTt(_q3x3#&oCOOUXExcc&o0Z6eiNIQ>~^;2(K*!`J%Z|j1;
zh4&>ov6$cD^0i!Jd%AO{;N7`o%X$1OhXl`#CF|pcu2s9xuzSgpYaLkq4Wacw+TeR^
zZb&x{eQX|j<n=vr)ZLz6ZC-B?0w;v}lMmW5j<XvYb)#+RbY9PSx>rp?!;ZB#g!-|i
z6S?O8)i>65fAH%<^S)b?pLm+6@Z73xy;bNvDb$~OFr0CmLt(FN=@b?2TDd7SY+rj`
zsNaRczQF49YYiW~Eco^;oqO!-TYXjV?M)lJxu!tc;Q7SizH7W=Tpn6IAT*AxkKZ>u
zX!|qs_s$EAXHn^rE@yV!9{J6Ek9@5wwzV$7zdPd_TRQissbzU_O((RDW}0>_oz3|N
z*DQj6f7;TF?xroi$Bwpi$4J_~Gi}((pi%*jVB|P0{umtbA##^1uK2Jjto}%&Kme?4
z?PT=J$Q@lnc8KA0(z?-0YayWG8&CoN8iG<#+eQ;EQKZC&V6i2yK%S6*WK<%26AK4F
zbK*a@{J)|%+7Z0PePZ`4Cs&U?v~N!vwo3q5=7HpWA~i&6abXk)lMy^&qwqf<!U%@~
zbVP!DeJKAfYDyrchQ>)@D;Bjt!v)x+lmkRjO6pR&Spp9gSK+xnNg#t=vw)|S7a)|D
zpmPC2)c|fXxQO}DOp2}qut^ly=IZ=>EC?YBgl7yAfm$WvM6AJZhLTBMLV>cV6e4%X
z9(fS9GxK5{4LHL|k^npwnY*04!Y8S;b~+M`1q>3f`WjMr!hNE#NE!Vm-MgyQ>wKzC
zv6fm1fWrjs(t8pB)|>)4B$!cG*!oPeCK2I@g&m){YO0p`9_mh9LI6l%;p)6ucemi~
z&bWJ*jE`EnR-)<Q;}2AsmeXlN)8m%*Y|CDuWpAcsKW=lrZCT$j!FMd<JAvK$sJZRE
zFWvi6x@RoCZ&K))%ru`*8yX+m+tQu81pBVEVVAV{Oa$p9d0=6+(JCwKIpWy2T5Z6^
z>W>N-7%NMg(lG3)UO*`}-yp~ev%ve2ie31-^aD7JpOT0F6t@zEQ96hTTB>ZcrJ;7y
z+*6xN*qy|}@Mn&6wIUBtZDI!k4782&`Lj)<Lepr@(~<Lb<#n8I7vusy6967W0}lU6
zpI{$YeM2bOwWfIJhCI>Jv^|xpuuZQcWvhWxHq$F8xu{;m23^z|xs(>907@<DutjMS
zDlQO9Ae;d3<YyqHK(a6rK|`f4a4FrQ_MJ|EL7tk##`^<J#Ta8o{xLngiy%-V&B8L`
zqD2yH%E;C#-${^&XR~9UgNlKTzO-UQDWNzL2?8AQ-YDG~ltY>@so=A0jmk2Ag{l(~
z1fXHN`?B3<h3>PN?n%MWv1GX&e_U6;WO{6?&9(Hd4&R$wI-jHMv0G@_o%8kPn)`B1
zefb)$b!>yvw%V4?V{<uLR~kRI_vajSc?0KY#Gb*tHwJ)D8#ud5+8s5C$Qwayd(j92
zd>S-SGBI5`G1OhU-yoGGCR;sQ1tv4-D=(2n%@$LuD!@x^k#bCFlk^65fle%7I-&rR
z1cun9;J-y(Np4*+H^Ynk733|h3aBqN*cSYINEJ2l=p2I34Y4kGZv2bE<1dV#J9Z)X
z+_4veFP)k=b{>$K?bQ{k;(aQ?7C)O%kYLjECjrvsRpF)-DISCXQWotK6)Y_cX=O09
zTZBHp9NPWN^8XocOuT>qd)&m;x88mA&Z{fCSI0ATLs%<Kt<s)fyPRn{h>iZJwLNF?
zeM_@)dQFw_?+`3I9_~B^D#;Hh;M>F!aiv{7tImwQKW*q|%cE>5&~&h+a21hf+V>iU
zic6OhO43D)QgtLv09ToA0A9H)CRjbm(-H)8T-e+EA5(%1W>*krQ^$XuV&6be6|xpL
z9TOxy3uLV<@^h;D7y>rxJ^fGZRJ$u{CoVeY>CAb%a}7<|h66&wf%VJxZ)O^v$1ZgQ
zuuC1LJf}69*gyx|m4Yl1LrLU<e*V%d7z;j3DOv=g21Es8WB4fD>XO&4#v=Sz=sBbR
z*a#60Vjz%h0XA0rN0c@}0X3hkQhthJ6nq(fiKE!wZ*zIIO1D4Vx_g7eZ(gs`omH*Y
z)6H2G-3_fathv^v*C)O^yVfcM#_7pW-qfud&Fi_w=6nss44l`OH&V>Rx$5&~idnd(
zmb{f>Hp*wGn1eIfmlC&+F5S4*y5Xdh=TvIl@Y<dY4nKK=Rks_p)_e0c6f<xQjd>%*
zOq|KOVWwD%1^J{b6qB-0%*54s@@9%zD6^GfzFJ-5nkLWTXI-;FKlxsZZs4)go!8+P
z^|+gsM^-e;V}h$QUqeX-Dr}^f&#W`CocOKGNlBD*(}<WfzBH=S_$yorUAgfJlFCJi
z5onEN0i8Ocoq<RZA~?N~BfT&5$q+V{<j}Lb8acm~1dU;J#4uwB*SxKpGTziel<qI5
z7@k(uOS|P|w4@BZ(+XqT{QInpDb?pfd`LK|<^kWYY-NTOWDJ373)g4T>7cf%Nftmn
zXlDz!p->e`U38F}fII=wz^JqZJd|+5WyB=hKv)7W;}7v8YKhop`$|#MFqj~kOGqz;
zfRL~PL1V_hBt%A6${4~}5UKJ1lHSDFAwq0rl!A@Ov@qGI1d|{$7Pfuf3^74vv49bK
zGeH~#=!3eJGFV@E|Jd!hd+N@qtb0gs4`tljmyEgk)@*&hP~X2~E{Q(2H!e>J_MX-L
zb(7F{M6e%88;-EWJISx$O~8Zk;Jjo}GfgW)xeCbO3L5oHbb)pY+M#rn5Lx&STqTUa
z)GyX-QL;c?C=JKzC_yoh%4v9KN>g?H7ATfE*mo=%KO?6`p>0@B6WXHe^x|u2Rn`FQ
z89&l0HfG2NKC<#+`3zXgrjK-r{Z?4dWUDoke8o!E@^7O&|5XZzZ5EC5*CRZ!oC&P*
z;xnRd`9G!L-%v1v07MV%0{&l6z)%L^Q_;!THfhz#OT9EnTJca^g{asH1++Eze@y|k
zKzd6735!md%q|i#qFoXJ6k00Ur43g|NYJpzdxw7b<G2@{#r=a-NeZ+|D*I_5SF(lV
zGA`Oh{{i(e2DE}^dTJka_kBD1el*+tywLr8ru%|Si|2g)_fFkAmGzwvd?#`i*X=KX
zjA{lM<$Yq{b{$qN_q{iC4_NYH<M929OZLAWJyelG=&CVW*Duud=jz*Y4V}5Bu3Tdv
zZ{+F+HaK0q4H&C3!+@N}%<|~#ZBOhrq9JTD4IwEHOqGNL?OOi7r+@^XJn`SWlL9vd
ze@?*!1x1SByL3x|o`&jmL_iVf4Z5SM)tWWU+J!ZP(7PwkQNsH42K&wXxC1cAFt*D0
z5x<rAk&+Btop1SQx@|b^8y4I<)-DR}J$Wib*xa{iMoel4y}b-`nvg)(hKS&66}S_)
z57;xJm+>LPlo1&_Le)iTISGsE%ktHf-5JX6G*IrDmbe*J*!Z?(ij;LaDC<lWZ?aUB
zG0SDFC}XLT-xje#RcMRYN$ojfVD;OP*RjOiP)#|3s~lomIaa7<B1f{GD6_f~>k%y=
zA5x-7YAT+gbwcCHRRGxQNGTOD7R6|@v{WiCs2{Kh==%RTpIUh@qycifN>Dk&;#&R`
z+Qpxx;5-E+?SQsW8-@`lUxyp9h8c!M!eARhl;bZb_)7!{8k+)Sk;GdVy%{q1Ovoz6
zN@;kNsTg9wva;Y9?Hg*_TihmuEAB_$p{#e8;N7+MX2yHyk!LXL85KOE;LAJ*E1vmB
zv;G5uAG|`we|*!ZqYbW;H@K+BOv5%*tdT((W7?$&7fm2t<jJ1~2~@ZU0a9N#R)JW5
zPgOee;I!nqT~q@(m#!AMcvy9rE0A!y61H8J)GKdLo+s3&xv!{Fx`eC9xZiT8xZlD=
z5XvQ<?;~|_E`j_=cUW=Fk`TG#`cS?nY0xZLV^&;1{`zX>m5YXIErGVRtR+C~)%&g~
z>AR_<@1`yLZsJc>d1FnImLj`SCS}B#5K)sdMO788F{jM4#Kcux${0*=?^@oqPHUnd
z+F!-^G4jW<XiZtd+Up#zNm)|X-&Mb3({hWpMWoNEqljJR7VRnB1o!F?WN(ftZ8U^c
zDaTW7ai;9E1gR>nlryZO<glJXrAI36o$XpKtV`LWs>Rx(3L|A?8gARSRH<6haxc1)
zO-h9+ms0uy`lI5eHH+3o%bSqeO^SM%($MmRtoi>)!GEIQe?lPYCDH_<z9I~u?azq(
zfQ^4ZnKW1DuZkwvJHt{l1e13DD5dJ4K868sZE!jigG#sreoCZJn5rp|@uG&LW4b7r
zdW(9p9i9vGW@HJ}Ng$<4>-aQPL4dZT9t+X@!TD=RvX<rrJQSTp$StRfs@Fx;b<rvl
zNOES@F#>t8D?&SzN<^znHc8n;$Mk&s5>$oZLIz_nI30uiYA~3fH3)e3)b$plt@t0{
zai!+HD!hAY&?X4j{RM)b1KQa*SHtZ$e|K=HCg=3rZMxI6{KXYM<Lq0~KeBt5yT8@>
z(B6|a^rY=QKepFBa(V9T7F>h5hUT27HP_ey0tXb3dk7Se+XlF2wdL!fB6ucF=932B
zoi~Ms;hf8xbJv5#$u+d0GS3cF<}oc<AaSVmerAjQ+U$Jf?|Q#R@bAqvw14ZuYW*L+
z46R|#+qSYR?ddDDuWcWyY_mbN2iZmQP}Vmh_(mT3MmKfZX4{W_qjx55kKcYH=W?e#
z=-uwTj&s)D9=@Z^`9=}9Hh#(>ALzU0R%jnv{LpOt&vi{p#~wBL@9icDeM39Fay0D;
z6kbWfdY#X<bQZm^`m>g9!P32wO7A=+^qhV$EcBfFfn_r9<m!ESH`ll=z5Qs~GqGg-
zq^UJ$@jTIJeUKYB<#qT4QD*l&sX+|#K*CMFv~M88Y$blNF^YC22(JIzF6S|uUNlSS
zhB2$60XRq61TMxTM;A!XJy#9oP!$a2kQoa@Irx>XTY4Y_pr-;tP$>ujT)pmwipL2j
zfa6jGCYKDW!y0f-GIto(z23`sd;KId`u_{^@P9)Ap?3Zg3TV3=$MFC?Dd0d3P(e@u
z5Ah>5m+kr>Hgzlt1MO?<fJH(y5}(0j;R^F#<prYo5-i1Wb|8TRAN-F|ZHa0?-c)~!
z)P+NzOV15`W^?`t?XMH4N!njn=9h)~eWb^!YtD7-$@xdH%p3M&fi#$w%vd0frjPCC
zmTzQRhlSSRwVwN3>DJ*)>&XY>LhHG-;T$8dMJoVKkz6ce?F-XKoZ|1PzQ%n`^|cz%
z4Y-r8TZUU~5^piAUX;=<YHxAXXvoi0wvsZ|pwwLa{Y{vjBo(3`R&-0MC2px^1}cKL
zEsOfg&;@-{l_Yx~c7?UKYA&l%dN9l~6>|sHQ~@jwP070W&&Vqp7zB-mZxob)R0B~-
zF8pn5$7uha<}P<jTU{iOloufAVVNo=8$V@PE~-it6slrg<vCvqQCT(7Kmm&`s^?xn
z9zrk`SE`stb4&NEv=c-dRVXH;)>c%HTfDbGsT7|U-wWzZ9^FOtEj`AY3EMEvnn_9d
z^7|--b0}>8Fj&D8fxtIXkU=1sw8=IH%p_W5GBKt}VfPXSzDot(rr@hoisdPa53ni!
zcX~!hR#K-*Xi$>p1K+cQV`S(c&3%Z~QIaPZ4Hx$6TW?8wRZ_W2nfT(_tA&ftuzLwy
z$e>aNAw&CP^FWk|gG~JJRIPtZTlyZFg)NO;oUQ8->UwexhzkZEZab3p9)&ca-nMjn
zlhk(0-4EMGAKG{2Is(~_y+X&{^|4IHgy8T$Ztlo7?+}`Itc_)w_un?<I(ojn=lwm|
zj&Y%5Jm>Gr`nL=I?YXx8Y}*c@ZAY%PE8DtLXx+K?#Z2o#C?PtJsGx=DtW7)oz(#c)
zX;(+Odzawam9|K#b2h2qrwlN04#lF$o1$Kl<%s5zA;NSppz30*Q297W(@7#r{tFZ^
z2?SAp0i#4b6@fO}oU)+^)t=zrr4m1-V3UF$BS_HRdF?eu#2l7^>@SeCF#1bP)7NPp
zZlL`C1=7XBNuYIDhO3P|7^4P|4_XFS$yPxkMEV7Hf5trsk*c>n>y_-B@>;ub_eV#6
z#^ER5UgI$3te(6Ezn{PW$m`E}y3-9kIp6SRjTS_W4iEBNjiURhtrXeN?q`}FNpABe
zbW1yv|MwISsm6N{h}uiA-QWq!@bwfB+T?u{(4dG`nfjZKfX)qmppu3VedZ2JMBn!*
zD+Qx85I984{hTB{CJ1p{t$7`OK`*rRu4-0aS~Uy)o%tF{f|A2|+m){GPdobs<G_ZI
z5<SPD0($Il<#iN6v0Cr4Yk6k5NpN=MYgn2=(yZv0_X)0^ypg3rLj!@(O8xQ~!QGoT
zvoz>x>VIlw(Mh#UH>r9IEsl;NsMgh;uVGO`S;LGh&BV2Itz1~`UU^w)9?qLt8fvrs
z)XJj%9(1f0#t-<d>=-2(IL~0-NHIvGYHtq+#@3&iar=ZrAjzd@u%_`>xU_PNX>=;(
zQb1cIK~h7)!%W1h0qrm(SJl#?0n$NkRl_7h20~_^DH$RSA*=xPl5upILWfob!R?LT
z!30;3V`_;U`%vzMiYxND)l@IQ5LIw>RU;`?wN7o3(<Z;Z<flkgq_|+=ok_yc>_SW2
zO1${1aFZxgz@VSoqiRx!0_9Px8*hB}oS)aDLQOYGvkfv;dx;KETP0A6bARk~Y7l3O
z=0yEj@N^*@V3jSpq$w87SJ=rE35}W=b16UZ#_0?)1KNa_q@@w07l;NjB@OYxVV>~6
z=q^5%YlAVVsG&f~xkC}1aacVP1fj*`_sif{gXBtc`!dE+di{{nrN2b}#BJ07-1o>}
zy;UO^JP!?xpLiPIGu|`iEVWsSU$B7384xT3?6yU)v}7%Pf~7C#Y{)u?1t)<~uW3p9
zjukA7yJdMM+p<S!*^_bYMVjGJNmV6fspgW~imHCgD$&I@iF#1%A|*L$f#yTAsq<_%
z#Sq!b3L;gInnJR+g{70SR#}cJ3{Saqu6Q=UMDt*w0Nx{rr3s-SybW>Dsw@dQv!5sz
zan?Z7i4zRrg}`T^N_np2tUo}VvISYr<9p9~&$=>~@r*86>CSM^u+p6IY?JQjSv=#}
zi95Rw)+B5&f#mm7+lr@~Xxa0$VoHuPIqCNQrU(BI0%o=<qo=>8L<&f{kmyH*(39G#
zGo@Qce#+rD-=ftuuSC8bdp`zS3SINswLeXLH}x}$O7NOWLq<d@E*!6As#i&HK8=*Z
zrR>&?-@(k51Mw*h&aJ^}Ev!)vVt+&TkwKZeDJUIqmZt{l0RzPSHDL=o^P{J8I|@vN
z^1v3he?t{^Kz-mu9&^|-qi2Yr_H7%Sfw&^1DzM6BrE@zrIn`cBtphTk(>;{e3FJ_Z
z``U0r#1(Nf^}i=lH#<=1Q6YldRnwss@uG%?uqE6WZu*8At~09U3pa0(-a<X8{tRXa
zt#9k6JaDMt-6~I{v3glz7}ywU!)<6^Q@9-?v&DO!p^gsJ;ro?FsS`CcqbGKp#_B@6
zCA<^vJ*tmY4@@w$;a-?vw6ZoIE=)rqGJB*DEksar05!MEv)h3>`f%TA<Y4|W3ilq>
z-!`yC`e39>S~cOJEpo6`D!;92-H|Rf2bS<Q^rbtzeT#awn3uwu9Y!yD!aE|pkpNDh
zReh7BvZGnYi1kHkD2D!zpkzNIeFi}K>=L`nf!6VP{^<N%I7$+zQ0zox4n9dJesQ5r
zIhQH9au{N#Glv!w+{qkL3@y|%3`tqYOj|*bLyFv0K60_pP*E9tMO?v&|Dk|xp-!r}
zBEy19N|rIT{5GGISpA(!5ee@oZ#EQOr4noDv=R()gLsI>l1~c$zhIa|Rg|Hp$!Wqz
z%0+Sd+jtED@KbfuoC1F0RX4XZ-%+3(@@R|Nzpze8|B4C{7G{vJP_v)4{~%)-amQHR
zgA0N4bFrI#_Q(%c4J?%o%rb70oGTPga^Wn42|{|f9HGMraPC4r6OQpb+``cDKd^(;
zWxjzh0d)^7Ab%XcqKk3g<SXUMJUJjCgZqWO&$e6`ch3B*6wCe}^oH%I`7Q3T*_Ac7
z2<DdMHy@gNaxP!4GT{@OC+(fc*p8(Q()nqT+^j%NN0S6IBJwUG5oLS}>Me+zh@c==
zmQ7SA?kdP~SxTy)5XeMTRRwD#s;jtQX;qa-hbd<DI;xPmkj27^H(010wkTY%K%yiI
zDmqeKg;hzX(u5R_!z!Y#qS_W^3nH%)Ran7hri@sp{m(8)h&8h$IjXqI-d2zY7X^Q)
zO+n{evQ;TO>sMmM-(-gppY2p)#oy|0pY1N@P-4n<P=3*Z0&4=|kNEM5YqqZ<0k_qV
zH)<ljo?T!R^pnR$ODSl<rg8Fc*A(U9tcH&B%+2$0w$emfIb;Hv*op-x$y8`51{xTv
z!H6;VyCJtX%1R}<i)ew15gc`sISOY9M<K6g#tzVE@Iw@|QSC%+iFH-s96w0843w*b
z0(eS;t<rNLavcNLJB%I_brEQ{Z}K&ip^h@>Si{8Dc<A*=kUa!rRP=oW&4lFqNH+3k
zU8LUetab2i#_`=0{1`7Ui2TY~mkJ}ituRZ0fB8A;OZ;!Bubh9$Iel4YKyU`K&Jn>m
zvZRL^C)==1XxN4WZ@!+aZ>Qkfne`nPe8*uW^tj#!PQ{#S+p(m5XlU8gbIoJmb)c=u
zwRAjkwXWz_Z5h{Y=>MC+<~%fbA)V?zp}K!P(=|!=?T=c<NCQys%hvY_^}Vb}x_2z&
z+5^_8m6d4%Z`9&{@0EM6eAM-w{tx=sX0p3Z3cF5bcU=^AUCi{om}!2A>S}~2#Olmi
zS_MmM*3u<dy0VsIg5_9V!x^nVFbqh9^d<DT0KO3Ch$lDWZ{sWmWNSPVF4_-lg=f?y
zc?fu+zRC;Kcd;HA621k%^Oou+R7GE&EWu2Yl|gkKL;;u;>#iotz=l;sI>n4!HCaft
z(qZj4)Br_t4LGf${jxPlqr@&8h1GtfR{-P%u0(%PqW}-!RKsM6PWwDcexNS87J;^F
z1WCmlq5~?Z`PlUc7<^DfbC=-?Ov>^C@-6r;UICgVuHT=yGJh==CI?E_=6Ld&M2_Ev
zAin*WDm+O6+csqN#c$B<Bm&Vk4*y3yQCAW=mhJ6nK@?lT>~AXV?OSn#jfaj5UYW=T
zQk2}6$;S{G6Si>t8PW9T)Z+#MP5g7T2Nr!e?Ada6;m*R!&{}7Poi?ra-JQKNyVAU-
z&D4*=__d+A>^U7lHMg#uO?QsvTn+3FI}k$Pj$Cs9JNL1-`MsulO<C^_!Mh{tJs@}w
z;DC8$(i5Ggy>`=RAhopt5?(iF@ubbDXp}0dYunUm=#j>1!>+V9r<)IDY=_f^!)$Yv
z?JLqmv3>QIh<wJrDj-_2-N9Z^SL}mdX&wKHyFi0opjC85px<>1|K0?Gja}pZSmbgj
zCewm!9VjdFO6a=edTVAr7Mp()YZ<P-p7vDs>xH_g!uC?HJn})DcK_b8Jd}@|{JeZ=
zz%RMK>YckJpWhkqBdYi)8}Lhq!3O;7tZLxZLN$wp7_%~)<lzpJgfDC}?x4LeL<u@+
zGYwNh`DRiCHEiEdfpRjo>Ryo)N5A@BDXC|e_6m8Kz+Q24tzGZU-kVJa4&K*hT0q1$
z<;*Q<b2m1^C-%Xdvm46g$54B`eCOqC-H=c>l&#w%)a}VVorLw@V%w}K(`%G1YXZM)
zS(E7RE(fC|paU2r!RZYsRvZt6@sbzb2GrM8eBD-#G{QQ?RR&R-`%x2}8M_Xl(K}sX
zpoQxy#QIoibhGj*E3Ku{?;O?wg^+B0QZXbVc*|HCB+x7o!3E!UAU>EUpDXlu0s$VA
zs+iwFv#yn7a5S}|o9raWHZyqXro>>9;>;)|y&k!lAml&`Qet1as=>ArYKxUiES&un
zAmvlFouoDJ6*L3d$JRDT>oyErqkrktV~020d_Zs<$hn)+9lHhh?#J6Nu4%K|FACc)
zKH=2EwIDd2Xz-hMbgq0sa126a;%rPePkii{kji}gIb}XZ882Rz_j8WUw4p;HF4|}$
zPoY6&oGc9#W00^$uw*c;gx{-slc_S@#bdkhBEw|t4F%0}Bu1VZz$pSFUA~FAq`fM(
z$h7rV*<?{`p|#~Z*ejzp29FZNuPZ|2g~QJ}dy){~=^BDGV{L54p1{DvM}%T$@3+sq
ze<s^GDRfQ(y^uyxqZo=>WFM+@a%~T~$B1d=M0lx33Wn!Jhjc8Qt#L*|hz4bB3Nu18
zQD9kL!gdC3!m*^+dogvjTO93x)U-(Lz|Mo}sJOz~4>9y~-B$A(zZ%~82b8YD^wN>j
z8>&S*N&?_Qd?*fw$PQ0ZhHAPWDc9?}F#_fyQ(P(^!MGGOJ*<-~kjjNMbgmh_-iG&S
z!dxRAF;UGHnCW8v59KJc^)xM-OSE97lzE2s1nrfItD1gni=59$8!H&SXmgsfGUqF{
zlrhYuY>iws%T=;SrEv`FmBTEH#&Atacb&Vf;-^!_Y8IwA^rj9QF)Ajd%xuACwAf8$
zT(;mCjLO=p`Wz<x%JW5IvRSD$WlXU#EqPWDBH-8=?ZJvGY*tpV@(WvAW3_pI1?zv&
zvFL<#Y==@wRndbpRm+aC+2Pp7Sk-loE9DAX*tz%#8hf@{jmhppt=N^7*KB`f3ecyq
zC?ZKYQ?63SJ0(wQ%b#3^U$T#E%4(4J3XVs8`AbRS^4T>@Qh|yqWdsbzN)K~i1<x1e
zW;E39SrWEYT(Iw|I)W&rZ{)tI3Ty7D{zU)V+$@n_6&FhGtVqJGGB@Oj?IU|}c9C0#
zKc!``@`|em`@8ZYeNeHExe?S-5L^}WDr-1w_@!5|x@?tx_UOW?6ndvF>76^}zQ9R)
zjUWG<xiJ7Xj1}9i#H6)Vb({^KGtN)7BxP7+Eh>SPj+E}}+#eLqA%OdJPKw%@SV%J1
z<o#%eSR*@BS=fK^N~FXqF~eH$ND2lQ-fsO6OeM&VGyDRR44FCcl|;{E3pVtVzsDu&
zn9rl15WHkQS(xWe(OiNrd7j>BxD=IC<)oV@DbxolQ3Gydq3uPuh#*H#aQ4d@;EzY(
zE!VFg%)S0VvsgntKudTp7FPu$Aetm>OO1jpI{D}3$@B)sRrAazFNrTjw?qmsuPpG(
zesvylFL;f-9*w*y)}TcES~4P<(B)+G^0oPE37&+q%)Uyr@R2x9(#e{FB&A=YfQj5p
zGuP&(CAA68ypk;K>O9&Skpys>=}=PCqkmx8MRjss)Q91_eL5l<K`PB9AY+U$T0*gX
zXHtSg)JLK)_=6N2rr@je!nYBKPG%-sLSVqV_&oe8^Rj;%iLe&UOvxc}U!sZKFcz%D
z|CX6d0OdIs?L^v?CKwbRPBfG2Eyc^0iQPz5{Ud5m1DmdJ>Dw8}v!#K&OsF>pSwV%!
zBY$xcQ@~0uOgt-z_gS^Xh|IeOECJ@Mmb18TU;o(LoO5+#UHyWqe|3EIjf`tJZ5b{q
zCT{+~9C!?eRpvY9tRo;e0$ImS!Lbtz+}(Y5_GMiIf@>h_A~W<S8kKV_uYm+&>G<sz
zVd2y^yyg`ABjlmVUbn2f^&9E79oe=qp>1s4DYWhT*uL*ky+7xE0k((@wRukMtOd32
z@Jr4SS3+=ausWQv59GQ=*FtNT(p`Jfj&_J&`bV>U`-HxInLcn5J-5xvQ;=?sKBvmn
z!N*M6J($DE<TH29WZgRj_s+u2px_?Ny2k|f*hY<Zv{rBo!zyuQ8=Bd=4K4;+4&OGT
z?(VU5%X(9~>sYqyw9s`r=k8pYU%S43?fxY+vKw4UJDP~&`&T}8bwBp>Wj#CKdTecY
zEwt`jA76hX;~D>vx8q*p*L^?o`tLQYI9JBM-dqyR8@ak3NLu^gC8uxo<@LVwz%f+Z
zSD$uwqZ2)SIZuDqGbVV()?xW@0*`v?Z=XlI_MA~=$DR}L-#vQ!<nrsQdml*$L?NSH
znH4<S*UsOcc@X-usIc?A;CT)Oo9k~MLqSjTa^iP>JvVshzE&7KhC>FA2Dg3Z)em0H
z4jvZ<kLP?tkDC1}O>isLHkxVP^=~xmryq0)`_E^_o=f|lhh--$6o*cb73WYRdfw!F
zV$=>bqZ*8xrz_pC{n6l#?|kWlFFp3}fJcY6-WBT~ht}L{$<;Vqll`cz=ly#4eQi6V
z$_4gi1LJVyaKGdJj&$I-oO<%qr|j|HwspK;3$IGq&I3Z{flS-MJmk_Xuo-RZ*t8pl
z8tH|#T;Kj|;HVHddVl=>8=1hVY~X?rxRCRBmxtLH!pRd_<;4I#!=#{JY$p1*e<$!k
zAXnF&?%kVq@4N5Z)TsM0&pr7T&fTB3^ud!2&9~s{el#@lo#+SA$G$-v&dvIU1mDnV
zlF8h63%=dyu~X6vWqi-)bs8@XS98mzS-%aF+Yd>IRGW_5c36dk$F4q9PTIYu{p(*`
zKb`iT$k<M%4JR4Dio-|j@MW2m9nsLl-)#IEHZgdks(k8O(iu5bSj8x|5}92}U9=~!
zCT&)z4gO8=6b8Jf;(7(@xkdO}S=31!OjQeV$e$TqsUvz^ky3-p;byHB)#0{!4^jrD
zCE!-LYNz#5MupZ|G=bhTRkis;OD?PNtV&NnHGvoUCZq2lL099%n|WG&na;a`H-fWE
zbJbFemb{~W$Ayz`7Vt;~b!Aoi_X5T7%lE$I4YgH9&zQ0(BZVGV<sP`u1M3#!W>v-w
zy{OZozl&D+RGfOz{HAn14rw?Y2k%!TEn(D=bg;!FDc~}cI!?h63ML5^KTiQZw!`r~
z6np^z$PS!%N#dAXh_YR#bgEEPUE*J(=c?(V#zAyLFF*Y{PL-8PTE%)LRU%XrS%>IR
z(o0Z2Ly`O=dP7|a&StKY*a2N;zLp@u2ZFJZi$BiFkckF;BSt~K^i_q#!v1GPxz$Sl
z6`|Uf(N~~apfz{a?icL-w0$6L7(n>Ap?P^uXc%0wd}6M<9sAa?Z=Zet>_hW#u6swe
zdrZK8OUKgq(yuR%<GTcHxsGkwj-5is&b8;)o4y;oA9~<?FrMj{Ok4c9u0XcysL*vZ
zhj%#I1abqp8vwBz=f?<L_6}rw#)Y2ooTD45y-4jO95$SG^=Dn%1=seR!+CpOUZZx~
za&3FEZHI)mL-$qp)#<jQpHd<av(@$lP6v*_rPGn`zOtrTaelku{f1TNA2zPNk~TD_
z{YM_PcD{G>-py5CrWJ1Se7UwRsh*t0k+n1nmS&jK;pOc(6V?Ls*U|g!{`cWE3_$k)
z;BAL(Lx*F?Pqc{Lwm~aM%0hMk?Kgg4*_Br#`3YrU=ahf(sg-Lxs`|yJ7Njr-+kYOY
zpXkzl-{hI-(<)w882BuMo+OW9&~qJALRt?ALWb2$z62j|VYa_7<5UlJ5AsxAWfqsJ
z&z3Zi!1=A$iu)I}v-7OV{$pONo>3-3$JVMrI7yOJ)bP#H;;y(#Oc@GNFu)3f3@gwA
zNdk3Q4TxZ15TRgs2=|wOCDK*26h&#{yQXQJTn4o4kxvI3;V_u1da_58G7=tw#DkkH
z7#b+G()r$x3RnUy2%rU;Mbo0O0F?|fRAQ-sOVC`7pty7x{{@PjrGSAJtKt=tF<`Px
zk}(Sb3x5?eDmf$hD=I+JSiY!+97mdH3_+&K)cx??3*Y<TNg{wHWcU@~XQ%+NAc|j-
zHz<KICe#Aa#Gs6H!iee>ZQ;mF2v*Vxn_yM$B_E}#AhR@reKe!<72p<R)l_#*;;sNv
zY>hAM`{iI1EBp%rQ5v+CfhbGE?dvc_T7kFR?Kw9r1O#_a+SQx3^cMZRy`E`;{~pid
z`nJ3CcjjS`TfY+uPjh|R+yV!?%P+6C2+d;|@1CX8<iO<2y)#+gsNfr2I+q*Vn;kqx
zB&g-s(&X~1j~ZLw+jei;qrHdjn;z~x15dod-ZN{@-yT{S{MflYz4wg3eDgNhmd<R}
za|5I4(PIz$kAoNloUm~NCsaiGtKdy8Z)M<ONU#j$98JsPcWgOFCv#l5U1-74+FsDy
z)@?s!M|~|+@KdS-I#i?S7oXN}&U30?Z0M09ffAMZsMGN0Z39Q^^#!>!rkB&=k3o-r
zjL5H|DPV4@3X}s?EnTUCu@cKcI@*e>EQbcx+Iwg<YNe&Tk5(gLU(rfuO>Z*KuuyL*
zila7q&UT4S(l#jzu0mPlm0e6etsr=I6@&DGr)#Lg0450CzQth*8@sEh7#dAWHXx_Q
zmaKO~@Q$oaX1qt?;@R7r_4W(i{#D%X!#&j72Fd)o48)TloK4as!vBf{@*n*-L?9ch
z638HaAuy~;`Vu&nTtg`0RYqnzDpnhANq|cKzN(hRs0DOT%uCu)2r6mRaV?fOv8bvX
zfaseE5DQjy734RV1Q6B@Qf)vR1;ICvgZ(M8yI=#S<VT7B56Etys%IDt^tB+6O<9Vl
zzM4fLME(U*y_95s*Cr#<Loy<@mifG|)<0Xd`G!{8`t0*vIR_ZqafWzpRoDRyoO}>N
zpqpgMYTl2r=E)%ge;NVkdj?rDlsZm91y}GEGKn>?A7VmCCc^t76($~mCrm7A7NS@A
zC~gDxBCnw6#3djCue$g~B))P+dUCkPkldp3uTvc)I%i)*66KG#$Z&_mqoTd2ZwxYt
zFKfURdaa|<w<?_ED_)!-pJcjt=5D-%SD<JmzfcP7{^9&WY3WV^k8}<NI&*UGS;;M=
zTSkP2olmg~17q2Ng983r0!wF?yI0y)o?lhv`~zA4u;3qF8@OLD>^MQ(!h<(5{^uc!
zV?M9<3oZLg_=TMy&Y4SJ1J^o~Z5b6>Msp6|^32LV%J%FRdiJkBFZ3J|S`OW>EoN+P
zQ)D1(7ytF}>Z0H~ko8Rnz6mOMX{8-Gn{7+yAl7nw@9w#?XL){g5z7Dj!w+3V1pIjC
z;Y`!`ch9ble&gth?hj6{odsQyZW@2&Ya_>JE3u4kgzOlB3mV7ZCclK0*p8~3OiOlP
z3Sb6Lp8#3f&NcTxe*^yXJ$sg{n{KW<kaPIqvY*73%jeUB2QrR>P+@o5Hk}qw5Dvt^
zDBU(L@7lC;*4lSZ-8%Ky-FSEM&g9DQN_1^ocE<@CHkGjBw9tL}!I6yne9qklxek+2
z*46(PvmQ2BHdON|RhZ{2L{7Lk-w}`#wMb!K3i-F5+T%X$U%1D$$J_MM0V?J!A{;3r
zE{G9ec<b*l`&;3yYF-P8&8ViBMJm-<amngu2ym*~Z!_f~l+$1ds=Eh(S9(&&7sNU$
z<f|gqA=MQfWh%>84HxN148v5tXj4&TQw{p!&Fp(63Ip{yxyef>Y=M;Am(@_f7DOo3
zFjG~vvI>e%Vo(a$4dSHg{e`D!m>Cd}hzrb+sj6@cA8vwhtE4vA1%aVq&=iz7Cw=41
zPq8x;oFu5I#<xSr(ZDIXu~afH=a5<=gn5B(nLg&XsRGi+@GnyE5(0&Dp@V$<Z&AP)
zprRthBJnUXcwL|zXAp>%1UwBuI>Ugta)L!6ATi8b35;a$k^c=8tMv7=rQLHG!TLNw
z!Jnf}KtY@VG~Y94J;Q=$7{~s+-C6Ij;2mCjH9LAvz<)0}8(GrduFJI!W?M%D{5SaE
z$UL;{%6WUT-T}cou=>jSuKS}8+B4pBL`Wiao8aBHrjlg#jGTmw1nHgu!85S>{OSv7
z&-PnZ)T(=g_v66mO84rn_qSy{JO1UwpPu^esrAVHneWYIcAiT&OfFgIBq&ZMN^Q(p
z8drR4ry;=b;!wXD=SQtncX!q^D0l`}Lu<~p@ipiO0HSi9E*Ws`U$0%i0KGxkxyCZX
zHjJeN9_XyXR^UN7y{VFn-(N%4((iNB(ixU=gZ+g)&&WAGUGx%75{VmRRMjrn+tY^j
zr%g?X(V+#h@fg9@pRWoRK2SxbrU{5*p;T4@x~XBm_Z)T<c7KX}$PKUyM<toarWJIW
zyq8dU;Y#V0T~FUgD$->sy^_8_R3<27n8)<eD7~`-HC1D{iZ#`g)l@L0mTG$E1=#q3
zAtRyb1lqxj`y|g6T7Ea}q7((+p-1l^rhHlB5+#fxK|avHPA!#a{G=mTj!NS?(ILr0
zi?ogCkm!hFN|o<xIM~x*v9?OzgIn&;%7PJ^{XanC$++*-ax&X`N}&H29vnvi@!wzD
zJ94f%d>6;W?ZY>CnqmCs9b7t@YaLlTNnho$_;U7!<=r3K+u=|o+p%Bh*q=Udj-;6m
zf6meMQC)i5p$t9`<~W>obg`@%IqLzT<3Rf0WTxZ%Q&|N^SKf~IKu_f8N*g*QJ&J4<
z33n`_5xQk|oG$^@ca<X^0BlU>A{%0sxi}<j%GNQ-dawmGUshv%YO!u`UwKtsmD0h1
z68D7UY7lEiv+#E>T$`iM4AaqR==&21_RV4J&6map&lf&*Yf@nBIKB#AZhOp{O&(|V
z`j1OS0Wcish2kEn_Q)Lm!U23qnCwN72R01!=G%#z=qoG<z2u<{Cq2BZ%RD@ly1
zF8|E%UjK7UN=_d(W?x8_@J8{A$?To-hn<VH!4(1j&uAB@B}mmrartx&c}wBHLBStT
zK-t(==y(TWC8uj7Dx7yBbz$fkp_n|vDO$W_nG2DZkF)sG=6*=3md-u)__CgUfz+>r
zZgQ5o+c(qgyY9!!pgH9D5Ism|&sn3&<PQXm=x>9pT($z#)mMiCn-nlE4GumC25+3O
z!wAOaFXO{?7_$(nmWG2U2ALn>-=~qN@KCemelD-`cWFS#^sS(#AZVVo4-59;wZV+N
zaE3svc~kn@d0C&eD9QRv!q_s`p9SiRV0!glWB*Y3imTMDR&rgTkCRtKoYUm{kyo_D
z@V)h*+#1md|B5h$WhWsE`PeXh6Qd&PDRYD`v!vz!I~uQ%XIwd@ZzI!*1h581>yfj4
zWoO3Oi-TD9x~!c>ZDse`&g{r3VdPZW-k!0aP8&`$FoY$424&Eh$-rQR#{vL<vhE>U
zZsr<RIU_fK0{kCQ56sNLA`Y=#nGZ|udcH`{e0au_ph9wY@Fx_zK*4r;z|IGd={WOK
zDWRb@dP)ZaOIUTLwqwHWll0&y1y`vU!&$_>Gn~aJI?29Ae~x`7od2ivtex`zKE=qs
zk?lyf7<pO~4CUcd68J_64S01I3~qWt!6W=7{u5R;xnO|r!nU;5`(sZRD5&lOxsDyV
zfe8vd!%wU=KGUYg=+&pSb@1M(cjnc4-Er0GNS>qLHTida<i7iRdp~7q8=68kcvL*1
znoxbpHR?<&3wiokM+y8q(EgNu@?%Z9aaGRKlGjk=v9W#SqF@Yc=;$uLw@znb&+z-$
z*n=+}8;3S@xXBOI={nbE@*I91xHsr0KSX|x>bugtdxZKuinpT%-`&`qSi#Ye{axQJ
zpXA}FlWV{ysQNy&UQy{zsUCxEK6~eEUdQe*3{C#`2JQ{yYovSl!K}~Qr8s@yf>q;`
z?k{TE@M6bMUWZ?ll%6hYmtUmAdSI6YW8X#%Jv**Kj~~||C-r=*oNQFAx|Wi@;11c9
zzR(?<HpzXVyOw_V&=@$q!QuDGl*+DaUOo1mvmczzbBNyW*r1<$yGqxwa_rkD-#_{7
z^Y5RhZ+vv*^>w<g)p{DnuJq26G>%>QUEKb|s@&l46LX!e`LWA$cmJLJc?^0pnt)NF
zyBfNK^kT=_gwQgUH_|OkRGROm?xa@2LPKAk%3@u)ym>3dY;tqcfcnP%4LhX`X=%dI
zDHMV;OPcTEkO)Q}EQct~qSl>Jt(;taacyK>_di;`XGxDtK(irq9*3?Jj~<LXNc_98
zpRqXG|7?8+o|nF^W}n8{BUtz0xLaZ<bZJ`JDg+0acP$v{-Gn*bW$ByDM3(ZzJM%^g
zNQucduV{cTrs*p~b92(Bv@q*A;5Y!21altCzFy0|=PK?meJJ@WNDRedq3fX_z9%gm
zNsyB9-eAQ8p6GmL`zM_?9|B=96TQqJk62GoS56r!l9tT-yV%7Zvh%gU$c@PKH8goB
z7P^TR4#EFV^g45>Ah`*$OL+@kg?N%R%hea_9g-+C$*(+fS4KKTv96-<5IYnoeW=Dm
zttUY(^ARXEK9yC{`_q6E5@f#3;0KAih3{5f!#DFH477<JmUb-}jU|R8EnzT$uhqvx
zd<&H$6K;GsF9u;|8%0fw#Ke~~@lAFHBs(ZqCq2@!5$3xnp_}EEhMYbO#zUpb@q}Rb
z06o$tqL-;og4(bwrMEL2$TRdXNcn~+_#+A!%x7SHl5QC?I83pN6ud;i6b0X<;QJK(
zF#+GdM@+2cBbUjv6-JYVj{!5#JVE)6QE;5{8TMmBuf-w<`9DKh{O1ycE@024Qo)&^
z%JL&_x4`ZG5jXw=Zv1aJ%MZD_A8{82?&8nX8kPE|CQjAyLvG}U-2NYO+kU3js?<+7
z1V1zBRBHGaMa;sfPN;s!4gQEb_`h;(KjO{`+}R&-CyIHgj_#kSl>&h0-ljBHx2boj
z^eeAya`@RCaI221=!Skbhpa07s&A9SPrjYgb)>sa2-*`M>{N}*^bH`D8lXbglJ*}I
zv<FL*H%%&4dm1q1<R*vMrs0TMWlDGK-Q*~;d0IQ5GUc>QY2TQj-Lt8|-R7^U&f!r`
z+nMef7qmw<HFUfAn%1pqUR8g`_<@ny1W3cFd($d+R@Eb@dUD#XoUtp%oKC6Lo2CW5
e>Wpgj1+uG4kDY!1Aj(oU%v!bjiS(4s$o~t~Z%so0

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/longcat_flash.cpython-312.pyc b/model_executor/models/__pycache__/longcat_flash.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6760978306dc3d8c7495097018cf4876e203fef1
GIT binary patch
literal 26831
zcmchA33Oc7dET29vtlrq9T)(EokNfS34p68iWDh|E3{KGBzX+t4Zs0s0PxL#65)YO
zIcx;lQUqorSlcD!`ovJA#z;=nFliF&^fZamCha@|_KaVk28q?AYI}M>5wh%@Zr^|3
zG6QHJ$#vUD@V>kJcX@aDxBK5a|JLcWad?u(uO+w?$Nh)`>QkY3?j`jccZ1`(eva4i
z`lPO3hqocAPZ|0RDPzA;NAbp_DP`_AGrvAr(O-c$Q?epu>9?>rbJCi!_1l=gB56-K
z`W?(~Njg)N{go+Kzl(*f$*PpQ-_88CWOd5Z?_qv>(wp-2`<UO6^rr&-0p@omgQ-w|
zi1{m%HL2SE+ElndoT}@uV{xuzeX60qf%&VFkyK-UBlEkHO{wPoX6CO>wxnA7TT^ZQ
zZ7l3bwx_oAZ()9KGMd`jzm@rY$&S>v{%!F4`9N}es<Xc{)z#m{!olQ@)Xx5$sqX&n
zR8N0Ts<*#4wX1)Zj?;5-Pki^AI=MId_vpEYIX-li<7?u!Hw{YcUKU%6*l^r3BB(=9
zd~1;V8Dt$G>punZJ_gwU$jGNa9$=7-fNc5{$ou0C2HOnSmQRL#Q)ztvL6)NxIoitS
zh<C=j-ZUva@xWz$w0-h{6Qe_MAwD`7-##{)yc{`}97vy!q{jGoGBP-p8Xw3c&L!iK
z7ZRECk>eA?!->)1V*`VTh$n{6XVRVTQ)zusy<|BukW3B$R<fMP#0Bz2b&@%eP9_G)
zrym`KTlJ_A&j<sF(Kvr(Y;-6wj5uF<Vtjl|$iy;Z!r=KB)tW$Ny<|T!FnB&L!%4QY
z$z)2);~0)-V&mhnVPR}y9A(%Oqlru`IW{~T7Z9{Pkw{J)9_7zWBoVS4n@Gp`Gh+|I
zU-9^vC;G;ORMa5VoQVs=)Q;ptYV^?o0qu_`PorrAf>iZ*d>joQ$i#Ui#{Kx%3+sVU
zn(Oq~a3Yg_R2UnKr_*Cpb@gKt1EZP5Bsy+vRBNyETykviLX3}Jq*Q!crB>FN<M9Dr
z@}C_W95|;&K9o8a=Xvxs3iR>up@E5HCMI_|K5~F(AL&0DkB_J0@e60W&zwGdIFpH^
z-ZAQB&xuhCK`PEC@BvT8N71tM`?M}lvEvE3x6`M`9zTqZQbLbD8a1I&kDf`S)2R3K
zz~#6g1rllM<dhs28%H0d;wV{aPYqm%$Kt8+%;i|3q^=m+K$XRY1_m*jmnAy`Oj2oS
z$&nhkd@ddv7ve*S7YF5OD7(t)<nCn=ei=A0&H?vv{d!*4Z{YR)M&2;2>o-}s|C|4K
z(=;~(e0tT|Z=U8})b&?9!9~rIoh<=*<R)v@uLqj369OCBPRW@Z8y&_Ji4D=3kzC^g
z=}hcG{BrElKyo6U9^6v$g_ZEz@&Dc*1I7QE?gp1p&=kjAi)Oi3jU30Dv)-&P>(2(W
z4cSPxG25JN%C_^mZ`iV1zODNuosP@uvRn-L<tJN(klJxvR*w)$QPNB=>9eL$UDk+L
zWx;b?){Kx@gRvl_k{&K=MaZJ1*$}d7Av;2hd{Io+fe?KQd$LZ199pOnA*U8{Aw*x!
zo@~Vxebzixk*z?iON(_QRHcQg5prvx07BJT$b*na3xyE!YM~m0d|Id$A-@(1BNWg=
zbqEEuP(4B+E!2uojTUM{s8$QLAQV<ZJoR>+8p_<S`m!8vcvBf60sS;`P)#YmN70)j
zhl*j<hY};Ie_e@2twi+B$b%|O@r|5~YUnbzF0W}_-lHm1@x4CprY$QeKU&cjwMmZg
z0UikZLVPrq;3dbov2;l&UK;Xb67kpzV*(F+p<uPNWa2ZI$KzBAP)a(cgn-O}U6hbL
zGd6x927GgVjF;?6(z(PyT5^rXU(AfgfYf8@!PHn>GNys<CD+i<XzYA~=h3EgVlpoI
zkhUH@v1ot%#ql`E%?9u{xM;Iv0xbf5v&4`O1SKZfE)iaq%L}9iUW|>8r4xi^OTWfm
zTC00>BBeG%L3|#H8c-2*>^u;DTB?YT%f&h_Tmn)T24cd%=mp7su_RD+@j^@(8;`Rr
zF+Pz(dy0Na9bK2oDw01Bm>XS*5t1rLLGR#0Z;lIN=OhNC;VGpxZu;KDKob2XP(y|>
zI08n7<pr6MDuK2c<py<#WyU2db^jm{XvxN!m^mNM3?LIVC_RXhMu(-!;zzTQa~H!r
z05RNBRVq2a;Nvm*%O!U)M(G*Jg;tHllyO66N>!y1Y%2NK4B^$P6$&KTl%WAVk}A#*
zq|pFD=)wG#@Wn+U$worxMZB;JPIN2gR6IE(?4y|b$T<r~ve7`wgDM=LSX%kQF>+|7
z3lETUh@8XZ&{`FakV7j^c!-?+<UCByadJ+QLzF^@lCzbZ6XbM|bBdhP<eVX=kDN!y
zd6b-O<ZLIWlbjvobdmD}IggR^I5|7vNahPK3<$$%$r_6df?lO#u{2c{`K-^Ce|V%T
zlN#?DPmFKRprm+a`->BM_U*l}C*GAzoa-9DjD<SdbqQQr7h@kWT=BsPZ~<~K-L;Nf
zc8*^b_M-ktZwa~WRF~aTNJ-CuME>Low{}*?Su3wqh?d|g=djuep;qND(o?7oDE?q`
z0e|6+yFP%d`Z<^Hg8=zzxZ2if<14O0`@w1BlBK0k+eYu;N@I7f@u29ad;8?7fwMZ7
zEcL5qu4NA;Mhby?<Z%?jTPPS(^AsXGC|p;lX<<dG!RFm^uKI2Cu3fR$=j?5Trd>Hl
z!-|^L*iC8mT9FEDA=HGTD%BFz3e{9Kms*n=Zs?@a!din`_fxp3P!pkst(m#1z)U7r
z*SX~C!q++7c}L`qBeLT5<=yR~yM47n{^B(o=kUz*=0ZD`>^lq5?fK{tF?wYB==U9M
z%TDjileyZSC1)>7I4VYuvV;`^dq9jnz(V&hP+YV<!9n^;aG>Mwa}hX1DEr?30^Ikn
zz!8XyCIA8l{Kxx;DDDfY(|1gG9{%AkdVlNTznT2i2ZryS|IzgC{^Y%bPxd9|eo@CI
zUWdbqI5rG8?#k89!+o-sg2#?YmUBbkiZeTR3+E6aRj^P`_p!b{0d;bH$D$TO>7(FY
z38lwkn4l9$@;hQNaO6oPr6LyN#|8;Rp1};U)B;r!af>B}fehoo<Dd<S%*3X!<W!c_
zU_6<O#oo{f{irmJ*~=Xgo`oy4s1B{&^go94ldIehjV&wg$d!|Y=H49Uim_qU!g*^7
z-e94ozTokZ8^&Klp~_wG1t~sMTk!Y`p>QFL8H&MgAsAmxq1s>Yg$lk}`U?aL;l_d|
zOfi6|sVju)3pEXe%3#6QQ1I0kydf&8zNrul6+(4|VBJTLLCat|q`M2{0$##%YGc=N
z=qkf@?-!B0kwcfca^A@s;zr(x|E9Q!H^<Gqei95OUlFh1Er_x5`k_k3bK9;u`z^dZ
zZXMBBI25ZqytRD%kdb#>HTK&XukHY^UJ1#LSno5ZADyg{8FhFg3_o}F716fvBubVX
zO!R_yNld&{Da84S!FWuFry*OVC9^D*NM=yE31M_lV~mlN7-3?x@7;mJn0LJ8=Ng#V
zSHWPvsf2Z0rpRvVvif24?IdErFdDPwuY*1Orv5FXDuaXh(ir#*)xsXI^3eVO-o$d4
zki-0@!nPwvv3vtxabXXpmn);O+`J`gKrPm98dN>VS9BS5?6g**6phut%tdW|@6$3l
z_7Bd^VF-+|iE&~SMj#>^iE0a@NEF85Oxim6u@^?=RHHCK@hovng%G+4Ecn!@BGbqD
z2q<sj5)+yBM<yFPBae`pff%+(A{{A$4UGwr(XkggqgDam#Icnn0HI*uN*g7RJRn)M
zW<W1M($+(QFeV7p4U!oZ#)d|t7U5|sM<d>B7Hn)TTdC9+3K_g2FIYyI-0I}g$kO)!
zn7$5&$WpaRm6j|u%i-MxN1))W2g;vo6dlb4Hx_DZ!5^M^X7>4<r(?}-uCo!24y{#k
zH5~;<9l^^$wNV+aKj+!9=B%gz+$)u<Rh+{=>%U`fSgsBis<+PXpWl|-{dBJCnR^Dk
zr*f6kJ1c?b1C76uoHo8{XRB7yy*Nk%sXjEf*u4D~JU1Xdju1}T@TfDF*IfV`B4F-4
z!9fhr=4BB)t5fIHbEsuXKV<-%HXBRe^eWsG1lEz#m81Y|C`pHsP-|2#qwA<qGJ(&E
zCxuIZ7cP_Y0-UH(9??nor3z(INV-^>#9kUdHg>@NV**$mUO@@K2%SpIe*j$i44f-m
z!R~l%&$T^Y+c&HG>cN7?JAHh`7s~tEL|@z7#YJEAnr*sb#$9k!y>{x_so9D}M`T)8
zaCu()(zP$m4lKGN*NoG;>74~v)wG3mebmtRq{Ky?0*~T_I5|V)5W$iR;4~#e8jL4l
zJ1nZPv7}5nOibk^nPnY~@MX#}Le2#^r4%GZk>va#B~TAA3R1IL$@T0hG&C3d!Mm<H
zQ}c>1xN5>1yiB-ZwSs&W4sllU*|<P-zE|{jt=cK*;6in)PV!Z9Ztp5($E>qee&{CO
z!3vXm)^{s>GrY>dJKy@<ZEtM*h`cg|pvDa1zxL25&~xt?ob?nUZWz(<4TE70sDS|#
z!!)E<^f1nTGjF=e^;a+qZ(-UP=V@8V@;DO>895iOAUnfHgQc@i!_r^DEZ=~oO`n9N
zd7UOCJFrF+Oj~Rx$BkAZzU&u}?w}NlW4@QkpViZdmBMB0YWXNxQ=h1D1Y5Qo-AH8-
zM)hS4JeM_Uv_+}E6vt;YwMjX8n+d2TjcAGyHD=S67~axU3+ie|jZQTmsEWBysv3p#
z3XvY7KNGprZ2TteolF8r3?-n)RLID7<SY`JsE!FY(aI89Kr(@F4US|dDNHTVP0<X=
zll&vuibV_56Oxs5s!VGsT&1vyB*(NAAR(35IXFTbBnlEe5xc0FAsNXm^9f9flDzl|
z5*B3*sG_c5Gf-yrs3Jl@ky7&EUpI3#8uC71)4v0UXh>xV4UxI_OSy)fORjF>+C6zk
z^BqU?iaU^ZH;eA(xx=EnO<~>Zu$UWL^O0R*WY=w%7<rgzOWktK)`Fut@2D3Y^}t<u
z2S`z4LCs$XZ6}V8(WGZ{o+xNdEzug+S{1it>vyuRXO|srhVQ)jP^TE`%<Va~<Twp_
zvjt$^x3sW@U!KB{0167jm7_2luszWY{S(|9x;~8Z*N{)a>ylH|qGZ5?fFpx8AG&qn
zOVnY6T&RO(@=SPg(zm{U6&!EC;!o461djIxZ#;7Sk-0OA-tKGGY4Z#)xNq7i<7?|i
zOih!6i4Ve8$VVK&C*b3kDVd!Ag#YO_IKan1wV|3qUDK`4-~2owWP8wL!#KIUACm9K
zy?T>h#+{UL9qv@u=e^%RN-6GC_1(OS*T)H4s{FMP{IwCBwW%ET0MA(gp3?%pTlQJw
z7Ty-O4plQuYX|pj;~mJWDM?YS^6<{`@!-BI!F@XzZgv7US4lQy1kQ}b`-In!U-&8<
z2}Er?cA<pvTEDg>dwi63hho@aIX7ri>&2V6J;txtz+Y^@;7~}f=d+n=8*uVd9&eXo
z-0~P45Hz*e1BlYrsIjFSHz~<!v9pJ%)6vgLNH;?5-|#40l`lhVD|^aeV3ewrQ^dxk
z?k`IPxUy8h0t%pqtYCOk`6866QI-rz;Ov2PVIbLphdhGv%V7MGunJpz^Cqb6sRr{m
zq59sWRb?n7V6`?BODo^gZ&kdhP&c$(lUYDXEPVp4mPr#6Pk=7iTzd>r!VEd%aGpFi
zY3WpG0>}nUMBxTGMgE@&DQqtO5)z<Nj+1gzR(XyRD3w#9Hk+j&snViVC1i+|$LfAu
zO&1s>YYO2(MrT-y8HRvJDf2G$aRRHlLT#vB=4iFGv$4tRSB_i{6IqCTAbco4rDVrb
zT$CEku@X}J39=B)36{_tO|#X|ns3-8HtbT=N^SYb9x=j{VRePpj(qE3vGuU5Vp8>I
zEld~ISg^bE_IlA?KNr1Y?^xcl{kzULoYO~_9Ify9n+u*0bQSsV4l%r=0CLs1Uu@hj
z6QHMZp5`^HDL@3s4muc&kp2$pJh=5;h1v!ZpIWwj=hW+`@+}XGEe}Iep-EKF<UDP~
zg6kUdb=_iJcOe+g2e*j9Erq5n`KE(n)4{bmR}dAv>X6ayuh0NogtLx@5f90*&fmhr
zq$IpIKAOa%D<>K8x~#VC!(^UPzEmj+b6#8H#nQ1p%B&idqf*~fM!;ztV@Ymo@V%v1
zxz{OE)>N)_wBl75;B7<S`~M41R4-6}NKScn(%w0!E%rZ6>GK2FnlWBV#9t7;P9S<n
zDQtFs10jV$k~1@XINJqEYnpcKQV6#wn`bC7I*?SiLeh+?r!`iol$2MO%vptw@1-eA
zV+A_i*qLwa74c`OpSI1MECgHg!L4F&>wNe8<YI9Dv~wjGzGc5@pF5Lp=@nag7oN=T
z>JxYMEw((e7<_cv32oP{<jrKErhQ=wj8#L&Jx<?X%UNncu&bK$u6EJYK5tt%x#)Tz
zXL*3ll{bvg9bQ58$AC<Dyh~)d77D&Z&Q)@l7M=t<nQ{09^6e$(ACa@UNcZcMOb*O;
zxHNS%u@F_<wjG7;-C!S}$Ghv>ZnCXZ)vlWGhDhfRtyYi^&GxKX$!DWDJNX<W@Hxp>
z$pykUE?mDbcU1ImS#?oVl_vSQDOgSNo`-y1&R_E()w23|ofX=@xu?GK-0RP+a^zo#
z|6cO9lOHj^ynv{+go(9B#nSg^?UeE@v~OR+yU2Wt33@?QCujz5qG|^%;8d&|w1YNi
z2kqsk6Zn?$@y<=+<yx%qP14Kf8qyOFIb>lxPbK4dT#V<Dl|o13gRqbhPLo~3<bGN8
z$jfoE`cXER;h|cNXj@*9fl)p}3QA}KCI+EpjCb})cG@sel#-0DNe;HDrbZPB6C*MV
zdzIpm8Z?t(uRjIO*}yYlqj^2gRHB<SmBU874%h^<ksjVaJ)nj_k&P@GPFDYEd{R*#
znbq^q2CFtzQx)q{%si*1Sk|RLU#z8AvzC{_>r$=7e1Z$DA;P-h$y#{p0mNn8YQl)d
zfvGV_^{IZ|rhe&B?ls$>ei$_3`Co*V%eIamBi^SRkEky<Q_(USoed9S%kWo-t=|BM
zV5U)xLqFP891g<*{YaCVQhblXVg@OMo;EzhyTQQ2z&qCUqjOm6|4Y#P@f<T4F@ejg
z%-X)rebexk>rG{aU)R4fZA70;Y5jy5p-L@3UoSVaUXH3w#ut?D;jJn}@%>hn+9zmV
z>&M#XS0R6{S@8d^eVX3o=W5?E)_*(IZ{2i;cB>G@H~PA_7*c(_`!mjxYGsyq)cp*M
z!tsxdLakbEW}oWI>etO|uR4lsX75*_ito`NT1v}#!&9DnBD}S(eBZkAX`_C_1Ct#6
z$e|692yQwTA1nh4nF=e%4+$*rrh=idMznQ$8LLOfR?rKd;)@3RBwZ)W_zdazxbRO<
z6|)0KRJFr*nu63tY|m7Rj0p+YWP;7w#5P4p6YL>4l9enP$P8sv^74r^lfmUZF?l-_
zdN~cEGwKrFpqxxJA(=<AlGcrxt_Vjc<uEza5v+9C^x+f*i%tAZ3ThPW4SW$<k{DCT
z@${s*lU|)sQ;CE|`*cNkS=nbHBOWqdnKV+4Xhl)euu)plYKk_O2y8E*P%yPH=gde}
zwl@fir59PP*hPTN3R#5w7S&9=sbo9D_J&U<(izFb3}FPCP_m`Rh7V^d$wQR-06E_!
zhY+T49FF8ljE+yhD3zE5k~F0tY=<%>c0gJR)9f<~6M2*BpHmr(KO}vpEX@8c`Hqr9
zOI9*aUpQp(u{cocJ6x6**N=&$OUOD)63bQj5${qFQZ{-l<#9Ag@?mfX>F?`hNpjr|
zSSUPu_SSPZpPL_?eQvR?djS&J?!^#9NLV-2Hs))$i?!QHf($PE06F*E!mdT%zG>TX
zpnmq!+?N(Ii-7~vj^(E4d|R&j)H_cuHa(uRG!*QCoW1$23TQQR-rcv2YX*Ik*k7nL
ztM-Uhdq_<h%7yL|9S2~`P!qmYce8G-ldEZ%z4(pbz3l;K<=t&uP1DTbwGPhRUWjy{
zDcCp9M|Oyj9fkUqeEnXrelL@74~VS?iXM`OcZdx;-s{}8FmyY$)OmW=458yraBJ@I
zvn!45vOrR3h!z^R7q%UNyAo*n_VD~rZujYT&Mme*CI%k6Yv7vNRv^aKx6D2>_w0gu
z!H}!%{c*e3UA?*$t-4F?yJrZ=8-8oOT%_sN)Xk~oQ;+5zd;Bl<E;^q4^Sy5myz=zS
z*}Sh^^tI2Q&2K*>Za?$`=iztuijF6tn2kWXg&hb~$I%WFynmLwQI@wA{pJhYICK5X
znqTcVpB???mHW-ZxkJSsYulD@J1DjtEU5jn5~%xjVBVkG`S3f{i;btn!0Gj0eRlrv
zd{3^n>&Gq&zPg&eno7TCaQaaFE7rAo&I@aY(0eZbOi}e6YRCt>?gYDvs_&!U>3h9T
zboVg0*~ul>Rt&u-bffE+WuOkx-BAeE%W@$b*!^Pteo`0&>SoT*@-vUD1sq;f`Kslo
z9}MWw@jv~bmvcU)`{@T}`DH`1(!{U*tJVkYr(Bjl32r&%wfyOpEvG`3KihlQeyZLg
zSykh|v@HHwU_Fo^CVx<4j!^*l4fuagk97itg5e6t*OWm|>TyJGe0Uw<m#oHkPw7WP
zp9WhL=vBo8%YphfK1%5@MJQ1epkZiBX`7X7YFj>DK1gAy*rC9`sl1tj!n(0;e3emU
ztEWt?PTR*})H*dtxpf~0R78?eb;hTDJriP}Nd0VIFGH88OV*WNuI);WV%yO=(<ItH
zrKffdVWT5zRJOJC!uOECW)8Dvf+po(QUoI#e+Zvs8cdFj#)UtkSfT-{uBDjoZ33%a
zw^0H~ar`ojCP60G#g|vLgqX0p4!0{Bmv0hke+bSM4$1_FH)n@6QOor4Lbzx4sI0?V
zaEsxdg)@uc2d|x3X}f=p&$sOt+xFkyDYo5zJN3>pi*09N`!IcGcJE3sI%~XDd9!lv
zq8NmILj#mAYbHa;HtmGYqWOq!t|i~}fY|iF+d8r7!Ga?+yBFxJ*(O>Vrkyh{0;awr
zU$;Z7+W}gVv(!M_ckB4g<GI#7i{ZUFO9;x4P%CP%-n7m&-gL}8zZmR+9;j&_mAhMP
z+P!d5Y}$8w`#V7p617m|*}7?~ET5@W<th!f=C<q;gZogwD?EEX=W5GY+GK^vZ_prC
zZB!r)BUYf<BpZg&x?z?98x=@bDS@;|*ixAoPsTq%nKVzJ<Q%0@{9|~SeZWzSWT`&M
z^`s68C11m;i9F~;cX+jec`aO^NmdwHS-8YjfQ22TGIBC+C3HrstR%%;fW;>D+f3~%
zp5ToG*AJ|k;794fx*OT++0_aPSvaI^yS{DCD^|CzS}DrL*<8~TuVt@gXP+Y0A?J#U
z)~z4ektTN^eb6BOYY#Ck^xXSza5n0jcs+0U2F`QH_Gd#zw%298S_!KHSfG{Noxu)S
zxp?e#S+Un;B@GsK-Zsl^FP|G4DjRQOJ8;fTAmr3dYLBzjAscj0rV?v6?6=7VNpv=A
z(jhCIn4My$a0T4~yTft3WVW4rgP02JA+lh>e@2v65c)OU%et2hFB@Mr;UJ0(1NR#C
zgErF_@zw-)t*mWCIsJ7x37(FyeAS3D)G^fR<+!gJ5MNmmp?JS)x(3a6(N?W!$8gPv
zQ;(YV0x%kKzGf`9s|g5Af1V+F%N~_{mDAG*-I+QSu6&t@{WP78rklsE9Q8gPv_#WM
zjk+?ea%|CpurxgbiBEn|*A~@Zd`}yujnk%S9p<a?swJz3{7Ke=T3yefPL!u<x!~7y
zBJdaW4<GN59mQHypU|G^QT^q=9kC>wY<OV3s4ym|Q_}`)^6grBQCq-68#t^lUt>wh
z+GsJ0MrKnlIoOdCIt77qX~H{bn6@aWk;KuE66;<IoL@7pJC$X;roX1U1{1fpbgFs-
zv|Qg8H3+{6=%SbkD+a<-5M<f%V~I>^X5uKxW@)HqxyThfvW1%EKyn~;jvqKU*;-uD
znuyhT07nG}lIer+$YAdgPAAs%Cs(+o+HHlZ+Cr7TP#2}YK;4ISbGVY>%gKsPCQ_z_
z-vO}9XuM6n-EgAyB{DI6FOK68CQ%g4lJ)$M>V>H^pMVi%tmI4C7u}|8cAWg7qlrw4
z-bcmL%95NoD>#%8AmGw57J=rLEZH}a@86I^t3_xehjclT9a};;hQpdHS>vO;;x)@3
zAvsVY%zKpri*mJ*glQo{MKpZMIYej+o~HVkgj{ZT`jMKZX%P8B<j|o*rBbk`%-G~;
zB%*Ns`xS24;$(*s$o$hC7Tu?2znE{>BR1^GHyjol4(A(AiuiM%nl={#P5D5V80eaI
zlzRPP+WUO3wrOtn{K4D3i?xTCd<-N0d`*W~(}7gid-lNB4(9FcckJ!Uk=+>fd{v`Z
z)yO<eVpY>}pn2}teBWZ=zO@QtV<p+-*R46Y#;!#i8Ne=V-SXZe%p|BqbhP|fZ+2GF
z_D~(HQlHLwTGu?bePFrRu5WO*<r|&zEpK%|4s-;m(zZMHw&h^MoH-xq79-ua&H25j
z#J#7Mf~TjCzIx)lVB2DF%k<G#PAqqwEjYuoBRNNOes{j(ezD_z@NzpKY<=IdjZI9+
zDyu>geEQ@2uY?yFWui&>={7`9aKbMG5UY;n)EjzvfD7=a3CpNfpe}jkYxOE8IicK%
zCp$N!eMqB9cmR8iE>GSS5nYkF(4wm&XX#+=?_-?1<Xv}SNIB|?iBD>tw0s^cz0M?&
z6iV#Vc+^meT{Oa@AV$Dxj}XclUxJColxY-aBg-1tYKFK|CZ3xz!#vS&MSqg}3bvtT
zX$o7xI5taIeaf7n>CK+<>QcnoREXjmv1JIgO2m$G&tpAKRY0bzAc-eyR#TY7WSTO+
z;x?9?an-)J43SS)7S-QW5|}tm7G|c%G%_0=R-@8)N{yDRNtU&K1+c=~aFiWx*>7W5
zN)RdWugD>sEG&_8hnz)nzE2JzTHyz9V2RF<2hA;6bXz9hyX0t<NG67@WGgk|<TagI
ziK$w32`W*ft)I}GBZ9=N0ObWotGwU}=UiI~k?q%=E2OCE6(hY1pIeMPFykx)YOft%
z@wDeWJvm1Y+(LNALW3ASJbk7R=$Jn#2KG!Jf6rGtd-T?+o2TZz`RG0|y6<-H_YVI4
z!5{cePCxX+wvIwos8Cf`s0!YzFt%4RVeRH#s8al=bTGoG3V-cOdDqrEuC2>3uxRSK
z{ft<33~Sjd+na-jhZwf+=DxY-7mhF1-j5Sm5Y{eIlPzJkP~On@^_4e*mgSwVP~Yt(
z=PEfQ+sLEAI(_rK@;@U$a{hw4?bqRfc=I<#|H|PbA8^ek+uY<Ty>9n>NUznCI-P0T
zyzjf=H(<OB@9oy_ZTtOg_s9$Mci@n&uzlxUdxNP?lULw}yy6Wp>7{}~7OtUt;V86&
zt5yoy6k%qL7Xw>YDKA7To9ngkwQw%jAzC{=aw3j(0&D0X+NeG1O1d|T=5G{RhGDk#
zEnM@#8;AA0=^J#|9Rdpk8FpkQZdL>t8w8mOY>HdTZDc~^C>syP&<R1t#srz*rnz0^
zbMsYkJ738J8TTd-a_T0v$L*9Cf=o3883*s#q>N2+%QfQ*y!ZkqzOXXxisMjGyo&mS
za2x#}((^u~yLo@Snx&WT2Zjp?9_4uAW|q^)2awatHurtN9U&>8*rBlHdTdNMGBA-I
zNS;138D%lbwHR2zkwKP%z5dbRiGks`oC2n(6NhHZ7uf+BoVZlpm*lsV9a*50HByCo
z#0K|fT*M()ij+?~TtOQdqgv!yG?tYR9-$aUQjR0EVZZ+qtlW8Xg3f;sLE7;AEb<$j
z(<nz4p#B4+Tw=qhNjOB1R306>dxmn87rSqUvR09XqEyGMJ+;=C?#UOWIqZ>_%3BI~
zK)amkCl@6;jUbhg;Dnx%-9y7jlbXBuMtg}_+3;kI>)N6n+lQsRQ3gd@G-3w%C#n{p
zwx%>a)1juKwlZx{RgTD0BGZ+VWJfyHl8SHS(xgAgOBH?cnP?Le2|zeChFPkBc?#|N
zA(9C+jEiOhMR0>aA^auE7ycbN|DGHM&g2HRPu4?mXUSpMoIXkT&*a$2VWgKnq~yr;
zf1w}~8mQN#D%nJh7K?n_ijYUNsw34}EbkAp${BZ0vxX7nQszFg$x7FxuqdWa`p3u$
znd|?E(_fL<d(EnU$C7I&ZCAmnzv+&niEV8}MR$}8`dv74402KzB>^Dx9u8^-o8LNp
z+y8c8aoY*(dHHFt#I|NBWz2DE>|@dZ1VULLII$Sm4eQD<1cFyjgRqCUF4lH{S3mt;
zq-(*P-*H&nad<KEAXQhlf<sOxubs?0c8iYPXra}qvh4!nd@iCB))`C^`e7)D2svZe
z@!t59HAK|-R+Wj@%QJv6WD<%fW#JiPFxkG@KyBdRPtthNlx95qYm?U|^Ux-`qVv&3
zS8vYJTf)Z+8XH%hS?@$Co68}j*2lJnvZBf6QvDbm`xtdTZpJm1SIakS_L&O1c!oZY
za1NC7l{mL`%XZUNaQJ2}=bCokc7jD?nsuD}u2Wet#-gqpH)=8)w}YSbf!qkH+W6oI
zhZ0Ns8tMn@h5rgbftD$>B8*pNeDSX$B26`6*~uD@O1jhu2Z0nT)5*5YK6gFb=jf{&
zP!PV_!d3h8?lv5Onaj{wm4)XQ-A5o>YezaXG70!1nf%uXluBOZz7DEHsE$jF<H{Pi
z^BO`IaKFrFC8bb)QNQD1vW!N;<T!H6NngB)IF!=7grffraqJ|d@b~1qMh*=N4orFm
zFN|km8iT=(x+{^|QCT_C%^(&2gGDj>0!-UV6eZQj8Ws756y<i7)WG;ScpHJCafZ-Y
z)nBEmb!^<(QAK5}tLbVk*}xq}DJ<vY*3HKI<FH?#F@Fw4LomX84(46mqN|&>?(tXO
zP8-0P8(+Ns#azqoB^Mb0U@^e<Hy`X3gS~6kiYgn<E8^k@2j<I-+UvD>_ZHE;W!{Yq
zVjOr<QW-XoDwIpi)~ynfh1n|M;Jd+rJJ)?nhgo0tXw#bjrf15Kp*-x-;*9HN6gc6H
zj|!=hav&4kQEo=}{2y=}lWK8W5)Oi!VVtLX1xA06y0b_@O;eUB>y!;9edbF#O5+U-
ziXG};F}|#M#JaIQD1%{4sjXx)VC)}<fw?B66nfI`O(4uFgaCOxYhpF_@fAu-pC~aO
z!<K?tAKLi^lG|x!Pua8fati+`TzZH5rR>luXjk^>I34<AwBCpVO;gUS0lo0gP(o$4
z@;R(5))TIhzHsqYKz;hxSE0RCtY^1mt3I_K%0ravhetO3`seWVRiFIzMNLRKMmghU
z!vcr5Wr$Z|k8G-3zCYEzFX`8+tSyT^ddsd}DKO>Ey3@K>-pp1_;Zn&_m<42=f__H#
z%0ruszBWGu%pf-U1pVA5&<<^`ltQPK*+MxlXU$jWJ+(>CQQFsvGpB^fw)4&mX%5(<
zYM_eWs(w9gPBV^Z+XE^*R)aQvG{au`BWSFM*surdJ)(F^UL#E<0mZ9+A6BmZ`5$3M
zRu@a*E7zq$`!wY#Zuy{&wvU%rZlfn#P4gzRRfSf+3~OrJ&sxgJHno)EJL_Td(wpg0
z<4|guEg;^d)%@pK??@Sw(sCO>BfHg7i|-6EkL(%QulkDblGFpmSk*VA$GW{%zJ=v(
zT$}P`eJ{OS@@-{X&TGcRX{JjpZa|G3Qfn^0Rop%0&m2)>KYNdC0(n#|srb(N)OkJf
za4}Z(W&P^>nhK2iHz~DOg)Y9Q0$&b{oG6A>AMfU?QOZd*Tzn(;bTOp*CgB;<gzk|?
z)cE52XDJQ(FV9<=F)*Wm!KqL-IPzGrJk`g0u(pW#!87uN{4RCX@%gm8S#L~RRoT$b
zSyG4E0?f^b>My=Wo+<iOpYSw#s9y~g-{scPi@FhFj5a)*)b;rdU<hsk`Gt=|PTE0Z
ze3KR&x~wMYFGeyEdp0TKoSI&Ir}Z=XSH6g^<BM^s@Bic14XJe&-<y9OTD)Wg9)IQU
zKn0D^3Htk@MyT|vhUf;_7^&(8WM!V^qT-V|aD(tulrL3l05Q5TH<r3MAe(v_gbdPg
ze~!kYtNB>GrBh+Z8T6z_7{k`+W!h5eOpIQN4GHm!MXNBJgJqZLnb?H|2&FRPoyVRe
z)uRPx_i)i7Ze+A795}qV>WHp1ilrw8NpCV~?L;f-hQ7GuTz97|vlW-zN}POSExR$X
zN{M2baQoFI)_B=8oi^;rRvpLwhUG3^c_7*=km`gC*fWxm_L6ZG1TJCVi&x0v{zCx=
zz;TtZWWm;Nnz~CM>MMZV!zDhrdW$X)G!9||SRme7_yuxqlM{p^8L$g2`~d}-L_%aj
zvL$eLEq0Z0o3X4|SfX^MLHaKFm;ghXA<2p^I46&!S^hZr9N$$+bh7)y_QvA9sh*)x
z+$%|!i>bkhNkK;~bd%_!Ud_wyuM~V#2aNnV;ajYZiP51XJN+dPiI8pO{{>6IMT(<o
z7?a}eMBFox!KJce6EKW_A$DPq+)IP(mOsf!lZ@>zG5c{NKY(d*AC+~8oJXmwN;c&*
zAZCdkt&yeij|jkz4jH_l_I+BF$t0gLL)Hs<bgM1y7gk0pO}qW_4V^TIMjAv7Lhd)o
z#vo+j(ymMtf)oA+)ox;`@}O2>Ltm*>$y=d{mj9Dr?d%#hii-16g)&_w3;Q<AY2l9n
zBwI_;2(ST@bT0@#3i#nL8wuzfHhE-KgoD0Mxl1`c*|M2nS_(zivZwzN!p0Tu1HGvU
zCr9g{grVy<=#cbcWM2+fZ#1?3)7EL{d;Xf)-hAy2v3AE|ZTF(TXWG8pyj65GOdp-u
zUU0R{8$}lkID&t*>y%ivbH+A%YCc%-)MHo4v$fz27d*k)qu1}BJG;;;w(g;bKrNZj
z&7E4Pfr0#t5t~%L5Ls)_wJ&+M&hy_*y^*^8@KWc|g1=_2L-cP)o)u5cEPwq0_?A6e
z=X)2tOP<|SRInKae!=LBsSrWad&Ef3jPr+8b+d8W&ReRwU#jx0wsX5r>tLPU63tab
z{;HvO=HbGTlcM*~%*i?X{O4|4V81ZmA_h7OIIrE_k@L0`n%cgz?e%T*U%Y*CvFYKN
zQ!9abv?H(`04u@fd~ll>+&2I8QgGMp+WfvV;=VKQ3@`0Fi;L^#E{HWd0ks_HoX;#g
zxfIw>Wro}5?P9oh=AlAMG~cpEY}qq&X1Qf69RptuM&>-<=I26Uuw(uy*%Tg%uU7xe
znY(7LVH+I~54O_z@y2MOsRPY}yx-uTdH91WF4$0Lfa&KCgLSL-bCF$l59zqzmb<vF
zqj3ctJav6)?&+n#_Jx+)7sT!pKSa}&*k_jlI~Vx3JH*{*SZw`V%k?kAhhdq?;$3V!
zMWXRWF}!`|q2(4Bqu0%Td1=Q(#TNRS=33|Lmb`ml?V5Mg;p)j*{s)fc)d4-%(y?|<
z&xPt|`CAumUdY$qC)VGW4<494zU-@+-Ff4g8Qro6(6>fzj^yjR#QLrUi&($!4-YPR
zPSU_)Q}*P|llky=R6c)R4DZQ@4`W;S?M5+tbjG^up-Tnx-d54unrq(=b+Wg5#ov(k
zM@4@$@82Q%cjW!MMgQ()Zz%6=7rpJw6BWJDRg>Yq>bsmFP!07P?tO%r>y~}_EvLjS
zr*dAH)^EuLdY2p8<}T;k_lxcOa|imC8Xn07AIUX5vP^SKSst^d<#4nRZq0|g#Bf(W
zyj#R|X~p0nF?^^H-i{sVx|)wHTy5RWrrD>y9=&VDZ7NXXgqrf$U=4QUgWY1Vd*<*;
zUHz?RZ$4Y_`eyaBC*;y@hvdm6hR@^zedzQ0>c6iJTyLEX<wHGUsAu7G`CTW(T_<wE
zletG9n`vFFe*CV9bJxxoXLu|r%;Eai>lbtjI~N;w<r@!)jfWN+AI#%CL*wap9z%}B
z#>Z!@zgmeq48GIwdc$I4cfRp}*m&UfV{hvK$dWvP8~0tmFYoEP<LN4R>+;?X(c6*t
zc8lKbym!wX47+?t9VZ*aVAn#+?{)lkN51<6=9?HiflD3ln)C<i?s9rx-S@qFXfHY_
zm$zfdvxAklP4sTddwWE0Pu{!tj(2a_@=l7~C&l1NxxD-3@&Nw9VIAkMCuQ0FtH*Vv
zTH+Pp)TqClg|g%ym+1!fgm77=MmRq6PW~$4bYl_+sf0fv%>5EM#1{xarEmyslPy*G
z8_)ihV92Q<?Aro3X3^a9f!XLI?Vd9T{Wm6P$adFht2gJ2HLF4HLETZ^2V8?}5P%mM
z1mLy$APfR_6%7J*6%7J*l^6urN(=(vFEI$9P>DeR1veN3P}F*ZfO}4g3z|&+6`aQ>
zJ7^R9C{(r@m^F&l@VyF(s<ffON9TR>>4hV=J+}vQU5CZ!gJR2(dmK_$gNOB|y1C=?
zPc8J^Hhs_W`;J`CQE~f2V#~2rj*{N#c_;nndp}}+*#LpMEqaJuJ}1!KAChZu3_otb
zZn;W#4xAg5IVu_km}cQ(s|;?WOUouPSE=7gO)WVXmx2ul(DJlE`b(*nPOEpyztAAx
zf={R3aUnkL{1+fCfQBm&bjhYb8b~%>q$(DTQ->KLagJ^TlZ^&tXzc6ZXBz~vl8{;%
zplq3_ULdSkHFg$nl9X?HZ21IOnPJDF2wAQDNuWjE$we(_{De|*sWpBbf?Z1~&>pvZ
z8)e5Q<zUxpl<Zlut<3gM$ia?eD!(5gUl_ReGeUPxWD?0VBnB|6%*!}Zspk{2%eR{o
zk48U!QM}V!@YC1PewwtsTy}YY7^^6BDomeTC1cLpHqDdn<dt8oh+XPtCo3f<15V?o
zG3aMVnEe$vdAe^6zakM&3t?&ssqZ9{Tm@t3nXC|@q(*X@$l>9zd&6itwXnb$hP>nh
zmM;^`uah%R&YzJ(ONH6T$}8tt1SQJ>8RZ=m9>n6oAD4z^lv_3Ebh^7op^rYM`w{2-
zYp(NMF8m|T@h<0mmy7;K?*6~#y5M=2YkrqI@GiISU2gA3dZSK%mxJ@6jnf_1y~`bY
zmwWspy#WyxPWLDxPQ1%)|9fu7M|v~jI5>B42cvK1nMG^;74w>TM5jBX%T+h6VgCWX
zwSGfX=bjc`yL|2P8sskb+B3R3oqy)R8z-)xSmWSbJEYqOz?teBq3fYFj{Ivc>K@YT
z+Gq82TxN|U|LUVgP9Ip)!&0hF2EE6T|DFNSt1No0U;l(bS2ug^R^n!2KD;pbAxB}>
GPyZYC&jTp{

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/longcat_flash_mtp.cpython-312.pyc b/model_executor/models/__pycache__/longcat_flash_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..471246eb0e7a407a25d647657a370300d5f5f36c
GIT binary patch
literal 16797
zcmch8Yj9gfmfpR1KQ3Mb2m*Wod`SW+f}|)})XNqnT9Wm$Y{?oAcf1IMdntkfK>FTG
zJuu*ocFR?v67QO-$(H1dH$!J8F<o{g%&*l}evDK5W1VbO3fI&Gm>a1|Ra;vr=NDws
zHJkiN&guIA2mz92vXw5f(T~%oANO?k*QZbat;^-0z-3JTJpHS~6!mu)(VRsMY+j%#
z>K?^XES;gU^fXOl*pM+y8_2IQYnnEZG-Jk`wM<(`*p#tmZPPXqHfQWv$FzflEg5H)
znPy1XnsH^_({2*BWjtB$w3meK8DF+#x`l)t8Gkk~9muv$x01Ls6U??vw~;WD31!36
zVG?#_+Or+g9T0Z2o=j)9Yr2bsy_xQ8WI95^zDzXRGu=Z|2I?fmwtPUbe$F&ErFFRa
z`-M>nPxleZ08qBRfU=)Z27$7zF(nuI!lZH?xMhfizQst4mThl{9G|?B;m$+Edx7Uf
zKAFyO?D6^BO!_LMIWA{1Sv_Wb``pFz^L!SG-{uxF=~PnW*t1X~$wQjw?EKZVC|uy@
zQ=A~oV^Ygoi^-gr&L_q6d`{=%x{{esT}!as`<NRu$nFbCKAFjInX~6kaY<GVUY<`S
zuV{&{XRmN9o6cc_T3K!;xtI|XH@NiGSuv5BPqG}=<UEl{3bT3@{x@>awJgV`p^2Bc
z95hGx7Gw!~9h~C01%czPUEVXrrRJgh+2k$4#Bp(PVPT$!K3o7gCY!u<g-a~(+)Vmr
zN*O=Jcd3!h{|bSB3IfVe(=<y>8|)|o2F}PDITLH*%&eKSuyo!^Q7rt<IF_jynzer5
znzq_0p!Kje&NkOl%UTJu_9p3$Ch5*5=}O%U=U^?3DP|bf^?`ZXxlG-pr<sdX%qvIE
z&gZTkPm1SYoYR-)uW>n$3^tt-=aqpvFI!SXKxB(DHnQ_Nh)F_CWXM<5VipjpMLw4@
z*K`twgF-3aybWLE&*^)VsAt|W7pOl4+Aq`;niBPr1$s_f7j$}xf>c{gR1JPfe_>F9
z1uCI)_($NSw?Oo0wX%lBEz3i_jdNII0mS1=^A~E%ppAMTM8C$jU@RDFdO=o8%=<^^
zg;T5J78SGL<Tt{M_!dX(gly$zLFVV@Vn*3?C7l%bFeLMB;Kdl(EG#Z?ylhJ((z&#l
zNboowvU4`gvRp19r1PB2@L3^|gJmKCJY_S7LD@WuKRkYUz8gIsma}KYg#=j)WY0`G
zm&_zGI1`aHW|2(-mzm*%NR74gA@r~@vOSSV!E_fA2?6VmqPzXSFOG=Wg^`8y!mya+
zuX5t>&Bgr(Ca&%0Ml$IuBMZ00+4<ZEO6o`!CVeKs-Q-e>Ak<1!7|DRx!-|%e!IdNd
zO^Yww;(LI9e%A|TL|hw=C{PPO1MeShQ(JDz?!IG{Y@vs?_D8Lq_b->aMx?Hh^~<Gw
zr=)$S9=5)*Z2HjgoSe3uWyZB)DS3M(_+xs@OiPLBmYD9cFIWx_l>MDsPD{uETo|aV
zeRSRV;POUz3gYfZksYhoOFIupI}bd#UV80q>9w~XMlLR!er@aAgyz8zrgIC6Vj|57
zvVCD*NaF%6$U&IU*VFThLPGnZBCMZ+>>|`cg2Sa)kUhczmr4jCw*X?mayL`@tN_*+
zCbOF&dw0Qf+i;rt6S_dn;rd(W3Z^gA)Fl&8sC!>6QNgHF7=c2c%T*c?rHZ&lD?!0j
zFkUsV^q2Zv()j%d<bBDqWCgDJe9$<-%rz7&EcK;P+mBUh8&GS@f0dXjSPC|6uIhX(
zu$-FCfBS#HeGXHMO=n|9ei%y0uI<BX<2fPCE+#WEE8h?K`~Z45Ph>L)XlhnAf?)DH
zFm)$*F+0Bt!@JQ#hI|~o5%fmU+XtRZC-_(3SFnRerU-icAZA%-=J^{*p3U!kkz}ic
zdy&zfgLj*%cqwmJ(X*>)+Xa3()cJGA$Bxw_8=<jfSGi~4v-VHhi@T3)^c*kRx}S7J
zet!7l!;cu>M{nGDV`Zth<8U!}<f}aonG>5vL#G2K$FghX{fdq1+xc1i(|9=;SzG!_
ztQe`ju}#X*2LuryxLL7KozYUqh}1E%?s{-@qvMoXvh3+B+B*3mXxZoV`OgjKd0fO|
zE?l8<$t;&h$c{t;=KEp>!%QLpyHiHV;Sm$bMnU9xlqw#_iOhF?KW11I*dQCzIgvkz
zDK2%{NpYD>BJnxR#~@We`8`U8m2ZV0@gkV92Hrn>KvfuOeE(Bti}@1$#2c-cF#!GX
z1u9k&v{Aum#ZH0_sx7v*R|<|)2sxB=xW9LitUXkGPdO5O>I#^<p7=xe4&OaoF+&(Q
z1;Qj|#h8ui+3^|kDO0gy%t3{^?iKD9R#~ZSu;RodhHCGsAd`xla(F)Kywmwx55&j_
zlBPEXI{yXwQVVognl-S-PYeKZi~w>>8pz?yGZq!(xTh^T$g$3OfkB-EkkdHb(Inm3
zBwYhJcGlIH0zi%%Kn}n!069(qa@v~<{&|`D+)&;1s{0PvhEm!phHDiA|75K@2x3=<
zWGu~*3~Np|K?aRhusMC_uMXfZ=|7`k#Wc-f3+h~B%+ZK*LSMImle>-$MB%H#%&0{t
zfOV(@P88zAfEJp=ZMx3Q;a*+m#11V1*3kws(KNLINX`Q*ZOxscJ~F2aX)0xSFAA%=
zS?tp5F>C9+h_jM7+!KCA0SYt!jQR^>fi4)nG-)TKpBg^wH36R`y&UvdZ>iW<<uQj#
zb)AE8#8tY^X{`iK`iR|vI%rbQ4a8tPHkikH^0qiZK|&mMi|xSYb1K%#N0G1xJ^W&D
zN+DoI1>g4B84Y>E3W%T`Ry`lAVESQ50cpP6VpiMZmD*%Kf-wQ06P&6Lg#k9WDZ7yl
zGZZ3aWi;e+vf~_CQ>UN?*~}+%S2_MDwh5O&*`iXTaLSJBc$g#A^1YbA5EPLR@nj*u
zjz_jK9o#8hMsb3bm%XX1vADx4Ti9)7rN#c|`<l;T9g&>{Lcs}h_8COx>y&(F?*F(H
z*)K)*mm-r=WU>@FEy17f%(A8Y+Uup)ejvT}gJoyQ7L{z#l5J434L-CTF89SseTSsJ
zLl2Tt-)qaJhqh?BJA%I*kAfZdX7A3Hf-xx=+wxMKJ>@{C6xb~VcI$yPu{3f_g1^AA
zEwiz+Wz*wyxu3crv~qmQ1>3^P@t@irwjU@5+RNSj_upN8cP+K{PO)RW933k63~$-Z
z9W75Ov#+JXK$)jldei7?Llo%T>ZH2H2}<mem@XYIZkml<kpF92_<w!Z0rUhk|1~`@
z6|yyg5VETV-oY1WhaudC@bGJpRqvM&xJLoP^TE8;)<sCuT!Gf+9;{VxvYW%rxz6Qb
z4O+4oV3nD}{kYCmu^r^=XQV1o!9rF6wQgK+a5lrq$yBgtr>lz;e+V*SX8s58!@q^z
zJLnxn?*e$55bnl=Iz075NRz#(MV{w!qKbLhn?hA06-Y%8LcaGo5~(7oYrs!Pfk%)O
z6D~TVWxzI_!&2w)T6&{%V)<OTW7pc=($K3C{B^uqw1vu^v&-T~Kfd$hPsZ<yiog~R
zqNr|koRK_d%S<czg9Adi%ye!#EnY{3ve+HUu6`IQi!uBW_~Bng?=|$Qkmo2yaYB*V
z%}-+J7<veL_~YnJfmaK3PGBN>XE5VmfQLZG0YIl541MS9GCKg50IacM$flzjJ4PKK
z<KGjKQ#68_uI{HUpV^^<8VJ{b8jMvz4aVv~4JI*EsH1{RYCsLdl<s3QalCb>9o#ny
zAU5@&<`WupH%5RprWq3fGUgB5(`E!RpsxwDR?gCJqqH?iw>L=#Jq~LjdLd^M3MH4}
z5Y#lRbH=TJ8faHLK&gf_>~qR1_0L#X59)tdFUN2$&eWLCi~*+>{zGfroC!lSCf4_X
zY1+fKKpR1s$p$zt<eFw|Y%8Su*dW(}3Q0(_>ve@7$4_8b0AN@L>I{jliD>W6UAn-Z
z1kN$KX5YgdP{&-jejxfFtIsir)nP6;A#T?mv52!8tSgN)NeP`!)X#&gl^``e2kKT`
zBMyzw7$P;;_i?=-j-^G^eGmt0S|ikDxJqfK&g&Epn(mwvdeHy@ZNp-?^D12NtlfZG
z#GzCu0K03L1dtDoCOF`xqseVJtw9^-I+ZfDe&gQE;W4((y+r%WdiyLIGK2OZJ|eCL
zhcz6-M(xw~BH*Ks4(PvZ=Vc=x967+I1=NM(2@zI$<;*CX3A_R%wjH3zR#14(g07lB
z1?}NagBSDHKr>tydBh&FH<#e&7eP-B`X*4Fi2{Lb{5d2bD8~w_s-y^qP@Gg`QRPtu
z$S2W5LF6x^*Nfg2^l%%Ly&0lxM@^loZ8y~bDFPeG=@cawkW(#e3f0Xy9V^`iTH#yp
z04qJRxisC?lUI+`gP=o?f<033!s?k)|6!^BaH;=<)PJJX|E2_g!3zjQU<voOeqvoU
zedhesSsXt8)!Q4PQ<CS@QzPZ_J@Ivxd@;!vt5_+!>!B^Y#ZbY~a;UEy?ka@`rSRY*
ze`M9NX5H|QZdpx11UHT?Son988Sh7D?wlzxiatz@^hr#8QTv8}4`3x#JH}8wqwA)>
zbp8itY4n6NdSWAb67i67>^)xtg7!i0<-j()EGoALigx9PkgotDeL_PDhRKpN3IPB_
zO~4QVCgv(ISuz%k8aScJ_kI?LV1xJ>^oVu`>u-WR+Uh^63OMd#5mYDv;Ao-3U8t@B
zxUh0-b$Gq&D;MZt!j5GZey=V~m6B3d1SmvNC_$uih#i`Ct|7Jq{D&(xxZ187cn(sC
zEXP!#CB4MH!O?-pwV=wa0<L6tYCa3<N)GOO@QNwlUEkO3`TrI;33%FrE<31}V9B>b
z^6gj^KP!A%SbuNBcO3A&r*+vy0D^2)?vjL*+Eyq>Q8@8Pum2fLw|mr8I1B%4dI?UL
zsQ36O&6-#<_!ia*zKykm?_iza!*vSya1RK+m-T_)!ur7vu&v++**5S)Y#97@wgdc5
zwhR1jHUfT>?E$}+?E}A`9bk8`JK0@qj2&c$*xl^#C-#3sFBwGuEs6s%tNl)D>KEFt
zO1EUH-WO<jOXdPSMXk{9LEkiOB^xhTV7H+^WPoq2a93-?g{RJeFl%4fR<PZsKOBP6
zICgceU;_=Qu1j6A6bw_;d$5}Q2zsz&Uvext3l6BC#`@V2(h`^`1rteWEm#`rTpb0w
zUc04WXGgE?0=cS|8-sEh*sEy|JErXfHMA%3#DFXC5>sFrX(pCja7J+zn1Z$7)OJi7
zRNT2sCeZ%AbUptOMxx>FJf~|0s!hGNAN#}ZQAg%C)i&1b<qSJ6;^su0*0O4AwGpDJ
zf_YBYzG(EY>sz$Zpg|%&bV6?$p0pb6sO(<U4=uTy^r*qkFZO6P7u;ICIO=n~T6*=j
zk$z>#Bkt5FpjP<a^^V=A^_c&<;F&{pcb%KVV_uz`i`OMURK(SsxVb%AsQO!zySJLE
zg=P#emzEp1aPAe2s`|U+EqMR<hvJx)GB=@xs=xZ|^@(_%CGO>W*n|=fhjp&t)ud<+
zPl|P};M2a_QcG^Q3D*WA4AjBjg}Tr(H(6ITMA=u^{lMkevpJAD^=v9?2WIq}pShFI
zQv5F5;2vq>%LAHxk(JZG6e#%T-guTTJHhVNDCf>Ro3DM%7nLn|5<9fgg~0zKr`oyG
zU^SmZWk{Xle*h!&c3mPw8_lAd^xUOqDVwY(h-&Lx6Uuk%$RL`BJ%&A)hd$&1%cl$p
zeV#YrG5stL(z72uoBsc?XMgx??a%3%8IH_{&c{q}GtXRwd)dU|0=cP|?Iebm_R95_
zk<S8S*{bFfwK5d)&MXRW4tf9D^+ZxBXnS7`Y2_BMT#HVSxRDm&D*XMVqM7a@hoLxL
zjo0dM;|hSv_bS<n@;5%(kfx`~qDrS29B6FZssVx)A9`Vtgpf+Y!7ZJ;o)2v=T$9tV
zW;8X3XSJFbVyvLW8WkXB3^fImxZ3|%gN7>C?4+xtE|qkkZm61&?P<UfZtKMa92h|z
z33v8YiwUjS@jBKoqHk0OT3%osxi}GpXPRGM$BXD+Y0!_lGAO;exM_V++ons(%al3#
z`_)w=DTnJu@Fi-kDLwq6`md0=r*%;kn#Nt+PP+eh;#||D@#l4DTOBop2A^Bo{I*W)
zXj;K`y1g&Yv!*4ZFUP&6#MpD|!A0*GkybxjgYVFgeD@1$K!Mgi@~);m&=z2g^7%8R
zj=HAD&1XvUGS6$(HmS%zkNY;tnilod^*Nhah_mxIa@z!_e$*Qgy@02__i01eh-W=f
z4NrBM*FQWqLEShtj_MBd9FiJ-!8%Jel}XH=f04{=8_E2OBw-tMP5lQNNG90z<^<3O
zW#L+v^djD9p!3In@1nm~{q-N^cc{O<Xifc%R>{WwulvfAFWvj?1#9YVt+J@y?fv{b
z+^gS0^SL;Hl*A0ry`N|B6R0}jIFG<9Z;qqEW!|b90LU%{EvQz`#6&>$scDK0HCkK}
z?8f5}m7p|!970#&AKa7IVxzJN%>Y0T4dzg6VgW3zvmBTM2w?fdiE<xkpA+Q1m&gTP
z`a|>Pvzmc5mQwW8p#;y};L`v*YsfKMw(?*Mo=kDFjmxnDLPlPI$`uVZ9w~ShJr{Vg
zG0C$0n;3luy`$*i`9`+uyR2-TO$xe3T($!QQDj}VD1DdBtauA_>7X3}qpTUQ0T(9{
z+}`Z?Ob+ZwYom*KUPK}v_EIw)R|=z1jqFtiQ^$|8L7bQEi#f0XMT8}L-@gX7tP32`
z^@BY{7R(u{VY2{6@S<!d;srR1lO14(A*Qb`f(fN;x{<h+LjQV7_GU9lRZiZA&&elc
z*S2j1K2j1y1hpWtQ=v$}oV_Odss&*jNJ;m0OeQmG1}OjrBB&JMuOX)(m~*7AX<uDP
zWRnXEU`H>9a@-BDzevnySYjnt&2bX>5Qyc7>>}3ns?0!t$j8<a)lcE53WMw*g$YO5
zsg5iuV-se<*brn(HWLye9;%svCU*Q1HXFYd|Hs&N`Ud}}82K~sgjVnr`;R(bF=u43
zp{m3R`ObRfaBc3tLw0`)+U48ScLsB>1B?_a?v8%Yhz}Kq->MiP_=FiLj!jm~5CpBb
z>tONFI~6NNY?Nzsy}M$^utNzuG0ae|iQ<8OQgLC#O}QrN;xWGB!I)Qz`7qW(xn8G>
zC-N0P#sZY<O}au+Z_#fWDy^6jq+ExKM`kN+7zt6X6Lj%pp%TVeJLNi1Jb0zjfsszi
zb(}6vU9WUutebKjrHhjbl?cY7l<QFO@Jyu#BfVOMeHiPfj$Eb7C-UVtauox0i9T+q
z37woPzx7Aufg|7T1Ja@`x^<9h>$tzS)G;b`jBa%7*$9p=J0JB9{9<6)^{8)9Vj{~^
zE5l_^|C&ki>@Isl<nCrt3QvC3|2ISbY3OTlBYbK3blDRwdU`P1-&XREO8(KZxBdQ9
zvG*WcJOtd!Q=1m*m9w<u9b0kSKeHBk;_n7)MgL$q&<R7?+6R%q;JWF-8ENz+q?Ow`
zh(Y6-_4bXn!z(8ECasZT@7`|$dmr?Fbxk_>78V4X$k4qbcaN;LJ@m)c*at&W{B=lw
z66#x>l0vZ+b2&OtijGUs@fFu^yj}OX)%Vs<J@g*=jkmS351Ugt*q8%+_SVR1|7U}r
z4wib4O1($F2^=klde#C`X!uEO1&^XT*UW1_d3f}ljp${)l80Wf&Iy+ow9dKD{x_zt
zlBTKtp$gc}z`cy~V`nL}PYUgOKue(mU`z|0IDPkYDKH=f27Z}Z8{XJ4Aq5VU0>`Dm
z@lxQN6ganRf8=a|J28c2F|udNXkZ*q+-)UykL2ztxpztKT_ty1a>v02x5Px?vyniL
z#Pn3m#&O3}%IF~$7BC=VQgo~oJuXF$7r}bS6D@jnKMHk~LL*XW1k8I^%#Q+K(9~55
z?34mKOM$o)h}T4+Z4>3dz^2vI+VWc)<!`;)yYkLYV^8fA+A2}4-L>WJf-P*g<n5EZ
zeI@Up<Q-g|EVl;l{lVQoK$CaF${Py%^>AtIbqW3guNOUNG8}aL4~OT@z)HB}8<KoO
zYd<UvPfEj+Menh%>E(e9$LXhL%I;q_Ewdm5?cG1`{<wRMUK`s850}CdQg~t`e6SRr
zlEPD8z4bM{5k9?a|IiJB`}4@hk&W<RDZEz-?_GcE0c0H{Sx(PKhwdCIId^{J1Y`Wx
z5`$NbB?iQQu*8gf!;F-@fqTxo&XRYh<lVW}|L=!BA1Vz_O7Q2MEc*ga&4#_LPbq_|
z_1DY@GzqRR3BO(6ICl|#{Swn(VumDUsKktZ!@%rl!0(tecuevhQ~2%E_>BU;>YW|`
z39gp^61{uirC^EEodrVVGK+;vA-KW=11V5XoAH4Ox$*#m19H7(Di|7>aj^zX<tvOg
zq0o)=h2AC<x}m?|YeJzLT=D_dBI;LLRU<M~=CW4w3kLL;46N-cy<}$XOBVRI7EExd
z<b`y&iYkBtUZ6j;u@1OwvK7q4kixNKg$o-RFKmPmv;u9Q>KyB2Ed?5kLz%zOO(d2K
z1;a(EVC7qymT_sSUWGR1&dUyMt9o03O;K@{iz>Tf6nDj_I3LX>#nddxKyaQEqw_N)
zHqWQ8;(M5=f+uxWlPnuW^_%i&CJKd+0&LrbXgU|ILAg<~twsq*BxJZvD~UR@WR8u3
zQ5!Y|_h*h(3n^_Buzgpsl?%}fcb&_`^@5ruT|bOn%~J)Z!bLHQ*q%pTE#zHFZ%EUG
zxJ<{1LEec=dC#_t(Rkij?PNS}QF1|n=^*B*3c@^!m7^4Bk0G|pzuZ;@Cbd{rko{^i
zYXFKM`<|f&ctQq6EzJKbsH(wJ3jP+P>kou9Gp2YmtUL@8Q23uvM6v$!7X3q#bExbe
zTAPymW6M+D87zIU`$iBr_&$2`&YSm7K4kjK9{)!_x$~3zHy(O+YT;WCJux+0jEp|?
zj6L!9{_^5l`!5obfA6{=`42w0B>5+or^=DxVt2e~>nL~j6m8*hsB78v-#hj!pDBCV
z@3Y@{ddvO0ir${Gzq{DGPx9}B=*l_V37u5u_)~`R_B`>o;R}PZw+HsggX_B=Tr2jS
zR=00h*}Z{f=Tj@??ojE9(XsW34gX=N+T&k#Dpq(w=rb9^ZMFplNF@sss_)^QFW7Fv
zMD>8R6U6HsYrxyaixk-G7|-YJid4X4Am<{m8N*Wr80rxCt5+u=dzgue+3-z><j3pr
z;Y%EW-o@`0h0^fdU=?q>51$PlV1-NY{ovyzCI3hfHUp2J^cLEuK187v#d>Q)>&v6S
zuio$y@2hL9FL4}r>;gOlT3pC*{0&U_1$v9<q4be=EIf9tv9acRn1kL=;9uAeJpp6Q
z^5pUFsG#{2y_&C(-v{I0lV5;7hmX?b;W0GK^e{EAO&|<?*It`o%%;9Csn{{*pdx$L
zr=;$QiW8$?lv(rm#Dz(2w9`bMAl}O3lT9DSda3TnQ>(=seA3p5@UCKpFw_Oqm<shM
z)b~x2y>ru!N!}&e+_idY?Va`U2j*Wff5jBXr=;Q6!3?QFVb<5<Ukm?vVv~d`e`JiA
z17&#lLVgE!DZf*v$nO(7vuTF>%4OONRKXn;BmVB2Ait2iEZ%AVtr^l3Nyd?k?T|gG
zd3dp$BJbwn$tx-Hm6Ri?jl9{4=W;yWo5@Vgx-2M<j>v=AxMH(UEOF(2e3+=H)%Ayo
z+B*QUV4^-jd2QMAJW}!)o4m7>hn`1QXFaAEmF;{^31StezT_rPrR0g1q>e9&>5Kr1
z4>+ZhAn(9o8GlZ3<;eh^74cQL^6U^_fGhTJXr(9*H!4on1XW$4>fO{TiSl7r(=tLl
zQ~UZ;d0OEj<N`cX=W;2I$EhhhS@rRF;`$!t5vzk(i_L)kL*U^q5@xE>Ni^b<E$7Jg
zth@|60V!l6@~1I0gx(-h+3>~zcJWvFUqKWmC?(+Rt{7>W{+^-efxn}e$5iWMD)#qO
z?_+A>G4<+W>f~eU#AE91-x`dx;d>iJU!WgTM;}wee@~4(Mykk`B}R9xUimEjX?hE6
qYP+`HrN?N;YRhNgPs3Xj1h;1CKQz*Tl`Hqschjrw-%}VP&HBGh8vPgm

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mamba.cpython-312.pyc b/model_executor/models/__pycache__/mamba.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6f8c9adcdeed3d2b77c6bf37a817ff5f4aa56b6
GIT binary patch
literal 12866
zcmcIKYj7LKd3OK~&jSIFAi)RtCM7|9T9jqVrew>aWXTd~C9)+4b&7zvqX-GF>>Xu^
z0c$0r8G(Mp(hpZuo77CxPN>S$=wIbObvm8txYL;q&r}NJDo;5Rr!)D}K}>p_cBV7^
zzP$%Q3X;=Kvl18I?tS~+?%wy_{U@*2%|J=n-by~RgJFJ&4WqbpVEvz2hPlZIOq3B=
z!IEOrmZ*hA*qXAYZBZMAZ7D9wK_8dm()OsG_SsX8v@`0Yup{M4yQ6LjJ5!!CALY~D
zs5e~`t)YFclrQa%`YG&A1=6+AS_*qob?IO<NMSxzpKgdYP}rLar5mG->85BCZP%ol
z(=E{!3j0#wbZfLV-4<=5ZGWmg-4X4ea3Iy0?uvG$yQAIdo@h_HH`+`4Yg0SYJEJ=R
zt`mZ(UFk?PlHMKNo$ibFrTe4(>4E3~%ZP&_cm5BJ4ch#z-aBn+0+i^mg?WJy>aQ|F
zgJ?fLwK>Xw?pQS_x<_<V+z{Y4J|6duJ~%o;M>N5R=ISHFF0ote6?^VD^tbH2Y>Twa
z1y5amIZF~V9TSHpo<G!)&I)2`@YjeEVO8gGStRkPlnAgrDW#GLaS}jFCIhu+BA%X#
zAI@f`ljopWFU{t1St7?|Bo|9$)43!Jw5p!N@x+X%;lUt$f!=VRNu|;z0sfpQ$8x#Y
zIg*{t0YS&tCr(dhNg6=k$?UnLES)0RgeXZ_0$pzU_KD;rkwh$N6K$QA<FYs|U(Sh#
z<Eg}KDh^Yrd~|vyUik>9)P8L?o{^JtaXFdI=rggXHK*bvo=S<SlM~0pxS%$i$tL1c
zM(2_Alqd+v3|+J!PRD0ca_n_6d2U9IrLu7WCS+5+$KulQOhzPhPO9&?bV!y(cvUuY
zl!&6*d|KNriB9|!5vP-vaG!vz>NcL8It5d#JD!1$kQRj`Ebe771Iw3w4U))2I5lu+
zR?eQKua-{ISF53<gqxU7N)phD<zOXg5eTR|)A0*pOibtG%duny$rwxvX~w4G3D~d8
zs)r(`;+I7tseC$qc}k4s=mZnU7Dn;u!1|v7a19iL$V6FC4i*<<{1d!_MYIZ5(I&8S
zz;=R71l2$xPPFTgU3BP>Lv#vGft{`?Fw?Byy6TO(1h?ou-(b9Q^H=aZqMuTqwh8=I
zTa+&_m)NNHG!v;&19YFq#RRY)If-kVRP71MyRb&&N#I!IWR*`KyPB<UBZC+%A8c+a
zOX4vxgHj==c5P!+I}znsl1b>YMJHMdHA?il)50+Cu{Rmnod1F|&%DDij3K=&lV|fx
z4Dhs)XV2RWc=K0aFYIC%z_S^Bc@A1YM=N>eywiX;e+duN_|3KfW#D7YJ7nWC!VJ#)
zjc1#`(2MKXR-iYytqYpaTjf(hZ(~*5=BmBnD!o<LReiNQlXt)y+p1EbHg4;ayd`hV
z+y9giEI+h-V7;U72JEW27jm~T0_d8(Mju^u&t}VjKCs=<zb4SCGkPzB&`zrSG-#)6
zCYDD1IcFbCQzhn8Ju^u`5Hm3;IVY+$l9Y}~sL-^wA4Xh^T@XnISe0S~wn(uyNKU2!
zUlwyQ63<*vy|WVK<cqPXWL#36*rX7T5J^k13@BK&&VXVwaY<KYDsOg*IZ1Vca!6jJ
zYLbA1z!2OOf(s`*p}NhgRzQmcRSwJmXd7n?luS~N#Yh)CR^6J2p=wr9h$?r0(o?;3
z7wDXT5UD}ReROEWCU`0~fea$b5LUxjJwcK6Eri*s9HmH*_0?Lc&gg1mKt7quW>g!l
zJ>pVrl9-yN)2vujFOsAS#pRJPB;tz25~;W(#bOfrL>+p$@?S3u$?4osE}0vU;{>eO
zz@^!z_K#k8N*qchr-pKu<(X_|=pxv<A#EGPOJV{PH_@8X5M_kH+-0&K$j&uCq^bsu
z&BTRD{|?n}uP__6jH_nBp*S1wJDW=l;ezdLPpQ4P*gmYZ58s_s+Mh4j?mNS!_Cf7;
zcyDod{FCAFMSHQa|C7f4k9!K<2lefx#<pVPZl!T|sim{n(yz4ims-1vtwT!dP^qn_
z*tSn;+eaS_D=ovN=8j_Xpwc{8s&Ba&yAdljwHBKOl%|1F&#q$6sM0gK(lJ_U+EEI%
z7DKy~(5_OrqZl4m!o#JeUi{w>zW(asnU%Vpjdp*78>Z~u=wa%^i${y$K_xtR_h@nN
zgtB+yesHp2d&jj7D`ix#Ar>eMz{Et9lEN&A5Gq%rpi1<>-}+xeb(6_kt_1V!yakj5
zn#ye@&)(5{=h;mCqj2&TLxf)gQJx2CviZjIrV8F9T|w0bG%HPkjs!~HR12W;ZF$SI
z<uu67WW+|E2OO27zLV<KtaK^~;{F`;M>ujAe#i@09fL}>Uw9ojO;YXISvfZ=OK1Zq
zJCY;#*fE_YfFR6ieo>{_8`K|t9q^<-fa(fU<{3V?;%O;`dJ4zji@ksR*72qEYIyI$
z#M+MCKS};5dDnaI(&~<53g2CrSRDN<&`=C?DuK?Wfz`lp!CrFm@46S<*AFc1xbKXV
zeD&8at@zqkobBW&&<Bk-IeAn?BMeF*1Kvn1rn+M>5QW(k!h9?SMmD8AA$Ax-P`n7*
zG7^AFwM}KSDb*^;gh~iGft_~E7a}iV!>fyCLQJJ%vD+*ehh7Ok@^f@YNGE`_LWLpy
z5USr^Wy(&bf4I~)RNAwzw6nj|(D)l)2lo=Y=5Hx;2$bzisB39lY1mbE(6-ZTyJ*|Z
zgd)p(m4>0Rhqig9xoydItEKFv%^D^UEK`zYKjW_XB0zh`*&426Efl_)zmYF<0K;qQ
z8gKUB=wAvdwY^_Dpo{Jtoo@oBY8K>hEb9=@Z1K4;Ao~FXV&HArMBB8DdQjZe8VJSg
z5DuU=-Btug^?vZ3oZve-(T5ZKj~wl;J{tTom*Aov9{&go?dhZ5?iRdPxu{#H5j`R=
z+N#sg0xAruU=?1`h7io#2lEEs5qv%$_<R8)L_p_`oB|YJ3smN+2UW4|($SuTt_>J8
z*~oS%=j)@;dXK$kyT)C!Uvpe@ZgJpT4?A$xbV4;Z?oAFHi7NWzO>|tUIB;*;pudXi
z@}?8|t2lP^)(WT2YG}GQ?F;BEn)DaAs*W8KGs1mFu7_Qq1+-ZeClDx9arX?J3GXuJ
zCbt-rU`!PUuV5>11$)6!a85&faMhW&m=2k)abJU9ps2fN6!sf5p&zvbEi&3|TB^?u
zdeNwFD_fj3)3KG&{h&nvDLQAVPO)OW=5BzS=a@8^3Q6F$qZhc2Z-0*iRx((QS+FeF
z7T5)D!J212VDF&*g8~d}nFPJx4Y1~BZS_bZEY%JXJ7r)EqYH8I1==VaAR)PqD_Atk
z;2cYV*D1sg&h=6^V*;ha^e+a-QV{8;q=NwHXh@_LD)2b&gKyw(D78lP{~beM=fChe
z!ZlP~%{d0Oppl?iA^Wg0EmkB%MzI4u96CMKH8X9<U=McUbX5<HuCz#uyo}wrDAj!t
z190m065K}JGZc+TTq5Z3tAWgHI;MLIdi?4E?-6nmw57VljG%*deX7W#<PZ+FqdORz
zCb(F&{VRgyh+DJBui<c1DkP2-T}YMBpqV3-VKmauVbQ*a=JC~4`4l1`OXvXo_Z8-W
z(`z_-Yk_bv5K#h=VqioGjDYbCbrnNHN@%FSKLTv%EH(@%4Fd(wgXXry@2ocW6?|)&
zzqp3}T%Q6xwzqwsH4m3~|GO_Oyj0?Ai+r2Hx2<#57WC458*XO*I7|C`6u#$6i^E$3
zHZ9Z&?%dgxy55a?&wjV!d=g#F#>Ji=3@-P4(6`adgxVITi*3V7+wk4#;=Y%ZeJ|Z_
zIE9|-gP}7eZ+P+i3LjbCSL{2W^c`5YT880eKX>+1c2Zr*47fJ2q#%)9un!4P$7Vsb
zfPd?_<KXUng`0PpAuj?V2u%WhZd<gEcOGB~sdjW|!r`L~1%ZqHUfmVfWMtd3H*qlP
zohwYqSNHB43vVo5UiC#*oDn+vN!69hN=eN3NNR9Pq^9RvR4;vx1SuKFCrJqoXc+~i
zmM(7^)I_DSxT9m7uiOm1k2K|N-?ip#^IRqX8&XM6$Efg7ISBsknVP)yiseP-du-k+
zuxLf+Ie=)oa^5aG^kKNYrrj|5PzP7DO3-WS{Y_jWwK>jw6ZH1H!-8SD1=1IG2)c2l
zP^g#9&D-CuwN<D`bH!DB7^y}!H9yi4Y(KCV_U<&!4|T=1f_R3`*5ByNbD(ay$qH>{
zB^el3(P628-30wG_<j(_CW$1|SevAAfDNm2SfTuqX{b~llSXj^4R@K$KoxOqa-sIN
zEI!I%WvWe;(=->mHRROzmAbxjwH3-k_wC;S8qz;N1yN!R!#BQlu;|(OiDzfY7hdu0
zDs>Fp@UC_A6g&1R9eeM7W3}Vi>)ukRW#QOb-OiP|krjRf>QZ?4Zo3jbRG27*`j%f*
zLQfTreOBMHIR5^LTPK!-#mIgovj5)Rj}Cr#@L%d*EFAg8j=oZJ_uT^@k8W5kJ8NjD
zaBH+|Wg1Sf8&1X_e(R5lzTKbrc0Z`wQR*7H_p0JQ3KAczDKi$(C3Xhlj%RK?vowEq
zX0_#6h-wSo>)&332|L4@I&f$yR%weKFa>4LHbH@pud@|wgINq_GMEHHI#W!HXY<xP
z3v3GCpRxytlK^4cMTXSoZPkK0biECRnzsRt=|GvUWdzd=BOHc(7g@r-y+=kiq6PXG
zg9bc#7DR(OwIGCE69?E^Hif_t8eNp^dCnLQfu;4lDHg_P5LcVAYL<CBX9FzC^eT4<
zQkv&f_Rt(RNOMEpt+{MSkO)agr}!~I6E+jd5(H$TtU8F8OT`nS>ICB|y`Ge32zq#`
z1M(no86r0Hr&McP5F$>E;V)u`hbE?_7$xncX>*;n1c@1VlWKHovr#!ZfXu;Q36&8V
zQY@P0=8=M)xsv8W6(Ujj06(#W>1r^k4b6*ti!GScSZ&#}+Aspvv8(sTy#?>TcJEgB
z_QLq}fs(Ibv1j285Dg5~mR?vsy&8Jrx@`^A{rtlG;@SJY-sPUV7nI$HO8&+Nz8y>Q
z^2_&qd!VrvY+te|!QR4=2jT9eBg@a;AN$&B`0Is<U+_(fy-Th4`JocuRODL~zI9Rf
zIp1AwVtV?@&5Xa*;P=~>$;pVHd<|wxFjgn0u|gMuyn@w!tWIEc1}mz4sBXb{m>};%
zHeoiG63IMvT*K-tR<A-OfwUNraTGhTO5lUPfeIqywL^zLXSzA}(p(vT?u~qbKjjx$
zmfO8t|I_g8aG3${UhhZ!ANH>!Sgv8lo?}Y`PyEIc=33VvpdGt0R^|W(*$y_*mIGT(
zrhU)daiwjv?82s-X>6t2D=4AeWgH9X2)FOu@IrXqi>)y~*Sd6U`IWmP_qdPv5BZgm
zab@6$(sQ)Tz>|+hK9>G*^h*S(nlM)a>(B~r8J6|?u;|Kjir-Vr-1z&7nWvpvY%F>N
zt55@xFGko^lIYcYwU}9pk_}ZCg(%yk#fv`Cr(pqQ6E?^BuiDIUej#v`i3WsP93j*}
z++8aKtH<h($urc$xH>ot4gQXie!Us#hhSs_jr2pH#F|t;75JlBayULK#o^eF#`{_v
zV!G&NK!&~(st^>Cbqloca0X&&Xl^gn{46vO)#7)ELrt$tM#DtQ0;u+PKph)<hw2$H
zO|wG}eoXA@vjBX998(e7vlZTtMPLmB@PTQLV4P`;z$loJtx1d_VK9_cV*6^5Jy0_}
zyUY`tF+EU5jlZoxZ<RxsEi<;7GqxG#tnwXlr$Ms%8w_&>V@z}Rh}HBMls121l(}y0
zSjIUOPh6PFX2ghvm`tNOAXPL2hrpDXB6V75{VkxQ`Xx9g#2h9u;@Hgyw+j$7B2>M$
zV-vkHwN6fovDdRi(A<7JMwVz$LcWhUI3+TLRUcMp{8c}gXE^+ZGg$rfn<Syz$O)S>
z)lM+R;gOjQu8c9YOmKyWm_h&F;gC<D`YnVq+r!JXj=o~Yn9?zZkzMO&n}Mit;?S~#
z#(bsl&SH4465flgrU#8(rN-_LPTp(yS@UZDN$?1pFpTtq@`upU)BB01x75=9{()Nu
ziY+5b%Sd7Tos*xnL?F9R^mi)$P6~7>{;mh1?xmy4$5%u9HXOEaO=0})lN&tKIegb%
z96qEBA6o68ryOWwyn%No7AA`Peudu;Zl}v@1d;>=`!OLTel;3G!teG{&57KMqKvT8
zLcgtMgHu4FGN`1za~<0i)Zn&o@>3iZf=UY~!M`Z_`W0XQ@;6p}PpvqgqQ-4<Tb%Gv
z%;*6E>w{1|IwYnCp0+zSK!P%F&)bbvuyhp>hvucxO#>&GA)8^z1U4}?ksMG__e*!c
zv{0n+p;hVu$r_G9A%w#QKhxCuzW0{5#MfWHywbJro)^LZU=L)DP4|a-I$K<Q)R<Ib
zF9T2+6IavG)irdrY%E}+E!bA7Mz+;4O`W(&!q8^M&N>JtF4fvJ9{4_?pXv&D7^<bh
zI1R=PQUeqzrd>jy{c63|g$KeF-Eiy0nn+1h%TzL)+KKmQ^da>8m{NhvR@O**&+VDO
znN%u+uN?CqFga-)Du^lFj6YKJJ)`)ZDe<8qj~SsN4_@=`isn9r-&fImTH&8wci8;y
zGGlYODK~HVx@I8vF}&hY))>z7*lJ(9nl*+jI5H_M)xL1vQuP~Kt7R|1{?r(>Hh-bl
z%t3GVLJHTWwX_s2Tm_PIsPR*RmcK;tBnPlM2o;<^`!KS>+eU^N>BfiO!V2kcV;c$Y
zFsVT;iA19@IuwupwG;78(l&AniBJpiLxjEsm4vfH(bWQ{hnR)Z|6el8Lu39EUxd*H
z$h(_q*->nMQfYp&;41~&i@|;+*k26pQ-b>nuFrhCbVh296q^q!%?C?uJBw}mmA3t*
zP)9M;r-b@Sjh)5D0i|(Z!^I*0aMkz+wFA|DV*uQQgB<V#0NP%vaZjF|W|MGY{1@!^
zSwmticnb<dL=!l*Es@RPttmWejZKN5)!<sitPqF0YVq8R6tPmBsb}<JQ?t|4aCeHJ
zx|C358M{q>42`*=hlKC()ZyMFBcU&Zrr}^gF8bOPUwhGaQ1KnSH?R24uADl9weu_$
zE7d&}m*D~)a>N!9!<pdU`u~T)`*R?qcA?gg#BZnI(n|bXCM(Iw1ngK2u0o0WZh<d#
z7*NSyLRG1y$WNeSZseh@_-cwC+zyO%siibF<9WsR{Lh|V^-ZogC+Rj&JGEu~$oO>q
zD0h!EkW6(JF<ezpL2zWRWs@!B22i4oo6Z6BrK(+X*tUFnwFWOl&cbaT?crSeLrdR^
z0JmYagBNtl>WhILN&pfJKgs_nfA^cKfy0pa_th7?+EOv2vSq2}r+%6)b@Q+Z(o8@X
z3ohh$^=|O^j%E;yWzrN5EE6v~ZdoS9nrnS%ZIxLVxX){>>_MPwY42)a7hO%!*QNNn
zmY!Pm^{qJjw3QX$&5_3cV-`g9(Ca#I{c$EMkOf@CA7k|=P^nhP$&)2){unD{NAg!#
z;of~!&g3n`!Rl|}PdW_?!rKIP=6QCU{hVpm@+R<uc@y|4kFwn8X4+(QGi@?jkv8Eg
z(k1`{IU{X?t%|e>Hn*fr);-u2X6%8o#mTwX>O0FE`~n5HuQ2=WcNV_0cm&h7E54nI
zYuD!vc(!geu**RT@%lLU)yG{wz1V&I)rB{fxTVDM$kNP@d@H^o#Wno7190^50DT^2
zxmV$;1Pd1??w!V55MG?Ha1F~xetPouNl5Q<4fkI8=(P`DTSu_$v~c~8$mhTlBcB5x
zIcn^3<Vn>LiwW5T+!paAvS9GwG8!DL492GtTB^&Hge$Hx+!B$r6#NMsiZ(&zWw;3^
zfyPdwN=7$BZNc;ZLG6Mvz0o!(z`am{w}mBwPJ?zs05I@EsCEwp<7n!Ws_k^Nkc8VP
z$te(MVbHYS^ro72IM73}wqEzrk4Lp1JZ;qOru97zb$jSXBf|d2j7X!|8l*K`0*2es
z^eUbDyAGL^ldy;Au4>N5&d0opUX9i7PHPu+MjnH$9pRdLMdKd~f3=twPioYGYQwcX
z)O5|Do|@KXNi)m6j~pWn(qlKc)+|Z{?=p}EtT4zTjrck*9SZhqR?H+sf;L6vG}2V#
zg%PtAE6ijN8pKmAat1LSC(hu7ZBezu`5<NiIuVJ6`=}XiGaCOML0sn;tO9TjlD~&0
zYG8UiQ?{}!`x`sMw)~3e`IHI&lHosPf}b)yzhVyj8#AUbW1ljk^#2Q=GKaskSXs*#
zPKJGfHNjH=a;#;Yf$9sMVF$mo*#Tmpf<VjTzs}v{Z}5xa`>9*075{F<-FL;YVSj?{
zShT$Fy5-tn04&e2j3u;TIm@!G*K2P!-Dp~85C##qgvzvgL$;h@+5VEve(m^oj~C__
Rv&(ZU&%E-56?^GA{|B}oKyLs5

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mamba2.cpython-312.pyc b/model_executor/models/__pycache__/mamba2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f8e9bc3894d9c6f5cc1132fe1d9dc6e7028d4fc
GIT binary patch
literal 13159
zcmb_CZEzdcad!X?p9g{<K>#E`68sj#&ychv%aklilq}gKrC7G?pms4J?kIu62XhC?
z5)IZ$s>Y!0L{ervqNeVcp0pEc<Z0MnRi^FO{nd2RAG}ZrkgGi9Oq^-+4>svK)5(wS
zzPkfK>S(7keWDic?d|*C-M72%{oLuaQ;?FTw-d*@DC##@(2`ZnZ2lunQFkbgiclQQ
z8Ip9$5HZl0Hzth{BmA0@#*`^yA~+_=q|6aB$(xgwlr>@{c}vokvPbMGN5qk0BP_vL
zlg?CCq>AKiNmr^mQcd#qq&rm;sUdksvNq+3cu1a2)}_1=Z^{?(k+L)CPt`~2NxmxC
zkP1WssbC~X%C2N%swvV$^3}=aR45WkwM1G{t&vuOb0^zU?U8oK*KoDTj#Ou)Gu0L8
zO6`m6ONArh)c(kRn&P{8<IKz2f^7flW2X)EKoaRSP|r}D=LW^q@urzqwrgp*`$i=f
z>F2G4)(f=0ucp1PR*npi8h)rzuU~@?@hyDoeY4ufH?A4O4fA#9uDy^E;+H}bqZ7wR
z2Sce0$0z%KhcsbYww}rILToC@PeQ?vP6KpI#8OkS6PfgM;vy95#JSnojF63Hv6W~%
zlbTH=`LI!ToQTCQ@d_PO!e-Ti{X#OCDmTDh<g?M)+2}<fGdBwjTArUcKba9ykadk`
zE+(?#IUy70MKL3kd!I;L<%PkpL9Qo*IiHPX`LXP^S^h*U8J|nWU@VoN&R>dEeu8Fd
zzBw05XA|?WY$B6ZhhmVc&c%dSGRY^$Cr<M*PWE2N#A8z$@?>g?=eR_g%$nn;V{^%D
z^ff+l@lrOL%)~fefLS|F$HX(~G%t`b$*wcvXg143SDExFf#>Ch^U89GWZ>rnemZd#
z7fNZi_DmYqJH>Men9vJ+8s;qi4rGi9GqQVhE}MCYbSI9J?qpv=#Fa}WL=oyoXJPay
z9vYClQnAZ?luylOuSF9TO-5lT*k*J(7Kb&uCOZgWGIos@M43&+u1)dLSu&`&!X*lH
zs)fxTLgq~nd7g^UAod0urTpVq&cGWvBX8p9c?(5xCZ17q3~yF*X5PYCIC`4RQ`0nO
zz2S^lIU8@A@l<xD<T?8uc+&c`iF4dAMI3qRDji|ZQ(>oEL)LR}jE@7O3FA1SN!c7H
zTnZCI?gQRLo|V}+GG@8-ZR7;4WL73Gn*}~QC#2)5tdK#~07UuR{5RN<cj-G+Rv9b6
zMRSh&K0{HOEYeht&QVc=Mv#RiQBsbc(X^+Af?vQAZCim-u<T9@ma;Alm!mlvYF2CI
z?O**~=5d6oh5-tk&#nYmoy`EOcNZZP0qfVrHt1r5y4WTitRZL2nR3iuQk>zh3?CZr
ztMi5REYCFCrqzQ{=&z?ve;=Cet2+X1m1lnqglkfE?+_C)G0)GN`%<W8!Y<iyDZz1k
zI*MqyN)%I35jBodt_HTc61~g|X<#v=5a76^Wapenc<f4aDiIT9D;AYpT2XbPY)j9j
zqL)C?z-Ro4a*3483Mny~2K^W1XGPf#a+<h8w3N^S%?hmuaP~qwfP1uT1hR0g%zzpO
z!M8?1-V@nqR0tsr%B`>ufNZZAv7=(dvIW#{ESnW%Gk<k9mga<RtkZ*_7eOC_egJX}
zQ4{5{C6bx6Y*$wXhAA^-xdaE&ns5eTi)<44<g_vto#D&2Xf&RTiDEP=qJ)G<y8b_>
z`?IOp{@KKAZ#E{t_<FC-9enc8<%4{GGBMRZdo6n@lkUF)he*F7*!)#K4$4tbiei5X
zPpHAZ*=xcR(CU2Paoy0TtrJd9{1*VfzfNscQ?{x_i)8gbv^EsI!My1m$D_JX(ce_?
z@0a}hi-DFxphpVy6dT(Ljr~$%|D&dkVzqb8-@S6-C$HXn^}&V0k+Tx~^`6}{8k(z0
zW(uk_^hphU#k#<q=<TTX;|&(PoszdxE7vy{>IbFz!J@CR;M*tp_7&?p)IV?V*2_y5
z)@s|g+G@OZ7?XW#A5|AzI#mevNx{C=Q-$FPX?WtHXEJa4zHJkx0?el|EV3zZm%xh&
zZVt{yRr-;LGQoe`tj)g#aEHnnu6uIyf+0uE;EA&<<>>n=c7aaU?M0I_XcG1cNZJCl
zmM!-<gZ=GF6|I_}&9au<CIdZMmRiuNrkr8ga31)6GHeo#0GZ4XyF<1shg~uOf;a;B
zFe4m=AK^HH6G&*j{2DNmD4R2L+1a_Q2+B}lIN=z6woGRPAmHX3bht(RHVK5{p8&W{
zl~{`PtT_TjUwi&^F&KLP%-u7~srBIS;>1Sh{vRhkNUS;^TwU)xEwOF+iKRoIy1fN=
zi{x%u?p=2e<jqAZd(*yXzjb7}^Px3dbk*Iuy5?$Lvo;H((0<r7IXNlgxdsBAhC@9X
zmF>|eaQj>m^K3K<$5vALBH&B})Pe#opnzIZHi}t+aKCU0i)O``5T3<?Q<b_npG-!h
z_h{j1z>2uN$H-a;&5$JkHGudwfZyMsN>-|8pxE7C96V6;`ag3vF=y$G>OhIX3~;)y
zb$Lwk?kibH*;+2!NZC&L!Yjj)x4+~dWtMV#N~Dca6=kpb!bPyh=qe_(;S1i$-OiO5
z$V0oe{yROldzL*?O~;oOK#>I^ql?49$_Y6c(<T`9J4_VxOx^>J1k4i?Z<;m{<Ab?T
z6=66tZ=R`As#QYHqK^l&!wP1H6-^$lde7Q+{o0&^w{bRN9I<;)C|~#L-Of30FcCXf
z#XESGH|e*bcpB(!z$~1+33D)R7mT}#m`g4&m)xomKS-={;W?lIF2DmtcA#2Sts#Pm
zt71>#(TV(p0=+o`rFZE!nK#XETHdtoFokT7n?ib`KT~O1L6ex?GQ)AMqbA<6=pXZM
zF@V=GoZhkmUdMD=Fjg2(#<D^)<xGO%S?aqqnsL#xIk9NgHIb;OO&KkiVs%;$lvmlH
z&~RuL>KRU&iiEz(W6TD$T2M#FbjdS$bKa7-!dB8ZtT{v3I8xQ?EAR{LZJUM_#uDJ&
zTI<;kEvG*=z;<dB+rK*ur?P>V?bawb5T%O-{T3@`TQ(xW<g!eb84FuM#;S$?o5+Ok
znt-7+wxbpei^fHI5zdDX>HDbaAOQ~>@C0aq{4SFyOcUJz`X8H8K87$yXxkvCX#VSv
z6wPlPNrJt=#g5K*DypAI#kPeok_0a>DIV?9=w8D{(8>jy;bEW`EP!HTSpD-ge&H|&
ztB8`CxAZBVmGB}CU=Tt1JPP}SVML&XLdGWBE=_BK*NR9StL#W-gqY@?n5HtBB(bJs
z`xSIe6?+poPqp%R%|{gl<RaNkOiaakRlPh1Sc2fLlag%X)0~<$t7An)DjdejW@3g;
z3&@*t^VhhPVY_nRUcl;P>G7bHUErdUDe!3wBXD{fqMSb{$He|S21(f(#eDPV?Me)&
z#XkV}!*%MB)u~x+8}4Ai9hThTf_q4E55YO>Yc2TtC0~D@-6QL5DR_G&Z*Si5sG(`;
z_4S7CyzAGst!viSHCO9~Vg+tAgbEGa5_~ef<NCB=pvYF=JiB<d$kr6tCW&p@WQ+kc
z&0Je{>d7&h;M*m({l5)nXB8Z9zDBU&URtZ|*s8TZX_u@|<V_E){-yT!`c~RM?B4QI
zzNV$=LeqfMG_X2dIB-@vaQ3119I-$9FBF}@rI|H0ymFw>eMIU$0;c5vboNVY58*P|
zmPms=6HRcUfYKdDMXe=N5BQ(R71(%RW80mlgp)uGGW4hLbI+h`=``d;Y&8^8B*sP9
z3_K0BU(Lc+1ZUUB?_q6JK-a0FtM=v_i*GDlTX%)mtYI?zN!d1=5fd075oON~FH8+q
z$WGFc2=NREz=&~G2SAGyg@*{4-!ae^m0III`AktWm8+rRg!-K6JK$q3FljfeNM(B}
zMTK3;aMXf1U6nIlCr3mMqMCT7E-;WIQN0Cog?CTsd867vGe*4%I*wSzmIa9K<v@|=
zn4B4WT$}?W@{L(Azf)(b(17K+=p1!oRaOhmP}mk{de5NscOLh<d?YA6AVfM%Evr4+
zat!EHX0k#*8HE|3tw0zm@>T)I0y_htq=X=5qe3iwSx6ubRLWcmf`$->n!+-R8X%^T
z_^{1508L*Yb16Mt##|D?aRes-$aF$x6ir1(#j=JVYC<tpp9QM<+DZ+f+Ukq&LHq{*
z;MY}AtpDw!1xME}99>0MaLu)^80x+4+z7Q7Lc>yMc=cQBp{H*-i@w0(>5ba1wc4RI
zb_ifGII!9*1xND}MPK*Ivy$&%{`9B*mgV*zcYo0RD}UeO>HKJZ?$@2&#fG-kBR@N|
zWi)hE5rhBkp^}lR?+0~I9en%G3a<UXaP5Co+gWVwfAF$YeF{X_Q&pl2pd73eI1f+V
zeQJ4O_0oFaX>dOC&RgH!fKgh5ihNs?7^ApDu*-};xQp>&%T;EAxtEj1LK<s;V^(H+
z?c0JeM+1wdRW=0ifbf#(3MJI!OnR;v8rB*cEr1O*Q?`rB-BMiH$`TlK-mcIB{mx+4
zp-}*i(%OJ8PlG@ZlNE$&o2`MVvt=_~6O{!E2#_Ub&M{hja1V_$WlKlv0odK7&6=j(
znKc0wVRe}qg_G%`OpnepeIzpD+!@TZ$tErVagAzpv$*Z(stC>%pOq~FKbwrjdD#kQ
zsQ6kUdr3f>KsbZ|Z5i1Z<G8R@(V-YClpQ2OD?*$Hnst(xvD&T(5fkX8j8sM<Go*rW
z6)KBpmlDPYpr~OMTTmm=;=I372r9qa!`jOL;H306EDaX|15#jMJutZL9fCuzwc|$}
zdFQ{k?U&f*{MfDDqRYF~zW4?R1A1Z0&#atZ_kH7*2|TfC&&`F!g{7Asx;j?cS1(KZ
zM~l_|N3PE0?8*xdU4u~A@H8)*Bu_{F<fCBQ^2wE_AC7!;J@|Zn;@52bQpa-RL$<%j
z))&}DiEUise#y3#0#ti<DM(c}YV3Z`FgY2n7RF(`!UO_zx&>q{;Vc4TFP*~NIRps=
zM5&-A5RmmDBrrFd<b~G}aRb3O5j+o|(#d@RkqDyr;Q;_}ayLd#d``77_T~8!{yZ4^
z0)I-+(loPwrS2!ed%+R~*#{jT_58GF6SHu-j~t_mz2Eo@9NWeX@K#4|kDycB2rK5P
zCna!+8$r;U2Uo|Wrb8w0h#O0G%HK#9n3H__(J5|(kb>QHGq@Ps1i!ekbc}X0jmxK3
zUR)h|z<k91lwBJdlX_1|?Wal<eEHeX&%}Q{^d)AAnjlj_#ad3NE-`KX3RFa8&>lQt
z5M2z`^NgOGq>oiROK?C;H%yw!h*&DxGVxa4s!&18kcX0y_@CsQgqlo6O&e$CEZ~>Z
zyq&Z14%IKWfnUx-@SmB{i6X;@b@9+LUI$bWzudoPZKr;1@TXlIOZ;-z9u(y3w3Vv{
z|GS!V-=HFHt_J7I)k42DoM(@Edylsc>eX^y-UBP;(63$L$s74P-l2N(KB(y>p1cp#
zSiS64#Qs!9I1!r@V{mmP5EGn8Ob2ZLj$;FrKFY}E3V=#`NzYEwcgFP`cYXI<&o$qJ
zvg`=Mu+*d}dd()a2zUm_H7OF@RU_~mUivBS6Qkr?k;qMmqRK@N!OL|D3WN6*Xt+W&
z#*-phvK=OF3*JhqRY<I#v=W^bGFo(GerSS>q+;d!zP8fGFgkGz09Ykp8-xq4rzF=?
zMb=kf(O)RApoRBW6c0%3fr{c`i9Nh&F;&}3l*wi%a=&AHans56?ju$KEH)r^CkXM<
zdfTlRc>$ZisJr1tJwq2Sm=;Xir@NkVK`THn=mz~%?;a_f-A28*3Sd3DwB-oH_E(_w
zZ<n+jgc8(XGlmjkL$F-h)iECu@w!+Hfgu?pTihjv@Wv#QoI@`qmJGo)Nr>F1ga|8%
zeRjKcGLJ%t`Ea>}*ouJK;n0=w@d<1U?jg79JWuW#cU5}<&oCs-#^6RLeQ{@_y<|k%
zH588baERP;lTq&+ZN*4;46HYlg`hcv7vS1Txz5_%j#5*c1uI8+7og0y+)CJ@-gRYX
zqpxLzB&Wn9FlxMgZzLSR;z0lq&UT?egE#D2q@x8tMi4xSU>^c>S$4@e*%H~Kc!b0h
zBaM*jwmrLJgdbpYL>>MRbEKax$n6gPKPK&@zyGVWKUV4I*wvo{fct_bD$rSIctUD;
zBJV1CnhTyD$<tHt9FRN*^0s2IqY&(of;}tO3jJde`~}C>to5I|_NfY@slV6|E;JmK
z8jcq0nhJGYQe9Wk+g$L5C2x2e;|mph-IA}n=x-_bdnJGGmdlFD!m26@66#f=QSC6S
zatIEcWVA1d?l=G?yx!K=9(tMsJqKOwValSPLee4wabd8|HPZpDb%;!sy%2I?UZzIB
zVEg)9e<VPmHNN9gJX`hwat4mpyn_$Rz6#VsJxNkU1lOn+tJT*YJ9;pddoXE77WA;~
zy%_c4xxz5`X*wp(3|_tLN<fJbzFlc1v<m^n`=G`!RrX(TRjxb3iaO<9_UN%wX}uCc
zPw489q+Fz1r(*HTQ<*d$HYk#Zj3!&)QUR~H3GanH<isZ8C|8T{7z3}h1WhFjLj}dm
z4`GgoFEQ2|v3Lgo?y&GG0-`XMASc&m6Fh1mPKguYLmg3e5Tx>GhQzc4v^3;uaQxt5
z5j=HKUls`*pu^_fA<Ph9g}Vrz1|TAP5=CDbo>cD(E6o7ya{0fo(tiSgKyh(*WO4)a
zLExYiIJjo@f4UvPRPUXOfld-5EQSW~x3L)PDg=k6;4qfzANkvg{<aUtA9z1*SnnB!
zxI;aLADvrP%HK(%kLY2Q!;_C{o0rWiw)NV<EsM#Ilq~ok5WIAB{KC;u3^cz#a(AQ<
z7?J`*t7CsZ@plu2;c;nrd_6FcAA4u~(@_7axiBy)4UDdbj+4=VYvXj^oLHPFuun?t
zlMw5$IkkACFbxylVU?g(A)4h7WJnMaes?FmsKs^|PBQ`x%Kj6t?-DdoX|oYuaK7bn
zt87<55?&)xBD#!9KoVTqf~!Yz^{jkr-36O*Pzg)!ib*{db#y=jn|%QGj;ca11EP%g
zO+W-`!JIQ|)1b*T;P@nW)VN@~x)V+#4&z`I4<i(}pWNZjD-YiWE4dEr6}-T<;Pg=F
z;Lxe2>Kos8-gOq)x?9)QS`R#MLgWcp#R=Z%w#&U^vrr+Exs5>P4&3^IGJxFfq<0MD
z=xI6u?+E^y{sFDc)PPUS;5CL~bjwZg%q%`h!wdN66c0m&M>2C<44%ZqW-p0hBUuqO
z;v1cso1TV;X=E`(<RB0}CG7VB6y^sW-|DY!z7ChB1*+oCAI)bAu4c*ATyPzgTt^=)
zNUoRG&RsxgeMyPD*{5Pzc+-eh#*Q`me`V-p7?0eFo`cALI|;9hVi(gHF`J0PlFh;+
zG+tdU(5Hl3egyP8*#2(-F+cqHT6}$zeq0aqD~Tj%t8rX%9sl_7x@&UHI;n&fkPmk(
zfC&&pqH#of3V?3#9b_7<4M^aJz*7$8!oeWC2N(erxyl2C`DL@BsCR6>T!oKJ=ivR7
z@^N0V(s#(hPKp4|6HgCR!*vCBr{sp9)sJ%@<W^r@cb|Y;B3E7BsmwJCWIN_s-t5Eh
zrP5`F$R)Ik31{-h>MvYw5|z^Ci5=oR@d4?Mc@nDmrpGt7GPu{gJ+(*f*5%=K_dYV6
zf~!?>wJslAcXh8>yOpW^1@sj5?+UHS4)OvE-i=<$aKiU+bf*x!jo>B#*$9_1!n;@`
zF@^0YoL&I#1EfQa6jl)6;(c8pE{`+_{t5nz7hpp8+Qdwm-6eySv2WD1lo<F0jNO%=
zyZQR!>q{r!f9~#cYpyQIw(oNbeA_f?)FlteHK_IASFLyJ{8HPkmlxkyW|reCL#xK+
z6a@a)T*H#>iO(%SrZ#~U4pGPHG5T`~@)!q%AB+Q%FEn##I}CVeI}CWJA`Hk@gaIKB
z{cB-BELDU7vA81)xak1Y=Rulz86MQo@T}&+d5kgQ^BM!=T{-!a@q6QNYruFPy!g>8
zKYe8rvn8v6>DePp2w$`?A!HRMz=aME%9d!9%f#U+kt?17R|;Mk!u?xcY$~p78DRmG
za+%G-)s6^?8t!yN^3+HUpiA4Qy!0kd6Z<%Lb_+K?@UmDiV<qy61SrtYRURc-0ZsTv
zZYH(41UyhmOo0@0ePy4J_?ybjQaho72T$NCYR~)B+jQjz@1~WvhTUI9y4%hp=3nnu
z)F7u-AA#_&8lRbySCn$kA6W-t1Q1WcP?h4xc6~)X^7L4Jgswc>8u|)q<;K6fSj4J9
zD_60G(Ri12C#Ec-qG0;eD-LCp<d&jCuS-%#>?7B)@K&4`1rN@s4gm&PWGATwC)OOF
zj`Jh}FEdK3M8lzPLmm#0cL)M8-HCERr6F6MyKn*@VasN?GDh1U-5wIbCW_!5rSR%8
zq_vK~V1VYR@G%ro<BI<bpk$<J`ZF^{2Y*Yo|At~ep*){Z?Z2gt{0B86Q6ryFhsfVE
zpHL^iG#F{a7gmaXhAwB%LDobYKBEA9VW;T6FHL61Q2@Yda#Y`9?y$GnCI0>7-Q-&J
ze#zc_-Lhrwr$b9M@7Le0-=ZK};%Lg?+cHFGy75-)o$&4OCOnI$8$p#Ad?kY3ng<t@
b?kSqgZ=U(inf$_1X089s7Z87^6><Duv7UbV

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/medusa.cpython-312.pyc b/model_executor/models/__pycache__/medusa.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4fe77ac69f300c89a8727c7b6b50c06695a0c046
GIT binary patch
literal 8335
zcmcIJTWlLwc6ay|9}=kt^_E7KWQUeS+LmJ3UfGUq#dcCzN&M(;6eq-pGn7UeJ~A`(
zL!lDyBEZsE2bQp1NJiRPX+JE(E}|9%>U?DjblVjD(OAlo9Vmc+WIyu9SaLV%PkZj2
z8Ip3C%};wl&fK|=bI(2ZyzhT_JWd2fu>6WY--OVY_`@hxy|VR>P+34MVkrT|s4<Gd
zb(3HkGm*DBW*M`PHnU)j*~V<7ZV~J;$C!iEtwKf2Ip!pFo8XGM$J|i2vkt)%s~oGO
zkO`eZY{mPCb#j)eHUoj;`+-@jk9o;R7mRfO$VlIHQ^4~zo)(}~$4fFNGUEa_3Lnlt
z7lhcUL_Eq*z*p5sVuF{YSH(nxlca<QO_i@QA|nW#FmmoJ$FR^+$8u37CCK5c96vEB
zhlK>ga^lyN2HhQFu8(u!q{v12YY`1o?di}zwkDzSOCTbL#wZp6;V90`nm7w<hQEci
zMjaUxrC8hh?lCKC=WJ7zrC_u=YboCzwXlx&En@)T8Z}mN0R<{l&v{Pb*%Tw36cUkX
z)fOSURb7)j%X0Cs#LsZ5GoFft1?D;@N~%rd<dhg6jaW*S#VBC9Z<%19zo8b8T<E-M
zO`{KhKOX2U6p{^YK~uKEutG(yFsf<u157n2!|1jpVwyk^)0^E0&00zz5T4XV8PBvS
zZIV5OFN&pDlfe}a%|>nBbZd_VAkJEhRnjPIH)fTr;5FKcZ(}boqk!#ofJG5_S5d$+
zs#eB0HYG9PXe2z&Gty~b4GXRWoT^nyB{@-bgu{HCm&0Mz6pyRUa|t#ja3j1Vt5%VT
zPjISjgpYHKsM;qunUQ5twdrSIxxkNHQq4?64%k$S#0gQ+4cLiz(;_|#l?tmB;c!G?
zBq<!0FqvswZv6MzkQ_^fl6<mHW<-G7cP%w|_|Wtq7ZUjKQ1ZGwnTUt30N00N36>MW
z+%+zek`to#DTTCM1(VmsS^zrZ-@!dWV@J48!aVTp4Yc9#+_Wo>hIL2NSN?{D*nDie
z5;e6i&a5}?-SXHymEX8gQ_tLqZ5Q&@EL6-_<Z9dDx6w#1`BwvnA3eX;c;dh87GHJV
z3FE%OGq%hX_0EjtmTS8f)%q6(=Ldg%IAi(1@!gXe=#?;kJ=}X@$e~i#A}07S3O-)K
zrkA0zfYNBn=qY&*qc>ZC$xLYq`gLVe(hUj-7>qKQ#(2-bkXh<hn+2t*3+O&I8Ze2V
zC6NfQP{1s<;(7->RI7G~7&4rQNaHqpG$CGPM0TcbCq4D%P8cKg!s7<Y)io}>@fUAo
zUd(xYbHfW~=g;1`w6y=jpRLvIR=m4!p2(Y#zhkq?n{jNxcm&)AY!+u?9I%-)9EL*$
zCWE>=9DW;wUh5IDEURWdE|XJLt#IIxN!50di-VdILFSO^(b*}&2|_r0pAy@lRl)-L
z0@;J;f+~5`;EosI@$LI4Z}M1M7iaPaUXRS=^;r#ht-f~YDQ?ZTnXSIXy1OlRTJi|0
z%iSOM-tYY*u8O-2kP)a9iXo(1PoQb1rW^xJ$(sL?0{sV?lC!cl)*iJHed&0=a?Hk7
zaQ3M(0?pdEALwa>H9%`RL2Ei;_MaH_qcB_m!v)63&3QO$c|4*fydM4ov`WsZukL}F
zRYYfdL1$O0wsS<cFmD4BU7X}4ng}}0$C3gU<KnVJ%aa_f4We0*iOMvQW;!Y+Vx%w0
zfCf53Ps(yqIuZ&o;x+zCFd<Ham~km|U|`?=;QoDsg9A>iG|qETPUPYduDAdr^NDzI
zI#|WY)OawGh=oow64=jSE|OsR_(Vv<!Aal@^HCj;q#*)EusmQge1DKWl@eiLS-1{3
z!!8qXsDbWGCPdic1Q!QGEyF5wQcNTh5+mqv<wUY?KP@MwfqjDn)`1}XQ;wcwu5dIH
zrxQtxJ|k#D!Z9XEU!CM5le7qA1=FsR>`EfSjKdh9og@=5K#Zu!y`9o<N=Y26uYyNS
z@Bm#(#9#@Q<@FV$B*(FRsU$sqU4stj8lWTw&I_ZTxWb8(;5`Isa+t7FmY1*#!qTa@
z0Imi(vdAPCnNB7^Na-jq;N3_DB<>mjituvDhGZhTuv?baEIJ;)WAoUe@Z%|&GoZ*~
zDjs2Ejt!HY6Vp!*(ZvtIFG0huwbPKf$Yh)cV)Vkn5OgpVqI{e!00bt)XE9AESRkE-
zr9|^_TC+hk%gBtx$pl*<9>8bd1JI?lZ5ROY41lR|bO}A4OG%iH(;P4gK6QMgfgpWC
zkP^M6Gl*+r0E@%P0A&*zTa?}Wb4RBG1dljfpjJ=??XKE14^DMqQyJDMEcS!kidFC!
zjp&XG7z>07&QUd}S?nC8sd9E_s?<`!G+d@ioh+>h&6?$c+jP?o&Xup!xk{VCDJeKu
zMK`FNmng$bt$?K~<48?a8~w%igYUa!hlop7XN<uZl!fLuMik#aFtVXI!l*r@N*uQ%
z-*eoG?w)xHTij;~&;*|gDQWW*tyfE4Frr`=WNdFqNfUcwtSrW5Yznm=R2GVPs?09s
zJ%w2&*786<=Z97UF073mCQ|;7&IEXF)&kUh&VXBdgX8Pf=m+Z-PAx9}zw(Mzci;B|
zUe*#SmOrf@r=l%w{Sf_?>HD;V-Sv~*Sq)At-Q|vxg`m<nfmxf}XHW?EqbvuNJ#U)<
z0amFuAh6(Bh6_Ag8W<Eq1ifa3V4-3Z{KIGbcW*-ECwQ<?VNfsFHk?-NdQCh4>&#T>
zUs6zY2{<ebOA$ukCNv!K#{-ROH5i{rN&pjih0|4(T1|8(b_2n;*F(LE$*7^hu<J%#
zKn)+v9U^9E5${c{z+oUpM$();EOe@mG-|=35h9M`P*PHzMbn{H;SH4-7PYpV#uc%{
zBVzR?;=oEA#49+At%_K$sa~>O31VnH3|A|PO5dS5+5>npQOAU?I8C5Zya<{KX?`n?
zwy|#m<%US(W-Ng-Rhqw2h-2^s=~Ga7--74uYsvaTiZ7J)om6}$v%V3<H<GcHgf}^V
z3l2&)N~0Y4?mKth$+izD?E~wL&llpIgIc`PmTT_F(OvgkAGxyhph6Gk+B>xgLrVKl
zA?i7}GwR9LB6@eWeV@|4FJoDEwB)+>X1k6nUB~fP$5*cExr3|CeaoqJ*Yg|Aft<HC
z>kTMgsQ9zqU5a<tMt$ef>E)N!>JM()EiILq;aelyPBd`%QSGPApEPF=k1B^p*ZW^t
zYk5`ae`T3jym<HWhnH9TUr}0K%?y8V?yHuzyXWqlgD9@8b7|n-Pd@rdw)2qEd1$@$
zFznA)4e?ytkwpsPxw_6=LtC~Xpfm(XWv|k(ccZ;$`Sc3^Tk4Ut^2%EKFl@5U520P#
z5!j@!8bZ5PjM2GmKdNtAj4s7iF0A<vXIvX}DCe%ux?2@@>!O@(KcuuDdepOJHg!NG
zxbA2LqBONZ5Lo%$lS>ptf!{spLanb+-#xJbR0&(Mf8KNS%n`@G?5{a<-157l2hUm@
zs>jH3Kzz+fJ7Pu5gy3GItr2+qaIARSq-!>?pR=Z&u_5RpH_=6=3r2FlbQOu%x&$ck
z7=G!2;c2L=R!wa1qQI6KS7LiJQ>k;M9u4x)CSf4JlLrp|Q_ny2tW_QR`<~^xdFx#4
zb8pv5k5YAP)p6{*$5qE9>_FVE>VWhKRE&acJ=xp80&6dz3BX)7JQnayz;2X|)@K>I
z7UJXIA#@o=%$kXf!BY85Nn0R!qr;fBrmZ)8vJtgG^lWHmmYN3pB$-}Dzo2gQz^Yg(
zpD8!0)21mLT0T?K1^rH;TQ8L#BV*wwrJVQULM0ZjVEc_32&j^_mh*scBC`qo4W?4T
zY8PkCQ-24xshk%8tp%G<9A8XG%>W$@%22R&+QgD*ki~Yq3}vFGApmph-yq`v{1vc{
zikRSE{|}Ua8L~n+ac5(>D}01gt*m@K$pr%*)jY!|#gi~lJOvNcEO2pg7}sn}GRehR
zv4=GC@u+G6w_bu|)g+D;Uw~#2i-LF#9s!%CX9?drb%iWI=E^iFX-eA;iBFs?E#{u|
zR7WL5iAjh$^!}MTow;{53$Tdv1w3w`yaVm+%{aemZd;sPW<QSIkNv)R=;ohgPR`kL
z{-&(INAdS8pIJG-=0B7<vsvZOyti#b4b6*3e*NBZ$K(2*Rd3H~eNWEYuvt}e``w%G
zu2yyDyiHkehvMy6+Vi=0@22s!QP;Ha`uyv2FK_sp7pCT?a;;|<uil-#GrN3Yd3?2f
z|7z>mm4R&k83lf=XLIel@4kEI-CSGu-PoNNXwrKBH)d;{f7=WSCtr;QkIgw356o9C
zN=w7{Mn4)|Z9nkX+n?`2El2Y~<ZW7YG?D~|YS%KwKcIfbKu{r{S`^Q+NvQ`wDqIW(
z0)Z}wrO`KQ=CM;qfdJpo1=u=^nYAFA1O$1IoN0*wvt}%+;$V4Jgw`_Q!!*p7s9S?2
zVunMZXG+?}TEG?7*8<0>!0NXyVj;K!{y^FW3dKs;{Vf^$D5R7ZKuGym45tiMzmkR|
zIZ-pztu%(iItZL!fY?~33ND)gvlvPNm1c`nVk^>Cz+@QKETbxZekg4#C)}(P`!nU|
z{P6f`kVml!a4owQh6tx-N|WT!ti6ODcGe~1oFgd)4Q3r+lpJY$+Gfxgl#6)^=Odpf
zJ5=g>K%cVf|NLnA_9>hXe5Sxi`k5y9)TlDG>-#-ZUEgne=r(v7@Gh$ep|u?M0l!L>
z<#D}1OitPiYSS}1<B4gRdg9pzMF>&gpy7d2_8y$>;YCggPlyaF9)#u@pW%-N_XRc4
zovGBD^lzd9i8@w2JFbDi>|-4os8KB}ACXlr&cCwZBwQlJILMnxsu}Vis$Jxg0u$lH
z6Bw5l@B_QzY6ZS+A_ED6nzxLNoNDD|E+&Z=@K7wya5=!TstNMAC-Ij}!$MoULet$p
z!yPWNv=k=Tc*tFqj*g_dbiIVLDXIlysv0A-9@R=_i*EoV3H$5dwrGVoFRB~E)9=Bg
znHpWump1+i&s+rE2G<1srp1A5^FF0{-&*s5HGe<2e7m~;wmak5^fzQ&Uv}<Q-0hj+
zxxQRY{ld`v&{EY(^;*q9W*F4^+&hn}c0qf#rdO%yU6!+<Q%dO6TFt4A?mhP|e{^}J
z@3Yi;_ocbv-;Cybb&Ji4uPfKJf6lcy{Mg&^mA8J;a@Tdowc0)SsP1#`@my`gYD;LX
zHnh3#=$vb{rT4M7FW-o|dh#u(E0paVP&x;G-+53+XVcrbco9qq%vu<oA6=~t=4v~#
zwR@D>J<F6*yLb8G$8X(#E8BNM={xb;4yAASaqaLX-3OK|em}0zN9R17we3q5rM5fs
z;zmp7(u>Q-*N0wPYdN1e_n+>@#qOonbvJmvjk@Q{e(vtf*Q2h%d=qkeZy&pPY}M7B
zgWBlLQEkZ5#d~jl^ybQbrTh78_mI*(l<hvHbe~#v1EAqeBN$k|sG;=OdqSVR>fW6<
zn<|`nWb!(}=z3dM9WBH{1$^QjI4BV$3W))DsP=G}O+><B{o+89MJ;OV!6SO{2#Ww0
zS>)zG{3&k4?k3zTq##2rzJ(j6@dF3lVh|ps7YX}tBYxneq`!s-TqJyBa$8SPZ~`Z(
zVd@DAS=*N2Rsmj*`pN4v%TxT7AEzkm@uf@n)bj|cE9|4^KOOpHNI7_R3xDTrt=6W^
z`sT$K?~dFVQR)MED>US7$XS`;ZVNXBrJ{Muj+>4>XKh_NyL@S-|B>}m_b2Yv{$Zu>
zMWyR>9zoA%{hvwye&~<5s$EkMgsau6NCK{dBRKsl1)1>(*|_FZImoR_Fdo;0nWPRO
zXO1tIH9Gd-WMXjVy<1R=se{i3y;>~X|0iZ>!8evrd_NuLV&fd-rQ;JMyjJ_l&D56G
zZme}x7EZ~$AZa?qs@1Wi!xaR%NzxJlc<=X-Mh6=AI)(rgTr?dMufr$yT_o%(=FJpE
zJ#`?e`%C2h0@eKi?fL?pd1^9Irl&SUy-NK7wQt*MDBs-4g_q`E+D1^_?tR%rwPw!W
Oe*Na_PZ6$@b^aH;`&?`Q

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/midashenglm.cpython-312.pyc b/model_executor/models/__pycache__/midashenglm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..07281c6b750dc1c13f81c83aad0210c424d41c39
GIT binary patch
literal 37463
zcmcJ&3wT`Dbsl=={eA!gVDQF(07$$+fNzSV2nhs5kpv}@k`;)`WQZAn0A~Q`%zzJQ
zAk(Q_1Ac@+9bbTnU4pjz39{81j-4C2Nk7X;+9*x#y>m2lW_n70W@@#m`rY0O3Q%OH
z_uk%r?emzy@PLy0eLW=h?6cp`wbovHt#$s&<+5{lqQ)<cPDDBG7xbb$F4?ngG;-V`
z_W~E@2Dz{<tdHsjb?jHqehpE5%rIz(83&Cq)1WD49yIGHoiS>OSqH5#+n_CGAGF6D
zgANw1k2(ikEWdlu&3-*G@1R$XD~c5l`k3DoEs2#5mNLINS{CyU`kCJnEss?URxrOc
zS{bVvtYUs!v^rKZSi}7GXl<-+u#Wj1(Lk(zus*hJa9gZluz`g+qm8kq!6xQ+MYqRx
z4DMilceFXyGT0Jp9c+!Y4Ysi`PqaPOG1w979PDK8-e^~B=its*_h5IdXRs%>Yj9U=
z_uy_8R}|e7+dH_I`HQ3bV*3a8Gruo-Aa-!@AoG_*pNJhAJQO=Tco^@c;j-wF*pq`#
z#*Pjijr9)pvM_)2so2wlPsjQO`(noikLkEbf8;p+`iJ!un3ib^$3@JMe#JldOvD~J
z5iUQ3xNt?}nQ&!(>S1HJ>J8)Ivo=oo7d{-Wj`W9X@K=k!I{XFjSBdhS;rcgBgD3Ue
zaW1^=4KCae@s2GiOCtCCU4!HwJk3%zB4yJjq#R%=w<G0_Pe^%&rEEsZmQP6e981}X
zlx?4o@_ClB9Vt6LA>~<?vJ)x0J|X2fmU1Ujc7H<3^DJc#QtpZzQpfHE7P=dudm`Ox
z=!-0LFGBZ4_C{W$IacF7!{YWM?m%Q`LEKAvF0y0n4{~#)_#!VwUW|O^?So1wtc)j6
z#v$!iM~+5%ziX0me^)MKaPYdm<;e806XU}XJ~BQO>6jRgUJsle?F+>(MaD-?oesn%
z!jWiTXd*TlN{n8NMgmty6PE(dOpT0;j*s+*h7b@L9l4Z<cYZ*H4zw6W>(ilVG=#LG
z^+Y1VGoR&jXmS!cMC-Z8t5Z}J654vl$0rh@L?kR4ddIJew)58~BfZhlP+T+)h2n`8
zomd?o3PmH~V0a=Coa86MQ$vYhD3OSaCq^g65$}8|lo-0y9|<L<_z2$ZFGi!WrzggT
zM@R7HeJT`>^i9QL*UwB+hB(3+M<R(J3W!heLDsq8WQa$DBhld12|gMQ#z&`FNt7;x
z>W0T#3}VUC6Va*I_;Yg7Q={XN5HA)zfAYn`ptBQKHwU54;^(JAXz?_LaAI6-o$vGu
zr_P@^eWtJXRPgMv<0sCYKl>Y~s`&I&G%<R5A{>hLg%Y8@(V>J`nhWb6jYPvz8Tr8{
zuZH-MIL12`Z_$gsTzV>l1&bw{1JTNOgl{p4ej24*+;jZIP$Z7w5sN88e#P8jl}w05
zc#lmc&PFDqnEV(fLUc+&FHD9pm7*{ItuK-YjYetM%hahjF+Mq!h(9$o8V#d*o#;C;
zj#Uzigh!G6JewHG;F8y%JY0IwDaD-|x)h0pM2Gx#DKr`RK!=q_la%YkvDn2(IE+Te
z#o}{QlamvCBA$yC?Mm2l&mmt??^I&qGtx3XH4#Fy#LCg}(M0eH7E_RqjEu(7Laaiz
zUPNasbp2uk%P}%MdQG$h&reN8BR!(-nrP-DScl_7)E?ylQ0EA&uKy=Ei(EpDOL7Ul
zl4uObxbPV>7lr_2$T|3D6E-C_$$eKYGpxJZ%yIFuXSuLG$^AYTHfW{#eeN4Z1pxfE
zF5ythNjO!X`%#~Sq7n-Ez~yRH+H?+KNp4twj%zUvd_WDIZaQ{tGBSky9S8;D^1csD
z3<sisEr23D?SYYrL}1z_0Tns4#VXoI<D=v8L<nF)bPP>ka}KfXD;h!<hj<zn(SX!E
zkvXC%LE|qPM#lj#_znccX*>e|aJnlIo9vn#o$N?pZ$uIu*QWLz*nfFnq$@glv1{^r
z;?l%;7fo@O1P3D5B12dRy!0CHij9UPFc^(>PF@#1SPAio=#@y2RoKJtM=d9)x(J*b
z+<i;YeEsjfyck>vW=cDR(vEwU&ikI?`R*@WSt|PCYipd|X3x5Jt@f_&T8;hr)9>p3
ztpA<;Dd(wm10rT$+c0z9lHWb{^@gv<mzo#OeEWr!?r*)6_H?GKomr=A_SM<FH%_mk
zB2Fv`O@&7%g3@pW<DnS39~VvI!QtVAXuUKs$v~LslUpB*PhDh*2>cdFUCj#`%3o%L
zAJ}5;gJ+RT8hH~YRX2^dnY^VN*0E3we^Nh<1w`@6B1{^lG51LmxmXJN=`Nsyp{Xb~
zcOY>o5*VMt*5qjwoQ_00;<P^ai4i^&3k<`F#5?&Wl!lqyOFw4*Ab$8K$RRq2KMY4S
z4*~8(c>V}p;?({Cd-#16Sq+RK)fbEbs7s{=<-y>4k>o68BhL-)VKHZQXX|#YMufU2
zQr2qBg3USGn=0PEQYsX8t~Lur2L<O7Y3re^qxPXeXRCYQsD5bD+iKPfMw6L8fKrC=
zr#>FpxBf+VzJM`|aG<BTLA^qyNxxxNSRXNj4fr$S&lE9+&G@rKOko|-fnjUJJnWw3
zhIL`v8?Hf1*dDQt6|1$Vp0GnZ9Mqu`)S-QryQUj-U>@9}r<az^bA&G$bR57oBTy`@
z7CZ3!&?U+5l>G^QGz=s@IvyOl6dI3<wg^GhV0bhp+Q%pOSTGv84p?a!#^eH{4q4S^
zaU9JGTS+BY2Vc_x@Trk=)+F~8tTY7(>9_=~JN6`X>N?_rl%G9$@%p@Y6=>$g8}j0F
zrE*%pG^`^kEXj?r(~?}3{3FG&m8_kYQS4jfm8g02dl+CisO~SMRzYm8HnkO6aZ*X>
z2g)Ht!k(lBZ|Ybld`kFOiQ>!sCXGq#;4w9IUW{hH-!^<#9#zz#qK2fIck8*NIcdrp
zT@@8v=knT6o~uFeDf5gH^YQ>m@E9Ua+U|PMaXG?|W4{vlC7R=G?P1lL;!~4YW7c4h
zVdNl#x;%j={unv^a75b(R;rZK0r&!n4r@6Q=bxoW{rI?O1{HCoCoCE#`H3-*rC}l<
z6W2u}E#nrOXpBdq!v&@C$Eo~h$RQ{%6=n+thoYf)JQ$1<0+!%TAaH|$9{vo1rppWV
zS*OzUVZ_EC!1?73Zli>=x#ui`wfvs7@_uE@N^81u&#dvwo=yJhwv|)q>I1XJd)A5v
zPVdb#b7z)%1!wJYV`kefVH<FXux+p4+?#z&+?vTyX-CQKH7i#gxP9c-k(GL(s(mH#
zz1QD*{ccF;Ix18hr5eh!{#vASzF$(dcw*s1)>)EumS)SVZ+mWevOa&t*C_ZJH*BU-
zD$VxL$#w2ucy{S}x};^+_!Zlqoc;03KYIC(Um-t(iVPF;o#^fmO|$Z-<j`G&0K;%&
zgscmm92A%VrWwo6FQ??&a(iBDZ|B8o<W4e9hjMZX8x#_T)us|wxkhbjkB$*I{7yuF
zKoIIJgS3t*Kw8Wu{yh2F>NA0$7`h}{u!v(*z*#R+4n6-FO2B9pYF;29p)Skt1P?ks
zJnb)BLvqAFLgF};dxN7nKQVV=KJ=wiv%0LqbMw#_58d~cF1i+6^3PIexoEjJ?cKg&
z1C3GSp6y*TbFQMiTpsVNl}%QQ<%6Rr^#d;)K15CvoKb?{1N|*d+J56e&cUE)4-yqT
z6(zqj7<_dq6qRE5cFIObo2O9`jTa{-qHIU-7wFwA5$t@BUR?4v8j3`t!Qfju{w0Jm
zvhAp}lb*&qPfmm)z6j@+Z*XXSU46DTkPU3hmRDpes<Yc$v*k4pi>gc~bq`9a)=cC<
zs?zE;3-ekzf9;x$dF`C9Y|X*EPOiki=3-tqS6Z`_SU9uhVXt1Uxa=cV+}c5lsc5P6
zcJ;05H4fgDrth`C)&4PgrR7bH8^WLZDA;J7`jU_N!zPBub#K@P4Z!+FO?+d}4hJ4L
z0*{*+9=BlSnMM04!n)_^Ts)-INsUl3?mS)!Fs`u><0cJ&#_G;UsJKNFQ|NPt1T74f
z+a1%uRCyReE%iG0mTsWM$`7DrY)Oa~kREh^<cSs&ZFFLeMTn$hYsEM*P897(C>9H~
znAm0!4McW0q+?kqItAz+qte*ILA4AN=YwHiZkSXE{5wb&?|}mdeBbI);I9n$?w9%(
zFDzVGZu_C>kL=&K-`({CkFf2@bSa?YSL~02X$F)?f9vCL7)--&;lo!Ybz_vO-~oKg
zpG7%V8ATkb2m)%Pps_y3@lj-GF|e@^jj^d{ke@^d|C?~)d7y=DyXoS*F_9t4S1DmL
z96*$&mNzea^TO<_H?PcHnGY|HEsUi-^(pJI)mQKC{_(*d9sK_5c#+_Re&pe$U(EjD
zFW*1Xk9oaFRnlhQ!{iVeWE05~%41dYBjmdTCx4fZQ6M>Ap@<!Du**Nv8%({rHM`E#
zuTwT4`IQ|=erYx+C)KJx3c<2Ii=g~1s1V;_he~!!WHu4sl8;Dm$!Ct3hCw)k^tOQX
zHiHzmj1gcgc)~XAaBNvSwyce9Sv$6@Q?$#xjMLG{0b0YsVToZC7d@9o!yra-0nQ0f
z<Z84N@O3;99AXSD(JZkXHl5gLkFmA)zrs_n>&=hu`fIwlUWYX`V@T>%zdna8vD)-R
zGlF@b`-c8)eI7NauH76{0hm+9-hd{w3E7j!B+vuSNTnGIO3Q-{EvA8KW9RTt_gh9r
zf{6}{fpRe6>1@fr21hiGM50qHWlugV;fpBJfc!ko5_kkSQ4VLdGt3D;gl0Dp~~
z>*T1VN&tjfBhhl3KuB)dR1mU+lyTbUM8tXXh`6l3;XQxP@@uosY-P)PmHSs-p7q@K
z?a2Cpt9E27nzCip^Dix(pMMf0R0)w#)(zmH+NI&NuZiC7`x>+U?b-51jkI5pu=Exr
z6-^9V0@S@vCaEp}EX?R;a5T{bN9qBL5ku;vqG<WafqS(ikVFa~x`9;u=g9eOIDkwl
zr6cNsacU;US;Fx|2}~E~jj;@pzK`%Y5fT7N9^cJtbJv!1UwUoMIIElOCaUL|xo75|
z|I$fNJ&(lZ2pZ$Sz<|iLI0|7CBT(p|BpPtW`1GLa3bOFzEaFdE03b-L+>W+v!;Wmv
z-fUU<LzmxVe^6S!X2LJ1kV;S%w<^~x^aetta;a}&Y|Tb*cFy0jvRf$YT655=lPfCu
zh%&GB7;{7iyb8#JSAuxdfFb;;j|%bLK+q>ZJR=~SNo6pY!C=TiIZN0HIH%2Gux$~}
zpe2KLraVT2OZ3W9+N<#C2l!XfI?+Z)vrCasI4)XWy?iBj5sd!aM%)C|>`2d+^e?ek
z3!oZKzni%S1hb|={mAT33$Z_yGv{yX2!Co(I!cNeGaw!pG%7=iZDCdXx!<HYuLk|I
z9Ln7)9a@|Z4Yx{n8I%rRvQ=zeZD8l3Ho$VNcIBmGt;)gPFep5&9OwyJsGNAvQWX*-
zy*dhcJ=ZKn;*8|D5Xeh&R`4KH191}Nf_l|+7E-wjGUD~IdDXhKQ-zJwm_yW|Y!5C$
ztRD6thjuSDT8gw<Ye73y!E`2II`ensQAHb6o=2iaZ3C@J2`^fZ+M0)D75*W2oolg4
z9FplqkiLQVrHQF%IB+o%2#;O?f1K{(E?y^gs<fxriETux;lYoACb7j@ETTguFc@3K
zM!QeqlXw!id5Z?s>|${)0DDu~rpC=%blTKO{1bi#wX}G1)V#zbp_cPRVe@lvL_;ie
zO>|QEYH?OpJ<;*zSEW{15XV|(V)uMJaX3W-TFwwSJ4OT5GZaD~gq6&Hk$frw7cB{i
z;VofunlA~HZ(_<+6v8AGq5lXO;&dzX2to(%{x{}6yIlXCry*rMnQA(jhU;m-xfA%>
zeZP2bx_JMrC0o}_+>>e`ql~9P@H8xs2%e7BqW3&KDQi#4)03^J$y9U*6&<U7p<+K}
z#c4g`s1qD@%lqDQv;tF<lxKW91mBJoINhtyzvtVVa_&v}_5y8`R4tv))N~8@zbWc|
zb=|UVd3UB^pU|-HE}W;*)lV}<5wUFCx7;g@nbso${+Ay?ovv(I<>L6l_;TXSnL9H=
z*=~e6vi_=!zgh4%uk8Nb;kOP8erlaFTUxRB%EBwleL^XE_GSC~AWWnpsf^e{EL$DO
zRPPk3cV_DvGIhIzx?R~KoW}Dg9FJ9|aEiIo?OA_iw!BJ>e<9^-khw_toFW`vLh;K(
z1oV}MHZMa0-^T2KuF;JtF?qiikYdI#W1Jy2XMS!uO#!uHp0Om&V_H-Vwl7_4Xfcx*
z3zd%71rGzHa#=tl<}nqd<r0SVVVp3+z`V-kJ4>koro5CYG0pm9ow3c>bKpE_P1=(7
zr2ccRq&^IxozF8@@(mjax{c$S0f0vaZlK<DV=6GotHlW92n0aSR^tFRuRM~B1|<5r
z;3*hY9Y&SdVwM4Z5GfgNEXUmafSQCGT^nu*#)CA?;JBLNbaTrSH6>bbvBusAaPY5C
zka=qS;^=sor*RT(2_DxElM}eECdL|wI+dv8Z&3o>Q=)D_)IH6L<KJLGuZp_MqV7tZ
zN{|5p{p69J<&VGwnE?Gy$P!P%0RdX<Timg*W6nav=WOUfQR!m&LitktSF7gCvxeE{
zv+kmsm**}o)h|6y+wsjKcaE%f-!=Z&{Uf)qt3T~NK5N*Vq<cA(b~humxOA~~p>^r`
zuXZSfzwd0uO`rUK=kC<bqx0e4>s|^k_kE{6Rn_)hS^GO->>QVUR=4KnT<)7E=T0u^
zmb%l<nvAnaa5gQ6R*F`7)6PzbG`>D}eW~b6NttlYBaJ^GAlW~_e;z*)-R{&RlOq&Q
zv@-vX$@$dB`dLa%&RzV)i9<omJ1bWSC{U}=%59*PUEVblehC8l*DU0-az6i>jeL1D
zGQCPPGJFpQbwxQM8Qzr_zIWlR3wQg3j-wxQc$X+;s(uK6>Z9z1^?!jNElSzOh21K5
zK%tfCQcmIuSR!WiYR-~(HD^UW53c8ITGubQp3@GO%5-YS4x7U+h-*0*2f>Mb<rSUs
zT74=yF?3m?rzJFNi$y1cJPDRac#%i%a>#Mhl^o4F?d$a)0-hES)sMN7(}aj%po2Le
z!x0cUGSuO?9IH@fC76>Il0*QRV^km@(yP!kY2sZ8Wp0SsWqRABlsoRrF($MK$?u{w
z^q@Qy^5*4G>yT2hl!fh93CV<CNtM*)5sNxpX9L2kY!0b6X7t9QK-zo~554hi)f=Q!
z$y{8S$#?@$ScCA)>sel&7VE&@edWLY;qu4-X7$KhI?)iBjDsX2sM=!GB8_l~PRjwb
zAQlOdT*ZsT15v4`7Ec}-cNX!YjqwNva4!at0=V65CyPd^hVkn77buw_8t;}8^sr+w
z<NSl@i%wEhPm8UPYWogV&Pcb-OH?A;X#Nx^ozH?P&0qH_&Gz4rI{s&Hh-TY#lP0rp
z8&-DTE8R)d%l(qZtkaV%tIL+wY^FgRX89(|%N^*`efin>_=@AF&fR}q{C`yaWz}Ed
zexI|sz@)KqW#x=5oL8o=1{4iZV20(<JDxNsp?vB`;qN?j=L){(+|3I7iuL}9lX(?v
z;_MJElWxpp^ow_nQ@1T)BqD=Aq+kOVK3kAK+DKky@+8$wtSoU_8bmyxJoRLls|%s(
zR@)RxXtv<V5eZ7!%CAy~!ZtGVe}KF^F@E?}a{iE<ACmI}IQd*8hVV7`NF|#Vij2r>
zF;4MwDB%VNeByG?8yBq$)}@l$6}KvYtPkEfxDxu-;nl`;#lEz6zu?>t#OZXYsmgDa
zFE_r~dZ%^e`EPZkD|V*6-GZ~5kgIxcW|B`_-lP2k`3Tjeg-}J)aC9P+;QvSQ>RU7*
z<opBv;{Oy5;Z-|VT}ODeu~|l~MFAPL;#Wqk<ilB_V$DWAT!s199OQFyWjJ3fTv&6_
zn_Fc|dFa(kY$+;i?UasdYI$hE-PZ$$_vWFwLu)4ZQMRY#W^^vPbY5`RuTeBAv3qV-
z&sBeHQ!mP>!J9C#f-Ba+0ojC!!@7uJSkE}``Zt_|Mu^9lv@V<=GNTy|UX%%(cMHRt
zR(4tDk(Wh3KLLrM@i0V(7%yG>PWnGQiWrR=+$K$a(iWTorL*X&@@R2Nl%2uYvMR?w
z$w9m=ko|f{XULENJbVsvGb-ZLLL%6!TD2GFN>zN|mjIQAO|&n!$VFse!LvomvVvrI
z-6CcAr%qY<Xi6M)WE6_K3~o$o%q&UVw-$~W_$t-`u{clgEO-?sjft!MIHK5bB#D!>
z=XgRo#5AE|h{#%SL&Ha2#hv7EFg7~Qe!$)^<2VzE#zluDghzB(MD$P)-OdJwFNVf1
z$6MTaDE42XJn4?p0g<Y4xoXjlCddMPqDK)p4PKlYhFrF&>*opANkVWxCf_^c{Dho8
zg(KgP@~rGXp-`6mCHUerM1)uKajJ6eQTBw2R$B;M{snRXt>#~kmJ!3l@qW#=Oiiay
z(+Sa$*WP+9({)VfI+m{KPgyIoR%gaqEr1E)3}l_PSwHUIIa|#JXSCTL+JQ&kudK>c
zwh5JO*^=_blM5#^B~3y}(@K$00@x~)bY_do7TXruGQ|x-al_^ppMUX*g(ot;Cc)Q4
zd<e%aN2a_>DDT>En5*ow9zZRdOR7Cp)4A$-_ZY<Z?pe=@Rwp|Nh}Ns2D-j@s*rUQI
zgtTZwtwTEis5K{>t0i)R^R&F+kVAbEDwU}P0F-UbI14JRsb;2)p&|CQ1v^wLr3US|
zMVVUL9=wSyQfq8?(C;$p2awW_X>W6lE&V?}YSRE;TJ_8r@@7f{G$ajUDyua&*5JTk
zebW;*hb`dASl_lOAY`mgiph6#>1T{dqgF4lA_Dn2B)?J%@Q+;<aodTQevriP;#V|G
zhJc17n8Wt8XeXInNt~De*ObIGIdK&mp9xupq7aA+^G6ZRSiB$5G8*~gf0g-nKTrPq
z!yjD38&oOmxcX0wPDV$O%@`sO<qBU6<^`G)s3Ux_rHH2u4v3W#ycPA3Q6gMSlANGV
zcJ=TKiZFP>Byay3k*sB`8KORRo`D$AL$b%CiK#GTq9=lVPl>jv@i^2wA`s!TC>~Qd
z0ksYVNYN1RKc&hDP6qRv;fqd;Fp=H7Kox-HGj99^NWD`g_nsv9^&e0+z*m`{u_{Yz
z7GGX?`P-#$*4(K{mv&{nMNE{fRq(ZL1~dMu#n%>I%lJD4e+T%Yc`wC2z%%5^fuRkb
z-EW_Dtd()qJD5OSU#9)2(0(-2{<P5k^q(L5i_<?joo+uXRGrOKz9>|_IP1Ypaa|x&
z+a=U?Wt~+Dw<ZmSkG~>YRF(y2#8(D@R%id%$vKMWcFfm*sddf8*{T8FybT#oli+Du
zzVzn!o$<71Ps+N7fi|qDi!_`=<b=uDM$V_^(-7;MC#RVPt`#1lC-o(!wxyYmIQ*=&
zSDE%Mo8ENZajtRju9p5$_4lhkCa=V0q0Cgf`Y14N9VFu>+KwbJz$cM}o)w-7=(u5s
zHbK(DM3NRr;e{BqwzP$1i*SjPvW1KWI4L%8Qf%PQXqW1U*te4JKwc7|c09IKt}V({
zTIJM^*AA8VOOmDqYImdME=J3`0ZWQRW!W>?!1KfsC9D?V2PDitjY(jF5}TyL2xK!9
zcLVO%bYIYYLH`BACTZ+PDBL-n7TpN;1(2llAcczdlrYAIp_<r}lM$KAoi#OOM6{3{
z%GW?_1uQ2S8G+?gs?@5TPrE<EdW35rF@$O$F@$O$ny>-k)k^KTU!Y2Pd@yP%jh<uX
zYoU!qgOY!&QSs$|!zS(4hUwa)HkVHEjcr$ax!<s<0xt^NN<mX-p^EJPXSDFwXrGzd
z2eb>cPfuP8)fvufVY`$n-vyK2FsmOnKyb^N=u%=Za)f{j9;Ng?RS!W4!H7^p*ppY^
zZY3=DyTzOkVIl7olvSmq$H~J!F!EZ-zc~K4({DV9(}p!RK?-zJv3}^e^dTAl3^~Wi
zIY!R2<n)u%L=Kg?Nw<tB!d>`VUxo8E!$}+oN&e@R)5OBb(MWT8EqWHA@<1cA`XE$e
zYa^7{Pz4V{6?mT)GiRJLfa42B6*SEZZ|jt+@c%`(sMB#@K4avr>;Jjos;<Q_ZSA~B
z{Oouqq_lGPyWc@!TAacGj1n;uq*0n9-{zz^sOdX*in>t=Ad=7+V};8^#El!$DM+*(
z8i|ZYu1)esrgzDtL?KL7&qSSv(85qOexy^)lq769gu;LMpXsEu#yJ}84@<bRmU-QV
zk8@RIODZ!ZjRF{tm4QrUt5DgR^HkK`uDey2t=^WY?i8v!vo$S<TPj~JU#Va5rTiTq
zd#o<^8V3iONo6g+V%kmrsMpt9rsLnH{`_+|E!DXbrRb8B+Z6hdk!pmNMcXj(Jc3|)
zNJ6#_rYcK}-JUQzJdzMDlpHUPGeK)Ms-k<8sRWU}50o+Dc{&yjNhye_0P*A06h<<d
zBG3lC&Ob*rx)Y<25yw4UkfjpcbY{+bx1VN`<EL=I7EQokBN5RQj!Y&liDqdX@ZY0y
zUxcHOi;M<UF<YLr?{EFqZ{?q91D`aHze$sJ2F`y2%h;JGxA&l?LAqb3%kxS$Q*=<p
ziP!UfMe|A-_<r!a-}hH6zP|AK^6;CnJF&ardwyKDLsy~-0_e53UAJ7zS28=E5OzF~
z@*jevU#4ukP_{i=T9qkn6-ryP{u=3`JzIi{^14h#yHL@-;j&ai4iJhL8^w@oza705
zz3(iNFZK3js@jCAww32sjhUTCg`Gz;JD(MHKKpLBu=8}<IRJV7I+nKz3Ts>CJ)h|~
zEOZ>sbQ~8tj=!rDI-Y$OmxG)0qF1=l|A>|_80laJ?!A5J)}ec)&FiHITIU=fbaD3I
zDCfXgKecdbxhzxPE!20fChnCSD$w<~MU&SFXGkRj@M6Iqy{|um!Qbi@Us8esBZt_|
zDw%;?@{_yqmhQdDO&UJ0mu|jkeaI|p4Tz?dm+sH=^FCexJ}*`S-a(lJ=V*m77d9%O
zpWU4kgf4jcxL3e;m@z`3%834|4EPz{mt98U2&e=@E@O_BPW=QmXd3w7zvGdZRD(#!
zzYGVmGT$Ko|3%LKO%Cl*cB3xgl688`-(MXRKockGuqUNmNL&u$8A(Sj(JP;>RH@|Y
z=B+kcVahMkrn`gUWd8fj<8#O7pPD1lO=7cWybXf4;hVkReDyo^D`!_iD`%Ha3f`T9
zbLXt?L1BXLJiq*`;O!EeU38IR$GUeF-#k5cn)VESq#O9ObKCL>Yz}ruZss7b^78M#
zJbUclc}wR*OC?`*&-Eg6Sv~1e<#cCMZoX)d4&iYer$g6dh`MPp)AC}A`F(iu8Af>%
zWJsvXUkkxP+E9~v2BMS~K4Uki)GaEKpQI`vGDeK6f(Me;xupb#1!~daiK_aOmr<M6
zQv0r4E(B^!SZIa;+%%fQkt?H6*7yi<SYt#9NzmU6y$yhI{{KY?X}?cGu3a=<8I4@!
zMM@N*3})#n@K+S@50ub;F{f*47!6;O?sSOkV9QQkcUIylkhIA3*1%m(@pW2fBsYSC
ze`)!W|Em{f?f2b2b~kZwW#oI~Z;jt`AC^Qh#^%PBD%0-9jJri}L+@^NEbZ<^l-D;u
zk}2CEl<ip2r_0&|Z(GLGEqJ=qo?Wv>2zSjoWOkzF!l1^pg>exs(O{Zabm~!vcCn_k
zk~Yg;gCbLiRR(1=XfvE8F~I~;wH6CxfG}kAfKF7GiPljJ&~3AN++(GIe(lnHQY-S^
zysbo|q#jOkX~In23EM<Brrz4;V!`w`=41%4jP;*;E$>EO?Rj39Ixm--v5-iB*sN>=
zh~DZokA8YJttCG#W?th!h}i&CB~^JXPNR|^l40CfeXb{p51ZKxAyEZ9Sdx}c(QoT`
zQJ9;tgt?J?c?OjSO6{4kj&L)!+`$uaZfY&SQaCg*34i;HW0ae5CLKv<*mekw0_Nhh
z4yj4|ux^w~I=`*^9o>vQX&c+2^dR?}v@0tQXMr9gm$&*b_JvQ<h6@~39)xyH(!wlE
zfV2AhNX*VfkZho#$z9k;LTCi6pjk-gis>E(aY)iMPL>B4ksG)c2#tpW%61NnM_{KS
zF+mcxxXy`8m!D!*D&m0<AE8W?JJ9@8drOO+fia!|G{T)NrTl-U2K)^<4ENqA-`|nL
zz+esw{}&4TKgl6P4JkO{pE7_7U1Uhc@<hLj#^}WO2yeg^6%Es)ll(6!&<qPYbc1Oa
z3ME=xc_MH|N>{$=7yxByRSEj<DYH|e>sfVi(Jfomk<pz*0DvWowlIhr7cG(s4m?um
zHPN1n24OGhsRl1It21$eAQI@7-8?C~x=$b$zJ=Du--IL42t_vs<_4Hd8zT~K_RaOp
zmt=|>g`&nxQL9kYns&A!reQ~>VUN(T=WdbEa4==Xt&>ZloWC?MtILrD7t+pFD#v^C
z)Z8fu!<~6F60|_ZSuHrLm!3~M>!eCmGUb84eDUhS)l}WSyJzRGru|1}oevzol%wvx
zuWbI>R}X*t=@s3#`rq@l!n%jco%Qw+?cq-09U^Vji-#8uFZaIZYf3qLQ#(L=_oi@%
zRl9wq@q1lwb=~b1S`Q1gM=~{iLQNko(q;#U%ZxlLy{oU!A5Q!FXZy01wYOVuwWgX5
zztgh>9r6CTlMj4;gjdxqZU6SJ<z%{Hw@|rz_T+=&l3C094cnKKt1tge1C+$;W{=Mg
zW^3wDYE#$jz!LPtw`I%P=EE5vx3adC<3d^g>g#Z3k7u1eHtPF+>TFoEag9&uHXtog
z%t)k><?egVCJc+mJKs2ab=EC$p7r^{4jxT5Gy!f+!9iNhvZ64io!>*Rqzk02Blv(~
z$a#ep%1_~ugb8=;Bb6IltLg9qZ_SzszZi2xt;RyHR+3+!1Zz0_k^F);PksUZLiq&>
zQsfubZS>Y?GL<OoZ+P!Eta12xr|B=+f6~5A-nA00rQ@MxyUDK#M!=7PedUYo3+>A#
zLUGd?MYDour*0<al1ne#zHsZp3MPGL%Cl3jb$@I_0*Rka{T#xd`T%3FXMGqyT2hN)
zKuFb)h_-66#EUkm@{8cG=V|^}!{C6wq07@(bcnM0Ib{7KL%16{CmWE742Wg`782km
z_&^?>LAq%)PGUXNX-|2m?TjYM!c!n`_^1-kuc45<Nybo<Vqz*Ldf+p&q{zs`0O(wU
zCx>xxR>PWNVd|L+<hha$iX8d*loK9UdMdpImY#WF+T1xFNp$Y)2h*YtrSY$mqmGH_
zkgP&U`c9ukoScD#<OV3|8FKy^IcMR(I2ALMlo$;~nQkLfYm_w_QIVn$0lSGDUk*p~
zKzd<3PXwW0QXZ=q5s)kmJTlcP1MGjJZ8wE>{Su6m;ylJlwkQDBfcd_!lwj6<-27M7
zFZaFKf2aS}liBJ9m9<rt@;7Iz>v6l~a&JIx**||J?X11;tjShw+bZ3<&r2EvvUJ?0
zBbZ8Q|2-PE6+a<QD*)FUS{wyZoFYklD2-vx_!`i;vQ&N2?2x7F!6PtKpy!}F^q+I)
z<nE;u(mf5`h2J=wC(WrrtAkEODTNQ}(^ql{qY|#gVMR_2jzdnQ1+{A)^GNVTyWcR(
zgngi_Wp;XSD=o<Vg8D<fGZs*KknC4>2{;r^a47Uz2g|K%RO=$C0gclG_L#a4wS)^*
z>KJ`Z>KXNClJC_&LW@C-F&IQgP#!i)p*AHkLD+_3l-C4B*$~CfsXPhJ@zr>Rs_^)A
zWjm>y5MD=77T7Bz4uGV(SW0?KvLz{;Im4qMp!l$8ijpaYIDrF&{K=<$w%S@U_4Hp*
zPyD|lFVqYg8sFS^XP;mV%-ZLVFP+N<c7RCO{?>LOurp<?$vOhd-S0UXaee(y>Qkld
zDSvyatR0^3gi^&_V42MJ;)I&=)Zym(_j*%xdsFp$Q-QtYsopF2_stujax{DBKCsfk
zg@a3>+atF|mWP)4rRWcv{;2i)t?xYl7cc$frF*^s5EdY$z#7Rq%a-&@eYg8>^)H{h
zMK;QEER~mj_a&L7@>Q$EP^o<YO<bV1yj;lP#SR84^p-Fc-lt}-r9E{SPov;zOnbJ|
znR*jNVf=vL^ClrmZRK4yrEJOzD2%OXh%%aca{iiz{5MdKBsf`7nUk7?0TBBGua9hq
zkkn*xDVY!<SxIl{&DZ8$gN&o6p6rK^(4<0Uz=jA(O@hpz+#eq-R`590wF!?aP+>iZ
z%5z4+V18FO2-6?h@{BP3X<@uY`Q#@-oQO4SJcLpnpG(=ZY915ixo(C^U|F7hPqsu)
zFpG@Sqjo#3;yy6($Kzxz^B{Ytu#UjR@q+<&fgqiOTJ!9<g~+a0JTL9!!N7oO<xMd?
z7nq!Yg+3{ns2dk`lggpw3Nz;+I$1d~*KObt*#;O|gcZ=CV2~#oLt<<WldlmDjPnI?
zV?oA5so^jw!$}0yK1u<Lz><TLD;GbEpwDv;^(K=QbLXpGI(GZity6Ectq$GYm2Q19
zRsEz;d^Bx5nk}x%MWtI0rm7DL#ZTNbJ|UG%g>IT+TE6tGABB^f;;`-wj_kg`Wdg0R
z@N0p*B|0Hr^y`_>sx@pz3R~C$*M8jyBZw7w(*&EEWRp`i!nx@Vkk$sHvi7oS0rl})
z_-OH(6u7DgVe4_SOk5LPWcT#auxxVz2k6hBFv+5#1lzjN@#!5~Hm-A1eiw~+DN0av
z`6XGFv}Z@kx`U0Rc5jX#&sKairRBsA(8BG6lXJcD$_;|*s%+P^NVcyLj9i0e8Bw^h
zgt_QM$JKQF9`tmRsJU25Wj&I6y6f?y@kj<QjmkD@R7eN2UGTT3{hcr!QQe%uGONas
zwj%2Z;9x5)woarS&>kqF4;BGN!rUlb4Cn_$6Wd69JFWU2>H_{anW^fh4#1=u8AK(6
zrm*2R8XHZ-r@J5D1&u7F)Cs!Zz|?yEOC__PO<8Lnolzu^)~6AkMee!|O&q;}eA*2x
zq6R{KEvQ0+>9)r=ZBycMY8356w%$HvYq(eSk8KU^0zQ3f@)K9(x2BY}=243jw4eBW
z<WRe%6Ep2)9)`tX^pcz-<gocXKoJb6!E8Bh+u%5<k}ib5!F{OLnVLT|8%*_NKBsQQ
zzv=^2>-+xLYMs#1yUro(L$l6QvJR(AURfw%6Btu29+-4~J{XHIJS71woH>n<wl_dN
zilnxzl3j^SDa`B*+&ZG5C4h%q)?q6^93-*;;%s6~-pn#H%@QV(Z3BxoEYG2dDPWC9
zMR#d6F|hY1@UUY5I#T#xSLE(QwjhYL1Upp#V}K~Bg1Ykx2kY6OMXrO{Y|tXuanOK8
zoum<eIFNqB0CialY*t{t*$oSSfaVg@Nano^*Z`t&6t<T6-3S&P($Y&zT#k%G;F6hs
zy@)IJO#u-lK%r)PDXX2RR+b~q@1-hWavt&|<Q%8?B0?yTQ<rN1G<=kl72UKU!(>An
zR<o}qrrRGoXAJu1QU_>lM$j>A$I@D+R=y7!s->N?_6HEMyuNTf<L?&y-D&?W0Kc+r
znX*oytaH|pt=yie+$&V>o%Q5-AJlcGYP(h)D>HY4sY9nz)dLckTs{bm`;@hVt>^(h
zKz*}g?Mz5UzlUh8C=bmhTQ_gRgLR|Vx~SQ-ZZOw;5#|-87CvG1Xhh1_GqBwX^h>1|
zJP6HigB+`+U!|-(vJR0u<}t_)dzra)Vi3&|^OmP;b<s9)1-8>*tu+p2_|t4|gSmN=
zmp~uF87NV1<Y=IHS}FWVa#%_73RBB_#Jny8(9#TJh+*<Ov<dw^x{dRegq)#`R)ut3
zM;b_Vo7TnO?s;;l^>*j2&K3W?%I<g0L&6_dy(RPKGo@`pX&cGrvSrgF_<Pd+-Px)p
z*js|SK^Zu5#xnPs!R)oKab}xru`P<hZm}0KC<`F%v($Y$2J>a)JWsC$;PxnmkyA&F
zzl3BYDr+-!u2@zLtLIj&Li2$&4)1q|*6C-hmOI?5dk8k7{XtR5nhC$?2dp{lS~e{0
zhb7H5up>z+tF(IQ=~R7ps=8Y!=~+E5lpI*2OgMPht2Z3*NpPB~-UO!=zQ7~;%#s!r
z2u`C!a6(%O7R|u(lOQqpfOxaYZ?FQC7pIHZRL-DtkR)SmuyVFJ1-&_>+>lWvOJ`1K
zIlBtdIV1Q8NW>HI67&bmcOhL7lVvRi$a9Oec~B&0mt7`vCwK|oqs!_;yNd1Gi|{bQ
zP>srYwDz8|qi{7zv(6rnjT%rLH}G<ejE;hUo=v_~iSyW2Z2K@gU5P?OmvXRST0h`I
z5S=WMj94L@Dm@|XLu?cJ&HyYJY}zdvUGFT+&`S$$2Z{s?g#p(Sw@zfLpAf2_NLL>Q
z_`46|B%M!YI!_Cor|)?H5CJ8qd9W2ncKSt&yyqA)m9A?<J8*}5bu*-n2{O@=Vq@Hg
zDv4pc6?7a??FTWl8`R%|=doB7*szbgX&KUwz&7kF5L}tD<V0+emW0Y))xxF9H7I`=
z*Pujx7Cd3L%#&u4Z-A9pg`Cm0F=T-P3{<+eE@v8JGOUOB4g;<sWf(q=OUMQNmtQgB
z0u`9t3LEKGFbB<az}|wzWzLOQ{H!)(ZcO7UTv@wgbb=~)^4M}Vl;|&r#%t21tY=*E
z(mrHQqDt{4Z6i9UvCC_osl&)Kd5+7a3ghxOX<%2nhD5cJcg_yINSvgJB}X>?-nJ{F
za}IN=!{3bMDoh{Z#z4kC#H(X8j%bAnCK>ln;6oKgvPUm^l#rmr3t)(j_MdcXISPwm
z`bqj6hy$8=^x+PsQDWp@LfiS@AZL)Am&qZx4TA}W$%#p6%Q6bO8@0m{^dvO-!Xcgy
zU6*)-|CSoX@FhF;GMWn4yu4_JIdf`RT@bgf(d%>|R?meJ=@k#sw^Ddofub>tk906z
zzE~WDv}klwdc|IeR%_`}OLT2I!m!SZUb#9P(xd@|ZX(;!L5zmP(RZNgfco5!js=%d
z;HJZzCWv{YjmI$aaUw5%iECIlS6s1JwNSP6(lVbeYMnI$b5+#bw%xL2%6AFnyVB)*
zW?hhYtqiRD?A3Nis#XT(O&cc8Te;Nq?cz5p?^NFNv_n~>>ibo9&wjt|ox|^SKeyrH
zT%Mc#bNyLwX|||%{`B&(H&5O<xvIZ&Mkv{p^6t)-)@1|rAHl$hn_A$1=&`u`P(rQ@
ztob-w#TxLT{b4!htj^YT;coLdu52H8${25M-||!UJTS6YLyFy*ik$*<wJUlu6$gZh
z19!KlD|%<2WmcFD3l)d&j-@M3%szYHSNCn>s(mGSFL3DH#(TaqDd(B@OUfT|`cizQ
z!T->J-&q^9|GlMiR|QW?)(5%XDzYQsug4v!w-xt)L}-|7_FsM2jixa|=?{7XeKq*7
z4VDXAx^b~=)5-xbmSFG@!CB=|X;LC9@}<fiFG-f8K0j@`oXL*dxdX<iN&N?3V!^&K
z@I>bF1WZH=lbMKw747>8ikXB{z!G8j3LP7!57WeDzR~pV$0K+N%N6FDpjAkWcw9As
z@mg}fqBB#mSE$&#dNp0~<mR^xlYz$HAQO5JrjG?j>GL<Di|!_KBb`rq)0SZvjyN!1
zaDBnOC<(J5xbV?pEQM`=g?a`H=~}5U3*H}#_aIUCIGTUPoWoXRj0$I0d6kgSs-%TL
z_!r$ciBK;J9tBg(Sd&(*>zSOT))`yUcEd2jebF^OoYNmq+7e!+NUiTos93iaVm%tz
zNU2{74=HiLn=omWv;+4$WZWMB?sw#HQ`nfpJ9*af914z7e`P!cEWFJ~xW@5CSJ;%p
zPB0?insozjo8NHGI1_bB&%$)>c0!a&9@i0Y%w%lk0Jefq5uK2yZHJP*FZ7)_lRUz9
z1rsvDXE3n10DP})V#CqmBE-G^44kj&7r8myW79;<=;n+g;7>9+D}7EELu*+j^>fCY
z_@_dAx}~peFr0*XL19uqL=QeyfLnP92~oI-zlKIjruK4%gXJ?laSh_i7h`0zy0X-d
z=*~++ScOPIpc6$)qKXcX5b0FD^8~J3Sot2#^k+WJ_LdRW6#Fn#Jf}(Vn1a7X5MUP?
z0z8zh>cX+A>cH%&Y;`LPV68-js)Mtq-uG?K`1T6Ey;(0%K?mSK2{a}QE=e*)A{`8*
zTZ0d1(KjB<5)n_=@M>RVDnTL;h|R)}&=}gNWmll@aZ$9u3zIka@&tv^F_+N^JP{JP
z%LlN`C#PTrXDT*%onN4+UUC@wt_D7s*I~zkDXM~CCx3<2qtX&MV$c*Zn#06uW=oKn
zKqeT*DkjjZuzsY;3yx3nr>VFb<h)MKXW_(2j6tOc$aC~4BMU?ygVLKPWV+|qpTz4l
zKQ2`DE6@o}uC!~uk3JTWDd~h3zfkf_s{1(HSsUs3v+y>dq%B?2fe>$nB=4Q}HqDye
zFRNJ^U8%Y2NSF12-BVG!^qNr7HtT*+){rS{7s}exj1A=9w)okF&n~~7_U{FM$l-_N
zRki`9&H_Npu$>%z``GtRy>;rI?*PQQi)u37fZz?Jz1uS0X2IKh&)fQ-6n05CS2axW
z)OD_#42|x;t?iia-$3e;`QCf}T|a#KuK5QiA=vd(Z*R7?;~^zUIRk5Ui_QJRhQH_V
z1HA}WZMGsnmYl2iZCH$;PgEwuuRg3n4u<>x^vR|^gR#X|$ZMd}BL5khqJK<2+GV17
z;v$LG@O08)BqUFC8^gOi!3v&02v2&5>}yv%Y54KKLlGn7BRV19j`}%@A?FB9kAPUZ
z-!$t@XLPA;d)GPgtXZ4o3r_sf1!u*QZ)td`N+^Pa5(P0^lPY(@MnQJQomehgIw_Pi
zuQ@2l$=S<3a*^-6&WZwkb!#U4qQLs*6~oGlD-I#Bd(A>Ykfkb`_od3(Qblcot$p1_
zfh92E_5earvfZ~$naIwYl`HR148Ylo=i3Ea-Nz0@NL&!=BLE>C#YLyYgp%m2A@o^&
z6oH2IHKfZInxf0r5r|!U6GF{l;|OlvzOEm{<tvnqVG;oMa`@^}*v9VW7;8hpT!U5^
zj(2`t7j}Um;)da5BU4)Tyx|6u#2axSA4FqWK4Z8DtPWSW7$Me(JK`A&sO?fcVV}%E
zF@{TsF@lsHErD7sElyyyQsgO->n#Nvz6|eWOu;%3_HR*R`4-_75x>-Od?!@9t*l>i
zZJH?}e%5m*zDH^rEXOxUHB+%ZYK?_5ZZ+sd1-@KbiBU6amm!TB?G2Px6=C|K=zkq@
zRx{>O4UlKO=*@>~^!>{7_{bkj&I0_6iRR1l?-l9SHUgt9lGidd$vilhG6U5ty_3bu
zG5qJSqWJ%a1~3lQz$P-Dhzj~!Cq}^5R}u;l!|Sf=bA)@2K>KYSeHw|*V$%(Wk`j&v
z!#{aMrAm}gaQ%}<rUPf_o1H8jeXWxry})QZpkCRbJ9eD6@dZTsb|*fON%!r?c%H63
zfxw{Ur}k<yY40P{$8hGQ3Hn%L5Ej#?8w&@Q@plVS{V~BIB3Ev3keAIkY6VB_($#y8
z9a-Q0_ub{GiYL<ULn-SaX;*(931O@5HT;MU_RU4fNRuQ|h=E`aip+7S{sEx{B8AX|
zF0>1-$#vJ@{4q5Ng2e?7-Sa@)k3cqia-xHv!WAf^MB+DTOcW`v;0UQ2JvevC6emhk
zIZ`>jb?wr$w9}E2utLG3rJ#V6Dz_$=yr6}uYR4wyj6_ASCsD8Xz~|Adc~gH?LH)3q
zahBwh7y6tV6`Y%L#v*Zs+NRWy`_+Pk$fX*vkt{g5q@5x0X?P%ooWP}ghe6wy$*+P$
zR)r;bd`dcBIMWi25Tl0|z0Y5bjQ8|U@K1-P;-ToN(_s1DMp|~5&s&e8D})a^;V>{n
zpPY>Y-w&YaOokI*1|?`CAA$LQrq=W?Da8Xg3MDSLT1nYP@pmXW2@dgemLOKwHRa16
z{Ff=jt9-Q)mZg}~0{=})-Ab9i1)o?K3tf&t_ZAAdU_an%I`T(V<<H&5m3trR7Ta5S
zh9h1=DY?5InVED3fz$bND5t4^s%Yq+(k}l6(tudcw-;4ZohfP&idr&7yM&@$vu03E
z8Go1H@1i?CW=jg%d$oJA&f<)7hv1~IV}KpAY+muCefvRR)k1I#y0~Bg1onaNlJRv4
zzRrvfw<i0UZuNGdWP7Hh2lpjRk$RU<y-O(~)qEiBI|y0R04t*!607As+42UaliMtm
zHA@xQ(!QQ-RY$6_69#q5k@U+>@SJM!B{TU;Yfu-+ILRU)DI2<eYHgRf>N58R1E@Z<
z${qMy-+;3<*bnD;<|MS4UxHi|M7?rppv`wf2Q#5E+#t?!PE=GqjqiE9`6(^_xfZWm
zOAiq6%K)fAP#4dPK7Xeti5o7*0OOhmaxA3t#HE$=`-Vq(`oso$3Sq7=t+{TL1mza!
ze@jOwChlySO5hX0qJhVE`tapR*r%7j6wBncunXA<>TSxeGOFS<=m9*^>84J)TY(5z
zm^jEdrvjx*@PUzs(>otQTAz^P7qqmePzjDXX0E(;ae85Txf7Nm{rj+p{WY83A4mri
zpZ|SF>3sCtefJzK_p1W8_utx2)`2or9YR${rs^P0uXJRs4y>8D>L=DYL$!PM6!E#X
zlljn!rb3REeDlwG(7DNAAuTsXY5X3VNlQ-FpT@$Hu0NPbJdGtr%z9<wm~PkBcGGbI
zy(#6^meb|hwXW0@T8G&@*Fdm2OXol@)T@H$yYl-ZEF)EC5#Kn@p{pF4`2?2Hj1z1p
z^}<C<$1v%HJ$JedE_m{`gfp)M4WtZv?VnJ>n0ghHt0ZT2Ov{EDS%Ft(CF#`6uPO;&
z#@d*1fpO>}f>}%NFl>f4p1h4`+<CnT<l3Y7l5W)Zm>E*a*~CzTJ$QA?GA<hb|DZfc
zTaWI8V2zAnJ%-2rhNAA1^9?v)+e|P(u|Ofc<S?$v1u2eQ14-iC{~yJPEEqOD00MZ9
zV1)&a!hZQ71*k0%9SZsdLriokFW~mXMXyX%sGkpK*5oCTa4#u^OYw|p6K9B8;=>RN
zMl6;h6>&e(T^38pRW5N9(ZTqmj2Z=$mCy-<<P<l-uO<!n^=Pt>324y~nW@s1H!L54
zj0AzJZL;q{V{@i)uh6)6HTlkkbmLjUT0iTUzmTonmZ|L#YI|0nc*mKpJuO(PQdStb
z&sMc%syc<L&Xw2h9uc~p&2&8{bUl}@dLFUao~JTB&j|Q$?V7cxN*b3(adxlTk*Vwu
zDm(5~c7fXxu>Wmk*Ss0r7MFKkchA@LL&IwS4;*RVp`SVrXDhn^2k{+c4(Y(o2{heK
z-hu>qAnR+$_{cyT;9<Z{-(<FPwGE^*m33C9n)YOx4hc<%HVpb&``_7pb1n0|Uus{x
zvTy~$=c)2$$eowlA2<UUXRF|BU4e1@j)yj5Ek2`N3El<dEV`c-0)3gl2_bOe-EHrV
zrUNfQ!2W$0vW1X$s%mGdr$5tkTIe~Q?m3h8JeRUQ_p1*Z&<;i${bWzmF{^PC0~n(%
zfns9w02FK93Mj&;I!32GB9vK7=d36c>8C;?5$PlI(+!Wz_@jyZzyXQ`rX+x$vQ{xd
zWm6OB_(D5(os6_>ec=%%-CZ5K+#sD6T+Y)M-L*t2U}%84jfe57C1$Fg{{aH|AHz{@
zj2O<Qy|?*T>6IAU%s3%Cuuj)M(%Hf!mDE+@3xh3Oc94`94+`|Z@9v9mW*rY4WhqB(
z)>k@vf_;dkS@1NkROQ*q<3nhNXoGQ@QR!3iC0Z1+=#tn;k^!6eCg}(|H?m<Q@*Fd5
z_#EgpoDel<TyxlzyK-Ibt{lR!IQjk?8Z^B`#GBX|LLt?u)%>56^RLOFgggyvj#QUO
zAnE&#<&TV`tZGtE!?%wOA8u5gfs~^Sbja*!S#KlbsfTt0eeRe32eOqr=!$b&?ut{Q
zeqGA9guoe(#5YkSM2*nj`hIC}evLuNttIJO6!JK@hakU#FXjee6%qo<7#>Ck{v~yu
zaFz@(`M*NIbloEz-<*3F^`FonAS14HOGsHI<7pK<tt*Gqo&zcC0jY<UtC7)>ONlM|
zc98Xr__NZJR85pIi>TE9f+r`Wp@0BA--0xv6NWa!LAf?%zx*{yhFl+Fpj1Sq1(Z(y
z@6^eBX<6wYmS4yL>LT4a;4D_OZFzUPs2L|OPie-pP4H}6-k0{YrL1kNn^<%MEwu%F
zYGA4e5AbvGx^$B(pH0QG$<PoXFf2=a^*0Xv@X1MtjfxKT9c+BG_0mK*PiXm{qNO}h
zXOdRqO?qu2he3xu6hSCl`Z6d13rXkEj1HlA{wEZ&of7;R`Rd8X^m=HTc_Uu&-M&bI
zrvcICh5r+ZA?HoPhQu=`UbvI1sZSXzJ~SIkiHGef$4bYSu`BEkUG`dY%2>Hp&Y6qW
z^hVR+m0fEbepaQQySv^g`O(1-DP-NCBtZ#J>H2gZa&;#A^7I=0+}-sN{j5EuD>m6-
z6Kc(X-v_q3<wn7_ecgnYwdPvW^STG6ZEGg-;8<bz$Qr@tQl5Zdt6#UUh@(24sT$G|
z&)j+D%`<n-kl1$hn%QL9yHZB_$9q$|pCRSry|6!e=%_B+(fyFb1Rp@T>(Bx$vy<?k
z8MfZpn=E8l*R$Fu)b3X#3(IR3lMBh^u;6c9qrB*kuVT$bKDTVZJyi~#ecQT+!WxaH
zgAe@GlxNKZKWjQ!d0#RLw(4~Y1v&Mm_T^_*URd3A*YsoOkDRGp_#n$Mp|KyD@uv27
zcfA|`%l#jdm#siHK`o|HQpovWnI`%7;hg6iFkLM#^Q|<8Jv7;n42sfqCu#L`hAs}V
zZ%eavAW6#;PzI@ZotC7e7(}NGo_K6LM7Qu68Y(J64x=2c>~q|m<Kxn@D`l^YZ0j7J
z8fW!{qM|+Lm(1n*lx%saq;C^B*|&)RX0dzXk~9!wVRp(aBiagL88J2Gkj@<5V<M-b
zmqkLQ5TCri2!I#n=|Cekv0#P_pr;ZUnnDvgC4IwAaDPUxFjXh%lc)8MNgEv<k3iyy
zjz;YBYLX)Hj>qI+-<%ztmdYm`JJBPhCKJPG5Y&=ObG^!Sr&Ge6k_@e%>Z4PUSXz*|
zQ<8&ZH(W$CiItBeP_><SIwA4Z<Pd0+?!nkKc!fr$;ZbyUgbyI4=wk6IE1{mk+E`fr
zgasMzL7tg-XWk7rGo>q*vm8<)S@bMEbSV-G@eS0RMk>|L2nlfH@JVV0xky%%ZzgAz
z)*ZoniAmQ+K6Z*>aIl?T+b9VkP3er2rq`$Gm846gFRRRw?=5nEM9u?p7@v^A)lSNB
zl$>*L#A4NYynK#;Ff9X#?UdvI<s~{mv>uWG`Vs!WA_D)pco{b1nn9=2eYlg;ozne+
zEB^Of+0VJ&G}rrct|!g)un_0ZxYD0-^*`ed{fuk+kKDGOal3xT_2Ttoy-}xs$iex@
z&gqWpe#Uj>f<8vjDc#3<Gh#V%+??+4&$y1CamRkn9r-)%l)#<(IX5711NeaI(w=1>
z)KklEJqg=+D=)1Mz4eMvdhmv2wj#{|_?UIY^H(9_tt(#Mv*KGBS}DKt<T||qAQqQq
zOZ?fo0Q6n6HMI|2UY$8xiEp{!_kqI=;HV>EHcv66ui?WdscHZd;d653RRDnSxgk3a
zu%|O`Y;V#P&0ky`T^QZq;N5smXVLZR=8G3A7AiJ4@^6&XB8eOT@5WQQClSDtg!%>t
z??#`#4FNri2Nn)&aPV$i(Dmr{Dy71^F{X>^bpEA_w?}WG9`bMereS9;1m2BHI-Bm$
z(uEBUKO5y<U0Ev7v%%qaV|%sEo@zXpdg8p$_`(K<w~ZsiI-NahtV&hy5sZ5`4D`Bo
z*1+kTQ@WCjZik@Tku`41+O}njI>Bt!>o@FY^tyJb)v0Z}SI5>l3Rrg_?jeg~>*oIl
D&-AAW

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mimo.cpython-312.pyc b/model_executor/models/__pycache__/mimo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1a1fd15c9117dc1319f5d911f67d3247c4edc7ae
GIT binary patch
literal 6408
zcma)AYit|Gou6IqF1dV&WGIPxP!#=;97@q6k*hcd+lg!0l^@b2O_R&9b+<HkC9Sl4
zcy{GPx@FHTTtI0IME=m)1_DI)08T{=oIV}g4@L8_z5AlId?mAI<8)|>BHx%wZGpo9
z?SE#ulq}G9H^9#R=k=fe%={m}nSTp~{0Nf9eW3nh0-;}%f}6Z`VrP^==nj%m2FZ-f
zYD}KZuneI+nkUa?I7)LGpW&g7(}cV?<E3@H=F5v2k<x<Z&j&IAN_(|nK9mVj+NZVT
z!<jIpMJ<w#W}=k#YtQ9lnHZ%5T5G;7)0S_~w9|4>i|0Es9r?~oCoPAxu6%c<8|W4}
ztR?b2nVx(ylg#&KdKttbC9I@Afi;knIRs@9<cz?_$kC6u`_H*;EczOfV>gl9s&szh
zar%Ga{7~jFZEb_rcBMn{&Y!P0?E8JfIfcy8B`zIbK7FAuqhO_wQ-+EKZ7DUSP8C!6
zqO54CTrpqD8tPR|NxiEYbE(P2*;%zPdp?_k3PqirGxXsv2(vU}`z{y?&O%q91y$G7
zoH7k$o4!~o6|o^1MVy<H2uGFn@xQHU`Lo5sj5-V5g0qStl}geqE-sd!98e3YA!)_g
zSp`Eee7QKQ8v5(Fm{WAUNUB<1&*H46Dca?!NhK?%S-VYEX0nT#AvvPK=&Y<@yEC6%
zx~fQ6$!AN_!gWc{Wi>@AWb+D)iM;WyQh4cn5ueR2>RI4r`)SP-SwGAYyHJ2-<rP`Y
z8p=160?e&{LCz@c0SR88Qgt0R<Z^ZiCW@;%Swh~alS&|8UV+he(2<~ol^ONDFa886
z&Do+_C@mV2D(kjbD(b4C77M!Fs_vUlGMowR5bdi=O8%-M>mXJ{UV;UvIVp>0C0Whu
zIp;{7JXkO6{3{T5kb*J{SOqI05y^g;RXp>){oNf}_B^AWQ@~!9!OCR*89kg<p?Ryq
zld&^?*?W`E2(nM{Dn3PQ-gk!W1YyW03yNP62{psX;!Q3SSYpxvTO`U!&t@98K_hM_
zS)61Ykl6xOj740?@lbG+00gm;oeAn6jJky(<l4+U>vrAy<4%+Np2y_Md?9M0`ThLr
zolM5H$1*RYvQTI-JvZ2k==+T6kr^U+nForls4N(+mqNg;$?iif^>BL<5DIGDv)tF<
z+WZ8%5{6m4EHb?&Yx1VxwtNd#ROZXVttf|@thZ$!vpT7_7*V&DaFRVAvF`fbM5JaJ
znqfu!n<&jq+o3sCmX(5}8(<f@?Zb+$%8OYo&Eh0<#J!NEMNC!=+N(=5D%K4NXA28<
zm};@qP=8F^ku7M%hIBgs9Kl=Ak}WC)xlRUwiI%PNz_4zV_Su}SXfw?eVNVE~cNmjB
zPu0_ZpC2*urIC_a8iL8d^9;SW`0^_!7G73HH1+C8X~~!?7Dldve;T2FP*UDga*N==
zoT5IGSM$Z;(vt0+DdKmtSYD1c^m4dfbsFZ=e+JnNwA+G$9Uq*o1dcrn9IJ*Co8jlH
zsiE7U?bOjq>bR9UzVX*vsaID+)p+;&liRUlo3XLY;27l9#OOw^l{m99RgDj>U$o*c
zuS`B}>%Kej@uhp0)>|v-SFH3a503x*^iNO!s_o*+xzG9stC7xXq^BC`*zt15TCCua
zm8p9tY97>niP;UJNaBO<R>A`h!vl|F{nf)G58kmN=XX48YfBBWp_ZC}I{VjsR>$Z{
zh{)+n?7#w$?XCOz+<rqLM@!A>4^Vpt%|f94d#23psT(M7Jvb32Zj#yi9#^s4f7xR+
z49qpkGG{UqXqCBg0U=kNWzOWUBh1_i%AkmpBF0G!{6PBNT=V*Q@jyo?n!GE=draAj
zFPR?GOU>731l-=HPZo@ZDY|A>7ENKEsN#X-u0i%LJP)?OnnHmClXAEUV6LL+17of4
zCWB0FzF~ZOtW2*f7lUs7z+}PPzXf{%ds_CF1LdF@fIVQyZkYUhY;T-PLA&3bgBb2S
zahL~^>~rV9(8Kgle#Z^sP-%iX<nn--&cNRA&fb{5dE#*oq_XI)&J4P{#2^M0zQMsh
z|Gy>pAEVo4Or&xpAgj2+uEL6+At7n&+LQ7BK0jAlcZO%4MMFmz(8*huVKp2$LUB6H
z0}$|C16WbQ#d%w}=KPs!X%8NPHQ2&Jy=I|NQ}4@MhoQk)@SoCR$>}8065)i2a=?h=
zgon4@jw4VyPr^Tdnc{Utk{3&Wvw(x`&l@GjQ|ikxTm-kaM9{*pTDUIFVC9+}dI}U#
z_RIY6RW+-pTWn5NbA}xum`L8kExPT|6~hi*Tg(;=KyC!8*<k|Ia@pLR;s7bz3l&+z
zz?c||?Ex@id$O`@d$Cf|04Ul%aN;_FkN7$0fnOmRF{N|}_Y-;$GP@nzer~~?U6%l>
zl>k`T0g9q@z&Idah$6bWgu2ZUc^j3^`fUFmyt8>an9gYXDNSLY9jNaG9q-fUz=IPU
z76L)s5JCSKtQXlqGHV@E>dWnWo_>ElSSHdR0JOM)e#Z)j{hPidxczwd-Q$(+QLB6O
z)4t8_(XH;ut@aBmfyamY{-JLr^!Uht73^J^SRJZ{yYCuS_z3vzYWV0nXN6y&WULZS
zS>e<s6qAQ5$q_3#Qc1pQC13rN+e)6>jGSBbLq^>8(Y1?K$H*%GICX5DU;o=juf4UE
zdV4jr-S<+ZZ`|q|-|9Q@;LO9mQ@5u+J+=A9*R8W}LQse%zZ4+5tE^pl6d8lKQHdO~
zB8S!n9z}*={{Q&OB`fmcs{ih#^^R&Rxh7k&fof|4!qgq}wz+m`qiZXEa+TYT#qXTD
zeQGWKD3)HA9}HT<=b+c)*ueVnjn+r8aWbUi$l8R}kzVDislG~T%u0=|hCYk*keN3o
zA4N`m7HO+>qVda2Es0t?ny~vkKDyDm@i$xXv#VS+7GFL2+5Rb@us6klEvQdJ78vZT
z1beJt&t3Uf!6UW5V$jjS+B*!2^gyJ;18{<Ac6vG;w0#oQ6G^iDk^~4~5$+3;9h4-n
z1dS*Slz4idu?6Q&KmiF(0}D)I9<+jGDqufg7bi*WG-N+PbP}pnm^e6^eFX^phmhSw
zwJvn>HKscB;+KI0-?JU-xO4LM$r=wd9C2$WEqO`Fhk9Syn6Q#3Y9cB6QAZCw64{Cm
z)X3Oc5c$I&Cf-kMb_`nL;7*9togC+T)+X2A+8BGl|2+89;O5wbHFVB8dcKCB<ribW
z(0_SimynK_M8X_=jpWAYo$o-^-n9a*r|d^?$yPivr*Ht*`I`b<u?0n#Zvr%B?=$Ls
z^qSy+eczHV?YG0k)b?M^$Td@NZc%oCz_Yqj!Wj@K=i++eIZ2o&2eI=S1t$iOPHKkr
zo1%N<21W=8Of!hl48@l{(6<SW2QcF?k<<VxCI=;VJCV_V5GJz^g|jl_hNb(gOToAX
zgfSWc-31);<T`X9;cuFrW}zA<03s2Od?3wt9jJgJ%-T50!dDFf?r8$fsXDpu2epUy
z73-wQJ+-z*P`}T)?-5VU5;po=9`5S)w;RXY*5)#}rw3zN8$Fw^ml*zm1fv>zyM)sG
zw9V6t0NifA30<ka*<R4UIr{Q|Pq~%pcAG5}Y+;Hz4dO`XI|eupI^GSU;@pg@x@4#=
zIKkC%3IxjGD<mTj8<TCYV}`0o?-n6W(aVzzp;5Pk&PB>7F2FMZ{x<1MbkFu*FXpmW
zC0$)s?0|bug90WX6BG5ZBk-~U?<oXzI1egzZ$7)A0QZuy1TycvdAM&7Y2Jy}jrC)h
za3kXDM3eUdCeA`}x#NKG4!c|NV>04DA-jPd`}`k@?~4^*m*wlad;F0vRgESp(X<s!
zSE6H9bZkYa#t&EGBUXH5CAi(5SmAC3wiC~<aF2YQpSLB!=ik5lp#9VM)(aPQJ#4!l
z+Wot}`faQKVW7VnZmWdT55wtd?~#v}?=4q)$F1J+RqjW@&wGcetzDJYKC88l68%<d
zfA!GN<L+bY!iKoj{TI6;pL&jTg+QJd*y<i!nYeZN^VG<OP#HaAjh@*`eU%78d~+!J
z;l=kaR)XVJa2(>Q82WeL3yu?|mtlCZMAJ`Qo;awX{)u>|JLH}Z|AVR7^=aR$0|TQP
zK4fof^NSCRBYqK5nKfB}uFQ0rqgn<qs)+Mgg(j*)06HlwBa*|doa%{AWQ7xU08tBh
z#9IW|>NGAV4<7Z??f(K}^%o(#fgo^o_I&KW=l?i-FT5Vw>KKQMX0)vm?YE-+YsNpB
ze`ju7*@~Wpa}T$zgq)Zx;=hE!_;r%KK{Db-@mnM#nufnlvNuUqAlcg_BR1{C*>?y<
zvLC^x6Lr0bs%Osr4kda2+H#Hj9*pgfU+pzU;M=$32@*<cJkW5mP87Y%Sz=<>3snwh
z!Y|!tdnHLO<^T+Yb47TG%+V*j;q29%0|G=9%*ZGfHJv_jP(f`U#SO!S0+xV@-A%&S
zu=6SkFRjJGu&m^YI19aWOitGcbkKvKZ@P3lLdVD|fD831oP+E<v(Sh*3}*sQrkFf;
z*n_mA<9XaCjA7?Fg!FsL0XTkP?0*^IcohPp$*b$0BXXS1P_vQF)XqEXa2<3n8Y*l^
z0OX^$06X=}f%@<@@;HkLF2^MP*df|iSFSCR=V}VNY~Eo=eH*=CQ2$9(hH5X_42reB
zL%2|Fcv?ej-$@V?Al_;GUFbqkg#IC9H4nouUydW@9P=A=^a)D*8U>%Aw%?#rPtf5f
zDE$N-d4j(71Wo^u^)T!oeTccpJV8UhMUxhq{4cR}^_?v-c|!n%&BnLe+N*8xYU)t6
zv+GNdZx?nwUY6aByu~m*tNtBC{yR~qs?n<55_^nk-)!$+Xa8CJiTHa2C8~IT2DAkD
As{jB1

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mimo_mtp.cpython-312.pyc b/model_executor/models/__pycache__/mimo_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5cd932acdfbe9d6767dd49759876b8e07a741804
GIT binary patch
literal 11829
zcmcIqZ){uFb-$0~<9~{zNJ*4LNt7kqq9swbWIJ|Zr*^D3acp^RtYoX2jHUUWB-;EV
zzxQOz4AmHghsszA+bcTDON%fqwkUIedf11l!+;w5lwlvH7r7wwY6Aw^V#qf-QqXQ+
zwsY?LLrSHbcE}#c`|dsW-1F|=bARXD`|lo)lfaX<{AFriKOw)ug#NHvWNjBi$Zf)r
z3Boa)Da~X|6D9`Z=CpajOy8CaJHb+#C2h^vCTuj$rtKNWgd^jeaAsT+E=see-5Jk>
zhsJH`hKzT@OXK#mFXNx^)3_tum<db-GQo);O*_*~ndXUR8h52zGNFkOjl0vWnYM{G
zh<mt(bbBT|5oU;qyhJ$fHNyFL_WZMYW2*1FW;H(1Njd$%+4v=#U6eBboWU>Qj9f8C
zoAR9}vXi{PXOsM3E}Om*8B2}j2FJ$FL^3&!PscvP3Pc&jenR4f#JMzo8WO%U0xt=P
zRF>zC<+78hsi;|T9ZMvqc{QoH#;~xKaK4^SXEZ)WvAsHW_H<6jfEe$o+*C>u&j`6B
zFN!$<NR3~gO=P81J|U%YS*?soX*iP*66rLbJ~j3-pWu|{*K^6lIi2`o<{Zy)sq7S#
zZ{qmL#B5rMU*=O&(^5R0OK?02_J92{pB*0MlTb0?RN@LH22Nz5RT-X3B_w{F&q5u<
z&tL*!gWZ|Lm2-T2M&Kt?b4hg=)X<|P*8UkH--X%6lL-c9oXJ5PglphTyqPoe7S6)6
z9LrldCT}Bzv+_1A2JcDt0-0nu`!&ym9m;q)2k$r^to?`@=bT&6U0cxIyo<Bd&zp2|
zo@?v`e0h$U@SG)4pAyEw9)s>mjpr`#Sr}C=m6UR7|D0B=NjkWSRqX`m5**dIMs+7~
zz>U;J95_8?h50cnWRupKCSe?>^V(lS5C4F<O(Y}py0t*Q2TS;_Mq!AgFKAL=&euxO
zIDl$5iW`xSn7bx5Q6O<c!dD>6sDb3wKX%@y$Exr8b>&QXsLK|4=8r7;B8NIVbXii9
z9xE^fOMxwzK4R}$R2uNP^xUtYZEjuG6%w`L>NfK;;%C^8$01=kmr96Hi-40;Xu%+a
z0ah>SQCM+yh8GljJf6y?q<CDwK~Y@ODURc_aWR$W6}ONP<5^hnaS*F`C7fvSG%i3S
zDn5<3N-<@#iuDxemV}@<Q`wnW2^L}QywHH69T{mRelDF$UQoP~sca%$6&1B97LiX+
zs#V1b3e6Z8l~x?_cru+3#dutV6-grWx%%I)3`v=pp_$aopp+1%cxiBM_L+kRE<D2z
zrBmmIX0Axnx$Mv-&|yRB{O9NR<SeWbH7O2dQkh&F>J^*0B6NY={Pw3UtC-$bgTN~O
zEd;;2O4fbE(Qw@++d~iRZNKi?QM^>zc~IVYaQRZ{Yp=>*d-Xxr*#*l3d-!2w=aRM5
z_pIFa?0swL$XWTw*$0tv%<6d97Je^!Ct7wlmfW4PyR+z*-P?-COTGK$-u=t3t(#5l
z&IQXm-gPT!>n{gd%dOk-7ie8~ux*&ru<j<2oprzb3wwACDoPX&9S<?iqskQ($4pL4
zp{5p<X3!CrQn^_%t`EKhIu!<7oZ*vkQQ~J{ig5f~(pZ)t&rk_=x@#AhtEN}TcNmU=
zNpIqq3w?wf0=5D<k4kydQ(*3D)OiLtw4Jh+sbDrZ%)n9mWsOb3c|f0f>ZD*UFjFSZ
z^pROtD~3E4<Qa=lmjN|36<Cf`m-HL3jON*SYr$Gz^T0Nb<@EidT8tD}T{7rp_OyVj
z@3a4b2bUw4%0$gV3`mM+W9QlhUQBVbiFDK^Y=eBE2ZJ5R$-)FpPAleQLK1c&75b6@
zTNL9s^{7B$2xGf3*o(nF2x`_wL;##c6x(D@xSSBUeD6~yw#GGzGKvsfC6xx^>sayj
zt=Rh@eB2jZ@Z3xl_uR_L_U+|RxD*<YLjy~1u7;jl@RYl^m%8`M-TPOb8C&f>y<+ct
z916eZz2kl8_TM;h{lrSk;L`j`^Wpo$58TJs%%)c7f~R69Jv%>$y&o$#cP-7|mnvq`
zvuBN%dYrPo3%)g1v69yA;$b<o8$RF-l)OE%x2HI^>K$IO4+{fO$*Ae{=?@v&;n4<E
zWZ6W9kH-~fJPxaUHjQz2JPx~CTFntq3oB+(5(J#S0?sM{fhk@4!hX!Ps#roXr?Qf8
z04W|#^(6UpIv$4)?gFZa^Y;ktV<7-h8epYVwQ!A8++<*Pd3gU5PZK-NJoZH@EJmPJ
z{$RyMqju7=t>U0jCq#>*a&uqBMbmE55?$IWHxE^4aTp9|!xvtfb$~>=p8(g$<CgI4
z!mR?z9Raby*4u|}9YWC~(6`+?K5)P9M(HCJCu!?Ixg$^~r}swqdib{>b%gdIt#^Hh
z^ei;779t@i{~>^JfJheJGHIbOh`rV@!2&?Co<|+O=>a%Xmp*9$_+&x&1OTdW%hJyJ
zr8(CYboUl?2L*8+-mztU+*|{|D<{+@z<IZj;sbd0G#PfzzX75Jm6k1*oI+p{;U=fJ
zaBI?l7o{Y1Wr<n@l?_E*uRv-O>H=l75p@AZ(J)5sAk@QO^X7uNuF9;zUBF>ri>f?8
zFNV^U{5l<Y8})eg4b(cISXagya1f#r`kZgmW7YThj%r+wNw`(h2UIdOEcNu4Q0vT5
zRPB1LM#&9J(v%`e)0<xdg>R9%b-4wLuH+@u)AWHY#`G?jrv=Nq<VUdG)a!qs_UioA
zH&9X0Z+bp5-PN|a@0;E^YJpnJ8()R~GI~=&#ZI64J+Idk${>iM&lQlyP>GjG)O<Q`
zk5SMj#$b2ah_s?DLMIeaH6msyj_FC=Ht=U>Gdf661t<YTbt0fIFxU_o##7v!5<<Q#
zKPP3;2t&g}%@mae%)ugRaRFzU;=F`5A;p|R1PN{mQsNYFic~KP*o}%4Y*WzdqaaXW
zg+z9W7Y+km)xcG-=&bnw!g9rzrq(KgQO#Vns=MiNEKTtyb}uM>ZcbJ2xId^EQ`PYl
z98v?jj?HD@!Z)Fm=!P{6xbUIfqocyd{&2}3mHp9@e?<0=ELh7u(NfQIa?f)J|03ni
z-csjbx$`il+J7A$ra-Vmc6S(vaE&#00ML72Z(Vni_Q-pEclt_ggL2#8dLs#UmxG~F
za6k?Y7?CBZH1vWDzu*h&tU27c=68D<p7<bk^Vqr<wxFBGzHfifw!a)~E4OsqoL-zR
zibZ|}By<myx(~|T2Y)}Z?y|NwJ|R|rW2FHEJwcIc<^~O#Mo9PWd)CtKqw?;ftC1HL
zEWfaK{MYAQz(YaFzwSF~8I9N#hiVn1I8kVY&Pt-5(;w7zRNvuP-~LkQcox(s*gV2%
z;Qr90j^{YUMU)xQ@Q+uWNyb<6JGW5Eu}zF`p(NbduM&zrBC<D9Y+d#Cuh{$P&Uv~9
zg&`<YJT-8co2zd>Ujs&HndPb<G?%XHfu=t-z}RBK9;odfjj6_NB=z*W3RiV4fV~V>
zs0p-{VTGP0!s|c=(-8Yk_&Nr39le57ZE0XvZfc_N4WNm}(onmYf~0)cR^6&0%Wq>z
z{2CxjA91&?xFY3nq!b>M!-Gqy)$oCZv9fn;LAvqw^|ya07Wb;lV>u)DoLucXC40xp
z?$)xqsqEecku?YFb5;oJaH<$)FUVDFu#--Mhbd`+l>VSXrBh0R2%S=TPR(0F4*Ecc
z*Ou0)X1Yme!-XBn;LsRbp~eO;=w`!>F>fhYsvW(tkA+u(Im)VY7Hcnj69epC#j5Hm
z5vxu$kP74*lDQ1n(>%Dv(D9bvu~mm}<hub<#AhIYes>dx=Z5#X_lM@i(NcJ?9Nv3x
zUJj40hF<){e!T2&D*1QF{vE~3_dKiq=Rrw%n-)Ae(55I`I0%BG4Z^eV5}v~VO*{cR
zLY+UTB~^9(JjVVE1K3Fkog)GoUBaJZa0G*+5Y)oxV@Sl{4b1ot2!3~sl#d?!oP^n9
zOfg@f@8yv%=(}==VF#9)ej5HTTp<u$-v0A}pAD>G6ed_~xZKhC#N%b1j{_l!i&==*
zpkz!{Q8K2SB-DX;y2!~byDBauxk;$Kf<h2~Q{cSj#ndj++4aO>XPXTO4sj6P7^&DW
zX2)`v4?;D-?Shm#S+Rvl_#2PzmRkEem|_3_fEz$=%U1}w9h?rY>q31kw}E$V3BDV^
zi_T8CpkARZq5V_Jt6!M3az2FLoS*mb4ZNj3h@Uj!>cv0Q#>-nU2F6Gu7$ZI|0DfN^
z8a7-I(tfT9>a5eOTr<!bssA+qc7Cg3qw8<{j4%o^gcmU|z{Ca=k8U+H{MX?8U^9vb
z*T(-9#RIxCRF!17GYX7kxG2yKqa$0umfB7N<qXADgW*X%i=Zy9ug@8T7H)br)WmSZ
zR2?i(6QkbXzhqA<EOpXFP1T-M^&<9e)V&Fp3NHgybr|B363`wI&S60H%oxTZ7@%r}
zt&Vz6j3H7{9`+#U*sC=d&!>&6f$81_9`OPM8!=tExx3UHlbd6u<^yu`0dT^(9ySe>
zLp>jzT5i7IvN~`A+;+|AoO6QPF0`ZU_T4yn{bb3#4Sah>qDOZ3JPdRdtxJy8!0@`w
z5`q%nbE}$S96tIKl!VTSt+uqfE;YmHrf*9owZEvE{!?sb4RWH&JFl9s<7YObqYsc9
z0XIcQH}co>C2v&rMwg<i-n}dKy|e)uLc;w`34%MtIIf9H>UoXo%=!l8CyhA?35?Sf
zgCh(rgku<VCyKUL2xqzrG<?2;jzeurRw-(T?nlHr1*>jNp}h-B)~veb^8LEcH$u<M
zzzaT;6Qqb{rvQ<UP`e|N&0Pj`i8D&~z0m=Q0YUY+aTr7Br{W^4Hr=o_?5P4HuRfnN
zAoTaZB_4zTHsnTdu@#w5yxlAIGb=r3Rw49ugLCaY=N%`2otsyRgZDb_dvuSP6+LqH
zFzwqUc98xUDCZ1N{<tZz1>!O32OIiSF{@LB?%s4knQOocj-ZGYg66AB3HkEPdeb*T
zlAj@WHw4fFPT~uyv!_q?_APZRTYm2Tnfrcb)jPgoAEzx<Z0dQSxWQI1<_Mg_LX)S!
z4*xMTZ<34|0S&9|BKRCW`s~rs@w~Z;ru94kZp<ioQwAUcve5<1fou2@5tw&eTfjcU
z1q@DN6O@JKzX4yLx6Rw<9R)j-W}vj2gLw%tu*9>sI5-&snJmmyGtF%;u;-04B(=5}
zLTQ_>yFofz&vnfi->;E(3|B!bNSJpPob|jp^DeM3Tm>gMxE=a%GX&~(%mPmBKlnR8
z&|2l-z)=n@VL6-D-XB+MP(6DqI61pyoWJSct=2_vD?n_^d9=SaJymx*L*7}1ngYm<
zI!;GfILEeMyl{ygI4RbP>YKR;4vrLvP^=d;$_0a>@iLd7sCx>IJmRx6DwBhz=+PCb
zL?|(XGHhDDfc4J@gdDg%uHb=6ES0?!pA`6u)RxM-GwGQaKL^Kak{HXgF+7J;O)XqH
zif7{iw^Om8heYwAlbVaqz<GIw2W2UOr<#|PNG36Z{%knCrCw}_9$2Ytl%m)KekPqr
z@`|0$a^mHbG%bj<x^N(tkiglEkU%jfI1V;Zx(!Ytp&7h3$qV`y#W;Lt22SD?7p;L9
zr<L;1Q+TabqGG`+C^}JXhvK9K)VjE|woyL2I1NV+;1N<-%0jCpqRU6qlk}z9H*Wlp
zcJwdigSzUdrQU~v;xSm^SIOrl>ozBxGr-|nOZ(#9Qu}VXefMhn@M`nOg6rY7?LXPR
z;Q3|GF4^6+FnV*a?Co8$$lignFH{b+lmZ9jz=7r9YT)^W(O>O5Df{-^bS|D;3Ox>V
z0{9Q?DhI=5*pnqW(En+$6|jF(572|V?pc;k%DZ2}?3Q+FDxAF6w%T&&rsZ*<<@VuQ
zhl?!_0?{RIxnGXG2waatJ>b(1MQ^g@$o5iXM2?Ky^nB{;SmcXu-h26h@9?L-rph4M
ze~PILlVGTh1ic#N;I^e+IT*Wl@cyVg^73P-fgu~u71^b?9~^mYHS)S4|AB7=4CRs=
zy-17PFWfzqKVe93f8`8Qvxx|ALyvAyt7zM!+Fbh==w`T!19v0RWFF4ZU=uafQ>d`S
z4UmZzuP{|rsIY)hO>cTQ<7CfJ!l(r6!^%3&U9`pFRF0{87FYL+x?<m=K8BO^U4R<k
z&}DyQfYo^hHWn*vEVhCT)H>8=-VO?xxdevmJMc!Q>RDm|YvK>?pFLk)&GmM1_F5-4
zoTxHXB~p_;-`PiX#~ZP#PxOsgwC@eBAA(p^2t#*LeWoxmK*`%M*@M9j3;=eKd|N#c
zAOMQzsjHP9>c`*^pB4BiehzSaLP}0k%U@xqgxu_miqlV^$T<k24pk4~{8LN<uh?cl
zQNgtW;W|>>IUzMgZwP?5Sg~dK%W;eZsQyF!mZKL7@OF=47iZ5=)gwBfsG(O>7;+g%
z`958je3>Hs0=UH$2(FS}+S|aM5A0pAm3@u3?YHcUEydnd-_8a0Q<v{yd*|ZpdvD!&
zYiZBB-(GExEu1PhZ!3;}@XhzXS=#=B48P_V7G45PgN}zH`+@6y*H1k6w*OQAKlCpr
z{xP<)=ji>N_gg>iUKu*I8W>v`{oKNKfii1fbCcGAg_q0Tmc_lFc)LK!{FST10u3Ar
zf!%ehvgspBvp;?7!?*6vFBjyYldFMK3!~t>TyUv4%1Ql`)bG9lJsN9%8k%lEDKo5j
zOTnzodR(C<b=Gs{c?*C92De_Z4YYy*xuCfA0Jve)m88Y2HEYULFv0w^<==PeqxC9(
zSx8BMyQlexx_?A)r~!w=<_9y0W&nPML?ky!Q~C_iuDThbj&fXtPIWpbBTxuA;LJdb
zq_PpX_?8t>5HCb%M?|V@*gGoG5C$GPbXh7aPw%_1)AVKIr&W~T!tD+APxLw-AJ2Q}
zLemdcgzrMhysKK57#I_D?rZ+lTaZr`u+mZ;82#=WHeXcyzn39=2TE=Bz$&4*p!Q(A
zrT~h_t0xv<ziq|ggV7Tat;3$`wD!O>?1BxiW7~?o^_T6#3n$Cowngp}@3wMp--@pr
zH!K?ok36vxUpH=gFu}`>T}9_&VQJ5b53H5t{Bru^{*|HE!DtCKER4b`@&&aS2qu_n
zgQ<SR;2-BlL^oNDGm%;%xK+V*iP@PnFI>X>zrX-jy>JJEBN!Zopw`d$EhJ*_H}Dtt
zLkH-7Mknh;HzT~z%LuPZh++3tos9dcPR4!UWIS|)DG%;JN2Axnb{LLEh(oLO<9JMg
zKajc>D-KLKN!RebQMvO##f3?5GS>JVJxFRm{~^kRk7#~JKc;%o?`UJ$*BHa`hza-_
z@KZW`N-eNxksV?1lVf(n2-{J7dFi!#Bg-tBS1Ti<^5Bbd@9_$OoR3F77XR(Q8b&MU
znN~J<?`(y@Yx(RNzAF2hfizMf@LEpN*Zt&gF-5fs?Z{}iVvEPQToNu^c#}D}?U|%E
zi(-j$Ndd=5y;@<X_gZ4vta_N|u33$udNqTdhsV@Qit6nQR8G{vtn}hpc}xYu`ZX?n
zvC*}Ri&MSC*8eotO(%f@ZX3$Zr<9<#BeiR-^tOmH@)U0MC==l>UV2q;Tj2#))hk7h
zI|u6(R~x3@d5vixdR9uMMHRhAwk#vYF5>lA^^To~vWfh~S-cf2;F?ibRg53w)-kFK
z)dSOG*tg$;;6tL0Wk0gm4?$HxVLmUQs{)m~n1P^TW*FwlF2Zd84e9+AaX%tWk4W@C
z$sw5>dPEL9A}>86$A4=wGo~->ggL`JBF{e}gTEnN>()VLq&WP+!S@fY6Ns*Vi+PS|
gUOe|+>P~8%Ky<ypoH8-Ng>yGj*Hd2*jMM7;FNg0&V*mgE

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minicpm.cpython-312.pyc b/model_executor/models/__pycache__/minicpm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23fe04c8146e1b1e4d3411396e718872be4c6ea0
GIT binary patch
literal 26755
zcmd6Qd2n1udf$6<pP0dY4T!<b!ASz(C6W>;9-??a)V(_^WenjBz#(S<@XbIZk-<uK
zWG_&wErE7z2$pwCBgc+Fi_St$VqrI_T6rsne8j;cxSrW(sLb*zPLwzmNT9rqE3xzY
z`W<uVf!cNahhLFB-TnH0-Cuv-@B6y(2VSp>!xOiBJ@ywba@>z8pgj)Nvvt+PaW^=D
z3v&W5nBshx$FDhVN|?iDp5iQVOTrqqGQTx$OW4D9<~PM1VF%vZ;*Nwf>|}BFxGUif
zyP4k+_awYwFY`O&WeH!{$Na9iKT#eoPgH~}SlAt}OjL!d64l}AL`}FRQ5&vh@t$~H
zqCQ-oXb3m3us7bA2!sQPrf?Grm&JD^n#0Y^?~4Z$E#a0#Yq&Mh7H&(lhuc}aKi-k(
z40kerdAuvJGrW`eE8?L<cetDRE8{(h-f(ZCFWkq%Rq_7BKzM-ptK+*8yTiMgza~DI
z7zz(De{Fm?u_wF-{yL#PzBjQiyf3joygzXue1OF@#2-o=3?ED!3Li=w4j)cD9DX?Q
zNca(+GjWe`LgQ<k5QsW2zN&qU{O>zv#UDP(QZ^ywjxR|0C`;Lll)*1Zd5ooOLCV%I
zNO?T!V`<xvw*A3r-%%SMKEZNyAV;Thj_CgAf#|+>Y-$frUNeQdW{*BTIUW_GlVj1o
zsmb`Y;JMgj?AZBp!NimhjR(i364Rrp*h}$f@JcLoA$V$LVj?y<adLDF5z*Mhg;cWt
zV=8YX#LJGyQ&DjgY2mlUlJVFW`OHTrui?iuISJQ)UW}&1(b!~EI5sso9-Ba%^Jpp+
zolM21C_!~{W_o%`Ohr;t;@E`<)gMEFCfR*#bnHS@$t1g;i^mgc0T$Ua5luy=ry~>M
z)XcQJgF+}UIVDC|CnD3M;%Gb`jYq`M$xCwk_V2GuiE$y4jLk;npm7N(Cn83L8T8B~
zdryw0#Atlx=%jFNCN8_4j%j{+IX;t&3X$m5>8O}W$}T0Cnwq|ZUfQ2J_w>k=m<U<q
zhI3JIf<_}glbAfOw)89pXjGKTpFHziNtFMo=rjg)G!+%JL{Cj!DNck6d}pU7VyWbL
zacV4@#7H2j;>np&jPfi#=hUP=_zoHkacY|SQ>GVl?o@PCkZYcs8XJ8{i#(BdDJlr~
z`1F;8==kVNJQY#qKqNjjDnzLge-g#1k)x@Un54L|84(i<pC~?>8mC_Ka^>Tbm@A2>
z5JOL%VIM2`F^_o^GRtL8D^nnOVss)N9g;m-`0UhEM={Fk+w<o`R=ND>Ols<RWg?zs
zjgV_&Ntz6aSTc#mvX7sLqB6NFF?uN)i6*8~*CMfk>eb1TjEs+tVb)!f-7H~z^jcI*
z%AUmNwU?riX)!t;yE>*U9mOqE16wjYUjq$~a-iK@*d*{_vy*djLWN+CS_BLJTk+q9
z|MsZ$qNlJB#V?p<?HngKkb?QfJ@ec+FF0TGhV6nY>bO{8kjIU(stn>iQMcfYTE-nh
z*=v@tNAPWv&Tkw)ZV}3n&pXdu<-=u9bD>Jvr4og6QzvHs&rx-0^i8XiHHhe7EHNFA
zCh(Qn^a`dfjHZIg3!|ct3`VhVgUUK^1@VlIiBrjB5KAdY3o_a7V$mn^$-0snaS4u!
zQKg)y@VSh^(Md!G*~+3uuwpJn#YqsZSTacKFNpbu#zg7&3R)AK9!(~DS;q0$B${vy
zH3gLw&C*THq^4(5$-;)JjijcJ$nMFRgubY)Sk944vim|z5TcU`;V3VfT8x%>XrvO!
zh>*HA9hL2=X_j&fUtE8j@X^k*bph@-`5RnHf3;vwbKkIXoJQw)E^WKYCtW<3Lag#=
z@6ud^N?}i$N64awObF@e(`JO!eSqWAmNa)!4{13#ZWf#g(&_C?TVJh8m22;f=A_n+
zIcwUAoQ(US^r>1c7iuz?|A^K2AuS<(1@yphhI6+~@2Gu2EqZyWMlJKjfac5p7PNdv
zK34N>(*lgsMQxpHN%1?2+VMuOIsYmZ)chA)HDCVMxIecoT5sMV5{L)A(pUW7f3J*N
zZrszqxBgTrJ;PiGX+G50uKDx70%p#|?tEDD#rStHAL+r&FD#=|i7j-0nli3&A=}7F
z>^GK|VxviMH}cD#%d|&=>mb(TW2z3@qD_dt3|2<AD(lx<yyw-(R<JDCUK|nZDzQ`~
zBGQBr2dTVrq86#C)M#9z8Dc-Z93W>Gr2q*5pCgykHmq%`tRB`Nk=BiDnZPC~(gKy8
zv>PkinU(EiVvwTUN)scDz?iNiW%HH6q}YsC;sH1zhipkk<Kto<#T2(dsfV@J8HtR=
zK_4TLB&|jwcz9m@>&FLDiRppq*mPfN6ue5R@9NCH1N$%Siw?wNFAYpzOI?_n9C#TV
z*?_`tMXyH3uq}&9FgcLGxQtCF`lqjn2T|^9Wqv#9*9Prbyhu)B`v29d-2Dp9S+-!8
z9Cddc4Y}GKcWO`FZ9Tc(dTQSCx+mAtJ8!w`*paJlK+u(I?4)2_u4QmVcrX5LTxxlg
zy}#$KU2`{YGzPPcgHq$*dgJi?*<4^Jy{rGIsy*lNXFUPQ6JVZJ$<vxEugTRnW$U}8
z`fhmcyKU7j)Zo1D=PIjj^j`1X@RYxCX5mcEUzPQDO8(BAzkKm{wyImgKYuri4od#u
zMr~KNc1Wrn%GESvYr3SGE)?Z0+cG;UsXRM+S5<T4(Dg%~FAoJ%33?6N7ga??Iqp|+
z&U$p<jmH)qyXSAtRApO+q?Vygv&ma_-)eQb?t9b(rxs3?CisjJY+=|j3E2iEdl?%i
zsQjDkRww!-CY<b4Ht<MH7}IwVWTi>T_N}Mz>9A|5^eewxVJF}(s_T~O(w;dRR=K`A
zX|WtPXHOOEH)%Vgv{r$iMG_^XQGq!}+I*4r&5}njX;f6KOq<dU0kZWkn#N7_NSC&y
zErL01|3#A;Yd%D=#^qS_a%zmqN!vkXSo?me(rkKZRcW>Mw4<O^td)hWy2gP**+)d$
zMrNH?cK0ivL!`k(ct{KHRl<X6IAj&Qh><PAC|0XNW0)u=JED_9lBBqhQ#^qr;^X9;
zCg%(}XW=mJgo#NmHYXxfitJ*XoWkE&6|Rm3o{<M~#K$N<QJUGhg0)>lD6ivf^7r6i
zeV1{SyVolQ=j~X;H^SG$^R8TVeYUzss_vP0ZTPDfCo(RnrhEDMmCLujvU*zTJ-P0G
zY~Gr4*JRzzlDj$MzU%JI?RoV5J-^@b{(foC+4<9p*D@`c)0y7i=GSU>OP;}!w8x*!
z`Ky2V@}lDtv*`q1#?p5$UtW3W)>qeB4}b6STI~_Zb9B?jd1?!*=-&4|es#~PL+U<C
zS$?hM*PdK_<&LLo)69AL#8c>v?A4e*aK6!`Y=e9|BTkMLPI)4xY>~Xc76}#vB1)eZ
zkYmm?XU1Edh0CX5tdPNS(H8@;O8Uad=S%b2v}5I4=Bz1w$$&v5#!qL`^0@@lZSy;7
zZ7-lTbGA7<a?-qF53!a;Y!PDpTAKVX7M&d>S~TDR3zsuu9tG>A<CsS7RJE2j?a*3}
zJPxCA!NN3aV*pXbHuCY`;&}!VrW+zBWX;hyq<IAGu}O%ZV^Ox8LT+r@7e>L1TV9Su
zuPEE`BdAp*E=AcOiT@Ihk%LAl+qvk2Pg^{+VaYCKf4>9)mK7p<0YPA|hCoc>x6DUm
z4~hILNlnTQ7K#Z;xsu5rk)qj?{QRnt?W*K5TT!sG)VSY38<M{X=T$D(I*@JMBjKN;
zdET{nCRf*yt?QQRx|au+Q`vz>q=84)>yFHO?=?2RdEn-O%!})dL)c*Fy^EJWYVXf^
z>X!~Lw|}SmR`>hu_symbm*i-f_bgt>@b?{Db1%IgeskZ=eVOBLpL*-ma(wmF2LjSH
zyVe|yn+^_J(4mDxOD%WYjT^0xt{r=Bz4iGuPxC!rYu48#`MQ=}D`(byN7fui*rK^*
z8W{=sh-0F?B@&Tc5rS%F;^g;4BH+T}>Kl6`B20}T+6=i$JdD1I`^h0jg0V#65%^@A
zf+5J}WJ+X&NF1YRugcMkMS<HyZt>zt#3pHzI-=05UU)@vi1;P{C7i!{jr+u8vpO~d
zT<@;jj@D0n4_RIJs_Qnb_yvLRS8m$L=iqAUH=X2jae?MdH~BnVZQ#bG>z6XerJ9|a
zUWzK?DykP#*Bd^gVm7bx71l@jd%p5F(hKQLD+N$wUDJ*9_4KBl1(kA{*Tq%UZn>Fv
zXSww#pLzD}7v6edlOz91l$f2LFh3hp)(h&i{?KftXKMsbAwI#d3AbR1nt@N4ReZt<
ze8Pr(7DNOng+&0eJYH6aLcGR>9Sjq2Vxf8Rn84ZdBL)1dOP$bwQe=PLufQ<k9<)TZ
zDOig590El`uudoc25-Jd2+j+?phl(%fab(12qp-gwqNB0^S6oOsH_UaDNr%xDWHF*
zGyr!sy|pC0nv<9V!FFjUW{E#f|1>cd<?1x|8l|+elofeVGi|x8)3D;yDIzuO5u9l=
zTI~9^S)+Epz=zx;B5mv^XTANz{YPe|0YOb&yk!=L5zPit6yck7^$Sy1CfQ3c`9L5+
zF%(!5RL_~ZAV!lHrsBeE-LsRBQwUmRNJ=X9GDB(}3eNWT2cID1moh8Jh>~ByUi3VK
zq)bj-=?}TYho}i`1rn(S{#wvNv5umgdZR=F3}hSTLu7nXr0oId?Pz=^dO{R|OF9%*
zL>Gv}X`~P@lS7k*^-)>1G&@v|<5gwx77G(+&+Ed(_mDJ6#IaPE*a+;+d1`as9UxAb
z7Rl4bnEsAjO<?g$OE0cf_JCDy0&5K!0Zd9mPtMas=}9tB6NT3*cOp>(@!w@w-JY7I
znmdp)8rpxgcmDV{&g8tcO9$?F+cz4z)&?KF+i;8`KdK1iD!P{+TJGKC_<fJSDSu?k
zY_2TZ<jmeOwtR~i2AZt&f9ooo8-z6Id^IA}r(|m<)`2tLBDHBXN87eOv9)qA#fzB)
zo|urQxm)~5$ShI|L}I?hYj8pq_PJ#Ks%%$3x)?!xl9&bhILe11GL+x1@L|;bYJ-x}
zSHpfq3}2^I-I=+(UL9I+&D$5tNs@tpwPauS1n2pjukwwrE_`)qbln$Ru*~!GyK_GO
zyn~Ha$TT8zn21r7C61FbK~9XEOK@cCIAocW*gz3%qEeH@I5`P8g<HTBMUwMfdO^Lx
z7Jx51v@cgv_lYlPEo0OlzaZ71^mg(&IP3^c^0~Oi;HH~=p#GudVX0<d(@ViJuDoiK
zvTyo1SJ`Lf@crd+-eN6hJzzCbqx6TC5<Oc#fKy7YiDWaf?JpqPW))VpMr~2MB1-54
z+zc=oB%G0RXVj_sTp;mo5cVoY*gb%kU4V++7irCwJVMzv@owYzahu>Pf{n{%zsj-b
z`W<DXke$ReU4VuG=sI~Xy{v{@q=<+Bu7%9uVgBS87`Vv^xi&F+H8MSwjFIvJ7{02C
zKmlW<7E%$L0+PWtmqON-{A^AA8QhZ1#r-*i6)Pp8v+#L|R3rRzE-;>j=&B)pnRd-W
zJ{EY|6q2UX+%M4jBQjR<ARX#LdHUKc!DkJT#<c6w3z)f8DAQ9?Ac948*RZ->#wknN
zn9}$L+Dx}A8|~HDZnRtP6B7*dP`*`a|MH@Tq1b`ii0dwS6s$FmB_oxQkny0rZmme;
z8U*t!+Khha<4A&0Brom&tB4S&$DS0yYV2XXHE1zvF&G2H>g8)CV0Kv2j<gfoKQSP-
zcT{!)_33>~wP~rhE!Ut8Y}8;opq6fDrK|G`rRzCTT?M7<v05CBiqSVA93^c9Ym+Zg
z*F>dywA{#BxB}JaZA#>fh!E21<Div_Hrdr)IngUu!I;%(X@H!7fuaS><UQIP@Z9_U
z$ysOrWsn<Ur9@J(%-Z{>SO}U}P#+*B*CIkJL0Z2&y#Ycznv9BHqx9B(s5K|C5B?%T
z;sQB3pAxDq;EWhYLz71KDFCoe^u*UFwjv*^(?2t6Wd+L)B9E*kw#y3cVn-^bO|q*r
zQT!#Ue4ZTYx9re6#yBvW(l4=*-f3L};S_0V$`;lOPXY5qjZ!+r%B9XKg%|gc;o1sA
zMzfjreDx`0%IZrgzs{O{giOhMU}uOmt1HBLRUmhxV()szen3Ob466-*4aoZ1Bwt%*
zLh|*kl;80Ut~mzRe1i<E?UU;JR%)gC{lt#tTKkE0YtFfSS$C`CZp}>Gara@@uByvc
zc1x82l%&exRsK%pfi=&8waNq7#;Y2ap2;>1OZZpxY9r8`;WNY8wuhv)hgK(~wiD}t
zlZ-LU)wN|(*{*{U{?#2sy<PylHzu!7W>Rm@y)`G*3?t5+t8L8I?v!eGE)Rd_@U6pA
zEw#{t*c)@#=Q4s++s(oa?fCKKx*n#Y+drxc5xWUC=-k3N222MfPmp=qN|@CzuT^&4
z_c`i`5A_04uHC7p&kVnP_^rc|XIBa9`utjD2Uyoy%Hjs9-Poqpq_iqmzbjYX2u>G?
z8Yz(viK=%{qLGCWEiFQ47tR(S<sCY2{Onp~8`?y$`8S-5%aNVho}Cn*#g`wW9awva
zcCa1!Un#JdF_){OxeUNE&sl)h7M7xx21;Sk3eNu`7CUh1V;nnS7I^3t)m@*#URDCW
z(pDpC4nWF!QQuecHE0|{+V-HgD3`Qc`VN!Nk39tftY(G8`ixefE`3)nNShZeZ4Z90
z)<>dP$wRfJ?OJ_vPP9rFO!G<8PECejEpp*2xPStfN5n575d=*$h$i^)Zz2R}4HhaX
z@t5Hje}$a=<orB2H{i%7sD_p(^iSc0+zJi4Nf9(fWHaa(6Dnl>vdmwS`Ilwalo*>(
z)#q-aToFZ0FWXdgJ$(p`4&k>z3eoUrod?xq5!jw_Nn-h5<-o&N)ZA#g-n2BgUf#E0
zn>WutnX9P25xO2)dgjfq-24iVvEEy~tCsJ3zUx^FocLgHF|=MWvS25nWPUVPU3264
z>(2wk_W9qqvT)_=*Opq|?7G?Yt0BB)V$3TGuPj|#ZdrbE-8Z0%GH;|7Qj4e8ea)Hj
zx2xW&%3NG;+08P5n#8WhKz(*+M%Qb0&bxC}bvMpjKa+8<SM@G9=WUB9w0hplR#?dP
zu^(Ib$j4j|?uhs*dKB^*3P$t=pcaUYrI?H)()tr=gDw!07{GRs;>O5{lT#`%{S%5L
z=g0V;{3AFdFnPG9)?EK!uB#{4GmsnHOTtt2abCsF$U}s<cGJ$h4z9Lg)5*LpuDW5<
z&AgDH8kdGL=B52aO{JQiO)rZt<61j5ea!3UYFia}t(=8H`Bb5+l7*{C>SFb7){xj$
z%VN)(yw;j~m35?c+qA-uwrHpug&dsA_eNkL@DnFOY+P9fX$<s7TkKo+5cPTaOehl+
zK+U4cT9zoOt?Xd&AfE|<*2Y~->asJV9>;5d(_rAkg`F_)ab46|7rj1CaBmau*(P48
z%@*C}y>Tu@ZiKOrw@7;P$(ok-cytV=fZ|y)hZ>P>if+7w^HH!ol^J9`(1|<jJxj$c
zkiHUwmLhSBiB@K99GEDilXhrF3|Y#&=#)q4fbId`(?}bbUVIDXDN17&xPmk~<6e{o
z23!Sc@?s2$33_`#I(0J_t){#p6lOcz#rk}_=F>I|p45G|5rwP!4ZLOirow{#a|A=)
z0_O5J>3yCtBVH4L48&%b+$kmG`8SbX`W4#*Mmt}MPmNuYeM-#u_+*4dglq~SE-9LF
zE9@R^q>RQEGI{}((JP!JI<I$-NGvg^#Osw6@_ID^;z2ZZy#CwRl5Omh8vBSDs@rI2
z$#gFFu3Fa{z#YBr+X%E}PA-qE9$ya}WsKNHSO4<MYx~ZxJ@wpr*Yk{l0+7cFc6hRm
zCdtu6%pmy#k|Xd##}2l#$IvSMAs&{d+ScocE!1D*W2u~go)(^McnqVI27JeD-GT+v
zMxW9tjj+%J(PQ(qZqpJ2S#q0{y5w3^rjcA_EbAHCV4*Gpl7(0jK1v?M5)fDNK;|_;
zelx$LE+>qM-cl?D%g8OT718M=5N@(viO}4I@{P$=uc54;LRi5@NMfnT<}_O*9uanU
zq!)~!WZ4I$;7lsQEIlcb5q-ImBsJ8g*d(ja6pOqRy%u?yuxll<bfx7NBwKS%z1dJa
zoj^Mn>Zmd&zlHE@yW#3#Rz&%gIzp?6n5kE}jpj~b!-0`zJtPn;SAD1PR%14FR0<u1
zHZBOp`>rE!-^Mj`=jsC4x}8$pP7+R_lFHWXk!tpUZGW@zW@EN~KSU-HMqau8N}iQ(
z-<fScBDEjM$LRJjN+F9cX1doZ`|ek|2><?uid+}2CnAPyJqcJ7{{YsL!O9d&g1La0
z>+2M=)L=~sW<u}8i99NXbU*znHC|-~tujJciYS9Y9-(MkGP0BeqNHxhSY0}uxyGgR
zjR?IlDA{Nvwn=HQvbRb3|21m2?V3SCaZf^y5pe~RPBCqxt}x}%1U&44ISiv1yAUeT
zEdj*oqu73O^hBYu5}G0YHr~s15M)yYR3T3@Zc}zv&=mRd6%j5Zn-lSArkYjAih3L%
z0)s)=1zr;0Lz+Ue@GlUaZQGtK=-c%_BC3!>YEXrp0}rAKAx0HCKozio4!?cyt%EDx
z)ywORY!j_xSV^PgZd|&2#|_)HmRum14fINZ-dt<v+dXgfWLqDRS|7>5Y~bL{gW1O2
zQseH8mYoXaS=)Q+gSPdSkz7+twy9rg>IZUAR|bvODIf=RttjfvGdIs<14B}Ptl<ji
zP|=&hitanDN(l-Vo)-%pP-Mmg7zT_L&LdjAjNbeX+rQI_7OapWApt#U9Y>fWR9j~+
zmA5Pf)X4cA8mY|0h#IYRBTON$RyJl(4a+g0H=3M1i`7aPE~(zo7NuXld}}pdNxzIF
z{KB69gX)vOjhlcXm_|Y-QUB1`;>ip{{2g*=<Cfh7ct&9zJDs{9TN0z>CNGOA#ky9t
zF;Grxh~K4L--DxSD)Z%v{}!=Eddfzl)ut*eX=x_!AR|D6GOns+-of_OUa78k`Negh
ze_n*&EW25jt7*<PbZuI>`mQa`3{=hwnX<kmbGT?_{<`pX?5)^}<vsVi?(D8}(ynvs
zog<QG1V(A?u1`1<%Ll6ut)4wn-JX@idfjoQ9>+~brfI!yfI`8)OVJL_-?SvG`C8W;
zt!#Y(!PyQnAYrKh9k@h6rb#8vMI<_<SmRuT4_3@GIR5bf%-|NKC+8s=Q4((mGjNcJ
zjRF<8%dO4#{J~8tej%J|LcX1X01H$Z-$_9iiTIQrm;)qyFMOYNmRVh&1}mX#?XI`B
z>5@MD1(H6692`&p81rVTq>7GBCq=m+{LjyjMb6T*Z@zHzg*9JDa(4g3jdyI2Si8s2
zWc|_B;npvqH-%6D37p@;=}pC|X57LAe(P&xVJow;AqyLO)GjzwwX8$&LHKq-_;&uR
z0zXdbkkIa7is7nlbC($l{x}!pRa@fUCWX?@?cfA2^&+}W=~16?nZ$S~kOSo&cj2s&
zHS8BEqU9*bVw^`wPdNoov?6L@Wmtqt^u3Z<BvpZmRLdT9A)lj@iwp<@-_1C2HyNjE
zI%0~^Wk6yW^gZNZgi18S(EOD`6^4{t=OR&_`Y=;Y9Zt|<LCr13AO;ZO&z;K2ONqc~
zi}b_B=9dK!hrSbF57XtUd@F#WSL8#QPeZ>^7jg3J`J%HsB_NBwr=ecbJ(WCUut~Z@
zjhn++jwUUMahnipa9#&;qsq6UtvZ*T*OjK)wNeF(GJoDtBamK4xbx>o1lYe#Y@_e~
zf|07$YEtaA87s&bQQ}Mc8K})RpHNL6!GVI2W~n+SW#@%)ZF=T~NVfU8UZyjcO!Ftw
zKru#D_Am<w;vmWLROdipJIRDcbu(nL?{6cMY+=&v4=8_(!nLC_SBp$f6&W}wLe}Br
z<}WxX8L}%-(SM-wXgMhYcE05&5tpP5gyBWOLcplHaFOar(RJDt{ueR;DcW#&wX+}h
z$^+T*kW?PZmJdngL-V#=ZELo6K&l;>hbm3?-ZO@i?llCn4Lwpr51~gN1qNv=eq!N?
zoTnn|*&%s$Y+22kt(U`?Hzw$)UUJkgbuuK%bJuZV0}8{F*+9P(=wCUR9ezw2e(Y`)
z9ZYe4)YW_Y>6NzSFTM53dKa{Pq|Y08F6Rv_U0m~E|N73sTL-f}k4im{ZkbKHz?A>c
z(W~q)^r0D=H^Owu#s@5>k?3otubIDQDHN+0Oh)1x6d0y?%QzHTuQ}4Z4z#FDFR8Y$
z2-M}n{5m^~c%8jwAdF5aQ9YxSw05>y;e69v+>ix+0rU$Tv|0e;?8JYMlp&sNp<v0_
zWMT7!^_e6jg(Z9SRb`UMjzjU$#7n~H!?QibGo@f+_a6d+IT}ws43CodU(@`d>5lnx
zx3NFxuUYbB;;VZ<Gn)bmN&!W`x+++UtYQeM#ovVk{t{|`6$QdMmq|fc46;qh015I0
zr8Su7Nh@9igFp9kKc{G%{t&@gP4~^Vq5i@Jd7D~E%CNs?c<6!SJe!N{lBfMM6OQZ<
z-_ry`L{(9H07lq*XdcxqwSTLBx&60#*mRMd3Tg!-as_tRKO{<~4@v*Go`dtnmV+c&
zfKC^dfPC~A?Q$fKJk5!7cn!<IKfsT|pgR=?9W)8iY^?qm?=Y0QnHDt(w1AD0>{E!B
z-iuicL{>(u<n6zqLF+<(*bG9CU)3R1b!1}eRlDY$IbR*D(wSJgOKRLD`F5>2b}38h
zCN-d{=qRpopg$>lS;a}kh%8yO*ob7Y(YuFA3um{scNmS7Sf951JodCX>ts2`lBPt-
zlee#&vkEv&G3kP-Fi%_z?fC*bnKWmcC_4L;mnTuCz8B{UMy$Tm7R4Iu^%~lx$(F~t
z7cmQ&Cf5OtFCE9wchG!UFLPpD+HR-~w*5Sv@3oO^IthKXRxaJHk#=H68ECLyf5>8R
zI?M>ON|qIH94JXJe@mBOpWa4^l5Yc!spwn>^xF82^avJqv;=%d8itZ6#R}?V9VytG
zO?f}F8v+bO<BQpXdjVo1upc@VCCU^B8Znc=O&2)mL9|Z%Avx>h+$HCa;K1N{dK#oe
z_8>pbRI1rq=>319_vUzX5(;yDwJ3t>pV0daa-JoJL{_=Hbg#zg&X{mjwkqU_<_4CQ
z`V?rstBUBSD$stPRuis)!D@m=##8t8hqLakJMONWFR<p@nG5z^_udP(XM@91aCqg*
z>%m7By?}{vcrdVQrCEaF<y@||XZf^LyKf$GJJuZa8x3t6o{Gic8wal+%viF)T~ct@
zO8a~L@Aj{Ij{c?D)aY6`J%4Pm8pO?CxhQ071||H1`HsIO>)$E)cjk8OU)yzj@m%KA
zovPjs`ha7XSA1gQx_Wc|`kcQh=datcTe`{sch8@@xqs7#67M%~{=nD2n)P+x@pW%h
zcH;2M>X#({No=fDu&E|e3hBG)P3KK#rf<D&*Sz;5ciEaRxbAMr9KGZ2$W;c{T8Gvu
zht@np)N@Bbp{#c0#9Fe*7~72jW<<dQ_XalsgU(;$=S=ydj#xeh1XP=P$GJDmZ&=36
z6Wo~TMNG{(EO;zHY*r8ia2OHG%p_PQd164>IRJawf*srOZIFg>^L6v<H5TsmCJRW#
z9E@KIPCXc&_tFTJR{NYSPe`<PFlphBbBp|o)p;U-GYAf}gn!*5xX72Z2yQi|I!*0;
z0cp|yIhcOTxxv6YUgjw^PG!;flstIv(%5r$a?4wi071c{wNbQ!1ld@5!v!!q$dXnD
zYB~xt6$c}kp0vk^T+Mkwe7tE72#{MNcs$2*lZzHCcl6*?K@Ug-`5Ah!ZL4~IhE~CF
z>9$v6j#$f%p=AyuBOt@E`O&tm`15=#@~2AD9-%BnED?LO5y_8|Hnz}9+l}<r`LlOC
z=F01JXsi8c%wZlzT$lsqD=;$|30bk@e-kyxFjHhkm2V=T$6Zq5GKF!f@#R}e+*SO@
zPIi=lWv7LN>@3=@o_SG@?3rcLmEHJ1i2p+X4F4xmiX<}R59!T1RCv8#=KI0$DXV$5
zQnl*@W6>X*d^s{MMla7+7etOtB_qs?Tqugh^)XtswV&<?03UmnDm*}q^vG812oq5S
z`hOcyvY*bZ3HcjmK&WvYj%*ikWe*)aJWrX4l~GQp-6kK2wz7Ft5U}B}&EU@|q6RGK
z*d?v3WF&#z1ZMC`^=BwWwR#>~y;?*~AiLEtS^4Paxs^BwfoPt1nsTd$dnrP8D2IDv
zf^r_1I+r9SLfcZ5Uxjt^&<SzvFk=a)Tlk8u@=5+J+h#sB*;{c+aL4@}+z#j;vTZ|B
z+tA&n;rl*ki|dmzZpWTQ=btq1UUYA|x%&1@TB;kmZdt9)RWvLeSnA0<nfb?=#LB)k
z|3PdApV}=T?H(>TxalRI3%NIaoO8z~916o}c$g0jXTb?J?pnu@|C*tB_eZTA|Ey!)
zyV2Gyd79^sFZShp?aLO)hux(v=j&W<mwf$egO7jkj5PQpwy5&@KiP9e^6y@BEuC4e
z%T?}xsb*z&t|~yvQXJCDoLOmDuRXMAxmQ_x<M8#vncBORp=DvUN9sR;R2#4{9bT!r
zTe+9Az)<wKR2N#b=7JsB;E)s?TJ-)12y8U-;>xMJ{=+}=S8vvHd(ZM)0q)>=UaH!=
zcsk=={xU>cw5zrsC@<+<4&6Mo>|P14Hy&9$zERu1oLYJ2ZtX+#GSG#t1o{?F<k~~o
z_I*<OzQuDts%pvA!IEwH()(YA_)}ejy%YvkwNwMnG}Z-}0qXO2Yx`E(S1(C}kE5V%
zO5JGhp`u>7yXypY){dIRb5vGqrenG3Zq+`V3C((%Bo7efKlZe3ewpXmdp5&7AZF~R
z|9fkO$0uO|(zk;rIh!b8N`<OR4by1zP^{4ol8+eh0?_#nDVR4&Bj!tNA?F8hWJ^4T
z)1G4#ru|vmBIo~-6DKDDhpE<%C`{46qeybzpvhSd2N3kVqsKnw>aDKK>?ZxJ4t+*H
zn|r;mTf<3Dn2M3vT6xQ+oqPbIRpT?*iP6DN6_?&}Q*ejLx_i0$JAqpPuprjms~z9(
z{ci6Td2s^h&=Ee@xBC<KPHU5nPQ#DFtLm9mnw>&8Ydg4dT-vdJ(@8;>YNW>Og*PcL
zLEg+#ZLO|Ha`r4oS5CZl_T97Zx4%F0AJe~^mL7d(ZTK0f|5?fT?3S0(Kf@p6txcIz
z%g?S1ty-A@<Ir)b?}XHTa+9N19}Inv{Js4@VSdI1u`!}i)gK-1c7Qw=!rcllL<;o@
z@G##pg>fPYmTq?VaDa4z2kZ^&HUQ#o0N);*QBnYLF931az7@a0WmPsn;M>5)!Zr}K
zdRdhR0J1k)CR8d=pWqj&@TM97u@5;5-i(`s8pQe;WZt}OZMDWgv``l<7pfR|U%yQX
z<?S}Djg~XW+-sZ{(6*r+AaOlKka+_j^Gc!7IQ4cTrL-HP5<vf}gr;aU#>H-2MgidN
zkJd!(tOXWf2XfXjz`YLQQ&84Uq@SD;kB!bGN8@MDVekHLXs-A%IscuU|3S`Qz`>qP
zoPx5q`xWUwj}XY^iYafw*)C-G17wix!0zcdgox`fIfm;qR7up~M;)Ug?!k%wL=LuE
z;g+EJpT9|qH^MoL^t*otG@mz;&|%9B#3hf@(;1?I^HZb&pdPRXOlkofSE2#nE`oh8
zebRh^?2LQpG$t=^*NzfBTCM^~*=%%UmND|4wieZ)<M23cZBa@_9Xg(XGFr9z^1tFR
zgr;CVtobf>XukX}Qr6`|n(tz#=F9(T0!2~%hBj?R8U@r-kuOX0T_i-j<RRTW>d?nO
z)u$yuZv&b?|69;5-9U7kUhT@~(tM~%?>|lz3~KTDUonu{qlJJcfdp&pK8~&*$C`1c
z_G#}09TWKlp4~9x7?G_^7jes!Ur}tSVf|6D3h+r?RIZ-sJaPW)qjbOC<P@&>D>@#o
zA`Zc8(NupZkk@vIA5iY!BWHmeDpvLpTgtBGR85K*z{(c&Z_<0W0-dt9iQSY9SKx9Y
zjj#Co<P4BQG(oOR#i9{h-ihlrb;wb6vq<G?NQID;;gEuQB`6)}(hLi(!~`6ZCmJXF
zm3uo#Y*Fsb6#p|tyQ7nItto5<<1aC7i(EM}m3mye@-QkCon_bQQmI-5*Y>Kmv<{T2
z^4ALP%~b2Nnkhm7LDf|xxI30hg1stHk>q|#6-h%!wqcLduxH+<X-l+=vlQjYJ@slV
z%@+3_ozL!&syo2N-aflp^M37m@8h`krlu1dO%1dcue)$FNFD4Ep-mw!P*<zqIM7CA
zbH=vpT(2A?a~?|U0po&{?hZm<6rMJV3rHG=R*t`S`rXsn;WN_knf1oA^T%I5tJ@mU
zy<IEMy!VxNzmnbagoJ;MPcS(Aqu{`bExYTewCm`4klpsxbPu|n(+j7wp1qQ1FPiD}
z-gWeXx$-n--JN&bowxU`>|H(lLCbp2*$*z?={dhq(XrM!vR?7Tn&$~5?|qVAb9XZK
zr)V=Fg2pxznstSMFvxa+v5=zbu;JrCL?jjy+aMF>^r?`fQt-tUR@8x%vpdw)QuMKz
zmV-_C3Hsi|c|jxQYg~4(p1kWjw&pmd@Mr|EKLGvTkJk+S$8YIlZ2P3qC=K5?DXWcG
zZqNZ8rcBZnt9653&bAtKqXfbycq~bj4-h^M_0KNMW?^FC3oVD%eZy;xVWmqyM1ua2
zBIu1OW5Z9x9{r*7)9{r(5e%pDTvN3ZYU>G!)ml%*7q(t*q^oL6u~k(MI@@p1s|Tb{
zP!CCHMi2Xj<}Giy7F<7cbQe!3YN7@IS&tO`%ol-(M%;<^rRH$FfsQz^v(>OWnRS6p
zG-E2_RMuWp^D)(fiTG#uQ9dROfjS(@%|!}=Tr?`JbP-{cUA(*P;OsFNoG;EcO=Hx9
zCSXEW*DY1O*>JN#xovNquKl9h^d8ETUw<TXdZqlWku~4Ynqx?r88@j1Iy7FSv9aM5
z8_x}Rw%2zlRtFk?0v!S6VGp<&`X=nrxFxYOf8sx{Sy0aLLnmToniD!1NO#x~DKB}5
zKLDSHb9JO^D5?wJNO|<Spe-SN#Dhyx2n>By9Mhm}P<F)tPXQ&uz1>V2Rz9-_ub70a
z-K)arMDh4(rUweYttc9PjFJoQd{pVw7@}tz48FFiO-RuveGQ42c^sgH+3T}8Pxa!p
zwbs3>USI~G{T^%+o|?t@ub;T<?!KK|IkY}-<o%;}22R`?I4F5~=g+M*_T~bi<>T4j
zLlXW44nfCIfX~Bj)!(qxdw1u-yS_uY+O{=++r40~cBhr3Xeip({O!tIc^0iHq9OEk
z*$jCYo^5A{A%qXT9Xd!4=}GgH5m)LfjE6?%sZywm*_~fSlwK~Q3(RpNn0g`DY>UBQ
z7AJX~#+0rYz?eF4E-_o)DV2BPY;pRn^va9t<;P$Jp`ZQ}{~QU8yE~0HMLQO$&eZPU
zmHrr!7!m5p2_8BLx@fmx2p)XH93wrm4pmy~$Ei?n@=}cMEuyQlqe<xhiH<8=5&m3(
z0@i3_NIju3q>IFh#*jfev&{wrSBN<N3Jn`A5Kx!$R+xI=6ry5rar#cr>7~;*53QYl
z=DyWj;hMK$T>Uj!U#sM6&FowE^{hD*&ANh7)t6vYa?P}Y#bR5=4P`nQE0^ocrh0i<
zQm)TOO#{=V`^VK>B4|P((nTylDYW$iN)jWdlHTI4FsN|X-%uPaMiGB`;ip5pI7&#)
z01eEm@Br=l)MBZoTgtq3Sf!g**r|Tvb?vaNSsH*0*7xKpJ3m1r!qpg})}D-e&C<jW
zvR3PPo***%C5()IH&5~03H~wuQ;xSD=a;)T+3)Ju7W>__@zy;W8V0Y1hQUj(hF3aP
z&8ttZI^G?ie8cYxlx=v^X2Pozt8J^v)t&D?LEzbN0eDtp?a;w9_zS=@3Kf876f6PH
zDC%bc&nW#aD^88#N;kTl%?dv%RM592i{uP!*(s{bYVF+yUc(y=U4vIVMIVqpN$4^0
z0{OoWNA`_PK?oY7du@{aqc4pyEE6^!P%fvYrs7GaVwP>V*_RXmR?5c^QQG-%xgc~9
zNl;?|`$>kL%4KBhNS9P7$Cs4r9vWFB5t<n8;73*c0#0>8gFS_8gg3~{M6zF%#Augd
z6IS-Ki~<3zv6n!{1f~^dH;gLR9218scd%59ZN)vu%H_YRxlKPV{!*_RW0!v^*MYS^
zAcOLU5)xBUk;HL!BcuGF^o)sN_HCr?l3N~7G_DfDpH&d6soWZJh$&SrEbDntHb&SB
zghD1Oc0C{myGC05Qw!{Lwfvy+^Qx#QqZ!Jb9YYT&Uoi^Q1!$e>DAI8gjYFSNcI6W(
zL{?RgMP^bl%rd5jsyE7`yr&&Wom<+UaY%|miuAHf$>`-7`XeHY`v7-Be_sKAPa&EV
z+mJ|XCx^ft*{YPsb^@jg+exoN<aE<}+c`#N*_j!3NftYl#|+4rXvJ30ElycYk5LZC
zA%(_1EFQw*!apua?xvaN`A-Hp{uKXX&ix_R{vj9mkgNGI=lPJU`j89#7m7Ljr`*6#
zOjh2s#liWBhvU!kf6ATyklUY+{S2|E_z$_0A96>2Vlwll&m0_o9ua##<a$2j`u;0-
zM4~q~yy4*7ueiwbNBPBy8}--g@8ebr1n!5;U3|F~1@HZ5_-A;&W>LIx?fSL*9Qp50
znx5kMwx!lLLpMYBIr48}$2Qg8H@#run-&Le9Jqd93wAqv)0P?0n=JbNS1mD~?_H{R
Uv;Jm%=Il!M>f~n}#jp|jf8p+ph5!Hn

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minicpm3.cpython-312.pyc b/model_executor/models/__pycache__/minicpm3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4e8100ee738fd13e20e23855b48f9d645c9df76d
GIT binary patch
literal 10448
zcmb_CZEzdMb$9swH~=I;0wlmMkq{|}A}NZLY+14-TCyzJ5@R{CoFZ}05bh{}#1{`o
z*<_$tlTpXOv>uT^GNjUU%=`*HQYXr<=wFlmsb@N!!4;YUy|Jg7#+i=)!6iNM<WKwF
z-UmSX=-6$J#NOMtZ{O~|_jdQ~+xusa$3?-Dvix=O{s2Y&4l~+gRe`O3nxfVyj*3wn
z&6!ek+7vU<2%A&pm>J%dlsRpQSqRRWvZie@8-Z;pd)g6m5ZIn_rd=^t+8uL~yd%Y=
zJuwe~ohfhH7xNL=m1;@1##+;Dv9`27<|jCJsy*Ei>mV?b3Z#RvAb~xp&U9C-D;<i3
z(&1Pba9+-r>Q48>dT7c-y+m;>cPXxwx6GZ?2Gw{!Fe`AZk5IM&rJwK8vHb+w4%iMp
ztYh~PYyhx9KBQv@mdw%4<rgkyW_f|nB>2&6CbiUmIhjeGef9EWe>%(Yss2PZor{af
z>nXnf?WB0K|H9&p8_CR#^YH{A_~eb7Vt(v1>{67L&C{8s8F-sA8Aw}R6?jpICo?>E
zHk+AE-T<6)S`_(=n9OFPCfR*9p18>?WwPs9DwWphA~$%E1<HI@U`apNTwI8!QhbVi
zJ1e9(HlJMPfuH@g%io>J3hAg>Za<q%Ev7TCs&tp2-MApPyvFBJ$wXY_ITh3TTK4Uo
zM8K!*%3>V4wG1Q8X7pY-uopr$#{+x6DwlJ70^}lGiZAhk+@>PWXN9xz#e6(<>9WkI
zxXUQM&%g#zGVXMIo@Y~7DW6ajsHA;rX6xSocn|EAr(!hNtjS3={<sd##G5%YZ{aNP
zv%=2?KRf&!@N>e?#alTyZ{zK}W7gCKyf}K<4k-g=9^R?uyu3?=e7v1&;po}kA~j2M
zt#>^!H`m59b0M`qO)s!7V|<G-e%8jd-?hZNMd}?o=KC%c4alvUQR(WRk!=ZL6teqf
zlH>Rc(WvaqET-9;e4NY6EerE(24qjNESF3Z3~Hl+aouXb?gciL72>QA&&<or{H>;(
zi_{Wt@?u<O2%JyEQ((n%Fdct~&1LgR)H}<kuk#!S_`J*{&^B4MkIVv^hnBPD1b#O8
zj%)+_UKBD3Uz4zKUBVf<_1HpDKcUwsQ7<gD6sY%Mb$Xy;XsTc;P^?KKC|Dq;&Tfh-
zSRn^Iln2VJ%K!pSTi>XH4RSV}!VWpmxbhSnkaOrcGvu6FPVCSittYpA1!}HM!#3Up
z-!ky$==lQ_l{dXi{g^J80S7$>er}Bp>XOx1%PVirv<&S79i!n3PRM!moEvgpEhlR8
z0BX$Xqt;51&zw%%z;fn-=b`0+N)P;6v@&r}gN$ny=(&hS(Re?!K2Ws*y!;wojA~E;
zWNauWLkTQ{rm%+v@843K?e9zv?GIGl0e4*o-(ckWsI-0%dFa}0V9`SK79G1<3}|#a
zWMjnpPs=8#^J>V3nls|Hm%Mbl)i{wc>9*3q;+S?w(z$C~of@q;sX=>c$%sGb1n3QH
zPM4%>SBv@@DL&KGqJchuuMyS_Gr{%H-DC~j8Xxh520>k2V;YY1)L^awtuBQfv_>2l
z)gl=fmFI!FVt_^VYBiUrsCP!diEu+fJ^hFCuv=TMC*yem=hcU>)APCfvU6;Kz0T%@
z>|E3=3_}4a6>wrL`^R7fj*~(b{RTF@5MOp7QmL_QAImCLEix?6Vq91vYdq7uAVZt+
zJTLSkL+e;v6f;qa%-|LQe8?^#4D4t&+9zA{i#gbt9V`oejL5PAN=87H31LWNH*70d
z6<ZTf?m`bHIC=s1O##<Q*@um!vam}i?Z|d@#}II#682$&#w0ry)KLnk7ua3WdDyjt
zGz$WfJy=LKeMAYkVqyhF0&?3|B_w+ZPOl<6b%6=Ea>_PEXaa6Iy4+yf5^z4r79yfn
z*^=i|vjR?1W%OiRx(IfUnvAF)iOH~bN>sLsIdyAh*+eRy&$Dd46^Q$HJ$L^2^0=7J
zjpvfNQP3uMPNVNEK6Cup`Dgg?RPy?GZb`hE&5YjyFK=A&==gW|#G;rLlx%)H4GK%-
z(vxGkC1D&|SPp%~YZ%kCiW4vYGT7*scc|?F%IPiHB}eBIN2nGaDq5a6I&1xh@!g}p
z!z1OfQ&RYpQW}aBEq~+FiMtOVx~tYT0BG;0ZO1BY&lc@9pa0&EN<Z4LOTOXFiGTGS
zDmxC9eTQm&2R2`l`X;eT_tRjw8XT5_!<+3=a1?4YHI?@;X)5w*=Ybm2Qf0a&rhA>M
z_Kr!tV~<|{sC(ON>T&_SXWK^g?%%jt-G5ZtfAsOO>WLZY#LSbP?;!io$DN02Ob{5{
zn<>q#U#<3xO7PE&)>;F#uKl$@_saLy|Dx<4-getmZY|W{q~0I_dL*W2!&2=(D#1T<
zw5e*j=Wy9S0d)tVCr=!G+g_?~XoIT`JtGZ0^Y~iz`B$aqUwzVh1q;I;ca7@ov<|^|
zCZ*oVN8GQozsgFzFG|e$Cid&Gvi|^Z58*hy+bvWOMWKx31NJ^EF)%n)G|koCDEs$A
zwIEh=L$&ZAA=@W0`)VleLsIZit?O{DH4HKU!Y~s0pz|HQgs@*?`WuX)#Y?42wXU9O
z*Qf+z0I_M3d%f%*-1a#-p#J;LEifrcc52Qb%wEkg72))dPw1W*km0J1`K=tRpKG{(
zpr60%DVQFp*dKtQ-ZtL`|8B0Ci%MTGYjn54Pn*;Iy9T=kh0e)5r>@)$D)iK#zR`|j
z=$~lkKxoxGr~73Me!$DX=K`$3K7Yf+(GN|U_e6SWxeXrdobE+6@!csG8_31BNBixK
zS{n3?+qV<Gx~HPmM-NGtH+ax<xH#^53idhND|S7ax2)GjZxA<+T~EQTQ4l#epdXHJ
zsV!r<>pOI#LG+GvJvyMBZ=**8eg=AU-gXsi9K=!n%A}+)Y6HDs`K%d*c^f?YIowKi
zJq5a8okRa&*Yh=2YhY>U3u<;&aPP^_pr%$!lNZsB6?$v^mfA7mt<Gz(dABh)@Fops
zj@BFON5RbD8eyP)B3%=PgT(!s_~wQ*sPS&B6t@}hG8xXo?QwPjZ4rJ2H&XqnR$+zs
zcA7KrQkyjgYYt;9C+NvHUcq*7WJLW$H+P^R5e=F<s6mbQ+-L*Vpn{9Tb<3dtfHjyg
z%RmXU#`@5vY4XoJE*G?m?$E9WPU1|#rL}q6Q}F!%+ts+KR%0+)v>Ke_-_jZkIPK7#
z2gW$DYk-g~cy_F$URX)J5KpqteD*)^Kv>O;PCRZgW8}O780)QgYLSn236p>oj$(2Q
z64`Pq$-gaN8^U4CTk{YW6dUIP0X<4`3Xq+Pnf$^c&oA@Bvq<WKAdr~6v6x-V3&)X)
zoEq?;Cffx*e>0xrWh?lxiJP*EPv^uXHkF*`1w2v8uGz&*0%J?@lx)t$IRU4z@Ejyj
zpYS}wFJN*O5}96*X;!u@u)vQ=fzN>vCyYYL7CaTmrukd4O^J!g^esRlAw4g<(d%ck
zi(+n3gaZP3=kb8B%R?8=U@P|7tnhYR;Fi0->Rqcv_kb>c6;`x6RNY0jwBNg3y1o8p
z#Wzy26zSpwajkkKrgwdz!t5*3=q4k@m5Q%Vqww52Upl{XWJRn7N2K7$=GE%x^U~<^
z73LJsxB1tGSBKZ9s^P;@`0%4h^~g)ok(bJ$3m;uy8LqTlDcPZ!samMF8k&$o6OTqK
zp))04ky(k?+Ip*P5veVrJE`r}<1^CnnezVclwW_N+!m>{eGjTzit$=-uo@f%pL{c3
z2_7yo(95cCK=KW2O#R~Y&reqdrz*aqMN6%vea*Y-T^B1Yk&?A&Do)otzI$(!-dK5U
zy<PDbH^u7sIcfadZ^VCk_qXp#<JT&lH;SfOdtmLt>IHP^i3@!7*X*y@a?gt&9a*_h
zX`d-Mi?$W|sW1G~>7OoaM5+Um68;}8cOR8}$BLGx9bIeeDqCYZK%D5HuD79kKOyx@
zJUUmMx+uYa&&3M!@{ZyoQqPeJGr48A1Y9NXT8o^bprz7MQ~jyx<OON+LdACx#s|t#
zO0Q^VfC_2<;1~#buqal25eff?%B~^FG5jghs-9J@RG7XZ{q*2rq$~S|R@$qrLsIJy
zfC_1C4;D`u&%KMKi!0aHBh}ED6dHTfUY(eh;6F57VO{_O0D_(7!BydG2LHiR73Or2
z{+MaKccFBl%JfN0UzHh@7&rlVR_K+fs((=O4{mV3$o@Pl`Hz-;#~#P)X37)UqD&sw
zf4RJ+NKrttVaY$d8L1w8PJ(~`a~0Q#x|MRe>JBOxUQ4bfH|ULtjd&$+py;jz_EiHz
zQebF9*qo}4oR&sT|E9e<eMOqSQVG0PV|?Y-ft9JX)2pWeC^G|}n@vGzs<kw{GO)r`
z0|%wR!Og3`WItr3z{!g1d2Fa18UhW!viiz~yV8D0v4)zjqv#Q)VRl7r$rcEh%p|FP
zNM~d!+JX^_OgzoAtn6a(&SNo!FvGGCdrm1O0-g<Ib21~!*4b1xF3J`znGj`jUK9lM
zKm<G#2<ShM6SQy{>1|iZJ&N!qW<2UCKEbC_EE}bT(}2z6Ipqvl9|Q~;kp!2`ycJ5m
zyi3&sRL?+d>_}~Rq&6~MJ94ZR=={9z8f|qwZRxLD5vbd!Kv&&PKnK+xtUC$lqQbp(
zHvt(0Jp_cKT4&uyz!t35O29TM7^?dT*iLnX>Kz0OfX3D*H_YqLu4XnwDKJtG5_~5$
zu)p3#zz`K2*f=Kz4%EXW-%SOhn^RI?yxv3dy;N&^opiU}Pr1Bb>?7EmY1|rk>hD}T
zxq7m01sI0V*|SzyE!6Fpb5Jhdz3x)?ADoaQY9n$<fL!zk1&7ZTM$a3UHynMJikX*8
zcrB$Zv&|Pr39TO1#b^pDZwuoYaABaA!KMh9-H%bIat}&_AnQX~bAut|hg%eR#O7eW
zL7Tu|r`76^V59-<oI#LvkNz1rx_eL>xZHbC8eL-;%hBKvvj<P3FzQ|*R}8c5dVnjs
z47(n{8n{J(?cYTRS-=i_6${r2CJ5r1AE<H!jq0O^Ag*ObKtC9wt{4tvNo>&j=ZOkN
z{UqGk#B2&$l6}bx_#jOYPZXT&$5<+~uH5^oaohi6G}74^3QhbcvUK$;u1$*)@+I!j
zbqL<hFYh;+d}F)G{t<ea{})K^P#^aV;fDK4=@n($*=+x1_``5DIxR(~A!64LdoBe1
zAY>OBsriFzCst3?I=ic#2PBB{1ww1{tMk>sQ7Le=*0b+}@8AD^wdc6hb9`q8_MacF
z{!sBvpz;Uq`|fJzxYRigA*v6;_ruk$38`xW0$pqGuD(mcRtKf7gSE(kYUGR*In%&k
zM2i$D4X?bpaj@(k-R|*WyzPB2S+QoK7J-G432$K%$0P&Ehm^9Ook2uWOMVML9(Rzt
z)RxI_btyDhykpJ7069KehaqWR^Wciw1lP@GxQe!r%V#TZQ=nM~XM-zY`;sMUmpz(N
z$PGEUE>H{!O?-yjAtaiEV7Q8r^)Uy)d#3ly?^&8x$&$%vl`NXUm$S^mXC8MQ1zMje
z$OoPuz#C?ZzIp+ymJqzY){$AXW3k50;DKWcJNpy!&W@Dm5}fj3iB%cES;aK-Ax(w|
zTP;cw^bvuVa&JK*^n;MiV}<@ZckU>L>^PZ<r>}GIQ_F{T$V#<b<uih@ljMFPe+mGF
z`ah8qu4-T2p`L`tYb}9wW+V0Z*cWC~w_*-(>!MT^L?DY=1*Dc+$)&q;3$GN*?mWcs
z)tM|i`3$E_YT2fgLrrpcAwwafKyeV&<xzG0{cpYXmNFJbnQcnFMo6FNe#dzJ9qQ%r
z!1YH6>3gZ;=fF>Ft1=OZiF{!)dAzVY2YVpgtwx8ByCetr?-1%=kNj+GGxGN%#9X6}
z-S*C7&#+TX&Jl*qge)f0n4H06K}%`?<ncHNeviq6E{?x$g*SAdbzj|%5O|TQ!{NlN
zOY=9j-H=syBD)0q^hY!4tua6~PaDp}nQxeqG<=f;-*)_rR=@4A&cfFncj23)C1=#7
ze||E#<5QCxa7ttsbL1jTc9I-k$H{gTC;TO}MRYB@@#aPSf`OQzZq_&p(Ee}+Y~e=L
zY}636Gc|k$V$e~Oa0jR~tHy!C{U5Oh9iK;LaQ;+mz^&K-x%OG^(@eT)B&s10g3qBQ
zIljVb?CahPKfd<FcdqO>N5nc4weQle9LU8J^E{`z%y~8)&*k6~4gsS`0#W{t5!$8g
z0^%_F41Rfx6WpbqIs)XfrK4^&ce(0jYp<<r3Dv#Si}XwMe^a#eMSAmKoxC3>w#i%3
zHS&oL%669JvI%h7ZQ>H?0t$in;7Txnfv=%5c{pUJ;VU4;m-nJp@Mcrl9F=Q4qN*|F
z(-XyLaV&BRq2-d`>?f};!Us*tRb_;riRf7EN==>R%8T4RVmwRU_jRP?dns~9Np3ck
z`^Mp~sX@MpQ9qd?XAXJfYpB&bUi}jr<qC7as0JBJek`rr2MR4H#a2wvyOFJnVltIi
zRxaCRa!yhXEx5cYvzRD%r^02&Nni_Ss#C%$(4mi=zXM6#Ow;t|QxtuX{yi1=9mRY?
zwSPiIe@{jJgBt&Yn*M}(_75ftZTg&o<O>%CmhcI6rU}JRbl<k^f{6~Sn?7*fcWzS%
oZ(p;t)2?!OY@34j_L!G;tz6os;I%#Aq+g`Vp+jF#2oMAMUp$nGLjV8(

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minicpm_eagle.cpython-312.pyc b/model_executor/models/__pycache__/minicpm_eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c63fec69e0584fc91ea82a53188e643f16c99bcc
GIT binary patch
literal 16201
zcmd5@X>c3YeSf$YH+TXdK#}4N@sdbgwhmj?VI34LAF&g}3Ibu56i9%ic0tKxz{Z(s
zQmT>1RN9WHNnFusQd1+hrrViV`4rD|I^#^ga80IwH&Uyar0w`qA(0*@{m}IPe|rF+
zm$s6oGhI<{-}}G&?fYN9_wY|{w}ZfwGJhxe-+Kx9B_`B|Q6g*KHV|^1up~-Y18Ynf
zq6T=IQpU6?YBI<)bJPqpbIP2yL@ktNNm<jjsEx+0DJE@?+G*UDa-^M6XWA8Y(KM5C
zr#(>*joVY+v@hzTaYw2mT^X&Uac8P3T^+4X*F<Y*+LfwJ`=fpucc%jBU^EDE59>|U
zr9;tBIvfqB>!bCQ=1Xl!H$)q0yaM7|qfInk3GwD=3yoK$TGMUOwsd>6J>3!QNJpZP
z^tR|W12K}P30r-cur-`z<VAI1itpPdIUeoe?6hnxl=Xjp+1pC>Xg949fEq#l8eEvG
z=R&uwN*_H_#z@`tu@hrM9M6p<xbE?>)Kufq_;89log7OZK6AP;J<f8e#>9AfBA!W}
zOL2{tl9}_3$0vt}lViij;t3#d$>H-Eq32_4bTDF&m=hU}k3(6A8^^{V^qt|k3?EO9
zaqQvov7zKJ&}xLqiHUJO6U&VAiSse+AqiEClJjspah{XQNsbp&skBzd_T1^`2gms|
zRQC>y4<|Fi8Gby$3BouJq{?R}<71iRGz@fnOsQj(JZIv3JeA^71E-I3aaO8*aXb+}
zrxK5*&v7gZQ^66j+)#Wnm5IqSilxTmEQbwOofv}|r8zbk&u}krW6+)OG3;OxF-h*{
z<!K0X)g+gi92kG@kmOKPXU;$~K4nc0WilL$a~xO3q0mkbU<oZXel%i{Dh^F%#$S?G
zcYuyX@+XDZ#6&Ee6a*M^Yyzg1=3s16dpbVK#kllDW-68}8Ep)@!r{h-;t5#jDan<N
zPo3jp6FfJRd_}6Bkk>E9;Wt+%o{)Ek96FW6+I@)p2{0{3fLTe@Xeam&Sj5PgSQ7`#
zI&C9_HFFjvX5p-?l{E}GX33C&wOw{cZ7g${L>bl&p`CSbj*(iW^^zCs+=TAhgf91M
z<u=LJuQg;0LZ3qn>%MG`x@XBNhN$Ox67fob(%pZAOThN$2jWv4KPXufbni;81a45+
zvAB~Z*9F{lYRalCtQ9u=BtMq0l*|m{$lYrluy_8#aGhkd%qx~Gc@6SaPBxINAxmOL
zwLsPgDMd06k~KlftmPR-sKiy%@*7HMeP`TiUKZu7QI#=J20oeml$9~Dq@;{0wMkhS
zGixa+V^`bBnxR!~JXtd0S96N*l39`w{0<wQV*V6~SO+BsKR&_5GUvHWJn3sEL~>Dr
zkcg*%3nYI!{z`0OTu35M0S_n~EhI@Ju&7(IfTRHyVPe1;$xJN9Z-M^!1`MD8k(}p~
zEX$3>gyb|Q*@mH)Oor!MFuxUpHVn36NuS&T<d4P9rN$GZl2@h-4Jm|(RWb`)YG^|r
za&>zwmPo|~Ar=!*0ypCG>VG}cn@LafP9!I~GjSez?|x-+&trQ>_i(+b<hkC7sm%HD
zvEGXy279S2j&ZMW2@njtoD_P~FssBwT4v#%i7CDV+MeFJ**@-3mtj8?6J{a!^{Zsv
zL+qX_HjxReGIjad@T~c&Gav4lHLo&3?H$^h3w4X3Zlnh8)@@yATkN`HS*be+rM-8<
z%?rmC2k#tN2_K@>?zZ<VUR>UDX8E}nSK41fQj6L!<H|AhB2&N0G~_WJ7MbwRnJsHD
z7Lq`@sy;4=P>#6@RNxma5B8PD8){)fMl_x%(l#lnXux7QLf$sqR@yA(u8b-G3AFU+
z?c>NdJe!Qfv!NIyp`=fjTB%E|)}`u*R%kb%Tej}A)bA12_=fRq(`|*bVNJA=0#}*`
zZy6*LHz7<rdT_tTkS8K`J_0RC_OZ!y>^vx2L2_Yq^rD>F$Ws~%Quc^=dF)H(9NLbH
zPYbaz(DyOuNb)AfCMGkn6bfS`N;RchTvMu26?O^3k#(#x4oV#5reYW4sY&iph9lXv
zdEGMb-7qo%w_hXQi-YWhU^-GdfKpx2vr$ewgVnza!K>tMLtEbEd;QdvQ#n_&=xSc9
zekXJ*l#3h^BZt;a#zqISN_gE$>U#5ma4ygx20HS!b=OC)jpk~1iM6}(!TOt_8=+iq
zuNd5$_lK^3^V&ComJ4nZgWK{g9l4e##g-?F6fH|`WbW+3w&kks^(sdlboH8t-wwkn
z<2sbyl<QdFhyMp$r^D&2ku{ZQAB~$~hwE@2YZ?Wa$PZ_{Ff;l<xku+^eO}ZV)rby%
zmdOvDI&7I99ns<Cx2?AoO%6P$Nuw!}(KIK_MyF-HmDr@D4*zdb@_)5zZ`*Dw^~+}x
zVFvj=_%4zYS(keSv~@<{aY~X;(am7J%GU0%`~g9+TV!EVQD*K^9quSr;-7%>RLw`s
z{6TEdk{O?fjncaOlR$`gHi#X5Hx>(kL6IpDBbwOZw?Vetl(&@s!Gfpl@rN+K5!*1O
zQxj5oq4A@#d{QPEgQ<c8G|E$DTq0k(p#F46Y5O|zMYB3$P+G`C0OF;i_w&R{go>9|
z5HFywcfPgn&3#MmI~P_$RA&eBPH)Z`5}l#>3m-Zg@A}*F;l^CJOAL4Ao7&#$e6usx
z^n}>-L_XATbKi}9xzG+VwBzp94q1dP?>_!P^UBu2eErs3eUDh*v+lG8JhMk$JHGBC
zfp%!>=BXQ}a^Ze4++Qxx%5q9OTDM!|7O0St?5dF`NN&|;17nR7B!=gNBs&>TB}z9a
ziUlgjehe#non(zOU^tK9DsOnQ#@h;Y1`O>H&Co6u19RM1G!USa2~Bc6Au^%~qhjrh
zqC~+&(M;oF?k4T%2r_k)(;x<>K`2Z^BQO?uUYc+#X}Nq}6~!DiRyOnhS94;?kP$pG
z<6y+dABW-cCm;X|V-LpnVSr}5<U}uki?Q59=DcK1$1xNx@EOUQo}2*k*f`k7aWI$p
z!&v7i1Rx1eofli>PeM|_or4xRRq&E+Xq>+k=h^8pIHZgTl@jR12_Hi6Dk*qK_10O2
z>g_Hu(6xAWC9rSS4e6Vn8=ib^L%y!PU?IWwHDU@nX59sb1h+06C}Y?kvTr5dOfH$<
zbH3}$Z9gS$Kef^}Ai4$~n2ars2gFG0Ig0)45(B%I(kp=@azD%sW}$v1(2J?Y-=}GY
z`0D4`WpC3m(?r=WVj3Kj&@~1JY7F3pSWI%nV&IER!n(&KS1bk|a7xbMQB(2gRPv~)
zB$EK16#667VB%4#p#TQJN3zO53M3~dQXGE<v)qb<l;BdSSPaar9-vaQ>q*({s>h}<
zzzrb$2!dZ<Ca{WK+w*<9^R<Bo&I(JzeP3h20`G#A_?s4vh_xLB8zvdzk1XyKYkLcJ
zOgczKbpgv4T*Tq|#0{~BZ61r`VPloWQ`i=?G~cfZT;G3ff58HAXe>~FJ$o%%uwjZJ
zkk@ssYoS`KY%SQ4<RA|3?Bwg&E7|!k-F*4R%gf$~Xy5j!6Y}Uf(s3tX$l9aIg0=l1
zeM+$vbkbSV_l<z2m{<#7D^|`jWL0n!Pt;0j3}<8Q9K$*&?&9PCQK2y`>tJ1gYdBap
z=hQR#S&u$_$jo{X581SyPrn{pu?c;XemD<~6wsGS=*`PkaXzksGwZh@BQ<F2z^E%Z
zGsSJp0HK<rRTQ_W1}RY^Rg~(=(+FDf&q5t)McgvV{<l*A4_omdBqzGm3T#8O`L98F
z%@9T%fcqHVYhQ<O17KtOEMW7f+F*o%Ha9#o=BzG^Gh+d|jwYC~QlJG#NS`bKNJYRW
zYlW1ihq7jUcQU4pBcmCvdIqQ-gabNDa|hKifOgYyF98h%q3}DDN2e249Uhp423=*4
z?db#a(dh@Ms1P<hZ<|Y;dd-mk1GJ^-(oCz`CCpLlL8ZYQbVpk<sw%Z?2Ay8|=&u%Q
zVXY-AQ&UnJ_1T68>=QHW3TxJ+x(^2O2bi}8=Vf-N9kPJy4x=^nh&!TW?wSh&kb-^i
zV>J1X0S<0Hmy8S4C7^~jWn!xTsiuz9@$FEM>J_O{m;g8|1(^Ru4U(;7`S?%<RTP&}
zfm!?cA(h#SumiOq92fCGfTDjq9?0-$2uRieIIW2DvX5aLO2|$Ebq$;{5P=xP4yh#3
z$Kz&|Toi#ss~({D5^upJg96l%5F|5J=W+g0!xv!p5k|IG(8@1Ls*MOERh7umXv4ts
zs;n_l`A*k;MmTCH;CCTkcnS0mqJY*C6!3mUI9JgtR`lj7o)Rmb%2f=A6$7)@yuT^u
z?-l*Mv#yfpeSOIAeqCd(u2Zb*M1=5HmHz7;*E+8EUMu%d7UH6-T}45j6eCZ*KUpx5
zs-`t!tO9T4s!euQcITRRiOsw2?9S~Q6!#6ThMtje$WYV5W?A7rw5*=F@=V@UnR9Is
zU0c>Hrh4iD1=ksU4+!zdpvVO0+bF#0dVh44dG2m?X#Q9(+#`m2mX76iJ}vHidbRpE
zjLm+x_r<(BJU_DR0@LE1eYf`II-e3dpIS2+w?jWaXS!t7j~k65&V$r5OlYzh=*Trx
z%e)VfQn*FWsn4K+MIYd|(pD6zo^DaSh9l&4Yr;5862`M2KWD5Z&;<H3pn(ANGl0af
zpkMJl@`g!u*RL6`)|sK+j8$!`RKH9?j)CT0LVJDM)5FozBzdRzL~JrgIY29e$vBV{
zGLnUlj}3FO1z$nYLK%XWt58b`_^6~6XoTAATVZ4ycRuQE$&eIK8Pct<*zkM`2-911
z_C7rako$TU$_S$n!1ni%`i7gQZ=8lmUBi6l<~MG9BiFEBY}mgVJh0|v+@1#>Qg?9f
z(7KycMDo>j`RYde^ViRvpC4O%b}4i#w%m1Kx%%KIc1uMin3Z)0A7HgLlLL3%&zazF
z9vUGn;75G7{!oaK?6NFLvI5@(#6&5MgPVeG43tXXzUsTK2KAGmBM4<mTY!4_=ou!c
zl%FTJ41*C9kJFdGg<bZhK!O38F8CzmN%rEQ3JwSsS$2}VvZ&MMP=4w_t+1XAMg9@$
z3n;!{CHd+=uDVsMZe2*ORBxZP=e>dXoiebnT?}m(z1x?W?K1xyhYC~y===8s<kurC
z5FAbE`u1jR39*F6VbG`YfDVNo@SzBTW_8Il48Op`H)l;lM%M7QQPq9L_E-Woo-S;8
zgq#JRe#UAfz>~<K+JW24@R4UsGnT6rW;_gpw!sEA4SxJvctCxc*kl?Q2Dz9|VlaZi
zc?@tXNv1?R!wV2oxe7lrudT7<l0PW@aspMkl11j0&#)M}ZPUTevY6r<{|vH)s}O*1
z>>>bX`#VK{=i-SK|8CSDp`5>6^tUg%R{Xmlt-{@l;K1&gb>9cK*>=PBL(5zCH|>l2
z@6<1Ed-{XtRvXW(1fB)=w#pBlc1<u>)3#dEHhc7=w$8jSnD^D^eStNbx!nWU`t0c&
zdqJ1fwu561UTu2W+quki(k&&~lzR(hEQd}jWjPmw*U2!*!yg!Cj9+x{q<&41u%_3|
z2@{pEA^b+H5xydTx?ta%S<^-EM_BWi0WG<#38bwpYle_{!vf#Xbj@_N)=aL}n_)-5
z*EN^PdYwIY8wQJy+B-;eyG$t_B+uBgh9hLoa2BjZx@(vjJ8RD}FcQO67wf>7U}l{P
zr6!BxeHqHa{AV09<{2mG1?HjwOJ|u8T%QdO<U7<|J;Oj5G=erftV<muZ^<%QD{XIQ
z2^`O4iP{GAbO`o4gQn4pE9=s;sb}246Yi`lYtK4Wi`W1{U~CTf!2&aYy{yduHQVnn
zgH1=(`8$jX`2B6Ssy*q*4#UVEeQiG4bQJ$y97RU+9I`IflhKY2)D<bNlDf8Vt-z-1
z%`xitF~DBA8i29do|m;c?86xo=ymU4!~)k{m<w>22bV@hB<ltFZMXoc;*a5DN!C$?
zGOAIOvWAOL)in%IZ45v;THQ`l7^T)d)c8|u!=~i(=t)5(<E0(&zYqTR0}l8a5c$`!
zobi$%nJ)DS(~N?o_eh4GX<LuX)YDb`IJo*#cp0E4Id(BN#B&#>Yf6ZTaUn*paj<1%
zxK*Q)Ej{RjfHbwsJ;ai%<SxG%<l-;jfDYn-%xp4|k$eb)vBi5iFi3&RNH(6ENWonx
ziQ&dr0dG+8=)v-Tj=?qz&<K=Fah8SS2&#9#g@jrFEE1z?gF-AFpO}Cf5B#5Drc)UV
zb}7{;gQPctw1SdTNz=i(>4hd`bm)O#MU^NwCOK#Yit|Z~a2^0qoVSHi>2L)csbXa*
zFWDAwVe85bB0<mUD$V~FXhire=+sxqL!+(9vCM2)-$J&)kwmV!Uu^DQt>3xswQqHR
z!L?=Aoc$LKJLa4PCkeJJWW_-LHS?XCd}ZDIWAmL0&n|ppA-%L`*|!g*|3jPE?Eyv8
z*jI34%mK9vUSi+!fIwsG)x;l~-<bo`BD8%a)VEUGKkNKeQ|n)~&bse5ZxdY&vq$E-
z^WK(4v*_&tHInzXEw+f>p5?w1AG{#;Jqs9MMerB9PKmx9bB_5_i-COAmIYR<+Lo^l
z<3TK-gA1pY>Q?;w=gjx3{MQd$JFwtit%@wNcRIzMqfqK@)wac*OVz7YyRk~38PLf<
zWX_UrY|S<Hi;ewr?vFrEaSLacj<5O-eB`Ss1j+6J!&;c^J7W;5ch8+%a4voY94{D`
zzXuRrJc`+WWB;OaDY_DRa_-1of6roO>4jDQ<Cqz4hpB|S=Z@xEBDt15V#}Vn(;roD
z%?Ik|XBJ1_|H>yOV@>S?E2*g~__2pV7<BaYnQJo(FRl8!ms;+OihU=bp-o!7+tP_m
zeRFmDQE+%#Yv)csU`S2VLhEAvYW1GHE0}ZDi!MNu|Jl`C_^N@lbQWGVfFfRI!oOL&
zWPndXE#WsBj}dF6hJOw=1^+w-FJQo6@FfT&6CCl$C^Fh+MR=JS__ELb5@t|?2aiE0
zn#`jj=f8}>bqs!l!B;SdLQsk-gT5m?26LG4pAaCbY$cEF`{2SuQ@zEJ-_lW_@4j8~
z`^3N}m@XWwv^ehjstOi(<L=m6uwe|4W(9b*W744k&rVFbNNsS<jj;}+WyfO8JK<a5
z0)gnA)}MC$qzn9B%Z>t5W$DuJXNW`V)j^6z+c3qbXtW(u2tB_Zz7k#zbc*)QH7C-x
z9Whwy7mhD}X{rB?<)^NnxR(2mh}}oUmSY8iSs(O&ApC6ar!+1b*|-7;_^&-0KK%pW
z)KYv}wu=y>9tL~n`^G4s)Nt3&1~D^WL58S>1vL8m2Dr;-WnG+Y$V{<o_hk>>{=;jv
zfNd*ztdFw~S=oxqR=}$(^)X;Th;?ynz^f4lc5hm*M!z0gy9vFD+YGVR?_a$|=%+aL
z=B?`1W&;!jH?u*g?PKcz1NU$?{gIWR;8lQv+t50K*@wzd@UY}BwZxB&^M~V;LL6?s
zf_l9SHTZ91FpI%=FhI*3)GBIkS^fG-EPuQeD@YaNlNr2rL!ALif(oNhL9zjSj+cCR
zv_mP_9x=%9lm=93XgWHjXqzHSuGK;Ke~hM^HbK)7W!FQ~E$BKIFGJGHmneVe10EKM
zX_hrulch*I;_ey_1FdUTm|7d$Zw)go(x9XchOJs*fbNqK@E<llSwjhe3;v{P*JZ8X
zS>oEl1LHvvNT1ABHI_AvG^z388>lVClp4!g%6c)Wy#SVOmdijNMcdOf(xKKYzWJRn
zgSKK?jg54wvEmy_B0jd^8R^<UfTX%UW&IPqYd5;{(l3d?>4pc-*P##X3uXG%0{ZJ%
zGOjwUr2ecBLEi8{PujNz9NaP}StxXU%fxG(L=UGZrvdvlLIaf3BH<zu&L@z{V!&Zg
zM7ePj$SvVA!wv9KT-*aUPGg9`$qv5cMN<#2%d5b-Q--Z+B_3zT{|yGnMf?y35e!fU
zNL866+#w$ao3SV@Bqt@xx7cOD;Q@F;0q4)f1x`J}zm#ObE=HXr`BL<9KY9xC?S6g?
z$e+c*aX!U~N<R4ltvnT+lze`SjI5ZdrJ#7(!G4LX)S&UlK<f#oAow+0t6|*Q_1NDB
z7!S2kv|70Vdw;{#+WVolT&Q0R_2)uQiJ_<RE`QF|4yZU-RbjA=1EB6}>vA=%VofU;
zjd!aW7Oac5m8$Le032<T+O{=fu0^Qau?`>$TrUK)8x1cF_Ra@e<x2LIsy@6_gN0pS
zh(Jka>xa%(#f+2(v2^6Ulkc9)?K~y!Jhc)Um_2fJK)dnNCx-f#UU=`T?|wD6>lqRL
z6d3+jjlE0O-1bA__CqU;PvKna?*sOJ^2*7aYq#jy4JeG=t-;}_4*0Ved<_CkOP~Zp
z3lHCG_-#wkaJ+#7UbR7$bM$Tq|F=*I)DD_1>a~t?o+-c9!T%i;oNnGkODfkkW&XgA
zj{<-mi}=81ZeBe0z7uX}`W#@a*&VXYM3FO;tYt6~PJm8gFGMIX3Ga=ME)=Puxz7{+
z64U^0r|gENEySs7h<ysUgeuOBnbYl?O^Wg&FfnRzz?p||VyKY-fb~|rK7D062NxB*
zk;TZ0cjq#*^YZ{#?c?xJe{;YUKa~2J6sQsa5fJk@=nW5wS^!lMc-<@)>zWbbEL)Ku
zLql)}P+O4_{L)i)IjoO58B_qsM`9GSY}jnM6y!3A%XAF-pvYyU`yIzE$I@eWk{{Hs
zbi5=o;4;qrQ9jVRXwG%)72z+i7a+-C`(jIO+v6hq1s|XF<h|kfv1M=9vT_VGShh*b
z&^X;B2O+ZQV(KnSR@3|l`WF}GJ!nZ*5(;{M0tk{-mZk!B2FoD3>mK~U)g%Bia^`f~
zX6sR24v|m+RSPT&Ln>=?6>VZg+d}58?3>x8vnv&c;e^mzGwYUj(YK&r*__c*qH{)1
z3q1<z7Z@%xr5NiKaz%I6ddC<%Agsd%KvW6b8c;S6Y$wx*4qjSBM`43%E2!#jkSFFr
zO%%cK2!0?mbJoy8K!Y_aL#Snd@D(sM)sE?}c8tZHYT!|?N6eCya-YC2K$3qG1KhT%
zXp)tZWQSkKjR~;*($jl3`xvDdO3!}y1xh?69PH65X7TGZLDQhI@=YBIqH)*NxKO>2
zS#@;*W<FoPT-CPhYNH=$no(@{9>BTW!e|n~Is9Q5Cje`qkdV*X{vKoKKf{&Q_=GBG
z@$2&cfK=FF_)|GLp|7i3j8>R#d6cPq1IK+7T7q$}8%_51bqA?zhQr%@XRmyydh)~0
zlk+EU>|Z|f!n(y&>6o>`_Vd-|yiKCF>4*IbQ%mhD&5y5m_boH~=+r)gCrGsuGL{D7
z9gZQ37+Hm8tSFb-1Swb~O#mi`Kebb86;TNpkoap{15_#-VTdmy4J8f#Qw(s^e-R9^
zh-ENn#pQtCks=K7&}^<j$iN-QyJ`v+xHkB}?bu>nHrD}I6YR`awLJhLq-$V7nmQMp
z%jWv~hYmj^Ef&YZbOB#?`ai)}VbGu;8Wsi7z&9cq_&zbPhVO#MVA-WY5)f4(35XV~
zc1yPgNkF^=lE73ElE9SyZMZcj=G9s(wfFsDdYjGyacD@!FXqjnJ-lW^lE-1$zX^H)
zIVyMoQCZU9vPF6&TP((oC*UVury(tQ6XRgXCh%urLQni$LjDSP1SX$IyEMjuy-Tky
zN+G-z)+7HImHv*jhlSq&@_2z%;8A+X_r{<E{`gOZqR_sST4+VtbWnex)g#-~@{8X0
zKrd42{Jf$Y4PR;xw|`Cz`tw8ON3Zgw%l^+PE#Gy~Y<z8>%l5n*hu5uFU7ncC<_gFj
zo6ICrf{a|dX&r&PFo{1S=FtI_9Q0y7{O*(!c)TseS7LwyRkA6+S>w@L=Fv#v;e3kl
zM=+?x05z{<k$a$W2u(41T}JjnP_RnY)0CCzbpdJuQtr7$<So&QMVS3E;~wNCNCHa{
z;V&U5m<$HPgFa$7ZTKZ|-Xkr)B(8g;`W}h=8#(Z=r1u`#dyhPQj~x5dXfhZ-VTj?3
z;U4M!5AuXap14O2-XneR_o>kenFNCM%I6G*=6U|+)Qzcig7E^FGe-Zq@mZsxe%^S~
pe#5>-FurC2a)FZ9&zrw)FzlZ{cQbh-xfouWe*eHH1Sxd<{{tdenVJ9q

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minicpmo.cpython-312.pyc b/model_executor/models/__pycache__/minicpmo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..37941ff7114c8de74fda78256d7c9a1ff142cedc
GIT binary patch
literal 32959
zcmch=32+-%nkJZu`vypW0B?dfDN@uy>ZT5g)P32OELX8?!xRBZpa7CifU?B~Ydjt9
zZfe?HCTF@@)I{xyu5pE_EzcG`GZ9vG%x<}7cXp~{dS{V_x`544MQOGj(_Oo<vrv&9
zcUNre?)Seu078)Ds+rgf^5x5S<;(Z}_rL#oKmM)LY2$Fk41XB?Kdy1yU(thlnUu)-
zuXG%Dn|qlHbE90C59?xlTsNwV>qqr*!>A!{95wQku8*1G=23IpGHQuiN3C(&sEwr?
zV)jux@{KWj+%f84X{MMn?izKmxH;yIdqzDhZi!XID@QBi-cfJdH|mR5jaIRAYs?=H
zj0RZT7ORfejMlKYJysj98?B4ikJhtiN30><INBI*8f}UPM}sWQ8EcNWjJCvEM_c1<
zqiyl_(e`-9Xh*zrv@_l{+QrJaV%_mAqg&!VqdoE7(O#D3j%|(ijrPU2jc&uUCtMNR
z9^Wy#BffKVXS{#3KRz%z5Z^VrE53VlcYM$29#*C@wl}_SbYFb`=>GVD(E~iE<0AIS
zx78sn+{4}<^77N@K^=F33;W*X!c~#JAL^CVLoC&g)Id?{;mD!L;W;zMjUI{EB17To
zK@<<yL=2Imc+c+_+E-%}x*9|$bm7`}4WlEh%{sJMA8FIxbd04oAhj_vprsyXsZB@?
zMs{ndCs=ATQd=VZkrULmmUoinwIZ)Ava2NT6w7NzUPr_+`NwMS3U{rQGpuAMN_IV`
z<XKj-8zr|ys<is&FyeKS-z&7N#v-R8Cn6_5?oms!+P$c~HL_Dp`=L^J^ukR;ci-Ib
zsi}#G5Sbc}Y@MEp-3*?KPDO`bIJfmeFg_iQ#De3~@tLt?^hzued@Gu~7Cbq7^=fqL
z>hZC0Bt)WDuO$<GzoaI+4U%PeEEXF>QOR;D84*~_d~R%J1{EaB#mJkp^d1zn4oyu>
zC&!YJu%sWFx+$5@MyY&EvR=A56B&v{#}enec}X`lh0t+yEIEGdcw{U&D@5=dI69Vy
zoTJWNm`%>iCSO6fUKmRx(XMG|_|nef=Oxc8*P@A;h%l5)My8U{=_$#nqzq3_O+>Fs
zF6Hsq)HoUv(5mfnEEbn@@#LX*jLgR4H!sXk{Y1A;@}7J7?4?uZE{qJF4ZU>i#Hovy
zUizj~b#6A6jG{MVu`_Rt30D*N@OYwIFI5&YM#hq3Bhm3>apB|9NGz;$#(6%Hz))O@
zOeLm;M7J5kGaHUhQ%jPUMPCr6$0G^kveu<aYVBD3N+cY{$jWIB)`w{FCcRCnD1MR)
zcsF-QPV{X~d|^yTU^Mhn1>P8+Nxl@BiD9DS7(~e-C%rrq#=J@1;-`^Fax5C7F>=Ts
zadG@wBt9nDm8WZCGm&2sD!{i@h0YCqBXs<wp>xMBhF&=KQt0xjkz*Gmy8?HYcZPOL
zwdw<#fm2hM<iye0XbdwY)vI~sdM?#HnX8SR<X1D5BpSP^iD}6niUa7!XW}<P6ErQM
zaRwwb3`4WY=~rYZKRZ1}@2?sMsD-9)M1+ah^jjgo7fqVvh>zX85(&)+k%{Qrl74(<
zc3fF!>}F9O)*m8rn~QLxJa!r#_8WdwAJ&Z;BE~SoVi8kVPxvlkj#wrum0CqNV8pWN
zgrx{)5-tuK!p5*EY`VsOZ2qA^t}Nq7w63Gpt^axLTf){KV!xzIYu85Y-n4f+wAs7B
zKv!9}@+8h>Y(ZQjQ9x9JmeqdtOlez#SMV5QYdx5V&P9S-f>X1AaUnQ85gelhk=T@!
zh()m`Hr0Pl^`f%l`-A7T#>cOXO-)5&#cjp*2hT>Pt|qS))j{tHb&B3DxmfQ)6EcQM
zNQNYkn54(|Nc_0O$L;}#g>O!c#iQe)a5SEfbXTS%J|R_Zsuzl3OwQkPNS06tWh0@G
zWDAAj)8W||#T}v0o3mpvCC3~Jg{Q|uAz=WcE?5yr?obGyL0FXr7FmD>PBJE^h4E{W
zNnVMPAr?&}g*N2e<JJ*!zdpS!8K2oU6P?+b1p103x4u2QXW!oIdm`In(JR|#ZYHly
zPi?ya+_(*0iNr#Yw<F_N6oUMi*rqI<>Asnp!cH{Ef(wWw{s_VEagTLoqa|O-b?$j*
zWT7)%*&^CnGlt!dd<{8^^L@uH$6|8%*xj>t&WeF<(bE0DTD*(Lmit%qYyE5O4=j80
zdfvMKv0h(gTIcjeQ{G}gYYwia<*BttmRmEHMyeM?y&AQi-e?g{sQoLyHs3|||4(bv
z`1G}T)6#9#u$;Vx3aFl;!nrJi%BQWOufGbO2GR0*ytY4hG8zs?rsU<=6`xHcgK^r6
zgR!xxtFvQQBMOahWo-QVmFcNSw~cj7UOBXEBV#DcmI^A~4Bi+MZuSNf)4`dsL?ReX
z2FDV?u^@qDAFC)i<P{O2tt}zL_I{eP0|+Gkny?r5^TI(&I!*zb(32E9tp?MGBnbWr
zpx53{ptsm3+L|+losTN(o&`J0iM7_Xst1-m1VQ@%L0;1aL7x0BdJPBxnMRT)N5*WD
z_1Z)z%BE*rA$n1iFfGRsxx2oK;5L`k^1}Kkm!uqarMMp|IUn*#qnbLYvL|W+?qOan
z`CqzRSob~shx~W=iy-CBOGY*o-Fl%PFBJ&63uh>xaR;Sk2!jL>dMPD<Kr&w;z=(vq
zdEq>s6ZADffu^Rgy-si1UWJRuBx*iE?Y_f3w7Va3Mu+L4Ex1yXvGwHjc=#gFn+*(z
zfq}JGGJ%5+>$Yd>_KJ0T?*}q<Ll3LAWUF?HRXf-AWU3CVTTwjE8I_qTzrw$bH~m4;
z8V~akJ@^Xaqyrfxm%Ouub=ZlYQ|7ANibdr^XfF=y!-fgd0yhDk@Lk8Kb%A@EAGKj<
zO&X0-y0(dM#JCdq=3;b6A~Z2J4pe(nG6@k7zf<SOHGsh@2sjvM^&#?I9>9gWeBIKg
zxIY3IrFi0Hukk6}$9k0#;JKUf1V`go!E91N=~#f>$6_EKCAR=NJt{=P@@yr9SI{O%
zJ7Z!N6gBNmfc|7CL_m;;#3qEx$Y+HlYbZ1x!_p3g5=3?Yjl9D^KzJQbb8VZJO#!FT
zclW8SE}~?j1Hs?E!)<sttLv6ov{dIDo?KOZuAwJg-<zxJ&RaQa&6k|fYGbRi+b$eJ
z4dE~aM<}2bB<Zo!3B&X_LIDjGgH_fW$*J^pJQ9nALic##4dgShJtFt{Whzg>`;;+`
z;BVjM@;ax{_Q+MWIKI5=?%<ulw7*kyb>)pn&6~KI=A6^FcyYP?ZttDmbXAAw>`Xhl
zat`m}aJr^1?duaA+kjS_J7{CF<;_&f#o1h6xe<HJA&{{Qy_H_5T{P8ntzSX#n*lHp
zk}7csV77vQv?-viCxUUpz<|^MAhk0fbpS|>g$<}2nJrKGH_(^!;|d)}z2j)oX_(i;
z2pB|a=q|-4wUR3BC{z?s81mJR<UZ!r5*N9oN;z}4bb#q9f@u{2qN6&ni86qiBwI8Q
zok}Ffz+wt7q62L57?u%U!=qFYnj!WkB=0e_&Vb!QRFFaN8;B*S_Zrk*!^2#k3bo}1
zqVI_&KcH5KC?oi_a1Q@s_<JJ{?9C6oeL0WsVbiV+qu%Grb9$$1!^U~4ZoMVCyH<S}
zcVF7lCquKd6q?z`jG@gUXs)M6npdHL0vaWO`YRBG2n0OEupFU83RWoN7y<^%HsiKO
zuFA#!W#e7P9Y@;RCc4^J9c$kdyAF%4!+9g}0oArTqQ{o^iq^K3q-gE=%8c~K90D0y
zsohP`N_!q%>wke@Gqe)3LkO4H90q-g=thG<GnO_4MPVvoide#CVp$@_2}{`Wu5r|g
zxCw$DD+E0@C2m99uEgz#JCwKsai<b@BJNV+F2vnoH*424VF-Kh48a$kE9IVPh~G3}
z3VV@T!PZ43z^zK-Aunv^A%E@d8f0*FsBhcgHaXTU$SXu!0~if$h0xAPD+ELUV)Av1
zm$9}gq4@z}Z!XIJfVO1adEo^V>(<G@8~~{v0!E&h79ctZ#p9t^G#*WY2bV$m4U|pL
zic?W=9Pt7$Z|;5HQyTk(8X@=sFz4LEf84&*DOT>tRQ9Lc!)veH4~y>Mv}Kq<fn<}H
z6)`cAef-+&)ODF0k{t2_GQdua(*UTK5fO$ih^o5HrMSuBp;AhzgE4PN878T8$(6$9
zmeK=dD0vsTdq4_0f#^VC1_8D%4}Bl#vl&&4B2`g}++!x;xHe6~g>IufcvDnYYd~@o
zS4~i_v9kqb>PDdHo9k7PM454Y;w}FIH4;Qsy~BZ%sjklkdc{C*CeXLwc;v3jx_5}~
z9XW?TSKXScY0sNE&(3wu;IZX7gR<XkA~4a8Jcu;1x4D}<Amx`d@r+W#zD5|Xm>jF4
zPY*{X#vr&-hhTa-7J>+BW^U&*KIAEN{uQ-PgF-OkVZiX*4o2U>hRr%CkleVqdrePv
zFEJLMi9uKs5+He++x@k>xT)U1F7Br9$!^k+F<{({$n$`4l1i6c06ZRmCpi^hlZ8ks
zlV7|Dp7>@4pT#BSI-l{8#RY$gP9%r`r@{AT-OZxAIpc24x_682-D%72XME>NsP(+>
zoCgM)*QIn}-5hi%K-u_i#8GozpVFszN=2xp0#6yv|1ykxp`C)a5MYD8NjC$7M9Dg%
z0-NNWxH1MbL2?t|iV*uQsbYL;YIBlGODgO{BaLr->}>^hlhfCMazY?Y<p$<<J!9ye
zUhUtai-{u$Fp$3LtZzW{4P<<~7p%F)=Cq|Q*RXwUhuAQ1ze23vfB!|X{!rRdlk+sM
zoDw}-*Sbabf%{{k`*7NF_{kARqff5TMkJPB0G*q^kBv$qM6!1XgCKfT#Y}UDzSf66
zwZ4cRXzRA($!=>4;v@<_A5eh3%V1{}djm*-A}(^mJQ@RbzD1w^`*NHRlw^afPoBVp
zylpA7?b|#W@@&ube63HH3qL^fi8ch7*{Ygs)sR><l&KnCu(1WRQ*`glxChqeME6kI
zGQ@^K_(PN~PuNZ(=ec76LiJf=F|RKsds8|ZnUsFc4mFdq|Al#4V)CX>>j-q}@8HG;
zOwvcEpz4q}D(a}@+=S;OAB|+`swi1QY!A>j?9i2)p~CP#a}Rh*ogDg+AW03z7#mvk
zpjbVasXnye%r&)Un~sW2M>9<$X-oY>cje;#6{qOkn%+JldPg$uV?X6Z_o=ky6dQTT
zoQS+hf>6l{ie`Lzb}E_J#PgC&lVR!o7%EJJt{llgJg>?@08f=K142|QV|Yp#Ls1#y
zvnLf3h-sWRp%m_=m$nRytdtq0=u1j2kTNEQQOy*pz%Xw~ssuHcvLpc}@|A*=U;P5Y
zz)4Mpp{CATi%MGyr2$x`^TH^a5onQ1#v9RaWSWte3~fV8qsOw7w6(`11qw_F?@<*k
zi&YIx2oP8&Bz-(Og<$M$fjIbXn+&A?kY4nUsFscJFKa9z$60M9&Oj?6d9*Uh3*{6U
z@MN%-Q<4yM$J96bsFvIdwiU<?V-#gltw66y&4f@0+Lh8}5bNG&V3%js{5js2pt%NR
zXXE@$w_jU&ZDr3Y&`lrEO;zJFpC8pVW$OmSx`9mH?)$Z39Z2iy+_TakS4jIiL`O%u
zd!Ojox31UK+fZl2#06V(j`|PvE2r1^OmL^@*!f`K6taWJt_M@<@ut0<s}&h{PukMM
z*4;hbC3)t(CA_EPlm{LvU?^y(m|#U1!xswQp@5hQ$#4ZbI-`TxMlYkPcPN_>yo~Az
zXoMvSzE8mw3dRu>GpU4I1q%LK%J|<9fJx2yy5BjMH}J+0el@V>T^qkY^2y{{lh{4<
zB}a*%pc|TV^$m}$4hUv^fxHoSFs=UDyqRJaE>N4NJWPnqxo)ReJ#Va7y||A06?qeH
ztXlI@yo%y`R$3{(CvP$skML`HP~N!b9lWvfJ}Xt3H|dN=`IYf?j_!Gj-guf{8wW#=
z`+cO+J#VWt_CBic<&C(bGd`7r_O|8Clw?6)zOo`F?>F?(G#c8aF8K8rk~VYDvM^HP
zQ4NaxMi2Ro37oS9oU>6CYbvEotd3cEG7#SlUf42WVO+QQU1yPa(ppg8J*j+UtC(@M
z<#)$#qqoG=rugTgW!fVN`IKCfhLQw4$~z=>O-(>_%K%2XqF59J^ox=}Y<ihZW{3^!
z+@By-GDM-}6+T2%=AB)H0>Y%+hx+#Iq{{WlD2f)if{GOV9JofP!dcOT@CI68R1=|;
zcVtQ7e}lBSZWU=fIc$u*F1&A@njnECan&VA;ZZ~L-EZFcX0~Af#3qQ61`s8+U$}iF
zCTd@aX58D;{l`T2v9#qF1D*2%VOJp2cxYNSRM^B}(}=O{vJ%@Ro0;;PVey8Eu`N3@
z&)U|?*C?~asT(2N28}7bP?6G?hZS}En}P^r-V}ytWKvxf_$c*C8B>Oo3BqmqN?cKX
z-VBk7O@89ITNXeH#ALFRKrQtHK4oS?6+<z!=p~aZq!6f=l9hD)0(M4NWH2}q?jc!5
zXGD!bo>+h*8DbPUV<8#S!sLwBlATcar__}E8X3V7&EuA%+Iv;xtF$7+9t{H9&I<7N
z&yZ9QK|B-wl%{@-8i@}O00e<SOLnS94$u3iZk@_H4vLP08OPzAtMdKmt!UP@M|ADU
zxS$l{o%{28&RY4{#_c}BFK@Zqcc*VP@St|bXO|Y-KzNXXU&>bXh*dqgKyY>Rv%@Iu
z?*+>AyYhNNjcvi1cj!H~hc54}tD>uO)x1`7|8&N6BCkj4BUfGCh&ynqBJhy8hO$!r
zqRohwq2Q&!PXUce`Hkiy%Aw#__)olvfJsA*#^XGCqF=kXW)ZvgkuK>tP&)Jsxaa-c
z!6E*!HGo})5IgRrh@FxwTvh$@aJqR%x_*b~+qrg0^zF-2CE9-Kzp^9tm_s1red@y|
zysyITx*zMc6z@asse?4qz$B!VVLkA?0a8mD-<u&JH9<m35>qQ={;G`MvgygX>4|4g
zc6nbweUhX)e*5}tH?d<Ma)uodSJ=7fU9N~5yOJkTK{9J)=W(NKW!Mw(mXwwI<x~1)
z3Rj?CRZIr!2Zr|+6levJydrm-7UbOtqo-Z8qc9wJ8j)fR>~D_eAZ1iqX1p2f#H_N>
zL?{8HDJEc-kp$z`N+nw!8DBu}AZrbT!kR7fA$_H#VI;~Wn(z%!mAZR!{@UBorD)cF
zSo9yx_=h(1I$AM0b;WEJVQ$(K2$8b^p*@H(v$&UD<rvr}MXiE>dSK@nW+X|d%9w6`
zeF^vJCj=?uy5haHz<8D$j`DSCX;8ZHVur^&zV~n5x|wzNiSE8l64Y%a5>&~oAVS7x
zUT21Tk`3HNNRDqBFVd~B@%kIQ?CHdf3L0<o^M-eHQ4k{lFsfH_sas$<J~6CI8KN4H
zmE#e^x`IZmu+2>rcv)l8slG5}ER<DwLctIvF4e?(=T=J=?&!0p@TA7dS)yI#lhDS=
zSIVe<J#FmRtc@ew`{r@oRfthuL(054WxmQU>E1INkb*6mkAkd&egj%^(r={nWU+Ql
z2YWSz%$PSNNvz4P6p$RD4ctw1SHA`Cu)J>_*R!{v*RO)0oVUzdQ<g9n=6+8X=2F(*
z)5&NA@2)g(^EQ@mqZS8Qix<%!p7rT1Ii{bt&RgE%x-I7=ld`Lm-i4_HE)|R+pdvNP
zz?%^MJIep>DfkHj$ud2g3|)`hOmsVBy5UbL)hR0<HMk>qj*{wIR#Vne^{Z4c5V``}
z)6h6fX*cOC<V8kQtfVJuK|dFrf##c}XC*xl{)`IAFAS^1tYTUto2W2eUowy=QL-xn
zMJ9F$%udaW!RAM)rU@Gpb~LGy9k?^XS8`zl$SzfR$J`c`1}?XNH<#_8g?ktQTeyM7
z+t-(_uXJVnJ!wbJ!tu0yAm^=GI7OsHMb^<QI+`<%)?YYlZ@spBV&!tWt~cY{`U|K3
z);Aa5deA)h;LwZd;7b|j#k`rb`ZpY;c8x!1Kk~pnl&fo4IGf+XdFmm>&3AJ3!ED_g
zv2IVUrr~bQotkXTcCluAx_ZaI7{2e!3>+7$kLPNdf83C1J@Mm)HRH<5-#>A`L2Nyd
zu0ENo9bEoqx^{5Yxt0`b2Xl4px!Nu1-XrOnp}d`|-@DG4>Rk(GH>$ZUTXVi3XaEoZ
zEV4`V?S|TSOXY^q)aiO`Kuq+tFODq3#)Ye>`iCzrJC^H~9gCrir#-JjZr;c_+a7Z$
z4D*1#WBkI|bWOMD*aGzszT)qG)ylP<<o|Bng8~VX`uwYaZMfU<KiH~<`%Ifqmqz~+
z2tT22BrXce?FrhrtO%>Llq$>BD@3n4y#R0p#{M1Nsq$8vmq=MIDvjcETfYtjX|Fg(
zK(rtA7#aHvg0eE}Y8GA1E1j$R)+RHqp%VHM)-UKav%m2d>-tEos%#EUTGZNO`9UUT
z^Sk^XaDTAb7RP*x4KuX6n-rDvhFe@YcDJ0-*F3C)3%Gnjx4?tg(uKkF&zr7tDZ}^q
zf}}5O08?c8*r+l)OQbzEod<m)qJP5Y6l4%c7W(2)H2n4^bsg<?L`1J&#^8QecbmIq
zD9@l3>^YJKlxJ7bKEx-@YHC^Aj}s6Q5HC}56%65Id+2%HE#st078jMB)ONW-Vp7}B
zk`-!dvQmwuv^`SYtJM3veyRe!(RMSn29`!a3ac;dN0Zfs5^4;+tW)EKdrGgqBdk|<
zEzE|>cAi1WIpZL7<%ham!oS8-$!1W*cP=3pCQY+(60pt)|Aro!-caKop<WkSDA^9P
ztjM@5u@L?xQo2pTU*ab33tm{sT!l%oTu(8z{O6R-;Dh#)1mO+B_V36Nj$(DWP&g7W
zcm7$cmC>*A78#mlhXxXTgRyDsYl%ZlA|iL7sJ#hV&i@#%#&XV8HDs$g#j4Jn2YltO
z2YXJZYtBH1>31z0ClO}ta>s*~gAd$?avi-NO@1)BR-NhCfB%r!aXRg3&D96*p1N}?
zTR$Y$4?Xk+zNh~lc(Q>^^)9IN&`3k&k`=64Lu<CaU##z6JDI6JxM=;t+mZF|6umoP
zsFU^dh@PI+QyI^0bYNYx*^&7+!lqbH-@;8Y$sB-WFZvLS_iL2rEi(p%ZCn<i2B|HJ
zyp5MEPzNIfl(Ca4<nbypR}dbeuJ8te1g+XP-k>Q{g;Kvj%G|c!aDu);GjI(xe+}y;
z*d{bAy(I>AVlHy6`*O9N*j}sqK}uKK7933QDvvUaA=IIHgU9Onc=$hYxaHf-9$U^?
zlh@<^g`*)?6U+s=a`ihl%m$|`Z$xUIGpo$XdAxDFm{g`XBe`j%ZQ|K9;#l2(cxK^+
z*<geawZu@IV#%ctDphPEfW9Z_d`Ch#;4!!3xx-Uh<?qt~5t_mHz<jGi7Rgz*%W&~e
zkkK6|5upoB)F+|=<q7`*#l|S0r74>#nx?NzV#NydxdQE*0_}!EBL#$(1X_?nGX*rS
z0&V)TE#qHN><R_r2#Uq&pHd<PKI-#D1Wd}IH`>xIyGc%M%X?JWxlNIs;|`LGWaku<
zW#<%=W#<&DZa3CHs;FM}E>A4ii52a6BN9|eh-vwN=mnHek}L^X@h_hdeO-AgC83py
zMekxfUC|0#vUNM9o#(A2Q7LW^38f8EQb~i9w7J1A?Ud&4M0=I!7w%}LxocIwdU@3@
z1_$zHO0sa(Tk}?mp?2kBuV`)h(oT;r@kZm0N8YBq5%<!XlmwwYx}OG#TG1m~d%v<G
zQJ!}iWg33%Qa8l)H;_~+$ARo!UnI3RK#Eh=0GT8^Wet-Jkn|Wv%}gR<!FFPXMY?th
z?FC_)KxtZ#Ot7iIaTCc*qzfXORv58adi<~d6ai6&#J$UxYCNnmsytWFSC=DBh%yZG
zAL~?tBgKW(?=P-dW)oN6fEong?0U|-$QWhwyEHNbX3hHZmtf0m$A_y{5|V?yUVAcJ
z!O=pXTSCvw4p<<@Mlzj^PDRE9$qX|i+;>QZmm+6hmJC89HmfG?RAn1~O?Cf<f;SMT
zvJH8slr5d>%S?x6;rtJ1IUYkz>~aq+PG;Zyz*74#P;>j{(#_S&pLM2Rxbz_K@`B+#
z$3vh0_KBqv|L7DRtZIo@KHHOi@#P1B%L|4-a>xMKPrdmDf=zlEZH@_}GeHktU3!%l
zQWT7ARRRWPK;`)YT~P_0ik0<39xoF9BL$BUsQ8&WDmkyQV<oUSgFRPbGp05}Qv-2K
zc&@J87%G{IG=y8x6f-xtYrSJ#Y5S=6gWlC|XIc(rst?2Npt_z+T324nRQKb_4eqa=
z4OO?b6g_{3`uI8p!xW5Aut7mttok1)hk{$whXF(wRy7!3;g=II(ZhZ9;+O0W5x22n
zCGt`1gBYm?8`fq&O?{I3ilXwYQ8Sy+hPnvW-$qUuv{9_=W5VA_7YdeKWI9_m-Bdmu
zMy_U{6DR|5Lct1jV$oE9n-9sJ9lHtpf0JU@W{uG!V;=~Qs28n9hF3_3^gO%*qFcih
zY6C=chqM-pOdq)NxThR*fOctzEV&3zL4r%G0vFz*VU7a3P)^VVxK}4euF66c>d}sd
z+3;RcJ(OH1K}d#ON!sDrg|Z~`DY=-KiwkMfic&-blw4@B468F4EGdS^@_k3E#3+<p
zDuaU7HKwU(WP&Bd@mRi{^6xBao!Cou6}7ItQO$c=-;2iGr<Might021vNCRlZF*MH
z<6eu5g%grFEKJW}7ZAQedEsvnbXOHN0A$l4%ScT4HD%MdN&y^Gr(@wEvU*_W$Caik
z3JFT1l9kTDP{ApAE3vX=a(-HfOFk_tBrldJqzeBxy@n=O^5S$)^aeYx8Jd`#!UG*t
zFHW3-`Dmex`W^o#Rd%a=oS2ZedHuxr4hg|d$ukk1f@w_Qo$Ah|4Zu@(u2zL2F0=Br
z4eT~yz6a>T<_#=Y({#7-P9t_I*Tb4_(oak+P38RcS^t3OAISM?v%X%@*PHX!<orz=
zc2lj5if*{L_Rf#aesFfp_i5uNjhVJ13x)@l=3JoR_P3Y5&Gx{C)|KPgwnHNR8V*x#
zZLXy&+j2l`IY3WM54}~l_bu&PzI6BXJFl-^&TbtRw+?5#BdBaq^Dbu_`o)I+wM(DA
z{>kfVUa;jO#|MtpOFw%3-s_p*;DX^VEed8{rxA7)CObZsxGwLn8fHQXZGZg^a2+WI
zU~E>_hP|+x&XXRyxD7Nzmx7zn4qZ%;4K+eRuu={Kl@*^*`xd#C;t;7CmMWwdXg2hV
z%z2T8nEV}O1S}=rq2ZuHi+E2(;Yp1Z>Zz-Dp8qYstvsH1-nVgOg*zHA`CIqqKYOIh
z?H7eTqTCK~y$k5Wo@{t>Y-#2u_<3W>h)rBiXCMfS1sj&@J)OkQNS359hO>K9SG(N;
zlpdVGQNRdbn~HzNVhVzyEGq>D3d|J11rAOcA&`t=I^xa<Cdmvx2xG||yM;cy4U!MW
zhih+^EJ7p^4ddjx#D^FwLe3mC0h4-)f(Wj;mS-Rzh4Q<Hw<mTYU>0`1<^>D0H{Bst
z?^xTKsXhW)udeCtp*x2lt)PQ~My`Gfc-?v%4iPRm7vF^FsHX0&^NurHy;ZE<nsd|u
zZM=Ht)wPjN&wX+Z;`o|ASSc_A1v<{Ra!{<^zTkZ14Jt39N~`fq^&lfLv(;O~>Mg4S
zKiYe5@7lRc&(Tcv@PhMUb#2KTWOJVT$)C*sc)s)<4R<YfEGrF}>TTs}evQ7_tF!h-
z(cbuB`$t<p*!sDB+rxSqi~1uA=g@B)xL+_oa{CutGWlyOC4W5xBj2ImYtz90iAq!O
zCo~(wh%g%1V?4M#pXYG9@BNZ)`L<?b;8CFdc4{e=HzE$Mx~7rn^1PXzz)-v2ufJ9Q
zl@(7iNldMd<6pZ}8f|?NNu?w)1mSeRRtGx*SVh40?KkA4<uhnFXJ%$ZFsvsuBG?LN
zE%GVv&08TOA~tbZB*Z3+zD^>Z@)U0Y|2>bFE~0n&au{31pHO}36!j{w@Vu@_=_^yY
z%1#2cX9ZKaYFrwqJ9SKP5Li)u>Y(ssM=2R~^aOisJIB0GoW((X$td9Le?)Sr<OicN
z5)2$*KSex2qL|!}_~=uKjmEMgtkD_&j-cxj2DOOJSoS}#1RwgVZ^xJ7Fm$bLTE3BO
z8W5WX9@OlDl-B9`_cgl~VGO}l^sMf_|KiU)hjTT%9#h7;-WUMI@kjQ*`;`ul%!cn%
z-%vI5ye_7&(u4#IV?JZIpTTTD%?tqhpEC03w|14|a?0)Kzd`LXJ5S-*EcP>PM=Zw)
zO_txe35rXu0_3WY2RqE)rtNZ6fu<ZOv<+)OjXNlGB@9(p*r3Xn7?q{b{)JNIMww0x
z!VExPZl4Vsh}$AF0Wubl%>+<hpE58y$oQP^q{<~16mMKP<q%S9ON!#LprV6%&jf>q
z!k*5R<NDN58sT1hNud$V^Olq;Wt@;HH!$)rekl7cp(EL>_MjZ^ceSACvZZWjqfISc
zxL*fk3%W2FSXc#p*g9{24{p^`7JRj)TAR10a2A(_X5RSTB?IxForM<ESixKb)JjqR
zlVr)mE~dh?sXQa-8T<KrIsyLkAgc>UZou;ov+!jH%$Vi60H1sEfvV$|fXe6~UIknc
z;Mix8tcejsIK-<<PD@6}F>dUTOtKF%*0d0$Hi#Y)-1H{HRTBTPf;(aD5fS3E@O<T#
znar8#M3i~jfnx;nZ&e_hz=nePggY}>%-2zi!)Ot*#IdQcBuh<*k&|o%{!AcR8`dI>
zbZVd~M6^jxS&<%+b#y9six;!+D4<|jj)sFl;kPB{CcG?}lhYygHm|}w(izw*V^^Zg
z)q_*+0(fIal#$GYG)U?toTQ;(q*+6GRIN~DS@bsXUn5|~9JO89nk{0@mRzO(_LikB
z*~(V2vNc=TEmn4~wSBtflP%eu!{W~2?9S8T&eI@=YI{I(fg5xc5oZcrwg2A!wW&<c
zu}t;xBI>9pGoI-g$y6T$iB{b%lXR<NYZYrlnd;q0ql0{1P(NgS+eF{C1uL8mr5ksz
zIJ3ciG1$L0BnEfm`A_+D<37>1ANkeot5%SbMelkZm1yB=>la*KwDhcw{OHWRGe2wD
zD>@n%h8G*)tYURO-3Ola(8Bqgzi#0K&YQhI{}1LLcJwfXW#vDaB2}fgW7YSg#(RyQ
zd-voTTNY0|HgTRnF4()|{P#iFku>LgE!fzaD;J$mSTy&oj)}qTOU`^N*Sas?!NH2f
zeaF4(WZ#>s>0CXS-m+h;*^e%{J93RZx!NvRo;+zwTb>Lop#TXgpCJk*8&!dV|Cy%$
zC<-$&&}_6V&wt6`mapcv^*=WELm^Y$z{ox$;u;YMX9CqddCDeAu=y)1Vlov-jVe}!
z@SMdA_2s27j+bbc%Al_Q1&SAwhF4*M_I;3rVf|HI*zi5wDEzlDGg(MLVcu#CTbSzs
z6S)!iq0-!_Icy8tzsJLL)dF)=qoSa3z3YP0fs&lC`&|><4|pQ>hy$(+oRjrhpR|a)
zoe(0#8{H9RzXoRmWXkG+qk)RBcS0Zbp+8ml_v1f+cFG{#a5d|5`FA+NH8A=0hHFt5
zY+>mI3z0f9orNb%KYBrLDAQBwBYM_=lGX5zS%Z?b$_N?4O-QX%QtOp534+{i2sfjY
zxqOSydXwyOB;0~_8^f)UdWD2<Lz_*E_znWuw@VfU-&}w?$Mhy4tx3srUAf<o@7Alp
zuyWKqJHsNt`j$7ZEBOwVujDXgy#NQQvYuqKCmkYu=zslP1WzOF3XYcq{-zG1PqbBf
z!OBBPMH$0W%4oKdC}S$PfC`({y1&cA`jDN^n}b^kc3zITm5^iI!gujn%3+7xSdJX)
zmXGjVr|j()$eAar(Hmsh!D&Huqeo7=n5&;)G!fKXNMPt}*hqwAf=<N29p+eUHgZf5
zrpX<oems^ajNoRCjh8GLi>wl$))D4ZFO3(NrAJ9_69|dK5PJCz_sH&*x!2{l9@sl`
z-mctp6TWa&!xSXrI-9nfW#~e}5p&6;cwV%Vt2#x$FC52YXvR%MmlNm1COU@5(|9$e
zC7{x{c%onwje(pZhcIc<xF|XvuTm-n8XSC<L9M|wlR#)E&>z+*Nk29dhi#muhLkFp
zQzhBN1M>r)f5J9Y7fzvy%1>$4pUP2HsLMuUqPEaj??p>ROw`J^?)!02@PXw>&Kt;j
zyG3s|oK1Xu_P+nKs!T5qVQ@YOO>{nDmt?1Tn+B0Siwz<TFH<Y3-&u4o#|CXW_^hoI
zh&c;GsV^tI#BpeRg}OTCjRjk`a?A}Ttf(Jqw46rl>z9O}Q~?M~tHydIHCBZY{$*Ga
z984<IBf^qhu+ZZ|nu0220LC+(|0NA80Wy{k4jlnn{u&8P&-}~(7gx8Fi5^rJd7xh5
z$Chosvh>D8utl$c_t+a(U%-*f9bxrEQNiVcM~1Mm8&^Y=hyzZfgk-7@$*&j~$p!?_
zMaUWis42+#W@r;(sml2ZAbA1rmyAr4A}Mc?=}J<^JR$EpjnZ?fo7W3{PXPaR0^8q3
z*MK4db+><K>36b$ZDL^Cg5#m5eI=Ih^e-46)-^7tvP}oXrUUoi6q}B~B^;pop)A#h
z$FTR$+&YtWbc&A7HN&U&Pwd(4XT<Gia8RNdfc?PI0Qo`Z{+zc}RsbNqlcl$UKxyls
z62Y9?w;*fSC9~q|c$4TyTM0+d(@kbdpg^vYnSwI=<U^yp*k6TeCbE_ENqF$#aiafv
zlr}W-C5z){I$<l?mmH9@hC@m}RE7F0H0&nIf#8K!C5U&KZvPeyu`0y6&{td;ez&<q
zGYZ23p`vAF;J$I~tp^o{7fd;KRo2}ix?5KE6rBzh&Z8;$sJMYVvr0DE1qqA0NzoRI
zOe7WW4UCDB94vKu`Z}rL#*5Xb6ld7ue@COmV^$7hKrO<j3`taxuW~FtP%g~_F0jyO
zQ@+ZISI}0`oZw6Xj+SC5z(niA`s;`Z{-PGNb*{DvHI24M&s(ROippvtk)pC_RrZ?l
zu|b0aVy>CP2X;!q$OH}c=d@#2Ttu+aDgI-V)|#WJX7Ly+ouIKRd~Z36*#f;X?@U?C
zme8mb^w{y75{?vFx&A7~$(eG{c+O!y<kKeIW>QEn2AjBeIE7(xl%e<?+~fo3yzq}H
z$t*L?#<_?9cJ~KJ!f6ay@@QjeaCdb*0^U3Z-$0Ueb}9ki;*q%s%xD=C{TkjOyiP%g
z0`{&q5R-693r8LVcy5kP!G$H97C2>K)*cxVq~&_$$IWFbB2#b@t@yZ-Td`A;+J=1`
z{*;u51gUyej#|F6^(j>)X0O281ze&lO9xJE64&Qcq3DIaviV0bVu}9?O)~e0Zr}UY
zZ(Uz*TQRI&{+GLcvj4~XAGnS$=)dsS-Ht8ARtDBg5Bz%;?AYB`<``d_v)3-a__@9D
zi~8nleXm&GyZWt6{k~i0fD2o@KI-|PXElC*TI@TQzIf?D%gbp;Q?7p7+7_{X5Xyx5
z?p4^+ZiS`iL$r_c8aYS9iVepSR$qntf%{2dP)Jzq;Nl_jFT6hM9}@jTpEYOvBh(YH
z>D$EWZSYJ`y%S0le{<H~Bl>&bB*EXeV1MMUU5<<Ho;CaZ>*DrPqU-d6KIg7nkQqZo
zB0?usVC<aOgo_EMFud|VAwo1fs0OS`cq_t)$qrQr3qNJgCpav*m?w_%v_!emg}1;n
zQaO^baD2TSjRQ&n;7J#GEJ^7nU`j=H;_XOL-6*kzW0cJpUL>$?p<oy#BqN-{^lKJs
zGX&`YS*op!RcLGi;;0auD@k?bGKd<0W>B?eQ|xAg%x;#f=iv7l+CvzXE1SB~Y~k3u
zd|vSxMXz9l5^;1EMq91qO{tZ<DYcL{r51QoYI@{oT?v15{e$b-jv*0$j-i~h;{9*k
z`c~H2B|5tv8+D!Ck9vCP4j80ey7MTX?HCa|M*d>g|8n5Z52QOrG99lV>yf)7-8Bp!
zb*ghZ=HPJ?v}j73-v{ma8_}@f{K7mFa2C7qDRNGrVrSvIMarDQ>_WgS3rNeUcfxws
za?u&Su;E>ZuSYmlPN6}GNo$7?Ov#1wcIsP5zgKd>ql`wmPL`osaikt%*$F*FyXGPx
zwY6{pqHwMO!e|&MF@psg34hCe6+5*z??~BG)|4%5hCto{fxCVX{dzBG;HCiY*j@NA
zb5uI-ESP|%oQ3ln<pk^6SXZQ+<<4J#F;iESv*?@4NI_Cgt)vS(VVV8>RbZES_q=Dm
zB2^K#GTdTgxW&qL@yeq1%b0B8WM^f{RqkvhQp?OB#$BOmCYwv9508cKnrwYCH|0)M
zsv|S+Mf>Giu&Uqt+!lN(Z^}oz`g~QYYLXCA$(3@4tzj$PsrI;RpQuEk%)CG4FRL2h
z%1N>&x0JjRkCVM+(#k+PFn$@?*w=2c{M;xzz<hw1|LY?_!<Uo9ud@qjb~*>Ej_`an
z`mjUIE!;64)nOCHq1-zh>S)f_6hYR`LTxpc@)zX~sHuf}sz&XH1{40|9yLF#!F?)_
z^3#e$Uo|z1S_-MwRN!Nm+QKAB6iP1C+h3A|M~2U8k$3RPyi~2)v-!GI-Q?jXO8~Ak
zB@oJRlS5CIN!9(vt<aWPa;02qD-4%;=Ic}S^9=>b#Ix}beWi+_=NrSi`KIJC^#w({
zfHv0ZyMR64!Md{jR__Uxe@Dv3dZXaIqBmjX&U;e9$rEbN3ini9stH)RA=N~6HI*pa
zjnoz(3Tp!1gVcS#>Ag;<_8QBzR0NAB3+=11R8VbAz4P3Aze{a_+Hs$kk5|*$`sM!v
zk%uOAqUylDTtEKT3CPZHJlnNj!#+l4Pm@S1y}}Ik{)E5H;~iB7ct-uF`nTX6m2tD=
zHo6-_1gWR4Z#z5$(cw>ev3j)GI(RiQ6?uC`I5gL<3DpWd2#U3eMaSB-O0z`l&{+Nr
z3EtA)!F#Ed<l@Nf(@Uq9h3}rfm-;(KY5i_Z9WOMYAFNY-vYUOvu#DvUC9QS{|H?2k
zbB3*OYJ`s<MPYZlOcVY+s(6(G0zTp2P(UBaSgHc=#VAJM3T14e0N4xM)$G(2a4eGP
z8W^7O>jI6vKnL<96GnklmxdeB$XhbWNkU1Xm4Y@3zC$mXrn0u!^wlU%_=Rx%#IDBi
zn<SEv8HvdTX_u%DokxQA46t+wC^RF&OO!ZE0e<w1n7x@9a8wXHk0raCWuERby=I0w
z>v(JI22_vn1U$mNCGkfkepuqq7QRrjs0EnBUvjFC?2s=`d&qZ1;H4Z6A+CZo$Yw#Z
zu^%)Dk&Hv|QkUH1VlIwfKv7*3+9^SOfEn<c=nXTCQAuuP;2d<Kp4`_Ge<xKb5;)DW
zm{LQMuUxX^mYGZvrZ9JPs^o>Wq@3u-eBl%Y^W!hoZu%CP<X0$r$wRHkZ&BRnRmyh4
zig-`{&5a%OsR6~SNpVgnmPj(0(Pmz@%#+OCG6&Ui1Dh7hocar6vTC4AiR-j>euDK5
zZL$gek!9)ME-|nRrw%CrKLQ{Iwn7wWuUd?K2=D6M4?W(+vl&nG!cfjrzx?8oJL_o|
zAt<~edb$^ekSo#(%y<Vgo<WqUYF=qx3ds(N7LMbL{z}Etg{-ez^mQ*B`vTl6<c%vs
zD{rnguk2ep_F2b+z^R3k58Jk`#(vgzK=cF``Ne~|nvQHuuUON&`Vu?{EShq?`xY(B
z70bgbft8Mxz;e^)p6<s+u6+>7&FZ#=ljwO%N4jIb*nA*uX++o4{@#xxKZ@OpJ+L3h
zwI9f~9~Ik=ezqgiek|>1`J$nPO#jkbj%1h%uw3^JQWA@njs@G|(Bj|A1v*wM#K4x-
zH$^}3QvLzPcsncKKYQzJ&Qp=|)aCqLS%07C@5=?cvw`hmVEcyE=yZMM;9LRtO?dMU
zU;TyCd+YMz=@om%*_*F`JEy#ltL@F!>=J8st&L@B_GW7ii#3Nov;Fi;rsf+9u1A63
z%6Xgzg`etRZ#K9?4DMLla)0cziqFnuf-hu)uZY1{;C5x1Up}yE$1&Sx_#14%cL#T6
zoA!uJd&nT5YpLsY-%?+;5}w36vz1%L%B^eRPp^G)?bE4Grn0-wh`Y~ZcfTa=ehFHL
zAbcvwP75)Hj_T#+&+T;&8=F^p*DA%9{!HV*!Uec-$kz0WHT}7&V6JXUF4&TzUkvFN
z1O51sh}wa5&RFYOIE}Nc?OU>K17h1i&eQ(kY_@Z+*tz$9ZKiVs{cLxo9nBD1>>0d&
z{GZ2hQYhW9Q?&HwAb5Uz>Fu1umu}yO?o<cSood@(+XA<?E*rAd+hH3DZWLk+87#Ab
zofw?8!A#%?Mkvsl4QvINl08Bu(7)h7bF!!J)mJlt{q$T~;!#&`w(FeObuQ;<M7O$O
zwA#MFr|s?d{CaqEuKuE-8CIS+=p;65%QWnOYq*@ty`X<s;s4`Ax^71%u=8gX{ebt5
zEg$dt(cry7v12bzMW-FD536dw*Pm{}tcp#0Gj;oZR<(bT&v`nto<7mjM+?B4?l_q4
z+I!zCb{$0YPv1;89}#`zR;U6l54j58;+spBB|Qe!e*i~+olRLsyXa{DF!E9KgJ^pD
ziA=}IzjT}e6jcrYiaaf8OS7z;GbtW*fLFB3h#09V*4Gd`UEdnkJiS12Q(oT+<1LjY
zCArBvkiERa-vr0}_nk$WRr0%_X=32{rhHoll_r5kih9T{__Bddo&pyPIt9K{i4c*0
zIYlS`O3@igAnF-%d7{CK9K}F;Ix{^ZoTgN^p&RAx>@G&6&=9N4j1n0}m2qg3`tuTy
zE#8327QW=vbNft&GuNe&CeJDP=Y&&9j?QpuZSZdGo!WHUz*;y{b6~+mr!D4|=2rUF
z+A@JX0A71d+TOep1G<8S@R2=`wzod?Zp&4*<{G*SKVSial*YEZqjyHrU4xm1gUnN5
zcdnuthS#|!I_XVzCuN=1ldzfrfPe_o!)oBcd^;Mz;^Oy_Qat@05lub_<z|q2nBFjd
z1IL`-vw)%2-QW>(!UnCZBaK1}#H7*Wyw?g+Qx>d&4%8-5_%q}Q#}Q!mNF^(^mmAJF
zov~%QbI5kdU`qHtdaZgmq3MJlMp?BUg<RPxi`n1^NLJSpNYUIX2Sq<b`NHopXg?%U
zJkw9S@Da`8CA0&Y5=(mN6|w55SatTZ%Lo>1>##)%E}VMgsYy2+{v4LCzWSBZpZoeA
zb)H#CW;@S_^!M^lClD;!miK<{X@lRI+8|uacxoZkm6xks-jG?}H%ZKh{-*!+LkMK~
zD$%##e!*P}Mo4d%*&p*Og-<KJ3WlUi(^XhCpkc{!4D-PR_a7m?i4gaZVMoEqkUaEr
zsy*5T4BV61|B=RtbY_5d>>Po`8?cXG>HFNiJ?Cv){<i4tOFQ}=k-z*N$eLHrWZZkx
zmc48Mgdd;-n?9W8jeYn6A|*BhaQ7^G(9uwb466`L$goO-0~jUYmMk=c>bIP5I8{JC
zu%;}qg9S@T#(3%8>r)^YKL_$>=nruRxJk9zFgyV?!aaNueg|-NCKiESg^e<Oq*PT@
zl$jV3k*b(^&@`xO+@icU@U8?TrVNlZP^OQcQ%{Z+%}7!E@`Cw_=H;8HPVgIS|G+E;
zkAAj46Fd((;jgM&7Eb2ef#tpU{eoO$*J`!cxO35-YwgUo4vMXV_rH~CJ(czZv44MD
zmELwZ(|ttr;IAE9QcWwiBu{(V(#GZx3<Cja;rE~<{|tB<`k54FS&;xGF8?O2o&8)@
zJc1uN49h+l7%ww|4-zV=iPtG0Wwij5#0ei$Y?xvr2;hz-k`zeKD%pl#csVq3?DDDM
zV=@~evqNX6r>@GsyeRWFg#Tscj9^~)f*#LNK$t{$kz#}w*pvx0tmO|O@1-0Hfcv<_
ze}xDv?|$VnRM}{2#;;{n!NF0D?XlC=Xi6JuVTWg`$m=Y|bNp(5o}>Gka=+jIneWH@
zf5p<)^;$7(;Yaxq{#Q81Y+IS5W6iev{dB6CUT}s#ha3m|CIh|W_Sx_{-SYK1WADnz
z)tA@$?;C&O_^~71KO$~DCbk`iTS8;+Py2tG_;VuY;QrXdflh1cCb!MbMx*zUt0Hg2
z9dt%jb>2)dpt6R%m0~uo!hhSb<jC9U$wBU%sSf>a7CSt$?xv?Bycy1*??<wS&Wnf6
zufzHfuAwVm<&7;lUteBNkw;eNLgf9}t(a)7TQ^clKBcQN+H%$Su}It>S?iba^G2=f
zMm*&E9LC!F6ZCzxKlOb{w|u?XxbIOFe(Vc(bX9)+vSImUqSSE?NVINQH&b4v)!4pv
z=_?Mm#}vqjh32dK1z`x248CqUMlO2jmpc2#u8hk+PR2lt&<%6<0naiw>4%fq?|8~T
z@I+b*fke|X4AKrNIT#O3+%OCPm}3yBp*X3JnPd?AshIgPV`HiJ$ufz)x8z?<E>uwx
z*l|^MG*%!1t588NW|mfciX93q7RgVxS4v7>VevDctdg5$7Nz>AC30?})GK7c9E5GJ
zeku{5pqh$Rm9)^uJnG3mf>leU$N`g3PeB6(B!y?rSESk}YRY>Cjc$-iHB-=nK&oa%
zXOs9j<39PfeM1TMW5z-&m1(0gmN@KH=;wl&n|q;?GJxkHY@vWe)j|&iB%qdztSx52
z!A{7@W?ex5gYeHNU?_nRhYS%MrHW$|5QdR|z3gR*MJSl0;3En?MIf2Z$(CaOfl}z`
z6tf4CDuu{Z9MyrkPuUyc7L}n4B5`D3JW16pgEBrmB>a!)3I4dmErj@mI-dX4PL4m#
z|1~$1;f8*}?aFYw{)%(_ob&yhYyUYn^p(!Y>%d#_x-VTE-}-Z|{}<fxuXF}p_n1TQ
zmCb^HL-3e_uPO@}9Dn#LLrE^ZN#ssFa@H)o{Qj%AUR`d_ID_xlHcSn?Wu<<D!)@aT
z@8(S_gBu)fuzNN(rJE0mhJ#?sc;DhTfmV23-ey9PtE=N{yFMNKWH8-#SnN0guY9~|
zqteC0>&?Ihhx<m0o!^#jJ-or;zEMBK^S$YY{tb>I8z*&5C<zvQ@FlVN;s%GOjS*hp
z`5oz&gXu$;#Fm#gIC|We)Z6%m<(9kMce*z?L^o;&_`pi#M>QYRY;cHfOz{VK+w%Dh
z4!8Uf9jEI`^S&(KDe|2;LsQP$l&k0gjjYpc*rxP+`@-+6b97&~Bk3_qVpH}10diJX
A+yDRo

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minicpmv.cpython-312.pyc b/model_executor/models/__pycache__/minicpmv.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..356378d23472d6131cb4b7142c39035191a56972
GIT binary patch
literal 73082
zcmdSCd3apMbtl^Uj$Y8+02*s!C%6D4xbGXdii;?cTH2D^Ai7Bc>;|aY%?$=@*-^&8
zSPsD?4#8M?gc9cojF>T;IAhwAg^rV0naNA~vZ-|EhVKiLXyRzT_udB?aujF&nD;wX
z_ugJ`Nm2GVler|S>(+K_Id$sPIj2tjmx>C94o|}L#lh9z*XjPAUX;fsdltTG(&?`2
zPU>R1h%Tm&84~)49>2zfA!&>l^%Q1Gn3Cp*IcbSllGcbdX^YrcxH(}@IwB6{w<MfN
zSH#8q)<i|p9dRc;5l_+^@g{u{9}71mDkFaOjX)&8euM1SmIx%PB2_GnJyD&kiPSK^
zBN0m0MrxCFkvjJ7Ow=bEA`Q&%N;D>$B2CO+kq9T7BhAe3PP8OjBdyHuNwg)~BkjqK
zNJp|W(#gWSi6zOdNEh?_5=)cIBFmV+GO;|lBC>+{{fX{mPo#(W1BsQ%RgqQ9A58Qn
zS4UPee^p{la&2U7a$RIya(!fdazkVT3$IRWOm2#7N^Xv9PHu^8Np6j7O>T>9OKy*B
zPwt59NbZd6Ozw*8O74#AX6b7ZeaStMJ;}Y1y~%x%eaZci{mBE71IdGtgUP2NPq8$i
z#G&Nj$YJKMO&m!cjT~kEy2R7TW07ObU!Qm;c|3BQ`5O`^k|!f4lg~z;W$%rN=aSDy
zo`=6F7EZj7j6@>L-<<eF^2NxD$(JH8B|jPYWHK6wvhbF~r;`1V{^Y61spLRp0Aa0>
zm_fHs7i)V}7i*87e9Oq8ClY6&9SH3#3OyZ<$4`%1b-KuzxG#P-wqy&E8+36;ylUv4
z0)U0zSl8{PZyDqghggZrP~!4<yZW7TEOZ4zyW{87&_t{!UKd*#PsWF1t4<q2DB`p!
z*88d{G7?)Ix5m%M14DmT_>SU}QyOAxkWyeJuSLo0;+xcxQ!I2nLN^qJrdjAlgl>xO
zRMTEyp_>u9CB9b;y@>WU#J0vS#xLI9riNZ(X}2Toj`-pDC91I+cbUcQMBJ|Up0c<r
zEN(aA`p}0TC@m@c#y=U4zGdd`kx#SKdysl>{L^arV=QzZLifi%9e?R9%zJtw<1G9D
z!Vi{&e};uWh44cq;h$yUhY^0HB>a{5SbRMGnfPbpuf&eNZjO8oJ+OL8KO}#Le~r8G
zE9jTYx1Uz(#!5Vf5}!edpG4i{mb@iriu}wKL)Y=q-3NwG$A$RtKzzl>aN<h%@Zj*^
z?xzp0cs86IiNzD)fsy3-{`BCfL_B<HFnu<>|H7FwgTrU`_75N+K6vJAI@SFi6?vpf
zFF9lJ)BP6`>Db^vy2~WlcK0U|{m3fW4y5A(^H~q~pFfWRB-`=$%NOXo$Y(v@FQf<i
z6Y!b`&h`%uBeQ+y@bE~wKOK)r#+}1gB<rC;DkCA;Ph2@4-<cTfPa(Nsco=R)TDUMg
z5FH*7lKqKjmqBvv>Q4`x-5c*uUl8Jw_h})X7Eo+FwtHmw^xzr#B$e`PzW}e}*+e3#
zMtFDir{aAVlF2Ja&!-1RhUqJn$1d~_rw2#T5hKHLN~2UkDW8d_`jh7qaY1sZ-d?Ht
zOgtU!jYU&~!viC!=z09blc(abTYAZRDAAwn-#a4g?!S=gPaHaouu8eti$d{L_hEG9
z;9(kur{Y&ql=s-B_;7DgDkW@nQ5bUi51%}A;=tjfeLD|DpV_nT!0{8$ynrsPR0`}*
z^!2Cv`!GsUun@L)FrJV*s5tnkOZ~!`6b3Mvk}8hGQy7sG@!`~nkm_<sl~l+cYFZ3~
z$`jcSB>T_A$uIet_i15dAf7^w;`rl(qjAZF*7YX_(^sfIlCSuUr}Y=AM@e{KpfvF5
zej$baw?8`=i;wWnGH>Z;yR1?*4Ok(s8ZT8+g#1d)7(P8B`S6}RpMEBOJ^@$<I!sG0
z9(3}23}7kwi{JX<>Hfh)N(ul7MiLj}vEoR{9!<qx?oG!pr!hEHDu5jrK7S#d+I3+t
z5sMQbdIv5Dn2PBrKAAoZV5XrwFbuFy#$$u{rqb_7dKyX6@nHh8#9%6&BB1Bd#|O^F
zll_uYemmQLo~BrJ3J@tz&uDr?7&se^r7;EG(_`);K6C()g9EAFX9rUN@)JV;aEhvc
zikYOM4p+xICAp4YIDdXbNT&{sJhM}(RNe|5EIE|0r=RXJO1_;J(j(7toN;KRA8nQ#
zN;6IkORi-9l~eKPc>(pf{GJ!p8X&x)JdEtZ%R(N`bzNKsl1djbfXLEEj4?yR6gS7%
zauv74jI=mnv9iVOLjk3L!Y?fmK%~x?DQ1pYVpjS)Yq)JwP$XZ>P>w+^N3#^U1iP}#
zs<|8=nalYW^*SCkkBjnLspxV`H8L)EmQS6*%kcz<lhL;wVLW|<fJGXj)F$>$VJpI?
z@ET@FFPy@}3NH;0U%;#s!Xu}{gESpeB|)jgAZBDq{*TCBly+cK_=s9K(Dm?eJW*WM
z*-hd7Y?O=gT-p?VZZMWU%Yr1=d1_YlVt?X7JSCY34kaU+An6Ar{aHzW2>|JeT^a6A
z4h}?PgUQr;M9N6^^qDkJ>L~IU05A?TG0IzVq{}7QqETdsN28J>8pYyuAwhmuH2U&|
z{)8N3jYeZ51JS5(2;~VbD%2B=q6M_lP@f`-08KK{q>{{RqDU4#m4vN`xusixtNWLO
zJ?Z56p7Vp}SEPX+<LMQbFRb6V;oSOoPh#*?&-p9qvm?Vj7qPJPpekr<{BnE%;4kpk
zR8JD??7;ct#qRT0go7xMIcMNWeHqTr>fSe4&9?bUUHj@+`X)N3x<yBG*3>(1)A{T3
zHrK?-t1nKzDB5cO%I2TiGrfAoICK1t@y_wN(fhVt^G3bBPyfEr=(jBBjAjcmc|&<y
z#Z}j&i>F_ewKY(xCM5EziF~z1iTbj(5GAQY5})M*Do2Pa^(>i~ph?-YFp8h@i5WM^
zlhQ0tN=w{2M030BiQBcqX{r*{i^=BT(^a8w<f(&6&!&#G%O=&AOdS<d$<ya1gS|&h
zpC<=@nrQ|2Uo?}>B6|N|EEXT;GjU1sLMk0j5<L=5^beo8fXOJ+R;T(0&Yc<=j(5qk
zf=yITD5N-qo<Q?K;{e{zrjB$ug=g_DJV(y+<h(!*L9q}ahagvYk(`&v`2;xxv%)9I
zVWamc@|{wgpMfW}4-Ubb8Sv)TIV)vYYtC2J$?!0hp5Alw(2YZ4b(d)CA`t4EZksV>
zZS4dhoea{7AcTqs3Bn0Uj>h;9ocYrK`#Uoq{>j`nOmAcSe5wSD{K!Sm!g=7vFBAb%
zOdkh+r|t7;bIb&QGULyJKP&$91ROD29ARhlam$dK7gFqUK#AG08X&j)=7`(nyiNd?
zE2ckPIiWkPk5#-{5pmjeu|QdRcic5pTU;vl57jRYW2ISQo>$EgPt1#aVU08&zdRo{
zR=!x}Bg%W!cU;=(Pg`Psl!rE7)<^uubzMQpRUluZYmeMAytfzC7S6$ubdr-$Ey#6Y
z5V+UQNLj+mlAXfO#`|L_$#U)@3vv(@9!>OL!SZfP_FrZQTXF#jgRmK3<hNwui@an3
zU4B6r9<Uen5c!SxTet}4%lhlOv>G{SAJcsa+n6!^m|@H~W*Re(S;uU*^>4{2NUs~S
zjOn7ZR<LJGHzda>A@qw-jqTH0@`|k2UD0(J(0(C>v;ut`1dus(;XJh`8U<9Ru}BCA
zmwX`W7@1G>{XjqHE>Og#R6KE7NK)ouaz@BGPtMEaP{u;hpbVn}iT)JUofOSpTFlw=
zits5)cm>XAuy|y;l`2dlip|}Bens~|mCo*-w2HQxysJ9z3bOx|c~@0F)SmZ;<~=%l
z=mVY2?wAkgLd_GV*DA1v<ZO+it#LYibNt5mJGK=JKS-8X{31w$0U812p^YOOk-P9<
zJmj8YJ*oD!l9)y(roU}a(Db-5EpI$^x*<y;mEs#SDm_0`3<YwuvRNH+D(MTqV+JMX
zxCvugQHW7|F~CU7bla@dg^jI+#`YN`d5`J^Ok}+n7l@vc?CLgc?=9>KG2kf>0iegb
ztU?Xa^6@163c3}WgD8Oi{1wT3Ix*6pmJI0;$s@$iP!=J2>cVMktGmp?rzs;F^l{2q
zp?)LUF9^ct5tgEQutDczPRr<MW9gWe!`U3=qs0MZZ_$NT=3U;aM<$O<@1H&Wfzc3h
zOjIB^Sepy9iGjA6m$HG?xxhv-urV9hoC|Cd1KaLg%m(&O*clkqi?;gdPt11RHD_$~
z@7VV8mEt%`F98D@JO&1T1^~ED!wmlB&jK-Xlscq>1=7inI()_8R2DaGR7*1age92@
zpf+YqtH7oZ=z_N>-n2MAWjLt&ydH=}H>7ZKm4@IqrYBnDTpv2V5~xQz4cmZF8sS9I
zG<j@^O6`i$Keluw{b>VGor=g%AFU~(SxZbDdD_y10J<|C0mlw?-VUeBA{l|TCDS17
z-yPTt4yV%nVADv(!QnKAWP(ryv<XZE2HIvq_GcybbEyodfhzlBLm-40D}<rSau6?%
z{}u{PeGkqnx_OJvSNqG&)5oUUu6c6aR?*v<^|t4{OGWR}tatf@IqwZUF8YBdG~NDH
z|9wyU?WJ=ke|Pu&r8_dV9U0G#hfeR*n(JGyZJqIn{?>cW)|m^l>93978ozT)?Ad;=
zbNjnqBCprn+<If{tWT_4hOa$X95in>Hn=DHUONm*yTX@qwTP~knKf^2ePiof$2+c#
z^G@B89eR#m^_NTL6u}vrQ==G3no~mvD1SKQjTs&tcWw##ibL;XN}!nrR`8++=u?xU
zIBp&@l+JPWU7o3<KwaZlay6G(!<gx|u>fgfmXC|z73?u?O{>U#%$in7Jf&>j^0ZHB
z*ifb7EBs<sTTdI(>dr%pEr9x(l%-<ac1AaDPgg4?6qczz-Ah>4#~mO+9E1^u$SHf2
zn!kwN9(Rtr#_U6NWl8Xge$yf!bz@FoRo$42T*9!YjqE#38YMW#Tr>tT^J#T49BS4`
zXI7R<<rne?%b0D<0fLFOf_;bWq+UC3(iQbn%i_|8+BCvCG{U+ThmF~Z*#cIJydn%O
zTbzaw`*tP8IEcQX6^m1i>6NyyUe=FSAYISn(mlbq^eAJMMj5)H-o>HH_s8AHwRUkl
zLf31Ax&ce_ECeBICuE9W+iiy;J>c_w+%x8R!WwVX_=?&)<9d{?8``uu4dEP$1^MqR
zS^;k989u*dkj#uj$ll)jA9zlDUnvBU&Qr9djh-G9z$mFW-_IDpoTbCaE09p$bMY%t
zB_`RQI@i?*N}3pwtW4pTP@Hg$oG+5|8aZDg=jX^_gqC?UE{uRhbZTTIA(_FHJQJ5J
z=@G`Au|SdlDHS84B&!hTC4YhP5{{6}7t+L%H44LEE}|O5gk=&3$Q!^?y#OAr6`Pjx
z!pM+hP7FuST?E@_IQp_=rk&0e$pjATuw;!25PE^Yvmy@ETUs(vjxH}J?S7s<M~fg>
zQmI0-KuogkNyLYx3R)P|SK(JE$LA@Beh?fcu(Ysf($6JHAC>ekOU4m!g$YwJqOize
z^r2)0TNW(&*eLOux$L1gy0%*mr4=*P4)}USm-l$DUYfi#_44HC^b0qmH=?u0#D<=G
zo}P@YC*$eKSGcb}H~HMuvB}7U;i0ecdd;<(2}|DVyKcQ^oiINPH2iY^jBh%2?dZ(l
zZ|Ub&&6(a95d&){><`tw!<D(JjIHs$ZNtNw=9?8aD!$^$)hrilmS=0aCn{*wU2z+$
z?uv|UMaHw@-MaA2%{MmZD?C#T8CTO+FT6SW#^{|6(5v;1jI9Q1XRvz0{=io?CHzuo
zVrRatZRXgGExEdGv93E?w{r5(#Ga|O*xBS<^`fgj?+sjcUvp1ioH66?;;eb*;%~g1
zX<8|ISLM7LMeoKtYwxc8*4DRMGMf%(y+?B1W1{z1=9%ZR-skbf3O8tq)$22^`srgc
z_Sxn)TyMBD4c+%#Jy@(O>ppOSc)q^>+WzZDt{uq*I>bOnF0fh*tj6bO*36~mjk@5P
z1)U-2_`bt8**Vobb!=Lnb=1zAb@ob>><wHUn;e_o`NhvpnkMuUtB5>5IC*gD<u4x2
zxtc{+^Gx&1u~~iAwRA%N5OD`44@||b4_zC|x|$K<uDm)pIY^lfO&*%|P4CLOn)0rS
zDf{GM{Nx)}%-eOIngyNN<Cu5ooUZqsW>3Y05!{;!@71R!pPJTBubS@9y28A4R>&8R
zPUxu&({=kbl!F(Kcf!Vq63kTN!1)VZfim`z<mlV8cPAuC(L+c0lmx<%=a&5tZSap^
zs}I<{K=Q93L9{Ui67dS9;<J}HyI>9Uu}!5wsE)Iy*rfk9<*1N1zyt9_A{qtm8AE7_
z_7Xc7xC?`niJa>c0YwGfKfkJ*cj+2i@@ux`+m`2h*X65f-uG9TyB`K?=FRxU2n4F<
zt>m+j&rUvv&KH=9U31Jk=?w$iFg-ARa%R_?hu%1pX;>)+R?SyXj9cfgnKn)zpSE4=
znfFkLS6AINyGE?)nfK9aB?_9S&tWs|aQ`q!zFyrv{UNYit>%6Dd<{yTSv`IBhG(7!
ztXlWYy06#eR_zv7?dCxb?G+1VN<3fbGH=R<8gJI$sGm2Izh}+YK7H%cxt^V3&rTM?
z(jsQQe!1B<9b_qW@Xob=bNSbo&y)A=+V5@o&Xy0!%QtV-Ujz749~vEc7QT%R)Znfe
zNhJkbp<><|_+>JW%>D%YHAe}5&567&mB&^A9-A8*#Q@{6d5FixIC#Xhs^t|ccA;=U
z+%7lxaJ4ZisWR>v3Kyr~{vi$Ggnfs&TjogRkCPwY4j`{T76dmDWOezY&0{1k<Y_~!
z3bhX6t97wz)OdM$UJz<Ej|g{bhhs!Ss7*EF)74<1t}o)#tpT4-piRNx43<tI0pH{K
zPLhvSBJArRwS%0TBq;?}lyCw02Z#x!JmhDalLzpWapD|{IB`Ty+QEyXEe#&Mu4uEZ
z$@z&HO11~qA9p*ekYV8dX>x%Os%{y0-N-HE!UouMM7V^o?|(Y*ANKw2=r3+3jF?Kt
zx@^K_1apMuA>VCsXo;1o8ShW+OO*pCnL(8#t^ltwPNA$K0oFZZ1SKgywh!8DK`OXt
zKo}-;BCJ3HXtM<Y2r66fL!?j9XZ{(ip_)gr1ziD|Gw5TSLA%{SEW|3l2+hRau`SCt
z_fDAZ+Zq{%s7<uB&78=!Zx-7(-?wc+*j2}*V`@##-!A&w-?4S@&8-o=P_n%x&K859
zPXX&NmXUrGY?+v$uwgB*J+!u_#7i6nF;n0HYw>OiaD*)`v6D=r=(bVt?8c2G;T<!M
z0xBsC@dmBUYRsy@!?>ZSMlvj;73veS5${>uoS2GI7tb9z{g_ED*Ibm+r52}pic(sN
zQffdhxZajChL{~22J{R)<JK`N5%Hs6awwppvgkL3K}|x<APjarmm7ycDTd?VR);ZM
zgCzA-b0J_;xIawPH3^QD_*6JO5<V3VLt6*3%-AMbuyuGj7hKUd@sUm8C5M-X`wC%f
z8^AbASk{TwKf`K^mHqqNGrxV%+X;}Tm3`EjTpnAoEg9onC_Sj}%Y!Kh^$f%3B}+f2
z{H=`Dy1G~RDso7cICxVRl9;N4!=PZWO>jcKFaSM?Vf<n8vMI-A+h0(6^GGs&reF9L
z`K{<6($3)?%4<YOiUwTiLQZWjB~6}Hi#2(oj03FBf5N4s>s5lBX5^D+^ka6UXj=eQ
zmlv|y=~a{CGx~d;=8Ua5<7s~2tt6stx@+d;8{OY9eADrD$9?Z+aJ_65Q=#eO*P29I
zn0R3RsrdBCYYEZY0_xrEyLxW&+;qzqM<$F9++HFmr|mPVXU$o6_k{7?%E0xGYaP@6
zUsyI_eNg=JF47K94o{z%xs++>nd`sr-Y{XzdnzX!oU$NRU&$O-*}`r%$BSTBhE8Nq
zpE3PM%w)X^)5f$_$)?4Q1y(22SoR=PYi_9<Ze=zO5jHP--jd&kd}R@MEt56)7pI7U
z-4!zy7)VUkU_K&<NGesTaDpkt1-yHOpFvEQL%5G0;T>}RlAIUG`B`%Qh8zaH|BifL
zAZG%O!g>831u)KQg<3pY(m#)gGXAUZX9yc@D}m2PEMQRM<qHTGE!5q#->_#|R{w7A
zA8h*8ru#K}Co0}`fyXKD!E)a1qIY{fP(wSVnZpZ4gRgSIXsU33=+L?SlPACU+}~7q
zCZCzId@({&s7g@J_KKX1L=KsTRdXBP4l<d;Q3hNka7B9!wssJOLu&`d7QXU_G27cH
zmgL*~K}yP5_GsrXXNKR>AL%l%C7$(Jmyu%;wX;)HGEfA^4z&tfTO9!!V9wv}EbVQX
zzr8pibewgmwJ4P_x?K&^>0HxVv1#o+=h}Sxx{1E~t`=+sbFL+#YsqXN*R@^j+J3j{
z9oK&BHeKuZ%BxQf6wfxb@BUlaoW%T7(`l`w%Ip({3bPN)VXbwLWPEa2p!M(_{ygy)
zHlSRM74vh;ifX7am$hcDc1baH)^jn(l}FW5WeO{80Cgz0OgQ<|sLhX6rq&pklzPg7
z9N?QjMI(g&Ob#_cxCf`p&bewtOGuVOP=kf&kr1F{;p8dUYtW{J$Op1*$&NLYBtGe=
z@cWe6z$d^zzz+>>f_(=1!k@!GT3ZU^#U$@`0&5adzoL8K3{LgGUU@TgBXr-{`oI;M
zZoawX#*$gnJFXSPC2D^CnVT=%c;UXMb9U#~_TJi?S-y?dJg}j1-e%DYZpoV+Z*<Hy
zzvEpF&dZAJ8BgcC71h)F*L!bnxv}Mb#gYdu_tkxq`*N-Z5%Z`2=II-!XZr8E7KNX^
zady`Dj%zt)j=PJmXDa`0fF_OdP-ipb^Sb?CK`uk`7a8D`3eYd)FWPb$iz<haWv}Xc
zv0MflDlJkM<g2+rFhdSt8n?wD>libB?syul<xg5&TpzKZ$`f8$P$4T(msIfh^$@zt
zErO)P5wkEfZHQUNN#>x_(g0&ADiNo#xFU~Q9=3T_EhL~W-wLZkX$pRoxN&EZM8}yX
zp+0+*y2_FyRaT=VpMmVx2}zR5wis$uN-6xJhgAs&q(8c$=0cp})0AJdDzSy%Lb{>$
zLa5>^la<gS*{Q@8ei6E)@TU0Gv2#P#<-wmfy-bNKY)2sP0`V~J1KjvX4#lJ`mE-;~
zn=mwH=V2IMlrQv-d9@@p>Bsk{Zm3)NYT*}hsiHnqYO2=_uhjkqTDY>1Tk$FNqk0dm
zRzeHEV-}@k<rmQ9(P{(AUsK4Z_#maLWU@McnXGQTlA`cCRypQpvN}tVtnLZx6tj-G
z#(YqAVk1x_tNU}v>I#s!q3|`urzQ6p+M>i3euqf*U-pc7pc?JC?Nm0qPXK?OG5vS|
z#F%FkWsL{Nyi<BX919ddz>czy;C0LkeBn~&;AjPM2GYBgbOp)lxCt;?g}-Y2)x`AU
zp)sQjowZ}3q8zo#XtG+=ja6xmXn;#s$3kOuWuy0z^Gr*w2R4HyBrEMw>I4X@)~rwP
ze_4HMH0$Fk=^3WkqTTM8N(dIUv2Hx{+D{ict3Eb#27ZcjrTSynCiqjVO$};eEt<J|
zl-X4Hjj6bgtx)?4F^UiHd_eIRe#hKc8|1ZpEHD-vbKR~elU&!2)jt8Qptb6$Lb-~s
zu-?g%>qAOR;kQU~?JkmB3%`gYd%K|0Cm(cSoTU@Oml4dFQACdlH{c+V5gak$b@F!#
z{|ANBUb;vo{Rw&{f=H@hydEe-u_J6;Sj{$s|CN%wMoy{NTDVDJGvwSN=QqfiC5I>x
z&P9HMe7{Bx+vEQ&`MyBT=gIjhIYh7vzfR8oNzR*aAU{t-Yg{stVA-02pgImF{%=zB
ze<0^;<jle8YT$IcO5aK@b?Z48O9@}6goPIW7G5Q<nnGq%NC7njd7|=R9lksMZ7Seb
z$oVEYcc=iD%HF`aB&o9SrW7N5gVO#EIscI|=+8;|i;@+mjLyWP=M>LHsY(th(;r~1
z7f9FgJot4G{Sz-Q)c^-O@<%^>!}4t;E0UQLi%yoA?*}oPx()gtJ8-wo>-$%en%9LP
z_|7-Af(Md!R%e{8@3wZ{Hs_XX7ME<kb11vyK(_T@#ua`LZq2l9xZ8X`+?R1R<UQe;
z-g}<*d~0XM8>Y84xz>$h>&APYjgX4xygj0~C$n<r-F5f92mj{?=0A=+o5a>-^6cu+
zge%|Bl(E&8OZT}@|F1kvd4K1uUi2@WJ$28&GEd_66=Gn;gPMk$&Ku5|zBiA&apX?>
z+m`z^M}KHE1gl6{pp&P`*VN}~dc+zux$o{VapgX-W`C~cDY53MxA$ago`JBRC9eqO
zTumb6=szvJfhN)$XwlU)T)%wn^7YSL`%Dg}C91n})$7FSb$M6KOzci8cCR(-p*K*Y
zp*Ijjn=0H~NbiDz!vv1gHb7$ki^1!4*XoEDd+fe%z35s$vGV~W*)L{&Efc#S`JULv
zo%YU*tL0%JII-uit6HWE`Kr3t2WDEna^~8|l#vuDYe-!p9|-<@|8#IVH68lZol{Wf
zKu33rf$rIt=bGn^WdrMTf$d^o`(4A`zV99R&XH{3IQq{=Dh)qz{?43th3H+8hd%Pj
z+0`>I{FZ*^MKREu3v3bto9^`9c{v-{$v<Y(h3c=F=Noj@tsjJSzN+iCYc{HU&f5as
zHiz%Lw|eHp9X~qMw-O!dbAR6*oIEqt4{eE^S$88g_!VxbK>tLU!|gXO-?)79GdDhy
zYg#2Xt;#iR6Pvc>y&ZFXZ=3Mt@OFGTEPwgb7thg08!(C<zoz=ePeXM>_)kD;!n<&~
zLS@<;!tYVk&yfSnCNCz$(GmWD9NHxdcgeXz&V4wNbvOpjQ2!OqdS;yH?@;6)l7mg4
zPGAe(Ka%gy$$5z!!mGk}$@wEV#i|>BLV@J`6GfZ?mMv4=Xzq};H-fe1PNuzqUs-#D
zd|Z2jd<E?ddehe4pqNta4GQt<>YL_$<f~NmIQ;Y)AUzKH@O%~Naa5CUL%{6MhoFf;
zzpd?WZhB+W0{Q2=b$$8+Q1GZQKdsL<x6N};_v){myLB$ty+iEY!GoBx1|^yg%Q?*E
z13U-w6z5nlQqa8HYF;rd+`Mw*%53k~w%pnxHUUK-Y`$JsRr|g(sW<zer+jtG<d%6e
zy-@#zu5Y=vW!}nOT{?&7YW-yWhZXe7xmwiel7*kPVS@c`Sez(47I=;LTcB0D^h5{r
zKveSyM1Z{#2AL+4dxZiN8Lr?(EP+?q6EiY~fc}c<in*ARtZWb<WmQ>CG0UrvuV_hg
z3R2lVm4%~}0C}hFi10al_dOkodT$4O^1%+y`TQ&bN*Ybor2Y0nFPx`zdJ-z=UIN!@
zTwlz-RzC1c`s;eV?lqqY8uGtsyrk!|OwVQ%4qF?#R|-U174t+T`<65D;rQkA!nV;R
zB>t06mPAiokxxE#Z%K>{^e0l=y493_h=EB}qojW%k$uLyL2O<>z4I6SQ^&4X!TX~W
z)%)|oYQ3cIhH}0Y<w7q}kep}PAwzz=%FZ+v=|Bpf(=^3FES<;EdPpz~_=HrURE8f{
zaVoFS*eaE21T||ez}$@P4%Ib^vcc00)J^Z5IWU{f2G+bnitn~y#tJINmvc6V&W4%5
zJ!kuDM{emRap|Tzr|vD?fpbWCPw+uya4MOtY<uOY2Trf(-7r&^Ywi`Bd*@c)Z(g7E
zZpb<}WK0{lP{V%qG?Xalh<wR7y6}AlyfD5}0=#JoWsfFEsv5EXM$@Sp+#gZDpISO_
zg>Ah5Fu6=eBr`jYDw!{mT?L5KX|pCd`5{$y3Y+P@3Ih~e$r43N&UO2ESWyPa!-ERv
zxLrJesVk&lBfvzaLxeUe(#jN!<FPKiP)TryKb<UgtBNYer=fogqZRV(5=cAnk0~up
zev&(Q9t4->g1us}cW!+)xcNb#D;HP=Rlm8;Y+%!a%FbM6k676=XU$e_C`(zlGFP`j
ztlMy>I$O8%L2Xa2cD-1;{*E<UyW>I4id@ZFv1aYunQYCr(tIEI>@Lf^&Mu#proK@h
zxpQ?3v?!PB;NfhlS&P*!pI0@&nt}20X>k6PQrLJ7IiHcV`k2<8`Bhg0%J<O3Gsd0J
za<f8L&BgS}DhQWKbtMOO_mrCSFu~$QzvO0}jeTJM08X-BVGGNV5}~cSun;r0Ol1tG
zp!nfUEHQ?d@vLFY0C72CH#~~CJb=+-5GBBLmF|`iM@VH0A#}Lz<qLyCJjTa7B{WkC
zLqSFBmWgk9!&C-Ea$QpTLO2{QR-I~lOj}h=sw_%KEkS0W<qy0CO)76bSf6iLHv3Yh
zesjLA3%a=W&<}NHJ6DjvtQn5QFPDg8%_xLntOPu?>S&#nEATzI{=b$8o45z`VELpn
z*#p@R<IUlhofAQy%F8u|6#_x(N4_F%M|#rgzeI)@B+FT5qXAuP1i}}76_LVHIEuu3
z3G(6m7uk+rYfR}P;ig5R5IMT^aXng^_V1`)X$^*kdN6eT`D@Ql$A2L@^O6``oeORf
zgPXF!EfbCho|@^=+2$MLbCJ9HufKHPvpZwk&DMo3cR8g?P{-FjMzb=ilt!K55l-JS
zI+&U#tfc<<F8TflPBFO(!)H2yoO@KmG-8QdHB^`#58c73f$6m*ZOl}4itZ)zW`u$e
z3pM8}0#nDQ+ixzvu{;y(5G$|?TatJAr*>yT-5KnypiyqrSFFMr`H*AYO1a!bZF<Pp
zXfXHbXLir)=y&$OhwPUVa8wO#<Uy>ee;dd{MkWp*6C0381w$roK%KpSOrE8+qZFA4
zh52~_ZTX*!K!P-gwdB;0(@IVUIWSeHW3<$xaDhfuRb23ol(~x_LK7EcR_w^s<HSNa
zG7xAI{o6qWtVakrFdaK#DRm31^Oa5c(*jvhVGBGVEp!*-pGj=W7a|K&UaRA1$`{gp
zNZm)Ycgd8`v~LiD8*{-OVsJ+`xa)CqUb_#spv2PMix$!>N305g4?r~>VNe1chaXU{
zbW>l*`VKU5CA2+jKAAgU%}RZA^9yPJJC#L3P>>{^N}M>|aBai%o?qCWX<aA!*JnK&
zGB!@~c6ojx)V2=a5jK#ciQjrDhMe!?FGalOe_i|rZVB+*yiIT3NJtMqv%5c}ACB^<
zW+f<(&^kQ}#LxbCD35GEk<gb}2Qk37j3e$)C?ck-Z(=l&2{e(D?29~}vO;ODCn$|5
ztO63W6wJ{SEMk!jGj6VoV?mApi?`RbZqc+`h{0hL6uN~!#i~`x8ZY>YC;@%pOgj|u
zRVpB@5T3e8oEiTTI6s9caU2u@EcY>TsmsE}7%&XV*Fi>4Gx`eWw_&0$6_=NMq6Tlt
znsE%9kD-P#fgsaaTT#epw?Y+Y^+5NcB4Oo6x3C695tg;-T+l~<z3;xW`GLP1Y}*G-
zYd<g>1MYd95xhNz&KsP(Bzm9{m-TdKY~2iqO7O(LdRGct(CCt0WK)iIC8fQ{H$Bvg
z!Zt*f_T0`V?zuuSF7%v08dsb`T7*W}klsbla{W?9AuXd<qHl%e<T%NpQ4@N|N43yK
zBbz9Ood1Ep)aQ|yp%I6<2M5=tR!^I6x^B2K{x;FwKI@u$L0qz3bZ?(GBOU~kqmGPK
zO>YqGZ8K@nzU+rq3a|O`GJi;!-`Bz67=$WSf<dTF^elW5F$L39ip98?@l{=fYzjdo
zBW4B(W0n0D_-)uB>9Aw60e3j#u9%&l@gY2b)D9weK>6cetPy9F+&Jyzid87-VmQx(
zoX*n@W(UZNR81^ZA%zWQT#-k{O1yMS%qyQ;TAbR2vp_y}GRa1{VwI>t0N)@#+42d(
z?}k4Bf0Y~_gugmgg<4hfR>)tYT$Wf3Vr%4-A^1ab3AOOo#_EuZ(wSoQc&~e8DGi9N
zzhdtSOI6BjhwVeM_b6LZ{1^X{Eo`T-t-EJS5BGIZAOl|($bDTUY#u^i3=yt_hi#hh
zTmERR_sS;exXc(g;A}wpvQ$AN2{=leDT)&bpGILtOa);-U}RL?8J4zzDf6qD8&J0t
zG0^FZt^exf$;&xUyXa}pdO9<<P6mrGhs4ZgmNdzVECiAZ{|M(gupM@S@RdK>?AAeG
z?XT*8PCt%)vlf2~M_u&LhUvrZ&{V{7g$W#GB^Wmsn66{yv_tu>7TZC|lhVJov`Dj$
z8C}v+kXJfg(G>#cbgv0)T@YDDC{#<PWW0Y^_%HY*Ge!oL)P3k~$tw>EPE>OXp^}Gh
zD%AkNiFABjx=*?Fl+6lzIK%{HyH+4v8cN|H#kep?g}g^7$i&#CMi?7R5k(PZ4;Kl;
z{IhPfQyXlRAy-Qa)2N?D2^jV2l~ZYw^W~~niu8Ze9He}kCS2fy)^+A;*NL_3COm%~
zXr1VLP#K!;nO&2uTsg6ubX{9t7jBN;7=6dH^ntf}+A|xNO?_?j*63Sf?|8w`*9F@k
z>hRWQY;}A+Lj~1`w)_lyHo@~~@QLXaP|*S;w&3$IFbLFsfjUW{dZ`afs9t|z@2+-4
zf%JX4WTLYkD;vHQ)M=z4NmHe5BAxTJiS)mF<|3S&XPfBRma%PH+*lLxu<1|qz(*7L
zD*VYErcQpww`Ox&I6#e~czHwPqqcGDj50HPbjf32p(N!>YF8C&*8>kb8@FC;U!QH?
znDuPR*f#O?h*NiRjgXeNh_#AuT}aq6sE3$ElOv?GDQ38+6U@*xgb6&#$1FDB$RhE|
zexFJM6YLrMyhq>-!)?@cjN^mwmykwyg#u_}3_|ZY`r&&V$)1Fvw!!3JI#n{}%y=;j
zo{?==aNE>G1#(Vf+%?j#raoGMZ_}=?emXXF6b7f9o}9B;bT((5t(ng4qH}w`xqafm
z)EUv$_|Q`WbqL;dFcc4apB$J5W0xg2om^$M7D>nf+p`x`VstPzpfbboG3o@?#lH&A
zqnK?<*Fwcw^Q?#(ZyB@1^d!ql;nW>Jw<!3=%tOUr#CPZ^CaNEmg3b;yvp6(Hcz_-;
zkQN#wVp)Ut)=z#Cl?t?UAmAkVY1E`Tf>+)L@+>3E#AipC^<XPUg4AziWv~g(BxNaD
zfH?l+Q$UC#`DpKBfc_Dm+eAYfLuu^9T3u7FwpXm}&DO4&@Z>A2a+OQO$|c##r4!bN
zuqS!?p0j?&I=k*(cvartlJjp9{oC%0X8llYIrz}inDcBBJ)6i_T~!lUC^(o3ma2C%
z%o}(e^D1Apgw0I7$Htgs&mTF)WPXcMmp$qjn{aYV8Dp3$Ws*zZnDHaW*zk%AsR-W6
z9xTz1$PJdadMc%C>_L&xuy>h?M%<&0cr1EG7>w~0vQarU)C^JxgYy9<uw(<w*SE7Y
zyd57kyu9qAG^8WQk0EvGKIV}2ivHfYO<Di8jBDFNXDH)r&NnR2HEb3eHcuR3W84jN
zPh$)onOW!Ufni!2U8Br3*B;$}kJ|jWqYEWuLtzsP6IZ5JU@G>qe%w5688(lZm>N6$
zbefi_WgAEFHH;g<R@p=Ge6-F`Potw`TWRv_q;8ff`J6n>ZO$|P8SDl!%A|CpBohs#
zWX54ySf?=$3nQ0Oi)N-2prI!g5-&DAat^0=N0&WjEXxzqUO3f{x?(^br33oV<Ij0o
zMNeyCMB3PhOqf8yxV#fv^7XLM(lD{-+Mb7XO<YUsp*J{fzE&}#rxQ8RT>Cx||2_LM
zwtb6NZ<=mwg7(4lkwZx9pT-0&MyOo+ZjhR(TX>fchcZfc5?~F7VL7?uQ^GJtL!oD=
z=S$W$)~&RbJaM;{C&twjx>PgkR){Zh!OdcDb2hkj!hx+o&a;F#617>+nv8AD;%=eo
z$-0F!^`D%mA%U4fSTll}n-o%)!}my+0!?P5GHqiPkveQi=S?nINFTeTYoy1W8M;(0
zYy1OG)l{16xMi!C%|`F^XFWSIwjGaY_2nPC)r>^aSaVezZYbLFkijbh&DmmHdkgC<
zLBrr(>K|f#1Jf2d>;el#{S>wqo3lhMmdL#XGEO|Y;W4xDv9LLY?pxT%yAKr6iCjYu
zEHY(r5O&L5e>S)WKt$S%Ys8v0*_w4^LJ2~!xuti;#oj~rJ%=;4!;k6R80+1~laj0-
zHK!W#J*IyPm=y2_t~udBNb5UkHgYahf!Y74Ims`@;HgW1P?@Z2skhNXSi!i&p_YoL
zq{W|*G2yDmjDdC*+?}FJ(ZL)dM=^1Ciou=P;O+?r!-h0*88&Rn)vXun)@SQB(n8f$
zwouX5^W`WhUlZ{>FmhoS+9|~yYQhKD6o2|L!$AP5?66^yLKFKbpbg^{7#Lc>)IANy
zf(7}4R*#R<2+5SfXW$n;3x}J`=K>6=iVEO8%lj19LZq=tCNL<_5PTsj^ym{TMCFMm
zspCl@fGtE-wH#;O*?0GaZ15;RzPUZuyhCi>k!{{}HzGD4g-Nlzr#)k9UkvOhg!e9W
z^L5=7Jpm)hwYiD&vK^i<hBiMI#c4p}&r@xw4`|2gU0el<VgvlY5}OH^Xn2be7&Vp2
z?}f|ol_ITAQ#WjT%!DbPUyoQ;zl?4XuFyxK=m5z<gUn%}gy)V_ymx54KXTzWFied+
zWVb~DZ<rs%XV5rCJADCu$*aP;{7vEW2v(%IGPY2c_M+B2o?<EhDxVU+Ohey-ieu<O
z0M~62>o#TUwvdi~uqo5J8X5|;%!e|z5QmH6iBEeg1{eR0x7;v<DwaQNC8s{Z!)(!L
zrGd436*-um2szL$mf*7NLGPMJ!RAvWp5vCHRnk(#41|?z<%`VPj>;NTLScec)z=&Y
zms|<QY5)}zrnEz?VoV0vj4+d?3NNF9!oP<DtHOiB?C6XXj2_<ke01+KI}h(U9({Vx
zGtp-c^zAvS*lQ_5Ry00rJxy_VV*{I#ylS`%4LpQlFIhS(1t<+4)hLWTay+-#yo>NT
zRPC|rxe9qH4J><;0A>sg=a{YO`b*bdnpr=KWu+T{5^OAa2O*uSTO-!3$=0pAQ!Ca%
zp{0g_8HLR~m)U+)TzfQI_cVeZG{NLU{a1}M2j}$JaIfg<y}#xFY-@yJD6t-rF|R*^
z^Af(SXIaL!jDaE;1vCIhPH;lGp-he}RdBilRw!|b2_`A|9FbocdrY#7oEnNl`HnFK
zRjz|T`&;2IIZTJ<Q#7DU>2-!2VjysZa@qtj+MAC#BdCa4VzXIzm3$0G5i(*B!TP@Z
zYKq+yOHPQo_SfNgRhJKRy>gg2KQQUdOXe+3bNy`9f(}3PwR-dR*}V&pB5(hJMQ`3b
zZ!w!gv(<C{xq&-<Umu!l61#SSlVA=($-A~L-`<sPXnw!K50#!k!@L>4vW_|V95{C{
z9lHSwf%N9mRoBf^N>bRVSn!aqSJ$!heS4*x8^6dc=b=!P;P6bOrgl$Uo@|<4Bifr5
zoD|$m*{ojkem(mtc}RDNe~g8r9DKvhV%iMmwKD@GEMH5q@}2rwKecZs@)*rW^m7~O
zQkNt8d56X9nBBdg!_U0eYVLRlb#^m;Q8aXOxs=V{HgBaMUOf3Kp(D-<gd#bWb0?&f
zXEfK&rm!bB*UqIVtajevHZNzz;<vn53Zh~^u*1h-kd2#Uh#mmH-+T(BQB3&%03!qV
zQy&G3EWC)IVu>7=!OQX~1Mca7H62KnERdYpV3p9UNa^Ji7M30+ok<=Cdtbo5F#~iT
zNor?~*sqwNgjB1nc<eSeeg%nq*%qUQxWzk~Hp)X(1;gQ7FCOL>0D$FB2@b~!rkSP~
zhZBKU{1v%CElva9x3K#Rv~p<hnq=}291Y-ll+5`Qr5G7&X*U`|20n1&?HAw`ei4o$
zI4Mwu3bIux!<53-0P`Q0p}}_G<ut-%>`@d}E?VK*LNU5Vk7XL|dh}p0xj`Z6H)!TR
zkERfvUW!7?-yb$Kli`qD!y2(+&D^NiuoGv@FvAxIK7=u?wsoRsUB<>u<{S}dp~1S6
zjE?Yo{z?phsH^!bQh|>7=+)fxh&08JK<l*DxN5B33i;3YR2Eox)6PltEPG0F+L-xl
zt#2wbu_$-Rw!|@J1gG1m3EiqH{V)U=<IcyVRB!iSDajOuv*?4e7sei}WLBe~4*ZC8
zurLWzAg)5XGeqH__hRPPNz`a5r$qqy%Lv?;lk++axP1h&9`N7dsapn4xC9Z5sX#MC
z_zF2})ndyOQ3p_cp=~IKPd-7qDmZPbk}AR*l#j|6euc8gO7dLM*2R}zu5K$i`P`AC
z_=_CHs9YW*Z_#97s9I%3e_jnp!B~PWT>S8zGZSs`Dg(et(PVV_6HP!l_3zOfB;?JQ
z!BrnY*t9Kq^S~Pia&1S&wxij$W1_8j!a4O~UI{)aww=tjJ*NcMHQn5JV`HvvuUNO2
zG-Y1^VZ$syzi-p6+o7Lcdb9gR_iXk3+EsT?OnClk?e?+|EJU=2TqXvW<*S<W)vfuu
z_Ixd=UREu~QeWl9g6#|Dyd9#qBVXH|uj|Y=_2e7LXtJ*p32>azXhkZo&J%jyXR8Xm
z@9`2Z+AH&-IR)h?qoB&^pcxwM0D4GhCFeKk^^@eI?Gfj`-=HvZew%vpEW$~h*lJ!s
zYn?OB9iOv_OE%8qq}Td8SncsMU#r`?Q~$ob1@r~2<@haMbSVf&U+brLXPQ@K>T#5z
zckTr4b(yD3M1ItN;DnD?f<9fc__|RAdKO50Q?5`4)e!?0ToV*kj96}=6oVz#3N;Zk
z7E~Jxv#4Qocz~<MSfS*?7hzJeE4)GBuINqA-ehGLEYeQouYh_<ahi{l--Z0{pCEq)
z@_V49<BeMx0l{nHi#xe`4-0!-eLV3>Ij27EC-p$y2d8nM0+)z+p$Hg=`Qp}(Rl^{Z
zg-EHVDuxncfp|4c5Eu7PRmqz^UW4@2NFUNjTNAIv==tJxtUWdu5r&dZtQNN?*Re5d
zkPn5_qo$3qhIp{-TYS8l<W^Z?jmRHn`rXYyv*Ch%cR{gFmI;ptoU8)usShnbjI1Jo
zc`@5tS*i+Kf2Lek#>SDn90LQ3ag{-#fXp<$-(8;i?`itcvP0^(%d*TKJ)a?r$=grU
zgsP`JDiuh=cE-a{Vv2sX1s26JCv+53t)%k7;$%w;ZI`fBD@cVXvV>V9RTU&0#Y9&@
zN~_gm?L7ZL4R1rGiIwHQdS&uT&a+1Jtl_d&VsEZ3V{bCPN=av^;`ECjyE9@W*D2~U
z#jC}tP#}RBg{A?(!--)|&=Lsk#cHmOSc!~W?OV3REa_mzD5B8~D_mvP!HX%_kM7{b
zdHx^j;GHP^6`gFxKj&H{x>m6jsSbu6=u~g6X@}UfBipnq-_U|JsG=8Z5bhsv(ehJa
zslY9pxR{N>BkW)B#hNjfxdNHw0GBN)E0f6`gAeL-HvF+kl>i6<O11YPDy0U=r|A{L
zAod3slwxRSg%wPsX$=n9HXT$;(lRO+GZd7J3yNhhbVcKa2dZa8sjvsCXH<9gDDi@6
zkS-Fku-f5BZux^cd&|RM(yMZD*cpAAH1pU4qjBgPdKireTCq=e)jD7}gEJW~fodeX
z$!GM}46j*D2pP8yf-OI0JgbWte@zb>Q>My!y#@?=mgW+1yd(=J1Q`Ljje3(Gg=A-~
zp2F)bGwv8++oP25A5jP4o8;VqBiUdoIf{!>Qm_fmXwI)wC@xST^=fte*@TAGloUIV
zBy`ayz61w$$4}v|YM2<sbqOW9Zfp*)y&aupP`GKO9~Zt|_*P6|t;zH$KWWQaw3tsO
zxzQTZ(33M2RKT>bQEA!_X_EY3s1u_ls~fMMyLN77Nw#WP#<gr>Z^pSM?+;EK0Hs4$
zXVK*tSy$`dRMbwsG`(-;*-YK?Y{iPdsi>NKVd~QT<}LTP9m|BD$yOYPuAIFJ_jEu>
zJbAx;$9*S`-!x1d!l{0yJvZ;u)rYwxCm(7c%agg#N-?xDQ?u$DyYEzF*X$K*_U1#)
z-)hLV?)z55oO$NtukO3kAhzzy)a=jK5=|+E_TVy*`VHW))VonKEHjf{-j9Azp=;Z(
zXB*x>taj{L<to`Y(zc3COH#@H-+o#eX<81CVESoI%HrwN#-`H~Pt&4Fs+wM>Ns7tX
z!6#$PSY)eFoydcv+-Uf9n0S8#N+5!#>`~U1LH)1ec0WvSGp4ttczSEy&ZXo6%CKFv
z51=Q2G@P>iLu{*Ilh5`Q-LDwN?7v`mt-^$U8mG-RP*?#~FrRVUK5hfrumNqbB_ze!
z<TMxADyD@%g#Sb{m8Xy5#G{HSgx{xZe?Sg9TtIRbt{!`r!b-6KzXF)pt~i!T*rdzB
zX^%3r@W+&bqoA0~DwpJw*)m$7O|tMK`qsa|Ns)j63#$C^J*SEycq5+-MewwK%$QUY
zKJn8>5tD})AD%?Kf4lcMww|HNzuJ5J&dI61>j$nK$OV>(fn~P`=GxyH$_6&vO}<YF
zfSYPtzPe_%BHOwyQ?q{FV63Zzvf8{6zYha#GqE=Z-x$nw>=QfoWjhYMZ$>b7Y4sh1
zL4pi}I2i`1)vevB&jIzU*?WJ@{`=Jj#5MbG_08^_eR;ZL#)o4Ou9^NDp3Iv46E3m(
zz(Y?RLpKem!H*VdbTtR{DYAX=oz-2tH`~73;qB8|N>GnVs*y72bsZ*(rdla+c?vfe
zU`lAx1Ldg{65Swtmq6h^!%;+ZrNC4smGdc!0hTrnOQS0kPQ>HZ4mJ5Yf{jgR5y1wO
z#`5mUoV!_cH_vp=Zk!v+x^YVmf^qhwJlI^KVkZ19)%*A0sOqBdGlgn~uSuhq&Rd~7
z5M2H|j%14Ip`RN_o0L40U~_#5<PPsbsCyceQ|`c}-zx~x3WQRc#+5yV+YPk{9=4lf
zyX`^_g~Wky&##nH(44}FfY)T41>3tCb;NZRLn^_f<S&qez<&0tjxy|LhfQB%#Ie0I
z$9@CGaR=EDE@`cE%=!4TU&0QHF*s3T5w>?IZQ^ERQk4gFW5stds_`H&<tpReR?C>3
z`bX<NMpz&=QJhjPPA6<L>0bLeoKT=O%sv3Z7}y<TDcS%W&Pzhe9BeJJ%Q&62@sfhy
z?Ti!@USKnUuCyi&c^S3GbrXmP2G5Y;X42&4hruc}h&X~oE^PY*`AA5@j4a{KZSdq_
ze-P5U?@<Xv<1y=j3NMmDcj-)Izz$NCnNZ=D_x_yns%RX?`&nERchGZN2}GnTSe<@f
z;hZd5T1HntZrVPAD&0www+*@f8M8M4&BCi2CpYGt9ip=%>s*pq-X}Wy9t3NzJtqcx
z^3{#`nkG(r5i<{Vy}-<y-1~uBSJnJg|5szT*D~`+9UC&uba420+p@v!6MNrn=$N_m
zmkmAF>{I%wbq^X^ZagP8tk2gq=T~j`X2aJTzR`5Qe&^SlZUtt2vpaFyn|`MG4bzS1
z=9=!|#C9WigTy&(1eIrQtehfYUqffEez{n`{4eXfuk}ssoO<~|UE}o2Us*SE?3XuZ
z0;^|zw|CF!-`YFt#I4HHoAZI%=~c9Fu$z{T&Aj}^iFX1^-#6<Ta9x<Lapn6py3U@g
zr{|5cGd`-|bn~^1*IYAaMRpC}j~4v8hF$s}{h(6kUCFTfA69t#D%{`QTG8h>2{c?P
zw!+ZpRI$X{c=>T~6*gk>wgxjrL!5*&N#-GSdq$t+&zSx+QC=oGfpkXQ3bMOjK@*if
zT+LlkSuDQ46+8h8wprF+SIb~*5~%tUBt~In5=yf)QTTZ+reQ+YRI#amn;)SBJ0jrb
z7j_ekKsQkfv@uk+I}E-{XMtod6mp*mCdDld_lx&A!e1aoL1Rd3fm%FkiC@C5Tmp={
zbuek65)#?KiV6F>u-0|x+M!HK?@U*&rB`g}#bKeA{dXd8GR+6FfrB^}5va)pmWqL;
zv+L&$KsTPk-u2Wy^wv$kfaR^i{jjnQw+vUfVKb~)D_(MPw8La<u$6+A5t%1d6>kk`
zS1B_S{BmFP)3rYeS3v~`c^KJpNUNEwV6~SY7m}69B<l0OCg%Y;|2Ld+m9d7BooSRV
z#2SpJq8H9X5D`y}ZhR~vDXDo`){E5BGzVBudxM;7Qb9XvwT&et5z(ovIe&y|enIyI
ztnV@Xr1lC=Si0;Xp7<kDtE+t>%W1<I1G7<Weng(f2<tGDOjxUT6xM3(`;rl=HQ&IW
zFW7xiRynqo+0H@b5vTaNF|P@`mpu@?*$ei_u`ceynn<E#q#ZZK%msSnv;j9+($QDT
ztFCc}W{edvPS6F;nC*1~tO}z=SFKlV14hPh0rQuw^+bpGlxpDnHrO_2l*DcI&R^^T
zYq0Vfv7^GpR`M<ieyq3-S;R*h5;FB$iHm2Wsq^uHLELD^pgSemXc7RIT&5#5>O<I$
zD5Qnofb(U;b=~A6gqwxyISTYr5i1Mo#ab+|F_pR~Hg2bN#mS^eb0ly!Utxz86u^KT
zaXUMS^Z&)X<-+i}Z9tD~^GCZS&K6opzO`tR<V?jA(BNUnK=^G0Ljm;fDVA+D8S9iy
zTw*^fbM_U!#7oTT8<$k#zFRt2gzLi6qemV)SBXm{BOrNl7Yy7n4i>W>R8-!VX#zio
z&x0Pw2ODz1PBGXCTb}o8*WO=$FcW$T8?q|*#9nNlYQwouw;1Z4y_^kgm^k>Zza!_T
zV<ybR?K083Z1&(CTh_Z1xffKk01P2$kNTe}qi)g`Y5(M-4!F<~su$qG`1o5jCe4~$
z7TT=IxTzd2*slD)(m>nFSpw^5+?g#90uA9G==FCfrG<k8ZTW?@<Pe9PBXkBAG))-k
zR}2`O^<6ZOKOtZ&D(?*fj59wDVB|wh9}OsutatZfKoP!59by!SKm~2l4<poR$ywA&
z98+dQyQ(rHyu*^l;&c(7kfWaaHR@ib8b=0h6mq<<Kt7}#E;gh1QN5H@4V=X;-UG@i
zju7%xAghg4(bRLME}Wvvqe*Q~_&&wIM+LHzVMR4%iU6Pb6b+pGaHfo(3ByX~=xEQ!
zoYbGC!ExiWKVs`HjA6yD4_+J0Rjm-KR%Be=WCN=-1hh(x1IM9Vx>hK1H_`oIr9{zR
zH?P1|Jrnz<&Vb<0)h-olm*%~poHs0b!!y-)PQtP^h78!C&OPxI_%9%Y&SYWp+6yzn
z-J-X9&UR;6rf2Uv-hJTFw$OdP_Fx8Pplv<)s>xw@-`@RCI{eJnIJqA`^DwBoEFT1M
zZme@mc;2tnb@YB<2R#MFgN|ODYMQc5cYa{iRWyPzJllEavu|G(w?F?+@@>%_y+5F|
z>_p;^uv_ptI16}d-R^peRKf22ipeyN<Qk4&Vx$;bh0uNKqf#VmWPU?hjhb{S7V=6?
z2WZ{_#1AYAAA(z<LB(s~A!Vn`l*_d8XwVgE9#UM=%A-M1sCg_!b_3{!qbC&LD7X&7
z8T}9`Sd=}uK}bG`%Z}u7L$e`JHzZsxdq4r1hib|K@jC7pu0aePWGZ`Dj{34dyn^Fl
z9BNt|o^DpchFTO~;TJa*wHMwL-<bU?I^rFVIlw<QvNwbB2GwdAT4L&rM=CwXl;l+<
zC-u}YXELy5z|UC=O}Mju0PF}{agXiFz*(H)E<phd$8gj}2(579RG{-Qk`*>Gu+zd#
z_opu;5^TMY+=Iy|t{xCTUC>cP2~wjdEbz;3P<R5Q^8|Ekn_dtrx!CzUxj06ou$4%%
z%BZW$#re?-RErPb;Dich4kso!Iy^#ApQCD-Nc#|MY9W46om-&w<a&`zj=sqm8N^Ui
zFd=?rKE^+xtkKPn#eR?PxNj3CtU)QDUtof$s*X4pTk@_D47`I1sd7w^7LF^#&$!P#
zch9*TC%WhgMQ)=$TeE87K)$i%=HQLNT;pc3adWnD>%`G~RV_!TtHi2R*{anO``-1}
zProo*kz2A=T(UK{WS6*PSJuCKqAy?Hm8<U+>w6~-KlD^hcie;d|9!I;@3pPX*DcM}
zZ4~P^PTBIICArXAF|_uY<spTx6YJK=p}k_LcgpfG)XK$S54^3iJ#}DcY*O=et<y_q
zUYa>Nw|8zsre+I&e{tr>+`73XnVQY{n$UvP1cUkxC?PFWSn0Ayd#!uoAk?e9waU2&
zX0NqGi-2I7{=mkjZDkrg$e#kIQeiObnbj#phF^)4Y@=DKBoSoG8uom$MN)3mWmG*B
zrnzw^inKh-LmE($ZL#t6cFYWBJu5S|m5h*txdbA-x?0M0!MYJDkldDQ!n4)?E`<@%
z&B!dSF7{=5?VyP7l8>0?oM*wfd$b+I<+U)rSw|7XWMj+>#)J@7P_`Lz{)Qq5j|gkX
z`2oGIBOie?w{dAkJ+-YheT~wP^LI#+x(A0@Ytoy$GcD^#ue|$xi^=Sm3(f2Ba~JyG
z_{ki9c7cB9U3MOYpSO)<*4B}E`uGC<&R5l%>mT}Rrv1~Wr|U#t`@9(eioTj<db8;7
zoVQXC*H@dVntn<QESa}c5ERvXQ~s%B#@7l%Pzz29+t6HI9s<hCqoA_#D5$(V3frqk
zElVp%)s~gxl?qZ&S%DN(ULb{4h0QA;`d|q3T4>%3KZ=5F7ytBGm@;YXhPhAC*E4UW
z2$-!W1$_A%b_$~TGQC^r1SbW-RDBf+TQcvVH!rM$P7F+K&A7v&z4?be3hUGR&;+l4
z-i%-6b8>H6DX8p26jb&h3W9<7s)Y*jby&?oW@aD1D9_(PrvvEXiRLA<#@T0Qonm;+
zyq$s^y2kdI<Fg$zpAZ{X%{wUw#keu$;j7$;YE@#y@rz=LGg~RhrmKOrCHc^gl~c>v
zK?r)isBbgZKCE6gZ^kcjR@cs3$%k_UjX$)L?~vYXUiHx5G;hXldD#?%qyU`^v<H04
zMEmj&?FeL(l>zwxriJ<_#L0pUle|>jF#@e@s5%-VW~jp%p>7Ae$v9<TjaitLFAG^m
zRtOnVbd1?w*T)>No$Q24B)1*tdesfvfs~hQdYR)DYF;;#<=k?p2j>_(c=yJ<NMVlq
zhT7EnsUD~hYKD`@g6b0wXvfEVTtSc3*~F9wgHRsys8+z}dxWdX9<8hLkcX^=h2(nI
zqTW?_uVWU@mco9RW({LCj|dON>v?}b=}<c->uG$g;ZePE+7+vV>S<%F{t+cSqBrGn
zFvZ9+SyQYL_m&5sqN!O6-hb53s6{hZ=|sz$kh29Lt>~37{B1aevP>C&gjZ|!pe5Ff
z`nI#QE%A<6YrIqL13=9qbJ=2T$hCy^^YU0b;IIRKPnOpa>qOqJ*pm2Cl&{@FQ>+Uu
zSjLn$mxG<OLh>mD&@N~a9mYmBF&cFcv2@~WJluZ@7XrY(cX%MtpGwg!@Jj0NK>u)f
zWH@n!u7V#NJ{uRnW{WKkpTgzxh#DSABZ8HKYuV`n*+Fo7W8J)DPH}z%9j#$CoG1hO
zTlf^5kJgzH^j98v>_(xLk;as!GT8%K8Y>_@pVzDOb04jYL2~xM8SOesO=BFe@Q4s*
z9Evb(KK0`c1%#)<s)ZvQZ*nkFI7QU0<ao9}aUs4(5Jm(Xi8l@;QiaBrQZ3AwR?&tZ
z^s+G8uJo@u8tgnwS+XCXE%F)ahfaUa*(f?2r!U=icIN#{^5p^Vx@$6_zN~vs#<qv!
z#sr!U12eSO#0i8%f{v~apB_BJLR5Yk5j(2>k_lgA@^HPTJe<;&Jvh*+omPWaj$No;
zYexx#OeQV)6W{ORl5bU5QILR7;^xIKH56plxM2}TuA-_G3;b+dRIP83lw4C=Nr4pP
zp}jhLu=}l6{DoiGV<pVN9<su&>|6_GCs2m62$5a^>RA4ursk4T)T6byL05)fl%i^1
zp%jfhag5);T7_7$wN~~Fh06l)I^6V#v@MI%YUM|rROL&Qq_wvvy0`2>E;S``kyc~b
zgV1nU5MB|gv22$0oK@|Ao1$-l@2R>CC_`hvKeSxyYf+V#a0S-Pk1$)kxN<L%#F-%v
zAc;>T<Hhqy!A-BU6_@NnJk_5(pMbFP5(@3AmR#Iq9G_|uU1uVDeaQ=n^dLhn%0x^d
zi&Tm2i7eWTrq46mbdrxOozV#%(tU^4XFS37_}r{Llu~uv!rkX6zl~kMjd}|E@GAIF
zHyq%@t=>@TN|D45pS*wy`l-^xl*7Sp-iX0eC(c;QiRfNL7q!UEvKE>Zpz@lM{paG*
zICLGZK#U5uWHKHjOb@98$!1A@OMK))Ke6j)glhUEHInboY41Zzj=D9!f`C!=#AX2(
zM)48UKl<MZ0g`PSk{tNzbG|Oo*Ol|F7JaKHEctrK?AM6(YjX8_#rnP2hvutWa@9Rz
zHQ0gq=H6WM9<h1P+qh5X=!EIMt?_}aV$v$wYVO-`##L9{FkyPliDWG9-RkADC%*QH
zTc5~QZ$!8&@2|eT_1e~aP3!GLcdG6Nv&;A4?yo>I4(J9PNMHk%3hAwXDQ>UJyDFy+
z-L9WIeJ7sn>Z4@K3dvyCF>rNka%}n{F7HEJh41SA$^AK3<2{(Z^98ThT&v0X+C*Pl
z&WEi;Hz~MQyyijuY8!9X-KgUmc6`wNFw~F>Ef+(}>8iaWlSk<1=;TotPJ7^Qnz2AJ
z!4E24SGxjS%37)-orqew=4+R4UC#A9C-yuyVS2|VAK5*K9xXB8Kv>g>zXe(zu@*n-
z;G-(5dZZZxL#&X-G-iASx<Rk#uRyx^xr(Bd8LH(4d<pe$?eCcsto%{>3u8ve94)en
zH*hbsqEwko;kIYU7d=d~r*H?VwIG`*x^dW66l#u{p*0FHrU&<(tC$@+4RkQkdfTet
z9aRU^!t_4b%{lB=6PyD%gxvgwljHE6fC!WB=^E%yL!FMrJw*v9PB;mt%PJYqkDM1y
zQNWAj{3Qm4>;LSf*MpQuR_i3u0keZz_#!JwGMrCI9y-;_Y)0{$JSAW8Z9VLAPsy#`
z%){O_^*qC}-R^#H|6o*gkc9dQeqnkQg_9IT)0peGKQd1fXoS>np(&6sICM3Q*GI37
z&UDYUWvka?23I$fyg#J7GMi=&;ZjV@PWIONz~7S(w&okU3O2$~P_XX$!D|PnKb;LM
zgF;1Z6J68st>xLyecxI>x9hfXcGquO?<^NP_hoDMPk0{Gcg&1s>tVVp^dQtab6_rZ
zKeTzm{jR4o?`z73mgcM4^3@$oV!)*UKd|eT$eQ5aX{g-QU{fh6G(_jZADc;pq)8nU
zW&!n(@xKh{0VkJf4c6jlh2f%JsCtwwU~DEViaA%JF}9#k<TYL-nSKYfpphHCWsk{k
zrTmZ6U&M?tT{X)(exP%hl-|TBF_qe)2JxprOOKhMAs1qDdh<Bb3_=Y}RKwSx1WLAl
zWyw8a**pOBGvFRT5+;*IKsAAEEjdgg`6uv!?M4D?{7?`$ft|E=klLH%65>f5egzBo
z^x$RX{5s(<9OUMtIuuP5Wg;B1DCoK^I-uUJ1;$0|GFK5AUB8$-f1-?A383fDP!e=k
zPdFAxqCIiop*NIi*eZIr<^%OJ2XXV}!_Gr9>0IX_vGWjupl-aRG9T_>zf%s_N%yva
z<>9N%H0-_y5hi82r=97*(Z8tw)A~PaydQr4PaD4zxa+&SbH?{(;~R~0wrumpJFCRz
zEpIp83qP+GeGf&4P^tMaXWjm2!K!P1fgf!6PG$Yh&0ggkGwX`(l4XL{Zz4|@{tOOn
z+4!YJF>XE6jCZD{%Fgp(c*>sw+m|K<zqp7kBr?fcoL<|O=38<SWnmy7meD>4WHOhf
zrKAyqN{fQRu?SSLMF57iWR-maQ=B0$plHItj0en(+L)voVj|0Ql5znbOi{;E0?9|2
zJ!;7+-;=DE-y$2xlAr5VC{_v?dSwV+(#I8D4CRDcP%&Yxe2Jq~)lhXYT9uFG$W>wq
zPY~#hpyt4(Hl3?_>LNCaGu`)`EA#%w>CcG%ZpdsOHnwm9#GR+Ijr*Z!{xBGxsTY~y
znyxLmu3ci+uDhFZyHAL_Ph@vLd%x?stmk>L>$#boQ~K-nYxe2p>0@8^WV)UcJ<n%s
z&;RJ2=Xo~8zGDvUY&Ho?(dH6>Axy#m=J(+tEi4%uqK6qa<bczr01lH<Y5`6WB`{_v
z&=EyPy=c{k&P0q!27w!URRF_2QA_uuKo>yfSX^e|WC|<uwdXiiBa^-Cs5euqVK~Yl
ztR@`w2WXq3iby>m1&a_$fzsyu0R|Rc4i<$t#XtZXNy*C<B?{4tRTiaM6<Ufu#<Hgh
z=VUcNW>M--5#0Pc4mTFv=B*i91F%-8bz*<sQ$4-m9?XR{E}5+n8+)gmxO_U-x>ao5
zdgmP7QH^`3z3sPynV#+0t{tLxN5<RE@?<|o9?{zljoDBu9pQq~K-*$n9)br3L$r~5
zl=f>ujzrs^MV2rtX#ywuhtFJ~i_O>utzh)O&`XO`(YXfs6tQgdf5Nl4iUj6t(SMp%
z@lnfi!A3hk)sVu8#7CXWgerhM4bZR?@M6teP7T`#N0E}z3dp8hDZk0f;3ira=+TzN
zt66!Pi`34Qs68!Q+ow+Cg4;#<f8cHhoC(KYc|z>K9<!QAR()qji*26YM^z*{ZhmJ9
zE-5LXwMT?GDz13WKAtL3akeNuNLUzyZ2TNH5)2*Sz5LN4Yt&;GdW9V4CphUewn?D+
z3EQXxx0ADjdeOjl%4P-)%KlX&A-`gvq6F_RvfRt=Lmmw+?r8b4`ElxB`8<nP=L%<>
z%kuSMh;tz)w%xGZbl-53A#D6_UYoD&#6~VeRx3h|i3*5dybZ7b#(8?XQS}lOOH+eQ
zj}7oVYI<n*SP_i9i_A)oxD_RW#K;*~iAONo+S8Yd4Rs285HPATiVL%-H2V~_oH%A|
zUBYIVU7XP&dOBvtv!1mX+gjEz$$E+1OqkMc9CclZ1i7GJM>k_o2b4VpVnfCaw+zA_
zq>)^Sk^Wdz{@N}1SpHtLMY2##y!2vR;Q+O=aq++wm-0*0M&k3q)_|{NW=+<&1ndb<
zFz0CzJuNf1>}#1~vaMvZpe~QS$XnbzEqg&^fr=^o%8dnA-#og-!TBlS@V<CDoIV>T
z<~5i-VNNWAV;?Rc0*Z?#Qfd}90R-ajFy0XO*zQssDcP|}9foo#wC|nikxMYC$7hQ{
zpw>#h(>VS@{A_TNxKMr(=5-TJ1%oRIrEa9sf|t@1zf65e{7iNmloy8LdvIzZUl*Qz
z>h4Kg6;H}o2KnfGiM9czIG+e^-kEUu^Lc)Y^DVvPKQfX&K+HPQa*f9r_g;YjmBUwp
zO@&$-ehm(l!gKposxGmNnJR&&C1Y#m6O}RPi1k&Xn*LFh6prJ2$`L!Y2*!CVJz^)+
zQN`4YYYMY(G2`!6Q59i-pio8P1qyVnO$jP~vMS2w0@NZnmybjZWpu63NEOvU6Qyj%
zuNPI)U0lg9>QjOfo~(W{(xTiYNUMixquyIu=r#gEEeikJR4-zWVQRaZmC?njas-l<
z1j28@7A^gDtti(Qc>$rI1>;aKrMtkH(u%?hu94+RsbbDA@p~mF6Tv0p>9Zp-;Vz2c
zYNi#ax8SE&;+YCe$K*8m*fyD|k}v{+F^gWJ2&Qd9v?-@jiE<EVYDkvDoFBZILUvMu
zt>hyV%kKmGHu(s<3xuEq3;75QvPmx-BOgr*f%N$WVzo11WCP6@Qv!9ewqlBnV#xVN
zV6oJf;DKVw`v#-g2EI*0bH)^U*wmUa)ju?Q=M5I~Uj6LqdDuGKtDlp9@2tKX_|~Q$
zu&@QA&f??Aph>Yy->3h9uEqSker9x@{oYyqL-sqrUtdqU3&D9ae!;o*hvu#1gIYnu
zG%h4-U9i*ZmY})z&gpp_e%=l&(9e9g!~BB&VGvipk_TBGo~!kf_0y*5lQ&<y@uFC>
zRJ1RhJvq1bn_IpPYu=gFed3BeqJ7T-E-6F$8lSm+?!<x)Kl2@WbIr`2H}}7>|IMRs
z93>^38nRotdA16CCG%z+0LFq3Tb5P2Ej#r26|3HN`pgXv{WaIOT-!prAPvNF4zV|=
zfi$4<O}%q{V&jH+JH3K`)^L67+Sp7?tX?`#c|kb%tLC8s(g02{ulIt7-a1U?bq}lS
zDfPS={-S1y_Ijv#A;@JgFQ3_umaV>H{sY&yTyo3W_R_tz%imu8cIr=YdJf)s8%$Bo
zxVc5jDqVHxeXH5r@-WDhIa*LOj9O6$b++qjXfm__<&74!5-IH#r1Xa8&G<#i>aN)}
zVinYB=oS2rz&s^D%jAqsdaKc`UZ1b3c^}#-Ef3K?7{8>v!5Y$Pp=?Si&}gB&D20-u
zGvrdB%+f*zF<UY#_RxKlEpNB~#qvL0PIpqaaMVrkIRLO$AENE)S@;0XVx5wh@pYIc
zh=a=zH_Lh=7U+qP70XH`JZ6nswFG7`wPk}e-_Fv)_!RUFoG~Y}Y)SSnAC=1%b0L?D
z=@0m!Pf-E0RuxZ}m)}n3hHi=n<$H%(Sldb*XhZm*KTyf^2mGKk0+Lf9fqJ7W_cDyf
zrC{p1sZuuRJsq$nUyO-S{irL!i|r;se5=#4jmddSDZ@bs@gbJOv6xDf&tz{{xi6!1
zju1Zw-!0jCv|1%Db)veIiJSsOjZv@r{SFc?bRzLT1J}#4qM1+Jse)<V`?ejl{Zr&P
zuu_hT-#D;bK!y@JL~VLKVv316+M*Pj)Tfn$HKq;;g_CHO2I)~!Q-$dGV|*h;*q7@s
zw#=Tp`~SChHNa6^_kH*7B%P#_PTxX+(CG`1B@P4<$RK0`!VcfWCI(a6iqHuV2nqHi
z1FEncH<^lQ(x5g8B6Vsxlh#t3HaN*7q|JvDCz(vAo!)VBPF=&;ojB8GGLyk@8Inw=
z>F@X6?T5}Q5Q&|5QWo^z-M1fa_uYGM|G)p|;wk@@h<8g0@3C_R^TE#;na3M4N(s6g
z0y*{qW?9~$RxVK|eY^n}nic$99w(o)5K_<Mu2O5luLqVh$YRBRh6qkoo_6#~v%*v#
z;dd%!F+_jRw~zzC0<93+KrBe;;&BQL<fJz@o<m#iY(M^?YFjHf*pc5VZpd(2hcQ{O
zL$eE{EKa(5tq4yNNI4O^Xf^MA_~zR5=V=cs)r#e{R3j9@mP8Ep2+7v5&Uw~#QaR;*
zR5__uD~-?~oCII_D1Jfs{e4fCQ`^l^JG5YTZ#T??02^TH(%Tz=y877q^(%t+1{+rl
zRX+)pY`DK^#foDPh7WWdZfrurn?t=l$2(TFGzCv~AL#9QU{9S#&jR>>IZ;nvcSz5s
z{z<Sj5Ygv_PWN>l>*+!~p+h29j_$XY9PbQiQ9Oor9;7ZGrr)Su&j!bioMeJo*V=fP
zJPzfp{hb4it94(OhU_~@sgCxiJSGESb|377!o4Fja2m0|KgRNO34rwcM}%U0kJi~2
z20#akrf0(0rmy38e}AuJlDu0&zz8q`5{hiSB&78pHyA|NNKu+}8keOX=<V-18a9*?
zGdXsxms8b74s6OdBvR8ph)v18o2U{~YVhrR`@eFOzmBu%f8);FslMhbMHukh+RuI9
z#m8TG{MDRQ!hyIpS_BUnSb_(Tz6WU)rUNzbjwxP@FLH72$mW}FCAaBXfs$Wx-aG1j
zZZKZ4I$E(hR?%_}esuSaq$Lo7sr207Sm^nq7miBd@RYB0I<NS=f7BnztABG*_49`>
z9F8wq9$mCNwy1Gr^GA2Rk?sHZy0h!z*~>0xFGI!8w_a$4DQN-XHsSF0H~d8-zF#Dk
z!++<xqT<1?6qH9`^j^^VU4(zyam~%LU)@Z{gGF*y{Yqrid)Bk5TzS59(^~f{<?}bK
zalf)Qt=*j=%oW}aQ8>iJM7A59-9E)yo!;qNVhjyVU)E%UX&HKqA^b{~(%4b}JEh6Q
zz;>9RoWAZxjmDbFyb#oYP=9;=K544tI6acnPgw?_;gE}y(~C6)IJv%<lc%W%;WUym
z8MG!RgY=z0c?K0>D0^l5Q>&n7GJlmAwAyj*dpkp&2%-FBw_XtH$H2jmfVT-_$;0Ht
zLW7XHoWbeZr$FE)XO3U3k7I-ORRZ52RcI%y>OA2S+JH12$-z%6MzeM=tIG~`KiSg-
zdlL@k<G6M*nE=!QfeMkv+lHLLp(c_yhn#8X@-q&%v#1Ln)m-~1yE3ne@hRq4kB8x~
zc4dC~b0K<iOnAPKJ((?iHDZg}V)O5tF0Gs{TLd9F6w=UMC-O7Pa!0nv0XR>|D<l7K
zrLa0)xI9|8{L6#!H9MngcE;B1hFM77LNL=w(Z<a(V_^93G@ss(v2mgMI}6h`)@BHk
zq#0n?)X0saNi2;V<jZq*cXt{oLK*CyRsPD^EM;+G7o6OnXT$__d`6BC!w3$B9HtT6
zK%P;h(}$iCMx&Qgp#zosOJEVa!*G)4F(*a<tco(<Ary_%2!g4HdkFK6F_NvoHI8Rz
z4SVcoA9TS*-tldnn2BMplhGhrCHZN0a!IpPVa8c-#fO#q(RK`@>|q}nu#dP<0xIpF
zaXjNlrO~F=8qZm6?HOBe*UvT>C!+>15MS~r787=)#yHzr51Z^7<&`^yDS)0&ra($4
zlivG+{rJiM{`%Lyt}7J6NW{1xivg3f1K=XE<PNjcXwTy2Vjze)MP~C7vJSEZB5scM
z*W5aT5utm!x_f%{yrdM~Oc$qT4)%pl40d<pe$+Tfe_l#L5q%A;PuEeyr8mH7Xd6z^
z-Mc#ulbn?GKFgEcm_6{MJ*T>RX%#crt*h_T)xEmcu&ALfPuSpz_Yf9$&?+Wb0m%>q
zBu5|wQ>HwR)6;AssWkA_;VL{AbTy?5#&$+a>qmTVz+kOqv?X4+1THwzXa1~r#69vb
z1LN<zuumo(lQHw-<!htmYe&+qEUX@Hr$8bS-0*T^Y#}U%%ihc__(U^>4AI;`EVpXJ
z{n~;hBipD#J~7%R?>^z0a7PLo&bE(i7&&o8I=YQlj(5GVBsTA!&$oYJ%jA}eotLU#
zIuvVYi<I66MIu6?p1N=<UeOY*XqnDi5YMZH+HbrwmbWyXw=9~sY@$1s*95oUKyJiG
zS0AJrY`pBRnXX>-#SM`)?~AV45^35Jl^RE%|KnTFZbc&Ir$(QOEMARh0HqsV^=-UX
zs4QHXfInKXKxvy|{y@YVkZ|Zx{8ZY0kh-E&8677&DOP)#-9X6J_-)so-~lHo*Prt!
zza<)>tu)RO^0wK9ULWMyB;WMlm-{g;gV1ZbqK0y=4V$h*in5p@E37E7!V2;lDM#4~
z*^>~YY^Cf;N>Z?C7o}iV%2ERG@}VpRYr8CkyHb|IElZZdz3r+YOeuzZjKUPGlfo2k
z*@P+FmBJKmS;7?V1q;(Eg)jwcLzse1+4y{KXJHDNWxFut5b)?{g_7eCEQ+3U!CfaU
zln&8K21F}fQ?!zq6s;5+<q&(!CR)i(idKq4K8RLwAX>>4q7~e2)~md5-7!QfCBlIx
zAEK4HU7H1WoHV!r!5s(ppG~w<G()sfY8S0EPrCK=6M~aMGWq2CNx9BEM3_S+OV1cQ
zE;c4zy7$D<<Z+)ko;>n<m(V=T(Q$x1pA3tkyhys_a-0p>L>tYf5N0VRH!Z}=I(UQM
zT)Lti<W2bLpMz+nS;8;aP&c6d8~M0OidLv~N}sawol4%6YMq&)6>>xZk^BG~c0>Xr
zJUmD0B0^<3%DW&S!X&{(a9?xew6vuVe^3jRvN)j^Z~`s}6&%m+FzaLD!AbW{*c$L<
zg#t=rb|!(%Co{DBQObl;;^PJ_A>B&EaRGsuE>+J+8nr{ON~|27OzMnMK(fHcXm$Bf
zlpjN(+_J&r<nNQL4k#Wf&Q<)S_ToDHQa&Z0X4r9GAnFUiBzn5A4F1;fMNQE~O)%Ze
z&l*X?oCS+%3$<1+eR2H@>*LjHqSb3Ixi1w&s#`}ke|*Q;9aFdi0j%tRCcK!TBQyPF
ziZF-Sf9~H1fGTrko-L><W33^^Wby}d1d-%4QWh(+lM`IEfk@NO!@7aNUfV6VX9JN;
zym|_q0D_TYxPyfw1$eaesbQQnnU#tQdw7lLCo^H7_B6X7;h**l$ZauRvfr2(Zxi}V
zm~+b8F<uSqF`nOcVOt#eH5NA703T7E#B(_r7M_E-(wy;JaT3qn0De$DUALjl{q452
zjTyIsb6>{W&46=B)5<gM0rWVzSVlsaDgc@U%)xc3i;RM4x1kTEeHfOy?IvI{7<!n@
z822$J0_$#sRmobCq6_O7q1J7LCZ3Q;yM53DyLnp8bGpO=n|c%CS#JdR1{(kYL$d&#
zvYjT;ke6=^7?aJoq@m1^GVBAmakrxMqXAg$xsPxnPgz1<^KEm6bDRR-8~yx<gAm3z
zb|%*r%Q|<!^c*rEl2lmSu0@7(54x;)u#P~|-co*BOXV1EftCWpnrx}OP}Z;?ZJ`Y3
z5$1`O$U{pgjxaNG*zX85vyFR)l+XLj-zgt=sYq!|><%Mcl=0SpcsUZ{NmmATM(s~P
zP2CW$=MTRMe>bRc-UeA5t(G1~V<S(oqbp%Z;Sc>O^}GtiS?oaq*ne=JR3TZSoS1re
z;yvtoF*LM~Vta<hKNF>vLHEjz=2?N26~?UfP<LPVspDGP6a2`q_W!0<DB^FKY#nbp
z=Q*D>nl-lalev?vzr4ZE^|NIQ)SvLZv`>=oxq^Fy^)NWJA_-m@%?T1^`eSv5kBSDG
z%#$u10<ZoVuQX+45?DOXvIt&4_kiyUiI<aczXc2#=ix%MuQozL{5n}6t+h<tDqTU;
zjk>y9SGQXg=y^;gV1uq<5iB;vKZG&$^z`i_@`{w@i<cqlWv)$Q$8Wx(d^?%DHF;EA
ztc~K~!u+ZvQLk+!zxk;Ec=q3EA7}9sXcapEhAbQrDT-?0@!|8I^TiNnN=1B@vHY{U
zWP*Y5s;IAaM7`qkNBJ|x{4FtG3(m<eAL|^gi03bf<}ZQOR^Gy~_mBD|L>)<c6T<Cv
z7uHRv6O9v{7xTx5FE#(5WJ;#%tXVeE`@@=b;5bG$MErs2;>GdehG=oa#6!{I6(bK!
zuh;-Ii`cX7@x9{*$M=qPT=p$P`jy&N;;O*;zR|w%hhim5N3xO7>U{rbf2?Flyrdyo
z(hw^Nj$~i)myOkbE<7bn$0GiE`mxkss2@KuQ4iSr_3m#S`Pz}l`}a=G-v=L->V}Cw
z`eF6GQC|fgrDD3NWn|abhDgPVNMHr&!WEZ&jSw@|tOdHmcdq3^3sQ|vSFVUxu8mf%
zz0?@1T#s-x@IG5ugBTzpF&7vnSnEA?_NmCC;KfY4wdd@3S}!>c*$Dy<Nfs?^n0>wL
z5c@CL|4A0GZ~PCs86fs`kEfVeHD}(m54IofvaGjqvKFOBJo8~iAk9T)hu%orDWSJW
z+bN+pHto<GyApcmCZRXhcIeGr3B9>xL2vFYHIO$lj0)t<Orz3_fm=4@&0UGSxn&`5
z?%h)k!x5S>U~M38Y)aOZ&C!LHFc-2PTyC^s?EDtUyL9fz8#?BBz|L7PPsk4W?g)F&
zGqLyFuDt{7jl5Td2oI4q3qlu8ES&U#;fuS|xRnfyQ6dZ?O7Wd5v!nLa+9%lm#z-!Z
ze42z-VZTosiT(JM=ZwHtn+W_P7(wqK0tXv67X-fAMBryxKXWXLUJS)FUxOgDi(gt}
zA%Dsb?u|brz^%Q&*ZwTY--4uCQl_HfWSh-E#pl?1FB+{ki~jU3d==ejb{(iT$rk)O
zk~!hb<S$|3%yIk*H=J<hoAc(5Gt&SY@qw8;&MZyhOpW~bEp&x<!R1|W$pJ6}hX2mN
z<*@rb3@){Q<PiD-$wiPb{s3GgP)P-ptM3F*ex394OT6zFNxnpqiWxNyQ0*%umq6|a
zHO>AoU*Vi|7d5@(sHtL(sEIB{Gi*2Tdq@^$BR1?p<Y7gs!XVzoHC*T~csnO2A*~<s
zbRItz)YCc#Lp}YvdjRfRs-6=*3L8DCZ->wF`*2fjE67Z9Q{m_|&oYc%9kjbRy~^Gb
zz@sExoG!1~HI=`6HZLd5gou;#QdO?6uzHHtq<6z<Zb5?e8>?K|jKT-k=BV%r%f1T|
z2J@)gFURfoSTV^dzDpgB{BAH}Q4;E90{00GE%Bet+MT<%g^5K;n22=}CUVOL6S*s4
zBDXA<$i0TQ!NeOxjMv)cVB~+3M*b2|vhD5yN^~f50W1{C+;<jGHg&9cPXfxv<_;+F
z3MQcZFATSL5Kt11-&Uo|`VDLOpR)eDfD(iE)_~G%vl)Q$I$Q59p!_ZMp?3x-&0oR<
zlrG3Sw143T>@K#W*ayp9#i48m*tR-2soceOXdP$8;oPwu$Kh;Nm=4OqMI5B>8n(OD
z!^~sN|HkP-SWUg#P(%B7Ry8La!Kb$4h&6oDnE9k8PSB=UmddinSxBPuEA*;)8H?_6
zqQ>~=`rYD0o8Ob1=o5FsiCV^mTiE&DIpe|r+I<e3sAXKZgZ1C#L@{`8$B8-_{Ow`u
z-Q`5z2~HHDL)+MSA0rW-Sl{Q?Z*6hc1nZiaaXmu((dNRq{sO(i+2RdGL6qX8Ebufo
zJ&NJMoMZ|i)HXd}5z7*G<b;b(E>0n#*M)--U8ux@9GA{kakP7r_i?m)GmknL;Mya`
zIynsv!^Iz&r;%O)Hf-L{drfOAI1oL95LkU#mV3>x6$LNb7SG&#Uz^RG?+k6*?D|sU
z9Ywb6Gr7Y#$k^!%(NZio#b&NJd8%y{$}}v(&iG+7X117hieVS$6fxa6b|%jj^E_{0
zzHzl7<V@PknO3XL?KPYSn>jkhiN(podPY0u+gi$RyoJqX&UdCDlnom;I7kf_q}a?k
zS-WKo=O3vwYPZ%QpK))fHFC^fv2Ye=szSJcW*cY0njqJ1HOC+m!XN5gGo8B=4tRDm
zEC&wwLmcgM;ehK3v>?CX*ZHouHh){kQ)mOHeU<zl?fY(R0tYXjKjuj@P2e=qtY70T
z{)yzDNi1`_uVYu5#KGbX{^m&1h_uu)fBH9g>NiQgMe;Jqw@JQ3A`IK;n`^UZGdG<~
z+c-(ihAM{8fMI5zbT(~+zt{Owqo>AmFM497%_F|wk*V7oMS)1s(zEST!M01ovEX)C
zl4X{`alAJ82WA0xD_u@x-L{y2d&Il_J&3WIXJD+)a1_oNW4*ynOw!7}w+wyn|BYIt
zGHr({%;&fv?dNVN+(sU;J5!CY{Sf)r%FZZ^uY|yySf$P-)7$$(gU60Bg94H?hGzg+
z;9IfWSd7(qrCZsL*ev^9A(ct1W(F7npOU^m{d7j1SN9s~x}n#zIOnwY96Z>q!OS@D
zBphyFYdkZT50Xj*Le?og;la+{K+;Pm96*@%!1nDs!VTh9ClB{@9cBg`rucz_PiU|U
z&i;Xcei3D`Yfux_FwW;8O(d2NFkEC8a|dnje`o{mChl_pAtbSV;55P|GaTWQs3ORu
zLx|?xuXQ&BdIm%--Cf<`aHn>fHH5pF^<n_E9qv9Ra|zwnn$EOo`Wb!-GLlD<EoxsK
z!Lif@E)_=OGswDXvLiKcAi$7FU6RqR3vkqd9h3oxHH5)A<LTQHLJ;)62P`)LTw}5>
z)_o1u!6^}R$Vyh=v9p4Re4S=Xc#vjebIi0yX2Jur1dKAjRAO;r)od(g`f&O)kAyOg
zkbh2D1{knNEVjFq8)eqoVEl~t!!u_jpBXM6a3{%-E*yV_aQE02tSOVD;<@uhjBe9+
z9L^;sGX@t2q)`Ra=E1opOZ=<~Rx4oDZEPK>HnyzwaJti(##4$&R5jMw#?~x%ayZj|
zr&H<?j_8yHPvB5G1lG69)j{33SP(}zT?CEt8GX`>S)O(hXR7!+lY!{vaJu*quFyP~
zYP2*GYa+_R?vSe?AUVqWaN1D)COLY0PdAux8D)+yBPyXaeGK`7fd?@IB<GX00THqa
zELJgw5;GXU&+l+&7|sovNFSpKhpm_SG~$s&fb?&1mmUjxUdO{9*u8t#Lwh<N+5FJM
zTXyXfY@qHr(%;jkrz4XL!gA^!#PAPm*{p!Z0(!d446EmxPV|O-xn5=!A$kz~>y1Om
z;>|EusTpa+L;VFG#U~S%A*KkEcm0Y*1!lId4rBfdb6%Or&gmH)9n4qTF_dRaztDAx
zlCNUE2y@m4`<9xn=8C`M+>>Lcr~GvyGHhkkUpc<#vcGQPU_96s4Ys{pbvf8RJwGs-
z@dnA8C1qoapATLL#!BkqCCd>P@1i?a(lqkmm68RMdt(cmC-+XM&pkYz|CvW7_C^;r
z$4XWsfo$oLcxgQX0!%y@D{Vp!4UsbgL4jT@d!g(~edE;1jq#NaMpr%<Te)Sberqgm
zTeN=bc;~qd=Q>B*&#fNIA8Q<Y|Ai)Gn9Z+@)NhUEZG%^S6}<8nf!ixApDtKGU053_
zSUlc;@zBLb5y&V1e)WdiU6^}Kapy4MOr|gHt%`c9;@-Nbw{D^#e$S5RJv*knJEy(b
zac_ClTORk;M7=fRkHu>@MQb-rdE3R2+RNVBiG}gHT~Yk^?t0Z*`yc)V6WNy@nDTFm
zcsKp>dbLu%`j^*X;ILf{a|-=-Q^DqC-dA#qHm~&VMD*rIP^QrvRNF`LD2Zica+5vb
z36^z`e30a)EF+;0WthVlktls0M56R5_p2KbOLBf%yE?xAnpj^dOo+9-0WYiju&hPI
znaJ+yN0KHH`zEYW7NPrXCBe=EU7ClL@=GJL#1cg7nFj~^5M8$)9gyD=<gh?$CArUj
zhxGKP88ug<WI@K}<hyHx$a)%rXdFMSO|gJ-97gEXx(){!AqR;GSdt@4`uc=WMx&pd
z?n7iQBkEOHW}eMwdA_Ww1KF05(uu5tMoE)Q92ZP___9Uy5~h+%mISTn!WzFU`Vw(a
z#M#2Fy1NGP2tn!p8$2<{{D4D(TM%(W^_p9pZR$QXde_NNK~!|<0jG;Zjp1N#Z|AX2
zjiLp;>K3ORgOI8VdAt_##JXFZC|r$AHx_>6Zdw0{lihtQHGZpZd)g|klBfA)?Ph8)
zt%{|xjjhJT4@j0#<JU}MU)5?!_z}^IQ|=HHS$DK0JYgwG9mzc;^&|}>%SeJG%Sl#%
z==0xpBbjG{J+P5ytt44R(nQisvYKQKh+gJ!`N5uEUfsgux#Bod91bw%T3E()$`OU(
zZUkfL>*^LkX!Ql6Y;d5bH;is(jH?b&pivy4&$FE&Gmv$Jk?<TpeJdYlJ<pL%DDNW1
zLGlI^eCowLAtaOO3a>O`x{3ZHz1p)x@cM(DU`S<n+>N~FCX#lNzaiO7@&L($Bp<_^
zuWjYl0g{6x`$@h@@(q$6lJAq4pF^3%?PZodPEyXhRFJGBSxd5s<WnRUNJM655uAik
zN<~x=;rApA+k~o2U^$IkuwI~bAL<EXN@1`F^4I;Eoc3l;g}S#@`fIgm^DuXz8YTP`
zuE+eYs@GR4>Q?nfO7>Ny`gLVPOxbW%DZi>LcwK3ZDa}7p3SLuuuPFsrm7=T4lGl|r
zSC!fyD^*vORacb<Zn`|G>n#Q3=UIx{c9qw*UscwN|I2T>(o`2>-m0#fzHAW1B=fx7
z1$m3)=LL$2OX{yG%dRRduPeCE+8-;e_RAIZzNpd$!?>~q5v4ehUZ$px4JQ<=5-mP8
zeY`cHV0CSgQnfbHx-VL}FQOEldo-r(`_G)Ba}S+=Z1l15fvKE^XR;FMkEv?@x%CN!
z>%>#8r(M{^<y>EDPtQ{Cja03?reJ+>@Y2ICS6|xq($hD%du@IeDmpaLC1U|cg7-xi
z-_IlIiTMQxO&qCeN+{e&+*8b(U=QoWic)oXq<T$4!8*~j$E7wz%9ke;ZoJj!QPOip
z_C(5-NABG<mA3mCS0cSZ&5Bg6x#Wsgu1hG`Nj#x$@~DlGs(UY0MXT`K+)HftKI~Sj
z#$3!nAE|D>IFwLWkmya{ud0=ig6ahDrCOO7a$&U&`{R#^l65HQQ1J}1gqw+W_uEUl
ztaG?|Z6^}j!O5=F{Qp*VdXX!l<RS2&YiUF+imOX5t4pRm71Nm&)A{v@43Eo|$f{(!
YAW%<L)5Tr@Z|vR3#(}rQ0r92%KMb<CG5`Po

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minimax_m2.cpython-312.pyc b/model_executor/models/__pycache__/minimax_m2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..371ccc47bb4a7c52bf514470731e6842a21e2f1c
GIT binary patch
literal 21553
zcmb_^dvIIVncv0xO@L2;BuIj9LVSwU)23|6qGUa3*_Q1Xb_RiXFC|C-Nnb#+#38dv
z)?1T))YQ(TqS|D{q`MQUcE|M0?uKc%jkejg?(`pCL0-VObgNFBPLrLT!V$gB>}0zA
zedpp{fb^x4-RYHh?s>oNIp6pDzVjXYSC7ZZ;Ypa^jQ`ykj{6w})W=rvJnS)Y+)a+>
zA{=kvjR`~27%>{iZ%UYw=7^d3%?V4yf;daUlC(ywEY6y+CG8PA^V<@Rq%-1VetW`|
zbVuCG??`x(Ws$O^H{wnDB0d)9Oq3@pA{EKXNM*7rQpMt2iRxrcq=xz334byW2{6AW
zQJbub)Fta9^~qo)$l}Tp4avqxBlCL`P03Is#QeTQbFwAU!u;il)?{0xjrl7Q?a7Wv
zN3t{0$-<S1u4Fh8PVR{8VBxAncd{qa1AjGNlju$MMf#ZEpXg5xL<W*OBRi9Wk-_9p
zWGJ~SvMaeevfIEJxhFY3@EXV03f7AWbyAD(cTI{vvX|woL(cl&l5-!+8AQ&8-;#5`
z;AVLnk+<oq^S)c?Qsfa<B7_pn`Xz+Ecg=-9KgzcVcD_{@=G%k=ym=aHW!%cQzh;g+
zcFi2_m~J{gF)oP0#F)@KIgz*)Ivt;gpN?HUJs3((@<O8T7gSH!Alr|p1u=FmA;51s
zG;wVdZ{x%ST;CZ{NQ<%fguox3oEVRvN1WqOIxS43<CB!3I(2z!YEn!`)05)Zh3MF1
zaw?8`OtR~6Z0v%d6p~%1sl7tL`FtXgEYxO_-RFgLbZRPkUYxu<CAU!swWlV<DC=W%
zDkjDf2_X@Eby7_5(Nug|kVE=8kS{6<{N*tkhyCc~l)#^!JOaP%nbXgXPKrr%tNiJc
z&z~t&c?!ddiL&n*VJZ<Hi=_p=5L5ol<g1%Ap%U+@$@B4a>Wnx!CZy0mMAZ}~^sI0-
zJ+QOT$k{VUsd)Nw3{x~6qiND+&Q7BfC#Qt4Q7+ROIDJfr@p8@clVh=SYUGjRIf3Wn
z6X%h$nis}nmlNset3v$zg>*DA8RG>}u1&_Sof9zNWNa#W=}I&;7E1`xiCB_GUwM22
zpEN1(aSZD$o6poQ49eGbKC67P)R{A3t6YBQa(eOwR&(l<QghjvGpFOJ6k0zOyM~th
z@f3Zbq!P!zNK!!ca%VDjNr(!`sr0pIyrjXx7feORV`Eqs*JKyVn4sEHvRmo+lqihH
zuZ}58S#dR5_h$&d4r(WG5d$cm(ZM-5-pv~Y6K@jCyn$9aZx$@$);Vq*)b2G;#46Z$
zt6;xaQCgwm=WT-XVvSC`oi|{=I9@YryU)!#x67*^KW^q-*l(UW?y4bD_AD3n$Zl<$
zVfBs5)-kqmWcMqyB(Oth8_Cwf@C#d+b<PKu$k9VL-0v7}a%rv4^X3`uZ41Y#9W`)i
zgp@~(o8h7bV#aYZ+(oOJUVP6OF4~JB)pu!x<HU}%OAYe|{nGz}<Bj??AjR}O%e%C`
z@O;~l_9#B|!@!$)i%MkCL-i9=56jeC#kY7VU9N`oK4rREOV#<H`n@YD6HrSR-|FnW
zXMGn8mL7E+=&d%6bWlm-xQmUdulUAT>WU%N7p3pXo(UU|@s`xqs;21o7_n_?j^Z1!
z9mSC9<88d1x9j%+CA!pn#W!Mi6ho?yxA3+Z<BSR4((ygxd(L+YV@JQWnNIhsxwoxZ
zXMORObd_4};(+QazA-n{stc{U-z}_Kv|6j?xQ0zNI$f<$vCve3c!!7+gr++~@l@!%
zD1gj~q4b5=1RNnWaT)Ye3{8%QgsW46m`;UcL!ayeM*#V~oCal!o{Ps)M?onqeEQmy
za8_(UbJO;|LVj#x7b=Msg0dw&2_h@IQ)81Nl^(x5F{aeV_?Ezf|4m(zeZ?{bhUTRB
zg5NKINKc9aXn-gRW5gO*H)Pj^IL`|c3Ue#pL`fOHD^s`{XnhKNASJuN)4|SS2~2@V
zUsw!N?=5}jF%4m}Y^K4<ZknoOD#`{}%oeVbEnwOp-}We|c03)8iuA2zTY9R{0~$pF
z>?om)-}!tjaalMbij$&j0~d>>)1ufzEfX1%9mKa3o`9JG5Rfg5E6C-<@l^h$bYvHm
zqJ=D13e?XnY|XQY%ZXl=u{f>ZM1qLPz9iC05_glchw|78pGqVKAlt^lCDTKLvYAbZ
zMK-5|#JJc=*|iCi9nt7mB9=-;qbV9j2+#GuJJp{~PW4a4r+U*d5#8^-dU@~ueV6tM
z{fYRw{;6x}3zHN5R{&x96@VgK6~@3qMJ1T(Phw7!v8&PKVBgd=aTxVZSC?{xK6Tbl
zASv|?5Y1m-=QiA&qio(L*#r0Ob?g2|GyVf}=C|ArT;6wv=Z6<NvUP(}-QYdf;Ce+c
zSJAm_e&2n^z4XmIXV??Yh5NJNLsIzATGtbIoAV|^`4PiIlc};S&zU@B8+NX_YuUOs
z@WkCCnb3(j^L=|m&gIRzLib#u_3qyHhwlup`>JocZnzeYW`nz=;I2PEk{y0l8h$o2
z{M>!t^AAnNp0c@-`|d7ORo;;G4M@I$yovLaXWd<ryXzzOp1hsw8DLpH^*7}LjoH9}
z6d1@=1hN%9QbkX$wkccNBh~ig8k%zrjX8fH*VdJ7J1DgsWSMtJfgQQVwrt}bsc}!P
zK9matbG7Zcn&86M7QePu*|AYy7I4yZY=pS#_ME#S>u!|Xjm*;~x!ZE(HS4vFw;OIX
z<Z2s~V$ZErwr+TA)hPD1;~^%RlPzpJ$Q}lt_`<4_t-!aJ#fh;3?WdfK2Qxl=9f6y~
zsS2Ep64giL8=!<=k$MS>EoD3bo`_mX+bC3XQRCujy~HzB4rJi2ad!-(fURam2h4md
z9g{6%lT+8CVWapI%7|y+q^RalNIXpuN8n5sp*}E3pUys;p<+AXT<0EmtKONOpMG;@
zaW>nuQ)=3oX&Soc9a^&wt$BxXcF#M`d1uxhz}j4F_{iQVj-r(8QArj^fsooXeMG|9
z^hGc+m_EZrL~MOtMwe%evnHf!prx1x5X7Xi<5`+I-D$e0fr(<tw8nrgGMT!VLOyk3
z)i>*fdDem!G*(|MF=Lo9>$QPC>p&N^&i9O3&#g1oSu5(+fIzWs-o#*+D_yC^%~;hM
zP{yh^E5x4Fx`8y!qrdojJXi=XpbptXoDH-w!Ne5C&%#cS`U|lsK{j8B3$KbqabzQC
z)f4cD$H_THPA@qJ$f0qCZQ@Dtvs#@*dO>a>Lded-H|OI?F@hYjAu3mn$0xuiHm!yf
zeHS98c-Wc*Ii3_>jfwnp)h0?<i2W9_r~VkubuQQ3mu=o9;lI6c&be?R7iiB0h(0V2
zE>C9ykIZ@URxTL2z5mw!rLSk(cT4TN|3vsv@`GfieI!$V1Z#B8v+zo;vE_E+Rw7r|
zxiXvG`=qq@$qzl*V=qa^Udrr!8KkSJ`ypp+a<19yQCrg>-k^w#&^F(5)vvcav3B_R
zOv?*v?xqLcmaMl^@^&seS59QSkFVJuXX`&~9F@7SmsluCT+yiPjFP~586sFzc1NQC
z`w1mQr2QZghLTMwa82R}020_Y@iDN>3zIzKq2eLRMjuADDo}^*WbquucnXYaOn`_R
zy<-qhAvQ&H=b*CbiJvm2N*^`#Z8*PvjRRR8+MBBheC8OiI3M^zc?;ecu|K@LORDM5
z+b9T{UiCR;$nyryT9G#zEnQ24KOFx4aGrzruH`?w|H93@YfnG-D~ft(QuF2Q9?L<)
z(sMt2`TH;DIr6UvKT3R%_=5S_M6phdp+DNwRPa6gB|KY&JQDOu|3THG2z@4qdnVq3
zKPv=4n_v+j@QoV@Bo@R$JJJ-v&;g%Q3%QWr4K;~Ja1_$Z1ZTnL6|B4uLSQ2kBg-L1
zy7&sgt%v6M%5CC(`tcAfs~{MbF~QJ_?OG#OXp3Ldpo}sEBRgo9U4R+@sExc3=arCC
zoCFHF7R8p6;hz$sfVbcQZssSEA81te0gg>XUyV=jldmce&QAzrYBCjPAX8Aa2`Sl5
z^|I>RBCsLB$fz)d_*c-T0vpFjaZ`{}i(pB78dE(+a7=wjU}SWD#{4C5)wfk#1uf;G
zMzv^KqueSRo%MpcaZ%KyJfNByC0FCX8okrlO}t?fTh-5pwosqOH)c!-(N1I!YIm#t
z;(Nw>>1AxAs_jxs+OA<N-K(FoBp+k_X>HaZKyTCXH2SO3cJx#m(~RS)A>}oIi=w0!
zTkJEHLw<)EgIqd%53xFWk!j2h%4+$MONUc^Wm#GS?9tD~o2Jocw4u%R40vr(5T1eH
z8r67dS|tt2XmxswR&?e7v0D9Vf6%IH#xqj}!O{%D((-O$#i2cIjOkW2_qO%w^nuNq
zfwvZFx3Ss_>kPGPCDNTGwQI3z9QtR*=q)qW_w4T$OKXC1x?9bOzG+`bjiWi$`=W@|
zQE?zv8*@nwwi$O}42r;Cm|2WLPvGCKJ)Q5tX2|)Tt7JWEy(&>5Y*(Ysx74YzR6XDx
z6^XPk%yV8D;e(${JNk&GO^K5i!zOV*rFW4-qVmycTi>LTWEQ6oK}yLY!Gr)EO9`Tg
z1PIkcT*DS|lClLz`eb^{XetpW1#N-sidT_bY~T(Q=^(4&I`L78C!Vj!s!Y=Mra{#c
zQH|(}6I6FaF;=7hCUlFnEMBH8)>jnrZbJqp5!ebWKzxN-Abp`o`ZI-`)6hl2m$FqE
ztmvnJ%2U7<MA{XynMNp*W{nykmLOX%v3Iy!fr3oTrcNq-p&3(Jq$v_p<gm7>lj0R}
zUL|MqoG1wM6cSR@M+Of|oa+jbp{bg#|1zi4#O6Pw3cB#Ue+{v@r9^Db)pw9|8(6Q{
zld0G@XUjEpQ8<|MR%X4elDBo~yyWd&DZl3h;u~D^4nkVY*7i!Zy(@mHb{_=HvRq3a
z6=`Aua*O0@Svr5u)eFc}706cZkScd9zaUlaS~c9O+`s1DzgD>)@TsbP@octXmxTYD
zlGcMwONOOg+15v-)<;&)ORYyT!J|}rZ7vYH7dXE3(#lA7*D(qI+mE4fPp+o!=ERMO
zrSuPHzdtM0>_VI?=daKDyCi?t@~-y}+&Limshe)Z-kiNLyTnWW9V}eehL<<j`54vT
z_GuuTbNh2{-#e%0Pvez!ha`81d0HiRYp%Rj6R%%ftL)tH+G|O?_H0yf{w^*5(ykvK
z`2GROJwSDp*JwpvSgUN`a9RCS#I@n$>RZ*8{LQ)Afn0e#vLZu0W$<p4an+F2eeaCU
zkE;0)IyHZa&HfIlc1Ny#H&w1m{7iH&caZ4*mSdxa^Y<3YEskV^0}}qb2UZdrCS#!o
zz_X<}hNR$-<Q`fL7IM7pQUq3qiiT25uo)|rI*I-=B=fQ&vFZx^Ge%WDV^X7O);wd<
zmD0G28j3-^g$FcPLmz4!qvATT=K*AkQsm3%*{o&OI%`868lNwzLsPsnIacGyB{@nZ
z%k3mxa3WPr&&G!q(Vm7}N@_#S8Jn7SmQ>HQowqzQ_D!?pz-&1Hf=#31i^vJRs|k=c
z>=6F|Aqc5BfJ=+thF|=Ba^}f-gPhmNnIq?)zzI7Qdh{kmF!|I38ZUkWLD}$%Y`7#F
zuE;Kih9L}3T~34Yv3H7CXpz_`q~;vrrt5S_O+haGInq=A9L{wv@8l|KZZ_O#Se(t2
z_s(1AOmk1?DynaWZ-f`m-hS!UOUrHV_uT1OHUGr@WA|F{$cKXq;Y`Koylu`fw{tE=
zEBNI6$wkAPqjQGM0dM6yzc>GTi`SN$m!Hmf`{&J6f=EI9MjZ5G=Ta<F(>3SHRRwOI
zym4~Lm8t5Pcg$HA3^{N0oJSExoxkt_Y>bZnf(zkw{_Vf{)1@!|)5>E<M@PjmbU*A9
zdAvk{oN+j^2|8xk!gQpvnU9a9MPi#Gty}QE$;pIB3yle_3h#P?f^l+a(!`78T!K?7
zgC;4GoEwx-i>*X5Xc^bglIt7Hb#~MLrq*0zYp%92*WI5R+(WWy)6)hBr`3VHg*-%R
z{dpVn+Btt+-od<14jEj`>*lKK@*d_b<NWoDLrbQ`eMB{-n(n-p#e*g_E}3ub$d|KV
z1=rG^uVmgTuCiv)d}Bwxngu~zf_Xpl2DnOpzLt6GIDgC1h*Z;+uV>+)CNMX!a3dt<
zJnMEo#5v18Z)UOMMz^KrL1p0P@QvZT1%3=A&~S6+#!TKuAv@>vz7w1ee&Ik!5shiC
z==*37fdhITuEN<W8uK3Q{1Ydi5QVJ;A(l=)6~PzpaW@lX?GR<{yhCtY)DR`BnK=-S
z_2XUJ#20GUPaU`OZV0+ACg{4c$IIlRzI#L%!^ywM&XGqI^?Mk70Nf&j09D8=;)JJ>
zI95s$3Alm)au0uF{F0FA{IZa#PkQwPPn=A`j7B44)}ly?6cf*BDYi{1C8wFQ_B8Dh
z_MnV*ekeXtJWGYDPzTPYHIYY!$T+(yFV>|C?R9HX%cCzEsh%-jBrLb(;cXB!NMnSD
zcMy73L$i(<2SC5ZIMN!l25Hx0Wd=R{2u2!Ym2Ywot9M=s1_I&7a51zgGYf2*Z71(i
zzr&_@ck%l`jIzuaA?A4?h?SL`T59u|ZdY4@5Uu3(BCk)a8DrO!uxVPI>_PAJ#~vzV
zD0#hCu6_s9rOo~Shq^RD3}>JfqYC8y4jN{ni2}L*8G^Eh9XPQql@KPxZp0CbO$k$s
z-O6QPiHgaNa_-5biD_pa9g0PneB)8XlWj3RgZD*b&wze$+tRE}oBNW9DTrENMJ1Au
zI7^-JZ<T`%B38Cth^5fFC_Ce@Hi1eMmP+DnDt?okZ;`_q{->1Np~ziv{wm`#awW-6
z#epdbGZuMCxE8%a2bPK!jY)V+ERh}Bh?OHq-#MIfUW%r0HiWa`<fI@H!I8c334jMh
z&|~sY0O&DY(irOsrG#AyB4LB3X%N3hPH}2pp&%2J*hv0}f=mXY{Z>RIrP5EM21!cE
zrzQY>j)JN4#9ko)`8Eka&Dr{1slJz_fWUfnaPj%2msfUYs`t-1*Zqx)SC+oHlFs;t
z=iKWp;pL9C!IK}J&9pqTW^Y<|RV?gTeEhzv`%j#!d$Nx{B|ZAo{in~~A9!xPBb@Wq
zWPN>-uW!Yg9T<@YMsOn7S+?eG-5|ESXua*e<zB8_bY}v+%jcxP&P>(doZ~@l3-Ei{
zdTlpO^Rj_1DbR(JxopjVR5QTN1BayAp`5=#k#2G%I<)879@UNtS?|}{cduN|R3A`=
z5?QIrRPQMj6(VbuT{s-9BT=DjBg8fL<|>P_&Dn*=H*Dr+B;v>ueGPRkUCDOtmpb>a
zUdcZGjP&?3_nV%j#Nc{Yzjms)bTr$xS8Ce}@ga<&AKBX#X8k68I0iZGIEIh&(C?3x
z5(x4$Ms*J!oO+qASIyA*)^Cv|W{nfo+vO>q_Ao@Q)JAP=c|g{T?-^7QG)p>0%a$w%
zmYyD!)MwMnsj&tll^QpKs~bmg(4<X5*eu>bLGg#={3~*n;UM-T`L%4~y9lOeYG|dG
zpza3!C0+pD?O5EY-$y9`?=sF^wdShN`P=4><$@ta1YBvz1RtM2{h(t<w&M}0<B`<^
zA9iIro`rBbcY1LjR^08fTV=VLCY%7}EnIEqL(T*d*OPa1t)1DH$EB9X?|MGGnrZo(
zWN*TO(bWgEMtdbJ;AAE+Jm-1f4K7|-^LDJ+JJ{F1V;mg~d$yox<zVML4Va{he+*>)
zE|nu^1Ai%^>;#$JI86sS{>;-?IJUtXXcDN?Mn2%;mb`;}P7SHLDCpLJDwV{{0i1ft
z_YFghrBlPE@Rwjy3fVc})}9+ZOI1=ud)`4&P8F`Y5K?vk^>Yk=+M^<yhez?fO5rMR
zh?saIZ~88*zi|3ufuWw6!BXpMWf3b*Z)|!BN#3p>4--3>=tUeb0j$`ztV_QvPJW!c
zlbH*8w#lKSZqv5FQpcTq*=rV@4cP^^;KA9GMJS^&5m2JPaU<_V552rk@Ue8=@hPWO
zlppn!3l>(=%$K8N1q08O*k+Y-nYJ}f6GK1BL^vGz5p$7UWO$;&W{MfZ)UyZhn4`VS
zXwVNBSbp8~y7_g>>()(%gwP^vHYC&sI(piQH_ZBZ->@KFM-Ti4o$k}t*z&w#C3D8&
zY0SJ??>rqjG}=@I$3#%*(SyihPtnv*zfQzzkV>hCTo|AcfHVLU8dckBw5~31Zo-?c
zS97cFm!_x5c8oo!UkC0&Szw;C%vrIJO|RKmTgsV4ftHho2lWy1U=REnc!j@0jn|ol
z4mGX#7CVc;Q-8dO-BHZ1`icgSXj7Y|ZN{#p7xnpMh<M(p-=fN!P;)?S50KU|I_>FW
zhm!>p1F#rPN3X4HDnKiNK>EWrINvd2MXT$cn+Ly}H_aR7&ESCrzNhdj(-tfiHZWQX
zT|NV945M|TJ|!D9teAma$HRD)Y#&a<lIQr?W7FZyyHW#VeZ$O9F7+5ZO4b*Nd679N
z;Mx890iY-P-w;;*f9|pd%NRYy5d=e#DRG7RKror%3&u0UwIzU=5T)$6Fs|<VBDkd9
z%g!rgInK@lL|U`52lm?IaS?!3j7?k;iOwj;%<j^;7DE)@N(IW<NrYm9sPsv80gc0|
zpM_+HFu@nR)<U`)ZNPM{&;%`A1z?*A6pJlXYtwJB4iDQEwD18H-tLPiSeb|m0K`E&
zr9j!g%}05HJ^?PKaKE|Et=m1SUEPE7V75Fgm4~zCLsI$BoHgff$@=>xfBzg*>bl;V
zAfTn|L0u?Y*Dcj`BjEki<$v?BtgG{$t8+cHhk@f}$=A$0Et0Q=jNIx%i-DzvHGltx
z!_o}nxsTipP=q)4XF|+OuHn;thc)Z9zcpGtWnk9+2AI1s<$9%azf-dBW+;BK?Yn);
zZSQq&1UPqq+U>aK>R1mnEm^anK`Au2YR&FDDeXIXKX7Vp<n80120Ai<uDOx7j<5GW
zpYsG4FRr=6%X_lj2c+%;!0iJJ()O?gC_5A>C(fso!+l~Q>O-W7{@8}w&IYb%srD=<
zK8xJgVXJuEF)Cm7F8rmoX|h*YfLgoLMNx+_y8<!L(l616q<s&|AUeefN#4*>ZN}TZ
zX76TW7-d*fuG(ZX3sD#MGg8<GB*mq0K>?R3Qe&l<m{d$`cxTZ<DK$~)yPmP0SUY3>
zmT3m|ViV=tU~J8FZ`Q(dv(||+$N`G^A9VV(5uu|8G-5u|ua~O2kV+3?b$BUabvS7q
zH^O}#il14Vk%LObNax9_T0_<1zg2E7p_bbCH14LfN^YvGM2Uo&0N}JUk7uc08doZo
zVJ#LGPN7AdYJ>ioM@y)gVxp!{HU}e8;*U^=_)~KJoSc6{&c7w+-;om}=ikG@5y46F
z-zDcwa{iK>|40r=W2{cu!l;t?4Me0Ia6l`Rr$ppXFYBBhRF+yn)|j9r_7^AvVH&aq
z+her1bKc;Zw<{Owz2SKfYRiUpNugaUFJ?lIFL-eLHh=6vW#?Mu(3*P)ZZ0^m(j)~B
z&7IEqyO&Q${=IX@9#q%feCftZOI6wCol^78m60EfelVJ;K0J5i<Bsm-<14dwFJwBN
zViL=(eXvQZ88K{FIbZP2Z)Uwa?s<2tS9auD`d7au`Ho`WR>7Fp2r^MLep@+~sXw6F
zyP>c4Alnd|xTdzsU&i=KSGnHmCUq!J@~Rn`w>*05^gXkRmGHGKqq6bUo%kEX-w;gD
zE5|NPrK4ng&5qfbm0TebMoJSUk>xDs<*8zn*oWpJOOi%Yu2Z-OGvimT9;KqV@ic{_
zcSY0m7;*s~(<))75sH{8SCHkoViT_BpKjj5FTR}R4O$J|s0xh3>(6=zB^(on+US2{
z3(1wPTdr(iw-ne7%I<UKIg7)o5L26Cx4zjFmewL8Ggi1ax$^*-KQJ%>9qnv=-YrDT
zn$lE;J@_1@WUCOX=G4S=b5T30rh(8HMz{sT*AH_X+n6{&g!z&63MU%ga+heXbqNc|
zNMTdsfY1Id!&~h$Mvxi-b)j#wj#=ldYsQJ%3{)GI4b@8rgJu>}4Fgv7Fr(0CdZC0v
ztCx&iHJx=a6K_^WRZ`!9BJ@QYnxPchJ^}r&m622Tj9X7AnDu}(dSL2eo6&U12F}1u
z{IMBI8jR@_##1&^_A-_|8<)3aWZvIp9NYG-?;p@NE6kO=FjFdgZPvrH=;7}^M}J!s
ze&{=t&hvHSg5fReHvOcus$x&me)U_-xOr<jpoUboQk+k<1sJDUE@}djnjc?VJ9ai;
z9lmuGqans%gFQR6#D9Q{WNyNYR2C4>;w~w1H%j9aJ06j2Kc*`SHj!ZKeesDa(Q#3D
zW!eqhvwC@_4@Ns=%80v@c9=hld^FAj!zv^s&WlH><}y*jOS}aK*LGmT%NH*;rbu<3
zmRpHFq^5*11^c3wt7vR8soq$jQj7-4HW61yV`GAB2U1SG8c$yko2hncNu;R}50XPt
zfozKLJWga!QUvJ=<r+Zku}f<E8g-Ma3q3Ae<0%k5*;NSBv8{HSL5Y*itV?I8R%fx}
zvXdn%G}u+RU&C@{sS{6;Lp_ykDq+nblp;{C@=^7zh(&I?Ls6K8REe>U!dOca|B&eE
ze}{9O`<2ns0+Z{;d<ECso(=7lLVGiz{cHAyPiyKHcV+7br22tO{a~hMXwJ3X(*7^o
z=RE7JJ0y40+{i+2&fB(Zmb^VVU*OZ);nlN0dFjV5eb|<%eQNGR&Re_YZAZe-cAu1d
zI~SabCzk^cDjQ)PQ@JBo70kl|r4@my9V_P5lhVMGh$90UoXjqrT&aUTe8K#n(tq>7
zjRQ;m`<3BkezjZbJAz!F!ro`sO4a?!JqSDqwBk@W5MHq4Lg@aG6dGFaeC%sj6qdfe
za_qkEz{kGod_TA6l;PnZ7uvn>WbW_@sp{aui6z(ai>r3X7t3vuzYn%Qx%#Ht!?%W)
zT`Q4H{lSHiPyKz%>6Nqh{f{8=K@gXFq+svDkz89?(L^tt{<x|+7ifSjJUCFUIh<?h
zh8S60^BG1~mv2XF`5jy!$V`G>xbN>>X<NM{4IW2rKor5<D`!_9&D1}+FoIDp%zPXO
z6&pmL*x-5_boC93zjuG&2oOhm&BE!=tXy@=Qu}hl{i?k=cWu_)Ah{bB`M+|v=1&{B
zw(k6>k@GdE&_j^`s<voJ<@#~DmwgUP9728+pn$*3uF%mk5nZ(Q&XY4t&J*Os$@wWc
z3<aKpPc|pwDOfC|FHa=|<#34YUgDFYOwRu%=OQ_m;FOvryibwjJVtBrf5HPD>w}ig
zHFML0Lx+FGby}QD(|LNW4t-9q{4)lFrDwVN{otJ-E?8N5R@;Bl^W&a}<jwoIzQNC2
zb(RKAoeDo-Sye4N__tBWjynY_BU0nOyn}+yf*k-e*UD2_XlfN>fVDuk<mi6rp}2ik
zbYx_?dO5Xnc(rnMY^@)6x}K2Q4nO3OlJ`Alurw?kTYhe3Xw|~3Oom3J-Xl`m(L6^<
z9}az(`Y-#wV19;3*qFyKT<uXI|HE%%CN}G9c_VbSCfLkFUt7@CTA-`7z}nubr<{Wx
zRyQ6hE<5y@c6MRAa@*2Q{n9)P5O@dE*1EUJp`>opy1-JQt@S`#3!UvYb!<~wX&ECR
zU9JndT+;QL_3J3n<=UVNW}0A>Bwel-b3<BS%p|nDm`y?_^am|*#U@>Em0Y|Ib97QX
z9J`!~B~G1Y3SUJj^Z|-7)rbb`36+sDj8^``0fe^P6Nh>AKUTfVE@SD4o@D3-#hr#j
zffY&&^-J%1>xmA$b}%Kj>#L9T)|bAxtEUj2F_c`PGQy&RW(d!F+Epp^Rui3z=tjlK
zdIr;CS5e^$BR?WTTOP#fD0+DgLJ@r#JZO~|D0`qpZB_khyQS$R77DtpsfZY5NEyN&
z%uto;FTQo}dvj4OCzP(1QFg>GTat9V0FA4*$e_LHLRI1FExJeXPZ6sqW|_M52NYz-
z^o+K)QSkqeLj*>V-w8H~e@4!3II<0g7IZ$Z=p3mxvQN3EMp#ezJq__Ehz?s7V5Ie_
z#F_v=olB8O%fLvf9<X?tSh9^Y742UW-TxTne!WQ>nENViprZH71(^kLEgg?Pnyu`X
zD!Z4X_gx2aT|?QfgHqSQY}csNH99v!#(nqQ?d#R8xj^fCr&eq3`ZGPpafDn$N7GKQ
z;S%Lty>g;XO2ef++1A}s>+ZWF$Qy*B@a<E$WE<R(sqcmk@6>vzpU&J5Ndt#6p(ofm
z_5)ZFo|r$8b?=dI@7BaQJRjK=b)KRkc^c!~bQ_bFBO@03;9-h9yth8OcC4B%OI7X}
zm9P9$lotO3oKn>uW7yMent)yUA+{*}4A`M5k}{Z5kFK6(y<y24UJhrxyVmTx823^X
zdqri>m$Y|;93GOQV0+~xon1o^f?!7v-KtbaVqhatFFM{u>K5G+4B&BJ@w{RyoFal-
zK)@vmrJ(L$3u+}Z4U%>Sj<9`PZNqKnEoaVMy>M-<WzVVy_==rJL*Y||Po&P;^y#SM
z?9-8oW7}cs-YbS?79F4m+6EloE7;5^eufw^4+qlLN%B*pvQ^oODQXPkR6u?i{gw}I
zlol?OPPgg~cXOt48a3VG!Km%9n9Y`VNaY={XrKB1%*xj@<%gkj*UVO#^s{Ne)IJ;V
zBk+{!t03}Y6VpS(`CV5lb%X&!b+Am_!eHt5b2bf@<tkARm9E}WaV9|HqtiZ6lJb_N
zU77MOHlnPzMe?>R?JdzvYaE+;P2YkIY!5vDkWHv^i{ck#gjPZ|;u@S1jTe(=r#p4O
z(w7xoK^jRlYAD%+JrJ-m-o7<^p8_ENHIl<y@%--!*~KrYk2GlUugNK*^j}i&COK>v
zx}g1UD4CpJ67l|fcmUdS1lOw+xQ-XWb-eOD2FvauTHjqn>$@TP4Ieb*dUt;2a+M%<
z_)8Ewg-Q@R1-Bq}ih?l(Gv6&Bb}z-%Szz(&4>B8H3;d{5$+T#e9KnY+iYhZ&dbUCB
zNKrsLE+a#-up2D>y7>PK2p;{)7h%)Fc<}$C3HlPTC+^7B*<Zr5c>|T;u(QApv?8}W
zypdf=KY~>AmLvpcjYS=!etC6^LZ{Y@{B-zF`p+#7bcG<x(}-nP^Gs@~l;N$QnlgqT
zwtJQ{<JS*JvFxSO$s~T91b_wit5fW**R+Shm%<ThpJMW85r2Ss#ov(gV>q$}2cYK#
z=tAf)lj&ukRxZxpA5k7de2an7f1~2$glLb9!-Jy%D`)r4U0L&Y-M598uVnj=Nc~4X
zG~DYyo~x?MR`p0#J#&ur@|uM!S%0tO@BORtzPUp=Z(Y{gE_vIRJuC6M%^xIJqIVCi
zbsYW3`((}^TH1MI_MWc|_DL1}SUGMV`^4eLWm`1LPmbXlxp!<5zkJ4iCnnVwJ2%F5
zlWfKB)sXU=zL6p@6Ec_G_?fne6u1v`QYmJdB$tt~2wh)OOh1*&UiB=J$aXxzex0n3
zhmE!v!><CQL_+_HjY;1a`<*JqsEOb++xN1MmF6Lgi}7<{4!nZ-Jd~k~3b(Ng?At*5
zuKY5J`jN)z7ulGRrT4dGW#>8UD49UC-24@_;s!K+#f@EiW54~P+<5E$suJuM5=xLK
z1Ef7)Q6h<>{aByU60?_8Zp(FkMG^LEUxgolQ*Qr%RhNn?O@aOFn{rcc=qu`14*f~7
z$9^4;VJy0jC^G0x@}}IYS6ult3J>fn=mPPJNQo5FPBLYs>|q5{!Yh~Qw*#3P1}3`n
z18?|2H*7!>ePoMLiZR&`A{32h3;9~fX@etMPqRJCjBT0KF0;U3stHEk72OYG2DIbu
za0;C}O=a!F=qon-V<LWUk|X|~`oD1S12+c4X9Jv}<L6x4CtS_XIQJ)9)hAq-1rPiW
zZdl@mzc88&#?Lr7pF26jBcE{lHpd(@e8N5T33v1p?%)?jlfn3f9nR-=&d~RBuH_4(
z4KW;?jjAIC!$HHs;LZIv_HS@3uyMxt4TGU(vEp{^t=bKa{2ND2PZ|uJi%;A>e(U%K
zNB;a-BWLt)7%vzN4GYiQeDTJM4>|HbG$A_AqBowm3>o?t2icEVT-@Lg$R`YTgD>X}
Z=1uhO?qlx<7W>?;Z$&mNh-35f{{UGBcd!5e

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minimax_text_01.cpython-312.pyc b/model_executor/models/__pycache__/minimax_text_01.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..194115a7e6e1d8aaf623398f879797596e03a8fc
GIT binary patch
literal 43778
zcmdtLd30RYnIHISMeS8U6@bEC*iirhkOT<so4Jz!sD+X&SZWwV6-bbUMXw4J2^TE2
zqr`wsx5#!o1l#HmlAR+cVvpf&PYh>##>!-JhDrBH>an1%(rdb#PBZB^)6-KD=(e3X
zIWxcSzNHpEP>a)lWZnU8-FM&Jm+yYt{qCPQoi+|n#Q62`w|<Y~{)%3d$0>W(SM?ls
zg9~v(Tu2wvM|2bVA-#_LhKOOpIAmmgW5hIJ9y05=u$k9c>8mMHG-P4F)*&l?%@ON_
zZOF!A7e(w7jv)v0TO!U0*N|(%J>+KZ)`(}Kc&M29ZIO}*?~r%GH{_cr9V%sE_DI=8
z`B3?Uf5<;kF;v0A9FfY2s-Y_8cSfowYKCf<-xaBys2i$des?4=Q9o4A{GLd|MB`B7
zMAJ~yMDtMdM9WYM3onkePP7fRF@H%UIMF`T&ivj;$Hb<gO%t6%o$TEg>6+*s>Sq4Z
z$mWSHLtB`?EV6Z?XQ*eQcc_=Wmq)fu^bPefzdy2lV#m-9=C6qCoY*zA3;xPbRb=<X
zo}oPxdx!S2_v*;LiTy+SCk_l9m^e6eP{*M+w}xuMp9|IEzYhO_@S#vWejCD{8*_vj
zUo#CI4mH8A4>iAL96F-sj&Y%u*SJt?*mmKnGMw4pcMXz%=opLHhM2*RiFusGY)8zF
zkBNDL#oUCLogWkPWVo2c?Lyq{$H#qFuKds`mSQtfY|%~;-V@&Yu1RiR{}ofPXSVUg
z<XD&wPmYE=rzRs;0t4fd;{zj?&x9|>Hg5?`OohUcuAftipiZ=$h=uu)vym|T=J9A`
ze3X37GtWP9WcbkWBZp3%7(6zJ5dGvNh09qTnwlINKNr-C)`PKFcrrFVH7ORW-hpsz
zBs3BmL4wlg%=GjW9~+KM@uTO5N2eyH$5EC+v>zH7Js+0x5$yw1C;7$pY$P%v7hn(_
z=fbh!>FMEf{M5{}SW9mxFgnE#vvv$mkMJXrNH{Xgk4#<^n>POb@)REl4M)dkseN9G
zH#Wt;Ji>=ismU0+2En$c$0IWbCqn}>5xiNB&P2nZfvF?#7d<ub^xzaf5j2XG17ZGL
zICN+#GBYvxgj{_8_+)s57mJ@f^=v_q=c({CdUYfg4k?kIntC}u5(;qlPn{c&MW5iO
zM#E7w4?)#=<0d6m`xt#+F)%W5cI4?8vOXNUG95lN5*eL|jG(7;KRtbZB=-~YEqQWg
z1Vc7ELc=C^G+Ikt!cR?yk+Vy!-oWwjNJuPuc4~CwtP*%+;%qn+8lOCeyh=miv5}cb
zZ20By___13;mFiTC`^@iOpIJP8y=qK!(-!@@$Nl=PUa`Vp>b6A3>(4d&vi5h^`i6m
zNc6<yWSD1d!IX?1zjBrz4`G_Po_JzlJQ_t|{UcYxyjVUSrP(kcg|X3}2qR<BJ~47J
zJRG4&QPDU#G7%OH7sFRXeQZiJjZV!>#zeDJ8PUv#V>A5ZsJv*{(jh+qiS^IJxxvK^
zulnNL1*%`c6W7J{?_ztPXO4?=Pvd{1cyWUQc%+!`=x8Ms@t6=JSY{@^9hvYQ<ZL3R
zlbkL%QL0XWp8xt}cWh$1dwP7jGd6;07wfz{vwi1|i`&E9k@2(L(^q2WrzX2EVa0Sy
z>mhtOJUW9ZAiYMrC$RP>MlNH~T#gNI-qJOFMfA!QP{xcpi|<8=+o|Y2IInUUGuPa{
zG%(-$`ksY7i-yIglJ>x>htqcVtEVysZpWS<#=jqb@6er+JI^GyKP`V)M@mjKjYP&r
zqNBN8N8QCbw-O%gtGXD)WDg*?{x##AF0Ol;3mOJR<JipPXkOwX#Pi~ReGJZ5*|r?g
zy@72xo5=-vJXnsh6Eb|vcVo<`#2+)yb7R=PUvtS7F%Q0@V*??Yrm?^$L?@fqA-Tuc
zr%|O)YAKCZ9sbuF;CxGWgVS>h<~SGEozuq+Z|VNfJkG_9-_`w&Zq5`pJ<ai35bYf<
zSj6v!hu=dEjk{>X7)M3(MZhKenl6n*X2Sdqe2G#wuo)3}mG7abwsBf9!_;51d-GP`
z@XO<|^TTWyy7ok{awE}wT`%(^)6-!-8<0(YfbtK(`PHl3hc2$PVzG3|negpjG2Zp<
zUo{K9{qslCUjKYQzYUSFC`}BQi)LvVi-u^759(Pp`Oi^a)H7cUNYyNo3!V*r;yUi9
zJZLVWJ{cQVRritAVy(F6_21ZYeNV;!|AVT)tvxsQWK8fsv~Z>VUr>yUkMmR}EEQ5U
z0nyO%2;189Jk4tUC}m8Q3&@r8Z&WA#IAZOi=%sK_4ZYn|`FrQrIs9ZQIfwVvK~~Br
zzN(LkK7JWNG*iRekPb+s-U@^UD2+X&4;w-T{2Rl@kZu-38ZzO{95#iDLb@>rn}wFw
zoI~c2HC%MTqvou7LPgr)W5$pTh>&%jyQ~|sVJSI8Pu}h^(Er4sXg@z53WX=xCMXt<
z=Ky3W$ng?w4749&a~G`)m=2GJF0;AGccT`gX0<9DXMvwB>wgXpP5SJLqsjjbED8mU
z(P8?>xnb&i_QYs9vxng6IURZfu|rraanrZCkl_#Xw~Y!?gLLXjjoH<7`Z!>K9N$zB
zU#(@#t;APqg50Ry?76}P&4WLuN*$ebcAdk<G(0nnEo<t+I|k8s7GR7Yz(>~nSzA|V
z>g7rHHE0!0z-zGUScZoIUt`0={2)c7$pVZeCnMfZK~^;>UqbKZkx`%@lffd<7!60p
z_*0a)pBz>m%ZtGS>+tYsWF#6L9)1J>@MjQzwxV#9yObI|fzMGI5v-zz9?t4oC=x9G
zHA`i>qG8^6)%BpdFYPE#J8Kh;x}|!-(U>kSOII|f%c`$^e(}YGx8tGRTw|Lzu30J`
zy12@Yw4;XN=R_Jxc-s)E5|OUD5U0HUn-O^JX^V?34pDbm1(K)-n=5R-T*eFb*bVm0
zcjc|)1q{rbe$Ie+l&avtE-c3b%;qi-04{jqIwc0nNr#-U$uQ6xH1N+LHvb$s&%y~B
zdD{5-Avj`@Jb<EZI7%~*z^)9;WR!8%|46sXUm}PfC7}K)moBYHm9_|_ElV#YOM?rx
z`J!vZX@}?aQwygSi;|AOye{qbzW(KfFE5TH-GK$;yl#F=+U=RQNbt)rI4Bw>BGW-T
z%`)1fhlfSmFrmFO5%N2Rhp}EG@)rY^Ghc&(`6J}e<lqmHbC{gpf+ITR$ut^{M23g4
z!#$7CDD~n2);#_sMJ4AneVBmrtJequ_iRsB)TGO*K6F-^-1kfU854eiAyn68ipXc-
z%7e?jLRojlO0PD~SDvwx&%qV@GL$Ie;%u&8xXHJ}XewSTy;Xg)I>W)c-2A;w?`--d
zd0D$z`J*UWeQ5KiXZ>&BJPK9;Sc`K2t3d{-#tV$jXDL-j2D(K6x|Xn6egmit*#Le^
z82GgV{93}+kOS0KnVL}bgq&gH1zOVu56i(Ea=m6$0L_py<lZQ*b~u2z2SD7#fVdk#
zyrd9_PaOdepPZQ(4qpcJi2*~1O-&D9%)$@R!SI#naEJ&32`H%`OoHInoSHk~XDjj=
z)>;7sw>|>F0n@c0xYFQUI1Q-I4XbN1uE(1SlL522;Vk^ezHmW>$l1EhqDF|Peu)?1
zO|5&}^r|mL(3U+~1Eti85H6&2C~;#|iVx+w6o2*?p_&sX=2PNas8)R0-w+qKVBgYX
zA2Pfvw-lwSyH6~j#J$j<__Dt!vo`yt_%1XlzU=R?vKY8nPzlwpF+$ZgD>11@H)yj4
zu7S8}?`LzMeHvf1mVhxtV@Vra!K0lM>oMB7&F{)RjviCT6nk^g;L%wV+m->IpF*De
z1#;B+d}h|tB`<`ajXzJ{#>vU<rW9Xv@!`<SXn2?pM?t7YMLRenpyYuc&xToMVo_|G
zAwX=S50>#yQ!WgGvYnXvhM%OYifQe|reY%zWd#<N$SOy0S1cxaTA_}m<;bdEP9KZL
zKv2Ybwu(mDYxr{%R>HQOJd9K{ORu6cFPNuUAQolY&i1a2I-n2=FsM&GPWu{rUX{Q<
zwYU(Wm^z{&6ft~`)?>RMgrY15p|~$06!*$^C(HK&0dS=2Hxb@Yn=Y-yt1VsCLa+XG
z{nnMx4<p}?2=$+nzE`&~{Nld7JYlc9R~1NAZ567vCaZeq`_uBb2fik3nkh%M;HYMv
z2Eow)EaYBA?X8-dHEd%djOCexxACE~sFaWqEAXB6U8!Kd5bU2fzHVKxrYwGj{IonM
zuS@%@Q~oZ&-<2*YyU~8VoxQgS{<d^&L#nn{sO?>e5qT@r9zyP^igux*JzYh~vade>
zjsENX60Y?5gtz5ksohT{J2HOG>XtS#m9)!4f(R%wkozy-*$4?zfLC0n#ad9lUTnjF
z=udKAAp{8EvhdMHiY}<2Hyb~uE_5y6r=U^Fua3JSQ?O>>uUJK*k+^-tW|_V+EU_|Z
z3Ggq$c}Jh6adT-eK8laCjrn*KX4|8S;GZI5l=6F(yYKeBKD#jc_4wjks&0!=w<THE
zbJyLIu=FI{J!y;cb=!hX8tO$1Tu`V8-fsS0=R2LriXCf~ohn}HROldLokjD8hhR4w
z9&oK`cyzR83m+9T)oEd-AsP;2VH(gv@(?k6RbvoPmb$-XQ^#nfvPTP^D?_6EvYHvO
z=W!R*y+=t8xUGvDwaP%r8t`AqQ?0i-Zq{lqc6Wmsrzl<o#6>^&^ZyqQqmzjJC>k$~
zhhLTeGmrWd%n|+)!bB4Tl0l1viO*4xO@g-<!7gNp#S(CV0WZO3BxdRG*mTcU{zZ!E
z9UGqnRL&b%(UBV%r8zFaI~kp4SaBgLk0~gl^0dsN-+%*DzM(tSuuZ_9rEcDK?Nr*|
zobtB|{`Tdq%du4VexZAR(tlvynGQ6)ZGF?a+?i_MCA9DQ@wT7r{n6fJ`-x=Wq+qE@
zSSl9}0?6Eo+>E3h6^W|ORMlpoYV%4>YRh3^%i(0zk#&Q<&X%xL0lD^fq{_R6^6nMe
z>ZxS;@p(tuU4<_aabO%|)WK9Z=;6PJD)J-boF!+J9Jc(vLcV;GKy*Yg=f_9EGd({Q
z;%T;vR^sb2CaOd$(86S0!-vQhhLcMq&|bwhEQ%NXw{VC^aB-V96D;1^M|6U>Tc#86
zi>7$InIiI8xU!0jm3%g$9qi<DaOKrEE?&R5bXX{B%Qz{>Mf8K4d>)msD5lpEA}1*C
zjE~5PQu3YEapsbY-e7VsHN3s)%}p5&-qo3(#D5fL-oz7UKBAy?gAy-evzV%vo_YI)
zH($tb@UDbuPx>W!CBRKBq+V1X1!Y{P)@o58GK0sbL5CQ?vLR~22$qgPrZ{Y1_(<#@
zJHi|)CE^4n;sPa7$tV#wQ6eEv*m^-lJ=Ge4=Gh>;WP@<Z*AnuAzOXa;!hvO4DwgHJ
zUsbp;D6KXtEx+>+07OL#{S1f3CqxGYUc4lS+jw9@{1xd7@tLQmqT@^)gfG+K;n;b|
zf<zbON+d7<XL1s(kSv!&bc~W1NM<?Z@R^7*Q67ST3?_4css&Vv>k%r&1}swD3>h6l
zY1tD~;j6NR&N&%vLYp#s05?^5tAqh=I%ly`Lb|*SS34d`M)@)Y06#F|99l;k`*vP@
z0ZWSH4O;X_ZrNpQvv+F8EUaU!SZM+HWE<s;`YNy+HC6kE(P(N5ky@LU(3qGKeK2fS
z%0^mkieTfkYFS9D5i4Yv1t>>t)j7gwL$&YX7JO58zqkW$>h2b6RO>~%v_|d-Rokt^
zrP8#<2K0_K?f~5<Q8DtKj`GwN$6A#<Hq2L}4y+G#YVJjhMv~_!a#vHtI&yMXdrb*r
zwN~Tig_0bm;6eS=T4z7S?Q#n(sDt(0YztM^NUU3ljU2Q}GsVp@5_hmCUZh|ZAzN&#
z5_+Lm@nwH++jHn>1pou_3_1pRTHbsU9D>w%?*HWIthMVU043tx@=qdYwy0~0y@7%p
ziNz*CLH-Vc`EQcLh_o*F&IHY(l|eQ_WBJ$V<25*7{*FY$q7%Z#$?(+W;b`niB+P#W
zUxL+z)Zr;gL=#MOOO&AsH2JF(T9OS_p{4<lQmPN(7ozzkiT_@N2n?Stib8Y&c*$R<
z%zu|0sxD8xE?U%v5)m$%rFQa!-avkYw(`VG$iV|%qAv=d4o{p7x+N5g)tu_cQ!S+W
zs9lg#H0!QGio$x2)nt-h86`<8O+l-q-&}ICPJ4q<iOL@$b@cy~iOSj>qEhBk-<N5}
zdnJ9zk{$C!={iO-R)ck#ayJU@#-($DyK|-Zu6t|3vNhq}%4oDsp`vr8T&UOqlFXHE
z=prh!4#LZny+N=yES<Y+?@W8kQ{HyL+rIpq;O$-2-SzHFICdtyJMVid7tf?>dIkLD
zeYjU$x1?L@O*QTk8h5Rp6B>^stB*4JHSG_eAm{zE${Ul{CzoPx&%HS(l=ULao-VIS
zmA47yZOgsi+xyO5p`5DZK<JIR>vKyXp}d{FS2p3tovvkca~0@HO8dYcB#t{+#sdoj
zjP?x(jsWvC7VztzPk37&x-At%gE}9UaOG`k{H5Nv_rAGTaBME%-anV{HiLU#PD$+G
z-j~)=NrMZ6^dlAcdjCRymga?QKoJixV%u$ziR}`usxghWPh6i!m)9fGy<*?Bp>Niu
zD{JqSl;7yQ-U-6Iipn93P9cvOf^P;oKRpu@tqR%@9mO86J_Pe<Ct0tSsIgBXF)+=U
z<0efyMUyH6)KYhAwOoSt8lmTaz};4*|1SWqm@AsI%z;y?NmUuJFIf}~07jW1HsVr?
z3Lc6Xw<>YxfWusH7DT~o+@?TJ$}O%BK}D^Kn==C{8V31S5aS)4XaJH1!SX-B8>CcF
zJ&Ez(hM#|foHxl?BIg#Ipgl`#@o!P+cgQ&aM>GJ+NTikSB~f=#)Ljzo1YCxt5sOkI
za+bZsK_W53Z0!b1UM8zJ3}uw+3aP4#0}H0+dd=covbb}>Ja3qPGF?)7BX~Wyc;?m@
zZhm38iG%~I#-BKT<VaK>xwG|JFj+FVP(-4V`4JMIyt44h;+5t4<tLNwZdrtanK*uZ
z97}b}(nzwbZJyTPjW1pQ(h}HH-3yL+^TJE>*6Uj&LaGQHLp}F%5B6!0R3vdZKN58E
zUqt;1Xe!afcy<y&MXldZ(4tK@eVvk!^Uv`gU57(-lZUHmNmtjWn}b9;fq?4hCIYJJ
zm`<jk$O94z6j2fLS~zc6#>%`luDmj1XI=+n;29_LLJn7%aWk)nE3M2FGj9o3QN0+t
zY0G%ot4}4YO4)lE6;RH+ey+ShBE~A%dnFNFtUj4)qPl8W=u;4gZ@v%GEq*<oF~N^I
z7MI;{Tz6!O=*`0UDww$5N^cG%{G}5<iNK;>7{$N(cxB)ENlcE%5Ll%$fu%^#jVd8!
zQi&)th$u+OL2^N+&SdP?u%$r2V};PD>@gx9ZPAY_?0`r|`<qmfC+rN_!Y=JN+M#3m
z3N#){jm1!Ebca2m676^)?*`!{x-y4+IfAERM&Olzz$=F$Sg!8h;qWLF?Rch2H7J^8
zLBB)N9FpF$7?Nm{7|g>!Xhe&m3?RCJm_XG{QniA1Kn~HSk`HJRp#=bt-1<KTVnRe)
zoWw^6ke(QQW6!(tFTN69#~y~lt1+_N$ptsaJ%|XDG*BzhX_F>7Bp8W*WW<%@vP2Qo
z2cSTpf?R9f7ek0szu4loS1UFsN2i4}ljv&BmK9H-B%?xP@w;Lq0FYX#(-Nb^RODPu
z6NnKPM@ge0Dnjiv1TsqcIXk`w<P36tLM9?;`MHpJ&JlO;?zj!{G>8BqM<yu`4H9F{
znL|=(lZj64T;sM^?0J1uq|}#pAO)fK1<#}|WWkq~f?&K73zA6f3y*%{Xln)OB5$X;
z<kRFLatl0~BxGa#a_(cvE6v`D=a0NSuT`5KEp1ZA`kk=qg69<?zH}Eh7X;&V!?qgG
zR>!;YIOVmqA=abh6CwtJ2Faz>7vJXoKvlGWoWUgbO>b<wk{j~Um=~z`4kbqRcf)#H
zZo6{Sebm`Lxj(j7NewZs?!rFhE&GemPhP(E3^AhD+&RQ;K*>FJNbzl0%3&o&_V>0&
z8FP$4qZ0n#Aun}Jpf&*|-|Vlvo_FU#vf{kAl8{Y-YsxR`*sSD{7uTEj=F?26uEoh+
zd9h3L-pVx7YL{A`m(s79QY|$vZbjZ(rDjT?dD4>?w<_<gS~DderAEq{P;E{>29-FW
zTJ&nW@|Kr-UC5-Qm~-Xq1+Lh$N_=JZ@TFj#5RJ{AxJyC)FJgb;O>tM;OsE5(qG`?*
zcVYA~7x~`{(LS3k`{UNB>l3cYPPrOf>_x?=z4C!-)y9o6A_drU;ft~-=jV1HXSHup
zJ|Mr4;?Mpf^lbJ`@m&~GeA(Y&6{h9&czvir>2dVTHYGlYrp7^u%khT@V>}SiNi1v$
z9g2h}8KdcpXgUie+KWFY!Ud$kDMS{FWkHjqM9Y{*SCvd84w8)}lGr&O#uAcrFBu-i
z|1m}WCOHG-5OYQJ6d+cz+9fS|#+eE_Bmr8sAjYiu9r{j8tH*O}W~-l>l+R*>Ljh27
z(y5IA=?U!$Ko_0brKN)iTJk)70-=<vT0vFLGSZ;dZU|3D#Q<v_saFiktx-#YLh|(a
z5z(IwpOk`z$Dj>~GYfT(Nqd&02<5p+DMU$Gn@u@31Kqa5GRu_Ef)Z;sOvlPA%_hq&
z&6`aH^*p&*9@VQ<sw6)e%h64-a`Uo)?-8T!Ix703=SQHa0)5i#ISDp>pse_m+S!ER
zh;BLR#8j9~R<S5LH5S9v4fcse!{e-Ao)B=+JUmY4Vk8{>Y0BjcIc%(dKoN?drGoC_
zMK8_KY{yAbpQ7_4QTEj~jw2Wl9pXq4ze+ibQewlz_@r2#EA<%$dr>+Y5*1z9+?X;N
z;kEpaC>>Lykyj9_Y*e(89xRnV$!KIY;iWp^5XUgngO?;uj2kN2o+ZurBRoIF^M6G7
zo+PKA9HKEKg&Ni*SxIIX+Hla^xhQ(%bqPJWDD_^L_aTAk;3vTArFl!!*gZZ8u9QUL
zP@w3iamwi)b!^27)tmEKnd)>Jg=L!U3L1U>4%PABlJlojxGg)LqA@Zajfn<8pKNes
znkS+`lIk*Uu6=YWJT^8yI*wH=)?|}Ikfw&qXL0x#C7mJX-@$>v`19mvy;cB*Xh!h=
zGdaYgkS5J_@_mDx6dcikBT;N1E;CtRE*KQO8Z%hp5fghnhgn44TqbeDhD55$C&ocZ
zF1o|Wl#eoH9AmgT?v?c>%le3aDRWHkS)7WN^Zly&R8^-?)kz#$e_CR&J}9kTe0J%D
zm2Jt=o%6N_;Pmz_?OKi{y}k36wB4JqSEb8qQsqGb`mE2UI*$qXD?c`W{GPq!THoUS
zHG9VoY^!~#-KT}!r`Mi5v$pw}do97Vr!3{^5<Fci=G5lH!sf#e;<vgIjz+LV93?4x
zK(Ggv4&JplLy2g<|3mO{0ysibT(Q`fs@f)0ZM*B)cE7YLRoW_)wq}YrXT?JsSGy}+
z9Y|Gg5~??WeVwihq$+!b%HDKEeY&RiUdPszzSZq(9fubCZteN~J$Jn6`qotaPN9Bh
zx+W<9Ro33xbaPX>eluG1u*y~Inm_!F!AvdZ@}-;&g0o?1<gT;zUQJK7oSZ_Wp4qeJ
z-He)6H>9dI-L2YmzqBS@)0nE+F4SyCEz(uZ>AL1rU9V8rOJ&Lh!iNHD+){xL8#r%G
zx}<A4_PsB?^QBbx38DK$qU&VBa|)g0b!9lc(*<6UqinJGYy0n&w`Ob8(3Wc0B{b~H
z$r}0E&3<agaVU5-Z%bFVVBAw>n}xE?Y1Fd1OQ`Njs|oWe<hC>;;hLlVp^po+E?r8s
z?i5;gu3k#*e@fW@)LPxsG)=1SwRNX4WR6<FQM+_B)wEq`+Wyd>4}y2SW@#=Q&wHJ{
z82hwm>pf5TqB#-RwR$k=*|%O~>|#Z=V;toeTjUr!SGOcRdl91(G2V9sA3C_MZ7h$?
za*Q3T^-0ejtvtHr7~5Bilb+pj9&5<M#x+4Xza-%c-rl~_m)JdU=cQ!Fljz?jR_(w;
zGuPP8BDCFZU1>?|I(6sCWcz7EXk-!U5TPQlWL~zd97+0jVL3U|m373ee^A@JG?wT(
zey2WJ+YjB7d-l>qS@3r6nw{8vzUntd6AjyvwS9NJeKez+mX6=`blxv5qgfn)jt34F
z6yLQsK;>or@YU1zYP)iVcU$4W)}c$To`xVIusQAVr91(_6G(fCp+kt6_i7q$y?FCQ
zjDLXjZ8ccO+jgdUpA~waoj)vT2c{e(6<Kp^x!2gf+?VJ%{N8x7@d+CAfTH=u&k-Q|
z4goSJ?KQ(tdtoP4MGLe;$3sx37p)Nb;rP|W%yiyi7gZENs$HZQHV1`dE$zIlh?6n<
zRh||Kl^<Row}9#|nlr{ISN3R$8z4LY)T3uZ5d(w<as6$bg5OHVY_tT}#KV~*akVD3
z&c0ef30P;TG-?^44+YPsX&G`LpkMHW^o+CO#aC~^C%opgS9eV}`GvUU0(gCe&%1H}
z6Oz!jSny<pB;b2#Dk@*o@g2xp<+Eio03XbLLFGPV!?Q;PwG_40Q6j!deKwWi%eLz`
z$Qz0-7gSz?k~8($XU|iqHxo^{=R7EZh>e0LWME^qE2j@s`a2u-f=VCfgmq;7iZAXC
z8E=~u3U|&OcS1SEJ!^y92s0Ekt($(?EYwXN-JnKhR-^5op++hdtJDW&x|M!-d~LvU
z(U=)=hniY9sgK*C+(~@Mu5A8_PhNqfcA~-2V_zw)PHH=N#@v`5Ec~KD;QtJ4y@i}4
z0UaX=|2@5u9F6~{a6kf#pPQJ%ndu7tJ_QnD$q+`c@h7HZS3r+l#DO&m{SV~)6*)g6
zhhcq$HA8_nGKDjxe?g%S$oUF6o5&%olmBaS{xdm*NlMy-HadVx3ST1;o>l2X`lKSb
z!QvbdBLQCi|03sa$@#y@IRFPT1r<|fm^Wx)H9(dSmnsB;M7PRfNYO_$&?AwHDKuXf
z)N?ir0VKotrNc3zJ0}t;l8QE|s9_LkqLC13CjX2UqlN{@Yn}pW{l?g<Eb?3?<kgRz
z03uHa%iHGNKm}7(-9lCOiaS|#AOQrmwd3u%x8?+I<7)T3<zApU71%5UHYc_mOa?xe
zu+*e2j@Mlau5@L4+S`^c!@(=gTK<qTT5S-n`5@X$)$S4S=iLKLHn45gnA-7-fWN>q
zNPNGtA<?``sN5wNyhEtkv09g`I`K%s_wDZ2_b=>U9Jy<+!)AT!_|4;q=55L9zON13
zZ|q4m?i3n#CL4Dru%!l?Qh{wkU|XW^WHN9nfzyE`j{W*8X(e6)`*%Z6s-aJ4==;IU
z59hu=muxt4&7H2PzcqYwIMKN`S+g%yb5N)`_`f&*AD#cQGg<S*HQW8l+Eit`P}!d7
z*q!RwCv@!l@yt)=el(Zt7)VwQUN5?4yf$*5R5w}$Z|m~TyWU<L8@RRO=8jZVmr&J}
zs_GM}`c`7^l_aYAl2wPV9Zom(th}_^`~Ay8(}DMPK^s&!bVg`8bA5mv&kG8r!R6=g
zmiB4plC0XZVFuR*?gu(^2kE-=eqhTr=Y4M#4Mv}UKW`rf!{5AYOttM7@aNw@@4W91
zEbSHio8fa~*b?rBgrz|ei~j%rzyN=lmV6ve-cf*`BVcy>#>?oj^zD6GTt|=t7MF$d
zlx}=L;Ql8)AON5{ILH*tpb=0Ml7yx~-O-?z{~`*?Q4AotBJUu_P7ZAllHwIrNaD2|
zBHv+htZ<-NHZ>K&xxJZbXp|9?l%FSux<FfR;QRE292YedMt7LrfQ9s}p(_BTfyyd6
zn$pq^sPLipIX(0SJT(~;d4QxVviu_Uj)R)AY~RY>p+O)Y+_bZINsWMcU8HB=W?m0h
zS+f|s2~`62DrsReucU^}yk9nQRe=wkeWpfLD*%2X6C^!=B6_oM{$R#RJ{yPQ{F|<C
zTJi}c%^5od0gge3fqWj$=ANH<J-!fMeCE~*H(yA&gMzhvy_mjDOZwhslRJ&WAc&GN
zkbl#b@Abda&;0kT&W}t8V;bKN_3%l{i~4XB|LQ~IM$ftjotmq4K!V{nVC)IX**K{`
zW>l<044H6N->jtx3Nsc(P_4Gmu~Mz?Q2y2oSI+G-`v9H|Q`?yy0~EzI^LB=9At{Dy
zgBa4+4eAiKQSM{5kQ*8ZS>^Czu_SLr4v>i+k>huv$3#0>9Ld$%R!w$bm*dR%H&Dl}
z0+;)i?yKBaZC|y2)$vtlo{0e0LZOKOoz}4#Ez0O?B#kzrgo5X5BssPe1mg8;B!dQy
zS@?X7B;Lw2$oV*DSg>n#^+L{pRK(Dbl_Lf%bM|DV+Y9zwU4zTIs8h$~eKlk?5s(AH
z680=`T1Q)>(HIGSq!{)b-GX!HxV+SMEgI)A_u`X`7BtH8!fNeOw6NWfS;2O7+|{PI
zF;v7b@lTV3O4A~TBe6QA9U)Mk`Lbps+M?O|(vanx4!s{x(q?}Ni!SH^jaZ0LtfUF)
z@urSrR$cpDIf52l!*9)M2B3~=Y9&w9!G3|T=7L8%?rl{fi<+qP?4&!ZG_BMn_xrqU
z-ahY`cLFq-LiX1zbEd3(U%PK0Ki5N5-2p{zr@}8F6-MM*sZ<nxRn;2)Y9%~Is0n)*
zD0IDM$;#!mOH<~_VO3X034wa1K}(Jgu7f#Vgxn6uMdkctW#>v?kd6)F(!N^oXorrO
z(4IymYV3sKyFh}2f+wWTQE+f97y1i6;}v<SlH@O2#=)P-Taj*szUAGh%@dENk6S~Y
zJqXsAZ%;iMn{SLgql6+qjhQv3gMA?@*%w01I+VDfV!WxbuW*_(YQxyUl0hcInH(nR
z4amo6?5J2SBSSf|4*H5i)r<yXQKPCPQ<Zu!L8|Cd<Y^KK#}KSpf38@PWuk~AVW@11
zKS$bUIZ`EcpP@$5K0|z@^<QBF|CR~63x1^sR5tBE1y4vd2@+yzcj}zfEtux?3l^<C
zC9Wf28`lr3`H{(*tVx=MqPT9sykHC&-Y~+%h+b>I3K<!ktk0USnYS>5Q<j)hsbbb#
z$)jr~4kJM{UnWg3G$8x4rfn8rK1iK$omtuUf=LTDWepjqX}sDo<(A|08Y_GE1|_zC
zY>7$})uTqdXM+-zvP{?yWPgs1gr3cF!*_KdC`ga%Xug9(VjmQBU5pcgLmmStOA=va
zWm|-j<jorz$sYW#ABXcT-6=@+=_K}x80b0Og8l+R3m>U3LL7}_RCl#3r2EIZ8#?S^
zRYvZL{tpc=>)tVB&!v$0Fbn1)%n0ebHjBD(#srB{xr*dVwC*_<o`iIg-#2^UQAA4>
zd}R%GNh@q@G8>}i(10dJ+mZXP{xkP0&_SGjN680u-HY`ry{VqlLeJ^M6Hf{~PbHpx
zF4^<k?;RBCx_`}%!~TQv2Hm%d8gxwFCy8a5y)f0f0pkrdA!8;Cga*PW`QIjo+Q+BK
zHwXttz@Q~+g0T5qm|vsN_sJ=vNdJ+1gnb9Cl1z~$a7gWubx>UjV3ACpNxBh#L<!kA
zvSB5;Wt6Zh;>Ns6k7Sic)=eFoobCKn9qFT9qmu>bvU~oj#iO_SZ}u;HlhvKeXNBr5
zN&nXQ6X~jY*dl1}O0^#q+K;|>MQDF=zJJZpnr`l*-v$sk^_}VJ=5$~a{ywytAom)C
zaKclaa<>ca_T`bg?(TcN+t+DG?$tFdJ-=4h4bjVv5`=6kx#mjLZNBT-0?KIHPWB>r
zwmfi`UAvU1+q&lN`LT^j7uy6++wCSuqISAa;O4$m_c5XS*d43T{nRzrV*IXW)4gK<
zVp*cTcddBakK40p8j)sqZW=lI{qD`=6Fi$9csHdz)gK!4K36)>CH-#S`w_h}=^Ue-
zaGHvZR+M4?+H2`31}0}M`9IlO;-ShducS(4CGkX$@x|nnz{y)SJS^gJvt6HPoYm#A
zn+BRTLS=av1Gb-)_Ff|cOeuGV;O<yHD7d>;>S0UZp^0<4J}B+|H8cJ64{Gam{9hs^
z{}VXp@Q)|6KiHXb3XCQwPLYi%<Pe*y-=siK6lYt>S`#mSBlA2VQbT|dw(*c?#~V8q
z3ma>q?GoA8WEvm*U8I&47+XqKv>7(TV83rN#NVTDA5iw}bi6b!qD$7tK0Ctm<6)k6
zQ3N`_Ha5;fbAc&=1SsVx`ru${8d61~JfSjtkizXy@qn#XmZxY%X|mTWkA69giJxi%
z^PZR4)*KDL6y=kY1Ic?NEh@Wos26M-Xk8qlj7>OQHx*_4Way+w)=;QhMF*+~17~s#
zeH3J58W(n{igXYztQ=S~QSn_=OfA*H#%jfI4jzV(p;wZpK?TGCs0h_F8kvHz0KA_C
z2OP!EOiWyX9VOECcnr9C9tA~74E9BWH|#lpCs%Qy>M`^1Z&0J??_=iuH$a!HUP3z1
zkqYb(0y|QH&k2Fg&70HZ4bnk>obcE7R<)$6whL9;!L4Ol4aDe_wHlxo&>>WIFkx+L
z7ZdU}ErkJJ+H4<j`nLTKoW5(%CTjXtO-bjzjES>4*DOt7zCgh0?zrpj_(9RC`90^_
z=D~DFCrL_S1EncdyLqj4^EF%ATa&2ox$Eso`}`^2X2G{P<=Za!wy)~m_w7oT)+HKy
z?v`qPd{EhxXx;ywZ8e@~?oU<@BzyxICs(%xj2)%m^rp_`o|UrHmJ<U0I!;K1lM2FC
zp>iv==YDM?H4;MS@~`hp*<0`0Tki$>AR4~mzV2oau0ilLq#Ik`-v8$QhegJECQ`3~
zNWH#08Q4r2*8I{~Zv_~G^YEyS+j&^Wr29>RqiN~<YRjtsz4FBN69iUmf@K@)(#57X
zx|W-6cRaLkHGy>wfZ{<Zv_w)>JwjE_T50dP2|)<2ft7{|bY%6WR28w)X>7<q9&FS=
zf1pKhw5+ucCflD798VzR_0tQd<)4h*T+PJpeu%npI<D$^)#8)iti?PitG*Gr9zoOX
zh<d-wKW~@RPWG+Y+nIt#uTbARe`?VL<pjA?TJG9g?)mGM%&EXu0e}9_tz3iyLHY^o
z6V(vnlkSVf1)x^Zn)J8Phjdk~63k$`SUMq_h?Q2YWL-HrO2~@x6v1Q1|GE+L`347q
z$CyR6vqw3AvN2>?%ka#*a$X9`eNIINnY9u^<qIAyMvm6mIVEQ>HgG<c2{X+gCXJdW
z=+yJaK;8UCK=e6F7Ol-9vJk)NL#p*&rOqe;&<w(OYs{-uHf~bBvQzvp6F=DlQrik#
z5{E#*ULu%Q@JL@J!77l+4jce5ULv$|GssPq1&~byv7n9eQ%WM%i4me-es`Aa)MEAE
z7>!=bT3HO6v-D_*vtfBt9{V|a2m}qCGW>@SZH7!^1|kHm&?#*5pjgI-Uz!O6bdQIk
z*h+@66OdOj5W!3>M<P*%6T`%_ITXGG)8cFg=z<O!+erv96wOSzFACM$+-WG5O0yC6
zB9JUPJb~R02ckvOcq|OCZl0Nj$)PaYi=^H1KT%#@V3W+yG1TW!CuU`uZ=hX+?LuZb
z1Xk#=%|O<94j3(Am6A{rM(bsHq=(u<O~S@OMMt5F$67}((y2&yK@_raLAwl6jYh~6
zxE;sOVfz~DsMzVvQgWDIks?X<uN^2_-dWg>gwFb;4AkVTBW7E*wi;Gae#B=9*TDq^
z9LNBGfLZ{id!_z2e2Zg==DkAgzEtfIq4r3!_E@sw_??Di>A<`#-O!S1=oK1zQw=AD
zhLfp=CxnJ4{;c6Cz?u1j^RED?NvbtVr{8z<LeZ!3X&thzte$s4YWCgo<(gI39bK~i
z<eycYnm?6xSH3a2)c)<MyY9{pJf+wtmh3|5run0gN~AnnfZncj2%dfKLCxt<+E<yV
z?Yishy6>q?d71@JbE2hh<&w~{?|skyOfgs8ulvx)IVwpwx98@bw5K-Fx+m3oNN7Fu
zr`!Jhu79%&pu5^N-;dht-ji_Dzf}+2zMe!w-(AP{j1>tb0B4o7IWadS3yA0;^`V(g
z|La8L5D}=U(xb8s6#Jn%9=9iuZ7Vi=PQjlm&=TDe@}ibIo3G)>Sm|8_ai(bC2&}-|
z5TT_3!5vttNV+=`mJZgAK}m7Rm!}{sLu;UVq_G;6I3>|M)8;DhPNSN+JQ4+Pf+J_v
zvL7~Al+{mC;%ad>_?Ecw)jD*Y1+_1D5Na<7!fTe-!So(1(3~*NSwaA<lP;KEmu#BJ
zn+bSu;EpqJYR%!6Xd2`|X@rFqJP6g`(JDX=KpouRIh!8Gs|jG@yqFb69F0;YY&*db
z@2g%Tr_mc4z&)CKsss92A>$kB2`U(ixBhlH>O;*bc-R4Od1}g~+T#{xUS2b{vKbJM
z5?m0|prj@8x5yTJ5T-Hm9r&~Q7MQIpl*MrJ!~&N-60N{DV{-7D$)TCeQ}bcQA5JSd
zxE}<VH#v>;0oQ=Q5Jz_MOKK^n>H8Dp96%(|Eo(mz?L$CWDom|{XkzHQq+_882_^en
zl^TFg&Y3osXb}oz7LKdBl9k=iaPYUL{M!Wowt44+Eb5qcS0~&}Olg7iDu^#~Sb&P)
z^GWbW0;frM-+9f6li~}<?|WMl-kyY`2X4B0^GcmieQ<stUEZ;LQYha(fBZpd)#Bk>
zr*58F_N9V5h2YNB-k<FI(Y`+`Jvo2mgO-kTZAZGYk=%;<hgMUo3rdOe12=a7aF(6Y
z0qOHpfBnl~4%~IO-}AP>ve@e91<z5S>@vX(VCL|_9Adhz@z#}_R{&it$-0BEemFm{
zNPGeh?1)tZm4_O|iJK>uCX&^?^8?T&Kqvzf@8|~yA3ecNY(~uk>nCZv2FYO~%Ouhv
ziX4WMYxm1Qame{E_>bPkSDatJfAG*p+<6>PUz*LZ-_@R9u;0uXL%C^Bx_9Rf`@i46
zPX5eRooUl@>G!JNf#F|xSDSyb=|`K^$qRnTo&&mc=avucEvB0LlA-sdCc)d1F(Cjw
zq6m@c&BE1fT{$e&?#Ni_)yDa2=oC6Lrjelxke$u_di6qe!rviSJAUa#80#8V{ZZ6h
zeH7TV-h!#Lu?RQ>!LNKtK+$V1h=DDyagvdC2!6@%x+P@a!0whwI~;;v2if9cg5T;5
zQ#-X&hv+D}nF)p68^n;lZdAGrmWEBRP`r^9v5nFhLnWxSi_FvGK)O{6eGK^!9#DH&
z^}sH(0~W|ik-j)o7A^^U!$$48OGn}f=pl_SY$PB0s~jmy!(|~u$dB+1O4qKFe8}Dy
zs>nGeU!Ief7wxH(Vky5Uu_`CFpB<{N0Hm!E^R0g$o#GFT%tS{b{R2E9UW`Y^XL%Lf
zsQ#eJGb0F3`=kN?>qp@h7&OD_y#mAenv!m<eHhXQGOaA{T#zm)vzufFI)&RGEg~60
z_Ix}U2g^AhpG~7#E{Gy|kK&s_+^A)tHS)8;4y=J2WQ{xLkW;#>TpXl_dTu_eGm6@(
zb<C1K?<%FMvP`8u7?6uO=jRPta~3<YM*S`XvUw=JyxN(SzPMeaU=ygFDqD^<E2$vy
ztX2Hk-wjIDh^dr=+*QI85@O=nu}5irZt2LqLHVBjz0i^MD?TMPbP_t1FoJN%0R(m7
zqov#WsKg2kf-OqQxKY7X4s)-YM)l{oQT>Y`b8}_ZTIbQhBEWK@=equCg%PQURgjfX
zUqOhDg}w~Y!XP^tc7`2K6HV+4XHcJAhGG#ER_IjQV_4Y4B36Y#KuPE}7**tB4RJD~
z+66|njzm7lzX?eO`F(Kl;ze~uD?3=gq@uJ^6jf2ix9-iuWpV(AhPX%NUjGYZ6Rk#8
zifkuf`=IXNwcvZtC!TuxU;Wlqh;t4~;+(J8e7bKG`E+?k%KjKBdE5;rANgVo<=;h^
zXghRz@X*0C!$*$}N@x1m4o`E2f1aW<w2<L^q@}^vQ`jl;4Uvz4G6cPn9aflKlWwh&
zc*)<RSd7AFLLy=qGXk7H2%l(yl`}@u;$$f!pR%Bm1U_Q%7#PCmWqvlhxryP3(n&HR
zW&-TV<-_Ky;A-{j8`OydDE?RZ+}PskRB=!!4yKBGgyNog^L^R$mL!7dUUP3wH?_?l
z#lazHrZP4wj)Lt@c{>De$MW!+eQ&z0C)IX9XgiQ<8x-0G=MU5U4r`9)d!?;uf8*``
z)w1`>lbeXiSO&J=RT~c5IQ+!WWW2j7>GW8=;Hf9hrv17-<!Kc>t@p|smyRx<NS613
zvk4OS@YQ}WHk;|ZQOZNHVbyE*o4X~2T;Ps$xaoZyZURHHJz3R3@kwLYvEWEqDg{d=
zoo%YF`;gNIY=l?N-keR<9lTq25J`!hsb}m=RIPVsV&}=Vo>NJGztD4PdE^atQNz;N
z_bY;lo>PJ!=CpA-$m06-M+UB9Ko=#p-M`*heYDn?XGPhBU_1WTN%w&+Ljov)ukg_#
zI<>ZxxQ+>a^^(9>xxs@?(mgbzYMJ3_nF5yeyhmq3Be*nfWcqv*3iLG3WEy$+?93Q$
z$BQx|MV2iEB=c3UC0nS6nmd;sU&?zl!w7;9{eE;lMtZ0zcdOuTO}UQ>?xV2y3+bB2
zhBI{R7t%GWO=3{k&W^-zIUXG&&+A6Q5g4A(4-aEb;J5J6>_i%Xf+tIJD@+W7w9Z)<
zHjuS?FsZ;e8y-0~iPNs*qgbWWxF{`*Bgw>D0Dxo5HH2Qu<#zC6)NQ*r1Z^Lm^S`F9
zBi&iX`pE6LlY;x?on1-yvkA+y5(-be7VS>jfebe6B<jY3=g|()OC7?fA%Ycot)$S|
zwhdcZz|FZsO(IrqPLqOyJGdN7x_c9rUa2wPK?GhUoAbCfw6fR|+6vFcONew)$o9>c
z5gI@ycEcFBIm!s*iWk&cfwR<gT9i6t3*_7{B(DY{1!wc`j?7&RW76%3e?krILR9b@
zJzPcOqVbmPrY-F#y><nRxK$_SdW9{0;xzl6cPa#|)P7<H<P9dxTQ=i|;MtHJr)ljT
z*r>*=S8y8zgPPOFajHfEA-_dE!nQNovSc{Hx<fQeTU#E05M86VzY+$>W&7g=OxfJt
z$&dH}by5q8z-%ZkO%=BY#Vs%s8Gkdr@?vV+aber><hGN^;#1gv+@<qQsdK)9_&l+y
z^GqVDw8Ot+J)|Xu(FUOa!8E4|9xc3g41E+gWKR`l1w8+~bB3CA4sQ%b3;|=*X7f+c
z+%-vji9@J2zlny6a0G^jfXk)AqiiZBwkHHZVy4%zYayi*P+E-B*&Q3M=#NSH7c{0X
zpfX@S!NhsvgZh@YtKO_4hPRJAsrns4{f>lh=X<4hE@As`C_ywFV+G@A!#Fi1A6ko?
zu62XeW6N+>Wq&A=ZvWWerh@-~1p^i9;;)u`)tk%Sg}Ny%rGiIY5a>&KzUF<Dt@*W*
zkS?Z97TmO`5=S744Y;lmgjqHW-)&M}M5fES@{T!>oOyZV#0i;^2b70j<Gxm$7t0a@
z)-63+>erCTabUv~&zH=5#|$CsYmPY>Qs1x?FlOd($y3hvPnJLBu7^^sV-6Msb5iHE
zlh`+4S?7NLG`TyGJFbY%$^Fx$b|E$F{^g|3s~hUCgEqed^1IwPpQZ#4Qae6#>SCmZ
z$~{=?OR_}PHRlEvsLvWP!f{g%-x&8~Wv<%l(OU9Tg)C$eSKZYf<ZRF8%-iwqprfP<
zsu4d(OphYek`t>I?}oTX$&0137N(k%!~%tRMUd8*lNXgp2AT3pd<CKAf>=e5#QNP(
zN!)db<8@bWAindF?{7g7o@_aK2c_#`iJhc!lW48bu18#f^+`B%yK0<6c3S}N<t2__
z^(oYVozrEZJ9bd56b7Y>LW~oqygf}~U`QR9kl+;*z`F=MH^B!e{x$`SN`6vIgz?xh
zc5w%t>&(TgMElF<$ASDZVZiLJ4WThzz$#zA8qI1z=A_LKJSIJL!nn#8dj)qL-L-My
z=7nW{vUcmrR-DMYX1`ZnxwsqlEQG2}%TFh(wye|(RlUjbZ3)jdScH}~-a%xN*TY5x
zupa(L@Gx7J+;2C;bF_^YbedQ=r7L)p-jk;872PLK8Rr;Bl%1f*bTAAam1OG%{y(7%
z33DZK8=X%LV0)v~(GsOB`bgDEvfas86jF~L`jkDcmC4^x*V7IS;yUg2Cm^^y@dGar
zw6^QElxM5p*$P5)s|zYg&7_RzuR&km*mZqZ%DYYQZd(}_ya(PpD0q(~97os?<n=yn
zVyyQiOjw%Vmvy8YxWOD(aS8{nXC~9ge}OFitEr1_^n`_E3l!U;bVn|<bZKrfDTj<N
zkjfmL3zl}=**%}Wce1Jf8+8kD^Uy2a=4D^P+j-a9k1MbyzCZEav1DI=VrzfGA>FE*
z*J5?PNmy`5hgGVsOs$zl*IeXcxO_1bKQypmoHCO0VXN0LINQe<WiQC;oiB8~5bAiL
ztI$N!3th4mr5C!|5Fz+Nm$b~G-OPtcw_yZ#yNf1vMLVtswy`@1*_D-I(KH<b;3vV6
zBN{g!opuswC>xm_4}I#+&Pz>XL$pKc?6TAI$L{&cZk)J&V)5M4Y|^(Ck~z084Rgh0
z2YSmlznt(itIK^466I+-5!uBi+}|S4Zy9oNDs(FbweZnGi?e&PGBEt<?END-tocuz
zqcU{LFPN!@*NvkF#!kht9m2S<<3c12Lm$SF9-9Dkm|z|d2fgA39Q`rV5vx$qAK-1w
zaNTgV%*b7>F@g;{XP7fiej{7EPu|K;RTmgNA+>(BCbmB?N~CMHE~BW)oZ;`iCahO-
zYEraOO=dCFU^<)7udf4>!NQy~Qw`^eaKSgsizw|UA^dOqbJP>mBSbl2>PC8TJK(eK
zYCD;VxTJ%x8-UDRIIEy0VT`LHhPhnR#lWQ0Sp^pO6>b5hM`(K>-83y_2U2gy5nZVD
z&M}sP7*K$K!C90F%k{W_Lk1u^Zo#3cm8RyR<ERc$kWfV*xcWR>LtSqDvLYL(MmTbe
z9TS+R7JQ1DDt+)tYA6c}*!+4KOa}-KH2gs)%x#GJm$%@5EB<@1o4!V9%|C)8+Fst$
zBkv5N_2sR~CSj4GV;94Kperw5+GwTdOo3UnAU5;io@x0iNA?QMII9W(MGGBthXue8
zGuIY$@$3u*BY3k1DHu2X_t8_*Sq$0~`8IN9$T<#2G(fFf(u%9cEApXTPP%2DQOsYb
z#@OY0(EY(;say&9_E=flj(>%kewAXo*fqmyRi!)qSczYu&rU+mV7yRDPm1lhQVh4y
zj*rHoE)>o<_L8F>+bClwT@+CzLwrhi9{H4eu68y>v>#jsum(=@5cGNFV$-dTn;ogj
z?Ly`DAN$ta`=E-^(s8>-F-_Jlboax`#9H&<L#HKJ@}YxkIjvi?{(0-pMSI511$$TG
zLffI6jyqN9%7&$#OC8HkE`MoxVs(4Me<<y*|ES0a!&eTjZCA!gJ{u*6)^l;oM;x+)
zA+(kb+yS!t9hkK^E_57UYd-PNZACe##YwdsC)d`q5)oQIchi0c_hvRNb}T))^rfYV
zmAwi7L6icK!besUvUgEIZt|g?Cv_iDRu2Q3Wt2WrMs8bj%0NqYKfVlP<t+)8VE0^a
z;STDa)d`+G*KCWYmMd0{e^3uAZ^`=JYp%4n9;nU_8doNhTaWyy_s;WwQhRsnb7^07
z+FJ`P4R1SnaVG;QZJb)EOqTDtX1s@sSbA4{Yu>&Oe3fV=ZXoanubI+h2&G2|^guT!
zux~A}W7U@o>|32n1_rJ<Kk(F~eHCe6ecA_9zcpRc{0qCexCDJu40S>#C23mow5C0!
zu)5;(W_GhGKitImFcPdRC?ICbx)*3&HZ8xhcHo(0;MonzTMRF~xaR3elP+Vn07uEM
z*JpGX<zKJ+Fb=<7FR_-EL`yL5|7CIDShM+mD-Rs&F#oISz_BfsJVcLR-fxK7{xvP_
zOSDd3Cg%#ATzr<0e#LwSY>&!l?PoyxAIanxEieVUty}8F4K#PXM^}tLbbjBtdM>&7
zXkydRgyX1$&&$9ab<LqyE3rDir3aT+^Tb{BxJ=2?#b~+dStfKHTds=s95*?N3$uvw
z-6%fLpsY$a;-4Z*$%ub!gZ#~*qP+M$a(&7+h!5-Zx$#5RIm2XyT&L0v(ijWU7=Zk!
zc>5!pDD1MaP2LzIF(`Y0=-INYI7JI#&V=or&{!#sx>0A9)q&J#_d1~gCZGVSz6ccB
z+hBK}ddjYRdqq`^$JYwEAGK22v*=IAt{_Wa!FgFtbVscxp%b|1OSGPYk~j35aj6&E
zg`3bGv1n#m3ZgxkC#%`~KP2BX<Rk2y?S!)(1N~0~r1>70oQeg;Cj(z#*~!T_1#lDL
zB+KbVTsrz9Ws%)X?@~VX<ggvpbub#mh3hbLCE1+)24W*o{=Nz`R?;r0ZsWv`koM*4
zl>P6*$+?D9Ilm}xgp&DRvJfn<($BUL7G`sj)@c(;#zsh*bp9Lre|JAYV$!dJ9V*hS
zUbe5CfoaOBz1I(?OX*9g`o+4^3xktYyXi{+P`R}2(KPoT$?dn^doo#d491gMTCbme
zG|PSOp|B(D^R?6W+>nJVpIO7*U9hI<t6MS(zUKKO_o^G0jx6tA+w)|y`YGsNR_|J?
z?p-;PtlqV{H(7lGA>bjPDcA)FD!=dPx$muCIwN?4ANcB*nxQx8e&2Uosk9vSzHj@3
z%C<!C*<|H&3Ey*&$)+4Nf}>_JwB~5Uv75ga?t@6PU}F%?SPth$lu`dIEC)4pBo`=S
zAaOPIUGEW~ICJmJtv;9RK9cCjGFftgs>(zp%fAGavkZqvz!1PD14D)!)**5GiEY6i
zEkTnCns9_DhrUynd{#+l4lx)Fk^_QpTwDcbN-3a^)YJqpp!h1`&1MN7W=psdvBeS@
z)eVjF;ZYoK#42UWnx|#_PEo-!&cSW7t5(%JQ5J1ELpyW%Y4WN)`dQG|NAsDYksL+s
zW&E{OYmGdpZUlC7?Ul8*!>P9Cgtq6vW~*_{4`7|w>@HX?A2=!&o0n?V958XKIqP$$
z0||c^VsZ^VMAP9M_S?5~q+tkB7>s6i`57*nrpwl3A{G~IYVnV0H&F;R5V2}0dDBWF
zVsWaUO{|=A2k|0^msC-dI*BYBOd^%+o<j_<`(c{_B(z*6$VBVMO(U6*)vhHGvVSji
zRQl(W)DSx(<fJADtN#hjZQLEn_Q!YdqJ~|R!v0xqn0z_ryHXh2EN@_N6(%wZSfl{j
zWR-=q(T2!Y4z7<Y*Z}>K>K5)$lPN*v+?GU1{tjhN<fP^jqXn+giOMpQ_C_gN#<l)U
z_QprD`7*{i`d?5k7THH;a~rI7H?6z4zCjQ+TNq*E|MWD=C#54+j<0$47Elr(ReVIM
zbWj~0R&GG4JopVLmB;LG2hb5D-B3B~U^Qs3=`0`F!GRNRq<9OuOER~ePKRXoJ8)3g
zEMdqGp=W_yc?5}rB)j|az<vhOgb6ZoGr2{>N<0w^Yua0}c;?!^yWY>^GQrMwI#-L5
z?FSMq2N3YynLA%d9Ql00@%hIPDQ{7y{D%9X0)S{|%R$}M-RoobJ~Dby@Z|4({4MnP
zJEokCuO9KUn;icpzGqc@@>ka*{WtrWFwaM_d5eaD7*3Dd!af$w`&9duipKm8G;I8B
zS})oIRLrmpTt*CSJb8iS8;i-+Ibw08SUDonM{@X|Xjq7B!mxZ+-23AOW!5X-3lFup
zuJOrB!(%us9JGr@;s}Z!VkXMW!Z4&mQCN=&$E4#)qcm^9PnI=?57TRbfYT@G{Y+9M
zo*cqe`B`$lNzS*(`8GL!K+ap_ER*xk$oWHZzDJI_d5LbR*I?C3l0);v)a0|+A06}i
zqPjQ99@v7Abc`Ii9Y5RriSWO_0VIs}!TEnM2xXOvy{W3rLe=JE)z)NL4^I9!G=HZV
z+Hyvt)&It5hQrTyM`3or>d!b#)}y-HhcX=f{^0O0*l)(AvkvIKYshf)d)tU(RrvkL
zY(fIpKCAa$NomGFzbzeaN8XGu|9xliFHH!`9MJ1<q3Cy`l=ztLc8n4q!x7(roQ{5#
zbnqkH-<j~6Ijqy63R0n{5-ap5(mCaH^sA(UpQXcZrnXLwK)*@^_*n$}W<H0EpO-82
zJSy}HROoqRY?IT`uaXXamJYuezs2hPE_wz(KQ_^wvCMlX_IDJr?!!F^f}?K!@U_kl
zYJ<y7$=dGu(;v8Nm-hc)v`|*Pon+NbB&#m2_!%ylKD_1*e&8WG^~Kf0Yo3E?kN*Rh
z?*-A?@B!=)yVtxsJ^)wo@Ji=<zW04cf94}@X3cxXHQ$lksD(LbW_;h>v}_dIFw5ir
z8BwN711r7nJ9cEYq5hdZ>HHttuy{Jum#02S6c|=FxBg`~xis7b%(TL1gX23YvYm~O
zn3n9D;?pvysUWh7ilv!{V3HH7v-FK@z8i*Sz}b-u!Td3zND6%4q{zh+BNJywq$2`S
z3`j`~qp&4F2L<wUN9sugEJe@B5Wr?iF;4mzjgpT|`#u56ZKx6?2r!uvOu3H;?jyKH
zJLMn~A}L3^;K0Qi>T93i=vy}#NOjL3tL}B>4G-;3Y<T_%9`HSN7w}v7KtuHtYm<Om
zsB!|eh6v}5Y=!xQY}RYpJVjiR)D%2fEl_Au=x6U98i|a~L@;&%FuA6~0cZi|s|fcq
z4U>cF{bKB-N0-f}K+l8xx#%wSjY4xw$?ghV>hB*2NH)Q;X`Tv04Slj8*%`8+Oi^Pa
zFdQ*?E<e-GfHWakEq4W;W|f^93&hSN%?QjgsZ{{cbQO)}LDWj-i-H!>P4cTqBpgv}
zI<YCr4$)L2+J^I)mBy?gi9YFMKBI$JPVADnZy+`FR#$0zVaHzn7xGcYQChpy9nzli
z$joM0f5w^pNZP-onLUUC!4j<IU|*<mn^3t8XQzF2Dc>f+w<+c86MTL1)(7r3dDfTJ
zrOJAQGT8fRO!;;Qz8&D|Np}|EgbGc0n4*`U(lcmHu#*2Gvgb$0IZIB#0pzpP?os+c
zrw63dL5Jy;)a)gd-`}Fwi}d;x@{uMqKS2&HAznwmKO*M`a76nk4h=<doy+;D5dR|z
z{$I%nQPeOTCKHkNYyLU<Le94V6{Exh!b#>don&s14l?6swI@SwcZ|QFpO22~3?^H~
zrZYXKTYZ|&EI)_sNN3uXJ<q%?d!Bh4Bv8tEW`}y7Ib(vK7_hQEY<kN%%1o~XN0})|
zIm*25rnhQ?sciWOvvkeDyZX#eUii@q>*USY941@3vL<7oUu=#S-@GXKcOUr4o*(UD
z{`=PIb=1O^sXk{g)hr!ferBa-m2H%`El21)A~YS%aP;X;&z<PM*|E<2nWu_4b8$vr
zWU}2at<RY7i&iiL-CtVx(&7<PXingqi?!{eB79pnD6t`QqjWww9e(9>*PdQ%y!QEp
zSC$M3ccWl!`ltxsSh|N4Tbe~QK0zbh$sQcQrFO%isnOwK(LFka#l-HLh<1&f9c6O?
zSM~sjjKQvYl-Vs1%{YArh`<xPg-ycnx$tE^PJ@1krUPwoq9X>AXi-3~2|5ZyKvZ-Q
zAnGD@rAcD+^R(qjHruP%7gFiR-Foz`i>wv$Be=CN$`gQ<>|u9Fa7!`;Pm0WJ(u;L0
zbqMxT`SG(jJP_(qp$mgi(m^{?|6nH6L?4Tfs^J!*kZL@ER4c@0_KB%%L2oKNI)fU>
zs#{&SL~;BQs~ulLaho0!cMP|<h1lhH#N>NyR7Ta2sWj=Hy!yxFDsA$7DYb+Sj!Ku-
z`Kg4C$0aK~Lr6S8anoZ`upPfEi&ISUjLrM;NhDNZCN_?lLWl{^pn2<Kih5~g1hZjQ
z>Q_3V^w_3kiJmYs?8lRQRP1?7{*uu@bwaRHL}U_>XJ;-0l)O_bxikle@CfsYMv2s}
zdP>7K)vkhx!d|0YQnUt&=44sp*w;*$Zgy;>FdI82fjc?FQN9@gd<%t|q*SdGK%5n3
zFEEE<>!q;c6w^E~#Y`Taq>yvue4U){lVhMo$iVMDdL`US+U_iSP&pV%+{gbpqTr8<
z(y^$FL8sH<#ynm7f8?5e%2ofA3;fLBNgFMH#g+Uy=lCh-`zhD**WC7>a(n-h+aqv$
zeyKO=^dE9?eqrNu+kVRJ`6;*ar`(QT>P<TRItS+$4o-Jm_fzhfU+N8bvv9g&csroJ
zJ%Kl*==^K0`!Bg;0(T5R`YC8Sd}uK0JZYOV!+w3`(r;6%^t*kR^m}TM{oXfOU?@)K
z$+%oP@6w@l+}+@P*if%4zQ*6Ua{bCf4&H~ybq931Y9)mH50C1f(djlXK6UH)o6kSw
z$p3I!|GYuxUedp9ebf4oBY)<ynbVg))KBPjHH#&;DsEP+bL0mE)t6^j@WU^fo;T@i
Si#)R+(z)vY1xN3!!~Z|z*O)i}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/minimax_vl_01.cpython-312.pyc b/model_executor/models/__pycache__/minimax_vl_01.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..86ccc166d94f193333509896bfc35e14f9edcb9e
GIT binary patch
literal 18368
zcmb_^TW}j!mRL95Pl6;!03<=OL6IUMQhbY~B<fAc(u$&FN!G-OXJ823BthXpcY~71
z0kiT%lc6@=HMOZ((VLl=nw^U2SX<_7r81gSQmd`nN;#E$pbhN;(~--XjJFbhBn6vv
z*^`eX=iKfFKp65UJLw{C-@cF2_i<kLoYVMEcDsdwE2{gakspsy)UWYDy-Z4G>$rxZ
z?olsMEXC4MDn<wBm?og1@mUkq#&iK)Odrt43;_cv(?*Q}Bh+c5rkFWkCS|&)C1wp+
zW43^eJnN(OSXH1Z<_I{*vmsg?s|nPQyfIoEa|WCwZ;IB%>I3yLSHMM{%~5yE6Y!9{
zCE5^c3^bCwHQE&O2D~J1i#Eqv0xcwOkG95`02A{CeDGYwI-+f{U4dOBUmb0abp$$M
zy92vpoq<kLRuk=t`2+sgp1_`1cc7b;)kb?_djoq(-WlzU^#%G!zAoAy8wd=Le0_8<
zHWV0&4F`r}`vUuDN<+Osv98+`>*kpEwDL*@Mo6g#N*hW_N4XJhbje6jficd&?PnXu
zp*d;U1TDRsc`m7LN%3BQd62YhhL$bdo<iw3DQ$&PhTB^xJw!@<P};`%xkC*Au26Sa
zLvf9B|ETx|HOC$14sqiTcBw51jCO$0QF&zCZm#n^z1;gf1xVoNqSn9rQ+)DkB-5EB
z$A_*)Imvh~G(R7S&-k^H`B*%jNQROeD;Xyv*dQvIFE7q>$D)ytFa_Og$3w~R>?tmk
zT;MsW`U1}-`A{Uzu_qGo>BtPUXqw@Y!BBjW=Y(J+7MkILGkk;%3bUbkPO>h<=R>Sq
z?x!Wom1s1k^n@qUGn@=g#{o{=i9~cE7QYaJK}5OeB)lZVOEni0H+B{QnA#T?Lh)o|
zDU^&P;stQdb1zL^K6CE;#IecX#gi|bxpevB%h0&~+(I-NIhSBV(NhsFst%l%oM+-N
z;~2+AU;!?3aUsDAIAb|`DLl)?LXuT^!r6RE<5JR+<HY2d3s)inyd1!CQCP^j;!94(
zu5v63>nljLmlo#d6MRxA)=Cz&?7{`;=RF=0xXEbfdZ^gs0-p$T0*pp-lbVTzSZwi3
ze10J*9AAh;S&o;QBJoHvc%2L(m`vQ@_~3Mc4@MCX3{dVj#obIQuwXQ2;?oJJs=E-m
z2|E})eX4W<v{Z8`G82u=mlkTJnqv#e#J9M}%xqGaOoZ^wjq;me8-qMI6A@qqIW`!>
zWsq#K(Bf4tIL~v_k(*%!3(3u@JZ$|3$lRkiDnPSTKm**34rp0TK*#A>4N?YYV6{kz
zoRKrl)hfM8Zk(lZIrc?r270oxI#$mbSR-qirC9Ty(GM)|8DtRC>N_;w^bXcq0?GCs
z@L{|PeeKwH(dw^~n$E#uoD1E&GTA?H1~DJjmW#?e6*>aQVqxH#h{OQ509S+q<QdEM
zGFRgV7(!Z%5Lx1wJxqK7@P=m+(+nXZp`>km{s1#osGdiH<OHUh87OHJE^QK?4aMVJ
zRA9P>{3UH>4=|_6W|oxQIKX@>!X{@eq--jY<e21aD9OAE;|VISdX<5VWv+4z8=0Pl
z{f;M@c^K+d90(JNv+{_02!u$SxiK4o@-QGafPzk;WQd6f%zQ`?IF<<sOo)jB;xLgo
zU{8p}DTicWP@N=n*h^qZws~C8;Pp^+ffFQM5*U-Dxf+)=@%c}Yy-W10MBg}!S-u;S
z9!&g@0H)j6#ds(d2?yCoOqlu<w^6dn3<{TA@Y^I)FbGY!U{JCI5r-F|n70LkuPub4
zN{ulXWE0_Fkncp;h)9wn2>g!lP25$eLdGlUlL<aND;Z>lA?a|Ad_B~>OKm|){jc+V
z$=H0~d}MxaGQ<Px+k10ibpP13QLZl<x!O0sn4C?-`>q3J^$~IkayPj!&>t^93Vkua
zwpi$9@Om`ZKhQhB$aer#l5{~vSb*gF)Mpxt-jw%H9YeP!RytREMT;+^8_d-<<xKWB
zZFg*|$+eSjPrfxNy8WWb|4Wl|bz-f3on9Z>(0+K}_a2+h=C!o>9Q~PA>ojapTD>7}
zp=z7f_Pss+*7!!d*wp(o>%)mhzD)l_x@khJIr&(3lHae6BMh0s1=L8ct?$6?ccFQp
zX^TwLsx&OnqLI*|$#0fg%W1K|hGlwO`Uyd)-<=pE)4~CUP&+d%OGQG#1iDPxv(Vsl
zgk`z7Oxs<t1;F+gp_XVUKC=Lvf+1TBSRcN2H4*1zDwS+9dU7a11R3FQYb7nbRMN}>
z2_P{|`K^3E6!Qa^3}P~bNdZCmVSGfS<o97Rf(c?G585UrZ`T3L;p&m(2xJ6oiwL9#
z1ga`WAd7SL<h{wellQwf*v*p<hcj(Q({)Eh%dyA0V=_bpCb`PDL0<hGh+&6@cx|O1
z`9TS4m?<;G+E@*zWwr3H<A9NaU@(ACpphlBMou?vTcM_D)^ytr>aMx6Fkqh{B&Kz&
z^|mfxS)p#y0qZ5oZ<kt1#=AoT&v9WOy(y_y5wf#nLxadUr0OI{)?jH#-8`R=d#J^s
za8hcBq2>WQ9g2cbR2y6c%}TNXhlwYHVWLDy21R75B!jDi2LWVkTR(y1hx9$FsE^(;
zrl>!J?Nt>$no8nklPg81G$~z5pECS&5UxMgJkY3WVTuYOJaQ$?YA&UH549S&puPYl
zsqPU4(2DT1W$+5)U8MZFsU>r7lqhY%0nlu8I8XjG0Orp?Qmh>Gn<Txk01^cGFHt9g
zd=)g2Olo%?UoUB44S7dt1$Na5Ty&bBfMWh6CZ{lY0h7YJBy%trj)J%e1_fM3Bult%
z@dWA5LCI3*H}89|I<Oa^v4Gh7)h%kfmNHk}F^VS7V^iZNo}QeoC1>;IYWCzBI&v=W
z>OWX}IqmG+wi+5NE4nxA+f`IuOS)w+;~auV(-V&$TR*eIAKD2SNmVirP<V?V89?J+
z;NxLM4S}J^ctLRECOq7Ootsnkkkl$kidJ{_73jOHS=K_k0tOUYrZj51Wev0_;6SAo
z1xT7p)VuVQU&~KHGyXg#7a;NLcw9055+sscr4T$|2ofC>bWn^tK{i4%g35X$#IsAg
zf6Hbl?V`|IKrVBO$~CpVedw)28!efpG1!k4`|4{skN0iUTc-8qjHhqKt~O}SG>xha
z9Nx6aOBUI$nUW~Kt&EETn~f(WEl6!Z-b5nGSHrt_M3)ja`Z7F9b_Kt}Tr?UCzDx5L
zp;W*<I4a}V3G9RkE{ZS*$yc{2V5&o-IhW@%M}yw-)Z3cZ!#!`Hnp*Nk%$caxw!9g0
z7OK4~Z^fLAa{D)iMOR<mj*nGTP2CsRJwKw;H?MQ=MDIuQ6l6CSexCYS>PyVZ+!$XT
zhX2B)V#t;aii+ZRk%l8rbIAsL{j`DGTqbYI<VXlW@|Xztj~H~D%IQq<NU(gzNK_2l
zLUJsQgr#p&co+a4uVJ;or}ZEK40sS=^~n8Yp$~Nis539>{YI&wWZXMXI$?FX@Cw34
zwQ%1$3JD<>xR+m*NF#{|OD>f}E>ZjyC;<MZ4JU6(c09q(PAhzzN3IIkK$r#&Kt^<a
z8nQb$&d#y+?f`-$EqEXSEO$8Hym{wl*3lt4Iv(#H$v8&Srcs$q7_I^7%m_Q?i3^J-
ztu2`?Xpk|$WBD~#%1V?<mX1&<`ls|C(ZB>WbA@>q`vUvW&MD`pVkw9XZLrWfg=|4H
zMbr$xp68&QRISVo1fX)Nb;um9SkS0g5AX<!`Y)a!m0GDrsVf$#JZ2W5+hFkvfOx_o
za5M!b!(W4^r9IEY6LswiFun`z1w>3(es}+B^4`t6H?!`35&sTsjzF?v%Qf!KHjapm
zBP)(v&%tcZ6|v{aisP}#|J2cxHZ{p;e;Hs*?bse%c7ldz{ksR!nWZ8$Xd%Fi^khk7
z^=t-e2`^FDq#G9y<Ruys@TeUNMkBFEQdk=J=2=zf@;wBN^beD(cCXc~{C?WhLWb+N
zl#@6jtz<}CMYV>kB99Bpzk<m>#DvGBj1eH6^O)R#f1wAG+tlY8T0fRI==I(W*A@l0
zd=;&4-EeO@H^UDnem1w+D*BIYQ&1)^9CpY5!bOaw@U*oANvXcb(x4>*zu>f-Ugi#<
zH<mtu23b<4=M2-J`+@doxNQUN(Fl5_sjLOIHz}OPz?zZM5N*){`($~xwy0n>=y8eI
zd{Q#PCZVP-nIR(+s$@wft|@sQaU-m<L7XQ}Q49ZDI$#@R%AQqL_K0GqP3a!c@8L$k
zwX9F+D~W5iD9{Zl!|N}m^sE-`Bg@8QL19Z7RE}0sW>m|rb;0gwevkSdU7{!&QbyGl
zGC{p*dei)-C9IpF!kTZpD2gZsCX$+$Eh!TVcIxkISSn>Espb2cX)=bpnm0T;Dy&<!
zESr~2Ffw9^N$D>E9J)|`1Jy~O^Xo8b9#M%$j>a!yvKx~=NPxji!cD3ThQVNnT)05Q
zk``!2(nh(sq+N>4gQO=~Nd<6HjnWAyE3uG78(Z-W5<OpHRv<DSi3gdBa@~@}Ju;0Q
z<hbJ~AtOic*N1rrx(R;)2`ZOWRCC)~FNofeoU<WU*OYU$=G?x#nQ9&dqG`6IO${LZ
zJ^rk_M|AgWd?(``2S#Ldr>(nCh3MHhCpI2fIs3%vT1{n~?GLmYXER-6A3Dd<wz0Hx
zY}-Kf4Q}>4vOeye{6ec4sQP8^<o$;An)|2LU)-Qq=|A?ZUR({WUR<kP^R3mc`u~|N
z-8;F34b!&fwYX^83+hR=FKuFevu%b_0VTm-xtfk0G)ZPy`Uo*kO0LpfKvtzlDa38{
zLcAxqehV^itSLz9%5q7?$^YN&Sj~^LK-AhP{xui}s5k}0;tyeghOdR2WF%HDj)evU
zhhB$5p72qe1E7Jd%hm^xOT&bx(Znn$3c=EF35%|X6P0@X6aWjzSOF_+RP$igyI=I~
zf7qGv9)Hr*p9PJ#Y3!jp({${Kcc7&1Go!BB0?MG-B6IYw83_pMCQKaFG#*bzJYp`H
zDF1!Tp{a%sLQ<;CqG5^0<ey;03M8n^8XEMzr`1kWVts&twGC^|wdu7cv8DsHSs$QF
zUDMjox?%00=<Gzb)(2{By?5=zx@+yMSV#0*ALzFh*B7AL`tl=YP>P+P6vG|h`MNf=
z8&@{0A~T#fVv&im)T}zwuI_YAw`lJ9(hP;Nz`&t_603`Vg&VAXXf0RpF$^_@3y+w1
zZ85NOJH<#qI|E*|pU^BA9cDDF{ztM!8VwId4(!NqHxm`qz*=tW)MIzR#9CR~k7(A;
znb|57CaihdKm?5Ac2&Rv{j75y`K6`lTx02zoCmeG8iY+1Tf;fHYJ3-0LrfmE0Hgiu
z?Kx-Va^&-*AHKU%zq-ohtWy?x$}H<(EcI;tH@$^*RfYsc7B}>Eu^!G%R^abD3LV=3
za6D`y*YG>SX#zNn;L~dYI1S29>eyx|^(v*!FzOa~ZXqV9F1EGu+`z9_aaCC#*DAvW
zA7AAb1b>vbRcyhvlC`(7yKd_P4BP$;IM3ME!mK)A7Cv@2*T&Vs;i=-A<ef%Lf%VwM
z888R)?}VQ1MA_*8zUY^BmGG`p2_D>RYy|ynq38=-96W`XzYGT<!)wI2B^j<M_v`ZA
zJOjsmIcr>)CmEnp(`(n1dK;-%Y9tdelSPt?5*;D>(Nq{2ta@P{|F`h`4@Wq<lEs59
zSUh-oQIjn6XA3s2@6n)G5Qe{G949*W;U(sLJh~{mFwiO+iozh!Us2GXVbm4@O!i6P
zMkF~4K1_5+oaFfgPmY06fxiob;{O;D0pD2=3Qpwi^U+Y4n@ynGE(oTDrP1eDR&pvS
z>-g^xd@CfksHawE*4iRkTh?wowsz*6-cPDL>4t-us`0dGT;_=ZXy~Vj<xR4ZGnH&=
zBqfDY37$ysz(`j16-diePeZw#5!PJ??aQu8$3i$R(sL+c%C2SIGhnD%eo1>!aKUC3
zL{)=aVAU+OQKD&3E(f)krIR&<XAP*pI5)T+XjOF?`WCF7$$GgKkFRr}zLsB=*fzAR
zz__2$(pwG@h)tK$?HHrJFh+ywpoB3NW|j1*Fy`9ST=AalQ1f%BxRhPbKUP(}QtvQ=
zIu%&5Tg}1YqvGs$%%^ZXcwkZ;H2|%!x&Wb9g;%^o3%B}I`5kj;dn&u2S3$6{W_Us#
zMlLXUppIU4%?*|nz~k#p&)>G}4S29EyXJ<=3g8iX6)*-Y<d&&ZlC9Kd4~(UT=U!Wg
z@W3Y%LNXXn@G(N6m!*2*J3yyosq?^Z_$`+2D%HUxyW~M@U4wxT6}^N3eENUj@;8z5
z6ESdt>mEJ$svYZJKp*}zcC0CJVW`du1yD0K+J(uVVsZkT+m-1lO|7a07`-M|;x$n^
zpTaIb!Y-P4Try*XM~s750%B>E^c<X`7bUxFD2j78&@sRx74SdCK6T1#6eD>s8d?Nz
zg5`Q59J(sIXlxjD0w-=R9*nS3Yb<n)3lgB985V;+g0i<+@Ec|29@mPjKmQZV;R^8g
zF}VndfQM(`?Qki_KH^E}c^-bQx)c5y;mp8^=c`-P6O&zaCOob2W^4RnjXzs6B-RYA
z7;^5mth-Ni_rV#@+nMzai{9a^_mt>81?Rx0E-yF~tU2G{ite$g1&(&jV>w%G&gRLr
z?0VvCT{mo0Wt^kiW;ixtiv~DF?4F==tsU9cA+dER+j>N7J(6qQm2K`5oBOiO2gT-t
zIbUbiH!k|dbGy->LBOQDj%1uix9!H=1Wwy_HPynr{mNUfJm`48``zx%>Fmg9apZJ%
z<gz$&IkV@bO!F0dU*nUOv7BcYxJ0t9F45Jcz#7Xq_ir0@tprvR90oeNv+YO3_9NKG
zmuqCQjXh#xPquMXY#fCNI&$6?GW?v?@#euh2eZ~)qIFl=+LvS6-?84eW|=XO8C#in
zY-@(|g1shdYZYy+S=$lOb|kN*%=W)A^$=lL5O=Wn6s)~0?vOH{WeZlVyfi^KzT6^L
zi*kJ@p)HL(4;p;E-~WJ72zW9f*50h6O?0%SO>MFeCv=6}y?2K$gc4Ym*pT@F{R8c@
zrcvoY{Ri5juW&`XLc_s>zHLfrCJNp}RT2=(<c_t&lRJ8vw~(9uP;(X*6JPyp82>V@
zq3(dlzoU6TsbcL<=zBCxy-}^B7U@6N-T+4fh9;>r3vN8HETT#TYU0eIVl>uCn%;i?
z7QpBK0ux*U#cgy;raH+yJ_Gva&3XRt(uL<)bR{T_gpvrr6N0L1t#>>M3?nKW?kzz4
z3SZX_$yfg!Ni<Js>n*>k_pL%a1Z8hnt4R-^&Dti@w#i@C`+h^l^^fb^G;mqu7g9?Z
zTPm9(M2IZRM>*AgUD#bRQ+blFGDl^5Lc=phy>#eznsgp#h~~53!1Su9U7hcA-|x=0
zO^R)kX;bSHN8PqE=Pf<V9U?%`rl3`93dFBRjBh&-vS7Vr0X6SYGt{!SXss!_At$I+
z&9_?=TcM6vFEucbvWun3$wYH)f}&Pw{@;R)kd!PN&|1h+jcE6zo>vX6q=NoG^sb<k
zF2R^@(#uA$UK&%TC7_9vp%S6VqrNr@NNg>-(@T#c$%3kfE_R&tGe%ZjwnWcvSx}XW
zJu0n$s-6|>wfZ?{v4@&VnNt>=Bdb$G2*{olRA;pvsJ5_25OJqrjcUuef>Kv(rP@sh
zl!C%mtcU&vm3Pclst0R~TEDDMHmN<~SfH$5NiAw8<eCGFE5A~D;u~Yi%V8#p-I}Fj
zd-Yt~*W1icV0W*CxuD`VQeZ{W+@=5A@JG~KK}9dZfSwi9b(Q4;GuDCftiXP*b@CTs
zt2x+<!tn>z>6=#qs0u|u>09Fm3N-iIdLtz=>U)cKmcs3;JpYop?szLG|Apg55mHL8
zwx@x6yy4Tqfei$cd5XtH;_+~?G=6!OD+!-e<0Ih+4>5WSD4YU@sY1{q9^XkwBGD^J
za8@t>Hh}mPMJkV{6MhdQAf~hsH0XCpW)8w2(bmC1$O?u4%ZlNjK_kf`Yo{b4$U<I9
zR8Rhg2nHF4R42C};m{CpJ)Z#G6JofoN4Oi35n#m@0ImfFn2gLUBo+jSh=_)gFjU@(
zF!mt~Z8((V-^H8(WF7=tN}6Os(z7HM(hR~gF2K=&lME2k&Ba*=4I^giO9%kjyi^P7
zvm#7X!6%vJfkjyGV9QyhN~*mIVVgUfONLnzG%D$DV4$c}U5E?~Diw}m327qW@KH}z
zE?J~G=ONf_CurgMtRWRT{%?4L@B-ifNHGIwrD@PQy9PFUvt7qTTl>nH)#aSSE2~rM
z1K>U1pfe7Cu48a>K<wC;u5QaQdpANGSJTYEs{Lu5=ib@7XR~#C#k#%Ox-qeCEaz^z
z_uaeSl^wrX_d(Hp@G~u4Kc3fWYid^wYxQW}Zd^Ng_i(ynG~01V>^Sr=Bz7GA(0TMp
zV|&hX1zaaht~{lwcY%7o?*g5xYh5>sb$fE^yN1QO;le}l#al+*zFM(*AYIL@_knfX
z*PCSqMP@Kp*S?<Ey#8?E(NzHLt6jCDjT|cXiOjyu(8HRC#~!{0VVTTCmN_pn=QGTU
zt9F=Vu|bA8m}O3g%!x<G9=(=f&aB#>Fx?yH9v*zOC?0$<!(3dof5LRUW4>>G>gmX9
z=mus@m-XxsJ$wGu0EGNaY#b6j`#)}Ieai(Aq78?0@N(a<=o{X=w0Sk{+b<U$9RD0E
z|64=TTeWNFvfe(?+m~tR&ztr2E|^V2)3(Dz24A~l@MLT!MdswA&<8ac<}8kl3?<!t
z=;3mD&$;xa%a56t?%JQ?wuwxCp+T;`ZG9r!J|eb{Y$nC_ars2?$ewARO4prFzjS50
zuv&IF8+3@aj`i5z+J^I&Xv%+_&R?dfYEZa+MB$bUvKwnhtQE2bqHVtlnP+L*w}`Ve
zMJuWb#!+FPvI|PfO7IcluM~z)G;ZRD0`C)14}T8zs^=*Kc~ZI4$XJh-Rdg}#&={BY
zKbMwRscSDBk%ay5G9WGR`PF3|jObv}j-Irs2hyi*^ar~4!pYR(%sTdpj=dXfw)cqG
zd*qQf<CsdDrsTy`Vy(%N?pRSgMvxVK0B?d7RaTAFpxc?(!!vOeUqW>VnwDS6T324-
zf(3Y4Q#|LSG|7TuR8bvL)}OC|HzMyUyNVHVFeW%Dy{Qdrh~pb9jwCFmg2jm?3LUt+
zojPh+M`G_PKrTAp=kO3%b`{^N3PBL(1sDEYCACnW(y7=4>H}R#tz!!!6;x_!u7Wy;
z(W5F9#W4@jgW!}mOvypUhhU)mQA~&wMmYn5hhXgAKpsS+fWiHtc$g~*okMdE|L-vQ
zYiy(!=E2m?r?B8dNK_-t-(mrgU;i1K*$W3o4B98YSt8g<%rS}&wyum42<9z~{XGbQ
z^c+Pxz#$Miu(?;SgT;Nl_d{!c&e^hdU3BhF+jc)i8rVS}xrXL!!;si8w0SnuaCD{W
z6Knly{HG*R@3D0#=X7VCdqwBojd;d+C~Z6RtCN>9p38sroy~J=(62{q=-GHN)6n<m
zJ1h3I=kil`Q`S8ox(EJs$Ityg^FN%*44%!nCs%Aw++Gw=>*Jfv8TS#OMVIeh;%;I+
zmT?WQSP5lzijK|=+vc^5<9OP1{5PLlsfL$m*>CT4ov6|AvoN=>o$nDzx6+UxVODms
zu!R#o#EMmJ1LrgqfrujjtuAF3_*#o?bScd(Fyh~$7lFWDuTE)SuPSlhU`Vs}flfWO
z01@h5w-?Eq#i*EqG5r!%BoR1IC~pSGk8!Hp#jlmI85MFlqC_JX9EE}<=JG6PkZ5>h
zgxSPGl*JEV7UDb?g0E}fGrC^CPSVaN=H;(2#-WQ;bqv06;n6Q9dx!M0E{5w|_G%I%
zNwgzbH)@4XZFo?;K)=JUT_O-Xq-tR@7N2-NEdE9yXAz;_fWZ)*$<uOg>F&~c?`C_(
zJ&FkAy*GDvZoPR^mvQX_6mmE3sDFx~Cavp}>Gm<eVe+(V!wMF{C(hnn{jOZI9}JaX
z-m9yE5CnS_2z#3cVpE<t2eG!^x2@M=mDXOhZJ`{^>E<Jus-tPs(XU(RP&^PUya1Vd
z@I_Z;F|adY@fI*-A}}h6-9kJR*!57NfOP#BZv212yb{+zHVIkJPU%`rzQqU@t>8OC
zI-cbg?Je)c;?fTRbTIR|4y>|S*8vg#CLUga1XkPXN?TiU&ia)zgrjtcj;@WSjALKg
zv`?0%W`YM`%oZdwDE!0|E5He(f;Ag-dJ>HT25<b1WJjPG%E3|+*S-#9xU7pG1L8aK
z%%#>saHyUHhoZ!&w8V7E06wDUHp`%-hd?$3(y|W5fW1vHy0WXHJSGeQh+d=m_Lhw)
zBWO<$G)BYhg_8XOC+Ob+NI4|c!2b&Jl0)8}!ivh)yBhf<q&N-YEO%3OHt30K#BY*`
z`M)BtUt{tKCImL(j#Q%<{|IdI`6vG^C@=j0L6%ee%TT=3{X7J%1ioJ@A>3-p#-y#?
zIWKePT+ZH@w!=|o-?~oL^F`*!Ljxobvjq*Z-hR>BpQ~=jRr_)+og2gNAAI*<w)?aQ
ze=Vo;Myh#Wi_$e$t(*g6d_yy!p2wT@bc>$utY<*<4CHL}tBdKjkw-Bwr#B34Q5yKL
z!Hzm%vl>WGrnp17!!5=CtuaWRr7l-SA(dCF)_0A({#9X!sf3eqFq)WwuvZ{na>6Bx
zi|U6Gg2kgLeQEG{mUSn<+qk-DOe*NRXoSx?;Mh2@xi{k|a4E@nL;e)D@`MkN36~f?
zDRn|5q*}psXjHh0rqSY*eNZdeqVTb8P<flmq5db<7_f%pcQ7eF4>e2u&olE<xPO52
zM&l5;qH5aKhch)@;COP>E2rksjH5ek>L%O=LX@ZcyUQYk!9~fzXN<wCi*nGL`Z1FW
zkL&U`!SFpL(4zdcxnw1u<baoNHo=yJ5#NIm@TfqSd};A7;ZZW2BOhe)?_-@C69y9u
zfsnsw8^zqe!Q|(dpbjYuW7I+UW0)X^=LJj%!}nnBSC}|4K|&;G!{g?_mmlzLJFaEr
zFgT3X<T2TVf8jKs9)`g|fSxa{Yxvwi)eq$w+Sem#Pyc6nZHpnTYXq_~)Z{ff{h^H^
z{7U1{rhI!i^r-F^2R_G=Ev?!FARVVC=+CK6y=8qVkGF@=9Bv=zzQ9}lB2DXet)G17
z^!?NCoWFm53qqzL_R|VsbFPkb*M8BpKRtdybX~~np$yCepdv=^M%OQIbiCj5Zjab8
zD!NAVMy!KaI>(#dJKi<@8uxbet?0&ybW5M;=@-rYTV`zF?bWyCTH4n4y)%A)Tx{vj
zYq8+S#9yX<k=nw1{#DwjKTkic?#}Bm1Fw5FNF!-cTdO}oKdpxjnEB=oq(zroe~iv~
zTJl=VJT<qjw~OZ8TY7xT59;+J8(?99TYC63#+8rcUDWtdI=6S=Gpk$Q{M6~WH-2|K
z56#g(Sl2+FjQ9i}+6-<^h%IAzGd@}<PxHOh-PAfOy7%O<FYJZ0A#cZAl`^k1Fh+Ct
zmIKQMbvPbaUg(t9<3n*aI??O}BMz3?H2R+P(;F{s4n5TWrR^8C^w5O3_oUc<3hYAq
zo)3mT5dP!XmzX6qMo`OtOmc)1@bd>@)FOr6(A6-(O%i)A8NlcVU-HXecA_Nb@h~Xc
z2~Fhd<KB3jC&XhTmO+poK%;^j>S>0y(qL(MFOh6QFZtPkAo$dhatXXc{wV=cMr@hH
zA}L1_^(roWq*<v0V~gZoh3}Pni8~$!50kh~!o=k7`F!8dR{rvjd<H0g^4Iwdjmfu@
z%CA3=kF+F*+`90&C6BQ{lB=w=SJsQ<z+OA46d?S9!(%Ek1j$3n7Lt*u&?|=q1O@Ul
z5In}jkWXkOT^N2Qf$$?Z=A!mB4e?z9Pgo0Dz4=Cjq$g|2qgdg+m>{E-EX9@P(JcX1
zVENY=2v?H~0{IOF!sjGC83vE?K#qLag}Dw)@US8CHw-%Azrf@KCLv71m@Ggd)vCYH
zpdO49Ji)TEuQnvpI3NP>>cc$zP7Lvo3r@&@Nsp$#G*EPJn%es@)h|;0zou*-QS~2F
zqhD&YwB`#7Meq8E8vmGj=_BgYM^xWO)YwPZ^zh$NzK^L%k(&HcqoXySQIKHc{*NgC
zM^s0#aJ$M$pQ6`$wkf=C_nPVB^m=rg!h61v(lhC{W1{XD=pVFu%?ug{t=YCPbo2Vf
zcV52#@-_w8?NcyHbGrQ?d_qE-w@o&>HO-7}Q*hsI>7*?=9h3GQ5OoK)weW-nKTTJf
zuFKM$BHfwOwdKrhxtd-$xo80Nx3qN6M%(-Tcm3&oFMQCrMPb2~73w}Cb%av?FQHA?
AiU0rr

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mistral3.cpython-312.pyc b/model_executor/models/__pycache__/mistral3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a7126aff01a821a47b1346f32171424604e90341
GIT binary patch
literal 27521
zcmbV#3v^rOec!!!zetb-Um!seBqfrNNKh2@q#o9TlB^ePOR`hLabSq|N`eG{^aW^%
z44J5@GgE0&)7?_jC+SS5ZbQ#r$F^s!vTm!>?QGu39=IkmAos|Ndg`6CY~2oQ(skT+
z?SB97J^;dyo$fotcfa@h`@g>b_wh$nRW1%DVfoegu_rk0&&i`3x8_)1GIQL^oWKcu
zf=ludo+q~{VM>}K=A<QJNm?UT7G_S^lJ<x_>4-Rz&WJPVinx;Qh?~V(5}t?$`7DX5
zWObyPg;^8cWKE<dSsSTM)<x=)zKD;7+Y<H3hDZZ*+Y^n+rbrWWI}*)Ff5gw+&O}SH
zHPXu5u0$Z&7HMN{ccMMn5$Q+<BSGf(Bs!B_kuK)0N^~c;M7A(@bz*C>C(^^*-b8P*
zFVe@{HHlDiTVz{udt`gEKhn>_Y7+y=a3q`@j0`4sM0T*Sy2Ma&XJlt`I5M2v71@>C
z9oe1S6WNp88`;a^eTjX^{gM65U7r|99*7)Z?uNv{<e|u+<l)F+_#1_$#6!s=kt4~Y
zk)z3Dkz>i@k>f19IWd|%5jl}O89B-P{=})|!;y!Rrz5A6XCh~kXCr4>cuV43@_ghx
z&zZPWoY49_Cj`VpZ(_#CM8;TX8$#Q~>g)el4K1~el#jBM9Y`7coRp8Tl$}V~CAy6K
z7g%UFLbsHJUSy$L5!xdT8)+|@IMFTiikIH%d())0Ch|B-8A8f!;(qaQKZ1?)Pq4V{
zi0c<G8KGZbp#umFi#x?HY|8OV!l1ZI*dboJViAU(w?v*4EW*z3^1`tAxUfqvU)U}7
z36>c<$06m;D-L1L^R`Gt*ehOu|0(3$hn!y&_KQymBluC6O*nwCr%~EL;m~(YEbU>j
zODp9e@k^TPh!{oslUH2AQIz=%`rC8;PfN#Lb&C=4N%4udj_G}3JvxpajaHrm@u+xA
zJpQIl&HbiUVC3?&C3NCv<O}gib?kCFBgMuuNilP6LI{}^$LWkH#V#jA#eP0EIT=q~
zRU8+^XQ#x}xEQi3&ZDW+L?)II1;u(Yo{A+D`?)yfNGOg+rHRbM_ymG3O;3tX#H6v1
zMe!VqWyY_a6l0kwNmQ!O$Em)=@bQV%mH1V~_h|eU`JafV;}a<@u;x)oL|{B63Tg-%
zTB9XI9php;Js}~?^+Y0(ET%XXON*mZ$>j7SlNl72rW9AjOccF~UP-}czi|HI*o2e}
znUwnD6N#y0>d_eLPKb$fs4FHZwHGFCZVp1Oy2qwssZ4w(Mui%+RiB?qWa8&11Tk?|
zoTj>b=N~_J>Gb(WMvtD0UN~{;^u<dTo<wkfnx!X>C5-kTkBwgwG2V5>xY1Z9HX0w#
zC=JE1lW{SjjY4Vg*_$!xY8q3OOrs3n>16DxXcWzY6(<Y47@rZ*G_A3*1l6Htvnfpv
zXqr+-5n6Fr0H;$|CX~k0smZBKF%Tn>5pQLbS_CC0GZ)0kL~LA4im8m^QG*_z6tGS(
z#Vmp98x=FLc!Gwj(U>k)aQfI(JRyiQt-jMJSxSmR9N904DNJ@6Q|3{f7cp$fnBvxa
z*J6|6&v;tQ7Nx$}%@fJXq9CB{X~lDKYI1Ty%B0UtTsW%K>AqrG#ifTm`Y0_8ZKXYY
z@<eJJ^DD9L7em#h%4QyQ)*hY8OngC%U%f^Z#E@L6(!8{N;BASg;+g1kSgKJ;yo%*7
zN}>==(#lah$=LK|F*+%USK_zO^(I=c&#}D_#fGEWqj8M>xVCxOhaq9O*5_fp%!yot
z7r2P&aiH9YSujN`qE#>vfD>(k`5=AmqT_lU9A!pyRSu`T1n3yxwFp+hCfMnB&GeSz
zO{-eS6}<*0)iCV}xs_&pZ>y^@eoIWKQ#-Tl3c`%Wu{vm*r$?Bd!UlquQzJnJB7$iw
z)!?>ZY6^2F1t+cq<Fu;NC27Y;f@4PP__bInB_`6rzTr?wnrkD$huL&c2_iO`T1-ib
zn<K$5#D&bY3JH|@NoscVxmaRKOh@4%;G|eGfM<&7a_VP<Di!{k!r#Pfd4%ayEEyk<
z3h^Y?S!vd>kVkPuqlgxxQN<Od`JPIU+Y^mGI~7Z4G4^Owm>7>nr4bY?IjMASG>VQ9
zjHRJM6lQ``teFXE{F-7@m%U<15FFixm^Zj}*xX;88O$Un2Pfl`0~vq@F*9&$YVZDi
zH};ByiTLHg$!UQ1)F7?GLALaw;w^C;OIK38>A|E1n8TCP(moW(tV3|5e+kytxerV>
ztD{iE4IJlhkIwgI>-uC@Xw`D8;NX0Lyrb$x&mGS~X7R+U=UzD{H-%(J=qC=}!sue>
z;>D%zm5X<~SI(?C9x9l5=TZIxv)O0c;LKK=bVjdg(-PNk7Po#I(Jz!Na&?J|7Qu|4
zMYLS8&2v|H!TP)>f@Lb&u2&;NnGx&{2zOKt2i|r9Z#(9>TYSWMkqfy1K(*0%l#tnZ
z5d$pE9As<i91sT(RWOM_z#Cdr=}F98ED@z3F{&=>ZNZ&E1Os@f3tFkuw)wTVAc!fJ
zN~!yFPQ}G?vG{RINzZ5>(rR4)9a!JyU*<AK<Q>Z__btThD4*wM`B^Ti5l<X9Yl4sR
zGBaz2&nP*g6Y|`3kDj9VrE;$8lT!=^<e6~*W}wblUNF67)=3nUOskifX@KalpHU-D
zV((Zk$7AV`L$Ri(2uNbDFfbXF#*jdIgsewlDW+6Pv1#bJN*m*7A~p?7VO1<?F>$3l
zhcg--PsGyLIcXXrf-<+IvsB>Yux0`krZTM8PASrl!TR}aZo|eotMAxlNAsGa<$l+$
zdCQukBd>p3w#-|;>Alz1@#>SWJel{jFV*Kd_sO06?sm$Z2V~Cy1m$ZRH|&;n*SzJ&
zjuy7im1+jkqE}RED6P0vKP{28VguDPC8frVnL#^ftl2Cp7`T@)bEDjg=5f<iZrt>A
z568`!XUzgn@EY?1yWGqm7g8`-{ooW=OfQ+f*=OPAOel|Pu)Js;H?ul`Yrcpw<}7p8
zS<9@IW*BKbNNZzZ{B@epG9#F&MRWG6+?*prbHL0jf8AIMdKg+~dy}v?jQ$<vp8la$
zt8>nUwd$nOj8?d=6O=47)V5i>zUr<UYq*#UL^xKak)o;?qq_uNZ^4{9V}OzCHF|vU
zTM3t5Zz#s=u30z6yixZRzm-GZvg)my^UQiG_R?NCC)fyW_X%d5MY>LdR%Uc~fbt#J
zTgxKho%QG=z;oaHHx@4A)ze%L=&s^-)*<k3+4TD62r_gOV|CYTaa8$P{vy^bkKdg6
zrs^`!S?4S_xsZKKqJ<=FhxN0+gOM)41!~NFLj-tDsPNGSoEH~FfDbcJZm32D5!N&j
zfr?WE<p4$mB&Rh!nTTf;%X4w@reX(tNlqcuIh9I-j}d1?=_J(!5eBEYu1uxI3DW}2
z+onKjB?Jb26h5Qah=5B8ig`Sikq8Ths-!0==Tl^Tk!3G#V2O~WbeKYGG7~pI>O@g<
zlqFDjLGfzs5TY4I)9RZ)o)W}cibpL-&8WCk-&OQhv5=jn1xujJFbt$A_A3(-SOH<C
zwGvp<BFB+8eG}X4Hur&x>)5t#H8;8btUa{gDww(I=0*O_(~H8Z6R%9jRRha2cRSyh
zd)xBwy+8EIgO9xHc{JZ1Dp)yZeSt$R<R2VaYaMyx#%sb-Y`J#v=o0^(6U#TUj%K-a
zB=2d-d4jShxKt;5w#@VQTLSamd!e01c(!wB)wA<2&8BTG*|T;2>|y}qLw(2Mmu27f
zJEQYQ=bz2{x90rYWdFA1q2<_0?W%t`=RY9(58OR^_u02QSN)?o|CsC_d*|6z|6}uK
z?)jQu-uKeJoUcdr_2hg5vTq<?(~=JabAe$wFr05{%{7JPrf|W|)rZ$POMUhHXu-wR
zH^039rTvSKZ3fzH2ku^2^&QFij>*1btG?0s(Y&WM=joC?T}!)u?CC4`(d>-?*V6H-
z{}unzLwET#|HyoG-rtt<Z<qbsm&aE92jKU%WgTswd^n8Z`efb31rDSEMY*qUKhb6R
zBkze`TgW9HMSygStm9;j!cxrfRED7_b#<Pii03GxN<(PlVj>ZZzQIcogr*5<9#Qey
zc}hwaVazlk(4RjKdd&oS&Ec`S@?BdCX8ImDtbWfu@)7w9fq=C=-`@Rd;*~_fOz!=M
z|0M8(0CV4WR=*gy6ZqJQaFs}-3TP!6rdD&Ue;1BYBF)J;Il(KKL^H@VGsrZvV8zb{
zlFbg@1Y{TJ1>gd~2?DN$5pb^Ot0H#6U6~&dJP!!3svHgit{McKixF^c5O6h$u|0}x
zAK23C;y5VaF-AdP(}JCimXKp5R7m}#o>)%+p@QO15?c*&8nj+90TDKe2Q+>v6CGEj
z95$7~8!yFNfY>T#{|h+E=r?CM{Z@)a0d-9})GejsGDhj3(#*4#O;nhHg);<5m_aJj
ztZmjl>-Y`?t-omk{?SsEQf(Q1mbqE0jvWwh)Ri&t9!e{gXDchuz{sEi?PFIzxc2As
z|NQ6gA0|jHPC|rHM#RlH!wDvmi4Gy|BHAl`m8{#aig7zb9_bPV6WJ!!!%{3M$amOY
z06#|Lwn~Ic5;aqC=!Hr?@|rP;65(efVkh<{gYb+Bokdh}5lD07{R&w|Thy&c+uMN4
zrL^W29Vk~=bq3A(E6APx2CSch=4>pXIp42u%?83Nqigm1L2Eki1qSmSL-g0w3A(Zk
zbmf}Ezv1Eh14L|k0{Pl)fS&orz``#rKAH9PZn$lJB>HC6Mm1O8o^9W`>KlgFaj!W<
zsUMi(TUF|YH?W-aG+MWbEG2fqjNkgdh6S>eyH4P!%xpsa+;vJ{W@riOOPLW6#xgA?
zESADZK=T}!n~H>_Szn$YV!4XslaazG$$XJ}gC7f7C7J~3d9uDv);}QY1z3nG!}wJ?
zgdibkTH%XaMo@*u1hZ$lKWpYSwETS}On(X1ZLVPBTG|;_IlSuMso@lc1rOgnu<AdB
zkk*b@5500|xqY>DA6Sz4s)c9s&4E`PuQ-<4R+|UstMmkItF3$W1l~Z_5nz)UGL0!5
zwo4h}xry2pGpH)?V-phzsR{l{I7qrh5!0|r@y?eikgTs!#J6Ap?-c5|;l26B<_~;b
zR@ePNN5P6O`q$cCu#?NdwFL`Ka=EyM=7O7C9<HOSP(`k4ZcAUmORgHODYU#xZX7Js
zlDCelt^bIMEIiCRtZfF`BDapV;5N_}-0CW(_Ko9b7+Skz)(MT4iqAyI6#NJSisBE_
z*DTsJze)4kHNPrWL%axNMqz}`v^Wc;owkN-iuYV1_FU{-{D!ECjg=~m=hx6eZ3)c>
z_Ls=Ob}fa*Ax6RA0!KwjW}XqRPAm0g@r)B53pvXtmavON<hyi&EShJDCP;ditkYzj
zA?qwz3%d3DaHMy``Z|~QHD~=H*|%-gvMt{fSiJbs%&Mg`za_NX{o0vTOE}-sv1DEn
zmWN-9zvh)&cC1-;s3lTio5ow;_v`J5`K<AtHjy~o7&G8!Rno5$%8WK13)w36m35Bw
zwXAc$fm$W9et=(^WE$vPZR0}vrIs~ItJ-FY-qdDdyUDDRP^H*rffvnJOo9o-1td_<
za}g^@8H;E~xC19Z*5@rcixqJq%q6--k6@#<p^8h9*N(hZAb~s}emqFy0kPsjST)>U
z#Jl0HnYKZE$fWaZG_;Y>B=IUVE`_%=!t`4|!deUHhi|#51b;L7UND&Ni=1=^IWZCD
z@ysoyisaGPu4r_OM6?6w&nNL=a6p52--Ul>E6MXKG&j7d2*MX>f-<+cyw~^Qtvk1J
z-mS8C>+7ji@9wN)H=B>~(#}y6S?6}a0V$Uehi+1Mnb9XeM+SO_Owt~tl&GoFZ^9~V
zKgG-pepdUnT~{iS{~;C92<tX?&)c(<$@T7+d-t#Q9$57r%sLLTjwrSp?3`v(ho}QY
z4y}`np;T=5HC`QioPdl?WKJh16YMxe6i!Ieg!G0<#YC?nSDJX`pgQ_WjW)obK-K*+
z)Aw0j!E72S|1Fh8pyD?7esyQo(aBmpwyC*P6&rt|a&WMZvxYeMctR*v2ESBjQZ}aQ
zNd{zlbn-&S9m!}So{VSGpFPeMGQ2}=q-~28Q`59qKmXONL*+<xxNwt%`8orAjmiFv
z9#HEo_^}=k?0XQgqOTj0s8w25M5?^S>%<D{KW2nbxU>u_q^>Weo+blw2$k)Rs_cBo
zqE4NWTJcp_P-$u>k&!A;rUuRQf7VQvSMwv}NDsjRJpqi`oogSF+ecR0u^e0T-maW?
zuk78MZ|(+>2!_69-#TZmae=FMx;|sqJ%jQ-cg!H!sWfK#nBL+^vRJ~ym}bpoV+l!*
zRh>thI)fnlX<I7QG@vS;Bq^yxA|`!2--28EU9$cetj*)6bZ*WVy&2Dd8JI}pELfAi
z&g}oJ(Jj_lA#0B6Q-?a=-nD6<{r#%IV%2{r>o_!TU9jErHZM*sKe6WBm38c5LmjFu
z$6*WwGvLI)6fIZ9HgTC4REE5y-=c03d90#whR}b9yfnycRHWY{R~hzug~G`CSNNsB
z0t*zHiMQ@q{OUS~&xbbNdI;2+t)4==mKzHQ?aJ;t`5}GR&3Z%u={lC1R(vbtcSnEk
z`bvi!I!Xm}6l^ZgWHzqRU$B$Q!8NrMoaAzGuBvr6xth(^-7EX)yhnxatU-z?dK&DX
z_4342N*G7O4CB;X>tBRpGx8O2wyC00NEa+Xxn`hC8>9^mNEkr25ea9curZ%qORuVK
zn1HAqK*H9D6KW7nrA4RHnc~2vlW4^Wpf!%xWzs6jC0L>x1E$O(1p9-p!~ijgvzBWP
zXD*dw<=1IW%Z$En7%b9Bk&-lEfh@BolEniKna8BxMjR8L;yl`nWv^K1%vfDAFC$K8
zV*Utj#btnvwBj@{fkf$y^AZiSu)QacMg>Hcw=y%K2M-p*^2MZoMy1h_CV+NB`^!(i
z^z_o+<)f<&;d$462;WY>bUIfbmg~c-^*iRB`Noc1<94}m`@H+Uw`DORdwa8vUKJH7
z_O$qHG$E!G7iMEZRqWVw4hG^%h3<FZz)YAvcP5B|ES*c_BlB4^!5BvCoNd-D)dD{l
zG>Dp$?BeM`3K((@Bq3^{wv`#2Q`j(jc1UMv4Z$#MYS}c4MW81AF;XbbiRVO#B;RR(
zKB8l#e?b;)c%?Q<fKDBH2D5OgrlK37wIrHz=}*XFC3)1tVSqHknN^xk1-Xh>g?UD0
zj5HvOM22A{rM6fZ<^%d2v6=o~XjN#be}<N%i9BUEs<C79(&*Xt{rGF~T+d^2&tt1S
z7iCBHyk{Z#XS*L--1chtmGE-YTFcPem*%~IH&yiumvRl;<%aF~#;$zRmVE2hd`qa{
z<Qn_eIcsBe!E7hwX4jCLN?CnM@LC2?2}nw$C?U0y_3y|k1E_yUVPxIMFMSOb0aTl{
zZ`r<LUb(p9ko)!*IQZ|5uhXZ{%pJmkx6=n^xVFAv#TTuwZ(ST-GB56veOn543UY7_
zfyLtxk7olza{bPgOLG1G0%amF8rX2d#Wn=1dK0wNSMqu@+Oip1>a5DN8GxZtpQbWy
zg6K(uT!NdUF>&L!J__q)D1l%h!&Po7ZJ{DRafOcqD8A1B8c0QrqmaIXB2=JML$2?^
zDkWrD)J$*XX6jso0kAmi!88#A#7OkbXH-_APxkh$h4#zd(YsH;$~s0>Faij8l<GW2
z)^W0k)m0l)Ho-)1N@V>Veral{iZM^{%Z(ercqe#uA}GnGi6Huz%sO?fR2)udiO?0$
zk&e6wO%;96V<_=~r@R8uHMAOR&}y)g_5%3D%_+#|(0EE!Tfr%~L|0ilH}od0qDQRq
zqeVb_9^x~ZP}~c|QS|_!xW;rtW=(osie1~e3>~WMjN$@a8&%yZYNR!z8yW{Qe(M%Y
zQJG*H2co2yz(mg^qULoVh~s5zB>;>gTMgI(_}YH?v01BrxSTP7Yw-xVB+RboyU|C>
z><srczC=I{vA0gj<G9=LqVq-9xP={fH)==C4hHh+0NNoygZb+wftz(Q+x2zR6?VXl
zgYaexH*T48%{k{BXc?0d&04iXPAwdVn-=InO8*f<BK;?_{xezsg{&iF5tW1WNrG&p
zE;<f<MB=!Oh0fr;VkQ)5o{3LFhW8}ps!*I#t7QVeH8GWewqCkegThZ14=7c!H8E8T
zw5!%_mG6)dIuq7+;U>Ygx-!C_ZX*=BxisylpF@OQ&9!yCa!L;D$@~2I`c`0f2&@5^
z+x7x5x4E(oKcsxkp<GkH+|<APrPZc`^ParBDeLYAU~KJQJ}<Y7%%8pIYh0LJ^=)~}
zynJ@GZ{NGVeOb@GtZyH*G6r|9^uO(13!nSQY#OTmN%-7r{-xU2PA)yR%rEf2-nnpL
zA+~T~u@0I?bqk??=*fo9ty99Rr)@DMdj<e&YryLUKiP01G)?r?4;x#L9&jj5jC-84
z9Mei;=@bz6sxk7kuysQ@*+RbtN2z2YW2CyS;dng@eT$UBFPg4+-czLaz;GTxVLIC@
zlD;FUf?5P9kV*lHvR`KUMo{Wim&|`fpp=7^ruJddRg~Vq2nclX3aOf=HCfNh&}S|I
zA_K~^1ZfovplB=t7gtk%&mYeD_sIS|D>qmD4{i2sSU2&WiUWl~jTmZlRam+u1713S
z#(@7WYI=cx!TEyg1@{Y{zaNegtiVhr!c6QW0nIHpmEe#;l3O2u4Gm~iEX~LR$W`e)
z!icxy5YBR4#~;N4m_+#-E<i@ws%7RI9+r!QNM(kg{WsjD2X~beRx)&6#*7XLH7MDn
zhZhh0z5!`whUg1su9)VX^R9XKyl0-j0;u=A2Wmb<Ffk*T?|82AvyQhcx;o2M5*OLV
z6bDUkG%noQL~hUo(`nrLU&8vf^=0mkt1^9^(J38HZ!nIG_)3#CYlt)FOm}P*sc_SE
z2W#yn3%o;xNht0<{n+S^6CE@Y|8>WHm7hTwvljBrS?>@UV21<6bJj{KiL=%_PQ4cx
z9G&|ACn!pa!h&L)leQS!5)ui{r4?9;j{?<mP0|WsS}`TeLJy_!YG(#a_JrXMxuyFQ
zZd17fDMcPDl#3H-e58q+&^%M+REnomz^N;%U6#by4U}Vmnv_63O_fcrMS2g#ripIU
zu*q#06~K6@(Na-AeCFZL1uZJ=5uIWh<mvFi#02nS`Y@vcOG-LO5a$l+1m4LvwB;Il
z<%Zs6``XaxYQu^7lX-tf&L5Wj;pJPa{(bXj?zi^lS`Wyr2l9cQT%cbL^yk}pb8TU{
zEewHJ;2;EIf$BTw=1(l_2HD-*lWpu-Zjc+pE8*<WQMvKx+mFi)XQ<e%^CuT}-Z}F=
z>74A5eS21(yZe<@-&oc&rqYJLjV1vWJD6%fJTr{}W;(fwyQJ}qvj|nItlV!Q2NO=K
zB6l{bB<@m|!E@;TWkowKQs;xEkbWK6bhZteN~*jO+C%AhDxHbp#)k9~6-+=v+CkP$
zvbMm|Rheko7*de_8@c`^EQSZQBPwUHC05o7>3>r)V&kO$N!I@&>n~ub8cNTovmZPH
zqt3pMp_k1QIy3n9Tmjo?qKPv38^$*_3@(fog$Q!}!`Y!zupvs&g$vu|`t7Ur0~JGR
z{JENLxu$!yX6wB5zQ28OI@d8G<Bw_Y_`7ocU9x`{j$Co<^<=JXkBq;jz4M;;z5c~e
zu4PDW8Cn}Yx#m5Ub)3q2Pu*+UzI=MMY0tc;VDUH~;a?yBn4|9p%-(3{s@n7ZU>?h<
zsW%_kj-&f3aHlrnPHh@@3Qe}7G>%2~<XhwgNYNM-g8vfrpJ8_C9=U>KwUI@5QQAt@
zCuH3sYZ_MRS?!M~kSwCg(?5iR&T375Yv=tMU%`qmsINNzqHpoaVyj%cwP2?pC}$C;
zYFj)Y`+5sb3c{%^IMt=b#j|pKU%^d59?sSHQ5CuNIKbxmaOR6I%IoY~HZMQ1?3RPO
z3U&%|aIV?~U$$|3wsyPh>|b|MV0{lV)j=kWZ+RvPa&XN91t+<{3)e05%g&CE-SDb=
zjdhH%mQSNopF%B+KqC<SAR%@MTEWPWnd3`D)qEv&=Zt|obRe$bPPbYD5Q2e%bpF?-
zo;_6|h4c|w#hv*MyrAb;CkP9ca>Yu0^fKLyi6%7-bao#^`fDV+NHe(y4yHd)Tc4}x
zlxsR)53kk?-9CNK-LMePH4ey)18alF*4)Rlmg8CX@q6yhrS4UCPu9}IhVKnXV8`hu
z5(7iH(ZHmADiJLGUz9zrV_g~?T99l&X`z-<yt7=%FlsrpA)!3X%rdqQEFYBs1H5M%
zll}%S5U6ZKXdKuYMF10U{VfGhD>hTC{_-IyGD{qq`4o-IcH{yb>ft<%3&L7p=bC#s
zYZ=bEhwr(2@(xelQJ=5&VJ~`Y1<s=1L!iOmw1NzZlXlGuCbou<rra>y6@8#eA}f*q
z-!PSMsr;u`lH@6>;Lq}R4E>mk+@^d6MOai-zG9@6>WkFhya|#7{&~kNKWbbE(0OB&
zNu(Duf~iE6%TU^dYMA*q4ZWGK@gd91_i%>`8nsZ*3TCc}CD(OS#h4&dNk|7X6G77G
z$2|zT)-yG!22d6k;Rqan;TB9#BRIk?7I+kQ+KP9Bz=Ek*Xe4-^Zc7DKUyx36C_j{T
zgW6e+T4`T86lUdYnnPNE!}zV!R{1u67E6TY@#z}2(`i{VQ##ha!N1Hy1-j0{O>_U$
zeA76Wtzo!~bx_sU0FpO_cR+PhxTVyRU|mxVQpZ4BwHg`ZJa|=1iMJ-D!!sdP&Zp8B
z=^P^|Y3-(ow*LA5AR;GQ_rwps^0s-+*S&N+8yd;^4*c*dpRj|kUupF7Gp*XOqS``z
zZ0PdRNN}b$7*7XruPA67vVt=FM<`l_L^jl<ZbL>Rn92JvVsZ0m3MbKuIT^d9IO$?1
zJC0@-matE0%P7^lx{BIwiOSMCuTcSwm3u6CkTOoG316Xu5DnlopkY{U7`{E0Z|=-B
z56aDhx#pvC^U<uO;eC7ULiqLWHG9uJZ^u$~cE{0G@3E}o*!xc3!r1GV-rBu%e$Bb_
zp0{q51`5`y_ld0IiF+<z-nI30VfpZC&q#Lbf$V{ES;u)u1>D&ECT;gCzD>PQCzy4`
zfPrWu<e?f248lPRN#JiFOu`16<p|LTCbBOghPd?@E}C<v;?IexU<^0huF_SZN^7@2
z2rBurHWXXfDNz(q0QOcw#E}55#|7h=ikqiGUq*tbNymt8D8+&juJp!n5mDVa*s84V
z@?EJ>bF|4fFYS@wCG7nSZmA_62mv;g$(pYhXY6_kC@TJ|6tPLF!jP$Jhz46f5N9ir
ztT|dQ-H5?*spA~2i;ul)Z_j&!+3r2EchB8g**lVTjO5+zS&OE+{7oc&!=%(|osLe@
zF)-5<y^R=EowJ52C9g5tR5`Krgs(J3pvuhuoTVtqDI)$kYY7=)$q*`Gri^58>ftyQ
z;&D2po{ei*li^4R55I~;O3SBaA*vtMNJi@+No0ftZ7g*=Gva>;1weC(c57L8i@TqR
z!qh2JN%vOu=Bj!fH8XJ&w;6D(7)_8?o8&_Uze+Pf@^iLv8`^XAM0ejl4<Vg@aCv&Q
zc|Yx0P$J2-t^3y8@a@mK_rLG%$U7SH4W0S!UHO*nd2a(WRS6H<w4DfA$Uy(&DBUo+
zuw#7>=4P{qJ%am6g6Vs_0DbeTCc*k$+=IpaRrT(wLx6bvyOy`yZ=%6uA~q;(L91M-
z5}iUdzFwxJWfN*jRJdG1tx$(&0DKUm*CS1};MJ}hHauUA=P4S+D&$2d%WDyuAYS(h
z%?PO$Yp!>xHI>?8UFC4WuZr@ua#~Q1kCo9^np<^W-}dP+ob$9IPovhNCY*~0;BRJn
z_`O2g18Qx5KzN7fSNnv=9V+%ii&gtyF@@-7eenpLIB9Re(+?F>J!qVa5$#4VT7@lQ
z03+w9T!uPwB=SOOZK8u*=>JyaY)423#-<1EAUpQx#D3~if;#hgazZ*jkrF_p(Dk2F
zz|PRJg!>ZEy6st}(hm(T?fabibzX%crs}j$O)>{`R~*mY(BeHTUW=J&NW@ZCrvRqa
z``%%8^)~!hx*jOoQ{lgAWcLUtN$Ev`@Jv%#ZrmWhCdPy?h_D8=q_PAvJ~db)1JvSY
z0&3s`DsdR4;;DlPDSj0~glI~<iLTM5bm{+KKovgD&Uwbh2^Q*x+zd7zgaerH0Xh)+
zo|E`#t_UZK2Rk4tH64bT;3KKTw0d7V$VLOQ6QWv*6pKl5L9l_#{6qxe0SLOM&FB$K
znRz^sX3dp?1ed63gkH|#s|n8Ng@S9i;RQejjoO)ApSKX0yotSQP|WqmRJMBXc;D^I
zx!YxT`{K<tcW>U;^nNvzW)G}Z8w!9DVV)4r@QUJQZvd!7tcqzgXvAm=Vhq`6-iBRv
zY-TIJ4}!6_Abpvs#HvDvgs&v)gz&p^85Ja;IGm$9!UhHdmg1sCzRp}p!ddCw<n8Uy
zozP);N!u%lr$JQ#`bl+yiDa#naz!0_5r{X0*?JgoQV`*dMZfO4ZV0mV5Wo&ItIaMz
z`!8yY00i$udY2i&Vyx)zWJvzP4Bfa9tQlGus^26ScO&1j>&KiJH?SS5$#m<k2efmG
z9$)-c9*OIfQ&t!g<nJk#rn??ce+BG=lojyLtYuTb9Xf^cmh(+*j?iyoCQ{WnN-Y@&
z<}+e5gGQ?!Fz=h{av62Gb-4n{Hf9*~8i_s2%=MjR0q`Ohp$=wnN69mWgKt&hf)`p;
z2ce7DR63S8cOI8A#l#d-ygI3PO2Mt<#imvoDgs+5=8T~NX_l-xvK}GpQL?^57Lj=j
zGAPxXAv+i?JU+##^xJKu3bhn(KH(J+Vvltt?Z4DZQfgT%7$DUm6`Klv6gRu<rg^Gj
zcv=ES4de7gPa2w5tT<vD)m9Qgskk)OmM*?AEmx+`%dWVp!d*rYN_2Zb+D>i#GUamX
zw`E9}UDjJXm&HlDDE$D9Sw}K<LyU^hIhY3TReS+PyDpm!+0|oAHW0Td+YTy#joBc%
zA_z+p!LHJ<D%-7I`ZqM!9)$9Z+gN{!lF~210yBEgQDxl!uMOmCLvn2>S34}%4$s^2
zO<lRBLAhxVhu4ALTws?R*p&;MlmjPmz<s|lfQwe{eCJNOqty<%WtA`IX_r0iIZwar
z>Cbw0<!c&qHC=K|SFUD2t{GVIzgshMf5&Kc5a$+Z(lt;2eNSD^(<^&=vz|egVT)X|
zC08>j*9@-gdADZ&{cStuPp)}-AvN{1<=jKEduXM1%{_82cmT=sHGzCr@4cq(rIWat
z+H_#UY3;=Q*ELTY#A4e{@cHggu6wWCy*Jl=T<$)e@9fQW4$Gaxxz2~=&WG|_x97GV
zk+&XU$qvfh2lK6+xz<6sbuiaDLYIBF?Z|CABX2vCZws+Xvi-+bn?^Tko!d~$k3Btw
zMy_)!t1llKpl{Fn?fXdoxG|7x?2{Y&?)f^FY}vkjtG@k^#C5O>ZLN?1RMqA@9kQn*
z=Xpr>;K>lqS@mN_zbfv174y4EyhC`9#IEZpSP!N`gyN~8=>e1qR6KNO0<3Ae4P0=0
zGtGif9BUF^2m@NuIwl=~OZo{}`(c4|86o!(=2py;6O-&66<uSQT3^gkrm@_ClRYUd
z;`JAS9-xWS>q(mGGZV<p9Qj;&<#S5-gckP+w1G*Co7-QWd1+=Tys~ALjyLj6ZJYe}
zNhhOY>0EZpJ|b<rz4_W+9DS9a+-px*uoi|5-Whci->zuJh|$cbFI5O8hHI_xGc_7W
zN_c@?yn-r@NqgHO2sR)0Nv~5mWk#?PpngCcyNt!&v*^Mb6=tS&OH@^v(QDK(IXL(t
zJyXJ~SE8Ks`IqW|T?~PLu>$b%#w!fyn+3hHYQ2I`nkhOJ6B{mpT`fb2hG5r-;wn);
zf`h&JfRTk7(g1spgH#hLw5KRGu0)f~8q`d&)pPcuSh%QMB{*-4V)Ztclvjzuup@`I
zL*}5^fDy1?;Z>LR_Jc`#`@uA4g>sZ@Ox-fHhoHRzjZ(Hje)hNY2t*Wts(k1IxiEel
zgqGvXO(35g8=NHXDY6(wVOW8onk0q2OO^;rSBu5VigejNd6j8iv9}zQDpm7U6PhVi
zy7Y`a%)+*J1zp&B;{He{YSSj&{R?c;PiM1Z$kK$xurnQ;r)l9iuoX+;cilVkzV^lE
z@VY@30M*9rJ;uKses|AfkX<&pezNDW<@Ef;7oWWI<bs4Z9FD(w`jyj5mtQ&mu4h|z
z&tn8Q@oEDSqR5tZ?OBBbD_@bfpJaDRNivgqUHpFHwFHhwu*uaI6qZwWZ>;*xWIbm-
zaBy8a@LGi5^=F-f3soqv3J*LGXkOy!RRrPtH(tAu>lu}MM&FLfJ*QSZr}CYH^jZY&
z5g->3UvnVWG$c0--SgDGc>2!ih19BN>(ZCe{ASm@2XZ2hcYbcw-L}NP>+ZbQ8hrJ@
zD+iWlSDs#NJwAU9{jI?b)>hQp7Fv90{#@SM3hyT$ZbzR!`LGT(FpYz6ZyhyR{*>D>
zYPW1c4H!<9rD}nLM75Q`iGDuEGb*I~ZkSR>$_tx`v6<n|o#Ibt+Da2lybtNC`f}bb
z+1r(MbTOp1snG<7Xcw<vVvT-~`mJCn*b<z)jTeDP;#}z#4z5_!K)}#_0wz(^1+629
zkdDFHgrC?3snv*DrdY-v(ksJOH7q7tBr%H`V-F;<%Cq#*pb*}~pfrvw2)V`)nf^$7
zw{djdop(28-R*f_!~E&{^rpvdIk0=>#%cf}fB$_5d>uhHeu|S}A84h}m4=Bl6X>Ls
z`btzJwmQ@B1EEP8bK?fsM=OZIWkY`s4y+gRFPnr1Yl&4vD<r;!UaLuG_(*FNLvD`!
z0Sdn`g##<~y_Vo4UZ^6EA&k<b_(Z!tf}^z?;xr`k^q?4o{kS0`N~F*skTir&-JUUe
z{7f*GfQF7R9gK~uw^dlN`Z*hwXAB96{wa56V&Jkk038vLF6U_im*Py9GzIdpaXd>U
zCZ_x8_$`e)2vRT>B<>-olKsW=x@Wo`zj)%pNbn#7riZ_n`ogtXrdMq*^5WH-jNSm2
z;-N35j$XWocQTKTT^i|nrli(O^n4C+3_(qgwWN}#hWdlUL%a6%2Zwg-fP3fu{px4m
zUW(bdW5*5(WWJ%{{^0ICLr9BML%Y@R{rxT)6f!&aQq<o4NH#n~*~mY%f6rc)VK0KI
zgq=J05970c$1a2q4e#EwhehugdU|u4ai)R+eNLqJ-^Ot;lM0@FBFGNc`-3;d;I$Z{
z*r_NDd$2^Tgiv}e$Y|DO5etKzu3}Q*U~^3qh1@iKj6drSrd1z{rO8m$bKw%{)uLi?
zF+7B+ia52IR;vs4;oZ3jDmIo5KEnp?nNUA<f?hSj!i%T=zQZ04haWfvM(;LF#sB{l
zl$KXE6<?qsV}rbV?`~~y)zOM&5Hp^bB7nw*k_4Xgif!r0APL186|e#Bry$G)%?H*$
zJNUwG+P!yAuy5xsJX^VQSE#g*H0JzTeEgbG%J_tYp`C=hnVpT(JmNg3^rcI^rRCGD
zV;`d^ZT{n7G0ZygfO6EmLlb<NV2N1y%$@eZrE35yH)Gi2l<XM;UI4ZL<UAA0WKwuX
zB@-j+3}F}o1`F_%X)0s1iXF?d{Hy~6jZ62(=CggO)kroHJefcpkiQGTK9r2-w!{>E
z0!Ea8H5G*#_3_hyV$7(S3M0exomCA0HJ}9ajRYUn5Ch7Dj<l#kUurL_LmT|fxho+M
zIz=rCCjbfA`?SF;xGjOL7Y9Ty1@YzOk#f0)dPaikJH=RhY9Rz1)wWaw#q<nqaYIrE
zpL#|oL{78!e~T}!KJ)ZbBy3jC8;qwuRc|_+)KrNKE&uZDPa8u!2I2KtA`ncfkjBc^
zo-T@cnCOSoWSt?45=xB4{RR+di6}-D!n4<`X8QCtpM1dSOIRDfAtDYAp&*dN5uWn|
zv+nJ9*=zp%ebAK6+vVo%x#l6cc_{B`SeVXs?Rh&1I?=y#oipLpn<|jJHF$?hef>nD
z_H5!!33=0ReIKj`k%kqiDMK|zCmgkrsUF9589Xx=O-x+HJ$DS)lPH?iT&m9{J%T|h
z>OVek5H^=~mBxZ((TqK)saNU8oOej}4y_EVdXHosM^sYCep7vmcvEjJ$jN$3`l2s$
zc$blGqrzQoZr30jb(Ndj?DfQ}ra4myp9~%xw-~k5?5=7BC3w<`sKiB=%TY*8LTZPF
zJHb`y8*w^Xqw^<RdE^yal0Bu2v+eDajIntn!&N*9Jh>dzx~$YfV+e;=?3hK%q20WH
zl(JobrPwG3h$$Kp+C%JkNV<fmnSsw;nWeQQX-XbLDWF}OTk!sl+naL-WOpFz-m+Yu
z3mun3P|-P?Z|l#7Pi6zB=Fh)hi+AK!=GJOYKz!(JQ0H)I@5-*+@M(GYbk^Io>OGTn
zoT<zcu=%4-m+IYBnk%|>ESQVx_avv%-m0YzpVHJ!u#xc~F;NQ`Wx$<ak&;&lj3NP{
zaz<>_Y5XCKW&&F$Ky?a2;|U4kWTqXU0tb^s@^__{Kq8&90bZ+jOFqS1RTH0tn;$e;
zNc9VBi_ICPXbysG4mPmg+jHJQ**lnT#huUrDBMD*NLscQUCY)qHWuoVjv{?g(-xw7
z_Db*NX|;{Ipu7<@+zs`eZVXdeZ=yt+WYXiblHBZ-S@qrgl1uqp5hvBMRAl`=Sp;Mx
z#%vX36%I;AyqEe8rR_YM4{4M_`YHV>a?u$KgPRO)NVID4UK3u&rxnY_S$c|Gw<z5-
ztWup{{7(!{BI|qjrQd-?I=?ksTW8kd|Io%Y4Cnn@mg3pw9UoZD?Y69?1<yPBNzBl5
zDBry^-#?mf9{Rv-3%EAS4nN`>3iX_=wqUYY4=oRq-sGVb^>cUl?fM^#d`Kbdcr!pv
z0=?j4{3!n+x7+GknkmrdE|TN(j^!iz6jD4rOW54bo+Z5R>|7d^oqg+8?QO!q{f2=8
z-X9F0K`t-7M!0BQ6zR3X<>T3Q=!NZ&ojca;l;9w5?Or<Z{fA$B`1_B%_6R*pfXifd
zYbU*DfKPVU!|U`dv~UNH@c99BY8T#$!sC$#UpiQ@!i_5G{mf@4pM&ezxiTuZ?<+XT
z3o%C9%d;=dE(vnewgTlv-+cZ;6}hUl#$|z%oZHvE6qevE)}#FWrU2zCSjkiDghh4+
z*6l3JW3!&+mmXezd}a8q^-nxM@MMQa<$)9OmXo9nbC!Q+_?`5Bz(XD6F4RC-da3$j
z4j%?0*wlu`@r>Q&af!f#;>D#7dM^q(4Cye1(t1(V$ceYbHH2x}XY56BiH_#ji{p}u
zT*UZFv^*6DdulwKN~tT;gSV$rX&_~6l(a<RNr@>jlQ4rlF{QMYrqGED?d^1_hKgiI
z-(kQD{LcrrIh005pQs_>BIseaua&Kph!<72FpTr3_;XB6Lw&?=%V(rzS(u&|Nh+1j
z&q~Uk8)VM}s!sy;enw*UxTE$TA=sN~N~lt51`a`PsZYOaKu!gYUNyb(ex&551~!z1
zhE>&U5?^TpRvf7?BNfx?P4xg$u)6@CE`psYs8@(OC{>UOYbmctV;^a8bW*A=vbxFI
zLe^HYdSEI33OTRD@vh=ksh8rbSUetWVE-_L!7rtmg-vDfj~~J+sT)nR|KcEpsN8Lo
z&&6o%D`1?{D)<|qs4!V{B8*pj)wlT7Yb>PBrdU~t65&J@EVHvjI)GGcs`N^I^NB&<
zD4-vE7m}Szs!yK%2IYK(tUn;@56OCmtRIo}*JN>&jVZ)>$VKXh(yvj(x5y$LIHgYi
zuMWC67>o*oyrdYXZq&1IDUO5cLO3ja8QJj1rF($C@FG6Xf8^l!j-PUSWp3|Jxrctt
zJ@n_C=RL0BW0RFP;npl~`pCoa`~N%F^&U6;9(V9PZr@M2$KT^lzQ>Ke#|^&69sby4
z;Y}ala);?-7so%r%iQB1o9ys$us*8c_(Sh;13yJNi(cZ#DDeotxrY7?TMchpoZaB?
z+2|SM+ZVfD4ZRZD;NaX4_yN9csq6cp*AM{b#xuNyA6mG!fog{~s(C)J*o+(Ud|<=T
z#_!Iy@7Un*{on}C*{bF*W&JzWtV6d=8@2%N%69I(Yr;e68yq|vhfVwmKHIiygCoa=
z>l}|1UHh{mkIG$-ZE)l*d<jF*n|F2;%=q572G*_k;&FwYdp>l!d0XD)DVXuSU)Q%>
zC)f2CtniQ|y>EGo><$+w4ZygqZQV_-KrL@unkaDi-0fbcPodAvcPw`oIDFn#Kkpz0
zzQPu+XIs9m{zG>?>hS_u;d{Ss%Th+J+g`B3gL;|+i^5A^E;z}D)83i_B?gkPwX9c>
zE6kbtvV47x@0HOFOIzOAmanC|Kqk|M>j^XO%3EwNoc`t0^RwBu!IhSEGli|Y5&Z#+
IX6xwx0Uo>rKmY&$

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mixtral.cpython-312.pyc b/model_executor/models/__pycache__/mixtral.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f0102f2baf3b923292bf4ee524760442a992c71f
GIT binary patch
literal 23628
zcmbt+32+<NnP%g@34kC8kOWBxJi%KebvZgMN|r5=zGNps?8QJtQz8YBbOW>{4wxuA
zt__(u3AI~U$&*Z(o}FFOYuAReH3ze`m3XSQYCJW&TWpaDkRG{4Rq@trDtkbYyq=mp
zzyI|CkZ#JE+9vV(9sfJ~z5o5!dw=QiI5|9N^S7qjUgEf4P(Xd`iswPp$Z@y06c^`G
zhLkaFh#T-WrHvU=+>|lL%?64$r!5(4+{*mMv@LE!oF#3`*yDB<XH7dY&bX8LZE07=
z9d|RoJ?+U<#jBX#k@jYMabLzC_h+i()hy1L4rFTLHJRFYZKf_>$KqV+U?vm~F~2)q
zpJ|9UFuy0=m<h+jnWlJCra9is;;PaunMgds{ND7wOf(*4eqXvZ(-v=Iet)_>(-H5;
zbjCX~UGXj!SDlV!y5rrMo_G%n2hzQnzIY$}HL2Qke`X*)kQs~*X7<PTv$(qSP-Zwj
zoEeFaWDdj+WDdp;W)8&<We&#=8#p8P1eXfF&ZR=UeOgclxcq+4B>Ur!G01vAHhd1`
z7Z_wCAj6*nd6chWuuXt%el+ZRN|WNpSdJFti0J3w2l@T{z<XAu-N&yRWBV4Go}8KF
z1%76N@0*=TUyqDUUCRl{bR;vI;?w=VB-rtoQL>*-rqjtwX<o8Fnd1fW#SD^lDx02~
zAfIt&2ChfReR_6ga_TZ79H(+QekM0HOR2Tl`MJ4SA(zO_3KLfn6SJAQDHLOpT&I&0
zS9m#-<a{xm&M5xiWj>dfm>1B#T;f&4BNHpxB)KVxpG#a8X6NVR(3~1-qcqf;ofQ(S
zABnjn`jqC=iPvU@bSjaZTA)VT&(3H0)Y$A9_-)UPJwHAxWY8S{v*%xYM#*qtYKBh=
zlJ7Zw4n0lg_>>ake{S}*oj@qWdtvtSR4)6BFgw9#Q9GilpPf%)02Y!o2->*VsfEJq
z9QD3o^vu~)FI>2oc=74eryfr{b82+-$?+!=&p#PIBUNctjGg0?DXH$o*@@&OHS$d6
z5}!&<&0NL@s!j2e$@z3H@ftsM`ARO4o=v8BL8{LruV3O50-s6FC9b}j$WA2Fd}1b<
zq5cP+oWZxu@Tn<u>>?Yl>@N-Y;%JqRKIOc?KRtQo+8i(BvXc9G`SWEj%szKYa;l+c
zo{3o{|Ec-h>=#+hNM<!xJ@d@iR5pv&T}WO>OM+9`1iny4j$>aW!=rksGn2f^C-}@<
z?s{UXqCv_R%qAw26PPjAB^LusQ)y_8+_5=<pPafjAx~-9tyKaKehkkyfCYID*pG`F
zQ--+7!Il3~{*;L~r_A_S@U!A)<1N$f%EDxS%D7<TxRjl@DLw~a<v6G2bMf|+n|Dms
zEOC>Dl;?F%+?lFEd38GFdG+Hb%_-mO=D2%_yJm=cp66oKl2chyn59WzW$si&p4feJ
z$_$MlB{G$nOY<455;n~ule2=hkaJg(xk&a(Qb=VZJl0u+XW!Eq!IPX2X0zD{mPSNK
z&Ros*J6ZIZGFWFeB2Oql3A|hmpZZM3NOA^|kx5!l)F4*ORbH6k(~+rcghf-Ma#wh2
z+-qn}WG<P__OgtVQ!{A7b<`9Q_|*Ia&){a~b93{#Y-K~0MpDzqCD+V+CLwnwD_L^0
znBS7?%2X=F&#(n9`FG4FTJw^dMlF*~q;l8i5PF5yrh-!>TW(IyXG<v_t310T7e7M?
z59lU+X~I?UIlb`HHt^s-W4ryH;TD(E5|=%B?%NiQQ_-`5%bW6C0&wz^!-SF_6=GW5
zywwD}kppGOk4_Gqsfrw0$$4&?kqT-F@_X99GfW}14an_KQ*-J<(oz>)d6(XFUUcW3
z$f>m^Z$QYSmcv3-TF5=!toqCE=}6hH`cQ_}QuHLO#+ToSjg~{IZvh_UtyaT;YE%8?
zH)1u2a_j=W5Ap`o7(i()SK|m`x}zLYeGB+f$Xla^0oA4Y%kMq%0swin5zqChIWTKL
zy5%h?F7Nn0moomI@qLrJg(F8$h0E<%eHd>ea+#3_$SrTp+wyjn*YbNt)E-jd%5TK#
zjN|*(_mppldg@i^>s-t>es;mqe;Ip5%q*ENO(nBJKazz3a)#hsT(I{m3p3^sx+%Jc
zoL+LMXAEAdk{3HRrz|$EtmMKrj~zIf#!8h78zflj7%Ns7hEJ-cWluS0QnYy0dKx4P
z$O~*I_5^m3sazr<S4Ult+$sK5&?ySBVAse74<QtQD+x9vP>f_|$by385olsdUKQag
z_(E=tZwA}=JjepIA(DRvd+%k?3TZ9MMTkSqc9;qaAlvRPNYyimxhvPRJF<qTG%D*e
zDYd&|64_i*$Vq|S(fmwGp!qDB>5B<I^4io<t3p@#^yHr3Xz$P9svyUNQ&gxUk(fvW
zrza9wS~G;Cwdcm)Jvore%ni&<&Gn&~pnm$U%^x~)`062kAU$<yVD5VE%IwSll{p|&
zZ2UET0yKpn2eShinJ(?0yDmJ2(iZ~deX(Et;un#SeHokN-`?OJHgJxrWt(UZZQC1)
zjU7woZF}hBP}}#b3ZY>!G`wVf!*e&-`cJ-E2o8%u3c8EI##@Uw7Yo6d7>sQNdnoRq
zl?(Q7)eS7UiVf|Bh67^5fhDh6+`R~3w(U*DeZBN<F18L8T91pZ#|y0&#ny`y7b!+N
z3em%2^zg<=;S0};_>VqM2`$C0-a^+2vFpSKBY%GM&yI>+Pg8Vzu|4+AOK-olK3W)g
zR>Xh%vlJb@=k^uc9iqEqt)>t=E8^dMwq)WQ9#rwr&DFLS-9h^I*A?sAi}g*#y70=E
zZojY@Xnp9h)jH7?$HQta6e)&Ui`7ALn+FK8v85Oalc%PU{#mXsZ3a3JTL^WDp)S_`
z$HeGk4;!mODCgVm2N-2e@~As4NDe+LSp^={;>?7$zX8UKAKM*2faeyMH%#Nb`&l$1
zo}hL;z<Jy>m9Xo1PpM&%(zTtg43sy#M-(icmjJnFS~LSr+tcI}a)BjHT3MF7MXwEc
zqgob7G2{3z|1X}H1&HQK64ZnF)hYfp8Oc0_0)_K%Vpib-`JaU&IcJ5b%Ly6S!?1+F
zPy<k%At41A)sxsUj9KE%<V7PqO-0xgVrikeV!A7F{}=$-IGh{Yz1nD@wo9z-T5=Xc
z?S)Xc80uadTFVs%PKX01wn8VDJog$~-a7K;k=2*C8i%ncmOLx36q}=OrQb}i9oy*J
zYCgAVZ!CJF1#hS5?Obzid51Uc!@@HtK4u-qBXMVARfJrLcSs~8XM$L(c~C_O$(=}m
zl1eKnwnQQ|JAr5u=r1D7!0bsDMsW#53rnVKPQbn~JDX-pS+dHkhwv3j^e9+lf={Ot
ziFXacIAXK(Nl&sN5n}K%hsHbm$8i4kb?&~=YO$BXT<>6U=pgz<|8=2ac;EftQH%3l
zZK!0yyJY2jfs&1UcCN0z<RG7u3%8V9<a2Yu@U5#iuda@YbzLP7MOAUZ*xHC#H&F6Y
z(8pERuH<eul>8K`Rzm>_)o}irQZ4!FxVnZ<sNPcEV6%*@zCa7Q#KF7H|7rRU)1Q);
z4K3@(1iGL-Dh2Rh9Z{9cO9k8FOBs2S9_s=I#hNlOR>c8UMfN$tmbg*|g)MP|Epeng
zyi<>k1G}Oh@6wN-w5Gf}*cHFbHiFmI`2KOpD)a1YrAQ9iy{~|k1qVl7u%t>Tlf0Ig
zo6SxUpDa0vH%@?C$R#EB1W5<f?NcK%gy%3q6P5HW`5C@>3V34|HSYQhH4a+nQPlXN
zlhNxM1_Bn*qtBfSSh6X@RZx0a<5S!}B&?(l2W*5IHEJI88JAE*F_famcIKT|A>b2g
z_DZd&yN=ZjDqOFe3OLrr9PuseNfAY;(d}w1+T$cjSjCTMsn(}lnKp(%F~zB3Fu-Wv
z0%dAcaJkGI&4|~=vmB3Dt@LuNLWx(Fsrk!L`ZXz(xJ!it6p=l<o=4`@#zY?~WnMs=
z(PxE1hTn>i#w+An)XG4M>y8Fub$X3ht!A|Z%rA>V!COK7+ul=lJ=CZ5D%Yw)?^&+S
z7h&UM)JnIr(v=yC(l!1l*I7}zPC0w@(2^ru%^pDL@NeqwnsU7Fe6L)uiUYX{E=ZS?
z-J@P^x<ReC{06KxS{1P>Z{$MX-4!FN@m1h=JmUfp9Rl&KlAX|1A~lt{ESGZcCubKN
z{jUIz%?Y#9F_UnBKs7A2VC$b{DHp*j0jq)dy-vA>87j<tDVgOZ4<utV{OmPQ@YmBk
zSgT|%Hxn}p87gURM{%)`aD*a=1eQq;TFR0)hl0}y4YvwuimfikYG~F3G|LK>Y#_o>
zkst^JYkftLeUOZhBqcVI6he3>%u-b}6(qabOM&KqWR*K6&`=3Uic$N=XD$gexg|5}
ziCd<Lt`b}?In+A2cQgue4LkcO3{nEy`e{9Ad_*L2L#6^44^XcVMcQVgaRR@GOj!fI
z8gT+49ZukG^}(&`!%MbeOBd1C;i5NC@V1KH*44|Rw{P8l$2+uXAKLT|ftD`R_lfm=
z>p`*pFzD#2Vzgf-;9cH=D=NC8tC#P%`aoOMgbIOfG0?sCMKLh4VYm}Gvgtmu88`xB
zqo(op#X{4Fi2of)cf&2KhSiZm>tkZ;V;h&n)-zk-vs8Nh$Dx*0>zZ?YbSrcOwR(y!
z?{|+aAKP?Ais48h+$)BA*Ug2&Q4#;)(WTKh#)@?fw`Ok6tmfWXe0x!>8$m7?Seinx
zOAL0cjr{P~yT`;J^+08GR#RfIn}r+N@bZ2fiZL$2_uaAOu_7@X5z!rCo>tM_s_+(!
zMfmb&p!1>EUQdjL2aH9qOM_n>dFR;M$3*vFnH^zSzPK4^f9SFXDU0i271!8`EUYG(
z?E({W*I%=8@mAtyV$0uNY-k2_BSCusUE561<ICe}CWJ05UtnLSTdeP9Tu*xi*W<Ml
z*Yj-$qq8K3N?BwXX+BZOa1i2QWCN5_#HMi53Il<7?J2VY8e3t~Wf}I`;<T+^E0Su`
ziM?z}8QwRlTklI~*`j69x@ZHmJ{x1nTh&dNwGGgK)i%G1`T&`?sj!Q7Kxx}o1(aPy
z%d9j97$^tWAJe#S5kSxyn1H@wHenGVutHFa<b(zIh2JLUYvkM@=c{mHPI>8nogx@d
zWC9KmzKoz`cttW?l?<;+E<zFsS=tMvqDXxKQeO4)nkW8XA@rFwudqYEKx*~|oEscy
z`s%t{O*flvFK+q!maR*srDu!PwYOq7W4AB9^_4fjvex#)-gkR9%s+Ae$h{dp^Wo4+
zY^!>F*|ua@+P{<pF8J=(mcMrU`r5v=XSciq%VvtF<u!G43d?o>YI3Wt3lf2v(5>?~
z&#$_+YI>I)OV$-b(ObLZk(nmT6bBXJFMZfL$HxVbaa^oQco{F@ACQwEhc<E<b6O^$
zugM8S;V>RaNRf|W`Ag)RB!~Jh(6%F7fm6v7O;aQ}KcIvk!vRkO=B23vEKsp$fS97X
z(EZv`1DGLSQ^`UeU@Y)JHs%F}3YHwq>*RtBB^UF8A!;ajm=`Osq2y&=9~X?uERvsv
zvHBGrDZs)qBgDLQoU`haAoE@@IxThg0-;++ZyqgK;79eLrd#=&`I3!7cFyVjZg@HT
zsRJRIIie0t;HN$6Y<=)=5v9i*r93H>HIkVhGjCDYAPZO{E0`j%MU&94Ktp2(D`ZbO
zc!wUbnsV+D@7g0?uFs~QItk4X7$q0e>$tI+sw7o@HOfyw(<(3>*|@;=$X#0@Nj+s|
zrxIJxw#cxS5xd+jW(T-pm+HZwPk8GwKqPKX88s|n&1qPN1o^t<81&Q(5bIDIcRh&J
zh~#n-@DdYQL%?kUA!dG0sS`w~MkH4<9(rF4CF^L~5Ua;>7<9$p5SpU}Bqp~&_)V)5
z589y4J1*BG$02sFa*0UX^?+n2`Vr3#lKua`EWcbT$AL(-kIQt_w-C4B>?f&if>B=%
zc~bQvUM9R4&BbU-M%wM1Z43VXOAt6;O=KbN&hn7)@WA!ml(~l-R!krHG!mBy!r#Td
zz|Uo4)w}7_>jX<H88UD1`)HDE51_F9!AiCtN?=8yot2@l^4AluCe!o00`1Vc#Uv+?
zwWCN`KCUVPSuIK+0et|B4X!esgXG)YF@eTUatqK0lHLL8y{zP&nt{?W!IaDtDTP2e
z<SLr2rNrzNWbMvDWFsPf4o1S#99A~7O7b<VY-N=wK%-#qBTtqbqF{YHDA;|4#y+vJ
zkI2N($F<?xFRs3{eqgKi$ddDJeXJO$FUxN0!iBm)v2L(f-%_YQB-S5do?)?mxES15
zNixMZ16>aT&ITg4svg#H`+AC@=0a#t3=I~mLxt*IvAUPVkYusg+*W8lC^jFY5{S0j
zZ0g?(3_z$1l5ii2fJhuPVWe~Q)k5bHvGd5rtA!KKi6@@hZegPD@ZGL~qPx1_ZWi6m
zt7i*shs3r+4^74xvi{WGE+hXk$zX?mXetHy;zZ?2CO^Y}ci;ilX1Y<6H!ecO`e^EH
z(Ku7P7fe|o%qSnZG^%6QLkhO{4eFYP0GpfE#5!eA!e}Z?MR^KVDZ>FPXkuoRg<O+H
zCT@-y1#J+(4gM~&2;U>;`{dk)gV+n?*T4j}|I^UWbgQ768ug}{LO8)bi_88F@_=xv
z;@mZxuEt`pZRs52GX}-*;Cj<m_{8$qy^iie$75p0V;jdl?Aq#h9xTDq*zLoZZEsb*
zSyilSDK>PLEL?r(1I`4-z*BN_t(}GF2{C%&1J8%owxVAW?JbZyUt{yLPYm^~Wwt^`
zmpnyp`1X}eZ^x#+L#Ca~3dM95+Cx2($w{3iWG|CRJo$cOTIo9kO->2FER7}6N_Itb
zEDMc2tqPrlH|P|V-my{8u8}(q3OY&b>mr{UV&4+w#3+L7@sjT;Lye_Vqk7=4pn51|
z=Rgtl-t1ki5v$uv4vKQBgpdm%c`Z<DC-BoAbz^<-IKEvaAw*mE4<MI=d>CdelV(Qf
zSYEG+TR{9+^|oG^yy(Wm6vYmb#qQu>CbL&wr+(fPh@_N*$)VkQK**_k)XlThNhgeG
zEHI+6@h;xYqd&Zd`b4T|`b`>BRcK*V%FBCMx_&>5Dm=>Z@hrDuX5(k%STz<~wd7V7
z$QYTuF>)QMhauD=jFCgW35+#+Xfvl}%+QY&?)MDe;J#t~hV2{n9Tp&t<===5(_;d^
zX#;_wkv?*@<bKnNc$)sZo^RR_ug;2!G$2G>f@{&dY+J4%u9ocxX-F(@5}NWRJ^Kj6
z>d61D8L~z)xFmVv3})b>W!a`nj9G|LL`@oVst*SUtuMJowL8n4UYRH%tU{FE`sKoM
zg1#9Z)IfqW_T<ge5ye~a0)$Tu0wSvV%Wpla667LL8GFi7Q?#Z_jV-^ItV^~fJ60&H
zG+wvojWX#8!c%D@vHmDelZL{t5xDSc63VjW$DU(B(|6ZXCQ4COgPNE-r20}|jV>GY
zOH{Wt<kZF<B&c(oiAb5Slq?@-h09DNS*Gf=B}BE*5+Y^71G0$to*7F=U0~d@aoMnp
zy?og`tx(PY(H`u*%2bv2Nz*P`6dNZ)^29jBEb=O51lm<Z$gs3+W~q?K4Loe4l<Y^-
z$;_ox^7uk$B{I+`vi_rt(##%*M+O|Doil<`K%;Fp_7{D1MPIns6e|XsG$Gw5E^D}o
zp>c?UW!ptz6<LH8a-JoJHtkqbnQ(?}BVi%cF3oXeQdNGjUJ&6exze*jQjI=ErBLUj
zS{BWd32)+6G8L7DxelVTDJd&CE269D3zfqHO#@j?=VsrGXlGc3%H-@QCDNx7I;bW_
zdMnCnxm%KpS)j<Yv*du?iQ=^?-6nEdc#|@liL@5l$=mWd)}N{fNkhZJJ5&sHS#q-8
zvJS{{^702BM|zeJ<!=!s6gheFWF_TYtNVcm=yQG<&i}f>-L-pE<B@y*aKRrF{jq|7
zSo9AsS&PAFAvhog2bLg7Eqm+s73%uLy1pHzBKPXTB=0PSnV7l$J~Yscu-mArFL?Sz
zPyc#PVdx2Q=!rW+7e3s7$1`@%UtO|sjsU2D#(jl`9<iZkZCY#~sjZih-2-Ct01?=Y
zABTrX6#De?(;6vVY-umF42ms-4{hcqMuyjeC<*rz8V`z%2N}CiY#%AKpA_3q7TRAF
z+h3%(=*Ndovm)9=ciaCkT0K>uUxH1r9$^yOfb)n`v>#x(Z@2xRf35BP9!S)|cAPDQ
z`^9ko`q{$B6XM7d+coFVO2^%S7mJ?o?deT-Z0%s7=a|@Y?19NR$VmHMwhknR%wtWZ
zva(pCa)}e}qu+xzIC~0XH5-rTxpxiYF@x|vpx-sh)bJm{pQSPt3Rv>WlUb{EL1nzy
zX5YUn^(C4GgqLn`Oeqi%y^+=WEpN}Jy@$1boYC7-%?|5Q*(f&)T@LY&S(%f~PAGT^
zrEwfdZ&=q-sG$<uy~mO{P7l`!^?CExA(vRR%=q`<Gqk~2gpuH)b*2iukgSS^B$<ex
zMN8h4Vr0;wwQNL+(sT$6#Ojb2h}AY^rLlOa8`UWHGB(pin~{U5A!H|?l}EqfH&<YH
zt-n>}vQ%HTDo1F7JycT4^aG7MdY&Za^ksHEtVU%LDH3pd-h#csJYIodjTL^UKvgrv
z+vJo0{+_J<gbl<A^u>gAa{d)LKZGN>p`e3hn*v618{rS(#2n=bC-Y!GqNIOAj)vGJ
z3&Va)=A9+67NH~dRIq0?JMfXhmnCQ-{uy#W006!$^sVCsSLYp9C)lM;Z&xwWchhq(
z(pHF!h>?-?FK<OotazaASw43!(772H-gFPcErNS%5yPjJ#)`q7wWq}3p`~+oYa4Hm
zzIFc1^JGePM2sET82QQZA07W$?Ndu<e%{fu_T>8F2UoT_o@V^rn}>m|>dqTJ_BMX&
zs|9cO9dGwtScgRiHoheK&SGWPRFya*aE6r&M`Qz|^>bT|$5ay|wACJF%jPqCKU)g|
z`d7IY^wt0|H7Vlk%>dr@=n>C=)S20kDk`fHGs7}28DHCv-w=Mou;~g+T%F4$$U>57
zYnhdk5}BHP4ThOe?#hvV201@hj*`V=v^9d-@Zlvj$eS87w3kmhWD_`mF-Q7TwnzO_
zK(WmfTn3{>@U1zSVVA1uY=|tuQZp^I?3f^*1-MRg<sizyT)`F-DtL!P=q@8|^bcDo
z@aV2LU4_sAF?4`g^c@wWN1<QyIZK??;gs>RO|kUfVZ=w+fPJZLjQ%a|GRXYjH!K><
zv>Ha6(sw=T8dr5mi>9203)M7cnx`WV(b6q>!zj06e7RdO=99HxI^Xu|SM<NRt`^Ly
zw&|K-(Jq{anU9@eNk`73b|UXc8FLzTQt=#2f^3g6o==&sg3K3;dE1ORZ%dh2se~1s
zc?a}v3WmZ#0JAO@)AViz?v3Bh8-Z27gMMRd7hQ|)MNi(Hx4vo+3~%5)tuX~^iy=jF
z=Ur+Y&;VMeH3p#!lQOG)&-(X(u&59MX$wuP#xptU3VX=RMXd#Gd2WwVv@sUEWd@GQ
zQ}a>_Zy4SXF#1+`^z#lqMsCrmj$huReg^|*;8qMX9y6D+Emq|%7%7m@i{8BVCCpJa
zTE2?$@}}&7`us8TSM(Blt=dxbaxm}z+|ksBs2okdGMZmRpZ&^=)69gXBgz0*ymC=B
zkaFbORR1K~$@ND|ZF9w_`SYH<FJ*^;jiNnTtj<?w4R8Ez-oJ>GpEE$J`6|J<VtC_^
z_xP57pE-lC%6duVeN-`?m9vJ@e)Wi1LFxaqJTE?fRjM;Y?fsrBOq-RMKgKuu&~r2P
z0@rxV1iPI@3^19&5T+OY5dvD=RXOe(m2tAUkFZ3UJUfouG4>ZmJajHXvLxgeJ9c;W
zVm}Vn+1XjF#8e6_lDt8{i=z-^KAp(UPteK1SU@tTrY3Tdk8EmF<->AW7|-%K;X_o*
z7+J|ndx2~q$?6cUQxeHcgx{gInUblLWD{@zAvuAwn_$YauTABy2sE7pV%~-SNMKf+
zhr;G0nI}Nz2!ziC9!@MEQ#gM?Fm+(>Ca$Wj(Ka;6rJkvx27B1KL#4%8saENt0;24J
z;Q!Dq4OSjL$yq*|C|OtrxouA7mp5ORGSrk`5UEu@&}K>{N;x)lr@cezE@qWXQ9K4h
z8DB=<t8`e!TNVVksSnCI%Itz_WF#{Sl}WGDru*-J)^BjXHd><2O?xv4wP54zkwW93
z*f_Y=IJ8wayyUtYZU1NO5OWi;c1VmI+KL?6v^U*t?H1iFOQS1&8k@1{?ZswYXeK7F
z(0oE{KJkHhtNF~P@63u54rr|Uw$-P^(7=l2ZlrU~vi7y@lP_#VUR?3qYac4K9~9dU
zZnYoYICZD}*v+vIj%_~soOt?q&~N@`@SXnV+x+Uw+rHtVuc_eMC;IlSc5nOoioVb<
z4xAT#`&XQ|&##4wfo7Nm1-gqhVLA>0_5AAj^@gqB(G@eQudTl|c5`gCbGxQ{E%n39
zyP1tAw);n68L`>}#us@$hV|3Pdd+s=AQcb@-a2;k*lKV)5c{}sWc}jC7q%LoSQ$mZ
zEBPWjivT-<P;A9gjI<Xb!(wE3#q)Dt6SZ^w+_vwS<f|>kxPuoArCzQrw&{!fRm;fA
z6UEa{i8Uuzo?3OSeR;!vFBn~G6NCLI?_OumW=$K&n|FHO?p^!sji<JvPpq5=Jro*1
zXmmSx3P5ZS3!z>y)Vub@?a+aZ#=?;?@yOVRm$#3+h%+8*Uje&Kg@rrUTw-`+<;>l-
z?sv|=eg1AJvKsh<)M~vL>REfC(05YoI|=%?y>4X;quT=YSQBjT>14&eSTWjD?CinG
zi<Y{TCw}eYLM_FX?%U>{hnh;K3|!>E{ZRuK>iW6dnx?lrZ+ccQZ-@HV+y1og5Bol_
zZ4aG;`P1rEv0*=8J`VP;<<>852Op!r?r}sMHPtMJ`>3hV+cn+(+V<d?a?@&~tL<w|
z+ck%Z?)rkeNpv^ePW{Z?T6)dMwe^&)8985*N}~&ZA}{(~N*5PmbuCgD$He%duh3dE
zr>C-H@js8lsLZZKMpW38IpJsI{ED2*<XnMMX~FUqMUsQl`ds#};DJ`=-l@~S=6Wp7
z)rAthHikc;S1E2VSbEoLe;9r@T;kx}X#Yv?k9r@Fx8&pchwi&VmL^T<0zbZaO+7O_
zu~Ep*wG6F~ip_^h4hlLII}~OPSE9Tnx1xjD4E2bPo(CR^8*!i^qieNm+4a*KfsKjH
zfm34aak1_60}d&ry2}Pj)9Sgk7uJV2EX=NGcvS2=BetC_ag_Ao@Q2yIIQ%K|Gjf~t
zb^;yM9+ky@@Fy69om!nZ7<iE0rr$SA8RC!^r=ZXIfe~6A+hs%CO0rsLeVj0F!69Tt
z>*I#jhgtfQRe#Ex^1)i)Pev%IYTm79Aqzc<Zan1E0n)S334~PBp1EuEbEj%~)Xj83
zb$dX_se9DUdnqq;K|$z(e7KB3w~c$XU9K5Ds7DX{xS*k$5Ab&VGGxMv2s4yc!!xD;
zIUA9)7BO`!r=7=niXA$rFw%oelN16m(JZMab<WNTr<3#9WctF`Sw>udp7=`?F8q6P
z{sSEBUCh{^EFYKrviVzuAq0fk?-Q&ImmiSnvG8lk{t`K><Y;nHjlU*7gH|l<;tx{b
zx^`Iy!S3%ju@2JXteHB=j&gTB;N*1GQY3kT&5J^Lf=96+r16352m~Pq_LL7L<P8-v
zAe`D)>AJF2BuXh;CF!c906}BGp1eh9$>T)5p85y}zd|Zp`Mm&6aKczFp@Le~RYE~6
zMzqwfM_*Z%w`8q3%}Qv-g%(71WkfJ<-Z2Im-vlX!GMeaNSyHAepVL!N2?OAit3O+x
z-hpO4r4@2(TuHf<@}cKkj~WZeI@Mo(>yL^0h0!N1&mQgUFPEkIkW1rrFO!Xx_C;BU
zRy2D^I=V-xBPvY!4XzT@{i3a`63g3iB;;X_+G22rH9H_4+YKQf3(6f+;~^QasJX$1
z4Oix#KCVKQ-?@{jzarN-BoR8Wtbao)eEB_ny6jhd`Xx+{s_EsoDiMHO;+v4;KB1;y
zEOqKqq46EsG)U_WSMIzTN@;u;j!RjmN&dC#LEcU^3J}kz{_-0TF*O7TGELs~0HQn>
zt<zuHm5d-D`qWsIK{$2S0|?T#u_pzq%EX`+0v1i|S3^*KI>sdnQ`-SyYdD!9Ygp<0
zJ^<<N33geFe5Rbrl~t3s;alh#pH*+{p!+<S%osOi;E;PHGBu;z#v|*|`YW`oLuIX@
z@Xx8le?bl_`yKLKC5O>gG@imka{eV8DKI}n%>g%8q5oT>WLhq=nIA19DOlFAfeo$b
z0PRCkAUDO+ojN%Fu9@!1`;}GZ#srd7Nj^Fe53LAzYx!av;a^j9)egoDx=C0Y$~wa=
z6TwT)Dcm0ewiCA#39ZP%^tzJmN-_&OLV?*p$%cSd;_q<Ko#vQiO7k;P6`2N>%ah#C
z&Ep!L41Y!tW(9%PgKT2B>#V+TmQrdc^R9#RS%D_L)KE4#{0zY31W-)?JMRP#&LDw_
zdu6q$(rtEiQC7}CLV@xn0;*=AJdxOk)V?cjB)OKPD_^LG!jGx+aX35l3zhm#)%>f1
zCehT|uu|u;kHh)f9a_)gqqLqCs!m0}sT{CZ^_(Bq?gJ<E{)LUY4}x30Pr|sb4jRBW
z$e60FyU;o!w&HjSj;{aQRR=9*!QFPp-L~c`bUi8J-~HrI-EDV+IMPlj&`N$*!+9SD
z>n)$yxP}o>^VLlS|A^=xp%WwlIyK|i3Jg80b<uJ4H{7KV2R-Q*mcLMNb>DGy6MNYG
zc6T9qM2sFOL{Ey*lS`v?lw{l8ayJ6IM5WHv$wJ2=vEvZ<D8-}^HF^BseQNosg8QK8
zJ_x>=PT%(uJF$;C(^zaEU9T7H@RI8uSmpT5c%imqyS8KL%w2E&?e;%t-u4cH-@Y3F
zi@V)^cw0Rnbk|$AGQZh8_*3uxKbkK3Y74#&(bw_5^AnTt5NTFgU~f4hHjk{hioTj#
z-kV+-V0FIGc}(m)R_Ht<cAojE?`+A>)pb6s;aZ}rZSM@cJ+Re0#2R+bRk!JCzFXbA
z*>Yj4dTi4@cCWR+(0WpAJ;}a8v2CEx23F>A3hgU)A1HK>i{0ZC>MTb43en?Y^f-lD
zitU4i_EE8YltR(sz9_w$i_uoH+-#Bg8Z)>T!9vb+n3LoBXKfac&eXdA+5O~=Bu7_{
z)57MQ6k+lM?IM>@19XI6S0}Upodw{C{$&rKbZAyRJty}3S?u|y3YjBxs1^IJuYyW7
z=^ZG{RjajD<mv&{LwccI52$8i-du5P)_{;p1wyMex>=1Qy0B~-1wDdhxKoChCVqU^
z^PUpM4*rUnti_GvvH_`A{!r|bndp-dfg^7d>*V`C<os`PXqRHRmZ3q0CS|n7P_BP|
zE=9UC1+zii22~hs>_T}q5So%qKv=Tj4T;@kd0Rxuyc?e;a6ecQ#U>Yq74=so{`$O3
zCkU_6j>gUd`DzN@e$m^%IdtKU_rj+A!lw5^u?=<=Y{IkY+*xctvN2jXdQrrGJG;Fj
zTHL*iAH7h6u($3N>v~sA#epYROxwQRV(b{bJBr=?h3-+Ydz3<*MPJ~S>!z#V>l1x_
zKlKgVr-du89<pB8p@5@lOh0BOwbzo-Q^A#Q!g!vO1v^Ih%Wj}F;ZNaIT1hbN_d-->
zpm*6vJV)b7^ft4P`0m2;Lctpoy|J~}mUm>+u3T*Jb*ke><d8aC-wuLE`Mpg%$Pzkl
ze$NabJm4gu(U-enVBJu!+Mof`)4uP%OM@MsT4>PeprUVofjUMcE3<>HZ+gr5rnBg-
zUAev)J-Fe)KERBcp<OMD%Sg+=<6}{4*~cQ{e9yk=T6*Afp#k)e6}Z}0qwsf#k?Ba2
zyrQU5$tqJ+S*lE1NL6&DA}%9RZW&qFr_<S;AW7<T3(7#Bv60pl{2ijd14l^nZ|B!v
z-twP@wUc(HO&~SEj_zu6lenHrH9pj53eu*|{HC)ric*-25TX)>Jeb}AU8M^JcXX9O
zX<G40v`{Iaze2qubO_4EA6*^U@^`WR6ueQ<8(lqAVbr5ZPXJ96k^B`8!t?i8aw?uJ
ze?3NVe~4m)KZnC4o-)>BqS1wRoiFrR?S7j2L4<V0lIs<{y<5O%_I`#pfYHZe^}DR)
zrN&9ztCzS0wGB-95-@N`%?nWTV1CeDl5?^;2V4uTaVhI_{2D2*-0+f>>dR3o51`}{
zXuqnE4JRq+p`GLs`6kI>_=Y}%e1Z{o#9~{Z;D06OXXN~foc}@&8>`FYy8@?DMEu_=
zlAQmB0<zD;frz*m?c6lCfJSlze$AO{oh6gC*}7?Nz;!J3J;gxBeT%6c;abe@XwRx^
z)7->_%Ev5iBvi(Wgvxl8zH0DW2JbcRD_QVHdF@>#8~Jc9vFd??d>sbMfwI*3Kw0X1
z00whMPa2AS`|rD)6_RK8QIINmrcj0CnS#3{&lI&=@=S3d3r<erY8pB#X@MVw%4a2S
zn?*<XfsLZ7jF#R#q|Zo^h0hN-cuRJJWk6Ss{V4?K1M((BqZ~US{1%Nk$>JsN#4N5)
zouIo}vi-?R6S9hsJ|e97aI07jm-%F6+bQ<liE@$LutJ^50=q(2mt}`tr7F7Ni|#j&
z4}r<I1T?ZpLQGR>c7J7m3Wp+vByJAM3MA)~*kxn=$~`h<ks?n!H>LSl?i4f+!qg?Y
ziB0ejKovP&0%&6Zj5h~;BHt>eSmO4x3o98DMfBMtK^gPS>{k5*y6+LC;@$*Y8p|$C
zU{|ln_a*c^D#vdAn6b^BkI2EUu2im-m9JHLRQbxq6WTInmo`Ylk0@Uj3y|uS-J4s^
z8KQw@LINT_r9Qnf<iVElcE6&sozG2SiZoJgl9fsxmNCn}GEbKe3xprQ@6-LSxbKzE
z3bZQ;5pwoXl10uRrHEE?+Q?}qr-K}lZ%EcLhRb9+b(*5TLk<&w(42mkljrx-1Z+Pl
z<FMmGKX3{Dx$NJ-DVYog!~G%7(Dn<?^VeMeM_l+9ocklL<|D4-KXGjzamW6eJ127I
zJ~f&R#`_$cPn?|Lv5&aJJ7dlnKH|=P#GNe1e(E#<*v=XH|Au>9<R1UjXfqgb8I-~J
zux8v~7+I;lRe!VoAxHj)myFLE40S8Qt?M_hKjg^&@QU#<L+9=2Td_A|4>@>CV4{q{
zhsH&tp=o94){&b>9)NZ*G(9jOy2PR%p0s|=U>LYv{Z{>(^{W@wyEl)If5K4|8;Ji0
D+JbJ*

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mllama4.cpython-312.pyc b/model_executor/models/__pycache__/mllama4.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..59ee39526e4533c221a73f962012e9c984fd1af2
GIT binary patch
literal 48299
zcmc(|33waXeJ5BriHihy0U!yI;7#xpN!_AaQtQ6hhonB}ZqpP2N|eB(3!n~$v^$Oy
zQ%*akJWfQdors<Io2I5a+jPb=p|i<a&Sa9#Y$l6ps0VOGy{5<B+4an1mfe)yw&&Y#
z_V<6UssK<$v7K>d>mwgty}RD=fB*Nt-v5@L?-1}r&A&PF**_43AJB{XI2F&@&rO1G
zO9%^LLsaOeUt`oTYV0?Tn)*!!dN)PQqn3UP^P8jA(Y*e=QCq)_y&IzTeml}wqV`co
zzk`KYqs~!RziTwVKYz5Kzkr41Mct#Geh>58qJ^VH{YA`gj~0)X^p}j5_Ls7EN7Os&
z>-RCgGwL5L>n~$|SG0VzqQ8Rq^P_>$%Kl2`FNju+R`*vkzdITnt?92Bt?jQJt?REF
zt?#dA;ht#2Xk&jP^A|>&Mw|PanZGC+8g1!sVgBN1>u6hl8}pY$+ebV4JD9&T+Bv$V
ze+%<_qg|uj{oSKI{XL^w`?s<%Uv%5(_WtdoJNkEw?(E;m!u-))qr3ZekM8N;GuqqV
zJG!@j@8}c#PmJ#C-^b$1qWeb=^dDgU^5~PJ2m22)e?|1r=;8juqeuFW;5`toj2<05
z)_-jDc>nRy6a6PfPxhZ2J=K3|^mPAe7GD+Z8-1$(Ddw+^K0W$O|1+b{_CL$sgV8gi
zXZz0@1fy_N2-kd02-ijqzlo8ir~e!atwU&i#Bu2@9-8fHDW7L48<4Vblaw!nn?5J>
zzsS-zBYkL-^!+Sl3sSajlJXNQWgAkqZ<6vQma+pWJ2y%BGE2DyDZ4gF`AL?t8!3A>
zNjbn$Zbiy%kv&=ueu{-|N9c~o?#QRg(9K%hAdB0HxLuJ0>*CHEg~*mmf0;ch+#eZ?
zd@6GOt=(!Vtc*P<qgTIukyDY=kz<h)k&|!QcnNPRh4zQ98$x@3L~nf|qij1KkBEck
zqY*jp^x(wA$k>IDK{mxB5yaUKjE#-Q2jh{joOf!3(nS$z92*OnWY?2}@u7=HB7^Zs
zF(SK8MF&R*w;miH8y>kJ7xA~}Mq(r5V>}G`Y-dKMB8NtX;_$n9il@c#p-3z?E~2vX
z;gPZMKx}eiVq8Rx17ajL9-WM%gqZBQ5Qz_*kHq2w!y}Zv==5YXK5{HF7(Nh>N5&`-
zLLJXVqoZ1No+k%mkwcTCqt~CBV5J~MJ(YtDsBvI)JRFG*Obp_qqVQZD7o(^iO+-4|
zk;zyje0uzF$Sju}L^DRmo>mf`8X1cWigMvIC!bpv<astS5gi$#?otyyJAO4c5w-o9
z$w9PuYLFVGwbn*06UQg0cF)MzNPJ{4inj1pBCIqV86Lz(4_u9mT(}q?h>j12BO)RS
zSXZ2;k2x8+9z#g+>2s&f9zXrmp#!G|o;`f@_?ffMzK8+ieTIaC(L;mrK^h3TRLwjX
zJu(uBhL!Ql3O;#tP`nVs92t$FjN;>?gBK#&sIg$#&H`z0Q8kT=RtL{!m3=f6nJ6v4
zTtpGdD`wvDvEgyqdwgtSGM))Uo8pmcak&sdqZ4uJ<iVlHC`Mg&@t|`PVRX7&oc(qv
z5+59iQg?W@dB6&eJvliN<y}{N93_jRk?;tzpJlTmhKcCn-ZMiNBcp?|Q+c~MI1%}g
z0gEPNl|83NuF<rAYWVQAiHI1F$t9VuJ3M+m5)R{QVsgP5KAU5Q2QNe;J+e!EKQ;dB
z0l7$h%jA_EYS`0Hqv?fwl^hut4-QVo2BW7=qj`k~CgbDJvsn;3#b$x*8XdfTJ~A*N
zMutbOAzy_!IW`cU7>HdQ6vJ3bSJ*=2b7@Ec1MEiu4Z_;r;PsXe5&8{bq2G88XhFXz
zZ0t8jEMX%7uZT5l>ZRYji0x7l%bVi>Y&pW_uqA8_Ti-PEs9`myanqc6Z&J_V(el_R
zkNxrW<%R8U8d<hXJ_qHy?hLtPFYi1)V+mIA;h*{oM-b1U5zHV0PqE$Xox<9K=P4Zn
z0=t6@z6A*&WF?3L97YGmCPxQ`E>4bJj%6ncwgeGzJ|YIkhl4yiD<{u0I5rlEB3EBl
zLLQctbc7a}(h6EuR9<9o=wgsXu!OQ}V&od2)|J8NWF#h=<JTu5vS)qkWLI{rvLjQl
z?8tnoTsT3W9f=KKE)TFYKca4x^9N%Sks*L30#&iTkW;n|42%tqMg|6C#{f;I$td|<
z0|T#24n~!jyn%u6_|U+BxEE!Jc~p>lU;rOUI|+3-qO25ZiI0mz7iBA7U}6Wt?h0#g
zg`XeqjE_!qPK->n#{qsK@%C$zJ9h27yd%;X9Xa1QaXo%<e5~^dpnWGAfo_Ogiwt2^
zi2OCyIT~f#QOCq}aSzI4&N+BuzXs>mg%6BYi*3~-H1xcBXtrstLvqw4&D|?S6=_@k
zms~eo-?bGdN*WgnmR<LvN!yuKlfiz@@PWxxY+Vyf7VD}*@YgJqz7cpmaQ9c1dy}2V
z5;eyp-|?jR_^Q!@k_&{A%K3A5Ub_9#-91aw_nt|%9!*ppm5Prg&Bs=aW{XWct+py>
zITj+6p0(eA^ZBd=X~$Bq3*myWF=7gv@NdSyC1MU+@t=o9YM4SthizD<_K11dGb;=m
z!j8}7_veM3`U^Jf(hnathx0#Y?sv=z*9`s6GeXF%?$vxZKYi-yK1?J6(QJmwg(F!&
zlm|J-C*xYY`TWRWOfFP{28ZG!SJ*U=U6?at@qr<ZGFUnAk_)l%4gj1FYCH3go%IQK
z2w)LDyGAI|ZyRn2aUKr$hJ9N2q6K)C5@HbIc;nBsVcIxtp0-ZseHEbXca77ww~TMn
zB*Zf<3{Z*eiEDKsy-CYqdL)Nday(znd#OP6Wq#GRpbiz(3ey(6Y4uzeLgv0HbI0&d
zSI8<pgRJ5ia?X<T968U!ksaZY7$Io`@d=i=JLHfpu}LggT9bq?U{#e;N)t*F{fe(!
zq-tgJ(Zi?CVL5A^KQKHd(t1EC=2#>;%qxBtAz8Ikf=m;{7pNrrz`#&+Forc8qeCV^
zP4>Jh_EGAW;7s{B;ML|!huXj^h>eMGe)_8L&@0#rZsbWe|9xBegW{&NuO{ser3*{b
zWesU>VD5$avvd2>zUGJdc_ofn^J}(;9-*WG0cn5T<5N`y?>v9|`LDh>YevcGn(kTi
zd$uaJ;N<*^BjIplY#>HBZA`X`5$xh)L&_e4hVjY8CfFb0<rXH#C1qz~v5GTocvA_*
z*+ZBy%oveQn?#wEnRGJ-q|hdfUW%-el!=*1g`O?ktcEkfwBd|!*U%R-i!URq_$hKe
zNe&I<U6VLS{vkNBVIW4W#mKQ?lk<khMc{eiDc|~`QzCvFsbe$&UKP?6)pvH@-nno(
zS<#Kro6VnlCG8KS{4J8dWpQuPziT#MFNxEga@M@-tVtL9QpF8Yal^uBvUqF4wKeSy
zBy0gTK6g!hvT!8i5)Y#$@d!Cb;m9U{7}<P&d^{==E+U&^agj|m@dTwgNzMpG<SVmt
zC=!hh4BRz{=MfsCq1w;q=hKvwoJorKRX9KWoPdp>XGhxWPuDhmP+V#0St;?YTJXDS
z6#~_(dE~PR-m+CY`5c0~c-2Whmk<c9=98~L@P!t)O5V;@H@$j<!jjcO@)aS;kEzJj
zC#;srg>!Gb^!iJy0=!F+KaPGQ`Vo2gRzPi{q0t_7uB`1w(E6<aSQc#r9O#<>@XZY1
zn*s1GVG9oARtCQF0KW6&GCrmmBok=zC2Z^CVqa!;4=FestDk@q&5yOO!&wJp&5r}J
zmvm<CB@OVgvY9h&xWq_QnGo__a^=3$TNr>l3{VWP4IuoMISXhLX2BkSP)pyDvs3nt
zC_9@CYye5+{0oEei$HPsUc>-v$R>UQh49%_3ZI;>Aj`_WRH(cv`&W2mRCdyFMBTTX
zDoCN@k4<ZUg{?N(%1g=gGoO((xCAz{p=Rxd!=%B_JIEFz%z@yiD;s|L+tR+ul&@9t
zwWfS~CEwn(zltx(lz+SA-<~e?5?n2>;-K}#L~#=UYZ(CR7xUQ!)Q5qDl6_1VXq+)k
z8_x*hFtUUU;&u8l^G+z>Xy-5|6~q__5-%b_j3yoR17Do9gr{mY?gj-Gy-hhQ;BZ*9
z_x9e!s$|7Z6&7W{NyykIUPd~MaV|h%P(&O<6d!l0SR5y30!}u(pv_7o=l3Xrx`W__
zjl+u%>;)DFfP}jE^XS!v#s6c9_({;HE^aCyr-Nzovjuhn+Xw4l1gw8vLW&u5>x?;0
zY1xy(X!Mrav`O8T)ZZE48kcA}uX}*qSf+tBsz<dM+UT6?65&<FUtYpUp)J;#ycqz1
z4NA0T+Buy!ZJ5F=SKE;lV@3>WQe(6h*rsilG+ZjvlCUuhY&UFC(_M0B;#8m7${8v{
z_iMB2w{F<7$F@0angSsEAK!8SK-(qtL$iLvhHRSRjD6Y;U~ldF(SO4u5<(*$B&QS3
zk7)XYY`_<Zh9O4rCYwhA3W58*B4TH~G7`B8KS8iOBp96pF~tGM6(6}UIX)Q!lIY?H
zf1J@s<owvh$>CujqwHWP9-so9bkbDLk+N;*B0tp14i?0Z1=fp<Xdzp!j)YOU8w5UT
zP*@?z$@vP5<+bGEmkOei&riKd{o)*I{wDroP1xgK6;_(JrkZz4_%k=WdScEw|H6a9
zlCPY-_2SJJ=YJ(x+L|nEd-cRhadoP=UMj9%=wB*d?tiB!S$yi%Q|XrNsg^xb%bsM*
zUdh~q+}3%^{IwNtZOYpud7IL<qPZhqJGfw3%$I`Ol7a1iYFa*aZ$|1po7{PB&1Cdh
zUww)|L1W6>E_vG*2bT($4lKQr^zKS|4@urbN$-(YpIY%Yq`WPXw*{p=usLUs%)KnR
zYLm7)dO19IT5{DSZMF1rY(9VC70KT$xk5=>%bMN7%6Dy6eo0-bq**FyUMydFcDXvW
zt54e1_l_v-dNx^d=GD__r$1r#b8wGN(;jsrT_ZTP9@W69)1HfL;OuD`27-YTrUeKG
z2tJX#OCGH>&4Y8PZa7YuHk>f+3`KEZ);i>hY_#)fB5a)DGmK7~S(_(ephGHVL=|a(
zbU!A*I!pziFZVbItb;b3bq@|>v|QK|SGxkZv@YHv=#>CGj6efQQGpuD)LMy>bnqIa
z(CUh-$9}4{NNr2zcZ0U*mut9GlF6z1fI(?E)U+8`l!B9?6&lcISQG;qXMb+)7>!Qc
zwSC-EAux6giIR(RmZ$<E7|bc2P!UfYScyJB$dr8q6fu!`OEU3U*p?&XXPCSAEWS!E
zA0<LFk)S}1%j9FU1`{>j%8xr!NW5+WaTJU&RYE;-aIpHv%tH+e`&;CUeFY9-VFg)O
zSh_Bhs@p5o?WL1v@IhH1?J7#S8YNfb;?`8_L8<lNy=SD>Ba-VV07f|-Y6}1|Dr!>Y
z+obYscy&K0u4Q;!r{wEQSJkJgc1l${87kK!`FqlZzEokiRM?%as?9kiS9Lxtw9_g1
zi=40|yCY*mpo@i7fGmd5+#C#q76NSxYjp4c6$Q(OKcJKdm$U_;hGJ?fVVfUhRV2{F
zz_a)}C`0@joRE<Z2}7l*v>d#z?r~kOV1EArnPPQtUKJjcH!ZrCOH#X@k#;?kEPr;^
zopu+0>DrBJ^X{a(Ibmz&$12)6L(YxSzfr{Noh0?K!7o#4a{ev;V??XT!UpN|==A0y
zg!D=X;i{c{4mu68BwLJ@(8A;!)2~mj3h*vlzU}&!>m%~=W>XzQ_}3m4sacC7Xg!Dy
zJHiH>28|#Eniv_7sP>kKb=by$w3U$oH=x^tWT;Ee2avYskO7@?Y4!+dY&TI`VSVgC
z#mGcCFq+!Vrdkj%adQ}*4UebIqA_e3vuEJ4is~Vi2Fn2-X&+ekAcb}sMT&xT(Rf7)
z1rEZ$K^b}*8$o*HRmX%-XPxa2p<3ygx~I^lu<>#;=8y4&@L5`HA3razSNm4v)q(X0
zEy~oV`Un|En>A?v56G+SV(6=KwcN}vO4rbL{WfqE8tJsLh*zumf06beZ9vVJ`BfR?
zC|~PQ%%3Z90vPN;KJ6RSFzS^{-prfo3)3-&sHp26>PMRKVT-b(T0xb_dsEr%QMcCj
zIrVBS$`pt4wX~T~K2Cb=)M~V?tFc(kJ@!gGr204fR-HPLR;PVhef$fRwUqOPty#6{
zl<<pxp;jk-qdkk(qkUt%J*!T=Z_!`Jy6d0TaoEgOv*8k*?bkh+=UdhV;Z@0nwT<}h
zN8<sFog;>@E522YyR=>PWq#kve^bH#(4*RH1`bxx$Ifi*2={;S^ef-yXc-7xuUx*u
zu$_=;9fM#huVb9Ym{|<5WeCL@0aH&AT*#n7vYiAC1{lvUPhpiE0j1D>5dszbtmY8G
ztrM>^ybRpsYXcMGF~}s0kAV&gmc8s^CB%jxq%d|t&PO$4k@0IFtY3#9i6u-$hbl8z
zA>Sov6y>})_|iCPir47P9wBZytEQMvkb|l?#{jh@Cfg~Hdu^<BgfqG+FglLPl_={g
zyw!Q=9(If^%#;&GOMyblc}inNnyIoG3C2Vpd2MQ^%2wWmBEbX3LJ<khiTla<O*k@o
zh5GFxWD6MSS+);BBq18PwtXwbu^z(*iNA})F<LQ%VCG<$Rl1v~hFkt;%D4^l@)6w9
z8vugn{C;8WjRW_aPbHiCR!xFE|1}pd$ns#StW_#&C4@3vR-G#Ak;;15i%JAs48J{g
zcTDp4A~c^6rBC1Z^n&>f*Xu6H-L_<S*WHz{btT+g>FT;WpT7O+rIJ4md?O%LGekC!
z_LlQg>*CqBU%vaY<lRjzN&6}|y%A-P-W`>Edl2eM*EFSSc1bn62nDV}np-nBXBNVe
zuZ3cNSkjnwc~Y*R<O(j-ztR4BJFf}oa4Dg~_77}=tMWmhE$u0}RdBO_ew;U*^Mgp-
z_IjIC)ggI0(xqkT%22vIIPYI5OZZwJI<1ujvxi<g4P3mURmr(f@<!$Bm6Td3DJzpN
z;R_*C1u}i{B)CeIS|X&)znQO-h1HXvr_|#SD%2M0)l=K3wU1SmpGQ@_cJg77P*I1@
zyfu1rlwtWH36#U<Qtd}2{P~W)(<S*%tza<ATcz^W#Ve`K{SyAl_v6%1c7!4SwNhbi
zy1ZfGdZMf=U0(g5$akyrCL#Y7g#5cX@<@o|qX<9EMuvrLg$t6Sfl%Z1PZ;#}auE6e
zxhd_sC&SHRyebeTr%k#%EkTz!sf!PxCLJv40(cu>&|)3X!w8`kB0f%A^oW!Q<q31#
zu!#s{8^oDe+(!6-hM!~#RLPGZs9JT~V0}y*^yB{FZLp%(G@3!CjUee-wLU}N&7jYI
zxjhDgu`(}y+5M1JGJT!4-{*eabe>kf%_x8{s)PSt5T=d4ZwMQ18vfAwTf!v*@#`M-
z3;}YnaET_ux@X#^(s9^4w_%>!K&G<viJwNwyO55=Cd6s1L|zT$i?8BG{1zP0SRn!!
z7r#jX|AL%fBj=x!^GD?T89B>v<UED^DgFip{Ry0qoga{gDB7urSP+F&Herim9242_
zifp(n8?MMs+Q1Y}R*a4!Y^xzBi<wfXzuPFs>24hQV-Oa`aT=#oUwz6OlDwhCy2b8<
zw`111QdoMc@@D1yOtP^3hIQ67`%Jp1^j7F*X#VV-Pu%{*V*T4~ciWcDbaYJw4!_eq
z7fKfO-N>6Y%y!KVuDJ5QbmYd7xvpC~Ztj@xy19G)l{;5&UtM_R_7o9A_DQY#?v?yi
z<##HRuBT=V>0c~0Hn7j!_{{t(3pGi1{S7nK__+GIldg`(*TGY)05*@@99b|dbS(@f
zz0I@Ev^O+&nRiRVyJv9^oMq#?-aRSr5y^Wb={<%dWtDd-ZdWXPB3agTqhQuK_sojB
zJYg$mu=uW#F`$mzUC+`M=^&QHhWf?m5U*2aa{d$kW1oUUbO?vwD`P~6Lk5du#Z$X#
zAx}1cioJ7s1oLu&1oNIUmRKrQe1TijH>X!E@FSnY{iVQ-z(;v_<2wsgNt081)FbfP
zO9*;|EMfnLlO=|Yj7FT1LUPDCQYD8OeM>wwcs(L+PJy5kGr_I3WlZ+XDG+)zUSR3U
zZp83@<us&q1UyJVb+8A!tIn>56dKJUP7^>$tDGcBEXj;rPf3H+S}k#n>4lQDGSm`S
zi}dQ#O-t-FrA7;@(V9gK)=G(M5Lge!>bF9LnrON9b^o2^Xy<jDjPm-X933RAM2Cbi
z$g@0$4#?1)&K?oJLIEVI0+6f`q}e$`T%xFF$)QOs+qH5yP5EmSLmw~O*_`Sd7jews
zAUH~sY>Wc@I0VJBjwo8pV-S9YpUs7#vZt+v^Pj+^jQthregx+SX}F?Ys%R%<+Mi2Z
z&PB9;Sk?hrvqlr{PZT$&K@_%IIF%W)0wr}C%E<`J+oh`Qnv4L+Q&rVz*-7w9BPm1h
z$}0qG?@ZsGUObX&dqQe^B3ZqUS`>KD-14^Tu50PJ)V8D2wxh}BV<c+Tz+i>!Qsp8@
z)GCMcOsj;gMj8{sL>az`PFVkB@J&W^)>c<0T}}!k7`uo<T3(_;lgXr}b)wEuR-(p%
z$)w3ikyYZb0rCwdm9%XZC1er*cXHk(hvttW?jR=Nmu=YHN5T+_mGe0NBBm$o5X|16
zb0&wfMU(JZEQ$iLMLUF&;H)ik?mCt9?V5Gb8SB$GKfMr5`g-WCdZA77b<EPaP)oj5
z@@-vuDd~HXC%<;{+JY<TYtK#&uIOCnY+l;!oh{(N{;%n~{tY=3aI%FW{)Pg{IZmyk
zMU}JtR9TK2*!Dx7?CpoW^X-Ru`S!!S`wfK_--@^5R`h1{BMbbz4OGbx{<TNjaN-Dh
zWW)I%LkBO`8MMv!AQu|UX8nD5*6l&Sc-M0(0YkO@CPV$!+f}l65<R-1I^z!sU$P7t
zFMtj7GUyvKmh3%6-GQbpUlo2AVy~H9=%(>CzZrREENVGunYK$@M~s2RUKK*7zA0M=
z1BtN?@o({!z-Kd1n3g7ounwq)KyLihNGvWxOls^xL@s1h9xj{7OJMU$w(^%y-iFLP
z+0K#-jD)Xoz8<Y<jtXZBR|Ry&Oas85p=o>t`5pnloapkv>!&k2NCmY`3s+K2`=q9Q
z_iOgAxo!Cc9~20+2Mlw^ALa{%p>zr4P1^xq=U-TOVR2;f6N!pl>Bb#Dv0Dm@ATEf6
zA5fk(lfy^nb?47MG~zWzfa=dG4m8-fWK<ZhIRKM3d^UBSgl8jZp+myUKoVw*I2HkH
zse?s8i%W{k7+xzh0|4S6V;qFGpy1%W6bv4KeosaRf<m)FH*^(_6D2Xor7}nrfk|y>
z+0|m2GYSQ5!C2&#N$?;e1JTIXh4{rbtw<35LLHCfJ;sJU$i;Gl!_e~yg2)zRvi(6u
zA!PbAZ9y>tG4U8Fe2rarq!h}+w(MYh{4yj}9<2w0%i}|&>=O=NVG@ur)H67isjMl6
z5}*?_HW<y+`$$F6@$t)(6G4d3h$GiBwXh>0WZ&M$FsYjXK`%KUT>*BiIKbwroX@B1
zWA=p{c?e}+=uozVuh48IYBjcmfKXL?=M!K1#O&$s211MN$-vIp(`oo>q(Iw^)2kMt
zDuk1rr&1NL6*mUzX_P3E^Jyx-AD$ebUaTA`@S6?N>6Jrt@^OGpzLp|OrFNQtKkGDs
zHxAsXGJW7qYjHhrha8F{%(WlPis0)%4x3XEfj$RSG^P)CMNvZR%fR>y(y7nr+>S2X
z9K`D(@&L;kQZj9cYk*cI>xgEO+ZzTrj?<xrJ$gW2Pf89sbq@q@8Pw9VL3;*qN3IgJ
zuFNl_2bp>oV^~=@v5ol+`s_4~wF7n%HkiCD_6Kc^>;aN*Bb8L=WvoDG^)OPt6~f*l
zSUj{HGS&zree)DaUu+D-h0oGiAiN;!U_kRY=P>Y_2!Q%ZY-9|;1^|jl!!cSu-<+&`
z+-2(|8-J!!A?~9>uTf4b7w~<|h9v%<l=wWHnEqCz;CzqFFKs*eXS4wS2@25Jj<_(|
ztn-1hbnf!kd+s}%(iM%1&P4gv*^>`|K3%+d@z(gw@uk*#!>J?BOGloc8&7&)0BPO%
z08(cpBHRL6{Ng8;3-5jsB>Uyd@6>#23}ol5qkxyBgjF4k=M%-GbMeq^<2x2#xwL8@
zr7+Vr#<nS1zHFPqhpd0HwkF`|dQ|4HfkZwvI^W0Fo1m@D+{fq1LDb783m9cTBLA<G
z^B>8%04GQLfvFBmRdWpC(P2@*?mZfny~qoxV}Ia|^R^Qj5dLl`JNO$?{&vZ)$owV!
z+qnY7p4)pCW|9@#9+gWLFHt*mQR^R23^{kHx)<SDFJV%m0Al=R17dpRfS7z75R<RX
zoY6agSJgX!mk%Y?HH3fd(J<`)UxBcq_^PN7k&55u;Fp%03IA&oaMyuf9a+F^3>!01
zqqS%~@e5LPP=*GQbIPD~!5*a0K%E-K=tf%Iphs)|>=b%<KjT9)$-}UbkZXKTX6w*x
ziza`eZ7bP8UO5Ap8F<#jtx>A>RdJ1$t|u9RwtF&dR(<gb)u$)3fjnC2YPyURC2c2f
zDli1?&}d-)DDBYU`E1ZS<y^L|b=tRQwXQbvO{!17%&-+3qEartv`9_;ODIdD<7LT)
zkTN7`)IiDtTXFVSlLicXvg9n()OMEIkwu@><^wivXCD(%;KB=kfHI~$9bEQX!{6DV
z@WKZde=z$me)_{Fpr&q$OvI+F9SqH%a(5`2HiO~8383Jhoj;Fam^@j?zy2h-pQ30p
z=j1)ML*KwF7%&hEh%gu`yVo~>Q~1at!)OFmuzjDMLBnIRo9i`dt!30cCh`C=11)sm
zN_13AP(>VzC%Pc%-OB|Gspqet5;9a;wy;lQB7<^4?&m#*WLTbkSjAyE64h{ncW7If
zgrkES&@K<QIA<T@#hv?-OH2&ZrUIQ(ppyuBWh;T;ou_U;wHSZ<Gj~5D1)jLqB~=`{
z_li^jf*w&GODj^PO;TyoVu@4=V&rR%A69SAqBkZg+Y`kdoZuM5!4{-J@ZuGk;i0!r
z+&%H9rQfdjR>i%usl(@_!{?H_o|D?1OIAOhO+|!Yz?V+kIPtYo#!We!YS<<<Y+H(_
zb{v&<98H!TlU&CjCJ<u9H#~F*(DH<O^<sUhWw+F_`=0rJ<zXtW`~f1Ox1+>l+9S2@
zxmR+(>Ig+tJhTelP*$twpGy?i^G177>T3>ANvn5L0+*j_Nev{5ahNAEYBdtPXX9KD
zSmz-1{Mf*7lnI$c!jGat1jN}^^fVUr$3TT3o~<Wy%NXBavokFoq5`aYE@=Qi6QN%c
zrvZ={xL!RRd)H7dYeoxN4?F{SST8^+4`SpB$eIBd!6pRpKd?%TdRjc7LLkkw25OK)
z&=bkjWosMt1m#eV&Zz{zOl?yh+L=ciBdbdTRoOkIZZ1e+)MW%i*B))Ak;KEw(Y7-l
zM((sRs~q7{WhO@T<)kn|$U^vaa!t&If0&6Xu<|v5NHy=e@}Xh}EuYL`h_R%_ZzDCt
ztN#!`vNasJGBOkidBhL#D!xk2k6A?I+Qi^km;*f%%+!c~PH{h>I3u({DYy9llJgNc
zzedi_$oVNbKZgTFx<T^)S8^Dcn~7(|N1~CK$e^!7AsrEeoK;$)%8g|M(HOyDm2Q;9
zu2wWvv#>su=<yN3Jz|tFIylsgnW|%=tvBi03o>^5u2lOz34gYhS^M0c1wxH0s#E11
zQh5iLuE(NIxvC^r)%+{avH^oPnrhrBHSSz4k{WvfSRg>-288fe-nxGC`a;{1J5jU$
z-r#-TF_dmAo_mF`cqdBr*Ym2=u2L|q(=K1y<%N2V-vNrdO9<Ads(YpC-c<EIsd`_!
zs47)dFBR1<zLaX;FSYN7$X0N_VNEaw9iYgt(h`lkCEspFmrwbaKu}xKw}am6Qod%%
z*SuJ^^yIQ5={v|s`u@PJshd*^NYkn0Vdpt?!%iMw|N93PVvELw*gre4a9m{sP=95m
zTX9z;6kzt4qsZUWAd~Y~)c2%EzWylEt{g@1n|&0aSAG;BA3uta?~{fmOJJqE`cB*J
zwp9!K$fUBE@y5?1RN)Z*wMWIC*S?IPY@!fnE{9E;?z5{OKnSWyMyMs3xmpt5ZIEQo
zBXuMA9T8{5#bxBVof(DAoF6HG*$g*QxRBcMIrE!J_5B_eW(+$~LLvM`$l-#&m?<xn
zU@_*yhEkLn8-ZFi*|Jj27@3CR*VxX`mqW}YU_$?E^>EgmQUDZ*50E({8-(kMMy)Y}
z0O3f>R-qN+!U+vj-a0Wu-8N}xL@j`1j4)Q95f5zn%nZYP@q0FYC>%n;+M~61KY}(Q
zKI@(1<JyL$f=88mW)i9C(8h+vtBb>mBDF{d0ch;gr!i)eBFAD!(y2QA&&esEfxd~r
zJPznw6(r?uklYPlk0#wc30n`FU$XTwvuBm_i3E*^VZC+{&Mnx^!`=kn`bTf)%zPxY
z;fSE2vm+BhL*11|kml=#-y%{4Y#rFh*2(Z-EPfW`V%8@f<&&V%#O<Pq`Dli0ni!u@
z)n}aOkQi-ps-zE0EecbOkL@9?xMu34UC2zG)I1v}jhU3YS#mc&a8-O@GI|{8#<n*u
zy?zO*k!O>QPp-0{Bd1stbXDvQ){QycM{Qv<nnn;NC1F8ogs~a=WD7%;#8Ze69n^08
z3yLbIk3JO^OcZNxqmbww86AnorrJ0D6rJSl^hI=d!_Ht83jOmXv!6*Q_CCZ(gy*zX
zqY>Og%to`B@rLQE);-vuaTa149EQuysMdJ`x*XF6W}CpI!i>)vNWKDmG;qc;>e?By
zE(oEzGLK>FBMQdUTX?|4p?c9Go@UxaeoUb}jtERSnXxHmswz0;1Ak_GG8zt^2Lpwa
z<RG6+T$?FpMin=BftS3xj~&`V7I8lU_<1S{AI?PMlRy=I2YyUV>c&h8*%po|CZTAF
z(>~7jaJiU9lvhHAq*$Y-LK~0fx}@DSlAl3|P~<JGO_jFOVZ)KmcvswI^Cu*C<6_Ob
z?p8J#(*<SoE%SjyLvO;h7rVIKkwA=9aC+x1&AlYqYJXVl{mSJ0nT6A-`omKFVVr5|
zk4crslfDzl;*(&ed&=i8NuK7#XC!yW5|+X4gl+d@W_TZ3w-Gw8j=vt5AejU`a(@OQ
z(jtby2{ZhqtybB|B=5O#E_MC;X&uq*RJ*;9x}6dd6P4j&Q%xIpdQQT9)aA9T%R%)`
zm3K<zoyqd9RQUm^`~a!cRi)f5lDj2gYk9O+Xz<y(|H3c1S7wZv)q=I6QY2A}`lx-4
zRYCiuF~h>ZsxbC}bnqIIieH3-xlLP0)*P;*sB(m<8>u$EbI8JS4fQJ@5n@CPTpfvD
zgu*G=pj0ebOzqgXpC6m?AoY7M+QEp)+)zi--<I<4mi)UxKF-YfAG-Yu=2URI6x^N+
z?p)q21rNW|f8YH=!uA3ikx=P+<;EuZyqCx!c+5T?iVf$<;tShMM4D<M4Ia0ELF-*C
zLYV9#{_DsPNFx`=!(2kqOKGXEMAmDtzPo{;4A==4L~?5A)2R0eTQnLhRf$0Ns(|06
z_>bvl)oQS8ou6KVf9tB%WN|EdS7B4lvGf#~Rs+6hvQ#hnmWr2#mJfa7(o(e)IzSQC
zKqRe2t44=qPoj12s({~nbsy5tnn{gV^&2g%3q8QEEv>6Iv*ks@(yosL`ej|knm2@&
zX%BS}J!`)Y=TY1;0wZgLPnIDTM%S|6%sFqQYY9<Bpa9m-xnOcF4`$eG>rzl|n}T)1
zNE^dQ9k7|0o6Z?=LUYp<$)`GpZ4B2eV7R86;hN>jgv&AJ!!ZRJ7SzZ-rksbZlnkiJ
zc6d0tBRjwmSNxn>p`z8O28QL7h5YZaoCzh}0RKVk`bS-epimfJbpUe$k1<<x|BR5q
zkZzO$y#+eMY_XA$iAg0T&R93Zxd=B~_k`Ue!nBF7C@2Kv=}{<{VE4LQ^r}ahP`^Nr
z8Ud>sRy~SD*sP+obB13%LY&Pj;PwF-u&Sj&u@lD-8pIg~dQ&69W*ViYyi}SAQ+?sQ
zX~&2r!=Wd_9?pyV)zm6(IpdtR>nUc=xZ)a3VuO*@p*pDTi`S_2OuMFCZ`st^pq_`7
zPR~sKv=hQb1&VOdafB3PDL)oms^{sl-LQlDW?Dba$tJ%sPLPZ}mw;@of2Q-*F@PFC
z%lcSBc*~{IZ6LyQ(k#rlX9}j>Xs1VMCy4Abo@q~*)i&)SlnQUWUF>bxh@2(JS%`Fn
z$XWEI;vo|gpu#bOsRk6y6i*jT7t<ybb`VMkb!Ep`Uf7|A68#CKl%bT88KmCin+mmW
zvWD|%f7m2_Nmlv-N<VEqql#n|TvdG@#b=r+o+*N$mZ$Fsi0?&%Vd(n7z9$R~4{(7Q
zpnA0g$Lq*}6?H*uAcqQ;t!zV!P3`5sK@gL$qd<@*K2DhC$XHMTJHe|LBV)mA>!iVv
zSWpq$5euon035LS3shW$+e+o=XD2FS<SjI@goG%u^Tx*+els*Uc4aUo9-<Ual5+}9
z$Sa#iz^muSN%kG2T*!{ga?t>o0Z<YgCe=vgK*hE{LZUKwfo#H7FM9@P!&gmD#$Z`7
zAF7i$p=t1xAp~RzS*)e%_me|M557aX$VW^n@pI&yfFoPE)RfplU+m@QcAYMk?OMZO
zjFmSPT9Jx`kZjMio;92yEU;#eGc;>qn4>AsmL&9#i%k&WEjB_HBhiVf9c|YAa)D|{
zo288L@1S0lP2#{sa<20JJ&&-M7Y^b0k35QeT|3&Lo!NBurH)6(;3U>stOd?bacC<L
zO3Q8?zj-`W(khj-CQI69?JLfr*?r$F4$MEdY`I_jM8fsNgFwygqf%gdy0|P|Qjzvn
z!(8O5U8vl#CRi##Oe>>eI_D1Yf;yxU{OwsPgEMPSm)E7rd!+InAhh7z+i%-b{!Yo?
zne=z1{QD&TzS;a0XCUPaO3vUyRnoada`vW+E9S3C#f>;+<U<YdDV#0x3leyTA;8M{
z7o^h0*&{2Sl9Z=G@-!qpP2Vf5x>>o9x9Ck&Z%Gz*eXp?mX4(9X`}I4Lg*#XCg#2<4
z2g@2${w<P!%k1$7b$dzE^7`%Tsp{QQ_3mVK?}LiE#a+wC?^hgoXff3nBwWD{N`$J`
zwfwxQf)8Bq%^iN|6bdWTrRBH!Z}u-3Zoa&5_>B{<pICh5_0x%x?gu4hw@%$Wm8jX4
zEZLq8?M#JEOQF+0$umRp5X_R+)qEkpVpX8hyh2^qn#ELE@cr5?b0<KPEDFpYK<h(N
zVe4Z5vf=K_%OlW8eAja<UAqM`WN5sA)E_v66Ncvv4^76Jg6|%G?pwQ;58f-DJ2T&N
z^TmalFMsl;VX<)W%u>(Y7w<yva{D`#C^*0B0|BWY+Jx>Mq*1y&n(R82a8=HaORkOw
z+jjr)OW$}Y@#LB0wzCLKRCP(N?iF`1VGI83!w_2fvk!|<@6Xn3C?iH&=wDPFC^%YU
z{@2~UqmAaj^aPH!TA{N%%&p19WN-F5r&X)adb05rjR5cf<pI+%T*CBS|AY-0dtrLV
zHqdjFT-qLJ${bl9&piQ0!KCKON=d+D-2)*QrIwGI4jdWfTY)S>UF}Jf$XNvhc5&Px
zNX|oPxkHMn1K}J}St7t4ugm5z%)*O7#L8}Ba1D?!CWjMp9+U8lgt1KwQbE0xc`rFs
zQLcQuT*{y+24R@&%EuHc-_(|k5!eph9J2%~UPk$h@?Y6_=k)E<iI%;8I{EEi`PQ$z
z)Ahf6IvME0`hVaqeo)qtDtkgIdm`=eCCXZ`WXlUc(y!i{s@fw}?O8sWtUC0dyfan4
zLn_~~oR=)$4=rGi1NJx-s+Md+b8*YTXpEU6%bG!E)UQ5-Ia4pM;d&6^^QO<+K5zfL
z;~#`Go2Sisvx{;2)Y`Is^=OOWPN5a_e1WiUeY&L{4s8JrZ6qA}3$`0JT^!nqaGhEC
z1!#4}HDQTi<E(AgKI@nT89r?MoNFd8W6TOO9rl(pbMgWa1+AcZQWulJb`E8Zx|r7Z
z+UMZ>w)vKDBabsJrv-*agMz{Z4lf~o{WD{{Vb-HTPaAJoam>IJqG!gGp~vaU*_du<
z>_apavSbWfIfSfqD?qj}bh(s>EsTJrm`!Im3~q}sv!horAskpxK(L?=%C~2cuvFOz
z%_AUAuz7ba4u0BE44-VnM$aamNE#Kg8B)$sD9~hKEkqi+pwQMBsvw>~O7SopjhXf;
z9!`jJ6QV+eDEA~x9o=lzDXpDk7b(O#dYN&B*b^P=3i>)N#%J*v*tpZa`i18uU;E-k
z2@I=a>596Ar=*Ilsft}v#je>?%*<YoRNO<#@Qr)0kCbf1LB0g4@ZjE;G^L8WrQ+_T
zt;^NP;^PU|aehSSa0&~N?0Ss=9$C5lciEZsIUMh^i>=fJ8R8D3RWLf5lM`QfM?FKS
zqG+>7rwAB>8YKTA3T3d1`jCtEGPLSBdL{XI@o92cZtClp6WM?ReTwj){rmSTBu@sj
za(i#8;}`4g-=R*ON9q3+AkHNed2f~7EK3zOONGtJ!j@Splg(_C{B6Kfg7t6MU$>`%
zd!^uB?54p}30q~_*EJU>wq?o(3j+8%nb>*)E*OMly|6<fW!`joW2$_+RK9)Iy=u1G
zPZ+*F^pQZntIU1q$7Y=_3#NUw=|JnlJac}*swoFJf}ebtI_?NLN68r@hnB5aMLk7S
z1d)(IwtI*N$yZNdHE?8e6zU#gh~A&4m~rw=z{yrDs-YNiPEeQpIbs<RX^*95#Z$a$
z!7pgLMP>8F^TYEMQenet9tGKil8X7B1?&7Cskmv?PC*W#G%$Z~!8?Bv#t>JX6yy>d
z-XG_aZ_3~T<FdGV)q-CXSkt^{T6}KNDFwH#=24JMa1_oJC%mnR!dA)Nwq~cmKs7QI
zHLP0jyFL>I*#v+4s-1ie!BH?9mFyKCIq}NpHGR|&zDIkgx9DM-vzd!Gh^Yy}kxF!e
zNiV=v6Np7t$iLe_8iLK%oD^2}mZuP@%*^~3F+FWydRqGJ*UcfjT&B!Nb{7s)=1}iI
zVI-m<kox1XM}=5uXxT<L4bR4?Qii$31Q;-K>mNNE5h{6s6jbzJF$77#MWKT=AhAh-
z#8ftr4~Dd`#m`o|XL#^(L?P6&B@dGCAX18-K&Q(N0@VD>DsDr7NDG{)++ZE6B=iDy
z@}sMQ7+jue-mu3QL=0;wzeN*uH!1@>EUmirGO+R;iwBaW9kY&=5`X42k}TPRgNU~}
z<=rBAw?MbvT|VD0xtkKUCN@F(V4f!O3Tey84j>`p{KBFfqud(ix{T^D97cW2HETG`
zzz2T8;b2q^G8<un!FiK@4JyVl21efuHfhvCZCm${F$xS}UWUrYn1br2sthGj=sB(a
zlQdZN@hdpGL)t%<Gt5MGmJ9juoOL}PPgNY{Q#7nJ*y12LtRxrTH$b!}Q?vQXn__@g
z;j?I!X<KM!MlhxdA7_jQ?demkA7@f1iN8bhf-n^Z(!JHWGo!ifZTnq&s`-r6d?wj^
zPO>%32IgkIzir=q%bkwf9gDvE<z4sA0#aLr{F1q|snS-dv=zV{TW-1nR=h(v`g+@N
z^z{Nt=Mf5<r=YOh{I+8~sHUZyMeQG;ZUX&F5Q*?7UZmGk<U36cF}cKk3L|HkzT_f;
zh@5Y=G%w~YnU>Bh*`(%OWXZmHd1#G(R{g?WsJGdn{IddkhZa%-vU0#|n%@a)yQ_H=
zWMhCiQPY(ObV()MOJ}8$U8|Idpl0Bq6F%Musu~<GTII5fj{{Tfise926%SqeCcZG2
zfZq>FU6>4kK;0eEYL>6zG9z4S1X4ZOs|AVP2GTn&5F&^<Y|Rn+u!o&t*Vhc;e30i0
zB6*5{iTiT}{m!rl#Ccn|P=U9$upRKZ2=F-{rDerHOr#j01>us2`%)0Sx9$m-ZV>L(
z4@V1qD6cT=N9|=ysHGh5Md6A_F={SRzQY_2Aha}Gi4a@Fi?&ta-3Py0&y<;-`7*S;
z8hOfDeq%TYe+9dHW_!3sziqf<Q2!h2A_3m6aQy};Snn&}pj$>Hz{bZFZoqC<iQ5Qu
zQ?c(0uIpmFYQ55guc!()N2)PKdHQAW5v8LBjX6qmeZ15kFO|ml385vykKGd6$1L3(
zZb7*<xKoi@ju{(n!+Y&7P>(B8_i_5><E2u*)*Nm}E9%jTk5zWKBhtY7{bQw$G)D3`
zpMbg6a3|_&3UB#%J;v(liqxS#wH#Zx8znR&gx3!UK|M*O^LoNPh!6b&eX5ph4sS)y
z7L?qI)wK=&HpbFx2WqoJRxH9D!5weoV_`+${AdJ5k=Zp#XL0Ku%-i9JaS6gp$}cwp
zDBE$L1>O3FsJzJu<^jz77Fvu86Ddjw6weSCHH;|YXoS?M5BV9AN2H;Rkvw(J7Y)~q
z8QNHeLiJgLdR(5e_fE6zdHRW|;8SDK>-^F((&c3*I${QBVmvrjJHT|t1$x9>$Ni0T
zo7rJe#C?z^*)$Z5v6hP>nxD&?=b|QbzP$)7O$eLda52@*<>oi)Nrt+yGjS%*-_!0!
zn;>LPoW&_;mE^3Nze;L##Z^Bn@F&XlBnx^IwqCv|T}DEPs6CG#*-5vLsj_PnqERyl
zwIPxV>(>3)nAS=8>1g}wk%4rvVn_n%=>h>;)|D^OCG0?fRFAL|W-?9CKGBdlT!59O
z>kniu%YF^eyKEch7CjbchD<8<$2B%5&`M${tb4*joK_ioz&h1vHb5@bO<s-0FNjKn
z(%?ZWz*6Q<4x7`XhGu@()uGXP-m<D>Q<SD@8I2W$b4q7#T5J|u)NrXTQ-|uqSJtck
z%x^gFf~IVn^Sv5dHQuPE27{Gm5FWHj6Lm*_5E*0LqsIV6F0IeOkQ4^AUf-aMj&+6N
z6}d>Fl06&b+M>p1evwOKPH&K_JCj=VAy;Mw=zrx_HEre>xyseI4eHvi#%F$!OB3YZ
zAlJ@JYSo8afs9{w9Ox*x?m;e%{T|<|Mxs`ov?`cI9*rf>b*oMS1aj`3OVK0Zszs|P
zP%hOqhA&<tsPADwkzk^7gD7b#ja`_83Jbpv6l{U(R5*uftW<u*8`qx=W(1FM%_u1&
zsW%@H=LMI9;J#m`a4i?IRxmiPCMm*kNVR<cv#*q$>2oo9n_NPtZYK1}E}rC6G$wM+
zrL|}X#9yJdiR7Cm9}Syaz(lb!)nBD(8fKA<7s%D4L=a&746ueWH@qtMjNmdtq6rWK
zTZ|7}fTZI@OlHPsqvIEFeJ|Z6Nm01el@WO_UXSI3mQyIVK0C2Ku887LBHdrCmcqhd
zGegV@W8`B5K**BrKva`DM#o_?gX~SkWD^ks3aGqHpsIJS4Oo^<g3nU-oJS{Ypm*N1
z$?m9L()W<I#J@#hpz*4*;dGH+VIWlq7GWq=*drD8fGp{&P5J1e0?-))O{u_EDX=va
zI3fj(fE|Nt_fj>7rJBR<c%_=BNdKy8g&R{z2b$@XQn27Ov0l3*XV+5Gedq26!LGE&
zoAT64o_g3}ec-EGII`H6^zBL4Hl}KKO0_$oja360@_kn&^tD<J8pv8J*@!*+R@>5*
z#J=Z}Ezg5R*@7hRxrkj`)4&p^L+$k2_@Jr-7YL^O-IBkX)l@5aY7-4R67@U5Fe)R4
zQAu#YnrPmcEZ+6NPljSi`3w4Et3^V7Vaio4xvEpHeUfV*7@YR}`?fY5U2E(3x70PI
z>b6UD+f#KXq`DIn7EISSr|Ne|^*d7ar=<E*6jqaN=}6(4nU=k&mKUTJsOR6eHL(xe
zCe?0B)gF^-nc`iwZdgMo)v!})*qLhRlN$OcFHFKhcC%e7Z%>u)l*)IK?%#u|8W_#(
ze7!SS#V$ZpEcm^T`O%T1k3jn<!&Hb`k#iA*F7XI<ItjnQquH-l-gzi@^(cNhS`EgK
zY3j){kvN1!MsTk!pYp2UG8cOY4o+ShiH^VswPHL*GY>N^1`i)Ndg^dbhg=Z@2tmSu
zY?C$03hDz6nRjt81}#020S58QnANHnE%ijU7%hvO+P%plc}#V+=*3tkO2w@pR>9+&
zi*u!$MBDNE?h^^yiG=$^+U82xDkNJ)%C<wY?O3+HXWPe6OAUFX{?mqJ7%%^rL!uI4
zaSky~rH^7b$b=3X3<&gq6C8;JVg6u)kq9c{DIE?6(aq@T8;?hJ2hXCAqfehx%=h3b
zYMf<)S4X1Jph|H=Jvass6jz6y*vwin)C!VJngj!S<VqyScbVYGaB%PnF7>8+P}?9;
zG=61-%mM|&*Kzak$dHn3lAoJ0W_jdV+Gir{2JVgK3O2!iLhzIJ5AnCjalm1`i6AG4
zQQ*{pO{T}@6*bc=A)JZb9g{svp1$vXCSiLf;eH0{D=Bxa<gQJ*4@>UDN%zr&?I@cj
zvPapq==OKq>Wyo=eCnnJAt`M;8XcUFOVtSCoM8jQo(wvF4oO*KWs}vEUxbCtML1Rb
z)BrqDk1MNpssU!B!3$Nl$;7wq0$N;X>v?`Xt6ZRbE5GobD8hqiruaKFI=9G~hm$LH
zApTDXnrh!<lyd9orV-h}Mg&YEd%n6rTcAvsb_Ehu+Y&oYVN0<SL9@Cp1u>PXu2j{2
zscL^lDOkKg4f+C{Ap)lAqpf7+bgkb_**TP))WIsC%~k?q_)U<rX*0vEpbrC(+=lXe
zd{7l^*BX^`cou(`I%(e~owQjUd#T&1&|FZsty$gHE7^L}u3)0J_s7&{{NU`Qj={h7
zkb<-m|7*VmXJfKMICJd~RCHf8T;E7wM-#{)T^U`rg(ggseVroRE=t!tXU>xVg%F&f
z;mVSeG4rd;*M%BIH$I77Ev|B$=sVYCUe9W(ru!HmR0vI6y1ab^<E1jM7=e50iA@G(
zll+HhT+X8X7#Hv)tC+rM$5K7lDs}o2&T3r2yAr6qbK>@iMAPnMU=QJI{;E5U+m3~O
zNq^65{tw*^>B4F<0#wzRE^h+LMLY(JDkh__*I9FOa0!h?^%DAFBX}aZ04+2afQBlM
zf=@tvoQ{E{Yo*A05R_W?s2dkXTi0TW=*x&qVT5&;ow~ec%wu%7a`x<0YRgjFCRUo>
zGSvjZiC?K}7al6)m|e>EX4zoGi5`MJ7Cn)4uq-s%1cZmZ-2S2_*lU3ZFI2!YvylpC
zD&YLYmdDRbbX<b?#5iNTzd%WLk@FomxbK<UF2IfBgA}-cw3z~BuX4oHtX^<q2e^lM
z^g`xZ3%)VRB}8{5*;<7K%V%-VrnC6bOwZBO{a0uY11XTMbO+yc2Nz%qV&A(B`x3T&
z2{&#8uU&XT@^!OAN1}O;6zEL_4oZQ8$-rR}1GNgcV1ivV{h(og+7p-$r>Z)os!kyH
zjRm-D5o@BcCDpK9YS_LsooqOiaMiBVG^A?wNHu#Bz0W3V&OmvP7EVXX*CY9Q5?c?y
z)0Ob`-1nV^%%sQhec$Oh6Nxr@zI5`&$$7(k*LyBVV4VJdA|WSfcl_)_0bbTkf1Y3V
zWXPNY_|VZD-6pEVMoUCd3j?W<;Unu%5xIz+n{y8FQ(c?%_oG>&)Z0W`BUMlZ;YiqO
zA4NxL{V`bmG;8ukVrF3jM9P?QE7q>@RahFujpX{PMuXObc=j>YBhd0YGztGH9CiC*
z(3GZT&h`Zyh+P?zp*Bo)Zu0T#GmO)x_wY~m?w$*$yt{F$32y0Jehv<VWt`rGvnpL&
zI(vMDx`y;)7b}wPZ3){pj)&paLUy|j-B6=iH~_ssm)ele(#E(AnOKg+Ky4c&dKhMd
z=~rPF0-!`694VXCn`R`&qs$U<k-AJ-$Zt^}{vkR4GdXXQL*2N3)pDC>jhplvaDTcL
z{t9(h8*0S5^a$A7ovrCWaP~Co8^Tjz3}NniqIUaoK9(6R18w6ULav-G0!8upPsE*#
z=D#ke)%0OhrAecLHqsS5Ah>`ea{=nZ>iLdp&N<)x5xQYh)G)WKU#AZziWA#Q2_SK-
zyi0O-Ewv}z`xCbPd_LqUNNNuDr=i#X1x0+`_<76ctvRPTY<23!KynvfuzUg6y2rJx
zF{3#Zr+LDjj73O2(td`A3As$;ESW+uK_(NnSAL15T2ZPQrJ4Z<G^J<wHKPf`WTON~
z)IqeEOBE@NXFoJ~Y3Z#!3+K0uCj|qh!3`74*MdsQ#81eAx9$SCp}~!q;Whs>pv|!H
zcMP`-2H~}8Gb|<iq3NoD2|xgF(uI~Jjfs<CL_A5$fYCQ?$~bi?=LS_`l7Up{s0@!>
z8&Hx=o!n$~#3I1t2zyg9<VsEE7WQSDNv-(epZ?!OSNprF#+!~g^IRCH*sXmx_bqIH
zuec>$QN2(y-<B+C{J<hqH$m<l>3^-f$?$vjCId}p?fIqjq4@Yd6#pgbLGh2N?;h>I
z?sXl=<YmTjaEI~;yX84Hb>hFP|8mN@wNdxM`1xmUerDmyd%lkK-6#GDeSlS@RVX4q
zl-lEy(1qu6FefPVBpj8b`p?xlB7Tc}e@4zSIe!XAA*p_fBtN;}r)T}>Z@LMs&+wb{
zO&8FDpMw+t6^)t&-(t;I2P9khtZlA&)oijief`*5=f2tVr|fpnM9(3q9XjksegY(;
z32L&4-uc$yZ`OTt@{gy#F`ei>D777u>JGDL=xTUslkPfTImw2d3HQ!~Z71K@HRyth
z398iLpGmUwg~*L>hRt6y%@{|R;Q=g6?E7qCk{v2tsWTNFM_O!TEG=Eu1o^Kk223+2
zP-7Z^b<ealgXYrB?b9ZtwuglaP@`pP-KJ?9A-P~R!bgXK={$PJaz6n}*03g}E&pfn
zt}CsU)v{WpW%e1zCSu?)BcCzHM_QHBPOYYT70|#^Emy4|k{^S0A=A$bGxt+;aGrfm
z5NF@#1aVIO&x^A&DtG*epP`b!4F`bC!u1kxX%ORJi){Y>H;Qv{6rSd<?4hgdAXyJ}
zxrqso#$vLQLX;KB)-vqYfp!E|1P_#*{C9u=B@q1ZHQ6>6xvIQgjz9uiN$AKbiSz<M
z?$aK=Cj7+qfvy=p(`F@~+OY{J*eK)g(Hi-;sEk2Ppyjo7>6%*neUN7kK<&#9+Pkl8
z*7<jJEg;L!9-3=U*KbYL@0RL!|GWBL$rHpK@Mplv#|?CVuO$J%h&#Qvdtoql+lgew
z$vGSJycQrf+>vhYT0FA!%-s`nCl_o|NhsaE8(EJ*xocra^0a){Q@ZLF8uo$*;H#KF
zo$!W|p3rKkP~W=h6~O$cXp<`1{#`}Kjgzwn=e!Tfs_vBCE?d~X_{#mVuGtf~Hfe5Z
zt~2SX0bmbw{){1GpMA3ANw0woNe+UfAq_z+RUk<E)C>(7iWP2<Lfb3FcQ#0&l_3@*
zh0X%yz(A$)jX?ur23!BM;R^UnP<qC1%pA6|_kO4>LkU_e0)Wsf31Ueqs&fWnS&vO?
z4?D8bIv<-Bf_hnL^B<cwKU|PWI}Icy>}GA>9`-2Tg1*EzbcFF0kNK9OaB-%baLHrS
zmV`?)X{k>3uRo^VH?f52K`-i$hd1oYDvi`>{8J~NjnL8!Dr=k@&p%Ck+NUPs!6>s#
z6&#+}863J88M-_%jw1?;-j4^boH}*dp)Oz``Y>kSF=b^8-j1o#Toy66(AmMr3qLO%
zjsSWnM}rQ9^w=T0lsny-`As=r0WSmmwKP0_b&Sa;<)kXO+MV<6%_LKx63^~Nx|{%i
zwsccY5$>y9JvjkoIZ1O$@le|AkST|DEl>yUvbfA!4<Bw7C99&aQOZHM7M0&YcM)l?
zuwlx+Qp=#ktN9BcGDNqScJNxKD%bUMZZwWEgvN@02}eB>6FNp$$I+OFbI-+%Q2C)?
z^^-6}oWl=kav0-LM}O+@X2AGk74t6%G?SDrBi6up=e`^J=6BwA)-RghcHea;c0P5#
z`DqdX_A>-`=l$X~kWFx<oa?4*{)I%-6ZZ`FJx{KbmXUgF2`KNLrp0<#;YoX{7Qp>&
zT<lyvE43V;5?U88NX6UI6}5Nv-QJgIeKK+AY_j59qU2n<w0+4ZmG0D{4kivim#la`
zQSyAcv~y{PRJvP<O8dJ($-(I~0Ba-0QZI`2b}b#1O8009dJ@}?<|Ob}&lMnDQPn~T
zbWIj_FPBKId+(LM6PFHPPpMzblZrdFntPYWlNEi5lD>3l<05ROcIm|Us#t*~6|;RS
z`GsE^xG@0BsrU0c=n&9*vo{gklIVUWS^R9m^(>Cov(85`Hf?iQ2AH@dTmYFA{~&n-
z^XkjO(sYkcIH6&<=z)B{RToTWwgiART_&!Tur9S6U}C+%yQo#`9^iht>7E9L22wja
z8ycscS_ia149Arr{5VBC$WgE#0i$wPN03snV}S;@_%e!hOu2KDc3`>uANW|deq<|<
zp~zS`8`GD)xfzr-LyDi-XBd9^Az=vdeK=W?6$<e)FrYS@5%hCbPHbw=W-IM6naLJQ
zY#iN+^#uWgdXOd4{_@%U9|Y=doC2oP$gbr*AbAhmt5155&K_NHdsFTj$z7AE?YZyX
zn)WoNJnfRFeevqDHPNx}J<t9XPbHVESh%owCDE|`J<pESe4(-)L>*7#!c4-wHDTMz
z=^3yU1{=vS+{-)^*QaUxKKg^rK*-sHrGhv9s2DfS3N$M*QPuMRm@QUpt6zi3H2R$<
z{ZL^1U%_0V?RFaT!^%kiwv2@7v<<dalrxKX8J0fi=)3OG(>_sK5w=`Dgu&~Bofu85
zF_S$j6@==<JsXs->S|>&;v}L+>{rXntPgzxKdxz2`U@-Q%QzirVuhJ1&@0gD%1ZZ7
zvC=+Hx<8?_5IY^=y0VaUN<M~l0~2t3rw+1>EXanJOklGMaN@x+?CHVtB2ETFFh_`!
zLl#qCLnbnNNGu4;g~35soEy7<qQS?SjHnj`Q3Zn{lN)&Q^l1of;6`w5!7AuN8$&-7
z8zR&M@cU_lRg8&f4MC#@heQ~%2*Qkq@&#Gf`iSqM8^sUMX;TFqITBW!VnIi<kWDs$
z;mg_kCy`#ZK&C1Zl`X@NNEm?e5NIRICKy8zR}ib-!OF-1KcwVtF>(Qd2pU~OF5w@+
zQ34Hc6mW)VnAmezIT^?yTX+b~A{F0KphwLBE+4|!sIq9R4+gZaN9RuM-wcFoR>DJq
zBY%gw8S%EF5=JnpYhZo$L0RCdrLzSZIKfU=*u1z^@^r$$#(ezdQ|XfW#Y0lbmX%^3
zX;wBu$ZOFo1={Bh|IlB(U|G0w-`|lA)DRmn6==hSL&-qLQsKLS?lgFdr*5D6YTx4E
zyMa!Wi{lV@iz$Dz<ZoW|zFl#*;?2tY{vByQ3}UoM{+7k9_x)Sa{@{wIKILhZJgtjo
zm$onVz317p;;Bw~8VMUPFAgt!`aRF~)m8#n9fGGi5!|{omT(_R*bXt6CH{LFEic5$
zhb{v_RREZB5Y7>M(Abp3UCE}%s_U0g;Ik<u=stR&6DR2IcG|v4hW-Hc<`k&MH0kjE
z9NsYwGkG&M*p#wOTdo*l8?ZqcS<a#dt&mT<B!DO})2e+bv!02(jAa0bXE^kz#WPM&
zZJpB&KpIWd*g({kPqDpPDLt-<S5Jd3lF|HEkA<01R5*?LHf_;sUq&5fV*gBSKLw~0
z92*~NSGVMLb_&r>G)zp04J#Iesyomj=PQ^yBWH-v1^f>fO)g!UARl4P;(sLPLpX9C
zIABZ?EP#Pji6%5<L|WzIDmi~o4kLK}HGHyz%^^k#5&sPZ*a*hJ*iKmdFO-tXjp>s@
ziouP5gia1Jv8jH7P97MJ5@PS6#Y|kNypopeiqp+GoM6JF0=uNZu4UZ(b!_(Z59+ok
zRFEHRJ1Kd(<{a}U7yT;vV=<iSIP`AEAtHl-Y>In+7fvpfCw;whW=KRX9FqK@ISa7w
zl!rtj7q;H_G^c|NsbG&3?3v5|uBUQ7vhecKvHPCAL=7nvwx2S9_)%7`<a`ipTC^;F
z=KlV3$>4KZ`um=qtRmm@G_TeO^<As=f~N|a>m0#FFKUmrG=Bp@*-KMTVt~^puq4q*
z>mNPs2|djT<aVsj%k&Erq?WTX#%c8J+UZoBz<bCd7vn$;31U?VhZD_spq7>g7P6Fz
zIt~wVl4!58ABtb30<9v10tC67i!XEW<XkYu#eGTKnaeP9Ddg-z*2}GNX0ftkDZub!
zF^hAv?4o%{#8=Ei2sipu?rzE5oes9rUsaQGBNDf(l=2^t{0ErqYOhq=yUxf;4zWuc
zZd!hXO@<A>4<b_ro5b({Zmxe+IIUtw*@ivTI0nOYaK4NfD#J?&LhG92eYHS;Y7k?a
z<<a0`rgcQAR-s@Pyw}I?>}u;_Cb&>7V_LiL26h7-dP+6e1JGCWfHLiT)p$aHtwH@7
zoN7uyWSdyOL3!F`_cO5XhaFD8ELT=p`Y8lGONQ86Oc0|{#xT1Kg8hA=JRH>i0^cKk
zhn#<nuTlg4oC5wbE8t&Iz+bU|pI78!dmY&{o+-axBq_;pvvMZUfUSMXyDpWgD#vg}
z)6dI0a>!gc75H@GvdcG8`K7sua*B6~`|&ZdhY@i&rowP>zJ>jOK9s3FFpY=*hmu-3
zb}5paqU>UOi*oiAe}Z^iaW{w<kzuWDD`T4)+t0pF#j%a<KauZ0!;vd;kyUQwNdY6c
z<Bk{vq8wnqVMtSFtBWXzm0YgGDsY0Mt{hs$XlZDuE_t{Jt%drfbrXa(``Zo?)bXLg
zuL>U;owXqNSHVyTDDbc{vqh@dlC0=XdV6piUR~oKY?~!wP1m;6mS?0b&!k<&pyhNq
zBwIT&E#%_}O>#j2$r(t1L{*Xs9h5=`6QPsoK-KJNFcwI(zZ>?)5<SP?*^_iV{{e*i
zPa0<3iL&-Y=LwW-_oZx=k_~3ccHOt_{$U|@$YfzN)F7JLQ%$?2rrpc?l1(QQw)(WY
zHR0Zou<d}Gwt3ZDyYJifd>^uRq0UsOR|@qe_CAvgfz;FZU3Z9Wkz`3O(YXJ<=fH}Z
z3wPqAT=kNx9vkn;#DV9Nt{1o<D(>{u-#;}15f>=Q0Md>3&y0a4+Uurz9qPy(Rph~e
zjp4dpvfv2rI0!S`syIS%M=HbAVp<j^kul}fRY&TW%FotZA`%UgX0?N9G!_}c1thXF
zK7JJpWL7AMpAZPZKF1A^;SR{L3*462BU>D^-T_S`b$i=P{+DE-GRcXN9Sfo=Y;Dx9
zDR-yj24N2d7oaNA1Y0;H(PCDF9|5%bLLKYuD?kA&B0`_){B_<!RsG33!OtSR2V-gj
zWxt{T3z;D0Vpu3gF}qPtb_tbYfq4v#;+Bi9(#oYxf*W@JU+MMB<S<cnjhD^DpP6_s
zH_5Yyaxk%~F7lCVm2%7FX*Q<fT?!$nERuK+6ABXlh+YX`i{B<+f*eLmdx3lmI1%*X
zu!?{agFxbcBOk4BHf&-6`NpY~2{<uC3i~+}xJ(JjNg+w>JE)0_{FDooH3@UshgPAq
zCk>=>B;nrznYt=#!d#BU8>~;511lEKs?luOyV!&Au<TvpKg&J$O1`!GLkd}gDd<9$
z1oY%54TlUL3T>92g{f8gS?>8U{j9!ZFkAK;mKv5#%V(Bt-{_>W_8abn*Vyl>%Vs%d
zSUS91w;Wq;{sxRv)B9?P-EzR7-CaU20135CZv<Wstmd&-n-FZcGktq{&CXuE7K<ZY
z-?VC?-@~}N3csrb9=!OgR!#U_u~&o6ZEsw&;AOQQcQvLfx>im2U9nfLS=il;21^}`
zJRW=f*c(s1j+Wqc)oQV9Pqgia?GMX#px?dw4Pae<;LJz1Vn0!lS1s_Paj*wTZ+Y})
z6RNwH4oOuzSMBubplfaj{}1CX&{fKd?kX-@%_m=hawki|58FqrYi<gwGSk=l0+eah
zLNBO*U)?fqmh6GGJQn6EwCq|bESqmwFfE*W<E7VMN(8&4@@{C0t>Q}eUC0B=AbI42
zg(dgwwRy|@(89JidSCBNKt>a`F(Fm8bNTSSx_gs<HT|7wSca5(&q_V#67F-7{kb(e
z<!tm?U<QTg4?~OF-tN8In`qo21$RomU8^QUt=J3a8s<&&=jd{<gg+z|wa`~s5Vg9c
z#Zt12IfI{jFcOZR)fWsN%eIY*L)41BU^YH?c)o6alEyYs4ilwqlDmB|&SuEux2L}~
zo!EU++ImXrJe_c#mh62rp4(RI>nw*2IA+ZsUZ`7`d}I3cX;5XMASd~@t(sWep<~>$
zVHGjh(!7Q}M6&N(vrv}R6NV~F)r$VdTM&f~_Li^ak&pD=R_)}2U6uUVGdKKePI}vK
zuv;7phZaj0V@n5@i<gHIod=}QlT!V`H32cJ-gZmX!m-73OFhfEQYWhdV&3U_C-&Dn
z*T{?8d~7JG;3KRLMaZAlbSNVJDwaAf(;JVHnY$4P1au6ZAL0N7kQT=%5ZuK0_&AjN
zX}5xi@^unb5J?(EB!pdL@Qj3?WLF&b!^em_2}&imFh-{}W}9C2XGeB$lW&tSfEyF(
zOfHw_MDvZRBg*)p{8E)28z)doQv{o7=iwRIWi8y~FOg#95;6inEI_)Ee0;2fsZNO=
ziemNwI=JQ%1Kp6Sro=p?BO|@a4DrYw78xcZX(Q)JeN-f4h;ls(W{t;L5gJk0CV4Hf
zj$zPX!=xO_kBv2tNy=|6=9d|h8o1~q$4@mhJto^LlTc0_nPPS*L?X@0t&d49j>D3}
z^~_a?B8fQ5je0rw2XQ>JgO3@BS<3C3CRT_(JP(m_<j{tBV#K!w>Z0zu9HDUY^mH={
zq6ecQDX}PnlNpr`F0{)HBn6Q|tf6G3>oVhtODJ=2bI^5^s-9AnKaz?IyVEpppj3_I
zG?7Ef{M;;F3w&~!PEOFNDPt?e=d*a23Y!Gx5MjHv>}O%DM>@E<X^^JDLmL#^sqhZU
z=U|e_!?2eT6Sq((LkI{-6iFCU+)B<iIKck-5+QYJ*~0soP8}i%?8;V-!f{mshF%oY
zM*lP=5XqS%=gZ{0PR`$ulP2c}<orE3bV~%Y^2h8;$wi>AW7-4nQ<mGf$j}2O7S1WV
zU~Pi<*2_op39%bhq6{HM@_DN!gTb)YC>UJd6WZSw%DyKw{6KKMFO+;wI4TK8->1Os
z9~n&s<BuJJVe9)s?fXK{`@(_ug<T&REe0cYQbf4~!%@Tg!v6P#gYOGZy)PVkU+DbE
zXf_x>5a4`-oX;5~;oL{YJiG~Te(Vtpdr|oJgeN{SX9qU&x@>}B%R_6W!8ZTWLjgYz
z_Zu1wm2>BBjoci0D8T#hSwpd*a=}RU93Kkse%R(Uls)XOFoYIr-w3@PdMLpAu=f)N
zL&f})caGma{!k$Q!)ar;!8b3G_2`EJybmuKnhllnwRb|dkq6#~&lxHZaQ@E7?GY-Z
z@?r1u218)pNT#nJ3gmwnH#QnxG$aBY)Rq?wXv}4U!I7xhnb_3_h3$s|y*_-&6hL5b
zI~3rg;OU0~-d3LwjLiu{Ny^Y98Jg1Os<gc-UDyIF*=T&|7_b@~X|wh7$A9&B+U!l6
a3)1G2w7Dp4_N?Vo+?o@~K48h%$o_v5&Lh77

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mlp_speculator.cpython-312.pyc b/model_executor/models/__pycache__/mlp_speculator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2baf371127ca8705f9903ccb52d40ba228a64098
GIT binary patch
literal 8279
zcmdryTW}OtcHQ%SYXm~?M+1^!EHnb77%vOL0`U+lWX#L!@p`9P(>+p)o`-Mu0Fp;u
zYKy9jYjGA;B_(OS38J!9)&_szkCe$**s4^_W@{4$u{DzpTSaPXKm3s@83}CXCpqW#
zbdMwtY@EkWZjEl=zW3a7&pr3N?rHtX@AoiJWZRD<_hyFq9ljXFUTQ4=9W-Vbfe~1l
ziQv;Bvk6PY!s>n2h?S1n684Cl_E}{|!WnVWwoP^=+z~fz+htF}8}TN55g&bb$o@ni
z5`eZ-aLHAPU?d1_ccj|F9AyO06-Mxi_VIRupz`ykRc}W&Qb->_`u_lA%>)|?e1_A8
zL#*Z+R7Jv%$Re~o=VUo?D3y#$qwrQWlp2*(<s?bPL`6xFkVOle<Owg!qC9lsn8*uS
z?YUHpA2B))Cq_g;kdioglOV?VjI2g4iqhzq8kJMLAd=5mSQSQn34UTkjHZbgmoAO|
z`rAK<|Hb^%12KIodR^KVvmA!^KL)OgOoSDfh(%x{RyX5j1Y3@Yvx4P{J7N>8SD1)B
z$6R6~j?+xYuGO9xI(a%R#xgRmrpORKA(G(~N$_`p01pSHpBviEC9zAECV5p#B{?aP
zmc@jaROu^)3WviwG#OQBqYDac7*j<ds*Lezk=x5jNtF&E`T+?LDS#Ews}o!*4x{Oe
z$_c#6bK4bZQpCQv1mm0vkSW6Pmn0=b5r}C8(8YmeWrU~sxCn^gtP-4>;(&7(fKpD7
zE=afxH!{IZiX;{0PVnbNPRS6FQ^!OuHkMMvBzJ+AGoncxtg9+O5QQLoa+DG?k;)KG
zOvX}pf}9c?174J;Y?s1fn2V=(y~Gjm?Tkc3g+n^~_H!?ZT`z}pK8ZR5FG`9SRbsp>
zM)@Q%NQ$elqmfifHZcw+V{%3iIi8b6o+L#9mIP+O(lCY7r_kN<ad@mfDt)n-ZI!&B
zilWFYd*FosjGbXrbMQS|mU$n>Z<cykCTq<yQHuePWyV)yDs_{H>NFt6T}G??RJ}%f
z+-J1P&n$ZrMIDOqgcVJE|Ld4d`mz>S$E~l-FcY9_!y%7mS2AglXs&2fN=j-psx>|5
zpfpP|sku?76C!Y4vx5S~#x%Q_NUIZ?L)T}`HX`wgW(5%dZL=w&9M^*Db%N9ZAtVTu
z=8i^VGOsAnsDdYjDsuVXPj;(`baz@xcd0xX71gdwnLXcn`TQQSTb4$;(-Z1gD%pJj
zOj36uC5UoVyaWmj)ab8DcS24_6;sK>=?PK=xF_2x>wehS{Wbtnz6aHpmzfnG;|{#%
z%)9CzxEhO{M{>3YuI)u{Rl(bN-`n}HvHALrxg9^teE80dckcBZTHH3U*myWMaP>P6
z>l?58=6pXp`{A26-n_S~f3f4>V*Mc)87ywB&Dq{}EdzcgX37}6;OUzZI>ThyDNEL(
zmZXGX##h7QWGGq7xZ!&A4q6MQY>k@|RUQ^Bg7qWY%@Q_{ZBsVNFq6<U<Z=>LKuX3<
zc`n11rFe=3Ocmsuv_gNNJi};ZS&Em<;yjdqbp<H^oGcpa;m?rR&;A3-8So9x^P-p*
zq(sO~HbTE<C(7GI)vW2%Ma`BF`6Lx9&8beL!MrF`zQ`tkB(+e5tfU@iv6nQ<rMQ9&
z2U#Oc*yoI=$VHwAldaE?kkWWB04oWoE;B`cAZIE1tNyfOrgOS;cI0||E<XR-2h#QA
zTyo*m?V8!-Vr$=>nosM0QJ-%eT-<Ox?>`O`e1RVyfA9FUw|{gZ$C}bq4A#ter@gcM
zbXBgu7_7cFFf%wkIPHg*s$kAVnqkF|W%T`j`|J5H{{B|qnUE7THVJA78taKhK?yQo
zQKOnK8hty%%cT)#G%BQG(I^#ug2Ju&OWGC_WjPxCIZGOGM<{BqP)-m$Nm`+XDmeP(
z73On`-|kv!XZ#zA?c1NYz4p4NjZS+trHcZ`0M0Ci=q;zAYrTI)A^a&T*hHIP7wv*W
zaK;_fTf43VA`ZbVIz^Xg7v1AECO)$fw=_T-{{)8!Q4hA_Hi&_25g+yNeh?b3=3jG$
z{0Z0{^)3DD9XUE$bcKeckS>TEwI}ETRRT<nf%B1)boQ417%&Y2A{9Lmgg!7zgM*==
z6AE`xQpdPMsl<qc{_0HXyqN4ZgC07+9CIjJXvdhUrj@<j-8{J@T?nVhXm?tOckk}q
z*&E*VtzEl&JrwE;;VDXk#uQO>vL%H>Ip=ur=llg;k}*=_z~3J`!i{A{I9}bmW|^_f
z=qOMg=VM|xmg<&95?#F1m4+w?WII7!t3go(&`}5mBvtqN8pdf3JwnsGXoaIO8X1yZ
za3Gq4h-!u;hhv5TLmfu*OHJGl!3C{z!k(`=VYZUn9d`hZb!Ez$wN^4?;Ob1r4G=Vb
zUpo~bOalrK6$}_am@5KA1yd%l=l7ttR31%wpNZGd5C}IanZVVK8XziY0zjC10ths3
z>k2@aW*ZD`1svB{@&SxgZ~}tm`~WDw^Ee||jnL?atcvPJ3#@3aZuEgms%-8n!h#z@
zX@D|iQ_%v`GLCj`UCG);(NSzz*A1`eMsAj540ekWM$0OET&Zi-18`M5>x$=V|Hxs|
zY5#+GD@aIXo(QY)I#%JWw0}G7-|;LS2$o4W3FO3T#|_-5Hn#kH>}rPrSDD8Ke+QT!
zJ7bnn2wUFT4QJ+5(V5T!^Zv`SAlTKAInN?Ev(68gKereG$w#i6C7qqNT<x{NT2oGA
zeb^EDaaz<aqxB5#x<B$5IHz3C-+$KiEY7ZzF7$@9Tw{~D=i~eaJaw0Nx&?UZ{_p9R
zu~Xn#JLQ>s70)W^L<Jf91{51oaDYldS#!A(dsaQNPOy*LseP=db6_7UTa1dmt91tU
z+W$5A`2Q^NWj_DUPS21xu;d_b-$0Lm<4s?aE>kDq94mMr(!6Gc3RV}+)YMeaaE#7r
z5xfHW&I+Ds5`5Yu^aHf%jnqFf=8eB(w8~EbuD#=6v(^{Ehj`F>R+d5-$F<h_7?b;}
zEWqCNn9Jz|pt98%rHO?$<4x^1TF>yM6}_h5H@p#G-fUo)087bIYkARVxy_cdLJLMi
zfnkDS8Nr0W<jZfQGF*&LCQ~Y>N+PFU<P~m2R4<B<BT`g;6p}g@$Do}`$`jl!PK1<{
zsz4mL0Rq=(GLwjkMv6~45@P9vYtlXjnZR(!Lf>d`2)8(TD;w2`e{_H#gGz5p2SQs2
zI#GIGflMI1+UudE<{pceqD;-5#Ppyb#Z=960ke!z%$jLVpdbpjL(MHElOmzb8l+54
zrOxw6N>s(TT+wP1{3SCz071Xe?}g2mvXYAC)w5JIIY%&HBWPhX&k1_h8iMUZjw3Om
zIffuU=ZR)Zlhim|Nik_gFmNR37d0C$Oz%jVMNVo~Ik{8w0Yg<|CAhir>KG(S@G9%U
zJs5eEqlbsiY91bL85d~YQFD~SY!FID3(7PH3#>4buwHt<B`EBa*<={u+~&b(9wadu
zmk7}Arft};ps^A;f{<)fzYSvC2sh(Wxvbv{Y5rtw?$k`148jDZ4xIOwmzjqyznL_t
zZZ1@Z^3|b2bx*#!C+8?Ov=tgc`G!!=b~R9J<O+?Q`NmFosVdgB%)C4OE;N0`uAV~I
z{(RT|JJt8Q4$juXjQb6tyN-Vf{4#*^9=))m@Irt7g?>!PY<<+UxzN;=Z|cIg`r?|m
zN0_W>TJ$y*H`dMcP4~_B-{07=#8~`+V(|E~6`uDtcC0v<hVEjpwh-K$4{o0C{jl#w
z-<^2j$m{tdudi4w4T0PsfYdk6OifSCOY?8u>MisP=i%2eyjb@tq;-z1xEM$VHOw`@
z<b5~x-KzPd_2bq%;)8~v+;L0>x#!&T?H`73gm1Nf68<=RC-b2GL~amA{B!<db<;K9
zynFVY1)&fg%!dc>_UFSV@@>QU;4qK~%R}M_R%mEK=#?PTx^=#{u(dD0weLa8f#oV!
z^@h&_OzSJ`EW6@oHf=4|H(#%stHMWME>LXQ^02LQ;m9rVcK_|3Ti;o1d*!LyzNvP}
zhf_Ys*~?Z>X_0zn!*)zW1f~PG2Vm<P0=a{*^}2?c#B^f*)cn9gZ=v%@9)9gd7Hf~@
z2L9xz$r(tNttHIs0Kz;a!raWJ&SHIQp+1za50yxJVz&YvE=mUiFI!#pxY=VXHO6LP
zUu!n&cLGjIIc(O;Y^uW~Nip=|0{>UFvo+V7f6{#G%qQRf`1|F}KXuw*5lY7AID6UZ
zE^W5fSmghbqqQaGtpEjUcH*|fPUzlYCr-*8dR})1o?0zHv4gS&p_Z-AI%Lbyr6A)A
zf;ivzHa)EC!gKOX`)+r@Iq7TzR<>~ShZbHaytp?HzxKWP=5M1?G(2o<y&jqi&A+x#
zQwZ(NhxXp?&xiKsJNDmc|1|uI@V(P#@(0i4+s`gGo<mi{%;vVaZ6BbLRuyZT;o*JA
zbr*db3ci-SuVwZ^p>1crZRf46AfKB(IooesEnhu8YynyN>Tx@q<X4YtfYo0;uBAP-
zun7hI-lxrbPHlJngJavNF4wQx`faCnyMDcC&#67Gf9z{Lwa=wFOI~M9W)$rxO&frR
zgAYCBoG3W$(ghMA%wk+tjSzUsqN1&&#TbK>0Xx9Fb&g@a2Oe<BHf7J+DrQUJ1CkM3
zPuU;~imq~9$=b}799hR@_Uevu?mz1gtg0FG7>;|&X<@R?tRrhTaN{?JaWhaaFHpwK
zGFQKA11Lyt*@h>*<xEhR>;!ntuXC>SAuZ(6Y}7XfF$*X}(?+@;a`K9(YEB|T(kCWr
zR>-SsPN;ZQB?N;l&B_Zx$fdiHv)JLKvlZ~A;B5W$OI-=0qS+9?*;#U0b~=H)4wDr`
zX?PJm&FVu8hKHSOT$85@uO9nXoc}IV;81ECXL}1xJM&FD7n^o3*7oGQ54UvuWk=5c
zFI!*C``U5?*SgTa@0;E??_VH`8+YdhiZyLBuTH-@Kd@L6${j9N)#R(VhupRW`@#<%
zymEGtJ9o|h&%u^iasI6b!JcBUrDXiue-qrc<Y(GDmjX<%<({iqPrL@mcA$jd)s?)6
zRVP+>R|Sp&>+tXhN+Wy_$-sv~Jvr?-LqFb;2#yL^?Z66y?$!C$ZtTRW4+p*r70tK0
zAm3WU9ApRB$4rd1d*&yX=<{}u{=92@Lf@CtHjlk!{@B9VTRpe!f9v}j-@TrJeAi*H
z(Mt@B-0ium{PN{5u&HNjajDQIf-YODilyL-EzM#oVSXe=H=$GSqMvrc$)q0j&@3OM
z4e|T0zVlAZ`-Sxo&G`Bfmho$<0w;-Ihs%)(p#e+Jb7tsa9Lf%ULN3RWdLV_-m)2Ej
zy1qV@OA;=rK}MBiMVDv0-ll<={q$?6&g|A4di<v6xse$^XLQEk9ZPfV1B{SL?;`|W
z!R9c^t57XjS(aUPF|6;mO#AN`s5kwd+45WF=oc0%Yk2|#C)wXKZI4`m%k~vVJ6k<_
e>iQdVZ>%uTTp5P{17KUO9Yk;Sguyml@IL_>%m~{6

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/modernbert.cpython-312.pyc b/model_executor/models/__pycache__/modernbert.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68930b79a7bfdded92f9b36752b3d8142e68ebc2
GIT binary patch
literal 24727
zcmd6P3vgT4dFH)%0|W@Z3BE*%q#mF|QY7`ZBum!ImL)p2WII8uAQS;gkN}dt7kZE-
zV<*vW$wVHDn@LGFX+=-7YijJSm2H~R?QZSPv{QHX5h9QS_?Dik8)viLClu0k(%sqJ
z??3km_)?OSw6k}}a}Un@`TyVlpa0x{>+^XyJaOCCWB+U)$NiXosE<?eEW4~6H_b)3
z2p{JXe27n2LKdEWTjJJ`6>n?Yny`gzEX)?SCmbOM^V{Rjge&A?en;G$@Ps_f?~E5E
zydf|1yW+k?aj2O2-En`SBviuuo_J}ZEL4^#50$guMe&M6WvDVy6{<>9hpH2SP#{qg
zs!7y_YFWHDUYDp3)ib{@-jG-mTEqOs@y0|`sEPUg@wJKOP&4zF#9I=rp;qQEjjv0r
z53Ps4EK(ldkk}a7$ov)YV4^M5#{8A>O^MB+&58C<d!i%M!E+YwC>N=^%0;T9w)0<5
z2Tgy!hEby@w1uS%AZ1OoUJLDFp|uFDyHEaZma-lx8}5^`hoxMDl#TaExs|1CLdv!G
zNx3cRwQ$k4Nb_sF+#i;+1vy*qo%1z0Ij6ou+gZ+a$hkgRt&PJDlhQXJ%|`RmqZ?nd
z$pvfW?quZ#k*Cc(k5<<%R@bJyo@_?G_Iu~kYT7+w33hx))dww->#<~1=sOdSO4gIn
zWN(m{EQ5n^OHK?$qQc-KQ6YJ7XmB8Q7GaJ92Tye$p)?hT2m2}hiNW~Dfn+i|n2Zfk
zu1fLZ@bHk33@3+#{&V5}p~P@39z}%bnRq;*71Vk*iX_oNaYzU!P)<BN+$Z$K<M3P_
z65^4t7#oeEaivc_{>*2TnB%d*XrCaJJ~ebXKPc#sN)E>RL@_oHiwd6^8j42+srXP#
z9PUf@pHqH2l(&!GvB9$^qRDeZ5vg4HNhK!4r-vhb$*5GM1fCihrl$L!8cOyFBZm`b
zqLB!)BB<(_q5i%zYBP*6m67N`-^F+`d^s9BdoCG{5A|V~kfr>wK@4;v8i}EbQ>^PE
zg0;H(#0ylH-n>4vrSC&ptq89?DUYjoP#6+LHu!Q&D%ARh<$i^e)M%?zdf;Mm=vmeV
z@i=RP<Wqj0=o=o!2ze8IBWI%FVIevYyV5T&M%mRU=J)aYH$gL_T!@cwAxnghS_do>
z+yEc3T=j-*5o^?b-fPS%`y)2<@Bv%Ie$^Ioy19sZ)x1vgyb;GJ+O=xQj)?23J>;6;
zuJ9rENiOJ-D)a@cO^_%#`q^Ucw-{P&ho7k2GRQ9XO@5k7YLS!HG43VAt9ys%#`rNV
ztmRIsV}<bZE-jnpK`7%)S^)FBrsPLS4mBp}SAAoA1f#9)_A9(t%5!<Kmb_TvVb*a=
zvQ*7~zD)J$Z}WDHSrA^Kr&4{d+tk|8!Xh<vgbUhxCD-7PkO)VIMX5O6Hxd=X>hGW4
zJ@?~@Km7Rz`)*n!E5+N+#QMabSF(d9V7<A*;n-j-84e50C{d_{BY7^-K4QCFDmoX7
zM52T8kK*Leg>Y2eaiZh|!RSjS1%c*Dav!Ifd(jZd&8nxGBpZ2yHpwPN;{$Rf8(Hdb
zxSz;FI4ly)ZE9+I@$Zj!CKJP*!?EFZY;Ba?e&ynhT{|!Ah<3(fXF7*RKpX};FM(ur
z%H%0}CEAY-CCEQT_7VoqfH-yxj|iJk>}Z48dh1X--HIgQSK$2oMQ+LEn{=jJf!nUy
zY*qb)?OM^&nyp!HS;pIt@;1y|$~1PR8oQRQmPXHn?Y66K#l`t5t{<5>Hg8LN+keJc
zd=*Rns_T~)8#`}Rr2X4}W<|&ye|gTyxxFhMuCjXi_|);as?6G+)Y_hf^0&8V4xUUM
zJbAm~)P(IN_cB_6F^mlkUrdH$5$p*en!G3s=IsgE4{T3R!>741?!3Y`DYN>F@hT5G
z$=&3^7laN(-LwcjcnLe;h_uq1nuKk5Nq#n=SOrSOqphYxR*<TTiYbTlBA4}-XZ+16
zfAid~w7-4P)h=vDc(3GRMT+u*5&Nm#>ZA2z7$N9~<;$h3^u?n01u2YWC}rur9k<-C
zjB)Fj^&}_kM%JK3=*Ei;P0*$fjj$J?l1E?U>grTR%Q-M4T<#MhqxGhvq{MDTAtIIZ
zBA4@U-kQat)@*t8^scF0GpEz#n-;yB?$kGB>N`{QowwZS`rQ*JvNa7iYG!NZ_NHsP
zCXQvx8y39{Y#im*dT65#_9dd>u;d97cfJ@Wzc(Cy{$gKTjuD7#v1KpW8K;*VGD{Qo
zP{e*Xl26%o{n2<l9KOj5tf{n$_Os<6tfi#nwBTQi!1?)AE@vsSKh0xhf5ed|SIgTw
z<}2T*zgeH-;9Xev*5)@iFOxUt<vP0WIz9F^cgh3Pd#3i}?C|FtT%cikY-(&SlB#aY
zQFPA5dHgTePu73z#xJ?6RBb>0wMV7h%Ucjs$nzqWDDgTQai0P381O$k_@9Gu8z;Dp
zL#ojysQ@l8N+h|@Mf+q}BUvM{1c+mw80{x&rasgHT6N2Va0<APUFJfd*H%z$o0>&`
zkJ%!8QsX6NoalASYf8Mr!?e0V*R8#$f)3#r%9A_-Lpxz=WObtNN_cokj1jsskYnLE
zrS!$b@L+W4N?1&e06y9y40<?(Hbk<uAv{68LzLDz03ej?+Rg?8RWSm=_yAQZJWdW3
zDlZahD9AJjwY*XoeQjQKgf$}j2=a-v=L|$PTh*AYuFbZ#Wm+FewLX$9t<2W0St_fZ
zZl7w;`8apY3g>itawS}K1Bhc0TOL7|aDW;^<p~GLp%zKj*kDq!v!2NPJ3>)M;fOpO
zWm!K)f#gsTA~l^YYqz}tt2)Qwy>O7d-tK3w#V4Qnm_qN8Bd<=%owqubnd6pUL`>f5
zbYpE=+1lg@9}U>p>a<<;h3pY~)N#HT848|=W0i2HdH4WfD_b76D%a;iL;t<<LU+li
zAQs6Z!vvGq;{H>(1&iBpZ-|8juXf+i5dae^k3C7Z>U&M`fc%0)hqWb+GE88q5q=?s
z$xtDMN*IU*mZ<gU?=kBrS{LCj0BVSqW87ExRoZJ>{wUZZ>d@McI?TYEY0abP9r9}M
z(mZd(GKwA`U6I=6WR2=urKO*u4Je^jElq#FZdHX_)T@nZgd4Xpz_~_Gsrr;L1Y!`j
zqRb{WTz^MwG*&2qKi{l}s=hCK&BF(a5Z<b$(%<9uLCRqoliZ-DBdEX1e3;FW{dK#c
z-x{n=5(!|>Dl2HUI;zxs`g_dsEiU5t9m|;Qb?0l!>c$vrDU+RQTJ+9r*Q^$5K8wl@
zLk$77Trdk)uYjrG&dNb|-U4e6!v7%!0^rc}Fjk^d^-+5V!22KsdWS4-N&!d&VVP2h
z@fb<f;mfhX$k63rje&o#qS~oETD`)vaHK#aN^&$r2{9S#4-Wv@p9@pzQu*M;1o>oT
zM3@+^2>Aekve(5}F!41XR1GXp7B-w>e;?@t1fmgAv0j8MRy_Osg-cTH+4#_zzBsEX
z9K943M#6(~2SmvqhZMu2<f^3-IY1a1j)s%xAh}4TN_IVnu?UUZ0tE_0X(StUMevc=
z^6XI1Y2cKs`_AOBA|d6E8<nKiCNohYxr~YCaZv-9JfIGh#y^Q)i#Nc_4E$3UQnGbx
zGj;8$x^@yu0!wAv(`7p+oY_DVBp6?IV@GD=(bUGH6uB;2)0nC0N!9cqsu-yK<u6Ts
zY0jDQZ<z1;p?~wDYxAOib2hLh6KG2X+U5r`9gn8)7kHGF)Ufu(>Dklsr{4I&%`c=H
z9-;zkv(<Ie<5S}d)FF{~sbU=ynAW7cYqH*wmrqQdpjYo?Z??2LQ@TD?x_-rNuY~+`
z&7CXeYS&B@XN$_O4`ix#r0`d?W1;JZMSHRhEt!U%R720L=Ti+kCwc)MD{3?4ZK?9M
z#q#YrD~Ga5HvF(;!=1{yOl5njvi+`;^Hl?R);48ox>5w7Kd9}=me<UkdiC@xrx$E*
z`QG%sb8N+GsiUg>D-NzQs5VS*=JCnn*{U_yLo*i_%hzSs^{f;*<fg6^bLFjC$L1WF
zrtVZz_d-=>S8r-pFN!Tku`f9pN|1c2zzoSaDoS1rs6nO^c48{?I51HQ#)1D1p8E@Q
z&tW%@TS0HFrlJsM213t5aY0-uVgUyrYJlfC)H!Y+cZ@qh{b)%RJm3iSF^8&dV6`GO
z(rP?W&p;{1oNC%}*O+UZD741e3@J6il$FR6-vCUv^?pc0@ZtZ(1FH2n{J^3Syr85Q
zj>nQhAN)d$ob%*dfD?4fdvJ&XNQ#uKL=gC}#6K_b7bO0Y<fTm;9=e!>U@MB$a(Uyy
zl>zL21dZ02fTj*bjQb5FVCn%T#+6k~*G$#S>`j*jCmj>ki6^sVmD9ng;LNE^Luaa?
zbFqHQt*%u4)`jNl!F1W)N#_JV(KXRW8|{V37iPxhpS;DV{oRu`3a70zGBq++I(K01
z`E+$~!kZ1WPWZBQjW>48?tmCr*9Bd~gzx(ES%3Yat6qknOmg*@!C>Je+A8B;g7(5;
za`uyRgq)*rjBxlF3M8kOA|8VSIDFUAX7?~SjQ2v%+ZAu_{)mG&_gTKk-f*Y7o+P-O
z9e!*{{EAP-b58oDi*ooSx0K56$G`U26yNf5@Z^EzUz7ThiG406_WATVJ#qXqjQ8cK
zQHTe#UH25IY60#ALVYmRqM0}c{;nZEt>;{l7zcY0uOTlr3~EfYf*yIFB8>^6g`h|+
z#sj{u?LuAAX{IoIP0p}7&NOL@c@G|-O<EtB;3|Yrx9~YQ!Qw*bKr~Ns$Oi`k!x6N0
zrBcXonkruArmjSMILz3+<=L2IJ9_x|(~`BXKgl>TBLg?B23E{e88k}yB5GCMYS7r~
z*N{-W0>_lCE|pc#-qxu8cdT<qGOc@3t$Wf<d*9|$O$Xj_{J{TLeues9bAqW<R88-g
z+VPED;4!YHvKE%NHRWxc8_2BRnOeVd;nG_#y!k>tzYrJ!V|+oO&1ezFX?$S@Kkm;L
z%(wy6)kca>oWlYMj5|+d7d)$R0d-|Uo<c75SHwob3U->kSDt4PKZPVY)CZu=uiz!w
z`_Ek*yuhYOxGIM;1q1b1vNPqNWIIb-l4t|bW&>HS%%3!cAb%4H#lvu*b*!qLK09@G
zCXue%oT=(gRdwI$T4-LZ>P}bfoh+KLPb7)(UY@*sJvn`4>dKt`8!yaPq^jG~{*L+Q
zQ~s_+R~MsHU?c}nV1ZWQ!71rDWhQ45|3<|EQPPi~J@DkJEcWiXr(b>UmFIFCytkr%
z6#s7gWAe(hl5*$KN>#dD{-=mB(n=iBcr?`l)Lx(%;NAmJc`@aeFXVt4!D&W6BF<I9
zUFP9XFSwyza5Jjv!CV(fetk-0O}{Kud>(CNLO{Pt;t`-P;NSfuiM8FE#Ew~I!Cj~|
zkT-QmsBGmikT-2f4?bkbW2Rg%CBWw74WT9iWga2c>P^zY340)(T6LfWVqK)h{G+x^
z>wB_JtzXxaqg5K|2f4P%qNA_@DRE5Dj2D~Gpx=~qyB@=VP%@Srk=zVn(E*RJg)%W>
z-by|?9$@%_AvTE-a+Z$Px?}}i584fsTU$f2kVL~u^uVZS3>2(BjgEf{iN$F+pyMFI
z?&5+|9Fj1e|JvTAhQ=G8pZ)x|PEQ<qsrLi?cy9K&Y)Mt7q&Zd6JnwkJf78D(klELp
z+DC|fP4UE`YrP~WY@EOJw(EAqV<fXI1!`}2XT2Izm^<?76R$k6us*Z<SZX)P7d0eb
z_=pv(ovTWhZ-iLjlJ~fVQ|}=I{4P4NDy_fI;m4TebzVjHpz>IRqbQ9bacz+zKzUZ7
z_ZmJ|DLo<dF`H5nVRcI{7KqjtP<jT)Uq-RQ6gk)7s57f26Mh4sl82bNg2vSeHd6fR
z!U<Mr{_DsreijY`;emRB%}^HK=$P%8Z%EhfcsmY}FtB!+vjjX7ULez&_4D3TU@O3M
zWzF<wr#?FqxsjMn%%4cF*`2O@Xu^{Xtef|w0^LZULu+V3xZYrq8848mB91se9lriL
z+AEOr+tm6~aDcDxJo)rptKS~XR;|ym_m&>{edy>rt$%jxBMQqke`=^r)#R}cRmHSS
z6K7-}5f|AC(7B1Ck+w38w9Q<@{Ao4SU>VLljkH@bKrh8Kg>eq4hz@aKhe8%C0&V_0
zp_t$;!MNoQ;1s}f<;>+Z#Lz>hCT2pfnVN0fs;i{$1JkYdg6W62mu>x)vs}OBv>#i{
zrl0ZS9LT0`!zs(PQX5i@+tlr3gzh7V;aTiu+E&6#=uOb06I@t=FcTbkkZ@8pppF-9
z9?65<f+N7=(6>o;p>ObPR4QdkHTk%nDe*+M0wst1Lp|S_MRqpkI-$SE`A(z0D~&U#
zQQtp7X(Fw@0u)_ZpD7KdN`slwo>Xbigkz~HFrAo6fHbaMPk4A=YW=?3O%E^It-j*F
zZF>0nqbtzsG|gRFaQ&#{K(^`OyA-i(wO5mBrRWzwv*4#l3;WN!6$jc~It{u9J$(wv
zVK$;jS0p)|CwyA)sFQPuI}N6&YFI4X7|}k9MpOA~B{nQJ?f6)7M={<o(t^-3hax{g
z^&~zf+2x@(BX?_78CZqt{RN5?iJyY0dAOS9xz<-Vy|U>?fsV;XCk{+pe6N1(T>Gv1
zbp5``6Ci&zop*Fn1|16FWGtovU`wK@@LS|;BIgh}hsoJb&Jl77^#mk-2;}@R{>6iE
zn4Z98_skv3ad<6QKcZKz!fDVDz;DnH&@Wv>fL}64q*5j8!Q&_MXjc(J=~?c^v>9m^
ztm}XaBbFEsbfrvb$Ob@MO6R{ss}!2%08MiO?z+s-Tf}7^4jU+fyPk+AS`_t09jm0W
zkl;iAD90CdkPkVFkh9p$p)F;r*6TAbF;X1$N4(62%D+kqId-*ndm<&Uuqt6Ny%Y?(
z+z8WYiN!~q@*?aQt&Ga%fwG3YLkWf*TiK8hI}77L92{R(OwR<3OyrSfTFHzwmthJD
zNV5s7e{j+a(#eHwD4jh?bs2DD+GHbMWo&tdSL$Lwye1?h%hi(1^diunR;ls&8=(RH
zm+C`kt?Jj`Ao4T{cu=bWO5X$_ClsBBoC%-`-zJA4>$T*2m>jkPe0h_?EUC=EwB#9x
z4dOV1SyL&{S(_rcV5a_1NzE$InXL$oc>f5k5YNFO=<G2<=R)$WT13@$%wI~^ZYM4J
z5)|~0ryKUOlYph#`Wu^PH?NM2N%Q`aU*7pUsPjAF<SFH7K-tow7zTs!E_}=s9lBhj
z5odXP_aL|M5FC-nzN%iJ&`|?hlZT|hyor#9SPh4nH<A7}<L^j8bug0l?^<;2VjYp3
zvN@@k*AH5xtRFB1|0Vk|&L?Re*<%jXRs5qaepni6N<lS_!~ih0#}%e#8@G?y%+&G`
z4fYF2F=n~M3;eZu904#j&$z>&zH~$^No~2STVUJ?X6eKsfL&#lKxNkRrD_lK_n3x+
zc<$N>uv1uL!O8^(kxa?w%eT&TOQirkph^rZCS?0qJ6`b-$rg$AC#4dydx|hC<piBS
zih%0Tq~wYYM#Rgp<T;@ebqloDp*D;}U_inYP;XE`(J(VEhD8ku@-c&8r6jUhM7dg^
z+$zb=G6>&AW|0UD38?firIqBR5)|`d(P$hdFE3;4PpJeFl(4qSsxoC8Q)L@7WgV%q
zj`_>!vK<r7rK;MQt(m$lsk$xcI_R@{CW@At*ZtnQ3EyA0w57a_6Nj$1lX7c(a(w35
z+x~U)t+y_u+74t(0@;ejIa{h?-NfOg`j)xF^AF$N^JKdIsfiQsd243Y%{AQic4oab
zibZ4OU2h9)ZCW?sD6XVIJ!9yV-0G2)C{^U?WM$KEk(tQl8A%b{W=sA{@L=oOz6>CY
z)BJKQUWHX7LVHN2)L}A~rMYZthfJ&EFFJkFHicFchf^x02ApM)(U-LsrhSaU>_sZ!
z8*qYFnI4cNDf~VKC<}oldy7KfCWmDpsa0|+a;oGddaFvUpPY7voJI|jt32BZhFd{V
zVh9c-*J8yAus%3>0=9oQo|t_iTibGLFTh&^Eaxl@#S<rhlFF+yWv!{Q)@<#DY)x~{
z&XuoQ=BzkhbRrV6?+a5e%w0}bcjCCnU$^M0lL_iSM;%~2y}`0V$VXNk!oMPCRq)5C
zB+VX-1}_f7O8@(m{7=at0(cK_I8V{!`~d&r58)6vBmq2Izix5EzQwwSNhji1v{j=2
z)irmWUc2W`Wn<2cHvnR3#YYs9tLN>zb!)=ix;5eMoCDJE+@teP-|AVgzvX??yV!Fm
z)qXhDdL#!!#D;fz-Vy(5=Q4S7&D@^-e73#oZc(|tUb8)f9~D*9FiS)y{c>@Q-M0><
z*6hr=>8B^pFp=`&99c0;^x>C0z|_fp{A&*p0D6}HBOD`4H8aLnfTAU015k7lRE24n
z3&7EV-)=xgj~N~rurLEJZ^UgL4*+VKk3cB{l%8lY>M>1ozq}CT3Do)-tSrH<@)~cR
z&~1pQz(7YH=cDb($iVloB@4jeCoJ}pL^Rj~30?zsY8YpF)U0wg>LNH^k(%1nj7+l}
z21IkJDRo)hOgcbID%6zvd(}`A5UKJ+)TwJ=HBM*-CDlF|fuy08w1EqrRol~4kPttS
zmOy90lLucl9rp+)P-BASx)MSl94(bGLw$CS2X?3IqK;(8%@?cz>Y7wKAPgnc7<Sb~
zaw_R$Jo^GtG3Bu2Hx$Kqz8$(`F)DnOQd}ix3puUibdl2yN43wUo{&KWYXPfAR$S0Z
z0wXp;UW4JUyjnHPTZFYK67mM-HJJQ=P~AMYJ=3x$)v_nk@<^)Xk#x(URQ2Hr?^1PZ
zrh0p-di$-hboC(sU+)qu`9C-HIUVaN1|heOWVRklZ9Rr70#&33_K+UfcqE7)xB;N&
zE7Ts7waH6vnc^^bY~-B;VcF)|4$r57$La#p!STOC2~s&-_EPSJ0YfEm(+M}97(il%
z0*Y!jg|x;S0m^8aWDd~4(lLk(na3u_GXBn#zca0$wMjOrCXZ%Nmsq!c9jIULn7T+V
zvb$p<AOS;u#G~?rf!nKhub_xJ>YgqUXx+PIOZ&Giy0*y@fsb-wIA#2h*HfZFtf$0U
zF@d}(G%{6DJ*XJ1K_N20(c}SCr#uMNXr>y*)MC`Gf=8FC)Kb;Ax{w@_1-A_T1M*1@
z86yi%;)i^%g7&gH>hHpD9CgXg%=|_T+F@l`v2a|il~qkxNP%^kz{XTy<9x*%wKr=s
z!QH9g?o4ohD!4x#I6w;g@|Q;@M`kK+1ZD$Jk+r?jHh((Z{7|}PPujnC(Y06JObpYN
zs1piNf!*TEQ*3Bb8=)Vzy^Na=Vf5rF1g%MJ)W)njH&bOGp=r!&&=iA^;xNVB*h-U%
zpfRqrDF$9ANnNS&ExCTy22CLX`3~}vu0@t_ir56U3p_C~HYg_h2K%FuEe<WQ@E&sK
zDJdlc2sAg6;~vK{hI2P%k`#1H;;r~aWM}6xxW0muvANTWTMwlJhbMd=6jfeNeCO2d
zqPF+;J)W*V{$}FVk(pCBLbIWH$GZ)k3yFyni}lBW#+c**pbPuLW3$KR#?$rNCQiuO
z%wPP>%{83hMZy)Y1`br&f~AG{mZnYCW)c$+0^|_M5{Rn_w7U&zP8tE>eR2pu+ymJD
zB}J3tp+1tK2!Ji!fsxPj@unLv-E$}B>r(5s(Y=@MoP)P-pD&{8FxwY*K2BlVa}JAr
z-`uuW_q?(P2;aUh=kjVw(z(d|wm0_N+yk?aRP|0m#H2E<!`&G2sp`@h+sxB+Pzig?
zl)LR?H{#?KO^xfvzxJs6dYN`lJ|M*{dP~ImZ6113-1Nj<8TmGX<7zR?1wO4=fUGBV
zLr+SYQu`{#1Dc)`AeMlnmuW{!S#2ijG(`jIGcOG~(qc_VYHr-1>PSsv2V@<o4ra@w
z7LwECYt%=Egp<+dFG33!Rj(`e_tDLoQ%s8vWjdWt8PuUFT_A?6om71mzX}lVuXIwi
zsydW6Xk&2mSEV+(p!_M&uGJLnnkz@mPuXa{6+F<+D|8Vp@u`u?2Gy6R(DiGf=H)l3
z@%kH7)b=8~(vfUYLzC-N-}&{bPk%$F#hD>*+^3~E#FGrlZ^jGF5VvXmi2ZfVMD~{~
z!Ks%JaeZ5(>=-!$QtW|!hPxMs=WM~!)m9w9&mx8`ORP>}xlrMIbYLyH6#obmAH)oV
z{{%;Jz;G@+FbJF4{vm-bqtk6(-0W2o3qPf#A5w8u1__`*d(CA2Mk>!vO^O!+d=DK$
z#{14h<D%q|P5bEr8fyY0sWN+#agv}OY0^3nN~qK_a2M$O@)|}ON8C|hQs+(OmYOyM
zObiwN2Nkdt4m%?xwOpP!u=xS@yCxxQBclIzC@Wt=$gZXnuWZc*T3$cCQ1y0wdNUc1
zXz0JL;YM&)w;^Q6pDq(;%NjCeZK<-hOxd<n*|rs@O)*S|He%zvgY-L)GwuXhGJ!3r
zz?Mv4Un;OqHdpX(Ty$+*^l$v2s`Z2BjhW_$Qq2!#E7s0O-Wa+$gt}YGAayjfXQ5&`
zK70JusXq#TH~dZr5e*bk+m;{kEFx;l?)p7+*6NkdT4e^qRAWpCQT7PNL&mSPyO)1u
zw2oE$Ur~^JGu2#2-}4}oR-m^(g}GbSQTpiQXvQB*`GfPpw14ZOYpdM3H&C-VHor>T
zlmAWEG%nJ7%{Aeg;K9N8t1fo87`X}`v-1dO!!4@NrDA4$D}Yc8d(3fNVUBU@qzl^n
zD|y;`6HFh`^c+GX*&h(JfzDpV15l7gtVyp@wf6l2Q=PrdOlF8^=v3sdJqp`AoDt~X
zJ<wzEB?wd!;c7X0|MIQ4HfrNQ^PIhT@P-DDB)H}4aK34I9EKm$+#~?@X{ayRnZ0c5
zq%vouQXj+d2K3Q7XxGE3(PNnC-{Plv989!LT1+*~ER8;)*Y;6Ef8TnUhxx{+gHgi{
zkW~**w~%D#50W(=9R%Tps$?(%EykaqO+prq<fX46sK*5Ytw+TO_C;BXA*p8}1F<*`
zHb##=$X+lWGIZ==x1Gd&9m=7KTu_K;+heHi=l_|=+g~?rnDSn?T_2#^=?_mmJh$_9
z`DPebeOsK{`K|Gp7Zz(fZ&fYU?nqbcxKq)Tso0RJ*f3u)e`&t>-HIJ|-Q3!ZzhDIS
zs|TzH9K1~Azf1kI5$PXwDI!;gK%fs=cedr3YWaHz5dM&ykICsIhxBQ}&*7+-J7`>l
z|3%K5<gnrU*W~**<WNPz-@}pbc6^bDepAza*@&1b8Qt<}N9|b}o&{w61!T|anhEbm
zHoJQ#l-F+G%brP3#?_c|HNN8eJ^yXjmJdF8O7r8EPQ&pGyYz9Ju2i+m9ZCg)*X>J9
z8|LlvFWlb$bh_!8>%R9&8fKz%r*D_^sCPszz3X33$&cNt_+J0Q`aihv_JQvXEp9)$
z*!5_t6<4tyTdj<DOM32>a;;k!ed`tS&ouJRYG@}h65a;SJp^4G1nO!+Xn-xfKog8B
z>_tXa1Jp${p{h{HBJ*ozq8pnQgK77s2bmQ`$Q+^xA)LpKP)aIZ21Td4<2W9vYQ&c{
zN@|xmTZt#f+1wtPw*NV`s8CLnN^mP)lm8iRx&L{H@E6okT1b-T_|V{4<y#8GUG5<}
z-l1r6y41BqmVecCi?)h82M+#>Yk=v@XpUYBJs;64w~x1P(~m#4>Bk@2a*itdR@38;
zWezd9o!XfPL{gl2WXfAo<t@05SKda~bm)vlJ^G+uhNBPqS#b10LHf}Le#zrWUCATG
zBxuvK{0tnUq{)oX!7EAL#5b>KfD0bF5pNcbqYye8(ZAeamyBu$0iS2;Cz0$?5S2W>
zP5h88=FecT3*@hVfQvlP*_reTp&EbHJFIV>Jc*1zE_;wm)4Z!;GT%gctrmmLI8n!f
z$GknptK=m4tMXW0I5YujxGsYjB{s%`*$p098&852Q^}u_EnG~m^$41#U-<Wwo|J=v
z6OL4=%O_z7BC$(M#x|(@83!P3zwl4sh%~GD7=EozHa?TLA~fLsCE9UcMaBZ)u6)gB
z6}3Ix<9s5u>j@)puc)0_pQ+uR!e99gU~$({f$n~(q<Y3N=b1m0F6mk-4a`){)y+rJ
zr9FW1MlJpj^=BuXyj4pB!dC4U;aQagn;(jsAA)NZ94b6f->R<Gs%vH0q^PP{YM@ay
z%Lv<O)2c(QkmaxIWck5Vu%G;P$0pQl(9P|qpGU|!3deX=kw;wuIpb=jAgC*(j3Xu7
zKJ{V^yz0docxBo}xg_g><H!3^ruL}N`2T-ZnMN$MwsZGYmHB=Rs<L8s?&}BFFOv*w
z0jjc7B$*#nKI>=HlL>!|HtLFrevCYONP5)P`wBt}sPwO<B{SC=sfY7Q6X*rXrt&Sa
zP15MAo&+ff8nMTqW8-yMXKXcnn^vE0c9^H-(rQZ*c3{tgn;NdxTC?k?dAc{!ny?34
zLhHL4hVyk3J(oeZwpL9UvFUm?vrlutl*g`8o0vw2Fq(99%pPzON3ZZ>_=OM1`3X7y
z1rG2d>1~1)rs}5uPRafoIhxK%mLC{F_}>&k6J}sJq~?+}L4NYl?h*bcIXQCf!ZFtl
z1$A;~zQi>S^9?Lu@dqfVfWv%3HB`GUQ`?=Y?atKhP1WuN2k~d|ae~@SsoG8SV`+7r
zQDyu5GwF)0NaZG@N~8XWzC6&CYU*03c&qWvM(`_HYXn?Z(|S)$(Vdc}@2ppJMa`Ya
z*ix3W+DPZ)_{Y@w2+K4N579gjS;#ZU%oo*6$V^9pria#?utEiHC+7_~c}$j;JY%wl
z;K{!Q5aG}Ay22c)9gCS7M?V0S587Z^2D3wa&jZ?4pLiiQtXN7%>2#UY+e}nYZ560J
zxOu_8@hSW<eiU4CW%6nJeHWflr2m(+_y~r<aG|t$ZtH^M)|K0(`zIXin;n}{flc#A
z)9l`peiz`LqM!q1u_5{w@T`hMa0vn$bSv;I4Jn@04fa$zfE0Ff6^faqk0F=&skKI5
zWHHnxi=j-?WU}bnXcUA{rd(ijA%g&c(GMaC>ctlm`IKEF(TRd$^ROS8MmOGfZWJu^
z2Q)1t3o#KD=b)Zh4~eL<l)83X&dt@dEOU0;4fH|4LIU@!d#*hl*aD5N;e5OCW@9?A
zOFq*k)xo&oV~WC`Q$I=yPe1<;LLb1ePZwnGXVK@RO-0Vj)T!^I_<Z5DN)}%6BH<OU
z+?IO?uhvy;_h8Y8GtM$ic=g*m6ob9F)>QfWoE-rM(UpD~L|6J*Ai7eJF1q5EOcSUh
z!G~aTG=y&$GXYZU=sVLd(3%%$G0XUqxQOJ%S4IX!OewDPi1LT!0>+>YU1$+yiDomI
zCDRv_<j)JK*C|wU{vmvWS^w^l{28G-mPP*jGLwHgB2gU1^udfm6iAkpFUEB!7vl&w
zNF^*!gii2dXD%kA5%$$3X)Oy*kSZgreg;)-0=}ArZ!)v*CduC{x>sWPSVbVTAo$5)
zY_pVn><pdQxU}gWwJBdFWaODX86{Luj-GqukUuX==G5%l(t1uh^pe`ma>^Z*$*HQ*
zyqJu|McKOB$MT5EIWAk}_=+vf53_4xb^%f)3%JzPL0#@ptw5M9faGC@&I5h@QBkO)
zR`~URFnttKsHaf7TqmRUgr9^)3Uz=~;4Yr9mO@CmD&Kq_C*Rk}nIVUvn7<_79da0o
zp%r>l;b7YkD!KNcrzmTm(1IxZapF<9IV;ceA3Hd{?Z=$=eXintF8DsT=_lNY_qo0A
zbItE_2mXe8>SK$Ow|vaO`KW~BALZZYo_U{p;(e~2rRe$zdAk0FJCNcItT^iUH8b5e
zcFpcu;ox1_<KY|T{3|ecXjrM;$v4b26Y^N$;9a@I7xUfMADMn^>ai6L-j(JCzTx_r
z>DW|kg@boxKVOC%Pu=+3?B`ZEcyn!>rTRU-@_IDQ*RNQ%^YwD-We(nDD~z4Vsm|H(
zb4B1=QQD;y4zIht`0{;~lI>BR_sloH5xf~(+;(i4qn|8q&O+XmXDohx-;8i$WOihQ
egZFN$p0%6rm=j(dd1YjogO}yHYk`lEh5rW>(6Gq>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/module_mapping.cpython-312.pyc b/model_executor/models/__pycache__/module_mapping.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7910f4a096bca4ab7350c7f695379b94428e3d22
GIT binary patch
literal 2456
zcmai$&u<$=6vt<O+1|AiC$Z!FFiF$WLQQERO4YP#)gDTJQ8gecB*<m8^-hAxdhN`v
z)4EC}OSDoD5^_#WBn~-n0Huc>I3VCZ;DY2Fk`)J6oVYo4MJ2?6_h!dQ(^N2#zB8YB
zZ|BFGdE@-r)nyPUj`~$$B|^v_2%Q4VOZy|J9uk|_l0%Bpv{aO*Wr<KpCRd0p-zT=R
zE{Cq`VMV4DVO7DZQDt3u$*xu-x#*wRnUe$EwtOq^Se_SXGX?6{c`*#H#HXbF58y*W
z$+TpXY58MV4oss`&6dxB1t`Kv5ftU53W{;k1nHb2f(%YkL2*toK?zQ}pe{~^pl(ia
zK}k*tK|P$h1od+27SzWnDJaFMM^Ktmub_TTeMnU)mkRV7C7U|eY1Nwwj3Ty8zgnh2
z9NHC!nohy<1DzIcQQI!Kvw>1{$`IbtZPzTb(&vG0`95|1LdgvxrLZe9FX}l_FNAe$
zeonNa^THIJw?bQV{+4i>TM%8bxdqV|DOLP(#m{Aem}$CJk(y>;n5I~v86-?|zG69{
zg+*a&f#UfrNSdbQx+UMj<$0#bVqjuA3f@r`M@gV`p>(4pQF>5%QTk9)C~1^_lnlxM
z$oHfTO8)+E!Y`I5%7yZA-(s`WKYph&dFJ%oB%N>yw<gL}|Fe=ivEVqxi7>$Q4$W8m
z5)0A83PWAA%4G=gc)7|jQMlkbJ<Ndzq?sA6y<b-v>Tq))Tf1IQHPmdgf2ekC$!n-X
z&19-}aVho12QPH(8v8P}%S#s<YNq+$t@L2+>QcU;4mMK*wJS?E8|uI-Tf2U{t#ITG
zHN!?btKXA#7-%f*zd&BhI+;+&x<}Hw#O-8SgF6}-0-(__6Zd&w?sYtPcJA}QeC&Ae
zjNRvfIok2ySxn<P3IA-}mMP{wx8H>uWh*Z+*!I}9mpE#Z8N-g<*LEJT1Uyhi(0!xg
z_=Ovtq{~S`(xx*Obec0(9xg>S=yoi3wqnh~jX<|R&zD@6qAiH~rQ4Ks`e&(2nFak*
zL4;Ai!rZ(XhL9^>biCs2Pe9<cmF|;!nlFNkTawA5wn#c*=d^POoa8+=r9-y-jk>6Q
zD}629Bsp~|zcVDvgA2fXX<z1(E|Qu&OKy_gX%~qvo_0byk33Tr$t(=!Yw!^-yUT(p
zq^X<|7zMB3dcNi6Da(RSpyJa6@zWM8r$Rkk#27n(mZ)Fi@7CRS_6B==hLwsYybO?K
zCjVI&Kj)P4mgAit7oS{!@4YubYGgB+Ub?qAFjUunA3geA{}0N>=*jw}`s8nkOTQfc
zvGVgVXz;6^Q`zhA1v`v#1O*3RBOp169mFc~DvuyCcN^Xdj~xdW4^w`Omv9rk`xbk5
z?Ekhii34HaYvgH<qF<Jt8Kh^lMIt@MR`$@^`9}7{R%T?S(8wI!8a%KTZw$WO;cXq9
zS_Vn>Z^yAkBDx`VHw7iv#Rg$qhFQsmQShMIF%-UeJQDUA%HA*p2{<#qkS|hr1#LEg
z9vGSMk-+2P5#oYI?<bH4<jL5P$M(k9+1gb7y_MARwT60jD?9c$y^%cy51wDY_+_=B
zo_aEJ=<&&ok<;)RrtA6Tp@w?;6<$rPxB1ri=8@dyo5w)6^*+tm9L%oRYwxZWR+B9S
zxS7hVq*wB*L(3Oh8gMH@GD9mT*Ob*W%VsNzJu#9V*zv(JS_xtdKkb56TOpCYZ5dkO
zw(!iSa#|4I`8R}m4FBs0qlQNv?s{(|g4nt6r{Fw00WNr>J-m=DMUtfF-9*a4vgG)4
j`Jgn=A|NoY9B*;FDnav^JS-XYPum14ZrjEVzNUWxahy{*

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/molmo.cpython-312.pyc b/model_executor/models/__pycache__/molmo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f213e909da05f35e23b0e2aed0f96cbbccd9111b
GIT binary patch
literal 65613
zcmeFa33yxAeJ6^22LbLo2`(ZDQY5wSl1+)!Vo9_mQC<)`2t<GsC4i(ZKrIXzE2-On
zi4&7?Qc*MMm}=cImH18Q*R)}}Ox*Y0_v$XwhifPU<W}>Bo%+qxeczkXq0^-8boze(
za~E8Ym$K7kI`e&VB_5o6wtLq9`JexGe&6kO=<q~MUmS7&zE1Zi^ddiA$+PxVi%xe(
z7uJRKQC)z34N-l}5HQ4y0b|S*FzG4G7&XT%0Soh+qSlx#V2jxUcJ^+LI%3X%lld)C
zSIix7GrvAs5b&^ay#X)#EsPZfiln&WSka(CuZxugN?C|CS{5r0lrz6AS`n)ZRK}_T
zRk7+ob*v^(!@}*++E`tnj`<zY`j{`^V}56}A=VgZWPVq)Db^flW`1{cOROc(!u$o%
z)>vDhE#?pS*}Es&9_t8nFuymtHP#vEjCBRNV%>r6*tWp7*!IA77FQVE5!)Hq8QT@u
z726%y&BBVJdt!S7dzrsDx-Ygrus?Pna3FRta4>c#aEOJML=VS~1dcF&Y4ow!<AKMS
zzbx7lI~q93{N>SOvED#$tS`{V-YcTVV<!S9n7=Z5GIlC(iutRePsC0KPBVXX^i1q*
z;B2fv&>wp;@FWYXi9QuO7dRI?A2=Vo5V*j?YNG?Oi-C)=rvp#No(Vh?dp7WF?76^m
zu|Oce;_ITHh&>;8p84yeFT_3>_$2fDqQTgw0-uV70wKINgd3xmVuOLfSU3=lMFNr7
zP+%xF92jPCP0`D-k-$joO5jTDYT#-t8i>YXfmm!bFpBu*@RngiU@Y7a7!S7uu7z6z
zT(~U|5Bmd&aC=}P+!45L(4EkQx4xtccSb(-O`|v?12-ZT7T$&M?r$2z&~Hl9HE@%~
zZA0AlNYRxaO2MihrJPBYatBiG{D_pFW+`_e<?fG2ImJ@$LCU=!k#ah`FXFxOUsM&7
zyy5+k7sCg%<AyBZgD;r^x7k+?;VXwf;wztJDUTrKV;_<7b1dcKNZIodDSw8gJc^XZ
zJ|g8yEM+fJ_I*UkpJgeJBjt(6&nhGIb1d{ELQiSuj|_j)Bz9Zi^N|*o`U#{y{ZXlv
z*^&&OL2sXBJ^mtkw;#Pb6Mho!PvP$z{?6m?0{#v}UL10T2N3^-@I|~ojlYd)z8HBC
z=?s;q)KEeA8KizW{4C4;rHCqy#hb#<A^ywZ0OCJ^zvuDy0&?5JpG5d8tTjQj=2P+<
z56rT#5W+4+o>qEkj)e{)G#q(8GDl@AabIC^5yTBeF0PAv)u4-<p4DGzlO~?(C-Q1!
zF7lN(hvjluDVI^o$R<4-i3~-;7!9jfh|<4b3tx#C(DI+(WInT=q8g)rKUTUSQ}`-+
z=guv?Kl(m>tlw`GY^M?tE_5jx5v*rJ<KrWv!-DNX<l01JbTH!A3-)j*5gLq!;&H!0
z@C=3qFGs?`ac*op!X<7A*6|RR7zss@&@vK_j)+-$Mn}gIp+qE1`MF4l<3gju5x+@r
z9StQ0FCUMD5))iR@IJ*w5?p9xG!i~GHaaviEEGJ&jSWWP@iFe~$jy;a!7&gS#mm60
zajJ^rR4g<cIW;;yk)VPHA~zGtOHU#Z8BL6gjUuM#>_jv%axxMMt3ylU6XWA!Tq2kl
z;|4DW2ghRLBhd&N<vd1>l4{_1IvS0Mew5@r8j44HCt|T%PmWXJalct`4M!5e@$uj=
zH#RXY)X^J0jamj{W8p|Nh#m<=qwt{7SB2)y<8O>{(Qq(6G8qx7<Kxj0rJPW7Y;-t?
zE>8r*BQe3JT|7P#91bNeM>q_k15NH34PO|EP6+mM6C;CHPxPI+C^#qp;fO_Rtmn^O
z=pW-^7>JT%W6_D&=u=W%&tMEfoKST(!VS}4Xv7tsJN@*!<b~(QZsZ5yBc3y3!y}2f
zGLSSL=O#iJo5>J$q0+ZD>KU3x7=i+&n6or&LfO+}gP}`uU|;M~Bpk-XL|LWb$WREw
z8@v%28NQqdM#n;7^nhL{V1s^^hTwGMRvaP4XD^-^ICb{P-kvkT^L-~yT^Kn39J)%J
z9Y`38_F`)HjtnM*QaN)ddVC}jm8YXB`1FksHyp=OiN#SyF`J1>8(FYmXMq=JJd1PX
z(Kp0w7NMM`Q!Yx$FBDOP^on+#8XX!FitrvA#|#fgZVuq%kwjeZ$YF7;K6Iww5(6%d
zW0m5w>bKrVA~X`Ejwn-RF<UP2qZ1=hvD1oAjbib~BH<Ba7uOmsbC>A7fMpR22~O$l
za%epAz8+8mi=ZUe3T1TSg6o2~#Nubh&i4pK@>?z~CZv?&siy?D>}S)%ZxIT6CK6-M
zuyI8RG_HbMdL_t&*Yc4#Exp)CJdSQ+ODz^b3xw8K=xQVwL4Vx}j;PusEzNjvC^U$5
ze@k$(gwfEg2#5N{LbonO0L>ypBRAjwuYdcue>?JHIPc#^BPSh)Mq>B^;MI{y8~F#v
zqDREgcmhyQ3XP10kGxNK)FA$pM*`)#HNv6p=pwp+KCBBEF5(~%Fh)!f^A(qpR`Fm<
zv4#y{W7s5b9pYvfv4zctkZQAhVap`GC+C(oJSDI7QF*0Ywhg)Ll*_*9H(5T%H)%TH
zQNHD*T(>NKm*71+7LASNAa;E6&mBHIy(2L|OM;~b*gJ)F`Yw$g@UgwYNAS?s?i-!J
zqUU^LL%tCL`tiK9gCCJNFaIE5Ox)KNzBL+(jSTu#1&xj$@bxR-VMCqwp#<Uw#;!(2
zeQ{|&^o@_jN7zQ7DrP)<!1ol*6Ca?p*ftg`7%z<u3Wm{f!7v`i_Q=}NFF2Ve7z@R(
z#sx!ST=0kiBebstN5VG+!=+Kdjt&U2s{8GNEf_@QBf+5H2+}Sy5hcGX7`!$Sib^ro
zU@$y37z}cBDizFZlM^iB(&cDW1Wzy+5;tb*{b2CEZVkb@zdF&Kh>drTkBoO>S_8~<
z-kjLGf8W);k?!corS9=tiOXZ7-Pf@#c8eQa<Yr_L3zZXJ<M_cqca7iT&Z0Et1mTHK
z!}(d=2L`Lzwpyffm(51*MCYRSPA{3463YYW=A)^yqrB@_+H`ECuxftyYlrS0T5RU4
zyWVmx_r1L<z3pVG`Xpa?Ds4KoQd&1Z@!Hhgsr#Q;E`8gS?(9p|_wl92)28ED(=#ic
ziuuylYVOwD`}ESTbnCuU<v!lC|AA>gN7Z2U$y=JzNl3T$4x+V|X2dK_XG_>X9TzqR
ztPyj>5;jS1HulDrWY`k0vp2TL!nS~ey|KlEHz#{@uzb#di@mwn8_x0Ut$@9G0tFEd
zzTjnVg#j;%D`IcOfx<`;;!4<C=}Wpmaik<%_L5G)6H9NE`zwT!r$=a69Ssd$y)-r|
z;WK{2`%htwa?}Gtg*egV9aNlfwBFt?plGic&DMd4mXt^#V}QCe!CB~t4yOjeEk;FR
zmk39Bp9miEM5dX08M}B~s1y@Xz}3jD;Pp^+A|gh;U#|Kh#fuPmM2CXpvSZP4hW|LO
z5k3<fjsUkQ6-%Tj0Q8aT45f&V^Z)?M*{C!u)8P*;|4H&!fAZcDp+KqyFrQ##JU%GF
zEL1?Jqsc&jYy05b(Iu3)Dcu$6aEu7$`KA;<r3)%4Z|Uyq`>|=76BFan2p2};`+C6?
zk3@&!l*q?@3a;P|QmwGSM}g=CCmXd!t1B<fXOS&l3g@=&VO!^7IMa2S?>e1sJCihh
z-?oL#Ztb=_k34sDXaRoLKhL98)B0({lwP}qIM?f@44cOd87}C!1WNTASW~$n@*BAu
z_!0D%1^taU^(TP3*lY>7u|c6JG})}#@Z3aU6YV7w5#Islwr<5!obhbsJzHl?NqusA
z*5jS+&6N0g{P*}5w=bD8+xmF?@90Z;`ck$&)-V13GVU2<=bk0!IdW)RxCuCd5eNeJ
z0=-h*xnXiHlSBQ*T_q<*&L}zKa0FvK!Ex8<m7`bl5U|b!ca!|Kap@?;O;P+O$zgEk
zQ{=lOJ8^j8{|wI0>Q=TLNSSKpBMZkCix*Db9ZQ=IWNYeDrjpsgw5cxZYfPCc=9|){
z#%yKn?X$Bx)27;Nb?xmZXD^U%OKZwhJ0DM*TGg3yDH}RdrpkF_>daQwh}mnhHNM;Z
zvwdlk?}sM6`K*4`qO%lyU@(}E>(`8mSFASGn1F@yfPl%KHR_Jfs{kfpGIm|q9tJ)W
z21XM$5Ee3IO6rF6Ve?DwfF*2+Sg**WP^lRD30t+paXhu*cxq4TZt4S$3p&3;usl67
zaQ4holl5?X6Y)scH!|uIXOM3I2dwxIR&|8y>K817;t|q?J#jPvWQ`7#gESZAhg!nc
zIw+&Muj#Sc<rv+JaZ2|kGmidJh+db#oA^xWugHBM2jLf?Hr1=-4eO^2ZyIE>3ZR6#
z6b+0oY`h8rLfr6#?sNKtM=npU1@bH3NEFMl+F#bL<%aq&k~NidOXoNB58O8hrb{EC
zI7bVP8-wF_3g-9(;o3ktL|DZ&P$XL+GzSF3jqPk%aCP)%1RUm?#qb^XO$-olKSMdF
zOu-%uGU7on7&qY^aN#xs4BQOfCOzWt0`7^Q`Vs=;1WJB#Tlb+uXD^ts^0tZxwyK9k
zEm>Dl#^vK(zMQA9G+VjlL%X@yku<$*T`kag%QBu0-qW!-^{(e&%62g2Iry-+=GB9U
zwmmFr%H>qbQWx<hD_aAC{-$67WnzLG9RxH~9-2FB{?Ni_@Rh*(x@Sr+?-2^5)m@=n
z>z-V?X@bPcJjo@?rBF)J%dpqTeE|u%FOu^z90>q(ufQ+pgZUuXiZz1MYk0Ci>TT)$
zmykHV2hMF>)>Hh-jhP#>*S<I@fmxULm6J0kXU~1{bW*=D*5gguM0i1K=)QA3unizo
z1b!{#qp{{bK@M$A+^cYCKV%bQFakP8@V=h=GD6vg`M5YiK1WH(p{B-<!uiQdx*wSQ
zs}9}Hy&qUh%#Iar^QsxYfM@0Y#a(<^_m3!eb*sr-D58X`I(Qeid~56dtv@EOSZ6A9
z5P!-euZp#=BWNRxv*R2Tb}4X<P(eU83EtTlyt4w{*^tT|wngk$N|cfnPuRXmID?vD
zhjuK8s?L|p0VjiqE<nTrp@yBNiAvHtmcV&GJTaJ1$Xt`#SZpVuU%rq`5_=@zWNTHh
z0k#GS5(w5&5fx+0cThbq75I4>D|sFKw5*4pfJe06*FAt}%39b2j;UZ~!YyZ)A>y<d
zYefqh>#oRSC}+X%BvOX;IS7lq8mXqtA3L1^a9<ac&-R32ef+wJc@=n$))%R&DtS@5
zQbUxkF^{IqSFwh;lFedOZ7HK&Wr})Cqa0N_arYsFoIPQ}{xou+pU?)GPJo&!`&pt|
z&O3#DRI5)WF^>?Vv`tRWLNzc1mfkRBdef-dOAF*&ANzY+t<Y&<B%0q-_T&FX-&6V_
z(ImI@r|vV&-UmLP-;>JBL;1>A<!@rmm?kk#F~SPYk?_m0$f1mb9JbjgB5g}9jqF2c
zh3wD$zG+sCG#z@_11!bT&tcl>xWnZ99Gw5eVstCt17*|2j+WQOGbM2TBqd_I4WTQ7
z^YRGTI-~5^%CLLElK^8P8l-IOh{{z_I!0^}kE}NOp<^dI2na>F^jD?N2*z0GCie^U
zB|?mV4qe0FRs3C-@t`r_P=g^H2B`xD69Dn3->Sll?owtt4Tw0BH8Cz$k!^tlUVtXy
zQDaJ59tHLl{ONx|-Z&_M41X$6;ZG~o4Vmh0zPdYUdSI)_)^Eww@8;`w(_78MqCM%N
zeMu`jY1Q+d`i169;~pOWJ$sfL6hsPGK*rO=dzu!8c~9q3;k%w4Dcg>eXU9rqZKkr5
zuk2hZ=PUOC)hftV)MP5!_=>j0-ptm=dHk<<9O3Sj#<oo3QNHmgeYZaA^kkfkyt8p(
z_+4jbwzxb~+|C!bFFwN;?^@QsTf9Hz+Mg=kzfxQ^Kai>2#p8co#CtXM3;Km!nWh7L
z(}Cq-zNs%=bDT=9e2=ij;@NPftcAya7v8)g?zph)jl=g2^R8{#!b&yn_@PTz+^UhM
ziFY+Egx`qWi}9|V|3G<~HEKiktKnTW>plULwyf&T3v(|l^zx-`=t9TC5^BsV{WJaZ
zy|10Udv<Zxw+`Gt@OE#e_afhW@k67b6u9u0>>?s-V<et<@S0$kd{?h?vzQ}!=OWtU
zX;)tR4{(6j8a`{DGE5usXBst4>EY8)o3Ls>8rwBb0}s%|c8z&hv6ZD$;}-ZbJyWK<
zbT*bw*>A-(ES-7EI%Sio<kNP1)t-x$eN*<l((EYBE@RMU?sX*NewmzqNzQ$8-hktG
zh%1$F4(?4jg4~T)72kEiaPu1X6^b<6#L~ZcU9gNzBtXE8(;mlGFLOjxmJr^_=0~nz
z2`B%LNEx4kb6W?j)>WEv`m*J|<ViR)Cs)er$p>e}TXM%bXPvjDy$v(wq#@ap{TLxD
zg{5~Y=PKuS%ySDn(uFNaOSYuq&WX7b^T%I(a>kyt%<5M>rAarNJbvQ<gSq`8wa2|F
zijNcI*jSV!axX{VUJKjjzD5y04@ZsR&r={d-=GL~>>~{S05JTjx@>txcE_F%oO>la
zAHV34;__81`E0tP(p5Y8918AFNmoI^JE=dT|G-#iF3VQbzUI2?T4nz2d%jciR?XWc
zetRzqSg{wpQZrNYV>1$p#{#NJ-m$=f0DAsuNFQbABk_?i2>c3me>6Hacy)4@9Iis}
zFHy`#qxm9EuVCP48sX?{?YCidufypdNfQB`L$AUGl`<2`Is}E$ph}^v_8eBPiAm_S
zFcNKS8I%@64e+S(=6|H}o#K}m<;2*J^Xf|o0HN0ilCs~W!aQgi33lc1#g4FoYbXM-
z32BjoCj<u18R9__J6<HMFv?<qk}Wuj7{N9)G|GG&qm0mK0j#L;f_iy2<j)cXBlsI+
zi6`LvWIaWta`)2EJBJ=rK1)0H!<xp0J&T9ZHQ2wgfj+GBy%xP2&CyFhSn+P*y<0vs
z8|$&bJg`-NXwy|z)AG_xR7ty#2uK)FLfmzv(L!x>I$B(8<`ERdu0vE1tsO>tKT)VG
zGK8N*DWIfmMoZCM(b`2eEk)iXOx$mvT<&}1{3bbX!vW=+U=?duoSG!jx*1(#vTl<B
zk;c9NZHym7CJ<d*?pf2Fg1LhEM5cZRU%z8%d%Avi+PjB$?E%q+Vl&<b-rKOy{6^=!
z&Lw@iaYx#_6Nm_rWb!C5+*heW>*4FKQ6M>gg})pH<%mQ<@ko#rziJ8!y*3(i6cl)6
z3JSa;sH8#%@uxfrsHCa3k%IDfq!Qb;>BJ=RB+-f;j56Y6v|<l~j}TsoM!*^x8=X9s
z^AjVPli=xkxEcSu08RpPZ2D4HtOJ}tmNp|MYaNc&AXDpzEKl)X-7CgH!?149@B)rt
z)5aX2Q-j($!^>V1(o8ET7l5NO`EMac&th*#Y#f^kbp00E0#PEyU_LVvPY7lvxFxbf
zsG%gy6=$0bB%xFX8iIuk9TKT{1nU8(@&HxEy3tV}6r_@M@d4!62%)N9tG!$Mp+#3!
zKYu+_zlX2i^PqC?n%U?s_~XjGvppXgb%m`9*B7V0?>&^Q-1`AVtQpN!1bYhp@`nbz
z#;Gd5R@_r&+XM^|NM++loSQqkVI5dwnvAnv-3uUdOdAb45IGdU0gz+RM0k}Hdfm&l
zCLq-^NHK7~gD(jd5@;C>`z3-oBiy>><0{F{#RWYllgxc8G_rhsKT3cFLfN|bE))&G
zQc;z3XMyb1eYGyx^8;_;Y{RQ2pop$Y=@3--eOJ?}Sy$x4y7$(mY&GJlrnQT$>>2#1
z7-s=`y+n=%b|;vkm?sSKY2$eRJ7pxNgz9$!9!AAIE5RVA1cUIahC%dNWj5E!R9tu$
zn-?d(HFbZAZ$I>79p1$%Q^_Rk03i**aY^A(Z`^KZ9<XtK0-nu?_hCK$8RTPy_P9bo
zM@a#&W9(;G^7{}Q`dcu8P1i>vHv~)M=6DE$YvBG3zQ+9_9Q8&4+P9bhqKK$Cmqz?n
z>YiqJFnmt$D+gu{%!cL*=Z~hH^%-Xi?`&C^T-ve3rJZ0N9$;-BL}KLuy@ow&{~A9U
z@YktOuYVdYogLI{O%5LD(spp_9H4kRAHn6bi!^eS;?ypOL2^sj0UEc9L2@^`)Fl*(
z96l9;Z?a<}({DZ4mL(s$`g8oJyo0WSau92O9n1!qG#_Sb6R^X2B8}0JSPPN^(h@vj
zPeMT$wM4yg%)U*~U8NkkJdj>7Md+C_61h@&(*+fjJ5eI0U<k4D{l8~TD&#VAzuJAH
zAmi)nr;zcHuO?TD?3*^JYDhfAb<dP(%0w;3WP+>x?XdApMQ9GApb#}xB{!}s7O&c6
zA(R&4x(5VG!u9Z=d@aIg{&8m=3G?g7_dda&<9<E&dHizUg|mTT$%F_5yC`e}A|=Om
zWIGAMGC4=aL}R;hcof3eB$W-JM@c$XDD1y@Hu%)}zT>B!4Guhcy08C&P{;%?n0%uM
zY~oCgK`4<0*+2|c3SjaOf<+Pr_K3B}#S&-{1t2Vtm<&co8C(~f5aAw``0#$qdZb{H
zG7XW#h?}$o2{Xt;4XQRQcLh1vNnmjenbso*Svrw4^WNr#Fz;<onzNPlnaXay5(G}1
zX6hSAT<p!hZ=Jq>dfAfMcZT10CcX7+>ZyzT){E)-r|AS!^RQ(v{nkBfZh7O(y)zG8
zg|D2RIX!R5RBYudwk{53x{mT)N7JrjZ%267={2Ka3p@EVV56#O%vA5-t3d#*pl{u}
zdn@azN!54ruI{A<q7>%%%Vi&0O+J>f1|043N)m!w*pq46%Qx*^emZmbJb(E7gR%>#
zw)0_i`{JIZL+NS|OTTZc5O+Aj47e;g8whs_4qAYj#r8BLTmR6GRz(m?6RW{)rb8@N
znAUEW6M{%67^Ifi19EGycEWlB?=qZ{fB!Mc+~oVBCW(Rvqm>56N+&YqBWes5+g{AN
zqD|7UQl~7GhP#9`3Utf$d|1K$t|&|-bu2`D4G{8`U_9Vop&YBp6f}W}XBjet&0$N}
z`ljuhgv;Pzqo!THiM}A0e?@^sVm@+nHQa3M!}d+uZ)c+_!9wKLC(7k=wHP~7#xUtP
z>V6h8jocw4<)1QXg$@I^deb4p*((ZLQ7)fBY>gd6o?9{z07!&W%{I!Q0PZv#!Fp+A
zZ~}kF2cQIDV!9V5l4=#)q3Fo)D8z=iQIZU|lfnXmAR3cGKBDu0C*=2V|2HcIry!Ds
zXGBlI6oVE93cJSPz{J7@`^0D*8Z;580$7nOHUZ&${c(u?l4$z)Sd@hItx^gRrW*%C
z2}lEja}-XHwu{6rQdYlU9gH$qj{+f%38*YMm2D!pP5rVxPK%X6Sy>9t845#bN6a@_
zyAj-~qM;P2ixVXVh-gt+rl^B2>R9Yq45f;;C9Ud^qp6~9FpY{T?{v>~zvnIfYVVy>
zbEoEqUyI$1E%xwrUFnkUw0GOXO=Gg&@;mN1_k4)=`c|zbI=fjQ$zxsh>RP&aTVt|%
z_UekW=#|4Whvy4<XZ8H2-*vVx4u30lKepV%cO7}V<K3>aD`mBrvR1yVby1%#YtNMJ
z;LAWqSqd!|F88F%jwDY!EGxegn~ULN*|LU(gQ?Q)Y-wG#t|?np_o35LUXVNiCQEtU
zow2#Gh0tOlntCl=wmnm}pD)|L+>kCilsqA|aRH1f;sh-n<y-bLju~h)Up3#c&)Mhq
zF6{b7;Wv5~4nTl;$+~R%_0a!Txa{D!9ZOa9zSHo)dnV(3lJ`EDdg@%}sb~17o=JP3
z<z3IJ={R|qDh(hzt#B9!V#(ZgX~S<4<kS*WeIB`|jngJ3Fd@MUl&L)G6YQg5dk%v_
z4HTBYQV`)#5-iAt5qwcY2`wmyd<vG9%PFtqDLsP)Mi~|`At?px%B5FRK3EzJSf_3)
z+Mqxybt&?9u`^fzJxr5F9MS^v9q^44`sKTMz}J>LVQwW21yL#*-r)Gi%?NaDluRm~
z_51h^PStD+|IhGqE988FoDa#N(;xRo<ot-7zaZzY$@yb){sWwiz(9Xg(Dw`aUhel0
zy<xeFgviQ`%UmKAK)+ZQC&Ua)CKqEe)qrFBTEX3d<f&{?@txMW))^}a+a^OR3gfge
z?P^NuL5y)1y>e>i)I)dG{4SBDyj1v|^0&&D3*V|ryANgDkMZuu-q!z)^|!5Q_sMq}
zQm!+p^B2IFbUTtHdFn0{Ii2(87VK$Pds2^2FuY6u#eTdfoa4fDMF*%Do|=5}M8Qu*
zo)EcGtT+FFdh=CszDCZ^!%_31zE6SVY@^P35gtaT*e%g1O3XcaN!+Z5TA`9R!~516
zkV`MV_Wa%FS9S0%4YHr*$oHb(jjmD1>Ji<(LmwDR&9&LWvO6_%HLJ|u-nnGD-_HCi
zc6T!JN^~a5+pB+UMnVz$qZ$q3PkH21-I@dS+<4GuqH3P}!+w|q)<iKg5?h1d+7QU5
z5Yn}g(AuVgX`6_oL3r1xEv%*;D(X@&K{ivs6?SQ-3cEK6w`zx@yaEs)+>B^YfEDY7
z0wC$3C~T0)GWOmY_nkR&Hb?T6hy#L)X|hUU!lD=koob*5CgRy@m`S)TgU0hXzWm+j
z1~@Y+P%;N^zbOr?nr;BNsDVo(1s$E(0~jV@j&cb7YD4GsVqV&*5DKcs`seSJ7p+B|
zl~aQ@w7;p3yY!pX9Jv*`2I{AXEahscU27&DSNGH8P_@&?MCLSmL%T#(UQvv$RIVQr
zqx;ykUME^7uX5^}k3ZI8pDTMb@`6vW{z0e)MTb#VbV21TgH&bfbFw+Md0ypP7;7ym
zjxMO2Rgl7`Rl169(<H}l+5;LjL0YBta(-58t#Qz#@=O^aawx4d%s>U>2-9p<sB7#k
zH_{ZR^cLFImHW2r<1Qz*%YN0WS4vFmlw;8bt=eurYWgd?<h;3GP{Sm6gSsg-ReeQU
zJolr^Qrelo`B!{UW9_lf4%M6+TJr%EH)-yp4a%uc`)g2v1q4I7TDew<!?F)Kl({K~
zZ8n#Y_CPL;>_e#1ZaEAk7{CcK{d1_Z{DJ|eatYR<4)t=HM33x43EDGLqmRV3sI~5K
zCa3wC>y-w%d<aT9)F<AbLxf0Tglzy0GLPIXrb`En=bLm8WJ;`%+=1FTN3_XFa~DJp
zM!}By1<FYpGHg@ijPM=zH>#L~|AG=!k@F2WLNVdNIk5#%s`538UQnXfDgSZ5NYTGU
z4*S|YN@%$z>Ks}jXUWdx<?5>Dh?H?^&v+yV!v|;;feFEO4SAUGI`csz>xw`!mCOKx
z<*F!3f%2J1MM<u%Owe5vub|Tk=cB?3a-pOx$hA_S+=X=PwvuQkw9h$OrlQzbGo`VN
zky(r@_thlO{C<1{3A8*Pc~R(}pF{V@e-%ra=$~qV&MXOZcJkGoM8d3iSbi{Fei$@F
z7ZdH=&)4r~B+id5(iwgudN0a*b}WV7_3TaA_NF|0b7Gw(Bss-bQuzg065%|=Hy(Po
zao}xJ=J5gk@d5gjN}7|E^{#VAPNH+*ThHHro-f|NeD2-iBPrLBRPm9O;_^F(<_?jl
z>3$yn^CI&lJHv!V^G#2rYfjUbDmRlZ%|cXibZ&GZ@y7JMX})Y1kyNwg)tT}(zPt@`
zl85gf=F3Sw)s=1S%(V9Lt$kEpbGFKtsp{aXIuPZ-0jIK^31~8LOq@;5&YV>QHkpTH
zLbHYCck1WrNrcpGC1IDB-B5CFCJ{|nwrwkZobr#e5DdI`oh=Wm_ou55CVO8#^RTJ`
z;(8fxEAMSxZ2nf~{Z8Ji(1LMNsxCmP)2K;x<3dZOaTnjXYq=$J;7R_#lMkw%lH;Jw
zBv!7x`p)#+G_(aXmAm=M-Ng7s)u0wtP4)8Nh*wcVDL^SNZ>I`AEUBfukRg?ez}uOb
zGpvYq9__E(LjTKZW}ltEm@01i&|@R9(wFTYmg&mdSSOGoR!*2UC%#%HO4XJl`InsR
z3?t~T3Hqyf<P8E~457Y>>AgAO`f4v0*p39HWDmAhHCir(%G;@Ogx9Nb7(P}GV)-km
zs#Gj~))5XAbX1kXpnP=`u>t6xP%HX!WR!%m5#X!2q7+|Fs%^cn0n%%1WCXgV^-L^5
zsm&u&lIE|0w0LFKHN@x(L|O(+iZI&-ej5Yr9PPP+V{i<l(BX-(i8u%IayqV%96By=
z)#P~bDoZg`QdAWj!Nv^QfY_NY!XOj`A@>ly6}%=w<;mLha4#?V-=L`YSMe258rJ*D
zp_xPT4evUuA9}Ze>Hw(pD|Kn_<H?@&?=-K8m&0fZ`7cgSu9Wh+2lWTu+4X-N`rShh
z%AZZ1{DHS(zVKBiB&*NdJ;QtbBs{S`gcOh)l8K}=x$W|18fUbaylGC8l}&Sril;5$
zrVJY6O@L-MWz^!uU`T1%ta}iuoC|YN+M&b7us%1r7=;j=kZCJYYn=W*+kkM5ljvtl
z5w4sQRNn-TLdH22E{jf^@<;p(S;|6{R^fu=mpWyY(@xv)Z3QP+rLxJ(kd<afA41TZ
zCO8rAIYxnVa2}eNW;QW7qMmS0a&mLJo?c-uQQFi=E=iUJ_fhEYp)A1&Ttk#}%1w6t
zb-_v4Q&1EE=Y9nVH<tq!=@LD%a$c82l=~xmB7Pq^G1ncsqOv=+bG7r+>B7z#OVXG;
zmn|y2<Dc`-54`q?yPv?O0gc9G)AwB8b){<h-q|thPZ#yeG&|^3ymD~nU<!&Ai8nrd
z@6)N)BWx>f;fq@qt}QmCi?`17CVP_CNU!t7nHT48EjBEkOMAK{)lY1rBXc7Q`i1Qa
zp>$bW(n(U{r{_*DIMXFtMKSTLA|`&{*xxVcz!-Ukdiq&%o+F1z4be2===33q4t<7v
zGvs`Noaf1zAcyt*tK|C{IX@3aO`FqG@00T)_0ex2meJ;X=%=mQAS9kGtN6fqN>8Fh
zzEv}Mh(gy0or$uxRV#b9$rQU)J9~HN3QJa59&C?}f*-kA=+g$5xkRDRk-xF^jji{#
zt{UNoz<6@vm8qF2k<yp)_<4K#ni(;xH7;}6N^u1tG^+?G!{;k%?@Y~2ty<~LrgM0h
zthpU;B3+MKGl+&LkG#38Q7389^}>$Lsd}L3<<wBE5Vx^uogpEpqZtlSN+!&sh*CNQ
z?->|un}FRN$O1;9q<}A)^O2}&Fux(w(L}`(rZDvqYAzDb)PRb>69a+=(ByT*vkiih
z*x}WArQX4jN;=Hao~#A%AeMs^NT=WmDxpe)LT1t|TdTZb2!e?sC+iMe3jUE3zLfC~
zd|kmIatvJnENuX-Q5TSm@{f1&q=2^meN#W<U>;{WaDYom>TR}|=s+eE=2^X>0~FUt
z;Vzhniv%ae+1Z4n(=kL32NS`eQBhgV9v-^^_5~eW)B>ID7%cGs_+?~aQk29GQA?gz
zuAd{yq2>RhW%?E5qeF{JrG=J%XvsFTW*YYM4LBC?4MzwSuY0d%Pu5lXuFF4PlBx9b
zmHsT)1@0!^-IQ`QFI?kYZCITmhFJ>?6NdpDipm>ajS|BBo`kqJ@~%dPqlyYuQhHG;
zR9t<;RsDOb_LGW~ws5+#qce__GG*{l>B%9MY`<bER<eAkk?W$q?<R+M5wb}Is<U8~
zMw9J8`KXo1^r_e|DAM*~#rlX7Nd()A4N7I1(iXlH+d;b2KLeiYY@v)LS<^0`sPg}r
zna|9J(jK2;ctz6rzi;U8zppJO$^iZ}zM>^7`Uvg|tOn~~#80RDGyKIvD1bruDnR&#
zEu;oyuaKZSegR!e%I8bw4y;<~O$FNN)j{CgNxofHbKwePDS<Sun&C%22@YHFCe8%<
z=6}a<xbPGi4TF~d6^OLMC?)`Ljm*{%P3F+bWpTb7Q08*0m&pvNLCyaJ$NwPUm?L@J
z4N#ctM5qXN-LOgnQ<_0gipc&ckp#sx-Aq1O*c?n?YeUwm4Wq7r))HFAbRzocL2K>a
zj|*Ds7-+3hfmV{i?_e<Xe{|qVSV#`Ia!kIE)(7owDk=NQjYA*-((Vm_w3RO<>66m-
zpB9jEFnF%x_K>q4<=sbt<P_59LNwr{8rhNqh?NpR#IFh<(whn((yIs%$+zcY07Uv`
z9zc|-6>C31CDe#1v6`7(6hp+wP*XkGe`1!PL?5%064p!1X0nj7IcjRxMonQCMH6KO
zc1GW_L^g@vG+eVZkwq<*DY2_<u)AVX*<Eo9g$(ZYMh1ZqbE58^C}zHn#>*hCde0}M
zkRiadudhRZH%Oi5q$7z;Bk>pX;4diBe48M-dWJe;ve1JxN)3Q8%R?weGB<3>nMKLT
zq9d(_Ob$XdI8u4?&<dU4AD}F!Tuo;DVbak>mh_0jFbbthVn=YxNFf-xSX|_AsFg4E
zh!^Zi4u(^}U_%sEHdS<elCWdcevUCSNHqn<3z_{*mWnY7DnQvus5l!+3|E2laoR=*
zXyoC<RU0OW0=W;+LjEE$5#&}=^53h3;en#rGYeanTb3){u1f7a0~#=)t1lNoVz{Jv
z;rMdRgJM`Vc-e-P4!LK~7T&XEvGiR}SIX9v@^n3{Z&|pWY2DAa?q9y1d2E1xY~Vrt
zMM95j9=3HeS>!t2Rkv_F)4ZQ=-jCA#C|$N8$mNI|Hd#e(P>nK>pH1L*;Q_VQc)Ntz
z2lxnb*0f=iNJZ$Y^$$(#JW|o-s5BNqPS2RBW+@XpSL!C^DW@@YN|{iEvQP`6g94p}
zqK?uDpk?-=&Rh>UxH&?{9fc!f;Yu>@I6}2B@XC!-K-xLZ(G2)3DgzX}K<6q+Ijghf
z&Cuwt@nveZ@ip6)YST53&756nY0tDA;9CwXAAYAT-Esl!hUD4#eUgY)wyZu|)e7yc
z%GNcV5v&I{AbeA6rtvYp@v*nv@7zo`KFizclkVA@l*4w{wosd{=w_l+^OsYemXxhU
z#C>sfht9u2um9uHY&Iv?97eeuIs2)>{|XJp-i2K$N2@87_AdNlMk|yWdR1*+^eWP6
z$S0C%$k$bDZdIr)@S_Ns+CpzO9Vjtd=e91C@I_lz?G%J9&?D1s7IwdJ=-#2FQlcKG
znhx`|N8T>sYsq*dZ$JKHCz6Z3Lk-a02!9hT%Gr$#>mx=j`e_*3qGq^plW-H;(#){@
zs+n)oaLv@xmd46dwloX2G|MfM-wH$TBr7FtW~77OGXz>a+tqR_flcxLjT9XP9{d{X
zh)2MJjjNa7$hrqs0?^g;h-;DwabtC|<F)2$SEbkH+h~>;CM5`I&2uO5Nvw3X$k}qI
zMJ_IPCIC%s1Z-EMgpHf`nM}jIOcVao$jVlDNkh{1s6`8gov3N@Lb~E0)@Q|*MH^qS
z4ZdPu(gsOL_2MPD$lZL!?xk3|qBlQrIX>g5$y?iy7+pt?T}N?ctM`+rsW{m`MZVM2
z1>_7<GidH(*&0e!iw%C&VxzZpi;aRl_G0_ciR9w<>8p8*O{RRU;SQZVtdrDP!p334
zh-iJZ2*Qmf;DKg{CBi^6TSB(5Ng{{Z3Fn0M^i6E?L8Zd+l1ZlD!F02jQbW`ODS;0v
zDV<D=QA2cteMuu6Bvv<xD{h*v0Ah|B`8F-j6850Hg0L56qrH(r?cCzRC;lMHDT)-5
z4>c)7&SFOFEdi6H7?%|gFc77MWgSY6&Pjruk(-FbAXp_5qNrObxUVx~(`xz2jetU-
zH6$>hJ`(e#CC45$h70X#4c-(|s8VaC5arJy^@<V`3U(?Ii8a$RtsbrPLtyOYWG_|t
zEkFrmanLe)kVdH|kRA;zS__9pE_tG(1g#Wd({;#qKcNeo<;e#_v5Gv`lp&{kgZvtl
z4H;CTt_sHuUsX;7D${lV)>_(`$f@w(kTWO4r<wZW)`y7e(0ghSdrzmk(kT0Kzlklf
zU(1YK*fwPvQUJZuPL-4%&JT9AOcWg(j?j4Jg!3m`pB#<e@@?~talY+7QU2G*l(OT#
z5Et>m5-wdCgNtkoIeTsJ=Ll@4QJ%jvM~xR8PoEkHp6Pk6@B9V9aUHh4*|{MuYIeGw
zdh*FLr}|F>FPsYW2_>+pFRBnkU|>DMF?;_^2p#sii0~Ige(v8<jpyMA#wfJhWh?El
zxkOiB><BY50ka_^8(>#xf=qps`vDa|@Lw>4D=-G-rg50KV|tx=`kLpk<V8tn>FZ<#
zkCFd1&pIL@G9PRxryX2#rHj+KYCWCmVO28@GM;Sx)=d2&zWxw9rK}K@zkzo*EWjZ;
zzq{?t=XuwDM*Y_aUo{&gT})V^sp?of{Pxs?N{AsrJgH&J8+G^UG7UX^Ll0vqFtc^+
zz*NS2x>t1uyCdt`4Q)=lBjxD^VXNUV3?sb06TH$F@4c9A+WU4C2c!l@0wdcKzU??b
zWy_i}W!w3(?ZkUf^f`f(mNsTey7`jsZ#ON4zccpMSbE2CzT|k){t&ita3#U(kvFd1
zy9#}zk)^J5OHaBImhZk)!1la6)9vUe@rd;_Jevu`XzAH#vCFjJfXrPmanH~wuh49;
zh*#){8YkBg!g#I{%JUa^pA^qB>xP)=r`@CRtwS1Sp#2rF3NoHfm<7yucJZEF8P5UU
zb0B4t3>8r8<maEFr5qXS7cAk(b=*(It#4@vk&_}qyuPI@!!LhCQxEdY)U=4moI^YF
zI7<rk=OI3Wk=0+3dqVa5Ja)5bAiSinl@ngl8e8PoJl2Xf0iY>wmSrVG!?%Pi<uv0x
zI_Nij>=GFFO4*-s)y;9QnCytMyXI1S_A%H|Az2NLIM`7sLu>6*HccrK>y)TpO7jE{
ztfy3%bgDkl5P+JpL9RuSJ(;$S!Z@I~|FimO?8RX#6UuTTojGiVW-2b&fo3Yh0g%T!
zWnudhe4F()^jGz=94_SmB4wZKchHf69$9CMLGieT;uyQx<)d`SQs@9|HpI1Kyx#%5
z{25*Z>(xkP9MHL+iMHgnGryht&y<(}dm}Cg<9K>yOMU=7%Ka|Aen<}ODzbD7O<L}6
z;0XEw?!VH@-_i^8TH{yc+cSp5JKN$gNhbTu;?726%o@!cMne}|xI7MY(jaU9q)!9E
z>{6$=PfKhS<%rD5nmf<WJr80!(?FXoe9v3TbSzt5>$uwi9nFS&k;QYchE=s==@MVH
zZ+YmQ@B{CKlm|NWD-g@9o~wp#S>fG_3q4?O7W!f3u(I~Gy1R9YmNd)*6s$lz=CPT_
zQqGoac_pYXh^+s5{j53bt+?Zv^DGoBPVm0n-}mlWHR`JT@6|TG_T1g)7H%$`e^9$`
zrhlcjWAP|o+nwx3IT>dI?`&A;dDpomTifvssE*#}7W??x9f+-jXeVFUl`P0swq`1~
z@|9bu(%1?vr7QQN79QB$k(9j7qveC@lQGd?=zYxqz_1z6fC9C?O2-(;Bs8Y~`wETa
zM8iJD!Z%NuwYC|67sG9)2&29DbBf@y`uC8TP9<1E0904o;Iri<E3~8?k<N4#(?yj^
zV}Zjqs02V{1YN6la*~)@s5c1QQW*?bsmBL3rsrelw?W{|8fJ>`s(P1*rKnwiG6j$k
z2x7Dl^fhvusGmL}w_Q88R@)(fC%2BqvRqvY(ND|=I{avzOQ~LAE4ivtG*e2gu9C|q
zg{hnRX$R*^)XHI+>Oy9iFu=blh&|Dt_-{xt4uFlaLC!yA4%-sS7jnKg?FxvdHa5xW
zbH5O(a=z)3=g71ZtyK;kxl~h5Y^#`a^e~0$7SXSE**bJhyYU^rI$ZQqUrxEE+)Sp(
zqN<hdN{2@3+{{D0v9-8G*&l%a5C%;|*r+~iYXDb-kToXi2;(xeX-u|X@{Ri1F8jil
z{l2yvzVHpdZ_w9y1PaUuzwE<nTNtqv45L+s@MZkn;7%dy0E!^g6sBp|R`Me%I`>r~
z=W|4p5%(Bp6qh|h9Re4Ng$3mWmwyUYc1O<69o(N&0sk*KQ{-HvydS_P7;y^Woa8gb
zBB4?4If{9j9JXl%;PV%V=499gMNpFaLrTxgb+fI7BUNU>HZ~k&SShQSV5OTeQ8?K|
zV3(7!7rT6E;0?hH(+u1#j;1e1)Veq!6>RrX9JY;#A~n@oyO%`L|37HsDuRQJ%cW~*
zeZzInwRj%J5`5cuTW!)Ydx{hVU~?BH96RoHEDd}o@K#{9GF|vM+m$kvByGRACtbM%
zJ3?_ornr?aZY6SFl}M<EOTw4^bN#=#eIdNqyVU&a`c%_?zT`mCo-L|fDCCP8lh%i2
z)shVa=Thjt=Qm3;`=8+VKk?4q^!^L!vVlz5Gkn=I4~xq0bk22RQ!9T~zos)lLf;8u
zUUAi(_PO@gcavG{+4gkNb{KiU*5zO7xxe){OTSnD-THURQ|AZL`!DkC7x~JIY(G;+
zXI<s<ML13!aD1RMbdUqqRRIWtRc%u9_N6O#p?S0ol7XJAyL`SfMP{`{E(h;AuzZns
z9Yq;ZPK7Xfj<4wcHjMEcNjZ-s_rrOww(hlycQ0nWb=ktA*`C>J^Ztc%i+0)IL&|#u
z)&c7ZlKl`ntAc_=Ro1odp{E-Ep$@@HFVGd%XS_|kw`t+%k}2hFN_%&c^&luubYZ(*
zoLCx7SN75V3~T3Yyr)f)eo{8^z;fl=J@4p$8&bFF%6@8>Wc_>*84si7VA0jdTf1Nt
z&scHoGeHWo7q`QMq&aMuHYD&SJ^(`++s!wnSOw%7bKGJ%jt~K0*x%KOhyhu;G2s1q
zyraZv>$HtFvnlg+J*R)!1z@Fhny^9QItT8|TBfzbid7wswkIPiZ&yyq0b$Bj5%^LM
z0HC<hJEk03{OD;X6d0USjwzVvmQOHxVE?1XU_0^S*I;_n8hjyF0~HO=5jG_h^g;e^
zt}b#fKu6i6DR-^_YMfJk12r`PSetRFG9#aIxIbQ`HOT=_Q2?Rye`W4s`f6@*ddRof
zIs{XguA}wRosKZrBAfk+;|8(_U@8|GkA?;#f(@1<<2ObUm$^O^#!aJGhz3F*E`fW>
z+7X0XnZjWhowz~KlN4QsJ4*+z%7w;p{iJx+Gr`DEEDix)eAmrx)0I9P7fe(QB~YxY
z;9wcpeUySzsy<6+gXtSCj0-FUGfTp%6(>rg0#)H*fK_nOhomcf<J#u~b&9_xFiYb5
z0JE?l(Uo;|z+g<HBW0@thrGO+EKzLZtGA`Accja9CY=u(xBSwUr29{r+Id%fvUj%g
zk9MEtz1wFU^QRXpvc+}Kgeq>&mefEyjHI*|PA^rZ%MZ<(NGa{`+~I}t2gUxy@Nx&=
z)rV9MaVNp9rIH85dnijq6XeP({5UW8wq$%edEd@i_Yb_a^O1!YmQFtK9{z#1bhT2q
z=Zt=}MhDRSv5R}?Yh5%izWCtri)r7}N|6t|uq6hwowdBHc0NpIJ3DpF9jjd%%yyQp
zWB3SV<KlS3x)H7mRR)}6{M}15F9?efC5Ug6j}DC@CJ~}(3Xp*t@yN$`MFfvTVg1jL
z?>0qznH)`t{eFre=QfQT9Vx*A&enA<IhUVHb)QJpo=lmluw&vPCwq<g7))zGaGyNH
zUfQ~9WnL94n7xaFOw4--x7Mv1^yY)J6L&s6_vs(%;AL0Yu|O0eMjx6tlZ9%EKBPn+
zTD4S~>qIv2st(?zzVDoQ>&zN?SNH5T*R9~Z>6&w`n&C%LWz}>XUA5AiEXluSr?*kP
z&s@83a`EEQ&Sf*x#n{=)clPnk$5(ZTd1vQ4@!#F|WAci`A?lDp^o8;e_CwEF9b(k7
zRkS61T@R@$+yxvlDR=4>1YiOzV$nJm5&ugoT(XmFW3pP_O>;Z6bBAH-BW!0}HP<F7
z#MsTg?f~D*9B_mSU^K*q`-`>f$OtcVzCkP85q8o+y%~p#@u@rjtA%8k7<?+Gk-)Xm
z1bYmQ;G~;rWj+*%2PuSA+QJm_+brI`rvJS0^QO<6KX1vq`wt3GAIJ2k)_L~}bnaFd
zKQxr$^93>xszLnvf@Q`8CJNEh*)wC(8Z%K}0ddOKB&TPLCS}W>!bwUie?k%0n#5`!
zG^q3va;zgwT|#^l#JTm)j0G|{5<;S89wD`I>dNKeEQuQVZPc6~A~AcupgOT3XQLdR
z`-Ps9DQQkxF!qL*Y*PlP)*B)ErWp1l6b9c{S_glzoEv`SJdM(66I}O%%|u_2?po}W
zBR6TWNy~_Xj1J&i3a>V2Qh|)~4I8w}Q{_~84D2aeKa*usW-L{T<_5KDjXLpbraQRJ
zXT~^Vn9<YB!8m{-L=RSkp`Wb)cIPOpansxv759Gz@q#-niYkiyC&t$i)i`eB5qDwR
zp=c;}DI7X7xh1!>6c$d`AzUgEipGz?BPQE}{*P1LesWuP_b@DQ&bt<(%X@xgG}MSZ
zjY(^l#O<P`$vsZa?;$;tB=J|PxMVIex)+s}tzf@AB(LC{G$m_Afnt7CGz#Fjjyhcu
z{iQv<y{86FJ=x!LCiwJ|$9j%3t{O+jZzk6VDkPakmF%7h4wC8%hDgvw6m?*7N++nV
zn3Yt?__o*p!O8A;7dua|1K*Oo7O8>9sBJ#_6q6n_QQ_QiDy;q^uA+x_Eknz`LM7x6
z8uv8{dx=W@GMqR;7T`>e;}M69ZP$|`!=3>`Wwd-WHVw%BUvOKn%`M-Xxl&k@DfIJ&
z{!HOczHlc_o#l<0@@~GoJLyt+SITO@J#((qHD~H}@^w4ktvk7NJ+t>DzxO0D(W<jH
zSH@QTuC4k({Vv|N>-)Cqhc!ExJa|1YEJeal<c>+2IgoMd*q&)W_-^~b@4H$a^qj}h
z(_RLS+WuZ#Zh*Tyn|W9BUl<H-Ix>~lLe>14RPh$r<lFDyZR}>MiuvZRcP%!**#V1y
zT4IkS)$_+QHC=p7*OEoN1vm}f8`RX_>wY@xu9?4*a`_kcWI7J>9fxtc+{T0+x3axh
zx)2H2YFw0Cpv^*l(3K+jwHY49jYGe#e{x(9nYX6rzK(Pt(y-xu9sWF{-yU%`iejet
zuEcW^hjCrpF?prI2qPUteZ0rFP?`30q--6m{{2i$ODM_H`byyP`7s!;bW4{#u|nh8
zcQ_L6roQi5K0s<Q8M(?S(`P}!nl_IX;%ExG<oYMq8PjISSy@I4ASEi&fuVHFD7-i%
zhD8R8C1(H&rD^P*2-Vm-5vqtS<i0QOOE~00G+`QQPGH{{aQsxn9T;T}2jQ0s!AMdD
zQfV*Ie%3wl0+s$AN(vjlt_T`j&`nuBTaLOYJ5Me%`>HgNq_5(rjU1b#Ru1wal@A(z
zIbdl}`5hc>HyGA<aA<^sP%;@dVUvxsBZ9k!R&lS9vj9hMAssA3OUVvUieE%Hm_y3M
z6ovfWpe&2zDBtBq==Cee6Q`m9e8fjZ4=Ymb6%rZjI8E0-MS3RM?5g<Uk&LtTU1uv<
z@AI@}eVude6<>44x1INGU-GAYhi2V4df`H=;?`90&Xj8>+$`i@>-n0V<k@U_$Kn%w
z`QGG70E@C3Xyc#0dwQ`X<KNHw_b>1I-jVMf`M0G{B>R5Q(vkI6X1%rG+^ktmtp!X_
z_U=BwnX=P*P=LHOUj$pa{asJ{!{U}~WB2m2y!SW&K}i9`02tUIA>8_GeG^%5UaVcV
zrR#fe2^*wsw*w}zn-Nf0ZNqD)?w(qRrE7Mfaw>y_bg<4N?9kp#z+=sV81?GH4509J
zk30vJd0@~W=m3+%+<sOf=#W8AlNQk?XV4b}85lZd1eqF@7A&v_84CeH#*a0^@a$=e
ziev&afjORryt1S<Wy#UNK@Kr$D)uY4w}BiI06D}6ECovVQ#7ZDNP(^IGvt4foZIAl
zjvPkB_!;uGqldVc;FC8=>SFHa$oV`uNpfb$`4Tx)ro2hAc`8m*f^CzcMI8~ks%Z%$
zG*>^5?_i%SV>T=wNjV@L`RSSI`DY$L<i2_7D&LN))+!!)S{4$E0}nhq@Ul`;zhL4^
zwj}!=)-)~jEk5?((7ANY`Q+IjxGLwjEYv=5K?XnX3|~xV_!9LQemAP@_pUp`bA*d?
z?7TfgK6XN9=kk9^t!FFyRf?dwB_7UMr&9a1&*gIzLrxv_!ZNbqT)xtC?1#Drvtwa$
zm423Y{)m27kL&g3t&64Ks<~gYiUai4<t^Xa`rWN-<i*y0=y83vbNdI*26L?<iw!@P
zO-UuwgSXO~O@~{JdilD2t9E*INP^nT63r^*C9!U%8^7kJx8wSPO;6N_kx$g{iYIE;
z9@30uR!8#IBEezmmo+*r&?Y`5>WDMFZfVOFQD=jAHB1${C2zy_f-H9<0yr9*h$cqH
zah>PCLXt`9IXakOYsM8#g)_%zLo<g`rg90dAX6%d5l~!UViJa`Wce;|M<PQgD#Q(s
zj0!GpWcYIKZCn!OBDL*7e1knExb(*w@c<rbgecX)73DTE=n0u75exMtY?`=0QQCm8
z?LeXrav_ML7%<G_l0i|OVv>>CIRO&XDK$%<w&tZ_U)iKI8)&+8cLUYVDl;{wY*a51
zJP<*Y$v1%YL_Lg+>Rb5XmdJUFod1=aUx6bOvp&5sG77bIrE6`hYtiw7BZdoKqY=8_
z6;~CpK89CgD-%2*m$GYMnGx*>REbdhXJ~BiqdK57dUdwK*`CjR<{|DwbuCWuzJtpl
z-uKwsHEB<O%GSS9)w0;J?Bd&d`KmsQ{(GMKtgU+fDsS^Ip5bl#mbde^Ls?r1_z_;q
z?URsGD{7<!QQp?Rc#gMqiE%}i+fN{_utAA?p119Xd28EYF+ri__9?6zSIO+Hh3#|G
ziw@Yg=AAp1p5vWIQl=x~q_bhdkucz8LH6AkL@U@sdy+y0c>*u_`w~qN5*xzFQo`%<
zhM!HLb@337nX)nqLeQKsX$=zwlDZQ>{MTvZeuEsX(KL^8V>jZ08Nwpb_(ni3l+qwc
z0~8$QM#Aji$9)gw{c{?sUNi?NN0H85leKxXr48AVdU8t}aEx$UZuddaYO^Q|u&Z!(
zOER}~tz>Wx(?wZ<)PIBpu@(4>@Tj{kjH~9b<`62cINZ;rf5k9pWH)p*V#VomYeXwG
zyTyx{W1>|trMp^%ZURAx%rngy=@ze-n@wcJTMyn4)qy>PM!%%XNgiJS3W6KGjF2DG
z-+)eocpp(-8z?WKt80Wtico}5a$1%2OJ5gPB7qK3+~||=VH63ps-*&d9z8$VN~1Ce
zj_*jAY)go9FTRmn@LM!QBBX>}_3igdApX+umgyVSY|_H)lo56Taa{U8@e#p-lMBh&
znz*;|4M9I5=*fs5o7eGtJu7iqY^VVD4l@24eKU#zF)b{*qH=HuTNirnc04F-`Os|k
zSpFEdp7uN}ER)0kExl)*uH?0u-LofPS!&g)b2yVdU$Cqcwm`|s?#Z%Wv+DyLvID7v
zs$MH!zw3c>cgnQ;FW1}%WptHSTYH=q!E!l5P)9J|7zyK205D4ugO^2eg-4oR@`N5l
zE!ks&OKXpYY3&cu2=z3BrW``(fw(lKV2`F~pozrnrFdHP>mHRJ9kJ}#Wja{vk1i9N
z$gn|GuEuFiRW2aI6`7{3`ud~u%k9JFfV>bJ)D#Sq1R13kf{AGdJr8eMc&Ln5bEQ-E
zD}}0xNM1R9+JSy>&=R<y7BN)li@BWmnuWd=hIpck7i(Rsp;a<b`Jxy@CYb>dKHLX>
za|Cj9k_=y*Ex2LvTdNS9#HlN|U^wb`vI)&Si2%V269S=If*Hqsh*VrdX|UoFCpA_m
zw~mZ*VKIao#vH@kyBy&nNPyRoQIzw$^!48(=l99^19E-`j!?K^5ecQaASi>5MJJd=
zIKe%J-E?FWk{--9r<aRdn;79hTx0i~2g5=^eu!Wgxf#cB>ZJ1{{fI<IH<WW>utEYG
z+`mIT-o_k^{~;2y<D;i};mLHtuG=RbR#Y(!sPb<czGHjK_Ml>a%2b-I>0EN~HMj+>
z^1YI>J16H(&JQg_=7Zlp`kg1<dg4LJW4CdB+?pxh$(QdG!_wuCz1_)|KbbO>WJ|YX
zO8tDPf00}6O_lo7r9HR%S8QdtUcy$DvDWj}`UlpAth+knZsgsKX?Jtd02~&qxAVNy
zmooW2H0uhyuRJ^R?Cj`5oG)vKL`GNI-IH;j<lQIJ?kAFl6=#i{n1Q)LG)sACGofeA
zg}Ic^?+E~`gVSSRhS`lTxdNm;Z;C*BDPort_;3M?N(TuX8^j|n47EOa-UXa26h_un
zxvZ*qx01`I3N6sc1(Q%psU9VlT3^bmgsOF;3L{0Rmo4lft`TYny(gudVis3|P#AAl
zLQ9o$!0}N+%al;BDzsb)g%*>Nwn7OlQiWEsuTc*bt3s>7CE#h5;?D$*RIZ;a;WFq&
zRc{(wj@TN>=0Q!kB2pWvi`2616YUgR8?KDhBeZ^9XcflLC-TskYl<`s*}~P}i#0Ot
zRueYgTA`GYRbc96FcQaJ_zXuEL~@hA<DjKOZ*kwJ@{@eZ7a#K_E{77nk%SM+)^{m_
zAKZQ#_Jy%F2NTg-T@IFg;Bo{SF5&|Ag<<4=lo@)IGYySRjD~##G!C%jmlKKc_<`>3
z%M-&`^TR_BIp`W3>!zYdLnGa+7M**KcJ_8|+rML1H|_(y)Ex_rjCMnT2D&HI0K!IN
z#IEZazs1Ug(uv%(yki<|KlHb@4bD0pF$f>7XUu{1B5eV55wmzTxiQCA;8p-mAZ@`2
zUE~+(==6bnMg6+`u9SLPp{D<P<cJfm44e)%HNCP?(ccis#`uKtke@Z>C_Id8tVHEJ
zTJ%+|-CQOr8(EVCJ5x#`t6qYcu|PJcF}#P*Pl~c?>nBkc%kdtyi7-Hw%0?^iX%!VW
zQnpSJUa4C|m<emqC_Fz+iy%R)X~_+UELMy7KzU8UCS(*^<j&<TOErtF_lVk1$_x_h
zgiA3Qdcgrj#8EJ7Mxoj<jgsZj|Bq-0_n+XzsRdX=B5jC5ChN6FUn%rYsjGG%8@j5h
z?zOJFU74zV5H(MFR!W*OC7papCsceqmGl1BFFf%0Q#L=W0j_u|a2?zuI`JhG_}`)v
zafX2UG#$`Xq&*b@TU<33*0mgUlTb=_z(ryGpva$K2IT&fx{&&m(U$T$_RltSEQL&V
zXm_k;@gGnpKd#xyzV3{#kN5RKjP9YcG*#B|=7k5&?b+hCRQqG8;>S|1$KLalq)OXW
z43WG8&wnTLmUXUp`JvL4dA&G<*5^-83Yl!t?nP-4C?|@)rViYt*@4yVnd*al^+CFy
z&{LVJYJc<C1JAaUZClE-ZN*ccveiFgo_-xg{zJ@D#sYy>)5lrzsx-#U!GdV8L!7@N
zXb|VGXY6`}i-yJ}@>-nBb+>fCGJ^&REh+yz$&tN6i3Pp^bgnDegsBxjquJ-pJ2TD4
zc>K3DB%QO*6L{!&J^q04>{6Z%df)n{@quS+%C<G-*}CGXnm+^XNXpjsh_U#m1-xSK
zmWUIN?La}G0K<vP!5gYBmbP2g#ecp5E>Os1`=e%be!&Ik;Wh19UEh_dKgQP|!;MgE
zR(E|H-MK4e+m-U{TJbccY)$_I_T=SFdh&-GdXhqZik`e&j-KRJk%{$6e;$Oy3>J5G
z0+n}kxAc%E5lq||h}=Z_S&v-^1u-CXq>&7cAFex`Y}Ovo{8T<#EJWELjH7hp*dS&@
zB?h#=Uml9y2;GVYMX3xDeGSGT;24?g)UL=T$w5!c)u?!5jR?0SbYZOx&So$$N6rvQ
z2O>N&aD;&gg{RK;oahTa)iZGHq<9JM#=cYo@{#aneVL!CjcQJm2@!jnoSA%pI|~>v
z`NwF6>(trcu_w=L(gNs*LtZBe>50uyDJ8*H)O(F+FiO3@z7<Gk$|hR=$eWaZ|K2Y^
zwJ!|xoFCYv;!e~{oI<F2gZ9)>CD}%uo?rPcp5c4{Sbg5t-@8fGsn1Ca>5+XdCfJ2)
zbN^Ld_<3E7KyiYT*aPT{aK%SHZ|Fr0o$Cly6Ml*LGAUZX*|0^bxmWwB#|W*zt$WW?
zowA9vUR-?2%o&J8QJ454Qc9KD(clx+k}W?0p3RmYvkOG2*F6l~5HGw$CDuPsgwQmQ
z!PI@hF(*Pk5yC-#w1^Tbphw~>L}>(-P>d%w8Wb2rHrBLL#a%amp+yWXz4YsZ*$l;G
zAFCPZhPkI)jBf&-I5hyoZVl2LMEU5D!mtvKuxb&5Btn_24`o4ajx73$DHXhiB^Qb|
zpxa@gIDtEWq7r^2-Bu~GWPTOp3SKo^jp6<Z<7QLkD5}t8llB_QqwyW0Iq}PAFH@2#
ztt53Os4q3QWt#W#_%Gs1SrQOA!24h}pf+3Ekg44PJ=&D5YNc-5(wVmp^1J%^x+gKA
zK-~lXth_t5vyU(DgA`j``(kwY6MWZ6zU~yoS9hhhALFZmB~(1DZO<0hry6(j#k-*{
zm4di_(avmnYqn+!^nvOiXI7Q8&9;G^jcXn%Ql5sCts#G9(=gF=X0uXe!d^kZ`iG4%
z>EY_MPWVh~@TZ%VW@#2$*eoPvdYO8t`ZNxD>MI>k+iCl>Lv`$PVD{P=htHb3*o@WH
zIqiZ*qLa->Fpa38;Ki^>MbitGL6j+=#k)g1q0OoZN+5!fa~XdQhUFL$CO1{{XDMgL
zM;K36ES>QP*%yC{%K6uD;-sp8gM01~kMP9)+w7#N$uJzC2}pVhYyxiaf2?_@+#Hm2
zt*oDNG(Eea1P*ye=!1YwRJRSb_>}qdA><r7v!%84pQRv|-4s;em~lbEc>;F@c}r&_
z$teXwni7$l3GN&!Nu>0|1UDL##QE}UG16Rg;%{vqx{qXoF)#4C{?VF)B4cp`A_A}L
zzpTfMgr+vkG^k{bK#@`SMhZm+Hq(Z|fZRk0OS$MA@KuxdgKNk!T=YOoSAU58YRzQm
z_bQB3g2|u#1?W5*=rTt@WCK{M_CeHk(C|VxgUQ-gkl3}P;YB7VI6<`Kt$ReR>YORl
zIm64_!E$v>+jA0tTDsv=4!KoYTp(y+OKpZlGJFww#ZD~^YngtXAUu*iIlc9qtUBZw
zp$pA=4tmI8EA#2JB=1QNnqqUB)sWeeY9g_T4byfoiD4G$b%e7;&kZ1ls7P$!a;r5(
zp-;nsIALs9<XHmuz(pTKR>dXcA~jb$y!-*BGmejqi`u@lGjRV86+jY8f<>Ijf(d!T
z&}5s4anDkUzaoc3I%P#QH-Q9N0$c%ng5~NBu(0BSRlHUuF4mc<E4axBMG$h1jK2!L
z7@-%8r^V{LiPo7d2(~qJgM*Wsl7GecaRL}eQ9S^R0$s6xw)sxiTvw*3jW43xuV!05
zFdB*-*_uZ7iyO<qBPvQB$(EKUkJCB7<@M$Vo>q2$R`U2tqn~tt7q6xpNo%*hEmOaP
zhgj71bp37^-gol0nw6>svTc!S*}Ghlt~!$RWSv!HpQ5H?@fz%cCeMCQpsQ<MqwC5)
zaKJa)w`$iFmS((-ytfg0Xm2>~ITp9yb7vb`-l)1)wb*m77C@=6=|?(aVG$}<*SzY~
zxl2}cDBwe{uCk7_q86S>S9E47cJLKDmUg5o_AD3j6$fwuba4$St-bo#>w}A(>6U%(
z7Vk^B_N9vVt@!sPPozq=@UE6@)7IpP+0(cJEK9aZ_wz0L@!k*lOCWvoC(@qgl&$$M
ze^`&tF*~`xy>C}<xe20x{r&#t^+Ij|HsIvUkVEugQA&^rzA^G6ovcJuXM$pLND<qD
zh{C|p;h4Kku|Fc;x5@Wo^08U=H{`<|S&*+FCx5Hr2*c-S4s#@}z<J1_dC65%V%j)1
z*ysNDR3JGSBEr3ZbP%Nbz+g7pRtt>griCtay}1d3JC;&XN$Z+T%pY4Qo<BMF8B#{;
zB4so&0s?d7vzROAcm7a^A1MkxNT^Vh)x33KV)4RK)8e!DUi_gBuTm2Du#bqjeG5&L
z+o$CADY^X%r3>-JV+%L$)l+W2lH0H3ZeAFq+|5evW+^wqG^3dEUD<+hA$-q44JxCY
zVjwk$`AQZ`D5^w>Dv{c%H+L==DXLTY9(+nv8+C);+@?geDN*h77bvP-iE3A(v~#g)
z)Xbx8dUK6Zjha<UnYj^J%PLo`<b$4J)vBF*%yeaZ_E_@fO#PaZLbg?zk)9<bpO}<<
z`AI3{kZ#w$?B0Xywu%<>mX(6?`R4gscf0ul|6(s+ux-_hP?S|zJwLF}&e!77KV1LK
zdv~o`DZ-|!gvJ72ftw1U^}cGSFbGGM{n!m3LrU3v8^ml>9>NCbS-S)$-y|*LCY!=W
za4pU7<Kl1dWYy+i88<lqxdw!bHZo0OJW|`hpJZ18!4C|PtYijUFdXZYY(+{(Krs1E
zje;OlPRnE#RZtFdR4F3-FjVC!cz!xmC9DUUqGxDI9(t17%wV)x6y7un#=*o*!ApoA
zw1}i_X^dl?B@^3O1!>=k6CMwIQbZ&hQ15)|i`1g7^`-qY+7Mch7eb#UowL0pcOdeC
z_>#R#7C6KYYF>B_w`iqo-E6q>32yk5c!<C$5xoHgPu++fj9;{)in>pe>Q+wmP;3we
zV=-JO5gSRw^RZubr8N@&3#vPTGt}LSdsC7xLTy@{P`T}%I!75j>Lg?m>-(pyzEJ1z
z0@XyS^^c6i;8?DGZyn^>aw0;?A>F9O^aK)V)KaqqLa1rwc-n?5lVDhfkSrX$G2<Az
zWk)EcJ_}{XC&>>qDi@}trX!Mr!Z8{+2zhBVPUDr~L^zDoEMZ3)aobRK8wl2{JK<0#
zvXcwP&M<73QIZR0LhwU^`N|lic(i3>N@%<xfhe)!L_?I5ZR#_&da&20yhkJbI;zgl
z7FTJ?33YYY4esPCI>`k1sg-hHrhE@yz6Ylk97up8RP4pUMLCt&bQKMmatO<G;?P5g
z%3;3#FsSVeX_5Q{!HOU|v)IFzcBZ!X@g;q{w+|*XyoIxo`4BFSJHwZ5TiVW-?pogR
zcEfl5@3{E=1ANIv-g_}=Uh$O7PRvZB%=~jUDxIVLl%XFP_2*I3O?}I!Ca+lr7C5_T
z-WevJ*u#3}lTBsplQb=0Dg$z_Okf%3XEwR$T(HSG98-v$#A)f^A&h^@Oh)G7`j^|M
zoDjYyP{<ydZaMKy=p`K>6BqJ@3{#fd&YYDen0=M{;B)#Z3nr+AY}FGiAtMv{%NG&9
zM-z~dlqkt$+p*9nZ1MOmhptC_Azu{OG{o6`k^wg#(RqAhL%wYdFc-~cIZ058cosvk
zT50BQM@cYh8j4Ot`Z#WklaX~c*_jlXh0&WX3*zq$m^BqY6qG(Bii}mP4;=@mnU;cJ
zxWNgA%UrJZf}NrFRKHCy`371jA{miV1sOviM)x&H-;7W0-fY!8GTX1y5+c0_0`wJ`
z5<g$!PnUEg?e7(}F4{9~2l=*x>7qkqB&RV`xsR{hH&c+b%vx6VKhE3sU|Of@_WV&<
z?acAy(OCly2n*+-x>UB*c)xmfPqGg-y)zZt`HJn?nucs`Q?{xJ;--~5)^w)If+UG~
zdn;4b-Pl92t=m%G=7$}-mUq8X_Mqb_-rKfXsw=Nst<d4x-R<u>n^SF%r`k?FEUHP>
zo=6v+Ou0_3<f!T!toq|}>PvJ@6x$WWu|`8B-4cdkH_=!t1I}%ySGFewDcz^YsiiP-
z?oubk5JdLD4d!i&WzeTGZ%geu1-nA#ZL2oDxqh*Hsd#B{x%aIr(CYH{klIN7s-+w{
z9wIhHJ`tNDAFjFZ1MeyBUUkwd@E-S?n|wRU%xz2iKh)tz+_LEVgZQ-a$W*a4kP6n}
zK(IGp7G>vD*pLNx*1+5&EQZ5yzbb`=y+N*>4&!;4ko6^Vzz*!kE{Hlsy%Vw6ty6Sc
zNc`x;NEFw>Kpuq{A`^h?8?{NPrUVw&sK+H%n`pm)`WLH~?IOF;t~~9N0-EAs`V<I3
zHxrUjz{YPgTqT$80gVlzUYNih@shKCTv;BuMx0ydN5q0-<4mM8kE}$8E>=gH`kN8n
zAEm;k?CY8rE|WP6nV>{_JXeVQoGQ8Q$tkgo0zaCD6;FU$MPMkGm=qF72?1b~Iu#GY
zrLcQ5Tnb%Dv~>j<LiJnTQ(^p=IQmc}h{XLS!8AhnD@}I6i2fD|gSlR3a3U@%q7l7~
zqe0^6Rtv#}yXPsX$kA|1Zz4;BJ4h)cnI+|G8tM&&xsPF7AWR>c^fRdS$WfM(W@w;^
z_Q!~ttsQTS+#AWXoa0;0(Ul>#rle~&mMyKj^TON<3wsxP(xqKV#~<&0Y`&eunHI|*
zRBeBIAnCzsbeGHyWJ){u(vECdBQ7M#R&U8x`9WYPgR+;otYFn>^*UB{R=Y!7feGqe
z$NEz|jf1GF#=yy5>Zx)HBTEb1F?wAGPIgfkIcaLiWh5hTqBj>UT9=GV7nW>%+kR3!
zD_R~T=urep%;6sW2lgUd9)inT&G<#_p##2i!8pH<FK%A7QjkqoS~Gtv)v!HPvz;&5
zu>{m(|0-poBU{afPWZ%j(5JN_$xYNH|1>4qBmoow#31+p3l-wY3KmTOOH@+2NJDQ9
zNoLnV(zyXAPFSvW>1+`<(iTKKtUU3&<-O&=8LNWLfwQD^2KB{IR61>qae^Dio7gyH
zr^l{B)q5kTQTS(**vS7b%b0H9&_c{L7oj%gS%$~xCHaw$2wJ)UIn8k_c7v9NH~44-
zn(#2rpXkkVwJ5t<a{r)jD_Yykc)x^ODWJ&&-CC0RT=#?(z1BxjamgwosOn^|(F|FN
z(Xr78fIFi`5g`itE*5Fri1rFJ>M$(;hIbJzB_3hL6rvEG;3oLMLYUwu3|O<v#~4}5
zhs-3u4{~PSv6t!B7E>g?79EKvWE1bl>1zyWJ4LYt|9@@Q8r0U6-|y7}^cDj27Dl`b
z0<0Kga117KHhu?_cQ(l;A+{xB90JJ|PJ$NiI@#@5xZ5>uy8+s?#@o)Aq-odvvO_*}
zl9^6tJZ(SdMoFb=@x*P@nRaH|%0XLpXFAjV{^wj>30ZiX>GTd9oqO&%=iYnndHr9%
zzd|WPg`XxKSgP=@1z>`rYb#DCXB!o#?WH$T`rzmk@blyMZ`EVNzoz8B(a`@fnj4cC
z2CjGE=#``C`mkIdPSx*B7%^mP{b@(5>}X9p`ea8RIVn9lcQkEj0k1J-X-iwWWlQ(U
ziz&+>e9LB9ccfbZzjP40s@i_+s%lM%Doh(t;q)$fuQn_JsgJg7@PoK!sadT0%+d(+
zyaMQ8d)m_}dpcJJQ=UC(&jUamOnLUtSrfk7(4aGT*`&dcN;tYg*0rfQFe`I*^(m#Z
zvOYw_K3i9h;0t3wij^qnNC_!ZY48<AC~8M7)u}5r5K;$Uk=&>>qyVX^dan3?&RI$5
zqCRoSy@~T$cHk*hYgT{&Df<OBycn0Ci!W%!2bKOf3QJE=z~mVuxsV)m$taP}2QG=w
zM=^WOaOndZC}CvF+D}hFm~a~XpHV6hIGiLM%V-2fX@InYQJUfz`3b7%NeWo?w9Ioz
z9g<M8J#yB`HW26xr^llck(h#N6Ay1aKxmAY=hx$1V;Asj7#1c0i}>*?$CtZ4Jol4t
zzyIyko<I3cs{R4+o1C6S@9(^nFnwvSTdV6x*I^C3f7Sg-C{;JSMx6a2*)y~{_Q_1j
z^Y~hzCmnbQ=n9{--`txDJiX@XO1pYxSMQC(Dc8O=Z#eDklf8X6##ZAg?=cup(u!ZD
ztoT_2o^O0Q`YMn`Ac~=<Rk}JxuX<3|V_p3cy81=&qT!<PqUoafqUECXqU~$4|Ej?L
z(-8abl5NgbX-J&cAzhVKs?UJ=7wHAAXfav1WJNj+#<Js*8R^6uD?2V3kzS$eUa}y)
zLRY<Hnlq1)AvQkToN<hqg`TgPvmgz)2?bWuoQYq#1i<=f)yfPuKZb-c0XWu#1(4^~
zgbmzR&G#)Zu~yfjh_>ihr4k-<afQOBSaks~MhwR4k*t9}9)x#qsT@9fUHW*;Dl~`>
z_9MfBFlX6fc0xbrhdTd|dVhueJ0K=d7aiv{XsAj%_saf!G?hM15s<vVs-Xsi{VU_*
z%~?q?f;G57X>dLJ2vF83&q3V1;%6zcS1NttIYR%Z{3gsf%A4~!htU>{JvfBxSkE~)
z6<-NSHfn&wB#dS@RHU8AlVwC)k>SAEh$>wof!BoTr=ToDn>sFHeG&KNx&Wq<!lV<y
zIEz^$;~|d1cv{+ytXVT-EsnBO7(_r`%eC`(oGXQ~*^mo!3mS0J^K>7^rlgHQj09ga
zmEpLc9DG)*W3M$Civmu0YLXlF#E;&4PE+<1=UyWt;S%fM3RQ(@y88$>|0Rf4XG7Y_
zJnB||)^i}`JeW9?@ir>pyl<tv_a~0s_P3_}1G0Z06WE>(bjyM6OhbFRAuKn9!O;v1
zf}<I*%?&3G&i7&V^le|Xt@PdKd4KO}K<+#!dk)>~ycv)^PlFxmXqdNUYW>Ul74e#J
zWkPNokZT9;Xhp}q+jR}|-FNgFM<W1WthKQFt#41)^~=Bjt?@5L0Uw-c?8@u41SO-j
za`ZDse8#Q&X3^kNfEjyhdiH^k7PBX9;>V|Fup?tcBVkV|P03{#){?ED$}i^MrIPfL
z5m^0bE~$?KEj}H@@{EhXJ}6tEzD1u_tqcfe#C&EwW}L1>DL75R7zMOaO60w+yf?he
zdILis0|=SY8`v7R`TNGZzfNy((g*(x5C7kccy-<fiHf@Olk1Npdk!N^7`Ng<XNZrj
zu&F7k;F&qMrJWtJvm;?*8M<Y6H}u1bskfa?^CQVNz-RAWeSUSA-6G>|fi34uviGpu
zepq%LzBzESTXsDIY;0Yf(e`1>hJc?u3%UtQz#Ck1htlqyvKw$kDfdGe-wrqg0+^6?
z)0#OFa+FiZOu)>(-Q(2IOu$TYFsGV#Q5tPWq~|C`#zzuVT?C1yS!oXilXRhsh(1VZ
z6#N`j#V#Wo5z#Ka?>10zAHFh^(<2Tt*<?$cn)9wh-s#Kjw1I-IYs~5Ki%U%%E83N3
zR?Kn`l1NGd$f;w#4puiwN0)5uUN=%=@IDlRKTSP;%L`EwL<c)^Mv8&VuAT3ejg5IT
zPC2bjPY7a&D4wi^GpqP6`V^j6Jqio%I?c4@=CK+9j{e{zBBF!O7C<e6iDxAE{)i=F
zea{@RMeLE9h$B+_p6<iC!n_U9XZ@HMapK<<agS*tp7*rRLlg=_O+&;76Hq^X1I$ph
zD$-D5Bx;Imi!=g&H5fHVnjj9<F|*v}@7tcYL|Q<&`=d6coG#J|0^c5KLyDhV@tti|
z-$#uoEQ9UHS%+MXvmNRsHBt$(5~A03lyNEdbc5~CfpZT7bM1|UP!n~OvLn*DMS54%
z$DcaVUHLhctNaZszR77zWCz%x{z!O>8tCmRv;dy`K0J9KvXdFk8n(!#0>R?Vdyu~o
ztrbLk7vfFKShg8!@$PI5n{5tFNe`bm7dtUAeEg}nkFS)NmWa_kC52Vrh2glT{F>s-
zFno6@;L1#r6!~m8UaPv14!{1&8!RziQ%sw>E9Lc3LV+yJ^NNxJ2h{v|lpDvbl%n2?
zdmJWb!y$9LuKZ!&><L#$?5&izE1Wd|1e`q?i%pJV$1c^<&cT5IZW)-2{A{)g5nRd|
z$+0$jN_LIEfa2WoBoL%ef{hWz;}Tq_0`3`(oB1ha4#y3E-#rsO5ebKMaTmXES9vc_
z#}YIdBMXwK6o%FCsaIm*xclx)6O*H-!|~wV7dACo7*GneWYvrf*yv>RO$f?Q#-^ps
zY22lsWTyrQQ}8GSk0F5kte84LsiZV1{T0RLF``B`5%NUYFzSZ%>$WE33)^2woGC$+
zC=&4Rh=hkm(_1{qJP)#OO>fF}2*L4KsmsBviS5)l(t8Mnu$$1Hnuryjbdx?qmTl7*
zLj0L25=+3;K~nS^N`?v(7?kBAGB(zTSA&&?xh`$qCY!e{zWEst{Oa6a+B`|`V9K^H
zY1qeS^LA>Z2Pyb%3TOkOQWkj1B4*A9I4iU1{y%^%gZ)<#Y?(Pf!tz&sRH7-spwq&J
zTqPYLM-WD7iDgI8GeCi534jzw;VMd2fg?fP00+tyxh*Q8HY*khHMlAg3oB8PmO(j{
z;EYf$q~**G$U4+3g){)11d8!OOxljTp2Au2w~`~Bv%%u^LJW6R-)eGy(a$ENGNj~E
zc5paqT&u8ZA+@tCJ5FbHn_5BTHG!g1zEkNFOp}O!9bf<cg#m~9NZP<_soXY1kd+-M
zrM4pAn8CKyvq=YA6}4w)tCjf;iQh+gzTftiU=A$MAXub;u4f$#E{+Xph5aLakIJ2-
zU<BE+_OkhrA@WH_==ygtViZbE@vSgD1C<ZyAE{>To4_t6M16_AgtSDr{5=Z(kWSku
zOAR^XnTB3$0c=6~BV;HDvDBC1PsCp5ZL05as^y2Mpj1kAfo=CW<S_RHSvrf1f=LbU
zrlUlG$9yOc;;jTKA#*R_;Xr#juv-r7P6rOjfkR-fD)_^hrd`Zu=a-)Dlqa09u0c(<
ze|6|)cdGH5%u(o?vk|H*9}cg&K5?hIkHS%>3!uI~pdD#L6Xo!dcela0!L+&MQ*%qk
z-*|OkX&~+Ik^Mbsf1m8{OC0#E;V=CmfLEt$+T@zHPiqENT<Oq&92#J0Ory3TwB~ME
zKD2T)<?e@}NWhjj@PlDsi8bwHz{O3nrRh^k|MD~Gwtl&-ABdugyHM<Xt&Ypb=8mN;
z{j!A|$QiAl8#v-H(~?uCNi;RncOk8i^_S6lTdyf4dhw*mg1qGiw#7x=d730E<<XYp
zA=LUxd2}Ut$UXq8*cLf~@>`hNN-?BntEQC!j)_a1WQ)&RC?nOtT0osXORg)?vN~1H
zU7@^!69Jp9;#6Loyj4s))zcQ^gKf<t)>XQMK|^vBuHmjiZ$e}YW*SFDU{v#QJTmlW
z82Qcg3?D~AB~EmV*kPQUR^=*ilmg%dK&g$sfeiqIQ{%foMjgd>mTz;zP<X#riT7wQ
zet`Qhc}lHk!FR>Ccw{+}a&!Uu+Z9+id*$qM!wp@^)t4}5e8H=oOP$HK{#9MdHw3No
zdf&paE5{bUy>cK`-vjd7?0`~xo%^=CVIh7cz8t>MngT4Z1(*!;6Mua0`tY@3f@Scx
zr~TcszdPj*Cx*W)Gjq=bI@q`*e8f60>74~2XKuu(A{Mj0z+zSm1lenE!iS+w#5P_Z
zD1$_Slg3a`;H1&vxsy5C2XKQ9W^PrXgG0cmtlp?qJ&H<J1X>*tCTp+`-7{a&+h`>&
zXtBQYRWPuD`9>v9sJg>2l$a4#G@&UPg+M$>6Gqulyj~a{01O^f)YxDS2KRY-W=KQ+
zmCQtop10ha2RdshtgA3utga|ZHS(HftyEtjH(-B<pv*?zP^(8OjVUIw!9uEz5r}8r
zp+WW^s6|?*U<9XGZG8MSsTp68%WbN`HzRyN=D)OH1UbhRE-F$c_8CJt@|6^W1U;6u
zk?seBih=TM49I+>AqE)_aY?}v2Xj2e2OoUe(-?$W8NZ;PlCX!~%KR}~Usz*HaZ?l&
ziB0RIvJ{tQ`za06U*ggEFl|_TRt63s258gr4%xMnhGrX#K^Wo;AT5{8a(y?Xp;eG%
zroB64?+y&5bX|*F*RuRj3eeWUE|@kh=~n&ey(9A8k(;ll_C5|)s4omwsL!-fC75gH
z+UJ{ovlD_*qnk`xoQeipNcM(O-mZjgZCexErKK%F7<DXfOIfhe`O_9!>6XJOOV5Am
zwT-5^5%5&^5UZzgx#`L*e5V5M_=p_XkvP5v)L#-(?I5}B!HlKu^2prCV&Af7>A@8&
zyFH&<cIE7-0(J#8?!>)3VEfQ4Td6K6M#}Gte4q3Nvc_nbEAweB@s=k}Opcu+qyn~+
zQw&r~KgivgQuH}!>rFaSb(djVUy%21TCb7of1}V|s=Ur^>=*)kg$ZR=wT;7zHKIFX
zWF)9p|1QN9SPizOP+#9n>(y|N0mZ$hV$NRrrsY}wj^4AEzo%<pK9Y6~$n<w$^%(@{
zb!J!6ye)&yaa47Gx8hIP`;vw}PWdsbu^^4h>lCaYxXZl&+tQF^17A`5Hs(`i6ic6}
z?BMvsvpQ&pE1L!~BE;MQSXq(d(!Wa$p)9Ty?#(R^{u=e(wYYNMja-$cv`tP=Nw6x5
z+@hw~je;0~0D=uB&0U#5FmW6jnpaIr@DT5upGh|NfAT8!aNZWEHF`}6D|$Y|gy(HR
zx81Z<(MzzU>H$Pp7q0Zu743te1%o%GgEVjow)h(9H;~G9{Ds~?H_cY@P5$N%VLJuY
zpmV@u<rfuThSFExoZ;W81sYHtIz3Fu9NRGkEl*#cy*7K}#gyY=%tm%+!pdJYPTyI1
zKzc|)ebqBK*#uXrt_7PgYl~*0q~t>bsq8>ssJLM)S`H}vB3nhC>!K3$`yNIe*=8n;
z;IvXq(F2Y`H7_#CdVhq7ryt_+vks_hfKkM}MJZJ%BaGgT+VliX_w)g=N#mps6^u9B
zwFxVQlmCjEk(jWcejLrqyHk#iMAcgD?i=4s)ed2jwL8=HX4&4nyywR5bnj8Q_h{1I
zoU$KF8ji8Hy=#VHJ%}nSZPrTmyrfiF>f9X-q>t}2DLc&I;pjBL0i(oQg8#Q5XM_dE
zCxgW)gLBwoY7sW8#v9A1({LF-k}cTaMA<gav{~b+smV#kdd-@r0h})J85na~7kwxP
zSFo6t@I|<G#NEIsG&MuJK=Dmjp$l)$ut9AfWNi-&?V4?A`+YKWr~S<t*Pe_g1i1|D
zF?9vSMTW88QYMzkI>C&@YH@OgKU9HaKY(hbYc%{WQ}-~Rf=7+mtI_E*Q;`xi$MclI
zMOo)4U_u-s2>3Mqw-i$;2R5rqe}S}Y)p7Pwqy;KYvxT&TSk^Q=H97VabK+70?*9jr
ziFyS`_@_R}T2xx03qPU@?;>Ce;eOt4U#BY+9Htif8<c=`BIdb<CcvitgNLlpTK9{Y
zmZ40`gSS218Bb@%)j@ymP{svQ_0EjD=Z@bNFy)$s_PsFt%(U-DnV!Kr4r9QSZ}NGo
z0L7Xc5M06eVYrJ;dOEOUffUW#bEjIj4HwC|UzH=L(dma)dhrePLpS)(YVRlY9}Rp(
zDeJHq<XMpU8{z@+E4a#IUI_3*UI_4$J0N;U@Z`zq@r!3L`4$hz#^8E2o$mJQ-M5_(
zO5vBT*%Hyq6LS-?(Z60zNduzZw|wyWk!we;KYHy^(jtW{Ot0@Jg?0QScOQX<tG++y
zQr#KYnL7i%x60{phHC4Ty;iQ8&P!Yx&?!v)8<-Eti0tmnnJLL4)OmAOirEUz4eWH*
ztkJtx4*q2L{b5p<cdb7C@e3clKpOL|oI$I9M6BpZ5IZ<r%9#vk8QX?{A3i0sPt4|J
zd|maRnY9J~>pw>Dh#+DT83zvetN@At>|Lfu0Yo-ZwR}U6povXX6tT2_Py=nNVw#Sn
z`G}A{t$9~m5V5mwDs`VzX+om9h#DwRVUV}!i<HuN5#Y&Up|%;}PqlA~fJTm6!PE+?
zb2S9j<g<&W?YM)k5My6W%33#_GHOElSKKnL2pCvSMKv+Z7X{2eYzXF&4T}bw>>X;2
z1s|l`v&bmgvJ4w;nT8St8c?FKw^7Nz5T^^>!t2Kv_?f2>hz`2MX;^G8Mr3nyW(WM)
zG%UXIsiiYx4Z>BZwIkEBhmxi~wS?hdbkQ}B4RtVQ6}-WGE!kolmy8*sZ*fpIwkJaa
zs}IVdN0NqNIG2Ea0Uu~EFK<tF>`j^mQo4a(G5ySU9<n}U7ekBE&+$lEJM=vWRT<hD
zvG9qLr}%t9t2C1zXU(MJ$)+%PIv|o7CN}3LAtnRvKDW3wute}SB%Vmj87M5wz)ELK
zGSP`1gw$&@43C;qWd=yuPMrx)PVz|&5HtKV%&NwtoS4X(igE7syDB<9IrUnMJN~wm
z2!vu>B2L_Ji3GvS3_I&7&7rJBfTYG#lNMICb<<@<RrUl^QenA9$ux=CcV}(1@`oYq
zicZpXsg}yuZ%*U_E{U|FvVL}n_DthY4@8MDsozQ`@Rl*Do^mkHlK{q@JUu=pkpzIP
z1X-6-kdnj2#g=KqXKUES2nbPW{3Ld35$4)SqG2Nu<s<ni2q4I|v8;@W8I8UbJ#~(R
zn%w(b_yj)n8|<kh+QLcOC?NSww)GyRSYhU<E=XCM?v-_XG78M`CaSlY0-9B%Rw~wY
zuVUrg=Qb+QevcBbpF4r?5$Er+{nynm0mVp~DNYDdJC*3YNB!JiAUPz)0GTK$$yn$i
zD!!vqao+BHQ>e@&qrBsFQkl?}Wny8z<0|Z8`0mHf^OH_LE}xi?x~Uf4Rf>Hi%#|Xz
z%>+{hAr+9Uv#fBKF#(x|88gpg+9FxsUAa^!W{HSCiO3zUGQ^aJm`(}NX<2WDlBb#H
z1!*r`x3cT7AvzZ&l-&VJ^RP75B4Lj20Vw!0QTVqRq}$N?0qwI%%qIjN9pk&42kFv&
z3Lc{18wj#`-l`8%0^4*Qq}U+}4pVT1f+sOCOKTMSeTw~xg8!mGpy^pl!P9ig_Fg9`
zAJJ3NI}}@_;HMP)B?T`~z|?S36#JY4EN_AoqTqfChA4Q10utA7>CB%|jGUVAUD(GI
zWBWU1GszH72o8c9$uZLw(s{|&O3^V4c5H@=5*fC1e~0eN7MGVOHcG+E2(pHKy#G8P
zrBMN@6k>m`6@;8t6vcIeAX>f<_Q=AXTSC(pLim;tz~4U!wLcRqw*==GLSs^BM9LS!
zlPTfJTf%*}gn@q+T5k!xw}hcD=(Kl3QzdGCAt2bW3F1?tO!@BL(C9@CHbb~%5yT_n
zE#c5DVgH6kiv-;CF(e#7bsHL;sJSB`*f0s=GbsG@hNc>40)k)E2;$H!VaFH30~@;H
zO$wLc@XGF(Z%#aW!IY_YCIv^v<4+3COns2zcJBpC#?f%W#$)!H3zmG9LmZf&%?tR+
zbqE^shNezDB<2JPv3b;(b1Wg>-5@#=Ph5U(?zy~xXnwzVTohf)yRPrO2Gc=`=U>*i
zMaSY3SD#x#9z^rIonpiM$%XMN<9Pwm+)hy(Ty$OyERnM-agcVa_*w1yc;83+uyGUz
z^M+wjY*^ILa-A0_o_|Sm26fLrvGCj#)JpOEGul?sF)uC5T$#xWh~`JcHr!Y#g=qdU
zu}f?(Bp{l9L3D}j$);T}a>UuLZ)tFs=BuHl(DI9UfzEQXIzi*kYo5hD=W7?dSG<eI
z*9AJGMsVlYh1?q&QS>Zo>9IY_{AWc=PwvSXeBy%{du>jOUu<0JT)AqB!6lJ1XQY^k
z(##aY-qn?}Qp^VZ?{z!H20WtYw#|VZIO?hrP*F9-43yPKF<5Chb7qS1;uHgq(Ur4P
z3@9e%MDM&dasS(+>kdlkuNM24(ZKkDV|6{uM0;<X`E$G6wSS$`a`p9M(`}1Ar^hdD
zh*&kn;3la)XQY@3fE?>)#5Tg;)rf6(1Pb#9s`iK-Nndwfz;AvU&1y<++nwwqU^r@A
zQ+^j3&6I5HPwqJ;H$IZ5HZ-B(1WiX$tWS&WpNj1nT_9r&WE>r!9yOZ0DW(xk8C})I
zqi=(7Z(1H$nO%KxT}!F!W@N~*47mxtLmbRl0qF&p7w7fBwLmfePHtGX-j~zj(rvvp
X5uJaScQC@xv2B<2?RhH2hW`HmKScM;

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/moonvit.cpython-312.pyc b/model_executor/models/__pycache__/moonvit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..636d9ccb891e5af0688788080076b3c400868dd8
GIT binary patch
literal 32302
zcmeHw32<EJec#*r#sXLz3lJa|-~lWN0whTB5-*Sx4~YaRiMn9Pt0i^;EV#geZx<v0
z12XL>6CkopAhru2w!>xOj=)H+pfs)EPFhoGGnR8SyIfjWzo8PQW;@X|ZI=Qyb~<g+
z-~W5pV);PIN!q3}eFJ>&d*A!6_Z|QH`|lsQTy_pu)c8gu6Xdv`(t~`tq{z|{Bgaj1
zAugnga(%iEosQ!AsJ_q8VPJ7X)Yxb0FtNBXYVI)Oy)kO(vvydeG+UpwQ?KLt>>Uo4
zVv0KZTpcbJH%E*5+#PNfw?vEkN;*nd+!`(I^K^Jv+!ihCEAJ?0aeK6)ud<_3$LYCn
z$y-t<c?;TfM7@1g9aTE6Umr4dRM|Ki7itbU!{*-Y@<*xnkZXnXq7~BJE2JAoEF2dq
ze(2j0?YCXdQ0eQYj#d9p^wfi%)`VAuYeHq;)_2r~%3tR?R);FIzbsU_Lb`W_^pfxz
z?Kj$~UHU3aWtTNn^}4acr{|7wq3YMU(5kSt_mDcra_lXG80)BKIct!!_7OSPvYe}t
zbIl`iu46fU$XWM@oa<T6dgNUDh@2Z(&UMJS{t-DFu*O?L8?;9$)UZN&W4JNw5BtSY
z43*$XbB{=4?8nS+WIfu59&LI=k2bNKO~|=9>{dp;Y1ruB@-a<=Unf|f4PO`x_jiUV
z9twvCI%5OFh`T$3oju`DV1SPeg!#m9JJQT;htIYirI`B+A3n<mBmLpfsaPl+MN(BH
z9_We&<2`|3BGDgc4FoR+BhlcwDAip2On4v~=?o^qp_3>S<dNp=3l5(Pqk(W&WC+i$
zQ?Xe8^O3WMWBpx`ZX{IXRd+GSN5lPruEG9JL3csWofmW$1?Po8=U^ZnzJOP8!FfLa
z$;^ingM5FdNnUuk6M&`Vw=}0GFgnWh>hj)7Q5lSl>K^vCQ$M6X-^g+Nno<2{%I65_
zD1Y4jBmlPD#+L!Wmp_jhLI#>@^bLJ1yh28L$Lg`5oJp-`)F_qHtz1s&vlo4Sc<t0n
zvsydrW!^J-2SikOCCqY4uT_qz_q?|Z(W!4J)}_D5#mmvEMZ4~AaUtt>3~G-sPPUM}
zn#0{5GE{RTsIyl_lX+FkC3@X?iBeR4H)g`<iM1L30ctZRO60aixl!Gye$+5(95s!a
zLyotdZ%HFFW*N2gdgOfSJ>+`3=q+hgQl4iyzdQIFShS}Gqlw7oo^UYa!~P2QCnB+a
z-(Wn_-|b`DBrmnK*>3mYYU8`(dsvK~F6{9=Js9SPeJC7{@xEA>FWwUz2>Tk(1rwb;
zfp}yj+~gBCQ<JZMurEN3#hZL|3xpzl{wAd^st;8(CSnPB`)L>PMY?<g!OrvOX0uZI
z{2t#^;eQ1ExVXpnd@wo~{=YvW`EZOzmGA6nKFg-bzsJ`(*f$srCL$NZG&>Ad`vCB|
z6FqU7#0%=c(zKlI3H!Ptd_3U`N5g$sCz$2fU^L`A7xr!O1^Yw31abgQYh}35%$CIG
zw!ETNnh#Zf(Y~EmtNDBP?R;L}*iw3i0r<QX9ve&y3?}wGY+2JXesJZoRCT2;U+0&4
z!hG0=EWUl}uJCPCwgv0U$Anf!yce2$=bL;NeSL!%-ku<4Y#Wt~fBd(&cmla2YnRP6
z%NQT*^Ce=KNO|x_)-D_L{7mX7jFb-c#|H-nVmy$lFO(R@Rvz*Ay09;?UJ?-*RP=vL
z;H3R15URN|I2aE`KmHr^29LIQBFHD$*0u`<^iwdg9tb8@n_yxKQLvutipGM8tvdvZ
z95M6-hXi9J5$@xisGMFfpyapm1cUh^3JBuz#S{=cBy>L{0gJ$eWl!e?D<c^&e{lkj
zv{dN&?<ZOkeFH56k%7(VXm>cVd1!Fw?p^11hFhYMb1ehIiJn-0%f)E4uceQOkU)4S
z+&PF&i;r>KV*M8*iROV}!J~``ktZVf<Qve~A^gXOFhrNR+;-0Cy7Jh>V{h!73{Hoq
z!e8&c<=C7od9(al`EOMsI@fm7u{mWtk!m@SF`h{0#Z!*WSx4oJKJ8dFbK&Zx*-Oa_
zvm-Yh{*>`dYSWnvLWlps47VIR=bnD&h3hZOKYhL9rekN0)0@m$>*gf`?&*T(6rRo0
z!JQL3Z(ChgiYAKa=9+NjOomGHJ<i}X=Qx9DH*(o)X4<YEn>{wOJGE|S%Cc+8Lg_4r
zohz?PmLyA4W$Tio^M~i3Nj2<Bm+e~g>`Qz0WjqHKJx9`>BN@-p%O|sCzR#HRwtIcn
zYLoxUvR3)eU3S03R&2g}JXgjQdl%hn((W~L^(pt7jC=Ft<98gM%cqwx0o*b&jn)7o
z)BXddg^_8LrQizbh!h$#B`7Dmv`CVW9*Eb}Z2(cB5GQhej!P&+kQTx6wn3(t$IJ<b
zTq>kbC}hT{;VlVOza`algnPw@URgp$pnDS#za^w6(u9$8c%u6+6G5Pv-euT}_g|?u
z68Wb=u!M9V9i^7WKw3O94~UOP=FzL<N^hzBmFit0Vay@(+m^Q^VtULvYJFtAl&4&+
zM~;n}LRRG)kOu^gEw~RK_3V)|Z7LD-|4Eoa>PwT9`o~Ga?D3r*Ao?^I{RN1Ze3bXu
zE08D*hFkdxEVAo*!5j)-jC6+i8a$qD?v_^`VZ0EyS)ds(owPLl4t^DGd@TaOG!o`x
zaefoUjpt&qs9@rQ{oP@~0Afq9CGZd*h{eN#?x;``?+ix49EU*vf<X=qb|zG`B3Sq^
z!=rxN%Gl5jQZ67;aYB)Tkpg|eI5^vg;E)j_2%5MJU1A840)7K^uqYlH2&zr;yODSa
z|8YnG36pK$N<Gt+Q<XC%Q`MKByj@;B{kf^nWo`EHCui&_>)N@tcaC2_{(DdS;K}bl
zdEcO~Fkf!JZ{~_TlUu*hIn$J>X!y|8IIhdtIaf&z0<p@h)17sCXG&(Co-I#1*Cd<f
zE?jF#Ik##i=1h9mwoeR3n>}aXiu^ezXR}{%OgJXnCNE^HRhQd<Cm#BIyVSE-x+Pt@
zWxiy-ZT`YSbL#91w@P2U{8YBIcCoY}UD`0Go7<Wx-7KZ7PnWJw_RiO5N*_atqatOj
z;2SX*e!Wnlh!8}SA7~YfG<2N`<VQYYWf{Kt;34=1&=%PWuaIs8NsJ+{eR2h+9VPQy
zld9;-69NF*Yvc$)Pyhy3vozj;>HXi-E)zfigK4+S-i`nh{JmS(X<_U<F@eM?=Z`sS
zvjiipSypD~zpNYP{HAsW4|p%iv)%qNjj`V(82dr$iW{FGgt+@{ow2@wXn1JHcB~rR
zkYMZL!x!R#&PY5?#pHcg69^6rM27<;6bnT9u{#47gV9I`>{+azKZKmWh5z{X5nSf7
z4(F8}6FVkfn*RLM=aa#7dBaUdL&|t~uI`<N>kad}-#hT`ft3Gn#&|g8XrRoX>?XHO
z9va^}v-|3S*#mRi<_@J+wcK>Hq>N9^*S**9Zo|Uv9~}7pfz;NgGRCJ;juyF4>%`+T
zbu*ExvDw(%x%BF->FTXF9a~ezQ}b=_9eelK!b?90d_R!db}C~$m2zy&I?Apbm^kq5
zFy&_y?f$vpcfNT2iy7m75VdUY2>PK5_&?9L;Zr&l8Ve5!b#?>;GtDI=3W!8jqY8DR
z%TEUtB4d0V^7Q7{h6?El>10Z3OrKChc3L!>o^}~Q#DYtn`(6#<Qa6<$My22i>1h}J
zrY>Zd(uIsuy6>64#wq<UJhC6U|0De{=JkX4s)7r&q@H%8-0xmR_@rjc8(q^QYBT;q
zwV6jvT0*Q*r8lEy&G*V|cj-a@nS#HKMPw)J#za=WMiOE~A$B6^7B(v+A=q9_+7XOK
zeQe*w^W+*N(TE58!hTi<)iVTX7epoeaMOdro#y6dZDEyK8WO7W;lEp11#awFp=DW|
z*3#;464~~BqQFOiK+V1r314TdKLPoAoQZ27Bd526#OVVhHL^zhjMooCOz#6-5@7<t
zNI%Qpdc@bwM?#|X<pDX#(1ieKpeEnYdAiH}WW&qo7GLAThlqjHb_P@VeOP6FJA-_J
z4FU-adKiQhqo~{$BjHPdAfTuSTLlx79|%TDX8>4m%31huFv{1XGQmQU43zR)_``VS
zk5E8RNHCz|2+jutv-k<PvrmXa>&MZw;}Yp3y9%cHGkE#i_>U8(d6~Ok!I|okrOB6W
z8Cz}}eNyaBan)k++H~>S<e^M)!{rlq?e0bUnzVgQ(w)@5X}xCsE&H49Ywncq=zQsW
z-gmtVYZqGQYw>tPPeI#F-_eZy*yY2w|E}d+rHigLY1f*hAsM;m&bYQLx^|^qyB10_
zuDzF!-hTM&tfS=0{)zoF^%+O)%*Cs(&Av8wF0*DUV13HCmBI5)e7kbV%<R(Fkn}46
z;$f~s7vehfP+&Pjy09Un$G-vp#;`GD3Yoj?<6M_6WO?1y0rm~bMsvs(w)B#4r{D_N
zS4cN$r*}ar4z;0eoEy@0*Z~Y&Lgh*5hx$oz)OzGZe<I8eoQcJs=sPEvd%}_Ko`hh!
z6bU7I_-ZsQltx&N7zs#Y{Q;5#@x;ZpFOw+H`XH>c^oIz(sRP!+UA!htquf^seoD{4
zP`Xhr0Nf^C5Z`kF1!F;w&jpBHWS1%x(84YWg@e}`C{ZyWOBiJ6joKC52ArkAKdb#5
z=C147{SFB22BD!7tN{=tkwhTCKa0-sXDN6NfuQdP`*J4813+RhC1xkwH;@<>%$LLw
zEe6LD1}h_Hiu=u=lf%)jyt-((#R_eKKqmyq@jxI>LKU{{F0*~dzl7%z-wG4hEcfvD
zkt=>0!OyWB&77@h!jiUnZ&|Ce6*c3=uQ;;h)wtQS_1njdx2$V!S9qtRQ_=4}_U7Z)
z9-q57Ke*7DS$il`ahT<`Iv1_AX>09|t!u=Ut`H<>fF_Pj{PT$9PrDYu-K!8D$Shr$
z1P#HFJY70&nB!kSR=<(&zzs4{Oo3qOkMVuMXn=nOY1egp0Jk`GON37R=Mf!gTxpaF
z=i-m4G_kgqx!YFz70ZO>ihII6W4!8^b^O@6j(s$L5bp&m0sTPFrMNc1rpKb5=DN8t
zkPHvgSwe`Fh7ik0i(PY^lnsDJr3(y+PGm^<rcpyLZMcGKg}RjGu4WJEA$pT$QNHWA
zuRNt)@549Y3au(zGp|*n+?FN@Ws={rQPB{Ty=|5^v(~nSu2%XYO~IK(dHdPNBLgv^
zE>S6eK`${n1(zzIBsLX#P7@%kRYKjgq#zTqg!@JHo`E5ARg%JD;D(H(85E2JTKxu*
zry{H`zIF-bL@XMKC)ipSk-8bk7nL$}&bK0~;83A-Sg-(E^?{V(k5VlRL|K;64F=c=
z_|0tBuyxIcsSYcMoItqmTwH9#K-vNY{77iu0`148ARii8v(o00GW;oOjQ<e=aA}_M
zacj1`b~-Q>_^^D#_!C)onYg(Yz5cY<Keu+SHRWx->2A&zd#Bw~?xgWe$2G^IZ(G{8
zZJ{mY+m`X||8enwJL22hW#!YSrcPzOHMBn$y_?eBO>-wQ-W`kHgK6)<8zmX<;cRVv
zwzh7uc6+*Z`+bYCyy9neuA+A8g_)<n-tp(<HHf^FDQ{r0<kOQcApU8It)vv9n2Ls6
z4d*WY#`<ahlz--UrgVL}X#Kb$>n<I)GeAHSdM?sAh<~64;DmmF{Xjsl2M9L~Mk($L
z1TG8)qtY7#=0-4J0vYgTut~%bW>Evl^ECP{3Fdc(qtQSBFzr<uL0ZxWMacgQqC5rf
z(+h%dKYyLO^VHdU2CK=Jt*FYed;NOx-qa%ApE%C$cWkatP0062na;F6XD%^$X3DSD
z%+};MMCZ%jt9e(9-dO*`ruUnEMyVp$qXs+iuUrag^BYK7PTG)V7YG~}VyFa8*cb+x
zBii0D+c7+cOh^$49y23&EU?JY;JiZC71C|m=^%CNAa$&a)UjbBI)yUP<b}AKGo*wE
zl@ksL7LrhsI?f#FXLtL6qM;Xxq-_B0JR^o&@-rifI`feg#ToM3i+L)bdd!7XkIEO0
z8dMofLXp8hUM0~)aSzNibSl_Yfy}qK@8n6fv}=@W;f>&2G4f*uEqzLe8P~+^XbHKN
z*NbvoKtV8%&|c_4XQ76-jc-Xv3uP4vfeJjCfrjpFlMKR<OOY2qmSk=psXEcmBt0-^
zkgX+r#HsA@F|aw(^u*9WxRV&P{0uQty9a%VLCBU!S>M{^>y9OSfU1u3VZI+aO9ouc
z*nSZPURBzS=q<mCe-SsfGX;AD)*evV!d8nXSuam>D;TL0{1$q?OaUW9%&?)l*cuXy
z5Ki~9T?wcwf={qjM2_&UQSe0yE>rL&3cgIis|fNKs(iw(R%^K`RNY-FNaQI|b;Ws9
z-EDW(%*OA=-#(s<-E!}MlGA3-7B#$Woa@Lm?n*W6PC55L<7u;}+&e%GIx8l7zq|I9
zV?(xjU9vY-wRQZ-+wRiIJ#Tz5S$EUDRw}+{Vb4NS%6UvGxE4y!RqH_yy6=`%OrMxK
zk#&|%9-FIPAn|s&9WQM6t(><d>#3WoT{wnBFA~4%%p;yG67j^?hh+p5k%ep@{VF0W
znT?GqG7T;H7UY#0#HA{i$<ynB`_Lqx@}y{Ex=|hAhhgM5?Tq+Fu-w*%QiptvC!2hS
zdxHH~W^ve&FtLdwlu*i1PU*vajqOdoR%E1Sm^To3VFn`%vWO-{l>GsD0wuDx0Jr>w
z4T$sv)3zA-2@D{Af`T3jXgonuu=RM565c=%r=doTB3dEjGg70u?j%(Hw^ZhF1W<dF
zLSb>`#Keio;2S3wowaFa?M(1$*KAkv>2F2mN;A%;aortf@s*PkC!xzYmT|5d*Ja(s
z<5m%M8u>C*<JW)8%oo0jIIjedaS+eQ4^nWE0@{Kwk)WL|Vos8I@WT{Pr+K2d_%9&H
z$C6`|NWo9(1!V@7%vrfgZ?<WBcC{~CyXKy&%4EM&QkFB}j%AIQg<@8&+&i-#;(=$A
z*4dVHnLlTvWII<?lXFna$$3|ON`-SfoTd^Pfg(C@de8Z;Gshu%qx^?8@7Mf{qT<r0
zzI5VWxn#h)^jApAN1!2HhXLrb2(kg#8sZ<afi5$X3z!(1G?QE)YzbLllv=9Pr$oB+
zkQ^8ZKG4-+hXg@0--_j7n+Npi2su_L=UgFurT&;hF4X5_=-7qr<QAOIK&;<-<O~xx
z1fK!MfFO;J!T4lY6|sQ?4TqRy@=_$xBih<*2G16Y4l)s(WRoK)u+R2H;y%VL`w$^A
zxIY9O0dpT9hQT<ZlE|(r7LCR(k-+m(a9Fh3+uH0q6virtff||G;$4%k6N0h?P)a|_
ziMW8!N`AkaVFJdQl3rhmKxEnzg9R9gNed*2qJ*$jX^2S^rHutd7KiyCG@Vi3tFXQa
zD5A~4x#7UZSLq{=%&L7=d52`tz7VzG74-z9K9kOfjcsf89U0{5L#aQ@+oBd%st>KP
z-YLpb7_kk9`6dRU#7;7y->be}vc5Vej$A<zvSrTe3qdZDHIq7r<_F?W9#azRgeExd
zqYp1=4T-RzqZdp)FHQ0@;V#JxZ8N6gD472+zsJ{;NDRdHw6p~Ip~%JN7~kCzJQr_i
z-MVFa^OoJac5G)bc(d<$p!Hb)$&<lTZ7Y`9zGYkUmMxF9wn}B>s=KiQ2hTM_zS?ps
z97zlY`!~120P57qmb_Y9&P8MATKcepT0)V8WE%yWC@mvVP@TR;tWscs!8mw?D9ki5
zKFoNk(D+ml%)@F_F)<89F5-J2yYrnJ_HBnG|MZd5Ad$k+;E=c)AlC-5gU%$#prJn;
z#&%HU_GBX_VIHX)toh(jqz^`N(i<#zN|l7%3M!+r3{}ZrkY7}Mu|i2?Oauexf^itb
zG7&XCp9-@SsSL}bv?W>?_!{vkQeG(qt27RAKDI2%7i>0GS`=H_)ejYHO2?N`?}P^F
zf9cl|Jc@cRkXdS)XNPnn;0Pqjn#{-Z&8e45If=rS=w;~jNam?fFR-WL0t%M_+Su6s
zF=b_Vex#Zf5VKbVcw4>}KzJ&&EE@!Vii-Uj0>Q4%05ialiBzJ2)olDX>2VVUuOe81
zNG)Fm3}unyI<P?6B1caJs6%Vk?YS~EF*H**F*<YMrrVdY?oZY4&meUBK!_4$nXRhF
ztw??%QRP=142yQ6a^+I=qy0$2SuLXHl$UA*2JIMgE%6%OkiD8R{>#dcNKP63{5Rhr
zODa?Qh!HceZ^YH)Q&-r&5vTabHUWF7j`u!@F13a^gv#?|mV!Mzgl!w(!vp+C<+34G
zU$oF5??ORHRZ7YyL(@G|J(C?XV{>QU30x1Pn)WTc{K2|EZT?Yn>cmT_m%38j=NG##
zrn@hux-O;MLn-T!NRtrpuxv;bMmB{Fv64Zc_F$4~bWEqRqFRH8DbmSo=|fez4t2og
z7+O^rMLA7X#*XPpeV{eTv=vDXyTV(r+GF{OUyUhe3rkBZp_iFhwv04$jG+GNhpW+l
z@ozQ3WQ5aHbpT{&2~bAR#t60x-C<&>fS6tl>Jd!5`LoQ?nB@`mz%cVO)nm=8huDIG
zEAK7IQ46k7MV^b8BsLkd<(2uxYqY*40hv+NeA1p*qn7m7)=TDX1y{%fNwr*;{ZTo(
z^(?>q4USPqFY!4A7v{Ghg&wunHYDMM)^LrXHUKS4@Hfz%!@+1L9di&d=P#t>R<N?j
znc~ERsBe}jQDAUMudTwwJb(x-e59`h>Uc)mLC7;0R!_|kg($PaLy<U<GKtUiH2E%p
zRo)nR#kY^?<9l!(Kn1BAH#TnGzA*x7tIw~JHdK?SZu5bhDXeMJR=KWAE7wIe5YN#V
zA+F(bTcn<EFKDGdmVj95RgB@QMAQa>3eY(OIDi-R;Vq+peIcB?!}&cT)Q}bO0(?u1
z?wfoOA4E;QA@v}H$i;sHlh)qN=8nr9U<Lq?1QYh~yYtXAEfB#BT_UU}`Q!AU2T8OE
z5fRf68W&6u7C>uh8i4AS7i_Wqa6Ax=KqwZYd`BtRj==9^;sHU|E?DW1K>%Vb!89b^
zhS|-AaSn*4nkL4E2$ms{R}n13QUoRNje=>IZp@k>PGFnnM8253K`76o*;IySq<$I3
z)6COK$S;OKmP4GLI6V`(+CST$Cb`3Hk9T_S)ZU~nxi#Zizv$VN_H4>{HZOX%q&-{a
z%ide{?y8JuA2bog-kI%J_s{N67yHLe^mOEE`)qr<c;mR~uCqjvT^zZ3eD-)Um~l3y
z{Cnn(kTvIm?)s^e^YKMzTiV%{aUNcD9!)!s-bnoL3-5m+<9rsjn6^?TPMAzge{t%I
zbGzpg?+v{>l-_h8U3oBF+%|5yU0ON4X=>9<IQd+rbkkz#)^sVXEVqqYR(?@jKJA!t
zeEW&3r)N*k9m~{gpYP5T??+WDy|`Oe#l&;2(kp?9K(cf^ka4X`hTn``i!IbAW0?*6
zQqKK14vA7b8wovDFP5!Om#t5RC=dGl+Pkma;4@`Uj@z<sZ_4TwX@)RnbD2>m;V(u$
zpTv}q90MXa#0sysqy(6qNl=O7m`p?Wx^+~4L@^7HA!d9vj1Tn_n&cT$HSly-9+{m`
zw0l}+YSi8p!xdwvp&Q@w%1(}Zndkt+m=QH=P#GW~4Zo~MX#8cpsKU_HEgDc-%TmKg
zRDg_~ru1LgZG@rUm~jjW5MT%y;xnBgISdfrT>`uwSyUkIgJMTn1^wVrG0~uj7=O|i
zlGvhAgsgz3WY8fU%%TH_Bzja*nTRc}o+Q(hKPvJE*_?^$m!Lk*S2ZTsi7h75+$c4t
zz<uRwmJyvqe{aM8(j<a!>Yn0sjP!hEpENDHF?|S&iXEy22prP!@S8AU&_aag@xEVA
zgNR(!<T+s!PdGrFUrriuX+5%=TJE3drgcz(A24#my6+h->HK=8h;7GR;iCLTLEpSZ
z(DewqOAKhn=@S6nL=nDV+uI%P4-XCS`$u*y17{D&cEm%V@#ekJ7%)bBf3s5Z1p;yy
z0q*C2Nn(Bo<30ADoPO^8#ElCd)Qz`ImVD@354t}#6}#nJf75wru5RwahZ_&gA9=6+
z-S%4>4`rN(esuA#ncnu7+6--GU7i`4h+}3^ISl7%7zG0a5bF0at)z$^uH!934<hoB
zbj1V%1T&lTIR8D$^3Nz}L%>>m6=NYAh<R7~=#llGX>3l@K>QwRrco&3N~@>WOs&b3
z)Q_8?tXPtU1<DDJ{XVBJw&yrA%;C+P%aeut8JK}??Gx=ei_vLcGSN%QcE5;&sXo*f
z_sm@F+WRJhtLQIk>Zgv7={x{<N%>;&Mqq-u*10zP^Ygkner`v)xOK63Pr7)|LhC}}
z2SeW<`e5t#$9`OVDqB<k3Dp1~T2gx7VTKyShOQP@0cig9k_&IxsJ!ppd&p-O^+S=+
zkl-Xm5hCm?g0>#Sj<w1FD!#w)qBBacTGwmtgGNk8GXQa6Av}ke7m1L8EWG&|<k8p<
zs8u61WE??x#Ts3+cJ2Nwv%%MEaonmVv=@v@;iXukYnGK!%a`dCR$);*gFLoBm>e<?
zSnguy3ZNU6#qpX5AYW6f#bBWY4ZyEzIbq_%X);^7khzL_$mV1ehJWglh-e@a((k1l
zMiB7U;P<c_6e#*2PLNiV254r6rep|PXz|)eG`3%rx<_EN-x+2$s!XH{;a?(lKHRUO
z1=`#BOLq?=eB<Zy5CK|4Q=o;ljEhwnCS@RVVqY*W*SNeHYKou)5D6r~v3^KNA?_mS
zb3~NwQw^+pagks@%j1+eo$YD%<x9#%5&810M*(ofykb#QOti7u0g1^`hMPL`Fzm;M
zSmJP$Liu2q_*dYO8r($To4%QWVn6Qeot;_S@cStP%S8k}-%J4z7*x>ILH+<eGa{d$
zv)?4D_5L}f{x0P*#CrxrSWJvQ^;%T%31ts}VnCmfx`%^dWa%al{5Plz5ZKGP%C4N6
zI5o3&rZweUoorgH-=41De$%-<TU<HqnsUvYOBdHApT1eVffAfk&ZKkEw>9nCI^UM|
zJ$AGBF+gHl3qYk*&)&sVo71Z{ryR{oHhQ7gyLRAham}K;F72-S?sIQ;T<f^$Zb?}W
z&(|z&J)GWpIAcAWa<|+ms$MMerHg#YBX1tRc6?rU?Nn;*wsg_9al>uUzE4g)iNjRi
z7-S@P;+-#C|AI{Fnz^+Ni}icc^?S2U&*V`s4=2-3|J=^`9oG*m>`iYvo^l?)XV9+&
z6rXHLTh{=aFi_6uU%x(5+(1*&IT#B1iwbm=f+c{XYMn3*Wp)EE(VR?EKr<nt)nSS;
zwE8;~TcCiz>H``~qK0@1ifH(Wm4gQJp59}!=9;)?bua1e8EmH7tfwN!?&})F`}Uom
z((@-3I@7QYT{oBK^wp-S<lvj5*G50#5M46JiMd@BrYhO$2T{@LXNf~Jx24Kdm94Cq
z9-SJ^87RJO*L!>4-OJ*4Y(-aUCTe~L#c7qu6;MAr@vmGm{k=rr_Mmo?83@@)!x=Ua
z$b+8K3_Yg>CPC&d81BFZnoNSM&{5iYHDow23DQjOf`1XxT{2yx6Cl$e7*Cx%(>l`6
zcI0x1iM<Nxz~@BUA5g=QPzauHklN&v41-=#_VKw$5P9LE01yZ2wiu}teUwN7f++K}
zBdW<n_#u#VIF93u$RU`)#=`TCP=Yc6oL~wv``>6Z99^b|pdn+7)PF_fQF;hfAf?(v
zNRDsxPjbM7q&-j=EtMStj*)SVf#DiMo_!Hi%`!Uz+(kq!u6!-TvU<ewG6q{-k0Oj)
zR*!;XnXR{i=b_txsU*#^NSP8W6bxORTdwQ*e?zH1pn!;BO5F;gRn>27p;tF3pyA^Q
z&-1@e!M{Tw*n^#L=fR{fvZmu-)5|}gK&|=)J-&)y1x<&GmXKn8^Q*KU$=(1IX@U7o
z>E!k|hG*J-^|h3>cKo$$T`QSYufFYB3o3N7Wa8N5*_pbj7n0k5*SYZgjps63o&roN
zBcmBB>~YH0Ju(;eGa27})h+J2gXn~4MUzjh(X6v|G=#{bt!NnQ3myv;in3l%P`cFB
z1zQ+S%eF?%q0|JM8PQnVAkGCFZkmvM8x%no(6B&pvZ0og)!(6!26qm`Bdd*cZ+v0G
zIIbJViC9M7&p-mRnv6?Ct&;j$wKg%F6}Y1?@JgVfJhPI2g-5~2ENU6BW@wg%?6Vu0
z{2t||;FqYQuOPxev=Jb>jH`f=y*FFmaL-j@T7RdgbaLB7Bxgb#*v;+9*(hcwqZ0?k
zoLr6XQ_7j!U{q~N5S?59PSbT*Vj?O|I<?n{f8{EcVoOcvMLwuyK(>sIm}t?|;2#X%
zrh_LY09_nC!9VOT0az_C7=Z<4*wR(R0I}nBcZU@QDdq4Us0nmKMJuGcS4ek~1t_dE
zi{WF<!D=p9A?M$z=1{42ZSb5&{`^!!lnTKk8aySQ=<lQhEhov);VAz&M$~T*JnU?E
zgpR9{e;)=$80Zje><t6%HpPLHU{^7SVCjnv5GoO2*9}z2|1kxBf<S@#wBHCOvfcVG
zF?$72-&SZlTA+Q#o>gHycBh6=45<<vM?1<zoDa$>Z$@FIs%oB9J5ialf~QG3t3y-_
zyB=}kM*kMRg)Wql2?6dGD5G#|42wC$y5L2G5Ei?DKcLcsw-L*zk@UOYf%g#{WstrH
zt-9o#2_m7{g);DvNovYbD=TICjvnGSwTyC9VR;!Tx1}Jryz4j-d+k9RBgSUTIw*XG
zuWlfPA+-@x^Q8;tFY^DEvKX2##r!3C2<+ceHnNfzR!hr=3{?X#pHaOIFb84c`XQt#
znx5L&Vr_>Fj9{W;Fk8giRuLN#ln@N)4#SIrk$NEL(Y9S=7nElC6xFEqn5|L<uxY7^
zSdr#~@eve=LM{d*WqZM8+eg8Z|CE5@k5TmJz?0rQGt~n9esk+PvFouLWj|c~{_1q|
zX+oKsvTJwH-FMfqjto>A_KY97<y?2SymI>Gsh5)*Gv%9sH0`$wo>hcfnRQjpR3<m3
zoSU=G3Y>PDd~xRN<bmw!miso7gmIl*`FgyZu_vFNEt-4j#)cc-56V*qPK$g38M2x=
z!raI)SGCZ!@ZybU7xv?&hYVUR3>dfb2l0J^J<mB}5f6S<RcLf7dkh(sy&l5Qd`8S{
zB&T^=m|5PNq8w-?O9pMI&}AU9e9Vk9-bO9lFpBfpP>U-&PfI8cSAIrNcM|3CGGN%4
zWy}iYtFn)<JFT!;C+LQYQ3uG8P<9UbrlEkQO+E&}*QlM9x6!`EK9yh(RGFHm^+p{s
z%wg>~FltQYIWne@@XLvRTFS886;A|<2QXk@r0Jqh1?$U|jOwfx)}yp3vHwKde*8bl
zHQ6j;fDkkW%v%>cqbyRqhXS@KZ&K_81q8YT^I-ou$Yj{zTA}v&lY!??JbU7Fd!X&?
z*(ci1Qtaq+?T0DytOy~pC?zTL*y`keLUjpLmvM;T&<`nULoC1~xa#3wxFNVGp*C{=
z$*)Jo6|{GR8YM>`sE8a7hC?F_8pyO+BjX<uU?2bmc|rx}sboiN+P>a2VHr1$2k(@5
zNih5Mr(l6g&a<*kmn6f*ZPD41cD6u-&}hHM8JVEf3GRG6ab<X7c*dV{!+?mKun?43
zH+Se(dCP=-Tt9wjQh&E()y$!!KG~ir**0OOw7X?n=hrQ^KAFZ}*;C`TpLlAr&Z0^E
z<e_B8La#`fTS0MGuA1(i>YnL=x0VUVxOK8F>#iIZDR99h!)#Co5Y5nXUbf?D)iUh<
zHX<a+Ws*RAf8nK4(TvWP_Dp^*@f_>hI(a`4To^U6eGIc2R<E>2mX%t;#$Dbm@*S<h
z4~bkG7-xNO4Z5i;<Oes;vM=8QZFm1>aUJ*?4>kGPn|w!@o=HxFiTn|NGc!e0a>`yX
z^IZ(IL&nua*~EfcS#W~(5k~T0-$e(7BwQ4gQ_xZ|yL@;gP}<MyDM<+PUPxKV*dCuj
zFQxBbFO*S%Ql2&zEW2*u#{ZOp4=EtDC!eglO9|>Gw8Dfr5`xL6xW9;IBUrS|4u6%_
zPLh}+@-i4dk5bq@)m&K}G}$-;XP>nv_hr0W$6Z-ZrKt4II;&>(%=bf`QPu=S39ufm
z=Bm2nE}WDbcir*$#G=+&YqIRk>TA_=r!sYWGTz5ghu4?fm-cQ!%w3bR)-YrTZu|o@
zdsJlY3PoSy`9ouOI65c_zZfgUn5vg(00@|gM*D1(czUGe_JG{$k0_CX@6w0<Cq&3{
z-^o>0ftkv=*23(*m|M3o>nWSwF|{LGz2=j0q}_oW%tY_Zu-?yEC}!nK%X2o0iEI|d
zh|QAgSY4MZp|mot%=;<Tk$XnRwQRd*t2KG=IEt_Ao!FZ*Ax>3RPoJDRnX}N7m8)8P
z)j8`-CNPXklsR`)ELUl&y(3A?Oo-=|qo-x%ayCk`b9Ofqq&e^;a(DFMo%mNSnUY=l
z8j>F1?(&@o&_My><={asWa$Ez10k9fLNwy%v=0E-S4cN&r%NsbaAFTG1PHsjgremO
zRU~BX#1b)^@wi}vO>`$bj&*hC(U=4#+Z8T|K9!X21oM`lv@PU<;HY@H-+(;XmqGMS
z2<OC1szrQF2o4ow7zs{*YGs!yyVBAIsXPyS=%5dD!AQW|sb?kv<wPy1luZc!SQrlh
zBR8CxgChUi;7Go!`<f2w{Yt3!^<%2(7Z*?@U3q<=F(|lH9Dsf+JkT&|gHZr#B$I%4
zHpGllh~UQnVAj{nMmXLKs^SJJWW#)&Jg&V+Pi*f^A_iw^M3}aQMDD?UiXBotNe7Bs
zC?hRA!7SFrXXwEVt0kPRXA?;b27HbNC?_#1{9jS<Uno#m2f@a&l1fu#8|bqcWLwTO
zR4!jL3cp~)=fvMc8R8f6kG0*c1QlLB8BIIaCWq%&r5pC8o%<HzHx5JXOQ*}e;sm8$
zSvB1^)d#(9eM55OR$c3o%i=1!=j7_QO`f>#;7ZozIAcj^cEir>>UA?OCSRP3%zZAk
zYWF=8Qn6DjeM=UK*-_vg6<speDyeSA{W8v1e|2<rbneN_nw{guA6skw`V$Xwh)P{c
z^&zX3XE6Q^^nIBgSE2VG=I>04wg<(loN|M1Qo-w59Dd$gWu2iT(gmXxoz{AXrj+(v
z!KHfQ1g{M12^hT?B|W74EE&KMAFX8squrXkqo4<t_7*uk&^-QcOc>=(X>kWC#{rL|
z*p=c1o`8hL1()0w+$@0JW_*Ep%mU8B0$K__L%~%@&|ysXl~U#lw5p&AJgU1=It^%n
zUw(E{UOb||5qTsvo@jMfLkWbpAal%7{C6l|_%BAW%@k~+faUxaVsIEd*azzw!Gz-)
z+gb%%7$B4m(1iI<DB}_WdHX3#O{D29l80)M!eF$$N!-PG+fP&gvg2|i6$RT*A}eZX
z_x%X%fUGcc)vM`L_+r)mbk+V3EUBvfnW{76MR#GhhU4&eMVqskwq)PphCS&Gdu}xR
zaP#|{Zxx@(mUw@?WTtJVY^pX{`P(Hho+!Ikn=WZyEN+GI#QeU+ZO78vj%A9E!;>y;
zF%x)c3y^X}EqQL6)BSEandeP@K2yGL+<w<vmt6PerfZu%^fpf%A8#8U{7Fq+wzzg?
zWT6?<d2P|eDbO}mE!eYFwTs@Sw6|&Q6-K_?QHd7*FKOtUg~DHw_>zvMGr_M&r|`(5
zO``l~dP9MM1}%<A9*J_#RcYFFr>rsu8ekXE03b&wW(Ao+Xn&VPj!;Y_M<`ar*^54P
zQ>?WNTD{u(t1r*KoHI~-`|kHnzI&3z6~!CUMS6jC<skLv4Fp07R!w&}kay&H89<^X
z!O-kQY{QiV5b9ysG1$kA8AE!o8agd7^%kn53mXh5X3Pv%yrOc+EdE9U!~sCw*lH$X
z<q2dE#aGRZfvIQP(GGUrGHPeyNb9JB?qjYo=cr9n(cpwgz%}ZCNI?RKV@0DyT1R-{
zZVo3W$)A#(^I@kASS<>OWgo<XQRk?Oi3{!M8Qx=DWN_gI@N%d*<=CiO203tUq<%9<
zxG~dLehmPIj5vV832v#XF3}qZi3s>_AOPFYL-Ae;m>i%FG02!;))(m>j19*5^OUWa
zKS()f+WG&1K(K_ESEeX)Ye4QyVQR#O0|ZuJrz`UM&r<HQl-mH?Gr=V-6wwe6KkOkM
zm1kChg1sM3#iTbjii^ok@Gtap1|jk>F2G{~w5BW`2auKVy@d8<%LAu)RG%$Qp0{K1
zZKs{{-%tSH#tugtSGp#;CZBnu_wunjMa7qoWsBShJk`_tr}ls7SvzjYde<a%;Bk)4
zwOxC1(ll<qQ{<ks%rqpA&OLXnJzd?JBE|om4Lj4;wd1bI(X4O7+~%}z=R*07ru6Ri
z$rI!DY-RQI(9{qK^jx4Lnr>J``oW1!>Rq>3xhY+_2@vbTeBJ!h3%X3@p2f;1(v?qS
zDvymjv*mS*<r~uF8>n<u+F74GHGeX_?%<7j)KOs{C%(g0Os>KwM{Zf`vsU-yj+rN>
z_NT3N6PDZ>==O5;oYQl;o$cCAe7ADR>uBjUBoz|)P>$FoHyU{kG@vcV84wWq%N=N}
zcp?}|9Zd#6(w3_Py+bIKu*35w&%mPr{4B(Haw-$(l#aKHOHI~vK)ouMqy2&KK%DtG
zSVq&+mSVu>Rm^vRX5#^`7$n^gX?eEgU~EgMn8ovage4RWhZZHIwaHPh5mXIU8(pBQ
zm5u%gi!V*R3Fr)kIuUE6kjX(M(0~?*>SI@)q*K(D=W9chTv~LPc02IsO%hkNr92)1
zo-<U40^c+SOvzc$DWv4i=LH0ZEVqG{fw2N2v2P_%K~%nA7JoNLu!>d<fvr3ZI!r_{
z*K%5`tWC$SnTgPcCo2^)%#|Eoyoxd_XwzlkM&1%rcz|aJEPNGZ3weO-stqu}U)Y-V
z?@O=Rmpb@#>X~QL2hXNgoh3bi_pZ14s%h4A)jjK;b1YQMxHH~^Al_ZKk#3u{CD$$1
zx2Ee`=Z`FIKa$>l<b&<Eyl2>Z4?Je1J><~BTA26Pjdi!Y#~|x>iKvzlUc|O7Gk>S`
zz*hP1BeD`oRcS~qG|CQ`X{;-G)iQ~ovR=@Pbg8wn9Ezq*eqTVla+)Yh<ugQI7kUvr
z0SkF(G8qCYr5JvQj^isRz|YW;44W~7G${Fwdqo<v`avktEYX?gXod+5L8lM7m21|O
z?8|t!FM4;Uy}K9c7eb5s+td5oGv3oAhEg+#Pb90V&3IcLc&Ac)urc@;)py_P`RVw-
z`1#%a5e|4sn*!v2gp48qc${Jdf~u7XKqn0Y1y9r0L{XLqKs&dp4qeVxuDa(cG9B05
z0qJL=2#`aKPjV=+KWAY{<YgjfV^N5wDsm1MbwXzKDJz`wnM}3G=iYqz+RHf((fROu
z(RZUiqo}wXsrgQ{tX%R6S(-soJ|YPlI*f2CVG8NHb#N$YfJDeZ8hs!aC(sB8rLYb9
zf4k&lf}Bq}fHIuD)k@t;1hORUbh~!CBr}2~0c1vQCNq*5kTW>pmG{eLP??LrA|jNY
z5r4?&EO~;*vH{s}790}$wK7%4u}scRNYsu0rN6<bFkFMXcuf$l!R{K>bpsdtCVUS^
zK%9}R2ELOOY_M!EE!V5-G&N-T+H-9VI}g`@eAeK$fh!bz#`Np*405WkC2f9sh5B?_
z95eC~ZCP-=t<TeZ%Ops?hF$xcbXscyEf6PLaIM($)dd;xnDEJIBICe(qSwo5>K$@6
zGkK{BnW2rh<b45wWp;_$_#EO8$`eJ!U#8$o6nq(hP(l*w0DjVje)}l^Cr>?R0qY9X
z;eSBc|Ac}+MgSQbez%Y8Lr|xN^vmzbleG~X7Z)iJ<vatOmk|>@_<<by4Fecg<IG=o
zfVq<zV{e!{Q8KB9%M+R6hQC$HFC~hkw?ibOnPU{je+nhc`b0Eblq9YmN>a6M%zcJX
zLJm=|kwOv36qqY45v!L`&i=r18yE6aD1NTw!m1XVN!@tlEse1k=JRj?*d2eE<=h$x
z5ftoo1>avF_<0Y5ungbNRHUrik{fPXx6K_zaJ!^xW<#c=Zrm&@__K8li*>uxb-S5;
zU3OKSXhh6Nfo!#Jv3gUwdJ}NEJG-`t*%91c)sii%UM$;?F58f;tX-^ZOjkCta*w4~
zJ;sV`OIL4$aX<}(ejq3yNc4(1{pm_SE7Fp#Y`IgrcCmJ6x|XDfi>tS!S8rjJY)h}&
zc6;@@)cRfN)w|(wFx#+svEfj<;SfZLl||53RMx@(;l-3^!~IHUo<l600f`L3HyJw%
z8y9&wMqx-a9tMWv6grxg^U4&4>iZqX-L-A`U^Ao86nRobvZX-@1s1VZS&*k~gl{*}
z3XXhemwCGfRf72+Q>YSW?qAr#@v&?^@tak1d#YA(kX4|TKid=5c9tdig`u*Vr`7W7
z*~7XZss^P)18VCam1)0XgRiB<-bexQsd6eKb~aH0W4IaFLtC9%<~JZB5<aU}Snm??
z^G#arParqbe3R6wG3{-ftC_!)@g5Lq8qzGiGJh=N-8&BI725BrnVs{Y#T_TpJ5ECC
zRb?M{ft)C=m9=ty{ZXctgFGNX-58|cA_WB11*eEMML)uVoqUT%8R!v8K<)?PI7yL^
z99G7K3J43>@0>0Ffl;AIO{d@V5Kkm9x!Gr?m`JZfC-Rt&hB);U6jRpY!;fE;;D=MP
zRh!}ZGi5Bt=1Cc=v*lHn+d)sQZG;WwJzG8Wd&RXm6Yh+Z%2_Ce(^h4l(!1PoT`}Zj
zHFZ}{&O%N`aoJcMaYbf^xJWrsH~ji`h;c#1?xUfiz`q$k#R}h0;CbODDBc`A*C{#v
zqaSMJX|nNS6|jp);3sS1sztwG6&G25zo=R9$dAn|GwKRP1-lv-6{TK~J~DBGwiGkv
zxCob5Eql#ojc^7WU!iFt6NJ)bIm8zv-V^HRciNi8iI#t-ty#nk%_2)DnuPhZ^08v^
zX0bYAFNFq{Ex$3b7x0BdzaAS$OYFDb#N}pJeg>wW{a~G_@ohjw?3Z)+Kcm<o3P_zP
z8nu{DF;x`vp2%Fbu~QGsu9j(~7^V|Rb!Mo`wk4y$*`gvLk~pul4F&67d;{FC?&l9;
zn(@cQw_(@i3_6|e(+(Y{TmKPP^%1xJr=0U6uKdrrH7Rb*N8F~5xSbzyyZ$4$|08bq
zM_k)q7;0`AR{xoC>m9ZpA)fVb&NepPbF}KpvKHsBjD88HA`rhL#Z8D~X<A+EjfI}9
z91fy4O*JLU@T)mF8ztG7B~e|F0Gl1Z^75BnUUJbBuanzZtE*JnL0oAE@w|5Esh}N7
zDrkq2)OP5pUB^|!Fs}NZ$xx?HakZZ~jk*K5qB31;7Qb}ooNz+gjCl2$t4*^_VqD%)
zNWWvUk3UB0anbc%%CSCe+OTB8oBPdcbe@@WS0l5L`y8V8kLVh8B{Qv8chBy=&mnsM
zc^$9QRZX@|@18;m#qakTR_jW}Td(Y%KnkMw59wak>1t={uli^G_c@B+e@)-4tDSsi
z`lYFt?sJIddN5Kg_bk;qk1|Y%-@$43mnUA%nGnY?d2414Cp|OAr(VlZP7IaVKED1+
m(?nC+RJmkB()~RZXsPsS)oj&$4$=FqkK;M;DTf<dRR0TS1?zPH

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/mpt.cpython-312.pyc b/model_executor/models/__pycache__/mpt.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0f8119e1423f3bf2b132ad40727d7b9db7a5019d
GIT binary patch
literal 16329
zcmd6OYj7M_c3$_qpBMmx#{d}c0T7QNh=)i@A}KzX6h(;yBuZLoIjhxZh;EQW&I9aj
z@PQgg+*pnVl3XOq-T+Kw3#ud*XsT+twyVr_erTOXS&6Gs(*%_ncc6q-)|PAkq_7Ka
zY0FL}`OfX>p2289$w{S>OXBwJ+vmQ|J?A^;-uWxP-@_p!ZSN&c4s+b!(2EfqrNpYo
z!f|t)zzKYki_+7Q<WrWYg{QPNX-(OpHkRg-_NblFIa1E3ljYfxu9Q3KW@&rUlk!Hr
zEbU18QvRr)rJc#TR3I8i)ko{uyDQm{YK%6fg3(~ADcZ#H+{xxtOSFZhJ;~NoC>lz&
zMcY#C(RP;SO?ITh(J)K<lAWmy(G4u^Pi{<Yif&@*y5#0mSG0?z1Ig~xmgp9w>xG77
zPpUWC%hHX>zEpp-KNX2aQd^^2Qv=a~)VAn0d<%+$LKFU)Mf<tej7cg#Cmce{+qUSi
zg?ok*THoe`kmx-3M)|vux^2}{(Z?8N8z|eqfpR;e>;Pr>8z^^(en#5~+6|AUy<O^1
zbSEpZ5hXU&E+O{bww3z)_!T~~`4{vu7U4D5vx+FiPbWpB9SJ#^7^jqbbW%B-Nlzrs
z(90o35z|T{lg3N4JT*C)k(8K{k;c!)#xtqO1PWU;@8S6PSy3;fd0t5-Q>6;5n(vIL
z#3m<WXQa&3q_%<HP@$ZWVyTQECS#LvDV|IsA;r_@wJqy^zm$=ZLQGCfQy)D<7avz*
z6X}RmYdV}sPNmW>l&U(BNQ-evYdCrQmFlb)Gndw8p{~G*%$bBDzaVACMHwAKR^!R3
zI0ii(r-7Su(eg@WJbv0J|8(lKC<uu(%~G=<PQ<5@O6-!DICEBsB{OkBq>6&irZL4S
zQAorU@ntq{`4>E<AKyGL>9Z-n@Iu6{H5{5!GOx1Y@(EU4YfZ>BbE$+ZqZu|+DG}9a
zeX00)F(#%al`FACMFXXom17f_nv8Ts^D@F@{E8^anlBZ<a$1Z{O5#M~vKCM>N<0}$
zPo-jK#ke4Ab@624bRu>-5tn1B_+`x@iOQ6e9*6KSgA*xY|JBzq28a}1p|P-Vu9B{l
zSMjyPfTa)Yk>zfeN*m8<7st(56l#Tqb9k=~f+cGaEYrwV3<1ZTV?uB(<tJ8Sqs~~f
z)^q-~U+FE&XD!oS&g{jERj^gGUHA180-v?sE{&5)&e*b+EO-7%j+1&TO4fh9WY#8F
z1kBfOTid8*8`9?68H+J~fy;93RIBYJE@B`11vMqLAOg481?9@5__uo1D+eNO&6bKQ
zXEocnm`G~2Wai9v&Cd3v=D<EkpAj|Z1o%+dv0byKrjnX<GIL3DjAzp0aV27xI;rjr
zh_pajyo@cHxg<)l%tUOv#-}ugoXkvOH`qb2iNfDKJ*=cAhbI%0gGyY&?i;*3_2lkd
z=bsdZ!8XH_SCq4v^zcRO{9%1xi<iZ5aI~bq%EMsRp~)*+LyYZQ#%g*S(qm|20Dtla
zh^}%gF0M87!OjnN-`xE#UjF#hN2eCwTIxBl)NxR4Ie7K?Wtab&Z`ODH<a}Upvl<%s
z)5rg8-%s}4cOANVsOWNEv(MUd>G`+Rx}hc4FtYshzxVju?i;)3PcHDkdqDMfT|HWK
zw#*OTb4HdMTIRwx!t)mw;tRrJ!-8-#yZFja4&RC2IehE;`3<|58usL$I)3;0e8Y*H
zqv&n8I=YJfapM#j!CgwM{vHzVU`L2tloz<D#m&(_!7Erqt6&vv0zVC|7Hp!ul(LJC
z30IDr;04Fq{-{%Mimr2wMz!Uq;94i&T{|C2%mXFn$#IwYs25!1(|n^Zyle{bF~$K9
z?V4|#L^fnN33|<UfdroM=FnxtIIX@B!0!6i{}r~~kN7!GF}`rK-YoY!puJtn;jy*O
z)!gtgQ%Hcq+`eW-VE>p|F3Z)fqn1#ZM!hI&_7}DL%C#D)b2YX!N}1wjol>>7GZ!;O
z(>kSUEGF7A7zUfacDak36t4Z{T$3@5@)I@Ey0DOLz>Jx_GIH6xm^ACu94b>ADarC2
z_m9@;<GFT&s{E80y+Trjg>_fYTwjBddRVL9`kL1I0(ugPRRLooaaI+4T-KVk{WD<R
z-?u;|l-3&aX09q~Gt=e5(lMpmcssYnNR^+p$7cv~)E_ix{}1aiS6vw}YOLM%I=PRY
z6&stC(!N2j&3RQ|P3Xbc)iZXqP>a9p)7Z&^{d_+}xXv}}(doO?<Tli2wr8{kZm^#R
zI+vQ(`&!Xj3*%AhSB-iq=ycxPVYDGQYM02`iRTOjkJ&K!9P}eb>GBh~HGs!7W)o#Q
z3_4KlG}7hgBg=*jI^`)NWv+rFOTDkr8)|pPnRN&b0!NRaaVh(ZT0vE7MY&q4$e5QI
zch;SCW?k*vxdTQ$<)_(CH|qWe?)3`!U2|pyCj*Ec<&e={?NK7P#=2xZ=y&b4u#{wk
z3%kL6yEG$M!_7uJSGb60O!J(-7)$GDdD=eo>V@+cZ&@`P0cHshkdt;HnsyImrhulT
z%sGja9fNOY^m-nA`giuBxT2&1_kB9r)*+DQBN&d_84{PCpmJu7kuJ>+y9==26$9E&
zD6yF46m;uJbC&wU;GE{7@-ZQi(!A7+q0U|7$;4y~-PP<D&c~8z2K%HvXhmx*TLDJ%
znp@ZYv1CfKvtCL8B6X%S%s9|&G;+<7PHXNHWLb=5q?Bg6fQmI6tDeNE<}#;&G_mF`
z8yZ$v7ZS0K=D5J@In9Z-$*_~W$Ypp?b10c)LRKUK37U;fnoqOIVsb)yoQT%Wk>*z>
zV`T$TbK;fRlO8rBG9ar`njJAMNc*W$r#z0)rO#;YSZq8Qm*rSYrmix$t4CKQ+Gi56
z+jMg!j2bdlVmCg?zrsTQ<|_BFj&s+|I#pNbzN@|1+Bx^;jW=_)_kG2UJs-Y#6UqCo
za4{7A(09|fXe;#ZRq;Qx7Zm<tXhR{iRSj(|gm$Q*9W1N4qtM)^Hun{p2i4|5WO<4k
zwiGsus2fHK8xE)&4p4m^MQ`i;6NQdJ75}}1#old&-d$?%u0ro&wfAuD$mhQ92fbSh
zy?fN&J-H+Ieci=iTOrt^273y@;d{a1ylXfg7%m2y3xUmQU~?hRcQ4SFclG51eGeU6
zb8pdCf9=HViPB^KNFh9;;=gYMIR)P))whWyx>eNN+%fn1jo0%H-Nm+^VoUh?_vXKw
z4|YEcxSBoay?dpRLuGs3-Lo8Orzu!?`Qz6<dTlARJ$K~&XKUw0);3?Gg;V)p-$SpX
zjau+OtmoSHErs^y{KY`95a?C|-3uu-u;b2!dx2ef*RFhESFx?L&^D;H4c_Tg+xDYS
z-2-o+;O$bqT??su-W@9rt|?RqZdHR@7k{7z_uP%&3m(Y(4&;LeV3ss(Uf5aa-lO9G
znorB&jSIZ->26BxKE4z_LCe!tY-yiM-$*YgAJ2R=qqgisi{4^uN1?S}ZS7y&`Qv@J
z_NlGAkn8)hab&4+d(K&G4$mvZF0|;LVpGR_{KoNxogeT2XuleKEazHAxu!y7pBmYB
zS1BBLQ9bbDQtL}OU$M1&;km`j`PN;9)&pwmfu+_%Ip2fY+}7AKH+W-kp-FA*$vKys
zI%%56X2<9;Iy+kQ1!)CornahWTUoktK^xq(pugjmwuARI-(*Hkke4KufDgfcHX#UN
zI))9Wh_bX16yqg#8Il}FK!f=Y{uq}39QP&<fs9mj$eI@MYuH*dR#?PbE&sv~`(fFa
zz)NKvwW+<N6iFsmg->`xwZU+)o-@sXG8xL%R+F{VOikr;#wrl}EVcd`=3vG?<AA#6
zY8fh07xGEyR)wtH0GJGnHB^1ZYt~^>5KJ&ZXqhr=2Y_&zz7ZFwn#*5}RMutG!&bnJ
z6>!6vw2i^pXH6y2(o3NH#s5TrYr+bR6Y)wXkR=^O1RFCMPff<4w<ePbMS7V&e3znU
zD0-fv7btp_qLYXs9_f3Oj#2amBF#!VhL36d1&u$i@fS-P4N7HlO3@tpQ>OVZ%WEdB
z;q}N!m*SEz-Lytxmva9xO2~hV2#y91=Wi=EG|#o&Xq(@+)DW3<<gB@qMQ`BRzS(_w
z@0Ox3aP7I-=jM-mIC^t*e*dEK<C$ACx##Zt_7xkO=OQ;E^Dlq+{hQxk-16gXx3=B2
zed_zEFCTvTv+dU-OO0c*&K#e6EElKhAoYs%O>^!W?)lBX>&qQl`vMt}xRHPad2AuR
z)Y6~x7MntIqc=tu29}zJX5Bf*bsiEr=Vu%4mUV1Q<8Ju~45Z^J5n#X*BQP+Pq_i&<
zgC(ETzeuz-B;s6&tWnJheae)X)JLxl-5)8X>BV1Cg5zQ`8H?TGrPq-w)80I&D?!4r
z5=De^<co-Y^EUZvwv80GKT&K6{nC4!w|gGcx2@PI0ZH20wQxjj>0fcOcX)Loi#yep
z;T1P~_iznOzh-4tqLzTY<v~lwT=GV8#f~%zhdSr7H?k{EdUJ7}z_svf_$xQw*etM)
zjH3@`Fm~<gB(kbKF@pQ+ewYad^S;>OeF0>K<D5`SRe)EfX8wdtaKX#sW?mK#_Jv1t
zfZ0Y*yfCJt6BE3RS3+P~2`2qqnAa*73M9d|aiL%z)^wae9@w)sW&$`A)5(yvVXyPG
zz%a~WfL@rzJRq;-c1eZ;@)F)+K{4fzU^Qd`zMFDTF=Y$dpkCFGg=Q;cW>&Uh(gIl9
z$EICFQ<FMmCVNM-oe`5$)1DzAb1BWTAzTjPgU-9(A(DW2c`}}sN$*JHq?gFGBORwt
zPNObz`D#{p!X;W-&0Vg}rAr$IB+aGLyoT~3BsxPy8rC@18A4^-f+nFPb}AuaK<5Dy
z9Nq+(d<_wSLtiC0YzY%Az)o-9RA?Vj+edPNVt8Qjyc*t}ceO3I4itT@MPFwP#Phv;
zuos9YM2N=+#M!iAeqt%ugE!YQlr_qr<kz8CG#~6ov3Anjb-L!}FYEfbQX>*~G7i0r
z#2o3%TH2X6_<`vLeg;19b5yD-WKFsm((|?Sv`Jys#J|Md;>RLZ=}puoy+zSgM95$Y
z;<qT{EFzg2#2V<riA30RU1|DDlKxMKidOe32RwK!JDZ(9^xj*uHWJGOb&ky*yMFS$
z<2eY|;I%hr-<*#x1vZsF2kLV!HcJu9m_!l<94O%-$rLFRG1*FDRhpvc5Je<bB@&HH
zrb?G6MKf6`N69#sD4M4aq%(Cny5mU_qV7;hhT=&gv?MZ}^y(ssNdzl9ZT5!w<`2U+
z!z&z;i#?=(zM`Zq9jW?p{F%X!2>(C(sa;sU?<6zh=Swnlt%bM77fr&R)_?WCBdQXl
zfIZ(zklHH_Y)qkMP8hsU29rbRnXIdr$4GQ|RPq|=BD5svL2ala?jO*C*@FtPio+)6
zxwJCjN#jL8{guMgHYSlX2l{#!9@Dm=2^@%4OG{}K-=r}_nj;NkJ@y#WpA3GLa<(&;
z)T~t8Ss@+QE`sz!s)&g|8l)})D<xoqv4*A${8ylpQ;5E1AR97pxg|u3f8nX6mSM7w
zmYZNyHeNrmu<dT|-O$gP^G`nW&}z|*NEoH9ZELB6ZS%b)(xy9a-48wk38(MfGMfCl
zAwsLgIOq?NSXa=QW(bZD*Aa19YuS7N6?lR+9}|ft*C3-5%7zWA(c~24JJ#1!wrgs$
z0AyGIzRP2Z*raz+OvljgQR;m}$YpZU1k%!PAy=m1(rQ&m%X)LEO7ilri10Kb9T_)V
zJ3f1S-oNDQg@lB-e0KI(G6mZ^R_vU=WtFq~JvkmSsjYXBS3?mP-5^?9q%2`WJqA%A
zoOgwFDV0H6(gljDW#l`QNztF<PbT?VjWz4+$9RS{DN%_v*?R@nWbZoGWXVl+_D&OO
zB3%JB>8%Vk@uqi^`Z10_Gmw*r!YVGJtbv*WFIYa{aomT4WYIQZD*?<p+^KPhj#{Tr
z0GKuNO90b_BgFc3%X(^;6}+NbaI@n^-#Qff*LB(!+1Ck=;D6g5^$2yMSM-Ut+BHpB
z=s27HFcQCLqZIlc064B=;5Y!jZO}-xkJ4=qrc0$+P-$K|D=v8`neZAnpauaFf}w1G
z{%gGbh=0fSj{P0Snls0537Bi0GQMjETs0*wS}KKi*MYI`I%e&)%yfZ2-w*y|rwgDU
z2wD{cOPNA3&2`WcaHtB%ZK}$`tKl+$+$ZNK3kpp$3n<fWq|48oEoaX;CUEflwkvA^
z$S3%1H%xwVKA<+Uw@8~%A8FGJdi1%~I=wBeA?h*B15jd?s)KY25_O<Dw|s_tg!{o!
za{VZS22Iu~IE>kl`S<I~Csc6Sj2Kkqr_yDl&uuqS<!41rkE1-90#!k92<Ghb-22CD
zoI+@l1;KfSUuOo0dl4`LVLiohFmhaDQa4_;)@0@q-M|@7Fx!RQ%psL*GC!3e=BMdf
zr4jtd3br@41~+S&<!7Ocpma)rgDD2Kr6N3&nNR_Q1#}O&Y2xTA;ObRfTWhYp@X(wV
z;`^t&jlF5A?4i9tVezEA9|@i4zo9;v7z0ZDgIx<p7f;;X_SwbHJ6>TDa@sj`nsA%U
zdLiwl#@|2`>68vq`Vb;qK4Q1MO4kkCXD5uUZz2q>Q8aE;#U><}Z7}X|Y(RL0ZoWt~
zBbw(TUBS{13%)}c)=Rh$MQ3fAD;+Ccbn-HPzy7AV;qWgd9i?to!=Z_i;i!92WX*Xt
zF5|>O(mYtDG%8Dvi)>h$n=XIpcd!~I@eB?qaA#)H$dhO<Y8$`da#o~deO?DKTPe+<
zH(a%1I?f_7MVkBI!GqO6i%C>-)&2_z<xVil-(Tf$Nya#bc+e0oG(^;fNTFee+OPvR
zSz5aat;1^TF!_wl<O4ba=vM>%i-+$8Dvt#=s)3F9?!ET{d-JZn`M};UgYe2X7JQv5
znVOB{H(s?{o5&n>J#=xqj{qz*UVDD_`7eC0=%)a$=7T*CownT`)%7?z#Y6L3J{Vfu
z^2xwMj{)YMAouoC%XWf)xM_23|GWE(?HfMac5~Yw3|)6D2ixbLSa{;|;MPy3@AiH=
z@Y8{REB$5mFS4Hxzx<%7z0fqMHVrOL+z~!+dTPbVbwtpOkyrVmKb-e<&R-;7`l{73
zf*yYE+Qt}Gb0^a9B9h1Y5hm~!Oz67E&@^0M;-udOA@<%s#p9MmhhHDlVvr;#K`!_!
zh_`WkS88`UWNy2vFMm%(Nmb}(>*d+Y^X{cUSKigd`aZ@Gpw_g;GofFog!`S<FXLt)
z8k5(UOaw-mLOlW&sgx+U@qt1u&$!f@wfzuA$c#PR@l6&yXxv%rRs8~hRp3cS%~Tj!
zC|^V6BG)u$ST|UNTmxj4GdV+nK{Y@X&NwXab^~zR4N*R0f8P%wZOTe>WTvVsS0?+*
z>KIpX?1_p6MeC;WDwil5gyd_}rS2Q}4A(V{0CSIPmkCK$*ukUpN63>%L`#1_(FYX$
zJ|fKrI-E9^$eJntLqvwvMVzC9eCodR2}N%p((JnMaw1Lg0HF%Z>*AmU=KlxCWNMEc
zOZr0Z?Js!y?s@x)z~6!X;-<kH{s)`36gKTtH|@N0YH8B}ya)U8!5w+u4#dUq$eoR9
z_)u>2%jORFzmMNMPNz=0)yVF<J3rn3)BXRc`MKQFe;wYuu<ee2DZGDnbj8ZG9Ou6b
zbiDUwA+YscVC!<QcQJ6cGvD{jQt(*bcZ^Oxy*IrJqjcnl6FSol(46|ES$WM(QxgDs
zs`wSFLwsBn1Rnmy(#ji8+$1$kFoPFhRPo>+*htLd1kTRdYMuC$eV!61vX+ay#J?Y2
z<5@Mq0lq}QhYbAAI27=v9&i=IrkH$eaPN#0e2Z%uWxi#nP9_91N&`aJjFA9-L~Sq)
z!FBerqd0M?m&8=&q8JmVaKM85oFeWc&^-jrzxD#MOS1`yaYd`A0|B9|sbri5h&U04
zZj>)2l(Q1;R?Ug4nWXn5!lCe-3WA}lenJ^urs!ncFF=iccE!0=rL5Vg0W(wYgl1<2
zq(4Pr+0bJq<7z&tp>$zdX2<I~2Ulh{V@c)rQ64(2rG0*9p<_ht82MRGzGGym<JeNm
zvpMf_SI<B1$@%|t_g2-nF?Zzp-~+hxW@cyRU%embS=@5xyt)<VEurN=?}D=U^8LVe
zycC-@F4)wjp4`*R;qHZ}7Z2RudvYoKVs7-WeQonS3!V3U!$n`4uH@zg9HOrTxh(@L
zO<aAaX}vP3UtjGNBu86Khai&&Y`3S0gjg8Yb+LS+^k<auGm2_D49S5kQM8Od`7R<D
z!w(J}{uS3@_bg1W(BtloU(;h{4{z^YZ2och794{}-tGBx+fTQxQgWr98`}O$Z!@gl
zU}$ddjlC;&q{(s)vtt)0y}7uJ+wUAvH|$z*)2pX+3bP=nty@>9?24~+6q64PsP2JP
zKjjVi?VSt97QcIE$6Y%+1KV*#9ei5da&(2mm(O;5Cja|gUr|!Gr)enT_%nmCMOIH^
zwJVQq{%_dRu&5jVpIg*5ZT|Iq0lF<;vZ}p8J*;t9+TX$+uQToO2H4{PW{=lHgakG6
zlpoDVhvQRnJb7ZYY?VtUC^ZcdLNTOt7<jmd6{_;L;`ZIQ@we8p!$}y|0tGnaf{9c1
zy23s)c*JBHYy}-^;A%km&T#qAD$AD@Jbo}>9`Qp>(1;LF&Txw(UCSb`WsjqjDd5X?
zIC@ya4mZR%%9s#jot8G}eX5L6%2W!lAgyDXSHYbo85%x?-<DX)YZa+48(PwjP>1wS
zC?ac>9Y<<GB_Y!FC_zVt^rID-i4-YJH2;nwg0GqrE*ZKpB@qCXZc<h~ep!HD$Iv;P
z{__~=Um`o=(1EVWFBRvWuj9K+`kQ3^rb?@&buHhSwhMl_#mNgO@tZZaOYu>*OG}tp
z3uL!M?gb)wS0o>Z6vO@O-p!XC-NjJ%CnxT<{H$|n+w<@rhk^fLdyu;?Txji6Tl)&F
z18VC4D)B9E8ouKwj2u!&4lQl^4$*Z!p!-c>)fX=K_Nu<UKsRo`VLnI<qisZY*B}<!
zAZ(M6_00?iJgY-3>{31_GmHs~z9dX%+(H$VrUXNl(;KR0vdV~fk|vaNIx`{)0kYx>
zfnhZ;d<VwFp1f<1ZcN~=U+MaeESY$7joo14up!j8zB!~Hh8R8x9U&Wr5wVxSFKp`m
z12W3ZF?d_%mr7XMQZ>pFxZOje>t&-`spD`_Db%lq`is8i>sRt!Pu%sx+{2A9Ki0ZJ
zU%vtRHS0y-oUPY>B-R~SO}hvyRuUp`^usl;kJKW4hMJ_mL}VOSzJavn(09<96HBd*
zempm&i1?`(ZLjIhs-dp^e3V8^9LIhh)7VmI=v5m4Xg<z<l)dwVrG~?>>&+`75}~y<
zLp51*5580yf90QG(LlZ}bB0h011!cc89c-==|^vChRLX=JF3Q3iSR~gWSwke%MD!%
zJC_>z*;opJE;Z1#@Z?fpAnzJr+=>H`u}H)JF5>!+)M=Us=`Sey2GI3yh=!sb>fZw-
z0J@3<x&k`r!h=8;9xGkE{i!nOda4Y%o&tC7J;)aaAN!@(Qvtk?25&aCF&O5gw+i4z
zuT{W{vZ{d><%R6HHUs=d7iH{7qf-5%%)Cu?hgY4HRcEnpTL+xsiviA%)WI1IIr4<G
z1rIGSp1}_@nIBFbik}|WL906fpO=!!BxT*a?IThb`{CJ8I?aw6HD86IlG#bQR!8oB
zy8NvFm{h;l+rcu4)e}kfQ_CSi9M9lFM@Et*CsoW&35Im9p?;HzbhcK{3JP>VIB^=g
zNMJU&etnprg4V+b;8(*BOO0Qm4e9Q|A#yEVWX(x_qTT!mT3isuPf7LLC8Uk@t0V)D
zDp9R2NtJ4Sk0`-@dR6+ZseVyw$0Mk92Pj!q>{qi)@RLH<{iB1mO6t>~Z_lBUfjFfk
zu!2q0H$N*Qix;Lua&(fB0?#M?tQ0>Z#VyWO%CPGN*w!b-!hD^~@yalSW<>%0>ceA1
z?tm?a8)^DE^EA=FLlI$rwykb)I=_t&v1>1S2<rXP&+&>4$H{+-XvNC&{HllJeP3`}
zzTm=t!y(c91=sa+dfoS5x#6!YHs10}4$-ecwr}n0G5!ng=oj28UvSTV!43YL>-x&#
z03nBHrP0GT7MnvWRy-dxwXWFl#O`r;-+AqaudO=q_OSg2Jl}GCJN<a@AxG(l2dx|V
zhTMzSPR*Wr$RYXg2)~i<%t_a-%wD04&K3C9EUgbMPxD6hDo5#6E3#Ku_QMw}TlsC*
SUz|I2<J5xZ*BoBhMEozj7FV|b

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nano_nemotron_vl.cpython-312.pyc b/model_executor/models/__pycache__/nano_nemotron_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8ca1b142777f830d7fa6eacebca82d4f1b07cb9
GIT binary patch
literal 68874
zcmd4433Oc7c_#P@wV?JY0EK-kti%q2`zDegL5ko4ii>EgEV&Hg6-Yo;0Q9OricrC(
z9k~tKiUr1T6FhcCP;5tF#7Urx6Vq8HbmC5wbo!*8igJ}+cygFyO*-!GnFa|uwlbNM
z`TqO1s$zkZeY)q&BXR4#yT7~q_uuY+|D(%g=kSD0Um27BmE(R)FY4n|Jga|W;<#(v
zvmDRyhA<b9e+>Zx-V4G75o5p@F$GKp3O9z$5lg@lDGU@wtN|+vGlgvtd%zxX1RN1(
zz!`A`ToHG`&EgDUPsA4RD*mECF{`5_P{MwFk<vh^5?2-}4^%L}Ib0d33RE$_C0re;
z3DiVt1GSO5KphJ!4A)2e0YCFw!wr$fKx3pS(8S(t;pRw7poRJE;nv8yz&hr4gxezR
zfp+G1hC3pifzC)*pexcH=#KORdLq4nUKZyHuaEQv`XU<w8`!%$yfLyVu!;FS;mwgP
zfi2AM4R4KX3v6TlqVV>}j=+w{&cIIgUL4*Pc`EP}^OuBoNA?8vMD_;uvUgv&Ke8{d
zFS0+dKQa&)h#UwUh#U+YWO1e8rz3{~ha!W4!N}pj;mDD|k;u`&Q5IJgJ{B1Y3`LFy
zjz^veJQFz)I1xD+I2kz=IK|@2!>1$92A*a9itw4pCjy^f{>tztBhLk%WB#geAo8ie
zry|b>o{zi`c!7mghd&(&27-~#1U`fJ8oo9>961{}3%?;$6&z8g3SSrC`T9VJ_XkG#
zhQPT3?rDy1e3j#yLczC<a;m_27TS!^mW<G`(D~5VOd-bw#zU^qi+t-YBxfntA!S=e
z$}kIUM`%YzXe1O4MOgj`mcNto^Id!c-_3J;&o@nc@2drYNq&8(YJ8L0Uj3Kv3r+DG
z@V7Da62A$*n?ohzAL{X{Z`8?edDRq%q7Sxy)4*>FdB^`rjnjWwY1@_3)+)))?|9V`
znC5rB$^|a)yFwR3Q<W$pf4%f&{8OQ+Q4_x#^}o#eU=R9WZ^)?i>?Ic3kI;RgOIqj*
z3*C><fzWX+^pyfG<mL~AUb%Vj?E<;wfjCR~G*TW4y`rU@Wub!zJscVe#i@;2+-F(b
z5yTx0eKs_k756z7cMNeup=WdQU1o8|S={BEe25D@HE$SKTBY|Y`sQ<?+0f;ijY
zQcj?hlc7@N0DQ`QLY<+mP*14$ZS)^KZ_7Vi;8!jg+E4w2-iF!>BxC=+{gQk5Y&0ee
zkHjLO*!fAm-6&ZHV<BPqY&awp9vhyT8k;yLSx<#tnhs5jgxbxLt$$)-GBz9w@hD*8
zl2mwfjM9fC+v!VFq5kmLa8xQJ@0nqt-5{9<Bg5xHDAu`eI5u+rU}!itErcZRGeQW}
zj!lI4{gV@;W9KCM>Ci-UQlOm3W<L`SN8}i^)Vpsu8XB06L@phlij7T9M5UrLV|-{b
zGYFYVPlk>@d+Md>VIjo#kHp3<3{zr66rMbGYG_i3P#QioIy@bY1uuri&Yh11!;`~&
zNWgcw4h=^KCniF|Df&3{LiEt3v%(lJ`Hms^*s)1|ID8;-HpKJjk*HLBYI<sFQiw(M
zSgG>SuxEtn38cq2RE-RWN2bFlJ2*Ch9-Fuj4#tLsbD>yNs)Cyv8WgDYQ8d}DRuKvx
z30<NP-%uzr851Ta4jr5n_76`-hr>sYA>4j)m>-)&Q$t~@acp8N7QBFt3<{xhV^LHZ
z;)4;2m7I~`OJ_sDDIqjE_A+vo9DDZY>A_>i2l|f&Pab%B@YLy(&!LFgk;%x^G@6Xj
zVuKZoO}>b63XV)pPsF6MjOfq=b#^c^9DNbJS**5sI6N>M8y*-NiAkk;*uk+-SRHt;
z9(?2?IwYEzP!7S2j6@|H8*}obf)X~bv;mP*$bruYlOv%h=8}?)r93q@6T(+&LrJZY
z<1@yW0-qTcqL>gCshlRAo<S>BDy9hK6=OR%F*+#~;XN`HI~ke^508W*=nTmz2R%E*
z(|jt)d>f$N3`ZqLFdBMkgWRPUgfeZK4^E)hqx+`E!ZbNCJcBf4A|ZYZWyuSL=7EEa
zx3WyI#IPPu)A-<91*v9ac;q|=oE1+Y!BMmkBgdAT3(FZZK^adBwNozk6!JudC5Q5M
zet0VM69WJSYO4uGLYS|?2z4T+(Qr5z(iX&wdDmFv-0m66u3q~6mqNT^;qU$lVN%*&
zNub9{4xZI{IM=ukN61v504SCrU<{e~0=6NTc_VFRAxo%m+)K%`AAn06Z{p3og)e+t
z0fD1xPU{nM+TNyb!lUJ}Q=UtXcBfP~G(0h>F0eC4+3a~{?B!5c9+a7%+WmM2#xTfH
zf<-&nJB4-o&ra;{GdSmuqR0Im{)uVykl>#j^|S7XW~H5aLSp1^>+^R~A;Bqvo}p-a
zMgb!`{6kvtBj<+!yuwj`+s4c^=XdxIF+fL62w_6V?eMeWGRnHR!~cmfK6ZZ1WRi1=
z`XG2=I6NJSN~Rd#v}8OxG4&HdaU{ce$#79B%1jd+1+bF}&Q3^<j1L&PVVA7I;KXnw
z6bwrCAi<;QF!`OqAV7Cmi75;Q`N@%BP#_##@&tqUJlb}s#}P`CNHWJJg^}};MV_m|
zQwY1kt-|I0<z#OxGSxdZHq|Y|*zT97w{G9|;?_`ac<gNN)Fte76TJi)dl@_ohF%Vh
zOrtpYHQGCYIS`yspe$f$&(tMhKMH0}2%hLsIA7%M7ZjSUE5)3nc)mxpHzZ9B>2m*K
z>032#*4%jI*5=y{w@<y>l<XZ!Gz^L5$CIYx>7uHI&2Q|wzUxNy^66yzjzskiv1sQV
z(@x=xT71@OQMPbybq3MD>}m<w@~<LVX@q29HQD9Wq#_yGx+rAp!rE?=8uP3R9sV+a
zHS^nSO66Z0SQ`3tePlI^?(m<+_=c7FIV$4`Y#C)tQ<~0WJRh2n*H>F)IvVpwXleLk
z=R^MU8F85J;o*sM(*Qz#Hpc$5!y_-Aoty~C>qBy~Hpn0>DjYypNQMc?Fe)4(uL)3l
zc<6>h7{Z%yoSbLKIYAE1N#P_pG!KPS<eY{hnZnp+*+dkcr9d{OpCI3JsuP1}bq^ex
zJZ4NDcjn}=m&_lycJ%7e#Z61*-*w(_icOnE-{yB-xxMjS<GZJlTTdi>Cq(<nJEoIz
z*;K4lnP+5VV3jqMG{F0FWcp>N(*GR5`*<+_b}q1X{1O1($tJR^-JJ{I8CH=2;D?>4
z?lJTD>;=r#HGupD!b+nu+{bncAeRmCpO7(QrlSshwLDVNF9-Tr>-?;+jG7(+{kh4c
zk}R+;f1|u$jOYyEX-p@!XoNxX9VX`pIRqjlx7>K3xBM8;GO38Y2l;7+-vVKb4hhF7
zb<TpJsVk84Mf^oS$2|87tXMEUESN;`I?>*iG`0Ow;5KR6nfBE#gx&~W58pU)%be`m
zov7O_`t~GEdol~$l<eJ`XxJ;3_unz~%L|TLl(nk<e+!_`&|Lhb0kk~I8Ph}q(8~1q
z{{TR<nlb^j@G11Z@H{yLq=gsY3<;kmZ_ex)qcC!=k>@kyFj!1Mx$u&8lngJ&uoZHr
zZ<r*zyg3jSC%GcSF9!*QiH(IZfnC#4pv~ujc})O`myBcl%OeVa;s_HZFl)r$Y8TvV
zT$~%nOYZYL>X|jqT4I!vJ-i`apfV+93u9(AJZ_F#;)QVoUvSg-wi5b0a?M(2ZL@Zi
zu1-KT1AgPSxP7$XZKYMSj&t0sGiFm0#I0(~0QUm6tyx#xg&YR(Ot={favNq)PevHR
z9|=P`-at6XBQZ#w88d2{b;lj!4z+guH||#3G3$vt$6b1i>Wh2S6bA0KGbS$P(PErx
zOx*fn8vsPXVeSitxKY@UFAZ;aaVus(^BTQnh#N9`%ezKfylRaGF76!QUN0IcILD0?
zywHpuEQ%N9qf&SitCwO+)RybNyh$x_!VoXITJTz{3FCyaGE3i1r5A9qQZ?Urnd;Mj
z<LnD!J~d>#LiOpt<5jv}_1!e9GcI1Fwgv6jnWr5!kF*0JxsS?d$||i+E$tL~%YeVx
zqKkQb?Uo^7H;O!X!z|e+g|TzNi$s!04(11^6#N>=CFAo7cSMLFy)X$!GM;>TABa>J
zW3Eh1g7zTZk4G}m8Ww6P9kp1p2qCtr%>uB)kYpMWCZ{9|7+s+WaJ0gq3CTq0qErY%
z`9esDNruys<)oaah>_uH;m26AeS`a-#h+w7Jt@;6?ZuLrK@Yic6KV^EDe^_hAskSc
zh9g<dh9^f}j7m=Bv*a&UKT`Q-huma72+CUWPRZ;IQ1&tsEg8l@h)upM*`iZnFnlPH
zOM_4B)rhcYG3p~KHTw|=JC%z0OQ5^PMu;J#lrIo@zJ$N%e+3-5%&l0s`sO#ruaAqS
z>dS}c9UuC7mR?%!PWtv<KK5b9K)R$h?W<3hHIb*R`k}+pX%S89E+3pby3oDi<w`29
zbzSXRbS^~_^}CYAPhCEeF0V|Oe0N>N^IN|9!kpor%RS$<*dZ2oiLUPDD$%(!jgVc7
zJH(Q1(bcouAv$-Z-5xc>-Lu>vx;8G)h|YcrKDu~V^!14D-sL{gwds~!bnaWRnLYM7
zBM|ITf6CV^`kEI{C4KF4wzRb(Wvv&j^^3OmtsN^RoV)s=k8^qwp8BN2zj*LHM@Pcc
zk#KZ;Q0V(+NustpS&7=-tK68bsC~nE-MKiv+>vN`Dp|36&ZU>-x?}CRZ{ZFYo;9o*
z3o0xh44l4oYGLG!^ViQWwY*o?J7;{|am6uz;EuIw`IKngmKZp_V&u%FD;yHvcXPhx
zRht<;D|~bNR|+}X8N+La*R5Bq^BoK0iK6yDE=p}bDsDfT+J0Kxe)^8}*|gL1Q)7Y6
zj-l~2uh>{wRDzS+a?p@0KPYZKur#vZ{HEaz`*r&_oQtR4uV_zfK7d|NlpjnxsuQN_
zj~<kw_KzM|knf`hPOjo<1Dhy+-rIh#(DcK)-3Ohf|IpZQu*f739)^992)!U%L50e`
z$krd5-L$yC-kr$W4{3j5`ytU!*SMIvS7K)b+$xA0<EEPib!VG3>pNmT)^^;i!l_wH
z+;WO*FBlTSD7W3n<|`w`By%(dQm?&`HCecdXyMn$AvmG5Q(ij4079bFKxI+LtD#ih
z{9}{BOvG0pRN{Tguo2E>?xB}+`_onzoA8+PO&AVLd$;BCK}7i~ukF0LbKyd=r1kRA
zw4*#>DrXqT4TC@sK{7MshWWMLqF&OlhkwEgu!jQdU9`Uy9)`eCg|A;QU`IE_Iqcs+
zw9#i;pFXMgc;iiz2J>0(^X8itt@kZ44V#Et)SgBQfO082tZ7`sBhWzQiGvGAyaY7|
zcI#u<t+hRWoS1+)Ph8vmFp5?g^3OCeT#V@TVSutr{^9V&;Y(3JFs`T{l)IlWFyR79
zYBva<#g71FgJTomC;x^ALrzdjAXGxK5xa9(5QZ-avlJL7hmq=EhYv}wQvjPC8jRMc
zl^7F7L?tt$RwUchSXiOw9-S>RnwmRX7E$_7@E3g*4#20Ib5<_&zvrk;m<AH{14+1!
z+7&C;(RF#~?~2Oi%y)gQcb!GAAHQ;Z;lPslj<Y9S-jJ?ZNB_M=m{_IuIU6RHw`6|%
zS3bK~^q!|NVQox!8q?OYl(km0)-H@K6<m+JZ|zzs<%-K6R&Xe7=arrFpG`Vi6Q))+
z{YEr=6Ro1oV=I%k2EtT<%Yn5KFPOo|o#Jj7h8S86;f(>i%LD`{-~bO#NLJ>J#`q}Z
z#?q0OO_2;6uy68XwE2bv;kOVE;W!s9g6A@qcDm+mSB@=wQgpN=Of9TMQlUZ_3g?h!
zgxaJ&z%k|ay#`M<<cMkM)Y%;M0=v_&X0-@i_%(~~1J+icU~Rz1W(zWAyM`^x_$)A3
z^Z{_8QeZE}SwJZbdnvd`Q0G6h8uq@vx1ETE=-32c4g_RE5aE&~Hc5;i&;}E+c9ZZH
z!r0ddU!hn#xaT1xk4#0QCIk@dk$cdm%ZT(e!tWprv<bNAAUuFOR?b;Af9{*HJC5db
zapkq1t3Ao$#<{|O*mE#h^z`>H-fH;urupHowI-^&u$eAhNEUCtb@B4yMA6e}M`^-T
z`q2X;SA572rM~)3MZdu`0+05nD|PiDYWxy<UFFXccb+fcjSv8vz@;~bz<Uo__yQ)R
zE#wPEt#jO{fw#Wu4itv0;LaC@ETaXy?N!s;O5y5nz>Ziu@;dbVAxFqb5M<QCJM|m^
z7w<wEH~y$DD$&Y&APRQ#-jD}kXusBO%|oRqsXd{h@n$VT^C<Ncp_~%F80D~<KURr8
zHFc;o<jh~X%sEwDD_??I%J>T27b-{Ia;ls480$CmPwA`XK!uHy|M8V*k5jEfPlvYU
z{Z^#R8=hSYUxqR(GfK-Cw@}rnoi9fls^_?u4S^cK;wq_{<WSi>MM$q?ncB>Mv(tP%
zeSR#euvPiVP;_El%n!jT#JT>l7(n&K3ICykeg%`96uMZR=%oK5;v-W~T7ZDeKRFG-
z2vQPYKM&btk6kG`<R{UTKQ`&dvH}XO@PuVKnI9FOMf-T<lSMD*W3j2|j^5t$)921X
z9ybaBT+hg4?{Q%CPoFtDe72Wi?GtB?Zs_jY*9(OEY;Od@Oqtb>47%hMLX;Rd{Y^(V
zY~H}yG9)Zuz$A+zG_z^4G`4XIUqhq@QE3k*h($E&>OH)D-2j+{7x}qjjdQ<>HK(ou
zP?3f>7u4VwFd;6eLFc&fWkb|r;9`Uium`akbc-AE?Wn+r4C8J!z5WYs0)b!l5HEq~
ze84x9jPwNha~?U4cmQwHH{n6u#PVhjO5lPH?ah#n)<g;wj&QMRHSKsFiV-cSQ{(kt
zwchatJxuix48mW5D)mEM8du<nbv3G`=)b>UU0P3G;@V9^KcV4cL@VQh66qJ6o`Ucd
zA}%I<4+`&4ir<4H6%8CX*bgy#aOl}%!PA3B51f)wLGLKUSkMX}d8v$9+nIQd`GuR5
z)yrd{M6qK)QpWhEl7|>lDxM0FuTBZ;;t1i}l(!JnBZ+Z^@8At`98)wD9@U#Ax52~&
z@0J&t0A4QZ`;^%h4330{qY$}83Gbt&PtRqxUkQJJpqb{!K#Lx=8)`6<qJN9zKWB)u
z&3&a%v{rx=x>r^+XL`+%u584Q`(ACwd$oJ+^z4~4Aue6zPgV7aRef`I=Is=#I_K;k
z);FeI<qJDRSIbg^=<Hm&km@}s_8xrKAodQ5&ch(S{C3J;1G=cX1;u*OP3@_stzy$w
zR_xu%x;JXB*DQ{vTDOR;TauMqQ<Zzf%00IYxBG4nzgv{7JVI@`s}Or<-U_}MOjc}8
zRXinDJaudMcG2zr+b<<62Iow_>XMNvWtrgfIF9@bsiKvb2>`xe5PlOuHz3U)nv4yq
zU@*iV5QIqqbitn>HcHtQY`~o{yumSkrsHuPot<_wbvG?p^tOc~OtC>mww#J!O`cmv
zkwSxC@ISHf!k-}#Xf0~0@E7Dz5!q;<n<=xf$qZ&f`0>roPP-$c+0M*nJLJ!kxg(0;
zPG*i|5l@7hv%a5$Clg@=bJeIKinAu2NMZyi2&ufJCO1ytJm<Mtpb|@r2@4i3z^)l3
zXn<PJKp+$ws!=9x1OYMaW}Ow4v1I><q6+11{VVu|zb1!~CB!C@B`JpBqok^jIxq(m
zL}%7NZl>hRv5z{Qq%fE-Zmx3Ua^G?!Surr@`mkn8y1X%6(M)7WdG)o=UHx3TsxDR4
zC02ETCaJZH*2+1@{D}nvcs$<fh103pJ`w*teF<wHn{vXxN3mIxj5ZH8N?(O1bClu+
z6&M3iH@<EfF){{gJI670xiM?x)*3Zzqxr@yZq%6!K<hhAXw$4|Rz>TXpCR_Z*RP^o
zIUECE`L+=H8JccT#9=}OjrE8zW$S@HR30<N>H8vH8IsK)ri|cM%OE=nwVN#7LNFYS
z&1`+#s68elG+VhS`1mw<Ra|}BlI2ca@53US*M8s2)vv#5pEu4w`_RL=8q?m=bank3
zd#>+ESG1(-8dG)a#k%!rU->^fEG{=l)cW-gDBlWav)Mmd<=|ys@On?b!2+F+(95wA
z6Dm?4+7j4E{yp}=tdZ2nDVcpCSjLE9VThYX3r+!@7^hr053z!@HEPxcAUctjZ;j~;
zA(W~iDSFWe)ld;VR8@1xC_4}06gOiYS`>m2JOzkr(ADyzvqvzSJeW-dvpU11;F|@Q
zt9n{(Uh_tcnWK?KUohzCSzdI^4B?M~P<pj@(5gbERe*T2h4I3u;WZ$3Xo(HvsudyD
z@lv&=`Y*4wFr#f6LrrU0p^BoSW#wvay`RB!0?(MOND@HV^C5t8duJVS2l_vc;DI3H
ztP^pyYWeza+!=SMUkcHbHEyGCAFtO_s6O5jca8hiH~m-5O?h`A__gOu9B&<O(o?8D
zT@-fCFbg4yJU<mNg+&un6aq5Xh8VM{y?_b0r6PGpBG9X-W-&By<`d^f!9-VxC8AY8
z(uWzb!ZcJSr(@usl9m;LVV+c4gS4!={1?xUL5n4NesVg@`_G2_!%%UVI2R82p-=+P
zjIB-4sB0JYqWLqYNZ|$5E9zxRB#0)`&jjJbs-vPa%A_p7B2jphMeEtw*F+_*y;x?J
zB~S(9-pCwP<H&G~VUrAr1b>6E$D{&i@|u~{K{7LqP=Qc91TlP*HZ|d03IGbq^dcqG
z=yW(NnZ_r_CfeOH)D$U|20B%(9L7qDLfDa^bVfi@GL1q1Q}`CEW@;Gvw~VL47`beh
zWLSwRzNKoTw6GZn)*OXhl_Bhqq3cZdV<E6E8<CTT2=4w09Kc;C#0PU1zOr+n;XOxn
zy1I7m=*l+E>zjW*;b{Q!wX&J>H>c|Ni1mAJTi$gg>(3;dH6ONYxeGS&;MKuIT~E^2
zyX^a3-8*%+eScZ|gIXZ5t;ImyT07r*{>|q<=-ip~?Gih8E^hkuQwzSYKbPp-Df)J?
zME7llHSW2i4~scp`F!ka+ZPSLwtIy$0-P5ZiZ-ko;hWzLo>4>7Th=$NOEt@}TmA1`
zyyM@K^c@iWdlvfstnb%OB>a2k4kUaB(h$=S+xk+nr2XcpL|=chd*6E{`?T_US$T<)
zeGlzib9bWqsUJ1%zUrAb%<oFqb;!HPa*<fKao&-x?^rsW>h2fuzrKIonXYX})vgz7
z*Du%HdL>zVWZs^x_AeG)-<GQG6stRz2A5~P_qlgIm#ltz-aJ42YgULen)j^Oxzh4$
zPhWj{;lS615+zM@18Gl*+NU2qXy;0w`sjg|D?KO+Eq>5le4xetXWI%7beR5}Gr?8m
z6*OtGSc|la(H^wA2@Y7FhRYD<&Kfe{q9G59(HJ+#aN-olaCrcO-$s7M^n;&a0UshD
zN@StR)GLBc^oyb3S<+GiQHbULgn5>m{L3`Yno%McsNmo^YSWd~bBFJGDi=Dw&EN5K
zrmLD4YUU27J(US-rHtmgWjPE$3+dEHM*wcMN8_sg7X;zcO_vD}Ytg!gZP*2)1=w!P
z8C+9BcB$)f9({w5xu)0<&1{n}fP0#kGb<zCK+BZUl+@ra<ke}AH6W;G@yr&Eaq+_M
z7~+=i7-p@Rx(z_|Gzo{svo!;Nn}==~g=}bZ5X4yVFwY00Q=ySD=rhaE6QK^d=Ypi>
z3jB^?;{S+xg&&hc<h(#|rQMbb#E35}C;t}t{vHk$_A=@BlTNqfh0gq0I`<Hi_kw5^
zVXcsUU?0%F5ez<wx|UO2r5Qp<DdY@Z$Qcq2f4at>s_7AHdghMZ+qL(0>-Tpj%MX8l
z_ww+9DOJ%URzP_BensD{-D3ISE6zF7+~_@8pc}>7jp?G&bV()feTX3IHm!1|Iw1K~
zND^Lgav%XFu1+kTz7?9ENR|!EIqp^OSa=aitV_?sNmwgB^i(Hmx^DH{@eC%cgC9Mp
z<SLHHyymZ0^shI`%f>W>r@dAfqAog4&NJkkAcvSa!gg|q^TAjQk`+5D7#Oijf{DWZ
z139#CB_lRRw#5kliNc8a&V)Z1JP_K+peZ~J)(Mn4aSlNqLPA{yHlkkg(O?QIl+>kg
zJVrv){~*h6Bb1Tldu67_G9@LagnIoS;r#qnsB&7MnO4QMv_Ei^n-3fAdHpM9@{nxS
zzf#D&cCG>x($$$2mIUaw-ThM!i`l?g+-Y+OK(@JY(fEMF&#IBL_{edunDB~nEWQ;e
zj5gjYt6VYT7a?Vp3!AP6Rto9O%GqldPKmaL2R6L2+${NuyU4tOrCli`pOq`GTCtIj
znzP~{pOdq@R$b(4b(`(?ux~wk?Ne7jC3+iH%m_ekq%0&KYH`nnUJqXhi?-@j8wL5B
z&?a~B{KhL|D`xnSx~Nnyppb&BRDg|qcFyjZi_P!9a%rJ?A-Z_rt)p)qP1LUklPBTn
z6Kxw-9Y}Tmu)%DuTH3$dyc~U}{l@WIyx6sGl|vX*t=qcN+n-8r*phB;yD#^(yJ&u3
zq2%h|mB~eu=x)|JzNqY)<EmqUU)=oG&Np|8b-kjucez>gZc)a=%2n1ZjEfa*OPj=s
z-W6NEK|<G*{mex%GBryBKY~B)fgp)JtA7B{lt*9!R;BXK_)SYb(TOGmv1&f3Yb$~k
zd&sKz91xnw!WJilEyYaO;)1Zn9&+%`P$5JK?hL_+lZ9I39EgL^M8)a@E;$aN-i%PU
z4W}0QA|_I3)V@yh5Dw17Dtg;UP*FVIswL4ploo=TVu%%dtke>uw6YSY{89)l^3)J2
zgV?A%Q+)Dhoha3pDKH_i3E#w*Ag5A8hM1!?R5`vuYn0|e%DmxJTSo3*yruH!&{tGt
zl%oq<GJCFi)Xl^$HGBm|y;2)_XQ)>0DG0)<AUdiG)$`S8v4!<TjpnOG4idrDX(9ER
z&#(EYG$k+PANBGL86)mzBA*6usG6nnwZuK|+6irjFh`RB`TZBia8LwW8Z@Rr*)Z|9
zD(eBI;tx-r8yo3i`Sz0>2kh-f6M-@s=7*<nj1UURlMy9B=w-&^{srYa8zI+e8k-n}
z3<)CGZfagP4i`>DQ8PF;vI_Q4yM^t`Qc+}VBB<#*5mtsEXn1A^X&O;7oyQbj9IB)r
zB$iYxzf8#o{D><b%3-PtAED2Me<A1pCg)$t`G3gCk{b~|M$ALPf>wV7Cr55%ljTMX
zTY|0(>4O4iqFi_&MJj{@M8S$6sezP9mm+20MFla9Il?qasWv=Ft(3%ZS*dA5WKT|N
zjm?>rx_FJ$TAfT<f)RKJ31#$Yf_&LMbWk9awA~^6KE?e3IeMS%#H(Z*Joa?()am|{
zrzIbVuya9((S?|dwt+>Clc$v6z|eqH%%U+vGa?-nx&Qdk=>wlUEtRnZ5bQDJj3Ith
zLc3kY=pNh9jAq?Nvlypcqb@ULBmOm(l_nSYJ;EVoQO3_fL{@N$T!iqivU*~<*7ef=
z`o0wxXRCb36++pon5$Vwa*T>}<0ks82XWW3A?+;v^-IgoJ~S4zFyTi7h{vY&6nb%a
zGeVnKXgxyLZKBXumZuTA4x#T`o7mQ-anjKmT{VQHbEF!Qk3itLX@g1$;h1X1>OfBl
zKSa(faRww~?8I!4C7fwpt8cQ?{fK&qHrdPEJx@u>(<pixmzoovo`kjM(RLGl$QIJ8
zk7@U1!zKD6ZP6g9@;pv~Brj32M!%>WD7AM?@{A$6L9!9&=fdR3@L9<SZ*D&ckot0K
zcTRREOVl}AQ7Sse;Ym5FMQHUopo3WsLizR2UioawvrhD^OM2Q<o^H|8y~L+_c8fi`
zZ<~^y0}1PaM>~)@k9FW)c-9*DeDq(8x}H5M6JPy!qb&X`#abhUT7}5M53M)Bh);N=
z4+z6wyANcLtS;Gm)Ca_;WD`XG=#8Rh<9ClFJ$n<@z3dw$3+uROe)cuNB4Pr7(lsfR
zZVPD4OcpMQ8}dvTlG^7J9sxot{Q+ut9b*rhG-}i&3mS|$%4d+PEuta1SV$EtxTuR5
zykz^xbtHOJupoaQ^=dB9Y-ZzHD@|UBd8H8_Qm-CDO_#a*Ra}*S)nkP`!42QM`JpRY
zmQdHJ$rAqAW(McUiDdUF!wP4GAmITAFH?2;V#fv(qrtN{60}ROIrky@>~Ug*C~+$C
zj6#&e3t*GS%}l&dkioVm201iEWrnoEATLBnzBKIou*O6uK13$p1dXHz`z>j#Y6d7~
zZE-8=vuAKf?7CQiH^uF|nUF8iCsS93%psX|fPJ2sm)Z)3I?s?jr5(;$yS~#tL8DST
z)r^*F`!{Pea}es)-&CK<eaR?W+s)N9_-Y%z(WQJNi9%c%tTI=|cgdm<EhO%ILb(n#
zFJJgg6ULAm_vy8&zI<mMaH=GK+B|0;aK0pe+B~9(S+72Nad+HJqKdeOx01dLY0kvG
ziXY)>+h>bnnjixwX{=0yp{#$1OFo3S1aGs&vn8{>+0uA%KAjguWKxEf`ql5&e?PxD
ze>iV@aR9)fHP)o2jTgn&DC4GG9qZZhc=<U9mChOBWgro;{^%=bP{eG-ge6`?;Y>tR
zfm&PClJ(zsMcfxJMO+@@520;(O4WzZ4%M&!BD70?Q++obs^OB^%KUYV_o`|2-+1Nt
zdi_oH@y?qrbu*r=Vi3MsnZ*#0%~r>&$2Y2J^<Ul{uY!gV!6ZCbiRBQh8D^_r`$rRL
zZ80eGh>%DZ7uhwzk?wP8Vby^C9$A>gL`Gm7>#+R>>XVG4Q&C|QJ{&|V&w}Q3q+SNv
zQjv@aWD1}ti>zn*UHFI-$(|cV$tyE9gJ7b`YRr<IGRj9YCBsWM3WajoWb_gks#1~<
z#fIeTTreB4hQj<gGAxmeN*}~=oRa8^V^cZoRoI4LZQtEqB@3GhscH{7jOF)RXtm71
zd!KyYCg(fk5OE|^5Vy$peRBQ~j%1t}n-U~?W#m;eg)uc0xsON;BoiH=m!LCF4rwJz
z7CuCphQeLS`gd^JYclw`+1sw<lnYbXxP}XoodrahSW2M=VMGU1ZETo@m1PYbgjdSQ
zS=Cfh=_6-h<-+7~0mqmfnWZq{9yO7v9O$22ri?1+Sy@&n4=59cspz;`SH{r7k{Fbb
zY5e8<Z0MD*fuWbFu;kJEjY%gZLo8Z@252-+9#0;j8Y^X{eNF5mL!iczK19Q!KL(6t
zS|}L;wZ%=TrY-L^ZIK0QzyNf~+I`sDYVS=}_TI28_AN9l^nasy$uf61QQ7;!`Yp+Z
zt?yWt`W71&`@hw^Y)Lrl5)E6^E$yk617gd8w6`h^)TL=N7~QQ04d8UQx)aVupgVg`
z&=H;%_XoS5S#JAv<NU#ePcDY82Ss1k``+%v?q_gr$JK~)J1uUU*4Z^gi5uM?>^!#g
z^1L-s*`D-vBz7L7MD<A2=!USY>nTmtw<+n{yd3-9XW#kk?bu(={$LiFyD~+6{Yl?G
zv9n(n_4SLseN5B`&T7-<yDc3g5=?A(I@xmQevyrYe=B8NebXB+UVkxFw?nMk0a;L8
zqx`x_tlNZF#J+O<l~nysv3@5ck9S+z(nZx^eHOJX9lm9_aZD`Qp4dH<c;<w-`-JE{
zNwrZ|fU-Po_=F+tZB2WjJc9o%K=4i*+@kmRymMh<X(F-vIIum){%U*0+TLY@Si51K
z_{F7_DPO1P>rD8zrYmYv6}@1vE;qebu^9wt<DPW;o^(?;QzRnwzK4aT#<KatplsVW
zF2<K%S{}I-c(>vEpBA?q71tfbxh?RI+xH~a?YZ57_k^#R$tp;gm~PpeZt6?7Zlw>N
zxIU3?>q@oti*5bs){a!`Q)25=>5iUM#{se9z>0^f>s#flb;W341=qCht)4e~QjJ^1
z#;s{z-L>OakKZcAkTq>v<qDdL=RG*eb;NKS$Ec3~Rr77=H@#uIZd+_$3f>xizhdvZ
z&GRPM^H}+WfqG-*lZK2L`OyPR$*T1qNex>+dQgQqg40!)1Rp&p=1TV)K6)@^;3}Rm
zL>sZ5zT+J9nZD;7tTg?gwqmf(^n;zw!6wt6dx{6!?C)-<8tk^nl5qm%Bft)|#{wV2
zm>aQVK)IOLl;IIp48@vJBk(s>X#~_XR7CPi@d{O(M#fPg#VcfrZjj>58j%NhLhi$A
zFh3&411Bmk$qZFIz5qNdqe>wuazF67@}4cic?12N>Z~1dKRe`pR{Yr@`*Y~{C6rA}
zILoBa2O70ii2b&3NcahwE$_E71tMgFcbWGj{5Pah7=^NQ=*N_;551fr^mArx5=?V}
z6-9%Tv6Fv`UP=5XG*RyVi+ukbPSgn}6Mo84r4@wEJceB)3;Iss<Dy9<g`f{77IOrB
zSa*G!mq%}nioFN0g#GppdJil$%nhWRjiR%0vG09nOQQF{eTosSP`jNQogc;0f*#nD
z1%J7Ts);FOV**06E+BO06A&II0pVd15FWloP97;?Cz`}a+J9fM&uJ3=0$(T`g_ET>
zXhHy+^ylFLnFv>Y<Rd$?MqOebHxe?dvm_X5Ytj+>yqaVty+nNy$pTBW%%=D^6e<{K
zI5)v3IiN`$8UaHCyl|CP*P1T5Xe$jW`nIrMCci@eC5Lur^2@cE9mFk?86H%?MVbJF
z=VFVrbCu1DVX<Pvoa?TycF`sJy1!c}`nJy5KJ+xEJUybPXX(-(cP2dt6V`)_3zCcE
zRnw=CYPL`dM`HjIq|sFScA-W<7$a|(hNL}ig?&7vm7gq?JzIuatwxDvglS4}nxa|8
zc}88`FRtY!s`_<@q67+>l)(x6tb;d#MmEuqeuLx9aR+bthKVoy4KpB?4|qB#=2^!?
zb4H0;&8$S1QX(j1r9@X&iPqmRq9m_Ul8c?jcPlgl^31yRX#{S(Tb(LO9?z^BiX`6r
zwZ8xfw^C<O+!MDGUtqR4?#&DLid9Gq9)JE6n(E$~DGK97M8`d`Buz08CpS+$@#Lmv
z2|<CeM&e{B^o?=WrTGhH-GIHeVFR`+y9)A{Q9BYB!Cao7rnF)&kBNzfWjT;6Jfa+@
zp|O^kNY-nC&<OG)*aP#!a3ySpg)h+&QJzi=DT$eS8!P+#B-zl@s+Un-m}(n~t&94{
z$$pfYmGo}>QCO#>V@fC#EZP`OA)y5$lY)SSuBh8-WkHKiE>3SR%ub>`YAe_=C$yBO
zBTi7sW9ITQ?B_ubP%BKeICm&W_;T>f(cl^R3=(xi8&gmj9iv^~5|yOt7|JAttXtym
z-t7;L2r$eN3gRdh)LCRSUN_R$t~V4ND}<nRh>v4A*mtsAax0mYOIgxK;4L$d<avxV
z8HT|$r3bXn7@klif_k+X62RR4V&}+67N}}Fj!sX&a_1zeFAm52Flxuc<_e7l6e;Nx
za5sj1!hhh*sV;K-OoLMP;xoco-{<GYMwv`72CIowq&gB8#)g$<>jW_@;*q%~2=VkX
zw7OW`s2U_L9rKL&nH4-)l~VQ&!;C~!Zl_GVX&ut7w-Y4{D2L@>vkX=F&re=dTH=S%
zQZ$&9J<r16CaHkNE{0&}OfC*tX|8Ie(xk|I^tns(HO4Hd>Dryjq{sIwGdc4csT-;9
z{B1P5RCz3II~1zSAzD^J416$jA=-|{XkDvx1sDrChNb#p$y1i&s_m3pk<sOCbV&A7
zI3xQ)`;H7%R;9I%7D)wVlg9q6B3PU}H8bpPX}L0OPWjvDXzmWoAK46*X7^An!yg$7
zqj}&DOz^S*IqNgXrii~S)7~ZuV-06907QT)Y~Cw@Bp8>=j)rKeVd-QSn}^ks{dJ(0
zyVV+aza|J(=1<nlc!Wdqq>>;pU8|f&*g8)tOA)Z<mNzuBT|d+8Comz8bH;pN*8I*7
zUyy+=Q&fgMmUFT5GnRw2IQ_DUwUZVe)VX*+AjFKZXT#`>-LH()4*yKS4nL04{0_EO
znY;A2<l78KvdB6MGV*3+)=*)8wY@|#j)bGRxDheHglq&!D%QUM95Awx%nSc3rTYpM
zZ_{EWFB@uDcU6a4_!~-LM1WM48z-}2FmHItg%v2jGTB%+FfFM>ORvW;fv7qmGk#@S
zq5;_+k5KCTozD|OIgSjVD4sEJb-l}cq85sLRsZ0qy<6GMDEwsQGjoSOEGe6x`P!au
zk0d&FBwKgBSF#hl4VOFZJpxk0<xZ6B1VY-<vowCEdHX}N(eM6;=IvLH&iBt>0##j7
zxlpul;(F;q;X)j$z9UO}ZgsrpJ&<nRzGCKFwGTL?hYt1n?TPJ!cX|&)GVOPN(0lmJ
z*y2k|4fCy9X5l?=W1{yku~usDb4UbRCz}R{|I%vzVB`L!{jVKauq|$U-?=WaaX(Vo
zn$XBrJ5=qUGV8iq+nQLn^+&bat{j`|pPNZH?z(kCY}}J@)~B77DW_j_`V$SC?l?Dt
zkaAUJ24uu<xm6`L?7!n2$Ozl;zH=k-7q&wS+uM}#bc&wNrDI7C`f<lct6TALAFbNa
z+K(RC(Hdq9;ZMs4T$UfSl?;?v{;Z&6pi<F{w2)>bbR!!-hHj)}Iy*TT79P;dGLOQL
zbxhWoxKA^Z@l;8aENe?LvjoP8shCtaG|<nCVw|F6r^#Wg*H!X8B!{U+GLjd99!?;c
zk**)f77rs?BnLYgiair{!v&gi!cQsbKf}q?m;5;elJho_L=B+en7*V5`jTbPmjug(
z{&)1G8(Y(zy$?zoNdpnulla9rkn$w?blpjMb8<EHi@xhSR$TPvR^L4I=H+S|7B^i#
zvQk8E#j28I3BCEa+Q!9!>ql3p7E})f%yRM_GLW7nv@d%XO{9GZJ$E$#ZJ;Ql`JiFZ
zxX8b0$7F?HNkCq-P0rkp6qLJPjU_Ky*V%iYG$l!|^3<Aol}e+TN+pyeGqfxnq-EJb
zr8r)ICa9)sNiS#}DO)aVd}HVJolB;rQ_D?DpS<BtRBsVWw~F3vD}^kTtbfV8cBOk(
zSz#;tjEX|#zJsz(B}U>t`VlIukEm5rC{?(&S|v+ieSDK{Z4$kER%|RONZ3pbOa}{u
z6(U(p7K4il-RgL<R$+MUWvduk#2hkM%}*PcJ}i0AG*uy%y=oe<t2XxT<19rh1yC*B
ziImm#3(@QCD~0S8ilES)y>45vu~$3h(~5(6oiqVm%<BfDWU=Y`b1NS9>g8(ui^l8Q
zSBltcF%Ebv?!SI%rG&luNE`PwB^Pb$9+XlT&6uKxtbUmor!_HxKkXqoI6bSc!pXM0
zL3XjB?q`Gr3=?n4P~s~@7_4o;ey^F74psF@-U8)82P|gTc`N=Xo-A&#G{|9x)dvSs
zI9ZG_<U*;iy8*iz6j#8z;P+fI!&oXTovvXE0vHXMKA+iv6k{W@jfU>Y3D75ss-Tj9
zVL_@1hVE$W63#R+gS^om;ZO0QvNjxGgZ7Xg(sFJU<aQRLM>#^xP9fh=&Rb9sS?4Xh
zgt}&)!kX!O(l_+vW_gcxMH&vqX3@`24{1CS#OX>>l=2#ED)8JG6r#u`)fW*W+ob#<
ze3@!c<y4oV;zZ{7Bf;=k1V%GvwtcKt=E?a1HI}%FI3MCIU+~R+E@7>cr`TUnGya;K
z2{<rgq@GOEzQcrY;^{KR+7LY8^_VV`EuG8}K{!2c%Rh9K)09sKNai)`oM6@$P;1F<
z1_Yi*P&iZBSJ`ISDTE=!=d#KE6DptC{INQTWLp_ZLeaa_L)(#GJ|BTIG&M{r(JfYV
zCo6jA2Jd+)WCf{oMN_)6MLzuC?SV*$bXZI_JL}G@6GX%$W1U7aMReNZJFFmHkWX<1
zJWGwCjx*{8m6<e)<<1yIIA0z&L4^Q~XYYkz!5Lw~1G(^PWkPy8R8aD>+F=HihD2wz
zvlE$SQW?OB(ayL7ro(8rXAc<-)sN21TF4A!+{~L9yABNd%NeY8{Uj-jZju=`FxYpa
z6bvo8nj5-d${BMuqPS(iEFa;w$cOh?;+eMn%(gp-ePI5>u-c7F2EdldGyzWJ+4=@B
z=GnwyVo*}JkWYPd!-oq)$S^%KrO>YM=V{8bdL`Rg05RF*!89fIDRrpaSr#Q#<c8wz
zlPR23gc19Tf>dx`5KhvxJp~8G#lU7^+4A%Ar3PB&y6!McS;o%8);)y4Do1!`-^ZHE
zk1gZ>q>25%;ghiReHAHRyXb3A`a0)q_k6V}Uz_M_o3q`m*q|Nfzqfs_Xx);q)+Fk-
z{9Reom4kEp<_pp_EifE5v^03D;KtDWmbnA>NMhF~R`jK78q&2*BqXhB0<*tz1I}Pn
zy5|Oge|akt)xAkiZ+hMOgtz%_=cZem-z~e-`HbjoTPf$tn{gJ#>0j)7&(WM{+nZ=R
zbho%BQTueV_)x-m=$>a?!n#ggQs_+W(WF|hA?S%q3d<$$l3MGunRX<dEhHTHUt`gb
zj&(uYplk5S5d8#N3fll|0<xL)DVhuflvEf-KuZ<?eF>q$9Gn~&CNXmjq->rEojxW|
z%gts1^oc%)N*)>eiUwKW3hR_420bda9tE)iB557uK23AZ`3R&wUSG=7CVJY)wnJqr
z=^B^SV~oA+7-Ir@W(DZAd-IYaCR8k0CeMz8FUn3s$vs0u$S4w7mE)M&M*=NUfpr-!
z*LuWUGw^RtAm?vsLjMNRzRG=I8n{PCqD(+}iz`;l_yyi(Z+TD%pK`v5!kh+k{ZjdI
z38cmY?~E_ki|zfZK*H-+EFR#^gcGh5l21PPL_Yc86ZwGN;n=NMvU$ZtuQ-wATJ?~x
zvE1BtE4sqr=k}#l`dQiFGTRqN9&-4RH&<$}R1h45nv3}??!)0n&~ELao}h;zbGhe&
z2%URX+fD;!cACfdsx?3-gbHOe4QLo4aaM%bw2(rC5K89&;)YW{A%~3cA&mnkM(l`n
z!K|7a?;ZuE^RiPOMVQ1csV1)~hKk5_<=}1F36FdSI5Y%;zL8))+Y7hA^Q48FZ_%o%
z!U|@<h}R#YtPI47QM5CikNbk2Y|Zf+S|FNYaLUsxdYY4-)|6+n=-HgGZhjO1(WGYI
zL9$0Wh5--(U+yEAWK?g$0JT&6>2k*_06xEp9aTk?Afz^YM?nd%qZr^q?Av}Het{MT
z0{#SkNjX}=P(k4~LZZ|TziMcSlFn>;?6<FhR{E(EdQcV)7^K^~Q|-InYu`10anW>j
z@^<5#BkkG$>n&H;iN$@%;*AN<{^eKTB&_@88U8io%SL(84!MWi@MOwh)e$tvlG2>P
zlRVTsnd`*ZeluN9{Fsc?&GZq_zvM1+cRf{LPCYtw+7vv@8kT?H^5LxNQ03F&RzJ!J
z4q@zN$weOlgdHqV+*l^-n&p0Inf{@fM}yYT!B&<Yqd(;D&CIlpKD(NIHmUQ!eC6eo
zr$zL%Bt7d=o*g1%FR`AG3c<$=lI?06YaZ_Aie`z<H4Oj1$h}jL54*>t)-BK*fw0nG
z=R9P4O-EAE%QQ`M9<@iAHm`=>>WS2N2<Z_E1Q#eIvpZ_eXSj!SZpp++2BHcISZxD~
z%{u?B#{uM-6-ta|hivbaVX0=pj&GB9EVdo}5#l8yc3Aa5cbMWMa3s67??z=m8>gs@
zSbDWcMVC%uAx!?FYFGLw4ddZP8LwN;PiVJaePrD^hBE4EnfXx0-A`OKkImmf6KWPU
zgATHDW%buyxcb84)}{VrX%9@SmDXjw-^)fQtLszMo5bo($!g+&Rs%>>q-&ZIFrikn
z<<|Dp&eJ0PSD&Wf`rhxtF!$}g<i-PHJ&u{w-1QVEO4cnEB|V)9Yo`obh;Gl?L}-0G
z@VENE!?}h%WsNmVW0~{liXNk|shCgeNSkwcb&N7%sRcPtMyx9*3a@G`Z}=t*9DUpH
zRT<m^Rn(7={VUQjZ~?)@7)>fSGY+Ux<BUBjgBLI^Wbh)tssbNDI7c(`MRE?q$>eyj
zc|6no#Ho?V6WLBP;RQ4cyMm{6E+zw)R?!0+#7!&4La+T^NqMTIMJ#DamH;)ZN|m*V
zWo^l_4n{b4i4|SRiXP|{rs{Wy^*fUFyY4%X2?&*^^uCLHbXJXxG)&42(f1!G=NWRK
z1;GhAmzp7o#Ko4saliJVHz|x^l+zUUX>u4hnIYkMnayV@4LOzcfpHW7X7dN8E%(f>
z`(W>GQP{TdJ+u^<2MjA#gSmRKWHI(;6(Nn)D;99-mdwkh8%}x$r_g2Yx>w{|G2<7=
zq_28m<Dzk4n^@AkQb<8yGP+i6<g2rq?Mr1i@nW_oHXZpH{mL_)nlplyXpc&AuYLwW
z*?c~5`Ap!!ndw3#4Yi{;tHRj>4-ZJ54M(x<Iq8550_}5#T$Lyl2c@k@=e}fXw@WRV
zQ-g@kGe`5>YdEt9QDa$*ygaEM!_AXym|==~bXn$PqdilxEJ+we*3P7{QSP$708NM9
z%6)i)u1Az_pT?e~<WlzqFjlB!_UJoDJ_BLU{n5;hWuzp2TF%28)mlDoI<QkP4e62h
zq9lBb=fU`c!2JkW5m;ydK0pVyFP(y4GKZibb4ixStfK%AQ~sBwmJk-=tSd7q6XF4C
z2!|Bn=mTMv94ax#v~+1uL0(4b>P@=9lW>@sogZsz^yJO_v<^eCo7A?xaqRlBM8{Kq
zJpHGyeE*eq`~K*&$(kWpr1{WOa<^_{s&2nnw;%k;L}dpk(Rw!&f$KM=>R^^(=dGuc
zbpv-Rds3BK#L6wp7n7BHU|W!2h(&=Rk`+^kjQHUC9hgngCsfvXK8=6iM<;xV`;y^H
z1z$3M$wGU{mAr_2K2n6Yj&WBC2#$Z*OlBi5aKZ-Cexp_OWsA<PyJCr{Bwk+QkLpa6
z?dD&x<hub!-8;T)nW%(LEY(%QbLR{(ZJ!}sS*lr`d4w?`HH;N~*}@xRgoU$bv|!FW
zS1@OpGk}ydLqg!h>BS;7mhQ=fZfv1C8_&@m1%qbV%#*CtxsW;QR~b=W`oI$Wtu|xR
z{kr)Ycg4QO^3*ovjICHl6b<@fjOVedBot%Wt3Z+JRi3!^*|P-`pFx^Dn{!4Q;}vVZ
zON97>D~0)v!>I!_Yr5jdcQ7vBl|6A|zT;^KEmPa9|He&M3Ntvb1w4)@Ua`T3paz)Y
zmRN<FKA)95wS|H=ZpmjUPn|wFW!9->#{8-e*BdD#B-F&YjKgA@;@^vi7u>NHH3yk_
z&YXB?d*L|2p_~V-GVKx}Oe&Lta8Dqaz*uHJ`M@(<yh0}hcaihka3m(GQTU-U4>rSi
zEW5Xd!9ywxhTkA;k{P}l8#cqt5A}s?|7VqagyhOBsCVH5NBG|nTx81He?d_Za#$mY
z)R)Rh*)Obc<p_mVZ2C#g%zaD;uEMWSaRhZU*}s?Rk#TuO24*NO21lU1H5r+C?iYZ!
zKo7A61gF^r!qJ{xtc}s#j97fM=<@`PU1$~&`lYq0(sg1fZjLCwQ`LQ^cVD7%KcH@z
zd+s34ba<;4TJJP&zT?@Fu5U@zZxQRaEWezr-+R@0ueK>wy8(wdmbWEqcg@@H`M0F}
zJ4FAEw6AIL`Bcjuv1Jd+X(*m|0U7c)zj5jMrBwY>V*OKTe@Du{Ui7a|H*}^NHi!)y
z(v7fP&;gdBe>Yf){^EHj_-obmb4PGoBjId<{jx+=-*-2EZ`V7!?s)d5JNi={hs2IU
z$&SMb?>Z%R;E!9DpSt7ezkUABiPLHCI@EpA;C{drJZ)ebNMoXL`>i&yaX&VYdB?qy
z`cz4eSkki;zxAnP$zZ}cC}Ut>q|x3B2S?$o>g6J^Vn~vPn1t(<G%Zy5!V8=56&l|o
z<j_RTooD*&+JIPW+id@3bAs)^uTsXZlJl$Nu<e*u{bxS&8NYw8Y)48eVVi39AkS?7
zrRT>P8voxxCI1TI4kGjo^Ra7}u3k!&_lflXNMh4rxO2{Xj=IHe(b1dscPD!KMgP8p
zv-WODZKAICyQSZ&d8g)1$?k-6ccNr>+TWM*Zxj97l9&O`+O(^BVODf?-D_xBwA?IN
zdI7e>x(_GYkBI&wh`#4<L_sU2T8PkZp86R_zxSE@aIb-L)uk)_xLGk>vjK;Fa6;Ue
zwY?9ud-Bo<ZhVeR05I}^5dZ{(gfCFH_K>fQ9O_$PBROBAh-b-nhMZ53^9qHLGeBJw
zMG%n$gDWO*axrBHwI@DtL)(&Z>CBQt^lu{6p4qx8nlDL|btZ~BMOznP`Sz8%t;kf|
zvSP+>ZYBzXrbXL|jeJnzD4y>UZS@Zwc$M2jtr$TAv`5|bR*6)}<q{Jy04}f*h&;A*
zX7Ptzt)UPG1>pZexUUihjE8J_)yc&EPFM%ZOlu9fP?|gBk%<GA)`qk?ci1j9WX`?(
zBtlO<iXac4SYgCID%!^g$o#`9cruUr^9ESfM(@yreZ)9)8f<l+%oCdkg@CcDCmC_|
z4;}v%ayf5aww~DOOK9EU-iVnEPy8SmvCYWyb($iCeG#Xz>6Y(~XLrK7TOK?Ozs@3H
zh;2b%wMv*#j_Drkp>*W~$zav}mmQ)qA$`u1kM$+|yZm?&$RQ0A%4gj;4>@FtdDIGZ
zv~avw4by)?4r$D_jFdh-h3d;7hcrYpA9nPMrvurf^blBx#yC@2ImIy(584~C_I&7Z
znVh<gMhV4uRgDKR0KtGb<F{*MmGC*r!_?duAh}GhpQnrp5Z4A-wL~k^ORO&S2(S`#
z8<l2QWLNC|P|Y)2KjzE>Rg*=JEztCP3*}-HhdO0N?bVB7`KIOP5_``i%Re#aOglWU
zZ@;oV<!E{jR$lz=Z@J!d0gC@{^Iz`#!OnMI`t#jM|4D%153B3%wmp?<J0`XrOZ%!5
zwLRE4+v$*L)3#LO9_T#YE=)Eax(foVewSFk>((cd^#|@YZq0~$=wfDNSIRhV%|cl8
zbR=+7o|&tun>%{XQ>})`3xjQZwCClg#^i;;=&`~tSu=$OS8P|<0=a?(!VI+2Lc%j^
zVieoQTqZ=Z#bt^OwmI?<5*ngx29;%I6dim73cqaCm(mq$Or!cAM=&T9opoHB_N>v&
zQEU3LmC<Nc&}iBs1C3Tl^x2%1>2Nt`Euc#CePf=*CKR88Ue0f3802O&okgeVt{O-y
zhtYLlEac!KY^4wiJc2*%q0OfRf2)6p(65_7-r2^rNZm7QxMG*-UzsFe@^hR9y#i}2
z)Q42>=Zkd?P28jtfhyQj`pl6J%;h_bmygs_`!*lQ1E4T}z5(hg1<W2sjSlVrd|@*!
z!(I!l!NB%~2{tZpi&d8Gi$d7GAe$H_CYQ*#gBR4ZQNH0W(~8Ti75$ZG4v>Wyo|!w0
zQwnYT^&UlNo-syf9x@W48j+}%aMPyR$iRr(hh*7CDTYxfBZr7RrjRrCPgqhy5rvIX
zSQUKjE`j77GG=>|d<;+$V_KlKsvA*|wR(S#l5iAJKn__>KoN|fVzd+kzHJmmw3M8?
zn_ihoiE|Xj&|o$v8Kz9rk?pdo0K~6TPIbBfEdwtHUlHeJCN6|$Uig@xH5;+crk-T9
zB46=8BmhiX22oMf>r&NQ#p<ndN7Hq!ix*))blED_ZNGAS?!f%EbXDilA+c&R=oyG4
z!8b2&SnRwRy;Ht1;oX=h-v~VUt;#nm->QAHHr238Y}l1-*qv%PAvT<V8G<ydf_u6X
z8wPGi-`jBb!`dC`mOfa_PM5U-J!U7=y<AK0;w~ueG~KGc{nGdA#SMdE)1U~&Xjpse
zTim^TL~PoV@cKXWH!Th<ZCgHYV~^OpBk9NS{@S!k2c;WO>bgYRHnDztx^ZK=sx?&w
zQ>*LK&FfRm2gK$B=|&uZ?-v_!UVcNWbx>>_gc`fA7sup%Zg8?)ZW+L{5w52peVrV_
zuR&7(K8-9xxY_(Uf+)#Kqeu8uUb=}*Hnt&epdu7gd)cr`awsE5!-KnjWo{oU@_(Vq
z*;Hci>^90^N}8VmRfT8oUS$iWHqC7QrRK@+(D<iOFsLXTNGPwldQL3s13jH?+AeDa
zmO}~3RBoShJeJ5RYf6=MiDg~MvK|Q8L2`A9j_$O-Gtsq2^zZ$cB$rB4HQ3zW1xbaU
z73Lf?a89p|2doqnR=d+hH4xiWyFc_oWve+|-JJIC##|~YUNIwd?g$j&z16DZd<~Hd
zL#r34lRpOG)s9ZeCA@x0VgF3Sf<ic%&K15+1(GvQefw2Jkp91gGjAuu#(NTtTS(Hf
zXT{<(cQSGezqynZ1wqo1Nsj&0MuA=XA+%xi7<qEDu`p0%-77Zc)kw0RIq3a9N3J}@
zsevPCoAzjw*=G>+sE~$4GzuLCagD5$9Vmn~S`y8`?rzAGk)n{jDIy$fI-pk}ys<GM
zjX7Y4qP1PhIr~3AS3?Xkli}>dEXbMNkH}{pP4pP?3=?O|6q&}Y#itPhf`Q>y*R$_j
zO8}E0_6J3ZD?&lnWbpgghO-wXfI1^&ThVJ#MCh76Zd6fg@ylE?#_iKD!I<gIUbByW
z9^-xK8Gc4Hsur~p%PU8E?Ww>OVV;(RRla5v*94<kkl;sxlT&mWG}{y)MnvufS@_Ho
zGL>IsKz)_-=vUb?)QEI;3-TGtfE{Q})C83Vqfi8N75$j|==9qJRLW;z0Xn}>n@qt1
z*|6&L5>r11Wz>%%WgT=H7zl`Tmg#q>8*G!X#3+pMp(x@Q^k%AgG;&grOh>b;Ntl{q
z^bw^9;VmT0QFRnp!5&$$Q7b;5ar+{+N3ilS8U)#MDfPz=yprc%Y3wiH>%i`kk9R@Y
z@vX5p$5O2)#MTqJ3XjkO%vN{!hs}EyI^O8H-m?T2Y2WSBa~?nsmv8=bs<cxq?M#<7
zrpp0Gp$py)9%fk=c$j72TV;v1W#bTzyu2%ton&Z2{ucEZp@KpyIXCGwhfnn_3M1zs
zecFpiMtrJ6D<-44b*XUKxO@ueN85H>#$j%~HL^-Sfa*{68}8f6z?32(HGc6GSwd<G
zvT~(03;PodeTkYr(YImwwCLNuLYat3RrAmRp9}@5_7PO9J+u+fv-(?b^6{rKpd5pP
zjI#vsQvh0wyakuV;?h>=D_Wqh2>nF-IbhLTgMcAs0%6q2ayenm+yMycWtYBYLr^z^
zpiTwis`*{YrL&$_T>&@KbMycv6|qj7>3(z;=|-z{l}43S6`|h$8on}1%U^?zClSLm
z0@n~wXTrw}eL$GZA$>soW-}FblKBc5elp~W!B4`l061wC%E%Q>8dbVW?USu`DGErp
zQGzPuRS+La{|f`rDtu$K8-+2!K{gcq(Br#u5m0n-Ea_Rly#3aUxN%TqH#@NTG6ZOU
zgIcSD7cwp;{4O~ZF@it#5R{`Gm7wS93Y;8H8AwT$Q%1s85Nz5#d%TemnHHGU$RNpd
zn2Xa9hd_klTm+158ZoyVWT{>k)Iz+kv;yWoY>FWdd^1i>*kH87!i=-xx?<k?O$*F#
zS{|!D1a2$NP!#54GT_!Kr5+g3IE=Fsg_;Q>8=1k7Pe|M_ui05L)%IO<4$(~X?3LWO
z_hMq?f@+-nV7rBE`Nbfs(iOcJc_&%bqwJDPCU4FTkHAhj&*(n7Ks2b_A1bS&L1~@v
z_bh0yOe~t3l4)de>Jqy%9kd=J+SVFlMtiCXtg@KzZ%~4KFH;w~L^Ul(al&mxWs`ou
z+?DD3JtY1ZTS3PDB)7PpW-!TVh-+4i^NCjrMQ?k$xSZ^0;}Z4q3es(Na77)fID$t?
zN)G3Jm!-%xXU5i1jtdO$7U6L7kBS=S`tLR4-gRiUwJw#2HC-T}?)Ge4K8zbllZ|`D
zo;^!NzuA}Q0S9ewy15;SPId0NAsk7p_P^0_z2h5QOYTJFR@hr}mZzL`qO)#c=6z?!
z3a(>sg2^$4e}DAA#WnTIH=_KBt$(AN;U#QC&ElSEY~}Oll$^zaOV#wnqMx>6C<_6s
zoF^a8Mfd_xihOBRv^S#+mG444mV6pCKzH(&rD-wfg=MkA3xOtSY-v4B7Mg@*&CsO0
z>C^?s&?H=sfp+BM$AIHQXj0q;L`gxn#tgIei2|^c$)1=AYTB?V25@X10{qo<KV>vW
zhtKa|D1Zwwx|eO>40B@i?8}G}Zs8k*Y4R};PSaUEi<Dia<dAV#hAhc?f+UcZie!mo
z=GrDus@h}Juqrh_oBr~Waw0zw!OEkoC~D=$SW%B4WV>la(JH1DrINwDU?neJx)s2=
z`ttR#lE;W(OBN}bF0H)w+|}n&rCnla7ipCqOxHE1>NbmYo3SeV&2QP>w51>~^dF&<
zigYBU0d@v!fwNRKy-|C;cJbn}Az8U$?(hfO_b-f-MZcv_+^O6Au5a%6Jv!Q$s_Ydj
zdvW0vA!haK)AjA?x^ArODzwK^RlH)fR=ckp!7*>#zy`id_k1VVEQ{5|Yq56AD9&%<
ztJXNvk`HAg{-~^1&_O;L(_AzzFV(9dbEVXke?eU-Q@z^=pF3>GLFf(}ZjJmD7#&VE
zS8%->A9!jRHR~-|DI_0`RQpzJ<im|<6)O(%ImzcDpPTcwEXKr=&J~soC#2nTV^`{b
zT11gx7BCdC#@xeDMEvHWh!m6`MWh%)5r5`@?>+~Ibs~=W(bSim$~0zVYJR-&AA#BA
z;*I)YW=J)0!jK(Yw$N!871RKGr2W_ctkDXr5%e{~5FNk}ZTtotRW{%hjO$envQBr%
ziBeojDJHt<2FIAa2*DYc{5Q?;MT*SSgga_XfnwYrQ}VG=`;gkluW^43Uxu4)<a=7m
zH6PvXV#?nN9Ko(cd1cBMl<;ytnAp89<w|G;I1ANCRjIsJ;k^d$)vVNQm{vK@_>P<a
zyh4Uti#&Dgww#T)GbZo-JAC~b;eOmfBV*hRYow54<&nr+cBr0>v6FAa?LB_9y#Z}%
zLYo@-<~7P(qu1n?pch(@yNPcNHDi>``OA<;nXpIHwhrlA_)UCUsFiPL9GecbWgXv%
zS=7dN!ENWe;dbyn#M$9{k-if%bu+&{V_tT#kiLwNZbo<XVDs1_`SKa@IxWl-(D(|P
z!RU*jEb%cR#0)7u3J(q(twCO>JDp&-gtLj`C@}ZY#jHqU!hI|1*@wMIDa!|lzQEmf
zc6Mn>luo2#x7$ID(^{C#pDCe@A;XFqu3Hgi+VXuQW6b2FJV%gk9crh`DN0g~I?++L
zaPf{~UAm+u{YZePM263IkO8893(Osjj=c=LG91=U-25fls*w~#GTHIRdT$i_dVVZP
z1u3wRXUL235Y*3kAf(Tqmawv%2UwReFIEK6bzVsoVIvv0?jV&)WM`C&6vUEZk1mEM
zh7X;1;SFSs9yy7jkn_lK#GX^<49cQ@Vo&}&NTK0<NRdYhg%pmAGAdNR{)-fZgRlqI
z0Z6|i=Rpb$Bh0Xu4;|Zl_V8m3YW6rTP*dfIx*QLsX}BKnz7{pL{;Lyyc@-DA@kTwZ
z>dR-lKA+|KjK0-+3*XVBmZSd?qc5LjdLmf!eRsYq%Vuq{&1#9`TU4L^8{4k>aZXC>
z6_CSRz8R7!!_;RBZ`N(+X4IBvJNf17h+Fx>n^si|Irfy=YITi1p<ZC{nfX;E5zK^o
zwIqBoo$$(e{-=(=UN@LML7!T6eh7jT1h?1|>sNjG)2ed}H-PNdQrcq!svmt}Q~MI-
zHmTuRslghNpPba%ddW&nn-F_)QWF$s5B3#Eo4*Uc<PHx{oSPm#7lK&>J`~1Q@-DzL
zI|QN}kR));q|oQ?pa1dP@BjS6-LL@RI6uboA+lIM6OxRfsVH3&U^+WC9F=eXYLn@!
zKcFg{tYr1P<$t8&iz3ru*jbz8!2(gLVPx0$DZLdO25dr*6yL-vyBmOsx+VKmGzgA&
z6nuZ2y^2tyW5egz?XI%Cx`DFG_p~ad5^xaynyRd)UGTyfP94y9;wax_1lPUsW0UGh
ztpXVHdxr`z^K@S<sR>a{a(W`(V2>u_qe~&+q+|22rkD{d{0-GrFfk$7PlaBZ4o$#n
zWmqVsVl78;U+l0T(A<(tk?>TXK+96tNzT8K!=&>D6d;S}jpSo;dc_n5jf}vCgW4%1
z=#?l=`3{8-@G8|RjaC{*?ayeP<e_aiBS1EXeH&$DYCse9sgRyDfHSpuafKkH`RJ42
zBq0bVupU5V-nF`}6pGf0JJu?QGE+tEVo`glXroxPan6#iS(mEWB-U(7)f^OSV9mHP
zU0N;Em~?Cr-d3@+72c}mIn!&NbVc18p6ecXU3cpn)2?y|f?O?24WhGi=|ZaapxArx
zU4z&=C^`>=0QIwr(P}^wHLOedw~GF)bg5cxy2_ub>J+OwS&2l%Zp6LT6jcpLdaCiD
z*m#iLzIL~68ySr$tC3I0-7TqKv_RsXEZGk6YdtHRs5acLTeDZJ*?YSzS#u~=b408;
zl6HDi&U(>VpK`W}&eoK(OLTUjMYSwbB{Eev$nyF*Pr9uq)ixlu4M3j7n${&&b)~Ad
ziB;R?JRkbXt{uC2?5?vUUDJ7UWVvCPPi;9O;{S#t$)2NR*1zY3SaSj<LSUKC<%SBl
z%k%o+mBF;P{@YE9!%NMnjy)p&w-T4@HuM1wh%nCQ?M|0gF?C(2qPZHA(AjpnDO;j!
z<8tub&3Bw9R?D5GXzgn@nEL?fkE_hD9ld&V(U)r2BsOeHHS81{cBUHo#Rj_6fYRM7
zgWd7h9NLId7gnM@rG3lQslGw6Z!qaQ44Wm*eg6Y4v?I(=eKbsw?vq;!&sO)L=P@y7
zVIgFeM0tjMXPoH{s0<dfSr&+@5IZ9VqQK1kR^78^$$E)~;i-)z%#OHUyruw|kI}5Q
zl9iG9jY=``45LE87@4RxPs?ECBoj-_ZnGS>M$5T;_%6>31qqe<*`<7VEf3K+bk>wT
zkZ|%-gqQyh=m`*DR^?V5+Md|HBRmbCRB)khW^8c6ukQi=br<^9bup92vLPa7kCd4v
zlC2PtY3Z|MeK&e>cxsBQ@q(ESYsu%wM$W@nZWMb^l*};0jxgObIyFhwr`f*JgWZe>
ztdSSPp$pg*t-{OH2GfPH&_%W@Nrf<M8-a;m$&Q^SHg;}$aylx!M<CdGaafpuNr0$i
zBA=>~`YkHJ8N~q=*mZ`%YZ#;c6n)_!Ikdk^hLH?CRKF}+cgeTUM9)u;j)p@sjd>w)
zRvMa{(f^L}NSa=D?ab9PU;E@0J2V#i=7#5s?m1nrAG~rf?R4S)U8iT>Fn<*4NJ(cy
z*2^j`fI}Yeq+ASE%n!qOXaB-WNGAihq_YRn5Vg9M;<B>md3k>Es93sQ^!6p48`RRB
z#C6<rWzPcto}=-u)A#zZE5~5I5vKU=RoDEKoiK27-l91xc$G!P*KAj9xEkifqG7Qw
z>1|1QQQG>Xcf(wN+T)$GGP*NM>POR&7S`%sOjI)LhAZq1;|R!oWF^vBBV<!1T>+Ag
z@<HQUS(=bf{TSect~LWvmivGq4z@a$8zQPSk_})duN*3-5uo{&Ac!MOBYJQmOe3{W
zk{p=j@+RVofSZC6)m$$dX34&oB_C6MjZ&BrEiu<&5e(CZ9wrXZh!8o9Tq1k(ks~@d
zU|*ew(f_!*p_-Zh`xqxq9Rt=T!liPaxOV;xDNN&JEGFmCQ$VWsf50@pMkwb~%Y;g4
z0SFugywUdnEZK&Bav7yE@g4-GDU1<=PXAf1>fRpV8}K3KCx`)m#>kIFAas)`4^0ap
zO*v@aV&{+~>se;(wQq}z<^C}x`L7iFhvfTv^2N#bJ{(nbV*q~GrWk{n@*q1l%<yjp
zM`Q$*S!>5#R%C(vE0h?wTg8HMC<8JK+~iZ|@ZkK10I;MQHk)bA3u<ywy-UER9c^W%
zC~E4-ZiKT!k(#|EIveH;>8hGJ4@u@;T4+ercK@iT2Me~cHdWanR(34yx@EZ4pV<41
zxa*lj=ZR$HNeCD!nGoUTv%mZ48=qdNO;+xjJABtyzF<#Pw9zf^MPfzgQWO_vBz+qb
z&W&^Z^9E!|Rd$M%olA#PUAx3CvIyL@=XTNU{@X&b@-UT&3Mm0@i(2xf+INfXy8%?H
zpbt_|<(@lCqKjrNMat_3Ok6Ayy-kZJm#R|j+r{?nw;ILvr-0X~$?M*zyk5DuBU#x)
zlEP}`c9tFQJ9}0tx#Hf3HC$OWNl_L)x7>fHbPMoW9F?<H%IvX6%w`Zwao}(DZ{Vzj
z*pR&<ZC0+uK*R}EEe$ciFgUpnP!l~35Qxh_gV=4lrq8=F;2%OEYExDLHu!?iyLI#e
zS9XxHzeQb}r#SsYEU#TZ^aTTL=ZDb%{gg6HejcEJ7s#O*4Vse$uw+EL{tGUQ7>oMD
zpqKp7^OMtIvZL>xo`5C$k@IA)yQkeG8K)+vgy*P?{ct3Ae-wv>NF_|R9%z=u-PF-J
z_2*i1tH&`>95f2Tn0XM_0E|JEDWsesWo8gyu_+Xpj0uwynU^~BJR#RV(8{1Ch?QaC
zYMb6TeEo1@-HuxW$(sKEx4SP7ZsR)h?8ZUjA_0;BFMuR?fZ_?>qQpxQ4@uN*OP232
zlt5jUNV!2-5<@0RYNm$Xa&4%YWK6A{GF+RD;kC1-cT)+ync7iiH#@3is-|0@0~nFY
zoLZ-LGF!6?iS#JR?9}e>d);UNR8w|lGxNtbrPmML@4bHg`n~tv-$$g6r)uMsqOw<K
zuFr)0OEr<AZnE(6h}N30N38EhAmCMN5h4QLDd>v1s$;H75CEjw3n~Egg{@4q*4-(9
zerq+U2YZ@<?bBUY=t1gdFB8jlL~>IxbgeSw%-+qP0WfJ2GJyGgOd6Vmvb{h+N6sS!
z#GsOuI4~77mFlkP_Hl3|sp(A!bs4Bi0x1H;azxd1=b0&9Um%M;vkkIkEv%B_Ua3G7
zy;cq_aH_?<O-|}lgtzLnF<b(y;0phfJ|Cl?hdPU1QD?!Mf@h6oM;JYnTFi)EW5gAm
zraWAY8>1?y=%Jv3<;E7%Gw8m&#MEUaBhw5@nPq77DM6VzD)|ZJ7*}D1a>T`uL01fS
z;jxqHj{I-B${MCs%Hli45nPh^FzM#s!5}f?iHYD<uvn)W=p=3KA*7)8x{|%yrZ2(Y
z&|<oWM%iMr6)n63Aw<Z3+u9l{C|`U@DyS80wJff<SF(FWdy{BtLb_VyjutgaMUCP8
z;<o)#(}76QL0DfER>E|)uyx)FODcpX{8Gf~UVQPk)f;nqqfVdX^o34@Yu;;oyD{3Z
zOCp2jgHpr6i1UzGa745nfsD1dCR$W471e_oQPhM6i>jkVby87XI6r*sy=UKkHrhNa
zH4jIdk4Vi&B1MnQ+y1JDB6(F<KI$0>_s;KMY>L=wmm2|q%pQ2QuOMwdhbL;UlweR$
z)fKVBx98Sh-_OP!Hk5zXZ5t{ysLDAcr_ETmv=Z35^&`c))pTN;QeK<W0TrewaLU$>
z+UlVtTLD5T$Mn@IuO)XO6j7_J#)^e97=b-@z``esW<DI_qPDtIq}g^c$;rbd$Z@VM
z*-GjRH89ZOw2rk<;dhjRPy|!<HO*C~s)Nnhrb&x{9Uu#^6zBk15LcY~<{*}_b(Z<<
zL8M}voO|Sx9m!o$DXW3ns=dsc&DE0V$b0CleFon_rrl*5ty#-gzd$jlnH|;B(=-U|
zKrCcC>Cl{lB@`S5n^bf^A9wQEo`>@}cd~ryEZ0kd`?-SI0xf420W;zgD`Rs`<*BDy
zNxsh`$Hh5W{26bH`GE+`E?9ZlX~xVsv1@YYDpSu%=I~a|S;uT%@;y)SGa#wv^sn53
zYM&lxy>;e`N8}Ah4q63%0G1cyBq$-3w8JSer5y?-Gz}iFMc(YZtlGw)N`6^Gm~EM-
z&@VZ*FRc&3MH?zfI_mYwNUy|DADcdNIi4Sc_X;qNVKEK=1~Q^wg7VPXpc;&OFZ?gM
zkSF{fYKQIKjEl}Fh!3dHyOjI`B{c8?ZRWyXQnE@3W-cfAC?V<taZN5=h#SsNO`eXI
ze?|nVLKz^yB@gHkHWV_E!QxHD3$^1`#VzvgFHBvA6FxbAatbk9)c(c|>>jihah1BA
zY&@kVnY1QXT=6Nvb!B3wNQs}ju|on=XH~~Oo{RWn#F;1N{&?_(cz)(@HvCR{<i^-G
z4CDn#RG9qWnP-`2lY(|~M`SGWGoW2s(R|G4;NRkt0@@)&hFA93xAbhp4a~84wYMLR
z;a96_-)elbF<LbsRgrD`yk+5;n7e}FN66N0M2Ufy`|R~+Wli{b3*7fD^oa28QP8@y
zPbwIQ*mukuG%v=$<}T}$$~s|b6m!>x<|KDl)ZHh!`yy^U46Xqi#6|?6?Tc0nN)?0R
z(9uW*Tn2i;0dDLRJBNRUP_4Gw`CYK5i<J<RENKFbRMxgsi8iBUy;50kq^y7bkZMVF
zGf(mkMZJ3^@7{=aAG3XHh!(J(=1Bz|OXs8lFtl$MjEJ@ov0!91)9wzzfSrx88vl|3
zQE#eyV_WLT0?%x$%3sKZR%hcNf735DJO+OxfU~uoQD3j*>s{V=%Wx|Y@f{T%Rjbb0
zsIx(GHiTaioedG^)~K^ra`r}?{ZZ$z<Q$GTci#gC$_HHA+pXAIKPFY|xCy6u2N!Iy
zy3Wv-mo3tkLHN*KwIRN)GwSG&939jxXI;!$6?6K)^MVzZK6^{<JuW*Z7m+*@+qp)B
z9odJdv$aY479kreO30@~ovtS_9n^#P77Wz?SIiGaC#ttn8Tf;zGVH*%2;^zwk=&xe
zVFKWg4=pA&(Rc)w(TXKmE_K!hySS>M3IPRI1(65HSNTd>oFwRFtK!$RXOS*BZJIdd
zOrOz$W)GM)da?y`S_`zEHyi{a)u&nTMk)YJ6;wf)7O*s_BWz7mk^rg!psQDbsBP8;
z5M&r9X3`L-TLdb62->g+dMBqYoFHnL?Goux{7C&rg+3cY{K4J+L%_(QmPYJA3T{Rr
z2Gd(4kT!mHvPUh~>{Y@cKJ@Uj;Kok{&oVnKIVK%==!kZXAZZAlCKulbA)CF&z(Y!Z
zAQ^FN?54M_57EyCn!J52@)^Xr+94%;9D;?hxLnxAy)1SsS|MS;S%G-_7a^KGi%0}&
z2RFWWT42M=2ojeJ_Q=EuX(~|ZJ;h7OIDy&~wzVt#H91b)nF;TK0|!%)`D9ydXhH=h
zUOIbn0)Re;RSGJ#;;uANc&bk*1z#zukQ|<MT(l|lVEPGvNzndRl&hp1lNzfw-LjLT
zpV8erNZ@b_Krx<A!tYE;f85TVCcAoMamsd}e9}xnV;_=x@b9T*Kb}ia6ww43h@|St
z_EHye@d`3nV^50P=_{q-34#f)^pF*SOfm{txCeL3niQh^5jKgAd5ECr3VI3XS;OU5
zMf2(qAbmdTj<a>i8EqSs+6E)ep?Nb{BZbXTSFhyi1!#)7p@ZB40|TfxN4?u6?{>r@
zmsOq-(JETiFIDx!sJgHZM%9IudCPhsS6cCg=Y}VA?yader<PBxl#I-iGb`8-G~H+l
zO-Hv30wCPlx>EZ1ydBq3y7WeA=+M&PNXhVgE~rSj;w`1P>5<ZoXz7qtI&||;r1U6w
zrIr1#R*O}&$4beLyvhP_4?G|RBvjowyd+07l@<Tjp2C3rGcyjgnTv)r<|24TnhZ!|
zS{cYzAHjf3iv$h^<U1(_q?SDdoY-Mz(gAA&qZU9*ZrXFk$&R$Pw1ArtoS9^-b!h03
z_v%Nr2!4%|86iRGIZb!~UB5@wVj>L<+EojLf(|#q+)43ap+&8#Z)YI@2KvwZI->ff
z=+=OR0dz7rwZ3b8M*;m{-Kvylz?K}rukk0bsZiv2aFucn2?ey*FpK?jG`=c&B0QiQ
zn0yF~jvSb|dnwPvn$J-#fCL<*5z41{QEL6T1H1Lq`Ijcf0O1(@ApDBju?oMYhR;&9
zqe$XrY$rh5gHu90o1Ca3&x9jsgwHA!K1s=Ms0l@FhVg(m?LPG}Zkf1300WVn&ZOlp
z%Y;KEZBz7((vf``)z{=5%X^-T^?!ceaayh4r!8zJ-hi>Ys_Wlsc(Xxl-hImusX8c{
zDn6Tc94leFjabvU6o{1c&gVW{Wz||GS{uT%V$0BHv6rhwtN)JO`Sq{7{FTKouh{*u
z%9dzlw^Z33soZ`&_mj$6@{sYP@<`*6AC)if3h#Pv^zG5_?!Q?sH69U<Ke<x*)I#nm
zd7-0SRdH<r8{Ze+d?8vpDAmGq-QfJb#nKq0L2Xh=bF`#gDrt|Dbb@5?wJe>xIU`lT
z8<OV}VsJOas<wl{9jj<2PIqM+{2LLc8wfQl#?m<5zrJ6|H9f}5+_Q$F;Vq_&O_L@*
z+cX!Dd6j%pfgKH24hU;vzy^3Y7a~`#x|eu@dcglsZsQR!!sv*(3MbXpKHNr4IDbV<
zCLfeGQ5U%eR-0DGh9jf4foi|96D$cG@WHG@pz+yCc?Or6yGw`_*#yp^CGiBVqQu`*
zz7|a<ZA)pM!!(|h>VT8MwXj)6PhOa~nzS%g__01M;YAADP~1Py^k{=$4ROgsb-znf
z_#!$)S_nn+mNh^?@BHX00uGf8N{+#p(-Yb!IsL0!_7kk!FVVjzZk<B1V1Z+9M@`IL
zEPA%xwr^X0>ee&2`=5+ym%Qz$0bDNil4lIWl#u0X86O)xkw5m|AhWqg`T#<J$e$CF
zL3a(ld5@CH0J!g%7#MQM0w5M<Qi&S+;EY#B>HsRKh31tb1&6S|r|a>kf@+xyg%<VH
zA|^^Z+LTRXNw%RO^O#kIYNT_Vf?cyJsiAPTo>VwnaN<fcMRu1;69@AI(-FFcG;!AG
zRsqc(bDE^Aj_wyx!fXkM;U9O%oSGDFDiGU;QL0*kWQUAare?&9Pjeb=EcPcfW4?o4
z!Op<7gADk0Nc3;?Ce#8)AwIPt;2WIcxDdF?#1RvuYz+|~tLOK|>_v;1D2Q-X7cQ2{
z+ZU{{>MhagKB>A74n(U*;a?}_@V)C2TXsb1cS??(qQl4PM1G4plEatC!{cC;=72kj
z8d=>0<D(vwXQX*4GK>qa-b!VZSR`-rOeuAv_d}r+BRjK2bG#nL;8$qGh}6a!vlm3|
zRT70btYSS&u6;tx%_<EPcQOY|7bXITr4BYDgQh{D5KqnEGN?%9PPC3!(SH?4-5hzb
zfJ?Vcc0=r-GPi(*P%x6~ZAEiJe+V<LmF7$vCGC{ZBjxGYf?QHZN~;jt)pC+LtJCOr
z@L@HnY!H!9whGL6G{;W48>Imw!~}5Ffxu>>wGnX;=0{^5@BG2l;>JZow73!41@Ks2
zVj)@p|0=uSFzB8c7r^~NR0Jz>^Es&QC<Djq;aNbt4Vwk+Z0M%d8KNZ-k@W;2WLNeO
zZ2rcXK9#!MGcnD`QEcg#5N=bpr6DRewYZcRoN5($S~2Yr(l-G%_7j}qW{}~NOj#M~
z(NmWv1V!6hCzPX`@jTfdJ)+i6o|au1Zk(BM=HvxVJ1#(z4y9(QH3ym|X{ylQ(s+CE
z0GOY`UvYWV-XbB^oEvUA5V^4y#0`0ePsU{wIx!P6<XSW;Y%I4Sv)PK$+<*Bb7MqOy
zqm#!W7mO6J_b0~APn|}zPC!v6*rX?C#Nz0~g-u>DvxNurio^iIl)@__8XK*`sJ%_H
zw=FeC>?yH(_T`DQr_Ugw51LjFT4?MI*Ksx7kt!BhdO4+nmg-p&=TE*dN%vAry?`#I
zYzA{XIH8?`Uh1?Z*@INcX_X4mqCFH-OC80nKv>Jop8)gEIU^M5n4<@VRNYeKW1wBI
zc_7?nvZq29Xd{&snCubcSlOCR+fC<GDkZ&avbBIIkfwSE370CPgUZ(so@`)pFZHVM
z`0wI5kTL3JnfnvaS*o(0mZUEEow~rUNt4G}Q;bHQ3$VW=;}QLS1N}CpMhtjDc-Azn
zG8_YD_3iQQb2d<@8siCBWaeo61Q-H$&XXF&WKK(Bm##X8THa*Y)LFBZimmY6Rj!(A
z1CDbU^yJfcd!Ae1U$I@$Kh0g{VTTeoOpZgw^+#wh18<{sK@!)s8YFD>t9vOfC`TY|
zrBlRS+U<n@f&>tD2Ubv!>L^%m76?e#Kg_ggZe57H9vD;BXv)u^T!lg?1i=HqDhILj
z>W=F>#OjVnL8oZzl%Z{wTv5CK4X8-{m$hj$`62481O(74`p;|=r&j^;kNKPND*5Qw
zcwqb@Y-Eysp6UPXUTZ^jJ-wnFW)J>07AvoBj}~l^5bh}}QqUsWS{{aU|CsMHQ<82}
z<CpDkm_d%8eKld%h8NAliz-!=Z!^>P+r4LI?JSKiIS?t>A=-AxUy}DT@#+lRucWMh
z{E)G(<0~??%(#Q*Yk){7obd&MvV*8WntBYaK1xN8Q8G)(T}nvw8qc1b8as`b7D(hE
zE8Z~hY)hYfOf@IThwaCB#BIrM6*!A9orAa}j8L+NZd%EtM;RLuBC}pAzu6LCteChB
z!2JSsn>rsivd+h|5Ep@{L)y5~nHvfZc0bymsr=00{s)4ANAdQs|0!}W4!<#aV>Ifa
zh++}Xwn)+Tc^g~=n!8>vNN_lP+X+X3<}QS2GPi#F(z{2$=lem^`%Pl=fV5=?-D#ye
zJNa)9QR$uhyTf#GCqg_i7ca3A_k8YuD=L3^&;0O0<wthcLg1CzRfjw3sFEC2p`o|-
zzPT4lIM2NO%(DKSvE|2>9~YZ<MrwB5Y!j<TK6LE<D6cwnEZi0vUCHyWR#d%l<;In;
z;XTXSmZgq&?9fHkiFLgQg9V{paZTtsD48x8@3=}SqS`md?l|kizNNesX9qmi75Wy&
z{wl93)cIjv-D*kM>nB4kk@9x2yi+XcTF8n4*>U(lGlX6WzZiPqLq~hU%@tQ9$~kjR
z)Z~^-?x?9wGS!9ME2gfP$rd%0NT!mgsa7)8hQ9ovY3qYLJmLD-Zy4X{KX>MgG#h{1
zY#iw}!$Z&n<TK|d0x%{(sAVwVfw7&R$S_AI-UdS}1~J`PNORqJa5jK$>d*5RbaOB&
zgV`$XZ9Jggt`lqoER*1BRzF59vBR9EHx1(!+FEe{oRL(L9RZaAn{hR*EJ$jg2J#;~
ziy6RH<sRiGco@Lq`Q8)?F>BU}4wLLHd48I;FhV$M)}*CmlG05TnrFePB{E(UXo7*N
zDV?<7x`ur6RN6aE0!V8<JB9ktvzc?@-}$r8ZSrgtRbcOJ{wI0wCcG6xhJM#?HOmKe
zKpL`AGYz&1*4GRH+qA0ful>D}vow%{(z#%X+i`Yif5X?fZ>6Cvcpe<+q@K9RjL%Cx
zA!Ekpr>+7idxZ2D%%y|M?6v}dvjN33ry+O+zsJqmhSl(d$yVobX0rl3Q|>a&B2Ok>
z0Vk<K!HE(-mz(PKtTo`m8yBWYp;Z=tpa^%0XLAB2IG4`m2HZG%zNOAmAfSgcMj-92
zQcnn!u_u(GM`-6;s`U!?n5;lK^(jz6{ex1RJ>X?IM_TPlrM5j#m03HjOtn(R@rW{M
z>koU_7q#~{EmT$AJ0LPj-|aG77t|z?@-A*J9}05S%7&MAf|8lKBf|VI&D}x9%<#?X
zFwazkFa2J63wVcO?RS_pzR(TeZ_4cLRUQ3pM6_S&m(lEMaF&0&_AYbury%LIGk<MK
z;s-~-B$$@j4&HI$<Qe#bJ2`zxnDCM+f>%X~yo6^2o1nixev!@);Co58E$B}P;&%zB
zgDE`&dO#Ak^>{~5d5;N~Ca8g_%j)&C_D?`x;)TG}<w><?)Id5&WR1WOnj|X$Gz4hr
zg(GTG?}H?NnoJA`a-z*N9SSDNf=9%-=_q4|j2@l|^#3y)+FU>HK{8hN?n)bH@X{EO
z!_0|@Mu;1yp!FbZxGEec<W1k#-8y6O&U%m1XXx?bLVMSYnJ(a4;J0C*t-Xnr7$&24
zTyY(RPuFqbs`tcI?+~~pQ<G4Y>zV0m{(m?!=pt+gTnGNI5nZ$&=mXJ4&trpN_PYEW
z%=BOrtNUaARUR8qjsf)JclDQf=A~7Zedyylf2;5psLsqXGrirI`%X_xLYyZIY$Ct7
zNE3K0ed?yjJ+<x^h)$qw`>)BYU98{#quuZK!;ky;vUB;xcWZvM``1jQ^0mAI{+9t1
zqk(Omv14G5sAK^KQ#a7bE*>Lik7;Ax)ik3=*%{-&R)71cIPaTr$VF1MnS$ppInDv`
zlmQQLj0C6s-h)txz_+P8I9NZEHPF_D+8gfd8LVd*|4dQ(tYNc1fO+5Jt<Q(1=ha|b
zcXmp6f+&cr;B)}%0z?6gj4(>qj8K1^I4}Gd^GhaT;xyXK=<Pmoaii=a66|1^j$tn2
zVLfwcB5ojOmvQ4|0Y&NyWCq*gRPHDx&r`x4Yo8L%o+j-h_#<M^x5+Ls*%lIv+t?Z8
z($uAkL79*_g1T@5K?5v1o&Z}@nV|4AM3<q3qFw@Kj6p~F3E?EBFsu|1SDOvr*o6~n
z_VkH(mb@tl&*8;_#BrdFWWyngd-ETjJKF2k|8T(yno)a!OJC#G9Gtn}uBig*i0*Q7
zIXQ3t$XfJKN#$#$^Fy!fOBjyu=H@%LyoLG|n+Inxzjwvfm%ISm*!csiRW&hhRje3d
zQ};cy(UUuW0LHq|U8(4lC?3q#>(&Ls!bGgB>Wyb_Jp0=73znF}6S7E-1_W@+;+(|_
z6Jw>I6J`(aDGZ0gQRjAe6o#qX;-xpfbmL3meapr_wSHg~i-$ke>s*DXR#^J#*!8i{
z7gk(UD^xByTcgfy$=UrmDji>OHBqHP$ypb5wn)yF%`3r^KxL>%a@I$kt$2o3!FB2q
z1VB#D9cKwNUqkxEhS0uugG*gM=zYI8(z4^GUi1%xh8*E55zH<;EPC6PN|#6ebpHqY
zm-`cXzGNT&cX~Zus|8A(>)W`T{M2w`+#6`P>s~p$>T8Sox+P!t&wSe@N9BTfacjJw
z<W6n9M0)}Pr$uV_FC50$c<REHx7}paQCc7FlS;amJ8l;btd^B0vN=};d@s15OIs5<
zy4Vt~_>+R=<3DuYd|ceN7d;&1x5Tz=U78ka`<92`5-~I(mNtcVC5*a~mQVEtbTN;s
z?SVldx`-apgm7&M>qTc%cxcJCd`v`O!2F>V+c0`j;tRb<Mv{A^;!X%QiYr6I_&GnC
zS;@RyE4J(s^9NUKLyx?}hU6Yur^HG;q`(v{X@WK{j2=PbmNhNtzhSxKDp_m_>+yA$
z_?Xl6>YnR+7I%N+Fp<d3pEz7%am$h|{AIClV8yZHj>ENZ>Ki$%!I1tf%bS+))NOA+
zYw4R73|-~G{Op4q)D&G!e}4~3Po7PS{U%5fmhTJ?9MEw;uHDs+)1Q|N*>U<wUH<;9
z`k(YvBLCB^#{E08f7+Xk{9oui2g>ysu!#8Jj8Og_HoA2Fdw>Vxtts10qKg_xIV8xC
z9cvnhr)oV9?htb@56=`p@H8a7DaY}OM3|YDLlpsWh{&tN>yS^+8vD?7Iunoz7_aEA
zFo|>^i-_Nouqey8pPjr9^JtY=M@8jG_Ab5dD^D1>fC)l9xNl@gyoFHrSzVgFj;7U3
zzzQ8Ag=O%WWph$xF>V@a!?@~5_A+%2<h~9Uk*^!UEp^Ncs0bj*%TBQ9*NmkINf`ux
z7hpvJ4bkzScic<-GyDK{lTy&km=Dx%hMUmnskjNqedeV@LGM%jfR&Q+L%~)GGq4pf
zZpQ(#AY~%uyf}X`L&o$puFY)K<gPI>8go-bub_dR{C*~SQYt$&UTk}#`$qR0+u`9@
zK~G9Oys#I~VOTBt@dD+qpwDuS8IrJ{e@1}*dvt^5Ci8)Nh`AL4x_N;ve?Z9(Dfy2`
z>Wxg%1b&nlJ5h0F%|I~Yh{p33NIMaPn<tVr1LVR}h61gFOlJ$42ZTQ;5MAb^67nIN
zsnE#9voR9T^b%wpuhioegT&KRhRO68mI}QUd~jm>3xp~NBtm=07Eu;ts)M_UlrQrO
ze3gd#Z}8qskXh`ON_U0>?@hfuMINO~cSeeK!d{m+lK@0fcdO)X{h7P{<^5n$`XFF_
z!*atC>Uhl_=B45WY|8fHP_6_us_tz!E2XC4h1|uf<mlQ~y0~4k`9fzRww9$f$<~Rp
zdht}m*1Y8Uf%|>;e<+h|11mQ2m+R?(9NOI$^EM#@&{CdM)xLBZ<{;1;{iNI%3XqDG
z*fDZ*I#Pb%PV&N1-%V$vd^gjO=$5LxV>NZrn(b1}c3=@jx%aGA63JSXfZZ9gO00f)
zul!eRuhe#>LAo=aS8|z>-H_7NwcIoVa+n>Y6UkrWQ_KL;lY#cAvcr&84lI)mvUM?-
zA4V8Is5>0WW`W_CESr_KA0Y%GScSZn-5{=N>_jPp0ko<*hY-3_+LhXGKCLnflPm<m
ztzA+}x|@>lk#}s^)?p^n0V9eO<0~7woXXyW9np3uZe;u4jOU3-B`yN|+Q1QnLbc0;
zUffCg1fUxs6JQ#cmuPEb8^teI@dUQwe@UCK@Sl*x^Mr}ha4SKo1EiLI@%#joIxo>O
zOYINerqch0N?TA`F`vRN_&zSx+sLIolTJVx0a5E&v$BuvW3>B_(WkJDT1YjMeP%q!
z*8jhy>+6(wk-#4hliU9k_2Lc)G2|8%Ns-*EuVi#BZcF#|79_cQ62oVxz3?HL+QibI
z_JT(^j(eRphmX)8goEyysJmTqw=?T2U)0qgxf-G_zvS|VFGpP6NiC*3`5v(XCP>SD
zV%gqEK7}~`q@q^b(k*U3EI#%`q~bVqOFn8H7G1EOy6tMZRSokkmj~`M5EJ?Fh->G(
z<&z>rHi1)o_OGxaT39a?)+2n595EUS=Li_-ZVVp>f`7+ZE>^V2l)?7`E6(18k;|);
z<r7gyJ@y{4p?}3Oz!3a(m#x?`Zv(dJC=Gd_?J1gMZ_ych0nzZZAFLfgvbj#3=1yQh
zl?}%%e~Ps4SoFuF#)hJ~V!bea;l%jZNqBykh?i4114TP=?8F2%`w4{P4vdpf?c$jr
zv|VUgC>9oDC*U)Qq;sS}l))nq{srd7CdLJie!}<ZTl>)-sazeLpH8ZK__3cy?FS|M
zK}4*%r`I_wv9fA*hJClPnZ_+Cmn|8CN!t_sUps(gQ#BWKdE=qAVWiBwGY3+584bj%
zXf6jQUOW%ijpL^$rvRN#Vr(xG15X*(q)yB$D4&6^{7V|N?oIKPN4NSz8n_y~K$@;v
z)GiO(W0D<#ehOhBPp~IBT-rmlj3zKdnr@sv?`)gXr67%#7m3smlJ+NX^o`?=-($*t
z%W)}~q6te>c6jo0WXtwDv~>w9lq@45soumzntMV8T8~#U{DaMWcp(G&#Mr2^(@J@-
zd)pxUd}cl&sU1WVf!oZnG)K#sO25K&`hJhVHy`!1oA`Wdqv#owGYc!Dg?_2fA1&M_
z6>f_b4oii@h`j;h)BYR%VRyvcMY~@+6f}#YCZA;Tt(aO6g*j>;k?bSl?&A^rlcMQK
zS)Tx1QV(?*{D1n5g$2CrCZCsi98Lec!XKjWh7b71pZ^0s)ZU-t0}9`u4jjjT10?@X
zOc^N5K-K&hshhKDM7l%uEy5w3gu|53?hXSrW`KU;s;n89^w)}r1nH5n$R1Uo288cZ
z@;~S&b1(7*%8k=Crm((7Igr4Lf&|k=K1n|dsB>eKBhxRY*e(P72Kq@<uFy=mpQF8a
z7Wm>&iDde+0;D0F&_(x1nNjGW94YV#1f>L0Vi1^a#*37jrG$Vz0|EkVYHVc)G`hm4
zRO9cEFukFjGHSqRBTAk(;KpT?Ll6jH-er}dp=8zQNa&14XSgH5;j|>5mOE}bKj^tn
zSJw21R>O*bK{v<`^Y^(Pqa`$xpwn{4r*vAo!n=)m_j`(rrHS?;<1QY~PZN5|teUGr
z$0T$8nvs4b+6#@{F?VM|kMpWIcmC4XXJ4LOJSy6~lDTpXfy25Jtv$xtn0tFdkF!P*
zTuofzyKoN{X|PmF7?B6$uc!`n+&G)are9F2E?Yc$!<;bFFAL{E*d5B*IE(%3o|ipq
zIrM9iuTA!pGOOk-;Tp;8Uo+CL#1THnSh{>F!QpfZDjzr{$_tIYaAAVON$lLaM(0E;
zZ>$cDklMyuhu=I*F(j)oPJKK1SaaJwtJ7GvT2TCI-}SzP5qb2}S;Bs0(=QWO(Y`b+
zm2XQRiewo&T3q((?Dg4DKq_iTP+j!6pd^t)xm>01A~bx>jcazg)?~tm$c058LZ~?n
z^bSQHY9L{xA9$Gjx{C(M>{-iZ*KA&6cW7_;iKPxOM{OV2#16Q6K@8U2YaH&}8|J^r
z8=J$O369P;5#Ei?_lNZ*M$7%J#m1KVoqCGbhGh9D#eO5L;;g*;I)m{kUYRMBMaMI)
zuCoGc?Fuv#>wk}d4dK7jV$hGDI4RKXDPVpg%nZCIKp%uz<@)IsTLxJFa-h$67Vv*)
z@Ct+j3q&dj#03)wofAk0G;Ra$|Ke4@Qf!zWVFWrqaYcwy8CtyX(L4p2lz(zkUXO+B
zr;OhFnKMn|yuiytDlc54dio=y2Ly1a@D%kH;b=r~3FI_TAc{kd7vNXu1lm>Ng#_4?
zEB=)JvmC{xfJ*pS2}b#hO<b8cc?o^;pC7-9=KXMNclIU52$J0|*F2&ut1^l1%Wj*S
zwTjA5A+4<m!7nRYje&lG*NVbTyTa-O{Y(QN4nQY@0#R^6F(qt!Bf9~CbUWkKn?6&i
zj}Xd&hl-a`@%l#;$5XLUCe^lOb#Kj)Qo1*(Slo`CkwKOB5p6S)O7Kz_9#u>pm`dty
z6_vHiO{&JtLN#42*l^W9@lsHzp-MiwEr0*ihsQWVkQ)?gsl*ma>L{tFqyb6XwXr>L
zr{E#3kqR_X(o6~A@<I!ec<DpsWw$W2R9dN28zsbZ7CI>Dq@)W;yhNiW1j|%$E8Wjw
z_kkb79r(!!2CkIJn!W_&`J>G6psX6n$l-V;tFKX(nOZ}RD+t@EGd+|*Rf>xjvl?vN
z{j!nASP=9R#Ja@S6#A)*QT{ADDDOD9>#4EPgS+;Oj2#($YUIFC*&jKNr7!3y`2kfM
zqU32x#wmH65(c`@Qtkyx7ASd_5(aUPQSMbrMyQn#<-S7+gY*B6a!Zu_ijuulgz#$N
z1SMah<eQZIYb4~OMPWZcqL0M`Gf-iXKsIfMvL(rJYUN2JaZ{f>?FWP(q6i9rKt~2r
zAD&-#a=h*5oc&|2`eUwJ;<`WP20r8le!-RgoXh_?XS>U}?s8Q~KjwxcZs-?W)yLfK
zyWF0;+_t;i;Rm`bUiT@7<Uy_;ITHz(?oxs72Rh|KE6Y7FrAnr9*{H}N`P9Mj{dc+M
zyIlVRoq^Zg<B&YCaQu#6a4i6ArRCR*D_kLRInHb5m?i&Ob}YB(niUsZMIx8Co@L|v
zLeH&pIIWkP`J;T;v(C{OKD>?9qHm96*aLwI52hk~T=Kegi=7|jsRo_bYd%L60HM;d
z@ZfUb7Qe1<;5~_F_&mNiW_5hM_vPM%9(jOBM6}ALoQccLOPDEVfpjrpr5x~uoJ0=g
za=9$)A3XQf=hp1>tCcHt-!~US>}AcB+d^Jxi*k_a6(#7t(iY_a5akwf@az6oo(Gy@
z;tOLrc?;DqKfUN8TYUJ3N9-`ZaJ8s(&4}}Q;S)N3A0Mh-=U8U_qG8;?_lo7)*E!0p
z?==teyhYrC-;}v`NXKR6%pVg=wyzj_uIbjZ>TtJuXr04({Wt`5_}Mgcb5Ls9v(C}4
z^`~^>JnxPfz(U!L5ntES&-K0fa%#4J`GmA(*E)wE>w}mlygz2B5q-NP!{EA}ekQ=C
z*42r;Gs<tdjo~o(VrE|~uML(lI()HnX8tKYX2|-3(XWlp&n=!2>w3h#C)V`r`kEDG
L?#X2sV(@<f>?;Ak

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nemotron.cpython-312.pyc b/model_executor/models/__pycache__/nemotron.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5adf73ae4807090064857c13f7d6253cb90e97b6
GIT binary patch
literal 19889
zcmb_^d2kz7nqN2WlK^-DB*8<xM2MG8T9PH%vL%g9`o1upU?Fx>0tJwC1GFU$=#h6-
zHRRY6QQ4XmRXek$XE!y}T8X(yHqm5L8P6tF>(u5Cw5VBNdgY8#qphu}N>Y$X$5WF^
zCBN@Ax&hKnjZ@i{`1;*fzxRE=?|a|FUwgeS4o}kZZergFj{7AAw8viZtnM~(+;vXi
zqMX1BrX-&-MNK^U%}I00616bDC239BqBiEYChbu>(rrn5$`N(2ID68Waz$Ot??}2+
zo~VcUok?%1Dq5BDMSU#nO8QfQXdqP`t!80&vL;m<tz~{svMyC0txpA`!Bi+3VsYMN
zL#i>_$oy5wrc^i@W`19?In@$vVSazIHPsevOKpj6Vc|fsJ=GEINOeX#S-3jcmFkXm
zGk;BTYpN&O1AnbhmyD#gMYpATqrEI#pX^KZNBdI)(Sg)pbTG9&x;?ccx+AqSx)bTa
zD_nG!iTfHSgsyNxgXkDLuT5q7{h?X)NB6LtjmX)AoXK(y&8O#ljO7d?XY+5#xtHZ^
zLC)6Sl5?NvVR_q-cgv&mepu>IbU!Q6juIWlCB$uF?}ygX_#VGxjdV^wbz*!}l*I87
zv43Jbd8ut!Oig5@iSf47gdir{MkZ2|@l4`uQfzxGkvZRXeCph}#Q3>m@exFbiF4;O
z>49HSg%MtHoXCh$99iMFCDO^n2>Hy1$1e@zZ5khk>pYyvh~t^W1O@8SQ<IYuQYMy}
zkVekOsI3G_n-urc@sac5(-Y&PiF1nU<zzCY`jO;0CuU-kld*Hs#MGqHNg-62o{(a!
z!?DS@6i+6_WbCa8DJjI#iD~MDi}J-sGO^L|h*_z9dLlWM8h^Hw^>kufj7v)3xl=E1
zjCy|Jt@Tl;%XfO>Tq2WxR+<<Q(`Xn`)z3}EF{o+G)WmqHtC$aJRGOHi5mo8coH;JW
z1*QJwiIMnOE%IpUtSAVWSLCb{#L@UvG80p$H<p};3!<bnq~e#(iZMw{#V2DI-i)P3
z;z=<!9#7HmYEFz}>QkbSh-btX*>t24U8Q|YwM)O^={sQxUr?t#eR|^g!-`7_J^O6L
zrUVX8WhP!xKkR9><*H|&J(EbM(Yw>}OXx{3k){ujQsdZ!r$jWbY)!>4h%qrWnYk28
zRCK8Hfzq*2e1Qq+lHz6=lT=$;@u&lvl*G}*#SwLFs;&($B5|vK3g<ePq3*M14CHR(
zqiuq;Da*aUW%T4Ri|*AuV^s5oXUw@F0>LauXho}x5U<arwR+2>5rY@Fh<RACj7$k}
zOto7O-^4bEWiCyMidCQ&CfUl?yHbORjAOb-;^|CG9H*TlDCT%-Qt|51w5SzpjIt>8
zY!Pb(&P`6m)CzgU5|_@U(=<PAzd1RWNlgw;CMNqch!r#a7pETExA($h;$Sjyc5w1i
z=KRF?;G5V|gX)G6FN!0mQ&NNJ!SNCS7?`}IG_ZzaiP10hQyN5Lr|_3P3g<F+&+X5<
zJ7st0U3YiES2OE=;H$lQY3@?q*Dd?H^S(aW*H`fP7e;R#&G#Lb`;M>loh+I;fB!0H
z^1F(h$>~}}Mcldtpna0ne}|NBV+n{{ln0kHIXUg0;1*1xS+t1e2IQH>auKa#9;#{m
zLn(q;v<nu|Ay`GnsAHBJ1^>I^jXIs2;1TR7SG&Fpg#^bY@jR>1X`DK06I@rUQTHr&
zk&k+?B)m$EwinqZ8lI3+JDwd@{NwP%lOR$cRp;YaBxZ3ktyGIiF$FUDRw6CN;-jM=
zP>SVjBAy=6SU&a5fj?qas{?Sp$76@!tv+-1Ecaay`YfL{WzAVj)|$0_SX%WwcZs{n
z4`X#&L4UDt9WiXzL?#xCI221-OpZ#sP>ZyioIT_W!BK4LQkJ?Y;EcsalJRsp7E4nv
z+SKQ=L_LxA!<h~njCVk5=q2Pxx5D}LWp1sSb5_mSWk)F25Lw!l+y2zYM?UG!J^#wj
z9Ir~-kw@V#Dh^3ZCxoeZQn5*5W=a|#DRF6}t3-lL#Piq!*SW0e9Xkzt8c8#JmY*?|
zH!<QlBl3Y*141G2R0q-w2nJ$l=o=o5yUv(1I=L`fk7K?K1rZcXg87!^!xC}Z!|`0k
zt>qf?YrgV(th(&id`4?HYyQVH52nkeEI)3hnHe>Wm;~TOfzw*!K{PwK9bB4!3&`;`
zv`x$8qWLxMEk0r$mKxE3)CuPp_=>$mtRikk2H0{@Y%0HEi$z^KTd7P0j^fbhnM4z*
zxJIYOM~GG8d%74Kh|xZXSft0P$RTo`Ag3Qrn!XFIFSfW8`{;!9R$LOMn~WA%De-rx
z+&rAiT+zjOYIE+^f<G{S{F-O>a3L6)J$}#EQ}B3aGkIU9?CV?<estl33(JQ;m{`vI
zn@fLo>Eq77>iKEUsu`4N*0N^fs%oyjHuqZI+bVlo7j4VdoVWF7-l2Q`y6cW>j=aA^
z_IKp{1G0Z$*^=|`K@*|2T&U;Tj-@x2dzMmPSh=dl^4_64-l5;5i8TGRYv8G7^ItYw
zpX#<ptmht{|K;qT|N6n97hfD6mi8hY)B;<QSbHp{xMBosroiiCiYFF(1ACy9Vg`>@
zEXhPVBhgGNmKQ)q6zeDe1LDt4OeEP(RBS3BkiJHlyrqphA|{iu*iBwKh*-uso>VvQ
zPJ|_LUZjNg;QaauS9EaojfIY_g}Me1_d-?mL!Z<78h^jBdC{`?!UxV9gG)z0I(hS?
z+&EOUQc95~t!QUn2iLr%=wx0O=d1bL&AeeQ(*MxzwH~<d_Fp|Pcc5s6AH`}y*ZZ#Z
zE!N7_T}4Vp(=OlD@Lc!{Cqj%Mu<os66xwE5eHQ)wGNVwL1jxS`<lh4FZ^gz2B^7L<
z4TRq!I0SyQiZKKy7=j(dn~Q=$fOtDWygiCrTWe=dgJ`?YCj>zpXV_8+tV22kHx*YY
z9cV}K;De240Bs4%mI$c|b)+ZJS7UnqL!=nfa}95RG?ZX`iN;$&<86Nkyz&DRut+H_
z%f)munbDXj$RkLAmfyS~zg}y`i%zg7YyPl=yigxzO?@tL5zFwjV_<4BHYrVv-LxvM
z#Q5Y?Mx7P+#8gHLs1)H<6q8<qGwm7>Cf*unr6LY#AH@^LkgDJ)_ELQk(L2Sd=ai^B
zime3U9V($9HX^-D&MV}wCWu$DcGQ)<33sZk_@FvhdILq%0-SYR>8_*kUa+?iY%hc&
zg+N`Qp{r0Io_}@W)m%;Yn%foviFnVmR>d_UPfsD#QJE*2tLZ_WM#@u#Ji#rCjVtwi
zvzG6=*-9R%1hVw07#F(;54adNrUPC?l%6cFeT>&pcE&VgMn3%`Yq_u}Oj<rrer`<v
ztQ9%d*TkbH{sm4YKxXM5A*1v=<iy}qQf9>jxr>jjC(DeuOzRj2+hm|bir+=?^kZ-?
za|M6xb<Z`=!gIgxo3qZEKqo!^tEc8pEtuYYW|jwGx%&3p+Y9j(U)!8zmY>~G@cCyQ
zY@PtAk11TlB^{?8ogn8VIRrozGYFtWtWbJ}9JZE-)=AHi^E{kN`bK0;B4?5k;&6z*
zdAMDV73vxb^`VEpkhTAQU8rcq8}umLTC|hT!6D8`J{K2^EbW%-2a9eBdO*{PUh-9O
zf!ZP!FZwxG)#m~D{^xFsHJ}nLYI6jC`a^(~p4I;h=gUM(N4V95a6!B*CE{fP*|LIc
z*+e^Vtcj{AkuwMKI7MeE<Pu$iTXdH~9$;TD$Xtk#xhjx3kKhx%V`1vT`bY3@67MyR
z2igr>u|$20VEREYYm|VtzjSebSh1CeAnjVkIX;z&orfe00g$|qXw{I51m;-gyqJkA
z9_A-W7s96!OvNw8CMVJfLJkl!OCoc+yzdpy2<Z(pYD?5crLvU*0l_l1%?R*qpt4>S
zHJ7O@XeAfZH)%$vep-$h570FiLrv;q3<|TJY2Y4#ztDpvXFAFKE^SEz@Q8e93-#&S
z6;z#z>EIKkDo3KV>ACPa23osWYDL@itZk2R&We1jj~R`t0+<??Q2VPvNc2=6Q>I3r
z5hx)6GfN~2d30EeI%~CD<@e<l#Ow1}jz_FsdpWi=UzK(0{&FtkmZmYw=#N{=hg`&T
zHaw3ktA7pST!Lj9eMTE)UTQ^%7#(}E{8)?TFTasPpZP50xR~CnOox_>)}_(xA=Y4)
z5Ucl8s{#FTW*u2KFoP8s!1iHjZKFM+rR>RU)qI=QYw!ixyqfgd?Wo;Rfk^Zcncj-p
z^;j*A=FM<~c9Lb0W-xQNoSKY_QPgWSWd=1LN`2+kfxIO1Y<Li>e~ofd)>WEG7sl$Y
zn8}cq2WZJNED<4Ll9b{gViyw<sdH+M`#<@ObKngSLBdiIyQI=cmWe@1UuGf`PsYkb
zv$`Cik<N`c%RVr{s*}EsHX^`h66%mHQLChME7MX43-PolC6P_3n~Y1D1ez*kR#kS>
z)`55?GY%LqMnf1UM+bC~h6)hJAQ>$-DNRm-oD3Yrj22mG#SWzuYLlc%inqO?B1Svu
zGzmT1OY~m4KxGLFNhxw@Pbdy;j#PYTD~*t-jXpkb28k9kv|`lfDitf9r#e{gSfAK9
zSPL|4wFNdJh9B7giG3*c%p~iUiY962k|?S_l^T!6FY!DbS^hrCrGxnVge=3Fz5~dz
z(9}I^x$6kss~%dZ-aBhAwDwRq3^0`Ub;!Ps#dET+e>rf+w=?J1ne*)|G&JWM`sIfH
z<)GZKmtbX~eSnIz7TmtPyIpp-FP^*OCgf5Z%GYd@Yql-DBG>G`&EKinm-Fn))$9Y5
zscl+#G2gsf#{YFm_rk4<{NnC>$9}nE|Lt>f$I+GWF{-`cK?suXl56?MN@yQi^`f<_
z2j>pv+--$$TRz+;hx?W-`Rzw!{0|?QJ@Vd}LVe@)@oVFYnIFx3FeBIRMk#k8*pv_U
z$ibea-5(vic~B102t0_rK67nmQILb%Sh%qhFJGanH{W$w?mA2zXfJF%MDNZAK;Zz{
zs62Ho#oFF3hqo76JMyhVa_dkf`hG1}vvtkqXdv|Mg_;TQoZ9b|gS|__N2!}BIr#Vn
z!2U|ErVD^QNJZRhey*v5FzT7PGo?Nj8nzb#O(X-fcjwy=$n6K#y!Ix_?L+Rm7Ro(5
zH>?#x==9ua_RY4*4cn-kCO*8BtLZ@J>QMH(PKFQ_rv`4)idPdcu~WqKI%OAO1BPF4
zy0*EPpu>MACYWa|S+k*-uo<t_F$Y>JJ)nICvFFSJ4~esckzPm7W~?)|8SpJbjXFu5
zHVqB1z9BdA>RecB4fLPryj{yX<3KK*k5=SzXo3!_&54nc%x)h3)&Ic*WtAE94ixom
z6oJBXGMUIo--KVvl5?4ycgXn`90(Xp0rh(naRrWI2ECC+$j85-@D~*RO~p-AC8o-^
zicNi|iLK~FLDf{LB2mMai9$&*`UQ%lFT-Ivs_Odd&DWY2W>y0IbGBLY>~n?cy6cf^
zk%brE|N4!uFLi#@ceC%d<tLsWdvf8UpX{8EtW*!r*-1*8jg#c`t+{V4Tw2<)^xTSX
zup~WUizKcku%CA<##iclX5EF_(DhT-PA$4uYWwD#v$lE2Ty?WvRl>6W$`5Wo{41^v
z?y+G>K+ht9jRF@58%*kwhT&5zLSiH%i4;l8vO)?YZG$R`5r&YSCFg787z$<QD21GV
zg1_|N!y%!pife8!4D2jy?JevaBI&GmkOZ`blf2b+-``TSk_UvYzM*JmUJ$lm(aF3J
z(i)3y=JjxOjYTi>LIQ7E*tKY0*h_>-uJ0}SSiGNW?<xkE7i6L&-PN#gEs1w^%v;X|
z+ZT_>^*zNP3x`PFW4$RhlEBx*VqZ16to8Sy#yW5fN-g-&!%*|}?6qvsPNA|s3n5iB
zq><Ai(;sa&tlmY`mqkMyS7;)ks>ibE8Z9d{S~iGzE+*#LnKsLT!(biL>1}Wj6^-Lv
zo5X86vrW>COQ{0ts6%i=M65gz(N!=<#1R~FN$R<X#Q5}jfFV7JPLI$6(;ni(pfud-
zGU(0*8P5478ICuWCyeB}EDxgy{VZ?BT9){bQX$8HX4&2euS>O*r5wozWN(DSZGz<h
zy1lNPRnY0-jD1~-U2tgB?;@Y}Lg#1KCIG#0mQ!aO<%0rtz+ogm@kTPhx*A>RwSk<V
z^+Bb_kar!BJ}i(M+(5gY4@+wmh+FSnCZPAzn7{Bw>k+LRNde|{ee{+`&H7M<KKLq7
zzqWI@43R4KpkCwoFu?b>{2C|2cxaWe=O3UhU7~{|5Exdm?NwB+qVBc{DFL$z!0t+1
zUa8|?5O^L1lq&Ea)q)~MCxXXRrE(2ZqKKDbZ^n~TqN+=Qrj<_fVhjem)t&YKj({Dh
z<Roip+A;ud#HOO?m#OmxYF8X7>_$?=zfmZdrUKt1hsd46I$R!#s{C>4{bee;vThgR
zLvoVo{S^lt6~*Y3)Tb((*#QzoDj@(Un0e^)qo-($-H5ncpe~h#fIpxhI}};R(<^~~
zv&PdaDVL7*|2ry3PXe0})~{NJ^|$1k`sJp6!m*)yb>W4V7hhlAvr@Nj)^#t~vhe2O
z+sm1i;DK3B!5z%GJ8szvp6Xof&~3|_*%WbsaRh>S|6{WMF&vzG8*&Yg%bo)`o$A=O
z)ScUT>XR2&+MmxkS`pK@WwAaN*>`)-O2gsLI8&qRKfZ#h=8r8L#hKPI-ZfiAnR*K~
z4TVrRAL@}qJ<w_A>$l7G+wV2B75w$NQ2)}K`N0$N;0Y9ItRf!PPS~~cadHE#I*w&3
z?xw1eio1oYZ7tW?(wT1=l3Ruf!Dbcqqtv}XXrX?wap|R%z%Esh{^I--0MWGsq8$Ly
zZM)Fdyr)I>v@9O`(K8=BgVDDk5mFI)9Xasj)Cf|4=IBy+sgB*)3F1iQ&L=<P8h7A<
zg57+%HmfSo@wGNS6$*6Icpb2(VIG`~Xvi1uN2ud*=z5FS^3IU<rjnnP8V6l9s!yk@
z<vv#Sj!KQ1fO$<g)0gz|Ls<VK6p;RqocGE3J{(PxuV-V^WTed35AfHm@)CG$$84nE
zL45$PRqTMZsSxa(J+2F6%grm{C+5!F@7|X0-Y<9WzkTqNo|WzwWKYNJnT5SrBJWq-
zs4CRA78<t}tz5&_Rn81K%?oXM$JTuN6LR|#AA3K!xYGWr>}Z|!&R?VwjvJ1}=9SRk
zthe9`FPzW$x^s?h6}_5qbSlvByoQLCp;3ZBDpqAj1Y0RcxD@6%Q<F*Y5%846cZr<;
zhQBmTqk1OVx1E3~AgOy-36bKBt)jt1I|Us&pmb8uMWB)LW2nH4Uh<9cwbrdVWQ4y0
zGE&H~?o`xCQ7)W{&Q4v;&Se)~djItsujhOb*}3ftH`3I7K;0d|pZ;i^eHE6I>o6rD
zp6>(QsHdZ&7KR+HSE`~wCZcUj=Yo1o934Iw#gF176)4XEgBt&)Wu5Hg)n!}*4lJC4
zn!~e64mEX?9*8V;)FpUfe&Z6VM7QXHagcFu+0hBX1dPWkTF8eH_%MPhc9h}6o(d>l
zjoP0fgGjc@z~f#+X2nfrRF$U<BN~w)qCmnjBR8Kgkos-&w=Lhct~1hs;7dk2A0i_?
zJj`{Bpo)>${T&PP8bHkN;1thD$@v}Y+`6NLIZ{OHBxufJ^f`?ooz`0;2$#mmoe_wW
z_Lm`{UcO!(b)_qHS3oV!s86Wh0Jdp_wGy<A`!cOs-CCQK>6tBBD(Y<4{N*=<aLcT9
z6zYvD0K9;^CO}QI28Kz|f!cJj3jP|cEc`l<{fgt>T2_V|j}WnaTK(mB*;)u~2DSK2
zMy{u4c4#>TZ1Hm@;}$FCREN?4ul8Ymky9<S$Z6oKG=twWS6XS#ndbO8oQ{F-5$DCD
z@+gauj2Gb<fdzY_ouz7+8CoNytjeA)Usgew;y93ur_KuTL(@I$_NETO1`Z@)RGCa4
zf=A6shGA)%0D!W)O@ja=h2{wT4>o`9w1%q~&78ImFvOUa{)GB)gPbemJOL-tSO&CE
zpA#)8?R>>~epDj@Wx<s?uejbMD_>QC?4}4WOg={w5>ToXAHSf~WD+77Dhm}*U-2Lh
zZ0po4QXO@GP`lz`N1m{iz5oMXiH<)cTEa?zoeHQXDQf=}cN&`h3~C{JU8guMl)Sdm
z_;ym^A5dWn0cWX=ysf{*d>2YIrXBmIRM_Avsi>L23N&F)KKW!NWUe><P>-|E0_T6h
zg4E$<R)Elo-w%ZIfruQ4<O93pz^+*vtS|DxK{+@GY+Ux<uMd-&wh(4I^M?D4ZTZGt
zxv`hDu@BtAcMs*=Tkp8HGQik<$J2f5z=wzOy~pnK9(&L>M8*idYd&DzyuV%cx35~w
zTdHP{{LIt5=Hj*tuC#5RJ#yF6d~fg5tbC{J>HOSe^;Usx2b*F3!8FAI=RTM0*uwz*
zLg)7fmO5|suGMm$5VhTX$K8D|)Vp*n-*-svJM{6fzk24U&)f~YID6!~Cmw{lS3*5d
zlb^UZ_;SG;UKq=HB1=R0-h*=QK_Kq!4AS<oWvMt-IVT~cRZR#n7wsVi!<bAbJipy&
zL^JT<rH_#Rrb+#x{~G=@)v6iU`P8MRw>zziJd6nrY)C#!pOL5lY&_`TqD}U-EjFz9
zdUK9mHiTgYOO@Jnwo<CuK6KrznY6kE((Cj*ItvxhLM3g{2)dCer__+OyaSup8S8jp
z6P&G^zRXw!ZpJoV1zA8nmj}5gYByuengxarW^5Juhs{n`NmShMpk)nlRitR_;|TW+
zXar{LCJraOCL^8rdjU&@#k)RU12mSdDl-|XNict3*Z#jir>Ht(DtCmnSXxIVExaRZ
z1%0**SCBkYh2JF+0h4Z#^J8)><oru={*0V|LC!xXCq&M_f)jC;mzOG+{98);3vzV2
zs#qCKVoLTj;dBrW^-=8+zlNyky7lCvB!q~x?EVANnV_w1I=10`;T-Hc+xoA0@3(d4
z+jh%syO&>EX?tSci({O*<M(T}=4y83JiFi)!rPZy<?!KIobdE6os@%*%^rVH*R*it
z{ZltiE!E~D`(y~xyMJ=%$A|u=?&R#zpLh2zomigv`20%uGfbGdu@};K{V5)@sXzSg
z+j-x%JHBoAYPt*UgSTIm{l~DGYpY=24$9%+!fo&GyRmQa8_UO6nhwI^8IsK#kY#d?
zu)5Rjr7Jb-?81nmvMv5!@WHNg=U_<k!}T`Jh8AGjlF^PwV3DljJuMA~CHxU?p8p0o
zT*YCG!7<M}=dq9s;tdaZtXi8F`5C)(3MxZ8+f<cmN{3*|=o>`a7BkMQ&B!uZ>#tzG
z(1XQe%G$<Z?kF&u{}~%L5t%aBG{gcNZ5h*5keI#FgTo}O7<zc_y>Dhs*o3cR+?d-L
z*NhvcJnpRZO<v;P^JJ}to5r1WX>EW&SjUJrZ+HZY)`o-}Su?9|cSgrvh|_JZ(b8ee
zja8kStYeIJ&W2~ksf{k{(PoKkv&Ubw;DGEa_u#WklU6bHs&W*UP4oPFrcHWCY5sB_
zE7Z)Jd_S$XS__+g3w@37Sby(5h0$0*eyqb0bHpsYfzASry`kDKd<UU&<OMbI-F1<w
z;e_-aA{Fnti&M<#0`?1}D}^n<HOk>93u>W!b14lQLNUWE8WbO0vQf>**cB^@=`BfC
zk-kl3&2d3c?2<T{#1%Nj0c@3~i*XXk8q&w)(6@#jf?=h955H0mG&XWUYcLHR@8l#I
zw7Fqx5l^LIkO4zsFT3Ye>QoxI3|-VC)e$MK@})1u$_ld<6&Ld}i*dzW8a*rTz?~9+
zOCSe2In@X&do${)c&OFVO|$g0Zo!~(`O384C0hFfIG4H4OxAW+&e5_4B-FI9JKwZj
zZrZ-mv~#6?*R1<qd)FU#&3f;3Y?D2$vq$FpbwH5A1)!Gpe9NHRGMI09LT-8DW6Mg*
z(VYM2ybBIg9u1v~C*{!Ky!Bq&)+OuGx9&dq(n{OQ^WOViJM&#ba@WvG*WTNQ?{po!
zcIM-Qx#ymjpMC+fH_-CX24_KB{Kj4Xu7bZg@82T(w=8bE>+di4Lw~#Hl<eOz?^-yu
z6e`rTz{sFxTcI{g=lM92TRgSg2$k!+<$g`@`oU`l7lU_eB1^*UUU}dsay@|c#O~$V
zyEQ`y+z)l&^e+^dw-(yE@@>21wq5hypZlAs<>ljd{RjW6zpmKI4V~tToiM&IsxG*F
zxpw)RE5WDdErpuk{DGfWHi1C7i49XwYK8{rX~=t;Wl!^h@Hd{0;%hwD*;|bAoWEJ)
zBB}|mf1@IdFp81-OXcQ_X%nxNh}B3Rkn@-1$mBdn&hv08EouLlBFWiDYlBugv|{%U
zKm8fkWpyo17wL6-*XQ&q4)eUVZ>jF1@Xc_MgZFmVPx^k`w@O|Z%MR>(=x(w$mo#9D
zopMcg(TWJHiP{Esj%ufngKOQnd_->9TXa&;RXSE>b|XcqfK+Piu0Sr-D?58vy%e{9
z$lAPkeCeg-UAL|5{Cw9Dx&Nr#d927G<&#~Xr2o_2FUZSSFdNVa#-cwOlUjWn!>l}u
z6?m{>(+~LsABB0YfO`esH$`Ebdya?Z3}<)HsX1{P>k{oHothguHHY94okl7W!D}23
zjZ_t#oRT@P5Zbh~-?+385Mk!aG;Y<K<WN&LX<hVCS?JShpilD(wVTwjNoloZjG&Hm
zYC^r}6a6q+HXOftPE4#2GZ7FOU_i+rN>(#%Tn*SmL-`uru?gwv_*6QcJbi}QcHmks
zOv%W6PO+&hLb0h_LGi0{3=>-Dl5JWEl&&X~qo6q_iAb?Sp+{#?($5iM%05*YpbNda
z_Jhzf;Z@o%tFs7gIEViKQ0|c_zL9co#!|t6%@y#8`hurqTTB+o1RB}HEQkrKv!_B*
z;45r&O@e+lQMTnlExKG&h6frHGXg8p^$M6_HZm=T6%r{fHauC&y1wY}1nR9)&(RmZ
zRtR;pYyR?E8U#Sq)o$hZvCgtz^Nn?DzVaKT+sYx$S61p}B3c|I!^$&zYgu)No`tns
z<#*P4%dWv8j6+v@LQOZQ<<e$#-8hZMvt27wexsBQ9igIg3@cWqpu(co*DYJnh<Fvn
zO4{or-D6iTlAlv6D?R~(DJw%6>#RC&QlUR3hl=B-4{n14)Zj-0B-*j6LXYtS`ZChr
zlH(?a354`jBpRW5a?EztKcgV+IO%C}7|061r}$Z~aKl`?UaxAp{v2svRzT?*Lg^mW
z!j5fe<*P`iQURr(W>wG)U0?Xu#K4?zpdGAGLlqvOhI-&@Sm^$ffxEsPImeEiZ%0WN
zb-$#GdQgY!LLIkG->&~SxYBn5N0{|=zUhLLSfLzhiZJyP!4+K(1*PP@V8`OIr4uW`
zp*7M?LQ8ZSoDGU9U*wK2Qt00Hqp=Uh^4$mJ?t}U6BXakVc?;dEx$EzEfRo?urT*JB
zD~$(dPu=ST9D;g_>R)O?AG(-=Ys(r0(QPYDy{uvz=M7vvId?Me8InCiz*A1|&m5}a
zNg}<_BUDa%k<3(1cyD|RjSY3Ri>8J$sY~U@C@tNFQ>lbvxMaFRll&{c+XnU1|DexD
zsGF&uu1?QQW2R(ZWGS-Z+nsalu24Zqx(32n&oqEqHrJxjNo!W8NhAVl1L4^~U>m_u
zKbyDTqe1D-X)5EAy&y@_>LRVsa_Bc&E5|yjUUz*+V<b|>4qQXw>(ke!3!b|9OS$%;
z+g>Oca1YG`yyS;6p-DwDSCD(1BEf<P#;p#)v*{>}uSe_r0cY1ZYgRF)N%{q9QYnjB
z9Xd6t*wj6orp7QzRn(}WpZA!`i1<MZ`uU9McB3!5KF|NAL6cyGK|8qW`h1{U4s^q!
zIQv0%`5P;Nr=c0vEf^(2pzFp<&9m|Dho@3|2oW4L(?g^As!O#Q`57FBEXqDJHArKn
z-{)92R+ej8|0$Kq&six`S-`f_R4b@XpnY-oN}z`gDDP{ReeH{nRVYw#wm%%H-2my8
z`bkx;1hK~j;j&;E&~Z)a?r>UZC`U~~f&~iFlBBOH82lZLpXT!`Ne3&Gk(|GvkLZR&
z(t)G;GtN@yDw=IAww$H0Sj#oQ45j;_)!cw^9lmmV@1i?rX=ZZ77FCYGi{uEripL;F
z>?z9;d&+Xe9@rrqc#<#l?|A5TS;P8iI{X!41cfTZ2nucxBPeR47(sC%E37($VP?l^
zg&&owvc`f%c7|8&6jf!i_H80+AVm{3;8iy$%}(TiVvogyi4k1y_Ki&7muuL?`1C;h
z><F7|X#ersDjD47PBWFOV#AM!;Pa^lw_9nJiI^x=bQVpwG*sI#^#()}i=<7JNV4Ci
z84zG>DaG+~A8E-!#n=({K<Q>4!CAH(6hA8{(B1OHS!`NCW#=RdDP1g$0gRaT;~}Mk
zvjN=CO}xokQZMXoc|=}Z>ch|Ouxr2Ua))}QqxVrI80Dyd1`IK5eMAX%`?~bIJj^;-
zc~t$SJ1_cHk!onXyB<-$dcH^M7xtS&<&q5ZkbY3<H!7~qo=Q3fN*bG~OakASX_|<c
zDPC4EExs{Dzs|(e>Pjn%%i!=Z4aSfH-HEYcr7xIfaExwZW6j{|j+mC3P?bceRI#cJ
zFfv9UTvb`Mk#7q*47w2_Rh*~k;Bc5u2I-_wv7KQAMzzT!sL0N0nW)UR_)Sh-(8N7)
zI;)bSLlTcokN;fymvD+^p64I#<oFZ(-*KIva^X+8`d@OMPq|taJopQ4@E6=OpK=Gj
zFj;uhLk`a8E{;FWf65*ElzZ|ElbJVt;ehkGgX0H2<@WzQxBUx~9g!TI&)RIfYpuG0
zKd{jLe&3D0H4fgjy{&v;zMahI*Eo3Bj_|MWeEovyedi758b|)MjOirLZ(Z0)digbu
z{Kcq=GX>X7Z}WWf{8QIYTsyJKk$=^U=pu_=d&+W(=ljr9<VFNGeEUD=D9k3|{{nSK
B;5z^S

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nemotron_h.cpython-312.pyc b/model_executor/models/__pycache__/nemotron_h.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b5cc748a450c6e2d06d31373feee187c9a967710
GIT binary patch
literal 32010
zcmdsgd2k%pd1v=v?i=^uzK_8%ph%D+DU#v=QoI0CBy~+>&w}Uy32+90dIpk+0I}><
ztpQuMz@)N-HckZQD1j?GhHG=sDOcI4&7o|zHfVy*j62ktRbjTumHlHR&?~RA+3fFo
zeN1E6AZ2H_YImF9>vw$b=-02m`@Q)~pU=(VN?5-<cKkJt`&&wAmsgE!94z9v>zu$v
zIe`}}2|mi>UX-vTi=stIYt+h9zBOS>+M{+Bw<H`<2l8wQN75N}vOIgjm2^klEbd5n
zlHRD7#hnRX(jWCF1JOV-7!9&KSE4vs5-nkIccL^|7A;GbN6T5-lc-2mMk`s|n+PSV
zqE#&JOH?OoqBSh;Pt+#sqIJpoXgx~@5)H}5Xd{aU6HUqHXful!Ct8xN(bi;Jv@O{l
zZBKSYJ6L{6qB9wehFQEc(Ut6ucC&a{q9@rK?M+6a5tc4b^d+}Nx3PFd;)&$;==S7}
z=nj^yO!OyrMt3H6MR&1uDDh-+cXW4hPjpXmZ**_+spwP5ebIf%{n7o&1JMHvrYiAt
z@?i8}@=)|p@^JKU@<{YZav(a8JQ_WkJQh91V5$?(B#%drvv^J7MDk?xB+ps6XE>qu
zO-`tbJIDXE_5$<w_wfelik@bW^?+=64CEk#Yy@P}V<3kZWHTUJ9s_xXLAC<2?J<yN
z8Du*kJ01i1EQ9O>WcV?V=i+DML-BL*GeXzbtkLsvFRR&&nmv!M`MxrFT=W8~(Tf@p
z^BVEp@u%YZ<9p%<;(O!!-e=zyX8pOVmT=!p!-<K}xEP-piT6%UB(63N#gmh1adP5#
zV{%f6Cn7(hZid1Z*?D9*kr=+1h|A6s>9|O-FfZH3Qi-t<idiNm5V{Vf)A5P)*d!&&
zQ`1vZlVUoSo)kwe$3`ZTQ)8%ABzukwk6ex)nVc9MyCi!CsUtPvem;>%DseR6KRYa<
zSFIGI@Lr0iWAUljC2?|kN^YeT`b$lUF*e-Tlv*M7+N78eVyUqi8e5||44RHz8ctu1
zi-2J*PpK`_;LpWRKX?9>>0vQ092!ZFy*kXE3KMZ`Iu#cNCy&bh^OvbqOQTZ7unrk}
zZ7h9xaylJLPA5>}I5&8HXi`jut#a9s$;5PWLVLE;V-xXVQ7(S=)bj;d!E^B`%<gbH
zE@(jKCSThOgr)<hCoheqQ)k7=k$4JIfh^D9aPs2t;MnVNaXV(MiY3pd(b7Qr>Qo%B
za%4I&jMri;!qXUw&`im*)5Ca~GwjjTw_?e^mD7XA<HLen@%-e-@I`G{N0S%hf-p95
z3H_D}@zLSwL^}3beC*QYbSyDBEX2`ga`@`Scub5Zho@p!UX7(jh7<AF#BeemcF4Zt
z!>JP!6LFCZ7mF=*{OUz<Opt?kob<F9KQnst^{Kd+PRZW$%KA#3o;-I*uGUiQVb6;3
z(XrQQona`lTPr(zR`zLe_HgL2_|SBE@&z_Rw8Tc}Q<H<kQ|L;r981NpG?HVf6k218
zEE&f~Aa^8(uf${V<W%}<Y-|EK$+$3vSymTiDmID*F)3b^Jq$20d^Ij&+{*J$u_4Np
zsrW0?^a17<@5trpi7S}@(i4U@FR*o<q8F}zq{=%PQBeWA6|0F25s@!~M8-LgMlNb`
zaoRt@Cs^V|LQ&i*SmQQ<pK)-UV2j%YJN`TH-x+rZE`c8n&U2%@;C|B=bqb!iYrM?Z
zkrE%Z2;MiXQO`X0Iv@3(=fZy3s}FDR^w}ZVKB9c*#hWIGzD(JR&ubzL#J~`N_2SrY
zO7`Q6n#N>^@f220N-o3PKQu$KU7b9;7{{8J7;zd#MhK2b%f^2~@T>fFF0B_XIA^)9
z*f>r@o;;UEO1WnFal01J-)Ake*4d(2`>f;Fz)<|U<?ELBRj64mX4T-*9xVoV^LD5e
zo7zqh+OfWmS*Hu_=>4VxN?v}1DAk|sDi^j5%{U{|Q?V&=ay)F8-D49|Krw7GJwP^E
zLfnmZ#3vERZec7%$U2su5}!iGj5{JszBZw>;1CZG;L{Z7Rm44%JV*gm2)krkYMMR+
zXAFycEFFu9708!8m&XJlKB4sPPzNPeQISjULZtO5+wmF1MkmmeH5E^ciaU`h?xKLk
zsC3PG-AhU8Rd&T<BZ=WuDi%w*kZx43H-37$FP)s~n;M(yO%ID80KKnIKe=c3l_%qU
ziLr})Q&)j?C;DCm8R=6<Lj3jk2tII8Nv8THR0<cn9GSW*9!A?U<;E2o(Vp@=ic;V|
zxu3kjJt*T`{so8R4Bc^7->>Y>R@P-I!%}598wzKO%d=H&S!7n!F21<*;#z6@1D_-0
zp0~c`eGufT0o<7l)n`IoQm9J>t_kb#(Y4af2LWd_!TTSSaFspl6}|J;uXr}lH7E10
zk60+8UbL{;;(i^G>sUPFyjGOI&+_l9xi6#c96x6P9Mvkg@^EuJAoNcm50;0}TjI}i
zH~FD(kvIS_@fZb15g_9kil0It^RX0lhj%8PptNIjQhaS#6lTgc&9s_Jm?}jJ;SDYu
zD1Cc&VRq@zmp`{)o#*GD$a;fspISJz#D95co~P1ZTKJ`<;q^eHS{w+@JH?Zzi%;X&
zg<~=o_R%^eViJqV?ild}(^&m6*&B-i-6WI}aXSsG2q;Ocr<nEP<YYoFN~J}%B4it5
zS!BC{bj33S<5O4UNF01a>?SWBM{bHH`XGBsu^&+uoTGwS1V4F`%elE7PiD)jvkfiT
zwytbN=%eB~TjXA_A!oxqXXk1gat?|)xytZLzf{qeb5YXG1xj-sig~%Jx}1+<ey*V<
z7ob>>D=y1XL%9;p?f-Ep#SU0)#Y^Sy*1l8w35O_~6*im^j6}caW1?$=#`iFN5ZpR#
zQ0T%Y3Nh+r6u}OP-~gp?j+d~uHU*#_rum~*!39d;W|YDMO5rh5ipirx3RYl9D=?+;
zaSCl<C}G67KIt*ocaR41EI{)1t&zNj_<>gS?*Rx~N3r=QF-PxO{c%kW%~v2quA+28
z>f?Sxks2M>h_j(cYZ0}zSF=^^aziyWYN+keO7T1)EuO!leSOS;sLq#YF+lkAc+q&R
z7SG=Sp%bWdla`OxnzeZTZaxZuPq%6?<Lz23e;2q}D+sLx1hU9LXm!RT-L1in_h_;F
zJ>90o$0J%Se>We|qsId>tzusdqvFkW=G)X_F@45oi^d7J6kM1&B8=<;1YwGTYn;eo
z!G&7-TR^{hA9*l9)M+U|5cw>)kh{Ae3&|P$M_s~w>;lw2EuOz4mneO~HG>&J-3Bci
zP$p;qxx`x(Tr>EFQMXac2Gl_<p1*HV7XYYhTz4j``11kt)h*br;Jt}XtS~O7uh)rv
zfF>GNaGAG3qo1>-iKMY>mIq5`5r}r`GpUtfthAEtSji5<O4fT$pVA<O`Y}!bV>(U*
zwcz>{UT~SOTa>s_a=M@bk|^<@MDHmNff6rDhVnUD3?)8+N9afSSuHnzM@eATf-oo)
zBP;<F5xIg3C8a32P>_uzO3K)Ll>a)lQXy0#4B?qgzNPVPruD1RFKGGb<3%l=ziVG8
zTCQf#QiJwQzD1PRqQvB@KuH}+Oy1?M@L$DSj`eE2ffa8UIyPgAKz|SqTNwu{dx>f#
zQ!#;LY=yHWR`w<@+mtMPINVGil45FuSX>cf!}daUxPTM(Z-$pW6VpkpGBGNUp~WL;
zSz)NDvh0CI2g-)w1f(oQ3<yGLp=eFw0`xIcS1!oGd^@T>#Z3iDT#*%=5p|HVH#IUT
zlJGk^JuxCXQe&5rlMu=)<B;Ab#W-X*QH(?RF*y-qVw^j#36cE};Ya`&o)AbIB75Q!
zOd^4H<Dy(nqac}YLLgaC?N203c9RQ7#6$FChbbU}Dm&6sioj704G<I~OnJb@#UyQ!
zD46UO;;%w0r9PEY*B4pE;fX7<18EkqGP#M8EE1fEscmWxjhuqHucB#uNE`)|8D}FF
z2}LU}gBC0JUZ_0MJGRSKS|=h{6$mz@DN)o1Hl{fcuTZ54D)Z2ksPeElNjaq$RN>^v
z#S>7aT!LmOq0N_E0*UVO)zqfE5P=cULnY+}Ik6OEskB^Lm>r)G#EUeH7ChnRx!A1l
zpb1p?-%@4N`6U{|w}2IQMJ}f{9##VQX{E9yNiyk0*)gH6z{_Y!B+4)QlZmOADsAF5
z;|;2xjzf_-m^ev{qxcyL=%Z6UhU18(h$&N~$2Sx{omP`k=9@gK%X~x^Qzc*xe*&4$
zZ;<)!Rz9^}xt~P3Y+HAx?U2-VXx@6q*?d3L`fL77XonQqfkI!lvgZ2SwK+vLT(9hA
z70mLek$qCzK5C?nHL0iWweHBY4oa<qRMvFAtTpQ`$$0A}Z#|2&NZyugamC%L`giNz
zsmoT?DPreyYo#p^JIhIobU}>l?fd5Go2T!3i<$Uj&xHD<P~Y!O|KZ%X=I(fpZWLL1
z0r|FT!F9(OhU`(>ovGO+)$F1^L-$&?XIc(OEeA3!7o?U8l-HPTYRfe3lA0JqeYUwh
z)4W@1-hHb-^VE3>f6eC!tRdUklj(d~>U{cp{eQmikM~KPXDGYvUR(IRmv6khI*{pq
zR>EJ~vy|O@&l}8m+a+)NN?9g+Ov0b{Sgwe3`OqN-h3ED(OP=O6PuI$5CUR7Y9Q~m9
zcH|^_pC9<Xw*k^qab+gBR|@XE^?YXk1qpw_3uwSs|G>$$^g&9`Ht)#Rg|iK<*|u<|
z?SRyFAY0wI6k2Xrt9$~})#9HYxZ`cWe1+OS=E_3uY)wO^CUUzbk}E>$9*OOJw?ln7
z8&c@5v?^25bGxJ`=b*Hct7?E)e>>Ebb5YvOHMC{w_uj7GoAV(3k(aA&%K50o&menm
zhkA1XDuG&{Jy%Sz60W{ES4uEtTz%`ipZzzV&6QKCf<xbxowqAHbCr}1ag}wXU64xK
zb5&HanyYTf)lg9_huJ-G<3y(Q=<U{{xjN)MsOLfvnzJKP<j9@Mfm{PsX{7NqQI%%M
zl$lWH?NDc~h0?8DOGl=8@9pNjxi(6-b9li`dv7=G&2=CRb%dA6ld?}!`j9d?B@)xP
zNk2g{8k5Vu0AdII1V4_9!i(t=EOSLD)upgJ4EU)cjq7H532VMgi;13eUe?mJ9SmBR
zqBK}=V*I!+9p!V=x;$hit3lC6qCGC{&PHvWvw=e}k>kJ%S|PLGsp*=t&)ONhW6p`*
zP55I&@49rO)TQtWu$dT~C9cqn14nyv&WUD}62U3BK3_5Gc*Am%`vO1f5Ug9YfccoA
zRvcTj;nLf1&N^m5Rq-6$xY?U1N!Mrtm~{#^eFmIJakG|c8fh2m>XM8G4W+aF3V2?T
z__Sa?SBs775{8z8H|f;g2FBwwTRl*~>Tdx`2FK8k{t1`(FVIHVB7PM&*~iGd$Y^Lf
zbxCPG_q0gw?nm^}!$GJ#$r>VCUmc6TrjT~xO2s(@vIWW^BJbiX1z(|HnDP~B|HLj)
zq^ye+khm<qLWS*$(w}Tjs)pOtC>3@oB#jN!O}r6ECp7=ETmA5av7~s7S{<TReWPTI
zBK{)=c1ZTA?24iamP<#+CP4l-eX^Uhsfv1zske-(IS@ouHTNIUN$Mrc2~=}UkxWy+
zgg<BfynFFvHq@r5G*`B-%&dp@&in3p0vS*1ZBOgn+8wKd>$QjH2T8xx`0k!}_AGxU
z)3#G;+xeZN-yQt+;9A?x^|q7iHK(9Zo%b!iaxYZ-uJ;{pwz^|=4(Pk8ZG*E^x#xYr
zu#u-EXV<)Mt+I;<LRH37FL~;JyY0Q+8@;zZeOYhAa(|{}zl1+8{u;8r;*76R@-?pc
zda|XBYo$GF-X4TmZ`IOy9kh<1=Lgw<sXY*w&A<)IfY`R?ZOA`U^Wki;W%*f9&K5rk
z@MJB!R<EqitTi82`hEN5g_oBO-S&azw7=JLqbJk+oYedrD(O|6T(Bh*=#T;(EAG{k
z>w%}&oKG{f8ZH_d63=3;!(Q=Odb#H)AO$p2R5Bf<Na#v@o`S;^uoXyR5PN;%OB9PD
zFlr=Urc4U1QUR@W(nvZ<Bl*Nm(nWgC@-{b9Mp6XNr0F0XEbZi~J6Bqzsz}bo(r&07
zf6VIS1WUW^Aiw+^k@Xx$@zwYrCcc&UgvAx*BlSFj|N2#|#x{Nvk%yI!WS|oKx&m^O
z>QOaQ*<qSe6q8UtsxfEWRbZ}i!(8Pt!;OM>i+t85RFpobD1A&t=?C@*$RVS`dLTXm
zTeWza%y^2rQg$($UTjQw9cDc;WNX$e?+DqrHD11eIo*fH-(<6LB7>355AdxOs53o<
z>P(OtE=I_TT_7(cR}@@?9tr(oicnI`jhm1~K__v5g4Jx!Ww2xMW-89KU+YFg^WyHb
z_EL$=>LgWz%ac!mX9}30Ih0UTg(`FIiCXjWS(jQ)3JjB8=G<wLJlKW#aYHe~o7pRw
z9nT7-jO~45Rd8W0b><*Vov;hFtF?Ikj@;UON{fBnuFVG8(iNmo5jcj#Uj~rO_cGe@
zQ+p&yCVA)!NZDtweW_}KqWDxQ95jf$B-qH6mze=PHu-8?gdv>l#Bj0@CuG~m<n%-u
zMnG7lA;7_e%-WT$iLq2#E=t5Fm`El&Nqk~bxsCNNk|LQ&sd9<3e3=M_&c_my6S9?3
zKt#_F6cer9rPwkBHz+7r%<myjc2OT=6GHrTgXBf;Ns+u*XcWJiw)(DgQS85=a_X-U
z{G`DA26+cEj^|!;XQug})O>IaQb$?$%9)k1TTM5UYi0W~WrwA*!{6JnUiQofO;XvZ
zdDmS}`Qm7%A|h2pe$RTxv-57CWN}xfv|B3eUJvxF^0xy|WLvv3t^1_beYc*KTA!AJ
zP51PSm!#HbD5J4G)3{q|+`Z<lyI<Y}VJutUN0z_h%Igi+8Wb_?`L)v42OfI`iD7P7
z|H^BZj%8{iQf*}QSf+na>L0vQHUxIsrC>-#=AE#0j|s3%jTpIM;<adDZhQd&IBClp
zWwVMU4=AGW%G>GY_=$4xQ>HMp7Hy&G*1X5t1^HRasO3B-4x-PS7V(?7iQk~OHP5Mt
z-$I6LzXBWIrBsSWPA^=Mw$C6nllLovPk<4PYK#Va=eUhi0DXgl!OL5==Bde6w$2~V
zf_*sg&WYvZdTsy0;Jx;)_r`9Ft@>`gzTSQug7Ey{(r#iN-0!%T_pgVZnD=D^wM&=R
z0_|(gb~eQ~Z9}*ialIKZC9b5d6v=5oBpms3)7syl$`t$<|5G;+DAvE8ZQ1U=?DkzM
z#Vu~Io#7e9r3ff)S!K?_qA&n9FAqo+ojDgvyY;k(rM)_F_OY~IC(Z$uR&0VSsu%@X
z^f2$Ub=<40y*_(wHfKW|U6zKf_gw2)E|W^yK5-yRS&KCG|9`0U<Wb`?Q;my{Mr03B
zWd~-2QRRP&NC8!bIJDW5WHVJZil@5YhvGj%p9e0`3N^-YkE6SwJ38f6YEzgOH_;Yx
z5bOfou?~s9jW|s51*rOWDA!d$U>JkQKIuGR5Puht>|4L73M8L`5HM{UeM9u|)3pV{
z-~4KHgx?7ikRrx+3xu!YTp-+9)zyL_TbE5mw*F6pY#FBdzaGzu|Bj~r_Ygb=nHEf?
zDz(9JmlOYhnm9?pA5w6Of<pP=k0_G@xEOP(6-3N&R+)ygD5Byl7B%23mNwulmNwul
zmNwulmR4{Uiz+yaMSDIi%A%qFKaR4h^NbMrZ2t3+Rte^WA+0~aJN@~QmZ?t!KTdSA
z-~w_oVaUx<7IIBAJ<KX>swD%wiFORR6$OJp@@MH0uqK)_<W`%sTLc$Co52B4W$}S@
zb)=lubya9XN5%QJ%=_Df!1Z}CAn<^~rTbH<B$;U7SgKg6;1%;~><VN6$eYacvI||w
zJ~B?RBF5}HDXGL%lS)c<kw)n<ymnKvlWsAnlVq<5qopPShzT@R$m}zV3L_rHg~WrD
ze{7WEAJZ5-hM~!UBrWM!zE8iBq4g~Od#d~=6#OX#M0Dh!3Zpm|!rWsZO^o^c4xlz^
zv5aJ<W$VvLCp2dW*-<N75SqK?jd_2)nx;(6HmPP?wyq^p*C*BWW$Rlr_5D(P|LUum
zCr?ZGt3M5!LZ&(*RY$VrHP>U;V%n{uHdE0fRrDa8DescXyRtACRBe~4wlfF9h*TLN
z0Ydp>-h+&!H3U_X*80yRX*8k#r$mP|AsKd=sf7&!38|oolPb7KVXlcIJe(yAVg>|c
z_NHGz71^!0S0~1>-bwBV+Y00k@%IVLuIM~dB-JzK!ytV$KVng+By*D1#4n)k&n|!5
zFRsWGH%Y}!%f0Kx+ve?Ar}u65f_riQayx8m*+BW?>uZ4qNU4vb#@|KvA_YS<n5`v<
zdW{-WM5V?oYM{m}ZJ@?1ZJ@?1ZJ@?1tx#hYRj4tG9_0PDMqPqHyikHbmhxyc_D$qi
z#gyE}B1+8keS-IA(Dp&!H|l2&h%PuFx&(LJZAJ&+fM}Wz?VbnPJulPl`JmnN$tC*2
z(D$u8LQ-H@a34LRaXAx3Wc2m`*!joPThoulpw7z+4)3F3x?rO*rzu>F7CXD}iJ4Jm
z#|%`1isCJ$ScJBMgE|rPOjjhLN1e85eJ}`}wwc>(W*t{v#v(4;s?;!^3dKTY4rzd6
z<IXGh1oCCpX{BLo4)ROW5DK0}pO18<1~rQvf*OQaZ%&gxPrglNyn(@ga)RpOZ5Lh`
znci!@O!b%3c_cvT@jMiAO?p-R<$M|(pv?H8N7dEeqj?X4bq4Pg^QC>O+$PUX^QSZ!
zDOxvqcI2A8E5Sx0vF;tGeoYvIu1d~(a&FnK$rw~V(qznfk51-~r+zo+QCAwL!-hHj
z)b9tQGw~KfuGw3%vS)T-1a5;zV7b;W_&(1NQxr3;vH0gGxTF-``|hzBSL7A!m0}w|
ziVT}I2r11tB9p8H4r$O0Phg9kmzXZVGhR<o+Y)5B!oa^BL5AX0RZ7sLRc2fFR0c7S
zo=n4fsB>@Pp8*~YNz`!sYV6hF#B^K*Ey;sweac12;n&4=s^YjjoI>Lwdm`EXio(P?
zXy+I00&>v)FSu}t^qtC1?J1R=BzEP&L|P-Vl|9_!6cP+gzXEviID#!X#hQn4zs@0k
zo(S;YBOng3#NY;$C3dh^s=)>g_{rQY*|lD>d)|?S+egD5sbLT0)?$}JCeR`UT9z+K
zf!@{P+kx$C&h2Y~?eNvfRP{<#y{nZ{)ov(={aMms?~|ID8&E@*?5E`KvV7^br<VwO
zC{x-cm3FPXAeHvt;%}GkS@Z5$E8PPNURll3g-l()guhKicWWD#d9rivm0I@Rx+Jw6
zU9UYx!>YRLfzEqr?;TJ3%C2udee>zH?qk{7=6BD$b7p?vD}(oHn^iS+Yi9c~34f?I
z@YZ0qqWb#8wTb2QdviDDq>6shyu--}o+(mg=Su%K_ut$vRnoI~RoACwL8|Pc^nL7%
z$vZ9u-yU2T#Ac3+w^8yovWV))MBFc9eP3ED?Z8GD*nQzhMH^u{b@=7}_x9f)i)_Bd
z;tIXu3u~oq(79JqMGxuR;V2b+duU;ZZc4XrpI$i4roT(70u!$GXz-abD&!w>Xklvj
z|BA)*DL32{&0)8fsdIv<3kA@HPI%FYdYR{5DiV0Orl{7xm%(_<+2-ubje|6A1(%|E
z)HYf(7Y=%sf-CP-!OQ|KjNS$IsAxzewhbE&iy$S!P4z>h;242DscBJ0T>Kjfen`Q8
zMi6!z7<0yx7vWo0{1o_CWd4fGzbbp^6DD5;Y*iEg3bj&1H5kKQ$hGG+BZoB1q*)8T
zL*M5(DuP>gb0rnm>#o%;&8-*rF4*Ub=AX@$lwS{D3ol)G_ZQyzg_YKC_T22bW&N)A
z+upU>qaSQv46m0AEjVa*(fly2@3CuR_-3A19$v5LocCnQLf21SJGJatFY8%w&D$5T
z?Wla-$2eSQRy9Mt|5Mu%p2s*py~$o8XbRq-XIwy}KqUvOePEAjw8vfL|0!l*|0!wU
z{wZl-{we9F9YoX+_7Y(SQ8C3{<)KW~Ieo;@q&x6-?LzG*E~MBLu(54o@-?EpLE1Po
zCLc!qz|X+uE9U+G9Y%fMBaQub!N1AaAC&7KCJFz1eH?w3Og>mf<Z<$WaXTt`G8Jf^
zR5Ss;g<51+TL0|9lbUg0rrNnpnkSY2A}<lmbb#G$jEw#c`UpD>JOf*vB!-*W3dHZA
zU`vAA@#xvriSJ*~!haSm5%Jx$@3OpujIQ4DtT&|o<#i@LhpICvd5q3Pc1=yD#>i7W
z#oWOZi-3`5q&P$QZz2MeUj)l5c`KS*RdpwdIm?!oSA$O)L$OM0`a487>NRWmdfuDS
zLMwo5uVKqjm{$f%h5=0jLKG?g2uuxPs{Uwy%*3lIkb5-mgJ=^-)&FyuU{~vw-0PvI
zA2z~1!UXXndI$>0^Cd+_ivoP7I4TvFYf2A_s7Q}R4Oow*4QP+04S0{G4N4D|R+Jtr
zswh2JG~%~)+=HET-?e=?8{+6ORL5+n4oW#U*-%}`QjjA(2#$E*2gTn)Oy;{}{^$r|
z`lU%08?AU;BeJAZY`zBh6dUucaqFm+={am~`lB}5mTxAF(^h@6eCRoxKx|ItO%>d-
zw%fcmZS)sh>_`Cb77$A57QM$=>8Kl?RJN#F@W(xIZ`^9$(x`>}ZRkIq#TU0y45JTV
z^w9I*K!E_(ezEM=*Y6;CSTS3^`1gR7J+#kT^RXg?HG)}X7coeLE$JKENFepA{1>fX
zw0+V3MaLJNn~nr<J#5G|lkLq|v@em95n+ph>q~az>za~$;g_uDIQmQEBdo2AJUI6y
z#{#^K^SeqHY-Z9lAoRZSdJ<qO6UiGbm`J7?JBgNb_E6vfYa(O6O1c7FA0b%Mwc3D3
zE%VlS+q`|=G4C9;2}N&u=Zf-nk-S#Hyj{(&7c|cT&4A*frD8~8bJ45DXi%K2T<k*J
zM1~h|ki{j-W1m)+z0<u~d**eJ8_^*0_pdt*GpElLsHkg5%mGZ<wyZ5lsz=0{hP&}4
z1ixy-Lexv~!qmq_k$w?c&^i&==b}y29G}*g-h$O^dCv0M=QU@sz=3E1%WuK9P_*D!
zz!qt+04m|fM`j(8`3O@xgdLy4=L-t@3mBqo7nw95R~|ZjIyP|h$eDqo=VGT1y@c?>
zOJ|Rs7vBRE_y@*Iyh}Aaio+Q@+CfoE>_oO=Z(^Hwo<uT5>lxy}8+0)}zU-o-epua^
zuFdE`=NlsX*lwrPfrt(pz=xlD35|i3xErcjI`;11JA*4NE3d5AKC#*))%LH4cFv!;
zTm3{fSdj@vq+n#_subMwQIVy_KY!{YNZ<{$horiN_K+xljkK!-VrrQ`$2om|hW4R<
zVM9wXtYjd`jD4yyuusbvi|o2Qs^P2~NE@6qXf9;;t8|`@V%KY=@*|Y%jnlz8sy8^B
zSEg5CThEw;LF-d|pFllqH<vP7vI~2-)Tmt@B&~J1;W0<oDE!^;5~!Wo21hmdZi6~v
zZ}g`WV~=3+5=Ewc(WJYBbQukGm0P^Uf4~QkDn{^+cx6tXcIL*t=3eYik(&2rng^uj
z0a#fon=_StQf1#fG!LfH>b6YvPN{n5eBhqyF-TUrZmF7fWd-inZYTA?nT0dDPGQ4V
zR0kabbS03Tuv$hl_4}myeQT9a&%EW$S$!`5*G4|!aQlb??6KK1z~A)-7VXN~S@-s>
zR()^udoO<Q!rGDN9u!&jxFzRKYB03a`nAYP>({#<*tu;l@L6B&()gM;ys|6Py<h6y
z4+rsWtm7VRTdJ(5j<-qm+g3+2yUs|v&fKXuOXq>Gr6#+SBVWb@lg&4TKj{BPD}u-C
zDpaRFu$KP_c=+}`gPVwx^SBg|PwnuIfU@%RerNJx5~IhFg7Oaf=m^QN<2*8fMk&y^
zT(utPUUPP{XBZNRbH&L%hSQC-6O&{g>nDXnm9X4Xo6daD>G>#zXhfZ~>ggJ%VHaFt
z)vWdNkfY{o6U9KWy2T_9W-wLS1nk_I@Pp%5tR+yk5DLYfpCSeM&e`+!8MLO;T|;YI
z>A_9tyQY{K;64LdJ?8+Dc7W%HZXC#&UL-CiFF?ifR*BU>Ec7SVwfhP*g(<(mB^zxC
z*01R@%6ZVvah+b~>rkH>nNfRm&e}j2Y(sf;27fYoafS?KLk*LlfE|e6!283gS7Tx-
z&Gy)e4!kOnCSBwy_D>Y!5R<)t!}&fc*b|grgnVuP3#~$>Hz&nh6nvF{zJ)-xF-*o(
zOPj>aMuX9}q5#3DQcf4G&JWNC+u-R9efdDf({bC=0l(3;KxekG_nPlsV{4|dUux`M
zeQCY%=|$Sqxp4emX~$aWjy3NNgxT6{s|`}^q4`0a;<Iv6s(f<(`2F&lrGa-(y>p7T
zGVYPWdv5iA_rSLg{B`-s`J+E*?<N{j-<_>$df>2j_?hSGJG*m5T*WCK`%HtiU;d>`
zpzC&^>uza#wz==ti&F3yumTYoi_Z_?18%TSz4O%a-0J1^ny1xWGc;spt%4RD$`Na+
zO}a~B<`_QsEW+zBCJ6j*DlWt*D7?hIkGALw76GCOmXC?9((FSp_%z~lF~P1aXdH*2
zeuQ&H6P8OHm_(hOMC-a4DnCALvFn_VHNU{MGJK-^0Jq402K)nCz|e`}PzC#|*n?$Y
zitTxy1KOhZ2LD#|tOcLn%czApnsd&%=G?O`)Z<0|E$^&-TxSvU<3YL3_)#n4WVk4}
z1eZ2i5uetqm9^Jz*k1q+O#9%_(;+B&><ra-W<6$3NOL$Ca@ITR0fKOAGs)van)rs5
z6WnvY*&;l}G@ige>wg)1A$yX5;aLKL2T+fHo}gij!A)b_hA{?}F{bOZ$2Bv5r5m+U
z!JBT@;)<|m{&d<*7@jhSJscSG*L|9)Y_52=IK{t}nhnn3K-Y;UtlX>*Gxt-&c#U&v
zS>)ex=4aKg8a;wPf9Q)gm-(KxvA`$AHr}C)K7R+I1TvzF$9j8fFUCQLGJqqofFPNU
z940QZ(~0*1q~~2x^8U`4r`Yqv|AIW_IIW`;J4?YN1w_xnHo0`<%2b+;s>I$8w98Jn
zQZw~~)|AX*2C1IK#<Ii_tu?6b>7Yf}2+1kz*o6qpgihKpC}8^%_(Zm+o}xH{j}Fy~
zrKU&dL`m7V>G;NQnfO1cNs_?iYK4nbs;b9d;8e#cGUqX#@G3z$z>t#xP__zV*uEd6
zGq{BOF^VZ1ycJK2v{Gb;h$9e&M{vq0_|_Dip(*xIZ`GJ{*^YxX(6VeD0pSn{vx(19
z&_p$hh6N#9qVO<&g027?JaR?rC>2x3C6}vDx_P*=M?1ZPhUjBQRjOl5VM`1~tY<3I
zA-h=xW!^pN6cL<Adl_UKD^<oF1g%p$RqHymNeU6HhaE~rS#bg8P-WUvG{F#p3NA$)
z^3wR!V>MGVc~hpskQob4620>yc!T@cVrzD<IqONg7kqo)m-gLn?a5$kOY1Y>ciSS_
z*1l|WD{Z&{70cA_mTGt3ZSP$X*7{F<@a%f~nFporHc+l6Y(;PDSo1dBuc%(?SDfS4
zYqqaf?3nl5ZEpLmwt3&(mM(0GoF7>1%?2u#S{FWdzjE7Z+3GK@R~}ikW=ks<_hrj!
zH|*T5)4UXXV$r>HY9*8{t%vEbv<oF<NyKi2<x{KG>y`T!t@lbRukXLMf4TBbX?R7r
z)s15S0CgXB(f-x4JEgmjxEE@{)`?Jf(Uxs&%QWtg8h0%Eeh{o%iZ6d=_4u9O{vQO(
zb9K}qwz{{5*Mg0I)6l>8O!ml0sqEn5$z{*VOShbmBe2;KE_oq3e4w*ut*jOImJZs?
zx$=v*POdjUvv}%$Wd!koJC%n3maXkr@j#4RJPO9Wt^2)GH%{FRH7=L_wy<0!g}PUs
z%k&<UdJlq<w^b|-LY{2s$%g8%b2b}l$u@<v&E46KZX83<P_g*T$3ZUCkZtH%vi=}c
zmpjCBjXOUY;JFaa4s4`O)2kQmRPOyjsPP^;wMw<Ui%0LacB8qa&)wNZ2Rf)-ls7N8
zt<>Eqd-5K3%X;f1Z{3pc*WQ-gc?;Ltox^Ft!8(m=xM>+0!hSQ-wHtPv64zk5&y?|U
zj8i*9AfPf>=IQCFL|kmZG8VT}@Dde85g7NOeoUDZ{C9w){sa*ydG8%M@-f$CdzN3G
z$+7#b9Y1FG+>1PK>scxPX6?<|9Ea$ww(s_QyJv%<SiAcU^4Z=eKJwJt>U0e);-nL<
zV)|MKrJP*D_SFHYes|7ANeFaIeap<#IjReTm}1*n3w2Ab?hPO19mFZ(wz}oxE6=U&
zxMgD|!yN-s?@_7sSPtBit?q*zAEf?b_a`jQI4|~Cgk$wfGs0|y@YNYrycQ11UFdVh
zpym~<g6(UT{LaCs6$&dH1NEEy7!Q>%oZAG?*DO)H;Jw60X{)Ob8)E};m$_@3d9Ffn
zp->IJY1R0osMpYz3rbg?0)>_lM~dyk)N2+SYWjr|p%f}=Upyd`#e=Gfx*RI%Vxc1L
z6DsjPAcRKkLKPIaB|<eu)vnKq9>G(X=3|^Ss8`0+)~#FCt~IZXL&nR65K~*%Zvnwd
zN1Z|g6w?(#;}%d`j817AV{F10D~0BG2s0KmZ$p_q;*{{LRdL2Mp=JweRx`DB4fusN
zIe!-Bu}SgB@N{Z8ae7d8UIfv)I5`oQZEQcW%pYRnIgV4d9ik%($RSoeVmXD(5**8P
z32LF(MEo^y2XyN3=DgJOMLO1!7!&X!LHb5Xy&~cydpKJwQhmNfxmdByEAls;<BU$&
z0AvSL?c`1*9;E6_3&c>xKD4|^>>&1@i1Wq@0;8O6CZC&Y(9MJlbDjDYHcu1D+)Tr+
zv45H>#37P8TP|Tf=-XAFd*$%1WfZV;9+<{UE>_&sm0jKp0tXy1cXx8uH)P`-6^$fP
zY{E9_Rhmdmsa9dW{j8PPs5q&aG-h_`GOS^VF!kmm>-`nc`~i#?GOn8ohBJYuq`*^I
zZ)L{YDtTKoUXbT5Lvoko-DODbmArd59M+&a$5~x&hUGTBUs7VT_e(prpk^{X;{|8V
z@@DVb%w7W9YLV$1FESG>*(rS1JVS5xUcvZV%xq)mhqM$0*U!>BV2Lp+xR7gNSAi`z
zuVS|h@4$2&QIB4aH?jjpQjJhcG!D|b=}0xw-U*xyPqyjdL?ez%Yh;@~8rf<}Mci(U
z7d(V*wtMvy<r)lOdmCRpeR_}@!}0q0I_DTuUr_A=QEviG594U(iA$Rs?PVj<cAn6I
zD0>^v(~XUK^Jont-88UX9KN5#uK>W4kb%%CVw>AhYNn>Z^(#L*pggbM3M>-J_7)ud
zmOs{C*)j5Gcn^wOp<8X84kG&t<c2-UVPMMy@edUI2MYd@0+L<}zHv4xxlBEig?M-R
z-2p`j|EE;vk11dc+r*<f0{jf+ves#c1=e@@p)Z{E@^gIQ57m?D3;&ns61Mt!uBKhn
zbZ5&NGG#qdSx=^HmsGZE-j%Iw%hc|aYIojpWp<yH@K<|w%~^Fn(5WH?Y+<hsXQ~fK
z)d#ZW^_lVx30@Wz4Vj8Q97W7>dZqH-Y-OXOZO?|9GNE26)C&^`Aqc06Ao51p%|<Vb
zlOtTr@I}a~c)*xr3^Qy&XGFomN3F2Sye1$t0K!Hl3M#m?nObB~6Jt`Yw8pq`3pf?&
zE1=&R(*#ujyg%}GSYQ{U2Trlp!Ypr4HR0$DO_h*$*h4+N7lU7Vk(s3xIHg)^Ie*{O
zgYM0ab82aZaiIrYC!DvwqAlG%slZYAKGrc^sH0;=sNhU6*?6-8X$(;-|K#SiT8;2Z
ze32Jjm#9Zw3yraLJ`4wlaxIs^S7<5d=;;hDvr$GgnEV}Tu_36#>}e8Q*fncUZ`b15
z8-ik~49c;7EkA!}eUS>H;2I}GWx-|Mg4s!<+RXFZTW6uyCu<tJ@LVQ+Y0#Jx-P;_>
zsRLTA{2dUDS_%+{wRrvx2>o3G;#j^!ivdD^Z-6+d<>&8!&>4F`V15fPK<Muj5a$ZZ
z*_!Lpa<7u-87vLEu^z!~GS-r&MBz059<gw@xJ(%g)l#_}OyPJPI@(>-Y^n4@45n75
zej=Gu?4y9%78@w`KPWgt0b^w88<T@{o@N@q@}d2RifAEtQgq4wO{$xe_+`p0CO3Gs
zfc+Q^PUxajxKtA>PqlASAAdx_H>ir8^gB3E^DC4?s73ZuBZgXEpiJgqUvRvqNT^;e
zBk+PFI#c4CR8&nx=7)WXOa)g$0Gp3D6=$d>D*%1Lp=8=&qT=UKz!Z=$-7}kD{*AC%
zrTu9*tMv8ZB)A7=f%eh!9!E9JbWc2q(cD{S%E@X!weX1rHNSy2egd0eac!nJEER_{
z#XF?p9kBG)v@;tjlr5RserQ{miS{0dUd@wI&68_5uX0n#{k+v!Jt`*KxQ*)6-7Rl{
z;^ph7Z&iG+a=qsSEVQc6pcBVGGBYr#OLTki-O`3-`-*G5bUTbT>hC#txu$Ka_RO|J
z(zZkEjfYvY&^-8x-#)o;GUFvq8de=Tz_JHA2dLThF6_;C>ef9t6|9w=HHpJM-}~&1
z&r-bkUVS5+?9XJY>*r6wJ^kJ4cd9d0U3aRw7HxM+p}e}&w*UL32he^?=X>2Zx))E8
zbMl#MXEJ47Qd!r^&Tl?-^Qlbt0jc}I_sgEndGK2kFebIMFAMKY-k4l(-lcTdu|3l<
zAax8-sx{lWBhz_I>V$Xy9dBDUvL_QcCq>Rtsyo~MM5g_))P9&!Ed{A?e<plf3LmGF
zH`{X^oVQ-le>_jG{sja>n~qh`g}~D&Vzy|kj>2o!as_BY-I_*(9<a&<Gw3Fw4#cPv
zY7GV(UqDO&r;<L3n+XhNA|lAbiy#X|+f&iQr&}?yU@9_zp};T07>?}6Zq__$$2d%w
z5I}gevCmq~2=aK1R-V5Trl1R?B5DPqWC!tt{cOrbHu=xd8({VVhU83e4?_|Ri74MT
zp&+?<dP*RZf{MkUe%2gI^;as=ca5Dqlkq~<wo$EIh>l`7*?1Vu4$tf~{o)^2EsS@W
z`eh7{dG-g(GJ%K`h^%cteLHY^&3Sq)a5~$H?It)FH`_Hp_l|7ao?8Q%eHSGBwXw5m
zo3rIr*Q3{>nez5K<?ZuF?*^)t+U_*%`F>z;wxZ_xm1|cPi?V$u7K`o#d$QsEbZ^gg
zMKWCjQr7^bI<mpi>z-?#Ot4o9_I^Lu_mPjQP(3`!Fuh3{ro~79H+Cb~YN4CCcIEvJ
zH0^^$p;AoG3LDoZHw<P;pJ_Fn)B*>Ly)=hplT?0BWoBU}69`Lz@Je_+(7)#FSH4?j
z%GZtS4>?-UO5GrSYHL3da!-amRsAl>5~@82uaI)}cxE$O{_mq@X3#er&up~b*P1@4
zYQx`857^2c5W5$EH*x$E+`<>Ht~Kwv<%23*Jv%b5>1JJRdTlgn_S%Sx+VUAqT}trc
zK(FY6l0!Qh3w#TmE5LXP=-C+A{3<|XyTV#*{y`i+{TLq3FIUeXoyi|tU{v&M20BGg
zO&kn94JS6eWQyCR;&$xJn!Pc*`kD3OBOsOfP8E?%VCD}@%$QLt2O}?F>7vImU#aHk
z7y1o#BB0PDA9dNzj94NjfS5aG5s-`F?gsrN(@^NeY<`%T4)a65xwdJ3SjCzA8F9u*
zF&ekd(UcIQ316||=H>qN;!ZXRnLx7?XkLDDwLi1tgtX(tTA+D7aB|IgQd#<>hzZvg
z+C92y#N=8eS3nm*hC?V|!C>YshsC;{R4bCJ@>x?bKthG07kQYIBk<wnNkQyKyULNB
z!_>_&N?xECkw=j}HiOCKvy=z}AGd6NsdH#57-;|wml2#|tr5oh&Bh``|TQ5jd&
zo~><PajfAyi?+^NeyQe}2ezUr`<k^J<`7ru$DFm?oh!1}Bc~b%Qdf0nOWQxvAe>xt
z_p)crT6fPD%vqe+gH+y>v*8W~#T}TRe)|^}esSq2Sr6B6$f>LIV+YDMia2{QgGPH4
zt5)mbuGU*Tztpn$;=<>aZObDoJ64O9lkmM+3-n8_ogX^@rZzzpc5{dM0sdodo9zTM
z8_}K2Ms&{!e89HtUOmQyJKApR%sD8AO-%j`7sZ-++s?dQX=mQ9w9{Z$@*3<)h@&CR
zu0$z=U5S#L>`EIR%Br;)Hc=tYo{~0EEm<X3?S_N0{1)3OehV`b6=`NBiYsfDUS{}t
z*%6BglOy;EHvCvDCkI9*p{8O#yO4?uUmQ_v;)L4ZCx|m5)A&`Zl;VE%0xc(EO5`&7
z5^0~XvfEd2T~#*N*03T%J7f5HNT?wr0**Wt>6ao?qLV5!kNb$CTU5@=0}G}sV6|bT
zETXB<*s-;8kTr~-qDzZo7wLB!*bg-*n~$3c%g}r>IXywYd`Z72F*(JKQI;DXg46m?
zG>eM=SsR05rW0^B%1^(k-nkJRCZqn2r}DFOt&f1!4_0Q54kBqQ<gQNxAA$ZBlTPXh
z`B5D(Ns&BjnWwF+%!2v2u{#<+5z2mbk8P4xerAFUOmg=lhV+n3%S7GYN7P_eg@|HX
zU`K^+7l|X4dp>0y<<ZH6qUcyV9#N0|_M`gSqRNl3?RW&V;uEdEa2@L^B7Gwb()7WU
z2~|i;M0L_oM%hH8Y^I8)ONLcUMVOB&e#H}K-M3JMRtnlEAPtDvK>-mUF^oWFYWPUO
zOH^A@dSzshQ5xpf(o0o|%TkmS+o%yAn+EMiMnuB?>e^4^XG>Dxf#743im~?8FEOS3
zo}GP=5iI40I9{e!e}e+1g7_}QBno~+!A~e)+7U)7rYL!mf)fa2=ROP?r0;<EuYhLo
z$EB_y%oXuG|4}=~xBo5Y`ym(kkgNS$&if%(_IF&@hur=ja{DB1--le^54kfRazh_-
zyFcWf`5|}WLv9f9Pb@axvcVzvv6thI^B;0YKd}@c<>dHhcozM{iS#E<Cjt(^M-+Tg
zvMKrF5{^f|Pd%`=^2LkWukX3G=K+W4gCYJZ&mZKqES7lidQl(Wu_V5G^_{B^I7A-^
zd}}@fQB>>W8<$JotGZD|5RHI1%JUUVCGS?fgB*%KIBRL=JC@JA_tK4*9&m`}F7TYY
zHS221x;hYk<g(RR*0@TrqL#`Bmb8VhTReCDrE4#3a1;mivQ*|+_JaxAh=o7JXRY=x
fp7{KUthG364Q8$WtkuinWm#+ekBb=ydl~-==faM<

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nemotron_nas.cpython-312.pyc b/model_executor/models/__pycache__/nemotron_nas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6489266821ec8b6a451905ddf69ba05801d297c6
GIT binary patch
literal 17261
zcmb_^d2k%pnP2zZ_Y8<*a16k~&A~As2@oVDk|NE+JRw=9cOvZ=L^sF*=YYD06p0LM
z%26V~q9d@f4#8dS3bLybDCEY>e{}w_l5#dmrLu)4xI3c`8Pl;gTS}!;BLgmNZRL;r
zzSq+|185+-DrsWAe*NzE`n~V?y|4M7y<QiGD`|Nz@$Zju+^^|DzZ|8&+W+D??iMF-
zF;3tGQ<6`aVkVx#=A=1giCI|KlC-95F&hh8llGV$>9(Xj<%l_0oIUAGxneFBb|l>?
zPt3!@&ZIZxi}_gCmGq|qu|TROR>Pj%$!)3HSS<^Cl69&2SUn4SlMSh0EXcyXWMir+
z*2Kd8WOJ$|*22PpWGK}dYfZJq+SqeVa(gNq3#Zy+?d*A5vLn?Q>r8dUy4Z7VvOCoi
z>p{3qs89B$cEon1BC$xSFV@H68j}5~f!IK5FgBQq#-gdA*idR`Y-eg$Y!}jl;%=c)
z92T0y;Ypj&{Ej6yBDCN+WW=>1ZjXukCMUGL!wK8P&bwx9eq*C7HjLPI(J__Qr@wqR
za_$p-EN=($c7A={yQSi>{j5Y6N_1B*Ax6YLamQU-sW;DDvqpMm4xLI*ijtU~5C=2q
z<h8IMP9(yqj36e%6PeWXcs6l9DTd!lWG{wKUcPW4k-l(Zd;$?-;=;wO9Q~Xsi}0%B
zR92M6kriQELQW<oC}cj8zBY!tDV+v&pG}UZ#*b#wlZgv>^d8A(#dJ22Nxyt;nsV36
zm#3#QQZ}B=ND~+1)O-RJnpF4E@rjF~R#0`lnoOpQN<0_DY<zk;enHAyo<<$^7tg&k
zmXT5j`p;%AB(m}gQf5Mw<&1==ZQr^)juvMys!ZCb!$EaO8T7%V`d%29#*;}gdG_2%
zaa>RvUd>F5pVuRgr_PIlfH^?UdO@5Vznsj*wW)|FGvk6NsZFWzYv;wdB&Nov<Cm_)
z<%#j67*CI<SnX^EjB%?D_I&Q_3+P+zsWhfAB?^i0toX8+Mvvvsu^+jJS#_Kom&Y>C
zPs^(3C2fx6vzZr<s4o5Kg%=_=wdTm>Z00rX#hlf8<9p$Sa|u~SkI#-@L+^qKnPw}c
z#l@#F*p!H7)!x+jB{43hrnA@LiHeTI@rtM?@yYQCyq0UKn`KN=ZRm|Q*l9_eOk7nR
zlauLq3R9xm(x~dZpxPucds#|Pn6xFws0EZZ#M(DNZgE)}BD(}W$IVzdF2@rUOfznd
zyIV?~HDybi2<axle798NOI*Y<_BlO#PU)X>$d7kp#t>9rd@_+1ScekRSVv~516ia_
z5VdB*80Ex_C{y`xIQ;ixL)p~y&~##YFgq?`Wei@uym$Y;OMAtkWa9kL^tJ58OnT@F
z*5DA^C2{epIDvVWv`2X;Ev7PADU-%Km!s3y)V8=jEm+qZ=a$-)2GQ;j{NxD8b?&pq
zmc=7Wj@xIKN0rd7`$v?}p4G<D6-)hNchgF9|ME+#?p-UEU2Dk9seD@HFKw7z8U_8<
z20(6cIhsvuc!9sP17kPkxR<mzr0Qui5Db_{)0jl__z^<V5CYOp5SgOFVTo#!`gHP5
zO6dZ*&ONm|=61b(d4d1_Ou-+Ra}?a3xi{zcEF4+nZyuk2ZpG3pMUim=KjUgGh1UK8
zfp^hMk&E#VIwlf2f*C&x{+R@;Xr9tVlTn!CCY^#!v<i07COGhO;^z|Wf?ITmPSG`K
zYC>MD9y_Q9X<pG?dh&@L!H-`+^p;|3M5nL~zgodG8JgoJd7<tdZ_HP<u5vw;+a}b5
z&HLxLt9&eg*=tb!$G|zyo-;Q0=Yd|18~dCKbKD7)Q*9HB@2T#K2|*CkaeDWvGkrM~
zzX(2qtwcfa3+>58>?oeSC}zi14+|3?!8TTdsqw4v>5QBp7Dl^FV@RmrP2z3fn#5jJ
z%lX8(th$NDGx2FDGo^Yah>PkOY^6=>9M5Lc@hmv7L~nG$S25FmgxO*`fWVJ<Y*r(2
z-k0Nk$Tn-vlr!fnIcv_Av*#Q+XU>&#=R7&@U9Xmz=dN)d@nhJPR`7SQ8b=(vAd!v7
zBYxE)i^)l8A970ji9AE(St8V=bdbm)BF_;yOoaA|^bI0Mi5vq_o$>fYa$J_<ahdvz
zZCr6(*H-UIB+N8!dPz~eFV7=YrY`*5b#6V(IeqhX#nD*sY%6$z1y6m!gKz_*os0%p
zyq2N<w=F)WOIzm_RH0u^1laWbB?3^Z_*qMt+vTv<buK3Pa{LtSv`v>_zCvX%&DxdY
zrb@zFkD>dPu~qgC@-j8BvOIBAyg+WsvoV&Q?pf|)AJLWL;-wIW7aFmSy{rbmx(wMu
z!mIW`!ek*x<JZQewCZLnI7!lf1ab<C8?5zOTu7uyf|QptR_(YfvbU~!A*s@0=4xEd
zUQ3E<Jw#PDfeK4yHE|SisP>EFGM2C;okb_50Ep_KJw&x@ONXtbmncDR7`rB7l}=Fs
zw)EICV=L@M#K|<@Z2ho>qXx9)T51?&XTo1uMQlNrb7ZI*5#%~o^l?qCbKb}9Z409-
zEhCTIdkUeBeCQb^^h}X6ALV_Zt-iT)>n^SZODpjHx%qR2V9Tx9o3n+c)_l_*rD;#0
zrvBFUo7)Rb-G%1fLPt-&<ABm}VBPO%am`tN=w~Z0QbQYy^o)31b;aWlPM4v0#8po`
z4$hF&QY2avs{PpUqt72Z{-Q*0R3f>fS|_2uWL1lhn8>PTygP|zL89G+x01;uC0aKU
zZ6fJ4iu9JY+=Q4+#^WFH(rLuX5Wn1EZNH6BRw84R05gL7yLV_dT008S-G$!%!tT*R
zeRCnyUg#exG&B~Pdh$(Cr78MFYn#>eG|*DC;$F0I4NXNmg&bU6u;`?aiwiav-4yb0
z_02^ug?wDFWpQ}PytwaXdMT?k^cVdU9pE~;i!~J5#swqGBTB<iv6dd|IDc)io<a>=
zLvt}mp++v)v2;vn*imev$7ZgkuGm7M5H(HRDz<Sh-*2~5=rG>^YWqsFc8YcwjXCMj
zg;HO-5n^wOP09v=SmKo2S^-m4DG;3;{SzRrM6+NPAr>L{cqZDc5N%q>2H^)AY|_I7
zm;(aL0io!eszYU)E(pr%@$N0+wHEB+7U|VXX(D*iA$TAn(JP2ZFGQqI-KOmuP}mm|
z(@4kI4pf~?p^PVls~T%(o00K%CX_0<9xX}6RZZZvn}m{I6H2;C#6$a;s^rL}>Buo1
zVb+$jRpY1CbPjO8G8eX0<CI&JGI%C>Ld<E?g?bGxovqaqAsa|K&?s@u+Bc+_1<puu
z<Q#8@Hl$k0sgfUUR#^l&hhQO|xS^a?uo<;FH>B7Fhn{kkm%aSPa?Wz<tSjf5b!UUD
z(;ygy%aCv$^rcZxDc@11szj1=$lqMfr-!z9V<A1ge4l|lo%Lk5>oGZ47ggUt^>#cZ
zWyZqP8FSA1C!FB^Q`0@q-IA2Vn={^LwzJ&I7H!Zn-gMpb>a&Bo%I}_=s#L*BW#soT
z@+$IqYR9HZ@i^<v_Uo}ZZ}oMjw><01lKsK1E#`-Glc=7je9u`ntP)>&9k99bW3B=^
z)PV6B@BaV8T#<s$u4|-;)QoAm;vPh4szW#<B>+@FS*TPlDs*K{FBnAu)d$@{10mw1
zE1zIGrs{YTnm9erxT2(?#z{$zc>Z4$)sKLNh%n$CspPa)wIzyR#HJ~}^u|<I$u@wg
zU7_$28;mqd-=y)8{8hc@lbMN2B}HCVNrTshpjy+JcxGCyjg#_3LF#xZ%?vXXQrk$u
zBWqf<!^lN8Nt&b<UM6ypnyDp=#3)}fOaf^w0G&v~T$nUdoyIIlB+Ov5q^Ji{Do$he
zC(_fGvvJ1bDN-}UY2ir?M3Pj*jM-2dp;Bfm8a0YU0u}n2K!unIV8{v8Q#mP{t%nO#
zfEf<Vw&<WonsH5Op?zFoFHo@3W@!1U)H2M5c@&i$U^Qem1a!0Ek)yc~Y|RJzm0<t!
zDJ3{M=P7g!<vaH)o%{2h&ncbH%~>8f!iCmIzI9M(9n7~5E3Ly6*Zj1lJ>N2@v<%Wy
z<Kz0!;;T!q-`}%Zzkkm4IM}v$W$C;3v#Y@asL>r<ad+Oc!$w)D8+~9|H=81)dDH~+
zfxSv#Z_&(on^u~hRXhjQZCq#Ha?i@{GoQS?+VSFwV>@D++m{+vBKsfgS#3J<8_v}1
z`o(LgYT?A<@invQ1n-*jk#^HP=l+aT*TrWZxqAw&ogc(+$LGeL`fKz4-iQ9)r-6oi
zpic?(EhqEQV@mW`KKhD+zrZW3c{I~Dh^Z)q!uimE5*jEphx5%NO7jTDUTEniy5l*b
z^__)KF9n*zi;YXoE5U*FCU2W>?%0j7^$^$9zdV}nKdAH{{CG5f^i}2PtB*Qgn>+T%
z6J|YWf9P*71UvJ=UM1L@5AIZgJLgV54j(E68W(%=%>zpF0LIkrTk*86JGjPhxjP-h
z1)A^yrDXt(YttROU%y(vSL;aK!uQs__D1T*Nxa{|kpd04LkV;&+wwb}Rdzg!X&*%L
zUwI<MRxZ%NG(6R*TSl_#)$M)kF%jEe66J&deSD%)FQG8gX@IaZ)Mg41n=gq^AIh1p
z*X2yJX7K8gc2JosXDZ`m>H4km<P7xeb&`=<ZH9JJt`8E^bdNVA1+b%P+LGLZc(Qai
zT?7m0Wh>foZ_0+p%3f2cNfSe(07K=FD$Rm`OHNbxDv>KhBqB3Ju7N}>8h0=XNZ&=Q
zOw&rcS+nEplNsr)aY>kIuCk#^X)9FhPe5R}1vpP2@9uo)CbR6RKe*!GUTE2|;3$N<
z^5GFBJaYey)$q}q-lu)heBU9Z@6dzUPcE+Zy`}_u7rcvCvB*9cyFFHD?ku$R7p+`t
z{~E_EJy<P)y1bt)+Md3A&rzl4Xd%$Lcol23*Qa<o=guwe!`^Fc|KQ~9lS^-`hKA?P
z75t&ai!1(~6-SR|?wQBNq`l~9#3y|lH|Y<E#E2M1oo2F;zAXJA5hgsW3|v=jFEd<M
zwPr5^8<nn8`ge$ogH)Pv6BJ2gjuQSHgv>Y>H?WfoxQ50ryvKQ~kJ)P!K)+!t*;x=)
zP|2QhvS-+BB@@ieo;_q>vEne_U|0EB?3k&=+WWM&@z#Nx2Z~mNQDtN6t=!FA(N0ee
z4rv272bSuTZQVsDMZv!E&s}~$H=kR4<%8F6zrNy+D9*kw-AL0cF6ux1j7wLg)<&@5
zDlIO7hoxn@0~oSoZNbhG&7^Tm+L(Q1d&h?pFFQ_Hwi&e<0RWO!<0mbG6Sj~Gwp`7Y
zWnIj!1B_X<W)EOYEr)lD99rrYJrLbg`=m?oy<?3L4C)nqqP2QWn*By&#(4aqm5tsa
z1TcaCv*v2BLAR+++D7N-q)1zcCI-l<F3pr9L{W7UPF_+}G`Q}cpw<b@IlIiDWZKbv
z%>w!({$2CC)^~01+Baa0j^EF$tHz#wV1xSVV6AN+Kd>Uc3KaGO`@9Y6s$p=>+wo*D
z$9Y>d<s3PT7LcRLx<C$tMP}>uj@&H;rbr3ebje}VWGKz$MCm}4@>L8aX-8Iv*$E)5
z(kIm4R<2hM&D+89>3!fruSqpxSK41z-1UA}rVFNQm!5ahG-sW&&6(%ySoh|4Jb*BJ
z^)$4)Ll2klfFDgTuq-edta|IOqZeqwm@R~jc|zDQGk?$d=*{lZ+uLH~wyE8Ej`IDU
zO&4Nl)0pQiX2VF&5@%)?kQv7XQ}q@rYBmg57&K0tm}=_(QB+}U7OIX|J6Vcr#OQxy
zsXRTaF6|kP04YzGz)%lEL*Px^yk*{;<L6ED)*N@we7CgBvAHc{Dj$_-`F&(6cLfre
zVTCqHo=zsR5X#g+Ng(nKBKwHY4rgU#+C)&LacKhBN$0GLJIr(&yu(nXqX%Hsj3?zo
zQ6n3C1q@LBG0w$Kd~ojex#iB~H&<~o)~<v`RvY)so%*!46<S##&{PP7NP`TvuDfk@
zz*TKtA7lSB_9$yr21?0#oS-g}UcuCaNNa^{<<SoHN~b8!i<3I{VgqF628~knOao%h
zW-j3*Cn2bAJkhZ*0a&W*3LP1<10IRw41=;K6A}y?X*_*Nt<5IH_*)rCsIW*?59~6W
zU}#w++OC>$=3ys1T1&D-TUwLlVXC->9Up1uN!kciw+v{#G|Q?}#Q7&nP;FW|v(BWq
zsIY}uVuX*V+keO5Z^WsoSMMTonT<<7q{s4$XOqKFVB&R9yS@`XeE4vsCB^VRCNYe+
zUPM;;0N(TefdS>KFrc2+gz_~Jr6!WE8CGhB=WK;wM?N^D1czYyl!H$jLUWcI?m}n>
z8B9$~n~y3jQD#0pC2ON!Y3@fB|7Y&tdx!Gw-iPj9*g1Jm&qGhoy#sd-<@--O>_72Y
zc(f3xyXC*>H#B^#rFFZdohkRN>mIIsXf?c(jE>f##o_ebnfQ{!tw?0Oj@y5XXVrEo
zo-R5tY6vZSd-1iE+HTab-=#SAupTXT-H9%D-RlS1?`fp&^gML;JZ{{+WXp$lE8*P_
zZ25g>lznF&HJ+V2_QO-3HTJAF?tt-e>a(F&3*OM;)QTsfn?g_*cLM+aE5|^|=+La}
zgdl4td8KWS3DzVm_$jwWOqz~`r*s)isiiB&>&)RLPC9`|@S$6{fd`zzP5LvC$^&85
zuPsia-I=EHw%(KkcN<P7)^(jLkntE+{NbghRe%4Aqn~wujA{F7-G+mCU>D?kfE`2t
zf~;*AdBTv#sE?Qo8`-}=3zZB}mr~UZ)}*GK<!zi=&RWwon2XB#P#s<6xtO&I+^j9_
zgXv{D&3&KGnFXFSqFF0KB_LTa1EeM9%r4Yu=mUBj$+Bwt24Zzxw4Budc#m;!0D7AR
z%v(+GkZVmGPFziN_G(B?y!BZtpl!QgnE@0tYroO4b*>vbEfo$J#*7(KzuYC+R{{5-
zJ;8d%FgD4hV9Jow<ua^arB%pGK<lhCXN7pNjg`4Cb2?z62I8g6liiGUN`Hjfqz{Q$
zh>&F_-6rzKM5c-Sb0VY-NOwRYuJT&d?8hHd(ocvOwW~hBd)jF@JVeB+s#Rl>d|W1#
z5Ui_oX(w6N5jRs)UfLyFF+xlFe<O`?E^RwA?&1%v_;(b-gD?#ZQ}GX0!_O^vaj-Xk
z@@Z}FO6~B9XBe~)+IfGw5;_6{4^Yu*CAfF)<kP0+Ip5>@mc?TqoVk5wxh@~suK=eR
z`T3!r9s29~({slQwT=1OfrqsNpY{#icRo1y$&S^&mvpN$(6-dB1Uhf}eziIA_SK@B
zYdFJ$%?3j6eK+s#d+6_bT-#IV7<%w+C2#`#grug)>w}F2<8}Y-{Y!7$Ke^g+5GUbt
z-i0?|gRVG28ndyN9Kbd>pU@6qd(i}Xi@Sg$?;rDU-N8g@7uE@-Z@Tn#r*ofKbNR?y
zPn)&m_+#7x|HijCuC$hH0#^PNPU3HP1OW6`VDAg?Ltrrkeh_EabiIACdVEy?!>ae^
zDnDzN&cMsT&i1_{>(;BqQHnKd>|cEkVwKyb$n4&9>0=RWm!Jc~8ON5kU?<sFtv2jZ
zCw8-;Z{qOEGF7vw3OwfQdcSz?#=Kx>Bld6Dod)m%9%a4G-?)=Afs?$BnZxYQ;*e(6
z10N0R6`tlUXRW$--8tj%hH9Cj9k%HL<X?KT5_06=tbqDPvNRlaA&%2^T%;Vq3^H4i
z@iRkL)^nq0PJIq?9(^u(j_1<HE!^+yfvwa7(*l2^Zi_xpT1UATzxzGv{n1CU<vTIf
z3Xe5<<7M>M0zL;#-WoCgy)#P33FLzVP4rF88Haxp{%HRSV@K2_7RCIn%8^<DmA`@t
zywM8)5961owMtytBUQ+_CkhcRGvkPsaxiu}Q(N{&h$hlk;**m2=1hG><U~f+xS+5h
z8s37XXw|#Hw~;jlFCOw}oUumfd<5vz8)#Y$kb8kp_9v9#Lm+C07^<K2d5zn$qLPdf
z66pe}nOs23(48eZr&R5dIGu!dsp^2@DwEHtL?){AuR$VSjj=CN#s+A)6PNS`Wt{U&
zPm^;L^l&&d%JBVw7lW61WR^N5L*GRgjYw@^s;lgtsajcK)|l#IVdhSux=WM5$~)wX
zfDobQ%Mh-dE+^PsGjcrCYRM;5o@ppcjmr2lBszWpa-I8)$==~wakK$lh6lq)zGbJ<
zvU9a%_iDrNocnP{_fNXvJkr^xc(%_STNo_(yOu4Ae*nmK!QZporTC*OyH9=cva<VI
zfXQl_4Bcu4dD=SiZ9_`iP`>RsrR}+oEvs$ER|3ZuTp-BY)U|Y4X&hRxJ`VRTTbIB0
z=<qA6;a3;DPrG;LyGNDo(bevK4~{(SK6vxo#|Kxw^`dh0rJ|XuY5M~0v@MEDZ#)VN
z1GdZuAa2^1`W^)aS*IEnyXL?5S#an5y8HidHF$KvQm73s94OR<{_CDIN?_N5Yw^r-
zW1+TfNl<G05KX==!1k8T+;7IQ#)9Q(ZSdB?n+KPIk7^^!!h?P#dK|evtL<AJxnK9F
zb`%d!8$02q(HL2<7Q)^6@URjdUhsYj1QngSfAUe_;HQClfbpYe`C<oG*SNX5Pb;g#
zL%F(5Gf}FN#_4Iwds-Dw>!R@2p3b7k<3yr3$#a2LT_9@u^0v)b>;x@e5*N&BQ!UKT
z?j$|GP2~GTJ|w~vnClcG0V(|>BL9ZSza#P;BI6*H$m~C+NFt<z$SMdSvmP$kR2Vw)
z8}|rvPiY7j?G(bfP+ieUAs1JVW1)VfZs4~pPm<@Y1IzV44Sf_UatJ=?{`tVq2G%GD
z2t2y`3wPMsTEb(Ox|G_Uq7@NXKy^(FqP5eLgWJCQ{xPL(U(rdAt`cI4mmKUXQU&Oj
z%m038KD5%<uQ>bHycBngKV)rPI=TGH{ox1JpL>4hSs6a23?5gyP82z$d@}rr{GaxH
zNkOJ`u))%d8ker9uKinnBaEx59^_4W0p6r{Ofj<n4+p`HkOhDYAF~Qh!6mo_51ea!
zf?o(AZw-7;x4{?GK_3R(@yBdJgAlyK!`<HwcYnvEg#p0L0Dzssj&iKf0!Y<`4*=ZN
z06U?zdOV=9HUO$#=HL_AvUIq5X?#H76SgzJxMPbPTIv?9i@p*Z+=;&Xg|02?*rK%7
zGDgr%kg(7r)`;8SeOq<>6<~6!SSvb6J3z@^l&oW5ay<lPpUTwhv*%7^q@&}P<#D**
z!|mNx5|%biLaMfsP;@eJ$edd3C6Nc8Lw0DddAe4LOEsX`r_3NFkVaN(GMBS-AYG1v
z?Ln5VY6o0R-h<L#;%P<$gG%6$cJA~a5HI}&k^e~fZJKYbb})5~Vw^(et+Xc4XYf3;
zjR8tg%^YTc5u6INI09fIe$A*!Q(4nnZ{l|ezbp7<DxDK3uj-i;A@fS+2XgGfZ#RC!
zn(IBw<3k%2149qlSebFeaC+&VqAAIMatwTt3^f97i2tl5@wCae3a~gi{OU^VR=!o$
z)NY(tRt4dq)Z-+x46j2uC#kyW%JEr4nTGGbaUyxo@SjB;hQVD{g!P_Q^MR7?RQM^G
ztL@vIxvKw>WkX*KMH_yyWT4_gUwm2!VRJQzT^hkS4Zv5=%W+ff<**(?PMyc;QMgZa
zR6LY|x+-4TezsfB2dJXb!^>I*<k3gMc{g1->pi=!^rA+?iwwYbzn)c}-^v!Z=<k4D
zrhG>!1I`EN?HE(7Y*zqmGS(*Bh0=Q{q`H&zF^~2&%>}KN;&Z^Keu{7;SO##V_Yom2
z5GjMTZq0+2)i2R3OaF}s8EzVUKxUTo&xq_NLYrUu5s2z$SgrO+4dW1+@=9-54X`fZ
zdm8-%BMqMYQ=~=gn*mb>jk6v-MY_abQaeJL23ZM`mQJTDIH3WS{yC(a41<WgO&&YE
z%tf7iO}+*yE#ae2>znfR-Aa9Tp|SJc*#`|D2UiD9L7i*pS>sF%KoM`a;2BW?Nw!27
z4obRRB_R4Z*tv9K`P6D~blqtUkz2%BI?is$`y&tik;3-Q4|2D2`R#j^?Ry_se(w62
zE5Gk~W#99w+h16){E_D~_?+}C4?d_}Z9X`6=5ZJFM|e|E8_O;5qv&Q(Ydbm;>RWB;
zXO-JHZ_WFs=TGN7ql#w~J$8C^z;l8)m44CgW1NdNRwWF$(Tf4H2H&~-5_zz8NOywm
z#IQ|c&FS9(Y0%HFkY%Qol=uy@DO$0h{tLYnVo-P|{>G($@Sx$5|L}_Au%@yQX8JX7
zEG-KL$Kt;Ess@#mVM!gLHEC=4LzI@5Kq>)RrdrOlf3^FYz}XcV0%@QOoPB?0eg^MT
z@kf>;tNxJ{$4CW0EB%-n`UyyN6gG;Kt?^}Y@5mXfl5hom7(5#Wj+6|fc@uhvF9qnR
zIj)Jb(%BO2o(hbP!Ot6CR7qH_(g?fQ2;pnc7`ioca|S5=!nKu-(Fa~2UyZIg4|Li9
z5Uv*O%@JC-0o^i|*rBf*BUcS?#%m+-ifh)CgL{i+EtsTVBZhGseHl`tIICeFE^b(f
zs*gU0ybKgTOVqzXsALlxbNrHqydCwymBqnrYslC1C^bDx*?*b)FbB_-nxi;U@z>9J
zwb7DUU466!vToQ=g!Yz3gCygs=4dSeE5E>}@o`sKSknwl5$oG@RW9v_d2Gf}QpKY9
zHqt9!N)Y%#pBaiWynSewYsZbmrkRnXPay*cFopCr=7uR`xn|nFx*IAj^Z!A!Hi|m2
zn`=7Y_=B$#e){Z3&*uA2KkPrfc>4B%l^0%Kx0<)P=4_Z&;(Q&7zhh}{#Zd-W%U;v~
zPBRv1*klo^4bvKOfz^!fGs@6KjiHQ|KHZSjrgD^izE~=y`t|Q?O2|jq#*~<K`74^0
zw~2h8$cIE|gG<+m{7)jpEq^aN^B0tn$PJpCKLmlD`QPhy7l0rnRvLGHVKuke@Sz_z
zR#ShWwg=Bmc&^9vbo4K|S1e=?*0vYw!v$YM`LDUZ(AZk=HL<^7p)Oizjuy7H;1KtV
z?SY`}`t!vu?i>6u{x=*xw^*7f((S?UZ|U~MVc4ukc#5R^gJH5(kMKnsZ{1V2WcQRU
z**)mnfx~=ZaMu@Zmo;Q~7a?3>$kJ1VAxn>&3|WfWY{*hvqt)8*G#Fw|N>+qXsb=ji
zS`=q!%}!B1t94)tTNf$1t&5<xA!))R&#Lx#T*yq|Gamm$2A?HQ&{uzQbo~4Tdw;4k
zfsc2y_&i5u2PCQu00T@M?c*Kx{s{$FJ@^(YErS=PuqT*<nCc_foT%a6t9=;M!XmW~
zuh}=!Q32m-NaOGslO-|^G>@LBc08{6m$@lAzzPcV(O2R;xRjuse0Q;EjdAPW$(GD1
z?Z(caN#|Glzb-4|hZTwz)4zJZrUd&Ivh<y|_7T(9)nCR$MRts@eMUC?HT7#p`~(ux
zx8h}cOJbTN9p9^i)rxCVp)sdu30J(FP2lwr9;%_B;VlcwQT7d;L}zWxb6WMXyt4S_
zW%`1jZE@Abj!^M|oG43VZA%2TOD!O(RcniJ&sK_M@G1!jDNLlD$m>KRL<WiU5g7qd
zZRZ%zV%~sEd172aBCi>3&61k0Iu2+|>X2jutH2*8|1C(-%=7#gyE*<i|2JIM6E5_G
zYxp(idBW8_;ky2Y+wp`u_)Bi+2^V?7?R&y~^9gt233vEQlbJVt>0pH8Pw-E;!N296
zQMhNmG})2BffVb^{O;vf@D&}u`@vCm`}in4E&1I=kA-hpm?(0%Eo!%=i8Xp!_wD6f
z3+Z(ZxAiPP!SlU~+dgQz-LwvO8@{)A*36lL>-2wLv@V!#Id3}G@NqKVx<=7O7QH@W
biSzuxqUi(YZRgT~`^^u&{acP=*hKtahY?s=

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nemotron_vl.cpython-312.pyc b/model_executor/models/__pycache__/nemotron_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1baa0dfd7805a4441b8a89e74d8f6b8b634177ba
GIT binary patch
literal 25825
zcmcJ1d2k%pd1v?B_W{h{9$;|a06{=JAyFVfNF+gsmt-53YCJ>_NPsf{)idA$12*JR
z?7><N!CZv0+7(pgl&OfdhO<sWC)tgX?AFSg{bO37GUHxqgV@UMx@v1{D9}lqt=iq+
z_j<Z#01o72j|S%T>v#8i-}S!ld;RB5r;WoEHGFgG??1<JKcNTpa_1sj6?%@l!wH<g
zN4Xe3&hr%4MRhU#xSqxJQNy?aY5J%!W*Rr;(#$c-xRu2XQCrMDZf9|0)Dd%zJ7cbK
z7kf5E-7(L&hsDiNZ>(gzgvBk<(wJ}D$KuwgKUOwg#^SbUd8}f*B33zG8LJwvidBzS
z$7;rFVuA5MtaiMXm9a<bV!`nsi#wwAv4-&m7I#J)V@=~tEbfXn$6Cf)Slk_LjkS%p
zvA8GN9_twIU~zA>GuAcUg?Ncj8tsntjQ7NP$9rRY#`nbf#`{>hFS<9@Ki(f37$1l|
zHU1RR{NwwCvhn>w`S<~$B64t2Cse*}7(XObMGgzqk-^B*k%N?4iRq=EP!l;Q1n{fH
zudXn6(jf#<^BJKYISu#~t4*~UBS+MlXjxCKqHYuFJ}Wdw?9*krl`OdZg0=>W*J3T(
zgch_sB($REHvH<Ie5Xm1(2g=kckLbXqSaSMZ<zji!SHfXyhR7v8P;*naYE<ooX{1i
zeGkw`*Z6Uk+KtqnNR^g4qT?bB)4!~gDGVc(kr5hyWF%6d#P0Q~wOC7g&{AK-G`&(-
zONmGJMEWAV@0paR_i_csPu$eE@BJw~wezxm=;$%rEGH5XF?=x^8N-9|L@azM(yo)O
zLvxAQ)3ZV(Dtpd|k%SnYnu!R<W@jd+E}>l6(QrJ%%AOHtCnE9qtT+;mCy--%DH@Gw
z<x0-Zg=Z2|^WntQ?2MLb9s1na+=E%JWlhas5Hl~04$sA6H&4u5olC@z&P_#yh$z<;
z=AWL6CZ;f~a8&D8t|}~$OP-p!bYf<5R<1dbYnYAoc<f?C5Lh1dAeU~-Rl1ccwk4jK
zx)F)ya=dDe);HeQr4A_)Jr%hbM@s4G7e_CgIQ_!#&}it~@#jvQzi{pg@A7iV#O%zq
zh?odX(G-Vbm|H50wqjQkFJ2YGiO6sy5uS>&Hdt4&h%klZ3y~SjFC{ljgeNXXgj^F>
z)u|6nqLC2VR~E-HG;{O9?3KvO)O<wzDNn0ykbUYn!%=M-;<DrX+|{eIVj?~|du~WB
zQJ?Z<Wt*CI=1jX@_7YfpE;4oLGF1uF`czHLOeI3su<9W(a%n1#g~SNy^`f#P7QT5g
z61plzCZ}%98waOim!6q74ffLg@6C9`Ogtmorf9)KaSV5YMyp<CL<o1b9wNBICA7S0
zomwP+FUU3IQ`MNjzs|jvt6xwuhaYMwx-Z~wQkT$@rY%}ji%c^fq&>38J>7e`Q5CfB
z*j|R7R9w8ISI2XnYuAr$dvSV!Qv9~65EQ=n0$7^b4XWwJWc|74j*5O119a#yt#NwE
z;NPF_O~kJDUY)wyod}DUB8l!BbNde-xUxUe8=bn?d-Z1G^6X46tywQys8HlaWCANI
zDv$BrnMiClA<oWVU3;$Hlr4kNaO|QGerCS@BB5mn^k61FIV;9`2BWhR;b{CBM3f>2
zFn~C{_!9S^zJLALegA{{BU^Z;Av&iBAFs|v89`__%lrk|d<+;c8;{7QQPzTNIu{{W
zkQIDW3j^yTviazVV=v+-TQ1BhXz?yDHc^l4y~TD!W%rITiccYxe(`e%mbiy@$E}0Q
z2S0H*Z#}>KyyQQ!;du6;@{sXXua2iYZGXh451f(?oJt=!FC94lSg&)s9-BC)>(<HT
zliwW8+D%s5mfqqpWjTw{Bz97-j&S^HWFip~>D6SXGVjV$TsB^x5)zkX(`AM_fOtj&
z*jt)FUFXD^2^FRZ;t4Jp<o|0#3IPDipM&B>qo7+fE$9~X^G1$aG%xVO+$+a9?q#&I
zXj!x_SQf1FcEoLo9RC4qQyNMy7z#o&l@jzSSS{KM%G(w=$^}l?=&qG<EZ7$utY7DX
zbHR9Jm=@rTXBV7{M(Se{BYWdH1GiuTkQ&D34c${SlkGaO8gIjbOa1Kn$q{fG<79L;
zoRIagshM_{xQ~kLr-0x{JV?PI1hV~NB%TOOh9>}}vW-0`Gi?Zqk+7^2uj6-FF3rvR
zw#Bg1M5}e(tXgOy3Xq!t=aNlIqj49y32wU-aH^b~nh})p7(rpf;`69-6u<ayAXwra
zd$`hyRnxC_FP+MG%a=}O?4Ff<%g-zg|D>dD*_6~Jk7jCvYkS|kl(JMmEUR4IyQX_{
z|Jt}z-Mii)RS&*zkgA5?pV%lnnY2Hw3S=C0Yh99~XWfxHa!%TFZcDGLwk6$J6IT*g
z{i@{cNt!n8-j!1u_PR_}FnKCdRkM0=wPN{X*3Xp&vlX19EM@R3z-gNmr!IvQAhff1
z4icSn@kl6fc`kNw2CQcSufZ+=38#_Y*YR+NfPiNJWy}+}1tS0u=?nUM{CiXf7l2Z~
zU=o<Pm;+6EW<nl&wy3$=QmqRH(Y9a}^jEO@qLE_rPPArSur8PvER%W$O6~d`a3K=f
zFqmrR*>beo#1oWsk^%-u1U}*^3K(z!R)MTJFi~biMb_M$m@a~*U5Uqu%ID!h0fqpG
z-NYQoS0q$GBST7aaq$eQyn<i+YY3LOtcUZ}uGyv1&ZSY%kLrPp#h0=8Gp>q^yDC!}
zcx*RSn^K1IYzfMxg8l15QgEMCx^HPTgXj8z^|Mm_e#y6g>2$^!T=PoK##GC}`}I=G
zpyV7}8hK>mEdJH9wZ7l1&RAS4^~-hzBnH<4DSJ=K(4#EAkx?6s!w@;p*7i?9PH1hX
zk+}0>q{OgjEFcI5tT?}*6L_$@+<L!^_7+Wx=0yuy$)y#x#8ywIkuB>bB1zOgyB17p
z4#?L9v}6ZqF)!%mv99wVgNUKcf;6N*k%n@B7PR+74oVm1Od1v)3)X3CuJeN1f<qn0
zqI1DE4Pv+RT5zf*c<zmt3|s=xsay*-HD|$er45U(JIQ?wI3eyWRwf7GO}osNZb3Jh
zpDoueV{xfH@*vF&Ge+8ty8}KEUNBn&(Ln~IGPn-oK1ML|OA*;HA<kZvP2sCoBQt`m
zk49$N-Qro)+KEDW+<Jj>Pg5|4K(;Fll5BcO_T)rURaA}3{FJP}ID133#;-;pE>a<<
zMt0~iPP_L!wy~Ika<#(EnQ&}sg2c#NyM?$XhEQ<<zc}{EgmW&guIcURH>V{-_0q`|
zJMgaac^=4?@zrI@8Yxm%4aDm-Nru*?k>u!VH_)%N;!fA?t~JNqSgLMtqvUB&@bb!(
z!S~Qvva;`&UrF+tPS;A;T8C89B{{p-t0c$a3{nQy4oRimlCuW{+%cGOxz!X`&w9P&
z>|dXk97B{mx^`0X^+>MX^*+ftaNj05j%KY!w=Jp1c>Te&uSxPXt)1WSwI{6^OGVmJ
zCt2#&tRGoAvZb7>`f(ZOaHrgL8}{JZ$cOfhl%XSK@AxaT@2%2QpnIbdy?t2OpQ#AE
z?Re9%Hoe}FYJPg7;+do~-<I=%rDxM#oibD_RKW~}8=9Gm$>v!221PUp1arv|0uZ6t
z`Z0n+353YKz!S2m(!elxOLt3u%P?WM%uVQCIRYfs<ynNl$i?>ZuXLh}{uh)fM;QZp
z(<{=-gzkp!N)@0D1c=?uGdiA|F;M=b?pF+NR2sN9y73z_aEr!8{i1HsP(ZjKExpd&
z)1;j97%9(97#0mw@;XT=jEQJO67R>}pNZiWYz|2Hru{hX8gm2c>BsUs=w0qzUgmEU
z2%};LYRvaS1TTcy9KXm(hfm7T>!=j>AXwt=zPj#xH?bbR&wo$&?Ju*XBT@fK<R%2F
z7g0nuVRM*>2<;~EOL!E+l*Z49Uu5@bhQM(WC>7+&v9Zq_kaz{fe+$3(G6Kjo4z8qp
z<@%cWZv8v<2i~rq8BKoEUwONdLl3=WE3dBBuZG`j{*AgP9y9immGEl)?Z^Xr%j)%y
z>@8U<XR{}V{)vf%nEI@lv${9E!K@MYjJFGSW67r++J5Zf93?B=QuCn)_QNT|;h#Tt
zBbB|yuMHW7IxN~c88ATFp)pvcY1;;?kd9R--Nwdvh%2fbZAxfN3(!XF%>d>`?c!QA
z=UG*;o#28Q&<|L;M34`8VUg28>Rr(GnzwatI1I>J)Kb7EEjj2zDj*N=Gk~5T*=(0q
zK+kCz*ye@NIN1o%cjB^aj3>eqSK6%#eQu&MU!s5(UXgRCA=#?!(PR@70I=J?O4^Lj
zwQzI}f-iAF1tt(GU{SB^OA@o8!jgrMD~hP~FY$|i2>}y%{d?D2@9*F69a}p6iKp)F
zp$DFQOD8^Yc4jP2mEJZ!wi;cgr4g*Fuky~}+lPNJxlwog2b1eBzGJ=H{84bv{Yk0r
z_(tgn1Rr}j1frjRs^@|ue4Li%58XqhmI*|(%bSaBC9#NixCl4S3*0!Q685KiOE2gn
zdchDe2*!v}FhxutSdcgbvlg>N%(*nHz)!ja+v}!rOT;QzBPOUn?XMf&%XKks6C9}J
z#E<e!f(z<ByOpCqp-gZ`91-U<$kNV>2*oez8FgLLwL5DnO4do6;CbCR?$LVkqO_N_
z`hVAFiP}!2G~zAZzoP2Rg$|(v<M0Wkm;s+Qf7Xa!84YH{j~OYu$+wrwrDHj@!Aql1
zYbk2Mv3H?0B37eu@o)k_>?NkNJ*h-}EZiI`N-Y4hs?U<$O17r_60czf#p@K@px`iq
zi5&VevOqAz$ishU(2{36#nec7)P-clFK{79kjh0noe;IdF0dUgr1pZ6#Z*GHDW5K)
z0s;vzECE`<pj49uw&V$-_v}(hR!)vIE|o!6ET)DkQETMyAanUPjk~sKLjTyL7nC(6
zd}=G(`%kFY#*rjXaycYwj0W#krq;;cl{}K!RRW87(&hjyaG|{14E7$PT{pWxdbv=3
z>>#2cZANx^{|2>g{*GGOcyDTK{lZUa8QV)lT0hwm3Nf8!NW6(hkz^C`%aq}PMr$IH
z)2=e{*mjkmm8mA7w24p6fcDNzM4)P$NyyHe;1o(sMI&+9aB+4P+Hzs``b<0=yBdw;
zR6%aYR=GAA6f=FsPN+SF{@bmP&?C{w9mCpL^bn1A2|*DGE`9~+^EE~Aut$CAKc|}i
z69I^~kFz>%IhGwO7amxuGG#SM!yEQYWdm-mOkGdX@W4_7)k3<ePpaxm+E}zxs_IPI
zHtjVjds8M@pK=5qx+_yvo%hZ^aQCGweJOXJn%R^N4oJa)bnvJYJX*XU_NmR8`sS3Q
zmbKD#Pk7+&Pg(j??*32e8ZyrE)kBiA`EI@B=)8L^-8&-nj(osNy(c8cNvK1DHa0{E
z6V=TavpZA2mlA5Vd&2-d*JT=8(~bM3#{KEW<5J`Cq~Rk=6_cbiF#^*8&YhzZ!-(v*
zC!W?Q098>gl~*J*dO&pgJY>N!aCHJN*-G-(HE2pN%Jvhdp9>v(VeG>3&tHJ@@*Bu5
zkQZf_%7UT44^0X44aL@SdznYn1o5CHZqr?Q>nqD&NxNGmck70`{a&Z!-j}lMQ$&8d
zQcqEOIFtuP=b=pmO@gKz_%%GRiO9)Hc+@VY0?4I9me;0*)B`|QZ7Q@1B*}BrB#7>~
zAeHANFs4d?!U0-DkcMI;j|fX{yUR0KXWOoqVFr_;7&;kcKQ^Va(QD9fF)esb-ex;s
z1q-R1_;m!3o@pgSvcrkDC}2XAop6`Y03bLYdP0u&F*$lWe#htAimh3(l0QR7aT3(A
zZFO*!fpo=QsbX)YsxGVND*LxMU8ODQd~D$Yhce|2nTn=NdG(#I-u`N)sx?zpo384T
zs=Ba~4cH`0WzxQKc9n<1$y2?0Asy(G@XrvEExmXZolNAW8BvZS<rXd4)*6D{7Maw`
z3kJ5-xdml9AtQ8rP&eN)=LFvtCMf4Y093vx02oO${%jC{z}&_JX0s+Fo7whkq}{NS
z5VA!!F!jIqCA>vm0*1Y-R9$+KJ#vJa39tEuZ?`CGPII%f?R<M@ksBxOtIEoXs9dd(
z^mu5eupEsi=6j0)z-Lr|*8vxgqYtLOs0pU4`=#psOl>dy*Yy!VSh<>kEzVejwXR5-
zSIQsNa#g`CuhnCF<Uwr3_}I-kdomt>rn>I!BX1tbRMgRbZ9}?tk5s$oZ|o+g3#x{y
z;3KM&<*ZiQ&p+i5Wis|Z>m0HhWJ4lyBQa5kqO?a~P|^XyuzhQ#@^^tJotJ2uBF!(q
z0Qvbm=@T_*KnuA`fu;rHw(XS$lf~d-!L0U@-=q~I3v3%^$w4D&jV*a8Z^5Fr0oZag
z*wRu2{aa*2!6xpN8PtNVxtJWMZ2K2&3owTiljoRL+m1X<dQsmPQj#6oK_aTSpnG&o
zYch?JM&UFm8FpL(_AXjIC&M;Z?*05|$+h4rUTeWAm{cbLyl**_A^f82jjJ%m5XP!)
zK%=p18^$LkL9|q*w4|;uQ=jM-E!P!Aif++W7;87@lp=F@E!cRx+qRRFP@l_Qh5Z!J
zSFsU==e>htFO7x@c;qvRcHb_39@*j@3StOk{RCPuC75j-d*aLCs}V-YWfxIerFAF_
zqq1RgE*h216c0~C#BZW9l$(s&uTpD8&|l6mM`oCgL!DW$Zw>*$Wy4e=5))sg>c2vR
zaZE<Su;N8jNs*cNSnpotb%vfht}=a@PwcMj^cHG4*-Okf7bPYI%1~Ae4nti0X#{Lf
z?r<lsee>{Y{fGAIOm!eRn%%>Bd@C=f-1R9-eYTqmHl^#1NOeatp0Z3sKm9j81rif{
zmIsXqx>AlBY}H#jzw?E6zL4rYveEqP!{(0fy!_6~Kk7WZ;Tx1X53ddU+WA%AuYV!c
zd06rdLKbT&d1N%!xRRq=F0Q_B#gVD)P$<v3SE}t_v1jT!?p{cD4@vm18$y1dJ{{O2
z1@^4h-2d`M;M9sO)70~w7v6ax-E>%LI-KzZQgwULZgWY>Qx8MOY5pv~QGWJ^!|%Vk
z%D-)W)4JB4>VD>Z{-cVc9}KS;r1G;_H#!C}Jjsvo8>M4E^u0f{GIZy}?GvfmzV9FY
z$amxeUvfBAI+k&lsx$HPPpdiq(?9>TjH@`u{~Y_*IBlu^#9K0Kvi%ufHEcKiSz}<>
zV-SB!UFnHJx<)*aQOC=OfI1>nE?CMy*B}<<FduY)*(dT6B1whV|B<N0uA)@UkZ)0?
z1?M@DbaD`T2##edA<Fp+L+4;dr|9vqVX>St?AS<<HJT_o3NvWeUP5*fXohky8<(xh
zBhZ8~1IFkWmlNMcTg64t?MQZ<pl=Tf1Nv-SWz$*|a!k_s&=**9O1|#zn_<LCT0e0&
zq}@G|yXWrBKkD3YkEARkib7LAHZ}(R0XAmP^hZJ=*%l%Xk~!?5Lb4+idUY-wRdPg{
zF_DB_k$AHBH40v*fObBz1!@7%fy7PmTa-outZazFDMchcqYw_0;yA!aiL6H!6l-(X
zuE_>rY9b-NO9g2T*~^Op#X2cyr+`+31^*tA`0wJiUnh%0dv~U-E7Q^Qskg~E!f$$@
z)1(M?Cca?S%%T>qYERb6q7JU6Zq4`Rp{$cVy3|KEd-QOD`n7>KPi0wKuua%pTcs>#
zl;=#Ytd2MCU(<ie;kKn$6SAff<6d-ER+%+Z%)*sdWvvvmaW?0conk%OFdx~=jkZlt
zgct98@%9%bPkq*i1XRzB%S=xe^~p+4Hg!}~6~d~`m5khqE=MJ6^_G*84&_^S)*Bl(
zT_r31%Trk+;%M0G&-Z1fq<ri2WK;XH)00E(iyFf0+T6*+%CY5}t4*u%wd3CzeP=XP
zw+CBN>@_9p-Yqwk8sRO*=lD&$zmXzrDpm(>k7v#7(ZbmRtLG(a{bMUVD=SKiIf0*c
z5kk|o)rFu?u{f?5bWkViBgRRCV1U942JQuTPJ^Gy?sYZXtB>6{bVd}~e_hUXw0
zA!dV6GX&Mr!IwsZ%m*jlBb%;V$37*lsIUN9+C@Nb$1f+WL&sdyU|UR~l_xoqP-jhR
z1V?LI^GHH2iF-S)_j1q3r4j77)LemoOTWN>oBw4VyE7ead$+4r+D+isi5uA6lCxM|
zcSkEAJBgNDp3FJ0DUW%5UumAwX!YLJDHQDwQ9VvHR#jkoa!qL^=iAkZ)^w7&W$D>j
z^gPiplJ=LljJqY7xOHRsM%vvXxmzAOupu*fY@4O!>C$GYw0WbnHB(lVE^Cv@+BV8M
zGLYD72BeySjhcOrtSAV0cKaXMDaOH7h(VjS#YPVtQ6sjXM-ka3S98S{vDj{ElAnT1
zr%buR6Z9hK9mIcy0G@Z`fR~$6@lTOdI8WlAAYs1iGp9z8ptOm6nP#U6)!;wn?#nnl
z<U5siKr>VSNUz7-xO|U{xMw+i?uEy&zgkBH@p}~f4g%R63JJ3lpy{UBi_>6F3OW5V
z%BK<SB({G*X%w8H&YKZ=o%@lYFKaLxZFkGE9B!$B=eFpcEioW%<S~bvg4|ROqNjl{
zPId_7SPHct`F(Cfc~u*^WdkSw#tx(h%Ijc3&_nNSz}-kz1ZccX1@-~6U=}QI@vsh9
z1RKggZl5$Ixk(;Y1lPC~)&m=?2X>GRvK%<nXQeHwf%e?Uak3o4E*g0QtO15`kI*f6
zU+2fYLP?}#8oTbD7e-k$9le*Lz7HCFKgyITy(5)$_vJzvQVei1E?QS8&shQtLIp}!
z=Gv%2ZE_Q@hMRctdNdOTp&Dgs*tlwTjutzgBGwNO)f&_Z<oc;a8v#7m!QRp%7=>D)
z?k(M}eFh`70$U}xpcfyNlG_jo?mAaCwt9`PyT|L9m8W;t-kNslqdC%$8%4`5C6rMp
ztI+_b@mAPa8sVH?e9XJ7s?rDMhg{d2gpNov*3ekIjRN<5L!>2QBuasrov7K0nP|hT
zcOl-M<Zkfe9U$U+<cd*vbcXXZ;@IVIf}Aj;7i0^lOBj9}H<^{0@vE_Ik}+^ek&Fis
zfp&?X1_tlE^3IGRe^ZxNA;K9kSNdx_8Rm&5E1SdM3p3H1K}MN~X|f>%r{cl5;>8Rj
zxK6e~MGuGO>r?Qzw7o>8&f}suE5dnMKM{?K|A87Km0O&~2vJv2=P)kAHi(yJ$?ZG@
zxp2N~w;5o(V@K&LM5F4^CbY2j(zLx+ve&L&e_(ITl-7LWsz_BH-f#`3EQ5?X$>a=c
zQv9N2J9C~^EM4LTTF_Vpu{IKOX{cL!5&k+~xXoCG%hk8QN>naPCaYqsqL^xB5&XK?
zrUO0~#oHi-;f@P>S~7!a3L|F1A=bt&NDRdkB2Xx*n;DE(UrZr#gOB6v4DyN?xTbw-
z`}sS$92PBG#6Sh392ucBStdc4z%D2!&CI;TGxL_dm{}J_W30yx^H$!3RkRLzQ<)6C
zQxTGf6533mL@+m?g4=XM!9y;pc%h)KHcOcC)+fu63O7NU7k0sUPxFbmXHZo|Xa#B|
z<w|s`F(`YAj%HhHnwsjKrg%bYw1Hw5#?+_A^LO}V<WL-CwG|K`*M?|s$1e6%tv;ch
z9yOl7Panv~)fn2)SPe{oP(>{wi#h4Yj%zUD!L6N1M<5ms>?~&zs+dH$C%dBXh?`T7
zXhb2(KA>c)CZIADZ4W@_G>5Gw+jolpmU{RR1!*emjnO$3MxoTUZ&G@xVoRX?Y`)j8
zQjRk>upAXQL`^MG@HGm4iGr^qkZo7vA)F$imyqqWx!0uTFnmLxm6{+mR9tq_c??Qo
zJ8HQ^v3M4~y+|M>{sjf~6l7TQO1W6{YM*Rip%1=!)CcQ}N#(Fg$zHUCJvo%$WTuLR
z<5%RmSolgL6v1H@lC$9DpF6z*6@+qp#j42cG@EP+l`R6zm-rtk(B4_LhTv`;j>kix
zIPFM4q}jEkY{6-xKVQEqX;$r=BGKb(2>uQdtHrr&hT<Gn&P{Jk+S@L9+tc2D$=jba
z!LpJr@0H4Xla5SHt0KpzYeu9Rs3$5nb2d@cuxN3lEkVf=Tr0a<^T4ui(_fwTcS-)P
z5B)E!o6>uRr9H#xJugUmUVycf^4cYTd)hxB`3J~++C)amhyNJ6W_@cqxL*qHCo^Us
zZ+}HIn}No3pjQg?rUOq)fv4|>rNFaPs)}t!`lXuwjH4t|+5E7yZq0PpwNbhs?p6Vq
z5DWokHLZkGSKYx(MI+3<%0`BjOtl@@C_VVtY^Y<Us<9XMSKfKy_6utx8@^7A-@4h<
zM*Y-p*2CrsW9z2FlXlcej=Hqth~zi|%azsnk)=x!!U^gbN^Fx3h($1#_Ae0Gw)@fL
zHD)T45RVsUNYJino7n|DJbyTqn1O}qim|qM-Gbq@n&NrIHn)Q2hs$#}bANExl1mx-
z<_@)~_)UleBjRiH!o*y}zeFILvB?Z4pkgWmF@QRYnTuv-8P?KaF!6I#EvKK;CQGU7
zArvm86g!o34^j6sWRxPb<}Jbr5`LJP&QZ1!{q~6m_8taUWK2w+dRW)8_T|*Ti4O)g
z>drt7obkaob^nLH{TWX%<>}h=)TBNAlBYlIIV5=w-GAmI&q=uLdAqUf{sVw8N3XKk
zrRAjy9dZWz*m4geQn=j3wz|a^o0%X<8p6eVE-yfS@+QPNoX8N#=_rDAz=1lwNWzG0
zFE|h<evA|t55Iw10m&g+AE%KKX;BEvkMT6$xjSJ|4!RXEkauZ11E_`Rba9@_w7W@i
zH?6&tZayeAAN=6L1NXU<<(x7hxxu4wq3sn7FzJ{jZx0rAn2N$$xojr5(ZF|HMTI;=
zLR0A!vuqXQYCbyoW*2mM{~);Wa>Yb7b}Wb%8JD0_g(E=^(IPkYf<81sMJZ3=|9Kz4
zdFmwxXa&6#5fD`Yxu8_Bu@s1=sskv1&8WBrGbw_=&Tw%m9B;SF?rTtGU7ivIa6slP
z<cG3^v>LNwVX}hE_QHa?nHij`jJ!G*!P(ewRJM+WZ$`v19H+~(dz^;DiQBL!8=gBp
z`r<Ycv4we)136xv>yw0<!Y<rIJPHza(vF{?jrqo30P7?G{0_l5X>gzwBUd2kUH2s2
znYNyE+pyF&oU$}))FWMWK&m>BbbsRZ-dbE<eCTl98eJaEc<R30xE8+Kl<qhp;lJg`
zM#Ho34@nKjCC~8>hPAVG?pr68Pkd(KjHf%}uLN(xVLTh>bl-Yz`MGbNpl(nzRo1^A
z+Hf4-^4m!XWmmOsDj~uf<b57~TgAH^<Wi=3sj%`ga174j<c<Qnc2Rpa3D)`T4$eXq
zZVU=?a7?cdPgK}i<k7Ci!_@wPN4x+bT`;KSK1(gj+9-U-Tr&&$g8p|O893$cV^;EZ
z897&so(RS(ZJ@GxD>kC=0{DOOcECVW&YH~Rc-j&Cl-^j@UF!qKJx@`?wW-K;hCH$v
zLV0X15s_^qwN71{o1Ke`{|SZK%?b~gqzaBW4sxky0>vpx;;+m6WtpFd(~=NZz@;b$
zoQnN7etB+kG8&n0*%fWJmHRh@ImBjwIsURcFWr9WS3kdOOY+ISWO&89i36u2%Ofj&
zE8(|FSI@51NbDTP_x0;T_Z`x}@W!6w8;%j2J3%>sH~i?mt3#`=ZaC`G4x9??+HmwF
z`Ha#CZVw&q6@Fz@@&r+$$ivHPqmqA*<muaR?A@{&ofrp1J7{r_EFW1FKD0MLqYImf
z$D6c(m3vF>SZ`b5*MD}6U+dfOG^ahNyJy3*H#wAXdy*DKx_cEbx9!vjF<)Amt#t*#
zxMFIbg#z#Uq6`j4po$$NOHk|VDkj{)sU(NYIDJ9_7`xC?5yqw*MidOhuGCsLctUoR
z*LLD+8^olFw!)NX%t6YeqAHj+H|@>WRAbC1t_aJyXI9xHYW}197C=~vj?7evj#bvk
z#-#1;)e+HKsqapG1I;XBVg%V>aYi9=6KF)J_Ft3=n@89N`ltU37fxF0G1u*OwtJK<
znjKjO))zy0*>aH`>h0U7@UwqTX>h<$oHWd+tL$h$LAuJ>2$p0UvD65Cr6DdFsh9!5
z4%Q{RvFjCa4p_Bc&$sQ0k2^~K1-14=bOaThzcTG_k^C)pYf}D}4gbEh{|HWk)3&Yd
z&MUWHx#$0G?Yp%ruWa}aByFE~N>@(ij%b~ge64r;ah7Yt)0?vN0-c9YCGBsO{H=Fw
z>9zw>+kyLDsqOInv+wio@7?f^P@CvXDe%58J@k?^^is;-y5avE>rTxotb6YLs`SuV
zY3OX~+y!aq#SQ;Utd%=oxc!CI`3-*up5S$BsZ{Xr5AjNx&Jb~?Gb9|?`fqsS-PNzy
zGUbFcKtOR7t*)R9X$;Zc&I_z6-wrTn32bqRzX_N2*PMk)U7V}YghFBt0>d9TtQWA*
z&&F|ev|`tSvDk)9W!=-7zAZmiEw2cEt9d)dqPc3R{i+W6&@gFY^@8rTLkSJL2qQ@+
zTFf<mx*|UsHTDlLDVX2V-Lt54<~)}m<Ybp%Rq+_=a@&~rn@AP^DFW4tNkJ&Gg%MW6
z%^?g8`M0PPAsvp9X{d&6k`F7aH1R9cghzFwyof{au$;!{gBLDC;~s@@8jN3_or?;=
zi;>{m3=ZK>T&B;+^t8KV{ngp4B2BciA10b0{w_6VCf_e8gk;m)%oOBb@!OR3H46Tk
z0wSHtCXH#uTto3VcF7QK6&-%gNtfU~|C(Yc4Vm8O3HRJO?14oba1Y}EKTbVO(MMKt
zu3^j+IDcSQ((wyw{uq76{|EYn$EJx3G`@ZE&6BCtL-&U_YKDN9nVN>3DdmAX^S9^M
zde)mZ%J(N7ijzF3Py5rE((+B5da^e@EbYzs8#Dg;$40%+1xqSiHf?a(Oa=Eym3>Lq
zL%V-v=G&3)MBj-%u=i&Io#{Zo6zJawJe3X%N`b+Rz%%K<F)46tBXB%9_KCZ4wdY>r
z19wl#(vx!cWSW?Fd_C*A?O|yr^##wbn(ocYz}wYtR;MeUk}99d6h6SD+fV|R2^x(B
zVz-ZT2U39}8?I+lmS-99k#kPvY(9IoNdtt}Od9w-Ocqfg#gS6bF(DBr?G!%D+(l7z
z=e499qb}}B$_oa@<Ipl)M89(Mq)_nHw9EoKm@W2!UltR%$zhr7EIY1ZB5pB$tI~%_
z5_)yhnmr)joWM9TlP~^1_K#W6!^u;ha}-5SP!@n1lZX!&POEY<79%Vsp%_&vqB&mc
z;dl+1fKdd7V}3$3MqY?EF!4aNBMoN}nI73o`JbmO()%cQOlmOkXB03gz{t*jtKRlC
zRE#yv8vHF3lS>uHgF=VO_!EfjQ+-IbVRQFqV6$=_t+2QWyf6L;T>^zIoTGf@8Z35e
zJs;ZlWJ+sSuSumXDMt$qRHWTO$sJ6&yHb`egq!8n>GDpgyz}m<6uuGDHM&uL8t7bB
zzt%04?Mc#kb9i5VdBa}4`s#=FAXA_<OTOl{i+7v8+xc#1x?@P{7)p1XmO4&v_{LJD
zP_v!E04kc&<?T{=I}W>)cR?3j-k2_LlgiufmfXGY-7miT#dP<u)IFT;J|lIXfg@zn
z@mGhA!#}dl_M=0`?;cK`TE&*2<$fpWUu&`)(n*}JNxSPMIDIxewZYDT{QOfha@chK
z>3+wtGQ&2pfdp(OHoSz$9S$DdKr8r0*DHV|@Ym=wFBSpf;x!&I=WdQjf?oAafw@UH
zh}Pa{GypXqWE#f6a2O1+b!X1E0t!H=tOhiwiaH|kvMp!hoq|Eb$_Pvd=bpD~?d0ZS
zl)AwF!s^B6pZN^fc#=mvQ9nq)GJ-+TX0AMG+k!h^FnMCrQ<(}J{m^qX<EvRa`Ju08
zv-Q+kBHemQqW>2^m_)E*TRrfhrzvYk4LGxTs#Lj6eWxiQzKw2@OvdOYZ5Ze~hLAT9
zQ?8pi2T)%8&q%;regikL8B<s2;3JoX;&kF@r<G>DclT*1TA_#Dn@qoWZ&LVwWT{p3
zndnfvD9#34g$M|JQRg((bCqY7Ch-jvjZ?+k9=n9xv9_DuK0_D#WZ^y<C{bPvlyJ5|
zayO(b4Nnf1xDo^MRYdO4dF`UZ6*TuMAb~E96W-^cm;pW20U^485C$BKVVn$zU?ngo
zegunnaek#ySF%+XNW9wTPuRz9^l$V4P3TiMI2BG<ArgK-t4*J_5Q7x_J|*Nd8B7i$
z$8XtR0I*ElW3rm!>_9|T_9#>}pZBDe!^1K|`IhF}cLkQ6MF(j1XE8KFk0UD=l--o%
zKk+{HSSOOUAGs?trT*jz(7D4;rz`=WPi15B`HZ`K^}vR^F;m-iw?eAj3pa5(sy8S#
z4&MLbM&pT;Cz$ax-}93Xdi%4I2mj4*Q?G1<?!wcYvNW;f9f4@;oQfBWTrRx~kq`Qv
z+1YEMSWGcfik&onJrwjJ&@57fZbbPQ1QQ=3Cku%6bqSPGuKZRRr(K58fOnT=);=o$
z_XXW+V8=`DyaVPkfa6=(nk;CgAjTWiKJvNBIhp(^83i0@n1F=sF9CAN_-!k_m5dVD
z9n<z%@pOZwHm<T-q7XYOi~kiB@~kyyUhPA{&)QONZ~i%2_(`+_D=QA4IqFmPuJ4zo
zo;tbFcj|-ihkY+VuatJQN{-gM)&~yqP^KbncTcCfh8~ty+}<yhcHBL<QTkNM@zf`7
z-|}_1TV@>oOv8RU<QDA5YI|C7CV_Oi#+*)9w&HVfQ?x6H%f4c!X8Oz=Ir`;P3ER%S
zY3P3+gT^}RU&DuB7hydFLetSjh)Zy0H2_VEl7-ir7EHx-!QhES%TH-*O&@42B;<_n
zXseIG<gQ|N9L7&g<m*Z9D+(7iFrqK+rFHG6V1NQ*3XF09GANFX7W=fMV%|3@eh;~G
zZww@M)MtFx1qWq#A`2nKA6a&)h6LC$@!<%Pl$mx^Q;?c-73PDxQjA=QR|sC_(SQOj
z!IZr-Q&E#V0jqWLG@zrZ5$BIHO$Rc8jz?Bwl`ZKasPd%k^^zTc)17ftDNd)U#(nn<
z=>ucZfw5G>3lAJ;GR^JD;RlX}&5FKNL%O0<s_0Bt^hxx8Y<&y?K8EA2Nm*(b%@7Y_
zwzhFyLVrdA4j{4{6Dzj#h3Kp};_8&yc1_^JhR{TZqO+H#5^<GRQ_qFGS{y{eeCw_=
zx4o4cG=bI11X^&YN8xm7c*48;*1I>{`Hh+Ry7HaQZEr~c$KG;;y(O6%F6j!t*Mo1M
z=<?smq5Z=zdS{4qvULWUzfdd^o{=pq8czt&BRb+&rmlwKa~I)FNADj*r?Laz`x8RB
z!Kv~dom>)!5XdIVhKCD{l%Pzp%^syWYTk8@3Y+{2%}^(5v#mMKqKv1?_aq$;y$x#v
z>(K|^WAOQK`;~cH+rQ!NOj$aMiwSI^_M)X<WVBW+HhF6#Fw{6dXrtlN^;{$oOk9qT
z%OZRLf{NQ8jsgVpyf$|RK&zq%NuQu^wzUG`&mb;aVbhplCPsMw%wC6|qJq&nv6QmC
z%<hfJhNdPoITeWtPsmy9bR1Y>4Bz@fsn38rlCkmye~D%_h)!VZ2He%A-Mx~#H&fjS
z|B*~Z3#@WPq769`4Qbv+E4qvdI1ez^-nr8i+#ieJ!=#~$H<fX!ZcKLO_!EoZ1Eqra
zd#J4_ha`%T&P{Q*qCK=oQmIHj5aN$1_!|VW=`@>S@h6nR6wR9MNo2dze@7Xl*kij5
zCQT`F6|n<F%woK>okm|nY26fionpip#R`fYq8OpAXuu;55#a;L1fgsd#OD!{ojD(-
ziAXdW3SmANvqcW~tOC)0P7P5&Td?>NruXk~l!%VLqzsjtMo(5}Fg|^^A9HGadR@8Q
z?|<L-gF~NE3Z4A%vLdK*lpp3l<=Tw4wfQXF?xQ$v9~gc{x9kPpZal?j%388|7TNdw
z7K>!7%*OM|VI_)y`eOGvAeHrI&FtC6d3{@U7A^6>)xN$j%i+F$@%N{`H?>94ttOAr
zn{BcgtL`5E?&!OtSq{<rFaGh%KX`eIqS=ZD;}D;zsLkprvT3bZO-R<pEh9Z;pXV!#
z`#1e<StIV~9mjm;ZY?Y?te#I{%WbXSGE@4115Hk5Iov+*ZP6`T!y8-Hjlb{so+FD>
zP%ZBx8Mmy7H#XvU(DUy+Pv;0Jtubrz8k^~;0B)&)=eOvd?c$y}%4f|!OpT4}*_&x<
z|I~?xO?(4x@b+NVNEs$BIIu2Ab%)e)6@fbow-?p~sk|d=rxFgXwjoRP*a4+mHOn<W
zbJNoRH~1`{>F#@EuQUd<HW5dg`1ld^V5TPvSGRY4SgJjcwbG-F+tvdmIk?iwtdn9m
z0u|VDQ*57s=CQnn29q_?1DiPNe$^mZYqrcR&0#cltv!GD#r6LC#y@uaz>(^Q^5D4C
zGy*Bg*!4mG2k{>sfK+Ad%DOB78`t0BJGQxV69kg&CuM#3;)L?K6!*kzl+F^8ywyXg
z1oJsN5Bnlj&&-U1eP!%XaZKpZK0g(gZTYy^jmonA%!yHUA`c(pRKFw)lFyuX*a<(m
ztuVc3+gTK%ZFBhKN*rHw1*s!xL~)_+0dd3^uo<0@Tgj=qhfzoE>&87%^0SEd6#8#5
zG9q{W155XWufNLNyX3}VHCT7?9ww8{T#JfidlVt@b0Y0b6^%F}K1|O|+k3hFGulCO
zbObU-sudFNR?2Jsr6Rez$o?Iv%8ZF+lvlMg4=yA0Z6?g4a#qyI3dET|3JypUg_G-9
zTHzunbKaAyJS(!pM!T2O4sfx<n)HotxP;<MyOFp;R>^Hjtfioi`ZKZ>Wded&PpJ(Q
zyhp)33cg9f*C=?3f~P6?J_WQN7N4hp(daW2BW;QD@ia0zC|`X@Q0xy7$R+A$%2gdA
z-sKc%FeAo0jv(R7*UBP1BMK;je=dFjq&lnTdH!cUj`w}cHT{Hhe9ZYj<{A+GB{%Rf
zcj~VxKJqa)^tU<-uLE-Nx<?fJtc2r_^B;4)A5*bIA9LLwb7v6wTZ56;0UuG;!SOHf
z5;wN#C|$B<Y$Z$PjH`Ufo;6u{)0%#Z!!27?!Ix!9%CmahaVBlmxH_@czk2yiw^T~R
zlrIBuak#TqiosFFleJUK0dk&oQq0Af?8*KWee%F-p)EJ1?5p8>H$A0UBkmw5CH}0L
zViwL<vAuOGB@<)F+9~Ehfvl5aYMU$PlTS;=$}Kk~KGVY2;3LSl4lf_h>JcXrxT8Tc
zC0nRLE5&Topq*k4&SXnA-|AfMl#FFtPD(n*+xfu^-bau7ChkVu(IypK(XX6eu`KsW
z#;PqdCD-`)3axL%Q4XD$DQ4kZ-mH~kHj3FPro0Ko=uN)y@@p?|x$*S4=a`Ovj>iX%
z9&;@Ac+}wGZK=A0k2&14Eu5|`#rx8HtHifv42`L#LCNrR##*28_NMkcFL_TuGScZD
j+ad<uwkp1T^Ua&7j=}rWA9QVTl(c0>?jx4VWYGT&y9q)K

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/nvlm_d.cpython-312.pyc b/model_executor/models/__pycache__/nvlm_d.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..638acb4a318ac5613828bf67fccc80431687d277
GIT binary patch
literal 9100
zcmbU`TWlLwc6Wv|d`qN6ii%`CD9L)zvMF0~{90Ll$+2ZiN*p^5mf3(yb4C&szA`hi
zEiSe2W?e+e2DSZ>wHMv(dW)ddHZGt53&bc|ARql$v_G7c3$lX*b+IYX{Lw2dlHLCF
zoI5ilB`Ynu7vz1M`#$H~^O}FDt8)@aN$y99C+&p%78_==8kLP1hLHP2AOe#lDJH_C
z*a*vDn@w6G7Fu#CKEhL&C239BA~ss*lJ=A%;-Gat=}fsIE?T!H-Kn}r9j)7v^(jxp
zlk!Hqv~5o|q#7fQDPP2w@<;p>=14ZB0+B$fIntbZA@TyioPsOal4^~#(z-jjE7cZh
zOSMPZQyr0xRA;0!6^sO-uP)NXl5<3;zfA;>*!ht~zf+`}LcIWO5IZW+9tv#)s84JY
zds<*{rEfRw^Fv>g*uJf=mnCA|{G^GvYAN=LJ>u?10dp0)Ml-DOf*3Sm9~r|V{flg<
z<x6aZSj{#S%VrblS<QY~e0xDm$HnOoqj_JEL`8}v(xPxClb%V;BJ6Zb7RMJ-sl}JG
zN+Oe%0oHhFA(mDWxflW}BYjh^O<tLpdU^cRWc1au=O!*+dG*_{RpZn`Qb|l@gjjMs
zro_e*aYbvY!Y<y3Nwe~VBBtb!Me|LhVzc7e)HP8M;CK{l0AG<ZaZ#2tk^!tPfy<f;
zG{CS_R(Vy-CS!3iC8ib4t%F|63Nc00e6_7{QHdpz@|VDY1n$)^kyb=0eKjG&z2L-R
zGQ?{ghybHwk|JUvon27m(+i2DAWB+iZGZJpmE&rywF3+=-Yq?o(VBMX%Se@jOrDvG
zDfA$@`qBJ#dah_TCgjKB23cugGa4JGp>m&yB*F+J!ipAw5xE&wU~h93HsA$|$O#<$
z`5erH5mwQLtT<y8thc#{eUT5@w7Ti5lT+0zSb;AVq;wqdWF{6W$nP8DkliPFGH>?O
zl=H@mr~wi4C<<pnar?{Um&`P9fJ4c=C8iTOz^r3dRHD~2@z^!ZHZgTB`pT(sAQC5w
z$r%|>68z)&AtjX^$|kb=6yPFJ*>`i{@X;f09Tta@iEBgIMP)9N9=e`PriM~T&8T=&
zj4vn|NpH$S>Fdc<R0wAmwfY1yUX*SgO$fQREeHs2?cEET%dL>zB2PWOJKtaVe$msf
zdivKrp+`^-7wp3u&`UJ;j2HvNiBTCYq`A@yDWIMbpA+Tjcr9j77E)Z=;a>0B0GsSB
zmr}vDz<gxX-(i%>Jb}%#A0ZVWjgvc;I6F(??3;E%mMnrLZ}|%%a6hx$W8ZgjWQkj{
z0EH?T*JoiaS@XaOvrMiI=5cu@&*osw_iTc7-ejxlV6tqRVFcT4d!8Gw(9t~G5--^E
zd=5qn4$POVio={bPxXM=(#yP6ahnkH9+%+;4E&cYH%Q1io$IcMf?$Hax?oHagXxSC
zloztujHHNy)Bua*tfNXIDMmGBEZ3}8XOo$0v1C-4TS#3?!z&-t$QJ%ZT#Uef;}B#Y
zFc%3!x%f>loSexs3PAO=!sd9`0UAGM?lTN|zmX%0<nJsu7^w|_Ax7%N!lJR^{hBi&
zfXqqEB!GY2@eIh5n+m1AjC2bIZ%JKHYL3xaF)iNAN@Ka9t(=BDuXCFOGAulr1pZIT
zW8un#<1k+iLiY84k*{x&GGTW)|LyeEwF}D^e%kzSRBajhSND*5`syEKyx|W6Elkcf
zO2z6}&OSP%*Wii!rZdV!Dx0K2QWVZg5(pk%ilt{ot!_bvw_svU<K{Dov;>GDnhRc^
z7+0crFa6$j2@fOf#;g~IFbU01iIL67@RUq+$eP`F4YJ1J-6Z;qfL#GCG@aCOQ@<4j
z+n?gr-u*CL{tz-mg_F3O3$BjO8hZ<U7uFju7Tg!VI6V6J(x<K`hbPxNr_{rfYh4ff
zRvT6=s|Wt7u5fs=U~emQPL*7qqO1KkuJ)2USm+%q>^`BoPZZq2r_DVNzo#}2FS|>=
zru&EQ9o{gIy<q{QL&NV}wwLRPx8=bR)zkBEUiIu>=DzTB7d>Is6JAw*_4>N!c)@=B
z55H?C!D&VYJ|aJ>J9UB!IW&7TnvSK!XjF4XqadCZfPJHyI~sj^A(k|H>{%(36(wa+
zvn0}r)D6>hGFW6qk`6=jmqhA8C~}pAa+GF+P?66<cAJ#=x-!e~BM&XVBT#Huh_#*q
z%GLls_B7B^=AkTGNucGy!F!Ri4O@2NY=3ZBb#!eypsDYGi^t(#NyuK9Ht-cxwGL<$
zi@<{3;RFll6Mm5cCE8fS<fiVkzC~5Pgo1R-%S37D!iC?V3$x#(TMXF;gDR=2Q)U>D
zcRNThQ~N+~MLJccS7e&N{FKczA2NT=Tn2M#8q63gJZ7+nBrszMT*wkvZi3QCCzL4A
zNH<I<>a{v#(7BnYK3;EDbXthjU&|?2MaJ_7gF4fDjaik&ay`$ZEWCZt1zZN{e2bJk
zeap(7n=3bqo<7yn_nEt;Y~j7mr@rQ*uUGZ;uKW5+f!1PRKn)D62lhO(K_}4J)AY=N
zHNrcbl+M#3t8@fbl#XI{3^L7{xi$}PUT3fK2p+?%%6BKRiP;4F<tE5(lQL`NovVQ|
zfnsfH6AOI?j@!aVCK)!q13g>$NaRF*hDFY+;V7$v2zG%NdE~U35mwr=8RI!>-LRs4
z#tsULk2ru29a;d9x`PqtNTq;a3u#5x*|C<jkk2jf-#}Rds+pNLlrc0bNnnJEGG1aq
z{Zgd?%)?D<JeB7XuK7p%C~b^6!IH56IYSnmA<(+loM<4>ep$vHK`PdWL;;O(DtL3f
zJ70tHM|Id0SVBhK1l-ZoasSPGZ$3P{dTPBXyo{9h?s^abo26jy*Xgd=Wby52QcP=3
zKt@J4_T%OwhgAr^CW?s1Q2A3VzV84Ez!Kr}>^w@sZD|V%t$B;okhknS&a^nvVCF8_
zgl~B1c`ncAt$Euc%SXm768M_AX=xgErsN258h;}pD07;1PE5?sDbgkA(j1xVq9lRp
zl3@UsKtsI?pB^O*)#lL~31tqXwyZ==r6#?CQyZc<P^W=T$&jHSFXN_2W(nz{xpj*b
z7Q*f8j8^R_Jo<K(v&c27(%_4R>SjPQ@NZ(df&Y^=jFE4^DP*+SL2<fC|KQ&wevv5l
zT~hllt@mA4?LEuxyQ%GL^B*ssc(CW^;h%(8o1e5E`1H!M2NXx0|L&Dy)1cZkSPFEP
zns=9W^_E&gWd{lD-5`9RzHG6ffUy|@MmL(A+k}jSj3uFMBaLGADrTq%Boq%)6tito
z=OV%|L(Ix^kfGG!`GHm2nq}?snq3_@3UZAfcpQgw@B`%lIev<H=4j-dPaFJY9!fa9
zf7b)hjiA4MyUR8N*-2B|gENJ$1BJE&s(*Oxit0aF#z|maINLT|P}2n&ZXJhzB~=93
zK>%$PWGKEwUbGs*$s*do1+$9|6m1}&cu<tiMJrfk%}BnTyhuBcErDLL769c^Q4>)B
z>v~kH%Pc6>rY^^7pD#W+`g})0e!WZHW!|--tHF|$on5zD8ED*5uqVJZLACfEJkXsU
zr>S0-ICz%abs`Oed%@r}-?J$db-ZFzkeO-P$u%(D0hzr(-eFd3^WdCpPv%bV+0rfG
z3gKQpfy^?B#~cYeQ{7>T3pC?lG`LCN-dGf`Ic|nswl3S2nPmbt3wPVS#4A3tPv8Y>
zo_}OB!zr^ULLAdtgZ?;cJUY#-gG3BofU%3j0`vFg7Sjf4fNO93EzsZt?mk(u@2pLf
z3ifMEnyQ9js<;GKr83sUo74ze%4A3LDp2N$iHjvReFnz3YC4T-%^1syW4_{|RY%TO
zFkFQJH&pPs1=?6`nY9(`Bi6*{61!r{6XXwYKDi$>*4&Fz{N@bvUIsr{=bO!*YMBQf
zFvkG}aY>ry(Z1Z4^87p+t=p1dK_^e?Fu~?(Riyz=o=c~)F18Jl>rz{DR9>aVI741N
zenH=?gm{(^mEa)CiL|W5AmpY|qi;)ypvL#Xkb(4VoZ?3*Uoj2z7=<id#U)?Ij0#M2
z2B>c!4dWbcW+9o>9W<wevQe|rgUi%WgHzCO2i>C=XQC6VxoahhG=uPKm<1t|(Srwr
z1kx=?x?Ms~hQ6E;Yl~t)B{%U6GAvAWBOnO^bkPMGj+3hnE?#o`Qh$aU|1)G?qY2Yq
zZ0c8=`b%C=KKq^woi4PT0Y@xQzx>iBm@};p`kr*Z_{4Ll)Y)6?JfwCWTD!U4dGen7
zX?stxeOPTDUOTehK6=+#>g@UX;!hTfoyXPA<E7x9VsO72++XS%EOrg6UBji0J!KmS
zj%^Sw*m&0sx^dUu)$?lWi^~^Fp4I}G*3DfH2Or5#nnw!WkwWvxQ(tG%7gl}Y)%@c(
z)_oJp<6rptioRjhH@tT6lcOIWeXOV>Xa4E+b>CFMJ*DdoYJt2A7Xyy6gYy?lCcw$F
z>Q;c}s=))*dLbv}1nE4?(Ck#{gRYk{*yJIe6$b<6ikODrD6El5CS*mkfF-AMMm=t0
z7$KCLsI(*j=ei7)ftG`G1HsoZL&{TY<GbHQdY?S0Q`@%#{c?l<4`RQK>;5BT|4nU<
z7l!XD_ZROi7Ml;K_`6s*cmeWd_tQX6F|bz+>|GCpmt7@S$HPI@wXYN$EbKj@22U2;
z?VtJD3mrqhYWk$@<F+Thv4VT7;2SFi4-|t()Zmfz;4#(RUaH&m;CpJ_9#Hb#eGjdV
ze5-Ff?ojugUk^>F!3h}fG}sMGmANLzH1lZWD}rU2=9|N$uA|fvEH!tR+V*eSxH_<6
ztZ2npD{hi&y9I+fs>Y0&z$QK#36-#fGE@2iX4}k|7{V~i!e9OtWN5|=gOSqMTjrsJ
z^LGtE#Nz6zOAQ_@+Yn?YFYGHjum(m+<K4ZgqjS>*O`W@NHSjd4@NgTpD2<+NF;`3t
zyn)R4yt%TIUN(GsEA{a?Fk<u=vQ-2hOLTxCW2c4;51y7A`64<Vox;GYbOyF~-m^mN
zP>bZ(jNw@UV0)UcXt!$55;*5O1vBT-V%(M>@VWEYoz~_4_mE{x?+$t~&sJ>@>XhuD
z5p$pkOdTw+IiLYrB_^b1{T=k?pT2$`0>Y0tQ|H#~Qqizgq?vYA&8VHuVgc)_W=+$@
z0$s^Z(~#_!h~JkmV1F$UlS3}8&iH;|1V&tQ2?2tGMrfSINsXQch;@llN)!_C!A9?A
z)8LlspQ@BZEU7srV~e6Rosm*h#%W$5b0aOsFq|2c@UxU=orKR=F-hajot=Cw#8Vwc
z*--ObhoDXE=1uT{Ao~2C9t78nqtQE*hlcazggLNMDw#cyqh`Cw?cr+2Bfx=-?lS1F
z)?l$UthR=Wt;f{XW6PdWu&)>#R)fRE;J6wbFWB4ZkiBZ_-eT(!we`rd=L=86ou!qf
z&)oHQCRZjObUqqceS7U-apb%TzoGN%gA>2Lqz+E2Ez|4nmvPj@%0$WA`C-q)*y`@$
zo)aqk`cABOpZxTc+I?2_o-KKMOHHj*plv!yo#)QEm2*FuFlH74gR9X`Uwq=8*l2K|
zuyYu~PIE&{GOZXPt!d4ckiqv&1Cq0nIFq;;$486_NnVK({5>=vN??(v-~nRqwghni
z2;sa1bEI|{vBPuR>4_U(7+5sbmaJ)9!>HGojytXf2BH-LGaNhwG{YfXCIY`?t1^1t
zW<JDsn2>dvh6r?C#!H1b>BmrLt!RoFe33*pl%uAPu6eLem$-9cOpv7qFe4Y50%U=P
zp9_Mj7lR3ze!+k*u*n2`+)9c;B@@)eB}5k8MueR%EiL1Y4bSZ;;ggiYkeQmDN?1If
zbRRR^SMwV$&NMOgCI1q;EGc<*hk!z(&br1tJZ&=9Su4p6-mV?+53rv6eaLQ+XI|oM
zF7<?pJ%`kuLl8kPK~y~U8&CgJe{0b{p!x@j{$r~DSmF33)qkmQ<u%p++A|Aj=mv$>
zd-U-Eb@yn&+XdE~zqjNK6urAu@9t82s5CfQ3U-y6+c#ZSe?2H+P{&^48(TgDq5g;Q
z^~OB~_a3VHLeFVsB(?NDUfBw&2!ia=2M9ref@I2Ml6uhL7YN*@nQtQuv%iMFd;v1h
z%<g*L3BiFffpYEICy9>}8(1v|+xWq!-e8%B5;S&mX!W2P7%JPa=_HMTvI}c&(%|2$
zgPN|Waq-ZA=80#L_*DfzuZLsT;<^>VL8p|5OtVuHFPu*67jeTk`m{U)!Vh>)!V78v
z{Ky&B<!3mBAKZa<u_TS4X#KR460`CJG^}%Om_BUdOTLa2k3PD(2HFY62Gy0r`sX-3
zI)i##YuYw1oQ+AcSoM4)w2!pb=SJz#bNDDAp`ohVNvJr%N1<Qiqady+yMs$j0oRif
zy3i8pE(wFpQUJ4N%rM%i$Ei<Z?ILDq4QY*%I16U6C{;rzl(gGuuGvQcPrxN((i%(y
zvqU#o%NB-VzVZ_${9EGwoHTt-LjOrdJ|{1IPKN%SOn$|34Eu~g_LbAD{oYNOJzud_
zhW$N(3>en6>y~ZPx{Dbr_(Pin%FR(5<1Dm{Y!WCp{jJbw|5jmiT5W%MlR#_p*a(0+
zju*yWQ9CYe5@?l^3}FWfjK9eAt4x21+f{PxDmC<jNN3qi=RRhz;M=`Hpxkf)<QYOJ
Gul)~XJ)U;}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/olmo.cpython-312.pyc b/model_executor/models/__pycache__/olmo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9858aa2623b1fdcf91482a2a8903ed1f33de4878
GIT binary patch
literal 15766
zcmcJ0S#Vp|ndZINSAsi15+uP*B*aa-tyoedYl&=8v>mtY1RXaF;$Bjau=!q43kyu-
z9@QAMosm>iZc^RpGShhoRd!7@J<}DX`yuW(_wqoPN&~r(tJT$+n(`YR(&g05!_4=e
zy8whiIjPB9i3jKW=Rf~h?m7Q@?mv0GE)Gw^@^*ahlN|T&RL~#0mf76kIc|v)xG*R1
zf+@i#O<@yHd2_;?w1h1zZ%J6gR=}(YYtk0BF_<l3PddU5mbWLINmtm#@{WW%=?QyS
z-kI<w>%w(OU)aaWu0(yZA>5E`3^%f}JJFPE4mY#BC()8@4YwxS!fi=^*w0|zM0>I$
z+`;m7iOyso9AJ50qAS@Q?q>P=L{Bmp4kmlUy{z1j=u7s8`&qs*F_0V#4<g?rG$(c?
zhr&b2;qWjkw<JQz-QnHIk?=@zG(4Id3y&qo!{a<>;=aKNtv5KKO|)J76MezTzwevX
ze0UGT^aHc~D=_ym%no37eg)<}(Zg^9!0mcG?)%!1!uwf^ZnWsB-9j7|hu*hpqdsuW
z5(>^AdnPp_N@6M|j-^wHYr*Fx&!>aQv>+yev2-#M&Bmt_V(>~ldm(ssZgw`FnmrSZ
z0U*X_FJ$HMPl;HFR~*k|MJWnY<ZW>|5s!&e$eL0qq^{=@$@Ix|Y9>C5lJi71E2gsX
zG*z|8bD2z9%0{wjDRv=3UB*Ggq_|H;V;4lVk>Ywekw|I;Op0e#%tkVq$gGr}%P0d>
z0zo+~McB9_nWz*^B*aAIN?J+?5jj3jqjJ3%Pt2W23Fqe$A+yqPUX*4<;bb~7mrOmc
zHJFU2#Hge+ym0R2YS1^+SGI#d(Knf%jc4WOrF2Y`(LF$oFU&<TwRtRCI%Uk*K|_?%
z8Jbs}LFW8fF)ApnFQ;SCX&rbvIV}nT7MYet5ND!uiEKn&>qsIU6-4T!>6sK3J1GkB
zXjc3qHgow?oL&y(Juj;3DNm-qc>;6RO3yzZvMLQH=CbKm)E76&h$(GxnN~6xmt}Oy
zRxT-mxH6QCUJ@f>GLyX)iC1)|t+X7OiN^5Ct|@MYn225zC0X$#qt~XzNJbK8;#Xtp
zK2uYtR@hud=1njfkqh%+HYR}&o1Gl}6Fh=hv<Mc_DwyWMmISM4({eV^KI6!9GrVBG
z;SD<khv>Z6TuENd3(g(juG;V!o8Z1-3A^*$RX*%_kqdbhFKtz0gU<iR6~yyL7vgdd
z|FajwU{v3{!RbUgb}4w}0!|OBNzY|7b6LWpT|Ac+g<w=>?O!tp4o^-EUk!y`3&vBy
z*UnEq&&t7(U^N0zSj*u|VonZ5Q)zT91?5Ze42Y*vVvHT1afUOc*Z{-XQamv_GdM(Q
z>2=zRdda4}6z%l01*4ZjJZ$r?k-p0>aana8kuKVD-1mX2^A?`V@i{JH(h+j}MVp>4
z{{lnfi5!>JU%5eJ!HQN)5|vv}4y_DYIj%O{i=ORms5FmO0)J_k<7Csb+@E56wXky5
z-x&|H!&r2Qi2Uy{7PYNIA0=kmsOQVSpl+-RFluaJU>GX|jMj2nJqHZ8p3k=HxgEz^
zuVa*dcUUL>Vn-QA&*jWH%U^JU=`T$mnBUjl5=Ky`*Jpe59H`drt2VUe>eO114=nFn
z)IQL!L92Fef^{Bm0C)}hsIr544lRsP>oCIIVbpzP96gsaX{%wwYS=4Qqe;iehV&fh
z8hcuYvEFJyAGh)jw({Dk#mriCYS*}sb4sEEIqw{Q{nBM{-Sow~X2mickIK>j;1bOp
zvd$%?vr*|<M2IJeLtl+#(sG;_2ymmaIIB{8^z(V^IJjFXWKpbgESeCdej;K}nzxUq
zStp@ZAk1YTB^(h5hj=y;k!ZOT_l3A1h$$v<B|5N5Q)(_5F<55g0wkWS__7#JB0^Ov
zz*){Z2*O6%Ryk5gB26&LG@XnX0Yl726-O))&qOeL$w%GQmAj%<P#pTYNc4(~g#a<d
zPE&-;ljyiB7Mi$3yGyZYle8-qSxn5ZnN_WX68tKCLvcnTu|!msBN3T8ASn_IUjJWb
zCbG%QL?)gY!yAECFm`qBiNjA`dP1B?#HS}R*RmJVsfo)_b|zF+M!YJ<Ahad5C{Lsz
zoyIfQq;b%kZ`~%V#`Smc4b;i2&<B2do!hG8oOO%#g2Vs7(NSs*<Sp;GOP#&N&ap!0
zSl;r$;eR;t-1^81YmVVk&tS3VaG~cgfdh|xO+{Z%!Pm1gQ0zNYz<=MN`@J9go?3G}
zwdQ-OMAiKTU;o;!GX>w7k5F@N&2etcckWSpSFwGp&_1@d_k}|H3+S+}<PQ}6!v+8F
z>Z#)B@dEz)j|1*44UH9tP8WtwQ;!3sj$pB4q|h;fDqqRp{hsfRkFd6ET>I{lr@rV3
z6g&ZBZk}H}&&t7qCs=A|D>m#ZH0&z14`P0|zP0@AwWgshuf5&H8aH#D{d$|W&ZULh
z3nd!h!9x4NQbWs9&+VQqr?r!CeH$LmA0Uhsq0qJ)5YNNrE^0fqIHi+lY+V|?JxYD)
z-MzHd)Q|33h=g;inQI$nW7Ec}4f;!id}Xa^aLa9LL#yw*H}S$a#i^f4S@G)UC<_Ho
zR&0`(os&{AL$m^&7y^|yk1?|i?1mJ;swZc9UxR)Jd}6`8U;!R+jH>62;hg!R#$qa~
zYGb>JY1W|f0sp=Rg|cA2NZY>Z5ln&^>|De84#vM=U9c_KLC+A2<t9)#tT~%*WU(0l
z8@Pt}tH1?j&aUGwIDq9X*Xp^PW7~Q-u^vuneby-`&gNu1g(Q0QQ(D$f{|_EOZLte;
zsY|kA2JZ~nB^b|~bO;G5647KPqF5P%beJlhqT~pYkV`sB`KKv4i9|7j5h;8`;a^wy
zOA3EkaTCLds462^4pSXvlKhNOutYjeE$uUD=}J@*=3BO(b`AUnaOB%au5%kM4%@Tq
zcGvR4dc)YFEpN`hP;&cj9$h@T<{l_{d^ew6e0KTNd*|<*Up}^){mH`Jh5WM*JV#57
zElZ)>p_RR>eYZmEjbn@UJfGj2kK&Bq{NCdCmanb$uD-DDn^?3EywuvU6u%u`;aB#q
zMAut~^X^i!f9c%qb1Uxk=FvrG-gb*G`C9T`=>$e~*E}_)kX{W*k%}h8NJMc($V{6{
zP~H=XKuJw#HTFnENXH;dNJdJuBP7xi6tkR_7{^nr%t};js?j68M73Ux)5gR^A`-dF
zOJ4_6rhR{$t)SG4EK814#bqSFy}^BEvREA(joj#-(!N8bR{v-2C#|kW^&J~l{BGE|
zw!W29h1TH>I~5&VTWIw_p><-zNktde(EK^!Z)ACowe?Yxf9c5WBO6xa(bC_wl)IhV
zuv5vwxqLSRi-9kkD6s`$1Bqb_#-pE;O;WyVSw@2E%XZO>jafrBSVMNfE;?!{o3N5<
z!e=ak6IPFlSv_v-f45?%y#;e*eu-HWmG%yxzmKJ(+cbY@8%GtxhAtAb80*Jzq;%7v
z-Fy~ry~>OM$NPUXW1xf^N`1LcC}PG4vIai_*Qur6akVJS@&Z2(o-3G0t%QnghN5TD
zoim_sP|A{O!yerjL#;8Utf73OcLS=o*h%FydbL*dY8W3-FKttw601Hl?;W3oAd1Xo
znEEFT0XXj(7t&W!sy^tJ#sFeRRDDkqC@Kxx{08KOkw^iD`=*i@v1!EyXF_B~Q^1^M
z!d8`!_7QdC-Kz(j#1*m0>*^tA3Q@hbjSW?32}tsfk&r6n`6^YY)H_t{JzVHz8c;X%
zj;<%lvfSHH^!69L{cE0qmDdZN;Zj4Zp#!|S)-(cX-UVs?z|p?d$hGzU=LGZtH)wQ>
zFdBUYPhXi>MceRN(=gh0kS0*aScJk~l}=&IF-=Y)tL|^M$FHKWL=u=dT-B4~x5+ot
zf*E+!s_H501q);}*OL6(De<7hzsTL?r$T0F2GpckN-iJ?S=4tFM_#dOuU2{vC7DhL
zy(0Au5wo86>2F9AUq2;0l9do&4z9JM*s`n8vTNn_^_I}0D{sHmfHk{$Zt>i*eccnx
zL$Ea6{O;m+m!s>xpeBxd^?3(dwvcH`dIgk19_d^7k-kkyn36xHgvk^VC(?H)q5UGg
zN(ni3nIw@SlzR<HrSzC4ASJh`;$<Wi(qsP<Bs!ekn&`kUi4ILx*s16sSwRRJ$9cQ8
z;gP%k=8;9n3gm&RNe4Shs&t@^wn+#5JZ>tesU;o$Kl{zxwLNFzPVkz3xfv7rDO6vc
zn%6vU9wvjl%=5+$?<p|`*RwQ9?!@_bw+W+YFncW%htU?yO3{>z4U~jSY)2;?Yg^%n
z`@^~0YFUJ_$}>a~ot;(0E~@2`wOSr!jh4`Nbq50vu57Asdl+Z9>{J7`>Y5?BVbV2U
zNCtym*3f`!IzISXjt>F;*AJ`})C|4+4?<1f%^Z_1kRfDYlYbxuy=@T7Hg6eECNgL4
znv_N{Atn(fxDuDeNOWcfu6bz~7@<mGL#mzPG>EWs3MD>~k!TeZC)-C;*eMc|NWORq
ze%T0fR;K_}{II#Q75)jMCS<FSJpG_mEq;id5O3Qif7*$=Rc>KJ5Pbx6`390|oBY@9
zyGowMTazoJ_jld*f7r41#N?LQMAG1$x-A#i+_`*c<;eX*_lG|mxbJ(=bQW+2q)M>w
zz1*D~S{6Os1yA?AgZJmqEXV{<0QI4fpLp(is_R3j|Ak{vWi?OJtWHwGgpIMq03pUr
z<;@R}K-j2)q?W)j49o@74x$E|S~vKBgAG0pnv`S0$=Iv_YEOl5BARrVs-A5a=A22V
z_#!7=0xBdDDfyC2$rVaSv)1L5F>S>miE><k`B6(y`M>lkHHq~Iv}6)|kXRnBxi{}%
z?v2rce{}WLb^lX&FUs%L-Kkr-c5iGQjt-OuR~-fap1c<v-)L~K;6HdTx$ZxuHgMc=
ztaPpWC#V!$Im*yWzQCFzpuQ~<JfXUsC7WR_)e>*8o8~g`=aC4mE#*>FL&@LcPyRC`
z6;iHjBeiOR4!<PmbQ_6^6*dwTRU3(Nd+M!ShKYnc8tNtzmB>WO&)v)|=9XVtIr!rv
zKRj};<)?xF8d&Q;TIf3VVRNDD^qTK<!FlEjC(zZ!pn=BlXFPgvV6zXKbi0%kOg}&f
zTQnoCWSOxrtI2w!4nb@iLZo#D1tSA%swNy(lLJ<h1M;?h$F{E8Z3Re6!O3D;o*gjM
z+8z29S?!EV@ZPY7T|ynCuSc}hrliVOCU5PcSF}(LWA|a~bxhj&AZ;5ICsV{I%*&J}
zDFZacO`b<BV8qyQOh5A`R1?c%T;U@?-{s#lziD~X`c*Nbi^NN+o?1rITb9~})>}|K
zYsHM-vM$23t7RlDT51V4Kx;%Cbj}1yhG@#R>BB`Ezn(Au!mVP-TW8Dyf5VY88L<(K
zf09!R)C|#!ys^oUH%z%~uTJq|pPnoK)*kJbgtIZD?2z78u+8$dTUX50h&w?H+oz0|
zOf={vlSR2nqk7kj*Q;*<Zqc;JFT$dLpHF+K*hx^jY3qb|#y!AfNs6oPa-zV*rpjNh
zUsp{v#c>3#vuPoEY<|GlgodCTKZ2+#Sn@GsR4g+FAk&B;Iv;e7l<HfTJu8X(hdwu(
z0;<7;zyuTAG8@Vn>2>P(B$7}|*)T=qgLb<f4s~9b(KmX(K2BA!qX3KIx=c}dHITtn
z2M-HC;FiKA#M`BA!f9Yp3pL`Q_OG~Qxb-y!Lve~JLDe-Bn>IcYchVd+wvhfIby2qG
zD?;t?J2G$L0yVC&ysAA+auVvu@#DuUE#k&6ukhzUl>ZsY|Gv&Wba?gPz@vshu_07w
z2o)Rl7aI2GZKbxpV%tQaZ6fcf$UahI2)_>OW6DKW!PB*Tx!AL}(6e{bY|<@Y8+Z5=
z&kzO*o`KIzCT|_di!Qk5HP829SHW?R%w_-bzz@b(2R;}<sG_B9Y4Y}Dwbr7!)@|IL
zSNM`Qu(qwoJxrw;WpY7rs`_1AkRM|}4`AwFZ9wa~1TWnH{#}#$3f`u*BVMQ(wTe&O
z7Dm7GOa(koJ8itG3KyR^nU2<Vjzv#`1z&Kbecd;*<``kapJM)ErFom%L=7|{B*40m
z)i{{E&D@|(Mcile6ndyUu)4dbma|@J%URxl0kL3Bb$*o#065N^`MMfo2j3%+vS7^`
zni<+V0IGTbHF#>d3Q%2Gmw}vaaGc^^b%VCe#KE0!%2{=uwP1b6YpGyG#>@=fS|%oY
zvqtn+KnNjjxH4WOw~65{E4M&D8k55f1uHSN`6*^T;yeYvmciwqB<^dF<$#^_wcrUY
z`WH;k1mz3Sj2L`vcsiQJ?IrSYjRs}$^+-ZYg<eyyXAlvU8@VJ*4i0PFxtWPeFg#$#
zUXuP3U=lG@DNo6Nq~uK`iU)WIA!=wOm83-^Iy-oq08dkLlM-@IsIdmC%4{@-z`8$9
zm8AX6H<THIrqJR79w+|@b#Re2a~}WO$BOQukKIG0efow=!Li%kN5O$&@IWDW;NG{_
zgI`CvX=tr!|C(n%(o$g0y`DngME*R?j@AI;3+L{fTWv0e4i`d)?;rU2v7a6LmzHPq
zr~fU`yApzi9C&K+{DzflJ;!f3xcb1`-!1xff9%`+uxZz-?|#?X&^Okb&aQdRf?c$C
zz305+T!9h|)wx0!R_xm4vuzGCnl3v957;S~#m$hv;ulP1@r8F!^;M5R_Zqafum3KX
z%SO4r(-11+u{(dpaYi7@gfe_dER1Dea4a};j-2%}FY)hqa@Lx5ivuAl;vRTtr_~C2
z2^M`65-@URM(;p{iy00Cod$Y30VjZ!okv&BRqJFexN(-;ITy~8Q$J-q$8)KZ7Vh^L
z!NQIsc&j{uvZFfZ60F&Jb*8vOq^)~-Ecy%(D6~BOMDpA_e}|D;a4Kz6AuHUE6oXT2
zudA-;=TR_VmsHpbl`!>Mg!D}nHbZTl%t=YNCD`o=&7-N<b@w*ud}naYu3i$8>C0k7
zfb9goQ&z<N2zIN$yZu6*OR)&?SXQa0FqTlhLx-rLEM^tEBxVx0GO0MA56E<pQVO64
z=`U$4cH9Ag`$Ljisbr1{0^FBO+P_PHR_GJ4OFB_Gl8k0DxU-<R8B>yRPXhgV*~LJu
zV;PzShG78Jp(-xcfQ8@`w>Er+=Ku$j1TZ$m%23#_WMa|8IP^z4PNVTqN7`*fS-pLr
zO1et;UScP>^b2<K8<V}ywdUyFs^{7|mk$&>_Y^w!d^ot)xo5re?0V}ndH2J<!5<Cg
zy}#<;UGVhePu&{()xmRx`n|VY%jZ`8rKWB~;+uAtngb<-?h#a5Id`vPz3s>?%cG{Y
zrK7ixuCzU93atwFM+)Pof%ULy_v(Rr%@3LmQ4@bZB6$ALEo&(_SPbqj1oz+a{<6Mn
zSzLMb-q{EBM}Jx0veC{Rn&daSIYcmjXL1jNL#x)+?>#vF(t7Y^gXDwy{UuL((ZduX
z;TN9%jR|gGWMdCk-(}eFm#~PT`f3}Vgk&wFT@?(B?Gxvg=nzTd>X23_`7e~z^jPPp
zhLTPE$@h`KmVb2O<Zn2?)wMFeK|lBRe@;Ie2YBn~YRgXocLN(7viApnKKirKP0DW6
zbL0Cyb9Yr3@5qBKH@CBBr=3a;u4mu9Q-$s)H=I;-X_h^^K(Rq>;UZCe+-v@kf^%fk
zOR!`8)~=Pat1sQ#f8Y9Z&(Az-`%e|dP8SBwY;dUgX#Yp@KRo#bWmRjRrV_)S@#qS~
z=2dL7?bd$S490KzD_H!3W!5BEe_#q*1e;)o55R$YrB2bN`2bw-0oY-e*Nl(~p4xEO
z(O!z2vfHX{JGS=KZY|V{ZlR8O0UCC|P-}PSU361hcmW#W1@H(>JJ8snwc0ag(2N;)
zg%+_+^oh3GG%9=u9<g4uX+DHjv}|BLghsGqzrun!XVTKi=$sr)OrD>gU|Q4Zt66YP
z5qHU_qmnqCPKk2x>>2G&`4tH)Oq5jB2&{JrZ&g~R<PIf&PRU;&37OQ(7R0g39tz2@
zfefRS<S9A7=y+`YBQ``;0QgG|clZ-X+p2nM`6MXlRZFvlE&wyQmZLq#SI9tIZPw)+
z9Q2ypM>|7T#w8iUf-et83P4jaWM>&(>uw~dkxI#))V_+_pyt|lIWLmrsd{pjZDTg;
zBi(lI(&(k)zGuxobnOKrGv=_veEO;ef+AWOx;uOm)+xoxtaj`M<IO8}_^9ZXAb<mC
z!%X5(W7*P|-XQ3oQo`z~AI1-*9?JbS5~V2{7wPi=q2gj8v-G6@MmXedkp2TDWc*7s
zCZ#^XZu^stp<efw-U3(;6d1!(od~SsucKZjhYAy;m1a5fE?1l!!~Jmq8(98ZH2Li|
z<Gl1Z<6O1KAGUNu<b5!CzxBhm_0eY#4QQnx0{LkXC2$XZ>>ez2_PqDCJ6|hy?kjZe
z%b)uG<gYtJaHkaOdkgiwEYnx0?<;kM9=7$boLPNlz3mV##|7&0r{0-F^t^Y^JzH_l
ziNc-}>%phVbnkkE;4JPG6+MRvo<kdE&guPyLp8;vw=svu7~!PEF(Vwm)lV%oy&T!r
z4RaHFk*bjVK1fuW<qSICL#9sUB3BvY-=(!C`N|CPoAZnFMPI1k3$2FMeFxSY2P%y6
zvWd0L@}_so_|6_=cJ?W#VZE~3Ot&(p;4Wk9^fa26yMQl^_NczIYG5!sue`G=1MF?p
zlh&-fH)ygWAd9d?9hp|HJFZe|5B={wSn3$saB}Vao17KbCcO~a6<W(lG}>lqSpZ<O
zK8DPWv#xnX5U<gMMtCR!RDP9z0|+~LkO)lsrB2~BV<%3g&TxcOCA3b9>Ed%3`uJwP
zyL!Ug>u=G#>D;pm292%iWzm)Fk8?lF-FtPt;UpYg#%(o;l<wMd&7h{zw~`}Yf;Jaa
z8BZ<QBEe@e%ct<UOIZ%k{A=2X72b-Fd1}5+V|L@J(hjr4OJ9M23(+SwqKqxniOyB7
z^WP~)ilM%Y%!t4;(uYIamXTr22ddYuQjuSxm3sojz=;~@?#iQGyMKJ?hnI@GPJg`X
z^jZU$M&CyVw(QnMSKdZjrnTtnEBN|Wo~ZC?!9P3|YN}Rw=|YCmno&&~FnC-BG;AB`
zch!f9OaAUk@jb$(<Q1A0`IK3J%Vc%@#${=7Vf<cy$<wl7HMhGy^SZiiYnF};Kle0$
zivJDQtm@79A-x$t8>77SU|DZISk{{l;&dH3&X>mae&+U8=+4Mj=+0EC(4DDRr8^U-
zT6ZQ`w-px-+XC#0p%r-$RTb=IOTih~v=gY#ZXMl0zebI&Un8sP*R(33gY1@!;)|v6
z<sAFENFI+)$JheHuZmB?vgvd}RvlHZ(qfX^QSnsV#gN$@8>NndNc16r`i-A@zrK?J
z>1f6i?Ay3;0XIFQDDHF05-CJ#>}g#6bV<GYNgF|_XAOlou7Jj;>6<F%LsLI47-V%!
zL5S!V<+Vt_I4+dMFSDK`cEhaqF}U~)0H6J_%W3R00`)t9k;k>DRt1=bF!Y!f>{~4D
zyFm3;>*MHaA8aszMPCD|pD*lx41G0TK_)!=^0C~KsWL6Jlw-A;tE;DS2#v=?=CX0T
zY37mevNrH&&e0d55=l$N#T?Z5{!f%8vJ9jSf?Cy9j2V%Z$zmHUP{PzM#de;ZbM-dv
zG$EuYA>)pn%e$Pq8;=8k5Ru9ij!7S*h{MXsA0gQ=^F06AK8`=l{||296E5)YoaYm+
z`4g_66_5TaH}S9BbDwZWzA#yM(`Ou#&s`jUmj8r1^9gtS3zHcD2gg4Tz}Wxf_IzQo
z0l*>IYCO;Lt+$?Ddgk^sTO8%LUNepJ4f*Mt@x}NShwRogKf!n1l9sOBzP807yCL8c
u;kGT)YdpZFCFgDDCP(>AGr$`RymiL>4W1vpHO;O}cdUNrbB@YvrvDcqoqQz#

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/olmo2.cpython-312.pyc b/model_executor/models/__pycache__/olmo2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7f4a0bbb155dd761599fe226eea1bc88e831b3c8
GIT binary patch
literal 19003
zcmc(HX>c6ZnOOJSCuYC_2G;->Tm*&yL69H`-X_IE6bV9-Ny+v|@@R-|fCKa#>TZw(
zJh14EwmgXBkSwp4V6Arv%9{ubnH93TsZdE(<l4$1CsoNbL1)HovX)z`{BZUUB*2lA
zKb!A+eav9kplok8+XcLS{oeP!cl3MT-Sc0(UKa%yXL&dAr-v!(ukk^<>}qDU&qPr-
zD29qs49%E0I%$fUXv~{AbJ7yEki3PnCT&q0$y+&l)DHDF&YpBc9i+_8Ig_rai{u@g
zJL!pfNZ!eLlU30wl6P^wq(AB>c{f*`+!WoE3`7Iu*~8T&YooO!@8yEYx@aBAS8?^p
zhG+xH`?$trQ?!ZX{ah&79Bn4~YOW>O8f{I6qv2#*w2hQ);@XoP(GHRiaGlAnXcx)X
zaGR6e(e7kVw1+&`a*^bg=oXR>a=ppEXkT(`bSrtT<NA}^qT7-K(ShXl==S7}=#J!I
zbTGLyx|7t`bGwqeqq|AIfg4KhiSD5(6ZJgBG`>SIO{`;r*A}~UziU?V(R~Cm1dz>N
z0=b_+wg6=7mp~q1s|aiuVB4MzdsiJ&^dM=`4lO#2Td-T%zPna+)Q6_6k<OW~ypS4W
zc{Vl5ZcV4S>F|rgXVN>u$uz@q;n8$56BiTbIW~MLAzlcdoEjfbq{dIgN1=dCj9(Ci
z{$C)r2rWBa5LrGBppds`;=GuMbC9(q1THbkjzHFwN<r#=kxQm`98IUj665gbJR*v0
zN=&4&u2z`JWYWAC6Vv?Yg&209AP8Nra$HhvW0F1NtQgB=V&i;zDkFE|6W|cie2fe`
z2EE5Qj^$#P(mcn+gv1OEDr^h`kg@T&c!A{sre$MXd^|M?5KTgcOX&T@xpZng#>E9O
z#w3zZ?K+#_rjDeTGgCNu`&ZAL9ZB=ah*@qt!}8-Sb2QCOB~ve{0~}7I*f=j&zkK@D
z%A&8PFRd>EbiU#ActR9j;?tw70Mmsc2M(A|XV{2IuF@NvImyNuIrwUNG=5$yJf1wy
zG7P*uXjRLwWAQ0Yj43ZM#--y7%pX?vtnvbc;q+IJz+}{?mtKn4<mw|+V)|>!TOTG3
z<N$kF<m00vtiUwO#}X-qy)4%y1bjKkgdjj~<YgpT*c)<pGCs-1*kneW22dzTvP>c_
zvg*qdVq<_R%}>j20!VNQvL_jzKF`K7JUf=S3}X+xP}cMudF=uelWjGqY>`p*Jdm41
zeOO(A%y)r0vQ(4?3Ta~KsF^V_<{#3Gg|#qN);ea%QDZ<0->Hh)7&~j9@RuV}@{D7H
zawqFFt}!khGc^FhF&pE0#}aihZeu9MvqAX=eE~i%;B)7w%XHLpmWou#Rph+sr)=g&
zt}tBZE+m97{K38t$F&m}KF_5`C&QQEEU=^|JtbzQM1;emI3==7I4+R(Z|VqphDUlX
zM<Q>A6RGf<XNF%Q&*9#1B>;esmOUA6N(jeOX*_aaVKR{c<f#-pN@zeofsv^@Ksl6G
zF1s(n*#}yH1cUE^MH{8n*8<Fra>GB8;nnBhMgM@lL5XT5Ma|i>)c1hcY2=Znvh;*S
zuhugYHa)9nvQ$im6tNF-WvK~mJ84C57d_g8Sf%C0Om}f~a0#YU)bG&7EsZwVtXT{w
zElVSZ(Gcd3<r`oMYHdn)Xr+%VYle39r8+G)19NBSNmy2WoCZ+Pwnl4Fy8oTp!s@{I
zyc)I*W);%vOZUsP0OE-8YyhKAg9L~cEnm7D&t&p-isD;-lNM!j53BFjV1<k^mbE2&
zLu}K=$C!*;7>{}e)==AJF!O2+%ZBe-S@TUg95vCX<x6+ytF!c^<!0a<K_B|g1gLhc
zu5^E9TYY^1%HR}DY$@T<a?oRKDR0=SPpdE8p_P6b#BEwRSrvns!Dx(kyut2a%s@c~
zG>oNt*7OGyWBEhVJ?mXn6o)Y&eJ7W=OUr4L2x^<OGI6h#gOM2Y`K&cHT#<bmzS8}k
zt!$s@eXQ%*=#3b#zYX5qm-X4Ijm3C2jC}_BhgAt{aN<!dmo?p0>HVyQp=Pb(alOWH
zA2AMw(ggF%^sLQEeWxXB%UbYtFixa&d~kzVoX{|r?$F;0+7q<;wa*K{9@g5G?oeuU
zYUqhmB^WKY!A`T1z2<_w=Dw@GGg!CHdMoRdjb=BZ!IbVP5QLz0w^ky)tmR;&#%IO2
z)bQ+17@o}ugK^yRXi5o;CZdf&d_~K_XpGOO!DtAjGC%XAddW#u)gb7xSL<gQ1f~%l
z$Rza(+;b;poc(W2UIf`QJ#oh@Th1rqAdkK^6;Fxf@(9Q(W;P>?D_EX<EV~tPSe(wV
zf?N&y4~pF}UCf%X_Cr1uvC5v*R5At~TmW$$FptJZFR&Wsen2PJXF#l0uxV&6fs~!T
zL<FITMRxING0sn;_JNY}<ya;yBv6uq(Z&T<_MmPM6Gr143}MFJpC*%u^vPCGwLm6!
z#6T1WeI^F2QRP#6mz@{Jw5&}Ly<}Gc<at4igQmzMmE${bgzgIohGA1g$>LGmknLiI
zJjnr^ojz-Il0Fdz%*C)unYFW&B@HIo>Da|MH^r*;n@SDzl`_Lj`9bW=fk?>gZEq>P
z+5rkRKDn-ZIY8}D)gJ-Z4Aun1Pgpr*XgpbJhxVrVDs2|1^6|)4VHuM`ECrfe3|_Qs
zn<RM|y2LWsuC6cNOj?3U2D9ens)|>J$CclSAQpW8JQ98$IhFnvVURqsN!g~pCx>hi
zSZ<8RGeKTCe;BKss=mcs=Fefxc2XFNje;gB#9{*Wgi=0SSN_lQ+r(sMTPBg&3iE}r
zZM{4-w0F<s5W9^_oZpt27B8ez+fc^drtARrGCK;I9<MwK+tR47_h+X0{eX3*ZoN9u
zukD{<s1(kFB>t-_)FX#?&MrCXA37R~!L~xMUkdgYf_tRko}A@9_ak4!eCMs+o4xnk
zfBss&`^ZDzb9u*edEawSf{iyOuTK_&TczOEocmGT{^h!Z(85z}?YQ-=o8Kz59+FxQ
z<tz^!p(nn^`E!Nl?GpU?wlBT>z_&Z^*q!(7F8TrmUx(!DSYSTjZgY}v$5Q-(Zz%5=
z%KL_%G&C0)wn`0KmumiX=wF7U2E<<V#N)qudhT?=(<^y;A9#)~iiK@QrEN!7%#_pn
z(9ybLqdfkCyIpd(D@Y%>cN7D4g}@dmux0Vwhp*pxT?*{I|MG*tp}gl%K5*zspzg+j
z>jxG(3+;O)_*+-`X{dF9Uf5aa*e7-DyU%>geZ)x}r<Oyfab69@`i=#$(7j)Rzxw?!
zI&TpcC3QWuAbv1=dsYhW#1$;oH5KZ5q`IEPogW^&b5N?ob@ddxdq4Qr?Qa#jPf6XU
z5L;)lu?5$;&^RD94giR6%|<nBDSGOPFy%9IXW&-wge6ayWI7~IN3l9sZ0IaBY?m6g
z7lWZ|U!VU*KG419b2PYcFl#kb{qE(uA?)r^uvu>g>yo^klstn)f6Wc|b$7wvBl&yQ
ztmZmw=3aA9buIJEt;w5{g_d1X%dY!7Ki>b*{=)vV(*Cm#gXa+DNnO*8+3T|lj8wM;
z(SKUgy=Ysm*_Lw_8=7-fpEk8G?EGN=?fpyM`{HubvApM4?sT!bcExJ)1fMi^EhJ!y
z`JK-{Xneld+;;1=o39m`hot7A+{mXjIL@mhb0c_DW_@*dZWz!O8n#HV9{Pm!OxK_?
z`B(CRj<srMEzZKZ(n#%np3d(XnLl>x^v%<S(9Q>;o%wTLCok?%W4nf4nFv9@OKR8!
zgS^pty;bjS&24K!e7?0!R9z2QLVN`<yMwn6N}d6HJx{%bujK<>&=8mNd+t>@YLraB
zCDW6#jc3IvJ~fIeuy$D>gU_p%fr;HfRY|KUyMxkq3@FDAQEv$XhsqMmz;xwV7sBYW
z7N%dT1u8YFSX_=dOP6p0gtNR($(M<Kh~sGhR9$fv$4e@DNf|e8aZgvwXU!%GlmdMe
z0FRWv;zF@;mL`z8Ao>hQQ<lz}#!O&&F^}*lSAc1%3OQT`EuzSng@}Vc0u?;!zOoCL
ztC$#{N>2$q3Saz7nBW`aQIq9IAc<J`uVelVOuh+;>>x%+u%HPDiDaIC4a=)y@l1xB
zj=iNYsF~(UV!f{VeP|;59wb*NLgTI;m^(1v_Q2ir$Um@DjTG|FT9*BXb4Mzlai;^t
zoTuL%$<gZ{+`bZ)x|WBn`##zE-wyobz{9$)=T832Uq4^{eK#DR;hV#fKaxB0bV<?Y
zzt)x$b8a3~a$t0tI3vhjP0#@5$_nc?JZ@XE;h)nsJW6jBS7|f74g%h+dDfCOPw1P!
z1Pm`17q#MoQbQ||QR%pup-bEBb?9T(I%}H+Yn0(8w`O(ijEoFm0aCX)l?DP^3t`nU
zm%-{*lrmU=%-S{BSqEU$EhA-64($jMY))7cC)v8c_*=MO>zdK3?cmQq6Ob6u^39_<
z#G}5#Gnl-J2@2}`*C2_wl&#8Q!5Ad68N@1?j+Jd*`l9Sc`6s4W7eUq`Rz|@E;JB5Q
zOWDx&u{3`v&NDN?ik+;MFF_mO_aT8T?4mXWZ!}+To}XQ=-a2Q?nR71}H`U&VT#wA3
zLx!-}`C;FkzWbJsJs)}Uq2r(IxE5L7G%{z;(YfupI1wD$C13l(_J#PeuV>DJ<xqO{
z?YXz-rx)86UtacYQ%iv-C$1-ek0WfbC+9BK)ZaLL{q%x+xu$Q<nX_G^i@w^Nmu%vQ
z7p3e}JjsHT?TVp~Vv57OCl&);f>Ueku^5vcjm3Ce2iYu$JQ28LEAfTMHpSEpk5d_r
zRn|U(kX}{n8)d<f5xYb4QCt%|0EfvM@?DT6$#Jas$B_K$9qKca#p+n`P|wlF=+CKh
zwAHmRvqJ9o2Y*TKE1bz=tpQeaBXm8qV#a)X_XmBq`$+zYvnn@rH9MD`f92NeH($^D
zB9e2<suiGCLT+pDNuVA@pcO0Rfwt5)-^gCiuGsO(LAiWaLvx`oobW^zhzxEN#-(3)
zpz&IrfaLGbW<O?OoM0_?5^K2&Hoi-CkbMSb?3wSoa3hx6$)WT&v5=!J{IY5n2OBwg
z1iLt7k7x#WG@Sn?c5xo{d>+;Hl18x38jgZL(udX8VFOfH!-1;&w$^a4N$c!6YZh^b
zlB>jQpR#wGjhHE+xqhv6=?+$wl4a47wT{yaje0!TLun(+GqHh~L5sJP*$s4xDI(7%
z*Io4vI=)ULMO4zr1=Q5?%pR;2J?In^>;$%vU!a}f#EiEeyoYRTDnm4D9&H{ou6|I_
zQ;MqX=g~Mu&N6=ha|bc`3MRT1%^!wGxq6*b40Tu@ZMBMe>RHzduAyv0&)Zl^(HNbj
z9_<PZF6oSi5X)gq-o}Iw2<%&-v{w`|LA1MSZTstb-G2Z$;m;tc(Cey0h3be@9Vt`~
zO4Wlo8)|i%|9JnOyYuY_9{LXE9S8HigCIp0f;|$UkfC;vm?e;y9Sxv{G!LPi>ut$<
zS{K?36^}RafnE@Kn?d9S#R!Gvw(oPODM0JS-l7MjdILc@nh*3qt40)*s}vc6zRbs9
z{G<4~v<uG&IVYDPLqudFi9r_)33oKjq7MaIRa_;>Vix^88u2QFDhZhc6AhT?v*6<z
ziJ18-0LOm^liz_vllA@)<Yl}1&Up@=){A<428w3<`s-5p;a?#jZZP174l3AKsNF2p
zZeDn6xi&KA%Gs|~Ytov1*%JoY4cOba=e|7;3@@xPJb%tX*6og)e+v-t827*nn24C*
z+2^M)!41P-#N-ktI3Ru+lNm_L8Bi7rG5L2`aRid57*M0af8d7f2W~5S?AGchZa+$s
zD^|z@7g70!9i9}vfjCFuU%xaFZ55aD?~iXV8+%{Tn_J>1Zdo}{$JkLYuJOa@C7=1h
zI>r(YgPAY^_PH>4(o+Jw$0WE#H+003wq?%P|7R}OFJ&#bt;vy@fTL2uS}gxRS&OKX
zVbrz2@j?Tc*0nky^{QDM9J3{+qCg_cD2FUDvN~-Kfl^>(YBn30{(=3dL<M@)bw}~<
zj!T~*FdFL!uoE-_qA4|X$5i6{GnW1&m*Ka;&?CPVm+1mX*{S0qXHqsJ4m5Hq9O6ZU
zsRy-7EHm8_b0aZzHj<h#mSt3mqgbc0?vB-v?+|W-n+Lf~Ij?CX#H;*h=uGEx02khe
z<hNlupEh)Z8Ex_6;)SJ&eBY5ZvkAGudsS;LswTAPzJKxlg&#BbUwjxChEfM`lL**c
zHWfTAlBZ?iM4@v?>KuYb5yE)7z;@NU!>GO&>VN9!Rwxk*V<q~I!fMKy1S*r{+}wi<
zuo{Jpz!|E%a5roFX%_7r<ychUGFD^CnzCjjwE(N&#6_;S*1;QFVRWko;4x=S8pg8}
z|GR(;_|bcC<NpaJ-^1jpQc5fm`m|*S&k6|!v>78d)$sJ2R(Fpb)<L)c7=d4TsG7E%
zqgWrhRdus!VR~una{b|)7oH3CyQKPEOUdQ>WBA;)=#c6Ma$evFS_8*T$3pXR{WcYR
zNU9&Y?_I7xfzRQEg9N<j3*{Xl<#l}*CsN6#=CBZxzkz=N&%sk{Dxk0_xFMT@+sYQd
zwOLnoAYZ2J;8RK2fhVPJ>|qrC^~<B?R@-4Q)-x@}1i?vW){Fs4YH*Sjf|IO_jkOuc
z*ATR1SPqJg0~nLTNiqHn+q#U~LTHkcan69e2*F5(*wxw%`esSnF&6|TSs~D=igmLd
z)?$oF35r7T9cJQXiO&|s?t`&c5hcwBN?Nt-Qp6tgSA8klLXm(Rzn6ei|A7AP`UoMA
z=+^5*bN^rwLL$;&a>3EpS(sKvQ4@OHMyYHANOU1pTxE<>B`d(P3^b+<Fg8}8gU1{V
zp>pPT90W7QKA1FX6I#5=86xC;T6@U*wY=D&<u>TmXdcFE)2U%9-60mE#GG|OKt!#G
zT#Rjeqo^!{e#>yxY8Zey+ebkEBd$dVS)GJnM53JQDmg+T{m1TCTOc8FlTQ2RU;y`M
z4K-|S(+K}AKt*Umhax7$<%dHSa4stQlpP1Sc=9|GKQz--Ite=S>^}fed_af~K}G?C
z@Muav1sK@r!=}FbO`p8_)24HT9Dz%iFn5875rl<Bf`%F^Q6ekUR+N-v*F_97RUE*F
zvB0x#LBd#6O`N=nr&#Gvc7rP!B7Mn|>||4nnzgCpAtDKpMl2{@@U4ia^-DrXHT4OX
zOj*1r<P@It<~r#kV6bu_T&MpD4gU9U?Zf;u1j2&qPi&Vw#3@9ai^RJ|JZeO-wOcgB
z)<x|-rWw%-o`~d${M>U+aX%5SkKMA@B{_DX7F<8y`NRIj&U?Ke%G8GRehBIc$D87^
z0^w!gYjn{Y%6ppUMa74@TWa0CYBmiJ@uiP!0@;~JL3C#<!3fV#mGO*yxvH$m4K#lf
z;6Yp^g2Dpil`X7#DtyWw(fgfIq`@;t)71l|*A3!p!6S5qB39b4<O?q}Ec<%%j$ShU
z5gr8*xn`aHM2YqWzX8D`C;<S%Xt|JtdBPjA&;vw{LaJPv-DpCkAX+)z`MRv-JLarq
z)|wgux>b%(1uJR$0MnH<Ur{1J!7G5A4QyR#dm&fWD(aMeLRUt#+ER3%5}PUNHZ15@
zS2s$~P^#0`b)^QJL!;Hls5gKM%-X=gWdngyr<t?X_q-OP6)~WVg14mdFyNy|=ysE{
z=zPRUS6tAKy4JJStQ860%m~qJQAgMZuCjO%!im)_xi5S~4c!l?$HKyec!mwX*>gTF
z!WRN)B<l+c>{~I8O-0^RqK6TQLdm>5vN+fR5L=$$L8T!P9k?+S16;{^fv=JOLrnev
zlOIANd!QK!?I*3;vHXu9iKzCq1uS4O`D0A}DJI0_VO1zt$-<`WdBtS2sf_NZLNI)F
zLJ9vCnqQ&7!S1Pl_fWyz{lMLg605JL7~Xo_3xZ@@S0TJz3U6PEEQb$32}r*^`M_Y_
zGYDxhG_cevg^uLTJPI_=C-1$2Q3($N`|_TB`M^HVae^VmYrR-gi0qXjd%**L=%Yjb
zz4lb@_+N$E79xvpEQj{bomsI`!P7L54S(p}Zx?)99{9FA3T$5V-EYo!KffF}nfIK8
zp)@q#a^7?<fPfBSc$r)++trUk*4f%{9mpyBH{_I!gTnqkJ!>kRHrOLrUvV*}duDBy
zXm_wf>*q~7qhM2}VHbmTrFq24&sSEDkmc$30$CG40#6}6Is2?*)|qu=truyi^JJ}t
z-Z=+&(Nrpcd)3G<$5^!S@c@xE6MQ>CnX;1e?#j9*G#S5aj<aq!bMCAQ&Ye>`jWk75
zsofUpH|S@!)K8gV#Kl-eofc@=OFe2cf;ei+gf1JE23I<tH1*z}z<4ZhMr|VzE7&W~
z02oF-VNe|L>gi>ZO4&C7Krd5*=lG;jb_LryiB*#{$Awi*pt4=Fp!Y)I3GhAoc{Z88
z$i^6Oc!7aTWFc;jMBsVXf3@P0Elgrml>O*PV@ltf2;f9xMIOa2+0L^W4!&BF9Uy23
z_$?Fvr%=wH#RT7yY>qQb#G`Ple~tw~kWWS@HH1Pe3BGfPp_AQ&JP8nU27P+TmosXo
zf^5Md=!MEKWfy5c9DuT09Xf$?04?Jg;JUJvfRG^xxK)sXX_w*%^<YQp=Q@HKgrzXc
z@`@-@lD`E6SE$cT_I6j^(SnBarum(PrU9vG;KyD0rh(<Algq&uAik=->qlKV@6S87
zNS@Z*v1?l&`8F?zi{~Etb`<^fKi_p)@^8Q9nm@f*UktQBTuxw1u_gqeN9f91IK9-k
zTzBA_1!J8KUO%`{_b?DyWbXG${l^gs!kCUp^^t4VVi?HQpcEdw=KYz!d7fQ(W9j5W
z|G}U6YgcNi-NQ5l)qv~tSr{ILyBDpCZ$CWz%5wNs9m_-iVA0c1@H9&x*)Tu#bgcAJ
zoxLl4l)qWm@_!c=0t{mnR%~Rmh6d~(VFjV`8O$L`;xA+JuQ2%wOr|lZv>W^$7Glzf
ztN#&Xz;5v5$kETKTE$!dH#8T(ZKa>K_AS<a7`hW$p&)y|>*KzU`c^T!;-~s|eCBR1
zGbcbEseA+Rq}uVxLACB!IwrO3S#jc{OLeT0ps5vX3q};hN}jLpm7Kk+UMxFFL%MKs
z@s*{)`&Q!p9y}&(JuY>gSfQZilfh4fpX~Vpvx<cR=Q0Za`lV5?)fCKdy@eub26}FK
zA2dP6GHzn5KQu)x417EVb_)k<1w*+_wOhErZea&og2PCU1<QhAIq3fQIg`stf#srZ
z!`43I){LKZGgZWLQN00#QoBL#tQ*^c<zf?9E<8+N0~{N)R(ggR)W8h9Of6f*`dFJW
zj*{JD%)|r%-cPI@)j)OYWyQ&JBF!I-PYH2u_{_{UA}bw-Z|~S73!iMBkMr#Lbcz+i
zCr_wfZeHSnT(P_&5CMq=_DJ#n0+T<%<U>rBAORf{3A*Bi`ZDjb6Cm+eto|?92mg>R
z0N{C4OqZg|EGKlC$sa!O)A*dR(H~6xL6}X&#fLy1F_3Z%-2!EP<<x;P&$8L@OAhly
zxS}(71P?b7or-JSJk0t$EO#vmAk5#ZH4(eC9LxyWUB#tIC(uUc^&8Bwr=lr5LMweW
zh&w{Ik~m>vsgUjPXP!#?T<V4`zJY7Gqt6}E#z2#%zNZ^Pt2LLvvm1dAW-GG*b~
zM33bE6T+Zlg`dadFeao!w8qGOj(ix4@`v(eEPo3Du0bN8z=*uG-1VRsq|1(!Zale$
zH2gn9li$Yk09rdbs2|m~0t37^d_VZ(y5+tXz?Tq22ZRfVIrtgeT@Tz{#irI<`)=+l
zH0_X@cI1wIZ}`)uNYNiG_}e6Z8_Bdw{`O*XPoa62)V%9aUB|+S#TS<AcCR_Dp{m@m
z_lDOzRNKIktuSyz8aT2Xeh%#e%^1pjYVK6Qvs?1)Ch^NZbto!6zW{T3hH}3Lsy7N1
zHImLtI<BVho5(BV2^W1Iu$8O(q;w`sRG;!yuP_4qGhBRp$wbk=Ix{y@fVd)GWHGYr
zgSdg6Wy*d@=US)H>(<@@Z9agq@<K-oP!J24-qh2iX`v%vKUx6r3bhXGakxDrwvsWU
z0)i-h0``tuO%2CX6u$bWX057ycW|~S?1Jy33Uw;iO;<74ihpgpijCbXPO70}m9j$U
zwHNq$nP4*pjn=7HI1NIW@lb7OqoIt<8So-a&<HN{Bb8p}PoRXHI$$2egoB;RHszoR
z*qJs>xk~j%!)N69dHPK2Q!`!<a33d*<~$Oluqjxm-Yivv==nkRc6RBF<?5q3TPb>u
zM`7G}vKgo;x7uXU+MrGbs`Se!o|6Y_%s7qTKb3d`F2J(`m4P3dM`o&2n%A!g^PsAD
z@iS(iKKO|`E5IfSLFYW7aGzlAFCfv@kti3ij`+p>x^*N_YRGQ+At@K|KgOjS0&HNQ
ztVZMFlg(Q`n7ln%*nIrK=HvNlARq0Y>|C>3H@R{)+%&<0j|4Rim6^-H%sdj=R4EsW
zfK?7=6rD$jQPh>5jiWxuac{>t;@jZ=D<-%(6v-LqZ7ekZd#u6aZJg1sAVZvOCadFf
zm!;MPL-*DfJrLe+Zg73(b+y>?md2HOHC(Yqk*nc`ay8sm`e^H}l3cy3Bv<c(qjlgg
zUEI3;Gq<-)wuXF}Y>iK4vNb+d$ktd?DO+P%ixq+$>p~>F(F%D$stDlo7Reb}wPR70
z-P&g;et$thjUsd7QbfK&LTqH;Xc~UKf_x7z^vBPSk_DBWV^b;kd4x14knnJ@*+Trc
z@{BA_iNrw)BzwvtNdyvPCRgG2J^0m`@>3f;S{>ykQix|W!NIS5q*MJ2#HsLc2sjmZ
zl=YNP@B1M{9Y4KC#Yy&)HcSG-QxoU$2LXtMP5JPvt+EbUCX-VsRNeu5ES*te-dmr7
zL-m*ZU<c^jFsmx;DfkrBl$e0Yqbo`7B9%lAiD};}sg8_(h>A;GBt7zegzbC=EV0xP
z_X4^bWMu}%XyF4o_^l2lA`itVCG4*ES;#Ae5+bWStA+Y8A7P95&7ksi*x)nzP<$`?
z`juKD8|CY9Qd^ChD|1w+kV?m5%K8#(h~fH@HbOtKvcpexumX>6LB0t)32)em(68Vn
zB(WJApomJ`IeZv%ZIH-b(jE-CQ}|0XL=BgfeNw)el_9DdQcylXw4EXG)Jm9h77@;2
zLL^H(Rd*=mguRB{I1a!hAo}_c|2Oamq=yoI2FZ$<rs>aiQ1l7<e^8x|spiL2=&vcy
zW2)vc)k#VYKBn6Ll6vtmHS(A`^_V*Jm^$#7+Vh3ULYqFLAo-<>qEFI~sl#8G%<$x(
z=$Gifq)vTdvePCw=1}CP=>Esl(3<TcO$V=i^~N`@e`Afp{2FiGLRaVbtJ8DSYZPSH
zqI4hKJa0lH>ly{wm2bjt5!J1k;xyfSZPSg0>kX?E=2y*7yh4iCPMV*m>Aq|Hjp^&t
P3tJYsUsCu?rv85c;0^(1

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/olmoe.cpython-312.pyc b/model_executor/models/__pycache__/olmoe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3122ad58b8ed6f07a21d6f73fbc3b50dafbc46c6
GIT binary patch
literal 19440
zcmcJ1dr(~2ncwaAn+6)_1{!Dq610FuLg;~3(u_QktQkpo9-3EMlXi=HK`nLD%)O09
zu#G)VP0A3DcTi<*p;{+m>?CGNlQOP6EGOC6sjW)QR#LUxL3a1tmA0sOvRnQmRmd<k
zuFW6G?>qO=4Qk|ZD!CHpo_o%B-sgPp)Bn}yb8~po)^Df2bC%<NO&|K>&>|b%W{$hX
z@m!qaO}sg6%9!J36U8lQOU4?vvbZ&E%h=;~7PqAxaR>74X-CExcd|4`+Ldv~-7M}*
zdotd*m&ILaU#2Qv#p3R?KT{pA&eX(fGPUvAOduX$>7I05raoTJ;@)&aCKwO0xGx>b
zG{zfQyei$4X^uCuxIZ1vw8UF7t?|}OTfB{>Ri`7FUGZHkUXyOmbi_MYyf)pL*&W}_
z;(_#@Ojo=s(;e?--*xF|W^a5ii`S=nGQII$#2ffvx-S!p$1?r#e)b(o@5}6u@6Qax
z2QmlZ2Qq{4!OX$<K@(@@grIQfu1THA_+c~mWsYxrhvS<B=hX>)qD$|)77cQUK{f+2
z{CgmeGRPJ{w*DT-KN7qQwhge6C&S*=x)eXgO6)?3_R1xMej#?(ruF*xlr7pZ{nWGL
zqk<@mj|hF)@$^*WE9Wm{Pe(FYUPwnqvYClwE_FFAMBYl}u0+mGj*X?p$Ic{2kRYVS
zuH>ZHZ>YAYNpU`#6T~Dy5qC@^#at?xM%12?(y0+)7*X^1I6~LSTuvCzrLy!<FHKHN
zWW`(}mla2@B&fX<tHJ$BI-PkYJ3g8ki&_=$n2<|MOeDs{?Bs;fN?)i$%8Cir&jgxF
zrqe<?AtuMKDV;m#zm*l!d_qc13reJN4X7tEmdsrdM0BrNnn<UNwvy@W_*f#HlyV6^
zl|i;AHICeLc5IA6JI_o?0*~24mgB_>FAZnKOw^*(ym0Q7=d})=PmK#nQK^1WK*b};
zoWN@-H7{o0+6sh9{O7Y{shsq@m>m%$j220?FH9yedDB>x?6@{Rn0p$rn4J)!W~Iug
z=E7Ma$tw-7WJi*h^~BSe%L3114N+G;FN`K9)47DYlo&{oX9Ed5JC3!?2z&}XyvQb6
z`VE~5RPTLBT`}o=_QjKmTmO3g`KV2)IXRijzN+qv^Q<x@n38DWGAT(yqimrv0xDO!
zGRbQ~LdZ<yrV^>L=Cp;C5~IlxY>Fwx!vNFCDM6GJZzef)Sx8KX!f5Koh`Nu}utxjX
z_z;nA0RakJ+yo?O=1p;ni&Ovce%>Njc`N>G__O2BA=s{Z%PUgjym=Z3m3ImbE#?BO
zn&uXqqt&zAsEPNy<BPj^FKVc(P=l{>`lyw!ddC{~%yKtOaqml9v|4d~C7sC%*f>cb
zWbUN4Gy5jAO%tI5naWJ0g$xc3TlvUnR*bMxk=&JJE+Sn?io6sNk|S3l!i@<*%()|Y
zk|SbPk|NmC5jq)C%*~Qdm%zFt{UAq@qM+6z@Q)RYB*&2$8Kn(Q-C@;S6U1>KiIfy!
z$<!sB8|vCy=uKoIDM`Jo;Am<bU6?{k5mDeLfjkH<JDHo9%t_@P)jCOCA67i$lbM7%
z7)i0^vJ;7Giswp-=Y?_g1lMfYH|$V*Y0ffIg3nD&2#WVjIxN5{ghmucZbB_**S3$V
zY|&^75H{bKNAO+KEiPwd&bjj3cYrf>ENkNOmOPgLl~tddPI)Qa1UkxnXufMz^8lyC
zI4<YWOXN*?GhnT}g*WBxc}L#)XB=<+r{)iBceOsDoLz^W;-dE9GdOzI%c-O!_8|S@
zv@@p7Ow=XrL5kQ#K{o|a1WJ`U(FswIaKa_U0}KyzluQHlu`0w~g6%^PbtpEVVVp^4
z0!I-TEumHvpo*+OhJsj4QHS27Td_()dbCo*;$Etj`dDf}aU~KXK$}t`Arb#V%gdg(
z|NhJUxy(fWL~5chmlT1-`ff}f9y)UEu+X1QUGATl%3aBh_g@Do=vNWFa6=dYjuF*Q
zsXt2xCpIx99zea*HTpS<=>vHd$x;Hr@80G%8#q_hoI`eo?mL@`&3k68_no0lJ6FHE
z=nXD3FCDy>+q9VL-LuwrU7JoW6e)%}inT!sTl<U6ZN*Sav2k~?uDRF{o_}rOwUxl0
z&44=u`0sc(&;+OW^xcU=DoBc56mpZ|_=vGn07JWh?X&-e$Sp2!x{CMqXU1GPoi{ZC
zbOyWZD%G*=!Ctc5)!Ldd<+-aGoi7K=o9=4d%_Tt2SZ8d2Gxl!@5<Aq2U98t;&)X}t
zm^bUS0gYLPfAhcbM9tz+)T8)7s<Cm1I)a3OhTDLna3-zSQ^H%~AV9=}2%--05XD&;
zcUDY|B~&=KHkY8Z;t8tIlu!Z;ktDXvvP8Yt_LF#o038|vnyxmsgO+jy+0r<Ix4E_Y
z_CkHPT;DzGF6z;xTDiU#-=W=w&|W#TcWGd0dNp)(*0<K&c4z4J(Bd1b%?Gf3W_|N-
z7F*lzq;IE-O<l_~>lUu9XM;1hxmTRc>vpcXqu}q7{as7$RsVq%=K*mDO-8N5!@~*}
z_0cICPiBNfLUAXEf0;~E+?z-MTcx!eM<T&zN04j*jw9p;?ntpQtR^<lAT3f(WSd^G
zs{~p+P02p(q>Tt*V-g>j#KTCHXvv>ulOyg%lm$;y#`h5X?j7!t*=}>Lhq>N;#eqW@
zS+ODXD9~bauhoavZFtj|0_zTnIk|?$br;3lT)1uBLoqKG4BxtT^V;GmxuJXAM@dy&
zFuF7-H}tRj>9d-vt)I``Y+A3OuUf9A?lY=?{e;^#xcKsqF1>$gokMh4_-Xnl>CY+3
z=8Sc81bs9frxx2-M`SCN=gr@Th$C23>dxCo?Tkh{-l>Y)K*#M@tBhKV2=Ce<-6rf%
zqB8ubnGWWtop*z>yLeA!C~yjudts}bj{1D4&&@am4~|%sQpL8k!9j~>&@5J&(756u
zJgE^omLmQUl7~mM0}ttj;|TpS^z%1B4%^6__c1bOx@r(Fl+&K824T`uG?b*TO(_`&
z2B?bK-1Y$NSSoQ{<zz4C*9+xACV8_iY|YrW<XCvl$Z>4R0gq?oIME)_ux-zb3+c7n
z67f0X&eiLwI@zD`<iQ9eN<^HyN+)sKllM$xet7#ekYdUF9QO|i5m$!8dZ0do_sqNT
z<<qM}sU|&MdgndYF5&#v?UY;Ab^~kMQyH=hj`cCuqPM|2Dwn{x&|jS(pr@tP;VQ3W
zrBPEIC~K?)+6w6{m)=N?l)m)XG<Gb?>U=)pS6lVG())>Jjg_tp#XG05htUQxKI{Q=
z#w85iKJUbru`hCT=v1hkW+0*gl)cb$rQJ|*wRu<GmN$bnbb~eY+||f5`ViDB%wv5M
z#ti0&31W}FXOU~{q8yO|_Uzb)hz3yhqFLv?ANtBxKCEYNsnKXh&!w5%X&txKXzae+
zalP~(+DE_}CrPgZJ=bTjip?O#LJwx8O^tymKdHwm_jZR=C$a6k|HJCL8a70oyY!lJ
zr}Y?08>^$I?KCfd-BW_mV@R#E%dOhZsKK~u%XUVGUJgP-U|4aJP9OncE0;`FLqbrz
zEI}H9956nn1T)DSiHWR~B4q+(aZNQKr8t~Wk?4g;i#?`Ry7u!k)2`T?*RDhS&R&gL
z#C`(kp@5FU-#xnW>)C(%yH8JiU{Wl?gf#7lWf|l}Xa>*`F!)oXHz66m)GCCUq$G&1
zp#sGRUBS4Jy^)Y|Q)yw^7E9)G<D~r|K@iPefjR>!fDuTqf==g*=A)hB0Ck1V0Gc56
zl`i<Xu8iv7mkETG0e%Ln2$2Jgh)RH(KulFkX)UqDYr<6GdNMsJsEH!&GR2?6aMB4X
zq;|?xiq@9$j6Pd1WHCu4odnOO!TzQyjXD6uWLJl_EaI!w$=4|$grzw3DOV*b52cYT
zOTw~9=ukmbB-|<XYwRr&#!~F+?2CjfjQPhJi-boME1O%N%6z|!6qSdttFp3KnkUv7
zS{}7WDT>iZ)Xor2k%(w%95{Qut+JZ564Sx042vO{U8jQo3R?_<*#oCf7t7Xa!iAcs
zToWzS9FS`c%-V~=_Cl~<4))J_%c5(|y9&*Ha&sS(;U3h77hYMsw0v;2erVSHAlSNa
zeevtdxz*sYS?`1P=+d5*fpZ^STy1}G#o4x2*HoyB$#t<=S25U92=14I`)9qM)*f1|
zJu>SkwsljD;i5lK@OQ}mj>R$A-?v=zv43F2Ik4g%C^ohf8vEqNzU83Ycm$GSRk1xr
zMcRrUf5Fo(d)gPrKKAs1W3CGo0(<4a-lbRNz~DX8$AO_0@6bwM2rP76^TNeK%b<+^
zTe2R6+ZIiWgN2Txa>vnoV{*so)$kdry|EYy7ed`~sC(&Dq4#MS|3gosbziZe>DKto
z@x|PaX5OEX8wQc)DF&Mh!EQO&y)^ja;~yNCgVayVUh}P)n=^~N9Nf#kn>z9G7rRbS
z1D&6SqD60Y!5fynVMN}$Fn57{M`Uk=MLJ|}N3o`XBw!}~zP=LZ+VndcNnG}Ur4O}H
ztq+0+SA&OHtf6IrFSHKGtpm#!fBMEx-jG|r^pW*`!v$n|9;lfI<<^7utUvet%qO>=
z{%G)i!}Drpm(ld%;E#^Ke_ZzNV=1h2Wqo*cC9r$bV-HdvJe$>Aa|gg!*VVxm8}}7!
znyJf8t(!haGr{=*SKmr-!*jzrIKIx$oo9=?S8m)(CG>H=yb|cZI7uz=9T$^I6w{lE
z>DoxS1a3(6H%v^b=PF6{yy@C0oST81Q4-9tMv`zEjOVTv(`D-!Q&|b~7b;-}+0fVp
zqgq5t(m&G=Xu75?5Qan#9mJDHak`|<${B>Wa)~lMg2l{qWctVeUqL8iIt~+qG<x#{
zNa#xP=20`#KrnIz&2|-`W2gdijIv2lr;4ozQ7LYqxLj&%GCL`WA`(Q20$M?lIwQV`
zAZk?+;|)rfLZCRAB>)Nyi69Bhsmg|`L~>#xJ(YM<MZME4+wt9&?Ej3i(w`!Dn*)Zx
zt~)k&Y+={Op5_PD`<82d8vaT6U$?GSKRtVL`!{XWb93hwOy3@!HEsRy_)E0}Tkp3W
z{b=y7j{W7a`@z>{&wf%JTB!Lao`q9)&fh*SS4U@0KAuwaSI_U7&CPn$&F#|p0g35k
zwrq3StW0|RlD^IH-u{%7LQKVEfedJ=s665-NtamY3i4&;)G^3~rOkB-J)5!3*k?$B
zskF6idArWVvYr7JkVH<mJ=jnLs~yuaSlU0^9)ip}bl4e42v-fss05mK>RX=G=E9t~
z)D24vFE*@&3`$OM0$)&+k<m%aATE-!O8hznlN1ou6mtloZgqoxgA$nT%mOY!e1<+t
zo7Qw)@erL)sH%3b1e(enV6=tRN2S)pvrac`+r66J?5~i=bVb;<ZmzcBR?E$ng_+fw
zzB&7>W%h+)ZT+q2&FI3#J72y1)uqlK_kPd|tnU4pcO`uKqk;M8YVGixW7agge>TYo
zYrE`kU);Z#T=jR)St%W<?|ozL8w*oQyOv&9_4jM3plzv}DNsa$ZRno$6zf8_&fPq>
z=vl4nopa6F=S@X_{j5*buX)8U)9BAqKx$u+_JBA{0dXSYc?!OQ0P3_!*izJKrD2QD
zQ}6<Ua!uJwlt=;1yflXZnzG`_XMW2)YqGf)r`Os0-U0Rfk@Yk7z5a^XYpVmHycNC~
zUbj%Zz3WH4@AtC!nyYGd^1b|Ae&OXimu_EL@keFX-VGa|*25lK!&)G8>)6d>>o&xJ
zA3`m+@;CGA4*GI(ZvT7Xx$x&Me5uMY>e~qZj0eIido~vF`v0gLb5~YZ@pfi1+ew+_
zgt^QbcQR!bZGNw!s_Rb)BVg9W^JL&-`YiDxx-S|$X$377tt_3+jeidOvrUTyh4waM
z&HoE6mZg#w3o@TUzH<g{AaVqm-2}<ZP@n_SAji3q2BV_x3D}bO_iYbSE9lXXT1lH=
zWj(N<2i7wA)F9KjX1(&tweq$P4NQri8zlM<EN9?B$fAznX?KilMkHj7e_$>x@3b|R
zNl!%W6^%(uQtLx+#W)3DMG&nn$$27ef03tvL6S_zj;!J`+EO*%Bw4FMo@T>Jz}^L?
zgKMg_%z`ecqLe>14x=QD{Me05rV4=`=E_7vBL`hRMD3L}>RU!fm{>$~jA7Vvd8mnD
z*z!GZh(vz_c<DbN*eVhgpCA%#m4iNQ>>^_oW6$F&f$mM4rHNSHs!can7cPccRkKF1
zHdLtXm1}!TDXpD_)<bgZA%p9^IR6wF<~l0v1j8KZTD)H98j`z)?&a>cog#@L{Ghvk
z*<RT9C3zq5_1)m>f9c$<Vx|&Ra>D+Y;$hbqA+||>D9+CB$B4iPW_i0VZ-!ZmyZS_a
zV#YjPzY|Q!^u;KwS{t>o?V;28p-JZh7?W$9;SwmBXLXpe`iwJN4yjXi)P+)v5j79P
z3T8|Kn9280Kzx^ic?$jnfzDzYVB$@rZsjhSO=r6C@hzj#<<F?ZHxYm?S8?9D6;E?9
z*g1Q)7>*Re`{eMx<(Ad(Q*#&A_UtX}IV$ftdhhs0-K%?Ef+#n8Vd2PHD14{tc2%*V
z4Q8x$8`s#i!C4^C`C!rM=qj{7CAUBI3*SdKR@+~boo%ps-GCT+$9dbi*s>bxpY;{}
z;e{(J{yi(sJt_%ye^C<523DEu5}_3-cu0ezv#pcedfTvx$S%E!?9!XaF1^=d^|mg9
zd?H>(KIzNJfwcDC>|LyrYj>}^D9No;R1dz?eM`*}N--WCWo}%?#@tF#VQ4ac->kWl
z*x*iL7aWyL460#>nWF44MY-T`;;w|WVWO&-4tEh3=%&}j@wGda^;9kkgOiVUGpg*{
z0Yc5)p>4rOWk=m`Sh2;c&_lmaE!gm{MzD=qX=H44X5Nn;*7DUtfaO;n2Q!foJnE?v
zY^<b}uR+Or#uGGvCkQBRw%IR``i?OJAQgoF6*t4X33BTw!?@o=mSNwb(@r>-VU`~-
z&fr_7Z&|juay-Tz%zbh0z?!#S)mbbwqd%aKgwNQMx9-3bR4!?)B>w7n2Q?Y3<pQM^
zDsczk!cC*_bb80hD8Ct$-=fPTBp0DBL(V~5-`13F@GT`95XNcHe7#*Pn-%UUq!Y%2
zat3wJ?NZYKVdouV=E|kZN*eqR_yT9iJV~|CMAA?<LI}QVz6G1*oM{f4h!V=iE-?>_
z-$woi@Ht?cL!@oMc7;T1A9-6PxQg>wI+?l5Cr?c8F6}CV+{TWj;TV^eP9UO!wPVjn
zG&dl?w~sFO{9^Q%%@-JEfG(TuKS||H4Q7OiUJP+ZYb&uOiu*b_-!c8J$k+qg_RPCR
z@iKio@gQ)p6Wful)G#fw>fxler+6gj%{6{RaS7wR%9<#4tv@uGij_DOk=8+J`#o-T
zk8>?-@>t(WT+7!YUyGD;ErAO2=cn1ahc^Ent~FI<t~HP8aMzk5g{B_4sfW~WU{CP!
zJO~dIy|o2zi|lP-kyhE;x?!`lfaQR`6aF_tr=aKnM5pZSeBiyHvNcTO=dcdBW#>Tx
z3@vniKep8QVGmdwXo1fZ!ZA4<TRwHaZV0WoKJ9;{=nF4gUGYYj4i$Qi%RR?8EarV^
z<Co4}wz7&#W%yFO!~~5k&N{T47&hrd1bj+m{={&pc?qU?__>PT2Q=^&;|_m_xJ0K$
zR~Y%#Wj9)#Ryjh3@nYNZdT5I2JiN^@!8s!PBa4lz{+<<Q59|Ff<1&=GEsk)iU#kRj
z3bC@1YS)oQ%Gn$PP5ud50D?rQK6kbERqdeb>GT#G^VV;|Yi-6hUW2J9uTKLj(=Xb1
zZpJ=d1=dbAf<sk9Tb~U7Jfj3K;~VT0YBNxsRux`Itt9ePH1z4n?iBY15YvnU+CvA}
zu?lLOcWbPb##;g5NmXT{8fxM#-#7G;FL8PMH-qS*ftbtsO|5G4rzww|c^gXX0Btak
zHiCkmP#IQHovBm|;}&T;n3ZfaB|<1+2B04yO{BFD7b*B>6x>0ecwtRrzRC=YL_YC-
z1n?I$Hm1s>E>YG86p$i`wWZh?dSUt`$%RxV$52qFEUGO-3K~NiqYeAFfM+Pd8~XN%
zf~V_aPZv1F6@Paz(s$Fh7U?WR2Ia`$^6RUSr{;aIOU#{J3v{gn4y<?&AS{AyZIi<%
zXD<|kJxkBYFejY-w7wZS%yYNTE!7pGLvnQJ-r&zq{OrW9>YtlE{mGu5Vs&G&x}{hh
z+HhFAsu*{B`v|<U8qS%3nX1Fz{(8Z`_hbLw2Z24s_WpaX$<=3o2I{KTIkT?{ydiPU
zZN;{ZJ5#r(mRjyPSKCg)3<4H;KiJ6XmK7&7Ib6%GJI~&Jb}_RW9z@qLAZM7JL4*Im
zuuJ^MC47`0tV#!pyjpmYdWh_8dn#!`A<b)$*e14N#YL`}%*3j=`0QKbYSb|~p&Dqd
zN?_#LM2@`KRVe0mrX?EiYGMt8)Jn1>CXYi%fhCwznpCR79E(*SZYhz0W*bIim8|Un
z6#S5AXE7a`x=)l^@=I4GZXI6JkgNFa@$46A2NB1I9fY|L75oD-%x;k$`riuqHhjl(
z+fxYj%c1^Fm#x~p&e>dU6_q=*D+yb0IPG4B!(#|<!IsUNeqfq0mrx$&pYpdoIwCX<
zrzK|~JUtIu+=^xvBj1)co#N(AZ@kKJ3=xoS+6)vmif^<z<D7BLxZzb~zitvu?|OMN
zVjN;MaJQs>Z+igg)Da7G*Y--fYu=*wSR~D~h1EP%rk#S$TdxBxoiSj}!6DhsP_!rS
zsl@-y;5tg)3y%{=-mRls6KCSae`V$JHjL^#M&!%;E@6+dkyVwA&HqJ4v|}%0e?Z^t
z@T022Nzqn|_3$5|hhKcQKH0G!f4f61He=5BR~{#E#`>(!`15|YE{!=lTkNSsMtJfu
z@t0<L-t_LCydUdstW(KHE$`u7xdy#9y-aDv^tR!;ZoNv2yzK$O(pUf!_UpTG%$F57
z#yuRhfXAKyH2D~i+Xu5Q7-`qkv?%}>X{vjO_zu#hJ<zM^j_UB|Apdpvu{+sqg+z)6
zL#v_`M4jXY0e)P7kBJejVlE)1?>|11oy0|iYu6(TG?E%;HwoYm0{oQ)7Zm9hVq>w$
zZYkOuxjdPRjAwJWk3ePU#sRf9f;%@6^0L(nGgpyPxfp8i(`uJkd3G&^k14*b*JON(
zl~0Z2lxnJsFWqdB;F~Mt#GlfnIYiv^!DT7M3C>-jD^y|x>EbUa)2?0|QoOh=F;16b
zvbcjK3Y6bO`IaQlL)*!yHSyU>17v}bYkFG-239=!r3dPcPwlRTrImVZhBXikX+vT_
zrwv$jV2YaosRY5J4VK`<Kd07hELZKiLr4DqiS<hq=o=l=7mn2-(e^eN2Q8vnO}*4f
z?b?x~`G}|#p*-Uf(Spwryv_aAY-@*ibt}kuuz6vy(7aD>-nZI3u-b57*7Kl!_YZeN
z9YvhQVL5VmH8Ql~Y<bYJSN68eo|^Cb>x1Xy>izTXg>y@xwLmLeAOd@fbz!K?>UP0r
zIna#{a*u$qW%1l{6Z}Tzt!shct>ZV3F9z=iqD%a}9yxXzP@lq`V{p0de&7%l2?Q7Z
zSgmR;)PagZ(Ro`jvbzvDAV&_&`#z~|Sr8WASU!8d`uHc+_3H<?L+4E!hq%bW`7alr
zc}}i-dj7dZ&(iDnobYT}>Xd`ABJLc()%@7)V@sap_-gah^QS%y#+Gu+7w-p;Qf9bo
z$ts8Y=1&(pqlM1Ha_8as3!l{OqMHe!-Jp%dUD0BD&u1QceZ!+FuD)r#1FfxhbD=Qv
z{do0$uy48Z-ZgpPS=6?r>NU+hBz`}*uekppnWE9!N^}T}(m>NnC<aa_JaDgBZa(!O
z++GOx%i;cYGq>v>m@)0e$e~S#wWalun`_y<)-kkjYR%~BgU%jwZ{ZvF_nk&nyBp>&
zJi?WW_Ql;xE%)mV7rl+D47kAm%G<I2l9}u5S-)sjnJz}v#eaca6b)|IEY2adWZ_e+
zOff`ajbg_}f=m52qo2t5WX1)bCMat<1rPdfQ7z{vpyMhMA0Yk(1@|d<o`M$;l$!<r
zloBcM(eC^mBG6Bg3w&d7&*9&Cn&8!L=NcmG4vIP9>Avow7{t@Yh1xrfw;OMM<ue9#
z#ANGTs{e8LgYY_s=)K)P@BLZt21Vg69~*e&X}7f)8coDeZCxWX4?5_}$+ZnEpORaT
zth?ybtyv41f6qFVMW0lY;Yz4ScJ*xdDDAAt3ESnVrTQgl`I&oxdm}6TC*|mu<j!X{
zIOMF?y==0zES_C@dHKLS8#Cb^I3@R;mOIa^bCmVbfsdrWJn}h<tII=EF@iti(UnUZ
zOPHXoI#V!T<{y|+xR9snO`$)9HWAnGKpq7LZmg2O+qQ?OmFCLtg#OeGmwitqr%K*k
zIUV{_vOD_d0wC@J?^N1XxinuTRPkP>LG|wdq2}(;x=^KQP^+Oq_4745)UiWp^t~2+
zujT{LxYk0$Tyf;;<pY{0%t1h4OdLwqp=2FW>RCy<&>+~i=xpneA7q->5J-JcQE$tf
z$%@Y;C#7Wi`~^n$LDv60Y8J^ZCH_YW&QS1O3QCr*@8Q#sgXk0)T=zf5CfH`71qb?n
zZK0+61Qk>TP%CWFyh89V)5@0dbEdKz0??Q0d{N#4TP^h)4@w#>{64)axG96{QcJTM
zY+G6}EJ-E#4Q=Shge$YES}W;xb<PZB3?&8R4uf|rwOi3sxJ*+EeJi9!8)JB|u3MK+
zap3X@Ij6#O)q^^jX7x$N*0%_VVZ#oJ{WS%owiW-3f^G^PP*9IRsaCIn5xb~fWfp&c
zWc~8j)}E*mCF{ds0F_<vDpyIWR<W|}YAAO9oDlOeO8#z}V)99rR81{e3^NDN#s~Gd
z?$_}k(6(q_a;ygS6@$A#;Tp&u>V~Q@wC8c<C2XfEylXWu0MV2#2EOav^m4oQk)8CU
zyzk^{<V&QqBvkIJdGEQo=L+6KviA^_3of6okQ9H2o<Bhqc?8)^6^Zxur;;FB(#gHV
zskGFrt`#GQ{}NS{t0x(moK|lZm(T4s#iT-097I{Bn0#+~Zn^+h7Jqapy6PWXajLhs
zROO^-sFx~hAY-UyXVt2DPgYlZ;Fv>0rjEkIMxm>-*`zU3s?i+NW=X^nsH|t1<|@QA
zSLNdyRqrf6q;Yk!ae+H*Y`NpU?Jj!j=ciWM58d;De__^9O(&$%Khl|PQ8-wUK&WKn
z1cDt$##K@XVXZX1AsLhPk(xy^g|fqhQ_I8wYLv+jxLT>&JaqMP75#()E?#Q)E~ncb
z8|qd7y4EkXpgOE%O?{zek6g0{-o*L$^UH6n);t3TY{SD!Bq3zWP-&QKsMMcwZ5MP5
zsFxlZ$QRv~ZGdN-mp)8tkcLS=OR!~_3`)}^l`mtt^zc7RBYRNOzBssA)6GUx@H79j
z!)0o8gLF}kX$9DzXr}*=lcuYEO6$gOBI7Lo9qKAmj4^g|y5q66d0Zd%h(<vuwCtqy
z%KqL}e{97WV_OjRu;FOqHU?Q~m{4U!V0&=GhOo#?>m|ln{3WUu>5z!OqTm1pP~@nd
za@&|@@xN0B&5g=9{{_YFQ&6Cw#79?ToIfEL3jPfZsRIER=QU^TZ#iqdd);DhwXay4
z)<ZfY-E1(@6jK>#ifv`2DdniicCf@qA1pD_2XTgvJ#8xX?SJHPmod|bmod}yRmM!y
z=Qd`VlD0F`lom4E8kSD~`1}Xwp-8qh+<W=wmwt8$_khV=&ur`6fsICv%0&}o@4C}u
z>#xX=e-2TgU&S#rYta+pb9gEKkt}}cWQ1<)NU`MQ5w;$RYjkoPKbMhBOU#oQRxP+H
ztKXyuQ<s#MS*fC1qNG+)uezwWL7G`2VTM$i{k}wuhgY7M#JyulByLE(TpEMxG=52e
zZ6BqYmElQ@N<q~k@XS0RdZ;;KZbY&yD-GMBVw1TPdP%H|R;j865y_yebTV+pp+Ik}
z-u2f^uQB%H6Sy#~{TjiOK$-P|8AX|Wbk`GV#YHImA`81|Ba$&ky*$(Nq!R2#dl@Uk
zIGnC0lwdzYq5WoydVTvz^=nt97|EqyYEf_S9C$+gs*#!WGwerjN+lUTMv{TjSE;x<
z&nkY6X$l{8d77w<kCl;xHz(=Wfy8D?b2C#Tew#&*L?RnvE2Y}hQVfAdD0LSF?G$uS
z@MQ}A3k3|z?55aD6fiNKF_8>C+@`c43W&{t0bj*lC&d4SPhbpA`V_&s#bh!)YUNC4
zO#g%He8{yt<ifw^ybrlL_Idmv*Z#TLW-@PZ2tM<2rl%fq9S^yohuo3R%~q575r^P2
zH)lF)ddQu5$UXhJ*@6ToXL=q9eSgR8``m0t0*ByHHRrCMe{I#(`nG-3K42Q072lhh
zo7&_M-MnfNOs0nU7jM0O^Yu-R;+xM~`b=F5<~y$2u1yZn^{?S)rGlI05wodfzV=q*
n&BhJTP*cl>1<C6ydGoyOgsFdCyft-mYH{yU`ZErnY!?0xX#L6^

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/openpangu.cpython-312.pyc b/model_executor/models/__pycache__/openpangu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d3f41d8be69b1bd6794b06ce8d5f5c4ea92f44cd
GIT binary patch
literal 39497
zcmb`w3vgRknkIGu0wi9<g9HhX1WE8s@GX&|M7?EEvSf+0EXlIXwg*iSpiGG%=?hS{
z*x*>6>Z+!u-D7HcI-+;FV>;7`>DX1xRBdWCn@!ri+0A;hlMF7&9>90m8P=>eGrg1A
zfm`gj(@84%{&QadbZK|b&J}fV-sjwN&*T5U|3Byao6=GnhiBUK?J40OaooQnhw_xj
zmdCatj(fmGxQJnz8>3(2v>|33GscR>iVWl~n&x7rF%z>Jrp;q!_?f27vEs2}=4YNR
ziCM-h%w9ZgjoHR*G5eUExl5)UvC^?pX17c`W3Dk*%su9gdB!}<&pKTeD<3P5dB?o5
zim{4V<yd9RH|AquwrPK?YOIRc?bFq<nz0&YcT5LjwPUr+UOHVDs~@Y61;>K1hOvfN
z<5**?X{?EbIj5UrEn_Xr?wW3mwT-pK+Q-_N+dUnMb&Pc|yJxyH)-~3}>}Av4v7WJ>
zSnpUbbC*x|#rBQui|rrV&)nYW{@B3SK<vQSf!N^KAoHu3J{UVRb|^M9HWWKNb~tuq
z>`3hB*wNUrv1760W5;7B#!j$!mD49<r^Zgf?u$M(X^i;4X&O6i<eugtRo~<y)zRXc
zOUlR5em}z3p=az2i&=x1fv<>pmc^_^%(}0L`811JkC?%)h<T31Y(UJ$uZVd*TFT-!
zA#U@R$NflpHE!$~mZAkITJ=*z2cri*GE33NF0j~bh}|B&5FPl)B>P`v{vr5xL@%iA
zHo|;6;oB7*QGG|5Z#R5<q8C-)XYUw7y+5byMngu?a(aAvdi?ryRJ5E=M0v7>3}Vr#
znLGF~&dk7cU*e+)etc>s8aX{XGdXnw$*iXmiResXYIa5}RjpU=%u(Ws`25`5ET0G`
zX8DO%!xOWyxhdpYB-&4pPrMqH@(`Vu#(5MSotE9UYtz#)Ie)Y0xDic+qjTXK{OtUk
z<eF1l%@l^x<FkA?HXDgfhv($1!mrQr(~)p|Y9T76NhoQ8`tebL@Qv}rt5F{Hwq2Q;
zo<B7c8JVAk%X#J1aXuP3J0FimMrO~zr{wa;mC;!~7BY+8)3ej_u^HtRE~0J5d9ivV
z%HN<y(h2iCci~z=bob@x-1OAMcp@5+Gw@uVeLX)CigjI_y)l)DU*cycqH(-4THiKu
z@zls{WPUmt7wb{o#MHUyc;q5-nn|c%;{|?vZjQZJ*>m&b_*M(!^u6RJHi#B#Mt&Bb
z%&2{gizAeiSb1%BV*I*Nl{2yH(MV)!hCX~nBsw{c62q@Yr*6EO2v5(BN20t~6&t^E
zJsRetvGKX^t=r-F#Q1bHJTo4n@9rL%dLuE<N1vTM^9E{^h>MOZQWuF|oV|Ps4KKSc
zT?$!5&#C#u><cV+1hd?omoAM=#p9^K#qm2Rtvvb$I^+aOCuewSCK7!^^i9RX=p!*H
zBI^^eD7v)R78}164M$^hi93i2pI9_9g|?FWP&_<|tY-N;qMb!#d7_Ha8_n_2$th$W
zkG?h^otcPgeQn~^`I%ezKIP|g^1RBrWn3(#+D*<(7^Gp#Od8rW(LL^h@qkNWF}ih-
z<9Js>jTJE_xj)8Y^n;?0WWV1t+~Go|QPC7f=UnhVKO+yWXe5Xtrf#!udN{by&=Y)i
zX8KN$q6MeoK`q+kEFYYieZ2=&wOt#Zo{yg4dGsO!--l|%shHreFZ3p2bG>s@bKQw?
zbm2tz8}kQ;4&6E!?VX;w-aB_E@#^eM?`;gwUTMHZ--u4&EAf&u-iux|GdDhSW4>qZ
zj_Af9pSTsCoSX?ut-v2ZA(yGN5RAKArlfSaa-+nz?eu4yt*f_JUrqHqn{r%wTx4|F
zvYgRs%NB7K|6@evCdg18k8FAT`>=cqZ5ZXo3=wY3XyufDk<y4US`;b5e^b;HF-Of2
z!ve^FNO80{QiA^$_*x@|N%s;rX^7aqSvpn{u}3X8%alU2--uP;f6^3jU|F**ac>yL
z>{qyuQ*=Cw7Pv$$FmmzIsAzw6DiVp#NHdWquhX%~$tH)ReMHA=G&(U&($p%Nu1}4}
zMJHySd2}{D8pl{ecapndF=pa<erCd|Rgxp>hjpue0n7Ic54eOHc+Z;TzJqS3tU(4Y
zA+IkSmoy}eHw<VT_$19qQ?ev!LDw_>!1!^|N5xVWNiHm}%p8|c%S;-PmQobUX-r6C
z{z#^^kVY*dQL0oWsdi}8!KL^r^+Fnp;)m{DJo<AZoWCyZ!Q31T&(DSD_}QBw6Mqc8
z{81R9Eix6SwJMyL<4?e2!PXO*eSJoXXx1X~$0^A$85AvK70nnKm=r8w%mq`4aG3YO
zAFD-9NqjYVS=9_#|K-am6B;ui8%ASvdXgU^pTlGvA%iL=l}v?-Ud%^N%o?l~qBR_z
zm>!SE!{Io6y`b{k<p(H_voIDaa(h&dQrj^E#lHdLS9iJHO3v!MS0Y&aTbAnWz+lGV
z%aqoo9QCUWf}<(psmN5dWPF{O%E0oAE3c%=J9kS<YHdrVElbs|o2%~3IBF@06t5<v
zMjcC)x9_?v)rk7GbJxpRt5&MFEX~`M!S7BlnZ9G^2T{Igcw>S-lJd~kXT5M57Mk2{
zs*{=$1^tY>srIKlU$w{N_!^WcFk+~Jx8hQMC0`6a<0wxR2^I0@@WZ|k|1^0R`Sav)
z5k{P11cR)3#S+YjuaEPQ1#eyx%f8gO@m?61r(EUl{O-NqU5UJR>)l&x&FPLKLdTJZ
zr#3r|KYUH-IJH^#)TZn7C#MA0*_7ohYn70B^z7BMA{TN{2czXL92RY1B2%zf!|n)&
zG2Ex+kRr?sVo^N7^K~c?V}EvbntgrI%xEXESXxi`Q3@`Vd(A`?R7?0n1Al?4O3i#y
z>NkgA<;i%70=^C7SKs8a4zB-TrlLAi-;}9s%vAb6FRwQ@?Ns=)X8dN0xj=okglrZL
zepa&CIA3UOK&b4^+R5qQT;<tPvN^e`+N_IgWt_*GrHry(&gT4O1=*f57|c%_Rw~{L
zyc@`JWM6CfQP+oEUobmsA6B~wR7`!8S>-X!T7^@3#3oPXCQRnaL~f22Pg>aIUCbu$
z68%XU6TR-Fj>+4aH+kE0C-2!aqhhf<6}#pXvQqMp1~^S46S@6Woqzu$d<*8^lD+5O
zoViaO6WScBgx;jw3m(jt^88G*_)TX)Fr0`X&&HUyl|@rs1@x9Wq)<!3DD^&>=S`X?
z3m&DGNbOL9_DEf$gloS!snvJD`_ND*c#yxkW*|neAQ(=>a4Wt^<IP6JuKgm0y2K~i
z6o2H_uGqC-WsbpG)v5R*CedvLkA8h4AWD)Zbv2cH3u>UYA;P(vJq4M;8TKoFc#Hjt
zUHe@$!=Dz3f(LoiqQ#!1`6kWK1rK5b6fcym-^#T)F=$~cc#w{!mx5;jZse}!h*-1~
z7Ci7(%h!SyFfk)-z2bvdY6~cS6yxS`&865F<-&!7iW{*`Dt7I6kF<z@avPL*`n~F{
z%kU@Sq2SSvP4!tUPSD!J9>mh?F~#uL>2t{<)U;VitNlg{tS1%HSZd6f66#A~)t$JY
zq>a>0f$T-Dv@RAr-!()^P!IK+X~77wAcR)Uf(Id1{dYo$4Iw%$g%Eqh0MmhRTEz+;
zgp?+WU^*i%nC^%NW*IZf*?W6`V1!Raq!Okt;)hv<H_{n7H;FVWco4f9v314^LTV7A
z)0+_zK#1C&T9)56{DA>2t$sUDs&%7h7tD-G{jey9=wuYBt0&G7gm6@1dP60;1miO(
zK%!D9mFUb*B-&@@V@eK06@a_W$%aOSXy>CdfF;JK0eeW)u^XU;1f4`9Kw;)?T@~G0
zK2pffiEt2Y6e@X0bhM>MuCC~aPt5XQxx<t5GZSJ-eCkGQb}AxP0FeP=!8m*t3La*b
z|7&E1CwoHlMG-X1N5RnWd=xC|>`a*PH1_BWqu2p@To)^-I>hA6M2Pv3%jBssKIB3n
z{tPUP65?rE7fS%-5aYztVkVaI<1@EFzRTzk1(FYclM>NVB03_`+f(45B>2dp0!b!{
zCzim?EMTgE6p@oz+%v#K*vlzx0H1>IQAJJr1X&LPFUl$}u?mbGAflChD$zvD1wTy{
zv(wwlydEE;7&GKuj*<%-L-fo5UAX~(Xj*9>u?!r}t9RmgetwEZk)8;tDDVl#!QCgs
z@<Q+E3_dH~ARirJ?M(xO|2i2&5}=-1Zw!NtLg%_AI;r=uZbt0ab+o74;VlvY{xT(h
zg$!C2SU2Mr$wn)TM8sNPlbN7Bc%a!cDi3rQk>kW6{t7&hGnWVQ9oh691J~l%_BDO?
zchkOp!PigDotDmY%PFDd6fr-I+y3T1cBcLPf}a9QGrpP!i}x4PzL4MxZTdPXfvz8A
za#UzJN}1GV@?1O3{pscrp?QSD8n!L|mCAHghfvkAW$Aq6ZO%B#(vCX8QO7Jzj618$
zRMkqX+4HILrd@k+1@T)}(AeGkmQ3$h?^(AjA&}?3)^z1Qp>p4nJyX+>t{D_+2B{GL
zPE$|1X;^3)CRZ@i(2{N#6dG7qU8b=$-FQf7JoIoNedLOOzs4&Rtv=J<m2N*Fw4eB7
z;9nj6$x)&GS@Le#X$gJs^7}8Z52pv76Y$sa9C<hHINWJRtKeu|^QJ>*1^hYA0-3Rv
zqCl_<cqx0MU~f#>dosb+bnvJUJo@l<`ouK>f5B@hN9}fFPbScq4)h3to=jtZrluiX
z(<Rh&Wokp2mQcFoxX^MuQ{SAa4zBoD>r=jcU^|<fOT#~P)Pt{RYFirKa@0Tawfutf
z`fZt-`gBdtMomw)2(BG}UE1Hf;qT3w;X*r=SEb9kHp;rPCFHhnRrP6q$A-TnYbCdh
zt8Yoy9p0!roVCOKxq}NdWJ@UoJPl%YZ}_{jE(!r>+?w@}t&FQ{%$AeQ%hlCqE67&K
z`Kz)%*s^}kR|~%SMWMVkTSY<DTy;~nhHQ0QQ){-KA_Y0L?D_Z4r<>1gG@r>fkY6L1
zsI<R*!{455B6l-hG~IZ3qw#RIh1{(izFx!OjfTV7Hn_oYJ0y;~Q~{L|m`>vSNeqKL
z7Tg36#)3~`Y=8wf(0o|<yo|6#<6;p)RklNm17f4-BgCL*5sTeT%Cq3%?Fp5+NUBUa
zi>)woIVrRltYi}iSnj4hCxUDRq-6TosFq!vEN1ab7A=VHcryN709J1qpW%MbfH$Ez
zzu-xz?0_D-!*Ex3lJeGJbr!%VELvt7^-F%MGFft0D!C*=M4Mg?cte&87(l(+zhzbP
zup~<s0F$xz)NAdsgvvA|EfJI2LKe8Vq_LW6+JRDZ$mWRo)-YyRB6Ms8%>(C69hNL<
zQCJ_;$D-Fm0RE{x1mFvxy8jOku$CociIthwPoAw?i8y}?ehi%9Ct(9jYQ}0h7Zpvn
zr=qV*>m^Zge3FcBk@0mHqB)X)B#FO9_L50R7!vyirNx~%IDU@&TP1j&1UNEQsw?3M
zS*10I)y_t%7gj7_^rC{mMy6u?w<$wISS+0+VGph4VZ4S|Dlh%8&%s$fIW>b-Hg6Ed
zsmIF;mkcj4tR@#)!pbE>ODRN-zXH1JE{6%Ku{Yf?AmGnZw`5y>CgX3xgeCYp*7mP0
zZ2Au`mG0PGX?ydAy?Hy(zdo`Vcxq{6r>6eBp?8N?U)ikb2ky62y8POXKk%O8T}P(6
zZG91wb5+Y@&RAtzDn$uBM+8g9QfbQ9k)f>W1bbb|-kK>70^mzI+F|b4{gVF=TR!N1
zzk9>pn*n?{kZw9A;Lm}-`b?=OT^bZhgQ?Okmb5G7=t`A$WgJy2SJbGr6dU!^%IV0D
zT)&DKeE=u5w`zPU<8E4g4yb>V69JgRn+Df!tuLe+pOVUb=jD4ZubkQ_t;KrwLD&0T
z>Bi@U#^;epO=98PO=(w~;A&g5tv|ErI+3!RkbpR#g3qG4Lk|8De)#9exJ(AkT|7-F
z40GeJl8pdY*4_9Q$TmvGi)1h$EeB!y8hMiOCjQ3>$RdQzMhF{#HT$T+Y};`Mvu3j3
zeX85DCCqA35j87w+W?>al10yc-PmqEY1r`v9whH4vu1K2rOowD;9lU15^_q&8I?)}
zs*l2}KmMQKRfwEP;*f|p2R|cWhzVj46T~1UCI*oNBUZR<K-cW}bwEHO`IbgYWScW;
ziMSvz2{6pf4b06N@kDJmE7h8)mPpwi{w{t0$>K;kus8=3q?BShsStBv?^CKQbChR9
z<Pb^{tu%^Xg_JTbx?j5$o`LL%Il~yr%!g!}nvd<aX1BkFnTa2lh<^vfl$y)NQb7`&
z7#Dr9@i)SAv+*g$yhLNN^b<0{2@+r{<hw@Ao<zMSau*@8v!!?$-K_u<bQfZRm{Pg0
zyyyazz>=a#T_9!Q!s@aBsY{M@1z~0xd(rSf@cSC}2l-5nWQCTyu)0JiAsf;#KW&lu
z2vw&Cq3W{BunC<7W&!2OLd-xyT}~jxEFvMM{-T5s(+|wbGK1xNk9aaNq_(R5LK-nI
zfOkM$HGI$pm%8{TOX2cJZ$$BKsv(LW$G!FaM2q4=47IftzrE5SF0Dre4}5hNTl!8n
zj6h=?$x^gH$q$SX%g5FnIU7lr*pmn;HvQUy-04taXuluZ6v6=StB%YB$uZbNJ>jO>
zOB7%BX6jegd<n@?>uQH|&!On0Aa}JN%<wt+@6~R9zcNb;$|PQzJqZ#evj^{^|D}Gb
zZ=$}Xv!Fz^H|Kp1y}ZBrdjym^=e3t!UVD8b;*Sd+yuUg&v>@tdd0)>}@LtNQ!6l9<
zsrKv{dikSg=(oJulJ0^MRctrn0kT&XDUXyVZCIIr>3!d_=uDha>tV+HX2ZPXj1+(D
z%NZLDN{j@-LhL~u4k>o+7rulk6g=>Ks=y0Q`08NF@YS0k9Pn>_GLIR;`E^s=r4%|S
z{N5?vq7+@fO&Kgj-*1zG)oQ<fiU>x0g!|b4kvtzPx^j^0y~di_v$Z_&7CNXheD(XV
z&RmJOIz11*I$s99dgI8Iw9`zhybETnW~GKeZL1`S@dD!q7$p(>buB5)%*-Z&k*V8L
z@hPYl1h3x-%CKWlH1zznl)=uA&;HueBQXlEfr1!kDhF3{l@la{YZ&oAgeF~dF1}#x
zc`baMMdZWq{&fl5q|)%~@*Xvd@at2FSHrQ_#-YjpPboTL&a#+44<a4oq8L*pn(mDA
zP`!&pk$p6JD@;!4PFb&met|wyJRw`-)3dLO#gc-PSR7+&S)x<=4HNT3L{ktr?+wP>
z>_zyPh#?cL5{(4whh`B36VSvvECc9DX#^9**yC~N-?7M4AW&kl6v_}Y(b+cuLEeEb
zphI-B7iYRw1Rsi4^_|t6L3oM9((8-v!WI|Ho@_a>^fi1BEl-Qm>SD3f-eL(;6@&VR
zm6S6e-$g~s83c|10LJm~_4&z3D9yFxAkaj0^6!%IkI49A7@{4NC-oe9eg6C8{R1-o
zb28o|gZe7tRQZ0`L>CdQ5=<+Rt|fBI@T(N@1R2EV^FJY@0tOl|hBhN;72lZuAIYB<
zcK%<G@h{1sRgwSaWc>GJ{10SQlko`|H1G01CWA&PPZPgriA|4(#}kQ}kS7P5)p<eP
zcUq-<-Y4TI8LZO(9c)mXL$;ERLtFxMiR4oGV%d_5?AGO|UT9>#3i19wNFM(QDCl1S
z;tl3NyqTI-f+qc$sz#ut&P=e6oVDt2O=qg-xKMLkid5Z<NG>%^pq;#{GLrWr6)n!#
zy~_z=zXW^J>T4VJ_U*DjrYx}X(#nNY+wdn>|JBPsdHIvk)a5HF_f@c-<xc3Rl{&$t
z1w(7YKf3tgMWOx><s8`Y)uerGg0F4OEBLxmwj<NVs?xku8GzHynBN+~UX!x7Z8sm!
zxV>q2P;dvKgp>9(2%ZLFs0W0mf%QcC;6(v{O&3${5mMg(WJ)k;s$qZ12PCx~$~-NA
zO1B&hQ08e25kxyAgoX%!y)2x#ywz}p0_(N|eHnKR3VPtY?_Bk!8}<qKbMMQ^a<wYu
z>jVH@i|oELg4}9)wTgXdLSM=kLc$s(eER~R__l+&3DfQd!QHSroNgWx@aG=NDKphD
zkn$Zs+BWtMO(?a#bv2T1Jt(vue0VK=?2>To(pDYAp=-9Qx-$et*9xSu<bG%L-snms
zUDq$v^{+?%$?ShKE7Y9<G@bDPQ*V(lb*95)FP3$f+?=mnNqF_W@VjBb0sI0v1_VbS
zH`xoR@)lIeM^L;S5Oj4QQ&pX*^kpimGIb4^zNa(Z>P%Jp=N>D7SqF5ZYML_0!Pl0l
z>dSa)sQ7C7GBuQeYqyN^HAt|vP}7sCtbQ<ae}+U0Z{B}1Q|^0k<o=NzS9#i1FSzPc
zu1=sgb&cuT{TsFWcRUq2A#Df=HmB<cH|hrwlIa^r_nj2_PNw=Ut~95syEdx3QkSn~
zT07FMgF@?Is`aVms}ElJ!&g2vF+sq7p>cnz@$mA%gCl=<<P%fI>(5lyWP;7R4IaFx
zeYcgXI;6D*HA_%%1gX6)-n+;GpikD2YkB9{d(Y;lkUots<M6Y;vd2}W0HI9ZDV3mW
ztHMpk8BRDsys`2S70-BOBCz(<9D}x^!r@%Ox;hH|)&B+Yq4jkhKm4DQu>>PdSz*GF
zG@?e~Sg6&XYh+OF+Xf_}2^XN8jdOe7S-iKn^3q!ArfV=|8I-^z^UvLF9QSiB2%UKu
zS90p&N>`ANXl9Tl4+!}0g)yyAIx_xm{Ez=f7=$rZa!}rC>&$faX7&#f*i<`Wl))yl
zU^1$#%9b#zh4cEdR%W$vHFa4#vpUFH%B)V(^l~w)8_8A%?vG_X%!v+Loh@fpFIQ2W
ztzgzluCXQSV^&B#8dryf%Jys(b62atRt<9pNH2_4En7#5VfD=ScT8sU!JTsdgQNG4
zX3empy8c=Qc$JXLqTpRtxFooX8ejtd)rZzEdLCEfgXO|qP_{8fitrywVld6oB0W-b
z(hBIyENcK4L$kLSpcm8pjas9&Nh7VL5hK$SCJ?MNYL{Kks3YRSe|Hp`#Vp(twF2m}
zf{`)GpqLk+m@`rlb=?e774x4+<sSa!`u+gLd;rBftiI4pexiO_-KYi@w#BB5L1^WG
z(5l30wZBV>`_YJsqwyQ4+bF*Y^DM(hHC&BRIHH5-6i`--NRcQRTHz%sg{}I>;1um7
z(GN?snM4r~F(6urv<Nfs{v_OakQlKQY?%KcSjYlM%v%VF<)|q;6sTy?$$&D-gFR0w
z%PqPXc!vC?2h4#Ud*RB1tyC3d(!JM<&!8;V6R?$T+@wo}tq5gi4+HR2)@KhU#>M0`
zJ$r@jQD2gz>99n5)>kKP(sc{KBj1yB>F2da$;C-(4}z3*@+@qrgbHmzu}C+C)N0D~
z4rWdLY8ot=gz`~@Q#LUzx|8m^qzI%BFRAI3uYgqm?@6hUy9#(Ay*{Jq*U~9AS=mhO
zEl8^)_k-`=Y1OjyV?}IFK$!&hsx8dGToua9fh?)t>XZs!opyk)nxpb=07I+*haLEG
z64)pAUX-qWyF3_7KVO|XuvRky)RA&0SkIXQCDO9X9@MH^v1`AO2^S|VAG?&V4s}co
z(1fy>(qs5BfTDd`I>ol=N%SlBq$e?;*wu7JNzY>0%(1*!Drlp|@+O@LVv*RB^eFQY
zjg7_fq$gQUYX|bF(zZJ!j>yqDEk0V;^8=%j`u6}GEtchhaBBZh(lU@rr&ZBf`Vfm=
zkF=xh%K(GZ*DXW)mwzOS0PuB*MPv^^5w8r2xD(*(r^Bj{CCL8?qVPY2v2c2H9>Nel
zI6E1<a4jeyCxA_E@KI853MO71p9x;Qggr<L(XQb2`9x65OIcHb3kUQw!CtnwUJjCO
zR&b$RAD~eys}{ge649b^=l>;Y{%asGh`_dyNNRYZl|^8BUoNeh?486i%|pqyK)a78
zF$p#T+NNe88<y0^?2@2ZQdFa5Qe%@LA7{%bt)OBx+YdAy9luR#bkkF`vkvIb4ECEW
z><fY{4elL5X#{n9R}b_L8AD&pr>RJlJs16?pCxUO%P)lgj3Uy49SY{a93*#;R10Z>
z;Qu!=X!uCb$6vxG76IpB#fT-?B!*&n{@;>6;1$-8C1@?CHui5Q-FsxLl0kh~v?yOd
z!ze_zv<XLsk_hlAd38L_GX5({V*?a71Fbb|yyLHshiQ5W*jCYWbcX+LDQ8+)MH6d)
z3SC5lH43YV4jsd1C=b?T)Eul~M61+hQ;|0${D$6;XSH$Wx1(4be?3gmE+7VDAqo)>
za_6ERO?y*jD)jM3AaCP#P&tLr$F{d^t$5ShyJS@WjqS3*&9XyFC7F5#Yy_B;zh1D{
zueJ&H(Askw_8x|0G!m+CP-r@sYCMFE8AH99-odr0_1CgR2G8NgMMVT?6amn%aMg9`
zs&1jGd)+5g0nz}#(%3`DMm@`#l)YA8*syo4d(->Q3H#1{dQjMRId$!YjeRfdLIbNd
zYczN|G95kXj#JnllL|eB(oP%H;><=W&P2tTP@IE<YJr2a;Z|>KIJ(!{9uB9EUJ>xO
z|4QnG7dQ65xNAYCnX;!pE&1dQvU<*NICJ=T`tWnY;pb9AmjTGo8$55&UI7VegR2I5
z-@`)F;fFVbrZby?vkdmxF0Wo0Ts^#&*eoAdvSjS#DSHi=aT%}~NOztP@aH?RbS~o$
z;@wMShJ7{h!Q%UiLgfHq0xUth;A>wS_|dTsj|o0%B}H9uH6r*rm|F&(Wbo&aKa}w|
zQFgKWu}mPC4)h6tW$K&2(hK#2@(wJvP3xspc^j1Ah<ARw6!-#g3#wwL;OktA{3!Ne
zOz<6{ygUFVWT+z_vv5N_FKww6fQdQERs#<&0z0tQ?b4=7G>)Tuc`#LTaLaxu6Y5Qe
zo)JRNq#Ui=uBue^z(1bYavjbz9J%k@_SB>Tga6F5<v9kN?T1%Vq0^f!!$Q^Yaxuam
zo)sES-*-N$3~u`<-lp$hs*?4qrw#Z>6;IRm@RgxUdCI_1*EKGUKJqHK4N!x3M(&N!
z4}lBNgkx%w^fLHs>CaTw=O{&%+ej($J64G$RC)Y7_<*Q=##i_;aQ1``)OD9>l@%?T
zl0~}OO?wGC^yy3;-y1~{gQmy!GHSMHUMyZDT3KFqQD6088!3ww`i9jFu@Tp<Mo}#g
zj$y;45|`<Vsnn<%iPJQ=SZ-FlsTEvd(J24>h=e`BML?{fivBlnK^+Sl&=dUs4m;D}
zmf&K792kTgvK4?UViD$W{=1aa@S142B^qvvcA9)iUy5|3ilyKDU5&X|Oyif#fHENS
z|I!3_7iBO&rmXTo?fu%7#Z6E5z2c>!rROqb6%Ru9Ln~L```Wu-TWh8bW)Dq2cKoR$
z6*%+h{^ihS+33BJCBxFbrE%K7_vXDfSMIDetUb5s>b++oe;S8V_opyR>{}h*tZav3
zt=IqH!u<=Y_DyfsJ?m2OvLWNDSdyTt34*7ThgKWb*J$0qaUurlM{gMTas$*h^fo*a
zl|WC#c&nXyLek88K&yfmDSRSD6oUtfv1rQSe)r;Vbb20o4b`vUfv+C5ZiKd_IY-2*
z=Et_*UWLl~jrmEjl<jC%P=vGmKSAc966xds+QKN>r0w90<F7{`BL}24pRKt+rUb<~
z3$scE@&61#kjKQsR8pMEmsU>+xcfQW3!PumSqcdUE7~+ZiB#w{4rtgem1fH7Hp+%q
zkEWXr2~CGKu^LR0wsgs7_Oj*MX&;-!pWVQ88faJ=c~sq~OihwHIGdUd2vr9#J3pwu
zU(cZ3HW}Lej!VJ?y@enk4RNt#_{`~NhtFJ=RLzKN;kU@&1PN0@QaGbYOVU4ko@_MQ
z`LkqPBjW`!M#-RN(APx!3ko6QyEI(R!XT8;Nho2@egX=C5<+SaXduL}67rJPbXAW~
z)$@7n4Mj<fEHZA$tP*a>tk?lsowYNogK)r7W_5DDnw9?5qLoAUXI2wJWoOpK{2_m6
z$$FR-0HVBgw4AxUw0E?ESu459>a34hb5KO)t|rv5hFJpyUa~sM03!3fTx2s>ssJMF
zIRGNL6aewDm0bQZ85zYdA{JJ<guHV!^2lieSowt=HfgD$hMmBF^-)IFW0LUYqmMXg
zzzEg3BA|;<u~WCEI>zX{ff7A#8_IY3{?<MG%?x)m>4yRVv;i-)G6c|ux!#_mL^m9r
zzzHe*MLH)#!up8N743AEgQCZF5<a7O^Bge%Y@X`^5>SBEL7^)DNP(o`ZY5^F+<6ko
z>Cr=HpeL@2&$1O+XQslOS)`{yja5=t?;BjLioI!DUx6M0C05tYlDrU{6rqM#G_(pE
zEmeF%dLJ?)=8uaN9zIe+oWJ5)v@(@Cb>&V_AbU`{ML`p=THtV|yfAA{7{KkkFjcJ!
z=^O=Nb|oF&S)~Lp-;)Tq;Nj;J3Vu!pKj`CLy4wNK%E5xn;Dm3Zu5a^`zIpHCQ0mOn
zhQQV*V>1OA{SA^hpn_B$lSUvJ5|SjpHQrzSQZo<pzO4%=5%pv|Zy4e@qAM@dqlGTo
zlD0*AUR}%b>Z+rfvuMl9tvupY%HlnV9;sA}0zG8PG2_mOp`((s=*UrZ`>noMUY#n?
z$~st)QqN@mNT}2hR<t!KW7*N-a(gEoP|DJ2@x1c<S`KfuVLTZ0l%Q_CjJ3<3gQ*eD
zCw<o{AXL@LVORLBYOkGn>MOA_gRVlC;pR!@OK87Ib6%}$w0^+emTD2mp^nsA<fW?B
z-W4@%P;$pR4=Z-<7ctZklb1^!Mx#!A^$T&~8YPz;g)IHK&!D%}_v3n{AEOQ}|A2X^
zqc`!alB+`R-n^vvXul{uq`2~0AehtoT)0DtgLb*9*tK7N<R73FI+gtX0rFDkg*zN*
z=Y~-U_98i(L<et@?T0Xk_lig77$2r-5=n|SL{%^iA}D{+(K3>bPHBO3t}xXPC>2Y}
zi0xH!zE1|hj11rto#4)-bK2M@+_MbEl%P1aDVOx1CdTLE<I`8A&7HTRcfz;nlqgvQ
zNCbQ6iHfAD09Gg?=vT?f3Oz<P9aN3KgMbB7Pi%S)s&W|rg*!q?HEE935&Xgsg_9;{
z;lVmYys(`>V#VYXA5VmDg>lRhcI5KdS33@n@B>7^#+~t*$m>%$dydqnLfsn3iBrAU
zfpPK)AJ$hV6(UG$w^yhPR)c>}Hb%eilI`!v_zy6|650d|ohK%ym)cEhX9gkf`Kd&!
z`h9sTsCJ%M2HpUh=r}XV_=fPaqZeOdv^|dnOWJP&=yiIIot~1@E;p$z9){FQ$4xQh
zGS1Y;_&=jSmjq8Uf2L;VhayITdY9ZO)DX6_nvYW=i*jln@1$yZaP|~lb}mP;u8if9
z=NEG3aCz)AnW^sY)7!D0!J1X;r>rq?oTl7cKBIUSV8lrZB5{JUnG2w5YGb*Ct%{x2
z6BC%kdjBh^jX84E#&+zUrQ?~3V7j7PsOU~t926=JE}hNz8q>aB!PmP41W&V8x1_5N
z2-OFcTsyR3wOgoxDi?IlwkrZF*H&L%Kd@Obv}D_c&Q)t_|AkMlZZ=*{S?V8oeJjPZ
z6Kkz}#j)w{Ub`;%_icLj1Fn^H)qs$edY8|p0zI3K-d_N4?b~)ENh-L1)7}4zBDf!s
zd)2Y&?*4@tP9*U7;o;nL_hzx7r}S+HSX&@xM}Pn5cJ2O*ua;qnT|%G>s$uEs0ik*z
z)6kY~I3zS2(k#lR+eaPy)>|KTZ*`noKAZNoZg^WijqKDmrEB|y+P+LpOQ!t<DVfQ7
zW~<dHU)OHEyN;B?Mt7UJx|Y>zsqSMB=QnH5{DL#qIseR;aaW>xW~jtHV{k5wg4L=C
zEnV1lRW9FNS=e%Qpbj6@zhA%X+=XI|51!vx8{Ts5+YW@%fqg<?-+k*NvJMJ?!DZ`q
z?Lpl)+OBPe(p4(3Z+$S`KO*#xpt!m+loe=2(CW3d-+6d-v-T;u_7zQ;KwI8BWU8Cw
z*LZsrs!sAJST}7t4x}8XGVZFCYw6k{p>}A)J@m-eM0E)EsyTR<-`usD{nQBOpy1|j
z)|$Mr9lLgg#>2V0nx!r>wqCJWaZuXTOc|7xPzG<GgOXco_u948fs3C;He1+^>_+yT
zhJ=P8>SA@<EznCVOL;rjuBN+B3*D#jvaNtXu^AiaZLn?icDijyXw$U(>RB#<?RIS3
zllPdfo=rC&6q*n278ye<X$v}1RZH%ccd6mR52Ks4Z2NdMgZFDU?6p(@cV*h$D7YKf
ziqq{!g!UuIs1^0!ax@~NwjRB3(&GE6qY1s#QC9%giWVGVHx<F5S9vU^3B#PRm|2Wj
zz_vwq8^Lg4J}7(?k^)<n^-m8|q1{E}OvPStv`woF7Nrf)+)YAZ3LY>=#*YmO!L&%C
z_2PmkaK3d3byXmNoZy7Y!0NHA4B+ce8kwSrPOb}fERoP=XQk3KSn$XYVObJ@gMPi#
z9O&(ci7$BgHu#qpc)|(YI=SUp*(x)o#mwFItF$0%ZQa~-Tid7Qrq~L~)oGKr&gZaX
zoZg<pgv#zJUybkmdw-p>-|*|`wXFwjTdTa8_M7*P*cmrz1Vm%P(Yu<?qP9;u<Pyyj
z)3Y;C-bYI#aAk?y;r{>`O5or-WMiu*t<F42J$O=y<15JcTM9iy29A+NIntv1=j5?O
zMgYEX8hf<3>gq`5Evzym|3|d0(n)g+Ty=Pv<g7XE>wvs#)7J%wnIhC$uiXrsxHqyx
zx~PYR*252vecHa+dId7RrID3Gv{%{ru9Jj3)oocbSJn2ID`K0KC0QVyHIZ`c&$w&T
z?k2(A^uu`)y=}M$fX|gyKe^plKA>;av*BvQir}eQIlbDPZagaBFK|?FA6>REjcc0O
zSQUqaz|h0)&A_>(5vDGCRA@c=@Rd)`ZMHtos`&09R`b(B>uFSC<qb@~ZBDuJs6$ol
zdzN=CtF@c{UTm<&dJg%eT<2|f^~%6|hu%H(!<V<*I&ZME=XPnea{Yp~&)XGPc{Sx~
zO<7tcq}g7GG!w`rVaddj^JmE@0FPfJzn5Upms8FN#0lpdPevVm(*yztH#Wu%W+&UZ
zOcrWNZ?=S4EnH<VYh_l#NPlT()|*BB<~9|Ng&j#0g-&uoZtH*0b-!!XE0nclt>lH&
z(w=5JT+$jr)tEpH)JK{09{&|W@=?|?((o+$zCk(Fb<!js0qFegaaQ>VK&ur8lJAMp
z+V#;^Y>~D>Qwz-x9Z`K0R|?$&<BhV=Nn6DEP4k$YG)tqUQJhj6bxsylp&{r$bWL6G
zam!k%9w5tQdz4ikMJP*SiIz<|B3>ZD<<LY`bB&rOP5(*xLVFc;DU<6$r8t>>syE_~
zR<OG3wt^I2u9;j%w0jlmSILlSAEv<?(W#1fMu;(!lu~iDrN%*!O+7{#eU_u1&nSm#
znBOye%kV98-kG-$pXLM9_YA)&IQ{!(#MN2X7mMJpuI(sae)LxPMbkY}+oM{tCu!1K
zi4j9B=bl-24_l5JBw|!5`Dwq%0~CYwXse_`FX_R+@gQ;vC~34`{-jQN9oUfXN;D{`
z^y>uQMkR*!3$<JV5e<OVj5**QXdUU9acL(qD)q<Pso|RPA@c7~Qfa?S<|PB}8Yudv
zg_R?nl}CL94~gKBm)d@?tCR@rekm5t$)vu@9;F6)z$xFRDGTbqD|`o(oU~sE4XE$p
zL76I`x5s;{;Tl95DT!Ea81+lc$yud807Y3x7fO4eQpJvdqccxFG-|+*I-;mbL<bWc
z_n1EU_ly`#n0}?_9-!xYs^H`b#|!Ys-V2(#vG;-vQ-<acw=eCzxGOR2qUGrHc<g#)
z{P;pBe~_!}de2d|BQAa%7AflA(4yo*5n$lAYWmhIA69-+vsE*~){BLb9vR?hKw%8(
z(TJK*ord!8E(&*(aTIw;XOAtCja799HqkMM&3o)D7^rZGcDR@t9@M!++ig1hUQ%SE
zy0FcQ65Pa2jVn(~Md_x22+ow(j)nk`h9jMEqCTBO*Fc30v2t?10N+mjgc$ObsGVqM
z2eL`PifF|#Y_hfZ2_VNr=ndaVIo5y0arRK|I8P-o{DplW)(G1BUqEP_=BMD-K?I)6
z#aDcLe5wDHzRPh``PX;3ZA+<g==6>!koJTGPblr_7d-t-#knv_WrK8ZS-SF=P<aem
z7Sa~DOiN$7<*d-cl(HHb!qS7?Q4C>WFh-|PO=qyV9@%~0KAyI>ZP?owZ`-=zX#M!;
zN5|8hXE!>}J_-&pMwGUgsT`@ww%4Y7z2Ms$7+YEk#=W6;6I%tr!`41Jbed(?EI69C
z9V3#q5!0b6F%8)S%K=uCmFDmFtTlh!2^7iUr)sor*ju;#^{d6{;C>;v|6y_Z&;{Yp
zg)RR@Km+F=`CB*r?cnjxZ}(oylm=FArW~QQ!F1;_q4OAs$UZRQKecqRZj8OBOlNc|
z66a6iE99NwMUxi&f7}dXPi-dk)Gcj5;${~P1Dt(%+~Sgd;<Zcaglf498ji-6U3r>N
z!*}U((~Q8*z)rh@f-AUMwdv|iSvuJ}j56j0N1W$eeV|;YfZ;;#7nepyJnyVz;_%q(
zO{0pr^Nc#@%CjWmsSjV3G`&@n#L;0h#AE4l?JEC@dwUj(XPm$jq$9eZjztqYiIF30
zlMha4)z;?ULS;soWrw*}FikRrE{9r0)skc);YEuPidf*8p|Yh2aunsRw}Ymf`Bi;y
zh4fW(!WVGnh)IwW$X}IDze48@=<(iEqTGgZiPof<ahy4GrF2>sV+Nt)MROePgMe`W
zhG@nNb|cDnlSdC3xFm?<JDH7Q_Q9rThEY$G_*mQ$#PJ8oQ29*JFeRGVOvY5k_Erk3
zESPm<uJa4(h5s5wvSS{lVaR3!S0LqT&jh>gm+oL&WN<(T4y?bl89cE}XF1+Gw^QDh
zD(_D@`e9}Qee3l?;1u{hXiz>Q_zo_ed*rEHPAL0ye^mEj-CuYPEuB)7zzp|Cm(G0F
z+PQXqeesi5H(Q^T8AGtEWkUer+<|ZZZratc;p*5fZ_PCJK73JdpT!XO%DaLsTp%c&
z(Y1bVv*wt5N>>JTwgjZ{?`Ilwgr3V%i!d%tnWJ6uScdp<?D{4}A<-`1u)-9rO4&Ut
z5&6~?QE^J~Cvt%kb%@dWhZ)3x4*Qlw29X{j^ae|kMYj!c3!U|M8_NU{XSWT!;cc(J
z4jbaDT?#r5#gZ-?(plwneMu|eG+lklh<fcqPC4gt^xFVbDcuz{c%EP;He4Z%*8|=b
z?HE{g$fZrtbEJs`4|MO$y1JEW*#^Y9V={4f%s8)Z!GV@n4!P}N`|W>i?jd2=)w59O
zFOk2AXu)zEr!yINA~?m;{QGW-Kri5IF*e;ErCxuG3|b+1+=IpOCt-*-_IcPf0HR$w
zV?lCQ=w!JF5guhZADMN7Xhbx#Wc(Rq5vM5zi?sSM$VT*1Z(uS)CYX`(SkSb~rAb{c
zQUw|<{-?<FF8A2Y?SIA~IJ%dfS+TFam~mCFb_%ZUjHiC}h~Vj2zwpU7gn`RDZhxks
zOFF4;{cE3eY&MLf9CbVH>Qr6dhPyB0ZC$%1c!v;er><|=j$G2NCc)LT`t+8oYrW=^
z3&Or<Gj9L3t9A7o>p=g9;Mnojui6D~*U}m2r=<hELZEkP<TC&yEvvQbmMzB+&X$vQ
zd#~Kua&&xF?#p&lU9&x$yFwa6Ug?b4aExwTQpb;Va(es*8$A>19FKRk;y+t;f@o5C
zNZey{c*)Bq{8|>Ri%|YRhsMA_H^gaY)Xj-(+G9vyyOh#xp{OBuM8w7!E{Z?$0oI#z
zu<l%{b$PvRoltqfNRfsiODuG<RFBJ4N?CMbKsd3z$Aq#mFra*FQWO`k9nuvyynQ?A
z!0<HRq-nn3NvfMG*$^?vLj<QqgPN6FSn6Cow9%USv{m*--^C?0bQw)JK0iS>Q=JW2
z_|u3YjhABRgwm8|ngCJEQw#A-)scENPwI*xw={Z2$U|rJ@S_M2OXR7Mf10A5BjY(T
zs4o07WLzMFa>WtVQbpo~&Z;9uwnzh~jE#xBH(O{ZSbd(1GDw5wpCVHXnljGcwe)o6
z2#zQ`#0Jhw>lStBV61fYEuBwQwhNAs&alBKNI`fru;n_5VUY3GL-;3n`<Kpa2O8hI
z@a~0=E$ij~II>;^q07VPr85vV1J7Y>R5oSY6+k32?#4`214LTbJOHth&$;yUFWiu=
zW!Tsw*p%quRO7&w`@m<unrtU(o9$9ZO^Ng|<9Q^fIy(L-Uh@HW1AO{_VOTV3JRm3y
z9jXlKbh0l^{`{dY@8Q^>4dqDvob(VE#MHrCz(vc{AC#nXRo-;^wnABHl%YmVDPg2U
zILs{@UU>xzB;JOWM{H{?!Ln$0o6cj>d2c<ehBsqttCXq@XXKOZKl{q|Q&s!;yL*)6
zEf}tFM(k{>@Qs{}u_ZTYiYa&^>d20iQm}3ur_weNJH=64k|Lw-yQ{Jmt+)kzCsLk6
z&A?sr)mWVM+fC<fZlQhA(m%oZlI|%3X5c*}D4?TB`A_}&aX)&T53%dDdMLIxNkx#w
zPTG~35M?}00&JzXg#G_YmfUPm;%mPVb!#V2H(Qyp78sWeZ@UvsN*wZ4dp-KeT?!B8
zY{kVk4<($X?V-9*saPf2)La~qvIHRk>`};=McgP!+cdS61%yrU%}ynr_KQs*nC|E?
zpzpr@bra%&!Y>~Um0*_MhClxy8UH5?*#pqYE$RHJFY-L4Es^}MB+vf}KkTe3=};@>
zS|#%4|7$WPrFf?)o=v)(i?&oM5t+ZGN4~F1I<4vs;)+&wyB3Rjj@%{6m0o7CeB#zz
zg6?3%&3ed6qK_m`_5Ll%)5BuQDVY~Pj?CBr`U~aS7Q&vXncLw>KKj~%6FSbMjngAd
zdyJ70{iH85g9`-dvM^i(sN5nLXK%4kB0(=blA6{Jsensp?X&z-Fxfg2s$@z)5|%`r
zTCA238FuQubnjqXAxW6t6RRR`L<YEq0ox`bQY5;ZFitvQ3BH3e50i0)O57!b5F-8}
z8847AOa}Etw!ZTJo@|X|u*Fo?zIl-%5j~0<=x{)Tw9v(QZH+xiVJ51CM5q28a=;=B
zjUU>`NK3A^pgyUJBS{QJ2U{ZLwPc}2Z~c@5Uns)L`FF_mF82$grP-FU1nE$mI_XNS
zROhkH%HvD+&+L`kP5aVKblOp-xtIPLJ0Y*5B{3a1Bm@pIVckig^&}4GX~to}L8wwd
zt$!e0(<jvQZPx7Htn6R1Z#TC5Ny}2{c2ft=4_+Ex?#{TH*Gz&7Dh+-T6@KI1H`1=2
z4OdU9|MVvbq5lH>N!C@hGK@2rw!Jkg!&D@;yKQ-gGZj@2zIOj>>53ttV(8(ijf!KB
z0`;q=4{Yz-)`m8N2iC6(!J%~Ugb+OONzrC-_><>^;M0&SE?coYuSPz&_5Q7ND+v;X
z>eI_58Eifr|HGrJPh%I~tq*UddoBw-mp7U(XS{)(s?N3NQ@D%Z{0<!l6%yQ`jJFHK
z0UgxiZNML1+EezqlVe_KZ>Qkx%y`>#V`RLwAO|YS=w7a>o$^4cws)f(#Cd>@89H|V
z*s5=<JhT>h*eUd!`OF*G_VulM*T1ppJH2c|jOC-`SKhHUu<qR|AB1Da--J_M{Gny@
zcCc;Dy!PhS$>%qN*Op5^gH$xS`pTBOp9yK%0Z+|;;cm-D4P0|)cGAGPYZXRU!ixO`
zl1s5>lFpsGK8`CQ6F5O65su8WYeuM3@l2R`m33<}G>Ilb6MQfEjgs+yz`%7V^K;YE
z#$YzOcp?t?>lBmGn%dw2m5<qr0(6C<#24^n{LfgB;tybfP;{rUEoG|TId%FMT(jA>
zx{#%xhyA~#pX^24b=I|3@uR?p?5eY_hb=$u`qQq*xaq7b>*jj)e{K($YgGX$?C59S
zDt7)&3Arp>{r>e~q3%%DN=}<BJ!Lycvy>K^UXr{t<?j@%osUb&?`XZbVyCfnb$;#2
zdeeG*?G>Tz2xQ%KlUoG}sH|RTT8Xc;-~XK~Zgi_aAvhBVH@a1*`O}4N70B9;eLVNy
zpiA8<uxH5Te2h!oDsX`t%$>T%)dOqgYZL4J4~tTvBSO<rq3+m!Y7t)lO3}*I73=*I
zbbnk0+6aYuq(aXd%(biM)}BX!X10;9e^}@~BQ&4QauoDw|EKYPedr5jXUre_QWN;1
z>Z1U0kBR8Yl^aXMEJ==W_^#>uMo5v(kzz=Zr6aH*8)Z^t>o-Y?jPro>M0GeATi0K{
z1r$<b$dN1eOzqT94au)9Qp)7W?mc2ip?j3B%8@-xj=YzAc#qUl$#?^H{C30(Ij$2@
zUj6rEuqhESXbH%I$%d2_kmS0VB-aDt!zY&IF9T2E3`h_k{}PeKVu|(;i)C_SjE39S
zU_c4xZxDf9*C-uF)IdRIGM<q8s(i{n#~>}(lmyNqU*-!Xd>Zowj~?$0?nPhbi>;lI
z)yez@czY9EYMwdV2M}h3=EEi(DCGb%&_Qz}+&pAyn$#E6tF9K2)L9X#N<X!ih?oeI
zNT~W*Nka}FfTORJdgMtPmBGO!RJo$U|LDqsXA&w^jW-Eur7Jf065&zsBu#mBDN*ZU
z(UbThkJf?=;N(x>y;X^<7Or<+nw}gOshhP_iY;ezkSo!x_$qCHZ=$wz&haw3Z?4eY
zNTb$rj~ee+%F%w2ipCCmn0%IL{6iUEK15bJ%JU}(7tKsf9r7G?D2OF8G0Qj6z^UF_
z+6gX9Qd5_*chSkIVeP0|v2qSeFT3V~T_CPfs%#OY=HX{){1Hnnq5eU#Vbhwd75^I9
z7{N+1C$U&2u8E=HsfUSfy0r@OAJFsCjph74L{zo`t8XL`(A1$N#qVO+7+8}lkSriB
zX;x9i#~%`LNp<*Do=_5JBYcTak{!dDkxv4ZRkBw`HXR)sj*+$7>E2U9@2O9{sooJf
zHvtzN1+cE-NJM-6hP@uBXU5%}H5Z+LTrurv6C7=+_QQhX2=tpPn{h0|#}^^5_HA~Z
zhstavM1F7EP(qIU5SQ$da&4i^61P>Yo?Sb?=^KR1GJw3_zKAs%F<qezR|vH42RGlp
znQlEMv>r>h4hyZr%ccj8`;MQwn;zAKHfuU5!FI5By*S->O6WVa8GMRln6<dR>78fp
zJ(G3}3XVbcI*JIAXL6g9Xz)BF2<<81q=#T(!bkiTKDx&yJRy)YN}Y&NZ3Fm3xfk#<
zG1G!}5&%Q1*_SO4Q~nu!U{cnQuHs#|w}2KAT%onlrfVQ&8ORYu@~ZqvU*6b*T=o{H
zlGq_>QsybzrmqQBX)q{#cQ0|*6WiB`MqSX(;nUtw7H$1Gy%|kaP^hF!b>FkSYs)w)
zmhYq*2OpL~n#7bMi*t$TCB)AAS|)hV7khjh#-8t{i^bqlCaj_KK;IYos1l`a<md6O
zJdJNcdlAZHd1A3Np7T!D6rB^ZF-Uo%@>M^DC@TA$`BDBYy)!K>cxMY&R+;v+3Z7P+
zu9AE|x&F$g=QPv@)MFQT;$-z-cMe(PijI>c3YA|6LF%JN0Pt9>Zy0Egsdh#OHNnkX
zae<tJc5@Zzo1)PLi-IO#BUfqs))d`J9-W+eBN~UAErC1IgvMq@Vl|XDq&J~99LGNF
zyf$PE$wK{;bW=|*fBjd~Y=g)ilbnYRDZqyQA07GdNV@Zxjm~FQo_Y6Z>eAI+b5WUX
zsTl1_vqq!fYFs^-Bd*6C*`uMd0!EA{wb0*~;aZ@`)aCeB$;Ozhy&0;T6o-sIq1yin
z$-q$km3M!ps(E!P<?s94TvS(_GF5{ydCD+s_yyM>aai~v4huiov*54}XdKo7jl(*C
zA#?PkA=AC@bGt2v%Yr?J%OY0}mqpG3E{nVhxh(SYn{n2Favu-u$W&s*R!o95@E9kS
zR%V@MbJrd`3qll@1y+e;p{AHXE2s}GcJw@c3Pvu+Li^OgpA_L#0aMf@^CxETC*WIf
zE@=t=TOwAR5lVahOBnraLI1Rio}7MkhD|tMNl_DRi|@ld{xb}p0*YGJqRih90owMr
zpsR0SU}_XIC_WuTAHFJmikip|VaiCW4oceZpi#~&U*ZPX1APxr=6Z)Q>gh~E82$~+
zdS*@A4_kp%R9l%9ff0N2Vg!`Zlo)ZQU6LC|Pg^h%d?KCU?NgA&k)mC}!`?!rM76-1
zO`2V?>F1zF`zjQxfqQ!qII-!jUBjU@;XH2PG3n9RXmyR(FzMY+ff$-LrAcqAJ7TC*
zFG?9u-a-3C4D|~j2F-N^4`Qgi3t|v?Qt%)~uI{60l%Jz1hyd$_rqS8p$g^jH4B5r`
zdbo2IC+r0oi7jgs_UNk*iq1SyVO+vwX;UUHJq3(RH^oVKv9t|Sj?HeJ#T9c}utW_p
zMVh}wl_Wht(xH@gZF~)WVlk9JpmV@~iyV&2^D~L5So93f;~L#J$&1~+T5usOf0shM
zRF{HFUE};)6jV(?`q#rs(DVXg@xM#P42&mr2VbUK?9n&IV}RP&HMd8o+85w0=@33a
zvgeXL(nO?E?0-wE0WFX@6#MGe9#*C-{w>SNCkS^;y!8!4%GPA+n$vZILfzoQ%Jk6l
z0{-frmjW7a4*)jK?Nk$C@50$mP&5Q`J9d98UD3K#(F)nB3yK9ltlM(oAbkI$a^RO+
zEr++tkE9$&QsqZj=zF1eLqB}^r>^}wbxrS0y*mXx2DkTt>%J@PZWY|X+djDS{+)E&
zA))QiPu)XV4_DcS!{Hsil)Y}dtS(hQyjgZ8<v7ExWIZV~oun!S0b{3|pAwoGG2W2r
zIFRlb6*@*KtSuAll<rF<7d9N`xky2BSZKk{yq{VcrS)Tp+Wa0FC(-bu6Etfpk2;Hg
z9pQUX?MZe3l{9P70U#u6kRH&!Tv%~Phl9{EU+~B?vRW=?TuVU|IQ3?D%(&Mv;}+#2
zCVKctLPbN=Io9xY9o7dOECq8V4zS9(%MA0Ec4#o_rYx^HRYVNC;=~-H^6!ctYOl^Q
znxBFaVE&9iJ3^+Eozk~pU*%i$RcP!Kj`0c#ppnf+A{(jFKw|^kGd~w0p_e>mK+Pd!
zmT7KE$G$a<G;I8yjmGI4vw<e5F$Cqrg<~G-Fo|(wJHD|032FdhIac7FX>9oH@$aD^
z(C2gzK13w~L?!z#Zn!R{EEiKQ$Y$6z7wF4u*JxX&Wr&V!yei<Y<tlaMM!m78jxJm~
zKqs#)7iD_SFBfgOyE36;^xMjgj2sp^hRM~IahE@^-?yjT-GaOOr|#a*OEKQqIKXY5
zm#9IXBjYj|1@ZzWJ^KS{z!xd>B^bGzpWdVpGX4WiM8^;cvNS^of35k9fgpbRB?^>&
zv&UWLzMZ;;tQo(Ui&}7-BiV4+l=BNKY|_}I{3ei<`Y4d$;~seZX0#on<4A~GENaS-
zXP9<*H1eAfb2Mmacs?c|rhu3OkV)`pAu$IK3fE-PLJ1)D43hC@VJMphHK2w~_LM)m
zU@kbLu`YR4Rj2z}>QO{MJUQL})N)e#q9tGPMRmX9GJQuf0#rgHl^}mdgZUKuj`aJm
z{|m@tP8mLDru4BWQQpUbn>~+-41K^wxiK(@W5zp%kWuvKAAdK?pJpdzTpStwu&A)w
zvq&x#K@<-EU8*4&4XEK`>Jg}*$s)xd|KG9_&rc`#@sZgxXLBmS{}B~ZP%sIvcrsd0
zF#kPr5kbYgLYMd}@DN=Sv(wYj3A)`f-ZOrELQ>B{d_eDHTqA>~P|<->XW{@YATN%y
z^Xx<?9UVqT4ofFUuoHOMAr@i{3n8X|YI>Y9?}^~_F@8KTi?l@hOUI7&NQZAohu%@E
zvq3DnS?UOm_vNQ>baXVr)5I^qkhC;N2UHM&EVi(yjDExX8J(C%2?`-Mj@P=)O6N&E
zT5SH3xaxJk(&hGF7L`$XY!3$YXR+Z+a>adD(Q#h7tBGi1cKWe&R}+!BV&|8oEksUf
zNfPV6Bn6#95};Cu{1w~2B<5@L;~*&)q_!aj<V$O!=~G16&KP!`l-U0z`AfTINOu*T
zYg*eI!w0E)4OC#aUUKO>O8AJZsS%z}Oijln^@b)&sQblP!Z_4Dphtll&Tu7qGnLdr
zMk}QX?pa*CM=F8AHVnBAQK}9yI?3oFgMr~RiHoHyr+D<W`6wMl&E(KbN_~Jri!npb
zLl8}TiL~OcknJzXU_^e9h9Sd5*b2m^FPa3{s4N)4*f)h2Lw3jcj}ZlbT>NF2IO^D7
zc-+SsoPWvn{EVyocbwyAocCv3=&!l{pK-_jk~<-AC%!Ni8;rl?$Z&FoV?X0g{ER!4
z?|IJfm)y0Vac6(Vo&3UBWH5eVVTQ?I{G5aFh0O|sgYlS*UwS!1Pqx@(u&rEqjBwko
zv&rzZVR`?9q5DI-9NBj-8txbjCsjY@*nOkud86Ur%2V&1fA{<@NA}%0(>bHTwp#W<
z)%#Vu9NBlTnWl_}HYFC>voD%Cqi@&ve37Ac`SOF8?!WYyBm3hbcxRdS?p*P(!O*o*
z_FmPyRjbdeJ9as8?~WRK4SgwpN2=@SE(hyw#9%a>GC&ss#~;J8Ycm+Esrm!E9Da8#
N%+dEta<D1#{|8nzF|Ggr

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/openpangu_mtp.cpython-312.pyc b/model_executor/models/__pycache__/openpangu_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0fb6c42c000a2b697bd476f2996fbeebca3e687d
GIT binary patch
literal 9825
zcmcgSTW}lKb$0<Q-XH)11VIuY!Iv$FA}EPeBt=pzi_}}96-#z%j9mo6E=7=whjy2e
zh=NmPqO?>ikEzLYNKN7~(|&{=X(pV0F<<fYqvKA0xTadb8+k^ZI3J$=Kql3s{b|p+
ziv>uAQrwwNuc*8Can8NxoO|xM=bnpycDd{Xl3@Dl^bd9s@*Aw^$x<z>w=;yy6OM3<
zKr&36VX$lv3~>Yf8Z)N2iMAO9He-&PY1t%LGS;}2mRZ4;vB&MSY!)0DXWU847QvNi
zh&Rx(Rd8oKaStuq1aGD>-bl-K!I$yJ{h6kCQzj4(&^CwAoC(H*wCogGGOh7eD7&}@
zp)C`NhiKU?gfs1NAl*Pt6V7voa9+OYp;6;0-a%U%q1DIxYpoI9Oxyj?-o%?GPUxbj
zfBDculU93JZH#wK8=`@)uoh)h>sgr>lUD_P6e>;9R6d^*<%FCQQ{#zLE|X6SJapLK
z7KF@jE<2XKhB&9DB%ZsNI|*gWn-?#S=EMvX-4}A#(z0|(%%ylq%8AevcsrL$UcHnQ
zlY+ntCo@-hj!S28j3$mBOHK)L;wGQIHZCWGT$1C(s8MYj;raY!o}au3z3D5tNj`f?
z<hgVTXi_6D>AaAf=0(+hc{~Z=XZR!svp6%!>8pGqFY;sQTTu6%%>ug_7%nOESNJSY
zDSZXnf|9Ub)|i(rT|)Za$iu|R?6s*8K9vK~=<unk4C%*Qt*l3&Fi&_AXE*{n#_&eY
zz?(QDXBsne>>X2_oi;_yYG-Z89az(-ciaFugWOTjs#zmjHH*AFC1yucRb`;lS|P{!
zI%oh)F4IQLCZN7OO|aWr2q}_>$T%d16qyN~8Lf%t6FA4VG(orD*2WoQ(O4vj+6XXO
z!&V5a&6s4b-dZ$HH0tI07h3)GnqGRuJgjmAb2#+Y|AVodwXv#l0NJ(bZT0WYv~q?5
z$n*t$#z!W7ivrCxS;!sws30$s+*zv`I9BKJk$DqlO<r<u4c1sR6q!vhKD}p}L@l_7
zjeK7E3MF<5DyFOHq@+3|x+fCjxG9XPxvF2z>r=_BT-7!)04PzvYRG0)^TixDCGe^>
zkw|CLaw4HNN_jptB_!qa4PIBzMovtQ$%zbX4nc3TjgRT$g<(9g9W%7cs$)FOaeOu*
zr3<|36f;sH3sxfm#HuWhMU@?=AM=HDmQRYRg&&7~o0||_I0gz)3}J?fquMfZK5<pZ
zr6!}SYLa+iOl-nVWJ0XXETP&*F#XpX19B!mkWc6P<)nCxm-}x`9Xxz!@*qDTq^}O-
zr{(cnb^tfufW{Ah3-|?#qgADW99V-qT7v}49LrCOxO#=%e{@I3bP)~$y!4Nd-6l`0
z_77}#Z6#}~Vr^X*dTfn6^@d8`0mVB|@}5w<CraK6iub~-xf}@1n(jHu&0VGD0i}6h
z*7;>qXyNTrct8mcEWceka7H<B=5f<m0J1-MaZhv0{Pg|l#XzZZQ0W|8PAZ)TR|2KO
z=as|fSKs{J<K{mBeCLz4-m<Ty+|v8R*Rg0`a;^EkwP7)Z?6aoF*5HPnv<@uYSiZ6H
zXKO9zXHD-ntOF<HV>7BqHksi;MeGSw1yCC(I}-`eEkWxMaTQdfB#TsN9}_VK4PrlL
zxZi2E9|}?gvOA<=aI+Vf#d8&c-xZ_w{lv6E>l!lRZL!5T2d4Ed$Tr(z&hS%)GlE4n
z@uo2oSYtC-V{_D^hF-RID*2evl&PjxDcwro-a^|!t?w&P`~S1PXlZw{z+0@ZaVP5w
z5H)Kq*KF?uu(3T&AjjL1+^jbg$wbX=>TP(Iyr9)nhtW#~DCpL1gnVF18PX(Wcn>x$
zoDeNKRMDiLPI6nVjVT&_0#04g^b_)-Q6J;ShI<_*7-6P{@gkc$5z$Age?gw8G24<p
zHjGr0mHes>1UM1BT>t9y0#5A|n+CcVO505mHH;RlF#(+vDHd%K@h}i^9J(vOQ`uxk
z#U5x^z1gWuqG~oZJk^JGPXZGL4ik=)NOQN;Ai`z&TXGg19rTp6PDyRR9z?04v(&Fs
z?HB1r9RWy{6~U_UBAO?<5mmDWE836*`wjHpsL>Yj3{ssu`f%VMf?Fnus8Xs&pl%-;
z>#E<!ihFRl+SZ{KSv3N!b&IU+e`-a0U$zr#2J{pRDg6gzI~mY28qlcXjh4KFigyr9
zXLq#JeMIR#g7zy?Ztp3zA5+?oVXf`UK->KI{qa&Dssy57+CrUWf3W1=qxkpK3QKZn
z;DiEy{u3LlG1Rzjv$`6dS)nvHykQ|;|J?A8t&dxel>Hrxrxp(_9a<h<KCs$(c-?4d
zYkWow-o}a<fS)1Sy3yVYcJ!WOBS6A~WoKi_8CINOT4-0C?dz;DOzmvThLv>gT{f5Y
zzOL+jeJyfg*7Psd@PB?ChCw8Bul^y@HPT=m6$enfLzvY~>9??o*-7{>;ikDm%C8T9
zO`6zYX0cGA-<81)`ql6ddW#ixLj$JupMtUb%a_>ESu)0eEp3RioS8T8WN<jk&h21>
zt>6(`Z3O>u%`e2a?~KnmUeNC3ZJezDz6R%d0fg4uz}sI)TLb65!^RyzSMY`NyaZpH
zAAEifjN;_HcSzjDHS!I-n>X!D)0hD*9{vZKJiG}@AR!+}$jkYGQn=MY58fjJ(AGFh
zZZUD+WfE;so%LOF<&t<15XD27)pp&M0}FjHdSJ~#;cuADN7h|%-rtAwQ@<b5>p=C+
z2*9<p(-i@XT@6yMIp;-2MyHLYBHV{`bNa}jmjDkbq6r*V<EY9~`xiCT>5p1f7Ve|G
z<~E4m24HFzHUEyPJM{|BK}XcI&E%-IL?R_5B`J}RkV5bQZ*MX=_1oRWE0<~}=KBCB
z9fs`pXk%P=Es8bx*xFhSbd~}!B@inG4k>{{xRakW?JEbnA6-}peA2wO=j?{j5P%*0
zzMbwX)t1iYr)03rl86Uq3Oxor;Udt5z{Q%!lT+{6^qoM6Z3(>ost0lzoRd+I6f&;5
zHG^E65!$Koy$GEWP8^A7d|!fcVUyDXd~ZX&hA2qzZBlmoJ}BHRl-yCp9bJm9xrbJ*
zLzKBu)t1jmX*r$CN~%kD>Sef2OR7J;>2{rvwd=L&qO?f~Ive2NRRYd1K97f2s-^}o
zZ%s+}LWRmk_qm|1ry_U(aDQTp=7&|M551zxM0^7vq70Qv)KV9M_+4lh-^A=PW>+wK
z3o;3(1HHgRMWkBBa^lUT$QAsX_g1XhiVG!0A-hc~jie>~k^O<a>};ZcEoCSEtvk#u
z_E}e@fq25J)({ogmRmcjB3*sd=KtO57i*hG=e4Q<4H%}Gl6eTBVE83!)Oe>HQ$BG*
zok#H<s1(|^@V6De2mti>05<K!<Ja_Hm*U>F6kc(yxlgTHPic&8R%=`ejWJj<h`ljI
z<^~bx<=O&*qHl%=a7<i{De(t8LrkE^wk6IuIRc9~F4vR?LJsJ!Y)f3tCFEGNtUJP(
z^=-u&5k{}g7(mT-q<JR?ykH0S71R(Ydlx8c!+^+6{O-ifB*;aC*)9`$g%?i%72+|>
zP+$d%=8wg``fo@o6N5mKWjrY*Ww=k#n=XQabCm^OPRa{uSv&#_RfDLS@D8Th>dvAC
z-9hxkP_CdARn>2RJ8^>UObWV9L$-GQ5HO`#$ZnITPXB^QafY6FniotTIUYDxdtZC(
zIbQbo=N<PQCC`xJ8Ct&nndi`#!M25wkIp?fw>Z5P+PB=LgbtKKN0iW!mEpC}@lU);
zXm~9+GJCch=veIedEd|aN?orh@E3S(_H@}DSm^w#;-Y1#=NEk+_my^!D!WHNi;R|=
zBdeYWm@3WcTC_-_w8h+_R#3e>4*5K}2AcV|%#5L~mpiQzXTaDUtl$p1x6>*3h}C1P
zGe)_lhk#!@5rK+o(ofl%o|)=rrQSEg7MT$;$GkU8$h)8fGv*l!XD*syM=|%DFs|;W
z>4U--%wct}%~*@p+swTPz|{gsb-<z(AW^X(&6taZ5%L}fvw(DFY%}&5N6`-RFgOoq
zp)-P^Et+UcQ_(!((=a#ZfMKhR=q%be>*Ov_Ubg70;_WLsVJ7oV7fa5jQw{L?JZFoh
zq8az%jH~FH2yC89E6+3-NU@>lDq4yTJru?ehGZX@AS4GIy#~1MqWfJ~KgyM76JPFc
zzy(n9jVUk}9YxP0yM7o^I^F_0zB#|oVNJ+H@DKUiDI7Too}Ost9CVcobId(|omLs`
z0Zm00=aez{Mw2e1y4>{j0$-1v=+xor-?}z2pojNP0Y5BwovzWS2?B`DYjE5rrt&mC
zr`l+ZhU!qS;QSebk7}v*ix>j{B+nQ=8YHey-bf@hMC<ixi5fb<OCw%m4IptdEsrNM
z*OPPz@f!BpxZF*==0aR>9LF`OzSLx1PSj|i;izh34OVOPQphS<T9X4W$owsEGG(dY
z6LWC0o<>I{md@TtjEVg9f-@uJV^xS4rLe%pFsd3gs8)=ta$rqWn+5^Jf~9)LS6y3Q
zHoPL<;MCSka+0r3naIP#2t-0N$$TDOMYL<OCz}v+aGY~GU8)JM^r{CfIj5oU@Q5Kn
zNR5}p6b>3pi2O}44U1AY;TnS$k<Sas6vT4*EGMBrMF}vdmn0rVTniX?dYHfw2IokU
z<Dy>8g8;ig)Br>qQj_|`HColCD#u${P#x7eCD}zEb*eN=;`ebpy-gF2YOfQl+9_^z
zVXDGIrp4=s=%CR=6cx{@ECr>ks1{v(B7jL~^6*&Ok~H_uiR4t@o1{X^79VJH*9SO`
z9d!9N`P#sC*;lRY8x5p0T8a!Sk>PTr5C7U<EeAt*;+29!N^oey#&!Z=7yz5w7KTb~
zdzH4mYi;}20)w-TCtbaN*E{Qa(!E=8cFc~<^_Sf}OD4s=r|b!qTf(K5Jxa@-r7LSK
z`)ALU-7Tx`PUv{*YcBcrD!#qTtt(g7d?#i{etqD);@LN6UpT)6z3q#f;@e&Jhrrux
z>V}Gc_p)i_yt4N+w3XYtJ`x@XOGj4hYwg2x4)ElfI##=eKJyR3ZDy%W2@C<$)3#UU
zMk;3F56&OEe{8Y&u`jyBt@J6elh_&TUK~+^(K)sp=`BSDmB`?n>vK<dfnR)Y`OIU_
zvClnCm1E>v7nt?q42c|=J6#?=r}&T0om+G)y|ZG4sP$5h(i|%XBjvV^kB&Y#y5v}n
zueBYY8+jUf71$5;&z&syL`yvfm7arh7eDuRmV@DPuovW7?u?eZ`kp(?O@U{?U2CNS
zCaCm~U}%2k{>&o8toxUHRwkAGXJK?;pauB<`NYpAO0SG4uZ(;a94Uu-m#!$Geg77W
z)F*q=(+4vw{Q2X(Cm~GJ8<@NJ%uJfP7JHY%kNpS1eb?eL3*5gtyDQ%{ke<HEn}$uE
zy!b;<464Oje0tp0aD0;WzlW^mV!#vNHD(4L0cTkFZ>Gl*Si%_#99o7OL}Kn)ITIZ8
z7C0oq(}OZRLuVN@v{I;On5a3<FlaS#;1)pq)BK^aTC&umpy;k%hC@dT{83!1Zu~Wz
zsI8#d_1*HOW=10NI3Lk=U<9{aM9xJrNjWu6JK#P9l}K)k)^cL{S~{B)BJ=_us}1!!
z$3<f3Y|>|%2p}N@ybnl`bT%SG*ipiPcrijf&PW{$O@h`~8!VaSA|g*o(cZGENE(e2
z(svc9%tr+N1~1g9h_d1ch);YKGjL0YxEr$&X4rA+O2MTOUUjoY@ZU+nQKvjsFlzvC
zx5U_W)T&v>nlh-(bsMI?W+SDN>Z`uHZL(#O>iq*~xDspca~hoZBbY_9LZ+{Zc7dNp
z!ZyW9F>vt$v;Xfn!iSK71#_Ca!7z1zm59Vv+heQNwsNR*)!G7EVb=BQw*9l`%kI_%
z?lX5+xo6j^r?c#9U+p@e_zpl7b|q|b2MG;6a}rM{n56lm_m7qvI~MH=#if0#p8n<V
zN?}F#v~P9bZP-)(hS`w{K>BAL&n%>&t%|VNzieMBuIyWl99y}y<~uVx0#5s^gSzby
z`x({Fe@6TGMZEos`!L&&8D1^5_%u2yBKUShHEVD8;w5ZBZ&>_O%)W=&JDB0IDB`YE
zS$Qfi@Zv3OxQiLeQFT?rLn&Sm5(!w^3(zXzraP`l`wW6&h677|(DVB{<SE8eS=Nr>
zRQRk6KF3d`fng6UHT@#=ai~I|xYGNpJ-^(uj>U?H96ipI`}dW@?a$mEHvH5VL=je4
zD5K?Vp*0KEtRxtoFWxU!Y*@3Cj{VCcO8cRT1FOzzC)oMs-4z!$HIQIi1;>O*?CuXj
zcSGx5tnDW49nUN*dzyLL9HIlVSb^C9p0>kO8UoziY@u}<c7NSqXZ@96oMFR@XO`Yt
z9$aC6<@}{{b#O%KKdJPbs=%)s*zl)=pGyC9Xq}cTw+!v9e|fM%;IopVpHEW1!x~*#
zD!pj8>Q3e0#~&#gF^VOxrs%S0%V?$V5wUERzJ{o6_y8Nzesuy*&ADuhgWq0=Nq~|>
z6Rd+ue;)x5`1=U$U9pGa&>ad6llEw<zp`i^XC}vMuGh;z>F&q(XYIAR?<J#df9}v;
zK?Yxfp*^CY%Ywgx(E?%kGZ^iSrGF<(jUnwvF|n%sn3B_iBvLo+)feJOATxMWhu_cO
z!;gqJP!V73=rg(+c?q62Jcd+N7X_2}>r;F-#nTO@+G%ia417sRL?=tN<@7gk`X;Zv
z<<hWh1m~k0XzLq=YCQ^k!4dEsaS=dpw@H5iS;fdO%=6uZ>HQ6HenFakOOAa(x}IAJ
z^X)Ilp)bhk=LQ2~cy1=lCFXYq6JvNrAbW17{r$fsU0;wr8)gr4fmz*kW`kg1<COq2
s%&c~QXM<p&vY!~5Hw+U7#y_`z{_y?73lr-Qpke&$M(B7(JE+qB50SbEs{jB1

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/opt.cpython-312.pyc b/model_executor/models/__pycache__/opt.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3364c235835aa9a2eb5d146b40c2ee98cf4d0c11
GIT binary patch
literal 17130
zcmch8X>eOtmfm~VR{|6_kOW0=5hZZfE?fKBS}59WyX|SD9SGuklt5vj-UB6z1&-A-
zsu-NMW9mmobfz;+_oT{H+)3-tq|`M@x~uXd-IYIpC<o{_az>SLD&>E4lP*ssRg-+@
zz6BrzN}g0EkHw37?>l$D_nhyXd)|NcdR-izgyl!^gNHfpZz!QZb}h2jY~r|koWMmm
zffq~(K52@Wc#4}7=A<QJVR1{s8nGhJny@Bq5gW_1CG1H@#KGeBgfr=ixLDkga3?(x
z4~sh!-eg^*F6oQ-SlX5FC+j2i$t{sBEbUG-BpV}*Ebd7(C7UD7$(Be<G7t$QTO+M3
z-<xPlwny4oye<(;c0@W@+?Uvz?2L3KLy-_m`x9Ns?npO_*C%?Cy^&tTw+Ic1ZOOh!
zUvhh7J4-hvb|k}*aI!zrpB#t`BnKmd$)U(layT-~b0+RPoX~WK6PiWa)IZiItNi<^
zS&c_V8D$G71E9QIrqE*s<t|3q3d*(@Q0``w?Vt?4fO3!MVYD5f-THjmPqhw3_OcS4
zC=se%LfkI)eQMRlx9^rE+%<dnTxwF3#MFd1lujjXg<g5}jZiWzh>6fdIyoK7#4jhr
z(9L+}YUu3Dl`HYol{2vkWQg%AS2ObPmsD4nR~+Xuq7(xu;<mV)h);;)h?-I<gih3X
zGM$=?U!lbDOh!y);%R!*B+pDwr=?6Zla?l~MybU(>M$wpld*}bqFP9Cy_rZPwF*p%
z=Zct#PESX#Na>krrI%8uP)<ux*6rwYOo}BEVj_AoEhU7g9G|65xri<{k%>;G!WO0R
zWI8dEOued+j>S`AOj7E<d*RKhEdOibGzJsPh=NY^TKeWjBGm31OJ9j+<X5Higeapc
z$lCJVnHYvSiy2I(jLz2?MK7KeV}jEBW_luaS<gJ3yetX==9s2N5GP|ZiA+?T>S!Vz
z6GW=G;am!HofL&Qdi4eyx%?$h%YeCgU7b&PEdAPX#igfSeKl-T>W|N4(r>BjHpVJb
zyjt>NY<gOhl$N+m6Pt|7GWx(KGAW`hWqUGqO^k}k>CCNYyrOk&;^pWhW;QL|QrwI%
z5xXTyvf@d`Ze13m(~>wDe`iA7bZThP5^H0Kya(PSauFW<$t3WiSuly_NlT8K1b@2Y
ziC6@SXr1y@7FXkwCPrfgjXlS`!$%yia~Ng^Hrp6hGbIYIrsX)zek@^3tWuYnNn#}0
zJj;sLh)0EZazZ=%tOe>NrPsz0{Fny^<+EIry`mrkuBtxs<}CMtljE{@Kc#0@{LUht
zHGQhl^V}^g)%cf`44V~OdU8@0Gl~^Q0aNXWVus_HXcW8DB8!PhsRwjYF9O9GjZP$D
zvK)=d)VEM5bo+mv9?2x9N2cS`Lz$R_JwEi#%>I`ST-z^>B;uDxrf+4grc)y~aDGPA
z(;>biPGBEMYEm9aPiKawZ%JX)H{18zsT<aNb_BFCb?9$zbE^)nC6Kec?|$O&&f5!)
zz~a{B-d_ydA1Ji$eK7Z#<MbNn(DP|+DdY)b){t+^@F65<hBHLXo_Q1I6r769DbZCu
zG^d}^uE+B_cb^{*o24CyEB48>bTcLi(srbf*^eJ-n1TTWGA$_PO&X+}od{;PJ%7|%
zb*HItI|2;)iLY_~=KQ;hx0d((;^6&*h0c8|zWsT}erX8r!%kYmR4ge*qlzm^Olc-T
zaZfaQeI}OB-k5QY*sLp7#`_eTdX!n86tA|@6JjC}jo#<gzSD4zsXgyTRH6VvpOa~L
ze|v{pHCe4^_$7Ijqu+<Szh=Lyb-eY!Qqw2FkAvTEh<-%@>nf{Y0%eWIr^VL(1d+;v
z>EzTu!9&MWFyr4MS_G>I$S@0_A=pHl7PE_X!6ERIb?kUL?|35)!6iDU8jV(rh~TK5
zKWP!%cPtS%JJuc?Yp>$LDjAYvTye5vOGj35(uuwbW-2R|%kdca&IHL02osVxiU*UP
z%IGPZ%8eA8BxYu$)P#<as7pA(>Um$lL|5%br@9+;Nz1c+88!BD#;8Z9n6qb1bB?Sj
zYoE1YdiZPDoU-XW_eXrzfjpE1FEREtcDX~#)1))KpJLd~m@O6&OtTJF7PYERMqf1b
ztkfuj7R^~}*7m2IVEz}TpIbiF%AyCTORJ?pkD)KTL2qUBTAx5~)ShWE=(#DQ7CmpX
z-eXKPIC<8h_0ERY>=nH;Xu&ZZ;}T8x6}5?{znXOpU%z$((j`50-z*VNl8#Yu90A^?
zX8;oLZq_;+%VbFATjhyZLX?hfpbUE%*I*}6A}%CRn-ZNW#X*~jZ819)g-DcWsuhRc
zu2j#GdQ%c@0>#3bbE$lX)ku}89o*Qq5_%DCQGA(nCYFdAJ6z=hv<P7S>Z7qT#=x5@
z4~fCA&x2h4ZwSD;*0*rZI>x9UJK9RE-C*5yPX=CD8TfAAv7^-1lk=5)fqeVHg74tN
z>yLcL@{VJ9-?38bj{M+Qp>>SNOM$MXXd$o%ac`-m{odT&xh0{{(vP&~i$J*KX)1aA
zA6}flSn{-&>YGZf+e*#Bg+EyQe!gM*y4T+7qJrywuC<?$Ha$b*wrMnVT+>#nYkYoO
zuX0QCy}`SKRHt6;_wo%rsJ02!e&A$mP4Qlh3xb%6${8S}jS`1;GLz~53Xyws#xxm%
zr14~VU9$WDTW-!YXU>|Ys8rQM+SJd@x?KMODCR74);Sw$HBNE4h`P&lodNuTn=-gY
z1(kh6+YYo%xW+R6C3WD-|BVMY&o*&&CUs3#%wT|Fi*y#R6f4V<Xtkwt2*OTv4_>5~
zX6#vok1G6ig}<ioHxxH*(<rv?^h^dAg#F6I0rh<qst}Ql8}^kZ5lL3dZy{hP01MM`
zw_|Z`rG9AMmNVzRTiVieFMKz=v~#(8A-u9>Xx^UVb31dfQghqA_}%ytzqE5Hw$i*K
z=Poq{?p?flacN+sad_UDvn}u?UsKMjN>j@l<KqehfV2xONxLc7L&07I;P>ftLZV(v
z#J&`>oRQR{ypQtsQ$R9aIzYio2;>SGdXO?HpxKh|ARrm);+oq^10$tf`%2A$uY5bK
zuBQ#nt5*E3+PKD+RXfEToUdWkNii4K(!F%5(7a>SO-T>e5?<a@XdYShQnHS#Z(OB1
zR{fl-?(2Gry}>)I%}-l`_p*1ht5(EOugmvga6b5r9Vt~ZQ@1AYZ#*<ede*WCo|Vjk
zOOwkMO$q}vYcZ>6n{+T)Y=bPe3wF^lwT0ESA%HBdnGad)ge-P3S?tDEbSpk=hg0GN
zltgKap#C`aBNMh&%ypvj6wm-@3$OhfoT)15YJI+R&GJ)*v@7?yQhsLKdOl87EosEp
zlso)XonEf|3z==sS|BTVNF!5)G&1T%e`-u1`lBxrmub@Ln`+i$<=;*F7%0=|u`+)_
z{a!sc)1k*Ut!t}JQT|20YmHYOtp%gC>b3#2<=4w)dh{5|_v-QTug<Sf#=sDnu>Kxp
zYV~BZRoc9NgbgbDXUy<F&|Dkq2JB%UpLGqBG8SdR-KHXi&E)!hDF0$YOv1`>GcJqK
z*yJSa3$vEt$%&oPDNGED?h3b5K#xnvR@}PWg2_T{g4lr4K;j<_t5y>Y>bk`gnOmX^
z@j8vZDUCup%JlDODlH|Wmql=EQKEyWIMu_7Y^9@u<k_w&jYfSHbxE`~P_HIa3=^4Y
zG_)a=1}OjW8_doTot#M_kxnVz%FL9Clu%@s;>TnF(v&-J-=@l`OQ@@gfv9kY&OVb$
zl~5;8#e)pAa~srh2yC9vPF*G1X$}H;xJ#{_#a5`N14z_8Ar#SeFLgHsj8beKEi{jo
z>RXESJ%#$7N{|uBH|zk&Xd~=W2VTBypxAq~(0epzdF<%=qPOppv5&_zq_TXYIP!X7
z<n?v4X&cD#ejRdShk;|ZFgR1$2t!A2EF4{T+Zw3>2fDp=$Fi-s<3wS{iIt9%R7=~F
zhTf7#Ev!MJ7uC_#^NHtU&$Hd?LL;9!I#fYJ=s-GwV1r^#jG8g)B}^n>5<drZd<vP>
zk5rF*qO5w#5NeK$B9($bqs;O@H((ZMOj({(dPZGU7bWFy)6VmISqp4c_JEr**mt=D
z<#8}5$ODdXQ--jqMaM>9FzQ+qMor&l%rELS4~cAosa2wd4BMrv_>rzraD{^F6eKA~
zQ!tGHc(I@2R6ub^q8t}smXN-Oq;6KK#C|Q+2Tg;21fb=|2mt?FTw_<x@zm`rx_ckF
zdrQGkF}Sx7-1{K85<Hc=SPBGxTK7@igSQv!Rstt;-clg6bhr>0&3T{t8j8Lhk9<3-
zixAd&rpld#;LZm_E5T!^vc2=C2R=HmbaAD97pzV>@4|JoQVjGL0{zQ}R{}4gm0BdV
z8?LO_7tA|?>}=dOkB>|L2qO%8s?jI0q%!W5-limpJn7ruPBI}%6ugUnc>)39P6szQ
zs)0^Il284uI_T5^riMIqfT_XH`o^yr@_d7Dw{{q?67dRHiIjTUsa0ywcytYW?eCCP
z16J1kL&HiZC-^pnq^{bKRB(%K4cvM*p-_!dn?PF8O(v^Jm*Bl)jd&Qa_2L-$6<2w$
zk4u*@BUSQf1E3{1$av&ggg@rr<KHvAXWn4Kd<NFelK~m<SAFJR2x~#%(y7b8sKel=
z8H3Z*rbTWINTsW+sL24e83Vl4?iX@vSnw)pGPq*xHfxu^1|3Zr%CzdEt4&qAMuCUn
zoq)Ot(9m1~U5z<O*#$DQ8R^>f)NZpz&uYwM?XpJC2vk@0%&0-@nUO|4HDI!I82KT6
zZpy#%&N3*k1<7mo3b}pdI`kMowYDQMQ^pEw{WH>;0i7PT4C?XnZ_Whm-aKg*Y<C=N
zP3#!CLpOGiX#}-bm<*$as)KxE^#Qe=<7Z|)!(_P=aajkugo>EmMpir}T}HbTm3A9q
z$FzOdx)J=C4x#aO-ZW3!gag>H;3Xa=Fkw<ZjyU8du|$YON~x#)62*=oP^IDR+bZl-
z9ETFI<Yggtgxwfu`mX^yhYuxilb4W>Afl3)(Fd7&1t9v9qa}ayqGu`baNpNvQ?QP4
z<5~MKL&35{$S2%Ztq!y#WA8-ui<8Pbt44aEUiTR9WyN)at`gaOr$ow;(trz4K`qBj
zp$xWrRKs~DeGNB<>;ga%h}fs*>&?j$>3@p5Vj&clp1=|i%uoVRNld11h|y|D&-4u`
z4jPF-ql!X0sYpFDWvb>mb?}NCW;)yevlQ(5DM5?cw8@cBPG&m5rAwFen;R0gvkhf-
zZLGs@iFyuG|GzeY|GoXi-V=r16AYS{+Cs&)fkGQ81HLbUyMVBZo{oa2gGKrZp1w7!
zxr4#@)^!&bI?VF>3!eVvGsVFpg~20hW>bj04*~_Dw0m2@y=}R<7(Q4CAAICK_@r|L
zOJDSN7yR8U(qHiRmzvs29bq)S7+4DCTZV!BLv^`RpLv4NEkeDyQ;$8tr|$Y^E899;
zuEVIcqO$gU%MdE-L}eemg1S0;a;M&Z1y(8QS>GdfA89A!k4DCyXgZ5gNl&=g^PNJ^
zch;@uZLBL@7|*sab*1Zz11H(Idkdc4uT3Uz9iT-^2TZze<r}u4xtCl8$6lJxz+&%D
zhL?N)^#I%7iZh;qbuk(j<mYG@y;!gp8)9GQq)`y!yxzvoeUl1d=Mk5QdxccQs_$Z>
z-PyK^Eu!vl<DFAKpSQUZ!O&2_7g}mv@eSl1YX8}-q0(6E!dvmOYGn0v$s2G1$!3NN
z;Aw)9m08iJctOt;^|<Ph&Sx#RNyjlHdzqlDgUne#QA;B*=|-42V2)Y_upc%e-&w9x
zk7X@-Nv4%pV7$g<4AaEyDQDJvTfMR}3p_FDIr|1fn+_iJ%J7R;44GEWMlP|Fsz;X&
zr?|I)a^@T+j;_Y^{><6m_gHGpUJcWm>@6FCa7k~E8+zUA)FZ=`Q|`bIX|4@<RL-w#
z9~6d^DpRnTG$d9zzg&{dq#ZM9XQD>c%)AoeBkUVEOT;BP6P04AYtsA3lYU6SA5%aQ
zO3G32Pbhc~f#N|4T>5JTsLLul{UgM56F;2;^^W@kiv3dr;MQq<dotZl)%UC_Q>C52
zOez#q82YzV92ZT`gO?X4lXk%PsVDHGBSrW2NAB$<C`!KGQmD5W+EWPadGP&}(9s2N
zskNinI#g&KT8^)@9>|@?$@=i!`FHca{!-8OPmX?k^ughkp5q07Xu-R9y%Y>DpDzUW
z&0l=lusz?fJMY<zuoN79&{+r`&t3eYseSR(PcM9QVY#sweyI?C>EWJV9r@*v|I&0m
zclvk1t|h2~qw^P6&0O;Z9!3^_@JD}G^z}dT^*?FoTlPKd$Z!A7O2gT_=WK~I(@?=3
z%DV@drdg@*(YyA7yFHIFb@miHM+%)I54<a#M+%-`?&9K38mOibN;5RQj1krSU#Ns^
zwb=@8ekpO2TA<)J_?Lf)pjtURqA7>?B|fa(KG-P<XAJH3!AVIMZXdpOQ|y?Dw+=2h
z{UUfjxQgrl!H3&^HTcWHHHtz?4Db5NP0C|K;NGFThgPks^4QqQQg%u?xXxV<P8GHu
zSanj;#RWR(`hwm2tx{Qt81)V#9~dY&2fpzlPgOZ-EED)Q9-V8f!H;i)%1PI0KY`Pa
z>RX_>09o(U!7UNq1-1AJ6vvwRxU+EJ&cXrZ(!Xh0SM9P;E}ept`80Sop-|s$(zeLn
zYRaWcs1x0yN3_(gY0^ZDg#IxSuV|qd`tC#D>zG>V0|%*B95|I1$t90jBN$p#+~m`v
zc{MQbY5-!AE+iwE4Eh3*s>>E!Pm*JeE{({QVTu?})l=)r1=cUVmUMw!s;Q~YS<Ct<
zU8>-k-(*~@Xl(-j8xk#3uXjQ)Ux5=st!tJFZN<=yp*L8@XC1?WdMU+bNM*b3GN^_>
z8qJ~Z3F5pusZZZgv??8=fHtdQ*Q+6oOhw0?FK~c^;jN#D{}~0xDY!&IxnfeEWE!W+
zbybyunT%%Z_0=^n>>#mRve!X#(EX}l0e)H^EY^n$_2FXu?n3?UoUPQ-U2GXCw2b6D
z711wRx`5Ue#+C*j_B{;zI*{Lg9=7NJS(ZKElA~|&C2uhA=~%o`?A%%C+zA9b$}GZz
z>Vaj#<OEu;Z4sucREF2^Tm3xW60Bo5ll0F~P?dc@LaY+OvD{fQ?z0U)T!q<QrkQC$
z8HU+D%+6<vzJY>oVENpNZ(rWAkBwlwN)&EDXQW85lQD?M=D1V61gugTfj&vJ;)ezh
zww6I?Rf{sAIJVLivej=4N|UUIX)wK@gax&Z^Ec9P;1aQLE8o5E*GY&qe{hX6`CY4=
z$>~xNwO#YO-LN#qVSkJY@4-Vx;C}{Fco}#C$k33h9_G7%67(3L%bYO)sLmkha08-2
z6fs~!{tYIie}FV<owLt5=9~a-)*HOUzwgOfYXVdPb{gyjM77p}qJjZMB~WC|tiC-J
zfD_PGuLCU|Cm$tZm~*bItJdxAoEw1BopohxS*H#)d5-5&CoSCHqX%=F_TW#-J*e=(
zatYRq0e1Cv%YD&D0JdwHGE8o45m=D5>TAJs@BbxwYJmu_!MhQzjAuci*se2WUV0M=
zBk!7;_f}<|>Ki5f0rJkkZP>5r>cWiX&<xKgc6sRC=wR$pEJA!Dqxi{DQ7AhB!`Xz~
zRP7QRqTvCqIH0M^<QFc{U9|Ks5h!*zpyHxZk_d4t=9nPBbj}##pHW6LH2sNddZltS
z3AbZ-Rl&*tKkTFo`vltcGDl~vVYu{BH;hcRtH8EYfH_$zZms)_&LLlg>nAi$#mY!n
zw`4*bD&JK@b|@7OHKci0%d_M<rLvsL?6Y)42?5{ces8jNyYh~$>u~XCU))n{A1$<x
z{(4)!eRQS$>`L>wocl@lwm;vN^Zr#2>;s*-Qwu|Xwf927zjML0cwsqEYS;?2)X-mQ
z43g6nfu{=(+E!W)Em)p5wA?#<_wZ87<A(6E@Nl3od>T|w8v2*_JZOB}u#buadf;Rd
z2rpPmp>4&`?m}qyg7<g+jzw|l?FVNc`w#!l-?ZAw?Hl7)w{mc&`PS7v32k4tF2DQu
z*!NaKZyHrT_U|rvT2)KPqVSogXLW?@9atUZ{2c}qW+>QSje<!e*Srp?!oI|h;Q5NZ
zC`zADnZKZbWXm&dIzOgN3i@d=9wGun{Pg(A-*X<TYiV|se#qAqKdV9By1xu__m^Sr
zehub2$(=`oxroy>lLm7sRRMD;Sp{<`Ya`5E^HN@Om$hT*?DF>>?0#tdmFJh9{O(hQ
zq0@!lGpiil{ATxW<li3nhN7x`rJ+pV-*^l_d<O%pyn_*V@N(17_&6Uin>e`J!s#~7
z!(a<KdI%T`c0gtaoNt|?U4zUnKxPNQ*jfgA!BaaQu+vK}x8&w4v}{`1SG%;}7d=89
z1I_iDP^fP=X<hVaH!@prBjXhsHmPHi(rU{XK_dZYp-J?Ke$igLjta=_5$i>}2DzJ2
zatnjp4dAx{r4H=iOj<e_n~`IQv5SoLg4-@()}@ar_!)v(hlUh~XX_ZY)B)%)`0bXo
z6u*M+TB0fOCb%<w15t+WWuUkLwmVQMos6}=!wOfy_Gd1W{-3~hSjNkjNdV{-KFJl(
zov)B@_(nsQVepR9WID=G-`NASVE}VI4@R#VW*eyww1%v#pf#=?D)MR=anP!McDU5e
zOuJ4E#UZH2%fHC2amBJ>WQH#%e57d|@Km;u=~DBMTeAiIT%wGj$ZRq~f_+sFN*Qwm
zg~mFrSlOluo65UIu|w%2w`BFoprNeYNQ<aW`iO#K6kMW!vCa_1{t|)Gkco@*Rg`uq
zKpz^(Di*&@H2;nQntJIEDR`Fx>XG74u&<j4W2m1uNq>s$u;#Z@rSlx4Vocp(HhYq|
zmD&!u6I2{5L+81P9WVbDWjE?PrRV89nnO=;2icxmpEPwqO#XcAVe_wBRtC>O=V>OL
zhj=_3W)99DEV}z2x%<g2;N_2AF18O9+J}nmFBjThhOvC?i}o-xt#=jtU51VQNlVYt
z8R!-*`_}E2Ak5<LkKq=eYxIGwIC{J=dVD3st`Rz(qJi`C=Zl_w1<yVJcc=F=$NxWV
ziq`gd+SJynDX-G0KA@Q|>r}JzvqfLH;0rH@SA2W&jy-=5ooX08d67<~U&E0aplgIY
z+n@S|s$tD!%Dj3B#2{RSTGd=NI!(D+pi$8&W6D))$4^}!xpd{~p%*$Ye9XPr8Wo7<
zBB(bgRu*J1c6{V{<Em-Ths|DBcT8E6K2DSLA5arJXb>h07*nH)O+8@R$4RO|R;i<}
zA!jlozWk$a3uo!Ww#t*U@%2w=yq%~_^TsaL_Z8~<mNK7YKh8dQd!_y)%ms#5we)8o
ztUc5m-c(*%WXXW84F#`^r<Tb`!ZpDaK7}v&%8~(&W2TxKA-RPaGQ+5rEBm`b4#TKZ
zr!l-?73M>*dgW{JX-%SvGBRwWN8r;)t3(n&<$V91Vt;`^sfV2hQka>`G(v6aX%cAa
z>AT7eQ_l*{wpYz}rC#voG}|Xo9tN8FZn)Sz?d$*K+Q-+5eWxGwozB;Ti*)~H&$`{Z
z#g(%GG~$}g*In>+FYSM@r?~rEVfVSbuY1LJKJPfsju%|G#>0(OU|MOOR@Ehl0enJc
z=t~j_H|al7@NMDte<Whs%F@53;01`AFt$WNf`;iuK#1G1<x%6VRkLZUEpKW2%E7hv
zJ@qu_13Qovbgi2$t;lb}SWob$_}_DlDmKRtVRQVf4)WH$Wo*8;jLrAL`f=zOUmDu^
zmD^QehDN*spHr#=pHs35pHo&fKBv5ZwZh*Xaa5|>suwK<XK>9<S#@^n1%49{Pp@<o
zPjMB-)BJ?@EB0tqNKfGNKHo$dUmY{&S9v&gd4f$hu0ZkqYzAK`$m-?JKAKuGu_&Gl
zZh&NPt0Z=xM6yz;qfJVmE2*Bo>i0zLERzm<Ji&Zy8OW4k_-as==m4pv;9<=JpKf;8
zwov@6pb*D55%J65BLcgDV&69@+t@n>FQWPvp_((oaM^KJb?@zZ4lO>4!l$;(GnjoF
z#k>YoXWxP66|2S*3}$S9P6_rApY}1e`mM+A=TNJj5M%*hAA&Q1M`%YyH%&BYL$!*l
z6QXhijp0ORGI1;(p-;uj%E;pN8TwpaBAKbU*!3{Je->qlbP1`Aa;<79#*f%(Wj2zn
z^qzRM6e1$$Y5g-~=7*u!F0ymZK1pG2Da;(Lf;if3_u(l;g$Jpy<B-Y~j!6F%NgPqt
z8FSUl^ZZx+9M0f>=XyWqf`7w#KIa-g=ek+)@LzKyf6cw}Id|wAla)8EaR|QlaQs>R
zbMDMHCNokFj(-)Yq5r{+eq*xprf)a|>y1wSz|skFb6)2VT@UQ$n-_N7d+F{=>l~u%
z3H}VvcPw0{PkYumim$(Bic;2=d#!g{*Ex!>o-%W$mUYt+z9T1ncx(RF8i(i_Wv)`@
a`U!*=_=VT*egE$Fmt4zZU*o-Y-u@3vJ5fad

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/orion.cpython-312.pyc b/model_executor/models/__pycache__/orion.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5657dde2d64be193db7c5e8506255d70e5c66330
GIT binary patch
literal 15731
zcmc(GYj7Obb!PXxpBMlG%nX15F$6$@gC|9R6e*E3X;QSr2P|9fv9yyRx&aP352$+}
z3CO@^5>^?I?TAd`5UMyOcvD$}Mb(<MwUwoJe<+nd@z&OEp#^$p+<_{r#7UL@jRGig
zWw$E%&h5txMgvOuk;*OL&bhbGefGWQeCOQT|I6?9a0nUO_tJkl!Et{}2_rakV(TAy
zj=RkXT!IsL!II&#mV|{T+M2OuZ3!ErZ5eykk#I2Do^d9ec<#tJv#x}T<vBC%tS8}N
zv@7Gy`Vu}yyEFc5Q=*B{o=hOyoM_IrBwAS7n`zAk6Txg-qK&0}nf7cb5n{AI6V65w
zk!(kzBiotiWO+@Qu52_BWpp6Zo!yhz!|3KrPd1i_F}fwQH`|-&&GsewSh_XSpWT<(
z$LL^Ye|8`-0J=?R&m73c6LCg|GK1Nn#87rPF`OMqjATa>quH^<7|&U_uW>^71}8*B
z*VW%JCa(H>*Q(Kp#~5b^I6J?9^AO|g0%!CKILE~%#@h|vJ&)$St9L0e!AkU?M67WM
zF@D#k_xbR=J-&D0%rm)ZQ4(`g;z&N1nU8&4O6PMUk4=0vmdy)dCN`DN&ZY|K%Na5D
zX1Z`C_VnD$OgcAnE;WS=F+FpoAdh}bHO6_>^-MvOQeXw`NXwb@6j9dGx%o-_T5>tW
z&Cg0=K}w}_qHrdkn@-Ol&waX35OW1Ij6}OUH#?h`3durVn!1vt_S2}*qI%Dyrml!u
zA=UF@CX>}Gu&BNnv5=gdP0mR9xmmTJQm9bQOG!3}<ZMbxWinzW`DR|q2uV4;Kppcu
zm(I+c&Iy<1GI6Wgc}bLJs8gA_Z0=dTz(w>kC8;gnxbR|q);IHS?#x1sfs6T>bU}Vr
z%1?<hnnzaaH|A0p+5+Y<pEF17qAp7LSsGW9S<R)V#gw3iUd&IWE*qIoWiN|@fElN$
z5ya`#T&9rJCO(<Trv#B22|km<%x6U*ohpdWvysamV^`Bl@jR!^r~K@*al6`bdajUv
zNqcV>S#dR-mTB&?X<0@yY_75*s#6EDscT|V%+40(lj)iU^tqLj)2S)Eq<PiL7&EDP
zQIb_(HZ^})OwLN;bo#9+ZLMjsUr%hE2k~8q9Fa@#5IYt(=jH^DU=gi?75_HTCfG&0
zz%MvCPH-RvVKePp;--1Qb;F-<2<{tP!nwq~#V1_PadEHeVypJj#b+l~@0GM5h&lF-
z)s`LIrq`}|^ylch>U*8u4VD<KL)D>mS#@B6&Pll`Lq1ZkUHGTHzO|0%hx~1>fL|>v
zJBr*7>>Ow8L7pohrG+A2w9N1r2yz5V(N?to5hqyx*z&&ZuFg~BlDZ7xxPsd(XDLDw
z>-_dQ{%Y-3!Ex<zj*|ifV`@3US+t@J*B@K&()&mFZN3oDsA?b4DvgMRc`ojr{MZ8e
z+=72}1`8-TH;dPozk0{2+AgP4va}BmrTvH&JflMX%^Z8G+GK2>g~$szeZz`E43nCE
zgRS%@VhejmV_zqULTs_L9ILWT=cQOK|K@1it=f@`rRGXvg{2G0q(ptiey-_;)IwSA
zYQvrvQ<*vODM`vpQWHIMpxxwjF78C1#LTqRi%hAHqJE0Z?yK%(aw?OO<z!OE(&Az)
zT>q!9jTN%9W3%bmkwOYGpfK{*+~dcNUVB^|%cL)l&CVCD<a1+hK;VpN;zWE)oWeGe
zw4^+iCz&}qJ1>o*(uEddF^(F8dJNg}?;`s3b#A+vb2lwJ6<6eet8+7Yr0ffq{d?AZ
zJ*#^aUthT;RPNYU4n=Riyz<(5aA@1>==Lnx9=JNTo4C%Qvag%?YnT%2!2@9G1k?AM
zDova(v=aKz+q2mkEw>J?J+U^te&nU~=9jmumS9tbv-q2~9b9<t?`M{5Kk#m$N8A*>
zc_YwLWXt?55VyG^cU50R1_S*Td1Gn4in5EAMJxEsMO@`9S`5BL9vtSft>M^N6OWqs
z=eRrkWZWu^flWF@(LqFUn>3Cem48ch>T5&glQO9?dWX_sdg#QudNU;n3(e*m&~qm7
zSbh@Gb*|jrQEK0>wC`VieWN|T>{)W&Y$^Mi-?^}SVa2)Oi!JfxK=7S!FMoR_wGoId
z+m`sH$I5}`C6{yr<>Qt~75jzOYc7=)lS$Q+BpoxCA=;NrLZW2!Csqg_)hZVxDTtD6
zZAiyKseXMGPKlXJGI@uWfXq0VX8IHxh_sjZDWajv&m;Qv4X)zj#vd<-BA@uX?0pa0
zBNaP-D-JH&Q*jdI;*jSi%EN`@YZFRntm37lk85eGP$4W2Pt&IXQ2+RZ&ECQW#G08x
z3ub87sja^NQ7@%QQZs4YTqCWmkk&THX}jnUozs>Ml+$Im6Vluzy7ZJ=bnBEybO>I^
z^fo5beURxM!7qBRM$BHAgwV80zPEAyv_lBouqFIVJ2XK%w5UyNIhYt@lF0|votw)h
zuR!5KWf6Jp4L#){y__su5eq5R$7p#fm4Rwh!`akZ$=SS|CS4B2sB30aFh$TrS0q(=
zBMo2}Qw)LY;~|=Du)jfEr$@Z?dIZ{oOPbrWKoW}uL(?pJiWYF_cn%wryJ|{xgBQ7;
z1!yvXzjgp?$#Ne0U{^l0h5F2mTExaqnpzO0eAQYFs_41)Di&+oZcl644zad9jX7)h
zSRbo83wm&umKV_9yZZc~r{>sc-WtsW@q@3bWx1=h??xXI%C;J#tNxM(M_H2}T+P*|
z2KC6Y-bZr@)&-0JZJ4tR{m&&$&0Yk~NRql^q0nPcY_tt}+;|R<Yu0bnfYo6ux{7Y#
z2ErPSyZTB)d*&DmeFpcg^)~1On>F67-N|a#*B5FxOB86Mu+Vr0cgb}SLVDj-gQePx
zdJ01Zg|g;bGxBJj8@*-ZHV{F`HRqwG2B$t}Zj8!PGiM=#2gu4hDbWIzNG8r``42xh
zx8NRq9pZ*CmNbam1?Om<rQ$Xf(gz@9J}IQL1f{F;23Ra5i_&@Gw~wX@g&dUP(@04d
zDcVO7VYGNy8X=mnh=zn{38{es>dhogp(lNfa$Bppru?&_RaUX;BJs$2;&@#H)J||Q
z812+$qVx<kbAck7Bh_UNjG;D%HZF<Yi#aq1PKh?FYGb4DG1abhl{%#jiq%Vl)hgdP
zM%7uEW&O}pC#`6L0eZNuX;GShh44<<Z$h#c@lbvUolB4`QUl4#UHb`dMK)WHY_uL-
za+Z4zP&x`!Pzv-ZfxgulB`|WY<-@?Cb=RTwz@c(Scd27U=@_{eRyvLn3@i7JQjwmr
zH&F8SD&F4JnGd}qP}OabQgBcS4z9hV1SjtE9|n)D`;M&#k5yb;Ti43-rS1s@e>)y+
zMtfHI)rnHy6H4C`_h*#8r#7PJ7$7W1`c@02fhQIGMV>^v{&J}EcJ5YgweXY0A1^AQ
z3FLXp;jU8nfD%5iHu2LFcTOl_>Y)$0w-;|Mt_n(ckfl5O@e?QyoTRGze-()n%mgaB
zw0sFaC0|VO#Te072U1^I4-RYxTpffz{oAcv_<+g3I`NYeKR%)O4%R`|m)3*(09nIS
z#0xmw)n~M%^{U))u-wuG7!0N^VhRBJw(lXP$>m9d7paTO7un<wDjkD_nhoIm!g{a|
zeQHP9AGjIHQQd~tmQ}xDAQoU_$Wx?^jX;u#Y3B$Q#;)+!gtZL*S{H3aYeV?UT{Shc
z(EyV>rbhju+!?FDzi%-#+^gu>qJ7b^=!85nby!Uue9>NX7#=CsH*ka3)H^l2;4C@~
z-bEL<Og&S><uU*~tIds(x&f%HlOO*x0$dAL2&uSJdKpDv$jxTb1?dIQ5^XLiLD9D;
zdIeG3qwVt7DC0jMQmv2_5@B+ce_iFTsr(zNm*hb*KUbKYE2s|bS0>?Y>}(zBGZ?)P
zs@vK+*8d~$%hwTI=YWJ;L$|wcb+0ULw2Uk}maI$PD7UuXj^B!}JpbOe-u>2E|4)bS
z4BxkX;QN_xJ^Iwo58aG!v`#KN3G^?e$PoC>@^@C|*Y>V`V<Rx88w1#7>04>+%Ewky
z8=(VB-f~;y_Jvy)R=pc-!^`d^$4!_J?Mr^mU~qig4COZYF&9HTDV;#a;sNO-ex$EZ
zbc&+Wh*bMD{5b{HCZwkd(pM>))}ut@uUZhQow>zShvwyBGa;QJma~XzjfiuUNfEsg
z`Tro&jEL^u^5~)Rz)*Q;tbFJQ85Hejc)N#L6hx4m3Rj$rbaCO%ikp!huD!G3Wu%V_
zcdd-CT33#euu(!o6+g>w;(GU00*q|t!o90!mC%7o3rj;V=q5>!rQ66RVeM8zWR!$i
z?s<#H9(ovz+&+Hmc*PDHeTj76F5W6uoRo5Lp1?cN<>+T_q%`w|1~`R(GZ?FV>(7w&
zdGiHkhvsIo>86OybTq+y5gaf|Jj^I@!YFZ)@zMw<2<~0-9ipf4lg7E4u>_OF1Czze
zOcoz@m`~Mw2xrA9_+X`r<XD?j9h#r2PTgxZhK{M&ERZ&2QVg!<dK&{feW$Og$TyZ!
zjqDEiq~Mh@rG~v~k>H6{;LInE9Z%rQGoLtXd|Zv?Bi|6M@r_U`$-ANxHjuSw19o))
zhdJ-+k`d_AX{?C?K@k=p=NidmzR^3z%$R7>C=dCqwdF!v?i$=_tU9hhNRNf9od#9?
z-DS4<tI;ZtK><?|bVR^dOb_0_QT-;q)i5gqUuiVW;HHMat|AHlA34~P47a)eRgi7L
zHk!@M#_d|6KB~K)A``dXfj$vu<#<aSe1*dYmUsbf6x!=*kPs}A+IfL)va`%<;(YQA
z@(k*kZnLYJL&a=UwW24IgKBeYdn+#iY)e@=nFEzXFVsLf2PKqbK5fcWBR~*^nug6M
zakr+~UZ>IQgsB=hu7cPJu*kGP4SiONR6ChEtKIS@SiM8#a3sgTYSRv|y0_FdqI8WA
zY>RBRM^|24ef8eqjrL<pp3U%{l{Z$ueXp<)KECAJ?2WJOUq5u==g)8SeskT`v)M6F
zjzmk514`ro+>NEsK_zss+|g6&7*{&R%i+C*ruv_(g;mVe81!ha#_bT-7OmE>r@yr4
zh_dHMIoz$mO%segfAcHAaczX-TmXBq-uH^{7T3;|hEFQPC;$9h>Fi6&*_R&lyi6mA
zZXOu?sqc=j>}xIg_9(tRtLIAnk1PF;Z(A*K)bI<}K27SIC}IbEqpi&Z-+u-H_@;R#
zF>Ups#xqII1u9b)$Z`KZZ*0It5;2wq@PN{4trfU>*}7Uy@l&mO2S-hf5c!tLxJ5FD
z1<S68ViLJwrA3P75$R6QDx2z(L^&<M<+#%ms^O!K&o3w)BK>bvCd-Hbk$ha+-X#}%
zlfz16c<r?f7!!V^-)nlesT}GlcMeqST*tr`X9dXj15$PDT|J>h4uS?!Fv=cQB8Tr~
zHzH@XvaWYstKA!sF-paB_HrP)?uu%t$Z9|#e?1hUX{*6J3<oh&HcJn3hya1+W;5a=
zpwBF^QnZGDc^MHw9~U=#P)9u8UI3ovSjCQCjKaVwPD%pv=upK?Ne>|v;>Sz@sQ8I`
zns2jrn>Yn@4NjpH;gqGhcZ$o!l^5Q7_1#z3198PY_?a8ewDn7Uo5H^tNM}>n>cw)c
zMJ=Rpe+2ES9g9ud7&furXiC`OaCKa5(u&o_g0pe{v<-)6wuB2uZOyxug=4m1onE+Z
z-RwBdw+n~%beFb8_H-If-Wztfdg0O)eWI;#O&TU5HHwk=MH^A*J2`cm7(xm#r>=*s
z?n`t=%|JEW==;H`dg+|T@WfKilpz2}o08CHBI5re_lNv<t>3kM*Z%0!yv92FD%DgM
z-nN0492<4vZ5(SfLN#yOm&wCt*0gMEH1~~>Ok-Z;nm)B^Ck!!$n#h=7p%6AGlxg7e
zf~jO%vQNVTz2PcafUYb+JXQn8ku8eaOq&t3xe`HF(aK(<m8-o5RsC(;TjUZjs0%nT
zt)d}1Php`DHz>hA!#A$4rkruK!2#tsCe4LGb<j(oYPYDLKeS>=7|VuRwk-3@aD_u3
zkcL5E@>=>GP;s8g8A#^+NNMVy0Re(Fnoz!eUDNWa>v$%Wy)2|oF6^tWT~o)89?#&|
zKO>(6p|O2RRS*P)i|RqwaJf0O;#<w!Kk}*75^Z8~1b#yXLuA$$i6lC+t>d98hJq83
z_K0!F?Y=T?Y>p~cp&qNAH|W}d=2asXCIf1!kDYShF2*(7Dv<UNV+->kYNza4^Qu>d
z&r(NAs$0wn8gNn_diQ8{CDNbLZ&D35LR3;Wkv(5<#{lkyaVmF%q6TxUIRHs%08^bh
zb*dIo1shEB--A>B2+{w$&TYE<#zE}EmT0LZuC&BUE#ped_>!X>?k$DKl<?RRoMk5Y
zFcc-HRk<@(>Ksx!hsZg#89l`CO1DCXvpR6uvRjRFTNiiiEYBYFE580uEjWWEmD7zA
zUfmOR%%ivtGX%HN|D(~h{`ZH-;T67p@z%xFP-*YDvUmJ`sC4Y2a_r)Rwo7Q!y*c*c
z!{(lfRjbP%)X>tF+kTLtq+zx?RJVp<(}JuSiTVb@;58x01R?FUU0q$~`RsF?bQFwO
z?%%`D9gFr-eh;)vwHha|0d2LI?JjiIyn?!CglA>iayXME-)c+=#8x{t0z>PrA=dv%
z26WW69d|giYd!Gdu{LDw5Kf+|g=0jsp`AqwwHx^^9#FViI}utICxwf)--2zoXwP*4
z64utIb5xJL!Q(DkuWM&%kdUOI7Hh5HhNn-c)s((^mH0ufq5G?urX_urdkvQ5qQk<$
z(zO)rhAdmOf8TGb5mDyIOetKgO!impUjaVCbj?de>+}Zd0@~4q-=e)}*MuFp?BK(r
zzGCii^(QUC9FkJGYtj#qCy`{7-l6CR6#XtD)dxP@w$Rx~$w)U58C#lGkA`Lckf_@f
zG0&h~lN$P_CR<5!=pP5iLTk;6(&4O~R?>gML%8yB10wRhlO^xKhu#4KoPh)7*vKva
z!&rYQHlf5O?!B@R`wG&*f%V|{x^EnDIePG3j}kq-bZN7_Yvt^F7v8<F)>euiQ{u<&
zPkeClXD9z}`}w7(ei_}n8V5R#KDm6UV&y^?_+JIOzW41?VDQ7h;AU|D!?wQF*RUg7
zTDPpWHr%zaVV?smcfaR;*S$KjL4dgi0jo~^^4yO57c^wHbl2I^ox!o~f8-Y}Rb7M^
zM$hYl@%qizX02X9GM>SC%VRnHjN?q#um$N?kw%S+&PCUv8wXnUH+YHvzOQJ%N`0vd
zc<!t&LGX|*TNmIU(ie|}#Z$Dh`X&lk##%t0d1#B4PQ$XYvkl}adKztoMK2b=x9GtJ
za2xQ0=Xfr6#>V|Cda$@_58kf!pnB+B^a$2Mv(aax-D+QqS>U;%?a^C^=f3|x&{G?>
zk!><=$IX_PQLTytHFo?bAYtZR)AGdHJpGt(TFawbF{+#0fMLZ+lIfRaRHuGziyb!N
zh>)&sss5c;1wB%RYG|e_Dnj+DpNxAdVnKCE;%o*NJ5?7{xJ=hQr6|~?KcQ%jB0`O-
zH6;jf{nYM9lo5jZpSosLC?~V2*;%?T;hn`bN_bVsqpkYcZAHCN85jUvFf+AYsvcH=
zU9C~Qde0f3OTL1OJ;}77+8GP$l1$Qw#DfvEYd}6~NWUT}>j!|$P8h9y&_hDQiRe1_
z4;E*yXWg|2?g==yCrVuhm9B#uU57S8<4fMn-hF?vZ^{2xeS?axXX)(Ck-s{8L1}*M
zrf22CTBID@gEO??U>Uv;9A3duy?WtZCmb#}Z4ZOt+b3?FSPef2#@B@VL(1q=;M&CD
z-^9JP2f-s$1SfcBl}P-iy&T(Dij6C=@tgi%Hg~UxtFPUA`a$!FUpBW_I=CYj`N|%g
z9e(-hHe&;8_O<UkIQ7Ct>_xN62hHPUUq{JDKxIYvg|DwN#`O<X4sy-ihFz{H`R00?
zoHnm^A~8yoX^Cs1p9yx7%@T<w={iM!O3{Cz=nO??5!Iee{5EA$^ecLB9}x`nho{f{
z1J`NytS(gO=l=Mo^iw&?+lSZMe;U0Lt#Bak@B3i*XTw`WR+_odL!WpfHMTft@=A2D
z69gxvTwKqgduNqBM=Nehdh`PYcJx`HvSin@Q-$@&km4TN@>AYKpS^qa>9rT`jo-Jk
z!=drB%E(hn|G5f>CqEzmx%@wmenzBb&(lz*@NWh~r*B=x3j4RV=V8&e{<~ZBjr|6@
z_yaUwf^OA&g=TmIVCjDee?XJz4`_iuAi(?q%@D0YRlD<dE-#%)&B>|E#Y@a9pczIt
z@LrhlV48d+H%WQXirs2Os_rfpl+>3wCu!sbpi7L6ya04g4BOa5mh5(q4ehf~y}?_o
zxvyKa2&NOVdJ>FUOfN&h#BVr-Zg^gCm5jN%P_)&kI*VX6)ETU7y+>%nSi^)-8z9$4
z=Nr-(culogZM4z(##J&V>jFxXG^q=X{0WUmYd{b5zV^(gQIGoT8bK1JOz#Oi1olbQ
z&TMCRX3Z6(I^kWSYca^&hcawg#e-FQTUw%A@;PeHnKyvsgG4vBq(7sG{1DRH6!lW{
z-w>(6LRzHH6NH+3h0NGe9hxGPsBda>hJ9f`KtcP&K)QwOxTD@mX3eq=vO@<4n3$HV
zwU0Fiam|)7oe}3qIVvdg>m62d`B7G~ZW>3~b(xOM_8zFW_b=WL{dss}_!&6xLv#e-
z!S&<F{?FUXI4;->_N+SA+#A6|+irV=n0*k<xaRTX@{=X+;D_G9a_|114E}hq)O$?n
zJyz;HrSzU!I!m`e9{74TV`KLmrGuxHgQquQUnOI@`ytAnUp`;*9Z`Ho0NLICU$`{O
zSYoEf0LHfieUmU?0^ukKW)tJLJ~YDLRnyS0lP%hdW~R{}po&^6nQ6@h?L(W|$*;4I
zU!`|Ic#GM`?<_1Yl;B1V#Mj~*fr)k3M2(Fs{UO+x0ky*rrkBpfLt1-x8(%v>H8#Fx
z@)_1XEmvc4u}Nb`6lQbGUX#tmRcoh3n4MNTzG>}tc9O<LyAOvCO=KT=-u0Ay?KkJw
zdym}r<Dxn{W^mM^60!<+yeS(p*vL+T*mYzL4Sl>T68;EumQ#IS{~bAOCjw40j}tRR
z9olx2sWI#y4PZ9WH%W8&PC|RQ(DS*W?qs+|Bc|Pt5xa0BrPQ)tY1xl!TE!n1@4dFs
zat7`u^TLQkh<e9hsckmcCqUHtGhj%eW(qWvFS{_iz|WwWF;E8KF;M!JXvaVq*FyK_
zMpp}?B^n!f@*pT$dRHelS`M($lmfj<pm+808h;MXxF&JBORucv>dTkKmLE_tng;1Q
zMPC3g|10rO^c3~)AqW7>G6Bps4PfGj049Da!@T`)6<{8&0?fl$pT|$}<&noe@p@`N
zCg>WFNvRr;Ny$2pNm=zElky^V+;#~^+5HwfXjG~p(G{EGj&3<AtI1*?-UW!_i2+1G
zYCx2R96zEulSv^zg)b5UQ+a&%hOct+Ie9d7d5X;-9E140tB}uUWahU~9ff(a*R=aa
z4BgX~R(<$RFDGN$X0b3N@&~9*bh<*9PqpKB?HXqn%cM1*&ajVvMg?44ky5y+Buj*{
zv_qLu{r(DJ35j02+RO?HX?!D*zKjheF#nQ7#|r8`_Du6#8{gaL-tN)rXGYrhKYJg+
zi;MgCf{%Sx#BQi+UlR>IszkkpWr}y;5hd7XWcnw5?5dXfsQUE_zD(THhke@R*zrfy
zuX*Ol@MRw{R!cG<5u)iDX;fUBJ#A-?>gM!ZA&uA0?07#bBa5%k(dVBMAurX#ysh}K
zPn4xj%CKt%nAC_OgSqY5K>!0ZsspAqzJAfJSezq<S&A6qq1AYY(^lqT&^Q7?m%x2e
zDj`Y2Oa4nl6)Vs4pEPs)dH(OX{*SomM_lM{Ip0TI+eciS<(&9yZtSnQuYbfH|IA|J
zEuV0RKJ{??)BH!=xsSM0pINNPaB=*z$Qb!MuJ<#G0~s8m?bcqtWl4HxetCYI1G#-3
zOnm6(H*ddk>y>Se=<R9CF}{1nLaw@P4rJvmeES>Tw!Fsk-8WlrciigO;)vd|BD=z}
Yw@+Ee_~Dz<?fF~ttAn3%NU(wa3v(Dk(*OVf

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ouro.cpython-312.pyc b/model_executor/models/__pycache__/ouro.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..66aae249dd74b877389e8c3fb807d843e7e972ec
GIT binary patch
literal 19104
zcmb_^dvF}bncvL5-w!<Y0W5&UlU(9Ofh0(Zq9lrMii9MRmVIm4D-bgv7u;PyvkQuZ
z7dGwEl>nQzz`HmE&+-ZKU6sLziJ4SVp_58kf21n9q%PSJXzzNCN|+o|DOcqW(1cE|
zR4SL>*RwObfEJXm%1xrDr{CSv{q^_zzOVN`x!n#9E@k>&@;{v5xWA<r%~{KV$8`pd
zyTJ)uoD+D#kmA#ZxPhmzF=b4f;wBb0rOa_N;>;;?+7h?0I7`Z!w#98MY)#qIj<_T3
zj62!8E#*qP<8BtVr#xwI+?)2reeB(l@~7+Kbu8>m)u$Wc4J_<RHKqgc01LZQ!E`7d
zN{8d&bW^;E#d%WA=}0`n!roL%x;5U)!oE~nIvS6%us_wF?ud7!JL8?~y)M<2?v8h-
zd*VIpy*{-iy*0iS;Rc~G6-#f6Z)4#=syE#i?@RZ``_lvQf%IT}Fugs#o#zbPQBDZH
z#R(zNGI36uyvp+fqZ*D6v7BM#Z2E$nJ6O(U<cxel&YcEMbYs?A@W%_S@0xD6eZZ^j
zu{xrtqy5Qsd{FLcd>1RxffAjyONiS(FqOwLe8m*&ntAqkW?YoS%$V3enMqxVzBDaO
zM$?mmn2L@~rl&@8$#W?&`erhBA$n~3{P|?&{E^WyM2N}r7joHw-%w>SUa=j|iP9*t
zB5XX6xiW&MA(Mgcdsz~5(r7Xx3I``M<H_?egJM6B%ZZs>ax$a1_2AhnQ&hS!J3Tcu
zDdiHmNonjtf;y2zwFbp`aCGc~sMeu4UQMOa<@$J~>%55kVkSE&C0O4RQ=`&oDkY{8
zZ%#@nA(2haP~DC*$<*|LjBsi?g*WTzQ)fmdrF6`wG@TNq^VGrAbUO2Lx$H^wc~nyT
zue|u`#;DViZ?2C*b>5Sc=aaeY%hKeSm_<(zRrkvDD26$MS)9!1y|qzqrAds|pm_9Z
zP8}0R1tsw6<k;vrE%I>soG1vGbL4Ck#PQMTR4$=TeIhkEDu|L2PLEzWCnh8@Jvx=R
zcqx$`8%>Fc%xId%TYo%*&yp5}<Y-Pj%jPHh8(LdPbDdG=IeT*Q^nsXJ@gJDZO@3MZ
ztS8mF>&46Xa$~tfYV?XIC6XCIysT_Vk6siLVtOif1u>QC%k!U2jHAS)bVYHpjI3x@
zajD&$lEm@k<uP>ys=mAY@))#>dmBVb<l;OCmBG&0Il&<qM5AEDpGh<cW)b9R21HG;
z;LR%V<E}YwoEL0wx#JeW{uURv&T*Idxa|xVb1GI^%coAhJfb)+Bn3gtuw|h5*Y%oK
zhT<rvqvwk24f<wSceGX&i`rwwf<-(nWyUO3UAG}jgyC@k-Vga3Tux7%x8%9+n>kL~
zm^_!mo9gm>-f$jUeFiatA#ci?f5ZvK9~*9)J}BqObBQv+;kcY#FK5VubeHp+H{`F>
zZWJsRcXOQN&1o~s3D&$3ZP<Qn)CkLW_?%a(SL-8Mr4ccAg^SroeuFcEJ2K-QIFHqn
zn4U^ZNs|+|jEd=8ax^RTAW_-^Z^khoOum_6sfsC!9X1pCQl`9%MInkwO<rO<;OXd0
z`#|(1A~TdNn#@Kk*~TZOXlC-wftXz}BNj{BmcRl_<`M~s`l`69yCL~0%3f*M@#<)5
zT0AUClafROS1hz}$1^c2`Xr{trA|ajUF3C>r*~hmClX_+(QG!6$kK5cW$x<#IWm|_
zPYq5br}}fFpbfeH%hS8}?zy;I984w84NhIjU6{-aUIG;wR4I;lSscR-lGNAi;3O8`
zz|<9K5OvP@%1d!T8`4q4W`6+hcUQSJA7}T>TV-45o~`MAWVqxCmfWocSKCs%?CLD}
z1Ep|xDG*us%Hr1w^}TCOON(R9bk7!E^KebQC07gOugVlJ)Ne(mCS<ziS@m$Pz+&KI
zXWRX{NU3hy^3%(Gh2bw3d|!ENG}L=mIfL7?X5oVEf0~*zec$;QJ>tgbyK9aXB3tB_
z5xBwSxry@Gq-CIIp4S%EYbZNwm^C7wzJx0|^9C*7ERP)eqOHoYz9t?u@n^VO{7B3w
zZAUg~2YFAyi<zXIcqsg3#adn&3ZKZ*=|*2r8m2@mR@IxMk}%`dK0rA_Kx%d$ysKQP
zF<flyksEuK-dJgj%{%6-3;vSJ_s)y+FD_bFT+unc<gI__oAcjX99{87=S_3`+*2j5
zZ_XxRn{hG2h=R>Ri<O9OBB3}EbOud>3MUj-A^~!eDyJAhc@$$dCrR}v$ySE6A0fqE
zUV>v{DwRmw;-y`P&C*0a&&DBjP=4}`P{LVwzk7>Yb#Xg(mja<j?q+l6gT~OR8P8P<
z7in9yQpm<3&Q2i*7mO|MlmmmSPI`55{)Sa5gw^5jeCkE$@18c9{cJ$2nK87WyXJD}
z@hSq<6dLS`K>&5eKa*&j(5Z)B5_E0c#;CSMv<O!G+3;t_pF^|?PSGY988vr__HxKA
zI?5rB=oGy8^NB9eDZ0lEVN_dA^P}D-M)~VN`8`6t=$(jGTGc{A!zS^K=z+g>8u}Y}
z%M|ysbEFRENKkRp+R@pRBnNge=>z2(k)B0MibXvt7=cmjndx-m0#0%qc@)HnTz*TB
zUQSF+W|NHTanSLf$XyU~ql#;c_?q&8!|0OYV##!r<LqZdR<V!fa+yR9Jd)BZU`Zv$
zE=*@GCJ?JKQd;?~=+c-@`SIeyAKSn#Y_|=kRKvzoDsR9kpl|;i(L?66Gh)`A$JS2J
zCSwkpxW-q{yJv7t3j9TMCTlpseTO!C?R;np_34BFryG|*S-p1Z{RWqJUwjR_0ezpS
znOfC$fVJ(eowF(*>tp3a#3{R3-RSQJ<@rHR^)b=B)f(Z9I=;#o&P_0|wth$`Tem)j
z-iSXy8+v}^@_jzn6U#ca{IzpoH(>;5L!ZYy_?Cpedh#y3d9*rmZCVI?2zW6K6wP|_
ze68I#>&<oQC1`$Xj1jT=9BO%~N437JV9DF^4)8Hn@IJN=%4-un)a%V*Q>t#$diA_o
z&hk7P^xEyL_VS8E?G0MaT(1_|bSyP$&zq6ENh?`-=IwdcZN~@YwT^ZIT3U`c2IeN{
z#M|Jsorn@d5Sh!-alu^PqaCn^xUXHqQS8gnA*H4{w6s}&-k0~X_2r*I+H76kF|oIt
zt?D5-^Zp-kKQ`c5M^A0#&(>p1Lsc2e!3jE0H@F-faLl2MzLvE(_N{Bp8aEND<k3Ro
z#8%YW16HgIXTBb5!-d|u-!<o5k~v?OcL|<%4H-Vk{U!ecow4A#Yd<h?;BdVo5^ZIP
zzRr2IjR(I_Jh{mn$m?`2k<E!y+20VYJ2GP*cmt%I7+{H(!HjialDz>qftG_qypj--
zY3W6zfj=J2iqZ&z(#tHbih%}Z%mYNkV`hn<j&zE=9`arykJc_h<1*F~F0;b1HfexT
zX-%jsEbUdrt9DX9Y^389TUUwI&mAMq9oC*=ql1WgsaW1nk&u<}BH<sacGR4tW~kHP
zsc<&sa)7_A5fwkF1Ci(xC^mgU7%Og3=R>0HqECsKJ}1#mQXHokM|3io%_%0D1jQ_k
zX3mRJ3u{Xfr&5qAfM=hY5;KBCdpp+1_&ezs!s^IrjOx_UG)t_nl}TjtO_Qijr#gt-
z6dRy)8u5xtot`oxwU)oI;-Sx_L0sXo;+xJS-<YnBahGFMET}SPji{0M%#H4<%CIr6
zKd_E*(0Tt9ie`U^rANGfYZdQbYVIM%K6Jlsc%^R7oVC=pmEI%ZKa1W@+1t5vUiS9i
z@qg?cD%ge!-l0;sr5Ns)!~J)Ha(EB%`=yQnD$-VRdW+5u+1asl{$po9n8Joov3{Fe
zzis);a{bP`{Kxfs3$DF|`n}*18=4o-7F%}8_`fdcexz-QU)ovhd|K{&`tEtT^YBXK
z2tyvFQ0G#vxMiP=|Dk<o*If!U-N;<eEaiSW`~IvP*oio2DcD>LZk2;umv{bb|E>LU
zkb3As?2Xy$vrB>;+{WIUy72IpdRf(50Y;kImjZ>@-n&n&g!j*R(DzVlF*qm(2j^T5
zLoq@-;LcCYpTeW)ips7i3v_P4N`F+S-?HYlg$V|^*Xp?7Rz3gH&Y$jof4}V7z5zLX
zxlrE?<P@YLPN1^pPOT-i&xFJLjW^n^w^3;8!8NzFneuv(w=sC*)b&$;`VwC4_k)qe
zum398H+S@Y%l12gm6knoBc-;U<%rz2>#j#`J5q2(9z;6c8@V}BstYd;6vDBBZ`<<u
z!tjy8uA_y%W58xDp1D)_Hg5kr$LEh1T@l$8x$g^?8bUWlu8+_It<mG;^^>bsufGm?
zJ9>)kLvs62slA{6w{9u5_AVxt4;Pw;9{G{wQ4<&1v1;XdhD*Co|JG~_1^^72B9B^-
z_NmeD_B`@)p?(Ge6uZW%W)-(4JOMorvx;MET7tYV2MRf+^MP2=w9grz2^sC?Kv4&P
z3@Dmr&3RKzpvX;B*Nv*lf%@ybp&GM!?0KWW-_}p8*U+<B%dB<QhB|a^tf~$koR3xG
zXjtEn+dwVWI<t&)^iqkuO)E2NM_!$Cs;b$pow}@62S)4wsxXfH=I`MkhckjA$E?!p
zC<4L9R4SR1zKXB}9+#8OktdKh3NPkVNn(Z~Cdr$Erx-zrrDrI_zoGCK75<XqBpRET
zoX$;6=M;<j%sP>!id?CLijL=*#`T1%jFJBuN!hpIT_vbl7r4=Ky=8HB#os?~nKRD4
zQmSjb5xX8+Jp0~PZ+>;T>t}tp`tF*3;rh9&5IOwO&_ZmbZe-p{V0mto0Q9%!zqNQ}
zxqbPS74KjfL<f2ogd550$t8yz=v_Xr{KlR36_5@mt?L)BzqsUFY3Q4`&si3Lz#He>
zD&DS_o<o<U=gB)j9x;%L_0ZviFC993TA~Fay+BdsafnEB5`900w-s}4dMYJK2Px4c
zB*$_Rtuc1AB8{ZYibWNYGE^=dqSV9is*(6niX`tMCD^gn35k2SmY!0iz0^Bc8X7Kj
z$AHR9;hti6Kn@R-_8)lEoZ!u#2fpa4nF1hbf$*x81wnp;t9BLyN^e?qvY?BCZWi=#
zjZLdw7W8q!j-^9#VC$-%y@RNgVSPP&Z{R?9gzKr*M)n#Ym>*=p5VaC!!6vR}+j8e}
zc6sajU%w;B-A}Kw&aFmB6wt!5ykK;i0}tv$H=eov%&Hk-qQNaU^4IgLR(ewf3lws2
z4(~gW`N(HZys6>?nwv5F=}y}ekMAR@T6{nPUWj<zWf8BbEZQ~cLS8dqx&=aB2ZQ=n
zKz%Fndmu!x)dCX`EYyy7K&Sv=L(MXpIC+!w+ND%s#JEFny=9I=1Pzh18=KmzFgf2L
zaSZws=_CowM<m9-RM?a)m;`Anys<LGVDsdG&xmIT{sxc^!m?hJ47f!LcY^~UAa0hq
z3UCKhgOEliQs#9jMuF2)EbCHCRVmhWDQ3Z<m67~8+I!5^B9pVWjISyOF|HfjtgQmN
zAr`Mq^!b`BKVR!>VrF!>R%r?l%mA^4C2vx}Bfx?c0J7X4%o`C#=5jiu+O#jVpd3FD
z(Q2qX(IT}+aMDpF*!OBVa_w4Zlkdq-bZ9v$&)ZH7grVO$aQXw(MG{Ho{s499-{22W
z7xCH50kFA77}KA8{sk{r!B>hsnN5t1PG?6`XQ7KAVLyq*GBKCB_c~FW;Uk95Q~>eC
z*kQ&rkWNhjtFhu;R7W>?46xBAzJ;S3_%IgO2++Px*=S=(-+-sM4v(;tDe=<C$v<Kz
zhf+_F3SBHq?o<I`uv$O}{aRV`msN9L6t5&Mk%przPPFU8RAs|@2Nff_EfGC|6fvDm
zWT4<opr492nE^AP;v9-3J=nU4#E=pK*O#m68G}kJbJJ!iiJ_RI3aD)$bZnj(G9x^u
zA~Po2rc+txMXE7Vm{^f&3aY~<IzF-&>A(eS@~neR?ZxJPxw)UPN$6o?WbxId*Y50I
zY1}vGxF2j?ytMSqJGqtMGjp!{J^dwDU7_KrJ3GN*Z*dfCoohDERlhL2xNq5X&)I)J
z)Ljhq%c1`H;}0n~B!`CPjz0|dl<LE!P^1{zDu=d07gG#umjl~N;kIIUw;bNh0z2gJ
zj#99lpn>|Iscc9aQwp>ZS_r#Uoy=MUkgHN#Yge&#SZ*CI1zS|OM8#RzvkT7wjx-R&
zuwlf}ElZb*TlUIZ_TIfzeD1XT-06F5XK2ik`|Vqo1I5@rIkxY^K=Hs?`M}wG?O&p#
z)`wdMG327FRd%&59VvG0mb-SZ84WR1de7DkwADLQE4>%#zqD;pkMs@vrcDyFNs>XY
zJHmASKZH*NMUm-hL*6h8d2UUGk&Xjq4VlKx^5jh#u`8>Us5Uw#H#pL$=8d;`?O>WE
zX=C;ATFzgkexe-K4b|Wk_0(#!7GkIx0qW9^kV>8FT0_0#2CxVQQe>^4&zME}0ZK{V
zBkvvZ7Rb9s-gS7OK|3kDzLfMQh|AI-**2<T=0l&`L1lg(hB;jJCny1a9%{jcg0s04
z?3z1PibRW%?Q&%MotBlzbMvPj^lU5kJT3P;eRuyyTUUC{09enRTHJ#b`<~~f2a9=m
z_M@g%BNyKCm@@!hyTKkp5D^-XLj%jRE1~^!?gzl49nZ-f&wc3r=<-U(S7ck;oO|Ii
zRbjhnTWVPe4bHjQ7T7I^cHeccgpQz)H?nx4;O!~cdQ?{5IHIapB$7?WJR2E*#_H?r
zJ>%<DIoY?6UAjsh0Rd^2Ji<A(Ir{HV3VDBnzw8I_h@-c0ecOqbhkDI9WOgv#9Zw8Z
z<H4=;YSUS8JH0xH<)-`qOkk(o6q0x@*8j-aXx^f;)CgCx)bysZ)D&`XV7&XT_boNZ
zb=|8}jOy~vO}~?$&o6%Iz1MEOR`AAT`?k;ANK-c`8-j$M$4od48Cg#XS+-)7hIQr+
zICEf{0#MI#Wz};g3mEDXu0Ttf97{miO+v!#7^>4<nOEW-AHo`{=HUe%rWuBJp$3FO
z2667-*+pwDj*VEWaSP+*EpK_^cBlg#6S~k_ZwY1!wd2Q4Fz_(NT?{k$H!ba~U0QI#
z#>&BzjZiVxY*$U)q;=6vWx?@#!0~&anDmN1(OkPG6&=ucF&4jQW+OKVKJ>nhVTF1S
zf;z=c`xJ6fF~#(VF@vh;s}ofCP?ktCjh~b33^WZNLlA$4+Q;xMm?M%%#EhPgkHG&S
z|F-dM)7$2^E$fU@tiK<Us3m0it{Gga&h4{SnfF~2;%kUVzH6B`)l%Yo`{fG9KM!Lb
zjlfHX=FPQM4PtdJx6<lG0H|#537F4J==@<N^&e7`);?`}a^K<Sp|GhS0y5;Os3%c#
z4YdSvX#0c9HLLY-T<yGwt$`KLiUC+bH3BlJHK0}<E6f`&^I6zq=Av5d-!)d0YpAov
z9L<^L%n;L9uy4$7*;xG+V3CTD3+n`J=p_->F#y699==y=Q?Lp4^M=|Z(B=^(^*vot
zWYsQ%*zH=~l_$`WL48AAv~`%PsJLp^B{&7wZMVh%prrmCa(lHpa7^oc)8ep4v74*P
zkwStw;0@o1;wP^BO<2B7zNv1=?95-CNhQf94@Qv`9mVMy%}%Dp=(*`!6h?<pRlz{k
zO_|AD#lmSIdiDb1n6*%JIxE8XX?;ah{`Jqb_j+`H^c%BOTMA}{(cFd6O!W27>15Pg
z1JRdLBD5J%SQliX$e7G#r^RS)GAbmqW7DiSDjF9@Vaz5Dz_g3u447J8#JO<GP(e33
zZK1iKgO=9DV_LdDG~Iv!#Jq9dFwf6}Ap_f0Ua=~BV^UGqdLVF%xEMybSo|^6BM}K>
z4XRwsRXE1QD7I%(qv><P=(96jI*HU#z`!#pSV*R_&my4a`YN$CK~x4@01yB+y3`V*
z|G}0|?dFJw9g$Gjsh<VLHLM>@eEKKUg+C^bVEx$`FZI#OY4Xm%i?vq39ZVRBR%?cV
z_6y@0LDq+=c*<Y2ykZpVh0!c<o+SO4YD~aWELbjSh$U$X6vrj9_Ec3=v@}&45?A#{
zVVsFXs&~big`TmD;1oObWa^4kEb7RlR?5`&1?HIy8cN@%tR_Nssv(^hhOVhA3Gp(_
z?Z}u)Vj!00A!bv#&mSSI&K&!0mCwikF~f9pJb)Q}{rTsguSRrrpZ|zY(I@*Jy#Koa
z%02K$ivF1Fj}`qpWdDviODWi)>3*t$V4hr|qO(VK_7t2$|ME=+>b3yZ>>&oNp{ZEk
zE7$ifUn&kBl?RW0Tz_<xv$;L12BW|CGYi)@bZfYTObvZ<L!TaaY&Q1QJ+>oX0r??H
zZ2|0ZmLg0A7cMnLi%q?9Q!gUD4<jmOYLUtKt_-ep)W(eT?B=qO-l~sl-TraQ!FxLn
z7GT}C=O8Q4CA+%*&R|BLAn9#^Wgk;L`R#ihvTYY3v(RGKy93Kzw|mzD-1aZ?C3j?T
zqTq@x4;Op)%f0)7Ubiy@*9Qa#z<Z<^8IU6bca9Wy9+h_<z1MII{j}e2gZ8QT)Is^F
zgCD-~(b;=#rx{v&*xJ1${Pg1c7YjQOztVb?pkA}eN&X}H%s5>)F#_yD$`=~}p5auE
zotJJQKgbHhFI07wNV{g7=T+Ca&acie?9Vu&GF{S>QnX-*1i@U7l%Y}C8(j*oczX-B
zUe@su6(0Q%S)_jqZyhwHg~@m$4%HAe{WfHCv*wH+Cjw$Nx{5X9tT{*Jm_yz&ozr6I
zsVR40Zt)VSm;`PXTvja(3bE9W4Gyt2xThu#_4!br4Js&{-H>3CdaB$$1H<N7>$N%)
zDX82Vs>CbuTeVZPoZEiw734N+pT;Wv3*?hT@))_hO`(569<f5wKZB<UcG#L==u@BG
ziuQ@&P{qth5K}^BX*?hUWmg4E{S`t`Mx>MUSqbf`h%{Vqc9kMAAW$8VhF2o{=1x6q
zYFjcDqdVm2j$bwHoI3#>GGJ@C<-O*c%}ZyC-Mi%OUC=#we(qTbA6+p2dfQ;B0jjFy
ziMv~|Q+n%U-<AdU&C9^7O~-g(t!USKS8iTeZn<k)X*&ST>fEWDPp!JS=3T(WzLtV5
z!q${xE#GojXArA1+FP+SZoqIv;D5r;8glwV!Y9!e4Te^Bg5kDqeXT8;S!2a2Tw_2X
zG2st!3;fs4aa{S+Sp?XKU*aVG8tk!ZEv;`~s2yKZ(`nXPzs%2Cr57Qlwi1^GQM^;@
zYaTY6Ii01|m?LO7EfYFRs^zWNxWn!oghMjqEg4fDiW^p|1q;}YC2Y}_BaiJjK^7w$
z92RVO24SCbHE+NMcpEc-nVfaZI%i$5?=fHE*&LWBbVjvO3DR}O5js|LEnpz%ZNNIn
zoHw%ic5af_ru7Gw^u%2-N2RopP%BsYYiBWo4C4J>Gia~OE1NCH=jSJ*$K_qx-1DGZ
znWMCUzhGRJ^0*8O{I$*}^qbOm{6l*F`F?Kl9rg9aV-;T$(PtAFL;Fa~49VB)m_;%_
zVun<g@S?|ERO8;Pjw>5nk>z>W{9CazQ*TzBjuI`}TE3mY__!k^&cKD3$xC8FfXX*H
z299Q?zHFw2LuVkFxs(`}#5WZ8y2~`o91K=kbiV<*c)CdgCBiq+j^ZN|Zh>7ZN{ir+
zvasXEwI*VI6ffQ9QH^+68I^gWH6vvy-8d=;(l~`|VA`^Dmr5cS8FQ-#<G-S$0GPY6
zi&_)e1g`T;0c0r7DcnYa9G~>nikn^fDR(0a1`eIlBh{fO4%P=|jINkjVd>vd0}d8e
z<DKPUv+}m=1z5-@ATXknM5Ej6sq*74YPEdrC_BT9n$$zOI{qyp<^K`hRqnS2YX?N@
zt+0v-HZSfhHgA`kw}04OXx_fkd~79fe9n2lqx&zq=iK)@x5=)yxkC&6C2!ZVN%r=Y
zd?EdOFW|Mcqu4qqw+<FtpOagk`_Qz~dbr>_yx@QbMlam8bV3ddE|~8}w=A2Nzjg2V
zFReshU2s3>9x8SZ%iY5(-FxmH__%xj^-~}2FT8SEK6nO4fWP&T1>T~#^tF4w9VK5&
z(bq2f+LyN7^Yx?szuEPo?0ag#vH0S0s8rtyJEi(<rG^NZEkOak^x~Z+s1g=T59)(A
z_Fvz>6ueg-TNdv2$^(ZfS5@r8=AC!W-rcv-e01RuN-yL~p(q(n9g;(_&vm&}AHCPL
z7gkxnZfIZXUT*ni!|wmChVI(#H5~Z0uW_}T8$QXeZi6M)#)g005P2Bfey8EiH&%iN
z7fk5H!ZV25w6S0NTC~x-!bKOcv5Ug5T%D_cQeC~Puklrf;4Q<*NUUL_==D2TDH5F*
z(m`5VCX!OAmVOp24cvX$D2Qd;2Av41AeIhDRWAD>h5j>nhsZk&uiD(=CPk8m+nikX
zzal`w*(NR+E)6{UTjyRg&U08(L|3gWXe0Tnodq3SOZ!sYPs8trZ@%=Yn(-3PoBNg<
ze-^nFS>+JC+x?5apZ7hcAP)X#p65&bPd#$hn_F~2Ey4sS!psuFN^dr<ZRpM+xpmK~
zon9Sf!w6>1wn}B0w3cil3ZY)v-uu{1aohHqTb7P3f9cMSyJlu0v*VE5e^~B1vdSUl
zqa7b*|7y=?6jZrz8t@qYbf+E0kBQBwmcOd(2VKKBZxBrH8sbI)8v1v6$VW|(KAOi(
zOyX*X#FbsTs3l{AZA49pEhI-S$Smzl;u@eU8#PONHi`Gb>Vip4afPFHNi}to)<q_d
zg~ZhliK|nn+oX<7N~<kn1ob2{#zhdf=z+YpW<RRrwNA)&HF<3#O8S_*){g@$sIV(U
zM<%6%Ox1ky6waQ1jSnQ<CGY3t{TuTBEj-9_U#BpMx0rBO`U!<}46RF7=nNy}677e_
zC4AcrwjYp1{yw%JwU|P>IaLdBfWf3I9Hcp7j$OGZBMV$N)X_w~>WX0AP?6MDjOtK}
zj%f16i8`&u%2SGfF$Ip<=xSPNR7qVkLsga-#+v5y##(aJys08xMxS+74Oc76BSfEd
zHn-|RL(Mic1`uWRF>ErPj*TN^vQ?eUg)GrLqL`Tg32Q@N2Z|M9eNz8Re~t=bbroro
z^cRSb{*pW<U^zx1Mhv4A`XxN2K9>~fezQ<zEx-`B^ef8KNZvAeo#fHyQG6+ON11pn
z^^&smPZ13bBtz(Wzf=)kMY3Z-CdLp{%XOHZv1&i)BD%jOQvL5y1OmDHHn(=OvGfGl
z&VxXNq%9B1(w6&;tvI}HpS&CRFu2lp9D<zyDZxqI262nC`(tN!sk!aFr*A%8Y#x%E
zhvp7_|K!8wSjiVq&vF*%kbNBx1KtmIE*)7uz7iZ>BWd8=p=&3hOK;zP$5PyWK;C{}
zCHewMMTpMB*!INyiK1&*b`673u)BY0>-)XLB6~1cCKkbSqpJl5D-s3`j~m!0RYCbb
zM-|nA5*9ntM(DYEx;IEq=w5f0m`)}ld1q#RrU*5mH?|yG@$M|xcCvvyQA|Q#nGvD^
z1U8rQFk>oxLlFwn2EnsIXsc;6u|ZZ}P0=dhKyc&m$|8dQO~dM9!@?O2$nUu6D7hLJ
zt`s_k@4A8R%L?cUY-h5Gb&%bp4eZ$`4UC&0YP`YWOO<0`Q~(9OD%dheCFEn<45t9w
zJ0wqrB$jQjEX^YJi^@KG=qC)Oaf4b-oN3)S()H=TqXCn=7cvnWtZs|`9@*am!}|RD
z`8!`*@gIaxRJVqe2s_js>l9L;{X=c4%ag3A#t3UkwImo%pXW2UhF_ufH2#_<6Z*v(
zoRY?o8C#j84FH9?vlo+eZJaLsi&@;*B?W>?T#6JTzE7J#hJrAG^s5HzCXnTtiENy;
zYVh&*G-t!83<SsD0i%5w;{I&kt$oGb6Cd}USUhp_nZnCw*UZK`$D9R|3NqpCki8vC
zyQ?IK(tn}O)NSB&mB5q=%Rsxq*6O&d!u);#r~3(wlh(uU#qO?9M)E$S5&b^|!0!Im
zWNIXX0(S@tf7NUZJ07_mt(JnRX*I;Xz#rm&%QcxDOEatVxVz(1daUl@&ATeB?yd@}
zOENBv)pb;{x(HXXy7X4X>eA~5R+pm4Frk{&rMQq8w!^^)vlccZj7rr^ize9~d2FR9
zkJ;R}2|J7wjU7f%rM@&FvE7O_kq{=waI4xoHi_T%z|RUyX0ijL=f>FlDi(kcx-Lt*
zUHTSz#N*)B4{jP|K~2(FSIj(I@sK*5?qaD1c<j27YDV77QfNaaQ|u=T21pw(jlw!S
zD-olnFjf3O`N}VeI@wB4e5@d}Y&j_jJ)S5?#Ih^hESjDBP_C#y5KvY`4OD&?LH)sk
zt|#PW;#H=u@ldtxPs+-EwS@g-0=uZCDtLOIRAM7fz*vPXPbk5DBBT7XCaP`ylj^Ss
zUPSg|Ch8rr9Z#rVRg00pg8haIJLyQ}s`4}enu7jX#np*cX~;lX#xb2srm_-~#*olO
zakGM15m&tMqc>8R;vCFI20vUPW~F9|Fsr2)xgw1))2%TroD`*3nLJ|pm_etiqhs6|
z+rUedu$w%hNziAi#N%1%Q@j#E&i)U0t45yZ9}RQ-Vg7$|U7v7)zvWz?a1EbuvH!*G
z_=Ma4-?+g~xC5VX&wRq|`OIMA4Uaf@pE@}H82<@(<P+}s&kRQ1@R<$Xr#6lsKrNpc
zEO_DIt<`n#{<(ASB<GWB9D-{n_%zQ47GAh<{QB`Vj>2oN8&B~3mIdj?mFrj5I0`?C
z8#qJoL1UoQ7%W9$%h>eDZVp)1j8=nT&3DScw=5WL*st3ka}<8;NAxO-UVGhii0Atj
Q&awL(kxw~#V{`ET0TdT<fdBvi

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ovis.cpython-312.pyc b/model_executor/models/__pycache__/ovis.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6099291b2eff824e2f6f040a961eedc69458d13e
GIT binary patch
literal 25979
zcmc(H3v^rOec#3VO%Mc00DOWJB@&`YN~GSRBuk<mv?NNlWT%1cArS8+1qvYP3s4pr
zXjO9D6KYLjDNT>4Ha(`(w5DsHmhRbR<t$s($2NC6+i(qKK=0^9J@MM(wd){Lu9Kd#
zX21V;aRCqn?YP^{uBZ>+`~CgD|MUCz4u_S)7uElA<mx$&`!NO7&z$$H{)Lv~?r=O8
z<aiCQjcS4#{OY3Gm@cS`>4SO=#p|Pnm@#OKnSv%3)<(@iGs|y@S%X#<XNa0(wxEsq
zjZu5d5p=|=f>kkR(8=OV(dw8h=!(?@YgpJEb;oLhwajmc*2U_B^~`ULdSc$7m-%f`
zU#ub6!2I@TW2`CI#QctEbF3xU!u(ay)|fx&kF^EcV(r29*rwnn7VnI9#5M;vGk<k-
zORO{48S4sm#R9<qi*rS{#=3*uv2DR^EL;=qiS-71V|~HC*!JLd7Uz!ci1i2inZGtV
z5Zf8t$^3QEU9sK4-OOJf-4ojz+#A~$+=sA-_eS@}4g?Rx27`mKgTaG{^92u$b9}>h
zHNnGtBj3a~^DW=e1)tzsc|YIA{73k9!8}o~E>7{6-y|Fz)AJoK>x0L%+)0k#{4&RH
zLEhS89@RH7ulkC=Z|W3(@Hi{oiPBxd-a_mN78^k9)(z_XX0a~SS15gomF`CAZ9-om
zc9_NXAhuWN7lwT(R!Do2rS&0gyU<&fc3R5`n<p03R*JvEX<=A+@~s_eEv$}y)G;7f
zD~(wg6b`;=P|ClVuO@hQRvXwk=RQAsaY`J$>_2xk68FcZcp=*RA!Qi}Xl3(oLJ-53
zqJnHX8=jtyOpYVca%6IHDiKZyylgrXp$yT0MmAm)CgW3LKqps?&%`bX(NKJ9ED;M|
zlXcT!<jjXq-hMQk7`=Q#2q$JlL9RY83JEbBnH2bAQ<GznanxmfHX4l;Le)pZabajC
z7Mndcorp|L#*w4?X<<4V8Kq8~LD8^?xSFSC!jp-}T$nNyN?VT%pS{|Dmd1rVt_zXz
zXk_}?NE~^TNWJVjGLxA4f)E+MoQR*93iE;}TgRf|L_(MhU7C~|B9oCs=qkDt5{2<d
z93vL^5SuC49t+Q25<=6WFc!In`rT)rIdgIN?75*MXF^XOKRJBi;?rNml+>J^i6$aw
zFB}~TC&ELK(S%%Aj5`q#qWRI6MxTBuERM&q1hF_x`*18gE?kJr320?abxIDM?4gM&
zCY=|jMuj-mM6RKPd=P6mJUKQcyAX~|CuknSqe4uWOrZPqg{dB%oSsR<kIqD*m<}4)
z@Fd0^6Zi<`Tv=*b2M6t%LPNB;O4^0d%R($H+w!5y;c4MR4K@|#qPEz><Jc!Wj~>P4
znhP`2(^Fz1UQCs(YTWtre`gwu(C`lh43YHT|LkXx_sEgRNs;rP;LKSDXC`Oj0>Ayx
zT+?7u6ykz-6)P2=7DglCXecpt1q-@8d1%ftm}Iquurrf~&?n=#5Q~NTWkWO?Mz;+w
zz9dZce`rF7BihFrE;4>z%gM%BwxwkqABm0PiYR<^un4HEejCmmF3C;MP|Lm~E|Isi
zZ|2Kg*Cz5{h~p;oWmyqSa*09<6UO!FZ|T&UCM@eylbWQK*Q>zc0v9lhT*P9Tt_Z?3
zI#25s6Jk^1Y-nssjD-{9N)@@o0fTJBo}*K1NDx$zt#g7n6%R!tR|MG`6~@D(v!T%`
z9JBG6shN1byljr+C}Mwv0y?o5m5F_DWJ6?<7p}!=pnkvq?@sh3V$*%ok?EcU+7J>w
z*Jk$Y+k0h?&=-wd>YJWTT%MZjqhr>`&Q?gcCXC`>ib^ovH-)X%J3T8~;)#&bNpU}_
z9>M?kF*rB4ti9%yvp3H!Y+6jrpH17h-8jBttIpUOC0k?GT(wf)n5o|>)$e?4(AkZj
z7&(*kE0^cvw~j9iq>ZgPlg{8@MK#<gIqIj*?rIck`ZcVszyTfLf?5k_;dm#n6?D8#
z(DRx(>=s@x7{-kA+?a+pyzB@XH_F2s1=B>e+C=ep%*>l!HUuq#6*+7Z-eQXC8`JXU
zm-Ph@ZqMgzP}7UQ$Z09b>ENxXv8kA@`dCX9;&H{=aK$=#`{yp_K)LFFK)EWEbIo(t
zG{G9|*=pGdFg+8FUZisiuqTelMr=J?5wiV70`;^JDP&Z@?`Y{cB4my>-s-Pm-F{Vb
zhfAmf=5892+&6G$)mhYVI4@kNaNcl!>ExGvbf%KJUkB><8(N%Wsv9556<SSdCKz(5
zq^NGfQSeo%zBlvmVGjAP>l1~YFj1rCDE>~=75%C&;Zc2Pv%)T!sIVW9v%)IRVIDpu
zMbBe*zomaOKgQ4KX{*|+;%`!~j#Y(Mn6bimX9+URS$Z#pN3UF(niSs9iHA^DJWS3L
za8BSx(O-&$<FXA{!i<Rf7=eIGHpFM9aZQ^;A$B>3SUI^$38~e|=7P_9b!s$xDHNyM
zQx_E`ai5(%a`Jd+cw}h!*pZ9po(>HUT@ZJoNm)BNiJM1waRyf+t_{&ikxsQHb<f!@
zM|d9B39Hee1`=X~7i7zs@GN#KK&!03EQI-hQP#(W=vdj{WHTj(0FY%%C^Q-k$K#<;
zoPa%`rQd%;+y}3C0?wSb>?HK6<Ng9t<NpfIPi}CJ?VP3Rrb#k;ADA1m^-c5ouiLWT
zri`~+@^)w4zN~LEVsHJz!WUES&YX$!ZCmB^J}a_0a(1q^A>;0l+#TPGKj=P`?mR5H
z56_!dYJGQ3-9DA6?UZUeSL{vM>iSIe7O8qmrn+CM?$6eEGc{YJnk|oX8dvATLdc+X
zb>@tm%a^Td$Tqb-c9<MhkE=OH%`2yFp32x;Bzw!kwY0r!)oraq``@sL2QUQLsI2jt
zb4=60&hdSCaJOnE@LT>(6wYoj<+?rzsC=ahQ|L?NQD3&#i&+Xj+?F`oxKs1{`~ruv
zdREq(D8PcsZ4*>@%b>!83tU3IF*x3s)c-p78(Q@Qd{q-LjmU;@BzCp`L_lBM4YEtb
zc8iF>Bd2h;O=9D)-7mZ23|kH1;sd&>pq%1SbbBuF%p^_#Axr}AM>4>qpW!zIClxF{
zl$f0s_WJ_{k#0!Ys$8lRDY_6L608BH9gfZj$3+pCyFt7_@oP_@_#EQmG=FSUDtq!I
zf^#kF_9Q!s>Om2y+%-5iIP9+arc7P8RM(xU+bz}Yp0{Rgbqk*NZ2k}2%~?-##?vEt
zda})dY<nkyk1dAUsvKu<RH0;*H`TcPJ;(MHcgLEX$Y#=0Ha+&1m2>)1jYIc?_s^t!
zPo=A#PMM!(dup^46Qk8-d+B+2a3d7b0P!pApozk+LH7Ko-WlqeR>I9LaBpZv0(x0L
zDO^j4Pot!4oeqoPm;ekZE*p4SgEus6w&T<XzcQ;~c<1WMXO-o?iKMt6&JFGZr~B5>
zo#ETVnc6O?wkut`HSO%qICn_S9VzpU|Br(f{}K9!Z5_f78@2c)_+%q5T#bwh;w1!1
zN6RBTSHEtwEb})guOH5a!|j)x{V8*Q9&SXZ#v_S%Wt{v=m|=#Kqq_31(yHfShO-oA
z@Y*82eO;T>0zPm*FC5Clk&aS0vO#H;0aemX-td-Dg)N`EWfOy7&V)^^5H!fTkreS0
z-n>D-Dx8fnxMmp<3HAB#XZWzQ8TRkUvjG%T{UUC1T_QY#8!;^M3~`@3Gdy`U9F6e)
zFM;4-;Oa};{K7SmYXsHu3<Lj^=wDM4MHDE2ZT?F$3IF(1!XGdxIDkt9gQ2mR$x&hj
zu&#+TxgsqZYg;4`0AhtfJOO^$$jZf4YK0w1*{oK!{svZ4ZliGg4LBe_Y|d8>+&qx6
zbxF3arQ!E%yH@I&7M@+Ic~G}){zR^ptFE7S<lJ0U%`4B{d@keIDmk_;O}*zhxKg)i
z@x-$J9oyTscbsoK@AD7pPNP7zQoy;kz?JtL`&Q~&7OpP!Kd9?PHapAq*uuG+b6Sln
zkPY<wUgH~$nZOAta3a-pGKb4~ShK3rxdAP8jw<EQ*ry}cz@)(f%m{0b4qadjOnwvY
z#^kID0<kSCgHJu`Df`4KT(um}{gM`(QgWGpOh+8C4eO~u{^F1haojD9IFr;)R5&)z
zqvzLk*Y(#8C7WN*Yv+)+&~IbX$m=L3$*%gi=}8c9DuDkg(EW)5>Rud1QkO)zq(Ma$
zK2NVvuJTM(7~ve^h&=dwC9azigs!p=Gi{)MNfZ4aGxA2hwAaR@X%6GNZv2#S{`|cK
zi1_(?`nl%e^VMv4Ge4IEEGG!hDf=)Z8r}r5#>`vR<aL*2M36TX_6pTjaX0YR&oS<w
ze?EbFBn?EItp)x8+laUsJsVd#`|$9G1e@n}UA!zP=$}8%2$xa84<ctgaoHcgJT(*L
z{g(uP*bmHa46xN72lXrpy&{#B%^;%V2~g7?(wYB|4(*3%mlLUtfK@z2e!>amDqftL
z2AvXDIBDW}iZsNDw<qf&lL^@bmK%jcf*`U9p4dzRtm8Z{HDFf2?G&Y&#}xi=T-Hp=
znlrM7myPik#Y8A7Yp0`eI@1i{grk6BqcAxNChmHaL5Y7A1>(PhyB=WJ?YVRC_QA!b
zw7YlSTmZ_O-?MGbdRo7$S={kj|94+pG)tbq{3$?Bd$j_!J0x4j;)`ip*TedjJCnC3
zZ=Re#GXLVOwv{^Xf@|T}-TGg7ZvF)5sD&N3_bqC^btuPa9aY)tldC%X-Z}(=$Lr5{
zIweo%l4fc5^6q;((w>9!ryf?<-m%@bWvT;Gbzte)W&WKjZ(qsmJ}2R?=bTi1K3kgM
zkwIItb^hpMRMxn#cQL%=S~{{MF7H^rl-j)S-v0Y9rai;+r@-jCb?N3AbjQ=GG?}e-
zfjC>}c(wa(ccx)L!e8~knwmc|*|q90d8;rbHKhaDu@qi*EgxA%!}~B8wY?=x+OxGJ
zjP`H!-%8y1^6f8YJliGD_T`=L9C-UcX5fs3KhK$WUz9xOF;lDoGgs}McPh9lZ9?@U
zQj2!s>IZOs&YOqwmwm|s$#q?a(@DFz>`UqjCtIH=K;KF?NhOv}MMwZ*vj}^Oj1sjS
zu;Xy&6-i7YPr>BU&+UDVi9?95zs;|(_~{J2;O{x)FHO2gT(E8aXNiwNnO|VXS0plv
zm?T8q$p&_t2Q1=O5v$<fljI}5hIj@J<QjRT2#gInrQ(z1oQ9*4e{?#<Bsl^(F*s%9
z9}e`C2+;&T=P5_u^9k=#p(}81a1U`958OVmkW9O`;V`=D?)Yx|7WSrH9rH#CHQ#Pt
zxSDotnKwQ*b2Xkj-rL@ct3z^iWL#a6s|y=F>!|v+?m=y5y1FZ64`f}9*&27w!qo&;
zIYW(g-k8UK*lr4FM`SMGCce-l=&evlwuXpoo{5s*9tr{SMU@oMPQ$B)BkSS`k?~oS
zIWnGQ1w^89W%D$Eo**V>l}RKTP2|a;y(+TVWt06i%IwIqaYlt`G!z0N{0w3l(es2t
z;vJ+y<UC6WT7avcyv*gy+`yh}z4wvDXRto3_U8=v1vK#lmcXs<%b6%>=3KQOQ-<82
zn!C<$LBq0>r!+qcQ-Pd?d99q){)+FWZ`H<vy_~TMh@zqY)(jojk2rW&b!sFkQj!N2
z46oYn+9`RUkUWqx+70y!Gp{D^CUYFT%Z7LCZ`)VNn``Pcco%oQKKR;Tj)Qmk_&aCb
zKC?>R+|!yWL;d3M*U!9mCda|M{LDMgzy16t<Yf!TCS??pQuycwpl|h`!zr@ep8*3l
zNDOx^;f#WT*A3F|1`Kt`Pc6J2cfJvKxgHtujj1KgpIOpUJiYnWtobrvrc(^7-?lE7
zopQ}O0#$M?$;a5KK2JhVMXDAyV&ScHy$wYmcq86Ud_N0QT#x_K<n(?&g9?6PFZ#Fo
zCrP3z`lrVHOl}ol6E#gW3-OW)F7NlBV&Y6HA%r2^WqC?+ytLo{g$NJ)V51DI0NANK
z30bGacv*+Kiap9V@9*~S2$ZyNX|k+Hv4k=PmREML00ePt46>ehBeD)NAjUC=vgWd^
zc}cbq1`*;RIhCu+J0@2bI;r3#aajwYtt($+2!}Vs+87Dg#ha*8{3qo6GSzMhh4`t_
zP)MXJKz4>gVMVe{3xZgN1~J&l4tob>(nlcx7KyL*2B+-YeejFlQk_48Cq4$}m$*k-
zlfjJ3)K+t=PqMbB_3c@wccJdprn^nAeR+A;y|#N7?r%zWo=EvlNY0aK{mE>7>!RUx
z`)l?$uB7&#N%x*j`OixABWe9e*5hBST^xPQ_r~da`t-JgskVcX=g<TFA*Bn{`kKR&
z-|F1z(?}_mS~1y_=4EqG2gwz<`+|N<&*Jni+k*xHB*M!Dxk%82u(2d;X0jOzt}T-)
zn<+?e*D%^>;)o7er72^=7i@UtyNMh58|YqA6XBBD?`giN(Qvbz!aLH6$B{`q0S9~}
zBF$wzxCe3Bc!f#A6>v&p!!fDA9xrsJz#jiA<c*U6<tI0|6|;je#}_(M=D^~Xv^l^g
zPj=vh;#SCS9+4pP8cq`J4Th9JFNY1LG9S1^UaQVN3aVd8D%Dr^m87a*uOvrFDhR^z
zuOyXjw6br^aFr9CiGt+mCW!TKw9)jxnO_octP3bqCHWJ{#ww}SsPdc(`Ngw|VYID?
zQ1qY%_LBHFv12#;8GvXVq1`)iex@eJm33xUrV--j*i2M5zQh2Q%98nQs*By8)VacH
zQxO&GD6V!M>-ZZa#)<og#m?Hi8C#2FYgw_oUU~B7lk{`?=IQl6NXyxbo2-vGquu(r
zimUbA-gEo#;=#0gN6Nlq#aa7G@@8`3?9$HPJMhMVv~y3&yoYU@HT#{Wl5LS*cs>ua
zQJp-k_`4{nAQqS4+lWzG9J9hz{VC<GfdfR#>3-$QH@}>5wn@&ml)3HyT`$=>m-mt)
zRpxa`FA1FguL_;?OHO~v>}Q<>k+~KwGYFs{ShV2cH_742VNJh6zFTlgF{|%VBsu?`
z5{|(EX7w0Y&eojKV%WR*Y>vavvhid3$<+hLd4$CF0%Ft7@E(e5V{ueenL}3VC@L&`
z1m5Ud{RKEh)P&avIzsay#U{vVfL{+km`s8Regphw_$`77Xp52b1r$^SX(psuk!FJ*
z^8KKF))=tJH6_Y5d9@w!x6tI8y+`20MxFU8>x}kuu%;6QKs82(933kE-pofJm8gZX
zPfg`D-_a&D1j}(XXi0C(sov_m0#;?05)l{1Nz*6<<^)ttbfbxDay2wTLYK#&LY3E6
z65G*??561QTI!0Cr8Q|4z5-26Tni`9G7#T^e{R$IN$f3eQilT^r@IG$!`U^Tc;(v7
zYZ+&k<m_6p`*J!%we?|>Khv~RYTB7@+MR7_&$R57TK1+}_CGQq5y-i-?vaIjoWWvc
zn_9U?P;cR*UBiF`bUHUAZq+HRB$>Fb!Oc@xvO>LFB^eahUzPJ#xL-gdSJYg9W<r7G
zHBnV;PxX=Ha}HZiy-BVcl7^(77?+9+CGG%2Rhu+GXF|s$p{2}K%89k&^~8YX4aDli
z<}r>is&=kM!Sco-PN%&>jI6m$e&{Dc@zBplaAQZHl<2=S>t7>z_lqy0bBse4Fw2ho
zGUv5KJf-(MiAnRK{JeNHzd?~e(mG(HOth~sx%9ZCF3b8+ArcK3mCg18YUp2*L(+F8
zn}TzON_t(C=I3R6-$&-Tt_`;2x-(*<efb)SU|+Ux$+Yj3+IObgcW2s1r1p`Nxiwq2
zEmJor)eUCqPD*trAy!=%;qA+K4@%yH^Ny7!|Et4yhZiT7_e)z2rkf6>%)YGCzj#n`
zZeKp~o^uz30~Twx%AacMPx%LOoMvZpwt4HqImizjJrEyQtSMx&a<2Bp7a;s!eo=Dn
zy$8ADV9GqW{<fj5&bIpvcsAnY6t+9%Ec?{7jkY~h=nAM*CFoS-0;#vGLHrkJLw3@>
zNI*8LZU7Q-s|q3Kj|_z_o;!VfBy{%3d0B_7d6Y!10+1>xB|BN5C{>Ts7=V~6l>R*g
z=C*w5LPPmbfsRn@=Hk0h0L$!a&iJ||Uw7Kqlkpvtd<WCM!}C?yhAxGvH}70=wr8AM
zB<GgJUo1gKM%LU31O(aK6TS#dcF0;H3Ty@%MrxGeA`;3)va*LJrl3|3ip8Mz7lUAR
zZtDi)sF1gr#zKfF#!~HBsGa}Cl(}X7?kE65Iz9g<yW@F`^}2>hVW`fsPu)Y6Kx8Fu
z-*sJyyokUX>V#?^T%f@vp`s!ufR=9LL%JMs?HOJonp!qqR&ZG(yMdq&UAW4KoM)R*
zWblJH=wc(4RmdIjKT^bhfFo-!$KwR+v7wY5CAY1uCiGGyaT&ZVh(c9X`rOV9)~N{F
zDwOimiV@X=6(en-9?9F2Ca`fx@*YZipSbCmH{LR29j=U{RdTeZ9c>xMKFP5!<2Wff
zPR?t=s;>4e%q)s`=a!D#{m08=_r$la+&}X6)C1><l=*~$;yKDtJlQyPX#%ncHbab@
z76~+pUnhsoj!1(S{~b9rL83&?A~^@h*+<Urs}3>J;%5;8GfitWSeNQoIsD|RZH9x3
z@l_5#xdt7uzzeG!esWfgp>@f#>|P$dH}v+za;p?LvI;g=YtCpeoYXAud(6?V(h@Z?
zivNXAMTAzLN7P#EPayqI#$F=o8XA;3;BwFcg|Nv0oDcY6Ne&|m0W<WW9^8XKzfj7o
z>VVGbfdSUjf-=?jHTu}H1!r?~YGyJKUr(>n#IeJ_m-P>KJ7%Z+14t;<MJ9m3zND5m
zJKNOapCX1`#{sSQui=+%iq0GZk1C<|LrSoMx1%6yW%6^j^?6d=XP|R#bLH_cgshki
z#wc9885Ltk*0tPu;r0uQdzOx*A?&uUI2#s%lCv{q?qtg|0>c8~MZyuF;1ml@DFy;-
zG{^|8W%EHt4xmQ+ne(9sx?7kL6v}^<1PLmDVPMDrVX97aC3TfsQ1PTmfaB{Xegl*n
zI2828lBS}lAfmZ$PMWbM`jL_~(K9%qK#VMUC|jnk3L@zr#sN*(dVvfFX-p?ac7+If
zC{xU!K^#&7ru-lyS)^4I{|h;+D!Zbf4PZgw%#jZ%P))_{3$4i}Og!=C;&d_yUa?P+
z+PR9&=5s07&-y)GvIp`xduSU>qE1DFtaZ&sc(`Tj>yg(YnJrIATb@d9xgeQ0&D(Fq
z{(RTrg{`ml-tArTJZRW)|Khw8be*I2)<s4AEL-26^>kz#H)k6HkRjAV1JY1mmD8Er
z)_D`@TX^Ob^$3L_wT>`lK#9SqYcyGZMh;=dqL-Wx$XO((2%{cQken_W&1HB9MrjRQ
zOQvPr@`Yuy)U^+SL_^oT(N+3ECk`IbJhIdpJP*OZH{cf|sBK&rSkx`-g??tvL{VlA
znkC0lZ97s;JEYqF<%?47z8n<-er9cYY=ckf1U0<|d=W}O-zqJ9DQi#xPYf7Asa?>M
zFAu^DP;3Wl5QM7{07?N^;JBBBOlv|~!7^rLY(+EJidNpD)<^2{g_^AZjyB!~4!yms
zG}Ua+6URoL)X5!ul~7fd&nYnVd!d^3)XY~SUr~MBC3^_i6wOHrRx02a6Ao0u++Ghv
z0R$DG@jZAp<meDsDf?7_!1NDjyOe#EFcBiahPYSsquOz>9$$b=DzCf>AQabp-2$Bx
z{T%9n{tDdN+OOB>k?%U>hoiXp$oCSkkZ=`tm{mP~Cn8a38!F-ge}O|D_cLps%Tr|4
z6ZeNFc|WKlz>S1I0fQar5Fji<j6XdE&i~|ip*lr53KgwWHtj9sIRV8i;aWI09fc(G
zxt@XTJGS}ZZf9<PiGQHPzq7=@>xDvHd9?*aA=v+1QG2@wm6n81ZEtVyny8XmA`i$m
z2)2xbVEtFjT?y_rjG!v>{7d*{3-J3qsaSP2A%u#p$eL^ABG9(-Ed)%S)O3rC<hgwt
zY`@;mEP9+k#Z%}L0ADRv=To#jyQSLhbZyVPCF^U?`1VV_{TbhJ$#;Cd>d*U+rk&@c
z{-aAz-4DOp@yC~MRV})t>h{G8Bs1+lDml-k%;$dkp7UJXhFbrb^@v0Nha9<NIzd)o
z;*Z%30PrfDcG-#r&-+K|ET|t*T<kLaee{ty`$=v5IIc@Iz2tY|(@qCi1(mMTG9xKt
zQE9TMR-H7ClN=rG)5q(fe4W3n!OB*l8+X$IMmGS1Vz!agLya<j8n2r+=r2hu%D%#B
zHbaZbL~sV@)RI4^&=|UINt!EZ86^vnL!8z+J$K!ToK}>zm6WxiAE=}JOBUpb`Lg!w
zwnUwptCB@*(yq=1ddZ}kNmBtfSYA@0gbh%_GI9deUo~OA%q)&<`79B#`3psONYJLq
z8qfv<NSF^Y%}gAi|A9WRjUxUH`Ti#y*+9&WxcF=EL%c>uOkumI+L5B7ia^^=)<c$<
zV61<+CNvs`h<pv(kGOSm1JgzlXGT@#UlDYPe~k=^e8H%6EKsGOFqJxHDf9sB9Ja^V
zz+8DYBg_J)W)fuLDBDYWA?s;Cq5=>KZL{$y;t0C!RT#^DZz#0LPY|!r$rWy#-u1)1
zNN4<KDD;yX+@mTW9uK`uuUhU}GTuJP+n4t4m>*{6JRtc3OIz+glkx@9zSHwhuDDyj
zr(d=%B_H?)-|cwdK9{ne`=F`q?nw!ZN!WPQHbRP+^|S%IY2E|urr8QMPp*pdHr<)M
zJ)80DkUUUJ8kn~OtMF}I>U_`JziQAmS^wPIe@ma!aSmU`J|Ni#mWO_5-<S3F=M0?1
z2hLEF^^u)x=~ePJ_uR5jURTE6FWLK-_x;d*Fx%Wy%nMzP9lJ>}Aa(F;dOKKEzEs0D
z$=m~e6S)3A{m6~_e)^FaF5?ya;X&^)r~Z!`y~k?xvLnA-%9XQ56h~*CK_3D`fIZ-8
zFhq?ZU7%7JLaU*fC5WIB&aEMsE=OnA?6$nLFElk7ot@jW5v2Z%f@DAtCx`<$4V9+m
zl(~r^UF<4hhbb=Cm+mfNsVD$;v=lfNC=?QEl-ebfNaiY_5`001_kTNI(Y~!n34-98
zLifav$zkVRCw@YHf{L=~5)<I_Dp`m(5;)O7^Fss0K~czoI!1<I7RJcpIiA07=Xy3=
z03sjOWv6Nh!-mO|m8-5@@%3hWyCvW5<(I%LTdC>H)bvR;eaohF&EA#f{!H_Jsd@js
zJ?Z9Suoxj8y*|&Qm(8de2JEr8>;N<<S)J0^E}()Z(B#*+ujz=PmVjUR#<cS~pt>aY
zv4dk?SXW+G6tCd=DOlr<6C=(rBAcmUz@%$yICoT>?u6BOIKQgB!`*~l8O?B#BbRug
zisnnD8~3{Qrs4AvuE0HYl_Wo<+*5G46vC6%o(x-v+Eef;2DF>Xfp#g935K~H3nrUs
zhH1<qK|S&B$+6Ndp+j5XliyIlsa#77FBWanLsLMm=7v9YpXA}j%rv?u#Cr#$P?d|u
z4>7{BysBTOJ#-u`1N?#_T>Jv;kCrY=o;}d5bT=-X1fi922PAi3e&}Ii>#O_j?#ndp
zk{WlV8~4ng$+}xJ?m@{tc<*A`eKci1s*qa5FM%z&87yH~H6&(XQo!t-$#$`5WUo`W
zU9B|!43)^6U0G-@=)@?q;-U`H*87s*|E2utakJC2c9?VBpJPsbi7M?yr9UN-+F&`R
zd28TrA+kEAA?v)Btk1vVY0oxo$2o!RmCi_q#h5=V0e2Y-Pkfbz!02FhGc&T74vzR9
zIdtWVbSsKF8Winb(M-N3@->jd=Ae$^DvEUfg7T0vMBOHcLdtSlhvB^DVMEJ8{B9s;
zpa5<%Yt{TH^xI4<*wSKXdsywx8Ssm=8sCC@VQisMa&69;D9Wsm)5e7Z66_!?6lG=P
z^kV(OX_!>yY!qeZto0u|$oGUsZ)kq#X<RsVdp2i)zobD5*)34pbGPOU_(f7%*OG4O
z*(ICg-<dN}l$o=-Zn;zS-6>bMWZAZAp~!kS3e{}R8Sq<Ph@#A#w<l*I9|-!YR8^~F
z@qc1NSlMedEx7O)!e!61b=Zpyqev)xgsjlFdLNUwmeyBv=tzGKls(v%ynzX%N#Um;
zrV9e+<;~yGfPOc_eB6*%6|%it6(pM7igLDmIX$D&?V!?ah;@K(-~=^J6g%ajFj41D
zW)R=VyM*eAcBN~jE?=`jyj!SI+Tm+A$iaG_Z>?h8LJb?Aov(v|y_>J!pdS4O@yhJz
zc@IWW%X@`7p<Xal&a3b(Xuo6R9>G99jNgZnUc^*S^p}oV@lWhrABQWY0c9GQ(p3{K
zjV4)7XZ@mx$AX|47hznBku{hET_5y+br23ANT1G$6g9IY?@;gsq6(I(Dz7nsist<1
zfF|X62`Y3WX>39M1KEcaMg(}igQOC9<0{DaqjA<*(MKnkI#$30n0&wFo(Ms!Zq7^N
zWAM5x<u|E3feYxl*xZU{&%#R&Y@Jzm(+98+^&Lo86~vGt-JJoA_ym4r8+*4!q3c=9
zD5_!~p@;>{YXqUPR{~(HQ~pZ8&n<l?i8|!k<saBOP=5;*2<oDI9r-JepSYS`<#j;b
zo{v(AzC?kDgvpOaC5DS4DzsQ2i%VV(&{cXl0Gwwn$?NgPK>=eyd57AI1hM7W2jaC*
zs~U&5Oo$O$_D!^uMIg9AY5)41>UhwL!dz@nx{zM1MV+gOj$)kZgK^jv)t_X?6m8TN
zVz`NJ)nEKA)VHk|r}|L3UiGt=4e-)HGzKV*N4b>e4CY+Dr92`M1~PN*fJf1YJAvYO
zQi$FvQf1R0B1(A=;Sl+V4<J`D(O-dGCH^s`P}8EHS~^I+A5g~Xb*+7u(uT=7M;UZr
zbTJEWxn7a&6vf}eLrel*qj0MVvT9(gat$G8(eUK>46#vJcjeYt_=*q`z)PA1V->aL
zp9+H9hj<8am}fHTtS}cPcIN+<`tuB&IGsm;2z+_6nr38<Ju+0#>HHmn1&<LA)J@gt
zqz4aNO&M1}as@K30m(H0>jF=E#?vQx`sVEqyL#y{gcWyB*1IX=?U%g$%eylJ!_vTT
zdf;^0dj?eXqH)OpgCV>PQ%g@Gm_b^!Z3ji2aqp1aJJh!mQq8?7cOUShHe`BWZpNDn
zwVSfAAcAsX#@;8{`!e?Zl70WZp+7kN{nMGj3)0{PSiLA!;!+1L$qaOMNe#Qw4SO;T
zN2P|N5bC$@z1J$W4^y3xLNdyFlVsnNwr|eZk4yIBptdcJADXu*xBqWp^aVHuKc1q=
zD}iM(IUB=$o>NZ~(+@)4@()HT#XP#C_6Ep<8=6_L`M$E8)P3c5i}X!WTcmF)F|`u~
z_%~LNG{!we@jB?E0#qpy8*A-~OIj<Trv5>#mFO~U*jfPs^M*tLmH?(2-!iH5meiIo
z>XC;S^_8?{c{5%6VBonGR((l*y3+dIvZ!oHFfZwFvyZo`u>Gr=5*9y<|E7@6sPDP0
z!?1?~s~+}zq-05o{LG@)uUPc<`cFbtic<Fb=X%%YE%3JToRHG|;;*0;dN7Kf+kyJO
zA_Ufp-=@YF$oWp88~%%zfe1wL23v`#;mo8+RtNNOTyMaJ2jHfrWh->Hn4uxw0w8Qh
z(eGq5#Pbwnm4AzTwdA}6N3J>&#~WT`!@cH(3flg~nGpX9!E*k5D=Z4cxB!KIo=lu0
zL=xuJ2^nK%u7jZ(pONd|5U3$a732~O@>=f9-JV<QUG7MOPPAtm+g{y&cYkWj-g_PC
z#=|MI_o2;`vbCl<cBVQ8VT8znn^IkSQ(Z$V?&gK)ThIL7^KU%=gPo~uPdsoRS*iDD
z>!0|O+WXP;kqfCOE~aXq0i^KMKpN<(0RyeJCDqdVPwU=kdb{ZdiPZL?2kzr20>hoU
zww1Qci_vu3Knf&=PE)rV%2`xShjLb~wkuoLvC`17`24+&2Mve+Y|pWD`_S9T<+jBg
zukU$n&(e<H+`pWZ+J{!!x>MT*?_Ye-_GIzF4QN0+n^Vn)(^XHT%uoFEBMZ0bxQ0>Z
zf7D-ptkW*rROtnHr)zj~gbXm$a}lT%fgpu%L4Zc#Sdf&9S1i5t#iuulM;yws9PIK4
zEyJfC04Nn!d?2k75P<l-vbCSKqJEfBZA1NKk^!62eyN)*+5yuO36*jbo;d=a-%`;&
z&`@Z_3YkFx^cCAl>eyos`SD-3jdR!SMT^3u6>@=m+7R~w4hmB_a9poKK4%Gdsj3K$
z7<!}j0Obb&x~h}TPk&sh5;B)`B&(Cvyon@{4P3G+$)vC2P;Z8WrEKjq+}C&Mxyr31
z9lw~bg-1PV&+rtN{U6XL=LW5RThApL)fp~INkB`PN6G-%n(LItK}hwg9}f01DYOm&
z=3p;E8w_#u0Ei-uRT!k35vS;$F2V=egTW-aU-PUR^B^7;yu^nODg2sVRo%H1CKWkW
zYUaNt_(QCc8{FcK#TUQ3YoTo+e0OuIVE{(CZEpzhC<p;{SiDRQ^#pPef~&GF7M>P2
zp$?`uFKc1P)qxOfw()jmLe|Yire%W&JWf!+tr2{3VUky5EII&wJOVfaX>P!!;BI|X
zxPTBcgRKx*W)-gk*<HL>3Wis*s!qb5vJroqx~3Z42=oGEywrv(AA?6X^QLD&Dk)FV
zkV{rIdDkVlfbZh6P)e|OB}I<<Y*g@Ixp7^3u~vmfrE8zzpQVn%yRNOYW^=y$J)&r@
zmoDcAXgNL(hg}{mfu%;Nc~=UEYEx&b>wwe*dexV0+>+|tCpGTJ?eRfN`-<HOtL@aT
z6KOkHmA686(@314ri^Es<k^<-^h=(8+&rq9UaI$rOz$zN_t<?{i#?V0K0WV1+N<Wf
z=EY{H@Xb4jce(fOUR+7(MzrnCZr+vId_dZKAT@X{z4?5~-2Sk=FVntDYTuRGee&I>
zQti9a?GP5XW}8~jy_L3(tbI$W>+s*|wCz^O-aJ2i>nd)-?w*vrbEU3fVfU+pcL$d=
zcMt#Py6#(=Y<0KtE*L!<h8Kz!W?{Yl)UxZ1XHu;L%g^3B^7a=~Er;(v^`Q3T$2wec
zKx*r^VSJ9RjJ;Q~_b$!ebKQID`*rs`slFo*>_@Zq=8U~VvUhy%nb*Jg+80xOPo~a4
z^<eYUKeS)SxzVA=^;~sbs%}fVs1LU07#pyd1guvt!np%uO#pBB%0He=(U|!HDQ(<<
z5(azUhc2_SuZTGk+Z;z<J0dP34`{qzEVM|1dsUT_At~&{R4G@cs-;<`)>+MVaR@e0
zi3sDZ%+;|iRUU1?8ISKpV_;a<@4v-o>i0|ZH+1h=IP<owtv+RI$-3+2haZv>alhp2
zUp~OJhacifH#aMg;v>``Tky_UggvDz*H$9dV3o<3iTR_qP6L2VD)j}hQTG*)3_yc7
zc=VKv1R(y<sAw+kXd|0A%oFuR9HxnTlAP0UU^DHfNz7A=6>=~O7`gc39`X81=tc$J
zieE$3b9Oe7dF!yM;`~9!%I;6uy0cCG`Lo!6zGgZyBsaxh+pcT_xWb&T4boG*jz@3f
z6-9gE2zs{$@1bqN@SZ_sJ}PdpO1cn56Fk~>s*bvrjbE-Bg<1w4&j=|`Td86-YMt5T
zuVJQ%=Mg>UW}{tOZW9e!(WJyUYw8vAdNQnEYEHZMfJk=M%{$o6kWGpO-rBc-3ZvW4
zMpwk!l7%~)djIL;D~^pWRoNcJ8_S`5YwF0J!VqL5r9d%>S_J@BB<mMwa4t5u(t=xy
zLtBAG!p^j-iw!5^Y?qwvi+k`YTFTtbhPDPMpf+W_=w79}y%I=J<;rJ~yIf6P?4%Ac
z<ub;qT+0aQrEbyrz%hkI9t?@{4_yFOj0Bp?WGHf7Ou$pPp-Xs)mn5R90+Nlr28jpb
zE>H1_PV_ZYDUx!%NT{Pod=W*?@-6Z)=(B}<1cJm<<P?dlHcFrq!8VFWvn%dL7Cd}_
zr?+W-*~16oHz<KdS6LoIW(p!XzmEU$FdUM{*tzDml-~EyP@U824F{KCID(&L<>%hO
z{o3#E|A=B%@xp+MWkHdnnjy_cT!X>7IG3ZJdjlWSPi}9M;fN;dZOQ4#^U%_~sFy4q
zs|E_?23rkX*~Y${4!=lRHQ+aQRAVx<EY;^Y{G@iCTBYAy12_1DCfl>)5d<d958d87
zgSQ7s(n69OTul@*QOL}-_Ad{?l8YoQ&5*Qso9`rVCl`6ivo%L$(N(uE=OAAdXLY{P
zbh9ai=QJ(dt4@mBYB1D4^fXbKoB@7RuVh+4x0_Z?6jh})Y+F3F^vv?WJ;NW^zi&?s
z3`sr5rH&J%^||fcfp_D7x|cLRaS>|pe8Tb9PrY{P^>eSC`veN<UIk{;oCik4-=O9B
z130pCbSfGJ<xh6%z2Qrv%983S$q14kihGLfx{*rIKA?xp@S1b)<fO9F#AlP;YFuy0
zqaeh!QC<cif)1z~@WVJjDE4Vwk?Gkfp0U+?^K5n6k#apT+Ve5J#oLUj$I5LiQDJPV
z&pP);>6O%YFYyk-qVmjY=cnXjPyXg#cURu+@K?&s8o{j4E1T@0%gT-Cvnda3DsN$a
zT6Hst2xJ)qz7+NZv1%C0Rdy<!C|uv7r#KtMY3NlhR7Fpi$wCSI$aQ6fdl}b4v3O{r
z3=QitD2OI4F~N0_c<W4%D*GyA9gARg$3;I?<zVUR`%q#V#VPY$y2c?k(%!t96d1R?
zQ$U&(n@lgOLCKI;4U4mP-o;JSiw>&M%J7LXJSiU+89?f!q%Lwu+RdJt5&wjIo3X1E
z@iE;k3h-g9Yl3L9<+%DbJhQ)5Y&{-O#=oHC8ucZ96)6WRjKQZx%2H6jmd%4$XuSS%
zNSsD<_=83{TyRY^nnznWO~a2l+mE=OA90(1%-P@P>fYzPKjH=@ZtzFkp8v+Rzt0W4
z&mDT7JMliZ=Y8(*Ct8C>3$#F^{n*ZFwtu44YqXCzIG<QK%@Iv8{4v4@-{*SX=Z^e{
zJM@>_8Hqas;NbM$u*vm1Q=FRu4OvHb*3tCHr1xkk%Fa2fvko`@5Y>Pv01t!4e@nO%
zy&Z*Rsm8zLrpEn`tDn$n>JfkW_T@WMx2GO+6n=a{@6a4x7<|m(=W%<TrcKF_sqd2N
zyB>3hc)Wd+=A<U&>we6U=kXbhPvc2752SXUkeW|E<`8<k_o7B)O|^g?I3=|VKjtWy
zo78gJu9T)Wqv@11omqWj*3y`Db%GDB)jqbK(`vl){jco1xi3}UwX}7Wqli@-(jKui
HwjTc*2T3D%

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ovis2_5.cpython-312.pyc b/model_executor/models/__pycache__/ovis2_5.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68731c8d5e79b07801e51aa800ed5e5f5885fdb5
GIT binary patch
literal 29516
zcmeHwdvIIVdFREGc#!}If*?qc1m7=-lt@X`gL=@S9<(J&vScSl?I08{C_x5D<^q%@
z25gkBJE5~~BXyFBYMeFQW;fK@yP>z)jXKkvs!iK<XQy3ULn)BEa;r?c+ot<RAyawo
zPP4!7+y_7iw4H9JGdq(j>fCeB{m$c_$M-%5|FyEx#^H(?|7G;2lN|R~^q^iAC9?kO
zdXBrv@mz@Gb-X^Ni|a%BxFKZF(X%0DjGICx7B|Ms@rqDI+!C^|XH(1?vI52wv&HQp
zJ4-Xi9P!FfWxOg>6?cZ5EUhBuin~K@7PrKz<DQU*#jUZLxHsfwaa*i5?hE-?+#aio
z`$K*fcf{)B4WR}WuZ#uajiE*suZlIrn?ud<U?>=G3AMyqL#-^`8EcEThuT@(73+w1
zhC1V2p{{s$sGFs^V?FWSP;b01)W@EyV_V`|LtEqhq5k+lXn>`8V%y@|L)%%rCN>x!
z3JtNiH?||bGqjV%Yh%0O!=d5$?$B;L`}n%pp7`F--uS-IzW7LJ1Zn=ze!f0*-~z`t
z{H88+kPq;Ud=vgPzh(>_;)8q(-->_qG^*#0aeUj$9N!)pe$yb2OXvxf+JV&0qSV7I
zwF{};5$mN|bubI}OG|~g8q>-=!gBW@cW<O$OFha``;fXNvORLtk8IkzW9;2lyz7r_
zEqQlb&qdlV{hC@!;T}02IT|_k)___HD`OkV*dDQ$YhPqvWaLegoc~Rwn9!3~O+AAP
zp3_&)%?eW&gQqS>6T$c_ABpvUk3f3#l4U#@5hl;aB2vZ4$+@}c%!MAER53RxB%_lt
zytj_d%*-YylM!C3I1we-*hG&(s(xZJ5gCt9UWl9)W~U;F#H=7Wo|sHdT|63@OwJ1t
z$#q(YB!$W7OoTr?J2M@na%)DD$;eDHIy>{k<kX9i8UD!3d>rYvXJfIr2IZo%$L8bl
ztEc7&HUS9N(~-GYbc)(>0!2;=NUJ_GKZ(K?CJ9K(?R++xn4gRtiJy<~y!<)tv(XE&
z=-lAM<mG7cBz=C5QF4#YCuctviC(yvOq`gV<RgM)n~qIV1H<QMr26PgG#S2(c7=t=
zg=hj_9^u2R?<7Zj^6L3Wcut5+N3WnEo|Dg<I5&Rs)Y#~W@Y6?*jh{XD^mEilC+B0y
zDC(PxjZG#e$D&h7$y-P}8jZx1t|?A_>ZM8HLIR@_Pf+)>K0X^=h@h4Y#mNu`$w$3a
zcvTn<HblxJ`eA%#dRB7dIX;)9&YYZz#4#3Vey!Hu<1=&f$;1=$(HOdeK5Tpj-yM(e
zQFQ#d$P7lA4F=7l!SGJ4E;Q63zdk#4F%qAY?8?){$+^h)bTrcpQca<e+TbLl>a+86
zbF)G+QFtra)U?y57b-@gG|LVkayiOJW)JijqnUsB=})8YQXo>0MzCNVnV*?YMEGq7
z76KzFA(Ds)moZ?8xyTeIayU7Q=@#CWI<QbVl42!>=O+0SN|VeNBJud-pk#{0Ced`$
zr(TN8;E8TS->X2|qxwfWE_&g#o|~dYqh4kuvi`S-+~gu$NC*6{e+C#oWQZ7fJ>h_e
zi8qYU-5ja7<Wh1J-LU$typcD(3Hm|Tw3^HOp}8vFq>e4lV^Q+hB6g~qm2G_t%J!ip
zTY39q?Qu}9tCc-fl1~|ZdG*thm#5975$&-Bag9YWvl6s&_p)b7+ZsGSGq*R$P((0+
z`5f#GV)37k2*KIuARCdyhNL+vIg%(UfTe^f@7`b`9=?KXMUPkIQo>UgCue3NvBwLD
z&hUgtFqKQ1(_LtfQhBg1xV@*S1?Oi<vJ`U2U%+6cN_B#<FOZDMt8)>_fbW-Vg@#I2
z!Zu+Zm_c&M$%U3lE-fxk-GrnEQj*~!iSS%R2m=|%zej{lGF=d&d}89ZL$ZX!Gn4U1
zI4s%1gskRc6nBKfp8`r$-c*Fc{OnXXEYRGRoZ&F~i7-5k7gA|jOD1&B)J4fGFJqyN
z(u^@+LCFxEN#5qxk-+_Ad>|R08<>mEZA}7aMUq>u%n$F`{o-(BAQnA8Fn2Y1adu{a
zQ0M@|o8icn$P|#SAU`GsW@R+eKX+B=M|mtbh{*aPf?wty>dhug-o@FguMdc}){L<=
z=d4@yz8<(0c;nM+JMV1CbRA3kkBQFX8RPL>ZS#uhYmPS@w_i-}J(1}@nGT*5YbP?s
z33_8(Is1n7_P(`brf(!291&~xXN>!E_L}R@+<gAV^Ka~1O|G5Ev<;`d!=ionJ>zcS
zh}xc?FZrS+|14qP)BiL}o?-L<ua~_11<I0V51=V*$qU<P`fR6Qkb)r!c2KaBf?X60
zQ?Q$YJqRX*y%ZgzfX%(56dPBA(-b+Ty`=OF6SE2lbgi!e2Y;@J8WAnBa`HdEh9|mY
z1WhtU%)EX92!ID&;wvH+-U2$rQl=eC+_a9jzFZlymE`=OTsGeJvMFSbICy)c@=`!<
zPH{M`=N&H_HO{n3fov*<k>h}@EP{0MRVXp|I2@~~O!~BucfM>4xp~(n`P`eNQ_IVh
zXXdL>UiCj=c^;JKS>mqfLN#Z(9<QV@t>=hK0euq|D%rGpcKjT>Pe|q|#zRYPpiH3h
z@a5U5$@7dBN)F)mnPgZ2Fw0!2<OVauhzsT<c=lK%CV9c!g1419@9^y9hybz?nIbZv
zUL?;FNm>6q=FyjQH@T$xhI_@5;(i74g*t*dE~QIxVTEtuxD<D(xFjVXU<@ham%$T#
zMV~UI%x~#c83lQbYT+q;(yqpn4mI|s!rv@F{$8v|s&kwx$46cAsJROFq*sljZCYJw
z8poBB{5FBCE96pRykP;owSXQ;Re*ytzGZq-spCUh+Mt$DxTiE;PUXAMJKFbN<$BB$
z3&ws3FSkv?Nn{gFQNWPG8HzoP;CnO@N5P33&qpT{k{#05ynx}xLyuE3CFa315P!hr
znlLLys*;~*N}Qja0gr+zBttARBUO%1jEx^2J$LHq@c7tS;SkD}^fNPH%_E<hClPKk
zCQt(<`^6~FgS95MOsZ5Lk~Fg<>xs#$5n*Chh)c$ckx9PCDj5@z*tGl&6UbifLnI5q
zhWTh*vWCM`vB?D3l7tn|#7EL~O<>sZIV3IA$>N^2a{ARToW|S48iF5P;~rIW)~Z)3
zL`&U0OMR|3uw;DIp7Z#!o=(xzne+H_{tl#G|M>E`>j!g91G(1Wyq&A*TIb9)Hoy`S
zQq%F(#9R9_U3)~&o+Zou8vo7XH;!j(y2P5U`;I`)RddsR!=80@iLS2I_OJKd?#uQb
z7JCohJtOuW6<tSjuDYDJJ{M?tWHnV*J#uiB)n7RN%JHnDNpv(VU&%PS*PRwGD*F{H
z!~avnhN%~=E4C^>iO5Z?yG!buqWhvbW#)A+cB4~WNrGk<)}NkMV9Hcjd1tvKX03ej
zhLris+*kDKTKgqkk8wh(OvnN=m`ThC;T&KWdY+lV93oLI!Utt66l78r;VW6G5GF=<
zZxFJcO=kG$S#TpaB>c(PeB_8A%nCgf0*|CkC$bR5+XQ_x8|+|E9_<hk7MdO#Z8n|N
z3H&nUJdWTRhasyCWWAlDw{yvsvwN4D-?ew&_q6AHjk(4i3R{PAo%<fy%{5hd&Wtgs
z;++0;!`R)>-4kj5nM~EwY0J}WEF`nMmZlVZgz`C#);b%L=Me#()ZPJuXgHAo<?E8x
z<7!F)ld64xsd&s4u(RB4-2{YG<4ojAQkX(2$q)i~d<f<V$;49^-`24nO;8(@-kL*n
z!CTr}4EiQsC4va9aewXfTpznReq%ga(=FC?XKH#g&c3X3yXf4WwrrOtqV{3P@z3_r
zLL9aA7=;<!*jEd)h)HHXaydE`5k7^7;;&8Md7<{PuVuhrCfFc?O+R-~bPlF1gUVRP
zW-mmOiK*f-q_JaT{W2oOV_j~fQ#xK(pql0A4pySFKFd?gOGJfBE_IG9>Qj1f42FsC
z{S+6ly#aVqpwaFz$ymA~F*}`%PhOEKrem{{$)Q0>50Q&O803XVt&_}b?Ise`609?}
z#w3fnpdUx8>YLXApV)%n8h77ad$aLI<MQRz!EZeC%@^K&;hy_&)_qiTAH93|zodRY
zm2sb2GUuG$rAoPL9dpqu5wI?V2@;Z(gw}BK;!BAsr8iJ0$7y}Nf(PI_?o#mtBnVuD
z)l^EkXh<2#jl=U8!A0Yu32)1+Jzzwx+<Gh5_q>i#dX&d+sFjU_@C@1`Tt<Ka_yycR
zYDw!QRX_(t5gE@-5`bCmf0Ay6UnEe=w5%*mNEM05r@};db>Re|0U7nlqhgNCOhIY+
z_ym{Je+%G=69|Cx%v?>~&D}S4FP~WL$#`}wSsr*BZ+_y&Ctk5FRa|%HJPlb-o9Jm<
zIksl}ru}VucH6kPZTy|>;<giF`^k5NjOS@&ar%~=^4c#R7>x-1PgM002Zp;;TmtgZ
zl`?3PnFgWk;Ajx0q=ppB4b3HHnvu&@!%LNFtZ+}6uqd7CbJC^8)OsLt=y}~+29<@w
zv@v0LjS~Xl0m%a9I*|mIP3#qsHp#?hagSB_WxSU$RElDUDEI^dD3j-BrbwwW8Iugq
zH3~#1gclGzHV=efqF1ymg-;`RYywnF&kE2A^9#OG6sNrSca)28r8))n-PpIBT753#
z8D6sF+}@l18~)|p8FxF@Bc9lz&A2<4%#SQwweM!#jk>J6U39l+-QA+QJLjm*RaSk`
z@WqoES8LkQmUB1csy%rtSKYJDnW}9|=DdS*)hf%H_yz9hM2}b4M;|ak!F~!3P(b4&
z9HxMJUos?;0vOcU*_c2Kzd$UUK$Kmw%n7qtEXk{K7ZSb_2(1gF6tKQ!UHvKnS1Nqr
zR3sJ)he7_Pk;(|dA(>gA<seW%>n`yLppYNE41JQG>63<rbG3E3)~?+C(TC1}$@ah%
z%$sn>>IpRGD=22+d_Ai>#M*(pl^$)JyC!d^n1c%h^OY2<;(|NYc(Hl!_o<Bh6FRQA
z+)B6Utd12-5tOW!SHYewRG^hbZB(M2MICC9>nwY|lQUQ4^*Ynw_4%8hzVYezIYieD
zY9b1iUk@#tUU%Gb(CZ=X^-$idH`OlBzn;34%5#XWnZD_G+p$j3yv1Uw126jeiCZV~
z28!?8`_1RyexAi2SgXDecqOoILVCW&X{yx#DXsz{t^oefgg8SNtiz|!;o7ANb?ZMt
zQb9$|>t5zU240WQ2$h5htIr65*o=4u;wHo`h+8A3h>bUsnnG5K<6Q;b+40VSxCQY_
z-pbov(?Jzr;~n^4iT{QOlnW7?lE=bVy=)FSk%|<i7;r(5Cny^f1#Xn#=Bx4Sk?WIl
zvA1Tv25+l3l<kGOgtdr4*!WsNcs9-N!`qsx=AJsqyU}E#*kd+ul!R#rU9OXQh#^?q
zORsVWRh7ukax&WlreG?0MXH2GHhghfQ4BoBGZ7oO&{not{Tp)L1z>_i>1$lh>G{Hy
zSFU889ip=%<LpXXx@1Cu1*Tm@C}`l<{~W<)ghFj|Im!(lr@XvQC6`=DjaNb*b-ES7
zsP&}ummEdON))Li#Fku0)d)o4)mu7Ma{<DjC!XA?s`<gjkm5$x^%2IAJkZTURDz<W
zpzsH=pgxyu5UJEb`E^QgDcubWC|gp67FGr&Z(4=$8-VGNIXcPwA~PBajMt?(q;hn^
zYj{}b{J>Gxs{IyV6GWvj&|ZJm+a-FtGTxr7cZcZR0U=5q{BF_NO)_sFm<{X@13NN-
zT{&M%*0)9UZOPTQXX^*W`oUbVHyb=41`j}zc7bk~T{ehWR-23|UPLV$CO<WrP5x_$
zeCVVh$dXGP=tUjGV`IrnJTB^sI0;fFlw4pal}W5FBa=K_P8x<Jq%U>MNIZpQ^yKKV
zBjMAdW8rhBo;orSJ~?_?G5}N^k}9mcqFj=bJru;^4UD(&6_mNqv-vQUOoKlKc!E^P
z7%6{a*54=k`!fEmS^s{~zdz$YxKx#^@6Of_iS<KE&il^Rtg};ecCLIT;~Y*~h96(D
zkE5RA1&w;>QhT`El2!Xm&nBF<GPDU@BCtuGqPeXCeT45<LElAl5<UbBC1suMqO(2Y
z?94iMiOyYV%P#hX6Xhoup#k#LAwQkhWLZjRN7`+@WMbV6-j2*1vM#=~;XZ1(rUwbf
z<Kb8|4ta55>*j-32K?Lf0mP@W0bJFI&fc`8_wj)-0)#D#03yYbCt9zA97zL*i%B9;
z4)_ras_CUDpM>r1BJ*wN(Fyf{C`JELOJM{^br*gqn!E^$VImn;Ws-&A%|A(=kDFx7
zp}quZeV}+Vb1wgKa&_!pL8HKW8_oqb7*E5~q{@J{QZ7(#xkG-C+b_J0g0zvOzR>#Q
zkMZzfsAAEWGM1aL#Nd}j6K14qA_po^uEh#y(F}IzdKd6^0jZ0Yq=rUP7Nlb=c%3>T
zi&p5}%#^lhgS0Bg>?v!?#x%xu3KtzI$6{rwlF<{nS7e;S@VHD(2+K<bi1R&FvhesH
zkRbdv1=KN;wLstr`4?q!L+0S&0a4V;W?AHh#{-Gpm?G@{l4K_s#dIaP>EUve%=e1v
zIYBg17D&~QaoJK0%^?Dp2Tax|Ec9+ZZAxL^L&1s9BY@me#ewG3bc!{dnVRk;YtGx0
z_4bI~9uOXHbJp7{dV3LV>drQeh)pADO9S}d#;(=9t9|L+Pl>%xiGdSoi~qj6ChhG^
z_wE<H`|o@z;~pi6r*WlTboWs#uwoP4y@=HYmM`C!T{Vlf{Y&;-0Gy0J=M1JT!4Fu2
z6KLp%%{QiX&@m3C43Q$e1^9@<ss$gR7qlTod<}I7{~3WwM;x+g9qW@8b*1touZ;~f
zL>>*yl#e_brLga#+Qc9NAf?XUZ08BF^F*d|LbS9kIj+Y+{<BUZ{kgjKwf%Vmqw0F1
z>UxE$L+gv$<yo*ne@5$xVX-TSe54-KFB*8=qS4Bw;77w&n+g0~xgI6$wu$G8M0e=H
zQ@R(&(2uZuri^E~lxflUYKJP!%gEkX=ykS`gnxskDg9rV*RoMp{vuUv{RaRPevg8?
z6tGq3B<*bRN|O@`-SL<@Tk?i!@eqVuiHryr`pPe!vcNw={fTJ=<;Tlgi}g}fjU}_X
z{npIVsa#WQwrN;w8qNi}bB(>ZhTdGT9a4SsZb<dbRZFKxs&8JYf7jWUb9o;?8E)}o
znCp9%p3HkWr-!W!;a{LW$qKqRH9J28J!$cnkSd3b^PeGtan_g9-4WeYR{(T(<zXNk
zYA~cEDy{`()1|T_DFef$G(V{Rk_#)&MD|0Kxg#q{Qj;SvyNqf*3|Chay@ORxeFqF}
znh^di%4Yf?f$EkKwo&*^ivK<Z?@;g`5%gGOTupr?{0RbiWiTw6kmGF76OyZR4azA=
z_~XP>+E_y{^7LSSKXO)*dp2TYM$rkwDzHBrMgPEza8>3Kq=5&XwsE!1H($8%!piXK
zXvW)5=(%a*b3=2sVTahTBh#?!PQBQ0IBluRQQA(iVdvU~^r6$@uG5)@GnCvs@QtCh
zg}d7`Lr28sBWX+EzOy>*=~{Ke4w1I>$y1J&rp5sn@u1DKemrc3PYBnh48XR^+)-3|
zz_^BzwGS4FVO&K$tD)lpVvt<aJ;m6dR7WTL5t{O0q_4Pu8tT#>WI~s^paPP+ELYdI
zw&k6@SayM(P}Kx%=p@iN7bsJ+Oqq&T0?h$>UKbE-)(`4BVU)=LeyHqfVm89fR*<$9
zfoFB9id5!W{tz{zLmAnkE)dd`U@Dpa1$>#Hv19YLh=nL%!4GF4N?}{5ACIF@HZ{BY
zK8S4P{GB;pL)N!n^zFZM;qKLp?+k=kpg<B(O+?B}3MqSBn@OTO6K;fGr5Fip0`<S}
zH411}%4*KHD8@K$>JvE9&CkUmY<?9X3F;&^V}yGY8>8R|1xG3Pq8bpDN$kJ}zRbN3
zHDLGqW(zcpH3rk}m9y&{Zh4!|G@R}jUWe*$IB(XO`c{2wp0%kvV{cztYZiM(=|x}O
zY%mS3?V%il`5LYv@V?z+YQeOs_2(-n25o13-byhW=dH`Lw+_zcT)Mj4w)BglwQ0SQ
zUiKPIww0-M4!69c%2dB*$aA>eF|5-qAGDdaJb+r$ggXkaX;>awF)Z&EJ?;4lO0saa
z%5^Kn>g=YVQa#1w>M15yPca8qzh#vd{e$^RdaR<nPKwprp|GV|a4)TelBkwPR>b5E
zrM{fPf9+Cv_H|Np6ssg7@Qor>BzeyA`iK$AK?BrxW-G^A;4cLO!UhO4dxE->!5f(`
zl|Evbwm?N`3R$lj;q2g7h&l6R-{4!#sDkh!s@lLP(KKQUdX6;?nhXqn>9v7?>NkNY
zCZL9-!f?X&q9<aRq<YvT6Hj8Wu$*D-*hu2Au!*`!c3IiM6djWN+3~R>r(~@MEVMiT
z6dI>-_n>hazDy*jGFtHhO>U`**dCso`<Z%Vp?lLlVp_-o<ThI9!zcpWPASDHdA{$g
zUk-`RuDAN`*u>r^MCTJ}%M)xqOvwC;4gAZjytiOV>kAaEA=DTu`$!Co@gp!W#F}U$
zfLfHR9J{gsS(_nrmd~j%Flt#PCQ(buAh==pEIWHtR%iz9>JU>mht%wJ4AO?SsEemi
zEeB@10>)J9TgEq)o&=n|2tbK4I160BY;cq!B7loGzouWbr|g(}6_3q5qwwzmB7B{K
z|BgVisvc_z(3iqHV!(y_6g;5dHUb#f*t|7HvFAaiO@whJH)EsaDWx!D#Yr+_)#E57
zUVlO5QWNBAG~QowE7DkjcTzQ9T2m#bO!Ny06_|VE^qn9@6s-&OlGlg3us#$(O(u98
zjT9{r1sEHvxWs=$$smW0598DxboPEN`bIR{c}DC!lj%IGN_v6d>*Ke^vw>q`;8@P#
zx&GX`LEi{g#Q)I3?K-4e?tQ)gR{yH+Uj6pF=a!t`*?F)eg>ZX)*4rm~`*O9dIbVCO
zp(9t{143K71%$S?ikemeutkBfGZ=Gi)k9~M2UhER6X)_RRms>qjt}dxl^Pmp-pN$?
zFvUozAdqfNAPu4Lw-k&~P@u3`dZYk*)wl$q;g`9*-e5YcTdi0#tesu6h~0bgpqGbr
zcR=vyp0DQikLn&;gC-v%Ke(5YA4;-t-oWzVbj$X1V7pi|xOPsg*^{SCpl!CmBRgVp
zJE-;zgb6|lyVfP#HoEW<sZq$15>tqi3C_G`5T^=kFR>`32oAkPPZb-U^bzZ{jk)()
zUUr0RytQn}Hjq6#tX@`F)QZc}vnN>Is4dfGa?*wUttwJg0_Ti4K|l==7lX6#F2K2&
zvuib0x?8GOP<~;@kG7FW^KaF*KO`Qfk{Xu&W3+>@y{zLl1|K9ck`ql?<)0y?8{@uU
zoYG$aU4EetDmthS;Zz6gEwrZ$1>vw@c2cn^37G{aR#k1Gy+z~TFbbF(`d7CaQTiej
z6H|H}i@gNeyO6S}h~Q{62Inq$PfW1T5ka<R>*6f!%}N9(XZRqz65zy}3?{MX3ch%F
z7T|O;H;WA}GZ(btWS$xYJ?6F7ufas`(MGB*SPimRYZktX7Bd5gFhMcmmYDN`WSBfp
z2$-jY|3$%nLLgOLPDYBIl66-~IsI1X6v=bB@Ig=&k)n|j6~2G}<}(A{uOF8EIdw5J
zk;?0r9ozcEn!ZfUR%jIcty%vL(Z6G<>LCzR*Sg8*vVGUvd0m%tx~}i|{FS_kt894f
z>{lBzjRT@%;2UjglXu$QzVO>yM8|=<?u_G!oVW8KWy*6#tL?|{bBMC9d~@4q6ZVn8
zkcPc=!rxGTkcLDy%1JhSoD!c>2p=Fg($>q&-V&x4`C6y+i6bDM?B&Mb11B?SvWv@A
zvXUQK!9uWDr1dD$TbnPC(+m2IF6P6mFe>m7RS^>RN+mqMv6f|tI%Ryztde@hpvajw
zgqO(KqvU#1d0qsEoYG(Bgpb2-+CnG-OU|k+xf(1vYszxTU6L7(WawA*F<3;kMrhUn
zYeR0klG}sacJv_brB}+XekJmHk=L<kFZhR-^#pgQInYk~2(`eWwY&0XYPY8G{bz4?
z6}3B6p`jY<ODfW_Yq1S!J<f@vu+3D%cCc~pB<=gOMrnU&7<<hm{T%HawI|u0Q0Dgw
zS>PcmW7A(CRkE;-Kr+i*m1LLsAhI|lAXl^#fEJvSYUS4&a!@dWWS03fwnv6-o&kGC
zs7dy2U}%H<k7YM3VoxO_cK0QPk5jZdJcXSP<O8AExMllf1M}w+=BKd3w-l`id1~4r
z%5RoGPc^-i`#h`G1o-8$_0PJ;tyBp6%j|rTHq}aw;$}!j>IjBEsaKT^iSq8CX;l5V
z$>kbj4~3uNrDkg^LqPi<|Kup4#V;ZF(KYU26}YJfb%EEdx2)N^0kLi%Q@4F-oT0`Z
z(ciP$dH0#LzbE5=YU#=Qp60I_*KDh)d%=-++V6Qzr5&gKI?!?pT;VSAnXhTU&N>+W
z!PYfG17TtuA~?Icz|E^Su4aAPMc?*}Z)nN!!0x&Jl4x%Nztq^j8h<x1vTic8RDCxv
za(xV%E_Y+rwOe%UzT>|;_HEaAE-*rfxC!i6OVvXM*E$5~VAXe92Ct73v^VP-7G1-4
ztlxG$k!u+w*hatxtKiGF?~v~Iw*1bP^s$d+_I^C=XiPWl5*@?24fS7mH?T{oe^+V!
zN51WPG8fqOkF4Lu!8_{2+b7baXEHmUX4P*K9ouEQ(vRQo!T0?5eG6Lp<M$m}JW+=c
z{R5qUY@6{9f^}m%jo)hYkL@*nYou=Mpi!z+=9EkyH|PooX)|4c84(Z<onnJ$ye=#m
zj6gHREunN({B90olYi{$hBcwAweajr?CQea4<NxGl9%RKf~W@QuZ43pLY*rR&&`aK
z40R-=+Tv9}=5v`yZZIQI5$wyT^~FZ-!nTHT+#8Iq)F-(9nc+0gkq@c&XNCi5roqKk
zq@5u;3ITT!w*pp_s%89H>|rhZZvy!Vfg6N>pg2u6sp34_qsSwXO%XdfO>ofAQJ;ec
zWr#+#Pr;f%#}p(K=a+?TA2dCfMXMyom#O3kN`^CljdRu9_xET0yF~x4wU^+ia=*GO
zTRk9F53E&Ws(0US9LzTE6&v^78O}5wzTdnf+dLvRkKFlKruoSIw%ysbLt@*ZyS_}@
z`2D)A*}9!#9qb92x&x0YD~KtpQ0<Tw%q!X*oscSleT!z95$#YfJ0fhBkq_4AxX&5j
z6jJ24KdoOfKvIHV@XL-xr~<)em=rdn7i@;9FxJp%Kn`OYZ_EYF+Dwt>auLHt8*#MF
z{$Ql21-QT%Y++IXyp9#AzyztFVnVXOWoR-MO<vuw_~}E4%UORH!I$*3{FS{wb+15E
zN!&?_qmV=$`6Pl%cq+XX4Ko4cG_c0|kke3-lZl<>bG~B!S(RGM7o&{o>N5u3MD?o6
z7n9wrsDt((S+=&(JZ8o>+6+Vb6Inue4arjDW8}P8RO+daEHoQHn6C(Ac9ASJD=0}Y
z)8xm&Je*KX0WFAvsrH&ob7ga|P&hIJTPLH5g%cmP5){-uKZn*v68$4FY}t$@4ltcf
zX=z_a?Fm}apwT&}Z+ZA#XKSvZd(|g4Y+vgZ8}?nd<b2I56{4>@>)R^&w%#!2-2UZ{
zz3YZ<<uR~I(bu2#4T-*?>qc1KUf*+Tk8FL*Gz>4D$a$Kxp8cX{KQ^shKXao3${pGQ
zrLR<!ETlnWieT8qsJnnDSg)C7Z5Qn<ESw%<k`*sal;=AXkoH0#aYXfU$B{)cev!Ml
zo*t<@W<mR8Fo-`H<9L{MZey=4^#5$Ve47e>4z>T7^j|h>)i=)mfWz%!JJ&d{PG|xg
zMdQGA%Og8jjGVtE*V(_;^={{$FMaxVKYc&YmTupDclW)(i62xLE32TgX&iW{;T8yd
z$j=16FAj{FjXj=HMbs1Y?T0B~JR~y|(Mpxfv*#~Gz?Bk%%2+tTM%_U8Sa4CSfnu}<
z1lE%{o{1A~(BrQmD0XcBJ4&SB<MgFE1aNH6>#JZCX=q+C+}e{jAr4N<R<$(sihsR=
zo`SummIp3R-h?||Rr{Ac%hSsZqPrtsK}i<bSYuw^CwjW_R!V{;270WO+U2LPFD!4T
zBv^!Mzh6nQkL!%4#s|KJ<-<3w=1qtf)kjYb2b$w)&YN(@tCsFn!|JoEb}_gkUqMN*
z(YUXB(zShQcb{n8vTmisfFGHvJMt#nOEXcDg{#||w^9t6w5oJfvuF+e(2i%uW3WB}
z*YjO;jpR^NyzDfaDWqsul@eQj2R*k@$wm(8yaBG{M(mM?y=U6U6lLa@tKgUpH5zuv
zTX-vTMmJ)wyAh{$$*EAIDXDg*ICDfS5gW4yS>UE_RMccLY!#lX0OeHj(tFyg?xLOc
zd_5e~-Iv<6)@l*ny-9j?#3R=Z_x18QS=*G_%0fguto05!yPHBaymymwESsdO-%gJ3
zUfvg}jricUU$!P$aY(ZqeOVV_I3M3%hn#+-xG(L{K3I!f+NDLc2#B&Dc>+wO*a&LT
zAXO-6;+*g+00ZJWjT>Z6I=%_S0jE!~6wQl(SYl28GJ~fN-|JqE<t*zd2qj{<txBMN
zWgU~tZDFEaYuEv<Fn?fZHGK-oD5D#Jsi#`&9xbBM(}JD@ynv>QDCmYz6EQ>VN|`?E
zfIf*ZQ_01QK;|T2Dt4jHfEq8{kxCe><br`nk23%aUx7~~3`L5z3iY~Fz+{^m+oS|T
zxpkrHgHV#D^MU@SjHmyl9<}_!UDZfk>Mf+HF`PHBMUAH_XwISzvL~<$b!=DTg}YYX
zU?EM7AvYDmF6`$wO<<dSEDnT)6Zhnu{0nYX#i^+jpk_UZ9I^)X6vb#-v)%qZ^-RUV
zHc;U_GCI>to#>>GW&7$ScbrZPV+^GFl9dN78#K1eKS*;QC0$Oz$K6Y1-~d2Q@`0C@
z_ZbS|;`1Yf69n>Q3P?dLxr#NpOeI5OD}0jP8K4{%R_HNGkF}+~^W$U8eZE?DBZc3p
zERlj?ld4Ikh)vF1n8zVt%JFN>@yQn>VQjESUWGQfa6lOh%JK<iR#~#qy0&Pmc_(%E
z)6|r&QowXAM3sZerKnk+L(+mvK`Ppj0)L9k2^_CTT-tq0rFNizJCJqvi0+=Odq{K-
z!MoJgn)MBczJVnNTubFm64}5}F>n+%v<Kb&bo{`5&sI45Wa|dSy1}(wS@=H<9m&)k
zh0<lkylTpL`X8AL%Hadh*|emcTcG@?Y|1)zzU$ce!0pXfaMmVBR4v<}i^+Q0;bxI*
zYR^L9(X>lF&LG{`pZ3sc2H54^g0ltgSsEYVB!jk<UD>vMV%xqu&t~_Z68E3VcuvzP
z2M_9-Uhlirm#yC^*6+;J4`=J25bK}727=bzcbdi4aVnr0q`A_ab+n0&wv3}A>o_7h
zj-X}M%5Ph?$dveBQOCZBV50-R4Jm|X*2xix1eWsFX`WLTHAI*4F!~}GLbe!?(u+3~
z!2tPOgY)(^-BqaAKl>nM`0QU4NpJds%vKJa7c4!~nj2KYSFrT(#w6Jq*;Uv>vhhfT
zqS_4qkF}YKYSR?=CADe9f;T5MVgb}&@s>sH+myaYp500EERcQ~62e<$)OU$cM#)u9
zX<m+S@HTb(G^E^NS;{SHm!Y^_Md`-k^tbFP(STt>BSE~TqW>jbk<?r{A!|qQU9yVg
zC%xm?K@Hp36l`TUFM&>+W15nnycfMccx+aFvp4vY{>Nc81+AhfD~1;aP|La7I(9-2
zj+K)gM4v(8ZIgTq)DSgen1Vusg6A&cB+eL4vJ56J&d$g9;Q2^!enyB);@CPI#@UZU
zw+wT$I4};5_-yMjPCYn8WsFk51dU4++eSe@1w;UaYZNdX&oJ{O9;K?$1P()_oyhF?
zjoXTwBU`3Si=;J6_<O*YdNxYUbb=5L6N1H&_U=bXoK<|xnNn||OT&{N4EXn0sELCJ
zAe))Fx~7{8Hx^d<*V;3_VIazeme=>*+MDj&eWyLsaFCosU9~rDH*CwpD`Oc~&yp!;
z_oeO4>GmDz_7NQ3@_-)O(%rk$-DCGXjmxpOp85Lox1ayr9qBEH?s-P<*9LR7hyJkU
zZY(o;Hht(^y5<=Oy1r@%y6$SIiffwEP5s~SelzfP;CGYhZDaR5N00@(ZM`k`TRPI6
zyD}}q>EQ0XLFe7OZZJ?r12WpUn!cR3{eFG>%JX;H@6{iKDY2;+`sCK??>6=<>wpTq
zwKtF5IJP``<H?mBU)%S_zHHkbv29Pb?U>kh>>an*_GG5!DI7uakn*4*ty|JtM(&=w
z*YYIlU-7Oc@73;j<hGJXZpEo2wVbmt-FPrlbtr8)^yBy4$h1y;;kS%?$9fzZLyHvd
z=NJ~904qI--0b>C;q#wk*pGx^tFVp>8fF0pJ!A6`1y7>u&j~{mB`HfjA7dvy?m_@t
z+Azg&;IndA!YBciAhdBx+YF%zdnoT-1Ro7msg^}p;XW8u6#=@@^u!@lQG}|}t-J0R
zGrs*rxaz=NW2OOa>l&`wzuKO04g4HeX}C(jDc(@XXjWDX!Ujb);VjaDum2f(TvlTf
z$3eWGthUA$5h$ox8U$#bDWsu&N2&5v;H_|O0G%yDlMa_E{9?mL`OV~-a4o}A$lMte
z;k1wnoT4x5`KTS*meMr(i#Q~&toNfuYmapk2%`pJOIgdFVPfFTZ&j$@2S*26Stzqs
zj^hHiSXrbxaKH&d>76m|h2P>hwk4oy(Fr(L%2`gaz!yq$CJQ3Avm8Ijn`xBP+ED`-
zpG9}dbx9MO3w@d-P<CCaS7U{Hsw(A9xp~V1lIppXGvy}m3;N>kSL@MnukJK*<!eb*
zeMTvTM>&NYsmgyun_QdJ{;!Q(vQce&s#2{5YANf4eDLQ+-fsiRrs1G&U8i2a^oI$G
z?OcP+2K(0FhfZC9q6`zVvjp*#vVm78Gi$UC6#cnn1m{<u=O+&=3=|kLdB=3Y%K_`J
zV2MyOjG!5bT9kB+TmIC__TQLaZb{b<thTI9-tIs|7VD^~P^`T~Eoi5>lVNSzoH{4;
zq8;pvDS;X+^wFX>C2(RpjuTvn&Pmq!nFP)ajNptwlK^Qx!Z=mQ3}ZA-foGg84y^$9
z{B0_^T9)65Rg^TP06SPUOlKxb*xD*T;lLP~6O~!(UqoifQ{dLM*OI!6k{y61RTk?i
zU?fx?BXndu_GA?bP*Qvw0OZ4$=}>YyBwlgdfI5OQ7rmpCI%y9rdqEC)388{M2o5pi
z$R;&B_P!{yE}9@|Ow~#h?!r;}Mz8A7vSDBs8b5H{hiH^PhbAzZ*3`S&CpKcUJPsx7
zPWS8+1K3mR&oy+VyZ6H0L^Q1?xZ)FQdX}tz-PC&D;S^m1>FrNs9EZV2H^UpafmHGV
z`Phf7Z&36Nf-)kZZmU?gHRph;qD6GHtZd0R2G;z@<F_qUB8$KAb;~WwN@J#OV5yR<
zQ@d~N22-DD*oitHv<_rjcZ#h$)4Ptnb0*!oGt+tsTc2_rJF^}8#EyOGkyDwD(`ifV
zgFq9Sd%vYU=jcp#AN+wq-)a*bjZ5R#FGIHI+nRQC<-849Z-?mZSeeXtyO)mM_tr1(
zdVS>9$g1wv!9Vx*!SB!2mvs$_u0cA^5vSlSUtM*to>_C>ekR>KwD#<s(YK#VHyylt
z=3dRQ?;9XCfVr=weJqvTSx3L<=wH2h$9?C_?|AR{(gUOS;2-E{%sSddNBdWw`Py@D
zJeMALGJX2Yy^g29?KqqFqJd!MU0!TY-t6QQB1ud|avhPIT$GVPAkqUsq)=e+I(W_b
zd02EW>jbYJ_<=;g(u+4mp<MZ@?pLw@jn|LhHF6p*!&vlc2M<-qWgTL@EH^Fbl50b5
zBjtYe5YQ`~lVGNub0q@f{{a9}OPIkQBUN=n*@p=y96+G%6(PBkoexP??I;}tCwrB>
z7`d7-;vLO(d6svS6FiGlnzBoY<_*>Vk-$Grt00MbXd8)d$+m9c>Vr$;4_y9q<C7xX
ze`*3NPl`4D54xUONoKpA66x=mccu|sw_!Jvs~w;@&(rT4bndgd2L%1@rqJ)Y+Veh?
zpRea!^_Z^=lWrgY#BH!4|2sr(;>i9@234mHDjD<>@J~JqQbF5iF+D&On4hwqnep3I
zgFkdS<+u8oR2l`|$WS;6G^Nq{1!%NTHoP9FL`;`KlqvIIv?GQ1wUVoFfGs$n;xaY9
zM=tZ#k6|(yFqyE|XbfctG=T(~FPKHYKvU&o6fi2FXmOdIf?RtgZ_(HnVO3_FRt}J0
zQvw*AuyYaSRlN_D*D|ADC}P9mvdZLhvDe{3l?!z$b}fAqqbc<UzJaFH!RzO;-h(3j
zjo-!TqvK1q?>I4GyqIHqfnpmWz5Cmij+2#t_q)zE+MZn}HVt04=i0imZTrQx{dZo>
zv^|-21#_;Bx4h|rgPEQ~qU%uF)xq*)eug}vt0V75b=dXi>PTDKWlH`7G*z<B%_gw^
zaIT$HQ%;GFA2DF&Q-!c?@LbmL)NYgnuEp?KsAMq(H$AJ7c9#}*j?x}%OaVGWNuag}
zv?2taf(U}!I%auL_uH3&5Eu?A95zh;6$Q5q1$_vwqUZ&uI%vvCdDm#HsM#QbF3u55
z+xxHubm^o<n8>FQe=R$6^)Q8V{uX#PGRlR`@tQ}Qa1rg?Aji;}U~&whOk(89q2{tH
zNAp^vm0dVThZ$e0rr=RN4|SV-C@IzmkK$SF?6|-UE?WXA!WU}Q58jydOZ45ursBJC
z=3lLR<{zE*x7wI-55s0rIH$AXCHYrz%75Tq_JIWfETu8l^Z_6IiG|N2?nZLpfKooJ
z)TVyii}(u3OmDEwfx1+s2SS{_uSWg8;=HdFzV5!eb!A7!-Oauz>ueRBtt-PtyU90T
zUlb^hn#z8c8#UFh@&ceskI@nOsZHvJ7UtTs(O9)YEh7X^em(5)H05kfO#g|VrV<Yl
zptuNrNF#jys_b^BTJ6Z7DLdLcN3kYq2~+wq>dLewL}G;wddo2AKTwPz)bsS>5Iv4k
z5Tt;X2AeJdbudG>IGPbZ*F;?`A75!c$$mYAePDT4loo=e;E(V>LBmF_C~&W7NgMqS
zMi0Nw1+iavAy2nEL*J)ceoPlMjp}lBO?d-F9$14bJ47qCV$jovzHKvg=K@3NT_?rB
z$-Dti53G&rCfxH+>Z-93c{<PG_D;<@-SXYlrjFHGO6o}OI8JFD`EA_DAzg0k_J`Qx
z-1xv#cXQ+hyp0hD(+D1rp0Fdj5lf_baBWO%+D+S{8{u(M*LX8^BelYdzFyiN4IdZI
z<IiJTbR+FecG8K7={h*G^sPH7t=EL}5q$y5lQ$ub;$@&^qi7ARS5Q)w-n3=q`06uj
zLw8KS=lC5*dT31CdPHnLO2;*Bd1vUI#Gl|~4n*@7ovCi+$k&d)ar|qi-Z=F`?CGwP
zF*)^q&r|HAP02Ymi&OsDiKB`B$@5e4&>Atm_@x;-iWG-#CYWay{MxV54}GzpdSSl;
zBMV?S{TDy_(myjJ&j1I0y=x``yoouPkoUTirIa1%DFw;3qM!X*77>wt<yQp~{qm1x
z30K+qp0Wo<zv6*Gvlx#4lu=IUFHl#uVNYsdFJ)`C`eQNuF*-y((ND&bNkKkzzUu?v
z*smcdKME!vI@(+gnpKkMpM?}AxTs-e%T%D0<Iv^P(8;8xe1Azx73le76g^ECPS#<P
z?M(1eE~nfQ%_=X{QmWh~g}&&QDX+YJk@<*``a|-TWbS9y7Wu3JGKop`j{(TiKMi#N
z00QBE=3plI%YaTt(Zv^pW-6+Zy~mlvIO`vlry!;Evb5q!5oTZ750^dp+(NlK@xx&9
z0fu!fgAAi=6iKk32NPPUA#GHsjqx7S_%X7CjJ-PPRTl-{p+KVG1q$AvfbCFYn2#Yn
z0rOvWMED}T%~C*&v{bGBW}7M~!}`bY)fj;sp@0d}mJy5@ekAFD@Oc!4KQ3_=A*?<+
z9V|P#`oH0}zQ;BGCD-v+oZ~&t`<L8PBKOq);6~r$THoV_-s29u#~po-+xH%K<cE5b
zP7h{5r~kf#({1~q-l)?*<PiMO#_2|Nh3D_%dH;J<?y<k*4*U&wLgY?7sPbL2=O~a|
z-PbCCE}Zqb%D!A>0DljyCZ9gdd4Or0u3V)@{zGa#QfnW%Ds_97V~;r89<>(7e?h0K
zy&k!F@y5lQvo~fRarFEsrH|`$wsfHX5l4|npEPvpeCgn>^zaEWc=8d4r$<l2rVf~v
z-RV6OV#}#V;Olg@e8|A*yVJUwtgcJcb>)mrIcrnS-TSD*sMkNTeaxV%TRQ)R=qu5*
Uzi&0P&QZd;9q%5pcdXO@FEzo=A^-pY

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/paddleocr_vl.cpython-312.pyc b/model_executor/models/__pycache__/paddleocr_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..07fec4d822e62afcf9f06557ca10be9164e0be84
GIT binary patch
literal 61436
zcmd44dwg5ReJ2VK@Are?10+a+6e$uS35nEOmMqJXXiJu;x8%@v5sCmMN&rb8fO;@s
zqomFTO5B+0V@1`@nr^e#)Y`pa?(J@sZT3?o-QB8p@7>}UOaY&Ax60Pr*1h}Lr9x$!
z<o52~?{5yyIRJDhx!e8Y9*KiFb7tnu%$fPU=Qsbx;jn6O#r0nw)%{D2=FjOyx@^VB
z%B(@7xuuC}qT0A-kbbM;+C<f0RYEtYOXvsnT1wN!4GH6*k;V0KQ^GuGPFMyl>|PtU
z4%%3G`=FiuIug!7XYrXU;T*2gY7*{24@)t`y@~3<>V$95$L@{snndkjZK7_lj@_H$
z^$Gu=pT*7bhD76FBa2(&fke|_6N_8p&51RGYgpVC4<=d$TN15<t?b?&Uz=zfY)iBc
zwzGRjd|jeru!F^&@y<kOFvQ}n`1(ZGU>A$K5$_)CVR279oY*k9fyKS?jfvjD-bCME
zUt-hXCYDwm-<;SoxP`@i@vVt%gWFiVCcZtfV{k`e=ip9uUmJfWv1@P_i`T_>C!QUA
zHnC@LPvW`3=MsAd_p<c*`16T<gZmQu2lpoq3?5)<{&;`lg~1mRFAlz#I5>DPacJ-m
zOK*t3lsG(in8h38M-l^r11uhhA59z^JeD{<cpUdl(dPJx#L2;vEWRdwDsg)7bmGk5
znZ((_vn(wb?@qit_;TWNgP%(b4h|+>8GI%2>fo#FSxfx2#4il~f>vW;|Dq?Ot+7aS
zE&kf@*N(q+vB-!u+VO^A@bl4A(axCt;t!+=rTj)iv2)S&>d!`u(Jqu8wrHMEzFWO)
zv}cv{C%w-a4dZ>$=!R9wZd@gO_4fC^p&yJ@X<pDo``*w*H^pB3KqvNnaD=69M(UQ>
z;n;{D$?~)F?Aca4+ZKDF;@JiEY&)Lqh&eBQq>Q8#lWV!ia_&UVXJW_X)JrUN7gBdW
zrF=a4>?-};gRlD>zOFI47yV1H8lOjv`<_zc7|XdIIS)J~=QzvRkDM<&CFcao`66;2
zd`iyOS<XYq`O;HzaxCXz<UI0}oJp2*06C97C1<Ki6Wew1ucfb~{KhWCMq=kbl)n(G
z@i=Ncp<ZL`Z0yVjfWvfsApU3uFJIG!PJc>w10kJYKA4JeL+9c#!E|J3Vq$dcykI^V
zdwnuCHXI9S1=GY3ml_?4hpGh2-m$Uq)KDrG6-<XmsT51)VnZA^G<H5F7`fO)Y$%1S
z_UDIE!x#E-Gs(pS_c1P(;)X`YV$pr$V<V&IQLpob1BXxV9Zrp29!ialk0GVu`JrU&
z$apjsKRTJ3m`t4=O<g!PJ|0Jl@YIqT=Y}stM#oaP@$F5eVq;Y9`Jv%Uv9aiZvB?Bp
z+dO<BHhd{EIgw1ERf)*RP-N)x&}e+<+-Q6>bxjB+hOV89Mb5`kk;|j0$VhxBc_A{C
zN{vO%iS?k4+KMMvIE+e+6a18Zb!41N#JHqbsQ3sCvYv^@6LR0&)RX;_iNv*|6V%8g
zayT)LL-BYl9!b&=BE>M78jaH<E462680{Iu_wel-k54AXjuo>X#;6T(g6H^4XDX9U
zj9)2FLS5eDlS3GoDK@Bbg96df<OF?@2!{{IU5msL=OQDMV;Fu6eU(rXjg1UV##50i
zvC;DvQjz%hP?WkX4i^_o3{6BXU5+G&hvKow*ieF+Uw!2C;Zp~X9NoY7aOA{+7Y?30
zb>ed&z2H59dPeaXhvNH(QbYSkhf_k0l2)7&CnsXVWyzzlcyVqBZYB3iSBALrNeoK$
z!Nkz{*fDN=IF?L~bC|M;q+nr*Cr77ZXiV8#*>g0ej!h}~kz8Kz(u3kH=GVcok#WI;
z`@}@*L~J5HG#pD{ehGFl>GVWY{A9KAhdnrk8Jc{4ax{*CqR}`wh6Ry`MMshIRBQ~5
zOwu|KqbD&h6GMWncz0oFBKD~k>yHW^;KoK{n<HEL$GLq&lgXj@;UhE)lnxz8oQp-H
zXk}7xoSdAP80S*SBPYg>9T2?ot=z?sLGbLIOpTvqA2NAZ{E*IL$Bv99lc?kH&^3Hm
zNAWQ&c-+>FCL<FQk%X8fLNhfHLw5wbH~}WO*vRNrG}b4roYFNT7%#Aw35F}9(bNUO
zID)x6&I#7U=vZW8^lB`gM11IKF+N-bM+_R75fYMH`JE~v7Soz^6>yG*t4`7Iuq&-i
zS52WzS~CUG@`GafG*YKE^z5<xsDtI#mgPt4v^G^ls8m~8`vKlWS4wVCX)2YDYA@|a
zYuZyLF(*>0{;qYrt@&n^)aoy5OZr9aEa{Qh>S;qs4(j>iIgDvT+Q@pSXRUiBWszEU
zk&)%no%l<A5_6Z<HEk*>WiKy5cPM3|{HiT5Jf*Dm31wO9N2*S0<X-657d%^1r&=#`
zQa@Jhg>#i&(A-fQ$I@P?m8D*+R#xssNH+wsUvnbHU}G|vx)2MF608a)$8j^1Vkslz
z@%Z=^EWhCJ_*it5;e_B27YkyU?X+5hxO&6E=f_hQg3(bxo+KfSV5hjQf<t4`AX{1?
zRwg=nc{Di+gdIG0E!ZJ0wvMn^OJ6v63N1(h%EyDiiRWTmaC{^vuEOAG67{4mjE=EJ
zF`ONIr9)Y!9o@kWWubPwR;+ZBSm{s_Ksy!W2(?h9N>@>D0@yvpFnn+*861v}Cu8wz
z6rC6c+(BcDb$xmtUukOd(77bATq=efC6y*7ld0f23|)dSB}d~o7VO)&u{(HvJQWO?
z1p_xeITjUkXe5HsG2q>y_+;z=#{u5x6GMPL`sC|eN-&JX$0=zzHX09^xm|cEx0`}z
zDcD27a|i^(1z>&-kc<83&&5(hNrFlAMd<qZz=l*}V#CDfL=W&LpkL3`$!$BfU)mPi
z5Fb6aVd7fq!uZ&R%Rv4c5=6N~Vpn6s0Kc4go7^xl6phAX<HKC!ay&e7O|YYHTq?rF
zl0aMBQM@XGzvM4r4qewQw`$DJ8RM6~xa6*xnVh|R^B3o9`PvOR_r{E&;Hk?PADHZ!
z%U}M*B~R_Fajy2ZYkmt~w=w7G%@_;r+Kk~7lQpw-W=qcGe`nvEao&&%gn3hVq531!
z<|SwSa+TIqy;NO0b9r_$SKa=hZoYrvK(2EqU%fNyeP&swb?jcz>0H)jjm~0yWY##m
zGwWuz-rSJ0x6Ym6?OoRoEZIFX?X&A{hI96oxqjZh{`!FeS~U5k>6xjIOf5^U>bI`l
zxHh|PZp-cP{2|`IHRsxv(J#4ux2!j<vs>r(-`+jHm2d3Lx%(E*@a|_a2I<+Bxy`qC
z&9CDdH|E^E3;n!%XU4E>)zJGgyR!PaWsAn@nyI<bG~4izWv%q0hPlfNhWCE4^hK7N
z7QBD+?H*LtP*NGah@Q32wcYN<s5a23E^Ou9J2131ckwkV_!b&LdsVPuHpjSlZ0ItG
zU68dPW5<Sz=z{WSjQC@SOF#sOOPk!7)?Ad47G)8ys5V;lp-w_IucD6Ws%f2qL@w&3
zoXT%nX9LI@sVXfAfT@Y<qfDOi72QY`@qjGFfHbX?GOe4gQjk^2TWC^OTxxHL8l&0|
zO%nfiQWG){d`jK^^uOb}qZM=jPhqYXDO2^~a5xwZrml<!d!7x_O((kxflkmN6_ki!
z_`>AaCBeW*cR@Eil;Q|g2?mhB!<RyO?l|ta6O>eSwHJSVNg54Wc-#P`+K60D#UdAm
z;v?MWk@7YCC9fd3uKCzjTkv>q)!nR{^~_bx)a5*DZx}OGndg^WJ~j>eX4lSgv;O(2
zMORnW+*NQmGs&C#W`<_=Wv<?MWwvE@-<)U8H@A1rH+%4Qcc$w4^Gi10ubsa2%FS2i
z`sUWoadZBKs>Pa3*)2!2r_U_f&Sv#zxnp=YdNQ6AbRegOOFtfUjZFzRrU6Zfi%6)v
zqFVZJQAVLm>(hEnn#wHnoaMUIfX-GO(tv7E=oW2Sm#m8F#<WqrG^xtynktp&RSJc3
zktS}%g=u7n8q@l(V9K#+#pneEA3ye7p3Wl8GKKmmPg)-}N_CvCViT#jWN0EyeTm_@
zt2=|8=NKzO5U@L#jJ+O@jdcgdF2shS$?hQiV3LJcW{fj(jE<p<l&{FZAWLvVurCxG
z=hW+~$j7SV&Y-2-X#`U~arPExZf~%&FBlCyo*Km~!UNn{6ruT?B+8v5@`QVZf>$Z{
zJc5uxoXbO$aE<~ttBu@v1T9Sxfl0HvIIU|zcE_)k@?va-a3jd}EBH(P4g#P9r^e}d
z>vK0gH^bd{ZT2|tXujTGuz6;V-#UBq?Cgn~uY6<+X7$0WEx2TL7tFRh&+v}5*<B}A
zbX7Lv^?i?w8k<Ko+3tC3$Bi8i?2gRv%(j{SnQfW)jia-}yuIaHFD+;n)-GJRYh1Xp
z(ET0Py~bSIk?gUPeA`LhezL$yY`w|yFB^a+mVqW*k8DP}aam(D7{%qGCH%|9UQd=m
zOd12WJnkZLOQVpv5Ox%=549f@A?S1!76z55xIQS}PwTL}WTITjBtO^Vxl9(TJU3JU
z!lrdtfCdTLT?DyXd8HMG!<aT=8dnVfyqSvZa>&RvqXheIjN|}-lV^ZnN?n_XMTU|g
z6L+3+T|gjIt1#d~6$k>QoN=6qKa$ivHff}3(^xibKv*$0o`}KmF>V66{|Ww*M-W`s
zEH!Lh+;e)d;S7*x!D4-@?nd3${nwu_SY2<0ZiK$xb$wq+^kYYG&O3K<er?VX&O5g9
zj;#x?=NvoOY`cDhebiypDqj)|Ss`e6OB2%!YNMJ#toS!HgSu!{Ob^thgRsv~jO!6M
zMh$psiW+0)s0n}Om>D8L3!YdIx1xj<aoaUp$S(MgF{<h4z7uB-mow?Z#reUSLi2{r
zsI9CS>Y((Z3_4jE7D%(?q~?xx09?9mICWKU5N~^7BmxQ@5-Q+2JxJJ*B)w2vw%lbz
zr#e<`Tez$OTEfX11lKhM&_!2oT+O@Mc~^VR)sZ!KhzrGdiODz0Iz^M7CgRFY1h+Jp
zrm7eM^4iC)sCE=s=UduuXwk8%fjgM3+$3@d?qbU(B>BmmD()&CaMut(DoOK<AzW@6
z@u~Gs?V?=K?@|Q;1k}sUOiJu$C-1`lKG1ruzO1=VoIs^t?lX2$>5y7?PinX?;LYeH
zwOVj7wkskxjr&DvTS@1HY8r-$TvI(y?rcT&e@=DMny3D@Wm0)p8&ChkbC(h1UC;8a
zXS3#KAMdd|R|$DQD~1I#iq8aiA{f{^xHKMcMB0>0IiZf4oD_vVv1lZbh{Q(|qp9Rn
z?~|LYQsiGy)x_ze>F&B&U*?NhbF(-PZDKD)@r_-)5qVGUBnrs$la>-eCAR23j}Hne
zM|a(g8Cv>rk%2C0kpWa|p0o&w3Q{A2rwwU?8nrSF-ut2oISYw~48Q@}wP|CKf7e}9
zlW*uQs_^_kKt-g(2zB$cCFK!&0}98IHh)+p(_Gf5ZrYZ%Ui3=Om0w6_@VTe$c<NJ9
zrC9N)BW+9DnS8-P;j}aDOq-(mDfEn$cBNgI9)<x>7OQcunE8ySWzTz2KO=2IHttIl
zCuk)&MC?!mYJyc10u$vWcu67*!F~kt?DMgR%#SMEG1o!$$Zrq1MWFE&O8o~ETt^^S
zWSGfiDDeg*T9rx#r^xI^BSkTxL%J8|n+MXx;-bY2XH7Gn=SHKElpy{>qR8&A2sTJG
zAf1F9JC+pObR*8y)Hrki$)p=^E+S0%N8}@z+_EzNRQSnjs51XORG<965HQNj-k7zu
z7Mff0&0G2At-0pynWGPU^?Bbq-nTC2>&#dR^)31O4SfBEjH6J~ny=~MYkD$P7Tv<v
zY{^)cIyV=p*A%=>h3cj`D__07P`55$*UQ)S$`MdjAuDfg&p2ltkDQvOb@NB=g%<<I
zvu6JTj~86Or#0^h@t)B9An(~$yzk^ao#4JbTOlu~4M2)8K5yh}!x>wlaozmRh1c)w
z<{Nip&GiplYqI7wkAo^&0c?doC$8`(uWl^}Edp*8m+Fefs#MJ@(Gw+g0BV3dV=IGr
zq$iMasxnV~R4cC}L&_mloN`IAi!@m(E|7vnI41oPtYLCWv~a2pt5m$B)on^uOT__c
z^lT-Y#9swUU<K<2#8p{UvXHE7af-|3Yp8{-8FAG<hg(4h=>zuyJ$R7<T80o}F^v6n
zN_dk3T4zk0B{)fDN3&I22UwBvBC%YNqGe(&aaFV^_>h)egk*z}#CQ^lC{b~joO<TT
zOGI3Ls}z2K1}5ha0O6FajAf&yc1^yfo3H84*X-eI_Rz9umJ+t{HQSKjX`H=?iHtez
zZ_4|7d4F%tzbWs3miIq<Z|nWu@9*IKM>0<EI5qX}=-;*6w#<cd^}RV?A6A~Zb~Ze}
zgKyZ(n>S~i1z+pjDDT^lu`Idj=PdL6e6a6s=-vpw^YEhUNY*S8xC5X&%@L;DibMo!
z1OpMBgtjXp*dvkGCx_ys_KHMAuxcDXcM-BsMtF$d?G5ykyG6mTQ@|kS+Z1DHo#<qd
zz~U%I!T*lG<QW8SXntI!HFPc;wT4aewJRF@P<+pPKgIX_81XgB#%4p1hRwfhqL^7z
z*RX7%m|bIatT-t4oYr9&&@SwFq@iE7tl5i(@ecWt*3rtVNGhe=W4f3=W)S&*Mz!l1
z1#g5og*j@78KT;<97c9$D(2TunMkGqiXOB*j3O-8^dXDTR5Ev%GPF!*CRjks3`3lo
zN{U2ADG<@4bqoa2=rK`>3V}hAH5nZfzgSvBvByv0A$6(*28m^ufJR)tzl6G=<i{G+
z3py+rK|cz0p-6NVDJQn@fT`IM{Y_*QtTOh1o>HMn{}()~lm<9y8AeH497)Blrlz`|
zIBtx~P;x({3W-&~BCBb>_1ewX=C;l6&DDf6R-mI>2X7wC`@+00obzqO!oaet?c!^@
zGPVb<hS@=0;Y9`n6C^AVh+=@d6OnOIZ(Sze!Z#K_ihu|{N|hSbSN2f|a{paFiXpAz
zJZYVJ-4a}e^h+}hQ6=i9R#jZ;^dVA-_O7__sf`fN(uBjsNOJuESMteANUZmfL$Hir
zj&UGQVo7lS-$Dxak13$FE_j$_f%tJ4XiO@lAq8NwgLrg~rU*v_GRNv<09=8k5-TIW
z>2XnjN0~GDTF_1pO>OwB)23M9XLx<`bp#-1>;TB+bI0HGuK%__@88e+_vifm8Ry4a
z_ROw-Hw?jk-C{%Uy;B(%;E}^Ob1Glc#n*HdYTNR)>-ky`G41)fZoaO&(AZvR2tjaP
z+r6SO)H;`SCO32oCW}>sO)0!OWaZwWQTQeW|A+$m5D=}VI1!lMp|n~GS}FJr1r-qW
zJxZfs8Gp$O2;R^vR~ZeR^QHye!pQ|Q-?@W?Q=NB*SLkQCUbB0z_MydVus-nkmJRqt
zPkfEDo91-0+xhCYWfLWtH8p|Rec6`YY@nC-^(~y@eLI$^5Y!UZz#|)CVn68BWiVEn
zWh?&>Ps(8|K~_Lc3C<GCRqpg<cZQe|260BnL`;yE7$GAm&1+zHW)c3%aujRKT9MBd
zvjKYBV-Aw*0y^7KpYxg{<P@4qri)^0a7>aA2u1)cSVIV=;&fr~T9j7^R=~T67#CqT
zk&MzsD2BoAtAN=ACb(b0GL@c|{C-x@u&M||g=~zPAp+5n2t*NI1A&1^9fdNzGF{A@
z)>FD91tbzL%EaJm^1!H00zpI?M)fqT7iIEN>0H`)Q6@E&REZ^)>Yy5S;c?nP+8xy~
z@+hUHm{iNO2_s`lYe{&o=xnI{z+099K~LC3aEfq6<ftxOVIpwB&J@Ct%cML_o)W4i
z$Y#q6p<9I1vBVS>NlEZ-r1}D4ViqlI?S(8N$YY`<4@`pMBsNoU9FxZAqh$D_M`{#e
z^9fjA3C0v`xsoYS(8lT~6{tkm{!?_1`)3r8Oo_XTKmcpV41T~D7G<JB4dK-y3mAbc
zUgQADIt(lz)u%$|dLxfDvP^!WGX2Ak7lD<r#Qr^WYV6g8VB7na_bl%_-gD%Gd-&j<
zf_wdpo|KGv_j;cGZ=3%d0%#t2clYeNth;;e1;p6>hM8+w_lCJcynDlnN#Ekk+M57Z
z+P7x6_VaBo<l7GOZHMol$h95I+FJ@6_udQh8;|EVp5-^5Ex6nB?rzkRbB7`5@1>%%
zW4yg**{yN6WX(Z9TmWwn#3J_zqBwK#<6sC1;`z<@^pA8^;@ga3ZU(~`4?oH*nuOZY
zZ%G2DqKuN3v~<zJV@sT%ZJ8)v&ZWlxMP>26qR)DAzDiE&m+(GFJ-&w@?)NCJ<GxSv
zHUxr+sg+_;Br;6<f6$YEgCI$*f<!>%dTJPwM#o0T<}6thjZAHRGCT~cmLk)SWDjb;
zu6bnDxP43haNfTa`sjr#Iscxe#*O*L?R?|*yLGw7y^jn!!hcYjh+}R>6JSIMJ2nR<
zcgaW-3Y0E0B5b7pJtAM#d{z5Z6Ul^cr~?ZXS}SS<kYj*vTE9xEQs7;DuMA=UOw>r^
zubHCS6t#_ABUKqwMw`)$K=%KJecGtV;i9@5rt?~b|0YiPLs@V6p{#m2PohxMfMBKp
ziHt_CKBhS$W_#ra2!366OLN1hP97?nq!PZMN{t67(d(dzYF$(lIe;vckh|D(79v$m
zz^KLKEiMNPz2Ur86b>jn1?K5jP=O*!3z-B9W65b&aO?0)V7!4s8H#|HahS5?4*>Kd
zs^&W7H;QDZU@a;0YpfzMfq_X3F!#q)gqDc{FRx#}F0K$4H3C98$qaJprO&c9M0x?X
zw`41s4DX7M1L`K9W&BD>WxHv~jNrvTC61*jU(><Ybj+I;d-vyR4rKZt_}Aq9Vcs8}
zznb%J&m1bOS^Ms_+t>1IcJpg?7Xs_@fo?v~U1;jaH--78a3Q#1*`x_RyQ0wt0SN=3
zWNX%DtJh}NZRM-CX6;)=8jZmXEgK@Tcm``f#O#5MqEQd*43yrAIL;&v^_OUvE>lpT
zfHC-86eAEQp)NL-1ZcP{1=lI~It3q7Kn2+#fBy4KD*2o^$khy>ln>fe-`{<pv3W$3
z9LGC;&gl5Y?Xzv~hHi)Q4cmD7e>}VM7{ZJTA{dby?Bac0IbRRBL4T_#Sjjk-^;XNa
zZw>#A20xD)G>+ziKUk<=m#ynq3ap(wdM~mVIQ__^cYugD5)d;Mf!ILERY}1AZ`5Z3
zVcfeE*eLiT3J6AX|CWMI3fd_k(8G08@b4(7pzKM7#!-MRKbqt{L_paaYYi<A+||nl
z{DN-x`e&<WM`jy&Py4colFTA0Z=8LGukKj3P?D9A@^iJbFY&(4Wg8_yY*M@8px8z;
z_<-s)%Le?SzLw5;-Taw(8z0=fY@#Hy#_E}=&enEiJzcz|d&NSDz5oh&+m{Xatt>=I
zW=(zPvV~$`7Q8dvyk*TJ8*atfNL?DnpL|I??8<c{eYJ#Vfb_*ek{9p|x+u7X5hI{1
zEI;0GK(`7GK~0AN4Xb)OxCpiU;2zB23d|YJRqdb!;K?djj&b88-+~35jflu1j${H$
zVhqR{xJ)!a-;trIZlIuF*McOF`*s6DfM3S*4~i*Ts3_B#h>WTr=G8=saFPsPa3>=`
z(8RRPDlSzRtWi@5iF7;@&8k1w5&bSck5C`jm6D;k+HhS|p~ydbJEM9ay<*?dQ%M}B
zDG^Njq;@F3s9z25sHT?k0(b+hKX#?4tL&1#1fI&A%m3i}<u4`G4Q@!Kr4?<G6>rzb
zz6|u-X%rU&8X9I^cK+doKhONrpMLTz8J)!@lBZyHp+7eYYYG?miAl0rhqQKd40|#n
z+yg3=K_GZUz0;)_H%2=xNY7=vFdB`<#zY0zE0n2fY)r5)L-+yg<`B%7(2+5U8H<}O
z%-C~+O&5_~js{53!Jb`^()uJZ-vc}nMfg9WOqNJw7~4sbk%%nc6VWO6mv}tom6udl
zYBsjgX_9}Ahroo7>>7*nhKV=VFPa;mr^)CS&Gm(*_4M0NXz8HeW<VN;CvR`&?ag`n
zdYE4poZh^%jd!-q9p{}L4`IRC`Jg<>Q03@c)@dvbREKx?o8L9xHs|Zt^Y!cJH|M){
z^Ig01T?hHDgZC%1_3Lx>r!)FD9ZU5MOrYMDZ|&n-`xf@+H}B^+@4vr!vHlo)Ufq(b
zUW=Hyn6qGa=j{RB9+-{ho5Or_IN!XJZ{B&&2X4b}&FFvGA(FgBUR2U9FcMxAAjkj!
z!$A{>0h1-n1_%&TX<eqD)lKUaP9m*M$<r|<gN+ecM9lrFVg)BH0a)A1OOW;wNK13S
z<~7hp>>b8w6IviIBebn}rHv9B4^e>WRkU~-`r>J8DYXl5W`^EaM;cui8(BdDQcMrh
zun6-}R-+~=D5>3s9BM$vCcmF@$l55WeRxl44#UM7<%twia%eSgPU%HKg!W>s^j!Ic
zk*ThMblU1q86cf@;HeB|l(MNtDSj~^#gyN)UFt{LA&ozFcc_oK%t5NXCrXwEWSmiP
z$+glrsfcBiQGiDOf5KQpEMvP^U(pEMp4X)9zp0JtZfbwq_zev(t$tvttuqz85S-`@
zUI|Y0g<ww$i$s=mB^2yL@&wr>0_2=Wc|m&tqMBYodj&szOp*hg{9n-%D~!O#U{#Af
zdxD-xSq!Pk3GC_9O^r@){|Q-`<t_K0DfV9|AZe*!r2Ri*Q7%e1`pcs+)I2u9{eUuj
ziXh|^S?M2B0x{e|RRVUpi9W##%9ZwFK{O*RXTc%z7{z;u2O-ImXaM(!YWc5Ji$j9R
zWZjz-AS?pI^D>?!2{$k@Sq?;U*#wOXjHRMev`b5*O~S>bO9V%w2tWW^HQw61r-S!&
z6m5ZRH8W%1N_}{GF0p9aywuYETeVqx^HR^oh30$Bf6{Y|cZX&ivr{C?fgEQ(kqhpc
zaTFTbZklGaGrcoIpFnWpYbp447HaG8f41-D`9hsvi9K?eTf8%lWv`~Cy|f0@XMWE-
z-;@h(Lw)77yIb?_5MDgr^F#Oc<rYo&xOTZs<6D=tw?A+-<y~ue*V?&#b0@MesL~gl
zfxNSocec*;@y>M_UBTax_jmLD?hj9V`|O>w3#UGK?e4yu|2e2R>jUpPZae12a`jvC
z^*j0cop<~0rt*7^@_UZv0Jt4ehD5G@vv>zwFxQl077E3};<E>?mdteC)xx`4vaasA
z%?RebAGx}-=57Yafs0i{_e3^vjQl5z#|&fzqqyUZ!v=qR^&*NKjzMG?xufMC(ig`Q
zjmQ&me@5jfI6<HE3?e@T#c$Qr`5%Iiw?3!=#f@L!L6Fy=_KDE;_<lmqmN&K;dLGm_
zy=%X1Up63)Ou%+@XQDfh@vgT5Hv)fS!JSBk(~E}jCtnifQX#lMtpV}P46<YTXw@!c
zkF7#_W7n=Zs)Ln2B(nIYzd*M1MN}k;>QRICGt?l{h;k`2mAYmDajqCg9%OqWX@i}p
zS!HrDh<#ypDpZ{t6SNbb5*}ri0{CS1=r!oDM~9h3GF#095aqr@ITZa133UWlBr+s!
z^`(7CAg~Boi5Aahd>L*d-KHrxM!^6Dc6va;uh6&qJd(bmDS&kf^VXJ}zNO%8ESMc{
z*>BiCHdoK=hiU%nbKMK}`}^*1Su`KV<`c_F?L(ce+PI?88I1T`HO*!DTXN<A<!VNz
z8sj6%B)*(pS@snrnsz0OC#B33F;Wm!5d#G=)u0~Cl^0BvK}~uS)yGU=uq1O;)jUwo
zm`T}<da75g$AUVn__M`KO#NaQv=)6J_@Yj{TMgB^R%w%isoCA6&WV}m-v~pymG_LN
z!55?7s946NUL#uMK@Xga^&@k$8lm>&==u2Q#2IE(T(a}jD4NBV$>nHP&;(ogPatY4
zxIS=oPvrWvYMfme@26GcB#=Yq(?D#<oElnDypTgC{z|wSxAa{3MR~7sC&fSj&>E<?
zkgEDFwNz|;sFKVG(HaS=5FsnamFm@NCNeRqBNHanAQPX+t1@4ZLvEWwYDpw6p33}|
z>Qk8@DjBVy(mpAMcdL*zNL3jviQvM!Wy1BzwMWTR;K?<~-wHW9q*f`vQ9~*u-CbNS
z#gt$5_DiJaMH1pyTv3_8kD5L-OR`+823#w&YX&IKMx)pif~{haVQf?c!<iK9B+8fX
zY^8jt5lU^C4Uj_xwws$VyrUpmG*HKlC)uV@NM^BXoH4+Ryz2+|YXz^Hgx(DM(L;6I
zU!akUqvUD;-WZW4Sg@NPbQp*zE>DkdQ1I6X1S32ET<(hscG8;3&2ouWpsW<_E9ZWd
z@;aDit=Nzx)2j&e!$YvOjL6NCiwM4oC(M#Zu*eVt1ftX@rBK5JwteA+Y8AS;*m>$D
z7dbaMG6E9|#;O~!6@836OT?~DU>mHY+F^ZX)C0kvV6c?aUZW1dWVZWV!cVmbeu`ZZ
zW{1pl*9O4R+6p9p?&AGjxN#O5g87CnzJYFBWjCL!X(6$6p}sj^-^JH=!AR}h=G)Cg
zV!3X+3e|PD_T1c4@HN7KGYAHF5y;D}X=-`*=<TEPsc(Pr&KLQ>v-f)W#{ES`za`()
z!#DLXc7Lg}`vW7z+Lziof2*HjElaI!?{~k~J)g>N*voI&dvEg}KKuP=bFC-n;hLrO
z-QVuM)4ecxH~RZy-yO@XKSIeJ56t$wIl!9(1$zT_ZoYN+#^G6?*twj&J8$2_+czz|
zkhAY9)CC|!w>14kqnDIZR{5hP6}v^j13v*nBlL~f3>qD|_PF|=fG<M|{|!UD8uzZM
z`j@$P)KI)cvI{D0RT+S4ErgURE=BJMZd<FWabyaAaQb@A06zidv~Jom)=Z*FHK4@o
zvytZsPc4cL3`%|m$R$uSZA}~1Oa=e~t@vk>Y?07bRU-meSix)nz^OQ1(6`CRO%0)`
z^8H4VOJL89DQf=EqSUnN8?k!_`wfe4yjWK;z_>+=s?c`&^0=t&BuO4%c5@7rofn@x
z*dszW+9SyzpkOB7EF^C0hiXR8M0R@GOD#A6V9x`#jzg9QXBu{{6J-RW=%PeqSuK-e
zNqDM>LGRCi9^o><1p9K@rw2$2j~v)!F2X{q<nLrCUfkY0F&+o|$^E}51fzKfd^8+f
zb(L7Wb3{UNZS>kA%q(uYibWZ>3M;?Z70ImKLUGZg-AjAWnMJMy1d~ZZ;xbPw>7wh|
zHe<0J1Qa81x-(87d1}KdP;9jVzlTO9T?oJgJ7EAID*yBKTlxB}`TAXa{jR&m`T9K>
z$AgCEd_yna(3@}A&Npn&H$2ZbJb$k@*Ki=?df=?jJDYiD^DGCBGo$;FEdY23C0u>e
zjf2q4&24^v&wG1#e;-Sl^S!_3y)}IO#>~M_n%2!tFAVb?J914svyfOeKmkQB!H&T!
zn8>wT7LqVlXtXk`vBve{!-bZG<9D@p@$TIj*C!2ucYAL4<Qq2e4Vwz~#)3C6JDT-$
z!VtL7um(mAjhkUc#%geCRBDhqa_`*zwYi1?D7;+F(gqh!kvv$)R+{0iGCw3T)cQX$
zgk-do2CKlVy;UL4Wev9us~<#K<&`#Et-8vf2`tdTiVW+98Ox{+!O{jI(odFoAh}ps
zCGI8Ik=9>&6*F>3+2XxQD^%O22Fnx+3nqzF>CuyApHSzhj?iZ)B{6Cx{UsS}8k#N%
z(oDn7V3i&kcA*^1pH$zTE<R;4HU@CO|LQKquAPDzCfxVo^C1v)Fn8q+pdMz(Dd;A~
zC%9+vKvL{7XdurWZV#2wlROKKaX|H5fbxM!w+JvPdUULEQD)UT5+j#O5)7c-nxZ40
zNPJ{coP<+5R$1pyFZyTnQZfs{iZ^OJ-kILaWyp(cu9?mG>Ww`9+cq-6d^>M%pNr<~
zUGuN=_Ko-jc_QXm@QF(DPi#)w%GS-hx^uRk1^-93olA|)1-DNWR59!Q9^TiJ_rVmh
z7lteWXXY??bkasp?Rk5Mw}<At7wy~F8|f}@?}1U$e0<UV%!4M7H#_;Jop*QMd;NaP
z{ZqN769gpIgRaV(TX=KJTpMrhD1@J*`*!SinTzt+un)jtZed*hfN1gqCyk;QvTW_j
zZ0IgvAFN%insJE44#A^OCo1tER}oj0Oh4GLODhc$=qJ~sqk3kv+>7a|>o!HR04#|{
z()DGkL1sn8Gzwn@13PV)hF*d61(?4oY>yhFsK#nS+aR-VWC$oRUQB*&QQj%V&?1>3
zlhUw?tRKp(j?{Wc!fk3gg{Vo&p+;9k&C*k73iRB!(z-AGX0&SBk&-C}={sP*n+{r*
zQH%w4x-spEd)hPYO*_)=w1=r=y%bKNnbXy2JJPGaQbq1BBo71AK8&4;wju3Hd(z&h
zOx38iQ~u5uW!*%{c(|ihc_eF4Ukz)8FYUb8q~wxfX`j?*z{2Wj$D5b*n$#NU>BXQF
zQ-0G<IQFnfZ+OZ)w5RPb4z;7NYn2+L7&KPJ*~VJP@|Mg+($*B8OC{)6`UY=9JoHW3
zp!LhzkaOTuBJmi}_9@9(rgq4{3!G_im`Mf6L(jnYSS)zuLTpTQEmX854TA;k43V3m
zE#ay9bHR9U7|M++Os9dnka!E8)(|Bj<){A*PDL1TcuFJ+&(bT~PLIjESIcTwTqEra
zPI<$@16Rp)P%IkUOim!SghO6NlyPvOs^R*nA5jX{((PsnUZQ|j1vcD|3nqB~BQJv3
z_)sJve@58}{)-+S{+4b<E)>Eqa$Z8_exX{CQv4o0l>rhfCRi267J`jxg*t|9sW26J
z?-E|hE}9-i*hoMEz+7T543T71D07kmPexAoA5t(!lG9Q9h?p)RYIM-y2yRjPA|sh3
zqnDE;Fe;%tOQNFOmL&62&8uM{QR(ssd6NGY0Z@%wW3SKK8hKk|&ek;N`3RdJ8$0ri
z;AMLkT5^q>GlvVdx{?ezWN<ZRU2B(Wg9YDFP=R&cWlfdG3!RClDerFO-K`HDMu)TD
zZYa1Lu{9Z%ss(q=gT^)a#tnSqhI}Jj25rqZ?&2GFWezVjw#~ho-E<_^IDj`vc^2%y
z>w>e2_<}39@no*?6dw88^Zp**-!p$M=kLw?v0ZG(-PW9ccjnNKTpjZR+3x;Ay?@5Q
zR6;Y(KW*JObEweVdGm#ty)&=Rwt(cEYndB*uYJDdy$}QdGy4i1y$kJkbqk??ete;u
z@7R;|wLPd0<m<Qa^;=-IdtZCM_kJ{2fAY`#!P|9np0^wR%)jP#?VNV5_if^?YdWCE
z=-i&&d6@4wjI!92miL8tUnskN=c4bKLSW6!1Iu-qwY`t(HO*_^ef9RM^WnQgi%rkv
zn-1|!hwk_0nvTq{jS9_VE3DHrch0xv*B|89AH3h4TYr{sIy+;<Mp8Wd#2bLCCy%e-
z3+8=oyss?>-BNW&wqpkb=$>cb<Eh#SJ5-00q1HRv{*d-lGCILl#ese(6yKrArDz10
zTIVk*jn)Fk6acpngE<DAbBgPwA9F*n^}}sss;KZ`Yw71yfF>Acp}>luRNdpFL<;^9
zJ)q2_?x|`pShH(3{6vG_<>$4UwVe-bt%fxZeEwU9ZysJYAWrm-Z`njKvj(<c7K&Ll
zf#5RbB;zio>sfKo-65^!koGW?3)O~JeAainZ+9=Vcvo2b-LzHw-PgZD>B}26J-rV+
zHHDUS4;_65=Y!hDd~F9`+p%oG9bR1*xD~${pF73ZhL%l~WCp)AdwOmYEXPjH?dF?$
z7xv$+xtqMV?|${&X@18Me)9m|G{Dy%Em)l}((t>MEmX`Ysia)EW8Z=ehG1uwlSPwz
zQNm|RO)&eF;ZmA~=mxr9nZxigmjYFBO+q^j2%+Er1w-uDyrmzmI<Fb7dJWhZmJ>ub
zu}h5tQ4C~nR=w%h6UCy3p{q?Qqx@ojtVXeUP&1j5@QvD@TkO3m_6gY2fHoS7Z497|
z#*#M5;@^@tLz;t)dL$~>OSPc2&1kI&Wo3JZwCNif)NDrGI@W*m0x}*m=ntSfl2zQ)
zy=l~I-gKa(1yot-d({N)mQph=$aAbGF{)bpP3x~nF=H{N1Epuaq6rzN4(yG`d(Oj0
z9rJ7lH-Thu9|Q)1uTb1T62bh9k=wjs4qo$u%%fb8ym6A>*x-3Mzncg%<V;Rz4D6nv
zPtiY-UGOkBLcqc#YCZ?aM^vzt-WZrLRm5pl$V?z`h>u>130B&}A-0SoN=>kn1u*6u
zdj%ASvCE^tWa10|02#Rdhk{oTKydO4w2VKcga~4!%*Q4VZ3JFNSYIKT7W<gQ4iMH^
zp|<h~ww=%p5&gu_C?~kaIrvm9DMk(h;NVoMhUQ=;8WU=iE|8Dl;#hL8qeUT1kYoXc
zu513IzU`Ce4%|EcFP*u%qu+Pl?S03PukYmRJLdyGtlxUinbrHUbw>+&^H-04>1e@R
zKimD`SU!A^4<F2hU&@DH=EE-o^csARG*t%UL#yTm?O81_TC?%v{xf&`-!!~syJ4H@
zpM7b58z1Ofc>agxZQ1@aRH6|muh|HvdVw|BAn@5XSVq+uKW^MMv-uCAcl*C)ycf+F
zvyIzW?GH70Mmw7u$YOVPe4%gAxAppwf~`KQum9PP{hIn?+MoT{iVA<WVno&?(e%F-
z*r(Bde_hKygZ>9T_dcs}7>V*FSqH70!+?}4Mag3i*_NvD9C!j{_B&8#V+WeJ3k^Pd
zpw6sfsz@u;-8QJS?W7oIDUO&W3hH*m%har{H=Kjks5_==4FmP3W0fbK;=VS0)Jyx-
zqSdS9^R1Fzvr4+y#@Z)7t$X5Ar~1<od$b-cbumS%8&U_q;1WqH*-`b>ZX_H&cq}M-
z<Onj_lN^BthoVChM8=L_!(H(BmDpHccuS9{fR#(b2bl?9uK$ifuwyg&m~4{!BYa}P
zj>=>g)>sN9cM)k5so<JS#!5Y7b3s%nSV-%`T(3dIDO%Q`O`@^nBr<UH0`4-!u24Xm
z`b42WBJ3hGWW^stMK5EmRcM02;+AWI738GG9!tmqx<deG@hT}nZ>qRTO33WC!WOF`
z9f<B_Q$M^%W|W^&Y87>W#K@s0xpfM|OV-Y6VtEL<;4q8)kAV%V`X>2^EFxsoqoU76
zo2A@(<TgkmGUS%^yVzc%i6{aAGwx*7Kx(ZtY-o>)ksMNkQV!)eZGvckzAP>>hb*gK
z6Ooa!dY!3tVo6v9Ls(LIl{{Tv`Anm^P<5H!CZk_yT}=b0rYzyt;fS1ODkOP?bg*{~
z9s}8g6<o~kEfc(pQ`)N}pcG5v{v!%;^3+C!q_Sld>S3}*I9aUBCT=;bSPCI6TL)#D
zScWp&7|LY$ja)~-`dC8Tkt^d|Tx_9;A)8mv3Iu%#j^ifa4-OG4q0$I*6E7Ia?Ju+<
z&64RHdF-GKkTM`){S#VfL6@h&xi?eU!H+)y9F9aDf>|0z4wM#drBM*qI$P%Sb%ojz
zC;69$K%$H>$MGCZEWz4;c<;#<BYRJs8W0>Oj_x}W*?aKRffJGby+RFig(XEL|N2&u
zdnVY!U87)%0{L@PLK>#yrBx*({8CkKeFcn_b-a5B<+q^bpTe}dzQnZp6WX1Ah_5@8
zt2+#(u6>E__w#l8b9GR(;y%1RAKt@<_do+N`#GTY4NQC61#H~6E8qJ(-}`*QUNe)r
zmA;wA(?0ez47~1N4}U*}+J=1X4!(9rA<$k}1Jy+h*w8|4VCLo7&w&Gju^?GPzv+17
zrTlg4s7P4`i$Tl)-k>Q&N?d<oO_+WIpV+&ZJhp{*x3EYX?`|usdxq`Gc?b({INC+_
z+0BcMTTy!5`h5FVzJ2SGJ(#z5!Fex>gn4@yZX2JWZHVj8k{_B|8Q&r3Fd4#Swml^M
zVG!Mkq5P_aiB*wQc`?Bq{MmvzP*ph;9jJFH5S+n78BQzpsWTyJDi#SIF%c~hgB2H%
zGs-4I)<Pz3ePRov3Ja5x;i)R_Q0=F(t7F;>^Ix;#N(gV2p`_AKl3Pxb4@$FQ=>3G8
zMwU|+y*?qQi4-V!P7Hm;g;W`uDvw6=U$bN^u!%FifmQ>9z^ZJ&EFvr!z2Y+vH>QCK
z9j?fK;EW4qLPF<-Fc0U$Sb*|H$b1w2R(2uyb?r+UEwc`I4V3A$7Tr_zmV2Y>8=8Np
zy`_b9dW{~2H@~gBqUBPk0AQG@ZFNFbcq4PY3Q7k0SEl$a?)McTg<#orJ~jsP5$@Tk
z?n-#U*p3KIetEm1ocjjB5R&))^sfkvWW77?T$^v1**epEYwOLevpW{6+wWZa8FN_t
zOa6cs`spY#GYHSv4lYBGjqyc;^nm6(_Xg60M)9>GGZYz$kHaDcTSwpo1{OTOM5Vq;
z!9PF%2N_H+{S8X^C#V62ok@;_x`Os~L3>HiUKY%(I<P$4uOdBJ1}&dsLO#JFcXZ0X
z>KM@O+2jh|f!-GU0rLNG!<jM7cxR47tMt~c8@py(KC(3~c{?EJIQ8w<?!1=o>F0a;
z@9Y2A{zvwl_jG3818>c((9O{7-nrhHP|n+agZ2gYW`-V=mal7GayR7N@V&kDUg{6i
z-%o=Vs&{5yd<dzIf7bJ>w%Psf9=?4T7Sfr$AG_<HngWrG!&k67nd+&JxA(Eg2Hw75
z*<z@%W-KdqP4!Orwe4LPx^pe(-66HA;BwEj%pA{L$rQyeIFbxFZFn*wIvY;Hb)9%z
z3RBG|&WXoZh!2^+9AHDm$t}%r8hi#ev6({DMIoW`VvCCOKc>>%E3i_*2cQeG303E}
zX<56%cBYuw&J<aSBbKGGBp=#Bds3!tFnJ{phSs$0vE|L4LsRpdvKK~;7o^hg>RbX^
zr|k;RgoZ-)3JraaOj4`KgVGLIlTbY+geA2Sy_U&Ur8iuES`Q7I#KCG5vpo34R%AS^
zZvcMq=c5kjQnLBt#RjEzDMs2nlnY4r%I^on;NY5e&S=MapIWyHX-#!=KR6FfSE@y<
z3lb|+2|+Gvaikdl$<$@M(T)DNqoyg$DuysTbkAbmv_;f~k*-VDh*hVpDyhCS9ij)l
zSy|p17%xL#McS>$W<>S0Z@MPcF17WdOvXzo7%NsXYWdJAF(T8oC9}CUD(knVYtyca
zA*G}gOV>)eD?s<F(3vT7hE`F<m3F}hQ}!G%?JRkhGisN{?P6C&G2BY*;k0w?#8bas
z_v7W+*9)W#WpmIWwH<SCgH%RbUqJl?32@<!{#36R#}{|1za8wKt5gezT!bepuC!Bn
zBU}4*Ww4_z>Xt@ex-MM@6zv(9a-It&#r;Id;JIM53>g!3M=x2~j6g=kSbT6L4;Uz3
zP$+ApYKutN3nZ*1Bpj-m@=~=I#5d5Z5FNmt4*H5PVWnLFOifklftUL=q)x4`#6ZP;
zJSsT&HwY!sgfF7tgWtV&x8>J%%pT7MVdSvoyVriULSy~q+Ip>MX?7NO%&csxyPppC
zDiO03IglV6lTVI9qKG3)t`-5kc%s4o{1GY+3+X>;sPH)kxZlJONaGVn{O>hB|BS{b
zD2)%O`WEkxT6<@Wk962SF*}l7w=?g1=Hu4hpK-s1SCJBjU63AIqTKid<N2n%#kPsf
zWFK<MSJHI)&Yk$Wp{Y$*`^DqWo;0jQ+*uTChkvd(n(8@oI2awr$m0~bU{S{#{JA42
zeVMWGE8!_8o2^n?qM-(ntfFZpQdDoFC!#9qRZ5$nfDu@~Ob`0$mT-m0NfJKc-lPY_
z(F)d6M^Ef~F>-SMvArDa7~`N{0wvWi1laLCu%RAjvViC$PGggqXzp)O3+RGz9ISSJ
za(pr=m|yNcdg91|6DK*MvjzJJxG}`JJ?tDB?gr`%)r)i+Q54)e6nv8cQgm@-fXp4I
zfao~!+<;pYo2B430>Se7CE9ZjowHy?l&BCA<~yhfv>!h{M5lO}L<vPw(2jz_gFYGF
zt)o{36SToBqI*3u3acjyE+ZfopQIb3+&CJYBy=cq)fEv&H8RcJRNX48^-Y?3mk>ZF
z?9~K9`NlAh|K|FPl~kyofJ;tf+qdNGTQgd6fIfX=diHqEwdRJNNWy}*_Ez|2c+Qja
zu9e8KkG%))Y47#k8~QGYw1ZOW1Dii<YhS|7F7ol&J2y19ZhmNyj1HIln-@NJ&zbWd
z%^X^)uD|un&1Yt(=AngNtloTMe`asyb&#ETTl+`0_JYd~Gel^hvn@w+wa2pVV@rX)
zg4-kghvr%Q4~r+_uov5R<lA51@!$P|%x$lDEKSa@9a;8iu*cfbjN=#<Tes$0_wucK
zKXU9X)YfNSSgL85?R{r>ZvETie^L{k(ZXTL-0Snb?@jW7o*4`F70w;M-7{mt{=whS
z&hD5yn{DjQ)_3!@Ju|w`n)a{?i~Pabb);;3Z^McKcQ+j~x|x%+Ye~J(lyBSt_r7=6
zlKwG!^2}o6*%>n_&0o%L*q3YEKVyc5{g(5lbN1>F-JQ#RP3;Ca{Ag-@_u%b=bLSU&
z7Xw=|N0uPIa5rVwY=MZQ$@!Pg`WqL&9)D=iI2u4}mvw#*-@4}`$DV?#HuFU`yk~N?
zXS43JOMxv5Lw7xQ_ujpd3%qdS$S2<Bf_LMBPZXhKH}1Q)JL^7<>PZz{1-~NL@a4aC
z<mQpN9(by}VaXV0v`e0b*{#{Nn{uAb@B-_q$%wniL!Jr^wP1>1-40`$8e8pmXcgVU
z<mQNZ6E`H{6x!mh2}OrZ`eu#+lhrlUq^;&C*u@YLBG6EOtbYMk5SzB)ix+zK=6eqF
zJ%<as_ZEWfKd#xtb|?DkmQ56cFA|(wL@}$Tp=sGhF}tQNG`|_AIxRcs)=8Rd7scF~
zx~^pp#k`u}=7lJ~X6JG>-TE{Q&C9IjT8-8DlR8SfsI4{B&7LMZfn^P%^Ra~kzkB#Q
zhwrV;Za%<=;W`$H%Nw858fqUvUkz#1vVm@BoEw-P-NJ6I#Z8iPDQsd`wy`w0&|z8T
zHuJuYWd}=hYP@x~0yhJ5dfwBv>|$wdNq_C3TTy{cV>OI{l`n}sS$P>rWr`=su?ZZ_
zMkU842Iknrh=U?X-9#==OlmB_h@QDDu`qQDl&{zoSpzTy?aB$puN{yKEk!GB15~bn
zjwjKAf#D+0!5T<$`dj%01Qluv2vN$_79_Y@&20&2Hko>5HM2mXJZa02D77$@?BAgQ
z;r<22ORxYH$Cxh*9Eo(5lI3UO7FnWk0HI4opUtZMl?9+#ny*B*|FnFQOLZ;ekLE&6
z1AeRpv;8gS4d)Nd_3Y!7(LcoWu%Wq+2pJcki-=WT3K_1xtpcS;?on|?b&97hHMt)M
z{UQmiUY?EsWbVE3yPB&297hD1mf{zY?b|XB6ltL4JtDn$8ZF~sAp!yT=-A~5om$h+
zHRB%6UFqA1ghm&|*f+UE`Pb9);t3i*K)j5E`+X!#(H^A7XJc6Y&VNFm=P2req@}tR
z@`|?(-8l5lmUnmI5H#)l=5KGmvwh+C_hP?)>ARN}8xP$-^~W#&(aU_}Y2JS3p{~kj
z&6oj)Ee>&a&+OoQ{oPpB9QdJmKl_e?Q6$0C<+=YFZ!LA%rzT-#GTP!7Kz8|3`<D1Z
zYB`Hcvs@Gr9IjAYd^n>Fqa<Fcq6X5msnjZQBXAC{!>Y$wJXO$(FyjPf+=q|G;5++X
z^kukzMZrr51Ouoac$+LPus@(A9ma{B%EN?sL;{u2Jx%JLu*j<{(Fc4HJ;3sER=*X$
z5ii)iwC!v6&E5Ix4!E8o3a960Pu|<kd)pzUcUdz!_z3jW-m=}a;pj2n`%UjP<=h)G
zhJwqNv9m81(w=97lKF$@U{~=D;w5%i45hL8M{}5?c_#LjS!At_!@fruDfnY*^G=in
z4trRoH~44wEo<;IZ(u)n_hbK;!T)2s-f%#>Y&RKdW{2Uf*HAMTdq4hO{BI~K0(q)z
zm^HK*NU(2(M6;zpp0+x}gH_Rc6?Q}b9bjuUd{;%aBk(xI#Lf-|>{S6hZNdJG2*85x
zg^kNc4j&s3w?-;DB?A0q?yArV5xD&ZdQt)RVa@a;xUX0wL1L{k$t5lwxPq8$cEJU1
z4ZLNm?05K}m?NsijuO~mOzX$ip<Y=5QGARa>>&dnjp|7naaGHC$&HrU$du-TjTdo3
z>{72)y$)DzLpe=8w$nODCk#+G%e&3cFIhTMs^nH{%PQ|IuiaEpyR7;yI)@VM=WyN)
z_I{qbMy^6k%*1JE{M4t<p<fJ$PwB%W!@YNK))CG0A0e5g^o1NH*tUkAkt9K|78R)E
z)X9OMcmO#L-xkcIm?b~|qGs8{42g<oI*WQ>k{k*;yiU}bBGw0>!*DixgWLqc#>_Nu
z5I4>~6|p!WLIN^nc-$*bTN!u%C9TsOG6Q#)`Gvx19zff+rKXN~W4?0-{90qT6{-Ci
zeq^hgJ)DQ5>OgNUuqnIk1Rpq2XlTCi5(rOEooHk`cY=3!%=f}`>__gC3$^*)gM9D7
z`_O0(WKW#rdr!jj$WaeHr>_&BO!P9vB5l0A?c>nq+kv}nqAK&$%$`RU1F#S%3AE4G
zE@zVqu9E+k%_0CHuDA?45nf=_28|@!G>ROR7Y=MLrZN$jmYoq-#3-eCm3)jgke8v7
zN68`A1P7!diKgRnG*z+`EFzG$95YUy81^!6vLcV{Q9fc3KbX+2<g<7q5PajBcemf(
zJ_nQKK4Om@Gp}QtaM1_X?p*y2_+nAX;tBwzv*E%~Ud;ICag@MJa}_R!;RS`kSsf+(
z5p|A&zo4l`GBYx~HH$pWL!2vNec%o*8}JJ{Lt<BO@Pz1Zg$|xzjt!kZu~F<ft=`Zy
zcl!NT-vcj#=tAsw<KF?kKvewP^rm5D^x@C3c(Vd9_Bg)q#&l|sl};9j>fQmfK==dp
zXd*T-!WxZO1v5EmVfe*@b13W#w^-kB;dD7$%&MmNgw>jQx?`1ev3BPZpSqs-)UEy$
z)?*%6kD<-*z~}&BQ;n0|88$mW+d*TT=&KI<V=K)g%3)5$QyJya8X=%fzbhnvtU!6#
zL|2LO)Tl3jeyV|8PZ8FuQvE;&GH{pbVN@X|Azi4S5Hq_<j@?q-u#LJ@wCYGzp&Cge
zF4|a;wG}(=p@_K4keNiptmdUdg^&3RJ+jF?BILs^P}gFML_4nHn4&E*fdJHJ9N_*O
zxu>jQI)#vAkz?4E7{tf>3}!RHe~I`6M>{s)!Rs$jkLWVuQ;M-V{+eR{Hv+-QWQolG
zVFZ2_1)Fl;%S0bSwTeX%<c(6ZN=x)HsDh)p;}g;z$|p`y5i!!&V2H6CH8wuJ24o!R
z!l)&`gK~r;eI*7yW&RtM8k-nPrT@0`j`MDRe%En+*YU+h<~5;y$=?ZlmapyPYsJV$
zzIJ0F(3;1g*@3WZmou2H?xdU6ZG}MBBafwl@SYRz3^YHX?rJz)@XB=%#x&^(W0qn-
zRk<*uRf`KkLz7viReuLJWQN1`>Eg>)UJ6oUXir|MN<MMo(IQaJxkFx9(N7^0Vq)D-
zM3}5@d6|~hEg|Rf8bvnEz^x_-2Sc_*lltFN@Mjb}Kp-8KvRWy@OlQbNaVpbeN27=s
zxj|*_6j5^zO&#hm6I}aRGG?}qhgpHc8QM0{HJbA_ynl2Q>RJkoAqsts%QlU_11E^U
zLd&u2*7#en)dON^$Aju%#>_B!MHPy7wFmV<DYJssxjc2$S;^)pGRz9>{wfX5XGZZK
zQ*H{J)LkCkEkW_3Yht@5{JgeIeCdIUVutzgTZ;MVmOQOV<shhZP?}Q~RJ!Qa4MF8k
zsE*}b0Yj54cSO8I>_~SNQb$Uv5IRy)h0KwX6p<tDMB;+_IIPS=@$gi-Um?$6mCPvE
zQJAMQ$s!#QhlyNHPLwdEbV#k~4Ox9me!hyHyIdeP)JX@403i=uPWo5kp{wMcPyxN0
zev7TZ(JiV(idf@nB#iiU6+#C7$sF+Rr5L5V1xMMkc#Kgd3-7Y6)r64<kgU9ju!3rM
z%&xmaK&ra=87>u6*=7JWU}ol6rSuq2lVV_^#uQ8JGaRbQvL)bAnJtG)k`n7~$dqVt
zRa`03;IT_>{7atJOZk*v*eGkc9g0`2&(>NAP;!Bi+Epy`%6bBEv|^|J_v}eP>46k0
zX^DyfOUYBUQP5)){HYeHF6PTiWu%!Xp=7(UVgPfoO)9JWraGiJW(<TLm6tS%w6UwW
zWvm-W%$(|ya>{fToZY;w`6gLKs<aB|P}M?H@!W_lWnn#S?vl-~@Ga!;Rbu`DXF4>4
zrIsO=JX+VJZDF((%rXE<K8>{|?ntIp*MEw8pAzN~Oqs)s21|xH5|c7>hLFF6jAJAf
zqvie`J%0urW|BZbJQXZ9GDN$j*v4X!C1BRv46%Hj3NU@Rhe|PB*>6+Y|4IQ-g@W}6
zJNWQ0OwXB)T=1|hBBB#*v0)6c2*%<Ki36E>TQXLxAo-|&3gs%8nY}(t9R-U>YC>l%
z(t*UI6zRZnO0ejZu*eO`MBouZZKU-lBG6e%1QvaH`5MIYSaH??Md=(oM5_aH7QQ-^
zF)sx+7HXT9ymfhRi1)%?u?til2(=~<YOtjSnhLfv<7=2d=4}Dq7Em>(Znr+v=<HUA
zPFy`7p3e8|=X>_&diocgFD$`Ig&hr)*}rISDy;3G-{2~>$yVCrJwq|qwiu{>1L}tr
zBTkEbf)W)isPo@S+)O<3X<9qxF6TS;V59P4%X2H$R)_PUSJS#zJ9F@nN8?$G@hG(P
z6q?&+U!Hq;esunoY~zkXOMAYhk8kNKtlv{;>&&-p=i9dbSBD8(wcS+oA=R>?v)2&?
zY=hQ#&E|y{?`gktB-i{r*^)P6YZ`JSiBbAj&ffkt<}!^Ek(CUWd;^hE4TJ>6iL`{_
z+ZL?iDn+l9t|FnbcuDeq&I_2JMyAS!bTBDvM;_qV%1hZ0i#*%(AgCqDkDmJ(GIKvg
zK>p@no*QMBA6TrvM`>Q#i7#%lmrv8uVfK{?gakV_J&;=g?5s?trpoEiaOtyYn!V4X
z;_I4Enp)mI1CJ<w+RzD82A6+!{kNivuC9XYDR})4-CG`%-H}725N4>mRq~M{vJ<SO
z)#6FZisu<PZxFo9H&t1hxRI-ru_e^WK9Uu@$7)9ZK-OAjdrCPgE?9wLNa%tUtKmzq
z$GrZIV*D?EYKuymmF>udMvmFX+NSNWBb7g(nnbAl1Z^<(vIQ;q3t`?v&^LCnwu6xt
zE}XILAUQfLD=n&fnO#!rAz!zu=5Q-H-aHGdMWux*!VTDC(#EbLKL>B~PtFZZNlEU~
z9omw_OdMJk5+4V9TzyFiPuipA-$fersDbf$ULZVKFQ8PI_DVg2zm@8=hlo>E-zf$;
zpO5*zsgvp`v&^O9?7{+;XPBDhtu#8xj*`()AyLZeQ6W<B{T2UnRbyUgTw0_yD8Fo$
zNHeqwr-;_zuNEWHs^pPkDVZ!$vw$smszRR7_BE~nTl@@BO#}Ri!2(y`0C5h+lrV3_
zC4Hgknz7EOwq<=qVce2dh_k7^4Sf^WDu|=X3&0ke1*hw<`=Sn>w5rG!I9&@@r$x{@
zZF<uK0BHgb50XVIDpP4Lv;7|8&huW}PIW6L^OZhgz;p-8n2s<s=P%&{u-d@=zeDkI
z<2Y=tV|v^FLXQ|sW<u>Qy8T;v{V|HYMzQ@Au+jsR)=#$tz(qF|WM3&5pvBqL#~q>P
zY#(a{A;id^Pw}*9vj;c!>?AzV=}J-otK2eG@sI-6JQ7Z@?Qsm;mm>zjD(<*|t|=+S
z0e_Q~o?D9NbWKn;TXHA?m;G=nR&qmyurHoM2N|p~%)^`{dYCl<+`UAk^on5=9L$>_
zw*HBP8WE#1c~uc9QGAmn4HT&ou~n3se3h^jwl)D<!9K~mChuv-kxQ`4s&9t~M4}uP
zp3Sv953hR<Y)vrQ%Z7GkL;IKfO>fr%t%*N>+Sn`k)?b3v8TmPBnIF2-zR+?fbhm%8
zX&*d<^?rYnCvPY4$1=b7_V|pABE7fA5TT7DWS}?Kwdf9)-2KoUhI}T_2O_Dp<Nd&U
zf%%K@p3?FhIr~QfxlWzB`}$(*-mHDiCobPxU%2swf+Lu1-JG>=DY(7tY`%;hVhZ?i
zh1}+CD-89VkOT#S`M?G~uwlWG3p|^}c051MP2v3;^ZxC;fBRie&i_ot`M_3_wKXky
z1KFmRa^AyP`(Y7>GrjquYts@O(Fbk^<}QBE@cXv!+V1x+`cK|C^uWLN-KN`3^CPoO
zIscZ-p$9d79DDAq&6rjp5R1F_T10XaZEb9yJ3e;;N1g9n7+&D!_wWrn^M1Hz+>`U~
zy>X}j?`(>dqGYI78=UjZd1uDvrWV#N^v!*duict?;Q@Wb0^HNS^3E%nBOeEFSY#6&
z-@B%V!g`!tWo&ZZI06k}a|pB`Oamp=6i&CNedz-@$^zG8rg>b242vzjzr;Kg?66l&
zjSeSbsSD##j;(aI$eA$%Tk}7sWz38oR##+wLW_}t!!$krGfI?5xnPs`&=xlA(=w43
zMM`B_>|PXVu_%ar(dh0ctjzM~wHl-MVU@|yx}rmDnPSWJnywAx8V1IHeOn*8c0nY?
z+%&*3jc6@rqNM);e=t<cE;;_$&o^ycc2E+wfwt0KD9pLQhGq6XMFfTnq6mxzU>JRu
zFA2k}kfoA}2+aLiMPQQ1i`j8_pl36ysa;4Mrs&>ObBKZ}_=|YLQ`-}t+MoE;@x-T2
z^`|55s0#uz8`HbN%UZ}Q6s?^_?+d4}2|Ee+2YZ00i^_<`A$oY_KOm?Om0?FxrGgE@
z0m7v00;3{RNKzW`a@pBL63vBjGUKC&n`BXk_M4!%;nNe;J6*^vQ=E!QP3;>%{H9gg
zG^$XSsLLkSii0TF*)`^H5y9NiDYh4)n}|P0PV9*M3;a}gD`!5AL_fPUZ^>Gn={TA2
zfvKdpKc#dh_S_W>-RW#DNh7eTY~dkZRiX?iwUsOqAdh`iS&;CD1U)XGf~N}-K55vv
zP@8Mm4i?z8RM%Fj<#{<<y^aJ37DGL8$adf&cnOc+j?eG7yDq=;D8KXQVlxiV0;epl
z+walnJd4hXe&iJLg3(08$%zaaF=f(4pOa0qUqobeO9|32!gqsKnh0!5A(gARX#X)t
zKT-+FXBIH0l=37~3ZyO4Bt#B6C{RaoET#R_V4PI+h&rV7K<*Xt_Ru5jdd6m01d_Pu
zGYo^CW`u|Bku6&95c-If?{zJ;-YatgU$Ty+GlTw=zW6yb803tPkUn{Bx7Qcicazc%
zoHY(n?u5T#rtAR}ZXqbFD1?HW3Tt{na5ROW5Nfi5FaTPFms3V7WH;{31waM)3$9?+
z92CFxe@72O#(u(*129Z_2d^%%?OP2^mKgZGN@KS=Caj`SrQlyv&;AP4S7Ji1;kbwi
zDN>3F*}aGfS+oQbviq>6cWa@0qlokh>%)a`-$PFWPT{O=Bu8k=2E<X{+KzeOdtJ*W
zx-*wKNwZLrwG6x2D9K)i-5iwUEVDg#Q4&;b>>MA_M4es?0<?ITPc`nu@ujX0qu25!
zDbrU-_^E;eJq!nmcnRK*m>P)P70=itQ*^Q|F|L9;;5+>dy~MW-l20VcDJv7?c4**b
z9p`JxIjzX2>JJI|EU*G`NH`aV(^z9pSg)AX+_e<(tv%+Bd17ArS5!4s+!GsKp=u&r
zslq=OYc$5Hp*V5^FZ!acSPg2|tLGPeG*SKNQEg05F&O5%(T6&QQR@LBs)eF$ln8tw
zT8_mBDv(8)#z{t_zkup0(CA~PnTinU2?$VzdVq-~K81k7bOTe4@MU(=jp(w4(_<C^
zgeho?rj=kX%QMMVvYO4Gi24{JqHZu2s}v6vg@GkQA!DGQ(W>2vLX{ZklK`BdE0zSW
zWviKx+G3D|)L2CD6!Jr}Ut9;wegG|$FN)I;tXxFE5Qh9niKrQYtC`ZM(J5+@IZ32y
z;OrPc5$>-=OG^B(UcuXGw}_?)wn-)+Z8j?%A*RM4X(Zdua9#7jRh@SQc~>y+>f&8p
zdDk<%>zTakdEWJW-t{8ydNFH$kqt$e@cI9TqrhYcm7_q3Q$@EnWuw51+?}6s7!LBT
zgIV*zCk(^$82G>MWRO0xuJR*SbV~4%S*_?<N%2lQwN8{Xl=f0BAGRE8k_~7sEGgAK
zeb)SpIP=R15k`Rw(=wDUnQ{sv<tda?nTZU*7<L*ML>J^LZ-HctX1QbsTtUt-GLFb0
zrWX;#E+x{IqC1Y#Q7B4W;P6C~>_S_a#09?C*{mn>L?TjPmjW8Z-2xh<^iXcWBp#8W
zc&4Bskh|{%G`NMcD5KingbA&(5d(5Z8B|gM@nRBbT0OXA@=vD#UJ0+k0g!e-{Gq>g
zws>wTT<$;-Y=9J0`=%Y6aS%)5)RJOKP1ICOftG;fX~z3YKbQDQ&6h5yr>pI^Qk?Ew
zh0K$CiAZ3=N>B>hiq*k4M%0p$CH3-#6iZt5tQDzuQ7e<MR;7(&@GlXyvRcV0kA*q#
z!Pln?Is?6$bQkBM6h{y$r(a1|LGJo$QOg0(9PpHG!x(63oYDqW$-FJC_#?+is!HYM
zvtDt6jUlaL^=&S(&<FCAB<*<9UW^SpdxHF+svYb#ZIOD1^I41YLW>@borXmCX)PdQ
z4r)QwjP^~dVje-MQXA-OjqCKhVU;%0vreUzPyd2ad!;w5`ZZ+zg%<Pm%|Y}>k0ovg
zGXoZdoc0LD*O@~&?iOz3v`b<dZPJ$0L{D^V&o;a$3vMo!fWO5^6i2U)V)J%vs=DYv
z25>JdZ7`d1k_J31Z!a(2Ga)Upx>HO;P8OU~R+baa>CWLe9C1}g;A9yl!Q##bLzo?j
z?c~0X=_j~p>q3<Ior7ErXXeljrxc^M1Q)?p@ysr^)m<<l0ZrgIa#b(xlhom0GCDnH
zB0e-66U@+mCa;X9E^s?2M?E3(AY$NNu2O;*2|_LSu;EM6OOp^qPfXzW8o@@+?-EIP
zG@@M=tjWcOL7Gj?loQ2XK}J421lc!xWMGBa8*%y>RV1d{iX*@>nUfcA94z*^CyCM*
z;c78t;Fa7c!!KYF6qb89XJlx&^!Yjhw*LX2_PXZBRr*$Nbj{eTRo6JXIp4UEZ`^pV
zJ=?f3*Z5+t_F%@g)Y|@A5ST8l#TnddGW%zG3a++!Jr2((xa$ipoRY)4I<j5Q+)eRa
z`&g2H_7sj%oqKiR6yLssr4(rx9IRSsZp}Au;F~w(oA>a|d+zCT%?GmX12a|x59-&>
z9pdXZz)g9uqu}!wd~26{p%s&!ojGgQtlK1ddCRqLzq|LN_T4v+U|aR^6Z}5f%;9M!
zhf2+}vANe4-J2lMElSSUFS>ish7}x@+xgI<_sEXd>mO7%<KT_z^#xy`P}fMChUZ>d
zXvo#=n$Z`xw$0ToR)^-Jcf0uT0pwb$hBSP^w^+TEilDLk`TEd|0Xw1d!A*Q{(~RR|
zcM~;W;l)Mw?vLFy@Nn+!TyD_#>S?1~X>A{)wmR50EPNqXw~xJVW*4Q&Z@`W629@D}
zH(sT)c7NX9#M_%@qkm#wyL?HjY3o{sGDs0zbBrI?6F&~qnhI`Q*-@d$t8qv?HtBMy
zYa&Zd)T*cj`fJQS!6@3yaBf;8j8j*WW0MkBWZ?;*at)MuJp~r3&5D2##LtQ3ft8+6
z@KfYY?#9zfj^1SmmGbd)E3)wvE8*hlwpC+v!YjPtpmt{R))#Jm;l~<^lW4n`jGDyg
zA?>Vz&dsG9hm;(LAT!V!cFmo8fAqc46+GJo{(b!h2nI+XzCQfW<$~cSi2;^P6sr&c
zP!h~O|BimrZB(p6CO}CLg14=BDAxKc_MW^re|lllUBmC&ziZEKg89t>zO8>*gD3Yl
z-B13}_P?R1NF>sDLIL@Y>7&`BlZnJNkuXgTBSpTf#n?(WvX{yZqS`?n4*7+*W7@R-
z4!L2)ccE*Lj{G&fqlGM-c}O177k8jI2gygWMNKk*9VqJQ?9f*5(oXQwHgMrECnbsl
zo|Nq|CyUu*F7>i8N6~k(k?kpQ;~gF~^EyZy$hUGed@K8qr$#&|7Vq>SwU){I+oLt=
z?}*l}l3o|9D;_voze*0VXXdCM@`d`CKiUAfNn^}`7MO}HFh&C<(vpT~(<(JJuadsX
zn2s2uYtXaCXb^q1#{%eS3+|g(yeis?cyn}ZYz@ZMq+WB0yu%&~#u#OZTG~*ug~>Zw
zK}D<+)*b^EjmM7eJ8|Z4|2VgAd@RbmAr8e~fEz*_-31S<r>1J+IM#A<=zL5RJcJV@
z7zt0+RV2qn-^|dNPZ^6@%yODm@Q!n%=Od}{2)RC-;9?`ASH+!TTJA@fFM{oI9J%2%
zW@Pj{OObhE%xeval?f27L~&OkYJms3N{z*5l?PyRwz`QgI0V%?q}7I|NEfI>GI*8w
z0Z@)5dJotY5v8nR6GMAe;k{qde_{Wss;)y{;x`UXm?er4wjrgO6Pag7(UM~qTBTZ}
zTtmqwo)n=Gu~ey_IzSF7x8lzXy@Mr2F}JFF=8Hk;x$=9lRf$V6@D|{2;T^19N=chi
z>!kSq*W0zn#Fd@*d*=beFu)AVgLyG9fO#3r)36wO4aRS;-)rw~HgT}QHeN8hckr?%
zmn55}4Vzshkd5SVtIDjJYT2sQvT39xYNR+-+NOW?UXP=h+}br!okp!xX&h$dZqio$
zedo@d8Su4D5~(9N_uP9P_uTXR&Ub#__i1m&4#0^$S-u{yR?m2D7Vi2^E9hnY64JhU
z-4Ea8(H=3OCMECn(Fnvg0Q}H7$su8+++l&4x($7kb={MIXZ#!TV#i6azeWQ_>)LPA
z^DCH%6~{QBucHVY$^_DT6wmm$YFklNn4D3T&K6i<meLdVP3WN4kzsfx5A^q${^LSB
zJ?_L~#mwF*5L86Pm~>OnzfktpESV4ZNCe|?0=mT}ua1o<q4A+tMt~)Gb&{4EQ01CD
zv8w(v0u$_voX&h`PQ`4c(hz)BF|*x)3X>&4HI3fQWiM{tz|50jIKEB<uLD_w;h1X$
z*Aa+28e~U9+|eOBI)Lx+gyWtqvS-VzEfJ`T2XGMG84v7{1AB15krqf!RJ9XKwgPLu
zy$U2PNfKAYZC$r)U7!ufv}^^=!aVhfGH+Tpg17cgS!f||(Gn|bQ;*Ejpi)Gu#B+!@
z_sR8rG52<Yn%=Ky1L?<7NcBCjvS$F-2r-PVA2bDYF1zYwSAE>oBD-4RuCCjzuG!sp
z%0PI2=W{<T>r8BWcFugQWWFSBZ<OsoQuZXxoO>%$lKHw2NcgzzS=sh1N?lO&Q_E(R
zP@og1w8j`TLgq*FC7UyQ;CU<qjbg0(Wu>z;wwXcgRmJBf#-Wu9cA_ROK+qjso^=O$
z{~Em_q|$o2eIrf0Hp4%rhW4X0U?ZV@z(xwoCE<8Un_SYi)Eq0>DOq;1PgZOyi*9n_
z6=*e83Nd2Nj|@#-fuz;B+z-ku8?T}x=HhrS<yKVs^F_l&Fq-}>GsTkT4n5@VFbvaZ
zlT(hN8pwEpv1HQ2@oKCYp!1zD+oGDM(K)poHvXPD=P|=KdO4f2IWssc)y%pdW3T8f
za9|wiNy9=3szq;MgE>Bnp7es=@&>i6S+%ITsQ^mMX!XxE&Zox+%642R-ONnpdO%Kq
zYYT}@rjf*Y#`3b}17Y^Bn3Q@>qsC}`1tb@sTuOf_V>~ZgnObYlI1r05<DM9+6v|f1
zhAl7=2=%BlZh$-sn54gFrhKwW%ay|D?OJ)kzBGImOXZAr*gE4Ap&<2@K}-V90#db6
zt)<Fd!TfV-eRjrwxj0v1MaxtDz8Syherj&koZJFW%q<}L#lS1HHn>3;d8qanWI8xg
zF%uF!cqdpQPy`Al>oi(y#wGe^Dq+q#Pb^;>cQ_B<nGc3xz8ZqN@^tEQlvqve76UVt
zVo<CQZ3LngL+W*=dL}$mC02?~0=3T6<a~Wu=IhlObc<!fh4f}UHLzOC;%$fl0?sm1
zE0*aga?R;|I$&0@Mtkd}E!j5Gd@yvKQAm5KO?#TX4%@QfVr_1(fHAFXuh)BT)f3-a
zh#sGw7j@rTD2Byqf~sq=L?1JL$>8gHieR<+x&%3i^*=3aX46y39DZV%QCBE+dd}A?
zwOBP=C{|};JgFpgPbo?DQ%XYZ_QaBi;hY#xDoOoQd)3zU^@-lTNvsp=FJy!o#2V@w
z>w5@BL6sP0?Z(=Y;><Yb4DU36Sa#-&jEn{oHhRC16Y_hHnVh^bZ_&o)Q@>oVU;lrM
zC!(U({V-SL|7DRj8ZK>H7mVB7u{zTrHavY+(W@H<#ozvD?wK*vC^m?V=M6fh-C*Rc
zn#;ofYrqS~EK#TBm0dB_Ic>)OA~$Dz$1ugcVSJIB;(x2O0i-p&^Qo2=CR%sUa8M<Z
zipe6(go+8Dyf~$lMn<sN2csRk992Xq!XgU0Xt5ZCLnh*gykk++*usy9)TKF*ohg6-
zrTI#A{+xnN(XE|)r{QY|3A7d}MXC+AGp|ey2^S*FfVS{sib?w|Awf~n#ba*-qh4`g
z@5hWwF;%tNV|DlSbxInbVt$5v47qPX&ag2nj0i`NCk`{NjH?offb<WKydmtNm;>}W
ztkY@HfF`>AAG+O4X-s5XL13~0pQVR5cjJVuEM#<YWW1qCrM7p{i~GsBN)etT-`|ig
zQ*pxEbW5Kl?4{6s<gh~ThEFNWrJd7;>J;ai??stmL=Q0j^wTt*ot6NAj3opG)b?b4
zJF#xa?f_0Wm@JuMfLT45!W$og>2W4)fV|STEFEZeRS1FA4wyfzbEs8yi9Xq*K6#{*
z;HU=&DdXTqF&~SyUQodR^}|*wlG?9w{1<clQ;J2^PYkoVd4O*+b;NY`kLFVHFKV8t
zw5KTjjjFj2#W~JI8Zst_vBRGnVn^WGc6S3;_3+0_$6ac6YRhPuMy9uKWDoV&<O?Qj
zr~VTTL{4#nQWtl0%8t&2&7;`%KpAhTbv6&%tgdYzANc5i^z0Go*ooVnCu82{<<66f
zgVCBBP1l?Lv{~vrIa@4wpHFo5ZY*A~`o>GwUy|zkme0n5{g4z~!3oO2`Gb&V^@ii#
zHrd-YTb%2yY)}PHB}*_7+!POX%E8WfaIYNPi^O*V)eHOMHQVHxZPNCm((&hG0Z1Qu
z@5Amap;h~06+M#0e<xIP<BQk7n6QPU>K@tF17*FH)?Zp3Z`I9Jz1@gCbOC|iy_==Y
zJ8!nhn{o8B8$tx`>V+@L?yk72S9bNrTzwE}(0No<Em_J}ii&3qWLCF#ZU!<W)pfF^
za<*{pGj|;BxoMnxd0OI*EwlZJO%0N*I#CjczILmmGHEb6x)PzLc&JSdwJo*W497yd
z=l3zoicvA<-wY%7{#Ix?{;lJCqV=~*U?H}C(J%YDG$9q3B#yo&+bc=-1m=!mtaz>{
z;R?<hR@O&sY?kbGKP#(+8T*@lx#c;@2?0*s#B&BzoTC)VrzKY%l(J<!V3pKviCSk5
zfH_g_iw?|B&F;J3-79T780$Xtlh<x_AC+9S3uk3lL)_IYyP9LJElX9mTpiM>)3bXL
zwm{rgE!(Q^*j?9b^S0;<G5e;ty-Bt=E%q-8F?)O5{)}vYX1Qwlc+9@@ChV{5hvk)`
zV(@0t3V(eu=jMAZ@BGPVI6Cz1XYRTD^QWQ%3)aP#<jU@tt0&=Zevof;wb0=XogKRB
zAKJK5_q_96_dQ4XyysnSvJAFZAQ}ucmsEt8V)pub4%fVMZYWwBJ@#(JJ%?xB9knhD
zELvlZ4lPjuC4wg8M-w@s1KC6emJI6>;RvcInEh(fta*Cj!s3(^=#JTYmV0FTuAAp&
z`yuw7sPt0j+@*zH=-Xbh%I;p-(fjp*<Us>h+L}CU;B3X;HqIT2*<s|S>dr=M{f@^M
z?TdNp7u#h|^X$Igy%8WZQb8)trEvQ)f4jUlUOpg~4?rFI*;x6046MrLcx9Vh*%qtp
zSQ<ie{GfVyEY^Eat~?kI9g{=HVxbd|%2|PanTmF)q+PPKfBLHvM$UJN|5Wil|6i#d
zt~`t*JxAA_P<Wv)7HVC>0P1{qAK8TN`VDIT3BkXP(3a}2JjdEiKk|8wb({XKqx4vx
z;qQH=$9)F5&vV>kzUAi0^?8nWnQwLSa5HBONDAOcns4TV=W%>9jWfnG&X_QTs5uBh
zrIaS+wG86vts9-p*QRq~!xf?PgEXj&SYnbzHHOAWfHj3D-cKR^SI6L>@I0-i>wi#B
zm)XNXGogMQh=FR9EjVF@FY{NqtfV`1ECaO<fs6Eh2ggaK!z${GXc2%;ityf?2L@pm
zJ+Q&i^x87=<p+q($d|QxZIuu~Ltq3H$~4csJ~TEu41`Krpq(v})4MiOn@`EaLsdJ7
z5`f>B$CX!Ho1ULuXj!U>dAh+u_J(fwuKT1Kh+3sZ=R8tj2<U?QB`}v4Qo;97!9aL6
zQ-M`wOctn1ILSa3WY%%TsmD!c(g%+Kido~`LYdHb#y5>PBQjk+BAUJoIuB<Vc)tEO
zY#s&5={x*4NF$b67Z;b?+`zKw#>qMBVFDP`k=FeHTqXewOIGFej0xo<b=!p4TlZ68
z&SFMAHo8b2EHC23A$#tjlwCvv14}b8@%kAsaT%St2W0)LM6$j{j)-g<Op2YMF>{i#
z{-l(sk296dMx%C2F-Gaf$+=7p6ZW7^r#RANZ5H8~ePJZ`$RdsRB~gayrj2yCG#+vj
zb*yjURp?lD&Q>WEHbFe|t>;#Xd{R+3QQ5U%idS~Y^!My?9vlfOHv-`s2d*Dj_|mc|
z7T7-fTq0cme&c(MQuDyg-Ldci2!k>S&sG_lK<wTGOe<D2C2G1M{Sj<~^hdCG_Bkvu
z-r($h20Nx{g3Lc&mBL$>i$D-jH#MZYsi2^2!e8UF*09TIFw;M?d-wRsLt}#o{M8)g
z7dR_Ke)RhaPm{qPz&G92C+>f)fA8)yCr<VsKPm3eZjT=7-?e++kwb&Kk7pn5K0GMy
zn65l>8D_;9iBDF=G4>~M8_|rgj0{7Owv|~BQ4wFXvuZFZ#&ctl>}N&jGeCi>6m}WS
z#tbQTabgUBG#qyc)7=|sPo0GQ)V9R-1-`qmEM8b47gj{4ZWq=i%J$qZE|<L9V#R%u
zrB6MZ$;@wSDmnvjT|&ovTt#D8A$0vu?^s%^cvwWr48#m?z^L;K`ou2qYlQX;dI}`8
zJTm#`WySdPIR9DukT_$|hnMDQd4UU&QS6`xILQK0pY~1wT%fi<%a^Ilu;An-bFiMR
z!K|@404~kCF<|VCxW6Lf@M?LkDQiZXQck{5=bAkrzeE|V`(ceGYGU0_%YVk0Qx}1C
zk#H-TCvm!@{`ACQvKBpmhj#<6ptm4k`ZkG10zpGnMS3wv%hFj6s~i``hhZESVzw~T
z1Sd7@IpatKF(IfzcLXYLu&YD?JGVYaL7!5xUz77=a{iZ`za{6t$zjZuCW?2I9Htb3
z2_g`~MOcNiMk<fqsFX#RLVz`zW0Yc*)xfv`7pGJ$2}%K&P-i9qejQQFU}B7nDWz&O
zZPg}b2C;=08z^nPNKc4Qv8hs_Ds?j5x{+xmH^n}hPpa`XDiKl>_teXv(VZXqKk&yJ
zdgX@Rm}lFp?M_AbPtMa;m+2-bh6$dz6SLO)PH(g&?%N{!w#0mGF=zX1!5w?)wfy<~
zXhF;#o;4>d?zkl=TY}Ni+m?DwjX`ZJ*!sQpkGntWUVi50v75)2x5qm6%RvZY_!1U>
z+!B^8VX3<7wq<L=QX02-WmxNNTsVHcWwA^4wcfV0rT5=b(~g_{w=4F<EB4D3`yrI5
z9#Uhq2?3Vshmt4A-Mu{j@<QYHc7J^Eql33yJL9fhvTN7PL-E1W^5E&1>xEhC3S=7n
z*ZnF%mGEv()RG!Yhzs~?Aua$Vrp3V3*(<;wP-(0T>j-Dj=W?gW%(NOsUmz?Th8=wC
ze~jeKO_z><VVLgd9LErG{8ug6$&(0PjUXP(s9MYnVbfc>c2#H)X{iWD4l2lS_z{Y|
z10`5J4=2aiEKV0Sjo)t>^{99vu(Yi8Mlk4i^eXzLE#ft1E#k2O43iYXmr)OlWeKYM
zTZpchUmbm8WK0-@pYa<tx;%~E_%@zTAKXYECkQ%th+qm5w+>u1w3d$9JUU^I&{>FT
zx)yffLe`&$cFq^hndc@6odMtjgU606oQ&BT<2JIIy3_{9#?L}K(<W_O+W0l|4x3Vb
zgFJ;Ee4Zxk@+N(1W<3_Zgj?VUSm78U7-3Q`pJ#kKm2PnAeZzFm@A~y4^r^?_Q`Mnf
zok6R3YvSGx+1oK&4E-CcR0a2G=etyKJG2v=x{wvm*f_9o<pF}kF6@B%63+m3DJ6ak
zG&U|C=~ZkiA>e)2xW{fDcx)bcwt0XV1?=(oVII3Z{S_gjv5Zg#*`WdwKi$vRSuV48
zB76a_#V+s_s`Ec0huQ><^ad^}<C>a7ab@=cst%iBAo3%^A0jM5V=>zpOp0K-b0c-X
zeyi{r)%zjjh8?uKcWyWib_)FsE}w!kTbL+xONAAQGS^Bk2)7{c<Z(}{41~8o=Gl%a
zwgkW9S`cGZowB79;VUIIlBGr^?@Ce7HB*oYuVExKt&6#c6Nt2=YYEejL2tZbJnLGL
z$*Kw?L<*ZgAit4E;tMbmV-&XHO$?i@I4+(ige5~#ri0TqWT>1_g2==%l+vLqlM`t<
zhqTOrHp<f*o<>C9*h-cwm>^O;6S594Ek}5vGv=rVC@WYU54J)}$dc!#Gv0q%?msOB
zTVuf&Xss!!(lo+hRy^ELy$;=u?lB@@?l^n(%=yugv0)8E*F#_YHp(ct$oE}xen}1^
z85o?MAV?~Gag741$zjvN1q%2Nx+TE0FiOr1x+T_x+F$7t81`K$JO?@cNLumB8x)nz
zmo#0gy_)7xf!h0N2>C4(k(>+YA(4;qE<(sdAht>}d4FDByW(z6l(#)F8w1vq(d^BW
zOfD>X1N<QWD=uudE=(usvfS|rU6T7?#-N|iXf382Ffdd>^QcKK2te+Fp4kN6+_B>J
zMLXt4lV-X>G`CLz!Qg65=CcPDq?^6+P4O);dP0KSUP0Ar0SmZj<jvI!1MlyDZ$Dw^
ztCM*}W^1CnB5A~Rr69a;QZ8s%HRC3^iR;_RCz{(H6nYT^`-Xk<eMvL?c%9SB?(*r*
z!iCzG2IY#LWC7iRa~x!%8^f}vah1|0w{m%oBn<v+U+f?Q4cnL0%W}s}=l6SmMNd{C
z2cSkt+Wh8<M1bi#NE*rC`|J-le;=4W_*V*wzZrNduxf@s*=sci68_Gl5!aQ1;Hnwd
zWI5DT;y_@P!!_wPn!}I5<|9PI=EJLwduquB<G&NFK3e$=o*U(kmcX<pnzdm{*o&u1
z$+?NKu@RVTnYbKj89IAT?Ikol2sE)N1?R6^J~ufrfn94J-RDhSC21sqXc&ReS&S@w
z^{Pr0Q^&@6)r4^FV$0>rs`Aq^?Y4zwg%=Ht2|d({{{jxwLXKXZcs0U|+zM7oZ=1|2
ziHQibIxw9_N_p<{maLhXh(O{>N^ngu1D2woXVN6GK&(mVo6O0&<;vtJK8sMoN+nH3
zS^2S+wEa}*iygT@T3fF&Lx?zjTpLY=kkS@Tpq-CWvo0JT25I<7W^3Tgl)$FKh-yof
z)EcO0@|HB3oF)my&2mtmv}9Kufwpssodph4fkw{);5aOJ@K`7(=c`niwJZYr_A?`I
zjGV&+DrlN-vlXTq?WuY~+_BNiBSV7Vqm2FJP!Ce-o{&N_%|jiDS&3BIpAb8X?Hw7W
zr4&^#K8}Q>LqTcQOQ?R6x-zt+h1S&eBOV8nqEkxLgc-Q9P(|6PHJYtT2n~Y7iwI##
z$0pnw^3_sY*SZ{97<X6LL=o!90kz91zDHuIBqWWC28z{4P7^tV0#Up=@z0N<jxPw!
z6kf!_VL9yzHe4eD&Fe}zd&a)7MTIq=iJZHLlWKv^4TM&TlRqL{9v$iIVt{JJ%9yw3
zA!is7*v#Ka5s73~m)>sju_fsl^7X=D&~a+8ZS;h#Ku5^OmL?{1^?AA_ieEJfOjMfi
z9y#A5hb>L_$j4SCC%T~U8aZ^vzzn1@;}uM|G1Do=)TuClxKgT)EO5Ef1o(u&79Pe)
zRcEim$XT)Uq3N%TjqDJ<i^&Z6a*=<42WKoizZ&Lv+dZyZ=DP24!FycozjCGj%-Qa8
zu6tZa;zIYh8id~EIzBNNc*7@o9N+K@uK%II$QvG7;Cy1?_-X{-<(lqtt#`S;hXxaG
zc)-E=#LDq|d6w>BUOH;)LxY(&fQgCZHZ9^qtM=>@8^>?I%QfHQcKm{?zsDVsxg!q^
zdB}?+rx<U?N?PW^>21PY^PsSvFHhJ?l15xt3X79wT(J%n*^~L?Q^n562Pr(~D#d<q
ziZ}Bw@N->kr9v@Y;1`FJ?7DpAhvN4|D%uM?bh#YmpXVPKU3^|5-}W`}O)<&*zR-=$
z*Rkx-^XB#sU;f}_)xYl$yRMk6Uwiq@msiaQPqyaqr3+o}_r2GbMCnUaNigR9iR+&N
z{}{lImoH6~_VR~$sj@xAkta3H`+2KWgVWWMa?SH84tJ@(exA1`OnxcQC7ZUUjC7mY
zXV}g+&l#>2%on6McvCwK1$^FuEydxID&J?|i=)SHym<Y^6i5E#DU+RtQN0gsAJ~!{
zyf?Aj;vyY8xk}g6rlSVlJ$Lrn==^AkBY*0=$;rE-17w3Y#lf3uspW&(8{thI<+t&{
zXz2~_b#ID;Hzo2@JfaL-+dq#a<WEf+xA0Zbvo}VsBU^Y=!~7VYM-6nUnBvHv{G5?9
z)JwcG&ezF&UBVPj6oeCw796-33@Pgg6CYj-f7tLrgVeS6C&5*Y9;_B3>;Vg79sU0R
Ds6PlN

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/paligemma.cpython-312.pyc b/model_executor/models/__pycache__/paligemma.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..04e90054d399c03eb4a76ffd788861fb8b446d1f
GIT binary patch
literal 17608
zcmb_^d2kz7nqN20#zBH4K!PAa5+p@RFfWPJLCKPJT8Ays9!vJjV0RXV*i8}?4!Rq(
zBrdekOtdkzJG&#Lc1oI!tCrrHl<8QNa8junZK{%W<u9l9AGE0{U^;e2n{{eyQb`3i
z>GI^<{Jz)S07yZ$Q^^zY^}G8W-}|ojwf?H1!ObD0Y=4;S+{bZ$LkTkoMr32o!g2Sw
zS2>Xr`4pGtV|>~Yv!tytD^Gcrlr3$K+0%}gBkhbiS)Mf|!~~StQbO7lbFn;o%ANMa
zJZW#t%hHZiL%K26$l}hFFWnStVsRnWoNkG=u(&JbPX}TF7I&vw(`~V~bTAf7x5wJk
zp;##05$j-Oo>XT#91EwrVqNL(SU1b_rh3wmSR~yW>rMB?`qKTe{`8L6j`TomfR#6-
z2GcuZJ6XIjwJRNsMOoaJdL}&-8%htyhLLU(n^Pm{(b#BuEH;+j9ox<FT2gz`<FRoT
z_opV(dt-ak`(pdj`(yjl2Vw`(ld(xw7DydTABr8~ISVJXNYB2{>uVZ2Y~jvuV(TqV
zY?FrGw;H)eSZ)xx?KQd2Nk^pTmYf_HJ1RM)V`Atqs<WCMsM#sG=6_)9RL!H(=LuFb
zjGA3iZzcC6%k4&PkF--d8A8iS*(p{QL0PX9*;e*E<`J0xVa<z-sPw#aQabgZ&+LWu
z(T_fM)E}QTChdOTt~Y+)=p%OKx-~lRYf43}ns6>B$%)G;NpoIEEG#55vzl;GdSg+_
zOiL(s9nWO4xkOG9HRt&xRZVHGOV<~q<EdmqnTqn7C6kF-H1CN-ZhG#tl*ld0lID9k
zkxHJC(&@y>Y-T1oi)!xIQmJ$$)pR1ENT(Ll>FX~o<dWHpf*PJ=CYg(;va_?2jHLg<
ztLHDByYSMf<LBeAJb&ig#Y?YzH)_{fE-a>U$qQLAkvf&gB~B%$b6RUP?{rd1iTZ1_
zrfT-N%)(+$sjc|p)r35&VDf3Dw$E2zJ$H)w#MJ%g(urB=`SfK;6tOINRXy`%IXf*W
zN>(;9t1qH4vCODL3(_R3MU_Tc3l$hi>Nzu$)mo5FFXYZ;MCsZk3{ApteP*5_$+SwE
zSI>BLLBx(|{@T<jDVIp5XdT-sYpc)t#9}ff>PvbqgB?suViL_SNf}H)p}o_i7pLc>
zbVBnOsky|0^lLguSc*V(7M1nDvRzzUSjfsbrCO@F&AgXi#!#9sCTCO0h1Ze_Mvpy{
zQrN-f<BPfMx25FlTuwQkO<-tRgOMZ*MAAKzO5}1<CVn}ibug@W6UY;nrP-u{2}oi*
zO?_$JbmIDDDZU^}Gs$asT@b4lf0Ml|4*W$OIiAGgP8*od9u<1~I+FJ|iHq?f7qfuw
z@-eGuiP<E(XrYrTIYcYb08j&Az6FtO0cX@L+C;nP5S{Pa^uiglr9dsOyP|F_R5=R_
zpI%O0lT!M|Ed9_OK{%C6V=L$o9Aat88;M-b9Ez|r6;YB)QskLPW)YYuN3t`KB;ln}
zQ+N7MWU5j+J(tL2q?8ibH4&|;Gj}L*maTbB-qk~qZzsjv9Lv(Y3pBL&n~Bt-q-eGr
z4!LHzocT48O^u(^_^X-?c$b)Z&!Y+PcqWmS;&II#r_ESQQQRAkzp<D|870nmT+B|#
z<MM8FAcL@SnlB#5;E0~kbW!A>Tzf7nPtR!%9r5H|<h{pj0CNBR#j#v^VQe9}Fp^_u
zV&vN5frFD*4oG9E<mIu2>$$mXW{i+yjA2Avx+YBnyJS77j4gl;%@Q3NUAQifqDKby
zBBC4s_<im(i^DFIo4A3Ao2Qm{-WgThz3aB|lG}gh`FrQ@o_}X(Ra`s1raU~k-gm4J
zIHtOfKe8Q{kD5Jg!7Q30g^k|<`2T}hCY`U~m6PF>5Orx?Tk)!LE)CrJbGE7f@3@tm
zQ4U2I=0;|8>dp|d28-rU;cQYArHqcMyV8qFE|MmG5J@F6vx~si2-}{><;3)r%h`;i
zBc|qMm>idg#40+P?7`A$R=iZR%qcQtC2mUI4=6uJfUWy6ik&dQaYPiVM|)|<UN(N^
zUOxYD?~^-8ooRus>!~l}mi;x(IJfaS>c3U9!y+$%a!A%0+cG!9i`HA-m`wy7nfIdN
zwjkQ;=g-(g$1PjTxy)VTW5Pu)>eRxO5mgB+NdCMu4Gh;>3_>@@mOf5YLTg;mi*dT*
zVlq8VN7oD_1yFk9w*h|4-{W#-33uC?=l%%gri8$AIYVaPxOqCF+d`htTSWeW#l+4$
z7dO|2yAFOabqU1Sb{PT!$h}=zB$^J2!6<oLcA+=TaXy)m60+t<v1in#*%T=?BcDT|
z`~uZ*#pBbdgaRs|Q0E|uH|1kgIt8#a@KtLwYQF0tsw({ezq!eMEHvD9szUoCq2trG
z_It^@$wFj&ZR*3oqqeDK+aGxta%qh^N*buHXbxF|M3b3@Y+ebpifko!A##t)bMuD0
zS*d|Yo`2uSy<y2)E^_bj5SHYZQ4+Pv-@-$t!D$WV_K}RGDAX-x$|kBgXR<P+6me<C
zS5DTb^&K=-+5m2HrS|Zjd4A$qnObk3SZ*l!!UZABrWbX|ME2xK0tW$b)G|4?qB0Q{
z`3M2(Noz2ce_BeV;_>%*`4!|UG^JzuHk_rZ1Xux))Zg6V$`-5rC4P0H%+d1$>lf@<
zc3bRSE7H5EcT!~z(Y3{&=YN*}lA`*Nrf#P3s{|A2HmIaZN=5z_M@$;fCR!!C<dB@A
zjf8fcK+af1I}VW`Qoa*EtK^(<hywCl*KHu0!OBYFAdv`Xh+osSJ6PG@W9;SF-^#eE
zk$I}ME#xYvz})+boctOpL4>kS=dNiDB%sXA#HX25EPGIdl_hLoE35Cj{5sM#2)=cs
zqg%QlPNM_?u<1VkkFMRmR`d<1zJZ@+*M0j7!hW{ATP8<Cq@i!nj)4eNCXQ*=nUYBo
zwok|+52HOBs+>TqcKlSbH1?F0X5+6Tqp?nO^!?a3xRNXGJgDwGxW4n*b>HEFa9GEa
zOXzuO%XH{mvgwe5eGf96Xi4&*p4KVN&W^I&hXS2@Y#XO8E`mCd3`;U)I-W|VlR4$9
z$6lv_h*u~?>#++>!TZh2`GU~NMhvBfgthop60=NxH^=0#$~0&Sm0i*Cy*^1X_u_^%
zZ>_giM3x`$?;E5Fi(r|0&mzyz{AU58`krY4!XQYKaeZjH>=lTgQJYSbDz!C#olP<+
zv4N;`E|!MBYNNNmhQ^`n0l3MPy<AU!vHOtPeQ3QKTip5B*H`o%P<;nV?fs?DK-tbU
zO>S`3CO3$Q%gvTE>fT1bbOdCmNK2?$m7FYp7cp5PKm*(^Ied@u2+&WV^}fY@ZsF|*
zK6mi;BV~Z_YH-cJHvRC_&*s;9)adaI4tZsV$L=mWxVBK)Nil&7c9dNdb93&7O%Gx^
zj#9VN_*DY&I|_{P*3vS`DnUrlDHp^C8$<vrD3!y-i2{iUBv#baaIloqsL!Y#S_w0P
z=)7e&=v!xHGnjI{MFG@Y!0_qpVkW1^bda|2G#Vf~N3@Lhxa&NSN7L61c=Ih}%2@z~
zkjvyxjf6-dDe>`~bS<~^%vZde9s6qCH>od@F^Fz8vxS?|oQm{DJSAl`HwK#3?E=#@
z9y5@D%?9}&5MhkhEU9_cI~kReW6Rs-YkM@>-LU8F^#q+8j=W{w+`pQ45ScO0*$rpj
zDmUXq)~#pK%?y;x8-mE=WE0ij7V-}KbLNEyR#TB=M9elNi>N8nqC-Nm>r}*{(+|yE
zIb4e7%DySda#EBO*d1)7^RknnH5i9jXE>T$Kk`ggv|{(P=6H1vS(yS6f$g?JFQzS*
za{!vF%C&x%(v9iFHG_aqZ}K(D^y%GK#-h-YK%CKoF4QzvUx-~MeR65!o8gU7{W|(o
zXbg;mw1)1TyL+w}7*Yd6>w%GFSE;?X*gmGVk3sMW4HiRt)X<*g#>cJQ_r7=cdn*T4
zkFU3mF1!DF-_iTe{MqPFMpuK6I`({UY1xOP-4M8Qsn|NCwhoorc9enxrOts;N3`tX
z+J-kcds}1K>Lg<1G>DPT*`J_DgkExr0HZ@P#Tp1S5%>XtZMsZ`@(3*Ar_2G6AjR8T
zR-J3swTo+ly6a#WG^pj_G?Ahfs5nQC^Pjm|?e53TfwCP>j6TqLe`3XYe^T}DC_5=j
z;9A4?PZoOj6vBJd!1&rFHE^&@jfi4}H$8~y6pLQHg<{cgDQx@(ppK$r10^!)7E!2b
z%C;p1`E16`R3ZmdB9h1;i*2hxtp!7RbBHdI)I>K7D_iS%Bo8Q}S851hM4)(H)N6Ec
zpp?ywO8TTGDj`V_G_iSG>&7kbY+$u~Qj4g^?2>=R%SPFBt05L(3Ro++XUo$RFx~X0
zIiPI8Vy8I`#ANjK3NtHeZgADO9@lAYMW4bbNw{TX>>(ngiG6bkvqH%1d5baxqE*{3
zdZUo%nQlfz1L1}vM`V+QT!lpC9kV=$jUoJrwg+~ToL%H{BucSx+X=l8>q>$}-kP^P
zaG2zY^wX)+(DGUmq8L{er0HZL6*oi)UUMbM-WpGeP~#VJsOEt+57x#w8I>Sv{64yu
z{{exw2rL6co$?YMx`@m=BC?`63_Bi;3FaqQX5|YMZHZ4OpqPLvVHflbi3&R9s?)jV
zs`lvCw~Yp;>ofxTGf31;UA4K3oEjl;i}tO*YxK$2|3frVNPL2>i4*z+Vfv-7trY4j
zhN5aHx;ps5tA$W>J@n%83m^M?erj8DujU^`4u81gk^iNF_oYvLf!kMAU$o>8l>(im
zww_Y37j&rU8PFjjL3V=#F|y3oTG85S*Mfvu9sTOt0FGgtwZean@R5aj>`|=fve5Yr
zoMAFHV^2_P$IujN?HxSiW&q83nan?uXzIFuLM1;2*s9^SGWLV9&XCz&G4!IP@d`tz
zyY$3Cwzv7m)ORPqO>Wc8H3c5^?l1N}r}jSg@alT+nMb~}1>r2CcA9{uNoMwM$O1>J
z3q^$643#5#8q<A?dy9X|`Ic~xyZwz-!OB5>ip22;!c+RH99DBERkI9}QV3hOg+FlS
zDl)}wXO0vR7R)29SYF_M0HRPWnXxQ8mxW~>RL=%&+6yA#Gh2z)9Bm;B^~~NNIsvo1
z`joA=owIy~pXE#h$vYm{Oasv@sbuykO`wIx$-7ojey9hcVSfBJXt956!!kSTSyV6q
zgQjs@RnwlS3SxYf(&cOFn#&-!<oS9+TD~&m8<xxo)Tt~c4Nea=b*#6AdUn0}$^x2g
zKsT-P#PqiX<hE?fLJ}v-q}Z0*pw4;A64vF0E!S$+ohR*hTgcmP+h=(qoVOjI=SB}$
zY*Tbhq6qZ2k=a;v0*&>LdNmiFB6bdBdV@@zLq3E-M9C#^_op>c1;Y+zSQl9nrq42&
zk6x>*SR~HNR|#}cH$Is1V5F?R&LzK1`3_yg)S4=itHCnlJQW+}V4aI--pg5~(t~N2
zV`Z3t{1bW^393~Y^CkkL-#QP$MD$y;r88eoP7I!~$S&5D(Zi`M*o*QU(^@JW{Y!e?
zKLG%RFST|RTX(9hJE8DD>KJ)6cA^kExnZ@mH7=jt6u732`-6}A_C50LFZD-@{fE^4
zLk}m{`%kG&k;h&A#jbI+YkX~Tz3cEDcd38py9eJnSnNNp_8%`ro+(CltC8KM-l1ae
zxY|1oHF(Df9(wSOmO@hmqFdKcp>wD(`kdPN-17NP{ewmSe$~If)D&Lv-v2$dX{6LM
zvT3&l8lg2eH0lDLh%v(iCBO)e`;gpq&7t3>5T7;{De7VDSAHE;wPsz8Hx`?2B;`Lw
zzWgqM6$0NSK;%~L03cC_uHdu=k_IaKW~vfwuZZ}|e@fu*5g=|Uzej*|x{4Uv$=6?J
ztoYb5eJA~lL2TWfrQQFx`}u%+r&0Wmr|1mCm-niny-*Ya?b{TJ$H7Q3IHCqemc1YQ
zLidLsSReU@3&L>0H(a*)U5!6I`6Y)(nZV{a*AOm+A|D5%#o%r=xVtnsRvbL?(cqCg
zzkPS=gK;28dkbXs&Rv@xM*|cJfw;L~aPuk6Z-^=Ee#~ItjA1P<LR^_9u4D${6HJKw
z&xmX@=X-Q>zA3il?XU_Fkwt(;>(H+^p|^7NnEm`$aUemo-f-oGx@6R4Qhw1EqBps#
zTq*A~%jE7nEVfjhcVB@mT5iib=S_Ws255x5+ibye(2OzW!zjr+7$1Se@z0UcnheA+
zse+>M?qB~M0)$B>CE9VHoVu=KHpAc_Q8O#q7#wufoB<`=E;KSk{Tb@%?;xXzE@8?4
zf-(tlwZ@Eel`bww_#_pe$xNFg(Irdb#D-)^4@0{AIdYf!z7mJous=pU<sSin+-x>+
ztsQsI+`Ulpwv@d7lDDtq?Ewucd$`uV4bIW(UUos~3=b3r4yc`z1)=>(L@tH8mK#f*
zJBpn{YUj}E)OzQ$4^OC_M^Smx!FhcJU(X{?q%g2=?Xo&>uyEwUM+10WxajRyz5Rt9
zdmnlCm4**5pDVQOQoYf~zIHTZ^yNLv)Ks)>yJaqgk;^1gX^!k=y0el=hL`UWXeMx<
zK#%}2f0+<e4ii`d&}=E(_3Lzoc&JP=hfI7^ruCC!1bz#k_DbRwWfGv5C<h=-uq%mX
z=*dm~vK>#Hy_V2@|NWW!ooe$y*-2S~t~xvJKdbt8mR*$PW~%c_+x-{Sz^<}~vb>zT
z?TZGA4chJJ_{aX9vYjI6v3J+1b@jDXj~dxqcCtKyb2s1d7utpj%|ohdc*DhV8%Hsa
z78o}1+}@0`1g?Fg?4lSH^p-ors;g(iLrF+OhmY~4(eck3I_x3L<&JoN;%@S;uWUz}
z<^+|WV#1cOxG2lbbq}muTpe8bEwyXU+9|bbvh1OJFXtav$*C<vW$F{S<L>y<huCKv
zfX+5(C1Lzq!b9`wwmbbK)HfDHAbr#t3ua-B|8p41MC+_Yw7qSKS>Z8Z_)EaR>3ZAt
zpmNA#FcpX%T-bOeL2SUYkzMLIMBgo&DN4gI057q(d9elN0Y5Hw^xM|Jt;U!~Y?Zud
z*I=}>iEU&c5QCBrK3+}peVD?wfZBEQaa|Nb+ZM3{y*;gtP3%M+KP%t0tz#tTpLsG5
zS5slMX){I|gy7wUbUQO*>=e7}j|P5Ybw?>iq>w&Wc#qYu!B)_CTWH2B_Q6QpA@)C|
z_ETnBS<f99Yo|CMg{3a|!_<AFZp0zdj&<ploD{<>2hp;J8C4=6-n+Ek3gtVUmEox+
zCdnBjkvbz~;9W*>h$@aZh_udYjw{CVP5tSb#WkrObuKQj2ppJ%H?A1vURG|DEVY{M
z2fDw|D04y>T{4ZLx$IR*9$jinlSdg<feC}&%I?=kmx9|`!vkqfN{FLT+fu9E)3ypr
zem&c;xf<Pv^~|TdM5y!%TS`_=&O+pkgPUL=BvHvEZfbmz8Ih*8=<>w;nE*hH5jG^g
zzRqN_QJKHaRkeJWuMIu^2R!b|m>$0rc`1{+u6q}ezXlT(BS|Gvx$(kMyP+Mx<Lhb?
z*IDk@$W`chS<cGrf-|MC;mUu70d3Xu{iHc8q!QE8T$X&%;vnry`@R+tnE1V|Su4h^
z^xzFQxyK%V(bKJZy6<0o<k?yB2S06WFNB_5Z>(MzzJZFkVg09gXddQ7W?a2ePDKeN
zwTbj<ww(V7scrHUnZdxGOhN>Sgs&?()yik+jsouL`1v|I`wiPu`XDB`EkN&wgGRj4
zd)|(eA<sb-t|*>QQ8#Tl;;$@_+lHwmZgJnJyfsG*S+84Hd7W=J%d5}&@0};jU|XoF
zsF*>cS(vxgI*_2ZZnLENoR3uFW=ynQ0r8dnB2?h|t>PqTu#jmHNvW>ecePe-z^o71
zxo+JpYw4`4rC?e*Fq6t^=c1L~tRk%1W*x}j-29+fR(;lE8`t>x;c5*tmUk>c6q>fg
zD<*-b^f+p^s6H{m${xd6$1|mQYYCRDqAIxlIXvVS05m&upwpU|KQGbj#G;Z&oxh+p
zvz+nTtj4V*5$3;-s2`^C>4y;hz3}o?pk7O}C_*S7jkYs!U7kV;PMzf2X}U;IOU(<f
z!c5M{(wZ45WdzF1au}zY7FGUT0z(8I5jYE=c}zDOGAgrKwbmubWT?JYd6Qco3iE_)
zNWe!C_L6CGa8~4JsOu7S?F4Oux2mi)v8gG<LW~;%JDaA~lTKWb;N`ZEyAD;N>Vb<}
zQ{4sEFkG{xqE(VVA@J`AkP;yOlE5nf3Q-b6qcF4yTC<v)*QfE+ic3_O=qDN4pjFhk
zM3tJu#pbBm94$6asLd10j#99%7#vfBW6R!BcxN%ZR}JqihEJ>E(*+?^Y6~yhe&{Ln
zjxXCD3EiKDN1&G!y%E(LDS6vr(Oz+^Hm>^*Y&vaSZmJT3QFibIU+Nhs_DrZf6UCmR
zYR}P9XK%4{Ozj*ic9J;*W{W{qyAM)pSCqAT>}f7~x>QeB(X&hS>{>nZk!PZ``$S>v
z<nrmFw_Ejg|H3=`c=yS|*eNsPk$3px?n!bYXbTsitF-N611jvAT=yTuh<eyNIx(VP
z_x+ib^xDPswu8%_lHe^0ovP4T6oyq{xG0Q&B#f_JQHA5b5XK>6H#8T$J*u~-=sl`>
zkCv^RtKk>IFq4!arm$<D3PZu3aHK|i@Y@)~Vn3Zfi=0VB;3rm}hg)juSo4;faR0ao
zZl1S%|5%lygS1;=a3xlTfWGQ0_Z23h*CSYuJze8(*lyUX3Op{ZEg;i&(f+mtw?M=w
z5iY{Q`TdTXF<7^Z!J4Zm_9E_&9#qIB?wBe}OB8A(5!V#EN{~;YbMhgib3L8NfgDXB
zN8SqnlCqoP`v9~i9K~$vO(}jk2{|$|3vc#n=~Cp<9HbZ0(<91Ub}=PJE=!Tcj4UPK
zBaJT}Mx%meUC1uTM5pyL$7n~MlA{Dp&`TPRD~6Fw7j+!E#o%wL!WaP>ZFPVOEwO$^
zbsJVsd?6t#5<H(pa;{F2@4j($&eW-;<6kcbeN7j~=ui{ofPKrswRhiJy1TS8y0&9I
zcmT&Y*tI47*b^*xdRERCc1%KMVyXU*I|o)$5BEOmJhptEEC(;%eX$rAQ3E5zz@!?O
zEO;lEkKf@x_79g@`%A68rJcK0-%xw^;53n;(FRkNm-Dt4JX<>Y)W2J=UbRQ!(D}Lw
zT}Rg&j}?Stx|+$TG%e&7@s{KpCXf9dB2PO$rbISxpgpQqLOluX22@b8iq*4m0YNL*
zTqa6FO0z*}vCwxec2U2))cvQ}&gq`Z4DmF_Rp!+t|5pq^v*fZ-yN)K6*=b(g=o)AJ
zFz-+10mD#5$CQwP7R(W!jNhjHU0Hhe8{mj;wSBVj_Xs-<VqCxuH`l(S7@Smtlk34l
z#o%!@c)S=qqXy3`dw&@M4!oOvC;RaHN_Ktl+<NE**h8^hg6^eh`m(X9Z*d;7p>MWV
zZzDo`CGt!Sv@rS1j<l81AQyG-&u+5&DYF(MUDVsQP`_=ydTjz3x$bp%<(gZ+7Gczb
z9a$nFASY~xHW8P9MHz-8+!vI=j`u~xwmQCP0h7sZImi3I!5$gHL2bKP+8&aHuss6j
z4c>VZD$UC1N1oj!fA{@2RsUeYJNVe=FZv>?F9Nf(ZhQuVUfHh(pTPkSbrnMg)X;&F
zx2fpuQoUVZ!W(vLhkLmZ8{QNs`l7f@UL9Tc9V`e3*{R#YsxSb3|43xV{?*+j)0LHH
zV$XJ`PpySiysgsT(%!FMkSAMRrR8X3%K?|xqOVW&^%aD^Cr3>bf-%@1vQgt?*Bv(;
zLV=M#<^Px`N9>!HSsf4SVOT{eCJ#&WMtHp~)bkP(`6b9@?79x^fMwPxL$rPTm(14(
zIQ3u9kNhP8Cfogc#7s<MjD*llYc^dj&2P?>ZFtwDU*lB;;F_!Qr%HZLw4ntiq{b~)
z+o3yRvF(sbf2SV41^_|G(^l|wm;9~E=Sty7F}zO=?_0aF9zFrV?{Ro!E%5WspLG`Z
zoK^Rn{cwl6XG#sfL?R(jQ;6sk{SRp}u7#|^OgoAes3-Mm4Z1PW`21tKqR^r-u~4?P
z=Me!yTE7n&2*kMV2G?`=Gp{~C(v3}|iw}d8%YTPnAt^BN-OgluTo`-{nKF%B{$B+C
zHvy_Bv;FxtVu}+$=j;(iu$ia)QuOPwd`5TV|NFG^htUa6dK2f36g)#%;pGdD+r!27
zA+>#|*uF<?-&69o-nm}r+y6ltQf6p;gR_L(%MG9nO`yfPBfm`J*+PQ}pXs+T3GlQt
zTz{!dZfBlwV`UnraksGuSw+`tuwZP7*h&z;HQYdDD`r)5C-+o5+}hor&{}k&8%Fhr
zM$thp`u3>4J!>QDzKVRHId#seY?&_YDw{5;MYWzRH8=G*?)4{J|7dS>ohI=!O_xM4
zZpl0G7R{T&*NSmtG+HzKZNQ<KQK?dot&j~<!-p;G)5a}!Fd1KMb4#ONk1w?^`cqmc
z*g3FJA2;`{>|Jl(1?|k&sxR2efwjHGiF4}2xq`26-S<L4ctJmd{|YUlz1uEjw6+C&
zfu(;xiBI;FI1L<fvrPTV0*%|lKDtRu__9u{abqk{1up?oIOTs$;4}e7*aj&^h^>D>
z!k8%|b}r;;jtlGqLHWN?g?<A6lRyuF?+_pil4&>bDd6G)K1H@FQjRTF{d=B&LyZVf
zkIDyVjeDNY8*Qz0P1Deh^Ha84L+;NS+})0Xt>d$HE;I<ac<@N6f4nq&s?@&cGmj(e
z-n0rKl(&`xoTIsHvDuH%hbwrj>5qpK9|Zp5(C3u1VKuAZ4JY_h{O4Ss-Mz9@rpLpH
zFX&M|%Xiw3^QHFgvXvr_U0o|S)wN^8PO0)C!QTD2ZD-kzCk7J?-%H(1m7SErb&>B!
z;oIR27o`G?_Ct?bqh&jusAv>9DHY-E{VUJEd-k2P@4ocTOXLjNUv@a{y{m0-OSShF
z_MY9KXSsvj7mZ+=K6}?=fBU_|cMq5Ch@-zih^3sA61bjm+zEA0mR*#DaM*P(e>cA(
zLar!NTe>C+l^ZCA8=|faAI17?G&@WHRm*ltREBvU6Ao`US)SKof017~yZY+d#6$aE
zdjG;(m^h`5Jg@FJO&<Zh$bUHTq4IAh=_{ZYc^zkIOQUBs-*h%b{v-5_=xE~dG(!z`
zmB=m$;k|I3AuVwU_Fbt=W)U6#7{YmTaw4OE=%yuE(XSneo9GtcQNvb5$gH)|@ilTr
zt8A4y>>Abe57K3lNHia-UQ^Fk?WCGJsxvm-;kOwz^m|LP3$klWt#w;Bqf9}p`r)u!
zQLW>NT9r?h<aX+dWNPMrp?hM4DcJ>}h3d4NNkS2xmAk3DftADCo_*!d4x-l1@)mRW
zhJ4g;)>POB;c|rf?WJ~Z#>Z!1##i)nyn~9!W~w<9_NBK>lt8nyZWz(jDGO7unaOO3
zRo3Mk{S%@CEXP>oQ6%(lI~j3#mXi2yEOaX#`)Y$ZO0!E|t;PHx+?2+%GNTIH{HrzL
zFnB!3-E(puy22l)i~yFcJkNjW;P}apxC6i9cB|a(zu~-}aDiWO`~M@?_X#)g3D^G#
zH}<8)!CSuI0KROr@s`gxfG^!n01n`bCXPSy2{-a9?zz9^&a2${Pq=|<i!T~Ee)z9l
zfji$>cXi)%Y&zWh34X=9$<cGO!$qm{n;boHXzksF$Pv|c1Z<ygy^{pv=PjFVf$v%w
zCl{ej4$;lFR^DCc-o44;xw$)pMBilL;LB>?w>CMXHYX*X4;A_k6`p-X?Z3FmQL_B9
zm9y+B@PQ(~Q{{J-Y>|>HQfeNC{%*k=e#gSU$gf)dnd?1QVdD7@mNqz+v*AJMXL>0+
Gp#KL$laWgR

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/persimmon.cpython-312.pyc b/model_executor/models/__pycache__/persimmon.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6572eede6835a84f4c29d47af6ac983ce3c6e8e1
GIT binary patch
literal 16085
zcmcgzd2k!odEW)FxCjuu36h|Ah!h3!ltkH<b(pdwM;BS&j?p+M1S~~R07379lEr|D
z(ot*D$5?Eel1kGNlXMbl<c^h0r%^i7+SC4%O#265Dh0BY8_vY}!~Kgc>2apVw7>5y
zc5!%Vd(uhYkPqL!_r32O`@QdaZ~xKlc5+BD%d64!0gn46J!r|A2R8qW=eQ*<!Uebp
zA2G%FxG7-b2{y;faZA9$U`tF02q+U`Lfjg#vNCJT7PklN47SA_ac98EV0)}0?h3dV
z?1;JJm4V8*C*Wbv&RA8vI#3<23DmIXidb#DE>Oo{SFAqX5NL=u1{&kufR~lIV@>hq
zKr@3YV=ZxCz{g-utTnzPu!F%>v9@@7pgrCZ=wQ#)vCjC;z)l9&#Jb|$fo{OHk-FHf
zcu$~*!S%7-aeu%c-xJsq?+x_E`vQIO{y;y^nYb@-k%ntrq*1g^eo0%b!tZUf3I_%m
zrWcq^pMg2VFq?td@)?+WMHj>M0k`$jac}2`6xhdF>_Ce);}&AiZA*U4`>$C1?X$;E
zPmPO`I29KA6H~D(?bD(pN8|CtRC_!T5o7J)M0`4wjGm8)?U$p;iS|=77cNAnE<6?r
zqd<&am`KV49}q=9uh>r~MJWVSz}Bc7i-yH9fTpP_<etYh%EuE^<IxK!avV!0#i?X8
zLG|_W%=C0ZN(Pe&DLfIRexsmdQYwyz!V{v}NO3+Ji^cN<Op5D*m<&!&2QNs8nQ5hq
zo<LAeNI^FE;B-g|#bRPCcsU`(B0)JiOG9%KUMQRlj!*f`O5O29Y$iVScpmj!bV>|K
zO7#<GpDizXGI6=Ih-P&zaUq(NAD0qgQAWoos(E52gh|a})e=+sT<z4Ul$fR&RqA9$
zPl=(3((r5|96GNRo{XOtBN41IElNZj56#4qL3OEvu|y~$QYW>ir?A#>F%k_W#i!Yv
z<qxoT=`}c?Qdd%b{BggaR3Dp3CZ1E@)H&8%X^hIWYVoKnqZ_tLaS`N{o_Oe@7!>2v
z$t%HVQ3v@|m4oA0wuE#=sbGk)&=tH>#T5@-IWGpMC2>6ZQds3KHMiv-HopkqWe66L
z3-AywCI{!>BKC+$G)K&$CBn}FGhz{iaqB!c4#9HG9k52MqHVIOn4Aian<BPrmVjfP
zdx;M?pW^%u#ijGs=()$o6l<7qnBsbo-UL{Q_)W3q2bkx7MvMkXdw3H<j{63`#3j`}
zkS|zL-0K3zX?u(3l6X>6il5XZrdEVsl-i3P^I*!9GXEJQ=%1V3G--P;#RYX*Nw?N!
zoA$<isZ`BnRJ8@?lGR02Yc#m<dz*L#2_s=zf#55g-!e8^IS>ImiNOhM#NhD6EtAxV
zI%y{|y>6IQPWUSn0lOBAV-JE~qRC)Tssx@=F%gY`3fpi>bqOcY9#q^VT}bqjwX!^E
ziB?5%=IMaz6f-igvqctT<5CA|3*%B8!C*KRlI37frgd#cy80hy2b1yX!RhF9e=;Ot
z_w~Ot^WedUE<Pv@#-is3r>`U@5>tbhAWjBVVIjUGhOt#7^-&(wCE>vI6{!bgXX}gE
zY(Sgx2&&|-BK!4KZp+0vDi>@SyZ4^G`F`u(oU115+L3YXU_e*K)s<`N&NcY1e{uQC
z>Ds<6hp@vrZvieE?ief}>CLvquG_IZp4~B+*)h0QJ2Y>3-M)ztaEetDlQYs(*hEkH
zL=4WD{3QTOc;%D%m#-nvZ;IDg;!9{d$IqF7N3F_I0dI~6hR((Xv;u}siGPZ_#gF;T
z(jK5m{gm}0L%{%k6t~7MNeDAp;e#@DjF%`4QMGM6Azcnhk=eSE_0N|+0~C1#*;Ovr
z(w1%M&$RTf#@AX7<0Z_yufLe{`fl29*jHNDyo2*@V-$}sZTCrgLBwwwQ#kN77<wuc
z7lT2?86;&g6C>Ca3__&D)EbFIfJA#sG0RDbv4|ot?WI^%kt{t(weCE3hQ(Mc7`(+x
zgD92h9gMIEO6>qy_6SuRL-y-y+=iXo|6s1c`=O&&*t=fUwjtnm!^$=KSBEnVgBvz_
zv~$&U9}&XF9*fYrD!k>o<@%Td$R@*RhCxnGjy$vpL+%p-86vszlOj1UoCVQ3ZfC;T
z3gK*v*hKrJfn15$jmyU^5eI~}^EYVcM7xSeg)!ZTYn$@z#$k=PLC?jMha1YnqtxhJ
zrJEyTOu#6vFj*dX{ZSA%;bNwz6=j?2d(bOo8pK+zK~mT<L49i`b!n~Xm^on^9l!;3
ztpyBSV(agf<hZVpuq|DM8VyPbv*;OkdauAU(pQG9^KEr}jKbjUgSy6Hqz&t|z6-y=
z&_@r9hC+=70i!~LBeY)nTrge(bHI4Evv^0w^Sihkd(3o(`+X8$I&G~-v=U~qk`Yq@
zFWI8i8dF5+=N=bkWKLON50K`z+|Iu<%#!pbOUX73+Gc!)y=^~Vy+?udnCD&esE--%
zp;PO#@Cyw64Pzu-g&GZ#P9;e#vNVZREl<YlqNy3suh&}qAL-~^lqAW@l5yYLmg+Or
z+B5Dk<X<D6ebaiou&!Q>hH-BZ+bnhwX5XaYCE<;$2`zL!(8}0I^mkQKy07r0L1b+*
z{<7n3JBs*A=V4fR&atN@l0vgp124{q(v{#v@k;PgC^jR)AF`Z}hU9{<o3*O;px>f6
zr35UgE5S%KPB#Bb!Rdq?B_{`MLb9mTPlu#rG!%oI!|+sR;etA}^|xn*flx9z1ww)x
z4#h<2IBE(V`F+wZDj=3p?K|3>67iK%J2evzqOs~M1}ES&$%-e5Zel^IQVSdf&`u?6
zppC@?g=>@dtz??bv=~fIh#2c>>cj!BC>)xRLovxi&z`ciQO#6=nXYgxE(V$VGnJ6y
ziU&=L3nbzO#c_`OqcK9Lc(Dk(qNu4<OPJcqVt9&;76)#bL~>fOuqCrGJ4s!Y(p6KM
z^A0c8zTDMS?F=FVQwr&-YHiR0&$fJ0>FEaT3qX+n8wLUyw3S5$EezLr%WD<)yHBrm
zpH164*IPPNdy7n1Z?3I7+jcP1c95QYxu(`^Q-7wZKfU*Crs*u&Rl*X>dUt2MyH`(S
z`$jVO^Nyh0o$Kk(_MFW0oTP?bx#sq4b8n`(7ge5IcW<`)Sf=|JRds?U(OIvmTXHYD
zS1j4~;SBz&hVRy851!5(JpHccblQG8?Kz$E)Mh<9GoGF4T_YLK$UDd0^_)!GPo_O5
z-)|erxvH`*U&iGF@W$xED0^<txY~2o^_qE}ZtYLk4s5w??aV&+ZB=m%Jv!pb@b`~=
z`$)!BM5@qq`Pp=B*H(qK0WDv1Zd7vZyRvQjGHv_Vx~x}tvK4LbR<zx3>$sV^ky<_R
z*66L#wYG=nPuz3)3=7|H?$k!w*s?UYILFrZK&I&c2E5d^*p}<umF+y7={$^HTc}qL
zdiDAUbtRH%+=CL={km2nGPW?L(W+@!>Rari32RQqGwIr$m~uTxyzXEYq{6=>k(4R%
zCy2S3$uk82{scdX-|`gUNxs30;0?V9@-B3frqC9px*1a_)xvD>B1~gUa@`^!G7*{<
z70aclcv%_+vNVS5mg-VS#KVeH7P0TdsSC-8QjfwFl&52GSDD<HZ8O>nMF`&nEtx!*
ztK52h!_sq$&n-W(7?^kFJXLR8TDWw5a;5A01K%FF)AghNAM~$zM$+~Xws^*iCV|lZ
z$D)x%a64~nKE+8vbSwQHWnpCH%MlmhA%EI(6d~NC_T<BT#&Qh*=*SO_WI9LIJjc@Z
zV=6njG?fvIMr4WfUYIyZOFC!$4W!Suo~lVRA(($@p0lLPMm$CV>^IHY5_}2$%n5VW
zIh!%(N#iIdSy`4+g4P?1b7Ksvjsb&zQa6ALgvw~>=4}y1DGdsKl%+BnMi`|uNQadr
zxF15ws_iDWdRP&RSq~N!8W3j6rs2-nfkmpSET!z)+!-|o-h~5Bm1XP$daWP)4-(>?
z*6_s4)J0h_!*cLDr6*CP2&_yZ?_ClpdyX=S6G|5-d!Dl2rR*tWXf;6a1ZBiFiuuKh
zm!t;>;$Kwwiwb{9sUTe$Ow1&wXOfCl{guhvVA_vmss<#le74zO*XKhDe}Q^AhwLi1
z;o@o<ven(0>h6{JTJ`XPb>2MxM6RZO$-n4d*}K|#-M?1TzhIl^=l9Nsbm0yam96T?
zRCTO$tW|Z*AIp_Jv-<W-Rr^ZyTGh^cebMu0w)fP&@wJ7oEvHtWxWlh`_AOXw0J(<d
zrRZXGg<sjb5?X86JztTl^DdoPJhS|jwYuH~$Gr7ApYznuyV+*EWgZ)o9>OgBmC`}{
zNDotXh%%DF5-~ChZ%Bs;BC|m{LfKKu*gIoyidIvi$b~e5tT?XmC>2shM<?=MB2(iU
zeM7l@4^U{M;*j8Ep$+^}XrpuGM5bZ)hK(NWdZfcak4}no5dOw2Zx)X6%i_)0jo1c9
z@aoK4savT{25&gc!lOmCj~3NF%5OLug@*NpmZjKYY(oHyUcIeLsm0WWjh^hB)ANRJ
z!S}HPPi&Rg_(^2yN!#F?e}ba&pf+MC6~C<*O2lCt>ln92C`RIBF^vjrKbKO7RGtvS
zILDDxQ`E?UEQw~20HmF}`DF;;vS<dxUuirXs@<ZmiVncD$!i^sD?~UTdNj|ZJQA+c
zNa}(S*u`EljR*;pb>kqZi#J2x+jwM#F^e|^O+|pd9-H_r(bs1PFU&eN>l~nHHhDI1
zi;P~*tYsh`o0hsU`&+zX7N=#utH@0v=ZG<=;?N1Ppr2x<W~5G~XOStD%vTALvl0Xm
zI4n~Tl0`m=7m68&V!Df^`!;^-w!VkzU(hRIvbET~*r5y8V*b-TjJMH7{tmKFco-!f
z#r>w<Ty0aag&IiL?ncnOnT*^@#LVm35i{5A*Qc*PvSqW>QKfy$$+dTqfvtz&S02lD
z9n5qc+%lUqqu$E-dnsgUgyRR9pV_-rA)xCW)f&z-BqqRd#J+6H{15<a7So&=x)R%`
zJf(EIW&7BA%Je3$u_Lg|Dbp;-08**a3oT1!RA~d3r4kI#)G1n076=Q|nBP>;t6)Pq
z%8<T7+1DsbA@d96>enubax{WixMIsITK(ijjoP!&_iU>%ALR9{0@CsoWYDutuC8O=
zzD_P;U&h<F`ofy`(7YSsxvBML<&8>u$IU$(0@u_7Ip5?&m7QzqSUHmM4ly)p%^b`F
z8SjBR@ip%W1p7-u|LflFRXampuW6gN<vb1ZmFnA_p((n410}e<>bne*5@mmfe|Z{N
zx$0}mt3Lb|t3G-xQhoHOsy>1q@CuE(_5xg_z38c+z3`+?jfN1$zn-*+=Vm8Zv{-wQ
zx%@5M^T3g;MYN1t@&~b%xancVT>^u+6k_>?<%sp$p^xm)g;m?ObsD!toZk^~u;XCY
zHW+H{Hhqh%cHD_5zkt(*O0hz8i56o@<0f)Z=^rz3ixz?~b`Qp0$#kg)+oKw%_1eXS
zQMwVqOeP%S>;$$_LFb3s0RfeSwT(|YkVGRB4gbZo>C5JqEiVftXUqmC1V%d5$SHos
z0{v@84`t~UGs<;6R;YYMSg;tzyNk3cop~3|2MTA%#w}4=Q=qRwn)oWwrj1%H+UW67
zt&HPfQ(NYRadU*fW>1+A9XBC*Y1W(%a@{~pcX<Ho+z42=1d<&Z#mP<$D*PIc7NuPU
z91TKbK5xT-zV7xU{aSrQxWF6JD{5D-VKZH?GX|9sV-VR*8s|66U<r+FxCPS!zW@ya
zJ&-qyn2eVG0GNKBi4@3aVl_2>N^@pGRGHA*uU=Kvuwp+P3&qbzLPux)rTnWa;eo?3
zTsw)$M**m)0!ATI&>L#`UdvFfs$to+61)4rM`n{x6_vBL0cIJ<Y&;UlZsv~p8wyql
zV#Bmgv}+fRiE(X%9M{IGI4{wS7j{2DHG62W)L5^J#b|N);3BReNUbPWs##!Hy;7id
zuT;ng+vW`z#UV~bR9i-|=7*=7KGGaf@Qg>N5G&TL8p%hcZJ%-7#h;J6{vi#{V984Y
ztRo{M#THQGHmm+IXvzPI>_4w^_w8=&uE2V=FI(-;RQt2l`!m)1=dHQM&TQjgrg3oI
zRRpe=1V{7XSl>QozqDptt;?6PZF@6qdpFIdR@g81>`hx%?%)ZYA<*@Mk4z?aCFz@1
zTtRp)UE7V2;X!A{et?j@%U$0ZSnYbV7g68OV>}H#$LHL>bV;{E%xvmo+6N(ZW@b{X
zXCJ0q5)i|tR)r(&zineZ`mF?nu!ez%E$}*ia4Uty1IPuFX{%~?1w1PE=>5(XEKw%C
z2g>TJiREc4;`RW=jN3Dw_LZhJPjA}Z%jPhqIJB6RtkjiUWl<yVvf^gF$?D;PT;fj=
z8`4BKPoSUTZGIbtlqU0XMtxFqsWD~wI{cqGVX6hDq><65FAH!SDf3nJJQMPhbl99w
z<acd%#%rJ<(3fT%6b(m{!Y8;F;JwUQO&kJ4CWNE%BcBsqb6bi8m_9RIMi+?5?t)Ii
zxug))=kXMs*6NbB(4r*lC8(m1;y(xokuQa{$ECEW1m8spO<k0hP$rQeloly_gR<+$
z6c_MtLnx0%>PY${WZDiVK9ZIxyFuAEDWh%_L6s+DRx>9j&u6N2+fcU0^JXnBuyXQE
zv|z_4F7K;HvlTt>R`ld>&BU`i*WSPAUT^PG4=?UKzt;W;o@;y3wfobq{m65^p*w9E
z-?918`}Hl$CvKj-adx#X>pz(BAG|yK_R$|7{pb2K^Cy4q>sax_O7<OE7~L>)4QKiH
zJuR<(HS5{)u4m8v+Fh%jyRGS-FRay`O1n-m!??(-rjg_?yePK(EzXk7smB47GQP!I
zB7QDQ5gvEjfJsUFoii2g%V|6T*N6uny@QAlxMvO=Uc{-eJv5$@_}6N|W6UC(vqrEN
zE^*RqQj5HR10$9Qr*S3==^F5}5jP`{Y5V#!DZ$8|opYevC=}|5a4B0em$FA-3y(7g
zD&<Jw4h*?c5w4k|Uwz&Js2FjwO>3de5&>mlQnwO7BA-%@0<Drc+mrf9w?20#_M;O!
zQs0j}hj2KFfwGjcXjFObwZFFj3%kiN_82aVR!L$!aY+nDW^gJJ#vLp*MC(*NJ32;{
zCP7WQNEw-Lio5has#~!{qPU}1MK_}&g$tz!`O0EaYM~}JT){(pK~nYoSt1pp>^xOE
zlGwg71g)sp;91hijzn|Ct-nabU!e+n+EPjd9dyQJ3<~|Z*?ri2hq7X!?)5@-h>E}(
zNZ+BpMu|dgzEOS(YG>a?jZ6|Hzsu=Iy?y2)^!)u>x#-+fRVT%jduZP`B7<gcXkH%9
zwhU!jhTiE;w+yYdoLXx*JzsIZv-`W<^X`AyxhLaln?G^A|GsC}N^<q-d!Bu{DsQf?
zZN-wQ>z+Tk4lQ&d<JnEu0=rk9Sv_~RYpwN>>&~37o#a8*cPQgKbls7wZB5tub9)}l
z?m3d#b0l5Ylk3`>?Rp^7^+3+syLxstkoG>5Yw21Et=6QQ`#v=DP5tZ5{i~CA_uiUH
z4;)Q5Kk}hqY8v4;&6e(l>!WZryZ2?g4rRIy-97UYXZo3Ee_FZL_1yJQMwWsn>4!(x
zy2h@LzVF+)a&q;NdxxJ`^F28~`g2#)a`#H>Js0jUHf3GR6p8%IwR2-X*VVf*%vH5&
z@<!F-Rprh$ZC}GUGn42{UOz}EBz$nm4vZ>F-=l&bQ1%FABgkYDLL+LF{~8ri_7PRw
zMFtmq{n+t;=e&Y*Wp;yp?(YAHel~`Ap>MVRE#EEQ1_$tN_uG9x?%O1Aqlz2Y_hChy
z(7ImhT{^sYctZdT3#zV(J=y5V&b95kb0V|jp$!K;I`c7QcKEtMZE=jC2A0#_-i)Jn
z(@kZ4twQU{snuuh?7u6#?fS7Rz5hg}|751?u?-G2KiU5i`KJ$kOrYw@(^SIv*OMml
zm~rvjcIDyB*Zj7e`Ek4Mt{VmvwhJ_<fr7ltUJ<E+s}DE+b2$5zy0c#mXWzq|{VIsV
zTBUHs^s$6=oZSXFH_BXo)#K4!0o|V?Gl&!uapvYV@LyTj9BS?Jgw2gye5gx!f<;&V
z%tnqqFmw~K_%eARgq<=)^r#{fHH{bv?ey?LQdd||9vWY%XezGR=rUi#T+)Z`G$W*L
zQ5&NV5~?gEb){t7ho+v;rpVPd3hz&n_g0qBN;f!}!>tI+4MlKMe`k*=HbiUa&>y8I
zL4Y}Reow)7m0qFJS1IeD>@~`mAlX6CUsFa7GILd>9}z?bgHjb^pMl^Ti2QdT(jTK(
z3!CZ#P>BwrN{^Nn`;3KXX%X}3{`y()mKHQG@*H!Y@EldQu;d=i{ra6b@6I>R-EDZM
zajow(Lg4D{6nKZ;UAp(Ehrx5z4fku?R;;Uzwc34%w|gn1?t(Jv7`kK44js!39b0RE
zlw8KvbzCYrvv4NsdLZL^0EVc;{WH7j{YlKI-rnzf2+P3yKKzy^BO|kLuUzv5P3j9_
zD&kK;qSzB;uE1=UZlM>iXqgX4XI(O>80G`MF}pCE_4qR$|Ehn@Gn}>$tA1dadr;!$
zS<#s7{~-X|`?Bg0SRt}Q1|V~35YaL4K;Y{V!)Yfl1{lmok*RmpY$-b4_8HDR@1cZf
z#=U5Uz<VV{*qt|=xrR3S>o`Dhb_dtAbCVNToZVHdy~!ym@f2vIv#B2iu<g_h{an1z
zyeOgrj>1bNRn7KR{`&yc6SJyYOs38-Th%zLq|d}=k|I8gqR+5qcN)&R6lt0!-v%m}
zyq%ry@5)re3j2QQ+o?M*tW_UJ@I^l)m&oWWnK1RwCj2mfVwWE73n){f>3m)eZU#Ox
zVzkLphX`Y_FSSZ0%dloU3};wuhF+%mQQQn>Xm#hx@LKh5HlwVkGvn!8d9WzBfy19M
zfAw!_i~TJPot8rSA!XmAY<qL;uc(@`Gc>+`0swO?N9I_yYL4ND%rX3I?Baz31#|2`
z!5ljPc0D}8=lb`4Sm7=*$p9CbWb{;IlF?&{Nw!ICH+BfP3ef0dhyMa#5KwKjWlP54
z+q6+prAg@9#zaGnW}*R9O*ERGe^{{vgONlS--~#{34DGSraQ9oK<Io}HD4W3cv#6q
zA||V$iX*f#q{0;!bAzx+aotL0w=k4SI$@xTv+CVf^;T#LD^x#`WS<%0j&3+1h4Ar-
zERj-I4<-h}?8`UxCI@MCrHVC-MDe{!^gQ-Wghf##3i~MCtWJ&HYTrWTqrC(8_9}Xb
z^`w57)$u8~xV(xlDA|W#>>{mtZ?^Z-T9hkKrc--9r3L%2FaL?9`U%db(a+yUW@4W{
ztW+=E?*A0}YIs_|Q(I_Rhn14ZXIJ`-nyag)Zr*{sgE^Co;!QJe*3H`BR^kkOa4V6{
zQJgHMh`Z9FERltz2x<c+7|3&Gv1%3wm&gcFtnfVXIg->)b&pbZnX+q?5d+@hRAwYy
zgkt~<3D`%adw3-IB>w}l4KvU49}aQ+8U9yX*L$4rmz?W8uI@c<H+wwt3vTci-0!@{
z9sby4;Y}ZM$Ubs%{3-rD?y>i{k&jJg6xccbaTN6bitGH?WJLjoY^$c3Z@s>6>EPnQ
zEe_z;!$F>JSgyI*bfamDBY5kCd6;ipe)Q()8>hE8fE!cz(z<cW^aPKVPcA*b`1~eE
f@TM8X8?1P1!ZgVDE$_Q|@W#QF$&WZZuu1+e26<oR

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi.cpython-312.pyc b/model_executor/models/__pycache__/phi.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..12d101769109698a839d04f5b71de987b0772b9e
GIT binary patch
literal 14166
zcmd5@TW}lKdEN!ExPu@G-mefvih_6%b+In7Y>Sqx$QDIQzQ{Ie7lp7(2^22WE+|_p
zXe+5&gN{>4(|Sm!$(TuJ8md+&YF{e%p?0Saai$LiOgVtJ@<cOsr}Z0c(s8DJXutm~
zb^#)wl)iOs9h~!@|J={{{>wT17mvru;fq<m7kzOz$9+Z#{j(J#t1CRm&2u6b<V0RH
z#rU`>XyPeuj+x_@poPUPF(D{`Cd7oeHE3ltYs?n62kk6wi#g)Xpp(VzF<0CjbhEf4
z=84w?YvSIZm!+Mt+IU^CE?yt3XK7c=7jFnQu(&(c7;g$T#hZi8@s?l<qj_Sj@wQ+a
zi`T^3;~l{c7Wc+F<6Xfn7O#zU$NfQnd{b}}OV`DE;+un;S-d{h8}AGDA?_0!Vq4<<
z!T$Kx;8vDyj0NJ`g4^N)!GZW-a4<d;9EuMIhk4G#eVY@TE^}hDWS#tdeZoq=@0zuE
zaD;KTfV1^JoI4n28#vqV!?{y(Gu{sHcHW!!-C~!5yI6@Xl<2NrLh6^czAF@az5Aji
z;GY?NJTW23QX(P^B@?lW{u5`TLpz2a@W+#)6!S-t@u_esdO9ZgUyi2E`j1YZITKBs
zITDV5AVtrdO)0})P<;VjwLhMc<S<wfw?>s%G$M^7YDy#!I#BPSWMU$Eh7zNxl$1zC
zla$k_OixWE<y0t@lp|+D)M6BMm{ixHaOA9{6;hq2VzGF!0+Z@KBc(!9Q=v0*a(YVb
zr4%Yul5&W3J2VxR!?BnY3%#6_V`4~&&QPbE#21dFLKBIAS#3C!j7`TACyK0N(S#J1
z)w+|%PF0egO1`|Fgu1+A$urTEazai<Bn1tFRDW_hj6uy{zLE)JtafTtPEOH?YK&@*
zAC<zQ+H@)z37^)9kHt?*qKMh0NfD)q@N_H{(k3|+ONK>>8u2}zz%0ilF&a)u&#*Bo
zU*P0&sNVgwHj~O&@~KhPsi#hy2ncH3=yWRioVH?PtTMGZs?Z$9ql$t?*__2CRIc{N
z!{?-s6rW063`NVDE6%YJn!qF`<%_C|F~-6dC0SA3@$kjdQfNw+CZexIv^}PUj$&f<
z&k=bYAR}=>9zbJqaP*((5>1j>G)oqdp8*_+76}l;VuECyuxGdlUbJ5J1Z|>CvQO5R
zSFOcG`v!DJb^3%=bY8Xuof+;GKInRy3%FG`_NTEc$5m^D?N!wsp*@IANjq0{pQjbp
zQ`X{8i|2`Tg@#I~u-c38Eq<O$X+1<Z=S*|o2d{owc`nUQT8wNXlIB81T;YhrZe$n{
za2Vy%Ty>5~tHEwWW=yD&3mN@QdGsv3PqPB*t5Py8%z!HL=eBa3VtRu6F25n4)`l)s
zxKy3q#)ds*vPtLCeyi6mn$qU9<u5qV{3Fv1%e%#XVnq4|<5G=!JsY-GZ9cVH1=MPN
zw>Yz?)m2tkl|G8L8PqjvO|=?){A8ORFa2(?hE>;|R%nLy2%Ttrv$nKNv{%l3s#D9Q
z{UJI;r!I$P?dx(}qT9%Eq`HkV++>x}q-|+O+J3`RHvU?@L~64h!>rcm@zO7-)oQe+
z_4TU3%zDe#%Q(Upxj^l>j6rkH%s7V6pSu9~NKRfitCrKzup;*&L+(Q`V;vTOb<%ZH
ziFQWoz}@%1pz^AdFgBDrE2Y9(PUfEvs?G86E1{{R5+z6mq7?yFiE>yv$N&^dh2@JO
zF&ZcQD)FKNVMUq|hQp~8goR8qP-;5hQw2yZK&3qdgp8&_A=Q_dj)%al$+gf~;Jc!F
zQ>Z@{qAZQzIvW)+5+;#U2hmtmcGD0X2A}Muv|XPNnU+Eo*c7N{K(g966_!&`R9zf^
zhRCW7!UlbiWgivLM~89CbRbm=8;wh~C{k=f?g6P{V5<LqVpO#$k#G$1LLQ>x0~8EW
z-HuQw5(_IzD5TKA@f+Wz|9WhDDn7M+DmpcU$wm){UYXvzf8V*i()L*N^!BNXsk6z%
z_6v~j+coJey&^>*tz<2!Y@a$C9iF-<??AOPjpaB!tk3?F$WnfQL-U(U+*%FisF}0n
z>@BzLZH4Z>eE0rb_x_CKw!Nd!zA4{6lxrWNR7;_?Gv6A>wFZ`+$q$X@@PF%Q#`0#(
z=L1hJ51h=}w-&s<ymxcXyE(h%NX~oY!%ZJ~k7e!0vfg8?=uob8D7)iiuJt69TC;Mk
z+Y0X5yt^ak?m*<q_}n;4`*Uu8p{}ve+E-}mxcdCU3t3<Pn#b1aL^01=E!WgvUaVMN
zXFiqn^{zRDCSrE3)NsD$`QdBBi@mw}Eg9RL#+HJ+KJVU|bEC73dGDs2chlmjeBUEE
z{O^6_OEd2o<yXyS6nC!Jx!Sgc(YaR_>pt@KWbHj!Z_k>OYwBD$wfN%Ay~~XcW}J6=
z0!v%6JCA+%%yQ3DS$p@LwjO;X&6^6XBZazlbf%p;<6U!eja_=KK3pG-Qt$h-S>I+1
zv=QvzcdTNGIMr<&#wd=5M?VeNw34D)Whpf+CnARULkSXAlwSQMf_aFq$s#l&X?$su
z4wx?j3ueu;mb7`Yyp|#-88$b}?-E|%dl4M7!mJe_%S{?WQOlz+&8LO5RfkYkGq}NP
z2)8m`aHefK@2nkMhEOWwvajo>1O0SB`>>3EL7n~LfAB$#vqsKNC(bFV8K@Kx<h{sJ
z1xAw(ATB>d!9D~5r~EL*4^!|M0@Vz}Q2CI`pI7;FDt|$B(TNWwr&CkYDb=d|Dg@TX
z@$}1&Qc2rHQhqrsi!%-D4p@=;23V9hf=k?rldEr<@4VKzFuPngG-u72Gbao6jq`zP
zfyEt5Jy!$E^+R*E44>JN3F81=d2Q~sh4j+NoBXnO=bVM;g{HRo=(Xq~zqn&Dyxg=k
z<0>??%s+AMiG@F0ZWx$zWUN<t?B<L|K7<ypo5#mh?z)?xHW7|XfLdpW)colf#oeJ0
zl(LwXBa=!X)5OapVpOvNC?wcW1!i2RR!w7;pCOv3h*%LR77K;0^YSRD3T>~0Y)<4&
zh_YauGR`CT&1DY9XmF&kb5EhE<xAIo!Fji~bw$AMij`~bSv;I;+PY$+q@8OHEbY!U
zZC`Ov(#h2|d`<i-7kH=8bhoK}K6Wj(A|Q^EEuHh}Yv~mmrR<#3d!=Kp;~NK3YzkN(
zB52<D^c}cL>tCr+i?-j^rzfmTix!|oTcJyHK^xP3?bv;G)ruuQK6YYUlL&^;jaZEK
zIF4GRO}Yvjyi&1+(zsr+O&O;N3JNrR<6KzMmhYI-mP8FyIlh{rNy^WxC1sqQ>Rf3H
zsTPJJSnOwY)fT)}TPoH-N}r`n>CtDlTyf>A*&O;wMyrPM19iqauG$jN2@;b01@&vj
zGCUF4AqVv6&VWlEL4s{d`9X@oBg4t0R;gxUWwIWzoieHCs<ViZFu7DSf`C;!^h|mi
zYbDe6&^9og0d~4CX}g$-O|Q1ZhQM3^lk#T>NMO3l1m@@UtqWTgArhDCcV=vb&faY2
z$hH2P;agks-x|x||2<<F+vh%rEXbX%oEs8=VLp>=&s=>3;-P`WgB`Ut^iih4sEdV4
zuC9fNeAo6|*Y;)K2qcA_?fFO%q|rrf<FU>63KAO%0bXAc2G#tm2_Q_RD!#PAH%nHG
zu~kcKB@Uw|{%P(yKMqAu0-Jo6f(Zm5Fa&;#2n;2tLCn53^#n6BHN~kfLh0XvrVx%_
z;tK8E@9cYf-{SG*_MK2yGM=mF3oRY**x$A<b}qMU&v>dacssK84mL#r)3|&J6$Kpf
z^Z1cppdd&AgF!+-`S&QG9l#(@CMT90LQoEKVIop6PZ@g<XfU^HFJYXcS=hla4!?wP
zMNqR*(oUd848PuK5jr)jqKarU8lQfa|36#*cC67DxiN|uxEZ}Ksr!-gJz@ai9q?3G
z`1b(9YGAjaWoQ73F^Sv_URPTHIJCa(OOc(xJ}4`?wPgaNnad!}uy|8s73kcW&1+%2
z#ZyuNWy1J%UNuWo%8YZE3<k1p5)hMpr~<GSk4>$^GMXgSq0M4ajx$(OYnXE=lmH=w
znpAHz0Zk;ts6=F<O?4R6vwf(VsqS)|TfZLnz_~hoAq}K^58YDez!K7xn+A8fH@%a7
zJ8j_8;*oss{#@_=HM7YN1cSK%mA-8Y@~@694&K^wtL1~X?A|eCw-LaR!r#yatkkj^
zZoYQg_iY2dN;;W*1Z}TVX-O>5jIUls05mhrnt?+QtCe3#t=$;Q(x%eRfI3+n&kXe#
z{v8W^IcO+trV#a-paPi21Ex}s0cr~JWO7}}(+KpXI7|eBI@K;qN>qg2rMk-$Ohs**
zkR&lwM7q#A?Ovfx%j8lyIMy2LRV?%ia4CdjOw(-Gl(7R6^DTq9mcgZ$mRlYKC^omx
zzk2OevNGEGR|KwQ%PMDXac10rqb=Kh`uvZdUy3jH9e{yTXz9)NkLFrNKRB9e8AHhu
zcFND93Hdn+D&a6jL<(-<pF-oW)cR_KqdbE|ij?bpEM2Dfv9zZ7v8dl8bQ+o;;$@m2
zrAnF~QW~04KO*>NeC}dwwFeufT=OH_=7+effhW}>Stcw+eXj=BHC9{(RB_wDn_87V
zVG-@{j@sdwt=+J!vwB(4B{@U~^WC~P;Lvh6Xj@{r6Hd`{SqM7C8p$QOB}?_1CQRgc
zqkkBQN3u{1efOg8HB7tpVr$o_gzd-aGJ^?Ac?w*ri@Xg*KQ6<wh<^M??Vz2?4(NY^
z`WFAX`E|?d!a7$jtibgeFQA-`b;VZ=^xq(T)PUqtfj7*cR{{PvggG4R66DW8$dtKo
z4FND`nIz4z;se!iww1EVM2XR2s#(uRnHD`>`h}fm$p{l>k-uzDo1lAZVut1kAKB9A
zm*G%G+}Lr58@)_z()c-Uk`&mAuX=Am?X6%$5?XsvMMV9EU`vsr%|1~$!&k4bteoL4
zW}3UP38(_v1XS%R_46$=mS5i@+?;8Sp95wCd5eqAFqCbr0MD=^U}4)zbFWbiOq)=M
z-GAwlrkShu1F>-Yv>1MPX0yIW4Y4(RAcni4nDQ_p8q*gjtI!fdko|Dq;*q7XTZ127
z__+NPLy8&OFcYc@>xG=4CJCwoO(k;!E>1cJ`u&CD?1X*<HWNEdvStF(w5ZMtbUCHD
zC&@%n-OPWAYr1oA#mZeos$(8Y&84X|ueuaC`HB)=bw~+O6ZWdL*gaAcWU{4YnQHJ(
zL=$jhmJ|Z=ZL8h)xq%AUG`%}b_4HA|Mqo^|rXi5328na<;K6cJh*SiI2gY3g8~Buu
z5&ZWh?vCA~`ws8cb>!;;xw=5UZda~uSH@as?#VZA&oyt)xXYq<n>wHlxC$LxNoi=k
z)3KAO6rDMD=fZ`2_l{imj#aa%lc^M~P#X3h<{3k8&fWW|`;_Jrd@k$jTeDgAJ9G92
zm~(QW_lLtvy*CEnq4W3LUr!l%jxTsRvg?{0L6aZb2if*e9h%|=ubZZj6weL@U1na<
z4!FO0^)x3>f)P9YkMIMRJTrmbKwP0(i^h-Y)wYY#?o5j@@fA6%RFuvdOd@i*`g30Y
zV(YSZAZs6By&qQ{y5CSy8>(GNsvg#kqWSohbs9VEIKUIPdKf3T{2c4IUX$gM0Y>`d
zX1FS#BhLzn_6@YEk{u}|9BK0<?OqH3NrGrrNExmKl&=E#pc>%Inq&c}x`;0k4F}3$
z?j<<aXRRg<?nYBu(4lNrc++DkLnvcp1_+lbQ#_?RIT0?-s4<SG$-QboX{iL-DPkY=
zM?u3nhAmE+T>Y4PTnR^I1^3+H#5wu<pvi=E^6M1*F$I5uKy`x;R|G{ik~eY&fqs~2
z2g!d*!4(RwQb5h9f(9MM<4ihanR!hbq;{N(8sx80MENlSrtiC3zV~q6)&G&JpR_;k
z)`EZNn&+;+H}Bt_^Y6a-!m|Gnq<#Ha->$5C7s5iv$j$Ct$7tsGoyPWs!|xn>``A)L
zKCnL**neyH`wzeO@Gl#m$UOE*$0j&QURv&WaPIhunQJ=6<7C%%eDBq~ciTtaZFhWI
zmb|w*v;E&*_8rZ-kKV1&VeghSQPoy_N3qW1L1SfmR%Ltk4DMck0*^*X24STrzv9!^
z-B>Sk$rY#P!Ajt<kNy!t8~dId;BdwX7dV-J)0H+M=f$FH+%{{U#hoDXc;va$LRH7N
z9d7U9`JvrW&Fw9k_5R4<NSj%GyHm7x*asS?*MXKsamy>PGvrJ=tDS~f7xup^?Zg>y
z=&nVc<GI8k3-^EM!FM<8!Ie@E$}DWBXh|6=mfmiuFZu{@uWz~cDdM>|KR{0{I7tG0
zO0c)~VjfiMd3O6LKZ%4vJEzf3l+(0ZQu!okGrr;lARu)(nz#^}kfrmuwxsJ*)wBNb
zh*PzQQFsw+$yqLz-h1GtL6K6bO_ru&c-N!aA+!~G?IU-f1^EXQFh^w*V(>wVV!*9o
z{#!(7g20cQ(<@X$@$l3X?gv#Dt|-HC1$V1x)59LH6dP4k3w6ODYTZ<wtN?TJtFB_#
z8J}G_i<^m1R8$4V!n&joOcEC8AHxLIO$`-a%_!`)Py>f@GM=Du3f`IlA-*yRJ<hDX
z3*O4+_J!T~_K{rs2;6bYO}jF#J3W1W*_ZKrws~95-JLmnb*SL&U9#l7gN53b&mK6I
ztKD(cxo~W$rQqvY6m!09g@z6?PT|R4Ja)5fx%t3V%U#^pJ#_7%#pc_-z>;`tAUFIN
zxbFD2E$zP9aND<sinMITwLweZs!;Iv<^8*I{#{o+pVW3PNQ*DsJbJtKp-*ZXS6aC}
zWBf`Nhl`Tmu8uqr1Jx?L<L_S*mR`Gk@Y!YmDWlTcwYv)L*1Vf(DB{QN%`5x4-hq{G
zakZVgYf%&MwUvHFl2>IeMF0gSzeE9pd<N*`@{|dgaOE;R6_ey25#g^XsOo(DL&~Ax
z6Z})i<c76<cl6L#T$A8joLQltTf4rdpOq0_7+h-nS;zH`6%Nr`eeVyxH@HgCm0E6i
z=a;T#nAg6R`2*JutO$t1yl!Y^DR?W%yzbt4^Kh<f-wIroow$+FZe6f+&D&O}?25a1
z^^$EF$T<d9Jw)5tFLW**U3&KBu3N(U?)Ti;U59f+kL7xgtZ>NraMy>*FZO*yQKqS|
zp+qnW<I|=2Y62T>y}=GtH~oZ<@<BX)5-l*^1w4VWN<z_iw_UEmWsP03RWs~FM|C<3
zV0zl*U=OPrHZ1L~URv}>PSM58_nHkjwA>9^mz-1<=DQc>yGyLyppFenYb|30br^wL
ztcOuwBMH^(C^P;Yl2>B#0wsMYS<8(7I-qMKUfi9H9!biF!qZAPHg=o=EwFVS%OfvP
z@HPeHMc3>m!=Ny1L6U8>@0m3IE3D!De7?WCD*%4Ks;&UKzJ^gtdMo>InXT_4orGUm
z(>KXEK*|>T%A^%v((=+K(eNJMFzIp%<#gA4`MW9eB*A>ehaOaM35d{-*R^7p<TnKU
zl_^>=oC0O9ld86&YY8Z0I1HfYRB>QT`YSq!BuW|5S-Xf6n7Iqrrm?Ees5bb0=-G|j
zk0OD(l5s3w0zv)`1-%sXAW(g&s6=l_#j>|U?1;<soJ#%~1q~E@mjbeq<(m}LAy8{$
z?1?A|aP5t#JO{GwOf~vccI!Hd{F0xv+-PlHzmE;m^-*j{<sVS&H|tE-!aYpaqP=?8
z*P8bYedHU;+J~~<p}R%%_4CF~2&5Zhx0*g^ULJfL-fr#b$(kLGR>QDm5qA5>-nHEE
zbuU_%9Lv6)Yc4BXv6eU8aJ6q5xoORhjOIp0m;H~DQQLVJ&qSV>dm``NlXLHZ+U)S?
z_NmO2|05X4IyIOM9XojY5Mh=nek;Ffig4))Pq$W0+G;UL^(Lw)w^f<^n(3;T;|eSF
zC7NoIam-4+GBY=m_Xcv_z*1n@yE|*&&G3J`!hl(4h#G#yVbrp*ovmHu=&mKr<kBr}
z+Hv|0VpCSdUMlUNayzN1Vsu4o=?`dBwBg}zui;ud-*LX}EVvu5Ud;CFx#fZ50?(8@
z5S?YZ0oi2hR*8U$trA_cY&b5inwgDjtE%*B-c&>7W|tP)jF{!WLz~*6+lm;lop~de
z-DuSgphA6vmZ&L+HT1xIIwj#rH9g>->8zNS_1STno&l7{^w{z6C11BCSGQ#`_0#l^
z(>GuG;PB7K{%I_K_}SdyXP4_v!9!#`TaigOUN=j|Uj7zx%H0q!e$WbibRF}%?&fyz
zGrdY5GE>GeWO^vRZpe&lroCdE<q9#Gl?plD03vlgi@TTWwz9G0y*)W^&*I)PR}Aio
z#sl>gilN#xrI`Q#Ts+G$Yyg=A=kKC0{yp*01j%Hj-cM)z8{(m0KlOVJ5z-m$^<Qz8
zM(2vz+GWjJ+Mp6X${*&x;#xI55<jFz;%8+KFFa7vBOfT~kq_Vq95~1qhIV}Ea+T?l
zh?nV-lq%CDDOsUQ5~)&`BwCw*mp{!N?5&T0I4afN`Yc#-j*e9uk!noB;0F38a&&zY
zQBB{ZX$U-^+Cm{Q8NqufZzPF7e2CC{S7kVSI-=>~jws&sr;^E-qB&+>q#2}RtGZM0
z*(d;mICc$tIH1<h<p@1|)t<6yPe<DsQTyWz_6H7lkQ+(LVZ5tSWb$rlcPhgX_EKJZ
zgGH;a*0O?P6i>0Dr*ZB?<}=bBy!Np?CZ$9AqtBundl*k$q8C_8+B=v{_u$2QRQ&A*
zdqcxs&T4OH2JTg&QZzG(-G7e~?CF2;k2|#2W%sJTWR*+oPdc;*xx4OBzvgWx`<DIT
z3KKr`#~_-1(MVG{RIRu+d)l!dE?UjgsVG*Ond=@_Mv=}>)1UarB)?QA^Pu9%u%yW3
zXOY{8Drlt`u5=KU0D-yrnX;o=kF&$gZtU4LJ-g`8v?1Ds*EwxRK1!9@4`@*Eu>7w`
z61*utN3de%dH&0BIBSmb|IYP(%5{9kxj*F^KIM8?@}XaG+keG9`6+kc8<T}MeaRvC
z+DY7>az{Sp4t`@YgJ9?Q6Ce!z2RHJK$qE98V6FZL&o^D&Iluqf{xy!`YfqWF_|D8z
zS6-NVVU0s{?NOcx@|BBo7a3s%>XWH?&GaI#lUF&4ubM$#VdS+}O%L&dSD%`H;o1v}
N?xo4EIV9OY{};yR9;5&O

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi3.cpython-312.pyc b/model_executor/models/__pycache__/phi3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b475db4cd12ee03e865e8cd19518a209135e9318
GIT binary patch
literal 599
zcmY*XJ#W-77=G>Kav{3#F;GO2s!T{hy30_cQt`1M6(JSGe2Zmb_b!~1xK2{_I(Op-
zbm0#m{s<BatXUBQ+f@e(6R(r21eW~zdE)qapFGZ&Fbn{Pa^Gj43BY$tuEt;k)(;R|
zfPg6oBB&xcol*i6UVw1ULAa8Ba{70t&T<fYXAfT%N7Be5mE*Ed%jnHK+l}&4NEM}6
zqpX-qlhx6YDf8%1@tjZe@~4%ENqe(<a8R1(ys5Z4e3kavecd#I^)~VgkT4}^j0!SC
zYdD<`6ivACpuJ(c{v*@+$BPrDP5G`J&3G+YqdOK;<Dr%rVtF0At<PA&bIDj6FovcZ
zW$}oy<A$rv&X(rsLW<3H#d5B7R?I%a+PeI6kkq+Obf(8OH#1p}Pn*5{M~gj~sO)W`
zm-W0Xk`tx!qzi?~Q<*k(X?j{E8l7Vz#@;|z>?Kt@Sk7VPL3n57(A&YvhwvVvyTRqP
z;g0vs-8SLX0sA3C#zdK-_sF)I{NJjl)kN9!jZL-hHnOObxsIsypY#blGq;f99|DyP
be&rBCE(0Ksf56jUo=?25TlaqhuHD(c#%Z7s

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi3v.cpython-312.pyc b/model_executor/models/__pycache__/phi3v.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bfddc31b6265f570d991a928bff7e343b093bad2
GIT binary patch
literal 28443
zcmb__dvqJudFSB$CIEtOf+YA735nuUFY0AeqA1aN+LC1laRNh}Aw>!x=>ez*7fh7Y
z-B7JtQ`>DtrRkbZ)0&RmEwiWRtg?H~M(uV_-R}N@F_i)tI~%5T+x0m;UC5;Cq<?Jo
z_uZKRKpJ$D)6OC9+_~?^cfb3+?#2Ifx$GRCsPR|F-xE0Qujxa3oT_L2AM_k|k9(Hm
zIbIj#V!DtnrVr_3hLAx=Vfv^sW(t{N=8!pN30Y#+kd=iSqPCD7@rI})<X~@S%oTF6
zIAgRV<_@`Io{%Tz4S8dwp;8uZiuz(@p)%$-N6TXsp$g`=L@Q%ep(^ILMyq2rp&I75
zMQdaJke~VO(YjcDsGj*9(S}$c6o@s38e>hNCKl$5Hpf~*EwR>6YivhoN31Q>#=>3E
z_E<0!jO`5VjO_~TigkoKV!K1TW1XSSSXZcvr74Ma$9h6N%<qo&#`;2i%<qZriR}&T
zjqMBV!?%|&jqZ;f2pwR4U$j4VFmy0>D0C=xICMC6By@y@mqm}po(Me=douK7Y#=lc
zI~F<?J03c&<Mf<RB@Di$Q^q}Xf-esZA<V;9@RfWOU(MI>wY;CN<Lmi`w*zmnnd7+7
zNgKx>;2Q-m-z3!VhFJ^8@y)_1zC}1NYUNvBHid@u+)0k#@iND^347l%sO3M!Lfa7<
zEC@X<JSCi_GD2qrt8kXzc^JuA%3Vm=A-E>Kp~6MMD_7=umU1^zb_(Znp%++a7ec#*
zow?AbS!fSJdxak1>1vdhi+hH}^&xJL5Zn@X5o1z6v0PBS>J=^uPYchyo$DbhV;{=c
zU%b`AA>pua<Snz3{VlbW(6hG;!Tt~FD`=3d!wEr*T!{*@<!oendVF$Bwq6uonh_>P
zgrHHj4NOi>B_audmkk4xw`9wiaY`SRZI^CM3j@*dNc<d<IgdpWBUgunNMc45WY6(4
z!xt`($H%88k55gGj*rQn3!;z^Bjb|-uZEOd5T{0jczjAcJAQL~GN_a7m!r{`5{oa-
zu}EAPoQcJ5ou5vipg6)D<CEiwaCB;HOc3!|`t(d>GBG|Iq4-?Jipx_Ykt-J>Xk=7~
zo`_u$cpkk%df(Y+&s-Wldwy`>O!%1-Cx<UydggN&fzq=x(Zu-KDLxV%j3gq1<0A>V
zJRdeRE=09P7X+Wa5fR7Y7`#{<{r3&WB4a|XG8U``=K84w+E~hq<Ff+Vv#DaGEQ?%8
zJ<mtw^2?<Zp?;!A!;_;^a^<FkvFXIK(>!J?E>~WNMn;6IQ&C<J)p?1t9A1=wbk7LW
zlprQdCS<1)q-2%Lo)O|x(dz<V7>ePm$j!*`<n&A;er#r(3a5b`o&-?D1b!S<UlJxU
zsqvs*b}HVBBUgo3M0TiOS0mHHhlB!<(VYhrjK2`YNS5V0lpD^tTzYY4dU{Gs#PhMT
zT?@N#L3U|=1`<J&>>Zd%Og$%zk6lf~&rC(oPT8e?5}4!DAC3v)m=KQ9B*bX;!-57Z
zak++p+I2u=SQN&_<LIBjhmlN(%FbBi))gT<EefLm-Hthq8&j7SC);0|86UY89uuN7
zA96;H`|tv~I?j3E!$0>S;ieC($SHv{&fz;~mo2<FH9a+xknLB;d0v<dM*xEk)gLEV
zv5ymgg_++wUNGEBkZ*D(7LFtmm`$vO@Kqtg$7Lr4j$DmQP72Yu?4>WY$Y|u2AjW0;
zG_6{tgpz4-YC;%c+4=F9Y`Z!d9#Iyr^Cenm+Lu}Bw`|6Wo)ITURBVgha2#P8`d<Gg
zoO@gXuJX(olH3G#*{#onX=?~@yN=htrKX)TCXKw|8ooqd(lDW7vcfz`<19XT=FXWW
zO-Qf$6E-bf(vZ|8O-cRRrnfL9^vs!)=8Ig=d``Bpu?UazH$VJ;Kl|CwM5<Wa0S5qF
z^Qj>VPhA&8aU9?@NJ&g`BSCQZ^6;hbnSp0co(NwUxODtf&z^8!-@fqi^XG<!Ps*<G
z*cgCC#dfk`44Ci<s-=yJu!zUVf1DgDQ+A9*$EVf77Ee+zOMDu>ICd>ApgjL{vMUjr
z?wTH--kks@5)!*_&g}0$aBaWP6&=6QHGL~_b!xJU0Jw`mZCJP|j9^WO%4fW5`s#S!
z_0H*AvM<bFeN!vN^Qb9IRbGX2o7=E+zCE{3XFSzuPn+avOM7-no?XkQAC#_o4&NTm
znmMa?q35e}8Gl>a-!J+59}G+W6YuCG|FC4OUh}su>+YXTS*t%NYtC4G8EaXlc~8b&
zzF{+!n{S`ZmT=DMl(A|Zb#Wu)Xpc$)aO;1Hkb9iKg>*a@(t}jfg$%qtWE4!ifi_mb
z%o}MV7c7ExqEySCe+%~F;gpw%0c^Pr-o%@E3vcCZy!oo`ZM(K{j_TDK^q*A&?<gq8
zsR3{<uZ!~Das*4{@(URG%WNCCFn&{rD%f=P59~CtgX6%+v~k7{vTq989k_BZz&6+b
zt^b1X$%BD&GeBBmU}`kLFhsl{cDgW@Ep?$V`s%^JDTW{^vk)1%8enM(3b=7F@Z30`
zxLPEE?3|{yhp$JXGXjvkcoE%`oeGv>cr-2>6Ce>}{gp{sH!bd^c->W5cLR9e$={lc
z#KuR$z%=o5AJUq`=AOfF@i(2aH5^6~Asm+NVZysJQSv*(VIZTZ8e<8E`Kgg`SbP=*
zh*m1a9S#HE5ye7dh$uoCvI%fMa#c1fTaavw0-=koh<TF}FHqid<UFG}H{gjU;ruf9
zSZ^^|v!&eL<GR~}^KGfpZpq%WYCHyr_xUqc*Q?Gu&V|I{iPz5DKO<EJC2Q~pfN!T~
zp?Tq@#pcEMO7lwjhCy$$XAK6M<FUcyGp}<dlR4|*N^2MQzIOQj;pG;ow(~oV2ZIkA
zSGxyOwS$uP#3SPgrD4>jO)G*>06ptpg0szv(BReZS@8OEtq3En35{sY!Lo(HvNdRv
ztMjm&+pSf2{$C7`{x#uw^k9Ikn!u<+XR_50Xcs!iIy(YD)#^G(OkKkg3Sf^{mPD`s
zq6y~N4y)#k&BPOd80~_AXk>D1277FPq07LP$jG%TQ<H*{TfBtPR>15se6ns-e4gG$
z5L=OR;uk1(l$<;?5#kidc@_V0Lf-^UW<ZmNYwaUoTIiJQjjP7qj2#%UI3z6$5)iFg
zo3jR;t@W|N;4p7+29sH-he`)&okJ(e$ZrA{Ba+awPR;#V0l@I4d2SRt?aNLeQiEWe
z&`>Q)t~k7|c=#yx*q4nV^E`J`7qZYkDpyb|*zDxsfXGGh1WFoF89r910WSTocf$Ei
zT_KThN0;P&4FrM4sOY#Pm;b-Ty{S8gP1zKmA@U9Qfo)r11R3K(bX2y5!z0m19E(0q
z2qkb^S=BGWKig2ed7WAzzl%iiN;p5c&Ao4R-LXj4sz=tEA6T9EldVoR-b93rDMVs?
zgsRXU8f4ZdB1P_@)e~Aw!Fx`Ra7wl1N$TEG#|K1`p4VM#2i&-l1|Fh^U)J+_a+Q@w
z#Lz_!X$&llK54kfCA10VzN!lv&&ei+!x;f1+eV`CF#86V<0NDpR#%Ql;3)gfO(lk7
z(^19*2>c0AoDzd3QAC_bq#FqM&s{hX9y&2_>Dgya5P}}l3Xol_T<tSXWE^c(0XF8c
z2lPm|AbEVYZJP<$n($2&6n`4dZ7x$;o33n^D%<CsSu2N+igu}@eYs|}V$Zx|%~83y
z|6NBD2##;-mV4gpT{cPn&iS($Um)cSQ0$?19Xm3<`joT&gObLSwUJFBHY$S1b3v>4
zMZ85Kal{wNAutg~;K+`l=u{-3Y!xDidro$#kToJiqv7zIIx&vWIL+FV3XH|z70LM~
zMYO^B$;;fwdZVc$>nt%fE$>b5IxOuvoaONGusl8Rj5P4fC-kALW6DWY=N^r6U0*`b
zrd12F2hxxdUN3+y2JvHL(hw8K9}qyJR<@=sFS|k@V~P_zyba-Hxtekw-dsHWsF}B8
ztvh(f%UsCGJK?%`7u*uI`rTOlZn=zR_tfC#^{>piin4R8Rp7=r2#QmK0f+-8<D*kz
ztW!2Cj0Piu&oL@k!5cZ)Mk{GZ*cz)r=oY+T--<U91dr@V>Uf<-i;2#pt{4k3=|H$u
z%aMQ2850ie3k(F-+iyb{_&fTy4cd;F<ia_Y1Z8LfMJ*HFypd?fIny?=CW=KV+OE!l
zP2s}1wjfs#T6UtmpaRuPl&jWHlu*#_pSuL>rV?^}`32fw<Lw1)aA~as-mB33`8Q^R
zn;=ej%M;f>1zeV>(}E}JHDCUnXw>`@O`0$N<^ilIoA~W55AU1>WQ-X!jH|sdV!3ht
zm)88x)NR!2)ZVDur!_NaoHO&TIZHtsup4ZBk|w1eNwYTEW4bwOVwaW<Ey%&bAoqns
zfInN(I<Z@e&%X=mq3w9f^OpKukg8Z~z)I)Zq1Sq)<6b#p<O*_jZz&v~N$al@?9&op
zPw_QU6xvI8w^k=gsL@Ke#RWa*Wb-6#()?^m=O&&OczX~Di619X3RsUYiCjvE$)|)0
z-6(rz;zIZ;AI{;YA-RfhRyZm|#7UBrhU3CC#Eal5<kG@~;VF^iOqQ|em2iCK3fqJ~
zBpfDwo}8QHT!#~^6{pEhTaIkG8i_-2BZ|LFK?lhp-ka^v;yn4j21mA2kHSn=A)cYo
zJLLQdIloHr`pHSzMncb+08y2)k(mU@`EJQ(YR^dw3);lqXCQ`+h_VR?cubJZ!cB;c
zc-eUJ#F=LyRAaK=#5hE}CF=00Vj<RnphKY#eu-*6P7aN!(r(t!5*pXMEJ-%;!gK<x
zmnw47g_X^d5ELUAm{Ulq)fL-Ia)jD{L%#S!Y`q}VHk_QTL?hKU%v^id^7WOQkJ_GG
z7`+$!cd>_~>7nPPq37ovAJlbcoTUqAmWP%PtQ<`RkAWkrx6d0v;eoQKZb(;kNL3xn
zVX5lKyem`RlCJNS>U&dt$EEr~N>#g7w^K=N<{I15fgUN)lMd{a0((>YPQBB*8n{5Q
zb(!|gbbG(l-k)wiBDEjMICm_Y)(!d~tEm+nV{<Uw)F(CdrJMFkP5V;^&b%|e+Vni-
zZCG>r((aab-7U*y>EO`2!J(9ODCHhPuPUqWMejzxwfBufuOC{`t@Nz$>3ydp)Y~KN
zJCo`<yV`tiwc`A|@fFAW6;)f3Mjn)<`%g>#r{9T4{pV9%7gn2}UafeB60cRa%$H<5
z-g(perDgYmcY}*(mj@*O?&UA7mL5%cpO`nl@2vn2+xlA#^8*;YSI^!#`;Fe$_TS(C
z+x_3V^2Ye<<0~Z(OICNBPt{!bzVqp<fh%qNpg!<g?0#(da;kohGH(8+w7*;Occ=Y(
zB>$e3FFt&3)qi&0_<d`&Liv!?KzspCaWP^FF`%b)#pvl5fXU|!bH+K-oO#ZIG(;V2
zc{Yg>!Ce#+Hx|&}R$$58PMj|a;zJNy$er7l^Km(Wq80H3)LWjUHJKM?+LAVqOUBth
zv}>TRiUk!$H4vHP1Bz5NaGhyS0y(lN-f7QgDv-P!474lw3n(qlxZv;zWXbT3bOf$;
z1a9QHUm!b(?Tci{BR^zO<j*8$%IC}rML&dy^k-oAOmPz9%a+k76FMtovPBeFu!6D5
zfErbHBacgib_IRp=3Tbun=jkQ&zdjmMi_%Feh%YFVx=7C5tn@m{#MHdhXcWNoVZtQ
zP&F>Z0_qZ48h+Ma6s4%K{|7nagqCk}kn`-^mku71@MqmIZ(kT*d}*n1>FG>mbGmYu
zRJm(;VELuh%AR>A<4roG%8un1Rx1zEx0)j3tXQ-y^)4mSZT(VPKbC)$9sG-#YiLf_
z@0aTLKX5+0wp#y8%37OoH>Io!2e1kH2?80V`*pb6agz$47%zVc6e%DNS++i)RSmym
z(DrapRJrwm^t3B&c@jBFwkVvd{H}Picy5KxEha=LMin!4K#?|lMk%B&+49U8C!Z|d
znty3Kismoc0`M0m-UL3~sPgEb-zU6V8j4TQY+%tez5(h7ZX!qZ<x_)_(qsXaF%C3c
zj?xDfQDZ>SVH11-^D$?evnTD$=a_RQ9lT|hLS0Fx>MKdQk|jj(&bh(AK&s7~lWvkx
z<Rl87ZCdN0oVnI|w`r|cYtvk5f`ljRDMr&LODAfz`23sC(ZVR-pAXl3|4bfB(nh3X
zo|>QYp&ayf>yz|NG;9sSi~y@^G-R$HW!M37yhT1wvP??>y7r+Flq>MKb@r59LphsK
zQV|@>u-dMkjzI68oxOWH0zKWmd-4cYwh(OwI&GG)W{&by2+F{Vv)&g2kZEI=$O&s0
zN<PO(OtB9Q4SE$i(2jj$GM<P)doO++;o<^0_u<IKD^S+UW?r~HJ|ciFW77Fr6=xI0
z%S1XtJluP;m#Ic&Z-nPT8WXiVDcp#HY?N&Ra5M}6KxB?kp@xx20<DL=fG{hFzd=Fz
z#FT6%9qS|?ENAGRC`l?rL)mP{mtBh9Dy%lhseQ6`m5)WIu0SQbIip-vG#HJS1KY*q
znqGZ{X*)NU$aW7|H!fRgkD+a^VBaxcWxJ7VzQNw&?^E|mX{t6CBA0(UjM`LJG&t8F
zk5Wp0k5?MO_A^@e8gOlTD*~r)A$m4gbXzO7?fw&z$Jc>Cu*X?BPg&Z%Lvrs}4!-N|
z%W_aoWJ;Qr_N1E+O3epTO@~s4&ZL}Yv31$(DR&=8P-n#gpRNc>6~VWA|M1A0M;<x)
zGyXu@-zE9GR-ohSP5bvt{{3nHQOSQ4GPv4?bZsY;8p|(9wLR(DeNyedbnRiO_VArE
zYg#^qB24=aN&Z6xS<<zAQf*(lwqL64pFgt}==}CeD~-zuDX=GHty^nuOE({vnvZ9k
zjY~aC5j3&Ip0Wn8y>@h`cMV9pK&iGMv;(2-=xJ*k1b^s&zjf*Je_7je=k)x*{LPH7
z_Rb(YFJ;Or7Mt%rKR=ZBRMjt4+;`6pBX3hTqqbjq(EpveRNr8#dr)dT0cm2Ur9Is;
zD76e`JWWeO%R{KHwIt<iL?d?hq&tpD9mg`BR)p?GXb_6iK<jI_?%!G~>q(dOOJ)6;
zs%k`*S0H_P^}W+~Pp8Y;q_VbU-D=s+Oxd25r=_y}S%=wMx^A!rP=p^;NtHicxl^j#
znehbDo@U9@ymWTu@T%uY6jW6*e+ospcBGvhlCxv^`R_aTWe;)w-t1A%6T~nuLVKie
zvn4W?5g2~~h}f3AMhb<v#@3|>r9DYAufNs~eBwwNNgPI7%PhzSMIfyRZVF;(GqMzr
z9VD$p-5M&Lvw~<ZhOUhunyuIh)i!UJhBwi6$D5MYoX@POY>Sccyn%#d*sh`A&7~_^
zKX2zzKlM)A0*ki6LSvxSuDu}wQwgbmQ5&diE44uB8`YEl%C$}%A&7T~v2e`3@$+m*
zJ9AX_HoH+#MnOS^J9~P;Q!s4EynDL)_vN>-8&_c^6HrqssRBoikZMk$>hrC85;G_E
z0uI?eHU<x#wI>uo$qx9LzF7P<_&%g55|`ivjpFNg$p+ZJh`&od3p7EonFLrBg{^pi
zK=F^s`4fuPos)HEWZiM`_t@7d*}EBU14kEQ9K`P+`D}Ml?D`qo<zB3&IIKJg$vQb-
zW4d&QRJ!AiWnMSmGat#gJqyQw<>unRQrXvsmm8O_KQO=fWohRV4}0F-Ihe8zrrd*s
zhW0HD-G4$V-!*T4-|1e^E%e<r|LW;^-I}u|?QD{qO@#KAy~_iu&dwjX%I-Y3@bsc?
z@#*{KCEZfbvhMYL%RS4HRabXDu4gf_<XswAb?wl?^k{?b{)tsr6AQ_BY8Hop$Ocxt
zZw{>tJn(*J=)o}{mXeZB%v?#iTE&)PluS?Ge`>k${`uw0E0H%t4|?7VKZrbR{I0+<
zXMLQlCR@XKpnC}@I0$o|duWX?97I#LEe-;F&*>E=AEaGjezl;Y>k_LHjK5C9A9LnJ
zj;Sxk+JH1Rk3rD}vA$YEQAQrBxui+M2M{=r-qSeyYk8R7MB)InworjT&jKpC^4fDb
zgMpoa_T1{*)f4OpY+itDnXp9!BMSp0aX~X%GUC6-c#))U8X^WpxQTy+5VnY*3S$~S
zlC`jfQa}J%APyiwsa&eke}yJ;)t_2S8f6ow9Y&*C6oTbHA!K$((IxdMBJ&(ABw}f?
zknCLRzI4kW34hi`aO49JNwuxjHNN)w`=3wObxCzy#Bu8udlyB3T|M^w8tnJ2JKq?7
zeK_N)PX&5Y&b|j;2>e>@e`ojJX<OL2cx9<=)xI-p;%rUWIrE$3n>rct<E@Ip2#pJA
zLquZhWCJWm^2$Q-OBBJA^KEjzMGm14kvc4XnVj2j3YCRlr9g82D@9NNP!|5c*aM_d
zS^e17ZaSx1^8~Uc@}PZ{!R0+tMOW6szO9_MEX&ehXzV2)J6Px?oyXLi@i(UZyCK5M
z8tCir!1vC4_YCu|*-Fy38p&3(ZbHmQE&Zn8N7r?grpABlb(w;SB#s(1g8$r;(?LFu
zpuC|8Yyw~{0L`PGG>;0?I|`LFbcCP|c;h#~5F^%%e~VyIQX!8CmfF^r%^@rNHl(*9
zz5Nzsqq2{H;_?N>K29}jRg|=w>;`CQGK4{ro_k~@$c^hRa&PLP^Jaj^>@OhWCtzm7
zt?HsHNyQAC0Wu#Y6V6yTIvyKO#AkOEskn2S#9;zS0s^R|J(Y`P^IuL`>)F6zq1jX^
z9`pgK5z`H_n$oPHt}-Jl@yE!W>k;+Dh=0~2lIH^j8g3Iej*7NEnhXb06GJg6C+Q~N
z&S^P;mh{X{LTQ9qsUB7mOeqhm&U|ZIM<UUYFm2DuQdTq|;ZYa}t07DdXjBlyU!h&%
zUz0;!iBt1wjVl`eG8(w8CC#>PH^f_0UZL^bhZ3>mVGLNFa`-bKdaHIzRl8TKy5@)1
z+*N7!QOSKYQ(BktHDK|2o>=D$9($HE*zC&wQaE(E!6mr@j7)NIBofYJdcxu7#-D_E
z;KN=dgn7W<;wAnK`E??R7sMaIDTJp+#bkl_SsI-%(+$O@;)xu4JG*zgZY#sQO}3Y4
z4BV*gHur(MYRR~K?2)@GW$jYH%&`?OQ4hr*kn<PhtdT=1SMft~SkwQWe52%CAm<!8
z?`h5#sk$%X>t!yh*O?lYD_49gBM%0@GqKVj1qaqSgk?QotUhwMOm-lmit4O|e6Yo+
z$=b+g=gOLv1|?s6mL+j=cGtR#BI@;~?v?%x4lku@s&xeaxhIERNcjJ0?4sZmvT}f}
z5yLI8dH|gdtfJx{HHDdBBa8Z_SVQOqE3l2_WmCv@%LpU2N;VzrEWswrb=d}FFfuhW
znTRX)283g@hp0}rI!TJc2$UQMX-Pnw7n&-Q9Ja6oHCZtdWz&i#QfSLFhfYsuLsSq4
zJp}B3YH}<T17GofBZVTO&%g%@9zrOxaUACZ#J?jivs+Tto5qPLoVHM{eEu)xWW=#^
z6Jk*9IF&40jeAOH0q}G(Bb<QlP}$Wle|mTsF3qRALGX406#|8p*WdfX-7hTd2OV49
zId5O9ti5;Z?yYoXk5t*STG<DAdQ)e*sb6a9pLedgy|3Q5b7LX7bb2Y2s_b5M_oS>n
z46M#U@+7<j#q6YP$5c)!2SqmVx<vW0X;kS<eK7>PX&Q~c_%t#REYwg*gXjf{E($0b
z*E@-gYt8~%k}Jj^!u-Pw4%z|?Me7?6ZF0a-`AG&BMCeIDRBY~Sno&AVqA1GY$CQ9p
zzwE_P1Z}n$_K9os-Y1lX0l-hlr$B)!gHyH+O+csYAhKJ*Ub)IXP36hnd}WvqvW--P
zRG$qUYSJ$gfT(1jldEXh3?e&rlFl)`<7sKf)2ll!O4jCi=R)kqd!Ja``C8}w&gIHS
zH9Ze6&AUk!Qnqj@UA_xkRHmXSQ`wTKZOzmKvo@}x1GcvnC0T=o_6>`=Z-`UqKR8Ij
zg#`v-Tkz{YQY>L-k&LIrpOLc#wf+Nzk#n7Taupszt!7j2vSr1va&g59)o_->_k)pj
zdS$D)BLlj}HlNA92CB}4H(Fm-yV$p6SUe#4TCx@jvU27A#p9{Qo|L~wD(hXj1R+wE
zG7$yn-*CXEAX%z<6Oz^Rk?S<Wo6X1sSkHrug9(|6I*F*ue;GG@!MtqL&P>b9Fc-Ce
zurtHFtT4TaeOZ;VU@}JJ9jt)_2vS&#L#@RjIDy1nLJ93pK+;a6bMr170W87sK9k@X
zg;6QYQr)Phl=lce!AmK5uTX~Aa_yUy=@TkgDa_hgtC{64Mea&wo>qm$<CCk{29Q5G
zq!OE;*KnAH4nxTn6$aUsaE%@9lI=i$Va2a(4<@ukdkASWyz)(WwwR+?6mvAiWGra}
zX{N4an1O+ArbdG&&6Sok|9q-9Rla5}%AJ~(Q!)vs)<BJyg#oRJVG!U3J>XI_kYgmr
z1V^@w(_t>0e~Gg#1m{tvQG{F?25lG(7w!t;A0R?u9(hWFV^HyHpr}X3kr0OW!)FI@
z0Or#9(<jb_hX*w@Q>;#}N`fM@!tusM3pFT?Vhgc~Y8Haiwwy|>7n#G(Pq*~9kRg5r
zh5ZCZA|+g1)BTf@e_zH|ohhr$R5WBN8-Wb!_5&Hzfnlr$#aX^%=^ED7yzPB=^<wZ_
z&%W`(>n}WV_ol49DR(c{nXNQ!t(UCzi?^10?$5nF^~id3%^lDr8|<(Y8^^d@Q8;A8
zZ72{_T*FJsnL^?;FDxylp@m2T9i!)8JKfuQO|St_F({i&(7?`gFkKBZe}@sVk;mak
zk#rNXg=td+9?6K~5}h=GIQz`SX<6j>f^xS1U>HW}7-d{N*EHL?-HPlin*Kjhxrb0L
zJBj2ed%wCfUA<4L-nVjNwfc$ot9GZW_DWTISH@PWj&6?Iuowx~8&zB{ThWwpI<zUf
z0D1-Uqb^a@!Ev-S+2a0vc)rGcP4_kPJ)97_Q&i7hjOOD_<Dk>NrTcZ=ubA(ci_Ik{
zJY9a-kLu^m5EF8vz{)Q>=S=ydYp^>hYMP%ky=~OyY>Y?*9A&do$LJ(mj?L6ML#pO=
z94P00({PWwV=7LeByz-S-l%*uZ@i+*OVN_Ld|D09h^3I`7b977#Oj=W@;K6Hn-aB6
zeUkY!1`JmYhiUN~H$gk^mIsuUXG;)15nB4`&^yLFh|lR0Is4}^u+Ah`-vsu5h5UI&
zH|UUUjO8P!5lPK0R*^&4P~oXHD;MJHWJVq5`8<)4VvHsG8_M;!<k&G2K(ys}$!3Kr
zlRaBmVv*oo+#rX9%8Fcr$XTqd!0p=#Zj{TZX=45?Z+IHgl<TvnKYM*CyIy!kIV;?G
zIEo|F(fCnDv45(tKSAyBUq{8jrkV1(ba|Up-Ucbiqnh21x{jr)k3;ZQQ8GWY0nK8~
z;*Lj6dmp*?Wnk;Z^ob7+tTqoyp1@jNbGoiqs_R`juv&L`!JcVud!zsL{&e$z)I5+0
z>`Vu`r9gM4aaX#rS8D9d)bGq%xRztOb<WsQn(_o->{s5B^0lPe_DjC~Dd&EL<{{pP
zPO;<AP9!=`){Y7ZD?1AM!3Z^oLfKppM<jkk4&$4_`orWuOlXHKpD-qdAv8AVgwRAE
zIUiFF+{2(u2|J1T;)^sDPbvZsA46Q52X?mO7nz3d(l~z()%+7vAXN1(B=TI5RCzkJ
z=P9_Gc%!V*Z9DMx@lQCsHd;7WeWp6VOp&^z%C3yR2iVUAa@R~K(5#_A*9gw~Ve3_9
zAE$(c8w@2f%t2^Rdk7^mH27cO*+S#MfQ63g5RIc@0Enk_#ZaB9Jv<1Ghp474PcfX4
zV~=s*rI;xW=qSSk$vU<?bjFvcD{Y%3f!Re){2_ugx~2h(WdtN2lt!Q%*f?yOGqH}Q
zcr&2L4kqJK080apCQ8=~2NrA?KxHtM<;p;X(K6a{#e!9&FRjQhdtiI0`0U2Lhuk^3
z#?DpL-hECgKb&z^XPi~*CPRgNo_GRhb=uJ=IU1Lqd)LtcUHohP_xsbed!^dFtF`;*
z&t!J=rgt2Xb{v7Xx;b6lB~^E=I3K(qbw9OQeR}?>HFq^=BDT6@8<PMKaVUGSac&x^
z_$HEuFfoIbcK|gER?t@E$(t@M=)~kN&Rx$L^3uD!v8Gr_M>}Y?0SiUois`9w?1BzZ
z)o^n<q$;*M<wz<Vt}+yZwPJ9l!6!_yo&_y$O5}E@q$!cxleBdqRsf1=2j21|P0U13
z53Q2A^UfJx32rJYw@+y);<{H3CQYap`w-*}#mhCT<>t)tQEs)7d*wMJj-x;$PkR`9
zikfO!@@7$k+^g0R{TMf*{{mVvXVsI@lvP_@6E#{n`S)G@D-}jEOtTi$LL%5LPqKI|
z75Q3t)7!cBZ&OnhYO<rIJfzvQwiSfgwXkc0Sh3!uy_hlBSPp0CxJ0AY*rY9)JJ5o$
zaJ=e#)iq*d;{h6D&XIIrCP2@?_|6F*ARoqeuDixp%ouGK{>#up-JEmIG3QD&X{FvN
z1@0VHaOc~(gBnbRq?;=#XnD@$Py9OI81l~=?#qUWHm#ie8wb`4MvFoISG3gu3P%UY
zDb~O@byx)@6Ty5w&6kJgSKY6AUiFR`$7#;77qM2k=R8Sw(t{E3s?cx}J@w`foFu&y
z9a>rWH$pq}Uz!i0-I_oDhMov|9mMtK!!#d4_h|n78^`mBOveM58#bc7bKc+3zw&vE
zc*&e+&OPVF-c&NGzlaze#aeG{^%>_}G&i|$uj(_-d8vdOu&6kv$W?cs8d(>Zbsv5q
zsnB*W@Vj0}9vy=Ar<C-U@o8ZMM<&!WBv2!?11NDd3Y^a)@2u-^{Al2?k~eu2;#aoK
zFapp9Ydw(|@SC7r*wJMW@^MAc8myHKkZ!X5NOlpa$5N1$n(VwX6<0oym(2P`a5)LA
z(>Apv9E(iLX62B+!oUB3x&ljWcKeGc(3c)p_L$<+AfFf;4y*3*Nl;T!@jp|nVRn34
zkqMNCVbvGCwPhQCT6vOHZDM?tSdUEk?uol;3_8idMN<&QD8yB6c+@S1^~gx#WVvK>
z4`kP-Z<u_L#kn{sn?|nAOkTr5R3^c}Jtz3Wl_tvcBqC#RW>iTh{bhrI>y2~*?kvdP
zi4$jSl=ahb@i}TS+ph^r6HT}IQTOgcX#Zz1uEhrD?~y0|dqD3biEwgGcgh|3zM~Pk
zt=DY#ZRx5msj6$Ws%L%}c48jiLjNmYS_&=?yxy@AO!uCWdQZLEbSeYmwaC(y#j^{x
zjL)C;HA}wcrQuay=lo!%X;-@GsMK^c-E=}~I`NlHCl^ZI_th;<zCH5D*GpSJT`zDn
zwe#SE##H;^2a~I{XYUTaU*51(@<+z+m+yTqxPQ@=X=r{ec|W;4w><UW=~TxP59?MN
z&fhmaHgG!+KupqnN|*IO2|a)Eg98V@XZ^1AVdXn5j}Dv%(O*~cg9GQ6XYSe-TUW_2
zZRe_IXX?Ot90hUJz^t&Y1f9Z(kkI`Q1fXS)>h^&~sVVt!-M)nrDBWAL*t&A!k>_CA
zGq~y*%+&3JQqNTheO^rou@b(8BdhMlZyjH@|L%F%DZ=6;?P-)ejZ00BJgw022b!0T
ztn7T$aO7i?sk-FH4M!GEzE|6{aQwY$|H8mW7S3A=VQNhsxCn3QT5S^w_m*ZFj!-2P
zA92V6$xw6q>uplg6C@L=??O!Tli)WD&34J!FmGEptj*XX%$T!$;mX2G^Jf=7m#*6_
z)$LxMN<H&js&4mc-Sh7{pI@tnWzKzns%qb|ZKZLgY1suY%m}Nv)}D0BKB;Bjqm~07
zS33PAk1M#={<~)uPAy)^mUG_f#~zH)y4O})%6yBu4L4Wbk!fstqvrJ*?bX!$#;(_Q
zt>|9w$}|LCyLtbn8u5<~GYkn!P{LzY0%t?7%TPhKl5<sm#G$^dpYv2NcBI@pQq~<m
z{pe{O=H;g!nK8&e-Ed+Qe)>@h>i+450cqpA0RR8Jt$NsE{L`A+VW;tbbX5*}t$)_&
z8m_bcS?7RrxXSa+K@&dyyo%gl^;V%dVHc732H8Ayh0cwMK<l`ggVsNZjYKc`h;R^z
zHWsnrLk>w!fSg8(Z6qJ#&4^lNC`zQ$pt!|j2KLVif}zD&+`K|ZG35Lv{^Q+nU|x~c
zSC|^tJie?6Z@@)q^`dWabg@?Qwq`99WL4zu=EXyjuPtk%AUl)0FI6m_mdc>vq#$TG
zD?WCSuiFNpJ?WwGMtP0x%ZBC4%MRG7W-SzC<?P-CU#enP%DYRlb*$Scup)p=rL9>L
z-dd)M%T}Bw%UUSN%2n;o+Q<jVe(6GoWNTP=(C47eZK_$T+?6%qjhs-xTF8f5>OZ!T
zujxshscp?yxoEiCpEc13lKK0x7Uo4d_k3dE_?=seZA;BdiB!jNsckUTG$_@aNV!i)
zwxLgKl<+Y}uEJT<5Mm=ERtWdCFm<0I;v7Lp?$Km5>&JlPHmevy23)FR1pRH`*)<~H
zFoN1aq4b34#JUysAvlc=HGxIBJO_#cC<HWW1PTNfU-Ato1E5Cm2$oSJ6YhIoF2QN^
zQYaGaf=kV3<b6;il<;K;u?y~r0IOt^13hv%(s)^X%cdyyF+qF$mIrn!706Sj)>e)(
zD)C(bU341`8RN#nZ|M1&;`Q;hLb=j9-oH%>c3}`-Csc0RW;<X1vL#ey!|8XvecPHE
zwkba#RI4p$+$M$60*vLToo|A^yoPVyCgnDxnj8NXj7u%wD)@yuT)|X)1{iNn92@#u
zFIdQj5#52D4NO@RfD|sM-e)p2B_5B=#3Ru&XD`W4W+JZ=SF>fx**JwlQUg0@E4BMu
zluOz=ad8{ng4Q`(z9oWP@6s7G&ekcuVx`?k2(vZYN6%VwrJL2_KnG5V<8+9ajNm{b
z(cN$g8T38$Q#=9Z+$N5hxMjvM55cp&fq}MSL|9iP^~#|xT>C*e*^@s+g9|`Ris*jU
zs*;-FS$*>8Y~cK4^p<+W5Y1(BvcPyekTZ&cagd!+p>Yy);37u4)aeAf4#a>H9#Mr>
z5~(AbrTac2NehUoFpT47TbOvGU;>#~aZ4&P0A}0GZEnrsOFQZ%NB!cBM~*f~7#Aap
z7nk%YUvtXY{6R@os`}7s$>Egsu!5H|XodK1;m8hlJ)e4a#2`X)a&Hu#zc3;NoU=uG
zg+p3fE}AJSxhf`C*iOn-%(9eZ3OJsw@+shNU|SHT-H|<cT^&McH&jBsnh){_aG6^l
zgyy6I`8Y^bXe-_FBxs4Thc1@UWC)Oit8GBNIVoEHs6Ms%pDitCE1OqCptPJEq=1Kp
zJs@u$(*gIZFpG5gK5`RHS{w84i6ZzJxpJd{WB%52v!%+?E5r@hua2V_b|!tcdfNre
zz(*uNl09dlkyxYvSfS5)4gjNG6%fI-VPI=U=vvb_n3riP{UyriWTk8O^c|xhZ^2cP
zDpdXwr6+N}b_7ZjsEO1W*?yhwDpigh9i*hJ^~4{GbZ;cH5|w>LFqGIu*-JK~Hn|}d
zxh4QF;?zGbM*^3mUdahN9pz3=v%-DlIw-RCy+Bnl{>O|`1N5jY5A}3bx#O!~h;oPV
zPtqbLk`LTX!L3OduRrY#O5R}F+b4PZ=FRL@Kso@P_76#Z9Br@8RQTx-dZw|L&WYE*
zU%#837yrQDi=*agXPxA%W1e~m2X3nC($zbq>YeZV8kWr9V^)1faB*NAJ62!4;o({i
zAT91(Q}U^)j<5O#A^vV*sYrX!fRi`PAd1Q=KsNb1Q#G9%URwi;t_7X$@}`{)lCvT0
zd_r<Q0UpNY`o6V;p&Z$)>Toemxra=g9r#}-#pm|uo9DD;hx?y&MHO!lQ0CH*2)(ct
zwK|Yc`7}6sa~oR0+qzrOF@B}9U@L$yK557+?~0+X&yI!pZows)xNFMz71w56WL_wT
zO^Eu>9^4$Gwi=s|_1sp)u|9874l4wROu2jt*@Klu*Ug5nK<WVdU%E_?C7D3F*}$c%
z*s18~VIY2WY9`7Dt_XpdNs;a=q`NpeaTwh&JvFUd-uDz0&GcqueIu6)#Bl`~-2|v?
zW~$ZO6|^<q0H)jCYU9>`!;m8G0fD(ZU2!;0cj~Gpv5W{-PKR9Hv?xA1N0ipee?Y6C
z+%a=i_4j7)&MtMXw5(R{hf1fye{bUM#8TagakXOaydzUtw<#X?S*08eOJ`C5bzdd>
zYJT6>o+)q6)CIA+KBzvJu0A1EpLk#MJT@7cN;hoQvXU%kg$}5Ub5^As$kaiZ${ROK
z28uGch)H+XrRttoEqO9!eNq8<)r^^Sb<<5}w3Qj~zaE7{P_KyK)nj2KZfCb~0&<G#
z%5Sr~eGpd!#*vrZm4r9D6)CqSK=v^GwgMHGP_am$k)J_W>XLo7W{Gf>rk9d!rd7%`
z!{<%&*!n4ArC72%G<gJ+m^>@ztX#Mba%HLWT}L-=7+bt9`F5n7JJ=N-ZIZhUhbB|j
zKDe-JOjj~hoU?MVL~^z**RFg)3X;N<-3kCHhaVRKurbfkE~tg0;bFr}oHB;F=wL##
zHHB#O{zdBXkKiw~Q!XXiZ1V;&+x)5Cemc=2^|b_rLEB50k~B#L_Y_dWw1;4UVL%#d
zvX3a<OkM|D2p!o%00Zi8L!H2&gSxln$t#K!#U1R}70s<)9HSl*)Bt~o$R@HiOfxNe
z3%5sxK(?5sdlU*Gzd6q~erg!DCi!g|gnm?nL8v%Lr(X|B^f&n6G8`;WM@7m}pYfH?
z53`f7dnNzgm20d1W3;#B4TFZ>)Z@CLc)=ahvJdw$^SDE3YU(;!pD=nr5xbV>TUc<+
zMkKRvQG}D@9?-V@P0L@$2ZIo#*!n;MUeqKR6y9d5H2qgf3hdExdIxn`LqmlrGu(FM
zEkO9(6<WAhBBxg){cF;YrwFlZ!I4Z;2dK@ncVAS-nc)@ED$=p`8@TcWmu6!Z2)wvy
zs9p@<UgM4cL_WAkGN33}1GlDTMD>PFaRwJ#i-E|<2<~0N#t}$N1+FF%)A55{U1Q*5
zX0CKX)61?v-VGr!Nu!kekf&#&(XO6-y}kXNFdc9yQVnIu<035~Hs-k8xm@EhA(sY0
zrP;|b(yW`(T_T5+9560mV5yj~X+^MU6KC)l&rwzZ#azI>Wh7<;+rVV5+HVp_-auWz
zK^_h?QB|*01#+o8NBLxG+A@JY$ZV_oVA@t~pLant=xj_m+TT8&>OQgBG4xL3yB(*s
zD-y9E1l}+8XZ3pTaoxJX=)-;ha{-V_o(?LiX+PYp_EWa$srWd%TURbCMq;wwj^sEV
zG?#kL(8L*d0I7zrfZzdVR1~Lecf4f_#45LU<Cu$%)dz}!P@rsLG`XgsXLE6r=HeDP
zGz|=G$S&=Y8~R;?c;ThmY;M>|u35!qv~YtTRc@2{W15G<+B`S|DaS6Lfcdj)bY5kb
zRJAKz)gx8)kihs>s%hWD7--4r-gQpTCIl$IE@kyIlrJXHq)po^Aw`Dw4=7{x3yhIQ
zfN8seIwU2Uu>*cJ0f(M2QVdS1X62St1s=sOAwan$brVsuIrqEN^;)It=m@S6pv@ue
z?vdO*E4x?Sc>=<6L%Di?Q}2vg??|{?X!clO|Aj4L8yF~hX-)pv(;Q6al7{O#aUURy
zU~bD(j6W}??+2fmgI@63IsQ0b9B!w_V9^8HTG*GsU=nITGc;{DjXdj97Pg|v>r{pT
z5J~z`*@=rq`LH@PvKN-35En5ahLTy?$o~yWXY8MBfND|O@W?tIx2P#UWl$QyP43K}
zD{k|qCw`UYlU=2@X+8@ZkfGVUf_8y<^Wy%8Rc||3H8Rucmg>4!Dj$}m2cDA#pycR=
zk^=`TiS&UU>7e8|m<hC`1AS7UFCFNY0{!X0kQ5l2AACe?TfK5pIn{jNk+VPJ&fUGL
zP%HX#=Yow})CO|7@>2{~ZYgG>8dtp=jT3)~I__XM`{Hi9t5bZzp{L6<R79&NCo)gd
z=Qa9d^uh@FcyfqxU^k)2=CkZ7aWP6E?G!f!AMQq(nu>~aL`7_-z;Ba7YeJ;uD4wA-
zhBz+nr*SQ=cQ{Wm<aE)vuEIll2Paq8m@-!XxT<w+_o2+rCo{kd6}unXOn&=@!BTBb
z8Ow3MgV~$a8%;-+aT^C-E6VFZ-@~%+9{h+x)(u(`6nIQGsQZX(HrbbEv-En<_c6V)
zPw8q+1G-FAebzvpHCy%KpkxcIo9HWh&}H(kl|%P{Hy9AR`&IuP|2htI`Lp#pQ}fb^
zH%`5N>W%ZSpQnRg;FC?J#^s7Et}1U#?KwqPmN$ZjIC@N%wbU{FL}zcNCHRpGA8Wp<
zdx!5H&YCC!dbvF-ywq?|OIKBQFL^h)#N+mgtb<ZGx%#Fo<-_Krw!%$cLptv8le*0A
zp2rTisV-M2{KT|ZvnrtUr~?!>^sWp__0Uezr=8nW1qI>sef7GFd`(6giAq1UA#0+K
zT;CUsk_`jE!kji!)6%KsXIJ_jn7-%yt`qltNV`u+EkjujG4J%f6aVuApO9C<+ia@S
z0F2;e**!9a-<e^*n-TAfTp3XShEN^TYeA=fi+)sx-9xYFyhw5&63v7g7=<z6rnsLV
zhk#YKvU}<~CnptPb>?mY!mo8Gnl#!;mD9+CnG_Ky$Q=5S9kvkU3c@F9NN1j+WJg!j
z<jN1|h-9cFx3T1kEKB=^h)(6M#!mLLAL`HRD2Jc>J|ndv%A$)g>34VX6s#iYaw|D=
zzqKNgs$FetzLlK{Ev6i?VfsRnYRctXGIugoyTBHg<eW^aDA#-{Y3^XLNIRG4Cx_ID
ziXM^7KULi$d~$V>>^R>*6WB!YE*6hNXYBWp7_N}3SlCQrJR0v*1a09s`^g)zg$i$_
zd`9|F5B7r}uuve$+$er~C$1nMGRP5klCz7FnpjC}!w?w)B>Ixc`$Q%f{30d7MlgmS
zL1Lms@hM6`VmRgI&}Ya;@(%?S5{4J=5QxRd_f>M<Bj+E;(IG-E)qdhe<9(+@hRL=Z
zaFVTu0Vwz(hNI#)kqv)b{5x=QH@!~xNeibt@GiIiN8H|3Ztq`nrSEahA9CfN=uJ93
z(1%X{aS5ku{vp@*Lk{lH54p=f<hnl58+H1}9Gp+=TDni1R(x`B9+UHNDW^N~LvHtv
zxTAl=HRg-^#A!w(2M2m{d-=litG4>vW~^>s)ou5WTlQp}?u@%O<0;FyOEVQUnW~x$
z^#2uA8Mim%tJo-awCYn_W44L&l|QzW>%g@&WDR()m9{J;q*AC_@qyx8o-9QJ>zK>e
zZSZY$m+OXfi)S`CdT(^Qbmk@J28UNRz%}ei?K>~kpHFd~h2Sc8e#2a@Yg&Bfwa?xE
z9HnpC=zUSI3#Mv&HaPNZ4560pR80p(c5ih1b#`2xnc90wsvq9q@U?ODIlZne)vzzM
z|0${A^ae+tSqSm;?I~SZTGuA&+A>Ce#^%p>+d-@A^&9q>Ue~lBlId`&Y0t{U!`<r~
P1+6;}`<TTtEcX8a9uaRE

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi4_multimodal.cpython-312.pyc b/model_executor/models/__pycache__/phi4_multimodal.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f8c0d93e544e172ae3e758ec3643265f757cbf9d
GIT binary patch
literal 60670
zcmd4433wdWeJ9xWec(nn&;S}2i3SOPAb1}j!Bf0IQKSyTq97361VMHKV0D8B(y(bq
z9yM&)0%JP_6Xz3@I58M0BWO3XhIi+i(4OpC*<`=%V$<n%g|mhy+GIW7H?xo-$5Fmy
zW`F<ps;V1cfpijQzAX~fuU@_P>Ye}hzu%v_-3}eDsOd|?|L~_e-Cxp!a@pj-@-352
zcSrZUF02ddqq;u&HAM9>L!TjL>@&tpeI`A{8KdTyrOy(x_E}@LK3mM*XJ_&HsH4xx
z^1Aw5?AIOh^m*iW-k4|5px4EU`ifbMDOwUM?JJFy^_9iS`^sY#eHF3FzDoAajCa01
zKMPx;Rk7;6>R6yJ5Uc5{iPiSi#_Ia&*gI=97_0BAXJK2kA=cQ}$int$Q>?kKIkv8E
zU2J{ddKTx1w!}hxp;&8QD|>cEH^esfZH%?`wZ+=|+G8Dk9W34z-4yHW>ttbfbaSk$
zuZx8}(Jis9eOp=B8{HP$-nX5Fi=sPXJNtIVcJ=Lw?e5zh+tas)#TQ5S#=85uWBdB{
z#rF5@kM;ER#18Zwh#l-Z$ljMk55*4m9gZF8I}$tEcQp1)-!m+}G<qy{yze**mqky+
zPWGK-;qvIISZ`l%>~!C0JXeG(qtC|9^qpa0U-Y@y*}k)}bA9Jx&-Xpg;{4GUVlVc+
z7<;MjrP!zXJ{9Zh>qC51->1XXk(a{({MF#EHuCaCTe$8uQ{Q=m?x-#td`%awk9aQs
zTV-<Of8R0ka9=-5*?^RdPf7VIOWA~!%}+@=z*4S5%Jol4d4Z*DLCVlmQVz0|tw_1y
zDJjD&<wm4zdrHa(OWBT;9ZyMlk)_;(l%0`YweN;l>}JGv6~ta*v0D(kwIFtw#co6F
z_JY{Uk)g<?39C-mcO_zvM8iAwU|1r<k;^PD#^QETT=-CU*K7K|5mw4>l(HvsM6Jgt
zi`|RZ?#S`Ts2}OocVq0`KD^r>IlSuKRf8_F{ql!=CKTQyS0kg5v3GlvQdk)WP{u*+
zeu|unJpYcFm++2UP+$C}K6Lme^wb+NO15K(h%j&=8j-B02FAvQM}{QZ*~r!L$jD$M
zWRmPXBO{}UfkY%M8GA-<O4gIZls+oi&)po0^hAdT;vuu-IxvtJymTZokQf&tlK<ID
z!&^>`M-#)b(eOaDXFNPSdT?~);_#4Ew(^x6Te~t=F6Z!#gfK9e7!{=8%J;`&14EH#
zh0(!CJU%KM8HguBdZ}_{8uc}5SF`e!QlD$5M#JN1_d1Q&y^$DI`P$j>3-N*2Sd_Y@
zMI+sFk?25T_*$eVk%){WhDS#ZphKkMf$+c>Mfal@`(p#~E0TMB<l<;F+>d0aGwSPj
zAsUVG_T#DOz(725Xgn6Xc^Vl<N8%V6OL+L&a5y5>4n-1jzJ7FQB-%eVfDwoyAPkIL
zk($<ie|=QIH{-(-k&r=hU`TpK!e@u0<C25&pmX~#j$n|>4vt30V<XSX#hx4<i3|u*
z)v1Uu6bWm-D?W4Lg;mLmpBuftG79Y~IWs<hewjcgjgF|TEe}U74q$%tUylqAT}t#v
zM+d?Y>J$%~H5ivj^hD%l95JP*o<Di+*s0TpdQSE~clhYBv*(`s6lz?eBpiqy8b}Nr
z8XinY<@vZH!&tNO<SK|haeY7-ietjZ;*z^J6347Q$HpTbvPh+DUa0eirz&N0?QrZu
zBpk*ZD2!Z{(#}$zMOUNFH22X8UOAqrY-J>RDvl<bq)Hn3{5!Q&sf1q0kMwEGAE_A6
zv9ZK+k+JB&U?heqC%Jgk^J8HwQgm2_I+Ko#jEyJa2gZk^ymL#BjbQ1<BH>}ARN8Hj
zTs(Mo@KPi;AUWlyO9Nw(pXdQ2P^AAD#%p*mzWIgWIEL{YW?lT^C`uAAOAFeic2it(
zogE(=8x<1qlcUe|NF~ZszMW`!anE>S^hGuUkc?)4<dz=^65+9Gcw{)ye+>(zUx*A1
zW4we&n6ClJ6&tvDA<{o4plUaUFa3d0Cpkui;i3NP!{Njw$;rZ(Sm}~GfpN!#mmgj7
zBTG35bWFVnRMG~#oW$*pE@@2aCY(Cmq$z1g>RHH~G$qYf3_6`q8P-o)l7<9z61$T6
zq-g>ryd%d<02!RLCap=!MZ;N?RghAbG(VQog7VbVAw#c#k5KO$her}2o3Ia0!hX8-
z(Cq+jl2f2{CAZkcACxAK4X_z2zw{`N{B@kL(V%?&-I<O=Y^-B!c&v?gOxum|?K^i|
z*&gYL4qxaPyP3E&I?_R-(80k^<VIu=LnrXZc*hvPeSb`a_w8dhrQ&|-Z{?!|fP~}t
z<Qe?MqqyDDEm?G>b+c7s$%b1ea;3r9-C}9`t&@w^lIfQpSnG2>f6ATnuY0$2?$Zmq
z#kM1v&{5HUH04>c>0DJad(+OAw5esutn)X2Gd{O#!6j}ulv#gR^c|*bRVh!-=~q%M
z<9oV6x+#}3<jb!j=5-8oMAxSe>-r2~eZ&|xM2r_rDcwbV*!Y^O&lEOA%$HqC*8FeS
ztQ~*R6t)1<v!--6^nJFox{y`!vYq1;R_f&l+t3`tv^E)FmYkP{!{NvXdl;0lKlT->
zC7X=@3W2Zd@8}Zh$EPqczf4n2j?wE9@-DB_VHz6Vp}B)Asq0ruOxSrGVht-&s5ujE
zB}G`TOk$J(EQnt>b(oftX($pM57{Jhe4N&(t-qhG(taU;RFYwQOsJ!PDLi_8M5v~q
z5gQHGyD1)tUKDx}Bb=sadw>66bRZt@?~hYcF&l3Q$LQ@@+$Mah`m9~~&H&!Vx8e4;
zw{(we?kTHi^F6dxJt|o@J2AgIQ?f5*dc*ptta<hdp33OS{;0HO=3=I_Ic55?O*nz9
zlKzHd5hB1=Mu5NOFX}AT<u?$(`qy1nS9d;9Qth0Vk#|x*X+S!)o3+wS>XAb2W~~%z
zN&2(8dwSqy!Z{=pUZC6axFO<23V#YWN#7r*&!NLue@RvVW9)3<362Bh=UKb_VhE{O
zm)+9kyrpkmpSnJM^-B{|rj$O_nR6Ar`OMTa(`UYPBBiIdH>YmS6n`lxzx5WSc$bCj
zG}I#lu}FWv<me|T4CD!6SAYN2@qs9RBOIby(f~?kK#0Lhl7(+5!YdT#mWO;W5{>rv
z-_r{(QO&52_w%7Yg`hyUSMe9`#O-fi(=8cH=5@1OOFI0_pZyvAEV)eP;+gWd0(S!x
zT|C$P-o|?ye@;O*z^sfxWLGa`_AmcEqE@c?K3empiw1Sgo9()=8|&M0*`wxH17Qo|
zi_}Lo5H=BQ5VmUPx@Za8UNiUE?K+h03EQ<(g&j{U+xf(|Ykk=kcHzqo29KP8M_w5V
zKeZCKnJ8k<!H9zFv`dyjhPAI)BD8bR>|6dG?yI1ZX*E;=EYg9Hm9M1!vPB8!e=jSX
zk$e=vEp@r9kxK(2BbQqK8o4ya6S>qHtdXmvplWh(jg)1Nr<@=l0f-ycPoQ>T!<Frr
z;&q8iCFNzG63YLEjRo*mg~}+yG=V3%G?a@nQFpXJZ5IFy<3Z)iq7c4{)WW(oYF)cB
zH9cvUGeKpU=sx1nPQl+!8WZ(Y3SHXY44ae2cP$DXixw2~)H+>3&on7<`QNZUtbf;9
zu)mcm?-C&;gqmrrPt-&0B_$<xP<eKu2IWd@K@B!4arxgwhZ4TLNeShD!@w7`zdxjo
zX~EbMOMqSf+;6V=Rg>~H<rgijQof2E-PZdP>H>~!n%Iv(yK6y+9*=;4EEd2Q7#4tZ
zkH!=IBcK4Js*&+nzl^{{2X01$c>n0Nh#-J&MF!`Uh%f>&mGD2w5>K$`YT-F5p7sdg
z5^j?F8Y3(EIk1u37dacDpOq)s*-!s)_=aR36h_BbVH|;Q4-+GxKRg`kA01Cf4*tkK
z<`^S}1plyMWJK~l7r7V(?gjGY*@5upuv9)A8v^kl^AHqFRq{}K=v89$3MfOV__6j0
zSiY$9itON$TpN0JbTo>BD|szgel#ft0wqpV6Wfs_kDQP2KtxJ*qL^b55H`XED%T7|
zc{DCn4@E~W3`AK?l<tV!NHAJe^2Nt5Xub)VIg-G7)jonop${T)fz~VEX$hzTZCHV5
zaqh^f%|OMrt|CYLE7+k|Vq3Y201zu@&R>`Hw~79?tbe!Y-;F3wLDY89znw+ZG-hi$
z#hT7+&0eu)Z^{I8ZLzE>Th=0$wPee>#ImmWYuW85#O)`t+g}jzzwCvSJ?AW&zB;vc
zrssjP=22)vHndv|?Or&U2^~uvdgxl0bCu5&PxYpb<?34IdhUK^zFw^DqN1xoA{3Rq
z`I)KD%<3O_>z9l=cWKrY6kWlrYqRLuJb&)nue|??=sI|R;DPJtVsZJM+S|3W^<r`3
zl2vD~`q-hX-JWxm@GQC7#@zZHA6ree4pwcvZE5{h^6lh({Rj0A*Po=wrbo4HbKz|J
zezAT3{dL&`=fnf&GPTdMx;)y@_THX*dmg!p-#jsOVy1YeXC{%Y>lEuc)4t6aSJ$%9
zu#uJA^07r1+VGz1o~tnJ)!C+O!xph&OWL<J<JyMQA*B9+t(hS?y)@;A`q_pZmplUs
z4~lV|gg%Vi3VMQeIkt0~u;AB5Zj*+0^$Jv+G$xIcrUd0;SDwny+R2lq%L<mIWWaCO
zpg^A0zmp)QFN3^ZeT9ulGyZ9pmWQH5G~fbpZn~`Qkvxv>fW+poA#8a^O_%U0Z<D~&
z!YVKJbH#wz>i(mo!Oo?^PJBamS>0*YNU>HeEL4wtE!J$ac6-&{TcbZLO0N<_VU0BT
zK9fh1`V5$$trz@-G7c(N%^rgJKlyLC*go(R$|qc=8&O6fhwv*DCS+eS#RkA{F~zS6
z3ET<No30H<u1i)>hq3Vl_{v}fpmc#{6(%Xag#)VBsE{vEAx@geGNhB-yhh5Snel1j
zgxV48QmCFH;xH6si%&Fjl98dYDle*ib+X$iCvF8q0}sNXtE|pew1^cgIakHpD}WW1
zp=F(+(vflkiujvS?hlJfzjo-(vD?RHV%geFV(q5+;!JH<rff^5Xlu%x^EGFEt)j1W
zZu8vud}QH#cJFC%@9Ffj&t>+W&G^ox+>4Z=P4u<R4a^tM_sn0-_;#k;kDMjbThjhb
z^GzA&_O$b0E)dKHwuyml^OKpt;nb;|FOc<Z5q(?c&u4rG*D6K*dd}sUc4vzk#G;1T
z&P-ABoIBgHOKjP-(3xr3D;Ditn9S}wBkntse(qdm-}8VXen-j;224>++7{phaS7kH
z#)fZTzrHpQ9goCmP-uUpF^x-Q{9)xZS;0J0;Y%1Hz!$wH@vOTnV_X;p^|~ytQ8fYq
zEeNAUD`?@n%9>z=w+5x4g$ZimjF&Yqe+CQwIb~|#=YWLz%Nn#pSWgHd*o?Z%D!q{J
zBji!>$9ya><UIe!__P#SW0X+w!=&k5qp}ygYf?g!)<li+y#z6P*mXH52MT_YR?Su!
zsM^XHDZi68q;4$8EC-W-pGjNT!YQ50O^>HgVXHN1&?*7&*P_<lFr=HbC)O*aBvtr%
zNH=Xb4~R7B0DsIuHDpW~=cFs?ME|!aIr6`ZvU4Y0Pk8G|x|1G)%#&U)f*oP(hF>sT
zWbL0UN)}z-kS|RMg$+p?{^_37(#vg1>iq9JauDU}F1P37mC)r*C6xcAZ()zj?@q;u
zF6HgzElMc=n=DEe4`ENuQ()RHz=&zrU)g_(SZ^4@I<+@Sk|kkX(p#mQL`bVt>d7bc
z457BTE)#mb>S9=c40W_hMlZONHnxA_3+z|B_A-=uV(*tEji1XwaNt0x-mrmi?=OJ%
z$H-g0U{roDnrMD$)kSHgGN*qz?NR9L$<qAFO_s9Su-aWTvij^?)p2-KX4U20Yrj)h
zaM`NTsns;Xzns#`X@*dFm?vfIUapjlIrER1^JOdN{7C&jDz`jWR+jOUbyM<7S~n$0
z`{lilkHk~IuDjg*c&=p85ICRtwXBSz9+2>j*G)P=%8I1@kna3Zz^}?=rPf|S;;?sZ
zDs-(xPio-e$x5Z{Nnf%;s|88l({?JQ1ikK!V<ug)0{E+)3&|M20_+BJI02mm$ju|y
zhM~NmXQ-u+Lc<yAdJnQR@Cxo3gu4_qgIg#l8Nj9{WL9#hjL*2_<rt_MBU!klnq?9`
zL)nQxFPSbt+|P=GID|x|!dEHUdJ$Rypw{soOaYE28%D;2FHy!X(=ATP%n+mwf%0cr
zz$TyqBnQ|aiQ%E~(eb$Od3pmm#TYmuoIhY397srZ=tYdg!GwuO#`t(lG7UqbEm=rr
zIuaH>hfE<qN3g$!u<&)d{W=w;$U%7rNs1hlcbnrvo@L@H#H%IG1xTV9cFq|pPH<aD
ze1$}Dh$q3Bv2d}X@N4uH7k_|q0$3c9lVR`jgJVF53@G6|k3%X!10XIQ5N`IXY!0i;
z=8$USt_kCVgpaO7L7`a@k6av&s={6Qk&A&Dza<VrLFSz}@>Q3L3K~hQpv!Rrf{en@
zx^V#oi7_SunuLZdZ25hpi1%Wv0Da-o)o#kxY!+)aL(GzO)rzj#tScnCLRr^N(X}({
z+Aq5HXI)1`*AZalwT`r{is+7-tZ#$p+mQ9Oi@x@(uS@iGWqrFu-!2F@L9kS|ij}R|
z$~LjGEnB%+tlXTf+#y!(NVyiv*JsPy#BvZDV)>?&W04YX6e~C8=)3Dg*SguObM+b5
z#$0trwtBl*y?sFs8lie`wtBx<z5h`~)$Cr-K!F}Th@gN6;#FVUvd-*tq+B1nbX7Iq
zc<!wi@4h(ua<+N9*o?el^R7(I?u>sA<gJyB*~%8Nk_f38!%Xj7j~Hm1OJqBG#Eu@c
zjmiMUQQ45KSSMDjn-%6dGZk$q=VFB~<$P4?o2kl{Hl;uat)DZBfsIqAQb(o_=c?;x
z&wcBaw_g#fyHY1}RduslzSaG9w^-GgI+61?&pAbZSL*npzj<~L1X$19=Gh_9-<~?2
z^EYPw8$|zxTv73K_iXq4mTcEyvFkAEQRVq-k8kSom!fE#yAm~OSeLEu7VEpS^@qj!
z!#qRh>;RHBc+##~uw|<1-tyn|&mK>2I*@KW_(AbQ|B0;stmr>Wi8oItvXvnbWFwWG
zI*#G1Y@F?y)88}9ZWk*yq>kn)YG$s?Or$GXQ%4tzD(`r2dvj&MTv=VNtbzUaWy{uy
zW$Tummg171dvqn$xBWAnGXr0(`%$s)c4e-t9LZ<9#j;N1nQa%#Hs#8cEOv8A$<JN7
zlECe%uLhRtbnddHCS6fe+S{>M)-qQLnzMD`>ig|!FsAD7H{CyTzv%=02c{1?KQN_3
zC&jW;KPnI0esSjIx!nt%4?LOj7k^Y<d;3!}S7+<L+Rt7=3_r7Hu3fC&v9RF-kGSgv
zw6daN$*wDI|F}q3-;{3ZxnKXiGau;huNRw+XPbJ(rru1`v)QKS#ir*oO)qAGFHO52
z)itCW_untR-}Akz_bbK5W7)=2V&kby<LPYUIkE9vrtyVL-HX$%Tvh#V*U!E(8=HM)
z{``D&{(QROfLL{K+L~()Wt$I(%?Gm0$HeAi=#lBk*@3xYRAyZXXkPUBy4KYxlCvXX
z<(Bz@1)eNj)bKHeCU9r?_V8?Fx^+)Fxc7eN!-~V%ic@06sntVS=}8?0cfjrAi}q1b
z`5pUhd#*e%6VBFli?!YN9qF<Y=`+uLY%~;?{EgA%_AE{6b!E*<&lq%7ft2Sjs+!q6
ze5>Ye&0OsMo|&4A|5?P;HD>EJi*=jlcV+6j)2=|yRh4zsi>~@~!{%(mF0lbb`@%q`
zVgC<YJ>W-HuR|@0YSXqFF4lY*z~!Eyw>RVx`VkafrP}~*lC{4-JUZClFA!<Ux$74w
z-gyMtRS8)LJ4o+ni(=wfAxxnNZiOOP5*7<|8=)7!iyK6+KQvV>nQG0BbY0iabogC5
zqStkFePpdP*DRL#vt`X9nr_AuR+PW?E!SPwYyuE$i4tIV9Nw(GO0-uk+v$0SZsVrh
zmK`72FY3*;i-G!Vpbfxc$xM&PUr~MM<=ZdM9umu2maHt!rmJguD|$CNcTTMBTw>YK
zElQz3cTytWKU8mOq<UH9(DE1pg<@YOh_#clN7xuKL6C-&r0Q|e!o<Ml*W7&;h<dGB
zY=N*<J07YZHmH8snW)tP1jQj$u&qMXjbS=wr%pcG%S9h9NX|zRisZw>m6^1eD*M5)
zdYZWPDePIj7W+g&s~{GVNhpZmR1{7@|M6DoNnJu^m4X35OrKR3Vl~(%LlE2%X$7*#
zkTm`#6x@Hy0G5LMO_Z;)Me?FB?UJ;=s+MbBRj$gafw0Tc%P_%n6YlmQD8coQkFkv(
z+7)l35yA&_`xD$I9POmO!e6=z1XkDZQnH^UNmnoAUtA95;36s#hzZ0x0V>8cD+S_`
zNX5|KQq}G_0_7_FI9HdktKYj<AjQeoXl?mTo%Re<B{*f6IB`P%Ai=>dZuh7fGgX1N
zHs0Mhdo8<ur?`G+rfL_2HQq-R!LLS1w(}^kjfp`BX~{u^;%*k*&1u)Vxnj}Pnkz2H
z1`H|C^h-16)1@0ec3Ntf9K-*yM_09hWo!~%P5BZEGW4ZOTacj&8NTe{>_@kv1VyUG
zaW1<k<P#F#fc}<$1Glwh7s_O2d_PLR>e5u*QKx-AaXuX@NuByyDGF701cJ{YlkjKw
z5&loQ{U3BoQ>?7P^ME4G<F-PFhr#2CReI10uu#-^HquC*L{_Nr_yTWv?|SFl8Q(S_
zh1GT0>WyOc#<}yE>fO+XO1Y=6QWED~=j^GBZ!=5sR`=cRxwcI84kdv%ps;_jrAWGv
zbJd<AIH|5d+(2i5e}9%9X;Tph#6DpQ`98g-Td7iG(&Dk{y0+&kd>`2>%#OvP(2^Oy
zgc644wuluSOICWc>59vKMhTWSnawq`&wuOXw_je;AvhoTcJ%$|&nd_uJrz&YP%mYW
zmhU6#F-Y(Hmx1(9<k8+C{;@lUCG5b?kyp}jNu0=7xpVX=B0j!<<iUgXp0R)>^t3(W
z7g5mxbOt@cFF;=vQY&$!E>fU+qto0KbXrQ3#6m6HTfjchP|`rG3dQr^lo@pzI}lT`
zS(o3Z!lZwvkq)~M>F#OlR&0MVE8yhwlwYG>P<BD7YwTT`U(_xKu^R1@_et8%ECu_d
znleGkmFz-(jn=IZ%XeQZO0_9WMzla}U7n#|u=lI#G>Jy#n+0#x{wrXsYqv;uIjH2%
z|0>KQ)It>>W3RUNPV8n37*g;E#>V4`;Dtz#Y$D>rFjom)xEW;18Igf-JlHZcnh3tC
zCVzETaH1qQFcJ>Fs-~ehL#Ta-e|YhaChYB3uUz9>yjj*ry@bN}7VS;I>LuE*=FTrQ
z<O36d=QA;NRw$cuh6qW@@(Dv_1&G5Xd{+L5T1%;viqEq%=<9LeFOX8Qv6`UauoEF+
z++jh09gJPA4%khD1JQ^;np=`hX$MCoETgP)0&z1WYeLqTAuTiZL^dM=Ns|N-w>a&7
z#O^56z2$<`H9(JwSink87jMUHHDXby970q$(*db#&erV|>vob_M1b}t&t1=4Q?|8R
z#D8Bm(ztU@@0)v}@v$Xa-67(?vtxeCx4Yl(e&FnRR1#P+=!=^{3KBmc-Lz#%r{7uz
zO88Fi?cQ{0<Lu@ov!QtXve8uPfkr6EF^8_A>dyJw=NTb^;vFCQLh^TWcoVxFV^Y^m
zVqlYs%6uwax*nJb#G|MVC|s~JDy#2&=Jsclj0(=f657oW6a!NN%H!LUsf1$78?Hx{
zTQilU_2PQuubVYxgImPlmiaJkUK#&E72)Bm$v*V`3gt?IvV^uQe;zl6=HPerg>?<6
zx%wh#$TX2xzreG04&dW>$MPAIGOM0ojv|r){Q@flQUnMYgdgKa_$vyVIBW3>2ut=j
zEC#>`1Pjm#-XjGRU2a)7*&B!P6ikg0i4mrjGO<wuT~)WW_Eo7rO;c<?z66Yi4>kBf
zKncJMfr3y;#hv!s?X!ozb@J_#^POVT7O`Y&%9``m{Kmkne{Oraesj8Zv*_(g+qyW;
zK)BZml^DVqSbs;+qfbXG8L9_`n50ol-<t%ld2#8>D0k94X@O0LSxfg@fuAg$ZPJcX
z&6gD%2Gvq7h`j7;Kypo0PX(q!q-^=6mS=%@_Lo^dYuNM}>|l~8_oDHTDrhR`H*HaZ
zst_}2$Sd?{QR%#F^qsmtDSe6+VR+Z9?5Pm=IxefqpZPRlOITGj)fB&DWFR`F`GX6k
z=(I!_Nr!?($l_#El9aG*y}}f7ap?pRHG`Py>P0}g3xCV|aXX>Yv$=V`0$<Ss|0+z0
z_jExprYddyy8ezHLK2@zchm3(#_M`e9<+!V<qL%$fo2}0C5HA*%$y)jz(i51vF{m*
zj6`mX3EdOhpSVzEW_SCZ=qNU#cz3&+F-mKe_ND)aHimTIq`2e6eCN!Ww?2LM({sgh
zJ=vOe#C*cw#ODLGdH|RIh}4o@g%SDchTOtm(mV6urE%<9Zy?O&CqJgpkLdQF=)L}k
z6kr=-7)&s>H;2bTf~#9A`vPmY@GZ*pA#Pxyy+~mK3S0@vLHj5m8d0D`p-E<#!3sAe
z<CVxw$;^~uB;$qngk+6JuJ%VE-!Wq2mz=EP90iCIc81+ly$YlTO}|KozDm7UjT_TW
z^4GlOzU!WiWqezv+$qO&PcE=78`ua2`P`ZL1L?rVOklfc^QX+I`1IjLFsfVcw*KbE
zDR0V{dU1Ln2d<^#wqvGi);d@AUhTcwg|a`Y`A$uy=qNOoJjHKbnz}R{pE=4|>`;q5
z|Ni-m=U~eCq<lXNoLnfsZ@m9J#xR4iRX+})1=9qb8_D?hraX^4-mGV%=z-{=IOp=x
z9pJk4c5AMp2|KLUkuolMbl#FTV^c9GMPAK#>a(7Z=n2g=&Rt(HWIVf5#zi#0`fl~?
z*^ECl<w-fG&n$YYAR^(w{2_Y!F*azPWEK9L#&s3RN|WUYbZd@Y(`^fl0*U!n(5+48
zLwZKIQlOA>WzU>+Wx<nrqj}3*<h|&<=#mb>h4DX1ekZw1!6iqPxq1<N=;ZC>k{Mx@
zVY+0cC*qa98JG(E+>R&SP^!=%{?tn`a#&6vs*utp^EKIw#lTG0jM^q@|7epoa6(s^
zv}qYbAB43CGYdUDG6)l1fw9RLqjLq4LjaThmN%o9SCOY6$JVxMQvfLl1<KE^0;@LF
zEDP@mfb#b$D>Kj2!FzQh%d<>ZyjRJoM5$7emL?N`F@W;wtDv5FV(p(-j@pWwI?iMA
z6wnsmM+GGB#RzO;Wv~pBJT{Mkpuy&jVP68#aFPkq<!e&WinM@S!Zo}U{*-RaG|!Xg
zXi{dz&$=fwuoxxt5|YXctU|(}Qv<|l&I*-?_zbPI7)rxlQDDvYVcpjGi<vs6D;{{{
zrw2e4(;J>gWu5cuGG!nmVAdDhHh(P>1nuz9R`aMf$V3F&vK#h_8}?>uS#<Ry4JPN8
zy?J!701;Q`6lz2Bht1KyMSye}84Ce*U47+e4I$EmP(x>0+Z<5U!o?;|Y1BEIFSF2g
zla+<-9x2t?T9{IqWlB0$LzRHmOsUk6%5>&aD4~2?Wc^@6?+|~txDP73{}o{Y&SiAM
zf1?nv5}lx@+n?c4u|3G|rZ$M}hr_T86h6UwmCodJ0q1va`h};9Jg-yuT>Mv29NQhs
z>LF+?%ZB!fp}h;S3?!P3C&ki}DI2IYE<vArCga;m>a#&EIi7F3Uz=%sR`fj!j;ODB
z&h(!Bo_)S8)3RUm?dMTOQsqA=wjaEID%1X)*z%m{dk!UdO5Plu8l8z{JR7kwc}r3b
zHitrXO`hqhZRZv0uQ1&r)D>uiV(<9(6iGJ-4|Q?U>|yqfHuLUu-HxB>@VivzF_)?v
z2Eqj!20i6B3_S69P2~;ZPrXcXX!%tHR&E%N+dg7*(6)PA!yZz$ceXL1mmR3BRrc3$
ziu11{10ydC2*U&LCqg0<wkZtUL~~E!O~*C)Rgk1715w#iM3BLsc87!Ts27K$(IAvT
zm^YAM47nI*hZ&rYMQ;X~Ej6)&hDTs}1fLE;;BX^h7{mri(S^C5XlEtCWyvtGRpfz^
zNH{nU4-N#8<!12WumJWF`zT65EHiYMzuyC&5xZD^sto`r9GUD2etM0$J3Ms0<x(Os
z7T?v;acO*L2(BA0!dFB4;AjWrv+)k5yTiB1xNJ|4_|-P_jfKhD*ZfpStrk^n^a7a`
zQ4JFVu*n`7;>`$-DK<uN-VKj$$pngw_*<qm{)=zPS}NN44Ox><tk>dnzC$Ylm-4H<
zK|kedDvy$vMR#n^>IR&TRlcJ9;%h3{RJK<~!S>4b#?K-@mwnu#P%mzhQ`TUjDJhvo
zN1!F|R+O4XuEi5!!APr`I(8+0EyM=&3F|}M9=}Ni(8pG8kB_Qr-r93_&%5ULocEmb
zN3vTEi(3w7T8?C@kJ4u7dsI{R*2{Naez*C()_bk<FJ!kK5w{-6v>wgWJVWL~9D|lD
z+zY|u(l(+9*>u>20PTL*FA!RNk%J4oq13A`+6w^*^b-kM<c}@?;1O=H&eu0h-IZ&M
zVtCzl1(_9jJJ(-u(2K&0FMY1t#pgD?1w{#8X*$7)8^Vmrb5TbYP`Z2r;#lmH214F=
z?osw2T8WLvqbshQDa-mpBK{YJ=FVl?_KEoK-IuoQ<GX@m^{(*8$jWJxUwCUE6BU7O
zcj?<(Q2@4vj|?`mZK=#?KBi|I1O=8HR`Y)SOoY&%B^`z5#@|ccOa7dN`IbQC45A42
zQV`r_c$-_bB|J_;5WPU|E}#!#h9fg8XaShBuOazbLn4N4f+Sq_HS;-9UYS}yH4t`b
ze+LHjZj|Q?7p+<18acxr()B=nysw%2Tx{ENW3m=Y+~vedw)ZLWMf5npr0!!YqygQx
z3Sd6wn`5PjEums_d3*~XNZF%x2^BM2@m?YNba|%NiucNZ>YhxotWd7-slBWQ6rgxW
z_oiVGwi1Je^PoMzYRe0oR66Un;SH||DJE5x9NM7@l5XOSp1r*;(=6TspvtHSnw3&9
zd}I-|$n6-(%aT9}CX$)SNd#ivkqRjHvz2G*^pol>w-IL43*1{Vj}#~2CP?@_%H$wv
z$p!GIuEZINCE4UJ#T6bls|0a+xON2%0l-HgK~t}>^|C3ULg+t48{(fw&Xo{amVta&
z-*bOmrv4Z~<=RK(yBCgR${_`K!||x?dFVz!gRPyZO|(MK&|gi=9;R?Ob1hr9NvzxS
z(BHXiHo84O_IFPAd~DPe?_8+(LDBx4zw;xCUN)LZRPkl^CqFgdk(tPSx2@!W%O()r
zBD{|q6pD#=#-&=0XyhW)jVNM}_I%}1_y1o*3>?j%P5jaV?jSTkz^Hsrb0G;$W}EM-
zJW(yeCGT2B%UBdH4xo>fH<gF!lLc$jq<TYgvKCw)9)Z3LW1fQW_+8W$IyYRKn&@oF
zK0Xo$?=C`S=ip`n8w^?bKA`rC04JC_!ACRDEBBBp%P1kYZJ0)pff%MElUu}T)nanc
z#dvy>cU6iBEtZHpS5}tw$24V5pgbt#l<2UPhwg@EduFfCJ2F+fQ(nvfckRs3>}T&E
zf9N{>BX`Brr{J#T<sZ3Ar(T%un=P4rE?w4=afirUxti1i8`8FV4(5salFa0AF1|v}
zLBNB7tMB2{Pa9ugO)4-#KKbINXxQ#mK%~5ZA&Uxp@^R!XO93WiMhq7eRp@YU9=yTK
zm-N6)zoin!kh5!ln;T4-@O70DlK&EjX?mkoFBKRSq}EQUfjt&TQp}phznUg{YMaRf
zio~p|F038ZJWo{}f}AL6`J63j_#8ZnB`p&erAg}u%-KF?Od1eE9OOuP7)`;L2J68*
zu}wyy2+L1gig0u(j-W6)K6HsiB}T{c&RjTg6X&dT!h<F{6)%rLaI%LImx2Qqp{Evv
z)5b^;Zq~p*hl7IPaGc005N2VB&+FSiH99WvZv|!ZTuPA`9Sz1W!QERs7_whP;ovhx
zhNHr7BghpUJya~5xXHx|i}WUlX6Bcn@LLqeOfyRG0xr+;?D=|1nP0l_ORJMSD;Jey
zy%gswl_n!CQ@Z$4Es?Rf{1y|R*svyKe?0M@<9qR+qgbXvS6X=|bUQS2DjVn!10C~v
zF+e^AKK=fuvs+J#_#Zf(DR~xhNZ9xed~pvX*SV5|_mAG+35oS7J-is{i(&R}Br!E$
zHi@Ylv*j&Nc7<YH`35NM*VJ=w2{~6OmV4Q^s^6~8)^8W<w}X9O{hjLU&eP(~)7Uw<
zxqwAAF__<*?K&!U5t0uk`C?t;TN8ID=Gqp@Gj;n!TL3y?<BJf+lWVlJvw5yL-MTwh
zQ9UyvR&1O)nsb+=-L-h0I=WcVlsdZT4FCj<r@b4~wv8OP(9n>zcl^o<Z6g)7e1Kje
zVnK^kkPTT)YrN&_n^p`#sZ|%57~zcuOwwBOYoyeGQ0n@|+S6o*sb~#Wr|}lnAbIiA
zf<XB_jXd~G+VUuxmRu4#NAM>INwM5kP1s`7lt`*I3aiGrNt+gw$=B!#7W<?fW@8$#
zD4&W_$Z!WCf-qe2&#eC;Gi1v$g@M5WXRDg6-AjmAy@21PxC?Y6DV9(}w>Ri9fDjx9
z<QFw7vjwqIQEcEw{{Xp(C8-)<5yM;rw#;3M{}a4{lMBVAAWtXR@XS{|Xi*(o^6bXf
zeKD9lgX6#)BmFXPm}p&d**}){Z&0=PU!hpgd=_0Gl&yv#MEl%TvAQ#D^X1ALRxI0G
ze%S_QF3&Z+x8dG~Z0mlpb^raQ?{E0-hU|ft!~-vBE!%CGnq641(0)nn$(2IIwi$Li
zcW&IiF{}UTucTa1PJuYB)OTmk?LD*lbYs`Tk%y%Rv!%zy(&Nl}piXqv&FV9*hS>us
zzRa;mCIzH?J9{SMTK|#RP}Y*Np#^1uY-zJt+B`duDMd`Kv^ous2Bn)2^j4-gPrP>p
z+CVrDLmT>Vf4X|a+FG{-TOLY+%RJ*GY+}J>*4*y%Dga>vtimlx+m%C@K+9oLy}%Rm
zqh(@ocBn_lG0fejeFQ$TXflWS`|WvZOAAQ>UmyOO;5*3<a?p%LB?B3z5}?vy=mq&g
zeV@Qkn$+hPJ~r#TRV0*aCY{*K$6=pNw9Tpu*6EmPbWOURQePLVs{wV@t95lJ-C7_7
z$_sL-TA<_|{z2WOyP(dnY*m!;P+zBJUGt@C02H-UvY7YFpD6f2uW0sQ(y0JLCOuJU
z&3x88tvl%f5LTsW`4stHgvC9gVR5g!9LT>{La=AW$W9g+bg*XEC%tNm^>4UgS85Wr
zY0t{Al^QfzjJI`4S^3|jIc!Z9tF6#~R+)ibMYRf6%XTNTUe4P@lR5{0t*!US@W&Xe
za}3-{HgIr>g`MEo8UwpULNO8u>*>Y-@JINzWCZvtz?+DD0_6lw`7nShnJ<$0kMK>r
z5lB~0AeC&Pf^OeJT&Sb~AQLPW*5M}ExVLIJ{We^PbHs}&L^ughE6NWZPBsw)W^P}K
zSLpDQOD%HJ3sR(?mnM~hiO;-gLr|%}Z7B$YPho&L;6gM{5gjW`QMm^3&y_aJjB79a
z2Q(&5yn_55po9ukFjhGd=K>1i@F*(wPVAQPe?S*76?<-gIX9W{?S*h?{f6xNZgGA0
z!sG|x%=)vU4env4ug{tmOML*L{&iXZM$x|!iVB9*(djd}3V+H;IN+xrID>$`zCh|3
z{1jErREyrG*{ct{ExG!Q^VWq8;wD%g9=YvVtZ$h1Kzoh3t$Nhd{H?=pAI?F>)k8*`
zbFZWu_bgogpdKK;xg=dwkFx4F%j$*avs;geTaRUe$EV#N213C3s<|7P>N=QBdP~#Z
zIwW7e;akzSqw}4=Gny`HeAKn&+gsn?nk!q+$_`Q4%_w^d%H9N_Qu)?w8Eg)_7lcgN
zfo$0`V%am9vg0rgE$#$;8f?pzZJED<^udy8vg-_P%+_^@bzQl#3Ksd-B^9@uzPb)Z
zmc?WeMqYL{0?*79)yz!tl=CkmAv3eH=^EE(8xDyLhwh)xG@MP_>T>>I*54}nTVW*X
zZ%c3Du74NH{ddlP?R@I+4+HhHZS%F6!2YRIs8L1ZM;4u{jCsQ$v)Q==qOSvf!LVZo
zI>kWee8c>Og-|AND0OO4?%iCl?e_=Lojvp2^Bws4UT3=fkQh8X?FQPb*hDCD_I_GA
zuhMORZnP_KwG!+}G7ZDfok4nJ>ysfiY_Y8^`18_Qquc+8zc?*VCiwG^i5&!g_+1JX
znHv_1%a+XeMIV;?maG)Q*!Y(06mlT6?4(drt+`E=5h9G_MdfcMr;^K7dfKlqHT!Zk
z4I~p-GE%r}$G7*qzlVp9p8S6DyUAsW|EP6W-s%Fuh4McNd?)aMN!)qz=Q=!dLV&7G
ztyM3Dm9+eah*~LM)M6$R93}6nvgFW8rg-p*>V#RHO-or1X*J`KpM0u1V1(g}xFT+(
z(t!8e+lu^6Z^TU@<RoTv5o7)q0|L7gpQsEZ99CSQKF;_xAvaJM-SV^OgjI}Ra3NMI
zuV8!mXS+Ym+u~v4(cp0?n>@Z$z*yEwNp3^6=n=#c;9PZaz2JnZ7YQzlUMsh<ed7DH
zG}!fz%B3PyitMe>-i{~?$;C+nE_oHk5G7ot8_h$~J7(--uDIeQGdjM<keh)B_qynl
zJxs>OA`y6nBwK&k|6=iDQHml1qiuTV3tmbOjT*&c_u8g-vMa@vb4cYBAEUj6xFedJ
zV&*rIHju1;m*^)`JkN)f9rKp#ri0?9gPF=hh;c1e)^O{8kOfuivQ?YKs?GB+XSbda
z@xSU!%KNAVz6+~oUdYyTh&3I6u;efBp{*G(yP<QwPIXUM5BG#WuyLbVshsz3zFU}!
zeW-|9c<)FS-hWRJ6h4DyaW$DMEf^VciG-Nd7wBi`NUJH(AFHpkI#_-fdxdAv@xn3O
zAiq0I;X^#ksK=uS7s~P^4|6uJj_O2XfqYe6%ghm6zKt)^XmsNHpzdrsSN-fW51bow
zrIp#zkXRZ@yFxj4!|bI8?sgVObW+;23A>G_g8@OQjCUHJ7BY<*U%^yYK?TW()})^D
zJ_h0QP>bFEi!wgIr1-`2+g5ixFk3JfHQ69g&@S)@NwQ!qCM<~r<N=+u0k?+FE(J6(
z_JitsG5=+F&{6XM27}4}4ZLJHFvEPo0z5%ue~x0`rW@N?XDGy&g$L;E@8D74E8q|(
z2$cB9a5Ed(c^!{Z^?@17K%jXf6|J89!h2NyJZ@68T#_uHT7lmxP>Fpe9@k($a1pcY
zE2M|G8~M2?^B8e-6SvJ}Vr4i1WGses$DvI1Vel9heJzS7kWHd*Q`Wa#^lb+wTDe~F
z0n#B>c4RBJij`a8{iCicTenTD+lJ#5=3JPn!R>J45rk8b0A@JH{&KEhx`F(Nu17TC
zO}>_N3xh7MMQ?T1+bDV)3E|9mLup%x&vYyIeG^}y#Hq3dXkp%gtDvy{x8VstFFC?A
zp?z}Ir4Wef)G+3yN6I^53xG(A%MRFxH*Uc5PCTQ;N$}S&p=?R>HNBvJ!?mW>gsQs_
zO9(g=rEQ;)^;%OOXg{31IlxM=D<qs=r`L@HK@h5W^O6g4?v+sYEhWdKT8gp|^yH9J
zW8x=O%R=bsj}y^}>2HMBf2ivJCF&_zuCh%^(qC0$uE;T0)EI8NCh4z9ZazZFIXX5R
zzCZ`!6p>GUBDG`}!*JFES2&Ut4u$CW7=f&7gg5a$p`Jc!#EBtb?=cX2mX<~Zh|s|+
zN(sbW=jTH?S&4Dj<>4c4c6g8cmAGW0Z>o{JUJ|@9qYCWs0Qdu9XR`1I8+;xKWHuz3
zSrS$yZ5?{aMIVw+42n;1!7SI@$S<qHB-d$eeHRV8rTeMD+<^IB`>_j@2$`2{600|5
zsyAmUy5M}Kq4{^3Q|`ZPYy}@Jb!fWnFSec#i#n$rGbiSJxzgI%uvprfD+`b%7?ieW
zPs~?kD)&sAa=u2Gmia={=3KBj8|)H;UDNI#g20K)o}Yi_VbR_n7L_k~b=ywrmrCGD
zR8IRSxPHz&_t}U0pU(teP}4sw>dLwNSyzqds+kG@z}2`^t!vt_6e#e}iTS~|MUd>P
zND`WfoFt*S%}^c=I4{uS|4KJTh|qe(u?*v5FdSss@q_FY%>uG1(biDhM{no`$0oY?
z>&U?f6_@!1XrRCu2nCh`R&(cK-MTa!3DoUcGUEvph{L~ZrI1foT?g)Hu6Er=&T@0>
zVr^r#wnMD#STf@YE|L^K9?NceZufx#d1mhU`K|@?AGyBcN_QO++YXCON0xMW^Fh}K
z@juz|a|&`=glb03P%i?+bS+omP5xvToVTd&BS#-h)Bsf$;~pf6tYM~&^W8Mfx(SGo
z@(9jnbAWFMg&6n|wuQ}?^zYi=k&$ywZ{Q1tCw)OK!J&W(HJ4M)1)7Gw#?vX_QcdOh
z1<H2goC%M@B~){IDd){1sJn32B;4`$v*h>n7&|a(;3agNgP13WAhR1G-{l4Bk8QyV
zBfEm^xVIqft-)5Z!o2{&;poL6^UoD$c`1KeaBNqwSA8qHBM-K81~)L%T{$AJ#Ml-b
zEX*)?X<!8I<6+&~RhZ_|uHZ8ahR`P?1A~|NccJD8cjpBkzrG8qqc{udDal4weiJU{
z3tR9ELlp|Ys3H+TVr~_D??pMO`caLPl52&BT@!OyXSgsT>BpEon54fX>9506ohy73
zkaT#EjGyD&^YYg*aKcU8B*VzyPlELH>$pAc3rP55dPlGTN(%kxLps2Zh7sO@Xp-iA
zI7p@_smqXZ8S_$iPsdl)F^Y&`9<bZ5(aQh#i24Hb&m7P{^Xb6XY8M^#8B_gYNp;TV
ze$zGOnoi6de(U7jlW>M5+Co3HmBQ!QbmR2ZnZ}v;eB*pMTqW5ZOGcyJ`H|6FYJp=h
zvjxg@YJTLHJ~UIG0lH$;+iO2E8cUGKh(us?)aGoi)Y&OJOO&zsDM>Ywl&eXqo8)@%
za++ohvj;M^^^`D#gw>XhsVv?;YT62@p^(nY#5w+#hZ+jXpsq?QTa`8(vQx!rmt*AW
zPTkn}%A9!Xm$WP|?h3N<RT)05<bs(@D~ugV#g}*sGrotLZ!EPaTo#U_YO-qa1t16)
zp!v$zrv$%&<e`t_#KI^|pfTJe{Y62bUlR_g8|c0Fn4=MO!U{Ji&&o+Ekg_<Rqof#7
zFhi5{NH=nH5kD%=P%~zzr*MWkO4pj9m~WVz8CxUGl4i^jXW=ZNl2^<U1$A7$_1|Td
zuzkh)7zAhg%1xRp@)=o-wm8C1&5&oxSN>@;h0!~O;14q;55P}FqR^C&f~#@?J_Ldn
zhDQLJcWf$z&52#XbEH6Wkx)*&Jta>J52vIQI=OIaB!2QNdQ%|Ep;x#?Bf4soKTmOV
z`+!FI<f>6lmo$iu#*C?Pv8?8a!z|2~&YK_Fw$V`UV34B#AW-qzL;cJzIMmpvZ3;^8
z*pS)S^0vbtn7q7Kl7sS~-FwoY6>ho(OBI`Oet@)wkA3Nvz0if{XiR8*OZp3vencQM
zF1Eyl&mz?OxLJ(W3SUp-&i0;FBmO#-Mz<V|_;z{3Em+q@tJifoLHmO<r89%GT?Np7
z#X6>vq@n`2%K96JY0@#ZoP^*bFlfZ5l#6Tv=y}<NO1!Rr-T1nLm^fUMMau?Tp<ln~
z$RC)Ia$E$*>ovIZhF+toN|(2De+QMKD{egwX1J2~^ZGnJJf&KWLmAijx=~igt<dSd
zXv~X=Q$~EjLSJ~iY$)i$3VhOp<Cs(nhm;=at=j36rYSwmRJD~(R>c)J(p^!I)=7w=
zL7n5v=ZA<gU!(3ex#ke-LN`Wb9zl=Ps^wKDX(Pl}`3BlhgErU;bAnDMZv-0JeN)U~
zK5gPk{-j-Q6Z|kF?W}cA&P(dfmN$k$m7C8hD$K^~O2~E{;@XKlYz4v>Z*U+w3Jp9U
zX&ZyrFAc*j4FsFehXZbSBM2rB-baI@P|y=74Tr3Z!L`ENpQc$C{+18n_I15#@L!3l
zki=Y`DtM`0%7mF>>{Qw0-w%_29hv+y*_H4cNDXemf5wmS8m$4-2vvf<rfNC=7d%YV
zp(QvdGy&H5Kv=`1|EIJJ14#L|+@{~N<(_l4Gj;XN@u~4IU7u<C@@MZkxk3N0)&%v8
zch@`7)q|#U(~LNG-*ai;T7+pPf<YfCARACAna<Ge6&kdHUV-eN^$KEFUsH^_lY66l
zMQ_~GGr9SS{?HHq6FTE>s57eYWw|p-H{G+&LOuJ=(c4F7dcJ=Ap7oPu6JGzSKcN2?
zY>zOF5iM+u@SFJPKcPK8U)7$<ZTE)eif8n1S?^kBjlbo(H}r|{YxFG}`vTZR(I{82
zH)4_t@8YYHZ6tENA5NH~@Jkeh?`_`IPWT&QM^?poPMqt)&!lCp6olI}C2g=i=IR3$
z?m<B^L$^C}gHKp}7%~VdFfM!rspABXg0JEqyY_P}FIVC072ZO+|4dCH6QIB2%>B~o
z&Z%8*c29L@oYl7uJ#u<7o-K3MdHuZMo)f``PIwbCm@PTmUT{Xumb7!r$2Q&W{rdZ+
zf4kwK_sDlP%%Az1F+&55+YgF1Eo`{;Oxk<oQCVe%dJDHq*|uBHq|ScsRL)&CeP*gJ
z>kf+U;H+<MZ^pgz){#Y*`_|#VaF?a@A8y(@AO1sUrg+c$&biL7HP7g0I^WuUcl&JT
z-CaK@SvT)YS<=OOK7?N8;n}Too$qbGw|&0r-X5`Wd!}MX%94stITvxhttEAB$^&#~
zy7*4z?aG<b+X2y5Gi3(9$x{w?ldI&`sZV}dqboY9|Kz72vGy{a+INlB2ltr12f|)&
z8AMO2mjaTPThV8E>W8}%!1iUrDY$SYfM=4~n(%CupKW+H;~D2#!rBriP~w~p&{9b0
zkfpQE$KJT`#tyly8>u`IZ^Xs(a9Zf1flFq?km$nn#}#(t&x1dtyXXiP;akNhv0i;&
zjCUpYE5%<K(zwFqD7yrlnTl`d!<C5j;jge}E|@U+U$gX;K320b)T|1*%fr>k6Nprx
zhAtQy)!?g@;abGevngDMXWvars6mk$Kg$o2gEBT9)6L~%=t}h>kV}8d`*CBUApEYr
zwD{!-f+Xxx@P)IoF^y3&4km8E;E>L>z9_qpWzK&A>4=9LrwRnQ^2;|7o@n6s&dRzn
zshFDIhDyeL$OrWo90hx0>PFVvEP9(CuG^LI?oQiwGvZ6KTww>PuYhi(13=4@?O}Jo
zx6&2?YDu{Ajl8HIhKTT+`maDMitAq(h2KHlC3e^ostNfWfI%F-(DG+0^N4%0q2KQz
zd7*Gnn4`AKM?-11T`kl}&99Z4-;zr34rmd*E$`Ne-h&HAa7)_`vQE%${4Qi(yYXSQ
zd0O27836ok5h@I!C)HZ=a;izKpYZ#u8Yh+0@GBa!Op}VvmzK3$=^$Y09C=!@p?)l_
zr?AaUsYKS>1pOq@+dg{@x2(5Y^meCh-K@>Ml3lIK3TY7FEuY`rto=#-Ejok-m0f))
zXbaoGDc7n?8Fr-uI6p!Cs4~d^dUZdP@>9Nu`Jg724RW-4VO6ok)CWzd3g0fu(@yeG
z$ItD`FkK?AFYBdwkhZn((J!n!a`V>jKwwQluWB}@J@$OM8-)LX2Hv4?|1O1v_gA;o
zLv76`P^8@&gPl+0rxuc0C2L_(S=PH=^sb+?XS|!U-o2uCZ`!u^@oB9#j3f+q$jKBS
z`!{fyJtiuhx51_-Hf&=0aH{=xsj~Q!0gqHkb;Uv9INSk-`Ten2e{?uDoQTVA;Izg@
zBXu3so;E3fC4bGFN%Xd*ZEdW+!ahU``{|azO|p`PA~@0r43AJ?uux})7&z3Z<zGh~
zUpKvOe!4AGo~D6-n_7lzg>921FZ0wI*`(pAC0L1?A$^-EuC#mwdP4^K2525^ru<5o
zQf6$9`qylES}tsuf<R*e2^4DQaT*YZT@hGj7u2GSujvX7@*>Z2%I2>m!mqkY$upXk
z{E~dqp^oSgS@jF*!p5XC%%rSLbI8S>89L6M-8eAV2nz$G$AMZ#-rh+!wfv%il#Oxl
zk&D?jS$bE1RvJD=8;v0Fb%RP9Z6qon-}PbLlrhZwujISpJa#fDJyB;;=Ng#-nn!&$
zU3nR^#zM~*4KmG8WzxOT4!S|l9H$vLDFge5-^0hD8N^5_hPUc33;#1_gYduLrua6w
zb&Kz|jHc?*+->_W0=w;pp&_k{0jSr&OBp*SMT6?vM6;gQU7XN>8{{AiLEEQ$9{Fo=
zM#K8Kp0_vrIX&k}aZ>8-tusd-ls3-k=X&m$=PMty?0|h>N$GUY*DQ<vc2dNw{Gq>H
zrqVWV<y6{=o~DHX+Df-f2tc0I0cL<Yj7&_OSJ2>_m7cqiqqV`&4av4AIuN@M9_XIf
z|4;4(xrA-h2}LOSmhQg(e*Je%_pg3X{N2R&oNV=DWPXNstVW<uNV!UAq+#iz+beXV
zkpmII;136`el`Y!QJkNHV~h(2A>`rG@0BnmKhTondOtgZm;j99Qa<b|EJZzLhYf68
zm`63FQjIYe4p4o2aElWwgJ_ypU!^-;oVM|=IbkNaSCG{Zbj|b))RF&y&wK(Swj%P4
z`Y9asG4bx<`PR(Fy<*+oOnG<8@d!G$6#pylK93VB+PcNM?o9c<lq2UXpK*xJhS?WM
zORAcVUZEpdpjK8B{Fo-@hxs}A(BHmnMic}*HJ;Qd2;FNMXZMQRPCN{pOr3&Y7-wMA
zZWC*_Womb%PUjjrvkfQ2h7-A>0MvtXMOC??YTR)gN+S+nsRK0=SeI_uz0f1Jbc@y9
zP-w<8^p($up?zXt-_)r^RL3D!Z)R`is>DDS4$y3Do0~{C>_P!KZ^P`V`90~pdj`py
z-xxXV>A40Ur5q_>s_g8Up8>_5eUBaI+z+QN<eEZ-&*)hS(;`~_-+&!p0l{vKnX2eX
z<Bjq83<_k0r7OKfI>1DLxNts=u^^2m4#glZe2|7sc^{SqnlV<{QrAR4FKK7rE;+7C
z%JHzcwIofrTa)(R)csZg=MgE`v2;nE(^im^#TVqXt;%Ub9<>z$?G6Rcal>&P_?px+
z>|*st8ih;FtY96q2gtqPf__cDKWqj4Vds5@9R&J6^6`t#q?rNo))l$z1-V@L9au{*
z7JHAma7Sl`L^!x{(mT=xogk%jrFO)xbrh8DeoE;m;jz-aN!O%j#6)-c4h}Z7u+|hM
zy>h6S#qmA`16(jCi^8S}?A18lk<t{tDVE<9)A5XKhsAMolcmZGn=DI~@lwN1@>f1t
z4il*gB@PF>l_x6*he(#NdnvnD(jDO5HE<2!i?KTiD$#-FIMbJL@c;y6xj#QF9bTDa
zNjyw~VReta4NjK83r!4Mi3G>T$T1N-f<*+-BWi)ncA4<UpsdFm91sRC;Xt#&#JCV)
zj-Dbn2BYKQNRab~6j4UJz|WCd+UN*;JIP$8Ad|Gm^FC&X9UC7WiVlx$46a=7d$(-a
z!Q=94esAZNjluY+^406)gz7?GNZPgeM%QMgF5vc#sdeZ*eeQ5j7#_NmfKRLI8@b8J
zDe^cK50bW18>uT(zu<uR!UN)Eh_ZLHS`ypVCN{6EtF|X}N|UeqMDMCR9UZL2`4rlv
ztW_tjjj3nI&V&&v9}}iv{ode2NMY!)!`6c6UnPPc0jGXt(*#bL=Da`o4RjKMn<h$?
zSY7~&WXcZk(D4E7-p4TuxkWh{GK~r$-|8LuPbk^{PPad$+n>?x`*iD}tZauR5uR`q
zH>p_Og^3CV!yC#WIC_pFV=RhSPAVB0#n~^=HY-S1x*|?a=qO0wEG&U}cE3bgaS)pK
z^YtN>W5x6%63o)*@JK|7E~3Gr%$V?eJF29FiYF;1QI|{b(2ICvOvzgJSi+TMGhPm@
zTdhmMFyuAOeBJXskbiA03}dbICkVrs!<Ggb6Q_{X&U(N=n6H1}h0QxOKXR`9;I7&o
zX*|O`rFOPf^me2-9~ZsHKNxu6Jq>essD~KzZa8sAD2*7G&Rv{!K`*Zr2m#dbY8UF#
z&z*&4t9t`9Tiu?Ij5_<yw5@vP{M<<>i4--?c7j<ohwpA%*!aK;l`;A*_J4{_d)DEY
zxb}2t=R(;+bm5h>>!e(tBUGQlyloG>N7v39Tj)=_PRV(XLbcXiHPeea&J8?pb<Cf<
z-z{!AlYah%2U}iPqW0!oF91yn?V^M6oKOv<uZA3=4OYD~{19$t@P$Lqu0CkqA$Qew
zx%eF@z9ux+D+XX9?9bJ-&W(sQdziJbZ>INwvo%**KYQju>AJM5JKfTq!M$`{u72|$
zp8Iy+`+dNtFbGBMC~TYOBb|YrXoto&ZiT92&Rsq8nFsDRXbaEwJRrN{J?Zs(GPsvE
z=Nh*BVdC2p?@#2|I2Dm4!44{cqhv59=)$Q$D5;?fXXGI@@GKlYnBH(ugnJuDt|F9%
z&R)e~obTtXNe6d`&K(Oq51f0c59+5*;~X?+ZMuG^=-jz*=7F<2=c=6P6kP$F>Q~z`
zw;QM-1~nJlfMd^c)uA~Y{|DZqFW1<W-hNtaJe@xGyx8zOvlFX=JA>9;>FyWA))&%H
z_JQk^rkp46kx}oiS@hJy_}NXiQ{JYJtVVYeI@8<!k=^8OUou+k+=C;yrNm8A4m;;S
zLDpm8t6U|L2!l~^ynly>wRk-Wc0g`4wRi&1NH%M!^)nTI?Ch&AsOIZ5z2z98n2*ZS
z1w-jIoO*&zCnISq{PHN&I=AtMoy8;Mh7f5b5QVQ#Vi*gfD3)<mgmDV}8;bi2${<_u
z{|Acrzv#w#(5|wPdCojgrsC<iO=8ax#NzNpOJ`mxBf^-{tbjza!#oWZ*XpF-Bp^i9
z1rYM+%5gLuovoOG3A{b$tIzs6$TrZ;tTj7De<!978E*36VpVOns!gnFTd=3A+A>uK
zQeMm$(#qc{R`0|l&AEKJzy?f7{9khF0=t%VmH-rseb7rN3SvSsqI3mk)P$<gyjlJV
zZcm#pT60Bnp3oU;Yq*8Y&j^MI7D)cVbunNL06^2lNqIK@2H}4~1UtMHJdRaE&qjR%
z-YZVCXsp?WE7_PeFfh7RXFk-^80M)dE?JI^g4mXKx%k93O}@ZW^Zh#--GitMV`E~t
z*eRc|5zYE{i~ikN{}IuDB;{EIP&|}v+AcP2zaL6BZO=4uzp#(IzFFJ6=V1XUXy+_;
zxRa0!abbl5h&put8Xv^af%zu;9011%hi9N8C%_z=)Q_yE!{-JKH@J%<$jPqYod911
zFd+bcDQuj8fgRG7BA<c1^AvEdpilvFN_Fk=d41SCX$)J)3?gY{J{C>%t+16)asnM;
zD=Wj9C#k}!tqllEs4ax-1K+?fshH%!0<>L5qnYw96le(ne^r(osN?f0+^i-pjfQ0p
zsDwQ{?x9ibxnK*9xC`wHp5%Un<U)r@n>ctKGJhc6F*pqha=Sd)38{jS#D!oBvr$I@
zX9r?9Ed=@$WV%OcyHq))gpI)nG!&pn(YbBYrcH!w?!a$B4WEkugDTWjrcW?!cUHlT
zr~=jUG&`#YlmL{M;Q_Yg+{WOc5NU5jgvc(n$CT=wE7Y%IzLB_UTi)BGlJZbt%C%JG
z^4W%OK~^%nzYY`SGRAen_xy;;`IdW%cf&9V`hPNuGz<-&Xn9fTQq}De(=-_xz7`n)
z0<IW)w1Y$MdTtztNyqr{LBb-+0Bk4Wpzv3;ivJon@U*}vm))s2E{%?<VFInZvCOd?
zZzo3@8I<PZpHDThHk4kS^!v1q{}t+ibzG}+d8W-@1b$RL(=cnkyFqj{PaVs-i>IG^
z=&qY-{(-x05wD7;dMVaB-SovzJt`sWVWDB6EDiot$-cB}A2xXy+&gmRz7#uDE;!o?
zd-M4!5kB{D7_!X5(toiV{+QA=M>8eQq+QG&9|sEf8Q4|~x_FaU0CCzj84&*-0#5_t
z%*+<+b@c_$76wgV&eu6|U~SWi2LeEdK%VuVv~b9yZ1oHdz|jzxEIb#5e&Jkz4u**r
z)rnpR8WfnohAZzoEDm+f(by`QpQl;97&s@^B>Vx*tO`EtL@&S>I2jT!n_R`-bhWAO
zA@mrSxNLg<zcfAHrQ1hz`zaM?rGqpfXp-zgBnAh^;3UxD=y5pgjFVtTS%|CY8eR*g
zlg!Agr_nX5)Bh)$te?XN7)pVo7OS?1Ra-Ju+fv?K{ibaFQL+9gjEi!?j%@HSya)hm
zUBm=!*ddnefE%!~V7hUq2#@vlT(R#PT{Ac5I`2+qs@ufkwv=VD#FvJXf|5>3Se3?6
z;boh(6MD;2ZZ=Q3pis}rWWS~@5N+X-g}Z|m?okJlI9VV`4;vYQ*v*U?&b0nHW=Go{
zHw*d>C1&I|VSB=Vq#I!X!v9Sn##;X`6e0&ntCe-%rZ~D;sn<vxh?5@;dh;F_3oYyL
zyJXSh^o+R*_(8+({Ar4$(=_zveRCHna$kDqixjyJ6kQwqTw2Vb#nOh^bFj)?q6e&W
zN9(ecLS-z0$=sb!fCoz8Uba%mr8l?FRYLK1aN*GVm*?xmP!AQ|zGPVsH@S;tl}ly{
zFyOIdWkK#<fdw79lJX@d3*wCJ@?|#*zN*)ST0io>sK+UmQ~(9!0$9+7gVLAmEa=er
z14~X8bWzaFf*xJtx@DGsDQQ3pe(Lm@$wNqmf5}QA98+DjWT%irSJucI&XT}X%DwES
z7du$Pt<(m!Yv_rZUP@M12$s~FtL6rmboiMcXFvB#m+1*-H<y|#=J5(Y3xgli51&~y
zZi5(T^-{D(mmw(w;EU+`^kH2eke>)lso)Ek35Ia8rU^<hMkvKtpi%>KD5fe@n8L!+
zL()f@o#0l2ib5_M^CfKVv)?r3mDvxC$6`0RI_`n-;V3O~JH*C=qu9wb4u+*!%RuuV
zvl?nEOVY_)3f@ZsK`qS$=;!9sz=f|SE-uqg_>_9Bp!GCpHvn|x0%$i~CLp!y;-X0c
z_u$at9e^{;pubIvh_(=60ilptG6FM}OvBJE;tD^EfTF_&6|$8@;3OjELybKs4p09M
zC2&``>}8yX8Fn6*?D>LZl9xrqmA#NZJ?{IIt02%w^(TNkPORtX{NrQCbWXx*LOq5n
zPS%SM<d@g7)A_c~^<>K1Y3E+~yomGOj@>?%E!!ZLZOD|h0V)QXWrr@u#XvVaAgp?Z
z0rN~$^tPsLt!z5?GRH-d1G8szjM+bF`z_po9wPK!b5<1293bkNX$of!c`DS{{Iw4I
zP-YI3e~^DqqfiXjR;bPD3uf|i><HE$DE+lls{8<!lH~iuu~>BxH-HTEp$S0i2N%*Q
zYn?~1dqOd$Bw3an(k5DIxWbli7|50yv(@_8Y&9`Ll9QAMbcJLe#Tg3%k%=LrWZ{^m
zpvN1*jvI8HXp*xz59IXkDNGKS*k&UY_Y+OXCy+d63!~&I?eFh-{?M`0{ik|f>OXt>
z`QAfEj-5Q*fA(14VVr5q@QJ@gtp!>Nf|WkZzD||Pi(n-$r&!g>D%w~12rFh188C4*
zR0Z8oM772Fn#$=EHLNEt3puTmR>r%iC6El4uA=VAYhzvOw}#&y&aOKnt~--i2Uk>$
zDc5xD$6NQ!w7%7T7hB%Ls?Pi8Qr;gv7DM|?RknNsT#e=`8gi9Q5a#BpLQ8gC#YPBh
zD?IddIl-gKP4ZhSduyujeB^bNI#SjpSSDAd_}SeYA9>8<Jxwf*P8_0;g*qFi3p$~R
zZpHLSs&0JaIYx1x&?DV+$Q!?e-`9XT*vuQCs%xA-J8u(P;6oM93xmt_gG%h}(SKwQ
zm@Ao^B>bXvWz{(E%s8_{ENxn{QWQ4yz|6sPeJ3GWWpLFBTx^LlVS9B1K6WC+D?y)L
zvHK~rf0-BnkGnN0P>jWqDG_r-+27#WsNl)6;z^HP52rjc8w?lohHr!WqQdl0vPEu(
ztPX2o>ab3x?#k1-<z3Vj@n9eJMv7=p#ZF4z@Qay4qY|u3kL2et`4suHha2jFsLVYZ
z6`r7<dI4oI0tdgVFD?C41%^QtN8KB-ziRA*dA<}8AUKB*n-7<~#09XH*perzL1@Ew
zB{$<0fEB<f2EYhf#Zs{%B~djU3pG8ZA`UFDLLqk%;!sKB-ab!h^g;XTv>RyBt;bie
zH3foi9lLuh8`v!dc4q?6jq^Y9Hm2M6W!q1Q?WZ1kd($|+@dVY#0&T<CSVDj|K>#|e
zWv&@3Ik0oe;T1k%2nAs1%Dc!w?xT{1_;Uchh+cg?sk^ndlL8Nkv<Yc}ebw#6q&crd
zR-hhc9@6KBsqipUIPNiMDT;+nL#pZ-kQfWZ)Ns}jHj~9hf`|-uO+gv-%k|h~z&8UE
zQr&bWtx!d<UegIXpnAZ(E5gu8F&1hD(nKt6rI3POE$@#>TbP**;nz+J;$79U9tK3~
zxd9Q>60BinUyqu80bv)VoOG<It4#hBS6yK@G?a~`p{#ZC8<ZF<XoE{Oc*1mos)BYK
z=+mpNf-@Fe%7zcmn3ySap&cQ#!wnyyH9Q7A>Q>U>tDZN#gGP2@1A3kz6&|P-IFg>Q
zF6mVc^+hQ~IJ3bx>4oY6dVoeMX;lrKVBRF3+TfByEG3MdJZ#A_rXKut#3jR60&CdG
z4Ltgp9lM2Z#~gkA8VVM^PB*GQmmnL2yvX1t#ge}su0-bL5a7Qe0xtWR!yT!v9}Y*N
zH%Yx6%Z#ge%d&%hlJpA%poNzyi*ampjGZnamGsjIPb>0p3YGzv3RFfQ;#D#d%hw(O
z`zk`*#!xXw6#SHcR<lq=w`$zrzJx7u)@%nyu?Y>3isf2Cv6VAb<C1MSHpG|=%urwW
zRcaq`*;t=QZUuf3qa`l<8>;>rbbAT6crk8yq=JWTF=mF)glZ@%vzox{u{L)QI3q3B
zzrCgV$b;P)inDL|@A|X;O`?BO#=kl1-zoZcF09M=dmxUZ(>wQy{=EyAGyY?#<Bv+~
zzG<3w%q1TN_k7Uwu=I4=b$YQpaOcyvKMk9f%?x4xp|d<!7lNzHqmbNv7^uH{R19px
znHJMWXFfIOfWWW@k`X_)U$`7<+#<rp#sQC&^KB1;`<LzJTF*x|U44&!`WdJx7MI_#
z-?nFq+99jV1>p$&ZRbME{m$=ffT*{)<7YZUaS3*Iqz0Peu7)CHEukr0J^Hk(CSBVu
zx;lQ0%G9){I}VFAM^e4H;!V?Kcl@{g+2Tzi{ogyk6Sr*f39<M@>cEdrzChLU{P5%p
z_qR@)^51?pKEL&yiG|HSDC+)zd|kS$Adao^z!+%n5&iwx!#(HV!(gZ9hkMT5yEzx1
zKQ!%`iO(LMJvV!JW+GG6n%;Bnr}UoHYK!RFipCe!r)|Mce%g#GfAZ4`6!yuo1xc8z
z((k!i4_i$CzJ23ir|FMdOAi-WB$A=AH5QjDR!n<!Ygr+pAe^0TCyNLa>N4j=16nM{
zyx;HtpQclVA@Gte;}x7T&XWpefk7DZfWg6x3Q!==B$yyz2LaRY0%>4G!iZ#qz(!it
zZMeyna<ZOfIYS4~$rpzs(QsTgr<v$j6NlpX!|Dt#(W;~GK*tjL2xX7zwq)z}h;@4w
zUd+@TepJ6LTi-3#cQ0Je)E|B1Ys>n!ioUJ$Lm6N9qv}oB>K$VBj)lrhb<fI_I4`%z
zv7}QZ){whFJer8aaNHQ+4k^{k_Bi;udJzi7rp8y$7q626v-Ne`>vl3?p3>ftDD|pK
zMej(EU0AxD4zU`j9&K%3bgY>}gAKxRz-!zZHB%7rg4%_x*oO_Y4}TF<<Qn;01sUXE
zK|Ux%=5Z7pn`=)wQhK1~P^o{-MW)Rw-da;O`K=LeEeV3w><XKvY(x5_B~Km~yt7O>
z@XnlnH$>JGwq9%$7(nbOH&pEcDvahjQ^795pncthp|WW51M~^ZV15-CPv!Yn`U2rW
zL0Scs5K4ffYtZ}2{E01wk%LI%RKAk`El6XWvTC_Q*R&WgYWWTYw?o78=v2W8LX(Cm
zAf=p3hK_^A0^^7o3lIsCN5ip#oe7U=RR|%}R%pddaty=xiCk$9Mz{%C;RejzM&{+z
z90Ot8?q8!4NGJ|@#1?clj>;qDg*aTQtx`?kRwu4PSS@*YnT&acAr?9b<`7g+#T2)2
zv7KECuxc~S2-z(gY@wmc2iF9#*u>eVz#kbg86N{a5{c(+2%c1^Krrens0}cKTzO5l
ze7#t{K34>mLEFQQ18M(3?2Q$k)Di4@P`X<8uwm;%@3vfHDBHM8Y}~c5Bhz?DEDA3E
zf300>Y#Ud0o}oxeBqfm)MTwLsk$O-M%c5;re#nt+*|8nl@?+yDMU%9vNG9#bQ6y(5
zIV;s0B)dVOY}2j+6tDsWh*Gq%iw3BF^oJKH(DVT`?f&SDnJrmvj0o6mf720Dqd<%H
zJLe9E4-M1ZqJ(tk&YgSj%-p&6oO92!qbCh%MaRhf!>Nw(b!Voh|L)kwW9gm~TF;40
zWLG+}SBvb;bPc7uMzpSxOy@4(`QDTAwq)&vi|GjPx4%dA^{9OZHQzzC{vhwC$`%8`
z8(s`s$navQ{ofWtVS=-HnT|Nn*!Y!9Udy|6X0Xe2Szr>H1+z5nR#T-f61Y_Sibh1=
zx4vt~)MjOC-VzHISgmr9rpo}@i76`xPMvMW+hi8LFeOV882H+tDXK&$VX-a=&kBAm
zi()Spr)70VEGBc4-~khz6_Zok|NnV%R_pYKG&x_zlax-*d$nKeJC*XEUOTfD=oBhE
z_v=!DG5Gjy4}UcF!I-X~;|XpY7f2LSIMldy0Yqb@_oI~$R?^{<TKME=<Eij>)cVj?
zbN7y!CkDR;xRqEXb4x2(yI@abT_vwBSe3-L!l?7N;0=rI*5cKfS>?Y`uE6qD7q{_-
z;}qUS*^8vWiDY0v1c)+1Nev~(D0!L^7I~he+&CpikubOM<(K)>OyDQrhK~uB^7X$u
z{A+=W1da7i@o4|WJV#i5RPft7`#)OzVDa9Zh=;6oo`SZNN!eEGzV)R$EAOwQTlZ=7
zH>r-EM@l}5$2NK?x>>qyOryW&)bT4wp;u*fI}ZKD{wER+IZnDAq5y}Sgd`t86f`)3
z&jk9^*8WWBaK6^s&<Lu^q%_yyA_B>!tMm=}Dy5>tQ&IvnqW?@ef-K4t`dYk$q}>%$
zi^^Wg?WU{5K2iE8AuytlqhN(RAS!XnC6KV0qxc$%kFHR%i^f#LRd$kSv0awQ-71_5
zT$Xcn{kE<xkB>x-<h{Qs2(LBQ5DmZ^CDCISHVe$Vv~N76`TBDXDuUxP@Gdu7HYT;^
z0TM-a0d6{5zJVmND|bb9K?Law=WICA{%GJ{&As1%Wlm%?S4%|*4eed`sVzgQcSv*W
z-gZ!7+b9|}MRPVB3yq$;SEohx<!Y&@P6`a?9Fzllv}t{}<_JG=;Z*QQ=^eq1qp1%U
zbu8Br+m)+$XX96Zd)rq~y_|7M@uta}z;#4k!N2W8%ZoO+PJ-V6@}&5oCGLnj;Rzmg
z|MA8TZJ!#^IbMWs__!zGh<o9Au?a^X2l2GWo8Pe(s8j?4wa5Li`fq`yerp0TU6|1t
zc&8D*27+LhHYMD8JF@e)zUYCSzZ-V`4qWl-cK%IzO`lP-6E&OlQonBf-x7}`d}!60
z2;3Mk-rL9!J&T%MXxXN>Y{z*w&O_|$J{IpWZyE2cQXWloh$o8oRjI)vqTkK*so)!-
zAKnc*;{#QCXsS{!#@ZSm#Pf&ayI`x)1rM3#_h1n(y+1~$JHfm-y!jAX_MoH}Cak-W
zk0KwqalsfcBXi@Dku@@CGmJI^%-kLXuH2(Dw~bJ(XBL&GXO@#Q^A|3zo?z9MbI>G9
z5Gh45@e*W&F+4iVA;THK4-;9aAjX~U#}3+Qw=P_`DAcp2*a@%lPj~>#^<Ut?dF5xw
zt@;Zd@YqTEd<@+od<ax(+C)wuTp>7}2A?{y5Ra|e#kEyWjQB%<+PeSw*lJ5`hX?xD
z^3B+4N35F9dcGVmX-4`qvDI+(hFk%$11q0mdbJsy@?%XyS8rN8QEaunthDTT=)tMG
zosBvw%FCNUC#`7_#xY>ykr@P<C$7zXue^+6z$_`sDT1kFYs=z_^1xKIRi*#!myv*p
zZZ6R`WTA?@QdR0-V4$Lowa5*DM=so%em{^0?PAxl>KMPxl>O~vOfAqk(=oS?tqxu$
z%Ok!@nu%OYQ;SIn3Xy2&_F)8^*pVnpNpiR(bn?iT$9%H*#^t;T_HDo(n_pQZeF%y>
zs-t?d1;8Trit2wuXo;whx1=qXFYW5oT%8+leBtVcf8$JL!7m#FYVcI55sFNw8S2Bz
z_8-tT>$){RPnsAD*XFKsi9xR8Qx!Gi&tl{%B4a=xQ5hM-jGbUckV9?GG)S14HU(5>
zp}8?_5dM%_mj+fYpd~Qy3tzW1YDRI}UUuEsCznLEkW0cSLmQ^B5r|tLKr!O_p>Kl$
z0U-ccRag9Ov{e+~6s?TsL@WgBrEFt4#9_}T`%54mSX+c=#W!jwHJ?kup!o{=WarQb
z#zdg1@cp(3g?oz-u~1HOSLHgAf@%o^H1+^p&@T}sN2wzD`%tEE_iXqzSoy*8=gp-R
za4_K`60XPRuq%av$O5ddlLf_7<54-bit?NE<jnpiMv~ZnFony{toy7no#xZH4GgEI
ze@b(E6OFND__D6y-CC_K@CCx@c|&RMpynM+d-rSJ{cHA2s6QPV)k34`&>1ashRkVN
zLI|qig1HQbXNHwdXfFq4t_g9}i~zR4l_gFoJO<C-V32Rx)q%q)-&m%7H>?Fforbwl
zJIoHqYKfxqrR$GtP)&uEQp3**Q8dXvjj?X<)FkYdh|jY936kottVBDhDl99h17*{<
z5MTE#f_#>@8%iJ>#h$bkW-LXt#8qR(P)y!W?ZvA_K2qEW{04|vH$##eMzr+FzC+Sh
zw$<cFv823BNLN5XrVrT+6h#6LMj}(M04Bn{b9^3Fk+X1+XY?f+6$}NqQ&GgTj>3Z{
zcSmNSS<beebQ@AHhgvu~gpFmKPL0lBfLWp-zEg!=@J%BFLRAvV;ggA#Hx`vRj8Lyb
zFa+wMq`9en`DNBDnwft|Y`sp90@gY9qy5`Q#JHfdg?OYeFgT+sB8F~>Dm;tAE(yPy
zKg8IA@L>13rFn9#xhjT^><1$Vxw||chgE81c>%Gi;Vyf2J`sa3y@wXn4^W$(Xl5Hv
zBq0nZ4XD$K0vk%JV1?666cVZ{$W_>IgoOwl-lOBwg=g18bn*vX9pe`^Uzsd@uiEtA
zXu-aQ$&PJjNNS6G)b>G}+I!@|DH26BW?DP$tiHdx8N1(`YCVLg78I?vYja-hJAz0o
zd=~xEH<a;5GvVR9t)|(Cqgx+PU09gI_m6#E|Ap^)wf^~EHbU3?c&c$it(#y>R)Apq
z3LO8VOq^m!=bac3T8hGyUJqFV?d*6BQMMe$hE3w(SQ9nH4<H`HUimYV)ED+E1tesO
z_JGPD)3xc6WOzV<3ZZF84VaP{D5`k(A^~H{#5JPM02mm{9kSsAkTBbECxp7y<-j(`
zerspqcuiwfJ&nm$w#17|v#2RvGR<}4ib|MZ^oNyub7oFSlEsH;R&Dv~p{kQHf*|Dp
zW-e*;ca@(H3u7hnGJk1~Tmiy~h})aYSrt?H<&xFC6FBgr2x(kI#C9+B6$@Z-qPUVv
zIx+<lm*8q75uXyMu+XwNY{sLDMNjLI9qEeYNz)2uiqD{Q&<-b_r2X<D3iY@e2_V~~
zvVlq*@{vR16tq952@+64(Gyk5))hvVq0LU^&SoO&N!nhv-i5o7D(ih`eH&0p@-A-2
zi@d&d{T4{h&DcZNUXYv{w=}X??b{0Ws?h^l@ZcKBSiS!BskA?;`J-w7Ud_KZ<sV6T
z_NP5#nrCdy_84wNhTs$=;C$>vZoMuCSupTy2-4?_Cy@4ZYaST-raaNKXF&4|-1DbA
zdoq1b!ShW+$2S~m8>X~FIhW+{LzWhB0#ADo?63VlzINk`O<exkdibPdEyK>l2V(5}
zkH}QV&VPm>rXLx90OwZQkr;AKrfT&zqNPZSnx16-Wy<b0mM)fQ&D#*ny=}Q|d#lom
zFzt@`2NfGux`7a?wnUZ+1*W2g1`APFP<^%e;vD;nD>!msOr|W*%(IEPNqHe~HCh2z
zvD)TqR86-pV&q~{cZVsFDWVYql>ZZ=DQVhEbMW`^T9|`~bks?B1?)IRD;Za->IxG^
zX$jrA@&1j?j#SGY1ndk)DQdd9Ya$gsfxt<K$|lg$XexLBhK2R5YJE?}(~BUPFpX9{
zkZM>R6qB*Od)q-di=|<RM8AC*FTz+xK`Lgt4!~TrLWWy5$B6RfIkt|>9chl8R>7w-
zh-=J~nz#%VsUVpcBI1$1nzB;dR&bq2Muy|)2`y`Gflc{d6hVX07P(#A+5}CNwYF00
z_a@*0nS_;gxOx+F<@@yMkDxUQSaXNr6w4i$C2mo!6S(;<)hMAcpn)wm!gCOyIRrp{
zHL+4ba74`rj*{&Ow@a=b|Mkd@9UY9*oOm7YN5ZexHRm?WH6m;0wmd<#<7v(FGy?r>
zp4XaVTm6%pOX>bejsBkh{2CHO1UjsFdb#T9haSXcMb(E@t3LGf=KSa!(K0+mBQsaY
z{4}>Q>%%DTpgneh_F&GM8Azx?d06q56~9t2^_)~B?$LvZRNjno*g?CP+=YOfpp?vX
z28)|(0&&9S5I`At!9-g@i_laRot)X+wigu83C!};6flV=W;w6{0wnsGLl-X3%nS55
zOVjfON@(cI5am1-a6gPl%RBov99i-`b;Gi6$B`xVFVkH7W4tuOr!pMb-naRt)_ySE
z{uF#4JUI1NlRueEk6+ZrFQ(crL9W##P*>g!3-^uYbZ}4$4yJ>nS`c6gzK9Q{n~!SE
zN7qhgjDE<1{XsO<J^?RTZPCrwV8I4&3q7nd)pJIzk3f``ZXeRxhv0{6<5hL&cu|JN
zXp-sYGO&fG7hvn(k@;1ep3+xKTCRhBhTC|^0r34T0CO)eZHtIZ<Zw#qgL5L3i}}N|
z!9ZoWjsC+-z{jN@nN1Y8ueXg&D!WQT=(f0xdIjhkMW14Zkya_8^@<;yBv^~IFhb0g
z_UkCzPxSlVO8|~Fn1L{VU@dmyc`<0@pp`-vJA)|&IQS~ftVK#*rAi4Z)g34>lAJ?9
z)?Wgsie#an+?Wwc^RwVWp`-%QcV(hp-XNQLR`77M>Eexa?P$~KT3PqIG*$l+BSv8J
zIMHdxVN|R6&wbX1WX<_6?qJ5}Upog(_!RV|J8<km1i_A<2fEkJZn;}G4nK7FWCr%C
zo+!Ea2xy%n>n`XFq<i4ndi=plsh)FC3dne(pZe83$5Vq7nrDLQQp*%t?rf834y%VQ
zfVa|n6!JBpQ(%|8eI*@eo@g#81$)R^A*$B(@)TA&XviEl7n5^r6O?T><5p!G1isNj
z*_7#U8|eBl#siSL=4}g%a=>adh0VIoGxVx;NJ)Cqm^q{ZuTYFSQ1-+?D^Tq8c*-&*
zw<w_+3eS^=xZ4guBw|d8V0fk<5?dblYL1f)T9Td@pvFTQnXVydxg#Jpxw)mF*|5Im
zzeuJHvPUUM#vnoGS_4tZ9Y#oOdWJHrWiaCPvG|oW%Zl3SMVG(KM{F#(7n)zZ4o9&d
zHCS(t-yUND7NKAd{tixb55J}_Uf#_g(EFG9zwOrC-Dx)*1MRy%oN^l+0_8a@(y~{i
z&&IL_;-r@9Se7c2Kt0|JOi{2@{j;O7@xx@GSHVx82w6MDR!k^h<vxW{4#$`ELa7L1
z5@xy^mw7Pg8DU9<c!=2f(S5;#6Qe>?aJ8>GjZ_*S@egTC030zVzVvo)j;6c=;F7xi
zX*Z3{=Arwe>HX)l{pVD7cglTUtvkOH1<+F9u{nZF>DZXDLgF%_gj)Uxqya>~#DmmF
zj1ajVQ3LN0c_y*MoB|My%M?$8B}C*tq6oPJ8?m_IUv-zW$YU7CH}OOqHCV(CW~@(}
zW?bTV=71by0bb_dO5C-y_y)KG%$vk~>qbkMnn359BrRlv!b+h^rEg<4f`sy=9v1W4
zCL`%%6>DzLzz^as&=Q4`RcG402d=QdNB-JkZEb|yy{-RVgBm!Pch`|xL!GYHP=<W*
zoyEwL2mwIIbm8esOIg8t?|A$sdZ_Yo(^bq(*VE40pU`WNkq2;s+b3p?TGuV0?BAk%
za95=s#^0e7xGn+rx6`vLVqA5>L$>9n2sSFdyAf?vq0NZ$Cf*?Hx;j6TObX8=C8lN1
z(%bo|)^n7wUdQiYe0U?G^ivrjT@lZYcPOkL%y@Z)>djJ>tCTRBCQzm<Q44V0^w60E
zZ4{cX0*SL{Sz2p6S(JC^>MdN&+As2~ReqOB;#5C@q*PU8lCDtlp%oWMCk3h^kLxW6
zZUp{Bmue-I`G!`w4)c>T2GreaEJ5dEM{TEFwYEJ*DA7J_W`~BiT81AxY#}GWdDs3-
z?|5eDe5P+AGkocBLv6^Jce{hA@6UBhc5lvNx1Evi!3`T7@9W10`#)>`$&s(QY`ey&
zhW<{<r{u4tpv}3tnxn%5g!#lFcd)~DLe2y_b2XINa<pwsX^yUK8=d8jb=X3f!gMW^
zIenIoTaFgG8p<7Ou{pURj$4lKX0PVx+qU5(x7TZHdjPwC96oQ}rbDi;fqL4PtHE*0
z(Xf{I@%+2<nxlQ&hJsvYn=MM-18`7B&u-H(Hz7;o6LJRL0$feDjxAr{&iMP|IUDjA
zs^%b{)zVp=6dt*MO6xqFbI_?%3UqKx*SOZYD@SdiUgHbq8YtI@z@$G8y&Kwg)7gNP
zUb!_y)pIsFLD!<fhE;Qf$ln0U@Es@RD&b4%l89eQ3PF=l2&%^r!%Z#@xsYt@**tys
z?8j&CUjF#<6F4d85etc?3Md7n(%_PCh3LMzI6n{2MIjwyGqYF4#Kd$G%1Y2&Te%6a
zCBo<trOUA(72*<SZBSsnxuX0DmCjN@9eJ^RCAP32Ca|w?8oRc<z_*y0&pL~F<uNs?
zUs7fkl0xv36iQUYz~Jx`!p#K11%+IPv;T?gcxeNnGm(rDE4G9l6~zQ^D=sJ=>c>k-
z6D6b+s*r7#kVwaLi8O(LYzv`Fy(Ct|7;Ji)_3*_wg}j`D2q_U)TB)l5CA9g>M!5nb
z0_biet}bIVV)HXAK(jIU`<=VRaWoZzxe8Ge*{*MCKr)&cMF~-5ve;5ODS^WuDck=o
z&0b%gfzO^*ai<8?9yY5j9#YT%F+Ha8^3ojC2)d}vVAVEB8fReE0^Sn%&MoR2pkL{s
zUc_h?hcPCoVqwD@MGc`MM=&<)ujnBrY%qzyC~9OYLv+d-cEi-DZAT*`WQ7u=s(UCQ
z%>`D$%LYyABP1cs_7Uo@fv+bMuP?)fEWrRg8{je?o0x8{mV`;jYct9y^?QKY`C*=Z
zZSHDvWLno(;o(&d(KRP;5a90_CR>af#;6%lJXxC<ai-ZAPZfpY4Op?lyUKa0{v$fQ
zNV)5j{5>TZO8%3QT0$jmN{&-Pj8u+mSrp<aKccelQNp;5!W^-m6=60_dU@F<C2<{d
z8>EcRz=x?XqnmO=Yq)0@GvJu=37VlJDM?&C1V)r)2*Kt0ucSkobm%MTKuS9B3#sYn
zQvD;z|CJP0rSKDrUABB9QPL;@Pn4W{B)R92wEv04Dq9{)NS-()`5bE4WD9l^Xi+c8
z&&ZFY%a5c}kEA`t3s356QCp(KQ(F1xBWd_6>Da$Y<6lXaH0e^Y1)y_BuPOy|_Ii0R
z1EtCuI(A3J@!*&^o`bJVl;=BLvUh#<&fNQRc?sEkXx1WkZj6xXa9*N({=BVI?%25U
z(F-5Eke86npOnwYa{J~8DYfS%%IB|Gg0k<P^5-jmx{{ZW%^z-+C*)1#?#jm~pnQJx
ziUr*$q;i~>D4)M!eMUx+elN=Brz}0PedD+C5)Szba)WH&4CN&p@)0B(xAlCZD8~Uv
zJbXYs^sLtTtSWid2UF6sneZX?$dneIQYG*DSW24OwztYn`O#Z7a*NtNoR=t*S8Ds^
zRuydzp4Y;Yc?oCvDS1(rooeKedia7CxtN#eG#9UtECZ_CoR<4Fxj$p=$T&JO-a%+J
jSS)$x8LQm0X}Rn8*l}-M9h=;is9@WLYmfOFW2*lF9uow8

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi4mm.cpython-312.pyc b/model_executor/models/__pycache__/phi4mm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..afea056575564800872560700265484b77d03aed
GIT binary patch
literal 48134
zcmd4433Oc9c_vo-zG15>00p415DT#oAi;fWkN{T@B%5Tj1*ugH;uVMjs{rs-fo#GB
ziPE&AqTEu0V`&K5QW|pP2<_&?=o}@2GaiT5Bu>XUXIzg(xk}H>41Cf#$L(=EXrVoJ
z+liI$zi+7mSm@R=&dDQj>%RN$e*b&#fB)_NZ%(I8gC}bEwa8yDYc&4{y(o`G_N<rd
zHJS&SD;iG2X``B9`qf3XG2O5(rXSYF48sO3h3TWlm}%G)GY^|%mSIcGI&5X(+Nf>V
z&eA%D9qiW`a}B%LH$&7N^9*}pCBr4L(&5rr*>G8`e7Kx_Ge#?7-eE8Eo1(s$f7s9b
z=4fTCYPgE|Ez#;&U^u}1)@V(vcDR=LZPB_|a5%{P_Go>qVYq?$9nr>E({K~>JEPlT
z&BM*i?~1m>T8CR>ZNqJ`?Zew+?ZfRX+#T(Rbq;sNx`w-AJBD|}x`(@CJ;Ob*ox?lX
zcTaRztarFKwtIMYY|rqX*xup2v3<k)*te4C{@8)x1I%9<Js3MQe2DqWqK9KghL6OK
z4j;vPIad*VA=WqC$Nb*tvDoq9<FWqX{@B3q01NX)PsC0RpJaZ2^i=Hh@afo@;WM$b
z!)FmzIXuW!4WHwxhljYp@Odu4)o`_39T)tTKB67Iz}1H@at-)v#9veR;+Tco_PSyC
zMeZQij5i(E^15;Ol1_6{!?nJy;o8Eki6sR9^1tr@0_YjO!eVYm%=YjRHS{GG+JVr{
zg3zlhv<sm-3PN8FUk$%JYert530uR%T=ya5%N^o+Ue^wPmZjK<6uZK^)!aYFLVFRq
zJA5Ggxk|)WzrDh~?ZLOb;oeQ(KCjb+n<xH&>b>y^e?I)V@GFn@DY>vb_9Kr2#akcl
z4-dR!l=65-&T9D8JKDCxAJE%Sn_je>PK5c9YtgW1J~uKw9htl?S}uie&V(mN!)*r9
z+BZ2ll^98cIZ@v?c}Fx4Mksz%v|he59qx-pM&fNo(Q#}fF*<%CJd&8<!=mQ`A5QQi
zk;yQ3d}?wma$R&?;HO5z@%R*fF7jGrQuHe&$VmoXL;TUi6fc%uid>IIreBK0BU6)7
z>Nc%tdnp=?sc)WRBk^$mOe}Wi{B#1*;)vn69!`X&r$g8IshMfKy9cMPM-p+hTm+R~
zoEe!+L}o`QjhdP3!U&oZ4MzvhoeGa|RM=p2BsOwxiVH{a<~lbMO+?t++3+1Is_fjA
z!ON%5o$v1(481sT^7N(4FMb9+RjNcBiS~~qM*1V839%v{b|MmvD&0{KeD?MTe?5*d
zh{Z+cP&kf`z8s!JN5$JrVp-n|7nxGqAjK*>9UHkG9*A8Fa~wviFmO{$D~ow4G8;yn
z<yJ_QlM<D03`9r7!#qaQNBx`srsgV^(g*pKik=*s5=-zNn@+qKo{o-;hGXH$gy@ih
zu1s@)8?pSwaC|CyE6f#!q8q*HD4w32o=L=y%|xOc%0~yEo&=1=!dwLDmEO>a4#|6I
zbUYjz5$*EZ_{enl11*3V2`f)?;jzeQe5V9Hm-&&&_}CP3;sNLdtyMcOE;=sFOixeo
ziTL2ui+zAT`7PgiWb0zXpe90IC4DoAsjK10^>Io#f@+IS`IROSULCQKJJ-UYX&x1N
zEpo=G*F?^eGyX62n%T-Y1M<%JRBv~8taF+sPfu@WZ|}Yj9-}EAxX_#rbkruj=(-h2
zgd#NLp*W2sduJ)6cYk8)MtCwbib3Ep!vNZ$F=;B<rufM9(CrA97#Ho#KhA0_Iun37
zOc(jpA-}SiqXrbKJhXDq`njHj^FWi-CpEKnjb_e})FrjdXG|KB#v7<A@8h&{rlc-G
zL&2V;Hffke4)4ezv)Hfa%t>?7G^V?Ryb5A!lE&v^nvkCwyG=L5v;NSE`p9IW&B7l*
z8T>(VXcguU!x8N~O>Mcw4(UZ{^7IIsE%HZ~@+y6f6T%RbpT9q~BN3b4F&&xilscyK
zwVA#9_ubeV-Vu#l+cAA7F+Mf9;}#aA9Wh!XLgClKqW}k9dX4Xx9*^|KVqMdB#F7wO
zmE@vn`1k>oG>E@=6wY1Enn_buw^${Vw%<LQD+?|j6w12p4z8L@=RfzvT%Yq-rkuIT
z=0{~qpItd9be_nxofIlhrd(?ljiYMeaN6FQHngr8HI>`G8(%uG;t<;VGc5yxe}Ixz
zrCd3Cr4nl$<!MA~bmUH$4@J1wM%95rIJF-Gt6BdloCiRbI31_w44jcOac0i)E%RK#
zz;e!rCaL?bHmUut_Uqa?00n1dAW)XnPtYiBdH^&C;cVp2877U0FZ&bn)}#SAaQ39(
zkwe+o=8Q?>B~6=aC~_A7$@d~@B<(>1%A~0iy2Un#5F3FH@ImuIH5`67oHny)ACGVx
zW(Auuwu0GH0_ahf7WuO@iV19IV%g+OEHsixU=^c@G>#1+E|yTBoFVJJxM<5yKn9n5
zJIXzQ*=ib<HoOuZTWEyG0x%U%geI{DiB->K6Pmge=J^O0ej5{=r%BIWB&UNKVd78X
zM>O4F8-(bT8!YGVkSZ;`u~ed?uuI}5B$fc0@27mc1c{R)w3rme<3Ed!^cPRSxvN?A
zRp-2wxtjW%w>?)^pR1|MdHo-{EfuD_=RPXels5}yFDyCJWiPCF;k!GSGkfNHzC4!;
zv}OYbgusE7&j^7N@0AFFGlHdZHLz_-`|w=aQu%&aN6uZHtE$U2_I_kGl$-7jt~oRg
zf7;;VPoUsY{HYHCB0cMW4d*KW$FOEt%V~ynoOW1m)mSy0o7062oIY&i41|wy#;}Pq
z;m^z&#%w9gn3l7=?i@BFriZhJEfb|IzYPv&E*?H+;B3GvZJfRMcg}%u?}n_{3+LP-
z+#IG9MQT9UAaGh2a9U?d^O|<p1%NLROD|ygICoCk<R?e5!tk>m_7)5)dwv&x35i9=
zO+sj}^b?LXB$}knMzl(>!9{q{1Vn6xpBz=^8IsYli7o2?C1B*6+6NjMdFi?5PHMhJ
zOSb&3)fCK7EvJ1)p5447shuDQ+w@G@5w0A*3ck%56Uv}!5W`XMN%kfP`q`tFalClU
zi4rAd{+CuOC0$YzvMOJGjvTPo739E<mXyn+i^KYs&ymCG6;i(@d}>LWVnh7Mq-=gj
zrS?}+Q>+Ij{7PQ=--)WcU-3-@6kq-q8?R}iF8{9hlySs41Y7T%B~h<@Ni-_Hi6+ID
z|4o{edMm$k)})m)&thzo<{Pb8F6?JCoF!@gO|1Rj)+^<FS<7OfrJU`?UaVwwi54Z-
z38dQmaCRks^iPHI6?r&jov5)jX_>RJ98rI{bWKQ|d`T-(<wwAVH?<Er4c=&mv4_2>
zeaSiTjdly^8@;K0%DM1XqkhAD2-T`@9=xf&%$49RsC+AE=P@NL|BHpm{HU}5z8aKo
zoCCS2V*$wMQoiJW(Q>pO@$zleOzg>jSA0mlPx0q}*=U(DT4e>JR5X2@VwLA(6}0J8
zK0n2mIIH+32%p*Xa1LtOME9m(ydw0(^P$q{5)yb_ufT-zi<YZU^vl-i7p|2-sg3fB
zTB#77G|t&M^PHogb}v5P#v~y0liQxOD=>0hJLgPXQSv~o9m<z}%_|2nH(W{Q#8u^c
z{<ok8FXuxQpE9-uv5M8xUQiF6(q66Rjl%{_LCRqz*ZgnN`E`O*6^60?em?(I@gc?z
z#m{D@3MCxPw;tu&9Zg#WcD2b6_C1baLm&L(Pk;JT(LtzMXiO$H7#S+orezU$nijKu
zAYBnc;PN|WkTAjEtScCa2SLvW#<6wsVd+d^$fIxtzINnvSv1FIu7$2gubp5hsAwO#
zbsZ?(R5Y}cYtxDL8)1GDCjf?Kn&Jt<<!1Y5;^ELZ7Xn2?I(-I5Cb{74NMbw`4Uh1X
zL~9Af!_y!;;Ls3^k5A1+x#0N7t#B|t5(@`!jYMa{vmI*OU_LG?KQ$S>6U3P|IL-yt
z654i(#`p{!J1wD5WD+=DNHmX+#DU53JmFS6O;OPXoOv>y7y)HRbVg!mi9(eT4IGgx
z^gt4&ehgD0!V5*4igm=rQl(>QNF?%uXu2&ODh=#-bCi-8Vk0<m8sazkgs7XG6x}a|
z$D-j;8j%Yl+)hrc*id*#K8%Sj!jS0`JJQBQ-!+gM*g(ri)sS=`qsr5Hn2W?hQ!@$C
zN@=M0xL7WI$)oVGk@yYKvw28F|5oE6mKF|OXo{z^efbz44$p>J-ST~A9p$H{rLnJ;
zihcelJ{paKgm&xt1;7j%?%N`sSoK^}`7k%bx=geZg(?=txkWSrVn)YBBMy>NanS_8
z44uRjAt0sSL6F==5DSoZJuI5Sui+rWiH4H{gI7eGL~=_+K)Z9v{XZcMifFqvH9B%l
zYKnut$&)KC`l;v8$00`D2~7dU82K#T=D`4mqhkyc<!P4lA#z?Nhe4YalT?Nc?Vzab
z7qzGOIeZmeG;ZidrF0_~o(8;_<g=AFBw9nE(dbA#9ty?jXeS@cm7lxpM8ik%Ww!cx
zY`IIB0<R%L{2#D&{@q>8M=p)kb<ZqV{7)@aADJ|*JC<%OzxK4{h54}uv40+WJeEE2
zvT)+%lpWt3-ubbtce~)-{;2<{y(d@Gn62p%YI?FYyM>zF%QqhH%+#Dn^}jKc3pQti
zy+W`z8{8)Z_pQ{v=gR~yruu*6s9CM4lVY@_`ky*#-mlrU!u^kvzc=}`=3L5vDy)|K
zvp7tZH)qRxgz}zjdB0HJpDjNtl%Gvmb8i2eU%2;$jJxihA*D_AJaf3eVR&G@Z(XSW
zbw|cglhWqgp85KFiTRsfy_2?_NC$eCFD@Tn{zAIyM8<L=bth+cq;B5ZJ>U1$1JByp
zvuy{3wu38!nYPnZndY3sIbU+`M5>RG7gp<ni+vAoE!97aQO&AzEv@w1v|6*B)ihUG
zlQO*F$~CdzdJrt?x6y~1Tx$pYZp$^a({Ej_sf~W?bCm%~fQTLYDWLUPOWXI7-$_2!
zzE}UWWsriJa@$#&mRw7Fw&l3ca{Td4q2(0&gmj+rth-5YH!T^mtph^qz!Uetnnq`}
z<s2`r>+ze$yBzC@yD4qCoNm6Hf$MI1-|K%6y&rw%D0%bjy|W7?3w;ZTY+a8~*R$N8
z?Y$)QUP@niN$7n^sCy~xznXEpjQo5yRF}rxS6PrYS5i9PH-B@XDO=ScRCO#RvO9)^
z9Yg607lj=cg{q5b57ou#TGtz-3~-*U+6Ib?rzB;3-{E@m^u5zLPtBqs8$2omk3KFD
zg2x2UvByI!)tcT=YD<|uvS~_vC}i8esKaPDO5Z$p@7%X`zP0z^-rwB+-D}^Ad?&K(
zdhE(HpHEj^_>tq{nqE^{|9)-ot=PlZ(o5;uUh1&w)v92&s$Hl;kG|o~1%eb<x!T&9
zGW^K0jVD|S3qR&GTe9P$bo5gm3q16`{wih(=zE%pLZXly3v@i)BlYM<<ep+g9!^Jy
z=De0SCH0^WY9>Io+5B*t87+>2II&9)2tj&I<%qDarlc{hOPcsUPpF5u{L!)4u_<Yo
za4Y%cf4S$-H3f|UP0>*F2x$amlD-wo&8Vb)M{X5bXqYI=m#6p`xy-;>3gVe~926$h
z!;KOXh_G5m<Yr{C3Xkb>#0{~wD$_!gkAgC{YGLu#srA^R^%kY|gr08^C*MOdd{GZw
z(j?Tw+LyI$)*;Z+%O%R$#toVuLu+}W4>Cg92f*@v%22TnC^v@GwK@1H@-xKbEAWYC
zAS(>PA)JH1Mb2$<X6U2gRwR5|G-JDp&0yoCti`gSsl@5nbd)hE!rTDQPw}86KcGb4
zp$M*xwG!<GTcPNbDz2cN6|^xvx8I9)3RdtLBcrHqATCS9I1dry3Nnw+HWt~(Hb?qn
z)G>YxGnA2yebrfStKe<TIlN1s$I9SqTi4K9W+&RPCu<J~_Q0Y!V{gd?T2kj$n_9C?
zF9=O9yk|%^4W=FS&#LMdo6@aEAD3sUPQ1sZt6of<{jt00ZTtKF>TmVGb^77y#aOm^
zpU}K-r6kjQFcUbG@gJTy=7OEs;7%d9Ggt0iFfPofkxDbohp@EOm(Dv;f%>j&aJLZL
zy*#o~veLJ5GZXBacm8=<Eq0M?(-EQR$jV%%>D>IeAD6YVAgbBpnoQIA`Eyv=i>59t
zIagjU?VgJ_Gv#ed=dv9~gpMO9rlU_N@5_JXGv(XY%?4H}ho-zf?Fhc_s!v<$rDf4E
z9eEAdJ43kRG};Q2CC+~leZ7GdqEgMi0LlbtX6iy&d^t?0%U>}%nR1rnPZm$jX^C`E
zjFL8?(w-1Oe%Nx01$^`K3As2n$Hj@#IQc^H+WfNhD4M=#4U#%gva}N_Eihlp&td5y
z3f7!;&NgRH;;fB$#VCQ`TqwOer$u{;EYjG}^u-qB{9;v%7N;zNpH}LGN?FR+KEH^o
zbpzF@C?yZ{rwNtfl+R%fC*z4={$26SdGeIJ#5N^#qFM3fe?c!O(yyG32_?wTthDhp
z?Oe%RX|g2gqD`GQCQBt>yaW^?eX;~pKSQz<t}*F?Yx=fXp)7y`=$vTFm#X-Z4$h4H
zO4$~onb@v`=YQ4hi+ZNW_qnoU$z1t$&0Gckyan^mR4{HG`TP{0(&Kz7Xrx7IhON`0
z#F;ZCRLTS>E^@E*Yvv8FL;!!jq$%m6{$li0f<s%<O|&^sDebb4!tB(_Ie*fb^l?^B
z_p7=w*2{C1$;t_px}nq$lucc-9RJFc9@sLDhtUB&h^zR@-Z4q}Ozg_%r}&gHnb@s_
z<bN55&&F9eJLgdI*s5+)Y57t;Y!u7LRqOl-<<C`NM2pZXC-&#-qxe`~u<}6D*D1Nr
zRp%+~69<&I`QKz!viiD?vpjMtBU!u;0fQd&9qOHwYOf$GRcx$uoK+pGKr+Btlm05r
z9DK!cOZq>3)L0y4tn&T$Pd;i%|5h#iBskfsr5F=}?-Cj6N~K@UtisJN2Vb^i2^$fq
zpX~A)q4ZkeXer2dAgQ0%e(6wxnEvcZsx)Ixd!wHnLpmX>;6u&*oQ{ycUj_3JbJ6mv
zdgXV_!1mbUFkhs-iWt==&n7k2R{3t(R+aNzlV8!3HLSLPN=`ebXZ0mychjTJ^S(_V
z@Tz=M*0Q<UO}SIA5Y+$Y$-Rzd4dsWqQ_I{sC2v62&$9~DZkYeUf?CtKVrG8Ixc-v;
zltlRiH}t1KKKbYBCole7?bra_TeeBwGo&(+|1lJ`>7h9yf49lM1+YYQQ^&aeQ&!7B
zGWbiamNb%>Wt$&P!WMdy6%!{nf756_rB1X*oO(W0GH_kb>GJEk(nhUj@^f3%!p(4&
zU#u3?vSPKU+Oigvc|I5i{$R0w0ftlp9;u8?07I%zR&ZuEo43Tss15NNU|XfhdZaJ=
z^c26T`L;os?I^=rYz&h1N-ea&Y2Jt$G{B`Ak`>@7T?A}5qW<!ZSU3{N#!tp+i+;@$
z1mt$lH6<I0)~RXYTw!UFAF>8=I^`Gqr%MJ+vH?O8<s%TM*4Pw!uuPE;vhy2bwn$PB
zK}pah&jgBh+46}Bj(!J%trF(}=f8MIko-j2hj+9iINlMw-KHihI3peie)hBDJ^0%5
zN=NXs<2&Ko`N}JsVs4};9AJ5~JmSIE@&&=aYbSHm<e<4jD6&Y+h-@J7M^LxClvBQn
zc^=km>1M9Nf#7UeM=&4C2owmkb_Bz(O@kW{oUIBf#Q*2mO#F8-IE)%I#Q!$DAJB&U
z0oEnW+mOoxRUb4Na3sKu;IAWaw&HnKO7L)Sw!I_Rpp4z--v(mNMe;<NSsNr{r@=Uz
zL@m+9QnwK8B>vgXo>#i!B>wr?o>vYO&$6Mdg`Y%K_+KZ77y|r1ha(!UL2g+zap7AL
z@WPB76aF%?%tZ58l#Lp{%wp0f{;TA*9Rm|bk~$T2V8kRTyVuD{kwZHU*j>{S73zBw
z#Mm7sDGC23eK$i!ld3G*AhnZ-T%VbmiStVo_iOYS@;cMtYl`|&a?ol~AD@Ydh6s9r
z{}qb%WfqNOOeZ=14GMXiLd;-j5{s&Bn?%ogm%jYB<Par8mH3n!tVn#acJp7L7`FTj
z5UuJA5VfPCc3jln7IoL+{5L5-YPINQAcVF|MQ4bu$9h2Y<N-?-yOiP)K*@ra+T;9h
zQU>;dffQ}>3u|xaT3pl}3yG!Iqf^&LqJ?BK3A`}&qMbp7%>H6LS_-X^JC{QuBIRtH
ze4-Pyxv`n3D)uVB$^x=1N12gkQGib3l*K`<11Aka*`l48VVIayEztu<VU;n4R(u=U
zwi%?0zDsmKGZ?uL@8f2xije>0Z)?ah{@<C2>i1DA@us+}w@vW2J=*!Zhu=Q@)V?1i
z|7>7~5ZJM-6#_f6fxSXtZ#Hm52pmbB%T?E9tGk5iuBDqobx*c>k5IiQTYX5VK6Gzz
zRY{i(^a_FAY~Y{}I9QM*TfIxD-j%K1FI4YO4X&2gficy#TVf^&mgbag{`A7l#rnmI
zIj1kB%lR6!zIMUazSOsLGvn(?IUq`y^>qloj-11va|E-FZGvOlcf;A{Jwo%IjAL)s
zaa3>|eXM=llW`1W9j64xsrPC!j;rfNz2BB{tl2b;E!l=6Lc@_Xm`hc)Z*@KFO1X2}
z+OpgFg>C(5OT+t}-QO?$f$v@4N+7%ctg!#=dws(Gp-j*DOy`BP1^@jEM^_zzba3wz
z$KIT$F5P(GiRZwY(QLJWM(M6k*Y~7@JJ&SYUBO&%N4l;X-X3qx+nKKDN_U-FGwPgY
zwCh%iuG2aXu9a&1O<7;7-~-XsHLpvTH!XfqDBrVU$nHBM>^lSUC#$$g<1EQKY6V9v
z7<G<7O1tXyr|h{3U&{8ry<$G{-HPu8z7u$A@5=e>-*P>4E%Hk}8GmQ$^s_SmLg|D3
zspGk_z`~{bNAC5f`cgN+QJN14o+faJ@;-2<F5a(59Rszrp=)V$dFOK9^3J8}Lj9h!
zqZW-TY0P@I3!d#uJxe3YCChyo&z^r@;=k|9l~>?@x^kCLzAIPWwaLHkG?$kCtw&QD
zxL@__0hWOA(AY39X)`6;i)50|E!{)>%lAfv^7HFfBXV-cIjwEeILp^sHPv-*wLff^
zIcgV|wdvjGh3@m|i!Y`xU&&OxlsZdXxWI$R{m7zksXZOsv(op}dnD^UA$U(v<9DWg
zJ?Y*d!8e37f{!?GK3D1_K*iU%xNAxKwr+8+;B7|;@~K@IUEt@V>~o3#f&0FDQMcH)
zcyp;f<LQvw;oZ~$g&p%VcZPRCmk#Vn@4qAjE~Q_(Dg>^gUTD2ZX?-2FzDXlhLK*?)
zg8qI?C_k1fZ%nsHgljJfEny>2dEfU5UGHxd%3ISNCxr47$Z5eXl((eY2ZZtgjOpf4
zSgVkV_kg9k<NL?c`vx<;=fKCz^j=&oZ(S+_fHW-Me7AXNVx@kiY31Td6XvAhanEBz
zx(!_Efq!2SxPKL_V&y+8*MB1CXGQu4*6k**_itSqZ_WLy3l|r)i#>}YOC_0#_JV}z
zK!@P(NOzwR{AZBQ!g;~pp5Ad<@Sg^G-s?pbOS(P^YU-QPO?{8+e|Ygd?c)}q=}fk1
zNN5_$G+oFxT@jkDWSXvKf-lcIpVc*_8((-_^0@DZHy`_i#?#rxb3)^}Oyl`%<7J`o
za;EX6Ox@LaN3N>=x9S%^zZhHm{PHWy(dAdt4abD4<MZZRZNpnP9^S~-b_=!Lm>%cQ
z+L27{sd@YR<-WAPW9iaz>+-Rcl6Oxmw}O4qzjAY>|8f1}rpFf_H>EpI2>z2<|5?F*
zHse2+^}i_iU(EO~XUebSd`*itu{wOH*H&y_^){!s_Y2<s4~@Et0quu+O-Utq#C47N
zk}-7iH`CR$YEozTPQTal-Uwi)u5_OG(Sf>Lg?FLk{*{G`_dm1Plx^58;D7n<oYzMs
z_*Z@Yg`WE}>0r0u?WSqr9ip<%Yr&Hal+If|a{NM*$-(&V&4RmmsqKk-SI$$N^)v{c
zhVSnF-v00GU%I}W_`$Ed`zw!6raK4IFJ5}uc=<=3E4h-2Y)Pw7(z<l|Ny+Y?DarfZ
zHprMS^=CVd3mwPP?fqDM2efT)E4Hue^}f<IjlQH5JysrA_?4xd55JhL>lNxC=pfYX
zeNwg;U!AU8X<*^yg)>Ogf@QmYvElwy*4vI1V5v{=cBLzJtm(BSJ;=@JN+XF)<Md@6
zHG-pNVf;@WEo)Z{n(~^pmkpY#K+5%J)y=81xw^(|-A<uyCz|lUb>Foxm+^FFJ>7z*
zdpVHt9KqlOU1>)E>x;8G>!=qT_34J4*@go`!-18aOvB+HIgYGZHGvk?+f$pi)G$U9
zB*irR2iV8o)(*9~Nk(fD@;s2yvV};2VFvPGA<+>EK_)FKe=&zb+|+0&#M_aKCng3k
zK?rk2>6Kxl_7l;mk%Wv}5~|AokYX945yblo@;YTHn$d7H8VbFw<rfher(@L%k_62w
z@bcu$(1*ux{_b_nj}29*yst7>S^c5?g4Woz>ItqH$wP~3+fuLK-LYn7@7QL_*R0HI
z)0F$xSac+|x&Fq<LdSHP!+ik#CSwC+|0OAfHF{gMy0X?P!CJL$#M|1S_C>w1cGU}(
zW{co$Su@frit|=K_}u-^t(n=YMN`-GR`g+X&B|VFC?*xoy6Ob{w+8>#PNA&3S(8T5
z8uhWszICYH7U&Z|FBlpH&?I2wd1w>p4<TaM6gE$g*wLm3I-f<u=^#&92+-NI<yB@l
z<GA*bRUwf|3;>j%`=k=&9Bc{^TTNw`Q(41yDou*_j(k8?V>y0?yq%njb17tXHKm(U
z-tj>Dz*~TbUZ5kgq?<SLvU1?=k3hwbw9MiM)U#@5@EVS1Oa)Yuv)oQc+iPJyI5j4n
z%Hsubrw;^&)US-G9*zfFdxGukJS+#~kF%Y@(ZU3y<0F$0xkQRxg>l9Y1Wz$JL@F{o
zGCD3(16Xzih2K69yh;jjpAv0yW0^z@D9Gegh@=V&OH@x9LHbe<^{O0IEwo5Xo*mZy
z07HON)}*MNW`}EDKmh*)4i482?hY1)$S8?C#@Pv6I^5Bb5NFQO4}uh#j(S57l=u(y
z@>k^iU*!BXITkpgI}}3ikvcC8AXXRR9<k+wEgt-b^h&%pc9`W~BHsye`pNkl#rdBB
z4Do-1w_nwKsIwU@YkrNrbiPZl)n^R#tEJUBi}Ov#J;!`vVc@O7hl7HzO|Z26*ix2r
zc;*`+?$o#tUv6Bk_=se=*7SO-{X@O6%(SjC8cl01jhY@Q=KB}wGnN3Back{|dVMJ(
z=@H4Msi@6a9H~q9tSnN-Qb|#&5v4+nQr#riL&~QK*x#{?rG+B4A!4=ZBg#u^A2n^m
zib35)&-z_Bc@3n0vK50?3-fdHlC2hZENxcNFU?D)h<ZYje3oYB?B^M@{oK=Xgfxo_
zff}@?%b452F_JaK^g1U^F9^j@Oy!sx=Lt^v{{%<WCO)`8FMkJTsLj45*zx~2#o7|o
zHbL1xQe<-e13}p!JOpJ1K$!zjmM(1&Y>gR1<7#=$R$vC8X<Xo!%a)B#EqiFV_c6FA
z7;ehG_;8=Xm!D<0u>@O`#s0Zrv#{mV+GZ2wbNxpBVR_)*{-l8`Tuuv?6D+g&wez_l
z96JzXB`Fj<wip+rrbUub45d}NH8vAZV8Md&aWD#r;Th0Of=qV|6vELP*QO@JG7LB*
z7?30g83c&hYoZow)fii*AU+O__n|iH&jJG^A0aI=n?_!b0q4p2dm8z@^2nPo@}7eA
zC1)$kSt@8wA73b27+u^|FsJQ>bDDC3b~@9hW8EV4`vw6>D+<x$Z`}bd{#UeL(SOB8
zVvw@r3^LgKC=~Xu+7gtGJt-R$4t1|vm^h=MO4I)w*Nth`7?reN*5<Y9?%CdvOX=6V
zssD<8RCir7s(Zz&(R@{(7nDrtQG$s|cs}p@x;Oj==+(~Y^CFWeE#jMt$4?sWX$d~n
zRuYD}>48#rUW&#DMQjt5{0fM=bLK7TZjoz_(S@EFWTd2r(<aTu<W7<nLSz&~2W_Z9
z8?1#XA!}hOp7tJ-j$#}yj2b;jtK24Y(wMZe)_rnX)Nju8Mg;r>Xc>>{wD_CT-&TB<
z+nP4Z>>)ODK!^>FM5iXN2eI{n#6KR1hJz6B3nr#8bzWmMa+r?@P9?^H@6h(lk})Fu
zXdwU*xR8*<I_;(3)SlI7vCt$nulP_Es8Sb`yj1|^9+R#87up9}FhME}nmd|*slTn|
z{}LJT|2-V&9qYQfdE^NEf0F7zg$09>puA{3bUi!?@;-lLwhqk!B^IhEXhPSaD8&Aw
z@grSogi>^9Jb=W1_ZK8JpLX@WZC~t3-F$QA-psGvUTFH-7vHvj95*1sKdT99`F41Q
zW_R_W{StjN9%O3@Q)WSjND3`^To6^0k;md)LnBwvH8}RLu0iPL=N?1Z<u0k%&?PwN
z{63;XquPNEk$OcN+0Z3CO!#O%wKKfb8CA$i?u@eTx6O+^^L-Ca-aom}_suhJn?GJ>
zT~Qg({u8!`_n@+ct>J%wI{gCe@oj34Z_nG;mr542Z<!yO7xmwEynX#+zLd(cuo6T)
z;9BBZ=mF{cdni@3OonfVKtzv1;V25;iPY70(JYU@loGPClC=dUTFI9nQ_%v#xvVH9
zk<dkBWReTNCJzt?Ef&f!&N~r1PK#3TRs3U*bY2x5h0x2_A)b?(1Y1p-zlTgL<X+3>
zd+r^0^T@p;8GH5J{%3Yq#?`xIUe+$_-nPU0)ZPn40;4HsIgFFM(Ui9Leq_-cd;#>X
z-*12FKJk0)%NM_)&(J`_`H`o4rTy-ywEM)fa$kme3r?nd&)rk0OJ6#dbC%Cvyf>V6
z1_ftu(Z6&!<J^Du#Hz!2ci_*Q<tgp^-Mg2$@7psahu*a>^?YO7f_9;YB>NY89v=8n
zY4fr@WlEPEdf!{UFtE6Lspoh1zP)#O*V~7L#=RNuzLY5yzh_^C2?tZ^);$+6o%xan
zK9B^<?gs=*%{}9qTjQz#LE2Gz_uR)nsnK{&YCrx7aOcBu2YT)g_0`7@8GaZH_G?X}
zcvl}~U0&}%pXKqKFr;F_hOm*=WEfV`y{>YShfSNl=?lJ*f_)v7?|}(1HGFN@3iWvt
zQ=d17?a0%CcMB=F!|w_k!&WJ#bnrw;R(x}FHiX;p=fIy6e=g)><J|b>K?y<iy9eJ&
z@K=hzGQ@Fk<tVEJcv!`^w44{AKKyO0kA?HUZW=CquBK(EStU}Jb5%%F9j-tPtz#xG
zfKt6&4Z@_>)Z*QD$Iw<UmP@F_1xaU4Hh;s9pvyK)e!_EU`CTW}wNOwv&(g+Lua&n;
z!1)}IhoqL%(}o6Czv0_@Y==$*ZAn^nbJAi<G7f#fA<o}h4kac27F&P+UY9(AC6Bm^
zZ|fxHAI-NoW(KwZiO&R`F5q@D+jzFVSVOuBqqHLNIxX&ZHSc%rT0Z`0BIDlw_QX=j
zeCtBb!p(=f7g`oepLm*<CIt8Xv}OOtPu%<2QuuXGz2X0}-ryT);-fbt?3DEezYSqL
zETd`omgjmwiYGD8x9Ek!C>`hpm?MI-9nO$wRaO5+sdJTw{A|DpoyC@}y-RW+NU`~O
zM-E_nT44@KxGt$HrZ#g)!?t?t@=R}Fe5^ok(=82~S~Jn6PzuI5>=_S`HQz-|=z$~e
z88T3~NWUN-TTwyS2;W^BBXy(NaT1Z0mfMQ7J&^MUvi?rN-<k36NS)4AHD;@J301qm
zsdLw6-ED%qEp2I&PT5zHa07IZ=m4$s>j&UG09^|m2jAw0)572kGd5F9^9TYVunt6>
z-=^cc(M-`TjiTBq2xlEZ<!_i571TOe+yQ2MWE*6&+lx++qH*_Ahtwk9yPBN4DV2~E
z*93Rh;w?B?_YuJj_T>@Q{tZnhh+$Ae>oqLy&_C_BU>FIF0lnDBnt&~mCN66n<~TKi
z(QoAu^ih?d_e=Jx!dxg83q>O_7(JWq*s=jdVjrR=(8ho!RMspR1b1iJ(kYD?jf-Su
z=^T8b8F)Yl=o~zeN%D-+YNtFzGht2o9Sp)(3|}!8u71TvE?IC8%8PK4T`A>I1c7Yi
zB|SxR(B+RKTjT(HQ%N%k&)qYSXed8J`fSX0m8IZ-Wk?yZ9cf>;<PTAt?j9(^v??pd
zl;;m$bJo0e8VptFU)MY`D6wI_LNlRkxJn}^H`!n8SOh_GTQLQLqy@$<P;a!6<_sPP
zpX-x$j&0f0Iw(ZYJ41`vyK~Zo5R>|i^}(EzdSgt7)OLtGJI3??IMdJu$fO}<2Ne>W
z`KC@isC3X)l^+gHb5GAP`ADU~I3fBG2b&o>m^xg4qY54FQr`_XK8JT`cqAbaFXQf2
z2F)8?z~8lWq`^dON1;P(0dF%(2t30cwG%u{P{Pg^oH%s>@WQ)yCAuU-=KG3*d}s_f
zrmQs{8i|vHQ-~=r7diW!qj^A^wuJ7lX^cVFpI3Ix_dTnug`h*rQr~yl|CHWyW##iX
z@9$nX`J}9INxRhdwsG0_q;=n#SyNgz-}epEYGoHpa+UagT-ha`m3Hoy&Pp5lnWhRc
zcGl5pv~S2%2mGpoh{4fIhR>wUjV*FoQTtlqDquMTbA{Kqkt4G&{K9=8=KyP(8m4i5
zR|6h!{T~`0-+Zs+4--GMv(*6Fd-@yUJM3r+QqL_^TQrP@BRC6;5ibfHDwq#oVooN=
z%3w)i%Q4$}#7Z_2qtU52Y#eSFiZ++DI&WNS^206KZZmN_w(!`-^L|I+fT|)+Y<S~R
zp=GjVyTXXfR2)wy%{WP40*->OzDh1V61r5mCD_b%{d`?~lsZ%onEe>iJ06X<>cMC3
ze`aC!(ZKTdOvhoN?r^5!NXquCqLPLG%A+gG2Qr;Ugt{Y{ilZr8&R(%#6YLF(SD)BB
za@E_G>=4LF4T3dX6a0w4^Zh(zKCSFpHzEjB^cq*{9C*Jqjf;ncJ!hW=22-R|2hL{g
zE}?c;rgnF>c0i~dNS)6$^kf^(3Jqs-o&a=}bDk=&J>i0*-v};e9nKel=5*`9l|G^M
zh){hbHJHPD+o6?<LfcUxaP;1}RaD9*RPSV8ma2rnE(j1cb}r4P8xA0YoV#K1-14Ec
z`)Jy7l);eb&SM<xG|2D8An^Oh*$-zFj5PHjKig3L2;GPo0yWuLtWJ>eZ$-C~wHlqW
zm_p)}z9Jr$yp3@RtrHc+%h<wdfCW0kBcrmseh%eI`esS9L=BXT878f)?9wx^gCvEM
z{!`Kb*POIM2DgC9hZs!9Ku&2XNXfzrQd%~pv>=Vz3Z54Kg7>)Yj0QAB>KXR1`Xi1)
zhgP+dZ~|jxI+C`6KC=|`nN{jDY#tWb=fuWfWb5?y4XLaJsT}!Dx0rS#<xseZGsBOt
zS2O3H+yzY%C3mHEG>*1{+?}72J92m~cX!e;=bAK-OXVb8fC9k6oG0m)eb8l7Ap;->
zoi-27qS&70I8tv*UvQ#iU!d_K>86k_9Q4m*2%95qEtWrLCyQ8f6`WzttAs&ItRm?p
zv;mqd<d!klM=sWL$H*-#2aHBY3l5p>go1LAh-G;?nRG;fD6`DPgxwcOJU7hfj){>Q
z;o!_P5`z;9`y@Dvsu@y73~3C)fG-)33y#2I2;@gc$uuvMjt;*z8lB<7vMjB_EQnKf
z2^j4y%#B%_k%>7$rY#%Ki%^pl8p#@C2Slw4jg%gSB~vL(Qko{)EQfn~JA&~krPSLI
z5Dl+|)q3yR`5Hu^Wn3JT)oJz1(D};)L0B>!Pr!1|?T(<d0tX?z8Hd#zp6jG$Qoj^8
zgL-(UniJc(W_NC^t3<K976$E><i%l}CwT1+YfrxJvqPKG?AWm>M)6#>suSDI+q4Xu
znbilk2WJhzdPqjMDReU?lNv<-Dglx_ty)U=EcECl5}W*m<fgl4%al+l0~RQ$&l~vj
zgg*@c3Z<Q!_H5|C`!{dC7bx1sMVTL>FxoPu&GR_<j=>R2<PEk!!nd?ANEQPworEz>
zRE?drWJ%z%4PkObTR}#4=9fP(!<-N&m&QbzA7TY&3|U$NO)?70H!^)g^w40*kR(wY
zeH2lZC(e^XB#T3^ucRccdoJR}yyJwc(Y!78D9D36rwLz?1(ButZiPH-6@MHnSbPZ%
z4%<x-Ct7sjNV!}OnJn2F$_pT3k~NfF*xvEE7V>@Roo591nfFGXxX(jEN)lXcfdCXm
zI}Z*jNv3WW9NV$WFPvSfU8#cz7mNou+hIJw>4K1&74)3yg;$ma!DRO|F7^oSZA&P3
z&q~J=_X(+7Z0Z!8b~P`KE_J2b_OFz$L{~nab_~k(IYIR)OxyXyeRAuxv6WETaZXNq
z5@cLw)xr?!xHR&_v157g@e!f-BFwft>3wO9+M9E{1PrL{01O{2*cV?}rc&E%f(6D`
z7MxUa&7$^+8*+ckH=k_VCwJ9eIs1LczNT$y2&PJ5mNZwheQ8ptIh3|k<?Q~2p(pn3
zxiUyJKPhWYJC3AVk7VGMHRtMge*f|hhTk0~gDx(?(}m3TxIWbA8h|B{oKoX%0mzQC
zdf^LCoSkIGx9>^WwzT6=y5&#?ZW(Ok^nO3_gV}dyb8MVEJCMUZ%0a@jAjG>1;=;(O
zVHa{lY#>jo6%epIE>s)`BIs>PcMb^Nfs}pKUXzBkA^X0Sz9;s>)CcwV&Zo}g?6v9o
z{epe}%Ec%4BRPj}p+|t|@!4E$>(W7?b`J(M7i@<>TCTcn>GMMMK?q0Z8h54lo);R=
zL;6-|xI$9a%x3WR1L-3#3EN*vLs$ZGZcRB?0P=>;npIal<O`h*2y{1nXx2NM(3$S8
z53L4g*P7mBwecq~J3yx(f|FuSfh|O$On{Uovw8|53`Qjyr13(hpiiWnk=YeYh|LdK
z3%+a0+gyN=8SLlMlVnF^vXCj^YcK#~l1^B27Wni;^JYhN;stMdl6oBH(HMGgG}lbn
zC4ZsIurC`-#{dHZ{wSAA2W)n<-n^8)itO49e34Za_THUD&;fl9J25P}GJ_|g{nF`^
zgQqWqhWgG8h>b6uzI6KhP-tN2`1$^U7eklNhc3K${`kP9OQ(lUhK`>fI&u0Wzl&Du
z5S8PQ7WWYfxJC{e8LL`?SSH&7mT?6pmk3KI&_dy-lv-@s3#jI#`9P~Et#H!X#@G&p
zi=wm`mQ#bCTL;^U9-@jx{X<#;e*@i(CD5g*sFbXJWXfBii%{E=t=%ou?k3O%^xK=C
zHFRRyJo6t+AA)@G1!g%r-LhAx+y}EvmCdTRv71Ds8wb;t;A&NEwyIO8>Rhp=t2#4P
z$5QT9Qkfu~2TUT;TnMyd%FzF9hu55%z=3s*Ibg%=!Qsdg#GGM3zkwiZKz#|c*MA4j
zr-C#QeT#v#KB?aT()t3BmVg$MK?Z4nKY+6s0Bawq1{@hB$W%bDf~}=Ts@Yrst6@k2
zRtBOv(Im}Q{&&#|Sfl0$ex~5(!{i$yhe28$eK$*xM)1X7Cuf|T2ss2lqJ=1jgsjHt
zP$vV51S9n{@De-`o+z=WV`Mg4-oxXwd$t6aPfYjk2ztUOk5Q|C3FukHrqG{l+AB2e
zecYCA+M8(_6v_rumS=ANqGj3jwBUSem1xhT%A||)8-z_%xcF~SCBOyfjf^76D0`fi
z4lJ{7EHv857I1`gqq^60jDQ9Kj2rmITPGo?FbVP*ctxcwUK#Sxv2U&d!W@J*aGX@f
z{mWX;IH%`KFcSmACv+IYVG{Yl<SObxODAV$dD!zuN|?mJ(9wf~H5p>Jj(iINDkgor
z;MgK@b0v`?2w&0x<W-rLu8!cVLD(-GpW+G>F#B-r#Q`-#f(W(ef~{oZ|3GjsJb7Ib
z)num{x+Nlb8+I~r@Q4K?lO$aLYfjMWl;Mf}#Q9(=BS#^FOB4a;nIMQlIPXZ6Q*waH
zBLpFEK<e4k-Q7*d_CEX;)bK@SJ9|?l6Ei51Rj>n9pjw`13Sm<FM<6(Nxg*%$Mv@|7
zKD@DkRKLrG5?qPAz}?11P|W_qnCHUL;8-LIQ&!hTCT|3<!H#FJbzgT|K3U}M5!lFo
z0ke@I{ImWmlPa-a?kTAoBJ&u@4;C@D>=-iJdR6Jt#MBg-BjpoJs^xm*R(KKz5ZU%*
zybEjz$BQ%2T8xF6?JV5NLZ(V3J6a}b0hp#4e-jR<c3=@;8ejxP+c*qmDt_7yBq77+
zjMTI3LIQ()tl6!%i_KC0iYEMjftF#y*J_}nW&A48#EON6MdQPEXrI9(pR;8C#i!1?
zg>64_)~(`G$-N;8b<a0_^)t^(35i;1SSe3~0#|x8?Klct$6E;mtiqqN!S4$$!Y*XT
za+OeVaAibLh;-Vo9(h(8NY|Xql%7gEP9dVF3g{)<8bn!mPHOUojRLj(<u?jx3y?7y
zJx9j(XqqE$Ol|T3BVpK&foMUzE@=dv1fuS2@-vfna$Fd{+Y}e^=n4*8)=>~2i-B==
zLY;DjD*+phyt=hCB}gZfgV|cPFi0_E5mT7ORkNWpkbHd!gVH=)iymo|A$-V%n2Au)
zQxKcT`C*AVPTdI(0&P^xYONeyG4VD_pvm^8If~)GNy`ZC!q}XdXr?<Nz;zR?JT96c
zAr)pwKaLx8ir8|iWEp^l6H@C5UL5UYpLX8c9N!J3Ax`9TKrbYmHy}IJP1))lLiLVx
z_c5XRc)I^3q53KzAtp`JHsCQiKyJfMp>$`;oGTBe8%ez{Wu^NUN`7PLzHiyQQvWUl
zPF73(uoWtl_ENN}H0+s{?^dJD`w+ohk#d50(X&rZK<^BUB^I<+A}07Z$$5$v;EPa`
zPTY}1$p0f6!M9R>calRaPD!Gi5C+jSb&X8F^28hC_fQ1d8To_cV?+wVUHKd25N^Rw
zk?#aKcgXo?<PaxBs#ibx>M4wz7Fq$m4bSVEoY4ujP2+(DZgJPc$WJuzuIn`>7Yjtk
z$-d&BZJLhm4~=HycDD5kWw>MoFGyu`uA9kMsx=;68iVGM@o0Mg#dZ2!GeJpa$p^vX
z(UtypCzk7kwm$j*#hDi43))p^$Qa3kT)dTQX6ChMD*S6!=7lZLiZwg)LT|ES-O0Q_
z#@e=j=)S5o+E@nUkuzXki>9h(&C0wsO=V!s&b$utI+@p{X>49+>DQ7vwCX4JYGY8&
zfqWK?uWHRoKIrf?EcR1dSrq8;IM<!@;Rx#t2ep9^A=Vr8M%_`iZf4#<y|HR(bWMYw
z<r((#xNM!?)=p^4joxK^!q3X+NA$y=PzG%j9`#WW*mbZ8fgt6t{Rl%zCkzHHoz>{-
z56JF74r$l~sU8dDeSjcshyj@;#0Q&`#g}B0bYTlF+b~1o#|mj4RiK{TA|?q2%lA*=
z`V5$Vn8H36=SNW9h83Ftm7(^3%4%3#Y?CXrK?iPVu@fx}pXMcO^+4Wf@!IqhlLdjj
zbUkcRk%84>Ddf{<VMa)yLke7#QuKg8G;KtG2UCU~THS|u+yaQ50<Zjj@_hgwxUo0!
z15*UJ^eaENMZ?5YWD>`N2NXMn*pejywzkFje@mh2Lh#&vFNvVgMQ+fqe=RZFBH{VZ
z4~is)qDE|?mGT<$hR8xi?SohDzp}V@sV`H}MLYGz_tl2x@3noWE!(h9XxO(>y|O*s
zFpzTOiiWPbOWwSF@AiChF)H|WX572dmR$@~hhSeJe3LL3(FW+4l5U;bU>}lto<Ron
z9U=EcN4*d-fTkCXQwSM!tSdIo!~x&*C>#{V{V`$R*2AQ%zIX}BXisW6NNayWOw|et
zi%9|vh5R|W1|(8|1E>YG5}F@)5Ko!QQUG%kIC@AAI4MLcq5i_dnZBhX!3V&ec{A*R
zRPwus!p8^>37SN!a%obWu3M6jO8yP{d>;<>e+IHN3V=!iS^lf^kv0+eJ}!>I5j#2J
zawm30mlPxctymfAyV8I9eCS-?%b`o>uMG8{I6XKJx^#MY07@<l&c9AM60q}clEX@8
zpnjOjBSN_-3udX6RfLlA0cJoFsZGR*s04gpd8AWu37v|iYRT~wv7}F&9dg`mnjnvm
zFHi}G##{HvQ>1x2nVQZvUlf`zW|}Vvmd2E0KKAFkk1lK{qYF#Er&T?VFQ?o;elCRe
zk*aJ(yHL@d^EN>L8C>dIRU1@by&d30dtFqz9O0R-TmEWhUkzT@hi*riEoEK{Xgt1@
zOWGCw618r#Z9*_441u8)NAaEi8g)DAX!1mm=O5DRCY0bS6h=-n^~E@%y{=i)nT;e5
ztY5ygY!O=buW9hUG76H8v3ISC>8e@-M&BybT8;Qc>&mMab}i}`_6cQ8Yi0_<h8<Wq
zPL?AAFx<X#`La;He~l7h`?Li<vco5}gNhzSsp_LZ|N0*xXydh3VZ9`EJ1k#n1r=1I
zx_{wvtAaONb5-!B#jYk@cx8UwF%0{5kj1rbib3&hvc#<kms=TdrL8^ekmEV!UD6SD
zVHb6WJ+x<Hr*tA-2_$h#Id`}WUrNVJ>|!ks$|+~pRaIcVmWY+olAXUVQI;Q^;-%da
zy`Vno?#UsD5ysR{c~3D5RLa^0`6G4Z!@gQ<w<Cg=ykeq$`XR`vk4C2N;OuIZ8B=jy
ztdLM|95@&SAtVteu-34pf}y1KsFCPo-$6iNrwmz)P%Ke+ORB`+2BAWaw4z{UgIh&6
zYAO@ANFQ}=j(dTCwG(AyXA1<$46|gHB@;M|1LZS!W6s->_3jqDyWhJC{Yj6F@i!R6
z(fwaIMJ4zJ^f|*~<g4RsAkl^-|AvdeRMPt&qr>PTu%s^jB9`v_Sg5{F8k7ljNYv<%
z)>O6_972n48mfUX5bM>=qJTPSysm}Sc^Q0Q0<M5kxs{w~G5heG9kQc(x~Q<Iyd7?=
zEGBQq8Lq2Re=vq?<|~qBNNp=hP5?Y?n_wS|=^(3ZVY1p5(BcfV^d~@@lb(C9{Qk8z
zY==y84@Q7#0^nhnX)(40^0dj4;M)*RECwmc26w`@;g!8WIKxC!6~D}s+#}V9Eo#&P
zWhy&zvqL6PQirl~Hi`{F4{C=~F0%z8WN!EQ>@^b<ebbX5)jjqkoyy20P0Dmbxos%d
zg^P=7)Oao>9!hn;=^52C^){DmLe~x93rEro6xE{`UPUe*^rwE#12GQNntC*8RpsEJ
znkB1i*;JoX_OUdOlXsAvd258og`o)UZ`4gE5CD@=WWg!KOnsST{FGV9qUA#3$m{qK
z0Gz}sVXD=oQZCYRA*(;qKGWuAONGR+VH^;g_dz9)_$Xps2nM>McZijPIVoLyEHg?%
zBvQfCUcgV2!xo!GDwW|XHxMS4hM<-OJ5>d#rQ<L=|Nbu&#To{IjP7Cyx0Omb$$v$8
z(A4L@OU`e@!8Mg^MW9}giE>g)2<_l46r)70A4nDw9XBpo$f_05FC>FwKc!j{Iwd-l
zb&o#AaS<!`8Z)-fFCt2upk6^?)L&Ub^LLS45lSw)3O?7~muMaQ4wC)dUCoCspa&35
zeyj3fWwx?gsO-*E?#x#17b^F!G-oRN!2PVO$yOc~Di5zrWGYXm&O9rt`>tWxwv>Dt
zJoH}E)3Wnv$N5!fN9yvMpSky$tg}O)|NEEjz{xsK3eJ<TUsV}=tNLN};>$}sa!=cL
zrVhaQ@xEi3;PKzHEgKe_mUO>WwPF*3$5SWgVXUg={XqT0lR{t*?(LXAx$v1K8+f`k
z;0#qlUA3lbDfT3A2v(4)Y#)N-e0bgh@la<8-3lTz-~&yI7ayKo9$&fn?hVF){~O}K
z1LdeW4D`wBgZycg4d~MjTKLmd+XYMeYUTEH`%$6tg_P^hPm%GXO52Z5y|^-y>d)u<
zXxGxrI|r8eA2|-Z2jzN=)r%dX(groB{l~PAJD={mfNf)!?Z^8ryuE*E*Rmls1O&&p
zSiWdnIFNBPr}tg>34Lc}b_tdpKzKZ`m>>N3C!L!5ekd6^P_2)DQi?o3UN<2o6N&g?
zxqZN6_~DW50~LmUv#(>I%J4t+mJQUIMB+8FITRPYh44(m>hhL^kyant2<Ux%6;7e}
zc%C&;^i-^F6#qYsr!r%(jmg_3uoE!c@`n|pC@(e=OG{pCzKDLvn|k1BHHBISTRCWf
z7R}d4eLJk`di($p_!T%Cbv-H=o`F6eqg%-1GHZ8s$Ck*OgqUnjkfd3873D&j72+Y~
z&+2-!b%%tyLn~J^bpy}p_hjpj2=zx+ZfELGKJ#~G{ksMK?&a$l|B+|a-P!7WLiN5C
zU#7ZmW4e#*Cc<MB0Rr#}AvXgHe7F!DYf=HE$lE8%*J#x9Hl1+4Lb}_QuUH>w?iJt6
zikzY63|qu4EQJ+?P12~_D(7N2s9Cxn`Rm%RTDD9_$k(Qa%cq0(S^l&<rb}6I4U}dK
zl!4bBbC6@$@XaEB)8m`DK=YbpC9u(Mev+pA$-5vnn88J3oAa@+lXi+_2pa?j2YbrK
zE2IgmnK(Py*!iX&Lt!jRe9$J;!N?12jHyUFP<)ld0R0d(u7YL2jK8)RaUrRau;z4=
zbagD9sy96aarF00#jwR<xBq~MLMP2l4?<NuFaPPD0mlz{LBo~V<;s`qvPuLylCVjS
zSv*2>RTax<vx`>72`9+s34`KEuZWp1l@z}Uw_lNw&hp%E>Ev>Qa#ZOhVs+^BxxSMF
zp$mh3#|KWGACx3U&JGNPPWOXj{}{1FlS~KkY?jjC&!KeDQMhRH|C;hA3W&<Zzbh+Y
zh=Dv8AJQYykx_QbPH39lg+6=fQx+N-PnnqpW&(z;s+j&snSO&7qpzbfKoN2kHQ9<5
zp`s<{0kNX<>5gOR%H!A|y{^;=Y<&=RYku0W`>A_RuCXoKctB`8u(B`H*e`g3t2MaY
zZKqJPb9rB;=Fq$?*Vsa4&a#btLStVpxIGK&YQgSYeS5Zkr%=B$SGye>dDAiNy2j8{
zn)U=CXkXEtF6&P3IxdtQPdkpYvzRL4gz9N%L18oFFW_M_!}Mu0LxFatDp>4%RRHbx
z%*77EMdyePbCOWcO^;fdev7<_Q?u#GYg^43@|QOQ&J84I0yu|G9$}5(zWtD(CV=!3
z7)vOqOt@nQZidz}9GG}J09%RvRupV43~c$|p*$J0nb>*-JVKfG#uM&X0I#&%2I<)d
zuu@(AGXv~anf^8bY!nqK1lT3>)1LlJ#X#!Bs=qet-y!&SEL$@E{ZOTZwaonw_shaa
zp2~D}N4ENaPz^4YF5pTH0#yt)y>;i|oowAPq3+n@Lz%h@FirP<`HttnQC@Mdvrcg%
z(MaNsXp)E_qP?K)64{>}Z!FS!qEhaqV@fymDWktN(P-L3gjKN3AOwmXtqW3*6aK;f
z0Xg{${#Sbax8!_>ocG|w2^3#_l}05PeBlL&?pek#m5uAcZ0FCleB7gcUPj*kz^I>?
z&?*C96XhSTfrAU|wkwIuA_T6ak6b1f!lAyN`NV@e_wQtVJp%ndo9;aW7p7?qZfn2x
z`@8;DL%(YcR{4#7Kk{pwwKz;Ld$>CU-;P{hA8x#Nx_~eh|FGt?6Z&J9<tIhwD9o1u
zjHSg;bdbdbb;p(W7Bo&;SLl7+gU;M^kvj~w&_(V<dC1Rh?21K@8%Z^U?*JX32r@HK
z1W^I|Nndn-1xtglQsvB#y8@wKxJ9YVrU}1&i&BYYyy*cYsd%ZzVx^MeTpqbL^Xy<<
z7vjUj?k8@&+{+svjsFvZO|~Wx<cfA?Dn*(qjFqj(xjm(LKcXl$8Xjq=3ZQ)vbyxRD
z#SjahMS|J=p8(6BT)Tfwa6ONlv3>xWyw&%w3KfTPj!K9r!f3MB1`!pT#!;EI*9-P~
zNoh<W?H>}F4?#(*vN2n^L#W)b>{$7n(0wLTc{X(hX_&MMPMxmmtg}&YHZI<N;_S-(
z3~5*0m6$1P%WLy)rrFn{s{C(JPcgzhfgb;>^vb9oL=)f%TKL~5Uyyu+`SDfc(4NO{
zBPT;&o5{yk9_mB>C-k}wCyqD8n&ofO7jn*1Km8|sfHliCoxx~JH|)W74ZgXf$ymSY
zDO-clNxI0iv=SDi#uloDl5J~d3bIJ_e$&E1p{!-iN<k3B0KI?Fy8zS1V2o1`7~|f*
zaguLPYX@7ttZvPSUu0O{x};xv32J)5-Ze7?Sv0ni`LeXPJzdf+SUc9O6j-$riAuMv
z8S$$my0l~wf<0?y3bJVYooiO|fu&G7-yvA**6s8<t}QWEt@_&6jQB-LFz(IdLn*a?
zYlZJa4IKUi^$v9e2-XD4upTIJyoe$eAH`SoQ8xDVQ$Vyg@+5|F+8}<!buEaY5Fz}Q
zZWyPau!*j?jA+4k2XT&WkNTD&e>=yp8T<!W?*Pxh#xZLhWETWhHA)MthTx`jt_=1%
z%E5!EAd4Z4ui$;%1uG#wa3MTlH&?>a8DP5uHbA&agpidEPq+kmRU@oaj#;M0B)c8u
za%ctQ18VT@<!ZsZ@PvI~|HMwU&8mlh4>9Wyvr0}`jrSnl1E9cYxDKwqcuKBei}1#9
zjZ`D9X^R-FWpZgnYXz$&+aRS-%QbJ2gJ+9yrO#SW|2nQU91PdPWNGm-*fLG+=R8~q
z+T4aT4d|&x@S(QD-vqyZ;*8o=s%K(Q^{O7EX-AqC#uaJ>>es25T{|(wA0L^Ck3<L0
z&Gy-7n^*7Oj5B#Ktc9JuoiRvOMHp(*N%xcUxc6GNLkA(xTZ4n=Bx$hAqUGj|Tg=eD
z=(vu90@hvj1~~uUY4ZO&IJ0(k2>}xn>td1%v)zoAqR?N#w87O0T@sRp)nC4aIs~bP
zkR%P?HM{L+NzpZ1UM$+Id!tN!SDRt>2(zl!RV=zx5BBA`I&~@a`9;%1;XOP$-Zk6&
zvz7lz@d~I?BnVnM1&us(Dd}F(g&!ETjbV`H8;iUqZKx$QI3s|Up$+oTguBq+dIAo(
zPsIggRMH*~wGEPN=Jel|unOe5`QcP`4a5dspv2CT1v!&~o!~}Vh#N2*p@}NUEXUB1
zg(u@kvu)==sFzhKAsfubiJ+3<&p~Kps?xRS4qF^ZLLyG+0zZS)5KYkI>i2x}H<IJZ
z=v>PV$>UQ|h!=*?eY4vn#Gqi#FsYYK(SAak+bOjBu4dI<mbKRk_S%KpPjSs_Ma{y<
z!lgxBx~wtnXv}@m$M;?SbY*|WHITLpu<Zi6h#}-D+HXapB>lwHPbfq^$Pyt&rOtjG
zmDq%E!ZslxoC>E_y9L@;48;VRSQIhc0`)X7&2Ozz5(Lz>#SXQEE+#c06{UsDi6*3?
zzoak`A|!)73Af@?axF&kfv9~eI-m5F3v|j8bhKv=%7c^@kW`iIqkPe5Kt+?wM!9w+
zJV8q^dytCoo=uO$;!DuknLP?B&o@Ea{1Z}0EWrrfbGl`&zYVL7lhw#aQ<M-^EFEJs
zMvyL1r_?A3%aovYnux)QmZ^lYg8SOE`FlyhB30RxFpez~_mEEQ!vxr+(u2BhSN!>3
zgm&cL6kpP~p$yf4_9J^iulv;4`iXAEpa121(Gy+ycg0ui#ze#<jC9j8(Yq-CugYSB
zHmc<(_A2pUbHKqlRf3^8u|NN%XzR_7Tm`+RvRUtdAvrW#lix?>DNM^0AHF#g;bDuT
z9eK|-Oh=}}q%6w>`=e2)6(A1j39HN5Y^AhYDBBnedBcPXX;;Uw(bA&8ze-LL>zwFh
zI~PYH5?Jp<BTI^C|0k`ZY)LU=K^YH^a0vW7C1Zj1=+t#6>BhnL3tvYlp0%T3(n44R
zA#JtnxW*H$g#QdVB(^P<Jl8%c$4eBW1P*i#rue8Ne9er&!vsFFr;n{2io@fgOKFp&
z8ZTW9^#!WxH0421A(j={rTGf_yo;Q_px89Q`EQUz=n($_)vhcNf$q{2&xO=3!JX19
zkQpYAi;lva`Tv?y5(!!Ku+E6*S;a7}!iXtqC-SU`e?>)8ABrBe2xYDQOZv8mZ*f|r
z3DcrSX1`KDDpw2@ZZ9FQ<}eDOf1o{u&SN-OKC?LQnFWjgDO6%h0@;!_p`<NavP&r0
zl``QbapkU{6GGqwPJTajLj|rc-O!hT>ju%IA?qWe2X6oI22zGM>`<Le8J=2dbAeX+
zt%T;TC-7@u$hunvck5E$6S6gRDZS%T2ClpF{n~DDQ%UQttSjdYWW7+f*#42#SZAZe
z)gQU&{-ZJJl7MvU0l|Cl_b)%SA6xa*EqW#TY<ky#P=Dg_7lrz(uq+;QLE=4I+9;GZ
zrknN%rF++m2!moQ&Tu8c#q#e}f2TTIzgMW=yW$q=PeHwy-R=O2ansJ_W?U(fJ~RlI
z3J*T3sLS~q9}TW}ANw*Lr@=+Vf!pu~aaR4!sI_#l1oP0<Ke@_n;6g8&maLhwooE7X
z1~R<iK)Hx%-}c15jmUe49v+fzSz7M@!I^i@WP8sFy=ODkgQ@;E2A_Fr7RDB1%a=0V
z{VDsi;ErWew!2U0?t8ELY4A$Q@FV$h3H~ZZSKX%JXY^*;V%7=7w#KUp1dx9=A!XfN
z(n-|b0T%WpX8}e9st>j|c`*mQM~|=S){5(*^^a5;kxQC9cZV}8iz6^G%g7+$j~x*R
za4(SH6f;%<3!)KX3KXc1Fn%)G-zBXuX{~}@)i~BM+zr4%AuM<e)_B#tB+O0GC1jaO
zLFy#JMSs_zTE>iBP@XsnK(>MwMi`mk=vB=O7AOid#Gcn-lX%*}R!PMH+F@tIcW6<7
z6^`o=*nm)ZLGq#sX6Ko3@ksQu5<1vN*4Iz7lRGZCWBr26Cb^)}F?gdWP)4KEeO_;d
z@rs9d11$_c1t4Jk{R8}L@LTY4R_Z#oCqVgYCd$DqM{s76r&|<8U=9NZ7*RhxHO-8&
zGyB}4t1k|@Ho8PWQvNbX>lHyF%b%6X%mmY5N`&1yNg56p5O5)-?y|}ZtNLuu^Z4(l
zB-sv>Djq|jpz{VaRl&Ea9#*BB_N_E!Dvv_t*H`mk_WtZ**K$+Fw-+mty)q55STx;y
zAXnyNZ<wO(xr%MMy3UV``f?Y$Q-(-r{<OXESy|`uk@p-=%dVsySKfC)yX$Di^+MY6
z0z;TZJL`2xwn336EI3UPSZ+A%5E&KAtY-bM;LxO0^tPB*7BsaaO>`ocN>+nl&l{s7
zJ-|2Q>7|6wZ!y6;1%FkhR#AK#I4Z=kjIt0|6Y;lE0@ZHQ1D-H#C!3!9ZT5u|AA(!W
z5dShEFOw>+WrR4EX@oSg)ERUffVE*d=cgg=9+--4p6IeB<>p{DKg`nUkq93r^-gIf
zY&F$`63;2#MXLo?m;AKBR9EvGW%a`(xD$Mp0VZznz-@~>BM?k8cBTZjuNKVY=NEzk
z@Cdd(H<ht4^yP~$$f)R&Fa(onVeT@MUyCa#^WCOaU7Fx*#?#DZQxWDE{sI0rBP@fH
zyy_ZWAQz@;b@KlTqsu>rqtLd=`aVk|O=bEnT9iJOW;W4jX=dY*CU?1lylj}!&BbQ4
zBo9{@?=(&0-$0gZ8asURw{WIi?0RDF&Xv_J+!DwbNAqfBQ+nHOp>j{kg&nt~V*YZr
zqEo2o%vS6ZD)wb64rDwBvz|V|)0Z-S2;*n%Fk<GneQ1LZvR77S_@qg2H03=02lo5+
zg@KHxA=i8mx^B*Ge?xakfr?twzGl~0D<F#Ex53<iCjip|AOFOSH>SDrhlaMko{i>h
zsUz4{`^WHXz16;hE~N*y5p~!=w<2|@QbO!RET@rDN-oZwN>0%7oG2DUC4kWR_e+og
z`4Tif@6wsosH_czw!>h%3`Ql%vK6i$kvDB7<-z|C$UT39D3b-8Ek75D$4Q@>QG?_y
zhh1L-^&qypyo-u%N`;Mwi8j(5D~h5J+bN2~eNIED=&m8rqJFMjqaevRf!o(m8GxHf
z<FBPn0vrOiN963jw7rhD2XElP#QllInv8b`?ryBx_SWpf+4S}oGIf1vOCVQSC+#)8
znabTM*Q&!u6c<lZ+S3gKFKG{C1Ps;&K$N3l-AX>4&e;x@ji)(R0wXKifJo-*cf+W}
zCef!2XdF>47;MeM^FR|}mNj8x^9bMwNEN5O1^x+<#BOQ%imgPVIiq4amrMm5LQY7j
zzXit08{0suKw9{=v(!a)m<_3!aPu247$7DN2r<D*ErSuowhLR2;`|>0Z19EPRKh)e
zhkT5wtmE}4ga4Rf6krTcsgkH_5eSvaV!JRixe0yPRty&?I1ozc&+Oh}OAaBE8}W|k
z65b`CATT9a5?s`|4!z1?>hvnu?ls2+&+%M&VDXGl-nH6tb}^A{IV;frEANfLnYTeb
z#M2~2eIiGFvSn15&Bk?yRY6>uRG=hoF96UD8izC|8Q$<i1_l3QI02a;XZLCp-SIc9
zOtP*yRv_7W&Q{n1TUS)-1}yLZZXolxao%I)_(uYf|47bH$$4%^vJ%*^(2YrXFr*6E
ztj}#m1)VzkNt;nYyk93km}G!}v#PYuv<eli*@|64#jZ@nZrr4r^&ApBhf+oycNdR9
zQ!wk>E%<gXhcmuIkSOrhFLvTWMp`u>uG<IE3|cYhGTiNgZ#xdR3+?HagAn47FN<Z{
z3_~h6On(}9HvNf{`Lo!@rp+ae>tim#Kql;c=)k4dVYvYP1X}?V_!*+v3{!;&mj@0~
z0!7h2l}1i#g!!{vQa!OT^N2+5G%}K?_KjZTDH&P<A-JfLAWT~3&w<c@D9qQYY->`!
zZ+sSu3|S@yeV$ehTn)h(8EkP8O%f4D5&`;uq{ResmKxp;M>H}69lREPMJ9!9HYWO5
zQ84fG_>+X}{0V^`L7HORs2~ENL>pv`h~O1x@+%S+l*fc5(o85{&}_r=OA^bvAkJF^
zbidDlE?04sP@AK$Eg@8#e%uTvW&5$aGFMiSI*lFWAjH9I@LLbF>NS7nZ%Cb5b^8|f
zJ%MIWYj@hSjSPPIh1#9-c1W^i8*!h+p_R{O8c#!1E$7+xs3N`NXr}E2!Se#erIZ<@
zd_GOCye_?W5c1<qhhZ6xNxEUPENL#tK=5o^tJG9BlJ*{K5Hv9m=D$Z>Wu2aiN7x;6
zVmTR8z;T+35W`NsB}8;e%e6!*i*L|MQnx*_2@8};|0NxiR6)EihVCeuHP9477t%wf
zE&w?&qORrX0vF)FM6y$mTdE#kj&RyCH7o`rpoq?Kb~6?@F{o#}Kz2h~RM?H0v$C>V
zAq@@00lLBaU(pEeLHR%`JQ_zZZEuJER_ffUKk%0AA#B!Fu>Zka732!gX;6-=w87K@
zu*@1P4^rP%qDmVUe`*t3{ITa#Uli|yqK89hU?DepXkAdQ5YX`-Q3nvgQn?*~3WXjm
z(PQHqxl}GiR7UzZD_h<yZ2iU<e?py5ha%Al7EP%)Thc6)G%qH;m;6q0`ISt`agY#I
zgA$_ownP^#-r|>$O`!q+na74kSYDb5ttz^9felei%BfI)44V+{NuA<HKyh}&Z$zeL
z4rUzhCh4??-swRNL<bC8b0N8=VhN;S!SiHHGBw@<#N%t^UK{~8Z$mHg4frx!`}`VE
znDL)d$91rddsfo0*t>jddHiX~QPy2qcY^?ni+h)Qv%5|UyH2Ow4H@^DwB^k6TLw)X
z1}+ESDeSyr)C00o0O^kZx38;-ZQ_W+GaIjyb)1AaiT~pmoF6P2Q<4w@N>f4ugc1^|
zN_**#8jL|mQ9x_bmMCg_EWJ<;73rx)ssu-l;nW|g5{Djk#i6Thtyn6(R%^T{m#XUb
zW;QV-5k9;(zw7b(&6_v#-n@rPYnRk33RttZ|0lNV#l9l0cD8V1>zoa7YSU7!3&|g@
zNVk;s@(ixNgI@8=LpeJkH^DC)i(s~RO7<;wTCbE60PRnqJ#F0zNJjy33yZb}o#Yan
zhFsHerhe^HY{x}8B+W2>E3RbX<bbrOq=*oA9P|@-kT4JOqyk|ujhhAZzoFG$)J$60
zdJDV$r;rITf>|7fgH0=uu_7bJ=(G_&XT`F{p_4{*5(a)`!sqi$_+DDaF%0>qkVZ|+
zVc?w~Z+_}g5X-KShiF_czmJvP-2}C})l>QfL3|g4+P03{E4Nm*jkT27*=%;F!PY-$
ziZ!yJ!?oYVoANz+3I;oT9U%ds2*PUz9Tc}-qfT};dWNXKIls72EXu32(&Fn)s(XqT
zpp$-8s&j+^m_}u^56}}-L5sDFF4{mTp^FhKdX;LwCh!XZTHy6TN_9{Q%2?=Q2qY;>
z^sBc~il&^P3tfb8`3x1d|AH8}o};=w?Z^J4@enZaq+&bT!G5e7R1kj<M+5r}Uktb<
z0wqBg*=V&SkctJWT4Ty@_~O+Ni}hE6v9%!-C#k_4pH!^bWovZC8a-Rp)MUWb0x`7h
zg6QvWcND*RhChHWSHcfHygvL>=c5zPL|F~qYP@DxQ%><I{)`Q(@A1-#Bk=n0bAg?Y
zc(*#qt!T<=phQKBug#m<{+dcTXQEq8T8Y=FE@_>Hk^{J+g{d~_OoY{d=m=cVdP=>f
z)?ZVRabAZh**YBD06p%k5pwzi^rRzB18_xa`KoYx@z$cLC2A@PoM>F_dw|<!K*q>)
zjj(f)v+<MM8az^M4yoOhj_BR-JL8UuG^B~nn8-C!4#Ay=9!{C5F-N0pfJM9SuHIQK
zU4qE$P+w?HI$}->rCM2_?RN53verhqgQ^;?M3U6nQIW=jW%ZiR)RMJEDr!~K^Sm_u
z;N6GA>*|leM?qtF%7jDJUh-&*s>dS`a)6ztCN)rk4}Bn~ldJL4>HE|7rti<)o7;pV
zAJ4RoXav&54<IWb&<V>fNT14W`D;+A=7r>wTez5)G>KU#4H{u}eUo^PjD<>PM<Oh*
zPG_vPiVGOmZ|Xl&DUrP01ZD^0ouwsR5O5IDX_ks$pqQUUX+lZc1L<6e?D+In>Ln~V
za-IbTO*=bG%avD>t8;DPJ^{XxsqzxV48IB;2-L*w)aQ^W7AzKVaSHimj3p;*s*1Ut
z+DfU!9C$?!#5IT4xD^p~SjI9Rensm~5R~vD?e=j8wy;>&rV6dAo!+ab7$`=DFcu3!
zS8Hcq(M+<iZ4M?DkT%(Vdri|L^;cJaXE`ahN~aTKyCIELiHX@=JD!lkFMyJSY&TxG
z%|p_Wo+hv#z>e?gv>jbcKR~TA1bPYd5$Ff7V|#RhZ$Kif0jh5i^>A3TjO)k+!6xmf
zC|ka9b+MT9E<zV!WscWH1{We6tK9|noR_cWi$mTLEtgoG<Ptj|#Q4j&)>D)mm@Fmq
z!&DW#{=%WS)S;{5i-ZIv7YLy`{}uB_|Bb-61PTO%8&R=NoTdl9Phf~x^oNuZ5vTv7
zR0A~@%f`QyrPzPc=@+@#5XP={NH1Ig9YZvLOd;=F3wFN4F^JtXE(u^lpTQTQJ1z?V
zB2X~r*z)t>20Lc5V;k(~6L$137W#t)%dBft@pI)lBe0M0OqmUrS+>m1mf4x-ih@$~
z94oV_GCRDfs9b@7&y~$!BLE|?Z@YUd<8PGN;0Bxcn~iU<S(D9{*})AqX|hQ$ubw`G
zB`T?2g2{}*VwKkHm(3Mlj}`B>;z_HwuiEH4;D^KI0mWb$Clusa3pULSgb(ydJbGN>
zb8wE0@@gu=qosU}0l6a=RGwN3(QRs%QQG}Dkm3Hd4_pT1&hQ{It1bg_Q!U(IO1ccl
zNwf5rabn)=nKxMbH^-l_`I<k%L+;3G0}mUCK^J>99(F%(?B@}q=cqCIw%K#uWyrbj
z@Gm%z8|h=l*o>LJ;4;cOQ$D5~G<fIle8A)bmap5=x~=vsgegUF19LteUsJx<zSBzM
T#*w#bj0$SasH=)PA^!dkaDsIo

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi4mm_audio.cpython-312.pyc b/model_executor/models/__pycache__/phi4mm_audio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..50ea420951f8ee7ce5a3dda4dcafa928cda8f333
GIT binary patch
literal 49487
zcmeIb3v^q_c_w&4JO~gV0KULCc}ao~P<)7#sFtW#>qWI%YW7QQyXkJj5HBc#0zvf!
zs0SOgyFJc^O6)WhXGT<#Iij*Tr`glJYk7C}SlOMNbh0NiJ)6u9(3FSpb<c*`^i0-!
zcF#hVJoe<wCj0$W_W^*Q)beaLo>^asg}QaC>Q>dQ`s=U%`6uP&Wdg3K<yRxS{#X$H
zf^M|SrbZt87bZctAxMH`iV73_*EC_meMz)r);wXJwM<w{Jl#5BWBE!aO4+Y{)-hRP
z5@yRLoGgbqS~}~RaLqa<9PHi_EuVEyxLMp9^~`!Fyew{uR?JpTRI+$!v}(3`qI$Mw
zqGr}N;hU|UsGY5wsGF^ysGn_^XqauBXq;`DXqs)FXr67EXh9kKL~Ds~Qji>97o@VV
zW9DhCOUCc}W*(ntV>zA3=?V)o$Bi6XY@6~HwR{IFUykzbaED&2pQU<`>fNTi_Wn+m
zvjRCQACt4|swq(QLwfCaphPhriCtAn&qNYoITXdc?QA#}pOcl6SS(;tDvnKuCof!_
zi^LM2mqQmXhGityjm<}+S6`kE$x>K49!i8>2%&5=9K|#53vxIiha$1CbZjm*6*(Vp
zDh)@@#pj~)iSP?^@kk;v7YjvC#3tvYNbI~)hFq7Po0I0FVZ}KX4ohQm@?})4)I1js
z#Xc93Bca%2czjNtJrlYbmX+$~=A((oGvN?keI$_x$EZHV!%|-kzcEh<p{P<d9-f_}
zs$ZTz7Z1%|jMBTB&W^kkj)oGEOJTj}nYr_k#L-A7u2h7i&_#L{496yev!VC}rR;n-
z5uBTviiZ<Q`Fw0@E-D4_N(@irbh%lW)IKf!?ow|a{5od&FJqpE1)AFvC6Z~v>=2&p
zpVT3hge{U8e-`{%@n^$dDgNyEbKtKmY?Yj08)lnLDi4=p)>tGD{=A4+;I9(tRrsq$
zS`F@f_^ZWz9scT()*v-b4KE2(CaLM`<r8*?Ao-<c%$(}nPVu<ZvQ2vHHtFIv>22XM
zsd1rH5Tu5%vv{8W_|z#&J(@k`lG?v+op3D)S4<P-FAITArG_RXCQ?{tvo9>O85PP_
z2twf#kv$S;*}NPm6LFy=?&Yv3g%hDjG%m)&VR2HcQM?$!+8AXyDfe_DaWOtRI2e+z
zL@o`?$>#?{=i-CIJ9mx@?A$xFb0^Dqb~+MQ-yudYN5iw2y<%cIEb8qM&qe1ZFNjf^
z`vYaH)Dii7+<1``L?gq|Q4uRte>=4xq%96nip=sZP;&T6B6#s~aBe;koSY8DV#SI^
zro=<y&b}gfMKm}>6^d$MF&<e6=e?H=6!jq*iYG({IW9-yY^W}Yp(%hFF^+_3F*J$A
zhQ&A+Gg>EwFD9lbdoUixc!thJ!;ft$7AIOXH5HcG=*>~f>HV?!*>iZ=+*E$^9`g$E
zawHlR&xOVLcvuoc=x%;-wcpe#RLx!#4`UigG#4%nN!q8PvDU9Sv`40H^@)*$2q+c8
z{7L97Em8pubo@dD09PtDI<o`>0n{+%wtRTK-*|EnpE>7i#YJfzr6&2Pqw#plrBHOf
z;0xvr0h&2EH;anGth3V*Neaib&mY&u02B7o&~c-wvEVd7^w!4ZeHfAQ#QDmi4$*DS
zyv<#GG?Y?sYAUw1N_+{lj!i_ZHB;C}f>^M$k?<81H=3rdfD2(6lRrrFcWa&eVP2i|
zd2^<-`t6a*L5flTXRX*MA<1(WX+g@N1llqcoeSkJW%ap8&y7-(q4{_S3;*2QT(nP|
z!`4L`Yu;?dLZ;P$Pk2_I$K<0v&_;}$;&kW|*2o-|;bb@-&nrd+rsfm#0CrPyXf_-l
z0MMHX;S-5tn7KJ^I2TGxP6uNEs!!AoAQI85A}dT~vD`3-;T(vN*PKX<;Gv2n@b#sA
z=pw_<W=d{r^|}mzGb+Xt@-|~;<iZ%l0HZKgF$_YVUJt!tE*7RXe6d{)N9Wu7#C8VL
zSR`_Ob}k~dzn)(p&XaTcNK1S!hH+q!=5i!4Ew-PJ&Icp0;8ZMjkiJ-ZejVCJ;4jUY
z3Dfhj3xJqx9&gjFootx_mjNae7GFMLl&0<sv8Nc6aA+2o5}x;omjScF;w-Q*YN-kX
zq`XlO&t0YYGY@ctsVRwoCy6;3JpvLI6({Fq29hV$=H<U~_-B758#RI?d2h(CUK^{O
zMzY!tZNYCdP)07+z{yz5nEgY0_3qPB3L10eNoN%M=J^x*Vo1(k_Jts(PhW*wCIB^t
z=1$`3Ma+UHo7}7^gx%1Hq7rNy@rabaCD5asHAqeUY)fzyD??on#)miubepC*UiL&_
z11%Lpl7u4!Ko?blrm|LF4oA*UCsb5Q|3oygHPCYM%qzzGX$gd6HehH4eaR;SU(^m%
zc!pJ@zBPZPia9$z8((C9fgPfN1kgaLrHnSQ#_As!0Js3s>gXH>E*6$)SAW!U2jpjH
z27&Vap}w45mCynD+I$e=;)TIC1}|ZS=M9@)Rz)udj1C!987(0ILEX&nj<y8*hm3Ti
z8$auGrMA;7Wy7j|e})d_V-E%2Lu-o)r*j&lW1+x@wWBUT;3HQN@J+TcgaGTXO5bef
zs7iZZJFxJu43r8{g0*uYseMrerFjEPpIa-%UbW>Z<)FR!VgkDiPSmkDdXBRT?J@c&
zw!cmvI3A9MC-Y$km8R?RbYyZ`J7dJB=jNl5DAA^`;oiXHa(Zoy3onjF>OE4Yn>La|
z1tY8$(6ZCGux*~UlkHyjm?{opU!wg7xbk!;AzsGnXNW^ylZy@<_U!PbFuo2uIEg)2
z4n`XSfcyYx93d}STz?Z`>#UwDgl4lZTV#l|FRcMHZHU+s-lmTQm>J%v){@gu`nHo7
z=fzO0VB1y48n_207#%63d6~xfTxjwF;k=)vgK~H>6rE%nckU~(qO@A_d#ZJ+z1>I;
zU%5CZC$w&VCKMEnl|h=h6sC_F#<3aj94()c=WwP3U{ul5P?UeVe6U0#A%fC0cbOHQ
zi^Z<6LSZ>hXc~crNQ@l>Cv%WgK3ZD)3*aiiNbq7J7{_4X%plF-bS&f4KbZ*Xi|mQ|
zhx){eSAhjhPIu!7$EwAO!%3J|Yk<$ZnWrEB+0l&cYeYoD&={kQ24T;X=jJc6Q%n3&
z@Sn!kI0&*r?8HgUqhZoJXCM_rc@64e6t(_m=ty=%BP9g#C-abaPz1(-^JG*kmc20d
z0eWp-7etoCiFoY97)O;Ssf%H$|HXM)!TQVdnzyB*gGQJ1ig=rfRil)u8=F$Ol^~+D
zK88l1R2v!C*27NXij5z76)QWa>NV$_2Nh@TjVt%ur`Y&;PAN0aR7#lvv=qCBMk{3o
zimG^M&E(*rN;yl=Hdn=&gKH^OMGzmQ3PY)W03EYXDvd<Fsyd@F`CFx8<8VOf_za6l
z@fLnM#RiJ;yc`>!B)Xk;RU$&9?FZu^r~ZA@4I!aD5w6uIg>PB~;e9p5BqVUhucRqy
zOFELSWW@)j_tn&-5LAief{<|NIjzX+NLD4QlNHI@WZefP@7vWngrHtuqFm2!N|q$e
z$<m}fX+gQNq%&EbbSFJYFUnUYeIJ<L_v+<A;^fz3Tc*AfEvwSX6eGbVP48nI=t6It
zJoZFoTw0l{LclT}u*$Vapk=^5y4;F8xt)S;1c4H{pB|SP&?aD#`{+rzVvS>U%8EUR
zqLD-}C{xvnCzs}eC$gJT9Y9T{2$IHRYP4dZ*{OK*@`Caq6N^Z3Frq7w`V}|Zw;5r9
zN-Jf?eV{?HP_3*3avciFG;ibv3K}VBqM(_A77AF`M2fXhz&hDMF+T;J6m(HQ9hZA3
z2vE>V!43+j-)ubO0mKwXFgOX?W;_^-(>v9@c<awwe>Fasn7uf7F><j#5t6}5=)W@m
z)V{qJo(c~}Bj*OOOH9wj1}{aUvxAI=8w_6wPtIfO;J5L?i_?+av$Mg_ycC%mxOi3G
zjn^%-9Mecnxm4@{?Q47!dE#jVKYdGhxJPifua&0lb@%KIpSJd9sv9%a^_lw4Ol@1H
zuH&K8CYCK(?%A6jdWD98jH@!^s>-<PGOpH)t0m*A&Fp+RQ``Np!qI?i-*7*y7HaSW
zS@3X&n#Cou5-94+xT;y$m~qupX;f2H|FEs1hDtjgb_s2LTU*e^TF{IZw6@)f-i)q2
zwcfIe8rAqoL({Fkn|-U7*Bb_xEZ_7zK&J%7bVadVoQnr9@SjVHg>h<XfeSIlj<IbA
z3G_{B%ttCrEJ_AbTv$stgrrF_C50JvT~P+@GFICHAi)BX7b&L>MYMcajrzJ=v;m$7
zGdkqR$zuadvN7mkNm>DCROq1AOQm#pkyA>qS<A;-tHZCNIdfa9Ly2NJ7fS)j2%cG{
zEMSh9LrWNj!kI;w0-=*C<AJ7lKJ$T6t`HhR1lXx?h>;9|_{XQg4H0|TPSz*RhOPt?
zk=ZbyLLVck2J*IY_BBUATGe=i;)U>4F%058Lk$i5hu%h+FXd%s^y}@i)7%(E1L7AL
z)^nv;oAO(;%{&4QNc09^s~~d$E!X!)F-i=?xOjO$9!TW3mD;OSr*|(d_TV_qF$M4`
zFf6#GpJAgN=lK`gJp7(XCPs3=CXe7p9;ILp1y511mxBEW0(SWT#h<3&2n9zeI7R`L
z2WA4G8oZ*I0c+#5<51J+k`K}2QuRA8G#AbQ29XEU#|rYs*AToVWc@<9d)d4!ZTNcA
zzTUN=bzgtl+n;vzFPSnGH5(QFbcKKQ#r2BrCEKQ}eA#ltecjCf3;+fGSFr!yjDLUD
zBUH3L5bPCY_XT@-*^((+NmW~JIIcTZ+P>vVyP8lXs$ehMk@oFaJF@N@NP7p;u7M@f
zrn~Z;xodMPp>?;oWZv{tE}vK#S@owpT`7B)d>D-l)csH>!9d_o_@RJV{zF>uKeVu0
zjD>uLVzjjX@;7hN^?QfM#uN)a+&nKsn27u$0;N<XWt|=S;osoGPDqR_MHm}nmAq#f
z54dSxByw>usFVeXHwVTx;;vwjxIXHW(jZP6lSnq>RH;}Q#b2=yAzv|rc*g*}Vr7R2
znE(pn;M;`dQxq>(_n*mdG#U(IiX230oI3S1`<${5Q5MjS7XM%I<fmU3?w3rOtoH1<
zS*UBww0C3%hco`pjITCRQ%|>zO_`RqOl?!9QOq=mnY#K+LsO=;Gt=CaX%aL3K&GQJ
z(;mq5^irPP`!ZtN{avR`)}5Ob)mbY=vNoYv%$BmKUFhx4I#{$!Xl>6rS=1#UZ#j#)
z1#eZ>!=hd)R>7i`g0DVX#iG?hZBw>}MSVg=O}3Ur>x7#6Y(0xM2sL%tMiy-ns(jgI
z7Hy%_Ru&b7hURP=i?*Z7*$x)<3%-VICyRCoE$!KE7VQyQ+Oh!_?WN}IV9`FIqbu9b
zq65^1K^EO93=C(7SaeuuY{{}w$nF-(+&>;+sZ%Aw@SgkS9oFtmr}v!$*A8T@h+}xX
zHSZ*^C9|b;XV>l=bXO*Ls^5uTi)Nj4=Mvg`*8I1dvs6dcEtGkd=Beb$E4N;|`P$mZ
zw-3B`;BL(yH2q#v%5x&^82gC_`PfuvAAJ%ZUB5cj*n<S-`;!PINC8dwAPnIHLa-Ry
z9`U?;8w3fsP=ZYrN+^X;f(1eeb_gX{Ae7(;+rnj2B~*h{!s_tg8H8E3q*sKUQYFh*
zg_6}pa@0sAQ+_70;DgA53*roxaQO_Odj%JJPtBvAPFbY7uUjTOVebqfgasD_CeUW7
z{_B?a)h82`B)}o{k~l`*2=G1?jtft%38N=r3-A4uO=^HZLbcQwu9+c}vf#oyi>9Nc
zO=xK?gfoiv6~Y<C)9LL+pA=8kTiJ@Y)ouH>ZENLUw|L$BnfeBcB;pPAQX9T<JN^ns
zv~VnIiq|<+CUu~m2KBr6i|5*QbUKTE$F8EO+xB^zce1bl<j;zin6lEEc(QN#_-|4C
zT~CraWz(PnzC<@>b|Ypm=DO5_uhPWCZkmBv?ofPZ4dS(WWH}m&heI<sH=YHVif%-9
zqGC8&PHs>lNeBbtSP*fM<6QjZg=m-x5MP^9Oh7RrUMbPc3<f4UP%$(!A7kYr5yhGQ
z`DiToB#`t1S<yi147!U-dW(YJ*@G?IK-~zb8rK9*RPH(JRyYJYJgXoN`DG$Nmq^MD
zqAutV_*tO~VUaOMXLH1Ss9wBiR1{yKAt4f;PU!@-7cw;<6;chvYvpnaObQRFdGFI(
zEROP;7%!EoGaB)jDqfzO4MQ}Dgz7-VrJ_V^97f~g;er+$1BQ<@G@RFxyk}qB(<koj
zLzX^qc=zjizG!%g#FWsb&p6;LFXu(EmJ#Mp<mD}M!}zE)vj1s(g#q#N)8UvtIMnc*
zK?Dmf1g2g*(I*<iCeF@72n*6o{1JqkAY}k~NJwXeW9Jjo`NQx8UpD6z2gN;kZOVJ}
zMf#-s`b2!+UB-9SPfw3yW9k`6=1g6VI+JvGWRKB)JtwFBes<b8lR+|A{JZtOa8SVr
zPmf{-a;U+w5iuN$X)es7AEolC;JV-lr^OOCZxS@IVTr}?wdQ6icIo{2VK5QJc6JUf
z6eiJl8Cp@j&5%|g$+XYj`(xwdm_$qtFutYb#^};q(_Wg(&ZYMmq`5~jO85w=;y#JX
zVF;1wL&W$x1VyGIGUh89Rs7Wjyc<STki*2S0i1qhr!jkQ7FTnMQy^u}$@-|}_RjeJ
zxzu@8Dr*~&kv#b<eVld<7#tOq%@vGDj9h{>T9jF)al;}pDSSl*@+88?#_k}S3Pl^;
zZ@ft(I26#qf*?SGVMKiEZQf0sAtv7%o|=kGMo5;DxK|;WQ9k<lR;<+yxUxlFFRx`i
zFZQ1P(phnbcr;*$wqoM~AfB8(H-OqAlktIVh&*3BJ2H6WOyp?f^_R94*Uozz1mVs@
z?nP@|vA!RCvz=CF`>2>084Q8`8d=P%g3FbV1RYq;Ak0er@r&Wf2!=w$(9M%%E`*@4
zKLeP8m3IjeGLqN>8Q{EHa`^N?8Zl694cx$>a0P$1xuuHF8uf70h?s;qvyRIa)0~ch
z(aOYIARCrQAlsv7z>xy62CWdAh~wes=ENLf`r-?89N<kK5DwQs)yAj<)v5g`NP0v9
zu1A@5t}x9O1{}q>A;zyVh6luB({mBXF5>$b@1$<`5GAsY(IXk%5#%;BtB+xcf&6wu
zE`Z^VKw_wnnw=m~K|?gsA8@cast&S&(Wu^2dMmgha)^mbit`D~6||kvKl5LBoJ%H-
zvL@-}jm^toxI7Y^p@Bc2++CHEXmsQ89A14CXcUiV%*eddV&emh(nw~TI8wIf_>L=O
z2JX*TKVT~9=%rF_)CEjK@ff$PYQ>p@4Jf7RHmkVv_dms*zauf$lj6(){z}uMV3bm8
zEbTlHp;T^N%1U*y_4S@bvCvFb9Qu4#EHwSkD%D1xjL)Ogsi&);4vPt5KyODL#IbXd
zh@aX;tOuf#KG=(}fF)a9$dV;yNRVi*>;n5EhY1VDgAgPFEPrOkoz6A^b5#iHOq-+?
zcRF(ftX3gN<ZE8efjgZY0#>XLWIAZ{5G>goHYpe^dX2m+g_7w)4+y2NOK8nZZa>v5
z=m9ivBuj$Mx$K&0&|=1~Mj(=`lI^$ci<L>Y+>xxDA@*azm2|&PL|R<XEGs=Oybjj#
zVig$B?n@@w^bPy7&^Oa+`<lrjB#3dzE~zRaBrAW{^lLPxDwA0dV(vtTp2Lx}5t~SR
z!`Dm+jr1pAM9be-zXZzbZ04j(u1LCO0$Lr$uT-Yh6N3g5%G7AjFjB-9Ex05n8_5`+
z64$rjLaN?o<Iw`Xh~%Pj@ly1>+~|3NSkLTwqWaLoZF=LDJbM3&_tz^~wHzN*Xu5ak
zH}S~X6|*IFYH^IMrt5{VnIUR>!Ntj#+8Cl9ecpiiUOlcj^wq35rOQE3Eg~cYC7(t;
zjFT|-o?UU~Y<Ws$&P|YGui)CyjunY1b`}BJuL^%?_`H(4YjQk*ofq*cwGPG%R~(Ue
zkdsp0Gs|D0Hhh(Ww-Ef*o;M?lVCONpL0~>AP6X74I7z^PG$~+)9vD)Q3pF^i$L20W
zbe!p+Fa&l~R4jypDJ6*!##;HS?qVQ`pIM~{p;#)TOsP(cFm^7~@~+^_7*CK=VB~)T
z98xN@NAat(z})1>B$OCkx%nW4pgoeO(5d%?K%-2bknveqk~~AVehP^BCQl>4XPTeo
zr%CxTCC*at1_f6rAdsS1UJ9RiMX}9alpp{v(>zzK43a8kpCiSZ6S6!f%LJE{QsQ0W
znPP@0!1fyfjgVYH1)8_pE7)j4#c?iiO4Aw(OZ-iMDHxJ1Fg;MiIfT^xf^NzYN@M-M
zK(QzVtgB3LB1X4!6kMc$bzi0!8xk4_r9nLz2K8yJ<C}^p!r4;<L1=$3yx!t0D<;{{
zdbTK`P#0}D1@IaFQ(|X9w4o<Qv?0^rhlGJA)7V9V19jT1n%dk;sSTO>9ui{6`1jIn
zTc)LtNf~6?chhfcrsrw;?c8*FHk^%VXXDD7A3J+DTl+Fyy&GNo(p~#9jh&gMK&H)~
z**)?}i+Jn&&GWw%$uzg$uW<CbQ?9Q2KEd0b@%C<bhtl4m)bR0p-V;BlA6q^G=32_X
z=i|mbS)ruHm#KT<ff>Ik+?$1llctAdLPP(3p`^i`sqDLN#_!VcZ$A6bE>tzAns?uM
zGu?c2z4BPfb?npHAxKuF8i!H7j$|ra_g#Xw54DsBHe7vaSKr#_?zwhvf>%{4ILhzY
z1K=#Vyc^EGw6pJy<zwgWOjYfTL)Q<j9^ddEOyhsm!4E4wt~!c#mAf<EeW<tGovJ$e
z&?XFzn=;;N;@YnIH`@27@!z{Y)4Xq^`Cz*FV5Yiv?KpC`RD!S7_|!(jXu4rEwSPSI
z!Yk_ypMzY<F#7O4*8rqCs=89H&QII+WY7>-AngjQp`lNqY&&}JJ$nmdTq!OBVbC`U
zf-DuE)X@e^8bT8o(lL!x$ZQBSQwuM?l`os*c0A85t!6AHl_8Z#W)0{|mP^7Sp#h(@
zEH-<s?4mhomTxCZ<XZ^?Q86WSG)2oN?@Tzgb`$Bl@M6*<MYhicl+w168G;K1*Zb;y
ztSv`^>}RZh(XwqT0PPm7kLh70Pz|e8dI8c2S4ysMo?qz#K+>dnvV<fQl8`mga>!Po
zSL`X?iuAm?btPnd^t=fjMJqOXF;9YkEW3(5U$m77Ktf5@<}qXZvT)TNaD+%KD0fn_
z<5-ynzPQAq$iY6y@qG3YQ5A}YdM-v*23>_ojHpFIIAm+Os?pHwIVohQnGr3W^9hK<
zK{D@pRhs%0qqWOS+XdR2bnpl98nW@y91g-Uh#6m=lP@qbFV3H5NeVeWDMv2mNT!^c
z60gq9gH{4L>Z>3TQ0qt!6z5uO@KaFQ4a?9J#B*qTLiy=ACc@AY=;yS4l+qhT=VV6p
zXY@O@gDQa&&t|D{MiY1&aZDzean?KIXe<-*Dlby-CW3&O{U~+~HBvlUjNvgulKl6O
zjf-832b_HSVtdnXARR|NutPYKz~m?7FH@=oC_|KOZHgs22YUbz9ZO8hui;ssl<$wf
zMfqxTku8oG(OdaD6(@aUraOH;toU-LNDzYUkl6;SN^#Juf}}qfC!nBC8!l~ArG85W
z>(q)Cdbip8isb!=v<>zmfEbRC!FRr0tz)~Qz3O1P>)=M$k#yIQjJJ7Z5umo)owZmh
z-C3)x8yi&zWD4q=H|hq{b%PsqyV7;L?wtOxX1(s@(y8xz>e9`-0siaSSNs04?OyFu
z56wbN!;NRJKf97#lQss9r18J?$a?kBjp~!>>XY}XPkmb7e5?Lu{px``{*B=iY5eav
zv0guhEvTXi`%mwlyOxc;r_=Z!IGyr#eNxrD68&K8Ue&Hlb!$r8bGI!m?q9Dy@S!PP
zjd~AYL#gXXdE2vA!PmF;#>X`~k#BV<UF}~!ovCfdlTSJa@3{WS<h{<LziqkY_)W*3
zTK{F)KQBY$tD06`TRXndcQ}pz&4<^ko=&-*&JGH$9c+`C#E|7(Y+IrI<%R%@7$pnc
zFjE2Q(<DUMRMlZl2{Z_pTyJ_@{w4}R@P<Gd6TIPaR7^Z)p=Fydsn+?2^z~?)d0XJE
zqE=`ZZ5pgqXOW8p6yI_c-|!%gSi+ta*{~K%a)pi)gr>4f2c`3d5cH$BB*~QUXr&E7
zN2vs&&T6aQSH~2apebplgYu#!=j|n1-yU}+^i52%XytLHGTv08rRJpR!jQDN$hmb`
zwcKB00@|z%*jkd-sS<29CTuPxi~4=Qwr~glkR5|Kmo$fM1|1xx`3@{pnwtf1<a$+N
zC@22_JGej?`V9ISFe_&0q9~SW0AxrdL$h>Y<mCvCCQr(kTR3_au$1%U=tyNyrgRP-
z0b9nogBYTb(O>`$1ROb-{Vg;PP!1<02H!XUETx{2#F-ft$iGfKuyMGjpL`UrQ6tWl
zU_*e;#PxU4yC9YaG$z3zP^yh48mV!bY#i8eSXaZjw@hCJhXPVl1E*%8Z<{qzH1{9V
ziun^%40z`jT)vdEIRlu}db4%u*^IL$_x2NK&GO9e`tLcrKW%OQ#9MQt{CfFn+Xo$M
zGw%<6XaPPBU?>6vHUY}`2T}uv(jA9WE|Fl;%m@B^RfC`S#7y;R<f^R%Qe069Q0T2%
z9{ts?{%*(W%zrufv1f?o_=1rmza{`YuRqnfFXh>nvhM>7#9JUC-O-P5)6=0p;o@4?
z(W&Cd?$_`HDi7-FA~EBHzS6aIjCG#-oB$cS^ygTUH2Y;&(o~H8g=c2=Oh;9<8fX<0
zN+y3EDNq%l$t2T0CR0|W0iQ|J84O-#R)Lr{4Vmz<afwG1BH$=f50yI57ucCNI8Rav
zq^*J)E?i6~HTsjOxO7pgOL6ktOeQ2wltDJ7_>A%f$tF)uhK26!CR0Jie?#-=7;1Y<
z__U*cEqrfeY`x=T$}WB)_O6ZG8-8|OJe{&PXMBxI&hI-rG7YW#T(flg`%VZ&wvsUV
z(&>z+A!Tn+Pc59d!7TzQRuVRdPpXg+@5wp5{2Ff9;YI&q>^TdHA3HRtwrI|Qr{*H?
zwB%U<kZ&8|^kj)P8(zcwSv29011L$5k$+o@{6C-#>@)GNOcacOg@3$%LXUo*g8v>t
zoF*832>u=FH2WF`;TTvEtT-$TZudRZ9k8%KmcGj=RF3s+6KWebd`!ys__v>Z@7Z<V
zQ%lZIJoPI(?sbpe^XyOA_oqDjGcE16W^T@`HQkwCZ#kH@H!iuB!x>NG$}1^Pd&=I<
zH&%VYplbRk^!I?kHklw>EWsZL&&5uYZ-IFH7+HU|)fmHABL4%_D}M_?-ryaf)T0Or
z2Cpip5&Dh6*cJsWlJ}=HWY`G#kX6(yS#elLK(vegw6j0u9LY4c-a2seK*rkySk>fS
zI)kzG)+~pYk|}#5pT4E>@Ee4LYAR>6e@*Iyc+^gDHfl5zww=DvA;_C#)<s)FUj#EW
zYYHytF_@B84TV@N%{}=+E5Qa03AOx;PTn`FkaSdFMn6v*Pm?&+OXl-tefijvc1WRF
z#?^hB(09lbUB=cncUeA*g4hE8F@9k0?4n|W9kbZ^uuMly#W5d?!=6}p0Z<JJZrD1p
z!!oG$M|dp%j}-VRI8VWUL&1NG04jNWzl6>Y$g|QFC<4Ns7&c;VTZ35^i&MvFF|muU
zC{ID2g|6)uQhr@#O!PPr=h*(ZXLMua`Si&1(8O6O!>8X<mbMS4>`keb;fF4vvH4cu
zW?=Qm>gCkV<LeD4mOR+u%3Ctt+LhMSo@XBt0q7?-!Ciap)#W#S^|e1Mue$cR<%!kG
z)t6G$J?rIxtW$6_Vi)#enYHm*WV;e4<}PT@2AU9?RLXPkgV<!=v?3&dO{)pCJa3oV
zX4w^=M1<*SpIQ3_re~E(E`Z)HdyHu%nUmJv5+ut%)Tad?rm1MHjA#K>9--LO12>AE
z=!6C|K)sM!gyizRI{Be&V=6{=ki}%_qewceoQ^GP?=lo0aSAXk+VSox<CzwNnqofe
zw*&T<E;^EqxAEj{Qb%$u0E{e_#h?iEwi#G*Sqy25Wl8hf`ybJNTJBoEoZIxvn{+<1
zUrx0JPSyff%$jsAx?&}gb&<|HI=4yd3-BMi_J!F#R=(&?n%^Q-Oj5xt!;WSJuCL!E
zT~jtJdRyqfLkGwBSq_K?qn)rVn{>~iWPE;_B_-xA8u~+;+Ig9_IP>L4DV0xn2$B$O
zW8f^v0R^%|l!?7Z<fwsO7d>ED!e=T>IrEC<t*}wCN0T8kbhvSvArXu~&WVK%vw5{p
zBXTcrhx=7YTE<w&SGmty#*cnyhjwz|Z)fzPpYhG?c*Q{W!Wf;5uv5XZ<D`B>;&$YS
z+nyuUh0aG}PzQ^^?%0<1E_{7Je06S~#Ab7q)fnLm7Br?olY&Ia95a0*Z!JC*iGnUh
zlL(A2Hfxw!2v!cQgKY?E9kXHpPEcrT1!SoqEEBEjHB4*yT?Eh{B0V{F5R?CuQuXab
zDJ7oVyc7b_3ZeW5^z;uA1U!5T`WKYIaI^oJV*io?V_Txrl1!Vn;?CbIl+x)qH*Hz7
zbyErgY?rCe5jQl+;&e98oid2?J*#pnPPY))X4~4DwUKtNd8|?JbDlLpjfeEf2GYKP
zwM*YlzL&gv<h`%1`wp*HKD|_$aaJyee&xU?l}*_aQ%yytqHfuN6Iw%U)@-h5cwn|x
zxwC?`+>O1-*L35x>#wc0T@NmmZ8o=UG!Lbl!8obHK34s1>+RM%{_hTcXAoOsOBpbE
zsN%RP-#PRvhca!uHrn>4+xD)vji#XCTGM#ri`T#St=E^vHfx)gT);UuTK1<~_TN48
zQRjNg3o6#RS-)e+opIKuoSkc(sowoKJ*>pizP@WGGv$>j?5w`VYbQ5-{-u+f&bpM-
zpYiu>`1hv$duhvUSbhD@b7)8>j-+jbpZVVT%CCGS({pg6=V-d;=z7obl(#eEsZM!B
z@R?Gbqv__+>*&)kg8JsAXE%W?*AAv@K@VH6J$TKvWL=tPuMsm<t*bR_*0sxbt*NSm
zDc3=U9j~5Pd+N@KyQ9z>O4(0vEE%J(Uj)|K#(Wf!f{huUs_+7+RyTs&CmJpY0Bj1i
zq57AYc0XAPoFbupMh}N=u^3h^3~7>y3%({feOZDrMPh~*lF_kHVWy76i->OBCr-l#
z$ZRME`(w-?6cgOz#_G6bJ5J8l^fh&GKvWd0(paKD3{xT`{i*`$Impt*$>JRhl#rMo
zH`hUe)2d`W);$1+L9%{%PK5Lr)z_{H__RZAjm+f%P>?~SozUy##xX!jQai6%R)l#?
zqb5+hX#?j(Y{q$g54X95MS8r@w#~YtV=k}$4O&kmd4lx>9Iau+ztPZ}ZUC>26GhiO
zPp9lpv+o{ob7_O;=*5iqPPp)xO!t3@KXx(vcwAO+GcI33$iOm;29J*iTI4TK!mAWa
zQ1C?x7;O8mDHf#QOBB40K(UZ)fJ~E1ra8ko?_Z`E9WppLG>6VjDsI?GO%M^5(_R@(
zRSr=e!qPd@-Ntzm{OqcOMh-$Vl#31LIf_jp$kmMuQz8WdW@h{r8pL!X$4EC4=qPj`
zTSf4ZGqv@ZR)40Ym9!!on=^-wW&(Yg-Fq{qUnI53(L?t;Uou(CHmhs1R*GQp*3_-|
zSK>DV*PqXpvLt(Ml7l6cktU*(MO~zySk9sVS@l^Di+Y91nrsD&R)R>Mtzyw?p&r_h
zEb1f0$XXVyqhj?e+8}iASle~Sytemt>`o%xwLja)(wl_#?rbxQwg}B_t5vI$t93WW
z*UqM!hO(_JT@+foQe7w0Eze}zSVB8#Y<94yU+CywjjtVBy>fft&hB*kQ(4yQY!_)e
zcC#$gCGFNDrc6`oYUjIsxBJpf16ebrY&u+AYccI;d|;)N>@z08=Gd^-rmeMr;nqDX
zRX-B&^S~_F>R1AZX9L5T{-OJ&E!I&Ctu~&kQo6b~Yeiz-F!N-}3m6V1$@ucIr7PE3
zA2=xGX_Ld+xO(p0$n8j0K=jVh@1FY3sRtCz`fS#YOjFyfGdIs<%@iNn^WCQJG_m-m
z!=0;bneqhEj@}1W<jQ&-)+W6e;zm{}?P*^<@$Q-1XD~|sr&6A$(vH0ktjLq~`K;|s
zM;5=V_1RL2<<AXDDa)NLPD*j1Q|~lgYkE*lcYB4Qk<8BB_nl`=)-ls2Xq&F<uB?^a
z(bl0Vm-2f%=Gn^G)sCC5UjOP^b-EVXxcmW4!2AciK5Ux~=x0~FbLQF^^=D;wn(RQZ
zq};fglyz9j8}6HJjxv;WdY`DQR)y0_Rg^l*?t9#hvIidC#%M_?rpwB)p9u8JpcPxO
zw3PMhc{TRnL%_UT#nx9K*Ea#X*<r3WXOkG?ndJCLLQg7{?2<z&lbn(Zf8~-J>2Cab
zBrpC|uqT!D^t>Qdp%iRvBdkW~mdsNfP;s-uk~ULOr1K|JG_5VTuR|U)ds2^B1O6KE
z*Mz@j*x+t~`YY^aL)6&;6-X;oARST%e*O6C#9tTwy7AY8zX0;~;%^83`jD?5e*=gQ
z;&&&W!$vsor!<7r;c!{l9(JnAw!8(qkZU(`j}&>fC+w1*qFzXQkz*fnjuy$aAN?L@
zO1B4~bXzVR47+E@u1dir?cXMywF645hoBbdl@4!{>uIF77gUK`>Bu(udGEG)=agMK
zinmpwY}eL0XL`1#ZQHJ6+q{2&xTg4%;;FiF?eQFyVjokItOcTULh<700R-8wO&%gM
zHie0KRwK#&I1JIBkC4s+Ge6D*^>b~M8)m{EYmb~^NWajngfs*`1CT=1irg=BD|Ka7
zMt%5&Zl$g>pmSz_zH}=|Xf+BdcD}$8o!*%^Qr;0olT9M4&D^}Zp;bb4%tNh8GqS56
zp{Oc)2svD)Os1Q#riH`w!T_11K^B9OBPxMP75OO0vB6GtX!?XiurdxqhD0#*Fdn4?
zqi6g(Pz_b>=*`3aS%Jngod=CEWEqGmrm=ha$q4|&#W<MZwv}isv`ZV4;hnn;Q`7WC
znHvZLoKt?|H8}@EPQEnM!3@>hpH1b=s3}*Sk)4^jR^p=+y7<wW5fy(9RAYZ(E}xX?
zIFezkH=0S>tYhl6`a1vrmoD*EGoX(GKKaXBRk&c714v5x2-4W9+Te!4P{Xmw7By!`
zCha7OQjCaXs)6p@1*li7Ha5qY=%X6TvvF}Jz@qUdY7?^$!GuZ)yl)*P@)T2iHW@m}
z#X1ji8iYWY;`yW6zU@HkW5FlzR<|)*Mpv8Vd1eEQrm_9XaH+D5mUMo5j51reEJnqT
z_~2TTatx%aJf2_pa-i?3UfM9_OtjB9_47X$FQn0#pJ2-DGG;g^ld9LEN9}xL*x|==
z{m<l>*f#2-?y2I^k8&hZFx9yumZB~oK3n6AT!!d5!vrBRjuWTmXyyN7e-x|*1oz0e
zKU%WQ0?N0hq0J24$%H;uId+d9X_f*seBw%gUBF%BPzyLq;b-zOq3@+so8Firc9);H
zQGa(1Co~JtY{Kh(;*%Gw4SjQ<e2@+`5c9T!hAjfhZhS4WoA{rX9eHC><w!^3^z$ev
zLAoGJAT}h!&^fl|UpSJWX~HkaDKmcyG%mkzBmu8m`H)W^rULl&pQ<AX@cdLuLY&d6
zo65-pIJBSh^CUNs!@0a<em>9p%yx>izc7OHcWwkH-$DjM{fpZ|DiH4ZOeUMKc|YEn
z2V@U0jbOEIjvcd9XC11mj=b4c)NKdhCYY=RzBy<)9@lKU<e#IrYDGWN4$~21Q($|-
zlUv~#WinuSJy8uLZEecIylm8qH@BovYI}}OTzftpiXPLIW659;EPQ6tU@#|9)!fsc
zsrSXf8nbMs9T4NN+Jx<3o18f<V^yLQj1OSzRgD}xvaoLY0J#Wd8_fT9yl0|l*op!P
z1;*Nb&Wsx6eKLI-lGzvii5%7)f0DQ^N$&@>k%Px$&DuH)Oyb<aEf>KBi!ME;*TcTF
zDx=fK77$J%detNXqdN3KEd;G6VfPXkHH?XoJTx}*yqaJs30__yI+uSa(z}rVHFV4}
z#|zG9Cmt}PH$Nv%aDHyhBq`0z@KumeHnwcY@$np~p>eQLe@L?2@(UD@5YgE&CNjhX
zH@OHW@#&fIboph9y+Xm~C}845Qxx-4Kr-}-ohaSJT444!m|+UVl}l?^%5++Iocr}4
z{S8^9ppAkH6htYgqkv?ga=e3d&@J(<xf761iV=f2$Mr`q-S#0+e0(4nwm~)($qpZ+
z`MFDwIm*UFwfZUc1_d$&aRf?t&Wd={Vl!-LaAQl|D6Czif&l3x;XyA1914sr^>AZL
zq{;&i4kVOb#sr~7_@!xuc13%#BiWhkf*u8_^WZX(aCELYCNi=_wX+KzaB|Ht`Ef@=
zS^Qa1!S-Y)Gv8y@&G+bbvY9GU5m9)QKtE7(saCV025Q(XFvPr%3-5GKmYj!r-0PTK
zi`@xbC|qie2ol8nzh#naNe{x(WCcQdvJxT8AR#PEmLhZ}y$D^&YJ}xU2SRt!iO`dD
zA@n9|5LP6s5LPBj5LP992&<E|2y2pc2z|+Vgtf^AgmuXlg!Rcrgbm3ygpJA0Z^0zf
z^^$MAWI;O@yMK-Pr|YC7n{cO(M6wxo<yzk%IZ0Eq;F6jQlTR~Z!9(0i&F@2KjV`I>
zgH}yP#w1+D+fA$mmxX}H<@KP@-inNmw%o$k=@R9urGTv&5(xQ!)0qxiQ9GzoT2?Y!
zF9V1vb}4*`IV@%B)MEjYQU+n@I8;^v9Rn3P7JB{-75obd*y1JmMETdK3MYXBW}q#2
zK_($(#mW_Ud=$4s#F-h6mj5l4_;X70$l>$!203_cp3E@FU#3*+LRg-Q2LfESIv*<W
z7f(|S5ehz~fVGGX@ZTB$G8+9Dki&-KGPUXo0>u>M7Iy-;(a@L2{l3Mdxw(I#`a+=-
z-TqDoAV&P(VG8~f@})1CATh>#3o)NRaQ=h;aQg%2Kk)nmA3+WDAFhT1Co=x-OzTjl
zZG`@J9?Z50j{1i}1tiD(LSrYh+*2pwr(84Ov+3Feqc&v0W;cnpRloC<YhOu;yVIWC
zcTFFA_CfC3QI>IyKyunq22ES!X%cT8x_Kzoe<a;_gv|KVeOlKI??(--D+~APdmoH6
zy50A83k^G#k38HZRCN7FsH>>_ep4W8#_ykZ@5@^8d*3FEoHb=jDGCo3hq4Zel?hEd
zvQCOYd#XEIPBFL8Gn(~K%nP4J*$RqP3he{gDvDJLP3_qliunYwH(N`wI*Qd(tU+k$
z$~IE0iPD-W)*^K7&bCra6gqZh+bGsfHFr?VF9Z%`J1N#h@9m~ok1#N1$_6OfORw8O
zu|8qnYo=^JMF)hg(H{*WmK{c~?^FM?=H_}b8dRP=Aaoz3LF&l#KTE&87(hq)hP^3m
zZ(5o7pyu0+?={|e>HXFZUxD7(_w1+t{f~~BPyw@K@rMVF)ExKPnQ}p%>N4#n^!MNp
zg6-_|z~J0t{4K%yimIAwVmg)ZM0NlbviC8w37Y0X6LUVc%|U;mf6F9(RQ7Mu#O}ar
zm<B3YOzQvG*$-n$8&xCes*yX<^(wNzggNON;PQz70+|&X02mCA%ExdsNm9+)WkZCG
z#VQsHnQ<T>QFuuvg0xVyF8-7&qQU%OQB72sHz+QBk5qbl!S%k{Iw-c;iYm70CKr&y
z{8mX4>QhN`G5tzI`;t6JE!qwLc*PXlU|JCh=!Ut7VoG62dolGjNpBI1L;!Q33psTx
zfTvJswCDozk%HT!b5RZ$OT?F<7=-Vv;~Z6`x4^K&1N?BsP^X-x_@7eXr{FvS7_Xay
zlb-omwsXk;jMD!(1^*QVA0Y^o<*4Ye+Gv6(UNT9?T)C0XEo`rI4bnfMV$AG}`yxL&
zsgD&q?zysP8S)q)oNL}xz&11Y-WpU@b{5*VO!_T(zJ+NSzlZABOmAu@72!40&BG~J
zO@qRVt~Zl0^k$k?X4d@Q9(-@`?(RQ0{CkIWy&0R(vU8((INdyaXU}@`C{$^ne!O%b
zQ`HHBU(igsapn4zRnxcLgz8Lv=aT!As=6Bot{+%6r8;)qh546b8&%JytDeOsvEgck
zr17e0-POK&6xCOkZBn8??II6SuI~HRlIor%JAhPm(?(Tix~g+Ev|fdjOjTp5WoNo-
zC!(I(B@bVkzmMMKDdF3Zz*gfQA>3ArS=TDw-qTx-LM8CyMf0L%5xUOMBsXC#n2YJc
zyoNU}+83czDU~cbG4Grgj^lGbl*}lBJBCGDSQ_rMlm&cmrVeR=I;2bD&z~~XS!bw6
z1y_;;obeB;k0j`9sA!fa%ZsgJv{%PXjjA;K5=I9In_?GE7*1^kLSw$<?Mum$V(VBc
z)l0h{(^d#wqn%Lq#M;#$lPBpZ3I}w>&tj|keYK5?o}Bi2a@y-ndW*KzsFe`kf=jQ}
z3zbycq8BigKy|@|aVa{6Nw0>PGd1GIf?~K$>T1Y~v>!swxA2nebh5f)k}Wv7RY<mZ
z0fuEO<yzz>q_f~6FMf0i)W-5lCd|#M*kGbf%ZPGCM7Fi>1yi&b1*TYAy;uV~X*F7n
z@S^I_yr{m0FGcmzzi-rAgk-6_r}(Uw>}+TA;c17~0^>Jn$63v%kCFMS+6?z#4%;N#
zFJa7+E~h}hbT`G#3SqRl;fg@n!td*Vj)+wxMW-{e4dZKn7kay3LqM@iqosjnNvftC
z+8bK6W08m0e9p4N7rgpH<rLOT6Y3^JT3GTJf<UFbLh%d*v=1q!F~y86LH;qNuzjVP
zl1o)11#ItO%2r(M>aQr<k0|)J6#So**Ad2n2?V!9SSgjmO#3uYo3mRH>}05xq5CO+
zj|$r7AvhL=$$P~Hk@MiW1*UAOn2sw>+SW8f5^gTNLK_zulTf@|P>^duGb;gAI?YjH
zlo8T#R=BZsy2l$-s$>)%pp6``=L*{@LEZ`(FckYKUIFW;u+YykVn5AN>wlA;SsB#^
z-K9@KK1SlS%#AHHFUHS4r;uTxPM=sO_|Z{weYgfd9{(aR1nir2LZxq`qB~vDy=Ggl
z7+kVtM)qxtoJo&Ba|Z4Qv4b(23uKdI<(1WwYp+1tr@9_{RC8dXc`%Lt_J$?fa_LG%
z##g`OB+b?@e(V&nztuG@J%b-;hBl@>{?#`=_Vi@h`tFq8-I3mTBHcE2-M!h?zU<C;
znpbfSYWt+a|L(}`kxaF?I<y*Et5_RPweP<>@lgeu;IB-1sY-F@M(c38b@<MKja_5u
zU1RI5CzoBHH1@!D%A4zr$Cl1;^-|>Q?t6Fk_H3rQ2Bo`Ex&xLWc8`2_<U4pl_gdT9
zmr{WPcV|B8#N*v~ypwd8MmDMsrK=C!m6<`fXVTTrtXDq^G`V63g~k3%_3k?tkYB7^
zc2QgUHd=S3TVeRk#}fat(s$ket*-l4p`sbJiT-6*#@Ddn>x2F*?3S!VH(G|$Ekkz>
zAa|{M=_E9wI=VO7kEPp>eRyWQ{l%2M6}6UEY`D79uI{yAc%S^(^<rxH)JJDi!!Oba
zvK|LH7yKA@+*-W3xc1uJkq<jRs$Fk=5f-49&fFaOw5fAdqF(>2rrp==%ckX#@Ash5
zFacH1{x@d&j=`8|pfc_4Tz0L5Rx55FLAA{zIM2b?ZJmFkt~XuRi#OK|ES<_Uc5gHe
zrW*(E*zT6xJ+<CAwsdAw{ZyIO9slS^YVh!#mOCE&{82@!?`XR9*s^Q0z-mpPuBcum
zQ>lE7rnV;-gwWhvf|;U&4`ROJgLuT3{SPRH*;-uBlEDK8I|w`|=9x%Bu|>|qD+{0k
z6{2MzpQB(BL9XWHCM8nvCYC|`JYMnBUm~xPCD5FF)++dW*37r}ty}t_4kr3D%_1pM
z!gXXrBU7P-Mr9-UmgIVsa5$;EpoFVQIG=>i$y{%fa5V`(lU+TTT_fak66%*w#e~~Q
zu7SDtpsIxVylL8GJ!4{Om@J0*kgJEu)AE(=cv=~>%~vefd$Ue{?;_32avpb+YNm(B
zy+Un6wt~kiQFpeA$GL+_9`}(VW-X7`k*COd9*2+0`fMYQH<4mzGmp2BW@jspi{x*z
zjmO(5-ofL3a-rGD<6WeY+0ElU<m@uQ<Gu9W9X#GgZR_Xp0c!sskME>@4e|IeIltV+
z<GacG<p_`Oq4z$;<9n(7`*?g*X!B?H^Y{Uwr*G}p?W@^?{QeL*$2`pAPn))=pB~{K
zCVSLGs;kG;yW=Kuo_RvO8#8TDNj<4Pf~u&lm3m4|gMonIJ=xRh-5KO)&pxN#!AE?d
zrm8wMvM-oOS@lIV<5{!CdK~Jis`4k@K#h~MELSXPN7Dl<rDR=I);cKe--uq1X3Z4u
z8~XN{_n<6F@uyGxGuI!wK1!sYewihx<sVq_FxxBGoWK0)+plg|Ytq)5Y{{!8sF!Lr
zv6~$`$$w|oOgAXHRoV1MR(eEQvA&0_JU`aZ%A+NzUlnTX!T*Fvt_CFOKax|#+<(w)
zgs!0G(o=%|qGY)4w8C|#ZOY4Z{K}x?R|-d$mE^*6hL{iq7u<RlPj@nnM>lHbF%Rhy
z7OO$aq3XoJ87Q0wI+-q<3&-&)rTp{EI@60_Q36?6sOGo*(eR~kR8&(HCpY25@eD=>
zhJ_G05{`4)>@=F4L$4*QS@DwdDVPU=9YZdaJ?Y5loEve1n-5~Z&I%YVWrf}?44Z7l
z$SsC_O#{^jL&KpmG=PdPI&x~D<9)%!5&C4QWC97r4gyLk&j4nF$e0Zd4S5G!K_~d+
z)JeT5xD19%v9E$78HhC+TAow8-nyh+uFZJ^k=P3^7<9INpc}?keMjiWOt7nRSRgvn
z!U3j5={VyNo(0!}5H-abBci_I0p=DYWf{x_!t#|;Rf&cBEpRgbIzi?$44gr7an0h4
zoO8b7fA4?$=8ZQFg0El>UyQ@x!7fzI4G++WDP`P>z!|cU`F~JC?O8An;(XQ}Cl+^D
zJ`=hMYrf!Aa7KdSctNx9z{x-V7nLj3X5KzlEwfD%q~^#~m`bqt!YG&&m#ZmY%!48m
zRIZ_?42wO8n&M6b2Bw-zqxa>l5S>78#}O?~bf}+#K=0G&^RRvYX<fsu@|)#I(<tIK
z&T=;>)r=xuB~(;xcze^{Ub1iB5Xks<W}13vKgLGhI{5EAcF>V4iH=OA9+=BH9r<C4
zP}guHc|G~NC*D1M`}7^to&6t{ulvW>Yo7<1+4bjp#=dcs^vPG6*G_!THT=<W!pO?M
z;lUo=)J?YE>;C<ZI#D6B@c2Q;(P8_z;^YJ}hPTVdXgF0Io(z@_;y#bgN{fOmSsOw|
zXT<;(UbKXC`URQ&B068eC9yLmPRSU+!i#7$WDZlM!*oA}wqe3TDq2s{LUbKQ^)RS2
zrkvXJg=VxM2_7d@*6~j}2ZOs?w06|H?UN7e+Oj6|XvO-^=v1~v&~x#;+<3nhOWI&U
zt>}Bfu~o;6)m?o29oqQM=u{=G<{V>Y)V8AUPTChhZ!7+O*zl(rfD7+0>S(4IRS6t(
zRwvmC)XT%2&<vfZ3ocMc08AIlKo=<kg%0-ZLD4SLd+qp!7qpO~ZeZRf>P`{*Qc?%r
zpg^172HgYsip@OCR8ZU;+l@+2+nt~un#mqzz`5X2p(Vtv8PsCn@P{<(bA&Vg18xUk
z$%S!L6&sV+3d_$UHDFQ9iSsxX%))z|d{wdIhMSCX@)ULxa48N*!NuYvdCBSI48Z;0
z^qRj$0G}v~WT03sMZ%YrGSE2^k@NF&^KrS2z#OBQw^FPfLBPd<WCtbCx|jWk!DR|3
ziR%_&NwP~ZpNlUrFbR{(WWLh$hU}tp&!AkKwi^Rzs@x)OnY$(*YO2H3OF;9NQ65M8
zN};x0H9vY}?TvNc(2{ervU#JjBVF0CdNf_xz2@KO9ZlnZ<tVpF_2RGW|D>VuR_D#m
zjJFXd#OjT<p>*5Oos;Rd{i$X;Ft_3K+UQ<7{m?Gd*4>!CJ`D!xih1Si?+mTD(yq=-
zeZ$J}jV4%5=}Xn&@L98**r@GJ*LJ6>dLEWqYRi_Kunkhzu~FNTuI+)1C-c&a%a%=F
z+lH?z?dyVhmZNtp8#|v)?|k}0|GMuaT1?NF302;Q4c~#Z@4&k6korh1cJ}tdo!uL|
zj-_`U`|zc8-!pjX@)EpO>G9@O>2?_^FIji(S~6v7>TkUM8?P^&_`bJhrET@}UH?b$
zZ}Q?bIuH9g0Mb$R@U_D!XBW8*@m%+Sp6_j6I<o1kPQiL^UEAu}jn0uY{@0Bxo!WGJ
z-kG{Kwfypmf3;-Y-LYie^i(dNTKWp??=o~ZVE>_=X2BT>y6EFROR*7(jZ;iPaF*M!
zEiZavro(a$HEcKCewhM*65(-Y-AZ~71y-6I#N&aLpzm8+K&5DEX2;b=<Ae(fL2aG)
zt3+$}CeC11{9-t8GApGRojtP-igDXN6yv6UDCVZqrH5iTXEtRkC{`&nw*HuE%i@fK
ziXFYymQC2;2X7{8MI4oTs^5uTi>{nayW6s*lmr4(?Mn6a(JW=gn_vxR{+;Bt<jTvd
zyKhdUJl$zW&rh6q#?KPevq^MHzcf7f!CpKmJWHr22QU>R>y(Y15^P_0O<-dRmlpHv
z#qwDsJ1lTGaI$z*o-*VqV-DQC+t%jXrUolJZ@9uvIFK*;4p;#x$H~H_*6%K!OZtzg
z--G(g*~!HX&|9InkIYMvxf2=zc)@#W78>-1amfM21~>@kdW!7=5Zd!`hSQAaG1BQ<
z5a##54fLkq90FFvH!*)T1_hV{gj4GXje$%6aWH9{?shi5V`ROv2-2}=hG}FAdBw{)
zS?C)#%6Rp8qel$qEc#m~isvlG#=$l$Xyt%r^<eSse}d9hqckBQZ!wG534P<0THrm;
zs(Q~eP9v}eq%z>KrL&kV=1l198u;SFTA&LeZI-vlN1a0(cS^zN=w~dl3L7*=sHA8g
zVRK09BXa9w2xeL_rnU<n@zn2%+}c@R*e18zs9WyYCXXkgk1?2!7Mv|@2hh7jC+j2v
zHcqALI8|w>u~Oy%P`}@%c5hA#z6NxrODk{uzD;9Tku!$HdtRB-PCJD1gqe1u4lRcE
zTVR!`JQ2`Riuonf-UaJTHSo>ozzMbk=v2Q}#`rY^4^4vPQ++d*0pYXjz8Pz^+L&*~
zL9HwsHHSKCBtXY5b=36xZAPt5s@J|U*uze#p3VK{oL&uUH5$L@yY9FObE83fvTTYy
zk2)Ht4!FV^O_~>7QsZKI@vjjlOS?O@vc|7mB9#L&6d!dVsIQO5wo#bbW7Mj}7$Wb|
z`h4EB=uXg~nOzXl)aN|Dz<waVo}_yQzlB%MyJ-p+T-tZa$yIC=!CKebp$nUsgl`;#
z=S^c)ku+1mm2@*fPkr2Tau<6K9S8sO9tlw!AUNUD=ZDmkbi(F#bAiq6qgr0$7jw8x
zyJN6MU+?U$Lwg3_nXTiB4em$aHS33e{WpK}H}Gr=bDQ9yhTy4O0_l&?7cM(Kg;Gq=
ze4*#1FwQOKxWW&q`oco+JgnLP{TDg4fv8Ln@P;!dnXJ95LOL)23g^-=?K}oL6g*kN
z_sYd+I7rM>hL$Q$(l&a7lZzC$8X*l7+TW|_A>x;UM%jfu(p;<?nh>fBEK)UAi!ldU
zlpRj8v{ykv38p=vsl>(0-=rR$rXWed*D3fV1d1Cio#BpEf|Jp>V&f9?ig`AAk>Sn@
z75O>DgW^I3ImJ#Go{hp1lfn)7bEsrAnlKm~ibL;0miN=0b2<VZZH!Z09b7h^gyL^e
zLp*#q^?{RrKyCaD3O4C^sVa{v-=Mql{K0n_w~?59m_8)<3LFaug^dq0Gyf^SLp3f_
zK)WcsF|%Pt$InD!;gGC&^>(PkqWDxL0%LIbcVuKg821N*T2d@0Pr#LD*~`q-G?|%I
z8Vf68S~Hj6Tx<?b6E4k7hR*SkaB)62BU{Cl3SNxevFC9}GZUcV^K&0{3mgudZV)JL
zbyT#Og9$zhTS+olC#qt>O)C1E6o7$(0yJNZFRECXraV47(JJFP^h3fLa*x6k&!r;P
z9?8R2bu!`v9eUmXS>>m137^=@nUF6z(DXHduIK!;8|InsT)Ef%^zzh=*<YXiaB5@h
z3+b^huybm81<r#GAI>NZl-W(*1!|WsZPfO|2;~O}c&E&GeH-4cw6}{>9M|^T*}d-F
zd-vIoy<?lr9UINN(#^Xznx9HHKXuoR18wukrSVKvTdE2kbovo~(zqktcyKL-VCncb
z&TKaIt{qM{?O%E>Q`50}CS5ahZS2#^&ee14m4TEiu<2<^d3sXzv#H**>j=S5*Svu?
zwUg*;{bpC+yEC_EQbVUc8d>jpk%`4_wsziHxVZpp&Uas2Z#_(DO`Fb&cSf&`F3+yM
za?iOV)7)`u0tc&}y?5K!n-8Li1N)c8R}QCLJHT5{H;%3yLI5|OXEqyKSvz_0lyAox
z%I_jSoDhafRduVbH=hBKfLw3V(XqYf-G<u@slKN_Y+r9X0aMhP6VlOi*J!4(=Woji
zY11H_kT$7KNZ~OAt*7&@$l71udaL1PL(0GV&h&cyVP^7r<qID>J3sMvy?g5RskPa=
zUtIT}S~~u(Ty2^1#+CW?azDD#62Q<@*DRgb^flaw{(2PL_UP|Kubb{xZ|r+6z3(|p
zmhy^wu5QpqDynWct~*xxiNbOsjsFcNKK#nM_j6fuiO;<>hKU5r+CwYhe-K=TXHp+|
zcKU7k*5#X*f9vW8?cWZ(7q~P2;rM#*%c+*L-}AmgREf?{(YEJqKX+$O%8zex&((%X
z{x)7SIP~qs_ZII?r3O!s*V8^szzpa`<B)Vr?Sct!5(y#m<oLokn>V&?H0($>?7;Hy
zfI-e?AqWVDGgSEtSmk*~LOKXwISLPmA4ha<Y?+Ah%aE6*a+<s}#q;E)z1aHHosEO3
zh1P=QUzp*K2n^8q@GSxC0BT=7Cm+1}Gq#V)Y3-wUUi)eaUe5vNg8$Kt<hlMhr=@Mf
z#z?~DJwZ6bB86)Do~IfhG)U&@@;D1bd}1TshmgsPs-vCzBky{&pBoJk9T9L)7iLrz
zUTzJf!KERgO#TiMrQlcO9NtYrtmd<qMNVpY!S%Ke=^BYA=h;^+k_kFuG`n!A@88D3
z$=iXiT0ze)N}&fG8efwxMuT_qcy9Pr$R}=j6VdDSBeaoQGBX!{?|ju#Omb5jQ^v6X
zzk&{R#p_{w8yw+OzD>Z;GAl;qC;kroD_&Q!jPY*rC2Mg6E!M)E(Xb<jPKGdg2p>n=
zwHe<6Jcgp<LPsZ^SAip-WMhX#Iv^AEqTu?f?pl!!mL$zDmFoF*B;6=fm_O01J%hBS
z8Hl_i7m@D}h9Dbs8CqwrVs4vo-2BF&E9O^)%O*%?M$0s$0~9WZ8^#K4B<3PZqZ|j<
zJm|*7o}+!@**@`jKopOTl8r;2fmxvp>3%@;SByhq{}`IeDaACE<^O;H9F2?N@Z_{&
z<Jj6lUC}j9n6S4H5r&HmhJJpT>M4!QLD?8mm!~nsWyqNb^79n@4ZZ0liV?q6*4ZBN
z0HwW1!RILWbv)IW8w8VO@<J+02w>@+0VmaiY@B=Z$kIzo&c(TWrJWv<{Gz;*N~nk}
zK}s%CS)ALURFX@8{Mr}Vj^rbITeEybQ1rWa4;UfU%&%<M$Ih-#DttGZuQ&gFI7sjN
zw(C9Do!3&wKEK}c1rmvKuUda%7Ao78Ne-_wzzm=_r4GNm?mwG$wE-bI0dMN>9JqEM
z1$TO)|6SK@*V>mp^sl<s#gl1QGctfbpl9HIF6x?zQw<6Kx}Ih0roV?(+VWv|^~}2e
zj8W@`vn%cFT5J0l$e4e4!~YcQuCM#|QHG-st%Uea^QvV-+z;onY2W^(lNpb1rQ%oK
z{G_e@-J07qnd<gTjc>&SghJYA*_UqFcNZ4$kEN=QXR2FB1kzz`uUsZ)BDI|xzChX+
zSZiDN^`V;P9UIL%)6F|G-b(V|v3sL&Pa6Nddotd-oVy35mKOKYI7t1jw$*1ocJ@IA
zaiev2x^?%RFRiy8Cl8cf!7GvkqepOetWJMiKESdZPPZQZ(7oRJJY|7*cgph60ax&u
z%HGtDr&GO0Qb%4)d0#S6il1O+R<>Pl{VOIfaN9TLF#l7Bb*!pXj^JD7?P`D^d{>)6
zWP44BVj4$=mJR6~8y?z-GhWoYx~@+F!nk?iAL$Er8<>zkTem_51`-V6ZtiQk!1gMy
zgJU;Z4eXBmi2$;YvMA4!n7aUPA8;bVPqSEH0lk4tE*ofyzEI(wV-_RH<*RAkYtAic
ze2r|1dV=NeFK}DQ8IZn$HK=kR|C$!w)2J8=uK_~98?^)J+5x5+qbtFX>LmOxlnQl&
z4+KkH*^&#Wq_=6q(~<UctR7kSbfxTFoOM<*E>EFl0ApW3orNAc2oK=$p#?0lFH>*M
zQ9!sQ@A4^%ougn9L9R6DQ<RZ{&r{?7HJ&mKSwq$`WwLgqS_iWNMegq6zaQ@YF}u&c
zU^ZC;Yp;C!wfA1j!uvzuuJnL@vNn@-*PZ$ACcl%U<Xs<GD0vrFz{tK#Xa9Z2ZmYPd
z%F$U72fS(Z--_Oh!j(nKP_~qkAVJ)brHqUL#ylrD=}tCjl~h{0HvwN<H{mz|@xn?d
ziC01~;-XO{KXKxYBfiw%K)3t}4an~xP;BJj1?CEXByxFMNG{FKUc4&*Q%d+UWvSv`
z!r(}qyn&PV+fbByF)7PQVEYFxPh~&PFOgJI<lKBBEDeOB=OJ{Tn4XOf<k%J)*y4m$
zW<FY#;jJ~0cU8O}j&p(#`j<({p1f2+zFvkmop6-<b#*a@KBu(AWtu2T_oZlbc7R!L
zhRKug<UH!;xAB3C(~;e?v%&d91k?&TC&+~P$;4riNsdD%<c?`&Gdhh-<Ot?jk-KLh
zQ46Ipc;uDir=AbKaOTLd6VE(<=J<)1f@hyUePTR#>bU&BPywdNZ9a1J81n(a2uX}H
z%O)SAS@CZ}gj&UZ08ND(+Cwtw_u;<~{{TVOY%-Z1cm<R52ZHm@gx0?hDt{oj5J?HG
ze<n2jxTM5X@?)D|`hw|S3xS_lT&9wr2wHHTV%a94wKF9&KD2$#Z0cS)dh689Qx64-
zKa_1(tR}dtc=^`nZ+@OT9C;|Pq=%QBCvB#VRBiu5fg%sjx}G<gT9%LAICUMRDgIC@
WxmsfCUViDutJh!su|RRwoBsz`f2T+Q

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phi4mm_utils.cpython-312.pyc b/model_executor/models/__pycache__/phi4mm_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b3ee94f8e53db24d8a2dd354afd574a22cb5b989
GIT binary patch
literal 77869
zcmeFa3ve9geJ3~r%nSyY0Wf&KiN+fs@g@M0AVmri_$DD!q$Qb>0u9jvazJ1P>=}>*
z3|O?+*#MHg0<3rmTFw!)y%8AcBIq_3LrLmPC)u_3_G%Z+p@Yd3Dna&Cm$)i*2Oi~f
zHdR-9zyJ63YX%L1lI^`z?KX*?ue-nZ<Ny8N-@i{!PqW|}w!P`U?66w?cY07Sj}mzF
zlFeedX%Q`=b=Y#A|60#m*>loJ@<5W+GGaS#x6+rSVe5$FykjK!e6rP&WI1XPlfP~e
zZNB883^iN*_q}8uKJOHdigsVB=<r#G9Qt=PWR`Z&CZ>Gdem*VLA|4Z+K9`v4bNgIH
zNFt`;$%Q}4&8_C4{|=^!Zlp|SwM$3sGPbE*28)@An4WE7X0n)Bh?%`jOb?5hgP6J7
z#LQwb^AIzCo0!=wW&vUrZWA+y#VkV1;%#E)iY2~0u@qxdhTk2&e6bw;oXYxH&_Wej
z$RSz>J!0k8ZRZPE8C58wdYdu|S<D*5tlcJN5sO)enDyJlEM_qq5OXJDcIl(9hP1g?
z%3|(9%tplQR=?}NTFf0RW)osIKlwb>QkP?<9v54D4zU$;vkiak_}h&h?O=1&F_<BC
zVqOZYlrEIAXPY)wu$X%hbDz)Yt9TEql&<rYVmC_Jk3Z`~3f6<e=NNQ|2QVg8EX7ku
zad4Zwt69uLi23vuZ9TzDGv2kf)`~rtG0(7exls1AD7#MVMU4(CZFPu8@UDK`+Hm4$
zlto`dQp|DA7YGHVSW+M`V9Zv92#;Fv_O}3ud=`Q}=aWS1`D8K4XA_h0XA|v%j%mxF
zRdjsaecnE8xo$o0IBRK0iKRX>92~g(j5p+)$YVjldm$8-yaQojBq)vz`(kPS!01@G
zKjfeA#azL$u=e1PeBm)E&^Mq!DpoBD)8C_mxP9At(-LN{={A!*Y5AtzVtG$_W3^0L
zCoTO+YJ|xoJZX82Tkcx>8f-CpXl&Fc#hm^9{(wK+-!Ea*ERqv9e6)pp!-M*pSZaU&
zz_2$I>hBNHfD3|f;~)E4!Xu+CqyEvRuvfb13pZUK+p}-)<vqTZVgH4e(ed!5V4&sd
z@bE|r8tfbH_g(i5jD>>|e+;#ZUh;R0jP#F%{llT=(Qzpq8Bb(u-PWvDEF14bWw`yr
z4a=G{eI`YA7CvwmM~kbcZQsa@mefw$e(EfIgb38{Xiva9;_L5^rS<poo<`W+-+yJy
zJFI+3>F*bV19+Y64}@8{v2>+@1HR$m{{FjGDU(XI;`X#eTarZcf!)}L8a(~O*DZf(
zE8nms+v^r~Z&>iNbe8=rpZf(pJ*1nIrKXG7sB|e6&jXaNdT9fjkGD51la?XlS0$D@
zv{U#lS})h5F8N_?NQaa~sAfsOV$%D`?<qN*rBpVSD%X%oo#KXMYB?;0oux<%Q<d2j
z_tn9^?g+E3oIVd}6OPAb?`TjHE<G1RUCcIWB^@oNi9bE-8}?!Ccmo2KkpHST><<Qn
z!La}y5V$ZdQ17OtVP*<F(#23W3(*t3?-sE1v^VtDEE9^^7#AxT@Cm^|;pIxnH#}C^
zC{$ilenZ#%p-c24<i9u)^oy0R#wQeggWj>>u)q^GvrJ<)%H`Z$Yb*sTf7m<Vi`ghY
ztVGH!mZId<;EdUagV%hLM8g`hJ?}g9#hC5rVchL!Sxh@t(Et*h<%P$b$3<Tt><^DO
zSS8vd*}N6lyp3gGW%lc>l`wTIg%oE5w;Ps?Y>V6TR`*Qzn+I<6MpInVSHJd^wal!y
zuFYJV4?oDPUU62(zkPFj#aT$Nu6^zGwanZ%uT5vr)A;?ALOi~8edhXVX1SbM9?7g&
zaaOFk(%;%Yv;WPfR&0fADa7p8`-gpjSmwZ`vB2g25I{$`-!EQ|xrTj%;r?s>fEc_M
zb4&h<m(-^L<Lst6%fR68W3~YZYHP)8_Dx#fQ@#%YJSJZ1Je;!Xpwtu*B$$|R4Y?9t
z;BnF_THjOFz?AJ*mM4HWR<g3zr|gCno1mGZZPKFFVTd4A!X?_(9+`4XIwtLxQD6Mp
zF24fUi@q8naFuYW{Uka>$8RQyDT7Hg$EH$#$(q>InhfP66o^N_E4$i`Dd%L$WYPrS
z%v37cmpX|%)%yU&!!xT*+N5(b?eQ(9Hcq*aSMmha-yP0V%hl(}q<hlz{pDVzJo}`Z
zm6wk4(zhuOb)3qWbWLVZ&jN}$y^R<~1`Ezz^69|K9}=$mq;bJNG8&Y^-auFw3`)W|
z$r}hEfIWkU#jybd&xR$Rcf=pKNN9wQWfl+b*!lv%^IaM91qOTqR@=q!B^HqYU&6ZU
z76$!NC@f$J5~TBa2QKj_jY4P)VQ)xyxwWxvZ{zN+#*V$Oa!5w`90x2O4h0cwlxiIk
zyrOp$fZ4~B3xw9Nq)6S_*wOi_Rs+LA?-nivuL&dGz&NTo80JYs!T_NB1s|H=3uvi~
z5W$d)y*5eLOcg}Oj)i<8b*GjOYrhaghYx#4SsxDTje4FTUWUzsS~}tlT^8yY$Zh7x
zVnes!<*&mGd1T{-9mX&)!&-rq#W{l4LR)idb6ebdp1l6$m)n{f@wriGWq%2q3FSc7
z%k))``M6km%vWD+h$~X9O2<}JIVX+zP>%9*1cOYE{CBG&)mUa}w@YJ|R;_eH($5Hh
zO9WLLlGu;bOkr!xe$_iX=3}pZ_Fr)I@eeMEP&0|ZWz04l3|!=!Xqt*Cc!y)jqh2xQ
z@M3vg^u<!g0wF9EA8_!LKrk@jlY%ja@A{}WAjXohbQ&_H2Fh?J-FDHfk+M$Z8yDr2
z;tPoV6iCIA>*u*9(~joRo`L$Z44rt5-ES})OTQ2t3y5B6oIj@098-c6ht29(h8BrG
zr?FTp93t4xCWU_E`+b(W4*RkC`zeJ4*kx(LU&xEjykYsY*-}t?b9inz>MVGaoK)cW
zTSwYg#eX)qVYk?GKXq8L@^3oloU5KH*;BRZsgpf*h&Z2*s9BC1#}NVB{H2*os~Ht?
zM#XAIjhs=#A}ow;BwI3TA6b$z9XF2hjNEhX`7;alh^Kbd(<*yfm$D<CjvL3L?!5UF
z*<HSHe5pvT?v`EqSJQgswBAVCk(e`ex^3F_FgeNPxbf_#X_nNCx7;)C*)#L@h;zrP
zvtD-AFJ?uYyH=g;va@}ubGb6&d<rGo^EMn7PtNSia;9+OShQ@%jbqa<&0A+)k!{7%
z+_L#ga&Fy?(@~GGaC)_Rzg)e4`I$)dA=z^X)j_gh*;9Gr_*#4CQZUkf<i_!7|97kA
zgOTE9Iip#&wM6qu=f5Q9)!pceW>qZotyUk9s}C$cAE|y?&U*UBiKr`gc0zVltk^0T
znlpgz)-Dx)dDMYdn@CAcJ|=^F1Uc!mgS51R&146miZ381QwaZ+s*!Z!h2tZm!@d#V
zdICcPjaV!vbvP(HA_Yf;OX2WnsJo@bD_!?rZ4OEoTSmpfmiE@x&gRzLZTs4q@yPMz
z$Iv9_P;3IR3DPp2*bHm9l^OP=Vh<oe)qb#yTO`7t8tf9GFpL0W%T%hxBbMesxPLHk
zH%TI*fD>W_0E8Qy5@U2?2I~NgMjXWVPzi4FG~!x*;mx7Bp|^*pZQpcp{L^}UfHG4r
zsuKZ=N3_5}eW7(`^p}nyOrW(G5$i;M&*<pzxH1qbc;OvNYchUQrZ?BS1>+_X2bJmj
zabgGPdl7K?qo|YG4aX4<v2IWh`xNYI*SwNAk<Pn9c^sm61-JpX&#-v1W;<@~pW8ow
z<?Vwq!^l}LAX6gh`Wl=PQP&b-U{WsK2q)qLLcJoLq8sHVF`9vZ@zZ=1XhO1C`5FQt
z0XNXY50jGZ&Y!0x*{e33DfY_w{0$3!7LNRaeptyYN!;onwgX*{p22O?>PS^sE%rE8
zOZs_-nBq&pdP%`rabm4F*;+}($fU)RkDmJCM7_RNj(WpD0#5k@KCdKv5zG#u9x)nJ
zK1{OcABj0>(rE<x7Oa;)NBa|2!?vuKA+>$1k^E-1CNS?z=nRF{FAdXrVV4<m*+}bS
zooOYG6F0#uSI!G4Hsq?Z-PL07YpCV+IdWcsC#>P}pD8uxB^c{NlQH2k&(Y9^{DcH}
zG*8oz(kBtHI470jF72ROIo$-@8r%k`^aXlbLANt>BWNL2((NeSs_4cR0s$_m4z~sy
zhgvKlOT+j@ln_hY2*KQ#gBtw0hVP-baf^pv(VTqnxSY{K;daKYj7VWUp3>J{nQuKc
z^VIy2`>x8h;?mo7x9S$F9~8Gt_kQzaG(GFBS7%<GAH1Jlt$cf@!T90g{q&l(;_`Ru
zj4%E7)9Wbq&RaX*X`~OI;9=LTUGFr}17EiUf6O5#K^%gdW^hv^cxr^Vh)dV|Nh)>s
z3cgMyO(heP(u_)<)VNp*<V~LVF?x<rZi0Rq6g7j!0yslqqO=%^bIChANHh*(y8?X=
zOa1|0NXy`wKYR&P3uEU{G)frq4Fm(CKq;Gl1)yCk>u1y@U^3DyX-JOQ8BxNX*u+vN
z5%qb@L8bR!2d@ZVETl{%z6UVyJmI2=q;$t`Aw{SiH$eYfOJUK?YjfA;uPlh~Ub=H>
z_FAN%WyU@2n6*VS^X6^0UAJ5dy^+EOIkREK*}#SwNOmhy^M#ORx;fA)izS2Fd7^FN
zIm(T0Vf=-5<Hp#g?GJ4k_WJo}H!S#BN@hRzdVfw&8-mNelXedL(9VG$J_9M2xSfMm
z7F~~C!Yy&<NVU*EF<ocXgI#Y2eg(k<_6~>W6jKK?80$Xm>*?oHAiQ%zr02wb;>LcG
z%J!2q>?av94?6e@L9mKn^oM-U1_M{U{|4ii_)^(U*chu+r-12$ks%V^3kuL51`Bgc
zQkabRfHaa%5Pe}Uc;H0ua<=8;P`ABpt*uuL$Xh&~!9@z#(7G|r!`gf!^ny?OflJ;%
zz&Fgua~;=Eqz|U)_&1Q)W(hC*B;>|q7@JGvA6ZdaO)d_P^@qntIY+ip2!dr040z+I
zWu058^GG-+R?CJO1h%ZoeFY;njzg<68(2j2u)>a26X;F9;P-|g0qIA@x`hkD;P4ie
z!jOW+Au<jJr9poRNTbzgz&jT54nH;v{~(4q3?z^d*Np;*Mv)jfU{fgX3FatZO3RqF
zz|fVAg5TFj6YFYl7_t+9IIv6V!Zdr(T{OLfK?$7fklx1lPT&ML2WPQVZN|jX^jQ#d
z83s1yR0l2QGW1r=!JEu6$pH;Tz*;1fgV4uEe~NXIfH0*bk`G|vZ7Hjov>VBWNrzNx
z*zQf(pFrOspQDXp5;8jaBeo&frwWN;M2-UWpC>Qmjy9R+I0*ud2}O*Ej0gRYa2b#i
z!ot}VxQx^si87{sJQ}2@K84hqk*LQbM0)Bbq)uTq_k@YN$u84c7KRCLVwdQ|hE3E%
z!u5{jcaq*CLIKy;tdn-B-_Xy5ZzWt|!o1iuBq#yH4@NObOj6n3YQ7jpjZyt;$z5yL
zIEdAT)IRAP>cluqB)(A=F54v;BB`U06Qy4aC@fLX90o{6Ku>7MG2oW{l;x{*dyQ_i
zv&S5?y|jt34Bz!||LC=TTIT(2A}5SfXdNO;j)7{(XDsanVuc-+B#5z7zW~P8h%XH3
zQ4M8iCyrJqmUN*Ff9;_67)|{O708PI4GOWEyhb4}-DqD8(HiD(BMxgVO5FA|6n2SH
z?ZUtVh5a-eY#UWjyIv>|+G>>7K5!QPr7LT#vijYII}K4!QPfjBe`YQt>M4nOvZ6)R
z3s-KHf9i5nWlZ<})Ls6m$5K`En3#)a<ichp`U7|QhR5R0ogKgL64pw}Zg=16e&+zt
z*i+H;y!rh5>E-lt&#gW0?0f9Xg8S)6F1)jcVttZbx>CM>x%Wq>K0390aHZ@-B>Uuw
z`{dua@`=F!PTCJT-`#&_|KgRUoy*=x)zgvup6T9i9DU5kZyp7=&0VksYOTS~-vAWd
z3bnonLGbr90oN2E+5~eGE}e0~V$dW@xWpv3^8XdmlW;BJlFmb{l`JMh@B=tKWI{~h
z3;RBpOrQgC0C5v961b@OnCD{tR<si=-&BGL<fjrS?v!=b8qmsm!a6H0G_QmCTeF(+
z@&i9c3bUTPr1roQ)@tjXw3rE=)ZESMYyQ@(6^OY-|EkbeY3FIR#3yc#im)4|hnk0Z
z{mkE*)jGaz=EUfx6=MZ@@0i$~rocIKo*l=Vxuiymc{iC0BeZQH=Dgq^W*nwI{R<@d
zDbTSQ83Q;b4y6ImGT?ie-VM|3BHd2nW@Pbk@~&_b#8qg$zoO{h0l)>V=dq+`ymfr$
z__zEKw=ivux;?Aza$>MsBkoE(D=dQ(_g%Ho%p6GQ?`M`r^YXuSWxirwydAt1Tq$n)
zy(=pPt#V%5QtuCset1;Q+aJx%`<8b;_jdWM^2Lr14&6Ppd`8}NaHZ(rpITS)d*s|_
z?w$L|i$8u*&OHTgeO~srtQ%>T`~uTFqXmWE$(rxI{oJkR7R3*OcZ2t=a&ym0Y0saw
ztrYdj1&1FdTl0=uA0}I}vXP4?_X(@G9RAVdN0U!pQ3x@fwq`%Hpt^I`4d+(XT{`!}
zS3Z1Y+ia0r7td^#GK(LAOwY8F)6~ffQ8;(xu4_wzTKW<OGiD?D<B7=XmubGx?O)O)
zxQ-j+z82V>8wV^!mC;fmT2T5hv(f&Hbv-A4!%hK+NAe0cQdkfzFWN|D!88jZxLD9_
z$uHhWXTc0hR^A3nkGYkW@$)S9_7!WnJ&R~_{19!9AHIcARR-{<U8>&CBVuuErp-ln
z0$mRD74&(E=p1x2nmiRWxgAQij8+Ft?)tjzd<vt<omjN#vBF;8X!sHl<Y#?YV%`hG
zj52Q%y}PgrZuL>2(YaI@1RP;o0gz-|c*0gUQRPI20rTRNdn1$X{u3e8MQSy4fPDQS
zwb}h3+xivid@~KM(43-waL^}_;0V-bYa?r6U~J?97!$!k4XQCXxJ?nlHUIE1N#_}l
z19Y%gWere8;<Jk9q7g3JCJMveai5exn+DP25;Y6NZCHTj0;JA{nksBKV+M?9zU&_z
z^@)032BLLyPZ&OGwba`>0&Ok-=&;`>ZBD6m6z8GzgH58gIV6Z<NHxIJ(VEe%q{~6r
zxK;%9X<V0K00x315cT-jC|vT3P~Ot>Q~Hc%W?Qe`G==0~mD_?tp|TSUGZ_6Hua~BB
zLb{=8pa}nn7KoMWJz+YrB%%{yxq2+Uza$Z#6efTX?a`1}8@8wfCV(T63GjFsBFK8{
zq>a!Hkn|uaC#~QgD`mwo2!M)S-h<jSY?~j?4a@@kGqMLz2EUlntj5$Bw-|CXL5~c?
z@|HO?*c2UwB-Ujy$3-bPHX35+0thq8)gTJ>;W3sXauN_|1P?G7gEWS3kO}Lg9KB#e
zBweKt8xcmuQ3Kejjw9kKdba?c8ZlRhF$>KgF%fef12OkWLD9|exp4^a@qeYTQFb>*
z-33v1dNj8rnp65|dP-p$s699774BN}-gmVSy|wSwK2UiprKAE7^|TO?$NoQZIZ8p}
zed83Ow?1bjMc&3wlP#q?ZtuUf|DC7kOSGkrz21UU0<h<-rb`HHr9GQK1QGK+;ewov
z=1mq5PHp`3C~@ftX-t~v*hU;+iZ$|~PL{@zH5){U$d)beK4Hs2Qt-b$G)8U60QjHV
z0>RIznN#ywZ$8J+y;WC>>}pwRyYK3VdU9_vJ&d<Ar+cD0T4H6@xtqE*QbL<JQ>A%~
z9GLj}65T9R9l~-MCXxqCq#FW=hv{YZ=Qs{R0pK7zn>JEdkmDdMm}V)j+;Fj=+mfBP
z!4g4y4a6gpy*-%9@eceD-hm%JAE@9syrYV0g6q+5<F*;^;8FqoE*6^OA;3kPkQJl?
z{~#R1g=aVZ(jjxsz+WcbdGMEozicsQu#({{xxiVRVv(2!TqPBTGifl$NdxXufM*xO
zUEG*E#j!L3?x&d%fOi~RIQ>!JZyClBhlB_h$eMs}2L#{$iJ&72mufo<<RGCOo8!_R
z?iCEXX}qX_!7X(&gYiLF7$qSLp$UxrEqDh(R|z4!fS#hJ6t3@?`fg>qr)}Qof91$h
z92O9d1|(um2_i=$uA{ezb%_bG^f_=PWjG92(dPc(AK9p=)uVbD#zDbW@D>9FF_&J|
zC(T$-p%0giTx_n>FO7`F55wof#zZMNN|RoKNERBj!$EI6=Bs=c=)2y)&mkhB?pDP-
zm%LD}4FoaOA-2}#)@)9o8S%0o712`^H?@g)!5bd9)E~fLeI`+rm+3mO#FQ5JKgJsZ
zF_TqC^-<+*Ow^>6t*9QO$FPjIKw?`N><bPK5;H|Odsy#1%D0Vu)irI;9&Qw_fpqW*
zBR=R11D+_TwXPRH$;dney*7q<#Z-ZSr9%^ITo{AV#IP_hCNauLtzLYQ?VrEMU;z4I
z42&B~(6d(xgrfB0dW6N|Ymk89Kp@bp^>5o=t#kFEV8$+6bgv#u7p*cvP9cW*{u56#
zD1+G@XUsyqs)_|aSAi;EM<!bp_xXjjiIP@Dc<Yao-qOfi^O2#6k^ZNKu}hia;J)c2
z#yNZ>D<+XKEzZxjjHn*SP*FwWT!;A93kK-U1}2gFr_@!i6R)kh;s6K~`L5Co?7O6&
zpSarNOHJ%Am6XJSV#GMxUz(xEPV_DQ)8P37jH57+U@|4(Q!o&?u9QoO#z#RQ53{wv
zlasU?OOghF*G?Fff)^pTLSk(~v-(pM5lT2BHhLvaBW%D#ViWj7B=#Pad?Dg%U;>W^
z$FM%I75Ohh<!9Icd0Ad+7wJGrVzh7eX3T^k=P~tzVJp*#teD%l2{6G~EKP^5F{cVn
zVrlw1kEQ7gP-h0ma!lqG(?Z9<DU`J)?gUy(L><vRkG{THyq^78DeL!uw$l|yM?;v@
zuhBt_64oetCa%}$;z{T~_G?0+$#gtvV&%yUJZZw9$xJ-Ccv&b7!sC98jt14GiIvqD
zy6zs#SyK_4s9kn3r2tKoFqtY98)$PuiDdZEsW;@J^<%h3jWX#r^g)jL){tkt`cD6y
zOfjU<?T9=mK@+-9I;FHpj|3h=z%~iJZf3!h6>zFyF_}~ern15<YQErdB%^hX$*lKn
z29*U;y=511KNy`_NikWd)KE{-`%1WwpJtPWx)rORNvu8Tfas5?-tukouueJ{?`6xJ
z8tjVDqZ#>gQ8^K14J8Rojacd_V*d33gNUUuJ|M$H*fNw}r?fZd#<&@}O!}YGJ1=gr
ztbS<Bz?g!G##wslYxI#Zr(DkvYD0NLe(t;w=;sk=@M6hWcCnORj<tcS!UNK8QDPz?
zV;NwyfJji~?J)-j(J%oCv_ojGb6Qv}Sp{!UVkSOkJeRN1Bh`{u>7P;P>va1~x+S!R
z6|8e<Xws?RTK_dFi{?D5k&GIT<||map>EuWM^kIy(U2-<<E_Sp@klW&DPSU9REeLA
zXl2K=?SZpg`z6lG17{<&OPPG045=ZQk5+ZjuMo{I#cS8P)4l54Av<^A)w;pt8ZrOI
zmA3{~P2a7)#eI>|PH<~Zf09$Nurrd=gp|%Tu!<(;CKei@c8F)UlHuRDvi`E9V$Qqp
z<)t%sUY|L-UQoGkX72UHHaWj>`sgP+x)^V17vm}k;3`3|Uk;Yi17`^d_Bl@}npwC~
zy8nLWeucTTQqz0SA1V35tnJ%Qn1Xl?kSPeX2<~UrD=`+nw9<B1t~q>fJW_H-jmC8z
z<E*g>mND461MqJ<`%;zbcb(v+##LfZln1-mlTCd>JPocI>?gIfYCIkKA%zBeMJvlq
zhrUMGYpRUHSNN<|`Xj*DTs?O+B>4@s&>)xkm3D<84f@2r)f8mn-fHkge=A~#7&3j&
zRI`k5PV1SiQjis<<P=FMOxtq;uaJ(h;rZPEzbz6SOhL@FUGX(VD@*l$QbW=KT_Nf-
z_P(Izq5mR>O8rR<y{F7a^qV$M17{37;x9ewC|6KR(|^rtgSRF#)4<=?>WG+6JR8~0
zwuj9XZM_&~My*~eHH6&FXSGS0s`fg1P+Pm>PBy+;Y2(hYhB=UqeBw2<EAb7qq#M+C
zLyc-k{}nZ?!+?DhsNa97(n#w&;W8~vQx6<>Hl$A6OjEZjMj5D9P>it`AdVl*V@X35
zY$Da0hemg5NeP`7eIg0bpfU#nhLOw$#s{a9gaO#slD?~!aBJq%5w3&5(2)T&>l{N$
zenu0iuc4Tman#{~_V>0}GUz$!n|NeO8nJA}AQXtkfIrNNjHNOLNI%7P4*HpibsNW6
z*p~03#6(PR1coq{SgJ<o8FqgrxBnJJtf8BqBHEza9ExSD+I}IJfe-r!$NR5IG;2&g
zT!7^OVI&4O57L`>o+ve935lrEpAfq65I0~88J6_Sw@%KSeDm~1a#AV@Y@8bw1ZF#a
zdoK&ji{Bkt6dyGAz>E{Rcf0QF`abq_LLM5LSDejAkTIY8-7=V>thy>?SLK2?;;MsY
z$y;B3<I8Kc_3!%c_@lXnH~Z%L@Uxn`OU~V82;@b}Dpt!n<g$*XD{|Rh?C^Ejv$hAG
zDzN+!J!hw!vvcvx{ha1#b^UDbw@<HEH_*=~pEYCXtCSv$%e|s@*7n=!>!boxcR#ak
zt)$wdnm13+oo2PImUF8grP@nTxo<nsX{C)Ov9;F4C8LNZ=T1IKPodPm?Sz2Kll#_J
zX1=nJyIQeVuGo7&b8obw2A?ui4CUNv%>lXQz_R$Gz(;{d$!RKdohtn8j8AHJkp;(U
z?OwTd@1NxTsQ9Dedp&<#7O6ct-TS~@wU+R?<fD>%Xa0Ccr1lu;PgZRqIwQ1#R>Y$t
z*m!?w(b*utr?!D3SLM=)FQ$K}p)%@sEP`D~scq-_d!R0~-IuBwVhoWmjYo)tD?v+;
zm8KD&dalyTC{0yP(O*MjPz9+|*1&O)R~9q>Z=#jpA0vh=LnfNt%6G(>O4>3H=04*w
zdGPO)2N^|iXB7~Do4Lt=Mw=}`2UH_Q^~M?7hIVZ=1}5m=<}qNJpoG$y##Tpy>w?0u
zind)C9ePN6p13t8Y=OAeJZZ0(AzCEtE!TTV4aMbe8LCj<>%R#xGz378p^)jbD4|M!
ztA-NNSF7*!U*oLTdi=3-U+r;}Xg2GgyvMg$8&5cLPc$xpFCsVEh7&I6`(vA;Yl}JW
zh@10Ut<{um)++ywQUEKgLmJ}63T8LG9t@h8plfj>Ns0l^iDUX6EF9rBirbkE8g&J9
zzOIhK^hp8KM|vAKSO(H`W0nZgw<&Z^y*1=ZZ%~+VC~i{7OSc<zyG6HuNw?pj+y6kf
zQM%31jj>NsE_p-VFs%Bh7|z3BDAB*5$3eP%hi;v?!BZ7?nIX;MDb83i`FekA47WBj
zL&a>pYgBv1|BQhSy^1EOIt<UvJU8DHaqpP68gPsIz%8J}0IwADS#P^YiGd*+^WoL<
zF1fsGIqQCTH&fPJDcU!G&VX60l<dQ+KWbaaKOpBmHEX4WUwPvzv^gJ}J2rpj?UQrX
z_3WHkaW%h5&Tm@u%K5EwcI#5d>h2Tr?h_xk$-7U>*{7$UjXqH%xRDr`OP%gncc&Ya
zao0_hareKmf4*b2WS3k*42=@fi1}8<x6Z5-w$1mhmNv?zjf+?0($<yYHoRKNZj(Lj
z(>-gh?Aea_ya%pwM8BCjm-?NCh^HFe5!W~IpP=}A=#4`ZBYiG?-W%}<h!2ln$7YVr
zo_X`6NjG!H9}7M3*};2y>WwMZx!=iJDLt@YTNU=m!k*;{S=hg_;{aZ%oeQjrcW&Oz
z<8#Nq<B#OlqsR5GrU&Dvbwf>Odg#eD=bG<%J7d*TD|>3cHwjlE)VQqKUXEieLg%<y
z_B1c$uC^VM+m3ylCAXcFJttWt>W}$~x82nH9)l{3uJ4k1gp&n7BPx%Z?Fa~+!|T&D
zkJGnQgo)Xih*y#*;g{$}P?F)?+o{KVg(A}JS(@pjBg52V_Ch`8NRp+nELtK&3yY$~
zrO{#pDoAm+x`A|es}9(o=Xx^~06(it*hpbPC#le+vS1p$b+I6HcZ)XCSulgNX);;R
z16MB_SuB`M8ofCzm}|)^+Q?(UeA50cV8KFC4=!TCVhWb9U@1i?W5FGy9$e0Xf@MeL
zMg<F2QogLV8`Y$+Q$uebO<MQck6Sk;tZiIz2S22^gCCBKQkM{Ard=*2^r#O3GsPXz
zWl+_z!;}~9$l#1Djj7%^nF((yOn4p4gg1>;a5NKMxAYD&^}dGQS43~SNDQZn{TM;{
z8SQAvy%kGG1Ta(q$a&}E%x5XS4%;=!sg?z0qsxXgBAIzF)YO%c%vAiRO13n6SfQS4
z#i#^%gI=`3f-_Mj7+0C&gNl_ZQRDH3ujK0s1bZ_y)VNu#LE^}%U}oK*^SntU)Hh(H
z4k*lMkFOz+pd1SJ-e++z13X)``LwBaf?&(okTJV-`#`b?H85^8JQx;!$%=&^u|c3&
znV^eF1bfWEg>=lAo!M(NI1F-ugcdX9ODcfIHBR?3TVo4ojQj)G|3Y1eOpN>tBO@Qy
zW&Sz;Lh54ovi0u4<^7TTqaeLqYX!yg?eo_o1@H&)P4^b$9d$43;v)z=A$dpf6D}Ra
z0eWMdIHFabguu)LgEnpAmk>1^E^o|{8~7Qxi-I0!_mZWRq#_GPsh<dASCIv9Fy^gq
z_CethThHXo<b2PYudg_FunvKX8v#+zNmr;GV&NIRxe`2JK%t59d<jnsEV}`gtGWHe
zLszQ3f!R*r7vPsnCn)43c$i8d7`qg2P%LO)0`8?#C_lws&b{806S%_@9~~-h0Ds!0
zqS=q0$178CXS9$|z#TLX<1Hkd&`wN+H-l8gLIS`L9-~|ssq~oZh|eb~7^pWH%``kK
zdWIY-AP%4kbZ88I2*@%5<4cYUM!m4F(A}wS=bJ!xD-}N-L~_RKgMqxcUxIk}C_=p=
zV5W-CAuZE}(LtI~5U*%s#j7_c5fap~ba2ZRShRUeGgto@4~ye7-sB&af!)XWg;o8F
z7_x^-1XC1Z+8)daNu{D+G8hOvMIQAk;|tvc?e(764!A?~$%lagtc#_uV*YU%<!cn;
zpjrcsctvC<gChs9eI|hF&Bpw3k}#$@purT~kFXhus>2xoZ>{{WF6RfBhwg!0m0e6Z
z4EdR`VkV8>3FAw+biXo&d`#pJC{>et8)7~-N41V<iHg=}KF^Hag?=A(l0Kjt?N-tZ
z-53o=;3AfGmbvf@`@O@`Tl9%-L&>mLQq8#a^zow@b8wdVV=cLJ4e&tQihKkPuc0v7
zii~>y(SjXJhRc7*KM+ZnuSMW?2omPCtm64S3r82vFPB8J4o^GQa`J9IHTP81oxSGH
zc<aQ>iP_1ByPCqVQJlRve=Xv!GkyV+H5XjyZ*qe<={PD7=W9qq7aqHpZDRoa9_BAy
zV9h15z3h2I52(ADw%R`*(T;uXe?k##6dRH`en72>B?EGWXej`;a0hCq@Gy~MsDir9
zk^C?u;49nau(QG0;%xZl>vOL!T!|DkL^5_xC$DE_Pp9#%<vqlN&nlXbiGJLOM<@L*
z-5Aj#QHW74RFTK%^#70anQmvODi;u7yJHr1$5sni=B2{J^c;KIdRFd+9lzKep|hVt
zAt%ursT4}19n(c2ZdFJjuFy}RolbiW?UVSSeG)&sF;r+Q4bC;gKA_W3+HgR>3j&u|
z2K3*(!~O7V0RNU@Z_EKDQ2Op3@rOciqSAlaHy(;*js>7l1}8f{k-tcTAB3RPKN7ka
zit|uH9YBANx^W{5d-(N0XetHnfh|`p64a>7+*#>rKUT|l(s)us^2Go11=#kIN-Qec
zbSW6TOqys=2o}k=wbBZvFL%K^aGCHWrlJa|64?uf$CYW;7lb0QwgJ5e&r?wL72(qb
zj;G)^f-9<Ch5y*j=62!2SQv_na1;Z5;NXZqOky+W!;x;QK>_<5>BXXEu&G02$u|O@
zw@kDKFGM3k<*2U`eq!J!@-@Aluf<hVs}AYZCRR9>H0tYv8`k8};3&Y+AENW5AJT1^
zZXeO@kLdQtbo&$BV%Ez>pAvi#;9LQ8TR(N1^kYQ&=QQ7H5Wv*0w4`Rv=FX(w=!vE{
zr%!zK^{6xZt&EwB*(*PF7D36w$-O5GAhvd?(Du=5cx8rFnR|qaBO@KK`bYs8NuC9X
zjC8{KLw!#43{`rr^LZco9d3_%Fbq&94hBvIFZ#pJz(bJtEVfS8iA*@ENHIye$6R>A
zz!8)c+!nFq(5VkWJ(XP9lXD@_7aEZK7ieGu!dXmcRqol|+@`AHpX*d`vn^bG!pA54
z4Yzjf-L2zfm=waXv5Ob6Vg})Wo?K4z+Mp6B8@LEVLzr;_W)GQ+4sbeG#rx2>OJf(B
zF(+Cs=^3@)WDC_>b*Kf#Di>O=b~Nv9ZEkG|Ndqmc7viEYWH8hc?&POI&<YNB;uMIg
zQysfIxoy?yAgosXK2V!#*OE8tGdoZI#yMe^@QkYY{S1>f!+*3FuBfnN04Ct(k@eyQ
zoW8*|!O^zOJ*~)(!OMg$I7y)aLsY-f$FBEX?^BC7Mnzz>STl43giAiJ7-|&yl&@H=
z$Vzv)tt{>1by#;JUXd+6=>MYSXcmOs=x}D_O4A?+ufBfx!4fd2RCNvunuN1t;z~ZE
zl)7FR8@TKX(~D5pH`**bmynJb#`q+H2xzaeg0-n7Lhs#+3X=0G$k~U37rjsbx-_Dw
z=lTOAVkc+{5JTmJnpKToB`4<DhCFH`^(Ei%C~PU<G>>~27cTmMvU`X96Rc?*DQyyt
z3qxZt-4Xo~W-)YtNd+2J)8{)p{`;=e$g&}0#<S>DJOgTpL8$mDWd}gcm=`6~ceIAk
z#n)*dE(U|5;0pxDE?#2Ltmo|Wcw`#H4Jsb3C=g%v`9?#+bA5d;scOhf_O9@0P<0wP
z=H#4dGJxelU^YYw3SKBMW0=sBaK1&>(B9Da2sS6|N!++vLDH4FCoD7a6b_H+r<x8v
z&*t6pO$SdgXb^(yo@Sv(%S*V1ei$TI(dcm{uW`R`SVWOn6cTze1jA+KjBI3_TH%xY
z<R2K$zgYBm8VpmnpH14$R9K&C3~pF$EUHo}&e1?(Wm-Hgxe|qD2n{thAbsWO3z<4k
zn_Sw`BEpL<<~v@Q@oZg_c|V^YqpEwOX5kraEnwIK!LTsyQ|F434R=lN6XDCA1`W}a
zVPWg8sSUOxe)wf4+Y!n^ne{aP{qgoS3@FxPh5;$zONfYNc=mvi3Y@o*t9w+JO<-0*
z1Ha9fXmh`v_FngojE!J<DA_(qx4no(rwt1=)i5+qHMP+Mq^7DXZXk$5Zh~Y`4?sh!
zM6EA9Q=Q}TGIa2ZmtdG~$XkFNA1yJ>zm-xFGjCT)iOWkVFusK}BMgwo(COTskB<rL
z1>&+&VHkD;a4N7VQr@&&l=M0ctSuhS-i*ryEkZgtc;J&$i%Lcd`U+N-cC(;;e~NK9
zX+p<$R{M48AMQoLF#K$K(U4*)jgfUCTj>njqNT1(e5~!b%Bky|z=^WFsjsM^3IOAc
zjHS|;u*Dg38HNYAuwjD29lZ*X6r$e9e<ga8;lIQaPax_y@n1=kL05B&C+e920OiIm
zW*nfE0~}f-<kc8Bn8<n=Se}u{M?B3GK#wOmS>9Ajb_HBIGeDQj!o!@Y#5<HX309bC
z`N<QYl?IY@)yJ@A6fi_oRKjK63cS@?ttT*Wmo+IoxXUp7N0TiR`?0&n!$7`)a+rzj
zMW5wZW(r6X;Pn;zITQ3YxD2f6KS!3*zoFZ|rQ1(%i)HqQfH5d=8nZ8!1IpsKisbo3
z<|K}B8)B)4F>#p#O2w@s-+EQ9wn^@soj^m%;HyzTz2<R<u*O~Zn9zHYMJF=4RSk7j
z1-%rE?FY^x^>umGYI%!X-m+97m+z)8rEqAp>MFkvNoe^l(s3&NB)cZ+ISq$AIT=u3
zOV1z$aOhh>)=SdY();ex1*`0?Kul7%I&ka2qHVQ)uUx-(x%x-VA2mlxj<Zw5I2F1z
z|KZ=F1w<~I5r;VaN8>OUPPQ_cCd5-Ro0?&oCG0X&h=R`xWig02^b$_dEXqkd$-n;6
zs63@K8y0yovt_YQ+J{t%ORYG5$v($yLAxw`;hTR`m(J8@%oT(?mKv#wnU~7H8*;ap
zDRxP)yP0wXNF_)E26~ggbyP<do=ePt1UyGLhD=nih&e+S^3H}`kGa|uvjds{V+Ln3
zS%!*u3gdm!p_LB?g_*4sT=3a2|CISLRAx-g!=iTH5-~Zz|ANg<Gd|tL5s0GiDqLa5
z>>@d-<QgS36B{yd4j^zFuB+OCH`0HkTN`dM7ac7EHVX{xhB*NGcl5eQfj#{yxz(@2
zG!CGWaS9>_TK^kmHA*+qDN$LPj9KQuMuucD4<QxI+(#jfW0@o1W8l;jHPcwurgF#=
z8@cqw2`ri6PO3*gU~WIX+{}PrOt6XS$3ib`!o;`vYXV*;F%NE7*0Zv2=FjENTi-4M
zud_s8@Wion<%icly#D87KbiRP#DkLOWA60n@bpo*Mk`Ijk!et*MMPqnUS0D3@Y08u
z{@nMIp&t)DC_V!S^{omPu_SFelO+9(E6oR?xw-;A2cDW&OZUm8`=ahL(j9G=E816t
zcG=y&bZ)ith}?N(rQ-<TUKt8Wj1FCmHd$y}>XC&`+1<GmUfpv{-g69UEqhLBNz!lt
zoB~S=>SvCv7nH0Pbjk&tD_ut;1;?h3k?**JZybykl;513n|%8#h~mzjx2+b|%Z2q&
z$tY}+-A&WS){A$n7VngccP{RY6n9K#MvEI(i`(Slwxx=tGt1UUarbI*uUy=F?@Xll
z=yc|K<_=X-Cq*&-aqM1A<nZ?l+=^DPY%N2Gm3W0-WxKovHudi?w}a>ayS%b+0UiK!
zfqMW@nCYp8HB7|}^s37bwJ<4*bUE4bO$uwu|Bn}OK*w~aA+8DbGifz^&(PbYhIDa>
z3ff$x$7WhT^aW}SZBjBCq!0kOA$K$3iK+gc3d{ih0ru5C(T`Cx(}+clhzp%?#pgh|
znb(|eG}OPJf6N$P*KTO9S#KM^ldL%5Vq2QY$isvan~ypI>Myo1<4h<{$PACzLgB_r
z1=oD;FrkEkDRLN0;JG1#tML(@7fXWIf*J%E1ePAqt7MR%u{7r7w}04w*$0aTSW^Ek
zeX`+*gG&rF$5IE!aI7i&ZfE`yR4k8{Ud*GxP=$Dp;XJDAFn@rQGUoJ$`a>fi$701=
zG!^>x`v+lViL+lr8d9hTHzLS)qU*6>b<2&yid`(^V}KU&gwirPZxT`vSQhBGT$b#v
z1TGhKm#$Q_FP)Jqx>kj5S?FH#<lRi0O9ODL$XJILNsl0VgopN|iVFCAOs`mRmjVt~
z)V`Z~Cv|1#{)liuc9(sE=b}6CL0s{J&ef{ja@FpYj>C~E0;-jSOjcy9xXU2L$SYdS
zC5wPXtDM^~of^%lUKp2iTBn_;Wo^rvJBx%{EBSR?moSpwveY2w?~k|-tYu_#8O~}!
zy<AYgxKA$Vh-7ra<z;#oGew~DG8b?R!!Fb`z3CSYiz|Jm@*7`#>-^05H=7@(+G>kd
zoRv5V3u^vfy7Q%|yOs)rrsPU#*RpMO?=g8V!SubSBJR_V?8&v*2`V9fNiF*B;oB!~
zos7D3QLB}PXBo&xKcv!rL<q95;^g`X5LLBe#QcAUu0H}IV@qL@nFxu-+Wd^5Kcg>n
z`!3c_=qdtCj?@4-(koVY`66w%;_`>CJo^c*>P7)n44P~yEC_K@@kS~Orol2~gT=&9
zkh%qX+bnQ>3;Zk`d1S%QMz6KnE-ZI#SnzXi@E7#Mv3jb=0RFTqRS7-%76OUV0!`fv
zClA5%6V8no#2G_4=s5+dW;i{<mtqF)SUj7U$~-`A8OJ=WB5%-jINY(~o(myz|Kj_C
zf&h7k4-+pFl%3a)6{3C?^zWQkKs+oiaNs-xQwfBiB?r%UEQDih!GKoRHiC@nfSl5Z
z+#~J<&RsM;RIF`JYZnd`+tbyqOB&)ik6UVg9H&FC1fNQZZm-$FD#Pec+>DAH+6RJN
zU`aD(+ZJw6PAhCTuAHRsuT}Paqo&u^+1lF5`KS^TwSN`!B$lG&uW(h2<Q+l5Wc)q4
zfU!y7s@M{>+Tyt?hW*Jz&mX&^u^bdZm%0Okmx3LVUtw)`Gb3|MiJPSNHNq7+sfz*!
zNaIQ4VxR_^p`lt9%oRbj@XO3F6OI+p4|JK5EWkq49aD`5R}U65;w8L;=cBio<gX3(
zi8|;hK@vR1Plnc4fx1eB;DsT`9h%{_-#Xg&w`wl@tVoZ6nZm|*9p6FnT#+DmzD|N9
zh4i7m=PDSp6#8E%S}K<b^pE;t4(=RU+C%RvL2+CJ>(3|kCrE+gMV&bOj?g-NVo5)v
zM<A`15RE2HaU+MNN?oj*8>#VE_F(db#*rBOl}`*OrE{f?wfthHO=x@9ea9WiCmVfe
z5|-Y)K6ib!piVBRTWnk@sEZWrVTvBvbn;Y6)afRf>u-+{?!WLXG!9n_TI7P3CF|0j
zNWuOG&I5?C>THpnEq{>uQ)l-U{1XkKuSZuhT|`te@%rlTVek`Q;@Qltz0LpxCxw<=
z!li$wQ-7tYEpj$lRLIZdEm;$Xs<y~QBOUZgnDcj-O>);3xo8V7E*F!!nCFcnNfZPX
z%T~)`+^Va;n(<w>>pj$!W@*BumNb=Q$lZjDfMfV=M#pe^yb0^|eGNr6<E`jpJe6#y
zhY7i1_-bBD(^iU(ZEL5Dj&9~=>ghnU+BWY^B7a=Ws89uiI6WNi_+{oJ0E}_wzgCS;
z3ecjJj%dKI<2REBlMW!UArB3Fs=0y$*(wjpOUq+2$+YKnUJ`VvhRkQK`KmCP&+j|c
z`4m5MVPAgsc{q21&uWN3Oz;v_$Vs3w9^Iff3A)E=^o}mg3GWIzgEO>f;lQSvy&!w4
zi>#Zb|Lke$KOofLVGv)E5$16i7i^6l88t>gi^Fl^k;PJ&vB>UrZYz}xp{%q{G5(r9
zCIi)qB@YBcD*QiApV*G#RGS!civFwpBwo~Z0)?#FK;(()$Ls{!rqn}Q0dc9B5*aLF
z_RQ>AaqU>>cz4g8J?|d4b70B({X<|x4SqPdeCA*K?^hin8tdB3wYR2brWUO4rrb$^
zeKg$u@436@gM-jLKl7uPK6>f?uEWvd9dzO#ofWv)MqiiPezf<az4JRG#l5g*P9dGY
z^z64@o_Tpb>vsOF`~~YfMGL*}p1N}?lHN9*w3btN^T6DJ1?xiFyIps>7AwBL?+*_D
z@brhLALKl<nsZ9dIrZ_GNX~Q9PKvm1ZXZ!P%&#pD4>)z})MCXSbpG(E51)GA?paf;
zo(dwK3SI!53$J9f5n0v#C^;Dlh0ae&AB}B#&c(g5usf39F`e{A+q8FDoXwgRr}xab
z*78dpA0Y};`B!FMnXh=We>y3eoqMxpu4ewq?d!L$FJAfJ+TCljHIZy=ncqxddtV$M
zi?~4yA0+Hzdlh_OKU;8c6l-CV#iJ~IvS8GBPbf^ebP%bs?-@6QN-<ruDnJ2yIC)~Z
zN7N-!26A9K%}9>YbDRh=)JxDGC#i8gbB+d)F%%RUh34kw298?OnlwFko#Ak#Yr@W0
zC&e6yo}VN)Wrf=%S}xN6MK@Ytd;!l==p=5NPui$_%)(Nbz%S6Uq9u!Em1{{&=L%^g
zs&c2#+Q@(n_KV`}i?=R*&%0QH1=4l5YpLSBeTyXv0eJ^8VNHz{8m#{596*}w)Hn&<
z<}in*6>r}u3K4F;$;jdF=q26isn)=QIQb1Dhliz3`~C$SyNI8qPWE$eH~U$6{)L~@
z+l|~D``-CZ;%skN5M1niL_Zrl-5|L0ZkOIF-LN3ISo1;S-Ns)~kfVN7+yMTxOP#Zi
zXiM5eWG8{NhUj9@#z<>B4#DOJG$#8TAcs>xM(c+@IAeLIp{el#be2eoi9CHVcVZKN
zN3UD1D(@jTmB6o3)R5HU1{nB%k&Z41ja`5y8VCmFGL%$-6nC@ZP%9u}6rKtFfva4J
zinKCtOglL!x#~CQHR(PLnQ92Mbi4wRj4MZtGS_3s1#g+6o2fPqD{YIT6V(i;J|u$S
zRJ=q>T%kLS+(@DqFvONepWv22cY=zGx2F0mbf*D@(CA7Op<D(Yv_j`$1J|I?<0)E0
z&K@;C{ns>S4PvRsho>3nH`X&W*O*TgeP52bE<zcRX%2e>(svOdmae?PAcw-Ds-?{`
zVAL1&WIXM)!*t$hWY-m>U_jv?Zdld~WEc0ArpTM$w}0Te>smSysXr7cd76aSg==Ny
zw_myS%KJ4R?7X{k>3n48(~+_s5<?fWwG?yk84|ap(6F<i?nZzl(dN_yv8D0FI7twn
zF4{_%_WO&bjZ$sab=bTav*Ohv{t8V`1w3o`6;$B=3(Ao!m=g#yBG-!WW_Vj>S_4%L
z{u=eFfSecxlT|REyIRyB<G-h2@!V?DAsPQO53M*4alkW4WfJS&Xy*0*(o4DxQf7pm
zF$Sa)49Hv?j>K62(4*hQj-RvN4Y$Mov~_-P!$QA{`M+Slya38(0Ds!0ihCdZuXvRR
z*>o54JOnrK$$)i?m55&l{!)B)pKSv34$MTb4DrWZ&D-g4oWWcM5!1=86-vuFa69jW
z+j%EsIh4ZfgRQIj#0B$%a7q7l`}s7}*v`%IDW5?HD<uo1=nm?0WA10!VW!}%;0zM)
z`<O*+bbFxeNQayfq*L8G!5cA)CMtfIeO@Tkk#4GREjR`}MW&=a?1z>*c5?2yT2*Bv
zjef2KOPa^n+@Z?~U%aFq<{J$25&^FvUl?O5jZE`PQ~LtQ)ysybCY)#ib!eu~qAK1F
zsxO$*8t8~V*lUr_8r0g9s9c?lXbkUII0%7>>ZvveO}Wd!TkwI^L}@t$(waYR?s%Ft
zSZ#{ZXwuxF<5<0can=`P;ib25%j&URWEi|7nC~hoh3yUT^?kYZRiz9li78tTs~>fl
z+9;+|sx<KBwpU4)mUpezKZJ7~hY<lABDJ9)KSF*|w1jpX+DSTtjPlYo+-O{xZW{{c
zV@dH@`Dh>w4KIf_RjN=t@0nqNtZP)gOqw$R^pNC-cJx7^tyygWnz_r+fY2qXC@Tjg
zYaWT~4UTz*CZSEyy6lU&$T>4VuQ(KQlcRR^iTk=>#v^bkEMnmju|+EQ!GLs~9&My3
z5OXV~Giy1v;|>@%K*GZq6n-CojW%2n&{pTVOxkbck*`(`g$*KT(C5lK4KfGbz~QUh
zt7{I#j7loTDRSvssE){g&8l0WP1<!1g-Sz9nIx<<lu1u|X=me7Yi-g}cj!uXy4DL$
z)u{&{t%c`W8>y$@mpekDuv%k^k*CFos{xN4SC33X+o19Djzx6*j>ax#N_|?LQHXLO
z2d5eiYy6@aH&C1g)PyVq!PNlQ$pJGSC%guyO}gGsc~9Y`fMpCd6HXjV?CuNliARzW
zNH>Gm0G~+RG7t<jX_}KvonG<3AF9wbV<rlY;}q~=Kj<S4a_|fH)!jnOS^@Ey9kW7m
z(Cs%+T`7e^G}k02g=m^dsT4}18)GJ{;9Y|&mN@|M>FX!4215*E>5ya$!rd(|C6>|8
z7MS`hT|%;0njbs`u0AXg^DAZ}7$WVZU`9VlD|oIDbLa@u-E_V)f4-`6HZ`pRf+Xr?
zWLM`Iw-60enxk!)umfO98>JSZT2bc9o<0<<fXkCR<>b$7N3^njvF*-IcKGW$j;hak
z<ID5c7I(o0zU6-TzO{T|rQ(H1{);P~7uPb2=Ieg2`$1-1w5E|<$W=ybn`Ui4^;CU=
zBW3sep!b2NVJ){{KIQFG3qAL9Yv50IzGv>lLcwCzonknpTm16!nY*vw&po(a)3|u%
z&UrP9Mem&<o(&4C>R#Tn+;FdLrQ&cT|Hz8x$oh`T)g7(!j#jFEiOOk@7FI=zYUrL*
z1WzZ?yfO-8<<Uz7vI{l}Ad~&M#ht2H?hzdsv$Me&AZVgqniz>Z`~t^Iy0P2fxzcQ1
z5Ee+tZ^DJQCS15d68I>&kc%-=2br`D!X|RNQb;7UeU3VWF;#-W8oh{fy5QkjuY;++
zpyGV27!XF$cjQ`+sDlQ#^ahgyIK>H;Er2r6Dw{DK_>_d*CtSLS%Eii1b5MH(T5@0v
z?nWx^cd3;^U&IYZds>h14;i$IGwDX$Krr{bVJV#+iD4MW=F7#~m_6XT)_*;g21`Zk
zOSIk-xO_49*eGlqef;A@QQS&0e)=<7P5%ysU@<u??yTvj*5F|0@Z90~iiPUc$_}}*
zV@X`?Ixcq|U#U3pAot|-;b_s0=@aCOFmHBfB@^<0;nPe@UcQp3VgWt~_sTVUS1R^B
z$nBm!yp~%;zI^7#7JT!8rOF4noydZmCsxUsRSRBl2%}|{-)sAxcctO!#opD%r{%_{
zS9U#(r<JOw<+7f+wDq#e*|ca;)%SY7cV)5jgYLWCOBdcdxY#1^+`m%2UoJW@eIlBf
zt5$|#+Hq@vW;NSs36j!Ii_u3fCSC;l^;!K2X4Vvx#&mt!8Mv(bCJ0EKu!OQy(haDD
zon`w5&HjcY7&J;WMxY5xXaH%NF%3bZk1G~~13;=AfS&^QPT^@HH*T~Pu2F;r>JUB?
z*mE!!m(?=VN6swzR&uH%IUO_3Y3p<+c%3sxHUC#pmuLE^XihFv>vD2ueY1O~pJUx~
z*U7zq(dyx$W`xc$XQ6$45^Z*mab;v?2^_PBafqRhx0zaD&Q79p{3N>Fpym*H$B3y6
z5K}uX1%=VF9puR<zaW}d6fLd7G>K+pKP+m6oiHqc?f6C0q0W&)A%6B3h0-jrB6d-T
zPX3w=&B2QiJ!O!ejZ6x8C`J~AvMrf88#xrprJV98R7}bsB@`O8TH2sglVPujW)*C(
zU!is}_f9$sucu~AU!A?WV4Is-$*h)BYaZDV6IP~_#%V8QY3Nr?gYY^mP;2HL3l7R<
z1&WT@&2nn<FYNgA5KOXCP8d>`44~JvOCt<vr{9(^^n8B8kP(G$a(KkZxJ<Cmbf-sI
zMl!Cwcj7-W{P{67Tzec1r;#+^Vi9KF-V2HdnEG{2HL%R$Pb4C`K}{7;@eoZX2CoHp
z4W5LiLtWx&I>l6rQvxuLVOcS{EyTz=_T2Z`FfYIZi#b~V6?|d9#{N~8zA5So{y<QZ
z`GF2`sJ2aer)+JY)RU*|x^5{$RiR+6qN+gE4XA1yqH61#*bCMRBYib2Q)@oROLmki
zQM3$g)xl1CZ?g^{u>BB@DCv6?gK3P9oP&8AdO{oynW_$){|{RI7mz8(;oLb8E3IXh
zu9UqP$$n|Y{Zh0H$lI-cLXC=}JK%)>)(}IJ;Ad|-MP-jM@BW4Co*i}PKt&C5BdGU9
z-FS&W*3S##(4;sX7_sV537mg|8)J8(CHykucrhLsf$D_I9G4-1%AgIl7RnI9iK#|&
z%n&mbt2=HN!45+1qZl~OM@67oS%9BJ+(6$;3~nL#HbQOLau-3*E4zpjZ3sP!xafEY
zws6|?;hDp9@@7`vYF3q;Ri*CU%N5IKRy>D3wI`>iO<O5ywsBw4JmN`ZRL?8OaTDWA
zpf7a$D;n+Jqe8!Kd6;AetS{Ue)(Z-($FBnGDa2ttg*dFIkPhqViNksdaad0w4(lnz
zVLgR7tfx?~6-Pj>yRtUy_(fT1o?pN_Q`STMWJs#~0P3w>kgu@o(J;OwLS+#cDWvE2
zB#X~xhPA$@B!(6sJCPbJJMt4ir$eT|KY#-aIR{RMbebuTo7sy1a;J%zqGvE$XTX8I
zhg^uh9!wImA^J#<dy|7V8Dg$4Q_RDkhp_=OeI8$?`lPV|^AR&k+`-PB%w{Qgyfh_-
zO)Nx=9OX+U1T95)&J~M4L;Xw8UaAX9A9RYPNT0|0fZAje%kZ4fd{Gr(b(F&j4Q3m}
zCp<fL0Y;nfZw>{<Nzf+r4*HGYzJRR=$&C6@QC<Y|3tYGWcT~~mI~^2Y&dor5y{d_5
z@JG=1!tvhYJuMWEyCAr*yK7HJ+wQK8PO)=fPrG<w_dxr=zAj%!mv3Ju=j-k6=xlB4
z*t2h7uqA*xwhRP^hq=3jP>VMtwScY<hgwiGu1(2;Y9-;WK#^gdB^DNO5)AFbd1+@y
zeZGN9P3Lsq2;D*twyUP+ef-e50ltrMM?V9;rf{%H4U>y5n8_1Mf@cFE=|J#efH{e%
zBq0@C8D8=Rh2Ef|p-D{4;buYW8Nbg5-GgCx0BNRRb5Oe2A_j2^9_+(g_I7l&ceZw+
z{;WHnB^MtOSRl-xpZ0q$eU)f{u=Ur!#+m+1F4c`A^KgLP$ZL!_3DGY8^WGd8BknI*
zyOZYzFnmXGXctHver6Y$&ytxnliHE^jxj0+;jLlNcMVp#yew#S5JTZK>J5)2QX@of
z%9-bJ+!)3UW*ktU9jN)(fKNDb>bWn#cL4cEp(YIar4Z*M3tS9H6}?Q1V#aBOo*vEv
zWG9AcJlznESLBwL$W`>=OfqmL>F7X63{_t(uc@Q`8ms?nbaaq1{&)lHWGb7PCMzfm
za~D7_!Dl3+ed-6+#;sb$&NbCq!0WE~qCoA~2lO6t5`(Nq!Dwaq#fxeT%c&pEK43c_
z)Wh#XL$`1aB6!|swDJW0k>x-=KM3apa1N$MR$0+hESLCDgfVy?h))4Ft637oW80=Q
zhT4JM9hRtC)NckD5XRyO_~BEd5yztkgXB#BO2}HNRM#(8s$EY`*Tid0#z!^GPIYP%
z6WpjFwl;2Rj43Vi0nB@iYpk}bPqXz_`N?d3QqNF)^`K6+NJ6T!399DiOLgLg8QI?1
z#iu;QGPIu`M#T<~187MY!sAT#rhZh0kR!=j8z?`;Jq3In)MMqT@f&cGW<5zf8kprf
zl&fg{!G%G)?$i@CYtyna_^Yc2U>Y0tVZ014RY#+=TDeb9B!_(FdEcoo);DO`z?Niy
zi;(Is1cSrK0}=pqpJtJ-d?iTG*3#aqI$$wKl_0{`vZDr?3z!~5h-kv4pAk+Na~Y<=
z&n$%Y5IKDWT3mb?;JgnCU>f6K5Pfng!x3{C-o?`6W=(9{!DN2-VyRlMD58C$OVo?d
zM#2vtO+ZY}a9#C_Wd`T#C5ZNIMjktp15jFa5f-dFMP)|(q&C365f2}`F*t6}bCq1W
zTDQ(0gWN&mpM^of@M}op!mDq99V0gtdwvfcN*Bt8M4DgVtr`5{C7c8Z?)_DYO>_yn
za7vw>)v6F72MgsOv{ijIT}zN?u%^{d4HO+ysTVC%Y2XSvNt!X6B-OI>dbC!FbjqNn
zj3B1rNoyx)g+jGP`meMb?*;u?4dDzZCV%hOdI#}#s9*J8EuM;-Qr|g9MGIx;s__Dy
zk1GW|0n!8Ujb#aHTK$)orN!1tWNQ9eSzENTV=~S3w4x?8f5=+M>f5B;En04Q-=&^#
zsLm0qC2(eoa%f4iYls-I3D*#@XA`c^S|8N1Iw1=@n$;0@;*cwu^@h<oT)0!s4LNJQ
ztG>fZV>3i;d9UTwHE=9lh-)^>I?c-q8+#vf_p|i=Wa|5F^@J_87U=)yw<ziJ^#5n7
zk$L}{*Ya0bM<|=&Uy|rB>kadAjH66*;TwNtv&`B8<A5va46azE<NqD5&|YGMVcV?-
zbq-=B{O)5`!heTD%6<w};ca0Mo1Kf8oymcnn4KBQ><mp>r&1GUD4osw-}uh=8D{8z
zc+3nvW<D-qvJGPwon>scBTTyZ&QGHx!Kxwv1M$xW)6I6PfNzWXJRYL&Q){dL{<`XI
z4*AX6V&0NX@OT9?-WvE2Gv1@j`0sw^887JVRznH+)91vt(1!hLj{0x-^Nhx?cz^v|
zbugXDz|swKc=HZ>Q9IrVQ0&)(O)an$`rklb18OkG#h;<apKRawp3M@-G|+)rlQ!sR
zWyk4g*~A>UO8$NQ{PLj#`kYonaAcy-?t|)E{rCM`l~$Z`hkMlblhElh!^rWrR*j?o
za*FB6@n7Upsi#&$cx!^Gzn`b#$y4cumYC5Y&#F1;ztGUr=*!7;70Y4fJeq_Fd#_d-
zF&|G=YWhGWpjZL=IFsoY>amD6)njclPKNO@tMxIpH2rrn?OzZ@N$M=@g5F$VpF#U=
z=UIh^ukxLAxg-o8;E>cm3Qw=ZPO5+^MJ;fam{VoO#WK~9!gOPvCm7S^AA1bU6m#yE
zUJ&`Y#D6d~y$1FbD@^(}YJCKv&#jc(Afnsq6W7jbMU|yC+<rzpl32EZN2Jtxq7aVt
z1g-;!S~saOfo?%^BOMgqso4_C=u_m;;E1JgKLb!Mg}$Mx!WYt21Y@ZKK0jQXgYO?p
zlYFDZc7pEhIpjrEkvb^fT3v-N=I%H27gYV?xlhi1m4lVaLttTXVK6BPO6zp{Yuun?
zs8*helXg;B&A7!14B0DuJ1Rqzn&@i^=brjd4TBzTEUjN_g+c0^O(`4@2l$Yj2^VQ{
zaYuv>;`X(RF+0R07kx~_MDkI^9Nd~wdPq@07Jyj?oBRQC?r;&FZN5dX|7UugO)YPS
z$90`QCw)jCZ1kZaldC$`Q^OkQ#+tZ`LXC8z=I|phsM&04;Itp_IJDejRzLW20j0=T
z8v0Nzp4N4UZp4MuFQXD<sfpN2lcRT$IQK6g%O-JdzTwoLXlWe@%!{Hsb}_+uw6Gke
z`03H23jAcOyUO6n&{eT;=Dw?z$=#1fvQMnIPpp**KgfNz@J`{%&I8NdNCh`0At8Ka
z2jx?)dQ+@xhtb2HG~DWO=E4JKHRP}9O-o7l-R)6N>r&5sPbdB2%(;$b>wV9@PqIs+
zp0jWsqq|mYJ7cAkP3!pu)2?V%&a`9Ql|SD^X8@O!PWOJ}R8*)SP0q6Djw(DprydPg
z)3938CD-7@KDnk_(Y4(9?(m&qxbUg%q8C-s+P%wda_s@8eYsw{bG3GlTuaBz)$YG%
zm1}x<s=8gPb$jJHiduKzUY1<@jFPyH{X!zFcz^Wd)4_LZxj0s>C0f&t1BF+sJLT%m
zXnED`$y<|Ap&I7{=jH!A*_o9MNpn^Kk6uLQ1KxaY?zt_Kt-=SJ(7xfa<W)biAcs#`
z4%wEH`e}IF$$snf%<1`^58O4M<Q3CNe@${p(~?y#Y5R-3b{vG4Q*iU(w+=>gi|Nqd
zwZiIX{qAT(N3_0iwSJ#mzb{%<M>e{sZM3TS)AW?0;-4p{=H+kXTk=YHin80zTh7~=
zw=%a(xmw*NS9c-(M!Kb_{*eWle5z!!Wh-l<<pPEdcO;^QrBK6C4P7%o1dUqE%sJQp
zebj2n-@S3dYRM>?KM_f<{iiYXhW`GGyymUCy33@iF%hVro#<yAkZ0P@X32OzV<J!|
zBL_?b<bc!m*i<s~SCb{b1?OjE6s?ptMbew1#TC;h*Z)Z@mnZ2nEGev=s!qA8b2)4I
z%tv|ms}4R)wp28%*R-#1p0}Uoq)}(O(G{hpo%tE_Q+hdv^)j;llx1DKxtE`!UVfS;
z<w|L5B)#=<-CS9_TDe=U+`Z(LEB7q-$Q4g<_4BH_)v6A;icTl5+KWTPD-Y89a#T4z
zhZgoHP>VIfhgK7?!r?=-e5YY0c`SLwhJ>u!y5;)rW$*p^L${9Idv(3qumZE#3Z!M9
zlarPGX>uOC+BQBReBog4lfusjCOnp+9R~RF_@QcuR#it)@2cvJJT^M6qT-F5JOUgA
z035BGhUj4@;KrxjmYlMc@;%G0rKx*8D`iI_*+*C0N3o5p6nDz5&NWoseapS@BD@2f
z{P5(1!l$Q?uN76(5t(#$e2ZMxvQ)j=eptr;vcqsBwp!XGmo`NUO2|_UIVotl)e<c!
z=a3g5v^Zn>#HSvdxJmwQ*kL+Te-K*k{@1U|bw@sSMhebgpE?$;Wkv^8(e%QV(!+B4
zVdTf(GcUtc*a|n-S(y#1xpi`G-D3VqF3bYHnaWj}flp``#57!#N0K0z3~gb$d6BCk
zGmIFz=L}c5jTFqTk^6y&<y`cIb*ya=rYFA8M4cJ7VG{90;Itu<|J<<9;i?_0IXmT?
zohzBUR-C&w*E(6PHOWV|t~E3t@txIORfZ$7PwFF#DzW;7tX6ai0=ySq<a+MR-esb3
z%Ql$AK2HrHfk|9L7SG5z%`2HLE6x_KpL-lJ$Qfeja-3$lrbYPsK*X3{IpQT=@at>t
z!A5hL1)srIGv}1hBh)B7=9m-m)x-;SRU~iy6HuOspYSX#;k{WZE2H+Gft{0O$hkS8
z;!abOx9TwzHxgTXffpT3>T2foN7s6U8_`~HSYT%%+R4sBI*yuXvQoV~J%yr?4@<Am
z3y7<6&-Azo*N6^Y%G2MfAw4I!P9=FLIXp<X;^L66rtRX8x94r*AVxwd^e7#}n3JMj
z!u6i={0e5&lw&Go$_ZJasq?e#=Zu*fG)T0akjT@L#HDf*&?DK~=f~_F;ExGs9Ra`~
zzL`9lS@l6io-|a!%P`(`_2(&rhJYz2g(R8P#<V<abQ?QG93B&1j<gH!!9PsAr1HtF
za>W{%N(aX%o!e1fPr9B&g9FYO=JP=EKoYT~40C&DV%~`Bgsq@;sB!a`_fysW9%|YA
zb<%A%4@9RrHW)1e`?wHO88`mS?|PqJM!cyEXlZ0TJ|44FN%N8tYnn=R9^oFU;n5;|
z38&wX&LC5kG|<C}h8U%Y*Ak;QTe(W2Zv;10Q-2EUjsZ-awje9`Y$6sAv>~}`0It1h
zsEbgK!<)_tE&Nz0Dnz}=Hw^seL79&f(-a+>My`<t(py&~q69FCgmoj;PALZrCo+_T
z-r*%be#o*IW>ng-OmIPia=|lt@}l(uxk~*xj2h!t{k=MtNwB;jP7hZAhyBohM3ja?
z3B(b1Y#vKx=U&0M+Q%6U-Sp)U-G~JOb1*1m4##qcQ_&xS;v`&^kM}cQInqAFisi+B
zQ8dq_W0ZqT^<gZK6zJoTZ=9H&|0IXTM!^06LrG`oNCzoR2c@A}GJl0CbA&cY>3J&8
z0eev-i>1?nOa0*>uT(50G&X>fqrefl5VH=%tl^k-Fy<laQtz1P52_pzx1#7r&!Jd`
zVz{b)%{P9<K#zFo^d~9iRL9bUp~6ufW`;FUVul_l>hZ4<Hjsx^#7s+ZWW<in`#U<P
zd){KF1b?Fseya9=wEy0fk1HbkPfe4XS@L_{D!W>jp1JSpTJBig|NQ;^&olG34mp!}
zADR20s9s!7Zr3|x{4eTQ3jc8O!%4a5*?ZzohJQRP7d=1gSQBdAb=`3-_Iy8MDPI=$
z%%vmmikjK<zsW3R$ZDrt*16=3l<l2Mo3+mF`OAVGKr0nrz^CsQ>|@w#mt5MlbR|-{
z@0NAFRJeWo*6{`JJE!oFTgXiCyl<bHv%;mZe$Ktpg39}@%4ktB`PzD?aOT8x&-9hq
zirF(!#XVNm?UGw13uhLsk)oZeMeTA?`%>GIcR4#!bRgn+YNiLdz?(fB7tQy~Ux|1s
zrhC?1nbQYgcs47}?wRfbg?f9>tvw5Ex4Ov@Gw^HR&kNSKzdY?;1C>yGt9aqmQpf7<
z6Egl+pNJHloX${O#?OnZJG$@h=#JL3E%mN;oRsmu=H!aIGU_f~DQN@Gr=%<5h66F#
zeE`3jYp|87-OD{cI`+}A2RVniPcS4{b(hQT@&#+eUAgcKm{GZD>-4f(cEgSi$BDvq
za&A3*F@y7yHCw-$T`gzRhwQqQ%(@k4-DbpA!~YgBakj$$u%lovg09#fKK_gib?5Jd
z2H{p#vb6hcjR{TwlM`)pXU^{Nn|LW-lXa^`GfM?C+gLNpSM0Ky#9uE-wA0RMhM!GZ
zU1ay7z&)$wzd|icq%oUnq2X_0vhIb^ylvW^>`+_L3rX>-z&7D;QQ4)@b`$LQm+R9>
z<}<;xPm|E6+NmzT-ab`oVb-VrRcj%p5TUr`EK5d@Xc+FVyGIOlG3%Fvy3AU?QD}o)
z%*@9p-j?dCNDV3UmI<a!us~VQ_FviD6V!6`U(;D<M;~jRReyzjY*xNmzb2GVR{ElL
zhyr=(7`Iee+Q9I*mSnYj2@sXuT~Gd!<(ifJcM!Vux4elPhnQ6IB7a){5x2toHXa$i
z){w<eD2`~Q1cLo!&mn<1XptBe1~Ltt0Y7YNV$QLEABe<AKSQiyj%z-0M#SB8^iqPo
zlqns7F72n=Q*<NDOF2maco+GL##uVo$mIskEoQ$GkseSXALwVF6VFMYqZeSw31J|y
za9|q}ny5BIaS~(w4&gfgC#rz6Xy_!YQrT6ykREY0t!3rkESoF)cKLc?32nbEGX58~
z%-X>bTP@xt7w-alq_}wrxXhkeN3^JHwWv`pYFre77tA_7!RZOkIVXugRz0<{r*<Ly
z?)aVYrK~%Xt99LSUH9@Amyg^#{J?X9&RN(pCKJqbF4x|xdEhzrNr|wK^@C>@Z6BoG
zP5pk~QqO8h*X*<8Sb#XFkbbP@?v!(P!qe!!yZe^T-aWXw>uGt{)AzdW)qULcAouyl
z#ylwRI(RStUdqS$4|2b-Wz6Na4_}mbJ+->4SKifo@9MpaA76ct`@;6opOJSxbMJ+F
zM?ZeyFLKXqq*_Y%fURFval7wU-{QFsUcLLOT-v>SZuP0>Wc)9EZspuda>+}xPP4wb
ze&_nTuitrnxo|o4-rfhEQ(MKEx-+$OeaU~X5PkfM21|CuY&niPb~pcZmM~lXk0G)K
z_*W;2PCAqSz0-a&D<#e>mQV)To*y}}nE|0OJ)}%UR2YjQX)2lik^5lAQX=*Mj`;$6
zz|?gdV)bIyr<;ETJ7`3NYQLEy5``sY!pu@Y<Q89GJFOW*m~G64uhcaOm#%tYhU)0-
zqDeak$116=A_`LuawWu2G8+sgZ0r;r9G(S(gnIOY)?0>hOc+~+uV%o|O8Mys$y?5W
zq>DJW=v6Rir<~|b4Z+bHH>t4~=90dVXG82M?F|f6F@6I8ob>jZr6Faa`<z6lD8rzQ
zk(Y`Q7Yqm$hpf_AfSE5bYc>#@@L!^yE6bqh5$PNOyK|@jgRke{rj!w$Om41|v+EQA
z=X!9p0tR%Y7wEANH^4`tZ5ecJNaX@~MsvPKAFchdq=7-{Rf_%h$R?ISPEuI?7++X=
z0WU)|6;w`vLKVJ<6y}WYc&eFY^@jvCe~wH5HR1E*g}E2rerX04($jDVJew7Dxo53!
zbP?ghoNX|`%E-gE`>qaVWZflab<I3O2F)e&=T^&FW&F=;UF!JZfe#PJd57**|D^H9
zjdEV!^pQ1AsC~EkcKxmTA9TLE|IYr!E8jo3bVP<Tp`J+b!HDP3bWb!Zd$wmTclw$2
zqT=}rw+e`IDw>C2e}`5J99IKx$~ahNt)=6GFW>$0a@%s?WAB5OFGM_N<d!ci_-1o&
z7R?pScm6c1Vx{E^vgZtFBX;~@de%m&-2*YdJvHq=|0mBGw)gzmj>2aTVTz#>)Qj+4
z1~weH-?Svr;#a>Jeia{H8sB@$x@Anpebbj0Ea(-gf$UVwzyo)ipe{Rxm3J~a$keHE
z90-G-pD8;)m?<Y*@gPJ1%Y>f7nS8wlH>73&1Xvos%=qEkSV3t$g+rnkwzmnqqyW66
zF!18g57ENWP!0k#YHt7tI2G`mBw|S$V#0YuT+Gx-=yfyDL@|l;Yz90`M;BXwoj@^g
zQZ$&bbJ%5R)E-7q<L;YTs2IK$D;;L|0Z%g(rw=M~px5$NngZf*O5s%6R<lT}kzK1%
zn%XA-d*ux5r6FHsE^j>_wVaq`6>FO|Hd9t$^?QNU!;6CgG}9Q+d=5NSLA=HQBTR~6
z-)jm&xif1M2%4q>Dxhw3LN~`unMh2BrVLT70SLn>UyPr}FinP9>Hu~fU1<tdnXk88
zg&zo8)v*Ab$4GFGL0oB!GIkk2EmSou(p9>7=|+dtNZ07bKrZu3HNf3dg*m{b>94i}
zzY;MFq?eFlqQMMHjR(0(#a0ODQdOAiqx7QbUV>(`-kDSLS#LfEZ`kg_#8;nW<<Ev!
z3mW8t2AnTg(6pM>3|P6D#l_CfB39kfmHU}{;dW>>uUpRRo=d_}S$WKH)py0)mu_A9
z!PvWBzVqd!w(oys*)G>TwR|PAqbHL440J>CaE9aDx!I&o;3CdC|NJeui6aMBx%1XH
zCg99y*1qKjcDNY%q9s0C>Rjr4#k}`c%|gX3ysKXDEfN^c%9!p!Re+Ks!dmyCAMN^R
z*FEpYdH-K^*BTVpai!<NJQ!wRm=`Yr8W2xKLK2o_F}5B^2))q@y<H}V0fZ!jbO#|r
zfh|?p8%TL0CQd~|@<T%<S)sL4!rp8}PEu=mliGFiXJ<V2LZ(z@b~jZU*Vbl7VG?J5
z>}J2yeP4sFh3(Rxy%K%<_H_5{?%R*kr_cFL^w8lC{YT<?M`QjYGv27PN}9vhg)dKT
z0Hduj=B$czedJsf^&g4l9mOFnta?#qSa}fH_~`o%$Mb5w-jsaC;98S>77VbltpEPK
z)!=Ls*rfl9^%Xm}Wb+>O3O-?{5srK*(|;bD{$Xp;2sKHQih839sX{cP!nj})_7Mzb
zGmN0(b1%N+2|K_R2ACh!J=PTeRs~woqxH@!hm&glq~fVJHOn|WdUT)iTdtaq>{EWz
zV~u5yQYWBclp~!{^AaUilq}`^F|C?Gm+R4iI7Y={fQZbDhcVsl=CGTBt}R6+Wic(U
zdL;*q2~#Q(jXj#x*Y*FS+^CI?I%IlXV1js=+Pbn&rI4XwK<$dYGit<Cf6S-_In-g<
z0Kil^wg+^HdARaWmq?6(Ae84j`uYILA<eW}m4D6bP7pw?z>8x5pDOa_izph-TB>kk
z6EmlvnY<~DMzMh$Qe@@q2|6E2m}x?72#9@n;Q8f}Z#y|eQ_FNTTRLc9i$qZ;GI6HD
zB~@8TgKRE`Su23|BFl56%C1LB4<pCnTHSe_S3GTr`6Es1Lr8*YJ=*|Cq0BjN!C3YK
z2soVyoryRjduN1MZv$pi*zxd({IA30M`-I<vm^=nps@H>&ScJPVO^}SZq8FQUs%HZ
z%%JRCVF?rdxeN=l@PEcHAa9HElO{va$^}DKk!!+~av6$CZk0}gsj)g%v>MsY;qYW%
zXkR2V(mCBcbw27_`*!);hkqhOeT^}XAMB4?MUzF5r>5Q019ys}Me89jL>3R`N=o5_
z;8t-xL?DY@A@dW=8j?!&v6A|<7fhIee3Vl#YcGX8%5XQtM(6B~iS^_AzP=;5m87Nc
z&GWoBhQ^1&#W>W^oM>n%d7`lBZ(%<iVgP^|e46?SZR?rO4PPeH^f$6+Ex4IUrmmnl
zPgnu?w)}$hzqwVF(pNWvVgq%;3@%hon?V`wo%~w3_e2eiot`eOfVM2H4yr{(w-|or
zv-;oXNbJJ|7bJcgx+E~KzJx^cM_H@6$j|}gf<s)|&5JaNi!@`4UUJxItsoy0qd!GH
z8r2Ci$Hfpu3Zb=1bfOu=gXA10hdzy1Mn3vJBFS@!w0~t3l}N)+e1#k$+8+Vrs-$1Y
z@t^=f`Zx@bYdHY9K-NJ5Z&~eJsc&xWI^f?%&fe~s>iJ$T+17No8%^ux0ib9i4^GE`
zs%T-}EJLX;X=UDQvbbquUb~@iSu%%ta}8gqPdb=aE4Y|+vLF}P<7Bx*S{4wDUKYCD
zDwtM9+NM`bomw!!n=}iiwbPZ;!8>*Iyf$gxVyX@2Ck?p45Vmn@lzH!Y?+xA`j2>!x
zZ#25KE!KE!fg&ty%P27I6Os*urtHY^qye`X(@gihz|6(i+8qn@oLpaNaz+Np*r#)*
zdVy}q{X(s&7K2}wv`l8w^Sbr?-nf<B0qwY8LU^)Gu$c}Eb8DYUW|C*#n)9iNJiH^Y
zX5T<<zmc5h>C>=D{b_pK1gBHWx*|Utfy5}L5jet#1~8I@QHx4asmR*UcRq)uDNEfU
z>+O%R5YlPoqDymbptHLLf*s007j}u{Dr5^MGe)s6ieAloi4a_LjVQa&K944*&Q4j4
zIcj(fRammbI>eV+VnWm#etrjZJpj-&KpQV0>|og<a}!+ogOrOpd~M7!5QIL0K?r?7
zC8YmK&pCwCx+#P4^owjO2A(|Bg!&11jN>VZ=jjWkP-B>$Zzew*#hEa@B|bnXQ#fJ!
zu7n8&z4}Eq-m&C9wl^d!5I`Z_o<t^)8AaN0>8-Ub^geRxY0etO>o8||4EYt2eKGHv
zYrE#0o@+Z`Mr*?V&pBmd!UI>q&AL!sc-O7HlY8GhcK6JkGmyA1X}q^9R<h&%@wjXM
z`@xv&$e88Vbq(LDy16p6GJN7gSJlr<@7mt6-QN}8w13=!g))~UnC<Qx{&7Dn14F`K
z%pbQ^M~&6|a9sQGWh!#vFA(|&Se~7M))@ge3ebaqsS7kyAQP}}=2uLo&62%~T-dj;
zkeOU8IOx0p%aeTsna9I2V8a5j<Y)QLson1EfDQSnfToUwwP|30&$7cM@B+t-;Hx^$
zLZghZh~S6v6tIaT938Z;a?z+{BXcc0i*R(X+NI;@Fzt9{WySiJ(b@t<HtP3mW>44v
ztky3MaO(iO5zJS+YkY@HlmD<wDXXIK(@Y<mR*gTU+lg7`Bcm^c>?=S}75ZOk3_2<Z
zD>^MlY*Nvf8W<AlGKSp@4HRR97mL{(A}r%?patYL`3C%HYjQRnJn;m>9<{J)=x!=5
z%?e<bE`th^TtrS~nqL51o;Z}SK(eVF_Indq9Rp|($YXVaG*m8HE?MDe!1EcAVQU*P
z#)aWuD(@wswW~0+q>7g<DW;}^W)Y8q7soH%AF)b9QKXXk$-`juWTR%lpHeIkr{^ly
z31C-Bf1^4+lK-7_r0;K{wZ+%T`4+W1wFs3!E6e0m>MjF(?xzMPas!h=8Huq}hif96
zG=kY8qf3M~;ElGneukNDMtLwABt);Lw$~6Hy0pb>6p@@JD!?_Q0B!MWWAz`58K&}w
zSs5l@cmQ_LO}^=Y1-e0Bth{Ot|0}8=+8m};42KhU5+#C}9>_mg=qbzKDhyYKN|RQ4
z$~L%*!s|n;lavBtRoM=LV-62a8z)DnyJrUOybyIf6SF@1X%2qpi!T+a6Qxluc@bP#
zg`k^;F2iXdU^tD_tJ8o@3NTw@u&HB)?J&k^z>H+X3}P8F)mai*XzuNRC%!Pe9X@I5
zU;)yk!462cWfI@n{(*BoH5%D7(MGN3wtDG2LVu(_Uc#S=aApiUd6)GCAoSQr_H=^$
z&{|+-zT|QH30{&mZf!hSJCX(2z-1+?*MxS^XC#I#1}+Ks-`pD78g;CQX02fDikYDW
zYn~o)%lZu?Q5kXj9qJh0CWmt4lUtY`$$6gM;zKy~mHiLVS1Kdxshd>J?7X+)UhrP+
zTL)A0$P-hNggMv=SjQj}G)!wbWty-f8ch?|&+DIGssgjRVzLU+!vw9g6A=nZ7u3;F
zZhq+<3fL4ugi(WPqC}4$H3DpB)rf%}-wT^9lfs?`qz4Qv$URtB%qTrah=CymZM_)R
zm{tM42|Gr<|AYh4100hW5*b~W#SbWuQ!u@K-H_Jo?;ZfngH`Lh^ud^9r?F#Tpf5->
zf;<x?a%nOH*I0@!P9btPeb^zyV*98pd(=_@p~xFAjlUG`h&y}|_<vK}Q9Wh^YPy6y
z-2CPSI>Db_8Fy|NGe2;6$dG9G__XUo$EsP!rWhEs_PmJ|V2kEK>lD+0J@4ASR3>d}
z)riQ@=D4<x^_aAgPg^g#7OtUyT6*Ld#Jo?#vX<T#(i7Y2vd{qlS<a%J;ulC~mC|K?
z$#ljqna)J%wARD|#jqY`1$AX*)Rh(YY=8;dx@-X8wE=|K3UFa70~huv;KFuT1zQ$y
zb>#%y`19b;i$4w`oUix_6knm@b9Ci&=K&ztbUK#-`Z~}jOA?*~B;vih3-G7`WuEN#
z0fsUAVKx1tnLwE`HOH3izeI!@R$j4-%q|V8mVMPVm{IIB>F(NpOc&a;ul*ceKw{}K
zzAJh(F4`wRp86~Yv!pl@nk@YYd2*=KKbnYxnlhMENjzDTh)nU2(zl3xh~LL7`?Ate
zhIC24`{;L-bihF4D-3W{u??WPn!Oiz1yc3XGNEECN!0a#8~Bp&_d73Qmy?bu3gcuF
zyl0@dySq!oE4i#a<;QEKtSwUQ)grRObF5CkkKjQSvs%2JBx70>4S2Qfm!NM(0#1SU
zKtJS_M9|rt1MNzo{a7;lFMdY#db=51eVa%~uE@-HX$WAngcQtj1d1(8m+>4m%|P`Q
zAs>z%TY9Nm54P=u%>TLGAbJ#x3E&w90hGo%*xGs$D5RbJ43If+h1oOfz^1SB0(OmQ
z?H=UIeLak!k&y$)J#=;iQO2t*H`bf_VQ{IJx~o#vv>XWPxQhUlnFTR|EA6Fvo$J5K
zkd6T{jOC8j_Vg-9AgO*|OUK2arr-3n15x4%IvP6m;~Nvw94smfE#PYdKNSo%d`8~B
z9q2=HhfsR}DD1Sdv-I`86TP5ysK?02tt=dnxAk51$PpON=x1o_vuHq~(6PG)R`dW_
zep4&egRM6=S+%I_^}qvxK|AcK$;R7P`M~{ZS~<`?)Z}Ca&QF~V*RI1&kBPWhjd)=9
z<0Hz`h3|lrW5N#OpY6fR*un+cFC>I>iOh3!?@5?>T)NX_AYRApn{X>1Umee4JAM(r
zN<Xjo90Md_k-lvrTdl0LPt|f>h-9G^dV$~}7VT4k`jWm+RV4#p#VHF|G1BQjv*`r!
zBni{CmMF-*2Jm$$41@%@yUOksa?>hNqQgf5Cx?i$Mb{fxhUwyhUF`~?#W=?bfkh|(
znlf1SLcTyg3`A)lp`e<JWpR1glu`^R2WYxSW)R7e$t&bUht=#_Iu%NVH)+x;9IYkN
zqKzL(OB=4w^Ij<>j;5rxN0}8a*nlD<eBLKzr@5V9p?Q$J0mDG092zhXi$#;K(r%ji
zpcgE@Mlx|MD1AwkMkcbrE5sA+0N4dvdWLq|I7&}q9^^U9Occ;IuucvSXpna`wP}!l
zSMTT7tA5#c{%P5#-sPTxx0lGFPdsPHpz!NU<h)r<tKKzbUM`0&k+VyVr{2$RQ~k2<
z{0`Zt-ZgKlkVCnRL*jDrLrG$D4wtHPPTG9TCp+;!C^qdfhHG}<j1$W-t<s0ud`I~L
z-6WGUoP@)?T(?5Q4a>wFD$Y|Lza!`Sc%%3Oa&D9JSLDzX!T@^`Szy6-b%^bk72gHL
zH<-wleg(-T?PktHIGgx>VlQC*yEs21LRsFREGNjhP7d{BZVxe|qd#H4e5C{2!C|&6
zC#;9*>FB_fvk43P0dJQ)FD7iwU7DW*L<aTYmFxy9tbv51<zj!wK+Bar#$xQa2!1fZ
zoy(#%)AZsy<gjx5HTjgaffwsd3i}~B4iq(LgTod$=4hFQrFvww!aoet#_Vlm^Cut%
z6>1TKY_5s3U*9~JUoy69&Q=zIN?0XqC`Rqe=NuK0<1xoqrXeA-Hk!3I>cA0<0WbyC
zF*jfeUdx&*S^oXX+jUcQ)6I8x-`O3n*bpn(K-fO8Tv&hz<~i73%#I-&vi26u+8wRi
z9fu3cZ_Z`xcd&I%$J~G{dM)cWIMuaIS|iobm7C**TM(2(2fcF8{o>fleeuHm+VGkv
zB)C_`zOp}Fcz}iD1h;OoE?W8YJ%6ln=l!ek;)4ix5Xb^7(Mcc+#y1(qDDHU{zgZs?
z6x|#S4M+BWSg;Py_PLT;UW2EO(|zr~*y?Be_l38&Ft{WMX##>d91CK$U{$PO)oj7W
zSi#14!6wS!K|u*=xh?(6rdYwIc!8g#!O8c@&`CP|p7pMbc~^2_q_`JF{7Y`|F=2u&
z1F%dpFLVuwYtRW2CSplm;I~1(NiUH1MJjRKP9|wPl~oZ5$<L^Sze8Ulb_tF0#h1z|
zVS>aIf6=ANXzH>rut~=1udL>3VuWf-BmMA(L?<xGL+ay;E@(PQrF_iWl$BUbyu{l;
z73u1?Db{44=-WsKT|OL9iwMrlfHIHk(JFe9m~TkwgRT*)t`<2g63J_NU)j=eP%<6q
zOOonjh~>n;SagxiBl!)``nN4r3WiXwQ~L=){N|Uh|AY_>0!P9=V!nP50%XdHtQHnp
z^it1(h?(U&#LT2KOgk)nnkl6ongLo&p{mrpnB2oMXyccwVX{v@h4OB@rjE*bE2o9#
zphAyn!fI5%?E4bA)XHhq`}visU-mtroQb=>=z2mq6OFOxdO|r9!L#V<G0I<#v~rht
zj~<;$%+*B~_AD4D44ri2qMz{irdhUWFp6VQ`X`Sr0XoEeKfnmppG|dUJ=Rb6p+`18
z`W~{Gao(>Ju4@^W&Ek6VwX|y+wQ6<=#BE%31uRr+S$=yox35|gf6JoCc%<06GYQrc
zxjp1N5HF0^AAaF>Db$oeuf&jq$KFs{@kSkeKS4V-Jz7$E2G(C8^h?F0<Y`^hYf<Tq
zy0wSol~U_GP5Jd&FmJ@Dn}=QtIz}A2aW(JzBK5<YrMXtyUMel|8NVwtv_b_qMsi0S
zBzZFG#4MdV>cq@#8iC8h26o8#Bh0L{jB5l4Kq?+C+Ig28PrZ-0<dHq<UZN%4y7RnE
zZ)K449I+{-$r&+S|J8{5N%kEGtUkVd^?z5}_w)8K&k`-;ffSO&iCD7#JfX3(WZm^g
zl}uN9M{-8ItoP)+oTFQ24L$S4zZsh+b!KAyu}<@VGQ*ID5y{>zx>UsHqmO7bzjjvA
zXwL3fkI%3JOjYb}eKpdSyBVACLlRG1*?!kN7R85cF8n@rlOb_xB^^J~Qvq|B4mngz
z8`^$iE8-_dFF}J|0*OJ*nZ!8d2$EU3rQX7}Ice_!gMkAT$=jVYp$weh1c-gFGMK5X
zl*^!>^S$NrewlnYXplyXV{rwjwHngfNiOE1T^Y_jus8E@)FJTX6-F@(kijw~PAFiE
z7v}k>_}WX(PN}tOOizwhi|@txGf+R`pKnpQID>~MAAUsK248DkM#73x^f6JKgjGJj
zx-?vR*4N_$r{5QVg+zFQzJPD_7UmuB1wZ-UKmYm9!^<>r5SSLDu8Pa7&tUpW7zca1
zu5u>NT|A3#k;6DW#Gl|?k18tIk0`bs7S4j5VlU3V`g+7;6oWB|h`<t~<UAmU#yKlI
zKRbhMwZNqg30yjneYE+|b{s(fKpGsG{Y^)Aw>P!5?QCt^bFekx-r3T!XU85qX#$N0
zn%Z_J96OFRx3;RmOwvA4^0>n+&d51M#Uu_EaHxCx2u{fi1K2<}Ph>;BaG<y6O8=E0
zJ1`d+KWc)i@HdEGm(O*s?o$TukwbfZ@$bp^b8_e~Ui<|dIuu|-Cm~!G?^ErCLGd5x
zS0>0WG$n-X2`f&J2-&IqGC#_vmjPaYI$~eKF8|1$%<RJtG8r?u8>Qd5499-FYPdv~
z*CdHyy-%#BSMfn015j^(2tUab9)5lGm}TCc$FPm7;&$Jxy((s}iu6p2(1G3f7BH0F
z-Sp0;xV@Rwx_Gn|aeLXUeMQW^BC>1x$c*R5g>Mz=M0+H+O>b?w*Y@tocTUFbEexzF
z&ok?I`UA()zcBry^*!tCw&SsF$3NV5658=Fgv=nG!s`GyJr6LWWuax^!x16wtRRcX
z8-X_sz1^h6U?mI0YV5eZl**YSr)JMg>-VX+?Wv#be0R?~duE?K5_|T@N6)rF4Pk5#
z#2})M<%EIsQs|{fN4%hR!Z-)$O!r3MNJne7#C%&qd**$W6MG2Y8Cnk!=k0>2f)Cua
zbH2LU_9^@H;kzg9oQV52OzeS@+s(pIA(x(*b*_my*C;@u)iF=?tY=-!vu@VY6!SDm
zPzAFd?GHO+o}IcsY>as}>i$4kL21J2`a`D0l?yObjz-IQYO|i^n5TKp<CXrG)y$Pu
zZ~zGcx!x%d%C&1k_|%EC4-IgVJ_6Yu93KpOZWT@ze&8raQifI41Kfzgsln-iyD#2(
z@t#Zike-$afy%W%v_D$D?SA?F!*S29kU+IY5L8B*Ztt7gH<K~5Jzn{A+_MS#c@9t1
z;iI<P7}^+ayLEE%<Ol952^uz9wf%n6{VU)bh6uz8>Vd$E{ci5ZMWvITa1Zb%%y-PO
zvU=p#{Nvqk?T#01{<x?D+8*nGtF;`x!CM9vAP}sO3aGM?4Y#*WZJlYD5#uZT5K<}1
zpOA93P1+(&k<0PIy4k||SYbWj*dw0X`BVAR-n+$jif5YMD7|NTH~XFJ`|Ez1qoyoI
zADr}t%uwx~FwZ-xqmG8TqUF(w##m7!kT%@qk?QHnxO)v$V$ijkU)wVemBr^m&qXTZ
z-WpOM_ujOJ?BV0LPEDSQT)usE>S`R2x6XLpQ_zKE?K1Bvp7m74JXLW|&BxxNP#dHL
zn{T&FwZw{7PVc<C_s-s#%WoXGx8Ys?JO29}KiwSn?)lhT7CIHa94UXj9WCH2P32M_
zpw=&$z7qFr(ER?fcX{aa>(9v<ufM%<YUA{VyZ$@=nT|I$->ZDL_MO_ecL!iGoCOf)
zgC?apw0A<7Pa99O_S%@eHf~=zYhM$yubHvPo#B1sKV|(gE4KMi+<q8C7$Y-_I@8PJ
zF9U?kQ69}I|8!Rd^)c#b9QWc^uErDY%vrbTM2Q8GPi)zvGnTd%?kC=YNNmTtJYCr~
zbvZJ%(1|{`DBx&sXD1%)pdi@ZuF>icDMKbsNhCK{+R&As{2tBN<XoXya|b+sdKJdf
zmq9lJD942)x_xs^XicOl=BkYwYv(NXuMJ%v`r6CaU!DlYEX(4?Wpmct8%5(qH<pht
z54&U5(zvlyCl=%`E347{fEPEnzHzRgXs&qKLvOul^L(B=X~LZZFg-~N`LYZJB}ps!
zvJGYBNgMg>r2LUXzFb3oaneD)JVSj$(n&s-!R1Z5$p`fF!X)LJ%qPu`0`grF3=JC}
zIz_=$G4JpuP2|Dra`8Im#plaUTA4Q+-mr0eG-+dxcKI=fJ?0u5-id+n7m^P4m}jV{
zovxfJO|q;}2v~A=(=S|VkXp49t*>0t?#HmuilB56(9bW-1yNC;pawEuQBI>zXAK$a
zObG{D6S)cQf!>ab!>d@pYA#HJwSS;@wWNo@Bv|TU;#Q5#j`KTFV&x)=hECTPh!F`s
zy#e|jcplAw)_cZ?@D1R>y=LXw=a7ajYe~oPOcySxXOfr@=*vZ331f%Y11!cD(!}{#
z9~~}OR0&zUcpKgvEJ5OHh6S_1l|R<>YX<VSX}lRj(3KC>yfGVV_ExAl5IcLZ?vpx%
z%)LE*kmS@z7JnP{=HD!jQvNGFlCzoKO8iR_6Wus(%KqA^>!)T--k8ao%rKff5!3Gt
zxGiKF%=r%~fM-HU6E@cF?M!+skxSIC3J#hkK1%yo>KO~$;7~gU1X#_1s%;?S0^ThO
zLpaeU%d#wt!?y@SP##v|S)_PbL)N<N4)6;NyU3n;A4G<_ArcQUnJzAEL?@#pEyKeZ
z)@p!|n}B3Zx+N<(7&p^TVN}12drI3K2$aBXwys2*rlv52J#>j)K(FULkF|iZiAZk<
zh(e)Z9x><5OV)q2Pd4u2>yQh;GI|8P6(UD|sa7lk1dv~%k6`VCpg)HdAgBUnTnD-Z
z^xG%I&18FzPly}#33YY8DWTqg4E~)G{1#4{1amgQfAjVee}^A;Qy1Bav`h&m%N@;M
z9kZ;SslVU!K?Ah$^X4qBi3>4Hd87}RoYjpy<dH}=JL@^XFAXvU92;Si2D>g3_GnsX
zp;EHW(u{XgXE~36#n*F)F`9vY1T8|b7hP%a-i84%1Nf!S;H85W`uA!^cP5>~1WY3W
zCLrd5X)NUrm8{P$ixFiZgMcJ-zUU&sABfMG6xJK%qjLZkfId#Z3Z^toOStqj>SdNF
zD~ry%*qao9K8gi-(Cm&{G$rdbn8JJ=z8=VRLZXgy2d<KU8Qa28pRR2M0PiYaGs%^a
zTp-vLeVtvhT2~t+%~(Dc`^gp%7i-geNNj~k?oT#1?z__0-G4Da5^A*hW+`i1+iF$;
zwpjW2^fIzDE_V6aYDkie@PD-t`1U+q--LG}5@sW%vqx*9RD->fHd&fCLJOti#oiaL
zys)@_EHWoo-bahobJ=bTl;`m|xMCqqWo(QwJ=;2qcp4G;p1A<Ngqc@a{3QinqR1b?
z2ZHFoC?HABAe@BIjNK)HC<TY1`%P%PG+6m=knI8!IXtI!UODlPNOgurB6R_bL>Ct7
z8yCkfUf*@C>DuM7^0^%MY))w`r!;&vQW4Loy4La=?4?eQpPb9e9Scr0f2VwGB$ib|
zm>RaIr;<zyJcHd*%3{nlUuyvwQdmZ&8Dd7ywOwO}Cyev3rEzBbOt>IY5xFq4KAyAb
zS__3eKmI&H(MDk5D4tU@o6``>X^7{n=RZ;cSNP0yc|2#;wU#-X^V$J6>M<b^3;<e^
zwI4YMB9gGKj*F(y+LdrCtG3*OKnK!j;QIH}z+A%QRr0af?G*h=>lddCo%BO9Jyw!)
zkeoB*43P5@Io~Dchj0?cKyT*&R|tNO0)I}<Z^`)|a=OSdQien`a<f>K<Ri^MrjWxF
zEjW*XC?RIliZ87+Z?aFeNIxTy^(@zc+amrqqTs(F_#-q&GE)$Qg*<~`|2KpEW5e>O
zVfn{~l9bsj)J$X$ph(I9??abMC<?oi2Hd8r?$+L^y}Rblngx1<>5&t{N#SAUTA^aj
zmYZbv@~TMZR1x<#KFjZij<P$g^v_*?Zo!23scyk3RE%vW<d>8I-c)UwuyU;8M%{Q_
z$^dVwS?Cc2=Y)83C^VEZkU!Oyxed3lcxz}9LF7-hWb|YrmWvRt5DWfPo26V>F4q9w
z)NWy&;GU=;qB~`PH+f!g3&lWbNoL|cZ+9e3xPx@{79}m@gQ_@?vd9M&rGklIs4i)v
zCp&25@QTo>WDY&$8l2vVqakb3K~H%GbM}H0zSOEc8G<j;aJzA;F=Zfs>ZH*xERVQu
z7fqpz@TNwD0%4mF-cA~qDFgXa>(2;6$wb4=#t>4GKQ)r^6lx}gz?-@#oX8Rm3*jn4
z5F=wIDFX{gZgUz63LoY;gc^*<WG3$OAlyy3qf+o$$cIYhLGKDaP~#rxT)}6j%>kuD
zWz6;k2YjjOVqulsdhn+FCZTd{D2%3qCz)p#@?gs<nTh*+b{+r;RwqsH<3-580$-|Z
zXQogQZn)JriJFi<b;z7007C8NxzM@U{JK~^@<Ko|KTpUB??@VOn?VP|?VfvqZprFG
W!4<BCdbi-34zk<KV2YmD$o@Y8*j<tU

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/phimoe.cpython-312.pyc b/model_executor/models/__pycache__/phimoe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cfd19b5ef4bccc8efb113db9848c779325bb3812
GIT binary patch
literal 24029
zcmd6P3vgT4ncl_wO%Mc$2MLnkOC-dXL{XAuOR{7=Y|9e;l4F~(7ln8)B}f2CUx1dx
z1sm<wvms+Are-&l)Oah#+i9rUt+m@1GrQAxw~x4!oh`1Z1n{lgs1t8eH`5jh=}~6e
z?e_c6eE_6DJDF)`dL<s5bMARR{`38hbARCRI5|8i^Xth!dWqwHLILfutDe;bBgb9g
zcy5&A4ZJaBNE=6u2J)LyrnGs~%>3q*Wz>Q=OUjbAj#^oqHDycNNA1jSOF7ccQ77};
zQ?9go)Xn^klqX#?T9fvUdRf?+s!jVwed)T<Iu>@N{OS79dggbh8q$H$Ksq=YOov88
zEY6b(ryEBbnZG90l#Yx>nBSXfPPdG<Fn?{TH60y|rrSo_SlE|pPj`%Vq&r7DS-39M
zmEJPC1%5wYpXyHcjP|5sqcIk4NNr8`j`pVeM*GtJqy6cD(Sh{f=%9f!a*uL+;5Cj9
z3ifwQ%2<tVW3eH`h6T&nQ`%6Lf6ww|zvk0(@8GxcjjtI-hxsPtKC8Vi|MHPd;+utC
ze2cJq+|IYYW*&WjwIYgEv<cR;VmZI&(`$T?rEEvajxR|05KGyKlwDtta<AZKX}2J4
z_vfd5M{UsPK9-{gIbzjw2t7jV9gC8DbpJ(jtam2z_{6v%3KL^O|KvpKV)Usq$rF=D
zqUlLqNDX{SNn-}t{&-dp6Q@!F{MKY9l^hdB;5AN6z^#2s6tZF>IU(?eCMU*|rxE8k
zn9T|k+2kZ8Xvj=YO-+i~cy>}8I};z9Oiv|Ilu>paN{pQmluWYoOQ}>^Ex;(dPYc=j
z)KvVmI5|BfcTxxiW+ufrYgv3MAtq8OAr(JADW>>%COJcGvmc$#2t3*!Gs(WEpZL;K
zYO3RCTtbv<pAn|e_C!|T)fnG1ljqkbLMh(klc$r}%v0jzn2<r0h^l*fI)U!YB&bVz
zFYVMUadL|KQll4h;xQq?%YiRVjwMcMkw?;}1fEY$oJPt9UKmeIr?T<$Lh|&PY&<oY
z-~~|*rxO=X32{+KC#K@(UX5qQ5-A}*kw{a={Etsy2GRnbMB`7gfyjJnpvl2dJ*y0F
z=J@0@2W6)gdg`f|MfM$>&Q3nh>cMMPPcWIGflVhf8MKEDWLiMsa(6m$PKXQXsqDpg
zvZ6Y5;4|^@#29AqqU>S`Q;Ca$n33H|v!_I1Jb7VESz3y#?q+WFHxT|RXrI818bJSy
zykXSD8&4ZX%?|F@|Hqr>xN%U;*BqmkIqrgC)cP!kp1PHVt1c$%)R|;@Qjon<iA*+r
zPPiC<HIbSYGGk2@EhN(H!r$rzjN~^BSGb%Z$HnyoIR`>C#_Y)%5dsNULnef@4stm&
zLT3G)1tE2laa^trA*=o_jF3$aH6o-P5M0iB$(XauT64Bb7Sv{$L2a|PoE2#tdJY>x
z?69GjoE;(R0ef;zgxq?_g^))Nxe=<-Lq3GOddQDZtsbgJ$ft)I5USHd0fhW|D2PzK
z9tt7UpoOyinr}Xm<GzkVkvHZ%xtg3eSIZmTGUuB9f#Dkl19y>&nMPt}**%ruK_1Qt
z6Y(T3yH8DKDndeK$e&FLwCQ=QRCP~fZg8=X?0l6r9HRtsFrBy%pPI}hX}eY=lwD_%
zJda9<UdX<6t6Yhim`=ylH0lEPQ&d7DXYn)G+!?tBG?2D){CskPpFA(uloOmvCa^0~
zC<ZCxEX0b?7ol2&oxSIiY1ye(i0wsfLZcHYv`>tSiHXyK>=x6R_{5}`jtf&6*#Qa{
zA0xUcJBjqfvuA{CLiUv#z$1EcIxDkUg$q-Hn8l7qaTs6ON4-g5q*8J9m0XX+Q`1Dq
zra=bql8B#NuLcv-7Z8=nfNTrnvR{ooo5X;KXjL*J$QICd&<}eYWFwi4$79X1IU}UT
z#a=7|kye5@K+YgJ+sGLvXD2zk$mt_zH#rZGvxl55<aCqMLr#pG2g%t^&O_wvC1)Qw
z`^kBjoCD+xk+TDiY&~~AA)dyl#p7eC1bPwAG$TIxInSlPdTcP8o*JA=PW5MzS;+QZ
znBKkTfpfcs!Bq0p;MB$JnaPR4S8-YmDrb>!K^Oy>6_sFSP@z2oQy0ZYP}fXDC1o1W
z2I*0}%6tarmzTKGUaqNY&isbA*u8(we9PWhY}!J<p<>$*{kG`89lIzTEw=R0Z<GET
z>7j7=j;kf_+EQ%anRmAqUH-hQsTgd}Z`mUS_sl(ZN6Q?FqApLdv6EG)RiPG947Ve?
zX2V-Oua>&=0jjXAsQs#C-?n?^ZIV4y;;as5G2Es8kM6kZKt##Oc^g(;@U5cbT&yw4
z&2n6l1Mx|6nEFqnh!r1$^C?lq5iFx*Y8oKK$esSp`hW81f1dfhhfm)<^OL!M{>xAH
zpBxdxl#*!j(bI6aORo(a9Qhgf=n;>@`IP9|(bNCy#@!E3oO<eE@dO2r#%#1$>1d6|
zWoMiq#Wc>^xa^L{Uztv%v^UE1W-m?&auc>M(WH3tG`6Auf`G-Y0w*@jvPWHFV?rtw
zkKZteM^IOW&W{7)QMh8e<{Y9IX*j=pjVt=XmyQ)XhVz&+b8E@Y)rX7qp<-ieu`yDN
zv=k%FMPEbFA1+2?#m1ImL%3KMAh!W-pcrW@`UAyaQ?ap`QX)%pJN=Ke7K4#uL*u>O
z2MreIU5;FlRvc@@x>H&^K33ny>+%^bn0SL=KC2%!c&R?Tag%t{Ch_J?;w{zV$DO?O
zHS;@aZKGDS#I{LFBX6%rX}jo%Ib~ydO15UkFh?2LnFh>C0`h@6)q)}kV?cg7-2-yT
zoJ06DAQi(gnRD@R0L;k=VN5@;(F{7u>8M{NvI3C6oz+1BBGd;5wkc=UI06I54shgr
zmb+mfsO-xmUKLpJrxIgCl=zrcHjQO3h%cZ7@kMe*$@wxlI4`*jwLzg%Z2ibKG>$UP
zIMY)Ds{aj2NDB)@q>gjA3-)Ho-hB0Je(QtF$8XsmFM7jQk4xU3yuF9bzg%-##HobU
zs}TJ$+CAE%cl2wBVI9@pRQ$e#p_nz!nr6*FOU4=GnKc0a7|zlVZFqRYJL*uebe5du
zEY-2$;SCr%!@I_c!L#sSl<D8N1>nv!^6B5;0j4+6acRMkD_oFG8F36z9vWC+2L%($
zCQP~P26krWQ-bH?F{}8uP@{N?ob}@@2er{q77Q(o1PbTx8+*GpYcnnkz81KOA~O?k
zF#1kz*Pg=8qZ0nxhvuC5`p(7FopATkRw+C@S97O*;ATr<`ypxjq4ytI+5V{1{%GFb
zTC}$o?0u5GuUK1GtZOgUwv=p~qkoMvgI3mXp3b7XR{vjeS!<n)uCkdNiP^;`sY_3h
z^E4cEI}83~3~2t$BrjVSw<TK@Zb3{?vJ^R6$zjBRk)`J;NY3l{%Upm1s$}t%j1Eie
zPHn>#_hom<0)NTMH8fs1e))LGMj<=b6usVet*_*ukdq5WuB0xfN-hey)zB|I2(6kp
zYaJ`C6kxsvi}OyX`MUd>`xh4Y+55Xj_>@LbQ`Rj@IttkSGXi2?;j;SfJ6pMUk%%6R
zZtUc+2f6CYjW@n)dPmLs5`JkpBdtv-q0-e#JF5fm^4py8U9+~lu^GS~%z#?v%rh>4
zT}#eDOa9zpDqUI1T8*q-NVD<ziZSca;&`i8vX*Ps@)gspwW9AjnAh^4Zb**awUu*V
zyXio_oC@2``mSA1Wy{%S?G@$fV85Ir2Psv~TD5hU5qf4F6(xMptT_HZofXH~DzlRN
z{8@44OtY?vzE_(S=ek*O=A4_%imPH)+!bZ&ES56X<bv^YkAsh{nC;3rtd_%?b8X0B
z&DqZe%Vlc5tmfg)hIFs)(bnaxJ!k!b+>LrB-J|D5-8t*H@ma2e+YXR)9+J=(v11L~
zg5iyY3#J#j^M;LY-jI~|m}5lbQR2y%Q55hi+s+BX6b=TQvZi!$g5kayb3fo2Kp3S^
z6N=;HuMvr0%eIM0$d(|dF@aT-O^H((*#Zs$-~rMN1`EcMsg!IPhjb<@+cJ~mSxRUH
zSU3YTVN*{S**Z2kfx|{NW+!n#Q{o*%bVA`L=3!^M>{OX0;@%plaFxXZ=LV2+W-`Ug
zHsV)ttjShI#-gAA!UK@6=oltG$<8m?qqa~*Ilf991Bf~`1c}=Qu%kqKE6SpD86r6A
zSRn;zxH3}-F(agt7X(oxFz|=?%lsUK_Y${e<(%F(o9COq-g+lC_+I0U#%1IChnE^x
zVvkGqEqQ>C^F?3qO5^3m-;ES}9g?pj-?K08>sayapR*R*cQ0>|+7G;cRBAg`bbA(@
z^CNdn#x^JN-E(lxFhERwW5M4g`MdI49{Q8#-rx1dFR%EYxOBW2Y{{GJQF(p%%D&6{
z79%%@Zuxg1-rrjAZ;||4mWJ{>kL3MZR{TdV9lzsizH|(UabTUee4=QtDcYSydkEag
z-1zIBRfna)dg;WPyP_w%3b6;J*n`XB2gCW;gDbJ8{_k`qyrmG@E`_$|haUa&h7Vr-
zLGw!J`MkNI80pBH!=K<3^j!1gx9nbi=2qwc#Rs|zfdMHnaC0cX@0omHU?uSEr6)h}
z1+GLcN3PB+J)CcO=>57|zQdP}-Nu2NyPV5+?ac2!p6@)7fA+as!7pKqioT{R&6k_s
zn!Y}JZFa@i5B4J1T?lTKf?MC+`QAe}9$E?RMzTBhI*drkVscwcoXKLn_o4ygKi~RS
z_lEF0*ZNl(;;z1V(DG=H>0d|jv(xnb9?PRcw(sw>Ji6Z|do)Q3FbCkX2OERrAquRN
z%~)RNWEbShkXtZm#+Z6kpit#FXGi)X0-GUC-ast?vV^<wQQn>F!Lqa+gKSAVsDB%n
zlsD<|Ivas_6K|PTQd`TZvpQ<c=~$IP0`sf|sMbOxDrOrI=}emmk4!`4Bt|F4qfAtl
zi9(2)PGrZ<C^V<_NfMx==lw%bl9OOOqRC8Dm3|BS(V6Ho`hYM=GQFOd%$ActoNLLP
zNkE)J+YZq6b^M5g^2M){^9?w%n+8{v9%p1b3nlr?eV{d{2qKtZhvsH{dSZ+OV&d<j
zl%L{H!>(@59WJ<9Bv;GTS0q>4;>(4u2c)hCmVHv!Lm#>x%9~%v?|WeduIr(q%e%1s
zYkTtM-TA=o74z=7Jw;dGYM10{&6^M9+YYV3b+vxd+_TiY(!5(TH(olv&{K2;uZHrj
zw!FEGVZ1Tatv?z>S$!8#8^y$$c$oL{U@v*Fl04W(-ikjPlsIm^6y3ucX8`1QyI@m&
z4y0A$oPvG4mI;qtuX#otyc;D{IVyQi_4si!Ujwy}iwT|GSQoXjRT1qZY#@yXqY4kw
z58BC86H(HmB-2wVAq`cCGT&g^G!0AkOac>s1`J&$DnOnWRpfC_qQ{9b5hAxJiitu7
zcrG*GWYI^;$+|O9MSXx&qM(!`@b_hmf}M#bqT{3%q4uz1&I#g#kfOE6qNz<d)S@a&
z8HLC^)5kK7CnwN^i>N6o3jFk#z|tvOJX6_FwUN~H5!po|MoqW~E(F?)vJj9Yy<!3a
zO`eHW+z_`+WFcE5y^(CoPAQUEtEx_@gxv(K7|r<m@Q}2=3{>VJssB3QwzjVUu}MC!
z1JSGw?TOO_m<4|ceiJ$9K}wxAWnD@f(H(`QM_PzNAcePO_0^WMe~aVIzi)ik@{XDw
zW$1N4rfnTL3f9z2!e5b?MDZG&lQZ@Kby#99@$XXf6>|E?86by}$~DSRLlKn0$)90c
zp5+(+9=#5ZO=q%`>H9bJx9}D`;Xx|s5pr0$B;}XQB;pY1uxDFewrS09iiaq2v$mA0
z6{&PZq6H?0qlsqEB}KGF_04#d&7ey-{~D2*b8sNxTnliH8YUUMWpC7^n{+^T72QGl
z?+Y+dVe^{H+Ter$(y>;{g`&k!N3kwQZp$FOZ)z=un#oh&bi4DRVj!~c!qpdW=&uFc
zA>{hHTVWwzN2RhATFGf~VjU|<^UT)J`|yyyr`p*vYurql0VYvjDJVdFbXE%5qiRg#
zhLeRPCtOvA5@(cN7RgGer5m1{@g0@@1^qE9KsaU*7m!RgznT=zE3>|cu=s5_I6>G9
zvk`GlipkS)cD%@*_0oPrT=uiwt|>oAlmO-D1{oBSBFxmN6Ri@AcC;u%SoIQjr=h*j
z&?7bU%sGppu0m+56xzBpw3ICjJ}eDByb?Mv=eg6=dVSBeJ&P}|H0^+(c+Ru%O0lK=
zdg@wgY2R}HO3Pz;h_$`#1#h?H?Ot-Ocz5LOJJ__w%p)TsG6z__LGEFT$N9-Ih;L26
z-3q+7F!CZ2GYdgcR#bMxBn?Y~oRj1{2d7d%`%Q`@XN_La-h_bmuF-0-mm*x>w&Kt(
zw6quq-Su}sgwX)-gkOk7YW*b}`RrUETyl`l$wgXAF7h!^$hphs77t5-o|1>6YPeu*
zX;=yjmb?_K<?0$1vX>i6J_^-wzWUFo{L(Rl%`&|B+;?93_DdxW-kZX|O#NZ%9(k2j
zPAwh7pZ;jf-0HtUROLykoubMw?}G@}g!9yd^AxBEe+G7Ds-jk$oe(6j7>8h0eNLRG
zN}Nlu^KRZS9$+V_hn=J~g7a)ZZ-?&Ty_>|ltH+O9`C6Q?Zg#?Yu)^zPm8cxl^lu|<
zfy)j$V-!`Ko4nAMvk+4%kxsg-{$pAr+09gD>OsTk8uV(UJ|i_dz>z}W-bT~MRFckm
zLBx&`j5=)m4Tla?sv8a+QXf}2bly=1WY$GeqViz_GC;De4NuNBgI&iP7>G3<;{aVZ
zONY8po_dVIPlq1uSoR>7eqd>FNaH#O;j#!NZ}qnobq848P$O4MS&@#lF-r#xd!Xp8
zngjhpdo==wmg;@anW69|VKUx>IFd45Klo7=&B2BTu~p<$BymGtJv~y9`e(!Qxq0=u
zubzrG&7jq&LmyeDo~M(QJ<Mc)fC_uEt(uPv3#zpkvHB=zX{r2bBhH&4GjRfVSO7e%
z@2GGCZPELf?a<2DwA{@`&7hZVW2Kj&k)9*lT~WFotHrTaSBte|V_F)t>T_g5XaRRN
zqNOeWLMo=NY4o*0i!U1(AeTPl+S^TAQ&pyg67(^wD8Z(Vw*w>MtQc>N%#!hfOJNO}
zCi1kB_s;iD&Nv2M0Y#b;C(p)A;_o9~K~e;wW^4nK${PzQ@S$P87>Dpm{3E;rVoX4v
z?tz8QgfMv_p2=QJ3F1GaT$TZ7G$vwZkwh`#KP87SB_mt0&_>ip%TxAdQF<z_Q%dnB
z#nzQ$b)q><C9#5cQWEPc3JSN86%rXrkhF^t$p<MRwMV2yF59(UiZp(*Rq2@Mrvyaw
z^bW#QL!<>On^`YB3MgR!l^Rv9n+=1a=P&n>RmcD+Az%fC(w0*(=zTymq~H_%%+L{O
zKOvQSa0rn$Rzak<>vpZwJuqi0wlaNsr0De*yd9FaWAU`)?Z4^!&^wg359Pf>#c*>W
z+%JXuZw93>RN+vVw-1m;9BOxO!PPFg+80lM=;{YLs1FtVTP6S2rROF8@Ur1U|DL>i
zPu{<WbiGYiPZpYoCH!Ca>UN}c(XcpN=y*`-cyRf&)Ny1ba+E3fb*27dQVI^vJyuk8
z`GLkO6PG6zv)`Hh_N){bMuS{X3m1YtQm|)f_`Q8M_DMl%rW>(WW-re!@(>5HuxbUM
zYX3h8#TX#3ee=Zp38<b5?x^IBGEax(?jT(>&^N=~FXsK-YhHVp(7I=>jtlna=@*B;
zv+vvcB=<Ik?8{l6&-=Ro@Pm}awN}G5bs!6?Nof_zzU`}DIC&+0IlkiSB84}NGgN3>
z*F3f+%H{=M(9lBJM&?Jf+z1_?Kdz^xCTgvGF7NL^D~YH0x`W{+*`XN*WtenjjLvuM
zA-c!Tdzi&4f+_rNe99o4iHZo&o2r8Ks_X)&jebU#ORgS!8qf@ks){L?>J<iJFbdm@
zfw1JPni`e0jm*ios(KBi%-OWGkmhq|^;4{(Rd$WtV5K?GQwLy~Nnt$13{u8y;=jTV
z#8%L=XT?8;U;Gnt-Y4fz$@w0fn96GY8AZGfM>c_Yh~FWf;T73%PBy$MyNEhyB1Eeu
zXF!tjPFMKN1mb3b8@IX2k4$6AGMA8oX=UpIBn`bvlF)hUoN4aqVqL?P*yY&Olh?m|
z?aND@@Acj2TQ+~s{atrHa^!=dh1g2n$h>XNFt>d!f$jh1SLVNR_2N?7($g#6!Fe;q
z7qQurmy_6`+ZPinfu1=REH<t@arucw*GhfgykpL~U?_SU<~$150_ousXw0XzI6uL_
zh&K>`7GgaQ!^ow05wApoJ__Sv=96Pt@gGz85ppKT`2rs1JxW7PAB{o*9`G>WLZY3;
zNEg|Q^bQgq)7e9OOz<e|LKq`M9->vjl8t%oT(Gg^U|uKZ4_q~0-db|8AQ+m)l81R~
zAYU(enYWe;wks@-kA*=FR369A!u4DbwC?h`QUePHz~z)!?WGXstoba=VxKZPErC1!
z(3QQH_m(X1qeY=+l5&@96ta`NJ~AJ<=Rio|fvBfr_|qQ^z^(oZMBUE=fpbxKAG6BM
zm~~#q0$vB)&bX8DH8$`yHgH1rYOsxWY!VL%W7YH;e^vD@%*|ckdQdNnSzXv(9=T3g
z+J}WPm|=^@$<lU&shS`q+i>`cZ=<7QIuC#V?PEs6eg|}81J43#u#sn}Cei@XLSE&m
z5S~GF22s08FJ~>;N|X-%XyXGhN;PC=sD^HlR>#fda@N&NI{II^7RGC+EzOZREd+m6
zQJz^B<*98&-}QcFb-an(RTx~vR?(3nwt73OpkK6$T3`jnv{m3-eJsj6#Mx+hTr}UN
zHMMIg%D=q*U57Sz=%bF+|DV-BFpxdK$<7f4)cpVvj7Ohw4v>i`8P-nVZ0M(W1_cQR
zSKvX0IIBRx8Q;Jun6aLVE2>JE@ClH0RTE_DF!|&SqiiB2Y#o%NB$7W5<JEX#9C9xq
zR=)v4%QhH(qH!W4ri#^SA2n^5973eBL+=0+8Yz~jd+GH6y{_HZK9M%5>`-<y)MCuo
zRrV$)$oQ5S8<Vn34gsEID-4eHH#lhzQR)AIobr$`V9bW;2wr3eW-G^KrEIq8euAQ-
z;=e;DMK>Hm#Wm|taa*COUux<n=o$K?A#(Lgi!a^Wxzey_&UriBQw&84p&luOqa;!Y
zY?A`pis9Bmc()YZ%{)7#@Q&LJkz#G&s&nyhp>tU39A35-9(YE=|ITMtO~ybCQTTQh
zuTkbcDcq;P%h9~QXD#e$B+ys07U9~ui=mc6Xqyz;R;&vZ>iVR*J{ChV#$ronp=FoU
zvP;8#`R0MVe-NOt4f$``n}Hgm?bmbHaz%Gt!QCRcTNaNNI(JK*yFWO*W->-ust5$q
zvEKLGH{8`z#gOWU_Ace*`7@e@*Wt)^Na~Y3%tqI#IEex<DohI+qGrX$2&265DWgdU
zp1G<x60(tZ4H^nWDp0c-6hl5{xl~F0)#5jlN~>bSvo1wNi8&KfdKyPyHlcSCjAs$~
z#UGOM5jj7CgIKmA^<<)q*bH@@mS6=|Ypk;VRJcY6Gm}FWz%@5l-!^B*q5$j<^+}<=
zrI%Mi4?$=gid?U`R#ObXEVjF3;lkakoC%zV2bdtdWyy|30YC5ya<gT*Qwr_8nO+GU
zp7XG9zZB|ULU=Eg)um=AdLviQ<h?Lj*rGr+lLpV+8{rwz(=syqH8I&=P-b#|o4Wc9
zcnFi(Rgp4qm}?7QSZ$<a!7qBDK`9#rfy7iK<)EOGkQ1fHSOGYB$oG^XXzA8*6Z|Mc
z!%Y;jbHG%6m-`m$rMj+?gQA=olyV`YENE)r82<D}lX0y+f@W7jDMA5n;RX&9Ae+aP
z`#6@@YH)MWihE}@dI`D*%G#>&P^rR#chv6SAe7!Lud{ky-X%DA2NP4fH%Xzq-K1`T
zy@j>0=QYcy6D@QJZUG8r!6TqgVYHq8U^7KZ-x`Rrz3hGUei*g%D5q9nxzRTgX8Rbd
zt7F1!m$C~^(A_%52f#py$hYjG+XR|$nqtN@LSaOJ*hNN4Y7qLS;j5;vn!jpUr~mvF
zVO=%G^J`?gTSW-@H3Cdk;M><M^X94mu0r%YPa<5M<jk+T50%yQ{hNq6QMwLI&~Nq8
zh#$(;+mzJ>amZ5zhJo2L&soO7LceCu83D4409hst0ueKf(sZU5etqG>@6~F~wrRez
zL<BZG)mw|$&J76><jv3*(>&rq4LUq33rN9#*iIX(msv3aIw%FOvXAIXh03L+LItl<
zTfb?lw3eMW&Ku@|p>dKBfyRS12^Hdhf-h!Z^a=Ewp$P^q7|ghamkK?<bV<PzvVAYi
z<WBL4{WDuCma~o~2KKVsMVbBZDCs^Ts#lMKfG=(}^%EX&FQ%4veP%L7Y8dT-Oq8LV
z3~S6uQ9@$H@`cWmSfGr}pxU9$qZtf1&WvljrVNOBDK~394V0oUa<j`~bOQ=@;v&iA
z*=;1*1wAJ&rn1^)hcLmbUaQ(3I$1^Hq7|@aCWI!oAS}0j!EH$mt^JrXR~c1BjH#lv
z0|yRNqP6;J1N(g%#{YuS{^uo5yJiDr`W+w4>|&BHR`BhRd^=!c7i=#C2T3{zVV~~3
z(-<u@_DYStBtyFsh>!%Xs0sZdLnKLia{fsj_pDk>%?uNT*X-P$!v^-EQ*w8HW;A*T
zwFR4@dROIndz_MeC&P$WJKq{u>U_5sFtQ;?w&Hq$>)@8E;kR?!o;MUd5nNYr$Ch>#
zdiP1a`v42KF`U)MmWJ$5@G<P06i$~2qV~{cVuX=)8#5!*$flM8zh(9Nvz+)Fh`?h1
zOZ?n0D&Xbk@Mox06|l%&Wv%G-&Zyv-k?nyEFMmq2LObpf$AraE$s1h^uXua&_FmS3
z5eA~<`gL~=wc83FR!K&=p_p06#p^`>CDc&4kKaLM^i;Ec7sEO8Z-JwnwM^iOXEi(P
z@@UM$2xitgQIj)WQnZX9lyr*0@C~<fna^6me{ZI#(#bJv6mw9sh8@b0oJRT%b1#Fq
z&f1Jz&ITk~MPm7e&s<^UulH9c&*efhH5JDRO5#m#RTxO19W*l=o}5LKX`-iey~I3H
zL2HZ^ey8X{UZ##2Pl{m5$jnLn?}!tLf{L^m#h;S%GdQvvY8%`!RFlzxBz_79HaUmL
zPwPwp)c=EgC30RThiIH^Q3wtl!~~t`5s%W_1e_UvB|%VeGhP4A{3+ftuFV~KeSg8#
z{h_NHs5bBIDMtG*d+tO#3(;XII(+lRmFU9@9ti*EAG_o4&ii-d-8<kGBinAaN|A$e
zCyK$|rDIZX_uONjG&Eg3eEo@QPb}3JVtb_6p5@{1?f>rnA2l4CJMz(%-ePUISle8z
z4XxVD-8Ik&%$>OQK*_`fo-kn7*G69d+Xe5|54~G&`*9C(aQOwP_9(V=eNBlY!U4G6
zeBE))vDm*tke%9UkFb4m-!aBE_Dkqr<>Ifl=n0PUn+S)hAs$@Ypy|Vd$+wKi#`D|p
zH-x_(xQXl^J2#bOcfy#Kj@=SeBXQApq9W4AQch2mqnP{whbVyxxluVF*!^4OmVG9U
ztNl}CY`{*ZeMkiWNQ;A6p(qnB*U?7>6ay_S{Y*>c{NMlH3G$WcML9SbyupHZNP>n6
z5?}m>!3uaM*ELrmL_E=&!$OycEDq(ejcikm2-jIjk@$;^{@ZY`aHnC6@U~&rSiX`_
zolSiQ+33-?mno|=rrJAZ`=ld7B|Xcdda)%9hj9tu<;xt$R1S)=qY6I#tutsvmH4X4
z4*fdK1;eaed;&r@J0oz8@}-uXgEwY%5~C5TS!d2x?Yf56AH~*KH0Ep*=A4Z;u~Lb&
zIbjN*U&VnvqPZ$5($y;l?v3Bf89^Gc;F+4oHS3=B<lH&ys|L~V27b@#sINR~c<<71
zArw7TFJ$ogB_)wmJ|<S)aF!a%9x`Ci%0NvAF*a6ZY;ulj>iStMHl=qtk2Xqlabw~i
znsEUMJva{HUX!bN343godf~0;hxb?M$EIx?_%+&Q#n%SBz}xByWG#FSE&QS}!YHya
zGU6i2;Z0gX@1DsvSBzlUZV&k{(fd>7wtn#%(?(RAhfUXuzK+>NncqWy%%EY`k(dc~
z222eH-94Edi2n|))8o!5ao?|uQ_K^@4-hAN)_sXYF?P2Mko79;(e2DenLf+lP^nUq
zk9oyEr;N39Q<^V-LnH%ZJA4b~f8(8EW921crI=ok4S^uuqE{qISMKhZa6?nJiTEr_
zVoZ?j0N|PPN!*K}!4>gIBu*qIFIKA@p??Fv8~|h=qkFrmA+btRWtV1H45gXuVINh|
z(#Q>J%Qs{(Q}gw-${@&2)=-7+TUZ9x5ZTH6O1w)QFv>4l&`i3)qmXudvx&=)IRrby
zD;##5<HHd63X5jDKciYID9Ez%O&wA6PB@piUl=XzxF6Gk(-k_j;X>0kscG9v)6hy_
z$DHeSd)FUy;T)xdezz3ey%ODnt2DPewo2~Sxx)+nIws9~`*0Q%S_Y+-!9vT!Qp>~d
zn^#(n<ZF*CIN<=%hdURKNuj|7%k60Ql4a>Dw+=kF68+MG=T6s9p=+1awQB`80uFxI
zweRwY_xI(WenvX<ERKC&%Uvs+tHR>Tw`z9)85C;Uq}sN{t+#5y>4ko>^9iYT`-1c8
z6HB3@zXfIo{;kFO2w5ROt+)8Z&Bm4B-Uag=e~{hk3EuL@miXmfY2XM_eFCG2;hXii
z=R;XS9Z)caVhfgHw5t%^Aw_pAcs{CarkZa)cB^*ZN3{*5CT`bp!)gl`-MR2+@z61;
z{=mYqMc2}c%XY9rOPx}100tAVBEG)&+TJDC&C!*n0}F>g2@Wh}Z=Spre2`v7x|hsS
zq<`T^u`{Mfh!;+LRNqE+$DuBqrNy>bvAy>*m?;PDG6iS{YAf|{p$N09c>Y$f|7Pd%
zIcezek3!LM(G+MJzIk%_p_Qgb7Y<_p7IKKYqgQvkvln$-{mQLvM}U{Q0t+WFunp~t
zT}#ck>US4$LBriFxtp)@KXP}J4jQ@6-qIsRuC`gjPYP?}-zc~wcwSXp$zUu4sR`Ou
z=2SA1#hu}4Tvt$((QFeF3=r|@F-|0di0WpuA5$7~{w*#2{|FDnn|BT#`UTf)aW2l3
z=x2GyXY^CrZ?N<&HM|$O5h-!-E_Z#e@4J1g<b@sVz|dV+tEE|&WWtYii3?w(54KUr
z&b1ERJS??5P;yYvsfsz7HA{)|l2nxGi1VRd$<e#&p}0p3Ry5@BQo~Z_=AmW(@>qWG
zpcH#V>O8c{;Z3RbxWUrA_}J2OH+L*sm?glD!&3hdsq<)wqgNm7_#pG|AGpW-46Cx<
zj-jLaqwzbdZ($79%Szd|jyT@*wjqfx9`U%q!du@mLRM<S7m%#Hop(T%O6IjNtW{;H
zZpcy{xQ0^QsCE-$TgV%|kT<%?$d_;2G`DY)QtJc{U(2Ma{!LOSZ#Su3@K9bzQ|lp3
zt>GIsDPxn|XnO!{_u?yXwSrHuSI<3Oma^6ebpnHM$QeRTKVKu%vz&IJfyR*_4E;fV
z8^(JWD?_;+#9`Sa`xG#JbW%K&n9d|p$4?w(XD5zJ11)mgMdd^j9JyAJ0Wg-IzV?%m
zeTq>^#V3WJB_U~oY*WAZBeqiZ8;D}UEK!&L=nM|Y8faTGi2XZAy+KD0;pwlUqp!x=
zKpR9hz$$w~vX5#aT%^!}c?CEzlx=u%iB8uymF<s^PY2vtowJ7R6AAY=JczBLFUL)I
z)4E#B8ssTMHPoW*CNA5g6<fU)jnzON9lC=ppyPMLbGBte1cJx~NrdvSOFOcKNf$At
z`mCK~^NFQ#4e1n9&Tqj7L~@WK9wFx^<a|O7<Lg*TMiiqI*GB7sMyTR*NNkOeAY86h
zKDR^wP5IcI_+Jr?D;<X@hu#dO<Rgg7(9{vEs1z8g>a~g`t;=Icw3S&x9!Os+#D>L<
zVnbCXhy$q*8I~e2A;kBDK53vUIPV@`4!j>+>3bZS(g0+0Z#W?o3~gbuJvx(gAs;O8
zU?F(h-@0gBa;*4=VCzTMa^7$QyR>b)X)SC!C~Z5q5`Bc}WI@|KzBiA}A1k<bN$y<$
z6AsT0?TXk>k(RuTX0PK+Y0I!}^8h@X-5ag0Le-XvCImDp6T^<d|Ax{kMSx7kGt+h-
zo!BV+dxOT704fvyy*V>KQ}D(lZ)_>H;vLT0m3tbB08rG0KGmgs16qf$S~fn~RWwa(
zp~$T?SthM7?V8Wek+qtPsro&h@ckWBWlL{T$2w6Mbh0%hvT<H>7TpaC7xV4AmOa2H
zO!tbLFJ<`gI#REjD>EY4T<wQvQ{ik?F(!nRXaGH=;x5k^-89nnBikQTsccoYP=+eQ
zzEE&>4Si)2-!oJ1+Rv!BE-QD)`V`-yE)&~<x%4#@d|M>n7TD9~zMZ@I@`~>e<m$Rf
zpGbVjy1r7?tgjEkQz@?kZ>>%!_2gGwnGux202k;E>nBx6{iF{#uIndDrHO|sJ6Fj}
zTrYR+wy%A0c*WPlx>NABOWyXy-4)Vm{g6V1`0AG0t6lK?I=fAij+AGP7OBD({x!;~
z5O=Z2na=xH;{8&tKcH@q6r^Ie^-12o74JaaKEQw(^jRaYhJO-?D!z-;G>%)War$Tv
z6hLuE_xNd%?nBcU$$=?_n*`;@H^6ieo$S+3ef9HT897{z!siOv=l|4P;;#s^MKZGy
zX{Ctx)@~)T4pWfEO&O(=<a-WI<^42#l9v<7Nzh32zyqLNZ11KIhgms?{}-IO!C5j{
zTda9=W2v4C_ZIzI?pjP?gd2dJ+j|#Xd2=&^=0OFT<A<O*eo8|I%g!=1-&uy{J3#{W
z9xxR9x8HR+E8sc&74V!w74V#b8{j!bZG`6(7cyD`OGn;2e&aY~#FoJFbKiUEyDzPh
zw`4b3`ZfXPc%$HQO4(Pk8!UrWA^tru7lR6Fr=g1()Gx`s_HgWB@gHG?W$)M|z9h?T
z#%Bf+r^eX)K<|Vrv)ReXR7Mf@Ptc6e*(*o!vD=9ZC?$CR%z$!rd0J%myW_a@j|`-{
zk!wh&Pq#Ld@8Bx;ADUPsQJ!Rq<rv^$<B80ZVn!rzrI-S!r79LDw6^40mXQaOCMHjT
zuJKGaArexOJJ~x1T_89X*tZB(h3Wvi`Aybwicq@kbCTkQ2R@R^Zgz--i<C<py`PtZ
zeJZj7yD&)8{W&?<b#L`Ex{8tW=asKskI}asyICUd_?+^UZ-A1dhJ75koRa}CA|7&o
zwd~5^DFk*v749f=$z)Y@#>*a-F(bS(O<zkEiFcNrOs$8Hwg?%qk;aSwt87uSGBQp_
z3ey-XTIVPQ+bNMffp12#Ptf42#p;I{o~O58BWIEvq6fGWghi;_+qRxyL`pF?e2-H6
z1vw0BGUBk6f{&6zx+AFS75cPaJdCA}{|eP8nG6QQ-677<@t0iZ$6Vwmocm+0{$p+*
z3-0?dH~3@j$&a}`_l#zP@h%7FGbd+w%<wUH^keS8J)_BByl02=nVmBX{EXXn&uB$}
zgR@q5#9(mJl?#qMYfl+F49>ZRH(Tag3XZ7ch^}#nSUqkSGFVGz4K71_Q8o8A!LKv^
z@Po3rYDzZp*}1yFssp~Y$WFuX+%s>!IRD}r2k+XH;aP(ruyBgZ@z*%=uceF!42JHj
zb=Sk!!fPD)OGk~IF}P-Y!Dwh+XeZPERgV1l?wB!HV$o}_nhzNagIA4AHMRF<<7XU&
H*+~8$Xaoio

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/pixtral.cpython-312.pyc b/model_executor/models/__pycache__/pixtral.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7dc99ef22bd044f055a6b0cca6d5bc81fda2dca7
GIT binary patch
literal 66710
zcmd44349#ac_&zX-`%+HqXF;$NE`$KlHg5{Ab5kfB(^9)Ai7Bc>;}N<20_B0P1|zR
zkYy9_5rVd62qxYLjFc6WbtcrrJC+^C<K3Cxq)QE_;Tp~?op62=XMf3n0v%b|OtSy)
z)zJqFq%7OnEfTL^y{q2&z3+Y3`wuRcox>9}ezEVL-sQNzq8H_1F?d-#Vd1zNoS*aS
zf}D?j^+8=o@6(42K10apGwLYJ5Hy9%K6A+8v#@t#&>FJ&Y|L*8+CvVXBjofs*}E?2
z^0`=f?vTglk;Ae=o?g9<3uXIqSco~88_M(Lh4Ov*?A;P92o?GYnco^L3Kjc`nco&H
z36=Uvncp5P3zhrIncoqt2vzzjLtdXZROPE;Va{N6sK!^r{I1}#&~o1j=645IhH8Da
zp*mk(Xq9gj3-bh5hw6Rx%%2r(2sQc|nLj(&6k6k3!~8kH=FnQ-+E9zHg}vtnTSM!7
z>zF?;xIVPOw}JWdgKeRWzKx+xzD=RczRfJGAh;#8)wh-T3xnH2+kM-azbLpP)b48!
z?ey(r@5RAgp$=b1Xt!^7sMFUO+T+{9!b^gCL;HODLi>IDLkD~ZSXgQBVCazVP^in-
z6*}xY96I7V5<2QT8an1X#^TF@$3rK4CqgHEC)s;>@R`uFzGs=gBKTbBl<yStR|b8d
z=Y7wIPWw)?cW>~8(2KqoL*2e^yjS_FgD-`8d_AEvzB8d-UoQ)*3Hn0;Um$eWcb2^`
z3!V#|_ni;*`T9crzJ6AYE_fjnWTPDN4d^%<&79@I!O)QJqK?yZfoJ<4DAO<b`=;#W
z4gM9r@POXG(iisE`iAw~9?oC)GUs0vc=1hxl*o69g|0?u{hN9@Y=nh1AgnRarKY^h
zLYok}CU7EfxfqGnxGOBK8F6a^hce<uQP1}Nzn3eO@)H;hTn=1$t3@e=mC=ea)&)HM
zzeq_adjn?zy>FVN7p0B9s{u31w;uU6C@oN9KkaV|xcdL;@v{6Imk8ga9e&pA-~6)C
zcg?>g@LB&>{B6VE_Q2=-OQpB_cOd=e{q5T2`FAc6zEpiT1zy(9p&fcwPvdje>feQ0
ze1Y{)2YP6?cF!s!;QK9>vJ)xyJSF8TEahIL-1n4}QI>K)QXY6p%5nd}z^mHrq1G(f
z*GB&#wDODWJ6-tB;ir7(HJ0)SQXYLu$}h2$$B^>)Q&N6;$r*J5ZF)KI*}!L|F<~t^
ziP^L1No~c*J%ct~XWxGo-+wM}KHyDTa}zA?6ykhOsoNw=`8-mdeoD%(u#_(#<%>^A
z`Bj#(8!2CUO3JUXls!m!<|!$^ennTq1tQBh-VEpmsC9~)(7*QL2zS|ViW||@_5O?&
za#x)}wC;-p_?|PtfM_|?Gc?pUa89%y4_q7$4D<%-^rFq*6Y1#<_JqTt`D|Yx=nvQF
zL{D!|@A-hgdx#$#3h<FDl&*bXU@+1X3HU|J!9FT7h*0~!P|vx*uJgkK7epH%U4(g2
zg5zX3z#j^P!-&Rf{;u;qkzD}B!9b*MaNrnyKO8}XlNGRgpm)$8;PGx^@2IwOXHTT}
zd}p91GRz0W+#`LLBlzSqePLwZH8^m#@0@5q5f}&$@+Yng(I=#;>>C&wrgF2p2Zlr4
zeN?;d$lwJeM41J0DaX(d{>tvqnSkF<{gH=$30~>uS#bBzV7NOFIwKar(?_-K?(>Jc
z`v$s0f$;fre4ii1v$iVVvOg0HhNL<nDr;v?IM6X13SBuoM7hK0CbPfqQlCE{E;|>9
zbVpdNyF+MkuzRQntqQ_3GRO!0-Qm7bYD*5K>*>YcfWJF59PB<jfKbb^L&v)Y`4C!C
zawx!`3;1^p28TlfN8~aN_6-Djcrp9vfoC#<jt!2a2hm544)+X1`bK-GmTL9${eiPR
z!@)@RNTBcB`ABzgu!lxQFXkRPdGN%(Lx(%s4|X5hy=UL?6UR=8`G=6S@6e#XCwO3_
zhd&p_WDAAsjABkQq5~7GqpvrTnz)l@nmmjtNl%{K*TIsyx-dNgerbSd=yKV-IKmJ1
zVonY6>@%W`1s+GAp>}FT=zCH%%wi!8MlwpxFXm8${E8{CZ{X~pSoByzB_<mwLqm~c
zfuUeeZy*#Hh=@)p=;RRA56w@OKzi#4M0)yyH0}lJTwrr0ymPoOh~5-E@|V#Nny<9v
zvU-Pk9tC&f6Opqt$~rW901GV?@b}>xN?+*3tV4ZaS_~&>UZe56SSGJmHq$Aj`z-3y
z-OJVq>fw|!AIG8&^@tAn?R?Kr;Ac933G{DXvhC`+2#Yz#hlhp+`A9e!E83N?BS%nj
zN#8(Ur27&UKsO&ahk6BgzzsIHMQ5nz%9#LwNZ@SWWqc!BTD|gOXI)+@1<A|&cpw<)
zjT}eYB7t*P#0owT9t>UzbYJQV5BCJS0kH^5bPo<k<W4gT4uwy2ijE<I6<D8G6TJlY
zlt(>hL=kd>3vfQ2pY!QY;=JKA`1L+xz~pDUf57ZFY(biUC1CB(QL-n019t6j+GR#@
zh5_E@@EiRmzu9l0zw`RHtP1`m?Pd6ajlOWjUgr=CWk4iN>b}c?pfnFg|JLrs)6s`1
zMu0B7iM>-;gZIq9CNBeuUV;+dRbD{2GXdT^c-G6{TsS3d?<Q}T8ryrmXJ8-@40~%^
z>Qd62-{jrP);N_A0Kk`uNl7uX$@^@dKXN`J0ZVZLdo0EWtBzvB*h4O0wRm4*O=3fg
z*G38SzT~CpD1BpyEtE!9hUgrkws&9Z31T}CjS)a{QGaIOXM}N!y7QuL1gpU5zcSDh
z>g(<H_l2-YNp0<_bBfmPZbSsSyG469O}XJ9`JLU}7cpDp7)y7zf3UZ^o8ONjd72NR
zryF3E?Pb)%h_X?rDKg0So)^v1+7OLFT4S3LbB9}m%l*T?rbuY0X{c|g0h<TlbHnA~
z4IA4oYzQ<3`_42CU5T6@9B872&?G^2And)vC{%h4BPZLz8i%g%dr=;9eDH)%!1)6A
zP;WI^7xK8}E!R4tD<>KSdsW=H_P#TJ-s-yU9CuDcrgq;tc=Mo8SSMKPeqzm?=$NXS
zIzC-9d;D(A?EX3H_638^)~<VKFu2T*ID^T|Q|at8X=}oPP<j^aSo*J|tO{vO1dM)z
z-+0y-<<9E-rk9;Q6RnMa<*eRse%Yv=7OVjqLhT5(q=Y)uP-{x4Qw_DHgu2vFdrGKV
z4Rxf1dTcn);Y63^cLuTo*?}x&-T95Q`uwgy4nlJ>LfwJfKpu;iQW*mI2q{qUeb37#
zUtyHHtn(Ee=jyW6RjC5!c7M+h0NUsvo2>|@P2Ah#-P_sFi~Rr_C(tTy9|7sJ*cZG2
z+brcvAqhYO0Ea?@1M(`6eh4~;8$+~PVV?8^8<Ptrz`rD~3!4haMKd1&1~kysE1x*o
z*wOl+zr{6hzOK8$MOZL7<N7h~OE~!{Bc<cUbYon%n)?cOM@ML(DLf3+j@A%^;NAR-
z$c%7fI1oI`UPN1WH$x1&yTkM`ulE}NJbw9JIHO(}gk^SCqf%fPslxeiesPVvXLXHR
z1Z&Zpwd8(rb=3GJH=CR|+$SF+ysS<A@Z8|WIQq?e`qg$MWBMs)#&cB{!Mu>3F<r!}
z_?1&{Sihh9oNi2aoa1{CS7(x1Z0#GssvicfVh@Fs{YJC{=|p%B5N6&(sr9@cKcb6)
zA|+Xvs^;~wE)qRb6o8$CuZ*r-s=G20UPd9|1~}Ka`$c89+&A5cq9&oJDN(dZDB2Wt
z-SZSrHM~_e=UE@Ku8(=v&wI*Z*0RTYlX{l*=1zEi)!tNk$-rMgX`&-M6zJ{4h77z|
zwDpC~b)Vq_Js0liShs}f({eYsrPi@%q#j-I<X%wHeHtZ%OW>drJh=%^jo_(Cc$x%H
zQ^K=R@NA4(H~x#Zm=9624QMGpNL72hg>1ckj20^CKKFzcwg{e<n6>5qgBDt7ECU1n
z$6D!BX1br+xa`TJhysx6x1P|#4T5Jw%(~%Uw1uJ#D_TN`MR%y@vV1lqRO+$j+NI`F
z+-UWa8%t?k)of~m;Au#Bwg{drG3%Cp(WdeQM8qr^vM|(GyO|Q&{N!dP(|q{}&D<t<
zw#BU5STljgfe^qSp-Q-=-Ag|6hI>;%H34WsMi&1DkP{$EcTIne1K_6B#U21|f~o9L
z0k>gHcTRUzH>PK)^(m?KnyK|jtsm2e*J4AF38G4w^gE_|Q~qARIW=7JUp4u45ke2y
z(@*GQ#xrJ8^7mmgiMW(#zy4*E-Jx#7N-EwFp)G_xeuEPFIbDQ+HG7hqRezQemi%R8
zE&27T`4i=`jOjbL7p`*LRV(@=H(9pgi_osko-ylNMx~C*?^WAVdc@XWpyW^fs=4h?
z&0UntrTEm`jxlq8sS=v}9kVMbfbLi{Q#g_-Ui*xZi<B$5Q|eQpge8B+EJ{8<M}6O4
zm5ft-ks8I9oK1d{GGoWge)H>kr4%5VmM(0XbnFL|3_pefwV<rUHaG`39ox8Hz;QHv
zRVZcoxeFZ}_uIM~Ivw{~o{_tv`vU_=e|nx)O&3m1hG1X-XLNnz8c`QX!%u8m&IJYn
zmxuUmqb*ATIADJuO?7uSZV3*;7v9#WW}3kV!qgpqP1s$`U3<HAs^_)vMDrIfP3gWg
zdb{<bFs<~@6_w~l@0}VPUU@0t9Ri6l;P(=20Ln}Uc>I7~(Br2AB-<F}@J8>Uo(lnQ
z7=%BBdu1fbdu4E#mr{5y_4Rl&knERMhNVIXpnC^-_C0Tp7l+@7m#}q-@`y7lBRw{H
zJCP<dh)?u^_EYZ-2LhYC=OdA!@TR7wbA6HX!)F?ijh*NkP=$U_CZywCUpS1@YExTl
zb93VzP%Igo{n<a`LDzp4&1RslE{E?U|8wLJZY@PU1D|M)FcP3>=oz>o+Ml7*?{1zS
z<oRbQ9pP9!0Y;vv7D&v<m!cU&O4^&VDbUc{6A{fAKoAJ|&m*MH$&fFeP$%|%{xdA|
z1xA%)-<EfTFi~|0D+MK2!eGNPg;e^Uyw^)Zl!3@1iySRgD(u8ZyeW@_{o+s|O`Rv5
z5~LJgK>^`?0KwO|1vlr+if)<D&5w2vn!D^<#yQXO`Mjcu_0f)bM|O1Ee12iHlcH99
zYuTJ<<$OWe#B<TkpL+7=B~*Dj5-+Mx6s;GE)<^f<&#U}a{u^bt%VzrGRc*1{jWOrO
zM`q6H5oo%`-L-R$+Iu-=3wmRAhi=he&UG(vW|#X>7FXu|mgx=WZKqJ$5HD?tS&Qx!
zmA!uQ*6Ew4g`!pXLe%wF`K8g_^QD!E(k7v_>D%`A^5@p<iI?t;9=umkb1Qf=II|_O
zdaJN{YrJAx^zgk>@2xF2x6C*bwVQ?7&GFJL(S!G$WeI1E;H;TGJm+kkcNQm{Ucu>|
zF8i^walyqEl%XD3We>`$Z=Je%YWixteBG>HDBqkY-zk*u{6Wimkw4w|qcidHqw^)J
z9-0g;_oBg+WnbV-Hapvc>kM68U3JC$QJN0N$T?09ks5dcF6;~^S}_wCeV-j`q=`pI
zC7`+k5q^l$(J79<M9wHV*fltw7QQsE^WYN=I5P3HjqtSQ`BmiHpa_?Ie(Vhp7{T!%
zfKY}!?~o3XFHll)2)_<5$1M28%OHdpKnSrLOf|9UwF@9*)XYYHPCpBF&g@=5Z25HA
z2M8!%G$;WSmA|0ZnKn%uKH%^}QBuHyS@yL`QLSoJs~Xid)l0eB)TlN!YU|W4irT71
zZB?VTOHtd^sO_jmYuo&W&GT#5KeRQO?DyS;Q_H5V+-wrubu%4;d(DCgp(r4`bn3+P
zDxthV$ZD813R$fS7K*TP#bs0dLQ(BZD~@~%RK$Xlvu97_PK09FHG*x~hc1M%5oZ0?
zi+)od1y5Nd)H_M+^y>l!kZJT_ks0AP!Eb=y3_pmSAh$5$h)fjGgXClM*+FV?`OP4X
z%5fm_n0!Rww7#zM+mOeOKQ$gD*}#NzylnP4;dkK+PL$%lVyttE`RUt>Oi|~%QOC#j
zJ_7<5X`X?gfyp2}z)@5zPzl36Omi*cQTD~B9{wE>0<Y}xtN5Qp4ye<2jW(V*-xtQ-
z0R9ZyF8V;{^uE;4z+fJ2FAWsum5Dqr)tUK?C<`z-av3yl#@3Mz8qyBH*4t}HA=3@m
zZjiPcyBJ$Yq2`a)Xm(j+TB1Kgd11m8KwQaNGn@CvMeh_PnmdK&&UoIQsEvSR-Q4nZ
zpc4Sb#mW!GbGl;AuKS)MfHO9Kv^&2QC1!L!4NAuIru?pSxI!P$vq{PS4x%4BQ)N;0
z&!1H`pFuv87$DCK*38s&{}H8y38O?yJu9XoiIp3Ll^f$LH^-AFtFE-x&~#x_iSTtu
z7lGza$T^0V?Qr}l1V2{4LaHBVV#Mws4o0Xu*ca-Hghv~e9u1A;e~z-*u6T``&nleC
zi+(0%tzaE4+T?u~bmr6vO%s{b_B^XCjzL+N^6K<Qp!_Jkj_IwA$(T-SAs|%aF!Pp9
zK}lI(U^c2Cz0Syg3t!=h^N|uN(Yg3H5Slh$v#GDZlmY!*K2m4Ww^9c)E#doA)&@A(
z@2#9OKjtXI=A9^N5Q-Y&MNQFt4?NZLh2BKrYN2qo>Um@`(C%hXb~hcXljx9+xFf`)
zP!N;zjHRK@2kI$0XtExjf(Hjp!&7_MFlNvMIvNMaB%QIJw$6;l4;tf`{;Xc<d1b|%
z#tgV>ylNUVj+sVLDjN~eaBR;`kRsVoTtG=;p31>y>}(0?;^|l@8U_L*fINQq`QImp
zriaumCh*CEVbL_e4~~SxG!rBYO+wD{Xz((b<D;vVp5>Wo|0@a%6JjBuY>yA&eHy<t
zLgAW3;clUD_dRF!^?l>}CIV9zX12u2+v3iRiw1p>ecTx}MTap9vhpW}$FFLVF^%{P
z8@e%g7#Z^k3qxzjKq=5%B3cXNsy=xZ90SeZu>~WVq^V|>CRyrGF`5g11-0bs;nW$V
zk)cs!p<!wThCv#GDjI_%k*RwG=M8YM!jbN?lE6cFbi>jE^2CgPhwp?5i~|6bR3u88
zgp#IsNpqs4T_|afdghC36UA$V;<bt5cA>aE>VDuUn)>wYz?^4y%(`2`EP9Z;&Xb8d
zvTclkc80cn3yCCz?;GU1NzU()bBCNiB!@bJ|2O0?i0dOCV<7x%@{#ic{Dmjsyv!}=
zO{U^lWz!;u-vu{Nu2}WPMMAw6%sNx$OyO+qZ13HUclu{5g}Qc%s06yTZsS9f9f(%$
zs+ki)Zu26&EL0=-1BcsG4os_{c)>zGD_2;uU?ZQM%UjJ7FR&!QuUv~Ritrjuox0hL
zk2w03dV=cMi$C>IajdT(C>_TNfSD{|QGR^@3^WPL0w!hin}A6H3rk61W^Z7s6{8#p
z%R(+IuqeW`Y`;`4J91eGKLfsH7mMY2!z557uCgL^AW=Yv2O?n!{Yu@1sD*5y(TckP
zQUZ2MQ5rY}ZFv_lY1@FCX0e|nT|nQv92u=$^3!ZnPp15PDv4kz=BOu|b#<3$2?s8A
zgJ8i}FN2ck%wzOIR>ixlieq}MO%j{E3T&?$m%tr0z__xxGQe!QY92H2+1La$piL5E
z8~|c*)dCRD^{dP#R84-yOk-w%cgtIbH>pqYFeJn%BO%oJ*ml2-AO4Tvh;|juf~hii
zDZoS0C_th#26VG%Bq{}4Ob~5K_B#Uw;X11XZT@#EjE0H-cjUYWM|4WuYJeEpBwg~G
z1i+Njz52B<ZDG=8p@1s3*GoeOoQQ<QMpu8Fah4N*gaX6;aIjf8xq`|YFHF8Ly<w(3
zp5GX?-(RunjlSD`i4{kM6-VPMjtkbBsB<Fp({<aYR^4j6**H@;SJM36iKqt)*_AhO
zB9XsZ$X`8Q01RQ-eChJ}lDY*OS5Oa-QQ%%MSO`V1$S8vL%%SmIk{L#GE8|gS1)E74
zvt~@C>tQR`o(0(c#|(<lDCU*9Ux6Vh-}39uaSDon8HE#CpYEzPc}hvrm6O!tF;kK@
zdyZK3pnN9j&A+32%d8+9=X7tWRLrZkF{2h;S&I%lW>ZSIY9F)r=cQCw_Fi>F3YE|?
z&}Km|wkmA}N@J7ex@ZSabpRAA;ESDgI!2>X5j4t9>x0fRi?na4bWfl;>2%MxIHf)^
z%`+#3=J^V;g67ExXMk8Q<CS6isSt~&lkw=Dk28H$TpjFjqE%`TLA{tvDMZlXgYS;b
z23}t^vo2B694l#lcT6UN78L0~i?!fL2(ll^CR!m#NOF-R*Jj3tAXz3_<n<!v%BM`$
zTip`*4#d4brS`Dh_dDeK5jo!{$4w5g9e5`klp~2Ahy{|gR5#H-Ne)4#fAU|Vr0d`)
z6vGUl@gkLCPr_=^mA3dHjl%%G1bFxu`=(4&6%9BjD+!)RAS_8ju*{AgZT%#}<EF9r
zE-J&oOn&i=eUtkVd8>uI)$zQBsO^4!aU#D~$giC#j_0>T?d-_WC=@l$jNG-ow<%uK
z6?FloBnoSV!djpj)$zi0QRjT+>Y0<V3NT|!ALOijkX8DisA_t2u4wIo!BAfCQyTDi
z@xcWXULF}t**O3~1@1=%TdqB7fh3QoDB-RY+?5IUdcnPZb|miJ9yQDtmfRSf9F003
zcq-;|E9dj7=DjVCEJlJ|Mj3WVA_>k+1dLV*pG3CUJRn{Ozmgm_BWPUtpOABkoFv9Y
zTP9D=&+!)~?2IrjohfI=GHaMUK5G?fH!c9D%DLN1s8tSVv0EWaWXlC^m7TX>!Y^QO
zUg=cJv|*}E$X&Kzp&%=lUpBQXR@EFUYZmg>&YlqRHZD*mU|IIEMF;uTN+nguCE+)-
zBnr|liDFPv@goO(Qgf&gz4%ifIt|gY_@CgU%QK~+Tzd9qmQgN4Dgp+L1tSPnRv>CN
zpkailDe24sJLH@k0cSBvXXu&H=K^}>1{us4a0fgT&SZ>;B$l4nkya8Um;6?i(g0Z{
zIVa?na?cuA*-j>L<$BrW%VRQ0`2e6Eu|!@CNde3wicE=U1DQl7(-)*tOo(_P)BPEl
zEp=m~O^n_bcfd)d^dxBtS`>vO(({(O<)MBC3BUvF9zk&=J>-X=FJFrn(Q<}3&jG)3
z6uO5%{=dLUKMLhDYz8%!gwGXv!kVSq-Kd!ZN>f~zmcupfk)6xRn=4(DC~Xr;+wK;|
zOWWr>J7d<JYz6`RLNJ`fltmXLNt2zGhBDBpnf25E3C}CKS4^*%U$MMmy#Yy2Z1f1r
ze6$Xqesdo;rvH}i%eq&s<5sPHebt0;`c}sCss-VMjAcBpf@~YHD}iVAI6<4EmZ&aj
zJqt<Jmz`IQNmPO4_{NNHnUoFr9MQnQe6&*I!F#-%wg(diOGNy|wdlyNn{II9Hf`+p
zaV|SMV{2hY>VADyKW^7*rWP)g#CrN^N6UEpIG6X+o|o|;Q~?AjF-s6$3|Ecg)^oZs
z1Cd_F&F6HZ$TMc7x2vXc%a}<L298jFuty8`8N<*iI2$@v!R!A38TfHH5c9RsHpiwK
zzZxMTJ1`|r?-Il1f29mmcm8d1)B^!e7?J3KI375U5{C|hR_EaV8zrOlCQ<5U$@dO9
zY-=APA7j{r$@iD!ya6ZdfFq&y*XWT55gw``pA>6Xks}RwBdt3LU+ErZa_=c<QAR<#
zXgLxW=odKS<(DV&R|@$nXDoBg9r66#(a!ne%0zLaP~13kIbPfr-G9GyS)#O6C~ZxY
z?h{J)-OI|qVVkr~EuUVMs9q~nubthWXx%Ne?v7P;#<TW-d{pKhKN#ITu?`zY(TZ5X
zikW<&pmDY_*4!=>w7+*!$lp&NSsv}2SUbM|LGFq~?s_42{p_W?pN{7eC0yD}qSQNo
z0tcYW%EU4IB3Hn1WdgpUBc)^5hFWKl@UU-DHrCOsk6CZuq_Acx$|fDgSkDu@<Nu1B
zzab}MaM-xealrc$MrH>dX;g9<giG(~(Z;7i#Psw~4&}lZQT9JdC{fcyhlCV03VHay
zH`crdE>NT5>O^s~P~04K&!>2agx4SxHbk8ZMu+XN?pwVda`gL<xsS>?SH*m>cfPQA
zzHBwn7Z=W7X2N02G7i(l({?PnWVBXZ1u+UE_&YpIvJa_%kKhjjxZB{#5NWkZBCSM9
z9WxNg6qGp`-ke6BtLCc~$g-HnaB@0pVA~Q%bM$@we~`llfj-SIz&U}_!5RFDC16rB
zEhkC)Cv^v{vrA*RR2iaO?rf5PB-EWw=b{cP2?d7<K1(YNuC&nj4-huG?ny(qWM!VC
zk=%~_SW4guSFgNXC{*p5&n=!WSvg;`5%?n(*n)$r1{<3*SK9?^MbtjAXX@xe4wqFj
zwPCs==BbTYYo#gQgM#V`mc}htAzm~Oo*{V$wvqEcMF`(O&I)p<<N3AZ{2e*Zk;5i`
z9efa@AI3?8UqgQ5nZdyzYdQZ-O7%LNRQB(Gra*F<sD&TF1NJY`0e9){=avA~bj3;=
zgxtmj69oZltg4+c%seyW5WHZRvM?*-j>ZaB$Ff%ow)#aI3w2il+00qKV8U-^HVOjF
zXjrh356ETCM7?0ETy)TDmyT;{dFaYE)!om^o$yb!O!iHB7EE|YF-5BvEabDM)x$<X
zcCKRi^zoS$)6Wa#%?l0+a&o!Lrz1kn>IEte__W;<jZEwszY;51JBtx%6Koql^dRaX
z2S*wk>I=-yKgEx7jFRxXUWBNRTlOu^q1)0CULR0bAfed5Ahb`)Eha)Zf!?Ny?pvUu
zBJpvp;NzNPQGdtFZl4X}^>*ZQ$oY(Z7tms--%ZLb0aw7?U!m4Q_4qw9@7U<iLh3A}
zboW=Q(W<9^nd((N;1p*gPp<skJWx$@@Se|v{mcBhOMEeJiSYbDfuFV5U$8_9DOPHw
zW@`cktjC=GLQqr-{Y6WZLv7UR3#q@2{$jME$X^mDMz5K)(@MQojJ`lGlp=izL;Fhs
zzski*8B#z<Y1iO@pQ$1C1ouE@3%XGtqnzOXZ)6m8eT<UZ)k~05dB{(Hi(BB3T%|T1
zr_fS(-4!m0{DXRmSw+w1bP9Su>ODLVydr4_5nH?`h+WbP7P-p*gpipX0`gE4BTfeY
z8nR<YHS`9<te*ToA|M^@&n0|;Y15q_B$c>s2$86wXiK%4k&!bpk)S}h66Hfy+>x7b
zR0xiWsgXIy%K6;F2kxR+@#eT&mB3|tJ!G~(bs?QJ(ZLkgWM(}KL?lHL^eB<=Z`P52
z12<z!vOlh6p@rXTA-z{2!m6281K$VX(E#lYd9x!V6>mn=i#<tPKcWBy73J>WuA6%G
z=eb_}3y1@G(xinTe?|XVmXS74B44WK3Z;CAS>z=BimyLk@g;v1LTSHB4tzWgHL_f{
z_8R)APC)G$shu`%%b58R#~bi#{i^;oH|k@f4LwQf^jmR`ve7vTtyd2Pky7OwKnx81
zWy)LfH$wA*J!5*DU};S8-~>yfiU*}-Nj{EC5#r?fi<Hphud*zVN9_~znMTTf+9op|
zeno_~NA@g{i#Fbj$8P|MSFSa_TcAWQQ9`2<pZtx`M$DcIwb*PoN9a(&o+ZlAsKpW~
ziB_BO_)Q=>C;L_%pU6ffp>|o?qt~xd7Z9?O{ZXD$s#ozRfBOmkWjyFb6>ML@Jk;Uu
zs%b>>8LnEdT1JR$ExLm}1LuZ8qm@)yLBlWrIxvb$3bgp|56}Nq^pAe=U>iV+Autr~
z1klTo#T^u7RVXcrIbqTjgTf5cP-RNqqH{Qm!h=KIXZm`=lphJDLq;V-Pnm=se;f5D
z4S!C|PO6M4Y7Az%Dug;`DA%?_6<ait4y5QxlfMuxkwGX@Lc_@<(Lfw>G%0WMJE$ZF
zG4tea@a<Fq6RW^8OyJ`L-!l*fD+)~!-RW%=D|`H8GXU)hk(>{qkb``8u;&Wk`v9`=
zv>rvr`98ltFd%h9{$t50q3B5~q0cWmj<lcHwYU4w?qhp)<Aq2|Oa-3j9aK4|q^7|7
zmlyM;sveZbP*&p;3+3vnW7{L?_lcDu$QwiFe<*SVn0!*@T2WiTq1#XWKy!enZGz7t
z2iApv@G`oUm_?j1Nn1`LWQm3gfh(ekskZV3l$@OnlBaMwA;^b=UKFl!PnX>M6vetv
zp|J2D!TCj+V%>apSt7em$gWFdw+PuSQS*G+%0yYKP}Z6#>lDg5W7c8_%tno`Ip(X@
zMvZgUiU+Nm<~ARkYdsV%?GjoK&8&ll>Hcr-kF_3xkXWp=3pj6O&8-VJFC;292o)O=
z72Ac1?eU8CM8zJVV$WQ~zDFiwq5Y>7`zGxZhKZB&o*W#+1<#5F6X(jB$RFQ7U$GB<
zTi!zs=^i<`vIe1a^USB<(D#cVja#{KzNiM(N)*%z1-18bE2qt|+O~M^Mw}@t?Ubq%
z`6}1U8WU@F2y1rW>n!lT!;^573Xal*WApot&G+gc0++zqzqvipd`M_M6g&RxT-|fg
zjydOwl%%T#$LhB}^}b`%J@4xInw5!~7NMpkQL|mB*`D&+Db#e%msg_(Rc<Pw95txj
zI`7O%ILicQ+4PD;b*oU_nyB6(RPT6X(ATnhF2f<fm7Q=_3eL)ebGzV#J}zf-{n%Rn
z(Fg51uI#YxqeVTsfeD9wuQYehD&zN;XYXk;^OG3;UJR%D(Ed*IWU&*@(g>VC$ua~{
z>{<pI2k{ky0xKo*)De`%?}LLQ#(wfs05CVh(BKfim;AEO3RQ?jrlV|?WUK-}i)>P0
zTKAFR16hcLol-`(KLu%Rd`bboM-#gV9|y(4%;gl_D48so+B@x!XRpR=W&+^A={zgu
zvnz4>&5#LGguz%<8q*}~h|EB{(jrW@u>SPx2<?Vikfxkn3R4$yV8B|8y--X7&XSEh
zpr~q6dYK@{r2e&BU@s<6VO5Mx3j+j0SRQZSf}9qeR|^+|KmynALd7$lk5QV69VW9z
zvJ^kV48E{LJycvrNloOICDLjzi2a69V6|77$`NossULwK0qe7B_M?$TX3PvjSlkjR
z7`H@9aaNBWuVwh6b<Bj3vddq<jz}!)F$<N0G&VLWz}dC%Q()LOP|0Pyf{h4OBI8Nv
zWk<^BmSiNuD;VL)(i~%s;|iW(l<^GxRjcZ=1K%)rN#tCr!OzIy33CCXSe9=j1-)>c
zn}<z0>^EUD+rd9W$*z;b_LdSv@nz(|Kpn?dkaLw{X?Ns_Q_WYyLGB?O-W1mFY6>SP
zAj*omiu9SH+AP0|F4@EO>@X`?EPfoR=?=s40uRX*xyW-^@MM^S8E$Z<mZ3;%!p=^>
zA7(I-_Cw{7$e?+Ouy7ibQTW44?~_11NWUdD*B_##OxFsa#meQBPdz7OuK-XfE>9HK
z3&r&_&%}#cqwb&VJ{~VR@x2#k4^1f%N8`m!@4Xmx#fnbcE3UXze6x6ZTfBHJsHN#!
z(0qASqI`o;zTvJrUcM*Vl@hIPJM43HLUCQ9xK+US_RrVWCu-Y-+O|aP0ipK5kB$np
zAWkoTXy(eQ7fpr=_fJc!CU#*X$;rP_JXt)|JXtnfB4n?gIsW#kJEvwZ-Z_2OCp7GN
zKWp!NX%%g|r4W*>a6fc%%hw`*x%;QfnkNn-e|CAyyD^@%aei4dB`ZO)ayNRSqB>FD
zD3mwOXI0E}AzcOJ@AMV!DDC|a%PnjX3R`Bo;)T1S&U=MrH$FA_sp&1V<?+Jp;EsDr
z!5IJOgF3GGr0$~+-1zQCA6QXr7;uvNW<kd$<M+3(?$~bp(>2cBMq}CzhtZHAGA*B_
z1acIqavj4z9~0PSHj-3Sj)~omu6^1LL{x|LJpYMi2Ej*?MT4$+wcx3aS*saAF0IZ4
z(b=v{3ub9PpkIfxs*cX8q;^V5s>g|AD4&XuReh5C4EATprk_F#w&qo|DBIwqZO61!
z)3@U+wsy!mlx#_2RN<K}xiT_y2vjJY2+{U}O%wh^!6t$JciepjPSi2)D2O>ArjQS9
zD(ahB!Baa^8uzS=S=UJv%g-V+1lwgpSz$3x3w;JOVKOviRST=VSKS+tnf7MZs|Vr1
zOfY;FCv_%nh4;)yvlnHi08aIUH{l^6D`EnSmLD4)Ae$Uef%8l1fOzo^$#z&sSO``z
zsms~<#>A!&SUi4|At~#@fF{RpBZm?)L``%lrx&t?77o+dONLq!(6Y!MR3+k<91S_)
zJc<qzzz1l`;hf%>WA%KQH+l%>9}-2Yg`(AoqGq9}dES{naV1v0{=E>EY4KVt(_(wn
zg(aL-u1HSvJ5f{`=0mfNVLol}EVa(GdsV?ulvODAlAA<{hJpA62caYh8&^_y(U;RC
zt#%_oWmzrR1?h$T4HZH}0|unC@}$L>@H7ja=Glh0XGhGsgH1cpA{i$Or!|%sX{@mo
zaKW-Sykb<?_OIApv6CW51WBYP$;FPy(+0#Ynv5BbOxtGqQ?HUXxElXUmjJCR#=igL
zB|u2!Rl~1T2WWS_YD|%G*CzUDAenE<wN|FZtKi9L@!_?Ij1d)yWT<9M+V?e(MlB>a
z^ZNrSTIfpLtCl6|q!P~5uIKplT4<5+K1MHS*20?BJ`Du%<FxNpd(;p$%Hkc?s4Z%b
z>dr#v?qw@Gwv;7XqWJn%Vy6;9X34P0$gj%C>9{LQ48$z0p|m}YmQODJ7K!vm@IpE%
zX)+L0MghUvE~azNFw{Fb{-2N=KYM9C<4>^$Q`{F;w1yPwn7och4?k_=CNqSxNx~GN
zgCz@mNS~%b#m<&nJXJNhF_F7c$XzKB7oZ9J`2PN@ww>^6em^+}=;QcP+Fg;XCgC34
zGTBLK&gh9>weeb|KB7u!_CR|)cW2Bg2}Au_N1q)tG<(2<9!RCojqd)$O-?Q5Luw;&
z95P0E#vRYy5OZo6nE6!)nH{k-n^;6m%p`phEpxQ%lebl?ynk47V7JF}cf_317TJql
zQ6EB52+dpkG}`}ln<Qa9?(E<ubT52bX2d|&S`S&MF(9vynxff@hd<`m<Q{4xv`HaB
zNU(DyDl3Ylzs4AW<f<X%=&Z5ZDzIuDr{hwfC>UnS@tm3Z=8~i@SiS%fFb=lZZ=~MV
z-(bDJi+Y3YmR9fMzo!1S{pRXDp?j?iHOF528>zYDH(K*6QmrNZ0kq_^&>-MyxMslX
z5xtH(g?XpLs(9^7k{M-<m~Si@^Tv`f-<D#SbrwUHsB4r6JSNfDKiD_GljtfV=!lkq
z!R~W>kDp(L#aHLzaa#e$cfk)e9=<OGOR&u1rDy^rwkO0Np=em&=lFvxAsjI~6+lXy
zo)S&CB*o>Xvv8!qq7+7nx?3^H-cEcXOo$Pkd6*nwQkF2EjKInpIt195r~=fy4}3E4
zr&*W-)Uhyat-oM~XC9PRPg*976Foo4t)KDFw$GfJ%iVClX2lzAx7%hq-rj#_|7`fp
z!*|>7?u^xMkJs#&I5=O{H0u<~wodFOVov$Z@_$u%uc%=rFne^aXv2pFuB2|N@~8RB
zru{SR)2HV0o1Riw!%R>p+x+Ch8fGH1M`!xx^4p$L*!tNqp{!%+!fv8wEwd-?HqY*x
z%is2t!dhof3uQZ>R2cXbW!~xRsk*Nnez=h<tNGB5*59oBhYy{azyBES!?1t8J*#u8
z?t8hePMhg_-gXaOzTf2PEHHh43w!y2!_`@1`auy(_Gh)O&NZe#TbGAaKeU-Tb8SC#
zTghKw>h#)vSjzl0rp^Z24{Mo!jj3~!?T72gUzf#yi0?`I4vg6OEWQ3;<S;sD7BM%$
zZKQ<|0Lv~c5kiyXPcJQrBwduDXY8QwOvNP?)*el4{snS078Q@1E1*q5&hzBp;tE-w
z_9Z5@sY-70xWa-Pt^Z|a`~sD=3C=%*od=Z++orby-`@3|{O^{%TNZ=NYhx!AGHjcm
z1Z&%+`}Vr;<bEgc-Qc^y*v9=r%K?fa$vB;@?OVIws(EYp?Xf#!u~nOeWm_l;W=zN=
z>{}<l-SQpNcb)G#V=Wy*!)}Ud*FCa=yEomMs97)6tWVVJ5o-3tYxcz}_JgVi>K`4y
zD+N!bWOwn~o8R|rdt?BIYa%a^T`go+OI*fy_PROe`UlzhUoBX$aJCZ2xg|4hf8VoR
z&9fS0%S84TA$v<ad)u6IyPBs4;`+;KXN-y34xzRqQF~ITJsGckHeT~w%<BEnSYccC
zh=a2L5`)c^u$Bte(uB2E!2h~!@wy#9wze}|9u%~$y0Q$pMloOFxSzQqsTU}ma|h$p
zV&0q|^rxuQ0QO_b&=e!|iT`_Yh%qM7<k);nPDLWoiTZ&7(R_%R9_DEf`K^?E3;8yX
zZx{K97QzGb;@I@imWBL(D4Lug5{J*jAz4T#S6&q}7T-5z!Ay~9>r4xjgiKp!rJuVk
z@8!L_=>rN`gt?n+mIPUL>N<2Ez@({tdUSz)?za4#eiok5K{<N9sA9oD8q+rKbgN)n
zxyUr8i%Lvo_w(x)O!&pvLsW72`q=o`)bW_dE7+<QEfn6SGu2G*eq-<Ly>A@8eHfDn
zCV9*z)B2eL*c~#hkG1Y4-R<=Y1>BY$y7`9YhmI^$`Tg9Y8(Su~ESTU&$$7=>%|dUO
ze~^R}D%uuo^lImd%5RKKj!pZ8!c_~Dmt-i57hL2c@yY9D<7F{W#B8e<JruUgXlmEp
z2UQxG7EJWQs!qwKjDoFf(Za%<TTDB3(|c!5&bHi5Sp>qe&JQ_?k_eg9^)%?}L*qry
z;xwG3ruRvXlzRL+BG@sXUiC=^#3|OOhM82KS@l_%&xCYVHH?`C_uGAD*yJ(#9Te_&
z`mF2=F7^iLOcv*1Z&^M&l#-18Y<jzrQ<uwU(<H-9ML-oukyx?$owVj5W~b3+iK!%J
zQ&O3r$;33mVlD;sL`YSU%zK=NeYUV@Cp%Hyk@GNY&n!Zn5S_{)mc&;WI>T5^of5?T
z6V!@vqF|;wV@XP~!Y7dcq7#6`5uT_E{4XengM18RGcf)Q3L~nxG(^vnk2RB=HG~Sh
zgrF~Q&`^sT^X7B%<Hr2?tlZBZmYl+pxUmHKcH|b9#f@e2Su90fVcb{<R?M}76U*Yp
z^7)F&n6Y5W5I0uN*Eh$EHPa{J#^(9b@@t1Dj?Wp(rH|7mMcY|uI)=M@`@*8`^5Z)6
zbj+e@v&bVcs3*F9yktJa74YlGaGz|0Skt@_@)9F3<B_N_OT@7Q)>%D~*uqWwiRYkE
z!V-BIKYWQexm+9y<=VhlrAooq&Z8V3!I3q9dv0Ld^8)#x3FVtH5HVRjt>C?)H%9Fo
z$4G<vF(Z`fb>P?*F^(<LGJPwJqvDw9%iydq2`;3%Y5*VAFzUAxUaF4LCfV@cWmwOz
zmCXy(dud7&OVZoqT`SqcznqrvOn8*c0WxC*TB)VkK91gia=sD5xgnke*hO0aONZoh
z1ETR#AG6Lvz?=_}Gf2)qB9Ex^v*eH2WhsF60ORd;gE0V$${=|4_CP9@(A{>L?B79d
zpa^!(>AJpteEl`p#Pdv4z1nu|aI|gSk#~Lj`1Yxbw?=M`Okcb?I@A32hC3T(*WTG2
ztJv_qV*?pdGtXPIuY1Nl^EUhS!tuh1?D3L`qc@(Ne0J*C<nu8r7>I^V=0!>vb8G;5
zux*d-y^H^T<a;A?TVbT`h_LnWJ11t3-qlT1O<erSimCSLycyl?qHi1;KRR<!aIJ}L
zJ$!Aq;5;(#D2{HtzHNNl)Vi1h+gH^`*q&TRb*#nTH<#{gG4rIa%gi1yeJ5xQ5NJtL
zz=PO;w3vv6Pqh0n1Bv=dkJi+NW*DxDQ^XIoY`rQIc#Io$08PUe=oi8oPb?S0rA95z
zKvFdGs_7{uU|K(=1anFW)bfl6wj}6s3CQ(-fr&pT)Q~5&@~Y)2Wx_fIuB!Ou%Cx4G
ziA9_FKm!N0`~s}VNxzb6s}{Z6Z^pt;3X4MZHktDa(BdHp46S@)I@DRscMjJNz~X=m
z=wO*PIg(l;FUeR{_$Aqbq_qS1<Pt&JwvB!+6R521P~nPX$dlcGL1G!+TFJ0Ry_cEW
zsP{53qrw>iPB3VChHQ@daX*CLd*(_;mO8J(O!YEN8tGDxb5b=Iwo7F81~i1E*!_V^
zeZ7IMBtYU_h=BqcVW}_}3Q^5-0saEQ_z^gw3Hq*(&LFW7x>sNbwuV4T7!2alAlu+T
zAPkdd7Xr|IN?)Bk^(r=N+WYuJ$SYAKEE1SKFUp<~(JF<k^`~n<c_qeZA*c`vzfVet
zeYAV6pZ_e1KSBV`3J(BW0Z9+8lMHUoRLvZpt%{eoCdxMn<(uN=TkeKo08_}_B{(~-
z?S3HNjqwcd(u21T&RLtUwd1Y<c3;NH>2+^xxxHo1y5?H@19$HA3*#4XVaCbZEz?J*
zTW<Pb05sul6x@w*_nK>a?j;jUH&3@t_e{6md_L~3OSoaXu_^9uMiNin^(*67?mKh8
z(moOS#?guWOww<K;9N0%ac22!cHG%A@5Hqn->6EDyfkwWO>njXyxK_j$mMzDFlU*s
z?R^A;r`gvxk8l3k@Qu$*erEb|yl~BIZQQXrX57rM4pD#kBK|I<sduP=aW4amDN|ma
zw9;IWT(*0vyLB=~0fky%=^Wt>8bHVoAY8)z4(-n{vNNgs1M`=YB;Kb0XVgRYBw)2f
zJ#@cxJ&aHU)&NXNwyl;@F~ddJjSxwl17@~G?ok*9!_<@>Ee0oHF{C`K;5}N#RFcNN
z)3ysOK!i5@5~Z1;*`cA4F{aiACTFzbRl}EO^#F5FUnY!(C(y!^ECvW842pONmFeyQ
z*2`>&TxQ@zw8*%Mg!!2K?B*VuoMe3~Ls~?qk`=c@1OX;+u@&GYB+zlq4@!in#pmd2
zpC^YfCDCyCVmF)%-J%&j04w}npx?*EEYh!RgJ20bixGYTr349-&{>@s0&rv{?3IGO
zGUi=7t$)LM+xolqgm<mrT^sZ6o89@xd*9i6_xRm2vxo5d9)-Pk@qO>UxPAY%UH9ys
zPnuQ6#$FHH8oW99zM~;#Y=}7;?q#i*zA{@A&su+N-#u4O!c{4_DyI$8eYZVv*P4W@
zO>ni{&5pY^U+a8IG-P2JepMZJluuo{_34|Ro;ee*Y>qi_d}(HoBkd?_lx8lscp9E`
zg+Ve6%j{0Tb^y%78UiM*^#PSW&2Xsek-1n4Q(UuR7MVpyXCUB*ya&nLh(=N>NR!bZ
zP{fW%evDLxN|naNHCk#?*QA9?hb{JKfd~K_4IqF}r7M)o`1R}36oS;F#*+;@YL}(`
z-Hb1&HGk?CK4}|N;El_E3|*Z-6^wLD2V!sr4VH*oXKB@)p;c#=?hTZP2l|m_Q9rU4
ze=T=paqzEF$^bIT@@J_^3wbHSt=|0eDO!Qokl`2U3JN4bwp{Qmk9nG7)@Hc(a`JA}
zP1a3yB+BZAGLY~SjU7T`$B)*{<s5~gf+Zz>txyJHQKGd&Xw{6@$p0mabaZFuuWnQ)
zZ6>OR_16%?M5EBm%qOWAsWo%3O{!y=%$d9cK-mtEj%1TEo@BaIV6TW<nfPze*yuWO
zAyZ#)n7>Jb@J%>(WQi+kRhq;Vks3#HQ^!LVF#8-0ha^@H3CHUr<0D_Yc;nLKr78cd
zb2raT_k6QIUI_ElZ|}LYXSV&#{X*gTc=CFdJGM;v4Wqyid|~^8WU`)-IloC^uft)o
z4?7sv$A5+DO%5I7*u_S&j`uNLti18(AQ&Fgk+sLRsr*}IH_ONdQQOS&x9jiJe@I?w
z1Sx+SL{ldCA`RZJ6QYr+MokC^W7k^YvPGaI1hnF!RE2oP)5=MkbSn5eh~9WQ_=C0@
z(n$|Miwc^QFvyx~Vo0M%$;&rfX@bX8jnZGHT+{}2QtOe#mNc=VrAk)wC)<$$BGu*c
z8~cI^T7P3-0BJ#beq&#7Dqpz5@n6SO1H<?Xf+YCPpf=Hid15Ajvn-QxtqS>z0e^mq
zBK0FUW{h0G-zEGF@~<OM1K8)NGg}4qxZ0Wv&*7sPpgyk%@Y@Cz>_l#jkXtkDPpsG`
ztl0K`F5MCo^K6?hEKL+P3588a=495`YRT+<N20z%!2hBSgu5O*zCCOc8n?Z7axUjU
z#`d6q|6gN#>h>WTLp|XO3`v#9zNvTwO;!n~LFiIsUuLHS2A`So45iL^lDh$R3jz}v
zPg?vFcO58CLyZ-;;HZlzSrpk$LHX+BPl@5Qz?&*k4b|*lYkAf&+po1eTT%gjLdQ2O
zT{`Wxzf=#%V+Gn0sWq^N6xGKJut6ioB^BAV4t~_<pZKfP?<A0!@%&0<T9fxXY2DPs
zS_k<dP1SZSX;xJYJ6TE0K2^;+8LHw#`hIURRPpuyy2{p)<*in}lKe#ry~#Jl*RPTC
zO?katwGUYKbFh#hC&rBt_Fu;=X84~n&qzsaxl)_tZ}NsKCT<Je1v)X0W?u%92c|>V
zdlpwtgP>RiRv>XB_&3OzA?FS`zeUdfLeB5O5wlJn-`)LO=iy^es6O6(_{ec~bmlKo
zoT2aXS+S_^GHe>rMbfw${yZ@R2fBv`hI;&>?P52WBh28D6&_~xL)1gjn~@l87t~lg
z-Li)iu<6YIJ_=SuEf_vdb3r=vo0y$I(Zb}G0%88=Xtb!iDC#bVx=W&gPXDx(675ue
zB+QcGyV=PtNyc`+N;?wiRDhBQ_IbsvJva9V)?!Ffk4)+A=M>ynIk|GG>Z_}g*ze4;
zw^!a-Ia~GSs%THNIjWlne?_ua|LnB?jo|IzY{wrTdgoBwx$~39{XH%o0{<~vwraNW
zX46dT+gt8zxtsUh@^{N&(k$BkAa~`AZl?LJZ7z4`ct^B7dXdtbC(RSXQzMg~nK8cY
zyyKkp|8eM@P&^CqPmaBplb^_G6ml9te9WG0M!tb}1`_KJ3F{9f)*lhpABi13mN<G!
zIC?6+-WNOlQsQ*KaJoNnIxL(HCr)1yPG5?RTuzL9Mi}|bBFDX;Yu7Ju+%EkdJt!-?
z^hfm%r62ZoT6#N8NnX^Sp(HQrgA_<V>}^DP8_}b%+{^m$U0~I_8e=65ac9HCy8G^I
zMxI?hU5LQ|?k{zVu&Oie-UFMd(y3)4{KYZIrbtJE+cbYN4;#Nrf#m!aO#&iSv%`kn
zbWl2MkY|C(IykbfZyASFf+X(%%5HExxWJ?wtcr|+jpAS*ipd>(=)jxwWh%cnxiBR&
zG4%fb$HPcgin)fJxW?_m<7W~=WeE5zz7OYVXOdLTuL{n&ZW(yNii(PKq#`Uy`!z|6
zH8{CwuxQvh0E0&lP8!NNFXdvzkCjiY1ymiNn_!`NLEHuKHqM}A2}7oV6m5WPlBfea
zrHar}g;bdgOPIY1i7w(+(=kgH;B}lGkZf8kfh-qi_PmNS{~=Az!>C3&&U~-9db;(S
zl|XFW_sUkz7~^FPWa^;!Ud3`kpVtd3*5B=zlkFeeE2^9}CcJ9|@0wZvToLRke94tU
z?NFiX<JhWt1pN_ez~~<M&3rUf!k&hg!Zu$LCjyfneA7`B%uEYu9Ql^`hB|b~IwkMe
zRHhtC2S=2Z&XoP`=(|7{QCoe-#Q!@Q@?GS-N6vT2`5qiazb|7G((w{!>)#^DW5i}w
z&S=qN11iswcWFG&p}K6xab;ic8t+Ots|9B@vl&4KA*OY4XZ1|p-D2qOxoV)h=Yl#9
zfk5|!ZhSXwD=;omE;!2*&gFs=<NZeHc4)RezG8jcxdG8`F#5*>1PODZvK?ei0Qenh
zCOPj=oerQ*GPMQwt}tTDmIb%dlzU$RfAFIg3izY9B>1DZB>2OdG{2~HZSeOMeC}U{
z7Q?J4Tb88A;O_YpnzT)Hq>S9-@Q<b@gMSa;$$)>b&X9hW`jeFfwU9vtSp+mwk9ALj
zg32_<HLWYKfXGgT#*wXGJ&>T{@{=@Kn}okgX;77btpv~tdXP8`5)z|Fq6OO}S;m7f
zA}^X{i7=DIMm|S#>&ujqrU0(4@ROgB83<*QD8#gxcp(`sp=dNuM)Oj7Uxk7H#}Y8G
zp!CN1$@7VVI-#I0Ua%U#&~Y!jU?L(JBmIl)M&Lcptm_BH4<wuwg0o_-vT4>BuUz+I
z=lX}xl5f(2fnARSL3PZxp@vHVLG(T(-I)Xu0kd@QrhCm}1oaK%+CQb<(DDC)eoRuQ
zWB?bF)R8p&=o|TB4GE~^rgn}DPyU?xhK>LXo)nbac>Zh8M|b}Ow<PsU`5{Q2)i&M^
zI8sn`-;))!N-e%kgOiC4{fGj|`4N?P1SK+PU^H!D&;Y*+POB+fg$D4aKm&SHpuzMq
zA$P@sje?RO0dLaB=@W|Hfu!OML4t6k7s2X7dp%oa2N9ZTcU()9XN-g7m`=9k@fnOk
z%B9d+g!mNhtj0!@60719YQ2bps<E~tNjqibe4-MV+?-MZv*bqY$K%&0t&M1jxIlTz
ztO%e$5)LXVuu-ORYe{}kwJ4&4)SIR2Xa9t|XBqoe)c5tnZitnMm*5UICJ(}Ry4d&F
zDrd4ECLG#&FR*(k&Y#0IGyG)?igawGb0Q26{5gI^-4IV2@G>P(7URfP<WpeGEG*?t
zP-2>5H_$q8U2(r<0UdN6=5Ylp7jx}4`@<agCUlRoIadxXUb64(o^;=XIPk&AgVWh>
z6y7eJ$+=yM%Nn%8U|R#$m~g>@oy#wL<g&QjAG$eD!T7m}GgDPx9C+xlxXKr@@QH`?
zu|<P3+k9=`LJ3_jXUzNPgJJ|S;j^#pH14dj5>!$j0$B7c+R=z7?Ou{mRha6861D=<
zeb|G*Gqq}3Nz_nmMsDy+)!Ys_w+6uiDN{|hI^~oaBod^wq?GCQTLT`{NFybQRI%D>
z#DSA*!>*adIJwy%G1&PcbjahoC6PkdI({9|Pund4HB&ekpOD?DQn_iEq(}P<pdHFi
z6!OlScA`+pYRISYjSSn1DvU_E@J3yeC|4~3d$lsBl<MMF>kCVy)EFJ&oiVv#6LEI@
zW+tyfq$rCrmp+H9s89>_M1^yY6^vgKObFqM#`8S`0|DF!=maq(`R2F~;1Mj@;WI<h
z6!%T>H)zz=^O7VEg0FL<rN<5**`2%&HE<~~pi0u>vbZxylfrnA7|Xi`2QERtD?nv3
zRs@+Og6(W(6sQ-Gl0iUoaDY^2*;WPXgGmE}66?a=t%{4KVI4%sS`zChkxT%lZm){{
zyuTw*HG`U@pTBU?G|&y(y^^w9bvNr6PohpJs#9(DAmo<krUyKY8`~$h&u14vimMc+
z-(K@Tj;pX@%Acrc6e=2LJLU>DGQ6b}mzBm#>zS#$`^dGCl+bI1T(CLb-gjqTqJE!%
z|GE33)_G6iR29@MF23*a#;n_8)!XB6J>L1I798w6(k{z5*l4o)(6F$jcp9FikQnXl
zwO=hH>Cu|DH1QOUv_Zo4Mv+4@Ej0)qWA(~ALmtulWGY@aOjKcF`2(XX9v=v;bpK3)
zQiT#>#uwxs2-+n)HG-#RI`YPq+gB1RHw*ah*&MS<l5uIc1+6#M5qsfD#VxSHC_Lj)
z){L?@Yc*VLGz7e14U^`qs%J)Y&P;1WjQBZP^mtn(5lsWC5vGNGjeFpMh~SOGlZWGZ
z%j2FE2~UIIX^2@H*dYIlHH-i6)QG<(=M}ByP~d2xMsrAZ%kqTQ)C->an6>`#)~F~q
zZ5&I@)@$dI5*JH=M-2pTiIf`19?fT@R)KkPW-J-{F@ZTKA96~7VYOJ4s``^2Ey5R4
zs=zy$^1=oT(CQ^h(K!BTmy*1)=jnBmxC=%t5n%ojMh-GWe?=4Kv*e`nnEC%kVSVJV
zCGv;l%K#D**P`_CiKT*g2Td*_C6GOD4=FXo9M$(K)&V?A_gB;jd37@<$o^TPVZVU?
zdHWeRnJ%22FDOYAGzkSw@Z9K|>`N4^5(-v5vY9Gj$@8_tP$R?P5k)2(Rf3~x`otU0
z-+umm$C~+yYLe7TRICvy*4#CI*YU0+R<R~t(LtFA9DQb7y~df@%S#jLpm|1MX7L_e
z%xoPFFM9d#vROX9qbo8W@SiAG#*?(6pveW+v{9r0GUXSChOJPaF#u&Spe~B}%4Kwz
zg(iXqg)M3Iz2A{hA-vL^nn}$Hl)i!~=YR&6QaWZMD_uo|lI8fBG(Yl@aZEGxEj&t`
zrq~Ej>Qvnd%xM)>Q}SUIo0Qf<oK_WYO&V!jqW21tB`7|%9I_syfr_g-4X}$rD75+x
z(MfujT$n3Y5jVa&Ql^xy#Ru*8DzV95Exw~BA24-9tDey3W>#0D7UJo*P#kd`F(x(a
zcxhC7!8Wi7<82M*hVriBOa#Ggd)h4eHGVV2OeR^ATAl0-#Rn>{4R=b~6iz$tn@rA~
zdL>ozcg)e>lzdZs$u%{m9<0?Pv|csEnKaM2gs;xtW57bT6AgzRGP1o%eWMWRR>VzS
zB7cxlNEd8So|8lA{ZbF#*K;Nq@G_I0^=Wx2e*hQKq$rc@s`u`#_dY8rsZso~KxCL7
z(E6x)ar7o{QYVGo!RS?tdXg!;$G+GT3_>O4LSP_F-=#OH4JozgqRXek_1=zTJ(6lD
zlJ1EM-O|Mia2Xi_0;lD&0f<2N8Dcx7Xp}NZnjau(T@imDKca1T0CqzIfzbfZwhV@l
zyh<?^V38qGSz#P)m43nhls-gM2Wg{WT6TXx8H|?)hhX>oZ0LLs<LnGD>*``QV|{h>
z^_&|V=m{QzC=d8NxOY?LPKU+%ltV|jkr@IEHx9{$0@*8wDcy1a|F`tzza(c3ebge?
zUa_i5gf^Zhho~t0Ur-v^KDk646CLbVHl|7>7D=+`P4cnA85@EiDGj>vq_Dk<H8xO5
z=DLKo&wr1Cu5k~`xP7|AI$V}jZvV;NuJ>}I9oG+!AD-HE>(I?ZGga}j`b1fi0D~CD
zKeoSPkC$!!v2)9h%%Chnjh{oFhgNQf?x-$acvRSa<ZjiJ?w0MQZMy24&O}kYP*gv2
zbXGUp{Nti^vF%5q&RF5mpRC>xFKD~7Wx8kL;*F8Xk*SMc9i7<{b;JtVKoWv-_m#;j
z(`B>GbL?)-!cxhaD0E(;PQ>T0h^^QV&udHMZ5Hx2-|hJBfp-tY>4GZS_`4>%rZ@gR
zJ~(sY_V(F*|F-A7?7RMV4##SC33(k++s}!+eor}KtpKeuk&8<z+Y-6Eh1}ggY26*q
z>cr(?GZ!baZxl`zPUTFN%9@h=%}>R%SCO5CtWI=Po_oCG=T^PTjkf1Cf82~ea<Z(^
z4x*msCfpT*yJBi=cG-J%F?U7WeK2Z3`?B({e`@?wQ!TeP-`qTX@tfObHcL{rAAPVL
zeGSX0T+uPzM`A(SM<0}M*?VA7HH&`2BuDdwc5Y9;@q3QCJtfBPZ7SGPY5YO!iapD$
zf7ZBSPo1?cXK4}LDVl~i$zjMDEg>jd0*4Qa<_@MkCM_Yh=ANZ=Y%x7YzFjmOHHCT^
zX^5P^rBmA<A~7Q@drYm2u#De@YR>GY3r4q0_kI9D-Yrl8l>^X8lCN>fbjxwmktkXv
z6s@8}jcTGsHBrOFFwGN+Zcw8e<Y=d<a%$bJEjPD(z`-j=!?#dYZ)&@rl{azn#_7q^
zLRR&H2?59?GxIHYlMdC?h+foRePkq_TYL#Yne;$ht%Qr+nZASp`VuDSMVPhFc1RIx
zhJ(rms-DlvsBAW%+7`ZwI+@|oq;%JtiV+ggiryD%5%V-sTPkBdqMnfyGP0y<o@CBz
zo`5vTU|@S_GU}6@UYse^lUB+Xa!~V(M>%*Shk61_$)ScNv*GI>=ld$o3bGdr>HaqQ
z3&8jc%8^J?edJ?u>qM7gGOrRnsvobSaRiq>h{ip;51tf_=K{fD(KJFzM`^?+rV<%I
zIboV10LiH=t_lepA56b*LS=UCCzu>UwseBiJx}q}vN><_oM&y!x;ExndoQnmjyQ}N
zOg9b8J3aH+`I5O6(7*GE*kpsXl>EXQdnWgMbsr;F;pNoisj2YvE>fS^E;MeR%ijU2
zk<2CzQG*%j2uoFcR4VRE2x5nEB+Gn&lBG^ZIU1odH8nN;<J?Bt%;-@mDLimVj{j$>
z&;KN68qVVi4CUHgDYM2-QcqT+RA#LC`sn!R)H0&hO?SMp@Akf#p5HwfFKLdm{$%SL
zWbC6z%^xG@I5}(<Fo4)guMDSPaBpd7$CfBL`{?WIkc~k*8w`#B+%0hAnLYk<_PbD^
zGqogD8CsI63@sACp>pWU>Z6>-7GnrX2RJ?hE*f?c&;i*VRz<)BF!{}A0Y1*^K=gO{
z%pmq#w9ZhtoY)qy<AP$NbUGn?A3#YnEpCUi11LFuO=USy7OpbBtn;}5;9Ptq8a%p%
z;hhHqJs>#yy=0RI_!L7iK`%_d7{|M6m3OUICL^+JJh5gZ+aONz(QNKYvlXC1$|#~T
zASL9T(^>e$%7w`Zz$`ie;miv5dWxEb5pNi0>3IrtBDSzWTYF3rJZhl&GH_%`0Y?sm
z;$}?T{ln~HlP!uAVSJa|J<`27b!LgBoY4m`iy_m#3D$e*Nd-uGN0Jxhs9@+tn!fvy
z9AF4nn%Laq7QtFHXDzv3v?|uP<Gm`OaTiJ6yY5%F64APHzI+w^mOLo0ymjj4sd;Dd
zyt86HyBx5n0<h@E))Hw>GZ@o|Mx||EDp};;;FD=oSv|-GNxL8b`%HkE*#(g<;l;7k
ziDN0V>!HAr6vCj&cVT=GNzY{os08!3GTg%@#ZOV!qHB!PEs98z5=PMw9uD!JM>F{U
zK?7<+k!h@cYI{;MK1|b*4M_^do|`%%GBmqL19Aq5F&?nvoqPMjT<+T27jF8edZx1{
z+NX41-93Hb{oJ*2Ps_K%cbosWOYeKO#;jXoo~=M-AZK)N{NPmf)PcCO7Q#f(E643K
zBoi@pG48Bl;ze26QR_#G`CMKLtJ4=f?fLe!F;e$|zsnpWl6TOwAd}qqufnbimJbLL
zFYLfVq8sKE><OhQkDn1qp!Q(YRF*SolcSOcbuEIFf=DQH1ClK}jVUsMS~wYuU8Ine
z0Gdoa{}IE+APf!G<A-@zg{keLW3PAQe1H#lyXeY8S&11?4A<bm48%Y$?7a-&k1WjN
zt_%4vtrpAX0UQi@%IP{SI(Z><I7vBR#vcemrdyP#gXIY2ysmYeX9NURp!$iAMKj<7
zgFLu@;j~70!-En<f@B0x7qv*GQMHd>0Rqc8=!bNWj!K8At0H~ph6jhkjgOTxFgSv)
zhCQCg^Rn##gWz4YRAiDW0l5Vg6iNHVIA)<lt8ihg>#U-SE`SIRpMjN4T-_@rV#I|n
zQ_739j=w-YmDZ3ZFG%ZLw5i!ek4&HN%NK<KeMGUM4eU&s3mVr0FaR=|1`OmfK1;yh
z621*!P|f96L*{Sl`MW0)TTcjEPvDj*V1G6&`=;io=RfC_M>~ieX}@WoUVGCW1<F_|
zOB`n9F%k3XslIqtZ6a%xkhLnFRsVAX&a}ArBfkRZBTk}VuOZ8HHp-<-oAovcTddP{
z;+mNZjOhgR2g8_tLB3wKdl=fpPKqB=7(<{KeAGNM5+1;ifm77bY2*MF^-!-jSs}Sm
zQS%V@=-Tg>Rnld<bZ2k5moD2Sa~XxD3lv9!NA92FYF+!n3b!d6{MQ?0lVuAA^4G7K
z&7Te5-8Fmpol2n|!chpkZ*!9+xJ48E3*Ismt_VHCj}H`-Of84<{qbq*%_bp#)q;hB
zah<Rv?rp=Hw7Ic*GXU>E3(}ycy2JetF*4!*W9(~C0;9c7lQksYOl1aS#hpnYDx<Tc
zX9>JpC4;|-I?w}X{8f2Jwc!pV-I$G#KXr$-YeHeVR9iKwqYaV$2ES1u!@?2>{=v*o
zihGvb+ynxxdW_Q|J!?T`EjdQqp@bWvASWfa|EhD$sa117>P;y@;-y^|4^mn*83s;?
z4WaZC_KdGXg3pq^<I`PC3}`USjZg<h;KVf-|Apr7e}#iH1%ntv6hH((32d;L&%g$g
zeXyS$9_S?tda!(99>(q9K|d3o1V)?zqex9bvZ#|K5n>tdoWXFONAY4dsIo*yPQoqG
zrNAIbctgG?ib;L(zm4)lyR@kgIO6SShHA4{0o@YMp0^>6In%T%|0lA7Zs_Dzub(Si
ze`odWWz$vDN2hdC?cX%btcENVbi?PZw(FL0%Y=U1ajkv6zA*-ydwDCa9eS`FswQub
z+!={&*b{Hs`xndi3D&BpW8(CEPstQm_bbPZQC+loKEEoFze30-n>kf8N8|ZTiTn*h
z{)W4{yUlld;`uvp`u$4PSB`!|7d`aQpf9jT?L-_bxv_V0Zz6A{khd~H*Vi}BI}4@{
z-E9E1GM}z2lA&XM1(6D&z!SYV(J);;s|R6@MOi`AOjx~w)jM50(|o(^$JWM$Qf|e5
z-9iQDERPw>K3c5fiZ(Db>9;()%FVs#3iY9dPR}ACYe`#>eqF$T)0qLMGXqXh5Da4`
zG{6^PW-&-KjQm9MG0T34YWXZF`N+bf!bies4zac?wmQ3*C!3Jn+qrw7cMv=CK1?D0
z_wjk2kRRzpkIBIvnx=$#(OOw-gR|s`9#|dlH%gC3g$Y>wbQA(kr0>E^SHA*DLg|`j
zCa*(tiA^^J^;OgHvnY*!2TmsHOQgZkI<2;_tDMQyq%={bng2tYgv7vMlCO0C6sZW)
z4UxsT%$+M*1LJf>_HieaxrPC&ArU(~epR{srdR0><mbrGx}y;u)*Td@@o34$DC7z~
zpNldi>zRYdmm=uG|25u6YnE)4)FR^Wyie^RIY36PNO-CQPgTORq=*DTFji@4nkA)9
zwJ~vG%c}5^PB%0MG9GQ40rF@=Glupw3Bnmg3veT7x$x}1S*iIXuZ0=m#}7-IO0N;!
z><Vu-H>j~s=n;kuvAOeO>Jb_f2*Q*v0|WlW+b_n}?fX%4yd0N~marSRQhKSWUGTKW
zWDCD(15EwI`syG&OU-xXoPfTev>A^Qdlk~PL=;FBcG9y!=F72Elxw(D!KW~l1vtu1
zcVd3B7uX7cw&S_T`O#HNP7kRwQqqbjFT4t6VwO}bPgJ!ERju)=^>>YlwgW=jfq2`Y
ziTzQ+O|nX+d;p{|>q>^2sQp3fSrxBYg%N#Pe_Ynd7|0WP1!<tHo=R38GmyDNoC}Tg
zt3VM_HJ9v}@;j3fo=+j1=x{S5l|joCkMavSZ#t2(=P4!VmncD>qFVvd@mW3a0~2hQ
zroueyRU5IDncXXpi?`r=K=Wx;vjG<k5Kv<nFRA@U&NDl;gS_a4QG483FL4FC&!6qi
z1Yf`m*h*0Wqi7>hH)aY@WZJNjbwJS}%>gMwW(~?wP__Wpz<?<Ot6HY?_+qq1y)QUz
zi(p_iWroqh{7af&x6wKVRjXI1Gc0CZAGJ;FpI=^=Sl%WqZ;LPA6tix^o*jIUl{;}@
z8j?1vXHMURkWD9PsG5L5Pc*-}@m@*!>;7B)H~VKwXNQHlE%A!2@se%P1NTZRUXR=w
zh3(P$yZOSZZSl(O@zNd9gAWQf%)5%GHpiSRm0#RVsKRkNkW2)ks%mG~<3w9_`k=ie
zIY@jZ`am)fPrZ?8Cb*Eo$oVsBJRPfGO<Qk=)o5V;#S0el;b>8^U?U%n7Oq7H`HH}1
znl_MaYw(y1WH=fx^t)g;nQEuQWZ}AYAuErW$)<wHCly3KQjUm*Cw4_Ik5@i&AVfMt
zP(^xC2lcVbzQxP%q!N8W@O6-|&FealdkrAj!qha=c7pvGKh~K{{I$O90ZIXb(3-?w
zi*`7;PekaoG2*NpyS-C%s!;0C!6RM#pP)9pj<$p>IHD7`c@C&If$J%paS{}$fdEcD
z0}<TGAid&@lSz8j+M_ZJdV%4jAY5`c(GNn6DX+5k9IO%2ZU*D85O(?|<lFz19>PQN
zSpcM5*$2&3=<-O9c1hY_Rm(M@TysjfNjR0AQmz)$i+Tx9D$@(ZVM`a2t?v8>SK~QQ
zkGhA4*p2CRCZO(gS)zp4lfbs}5|(7M>uF}wSd7{m{evSUIX&19g~uj@i;k4^8Ofo2
ze+Jc%&hKZDpZC(MWHCIo3Vb!fMVneSPaJ5`E?Wuj!OigwIP4Z^+&zgeGnhvchF9w*
ziDgsYW1mc;Oy{T0IF&U0541}EHIfr)+MP<8_T(o#D{0g7w8X3}aPO6^pD!#=6xIoa
zb@L_OM9EsAWNoatWwu8s-T<lqP(|D)KJnbt3$fhQ5Ya9Nr5akaD79oY%P66g6%yMy
zHG?mfTZ;@O#Ab6NeOcqoS&5@YU<~B$q9nOHO#qPA1O2hpywu*C<d8AEThHzpR#p-+
zD^K!PP)4y<=dTh^D?!;WSxMN-nI2jXQUF(Jq4}|%oK`pr50lQEK=7oQ#!M_Id`$Tu
zNYtCr<f#MTpi!n$=V94}x1w;MC;7$7;VqtDH*SwwCbCs-<<zrr=W^((LR|9G<DZ`D
ziF>^AkuRyHMs>X7$fPjQs^M$M`35<?<gk<UQy6orsg?h4ch?@<)^*<RrNlQWQk1PH
zDUq@s){B-b#a0|UiDX-q5?5IlC(XmHMv1h|SQ6b!%8fOt5A0DH>lS$fRvBAoW%(m2
z(hbhAF76-0^2a(j>yYwBF352*>?|n?6x+Z?OqI67u-|tM??d#JlOP2;>`FL1_uO;N
zJ@@r}=X{UfN6F7|ACuIK6mvGA|6tx)OW^<<LQUO!PRic#?#Y{3nMDBD*#JyL)jE~C
z@~jTvA|PRMvswe?=1N74hpeK;Lzce-bXGc{x?wiMw#|RRPYFeLe`1R6FsA5H=MLpo
zsQ(OkgK;V6F-3DmThs+E;b2?>v8y{Oaz6E&Rnay|d4=xNzl%kXh7%7+*lfW~D`62v
z+Bv;8ZYKya0|xPNK+iO0@CtisqzBY23yoR9Lb)=D1Swa~kGiV0MX@XV827-f&nFa(
zub{JAHSR?)axBAQMwvcnCnS7y&HzndRAsLe$Apn8FXqm6?*>eZSgP@rX)3oA$ragV
zT+_Hz9cMYlY1T1Rl|6$wTE<6yVGn=d+y%}PEu2f)8FCrTXmg%aA{Cit6L1!wqJ-DY
zTf+&~RO-Vk2a)z9#>wdl<5Maun)EP^O949Sr$hzFkwVzb*_0u0o@n8nDk|CSEDx}@
z=NZ%Hyw6ZA+i>@Xq_RLik=bA3taq`%YCpLXA&h0Fs#UIPU9)8N4$FIo-$E2e+i==5
zoNa2&G~F*Z!RzRz&A;J0u<jdNvToD_R!(Oc2N7T8di#3KF!}({T9NG$V;hz6UptC&
z_q%X&QVx;j{LJMUgdooNdu4yGo<lyJu4;$-B?1ql5ybWs>W4Y$FuVfU(|_$k=HQro
zaO^G5SlTw0_Ka;*w`<&5J%x@-e>Pp!3Z`3wF8|QUY3nfYDjnVi8I0ztRJT)RI~j%j
zKysT6fU3&;8_*gsVZ*qE%GdtU(byP^wL*PqH8Oi45e&XIyhOCIUa`1@*xhC%tS+Lj
zskDQ)qSW}CRy;}!orD3stDJX{(A3lksjgQ-$uNZS{)FeV1NZ7zcs|^(GIpPxi!L1%
z##KQL;EGzlZB^(5tA#t9@+wy;J%f9#(hj8*3j*E!F;WL8Zvwk_pQOEAqvD2WYIGHd
zeu*dr_`qpfbkBYY_wPf_x#&pM^7?QdRXq!o5|k0qD%qe2;pehz=UQ-o=$YK8(^S$G
zc0cahN<2dqN4oKb5eY5X7TnvWt`+#MDx&b9z%;`#&S1y6_Jy>y+_GHN!$27ARt?3;
zWCoZE@1YvX3BzZ0g2+TiCBfywkemXh<jhlN=Vs4w^^8i{b9QFy4RR8bYA`(MuZY|@
zH1)KUr-J&K*i1sYI1xL2IzAN#LXc*`&TVx(bOwKNDgxBCiD&|XAqio?XknxR3Xw0p
zG>m%ikB!o)h_Xq?P#_(r<U6$cca$*9GY4@Sc;+Lly!0BCUZ>={NOEOUi6pF05G#@_
z!?6IP3+8LRBsoOTDoeNN>`v+pSWa<b4<8{YV$mOy3k5ne{;=#1uY>BVaB0vnyRW!c
zXVz;6F1eQ+%R^b8KjUkbea)+VYt3n2^SZC+l9lv2OA$y`+!Zg3TpC%vZ>4>8fMPFP
z+x1%D)xf&zp^R%xc8%Q#-T2J9>oJa^_6aMZld85$HU!Cjd;?yhLr^E}Sxdeiy6HK_
zR~<icHrxSzn)9-AWe65A-cZKdEqlAyy#yh$(}4|Nb;j2x`}(ehDA3L8pTFrldFkl(
zewKy^mb&M1PsVpx_8mrF%YDm{)d!)9syYHyR8_?ip_^4zQ=L_DwQt?mx^(ozAkOLn
zR~xQ0tUkV8*Kw%=BDl|x+Uyv7fDr_bv&9IW^WD+3?!9)>6!V5U`NQ-UQqn-L!eyL5
zTR=52l{>AUkYmdyD$%W;cm-NKQI4;jC^syI%po-_8}ev`SevdZuDq4@Y|!>!J$2<&
z-cEZ=V#b5bJwc^w$K*h7+S4oB`?j2@z^|RgxNW(m%z!u7FzEjS%Pqsj7QmrtDWwVA
zDspw|=cw~cXWl6vXGNt7`+tI~FIiFDC3Mq^@Qv0gC6H@)6Zn?WRu0PAf(zGZEr$(j
z3w7nA<JwAH5}2t51Ns%y#~hEkT4L)04VnPrFO||lMWu?K=G|dEgd2p(lNc<Y{1cbs
zhTpG)?6EhW1BKCYUc(5J4q{hTW$NuJn|FMC>O6juJ|zh!DxJr_+t|8#I@2~Nw+&v8
z-fTQdv-O6Jx~{Ctx9Y!MeckrDBYogeSmYE1P_TjN(2lv&2gY$sk!InO3a(msB#Z0i
zH*1ez`dkEn+s<UR&5=o%#8%>OBEtk#_$}RxRAu1i_Y_3Y+EX(OWV1A29Yd+6V6++f
zt?qCp^@(dEgK-KT7;VZg3}|3dNIE%EKq;zgjkkUe^*d~aY?rKc7{}E?zR{dqVW2wh
z8QS@I7nvvlf+c6snlVxDE|PumC<jb1#=zg)>#lINp(7jYM~qZ&+on+Nb#NvH^5?E!
z83OPdF~yIK0T;n}r9<@Y{yB0?Mg1@z{YfgMBtqjOHLgb4z2*mtk}>2MWv3DyW#<)$
zvQv&zcFMI>06I>Iw~4%tu+yGK*lCXlI~ibYIkCs7IE`l;6(<ij+BUBvDWT#XT3bO8
z0>GWS6d_zCVvWIK0xA)Rs$dUqhf2g6br^&3Ku~4~(i3&<Q0|U7U=MHD=CmVP0jlm~
z0x}ogJg?4LLr2v)LI0L1S5JDvZ9z6C5*HALi{MsBkk6DYoPa$;kByaWlcJ$ipnJu>
z-M5e_q51G!E>X0UeZ`FxFrIzswrHNkw+f$Wb^T_fY|+tv)xZo!+m@nNJN&Jo8dg^@
zq&#0Jhw?>Su>6_uO`SzN47qEVf3f=gf)l7`zR1Hjniee-ym5Tq7Un={VTiG}3s>+Z
zPvS~A6+c7wY?6|Hri83`*{jYW*oxo0)?T}()G%jf=a`5`pXY)a-IuSY^Z}zUUnTOt
zuYOg~S9taM3TG=K{bYk}nc$#|e^=m6@KD+nc(=Niq$<!VG`FYQ2XBV%-y|3-m|8U-
zS{^Gnh04xsLns^S$u_pEJhl4NT72!<bi@5WE23UCANna(-z>9pLCMeGGhvspsK2it
zYO!&fGL`z}Y9;0<JVBOY#W#;HET;5iT%AS`yCRXv8R+~$>Pz1l?8B-sNDm$E;1>3{
z)j*5TQj{mfuX|zrU7Q%`n`^oX*xNP3-mY9SEtnt2ximwY@6!YPBedFPYpY(2^f|o#
zIp4O+m^hzEOiOQ~;SOM(e#6ICq}i+V^d7+pL9;7_rXa!`!wF({ogQefF%8AG_sG&v
z&eNXtHfOvYvbSR`^h0kqXn1u956;z+t!hoXTC>~L8!+%IF`(6^=uD4oq~rJigSm&l
z<x@l!DEU1a`3fp))V!9>)At|9R@c4<-36bjQ=yKa^E$12*IHhDgmfJ=T?cum>bL<=
zdUz-|P^rTLL|#YUX-^~XwC51^wC7=sTS@$Z6M8rHIH9MZZX@&+7&2{}|Ba-C&{u)b
zb5air(|eG5PW0jM6t#os!^H?h-vOcz7Jxq|7=??Ro{WSrB&m+Nan#Imyr+totEgMI
z$3X6l+C@F8PQ?4WmS-xWmB3bWBMh@)ZJn!?J?4!ukOk=6eP9-qj9K`=EOzOb1$T7=
z;%01`GYil?qE@*|gj$@7OEJ9W$rMK!HewW$^jh4_E$A~Os>Zm*Pf(|XTiEX67XQy-
z+GuvVU<QBUN_>1nw1E>T^AD018_3we<5Vdd$f7Eb<LxOmLibQ+sK$L#;Ad%HDx~xg
zwGz*a+CIsd(BA${l}{ro0SrCn1j!wBA_lB_rUk1qG6Znmqnsbt)vDyRUqw2qw0N#f
zJEr7t|5RL-kKNy1r5EiN{i%?NsV=1)%tm<5ptd6WMyqP2E>?)H@ewIU{KQI$4avMK
ztOIwDp2qhu-+1zDESQku@Is7C2V>mAHkg>5z8E|kNe1T|f_x&<9h{s?1urJ%817vx
zNnSqlw&KC?$@xB&%jiDkU^Ed+24@o~^mQRd;apQath-r6YUrrZO=Q>{g-v8`(`aLq
zs4#g98-oLozfA`i5BPV=vH8#M;G)@tNBTPDeoO~6I4_33ME50E&yB$p?Fp1-s{RB}
zPEl%GGF8&33Y#yL%_Pt8nG&tblr@s^R7rOi)Tz>Uh-G~m!=v@EPd`=SdaZXAygjI<
zy5!ofY+X~Pu1m(cnAAlKfsZs_0HAGwDyjr?4+<`VY`PY`Sq%tuU<Ehq!;(4cs?D|!
zaVwBh=_<m1@-r)tT5!9-o{WD$_79|itnRE>N@YAvvZpEIX_Gx|>(2JIwoK=++&TP~
zb9lq&&-!}PeZ%SAqlim(Ozhd{>Akiq(>Emd4Q2X9<-XDNp0RZIBRKe|Sf4L5Rn~8o
zl~+~dg>rb?V1^J_Etj1wS>N%cqv&kq@juy@c7@*E4Y%*B`>yO;ukTvl-JRLJU*5eR
zgLiDeC1v31Lswum*S%idlc|Q40vs`MRh<vNUVUTN4;tQRSnqs-EK#@tXom@o0I}&9
zgwFhZ&D9jKUI1*uiUH~faq^jq(ilDH)5I^%APKAHE7;L^1+5oo8mL2cdH|C?NR*z#
z^DEup&_^7mWYe&A3?&AJasY+OD8E=W5Pp>zXC{OxW!2F_6VL^Vv3rWr*2rCuPcIbR
z1bQd@DyGxZ^$s&G*1O6Rv<usYUu6SVAdx%UjLh#~4y$uCgml6fze=UXpwSwB6-~cY
zdZwHOe8zzH>`>EykImyL>mY~qOMv1j(3f93o03!RDa>UBLk*Eti<Aw0RZwXM{Htaq
z{~VrL>1M=DjA*<uB9!i#h3@gpIR2Hz$O*{+|4Ln-E;@_&SJg8$i*Pr`g2%P(E&LUp
z6C9boKWvLm+~Gc+*QbcZ<RtB3)IKME+o5UoQvFJ;1$Pv&ns#^>29#RbFXVJiMVq?l
z*1gFGv^q)-dcpgZy!NYo;R|ZybrnrZL(amQehPC_Kv(aO>u^QBgv)m*Eah$o-1G70
z0Z)4&GCdcAXY6sp#$vt|#Te>PxJ|*u5<K~fao|=>#)6SxGDbk1saO#NOYK}a3A|_Z
zy@rD)&%!r#CKdtyRXnBZNI~%8U|Kv1yV42$PR6DpbIDi`CXlK4c_4bxlpQmKWRQh3
z!l0%i0LY~ofLetOKDh(x*B9d{I1j@LTnfUfGni!I<j*Hqa1t!zFK)Y(ZB+kI@I>Td
zOrn_bhz6g8w=#5_8tPZ_Y+`O2k>+FDdZ26A=Dker%(x)<H798p!3*)^oPKh|3{k_u
zvD28^%--EsM8Z@@N?d?YE85LEK-{PlpDL02FLfPus6+TjPRYL}ATubITk&FQaAwkf
zfc=f5m?RNcqY)p?RWTIXL^2r%o?DUsGUnP5;8VB%LZcEuGY%iXya%7e2PM5g$=g(q
z=sTZ?kw}~4>#|8)ltw}-YNnQ!eo8q~drO;?6exM0lK-THO%IPz2W*bmOJzSp0t=`p
zm2RH}lwg!eTU7l6BtR=mB;(|~2r*eQ=TrC8sUufnvvV@2GFso$8>MYJA-X1u(a#Ty
zvY5BaF+FtSBH?!!242|{3SQaCkA_#~`gP%z)%Ipx0Wy|4cllhVx?8U929BEZRcEGm
zM8<#hNP&DDwk(3veW`ir<O|PUdiD=sb1K+(lO&}%6F4jf4qrcY<M4XmDTtq-uHFcQ
z2xcP_=!FV26Bw2Q!<oQia^SI#ibDox$Ht0F;|hRT;{zYHAp<aLtXLYy&=deOnnb(m
z3GkzJ|Mix1>w|f_;Aw*YgU10pGr;fn5Im8~o2_rp23uZszUa&ZkI2Cz*_H<|NoSRO
z<Z8YH=-Gr=ih9;)fO<CSC)Bgi5TTxpwv~TxSKDZp?Vl>zMtg122;Nk69*g%+Ah|Nl
zNH>3iBi|6tKpy><;-YDr8=b+7wREk!Sf*(xm1D3DRi)P8wIp3B*^F#5U%@zNBTX0t
zs4o{?E-jc7S`4jnOiBxBkH(o%7jx6n4S1}@-lNR%TG@j=lWoC#?i4;{@#}{cOgJxi
zII~QHT^i;Yjs?pF5yxEUS6#nrz2mrDot0Q1H(~QA=6<cN&b8W$_;MHAm?2@FqRg*F
zK@?_#5cR5Ub&&b4s9CdXQd(%eC}$QSD1NR%JCBmn^neg2e~ZM)5UE+lJItWU4}yrm
z@be4Y@RJN^w8C?|kPK?HLT+8k3~W#srsfXrj6p6H3^qb3w}p%T8O$hY-lvl&6m=HT
zN%YNJI&$tW#^PtrVojEaK*IytdmF=-K9A!t;fbX<kPIW$-={YJLr1SrLi9Rkm15_o
zBU1prB+Bonqy-0aWszu9q2u)G=c-u{4;UXYX!0cNpU$6$RU|o=0jfL+6DhcAxY;0-
zIyom>Cr(Ty=4Mlpk9tum@G(oIx-Ej8Ps~PUVmW8=V%Uxivl1x^rXW2<Bc~B2cOv~0
zs4=hUPxYjq#x%kEO?F~6lC+@iR|M!ZnjL9dBNQq%4J!kghF-a$cfDc%dUgMjbECQS
zrPd|)Ml}}Cnfgw-zB5zbCj;!OdjFF1ojsihvbA(<xkmwOZtB138QAb6NZQMe7aeQ;
zFL|zsa&Z5;zkeA~iT$h2x2n3byZrCm_o(dcTXw8Gx>lR5YFv%VRh=jXp7b{sE-$P;
zdaZuF=J0YkJdjrrl(=KroDH^Sg8g!^f7$)7-oQ$1^>f!oZ+ed)I8WXq96)qIpHSCQ
zth*6xUo)?L`R2n<tOuV|>)-VD14xNS`&x<q(6uMuF0^#z_X^&C;>pZmhpIkAkMIG#
zGMX~sDcWVT3hp&QyPEkA(LHIFUM6}j#;A@FI!wvm5>F<RG)>FUX?~L2DWGQP=pjvm
zhYFbPm>tpS8j3X)WdqxF3I5<}%asT6Znj%N$_Lg1Y>1(KsAQ$TB??{pvLlbY=RA(U
z?{^>!VbG3p_1?UhO2C_H{VPX-Avz$}wCC-t%po)%xt@|kNAs)|Q${RtbE3!7o}g?G
zZMs>--!z5Hfz{EqC$9BhH~)j{yRLNqF}dfs+%l3EaO6h+jpQ4HTa+zYTj4%*{HfH8
zpPXkZF-_tWOo)=<$mEp7?j~*$prDZCoY4s4>0rK_gykM7)g)pTIXi=ZfTAiX5yQw?
zfV+tgR3bT=L<UUkapi0XojP?kJUh!Ha8)V0VGTh-B4b18FYx4YZ8LxtmLSHPO3ch8
zX2T#=sRYIsj?bbT_J?6^^ysAiNtTi8_|O&z<dck?!PrToo7?-L^@~d#i9Y>YS4nm5
z$scAvWQhqlU0NamL^m=mk>Dg(_8Vg-Br@R5xpZ_iDG`^Gn6ixcQm$5iFwC9m=TdRp
zO=3j3fo+FNAbWZ3;sO!(T=CkKNYWy;(A{LSW)ih<D^Qw%=UTS)S-b@D$3^U0I`hP2
z1XiP@L&`ZXOi#~*v4T1sKO>RMC0DI0(O)yMv7DD3jMB4<L#7;ya(@F-FXUR;F?IzL
zvFBq`b9e(3O*lO5;uqKmxEo%}J?g4LW*$`~bg!!MSzz%=L7bj>I&lAn_ItEouAuRG
zK9oH)>>i`q{3<x-3l~`je`t(}d3YP`g&^I7M9PKY?bF^BywLD`OiJxkgA@Q#2PK_U
zcXvrQVX!<r7*ZNY-IVlDt@^uaae)DSgJG(*kCI+WNc1A@r-TG6xjKWEr{mMqkVGod
zeN?G}RRXV0VJS0{lt_S*bF)GOJ)VPBAtoK9GX5a+uNHrsv~NTjq+UtZlB;DMuv-@9
z>)(kakfdfJ(jlq?c`W#Id={A4r!h%LN=K;lK}sH?LuP)nAEtsKDzIQ3kM~y^rjnzS
z9HU}CVm!0J(YVcs@=SwO=}j_cR||_oj3}S<*F=A8O2BF9ICYk%GHX0JF*O&Ba8qjM
z*v$EalsYa+2}x?iacPulevT4y@szGp@^46TJ}Gtvp9Dh16hBq8AXEeCmsF*aa*Uag
zWfPwwouk}WDPg>AnR0(j$xD<_U_ur}NMhVDL%X$<geYN1P7Lsdd53oq6(GY>Zal*D
zD~ts`O(%bbl4og<w!?U-=cZ#1N-v=@Iueps!2t4Qq9|_K1krU{I4BDTZwno_gx1?a
z>pOz$mazM_(3BRMZVRKggrQr)Be#TOtZ+mYMs5lF-Zz;<)0U-NL|9}b?>hwXfgcIY
zw}k%N!WgSNxMk8G{gil1c<i<?vSl)hh@p&R%O!|Uin8#;mdT1effBDEj-z7NEum-2
zRE7c!@1Y+HCuHHoZQ%i}M{3)Z7CQ4LyBN4t-g3v<l(yDntWC1D>83Swr=bbJkarqj
zdt6H^LjPBs1&dd-tV|aK{A{(I6h+5R1xgFErm#37rv2f9K$*g%cu;htg9p+FPsqVf
z7X<7TQsN=8BOMw{-#;#g9xDjg%g;l!x;HKE%82c<*q$wK%-R7h*$HS#ld0hNZId`G
zu1>xje=(l!JNo)Fn*uA@bmC~9AI*QsESQ{ICb!s_7mxt`+2qW#-JnZsUX4-Y?!18P
zwYk?8UR_|>8|ELl-f(SFX}+;eJe;*det_RQE>GT!Uzj`~XQiA?a8>5*lye9c=hses
z_0*=5_6D8e{;bXYg6k5RB7ditHzSYcSn)1gTF6^z&xVFe_feo}?n;_=w#w$VO*@Vi
z{C070x%nF%mpcjqvW41q(Z6gW?6!h{Y~e|9msqtd5oUTpK(-L}h?PnMWb-XvaX03v
zE61;%xN-u%(D^bH+%Y@YNX^I>+MX80!4(sswig7-7oNxM>0cSXI(B8OfP2<o2p+>T
zRC=X+e%w?q2C`Py*A~9IkS|02P9@M8R*tS#t&Cny$dzq~nJp5ELY*J+vXR3@I+j{r
z=)Tk~n`<`hC@MT6_KE&<LwCC8VYy+bAYiX>R&2uf_frt8f`Dw{n0QnaLo2?kbyw;N
z0_6)QOd+vq)%3FcMGP3(!l>9SR<7*7djAzPLbmXE@v|l|z)Rj2DE~ozXpdm40zNo~
iUE^Ob-$fs0;1@}nNc>~Bf7~y;>9>xzm%Z60BK=>5Rw(-b

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/plamo2.cpython-312.pyc b/model_executor/models/__pycache__/plamo2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6794fd28bbb1df52b933e0fb31f717d71c3d0c0a
GIT binary patch
literal 40287
zcmd75d2kz7nkSe50T9GNfFuZBAPF8K3GosS-M2*DB4taq%SGFbrkJ2a3LvQjsIq9V
ztnP7lQC+SvS-l;iw%jecq9;s^wQD+dV$Ir(m{M=dc6qjUc94d;fX<PlG%@b&sQ>7q
z+^+4|o!Q^_^1z{_ELYV;Oa}1s<;!>FJHPw=jnir4aD`3ZAO9CW<hcJt59(!AJR93g
z9CwT3xnYhs@W!wqVjMOa$X^gHh?s^=%x?;tBbH%{feTp#3*MQ-g%RtpmA$isi-wC3
zRv0dd*oJK^%o?^w9K#OgFG5`Bu#@?1;o^vE*v0(zusc#RT*Ca0aA~A$xGdrs_ONGX
zxIE$=_C_j(E7)^!xH3{TT*dsZaCM|+xF+Ho_OWMoxHeKZT*v$+;rfVw*w6f>;f6@#
za3k}Vg_|PH!_AQ`!&@RP!!424;Z_#z3AaT8!vW?m4{wdM54SVFH{22F9PW&C4R^8U
zig0&i+witX&u|ZWt_=4^`iA?Mzbf1x**?6T`K!Y_B0Gn7GJj2YS7i6_Zszxe_eAy%
z?~Uvm-p8J6!}}u#h7Uvz4j+sh8a~9r>cWR3M~06?jt(D<3=9vju=?<^$noLhkrTrw
zA}5DWMotZ%V&VSq>ByPkGtA!*J{uVv9%TN;@KEI3@Hysh3O^Tle)xF<XXH+BeDhlz
zza`}Opg`{T;q!b;=se#Vy1=)EUKq3RfwxS<FB-W}-NZe0h-B{k)_d(A802S`TL*IM
z47G>qKEUXq>jU}54S$R83KdPPDvwz=zI&7KZJ}@TZM<d7%J-lS!@ouPUZj5o-*ArK
z8XD%iFBw9w-0M?osI)^rYQ8;Wn^?=Ln&Q>k<~8<>I}mf{*Tnoi7IPP3?*5vXK^Ail
zV(vvdc%Cf%sWtljPzg)F59#-R^YmKpjIdk|AeV#Bo=fORXdra-1B+be;fvQTfkU&t
zQ<GyMAv8G}>YSPkU-v(Ec4Tm>*B_bUL*cGpQq+J!vYv{CgprHk5d4<$Xn1^-e9jlX
z{oJwO(UZrHo;fvi0s-#Bu~=v_Ha<0ZWMuS8Xp$d7pmB1NUOgv-V#3JyWQadHH90nZ
z31KB#^ubVUgdd5GAh1Xa#6x*>W_o%`hy`O)!szAT=u~8S9F;IiwwJ=;h@6pBaVZoF
zj?M`9h*<C%!V!;^V3aKU__c99BsEhMR4qCs1lgAbr$>a5a5xkWerHMu^TFu&EPauK
z;!RHnF9}mK(<r9+_>}OS5rL{43%wqb%IN)=97d&3Ad*>+&O~EVk#p1V+b)cUXAV#D
zgEL_~6`miwFf=7Z0w&3GbSgX(nS4$u_$-=YM3AZnL&7C$6P<S@&!2fIFM7%Osqf?l
zp%B;EsY~Or=ySr<Xef$LL{QP-NaW(kk&!4hRuy}=5F3ew24dHzLq|u#qch<Vv}yLM
z3ztW-Um=})bYvzv5~dHm*24$KCM8d9$jmf4joQr{4TVFavGHr6V3djpYH$1zsz`A3
z^33FwV03h3k~;As4TIpd5g{C+u~GW`%m_x!><En<G_^cBtkl-R)HHoTvG&b_CqpB=
z<b7#sbmXEMcr0=;#Pj2mmjVTnm&V9c6xn|#G=AxFEEt{|;X{H{&WFZEX2P-j;OJ#^
zZ+>j#<2*SMJvBKQ5?Hfg0z^+<zbK6J=wEqAMxT2Qomw#-rSTFOk48~G8I=8DuB
z8MzV)h9c9k>%no16Co1f$EjuHQ5X%5jf|oLu1j_nF+6fTBt#`gWaRqAP;goZjg7yK
zmT^bX2Fizw#9~4eVP&VXvU`DzX$r35#|3mjPzYTbkD@%x2pW^YDH@a&Yy|XbQ%jw1
zquI-svZHVt{~bbaaUpKl0BFMaB4CK&f{-a>=8gOCCS-xHK=YZHuMlBoEzF|%3N@cq
z^A%}6o944?K8NOWYQAFfU3UfClH<AXNMx#49wd@wnmtK2c}~;Vmh6|uc|J7BX0%i?
zITHyg0csNqk!WxdQ!*Huj!I<|0WB-9TEWX0Tv5rBl|^tGO-aFW)GMLu7`Ne>kP_7?
z4{t0WH0-JWXteWe%1AExiPeE+Y?A}fJ=0Q2&ZwaEN3va`QO#;T6tGIxU~qCI5()+-
zTaZ?*nK1bs!Qj=Ik+A$m*olUb3ZgMVas`7Ulao`Z1}0Gy5era&WFEu#kKN@q5Rdz(
zlijh%bocc5bZ2Y?t4^%*^_iW!cU{>T>JE=z?4G_JyF4}7O)F@(+@PV?L!&borSfC6
zTW;>I>FdIFWXGHn@I=qU`6Djvt-Eo0p&)6hdsN~{nmp->>ZGYUU0RVeRXnQlB~89`
zb#2mAn`Zt;W!|L8n=UO+n#$AVl}S@&+Fka~&OKs@9=XfjIwzb}3y~~Xg0Lz`hH=S)
zePl+M95v#ldeO+G|Hi+DbBl{}6Y86+J8!r$fVvt_bAM<+jO_GEtWDAxXA$>GH9ojB
zzDY{nFbfF%3VP!L$Kqs_t9oa#?>@BzmO4-{^h*NJeo6HU7=^>Q3A<(g5c$u+iPB5I
zUl_zqvSJBh<4Sk|kFV0}F*rB4w7n!{_lb7j($!Dx{)EY&u=^hsI#Y%9VqyLA@l^A6
zv3dJiiP*g7)55)vT<(SADNl#!=~%fcdbWwKZ3*kPw8ObzNx2(D{2UF-*HW#!#MWJF
zhsD<YqWwU^bb$4dR4NY)xf)muUk}k9WTG*ev%(ajUUY3t;}gG^wZ;&}@-8ryPyufW
znRqjxNXtAo23+K=;$bsyeTy5m@I|4*3Ada<w#(b}!^cd#9dKmPZ;;M`bhh6hofGNo
zygB4RjWAyFFa6LlV-+Hf8Tn$QE@r76As6qG!;zQf*J8R6(;X^7Tocljyk*kh!cv5l
z@uf<RWr*jQ=Uz7qmtWul9spr%y&R-PYLI$K;_d>VleZhmo&`Gzub@uCb8v>VnMT91
z2!A{N8w(ike`dJF#qc0sH!X4Q2j&b0VZcn7P_PO$4&5gd_%k~!&IPrYNX4+-?DsTt
zg2-FG^z%gwZB8SGLyeueBZgKsW}=EYXCiPD#aR!E7pc^7OY>JRmCmR{DrzfsZIVg{
zcR(s?-KV9hRNrUro8+%E0%y^NC`0?oSiPEyI)d<4`<iFZ7pY3roHj|NTkl}0nkv?+
z`gmGnwHm6S9LKYD_yeVnQKHs<v34~UQhHT?=8jNb=1KMO1##n#INtQ<M!w*l`2%Hi
zAzv*Ar0Y;)XYLbS8NceA*rxh2_ldrYU-j`875jenyn|ZH#c0=M7gFoAkp6dG!YWGr
zj_>7kX9cx_m9;{ViW{O8YSgk~wEM72KYxU_sWCElglc`836*Oyi-4!r#`Z*QYSlb)
z`dYu-W;Jf+{?yX!Pn1@tri>j_eG`XNU*;Y=s`@7eRA1&EBhZLlXbYV>A=Ix#$hxWH
zJ9b13oH(iaGWUB9HC|>s1-Gd0pSjiqVC7xEU9HvHsCSGbZC?L3RV!`e#4e}}fc_X#
z{h2%OjJ>En@x|(QjT_YVH*m3Usqgh-@~*cyHSU}#r?k^*y3Cz-#!WeSXV;E)<Gkw`
zYWMZCS7#;R3wSr$LvIhI)uM#Wn9>iFeG$E^t&@Bio;uZP#$Ho>$W3c=HH^W-*36UY
zoA^D|m$~2bsI7?nwbeE!f1ULPrT!-Q_o(ImSIWOv&3}{n5&WKa;j8=Apx71Fr|#Ml
zVKpRkpEJjear4AvCPejJ<AmbaRrQH4r+x6xjq2DY>_|Ud+(>wM)~Y9{d1UUFI5nSV
zjW=e*x9w4LK#N>f{h2%OCEO}nc$(uY)Ne*TDdk=@)^#pWIrPgzc>E<nFvn*LyJW&u
zz%1FuC#Pp(GEKlfH51bwOc%#Tq72xT>@s2*WFhB~gFusS*4i~b34+YjM8G6mM1bS~
z`VB&(jFHN4G9fv$wyuk#JgA3=ibRSJXpos_bO~n;JxU-jW|Sam^&<GU4F3&U764ak
z?>50y6?jEWPIt9s)E=+{8@+270yWFb=%-Ra==EuV@<+7{uScl}6^Yyj%-|wFa$vSS
zA4lj4f`Bz13kJLPg+ZSPM-RXwNB$5QL<wBF!Tqc9kE=eaTI>1g&Y$f3Uw0>aj)~ij
zG34-t*`hAAxZH$hxd}o0pdKLFnL-T}c;u34Ovw}l6&1Ki0f;oS-hr8Ekeoqa@iQWh
zpAgGE{$KtVT(h+bX%Peze*`2i|HY6WR5L%QwEk;7fqjx0G-O~ppr**50U{02wv`T)
ziY||-eM!r|<QN?py&O`5ShaRh-44*p;%GFYP&kQVBM^81GAZbz!7CwQ61lSALzIB#
zia@)#;DRF+#-`=*XC-P<kROjoMH$LaL1g50sW>(cat~35g2Kq;6@glokv>3ul`Qi3
zkxWD<mx^X4qgQ7_A=IIQ<*p1;fiOR*NE?Y#p)wE!TC1fZBAGG*r7%v<W=5bCXa|rA
z8L6nRS27%yOjDDgsAL#m$=QUUC0C#oTxg-lR<%nd8|awh*BI4FD5v){m03C>vPqUB
zjMyewj>>npOajYvnq<rP1t+B~mC5`pOSPB0L|+>p&8NMC4?x7YV}bx$wnZkbO4cja
zf~*tScnTC^FonWn0#QcfnQplPn*ODz<Qh?Ft1^*T_){vrC>R_Kk3>O2i&C5U*>!`_
zT7)P9W~(-xArp8Vt-(zG^$qT!)p@f}v{pW_R;RrUDQ}nP?MiufiQZlFrnl{BUu(+O
zFZ%lDO%JS9PkpMXzq9xD-c(JmSkp_fE7Nt2cdp#NlB(M&*6pN_nzX<9efxX%lz*4#
zNA?e_wT~R`ch1~AlXA3*j@Fgt58Lmyr?#FJ@pGJBFW`!t53F^MEnMZkWW|2e$C0k|
z-Lc=crz&@el~h4zx~le0&Fz|0Rlit;O1@qEu&!abahXrG>=0XatTl=)`;v7?iqao?
zx27v<QWYIyMF;XpRd$J$UFi~U+Ur|*dFfk;vMuS#+Q)WFg^j*^-ODw#zTf^{d#bTt
zZ0t`p?iL$&ry7rnjYsbvPBtE&H@#!OX-`?JMQil~YyIaHJ!ywK<?x9PU)oucayE(1
zri7z;`Kst>qe7}`Q&n5Vs;zQqFDJ@cs5EC`C6(rQT*_6qvkV$VM<espi;nu`=2YW$
zv2pvF0fmc>-A`sToG5FPGpeSHiXVHq$__0(JnszM9C|XDPWh#tTfRl#Lq`d9$V0bx
zA$IG#i{D+2y&r!so^<y=^w!*pEJhxi3!KFp1?EyJ&GOj6$;sXg-I=&OanHMI`ndR`
z;`^qbIsVF#3=AgghLR=cDCWb8s$22J_+K7-|MYvO?_FEvKc4((@;?8w@Lz?K-4~M0
zFC;5oq=xw1TDj!8<Gt-&?tajB@{^Ke-<d?i*$39aht=C2g0$C=bTo@C$2JO#HMV&d
zhDK498h`a*qT%QR>%c>nh3~d+#r0tK&?i@uyPr?Ao_}Dy@Ofn*w~1M2p>OIM^SbBT
ziLzE|RhPAjzSFtx;c6P-aeZD<w-ig&_lotsYo?#te_~JVdQRN++=GhesqzoKwM%@e
zu1BovS&e=C#z$|YcAgV=o_pYZ4sY#GfBUGq?oRvd_Ehx_v3dt9s<uB_yCYS5N~}GV
zz~r=-B+6S;<p)Ik><1o}`V#fqSI1UgPShSqmL5zv4yN}VLcEl<N3`~=wusi<pI6o0
zK{G60OjZT%ZU1oJ-F<7uWc%Jk<v!%^OuNe7dGqF*%Z;D9niJMziI!tYxUS|$Uf;aw
z2X?k8YBV)07#z{081?!sY{-myt?m8vTE5~2byuG=#wa$s^yq5@73tI1HVM^%kS`VR
zhI>YpkNzskn=6<z0ixt4>}uJWJD^2cxbv=jXoRJvtuXJ37d%sHqF!h;rc4%b(=(+u
zAvHl)c~{)5wW=jv5I4mwV+DYj3Wfv%j|u+3J{_<L{|rycju{0g5)-~d0dwU1b2!+;
zzzZI~G&40572cuH1#;ek6DSmxD27wzDG{G2DgzP({IJa!TkR3aa8xSN007Cz$FjB`
z1xl-6P!w_b2oA|4pKW_`OCmV*$(RY$CAtg;>;bIsb+_wQoXM&k^TiLV>uH*#9o1}=
z^@~owx=60ZQaewJJ5MJZXVUJ{$AzXE+fCQJVZLX6e7%?}uex=1@$7O{s$sj>uszwZ
zGwIniUqlNemb)dx9mj3QkBXCy)_H?&n6u=aS8u+$6i7Oo=Z$GFAsQCW&%ZwJl9@k0
zrlzyV0Q;ym>Jdm6jl>OXwwN>5If1YS;S8L+Cf4Etr4{aya~n>SBGOhaGfj$BCjKPA
ziff_S`X?GNH^MI{3jzmjaO)0ipYklut`WiGtVV=zWz)s=;CH=wJE36HNUmMrCDClw
znW5_3G^pPmFv|n9U<zza6Or--B3#HYHO<Am7ARCcaJF)@PyYu>)C%VYhyAFi_?@Dg
zMeh{fEKXSiq7^HCRoYRi^y!y{rXt&uZ9+4SwTS>qLN-oA^`UFdg!xOTP~L^L!u$t+
z9n)}}xH+a#?o~Q~!pWmGNvC}X4xTgT<X}?^$;&~X&SBD{u(Dh&aY)XQPj5ZqK}}Zk
zpDRR66H8;o8mU8{m@7iKM#om`hnm|EuF;{h!tDsx=)qax4utE_`{$ep_hsU#zPVzA
zYgA4(6y>@Q?$11{zB!@>HK|XTd)BU05-*w1D3F;L;N=<bS=1JJ6@5KdI!6?KLL>4n
zJqpo8dtM|weuLB+B`T8(ukED2Wj@;8p?=+5S=@Z%0(eh4`xH2wCN<tfccwO~Pn{88
zo3=+yk-4jBS-bXS!c||Um*Peq5~4L&Gtkc(JxPs+zVRS@N9I}e&6OjZ(BQml&Kvj0
zeD%4Cc)8-MjC<qdMB|^UifPoD2||bSt~lgN;#JjLygcr`WCX-vQCBrKPO9f>z9xO?
zQ`7tAYM-9|%_5ZS(J8rZu0AUzVg7lS`h^%lhw@(G5urz(3?(T7ycy7WgLUqb5##3g
zlkX6E^2yM9g=$O9`Lk-O*T()$TDM`YF<!A?5dI=w^L1lxt|@j#twX#i4hpaC>^-Z-
z$=nf>h$?y4n}u)M;`MR!o5lC6A1GYXxteFF2jZZ|z119x{j`}-gOZ=mD;AIO8WrAS
zFm3bPmbn(5n`@2R{$R_ScA+V&Er|k{cg1Zqd;W;cA)Xs!EBl+)cs;G~SXC5gV6HX8
z2f#P!tzTZ$?oeLlctq$o8aHZ*@fM_fNhiN%{nB|8ufg{5EngpJ%>1SUCA_RtLal!4
z-|_cx6T?rI{iZWs{HE(ocf6G^;%ym9J#Sb07?kBk{rd3)Rq4z`wME~w>di&o@vifq
z8|K>LZE^HEO}2O?X3)p6pjx|l^_zvi{rrg6-E*p(*tu%dRBt3#t6!NJ$%v^l3bZj>
zJXXL)sy2pcB+FqFBkC7q?whp{O1YScrTQj#)t9-etvMHnW0t8i=j%${tXwTO8tppc
zK`TM|&TsNf>drj36?yB7^WRC{?eXS`OPSVDeSixTe1EPPv+?OMw#2LTMl@@)Lu!th
zJHF;OT2bbzV?-Zj7go4xtT2H%Y8P*h`zEfaZ!&l6{a-Vq;#>KmcwM|ful8S``kw0p
zU=Vacs)*B*tcd&7RwNiFUPUlYz&*tHEDV|d<$ngZK+yO)!e1aW$k&B%gP3^e8i}-9
zgdfnOoe}hzL}yegxjYhOoP%*lLd#N~PMJk8KFK3dRI&nxXVUAE3nY2rI>my>I+!Id
zXq`#Ym}3E_@I&M;{0S9em=(TH_rhrCYH*x?9W;cQAp8)Cj)J8yql!!`A*CQmgXzS?
zsMUgtiJ_rYD=OJR>yJ*2#iqkEs1+W<<B{>0Q~>;0va_lO87~UlAJEvrvyj7-?7DzK
z{x4KLs+Mq{>Q*L4xHuAn@VydE_}}m*utOkhMsh-Qb~31azik{+&`1Mi0`MuuM`JSf
zNg%0ki{ckw8y8}bUJZsOFF^(z1P?Geq9m^^d2%YFh)F{fH^244Gm^?6u{NFCDN)w6
zQjyY{h*Xl-85ES)tO)Wv*{&e6{2^7=%vxLcF4g``3NT$84}FJNQ;^j)kA}e`5#FPh
zZ_`T$F>{zCT{w(ULr;8Y6r3jLE<hC`DwSqMP{J6-E-X_Xe@xCB<Xk6*z-Kl#h5w0s
zgsL&t85^L&3LYi%cP>M3LujB^^W@O5k~{A-`Rd_F7I6GVCV7FNFvh|X{(yXbdRHif
zApH*c`VKvUiR4l#AVk}Oo`dk$l*mcEl%UFCVT3Pb9HH%1=9us|RLK8H&c7pvjr#wK
zeE*&tB0>ow9LcRvsUU#Qx*wE_OH7WM4NsZl6%~F?QSF%)jS6WNLSsW|amhvxa)Zl_
z54IEyG^O!fIpnt>FXaVHOBN~^FXa0)R2qm<r;d76c?7Bly5Sf|s0lPmz#)y%*PtnA
z+IjUtQHp-}v_NaC@R#KL3v%8k=cjNahpa6jH<R4oY@Sl5M?2sUZR=StnFi+2I(UX3
znXTQ73<O02eq@7+>9HuZpqj2^b@#k$-Ntq7O|_pC+fU9rAK5Dt_U4CWwM&tEFFYvg
zO*ncJWxZ)%K;}M)z8&*}?Cpcjfd^&B5{_euvSVqV|IXm;!IkdR){`QBzEksqkE&Y0
z+^Gtrs`|vLzSSe3tyk@xKb@}JvOFSIw#}bPH*HHb9TS_7hd;;P*e&ys5{~+GRZFU>
zN37~$2~(BbVr4f{`a4tpgQ6c){n{LVR*vfy4wc$>dmjj+H9Hc-ZtF_b^^0}=tIw|;
zN!0Zx>kf+6nt9WF1W_w}x87KMBUKR)D*~yCF0rCZp@^j%b)us#<!BNeP0NRqj+PbE
zhxWVnRNEf0ZBMH0pxAcsz9HFm1Pm8&svPT9&QS&VY-CwdmvXm??$#B<N>9?=nR54u
z?!KgZd&+%KbR*GygdY1vapld4?}yjToU<BfK+1LAb}mPfmHqR_7klufj?zaJ&8dnW
zv7%?*k@hyFyxT?Z_IZ1{c5AA3zgWAUSRdZT<>y6j3qs5N%RP(1d0X1owOS+k_9d)U
zkI}n5AMU-o7nHt4bw{G6BjM;wJ1fZ#kGlkv;0~K;ZJT#3)gv+p$Y2=a^AjaaiBiU+
zdn3_*JkfIEljk277^`hJi{~v1md93Z&%vM8`~)%m$ZZLkwaS_8L1t+1x`cnnV>jpD
za_5cPZ#;50F25qWx1~$UZ`Cc<E%(2_@4bCuN%w01$NN9pFS-w{6W<K2SLRQZZV^kj
zq~R%R70X(|0`%JwRv)s;E-$<GSq1*8m~&Jhn-YJ@9T44tm4=n)lkV>M!w>7aP`k9-
zmv(z@*%$38w_kMo(_qRTynQh3Ye_fmNZ0jaxTXC)kIQWJ#q;OD;jG7yA@1y&VXcSQ
zr03Fgor$i)iSEORx+92TWifV%b-R*vd*-3^0QPC0Skbq7E?F^f^W^;D`Kt?!=-0Z&
z`JuF{DdFlC`%iq{(DHuGdo^iK+rKPX8CY#zGbIB1M9==TrxwFf^lVRi$~Ov4jin34
zpx65LrQP)@ceChjPJ3wd72hphYyN4+Pddc5<DZ!Rz4PBXG4@JIX~dP$$5|FF_)@wh
zDgrA#D;JaQo+kp<T@}9KbvK6(FZJGPS;VdKR{LW6Q;H~~A}~O~2uN2pq-#3T4ZZ26
zo$2~c%zkKuygRe};*a8qs*bd0Ys%9tdb$(aj@&;YS25{%Dec>G=iKdczv@KE^Jmw0
za6S9yPbIt^qNDRy7S7@Qysj5tns!$|(Mk9y*P<)kv>RiAbxbMdtA0acc;Ul;cy+0H
zxnLoVHv94O|I)D1zdVewmvZkE-8;ehSQxl9xHyP0xc9xisiu8m(>`j!;`zh)z*5f-
z4^#4m(~EVfk`}R~Wm#D1U5R}-cXuvXvVZ<a+FN}qycqs*&oaMqba|iX-Int16umpw
zjB5iw9sJ2)(tCRTgwhXL^+>tfMR)tk5io$AA32lm1M`QeQ!o;j4*w~N&V8usOx5*@
z)F4#Zp~azP{{8TKVbRmOI`Hw}M}w#@H3Ycg&Ze}xinUuQvdH|<on4Dv%QY((SDQcX
z{HQZodMI64Pd(MVN9&+f``Y>Yo}bnJRc+F9?#n7CW}u&I+4}x#@4c4jJCWRSa^8|~
zH6)-kVr`VU0t$wMU4-L6?UMPOkKox%Tj$18^mOER8QT6Pd`;w@f9Y`wfKM3n<AJts
zdopa3m<nc+9bd&&FUWi;FacwDEnFjq$njDs6NBkhAaDki%cw|+A|JzqkYvfRayf`V
z3K{WW!FLS|YReYla*@WQ44$wkv;HUc^t>4V8vPO-LxsQ&bd{xCe$nMmxH=Nn4!BQ-
zJao0CTzf?qwgiY|)QXN;d4tP(>=qr}S&x09qYrD6+qTZB9HOoqu{R?B5#em(e}t3G
zBGT&=bbtxb@~&8+8t{SQVJZYxH8gWadi`$I=|aRU&ZJa*V2UfHL7@h0Vj4Mj3z?Xg
z<b;G*Mw?i&PReS;Q5mc!h+eYEy~8jF8OxN##sXG>B;50c1%u8rB4n9-WcKsxNFn?q
zoK406Oa9a`z+(K2#=r?=1DPeQf9o1$nCD^jfn@cebUB21s&7p$PNu=`eQohIChxOV
ztk}xreLBU;PKb0+CtFoEVD^MZ-f|yP=Yd&k2pESXi#!7u%l3({P!uIeaB{Zhi9syS
z2YUG_)t%Op8{8vT1zTza0I9i>mDERUh!M&P3mIe`gNqpE45Xoy=|*71-a*og%BaaI
zTI^6jZXt$h*R`H5O;@z*qO9T`?UFx)v`8lfSlJ+|!V*ei{v1s`H_bkVF)L|j8=m;K
z{3t)CFSH}O8{B8s=O4MYB&=K5cLuz|0F`o#oa5xsAQq@2nV1?w5@nXKMb;7)?$Ntd
za=w5Ap-_lb0)?c2ugEz?&VQj-R^Vk2nv7i+U_u0lFSWG*t0BPu6zRCpP&gb6ViEcg
z;<EvGNEVSJ>X|^!WqJX64fpG}xJQSN{t69mu3bL8&hBe{@;!0>r7u~)ug(@Y&6VqQ
z7PIqFg^xs<*3Ix^XD#vGax6MF3hBvhGuyP+@MpcIr^-_W=2HeO0(;7eB0s-mDKy)b
z%a>=~f8)J3R*!vr=A$!-)`Mchp$!f%)=P`zw<{M`n^s<a@69#y+UWhhwaY(oC0b92
z4JS7^L;#3qDPA`k%#};{Fx)l@)PQwMfw^V5InfHawmn~Qc#wxBYnLBW<J^TK*_b3N
zQ}E3ZY@jK^2J5TvWUq(n+BR1Jff=0*E6&si8AF{WMBW9FZo|DSr3Dbjj6)cxT7?1y
zGDW9katbn+%*;Yi)|h641+*b8ssIx(obV7O$U6`f$1qQM05GWoavmaDlvtgRAFy$)
zdy*}CZ=6fpt5fz4(cZB#EZTS77)YC}DO0&<DqkL4Ye|^O|JHO^h8PrX3X;ngYZPjo
zTxk!~JGWv{iiqmSIBvx>(|F9*Ooiq>7G0RD;r?%`AT8$*>acNUSu_hu{e@H0tYesG
zY-Vy4BEvIGZYRj(MvEwi;CN&@JSx{sc4;f4YlHUsZ0*(}s7-=LVT5)o^yr~0j549;
z3XOT*FlJ?Xu9ml)&~Po(*JOoGr>^EJG+eFF@GN2)o;IvxHpw~wQd4N~>~ljh$%jW(
zWFp*i@QqUYsTb{!tWgi48S+#)AujbSs+<tN*G3{3m9+BaU5G(tuq&oE5Rq`RYofeI
zs7?-0Uo$ZEHDkO0swV}1ZUlkXc+aFVNKk?{-eZ~=nmSwXmO7YSu@cp%Uy^>UK-i{o
z%{t|3--Fp?8Di=J$7h{gjF2=l&1AI{r2)AMSZC0Xfvx~Q^&Lg6z$OR?lGp5A<U2x6
z1ss?oArh35mEfVE0?@S-A@58UW_iP5M7~Uqvz1w$oHyjj8ATqmCF&s2MEk#@nLzXC
z*NUu<Cc0eHkgDkvYdU4g<A&B$!)~!*H$Bxo^zC4f-ln3tO#b(^L|J>fiirR_3u__u
z33+GW<es`eC22|PLrCrtFsX^>s<NXjF_Xeo6O$nB4~pg0l<JxzL`kEJjb_?*o<)cf
zy{(N*BvG!orUo-d3=M5$sqew^(_*N=eSrXbR-8~xP7NF^NlS>&)+NbsIcGs)+wZJf
z>i~rWSBhyA?Ls2J;VNjo6iGTdWU0B6H%~4+|NS#~fNbe^Z+>@aBndd(>X!il<B;%e
zBn{Z}0fOyRi$-!XP{BAo7E)CiAYdmS%zNc*;V{*O0SM<G=>@SAv4w+X(YG`0t^A^>
z3VX2Iw{FHAn=5Dq{i3&fy^tP3K=G_o1gxjF;xFyw+fiU{Sbp*SSKoVe9lK$}YUtze
zM`79+8|1E}f@o4`mpWlL{t!Xg>*&{62?$yAKz8Wy>xY~5!(l_qhE)~oGW6z)u&UZ6
zj|`?AR_%l^-FepN0x=>pss)P1Jidrs=v9so4uan{?qR{rTV{)%ZJE_u7O~MA^sre-
z&gtsU&siX8r;FxfbmC(!R%<xw@(Bqxlb+25EUVh$hiO89b>0;(BzqT-2x`L+QgM0x
zcxWZ$ry*u2(VLeU9uY&UJxZ+9iBWh3Fq7cf>}^(kyvznjp?=J)c&y&B8nrCO<J2vg
zWP4N|GHR+Jj`$X0-Q-<};Z}oC2U^$jE`<8?g7Bzl?`Lmgz9(ZnHLcbI`my+eS&UND
zuT0H17EpbgjUT<5B6qDMH9h64*Ka(eu9+r2wpd7jDYGASC|6U)G%3DK^YyE7Gk4Zn
zx?^4|v5=LhEb=IkHeGhbdQ@K=FqYc0f&*>PtG>zHCk^0jb3qcWU{_9RTTbeJHBRP^
z)YRhDY6!~Mq53oTIcrv~x^^`n_d@FpE@2=`XJ0qz_jwj0~0K56;*GdkOlczNcW
z)byzHVKq<v@wQ2*72!JVj8L8SgD!lg2OHG#V#ie9CUelFC*cFR8>J1=Bh6|KvD2z=
z;;ib++$YXu{HiY_FE>GOcix5X(3|tRYsHubZfNoioSsBrP@AV&(r3CcC(h?p2akMl
zMvFZoADg3z{@b@_hg$A`h4$222cNw?Ush|Dxo6rFy`{6}^G4E07TR-KTPL62u(e-N
zYqH5$(cK>qw?$2txg%7sb)X#%w8n)M(4B=!5e&*Mpfn|l^bC!cOLFL=pB{%g?^Uq>
ziE$4=_aeeGy1P)ho?>q#8_|z~vCEK*8F#l5D#HR`05A+Yc@oT~y{;HyBolxpiVvZg
z>r5>cM$}#pLM8;VEmM<{=^~663b6jl2~$+q7@S!%(cvbc*vzCZP#tEtO{T9?(*?S-
zkg6CZn<3{KISfJCMLq&|guQSiR}966gCt@g=kx}>+E1@aGq1FA;`A1VXB8!1M%uMp
zmDPI-5sT4x3zd%*X!J-{wb5kc&7!nZA;cE&DT2^IxzSfj71^H;3xbMm!>I5xDz%B?
zouV8IBIA=n6ZzD}L)<JCTvUiOaAg@2+Es-=BIhPKB+epiBM0Caq(rXBQ3(c<Osr{b
zG7j@9#i15uN;EP}A=8RXRAmd*=tqbWrR1Qz$X7PPsmK=O!p|D=S%oDxdJD+duXD9#
zOMI!4fLIbpmGp@vee;%dMPsU>Tde2?Lp#fxgP}ew-H|NaHD8#n-;%1|E!Hzk)yFs)
zO`@x5`I6}BTrK(3)tj*PCS1KtJ+V`)>Rhc5t4Qy)INjKmYTPF_0y%~DY1-~e*&9WB
z<MO3X?VZ4OJe8@ktzy~Mm2Zh<{cDC#%XTLmyAx%*f%$l9mR?BJ_KW!Cyn5)XUp6fF
zr<(SNO?%cZL2e=GgO)3){Z`hcD*MFBKBhJ(6WE~_I``h3=p~(7J0r8Vi4|=t{U7eX
zyI-uJD&pg7Zp|&uE%Tti(=$`QER_WgfIYr5cyo{;k$w>zcETn}27#%nZjqH_Nefd`
z!2~a`qD_kr=H~wQ_KOZ!ep7QK9a|+K>GEodyg=f&?OeUK7JtxvcBv&*-TrBHd*b}J
zP$SppO<PxXtR8sKbY%W`%2EHRqy7_<qIFz_M#N`VY!@rG&pRI4OBeR0%G$-U_LblR
z`~H6eVn9U-ny8NEl%rR4^!}@(5FI#but6c!SHBcrc_r0(Ozb?C>bxL!UP#uwFn{**
zYEtWEA1${F)fVjB`b7wVD7wL@GqhS!vB$+66ivrcb-Ts7-D}rU2hWQK&p+^9z&rcH
z+QvIC-+nn&+b!01le+Hdo2QpdcZzQpuUJxTN5!_IiHd=wgH&YekQr$yL${l0%2EZG
zwl&FoEZ0BiJ@JVl*?T(SKZDvAQRTm3sj13<SQ%K^k!n9KwjWPaoJcxO=9ate;Lx@5
z*c|!P-ue*g(W-<(qX?;q;Da4!J~^D+F_dUNhgvv`A$U<<M>QqIWo?+ebN1$0t(~-v
zelbzj1g3d8QCx}`nl2ToD{_<(Hgbs81b;Cc_upVDZ%Ta8AQ`6JLE5AyT@uVUAP!=0
z(<2$m+N%mA$K<0ebA@x(xJ4IZE<!lfKJSVbLF(54?G#=8Fg;3xUhcFvsE`|QaQ(bA
zj4o4!xMnF#ziwH17V4D?4YESrl%&HTe^qIwG}ZSTeHG!+dU@%6RiRpM{ko}dL3iLL
zH2hDk9WY1(a79h`g^eThEaGaITUK1ej9XPs{G1)JGz={(mZmMha&ur*IzZU_bHsqS
zZYS++%kT?Z$=41C_C!c%Quq%P+DD;mGrdQT{q)#N4y?#?0!+?RCQI~c2L=3?e7E69
z1po&mLr^kYl?+!T!!@Z8-~;6=6~at1^Vn%0CLuzYN?|;sC{ef7?UmhSnl2IYW_@}j
zsxF1RI88e&0T)br6@ojpi?vG-OX<96nJ<`s9!6Mi1r`HKFWh<M_A3zA>$uwiC49$E
z90}jCPkI*u$<m>lg-qdh<WXtat=7d>Y_JaJJEv}*TDY_{x+E-wmtT1QmG@prZP_Vq
z*_qn1U&PP5Kj}E2Y5k@gEusU0eMv_k<>(O|J*%xr#~!@?U1#`6R=;1m&P2Fe-8W5C
zb7EhQFOFj)?pYp5dfOoK=Bd1OX7S9jJ?ZJVSp>;65Le6RWyRjRwtP}5(Vo5`6}6sv
zoSaH({R_wdRMa#vLSHn1#W=gp?!*YCXT}I6&-$dX%<O$sR(WgR;=Xk={Ip}%GLC2=
zJ%O_7ddGLu_mv$_G6|JR$swT@p)|TS{sc}o2^EYeJ8u9Z$_PeO0a#Elw)#vgD62jT
zYEvVrW@2(Fq|^+9$|04?<8*+DMhj=j>@_2wN<}h56q4{6e$`M8!-`gVw#%GHgXU3E
zu?9Q~!%A<rU=&kOz4EU)OHA7p;=q=&C<C<Lu?uSo0lj&b;LR|iuwoJW$N)SmI|qWt
z*)>_7#g_V-xG{|?hx))?fy@pAD-5tRU7%TLwTWpfA~ZJ%1IfD(s!^OWuV4ogZA%yO
z(x{lfgS<4#^6wxojduDw$V=O!7z=OK(#4Dy-!*1P`m?64NO&5k?hslfgX%J5G*GIG
zW-<)(1&aPM9Ldb`WJ>|#ssM8fPs@nfE{a67IH?$d;<Dvr*-nxR;8rX<z`-Jf!I>tr
zN>2H;@(A%Ew#hJT4F`@qfwHk0F&vEsy0V94V`z$yP4=|Z@U!pH`t|=J9q=;(cZ)UV
z;8QTP&nx}Q-j%APg520$@9h7R{ST`GFm<%LW3>&u{%wazD!6!l;0LDxnpSt|ym_16
zczo%ysujn5%i8PrV{1Vq@(?U<MOErsmd8>pyTq1VYh$Sc&x;41e^7UxP^+4Ucm-?K
zyT#TFm|qVt|AE!_(APx9uXl*eJJyb;_MH>=oqOPeAsHZK4{Mv3Uy?VmwU<)+pA+{#
z_n;OQX#Un(Eibg%E-qQ2JTcBg!yspg(g5LkbOHe3f*YQ=5fU5R1fKJ+3@35UI9a|~
zoVaFAfB`6SZptLh&QYlT8i7a+{GNl@LEJoUn6pem5j1WfpOL^^okbA)1I*-(1MK=s
z15_W0C#qMr@l7*(r!AP7nq_|_QfnOg>=?S=s4W@UF*N{@YNAcvO=5s^KV}32&pagC
z0nvJo37rLs1f0RcF{|maoRm#It|2@Q`H&Oz>NGiL$T>;QSvZP4mn?V=2lgn`k-Mk|
zL`BH3c2G7k_Jj!+ng3h;<R++sYRfd){s9>QRD(>qCt<HiS2WL`gamHN*Dd<GSDi`U
zft!PmTDGQIc8e{$*E&C`Otzc{ia$TNwCj;P(LOJ)PL*#F%eO!!pd2azkKC0@E$anF
zU-8Ye03b?yOW$Tskf(-hb`#KC+ilwyTtSsBUER7~fcvB3>MzW=&pScd0JezPoAx!%
z4>Ezj4zaRh<+WtxUZ{OEwxk;S#KykW!TY<Cjb}w`{k(JGbws;ky=`5tO+xR&$r5c9
zE4QxfPgd^6v&*-1IpJzaSY_d;fMF93HUqne+Vu@#ucOo_<oq!;=S5^dLTJZMd{Izg
zK5t0ZY+08*z1tPf!6UNgQIYdYGsRi&Z8W!PP#FAKP#8Ty<Dl|Z$708_2TBKD6(LAo
zA*j$CP)wav8_TFgHYoNx=4RXUx!JshNgHj(>$Wl*`59ifLvrSf&1YnC6KF<2$i_dy
z`7^`!4Bs<no4|R}H2h6{W|9svKL=z!BRPb08i<3UluKO|#tnZ0b0aYtHS8KQ&YR~A
zFp*#ImIKCjwG{;tbQ%z$#s$b@QVoIw3{pTUA|3z~QsL<w5DVejddI*A$pwp+;VEGR
z>Wy?*63-ynQH%)fBDjyBxQ*X~^Jm6v0Y5BgN}*b8cxaTUFd5H8{M3(~Gh`Ng-gL8o
z&Yj>3-YvLkq@|iIdy=7xX}kh@$pa0}AZvuu)WV4xvP~-*x{z05)LsH2BnN5zjVMbQ
z%R#XrbVCLmq#}}5WpMj!AZOTUutUaXs225aXi6SI!2l;7R@N*XXBuElD_4`gp4A4J
zL`+t0pFj1mY|A=l_7npuNLM$dD{8+e#1l=s`Y(#e$C;h7EYLp{b}532!}L)OJ&+7s
zgsG{pWM`cN-9nrtBCjaK?_kGkFa=rC+9ixcD#F=Siq|4%uCDv69a$4Gc<|e3C*fss
z7<5J5>;HYgSBJ8JE3bar{53Vi6jJ=t*U-Hy1NZt@?Wt`i#BC>%?I#lzr=T!qDl95~
zck~}Q+(5$JJpl7spx6@Sba{Mj$6DL{*2J#U0G4(`t7<zzH<e4x?{=*;{}1hXpo~Bp
zSPm4U&E`Kw<?@Co>YRUJ;F|KoXx8W<Tk5<T;9kQFoHGILfFKKuToph%Rh@GvV-9f6
z+odK*TPb_Eap-PA-lmJOO63YcYW~;A`8_z0RAsPmX0xa7lgx5A5`f0Q-z?Hed2aV8
zG?O&-4owp#5$E+S4cs|%`^<_b71%8XcCYpS^uSLJ{Ji}1{IS1lX{Qld2PwA(sKm7v
zv#t2{E)cxEXAJ8O&Rv_c*$IcKs`)Zk=P8h!|DDSHeUz(G3*0iX05_r);P#2>OS-K$
zJF<2t__KB>ddk_M){7`8Lps2dJPfGFQIw`#>XNqcIf6Fduf|MFZq>}rXR&Ou_Y~@f
zD{`w=CKp@GZ<czq9nBuXnJ#QsbLi)<yxpvH8}EF}JZxj~U3RRKF3B#BfI+egtheK7
zOE`^wZFc-6nl6tFVfrn|5RmJ}jzS}vUD%^^b~?n+_DICgP;@mF+pRR>LKbO3SDOVn
z=n!t%E+`W$lo^RqwYp@GZWxI-!EBLk9_p5bl-h2b5u~CSFU!<sOoJh&_BEMfN%V6^
zs6X??st-nysDE%FFAX=q&TJimR4!wrs(SadQ^?d<2E7l{<U39dEytT+^|angj%nC#
zW;*4t*&x~RMCZ<t{RZJE<++6%!s@Yk66aPekR+I-`mZ??j?I60IV0M)Oc*c`zOOE7
zdAkqWbJQg*d&f}(7TJK-_F_6xD*6*-OdD^;I`N}?ES?!E1@n;@t6gGE7u!72)qb$}
z#OiipqkZn{B@WWLo98lYLQU8gYoIFTYvZ<k%aC^ZmL?Jo#?9I<w(kcYYa0;w2i6Ya
zi#4y>?_axr`IAeDftMb5iF;^&2u|wpl&?#KF7okI{|TtRKJc8(;zTLd!}%x^x6~H{
zZpL?R%8Ak}z^Nj<2H`S#A7mf4bzFfzM{&m`_oY^@rjx`D$;^BC|4}m&jF+WTw_KHU
zwI{6d);q-ZG0Bs20Gw>QIx0C?AyJv{A04I6RWI_>gxsh^{j#^^50n_XsCiY~^arqP
zI%l3N!IqqzpOPwL9S(#64n%=skS%11O@Q9SG697Y1Y_nS4wkmOC>h{}Z5kBGdj&aL
zxET~w)KtE-I;!}P`U3Z8aSo*wHWS~~h!r?bO`m9h^3>_h2qR|jfy^?p|6}CIpc-KW
z<*QmQG}8ga5#Wzj#sQ4u0w`?E(E21^v3Vys2!ba|D=fT+G9uEAN?@arAwwZk<fCKE
zvX+rOc#LKd*!)>QMp@PtqvHD1o6!$Z20#qp`jy{5kg~Uemkabb;cA0{f<@;ee{;&;
zFZ%mezn%0STyTQ-fAi#{veradU&7G`H|^WDS}*zz12eB^UpXyS?3_OdoSY17r@i&S
z=F{c1>xEoX*9K>50w~C^bExCEec%6X%C+@V*Vc!ynBCaD_Oj?cj;TqIHJHVKC13?%
z_wC)wudSX;*6fENbD;HCsb*FmgB<P}hlT)b4^R^wBj-3doAOCm6SMYQrFeE~xqKLi
zr$BQ4fu_(qh(}mEaZE~~)<ql>y07(p$?ofI26M+s`G>x{zICWzb*yb6<@OEof^xF&
zkRjdK^M&1KuGO%3`0-tyD#lqUq$lX%Lo*s``0GXVXj2$1OtfO1(gJ)_xGhdR$siNe
za1@o(E_H9*NZ?H_$aD$ER{a<hwqdCLU|8e8ZSY;_0L?<)svL1w1P}@$=bP|XHc<&u
z54U3=RK=#L=^#29@Oc;S4B2=q1EGpHiNW6DC}$TyC40yLRV6pnlbnd{%gYRp`k~5k
zb*7vH>RefQIYaJ{TRG;A`SHX|lxZnTvyQea;mbCu>n3d^e<51R19ARRzC2Wh`fsL6
z#g;c(;y^9%<{X<>DV4}`_xO}>lpTnBc91cKA$|rKD-whw0V??}3&!cekUFXXw2-m|
z{hu)2^B_r>wf&75S|A1J(Q=_OKoF+31rWg?3!2oW$RGylCSSnRvf)!*)|Wm+st3si
zwT&Q)t!0R5On+#3Y5IyetTPosp^ZVEd1@7L*JXC;L!q0*)y-9B)H4_s`e-=}IG0+L
zO={;?-)HVZKjP}B2~0F);;25v^s4^MUGI1?l}v;_)9REtWDgK@WhTAq+oaAqG1aXX
zxoe`#o78QqntSGsR9Zg+J~t16N5*h3g28ck4vz39F-)dh13hN}DP{dQO_UQSBjc17
zIuaKL9n16_Mvq|t@;-_`OAgyny2<wja+X1Kf(&I4y-+DfDvOPWNOhmj61SA>ERY={
z9cAF5P>qz5JIoH-rui<Pwk?b!YnYB>pd%|kLmrA#sSHXdtc?*KvcYtP50JI6Xux_K
z!3HE+`Rg2DJ)IA%r)yeLH9N(cov>7-0q!j_$ew$~h<_V}(kAC`Ceu2p`h#NqK~<2=
z_j$QLUD<T+?3(v}MY7`*C`VpmvyqAyjNPyk6t;=g$m4C-!-_2$_^$}QF%d(C0?-K<
zKmp|AH&7VxguOTSrtDikwQnV}Is0z!OV#v=HGQy1a{8mwss1x!|CwaX+4+ID&wlQQ
z?Fdk@$g;#zOs?d1v3@(?k_Lt{(2fm@@sP|*Id+JS9Zab3Z>=5j#!S$eJ~prmt<SIl
z-19Fzs%r)&Rxt#lJc1Y)6G1uI_<=y7sxE(aXXarBr>RegFV8T8cV=(Srd$Eh6<7%*
zUHu7bzx)-9aHWBlIT!#9B3k}7y5MY%-4M|%Zu-E4NVp(%W>LSwz`jDIW$Hn*w~>N@
zw41Q5l*4bbzjAC!z<E0SAblN8E^w~gWbg+prL?1b;d-KR#~RrhV$389$YCl7$)LrY
z4%1Ma737nR;^?6^n<%7c^busCT>AT=-a5ZYOpS)2<_Muad@fyT(-tzrF2V+aWMeNO
z@-bQI$K?AG4h%^YjE18!DV_FJRZYEtsN=F(i!A#s!7%{`xXa7iY~K?=NY~dU8m2B8
zKsi7#0P+V^<1Lzq?N-r|EpbazDoX%&kLcKwXS^k+w}>l3t+3(2_{VTGOyD8^0$<pm
z*L!+2V`kexum1}4;2Bcz0#`?a2XxgN!PC)$Nx%Uw(4$WyRD(-0UxH8_C>o(U)U#X*
zF(W-_nxl{sm<dCb+s`EXqU>xkW@@B0>PPopn+ng6uER*!4_l3XHUj+2)K9d_#x@N&
zhjC)n9_@)jvyN-t<G*(H>>%X@&W0B0JUb~pFVzcV^n+qTGh-68tK2+0S$z~ELaerX
z{1-?Zk<~f3u37ceillmV`eR_EgAJzGOO@prv-6QtMyE$cab_EB{PNdoxyV*q{~vS!
zOd7b<Gvd^ZUIPMzLx>@tvqsi)g#Qdj^2n4F?PNLmM79I;{vaGs(%wRs$o#PHk#B}x
z9f89P$<PPLc)Rq(q-5>!O(*3Oi9$3f=TIKj$!ZSUclCC$di%U9?Wvc~Ur%{<h@Krd
zL&dix<=Za$wyzbXcD*Fx=X(iu`99AW>FG{a2U67s#OedgLQj3l+YMFhba`E>yiY9e
zOIP?6n}n4O@~K>TR(jY%pEIRRs27{k)L@(LFuFn@*fSMW0aG4g7wkk95MORkBhSGB
zzmdU6KStJ)MFyjCl;fphvOF>alLzuk)pk+#W|JG^2DN3q+?H0Z)T>xtV`povzLqRG
z3at@Ms#7Xd42tG_F->>&#jnH7-f{rWQh45_(y>0k2hl~#+W@y<cnwe<qeJ1GBv8wk
z-m_4PJg7zUF1>|ED8!Ovyk?MfrQZ(FIU*#S$-^oLZ++JS8k~7TV?$>$RO<tVnop?#
zNkl_B@EUab-?n3s(iX@}Dkep(_Ey2$btc#+VJRHEjol#^!0smAL3iQb;bdC6mqKP=
zM}&tj=3QFvn-E7sIkL*s)g<SO3F+RXophF0-mPxD%+!sBMr6w2OL+IaQnfa$Ppmj+
z#rjR_gp$-2vc`*ki_}FKmWeLXh1_ulMOK~XOy8unapErZ4D|bX&n)_8&NSJIGhNj%
zuM$?vS7>2syfVI03#(G%74g+94B8oLep!qg5D?T>5sV9lx914fq#m5J#b^y?7tTqj
ziD?L})?aood+l)>AXBAX4VX7?|AmPxb^C^9ixq6FOP-~(#;(J&#a;68k!o0Rmwb$*
z`s|`}R*6BP1{8P6T5p+WS+z}h4p<=Kd6<?LEo<cnNIc6~tIt~2Y5?>eGu|tzw_KJO
zRS$_(%PnV8U|Q%^<(oXY!K5J=iq7VRUd5rFQ%{7-ImkQXc{DRKYR+uVFjMBUuC81O
z(o1q*tRI|pcjd{FUi$BE)Aer;f-ROURf;yq5i7m)AHOvwe*E|U^TF8?wo7+qwKUVi
z47i0)P>kfJ16ld31Ic7z+3#YFl+5FR2BKtadOD2#Uid$#?*D<DU9>SABHyRvjKcwV
zJQ5Q+$X5vHmT5+|;t7Oiwsrh~as<~6=cd8hGZ`3viQ+oh`JKGdC(t#O%Zh|1V^Nqt
z5A#yNBrJE^nK>P~Az@j3oaaN6GN=<(lbTuH?Bk*Y^fPckaTqmUa!^@H^yqBelTdl~
z`|q*+3Bw&oytjI(KUK3$tl5^V=}mh3=Isxg0Dsrd4=j*oq1%(FX#LdHx-#(LnY(9F
z9cMo6IFqhuU3o*S*pqPYNmT4fyDLH1uBlHq_R_DZKV932-xn?`GmPrtY6CLY?B~91
zi`IpLg$wC2?^5#*_bO=jO2G<L=6V(fU^Te52e3y8^a@3HcN*%9ya-#(Wr39!#Ihds
z{z!dp?nyQ86`S|29bUVdY(Bg&h-x%+rTp7PKWxr6q&%&n2j+@J&sMeaC&Z2upOg~X
zUb;Xw+_oPv$c(&C44(*z{u9am^P;<F!Jeq?N!JCGlN~!#y~o7fWA{hI-jkm+ChG<l
z?CI9Msn(-n>(RVo$ZT?3X~NwM79y<T7QI)rvNy5oY+~zR;=+p${4aq~vU%mv)(y)8
zA~-DW+T}9XdR=s;OPZErVo5uNREX|23h^UONlu)G<rkoiN^$DYY!s(?#Uz$=sQD~7
zQ5|>da%|;=2d>_~b5}m{)GwPv&zAXPBy@ai<=}&T&nJE7=Li4JQMI&Xx%TId?k~P=
z<eC+c9O9NeVb%|(!pYDePwLVjcSV6FPEP}Fe^yotPBWm>Y+<AS@)R#vY0fds^pD6#
z@?XMD^1V$C!8^jc<g=5L&!4$Qf#lTFuqLKC@n@{1zv4{gw)Fx_oh4za2JU~vFktu<
z=a=PHa3i@D+(>Q(xAg&o!Mr`gxY?dz+-%Qc+}N`iH}GQ+sf-(X%3|EmV-DkH!%jif
zoTX&lXoan!@`iOY?#RLBnxA>+jhk;Q9V1zugsW97YWr0o-fh5qpBx(}l9I1dNr$_V
zZsEdG)56O**VDW_y3)5=up9wbF5&7Ii?;u&5Ydz@C_%p&3OuS2L-<(^q_VSQ5{rBr
zg%nggWH4`AKDqMZYTuff>00#-K(SS9KK>O)uVh*fHFjWBDhvkssnK9ia*a-f!#LFu
z$YQi><l-pnF{ubktPq2MTa*bz;UMJeY=jUsMPg{8p4rNgi&04TVF@LKJEJ8oIoO#D
zAnHUyLR28|SRlAl@-P#aSdy`-qI_BCP9O@rRKs4$W&_!=&0S=PUl_ru<57XYPsy&t
zV3K!?Nk~wn<YvMAIBGI}5r99>j-r+i%&yOW*QFtX41bh4xpJ)(5)@&G?5F~g{*dh%
z*0NmK_7x1h9vYoNow`PGPB<tlQ_}+R>7^}tab$V1uB_9oiO?-IKP4_pLVF}r?vNUu
z78R#oj0o(6Z)WO^83~Y01GGOaSw8KVk)#7pNx_Ip7%EC%*U&d~d~JN06a}ILh7`~W
zPPR_l`?cwC_GH&6<B?HU;Mj8c<O;&jq^@U5tq{SY5y4N1dY&m!G|HpA$VD_NFEmiP
z)~BSqIx~V1Jj(_uGmj=ct;rR`6pWNhvOcoOg}$fce+_3qT+GlPGAWx;GbSM<b?POT
z2dR7%xdKN9<t}KUgail4<{EUzD@z>(#EG?F41iWt2v7pzz6kAbl!YK~CMc=oVhHXM
zNK#24`m#WL6RAqCrgHRc^xnzd<J6Uz5Kes&h{G>=Ss07dh3ST~W8?(Al&cv_n$SnS
z?c}f>=oJckfs#V4<`Px|C<VSuZ<(RG6Xbi595UJ|Sq9lg$W*Chr799!mSv|HzlUv8
zXDI$zat7f@)_wR=Y@Y{&`-qGmOw$4^TQ4ve3}09{L(|`L&7X0;&p7{oEO38jI{cqF
z$7h`9GcNG=+=0)yt)FrGf5Gkj1$XK*Zr3lkfzP<!&$xZ?e`Pcqj2j%BFCCoWq~SB}
z;8(^1gYhdXoG-1M;k@BXqY+*daRP4-DQ`^%;};y9uWX#*C4<Pln48hg&$v!j0Q8?q
z4IWa)=Wt)&YB3yKfEhj9mPgrbh2Nm3^-9iIcB3+7C>0H*iOP-#hR(;vX|tha;reph
z21h>ZPsXlw7PvlUFEku6q!k_00(y7^g9k7Lux_RYY*?`4SIE3p&SKjrVqTBgVAm4C
zucd)sNkTq31$<w)IYTua^WdmUmsT%Sr;E3IS%kKF?5;O7%nR>azj^&J2k+wn!xe+U
zyVOepCyzPuKYq1fpP_ZB^iI|7s>d9>kH2fEH?%GsyLEE$<gIgy=O|$-Knc!R@z~gJ
zs9o4{t8KCER`+7}28T!b+KP30@p#g3&1l%RWF~!-JFeTVmD)Ai{gYpE6v{@({|_@k
BII{o%

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen.cpython-312.pyc b/model_executor/models/__pycache__/qwen.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..561d08ff6bec221e6df1d1cf9bc0b2fce10f139a
GIT binary patch
literal 15912
zcmb7rYit}>mR?nNSHGLh_p>RsNQzX8FFj~kwk3_89LW-C$sWs-UJZI$T}85`eo$3S
zJvhx7?L>i_V@*tDF)J$TfoUXxY1qIpNPuXQAT!tifrI=A+te(3Y9*|IagaDag7%Px
z2b&+scWynpNjK%)l6d>pxzD<F?m6E*=hT1m`P>|?gzcU9zd68hzo#4Ha_E`$P7B99
z;6yIWiM(h@@L?Xm)`TT#4O@Al*%G#-5EfWoNZ6B(u!H3-31`@ea(lv=bcJ1v=191c
zp0J1Ioe6K!7xuBdD^Zp7hy5(?PE;pr!Zpd-a4oy{B<hm&;re7lxPje!6OGBHa1+b>
z63xk$a0|;<C0dhh;kINT97wi@+ZoND*pciAcd&eQBADD6-pTSciOytKxQpd$6Wz&O
z;a$m|a1Xn$OY|mphj+7leIk_H6W)V-gV>npOZJERlLO%acHfj3Ob&&Il6%8@ll#K^
zlKaE^dCtOpmlK=sa$<|*x;kzwX6g51tCkNBvzo1_+4e0pUtl!@sM-E4H4jRDR(A*L
zc09lC$NH4QFR~UvwAlIl7U4szW+!TPNr$8XssCd^f0mbSTSDD4N6)6lC0R<vq=9rQ
zaXWbNEh!aDrbQ_cjHQ!P(M<eGLJHoDXC{MZrY9!isfm$j3<N1YF_}>Yzo5>>LcHoc
zn~~%w>LPECD~WiFa@OOi+xW4hQb?;W$Wlg*##54bGMyTaPk`n+p2<k5Ogv2$8kFg&
zskEGlWYThMGD73W(V<24oQ%dMC9RR_zLZEL^$skmcS6cUrlukja(a47?WQ|)sHEix
zdx*$XRE{PRQX+CQEhof?5}%=Yx!;H<rjMt@(dh*49IubQF_xB-A*<RtD#;Txzr=Jh
zbwO`?9#f9WYR$!Sm$s5#Pv6{3LU;c2>4|toxge)wl7g9lRC{qcil>~xa;8(}!#ioV
za(ap$vC8ab^o$f0)y7NdSoDfPJe|BEi6RyseKm;Ecyv0EiD>U2l1N8Ii3X`Vo5DLt
zN@6^kk-o<kLHUBm`$6~KH?*Zy&Zl2Lj>p&UE?fxN)TX#XE0~Nc3PxZnmXy$w+MA4C
zlOj@bDswv$FY8-hVI?vijp0?@Rz0j@B6?er71f)J-o7G5retY6ek-Oio0c-Uh3xt*
zByU4LNgU)77q*Ce*y`e3oahm)l1;SXPml!BF4;xP3}o84GslhdqT{YF>=2!j^J;B*
zw_09wRi=;IME6}=*q!5U@nO#!T*#|Bh{;FKUzo`u367`bU}jPZCZef{>F9*S_&%Ki
zR|eDLtmNWNV^8!4Z%)Qzlc<u)fRUA8)E&gNJ<|k};3uqVaDOm8otc`>D8U=?Xix$B
z1+jSX8;m0c$5hW`Tok1gV^Fnb(`pmXs&2g;ja2V-;wJ15+C(vZKeJV^BPCh2{u?B}
z;2&@q{A$;nkmY`kx`qtlxs2H|%V#YU&=51Ah?cDF6YIw|tyPwb=(3OFGA^U9tR)Mr
zvZY?BH>+s7_9Dm0{*2FPAqrXRUvQ%Rm)4JoBXRwd&-k@mX-*i;Y0z$SA;;JkP-EN(
z_}6wN9#!NX+^IHNyqV@VQ@XT}#IluqIXJU(F!&ltGPcHXC0MFPZ#tE}IT&)O0;u3{
zX9SEL&qN|}HFfQsz|M(GPl0*US7l-{)gEIvkUG)Cv~*gQ)3RK}3h*W(<EfAx6Ot0+
zau<klHzm6$VN-QQBC$kNQ6dqA-VCuy@Xp_j3}up2LsRjoflL&_CNpqr`o)(HU3*a)
zO2n@WP2J8+rc*;VAmoNL5hmS|V$;}X+O0Bl9qc$bbzAO7mowEmFAo||@&c&JG?G8w
z;Wnx`SJj*&?`(eTY<&_qSnxKjwDzsE^e<h{x9nY>{`ByM)za?H*&aJvHtbx}?t-^{
z;YZ62zqt&06X^FmMLXwhTxk5v)A6J>P^jIr^zu^w%E7l*s=vQ(wbWG=Ig77~n(q9w
zM9%he&pHO?RQ{G~hpeBLQ!#ph#zmaOxRdt(11`&5)p^0FK)+eu;E>B`J8PM>qMpfv
zrJ7lbQE!$<4U_xIYHaR_M^F44+(-Oa$SMz@n!J~iK_nrYypQs<cB(^X0+o*_v<v8^
z$pBg?0R!EP%HoXQSah9m7NyF|NbYcjhL*L4o_s^k;`P;r(40Hxn6D{#tKU60cW%M4
z>J8@jg1_$FAI<$}Vc$DHp0nln+`fXpI_H#!(L7|4_uyv?G76lTiYBE<M0H0<l}#ro
z?~O#T_Y-=FBN7qQF_5j07phgs$Z|cJGsaK_rbJb{rU>L$P@wvBevC<pL?rSNFYgCc
zp_g!sJ)zu5%_*VfP%b0+<6Z7c3oo4Ii&b3P&cgnKUwUeVu4fI+MFGFyjzCAzK{+P}
znu~I7t|_!MoNpZZimDcO+k~2hhW7&x14RzmrCq=3|ET|K%Ccu>!^JR?dDZB-^+(8*
zs|ivO+CR}RS|lr!1w;-01Skx<BuIA2F>Yx=D~K|v4bdS1%CekOa_KpjWFN0)>ckCo
z;ubxU=W4S#wwV#V+t7WL>Em{>3Tnp3)JzrBOttDGE-~@V7?TjHD>a>rOhUseYEv?L
zD>9W<;sgqyW_1;>sBXdp5$L2$RQ0mF5{o9FMO1H$fRHZvH5p^q6|E_p@d%V>8|^B#
z&=xh|-l_&5{J99~X;;QLLYRtT)&+6TMRbLL4a!|Lg|yKMRM!kdoXB6>4aTv&3h};e
zJ&c9^%neK9SL$&_t4D&9T_ttFT6hh5>9=w}P*jer6UxW>OUoy=kM;h_RZXVO=%aEE
zpjH@-lqJ-lp!aTPz3Wef-VLxr>s6t(=$OGOqMpYXJ41}iuF5U8p<1)Htni7`fc5Cn
zRJxh=vL4O(7&IEa(#$|@EY&e`S-bw6E<C5ZY!yu<4u$O*lZlbOH{%$LMWUHZ3X(Pi
z0^?M96uA*rMCx@y>-pKQfk46VP=&W6VmwLkv9v3o_oIp=pF`ch69)Aj&u{86R4w-r
zp`Vg2O6d7je+FG9BIa(B&k)r~JCBBuNyw0Lr#_jcXNo{|=sQhrpmJkg*qbu(ylP`p
z@MzkC4MyF{B>&}CDWRFln<uCSzwJPxiD6;{(ly$3M-#~OR5Oj61c|BXFQQDr>6K~v
z#xhM`XzL-B-u$HRwbj0hE6&}8j@?8EK=rKoyYl|7m7bBjf8^7hpZU+NIM1#4&lOtQ
z*IEYhEdwk2F6LV<Li1M@n!6S=YrU`J@xS>MP<&4sdx0QGn~lzm;%Chp%zJ}{nubEl
zu0msA{`(7Wt<>$>@HsT-uu;trg<frO_`@R~9Lan4QWrIio11v-I@+k>ngb7J@6RrZ
z`KCP>)BAaAr!int8<iAV_7-Z|(0s#VZzG7}2g+&KL6yel#*DhSJ3n`x1~I1g=1N@`
zrq+NaKX)<Bqq+>?tEfH$erJFH75N~RHbxTExM*K9iTc;bYztjXNW!3tb=H=(R)Q{M
zk^#ilW$tD4J1flEXC2sirc^WrCK;0zvUbA+!Fon*)HNk_SzXl3I*hurPSh&b3wp(@
z(|}H_Hy7sVg2u9qeL;`-#s9+v$Zd~JPN%LZsukNMB*<@~NEH}OehYc|`;;*B<kt2>
zm<WGD)vVXA-H-_nsr+@7zozmxR1fW(h;{~2?fO}WWRk(~I>=%`Wu{>>$LlcbE~+a@
zBzHJ~jM~NrZTH(2ez028H)qdTa~BJ>4G%*1LyP;CI_E>HwF7ewLRYyc0j{6S{bb?x
z($1xetNtM!bv3p=h~JMd@{9WxqpOX(bDlzd^MiBu&n<dZ>-*<iIr}`IT0_pKAv58N
z>RuqTu`!hk`Q^iygnWdOqm&#&q6*_UiDy)s7>{M-<3y&HDbq8SV3~Y^ZckD|h)h03
z$!R3zDD1mLq~rn>e1Zfhtmx(1I}3yR3w=XCVTH!#FYERRZU)5g3m{hCRCG|z$#w23
zx+v%78d{4U%6Yk_wuJ+W)`dg&Q;V5=V_(rn<SMSIbMaKZad**Ax7e>5a4Xi(Z7o+*
z{}l~V9OvCa<FmTv2Z!$;E(*wFxaRf;+56d|gYKN1+y8E0F7UMrcN(gr>BsPAUWWcz
zUjgZxs800ih|Z?tG#d;68g>J&(+vQ2W&i-Ht7riD2O0+S-rbVBa(|Vn8onHNiXNan
z4?}xi>>Z!#B9=XoNXM>?Ve7D?`4&a6>7-85o_5>%zl8wb0?{A{wm+#~H35;iv=9-M
z0MsYEAz}auOu<q*lhYYqw3@;~*i>Q@IkUuG4!yP+zq&LVBZpa4u+xw*1E2(K0VERu
zChQ-RYQ<F!n#yex+l;8U(%Ne2rYEKqW>*=o;<xFm)u>zg1wbPJY6Y~S_k;`cqmw_o
z0CrqsAHl#WO(~k@p9Eb~|F0tlfw>(Xkatr#&oB{0NguUi;DwNsc1WmYrnE>3HpvJE
zh$qr1)s{#__Tg}fLqP@yJ=$Mt9l;yiY8F)OSfPOt63(p2e(g-xP50JhVk+d+gmsDr
z+YD67X3Wlow7|M_E=MD^CZn53<e#CY@}H4>!{$)mwlK057|aI-mq*ryNAts@kL$;v
zv|XP!1QsqWUS57-wc(|l`$^M|g&T`MUe2sG9nN{5)bA{KYuCIx@?Pk5WP0-69+ugY
z_wFe)?bP-9Ce>c!BGrD+wb96->um<DYc)Gww66sZ<%5SF9nS}ke0m-Rk9vXz+Cf|{
z=`yD*DRB{pZVeRJ@RY_ydA5f?Lk6J0dZ#|C*(>Nsz2z#iS6EUFP|OwUWJ|CB-1i*o
z2P}3aZlA>gts->5J~L!MnKi|+Woo!BpB?SaaSMc+Wef%hb0uITQBYIU`!^_e6NzCu
zF{{b9K;3LO(R6xEiEng${wu2aBP7u0Rh+ke#nV=3>du`h1cL9MeRy^;xf&Rr8-3QZ
z=fn61@nzqmTdO^1^4_l8=)$2wbKrf~Lsy}(qtM!06u6eob<W!2&iSC~x_UnheGpn2
zeROEG^Hkp1k@L;pqWaE<&c*iC=AoRg;14WJuK0UaoIRR$w~md;ae5lxR@F{xRi?w4
zUT3@2ROGO<Oiv}G=jd~SEHWkc@uyHi`rOI&@6|QArwy9CI#?9&3)N~UWe43lO{MIj
zTQ@0Xs$YD$Ug$M-GV*0QneLn%^mYIJ{>A!yE${%5+)&fG>36ep*@ZXXzx?p>ia(Th
z?fKe+GEHgI9Ao%1FRz|k|6j<ID{X?X@4=(U3^2BF8#AZ~cdNq8YJb&~lV(q3jImdu
z!#?kXDs{s8Uqu%GN_9l{HgpfnIxc45@orN?E8S*niItAKMc-Ya%tPSUl=&!m!5CY>
zQZ|YwQ9WdpHLNd0i5Z(1o0TKQ%*4U}2K5*G+t#;jZws4D@IdXG6+2X9xj;b&bX8JP
zKeJU<@;`%7^QwWZwB{`RnJ{OA!ZN|aoUPKrqJ}99GIS(nSLM2()*3ZRzlM0(q`aGq
za<r*nTLW0P<%Dso$lrBlEr0<QzyK47(0K^G`HVi0H`xh!)83HTY1F7ZGf+E?8l_)Y
zfaqP}LSN?dWO_9kELdRR2}|W3%UY71m0iqDVX^^{XvxW-v`(Y{!U_g3n1q|N%<*%u
zXG3!9uboL*c@{N+2x$93o)Tkes+lS29^7j3^v)ek53A0@iD>eQ7(F`EO+uA1s;P_z
z4+Dfo6UtF!v|0t~f!;3E^LsBXURt{R=<v#gOTTS<i*5TE%ituNf;>ed(+Q3V@lZnv
zoWLwYyFurD)ipV8Y=aVppxLVK8|1fSZY-JDKm#<^oA4)gP<air$Y{PU-C^iaVEoBM
z*q!Q<Qlg&aCuIhSWNJt7XI$Pv*^X~<ONJa8#Q8A|Utuvda|`i3(9N-9$G!n>Hm~QW
zsHpsRB>(pg_r&Ql+$qm$0&6v)d`)Pr=0LvYK+axh>Rf9Y$~O(=yk*&EjRBw%PoXuq
z*4meE?IVN5=XD_lL)!D+b`y`R3swRk_naF}ZumQl+@1G!KlQ$)nO0t(KeFMl4ZHKs
zz0A0?(EZ-vQuil48#v`{hj*R~T`Kqj3s+aXp{0XseMj<rN8q*Di(!82>}T&@b;VQg
zN=D+MZuHPM2Od`wW=x=U<7Qi<hv{W`gOd-TA{hCf;O8TY_7?6TuTZas7sbyk-SE5V
z<Ic2{cz8?EGipnW3%?2u@wet~Ex1<woh!~xHu*6IPSpBM-crrj28#|GK+){#%BHiI
zDX2y4%<}#DF@~ax%;sA!xg~4+Q=D36g;dQpXv<uQSwZAx?WrmtLd_HoQAgI@S$IK3
z=Af9hmkjObjiC0H3)Bi?9aKXnm(@2;D5tm|V8_flEF6rrmP%%$do{K)d1OAXDPT*T
zDpe(gKs|}p_e}HF8xWpXO{00K4I5EkJKa#_%nHo3R3=s|WqG$ukAs(mV1l@;ARHo^
zx+cF1noJT>o}=V#N^(e4FY3Xes#l{Wm4AjL<SOx+23Y5*h>%ukELC6<hS{YQvWj8%
zYnNtfC40;a1F72n*Foy<K~_ixFn6lA`JJO{p5D(qy}*zw{@sP(z<uAdVE0;ZI3FBd
z{zt39@67uOO>J{$p4IiP)E!vy9za?M>|O522ae}P3r&4XujZRx%$@nXp>5&R`y&rW
z7Ei5p59hmwm&JdV`q!zyZaAGg{kxvNLUl`_y1h`{yza2|Rx#B3@KDjpHIDEbUamUu
z&X3ppdp`5;c~aL?=p1_V{e1NZwsyVdkOdS3gnsGaON&2PKC{|(1P)+;;OjJHXF!8`
zY^Qp+qFp*OYqqO?%AKI(Bqi*Pu=U>FY?Y;ol>8U`DgP7+VD7WyC;z}T3hu?3BK<r%
z@D=?O_wqv5Qp2wTAHgYz?4w=3?*GgFb;`mDHMsvvPrJ}=f?MSAMD;Dq{N$iJC)crm
z`BZ+#p`wd!-MTf3S&fU-7RLb1B(>7qmv{Aj?E_7FaGGEYf97QvNZ0=lNSiS((5>Y?
z*hpARiU2pGU9!?5h<4GTo1~n;ypHW+Pk?7DnyQSL6gVF%mT%V%HVLRLwDywmN%Tox
z$p^P*#XdAcl{Q<cN)jlCmgJ=LGqY7S_N8BQQl5a5g)zN$2(oBsw;I7(DFxdAF)WeH
zZNy8IH0lC+V+Z0f6Z?>+ptYpm^$|#cZ?kIs{lPB`)D<mUkf)UabOp%?lldk<3@cQb
zRSc4=%*6@$30Pfb^+JS_0scO*7&){s<#w41(RS4Yhgb>y%GxSA)r3uBm}hl>RFZzU
zFor4bE6e_?6>L}X5b9R2$XyL+y_Tm}2~%yk(7JgG3AdG?H=e7)(;Dst%-%dyY%`<o
zZ;pdjCNKxQ77!d&#)-fcCL5{_9LLC|2RjA9WX89lx)N-ae@fJUObL~%HAw`{#Q|mE
z8q{sHgj(ewCI6ffa(&8oDe0o*JtS&fCN5F@pjhUlXBbDdYcY5-=|Z(S!Q%cXUPuf4
zlivZ^Fu0kMmf7B6!?HR5lE&GOL?Ld{RZ=-7W$r(7i<&s!2JoW%0Zsn6CD5nvJY*W^
zT?-871H)^9k$hle#n}RM$pGrk{RAs_6avgu*z&u!J~#kBIsd5fH|?waufaSP0BnR)
z5y3vqnlWw@e1%EwNnOXHeaW?2w|~PWG!vHfLJY$b_sZNWYo0xydG-`Kd)7Ml=R5bW
zbso%j9$f1@lJ7i{J4LR#$KH-7!J%dQ+TP>&y~kIBCup$tXXIoI<h_A4@8P`nF!Z0x
zXFyl^9-h5&d=V)(hF9^s^{V8ME5#fc7}lb30|8l?G+8-<Wy)}-otd)?!8y1Expvaa
zA(6|F>zcnK@9)rDuZw3_{evscK}{RcVQbSf(7tC9^e8ghV(y9v6;GjKFW3WNzthmT
zMP5WtjFI7u-$!{GRJCi|s?cCyIxWJfiehf35d)_c&IC3;<mS>{^o(?<gZa)0cidV{
zPrjySG4o;egX}Wgawl;nG975DLk}6=^t5ycV^6CxBu-YP3CpadbYh0opz<x3fm;nZ
zGixpR3yd<-8NkE;iQ^2Hsc6j#H#nKU=gC@7av3G)d)6`QM2HJ;>J1)c-mFm3vFe0d
z)mU8tbqv%{HZ##?%tuCztd;dQoFPobF48eZ9~kL4bPUtVv+k_B5~`o|Ko5DcZfGi(
zf$({b=Tawa+&^FjKizf)@0Mmzria|3kTG?KF>Yxt#uM-yWPimofUycZckeftsSP;8
zZp7TFmYe%ojEEkChx>gpX|S0(Jq83DX)vC;fy2IZeMT6hxKGu$In>!LUqcJEn!@13
zQoJ%;)ryo+9kMi)K#aQTgegIx$aR_GVC0V|$xuSNO|?cvG33=Y#J?g!Bg_!7Yet7k
zBpIEWqL?es6vDuh3Zh03dh27+*7~4|YNIKbL~WL;n>AqJd#XpDIjiSXCJ{Y|v$iU*
zDr`y$>33b~vmb3IdTAg%#9NtZ-MkOW%lc^-wj#kUv~xa)=3PaHt<$~Y+yT=7+`hwW
zZF}==dso}`uQndYd7gCc`WL%$zQ5^$FQp@QYJQ;L?_RRy{rxy={LKsJ^40t1-3#ZI
znhSM10H^Er6zT&w&ycTo@!WDN{4?{mXLU^vj@&=8*z~wAv?M<2%MYGLt<UTBEDbN$
zKdw7SO%ObCD&HKM7Ye~$YrzBg;DLGH@2cAuBs!8ju0Ha+>V{$)ckn!4407<h|Gm3=
z66{?PmVWa1*qf`tOJ<jks}B^sEo)v<Nekj{y<No@x$eH=A+EaJIPrvPwjOq}#0#`L
z*@;KBF^F5~-19G~4v8Uoh7yu6@*_%4QF0ndx%d775h=0Kn<3UBYd>B^OQHXTKX?K-
z{n)w2V9`N2C(QXp7v<bsTgSrfheJhH1IL%DuY5#5%nL)MlhRP>q%>5t3-HP}1(+XR
zKpy>Shn@vn-W6DP5UHwLXkR?D^ycz`N5ZeYf9YL0a4J7=I^R7~<WTbIflrnHdgyD)
zYWj%g9mAh_8R&EUuRz*-Izq%a&PEd!(e|Dtj37+W4v&BXXC<d3=pF$VPDgeY*<XXR
zj-wJLMWAJ6x(~K}H?!?mZBs)l^;a%6ZTr=mZ2Pq;3*J4?zOvBHJQUd?e@Mv^5<p2t
z7$8EN60**gFsFImA#GsCA2G)Izehsn9h^sy+j>>9Czb0gScOd8E%&lj<>UOUtz;t-
zZKde@igqDW_b{(|d6d2J208Wx07M}IipcA(Ycrl>CT!JyBd);9srsV$_9mW@VhG=s
z6m<uE{BY^~NLoIbPKhj3HJbRYl)}e86t+6^AHRoBCp0KMt&y~^CJ=ZJn2oQ9;%F74
zpelSy5zPeS86zN{zJyTF1!~ZD5&gj{)0yDy^fc}viSe}z8j0-ti;Q$DqkWxp10R@B
z6ZT<-F~nf-LP7!%3r^#YzU0vR)yBVqF9D=XhQ7i0;lRM;_&^$+$Z-)9>YcIl{!so4
zye)wApW=s|6jaA#R3RU`>V170(@1Jj|Ele(0yn%MPAB2=@1xozD?)Zng_PhuA$!#e
z1GzbnhVF@1n1C<G_RS>N%b3wb_m@d{keUO!{|2Cc;;EfKxNzvPr@Ij7TNxZ%8F+1_
z?LzMSliD3ci?ya37=2gh!&g6ebt${reR!qo$fMVb4r|SEe%&fi%)Wq_ee=_R#Xot}
zxZ-U7t@9WY0b>kTZ?&SafH(ouF)owy2SM2ur-IWc(!)5-;=B%PpkXDZ^OmuE_mJN@
zCc#w2Tr~}$YOds_t*fTn>f*F$J!r-p$_Qy}-kop8M-2`0w^uq3KJvjr#(c!~a=l;~
zL%jVK-Jmv3X;=U}gvfgn43yM`7P4`IrhSqU!uro~0sjXorsNHp;-4c!wz0al`8_z|
zAZW2Dz<d3rVBcY1v9-bkc7i{}|AF%e$9XcG(Jxuf=(pI(9X`ev2KIgFahKW1kT0{5
z(OsF1jBdBs$cVJnMh2Ru1!$t7m*wx!r2h(u>W`)I5goo)N~e^;=#?1LhVUK0tCLBm
z6AClds&;5l>@zLyjV%qmJ=I%wdRJtE{Av|BQYoHSi(JuyYugx6`|3~oEJ~DOX$Y0H
ztjL77HUI0NesCun4|^YKHESrw@c~2}LPQdoQCW)v-o?t8D2Nyz(hO>jr@_((SlTB&
z-Os7ZnovLv^GT^YpI4QAF37$pVqwPGheUnPYq8aE!0ZXV&uPKF0MoxGWYLA{^ZGAA
zYl(eDs6{s)cuxPC7mrXX`*@O_Zt43&%|6mZFJqumb8Vp+NR|h6>^q%_gF_hT_OUjK
zbbXq>IAxngbu;%3J|#rlZ5zGQ0QD|ttr&9OK~y?uGCPfGA7z_T3vBu>k;!q&EYA#g
zv3>Rtr?K(@6v1Dr?c<~J6Wn44a!LV7(aQ7um(?79n*TlLdCGM^<pNK+#@}<^r(FG0
zF7!W$a^!Ehp}*x`d&(Vt${qUJV&g4ea!9^%bNm_pDL3+zJNC833WAg4FMu%cKe@eM
zTLj*+&LP>T4)8U(EAPhV;u{>Y8%K}wjq@iSoV|Z`gF|-Xgk?Y9J8ya5y6@WHkS!uE
v$kMc7d5Le=sOucE>sAnpMBKQ=kMbzfyP*8W4=q7Zl8fQxz*iiy?8*N>NY%Hj

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2.cpython-312.pyc b/model_executor/models/__pycache__/qwen2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cfe985c2f11a4caa147d8c706e1287a0cdc652e3
GIT binary patch
literal 20082
zcmbt+X>c1?o?kcalK^-DBta6q1@W{<Q@15qlx*vu56Sin#$F7}Zc2~<kZypo#05Q?
zi7O^&JR_=hr$p6y%5-*;p<<<mQ%P00xyDtS53`jIVT*DA_sUr%t7Lb+Q6qXhIck&N
z|24V+QlLDWJc+Mgzx%y@@Be=P<KaKJ-3|^eVfsP*AC7X|U(<``Y=yw1Q3J=_-~=wh
z3A|uP@JU0&z*E?mFeXhA6APOX=A<QJVPSK^8nGhXlCUOi5gUuMChSQ^#KFS0gfr=i
zxRUOOo4wl;6-iIT!@`b)H|dM`SlF4UOjbpzlGTxF_U=m5Bx@tJNq@x8-rb2nvMy4`
z!WD`7WJ9EZg*}O2vN6(_Y>G4`n<LFE&YK7&TOuti>`SyJ+ahf&T$yN3c0@W@xGK?^
z?22?HcSLru_v%DAxihje*&XR-?=^{@WN)OGg=-Ui$^J+`!hRu;7)U-9c`CUpvMV_l
z8Dw#FiJ|1vk*AZxk>TX-$nNBx$e!fh$lm0>$iC$M$bOzPaL;i<{d=6yAlfcm)+W99
z{KTk+BL`W|AaXW-P0nXn&L-q+{+gVJ44ml07YgBz7g|0v-ERGaSKDKCw4sjnC)e>w
zp{tR@tV9P&be1n6?h*&Zr#`V1#&hI~IovgU=!Mj{D2b^tv3DYsxDtB#9Wk{ll$;R6
zL}+XxIT_2u-%5y~cjB4zq35U0or|Z=9gmG6LX4j~pGo)qnraL4itUArD8-N!VM{!n
zh>uaocqDaY6i-7c1>eakKRS^bkDm)06#J1(MoeYm6Dh^52hU!aq=MDQQe)_Y^dkDC
zry;&3JvBKwA!VYO32E$nlzJFPn+C;sG&Xi#RO?n8uO$*my&cy%F%zAfjGmJwrY4nk
zdPBSE2`S2k8J&ztu|z^lMBkZ^5<)Z`pQau-&cqW_M^eJ+sRZ7vube(JIw2*)My39=
zD4i39qZ5g#Wa_0t*;Db97?Tv=%O_vk8uiM=JDa0Wo#)iVxp*f1k~A?UrqL5bRlYnG
z!(>cj!Y5LNzGGUcx6%aW#Gq8@)tr7_j0sBZYZGI!x3tJ($+tv7z~@2E8bKV7O(il>
z^(#da6EV!CQkRTfc}t8+Vlp-vy?7~_9*ZT!XeySZ@m9T%!WT@6LOhlc&$9VRBf27<
zj>ah^A;vC=!mnv{ViGFOsNW%dEOss-4k|9~{nW%OM=*DV)R$fgTNU4tsm#Rd>Uue)
z_N3yamrlpiY4r9~><W5TC0@=*v9U}vL9b{~5HBl!G>y-eR5P;AloZhur7Ib`C`QHP
zWaf(6w?eNApEVsFM^zKj6~)OivO3d>OC9~BB#y@~kExqL_1%S+M<)<?A2e3vB0T7<
z!Oqz^!66t#qhQ3JNi+#&(Jb)OR*n-acms7Ecg=F+ykL9J9kB@Z_qd34mb=VHY-hNz
zQ?aoXfBMu*ql)u<ToA+*TV9HfO{vyxT5*b_kdCe^uD59|V0F_@Q7meg6^kThrlizZ
zVFR;H)8Rk_>d`8^AM-c342vdj&XVPRXy!PLK=51!Z>r1kS;IMyoN2@ehO8-T{u53x
z{={(G^hqI4mWvh$AID|vdO1TDM^7QYc}xCc?MA_JaW}_Fo{ToNoM6ow(T43OMvcII
zkI#6tdbK{HRqeRru5e-d=&y0+amT0Kedn+$qf?X7NonH3Eu&(3D;`TreMpr0;Y~aG
zgo$@jELAb3v2&*bucivLLKH%n)c7T~v-X9iTlzvoRzj356i<hW*~TZNP-^0xzOY>}
zBNj`|7R3sSXQEN563r;C(r!rA6lE_q?07Afm=cdk(u5>=Da}GldOU?aU`mULaj6@T
zQV)5(<mug4?9u30B9=}^qiHNHF2vl`|M^^hCOO$Z8K3OU#6WX0y_ctU@7;58x7eSE
zztul^C3Aiv)qe@Ju3x2O;$?9RdreYb)BSG~G4GqaBH?3j(>`r6_GyDUiRko?;Qj6@
zx8ddN6?0bE7PxDxzZV?NyZm`~)2gd^u|;;Z<$bmJx{iEpaQ+($Z?0B#Z#XTDj#<-P
zTir$lSKpm?HB$bPOp(>99mrIVOdnLNS8%S{h1xsL=6jXFeC5uieM>#7!>_M;zwyXu
zsH#}!4DN~z3+He7qr|M~ht5an5jRF(UURe**)pdC`UaQfE)-5lEdxEXytcI7K-n3?
zj1l?tMO@68HE8)}c;wKRZAp&JHSws4Kf~SPN5e*G53))7$=eGrY?2P(q41X#Yhi6D
zd^BxB9DPIS8A`NbUA+^NglVt-1qw0ek({Q=u5$UBx?D}CT+_Mu_F7GN&M|A9_vKyQ
zYbWPUE?C!Gp;<ofsk-*=+`9|0HBV^HG|SIEmG^jOZPFo>4;w}m>=#<EM9-s9#Sx|B
zZ3+ZFs<@(2P?SU=#R%e~7}FU^szph*Hl$++Del5591|0XX!I5@9Yk!JX8JH2h_sXP
zlShOyeHPyD-s9F?+~DqfZQ!B1!Q6JgCa`YCbKSxPo7b%rvT=yBQ^>*j!%IVQZU4HH
zUR|88dYuYkc{nP*^dR)xeI~Py4Tv=}h8A>JR|q}&TLem}G?0@)0ENaslW4r46A-;5
zNZYuLQEm&Uw-tXj{Mki|;1I2Xkx_G}Xe)$VqP-Auiw>aze;&~(Iz-pFfx1vg^P<iG
zqx?Qlez#C5R$OQ*wy1@Ks%_%E<>SXKLiKy5h?kuqKAa&nN(EaqItYq$fUI$E7sriC
z$I%QUDvCWdm5iPTD!@5ML7eV|w`A;cbaEmcXE@72P$HT+FJ@wjYm5+6;gDgpNO7@b
zf(1C48DUlIu}mfv%>b1t4Fc9sbnN_8>S7eJDs<Dz51=b!E^XL&I`GG~>{)DvEhkgO
z){_b65f{}re1>QsbK1Eu<H{P4gSHiO*tTUpbJjJDvr*tL?!f9aoZ!Ak+q--|w1xWg
zt)B&{i0bDmN|la8Ytwb{4NQ0ScBv(8*Rr-<<#U$gV|^^1f;d^XX?Ys`{iHBI=&3#?
znzwQzr2NQNJh!<E^gXsXl%-Q`iz7^cvU+~xqQh*9dtzCqmbrW`Y$1#QZRoR{HRDak
z3Rx%KDzrK>&02_!woH%FiasM+UaG&`R}@THYt{}VLg>ZvNnxd-J$;OsHm#0r>n+m<
zHfuakj#|5o)m~U%s9i6S!Nyfx`MKF9)`a+atz_|;wPl^R?HWsmb_kL%mvv-zYT*k6
zIkq_3Ba$UU5QMpuIYV2Rxf!>C%ev8`z6P`uHmmwrHpK>tZ(3-a4q$y=wOG_)!7Mr0
zS8)8qAUHoXXPr_-W>CwKwQC1-)+x9?G^F@A_f!5yL?iS$06KJ!O0*>;BD?3*viE;^
zcG}+eHmD!rM2TuVK5gxrV6S1b0{RCebtNjqlhP|l1dfcQMd?)prPtw2oBN2~h0W5-
z6h$YTiqc-A5Ft(CTMJBzaG8|}H%P;jN*GH;cm!(|PX<jTqB>ocUZU8_VysT0jUdsi
zJ;g>en>wdh-c}g}E3s+B9#}Q1e1@8#zDiY8p-mqwL!%aTsFI)3w9$&mw<ID3itE_u
z(HBRKy%K$K^wc*c`nnQr9I2fWO>E>IhG*1qP><D#pt+J*%f%^SlSWe_vB{w>Db~!S
z+FctvHpUWZ6+_UB5FRSJt16<PNt^a>KH+qDI*G(|KfW=+(_jfa%{O!s_6*#s9A2y3
zGi%K^@1XY}5K_+5CVScz&&i(NW#1jou2tKvRnM+`U1P4USFY<__RDp92$JSo`>05B
z-s#CXTV-eK;<-D{Uci>>K(1=1T(xuQb-8M2g}+m^ch$9bwQ4VLOm)M;*<9n0jQ^XG
z?gg6{`Ng4J+djE%-^w|;?burII0MJ|K-*#_*R@~9|G<8<>(1BK-$-3gEoOc;^YM&a
zJA^oA-rtb(?~wgFmWF<Q@YX@uPd#)Y_QuThnMFbN?_}@w?Ra?d-K^>z4+3F=+(3w@
z=T761bA@DAhy~ghV6V{u`!`psx;8wvI>O@ajY`hHL(jiB^s|E>ACz4KTj2Zat5qF<
z?|v%c1Z&XHrnRK@it6^&+-SbuOrae|H{8|+%IjIL=Dc+up3Vh_<>2rg&+wN<&fW6B
zSHEuM?7oK%t_F;P_uA;(s8%1|PR*TKw|Z(EnBw}TT-{E&ZYR}B{6@3Na=f}))%MVb
zED!5BZ}*0kYkF$AcCB$wzW>B;%tlWIpk-zC!$xEP|6peTQn72OC#|?O-a7*>GCfwx
z6A+1JFeLz-yDev-a}12LFwU5=#<H9RcR`0JsJGxi1a)Yk#W6x!Cia|B;BOnWqy7!_
zY{ooenX#e{{V*@7gU7*X(Ik|tZ^(_j`T<;$7df+5E$@sCx%30KB$rJiy{tAnMrsEN
zHIDxJ|G+^WWCV2zTct4+0gpVHh-aj4BP_+p6Uie|ED7+!4waT%pooj`6eEb0G(sW%
zZH2$6@Rt-PBNP);naQb)Vo{%IqD)0np;C%th?}n6LMaMt)W1hs`YODu9Ib@f8;#c+
z7iQLcy>pgX<Lt}%%9<PD>*0m7AARfQx0c#}-gB#G#q>+ppSf0p$9}bIKD<^rI%g$*
zYBokZ)_3N<vv6gpW$EQLPk({W!lsR1k7JWRwHRBg-7)LTR|jsKynb@gxmMjXXP>pq
zgFCC4b*sEsrSu&7B0W#u3*<54YaKbph_7@4QHpsSLb;4Y2#B#^ia9einGmIulxPy-
zV;PB-COcJ-M$%5jqKf4hvnHLQ)YI@v8MGHElDr8@*np=pXpNouU`xKcKfh}@-w_70
zmapr~)%D4Beffh&9@f3Wn;ndEqX5xB|GJe0ZJfV;-Ohqw-s;z#Ea>8D>et;YSi$*Q
z7f0mU9qS(U?$ud5AA1L}2`&iN6YEv%wVGJI8WyajR{Sg&;5v6MwJoKWc6|H?%Yxjo
zZ=LmMy`I>@2A1W#!C|hwUlq7<;QE1eGs5U)pz%ibdUoAPZ#K^1xfYxYer3m-%0SXI
z&@$DXwkaOnMN}yRNn$<-`dkG;pQ#|=GwGr}Ggw6nM12m%@L9p|S;0cu%AselmF43d
z+r(?a#BI{cmr_|#FttuFi%!NYy0A^%5I~d2XGCPeb0%9IRV=C;u>{TZV*;cBcw@B2
zG)Lrsk-~Rz<Zj{E?2mJ7<w;#RE)Ft7u;@DJF&Fteq!<NGPqA!DF_olPH>H>bo#;uv
zjE?=w;nf*i%3G2{=Qy-MgTUH~92khAshFaLvV2(-%a{B9$V)(MivyW9fXB3CP2fDN
zKQREeTW{MwDXd7~T5WA|8BNSV{7d=1=oq-z2wDvm-?R`~r1tFKMI0q^U5}QYY0*L`
zU%stYEl2Tr+o>H-oA{dl|GEgzG6!t$8f9=Ze)w4rSA^$^9V&sb*i<@}I17<4$y7-a
zkqSFY04u|)48DIoV4XJgB@>f?``u``oMiSEPCRik9j@Mj@gePl3?%~@8qs#?5_#j~
z5!F$u2=ybiAR<vEG5%6X473*obxm5$eNns;y+q>Ug51Wg4^EZ35evtp#)=U=mVDHV
zOG>7rDQKml=%V6@r*MX<8Wf6D0sugnl5Q}zg;KPG`CY2B2<RDAU~{JPLn^dqV!%yj
zaw&SRe~jel0R9ddNJCG{0DQ$J0N;{p=#?9K2_**})C3n^TYO`A_gc;VS;swp)54|2
zcb7A3{sXhFd!4;`SLJH;Q_Dk;6?ZvSZEb*~uB!Rrh5bvWyUyNwfsS0DR}S>fz3_m7
zyX3&G*%uzvb>#!WTwsSB*Z~Ncs~wPQ2l92zxw_qQ-EI~bl<Nlb{+0sLB(O=sZIW9P
z>;$CsyHx4*Mm<*@EY{Z4o@*MGn}+lLMisR)ph{)W&L0A1t|lC8gIGM&wRkDlwO8)i
zyK*Ua=oR_UD|egE(13&YcJyOVIaibHYFa#=Yu_!m@7^#P!YKKftwTM&im1sZiRn1W
z-o{GzD1{ldrbz~HHD0aGsv>X9_f}UT@;0PuKv~M>$r`nt{WSt~Xpe65THYCwT9uw7
zg~o~EX?aTOvu^Dhps)_FQ5Q;$8*r8xM#Bb4p9IL+zmI~_`{ezAyjge!>3cDo^Z{Zw
zOWzq<ny!0%kruEc%qF<>cTo)35o(I+RcAxq-#+_%J{Zac2jt+ua^qU?(A??!ojY@#
z`{d4jD+hnIW3BTHc&ype3wy9GKB~A`K})8-Yu(J%bv@#Y;I!NjZ?|>jS`W#shdy=x
z>hfCaH)LD$tb6`4m9X8kEjF$N`e)sFPjKP<s;6_+)~SL=<ESdv4ZF9ZNSe7KU}Q*9
z6*^2)!XJ`H>X9eF!x>5@PsU&RLwE!aZCuX)0YixJodW=Z-iCEEo<LX{wzJYJuwX%Y
zZ>LuWK{?8gfdZzvDJ1aK<}MwjAzXse=*`9f!S!74S*(^TJJ#(K<p6M-ow}Bt%Pze7
z(Hl44SoMTu`_8YNNK^L#>vIxa4Vysz8HtMvY4*vL>P>1?kXxwI!R@hJX_ds14%;hS
zf$AeZ7KIXxq$}x7uuy{pk4CT(N@1bEL+5Mw5V{3udI<~y28z~lP=L<taSH>7miH<m
zcIX%!7itl?#Q`*yjUP8bb8L#Z7!37oTN+x3vbDNIx8Pt}3}`IM=1^0&X<c+v*>UJP
z-ZMukpzZL8UeR2>CKY%xJ%~;8iDou(li)?~D;W%}!q%-+9BjLtCMy!@I3@vGnNAm_
zQc#g;LC??B3QkgBYH9>_2K_Ozj%gH%XdJD4M(h3#{*U?hjqjV@H@|P$r0oWayjj~_
z9@CU##mlkQpP)%{-#4QkI{UV`@0$>>EuE6I?^{aHWLZ>IZUJdbw=^<mE{7@+TLx8<
z3^(0<0veACB=6he{ysHnbXptr_xL%I$m`=HTY{o~1T~k#pd}LgOrzErt;TZ7v2+ME
zg|wW-r*ybX`7%gU>dACyrONjSv7K6u;uE7W02dp8i;bTY&Qy#~pW&1z)2-#!`d^wp
zXS~d(VPco*(Q<v?n4y)+9NN@t(&9L7)--E|EW(1VZhFtg+E+CYw65Vu)Ppv3DLTR>
zoIp|Togs-Sb1*)!oimglq4qsdi_RDPo^#rjA$>G+<?BZ50WC-I2`vP;MsjFV*Vt?`
zlX`mQh*}0VCeLai!J!hFl9|`PJvamB==5KlNyN$0307$-SYL#2l84e0Nip=+R3-#d
zu8?Z+L$)2MiA>SHqc3#!JmQ$GL})54!t`TvMO6OV1k=@uRVtPKcIaT}4`-;h1dO#p
zne(w!=-W)LuUhn|t*N>CLNCEkDlLYfXHA8W5yneXVkk2a65{ExDOMa6jf*ju@`!yf
zY+;N5%-JsD^txqGwGFhEbOK28LXtvaj~>z2{ITf<RKRn_Il~-32gMMeSYZ*Xu*oEq
z0rs~za5;>+o<$XEjz6XlX@JrM-$Ga6RD%WEfkZ6%mJoYpx}!+QbyVMXAOXX(MEV&7
z)NE%!tkXn-es`4vs0T96H-_oIzwt}EIat9?a_C{ynSx;f>&QiF{sZ#93$HKSR^+i@
ztVL&sW&veCKduEms`=h!%{r=te<7NqR3K{x)?`|K-(#Os@jdqK6bqJ665=?TIK^>^
z?CO{vLn19C00m6S;u4rCDVDmZRAu5K*$N7!Oq>gOV8Nqik!b5Oo>Fm@eqX7L;u)gp
zqKchqXrl@&n_?GJg1X`qi#kyf(JrO=YpmTEFDT7XRuge|DhND5@BY}-<!GtwyRf3e
zHdQkFV`Ngl1zQTml|hR_)!dM91)|t*A3l7zl<BJ~vo1Pm75sB}{~PL>Qf}|QFPQU%
zWnVbw8<c&6Ip0y)cXZ8nY}S(Zx90r)vcG>8>JB{!Qy^FULU*oymt4OqSARsVKXTXk
zY`&^4SJf?7buV4Y^*<-~KX<3<xpmIwu2?r1ecfMKxSn0NhV#|+x#}Ldx<?N@G8=m;
zAK8&_75S?<e<P_h@<FCCs>|1ha`oMEeK+YY9yt9!cqZrUy5sC(>{;g>SLf{mpFET6
zK7ObB_=C`J-dmgVw#eQV7HE~dt+dGNLkoe$##Mj+hTYs!F+1{^s}aL*>0b*C%#Pf3
zH39@T4cuuQxjQ(r3e&1RM_J|Vva9{K1~a<vLZ84rGL?(ZzSkk!o@Q+ELi>k(OYOJ2
zH)^?o*ZI6VxNu?B6<!+7bsv<w4}u#W0Ka(G)<e@3ppJLmadzGdG%s3mp<Qxl*NP>#
z=cK&n<lVrj*^wWDJMLTy?3f+-;DrZWJ-5#+w=I3+<L|6>LD%$|tzE_1Kcdgh<bnlS
zj&~J#(JA$)9p1Jo65V9#3@05y#xO7a3=fbrIxQrsI!(1|Mo}JhW9W!}T9qR(%vd0b
zdfGUxETVrflOh#gNcMyl>()HotF~^|^HG%ryhbg}!`md+)Y0SLq8eaE_^Q)Rm<y$&
zEu=|xS<`nRKbtY9eB1E1`iN)D0ykqxRe%RqtxllCAqp^K&VqqpA<H>#rbLEWVo|xB
zmR-kQg%06?eh@v{;xy^0h9O6|H-~^HFs2#Xj2)83vO4%nWXWQ^K$E(~kxGd;O07OJ
zk<Z$}mzPmBeK2e)H=os8s>Ex$BBNtes!1?@sB`^iXk<FtDVAj|7QPJ|k9o$CY0%Q4
z%qo0I!E|v1A0Ae$Su4p7vSu8F=250|Vh0S^kK$oN6^1JqWtV=6u(S-1sP9w~7VNMu
zHc{k1C2xtmTjc#ScrfRj#HlVw|Ab=bB$jSdv@s!)1X5q-Th?N+X~nmd9;X#!T)3>5
z8NFwkv9uFag5YYdMEO-&LURkki#TlzT++bC0Lf9Q03%<X;HqawKGb{NeLvKm3k}Jk
zq2+I`g$~WTp;n%I{(e>0YSrMXYY=`OB93M`cx3i;-rv1+LiX>Teg1y1Y1LMDufFY`
zt8#wm#{TR37frd)fE*fFZvU5kzvx?Y9r>-%(BPOmF?)2r1_aJqH8139cggq<ZM(N6
z=iMQDcPuro1my6MyWVF%@9bWBVR`1$^J|?iGReu!J?l<XfL?opKX^Ci*?Gsa^IlbF
zzO{el8?yH}s9Uva7Yd<4F!a&hn|l}ETz-D7;UElDAw_xnfwN-O6Iye&EFQVz?8sMz
zR$FN>7}9-=-4<kIL9rIDDQq$()#<?>fU4bq>4?DpBYwtEqzhP$MDMmZfw+ajiqoDm
z#-dHNMopkH<wv-A{!N_og;i^T)sY!Hj{ksc!U)W5ao;^(KE51hnl)>!U*>15(n(19
zt&GOlGPHJ>%fj3-qf-!#LVy}rE_k#&#i!PDSZ#x&lnhx*%7h(iQ7ISO{WhqX3p<hL
zvZf0pf8OGX`;q59xSBP94gpm#6}Dr>2@5_a=748&U@l8{oLPs~1}LZbLd}*2@G9tg
zUP6wnk<~Y}iL&T+a%kzuHnr$VZdj=6bcgCIZT~9&K@4-tL>$l&ef`|pi!;vV(ee1q
zrS!P0OZzH3$8)JyO`uv|Gh$0&#D;nPgMlaXo6-+&GbfZb`u7>t<73$7>+7qM$J+nk
zD#l|16}FFt%`loC!?z=wCT5lOHeU3&i)x%y8dtF1N~>{usH~kCSF_@bejAw`wqh;Z
z2w*l~$4S(O%PkX^#HavedVCDje7dS&@&&lj7f)S^j!WX(ihI+=7-mKW(=WPH0HX%F
z6$9z(6>8T@Hq%1!?g<EXTFfw}NnxyrYDCM*NdEvOB$A9sDJpA>34&sk#K{CMOer>;
z9BH~nC6UZRqGJq=utQ^oa@T?v7`v#om5$<$&LntT#W{&9M$q$+Nr2*JH+c&ENdxbr
zcY35cCdI)z!_2@HGb=28N)0$zSdDiU#?Q*z(&u5E9)(nuG{D-y!=5TT=%Q8&cZt#k
zYb_P0l_p%Hv*-aki+*FUwn9_W1Wk><VPPoOFd#P!eA=<vFtFC}{95e`v(9_19e>&}
z>%P~vQ+74aj?DMwJ?%>-+0&Ev26TwGir1#rTvNZ?)SqiQBsU%U)U?)gY}I>g-T@EC
zPF?%r2|3U|Z@w4mS~4$v=kDQG*Fvw&yYF}G%5@CO9m8uKdsdFz={R`(^rr_`Uw%bC
zdS>0o`I;VD;4O%YZ{GC|=Dm$7s9)T9*V~Ks|MKaRviGTZ$HK{_K)$L823S=)^Uwgn
z@(K0^izk=sp_!UD-LLZBIC%ZwqW^AHcu834mivw&*F9K{4J}vStpY0&%$H<&&@i-o
zc4hxs!*lZ^sA@i&4}{1(Y(x%(AL~EPv%BqkVSDy@b<1MMQsZaUyZ?(CTCv@&KJvM@
zW<AUepW@g1V6V2d7oS%LANU8BtC#<9&3|;>gig#KKwPnBc-gk)&%KS>ytwLeu149_
zxFGx|SKB(|5$)ZO@N?cq?RdRq7#)RX^f{~=>3Q;AAdj)Pw2}(8EF|QW=*&|rSTwkh
zuvKY6_)CRT$0$Tcugb&zIfY2QRo>X;k0^ya+&1OXe~AETGnzPmUB2(oZ=BDV_hN<A
zhSseVvXQ#NP9X=^*s@spv$~J#Zoc>>%XQemn|qdOejdCPT;~v6>G);OpY=SVAXGvJ
z4)gimrye@n&5gQh17Xx%UB}E(tn_B%ns+Ua$W43J?eyv>Sf?=Sy>%)}Y7%CmvKr`?
z?cI;u6nBb0Xl`75e(BZa!4)&JNE#fGdymQO$JaTe{A%!5>A%?X6$MoWjYdnfRCn4L
z|LCWfgHq*%ifZU$#5sdt`p^(D3b2~^5EjZ%X5jk6xQVGN>`+&*YY^q6(t@+Rx&tyy
z7X<!x0qO?PDO40LMmPlzQb-lxLdlYpaf9GPtedGf>gm!&+14tziN_TR!Nb%W)!XDy
zQ@81@SW!@K)Ih!A5o))oW1G@y%NUm*Bk&3VC_Nldj+7liiE_j#R_e-;I+Uzp%8_cE
zhz*K*3+VWSbd*^#oH~ue@L%DJO8=U?e?#8CCGX$C1Ls2DTfKF3oI-y>o-Vl2rG#`U
zk|_f1o<||PZ86}1IRF1uJwmsiE|45(iz6#Y2zyC($Q-T(mR!*&Uj56KT=dHt1YL1l
zv~xr`z5Yy<R-Xn-%ZbyaZ@~hyjD}4L0!Vwc8j8;gx?sH+hgOM9F_(I_C>}@6O<H{M
ziP%u_O$%jBCF&k*HVr`HA|<hraGP536fYNOqbp4>sx!*>K?D9MqtDVd;{}l4>QG8&
z%ppiOk1A#+WyKoP*OOv}E{^O~q#Gz6t|^LSr4JDy{e-+e@|cX7=#fNCNuQHP(g~G2
z{>Ky|`H!TKN3$>eDS6%GwUI~gUhyW_MQ8$n>P={g<|S;|DxYMnv33t4Jx#|611P03
zNma*RvafWB^*uTusE5D1%H6ZMwOfw)&2q_2;>i28L6Q^RFUSe+)imSCynSk=_EY~_
z&kHcts3kKG$A+y$_68HsoF{z86V5lceKdV@I@dfbHxJL7e(ZYC+{*-#9ddOC3v|lW
zo%xpDdktMnmSy`|!#>CkLzR>j9C2{xT0=Jkb*CPL`j;)afg|$3k+smXB<!PO$L+gz
zV(vuFH7vV^foAOP&ul%vm;8>9G?U-qxz&~9c#9V*HJP44{m$&f{yC~BmFO`!%C!0e
z0;L~ei=6L&(YGK`5R>Iyo1UA-oXMW>Qh3cXv}zktM?&J4zR^u=J5e}B-8vD#FzD(N
zLR(!F^{ehmK@eH!G>LGq)EVNY>P!2sGyv5{w@POU((>sZCU_|w(-U(49gUAR0>;-n
zIBUA*m~(t)+sTHdQ)}uV(FZmjx;{}Vmc+PdtXo_;13ir%%)r2sj4au;FPK_RJD|@u
z;;=D}O1n_cuc;lJGXDY(^$XGj6edG)kUm7!IBc4eR#LTy?0)~YQ#1J3)O>v*9-~VW
z9l&O+2`p59RDZKxwfbMH>7I4uy}tQ<i@xiJ7EdhuJ|12546fP+)m1^?TPiQ)C5pgi
zlZeFjLTYA)sncc>GiXbjXA`4Qo*z+5o10^DydvcZl}P3SkIllkdgIqjLv2T0%($qo
z@gv7gN8VL4e`U3Gc*PAN7qb+C_)N#ttd&jcUSB8AJZWTQ*9<mrVI`4al{Qj?L|B;-
zW~>ReA1)#SS|>(}(=?4Bt}5?WK|irEg}e7^;&k(4L*1OgM<XWvE=FvFDSpn^Df>Ec
z-6i{RcKOXU-%(Im-BMm6&bRzvCy}ywQ~dthLW2DL9G}8ZI20iUO~3_`{B3ciG!ENk
z+EzIK`XEejr!U6o7YFDEBg8a}&00}dJ^0x9My!c8gESJFLHePMO*6<CnCZsHrmd89
z4$!0xqXz5<Un_3Lz*PU|`)}>fb)UG?ePZFn%>%11o!u}SD;={I%qp}{o>tk@y12VU
z1tP6cZ)&!1V@mC$DpkNq57tW;D@ZznR+byPjJl)~<o##z{wsMw@)(Eq-zh|^MEY~`
zw&&1tluX`#B%;U+LEqzkV>02YkBf5$uoKqJFqV7hb~IU5P4(*m?pc0>{|(n@b}UY>
z(_>}uOM0w7!<(Nja%fK%IkczOExdVXxnsq+a%RQ$i+*C@hCUUDc^g`{7?5;qrEMj>
zvf~#oKH~7Y?$sGOM+rlRa0x?4ZzT*Jy>4OXC~7N1M{xl&t||C~>|%l$VN|MeeG4Yp
z9(-h_s0y>WXB(amDH_j*pi1;;{=&~H)@W3i7{g_L&)5Whtp-16F_B95#oiiYUjn9a
z&|G9DCUE192!>(-+fA3a37t!%&QV!#7k*|Xl?HW!t|Kkceo!jN{)(<Ws@BTtjX+{0
zl%CBg1@(O&ek_Q7nkP!X7gRJaX4eUo23CYfLOj8KZ=;VazMxitVV>lqN}0J=U*Spu
zv9D|?DqdC)MiLn*4l@i<P{AZgtCbFx#;|Hs`-uy!GsR!_P=9ix{Rw&58OK!Q%zV1#
zNm<$N`LG}TVD~K5-}>l&Qi-iVmf_p3CzN16@>2N0AN3B<lj<*uF-7(>Kk60F!6($O
znlX^nkNvt4!(n7LqoQ$=dn>)=imMZ?lCr*npl~V^$I4=|%?2vyW(CvY+f($@QH(Yy
zO)Rc-fkjy{?PE7mK?gJ0#1Hg{X^D;rDMVfiC7IPm7?EwG*mm+d$Ro%nb&<!Ijn62w
zle`znn<0;}B8=eNq}M~_(TS<p4yd&68HooK!hbIPKj5t!d7ghb#PP@Z|Hid{!3DqI
zYX6#ZeZf_K!L|PlH~0m2`U~#hUvd3^#l83ici;<d&sPQ$Z+OVT`_jSj&+}h!$G_kX
ze`PT8hOcb!zO-?C-xu88zu^wc6mLU32k#+y8?~*xZ&tc?W$wxbhv3EuKFag8^RL|a
z=JjuGa1`DcF+RuhT?>Yf>^JQj9EBgAHE;(1{TiYpxU?05wR-(Sx3$)?VYC|z8`b9w
veB*rOjk@b~k2nfHszLNRi{3bE9_9I-dFjTL>sJ<gmK`gjUvd<~rsn?wg8*Qw

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_5_omni_thinker.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_5_omni_thinker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23cea856f73c0256190ae4c08a13fb3c7ee10ebb
GIT binary patch
literal 47069
zcmd7533yvaekb^Fp9DaH7kB}@M1lt>lA=!PrVd&XC0X(XA23CL5-EU`AE1j1cI=Kb
zrn=p+lupJ}+P$Weo;5x8OxUwMGwMly)9P%##523I`<|f=V6;48CeCDfcV-td)t@{4
z&2IMhuXg~XKuhlQWcNud)T_JdRsHK<|EvDzk`gP2C#wJYMD-6i?l0*@d2F(0C8^`M
zH@Pqu<ieV;HmZqfgW8xbsEg@?`j{bT&``K8YK$3!M&{Q?O)+!O%>0I^C1wp;W453z
zW)Ip~m@!%sEI}S))Dd$Aoh-~0b;U}9rOa=Rmc`sbH}hMf<*|xjMXWMd$=<Ees#tZf
zn)z)}Ppl?b!~FJWZLBU>$NVMH`dCA-f%zR#Z_F3;F~2j~7;6ePF~2L?9BT=-Fn?*Z
zHMSwRf%(g#ZL#)Xd(0p7$2x)?vCd#;tSi_R>kf9u0>MD6C)mT%xuY9ny}{mCU$Bq8
zmq+_!n}VB|zalyi+Z^1?{FTuyv8}<av2DR^vF*X_u^qu3vBBVAY-ez1Y*%m>OH&oy
z9orM!6Wbfy8`~G$7uz4)9~%k|vAF8!f!M*|!PueTq1fTz;n;9+IQCfZF&5{E9*G?d
z9%cTT=&{&HaD@45qsL<>f+v{2E_yQdc<}Mqso*KR*M}RTr(;h9pNKsfd@}Y_@Tu6-
z!KY)-1fOAX-e@rPZ1CCGbHV3g&j+86y%2mM77B(~oG<!fY&1Bk;VksEjnOl~Gg>av
z5{bO8k>*KoT+1Ee!i}$T;ikyr?_<u;6FeJkj+_g(M6?loWFk^Bc}EH_bjP(Gyq?vt
z6ob;6?CQg<uj+&6S;-qva$97RT5^<ywj<OZ>5X)~ub0XU##nd<!aE~JBQYvl%`?T~
zx)9eLIk+Znn#BbW*YmzsF6#pNxOwtFNN<I1WI7UyOntCXDVgQ%Mc%%MbMn)|l#)O4
zbmW=HlaZ$)7v48ZA@9qHg7K@yW-c-o36E=AIG$FMF?i+~?)9b1+!ft3++~fwf2MbM
zYCOV6rp6-O(^Ju_zLS?DQ+<Jf?&Gnk314hF9Etkc6XzzT&PRCPg;74?5B!vh_v^Ff
z{iD(7=$U9FYaUKSc;+)58@+I0V(M(xd@AzNMJm;=$?C_ZFI>g1iSkd3M*X_1W$)C~
zbYe6S31@YCr><sAM<=L==m?UzPVkWgKRPiL3Gbht8lO0eF#EpI#Mrrmk<r9OKH}GA
zOIb5R1Jp_>QMS4u=(N;eHG5S-+}?}fiRlAVW9S->lFJLCPVm!Xk$8NX!mFM-Hxa)O
z;pI9HTtSn@5-iI4WHcI6%XaM>jYozq#$s2GUr0<$PsNeh9gieJ<J0`*Q9c|Ro1RKU
zt|Sm_o0ytNgrd`D&$6l=$1X+_6US(bk3_D<{pPGkZcOOOi8zWn&5usSQA{ktXB*V0
zqr<V$vylU_Gm&r@Lp?lo;bJ15tymK;2iL3#J~4465|!hW5eq$eRPH$|ZhX41vL`3P
zk?Aj}jKx1#84E6`4Bt$ujt&2s>U^QIG+y|+Aq*6ab7=Zv0^JHlBU5J+=V(Z4Sx25c
zs*KrabZ9g&dSaB1v$1p^d*bNn;bX^#_8tvAe&EpXsnd@?<2Pk3Y^*RnV_7=}dNewb
zxJvo5Wvj~>nixxDEAnCTS3h+jGPWvsA`+D+Wnu6UeCM-qswJK+8HvO(txrd$FpuJX
zL)Kl`<7r+>RYn!&N0sF)Eo`8a%$;u$wOR@+UmYk9fgxK(6EPpBPUdXYs=(NV#1j|7
zSbFhn)rsinSmfMv6iY$waU9@aI$Mg&NcVW;0wn-AN@VR)kdzhQqf(vr(#PL-ae|7W
z$v=$wjyW5iKqbmJXtE`M2AJxh#PoTL4d#PgiaRxSE)pBf+T^!$qZcASCBToNE9j{@
zR`IO;)Wr)Irujtt==9@zvn9&gvB#%R9LScbukzX&jb^P%*ohM;v~=&q#Pm~<iL>XZ
zgi*9PTOz*_@WN{iTc($=$U}VO>;yh19|?yTEX>+tqgT&FLKpbR_{5cLW&8qWR49rx
zp^2%)bO;OfY=ow34b5mO;lgx0G!c#yGzeW{t9ncZ&+Nw}zpOaW=Qp_s7t{b9(msK$
zFsO^@!)ybK7{a<iB#am%rb$;}cF7;H6c48jY6dl6tFealVMEw(PV<3L*;u5F5M`Ub
zsBD(ktZc<<9?KWyd8GE3!`861XnSl__Eo#TBwH^-F9P#y8OgI$nsPJ0XZ7J3n!p4l
za2emu-YKlxH#NH5H*yg`lJ`xI`$h@q#|xulXA0wE*yhemOckbx#iQGO$40MA#4g5s
zad|iMNdT#!padm5jlC>dG*Q;Us%F3qTUR`*Ph7na$?B$JXR<ov#Z<9}uTG7|CdNYH
z3BV7>1i|xsdhOI`wqjKo3Q)}I(8O#dflZVg8cigyPB9Fj*l7Ixh~Jhqhe9Yg5(;Il
zA)3AyqvW@TLN8q$jmj~mP$)b-77Fo%lV_cw(5SRA({LixLZJq1dt>LaMrnm+^)%i2
zZHRe~TY<~{;>n&w>_X3li3{Bc0K!P3`^v>F+qRzH66uLfoawo6HF0iws)yE74_ib4
z@{uttLSA}}_q;?nM`$24jn5pCk&VEGtNbAp&Ya8e#D5pgZ*cdtMuR!$;%sF?S(9jO
zPU)L7<@FhJ$s6`-_UnoH18*O_c~q?Oi)R1FX7}|2^8-tU#mjfhTXH&$W!pWSuEMy&
z=?uo4m8)xAc;emX-g)l3J8mUX{X;_QkXU;lr9ZG-*Sc<bL-VbR7Z=aoF>j{wwxYax
z<9#ZRe^zO1wk&>Ol<=Go_U*HgP<&!0k~IRSxyVnA$tW$-avY(Rgv_ptz<G@hLYf48
z(vy%8MUG3z=qJZb8kN}muY%OhapO2by=tG;BsHfvziuRJIX4cVM99IaS_yu*@wc)a
zb^ng$O)kkz7Pd+*8f}pgZPcr_AYX4-`@Wn@L1|HQ@se~8DM|l8N!p}#Qh|*5D!H&h
zNja-a>aJO4Fh-I)t6!&X<Cm`6kTg7`Ze!B8s%}$)mI-^3Mzw|JgmTQ~5+zFfq(kxL
zf5WDvCT#w|qQK>X)J0%@*re3(OQb7SyEUm(zF<L##Z&5wq%77(Ymqh<E76AWlIQtD
z>b50KMN$^4+g7CRM@?6j|0;?vY)hJznm@3=FMm_4u#yq}I1>3aJoNx@o3QfGS$-l6
z5O&$GWx+qCHT2WJ#glbhB1~FMkTo!%&TmJ8_cU1@fPdD&%E%g6N&xV3X)jm>{p0*e
z<X}~2?H34}4_z9KUc}B~ms${^gF&1>LydA5CII?@1|Xf(5IJ3h(v`&{IHiO`z<%Tg
z#<OJ?<JeSa-vktq^7^e=9l$&P6y-5QfFWMZ>M!uqIK*LJ%<98HYWa4GbdE=X%#Q<$
zWZ*BJHJzaY9FBX&__<M_Q+_M|A`-HGNNuf@nlH7O4I=^0cvcQ)&6OI*!g<zkSHYml
z$qRZ{kUVRhx)_s3fPWq}$B8^er~-Rl=AXlBwkcF>D+-Mh+E3>=97boJ7~`?yM!qQJ
zI6Em`4Gc!7$3~;^U4bu3EERi$n)Fpb)Sti1Wqkg3OWrBT*qgue#JkVF^XyW2s&(^<
zPTOb|%=I}lSJV7<{mpuzZOacTepvhc+S^a2wjE7*j?FnTjXmkcO=9DwrN>i^TLp8&
zvb{;zuvN5g6$VE{`$$g5S-f9ZK&?Mr8xU&)i+rlKPcT<6+v@~hpJ?wBHXj!4hgkvl
z&0M8N@c2^|9dp)Co$kAho70U4#m0jfSC!xiEbYCo(>6Ko8@ZNk>E=CR^PbyPspjFk
zO<U4UyTzv6w@s<0!*@M_v}c#-*~RkopmQ~pqo$`=XkBl*cB@#s^;T7?cJE!^K-zae
z^c`S1{WL6(n$x=}?Hv@ogSVbac@NyBw;iH)$E`!RgDLNc`<<08YmTe5SlLeQ*YgIN
z5jvncY`*hP;}xr#<_`aB^tEW&zvz=Dj{lJ-1^)`N{U+t#00&<?XY?Da-#hz*u|FR8
z)4?AN3cHSrn@{`<#~*9%NeyQY2>Nc;qA?^_9|aLui6V$l2j$=p)<ksUS_K&h>chH-
zVZCF6jLcgiR^^}&)<<j+d&Djy6?#^V;Z=LEWRAO{2|57wjM)tZNV!aC$saKDhjKPj
zV={DS4W|Kh;*a4w4D$fS5Moi}<ag?8*v-EIVixvvH8$@#t4V5qPxDWV6I@dF9nEiQ
zG~87{&=F9T+@T_vmmz+U4s}3=*|9E!BcMJWiH@`OW%YD&&l=CO6MWVZ3XMfa<G_65
z)K~%y5@g`#@H*4;Xgv=oRozCWIKe|&)Xf8P`a5RdU31AblW4A<FHd`VMNh9_-oG^T
zk$L~EgDLZV_Mrhsan|QwK)zMOhXIk$#jn9b!<SIewxlMHE-IT9-;$s{um=bRki)R<
zoHn7NRTx|<am}M_o*(EHs^=*#!6^BZ@R}AM29qVJQPN>X7)JPU#PR3JVOyduYX+jv
zh%H$skE7EB9iSN$#Q{h94aq<fL>eoO#Z&RbD5!<}B`Tzg99k#*KOpBdIN8z=sE6u~
zL?h(a@z*H&8|1tWCr+EK`o+G9mzk}P`o-23{>N0_2poJm06cr;_3&FmcWjM!-K`l{
zdB)?*G;R^Loe+E{?|Khs%B$1mU1E6`ppmcazQt7T$Z@6;$Ne(SRdMaI=xkpsPdNjE
zIUvCnC;vD~=1-Ax8ctRR;sKjtQvYA32-;*B(BWIj*FsJ=IrKGn>Rq-(o~~n&Xfzah
zPa};2&5At?Eb+fiNy+&k{-o}_%H_0L!;ogN|7RTi=FAR5&$6TJdjGuPZTn5T;BFBe
zt&8@hXT<j1qGNZ?fcTt|v)0b{FX-mCik6noO$fTj!C~ED6|90z%Dh{74AmCGrdPS3
zE)04-L8WnhSPu%kk>1C(VFUaogquM;u!fC9wor~XVH4tPSB)T$O5|yY?kmF{na(AX
zE>|6OXg<*23Jo$l=-_wlGf64dJozJ+GS7=0y-sobZy+N`;kvQJm23%-d~oKHHgulw
z-K;}C&B}rJL^NgN^ogXMgZ~!1Gl2)E>FRC;R+XKhG8*6jtT^3oT)B27?Q9jDt#>wT
zNjbNsorgr{A;Ek|`Z`}nItiGl-~u7E^a+<;IS1!WP>71d+Q~xrjg<7{2L~rkoHmP|
zmH=)PKs13g1gE7_shQBq@zHqVG`3he(q~<A-+)L;)OWs=f^`?BFJQlAOPu<^_FJDk
zY6}RM>3!5uQ%n8{m9qm54P5(NLK?buEYQ1l-#wk)WnHeQeKU9?xL{ozN>%jc3<$#H
zcUIgpk&n~M=)tOKM$?^*C4s^9$1<$Jj>Se|md>|DMs`+L0J3!nWs~QWk&J5}<G!j%
z>M)Yp5k838Fop~G$(AZqAenwX&GWy7aGnk{NTUv7){Y6P4hR4Hh>q*w&`u{|G8ObS
z9w=>Q^COM*1Nr^~RUi*|RoC@Ix~fa0|C<*t!I`sX>e|zF+r_%=g4uJ|=@Du=?{p8{
zaUKxN2L$JVjMFEWeQX+!tQv7@GF#ZR$cTZ={%PKlM&>=8v>{C(lAk1phKm0-oPw2?
zt)iX+IUrgx(RX8@<HjZu@nV}sk=0lv=YOIa2*bhj^3*TtmlC3LP%sZlP~W}=>a(Sv
zHBO(IjNsTrbDn)m{vVN#<`n-jIloQLA~~!V&yw#sa^@B1$MD4W!g-bZ%&0LO*5r%^
zgLSbo$KglVba;h+a}K?sadCWw!%xnxG3;EdT5>Oq-5UDt<dRqP@4e3<OoA9x@EHEo
z$0GYysNO<&9s!9Okem^z85{>>CzuXSt~qP~X&KmPK?);#Gs)@o1mls*JZ=VrHv}zL
z^?pmX<-v)@m}?TrSLQNgE%;hv(-)@_@dxoFb#g!?0IdapDg=CTR|p?cmKBy`@if@0
z)HJ$v(tt#-rUBYoY*|mz$6WKgFTc+cxk+8<`9!lugcFcn^URtMuHs|)$XRpJnAFao
zrlcvUqu&`sCe2B`;xE9|2=wsk>hK$R9sybX1Xw>3II&6Re#WW+*OE~-<QM69&0hQ#
z39x)Xx!L)eWs6IGmMhMGh3fhaIe$RT5;@<66Q@Z<V23>t>~YYF3==CgL>$wZ{zsV$
zY-`MC`oE}bI$vQ8Ry4f%{Eg=qwk+;VRRrd&4|`v(s(th7jjQRZUa_h-Rn<RdU#@LS
z*Y=CG{d2ZVQ7`s}lIr;m(cY4Ac;+7y9UJcHG$n1z%8Nl;(w5UHyT(Y?1V#eU@3U4+
z;Ax3pJVp~%d1zD^WDDXWVe)DpI(hZ$q$!-dhIP^uPF~|LF?me|#|cxh=?aRiyw4>~
z#ilJyPE6h6%SNS|DuV-Y3)%Y|N}aXLTGz=*FnG<A#Hmqf%d9P_<4cpeqGPL5P`)W}
z;%4n%kW!^vvy>%YkWxJ^v6K$9n!x><hZbwnk>}4L718O}JV{H^nlvQsADEN_8q!s)
zNrYFH4)oPz$p_~5WdIbmyrr9UCY=BUR{7Aj8WjALkV+h+jS`!S|7Up3TBa{Wc#t*0
z*VJbXmnXsr@Pf`U1}gtQA_4!eD3gKzL-PNCaxhph&V%<PuYXFxze~w%4A$`flmh+{
zrPakIrn2_2a~G%1%Z#mTNqjU0zUtIjuu~I}Y$HJh2?h~~FLZe#aSrS(uv}$yBQ7N&
z0-scAu_UET#z2A-GMFk1lAsk%nRyVzAYI(=l7QSlrxp{W<NpOYG%`}}8Gs{1D(jZG
zUoz2D8p5ny4wS~NM1GToFIy_V=9`{%N<CG_JnNJoZb5(qobv%Dz!EwT$BE1>161`#
zf~=+aZpn#@VRR2}v<1Lb&c|UhjUR^t%9Wj~^nN)ATjzUw_~vlBZiiU6BUQH(SRbf<
zC9aICG3^S7u0Y0BwqnqgI6$Oy`qGYW(b0X+qAv*$;ju2~;MzLhop@&=z2T&|;bdyV
zDbd_KXTKiHD8(KU>keh??(5IsAYKn@spp=V+q_3J-|=?fW?-@EPEGIa({s*`2X;R+
z1c1G=CSB1fR&-{nIx@AbnHqo2#8q|yfvR+Xd8o!#Hf5?><OCL$z<>l88YR1&pi53;
zV`+?)j(Z-r+d5~;b#Sh#IfsOL{RX}uNaK&w>{7`CYmve4QEWLm8_4-z$ytLN5}f48
z`Oo-^(-{xvexnmup=n9CbZW^gwr|UEc)vBaLO*E4&b^v@mR>{Ea%p+afM1M2xpL-r
zx8zI|WacXB=JyMYy+U2DSl+jES}fm|qf8hOYu$Ytd{RHC>QyMD0`FFSj;Zq?!4jNH
zh<p-R03=8wNR|qcNW{zhn{m~f2B@Qzktj_dQCh<0h&gOolY(+vWkP~6Y$ZZM7$nZH
zJyH^J5ZM!Gsxw>?afKa`QlP74N;oU0B;uwt3L%2|?O`WMDUVcyU6IOgX~YrE=c$_9
zh~#S?hUU5>9+WQEIc^P?zp7XEvS1Bsk<{{989A;%t2B|iNIk359Iiy24UCv8m%&P<
zo~-V1)vEqiuj!LHQaY}ad*MNe-h!Hy5no*bjj=gggS0*%^}cZJgX0peV_^=t<@Ho&
zxMAGPzKr+Pl3*hv9yejvY0S1hh|=YW$MPu)hu0S{hQ&{Ow84BCQjRjpvzmglby2!<
zF*=5lyBKa$44=Uv!M^76<MjiLf_bo$yUaz%T4d-S=l!PqjwliBzJ+Yr5=mf4p(rud
z!)-(;WD(kR3dtf_m$ZFhFOaCEd@(3rWV{1w^KBt0e+b0`i&lVZ9%kQl4rIK|Z(qH6
zHSOIjdN-%MThrcyqW56h`;6#)CR5p#t{f062kskmL^RRKM3bx$lm{>k`G1Fk*%3}A
zyIXOb2uc1i8C5|Fj-zuCLxx>IQ`S(tRq+ExOrcb3p0MVuN;siY7ViSuqz!8akuFa;
z54#jL0*EgvB7V&VIycZyLK>60r2Ye)f^6YjW-LZAgm_iHHWSh)XXb)dK>#bC#vDdT
zmo)s&r0JC%N%Je4fFRon63gDO2`6b)G$3i7`~swy7Ix7xED#!y(Qup}(YmmaMj>ov
zEvQ88<tVub(i~Qq>BwWHJnQt#UeGg3((;M{=%+DU!gA<}j)f!aRNG`tDBA-!StfV9
z;3uhy6QE3o)Cw%5(vhrD!sHma2V^cHgs{oQ{~7tx<QyaCBsu5Fp<(zbLwdK<>v3|z
zaIzH=nze=z&R?JeFTpt|(c7#Nh5j81evR^#g}~yC65TgXR^utc1g=x;BJfxJnd#{$
z7>O5S664$mIW3Ygwo8a*u||JP#lJ{SzWG0)S89nw<tH$sB6%v)<1Rvr(XWcG`3D*f
zodGU>49?HN^l)(Qs_U1(**#~<lvcl4d!u&#=><Mj+A(LmXXNZ<%ih+xL)Q<9_PV>(
zb@w=}$B`+ky{E(P+%Om>6*V^wiRFQe+mk7;%~X0bRgF0dSJ4AnRE2fU0#r`rV&5uH
zd3F)=y5rsYcj|?nLm!r>8b`pr&e$3kJ)*5|=_|sPlNo2L;Ou1_?k!^DmRp)zy|+eF
zje9cX9qIBOvAic$-izv+%Ko~{bE9p(asK2tyK@Gv)C)YOclX?|P}wEgyO-_Fi`zu|
zri^QY;OblMJ(TV}BK98na9^tTIHl<p?SW;9{VoI!+)ku?N5ON?*nEPmD-+mHNpRTj
zT&~~n_VYKN7dm&}u1M8`)?RbBqvsF0-s=*!45vCCo3jXI8$@&4va=dIbO|GR5nm=-
zSvXCI;wS^XLhwZZkO93UJVZ^-1FLmTyM-VVdFWC1ts<nQVtbi#<}GCGNz4s{#E4@D
zHrkZ<6gjjNDg3t=Dc~>Q$ow~jkj(ZJ^ik&b$>I|`9ti=EHl($gr)Yj|MNK$+ShX(e
z9p~1J-Sx)swc)hAS+qB&?5$~gzi97I+YgHNgE$0$pl@}r7__d69H+HZuulQzWGpnn
zM6RvUhC~9o*;0hcuNP(c=+cRJNb-ju862I6gvScUQ~gq}qFw6|8kH}Bje{$;abSB<
zWuP>~g(>niK^G`U6V}X{!q}EBalAhXDi4AEA?^+HnD#6f#?OPO3W|#PWzFlxr1^&S
zb&H-TCFZ1sFUwPFK&AzSU`U-O%J(PoBHw{l6xqJ86{_-IjPg=sy8>;(m^6WTEYE24
zNSg%yeTsTkWa}y{lhJgvU%uoqtp@#`HD3l1;up_Y6`;uGnWD(TM<zg0V3O={A9!+c
z-}uF;F_M<`C8mAnMyJBji0{P*C7xaksO24Gtb|oaDRr_Re=D??9Kp$$5Yy+~_yAye
zg*mn#BWCUM4>fOUG~DYIdhV*`pXi{4qh)X%x-X2E4bgaQU?a$}G(~BvQdl#V!LyO6
z$dwEHu9?%1xQZlcb(*|a*G%rbaFSZ;*J*kAP~m@~4FC(qU-t2yBe(R|hXhYIfO)#S
z|HtM1KeGJ|V;OzbQ>#IXX-5JNpOJ29Bb2D}5XFF0+61T)kvy2omahs_R+$djvK0Um
z5J00fnAb^&XFaQOtct2&YjSP3Kw!Ft7V)2w^H=0BRNz07@2}xx9rEH=*avJ!rBia&
zCSd>)WN@x&Nt`CTGPUq4kyUCTYfb6^#Rhn0@89_wU8WD>f`hM7$<;KaJsU;O#+0WI
zyQSHlHv2@gZ^5%Ta>u-by*G;HMxm*H>4iJyq2>A}Y)cti+4Tw0=FM~sES>$RYgek~
zl-RXvVd!>?xbN}b-6VAFnmZ!YocarA&E3{^?BeW;18(}uRygg3GQrgZ3W~ix)6kS|
z*eW(`&A4hns{x6|>zF$ZazIIG+KvseBjfUBTn&(M0ga@j^FF5s3CG8|YUXzf&JMxc
zk*nZ3d(s_4V#knLM5jZvx6M5^?|eu(_JVT$=Cf^F?P*P%u%91kP5XB0e`M9e<=>(&
zXptympu9=afmKCux=^C{A>%EqH3r2|)Y=CJ2u(584xqZGm~=GYsHP}e$Bgh|Y#j^2
zi?DTyohE0k2^Cc@o{KTJWC%>O?l3#^6D>QeC!jP7T6NgKe2zToowOw_M2}bZ0%roC
zOnN4X+_dIN+Le?NlPPJV+>=#nlHpa|16>KKls!pTGJgOlO`6VXX3N65S$DE@h<pAi
zw6Q!<tEMeiYbv2Sk`Crt!-g4*B}swLRwT<N>y`BR-=q=JVikqG(r^i{5}$Np|8dV?
z+|{E<<vQh5CJkpbtIJ8cla({r(`MbTKcnaHrah0A@YU;-AlFo+oZ>AvpH;aA*hR~5
z;4zLq1z2z>lJK#4?US$-pA1KRm(N9}itb@PY<H*mi;;lUsz9(|?0d8ejzMLtOVW<<
zVG~5bq(~zd=>uBiyF3wvYD~n(G@X2;<fInDi1u-o58)9$8X3J53H#c^k;LdkG>*i+
z7bTqzM!{!#El`J=U|N#k@X;ygMSnr729wf)Ju@9o?ix%!IXraWIC-Q{$Sx;$`F8G7
z>sKP=<kI42FYSRqz$Z5kUjJZHieyD7+1QI(7-;cKF^$PUOQ*n}(qv^PMkb}rXYuNH
zWlN>9SaQe|h9g(9rBVwEgUY2;5NqQTlFl2j%xsz54s3OD;&8T9sx8iHW{u9{*jW>X
z4w^l@BnE(W!Qs%$w9KG~Gd*>dAEGv1WZ__$MyA62zouqZK_)30XJC>48%h!(=NFVt
z)<{z8mj%<6cOG~Q$7{#|VkM#a{C}m4MoG9`{sj|=y<g6jB|?}M(CW+gAZsFpI2sza
z?15+|smihbWlhT7?;H(>A$uW>3h_mePf7yVO;ho~l3h|_mP!&XCy1j=>@~mAHr>n=
zi)a$c^@bkA^k#-1ZM%MiqW%XATl^XvY}-v-O?%q2P4sNTp6zK<z25G$cc19pCz$Ip
z^_}VZU1I$%+OO+6(shGk9i&D)EPR_-zb##VRIJB2wB~MIbH-kiwzrG+cA;bEEnZ=B
zU<WPpEoj8jra5D#)cb(%ZoN-v>=On^N?SUwerhj$<LI@c^OY&PPiWpQ+P4ckNksh5
zt&VFgU*CX}v&9A0jCWw^DPh-%RKrQZT)XUU6Uy2_52&e~bN-~NWA4zWF8B3A-?YzP
z5?!r}M(}Th{sXsP68jH}u3@ljN?M3NUjD|&wUPM|p|%r8YG_#9u^;@@+axp(EM2|5
zTio(^%6m$%*MV(A>5yviD?(tGSi9?veRsxQD|mZEd(XAwxl*pWGgrphYv-T&$hJXF
zK0mzZ6zjI!8WDCJ5o?d!u^-Ktoo_g<IfUvCp{nzaxog>3DKl5HB~U8PW242{?su_m
zzQ(<#c}@G8`?d1dDqgF6t?ISv*F3M)&{6zaal$bn>1&>F=>()@N$hP_zfLY}WNROF
zqcp5rSK$Fv&YrL9YuKiW9o^J&jY)kmGy~|0z9^~zmUJ<drCCt-k|qL=U#o!6%zRbw
zS(vW|to72heaoW(U#q@WU5vFIRyVv^>pCg&R9{=t`m!Nuds%mu`&#)_G--Xso2XFg
z%u@{6q0$b7r{s$e6O?cyX?tb306noKYLwC@>l9!9S3wvgk-UPMZIdc`kxv~~g$mvW
zSfJ-o+ZEP-%^fx*d@K_j$o9ME%I7NPG?1S)Lfy|%7#lVvn$(o~xyre!x$3zZq%<R?
z^P0Bks9VBTr8l##b>?cTQfmHJnNwf$6t+NapBD9UbDnWy*oK-*lP+GHES<6^+LZiB
zXW0HhiCS-2!mq@H9iUJ<K5!}|gn}4X(!8n!SH6Uz>FuCGm*r#5l6YX5q_!oIgu|#*
zQr|Muu@5`+l~o6P!qf=|UioKmen(Ho`)hiJ^KsV<Np`?zM}5utb`-SlnyIKniS|L^
ze8#jW0sxYE>|0kztx4*>#f9|+dWPzRLb&1Es$S$*HP;B^Wtb{qj3W~IGLGiYSWlme
z$f(|o(btaMcIQm5pOC}E^t3O24q}i*3<0jkN1)#xhc+>=IY{P1^aI#pM6w0~^$82@
zr0kf?ccNfPdd&JHX`vn9d2sIt9r2ran9||0b|%{(=_tqfk10L1CR-(K<BDn-E04xM
zD<e*;4M6ZP`6C_b<Md5vmwy?Ld<v)bpv{V{0$JONRWS3yqiySqSh<?~m#2_?LHQcM
z{`gfi2^5ozy<DiK-D>Xea%~TI?6uqGj%J*-^Dlkm^kqDaX-}u<>0CT?XW($kGko2c
zscv}NdegeFHC5ep-Eg<km#OqER4kYlE`2bz)cXG9;&VApvmJbTO~tkqovx}3thCZH
zu-Yq{1$Xm8RCM<V_CATc{05q^N?U{`7n{0&1P@K!YdDf(vS_}|2!`_H)fNz!3#MtY
zBdxMlC5U&esMKOuO9wJ2=fY|eTN2u9#wpD;Gt_hSXEg=WS6hrvr9cz~MnaAeqf3V_
zOl3V3npNdVhKe%@MhGwd7CM;MmVjiPs&y?P%?ZRqRFP&QPs5ZoD@vNM=D^a*qB>>;
z1y+P`Fdrm|bVa*UO<<Ez2@<>EEhsrJ&X}K<b;ak6gxJo6{+mrqsRAd>%yZ~3&CIH%
zg>wtR#j8T|HnD2^t*v6!(A?p>?)v$29~l0?{+|7gdqA)c2=0MQZAZFxK&%~DdI=hL
zb4Qo`y-QDh<R858mD_<iD7w^L-~Ju<!qe|Q|IYKjA4)Y2+^Q2B4~XuAg8iU05s995
za1{_GjD^j_>+t-J5i`+9z;gy~ge}ZseuOpTQ|9C~1LhG9)?YKM15kAZ+(syZ^F|QS
zrLy!>+OQrNm!%k~{hF2WbM+q>6mG5rA|t3<I^hww?=1fC<aUFh_!c~Cj!z)g5_^xY
zz()tMk-<3mRJRJ!u|gU5kPcmZJ<UGY4U;$}d^`CVp^~b|6BlXnC}6F<`1C1qbUFXu
zY$`oiSq)9AucFbIR>1C?HfLOIi|wMTkC<-`!QOzt2EX9P!G-2o{m|S9m~IO%(UHa8
zyxh1Y-MB+++#w8}5FURr)%X;0eC%w@bPV2lTI@I|y4sdIx&^rIs<eBD=-!d>c4un3
z$Zg*Z4r2KrIEbWPWhjwFrbxgabZA=H5+7J6t#YFzU6HjF><p67bC7aWND>zd@JpII
zY;8lnkk7hl;3YA<JOp5y-X-Yso>?Qv3~++v3=pu1(MTm46VuE}#%kEa|2g6$p!72N
z7(b2nGrk{=zqWvM{TCEkiCL1h6tp4VMnkctNbKyB$ePuJ6gowIBaQQ3ns$D2Xqoa|
zRDQWcyC@i?(D+ord}TW?EZA{;8#!#|vUS109?|GteDOuvkPDwZ@*{1~?jpPE%(h>8
z(*6YPi2E=P|MnM{gLZJ0uMfRBd}BCW9srj@EI%ytg7<uQ&H}wWDZEoG?@X0<Bcx`_
ze9PPZoBnjo7Lop+6t<s$JLk-}JZV?6=xR>6TIUSQmELq^r&!qu!SCW;Ps99whuxe`
z^$+@%E1T2cH&=G0Dg!9N*ZHpV9jCDIP|A0h*vXAu?|R?y3cbUr#>W_+8|>wFp?km3
zeI(P|D%yRSk|v=faJPAX#?^{5ehVn&zPY`E(}%^?GLUZGAvW(wHSc68n}w1dKysmB
z)Au6(GWy-<9ru30zF%<fXW2KTT^*vUW3eyg3VcCHf}M(PZV}AhoZfEf|6cRw9DZ`l
zsWVy*X}*US`u$_X(696cLo5xO()C-!`YpoNqaQ|6^{0u7;i-SybJJ76uE^;tERG+<
zKj-lC89Dd*IPexgA{h9zv|8{C+&0}QJq+f7r5=I@B@LutS=E%O+j8FoR>FO&8UzxE
z(6Z;lEqCfpt&PgmZDc{YDi=u|xfH1*x4dd#lLho7S>&iHGDQaKWVsCpCCQ{Al{J7l
zmX|;J3@;DWx7`KSX~jAWTt$vZlizuevdCHfi%;))lOi~4t3qY7rm50(*sJ*ywFxOy
zwgI{$KOlgUe3Mo=ZGlm2N}9vEaXKsMXGT=|C|j*xik(U-96qusnCGFsr_b7CB%5L-
zF5O?CDf|wMHv|ekCBGVQ5Qhi`L0?92wpM1dt&*XjVnEZ8fH~}Ea{Lxb>n)mABJfg^
ziWdf+A4Mv9EkCBltZorMNL37w^H)@lEHpq^BFLDu3FHw$f`=0Pt1i}>7%Uvl?0Q5X
zC@~mU^_=n#(`NkJXb9wWs!2(C{H?J&wx*Ar8!}b3>8dSa)s~EJL#Dnp)44a(z61Mb
z^;Ybk)i_BQaFVcdSg4kpmNZT+)jg@|-nrqso(&6Emo}t4+payf?5R(Cc8Z>zx5iVR
z19Oip*ZCykWTv7%)4VO?>&Jqv-wBCmCTor2Ts1;%*J4C)_6z2Ih7YcyveA4ew$#dh
zg!52=2~up4nOI1!KC3jhNUpCYj2R4Jh{`Zd8J8ds$&@6aU3^7*MLO$1u$b`684!xc
zbYt2<_}5vdkGv)!3V}&Lk0c|Q$0?sfn`e!)Ca?xggkSPMMIyG}N)iMNN#RM<3OW=2
zC&e+eVGjae3XCZ~NmiTq?;#Q^AkWYK3rbBZMN&jydpJpI^84Ya2V-^K@%s?`$ZY6h
zQ%qV9#Q2Q=L)4Akwv4N&PnWCv>2iJl1JM6tTm3@Y;xi&pLwC*mgb1p!y-jepW$YE#
z&!+4R3;xAJV$&u_Vc})DX+yecpV+i7Q(c#?_KVg2boExTdh0Dus(OEZo>{o&{Tj^N
zW~*rS&S?Z&-TWwI$XtzzeklJrjm^)<p<x+WHSchOl;#~B1)1Rq9p74b@>Ra&tQHE*
zS~i!UqN~m&NR6s<2`Sdjr963u8LqHMb3!>UlX(i5<B}9n$I$?QImqZp;)DDO1sJ4n
zyt)gLm>)HrKBz?MV9958KO)d5l)xwyo%nV7o<~tIQ22Xx&fajhzHuRts_&f}$v7+L
z15k&~R5dIF#Hx*gYok!L5v=|B%PHXbyKc3Ko%=-BKD@|=Ec}Z-w|4#5{1{v9e$7FD
z^IGkN9_s8Ja$Y8fdc?m+4#@-Ycgbld=P$_#kn;>V1lD*zIlbikdpNK}cM(!Nd>;k;
zoC0jjTt_Sd3v*$fgaQf(0fzDD^k{+|)Fhh;1b+BU<ZP!!11rd&*^xsZf&U$HXqGb_
z;XMp;^8y8uvkB?qa~QavlOhG_)i!O$d?dZvfWfoua_0>A1rAl_nRm~R&)15jtvM3~
znI$y}<2+6?Z8-}Cfr0}yiiOJgBVu`b&PG9Y&RY4i67s#MF&QeB-QJu5zbLS=eNngg
z<f2XVZOWM_$jn(wue*iHPNB3@v~;alD6p*C(79aJnls=RnJUnV8^bvhy`cgAoP~Ta
zdDow_k<ZT6`En)Xb8uGYT;lrvYggyn7Md3lLf3w=ZAfSu5^G2WTeKWpaZ<V$G@P+C
zr|pA+NOgP8fL~NoUX?SE&y0;^{?tv&!hv^>zH?Np-k7scu$60S%h||>?m6bhu6aHy
z!P|;XDJpkP6V({3tl{KQx_fHTEc$wLCKhJqs=IR*=7p9?+4U~b;$5+^_vdt8!zK*=
z_3(WEjfor1oB{7B#JwSBBA<EH=vgSp$~CkuoLbzl@T^$ho3l}ngKOH5bCS=MAB?U=
zz2HPu-7BROvrkiHXk_iguhLBAt5A@6Rk;=lLTf8mY~<U{wfOH@Y=$G6Wsh&cy$}|#
ziZ(!zX20ke${8pEWg<$qaB9H}Aeb|;Ff&&Vv03ItVUEvj<h{p{D^Xi$YL4MgeE@ve
zvqBSgwW_vcc!TstWYZg@o(+ql(C|<cxGiCw98cyrtPjN7)OaJ}?G`fGT^2UMpobZ{
zEsP-~rGQq7W3oYQmFkgWwZ&thX<~&UxC>e-7PJ<+HATx%%@c)7(26p-6^@84>{MIf
zS|{)NHJ74h_f?(Wy-G)AKg^;rfrZiNAqd|=ArXg&V-r^<rueU;S4>f5wQT}|GB*6J
z5azlbk^>|rFLSb<`nk3s&3fwRg`_YbOfPG$7T8e&LL{O0YY1NFspZGXIZ4i8I3RWn
zlm8ewY7~fF?@+)YN+Iu3tlO(gP>m(Y_^wy6)dMjHbrVwP{V+&5bD&@cTYrQD4=Lui
zXdinHO=FZO--fqmZq5iDdv3R+yb#H*1Lpg#^&Kmg+U=o~Z<rmt+up5tr$*=+x*bk6
z9$`msuV8D-xT`*Oc4bN%GqpXLrY*p2?^_IXhBU}$$W`=A+Q8Tc{#Wq)y?<cPJLw}Q
zwXZnx2D1oj!6{A^yM?%|4)N4d_K>(R;tk3v?-b!AU=BqQ%g4w$0|$r+n*%JgFrY96
zn-4_w;Ry{|H7Qn?_DGXLqOvi3_wO<(3X1tXniO9}(=aKpb2Pj;b7N*9u+);O+5&SU
zRrRaiJ>Iu#Zq^7bo0h^U&yG3AvaL$6c^8ffEn6`u*jw{mcXy_uIaBWk5fTIjB0iFM
zBM_%*!G_r0VzD~T-Xa}<0Eg8_g$=k(;{VT6XLo+;Bn#}&6q8(3(A;=co;VRU<gIza
zx~Mz?-{QWlRs3Jo<YgG;$*J0<W|Px2!cSq?_-S$?aFof(LMdP-Fbsp@JP+e3KC-Dy
zW}X=-)5lCjl4<;Sz;|d`irwy03domemVg`a>(?-m_*%4CS_~vqxN4TKZq_5sa*4wF
zcb?@1#rz@7@_&J*v03hIeS7leq~PCmTc2t;07;!knCA_GZNuUqG+5X?$6E)R=N*}r
zE$htl`uXSw2mavbdq?lMw}Dxi(`qUj?>4qBL{p9Z0+3UkrUF(f6*eVwfXe%dt&9?7
zWn^V5BWzr<c4>b&HyS?&qn{OHqhu{q77SDL{EHvz%H*{q9n8RLglQLoO_13wF0NCA
zsE|}S=u9vJ$9LqF=Pim-ABe-KKvfMSVnY5!^%W!UDf1tyh(;(C$}J&%jbdx77?Tug
zf^=?L^Sm#=E9EnWX?`;&Yx|0ACNMj3OTp+k1UAQ}rpV?(9P<0B#h1&l_0WjYvf9LS
z)(~da%1dDr5vI*1AgebOf<z;f+6+vbkMGAADde(K@bjn1d4e1jlTd^nsR4@Za>fcn
zE0}p%i9-=DMmZ~2wCYq#w1hrve^m5A;@=kL{g@Wco9G`Fj-9J%6<P;G&t_2ZeVugj
z@ePrQRS2y?uDuSrZD~7*>^p^Br&9LQpjKO8uCYd_+lZY7w6W@TvAUfJ<kgGz`uT9W
zAs{vc(hZx$29P!eGM)f9S0Isj{2-BetaBwe5xDBpP8_fUY3C-<xk(rpP7j<A2Tr60
z9#1(>3FcF5&rnS6u$2*5#nz`Cgl5gkXBcBbKBQS6)-rZ`yE6BS&fVfxR`e)s&6A%+
z#K>oBi7b{;-D{q(p6ZoJZW>9Z{8v*q)Nz%w3>T&qRzx~p*?R^!ra4t?UF(usSX9AB
zr)L&Qy7W(ZXSw7!DTU+~6@?=kI?lpWl0R>cJ82+s1<9Q?{+hm+2prUBi50%)d2sbM
zbG@KLT!sMdGw2(Xg`SWv>@kl>+mecsNum&hdcnA0GcCL@`K>Hj)(BYu82jg+MMPGQ
zqfCsiKs0n+=xz$xQX$hTC(;=IJmqI=+9Z*rMk#=mnn&)Ms4N4swj3uy7Llj$NTlxk
zf-S(wzVw1E$opSt!G3~j7?N+Vx_(Ktfj0G#ZDYpWF#i?N9Z0+TMR)(w(7!zL-6QEu
z2gFSWQcNCU+1)_GqwbA!=8UuIjoE9n3!0Cdpcpm^&c<a(MC=l)`XnOxE&UH|-?yc=
z4vSldQ&o@6+3%M47RnbA>9#Fm+m;`fY|Yeq-`;U^$3pVfx%nNb+Cy_kKi6@NZGaS&
zHE%w9<JojYzgW=^6H~70H%o4m%%4fQ8W)11t7mDu=-LT>qO&&bY!sc13$5>Vz0>vk
zfs_-Vr1$d@6e5&t{l$tMJ^Uj>`TlO*|I}^RzZn3zV7FIHcFUWiTizU{6p|h9Ra@i#
zS3m;v_rGT#Vfd8*2?NeXc_3l@I{*oiqy1taVPZgnxwGb9GZqCB=3fzzP*Gh8NHENm
zj<O6y@L~9rz56_cM#+hh!&ZDA(WMp7pM&$oTXeyU{n9JGAn)JOieHviJPujEvK0@h
zl#bnE!=7}*0kPr0?eL$T|IzvM!KcK7Po)~32GYFFnitx(-+r1F{m8F+(et!ZzNZ}-
z@t3cqnZJkbGpY-Zd-u2ktH87i@-^h(5<W;2k?(QxF`D^P^!hY8FH+cHawf=`CWqu+
zB(fn9O?ceyCpkB0z)7BoYy&$CR>&phbogDiY*;KO3a9}uIbW5*v0PSpJwCtx`js1j
zoB{8Ee^&1T(zLFa=(VqIO&YuxrlD6*+&co9fo=CJWrow5<%+(Xfjmf71#?3;CKg)6
zN|0|^n3?mnzMZ_8Tnvlez8uRyR8{92b=T@vY%EE;%g~pp-I&wiciG~YyZA=(T5|pr
zWF<rk6crH)+eXc8nXZlZEN&#J=*SuHt5%mY(Hp3@&2K+<^SK<QQLDIb!<#f>G+3a9
z{ZksagYb{RqdpGVx3YwhTy5MasKW(HFtZni>Rs6ImJV<Rx#<ZS&T?VX@4-q**!+8%
zFr={0YQwg-bU~10VV=kgqeK=MB{GMdj3jFey9!JO(REIxZ)sq9$QE{kfGb&QFMrh$
zw1+DqCCKLhk(Z1HIpKFrHc53Bx|1!1Z;~H&n5&S-9j=a)N0=;s*aKe$p@1l-5+wy5
z%oVZ729k`-P*Anp0uNeHi_&U9B<>D7!*${Mx3uAg;$?)rFp$K08uqP|LW*sS)UqBG
zX@_hKs_9i{uug76y*zsQa5Gxcz(~b`b=%OgPR*?muiUl`>!gs{CXIaYG4isnXb-o6
z%<K!duTu_vt0Fy9d*Mef8p9otCVUHX@wC#nkiS@Sgz0ABOLQV<3r4OL-?$6@4a_K0
z8xD#+*^Ywqlx$V|;51*9FnfBYDvCSKF4A2m>@ueS@W^wK(Qsg<Voih;odxA)#wDA<
z&L>t3V+W*EGiD_PF2pLE<|ocVKQ1&Cxs3B4-LytF316bK;3RDI%fFY{FG@E;L2fGW
zlKgvK{=Eb_by7cPnV@hcr_P#RIxpp%F-!T*U&`89N;!=rKB$?HY5Rqz3i8w6%5TD1
zpY*FNab9zEJ=(rX6+;?OEQ+0(^0yuFFxZpSLU`NsZHVO*kbTvA*}kgrTSl04<4har
zH!{^Zrh7>Glf%dM9y%Z?QnCnW2_|<jhIFyi1!|WCsmIad8RK3$u={3OxBC>8N?G}G
z?-N7AOjlDn(lg!4nT^NkMp1^$cgeK5X<k-AP%a1{{R7pMGUyam*6KJJd1O>LknK!>
zn38;F628?|MwqN-0dpJV3BH(A&3f~h88}>%e-NLT8Owi}Tei8=wg#Ly<}cqNKEYt-
zApsS&^Lyv}g$4-V4GH$4PaP0$JCbrhd+#XQNHD!&1&gLMf0nxSG8{t5*n`~z95s20
z8PN)6^Gb??3kiPi8z4U^$3+}p=>iSP#U4zfB1iP1gry>fX_DG6dhn&`S*%=#Qg8kj
zBsWN6he)KAJs@*&Avz<nCsC&OUa5tKSh@0+|D830lVJ=IcZEG54I4vrG-A(GMS)IM
z5oPbZmK8?EP*e{~mD=HJ6OBr_#oMARV)UR?NjYUAQbhiJomy04V!U*n6e<?L?@F{P
zrK24i6o39Vum6Pjj(oV{BMV^)Au*{>bSvSob!Jfr9UoW~xkI$RN=YI2Mtz5w87`!L
z=>&;gum`t`6qagJN?oTt_Olx3WyxeElt^2VR1P;uk{fHDNs`D|^B@=Dxa<L^$}w^p
z7VbfWJXdhbVc*Q08Z<>v1Q!bXMlV70oCG_&@)}D%*yv!9SLqrj79P2R8=3%`U}%=K
zo#MDF)Hh0oVW8-gzjGHF?26GC#`YzJc1prP98{%1D)r&skVHTd>6$=u8BopI`B*$O
zg?oELkqhy&-}o>8eBtvyS=z-%u+G6}O(9*@tVCz+xQ%fNTF>luDFzR+j@3J9*2VT`
z0%4;U<D=1|$54t2J=i^eQf?4baZw{Qv&QH~$T$SbU!yk7kwfXB??RUiD|O8wNK$e5
z4T>y{(UqwTF3TyhM!8&Texwyby&O|VUt|i>^0IXuNyv5-w>#nrWEgxY5)13X>;~kl
z3776nflZSwCkc9He4lBMOA?~Ii<*t=!(mc^d^Bvljv8uXLZ9-0?WbTGS$-e+{sATM
z#zxOaLhODrXrbpXqm^wA;HG7Xx}}a`eiZnxQ&GQ3&g&?zP^eB8!J^SDW|@559Y(ng
z=n!oybm)fIm2wNv9SBR;ZlH^SaMe~-+TH?7;%R#TR>&mEGugc*L7VF4bXAX7)k8NX
zw597diFKRObqB?|gQO>3*)pep-Ii(WqjDP9Z8d@oylmX%wOOp)3>~zsgL6mkfFiwd
z|J>0Z+q*xtmyxbDE`llTyswj)ne}N~uW0LCYP)0Ge%HHs=_~0ik4xIwb3;G2*DZUS
z=Z5a!*H$Mbga$S)`m$S>OB&K8{bEV~(xE#ggLiBCGYwtohV5d*_PY>hX^_-CZoTl~
z>6GVjFj4PTH7^`oJe;Z;0FS-aF*o#$BM`u;_0A2weq_0>ox0$;3qv#2;H-KVj6(a?
zlzSVxn6BI?R&LDHb_+ED<n&r8Wi2Fjh*a+t?cTI~w`ku@16J~5bC+~#`#Qdry1T;9
zB)VyLS^2kc-sC1Yvi%Q(BhP|349<F31KB?hb{#D&Gghp3DN5L+T;!qHlOz)>EGGmm
z)ST+ROchJds+{^k1d<^Z$Qf#0-$y9kB@KLsSiLg*RC3bqs@z7({rdATJfZ~-Zyv$n
zG*6->P=tUf{74+sN%Ea1XPg|O1OTyOBm_o1ASwfZ$~B6lLCcntnIvYh<IGh;^rg$3
zEK<;U+*VHQ%aeUui-~F!z!R1)K6B#H4;n><KOQJCNoz{tgJ!%S?bfZ}dOY9U@UqJz
z)b9l871jrZ<}G6RmgSA7m-Ok4r^St@Vdto~EK^wrjip|gIBHpVN_2ID1W;Nd)DMZS
zp)Z-IVbe#h0V&T%52@!P)YFCr=DIi+bS;|MEL}B0@g1ZS2JL@1VHD*oDi;rF7`S`j
zVv{lkPFJ1MW_Eswk$*7zO&Vsx_n=DXbf=w7q7&AonppF3?<AWiOv@skwPE6@{90sF
z9~H4Rqo6`%ieh$^lG<}nRsH?EiUSsBG0tlkHt!U41f1XEX<#BiO#=kAXgT_VG*Blj
zng#?LwVcA64~nNY=2I)E<g6J>ThF@^DuP^$t2N~;h*yzcbsSNGTAm)|!LV&X`XY$^
zL(5aqRmL$dhStNRYq5LBVXMzFsUr3H7Q*I~r6_t2h5X6Nd^*Jk^9+_r+T_<fvkru-
zh+sYvcNkcT8D*GtA-ssxAq)^$CVlz*if^(>@#TMK%L)+kqPYqYZrH2R%$6rjus>yt
zyTcaf-W!S`@nPwTMI7F6#Iep+;;#yS)n~a`5B_T4uT9n#p!%xCtMk}Kt{eEef;f-*
z{R=~Dl+dvC{1Cu+WfFG93HP4t%=b?5y)S#hmKpePD}{BoK3SfurS!1jXiwV4b=b&$
zCu!z4Cu`*rd({*!#%(U8ca(rR$MQK?s4-cOFdQmo>!+&K93?EywI+v?g&OiXlAcNR
zsG+nKEs|TN^bj_@2%4~`*pW3^4`uWG8Ve|C^S`*sSKgi{)niURHe3S3$8!8^L$ao5
zn;P=1xvrn;RN9!dvOe+2ikBrtl!{~}jn1q$>6OL`#5|NOjXeAqy~2=LAI6|R-xkG}
zv|?`gR$Cw|7=>boD4){8hxIX8PqW}rdYY_6yGxL^^15#7yK0|ptj{-bfUKszO0#{o
zF{uwb!j9j-K~y42&NitbPC2CcA$@36`ha?|dSI;$?qrWLD*0b!M$fh+wkV;=`XsEe
zC0mkB$>#UvgY6^rQtrp(Hl?KeuToF43||d%jK1Y;>pI`ehHuuo`kN)I<q@pL2(tCS
z){dQx;D4Vq$KL|cq-xbD8Xg!$CFDzwBGd+1*}v3SR{c_ADfi~@JeD9UJTR73@>o_~
z*G^3qS#e*!?gz$R{uYcGGP^<jHct9Nvu#P`OXO#`5|aNmJCxZ28-b;TvthRVQD^^`
z{%$+fI$M(MDlGFq8VthBrr!CIJ_$a}c3^+##6H!P^bc{@HP3e-w!2_Q>Q+{1as!)L
zZOkoPA%S&P2z}K+;g|rn7p`BLbKQmOcXGGVv-~fZXO<6KYA<^Lv5P^_9;KBa4;F>7
ziM>jh$@XMNva`@KB*EV`?ewduyOff#Q?_I8)h220>yq|g2^voBS5oJH6<C5<jKJBA
zUsS)m2Os+48S_OYC~bV`Zm^MB^9bYIH3jS&bE5N$YGu1c=Q>|R9XAbT)$83j%yuR_
z&I6+ISBrlk<*O9=8hMPM*j}i7O*&su?;f)2KML+dqa=N~M;WV!k3fEJO{#Eh6;7z)
zeaSkSnQUag0Bhv6*A1`N70ef4g=-)5vvB3~ewow{$14jUgo@8n%V+zNy~#eZ3hpnR
z`Gu9p2=pAdLic_}wp-N@3T=NfG~pZNBZ_TO#eyhVC++g>l_MpZY+;;#buq~&L%lvS
z3ySB-&{T4-`nnfy2<eofpA7X;r1H9#UXg88lVk>)WMS0TD;XD6-z4sv{MxrFvd_1w
ztX;rmB-IPaJm&>^eTkgoMIu-ji~X+@`+t+OogBhcnMe=Jppc*+KZbx2N#^G)yimz(
z!w<}yjDmd4%O(&cvt7E;sjJep6b3Nf#?JH0NXfrWrTjmXr&JQfV~2amq9^~il!Bua
z8aQ-uMxNW4w`%H^gTZT510{o^jF9_06~d^whWNQrT$OQ=YSYC=ufV?Pg$rcI)Ig;h
zVecG<X?Y{nrzhtC<xG(C+vL!smgE-yHTnKC9GE^GP5ApIYSvqn=iB6bo#M}s6CsBU
zc79CXqA)Y1Ya@q@o8&vm|31Bbha8Ax7TQEL$N4d4yG#*g#s!Z|!dkXPO%}~8vTzf5
zWywZ(?Zn+ybGt|$6VsQjA^<5op1_^pNaQL^#4e7sF#agBlx8c)qmbpL>R~j7jG={K
zk%+gV!7w9>3;aUo;<D#*oOe*La>0<4i?>nV?BtY?<D?{x3t%PW4Ycy56j&*7c?;@i
zZRSZ7pLbIV#eD19Bw44FHQ$R8If-Nz7=%ZD`U1H2vYp@%_!Tg!K-)R3+%Ne^GN~RS
zXi3FNq$;KG_{`9kB#RX-<t?I)9l==uRv2oyvbJ>TCb4u=#$NTA)>z_LF<8p1bH-db
z=zfZ_(HYoRAj>hT_K_S=-~4v)W>9D!ymcm3zn3hj<aOBgrF_t8tA{Dqg-S__ZO`qd
zRO5kEJ(vJB%QeIAHN4gOcIWSQ{@{rpKKK3SAeRn%FE!RV62Pi`OtWq*ZenS8yY^=7
zYWuVWrfLhk>shV!1=7ADNqC-7|Mx)5j?_?oX=}FSJ_zkrch8lOZK$SZsLXyP-L^w)
z+i`2J*tSb-+y%2yneqxU@uNCTE#QvyK&-ZU+2NeiWgMlyy?@^P&0{G?<6Upl!eGj~
z5q4%j?Hdp_A58Tf`mph%z9WLmw@@a!TGB3<uxd}iP|nGZV8!<2<7B<I5+moTp4UNe
z_=TkxZoeS3oEDv@KX$h+HZN)Zaoch=RC#Zf2>!v3ss}T5Ezm0Nedj5$u3PBc|54q3
zWcD;IoV@9{X;D+|{HS{8>XZjRsynEroVR3Lb&?gLg~N-d-Z^&1)pr+yY0;a}#o@&r
zKZyKr^81r_8ivyiC&Y#mXr*xa$yCEr*KHY>FYRiB@vKGLpSd<=N<H(<H|ilIUAhr>
z6GDMsR^#_}!7PJ!%XNFE0Ud>|!cwnTzX_J!>bKs4Z}4`hShw%?NwAf!7qkTZ-n4X8
zY}s?iwO47)wp7DFx?xak7`%1zwl>wU|MrB~aC}um?w}zq&-}?7j^DDZYLTaH(IR^K
zP`76QMi6V-|8eQ!UI-f21g^uhaN*nCTHo7)HwPDuDVS4i#5KIa=0jrbp>)kLvF2E+
z=J<6Jaf-_8=dTK|A9nWkW#PnAnDpMV>o$yODejb%#)O*U3oKq0ecRH$U7~MS%7=S{
zHY{qyazB^=jb+zMD1E&=^sK|PV$0AS*MXv45VswHE$2t=#i!+-H;>*px=@)aZ_iY=
z<4U8-e%umVv1z%o?Vdqf(f&CU)~jx`d~-w2!j)FT*pYYJ-&3d1>+05G^W)*8Rnxwz
z|7(V0&FiYKy5<|VwhMk{eA+*fYCVn{C%*i6wJ|nNeGk5U8yGsx=$5Z*aa8p7EbSE=
z25xD@hHU^G4Lff)iuL<%kBaq&KI|3ij$)QKVj;X!f87BfbKRNQxm$2;xa;k^e(2Nc
z+WAA@vM*c`tGkzsV)bTW$FUDz5_g;st4{(pRCJ+^ipF$#n^@kq*Z?l2u;X#D{qZ~H
zr|t$0XQ~_7|Bg(xSNgwFV(O{<+`(1V-H6QZUFf|Y`Q~)aNyWIhidM;>3iOZel!N)?
zlS;i?T`SZDmK?Xe;>HuH>XYE-3N;;=I3Dn9brqHOVZ*^Icn4Con{PFKRJ#M}NuDOy
zV_Dh<V_fKR{q}VIZn1thHj>+W#rgwKM5<`P<U+Bv-HTtj?G$^Cr>af}r%r!Vb^6n~
z#<!2&JbKsHoN3v7%kiOC-1;;|v$1JKr>}4L+{}4fZ;mgVT-1ImmTBm|XEW3XKDTqV
zzMHKJnuV9<TffzF&&hduU>>G#lTaPVlsA7To~iCw9Jv(|yN;ry_DXQwDk`rZr*Ts|
zyzkG-_vemiI9L*bfNgp6!V4d{`_&PkHP!>m>9?kYoyWxLV_-L<+fcn~c-wx{4wyVG
zwjM}TA52$M?1!Vm$y2H7)0rArI|DFD*TC&d)oh|68(6NX#ai>!VXdwD2Dp=q>|zu&
z=}tMUt}(bpKv4E9+nvANe?6IUw+K)Pac>drTjuuXp3rm7GHH{!<7mA9w4Ry<drCr6
z-!09Z>g{tSWM&=LQwfzD7WdvErhcDj?@QSU=GwRZp#RpDKZJhSVPaa>g8}J+6}LXY
z*(aDKspD0gK{_kg@VC+q{ECc`7v~LzH41Z@Yz)V7LO%sg8kpN!u(^RYgG&ZgaYns@
z+Jme&=0#bBygF1vPhKk$#*B0YI>D;=5<7!JwOls$O692HUQ!ur%E9II1?8CDM_=es
z%aQcSG_OC2lGGEul!n}b7MWL-q)I|cCB1$Lv;;C?W*Cvg-Y1Z`zyyzhze%VnlZ`)2
zJ|-alB7BNQ1UoIfiGXZH0oOUNS}aM4x(ebLZkcsS7=Aus)>WXV!?cpK@)ZX8G{y8P
zTr4`2uVALg)oJSrovh6~tp|?!AqD{)T<`FFBJCX(>Hnz@ac?IS59>a5HfP)wbHkX1
zJ8&;^Js9bpZdiQv_Aeb4y*tT5zq4w7%SX<pOmkbhc~EQ~#Hvg+j{t>&mBJ4ygr40g
z{~pn`M{u=%*`%q5mx>z(aEXwo8y6wDS_QMDTz?P(qb0bcEk8(Ew{)3TXnOh*+4^S(
zR~)+-iyCJu{*UNue@M>1fitGedOAZBhk)K!PQYPiqO`BTaKg(@I&Df18LlM}%))!}
zip9!yHww)C`L!dExL92~L^Mc1E9;cLmfA=d4ZDVL{@+qFS7(u=lBlKZC?v}y{Vzzk
zO6BGuQrv+x6<(v+u^)y099nj`W1$iDC>M_jU3>4kt8W0_bu4a6F$=+;I?JzJ7GYk_
zUO|R3YTC#MoP~3>!4}fP4Q8A}Grs_G>GP0_K{xs)Yo2gE4HPQ?Bhc`*PeB^8hysrP
z%Yaa1Gy~L1XmP&MvJR9|trGy+6}?6Q*N<w()l{G&>sVO?mDfCZs|R$WUQtMfJN#Ca
zrDtV<x3=~v;P;!?DT@p?7PiYEK|UtylZSjkl#H8(nMP4w^oM{R|1LSIrqC)F$ke(=
zDgHb;G#wRU1Di#0$$-c-3NHr6+-o6G=+ee7C7@j-|64R&e}W1D%qq8E52q`)i}Zi!
z){}6^Wb2~_F54;vsFUsxnm6CtA?z3-V+ecq1N^awCa8U;Yd49to0gtU)$WBLoxM@I
zePyxhmPzpMxntj(p%Q+z37rrPlHeQYILduV+45qNjDUUw+2Rm(JQE4WRqLfRhX_b8
zgyASW5GB&R0)s->{)>tf72W<Huv&_RVZ_t|DAVvCVIly4F@Z}1lPksC%7ZO|CW}Z8
zC6t89N(xN~#2-{1HjPj7kO>XX^nD4kjGX7YG$#hpQ$R2mhf8g2ow&Jr?$|Qf73>tN
zJJZ#@Vs$SWA-oFPZMS1Ux;%Zj<&G)l<Dg%UO;C~={4pB5O6i_91-3D4l}7SQjG%(x
zC?Z?(fH}r+5jHLd4nY)lA`!<pvXP^j3$J|SGYBYVDS6#}e|5P(qCp{JJs1?Am*tY=
zR@&JsI(wJ8Q%(?R_DDiprpu9uv*!}=RsBY8soz=FZ?e33RtvPUX#Za>TgP6fZq-F*
zMM3tud2wriGJ;?Xs;FfWQjf4^BySKTxmgs%LOY_EfK`F6FEo}hpG_k(ro?FUe1s3o
z&|Tz_slLmjmjb_#ZIUoa@4zoiplCyvJ^&StlKA-vQYa!l4#-(Urz1v0YaSan6If={
zY9^Gt2P2oY!w_LOB#&^m6lPqZ+{85S<!rKPt&eG?d;*6=q({RrMebm~YTh;0X81p+
z>9OTYESAEC{3%V2OK2aUC@57&1=xQr$=IA}TdioTg=wRV-IKQaU}SnBAT;*gvG*bJ
zjUCr^0Al8&{0p^rAW>Y}gqwJQ58%poM(rdq%(SOV^mHvgb?bC`=P7aLDZ$f~@|=c|
zB`4Ne{e!ZPD*m;ZO}D&(&SDaRG#N>$@+?gRTAX<BDUCCOR)!hDIfR??<a<jl;(Ax<
zbCD2#9$l2~G>NNO7&x0Tv1=jt0DqT0$WPz^bz^|e0;%&Uh}Tc^kU}Q~07(fB>zA}B
zprn8c?nwm+Qti^c#}5c+vWrrIn9`R=sxP&;868{A`e*e0T2U>?&RE<HX=jh<?8(%2
z(skSTpd&(cKkQWzTBeunn6WFJ`3uyc_BATUIOedsFd**BE^Jnm1ool=ei=Ekl^4Jt
zf=wR4dJHF!Zm9?SFe3SvDH&tP{2INw>2;2r_sF4HCY`vRf-kF`n#vlFv10gdQSxUf
zo_JJ}%JS3XyG;=!I>G-b`Tjlm2+!pqe8BPl8~JFS@P9@=f|ESP1H2#T9k6x5z6k%<
z6j9W)Cr>ftRABbRhX6~+v}X-0E(&_jUsSg)`?h5o1~Sz(_e}aa>wTTkV-)lipSkoE
z*3YbPU_Pd#8rw<Epz~PoRXH0FU4#4H$V#T!a7?oZgX#3UB>&#(zg_<Q?VqtQ*#ag-
zgD<d8Go<;9>o-^zW^(j%tN&;8lbh7k8d`3R=Q#X)SiV9(x$PQ5GpuYLe&_JJ$KN@=
z!r?V%JgGDEFIU!(_H@obFCem1)(AB{V#UUsi3PxDsB?{Ow1q{C8!HX1i<LPJKf<QN
zEA$I{mAm$7a;8!=!pa5uGA;hkO7ODmu6}dy#$e7s5umZbYMSWXuB5B3e=~U_xeyks
zI&wBjVdol}a+Hr586}<VpE>DmgBvv-%yIZxn!TM6w;Wj^f3A-k+@r~K_ujKP4E1VV
z@S`r!P^o4Uy@49lw={&?Xmb{N1xc&0W(u-%Zcna+d}Q8~Y8HS4SUOjn6z0<#_G*@^
z>ZrLn1HGUEDcQVUwA8JbSeU)U&;T<06HEQK3_rAg-!AkIiQNap7PK5OANGG3|2HtE
z4R5Z&jBn@o9G})IVGuN}{0aUEnvl-1>1Y%n19l_hfzdN#JOL{<S0z)p1ofCf;H-t+
zNj*J{dmF(_qDv&M5{Td}lmcvXjwf_Z;@0A>8mRgNrl$D+9d%{xg=$O85N@`$Feso{
ze<G{v(0w9H_!kqnq>~xp&F)y0mLYTTz)P304~7QV4W0o>+vcKV|5CnSNs8i0V3>Ep
z$!>mVF|23;j)jFYO`q)6hh~Oe5E)v3AbTm*U0W>sW!!O!ZJ8$-Wy$7^+z|$#vX!(4
z%OQdMrofj|@^Tg_W0wRCnZ^2wd`XfP6JJRoewLW^E)=;E8H4^4FR3=i=?Cyq1($52
zX#Ilp%FtYjN{UZJtCLJV5GKdhkwe;#lJN(!UYFhQ(Bc@^mG@D$M#|Cr&>X0~iBdYH
zl&WqR-%O#>(B;Q0Ae}?_7OH_ZC4K`r45qh}&rc44ZU_v}s25~~4qZGVT_x5<sYn7?
zG6da2>1!THug(L0BPAtS9?2#&v5A?5=d7nlrtyg=EvEr0w1mZj?|m^cH5OqzNw$%N
z70x4RjRY7<NLRy1mkU(0bZq$qq+4u5aagO1jq-Fp;I~ovR(4t&2NOOnZDMpZ;Yliw
z-$f2dv1JX?65K-pd&${H&VF)+;4te=SgDf8!#8N1+lFHoa8Db%W-aSJ#%9*YbmHLj
z#i=k0ly>zSNGq8SVO#RcR3h6{Um@SGlQU1w`{W4Zfc(y7%lODyh#ml|k(V0GEB+r;
z6x%C_d?10h=itkl2c?O<i!Z_6iBw$t-@%0$K#k^JfYWUKYi@6f+xrPu@d;P|=Uj)#
zb^Ik~XRrQGxLu!XbsFu@%vv}`=5U%ln!n<jKH>U5;WmB3HGjeleXg}=w4ZZuR>=9h
zoMquOM>U^tJ)djM6ba`ZIiHsqQ4|N~bBE&lnS;~p{DkZNgxm4ws8O$kuTIgE)9W;q
zKham<s&i|_^`}#ohL?@^jpZ8S!qNL2esY0;CXlJF&FS#FY$%z#3?nE9h+iU9wTn)_
z;OJO9w6tH?HX>{q5xb5Hj^m=?#EJo_@1N1QH9bQ2;rkqZ?{}4Jc4qW-Lc`|!I(Y8~
z4rnx089i=I*dgi%@9XIG{t0c+pgE$+=)wOP6!kmr>)89}GuFLYP2W9^+}vS3r)?KB
z<!McusA<dS{TYitQ#t^APpiFe9WrUG8NKnf;a7$;`pS&nk<q&{`cfoYDWSL(8<O2)
z$$p+YRl!-xg^G5;<o}G*Xeu+M6<>XfK4axC;siMV*r-3)!~IE*<=_t8pKRB_{eJ=2
CB3@(w

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_5_vl.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_5_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..19004620720e041002a696b2ebf00a463702fc62
GIT binary patch
literal 62664
zcmdSC33yxAeJ6TB0K`rJ1VIoaNP?S0h>JvOUu-SbzS)vx*+%Tb5CKZ008+XDwJ>1f
zB+d(!I5jy=E2>SN=_cQ2`q`Z@{nAF6_M5ovYwNyz-xSwS3iMX<qRx0;UuLG?P?1t6
zX<z64{^u^Zgf1l~eKT+7N<29C?DuT{_59EGT`oI^CuRE5$o7BFarj?;T(b9GyP4yz
zbI))IF3KegiK>(#T@|fL8>7awDQZfaqh<qz8&lP3OVpCKMy>4Kl(MDmQG41Eb)=n9
zXWA8Yv2b&$CR&5^=9D|?X1|`aH|mw+YSZ4KDg&4HMeA5db;_TvkJdB4B^5|FL>rjj
znhK^HqmAjNXcK$4r9$cEXfyNMQ!VM%Xe;wOQsH!4v@P8pZBKVZJ6M=A)tT;!b}_#z
zwJN<jx|;cGQr+oDG{XFD_}4^xnBSA?P4`9nnBSY~Pp^%xW&YaKy7WMFfcbr?!Swp*
zdgiZ7ZAfp7Ze)IcYEyc1baQ%3bW3_`bZdHBbQ=q=Pi;@{i0)wiK<csd<I%^Nzah0V
zy(_wl`Gcw5={?as%-@)LBE2`dm-(Ag`_lWP`_l)a2hs<l2h)e5hgf(hbvS(_dL(@`
zdNh43dW?lNr;ewej6TWyEvcu{C!#0PC!;6Xdu!_H^r`46<`1WyNuQ3MX8yL+v+3ue
z&!wM_K9BeIL`N!`{zUW>=@+6eq+g7_nEsXMucTwqSo)>tOX+wto<0*j!_sx8hSG^>
zlKH#fAC3;E&qmLt&qdF%uvMuw>5=G2dNewkJ|8`wPDNAcbTrN4R;R|&<I(Z-h3EwX
zSH&gQCNI8YkY-?%ui_4HiSAdpL?rp#J4QJ)!$Q{}v_}(~O=gnWNejnCCz7t@r9|%z
zBxfo6kg{Ks@-houi_mqN&@0Ky$tx`XRhEB1%|D2g>yzHm`|`Tb{HSgEBr9_RQf_=i
z${fD23$tJPx9O{<#O8!y#E{(c?iQsqR@PROwe8_$y(70II>pM|E|;_8ohm7UmGc<N
zdHiFR^QniFvlHd)`k3W>n$^4;Ircm}NAzWu@(HBe`-qgEVJY_^<^JSZrKh5wWuXTU
zdN4VxhJFs;v3JHWYSj#t>`i_y`PpRh-9t)Rmj5vFAJMNr8B4yHj3>_|Ur4@`{FQgu
zuE}v~&wu`^IdXJz@1e2bB%d4`O7@M9rLKlgTuzP+_HXPveKedNPb5>}A<XZ1cH~Sd
z8NNJ{Jr_PWarW%U*xCK@Ap|5x&YsI=`hP?%jF?306Y*3kj-;aXP&UakpXFHm!Ubdy
ztxqQ}PEbXWD$$nWCt^eKp>s*mav{!VN8%}Dx9uJq8_&kG$%JU!J$6;J937!jQljnD
z)eFhpsgZc*c*Gz&_r$Y9=k_P#*$F<0cOPqWY-8;7(Wm(Fp=2gA&Z7=bIrxe3vEh-k
zVtqN}^hjo8d`t>Q5p}z>+2mLjL3`pu=aXZJePa`8goo4dt7nq2v&n4i(nvNooQh}8
z#p2oQSnQ0HE@BkxD`GD5_~0Zjg=fe4p>wfJ;zB&8ga;}8mEmzdo#Zo8VR95I^k*h6
zTo~uGF)1T;{z!^G(tbLXN~`UyL8qaslc`vS`U~;qiR?%!1CI}TNerc5j`NAw(D+z3
zc_oWr$H*9}O^u&Do8<9YOP>@U!rxdTmYzt(hQ}xoD!8;haWsCFC9<46_VjVI6GKz?
z#CU2VJ@%Ab?a`63WSkcpk0trD$%Jm4_r#IY70JCP$1g7rqL!SPh@<BxF~>9m;!h-p
z;}fZDOqyb7cs#+{RC5fWBgbfJ9!XxM4{pkw8=puemiJgJou&~(wC~t6M^7C(_T=8(
zM`I`V9XRy#sguv+g96mG6WL@e&5vJ5QisLT$;3!pY*r%pWHye^q=GRcGU&^Rv8-6H
ziI!$eEFI6B7lV9KiIGaYFrFEqPs(75_?1S-Q}VQZ`a*JOS@1|Qg??ny)KgA<1fzJC
zjcPe;Z#)~v>PlxY$Gw>F=?mGD$qOm0$21xwI;EgzE+nLh;X8yWfVqZm%O+3ZL&kY3
zFffvdVOip%)8qWrSo~6agsof@>XcGFjn$csiw^niT>L`vM+Ds>R<W+!ntkar$wUI{
zJ0sRSEzRA`zWCWxa=qwO-j9x-+%3A4w__*ApV}wZs;}~RVwndY410>77^BU@u0%cc
zRJkNJbMP%ewysYf-8+#^Up+L2Va@EB7)jBDF^Y|HWVy-eCL#LeI5`9rVK*EXo3MaW
zS7SW(B6JM~GL}rA!E~Z6BVrc4yC<^a&q`b0Q8q6{m;6e59hSa-D4xm2#xEuL;neu$
z7`7Jbb+M7H!An@kF+O>AB!h9m^kUnr=#+Mv3w&~T<O&9%PT6y`yN%d}?uaEW#4_iw
zx+yQ4yi&`gf`(*Z!G5acmwUeo&vh=zMGZiRtAG|8qQ;~tQ58gZ(ws07!jP;^T1Gu`
z4$Th$k}Y9Mm=(}GtmLYCWUlIj<$+vQ%5~KivCAXF_U%LI_}S!BBUh3sY53wm$T)i#
z&)yNtYU=pRHug?oec`bS+rq~uF!lKG_;48T33D~0jUUm*k5K8_=%EW4ZT!%=_}Ex7
zl?ktrii%}MCX>rv?5ymA7_xDGWGGHhk!`HnHeI0R$1cTF6Uj^%19Ty|E!+(-5|f+P
z8>W{P>QdVt)-)lahW3ToH^k2JBiN75U0znc^m)DE^^x$%Sh!nC(;H^L=j7kZ<+8$I
zf<5tUKPz2yYTGTEvVgQ=)z}5mh)#lM<VS?NiZ#pYKmN8|w8mm%@pLj46YVjYdlM=0
zJ7ckn6Y-QBV~NEQ<3q6+@1R25F@PHe;b}Y(YNJpy19f7xw9oJx5%xBB4=(rfqieJ2
z3u`ZoT<F6}#DeI%GO>B<mh+pFYf~d<)?T=pJvTnKme$i+wuoZME6E|OO<sD<ti4Fc
z3?|s6RR4vm{1Ft%oU8C;UV!s??rxRCY+Y*P9JMq3g1xO^YP(b0RI<8Wb6#`)mDM-1
zcdn~o4KEoDw)VS5qp$iNXEawY**Sm9vP5kKYlsrHAd$cNJ|*I*0#@DsL`$-TZHVP1
zsqXIbvMfDfSq^KL6`L~QVF^#uF28eFeFsMpiR4(AR+?s(kLj&j7XR?IC(Tam(#gc~
zwI@X=ZRic3W7V<+US1K{Pp~qVCk<bU^CMWuXX2S;B0N48&YnwBGTL&0GlltN1{e_m
zc-nywseVORTB{jpeM$S3rrL0NB9jGPi7ktjDMhi4ppsJYv9lA{u4L?+(9ARAV@Yjc
zQbYg0+zRBKK--J_F-%{q|6#G}T!w#&=JE-0PQp3PKTY0Gki%yAi{y(b&R5{Mrz|fQ
zmRHL|mRD!N+Da>@?U!0!RHqEZ%ac}`tNN?%ePs9_2@tLXbQ3nB=Nag&en;jhsDRhL
z1786U>d=DF(<6!GxE6$-0V&M}_Ll^qm$Ym75|yr9!$a8>VJL7@kTCI-1o$2Vrr|Z3
zwZecSOY@7uSRiE7re&aT1yHN0@6nB00RXew^Z~HckY5-8tF7t_XFxoF5CiTg*MJ@J
z6gC`IaySbd2%sJ4BCv~aH-Nm9J`*8O9!`ReR?7-AxF3$E#>dXG{YClUa6-YP2uq;d
zZ2jJ_LZpNb?alOuPbNW8gW}N?cKIAO>6fGrd?`GV2?KnGUpkH*=_MI|@M-Y}c}&>m
z!5^o^X`+dOedH3`KE#^k-FRHAeelzDcb8!l#*_1V_{)4A4gqgBc9(YSF8SKkg1x(7
z>b?_fUj~?06|8Nvy>wuEY5aK5TLJNENi$i&+Qg87f;C8mHKDMe7Rpn*^!J<pArWs4
zls`>t=${4Ur75aFSas_3g&zXt^|lt4^WjilnmamBUW!oK@K7kfJn26N%CnOG+d+A$
zp}J6Bs`;1OZ$zh5u+)pvLXBhk@@L2yA&0^FQTX)Xe45gbBa(-vy@Uj?Ac>-8u=q4h
zEge|wMh<%J(MtY;1{x;}NuwU$Gf|Z=CJe*ogbAdo8GqGD5SB?x(mGnpN?PWeHRy*+
z&@*98+7nd-TNAdVBVkWg57$g{!-j<86<5@maITa$;d;dsbxm_u4AGjWxk!!ZRWW78
z7C3hFsr|=Aj@WE5Wgd!d8SPU8OlQEt6sw8vHasReK`4!7iAP7w$!dx87rhgiWDLBU
zIKZdG;~UcQg2`{h-@UKG`8C6JE~|e1HEWLhGUQ$ghu6Sm@g_YvL$2y9`1X?s$r*Fz
zT=j2qiK?$v<t*<S-;vn_IW9&evnNZW8GCY7$gAWqu^eVij&cnq<d;hVcEUxfkN=36
z`ID~xv*0|%CN9J-@Z+PAYSBJIEE)#$Md$cLR(Z+r6G+crCg%zq(ViH|5Dz()y)bF-
zPmEt4lZr4^B;-GZ)Deql&P)*Z1%xSMw8Z!@mEzP^&$m;MO)ZPRL|JX3DU(bM^BKJG
z)S*%Z6jyEzPh_KLi^Yb(1qSt+p)Mlyo}QO^h6BHhph=12L~B5q8vRO({wv}$V{m@@
zGIzg@v(;R)2-b#M*2deRO{GA4sWFldu30!C1p7-~e<|2ist?UPH}_)R*Ha2~-*;J>
z?bD`P*5LhGuCb@&Y$`be+H}#puUksjh;*;kEP1#<^R(&94z@r=!<8W#5apq<W;2QU
z`Z|~6MrAxxNkG3j!#i^53&=ZFHDyFPb(WM<=Bku*QwF3^XN4xk@{&v_$@Db$w&8fh
z$bSaO*hui7g)d^}KSu$dha+0#(Gv|ZvHA+Q375w*R66T**6E@}=5|j?e86QLFGoSf
z%4N1A+sj<ZA1wM;3I0{{7YqK#HT$$>##?fFUORH_$eg9%3{M+Mbq&{#&mNy2DAaXb
zvrSje7)oycw2O6O#Lb_gwmn16X*i-`KPJyeYC<#uLlaGB#>Z1UbrAnNIZ<*tD4j8r
z<@uNC^-J{XlIPJ-GL?$O-Zt>BAT&dLy-S)(7bz(@|3ndAg!9u^IB*{7n@U@^eXstz
z^`*g0rTT_a`|7*ikh%GezhTLY-=%7<v3bctJ}c+;E!oIt=e)tWt~Yvb^v<;`_`ex?
zJCqM@6g-=j92D#10+EFcLjBq$7roYS-nu0>`8-@G{1YmCX@|*NKj(iVbR+Z;2d}i@
zQ{#s4r#^n!cdrKDv3zHzJ$!}To%Z%>&E9Ut-d>HJiuP!0(t>^3ihbIcaNyU8Un$0g
zTy<>cuEEZ2OSqHv(R#Hdswd%DA>6w{c<l<|z7@h<`r*UQL>(Z8lR*p@AckKIEQc7X
z#OXNCqq+M<8w1HPpy{HG_z~xl@kB;+)25jmB1Qw-F)Q~Y=Q94Vn}El}1x&SMJRKX3
zi+*i1<4A*pm=voa+yJUSB+CR@cafha?!9Wb6_CYI30ZR0d{x3Q<|{*(QFZTUr7=f=
zM1Tw?B~+6`Te}>s$)T2)RWJrlk39|8RHZPPQI86@9+9gGyOb8LD)q}dBuY|SmklUw
z2PEY5a1Ox8szg=JlrsaW8UZ7#-!;7>myVL0O8#t<;zO$qa(XjMU;U1}XCi%#n#zJV
z_3Lwh?=h7@pQT-eJ!n&l;xGRqG+cgDd^y{@7DawcJNmNnxtNMiC9DZs%9pO2vKzRZ
zeY8i(U;b4_itp5~KijLM9qm_q<=^w&*xfAXGtC#Fo`G@-#i!O|N!XXA*8S>-*Q$vf
zRLU>^o~yb<{n4m|0EclL=QrW?)TF8Z;`vLEd^t3nJkdr=RKjE2SqO_#vGTgDEeD*x
zB&}sVtYy;N&#)phpF=&OLxT=!RyyG~01>}|ALx~kU-S%3@DST)W03r1iJ`wg(!_t7
z61+@K101oFWJr?mNfHjJC}r&OI1iC2abHDC7V;$Ww5*(*kB^;a37LoRvTTeAoW<(I
z2oV%wi>6~39|IeYEFYy_65FV2mWM$A34RB#+$<B6@@>>+Bl=lF(oEDb{2YDF4RUC1
ziuD>1JUFzeB+%`Nu_5pkAO+}G`Xa-BgA!XH<Ag#$n)lM1egDzjPall!K6UE2SdEw~
z7bZm4$tRyU7TbO3)V`Ck{kug!f;AN=GJdCokNg_7;@8Q!PL7JFGQ?2RP&Q1|012kk
z>Sx%B<Y+NPN!vn2SavI2rs9jx_u?{_;Sj#qpurdKS~(9`rktzhLvL%*yI1h;EqM1Y
zSvZ^PRp)&>*RZM>*ee9~76SW$2|920Zz=Zg6#91pX`Flhp0R2zLnM3dS960qiUWIu
zfjuRse<pi9H=9H3AdBt4Z{_N`N)2tL`o?1YR-t}tDb!VJ?bf24r)G8%#_6@y5yok~
zU(fkhl>)0MlY+fIllOH{8b`IC(%67tG)EX3TWam6-_VE7-jb)T=xGx?ZOqdtcsfg~
zw%@myTs8Pe+h&%0Zo{pnO+WE)whcgXT+Kyir{L_o<y@uaz16j~*tJ*a+WUcL@12g-
z(|d0@!zD*k(a|nA+HW~JOC8-(SXZRjwMppOblVv&I(r0X5A*a3&i*B{al3tqGp<5Y
ze_(Bw5FLhy+J`1$ndC*xI7qsei-tveI(|it6fJV1Ar*dM{8iYx0NDC5ac#p?b<Qv<
z!y}ZTJ};n*Da({~s#*g}wYAA9bEK!W0-OWYCqv{ZTh92IshlkVUCGZ^sjlhsRl~+0
zN~(x4Nug7YDf=U8w<kcczgw+9n<;13p?pHlnKLRdd&-q_jk=VW@^8WfcnA2W2c;3J
z!pL$C1%k2?X~|bS3Cp`yg-T)6OwE*gtUhNO)k|yAq^15w+9_Z`deEQWl2tHYE?1Lt
z=N!NXsP&v4Mw+FqnLVQ_q)|dRj^HBlg~}m{Pr)aqJY!#bWXU@C0E4*CB!Ew+pu0K+
z-PN3Tv`Z<y{Hwy-b-9|+)#Y%-r^HX;OCK7Ket2lSBO6i5RC-OFlb*4jM}FfPC3pFk
zePd0wPYIFBHJ8gpscV(k^6#fT%jQKbR$eV|cKh+k4UhnayR+x`WHL-}j5&m(N5XxN
zBPs(<`U7!{g9aTAGm8^Vl#%}=s+(NLa$Fu?UKSPAoki%G2nt+YjX^XbMuGZ9)XaY!
zB}E$e-^LGE9;9d>RwqZs#=&Q|0q^GlqoL&WE~5E8l*V*vBzc*qaTBX2#?Fk4CHUW^
zNFO;2zS08VzfBH7TG4*$$&*hUj6J>gsone{g)(6FEfz(J4<lzM#wRj-9R*mQ+yCUr
zWBX1%&C?p-|0SG=uS~!5zel0pA?GGJ-zDc79JWu!u$zkZGb9U@h#U4zRTs~ThD)O3
z;(4gau<uKVc6yO@0}U5N!+Fs~ErD)ZEJfOC62PyP(5DQ2nFi!4UWu^&5+WyCS0Kjv
zWrhLqLNfmb&dc0VE$69w?aH+)bA~T{@|tPdFg;LeYkw>7W<apEfP2t5cjCjEx?)X>
zP}5R!x=PMHrCJ|gWYN1>@NT|uGrR56MgTo$W8TqKstf#v;Wq~6&dgoJpLO=w{QBRz
z_`kI+oS47-=8hS|^qvnJ!^OrmLgSi}r#4@=|NY(fja5xG(?<ZQ8#gX~;=TSt@Wk}t
zQn2HV)*G!QkGJG$EO`P91a1OF&phh|&-#0g>c*Ps!>G5erReJve4Pv4ysxw1>$$df
zdiS-9cj|-JM`uUpPt1%K>Q`SoFui;F;!N8ehr8(L`oPh3J2c1&NBL3}s0IIJAk6^n
z0io-F;5ono31Hvz+L~*w9b2m7YHEwF7QxkWt9?_keYeoQ`vceR|KQvVhJ+_vbgvfN
zt8cj@r8@uhqq9d}KMwYauD7BI_iScXymNW+JB9Y0AGmhj4sBeF-}K(xee-f5bYS|}
z9q@1t%^sRd7wUQ+;NjF%@NgJ@$o~mV&0i&_gPa+1UL)saa-JtAN)F8*ewLhn0Y}TS
z`3eP+(@C@Er|=NV#>uVUEHP?IeY=Z&M}@wlrEpj2vE6t5PZ-ShJHGlQGkJj2)CHC-
z%xfhkj*WTkDtE@g-krpraWQWV_%lmx<^`v(XUWUF;0?Ac`Ixtk3vXCV2(8<eSXE2)
zoW15J0Ty+*YOlduf5+i@ZO648OJ;gO1N@CNCQBCfYUP40Z#Zu_mu&16N-t8ZgS|Sr
z+Q9YDY-q{FUTZkJ`?b)u&_`~1mGCC&iinBv@ihAY+XBdea-Jt~6`DdLLoulL(5{*h
zYtwQ5d<@$Z>DMNtFk5nrv4Ka1hmcKug0k=4G`d^MZd!rS#LywIq0FNyL9UhsvK<U1
zE7(vLh!`voF<8KcvL<b#w98dI5HaY6t0D%lt&qkss)G7*0dg9NiDgTIjl~#U_GAqh
zTy8M9%n28MYw#<@;JC?f17mb~!07TMy!v$~YF7yNtq@+fLb!j0aJPOq7+v*Xba@%0
zi-2Z8qmRw_-+NNyL+52C7ymu<1f!wEnsn+yOePu$s$D{iXdeS5EAQwJr>}k!$%nM#
z=s*AvHSXR&!l__iIUitOnO|-yqpw*NdDcTV6NYzH2Gf+eii7Y(Wo3h1AhT^qS)(FG
zEw#*wA~6j9s&f{ZQDn{8a`v19>>`<Qg%VY^RF>cvdyoh0@&v>-EN3-XMpiI#z#^pw
zc~oW<m=@OKfBWUX``!7E{&ewiFba&x3mI@3hz}UC@xKTSOI!~O64>!HHkI6qs|brY
zG%N>dHU#}+qK)Z~lj68&rtut*eg@grD4M7xjIk{msdSfwET|KMFH&W!#uE7+J`G+$
zk_=G~3XG>;Er}gk4(QorRLSc<pndvv<R<buq#>_M4u9U!d^;HaM(tanH$#gXZUwhY
zAO0(U>%8&x7>HQA#(TT2r&J#-)wh;Ht;>ntmbLUA>M6BvzVEY3)GsJx(9}+M$=O))
z1uIGEmbLfYRwAXpY%P<Xn!QuSp_WmXG!59)Cp>LM>QY~BQ=ZCIG{th}cMU2XRSj%e
zo!%%~erN)hmjt7vK#ekbN1l*MO8U)N6x@0eZ;%cdut^w?zira{EGTnZf%A<dph61B
z@i)l9|B#$J<or80n8TkV|L4j1J#v;Kmn0;j874ZffHMT$y%<eF{y!k)GJ#!KgA6w5
z%@G+9{E((d47q^_dbry9>%rL|iHi<jJ3MpoOUFuqwo+4s+`6VE2Upv4kE^b=Pgeu)
zYG3tM<C~2OyKh#{Hx}A<60+!=IahMlfz5Jd_R74o5a<(}eULY~J=4-~19Lt_pY#kl
zr^$JhoG+8ZaP&VRAHz{-yfsM4zs0LqeT-@0>f$deV=aG4C6V(j`c#}4WLQg>+qRua
znYQdu1x=OsOK=s?7nf(rj9(dhAs_ID(2|XOE6bfI*2(#s=Z5B<ncwr)p*IiZoBM>i
z{>3_>ZsU@RqH9#d$4##u!h5{rt0lC@N4`43di><8C!{Apz6KTNq2@ug7bs5?`JOU(
z&0ZDZfnS5~&|4YZp|>)&LvLkdhu+G#4&J17$~uweWTcA!fI9RRoFV+F55XsT?p=bT
z#a3*b^e<s21&Bly{vav?CSn8wrFz)TV7~>h-vn`(KJEgg2tAx;*p#pVHd`2Mwqn^i
z#D?Wl{V5{7nEH=sFKgn7K1FFvqr%5j8x-wz{%iOMo?!6tAv0X%QFo%35mEt!v70Q{
zPQX6G#Z>+l0Ha3#06URJX2gJ|Vc0lj*6@(nZj}R?guO^^1M;Xq7l6=sd_QnZ$N40b
z+Hg{ec-++xje%XwfLX+%fnNU!4d(wdIqcJ#$;XIUi?rXA<Nr=g^k2xwAP{}G1c9`$
zr){OqRsqm|r6qS9nF#>ZXaP`TC%}xm)Uk<JpW#x|D*A1>6Iiow_@+Hy|HQQ8c3msU
z|M9<}qvUHTdFy2s>z8e1*s)CFua3?g)Cf3X7{zbpqssXW`f~mR$-qpNxfs_<?fY^p
z(&~gN<Hd9ZREeD?mkO2i+kjG4gr}TK<tQ>3^LEwoAN^N6k!t=uq~ZUV95%pgC~0ij
zPy@`U07Wz$6%9{h=<8@SH6WsbQ(s;;3d5id6FKu7GD5?^?Ro9;waYTA!0CEz|F!)y
z12bplI*W~iLgV1#-tRp5tta0*^=Gj^j1`>E0001<9J+RBCjO<PMQ5|%Y@UnH*A?3a
zgtmc#b8s1eF#V{88cxh4#$_6L8I1)@tN<IoO7Sm~^E^3^pj-bVr6K31G#%sQ0o_{5
zH8qzyI!jHVQd8?)hYx!_=u<O(v2nJvEm_EC<?4e=Hu6C;A-F`Tuvucub&+q4$?TQX
z29}^U;9cnYX7Ag*q(LC>npEeqO_G2dJ@<(1q_;`hxP(iyMPic#p{2k1v13Xy5oN|^
zN+g{`Qh~6;R%%PwKw5d&_G-uWY6k(POR|xsm@X-2N;oUD!YVXS*fe2hB>Cf_MLFu_
zP&ija_7IK>C0J~}I0K8*csS-FvBE0wUPkYzlmRjk(rd)uy(|W;Vyk^X5sVnp_;}=J
z3Sio8*9b~TMccA!4SEYKQ3bJqykSonLGO_09ktV=-FnN)V|r}*tTM>N=+@szbV4Bx
zkd)RSE>D08DpNn2+DJrL@w_9yYgqL9wHnkKtd%t=A`E<^Ln$8M#dcg;ha$rGzlL*a
zvYH5{{&o97GfhyaI*6h}(zu9`1|ZW{lhY1HoEj*^U=NJ}|8L3pKjDa`)L85y4nVTg
z(=<!?Ru+6<-_d87q;wfx{4>h;b8;B<^bh1yTOmm*UqRS1Tv!XU+I3)-G=o*3)lOU8
zzd|7dw6scWfKvH2J8s5>H9Li-T?}BYKuFcK%zd&@*F)mK4}JdYkIg;?2^`}jh6Rtt
z;}4daBc;ahT*G{QKG0nX0o(2ciR7w*3Y^RR+JS2azI5oevssfh00pm=GTjT*RT5Xr
z03^*jwx&J{&x(YU3Y>_T(F0H`fk<`j5C~P*9IBF^GGAc|3MEf-{Era<`1DWsk>D4b
zAODU*jT)$B1lv19?OqPE^w1A^C}ra2AdTc^WCYME!yp1k63`l)$rb~vg}~~9vm2o`
zwXdDKb`E6E`DtUxT{~@Oct*r5tpl0G^MHn&hF)Ql`v0b{=^*EqV6py`@{!X-O{eZ4
zP*u-ueXP{pp%N;0y`6wopcl;e1+)TWvXIZZBE?~&Xgk*&UUHC6qY_82l1d!;NF{EG
zN(XoZl=G4AsKI3RmBE~^4CZ_iB1Y{U!k_vmV}I`qg0x_cKoUSz70%{@0vN7lz{w2Y
zL`u(~3lL^XSO9dYrFZ=kyGUb28XLp=?Ig$&o0l)^lk8|SL;UINHe<_?xC%$!Wvrg2
zlkyOTM(_7Ngi`@(fTw?atR4%aO0!+-;Bb&v!zzyk3~5<>a(f_EHY*rp&M=8BnE^KZ
zGVN4VUrJ7n9{>y^lm5zI1?w$DZK%L5LEuZpL)q5;w^Ht<olNw`HhMY|JMlKedI@$&
zwmOl#G%^HJ7b9brV#9p$;(l;1>`-aRKsyGiFA=+DV`uCwGhih{$e;qwgmj`A=fmS!
z(XAW@kDZwqhB*$Ll!X=nNyj83840M1QVlRdKsGZHiiT{tR3{b9Hg+O~un#O_f~|V!
z=&Kw1Q?#ZoAU`(t+g6vNn_TkMW23f~{Efu<!duDd{YvtBYBn`LFh8^~@a=uyIr6O|
z@0)McAJ3mSCDfl1oX^}fR$-^LV(r;nMQcc~hUTIR4L6f{Yv`7BZ>cp*&>>W6ZX-2|
zMz%~qn=$o@WjnGu^+bFiku2CbrIA_Yp5KelzfB4clfVIJU&er{DVP!jzOC{pbAa`T
zlmw|dt5c+$H(|({ls7#r3AuD8tsW)>uCGeC>eZy3+V~!oka~E#Ss#7O7Oc=#kMe!x
zUo1I!@k~`|>es=zh>+Lo0Tucgfj2JWSYyFe%ea(<<}nQwZ-ejcD&9c>P(mbLGjtX>
zUR^{yX&Flb1vmNF5>S(iW&lOVg=;CROyc?AhaPtFBGw(Prsag5SUbUNW@uO1<hqBi
zoCkA!g4WQ##s>hTI=nM`i*?;XUH1o$?vk^1CVuV6^!`#uMAAY6yVz5A-9Bsour5eq
zw^BoJZo?Z}Zfu!9@ow^)=ifg6Ugw|n{b65m&uL-LX^4USB%up5T|YN_?ykk?Z@p`-
z_SW7tTAOR8_r7`z2$8ShdhaY$sp{vlZ%o~oDz>f{TG!v)@V&>r`&e=Nabf#$6ymFy
zegd*&i1Loi9+@}JpL*-XH(xB&t)JdkYFjnE_Xp0Fr8dqPVJmXkN~F<eKwu9%kH(Fl
zUc%`qFJY@SG;+XgzJOxDEDO@mu|cYmFd7;pn8~6|OhbQnJ$xKwd}fR~zXN&E`BrDq
z+A3IE=c{j7SC`zrqPtCSx6QAf-;{T+$y?V*xQpQ|Qght&AMe8a(j%hT)Os07q?Udh
za@s_nM9!1coCC-U9OZ76&D=is#1e;}1vC4(x%VgZwp8ymuU_yiarjxRyGK7utE$XB
zb3;oUe&&;JrQS?^L|zG-ppu7BsQM@X@7{k#j24?vIEx^f8)c%|#1!o%GT00?ds)sY
z6UJ5$#5D}(umR_=;i!~#1=6=FVSmM>&{k2WoU&1Elj<3+!qKX7N*73G4yN>6aNRiG
z>`BzT>sDyUgy$9Y@KV$ZNvC79Q!PmKpiMsg82wO5;tHIo7C2E|(w|r%H~Utd`j8W<
z{OY&XC;a;LB<hm^{A&oJrS!LAdDV#kS`th&BpdN1)%vALt(MDaN>-B(EeRrLh~ah3
z!0Vc1(>JOH=_#NU87v0y5sr&4*)9y&4RpZF%4DmM23FF8zk#9|);DB<PkBi8$kzMM
z0i!CAKF@<lpB^PYWdVJpLM^3Wz-KGMbs#HL5e<3}b;^!#9f+odiAX`5v5E&N)Nca+
zK!frjy&mk+pn*tHS5X{ZwU7%bOu8v(`(h7L)GPk-FUkP2Dm_Tip!mzbNTGf&_EDWO
zuwv1JNJo4i_RtZVR81Ocie!v1=SY~8b+wVhQNT7O9h53b>Z}W+0p;Z{LdhzhhLl1R
zoC3d5R+my%c9r7GRYBEL{_ZKr+x5pwZ;U39Ys#fj1|*#bgek2@OZ-YL3ComLz0Z|h
ztHg}1Q+(xLWz9ldX;rWnltxR5J=u+l5A7XP{N-P$4_3cxQ*z43CDhy~sYywzpFg`r
zi67mj_{zVU*d66i#ixmVTnQ`xYGQYlLlxgS(<K8R%s!#K)4>V7?}HA4<7-BxpFeA0
zv&N~svstrGDPwfM;w%4V4=MhfUCFhVd(Aymb(R~ddht1ot2=u{P4f%P39O2vO1|=M
z_DRK$_@@+q`B!NJsTb!=_&Qh4{hQp^=<urU_p|Y>c}HH0vsJG~O=$O&3Xd?t5vBCX
zHNg5xP09L-q_*rq>vZ=P-8DgLMQ44>U*LhJhxuKvM$@B5sim?-SGf*u0QzW`VT$&7
ztat-AV|ev1uNa@_E*r=^Eq&SL2hzNnlu}gYy~;`9ky;rur?m|N*G1+9C2LFB_*o`3
z0DAqO5Ge^)%F;37h(i9x|F0BB7`$|T<+t!UDQRU$W+oHkFtbBuC2)F|Odp0PU9h^t
ztS}<@azB$zPg?uWkRDN{A9xxgdw-pZEs}GIoDw+|jLta<yFm^EaX*D`($dd(>^y{j
zKckqRlfyFWuu3Dn8WMi_H-Zb0ya4@P#*t%fxr&lRH>eIptBDC59haeR3mb6s!c!HZ
ze|Q2$GPBtj`yd=uPQYvx6yKK10AThmD+bxA7P2b{<9u`kuwU+&3?HTrCHaZykOa5v
z^dL`Am2V-3VWHn4-$8Poha-CFgpXobk#R93{a>1`{5Q#AS_Z#EzCR)7&&c^U9MO3a
z)(>GpWFOCu^Nc$!+9h>^qhNQ4W=ZMzFDa>)nJSSj4oV*$qHw#c?S<p-Vzo4yJdKH1
zEf0xTq5$ZyF5f~<#dxw&Ts{nZ8>M5NL4zn-Nqd^K1|>~q8&eLBjU=u}%n|xL@J5zB
z58-}m&?%KklEp&Ed>;;RziTxj+dKaDqQ6h@_f6YNEj`7SokGjbytS!R-%+ezi_^8!
zj*_Rj=;;tV9n<DgQ+KgxgV3}=;*tkf6@%-9;5sl^YD#T`6xdQ~?Jc(M5L$OIRtZSI
zP(+)hakV5(L>70ceQmLQkI=q{lD3w*28&$>g|372)?R8~RczlXv~RsRAhffxT7P2Y
zY&-tO)tGPE_ygCb+pU{RO<kqV&85)lQYc&u^$MY0s4a&<R^D=kJ~DDOo9}zL`sS}b
zyU=~hzaF3G3lx1Fg0Evf`_`x4{FLC^IBmV%vi;`4_YL1YR%kg)^)}sUY@K%B4y`NI
zx7@A`6l)_wZKP1kbfGLJ<s5qr=jvm;d+F#;>k5Z{z;<<dijI)r2rWOdqn_P~2+m0P
z5Rc8=Wxvaro%Z`q&evM1?O(_i*X|P5?#lP?ey=(2c@k%wd^I4iaJ<OM)imXs*8RXW
zaJw<|M&FIT`z_q6o`sFyc;Q~N8}xOETQxXmyWhn5A%2j12Yvch|C{}#)f<Yd_Y14{
z-)<dP>?;l)76uO&T91@E`bu2`rS|UmhJ}X3$YN8z^|8{L?Iq>ZQK@@#ssD+;4>&>4
zH=^{rRL?!57i!*nUp+$oJ$Sd9wQAE3T$^t<t}iuo6&p4R4I9f1z<_nEE_Q4aI<~38
zjzB&TDYdVMc%)p?mb`28N6=BO*(|s={o{|18&K6pX4H^(4gCBg)Ite<&SU_89Bw`0
zGyd83<|AFk_ZxOM9|_z4e4`UD|A%+$kpbiPedZ(0mhXqn2>E`O`AEOz`vc}9+bly^
zfa*hjMl_s;hcOA%sIo_oEue=;>yZu$<G{qj{JEr|Ay!K^Vi}CVDap^FCZ?4w^A8C0
zRO<U{7dG1mi?pi4$oVpNhj<08g1fco?iAdeMR$+j?kTzl1ouGRIv_Dd{{Q}Fem#A?
zgPaX;w4Y0XlNIU;%RZNJt^fLw-#aL{2lLiJ>3g+g4iR*0j9-Qe`y;4Ndi2J%EFjj?
zBuuEHG(B+`*tTVHv*{7_sA#NiJ>^)H98_8jA_`}>Rno<rGmWZ}0BsteX*%)>B2@Ha
zh{^ej<xog3-P3Ro{m{JwY8r*<Q*NTlI+=o~{D1myFl)wJhaF9ts%J57WukLbRhBMy
z2?+$$k*(IK0BC0xoiPlQ^C-Tu-YU~=Wek{6on9}`VX!Z3y8Uj`Bk>c`=}J!T6ren-
z8kM$`e=$>O?ct%?zyh*JC)D|S2r7%JBpXh|hK|%oDnP_67i|+`8Q5S?k|JF4$_3c5
z6fN=*D+xEXKzx-3-yAko2t~!|EHey@51l825f@;{6Dr&BE0V_TdsHEvPllX}wp`JW
z6%FS^!)4%LWHNaK#w)Cs6`w`%SlLloQpNKvKST>{-BgMdouPGBM$s4-Sgfr`4I{Xd
zy~~-x+FkC!)IX#h?<;68WLsdA@0i^&Z+LxY(bp^ZdKXR<d~1uoO@eRJB7bwB;Cl=R
z&BGF1yxGnY-Er0xogu*)!ZE3tQ$>HTfd3xpH1le~vwDSKoMm#=e1wxs{%g<9oR~Ar
z4a~(0uJ8|Cb=RK#((_AR&gO+o+vWdnR5p}0@Nqq}J#$wU8uBfJH>+;dZZFpE5o-6m
zH}GD(P<wFNa@$uwb8)Wi^{vy^QcHWWWk6^dSnMveY$ud9*t_to5ZqV{J|+YoyBRM8
zcTLxnf~$+cwL)+$G~0{Lu;2{Odj%&@#Nz751^jnD4i$r<vjbrzXU#o}2{wvqAZYir
z<gLvQLK)hp8I-AFPzGxh0hJFzF{+i1yn3`SOHM*D*d0kgwL-orGuyXUimfiIO6f5$
zA$l`21*>Xu6?Vj^qq2p78AzEcpN+QAewH&$0=7<K_G8B};iyOX-G*4}B#J>8eS;mb
zHqE;utFi(0SZq0HzTq6VA!h{(8EirYihxn)T%mP#w7`*51(YnM$`CAn4`33Gr6kDE
zH@=vj70Yw5o-v_Jd1R=}gz@}l<k8u?Q6_fyhxK7XJ<W|1-@4zSNrAeQ+Ja~$PA|Jg
zRkk8)ICILoIp#=xIb8A4H%z&4@|g;$cr?d|barkq5@k#YOfeM;(L3p#Q`t(W38$=w
zp$dev$ZU5Pt>ETkO9n0eRVcSI>m<@<|4FpwN7S<n6aWuqLQ^-7>w`G9xl2qM;sZ#M
z)2$ToDqcn71)NXD6+a{#ok)w-LlbHIvdvwr%8rX>5cKN@As-zZ0rVh)buiiq^B<Rz
z5s$R@S4(yZMd|mP{Ciot14E+jV;V+?XeS%^l7VuK|1#ACZir|`gJS2TpUa|)OovFh
zGYDPwdRcU`EKpR3J?R8HUo6_Bpt0m-v8HUbAqHFG8A2t>phfaY0EQXdm)j`iClJ%W
zGKe8wN@aT5tTNw5PlAk~-Ht%Ryr~%8Ea1O$Gi0$lzq?a#9$tb`i&j#e4b5eXt(ye=
z_iqAW?QdH4e%s@}?wobbot_^Rn%6CE6Ph0@cpfi$_6wf<Bu_p(ZwDpowNIPD9`LSS
zXv}XqDnyP7o}=I}cvdZc4|dEag<wy9-F~5A|FjE7h?l+J4m4b!n4Q3Jj1vpyg^P<_
z`OYmj*Swb~1ddEQOM#AJphpP6=v-~di32e0l8aNu4fbg#6r>tDr34GRk+*H}#7#pX
zu&o%_BLrYsg!0TC1BuQuwgddJTu!boJikHktuEH~3bnlp@kQ^#=|b&>V(kv0cE`<=
zh1y-y7PabyJ%zwpGzED=I407zQK;KAZ7T)CZ?xQKSuhk}IPX-kZ?Ay=!M!p(S|bG4
zeB1w>rf)UDu3jPd*mTY9U`sJLAOr^%aguuXbj=-i!(4yf-JQ2~Gaxj=VGV)LX#t)>
zJi8%zv%<XLIF<CleO?cdfdjx86*P^h)0+TRRycm8O$)OF*z}37s~F;tjcp)Ym#l$#
z4~<6dBY=};)6pShs2#Mqoi%8-F;xb|zMeVIS&@Mwv=wC^<a}s1K$K+|CjCeskRsUL
z1S<$OY*)C@20S^@f}3?1bM6TG4;<K+@WUS<XFE9(k5a-k!54-4Mk*P<1YA|JVZ=X0
zxvUbCa3^KhMb2(GqNj2t;tmegUW>9!v7lLP%XfuymovmQRdxkwH*nMHW|wQ6xk?u<
zOhz8Q5onUGragd|-q-^MHx&nu2!lu7-~Il@{K=;agQo=R+Pt+P-?$dKPsQd9Lh}Y%
zE5JFMAIn=COU-NZ>vsK7+aH~vW!ii|3Mw{l7MeG|*Y^I2eDmf)^OFc=)0jAhx1HYC
zj$S)D*EScw(KQ!%*ZfV#+m2h#4U2K?3=GAxaxNSc36-2}z|59xW)JM!m~E2oCObj5
zOwEI)JHxwhrP(8?`?GY0M7uzcnI4=WRHjCihK`fNq%@LC`hJfnf#_&jcomOEM^I-v
zYhraKF<JWJn?W7I-c2LE0ZY!<$S^NG3hy1cW>U({83`IcvPC)+>-lcXRfk@k&{~ws
zjhJx1mBiNBgi0AC$KejPF3gZ0jAx|CIf^W^>WM+m<0?LhU$1C8{T_whB<H(uDs-J1
zl*@|ftR%a^NVZ=zIk@sfUn$RKn(@DnO282ZOl!LSiP=xg*Df3`_C6-`K6cCh__Q4?
zU`BAn7wpCEtwQ(KTeaJ;x0AVv2f4bkA*MF)aE(sV+HLBZKQVuDu76?M;?N?$uv2K<
zRt)YGf;(voKMdICX`I`fcem%Q?Mq;8YRyl`_9063AV=nFXU66y7dsXQ=RYmfZ<;<(
zatD=sZ1WdQME@@1XcAV-)&mjKkK}e~Ebc0^Mza<Snzf)aqcN*=I8RDBh}D_r2-TV2
zI1xu}#zV@0BwdzI-7*bT_0}iek2!;Fn9VOctoCQG#!@3VF1H>z7?OyS+Y{+zN~48W
z#gEZ`YlPCPR!d8)ML-hUyu?6Y!m5YS=MSddPm|~gRE$Yf&ADZRDs$Oe>kbsw9lBL>
zc-nYd(vzF7ql2|y4=pCXbN*ZB->>_N#y@YoRd;IIIKB6pt*n<W*^jj<7PN=t9zhKp
zM;ku9-wOc~C$-X1d{pJ5^gILM#wpWTZpw_m>a1Fl-p-XU0EDVLo!-t>K0AHZFl9lB
zqz<Dq^1slCmpP@R+M&az%9ZI4P=Zr9Yzli;ReQM?u{$t}V$LZSlq*ykFQ+O3Xu@0y
z4WkLGQNmy&%LSUwh5B{G-;8c0dS>NVs1@naWT4z!xf*3gzW{hM<(;aX@=etNEz;xM
z)#mI(8!PQ13zjIu&FD`Lxs#xlK|}j;4oWxW%lQ(fAo(0Qi*AWNO<88$6kbgVt8R+A
za*9`f-^6KVQA6d-!+JF<sd47DJm2(Es`rBcedI=)bjm8H@IRs~^{oDsMU#@Gw-t|u
zJE~2o*S<29Zq<}YGU|#a2lc~8temnEvbC(xG}>NK5MEIhcoLxIW$XlNj2rFJOQ-ZR
zTjljrffdrJJ;Ty9Oa*h+kH2OUR#5*6Mg*&Nzhq9!3VeNC$gr$V@S1e%wCTZ=WjU*J
z{$DbuAKdWOIz3MK9B`q^N9Nk;#6XcvUIE1O&Q<FWNW^*9tqXaTey21&m9;`mQ&nA>
zvS}>Gae7v3mAQglvk$u_N}g(*YRWa@i`G3@GH^_&+D(OW^;6Bcz*Nf^jxFM?0dK*n
z7AO!k;cG%5o0@Yi?>ZFz*_7?owI*0y)Pw7q)iL;BeG-PLQEJod_-G;cY?Y4|CZH{T
zsb?kCQ(3;?l!>_`gkBQ9AR(nyk`fN%F;z)iDC%b(mpXH&pw{icujm|u(Q2mXL1&B@
zM*ATWMM7jT9q26K9sDqrNt7Lr3!i0~CKW3Qc-cW_Qk&rkLgU;F?pK7=!Z;Mq@`O$C
zC&)QY4zaTMqvXTw%pA|yTO^<0H^YH-ZNg-D+(f|lQ(z|rLdt>THv^maeUx`Cf+DRF
zdHHz?n4pC3lkXZi-+?1KwS=bV1(7KSNQYN4jG_`<iZxuiofSsBwV5Cp!7ZYd`C#-2
zrU@#jS~Ic9zz3rriFD=9Qk!r!HSX$wLnnuTcERX3SXMZUgsRG>NSQ=Mbjl5r-n^P<
zsZnB$l0bf!b!O0AqVY`X{4!!0`dBdBq#8SgZI#QSL&=YqOe^|Gp`=&%)oArsoKVyX
zaAb}CV_5l_{{;@ruQ<8-!1dF!r(b_gw%Q+T0-L9~b=rBmqx-ELZ|+$1E*k$}<M+0I
zcl)i51NruYd26uL)I4p!(-3^abi*{i_pKvu9$CzOXYyN<bEZPW9x%ZgLdAw|p`m-B
zxzMnA+I6R~Y1$3zetB!lUk6$ht9ZBTgOG#_e|2cS?Kg+NF|^S3_2HSe>5J35VYqIt
zPSV^F>ek^1Ma4TE9P}4GWE~G&HN(O{!P9rw0ohN<(_W%;u3aTh3&<B&u;^?RoUQrr
zy2YJBc+V~86J)6O;{3)NR~I%4t?LBmy6GqHbZ*V>I4N|V%!8Eg+IDkL=z2U)oH*GO
zZoX^VE$8+-Bz|cVoNf8`4Y!;d?>Osan*w7$aP}?ra1G)6{aj<~8^IgF`Ns>vL9oOE
zq3c&?ug-@Gf&OXdoyL}8<ABgOu-IE@+({}tZEqa9aVWoPb0M?^J&N~YXoC>ikl(l;
zruHZVhe@8FeSU7T;9mnu4{tBbzA(RLu}vNe{{afEzy8eZGjrSKFD*=h+u?s~nh3i{
zU$J|i(7o@y(L(nL!P+(Lo(q+F*A;sY3B8B#Vc=o(*#&C^wah(E{L=9C7iV8w==^5S
z+dc2?oq4g~KLoC6sIM4WCxq7BG=0zUT}S@p>3nEiA@nQ_KMAFX3Aot#ot|&?yuX*R
z0Z(As1UjyNdiK)`>0<vLp?^>Q#4|IWE(A`4z1SEjHuegQy(M3`=vxiu<YEHc+NQpH
zTvd~O+Kom)S*xK>Xy_|BeRMvyU%-E7|Dvh5?trlF!23|;sS4VsT^QHks`=FK?EamL
z`BhtlhOIQ+pvXg67tSv7g@$dIa1^puXjr>wC^QUCyFP4Ly<j31&R@1{xORN{&`hQT
z2IbyjXp?~d?oFk(o*8I}t%K9DX4Y}1ZIE8cY3ZGD{0$u`Y9@n3t$pM+bigDCvzqAV
zS~o6rbIxGV(IPlnzR~qo-<y3OIM&_{L361P+BJQQn%n$_<A!7Y7;6dIIzO&yx;uok
zdlHpwkrZw+%NR!_(jYK>?;!T2>)ct~G5cEvoE5{H^Z*3OU|b2IU&g_d(<tC|%2+;O
zrVwEe+Zh0MGcwpU1KB0wWvfiQkU3-<^xDnPd^Wu51foRksdx~t-bc#>eP)LA+hKT~
z2*QeI%0W85ARQoTQxFi+svQdhJVU2g%BwL*V^5f}Dlx9)D3_ujA|OXhx&)ev@*B8U
zCs2pPOO2Q##-H1WO+zN=`zI}ux1awvXfM=jXV7_a;Q4<3FCGZI)X#sP1^(Piwh83x
zRM<s2{gY&bPYNPq>-~&xi!x`aOee+3xAyci=uHP)Jv=UqzLbn5CN89K6E0K*T+(b%
zuIRRkCP1RB=%FiMaitwjx~7wWx*0lomnD4zc2_n3I_kjfE;w<V#l<L{XrgF@3<u^A
zJ_kSls}x<&ln<0rGT>85SII-=6{TjtN=8L4b~m_OQ${pVy=tJ;HZpF64D7yI(IK~&
zrL(e|lnEq5=7c1ySs5BdE%cIj!cMA4zK}dKS#hRT3%j)Geg|_t^QS29W$wpSmUcTJ
z3zR7XO>-NHP3wfFb?<dS`LNJ*uuy*pCVkqwzTP$M`u81c01T%0&h-8D#v_7fV8%Xo
zWT62ze&!Q`Z%wH#RKh7hSZbd?ve;M%?3giOq0jFX8X_}hSQagY*9+nGGp@h#G|wgH
zUtBzR%k$V@dHhRmZqrc%j;#kf<+QiMt0C$6^sQab6vC&~^tU|gA+3>NM&bv~j-@89
zvu7#9d770C0LPC-e35+M|9GUO^5h(`KY4a?u7i9t<h(`><5|88pJ>H|1FtB1Rl))p
z#z#n_Bo26qe6)fY+Q;nI;CMQw9N2R-F`Sqf*^wbktaIZDh6ut;2K106TLWLBj3#n^
zoyz$-IkWWoFW@j;xm^+x5~3J#h?SN3B0OYG0Q|;Q)sz6)X?4d9=9)W!z9lnxuu=LN
zmMqL`Rc(~n*gFiK)h#)g*GZNFT+Caenj~W-L7Nq(1H3E>T(9byr7DAYaAxBACucwT
zV-DVXY9Q*8qSw!v$rLL^uUDhj|G2u%-16i7h7NP&?qLI0?VicrGKcO~xy+CYa@EaC
z<XdWSnLF-Ctg|IE{3z7!o}PFucP%&f%o{J<cp>kO2(~r%EELxQ`*llIFlaFEC(DOq
zx5u~G^_|{t_5PT=RIC)g<Qy{K+9Ab&EWJ?A1ZJ{xPt0DOUAqL$Py|_JyRi3c?Dep*
z(cC<LaN(K7^*7DmbAH#EUk{1hKB05}5{H=g*T0|n^DQ5dmw_5KI71jU^`T*<=UzLU
z@=dM@0}d3*h7*!zXgQd0P_Fu_8P|=KO`aWn3b#QdGa31w_ho!uEK>=5?PBEuSmC$w
z(F0)R!{7?|Qgl>}AXBneL>GyY&JD}=yz#`Edq8RPT}(aAj#AOk{$(ZPX-6SO3t5`-
zkzwkhyGw9)-CDJ&;NG0KZkB*__4&&%s+*Ax_Mv$7AyDVQ-@S8iuG3L5{ck0DuHq?w
z>o7Fyz_ru?vUKNw0_sMP<{O4zl`KArR=S*M7-Y^Vh$yJDM34Mo*b8V}aIk>R@IfD8
z`~qmm&%w|CHqvPs&HN&DRaqLhLRYCJ7O1zjqa^CB?&+-5U)_Sc`?j<7uF>SN-|;tH
zkIqKt?F)Mg{(&Vkf-sTY{<{|PaVA+*b{vfIiUYzlYGU>H8M>c|wVXAs@?PY(k%}kh
zFQ_TRpL+$Mz+m38RBblf7wRF6Gu!hU4&0|-Y1UKfAtY2Eg*(i~OnbyvF&C1=VP4s^
zurY~y5|bAB*sEkh#Po_YYK38A8<`eCtX)ov!>2Gd=uEl@nSuFZGA&ZWj+eS2$hB(B
zh8#UMk;;zX#78_OucC1t7vKzo@WlOn8L=K-wbNtibWA(_@Zsu1(~sWoCE&1grTAFs
zNf<}CGK=FH7)4*kheL#+PN;8S+G*t2I#?SfpIqLEGWATy`SYkiG_#v8+3)~@eFe$b
z=^oJ^qiKjH504~M3E0?R=Vf_tcz~cV<Mgn&A)65RUCQ-)<h+7tMW`kpA^9%CC)ca;
zGrcbB*RAU|&5Ug*kj|9YVQwCRFOU6pjqlo7p{8fyP=52VLd|j9I_t52*t$VF6>{_0
zLhHUCn-PTTO5`~zTJaSlFy5FEU33sh9foCE47B*!2;4+_zrcOL_yyY+>|b!uR&ecO
zZv_eK2o$GjaZj06%x6MP6;C<e7i}xlrn9NMBbNfKU01bPjb|DZdQ454;H0IX$5x}b
zgyE}IUvylv>8a1*!cfe#FWO<4MiuM=*H?uc!=`E5G>rUDJ8*U$SCqcuoC50^Cn2r!
zNl0)-rmPzEW9v0X&PugHRHO<p=v;1Dow<BX7tSTNv2%&A;3=QuvtB0aV|2p=yRx09
zfs{<tSZVZu&R)S(ptU-Zy}FD_gYbhRWxIR-5?OxDe4V@I%o$kUurupS#BIRINyFEe
z`8+)!2<l8-&pBfmB<P8{6hM%vI?R36P&WOOGwP`cDx;{Z;A;*^Ve?vz-l*w~l-^Y?
zN~wB6Da<E;E5<lIkTZW~AIymwnJt-J<<Tmu5|oc4Fo9V$UBZ*IT+_XHkg>C^E5|WK
zLR*%)o;}3ahR{du*(uXCmozSCaZMbh#dd5uj@w5SaV8t{zg2QaT%fveXDsek1$IOF
zfkQHTHHst*D~4>FA5Vy;kuk8=81!X`3APAnzY}Yvi-9ljQ1cr*8zWXJse50*?M7v*
zgb@@63t!)(3HKfx(MtOaO*+Ocg#mZy>Sf2z<CY};&nez;N;Di44bO@mDU{v$H4I8C
zDZ1I@Ekg~_DOCisM`v-el8kfXaAPVylsq?{g3VTj5M&5{D$`~!(<6~*0oui7>M~6?
zqg}k592>lpnmqY2c4YJo#NW6&5xtnq^zXn~(|9WLIK#Yj%KRy9*wp*juuFl?`RBj`
zTDT$vwoD%^1zP8~%&)<w9o{4aHWvdsgussJgSUOnbLXI)<9yqB%eOJ_+?e-m{4f}r
zd+v=FZ@l=Mu|lwKF$865rp<uUWx+RtZ#BQ!Tx{DRwCyOgJzi`(A+(*yJ6rB}8s-js
z;OQvUt;*L8!d>uvP}lomV>7suTMCW6vz8eHjE%-iom~s9#mEx^{&zk>jLFtwaJ_*4
zb?afAsk1ik2}91_vb|K-iC7c_mF$+<88UX}56@eLx=7x)W+5v0Hs_rZN(t2z8glRl
z*vMBytqWaFmJQh;QJ+h|)ye-E(lKO6^wFqP4m6v2Y(9_}K(tYsOX%@4FfyEu!vZFY
z6CKiwWH0>psYoUcVC3XFn%4yX6^6m@Q#^yrY~nbz_=spLS7v4v@jsyC^d0;M<P^xc
z1&7i8FNMSSk7w5|iBc4O3~n!<C6fcc@WlGRXx{u7t^P;G&u)N$Jz~8U0|Ns6Ka$^Y
z7%p)kH_vsx5xD_g<Ys~XpU7`}3NDz_(#0mlx*nmfr%=}i4M<N=I#pWmbTLKH`lh)Z
z#isQF{`)t;YM18iuGtu{Pdi}gu3@!Q=_0D#01Zx4(6;4WSe(JnA3XgL{oG~F9s}3B
z_MXe)vEOyVH)Fl;;9M=GU>orq4uX}L5A@#-b>us@zjy9d=*hpQE8EDB-rBpAXNj}e
z>_7W42XBTnUjArZ=Mw=Fw1z7%Y0_Tj2{uW*g5ROhApDCbl!{+VK2m<+`^lk#_yKb6
zP^>Ox|80sP=dY>9FCsBf_ElE8Z>4p~j9=jRZQTpTh0_ZTA-rM9LO~!_y)(XieNW!o
zBiMR>Vxz#i4aij6wPePxlIiIMs}LSovQUtfYv^9Gk<ZTAYiD`|TkA&-yh^A%wE?sY
zEeO$>m`JCu${6zy+N3^2_Rw>$0VvaQ{GO=Vgz;Qe6#6F#({JGnSfUyypDbUkisCW~
znDD_(oiH74O*p=4dRNuihynot#_vkPhz~<=YT$D)pPTS~J-u^<D!^^L9?$`980YaO
zy|`G!j@xy;2_Iclf;g=)oZ5sxQU6s#B9QdKoQ)TV5Z$F7e5EE@muN&i_C%9RX}A+U
zP~{<%>qlvt7#Ij@MreJaB^f|WgItd((TdQZ9NMUch7sD7XhXUczeA}L^|d2)DABRf
z7b_`0W_i_#PL$W2=t?$ztlC#0bxUIPBWwS7<y9xTQC@2zqK@gBN0!`!k>15-)-os2
z%f{6CsQfF=6LxlO*q-P^i`wKdYDa(f<GllY;~G7<tU~rOdicRGjQ(2WStXaT8fC1*
zdpDV`N^HZo>dw@}zzX4m$%r&l66;q;!Dg{sn{L_32%G25#D-VQ(KU&UE0jausG}F7
z&eKi!ik`&gWH0*ItDja{8S<L!OM1zN@85!){piEB=$ozZuVeK101&|KV%a+H(f#B6
z6XOv2l39p&>OgXggxm0+;!mO+o-lV9zpuW?IQ?SvdHMH}^lM{s0Kl_R(IWHsK~7j9
zVPNt6XOMl;pTbRY69kW$!H<5){ka8prEot-|74&do`lsfztA5sP5Py@6$vI?Qm|5h
zRmm|~Ek!`UP&>|#oCN|9!|@HYB{@8Dh0b_@$spsEqJv0v97deL(M5^9g*{$<2q&QT
zdl$evc%;H+)j7~QUoWdG!#1I=radg$D6|adI+IM-fdYhF%B05zQ>YG5Z*?Xp4kDd?
z$;N+X$<-^C41l4u85;V!wk$!vSoNr7lBMa<Tu_>`>d{?LoU`g(&aF#xIm@(_el7xW
zDkbD9Q^<P9Xf-yIYcwev)%l=$pnB*aN>8CKN1N3s)q`Vf0MztIN3Rl=N%(1DPI+>k
zoQ?92l8!^gqm1^H7pd%zOjQe|PhY|c1x9bKcB+2LpRh4yqQF!`woNIT;;43|MSHoK
zsux$GCBcM!su9XMRz|7T*+_l0L&;VC1w~n>j(^iwO?I^sSMD?E`=G*9|H#tpn$kiK
zEiDAarqFq?kNJ8iHwCEo7`@y))iTwZ3!qM*dr-9V!w2rilt0%r6&`B={mX3UmD47w
z@tqbP=Srj)yfw(V8_;4YcYQ826($v`oRiVqt<vvQ$5i`NTP~cdV+SfbHD9kPbIRXb
z5A{!m8jTWlTk$9(i`oz~X27U*<$QXIWSZI6TTuvJbDhdK>RmtzRYiv~R(hA9C!FQ@
zT$grMz#5y%K^oPox9y?zIxyp9M!#;oj$C`LgZK|hs$3(z<y_>BlAd_Qqx9FPYFn+G
zK#7}L^@ujNKeWy0E3{hP^YvPtYfCtC9cqe)wPf`pTGH`|me9C8v?aNAO^S!Lr2CPx
ziWKN7p4_V3>Rk6()x1TnljcU{48baB%eAv{V`E8ars`&@UX4J@piZ+gRC63`^?p(l
z^Uq#0nzGbdl(qTDFV~yb|2@{zmWuACzV*S7xJy|Lqa<0Xc(iMEDw2yldRNiw8``x-
zAFC)Duj(3FlZ)im&|xH*Cv3W`@pW+7P9<+Av#+aHhqR|nH9gPG7+<ZrEL(j0h4O}w
zx9ZiODS0C`#~-KVP{u)-=%wOS^fGo#hVcS%lo)6%Zvosb>yd(Drd>&L{+Ocf(d!9v
zm{p5bp5_E(t8o~u=Vf7&Xe54Ab#|Oo0dS02vU^&iVJVTKM~#N7MDKptOsaHDk+lrL
zJhMXf4^-hC)&D&CNLN*~g6(w~mBL7dY)pecMk#v8d5%)pPsdXelBG1!2yUiyHtQ<I
z*O2qaRMr+sX-bVlGnO5G+(9vu<ZNXz#8Zv*NJ3CD?92ZhIV29{|B)OO%a?>(B#M(h
zn7>caKOyJu$zk8{U*HpcS~NN)9jX-TmVLgWMylA3l?DoIWyY2Rb2lT}rT$}n4{4^#
zraf?U2)$l~KNoa_;y7i*GC>q2zp{K8g~i9tSSu_(_9ER29gvEbrUjcJ^4W4L^nh52
zBKcUVN`2X?ByNgUkCtco)Aaq%(x+RctD<4h1UG;&`G^HS?6A4zoZ`7GdtCBYG1@94
z)}`6$PJAW{fC0T!HlFFhATl1|$8#heb&xonQgPB)D1~Mwca)ilE0K1L8?Bpr57<VT
zzk|c%hqbGV-VK6x1MUVBo%`>ZjqFB3E4Oj`cMgB+aDL~L`4dmy+Hk56d`8%CYGE%p
zjXgJdzSfuDaB8|HAAF{?VcW+`*WB?&^hPw_z2oMYLi28%N~K$uVOE?@Ww%SGtmzzf
z*&B`&!_aSqS-j>_^D621Yq9x&bkG%C#Q8(T&h0|y_WWZ{<xf6S2%Uxs=Z7sFZ=`Od
z7IqX`pnlqPyS4L;Pu=)b3Cgk^TLkA8C|ic@e{1(%TRqeEr8PMHXCpO~U~j&6*Lwp(
zFSMfeLGQA@WByY@{l=nyo8aG8@b7@qs7_E@M;=$KxoW1XN~;GJx6MpJKeJ=CU=2?@
zW<GJ-TR$^75B6+-(YqF^zpEm7STb>k<}QBV4lh+1y&FrdJ;l}m0k+`!-)o0(cJ?4n
zLxx)Ca)qYeg^SSjnz8=k=>v1!AGq5~jok}PLgPl2yYGQ^FmB43A)A7*v*Kx=ah3ed
zvsHI06RzpYdshFIudCF*>%AtS|5zTkmFj1nsY1tjYhkh`@0V@YNS-AN*R^)eK7E+j
z#*K4(W-m`4{BZNO{PrV-%}3wA_`&9<^8T**GlD-N**`4!*Dkhw;9s9V{p>W%6oe$B
zFN!UL=L()xMNg05>4B*LzTg=wdbSFltvB0n-ruw9JzQdb2xjVW!4Iy7WcN+u_RPB8
zANqr{r{>z{;;(<=hyJG7({p>EuMve+g@S)eslJcw;rD|R8|c1kGx@t=TBo*tw(j-%
zA9@>R1Fr{{e4MN9ek13tXXX^51yA=6z5dy{nfP4o+=<s)e&`L%*3a4J_bk{8-t|f*
z8)bq9_k)?db9>5}4lh<!WP+x;3p&|k>W04BG3%IncK+<b<$P#!!L#M&7Qyqxd&4l&
zz`hfmURyUaI=@Y*?_0DB_1gsRwlD5kI#R{eu3I`@#W`!fVw^cz@U(s4XuJJ!d;N9*
zT>nC#dtp!r^g$-|OAi9O6w`LYmTw=tX}Hy}t=O<fXdo*=X9^96u&}~?#qa=F;f3(}
z#W;rJ4?1q93fqnd;UmS?6GH2WLhIAe8oUGL;g-QXGbs17A3ts68c!R3CI+AR>HRHS
zLpzk(yc=(~w$JY<w623ZqIJXT2bYWp`v>&?L!y74A;G|J2Tlx{{;)A{VzcQ_*4Lic
zQT3;dwI>^^gdKsC0rLm-267t%CpVfu*kFJw$*v3|$CsT4C7gx+?!5$OrSqUTO$Jax
z4{x|i=ho#nDNJ%<Tc@1HR2G!Oa+@6fSp!{m@vreV*|Q_31-`k*cjP2E3u7kqB1huD
zOYU(d@72p8flHknlaVLKQdh&Q#PB#DW(mXKvoWoJ@JL26xC`x;D$&l+pUmYENM3)2
z#({Te97<&*5m`Nuu?+POV4VcWm{?CEn~g#Da&pth1Ys5Vevg0`$@5?^!Qqn>)aNeW
za;z@-c9kjvKCEfT2lp0g_T{bnBnb<ToDfZ3!4J?00^KqmL?Nn<AEA?A2uh<ogSQHk
z_Bywd>YeV@Q*yxheO(&{qr{4=co@5oL|GM2!az(T7@Q{I7JJAJmBx5IU1+102V)!B
z+fhw=Y&N8z@0H3j>7A=pNC~7=TLfmN%1%&nlajtNdo$h@Qk3U?G-vvZ6R8@?`4u17
zCt!tUNe7NSV2SGR(6cIo4YxMIx|Bj-gM}HEGirXa9m)&rII1S-k=Ch%mw#bO+wzXw
z!}w~jZ>49<lAyj<-?hZjvhuA8;g_(THN0ytw=7ntl!clxl9kWsn#vG1+NuRAT!G^_
z&j0UNcx-E6t6g;R&~aC9Z4gm{SdBe_?#8Z`=#!PKB#Sl6Iq#x}Elol!;}e;9>gX{@
z@#zXRY1z2q{LncN97Bw!9;q)|y@pQ4IPhI%N&P=)py*ALDj?fPRNWD<<db7VNXo~u
z7nry}x@+(reG#jOX@fM6K#9McThTR1j>XTUfV(prOsSFd2(u$Vk_aeehyhLE%v^<R
z1e+-bOZ~t|w9Duq{s1{RT*>kK$=3>>*qV-?PsSws2Fq+yOC(SRnw_7c#A=7|tl1q@
z%5PA_D{wN9e$xJjM^^WH83B_$A7jspfv&(O#lA-y9ogxC)`<3gt&aX;$9AD(d$D7m
z(6Mj28itsqBUZ)Gej&6UNHEU%6x;R*ZTsG@7uudA`^qh)`VdS%JCvJ&RjbkM>x=FC
zh4%f-6!aZB8@63=ZZ9|=Bb!sMTh=u|lMw0{5F7(I!2}${iA%g&imvs7YyIMZTdp0z
zNb0)szIDjpZ3lMtfoJO-KW@<DT<uU!Y}!z2=`6Mk3N3@TgW>u5g_fIjh2Z1NoK3&b
z+<!aJF~5J|U?H%PS)Se^v~MA+&MpfXCI0e}C0r|uqYbYf`LJaRR0wYSa6wPLdrQH$
zwbay?Z|uKsF}2#60cj|rxV+N2xS|tAvv#r%_<^-o)^BE}y)*sG)Y~v((hk239)jao
zjqp`Ide;BSH&I`eFDEiev&YO<fEb8RTv08%)3HvR*u08kEsCOY1a)f_mBl8ql)plz
z$;Us&w0TJW|41{b9-jsEqaCpNU9>g{)~2GhO|Z88z`B+7kP7<f>ycjS80rqKR16(N
zomTODT+pY0g(;>EF5TNf8g<0I8a6^?X_RjdAkGbRXn#)I0j){ChaBoNx&I{1F{w+J
zbz?h`%*puKRC4`_y}9pW^yZ_BA^JH(EN!e#e*+!t>=lB&#o(Y294rR63c;-f|29yL
zF!i}@-aET<{_vvr&Et9Z`n+|$go+S%W?8qBN{a)3_x=@}mGR2*<tk9X)W<7fsYro6
z4BtRal@G3mET@5$%a<X{eA#dnYPz4P(O{xbr_PyR#*6SdJg{bDL_D>WJ!Ewm@ha4P
znv<?)JBnETC31-K1n_Z;{47)(piS{D8to&LEJj((WsQC*pPDv9wX>~N!Y*6s*cc8A
zz(8&663|sr%9EAI7~5oW&&L?>N0f1wM*Fj<7n)erTtmzC$=S*I{>9EhU^CgfYhL~y
zY<;8gMq|En!(yTk+zzvGjzHegI)4;K@?Z_0y<sowEBQOf9D8dYwy`=Gm?vc@C+BR)
zI}kgd7i;94oewTo!co|~xdYFC=Xs+)|6rC*oqy(KbIV;hw}54-cB)sHU8;DO%`Vt5
zK8x?<$H<`#im^1YU9c&}qROH2#8cB^CbD@pO!?AqfEzJr&RC^7<uXMyHrZraMt8PJ
zWYs@!wrR?+VTNaJpml7vwRXKRdSf&ndHg+7p#_vo(<A3wsmyCj6q=tPUYnyO?^w04
zBj2-=%|N`ZVKZ<IUFCrDza1NKi33eSoHqw7{aBN*%$$Y3#WKiB*bnU(_j<8s(~L|o
zwQ*7yr?IJgB&BLe?HeiNy+)hr9r=ZJGszZq!bCI>AHh4b#-pc*0dOVb@7l8TC@mE<
znZ|}uqI6u>Tt2Q#7{4Bkpv-c*(g!IN%{)zYe7nZ_k#2h+_Qrklpf#|^&@+VHoBk<f
z8)(<nzXBRLaak4mn4T#Uw4f?-uFwN2?IPu5xp72VkM2vTc0qF0Ok~d7hmMiu)4FtF
z*$U9p4_++vjC_F*EY}i%knT!nEBYmRCCGu(z&HdNTc3E_AljIhZq|kE+6jUjB=ULN
zi37cKoy(6Ygym+)Jv%SjNaZl3{VMqmk;9}Ne~QGgT#ggUS;b!DMs%s9qV7^u=$XJm
z0%;74eP7B2mE??$MaViLN9dH=GC;KXV*#QEGj`B^@K0zk+Yjnm^Q~(I-#XaZb_ZUY
zx;8a$_`uzkx3=Zo(6bG{;lAN6G(^CScGS;Y!twq2{tq1Mfcb-|-L$FLv|VW0esk~l
zj(qn>amO)X$FV}w@oPu#$kEeBZ+koEPc3XH_G}k=w*SDpgI(Ve`M?*s-LwM+FxZ*@
z7Zx9TpZKn!dfX0D`<UR}0l3xK{nqw3w=d-0OV4jFbex(!`jHE9z~Ji}$;4mL4+Ueo
z4#pe2-aOkp#}~ZqFjVXPf7`p(*f_51JhR-TxXUG%Z}G894&PipR+LCe4n;|PNg^d#
zvMpJ0RTm0HF0HjCt~^8P!CI|Tpbgy^j#LD-jQr3lKr06>Q05==&o%-iK!9LYbi&Qn
zgz2V0+x%LIbk(FS(C?f(J3G5vGIaX*l?8d{b?==!Gxzb`bI<us_u`3YvB6TiTr>tM
zT2GDPeY1I)nO2|fMm~D+z;D*6+J4m2JnG8%xS<r`4_%JY(p_Ma<Mk%?X{24`51A&f
zBfP-95v`h`H`+1EC$2@K=OV=|$|vJz_Dh26jru+QVJ_iFwo4EXK!KT6c3=WxF>A?7
znTTXFZ~^m^JDFc<YxY#mSu$?mUp8ebsKGed=Ru0=4aBS2xU*C35>x``vB;l$Tec`&
znQ}}rDw+64yh4{44;5vI`E?XtWKzt<DFr4YN)WE6d56D^7BJJCy9`+({$_&IJSNmz
z%4}Fsv8)Sb8f6kjoscVt9L*%DoF}Hi4PeM74RL_Wj5Y)V)_(Jd%DA~+^egAcE?fyu
z8=_9GH00G>qtd3OrX2V&giw^0SW}OY%AQC4er25Mpuz_V8P^0-1$!X~Ny$t`*|sgm
z_V;}usF74;<`u<K`WvAuSCq>jz*T}bXVnR%SDCy#F*6gqviZRbX3nY150`p6(FZdJ
z6EC3W3n2-2m(;h$bLK<WRFYg-c$j$6o7bdy@%nEN&+zu34pV>1o$60;R&>~haV}nz
z_K9E}6wkpksW<5!PV>8G_3_}NrR3T4Zr11mg4ebA!5#Ir+vIT20>audJF(JQvk$iP
zxZn@Mn&78ZUfs86(f9MJBX5l_jNB>v6of7I#aEXrhgK@F#5nrl*&ki_=)!X4a|`3d
zbn3tBzjrp`*S(#K^`DgVE`ZI)SOtrW{LI}3QA+io3^`0~fT(;uWmsnu9itF!7<MmQ
z^L`J)eh<RLkZ}8d2*P*@^~cn}8AkC0il;{hs3|`~K|ckoX>$;JN$50AXBm-E0~fP2
zPRK3)2+nN_mn^fO`7Z^RED0}A%XOj)`M-lp4PAO*B-${lyX$rUm|~S3AV`WebYPBU
z!AvCvX2RvgtB_YV?E!66Qw5MyDIq6sW~cMzkyE{aoYWz__oU6H(MfK`Nwi|bIO!Z>
z11BZ152?9}T9p>2&DwIdoe^LKYNtX%7}>&tsS0<>#w2OtEn+Wqr4@${vLU8yvogV?
zYnhqBa5m*(1&9rvI$5>YdE0e6f3`GvC#Xr2dt76tmOM+_Y%@*7G*^03aUo4J(%*Kc
z6iSgVsV?Vd^A(bO>Xf7;D|4$e+xplCXb1Fz*AwR(ZhEg!*M|ob-YZD0p1rD2tn?pJ
z6aYig+!Qr}eyr->DE6&kiW?Fb@;>-#o0C`HFd1EeAM+-DisG0k>p55t!<{QPT`QKk
z9-2^&PEUs>L$DH6&WEOgVdd<^Rm{+UdD@PiKkGNMfY48YQs0asxE{4kOp^kmD#)Wk
zGr=j#jZzS8Gj<gHiM6d*u;Zo@n~+yr*^CuMb_P~F&rkF_V8t(g-~R`!m>Mcx!$*gN
zo?+ro#XhSNLTM785S;N?YX|ifmi=f}EfhEzUzVx^s9<8+&NFt-;y+MV#NryOS5j8$
zD8*|>-fS=~ASi1%o}sJx6lBApg+j`Aic)8cP(PtGRC1NeS|rM9e0U&I^%x~0M5;Qm
z7cWFbLbZhP6f@zg$8l04!4FLdQa>S^P6w%JS^rKTH8Y1BG}LvYY#8dAq@79zV&zrV
zDLG+FzwSR2^&MXEjYNGT%RY!1tKmQN{>k@Fu6X;R-o6#@@hI~*t_h60uP^4VjTGp6
zhW;(b*5d-DAt7Cu_d<)Uwl`K(3P-JQI!YpemByiH<4~-mLb!Fs7+71la2gt0RoxV+
zs2XlaV=aePT85)7!^<tBh)`Ad)FpX}-@0_C^xf*a)!&>+z>c^Aa!L3Zn~9b*10z?~
zM*`8xy*q=@eiU(|T`DSv?%A@ZMbB#y*crZm$W)BH&y`zNn)&1Nq!0|LY3iI>yp%W#
zk~1j7$ZQf{!TgzeBPFO9UrO3QZePr7Qajm38)olLMKSlXjY44OPU&`-x*4h`IlgBb
zM`!Xe=DW;n%^k=u3X%ue##P8Y@=~;h+2j%_Zvz-hY%q^=8Rl`w7Y1XXO_|DpLmTLF
z{JBloJi;i>1EaWnT(!pUNQ-Z$R3d&h83&BSOtZc1Xg_eTF5Js~+hvh}VBDltE{x9P
zh0T!husnx2@J$VvH}XF~L!=)u(9?pZp=|FmmF=<T&z)!i$TA187nwvt!4lRiOC_j6
zZW_eeSl^09KT^3e(`KoPkU+pEmOr4Jfnj6_ww@v{nkx$hWo1GQLe6p(w+T*}Innqv
zH$x&743MDcor8WxP@%!~5<2ax7^Fi`*bu^*FkLdFFG_fFa!%Dc&5X3L!q;zzC_#li
zdqc)UBp(XSYL~-vSEeBGnZ81jo>>+L&CnQb=8@6lPy`e&NQtL|C|(Gu!pf;r&ssz*
zo5ydnW%ny>r#t=15X2*5#5KwS5fE;Q2O+f)rEMfUL-+vi*epk~GpF7j_fNhSe@ae5
zF|zg>7OarEZb2RyS)}(d{mRjs(2l3iohe#t>*-WZ`vs`sQf(@1vXp5TvQ(6QWk|v4
zOOU7GO(ZKs@<ZV>PEV+o7rea;t1b1A(44sxoZ`;2Gqdics!8(IrhjUoEN^+g!la`d
z&Fb{O{%6vI9XLE#<0iv$fwcwlX_zJe5O+>!hS7q`IHI4fpwEz07EE~rAb0_Nw0f2T
zn)9eHQjn1^Wr>xp<Unx|Rts0JLahlpOy-kbB*|6ADYQ7o1{hh=Kd)gDkWNj*FN84z
z7jj1m{v<W!c5E04m~EWc;WaPH4OGx8RoC9Hd9OzBxsZmvFYQoidYJzpe?=LJDp1Pz
z5usSAUfTAF$B!9lK|=)O&`m4ujz{i}wPIzZxHVeb3W=1{18rL{L5J^#BcY|-9|nK)
z>PN4BQt|vk{^$FSFMG$L`;NaqeD8(t%8{PPF#dDDb3xxn^v}9??DPF6p@;8t{bK*g
zMccygU%q~);cnx?^|wx}xND>CS`b;+FVj8AOZ(5<9s2&0q{~wc2kbr<&_(A_8Kw%L
zdj{z>6#IpzDmbfJ_vCeg{kd(yiQ>a)DGl~5%bwQvtMuM+-7~J|jsN;do#Y#rfBnRU
zteCsy<I<9mBleFwx<~EyG+hjHO`Z5--jzZU=~`f3co?G&=EGAm`1-4${a^!yaQRlO
zh*J*Go-wf;##-9|jSLvwu7g$d?dB=yTwIs2*UqU?@iKpDsqK{d?LkQA$-iSR=)5di
z5u_iC6D($7NzD>f_CG`loZUxtx)(u`m5!FWVWtA&FRs&YS;pFVApas?h=hk;3*JhS
z)fuba&Dr!LERCMiY4c+{61r~I*4UKOKT!?-GduuPmg=y!<z3H{s+EQDwW2EBcPLtP
zC{|XZHy((V9a!r=M`YUPqTS~nOSZiw&~yW1(OxhXHATJ}E$RZeEw0vmqmPP4MVd#y
zCCwwGslv@bZd%l&=QVEDx4`=oauQln+zR0(c|B#J!PJXH8YMJdXbEW;rK?@e_wC^A
zZBF(ZdQ~+4AkIoSqi=|^Ypc!0CXkws|Mizpj;*OYr{rX%rR91JTn1;sdO%BIsQz!G
z`jbms;Q$9tXbnEJLx8R%I?DK29Mh1%#-4E*hiVDV8<5I+mHEw#Mgg#!V}Y=ygBrFB
z2QUK*8<rx_l%7Lg^n@8dODTxiV5?G?z&4efAfGAv*p*fa)AnDK;_Y|PG)adI{E^h~
zQi{3I7oDIcI7mS=1!EM@D5RdGz2^}mrKhZhLdu0=Q2G#&;zgOQBW=}0OjE40Rz8zO
z$XdkXl|`d=-oie4Yzu;rKxU%<qU!cJo{(DRI5{94kJ8`SA0I=2mih}%W304%VH^$b
zAiNa%&~mHDs-&)GaV%PQNQZMl&+dB%$WE!Tb)|72+Bl#edUm<-G&sh1vAOS2X<w|h
zW2JRG+BzPqY}4EOF<!J)=w(gNy((_`yK;Tck!Am2v}jO=PXx+r`F|s`Xi;;b4rNU!
zQc<&>Clsy35MGu|5jb8TdOd*yw6sZ}Ied_=0J?~ruS1xMmXm#gm#yWH;vK2h*-T*}
z*eX%KawdL&O7X(n41qw9_D*5ypz#`?!re!puj~9N3vk;O86OjV+X1TEAete9_8I(7
z`2|v@d9hfM)vghF4Dcv`_e2`9B;3NRr|F2+gd+XQmiI`;QNGk|l=k-1XU-jMZ^x4B
zw1JPYoNOqCD{WK3=?Sck0<F(7g2r3gRN&N$QlL>XqlM?xNz7D8cU|*$^0WX<@7FNp
zpheY7LFH?NyMe4P!ampkwaqX#Om@XLLK+r;XDx}06rC1Cdm5uKgH93~sUZqTr559~
zspy(iFwYWASoHoWDu6}7T#P8{H&N5(+jlU881<$abyNeKK|@ZoNNz>X?|{T-;n_9v
za?%m4>{zMX3js^4qK^LR`(o9t38z%GZ(VY*!wNWKH#y!_DpK0wBUNeoUni^ht;Wc#
zLxx4)K>Y?18?OeQWel);CHzWg*3_itmw`7Z8OBEHRUBB!_O|TV((`+UUPle`!RyEa
zsje7ES3G;89&&o&8PxLzc}!(z18L7n0}4OuUt@=ySzzGI+R)!D$*$c-UI0J98>Am7
zI%uHg-y1-CDgS?jJF^azq_<9MHyOW_vtKbR{R(#gWm19mTIia=l@!!)B9|N`1XXC<
zlIS&_3;h8Yk*Oodj@j_z#jq9!#S&Xf8F3AQ<9Cpy8s=2&S3ymOjhuXb&kpLO)d|93
z`Vyp`g%PH*8fJs}o^Ks|>!6-r%dQ5Ls9TBnBQ>A6yFP^qQSajIPm0M5!c#6jS>(WC
z?@G^jv<INSVcBy+&pVMF3-Kr0hx=GH+_UMo6G{10j#UZT@0cGjdzIrs5@T@xF$dKW
z!9s-|)FK%$`W7<@H}-jO3otd7aCsh3`2!ht1WxqFP?4DhZ+8A{_y$Dg+&!T&G^51v
z;%SI2$czr1vS6alWQmU#5>y1rH{4+Cs7a(JIZ7Ww;SYg%S5fVXXHV3#CsxxDt7w7z
z6<W(y%5%T%^lAUT46a5@ewhvylZ<KN%TAgAS*5L$*X9f|?RdqtiOJVsua9TNt2AAB
zsG}%^s!~0x)aI^T3#+r5)q;rhZPbTU7vG_XofI&>;-!EKbci_`X7Q8oo240kAZTKz
zR^zlv5<K-y3cBd9n*t`4oT76)e+ttcO`-&hV+3b{x47#Rh#Ah&K%xo}!?&p{jQUn7
z;lEHoU50vq_Ab*NRXpyqxx>nIKtUf_y-D%z(%xSo;Mv2V5E1;6@~6OuzDIilHJJ!2
zYb9U3Zm){@x&V-L?;!S{<Vxi|v8tv>NU!V$pJ#2ZZm$M6XH^TJRLddQ)vr+(-v$0n
zuWKX6S%vH6i3&++((T@aU4;XQwTkL{J$FM12OS_)MK%0UN6WhtyZ8jTY%ttIoYg%_
z)LFmo<O`SK{Gm8u%XJ)+-|tCCv|Ti|OFbW!{h<E|pCca;Ml`s(7?wxnCs6)(MdlN<
zS?c+MHi`4H>==<3o0oEy&MxJBe@_CgEk@)Ir`CC!$hA3o7mqGAE@?|`-#>#@bVqL@
zufkCntE^4rV7un5jg&>5&Fc;vB)Th&E7+#4;2_ak;qb?5V9SK<nzJzDxsceO==R}~
zw?5MRu=7FZVvgR>1MgM|2hP&F=}7FNy=*Uq&L6HZ^2aty{y3ZH-{)w}l0VKG`O{vu
z{OSB<`GDhuyjHsVUe4XGBph^rR7!K?#fL9HczLl$Z{8oRJCNAL7cip+%dbCL<xe>I
zgiETePvrBio4@Lv7uh*i4+JSu2vW-b-upf8qNaQLqt1it1sqY8%N$Kh(+LTiAD6Au
zCebN78Y4#^jy)KAc;*4V1`ZRsHI8QTUVx3>JGM^S1lVE+2IW}S-pBb~I0q@Me0SjP
zK*E826dEo_=x7%m<w<q>7DuDC&m^352x0*rd$gH~?ru*|TBx6vRwW8(uh4KIq65P?
zJJvmPZouvslGh-vf*TyTY`_6-;PQOS`<C~fJ?iv=%$Ux(9gdUo7VbvqlJGYI{Db{O
zA=q9cg-<1H1T3KD=>H4#t7xim&t&)tiMO#xs0Ai2O{z53h&E1xJCoAJozrtO=-|V!
zo2Cgc^Am%Q=GHaz=_;+*2o_tK(5j>es(wTP3pevHE=*ny%*?3Nzr;(EhXKx#IUeJ#
z)INJVjJu&0IHLjmp-a|On(fAGt)~QIqZW9bn6NMQVZ0X(HV$kbDS(k`I`qn%Ae0n5
z+9EYcIMpJ$k3!fX0CP;Sa2hadGPQsje1#nG++trpV3$dc#s*$$3FXj~aVdOF3tWep
zB%65NP#M8!D(Pvcq;jE>t!%u86A{h}VWNZA5}1O>6a@|A1&~3UFabB7fX9J&5vQ4=
zQiU$j8i`7#$!Zk^-=id=kOqjR@r=k~R1yUlxdETP0{(HrlJREFjfd`w!JEO!Iovv6
z*dk7#eq85bsbtq2uiGXrZgXArQ7rKyvggPdlL@d|OHu2$$q=d(!3k9*<7ri)pq_#T
z1o75wlD$4Rfn|qzQR+sD-IXo2D4u|X0mFmV+-wLny@}HJw@jl^CB)F5L@fgCWPK36
z2UP+MA69Lld_5vx(_~m}rL(0OX9HMy7m5RZTo%d%9Tc%5GoqN^3p~+9aRU^sJTn@b
zpE2)ryn53$q0LWCnn(+ni8@}uv63q_3<cs<e2!mI0F(!_)J`voch*C9t+ZT6GXm7O
zs7+o5b&}dk`4U+ih?h_q)oF0xYXWJ|<V*bu1^pBpq<{p;>LChf@&^`IZtiI8N9fR-
z0_&s1KRr$YVQqLW#GLwrlx&ECVG2el7^UDS1;;2jj(`o%>8p&<8G`Z*3*)&)(>O_I
z$jVQhqTnS8rYX2e0b?zOOs~`7w<-8J1;3);-zl)8uN4N}<ot%IyW=IIF9A|Ebb<lK
z7$>nf?qy2$M+oA11EPu@R{s|G3dvz=g&lB+$nul@l6+GBXK83z8v0CX`%LOvmim4v
z75szbUX{u}lj?M-ZdGbtl@33(<;b=#T#`I2uS!EtZFbrASVBOj4zEfLt5V0R)V(V8
zu1bxo(&(ymU{!kNsm&qVFn%DKTau3><r%&<zAEiWU3==bX14z`>Da2&wJII@40p9V
zW!qB;!8!$Blu7b)a_Z(!UAZ_ZA$VGd;ynh%c=?@|mYub4=5Dwu<=lvOL&9cbe>L`B
z-jJ|K3`mYTz5YnlP8QR0#hqI~PqJ;pRWG7rvoR+B_V|U3a>YH{eUQIwNZ8#tC7-b2
z%%%IG_d**I?LWR?mu$O1m=vqn9jmU1m6knrIx2E8bXPS*_TKrESfPKT*lDwEl=aKS
z_Zo=LeqF-udO1!e=;UK4mm`O~{DtQeIW{ECl|1dx7C{<!HPWc}Z@q`&V|Tp(Clhq?
zasQS{I^@!b?V<C5b6vu&kpz1iFU$3EM`ZZn_=E8c3A=a!f8daPBJzer`x`f1PT8f`
z^={xhxHc+};GpU7hJ<YbDoVCCT`pUZTOY}-F?)T?SsyDVBTp36^;(|nirI6&G5+=O
jn7txqFN)a<WA@^hy(DJ$VQ0OVVyx#Q@?(z7=;FTtwWT3(

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_audio.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_audio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..756076c34ed87b675fec3849976ecdadcb4c12db
GIT binary patch
literal 20529
zcmb_^dvIIVncu~eco6^z5+F!W07X(F#Ft1)qTUu|>SasxL$VcPouUx$r34xP>3cz2
zV!(}(c-Lgotm$@lMDHdwJ(EtDMs1nh%tXl_U2pr3ciZmZ2HF8~E05L2-JR?oEo?ID
zOlLan?>iS403pb6JH11md+xdCoO>SM`5wRX9sGyJMjMAKVf<FyeVXHbNe|j(DMhw^
ztmn8p+zTAfML1r^>l3=9KB7+=B8H?fV$@NZAz@0IBj#j7q#<dESd!L=m8BaKwulYy
zjR||w5pl3IQ=&2Hj5t}`oNy)G5qGjF(v)nDG_$mZgeTb&X<>0oqBZG_cv;+<@Fm+K
zZ7gm}_>=9Cb{4lMI+B4%AlVt|Ozw*8N(LjrWGE71?;MG)<nGAsWOt-H*%RqW_C|V>
zdm?+-yT-)cWM8B&8IFXL`y%_2{gM9UKxBZub0!9pLy;jCcO{0C`y=~V+?^Onjz&h4
zW05gDH}TDh1IdGtgULgYL&@>TI7{;+4kwR9jwFvpjwX*qj_Ei(caGy*-r)FFVf2Rv
zbyOqAS*jPQzN*v{!g1lmVgtuTP6}4x3BK((va_6i<ZKrlv$spLQgtiWIl*@bw%IqT
zUX`LVdOq-mG4dp<sS`Er62j$DlPooe)Q~VFO!`r#{O%0jB^ZRWkE@mPqVC<O`y8vK
z8@2QZd&=d{v(#Rs?h*QG>b{`og!b7#e6+Q~1z}P+b9b*+3#+3Kb%g8pUpOR;|Inn?
z^TSegk*9AN!}}J`Tu99bqL7*v2Io?VTcPJ(7gD2x6AOHNE|i?(g+yq2E;%1d$FC)X
z(ChK^jnMgp>(}F{>t|!rND$)JZ=|K6Us0uDgJQXm7Q`5`Dh-!n^Yh52SS|~%E>Qhp
zqhg&%rRLJHw7@HdiPSBn;bNTfClu?ITl2z1A|8{b!aBuqI+mWkaaM?>7eoQIx>=)G
zo1UCY&BU)OO_h{0scAG*R6LcWXT`Z`L6YV~)aAQ+BQDJgVyU(>H`8KlI?Z0$UQ8sC
zYK6$?J{^;U$%SO{)-&_z_*_atn&;9B7q48n^vvYM#pv^A&Rw{C<@uMwCUk>_2VG4n
zj!ScVED=xNnvA7mO7o?KL^{rr=y@_eomN^aX=md?f-m);D*5TxW8!s*s*_N;hgDwg
z0!vn!sj4%{YXZ+>Ox3ie>QAdlp31lA`)Xp#&ctV9q9lm;kdHcCc~}0T(o8Q(kMy<F
z%$(AM=j43)d0{?*c~1(dwBk^cUYO@Gp^B&aX;MhX;t3i-Z+TQNq~;gW(&>eG0<%S9
zdm)9nPYQe-#jgk{OqUeaD-Jb!dHRNsj4Afg(~a1?@GG54V^#erkBFo+UtXA>pA*wk
zrALZQOMCWNP*KywLVE71O0XB_Vnj3T@l-q=eGOy~6@}|@2@MkXC?k8tk&NBCCPe2&
zVJ3cay0mE64a|pKTbsDu;RG(C1LN0&{p%tI!N}`r(F-QtK&(kH3k|bwmVZY8=2bVH
z$`X6S(zo$O-o%@=MLwg|+wghymdcrb2$4irxs-)U-Li&lim$R#N~=Pho5dGxAzYJj
zOs_;M;3#{hw82m+b~H4#016aCb2FhBEdZ(db@E#E`y}|rwRlR+p*UIg=#09cCB>M=
zYFG5Bm|{pJuf^}#IZkoLi9RZMyrtaHSUL@ALvy0ZnDok2*sfTj(NrucM5Br=N|Uva
zptvI%eRUz0D7|TjM)|qvXjCK_t+=Amn96ymTSzristIgh`i5dwX-qLDKmcM7-u!^u
zLdgBkOT+2p{P28yelU#{Dx?Q*E{q>J{K~j6oQPi=p1+m8F_#)9>KSGv6BTX>)1Wa?
zeUye@C0-h3ogbRNB@Uua7Mw>!N+S3@?i0PyWGOm0dvmsVw`}Xq8M_NDodrwdTaFdS
zYI^O=yBFWNDEq>)CHxDEXLWL|cfBQN*;6#=tbLyt46WuZ&R{YZZCvM`QXw^4PtFpg
zOkK#-Y2Kzx;tB2h^{JW1>so5&^${Z|S*1L4iJ}_>i(s8?LH3%9XczQnuS>UPUe747
zA#73n6$&gb;Svr0>F3bkwbaoN6Ad9Lz9>{vUu>qD`q+qvG;*uTcSAZFIv?kGA;oG4
z^(7aibSO#ECX~J*gl<&51C=LYsp|`|>w+o>%k_jp*J9JJT$@V?VV0&iRQeW(KTF~;
zMnTbEOM$p!Gm8EOM4Cf9fJE^i1&1gYr+_jt`V<dSjA&9kM!^vZj#5C>DAKU0lXsG0
zr?lXA5RsshGBPrQjNDxB*zL*Xy{kjAtt)37ec0SlusD`qc<bermt{+PJp%Gn(+1UC
zEo{{(*+DHvWT9(o2*I0G^up@|1FshhGsb0Z2I}q`j);*rzQILI%iK*}#C(~9$my)i
zdxcFyaLfuMl9eWP9MxHf(i|)9v~V*WtxB0LsfVl;q|(sy*2@U~NOy-zvt$ZZ3>og*
zc(18DIxbyOfH-cJhPvj;=rVd<cUP}*+YA@g`pVscYBO~OGRt@k8VdShk`|y+5F=s&
zBnn=ZQp^|QDIq2*<^;P#-7!i+Vn(FZE?z*OSfkPDL`(t$lBjO*)!QPQ(o1++-1E7E
zGo*b>L|%#L;y1Us2bRW_2HDbf-_riT+jb}Zc03yz$&NkwLC<~fGt0(r+ZowRmqY=|
zsKdpEtPc-&xC}Q-VzuVV=zdsAUD9Xtm$@J4pq7cxB3IZTK8Kq~)2}pY^Fk_}BvG~K
z6YG-FFf%7Yui+PaKfhb0Y_FlL<VA3sE3^gPwZCIupUSn3EjJcifvhFK`VnrZSw@N>
zo=S@}c;br)l*ZEdP78@dH2MRb_&n80JvpV0^Et{&!K?IQ7lPls!4>s-)3dsb?jlF`
z_dUO6_kXbHO`YnhqXJ5!DxVTU>U#QyG+jMtG`ws`X=&4t^14MBjl6ylZxBc7k}d<Y
z@R3wKQQZs%81yCfBHyp5F1Fw?&=JHH2eGke>9dM+ZXr!#vh=)j$U{-cC?-K6iI|!j
z-I-mCqQ(sVCE`RF>6Whb3Av?rqf7SmZ^UHJ@a>BQ@9y>IWbdAh5xI3><5jtJ|Lv)Q
z-M6+YYu}qS?o|m2rOTJLs<x((RFNON4r`w{f{`}}rWxV|#t38pdv3t93C|Y1vkEpy
z3^VCGs;&ZasR8dCx6F_fZ58SPpCGNiq>=8J0UCWa1E*LUK-9R`UbB>==1S8#WS2(p
zmpSnY5}+>{rqef-MjFx^Gtp^gcZkqbuo&19V05JtyT~KCdj0Nf>d=llzJa__8v=~K
z%k$RFm7952uk7l*zvocSHJ-JMvmsW@uQ01XF^dAMpwy1;(vVY2wk8qWfyjMKhpX2;
za?(}l@Qg0bWpv-u{eiCBWpNrg6nCk)^O_YUHX=E!R~P;a;u2L{TIgaN@x}1trb+92
zxw7A<@<9aD{l4Y2IskpLtM7jJxa>Ojz8OK*a!w_*>Sb2$H8tV!z2?jPBHlGyXAG7M
z6;Y5eq|3rUQ<)|GQ{2~e83Xv9eo9@8M%GQGNmEKo>kBf=76(O2=@<-L(TRqIjg@gy
z9H5+X&&33F-G~58vcx4@wG|6PS6j4m;^NTf4(B6{SfPqZbHJGT23FH~-+)Yihc;eA
zu<R%V`tpIJa^Psz;(y@sXWRSl4^G~9oyl6xWL;+pu29wzV&grvgUo2?*s3A~><)og
zTpYv_)=w!WCaG1;M4+$JM3wsFqdq}Ek~K!wR5F@~C*x^pasTJ`s!oZwsAdNO^vmsA
zYgztk*0PH=G~8Gt3fK}<%yZXBm0$$RW{gdVIEN}k8hFJ34PU%Uk0eHGHLDn<QSf#A
zOHU(sgZoskGaW9Pb*A&W4R4X7d-lM&Efy)7ji#=RnIeZ<_Q<nabT2w|rr?He)3Z5!
zZ}La8n?X4|v5nk8)^1iit+MiEEyb7$Q_VhsDna#DSt7AbuuKE7P%Fn<coURzC|p%J
z%<QS5l;23~6s0UP7BEv&#0sp(sst(%z<>@_zbl#KiWM_8J-3ibOX77jYKPW9gU3jL
zqz6QtuAbIF$fvf3u=comYj0K)7o~2~O;gd93>iZ`)ojU_F=q6OD5(lc65b*aCsZs0
zh)prZ0a2(c)UK+K>A6>gRM@00#n+Klv85K0swpOkDXQQr2qbC^t;Q1RI*D|7!hoWr
zcP{pS-heUIR>}N_R39nrAlBAhcfS1gm)FNPCUUJq%eIHUjyt#BzLocl$i9)BZwxEa
zyF2e4lD$LA_J^+awTSH6o3*IIbxLWFgjY$zD>lr?oC-!w(+p@AaV$0)e~Spy;j}kZ
z_j=;4Jkl7^+3Ffg<(5oHFZ07nWf>EV{*oE|RHN6*OJWR_d2h%V#3syR-F%vmO@Wmx
zS$G|2gydMwl`&@;GM2jrO%-QM$2cWc=G_1#n<-)<(W7FWdrc6<I4?+Hvq<U|Tk%Sx
z6id!S8NVJC388XK-&jb!Qc|77TU4-#X-w)IGQyF<R+VOcmuexx5x+_Sv2O7j2o$SI
zVEDZHZI}97Zh=G{XCzf2tELKBVMYO$#i}{{qf4=hvP${CgGwdp>unBTL1)*y7v8y$
z4;+&N$8v!a;OY<C!uhswxosQ@b4zc&WmIk%-TboLa(dZXON{^J;1g^6-W_^pXv25E
zedPTs%dVoCYiwD)l5g#oTl)*X&_?9_CyEBnJFvy+z0RV+=(d5yS#2r@W7?6emi-bj
ziDZ4L+;xd!gnEfB6f9G4oC1bHFq?-oevyKIhJWb>0#e1zroN4aO~dBpO^e)jq{!j<
z-t-pTif!D93Ed~wW|Qq<Q%li=I~v~7u{O4DSUW6xdWsE{WZ_x^YfomoMzVns8iXry
z%aI}#0!CsBY}*l28$q8|tPs#lvEQlDgL$e8Y!wk$m1Q*~P0Nm5^_CA`Hk<x`=d0MI
z6&45!VFFDNM=2OX0G-vy11A<+@t`zZBUnS=VYsc}xmrTEMPDUkN~PQx0;M(m_S?w$
zBg#z>1nf(@>p|<jeCw#(I=VTYYd!YBH<0%okbMU>ujYIw9t02MgU99I@q1Tu!86+p
zMu(YXp^7w3qlWUO@szD=NUDVmNQ%vpn6J4?&?Vp|0+vb=jm!mGNy-_R(VzkjMgR_W
z1~oV^L?&fdg>_e;1_H%Z{2L>MI1_YJJ0xA1w~`6LAcgYeXLM<jI_%QqoY+#OOX`Rd
z-q2MvO7O4}m%YrTEn3+X$i{DDjw)6*TCDLmno>-p1&AWsS5RCc_D|x3OS74h6sLNR
z&ai!qTVQ!flo7v00ofHIO`>=a0r=ZIq5Z1dV~j_$--)nQ^Oz{Q3`G199;)@UdP6t#
zNTokRDT!A0Z*Ftj7S7>a<-ap|-`@4W(_3)26#St=*Kjtp|3Pqk+iGfY7CBR+bKA+e
zTUTC(-oMe3a}8xJLu^?-s@So9G0swf#XR_y*h~RYhDgg*q^65sqTnS2)mA^Lks<{@
zr59%qFst8T8h+?(UL9LAz3X_#k@fV*&fX2j=1X$l6SDJ(q6zQ8U~C$LvG%N|Wo!Ru
z4M_ilL!hz|s&@yeld??L*1twjOX{#~^-$uNP0SmyH((MpmCeMSEG5!5?|7#ZtTQ%-
zt2KbkZ9MQ--ddA`>awe)XUx2fENI>?G}h#E2u>)DF2PL$2j#F4`I^|WX$BEGAB)hb
z`)R6TSY8mQf~bf7*~0#RQblyt3#gv*aktD>(Lz1#4_Z|?J}QZ@w#xFJO)(SFnypGw
zyV_P&+^W3C%2#Q4hox1a^^*BMCl1x-|0}9-F9Ilefl#d!e&8C+9=?!2d{sVt^}g#%
zS<9CgjVNZ=fY>}!8cNcfsoEv`-Ud}Qs>Y{D8`Z8dANm6fH}N6pUeyC%%E#-ja~dy#
z_GS|C4<J)d!WJcHYHBWCUnwCy4-Krup{ldZ(u%6NG~KbDW>?{4&=DV_(`mZjk~vLy
z0=v>KEtWA~*MVD>ddM5^nzUYBR`HE`tt17b=He|tH4KDmEHzYW*HU?Cmb1h+YOXlL
zL4XU8w!*Fz3wZP(@#u^`W5^iqHdHuy*gB<{Rdtc+q(qS_IvD3AML(ZLf*qSy*wKvA
zPM1oPM)6Njv-lkfzDvPBr-0@u>`)BzbMs6kW#p`)PRxb@1`b3S+vnKhR)SINsV8m`
z9#uvaqAZ&frOkVhc#kRw<|y_J3YZ{hj!wsbiB=cXG~IfwT1P>}rc!Mbol^DR=aITY
zy}hlXsvAhJFEpwa(j(vhYpU(%2p}|yEnKtzPRH9FYhPLyb4~k}&A+fW6@tCX=T^_j
zjsV!O+xOO2R=%<}zJB_?Yj45d`L6#Rf8M`e_V3U6NAvz8vj51vJvslx@>6)3_n(mc
zC+^MW{1=v=df*9u&$wyZ$lMPd2QKb;ChK_SVc^)>WM%crf%Es`2nZf&Y5RmTwAu<z
zA8oJM9=7-A+mFcYM?N*-Y1z7MD~YXe!Q(HqbQHY7g0HJ+<=p$WI1?$#CQVT$txNG%
z4>@5WrKMiIFey&|TO_@!wav=1(jYn=6YiQ2r!R>A62VR!xRr4&e5<4=sMzJ=SUruX
zYKF*2sV($BsB&7Q5bWrA--b2k8qHcpRla6H_BgpMD2)J`t9n<xSj)O}50s}jb#FS~
zbiL_*v+2#|$3uAafCIh}3tP_?wh=4_O{%><7g_*Y{5+-xrbKodyD~;*(3WNhY^3^)
zfj4Sq>5^r~o2s4qB`cY*Bw@eVgcws_zv)EG%F<jgkL#Gd8iW02^Gfq<nMIZwg&W_X
zvBxD_#&+9qo%^Ocb)mxKGPZP?A=YDZ8bej#%`_Pa?8?|?eOkP7=PlaTwEN4Lza{&U
zBjcE*Zq!`m*1LIYx?OuYqhEF|yO!O{P0PCFW~P@omKxKY+I!v(Q@`=9LmSiUgfBX$
z7&x<NJ)W6(Ve-N=nUhM%%Dy%ysr+uS@pwixUyxLJFFg7lNtu((Jo?rD#-&(@V8PRF
z?tnT;@{&@yb&8~|`3|>Y5zQn6sHaQ1)S(qSucLS=MPD%q>toE?pz-=w`mlr=p5l0e
zHblUd>*CV9QT-aWii}iBJhWn~N7THjVqs{L%CNICp`xLsE5m6mSu&=}L<c!&{1Xt=
zcgqs@>$(-|b!<{GoX1p=(6fYT*IX-*)j))hy3%l+ZEvku?^?8$U;?dEs%82zvMj2;
zB2jg7Jj6EKuL+@8Xmm29%18#~F+sZMx`Iu3Hm{*RAS@>qN5Y}F6iUy{g`^vRlMxG{
zuqePQM}k*~z=r_71NdRP_sj_cve(JJr4kBe8oNjaLeoqVc@ZgA;&Y5^iA475c85w!
zDyF2^UW_FcgfpTzCyF7;;=(>IVC71U4)M<@-9eb5=4POFc^&EE@3WU`ovL`&Tm*=K
z<Gl7n<cg;jHRsN~I?ZW@l}9e|Us0v@5}zgGl_BFQ(sY|$>c(pa^$#PY`Dv-PzG?z4
zzW4=XKuPQ`FuyKo=y+ldvRgXIK&i*n+lo~q{U<aKviujW?m}>E^Sm59@wVe(aNovB
zIe7HmVL3Rt>UiL5Upt=f7?e8(bH1U?uAlqHvhJ(dgI9A1ePe}Se?B-O2S+x$<luo-
z$3s`g+N(czg$n+zyuV-e_ivoLfABn{`l`7Q*qslI$pL%_2-vFiV{fS7?Ol(r{|+$v
z5dcTJ)+1X6gRi;B8Je2OKc+w1(Z7+9JB}`2{MfT6?>QuU4i%a@SDott**&-!*mTP7
zlZD{mw#h&ys-e-T8hC^{Lg4;W8h*2CcqsO&aZpt_muiQ^kxTp+l$DX$YZ$s~N&{vD
zUQF;8ps8WF!!62}q~HhzM=7AqS!_@&B=MO!=8JTdl4+MZ>`_rkq5&rGMKUfGE2c^{
z%wQ4`;?1;06Z<M-q2eYLAV7z4Kt&hTd@L%&CW-%^-v3(){+xpMDfkNt{v85|*kb4(
zt8}J@r|43N&BIiUofNY;@_$Wa|3Dww3nKbo4Bu=WUY)#i;q43gmLZw`&Syu?Aq1A$
z(x#^O%Psx6mO-Sr{dsq{?C#FFdzVeyX3n>3Exyrt&z|#6F54fpcdduBgD2m2<=UTJ
zcGWyS^zT~x3aDz?S?~qcqOxxgz<fFO(A%B&4#?ht9HI1uu7U3d-wS3(F66qN!Y)+7
z-j%h73*Ei4BlNMSGrQ}+kA<Hkew4WHc{1yGGV6KrLHCmd_ny3apX}bZF`9D^Z5i}E
zPUK#m$hty+DSHm)yN}7;$8y~#vW`&E=(Re3-2EAc+ou$4k8+K>2s-iYE(FGbtu+FP
zHIssAE-9EGiUTxD2Prs2K?enYOaa47NDC7s3K&4bj04iu89pf9r5Fin(MthIK#}%k
z#ViGNfs{M+hJwGuza%3lxlg>L%kDk|wAl2Lu4oAYpmlqSCfuR8H~ZH-Ycp#da#L@y
zfs!mcFk34n*%)TK?p=FYZs{x9DapavyuWUw*lC@~H1^OFEShjfg<X9chK(0D>~iQp
zv4N5-oULiqllAszoBCzzz?PK~ohQ(W=H8+S_u4{~WZ~Kdi&lyO7H(c0kgdVb?08hy
zJoOPE0*N@qp>7Y9P-3K%FHJOV{RWh~6X{X?K*<MGFazf?@g@dUntAgZMokTfH1G|)
z<vThcG#1`QJ`xP!vA^MrSa}C|f5I<9EoWpnje~cRZ=KLM8z{G-908_NH=TE>n2-vU
z@^0WgZdS+ca?x^Rwx=8|M}Sy0p^T^0q84mJHsiU~%3&iiz<VC^)t1Mkw+ddhPrUar
zIarTNU#r_A!OQyM;C<NG^zm(vspm1{q<$T}@S_)PI56PH$eHTbp^h9WWf-w`!9+2X
z>_Ev5hM5JR>~t!-EBx;4oCyDJK2H9svBWtc1@Cr>Us2_UE?z>MOU4BoWs1}P)>#CP
z-&@u6I1x@X89lT&!*}7KP}yjJVFEIw>+8C(N!=}5G*2)`{>9#-p&bfyS+mwsnVP&9
zdWMbwFm;4{9vJ{l3Rrn>9uC?zI6J`2nvMd9Kf~9Ur%Xa(9Te{)VW%<bA(_XNksEX5
z`5na${NkbCK4MJWs3~_69h3&}iQC*myC-koCEItcy?)=mx6s<LHnBFA-387&nRQHl
z>}<>WkL8@lvzFtksmehw1Pn*M+=`t!e3v|W6jWC>1z_QD7W}j6_<MY<#-|YA)=r;7
zY=l?ax+qFlJrolPx^9;0uDP(eUB3=u*EJUaK6o`o2^wS<pgt~I1`Vq$K|?){bB#Pu
zrfeuwS%G!S%#v)VxnR8#P*HQuk|?RUG?M^d)OaO_t^6v_$}~wFb^&OsTW`9noCE%u
zT8#iP2`(&+J!)(!=i+9+AZJ6VG8708Pvey0)Es_GM*!4wC$y$x3sNj`@e<(X|BMf@
zZNn=1Q5s`#B!^8gO$Sya2xbD^m}4T25zrwTZGY_}D(!%udMaH?Qks%<W`wOaEy-M}
z+re_H)`6O&l>HlC$By?odf%WOSODY*S6MBe=9)=Pw5{wD)Tvm4kVDnoR@_I8?5E&E
zswkL@y#gmB0M)m!Ct5k10apn1a7KfwgwhCzv~0wWDfq7x{E`BO50a{(s);3Z@DdWL
z9Vs5iBFhf0XK0oG4NAe7sB&;EGzIcaVYw-sZyJ-E#+J>{jPkx=**8oMPJ8o#19IR%
zK5$kJoCS_o@CKHR{{(8==(6#?W!J|Y0~;^q2T#d^r*a(=l+^a1_jJM0oOc9eM=<Z$
zD?9dXc=O?7a`;$2d`=FZgTA)MMmcvwS?CN?%>VJO!-ckP)SdVC$=*Idi|giW-{G9+
zNTFje+dhQttspDY0blIKCav-(WCv}iTO0qzGN39LGw5EK>mbh2Dkk%M>pvoRyb$0k
zU_X3E>uw0>tMU-f!D!ZAyrC)&Tx)K_@#ePf7J&1wHC71}0N;0w+KRgj^zCcT%3ckR
zZ3e*N<<lt;MKty7svuPmMV2Xbhk639)NN|L>iNzRhL8&DYM5S*YB?4|S8!-6M1Is{
z_b()PvicWNq7a+DL8r@xun@mTxld6rh(K{pNI2F+vX&X{n(q${bj|l`oqmGaerAe~
zz6Oy815Mj8WlG=T=`SFyeoGxuqUja11@?`ZYY)BK{!V+g=fEbP^B*Jgqw~(<+l%W%
zn>{(-ILNtc@Auo^YtIf$zR%~no`$*c(C*LLyVeugJx2>3-$T1EYwv#G87Q=NZw_o5
z^klH=VIW}dwLNR^ec;(wXzhh9TiAO7mIJ+o`LONaT%Fm@CvwhHS<5L^ESA^_>*rAY
zeegd9lO=*w@h=t665Zs^OzP0m4kSzyF(4Kk0buVzf+bvwU|SNfHCH`^3tmWNVya~4
zO<Mihok5Z&>^T|giPo1P#+MqFEP!LJa4?2IMTi#g4U4FB$yUL`>UkgVmW&OcaanLx
z+JV$E&{|2oYt_WjESbzTR|QU;Ed#HWEC4}m+Cp2hqyBm|lzabMYj9-j8OJL?-<BFP
zjrG9Y44EGEP0TG_^=qUYl{`z%jI$o_`<Pj+qYl(FTk4K)eLDG~HP)Y-66GzqDk=wW
z)95JU$~cc>9MBh1{c0{KU9P+K^8C0n?%7aH7CbIBp>+47>6s?&D@)Cp=Eu^hXQ^eW
zHDj(j^A+IV{P{GSY0<t_cSb#UUmAzHGik0z*IJDk^D8L3<jpi^ytK0G(G`S3tM-K@
zUsYRs>WqsIz1{n0x@I2Fh9Cb<`v%M}$5fRxDN7LXPf=LJ3gFnW3e{Uwub6mt^3co+
zuf?Z@MdKhGM+q?AdB!l@ilc!G^9e!xTdE*R0U;jZPbfHo0NcMJ&V~u%CzSFjrC1kI
z63#gbP`Av&&G}f0SB$U4h1V5*dQLGxD|>B3F{{U=71K;&E|ylBa2BX?wu#Qrh<{I2
znIw2E!dqY_!P+JM6%xa3s`5n}ay4#WO0%jVRv#2$Af94lE@12+mH5|Gvnv_98O7Pm
zsODj6rv&Z6N)gsCXu|3_7x<*Jt~lmn?Bp>!gQ>KtAKW==Q4Po5nGD^SOwiIv6iM-_
zSUTL9Dy@dn%nlT(9+hrtllrm*o?BHwpN}UM&yG@3sXcTuw6;cx9kQs#Evw@yeA%My
zqnEy?%KPyzB=1$|wYuQzB;;w4Fd^^ot-c2PbbaXO_Wgy9J?p<KcN|*2_`uV)7RY(_
zWF31R`g^jy2W9^uC;(jp*}*e%7c|#h&<{v+3}D|o?>HelPCNo5Hab6nGC7j9v}XhR
zft2k#oDZLn@n_kyY+IdJ{c6FtXQN5>?ZfdM@BYmZ*?VBw4rsKo`K^m97YpvDf*bqR
zeX0X;!57Z^_RGHg&|MpypE)?EZ{?-cSHJc0M~$A97gwKJx91uMicOrg8JqO&19?AM
zd~owx&VMBDKPCH56&&6*J9OoC+cN1NZC&eAvTt<R@h~)y4~@v7k<ESgV(&M-|8y?&
zY(8{V4qc@Zy0v2)RI1CCwRED#p@aG0xEvfWG<)+n2iv?m-`poR_vM?1<>ujh^Fg`!
zAoQNRr(5=P=RINB6V7|~%bxvt&$#RvFPgZ}VH|`Fp|$`V(8iD7JNsuz#Iv2FvSsXH
zTOi-oC%5$#pdIy-ChiXdtn}NK8}aGg!}+dLau;+Wz^!l{7?b^D*#l4I{7++EMo;BO
z&&v3-3@_WVEj{aT>}}+OC$PD3FP00UP~c-n6Af$DAI>@Ul?DyYZn?&hj~ZPo&u85|
zd3V3;?#D0|oV!11Ff?|PEfB!O!7Fa~v>bXeA386G&VSJS!ArT&RSXE`%H2x-4h2V7
zwtGC^{e;~8M6P=x-+f;0KA-D;3L{5Iu)c%@@3165gerbP@)C+$-M#XPKLMG3qJW^<
zLA04bo1Mn+;=wPlDjqHN6Iv6bL&0In<;lBt%dXv7%WkH9?r3(|0J_4O{kSttJ5TrA
zhA$Iz&H7SXuSqW28%2j-LB#-d|2uA?3(cxNsUtGJieFr*J)q-OSx?1AuXdw&tSMVt
z=x0<h2@Z^c_vk90_a2q$Z}Q%Y2(Y_g_h#+83ZB;G3x!ZmK6FG59l6(^3xOYW7F<19
zOOI+czK1HX>oX@YfKgIf>e=a~ql!{#%k>ejGG=BHKmp<~d=2IzAgH=TQdbw!{GoK3
z?g;Ih4)>B{o`|2Jp&@2)f{6hiIJ5a24LG%2#4pxh^ML}&C^FmZ1-y_dpn-Z2gB|Bw
z-1h}2Zbm(2`WL8AA`K3#*UdRXS$jYH^Oi5MrQa{N_2=70<hGH5qjmKbwkqCF5)&A$
zFadX`cF0tu2JNtfNF${Gt-}Z&x1j2el}3Tuaw`pulYUZV0aj*W?m7-eVZ_)Nv7sRS
zOgmbKU+>|ncheqAZ#(OgX)tIn2!mna+%4*=%ezKo*U08z&Q&r08cM(4Qop}PS%0fM
z9V)&Abh56Vrd;K!sUD-$i=@UW4k$c)wDdL2eW?TO#6b@BQye=$W3iJuKKuoyzq;By
zb(=g(02?*!UO$j)>H|pRYE`?xKAv;+XD$6~A%R+_!ksnSXMo8B{K`Z0+AY;_stl#E
zGuuf4zxKda9dRh&OCq^OsRxkRKHC|3WDJHDySlBr&GMmb;uK<v`4aoV3bBb&_Ru>I
z#dcHdMG9!rMH*Y|1q*356!mxGa+I5bLntAA1p)2G(dm$^(f`ooF5;&pPHc>kNB)UT
z^>%OU{g$5|{ghI+44k=%WkHeCx=G!qT${<ZzF4H&y|G`@t$4s|n$Q*6b`=d2d1&>o
zP0H5LmWiH<`%ju|g^vEB0r!Vi=Uai5z?x}IcsKD*V&lo|u3@=tzii#VWy0&?DV(C~
zUO)5w^Y5Mi{xk1AL&xX3i)NFlm(JATmOXGD?sKNzqL({<N>>;h`NZxtbw2d8-8ugD
z@uCTFNa_|pdupI33l|*SoRoJRE?Vi)#<g|c$-JFe=b`o#sVsWs@fRB@=HzTHYF)Ms
z`-A;kE=mg-sYAX16)KwO0UuDatr=x&V5@<pIrOH1_46AqY>wSC{kh|(j_lZ^3`MQy
zEFBgf_+ab<=`Rm|Mp2bN(`<w<vR`*lT+?$2@*1IE92tsTn`U#$P9d_rR&4U$qTfeS
zfA)bGp!!n~R*Eqj!@_=^WGIzV3CDpG-6;wD4pb^JPfsOSoixPwtu*v%<wr-@ab=NE
zWOgD_>8O|gb@lg=*hxusYh*~pkQs3+UfL`vr3_WXAUoWnxY*08RD$74MJlO7>fWj9
zu<xPPv`|1e2-|yBT5GBqVy70Edyaad!B1I9pJ7|vO8X=E%SXe-0OcYsz#J#k9qkYv
z6@Q&VGjTc|CU(*LM)n>i5c{zzwjh-@mbQ?_Zy61h9C{`8!$e{?eW8cS*_aH*VGKc1
z*E89)BHXuN$gz@)16G0U1XrrSC1V#PRm3h@^yer>Ojk8IV-$Ohf;0u+rr<3KXm?s^
z)_$-^GhyJY#5e*;L6sWmn3ZBV4!XcE<eU@_;v4wmq$>#V+b}xar~5hGMcv<V<1#n?
z5qB`h9sDKd_>gP;kn8<SZ`A2O;Sl`V#_3M!{u{UZLvHLtZum338EG7X&zz6Oe(mIR
zCqCo`KjKdQ9d}XYE`G#K$=uYo#jP{1CAK--w)Z%7=5@z5hg)$s7d(_b{G7b&xh&^i
z4d=M$wrvf%&h^vZzwq9LZ4S|**P!d$JoA%_Ke`AFU)Q(oaO#5D;0TouZtw2U*|Ob7
zvPYknyDx8Zcq$$@>CEg1*$Y2;`A08j_fN=ur@>qBVRxf$INN(<o5OuOG^<0=o@3eL
zSLB`-w(&C<C>t?w`o65LC9m5n>-H9mT?K1bp=l5ps$Rcs`$u}+z((`G@&CY|J#h8|
S+ZIO&TXwwrguP><{(k`Du>@iO

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_moe.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..345ec1cc14e1c3bcfc4c7cf9888b7811844d7068
GIT binary patch
literal 22367
zcmb_^dvIIVncv0x4e$++1W5>_NP<sEq~4M(S(Gg6!Pt@<+gLkTnD>$b1%UJgC`$~u
zQBrS1Zk(9vHWk%P#`I=)O~sxu(@r-^r)}Iny5r7nr@W#PAa~_PGwV*r+s+OZ(sgF{
zkM{SS`v6FTcCxcq;=y@*=XuZh&hPuqckW+$JWdWz()_K&@(UdIHx$qwo9bE58aeJ3
z$8%ARH}J-!A!Upj4dgc^O(}EK%>3r0C1s6TnctGMMQup8B<(532xwEzsEegoleUy2
z>R^6b(w*`|J<M-UdQ-lrkNF+Rid1E^lKGv<s#JBfI#m;`VPRLYHdPm`OZlUI7Ir5C
zsrqO=^LvsFsm5p{^LvxQR8zEx`F+XeR7<pl`74s4)Q;$mR5%(=wMJW0ZP7LsUzyyQ
zYLB)ve^s(0)fw$%{_12T)fMex{+eWWswdi$>W%iYaBZ?L)gSF={<`F@)b8kR`2Bn!
zxhFLc9Y_sE2U)m2xi_^hx-Ydqx<7RwdLVT$dN6e;dMI@`df31jIiX%S@{U0n>*!G<
z_aw(RyvFg3f@3_Vy^7-RJ0_L#aYh*gWz!c>9%Gcvplta9%HxbO1j-#>K>37F$!No%
zZT)=Ochts5Pp}+q$g#704q;Fjc*mmlZ|J%u(mwsfQ|VDb6w)I???gIzJ@m}0LVC~n
ziIbt!1TQ2*BNM5~csB8JQV6}8$X*Veo*ElVq{mLhM-U+-#x7?weIHYS5rb@hDl3R_
zkiu_GWRi&y@|ljOuMgwbm`=m>s^tqOCeovcF~m5IXR|^&o0y>F+RW7C<b;@wWhcau
z%Q31wf%1&9>qLCyvYJVDemR*;sRbBi_n454O-{zf#EGd%xs5_7Ff$>>SQlcGaWS4u
z3dz{36JnB&WfIfWELS3($i|WrV`GAdpz~rPIdweEpPx!1<h^(~E(-jqsf@s5ED&S6
zaQ@=(gqVt$<%aWuI41BXCX!RB^wVnL=MrflF3Oe9oc;2asEP~1B!(iM6?l#4!o;ha
ziBN&>+{9QSn|WHC7!fjPJff<enTlgzrZN5#X??ux)Io7#l19a=7jyo!5a;E(FHelb
zU)CZ|rd}3!9&Za})$+n<d@7lZDK8BjkMpeK)la4I)=~nWKnpLiam##6iv`8IFDh>%
zb8h0oaSV|fdiv>zRjxcfm7RD_nE~fmVRE%_Ei1-HFskwEf*4DrdEuJuPh{xjq!O77
zTEbpNN<fWrM=E|rhzY65>~)Y9+n~O@Ol%ZIO^DZJ7b9e4W@L9Ne*I-3HYp0DiEAUu
zOjg`VHL(5~Jl_O66}YGYEY;}Xlz+UNHwq@+gg>)j<}HGSH%x;C^H#yi+XUNqMQL%0
zf4u6macV9*%5d<8(TZ7a)WADm^F*Dz>oqRwn&qw;qV9`a#3Q@3*?#`q)5Egsa)RfD
zG@F5P<)%K<q?Da%I{GcUU!ix81wgAr_F^(ljR-MO$lx7jWS4MlQot%1!#k6$%3#P=
zQOHh-=@ENLlO6CAKU;qY=evemTo%8|GiT3n-v%$xxQBtus+@u2a)z97%z%y}hBxNS
zIols`yy^SKcg-62$Z;{1PjXzAYGF^#n8W@BdJD^8K@RIXRyB=_70WmAwk!KNPV{9x
zYF3W7=S--@@qLrVtG{8$`m|K7m8e(mU(Sk<UiWn_;vD`M8!2~c+S5lP6PudEM41@B
zW0K7;C*m2g8;N2coM~qtKk;gsrAEx+0L8P!9*sgaXTT7q1J9;ajwJ9QyqCmPwipkE
zrg!v(zC`?z$U=!ss7N+CA%@Zuul7ZpvIVi2>h>6BIJiwrr0E2PRnj=ImZBVbbHLo<
z$tmHaC{BnXbzip9k{V5my$D1cXqb>36+00SBjj|EQ*1m@u|CR<SZpL2&tzh;3=L99
zeQx~y+5T*5vVSr$*_(}nlVy9aP3=E;;L3iXKbd&BfAV_v@<h7-Dp+j4!a#*<!Uz_-
zs01_puh13&<|_0}UKjVF=;@l0dETdW_AF8|x8eNy2DeeeIlOZ=$sV|GZ+H;gS8)3a
zp5_&I%i<2n-CC%uE7b2S)CK3CUwCPyx_iTAZF0_<@7wD)yj(+f!QDjk3Q=Q3p^L6m
zcW!uW4WN77yH>%u>lW(nxmq4n1q)SOONW+vR`xx&Qt|w{$yn`O<BT5fhL!X0_`@W~
zU4_Q>S@X~Afps*F8=)zqJv2kvdifvl+~RWFxQZJz0{YDvv>Ey$^3E7%OrX<OLy<CP
z)aYi+pwMT3358jsU?rJZN$PqjQgPhZJBn*;oZ-pRRJ4d2*RW(sLb07%Ejcr-Xtc(B
zk-K9Uj#x!3LQXtH&H-|0_Q-})vMrMsOHCyBh($ciqOQp{b=Jy;m~5Ju%4VoPY)*+s
ziNuC^|7u+1r>jdRgBqCxMMi*ggDce5=WE-g+V;g)R%;`3&RN@hWx-qZ#+A7%3mvQ8
z@T{p&S$nJbX7i$HwX$u_I%}GJ=Ap}%cQs0`#uZn`gR1IVk(-f)p?t7M3id2Lvl{GQ
zt=hFbAXV*~J@L?2HR}`~LroF$@TFmyxG<JqI-U|@G1(a-OfZ!szdIHKk4>s6Ca`1K
zl*x*spE_fHd14|dTNnxv>4nHvW%Fk9U3`*aJnH%y5t7MR?2bV^g4hhrmt$;1#143w
zbA}QKYX15)Zq3aN>@T#m7W(!S>H?1{TPz(9YXfT*{H|HKV9T0~e0C0T4)QrUe`IM;
zs_S2KQP9oRH?4Wd=jG}eZ#{qW`CGA@vBj)Z+r8$a=nAf~W{pZ+tKyvAPpaYjzfTzK
zmTERAtT`iSiT-HwW_=P-TenSYaLSfxRyRGfU>UWt4bOrN&x)<H?6$exb~<Y2?XQ`m
z4z@))u|+!NI&HRGoQ#VZ;rxW~L~>%}%CKxz_P!$19x>~U<~TR}Y@y0nf?GB=EVk`7
zws+JbO1Cd8o-#`=XBgKvnqs|IhVV+;vo0-$H<ZtfjSO31xf0k$YS9)Xwm5wQ1ie=)
zxA<GW6yD5pY`avpSe3PuZjM<Uxs2BoOVfPgG|RU<<?H8dy!l<bCKRCt8hQ4BzCrUB
ze|ZNRqZ8RCEv|gI<#QvpS<6@a%^7)Opn+nH=3`^v1k7-~qfTVBP{(m;8%C)loNd+f
zapNJ)U;IVwW!^br+ln-r53%LnR=Y+~{6*^x<FsRMc>tFP^0?7{&pRrRL3;@ium_OF
zJ3L*hpz;vb2a{s}Ii`isbO)i1F;M`P5JTC^@iZJEl%4|U7ef=HAq664Lb9Rn)U<^G
zB5@Cj73sx93<~I>y>Hsvmto>gOvw_l{RZe_+TN#D07&B9lppXEtxyZg5EGq@T`4J&
zFqZ6s$O&;Oo<v`YOFU91?xiLYs1Rvk$hPbx!^<LcC!BbY9GcFoIN3~FlK3SG(+U=!
zh9g&PYK#JrTQ<ji26`*3nvj(2*+eSRT#~Cx`V#}7gLHaDt_1+vEVwWb@1<^mVDbu~
z%a>)FHcZM+Dn3gM?IwqSsIq5hJLwH&-(Zlcr95BM(bYBN&P1`>5V~@gqAUO5RsT`I
z95;5&H;&95S!mBU^hgao_gp;;9d#_3-*ew_FaF*dXV@1hMEdiQ!&2n%O6QTg$Jb1T
z%E#ADCc;c6U?wM5yR+b~%DbB-cXQE0P^?M8Vb88qw*s%#5)N~0RB)}GZ+E`c`F8(X
z{mbq7Jwwu-q4(n-2#fuz;Y)<*S{}M8^RC^JYxnZ;d#=3?cJvg2;e4=93icJko%!%-
zDSW!nxFg@#BQ^FEnj(dkwn8wJ4-QDdfkH!QA+XrI;@`F5vxmL2LqBsjuhnqj_SvEP
z?&gpDI}431`Nm$Uv9}Ot&Ih`rKv$tEkgw{Is(Oks&29PSLsIjhLSu+U_DX?X9eqB(
zQr*5$?F^td-*&SdQ}$?5TNaZoBlct5H$g_)mDo-+jF$n(Xc$Mt)@O!xgRPMW^M-o3
zfPIE?01~^4=^YiG&d^Sy^7+z&iXcygkQUHsn|cW$L^|`kM!htMPUU#r*IhX)Z=yEg
z*G#|D_?sbWXGvkImp3zB--y&QJLtH+vlVmZtlG|pGOgwMTm;R42bSTF{~w-+Q6%gr
zd!XULf+wvFR3##fjKa-qkhCtxCk5GjH6gqzzC;N;IloKJi*V$2MR5QQ3MrZi(`A)J
zV15L6mHM0$Vqz?&l&lHod?F=YCW@0(YV~L$9Z$wKO_2<ZzA9`f3;Ib!OgC?{pjCwY
zL(pXI!nwgctPSUDJEhvrS!Y4>E>%gjJqQPODieEY&(id2;LxmxKx635gSQVZzO>pn
z00C>(Gyh7VIs9hwcCygWu{^V8;##`bIb(}+#oh>NcSYXSB)OVaT#-U}?{ZuUA6Pj&
z{J|^I;b)}qGZ4uND%;p`&(&B6x4+%<R!=_stQ3B>P|*r;s?`e`0Mv@systy@bu2ko
zeFH1@0R?m$hsD$AM8qXNg&*+@IcLeCL1EZhJWoEx;fZt0R%Lr*m|A>>(k{R$#nG22
zlAKp5fwB{hwiAv9f_Ch(I3HFtuUYVm?rCV*MnOBk@FzsD#v7_EgNx6;{o-3Mu5s`#
z3qMZ&DETRQ6<|!|Zvw^|LRv2%Wh*e&bV?46uPo6jnV?lN0~A{X0OL_3tsfOQ+n{x_
z3wAZ+5TH3?x+f=ePp&fbZfKV37|`}G&5~DemBT;0Z<}~``S?*QUjYE_VF28V6;=h6
zrK0f_bUo~_vb#EH*Sie0BD8Mgy>e9zIZ68%1KP;OWjFI@MzE2m$7Fvhel0dRkx7uo
z61qKA|A+!cNPVlSvx?iF+{i-&i;Y~KN?(b^H9fFK##pTjW2imEf*7l<0n^<A`rTVW
zKNubtQ<*1pR60w1M=fo}1^C6qh<&rCJVVU6roq~H!xg}{jPVTj4PwJ~El=?mbf^pE
z=`1=2tw2m?i^!z|=h9qPz?{UI?NUqXu48q(%2Srmu{IX<W)MTRshQfVZ3k$n-X|Kj
zay?Z0r@~aGb11VVAg?ZX6#Ge92h^d{gGvYKMXJxutIvb-RJ>^#JwP4$C_@X$#q=$R
z=?Zngo^vA2r`4R@q4`+f%d{VL>f@u)vJud0E5-us+j9=UdPOu-=N;<P6x3XHr$)VP
zxn<hG#?Zjq)Y9!tx2n!IlwPfsnT=?^@*}lPtd(hPo$oqI^tHMmlI<-iQ-6zE92<!;
zEk;dcM7B}VmX&+^TF)TP@viTgb57BlB^JP*oI?W+IVbP_o-u7maDQU>4y|#$4v0&h
z;UX#+Q*u81>7{8$-z(r=qzh&u(5Y!#--M$4waDORP=j8NVPmJ$g(Clg5-6S##3>Xb
zUV{T63M?uOeQ}1OXfrBuGMtt;)MF3+8Y7R?m&h`mL`;)W_GM9BGN$uZQKZ<aVyw<)
zO=t|OO12XhW(~ByqMRPsK*hujo635{EY)z89BQjb(?PcDy{0!QTa`YGG+=tS!K6i+
z+afIj+01(AQ7{l|G&N7@Fsp%$2CHUs|CL$^X(=KN^;N|{?59+;Y52^Jqf0gKBU`2#
zoQb5Gh7zfUsci4t0}rb9tyUeFwG~=ANt_54eARhhtK@549Fu&#%a!+hdsggwR(yLP
zpyca&rTX4wzf^yKl*EN_ACo|UZ}P6N<O(m2-E;K<GSmd})m>6`*V1!R_26B@z3PK2
z?t?4U2LT^y8W%3*n+7HP-<0$q*s^F?9L%>Kl3EYl9g|v5t_DvrjddZ=x|q#(9G37u
za2WM^3Uv*)(l^tK*|%rjnvv=T5$7uS8}t57$=|s&_}<YwM<qYC(2dwzGdE`zdCA|!
z!VPWs@fA8AqoUgi-K>hvj{*_Whr27@I6rqDKY4dZa)+3wm1)y!b$RB6mFf-%OZ6n3
zd7y;%ck1+ugKr;w>!{@3Rn)CB1^ja>)jJ{3`6-JF0$pRPR+G}YLjA5nWh2$lc>)Uf
zMxyh9t`_oP#T&zO!x}k4=jP6>*}Sy`#2T9O^<7eZ7iH9R{Ukd+@*(|EfUD@<uyM`1
zm+MxW4ix&&{K{hTd7=EQs(I810*GS{MI3Wz@FK%7`Uv3x?ICW+@IgQk#mZ~%b*(%T
zm`u=yo5~6z+_;Vnv<euf)A#f*iXAiYhN8&zB3d?MnX%5;!2k4Jw4@9JPR*>EqK&l;
z)S%UOz7kqc=4=}63{LXO3R`xKXR^{9=&1vc&onF&Ys8_j2|N!1&+j7y0Sc$oS@9e2
zi~o$AZ;~@h&Oe6}aVk7vjv@p&vI)#Z5rPb_$c8Jj;i~K+?h%8GHaV3Aw_(2-+AfNm
zphO_5|129&Wg%FpaG4v(cY~uTP<N~8X4AsVYGto-8c?XJWhVfa-u#{0zq8c#UeBGL
zyXK#|f8t&Vp8R0Xd}Ot1c+NI!nB6@a2YYzqYja;)xW2Rl2L-<VIWxu6icH*0U<L19
zjIY*p&bkUUfm>&9o?UdU*7VFdX07vvg0FVgqsTP2k1IMjZuny^1Xq!7h9kbM0?s+K
zSGJ7eU_C3F`NT+85p-xyiZlj_@T1E;;snJ#Nlsaz=M_pJ=co9~d<;i9JZK8j$w5bV
zp}W7ZXCDNh!qMZ8{O1i2g6J55JjBxcYc}S!bN+@k2lGOg)3D}ZUN`4&To_n1EgT@e
zB-M4Vd04!c3-4U>F>eLu4=)Z$b)9RKEL^2aR@E$AL+1>&%v;B`cP+IpWtKYM`pPmd
z?L4%`+Orm*1BiM?@)e`gQunYraO=p;BWo7;(Z)d2t=!GrnvFts&gpw2I2ZiXfsi7Q
zQQt@Kr$5>{SpRcGeO4gTkM~Q?DpVm0;uvp*K;>itl??)wjfAmsNR@YN6Ytz6UNa#m
zTiU1{CIRLs>V-*w3v16K>qn(S!U!yE#B*dTF|4Qsw`{3Q{-OD!J%lzHfBQS^kXz&*
zNCuk^J)lx5%fHIWL^!p_xxLO$EJbMvDJGuNQ>>d(a0sEN*fynDc%75Y*o$YE;8W$=
zWGJUxLi@|0YvPeWz)+m$%)r>T?;CSA98aj26ll<<4OX^N^X2qY))_}u$I0lKLz90p
z#xXAKLX9<Ap5pI}Gv~-TuNuU|NUtl#Yd+q|lwdtM2k#<f8K`tbs?h*Ek`(DADN^)j
z8?|`I8%jTvBLI50c+d-7Qc3U2wkWZz<np5z(kP0*Xhpaf(tIVgc}pxg^x8@!lk&62
zFy5|}Rs4O|r;Q_8u8-h9L0P)|0c2k>tU%m9M7>2!t{~oji8z>akYNOA5z^SKerxP1
z`%=lt7@5E+=1V2&#c6XN(julUx_g|Bvsy^rDzU;Kwf-IKt-@qx({TpT;t(B5lPpe|
ziMuK13J5CZZ>n~M9X4DMuE(yD9f%s~(EFy~blc^4hL!WLsqz<CVZ6dnVi|Uj8p~vb
zNv1WEO=!Jx!clB0Ee<GeQkfV#uRvpEUm}ftTj@PT$^k&FY>8Ti$v2b|aVucpS*m;s
z(<({{Ob%h9!VJ-|mL7pGL(95|2tuWzL6e3FO1Yyh9l+WYxBw1G2i{H60Zt4^@lQB8
z@Srxh@a4r9m-nvL9-MVP@Ha19UHrY}?5h9BtouQGFOD%*YIZLVLYLVAooFizLt49*
z+E@0R{ovAS_`-_4<pE%7AeawyN`X$Ca^&lFNp-sl^)31O0jYkV;NL+Aw(W2!lqGW%
z0>rg0#Uf>+nXBzwvaZ(j&pJM;Yg!mxY2Sap?!ep=cSrM&U6LNV1huRqfL+j2w-A%u
zJ^I<oV&y$|c*(JR{Ep{tUH;%j3I97Tt~~ery^iNU^7j_}O-twAKlT2B4+h_F*)SOc
zI0pIl=?yy<Xx)5}a!3l}h@<2ng&m&M%zq8oo-)0D8Y39$SiG9=I4E@-yn8kO_yy_l
z3-?<t(ijFGboLjUbSmGrUuxTr>LNhmKeO*tcIYA&w8JnhL8`n>XY|CZ*miXf9-NGr
zZq(!yV;Q`{txr+!KVwYSVxuTaQ#=o0kam018yK*?YtYydPG8EOonRZ$XiCb{w~%5R
zOIt^q&!`cbxp5c=6Z#-PFYu?xATE;gXXN|<4r1APf=(vBjo1tg4K0BZI2<fH^;JZC
zfoA^KkqL;{%eiY-pqlr$&7NjwW4ol_uH~lH;Nx@WAGUYp+Yd?YhwdKzpmVkTBE-Sj
z^9u(so8R=__7>_|a3rv1;p#iqITM6J59~==JM!VjrSRkLdp@|f8h&1~x8MZf8s)Ix
zwl6lV2Kr|`1z&LC@`|s0#on$!Vv~x4!3my1tG4R-i+J}urT)gCcY&zM2~vN*1COHV
z@7bkb-AAqgRoRbUEFKM_+9(L9t6Iu9DCi`BO7!R>aHxlT<AxebhYmyGFM**HvU7l_
zJvVz6Yow~3YYvKXYRJ@ukTUP7fg||S9}TCh524wm$dpjk_kf@jlhaYNYB}SL0v`$1
zas~vjoGBZxTF%(%-~mSt+vUb_LfKMXIB;;V0|)mu6iVtgwF@kD)X95Zv%t*NCb$H*
z03%w#BbZ0oF(Dmwj2d|_(5@GU5<Zq*wk^uB2s;|F2^9j%jo#6*L?y$?RqR;8qb-N?
zWQQ)EM)@$YqRmxyk!_-ONI)?o7<Tpm7IOev3fK8t#D3TCP185c-?VHpe1%Z`n?U7q
zXPSRNmK=7avQqaC=mb{<p_}3@bLO%zw&ZAFjuh28&nd#z@;MP(M%AiuF_fgYBJ0;$
zf;<7uU;Kq(oq5(W3MIvB0Mr1}MyQlc8lWe21xh159(&;TmiWsk&&#(Av1NcL42kJo
z;X%22f3h7)9H255$e6Kwi6uF8unB-@8`h@*l|s{iu>LyL{#_F$fHq0EIpdsR4q9kz
z5X6V^D9qekP6~si46S$Yahhog+F`h-8$pGS-?*Vb7}<U#8Be{;#~+*S+%$W20MmB_
zwr%lb<}r8_%CDkT8G2EGH1`|(vAvVg1OEG)K5<xrUdC~tu2#(7#doL;e?$)HVAx&~
zsV(Z6p}?lqqM405E{|%<L`P||^D5mDP>gC=M;fRkhECn=#Ez_6a1TIiL%dwc6xE8|
zy3z*Om4Uuo#fh>*Nb?G0l&xwT30jJOLYd737R6TbwtRuLzjp5aE@dt=(u!7@Rta{^
zW5<q_f=1nhkg*DVu&>b2{v0{};Rg4>?$NA|A65qQl@X~jlCK<)DhFn*1%Ej2@0a}j
zvrxe5-iHmLd_%X?(9JZkbwSdGeiYopKv9!K7Rjnr%(}&-87telgF^<E&?dRtJ~3K6
zUTi-8CYUudt!ky?pi{E%WgvB-?R$MoZSQtNDGRuIN-=?1K9wJQQW|{ne$8pr=XlWn
z<$@=;FuvlBEbYs8AC<a~0<`X87_5iQ4B4T8_5@$XG6gGG;e_-izu1`hA}1aLAtwC4
z#m^n10$lz*{25xSDp-+y$|TY2oz^kCGW=VTXX!1_LWJcn>FPt0FSJ;{>g!&yce5@G
zGYBQuY%<DHY%?;lhgFkNj*>GYrOFVU&-19Eba~Snp=Vs>FiJ>q#rmB2>kzqTEa}Q^
zFrjYTJ!9cv`I7bmw<-s};FPp&%~*0Ko}KN_l&V9vJ0jHiaj_k!S%VD4NL`gO#JvRW
zI%6|(IUBHM8Kv;+mF5z5ruSFp&&5JB-r{~jCGn>3>FV!`;JxGYX0|-6Ms@5|HMBiv
z0gE&bmv9}$BuC*uPLaBUmxW6^2@x`*7*Agj|0Ci=GdVvd=iia@=Wt{<=x{MXB@0sg
zT{sa(amFdI`ae+;=|7A0$`;0DnBsZUwT4nCUAvk4su=oPG!y?bN@K#KJMgW?@~)11
zt`30P6<=o|)O*wOFw~Y04N9TG<rh{%kI#E>ATxLRVRgq!^}vdI0B!+DyG05fpFLmj
zcQ2ih{QGB5Kd5b77<%*U?XycY`N%;ja`5ipPapfqV?VDwGkfwE?cGaHEzi7vdA0pZ
z42$1B0Ku>Btl=YH<F|e<@9Vnf>v~Y#UI_Q!eO{_Kh1Ff7+*SZE)y#U9Pp>u})eL*k
zR(p`Go6qcawA|NUgj2d0$}Ivyr97R&(#zTMlmk83tW`=(0?V-MU^fBSY3c!Fmu>1j
z8{Cbn9=S59TuWldtIY0Rjnr?rD3O(nQq9Stm>L87EHk-mQ1%PuniE;RLQ|27Pfo(h
zMA@ZD=K(-S!WFX>Qr^E@MYrP=lS_?$TD#K-<8o|{eV?WHQ<@pQC<!ye%2hPyeFr4p
zfkLR8{x^4!EabZF$_M(TK>vorQsG?VEDq(CfoxN6L2j}Mbf7HuI{pIgEp7}3B!6s}
zF%}^R2A|TmJlaauj%{X4#Vc7_8oNrOqs3wYdb%ZN7~<v)Fa3by*y^PNCnI>uHH1;;
zjD5zzRGL<(G!3ugPF&7<m4mMm_IT9pEf18Rb`5bcn?2VS0t9*e%2tL-DMz8JU`0~k
znpoXuN^IYO$+cS0mgjVu7ooDWGOp{&xyp$)Gj8xncg_V~>C~{RfiqwP(iLVdXF<<1
z=(Q*3c@dMC_1;_3f8TG?>uuZFw@q*VapUpqZ_!sPOjx|{S~Mjt^*FtN{+1v8-=;mV
z%Vh7zIB$5pZJVA`+MaFd(k(p2-Q~v?Hwua~%9r!8+Um2qNl3XpiFcq?zT*2u{bJ6C
z`KZs1Y^^pgb1vSQt<yqUp5i>w=9z)Zna62rZF!0|sx*sU|1*p#u1iH+!x0N~z`qY_
z8D<!a{e1@kJ&qZCkBe`V#;Hap^Ge)){D}XB9NJ!ykwyFkMUYYcv<r$_&8!~QCUj>}
zw#4WM<|TGAOy^?>9++EUi}2dX4g?Z~023G8>t%K-#qd{8O-!Zvkd_`wC|3nwkOv+-
z0o)bp6#B;cLOU~&p3uuvS=?UChDKQ)x>7*3jo|ijh^|U$nVFnX%-2^^dWPj^7mWEn
z*|Yh=u}Az@=&4*mW%0$^z!}`V60+i7QJPJ}g=yR`m+g=(GIZ-)4AT%1l!uVPZfwhL
zTs2G6h2ja^To=Dj>2#_ho8mklsZfB#f1`*xNGl^(w7T?7M0Tm03Z2x-9;LNPdopsZ
zI>4Lv9f&h%v`(w^OLj6MWlwXdeI+_^m1?)JRHf-QZU4H@+9e7UM#HrC!pg|dGJuG)
z>0w$z*-ed9?{8<Obt4*OQ!7n-kG8Y@m|{1$Um0y-=(w9VaD3aiFqm)LB{l9^ZQQe3
zH!$mZ5Z?KNolx!(=-DrY_OFHxuGpI%w024Emf4~C-oM^^R;t)N?_4;$6nI$O46~H#
zu0l-^3dourI2wk+yCz5`D>%hnJiFWg{rbEaxTUuK*7=*~7d!6PbS?4krS7EeK6$@y
z2xsn#-BMjI@_YnSo5AIp`_=oXfNKB3SCxVv!gOXx3Pk2Dh0xA?Xg~@L%zJ)O(X=2e
zzO;P$e#KF_qIPXRx9^-`{SX)0JO5<i#2KmP*!-DA*U}4j?GWCU+9ZEpArQhvfH#la
zKC<Lmj;=Nyn;*ii9_U}nE?>IuKZIm7vcBm}&u!1**!@7?a@&u4f7JWF?f#zAg@)$E
zD^kO5Dk6w`5>l{t{$!yoqUgWp&;O!kM<LJzBWyr|!VcI^cYlJb4|R{cbhO@&Hm&XZ
zf|7p`2z})5Q=5XoL)GLbdf&gRuzT;1gFgzQ=9S1nK*2o?D}g=&f_v^ZN{vGg=%Pfw
z6zpF!ay!0a#A_>r_HEeAP0f#-T+_~ntp^u|imiUo){UkveC__OlPGFu-Te7Scs1e0
zol8ykYxWo1^?5gmu?zgq-K}eak!$N-8#QtjO&YwsV;mliRBzSp($>DkfLk$SU|^p?
z`6p?1o0Ex57FU0!CX+bgrcAW7MZ!E{ft-)Yd4`+|a7wMce@Kz!BxoAbJzVI3A09vP
zE3VPvT%2B`pSuH}(9hZ-gQaJw_PyYpAnvkQdhYK0Y0po3*2#-WdgPd)(7XGQD`08T
zRle|JKx^um9fFNQcCKa5@{rVgV9h~6r)rkKY_QfSFR722ZNf^RTXJ--dnj(uj<yUf
z)h=b0Pu#7(JF?P$T#7s)wVhb!kg`_uy9P_s;_0Plmj~`zm}SbqkkorpYCE;YQPKwk
zA7uXPflryAfqB;95%g7mNTQ-={a;`hHtUq55I+GaO@C}i7@}re1++lN45M?>9jiKK
z`)gj<IQ*8j4A8<dYXzobuG==ZXB$fhn5gq^repSPL!qQ@V@V;nC@*x(70@xe`O0m|
z*e179GkQ=(=Iwm7;Drv_TE2`D4YU&)Xa+BlvxYR#yi=%RIjur9jV9p(`h#w}7U?xi
zLtP6v;FtA#&Zj2C6Y;4`JbCW?DTWWQv;TMG5m(5O$RYK$qP%;Te5Byg<u}3ty1<Y`
zXp3bBF7*6k)z$1`Q5khL*}OsVs;g6&t+XoR!B)Pg^o7b}Ojk@~0M*JtaNfu)ASz)g
zVjiQTHXX{LXX?XSj=)!HeNh6~jIb7=QNZ)AP4l6Bx*(C&VH#RM`pPX2Vu|-`d2;4W
zb?BfIHqL5aQHQR`M!U<XYQ{rb3Pn)t2dxe;i|OOxqF?ikw`soOFLIZ;<XTP*UcR@Q
zc!<{P3h-@O)K#oi^C6cGm7z9w4l5_~H2w-UWq6d3scc~=4~Lxkq?K(rc_C|LM0QgS
zn#r5Y9F{5eN93?{reS9AEQUC_Zc+hbC>Xc!bu`A<pSY89t&u~oTl_cVkX~AR1V^sU
zCItF~4_|VxglQ^es{*@3dL?p&ayg9fx$+?$@h6DJmkvl%Q0z#FEeB1^3~3V?<|<Vz
z>qoLBD_mDE2Qgw96PWX_H>sBkpQm0{)X0S(vt6zSD)H3JpIQm_E{XTudth;x_wAK@
zdtrj?JNWSMsSg}0hc3(x<=q{UyJN{Kx%Yom8-{)HyXWrKz3*S`c?t*eb!2|)Bz)8U
zS=BTQ6dqK!ELxWwtJQm;xS(r|ue-6K!8G^q+~K^d>z=ENu6T95)s+t)l)?w|;bT(x
z*z6El?%sE|JP7qKTl2e)OS_J*hMpk3b<;!SJu`PE@7^c5_mL5U=Vx|B7cG*i__OyT
zY0sy>b<!0vEi`_&KIOC_#hZ<qX4<IC4u&=U1BxisOEY!jbgQQMD}7^IG|~s@#rct)
zX{6tno}145B9bq%6j}8RuGp3PV2V~+)HRUhRnIj0w^ytyR%#lrf!Y{KRPh+HK*dhe
zT$_|^+~yEbtd1!>i<7ccx!G8*i>iwA2z8A(4l@$~#&zCy7TmS-*H^;(?s|X&*_l67
zTsq8S6>ZX8nUS5nugBoowsU2*>v&_tM)1Jm0u~ZVXN}?~h+&Hu8zWnW0wS0whijY}
zstij{5pulr$uC^;RPT6Bhs*VLGtFu0G#SaE({@-3=PTQ#%66FB=ibUKzqDF;0!KW$
zF|SBM;imrT^Yai=N>!)ONMUu;L%sP;XJ`oY4BcvdWl|`_R{Gx7roJ+&qH?ly#+FKR
zU!v|cp;WM$%JAagYGo(uP~I1oeBs6YB}XYbqyRO(d#Ap~eenD?>+T)Oji>njXtF8*
z{x9JxQMa<l>GpE(=(AeZi_{U?dP>$^kL2rF_4TdT`xF@bw@Aiz@)T8ghMco-<i=6D
zw)--+4xCNKpkU^wM3Vh!n8aTZnTwqB<WO&wPXbJkZ?jw?{yoLf8yEi%IYm+Ae^c-r
zIe$e?S;^$@D21FV>IpuHNRmk*+_7SAd1$Zt6=%jp2a~ngx?*m?XIP#v3>mhOS@srX
zmc2!pWp9bh;w+I_;4hI`C{!Y|P;iUPLQz{~7K#g4V1n%rGNWq?{3uirY!=LtBe-s(
zD6i4dvyI$>6h&;oU1G>rc7vtAtOWEa#IJtkZPHjpPRh1ejGq|6CwF`!6ZjAxzM?ge
z&h*7!9${|+N0_+NoyGTdGVHWSwq~z0H9w(K_9n6Q)7Jp|(&@g@sWi(TPby#Kah60J
z2fggZ7wFO%utR8IGVIc^>?Ly%Qi&;Mmh85Z+{hw{ktCArlU{vfJ}JggQ${2-u2`A$
zsUM*sWXL9&T){H(5O2i<bY%k1&c2kpUCc10Ptj0`UMgfKqh>G)rxMC%wA8cwzT)S^
zl<$1CeGcs?eTk4hxuu+rd>$z~A7cmamDGYApHnLC?Bb(^?4xAt!kF@D4O*gd_vd9}
z*Y8UZ76V=#pOb@q%ufA~q4I&H&nsWOkjJ)d`h1~sVQt`Z%2!MpNY}<b^jOTvfMf%8
zsJC2p<;5txxldKzO=T09iA<U3VR<sbD^v7+Op!zk*~!kS@ohqU3xZI*NIQ>gQF4VS
zVh1^4a$3o0BZom-#?}5BLD_nq;a|ll_Yx7jLe2s?KO~1%&K*u!MMvR>X^8@v9}|i1
z;6Io72RQg%hr#e@kTX1G_@7+chg|SOuI_I*_b<7Y6|Ut&uI59ogT){HCD;E;?n@tX
ztsinnKI9(%kUQ|H(PA*Jb8tR!bB5D~54lqxa>qV3nh;^<3{NAX_kVG_J~i45#!opo
zkMKdM+WF^K9nCka8`dsE^?aDF;cRg5ZbS_y4Tiym3va$~`-KgT{2NajqXt9Wg7Hnq
zZN~<_#b~J8m^Pj<7&;dA(Dw>9IP$MWjhxZHVHAvpruipsJ$3V`b&mY&CPc5X=#8f>
ZPZ$jS3*k2-w<C+u<=`jatp<g~{C~~ZQj7oq

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_rm.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_rm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..934b5dd438c115d1abddf613821086575b4d3d35
GIT binary patch
literal 5524
zcmeGgOKcm*b#|Ae_!UL#M=_N3v6Gs%B{`Dq$gLCjZ_AKX#h(UckZvjNP$Ioc(zDCh
z5@^6^omN5`I6f3gfB+GCvfu#8Q8^{Y6upR$3knMxF_5H1ZdBwVK~H^emP<+k-BXVp
zVBfr%d2c>%-f#AAfq<7lQ62B5_p}i54L0o3R7Ey-3xq5Zg~W*>D55H8Vq6pumsBY(
zLG4f_%@KF-KBwx`TyYo2U22o&j=MEa+{4>Vs#o*HeVRY+=WVwd(3<1TfO{0L8q`|i
zEm|lZ;%%S0OKXj{a@?=BY3=cLjtA5Ztux-Kh2vp?h~zv`n(q=NNFAABd*k(*w$RW+
zr`3)}L_%AYmWOZ}ESxt4yt`=Rp=9+vv?>yRfz!5bqiqA)_6D@kSt-^rcWNw~qKsyf
zbRd^iXM112NwdQPmoN2dIfbgd$()u?80jgM_TEezGrboI)6?nf^tnV5I%s-&#?S}9
z$JJwk=^isEO91HvG{kHcp!Zj*s-4bdQ|alLXttfssRb=NnP3T3rRsP(OB2itUC!Oy
z-UX!1XVN+>oSd1=<y6W{msP`*tz%hOMx#nPVbH5ItLK>hJ<0~S{8tM3e2y9Vc<%B^
z(`&aTCxNd`p{YbcHRL?Z2uF~O**wK9@)KXe)4~j)lLaI9hIO#<Ttb1R{aRvnipqIL
zQ|VjDs-$`4uQoQ%!TNs$U85u}fWC>>K+ED1bx@}w9tWanqDX%MeN&v%qT>2UjJuR3
z#r=_>cxaR2rS6nto}>iDcegq2QT)`K>DaoAg)4!^{V4}%k|XZ-5D!s0p3B|Rm|F?a
zfD)Von*n`lyskC+oYiRnc~f4c^{zACthCV}=&rl*OewJoj)EVYB}Cnb!S35(_q*oF
zEg{}|g~U3|Hhv+O>CFUFP9=28ujZ=h!h54ECYi1qa2dIb>AGI6-?nPcG-!l{HWl(5
zfg5$-xLzIi^YQA4NtOkelV7UodmGeLPI5hEyJ1_&s<DB!5#oan4Q+E6T7MQ6i2)6(
zEI5ngJup<;00mMMG7fvRUT0i&+{SK8K<l<!_4>A>C>4oZHGe{i4rtZpGy*ndQ80ov
zTvUXIxK}8jh&Bd%wfUd3uU!_;RtQ`kyKS`FSR<7*@CJD)N|}g_*X!r>!g(?c)>WiW
z9JbTjvTn3KpN-klHhS!y=d2`UdTok&-FWq)1J-xi>)VbMWD&ACfe%8>&XU=?vj=XB
z$hGs$l9+44baHRHEHd0N*RXS-$o?CJMAoS4o$1emU(|G2LC0kJ7&QtkD^H~pdQ4)t
z3fqI=MF6o@)2SEo;GEpDoX(~VSq3+SF3g_HGn2CQ8M#bXRk=}P7#@lBVYhdNCKPK$
zhAIX=lin!MtdUNr40YD@&7>8DW@SA+M@`3NI)05|fHl3@f+nkpDXQwQmt>Anvqwu@
zr!v*@#w={A?xbbI^3pMv>CmZ~stbYbhpG6nOph!l)r79gvX1NaV!8A0i$jK%AIhim
z14e>PQ)A#(;gw^f*I%JSYI<rYKWoh7vO{RRL)Pi(Et&)e&a9?BbOWQA%(TJ$Ec+Qu
zJJ;RFxeVGu#O>(+0Pxct^4J|%XeznGkKB><P_!J1l|r#{XrvSxnRl&s_Ln<{N}WUV
z{-+($dB>l8Pow+h9go~ykK23J!+Sm%U+MU=bM4^RGfC|5!nn8MA}_pDjtrL~!{x}U
zrO2z$8T_`rbMdYFZ$0++uD5iQTlz~a{dJ@}w%*<MvHYRD9_@SPa|N28HIqQ_-uZ>|
z?~Xn8ch?D#wXf9DXOjbCm1DEDrMmiF5(wS9xNx!TKU(r1tw_WZ_`CbyCY+R*o^&=}
zFyyqNn=VV~l2uQF!`$<6?>7pKMbPaG@7@kFNU@_71v?G70={-4CR!>Nq}mi!KtZaD
zLO*6e>?i;o7w+w4hq2@50Os~KyssToj3a9&fIDP8*m`enVXhpEm4dMcv9;jgRrg_b
z1jZ&zPd=xojdU)nn{AEs(+u!U>7c@}Lp@pZz`%_<$))fIK)4j_2mx)o6osM)zT5E-
zO$o|vXVKYEGNe(Au%!iDB!f1#qZFMr3Rlr}g|K5l5OY{k6+!6_K${)H&ZfFZ*)Omc
zlMwbQ05f3QvjM>pZd}bxrwv`l_0Z&?aOs;(sT{)yJQr<v1J%)A0-Jsoz#UR)CSBbh
zdq4E9``h22UF|=*64;c)F7JE*bieDRa(G`UyzfEVr#;I(YvE(_f%Q=PV&s10gG+0n
z{a{hS_W1z6C$p)VS8mfnlqi?~2|yqM*Q8&BRBKwO$GqEOQEVvlE!r59Cg$7_@X`4V
zLJAm3PiMh_$%QPvm8VGq)YD1~s1DkRPT%yakPOPzoq<2*Dtj77K!TVi>bN^wdh8rD
z=K2~+ZtFyE0hx}D7~D;$f9dd-@h`_8g<j|4C<psX!TzOJ)`ACC-3Pd6V&cR^tPOpB
zHlb1Q`CeHDzgJKZ_scSb6SX?hlGba9E_aO#W4alX<wQ1{gS$sF0IrUFB6%IoYfYoe
zS|Xo^<d~uEo04uY?lw&)s8@2vbXoZ}H%*2wFm?(79vw&ud6fbWHTdz(K-HrssjABI
zvcN`wOvj5mVHtQU@*=?0!E(FrkoC?NRvm5Y{$0PH_`&69_g4HQ5C)a1IHfM{M!>t<
zwd#me!sL{2M)-mBI=xGC6|7c9{)JWLj379VJZS$kx*V+#Kv!P;;^61t=>P={J$^!1
zA9#7g=XZ8IZ4ECTzkj^q1RON9t&6vsu;nH_!=Ifg?H;Xou<0e??#1H$;*wJ8++RUn
z*pxSTFS-z24Ie0Z4r~UnFDg0@E?szV?X!^;=NJCZ{i`EqN&{z0d(Tw}jC?inmHyY!
z9}(qu$q#NyC&$N=aQa%Yea_|}bZvc7;1d=e3=)+T2X#~*3{H43IC<&}{s6*jE7!Pl
zIc8<gmoOt>m_V^^1hwR2TY6h_ZI6Kl(_2M=WD)S4C9^dwR0ri+pMmr6vH%I*dyr$G
zJFFWfPmOJoEp-O<Xh(t6Sh^!#B)=2t>8>Kx)7?giSW&XwW4dPQTT@v`#2gdM2P?6D
z0A{n1yAF8`Pdd`6*<~-=hhs4WLkM0%fJuWHu$~@vLWMcCWlp=m4a(c+VQnzF?6e$2
zP2lWJ<lzQ@Hw=EF_l{)*JS(w$?Dl)BB_#?lY*GM_l&p^)oA;I7y(M>V*}cEy-v7vb
z#7<O}-dyQe#eC(&)9{{h_)sZ)s2qN+6n+hSZ7{kT+_&o92k_gDz3YMQkKQi#jFx&v
zSGw1F&ae6}fUE9=MCCmnSI*@ob^$j$hTtLs+%=m(fE#945L^YY)t=wLP6Si%ZQ?WP
zr@Q3o$<sd&k7cG%t&IGLtqla09Uz10xN`OE<p0nRBDNt+vRsnt`v2_#q|6^CwWl4o
zhwssRxjnF7BNj)%qf#R^-Sd2@*0h!348K8uNf(n5>{JxIXoet<$ZrvFV(f}_n@zH;
z<dP7ag2^2GCra{IHJF%6@<78d=dd0t{MkNOec9lK%|3h!4Dx^{+i!tEH8BhEc@Td3
z!0#shs<ECh|BcwPcvd&{0H0asucIX8!O!&aEHVZE!gPlJf*8Kd&0xJ(o`U}utQmWq
zH}EOK@cm^v3r1Sid1AreVx|i`HAHb96SxI&=`2^pg4wX?K5m8R*BD9|qp1E4fQlpt
z!bS@b#)R+4-fxKi32FO|^nXpReNE0hAp`#;hn|p^pOEga$?!ARSwT4X!SKh&K0LOh
zes=L0!S=?aNW_l!>6#FICVB<$YGiPeK)opuvAcpj8xbT(tqI*0LEn)Y!R`$t;J5c5
Dw@Swi

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen2_vl.cpython-312.pyc b/model_executor/models/__pycache__/qwen2_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9ca573a5934696c97e496c7f1f8706fac83b3d0c
GIT binary patch
literal 66859
zcmdSC33OZ8c_#R<?;A;QU%*8Yp@kB)uce|y?Gja5N>v5B3{wOsk^)HT0n|c+w&Ij+
z&{cMku^mCNeTvob8B?iBOsC^xxhFl5JL$wd$#ernIY7NuChAG`I8Jw`DN~M<%sDgj
z{r4?+fF7l?lk`lU#EbjxyZiR9_rHJaa@jdNG2`pQ8~%dh@W1#tB=7Qqnd5G8FLDts
z#6@%weM}eEhxBnn$PhP%jB!)Qq@!>{%pA9bEX;3=S>v{lEp89l<BpIc?hH9uxGCle
zxe(VBbH_a)j}+#Odj|A6F769eun=>sGF}y`iu*%;_HKz)$7@10%x{g=#_K|L@%m6b
zd$+|J;*FukcvGl}z1w5W@s>~v^E+aJcx$MY`JJ)0czdXw`CYM&_^QyV`0CJV_U?|Y
ziFbxNncou&#@B|{GQT&rF1|jrp80+7ZwPfUe?@F#d{bx>^H;{Y<C{a9nZGKwCB8MZ
zmHGX#ZSn1)?eQI<9qhe2wllsfw2S#`V!PveLVK9MHnumuFSL*O>tfHv_lNc~e|_xv
zcu%N@`5R&f;s-+q<GrEY_@U6D_~Fpu_>s_&_|eeO__5G27N;?GJbof{B7QP-GJYy_
zD&80Bi=PgiX5X4(FT~G;&cx4#&c@G$&c)A%&a?35*o*NCp$p945_>8Ba_D8|55!)H
zhe9FdZ;gE<{?X7!<FAHZ#d}+%J@&D9I24Y5JoNE+f2coxF?2CL5E@|LI$|5*kx(Qa
z4MpRFp~3j2&?OeWDmD}!4h_dgLL)j(&qX&yFTbM`XICf|SsjY&xg%U;&1+nwGy2hY
z4APfT78*q8T2<&+bTm3PY2mogc+?ra5?Qww(OJy(h`B)(lV_n_2;Ha(O+@)<f~8Ng
z^qZ9Q-H5q4>KXYfY2K@Tlsa9Fd_1xx>KgfL)kn!2*&4kb*{1z%&>Y$RnkjU{#yutd
z4(+s&ohyVttvq{V7s{KA>|P=5o)yAZuK(WGjG<4k9^Hq2dhQwhlwvXWBj)qZh&jb#
z_8{hgXT<y@i+K<+d!G^WQ!M5o#60|rm^WF>BZztQ88Lq;axD63jITawjQ+BA?+xnf
zFc&WASd1g$o8%fJ$I*YUvC>YUw3E@(%AEQP3q6I<zUWyc^s_AVG(um9UWk5{a#p^5
zj(t0WZ)c-t%D$zszItYKBNb21&}cgP+34rqJtybGaygG&Ues=T^kVem(Sd0HJ6LV>
zyd(Z_q0h6F7m)I$Xj;xK^g0WD8KJL4>y*$pSZD~LABom0p<iI3A4TY^(a$QOUwlg4
zUypwAiMoFb>BG^_%juQ+y?MhF?4LYvY;+KdeRLqYVQe&ZBXH(gbaeBE3nv5du}Cx)
z7#NF>_a}!h#-f31!^xq*(TPi!hDR?Q?jJxvbokOxGST&8YH`pgSP%BcV*Q9JSdS&6
zJo8yj^^cDufnYrsy)r??1a*RCyq`}F_s5XN)-yUfmh4YPBZ8r4^oC$LIZR1og6;f`
z@n}zMxIfVs)C)E~+RyX-qnDzBnU9V~`;*AVd7wWzFmxC%6MPhr{H*R5P9BT*Uy8oK
zj}1f<i7{UAO2JA9qPnE8gJYwE!<U3g>Gi^JVt8y+45R`Qaa1&nt#Ejf>Ma*=VK@>U
zD`uw?s(O;i=x7pY5A+XQj*dnSjZVZ-O!L4{bl`G$Vmy&V1LEPq{&4@*{$X^|aBMhv
zLkPtCZ(NLqFGZ8#tHa6gV5~ne6z)$ZN5dDzd{C(ULM#?ns^mS;pNRHO#N#(kk5hRG
z#BifK(eu$*I6*y$5Yt3*I7Xiw!=uPIHg@S!l*g;>%*61(<s*kqzDVDY>D4Wfll?dF
zO)pd(9E(lFM_-WgIypRwE*E@f$F7wIA!WsxiGH+p5)(t!TaA(71m?=XP?*Pv@;AcK
z_{H$x#OMIULMneGI@muEONPaHgIe`RSgqWr5ITH{=G%$r4XSqKsTWV4KX&SLZ_ml_
z*+WN;ojZT_m7qniv602xiVIFe@25WO?N9a#6><*!F?#PE9!LuQVwf~V&W%S0N`i-@
zv4}JSRIyK7>*p^esFZ|YV?#~;ph>8pd=JGhMk5i-Xek1#(mBiz!Kbd0__eZF2dbAC
zSXCN`-UYP9QmCP!Eq+txmry|;q*p3<bZ|`Y;XOW{JR2R4VJXHj`2?pJ^x}9#oCMX%
zR5>;}K9Nium>7<U9bS2C6pJh#jSM5^`RFKC3H7=Y3-J6HrY~AUGr}o;I)_Od?-v}>
z+fe^_^v8skphr|qQTinzIL}RtkB{-m#L2O<J%USqJ9T#Kg+oGx@+u8F*1BB|d*KE2
zgRf^IIrfscx13~iL~u#3w3$SCp`Oj^t5_FUo0o<YXiPK`W*e5^6qnRE9~~UNPSaXm
zT<T>dwDJ?9;mCM6G1SjTC@nuW9>p4@<u7LRV>g;OKs%fK0KaF?@)z-Qi;Hq09dLa;
zFn(Rg5H&^^T#K3_2Evu1=BQ=FD<)98*t=~JW5o21UJMl>A5!U`naUioJdw&usczVU
zcA=(Z^BcY%jftb){~H)9djL=GFs2DLFtMAxQ`m;U==koy`Jreai8UJwVB5MF<pX1b
z0k)E(iNM%Zyhr;7h62O1t*YL~*$fN}k1DxQj)6cDxm~1vKnX`F!@C20O5QA|gzEFa
zctZVsV5om|G#X0;){4~#)BaoXVrPkuV(7>C;Q>^9U<_0GdQ#o8aq5Kd)&AH7nt_2H
zkM0h1qJd$lY3r%A;T6hKDi=^yA*h6I5PKthi64%HlS9`^@)w)8KCmT-&Ixpian=Xe
z?~wF+t(aFJFgV7?`;#nl!KtpcU`zrE3i{D;!GJ!3XZXj2_zP}UhEjar9lKx+he!M4
z(QsI>hiM8=#K`Xqhp$ZZ$D}Woa5yqH5DxQ1&kCM!82wDpmnH>5trTiPmktaGW^uXm
zyAgJWTZYU1{qc>-`1r>0;qeXF-?6SXT%XvnYv<)1(T%a;iyOypB!|XEH`21)$kt*w
zdObRTwakmJiH%nXw+LU2b&cQPk0C?m+<+(XQ8=IB9_gJX>rx}<sF>->*;^Nltq&_2
z3Rc&f&S~fS*2<aQ%&J9eV9B7fwLLNzD$UEB!DL>tbN=R%NUe+3MvByoNPhEUio}QH
z;{F*e=?3+ZR`yqESr?wMtOwN#N?f{wBBrEXctcosM~5Sk=xBh}m}-7&u2}Z{>8nnh
zm;n9JNa?B*Kge}h9~ffAvZY;I3)m^JCQG9RuJ-f8Si%<p1tWp6QMSP#8f{elqmcm6
zGhi+>hiTu!?xVCKAg<CxmlCo;U2Gsekw^js!&b%e6l=sff^v!h-JGB;k4<J2KXCct
z*l1LpnOM<(f=xi(i~I@9T`c`UK|hq>`)DGcCg%k>ef$~nzCsS0;vXU3tFrSIc$Ve0
z<-*!(e#+YFShTj#vT6N=))tis#E@3Fgn^3_^`FstlR>D6-m5_9Up`~4eP|GRl?aDl
z5QGjSR|JwkPl0ds$3)2XB(w~yRTh96oGF1=bywBf1*>M_=Y_FApU}F}MZW^5RZ0f7
z@XWfe0DxI(3Ir?xz+y#yK>%E-2EbCA*b?MV(iAt+IAAqiWs6X7msUf2Jw|9flJgz>
zC1|A(tdrMcwqi}r-nnS(d|2030>@S_T3cyBwqrro|J=Zi%KK-u_+(&rfhN&E2-vX^
z3CMs(nQGYjR|a;!;Pe*<Ujx{QALKeb71)(V{f7WMmeW5SuoEk)3GBp@f58Rk6f+ik
zQCw+Z%w7KD<Xj?$fx992w3pWi#UbZC^7NC#U?Bx5An5|lD-Dq3LL_>Ye+|y(RCHa`
zKvJBDVbB;cg1R%|&m1*H%_Bq@mOaFGj98-9h>m#X5i4jsThu=2Oml;}i2XHJ$PsZw
zog?*S$taamI~=9DzzcP!x$C-+=NuPw3vLm(G8*;N$rt(r?lAFp!tyK=JQ7N!1lalq
z!2BWpj^G3pFq#a5Od@`lStO4I-$WuB2D_jikV9l44M<!}R#Wm5xxxD8E4o`;k_D49
zZAo!oFcrC-IxdMf@k!}Y`jjzc`YI^nuj^ChclGZ`-%?zd@?(#lOBrNdB*Kkyc+w&J
zkc&>r$M8fxGBwWK0PC@D(%3aP&>b}J2_)vJnt~ndC}Kf|ljH2`W-yRUi3#E#fK*}}
zgfQPiF%3v67|>UIKziLAv<k*VG&abOBZR*~4o{AfJwHKFZQ<|$cy^$j5=1*O@;4B;
z$ulgB2%AX>r;rD&OD_4R_{bo^-`?aNS8z7>v?XV)y>G35P`ReytSLAf3U#Xr)r~VR
zXU@;;FVu8Cc9^T|Y2zE#M{cgF=}UXa`=GLeA|kqG+%H(!IuLZ%iD?QZ>F9vObwJ_b
z$g<JBj+a|pii6nci6^CdM+*HY(oX5842Y+UVKI72FUOnGBZe{;v|_NFbjV3}j=Q7l
z!>COn8vhA$QgDJsev15`f+N_kD|1uOg%dPQsGC_A3l>n$;MPSZt4r5LmlO`sDVNxZ
zBsaN2ZR1<k+txYXR~^%?w0)+h;IF&&^6bl*kwt$nZ7+B#-@HD3J!4<=v`-t;x^#EJ
z<4ubl81(XIsXph(IZsX#9KkR=nv`+#QNetQk=%SM`viWkV7xds7UO9a@Gp_`GC7~2
z&n{`&3`AqGaQKdn|0F^a)X&e0Q)iT-lJl58(D?lAYa9sO)f)?&w->5w3vFv2d1_7e
zhyL0n6MmP>Tz%7$g?v`7sy3s4%XZr~yMM_>A$G1NIKMSly>ZDwuTIWawd5k7n`;dG
zl(JdcYBc#W{<j)$H!gAT&ae8``aA1?MqY6zW%Xghfei=Twpg_PYBa*%M8!&`6fH_N
zr382|rF4l++S7`*)^`muJ4>EgNo8V<DBA%tlAe^o!KL(rdUeWkn6_Z2LFgXQea0X%
z(^!Z}9WrH@(kGRTO;rjl+OkKhl!!T^d)FchP_P+W`+iI->Bs*Mo;y0h5E+hl@p}+5
zS=-gs6^I0q*Tw=Ho(s@RCwmKmziL1zn5L$Ip^4GUY)*iy)1Ty>NQkW|2?7&SpSqd<
z0tM->cjIq!*_?L}cRd*m5A|bvx{Y|%G|6f4+~nSOR2O^|w`yi<GQK(eOwFRNecGJX
zrw=^vRK0m)`bK7Rrai-F>gM(LJ?pa8bq{?NGh1#OGOZcI%+A?{O#hr=?#$fzdEMOk
zIos`6`aoL$z*GCc>3j3U^odMcrZRIeW1HjeJJ)8{AO1nlV}ssnU*hyOySUL92F4PC
zAu&8UpdLOOs>UXT7Zs&RL2$YJiRc&%)lXvQm@;D5=T?q&8E`bAKhAwxR~$+}3PS?W
zdQ=xN%F}8}{avr|U0;M*BMLkz)(jKL6fviapTVS~+NE?<yCk)TJx_dBCUlCmgLXBF
zlLF=-=W$8TrjoP|(^Q)LC5ED22Xm5fO&R&NK9GoBiA6`jqa2F%M-spw@q=k5vP#g;
zh%r2hG;%yi=7K1Jje*U<z!<NcUs*g>Ha~-!@^8YKtP<z1G<UlLotp!Z;FF;d6w%ek
z&msxUXvSUT36&DJI^sL9xfwKx^ZC~(;H%`YnQi9B!l-G2zy$5)(so`A_I~V!T71NK
zk^EbT)=IPdci_3nVdHZ9-h5^Hl^K5e)y$cktNG^Pg2Oj+=GIHIFJ;coe&jtzAZrX{
z9f1dSZ^7!gvnS_j&+a|DY|uN*HxE8Ga}J+oFy{HL>0J+<uJpjnj+w(VJJPY~)0u&s
zv-KM%7IX{k3)k+N7p^U=|F-8|!(zv&><i~|9p`e+a|M=S`z(vUWHQ)j8+LgBvYqB7
z&MdJX1zl1w4f4?|iIP2&`hYEuyYK+TA~3+7qyntpRe<nHz*R=12&j%IJDr?U5lzF=
z(v2t+SmV11Xc?9Yp<VKRH=-b9#rP>s0r%#V8PizbhYijmN%(?hz728NxS`1q^d)&^
z1_&17X@~n0K?^@evEGIwRBFf!1wCZ1#dPMei6qIfsChJJ@Q7GIL&>xmA4@RFqbSVb
z?;tkxiMYfmcy4kJ>bKwD|Kk1n3t3}L!DfH6X1eC}x|;_IcF&u^>EP?@ZXQ&5-**M(
zD(243w=cT7@~-VU*Y<@gi>_U4w%t6%_Phb)sysf)w;Vu$YFfg^iT@&15k2S%1OANo
zBbq{_7(iKoelUY_ut*`ch;GoU&<|G754Mpir6k1zI%B0TPDQJNC<!OkAmWd>SIEb+
zLb!K@a39e}jM}M)x}pZQdyDTj?G%H~NF}swiWE(?P^H4!6bX8tU}K~pZ4iQu*uiWE
z6g-eOjYOF+nQf8fxVT>};0u%33bL7~h@+_Cyh79rV%3!qHP&*XCS~TaVUJcm9Z<-t
zuY`=Db<Lg;yX-6es!}L`C+U&DYY7gqCiOC4LpjPCenu)n#?`HticsaG)Gk>gm!AT5
zmNF2qD<Qv(Dl(367WO0?WFKlMlWQhMuBqcIM02u5iO*@N-y~b*?<2H_ls!tnS>83v
z`xAOYQR9h#EDcx6iIPFthhFHA{l#B|t}edGzLe!%tDHAsrt19R_bc%<^GvRnzmIgu
zzT&Uy>!xC;>{ET+EQb|;RbRIjLuKEP@v4rmOYV^0BR1_egDAIu-5~GYpVn!|QkC`e
zR%q2kf0g>IQLYIHbVnb<ju|5d#Q2rVSAjLyhe<7gt!2R>?(O9Z`x^3?G<DI+zhe+=
zv=NB$O%Vbj{I~G^a8Sp7C+pd6LaIxVF^G#G*bIQ&Cq;z7q>G7fpqPW;YhA%6o@gqO
zHmiqE=pZeDB-4Zt#s3P?8NN2g$D~p%NoWj^sz>w6(V?Vt86a*v%sj+|NQRj<j$n=q
z6Q@gPR!P3XXap(zh{{83rxRLf&npc}uz29nB!@}PC9y5gjUvawNFBr<q9(mWt?^Oy
zWNjPPQ-V{yI|?4+`>3>%cv|{GwMzd8GB==~Onrx^886rmpX@nzG~9Fke4k)HfBNjf
zqv3PCFZ2l3mk*yld+N~HbAs#a>4T@jJ;%-;IvYORBRJ1aKu0JZJ;d`+!txI%wA7ny
zBBlQ>RsA=~`7Lrvxh!mSMG~2IJqGyU+!RUW8wi?g(gGw3ujL?t|8K$}UQ3mV*Ye29
zc_HoMT<#BiEqPyW&eyx>JG^A!Y_2z)kL_IT>U>RauBLaf<}lbT&IesP^IiLMUHidw
z$-Dw=aw8Zr_pR%IP;TCv?>><0K2UJ_XOg#4vnhPt%)WL#21VXks0kEm>oTWvwd=Hb
zHE&oSyE*^rLe1(zZL1RH#cXA}$ougV@5csCQB!xJx;|gMD_6biK}AizBABZPE>^57
zwC#9oF*dOx>p=1cR#DX&Q8m|wg10K~ZOwUGnWrP??I^6?gV-)N+HTuH5$iHr?>B5;
z@^VgZ-qDzIG(K<!^3HWR=ekl)Fy{=ikglAwYsqF>Wq-t(oc6~~uCk?2v3~x1e#3LQ
z4bNrQ@4q{h^`1g6RJuVRy4*mBSFg>l+MZjry);Lbk;$+JbfjT5s{cc4o5*wcUofy;
zC73c1l?+oRGT?L8l}O2tA`UUC7_Lk4%bqgc1I0E?nWroa@8vW(51bZxIB5L5HEjih
z*Z7(>WlEV-mO(?WqW;NhA?7Q61D0&+6M5N0YBAyo8sWu<+P4LN%X{H`MR$VJ5xLC0
z3V1f9175C4I8W=p$o;DBmQKgL;WvUA`kRJpI{wqh0Qk7^>TvX0&>-l$Hi^tM+i3I}
z={$``6Vx&CA`)zSFF|4a`Z)jGWVhy0N{mC-E{qMQYj11}`ZkH@x|AdtT3*Bv``f>y
z6_%~ob?3%>>&*6<?pxbuw`X?UuUvKK#@{h6#xK`3>cHaoIwJF5Cg)$1^Sf|@(oR65
zE?7X+hOzw!`ilwvH44#P5p<UY-BteI<1L}y2A&sb0Gm?7$>yiG;PX^nV(X%=59=D=
zs=Hk`?M_=}DrU}rjaFHGD>xg>^vre7U|Fr2wh${Y-B0vfRl(^lV0}0@=bW3FXJgK}
z5sLt8)3%Hiup2aD_d@@j8;cdY<b>cN&a}>)NncC5#c9pBX!e1Lut>Nk1h+)_NOX%}
zkN01fKC+HLKO_beBoXx{a*RfA*$V`XCdh~2+v=vwh^Mg_RQz392$m`9lr3e^S_C48
zX38GXzs993DQn91#B>)^8-D5eBC|~k`J~j~gBac|a%vnZuD=6v0ia#<OgU9KDJZA-
zjog$I92&|;Y8hiBq84bYyBJIM@kb-(XVje=k!d(N5tYJPi|v7=8penvVtv>4j)Z_u
zxsq6(;*)Yk>?!-Z4!JfX3aTi_P!Zzp8QtiYP|xb(H`$l0m3>+gqsyHfH>2aN5ktgD
z=Yyue<W6};TIDpwUm02EH(^AdRu{DIsoycyPyKGY#7%jV?Q+QxU2>J|FUkevG417E
zy^4|bp*MY?AVGc*?Ko9I@61=3vJgY}Gx}6Ts#4~gO;x3=8lnD_O(V1#vNJAKmGY;m
zpO~XnQ~s&y<QlntBk0ZYM@$*9yz734wq!h0HL6jriFo9;Ox2{kBkROCYByCQBiPuM
zuNyhlEY={#QeN-`i)+EHD$5=5%4I!u1l*(XXU-*sFe%oQ<`Vw`W|A*f6R(}B#W^HH
zq#}lMV^ejQRdpi@IZ;fL0&D%<O1V~3^{LvCUB$1mPg*ne$d7xs>K$qSn)-#>hL#a;
zz3lmvTkd1F>Rs63TmZ3tk<=&wtk@?-z)IAL0#>~kS6z|a2BMdfTO|S13IJ3c0o0&=
zvH}WdjGqtI=*2*SynT?|(57@p&;M`uVIVd^JD0?m;{OBulN&X`ktCqf0H?n}@QD_J
z1Wk{9@5bHMFYn5n$p*IOE4O{`#@{W|to(F!tqy0mP%JTF8T0lZz0FlpLrIj;34f5a
zntwnA{u!Kqcw>LNw6WEvzyHcT-Is67`LZ3m^EG?E|H|L-|2qo$5&qb7IA|7}Mc^5}
zQu210w7+HGN#9g&mjzn{O5UI|!{dT^pnoFKADgTeTQvlU4Vp+J+zCI)YIGOjcn2nU
z9F0MWSbvg~bpO$NxPp3ED*hroi9n?9AG3eoqyB9~*Rjb2OuV(?{pU~L?f&wyOn<g@
zTfS=h_dQ}4gNpvoh&Nd&Rf9T2uG}P>2pYX)7#pX91HJ=53NQB#_g@+t?T?-6Ph5uL
zz4eNW#n>)imAt@3Z6YCxb3KA?9FhYdlhI%^Pk0~yLvk2$NMtPk6>{#7!*IoaN50=D
zhZdb+CzbEvOA})g3I6*ON)V3!xAe(PI>=q}pe6Xfq(BQOP@D;h3nuX#k%16Q-C?1T
zRUrb!XpA!tAue<#6zW?r(}{!82>*wah4ng3f+(Nh|B7B4<kv2AL)Tz@sJ}~T9RFV^
zhI0@)@(QNc7LUfq=v>U;;PAjO%`2sxu(TiWzlUVOhNAqN|5F6;d2$NmyiX3H#Qb~Y
zERu5{j$khej|AJ5%cSW6*`i>Fmk>-Gu;S+_o=eh{7xhA<u8}zFf^Jx_K@N#CPs5Sx
zf&~p{9>bOJuwb}M&Q&;8iCHr&7_Xz{tf~B8Bl86D0s|{QBE|k0M4D`T+OGIjnzi4-
z<_1|$1?R0|l6l?hpAZG}gr(Qq>YDAE^DS1iD~Ptgnu&kT%!bnT|5S18p6*`vz5ee3
z7eA&%anxlUt3If0BI)>C_gw$n>iPcrwVTq%9@K4Jc;%jZvF>#G_=C#YTYF~rWG3gk
z7h3OEZk_H;_oS~pba?WPRqr`gy<dI$UjGk#Kj``XD~r{qr;pIbnbwE?y1ai=&cCVP
z^-2Gm))bWg^-YDE#-&QGx_g<kSG&`PAJ=kCs|()hZ0)9n;}D}ZxqsxYogR5T_7fB5
zsz(dm6?s=PBwP2}w&&Y=a&0|}uAcww-0{%UlJ~61dDh(b1PfLETPJ5veyMLpw}Q92
zHhtuQzdqCbwSl>{Umg2Xe;1-QuAaLx-~IMPu5rVRtx(@Fcjoqn8B3wM=GSzYU2`vG
z8`fuQ*XOD?%osjw*dsl*l|oPNy@4NW`Mw7<e{038YsN5hF4GSFLt|6EVOOqU*WLEJ
ziF*gL=PulDcxlG^prK>#<?P1Z#fC#O)`GX@mV4Hnx&A|M=TZ$<y^*@7?X6?CkIh|L
z=)T{$Eq&@i<EnzUDciCQ*(;s(NUO8<=i2ta=i2{g&h>xhJoK<On6KTQtKD9x3(WT}
z8MwL~%bdQ>ojwMNuBkQOcre#^5Cb;TJ<~t8Ye9Fn3UQixb%@mDPM<>cX_(5(U1H^0
zIcSg^n?06^FIKIewx!MJT#rBPVssvKlK3%9^uv93^nHC#YLI*u-<YllKTW>RlfyQ!
z8{}i#-^=jfG{(euEXsC9!59NGk!g_duT!iy;Hb4m2;b+)IY8^j3Wu~toZOZjqRL2N
zU(X}oAsy64Dyx@F<iSL%s#&ryua#6tY|N|D7-8?C$_Vq4&d8F7dA(d<>p~>gvU`bT
zij``2|Fn{Q>eG8nHJKOR`snSCE^+YAM;8u#_vE)v-fPcpJ(TM@yi9>h>$$eog^tcg
zt}{AQ^+SjE&ArommrV46dim>VaxYoftCg#3e#?2=xnyInIPp=N>6ksf<Y2E(uA+Ko
zV74xEKIdy)V!1&?42fRjbmPxF6h$PxscQ!Cr##f*^enGMU#aDFB-<i35wKSsPNl2#
z|42%weX@&CHq!iy8gaH+^X!)>kCWwlQM=@`N11jYGy!4rfl1WxJ6OeJe{Sdwx+Te-
z2j`CiRNc}i;$0!!w?cS@B6X~c`l3cwZ>e1E6p-9iL2_5YbP+3oV^_;(YMELa1OC!%
z=YIv2W1L*U7LO4V9Q<mgIw#mi0XrqAlb~2hawf<jHohpRQ-o0nAqt!5`em5AC>PW@
zo)FZTZZ;H!bV-F@qQ!pzwWWyCrbyszDsn*}xFBkQJx_d5axDtoNbiIMWil-?Wlt&`
z1bib6Mlc2;bRi8!(9xjtNC1fkB~c66layy7n0zTaxC~+%5~Eom=#t7s3WuBmLKREj
zkG}BVzBBi;KU{e34wQ?c;|YjL2myg${awU+Izt^|7z_}YaXdvW9gv_?B_E;c@}Gkv
z*w|6wJ`AH^qQUGIe>U@MGo#fd7^!@wxh5DWd#8xWD6@hmjXbeP(grFkmrVr0O%q3w
zkw6A4a{dYBQy~^==6{_Em0)vGVf-(lh(rb{!RiA@DJoeO9R94M=|NrK8x`Mde7kXB
z>;1Z&>ErMFTjmU33WL#ZS9u@QHD=Du?YbRatlN-we*j*7bzPylrO?<?%BFALNIZCt
zRpHcEwH2J6g0r3?tMxORH$HY*NS9O6&lELeH1NC<t{?FY*lPG1JjD72RgC79KM18*
zWshopOUfNkDUs&+B;ro#SboaPFD6HR(tIt3VeTplDe}CRbHVPQ@4I8vLR&G{z+m8b
z(pTfbUf_7xs^Oq3GKH*H?1ThOesSbg=ws~@V=f`keqfCW0-rz~y%6lo7;o8TZQ$0v
zd3^f#%$3(q6>3@w4MB3N8kQWKuYQ>``yj<IyX<M5oWwe7%~ZWrf4hFJ=c`SN-ZeSr
znlymBtPslEsp3^yTA|`v_y)D;1Ua;D_%t~*EFS{m^DqG<s)=d?c{hC~=fC4GK@|~!
zJXAw>?p3ry3Do=B0qI@dB@=!nKu<o1qw1Dy<g=?)MI994<or#Ufy|3@2flgi?PJ-d
z4Y{hWg{oZDwj~#Rb}O2s9(whXCaI5n6@(R3lCMfZ3aI#{YQhO>$ah{RLwldervQ8S
zRj{7kilCm}ijbb($^bnD72!PIL@-aCGl0%k9(mJT2H&v+%qwa+0L1|LC8{|Q^Pru9
zU<*L75rEw^LVHlz0~H?4aH#LwpmbwlAk&IP;gF3-Fp&8IojGKOTm(BiA|;BID>V*7
zF%^ILkg~Y1-$W()2Gom{mMGgC=u??a3mE^Uiu$zF!^Ama4?vVkDIcImrHaqMmu}E7
zWm2){nQj=EfCNOPIv|Y#8UdILeTPBlJ1$3g9O4#RW(ML)vTx%>5dMHq*HN}8euoVz
zjt`K-U{*7IU_`J*+!u=9Ta`%d<ohIIs&v8B5J4>gDt5I37S_@pLF!-x7TjvEP~U;g
z-&1JcPBPIzp{@<D?uRvN=a1jDXR8mU9S^Enn0CIuP}^RpY%ch!q2xz9{ugXT@lJ`*
zQW=_uC~!rQC2GWU>vfvDH&l?Y4;zs|*@IA}<BOlPL*>E3Ue9T%02cRj?K&Wp8atDU
zlR2gYL7>gA?_;{8*wh&t=T8tz99%YxG_Guz0Sc5&U(lTtbO%e7oEec*BGp$7qqNiS
zr%}9s9HHCq@xFO&`kJJ-?{vL+c=|9Xx{H~PeEsHJ{pN+<@1Fkl>3iq@DE$5KqVq*;
z<$wprrjO0^zkV|BY|1&Cp!r<&&E~h87oD5b8$IfIgzC)XwWr}5zKKzQtnw^{o+IZx
zISc_RrQDuEr!~{`B_~Kt=tl;$g`2sCrb2s1p`o!**YwCyiOn0dnF+u6)ZDscA)l42
z#^y~vY~D3X6bri|_E;DB);>dxpUN!R8D&&;c>$GB6F~CLXyYO-)xHR&MG!aIJ04S!
zmIxRVc2kf^(i<I&Vn?D%R2uD2X>^R#qTsTJR2sFyv8Ot*r@Gjl>c*bx7SzW+*bF%p
zg<S%^51OcwIS_};?jlT*P)?zOjMTvRP#BE7OHsBxm7}3IQKJDuxa5a+ezw2z$f0b1
zeNtx-VnVbW>6r$ddapHrNTCgZJxQemt%apN<uGLcDMI>xD4iblep^&W*AjWEh>?{x
z5RGjm0`1?F8AJ;aAf#z0Z8EB|D#V(oT_OPJQ4urRWkO>@%HL9&|0P8)4K0+RHXZP?
z_K8c7C_%mw&iP3*kuP1FutHZ+V3B~ihAK#3H>(L5!J*Q-;%O8_<P63WLAS(4Auq6t
zXLwE$o23O21S6SB;sX?y5LQ`90k#e~egip-h=I97bp;qn%b*j{cOvR4Yg#avH`$`X
zURBdp0Z>P1U-%vp6M#}HEEO77XV>n%+n-yzKiBX)0jb&*NSUhU%qJGB){)ZCgG&Fc
zeY5*MfZ9)0ZN91_SEcgQH5FPn6q-9SFV9^7>#xwV3B-x7;xTZ$%3GFM%a?2qpf^-Z
zhhu5lDVF>dF88vbs+_PX0fsc!*gE=Mc%H4gKtM$c7_9^jRlrCSFcvj~u%1Ag%j<~=
z5TUEXR+&i-Wvl_xgU9gFBPkbvG(X4jYY>RJ*G)supxh?%u}NZ8!8QxgvUI$Vd2qx~
z^b8Jc=6@Mkipnhp@YB`j2LmcX=Lu9s+~MQ{ZZVoEVdMlLScGW=;6xy}c_x{!S(B?-
zv*_$h>mGJ=e)H(tM|0Lz=)2Tp*1TWaGN=2hT|5u>zP~XOTJ(3O?eF_)GxdwU4jdga
zq|X#Q6>0H&52-H^B$RkPL60UFr14deJ+1Uw<Z*szAi0kElbplUM8YP-BXGO+724Vr
zI_D9Q9}hu>NJI{xqlKsq@Mc#aWF*R`DX=6_Jo4c<iNZl%5^)2PMj~#AuSvNc*I7-K
z@;Nzp<#TfIir633cK}sY9(l80zK9?-fQ>-EpOG9!@EDDQW=3k5Kx*K`5yB}9nkE2u
zX7POmjv@#X#IZ4uXa`8N3!)aRXvpp?1V8)@MrV-4GRB+(M|miU;G3vW-vAAk{17;z
z_vQZsP8pB`S@7YB2rN&%3RGxdjZiO#C0rE%Bmi6XfKw)cCY-whFkk=`zw896rz|pF
zan1@zNAZ{*bQy@WQGjfugyY75%8$fcmiCK+beh``>3;`5f^~TGYM2h|K)o0=8f1O|
z3J}=^?JC-Zv9(~JR#Lk);|w({6!PDo3_P-Bvhc-;L0DLXwIxZbEj$2gTCjKMV)-Ye
zSDch$C~+}QSh$s_93ry_j;Lvzb`=aM8)pTMT&JZojKqK=53DZvh;gB^8gRi{@YmzV
zj<?LJZyfsO$+u4~_!bV{_5H!BKU(+wb@w~^vS-fcI?m_nU(8irNLve5XWrVFvtpN+
zue}@1S{v_MdkZZAre|7cY9-apdbSJ%v#8rvvh@=zWV1^^vn2i%g36!Ey=e3U%nsco
zPz;eTMf;oh(1?zpQRPpO^Q%P<Md-}3G7pMrp{FFxFiw-UK`M=TsfA`?t}3LkR!Qpl
zTY|hPM7&nL8Bgv*)?kIYLdT{2c~?2ug+sB$@-+}TVhw2ZfC6R>KuWo=vc7K+s%Dl@
zHP~wA*s==h#T8|aM6V7HM4>Emgg((K3p)6N<X4su-$So#3D6?q*%DBq3nl<c9P8;t
zB$<Ld1V4_PMz64AWTjN3P%*)5A*$Ee<c6oLn<u0H60IQ8O#pnw3B%reRcEfM^F2pr
z!C5iWKYb#7xX>O<_uh8~h#%~&x@DiWe^6CNqASw(-ul+g+dJpZyc_-2<vW+}b^OtW
z?{CN-xR5(=0U}>NNx5noZVk;2J+c`5EssoQU&SMX6>`VkH%>v*8*=FNv+E%w&LrQO
zx;>R|*^+D7a(C<R?fc%o{GPtto<3w!=}yymMhMGJ%$~sE-Sgjk_3c*|tG1*M6<SxP
zdw=L`UTWo>LAESQmLn}iwj2+@^K48E%3zuc51Xp4o&!GgX=H<uK0)Kh#z!x1XEZ(~
zYC@ku#L2d&41z@7f0=r|9g)%VwDYv&tSxiq`_?r$sh{_><~*%)Yv#6RJ!`YpwXAtT
z-6h24xb*Kok9l<#zH$PcO(}+euxcto)~Ar_yQw|oT%+n7L8ib$9_cNnw#>mL4nOlI
z_H(!Qr}VZ|;WMq7uUz8rvrx56KTE6irgfPCsNR^?%|*W%dpq_s@{0HZ<vc)@mLD0e
zE&mR_sPP3AK`x&mB)cSF!!d~=?2<5oTV;a;#I~DZ6*gcMutowBT$`-c!$OHsCf-6$
zDJC6@DSHO>5r-<K3ld8={(0&UkN#K*fwDw+m28>#aQ4tKqVXN+Dxw~-C31e^n{tBD
z11zT!l1}aPPVMm0+DVpKG;@HA*M}0SA{9|T>SET;Pppm9((0(0d}v!GQr0jGtQHuU
zzl14q9vDFaGa9^xKEWl~7X?d#jIdalKonv-74gbw$8RBDhM$!fW1*?RR%`}t8G2Uv
zBzmUBF2orJofe>h!n95cY(W)Vr^TC?vLjprFiklSuAz86<wUp!D4KF1Tm$e-xe;E4
z_Le<U9`FrRoB_nrs0Csup(&h#E1H%`x$#Db2zydayvYbUr#i<->fZL06CyIB6q5@p
ztty^hOa{cSKpxs;U-37kR|%QDD9b&GEo924QjPXS3>5YbmO4GCO{M4q52aQ1X(=ct
z*U4W~E;)5C_h!X_{u1nQyo#keRgv7F#6j69Ps$5mZ3Iupn5y_H_jLntV1NopXwj_x
zjYcEVPF2YHp*A&g4#{rWmvW#ba!zJ&Z%jbACGHSX(28JBa+~Z+`HE)}M|R4g#b0^j
zL2Z;%m&mC}jsdu{TlN=!lY3?V$aAu<_<MN=7SPsYj~w#hY9P0quYP*&>e>;?a|8XR
zV|{lG9HKs8CR#EJ;#x84dD7Z-k<=v<T|sM6T|yL$Gj>vum8I+kla?;Vt>nR2FJnHH
z#r~IQbFfuKqZI4H*i@}l4aTc@7cm7>Bs!iP5;X;wXr77`JixPL2|S&5WXx*80lq1W
zd$YsYW&AS+B1J95%~Zf+<idoMf>~@UqvQp%*ofjuMgAT|{60B;a{hpvYB&(CGHU2F
z<@N$OW$k2p<Wt+mpQU8%P$6p>^{rrKM@ZSpa%LBc)Eh-f5^XmivC1Dc$)#r7sWx_n
z-1;@b5f)JlvF+40ogVtz^8O7u{|49@YF?Lb-k)pUpS3m=n%3r<_T`%PWvx&WXwO$~
zgpr=KL+!0<%~!3<fsbc{7Fyohp7XY+O$AkG(fhD<Gm&D=g_iaCmYunlos2Mh*tV5^
zp@G0;S<=r34Vy>;9@s)+tm>A>Hd7-zIamvESas9a&XVHR{Pp|(ov3hS<D4y58BALr
zH1E7yd+*HmniiXnP@WARRM*~$&&Huy(Y9u8;v0?2HBKBUtmfLfW{y4fbG}wO%GkVy
z{<j1bHsj0l!}A}>HtZ^_-ceY)|8IOYUj?MbZC#Hj^|HZTgPOeIc-+j@Y$!n5hAdE1
zS%2cCY~`u~Q=pKddD(%;=9P~^Iysk5l=0k$zH{sIxz^|3b3XsT+x6~5e&gZX#>0yn
zkKXql`vA)If&IC_enOg?py1~_u7fI|t4H^DKiP$fF*SrgaJC$=SWA?^G1?+jCP@^-
zqw!n*XpyX1@L3Bs%eb|XhXh>|jS6Pbf<B|6z_6f|lAwx6jKlB1TcTjAo~-OR@L$kO
z4Imnhz!5s#k|Vv+j-00>?^&1gtjl}4bDr+3wOb?{C~x`s|DwTsh?>smz>mPEZYu?r
z2ntKu$|%ksJ+rZ!bDqsv>t@zi!75ugETNYOPhi;Br{Uh>aNr3-S+cg$i^Ev2LY&Qb
z%SJj$nxrmbkJh*s`N>*F(jtnCM@#Jnj103vd|RGTj#-9hn&l|GZ>@45-7g-&v*PfW
zf-}i21GWN8Oba(8j7Iwll-hpI6f*ub;wqLa`=Fi)llw5FFX3n-GU+5oz^{y30PnT_
zvu}enrPn%~sG0>Dn6z@#Qkgee$H*YBR1_lRSp$QP3jPPo5!j-9tZ~XPqkH2MIMi00
z=NeMn6dAfwN}VEBl42>OI7B$=DdhrM!<J$)WUY}bt_#o}#OSv4i9B067*;f2C7!OP
z15rV@s6^d^>;>DzXabkdL}9tXj8o1q8ZKC1HJr{t^Mn=QLK<9$0p1b}3gV;>_`Lkz
zQog@R4$VC%GxlE>&!glibBBnX;I1!93xh+$k%Zu)(?)FbU^vqprPB=wx@*8X<T%!A
zvQIX6Bpv&OrG;3GVNeMN5~|P;@q9B`eG5x*OV}ss{Z19<ztE=lCDae>lZvXe1>C5#
z>p@M6d|=^0O(U5pnCtn{r}8zMay6S4e2X<(@-@42HM{R_zI$b{rYC*$sgb(xUSyFT
zdTaCEK+YS$A%sj-zHU<v|Eo4JnIWMrD+DjwOumYrL8GgVjMZg&GFRqWA#?h3U+rwo
zm+F>$oXZdGF<;$3Ro+!N(EVoLbl=yuy|w4|o_Xs+XLik=dlmN^dh-n@at$Yb(DQ>U
ziw$S)JI_97Y?*V-Us-5fY~1?!Q%l`kZQ$`{;?B`Q@gwuT`xWcZzs+s==I&f`_riw7
z=I05yt6M++Qm$@WzHVQxZr|Ph#k%Ly?t-T&Yi$yFKYxm0E&(yLkueZMQ}PxJ8Zv>S
zXmJyt%AcZnFfCL<^;JVdXb2`+_;qCFC&JZ(g@-e=hI)?9;%aS^@;0hv2u%Kl1rE*9
zK|L8{94W6V-c|Kci1T8!%bi$gb(-~g+O`gr2(e5$Z9%G#qLrB$WDMHs`}k3j6@Nsp
z5kwM<!_c$i{}AtjIXOm$Dr9aljR{{M=Y2S3+~iui3k#bBo!Y`BF*xNWo$M+(;;CMb
zD<yDZm=n}<P*OE>Ey0|%0TxM*6zGi6lg2kB3mL6YQZ+b9wAru<MjFp%y5@H;3@q^T
z`*ZcX^L6`kb^90Vdh&ILb9ILo>yD<6BWrJcW=Gc3mbJD4qb)g7B%P80ZavpJ*EaLX
zdHceag#+`RT+NPr_5NJ-{>AE^^pS$6PR>A_w4XwywS|UD*l<X!vw~7GzLr0jC=%>e
ze*xD;ipvz$6#h&xPEl@;<GTuG0+FL4h>&yOJ5yLbNd<e*;!Po)G9k5iR4Oixe$)#X
zTv@D%>{Av237UwIEqhc@&Zw$Qby+mL0&23O?=U+pnw*s1jp94gD3ZfWVwl|85rz9w
z%r|0sM(c_Y+N7$P2J<&%8c}#Ms{9rBoibfgaMvjlVq>M1Kj<Bed4PlVR=EvGsT(2H
zo3aP^sFWX@6|H5T@mj>I*|tgcT)2_8C*#5V0JfAVD|9`;^#oqS4qL#WgCq)@(!Jp`
z(k8a*$+YU3N9vA2dmn!k_2Qo+hoK^GB9$!m`W5mMF?Jp@WalVumSW5hlEgP6L9h}A
z4#$epFh=0PDi-W|;tVEk$`e(=UqS}hr<iRj!36WWTQ>7!R9*~@;1h4dgFS26EH4f>
zPs9@wafYtIfF3NqfP*uZ;KP(?oSYZQ!G)%ZLK7`(o?$aCnfeK{!)Ao-h`RjBt|%BT
z#x9qbU|C6DMZFbDQk^>5`G~25oez|``_10z-i+}r$8E>_)^F{;vpe0p=-kfqGxN^I
zoU<`=X3^P_)_vgc&kTLTc;B(A(Aa^)fD-a@^mh(@_r$kP+^>0l`sl;Pj<-(VKE2qu
zA$<xvUww1FE|{we&Tm-6(GE9cWYrCM|N5MNeZg7vD`zsgne)?qnV0`X|GaN5a{FU2
zbTt3+Z};EzEky2o3`Y#B?LV@6r&rIM`C9a?%eOD5S1;PvVhgoZvW#xMGW*J$Js;Sb
z!wI-Ei-8??>$5Gri~d7km-t(5y*m5q+}3aId3(>@^E0n5`VXW@gA;8f8@jsJ`*6$v
zn|^z~c~7o+&)wtTrpWt0j<xRj@}Bg;_q~;Lh_qo<p=ATPwJp#x_PM8fz>%nG0k^~@
z8sue}Jyeb*2o{kqP-<UPp<HRE66G4v{R<sLzjzZL%ymLL${wbFD8*6Mo}nl(R`xtt
z6vdhXdrsD(O6l>wOQMKHlQ6K41nYFVH=NiPw03mRn5rEB)CO&3gz0NaB^+404shtr
zDVt1_=r|oW8o;_$(yBDp?Ga;f7nD;>DY?icL&j;;qCJW`3ygV8pbR5cz6oZ_q2z9b
zNhCToJ|dW}uwQm88y3w!iLMjOm&LF}v_=UN<FiBCq+8<UaVY$1G#tS>Puye%8pI`z
zqI^FhEYU~kK0`0v;T2(a>Ecl=cCxe_g+3WJ0J;K@|79xC0?ThePk6o^MZ%_iBqATd
zO3~+PW@K8<B>^NxyqpuPUA{k_fXPi1<YE^yN+l%(BbBQJiglw?3rN5&91|Q;eOWv!
zs4AXLjSD6gg;gs-5LQLfh#Q9Bq=KZ|AQO{ng%<VBp^kKjwhuzwZgM}-o7(JIYx83#
zgy@;A`G!rohE4ZYWg9jvHXL27J_cR=wpG8rD((7<_O&_eA-yvj{^Pb2IdAujJ#%8d
z7Rvi`kzD24LRDh{LU<yDPAt?f*6f`zKCEq@>&?{$XH12_s(fHeF0f_B^}e?$6P<f?
z0ldO}?|c2APqv@bVI|geNO2zo*36scKXw247Z(E;l=%0(TMEuPNyj|$LudO^6W6g0
z*D&Esv9*!mR8agOwO0AKaImgic1>hG(<$Ox$u~{T=gDC#^BeF9R!l*Vu*n-D(MvE#
zge&YY(P!!PWpW5)@D6eq93WXdPdFI=SqdX^QTxzQAAKR`HsE*SGCZV=2TZg@(Zr(@
zN1h`()AKr<msm0}ANIM*+9iwVw<?E+Y+`_&jt@CRzmpCSxkSHPIYK1nhjT_y!1IY8
z&+0j|dr7Y|ZJwF9^@-U}{Dgyd*&qj^MDg>MjEN2m)8{S9=PgU-7E|+F?|jw#z@56c
zPcLzJy=(eC=l7h;<Xt+TbC}u-^(}9$zrB9R0RKaqJDmWin9OXQGu+-am&`S+%YsE}
zTfc0==cW3!s>4k1vlf%u#$450WPZ!r!*93bDmE=y=#y1ClDurAx0iKwrlz^0^Di!J
z5o?g$(wp0GDA#d#iNlv4Z23Xr-|hSvc}2{d4M7)rzJ&cugGZb9avvPh7l2L^eBx82
zxm0>i8q}bOMh@zkwt)UMCuv<_i!;Cy@6aGH3o^P~QYs<Zga$9$F&#)04G@Bwl|QJ9
z0$8+A{UTFG-h!!QEdZfH|3GI>TZqXhx=b5Tt8C-XUA7V1zXotpl?}AEq-=AM{3wDO
zEs->I6BP#AGh-^OS5-_!{9No~us)@BtKuo7j4GZP01W*_&og5x<bW!sR@n-3xhVd{
zjDec|3n&G8KvbT{j3Z*4AA$qil`aq!OzgTJ2r`e;myeM{iTEfvm&u{nxPZj~SjP4<
z!Gt@)a9c8&IgRkIq1F6aL=im1tb=kFnOK38G9g%)4U}jE#Q(2SEXr4?7Vpv%Z}n2x
za|t<Iv^8A}7whU3?<6V)3)N!C6VYi&s+G5Iiu^i%_zGQxcQqCsq+5oii+3jXh6ivF
zG<XQ5Uk9NX4$Ck_Yfxq1MU9b51pUk?5AsC_^4@B?-IQIk<9GeP*YLfDdlwdWom{Lt
z1s+rD#(eA6T<g|_vx}`e0U;kc+p?>7=A1jTd;4<EKH!kH7HmfK?JH%_5X?7p<r=!?
z`NamvMQR^98?ym2dYIjQH0M0ZGJsW6Z`Fgku6*5dxw_|Iz$06?5qNVwVcPW@wL%-a
z^9?(54Lk4FEH?B!2yDv-4&?%eSjr&T4Ec~LA2)gE&Iyln=L9%6M7W7ikw_&5=r99m
zT=-w7!J)bMaS7#UdTRgk-$49+>SZGS(928CMw9*Bn%}AXo#=OC-;QNr<288jryK&8
z_HxeFtTDhg=K;i49(jXZzK0;S3KuDS7dKg)DK*e_QY$ESGwL74B<zF<Gu0&{487yB
zC~>onm?&(}$hK_rYtE4CL*?fF5V={9n}?}0d1*-t^2Kb$o2lt4>lfIq)vT9Gn3yye
z#Ijr742OXRI&BKS_!KwgX(M!&pna0k4+CrehVF|x9W*IKJwk&}8P+(Zbsc%I12nR(
zG>tJ#4&b(KpxW%#Zc&y`l^}FeT#MqFn+{Rs@T68V6bb$`jXkkBXoa<JBPn-4R-Dds
zWUawD+{q_uQvxeTH}E$Rxv!)L&?XTi6OP98v`|a&N$H9pS>BTQjv`G(YR_bJWJq;e
z4L~d9SoX+Ue^E*P99QIjO+(u91q^kOU%@CAo-DN%cicN5UvRZ4yG5PU)vrtp(>2;`
zzk*p(@fTOtv#kkdc8OvXci#=D4O=VxJcZG?2tJ}rU{zY&ZK-eW7(^)v)m0o9^e)Cl
z8kKJ&Sk}f}VN}X<`~osqK7mX~!NSTpt7jr#>%H%2eE_8ZZxu}ZVDHOz_hbVH9<=Pe
zdp^JK#oWFZ7h5hszo80dh)pgx^c%eX>1#Pp=X}+orz>mi5*M%pACWc3{r`9XZ&Oz)
zFp~dGyng6`5#bk`w7-pXB?f@`?|j(7DCY823<m!%sX`%iTF_TcwlJ!Ls1tF{FtSD2
zp!qfQVKq4$$ssl_PcwpFPd=)SHYM^u(HC;kv{b){$V7?g^`^D+TYd_~+O<nor)lFu
zH|{kODS&KcN6x)!-nsBfu5*9Ry?@Ds??BV-4Vf)-hRn{KtpixSZQV~T6yErYCH@&D
ze#F5Mk#(xz0P3bZv?bEB{Be9K-W?y&y~c&e@Bjk_&?PlOm((o1TkvkeJ1o5tAb^!1
zGu!kTXn-y*oepx6&MgkivhNaTkYY<%y_vLo0UjI?XT<e2J?Y>^JotkyZNwLKL*vyV
z=8IB1QG`nA=(Y}Xi0SOI`099$K`Sf*8ABB%xs}GSNBoFUiCn#?Yc>2;@FVv~4gCH{
zbEFnEsKXzHnj`hFFjO6_fjR9bTht)MvPK#at5ze1m`4+GuDf9lw#dd7PQCz(f6)Xu
zs+W$94vv)&F_=H%KK(pAD{Aggtg@#_Ov$^jtfOPVeO}4yf{V=WgK`qFHl7Yy^W}Og
z{|fU!W_gs=va2LH@v9Ow$N~^ayrVAfS(Wpw`bK=wvo&koDo(iHKz0lkl{ArdG6(*a
zhv3}ez&6vA&1o^^i;cvHtVERoSjk{)7;y-Qi*%!v?iU#BPbAL+Kl>i)CU~Vr0fnal
zflVkc>LeJ($Hs9Ygz5TG8%mA}{A=o?)e_t;9Z9*5l<a<sx`{aO)J>h~B$*7%dpfbv
zKX5iaG8nzME3e^JXf`xwp9iP5d&z_#Yy%$uBMbRBql8eFbRZ!TtOH2}b>$9>=zznp
z=4*AOXcplW<N&mk+9Y@+l0@l?-z#gnP)XfY7HcxNa#xf^{SNg;v(y_M>7=OJmGgAX
zU4@hPJeTu4m$g2}=1yNpi)p^oAMBY^i%A+4(R~eKU6^*jKrsx0K_O~S`K%UdsM^w{
z8$c!Eu=h0_A5JC|IIl5^8qx1k^+{?+bWYQ}G3VKkwQdk+dKSU3Ef&Y>!u=A75@Dpm
z4I#pBC9cFf_(l)o98gos9tee$S&b_MpfoLZ0RL|>NU&>KMQtQi53$daW0xVCDTayw
zQVf;xRH`%o0~&en6A4*}I#KzhX!WeTI4e@jmR$xyGVIAsE6)h@5S3My;(w-|CDa_W
zjU7C<e8bjU!`8)y?I80C4K3p9!b^9D!9=B?x?px|Z_aZlYds`(KP|EI=mk4nQZfi0
zFvxCOWGoDI8oC(8A$H2O;Ye~waEdQO(cw!&N&Y{e{d|_3e*;IEbhN~X>%u18AL0wf
z&2-bN%~4Xuj+D<d#!mT;OUbl2P7n%Ow3IAy0K%e$W;0v(#O*43Aeu1pJBtESI!sR1
z-I#dRq$y@LX$qHhve=OcPaLp!uZWkSXzx%7pIxJBOY@kc>Tj5(hLn90q~|1R3M<>h
z8fFhv|Lw#rQz`U$QZ6m4^C>IEoATmot(>~}D}D9RK?2rFAGxsFUXijzjO=VKrLIi5
zQkA3yLIM(#U>3(-Fo_ewED{sA;sDncGlon;yzW5sV|)A|&5!%!DALrRi~oHJAc)D6
z=ulLzXY_r5Ua80UJoyUbbkQs6d5HN?j<Pm+jzZrfr*twhKBok&l@d_1qJa=92sbsb
zNgly9Jv5^Qm;5fa&WB5tC3u9rk1Yq^I3zH5Q7sm;C}0)D-y!Mun&6-~Ov4^4%11BK
zX(4e1Csxo;4~Xn0Z<uxoDa9~Qot5BbdAvWM4S`hSu_07&&W5a`jj1wi&oysfY~GnZ
z{g7-wtj<-fUaabb7J6-KzIJ1-c4OLAP${*OcU#WCtyI7LKRK!%tlwFvfr>dPanBvk
z)pQja*5(_w<r=mr9*8zKxN)sax-WAI<XP+51=qdN`+*l>mFI&%aKUl!<o&>zEOfGA
zuyxIReRlh?T<}<~@mSVc_kph}>xV^*eL4R=sI2*V(&mD%E$<8Fe8Krp&bLE)@67o+
z=a1)n+tcQU)s2~}vt#q-Ty+;z?Hkv?w3F`6sa)f3<oD1M$hK|CdbVV(TiAA|>{7JX
z5Mzh!QrqEK3AzyU0KR0v>Lh4{hplWV2B%B_q6X1A{T(A;HWz76gevz3_>nE*6=Tpx
z(Nu(&CWadDl$*yB0a1CZ$+as3it@Psoo2)qR2(zH&E(Wua?R|Z0F>}+Y733)mTX+h
z)@9DrVkg11F6(H3EZ-Z*T3bpxjXK~%cNziO;)yFomW;b4$*9zis0aR%I!7`KR_q+M
zl*@Xk1fCLfA#M;Jaj`H6F0L@#2`_=jXLXS}%l})|Mcya6sP*UQB2?|eb&+I`mcymV
z>Ujl0K9kiL`-VUDs~Kt6EOwU2fq_L$1zn+SiA^Pm{+GI>m9`IYUQvwjwc+FtEGXgb
zGWjz3$sH?Cp{FKvqrQnvXeW?4ARLX|xyEj2G!VCjW>WyOscAE2Qxj%WUD}<|(PV0t
z)g+Y_NIgZk0$YI}2ESudi26qpQ()_q!-S*!@Bm`r3R8n>S<;jOM0!Ls@2|)&b*2+s
zKk6-U(|1X4B1kCdRQ`WOs;5n>;;4vwd=2#!Z7%33T$Z)^WN!7z#npW|YkS%`6K4lC
zh@dIdb`<JXQ_opAZ*Z9_AzwszD&{A6MO*GP)kRdT1Y1^?Ch_l9+RtQ+iuER4simJX
z*?^(pd@fS0c&iW@2{hy84`ml5%qyj1)*TF#9(tnYDbpLP`2SPY&3{dP$$ZXF;phK`
zoMmzzlS4~g@Zh4Vq#B}%0Yzk2Esc?;x1WJMiXtv!u{S2yX-{d*$N?H0qNBA3$G<9V
z2iK|4+&SNUdo+ET0nr_~<{gE`PMq@sv?~NUXye>T8>c&c8hfj^Wv>1`&$<HC2_Q|W
z2LOVKQGF1an{}K=v?wD~QKiM|GPIx7e*kq+9tC+Obu$d3egwT#{t#bTCe<;BD=Z0_
zp8<Q1wA9#>G8HYBffQ1NlkA*_@&+wSs)v{Y=4<4#u&kh(%Lqndu`;X<EP-F6(foTF
zO#@IthONm^Pob6g|BJq}+pt)p6C&}HgiRX=)fnaR1n^_qSaG`loZHw_6K<pNKZ`by
zREVn<wY+xB_bmFmF!Dq?5mvKsX|Vy6b?t)|82@ejhGFjbf^Jcioozh|DOUh0D~%*O
ztISrenfEQSTi8XYDQ!fo3l$bLkJk^qG_^;SmLjKh21rflVyP;pox#oeujqR0cWm#Y
zMahGA1e9Ln(-cQYS(#-tEC0tx^Q@gu4N!ZjbB~IhYv<Oid)D4p(~z&(m#f)#_tL!^
zi#2CNC_;OoiC8%%SvIH>=UaU_Ynn(2!8~@6t`lZ_D8`oIiAgKc8Z`Swk>Y2`_eazP
z|DGI@>4*w6jLaZ(jR6Oq^%CnZ+V#b`?GK;oc{zOeY|p7f=fW@GR?G{>dJmmueaU)=
zXFL?*o-@3J|1PB@=Qjwy_>b_s1~n(0Y1@+7WU|j!qh%&L=y5a?0!X*cw0|DTBKXPf
zIJr!}OJ<#^YrbZoa$(?Z@3%)5T5`c2`p~sxwwMm<n4K*0fbUf$v%f1lmMkm`>M6dN
z%9(+g+MKO^*~Y>eIas5tZ~loZXxfTIWL=AVQ01v#vXPJM^Da5a=Y%ogB^J*O0WgdP
z*KJ$!&<AMmc+xjA?debEY|YC)3c8?knF3ON<P-BFpIu4opjVi-bS=Bc*X)KP)_{Cs
z3i63HAfHo7>!Md!26iob$QQ7fniqC0!$3##Qia82pBo^*{ZU1wseZw*#Np>&g8krj
zie-9T+RUxm{mAArt!I6P-|{Y_AS>6>wnULo36zBzuU~3*O7_U`Tb_o3(95pJHu%`0
zXQMrU37|Z(KKt@V5u_FrL=91x`;b`t5Ewu>U;w+@3=5rBvO-MKWmOCq5yP8Bif?2R
zWPQ{M#=QkBblVMM&?ZQR(@*wJ#N#)PF*Tn96T>lFn$4J1B0rh7ZTTUvL)+ByAHc!3
zq^ay*0&0MrYJwxkJY*2T_;Bh{q|&suEEyXC2s3K(aiGqv$;W{XOiIuA7G}|2KVdH-
zaAGV?2Al{?VUr`^gfk)_qD5}4#M5FpmEcfqTQV)eID3pC#t>ofG!)_@AvhrjP`K1Q
z)XpL7f}^rrEa50_LMkIP6u5}^dUCQ;LQb9>9mf1F#yn4(CyCgBnfRNT_OT3?%HJPC
z)$zvcjeJdauBIF3z0%G?!<u}<mR!RY5W_|9Lr;Asgj;6j*WI<})*i@t4rHwd*o^Jt
zY5NCQj)%v_=`P|#2{NJpt|4^dheSrS5f=3fA#UH#IYSt}DjovRN~s_#(qzMr8XSTj
zXyAP*gXY{-j?Rwa+!Q#3E5}q0EwGq&v_f9q#bSX612Z<Vn;~d@;Xyoy=u^8a9$hqR
zhuIDZJ&Tx$HBW~j%Vx1r#YrP2J;4SYW1dWKCosc{TsB5LI}m~Ql0*DgAYu$Xvrqto
zXaxKr-!INjX_~8pL=;Uv7+FLS+>{H|fM=yB7=z%G2&W>_C5uIrnhG9qu_*!CM<d1C
zuGzxDtRw-qg4jQG?MRV7M$6}q(bHOp-4hFF_1bR^zdf8^eI~d1%;M^E5^V+qgl;R!
zHy+6~9w|60XXtk5Cg6H?kF4DG=XII2Z*|=UWWHbDeeZnQ^ZvH|Wg!IG>hu0}Isdvs
zbz7kZW}sIU>VqH{s@DVDSGx)4EQ_#SisN8$%+>Bk9yg&sZVCMnb!qJ7$WIw=<D#*t
zL-YAga;oXI3@^bIDI8DEIqIs*i1r#p?pD)5-MnSNuyAg{n(N%P#8JRqfL8ilYUK9y
z=pNZxBxs1=a%f0FFw@zXIhbwj&VnsawRz!uu4>m3B_fF0_}BrT2q&p@Z8$lE>XgDs
zh?w<&j7+2s6Isx(0^DOlbHGV5y9rS`H5jnajCf95>En{(xutkImdYc(K{!oDHoZ4&
zMe~{}g%wGp1&QWOWLm<np!Lk)<v2XIR0pPi{{2h~+G#;LnS_%?(k7-X!L!9oXs^gY
z?;>BBNLmni$h3Y$RUTehMn#<|rLkS&c2JD`OEfpup`9=_=~*ioqs=?pbI$ff=c>GO
zOU}6^?>wAy9>&t3X{wi|DU^`F(u6b%Dw%3nNzy}6sY`H?JsRb;1mMs{$+~y}P5PYS
zbN0_UR+iIh0g;FmvRgfguBVJE3dm_7%N|ua0#9XM=~YXa_#G)87$;^eV4!>_c8O8T
zz5>l$_Dw_8m%fp(^79Uyv(Zx9)svv+^LChC^-2|iJ*Z@b?1w&~9VUMrg9a#`IH#-;
z9jr>(B&$+5l{aNm36^Zrj+Bi`yrffE3ZN^F6eZ%KF;>`@YGwANZ0BTaNj7FJiGdtu
z7YQa;F$tJKp5MY)mgv+`|1*X2e+AE147a#xb4tg0LcBbf4j=1a+e-I!w$8Oi0~`vP
zC+tZXis}to3rj{#6Z+%ar`2an4O)O%9y59AO`Dh?%{UE)m)JikBcYy*#VFWB69LJg
zYXG#AMAWM*YDO`N^K1A3PFM@=ywn@)&PBFL#AA94!<4vuPEk&U>ntz9lv5Luz*G|*
z2^tzBT)xN-yLt1b$N*<zdg<IyobI8#BI+tno|bUV6&E}(S*T)%MMIg1qP{ZW1{xV=
zXj6!y&q<%M1~>je0yKX;SF<yHv{2JBw{vdo{IP6cI~_W%*_*4`3zGwtO_`y0P2Y0f
zao(@omUV8+R&M(MH!!{Y)~mN){VLtTw9tt2^y%ZU4K!!XRRyz^Ya!~X+>v$eV4wo`
zm{Ny<d%^n6ETS2LLsdHl-*7I9ZHlCj!H9lQZHM(K@yG=mwdpD@yT4e(+IfLuvk_wY
zY+KPZW(rF_Wz|3f)<_PG1Meh<7|DXIn6XLBbTxgWI`SRlTLnixC-reAtOz{+yf|Ey
zY_Bct`pK@JZ>T;?Bk^BR-M?pOPAv?B7b$^U&57(*Nas#~9;n}u>3A!6JD9KEk)!`-
zvb$e^oA$t<1KoBg+M`;m+CV0$V4Z<XQZ0H{rA>swG-URQ)I`p|73PIiZ;wm{SZs0t
zuGg*+$&UrlAY0SUC8OE4^Ih1-#Lw@Z`x*T_YUG+WF1svV`y(fOGuFor&edF~gFUJC
zxudz-4cVHm2aWC7jy?B=?l+$P8;jB9M#fDWA5j|E<FwiT?k60)j6e8q)^{ANG_nH$
zCG2m)gBavU!9y^k<U}M!qx^XqL8`TjJPkanHFHHg%_J(+Y5;0U@E{&(pt)5dWe_CZ
zHdy?0&;aJ7nRQ7;HDtx540u|S;ttJ_ooF;Bh#e66z6VET*)=IEL-B|9%4L%t{A)mS
zzepcGsR&BO1NnNI<D1A=#6OwR=Q;`_Q3St@oDCF@Ko_qk-&*o*B;PCKEAq-}DU6((
zRP9gVBjKb5@W<M=FLU@^vbO^FtXQ>V!Y}4#Yv;US{@lDZ7wBHHP>_|Y-LPaMA8^fz
zne{na%d&%B59=%@|HI0bB@=$-lo#e5IP6QTGGf*frz~5&F6*O{V2{Bo6C2Me1ep;H
zqTm!Mbm{mMDyTd%WM2LT;+38dAZ1X}{|*5c0Z#`Cpb=a@8L@oLh%@roE9ilOs4irI
z(kJdzA@~xp!^h4E(2Xil=SV$^R^mi$3NA}`sK97z#1-{Ieba_C-iU`OmYO48m3dcR
z#22afnl4fqt%y`XiBmjl;D5~xrOxVT71H^obVjDqSuKUuD513|sTL}p{*~($sh8?y
zj5Hv2U8FHu^Pysss%O1aVgq<#&3JD_N~e~!$dSDzoxxr}CA1(-i<CzIc?9s@$}Zbn
z7irb*$4J`>;qB2jvE7l56=JYHmP*qeqc%1Q&d4fo=-MNzSIB3D5mtJA4O-C=>5Q(z
zT<~h=A@(_&JC5k;sF!?be-J6xpbtCIH*4V!vQr>yfw!y|B-@8450CK&$3`Q=#QN!v
z9f^)c*%hCo=fy)@M2$`QV=#k1fwNxX9Xwq)WDt#Y{k;Y1DHHv%uF0CR@3A;EYWgEx
zLF1%fj9V6A(j^AV8Cc~MlV<V59i31y#t&bDEI&*J51@%NID8!nXvEZ%1pI=7c03%u
znt<AlNUJFbA!-f8SfbUiEvacWEutZ%9|E%Z>qS!~(7)0G4-pt-m61uH(nblD2Exra
zm>OIt8JPsaTxH~7P7WG~nmHT(fjOI3%-LAXnHkZbo+*34AG2x^C*X!zwa!06U(TvU
zkicNDRZA~U(<rc0MSN(cqRmp4=TEtcM2V(8o5IC|wj8Nfvqx*|ga)1Cawm+*N!zcc
z85E2B6()*dY&T*d{xU5q=+k*qHcGE$)<hodDIa3lpBbwHW(O-H)~TwLFI6#BJ>`$s
z7@xCdsy5jwwgAK-zESCNjbNZq|LSVgq%LBgs!#bNRwjk7f)rji(k`be{=y7fl{{ys
z8b;m8HS)J2(jvBRsv%YV%-rm%+!~*nTVtvr)p(iUdNsJ5HPm~|sAAJp^HfW!24zAe
zc&Y|1uuNjaru?afslaG6_@cF?aU*85)54oTCbKVitCdpMqQ+wC>Qv)YAk~y=PC1z<
zyG8t+YM*MGYE1=FRb&loszcTKO1Vd+Hdm)ABaD$W5|n$W_$!YrN<$#{zt*W$smc+;
zcFG>r?4z?UWlyR@E_H+s%9K43OT;0M)rexGxfls&K9ujNRq9!xHt#p0Rc`B3%XLH)
zgB_aXI#O+^b|QM^+NJ85^u<N)2x*s<J#v4I5EfYW$ls<`KclbOo?2)06>2T*`C7G3
zwMHDNb|uEsYO>}THEDlFO=#SnT9Z_pD#p`l()r9;MH)qAPil2)O{!CM-C76Djq(|S
zRnVGhW8=oglHyEN&FJ3<!U#&0YGo*UDO<gtP<{CauNhTdN-6T%d}hnF=Jo%G^+Z%u
z*@L~p@~%r>4I`x8T=uBf>QpcleD<!Q)i=zB-@dY}@v5w$wW(lgEoo>=M$3)YRK9jD
z*&(Ox;K(kCRvF@+Hr4P7H)D81e~r6tc!j&B`?=CKBCY<7zmwAj-F?r|awsB^xTY}*
zN)}dVqP)a0OBBEIyNJT_i3~6nMU2hwBYp}~9Y+LG-=iPVc}Tt)a!!-OjD)uEv~`2?
z(~nEBc!}LCioeE?6HIA|S2egr4M$cU*|u@3q`>s<mo%?MeLFdtir1c|dNCf~1m$am
z3gI=B2!o@tVNwH`?0QVKfsL<7^txcb&>x$K9^!dO7Jf=KW;*SEOTHe;?N7)@#|d$H
z;TTMck>o+NSo#(E(oe6WaDwYZwVmw*S$B~08}g^J4&~pc5Bn&}bL7wstKvEO-S7#O
zYHS)Z>QS8H5~@mCj+*0&ADBXwLd5}sO*69mKstMnjf-8!{N5N4dC4Fuvo|K_6HKi>
z-j4$Ul9Ulz_Uu)ZFv=%P#6FUw@$5xZkggH4e`4|oR;b~#9GQ>B;^(NNE>WXNTrKEv
zDVLq9B&p~Z{X?p7m~$ohd>H&zTyzDk*~oRlf*&?$mLb`5P4c*;HZqC{=Y-;9sfQZP
z0>Yq-lKo6>BJ%t`lq<3Y>xe-qW+#q}oM~cmm&6=giCSYC1e!_zgxD$n4GvCN+qsH0
zdEeHYZ!7LR79hAW87k~)Gx#6d_I&sFw~uG{pU$2+cYo{o#kv=BThGt;f^)d;_PVcc
z$ZkEKc4zBeENtEV;o>#5zZJS2%69IBP1&X%n8U}Z1G>=&JjS}Vd|h|0t{a9eRNg>P
zwAKza;X>2ueACuk)7E^`kzCUeBnEGA?pVHKPp)H6cHaxxvo9_-UZB$g&Fyc+ZpY^L
z;#>m^v_5F*c<Yn5KUr|LWZTI)2Gh>_k=-}FW~TLZX6&sA%%8gT+4axg>&~r*MW{nK
z^ibVC_sLxKw!D9L&cA!nzZWMSG=f^&$!vzpoz@rDbT90lnM%7Jwy()q18K+1M;`d9
zXC~QUh`euOx~H%@n02-nJdK$v?|A~?VfnTdTGr)Tx^pev3tjix7F!O@9)-$aV@oEr
z*sy;73hZ3XSbzTbHJQ%$JZ**g&iRI1{kB=lj1E^M_ZPeknJX~fJLA9w19QHdw`~R|
zJDO(o56dI2-H`RJc^@b3yPm(-kn1{?g=t^y#4~zyoUZ~V?6UqfIqw?91BK;P8#DIw
zabg44XAaC>OCSAU$L{Q&6N@`e{@}`cJ6_28SIu3_`Gewh35))X3$5?@w`4E8gp0PE
zjUprRf!BY_IqS^4yy#t>_pZx%*Uk69REc+U-n%R3-F3J1?%74}^Y^yryvJ}u7S8<R
zR{MIok!!Agv1<LF`|D=UXWBCTU;4<O`x|C2WDej&XebxhvFP7fsNO(Vadlya*K|Iz
z8U3APptyRr>PywKUE)fZ4SrnD`KnnJLW|zcKlk}(t7iH$6`3<%YW{Oy&1`kXK6hZ=
zzUbQ`C$do@w^kxw=0Gvg@dbTZB1rvRO~qC_W*wQA<}S@&%Qo&<{C~T<(%3kT?A$$<
z$eH0O@fe=X`w~YIse__uU6y3iy5%FjHZsMbB-%73_mHwkQ@fVowW*C4rn1SJN;VLk
z1hI_Wg$V>m=*_WSY!WDcl4*?=GZ{!QgE$C~AHm3+jdrtt@_kh^J%@&*;_Qzg4YH=Y
zx~jUm`c>7dSMPnVuxFviD17v@(?;PT@t$b(;&n4G&-EImo%2qkwAU!={np;-L5l(e
zsv{P~o&P)5nM1+Cx?4a@c-U6IQwAx1u&nh)mr>S<U7N4`5pony&Gp=Cxq<qw1@(4$
zZ>W5)QNH)HO`n|#miMD$X`LZ$6NIxtt$Tg|pW`nZ7Dj@-2Mz6DsP?!~dpubCBvfY?
z3#tM&T>$~t|I06*v?>+PsK1POp8iFwM=7rd+E>vQsNT-?1#35Af1!5scYs!dxL=|5
zSGfIOey**4Sa!V2_LGXT<J)Y1+g*IT&+>N_#V0B(Mqk;9GW)Gkm0?BMi7ob9n^lBz
z@5X|OBi)TA`568$y@X(SCAq``L02c1Rgz0dlLBXz1b%u;rMo?<{!DiCO{LDnQ#<>n
z<fID=G+xAS4vpeU=woNgA?MC4IVRhVj*d)dqD1YSu8D*iWN!jIL>u;NrWG%3Lj@b;
zrwxg|51a#V60L(H{$zutZ(s;p=adc0lkmPg+5IpxSVpGZSX;&|O%`2iL#`UbRWtkg
zZC6Wp?e1`9#25MH0nff*e$uq{9KIJ!u*UEMH9t<<lKT@erd|i$N8!eW_{8Lk1jGv>
z<bh3JCDT)CHcQlO8%A^|k!{lmk~%eO8IVw99s+vTof%8D07{nt#be4GVQ`h=9TgH6
z<s`Re!~yjIZntL~NxU|H(K0DajW_++l>IW{KG$Uwf=i(d=SZ%gA>k~4Fja~}E-N=e
z66@tD+n5PN3|l)>*#JryiH((%!r)da)j?H3;@0RIA6vt`PLZFfY2};H#J=1!>JOY|
zEtHeQbr1)hT%R~k{=RIkq>^!XqN!{FUzx5WQUgFJ?@{|S;?{w}Y5IjDE@Z@kt_!g_
z)b@_yGMgWyNPfD!JW?n+51GG#asR-`p~Kih90I9I+Rhu$2hT#+Vo*rJ+twzXMMc~~
zoSvY2u^jND_K~7j$4AD7MSqXqj1)tfJ~TQA(Y}6i?7Wcl>*GkP_u)a(3Q^epi`ALj
zyN;Bl<Pjk1rv?ULJ?|6Hl5({q7E1eA&RJIYQJxL6#M)N}UKxV(DFDHNvj+Ytz)**Y
zq$U?4{)F9-`JSR8vbkPmQJ=6VZWJaJB1|lz2}GL;x63lkC-LCnv6CnJInI>fV?e7R
zfev*WE}XQEkk(^pJt1wcq3wn3X<2=!Y=cp@0o&?TEupH-M%Cs})d8dG0Bud{x<YmP
zjk^6eOO3jtM4GAzmsZjBQ8@0%Y0*^`a&0nPo1jpL3Eu5o%&Q6IbsKrz^N-!m>%(-v
zt|_o~BjDIz^IEw5R^j%=5-8{^dG+AjD>uP$XsEE!C~Umr(dJ5T)GVwE0;sLJ?M_+4
z+<_a92g|mE>zhOMJw|;`xOoS>zE{HW=(i8T3b+zzsqY>9qNWG??RVC~>t>*}C%ATd
zxUw@);f<}a)e2uxmC&%KYo%JCtA^aW4EHVq!{z-fXT98}<to!0HPODpde4R5r5_<!
zeq!{QGDF%nX4Sy8q@>}Pi6><q@SvS62UcruVu$8Ubponhm-CZ~K=f1%vr}85SHmjJ
ziu>j`2!F#gOEt%yCjn8$DfbCHE(xTC-gS@>BK8>05)r@2*m%TWv-9>d;%iJ1x1|wF
z@$}L%Y-u93abPWYEjf7s^DPwg5-3|@**CdswW)HI0?w11-$JFZ@$XQ|Yd)B~IyvW^
zZw!`g1L2lcr(b(&uUA~F2sCb<_XRyWrt=qFWdT?1+@U~YPk3#axB}6%hf5kjYrwAt
zy%2kgDjIIZT^?}Zt~c9VtKx1Hl=J_UXomRlUtw^T6c8sG5t|y3nnDnbk6B)3mQ<oi
zFYTd-MzVMR3!+IWV46hpHYz2Ernc$&%hz5GwC()N7OVkBRrwHPQxkAC-{=c;>=I;y
zt9C&)?cv64Ux{pzk|FH*dehVgsa_)ZwTtM49C>^~F%RR5h3%So_$=g=r1BrqTDiOA
zvoTJG+M&<J>r2+rgE*H!<utIv6q9-AEy<AtDOih)1A70KmDE6mKYN?ZBs{B_+*`6B
zmXYE>fi5VrJSppLEo@@4y4K1~EIg)!Dx(ZnswdQ0ty!VdO`KRL5x`jj$3mg(DF;k3
zK63N}iaDiX-9BvO=Ze#@iSt8X#=pi<a|S5@L}`O?@m0xV9AG(uL7<pc$|$Ka8L|6;
zqCS=|%(=jMUld_JNoepP8C3lI58B|YOPK1!ZQ*5K*}VDyE0LU1bIq}X{1o*R9b{c?
zpmu|?cH=YzH)Zc%x^ihwy;V>b$f*ky)GfM7XD(o=GUvVJ+8C~EhJdMZ>y<-`@w4ee
z!t%T6RzcI9vL0&T(bad=jf<ar<Ku4xH|)MiDMxuRRIuPkF-OrFufK8ajT?QRwa&f~
ztUWm6#+Y7O@xcpMUkH_S8ztQkSQU9bsJ>b~s|Snf=Uz67HqHYYV`r%FfKhlLSok>n
zOBPgyq=)UMU_omjr&SEg3DYOhCfU0eG3I}5-RtnG-K!1ci&oA&z8{Z(6|>o0&?#~<
z(_uMegCRQ?2&r9+i@S^?OBc&hTGlS+Shb5e#P+iYSA3f_%XBeQ^+0y9v#5JY7ZbCI
zm@6)_GfXgegMsW+`V`Lv-!6JmvSWGKvDl~dOGuL7uHR&G(W8<DPco5EjQu+9rgGPD
z%eG{%N|`_=AHG+m<oa{=D(-xI<z7|a8Sp-8)b9(pYlSCy_N%bg`cc7$1wn1o41A;|
z`d9!E%CFv>$kMw49XoH9vwNNR^>wc_u7?A-3;#>}N*^f0@HQ#DZ0zL3GiCLuaNp$t
zb83NCjgsZ87JPPCHV9NYER!u%fkRH~1-Q?AuL)kDkr!v}A~(KU=8=}$#@z4i#<nlb
z%^XLtv1T%@5r^EUL7bp75(XEofL8HKO>2uzSU-In0c`(GtUnkLN&(U^F~r2Ma`Kg-
zi43n>P1(5Dl;x<%=bzla`WP+XY16pq2a5RzlGkf^0h&^lO*@wWldVnnFBW<NaMWA)
z2)so=aKFyG*m7`gEYxz);NR0XPa}X^35a7GMbdq@3ipYmx0X$MtFSRzg2JQa68Ygl
z&KJE(GA$K2!Kj+m#w20pql!iH113Gi+#*UB4or5f)>04V`DZo@g)3+lx{Iwhgio;t
z>x^`gZvS1>d0EOd@e;{``Jp8DBm`8TYzsWcJPjI$d9P%`^hVOIV7Qind`o&~Arq3q
zaG9)!P#eNB&Sw>Do%&uE$`nkUP;WEm2vj+Kz#9!)9|sLVQ_3`TaAleA{RVo36+HqN
z7tbNJ{x<3So086_dHxLsE)I}yF*Y|z{rWqIh?Jy|pn#V50je}EDJAz3DU?#&lzSY4
zBXNBCWONpXOp!tfR-b%?sT97fh$Az{7yR;ngjZvS*fsN1sAQMHzy8mf5llP(slXFn
zTQc1b#$yNESXZONcp9)xP*678bE}|%a46+QO&4~T8d^dPeMUpy!VAHM{s6p17B>B$
zB(Pyuux+<dxI0kTB=Q9R2YHObCb(hoG{6f>VN)PSE*=vD2_16gnj4~#b=gElkvutg
zNSEgRK~itxFh}4+h(YhOUZ%faGWv-WDZkmE2x(3%ga=6o9N2t;R;&Zh;0vA@AJtBu
z(*auU)6Nh0{k+gb&+L5Wkk{!<>;vxsxOuO6#aKB|;{AHH1JYUPkWXucsG81$M)B`!
zOQz8Vp*=9<KTnn2(KFiEIc*@VFcv7BCV11L&4ydy8HqF+s`3>d!>6~mA36He{`U4>
zt^c$pwxqe8fEPJ6!uRqGogRSfQG=_aF}^`+Go@9TWnm2grG#;PaEN;oLnHpS^%@jA
zH25SsKcu}rJTju48q!{B?Ou=aUgHja+e_;oEQPutuMhi&wBfOoOz|A++g?g<t8A2o
zmq`&(YH<;zMpqTud3_k4I`!LUmPdapahmMajtVRLfsuG2+PTy6>uSlqpUi&*^Xm+#
zOTWtCw;6l~0j6dlL$!-mNvw{tBowM4k-W3RKrI}_J`AYo!Bvv}O_2U%%WBg|{0)D_
z5d?e-IkxqRTMM{4U@bj;c(J@HRNi5fcZA9}8ReVcg`R(PTf!ABuzL0o5zOP9&V$e>
z=_*P8E?y>W>A_XKSlLtMYPm@=d-wc)e27m>q474#PdM!yId=xgwP-rQu<*%g;KZ|t
zFpaPdETa|gO)snpql&*$wgvrX$eC0+TZiA+0{D&HEhbf+E2*>>wIyEkyW&OZe?0qG
z^ky+u9Bh(|!>67x73iSWWsY@I;OSDJM5)N0ZAOF_hioe-z|o-{cmSslvtT!_;M6S7
z|H|<BxE4MT2h@mzp2mjskL_aBPA|;p6Fz+pG77g-ks_G>LU~_oyT#MSSw%L5{`)95
z;t-C>^mGPMWS?BW8a1YR5v#{%SfVHvlUjKN_MTk@@9(&>BjBnLzPdESt<AN~Ro-@Y
z-oXla^ZcdTMf)MmFDQ}UYi`^8=1_OP(cKT%s=<OM0y$4)=Y#}dcHudznG+B)#b-?w
zL$}!{`^<sqv7s?BjG_0Aj|^b|p>YF70WCSR$HzM}i|Fr@P*W2Y7s5bP_sXwhm199J
zW{gqn0YQh$HFoZG?BdA5!J;>!#*rfFR%cAdpeyaf9$+p7U<r0~;!fmN?+ij;$xPqI
z&Y+2}KtQaTP{9VHU_-bP00_;18HL=KwtNX#ZsFb+s%$5aL4T6LQwYF635?cL6S9tp
z&8bwjYViDc+|W(m%Y4^KO6BqWYK*hVJuI5OOP`zXFku@57pYGu?mf%Plg#WI9KnnY
zCwyn&j_3-b*;RG!VG3U((sb<<FU7)VglAm+NOq8%p!A6#Sj2aEcbdVsc!Mh~{e7No
z;~B?VonuX=pEiCa{UhG^EuOuHz>m5r(q>fe;vEKmijl+rI8Nv%p-`!Y(;82>x)YpN
zplUbH??K0@88V{gN1#Zx$bq;MW|URVm^Ihq2-xU^TWbv1s-iX>uGAJwD`vZ|4oB_0
z5R#=p#Rj7U9?nDrU7Ssizdv<lYWB%Mfo9~^E#-<EXW^l(C~9#4eCkFwY(4QiAOBtG
z{%qZ+y<dvBrDQVHb+5Wl{ZeTHVAEujKMU~ifS>3QwbY&;F0YAN@w=E?IqNfW>zC}f
zh;Cf|PKmt@J6KUGe(BXMy_R;wM!gS_q{v>ea5}2s=jOU4{zRKqd&AuRj~@T<@sEyv
zc$9Ek4N*sly@_~T_z3{_jla>YO5biZ+_~u<P%Ww#;Xb_YYG2fjb2Q^RkGNXHE1*hs
z&F?d6dI*G39fhV;wQx`9GvHT`c`+rf^+fY{28^qM_p7c{1u&E5b}SVzZm(*y?|~CO
z;oluF_qf0lWV%_Kkz2L2M#Q=8_Jis&4(NDGdY~iL*g-X#pM$TEe;?Q$aX=1|)*#5u
zJV<*y;=u7k%JV?SdEPRiLLsE`DXhJRhxD$)+(tgkRsXRB_B}y2(>ryhspk(#$_zGh
z#NfpBwi34G$cd8iY4u1<Y)kA&sm7H6%Cf_=Mk+{_Dqyi7PKg^g+TPB4-XV<M)=<n5
zDNWS7pZcrGDo1PrM)gfRA#IZ8vxV5^0#2m!qsvY7o&a%89mF;Kt%g`rLKk4r7ds2q
z@6kzhqWu)%7zv#gwT0~${3-}=3OYwxCXJe!hP#s{7B-qb&wuuu4lZu&<d6@}*Whw<
z^i1MPpJ&T*;R-J2B7V}GD~X%jpCrz;n35%^_3|#3YO^<&>0N0%zaJ&>zW^`jRNRF?
z4xV$*+hAC`P<3;iv7L^4>zn6BjJj^1WzM~5XkD-yug;%7j2R-Y_{wAO2yD1}=Q;!K
z-ubOTckdVOqIl${xyFEd(~ah!dy^!LxA<B)nWXhL-X{gvZ-OtKb^QE<O~asvm8NM8
z$4>{a3GdnS>|N5qjCH2x%INHvk>3zyB)YCM|2_cWy6!0mWIb3$8iC@|iesr2KdA&t
z1UI^Vi4&t0ez@#{7`bY+MT!!wYto_AnCRdG$Z8}GCr$(vQj;m&0hN!=wxmc<p*v`K
zB$+`$dv4GknM;(LdB9n^DIQOjC0s;+RufLV;5icO5CO@|$|Yc&&L_HjByaF69QOh3
z0}5Qw<Pa2S7p*OGnY5@=dnmE(d6eId1xf|>uj7`v?J0pRq^GZn2O7$xz$f@I4<aKd
z5Ne@7o~S*rkcWW!7gY&e4q_2Fu}BG3Z8WMjVp(#Bpv8OVffBwKXo&Z6aU1koP_pF0
znfT0DQ)LWdg3@~MD9I9JC9*%`%P{C?y#TNxh|H1)!}YRCl9T{V((bRp8A&QW_A*Cy
zlG=<SRscf+tP#w7Z7}U!17ZUx5@23z00VTitx1k`aq<G+N0&L$P}U?BluuIQ|I&H!
zu<WalY{ZjIh3%4>+@s01zDSxJQc{>$s@a848GVG!_qz<JiUoI&^aKg+cua@+0K_11
zz-Ee>hejYqhD!>p?jR2t9E&rGX^M!#!@y)?2KB_-L1@gIK7C%`_o5dxip4x1JbU%o
zP)WN{(jF?=2xe&7dB@Wn@@zFcTjwW(p1n|#D1f`)xFc5%so9176fLDL6_)FTD{T|u
zb7Wb*eIF(BAUKfh{}e<~jGydOq8Hi(IZBs3)#TUl%2EPp_TGecSQ{HY({YVJOq^_4
zxed*t2H1?fs24G#G%)*xPV}$qt=C#Z6}yd!-NA~zVW6Iswi>0a!P54759PB5WlH*d
z94BebNvU(zVQr-bl}?THpWv&3pv1KBDF>pT@bxnwv;>aKWcvzlpV5|Q*#OjLWCOsf
z)A1X&PjWua3AG+ET8{)<k0B<Ib6kutN7^1hawFACw-^E|LyRVW#kz@F{*-6@sB#{9
zfoFfgN;7z#59X{!)C`-wX7&<r!~u^ArZ5RKyWa$wJ)s7gcErHio=|0JEF*0QGTAN;
z%c-*(a4f)JVX{ymD?pWa0Gka8o!?V^4q#lY;h-e^SmwN)pTM;M{+ctJladtV0w=s-
zIy@*1Lz)Z2Se}?G^Fi3|h?e*S%L!&ClNL%?`pT8DzL~8<EnwZpGgFh$?5&7ZIDL!Z
zZyqO-$IB`bX4;H{TX$IpLE89}Y%`82+eto29N2<Zvppwe7SBnfy@IWhZ<k=Z54<B_
zo#Qnj2T6>3Y}4`W$Q%HHN{pdY^n?_ER!wo0=U14-oQ4zF+-63p<eC3k+{JA?lbDhD
z9uUQ*t5&wH_C3rQ`XUMQD9Rv@2!n=d>CGcl)NK@XLkQ!k4S6~YPY29_S~^25JB$|S
zpxw@C40rCBc7<{@*x208X-~}Lb1y8E!V>3asbV!bqosZx^OOGHm96Q&#}D!c4CWAI
z6M=QE+Qz9eu*+y?{SR5*^CX0VO!j3jVuh$giZz6kV}fyPtW2rMI~;1h!yqf0^EZ49
zgAsmQ9|{034QMA%^P;<Q_PMClLUDsliW}VVW&awiTe<G%FBks&jTS%Dn)SX|v&w;r
zk8M*Aw9V+)R|JnRcy43_^FM)Wy#uEPb#^fMP8`7m5K$!e^!O+QW9MM9z_~QyfHD%;
z0G%C7da5Lgt-BadGz5ddb5N=Fj*jXS=0w&eF1?~4fs_()CeQW%WGctd@aVboejV(#
zqSM(~#0|z})DNBuLM^`lL5ftRMoAzQzgKiSh)N}3c_FiQuapi_=+V=|XT~K`iv)XP
zb}@exGyB#Rv!_j3ln0s>ppn2TnWgeZe9BMDOx`}CQR3@`GB{x9&`{pEM!4Ur51ko?
zA;^S|feiZO8OcTlCIDw!id%Xa?+bg4_<IV9g}-hVEZ^Ll6qE|6Q*58|rjHL8J~fUl
zGo734Iz{vPkCNqK3*ZbMQ^lAjkwvnSLl=hz$MKQ9q8cD15Y&YM)?epj9;sa+EoyW@
zuVJdX6;h3WfgR9wE(vsviCb1k{Mz^c8gEioppL2GcO37Ry|OwSDCiS%e~FudXrotO
zMa}D(u`^pnS&kIGdtVp6uTGAS4WoNBFi+dEdHk#bMAiuru@o&A$n>T~f!@SY<o8N`
zD6ia`l|EuykV5BrSqf#_dDg*TJpx!?i?=lk^a{VhI{9<y4QvC?HZmZ~6RCJ0y<C~H
zk9RRuHv_Jv1SVO;lO_G>VSJ)9`c{^gC+=f^a2&$qAtASof85k=C7aAEOri-esB>``
zDHnM~YkK82;Yt7CS;$-T?R-9&W0+5KGZDVifLqkZ*hd)bWU!0DZU%c8>}BvMgMA2u
z=?IB(KVuFs;3Ad#D1xr77#ou+>G~-qc!mLoXrXbekML}o!6<`g8GMVuH3ruie9V9g
z3_YJSKn;Tq2E7c9FnEV|#T4?#y!;ae!r6hHH6V&xq*(TMY(to<11ZB6(m%n_3jS7b
zuwp`aj)ijalGe~UeUjF8>i>cA@C3!rZ7`Vssp^-T6}4aeH)T&y*>hK^{#@A-RJQz!
z;=Zete6G|6l-kdg#=A<>=gP7B7OQIcd5)qUQ|~Iz{;RUbjA*#4bl+7v?kXGaDmdS9
zSJ`IXdrbYg#e#eenQz}+Wy5_-j%tCtRJGh=aKG4r`wD{l`F7O;#u}GyMSbM1(s@_u
z{ao33-}YdN`)<_c9^mOpW}Xe^*1YKeN93stC?zqcM|I4O#1#C*dMZ@M-1?Y;pJ=aA
z*AwV{+R&a3D8)1VLFMU~1My6XpIGn8Nu9N7(aebtp1b;7Ou^~BeQJ*CoY^8|(|8N#
z4IfaRRp-L^kEcGJ0?@PSg!<Ak^=b8<wM2D<*SO!Ex;zC5JI*U=udlzhUY>V$ee&YR
zFUs@B4~gGJyYt-_FTc2CN80E{hgv+h<)gk2`yhEyix=!ac7N&?r#DOfvFh)umKYl=
ze%Ydy&URhjer<aUt2nhZ_Pl)?>Z=pSGN#}(Hl|jnu&5;zH{Z7?*6UT*&Yrmb+%>!q
zPGhIkTD4=Y_#@AU9=>5mY@fQ{s#YhG@H~3V(WnAxvNCGL@1i{~Y<EvTIn(sP`m5^$
zc{PT;Hel1jHrMo{fuiPsyV<a{fX3`?_pDZjWyy{_u_JiO2H+6#5gYJ`(-zeksPe`X
zp2SYr+i|IFh0_j0I~-GR6?<OYsFnoq>9!w%F;GmwRrIu~SXu+>x{%s(OKl0;YQniS
z;i7izi&-o&=Y(B#hHZ{_`!8b`vTm+#zGC5POIF4%xsV_#62vaLR23GteOS7wxv`vl
zwJT8F6;tpVtItO*%3FEijMW#YSmN;(Poj<KPp%E;)+V1^q8?NOEeEivffMntdrqE;
GzWCovWKTQ*

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3.cpython-312.pyc b/model_executor/models/__pycache__/qwen3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..65e5c195524f907ab0ba169311564a789fef1c8e
GIT binary patch
literal 14033
zcmb_DYit`wdb1>#?}sSyDUp(_H?5a#Iex{C<M<Ujvf|iIa^a<AY3@p<&4;{8*_J@{
z+-r)XdY7|>;$Rt<gO%$Qkzuz{eq5{k%Ka#cEBZ&Yd?35E5x1A(kRJu;NI?!of%f}m
zxl2l>d{?w<YxbL&Z@!uNcIJD{@SkipGl3_e`+oexAwqtQ8RapSfz|(F2)RW#5+)qO
zX%b9Q6V@;YYZKa}F07-lF2RObC}R_BQXkgSGJV33G=_~7HY7|*bJ(1;ge^30Ojwh)
zu#Li|ggxm9JCb$bI+`~poXPrdeX=3kK=YP_E9nlqDQr!6lHRa4=?nX4-j?tu8^evs
zrf?I@+Y^CgFdU??Bhj2}3Aa$VF43CY65c{#XQD0H9&V>_eWD}T8SVtQfpaCglHK9%
zWKXy!848DJnLDvH*&FVoum|A&a6g5;iGk!`crdvwye+vsygj)iyn`Vc!n^sQd%!Pz
z!aFtOIN^Nn5zf!+FJ6>OtJ8a0ITzkVF&hE1>33l6<^ufgI1}Cjec6EDLHJ|1<_~oD
zTa<n&tyZA5h3{8-xL58ryqDItL2Y~Op7<U<#CPA*mq)g5QWxr&I(Q;A$_sod#`mXF
ziOJSCuJWm&)?}LF6Rojyay*)epHJ|uSL2xrt*=gujm1-A$D%PP;NxQ#GUC9ONG-%j
z#uFJ{hyp6W+C!<y5qN7-DM&4p<l%H`G(Hy6NTx%X44=xx(<#ZOg6Ag3v7uX>7#~jy
znMfur#4bdz|2R<8NS4FV*acpuA(`JwB$6sU>lmMjjE_ggg!II?)PXsmFQ$bEokV0j
zDnt_rJ`uT^77|=Uj89=tmUt?ji6qivW4r+L4QEcB9Z3sG$y5g3cnwOOZ@l)_>2mYo
zc#4k-lJiXZ>iQxe<`_<o#WUh*AsypI=oyOY-<XKPB&UFV=~Q{Fz$6@<kfw9Bt7J~S
z%11e9({LgMJWTRjJeuLp(K(1;;))AtCHq;KGvd+cSb`sttV(`3edds4R&u9L105qW
ze8;I_gv~OHpEIPBoQEbd>9^%CH=K@gydc?6pFR~AMfj}4(MiZR@YgazGzPrEY$TrI
z_-m3i8J#@ON5%zyG=426uOB&WDQ8v*4D@>-On4GzK%i(~>1sGFr{h?7<3ByGy{HJD
zDhixt)WR8fmNUYi3I5FRXMsP>lz|Y=%Ii5BZ{Y0kcJRh>X&rAWLr&gYhU$3>*8qPm
z-pX5e+o;A5y_D<R&`WcUj53_(JzLn$d3ndh)~Z32LC&{Hxx04xsGjq`rwcoC<QfyM
zKTAT5lASJgbzR2^NRE-Q_y6PP^WXf#;!DTkb=`zWM6z6na~z+dt5GtgCX$g0um(iQ
zir}RyN-i0_78y^Aak^WKh!WxANy#cC#YhU4YlI&cCF5mia6TRtB{MFqNag~ciAvTO
z?ikoYxa}nCWn7MGj^c^2XaYXFq?bRdWQt}osYnKPqSVAqL=%zNg^ARq2$ag(RcWmk
z_{@ZmiaDwnh`I(P-s->U2>B6ni)7TwnYt`_pCv?*Qw+&6SrXAG2pRay@}po(JF*(U
z07~+cCAAh#)-eT=jAJhK5F%<$lJ5f5P4J*Epa)|p)6+t(ECsRVqE)G>yt9r=?-C-o
zHmj}b+e7<y)W)pBqhrjdT;pJlwR@g|@!l)*2S%!Hnk;*b5gjuBYRwee0lrC@1<<E9
zfRdNrP+Gsf1anis9cZiK16JL$SkG;1QSfVHaoQ=E3G|_IJ8OiTO>Jd|oL$Lf6v0AQ
zORW(@FDhr0R-1lJL)M(N{+MvOpJ?v0_sS~{`cvnaX;)}$N_R7^F`T|k-9V|A*BMY(
zTV!C@%TI0IY*MO&@<yd)<(;);?e~p}9*2HhN?oQ`fuN=OEtN9L9d%6WN_~}_0*%5h
zsksJB<=L8kqRHAg^9O9!F4!~uO1rF8u~xEn&hmjK#l*?am>=Sv_bND<?FzKX%=P!J
zRXYGBIeq?@?Nr`nb}JM%>96LV$l@r<b{vd8pwO5kA=`+68&p8PjmhOtKASQPpeP;}
z(icHv>rf;M1BkT^l4DbbfwWx5qM*)1g-I0V0*EgH$Wf6O1`&A&Bvb4F3gZwf;KC7*
zw-rhPG7k-@vWDia(KdI%?gDiX3Q8<kQJ~3<5zyXX<V1u{Y>yjFa%7<6L_}3MLKl|S
zS4vggqXpd~_Z~tN{bgBK82|xID9KP(A3`4z$3Y8DM5NjXSs>s_ll1bO1vh4tY4geR
z0`5Vf6-#wERRQH9_JV3n(qE!)0k@}QxGd*FPDv;7iBWkvIB<D<$Up%HDQv|Aw}3pT
z3fm}S@hec?(a}nV%y?P-Mk299R1_l-5ogf4;ko{w#|JaX@xk%<ct3nJu;BWyP3+#g
z=hAL|FcCjLI6j%VkWLL=0h@GCwmA7~d<^U?LC%VUm(ipi7@rjO1NkZMdJADd`AWD%
z#W!J9{q{OpYa=H6j3ICIJv25Jo4RtkheqF{`dusadvb<iOAqD)MMp!y(Vlm-&yVFD
z{fo{AjvdR!9m|d#MSrm1@6Y@D7rlA^o}BIn_F~%rHfbqZ90f~T-qJQd_Q29#(i4}j
z(6BY%uyx_>e8bKq=0U^WW$WJMhP@>taW&1ID+G7u;s3g-M}d}kW`1X(eP6zP-_lsV
z{pd>I7*h8aeXS3C$LC*L+*uepo`?S($Dwmu(bIS<HJh5xd^G*xbl$TQ$}B~1Q^DJl
z_x3F8{P@7#19>kF(+Z`xre~+;xx9BP%{O+y%Tes5^n1SWg^E^h(OP%o)XXV(6|Aj!
zYbyoX^VasF(_i#=7CnKR-<o@8xuJW_Vf34!y=|?Yczaa*`JEpf`0zm9x(#VLJ!+G;
zmm50QEP5|Cv8>gRrgo(#c~pq#bl+;3Z9%B#@S4rggt!jCbvGmK$jpe+1aiYO!zF{m
zZ3b30HW&O`^Zu>aP#NKy%MI;CPs>v$pge6Pb-il_(!71qvl84>96b3It995*W>W8Z
z8UzIB#<bQ-yv=jmo#gH0V&I|YB^>4>PjF+2w{_n2QSigyqVDf(pV)pe{LuSGPWQfb
z6;>CKOo}lnN;bs;&49BZ#>!$2u?U(*)R;R4=`A#n%5E>MEhkxxBIe(PH9M`H)@8L9
ztEnh><f3ZGRoVkh)d2flrDIx-xvx>w!Mo7MG&`-IHfTtetz`m?VR;SZ$APifNPfy}
zQp=#0fpMwkNo8DUSk0n&S)*>2`D^_T$+Qthqu*pS`sa?OcJ2RdG$t6UYG_vG0R|V=
zs76nvrj~(qQ8g<nc+lEY$tlq9+xlL4CD0XPp0;Go7gb|bp#|Td=GRkJ+ccZC)NECg
zk7_GDj9fJ%s``S}kku<no{kIF7T`8ja1;nJvjzos+6q`frLOX>m_L-74fcf%JVWis
zm;Vh9c;s48`XPsK7@B~l9#6zG!pi^)hp<3*CC*=k;tNsG;8drbz`EmDr<X%6l8%dl
z9(onak79BRlOvFX?7~TeU&rJ$B$5{F5s8UN%w>tWBr#Vc)8)wdN$Oonrb{ZwrYACy
z%MyKEk}T8@grf0@4CrtA7SS+YuNZ|>*n?p-EnJNX+>~d7S}T`-ACN>5<i~Y_;>>d^
zI2)XsUUBx%=yTfK8^wC}t<Y>}?%bVk-~RSO$H#ql`<8T{SwFQd2af)7$IZ}6{m6_V
z$K<x>q9qWsO*aqSIyQT(L>TwhxkGo3-#$Knc>c`XFfCZv@^Saw?!~sdy-Tjof}aNS
zTV=#zQ_GzLw-0=!g+@8k6IY``M6;0y6cn2RcXr?2J-_4ji!hx2yZ!m5-6btlJSkIQ
z0nV8~sQUu9va{Ku)lL7`-FR*0wSu)dZ*4AEsWt)?u%T$x#QMxL)*PFgDA|dv{>I6f
zlQ%Elx;lGx#oCf%idN^w5=X<0@63E>ZgOGE!W%1&!5JO00`+NpHV#U7`+Ri8)049l
zUA|kd&Av8oS#kBvm~#4?Owr-a*@O{bey9Nr!BjNKM<S9rf<du~1j5!x1cCwyxkf-&
zN-`WddieDtN6$#wcq${Yqlt7h1Ey&@oe)r-3MddHHZw7v;3ch?5nw6CV;KQ=HMMP^
z4&!!`UJhOf9OB!`=2eVOBqEW!j4%wPxFX2QbO{OV*c_8xSOKwC^4s@F$x4D<#g_JB
zb9>R>Tnua}_6`<z>?(GKiXLCl-&ODr<oyH11BafroMqTE%oDe-#8L>Y8gI!U!$#t5
zESY53jIc$9t)#&-r<>hcvdMWn@dio`8LlG@-jY*>>xsLu)F8ty;%%EhlK1qK+;V}3
zctZ<2^Pa(yS1#}Yl{s!UQS!_AM&fjpnq)YDqYBD!GwIs8(7qrp^nCb-i(I~QUrC-s
zsg;=RUvH6-E@)a=&yxn<t^Kq6ODw=JF<%hZT*-hrBQZN}1ZD!?m>@?#HDzK9n5aIA
zOTPLLimIb?CW8MsE2rVLoR-&d42`zwAnqnZEX3RN95ZUBQ8NQX%?uEsGuD#y5Vfma
zZr-F^?m^FQQeV539M2myau$fVS!l$~3Ubv3L0UAgkMJ>waSAksIU?!hu-8V%3C=-C
ztn8js9-$`G!r$uOgNEM_wgOGLF>F=alBpHS%3|nVqv{H_66As!El1QE{kj@mRgGa?
z4a=!oN^oXyx6-GUWif3`)m35Cuvw;!l`s@&G2Fi!o-9+#N`TT@;RB|orN9Dq4O?N|
ztYA$koLE<Gs_+3qfm+bJItbpFA>d%l8tz-}mBU2fl&iDLs2Y3I8L19@WwJ2F=1NY1
zphxV_3gH~vy-GMowVSGfMa(ALt1<KYcEyH;ajSg%f1uT%j2i+IjuGnn#$SHLK`QYC
z$rKkOvFL;tO`MbLm545eD2`D(W6C^$zBNXBQ(#BXhyiu6sdr7I5Pi^1m5WWSljpkF
zQ@Vj<VjO}PNKJBrPEk)cWY61N_Cesdp(?zw7qCMv;YI8YJ!ZMN0UU1_oIo{|Z~-Y=
zkB(4v6?uJR_#G<zqy~&^ROTlK)xFhW^aunWc#ea>w<u#@;wK|lqKOG!4!YABN+y*V
z@@dKtoTdnqIG8EySqt-$BNmQ$3d|(=u!M##eBfebs)j&=G*}Zd%huThQmOE58)hkM
zX^?^jQZT?Ht4UP5s@Zj2)|WJj(D;nhQv(SfLmTmRRHG0`u&)awY$-H>LDP@ky6+2j
zVD7E?cNcfBxL?efAAxUqW&V#BGb`TxIqRdY{-U*h*|mLf=c-oIZC*CEgO_V<xVdZY
z#Rc6%OaCKZXTjH>_w~=5_yWNldEbuQi7))!MPH!c>&g3izz;8Yw&gwBivE^@e|O%$
zn*u|5|4`Apg~EM#f8Qe<#d7BhixVsE12i)qUUaRvca?o*#a#|BHvq{N^t*$OMs$en
z;1Ih4mHwJL3eCIn&AW=;pd4CIUF~x>4}xRw!bV15NNe}}l|uL4eD~g^D}{q+@(0g6
zY&nZ82|Vf<glWrG-2AaZ$L@T`?lr9@1TBAM?38tE#ke*KycoxWl329>MVP9T2LOQc
ztiA5aYNj!kiYCv7r{Y9UYf|pbaI#uOa8Q>*riOiNc;H+`bDvRgr}2EDTG^GcQJ^X~
zRrD|(x8bQC9kv?PfWp;`gftZoBcv1l6j}+_F?kP@??M8l>m3o{&!AL9*5G26moW#q
zDgU#}xa>H5fi1oV2{;b0^jyo9rlPka_i8cFS_o{*2evH+R{{rTPCe<`TIkxB@7h<a
z3(j3z)iT{7hy~?N&Fy*O3*52aw&SX4>@Kmy-@Qt-5D~J0ZQ0&kXgip1J6N>(=k`FO
z_RhSqC1<;N4I3G68|Q;7zQLTW=m^YRSax(R8@ps<T01f#biklOHi3tiFp9|-CK%4B
zSjj>Xvs8Me5gNxNfeB7qxQvMaNwpoE!9q;_1}i>*1npoW>Dz{eugCY)GQ^sn)HRh@
zc!M#hSfd8af}vZsMNODBqveVCFjp`sZ3tatyll5>Py$?KP-4zVz}W1Y?VESy>pM#(
zEHZ<QnVYzgoypF<dFS2R?=Cw+dDGT!EKn!!1{^LuIFyeFg)@+cb7qq)72}*pmx|<C
zC;R2&c?dyKEK!!oBDltN+$6Xo@mK`HtQZ>?V?a)Ql(oD%07cctESg#$fLR5mtd7@>
z>Zr-ezGn}!)J)XFs@2N};X|kJAe??da70k_N)`;<mX9`RNle+NU=kASlkR4e%Nq<t
z*wbhr;;zf+pqf6g|H?a)A)t<7w`heMP$PF%&&g(L`EVW2TA{w8>5!eu=22V8ngDx%
zy;H3N8tCSsQ&NRLT)QD6h9yAwKQh{A47uoQUpV&g__s=0V)B1YG$ymWm<=1(FuDs>
zE4St<eIIc!fr~;!Y{Q;lm3qi4%n{}*qGiqVQzd*Y4Sj>Jr<llV1skpVpo;Cb`ZFL^
z{XxedQukAOe_%|*=|0eewQ!3-51-foo(kL(D1TxTd}2M^7cjuR089D2-^$rWb(|f1
z1QXmHsHz#&a1JOnb9KDsVvXZ2z^+*i)SS@HM*XG6O<Tk5gPK$ucspmKzLjee47qlb
z-g!H=9W`_A_t>z5^K3$6lh$(2Fas~lpbl;~IDsQ<Z5lHFFhmBNsOMRPpe5dKXrSB3
z1>2}es-tV}SXwwtt;yk2aMA^*HhAEJr#A9iJ_D0XV-Q-FiwqOv^4XV04t!Z@Rk@Jv
zN8yLiVP&hV+l3e;q`R>7SvQUS{oJ%#;bzdvOs$YDhO)s#SL6-J!Z~c^HbTY*qoGfh
zsdA&>!i%C+E5T}Lr@Cqx)l9!vZePo7621*#^cv2C5CCniIv`~N@T#@wpjUN_saG;;
zkP;}@bapPbR_G~ER<~|$s>N_$rv!1=_2Q_wG0N<!>oc7y-I`-i!nDvv<<cheMSo<&
z1Fc+25y)J2L}KYd92hF95S0ud<<T90Lew8r9*5i&*$a1^P&X)-Tuc{66{SGYsnw1W
zOxS|Sk1;{{C0W6<g408|))h@%k{U8`9xs}4)ozBBx*Tw)?GoJS5>T-V_=P3&m2@n6
zp1MM^!-aPq1Z03z2RGB;Mj7rI`AV78l8j#Bf$Df>5{`ANJgKra4e4c@OP#SmhfD`Q
z3?xM~P(XpKS0S?fRkfW}Mbe7m{hy&tl_J5zNN1qn4CS4nf^#VE9Lnj7-nN2wFz+4A
zS)X_UcqsKGK+h-rkK8SwdF~G{d4Azt={o_2v<FRa^O})ZecyknVCi~b>4HFI!4Z1k
z2tlmx&eZLxLd&jv%dVTcA6dU>=`Xq(3$D(*tCIp<c~@6)OaG&$?gjm#X{Bl3nu%?#
zM^rHC16x;`dUHp9F#JX9;G({;?NEN(p_SHG(5w%Fonxb+)q-_b-nt9bpzT-2KB|=@
zJ$2B;0bvN{Iub*ruRI7-v4f5<nDTf6q|{ZtBfu&7nIv}^G>>t0NZ#ngwMg|Lo2>Lj
zsHev9UjdScU6c)CsY!&(ftxg%>f0!H!Cl`J`yhThJCMFkiv2@5-3{}M`B%oRbi%4&
zg=&IE1)bqr0Kla!btW*=YEB?7JhfsS%GRBRh!;k^=p`i3-BaMYj%q<?z{v-a`V#vA
zWuZ;*DS7)K1Io;h%;>kvUt%3k+VH|8Pp>>~%9^2PSo6CZy@DL-g#mz-<o3<E?lj(R
zl+S2a+`Tz-vCesO-@J47;QYx&=Z7Q9j-h4akZi@|pwYTjg7cz0+yekTErs{Sr{>8h
zqwwx55k7(z%F1!b@<O$tl@)_sS93@B1PZ3)8@tt8cti7JI9I%S1FHcJ6sBgTV8`Vh
zp@q<jW9PDQr#!FM0YR9-<j)~l7bQi>L1&1<WYhCtFoQ8}rl<!vr(>0QG4z8g5(=jw
zdyr~(^t7rXp{hMZ-!osg>>!@NX>|ZCa1iapAG~9}ZHA+mo0H3JyOwMawxF(_p40`G
zjRAR%rvZE2x6?rZo!LtOY&x@=dm*c;dvLVDF;>3dUjij6<H4|}`y4w3DMRJCh@F85
zme0=Yc)xi9OeDE-s^yufu19ziXN)=mW^9DBw1TrM@9ctm71<B7i+`}<JPguUJ@=6e
z<r~_yCp->h)^GUVf6EJSAV0>W;F@p6(m^I%1XFe618jm(<3mNkl(DRa2f*F4iI?JN
z7UHF1UIf1ftrJ;o%>yJ^;rxk<l&7Jv^KY>R*ol{y*RfOh6l$h|&+xFC$h*kFU4RGM
z-q{A1HQ-d~;}`F~Sm-_Zp!ek5$=myvPoG<3we{wl9#~xGDLC5lj<)&TD~{e}V=rAr
z;M0wO;lKlxiu*5l#-p)IJXbzm6C=s!_&CHE1q-4jG1-p^4FSXvx{Jxjn4~em??Lyo
zfIC%=68sz?TrqIi#%JjKYDW(K0ueE3!1=+i7|<vCN~eR%Cstzf!LBH=5czm&GdJs(
zb&Vxo*;@<B-Wt4?hQ227D!s(8I~O~bv`c4~jGqj`u`0Xs7aZK}W_OnK8mKzD)V?Gx
z^?dUBDuHat$gnRgxIYfu4It_ZOP!zfecFfUFTj@E|1wkT-~QBMW`k<f0btO^E<Zig
zGGNX~T6QcR$v5vQnJ{ZEpK;MUKqYL85e$0Jwe0K7n|fDmSmtBlY|KkfU`s5(KvYJW
z)8$QpRRb2;S+;Nf)rB_~hn84+q&##a-+wgU0jI)H^UI-MivPIh8w6$Hfcy)+C>bIV
zE**pOQAaEdKO2bQ)oXDedOjw92|f7i_+3$Q$X|{HNV3A6`IHEfDG95R#)2d}1{Uxd
zUpX{_n?pWkZK5@}x8n)=`+xxq3kXp-JQW2KlA}S1f$||1C{jY#kyJ+;a&b6%jh_d>
z!BG=bzS$=?0Z9TsXb@2MOC1zjwrZ6tX#-_zM~zC;D7JjhZp-uV>8~H?4L|u_U+?pf
zH`uPSN!$IL7W8&{`NtCSDf9E_moHDMfqeOL;m~vF%Z9f4OOQ%SYKPlsOOd}kfj@(x
z8&EP+8+#Of=^_f~3JZ9bRA@rJvX}Aa6+!?D{sa?ruq1XO6Hkb;2%~m<D^_j61Vsha
z0PtxfJ;ZC^0G=LK&}g6JJv2NVDWAMYh7Y}S^i1U3JExDHrBN2Tt?v?fiJn42#{KX~
zfx=6|L&(BjC*r?AQqnRE^K=_wjxqmEIvx|xuZi_BaXls-zac}9$$`(w;OFG^$E5vp
za`<y{<}o?`m>hddUVcnQ9+UpxkeBlacRwb<&&k^><n4boxo&=I#ngOVzowsH7|+c!
zx89k3XN@4dHm*IzFx_*SJEq&FHG**Ik2Hj>TXwd=Wr-%uGVwk&6OH$Y8+Rrg*tbH&
zzwxQf;L)#XO&ZObOUIaRHm(wQt-7J0gavE%5r*lzDcqWzot*DmG%t;OO|XPc{(k`T
CnGw7I

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_moe.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e76f480a2a9cd0714a603f97350b99313bcc97f6
GIT binary patch
literal 29684
zcmb__3vgW5dEVXk8;j>+0W5&Ui@@T^2S@_o6C_BHA_+?*_3&Eu2E<*E0CxfC?t&uW
zg)Dp2F&N7cn8YF2I3vh)Bgj(5@HDBBPCAySZLCga+PwsnU0*{DQ>#stG$|-jmD5hA
z{r+<wyI5XG_SA>qx##hp=RNoQ&vW)KJRT<p7c+lj{M0p$`#D8a=THI<-ZpaFZI0){
z9B<%_F+<pZrzvKPo5H5JIczpix;bWvTf<fsw!{o^TiC|J#+W^9N4_;?k2}H+mS&4N
z<F2rah3zqS+!OY&up?F!_lCXk;&5@iBwWJMoUzh)S-31-9xjhpge&5{u#cs?VwG`!
z*w4c5SXI0_T+PCsSWP?-4zO@htTtX3u47?utUewL2U)l{)(~$DH^!U7P4VV%bG#+o
z!qQ7(JL0Y3Ru(RewZ%i>5DS;Z+T$JJ4i+wtb;i5GUGeU4H;Y%qdg437JL9{;yI9;8
z+a2E%-owI`vEKOJ@Lq)dd{t~;e1CX<yf54r?+^FK2f_m^y*hRvelUD6ekgn>emHzM
zek6P(el&bEJ{TU19}6Eda7Hfbj~;)^Ais_95PJtF;wMLq1}^?s_!L1r#_=^Tb9^A`
znD}k=_2r&#nUu1RGss#%)_n%#83tJo$lzx{o@I~?fNcB>$a7H-gKYwA^QXhUrF1?#
z%u2MN#18!u(Sc}xv@g2<Et@jN&)qPFT4#@)o*at`(aF(h*VJU}M)1iOqLX{hO`QnF
zr}$_rI64)d9!ZX0ibaDjj3=)IPt9DuJU)5(<j5!zqT`pZBoo~qQia1Iqhvom5{r!h
zR<fT?Mg<Cm43c#`5gQ++kZEx81|G)AN%)SzWHLIL9G{{{MPg=pdP+z}l2gLyl?b&u
zj>0C%b$n#>O7!^D<k<LS$@z3F7FWWRm!rwZ=!}4_CnML8jzR<!GD~jCicUu^3sW=G
za%@_SHB%niO-u<9Hp0mCh=5*4W04o8gcu)5jL$};pgsiPB9}*!SE2&C>>8gOPex)>
zmoKxZ^TK#+W^j@}Hxomq{p3s{%3~T4E;&Cnlf;~zizcs3@fUAQ(^S~bpSv(TCB)I)
z>T^-ya+E(l6`P4qKB4sH?D%AKM373JJo9uxQt|odH0E<88Rb==^HVQu1wsSfvs0JH
zlZhvUsnKWxqeW8blQScj@L9aisY!Vnk!q(I5vI^9qg13-bM91hgqM6zPmPXTQWH<a
zFGYDCBLQRu9~~Q+i6tZQBEUS1@KHgkijUm56paYc_{enR>a|E>bR-syOpe59%$14g
z^E0&4a&ta<WoGg!vdT_RV!_0t{5ZySk-eV8hx8$1eu~eHUr){m(a(*YxIP^fk_oBk
zg1lN1Cq^#EqI)E_8b3RAeo%6%u_vAg*`$)endH<n@=84`ce3b-C(ey05*WzYksIiA
zS@e2R7#YROq-bP(l8;`OD#sHMteUtC$a)-)qK{H*eB^305{*wMZvZscYh_g>B4em(
zO1L4p7$B=NA-Uy=nHHjB<JU*!FHrWqO60*42z(vrBgz47aABi^qkp`MH%3jo3IEMe
zGjEAnc*86{Vcr_G@;0OZWsDWgb7KbH@v<ju<DD;aVf#FH-4J$M;6iT6rF_xRb7!9z
zmRwiHc|JNRFY}Tu{bwuRspMk}lKXjDFUof%6$w#(2JcRYCh*=9l2smyWEG-#JCmcz
zw!%h32$8nZ2Y2Cp%W#`ZvSjjZ+EUy%EgYwATm~+QnCw!9l<_i9<}6ZpW6GSe{yxW>
z{=oRQ`7H$|#YL1Yn&Xlx+T~Kl6woc;Ev$qEC9H2*l{&ddu6`45ySks_1aH!#w#nO5
zCbZ)C1Cxq4zGg_O??me*+O?}CZg3&z@Q1+k+{sx_H}->QWM(=tElf?kX_CyB#zzuD
zFEWLF@MfLe{L~AREH`8p4p2JF+^a%J<^(p5S^ra$$`%;qgP8pBYwRl>2+lTi2R}y}
zGl2!i6TuwV*pv{QoO+=<<d7^##oDw-uq3f7MFbz}$JUqEIiZS@99nm<n~ub0q9+7l
zN)SpZ&r09G*ks6#K1E|=!Y=CLZu0h!SI}=qBr+NsNhBhX1Wip)b}#*}Gd;=pbkFqo
zbXRf&`&zQ=`po|RzN`DAJ+bjiJ<~U^2~PIVhTS9YztQW_QGB9;98L5*PY4KmbF_Q<
zhHw})&z9${;BIw<7m$;<1@9LxaSuy5N6}52X!oz%t2YAsvhK>Pr!MWTUuqEDP1zD(
zwyGuT3oJal_{DTt$3vI3);Vupw^uzZ;;K8c?plJEfoeiBTsU3U_RwRi2HYz}o5h^l
zx9Gd;s^2ILWJ}wZ2bMe2`<_V`Kl{LBEGydNjGm&0R<5$)cVhGAZ@M0!Q`{)657p6<
zWuL=!1a5OFZbG3^Q~-LW4C(@W4rS+zb0)xPi#-RKGOBQM20&<wI}c)OO$O9txWK(>
z7!H|)BLEYQk#`gxmgI3fB*S&drmPjo5J{MkMz2#iL76tJvlm7Lezq+CJt&C+AQH5!
zU*fVARhfz%V#SW7=hrGiH=Xmgg_5kh_|-Ev&n(*3+`)N6)?4=Ki#K0f99i=QZ<^-~
z^SiR%;(5Dp66Hgt;foT!ELy{aFCr1i86gxs0|XM0+>r=&qnMIo!p0?;5=lX*p&ptq
zO-;qvS`p4t+@mbb(I^mh<V}MxgwzDh`B63`VJCvjJ5L!S@P6?!x9R5g?9bLWWqtnp
z-dao3y$b)P1<y?@7pUK~QOM3A%|Rh2R~cIF6@5LME{eLjs@hEtg^IY6@=Yp^RpTuB
zxCEj9dDv_zVS{9Cj-olusju$=kEE@;KX2m=*!7K3^O%|K?<VZ;7GMGEM3Gir3jj0d
zrjMC<>&xamj9{01>U+E}Jt8Ec=cb~^VpF46C08C9#dfdJ{N+b&QvAVx!}9p7Jw0WZ
z092uyQ1;~fbXuGf+TNPWnKL7uv0S+{3e8z^d$)>1usdtmCt0GxtGN@jxfM8+(CXGH
zLAz&xLkYK<gwL*A4d<Q{v=$4T+6R=@-dV~tQC9$lC?JZ})RcLmQ4QywfY3&Q9%%LD
zLFm?e6{}y^k!)4rc-l5}N&^cT_4~%KutnW=fFDC@UF!I-73sdkiFOq-_nfn0e4V+t
z8p8Orc}EX}YI^Poh)Ok<vQE%fT;KpfXpTA5(XEDaPo(b7#njL&0w`Op#sNj>uD~HR
zP>_V^EVgTu)!sg!{EtE*l?Z|YN0biAYPABYuK)zmZOXEoNUaK=JfwyIA5_D+C*Ccg
z(*lRoqXkKbB9)Ltf#c0c$7(8cpu3D%BcQv`vhJJJn{&W67uE!-j*tO!6Q|Tr?g_e1
z`3f;>Eoyr5oEqA8G&)}#_E%7j=(ip8q9c#O)V>r(>CINi{74X+C1VspiOoiXv#mso
zT^6Dsv4mjq%E%<VXmD}{Op*|s8Vg2cW+f;Yx-ZV!yOk&r<ba7NQOS~=0;7~iY7t>5
zxxm$eIUI?hr5rISxuTQAQ-imSU6LxO8luT3d7{$Q3d_N_Ji=#5WnhJg2aSM-0TUWY
zf(t!4Yhl!@Fn}gQZ2~PHhD5=v5bv)M{#VAp+g#Te0k1j{3V_@}BAF#ya++}#0+H8}
zn~z=t<FD}Hc8w$V2qTkML8vMjHe^r=QNrN8DM|t13sgt(BzV&q@VeRntH4=5Izl2C
zh2KC4VURppB$zJDliJBIQA)`qG3;QTV`_Cmgwo5<$|Eyb3bOsmjYK}Q<fjU#_#-(L
z1u2mP$ls(?R+t=}<b^W1&D=7GfOv=KLtY0`1;(<KwPX`hL`wot(^rX|xFiq?l3eF=
zD+N<0uQ`GCAIVG<UC7QTJmFcSFq|$~WjTq!QwpQ$Cn-dq^%g>2rj%&Mn61|*7&Ka(
zcF%+#+aS^6&OBQDUP&NR5)w;7nUX%Sq;KAut!~Lw?-i@}&U>?!jhV_Gv9f30{Xyk{
zwaP;vwcQ{1n}5G3<KH9t_aN%osBHS37c-T6#7c^~vz0Zs=WfkqDnnvrXsxn?r3H6n
zg1g1wZldUG?=|nqG@lcj&rz)5p3D2{!J7vccVwzN#p=$xu1-e4w=SE%?|#$0^x`IG
z*cZx%dNQE{V(37+?cnO*rpZup<blaVWW5Pwy_>7-Ui0<LyRyE9jBl6d+m-Ph5`Bk|
zP}82N*(cWQqo(}#8d@?9`@{wotIIZZXPSn@rXk7;W*c{88vDe?zSZ8$feRx38ZS^r
zeYUML({@B`JMvENPY(Y0pxE{~N^ZH=5_;pg*PmM%%Je=d;;-dNN^ZR8F3z}ji0&QB
z<(be)5r6KJn<mcTK@$({oIjZL2QvOH(chIV^=C>u#nR5Kzb@l%7ya$oy5>yXfLJ$>
zt*K{;3{2&Uo=unSV1?U6e;e!VfY>;Yr6CQ74Fem&U76q^F?i@<mB&vUk^5mCSJ9Gn
zmuB2`qPs2^ASS9-=AfQRmo<UYssQ{q9gO&uJgV#=iG`UEz=&^Ulgvn96y}Q{)xjni
z^w=bo;@}Nefvpp^$3eBIX<s8Mgvk5?r{?pft8K(u0Sb$?&@r~l#OO|yD$fG}?lZro
zlwypR4lOIV@?;Vk6ULxjc~vRF0*225x`><5<Pte}NJT7fTeP+zKhdM3g_4}qB4y*P
zdGLhiOx4_+EoBr+Qnm?=Le8}TcxB!$a48$)Mz&$0AKA0L`k#J~$%++GL?XCrC<s}^
z?xEoL<n&B3AvB@rhyNEYWE4^eOCGj~3vBmAKFuSf7AAf?4$;Mxk?E*pzBV3xLEga|
zkSoxhBHSR4$YRNsfaowftL<m3Ru^y`YcaBmmz;zTv4=u<D5+8`)GvI6>NrDnl#Pu~
zV(Z?r3iG!-ncrnB<ZPY(xVsg$_g|sD#9zY$+v^Qvyg|_$T=O<AjokINLLT67X5Ggi
z9B??(h(k2cobk1azScEgX!%Le*Nxqyp*z#iE8@>yH}70{JnL_fztrX3%d>0#fq4%$
zuZ*ktuB&+?uxI7mTHx6HIpRcvul3*QU;5%&%^rw5<~<9~XX_eYi`|K3t6Nv*upQKQ
zJm8G=&a}M-+$weqxr)YP+2W?9C()&*BFIHhQPaMat1GkV#$$-yw{p7=rM-<AZ@cJi
zU*5Im?MmC9N*{X)KKpdRLKBG<atgzE2%jVG3G!%J3&cdrgafD<i0>t<Ofj*U6fRQk
zQ}FT`@MkEIJbJ?kLNdgF+qufB`?kXt=e>&hO$(mrXG!_Tl(Ko$=(jv=SbB<f#!ZgG
zE72dueh~YFg;_6Ig`=oTb1H58U=vAOxocUvn(y=Fd6HHW_-Sy?QE=5!+nAA<3PtW}
z15a+pe_0Ca0F*Oo=Uq{UlH!g!m5>J#+9I7AypY%i7)M_Wj^4$WMBNkE%L*M|x=p%Q
zKYh%~mx0rVEEuw1FTUXls1IaqPE^yi3^P(wa?r<e1tNY(rYQ(fy&Q9rCLjVzHaQ}>
zS(rrlpd6*j_{jCh^i*P;v<HxXE4qM$WT%o5`jp*5JP~13N^~0O&!binhf3~IQsStT
z7^69e7m{jth;$-M2M`%iwLvNvLl60EDlzN~J-h-$Q6PZu77CTIX>t*5lTT{m0TmU@
z6+vjsMF{0EhfP&S2$3q9#WoLA1GJGaKF$HbYzK$7P@jf4Qjp$7G!%hS3frQ#N6%Ez
z)#vaTly8@t*S3$fU8E102gmxDLj+*xw`rM}Rux5{r`p(4w(Ew3*8t>;l3Hr6*9x<n
z6TNeKLK>9SL=|~uWoB0sya0;!_5$~*Wi>Ra55=2i(PxZDn{6lsxQK>SQ$VqKf*22C
zny5cXXoopAcAfsCO`RD*s@9rX1Nz`dxl(R0mu4`R7FFkp_B7<1)Y#W;>(%K46Bxio
zK&jovYFAbrYA4Quxtxebf2Oucg=hxMyytCup8BLhtFucDp|tiE)ij!Sy|<239dXDQ
zNw@XhzEc^Q;}49y^V{Z>M<`16sBNU&Dw&e<@UCwgCk^A=cMZQq-@4XDa*qbB-yi$i
z?!1++ZM?r?IZfOHA%SO@Q8bL~xh%JS??<zaZrT7zFT^<Ple4z&DOnL@k+98zJ-i|B
zn)w?mWZ5H$sIY)qgx`Y)9vwU5Bn0)pMM>WxPuoDDhjl1AOa3|oe-lb}?7g8tj+>Wd
z3yeMYCedmvqV4^{H&LBbnoHHtfC+t)Tl{STu|6*=3~d0AnREp!2(MCyZjnd56)Fju
zZTxK9gf=CsJZd385q03e9|C<$0tpBuGmTN8g+@&g29c~+*)vou^RK%ImbxqViZ#n7
ziM36g6n=-i-z9JBEXh5KQpOOx1g$#KZsfU_@|fM~M{uUb=l&%XKa8F87vOV)d3<iR
zW(Too{*BUoYo&ejwrqVH#RE`yWV}tHw`u9J=<Ql5x$E7Xw(m}RcY{sJRCS3}T`QGh
zRUcTYqHJR~6{*h>+1Dt#8ka8Lb#;LND)(o~+QqW=<!8jQ-c`fhvi`KYKV8-jYN@<t
z@nWX7SH$0ztc^hZl3}Sg(=;G94Xj=kn@+3+PEzevS%2`Z|Mb!qh_^f?;;-ct8uw&<
z)wd^aO)e$hn0tLr^z|am1!g-_*(O%DE%$!^(3^+EO6sP{f-mu6Wjl*kH{;>WwjQSX
zo3kCPowg7BAyTSA`*ZH*IXp7%py&>=Koe8RRcR`@&!@{;AA0Ro#8`SBmUESD8vIi4
z8;4#$B)WIz6m(3B_e{F11-xY?6>&W*=4zVMmSh1zwrXd#q=s5(I}R;g4Z(Q<R{>VF
z_|@T?!zwspXK$X}v=vo2F`d<QnW}cNs+|g|tTC~%_r1u!@8^m;9@@CNT`Rt|+P-Yh
z;~!Z}-XbW1O3Uxp003<`uqZ0)7WvoWcj7C7bsy&B71xHZc1y}PU5r?j94al9U@X!W
zT?>&bjMTXfe_Ms2rU=wHSCg*7kkiw}VEfg`6SSr{{nX2#cHcIto91)q(;T?fIh&D7
zS@cliWlGmU5Ijh!YVJGWXLWN8v|XSFI_Q+hj$1^M=;Ylp{E_vyxH&s|W8J1VR^9g0
z-stE4|MkX^Bf@mioE-#$E_%|{Ecw*;lY64HhVpW$zd~sp;zExLQRU)njXCFBDd&Vn
z{N>u!f1@h0p0lJ}x}|hyUMofN5S4?=HASQ;>^xLcJ=QN-c2b`Qqyz~vWm942+^A6_
z^K#HRvVzs-fegq4{>d~fya=F>L3oKCCBk>{fV=|cS4rV@goW>r_cijqN*=?Nw(;v@
zkty&$E{z*{{;IHye90;sOG##a1la#gN-DlKB8-oaO%%}fcx-A?_(Q7c4f6guyik#h
z|Gq~FOz2?(RUykW49`o3tCHcG<aj=E=>}uqB*#@PXo1{3^1Q?zQ0@|njUWjE8lYtM
zOb~mOhXxUp5#d>+&sIH(2o>o^hXHu-pTK*Gqy5i!yY^P?;@nzE*G=oZY5vJ<X~pf(
zt<d7d*S>J)3(L*l?|id!)%+v(pSsh56YuU`2(6V4-?WkTe}3d%dG*5J?UT1oLKIuk
zzBu^WV|N}~I=*y%@hnSNZuoxdo2@I2Z+5Jf|ETs)YsGdM5K_$74&6EQkqL$79lw@J
zKB%nARJH@FE%&dCzf=B`njhC>1}}(%7czs-ii6Ll!(YmTqhdIk3CF~6EE9fS3_qVv
zypTz}C?;O~1bQpO6UO`U;{nI{pETZd&s*ka?zu}|ef;L*3(wzv;noXl?s^zOJemTt
zh_BrI%HoaXhUF*MygiC(1aR{Bt#KgoT}vZtzBb5=%Kf*`+&Z)5S}X6o>6o`Jz@VaH
z-owyI$oXM$E37a-<bv=ofAjDEWa*PXUpahoc$i6UhCxRah;E+5JC-bCFx*RGL5`0m
zWjPKZ1>pjDw1G4G3fZ#aCPjafJX#(4Vx3nghrIXjKT(MlBHLBeHfFnbXIneSx}vTr
zTUD3s=*jNh2TP0Wp~3sL7Yvpo%-VtiMDkQ_+E@?*q3TTs3p%-q>P;65LMC6cxM#_<
z*heIb=<C?@u=FCXv1QZCg2h~!Z_#|KeY1o`OS#IxW*G~Xb7hsA6)foEDjS!EL|@xx
zC5!ttn~o|LuO?HD8Ws$2JKC3<mJ`cuuYYNU7h484S*JJa$i}0dflL_7EWUeX{@Vv{
z9o)1ajDh%TZ>MghHf<EMb58H8ft!I(9Eh=Z#%5|1Go?8dXFeeLV!phJhfGPf1>s=_
zIA&$iBMY+!fgPZpHXpWu`swy<(#_1O&=lP!U%!+r85^_1_Rt)5Fv*h>JEu$1Y_^7?
zqfjOa%+fNag<``0;Vm=|aVU)DISZjofp`au`c|7kNbmtw==3O>U){b0I%IcY%}l7E
z(Mvhpo&seA{R8zIZqB+T$Ha45j%`a0>^QX?`<5JQUKvNuG6i@`uTLgjhTEh^1rQ!g
z!Pap?hnCpV0~>Ew`?e+Bk?R=~5|HNH35~zwZP#0hfCX&0)=S>adt#n=(VP<&o*HJ}
zhH442>D%J*MJl~1>`peRS-*UFJ==nmQ>)X?Lu8l}mrP>R`SCpQiAH75x$?$g;)~U~
z62{Biqzg0KuJ$tb1jPX{&^3cFfc(x}x*Fo$%sQtd1u5_>5&_k%=H;GDz~{c&hRxNN
zBu<z)&_VPLN+AL&Q~QE35E0GX<i6xyHH><-H>0Mp*7oIMY6!4>YB={)Y&@v7a+M~`
zZ!LL1h26F-ot5`?MPASA)Ea&bb!jUO;u+ttET;G~)Gtd`n9$%~Q}p-XNkuu~Gs&w@
zGC~ffyJQ7Rg6YYSN0y>&D}cz!9+)WNTU50srjZ2@;9x*XN>#^kwgEQOI3A$bxj)l4
z*a!3XKFOMZlsq22D0$<t=?H1qWQ%lJpEhgmM)I4++$I{b<k^kv+1li{skLC96zCG=
z6SB#Zj?hwq;U{GMNtjZ;La{Ou4&|mpRtm7htI->gYh*DjYYLdSMRI6UB%LGc!S1a#
zz1_0)dp9#AR}LO@k7^U3n#}7Y3ICS$?aD}k_3gV9bB@DiA7&MxmW6*u3B_Y{%0kvS
zuqK!^N%(W*$<`xfyo`M!31;aCn~dl*(-KK0%%yAwx|^Wc>{U>mURj~YI?e=9e(>qZ
zyeZLgRMPxes(`*D;mhRZ-hF|Pik2E1mhk%&V!a$f=us*>UmR7dQsMcCRFg>I)DxF*
zU}-@jwPE+DHqejSUF3`{^6W0|)ih*ky2P3;lHK?>Dguj7FFm)icdep--njum#<isv
zSCVU$2j|@zjiKco>D_1Ey|~tRK5ehx*wF>8f4Y3vN-uPZtxz{M!2%k_)MSFdtO$I8
zjBlst+nKGZ&s6OZtM+6o8%V0se1N5NidCJg!F0>sm6^4QLvrikmGZTUefa_yvcx7a
zPEC<)jQug>ZYjftt8}6F_TgKH71`LSb=TfMYk%kBPrmfyFJ(?VC!TmNb7E9HF`ACP
zxIXZeY;)WE(0lHNd(ENwp>=lyx?0h;Y+WnwnRk2u@yu9y$NqI+-_2vIW0}Jj#lsiL
ztilia&Es2)i0)3!z+tK6uDfyBu`>9kXVsVKzaZkT^+NiYXYaN?`$1(_Hqg4VZ>4Ru
zdBywCWb_x!4}J3#S!Oh41C5zLw;1ToHnwFNnQ;Y8eWzH{nXL_FtAmUFrSgTZK&C~7
zUO5HB^kD1KwM=Wj*xJ8(Epz0&c;x(gJ+m4KY_#>{I&?DAykBhIkLE&<K)q*gktxgX
z(F$Yiq8)q9IO*9&^9d#*Wf-yb$5=p2z=VWCCqz@mIdf7WZa9505^0z;!YEgRo*+g~
z2t#@@-SRr<>TSbY$`}+8lnEvi#NZqC2;eaj3_VOQb*Id8rpXS3$}t*hjf86jF3+ak
zI9ahBOv<DpD<&q8Ybz<J3Q<DLIdK_!!A+FuK%sX!_0c9&;PQJ1t)*$qC<`ap9&Z%1
zcO7yG{}DxnKY}OKsqa0ai6QtKFrObECDXD#;VwabpS%_Fen4d`JlO>be?bXr<caV?
zwgL%+uuib<DPbHZ0cHCOsd$S~MP$4WViG#~m7vL1Bn)|?g@Ep+rbrja`X})K<se;f
zGZTj3T~{z$(>8y0W9R<N&ZotlPiKp37n7O#J!1WyO#OgZKai<EBGw;y#}6JkQ{E<)
zw`I!v#q$1#7SpaG(cP7H2Ntg^Tfl_XbuZ7X#54O&i~CNe1CP(2%X%x*-ui4!>n%IJ
z_+mecv@O`P!RAb`R}A*9d~q#!{Fdildv~V&u-JY$Ti&qL_rPT6=n{)t7d(sC@A(6-
z72PSy`s!hXv1#F|S|4yG$g@4@ep73v@rc-X<Q>nu*Vh`K747w~*|?5v@-_P%`%>+i
zzh~Y93zEevY447-eTV$@&eOEJ3K{mTwibfMkHdy^W;zBI3#Ihg@*h(Ud4n{yF$BPt
z-!~3eoJ)^ya(Jwo*yEjxA5(1ex}o0Es<E;NV`5ZRmST1eY;NbR&ZTm(v}MylNltLL
z^E0oeZl)HWdhNM8&!xQ~(b4{i3wiRGsCgnkG)Md%xd&fEr?&9A;HbWhW7FVwapFxm
z`(Syw2xlLDMP3(YAMAAYft{l(*|xM(pSNW;9S+77ySIUmbGPBNqbxVNP3=*aew{?V
z%Um_JJm%y*FI&QHaPuzIg!zbiXif-9hUAOL=7aY}y)0js=a=gvc+^uIWu-AU#VA?A
zc=l3kD5a7|{VLCq`7e_j!SIJsHX4mHikHP4k+bx1Gc58fV&5`+{WA{w-TW1pcEFN)
zu)xikk**3!^70^Hw&*c9zz@0;0>(wd0$^82BUs=7p^3QxQC^UZC?K?+Fl!IZHX%tf
z&D=I6O?rZMFxAA)8Ngr}RXm3_NJPtAKJz&dR1)(Z^9CFNHN9+Swa8Wn3g#wkiJCM_
zg>b1_5Md2B<uSebJ=A4!VUka40S<Nf<PhYbJ!%MM_V&wkutd|et2tXNP&8!*55-81
ziIq+8J>AUSNHOmN52W!{+Ipl)i8`RsJRnYziICLQ%H4$W2=s%}Q!IDmu<#Q=LAXyl
z6YLbVb)F!gpiF~H_JgsJ_$7Yi@NC<buS282yALvh@Wf#RWXOMsMj1^HntZ*cXZ1|_
ziKpMId4_F+umO-+BH=%w5rHr`Bhwg8eUl4S>vC*tv^>F1k{5v|xu;=t#mpTe<GkcT
zj80}Fd|h&0qf^_m5j|r`XgXxOFL(Yt3SCrD2{Q+fPX)_;lU&SpU1mNd2Q1c=pjGKR
z(I_(iXC@X&=%jk;KjU1qR5>zpeT(s>!reY%qAv4M1%n<!8?v$HZ!mfypGVRTw6Tp#
zdo|yo7f}rFAAfn~D9=9K*CHEyL-5|RGt+WXY+<_XM#eRDi#1GN?+5XosqPS~$r#-W
z(`Tmg4eVwVdaX!jOI0grRi(_%pgJt-8B{mdKLn)!pqfQ@^UvJR$oA7r$89tBJ4O3m
z#-1%Uf4h6R`RxuE*n?3!Df1I6Co{c|iM@}lmy;gfvC;E%))QEqNV`MJ`!XGe#EwH?
z&vt?{ShsfqZTBA_9-)~nMady^y5qc#DK_mKY-evqU|R*WX5xH-6HWmTAJgC9f$#G;
z9>V{CCx1+`T1oQCt50ipR%34E7gvz|4!uA6p2^4-h7@FEyHvI2?MT}@*bs&p?JJdU
zImVupZx4_>teJ#tshAj5Y@|?I9^P`}Q^(<Sv?IH>l&79~xKNccf7JwT!ZKL`iax(S
zrBu$Kd(Of`7(7`7u0ysOgqWC+0`L?Lbh423G7PeFc8Ph0<J;L*>2O5ohlU@NPT--6
zZ;`80=53AZ7~;M-z;TS1vClam9M-kSy2c6BDeG5(VN+HTQBFerI_HELxrR4#EknSn
z%q88m0u{HBN~!%(Rkg1iH0#Z|4vtL}CCQ?QIjV^_e_IpB!cd)?&@inE1uR4@D*L?B
zqAOXW=0h2*^pLkO(JR@z!N3=_S%4L+!@2Dk!a57v2!R}km1cXiY`R_~(6nQT;kJiy
z0pcM#za)G_Y1l4j;<)<+r^0B72!BW3hvfY&dH(<p2kob)v8zgMl*bWzrFbLd|98qa
z#iElTckUySS-c07|ByVbH&RLAo|<67CCS2eYN@y|n<<VHv?|yps(5*vS;bZ?r?6!I
zhQ7oec(8ja;@tjk9L~5}@48ySxum^q*<csgBaL19{95qHf(Pb9H&5LwYfYE!NxS#J
z&jxm`)Qf>Za9oug%a4nd`{z&H3)H3URU5(3hMVL$2W}l$GG~H2#o*4B<{x(dpnJ_d
zm@V~XN*l$}#!oD!2B+u_%%5JE0lQILwK$Xs^ojWM_TAgrm)<$FaBk_;-SW<NyCA+P
zY1oAAcw?rxO)PFphx*rx2Y$MvWBK&T+&fp+c6<&tNb~3J^let4&WEt<34G&47{A~3
zwr}7hOk>aLvtsc{?40HD;eJ%5+TE|5TB|vvSl&a7<o2dv`0r|18ocXj$(9AvjWkpY
zm}bTvV7t^75=A4K1-yg&tw(RmA>9&BA`3Hs3!I+N1duvJbME#GEO5)P<X|WLnSI_-
zR4Un&+bcpAsciJ>bds*P!4)mATVx0El|=2{2syEYK`JF#5|g+x+5~cG+8d;5nId3k
z(&P(N5)s@BGYvXLM)6+&6e|HXgD?g=A)w%jQo5E#KF_8WnpH0+!jW|_DBX`j{5`Ex
zBIK}6iI>lKcZ)E#3wF?7T`RHOt~;)bzen`<uyala#m0k>x)nP&Ijh6TUYBH3?lszS
zg#(fL3?c5uySU9=2BH2P!<><a5GaQ}F#iNo;8didZafgFX~;v(17gq>OlkSnlwpWl
zFnlqiY}mFr5c=4_Uqc*i&N=3oZBEJtU6bJzH&%@e8@J&VI`5+~GP#bWoGFL8N#b0P
zZNinyQ$r9>DO;t0Eiz?hHTUOE-y=;kAxBFm^=skHS}oo@eIn}1Z~rC3D`Q$4SHTL|
z7?O17X+Yh)C8@D3DoUC2q&&G)rXh0z@pw}1lwGagz)fmtDVJK(z!@-~leK2tq=Ul%
zR?Ou$Fpu7p_c^>_HlM|0?WD}8m$w1xv*)rTZ+<`~sC~fv>`aw><}8;evwRXWP@>F$
zCJ@xs+~(LOds1VtWPU&8);q1P_Gk`QjLGwqDuIr&n782!v?9ozD@~Oq46ocwmCWI4
zy2)>taa2JtE*M@J)PKi$D}}Vov{DHA*}S>PUn`V{x2-oDyhcC>yYy!p_aSNK+jC{9
zGS*sEQqvtyG^p!0_vAh3Rax%Mqy0Zjm0{ig3hPXrEp`5IM8Y!Blxsr`<p>N~U$01*
zJ0dKKhC>!yzw%vxk%=?geg6d_S{gglJ0bjWewt!E{wH$U5j+H}T27`xl)GFEltBFm
zIbkc#j@ww+sT-U*zbfCqg)3E*5Ym)8xsaxWaEFm{hZmFB;_{UI=&ZY2CfDUmw{qT&
z#b#YlqNxYl1qpqSJW5&lI<S)$yK#k^9S8gbp14$pvY#V}+ob5$s7PXFl<p^!>||L^
z5@VRnYr!IB`<{z``Q#K%y9cjc3o=lgHe_e+p*00IngSOPY>ReZ?hdvjLY=`&GfCWz
zlnjosGITbdS|7zx@*v$JqZW=6D#?}WM(tfn?Fm+%4TbLxl?p$i5f)QnK6f8j0{75F
zlLEdIU{V1m&T%uIWCwMZp!@QK4ti-p^4=w{9-d@{l$}mgnMXnU34}3ZgR4@i!z$k>
zC%JLu&Lna4Q&4wGCb0LRa+xBu6POQ_>F8CpBN|?X`tmYZavYGK8N)?mQCK0;X?+~a
zA`36cBM(MF#!`jyJ`@lIH%n$3q6RC!QOU`GWaRHs-ZH@nWz-!D%N5uNib2&X6)R<J
zD%LM2SQiyzI6cbaT&J=CeC*D+X^cpH{j9A7aRvFbsv2fAtK_BuDGN3+tC{Z0^g({!
zFVJ%0pMouTiTlWCYlOnGZnNA4%W&_*YBDG5&D87^Yj&>H>|XQjnRjh8w*0deNal&C
z-7g0BuLb+l_S%i6b`d6gLknF$+j~YV-nHOdJhSY-S5^me__FqFd0?}MgK}U<gvzo!
zK&RDV{k3#vr5ZZa1v98f81Nmsb!e%6y=>PC|4xUv?;PMjsg!pt_pX$$m+hlsWt9x5
za=k3{K~3+<#nl6AHIFR}p}K_>?Dvts_+`1dd;TUg<_|4cHiE6omgTRkAAM>q_%w*`
zvfz4iKaL9g6y0fAu6?h3|6j|YRr`ARpj2G3`Iv#*ch<1^xPfa9rHg|<tM6TSEPMQM
zvHa-5<4dmP&#&5{C|+(BE4$GqL<eo1>GEbgn_A!Ke7$q|%d3yCH9od*=7Y*^gooBE
z2W7CT=8V5n^mi^t*8PW|4_*GU7#O(c58gx2B?fvIPCy~r((%Tb*UxPDgG*)K<(H~N
zf5-AunXaQ^*HO^iExv_wIFMS8!|Sy;6`O_jv>}vj?11?oZ29Yb3y*zN%=zoH_3ex1
zpZaSzpEPj6z4tE~IDgxHJ6A<?zdu0N1T00?EBCH8zjIX_c=D(IAoVo4a&f(K0Fit0
zL4l?4dgadSuDw4D{2+kNf=@sPc2}qU-KZt7d$mTa8QLJ-ZI2k}*)(zuUov7zWP|%2
z+RU|e_nlmA%e|)l#UUD~SqyY7oY-iF4!m~pE9*N?<i=9bNH1Z%e1Fzmm2s0)Xp#R*
zchlyGiEHlIykz2vYgK09P2=!zsO*<j{V<kOV2tC>XlF6U#<8QEr5)u-@@Q8QK+bRi
zu7BkO;^6c(MDG&}c}w)2{BH!HA-Xqs{39-4Ij}UlNsrY%AJb#=puy6)T=D(Dn}JOZ
z!PS-@b^dAR0}5jKA3SQvcI~?FYO~a83M7PS?N>3&NE^lMT>b8qA+fG+(?L<EqFrLA
zN;au1G-tB4WZK^$Iy#o4D<^(<_6KL*X?|zsC#fH&#A6rJy%)vqr$on74?F~a(cpkK
zYiPM*Ik9qlwQO}X-7_eLj)~33A8^Ro^qn<YYL`weKee)F)xvC%_Y8?$C&XqL6jRo_
zd)`g_`@T<DSU9Q9#wY@sQ)MX+{t|PvRbd5o!1x`*xFL*-8pCED=6z6L;qWjSVJZqN
zI}}(p-hrdS?6@%R#&KN_8BOAdFr|29qK(KKMK$As0xB<O%*dAj-i>3y9zDVi(7NfU
zjgAF-nG&pa+tTIwrTL0zG4EzdFyA&1a_%;*M~f9TRwdL}CA@!|I<_e-w~P@~VFaao
zb+imKV%4uBPs!zqmPf5bKBHs}N>*TQe5|CE%v-mp&jQG=WJ)kU$h101yX5ZVlyH1x
zCNUB_dybK9pwwW>h$HXhx#68;8Zudsudg2?#*5JVgYV%REHG((<QmLhi%Bbl1$k$X
z>Fg_g{mkVN<B&#P)}(|&2?-gXq0yBk^5%mmoyUe5lEm9HmombPRgtu9(E@3Du{`OW
zN$<FdzE&t@-qMCmYs0Rm7el|b_SBxiRz+h7a%n;jV0EO76Tuve8k(R@wZNftpdbm+
zoL(*OM6d2>RYn+ZB{zrqJ!*Tj9hB1gjssR)L}LtDOw+tU@=U@64K`Pko@puA-Y<jQ
zwdR?XT9dogGV08OeJ$St(OU>1pN`Lm(Yx*}+4o2}Vk)hAuxu2aDtzuaaUd5~L;5vL
z(9$h%>N_xSugno^_L3_}d=+!NL(Rn%cY|sw=2E8@DkR=Rg9^zz5!2QU??Q|iGv>f7
zl7^(f0is1s0t6xM0tbjzH3<+;sNvib5Fs@Nh>L1C_XGs7A<O}S_NoF02+{>I2aT(H
zSom{<WoFYr`yI`ZWMRA#Q=3XQT)0ifp~5}n%yte>sj|5fK_+@u*e-=bV+B=XP{ysw
zJZ$&&>Q1amnP-xG(=w-nN^lpb#_BL~Md&6l+#AmcwG{fV<n1DFAJU|<<am_s^~UXC
z+I<yFMI~E4k-$VMrW?VMxa?WIDO>n^N-o;M!r)37x|B=NfBqdc@E^#dnHPRc9+^rp
z(^BCdDRcv#<UT)x`?llC9lJzTNkyb>%~d69UzMiVedP(Mlt74Q1}`M%B!np{%gk^K
z?=O3va>}Vl!A)ZcfkezwHD&4FSti5?fHk-Ejx}K#8L}w1@cOWvZdUR{uaCrGcqGq?
z@PDYx5WM^=b@H{en$cGtX4Q1HzY9E)_*=ZQUu@CUW*@mgEYFZtR<>pX?5uUw2QUfU
zm#*ntzO?Szl|69sT}OK0{QOYH-730Umth39f1{!i+{D{wSAFkPu63S<&7_Y`?K;7L
z`FH3lY&Xj4m#oW<wX)q09TxfOD^R95HGJUafsCvDuB#nV<Tu)1Z_hOLi;ex6#-n26
z(fJ`dRJ`u4-w5`sSTj2Z#hrs|!DFO@t;HQ)bQ~<>-Y2^EK}|uIcXfjPt#6?0ntRox
zKlVaS4c@b&>UQ{67+319SL~QSvEi*+Z24~8x_4)`*#ALU?P7GjrGLF_AnhJVmkqGo
z*Ftwf>n#V~^B&9wTi$TI?f@fLTz=bo%bO|QAr|jgnt9{K>o+p3ePV0hd&T{mUe4FL
zS<1Pq(yrh}X<fSh98Tt?-NPT$H7qs1(erxGS{=JpttQ*hNZqT;Ha5|-KHIc2({xO1
zVq*$sn|EcJhs0)f*;zxjeSfC?39<bNf^3B@MVS;<u4T8XM}N=WD3jTP^zD)vv(Awq
z5|cCf={JzSot0|JNMc{*b{4t`0<f}UH@v73`9>3s8q$(+MK`ltp>~+Ves5R9xu+hD
z0o-{BxYLwRS?TFxlbU^ziccY2tpn{tO2h((qo=sYJkR#XfS5+#pl^zZHoq7kTxuLw
zt7;-)H4W5IO)jj4-cka<guEH|Fv%MHBKcjgw{n!;N(5l?2AkXUa(f+ZF#>Ht@|MAN
zy^@(}oNvW}R$1`_*$)&##|b9)u4%J?4gOR#LGL(7P8R3{mBNLa8C_gCLdRxvH<IOV
zBcE03C$zo%9-3k&R*TCs-fq#`o!))+uJ>%(em3nrn{CGZ2DmdY+s@W;Yqq6-btrT2
zqKLnii<H%<_eJJ?bG{lnueo5#_MBcYtrvG@Lx<?OBTI&(Lt^_7#agq)Ww%|oT$y56
zk9NIR+;iW9uTcIJXo9=9Xr0h&`2*O206qXZ0gq6j%Po2JH5%ntM%rd*ui4~N?OUud
zY9P0a6e@@n6gS(W>VflT`BMsHX@Y4z!&ajUmo>iXyy<+;-p&TLMFC1*Ap54DMj&4S
zilNbP3!I+nQ>DG;@KXV}_}{?pB!a4xzT`0zxHuf#?ngZzQafPV2=V5YureR=eQ`2E
z-!d(YOs&X%SYq4R*{3%<pIz=}G)W!k4RBnAf3f_v>O0l)l@n_f9rMm?amm8KQpv3&
zOOLOVygr=v?n&GC$V-DvX|}8k8XB8MqNumq8uhf1IU^O-Xh&HqAE6@QKD_+dU;?Ju
zCcWVn80-8Mjg5>on6b{Qvo~imFah?4mP2da-n6|}9>@2nkq6{Ggtx^ghc-4gqHYAX
zH#s5$c<2sk8Nq=`fObXRx(w_chph5)ry0|;n@CVQY{QXv940NBt<f9dn0)X3f2NT&
zqZIazBHZ)-n)42>_p4aAk#5|#>VcGxnR-LrtO@a$fyS2CMcrkCJB+}#gVX&2@WPbu
z0w)Pzry>v5DD>0rOjIsb_;J+A8fEGOP_qeYOxsk8=*Sf=(N(TroNd$_?N*q7ph1(i
z0)w{Wh<~PJhgh-$7sRAqPr)F*<T&nf)efHvq>|V&UTU6=cL0H{U%B@6Vl=<(0ws2s
zNiWs0G93t1CG?{+TgJ+ua)tu=yH~zC;A0vdaSZqpOB$DY*Gk&hfHK}j5!X2G&oeUH
zvU|~+VB^}y#-+a<>y7Fyz>~|pKgP5$0WE$CEZ_8jNo{9$=)I#yEgt@n211g6yw9#v
z^meWRyV<+tk8UR|lBz<P@_wXBHDmOfMwh@~!Im@v+Yf$5Af*${Rl((svP2m_qQwb6
zLwf==2b?fW-c5@BCV6ZRX`~Rbvcd(*rKO)Ie#UQqDRODzR3Et*at~#b_jMXr903TT
zu>u`sA8}^f(qppLS<~if{J26>TiRUDMAW-1j~PftO-~Y1({ppo;I-_$SJ$v<!E@8f
zwX|*8D1>A9MGqVlYBX4SS6Wt0s~1-7Kj<M@cJDhp$+3Gktwv;>SZ!KOthW8&bGT3w
zX?BBUZ%*vJHz)Sqn<w^m=83%#M!Txmn__ulZ;BR(y(wv{*!zKp()<?OD^M9=Hwjn}
zMy0ZBe9<gA0uOAIRAjVtZX?}Bjx5}!VZaE~VCm77lYfGd_s9!|=0Eg=WQ#=jsZsox
zObz0acXSFrlZ9WVnVL*=k6ap+6_@mOVMz*Ww<LapBO%+o(H1MO3Nm++irC3e?NBMZ
z_e-i_iL~jA$JkHZbkkW)*v(A|34sKs^3PG=Xej-vmwXw8i|Tb#UNI}pleS|Viry&C
zZX9P;d4iXqh~!pkkQJ&z38l1r$|2R<ukOe{htvEiu=2rE(66$kQ^zj@st%=`I`V0i
zGopkUR?~+qHGE3txS10_6UKh+huyu#ZvK{k>F3k>^oYoVNkUpbrJ?*2yz-B(d|Lg=
z?RJ{bMZWuO&!^Nco2-)-nf(@9t|SxdkT6&3(ksp+OKiJ}3aT9gZo0=xB;>_3?^1Bv
zf{AV!wt?#RFfjG*e5O^ykz@LWFZ`kx?yGL53Q1fi5H&84SWdFY<r#irvY>X#A`*`o
z#WM?gSw=NXX|?nr1#m$Stme_*arLM7y2oZF<u8k@vX$TClN?&Ae5B8Mj!D4eW6RG_
zeXo%BWAff7k8Pemr_f3APQb$f23c-)SP;-S{(#ou<DPSa;r>p}aN6*5&huAX_xoJn
zea`oD&iy`D{$IG}_qjuV#hntlQ=b?u2IB(`-p6jvfb@g!bN%mgr{CxLwq~6&yw9C{
zpF8@A(PS`wVu$y!oim(3YS-Uz=hwLNpBU}P;Nab7UODHiSa^2LQTLJ+?Wei!hvsHO
z$wDLD9rTbx@ZqrG^9IAyhQ;%*eg4kpA95`6@Var_VDK#(Uvu1XJme_+@LAJy21D!O
zZn_%zAxGiO7mb{;@}Y6mWT;&@cKh_L(+@ZbKQJMAlO;bqYfBgmJz2B$>!-hZdVY5C
R;BsBM|MbTuN@WxH{{Ypl<~{%b

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_next.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_next.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fc343df401d284e5cccae20f65f0009b447b4291
GIT binary patch
literal 54763
zcmd4433OZ8c_s*u0EitR0fOKTf-59$;v#C7C{Ze{RB5TjaM>t|03}iYNj-qF!~$Ja
zPQ|9;a*FE25tTS2D#>)QQWcvulWxnIBv!g}lFDQjJdw_W5$1%`shK|R(=)@e<k;;q
zou2Q%Zv&~vs<PvrGmqeXci-Q=|NXc7*A9nOhbM0M>gfOdmpa`)kVAfoCClS~XVmHL
z=%Tu?E~<|f#Px}SaDkreh4I3KA#7lFL);iP!p|5tC5pmD%+C}zCd^?ovlqoJ32WHO
z?B=*FVGr9Aj<6%)3_F>hCGJYN!)|7`#)}gr;gW<W>`8dT-b87*G~o;TSePwdmhgxD
ziSlrHq9R<8s0>#os=`%?>Top+x5sM|wc*-CARJ(BN4zc(3<sIr8Lv+?gc}l#;YQ|m
z#hVh%;bvxc$6FGiaERH9<J%J3!>!C-0()DyjoCf%_C!axBheY|Oza5nNOXm}n7=pP
zo#+YoFnejdH?cFkli7XozQnHZE@m%_?@sIq?@8<p?`3X(d|zUJcz@zR_yBX4#}6hB
zg%2@%MZ7<8IDDAdE8|BJ1L1+h(eP2`u8JQ^JQIE<aXfsSxvS$R5+}o_n7t-`I&mg^
zhS_W5gNd`@v&<fdKbtrgKF92J@$-ob;S0<jj9*MV7k-Y}>*LQSUI@RCcrpAUb2r34
zlL&{y%-$IPY~rQxORzUZo8zBLd_Mg7L?j$Zyc~WxF%%w3Tnb-eVJ-3DL^K>t#KN(}
zNO&Z1Iea;BC440@8XirIg~#-|0$nT^yZWwPoLS*`ED<w~t;!QleQW!U6qF-Mc%ne}
zj4m2_Ll@l^GmovQsbt%`g`zEdjm6xKn626|V>{n9NO3t9w+(UIwc{$eCRxl5#O(Zp
zn5meX#od9pT^}F!U8(ZnDVCxeDSBcrD`j41zP<3>shv;k^Rc1WrP%dY<XyAWqAx`I
zwEHo-YYYF~TlnwU!hdh<Ms#1)Fk+AHf5Q;I`Tt>g2T<NLW>YwNFm^M#=dwOF{oWyY
zEcLqBi(~&Nb!grz+8=vi>?e61k~MmG3;!cq_z!6NkC>xJ-!Ld6Ib+dTbkP&hV_Wpz
zR=vH|=sdGUK8Ispj2^-NzMto78gWLCzhMl&deaa(IbC~Vd?d!j#)o5V6XWrlfpcGo
zjdu^mZlnT<iD)d|{sZc;kUnQVk&1Ccm*O$lO{2;9=x}WC9evKi#fCU;X#6ty7mSZn
zX#bImUB?DPg*i)qDis?~jZTc`+=}(^(D2pRcr;h6_?(HQhN45MA*3x$PEAfuaH&XY
zf*ZaP8J<W?j-p6o&UR#I_)6@^#Q4bQ<(%ydRZVgfUzm&yPsN8)qu1qd>+|t=LJBUs
z97{!pr#Lh*6}b+7WJ;NYOgU3@^!jKtma|io*kt4~H!(FSx+Y~;4TYf*$q6pPIwUeV
z#0|ycv3LZnzM5;;I{XV0Ts#^{j!wsN0qq=+Pvr7Y>Pn0Y737@9Cb%yQaZ%Jeh3?OJ
zDCZH;kLpaG=poza_-HB;pSXOPrSc75nHs-Jxx}IobV_O{!cE0d;>c7IJ{-D6Z2IOH
z$jW))$`BWe9;29NCXT|V`256FYIOWEM&!yw^y1A)8ddu<u|#6%{Fw`b6I_DalJyxX
zGi1nlk4(g;664QG{c?JA98)4!eD2iqo4nlTW0ROSluV9ve&P!oBO!m+>50puspPZV
z#BeN$eutOk3^tsh!$V1`Pfdaxk?UQNB<deUE58sMy?li_WhlxzrJO~-kU~iVDKz59
zP@K(>2`-lxgx2Q=VF=vALsQA2IQ91R9nr|hc+R`gXKE7jl<H7&ZfXb<dm6KDVjLqz
z6AIr54H-9qUc+!I?K*QjHWbbIo}U;Vx+HrZO<amaqv&bGERDuShNj}Fjm^NPpxHXi
z0Qy9`&P>G4oPHLCmL+4?rs(@sXC|8y2y!P;AE|SOQYkJ;e)5Ev#3zI4MI-7tf!W0+
zV$o5w?joD)6xF4y1yTzOas{b)&XnRtQxo*1mq$l2!O-N`<<TT^z;~8RO(Y@{lL+)a
zGcfqnC;kHh1MoRJjt?bIjE~1SHb_`plE-ge;zpx6_nFZfsVOdYcI4=d$rzVP=Ij^5
zB_Vlw;(UM3D!ZP2HdKT)WGXfB0vmk<)99n$pFK00OrmQ~58Z^@gU^N=LM7wmjEs&)
zV>fbTqsa(9@q`$WbzCBb2IQI(Lsw&wSYk4D6H(Ppk(PjDWCU4Fa5r-{7LnzNDkg?*
zUPAwKv60am!_p4JUVx(6^Y{{8UjalN(}nebstck;QGKj1S`agg7-n@NfUDnd0G2ky
zOk++dP2MYN)b<}SL`~Qg&9k~2`mp7KE@aM?DT8)la)?XDFi#H0Cx)-)Y<Y`c&Lq`U
zf|^)SZkXhL++xz{zOKKcODQ$DRg~6!4Q-M4IlV5eACsUcB@!%SNV)l$DMVZeKFJT8
zF~FalMDl%gx*222A^XVXrFD@a*)JuZQIy(@mB?Z08!42$HB$K0n6eEi?5cgtE8Erg
zSfy&0ZFx0R#w}eqRwIY2Z{$xs%$~GiEGXO6H)1F)N$a%cfp*SU2Xs2FDb+0J6xC~|
z{w-a!KsyJ76#lkRhS9&IPle>X<o3<zwMTJmn;cVp&zR7@R@E)r&_1Q#QNw`juf7qZ
zOm?MBW1X^HeIo`P2-t%>+GV@?hHsbZl5NwlAZ>;0Mywv$uD;=0rMhGrfKE!Qj6P!d
z<uLUP-<_&UwoT)!L0TnO#M&i?sqZb)A_CG@%kfhCWgABEfNWRa+G86vq>bqUjIi;y
z3*IxmE3HV#Hz21>9hPllm`R(Tv1c~>pjMjYV@)%>XO_<|D4{`4iTEdFyZVk=*vvhW
zIwSjO=c}C>zJqc)^_|8Virze~`p7oc2Uhff?OkatK@D5v(D9-u^|j(oU64bN+q1G=
zeZ%*V>XL2n4aj!&jhbFmU9xS<wmvV%P~T`%;n<6+Tee9fYya&6l&ty1X?+WbtBj1C
zlTMck%l5ICWSjba&+)FbzM+>oWdEDGkaKXlR0J6U*l!qQ93YrCFx?y&O$ILGe1L5<
zkh(H74kH#Ap91K^1tvxUF>!+r<n-;wrj6|cpuSU>Gh7-S!j5{4;42AK=T4(MZXb-0
zo};nAxm~B5cD56Q1n^JH2;hM2%4jqi8y8{j;tl&Z1H-LSIQDSv9J0tck$eh}6BkPY
z088d<Vpa^CW~EM>+ofuToH^%)@{&0NRXJxvi=-+fbH>!fWaKJ$o+?Q*h<lETvElFm
zNNXsLeqjZ(yiwXX9jI{hh+oQ;QZ`hb@hG)iDmCW?r1BJim-FDHLU4KnPzwO{2m!gF
z&YTgaCjc?#2w)c+5+VRh=%6HZW6pAAM7Fx*v68!(x`U(DIaidLWF5$P$YqbluH&dD
zosG=ODak>n9~2`66d{0}hYYNv$w?OOGn9vW96<3D9Z=*}mE*|qbhB{4igBN(6xQd5
z;#0As95=ynwB4ht&_{AzX?o_0$LSD+(?nd(mHQm|dr;U@y;w3HnY?l{nIAjnrwl0h
zQz50Bd?Lxz5QhWVW^bHgxq6f-4mW+CH2yfZa<stYOwu8zWW%&!b1PT7(eLT0YFEHG
zK=~XkA34W{G#qUUXstT=A{cv|o3G|d(T^LUS2ie4nuCZic@>cA#3hbkl$`CnIyG}e
z@?1CP49Qr0ggb>O;#@W1OoT%Y7bPDyStcmCB@!8q4<(b4NYV^<Kzv^N>FJJCVzOg$
zbg~Uyhf`78jj6ufyRP=dI^v_3Iwo&o){b`&K-wYB(AW(eRMB^$Gud&Cun>`P!0zpn
zH@P8XJ*{FUHUhTo@@yYLtmFcghM&BqTQxgw74c^Oin(H~xJoDv@x>vbxSKETo;77F
z8ik5pzM^;5l`RVjWgUE3$E^Lsvc1b?`)3Vr+CTI+{FYPjck}*kI325H^}qH-p{$!P
zBd0xER(WUU_KZ*#;>$wIW!srwph*aH@qw;c!-~0jt)W|JIKwxbAy?g+&Gpv4Tl?ml
zgo;+aqV<ujb+x1_ThhE}_?G=0`@$F3b^4v5Y^XyB?d3yzGcEfb^sg7{iw{07Ec7_n
zb%hS+6T7agec9JBYs>oT1m6zcw?pvl=Y9L(QMpa1+{st&q@w(5b&W#ZPQH%0YO?k1
zLj3?=KR{uDY_LfP?&5>H9`p!%FYx#UFHk^jwxv~QImovheAx4s`~GYn-*T3`8`l~`
zZ@+Z^rKJI(=Nyk;<2mvUuG!s!y@|IsEqaB}F&;nrvGqco#epK8n02L%S$m0Kui@=A
zs-@VMEpN>Fs^(ste=g&xe_}J0TG4BkCvIJR%iAsYTi))t-?7vrbPe!b0}qEjh%Iz1
z2QRY9t=WnN+Ya8gW2yg<t#`GqEn5{7s@nOg_H3|42p;Ey$Fr4nLS-vo*_y2mWosL<
zRRN)@o3HB5Rs`n#3pJUt&L=K&&^bHsJ$uc%R~KxW9ayo~d|1|)t*jL)+xW`1Y;ozG
z^4sNEf0f{G<Na;f62DN=%9pfe{WXGr8}Hwit!WTy_V6`(vXuem$)d@PdNJc^Vu@RL
ze+%p9J$!IamIh-FU$<v9utNy!=L7qnRJ;6W_}A=@F;Ve3%bOLUDUvx87sI)Ce3-U2
z`7yx4PGolY-k~#>9Fq5*DbV(R329~u*(odklqaRc8Nu+bR2E=+oz`iNv!x_R2@s!N
zJ{_>w^s#Sxw9ayz7dcxtMT9er)5LoPO8Lg|X2erYeQJEQRMr~P49=lj<Y&sy53!Wf
zn3~(`Hb94kbbKHvk=}GFm@y(Y_4KBPD^bslluoTJT!4TpkaBz*(kf>*HG`;uLAI3$
z)#|BIHKuG!E2l5i$2g`jV(9{T1aQtb4*uZ3;0YCQUq%i&2ispcwj-vJ3_KFyB^zJ@
zLUZK|*GFStV4Ew~jTGE#l&l261>1VYu?>n@aI}qauaH3}F)l{&nne5tp(`bTNfVzL
zGIOs}8dfFi1UGt_Fmx!~O1l(xCSaCwG7J_SP2@Zyqg3*S4}tp?Dp9{-KM8PekY|yE
z4V|u4Hpfj{ffV7tN9<%dP))Dt)=GmyX$xQ4GHcD&wF`AUJbvbyS?k=%tiMtGycfF`
zr<eVEW*u0o1zW=-Tf=Hq_tKf=s>8Eqq~%+%ZF^+fwiax9yY+r+wr2Z-{aE$tJ09x_
z>Ycp3cHOEAG~By+_vT{ta%~@PubMqGzXMBwM(hk?n{`-5ZPmQ3I%5lEgS|^bSeP?=
z2S2#R?>)x{&moRlmEhs5yME!^<3bcgiA}otol94jrZd6AC^_pWe(R-MFU|Kqa#TwN
z3c=_2;B!c%Br)sU^@6LJcQr3smtEZ%b2s<P=%RP@IbFy~;NtjDA_j2L8X+7v(8mNi
zMk0X0<6;O$n2TItG6hsWY}|EnnnbXl`*m_SBtT#|hDj26N6-Bde3KXg-61x39G(A|
zK{G1Z3*#qm=sqeqr8im^POj_d{h;ti?7bc?2pW49o}&$DT?gw@?A!78<3A=Vt2oPN
z7+ENfOR_!w28ztbvjNAZ2ac^ET98Mj0nIvQ5?2C*7=S?|Y@9h}(Zc#@`-*f)q&6b8
zjioln>`{~GkGvGS60-;~9Yh}z|DqL9OUxOy##~YJG}hUuE#{VN_E@oGbHqv{n=@tr
zrQJN@WY|I%u!Wwe`wd;#8!d)e8ZALRHBNw0kG4NBhhEgDELy4^9`$YEU$%w6U)vw_
zv2v8-XBf(ItX!2jpYruG3c>&pEe2yL?kgC>VVW`d4=sd`X?4D%yQvQq4CdT%Mqh{k
zpDmJ>-oZR(>kgZ3(o$g+X#{jGny%9>uU(DuedM1c#0b_4SDiS;tZ;6q4Q-aJHniS@
zHG<e8bP4^8o{*tvSm7XBcY*o#<YT@iau@LY^#t#>U*FNLRK5L@NDE80UyhDbi^jQs
ziOjL8zm6BPgYZmXwYUJfiM~M5B2vQX<}KQ`IpW_Tm!u8GYr4NPpIUPTGv**`=Y}Ry
zKeHx&5f<QomBAR3AO(0UkM^#qg#q4T7o;BE^vHYc1&rz7J0`9L;kimWX3NB_ar6L=
zW2smqN`uQ?q8LVI&)J8GMkpU~i^cI3{lv(>i^%!2#6{hdm)msH$8=|2ynjde5RwrG
z4Offc8sJ?6S%QqKd3&{BujlRc3m1jPoqXd?q47B1cpNLS+q$kRuvl5Aw{Pfmf{$3Q
z|2Zr_U$3KwO-Q`y(e8KnYV<sO?VFOr311C33cj=-Y<gs@+65i=`v?kII6@+CHF^v%
z5TOf(K)D*Z0xB6WFa#=GmmF5|i(HKmtRUL2GrOAzbdjquZXC!BcD6NBvLpz>+{cVD
zEAvx~F^l)_QTZexo;Hs0Tc>ZGW<y<tT|VFP*4bNU;g(*4y^gonk^9W8Gml+n8hx`g
z`h(n;kS&|J+&9U_P*EjRdx?xKBRZ(~VFd(-Lzyb=ux%pIST~bsQnaG6=UwRy)E!MU
z_M|8;_T+^sDR89FoDLCXnjwbf)QBhmFJfqb#;Aib{SbptPMaRYP|8LO1!b>BLky*C
zOh&&NBHQ5WmF?<VLdMI$0!{BKHB`1~Pj4x$GVxKfpqxT|qh?B*Rf0^~B!lh<SL%fv
zwy7y)8)7JZl4@6cHRH0Qj4q<IA34&hwCO>PN*|_8aH)h09Q^V~6F?%X#D;VsT!bQG
zPZ~(|NUh?+ktq^TT$-qG&WC<HB*#(TV~16{Y#Y}T$tt4sCsHaU%W(i86^LUn7Et|U
z8y)13L%r-yosezFt3kG_Z}=WlU9v4&m^Oh>VgQlAC^Hrz*G4%UsZPpv^*u(P>83}E
zG%-fs`KBkDH#0tM-jQZGlb^kx#6FaIE0mXyGOuMnwZ9|EEZxwn$~UT}Kz+`uF4=}&
zHL!jyLcf~x2vFPQ7@s0v!hmjilzc6l@@<tPZqYv=wvQAtR6;<GslEZ%QK&ifS=sN?
zk9yQ912B4Bim=h_`B~DZB1)>FbWz%T8DHTRTf4G~$|*pemsa;teO^6=<nXaevQ2%b
zVzPZ~M7F7Kl&vu@v};5}QhAk=-}rWV<lIu9wjN`03iX{z$o8M5Msgp>wUOVbRiB*S
zhEW=qebsl=nz|;tq6!LZL;vQF^A$O+`u-F-B<0v>o%VjD^r9RSUndTXsVUh#Mkn%3
zkFu}p$8Ky2g7ZE5yV72c{@5>vr)Fdu>JpIc>Kncq-+i<&YLmWk2fjsTUd{*Qv?)5$
zut%=f*q3A<^*v+34rLj8L-mnu*L9pTMMp&TL|wF^{I-G;`x5pK?R06=KBNGl(k-6P
zet>zZJ2qX^PB7#S;$O3lj!#bE96*eEHqfbLhe&Fq#hu~OrXB4dcY$&;7P)ry`gF+1
z{RsvADH+d_!Kfk>ecGnPyfl<^Y~W722<E54*d*{^jN4Ew)y*g~mtsI)fzn1qMUzN&
z<NkoMv$UgDtmKe^6_o>RlWIv^OcKpCuXNwQl*DEiVEjn|!r|-*ga){mshad1GD;tV
zzB$50GMXQe?-(U3=aY`u3=}6qoCuC{e@Icid4X4BH>DuLxaB-jknBycI`^+Aq*MyI
zuH?qT{xvI`q7#H~5ktu;*B~Fxr_8>M1l$0nvPkS)(HkOh%nF+B=yk@9#}NdYD}+bR
z&Lxr&*16Q>C1M)cJsO`F7fH)B5jVl(+#gXUKKWQ71Lh(UlY2mcW>!0@RvkHsLWT*I
zGl}D!GZ0H_&N4Ng1bbc#bIVI}2kdg-7-YlFrcthBvoEHMJ%6In{1m4hLW)4n1p<KM
zXhq-%5D;mNmS-^!7z>+-n=?#|gQidvO+^?v-N-oFI08*`#(qK*b2}()fDFRL<(x8G
zVBW;b8K|o`0-thbc?yd3*b<R5m-V-N;P%l8d31O)&nidDYRD#{G`8w#k;qtrp5kue
zV0RP5;S>?LlR2k2D`YqKzf+Ze2?j%FNCZc`UK7!bG`sWg!y7P63Z?Lel>9$pvjnB^
zNr}$llxc;l3K4L%tarJrj}iBXz(jN+qDc7}xoH<)xl45^^f!>4go+-%q6f)b%(0WN
z05J{@5Dj0w{VEa7cJug^?PfWbSKq6>Tf5jJY~Rb{SH2g%&NU(?61|8@s9r5^U3`AI
zoU(MXEVuI&M00elddi8WNKW3<3Li5giS_cqUPd|t!400aHSv|LY9Zh9r`|#23@RY7
z%5JaVYI@{q0%F@yEFv)k`<_SkJ!{1!>qQ{(z3EtY>QH6-UHif{kh&IozIEW81H7Nw
z;#l=<LnDQ<R=x~$v#NWJyN)afe~jw)LdMhh#9}NXs-JD$uB&f;d;9(ELa>Jq_6Wh<
zd~mlAJi-T$JnUZ%9-B41WxHh)%oV)3LaZ1lk*DvUUfRJo^em;m{l)jc_<^49JHa=c
zpqke)f?F3K>{<fmoKZe&SF1W%U7Go_W=5FX!TWbmZDfkw=Q5t{AVXH8Lg*9FAuBsJ
zCg|Y(9r+19oAHE@ppshPT6gPe>+i+y#uxh+r!v*O8FNLpqUK)v-S)-0#pg2R-LuXQ
z&8|7a9ouc2;12Tc;KJDzbI&R!5AXq}Zk-Ydq-*ZlmAZp#pf1v{X}!o$>H{62wEWKL
z+o!W$KfQoC2$rlDT0sOhIxN;FO*((Yo%HSWs=fHFlebRJrGzqSBt~N2JNx*uzGeF^
zpqhxv_@@1dN$2z5dFl2`6d9$ix_wG~@3*SnsakgLL}Z8aaiPISDXbtgTgvCX_bTpI
zEKIEQo&Mn5a^KlZ<FhN~bErH5s_s@Tx>k0BPO-fET&DT_iuuBa-hhntzyxwP^X_JJ
zWwyF*)l)Bcx_D35vZn_W)jO@XTc0?JB+74zu6!FM8@x4$mtbee6bw*JP#L4oWIWAC
zP);>-;3KW+U9R3KRG;9hPf&;3iZi9nLg@h>KidJ2)HAicOCw7!W~vV?mmJL44`%lr
zLOj8|gE#M3YI<beEuuRm2pJ22PDk($xgY;O212~y^sFcEjgJhi5Wcs9Fa`uaY<l2}
z95z29+u#<^y99gXrx8zOS_DJnuV7Ww6jFSRbAWVC)~G4fiPDV}kjYqcf8lM$xl9wq
z`0=%pYGf#&anOJ<(}lmPo6#e*Kr_^UP-249=+`ZMHF^$lx9By5XpI3dW(fHO<#gG=
zh|xc5Za-7}%LOy0l!5`%Jm2Yw-2I+GK25%axjj=fW1g|hSU(|UK^kPWyp-t68QY8<
zkhw>lx3Ues8gnnI5W>N%tl8&sy>M2rYUXSGXXa~7+cfjFeSE%K&Vw!12KjtCV@umL
z%d`JiD$h=sg*19Ejgm)9pk0}!&sk+qY9Pizk}4T^nE_)jw+3DYJoa*6XgnHtnZaT&
zOVUiqzz8>y2)vvay#ewJorx|Dz1*(kGsxY-NOOM-1BB*6f|Kdf3R$@^@~0Dncmkml
z0!K#ycEI4?BpV%P!McEROe$9d?o47M2ss!GnX{?|=FFlUka6jF><hA>7K<)|*Pf@m
z5!b^qj({^Q5{KZ57_)ejC*m1d7vu`j0XZXUdrm){(_hNzhmyptB6k^kizK=#NPvKF
zE`zZm@Hzo0B@WQ+boUnYrH@NAfsZ742wnG@4v<IP_P1U4UCV(TOZ7`#nZQnE`&=-*
zZNG2l?X7EW?;Y1|SGL4=r{i|VN8lw3u6fGt9K3yS;o{qo`w^b@W1mnG<V%7G_0%I&
z@YM63`j3nSo`#Q%hT?|xBFi4@M><QLHDj&@*Hmrj-o)LB<(iJA!ljZ-P0!P%X6=qS
zgWwME_}K#s142U&;5FXfvu-Thg{%r|kyRz&8(-sG_)g?@B-6AvQ@Rga8J@u0t~>j0
z@6QB#GoGEZW`LsLX~?6d02*~v^N#8TuTZyx$Ir22Y2e#u-#^Pcj)47P>%eu3Q7qNT
zAX)-477Rk5lgH2Anb!uz50$M(JqaWXHoskYzj860*?l^5{=!P#MdBJMohzJsZoYrD
z*mtM$cIEtwndV&&hE|FX-7?J<&-SC{2yonX%*XDH-5pyj{;kB~`6chSYu~S3cK6R3
z(MNBcxOHM~=+4OPk@<7KHo8zE4#~2;cUJ#&sMOx2i{F0f{g?Q<{$=~&PaSQ|<((Uz
z?_H={IJc<JxI!6oNCbfLw>Kg!F#u>5bBwqq()!o*H}#)D_toFh1b5)8vH23f@pHu2
z*lM@V|1#vL-Yb;1g_qExnF8W`OWDvq_As6a!yD!_<X=V<zB9&ChM20nQQ8nSq8x>|
zB&P?u%p~Uzj=F-eVl_mz$$%m_^*=7u@NuCdg;<P>AUZoZC@r7=0oiY$76ahW(PsLX
zFaV4MsBEHXFeTj5YXLCejgtUh#;EYql6auyN+22vv>gcS2*d-hV~y5F!FfPq$dESR
zSkT`P87pYcNC)hkd0!mjm(igE)BCnq%oK@W$k$0bL;F6)YMnd)i<tUbw5m}%a0LJL
z(FJ{`zVAWLcMpE&;P-r|*hJ<2GgaiDV1SZL+X43<$@m}1Afz?-*D!L0iJ?ic$_$re
z1r8=PdU<MMDhd4D>lDMHRDyd#$$mt}Kf+)PA1~9=Ew0=ije1XS`}A%69cmHnYG_f`
z=FQluvYz_Ys=9lp?w-opOKDlQ-?mH3w7WH{;db73E;JC&81HV!dC=j+dRgoN|7x|B
zH<!;EXOnYBaTM~E|E>L0)=@HdWcKu9W1-J_%SvJ3zb&qqZ_L#7KJb3G_B*vJ?h{yZ
zTsYR(@~+xtSKUJQ+XwC+Sg!A0dQRv)%J&{!?tLcXdM0CjM(pt~qw+bEhyfjz<_o-Z
zI%S>cg6~!bB^5o6V}(wWgHb`CvoB8sc4<CudY<C?Bo0lg!={H&&N2}766UQ8q!P%f
zlDEP6r4s?35rv17tq}~QRo4j3V+8}0MhY2FE3KR}j=VG)D+LiwHNk34PEqNQ=-t#b
zI7dis()YAKd=-MP8VZ7?G-5N(lyV@@BA#oJ7{(ORu9{=oLEvH9iPi*EU)d&;@xc6K
z9Sh37>U+kOc8)cwZrO&zp;Ifq$c-nD=8O}$YNysLZBuHnLW~h^bkl>jC<Ho`pjp4P
zOC}ScA5{XW6NFlM{HaH_Z^|0Zv{Oz=vpWq5-*jOmc!X~jh0N1$DPZw2QKBEhQpsfC
z3!|wkkc#4BF%q6iCHE-NcC-gh5RN~fqKB2RuJ*tYPznMHA6cM96ub^V@LGx0-5xm0
zh#6X0Fi?EMzCwo-wy#vclFx-iyNcX)>>dS!)9!d+G7zP`1KS8}A&x#`$Y$wi3B<on
zTv9nb?9-iFETIyw?$cYtUsEoG0g!iw-WA_YafM<h3fdCiDPW`#?%%>b?QL&wr!9<X
zL{_%74TgN;K_iDK+~1P%Q!)yWyLh}PgeHQV5kg86N%7<nqj1_s)Vy<r6CfNIh;uJj
zA~ETSY=^*lb1{*8@Ks9kf0FSJWUw9dL)b!Y5$R3qDrcf{=U~f~N<)f66XPjMvhxS`
zYZT^rD(uqGrhSY1F=h7?GX4`8P{joHTdIx78i@5fXPp)~uOkzelSIL#T`vC-apk{`
zkm;I_AD(|jgYhN|oIZRyU%gP;%$GJV>X%Em&04WNHM9uzJ$!x7(&v`zkMQOI&I|L`
zAp7uk?fu%N>gBqF0Gk2$&!5XShJ?mreB-gKy)IKvn8zk;YC&;Ro8K`%v``F;Wp&{D
z_MHz(9~M4*F0<<tBIWOVCS7U8ofEfD%ug*0FZO0?b}Vr#-aWIHCqPTr+_T-aWgTVn
zUZFh1mxmTFe(R-oUgFDli%>-d8)iwZP}0bkG~&b|c$#^j7mEx)FFFYA>3qv_%kq}<
zmQyf?cykE*HNbK9E5|v3(5FEETCCIsWp`e<{lctujkw224rKAtQk&3ql<zwF@Dks3
zV%dLkmQpfE|I&Qjz2>{k3&FeFm+ege-hmmn+_fyUEfp_Ay2!y;&{-y9%fO>MR{eDg
zZJ8a<Ec=fm5WQG^zj|?Ixo$rlK1{Q(%+Vq0?m6*epn=bu2gPs>(}yTObV8*);c*4_
zgZwZ0T`2~WG>}#`IT5`fzindY042AyDMhoIJ@Q(REI6qH*%b^$T8J@XO#-4RKL=%3
z+MI*d&I|SoO-%?hX83C`B@p3Qi`{I-3V)5=6-XD8*6s>ql}T%VopHdQmc~sF_7QEO
zy-|yWiS>#r?TRw3R%3OWGJ_MObX6|LjhIH3rWmDb?Xo5CZ+JSF8Bdy6s!AZEqQ_1o
z+Hm%fYy_b+J)LT-MZ-^Pr~CA&+n&xbsu1mehFWOlqp(iN^J&JLw!VHGJ<_gK>Q%H3
z@<^Im1)>Ek)R@-Klt%S4zVQ&CtZuDb(l({E(k<iIl{mg}aP7|^=8O+@dp<?9R`#Sz
z)9y4$M`?}2PC1tPM$BEROSYvQAWP_f8PW}+lmW)qG`2?$Ro@_7c!2VAjA`{_;k#Hl
z=!q7AJxlsZQRl7taRB}JT-v8Odm#^@w7o1(UqRU~psj8|@lK#EP48LWwTLzT#5(xK
z&u%&5)Q$srBjWpojEIwsfyTF5p^I8o-2<3o_%1OkbYlvOjMyeJ)1~s5u#<{^rhKMi
zi<rI*F)L@PW~x*Da!yEdShlNgoKOh0j`nYUWTr=UKC79j#hjhoavsq4<lnM)Db$j#
znF*w8XX?<>ApYye&!uZLzbj+jcZC$67^iN_eAI6*xMe<SoceJy>J`90a-2bmnR>K&
zTk09PXVU(3dAcGUNY|x{qt-NHqs1CuSkyR;B>2u8X%EKP{;o~Tf%Rm=OyjsQ>X7YQ
z_9)HB^XcNWlh*vP6LKBYx3Y6LfjH8XE^_Ij&XIzBh>$uZ$4XbGtJ2l!V7fltgc@6*
zmBad;Oa87|9hzqv(~V<i<P_>VU982pD$g*g8I?7@f6Gy)7KHM8Ppu2}o`v;Zr&^wD
zQ+f~bQ17`n*H!5|s<-v^SJKU|-%Op8(`vGu8q+103(^f*dN-n`sJ=q?JNiE`rJJ={
z3*YDEyw&%6#mf1*CEYUi88t+<MKOod4RS1;i?@npPd9Ifr7)VxIT7ov(&yMe(j}D;
zenQJj(V|ZqyZO_`43$hDvC4;oP3KDD@|hy8o{4dsF-f^cG;rx=Ks{~dlY0n~WHg^2
z{1Ze|8P6P}{u~3#8~BAFu_21kKm`{xN+d<y1w+Hbu}Ko|k;Fq?BJBh*p#%^}!<-{A
zBokEPvGJS(6qQj@!WLl~15Mojf>LufHTz_)_{tE8wT`AnAzR9d#PNtp21zAzW!UgQ
zI+D~5UIf;&6h0hDjD~DE{k5F_YEFMWr@stsB#4xAY|PCA?z{L9lwyeDt6~w>;VIH+
zfjXiF$t0vvn3R%Sq>qX$BefUTu14Zrj0X*TU7`%jI|YM-?I4WRP%Uc72#`@nMv#np
z7`YM=GnZc~2c5RimchhiMn*ZvXF{<pk=Q;qC$53=q@-LE8I*>zzzDT-wDRN}OvX&^
zA26Unof?`09dqDn8-?<e(=^n3$*4rKoR?%*B&rwUNh9YUCq_4|5YXQcUr}q47)oAE
z=3LB^O#_Tx^akdKoIcO9TuhqZw-VJaSFOa~(Dib#`Rerun+9Mh8|6}vZH>gnFGH9x
zXMuva@#N%0G6t<8kRt-;Acac2el&923bplnWH9pN7;HH^#btWb;&DlEDH<Dw!WF2m
zK?7np(84(Q{Wt=lMHW#uS=};IA@nt}=-f7nV5FXOi)tGQ(*QnDkPNy1jl%w(j4Cn;
zsWz3cK^5PGh^M$t{%d4>l?+0Okd{cQ!0^Q6%}B0D;y?_AM0|wC!7=BO&@sf!N17(N
z?W`a&+R5l3qmzssWIzY9j_W1^8jvwzNLxrm>0m;`OJ94=qI?S+lp=%kl;Yc21d&k^
zEPe`#o=ulriRzYzH0OQVFLE(wl~xN(r<|Fw4U)|&QeA1L<eXv*B_BJ*Qd|;qq3l+_
zxSR>H>y+L?3xH^~URD!2n75pcmbX0gix}Mty(pv_QD&@UlT!SWeH)`I*;o@XC`*Y(
z@S!IO_b9K*pZFFj7>+#FOD;CuumxskL#+P`!;$<ya7+g$q*qtjzFg4(wJ6*72-}bI
z+ku2wv-vZ&z?!|}Ls$8H+k4&>S9`|Xo^iDUb+HhA`|ACxyuS;G3kqEc?O$;n$e0gg
zTnDmMA)#t7U$qz1)NF05P}|Sf_Giph+4@eQ{sdnSCawVF=!Kete9b{1HL?}WLPZ~6
z(TCFWy&HB24X5~qQyFmjwe$)t7x<P78FQn=Vz@9NG!5|h`Huo$QW{*?!Iw4)r5$`}
z$5O%4;pNgk5SYDn3w6A=Vb-#tPI-l_d8;!uotfIsjCTiO*&P{YAma*T>~)OXn&$$A
z*I#w#mD{g~>R*JicD}4#LJ)~ueUkJiXthny@M3$%CbaC~TlPpQR`km)heZZGJ1GIE
z&DgeOT~&fB#JfU^=N`G*m-Y+Yr}^&FnP<;E>OPmP+cxI};tVW=YjxX%x<0<H?}7fo
z!R5MB<lind?&TZzKIqRJJipv{fnrtH%?=_}2D(m6V*abuJF@PYth*xXt|FQfV@f14
zJvoR^pnl&UoqMQ%aFMS+ob~q1B?Mm&@9SAFENCb}9*w)Qfu3wlpHQ=pui5wD{Bq5q
zY)$=>az~AGc5pqQvzH6DM&8!AsDA`i2KBu{{XxF|;6wex9n1AcGxh**dcm%&yWy$Q
zD{Jo^yn8TP)szi(XKVIm1G}>2O;0@5p!3IGoy&h~bY4Hd<Es-NmFgU|K)X3B1xFL_
zXj&|O<k+@a*PC?*Kdw!Ovff^5N-yv0m77vq&$5SZnsq<)z@U%Tws#2IkMP@%JRDr!
zet|bbNyOao`LS%@UZL+S-v@cl8jRL1;3<1%o%8mEagf+N^$R_3@43Hc@!C?INSR+Q
zIee>VRzKUbW~=$60WGhXGeJeooCO?`bJlF2;kIL~yy9NX-I_)H;=$$ey)0O$YU8Wg
z7KfH<m#g|IZq2>V-~Iezf2QN`a`h3GP6+Ja!30v5={>$2IDuSB%V&?_tC&5JEw7k8
zi85x-06oj5*lOPkS<*RF!AyU)v?g2AoNZ{yR(51MFB10hS-$Jp%!P}5*TqcbbJ^hD
zY(pRP0zE0S?}B!V9`qC+=vlAQ?K-R%of$YWzc!40Rb!^<2wycIRGsCk&MsG-n>~~5
z-8p+EQ`wrSXk8r6RP5mGT|}g8&XxqSB{j^f!dHtAK3m_Mt?VZCIw-c(R_y$!2%3+w
z?j}qfD)_Ws=o{qw2D9#RnzS@3&e;<gU-u($n3y)sjt||PSzkle7i4At(<&R>j(oGV
zeOZ6se49|w%~y0o=SD>zrbfVr^vwhMY-=ZGb#ci@V1M47u?P8vUF$*JzGG<dE;uuA
zN?%l_<7lSi+$vDcm3J$%#U&YUW5#_nLm&AezU9!v;)f-fmI2;<H0x^>d|kY+D_hnk
zl=bjsJ-|3uIA>2{U>s!v%CKX_TA0Z6omjD-%-VgjSEgxqX79Nb`}u6=9-;Fv-+36H
zQ|D3iWkoBxlef2J9f6FaHQRYu=sd}Hp8Np8XYzvAI*$pRgM24(>ULrvlynSp4DB(*
zU+^2)VL}z$9ReEW$+!z6X9fj=6z|^Tev|xukNgZw)P9ky#uS80Vj@BQ4=BPC`4&Qp
z4EG&!l4KP}R8h`BMk^V_Z77PJ{FH12=y1P9HX=Z9FOc&aWczIxjC^!Rq)*%<PcpI;
zfa?ZGWk}ZOSTE2UgY!pzsKe`Vq0Z!F9_yw;WBo!yrWp+7dmiiHShp5Jxk%~4)Z4Gz
ze`V?Dw@<x)D${(BuRBDcAYNF+(8UW&^@}gwfAxX!!SKWG2Uou1$}~U2*ByVXLj+8|
z*3Rtqj%?RXEDKqm|0CBcdSkyH+}rC$X2Y~73oZ=szLxbO(Zj5GSVRx2t}L{ORkdT?
zCVJR))$L0LzN%;4A$mA<#ol!>XE1qLoj)pO{y&^9++p1I!x4S4@wk4ysn2*|t*nX|
zz}Jniqh#<KfvMne5xF@1$wK3K{hG&rXW#98>qh3HNn1<`$kvNQH?|$oZ4up8oxhrL
z{IQL>MbZLw`Y`^LhX#|L$21@E^{Xh_OdQZ<3_3Y!DPh`73^8a~VK(S4mTab25$Qc1
zu`_-gGjy1kp#w!z>k9OuX#3l={YOkuJM@g$n4S?k=#)<A=$2L4_shCMG)3>l)67@U
zuwjMB0f!C$jC|4w-%Yai8tRZCMMno<_5d-QpOftSvC{V-x@f9HM!rg3K-v*qbkmbI
zO(RBBPbh4OD6>^O)DZb8tQ06wgOq|85_*+lYY|n_rmHXE(<JmYi4<*mHq^(b5Q#Km
zZmxH#RL+X={%WK^-e`l2Vn$7Al-Pr|_+`8LzM&^QP^hQUhiVvnX`$NmhzuEd8VEFF
zA+1Jfl8ylRW1(_=o3e-VW78@%(vB4^oHnyDR5-X(b#e(H`52;#3^4jeVME&x#|Tyi
zn%8&`N9p4{Z3SD*Uac0RmKrmXjb4LTM!rcXQb`IxDOU~OP|KpIsz?|Lj3JdzQr=cs
z$p~t$5cN`YzGjbhZM1um)kCwTQ8O5es6-npQ6gcYL}e^f9eE{c%meKbF+(*_pYZLH
zb5q~&?NME_4Zb^NyZT0HLDePOfP$93bJUzr2kc1^(uO@qrOY+iZ>zb9xElHxz@Vf(
zze(Po`VX?eQRg=d+V$i7dE_C5=U+Q+)b)*mas8<7_w>I?dLnA&`lkA28`5cwgI<gL
z0R*$OQX?;==Y9cs)yuVkv~jU0ZOpKsmqq`z@8&9_gjf=<>`=IOWcf)q!@5aGK9T~y
zm@|W`o=I>XgAg#;i9Lini~JzKJRyn%7eTKtsmWpT%T{gz_%~6W7Pk`IhybevL?|v`
zF<ip!84!pCa2H7el?&VwI8lJBBP^+uO1#{FivZGsLT0KC#G@IS3q>>iJgUMPwrc`&
z`ah#GECsZ1J%l~fz`aafLu7o3jPqpBw<BSE<;_@9^5aUO%JB#x#aIzJi)v-+Z3$x|
zVsymt5;cKbE#d>c!CgVUb7s~VBt&ewCiY1YVzJIClG|Mby-#Qz$Lh_!jAR_m1F^eV
z7t`VeR!FhG+sILt-<!B0Lb|^Lg50c2q1qZ9KSEhurfSFofruRKrlQocf%-J(Rsa*}
zCKWEjio3={m2;-6>@90kWPNyvviK$$ME4LOmKfQ73C0H1yCUd31n=oerJR1b&lM5a
zKQ2JJ{}skhfcSCeiNH#7qfE|Kk$PP%*|}V@Yqls`+bGoT=4&DHxdL2{%Okkzc~||y
zW!?prmPf9xjJYf0>dKZ^3*~KmdD~JMUk*uGh^~^l)_r_%ACorClAgsNZwoG5eq?I{
zi0btVo^8Bm+u{q5PI#by<iQDScgC|DND^=5{6(R<hsSS2&}voff_|Y#sNcia?|E>U
zuRpq61>sSWarM{SbKP}4@}FHC5L)-~t@|Dt{?hqpPQG=JWC^priaX=C#}`s>&)lB@
zrUQO9CjHsMmyt~C{&)8CWmIWd)$c--FWW}$)$Lu-Y6~RMQV$NGt&mJyF}DE0QP;9)
z%HWJPfRi}+Re$IQ2a%!&m+63F(gsX4qJPmKwCv~cYuL}*53m5z7`9sMpZ6_PEIzkf
z+`Ul>(q)#UAicV>7B!=uxA)&i4iIFJi^>ymWiq!mlPGgb60Y^s?!@f`no9bMv*ooy
zc^_Zimn|+6ii3PHBroC9%9ppYu{yv94=~lh$N84y;6N5dUx6Y7@<0*XB;{7*f=;aU
zB4?=;!&OlulyBo9-3eJ+S=^Si{(j`5a6gkW?s(+tcv7ST|CVpLdRMliTj)5;cbxs9
zvCu^v&n4cEDiIkyZg~>Wl{Jea^`J@EbB5n@X2nONXj}C)Y50H5#?CJ}i@fY5MZUW)
z<8v4`z>pu>8X0i^EPTPytkV*;N-LZZjA|<KE8~;d{BYmIeHRL+lNyR#HNZ}sg%B5E
z0OU45+P;!}gH$r(2!JMB#tEhHRH->ZF$e@zXDkqvG-&~6m!T-*cd(6WZU46+<a!&F
zQ3z9-RPDFgKt2h?=1E<kb~Dx)8%nim@mq<dD!E$`&-N+e*~WMMEPbopf7-qpy=rB>
zsv9d)dsDWdRSH-y`w^X1yC31J0glLEw@lmp=jTW>Nd{)X>88`Vp(b6lWjP91sJ7^z
zS@Tbw<A$1(R%ZpM%c~1$-svK_*Vs3R5klNLHI8hfm}%w604_dFL0+yRZ&nB8wCej+
zn>;ool$o|sEm>ZTY8=^?w##v;X5g}eN*>1VtqU0j8R1(Lfcy_g5b|(S1R5|<<3GZK
zyGBlq3`Vqjll<c3ybfE=$UsDqr#MZ%lVr@0K|l_7lZ<H?pzV!bPE3qOx$AIA5|Z2(
zDVQ-F)54c41mq~P7Xu_Bz%q}<{1z3=sKqZ*R2u;(M1KO=e+v;uhP9in(10x@5~2eO
zYx3_=1+Wa;br3_WzFj>(vs~N;DY?Sgb4;^w;E^qmt*p7X`|fU1zfQt**KXH}!Y@mP
zZ`<FuXWaWAc0m_KRU?!vS2=H;o;^0#KX(nlLPdZS5iATZaGCOLKy{Y}=AOUv+1sDZ
zl=d%dgRvO>*7!T)uspc*sI-6f*s8Dc&ehvj7n&C9mP%H9J-42j?Vn8nlRT%tW4Ud~
zxVO#kfw90na&MdM&w6U-dI*7*@pLX!z*s#0$kTaiV9i&4XY}^yf|rQ}M!yw*C;njI
zyQjZ%IukhY0XH|g>^sjgzBX64CUOkV>+hNFn&vss3m|s0)bs8A@9$sslN6s|e}=a|
zleIgcB!Xmqyu{}VnIAwE4(qHQZG;3Qc#hQ^Bqr<Vw-fItmi+_E_M?LRBu_|V<RQ50
zcz4~xz}si;pW)p*<XoWj+56V3w_csU3B45OmR%jU44_i%SOXkD4bcPjJhbd<nYAe+
zvI^88BrzAf%O0r7$2|#)23%P%duk0Z1BhM=xFMnAmVMTA>)Nd4_6`x3Y*0|ij!md!
zO<XWTDi6`5qlun}2L1*)H)DW5M-!Qh{{f#^l5obr00YWUP_n?sI?n2iXGMH0v!VAC
ze5~k^hmRFK^6;^uhn>)`Vn)z$0`#j(^uJV4Z|qbMs<0z-5#_pGL@u+8Jhi|jqE4x{
z!>Fk8$hfq}{{mhcQKwNm6i2g5;27c*!iOWc$_<ynndmY&TqNp<7HMDn7Bz3-Z)7M}
z%NC*5m>CM0ZMgi?!VslahA1snzU2YNkiea$tMb_8A33Y2Gl>xZPNM<bS6~cofTgH`
z43;7_8k-QMPbnn@3L_s5LsELQ;3Rf)fks?#t!v*Ww*>+fJBFr03BXU-y;WqWx-+P7
zAHwC~BZy4{VIrbkv9BnoOG18tE1o3B3V{SE01~M%Pa&FuupB?MMUDo>i(H-}Rvh*y
zIZ}R`Z}C!~l5u~kT22AkBhA`wRGF4i_FTxlnq@d5S#Vi54s~v00XaAI4K90al&|Hw
zo*O_KjXhPm<*QdaWz<SYL8NR@OOb61J#1mU;mb!)vVJAxoWjS6aZ=EM<6U_OLG63!
z3|buGsDl=It_U|@NwYA&l$639j&!YZjny}NH4u1EjfaJd9^^$_JnZ=e<fXt}c?dp3
z)D?Bh&=bm2P<R-LeRA3Ao4c1fAiKs6$u{*pc0{$yw$wq{ro~MhwSwn!tKK;#r&QnI
zv6OmRhOAI)WnTRMvUUnwc#~8NmJD+D(VS^}yQJ@qpeYC<UxH^I_U4bsNsDRDIWmRo
z5)ez2DVw&oGe#<w%&<8brI^N5t&9UwRPDzu{tDz=iTGrMZf_PZInBEOWZKY<Fi6Xt
zlFNh&L57gKKpq##U>K!QY+E^-xY!e#EOrd?e1Cx8P*Wa0k2QpLx6Q5j3X(GvmxvF%
zhbYKR(bPZAHgWKR5t|sbjwyx96@gO|E{^*ZO8yy2<Pmw|IPg%>?WN$Nj7@SUDWnh$
z;b^hgT>n=nF~gv_M74;l6~tkg^8*jSH0Db(drAmLIu1CJYZKuR!Uu4FM~033sNp#g
zADh=DV3HfbrD5zIS=L9gRy)?YtP9u{`6bFnYs^_Qe+i)<qq|O($IIW06}(*!cG~3W
z0ugUVf@`wsx~H$XQt!6PyXGq2THPX4@8zq(qE)e0(EzN9D_`3j-F$NJ)<JMaJ+gJK
z)`H{4M^`L~zxrPBex<5RSv$0J1=#&cRUlnEOWumyiev(vj~tz=)g2oWu^X8xGG(oh
zr33rWz}E(WnDSI-YP$d&AAJ8{rt3(idSJN(d_zZpRx7KSAIUWJt@w7`I{aWnIB=0a
za1jRri(iC~p*w7$gSYQc&|eG1kL*D@P1M}30moNy{layjxu3_+-T(01Blocn!K+o(
zELPk*_v#a4p`U7T{0V5_xHu~RW+`@qQ{K%|P+v!J-#iXk!+?r$TR0{(^zjXSPrygQ
z(1BH`cWAd-B{e+6!W+T=QdPgOb8-KJ#^uUGge~+lY-r^pTjgp)=<Vb8j|&Yu`G%dV
z?o#5_%6d!LuR`!P@!lp>{$A_dR#d0B<Z)q9BkHtbuR}K?>8|^`g!*2-zV}llZ9vlR
z*#qkyoxMtgT-jOC3}ri`M5SPdNZ_JzCHdv#26&IY6@p?Ozl_xyxU+)SypV4qOb9-m
z&5tU}KcgQn-6{_5Ho}yqhn@0~TMF}Be6--jyj)2)fF_oW!3{*BRv<VzN9?{(ai!iD
zrPqyjY>`VL%Z2JqE#CA{F6lgVSIEbv>Jm{ESwTwD$ZpNjfFC(75AM`dm@n^zQ4_06
z2TIjcZm)^8(j<y2ITjI!iTh<>GE9eleETmj_q=>jV+Gn#I}v3)HSUP1K(YBT<vMTK
zkN^H>?8h$FQUxYb%lbw1BeiU#;DYYc)+sNZCaF~m11t9k&5GpylOT}i<?^vJ38x5a
zUfiF#M4TcF?@AqpxlQx&7t@dVGe+vckWGZCKxw4)NyKX1!a@@&%<~|G*L2C#ppl4%
zqoqYu;atWvg9Q?}rao{f#_pp{LTzqfx}Y@xY5jjedp|?KS;Z^h<D(GJU>p0_DCk$o
z7^mC_a>x}z*h56${W=94AcG(W?$^k6n~bl+2${Io$(PmtH^`Ua=kCCkE0rN42|$rB
zZ?vF^Oy43o@7Lj;uGT!Jw@X;JFB4#}3rz*q&8f3P|4e1JtYP*zyAZLHuj+&}e$~NS
zXV#jw2~B(Wrace#f6%hrbODqnTvoR0!$6~`1q;yvV92h<uB2}NjOfIabb?j0taaU}
zb5#F`?xq9=B!9=3Nkc4FwxS+-V;z-0(m|6AgzT}?SMOLZ>B`u<vi>&dwl%izxk~2t
z3!Wz4)3l5$%62?*wPpitP=P9VL%cU6cw2dI>*D8xwnKc|p=EFXL$GrXJiNwxkAGBH
zP*-x>fm+nHe@y&--g}fqopXS`RNpKF5Awl-4;>%eSPs6(n`>tsb2o^i+<e!(P`&K$
z_;ht^;k_+_cRTOhzIaAxJ;=8nT=s(dllLBZIK+FOkqZRPt9t%Q#?_QDH$5rV`77u5
z3zh9WSnbO?{;+!~CG?%*`%Vdc=lH&J%iZT6m7T|}pT#9vU)y`bvSxwh_G6j0XC88^
zWfk*1LS+YE*&$T+@|Dn0yffni8>_x_H!chXFDg<iouOU99q2r{Za@(#brXSruhUHZ
zeHegkH*$uuJK#j7&>@PX;O{^uzeIYiMRrb2Jl>aS)|1gqvy}E5!s7uASN@UZS-sJ@
zRtj!PvH-Lz^{*E(D>#L{>ns>Cfs?Z_-*^EA@FUA^W3$2v2|LmOcL^P{3tnh=ST7<k
z(2mO)CnQBi7M}7S+hCJ`9aLr*^-vype}7D$aXy-k=v?2xr4T^W8E})Ffg$LOZ#ctX
zq}l?_wgu7-cdnViqi80c$!PJGsjXY&3eLx<g`xNCTf`7Uw<_HlbpY{a1xnEtv&Ybu
zn1k9wFaZ7IE;}b`=Zv~yE*7q-e?gQpXK+JN%pGH?(JnVq7BiG$2~dh9Ij6E#ouM13
z8Lu%IMA-4@6bfTDMgI&f(6r<c%=h>bTwm9JMgJ8ObXLGad~Q9(atTdmfIl}sTCm`+
zm=ITk+6p~Yg<7gxfq67&QBHx4pjxu$7G0!6kg(+1f{{`wHRX}xVz+e5cJ+NrQ%i*m
z6{9S9euB|6rO*~f3ZNB4kC7{Q!#-n7DKHjtQ!qkm8Gu#`u=f`NbEYbHMV}*gg`E&~
zrFO6v%c)ZerXz}Zf4Sfj>#MX^)uJTB3}f5mT-7(%oNAL@+IhpbU5=r?-z&=NBc)$%
z>QtPXTq;_V7alSXZk&UZC5<Q5`!UVauNUO&Ou1E{tywQm!-;bJ34I-D-Ftc&_r|m)
z0f1331O&Tam67o+gj`QD><I!?3<7;8N%|xLuZha-a~8U<j^Q8j6w|Q}Ou-MR>XekY
ze}g=d)a5_HRc4-+th-WS?pbN?f7rC#euA$&nJue^bb=RGPGh%bYb03ASXoK#9x9s$
zz7Vbmf&(ujOOeg%64{2yh>|fu#^=cR5)6pr;hObJj0KD9AYZ~i<?M`wN*1#GP4a(+
z{Fwx%bR(=-e9o2>Wl9P0lC$8}b+Hd}CaHSIC|zx0=xPjnS(B-o8}B|Buc}RQURElu
z%n;@B=(Y<5b0jKmI)WH7*A;cXI2LM?ewVs|nv}<N^)i8Jhs5z=oiSauap_Y==Fe#u
zbjaeT8?Pr1wh2K(HweK2J~*)9dh#`2qj=vpZu)NQ6xAmY${;9d^<Se42jmL@KCA+F
zl63!^#1I7KfRc{;b*s_h{KoJ<>hJ;zV>jeoh-;{Uw>K<|KG^x7<zaJX*GZr;c0<^S
zT_E6}Z}>+0V#9mefzjxEL7#P0&5vd5p~aoT_Wk_!{U9=SGK@wmFdBCMR}Tobrbo7>
zRa^_;6R$FV=o9)c^8FWA{LcZ&a^gdO)3U#XY;1DnEF!LMG@4{2r49F9qo>5ZpaGUG
zxpNe4g7S@ndhWkP_X64ZI*rkLuy43M(<RP0rQAH#SK>FcDf|aCV6+@SpCfU)1$b9r
zp?ul3J!9U^+At{MNWAO{<wPtxN@D5KbR(H@qM?hNg2@evnUt+=1XavmWaOnvONA#_
zo;JJ=&RSeLU5qURj0u~ce56Pe3_Rn`bm42Fk|rqrp+yO#Gf*3u&6Ibw_g1V(*3Bi*
zvZl2$$_w3q?sM2YW{SYvQv~7~$Y7fogp4z$H%kn87mF$_)<BIUoq2~;<P|l1Ls5%x
zfoh^`F={=jOnF0Ks3arEd`2w5#zA!f!z#;8U|&W$jt*q<;gZ>{;!5GbO2I_xBkW=v
z(pSnED8V~qdz*|!GUyo2?WBNzfB{{luali7pIFEe+1@8ZDK2MZ3m0R_ND_96))4mO
zo%YmQa>dCh9rNhclH><S1GY^Z^Vo;i{K(b}G182y1;-|c0tOm{Ko2DLmOg`{+?)d(
zf47dWd73kx?u@+~W)_FRTE40u0(xcJ7f<5eh}q*GmR8OWkg8JojuPliJMf(Ye^YvL
z_UQMUw&N^EQhMce*dv-D6Noe8-CaP&`cCOl4R_U7zbLr2J#uYZ^+4FJ<H3u(`xsUT
z+D&l51c39Z0I_;3d~WIZawU|R`Ela9MpZV8xJLyNM8i~VqZ}OhpNH0GLC`t7aDc{U
z)1w6oV%jJ$nHnANkn};Zse+A`K4szr&RL=pUl8x#$rVjaiY(X0oM-szWQy_9Fdue-
zw&bbA7d?wvOerPvVuTL1KY}zw$gW(4xOd$kxjS~F6K*YnV%tfQ|7ZKnXAn!=QGXY<
zJQa&jN(hi3CZ?2<<Xw0yPMxQt*wI@_nzWcjxcQ|<aP8t<ko4V7KgfpSEDUvef}h=k
z5^NG#cY(F1YfPaAPh7!^B>DXfOSi%duniOSj_xwR)!!j>E<OP9!2lp+^CPbVGExgl
znUxhz4g*-OsRmXF2V=m1ZchKX=Oi>Tm?XiVXTr^4`Zr0fn+75{s<3z>PEEQ1E7%B9
zqlV&r2c&Kaq-~^+LfI_KiBz%KHrF33qXq0|1)@JG(9>kPQ{)^tVi720Iqz2QR3K$~
zavmu2m=fm{R5qE|x@`m7qynI;wV1JE%>~06)?KT-8tVaUjQ@#2mo}nRNwmn3cD#gv
zXDxGrT~KZt?o#{Y7HwI}_D^bSl6uUc)>XEtcVFi9#&bVIOHE+<bK(FX%@o$&qiC;o
zX=>kNbXeaP%<13sZ_zFaYf|fycYL!&%_)K<*(3M0+W+$SLF&w)iAq+~*6A@<-+U4E
zHDJ-P42F!@mxxP{1Q(bPLJb^>-&N6%w8JQVk~~O&`Q_|v(UMjg?q9=Gyl|nA`?q9&
zKnBtMr#+Im2jCrCRChfx!o{xr)R0I`woltYWNjChlO#ky#LL5&1PauFn}I#$qLI-k
zfN*ie0pH<wkz>ftwITPMn{JwmiYr(QY=+5PA@1$s{)ED;42VyX##_44fho|*nE}i*
zFYYL^VR?y^*-kidg<CWla)}%2pHd!l!`Sduxddg6%-KLI9>SVQx@mHb_{30DiIXdp
zswzd1)<|4!hN>!Yr7PR4ERwix+eANc#r_K_-N-^&C38jc^8A+wNz&<A+QH=)+sSiw
zs!K##C-dYn#C178u#8sZ50Tkxx*rx41)=A&2AaOhDhb`!$yatRS9UG?x@T>x!N%Wh
zgsuzP<NNqP-*R9#khQDz+jx8J?7&=G*3|%}Js?os{xz3}vHx9PaY2mU{|~*Vz#KSd
zoj<kc&w6Sg)!^Bd^;WHUa9ab9V<D_y^MfSt!l|W-<+6Qq2D&za*a6E{JfX$tgYA6#
zQN;QXVj4Y5-WAVImbz^I6)~f%zaAO+LvzL~;gY-gK=+*E`@k>8Xxm?L@BhBLbUmco
zd0PLtRTt=;dnSA2B=0>mcXGkD_?ZW05T+L!NSlTqjG?vn_TAmLXj=+{MmjeDy6s|W
z>EcS+9s~lIz#U|`UTop=ioboS;oEKRw>>Oc={k-(xE8MR6+0+{s%CUTRomRrY(q$-
z(9WItzPB#xuZG$Z>~7h*5Of0k$Yv__edL5z+4VNmXuXS+dq6f~;f0m5wxxy#SE0`J
z`~JYHQal`L)~gNMk>C8QE1gFH>NNW1&U^&qWpJT!v3kYZmxXc!b{+hD^l$9->#yo{
z4cpgoi-)^fhIzOaj5Zj9KP8rxV-P3<G>ICJGtkW?To`$9pCyAnGLCju?yty}B|{Sz
z``=Iq8UF^clR2aSE_SUS;`H^#(8BaOy&iP`h+gX_^?GCLVkzAgwhn3g)(4H>ZT(K`
zW3qzCu<wvQ+qUB)TaB?=;gN(LBP1bSi^yfxfxbV$*X&xikW-d7XHqrmly=>&v%21@
zx>fbqL9Ro33*_<#7E2eCOGh4f9t>wX`uWgdzTt={kncOAH&!nkUwm$<`+@Ph_V3s;
z-2;5vQNH2Wx{iWA=>8!2SG#`9><mz0jU7fim4^;s^gM2YaYq-^h4oQg82T6)GbW_i
zqXx*68-dd_fE800Hr_OZigJEB*bhQC(wWg4sVOdYcH}5q1(P{1(*$+pW^xpqGZHkG
z%vF#tyZ0b6xhYKIqNL%HAKJvo{rF`J4LkG7A$jjK(^D!5d6Ot4;))OBWt1I6-`2dN
zV;V;~q*BV&hK99pq5vT-0d&Z}E2B`0A2Ou?C-O#^B*02DF5RS&Hso<w>furjov52U
zPD;B_dxMGz#RjWj^wcO?lx7)3)a%}i8o;R~QaGI4-_f_Q3PTi4#J!mLBgi1`oH4;L
z*zDNXO7R(C?<5N3091jApNwl{yappzJT=MG(@EP7_6g}G3RaF-;vZ6pg^7t6yMsbK
z`Q-vq;?46VBI{zC-o4c%Z2zRBS7?X%4O9^XLMxNQYUiQMsq6G3*XfM;bjEc$+rVzM
ztjlg2AS_dJwsH4^0b$=o9>2zm4Dpo3^@QQuVWG5XrL<}GD5-sFycfC~T4~((J=gv$
zIPJk&K3ACSI5Ahaf=ez!`{~`3-PSH_8{oGMkgGZC_K0eT+IV-{_uL&HIdndeEVJPp
zsC*G&fYo%Az|2MU#fQ1jjp74z#}+eQYYt&9|1#!sfqF+ox<I`%L7uk&z`Yw{*yYlc
z7|-R0f4Z-M+l$*{G>{#v{?hS5E{EQlNDj>$w4|xz;}n2V{p<QS(<w!=NxiM(OL`z=
z=xo6re03VNkn_O^D1bc4K1Gz4&>1|Bil840NEzn65JRCSfG4{lFG#W?hJw^Vj26up
zDyOwxlk-*=QCf*S2$J0NpcJLO;Mz0{PPYwC1QfKbbZhd+#1yVP8y#m{0&ESC(BbV2
ziWXt(ikwsW&?O)bx06l8MErD;TchPdT{w=Q9t`oXE+IJ+j`;wB#kIqJehSyuBw|N7
zZi3@}lU4~QZ6a!xB6?gZlHDMUYmF%if#v{u#gHU7Nk#oV70;F@TH?gjimiBYgo?>H
zFdXD1W6Ky}?s3F;og&#{H--{W_(N6TXxS1867ronB>?YP?HFjxK>q3NTdq(~N4`mG
z(vMIOP^>ipT45^JD(K!?7o=5z^wwByey?W5)d_HxEj=rBJ6BwNe|$0vW;uxRtW<UZ
zg}t8;PPGm9M(>W!*(5Dzg1d=#H$fB7&HFcn=3RXAt`+z0HCF}i3a<Ksnfmj~z6%-m
zh4oUbL{BPowLyp?b=>b*uIXZx%GL$xU6T#g)4MiX-!9Z2;_Dd$Um)AiAv6F$IZR<#
zJ$r?1gZws#snQxs=zS8V71I$Ge}Heq`uaU{kU=Nl4%q|&GH~u6Xv9c4ANM=x9ubat
zgKU3Geq>yxz6-$%l=K3Zv2(4aZrzAC8s7+2L}W9AZ2s5++v8xl@u*(Rh0+cqnexcU
zjK}|kkbKIwh`b^E+T{X5zJ?2l_6J&c5w!f6V@8P<ZUHUa1bsb4T8N3LP1_$dW75}S
zVYKkdEmJ$SQ-ekgYBr;VySIoTh8D+cBi3jM=-&1iglVE4)Q9ra;8)W273tlmt@jOu
z=PB&Y%gY%njunfskh5Y}(v{|=D~bBHsO=WLB(@Qym!YpbQGd*fGK|`J<Wc5rvC<g3
zHvlQik<y1&m$8&a)DYuF%OCxNa$JFMKcn220}WA?^D67$u?g<T&{T3Le)<fSgNHQl
z{)~)&Lk2@H5J~~Kb0*rza0~=qh}6PUWFuOpvZd3uLa0{;<nDxvM1`<G!)x=SwFS{#
zwOF{7%}F~YVkns*h6Vu1#ELXfz@Uv7v;beO2&{E_8Gs~qH!TVX%2morDVriO34E;%
zBDzwYunp5Tso)_&t<XjA8H-Pz2$5dhs3BOYFiC=%BDEjs6mUc(`vc6@BKsF=P4^8Y
zC|6FX*GQoR1(Z+K%XQQ)ArCw#QDSO}Kx<uhfRfZrUpGce+NMYCKWx{g!MtlUp^BR0
zz&jVe8HfU$4vbHv0?Db#$q9~bPKx1P%>e2AB}6*gjK7K*n=6Wosz%sM4V8+l`m`j9
zQWD>UE$2=SUx`Jhpz2Om&r%v2AG(B{P|TL85~gg=QM#AO7$W0KWUwRlak8;O+sXEO
zC|Q(T_#xRE;g@sMfde!`VEdpDJBdC2_bH5){ZNsJ_foziF=wh9_n0F65^PCgSP(Hz
z`4niCQ84clR_M_GlJ<>%LPD?uWQ(hW;t*dP5{kR|;%*S1E1PJe@&nBwRP{hX9l6T$
zga+0sn}o_fzOpZaNS<23)BDKN3o4Jrnzi=>4`Q)qT)o(WAX}iO|IqA^#S~=qB7siI
zxq7v<9(beoPCxKHEL(0pf!$lWiX4)aO^ifc&D*OLe)?5U?Sg61vh3*s9ZI_9+^VbV
zTrvrr{d{Nta)9l@)g*z7`_TpaPTszgWCk27=2o0~EDph33x>b%nd`*OkkRSBg3j1L
z#GoaL{vYpxvDH~zi;SU?U}c(gfj9*i^5&Zuw|t5;L+RwH>CGRlO|<C0pg|+BmeHc$
zn!YtHDUA&+yLvL_9@ZL>9?hu~M`AI3it=ouhS8MVny`*zIVjDtFcwiW<mTvEbL7d%
zdhd%g8#k88NS%3;GmuButkT+FWG2?XqGmR*W<r((cs}c0%&XG5o0;Iw2M$axx~~af
zO&%7F7O4$`hb+Xw`yy+jN_o=SRj`^<{7sM6zJZt;yN1?|A+OO=pK-K$0efCJ98a<Z
zCVvX#>WDa(z@3;-GR>5lM~NE<DEWzmwD3&t)a<cOOeauZ_MmLg_;B7239bR&HITJK
z@hGu<2zH>1w=JF$S_k-6=*fAWZ+#veOcXwR#B4ro=vLaa*f((q<Gt0!4Ji=K`$x4p
z85??mR!48OL36%OKLq2r6$kuq%2`$G#0{z1LM@0DzRD)1&I|Y|M4t`5KGh}L5LW{)
zl{U%>*#Ku1i0Z+hupx?6>JF6iiu@ythJx!BaDl-nZm9bsiu8yK+8w$7j*Pz~<1fhg
zfQ-K)<9~vI1I2%$Pm=8%EcamwijnaEMv?#(anlfq6i-b-#w7o9Ou?tpt<e;u(+yBg
zW*v5pieA2=7aG33wIWlu;N8i4cS7fONu5x#lP}phTZFyCT`9QQ9=Y1Ea6A0sJQeKy
zkL>+x#U<b<w-j%f&mJrgVkBmPcHCBG3GsHi$4#(r=k43`g1nDiW}4+@X_m9aYQt1V
zt;MOn2bL{YNliovHUJ4ilUK|F?ng8lwCMv>ejPcAt0P5|kI_!?o(<p)7(6gtuldDq
zjP#Gxx5V(t`qqtGUK@B<1MZW4>HbSg`<Go%w%#x9aes=UwcB?H$@3X3=&HxddQ~tA
zpL4+{ZF9J*nEP{ToF2CTTpcA22?D!fNwoGb@@JF?37x=ERlv4K1Uha5CV|DuV_eAJ
z3iHWiq+%f1%v!w)l~r~(SQ+PAAjwx^oi)+M;1gUy9O@VP^7yorBM8#zsNdN-wiA}0
zWpAftoE~*x*U%b~?()0v&*REqp3}{mqxdv4Mj;TLNkVGn?d`1~;Vm;&`{EcfTG3Ow
znthWZITY9_K&lEobW2YCJQ~tBsP2rAWE%!UWD*GGD-%(Xp7aN(3-?osz)%tYnQZ@s
z4C=Q$^3wOokI|hp2~F!1Ovcw~&`9<bgr*;s7@!Bts;g*R7|r-QKXMe+m@<Zn^%C7-
z{eb?5x*B7UXi#_&4GJ&NgY?E;l?K(T(x7_tXi)Y%8WikUMPwQjx$<aG<lIDqA}@%i
zls|Tmtx9JqUN0~it!t$~sNjvftghLqw_dsR%KTAck;=H5c}vR=ixBo0>ZirnfLF-o
zF<P?~P3whtuUVY4Q*#&Q>*rp)_3DBVcUE>UT)FScxH@=C=MRmDA*F_GeVf5}Sg%Ml
zkb@OVWU+YzZ>f4*#Qf|=W9t^QFNBDsug5xA*PVJ}hb9&6$DrPIh_i}~kk)M=lGYER
zk&E1!n4-!<`v?1iUWO%q`H;Vmt?rdfGrR+1j>*qY$~a9_D*&G0o5p;hN3XkC5GtJh
zrj>T9BaqpeNZ^Lsz{mv0aI$oXM&2E`d3P0ww-TL&Kz!iJ(0CM|hLm9Z`b2z+-Db2s
zpxn%nmj}?8DKYU0;@<2K#j)}(&`kz_W|cCH1`rHkS&}0gO`>LEN(k6%bSdt17w^_7
z9-jbUmzW&IQBvYxCJpESsWnn@CM;K6KYd8AqeGqssht!=MiDI{dl3iFo?q9zXSr$b
zYiF~z3c=RO+gcaHylvNO16hMvF!*?bFI!TXwc6<Ct6#V1jAcK<oH2<&-{zrVLro)c
z2bWNV3Z|QmfzdiJN?73pPTu0>P;5*lxZx}9Qrp@G8R8POudSN3nf6uo^!2)t5fsH)
z(FfJkJUZ=Sw{z=^qMAR}aA+tknwS)MHpntEH9nlPC+OBHtcWDMoU>3i5vp;{GWgt?
z$nm570~grEO1Sz5moF!;OvJ&{a`^NqF=*I^g5-zntP6e<eULxfwT=@iRpsN49qRpF
zpAb)BPn&Vf*rAimk+zbgZeA)HnN1IF3{&p8o<<n%D8+53lrCMwOuP7|u(XrKz-`^>
zqO0iW8FyaZ3Q9{Y0ADCek#>V;lJ-(OGsT~frZDYdW#y+S`GhnEjWnK5NMqEfn>Sse
z#rT&Js}5812!}6<p0xMpPs{qXG_S@A!cNSa<!?@xvJtUdtzg;&&C{4~d1;(#T-g@Q
zW2V$Rzest?NI9y9Vy8J!sxYnj@=8*WeR4U7S^V?2UM|t5OZ%vWGi7;YX`Qch(s-9?
zl?ke(#_3B-xw>2~o1gUE;?d{#sMg8MqgCdon;~*}GyYF#pI&O8U#l#fZ2wv916mXe
z?({i|w8=k)4FI`;ZdSt?lh9Z>E3k~0!6rxidnWM9{lAS}T})fa6~5Q_=lTyD3>Xu#
zn1oGm0B<0H?WUUm2?0Aln+C1Ypr&;V#y~=1a%~{p5Y;>ds}I;xB^$L8Agu(EB88P!
zYEo6&RDJ07saU3pbrow<b*rjxr0bOSt>2k3fnB*IR&+9dXJ)u}?wK=Z&d;q8L~|qF
zni(!Dx**b#V{M9NdURMGhH-OfL@B|2qN2gZi%{pp6)FZqG$X1H$20OQJ`$IM#mrKS
zEFKo$F6F<{JpN1IKLoxaL>;2N`N&?{f?4vQc2-K20U&&cZ;$}=1;>1Wf(z$RFo@{u
z!JurTCi=ng8@_HjASoJ3`uTr@ibOfmQ)JQSp=KBgMkdB5!@fJb#fV~IEhvl^pI?}6
zKEP2F|M4@i{kw743X%HcCQRli)^qr``0KIP)(VyO<i*6rrTR=o!>5BQH<xd&b!QHB
z{7&_S`HA_dKl44$+|ZmYdL|1a=YiPIKP_KzEIU?PSI08-q;nnhWDVxHF4mHAr40wc
zBYKxZX+!&CDQ)NilF=3)OB?H=J<qM>NnJvh(kw}7*w{oitjD9?=cdy6zF1$pJ5`eC
zTWZ)a9gdzYT4pJmpN>t(r<bbJcGsGE!_pr0ypYWEQcU_~d9o%^laXpucNXt1+<n;g
z=){8)nYxa&)Di7|US>;HC#tiOY3_DRihI-2{v~m#XIXl9`cdzL-nG`x<=;$wHuX60
z^zxI@%=>-mV||%sPrA<YWj$m`<=W^usF#;o=dZ-B#J$N2i3|AiYnE#=70nrQ%etv$
z&5$;oz?{|E`<_|P+~v3}_QUvaax^iTy1h8PF#W8qHC@-5scL&%@fY=}udAw)*Av&5
zDp#tPs~;YCbmYO2OnrN%sv~--&_h<T#fQ?8Bh~qAA33jHz46T5nRa(RbDvAQ&t>+V
zU+=&2?-Esk)!_@3mglzue-O=OJAOZ2@&A)_G2;?aFc--W?~L>Ye<e^v-`*{QCHM3@
z#y7=;iWDVvMi+U#`xe`wKrxE!C%7QO+N9q-!`qBeTo(nUd-rYJWtgL<uL+9S#%=x`
ze(!YTu@3jfB6x&CPq_L*8}f<a(tPr@fxf+7M8ga?cd_lxP|!Kz1j7#B3=u!$^ZUTX
z1)M#@<H&zBT;R<|oF|<v<T%022!fkYu0|K>EjPNHN1VOxZ6eU<->!5vIT=PE!nK*%
z40aJMbUElQ_)=|jvD%L>^;~k^^#2TwA}~`Yh~N%;iyRIROo^Fu{}FjCf*`3po+m?R
zl=z<{Gv={1Mef)h{&Xh7FcbO(ReS)TsD}b$Q{0^X1r^$fF8+a1>>y4Q2MX3ji0Td*
z1*!8#hDNyu*>{Lusz+ofXV+r|%lnZJ(`%rIzWw78`IA&n;A0|bD`*4$x>l%mB&QS8
zX>~>P?A!<0QcD!RO3UK!|GJkM2<g{aGqvsO#tu*=&=6zH2*<3Gsj-KXkM2FV_w@1~
zum1k(hV&7rN4Y)OlxRx%mnv8FkITNWKe2yV_UGz9Rd1B{N6$Z3!{R8duFpz(e70H1
z%o0dj*uOFmovZ{1;h^o6!>rL_VkYz4jk#0nY6m;2xZtUf{Wd!biQ`?asG{@v0-+(F
zPq7SzAVM9Y^Iq8P9~@%x3m6_kGd&UtK^jlIGxztQ9Ui+Cnt-=(Dxq_RQq6*b;#`9x
zFtE|f6g%pKWqPHEAv!*OlR_kL#~s|qKj|*YbYM{Sv1)!6VrXviYbN`#h{7_x3&mJy
zaVt1B!eeC--Qlsah!>MdRZ6k4RsmA=9UCN79hrD1neI!OnVL*;BNkjirrRN<g0;u2
zvCIN=fxu#U63@d=pL|s8q9btd36@h(4loR+-vsR;M61LUw-ud&<9;_i6%sSD@S{q@
zUajeSW{N`0sHy2~n&P;~9sucM?AbXxDw9t)xsE1tmlm#*km~mshC85>>j~okfrA7Z
z2yL&~aVhMsTiJIB!?nji>;eZ%46g|*MLtCBTi)27U;9vCQ@Kq(OgPPNi31r1mTx0a
z*oA=7_C`FsM)wfY=AczE)f(VIXPao$!+T)gp7cW{?Gv_!Sv0pjpWKdN$#5V*x8p6;
z|FJ##=eFUbKE`f4*tI9aq#H_RE?)dW@&(H!$?k%w27f9?39*&NExK44V%U8fy4-DS
zv9?irIwUF1V)HDt=Y1ceW{zUbc>Qsz=cEC9LxiYDSZ=36Geg=AdCUw(l{!|oo6h)H
zH-(QP%p52yWrbF>zwmm-&-1;bidAwfwm}tIoWPj!3IUP{A%ZgqfsF7j@H23dN>35!
zB+x~m8$i+Uzu`0$oFULd;4Fb&0(}HL1n5eK#Q2PgFcXAdQHk#Sl`|A)ThU%*0%@5k
zNiPz{kLi0Qp9fqwf^^WBXqfwxVNxs-^C%_P$0CXzD-?bo?@Y*y-BvVggJ=8HceLRY
z=|j99$i7d>KLR>>#RWTfH#o!*MVMoVhyE@!<b>M42`0dtP>~aw{vmkNf;T6e+)`;p
z)hhvDt5gRd5U>j3SurOZ+)|aGQWC^2<h-v`D&)}LsV$X8R6)XutVs|(sO-!MS6S;V
zsesal(ynh8T|`k&PUyh+IiV#deE%z<F(-V8!Y%dAEF_u*z)J=y1Vd%~YDWJ~RQtkU
ziEAj*Uut-9d|@2k%F~9Xs4lOa5XIxEK~i<h3zW_WOMa>o`^8lM;=sbdsy;8UY`)hr
zDT+r^<%^C5M_!<Gexl@pN<5r8z35%=<^@V`{zNUP?0J=6CGL;+CkGM(-w2e3m|A7u
zWW{-prU?&dz3#odK#BY{F(iubWx>FEXT4c<SypY$s!Ox#+N|1?H&fkapu{F>vzCha
znb-^j<D&M3&UAlf7BLKwhLl?}vz(4{J3f0TXCMziMoO6kt>GIprJ5zt__{NsUw4M|
zuFfd8(;4M>XO!ZdA@#CK5Nom~C*r)~267!2N~Q0<(&ODi#;B6+*UZ*zs+<_pDp<?e
z?8_)uE*Q=8&9UZ98|5mt>nbT%RmlCzjvPHV6Yt>%qF}3nA@)miJw`NISwzMXq+d@T
z>0Q&O99(PJ=C8%BZR#m!5RBGMBc)6N45_FeTz_bdbM4eus*-%-uOk$%=1|^(I>sRV
E51*B8AOHXW

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_next_mtp.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_next_mtp.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68bbe510bcbd725d2508880ed477a87cc0212ca6
GIT binary patch
literal 11917
zcmb_CTW}lKb$5ZqdqI!{A0P>m;7bxj5u`*tW4%S{O<IW*$3gAF5OzU<!b`hLS!BUf
z)2KCR%VVk?M^xjCkaXJ6V|B`YRr$!o)Bd>AAFjy+@K)+@CeBR#(^4iqcJkAna~BIh
zDySr#K-As)IQQIp?&Cb~zd4<D0>3!>R_tH=g!~c<`p;U(tp7Db$X&vdAmJI_5N8sG
zpn<`>F>VYR;mgL22{y>mI#b+~FbB;vZ;o3M)}WQ<Epc1I9<<ZEHSS1oL5}8aac80`
zSVi;pxGPZ|tfqNKye3f_tfhG_?oQMN>k{?BdRlhI8xoDdMw+jRdlF5-rbKhFInfeq
zp>?jfH_;kwrTOZ3TcSPK4*43sHttJw1UqQn9q&wZ1-la6!R|y)uqUx4xP>7GB5=ai
z4}f0$1-A))!8m?NE0w2}YomrH?A0rn4dfKz>uwRgUSP*xF7K)3KQI=)g{EL%p-%(!
zX{_8w=nz^yFg?>RFlqFArn=4~qk<?TBSK#)8K3lh{dFNZI4azbeIu7H_!22zhzCBy
zo_<EPo{<GHd^s+RLcx$sLRv3Pq|+%;4#_DoawQZ=CDO6D01ft+;_<|ZR5BVHgAz9;
z$f0yPG$y7d(olB9k})|HPmPTUA{4DBCnSL%Nex53?nEj+kw{($i{W@&h@X!og)qXn
z&Zov=vUEXAMFdGoiGG7xRRkJ2ErfZs;iXh0d|9s?PFxmvK9<Ds>v<s>o`}n#*M->F
z6&yLt!^lRpzDVzo5CLMv^WjNBRI7{C-x#?#ni3PL2WxO$Mq)SQ2~l`4I(#E7h_VFO
z-Di@pFbRQ=g=OKAkc8P`wX29kTZhl^Y(TyJqPAwzg$sUGtvNO!r@lp}C7q|!QX69u
zE><EYNih9T8kQm<zzFKrMEI%@5)x^7G88KtGbC$+hN9sJY{aC>CBl=Jg-}`)qOlth
zZR54nRVb_<gxS0ScT*ri2JWW;@8^4PF9jpd3T%{}AyI}m-Kq+jc(Y(0uPR5P<#|ix
z`Y6j=Z?QqEjo?4NcGLd$%KdrACiR?P<84zGLU`vU5L#=MVBd6ZRlMt#Dd^y<;kG&j
zwlW^=HsXy0JXHdVIiRWrsB+Da8%(hJBJsObZ*hZ1;B3V%rLGFe3nCl?+ys@p&!}c?
z2UN#(xD9YS@H&WXfGtws6TmhIK|YGNdi`Zc-(}ul-Z0!HGE`{4S#yTG4Y&7$LYX16
z%s8vJmcG+Qs5h6&dTyG{7{_&vtXIN!+LSS6NT|RU2+5enxw7U$79ff^0iwb=0Ei-X
z*{x&9nD9jD+zMc*w7^!mu?Rydj%XV9=n$pv2e?x3158dW2bfy*T!xGn@#}SjRKmj>
zr-0($1D@qgyeY%Z8op0>^A8LUEFZuL#2?H=zfDB;(JDyBJM~=YJKj^u>$w@j3==iL
zO|i;b^*WeUot`g!b(u0$JOO$Q%%BJ__v$@(8*d*oz+OFn6&rMTxnIv!?gO<0Iz;LF
zz)`j%ctPmz4}h!r4~VNp$2Cd(+^FhFP9#D}VB$$+jd)K(apd=sh|BmHp0G<Nr;LGU
z#BWlaV`2G<Acj&Ca(Y5m*~_u8q&h?axPLN43*5Dda8j;#t#Mqu6oc@8eF&0w4d)00
z>^4JQh2uZX$T|ZcvqqlK!^LEn?~@-G9~3Xm_n5m3LvA;*WYYNe#@88;7FE%ScsvxA
zf#J)sRC3B1&<F^CIJDDjNS*|_gggeMw1@{3x)}lksxijjp!H%qR7%J|e7>7Ee{-Q<
zPNe(Ov2>pt7C}z;-I&;SVE@&9LVrAVxj#KAUr8nVk$?45Z6GAv5F#M5M6D?GUqg+7
zu4*VDrvvFp)pl@9fK^V5ho|;Gk3|MTAjLor2n7ztL2}2X!+~PYb2!HrAo=P)$yYbY
z8nJA*KjDaH*PL;~L7biW>Xv*<Z@$?#@5y==x)$n}8vDPru+FMA0?89QK>nK2_}x|?
zqdKp|cwR_`BpD>Mq*_Hmit!WSI7nloke2*j)dY$RNLZ^rB@m&g`{<jy1!kh!u0#uE
z)vWPy)qWjSj*t|a64V+zU4?<PT~XbzA~+~0NZRJW9;g;rWY|Gbt-=lnp+Sqt*Hni-
zRYb`NsKkJB1(HP)k;AEmXhbzpZA-*0RP7@vej+ZMk4ds>62r+cK{Xff;r&<Je~Zo_
zRwEQACZtdj6rB((hst73t%W-hibk|*ZB}Z1c^#b`)vzooD+%!^Jz3fr!-Fs4s)>6L
zzbzDs#KV#l3Q5R4eXqUdgTp88K!9D4O!fRu2c-`{r6gRP-`pgRtj<}BV)d+8n^zk<
zbB+B<WB&}7FJ)Id1G&!qO6UF=^J;^4hP~}rZT97wdzI#1D7aR;{JE|dl&%+M*cGeq
zQCm+ox)eD5QO9!Id8}#q)VnLsRloD%?2CD>HpjIoT-&<I*lNedrVTrBZ^h<wv*&VL
zm%?>r!wUCwO}@D;U(=BHwC0<7@(td(m*+3e9o}$R-GJh@WuuNXdhcGjb0yc{R~q~q
zc)&N{fVa+H%C!zCtph8KJJ+31xlSyN*u$|=O9sBh<elF6@g>f`us7FxNa;PaZZr(g
zIqlf6lKP(POSztXO3%KBFXawhP!3&Ksrx$gwLR(tVhU7bPv*M!Dc$=vjD{}Svwg!%
zw(PCcz6IKUZtYx$WrsbCC4mu!V!Wi9H8vP2$YgA$8VuE9x}kuKZoJ6iXgf_Zj4rz_
zf_{V?>LAp=ZxBzxM?4FOggAXZdNfp*cK(Y4PwjZ_F?k01HAIIB$xV`XxpOX`;__vi
zmR-F|)?V=p)Q_sRbV`aLCzZqiRH${8)N0j9Cm@054YyHJol;tez_k|AuoyQY1$6+r
z6N1VVU4&X71C+Sp66ng?c=?jiE<pEpGp3t0uwX@1tk3|T(t?4yW~`*%@eE2|5Yk08
zt<+m<ySfdR^(^@_2F9?JTJ>DUq;Cq0LB<_=ed(Jq79ossQT?i@48knOz?c9jR-km+
z2smp>xb$2(PM%C#l2sY@rZ!8KHzG~YljW)MJ#EQ=5<Fh3_bq*=fa+<h0gqcz6)Lr6
ztaNP*8Dqxsz@#gqufWWvjnkG2yHiw(N;sq{xv1VC9^U+(L0^rFIBrqNDD^=&o&LgT
zwu}*s2FvJY{{ugiJA5ob&zy+rm)|H}fKOS4p)6k|;u(WuD21XiQIbQz=dX${Vx394
z5(dF_5<3rLau{okk+3Wt!s6F3Ifiu{^ad7O=!{D#4ng9#m+oHK9KMe2-@xP|COAj6
zIx-=Gt3WOueU%AGD3pMg7k=8cwM0|m>tT_f>VEEZEkH#8gVX~z<t70Z$9dj5oO5jb
z*s(S5@-Df$^S<t!Z@1#xz4+~A-;p_I-tEh|w<zu{Sy6FsUr6Kv$CSXa4?C5>@W<}q
zC2n}hJ)HOYa^Ag)ckkl#vUhl9gq8;t@8IIdviJDR$RlsZ{WJH@WTzJsOIwCM>Rj=T
zP@wy#?w!g4$Sx=~w#=Shb#GmA4=!<okmkJui|vZ{7&i4ToK+h4&759s*|xAd*Lzrj
zzm~&GR!_e3NVfaOy+7<-3LI8CkK`NL^UYiH^{pEgw#%+q+h?3}H-O1kd*Av_&b9qx
z*Y-#5E&0y=hc7GDCxMaIf%akm6~;=uzWWF69mu}AczU_z5C}Qwcn#OX>ZOcJwP=nE
z=_wA3SDP}QqmbSuW8i1|5i@Nl9rH@ehd1zG@xw7@q4zVtN-PDgQ2}z=C>NOt^sm4+
zbf%|Ymua@dJoGkTIm{55V_rQ$2)!!iX}Dq;^K~LJx4DdAh`btw7NBU_I&GV_XKc{M
zU>grifkM?}%;Tu&KJx=et9}Wm0b?a5#9Q^bi6&q%EX91F%!&oJqvL=vPZnX$W!Q|F
zGAT#KQHk|TbHJ3ij3Z;o*mcIk5QZdw%94x`sFHvpXU6#otR|(bs*E<*??Tb0vkd$;
zS|wbu3M`qoRalL0{vMQ?Gxki?1H0~Pr1TC0y_H8Rtv&1xU3<eEbKATLUD#GvnoF4%
z!NEJ^qOGg1b!q+e{bNu_R$|s>ooWWo;q8+!UlXuuZq#oA525wi)$3p_rp8tCHSNn>
z18)5q95&T_wNP`lSW|#yu0vN2EJz_Vk=B50w1k*Ml#I}03~^Wr?bHMnuV9spPrZ&7
zDnP~%l2zT2t7$n@L=Z}XL$FX;gw-l*C}aVrR^>o51I#h>R!+Ia6qqBEsLBLl$?Ku0
zC|sLzB;x6S4q*yV<JLrNTrexGAYnuvG#%BZfne78v?H}jL{6YKYqka*N^@IEp+q>H
z1}`Qx1H>dkv1oX!)kp(ha&AhhQ4(a;A`0nvI3lQ4A<0Xx$K)#_x{E{+lLMHb2TC=D
zdEW2RB-bBfMFUt_k*hkw;;?FcVb0WvTB>#w%5*AD>JBc<1+5=kUA<BxRJGF%g#|4T
zk8oldM>o+{I!V={Q+y3tB;-rFaC}NeayV$gA1zJ!pDQTKL1z)`e^Y7sxxvzDU$VAs
zG>{H|&UZrboyhxo@vm)b-s8RRxaY`u`V~+AhRxIgfUO%<q_JgwcdlhXX&G2<*|pp-
zIOBNK+4DC&GtNg{+ZC>TW@xT2@9JJ)71xe@wda?6&MDP9=j`+67Cd=(Tb2iro3Hb(
zx_#Lp#k~!)jV*UGcQV;?i_Oc82j|#TcjMhdcMfG6SKR&u{$VeOWq|q=B=zpax)t|c
zDCFIZ^M9ft%6qy1k;gx0%KLh9zCpz|IOqJNx^-Sa(YI24=#%RDwXJ0Dd1ie(@$H#A
zl|OM-sXID%HtSgU_CqTedkfu4V<7MG<y+eCAG~*P!Lb-zZaF$P^l4*YL0-JH()cxK
zTr-oV*89$T&g|HVC$QN4PksN`_n~EF*J&`(vR9Snoru7@6{z<1%?;<f{hEO^H}Xkc
z2ik9*9$3zNhd<xh`-Q_?-|(c0)Hkp7!Hm{+5s&xo^quMKw^kba7P}u_Rd${E#N&HZ
z93Bd*MbwYFdja44pRNoHgShW$m>YRwCiR`!o`u$xx_x=BDaW-cT<bjl3$ANzk|Eu_
zYf}uVZq?<!-#9v|agQ2wRp0>(g;aYe1kMU@0zjS%g}^Hn*IGn03E*DIA~mu#-O#K>
zD5&}<q8bREp`<Ln3ONzA2k<UTq~n5k9V>2Og|lG1M+ERah2Cex(@-m+X>(Mw;E}0{
znDk=9FCh8q7Fj)Z;&ZaoWY12m;pgGt7x-C=GK^`*Lj6B@-}kN&$Uf}(*^Zy=SjX&I
zH92^c$@lHdx3)cTb(>mO-JZJ#?;Kn+K_2$7u8Ec`Sh9kpj0bPch9x^`-?ccTwC!JW
zU=ht|dMbIPar>GRtEz~nWest{Aa>U~-dXQ@4VKO`-(XCw+0zT(TpWC8`Wg2VZfS5x
z=^IwMPp%Pc`e^VY>0kGMN%K_qqJ&0(#^O&mh}L1Ro{Fhx8W?I=U=p$K86e^b(G-ZX
zSOkcX2&O`m#RgFpGjA6x<LHZd<_FP`iuDkW;2<7hqcIlGroF2w_vT%j)K^37#7Sc;
zHJd<at+j$9%JFW9rEn1AY1$NDo#5Pz0&SeAnXd;dReXcs5~>AL<x$HbG7h0eFrnrJ
zE6@llP)j2+Zjji`Dpz8omo9*W4Fi~ndnF2(pfnZ7A@Lii0H+dI^kOYW5=!o?r@}Mn
z$Hj}W{$H@Y?=s-pU=YW%ze>tASg>Gohl(~o^u#Oq%nt%IY^4B=XgLciysjvN_0CiZ
zasd9K-#{(~aAv`he;bI>dxP==c6h}=4I|g<6UrDMWK)>!1EZdUehwX?+!h`$y6W{-
z@Ix5KaXp{;Jv9QW<1Ja_FhWs*mpk;%fUCj?y0Qj+iYhFa9~CV3@opVc=?lG(=g}YZ
z+N$SE-_nXf(7-%8wYU6C`3fd5M9TS;Ao-Fh*;fdG`?Oe}FA|Pi0fk33f@c@b89Ljk
zOH{Q$2=EHTsp(ns*NKDJvKteGQ90}==nm$3A&HT8&;l`p8!8~xJgPgf&n`^Rw@Ueu
zh!;XNQJ=Mlhd|tm$qShLB__CmYBfaMA%>2sr4~dNk7IQ$C|)2zU@$$>EcwlvZdIJU
zHq>7sD$4!w7*l<w+=*L?ro-cbqIdr@0F@p=@)h{uYP`7`zf$AR)eI^%gEQuQ%NBH~
zddmE^d3Srxz2{^19x#S&_B=NPqS9txa_s@8-?}a5-K}_cQzz`FB@Zz8SJ6fKs2)Ul
z*Msv98$PUG-f;>%oDJwYwS#NavxPc1QM?vCosZn@S@VKz*}V%4bPqyu;MnaLSTyGb
zjwu7jmVL)@pw?Az^q!qPo8$H>+}<@Ku{l?)J3t`WoH=VdnDsxmc4(pj9hl-dNS?CG
zk$F%CvL7<kGYa2lf8z-8%&+A9yGX<lXoU0hE_^iEJqo#UZz-*vDho=(9z5d_g?BbY
zLVcQgMBka3oyxiVip#&?Uv}+YvhLQrqLti0VC#TKXH1He^Dp#D;lWxTfMj!*ZwCEu
zEO;3Ud<wWC_`)=T7)p@e@>`rx_h0}ma-b>En%;pr%T!(Y{R|X*N){w^3p7LMs1}t!
z`#m^G^>dTizNMYRA5O!OYO>EbVGm2n74>vQ%C~_91a#xji?%6!q!Q<ctt;?Rol=AN
zJ-|Y5BS@xGm`9g09aX|nfHKW}R)x=KCct#muIp6GQxrbk2(OxmgsK-1YA4loIajyh
z>ds#J@hd-kW%1Cm>)4X@n07YNOnT~A;%-ptf{=NGg=bn2upcwL$<DCw^uu_|TJAam
zHwcV`Kis`ahZWo%hSGu6p+PLOqtwYyDK83E#Do(-Cb<41NZ{Q=F+>X9ks-|+^rm5&
znKe|3B!FNnOh|MCMESM>HvG}|2Zc>|(~zu}i(+!dpb<C=ei)tI>)0gb_K{g2Bx)#x
zU%?+RNwo0m=oE_~&M7nHvw^3G!3j`e@YKD_6r;VMJxqh-o;6%21%!4TA-w_bqbFcH
z^ihphg-P){kSm;q0%ygT*VO5!jzGCRSc;vB0$85<3nw%Hq*7ZkuG)p?1)U{YTy@EN
zTG@SS;o|(o?9h9E1ldB+w5o;y2Zo)7E;TFsbvngxa?;O=)Z#X4Rxq8h>P9C4Sl?xq
zu~Y~#AJynkYya>3ruO{5$buJnL_&7>YZ@E=ci+}K+#EX>1;g_0kvm7Sdso0pE!czR
zMeB0QfjdKwn!L-DR!CQxPNNyx&^&)~F1}pd`NTmww*6W{&UWjV<Cu#9HjC;6wSN4j
zl9xgJJ6r@abr*=@-$FscGleYasK$|QL2;^SQ>wf;bCk>|3fub@CYRa{ELmGNShKBb
zqngxqWp^*vYy+w2s?WJP75MAgvpBZgb$HozWXXDjUSz*v6ys)iutACVbNGmVfyo<?
zs10e&3!>SBMSll11jQKyqk6+(%%LZt%nCH8E{_Y5f+6@Ow!Mc5o@?<fOs->s1d6vY
zc^i^)Bk&!p#N<D)0r?UbfuEb%dOI+t=C16yCC|VUr=`uj#5My@KF$m=pOYq2C)$Vb
zLHiIsYkL{fo|1XEr(_=PDVm2*oLrf02>CMG5KAT75KCpYAr_yp4Y8_<xSQ5pnCm2M
z?N2Nw({W}Mg0pB|ny>))!Fr_ifLt>l=UK((UANKZD$aD2*~Es#Cf$a_yvB@io&5c(
zB^2UQ5ir|bkrcdkjL=AAAbdHZEj!&N7C_Y&e1H+qo>ztuD!{{gMKKHy0VEO6p!UQJ
zAm|e_Jj!Z2?Zd;v05NtM#0eij{SF^hYVRPlpb~wW7SNtzifHPn-LxNNamB|T`ZJR#
zKGZ~AQFHipJO?yRUv6rT7J8ot_pDBe8ihLeoF3Yniy|>p$H8X^n&Ruk?tPWIYb0s6
zH&EbI6LKsrX+FiCP5VfJYsE({^hphUG$Eq-p*m?VNw_wFk7zZAinj7HMCl~ZN5Dxa
zh3Ghi?U6(`_O#PjGd$T8BoQqz)uc^^vL5R6L_SS5dwR{0@r=QPS?xCB?Nu%3UOItR
zgK8e34j|1Ipf@p#ea~Qmk1SN{L5(FG7JmvwxST}#XGqqJ48wpAirM}v()~-qJtlR(
zB8MK6&c|f`W774Q9C%EQKPIQXG#DAf7goYtV7@f4jNu7^<O@4t0*}cHzapJq8cd8~
zoj?M<F?;>o%geU5o90!!YtD3+yTi>3_v82COV!&Id+$vPTqi^0h9PBOTC=-;eBg%%
t)(Pg<jZnQttJioF1v$eoN13@@cMse-0FNHFA73Z5hC)6u&^)E_e*ppx+iw5>

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_omni_moe_thinker.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_omni_moe_thinker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c5402c8d3b320e933e5418530cc7e48ff5705e6e
GIT binary patch
literal 70411
zcmc${33OXmdL{@E`wkE!L2v~(aTO(sqV|p2SK5~34OKP_5uij0Ams;83k&p8?Zi-(
zE2dJZ5!L0yP*O9d$39c6>7+|FU6Uy3O3K+Lcm`d7Uo;t}<4#g@PR~G=lS(pkrsw<b
zTL4mzvMYVk{Ul!8clUSSegAg<|G$6ia9B0CV*0O-|AIxU`764SFP4Lw2bc63%}q^2
z6Vybsk&2i$UJ<N_>w>ztKB$iyf(9+6>te>ZDQIGGeasxU1koPS4KZub#(wQVJNtFS
zok6FR=ZZT=E3}%pJLq94##m+C8}zccDOMG)4py_c8S$E+kHsyq+PFXHXK`z+E?yt3
zk2eGx*u5>*7;g$TvA8|f91jEoEbfT4#9M={Ebff8#oL4JEbfYR#McGavA8?d8Se^q
zvA8GJ9q$SDuy|#xH{KWQV{vb6eY`)|&*D|F4e^b^jVxXr8;EZTZesD8*kF8faC3Yp
zIK=LKu`Thf!L2M_8`~D&9^B62{@9NA&frcKuZ!)9?+)%}@%q@F_}<`N7H^2{iw_5f
zS-df}KYk#1Abv1-kli=M4#f`#566!LkFfjZ*wOg0;Ia7e;PLp0;EDLj;K}%@;3<|D
zh>gS_3qFQ;OQbdSc>Iar6Y<l*)A2LGGx4**vn;(W_GJ92;8XFZgHOkw2|g2lHu!8j
z7!0z!_Sl!=Uk-jb{#@|6`18T%Sz1Rd6n`Q3LOdJ{v-@?ibMevOXgm^(#G}Dzd@MM|
z(mP}4;}?P#;^V<_t;Qm*iHYDug(lh`jlZWAms@Z$(iOE&{Dr*uO21<jk?z;@!AljI
zBbrFhYnn)J)H(4VO8Ii^J)IZ}a;#(@O0NH$k_lF_A0;<@PRS%Ixe+A?KBwd~E4c|J
z2S2CeWz0YqzKG5Eqklth8Q$L_&j)K|D_YqW4a-mVp7f}}D=c?Aa(6^ukaL4qS?W%t
z?uzb>KK~xRTDpSQqR#|pSl({r?TJ3C)c6WZ-HX(H(WjNv6vj0?@lRsy@-X_9=(Xs~
z`@?ccR(n5cA5eeN=$Yu*=;>(cJ(JjqGX9sY8QL__i_zFvMZ1PGVwD(z6VGbqv~Sq1
zXs+s>)m+hbADkIHHaQmMqLZW1^;46vYk?=OL?;K=KNg=HUw>*U8i-FtqOm|%^1}G!
z#V8lJ6y}oM{XeCiy7hwjKsXi)pNmBW^RZ-<V=>dI@TE)RljjBVndpnt)NZ#{Fj2kn
za12r1@Z_}-N_r~FCB~;F5p_S#MUz~3d@>q2Ff}<gejaJIQ0TH)AQZx_eSbJPdf{+1
zoSf#O-4#M58zzksgA^+X{_?c5;((R*YRfZ+rz7K2hbBkyY#bV|F3)?Mn;MNK5>u4n
zd-}q7;!>28`aN_Nqa01Ltg7K;GCG;W1MClvUW`sg4oyzSQKf10LUi<EX!=qj$wkBQ
z&{#MWz8oIMERDy;lh>%X#Pp?0Q(Q8HhDI-hMyKMJ#$z-|)~8~zxH4e-`Dik9=~C!C
zH#L0;xwi4i@nk4Ab^bgXb5&^gz}aI@4WB*s*huK~p(Dr6oIU+46+;7;2O}rL*HElN
zs5&qen~qOD9_H|-qOp^h<1i<9PETD~nS`3IlT+u%lZo=@uY6)UjAxt)({m~#b1GF&
z9gT(~s9GI~j)kXV$<USP`1uPo%CI=IY}Pli>6Y5X%D{q~LM891Cr_R|cIvT%!zW7*
zP$5*GLPL0~k#J0!_A{5Fqvgpbu7tVs2`spH0#E2IZ+(hm$!J??<X|`%7Rwq0-~MnS
zTFO!$Rq(Ayj9*GVc_|W3MiYYX@mP2?dSNPt=aGh!pz#YHR7Sbe(Mwbyj-?>j#U!yR
zJ>aoPd=&9$WE@SMjZR`sC4NeP7++3Rsl!9@bJ0iy^O6u8XT+tEICXmJ@k2tTa;rRz
zV3pGzf4tiuG}6l56dIxrfz5+7#$%J0rjrSwqbwV*FEUQ=F&sM*oy5mV@l)eh$0vpM
zvSQMAb8tEyzb3Y_e|nsrenn$asnSD~rjh{=X-HBrDN}y+I>9G(7<y`)K!EZoDbFKi
zoSsUCxogS<3F2}J4TYXMxvEX918Q>+(BSYCcOX2S2**yI5*%_O)>AZwdG`!YC#Rlf
zt2A+vtx~}u-4fiwV>X21QSN*+6sI`{^b5yA(b5~T$HUjoMMIak=-BvGtiC$>O7Yo-
zE=?su<B>#YY>EqAW=|zlQQl>IwBclOGIUM^6M|!$-c2YLojjkskQkK^GXvd(TIugW
z1i?*B3P^m$sL{-7Qy>UuKqy9Zz%Uxbkw06Js(3i{;S|;i)zZ%xG#XY@m#RqV#wyNe
zx(y>grM|d61V2R~%}*T&-o*;#h7l3GD+Y@}hc8D3`xwBm`~ZS;YC2i=KncQ!0bKv|
z%!XwA(uPapm)7GYVk*{Oo!+{A+r_QX4YBca8!lZ-UYMHPa2a#Af#H}?^lEezFNYIv
z6B}Nn_ZgbP$_~Y+qM@V+(EBf469OTcSvHEO2$Dl92f>}dAd>h?j3RhNQ>g1)XyfbF
zXZ5~9Rp&wrU)8&)<-G%o!@PIsm6OZXnt2azt($+5w*)c+yrn&ZSl7Z6yt#kT!<#oP
z#_uNhEyq7N#}7Tun;$RgGzM?csIk}1H)U;|S$*dNbfclZl*=Z?9$ZG`b-c}}Ca48*
zUts}pM*kw#h&HN=RNzmCKRx~o5#yLOtr^osOs_eD`iMDdn6N7?Dv^jmJ$+0cv4Dg#
zr8QTzK{MX2O{ih(U;3IJClty)Cc%1%;-SR&OjPg!kOCiJotGs7+k{3hgeNDXv4mi|
zFdm6SC&l7M;Oc2^a%2>%Nx6vhU@P|(M82iH$tGXSy>3itzJanbS)$dXv?)!978|>;
z7BwNNE8gjGM@vY&t3X-pm~PgPl;=~E(xvn%L&^}*zF+a4GzQeccOqWbG~K$9v)wwu
z26_d<mqrbAJRXS(`g7yqM7K#W014w`H-|zDt%kVAP@8+4g3}cE5eWKA+|&dL>l2`%
z%1S(;6nm12Swf-FSU8agg%UImwD<#oSGeO;>RALc&FXKVU+(-R6iSRB_=i_CpE)%a
z=XDcru3a+M73$j4`ZrvKwk>J>k~vVQUq`>S%f6n4<9DptngeOuy{hJd-ADgx+X~*M
zf~Wd3o3YxO)_=pookWv@_UfoI*SJ^S)G}@WW3&_aU44BSHD)Vjb;woTOsNdu4&LB|
z@|MbSG!x2u_`Fp4-2u93CM>1WaxA5liFEZbpq9)!%T@6Ep7g8)GtX$=tr+>~f5z2q
z#0$R=zJ&LGc|3YWe9!ES2T_N;aX`E;QT#asg7&1KJ)l4`_9g`rAUg<;$V}53Z&S+u
zCK^aQg8*R1<$m+Z^()u)X>EF-V0XNE`1;|wfw^<@?fJS*eBGwSgWrGbdym~c`{U5>
zhH~~N)7paF{pPXj$L7LcKbf~T^7h90aHcBXGQhVC<m{V}?{cTj?6r35f9j;+9z^g{
zdPn20;C*ykXhlzk<Izw^u!aCPBhxX8+e4ujr^7KRM>js1WGhoJFd9@aiqr`gMMHu^
zTF#@<SS%EJSId1FsR_bU`@}U(E0v>QmNLQ!{^2zZz+ru3p{>18-%zM;zHjpytjkrt
zq5;3iYHBH(C}!5w_=^^bSt&-Pigu0F`F9SA_2><r`RcbDZZ#A&h%R(|x9{D)pHY-O
zGwX8{-6<C#E4m&mA}9y41X?G|EN?{+sfg$RCiPJR0nvytYK)korl@(Maz!zAb6%^S
zK2|}%0l?V`WQ)%!Vu{+u><nyM0k-WC+gkM^c7SIG1J6!?XNTY_UrMJ=K7M#a&=8@|
za2pt%gy51uFCjZh;GRa`f)QLuXlzoj<E2g}!9ozzBp5}iWRyN}`JxYtmdAr%L9hxi
zn^ptnqyo|bc0nQ#kWCrC4T9rWE8f?=Cw<!G;5w;%xG1kJtD#?2qtr41cm+rRSQ|zT
z&)E87j4=s~jSk>Lq-W#^ZwfXM*@Oscb61d3UUXBpiK7pVEoH8b%3DkAaP=z_HgVHP
z=r)U=d4lQ@g&=lDS*%CaiMZlv`7ltv5}1pOq=ZuO&J-yAZIn;Y7er9JvJ8sftLtYV
zx*ou};O{8ZHWq3c=AN1VQr6r3nZr~MVEu;cGq<L`uVAmIl8-1>bZdN#0PZ&Niy&yF
z4&EckArf+;oWMjHT}V{}>zWDWEs5n=Sp^Ks;8^}80u&%tJJPM=zJj7`emNpAkx+uA
z)_ClaM4lz6S4^o0Mrf*L7$-1THk%R@{XQ}iT?hb0tNk}aH$s`S?|kX@mlmtO-~7Gi
zyPn*@fn3MIT=k)}wczq+&3+Loy0{Cd!;Mowh)vKQ2KFA0O>-CNPJeD{D#p<$xEKX-
z3K}U#2l_x<M>H&Ml7cA&<#6vsN~GXlQw9M)f_ngD^@Z&_ey8RKHHA%E3N^L&U3G@W
z<?7m^0l$EKb&W+6#mpL)w`if5Rpar`cf8$qt8cz(q58WG?>1!pL%e%S(MGv;jjwxQ
zGhefz=%8Dt##8lo)MRm6g`rLak3Z8ODy{$;&nW(s%Ok}eJcT!34indah$IuM08G>Y
z9+ttysA<Bjw5db@6IIhCm}rU`qXv|*OjIdVl!#PD%V4HC3Td?jJ?%sakGUBHwE==U
zB6js&B91lEool4K)<}1+k#1E_AG1e1fZR?7xm|$Vm4c@na_^5#jb0q#I6SJLi;Tww
z3uHl|3y_T@1Sc(j35X+$eI$Z)a*B(GVkDy}gF0tWf3zHFDZu+v<g5bT=GDMEWq75&
z1i+IDh*d>{L_5orlA%HadRqC+0iG2w@KBD@YSJaYSB5HpCQ>FK3LU_{UZ(8OlJYc3
zZ&`Uz@DYPl!-yKDGSs5bbU+Q}k-z!IfBLP=&;DR>&$|#DMlU614E@ARL-Ju^OnHc=
z^cT^z;38T*I!ZzfM)8;C_3VtkA1?uTg+X}*xiC=QZ7V||ggAwY$w|S&#AhRTNrHi1
z)qwc3iQ7UY^fUwp2m~E9Y!RW|FCdSNg?pW1tg|%52$PlJ6?&@@URl8<)IGGM6x8y+
zqDta51cX|u%1}$eR-Lsq-tz~(Q~6HA?S{q8Oa5)?;~!TyXLR2T0j*feqW7wL3pM^i
zO>?24na~i!K~HAAZ4$%qh6TJwRa?RCD%k4^UcZEfSh2Hndx5E{h^-LmPmxZxj!uUX
z(H9}hz(VJku!adj@NNWaJbYEk6iiZ~QDyz$S!it#D1Pu30^&q|E@V|&uSBSTBYa;g
zuRB6PME|2bWhEm?x{z8<Ajzppdop^HTfygEG4igS`xZ)a{~ZN4DVRrqB}LRecY^{V
zu()5QRAUMIsntr*B!~;33=xXLYY7oDfYL9a!h0y5pjG>d2H4->oYUX5+^`U<aQyo5
zxfj2Fs^DuW)OS-@RbRAeJarE=MvwKr#^|u7wQ?2n4fA}}+jY0<GQ;0)%(**xd*=#%
z!o3P}axbGt?iC6Mb*@I5Zz4@FLaGM-f?-hZt5k~EUB*SIV^CVc90fnbU*bO@APj2P
z?AXcB=eAuE2K6+8dvLgm2K)kpf{!p!%&hS@6fG268-r4=T~pmSKRW+pX8$|KZXe4w
zuIH=z7pwTHp`wGboeF|=(XAT@wn#k|D~S{FQf!aM;90i0-`sV5SJ8kt22ovi^W=?_
zMHAg&AWd)EZ`q3$y0gl8HoCKGDt$K_ZZs4fbm!DqU2isAZ}^!DcOu57=U2zrtGO6i
zR0Ls>qfAf)Q4w&gs%U5hjx|7}WQ>}?;g}^{YmQnX76sQ5w_*jiVw<SNkXBv9)u^R|
zQdr5wI7Ml$Ov5oD(<zdmawCE%LM&)BCfLBDBq6I~@S1?4P?><V2|GfPw3SJss-_bV
ztxhG9i3`(XV_;kf_LhOqhY%zQ#~29t322?qMUWLhJK7n59TJ2BIY|f*aRctC9d-dg
zl!GZLm9ryVFWr>=fC|<D@hW^!QbAy<qC4WFWW)>ps=QwyTcoVj&m=f988o4m0>Vmy
zF*SOv4DG6pUj3OOdI>ojfSipoSS{;Gg}Rf)dr6->IqGdglr6VzDsTO~uI%X)p(i5(
zn2>|}8rtQ)j^ON!k??u{Mz9$xk-3zysoPP8)K62r+Z528aRj)yIRt_}HW_+Ru!=D3
z<Tx0BI+lFo(8(tm^T<HDjNN~Y>b*??!|54{u~xqzb{F?m%O$bmN21{P`)D!o*9acM
z@%8JnJ-hCN`JTOe{XS6u*uIT^TM9N;-q!x1t-Vm!l&|aI>w3~BmQ_iDf>h(<s-}+v
zo6`sL_J$Ab4R?AU=qgB92;2`aTXS>wjoqKP+Y42-`Korlsx0DfEVQgIG_}t^lX)sz
z-v^SxQwegx<GpFRVfv=!o*T$VsZ?K3D_-=v9nJ^3%GFfF3jUS8JoZIHK}6(Vk+AyW
z`mnZ?@3oW*ait2vXTnOAFIxT%<#ji!o$Ot!UAfFZr+p^iBw}aP^<_K(30Y_L`0^n=
zk^5l6SHrAPga>l!ERpFTbL4wg$}|hI`;3MQq3LdexE_B4aqb)iY~>SKA`3l8S|FH+
zA%UDlj6jeir)(0eSFr^kZWIgJkf6h+N`eM1Q>$g<%EKaUX*o+o3-p9UiWU63vPj)k
zM7hkjyuI$$x=dx}Y`$ZN?-<I}ZOOT}ULRhTv%hK2yIXj7OQtmw$*<eOucQ3*@N#?C
zJ4bIH<;^W=)0}U<^W)m)jP~2s>yET_ZusNshWTKwx+`t{*i$=Sm-Dn=H>P#zCkn30
zw3Xpq2$~omIV>`2-K#|fWn>P65hTvxUZsEp1ZCt+NpcXS3{_FVuTl;LMf@cwB8m#O
z?=G~q6*_ukI;R_S4yX?UenDbDB5I<Tc}@DoLfKYLW1wiGm|fG{R&-FTjHaPmk*1-T
zNYha4DXrDumBp)w%HmZ-MZ$!JIf_5!vPrQA@8fNjixOnQB;u9G5<;v1uaW@4DBa<=
zY(I<05aU{+fr$Avy^KPFR;gr-G7=>MH6`qEDJ5+Y>uVY&a&<%<Q6~vznQ)f+X;LaF
z5s7$lLy(}FkMVibbJSBsatp0GAs(oVxYSF5#QI{RGe+EK#~blPt1u3OdTU~z(o<GP
z4HUx&Dp9kB2`GHvSgM42#!Zr5fP{0-a^cAYzE13Jj|gTafB-{XqOOGM@@?wS6tr(>
z$Bbh{S2_43u@C{@2X%PktB5YkLsAK?8qu_Z_|mG8Tjhiiz`6?fL<xl)LkWfKQeHNZ
zcnUf|35BRwQ9^k#fPR${BEg836oLya(G0A*P(m3aT2kVrVn|gPBkkv-u0lSdbrs?Y
zC6u}-q4Hgzg#5K?lC&h)rQRn})t*2*LG;h63uTpAE@eS_B&DKXr<{(mDr4sclg)C8
ziGUm{{i0T7=}wNx^RCvrjJVOaEbP=w9x3akU2diHo9vY16J2tw^c&Ir{G%ultTIY2
zA5XGZZat~Mp@}{@t@N8Bd6~=*V5eN|d6BBD(o#)YIkTqZ200~V!ki(kY%~g6S2j1B
z<npE8<d7W4+S($=OTTi92Q_b+M=Q=_!{NE3=-Zs!E|>Xv#*IF9$n{FU$z5_B`FrGe
z>6ex?m=Z{OAZ0Y9%-`1hst&A)^i|%dc;mPp<C-<gW5v4&$hDIP<QUpMD91~`YmA=W
zh6+TG#z4%AxlC@^Cbx%LD&Oa;SH9>wNFIB1OY#%Szh!S_D|;*dyr)%t)`&%!bE`Dx
zwz4_j{?MFv$YW2Ql4B`T*|$f##;YzFmqUVQmsMWz_LQ#_^ZEFyD!5G&am%iWvvRET
zdl56iZB7z*$gVFo0(nNcnn$-@KDuif`bWz3wEC`;#kw6Ly$K=VV;BTS55YY_0i(+a
z7BF^p#@v67_74*M*v|X~O8rF&UZ+4shCE~H2L>k{P$TziRAv=VdYRI$AUHeYkV=MP
zU~Z}PQuz#(x=lfv0;LkvW-PRCAu7!nBFSsel37HN?!MJ5HH}iRj>p5$l_Tkm_>>t+
zT_xL@hT<xFe8EHeBIiL?gwQN%K_SNnt-IJYQBCe#LY5v!BSLK?3i>1otvS-CgYp72
zbt2FaOK`M^*h~sGQDcd11u)KDurU25(xwzFq>{(71Pf`b#-q^2Wcz-C0UA%qYob74
zj#|Tdk%YV7p$9O4RyrRQ43X%i<OL?M6g<$GP?R~v2PW_;Sf#xkVx)}Xi)4hq-~#s~
zZ~QRnmQj3ff)3(x!6x3YSHtb2hCHOxChO6%i5KkU6d6ZYQm`IAIeg}5X!z{e5stQ0
zx~)vuEI34+LrE2Y`!2FdZ<W14_NE0hd%J9pifunZXYs1I-Ax3B%;>GymtfkVgX)x|
zBE5hOhbG|%SxC|gcli!QeOJDIGhe@%2`&o$b$S0r-oFtd2Pd@hL_HYV|6Y01x*^}X
zpKskym6{8!>+-GJ`PS`s2Kd%pVp7}2eA_|3?I7I+3N0P)G~aF()oJ*a1C-cQ=-iy|
zJjr*Sq`US)*HFG|gzp-myN*xl2MWIWn=jvZxe#d22e$EnZH3y7eC+^VJ5Z=?$k%r9
zwOyZC3=I&CK;H`Nl--@Tb$)2;yw}+L_Lpycd7(YuvyboDcejP_IdJ!E{?L>Bp(k^V
zPo)ojW8@RD$US%UP1_CI{1X{{KCp!kY`LT51KaOx&hI?I?>v!hIGJ;wg7l@ynLhZ&
z$Y)TDX?*K6Yx?R^^)~EkdwqFt8}Dt)B;R@I_Dj%HOq=gD?YwjJ1MLq^<(iJu!0JD#
zsl6G$5&x`4)7qJt&3EqLJ9jL#?0isdb2#r;X<B#99sA6y@w6(>RA_2_d-B#~fu?Ui
z-?sl={f0$He&bOd|Lczxn!6P#&oc|-3t!6CZ~uFj*;5HFvUS&eYW0E6;UjsG?Xw1r
zufI^$lCK)zt4fnbyAaK7`Q|Nr^A=^3>FKPu1KUSpMQJj-cw1N2w)tLj%iFWJX7L2;
zdfy*hNai=3<Tsqm^`2Vl7{OzBD)AWW9@EZS@Ep~Bg~0lJU^gGwU1;yhw{Pa#Hy3(0
z<a_t?z55I62MTTL3mpT6)~-zLLgV7K#f#bI{TP0A4Tg_4Fn&)Z#vj0pFWDPDYtl3h
z6l$98Rr>Ok-F#(tuClk#y7e=YzLC9kKe%g$M^wXFY8lG6?BiSZeQ4iz&)xt2bbiBO
ze#7D1hNDaFW1j>z=L38Bz~1!1kL-;_gT`}Q3k^}nu=XE6eOik-`^QiF(Q|^7m43W^
z*fF9r|FM48h}pbC_ZQ!f$W=Xs2vgj^@9GQIJP%!J6r&ow2r<ztDgzz;06$z1fnXH%
z^|^n88z_2_(gss_kTf(Xd8XwNjATE9Q(vWTKY+5YXqH{xysMdaHRoOJysJI$>g8R%
zdDj5%8pxUln3&<e`BQWM8-^+vBhky_qfze9a8v%wJnm;&ANkCz;xB&gLvP|;o3iFj
z;zO6eI3ijBDK!uN2ZT2@=OG15X%E6K=edMN!=!?c2}0$SmIS-hUVBO}lPl^nNhMbz
zk>$4NH&OvPqBJ5%5RIzpmwFIh3e#DtEi$ZXIkcOhmcDiknTcd$pwDB~6@gkbv{MW#
z%DGk*!mUg~&Kf^w&J^jX>YOP%5ULx*`bbG-!jv-oH=i>a!xxz|D)*>4Go>mf6gIjv
zw`DU)gvY9j_J_{H`~WPNw2mgKR~5l+N*B?}`SN<ylKt6by{4>v6?O?K#>C#qYZTu{
z1eUSC0L5bpMG@G9BIYRdtgHm6$4u0h(&bo6VGw66DNBlJa;nV^#w~q)v(}Uq0yWbJ
zvytFlKufTEL_mxrcOC%%Cz0*lPLZ}Wg4879(K0=mfc;w(8urHM)l1>Yh+u*OCut#b
z8I*@j9O%jEWE7gkF%Wtn3XNoef^r5%_6pFnzXY{UK{rYP)G3(y0W?+!P77v6M<*{_
zK|`YLiJ(mi+6#jA3aC6e$$UkQIY=La)e*J+SE_4-#-?L2)_%f<))hifQr3ea<`k^a
zM1p#z^HJcjtl-xOMlK-0CO~CX+H}v?eEmpzIQ`;W%ROJi&D4!lX84;g=Y1P_-^N8x
z&NrC%?cjYo?rggAV$L_5K3ecK=Y5^Lue0Fx%$?0w_wo4e?kl*f@=#!Kua*43VyJbd
zj{<+!2E_Uc+J%9IFzceM)ts+8ee{z@4P@ZXx&LYdDcHSlj$9vkYv}Erw{|X=7rU~Z
zJMUI5)gR2)pWy3Hd@%gMi@EwIequje?8b9_)}!&(-t4~7J%41uvsBreHWg|EzwXHl
z-`=08zU9i-_VTs8x!Uz<2S~nr(*WNzu(&?gv@dJM=3L*x)4YEu@88Y)ci#!;{QJ_*
zf~zrWZe+NM`#-P%R&2_Vbdn*gjgUjFMVkPLY19xEtO!)4T52@PtRBb^x@bU#70>;V
zgba<dCdir;38@;2!4{un3k7L|8KY&Fs`N%Pp~x%cavBXb<t0h+tmO;$Wd1Mg$(pjL
z0^ZX2RRFI7mTW2Oe?e_~*;A^>Y*RMT#!Q~oG8v`gb86bxtmy>6wUHIutSe<r*;&k8
z)|wg`aHZT40}uhNK3r_m(=%K7Ikjvl`$M(7vsIr{%aL+ERI7TnCgn|4kiy8UFI6qY
zYEzz6B}?-o=4Ve*m#UOv^&qc2l!h`C`e!im*@l!aRmEbBh}E!IQ>s=<Yeq~=3zUsg
zk>9e1XF;kl)s$*Z1<r#og5IQzd{t0g#2m56`Livb(`rMiK2?|Uf3a3U2ubf_wl&qN
zwhHmZH<ZRK$B?T2?a64q6(ywaP_9G2sTO6`x24)rt!(DoQ|%MVzCx)qn-vLle_4-t
z@0eXT+d12n>PW4lIZt)6u#3%qcdC1$rBqjrrA#R^QxPgj=BZ?xoL~AakqHwWrBpeV
zGD6wPBG1)Cr<`8;Rmhc|RFCRNKxU<w%_pSJW+kSV<<7HIue;Qq93z!(C{^3A2JCWK
zHF5~@-O@Amqzn_iato#3RF6FSAl)k7_*0N>C0MMsqd}H=%E|=k1UV=pn5b-b1>-e2
z;<CE6++W~Fs2HDsv9y^<_aL|9a!C9sUY$lHwur<M&75dybo;n}O9>eY{v86r!9;u{
z@ngzmF-kMT3<UaRql~ti3MU6Qu^xqr<P_9?rXU<Nz+x|cNifGjkr7eE{W&$5r+~O#
z!8kp64kHp3DL$g)pHQ-u^w`GFPftxJxB{gL6#VZ9x_d>fPePt-h=MULN>ODAAqm|~
zqMd4j`%5bJA1L@M1cLDb3E~o9$i-jNh0s`RYKjv~SEL9^j7G;}RD%6hL@o#w5fFco
z3yi8m<cb)vOLe6?sR8lMCblBoh)sz%?($kR2$&wRo>(?Z&|MiA5D;ucu#sXLHwp%n
zlz*TljXPwsA1Ih$0>NS@@DQTGH3(s{q=r?Km=KMK^4Ww?acLv|2Jp8De}jS<UJ)?=
z5CfY<A{e!3ZI;ocpBH7yDni{@IH3@(=#NQpFHM2qj?Qd(6dAjAy>|d!5>`M!P_+$#
ze8VQb0en8GOXodZyr(N|B#V{jZ#<u`9^k77($?kGv@cXikqx3Y>m^HLZ`VT0Zw`Hb
z_xE;xQ1xf^e^~#SuA;`7J`9bln))wN5c(p%#+&0e#=m2D$9mhEtLaT2fp+(*lzZs)
zOE<oh@huG8uFq~da5v0vI<i!KG<|sOoMjL6Y<N#gdVfKQVOW8Vw_m#T(!#mL);r0i
z=7YSwA$?@->3iM%-)(xg>5l2HFMH<crS4~V`?~bW`M!IdeI&tL9J@32L2{|{EN^d5
zpO~*NH1}rv_wvnqv-XBUQ+Kv+H{Y~7{TO6*-n#iCd}UkuK%vq<f8fUY6%p^;`5V0%
z6JJRd-Id5&u4>Pu_^QG5p#oxG;j1=LtSu8$VizHxOdt9LlX>yR#mvw`$71yzL$-C#
z-QlI0!}*#KzGmcu7qh3&=4zfyAGs$L8(h#WoLOwkwr;tDVtev6hxwYrcVGOV^@DJ(
z=5d<f#+ws2CLo=ixjl2I{danQ&^tGgt2vxLvMj#+%#mDmU-~d~<}z3KrvCI}g~q;o
z;~?KSct@LU9LzQDxIU8JKUXogf4-vN^Uv?UaV1j;j_4fk>q;M8_BG#}y)m14V!?C!
z$%W%N-&Ton>E>Y_)ROb{<$Z&^Z*XyVk-M`g=i8I_9pin+a=sI+9MvVJX<*)XV`s()
z{^zN8ZHrIc2}0t`cq8LOyb)Rg*R?(G8|Hn(cU$jH<a|${Es-mk-}V!GdvQujoCl}X
zxU1j1cKzDCFB4vJb!E+6BH!>We4s1%1_I(lDLgohPX;#O2*pc{PdHDu$W&w11-*Wm
zKB#zf3!u9`uLa^oRQA%#D0xt9tFMdLi{u)~2SY?thfzWlp{vsnZKo!HQE)oU<3ukD
zpWCMjRmA$Vsr3ndN@}-T4?j8#v6W;KQ1xRN(0~oOsf3vM0Un6$9&vw2F@|)_&m4a2
z^r=Iq&p;kb;snu9;U>lA5v;O(t|ccm5LJktEaKtBMai;bX7i(9=vuY@mLTZ6=mvX5
z*!ZYtaH(?PcpfmIZ}(F5p0pKG`J25rdgsFn)_m7?zH9qZ<qq(;q)OPp+ZvW+nfr&f
zy)cr`Jdrs)-@mY9adeSe*vr@L$ou#5{=GT>aQZm(>fCknTeGg#thp7^d1qzb(ZoBN
zmRh&uTley<dp~sSEz|@uo=oN3WM*cuZE;iPWxi$$K5>^{t|u<==P=|^TF~-EtQuS3
ze~XYzSk|z%loqgDjefBx9=+IUsjA3sQ;L+5G1dyRSZbTAK}}ofUXGRY$7l7V#K1^k
z>P1D0SXS0hGWAkb8^TAyBy*Bf4lJX14+kS8pksuzoTeAk<PUnnE03-88__3~&p}O{
zXu?-2E63zd4!ZLdYO^}&Dr-}Psd~Rm8lF^GDODE67%@ilAaA8r0LisZl?_pJ_3@Sr
zs;fe$1_WhN8$u9`Izu3rko14e5ST#eZlYD5i_-6`HK{NqD6y`TBgf>n4r-nQam8A+
z&Dx=7Y{&XALY@ys2udyzONJ-0zM_4jCI!*MW$c-}Q4axz3iDA~p<2xw>-DtK(faDE
zREpYt^-KyjEwhfY5nEJ7=bY7IbQ)DfDyIBd(xQgewL^7uiey(DUD@jHUp+>ArLens
zzr;rCQaUg+){%EBM9504f(UyLQj9)xa5%p}amqrRm>w}*D;O?^W7ARYUsF<!vTM2f
z6eng#WQ*9&-1q60^ryMMr5FR}9+3(b$yd<}k8yN5o|ujcx{2{5^e_@3@=Zp14+hY<
zV0d0eWkGi-9N`%I5}*d}P?{wQEe!Ji6y<)8I$$i!k0|yB6fkDSB_ag^cuX89IAj+v
zN#+*IDv5$YmWwuVg!@Z|aYE&a;-Z#=*tw{6fDs6~bFqs;1I#wb-5N;qhpPxWVv1<<
zVimDprikA5C<G)aqkl&D=Kn+h3p%UDU-!2DmOgXvofEfDEGEA{^SzmQeXe#tB&G7s
z|3YJ~c5B+POxT7t{bA0K_iy9<+wRon{QJ|#3k}^1$N7dW=~FDHoA-AwbmjbmY3C=^
zb)uNMV6Xb+C+4+tXRnXUKlAJ11y3e&>v`VZyYS5a9KPdOjJ*3iD6tyr-&oz(*MU&G
z*WOL0YWenUeEYVg_8oIwH~W9N|3`)&+kV#uoMrPo(CBPd#4O&=?3x<i%_na>Ilm)w
zdGU#*>aE}~NO@rcU%O#Zo2%V~C-HaY{XM+DXJL1~cQ4-yOh__bk_7MMp+s;z*K~w8
z*F$ms$Z}(I7LI1xI`eJ&_%_Ig1D`Z?F6h5&d)M}prp+KxkIf}MhQX-2u~6SpXkJfY
zZ8PjY8lCA=*vt2H^X|=ss>W=~_7AJJFS}dwZlrWCtpCWpt?1V@4;33U{>Ha$w``eH
zY;3^C_V%o8L!oc`0%-rPdv$Hu_ANiD+j_$|r<;4CP}MzmP_#bDoZ+j8)~)KB(-z!)
zdG{di2EqFg4CM`)`fZ;<55D#7W4DeWZ?OeT6C06P<Ax-=K}6VIyz><lDIrvbu#X~#
zwq7IJU)Ro-(Ukx$5@<(B<pK~;(5?)YW_2ZNYZ(Cnu|jsuws8RqW?{sUs=)nrNs<jY
zHh{G`Ww@;6v~Spf7}OBFIi*NXfChj*2#wM<l$uuYtPKDW02$y~ku+&FTFqntfLEzo
zGTlm9fne?OgDGfCX+=iO@Y1AL+ZZbupa6VMqYpg*q5&=-x^@3#A$6tx7cXA!pD~Hi
zenI;pth5F(*;3L)BwbvYbQwvP4?_gx=Av<^orfaRmty1C^NI=%QBENH6Eq8Y2o#cn
zoBY^7hfG%LO2B<X6m~2ClH`n!+lKxG6ZEMt3XUTwp`Z&#BHeZos?n+tYS<o|+)5%8
zm%LU&r3|WK3CNPrk%KuhlzK`Cdg@n66vsxcv`~RL-4Sfkcv(3!_WC$T9I&6qim+iN
zXzt6QnJA{PQ%92b#KcV3qhMNj$$qS|1VQarG@n)&TCG`g6TpM7etvVlej{JM@oq=9
zeq*lwXs+fMJVmv3{6<IG@mFm<yuCSnaBlsd51ruM19R5-6AQI)9hHgj-kw5L18GLl
z*4&B3x}0y<oPN2sEpw2s?Vd9f0v-9lARic<bA0S>oR4OnTZ974?vLHoMUQ67No}!8
z<8PPB-V1at7#3b$+V^BG@RU-1$vs%G`z7B-k&o<c#YRngZ?UQDqXk3qH9V1Mr85E?
zc>#B29z6^YjD?eBMme-g!VHfEGmr^3RiW8ONV6nqWQY`kKeF+=NI7u|2*tty5*8c$
znj$XRE$b-@-hwq8fe3Z$p8tu;P|%Gci4zFOy2q@kZx-!(3cH8zJD$=S_Gtm^ytPG>
z7>Affa_nId6JW($RkVq5yC$%CF~T?RC`vV9Iqdv9mzW8!yhdlSLTlJGH+}OfH@@<z
z2GIvPIT5{x*@N>2GE1iHK_z?eQ)9iMskmdWp?h)j9sQj%Kd^jnZ&8EWyVE~T{ch?3
zMT`3@tcJGbDnB!FHXx2ht*-R+o2l!m`6o#+E$iy$Ej<rRlvleAE>2|oXvFC`eRD}j
zYp&hcP&84BS+ab7V4=ID)^BLc99?*Faqy1eckDl~X9o}R>kskmhl?8Id@%Sy;t#j|
zjG`jsW>fqEO)*?Oh)xLMU6JW@GAEV^p=yOfCbrMXy{6<{QPTTN2sI@oQn3+H07<|m
zat&YU_-F{e2}y9A7)58w<&<I%ejAZ;%O{eozXdnk%wwN^OwXK_7+!M*4U$(sX9P}A
z)b=^xFiJh$Le@^qddj*+2{9LLrKECp^>R@&wE|})j@Jx93$q0x)diQ}X7B{AF;AX6
z1#{PEjJYa--oh0;onRv$jI!b=r6?L&M9<Rqz%b?(L{?e*fO#a(e&hk9B&C6yVe;rl
zb=k%I@qu6_cQmX+MiT=CJcDfUyA71y67#y57!AYtTci{Lrr~i|5>k}f_%bTXLW*)%
zd!ieKvPV@kRL>HuY(zC^sNOR>n2Wv4m+sVL$<yAx<&6Vr{YU2YZ1s(BaOVvdXB5Dh
zH*~itc!Gj6Xh7YI#ZQo3F5{AE0yQ>|^QZK$f(4&7PI^FbNDLO5R<1He#u$N}$D|Wx
z<`u^^Uxkych?Y?VU_B#@#fBA#LPwxA6_Ef^RpeSoRVV?aV@SAU3I~+S5s57n=@!*i
zm>9tfDg^2@q!uL86pWq3-aY)%Xy52anM;gTM3?l){gvnmnet$)<!)j>VJJ>^9-<fl
z6=scZ94l8GQf63XpFH7ARx5pAR1w2l3QK;5SV$Ey0vo-wZl%$KuEG~&9N~KLc4;pH
zI_pqHXB?g2D=ph{;1UAcN5#1>App%m``Um@a1A@oVJ`yOK^FxVgF|5F$a5+H8`nea
z8`+YFzfHF2#SehkwTR>@h=39I`_!Br&B5iQ*c#VMNqRErlazzjUcbt~xIdvv2G%1-
zGpVZg!*Jq^=<=-mqmme_XX%?-hoLj2Z+q?6_eczrt0C*^g0}7r$1*8cZ{~sAp3MdJ
z&N)C`TtB+(?aX=yv-UxRg@%ob&3wZ!m?>W`*ea5A-wSk;f0Gl}Pt5B@W$cB`-`(@>
zo~(Vx-|H$`thD2BY;GD@$KRScC~5-pwVTt&{&HP!!R;qz#a;Wrr0;a{_O|q?`E5nJ
z#=Q<osEgx28UnlZD}!0z`kc2PJlH|4^HWX5RwwXPb!(xfFT3IJ-D`I*X4jwQYtG!)
zX{*m_@9Q+4reY)d{cN4a-SG97@~)l_T|M`_>k6$K?mWZ052KwbXHiq(aAHUefw#Bc
z+D^1lu6{TCc%~h5FBUK%5>o>2q$4AEPb<k9j#jIxkukm8N4QiuODm0n<Mb}Rfx<+K
zRB85W4{ATv=nR`OGe!EjGx&G(gYA`F`?RDiO*BdmusGC+cHMxN6T~ri5CC*%qC2yu
z87?aMrfo$F-C8xZjf^mi@V=g+jgst|79v^#AX?~Fc6O45_K~IcXD+0P*qp|<0>8=-
z??FEX{KfDq!)NSkl)T!C>+x{O+cU#z+><mR3Zhtn%Lqy`Tn3B#Rk#c%4@ehqnysW#
z3O-2HK2;6MLXf3uhswmQWlj%a#$RTcT7ruyZ5dpIs-p}MOTM~LPuY7fgKs)Di!%r&
zRYaXBJvdpK16*iL5&f#;0yPmRw*h5UAg-Fd^+bSmv?4(5x)llRCghgWl5KJfPe8D9
z)g@ymj9wYV8Y5B>d7_qAZV;4-enc=Z4>jB~ST@*Axs1&2Dv>q;+b$6(c2-9AvuU|7
zCX-84Tri6MH`!On?V(B+Xbm<|p7rw7X!x9HFLas`OrW*M1_y4J$D^SuQ{WI41%`xR
z7x6-J3MUFAn4&sIiZp^7e*fW{AAZNB!wH1uc=%!zRbj^@N(Ci9^C5{6mc39ZUjlcL
z21NrF?R|`hF-EkUd=lL{JoIHLMAYj9WIjMmk%(Gywq!Q*=7A;iV8PRnhb+j`o%am#
zo<VGa`&#q94ZLqd+K$a=G8ri}bdlAH|6VmjNNw+*yi;@6m+L!5+udYRV#UsK?Ye@!
zQeqD;=bH!k=7GC*6sV;FcEBfKg`L-T=50M6+InCY^iI$19?>=^-@1=)-IqT2=E>_P
zm+Z~=0vi^M`HjQ;#^GFmnGrQEiypJ`_AR`93k)<Yj*rZJ3_ig$?$OYAl4flR0kag?
zCyF1(Xg(?UMVb_P+km`<;RBy)JO(R4UHse`{2Be+r$7XSR6!jS9!Co$H{lU292<~(
zaORm22L5^&_#5dSE)Wceo4|y?pA)>$GWI~+SwWr&dA4iDZnIFb+`tP}b;YkhM|8~~
zBZH1)P`Q?tr<!yuNjw6(<Zn}Lk5#chfj)Ecs^B1Vx6+41fJkskKHlZ8>(7wLW?ZsI
zxs17+*`NqV)_SV`6;1z|{C1$O;qtzD_4?JktAlrSEUnv?b8XMNj`FUfS@Ti$b_C-^
zcD95_=A$>|BBB~-LG$1*5Zu(TT?i$!6j3AgOVcw3Uz<P?3b9_QM{K1G?#EH)JKA3&
zv7`d*NgrO$PnbX$SCm{EtSF`IWT6y<k0npLD@rK>MwBw6lrkdn=-O?8e+cr#MJh07
z1zVU7OTl3!07?Jk*p(7*v9FNY16Re&{8PyjZ>7A;Fz+m@C*HC=Y*J5Sas{{aq7<mc
z5f;Fv#ndIibRnEz;=8Y)BsWXJ%Lu?XvhC`tRNtahT<KZ%Rb<X=`oil(Y2`L86@rjh
zDpl*}4&FR^<7mDL-s9Hav$x#W>8q{F)%7=nH-Z`K0({R76b(oMP;yn@HzAg`KqT$<
z&0Wi^Uvh0Mv=63_E!kV{xoSQ)rQoUs8_Jg8icgZrB)00t5LtWGMYQ7}Q^Ylc9Z)>Q
z>Z@E>ozf)<_OnY_Qxa>5w_h>B9Y!8lZkk5HBYB?2@eI=8H?-LV^}1vjNBeNZ$jRI}
zdna~$)5?T$zlbJeHeLLPg=%`~4>dZo^^3i(hbn%T-q}u!0`JV%H<!%&`gr=kW#KXc
z;GTxAe8UdDVFy&S?!i-VUGLKRgG;VMS@WT+>rlZJz>Wu-_>mPePaur}Ly`p1sch_@
z_AT1~tAMy$FtG0cn{D(3U~7*SJDWIe71R=Z^uRc7fX@7Zyg3fXuj6qb^O@~m?2%Qf
z{uVtn?Tg`|{f!Iy#U$_Al{N2T4+55R6*eQdDHx~Dk$+V7iLqD9T}LuUOHAZDE>i55
zD2?7fYf40P1cEsVzD?Z@Bl9)Qr$(*e7{r@)gMXo>sKHNm^RWl?TWru9S{BA0z-@a=
z(XKV@Uhpk?7f0_L{N4okyzb%8Ae`JSwoYxXz=bkF_mJ;m>8K2NK8zYfOb6^&ey3k?
zXNbxNX&7I#15=XgA%-hSaDtjPcsGRC;iv;%;GKj+DIIN7i<YR1?j(GwV{!O&2Uc~%
zFR=%%gRGHKol3QRbtcSnMXS)d)b^N_x%R1MBk{0)YNY3=#ApmrU$mC>WR7^zlRr}R
z@K_?%EX^v_Gel~}j1eD7*TFwzeWX_IE8=I*CHHKM)Il6r&)BC1tlkD;oyxjXJIM$B
z<mreb_y>!Ja2irruplBLNWlu2FU3V<DRXp~y3!dFJMbAXnIT@Zc$F!ZKtD>2nuuu6
zmrijoL@G+?Q;n*CEQwGvyRfrGpDnx8%3``eIAKptRgR^m2J@cO8l+ezHJR=#_VT#z
zqzv%EVUaweY=NB0QpU$w9z7-*0CN_Q6xhRqftm!qC*5L7#7GOHl%BFgOyUBC*OP6`
z0|z8;5%VsTN|xqX*{=lXFQqC*qqF*?!UrW43lN!pE9F6dU8;Q%<Kp@wR&Zqm7*}1S
zZ7z=-1dJ|Xr}3b){tK0Mu+i7Zjb3+w3m*_A%cQFGzEd#)wMJk)a#_Ru$B3K#{v}qC
zqOv2`N6%1<k;ijYJ8R(n6pAvoB*}l-RgybG$_Z5oChxPadUHh6vrBG?b0%BlG`t7)
zX5{&qw3g?|sk4rh1J(pUxDg}M=`*l<%;ls>jzvt&f&>y?)h8*NS<YX^9Xqim+vU-e
ze$g9Rmq$G7Oxe^d4^mEfgxJS@75lh0tYI7y%DnqPHahD}DylsbJ*C#=SgAf%p`Wcn
zC-#=z>^+uh_Q~Z-zbTvCGs?TDJQ-L@9#kxf2NmZPO}A$RCXqyaCM0*$7p5*r=T3=0
zNBUG)<3!WYl72t}>9yDwNpw!Cne1q-NCk5h(<VAGr`N<@g)XTqaW#E19I3@rFkzoe
z?wcf_GYf$V;49n=zJL*kB4X&VGfF9mqr&tgL=aqZN{DF#B|y-IQ5<f^FX6;NMoclS
zn|Z_`5N4-@(H=8oz~YHv)En{b;>NLua*|V_(#*`9{bJy~KZISD7_ndqxz@i6j%dQM
z#Gd|#TKz*zb>bMh2E|cbbMxsNPtTve@g=A?yQ=4{ysI@6{?OG~XzX0rvUr^D-NQHT
zowMG9L(#)G4$lwFznJNnpISVgef)`~s?$*B@K&WohKtRTs3i4uJn)QhbN|q`{*6E{
z-1H<=0N~C2Fx;Rp4n)E{Hs(iIyaDC;%c#bElY(EN;9Cgb$&OW!X+>$`gc>;ke1&*)
zBX<207hzI@lVU*xQShr&-!vHsb6ohEbZEpl&ifOIC3-2`>l6@YCRCk0Jv?$oQlt$%
z1#Ma!#>iwxLgmA=E9gK7GC@CglA8E^YC;#s`Fj?)tcNv948CocG8XM#3;L-^m`)f)
zaZa~eWP4Pemb*!fWhfwOn`2|7$%H4LF>!|>A-KgEA@@6D<OwIiME>&3N~?^WTEMbJ
z2@x@4w9?A1S44{NT{N#szN(NBD(mcbXfZvH;2*GW;G~`7E8koX?Ospq&H5Yla52l}
zJUwY+QE#wR!?Atc?Yg1{(I0x*&yOm9T=%>1agG$|A2qg+3Q)dbC*QC$*RY!mF{;<e
zmKPt}Jonw2rgm5a2b}lKh|L}P%%G`invZ_x^gF@Z!6olTlJ2)=Iu`1d+?)ThhLje<
z@0u5Tay7f}Oy7Ot2UoMzNADXdJVflG{(Wi*)(%Io1p!a|{>J%dzwJsNyNAd`&flFr
z4t8(J*PC<oy?<r#YHq{64_*6cYoR66{m%N^>lf{JqPf<CMP0@E$~nt?KQyJp+@5#(
zZ}%@Y+?md`9zt#(<*w)5UC@uNuDfvr4$R3Te^ouX@AtJ7Et={Lm;vHBF$a$J%r)M=
zvEc4nIL5n&3iYjIL!7y?SdptA%z6grY7i_px4_ckUPDJ_>?aNDZ<yz_b3^ww?zl7b
zqmHGGN8d`oFv4?t+gr1LGMYX8^dC>mk+iM0Ju^YJ*~1_Dh9EJkY0U&btlqF(w{8Kx
zhBq(1$k%Nvn&5E0Xw_6TlJnq9!@~5Ecj#WAtx(&NZQGo0+rzi*x!c3Hox~nVOU>Ld
zwCZUQ&9@gUAGtRbeVWGp`*oUaN3|$1==^x=k%jJGG2FD?u+DG)$la0MdgMN(r;lZ8
z`g!{X2njcB{eHvu8nSyvas!W1@_OFhFLKcT`005q-p@aN`n(oZn6Az54(&YZ)&JPn
zaI_ZZ)q;Q>r*lIAQ5kJZdvAgVsnYGVbnK@G`)gu6ME<G9qmdPxzC`RY?(pyNA*`kM
ztq_kya4Pr&HKmJmY-Kc!O>^z6iLeStn}EEr3(^E4d=Qytt}<ngFkVCrA93)LF>89m
zM{T@O2V`#I>d=-EZPn008`x46`Fjw+S1Ycv4OJK?iW{py_M^Jd3WkVH++Gm0l^Cxg
z5t2s>G+j}qm`29l1Or!HD5Dq@GLou-X(y8mW7P#xx9sUr&q4=MqW3PetZYk^DwVhV
zbGG>}GSY72%+ppGGBS+I&P)z)(Q$(0bRcXZ0C{F2Fa}IUh%Att3gAS=NGuw7fy8Sf
zNXB7bOm^@>ztY-a?i&QYD<3X&mLtH96A7IpQy}y`IyH@s1TRq&<8)*#$rmI{sb@@E
zB|9vW3&XNd-fb4D*{Z&_de!?^w8C`h#FK9ms4)g>K5D!?S@J%{{Tqym`%MZM68<fU
z{aXY${YL!Yq;Yb0C{a(Jpx|27R)RDX<O!9@n|feqI&W2U61Varo!S3I37xguu;aT-
zL@+352G?lnT1Dq%IsYbT%bM+ZbAUGoGX8~;CG*bZMi`LP6>ODr<GigI;4Ra+RNFJB
z|JduBKbUP9f<7>?(1#5>3*C?yu3PTzM+iXe@4au=*qbt)3(xbdI}0#wo8-NHS$kjB
zi}Su<nUb@&WnNl5&v)+O?R#)@AG;h)AG-pD#+H2JX1;OrVlX>=Cf9g&jyyxd%Fx}z
zyL$@mx`MmqfkEeS-Z$wSPIli6KukWXpyAiEu=mc$lKn)nhs<C0W?em5bI<)wjkB4l
z0dK>$uF^!a6LxoIrDnkmb>F7X3}_X~yQSJiuLj<>dJghE2bHS5*kSKXAD?%vQ6B<P
zrFT*2bA^_GMO^$KJOrmG7*@QQ_{94}6oj(qCs52%KX3Hc@B$&81BVB}dI?%6F>w1@
zRe`7p=@Q|t6h;KVR&~D@AV<{;v6@~Dbahp|4TJwAnH{^-OleA7ciG-<#d*bG;XTY8
zUGnd&U9|=bDdZCJFL9wFxKCM$I|Ntg5YdTr?|SseP@3r+$?d6W&%jj^d~nEn%d_sX
z7S;Bl-6^-)KCswN%9(PFDH|T@y~$&lMN26IF@37Dp?`Qbm`Re2c@cnj35KTNQzB)C
z0g5-}DU%Vn<vuQA&bU*l%CbEBioCrTgNMm!?5Rrny@)+-m?L@NCP_O3bVe=1GX}*x
zlQyIqmGnv}z48%#yB^WE_Km%ds97zJp={*JQ;A+GXda{yuKj$}3PxPkit_xTmy5Di
zyeW(FY+f+L(4NBdmD|a@fLmw;vQ!G7qUaO>0^3OfQ6@tL<-SVH7ZszF)JidxG^FG-
z?vJRi3<ALiBNe7BiUvi8qYS1b7?Z~>Q4#$lwlx?+;+XNjU_Zw}6MK|Yt8g@GnA##f
z4JrX_+lhb|_ah2^pMpO?Kqt$Nk0rT3q=Y}B;EyTz6ACg^|4$JUyepnhvWxeQPIGix
zIPH@u@XvUG8OsZXE8~&m1;Hz3OOGd2bc>0E-+|TP6;)>N%2G@cEt??eUJ0+3Vxj<{
zi6{xFXy{>zW9HBoM6!==<|yIW9eCHkvp6-RGHqZcDqDE}7GPSkR*|C3>+{X~`R4u5
zmMS#%<{KeN*h6TS;@kPg?fJ%&eB((<Y2BD_J<7LY@3#3~Q{e6KTjTHR-#@#!eX%#U
zeowAzujuUPUQ_FLHZL?~ySC-pw&$9#3xrcRVK2&iI<vjIdCzVrD!AJ+!@QdgS>fHg
z(gvxuY}d{^!+h7CT+`k>tYw;xd{DuBFf~1aHmJ<ht*L^&IompvZ`}#Zj>0f0H-2Eq
zwv2$2X@+f&=X&Q{>(_h9Y^MSE5y}!nyrb)$v+`FqXZ;(qwF5ctrkryST4s*T%gzq4
znT~a&n9u+;-oJ@A17+7{>v{^%maFUnf9!1fjyKz}EeBH@=XUTvOHZ7|2+-MStrbda
zdl`Muo`qvfFoE86+0L!JciX2rt!F!NUA6Ng+4^4I-8*M0xC8Xa9lSfR?DjpJo^=Pn
zm${nP?(PBWu2y4jcxx0>kZaoVp=}F{#pj(_U+4RS*$w-1y$7;~pW=I;;(br^_NQS^
zYpeg_WzDW^)w-;=lQ(zb!Cf_JC!-#OnsRwn8LjIeZ@UWVJ6ev}iA^E)>%m_md|mUp
z_VtR_y{}ijUj2H_>%P}(U-!RW_j)~Tu3p!uQ4ng>L&P(#xn99GT=i?zA{KGgr7(mz
z%4LmOB*a{GmHPUc4;DizOqbHG5z=;|qE}tmz0j*^`hwQctL|!mHA}HQhOgBiW+r_0
zwOZPpV6l40sTKX*QdjaQzUIH~S2gTasFGRh8YL7B-C0;Py<$k&UeTS`e64yima@Lu
zTt*XFW!x)C?LpnB(Fn?jswYpRY_A?GI~T#01b!ATH61sZEf?A5vYu_K#=gp4%g;Nm
zi2iF{{9&Uo8IZ>_R+09mtJ2l!nzVKdM^wLNpM_tlQhvmgY*otY)4p_V+Mlk6f{+;{
zUDqpA=iU;r%Fi_GUSsWb$gP%sl^LunAAvH$3iPZ=*NvI5J!+rzq}&`lUrpLe-qusD
zi2Z$s(sN~LPa%Tci<I+ymrO5~<+!0M-YJg(Ex1c9sFt@wlu%j9IZs>kl_T7D2m$~1
z6uf}OByl`(o}dP<uGs6R4Metc@IyqtWuU!->v~2KX|BVW5yie{xDF`}Eq^*#61xUn
zXmbB`^90&oePK(Ih#Gb&k4~GNDj*?MBIb1^C4T7l=;)Y(GMyb|i6PzitBN1fuWGM@
zz{Fk#+QwtcUMi`7CMuY*p1lwaFxn$9V+?eG;o3bj&>etSA~`h`NL+wU0?8%LMIpGr
z@!<)GEuxVC)H^_wKztDmFwI9Y!Z{B*fyvIec53~9B&x>x6j?MM;<zbJB$F)MUr@T8
z37X|2%b9@s>y+*jsUTVA!P=wOA(Mad>k%Y!PxO`~?|g_P7ReeC1O<tbd4(>Kkg2Bu
zN)~`5eF?pIB|5oDl(Ni(z91FDWF;%b45dwxM|AKu(Kr7JgMvhR*<O`}F|K_BytshB
z50kas$TA#loB8_f>5~Ol{rrm`g1z^*<o&(8zjxut($LYI|Ja<dP}}sj^_DfWEmzw&
zXSi1rAiosV8B^x+`=g5;?@cUxxv0_Z*p8rj`vaZMR|(B-IOoRslWjQ06&`QAo3eJ%
z;V?v<QxS-SlGj$)ztR$9Oa1o{`Ii2s<~sObEGeyMWg#u`a(mc{(qdNQm*oX6Ldxp~
zwS9N+H~7RzJ369cA5O(}<D~Yw8G6y+&dL^fg__$683xI)RrG=;EqLhfS`^Y*bjkV#
z)(4bd*)9!jq%dPYoJLEBCWv~t7m+IH@s=Yv+>h2P_cs)f=Pto6mXmfw%raLYxFpp!
zMgP`Wrus$<i%lXxhyrJ9fU-u}A{EzYgZdH@efQ72@GrMW#U2)Em0rMOVwFNYH*+Bq
zT)38P+fF`LxADG%Fud?K&R=-n@Ll`6c8Kw__Mxm7+X+4S`XRo42=e~=ZRwNC-2;nH
zf7re2#!Gkm;UK80VQ$BFyqRa-dG7XezY)r{4BctqTMqHw!&&=bQQ|{Fzr!mauCiA<
zhrxWyM9YxiD>3mRjJ=LiN+~8UNWfvnJOd7|0dpgzEpK>f;OM9ru`T^%1*GHp>sB=x
z{B^k4A;~g4fJh{x$gnc*jyA7xmc?p8RN_3+aTWJs`%#4<g!vBvM@~QhT`UF=B}R1x
zSY&-XppwK!a(_j^Clvfg3jUmeA_WTLS+X5wU{3~oUFwTUg_n!{%Pp{nd;52^*uH{!
zB9PcJv^aV9D!=71zUA?(y{XXHmF)&QN6W79AfO{epfB?FuB^Rnxn*m<WhdXVGrQ~Y
z?CGa+El;ET$F7zFj=+3|?>P*&zso)Avk2*cge|;x3ppjI>!Yx1FXXLNTd^@l);I=-
z$TKi$I#m1FM^0!6TkaIc-YRTAVK;6o!x|ic5AHCA-CfPSL-ALsDAQJEz<^FV5xg|z
zt04lzkWAg5TdA`OSIsES00UbXC(t@NpJMjNuTvi-IHiM2579>Xt0={h=AL*=NjD9t
zL0k+>+|CxrJ<5NLMrbLG&Y(7kGJ1$0s^Ae(aS6jFxWA^x?o&WtEcbWRY?UZ!D4U_s
z*yQT9%0wUk7uET{DPXIXeHed)+e8Dpd*Ou_2wj(7`{YXmjb0VhJG0}TzhJM@^6LO0
z^q>D9$Q*DY^akkj9=mZYUj?~5{vXW_U|02M+JbXS#q?gjsyA1)9w~KO=iA@zzSW(t
z+sf1bC$c*pN0@fOwk+>%<K1mJcSqW=T+^Jd>E+>W&xUPTwWz;o{wu)nB;t5Dwp`Pe
zuj%7!`f@e>Xd%%1j_bB7yYWaa0GS4kTkWGWO|k>WaxKSU*I%#&vN$ng{ekTI6NR=8
z-X178TC<M+du;~_?heQR+98P#q=&Pv0GR#up?up;zHMi&Z8s~~mUV0ZY|l1r{>|w3
zW8aG{c@Jdm2eRG+tok}}OJQMC&P^t9YqgZMQ`2qjkhm25b!lf&@3IX3X4}s+__<F(
zvDIifqW#UmqK1BdgdF-6@32kXv^n3nm2cdd-FEVWDE2c*iUZdm{#*XCZI`0H(&GGK
z;%6HCJfPrypT^yaO?t=BC!X4@f9S4h$#WFD&Xz`~4mg?${s2%}p@9zWa5$lWEhpV;
zfM1b)A8cJ}II}tnCWkDk=ySWRMUC4c*=GD6t=_u`Mn<uEl#7Tax____0Ze=midTs=
zB3z|T-xGe3nH(*SiV_du&~fWfgBzmYx6z@j)~<|Tr9wLunc4S6KZf$H!1CR?zoAcp
zblRYGVbxdy_w0SxTDL$@)y7-l<6&XLojo5}kBfp95uSjuNib-zVnPUgvk9q1xR$Dw
z8oHHfInaVS)#=iy(T_6aCn;}%Ia;GGF><S}RdwM{WsSNja+6hc$<>z{3#U_)t*ojG
zFTQGZv0s8WOPBO)@bRl!PGSF~a+Wp9Df*pKIqXD{;(8r)A5#_FOHdTnVAn|5g(}li
zRkZRV22z2O#|0Gx@C(>KvO!zX0aGK46+RGgg!g&I1j7xOC*_#6!{dw=iU;;rkD~`?
zsRwxCW_2FX6EUl}*60cL<12b{N<BGWg(I>EdSs)qqLhxthH*N@9_gtmW!5&Soz%WD
z3%@&-lyyvpeqeMu>w-S0o3tLEYr~xfe!N|z3Yf4#ieZ7*aVGzg(zI`Qv0Fua)2b`w
zk>?3olpT0}_pI%Wjrg^Jj5JI89x1$H?j;Idp@67LkyCjAG3=l-D&rrJ1^2j<qogAU
z@qPjd1EF&`Z-Jq8B_*n)xJ3M2Dk3E)CAi<Fj((p4fjX)bX$LZW74iH3N24*(Ev)yU
z(MExlf>qQDj-g0Q$CB(+3Jxbsj0-wCq=Iy5#KFNSa-3ubaN@=EG!vx8Uyka<IK%VY
z57FxvR~=)dZMo_K#N(O-5g0(~;Cub6QFncN9y0Fw-i2fNzQcUq;avTZ543zeFlcSz
zQF(Q3;`!+d+w;8#`QC%Mx<hb~TXz&V{}EY)_1Ez=>oPCrYPRBhubLeaDe#37mpyg2
z2Id;l#*b}{g~}SZ9|P0xZ-Oe;mT!M$;fY%>|HQvxZn)rUoDXMOGU3}DSsw_1-FIHj
z_C1#KJyr;`%o{$gZ3Hf?+lcLjDnHx_;~@CC1NRzRq0KdLdppDi>)yL~XZYQzpET~7
z*B0tqsG)_H+fkh1zSx}Ie>%JIOs@V64yB$y@Nq*6nrhmMrfTcwUS4i!&1}gWnja}N
zZ&<9yZbP=|G3-<{KCWGcOWQMO{^`uK*`^KHwP++II)5`!S#`xu=<`A8pspixadBs^
zb}v{&e|`G+pI6s2#m{;3FYkW0ZgJ*r>-S#zpf<M^4!@f6RULd)M<)DHRTuV3Y8pUg
z)C8^{F4{DHxX^KG+%;(j!%E%S!`+Rmty{iIOPl~R_a?1qJH<#rk?Ww?35pTN&*3}Q
za3omdUZvn9Wk8Il;r>0v2>zGoaPAnT5eLT+QsD^WaXl1N&=*4Zn5|@W|3Eh=n}Q#r
zaAFY=vdK4|&>H;9Zg0^*5j-Qj8++%+=IeP+N72O6@Dl6i2Q$X`oxHcRXklqs<qh)(
zGBxujcubFtrP(#sn!j_fXs}|3p?A5mqiDb{8m&g7H;xrebcg1;ix!GmH4TGB8^!GK
zPf&DFjI8z3$+-h?<l8oXC6ib<m>oFE_Z`c29^;#jXI;m6%ZUdrDtT4gZ}2VG;^p8M
zeN_31CW@I!|MAQ%OXko!CvTtRYd01xlx)RmbVVD*FivNB^t%6ngYI6?#<e)_oW@EK
zG}O{XUX~Zkd|;qxVrf`=>x&i^wQ8)DbA7y}`GJkyKd&=k=9c||j5ia>;?TEs2eK^(
zc>lqofiln>vUHg<88e(!6-_J+PKcZjEG$~9Y45&o>NC`Uah%uP*j_Xsj!KPK^%SF`
zG}fP4aK}~~dxfKT>B=Q<zC4H^sbs55u74uX-h)#hvLRv)+aNcF4jm3eS9kg&=E6=%
zZ3AWuj(%XXW4@+^74HgbodeK`VO!ea*pcWYIdKG@I5mECd~!rK)MQ#-vSu%gC@(;Z
zxOy}^dI7d)BF>Q1pcA4Fy(ITw&q!Yp0IcT0-?Qff@gTaIfm=Jt)lAu`WF->{whcqB
zUexs*^=c#y%Hrc#eLaf&gFjMZ$$0^3MXEYsz`0IpVnp@RvSfl(M&m%+5GguEO*v(r
zXe$8<{B~J?9MVB}nhKA>gXZYuB#EaJFd;vIhml`Ga_S1s8oiGc@i+kwbJkMs;S%T+
zdZkJ3|E0FYLp(Vz!ImltswwbMKz$36_=x&fgyAG5!XTKYyU4{SWHGuta8;GMD$@ER
zmz#<LB7D%y>?~(4)?Q`(YLx?6LWy6(voc1zt|QwqB<|}6db528_`pH1v!4u}DcD=U
zTyD1V=8fR|vJHf@;8>HLwFyNy*(qGUsUPmr^G%!irp-C~P{H31=?)N+zZ)inerwtR
z_=1B&nLkc2)~?39tBrSo*V~qF-^;h}&9x8bT+kob&%WVzE8uL!vKnO!(2HT1;j0u=
z#4lWcrktcdA^<o}u}Vs#pqZZYaU?NkZ$15mq3!oAUc&+Ha`mR7fg%7WaK1NqV?5Ii
zs-S3MX=d`5pSqP=fOoe|MOFciV0FFOaJ}I(8x;{dqb?vjByv!&N2cR(a_oS2lUM<Q
z$R3rh2ZUQzdQJ)IDl~8x08?@3Vj13|1JuwKT|odEm>$B|8-|b;{92i(Fe8~Y%AY{c
zf?D>sw330NN%C#xf^Rch#Lep2vCHUz!J#8k8Fi}p`@nf8R+J$VMz>gp-B;n>1M|g7
z^zB7{4eqNDcdA(ysX6zBTLUt5^hs^hO5@i@YLV&(@a={DnLkqZRz;+Kjgd7(rCO23
zHA=8Ki8Mv)*vJ&yFL4Gbgb`=+Yo=g51NVJv_7qs7{T4DgWk{iQjS^z6I8Unc8@03d
zW{<Q1Jv2nx*Jy`kR%QIktaV`48YAnXP0{A4NxiISWJ+QU%tjz8S{&*lov7Io>58^S
znN~og8?iR2RI_?ZQL|)9YmD@ub~`gf?Es)%FZ7lJ9mzoj`SVdja%X3JF`TP6O~*~M
zJ;{E_kxKte^{Napn|TB3*3GyjrxK;|vYUy1vEYnZE&;cIl~dgKdGIx%$><fpy6D*W
zRZ(#4ASiGK^RZGkMA(vH%-0ZE%Mze;Oc1BNMu!wgpCzg&7yLU&sVD<{t6E0c_eB|F
z$wn<=lIwmI6vGIUVbApLN=a-aQ<_Wd*_Dzc*5tZD$pkBx+QUTTYBfaZFLT<ks>atb
z+L><I9fZ<_h>xTS;tlIzX5(X%v1<V~g1!K2HZa9WJJa%3C2dP9*6u*KR@Q9d$~X?;
z{!8=+vwPiWEKzzPE2LziRK85$6@t6ZnY};98e@(_RyA;vfc`LE6Lv9d-n^}ew>8aQ
zS%On&@4mw4CG7dc36bTAoD&*rCq*d#B%Wgp_f$k(vbFTTpwCsV7UAQaTrJALn%q*s
zl@ZpYcwxN|i?ZrcqmNV-gs?TMCd49l#;WbgNT{qo=Bii|Qbcfc8f?k0NK&@!*St#V
zLyEz1sexG|e4`jcHaUgtS3<<gv1_urOkqbc;+1m&q?E5mt4Wf>Uv{bYB!4RyA6dAG
zB@M5VJLXpTzVtf@0U8`E5--Uvw7E`>mwrp?E6684an(f#S(XB)^vU&dHVn5FE0~lC
z=L!%7jtgUhU5<D$cVWugO%m<GF1(vTIbQl*qkkwjm;BhT=wDF`dS5Z%M(=fUi=fjt
z%kk3h1kBu5U#L|trzN+`G4=Vvv1HQPMJ?rhqOTotz0xn&oZKznskb(<N6s((%5NF(
z&w)Mya?Tokgpvo!O6-&4rC+%{m`R%@Gij8<!IX#OG805MuDbA!j;>0=?F7-4t1k8T
zHgR%QG2F^C2gB?A%<$SwYZT8|Qkqg-qZ35BuDVc*HWt~1nIR8lt1hJOTa|=cQolf5
zWu;$}4Y<uP+jfqeh1(c#JQwJ^7|GIh(@a`Pnj}C!Ih72AFNeot;d8NQUrE;}0BaqV
zd2Kuzi?H<Q)$nK%*aJqgq^CsE$UvB^tDvF;cbW;9=R$2G0qi1KUNN>9T1>16!$MGU
z0!J2rBkp9sVCUfAo7`oFqL&iP+q7T=u7qRHZiA>l{#`ty=qv3C#TF@`B@GI}5#~lO
zKv8KlIgOzR&XvRm^CQR3SzsDxI2BHDb1Opqaf1JZ+(p%a%V-n^h<KuLh6QEUR~J!2
zu$E>_X6Q$!CdbCl3k~8)JS!g<3|(@H9HCdK<-(YJ>il_ZUYp?JYLX7xqiq1L4&R~R
zgDh8+J#%8!bKz0Adx|h8*W!%qrU8kz*WwsNPj~B4ojE}hoP?&!JbG=QoEPaq{}okr
zkcNQbFjbUG-=T;1Dv2RdkBCJt!$0wF)6f`O)<l)v2@+pS!%??1KSB+iW=!SJg_BIQ
z!9>vsj#jYfsrTPg<5uytl7na1qR}jizJ+lwGu=<o5ZPO1Th{bKxQ#USO%$*<Pgqwp
ziMAr9NVX+o=x32ub`Da>E7@A4tl~}YX`(H5qZ_D5$S#SOuqj%<j{M}+F57*1dpnLx
z%iCf3+Ml;$FLyWThm#DhwoUP_*U*`7*vvO<&Nm$98xE5NbWJ<+x7V_X+G&CfvArg1
zYbn%s=j*rd^;@8Xwry7$Zt{i-8xN#Ueq>+&iM^5zA1+o@czQq6(MBrdgqs&f@|z#y
zH$RrEf1C{n47<A}>*~W898G!q(1-S+WluHj#WrC>(YL8k*Ojl^!q;uN2a)CT;%4ui
zrVpxe)guLe$N%5nw+FXzr1{N&07(!a34j0yfB^9z!T0<97D-W*sHbJg&t0#M5^0;1
zM9Kq7wzQyqzU<ZMa!M_9dsU`(Z%cHg>P+AHE_7upOIM|`bd|4`*;FbRg4uzwRLre&
z>i$UnfJE*&n@TGAeLZ*)0x8MaIN4iIk&T|7p6;H0eBJ%^_x--jA}1`7<%Wuy!=6qU
zkSHchKMmNBj%o%A_<3m?U;!mdi)d+q{+WCx9qfH7*mD{gT3aD<ZY_ZNuhF%bP4fIj
z-8*WP6Nzl(mXH!O^xmA1wUe|5MC}2pru>cEI(&PnmvI-WNWP?I1T2VB_6{j6!;o~L
zd%Y0GBe;BBpg_`*d1*;^NYowL(2j0FwhrHhWL%^N7musrY|e!_$=NA7J2$Ld+nVhB
zg8Se}bO(lZ)STY@j^?%|Y;;P-Cehd=86jnGIBfLDatD&JM>O{Q3R-&xRHm)_0lkdE
z8_dxnmQxwj5YbGm7A4!LXd6W(6+&f?)D4!EQqvI;f2BtVth(ga4~p@+4}3=Mr-ehR
zF=#mF(U_3O!Y;wT#M<%}BB#PsCwCE`^yrW2SIWGnxS*H<oo719fG71U2%H&jCDta%
zcV)}!n3Z@N_dNyaBwtX>Ck{Ika32cH7Qh?(CWatnscP}QJo0;K=$%IB`!Tq;K?-O_
z!0r`)2@@Jg5)heh$1pT~Hx56^%734P-lb7`0cHDr?(;$qI=bDxXq4RDqPu&eqzBLf
zX#QNz-WxcG-cnSvRJLRa>Kd1gQuA@K`S{uyu^DF^&cKUM>u)jK=M-pqfCTpfNg%&q
zJ1d7I5OUOczlH$^v?Z<oe&`tDbJ^$bYC@ttY<oaQc#qy{!X7s@4&tU?GAlRZ1~bt_
z7e`Rxe=-+aj?!eGshLwc2UN%zcFZeS6lEo4Ix}rISh*5Q`()`dvBERyN$&eqiH$}w
z-F@R{*ouJ392*E&VokBG3t_@@=za3___gv9whGupWo!k%lJQNTR&UFUM$XGI;&qG@
z<|-uwNMcAiSr|IXlk#aYwXxu#L8Of+eI%hqV<%-OC1z3?1h$Jt6PqbTdh=hxfkE8a
zE7#9q{lml!+52qJvAK_pJn9Q<?h|PF8YzJZKuEPsVhJ^e)j~|W{7a3!y%YL?#@>HL
zcG!KJY9&*XXlh#4hfJ+E^THYvfrGb-7T5$5Egh1jSF}J2D`Xj1*9`3F(x`M{Zf(K+
z0+~wZC#ZBONq-%?eM~Zv^p|Ap6pfwX5~n;(lDuoTR5B=*4B}W-vbBr0_GKIjcS*JZ
z(Khf8Y88gE7D?Wx#BYvlXe)ONIEGy?O4er4+WhmP7ML#8>LhI?l%$ukL~Y&DH<qS@
z+HQG{3hOEsebC4HRThB5ae``W{q=()q{ImN$9Y3_2m6(~C;;_JMghJ94^e;#o{iJq
z6ojvgeJ$RHAno8mk0iQ4X{BAML^~4z1a$?v&=bq4Cjvhi#G5)Fh&NlYCFpj9*`GWo
z4CCo;lI=Km0rty;y*kd=6A|tGlKMCJLf;SyM~oZO0{>43HjC{GXC+6w=xG0WaYrC4
zj45453UNyZMP1W!$#P9l*DvXCbMQav4xvFTomfU_Z8GEL4GgIZ_)lCk?P>78{WCc4
za8p#TJZcyNh~%3lc))L1!NyR)+7r%mQ0IwPlb(s3ICLji0g666z?%dDVkMB*#G6#f
zY1ghdm9aNf%zDBwLBC$(A)9lU<(r|ccfFlWZ{K<eaw~w~00WWEx~@#UF?lJ5Q3Z1Y
z4ChrI+>E`5C`GAJWGz+zSj!y4SWJdv0Yfch<v?Zz#*e0$b_zRb0aMROrkn^71A4p(
z;War+_HO0~a!&h1kaJ`a&_NkpqehGvvD=Z$bpAT=l9`%B+{(<w$?Iu=rQS@XOWCop
zq<l9{KT*%k@WBry`3d#le}$%jv_8Ola_!q#GP-V#ZRxB*N581+2Odzcj7Zj2(^*;@
zo)w$UVu8_Y0N^$x`<e|wUHRg3qOKlmO}#DX7!h?NPxwx0+d6bfSw8EJ$Y&k-RHA@U
z2y8+|w2Td#T_c7@52IhiUD``-Fpd+=3v37Z9}v|?FUA1R3?ve?d(VAi;7O|f;rD+@
z^-L^H)N^5xROkVo8EnNqTz;AX*@&+~fgTr**N1h{8A7Ol-Cj@!NRMJg0F?up{lPTF
zc^%V<ae_Wj-K1T~Lv}JXnzHgpob541HDDyhbZaOb+7P5&Dd|8KF(sYE(Lo{|C6x!X
z<5{E>7kEfXEhQyLE2gBB8=qz5lx|%EJt18@0OAp6OqQ%CiXem7sDx)h)xfKWA4jJQ
zcqW{a@+f7fvm;uZ=q84<aF&uWrHmd%d?vu*kWUICx|C-!xzMH1GZv8q>_`hg`D$FF
zJ{gi!=%H1Rya>{<$LEq6+~|9fzL@^@=hPF|P+2tM$7quYQ5^i8SsR4|3h-%RS-8k_
za|{Ez7g%QwPy}l|B&?jR%SS|KKbcZ5EMDkbFZ3{rj(uWTU$Fl~sO%&(x*;b1fhpK{
zAXGgl>IQ>4?~_IiJvvqBlt)b{5_YkG?#eA^V`%h!1+#yXtffei41{!UcJ>-+ZL<xl
zY_x`CNd#K;2orD;V#n}v)U6r$_&%zMkq@E^X&0S~WZLv(T<{RIC?8+!V=yY-E=X!&
zCZTF$Lsa2cVIac{5e?+;=EOEUEf~fG51X4-5ZuNfRx-oQKIR69gi^5$X;XsN%p`0Q
zXBNr)rZa4M0{q*5k)pVq7@PrK_<qVaa+x+*nbM07?s+u?XY=L~rxO{Cj3iED0C|&)
znK)BOmK=*6(!HYA#TAn=(oQH~2{?Hwkl2)he7+xpYAx8a&SjHWg|J~v(5r<vkS@fZ
zb^mu;NI0`^`hbe1axmx}5;ay6|9sw%Qa7da{ktzHNbCKES0K)jv^UKpt%~N2fMZek
z3)rGBZ`!^4J-YK7<Lw1xIVFUm88GXN3TXc^KdT#pqshO80f4iwvJ9!Hro9h`CWY1^
zP@OqOa&p3V##?tjJ4LNK8zxINIFX7?c^FgK8Lc&|GL9=5!A|{_KK_0t3)8UFt$^Bl
zEQjgDnOpLU;u{*|&P_Ka!{a_6)Ws+aP8BN?p`a7~tdz2=h%Uso<vG}vYfcL1iGWeB
z7Jd)TSsWYWjzgB4*_y1Q;1HZqXnj0I^I?+ajUc$%0<<-GW?)dK@=}!)G1!9WTlB`?
zQX1prT%_CNhMw``8DBkXd`7l|8OZ}f0CMA(rY=qb+H`h?Ze<)&I~6m6WB@@5c?T9x
zI7EST;wGFYCrr*ikb}(xX~nUb_r&gU6Rl2K$&2JAXU&KSGKkn6FoE`z;8bor1n45J
z<m`|#3(GSr<Jn_@9#02ay1=1}f&2JmB)KHi&l_X`8<;o(@h>8J!q_2o@I-uJfWp-*
zKXx!68)IYZ0Km-wkJXecXG#HlCR74rfTTNYEg(?C?3SZ@gh)$++{lUc{U0>@{}~Dg
zIXWE^jbp5Et%>mvWZpLEm4|JWVOJ|b%Yi4ZVj^(`oYoEXun!Ifn+}EQM%Ucyb;rU*
zE@*6RxiJry-q&)@Hh{&s^L|;{3LH7`yK%N)2Z-sy(@+qTjbTgWy<&N<RDM`2KOE8?
z4wtqPa!o0e%-w`66F0rnC~EN6`$-lA`oOvv;>mDNDR`pqmAqRbLG{;tDC8Kuc{1GC
z43xV~OH9O1HmW_gS>n3ef2V)Rv1;5X8C?a7Wemp=rOunDHoXnO#*v?U!F_iJRDl~n
z6P6tHqN9FkTy!)A^1|g!VPo0i>`I<kF$`v^7uy>*nD~$%FDetE|2_<%Y1oPDeZN<N
zba3skRC`jaJ-J?VGVHFE+|8o9dD$aEKe=J8S?oD3x=#d-hFvv)<#Y80#y0zhfAWow
zz7e(n<8;{?Ebm=4!0yn18SMJNsi3z9JlnQ|d=LhyA*+spv`NNZ(FiS7f;0}db_T{E
z3%_n8p~kjuc7teJI_F{!_FuOPqqSVcC?9R$Dq1CPpXlv_jXFu^5p|x$W+)RbzPXYw
zbsZJEj;=L_x=x6dCvZ+tQ4rL6P`4Gsd>CgV6{F$OO6aYz;HZ|<SIXRru+c3UD@9}F
z5-%ESmQJo5#k+dL7bIYQyLdsrFtqSmNbmkkUvk^_Jv)Tz^UHAPLdPX_;7CEEa6>!t
zxuuPIm8TOfvS57*CiBRW_OBmY<<S9r#P0Z5(K(i@Of!u65HKIxB8^})V2zgbwgM|A
zVu9lI^h@Z38O-+N2}GP8XIiTXZlsZEW24NpNl8jv#VI&UZBj{y(&wd@11IvB3DYm8
z8IBbqq>dGFxeTm2lyA2^W{F+Mi_TcnE`aW2*j7DUV#xU9VEdF6W3efc^cD7V2uq7u
zmK0thN_>!R8R2Gg1hYSO6k&*&B-bY?X40N1@j_%qaV>m4TEE5#n@rFq5ptvTN%k{1
zh{xgb#7WHhzQ4xXjF4%exLO;wyI?Lpn{~U=b!dR2Z|SNxb@uPksoT1)Zp&LOVd#4g
z?H(9x7>HUAhE+ukhQpS{F2TB>rB<>ui<agv5l8&F&~LZOx}*7=wPl;jVg1*@X{|v`
z`3LsDDwV1atydpnWRy-)m*%C$A+d32)g5XC*Y?m>(mErv+_{VCO6v#u-|m957t<o+
z);$4u6lZBD*bE*iAbqK;fNGVEx<TfbwGnFtv>94Ku76rCW>kUR^I&;*!lV@AD?x&2
z2AtgD{E|2uQeiV0!mJM!4hC}v*#=E0LI>FO(Rfq-=x?!)PUSC?sj62LI3uB=;-Yh=
z%%6|$j~Olf0$_gpO>jvWf8a*W-1w!7lS0D{HR->#ygq)dfg~+_7pJbogfJ(42*@TQ
z?UMqQO}$8!8R(Aa0SE?hO=iP5_Bh7tqmLq?hw%vrJruCtgo*XtEIyXfjjku@>8V!O
z-=KQ#L5XmRulJyrLDOvUV$jwC2vtKKaLkEqCt2%6Yu(awD`%ztGh+XlptUY!J$tiY
zs}Mw1Hj@c9E8~>P$F~s;7CCWtX<{EtwV61}-LX@TOg2uYeXn2fDwt3IJYh_7FV$N#
zYI3E%hl=e)R!W>bRB0!aDRK5tnVnFj#7Q+?oLTubI~hAc&B@@fQqavMcHNn%`b=TU
z^9=iKU{#}!&^3=URbWs5pQe|P&z(=fZptKCnPT1<`YLZ1LT4p|Oyxul?fwN#Qh9bF
zv5$u#XmzH2`UC@M!w#KRtL*aU%$ei<_|Ox)DMz%KY9=S8<}C5IlfNG%qy`}yNhF3{
z$^DYACnYpdD?(#RuIRhzSEhGT%8_A@oKg<W%%i?3`|;BP>2jr)4!uO{*G_vL4xcW6
zI1DP&+Dww7fZo+kS7nF~jzuQPQE)D_nN%X6vaFqM$dHZ!;Y}IBi&E+yJgf8zdwD%E
ze&Zuzny?AduB4nfI1t8Z^v(1uzJi-jvx7<WZNCxbZ4iyIyG=6=^xE$9x4`+)Ae=~O
z+LhA2rj+s%<0I`tPKMO-&zt=we*uL|C!|M{uf)qaUkq&hBE)3x?iX{$fLMi(OwR)D
zm~}!u4<(ZM68zio@9-D<Eq?R7Yu-6uiu_c#H&dO!1Q4E(Prjdb&mD-D(eIA8#0VG2
zd+82(pT}<%%zo>Hmg;hPC>}HU8~-Y~#vv7|o-YHGG7chrN`E2!3J$+hZX2J<Um9zr
zB1owoOr{d|f%{~O(~J4?nSzwjnOND#In9>?{+Lp?_+5`k(~y#;ci%L<Ny%D&x!;>8
zNrk_{@1=GCC-Z;7Z(|mFD*ctnnW*J!U#ga@(}&~Vo%~JdaYvG&ai703g`Vt7Bd3qW
z-%0*LUo;^DJ$)h>9`{Y;C!hPvsE@?^1NH@9q907;%vbrp%vV<ZHhtyXsd)W?d+MNZ
z60bGJIrYp}KcY>mzuK>zugTmd{+f8XzjSNYW={DL-(UOHet*hW+WeLNDn<*dnOjRP
zJ4&?q9iTJVp@WjT;KPZ+yepu%bqk}voKXUWkPrG_E>k0Fb(!)96axP>g?QYV;&+2W
zfS*%BJtVeHuEW7O&h-8ecC%$Q#rgU~NI@*5;Spn|F5Zj%MeJOsaqcuSV3)tlUxJgC
zMt{A(;jf5;h6`gpR)%TPCrrEIb2z|u3J5lnof$P{9?QSeRHEr2Dp3-n5+zvK$W)><
zpuBZAg-X<?Q3<x51C?<5a{~%r>DRR4Yg!@CA+fcy%5UFAD^w5Big?Hq(~7xg;sYNi
zvMiVB=i(vB-#9ghQy8Xqm5IvOGf<gW=^vZQG=EKHsOGWaO0GqkAEGk$7?rVOCnZxE
zXCV95dYsDm6uA2|z7~;pDlF{p{JHG+@4u!pPeNrLG53DOyOa5rJ;q2&e1y_^J=0#&
zzbnR*@8f^#b~dfh0RQc!o^2C_Y{%F>-{Eifw`JtCGCs^j9A*gr%-`W}eMFpZ``hF-
zr@x);P+DVm9dyUcMV0N*bK2xt2jys&XQw|@$Sc#7K1WYzhtxg;E>Xt**BVQu!{4!I
zD)fX>d7N)9dW>)8Z+-hQYOivS5+}cVpZd>G7msd>y>d*}(LSx2A;&K<(>^%`!2YcE
z5!CQ2-o4Lv?$L6cDLpfDZ%mEBW?SrbaE!)gTY3K<n|YJr5Agyr%)}}DfxKIP4!Jg4
zCaxtLvu}MFE?TD45*)~kU;2m^`+vqmOexp%$@OO32QG8Y2f8@Vb(+qn)2>wh<b0RE
zD<k!jK~(c%r&uq=lbA@rrs5Q<>(Q$L7%7Cz#(cNG%im2_VqxB8fKI3Z)W-Bu;<nRd
zqiowa(~}WS2|G>r4iV@i);<ecp$8;~ccbIn?B$uMR;K<bpS~vK#Lmg4w_THOT!FH`
z&(%BvL;=!dAyGU!!Um>1sm|et?wF*X@Cx}x$XTO2NX+j>%TqDoG#B1<$)+V-m#2J}
zNp;;tYV&f!DUYig1rJ^Y?)*4V4uqIRSJ|$>tMoyaD2rc^^Eb!`cI=?h&M<OhsX&G*
ze~e1-fa3fuIe$&JQSx0R-_OXmNDc#S{~3i5kbA_G3L7MgX5*7(t9JjMBIE)#|8<lK
z(uBU(u1-$gn2e~Pc074WmLi<Id}Z!Bs~O>cQld;V>_1UPJ}Nnp1}1aJEbz%PhCipL
z#3UE!{6qLJ6onyheoVf56ehumXrG3)+o{X4#hL0JS#IKOO7#!OVG=ESwl|3^qQsN0
z5riHf1$NtY@X58ZNO|q95aEv~?SDrlVV@63d?w7uz=_EG-W1UEBKfh<*x`MitbBxO
zfvst|m&$%w&w%-LmjGdf?nWI7(wV-whywrWm>vYI;;3VK59Ez0Gr^lLOp=tMY<~b5
z$8K5N<SmO&vXMz>3CdKq`<@N+hGcf95SWmuUlS=vfJCydgTw_gngrM{lSHL@%OS*J
zc$gK$h$iI|A~}RTOmVX10U60*zpwgYp4Z_)zRX@>>?<jD>?@g<5<h=w_QJ)ueS*~V
z^>THj1PKzgN|+i}O_|HD=Eq_%piCdsy@c5-lL`4xXdYgg8)xzwadD?7|78L?5i98u
z$*HH&j*Mm#_Y~XNGnuzZvP1(JGKSc0sFd_=qP{JxEq<VY;{Ucv&BRNL5HGoFyJLgl
zzvc5GYd4u2aHa(~%I>~+=fz-E-^%%rV~CLVT@~-;y_*Ld)z#sU>o8<cHXW`-^Lw^;
zZNa+1RZoaXaU$ZDZS4KhKlk3P{eJDgeN{OFrNQ-D;KEe{3&vbmC@{9aFY$aMWX
z$8R5Bw1<ohFsq<31~v9Y^?L>H7A(8hU9Fo2d(iPr$nb1X`|OsX<ekRbjf-y4P<}J#
zbB!rzuKnQbhNfk+yqdseNqOa&fAQk`FG48O3%N))Qr8s)i@Y0!6(6)Ny}404u<0zn
zd*jZH56YHiLN)!LJoD3+K7MJ#c?L4BpW_Jt7=v{KpG^Mr^2e7qoM)ja1L%r(N^Y0H
z0HmW#ax{yMW(gW{4xm-SEP+$9Hi*^+R+X8&t_sQ3C%XDjZ(*lba`uQ$*p{@1Jynut
zQ1n2w%1ODtdFM^Yrv;IgmMkl{Vn!j|e^NuDwGLFE)+K4YqQ)E2R4%#KNl?xktms)e
zEmjPO_5*)>V$1H8?2V$maap-C_LEZ|oeJ6;L-yl0Pi&%cU%36k!gVy4=o}20hM*H|
zhAC;$+%B1VL{m@5)ORxv)}(bF$om$Q1WQ}Q{1!>uDQY`6wB1_<=i-29XqNOHqP`=f
z?;@;=BFL3CwGdc#e!)#e*k~gA7zw9iaJ6P_dhv2#{$_qW-TdMO+d9m)=t~x+MSay$
zkEm~_lq^6HF%$>hlJu1~hd%8*95i_s&x@vN$y6_z>O-bRbOBTA+Uc94!1`DO?nc9M
z!|HLd<tfPjE%NI+_u@;-r`Nq5Tb>5V(<XY_g6&7whC`lHw+lb_co#2)Jgv~h_H+gc
z0Rg&b7Ypl`>sQ_DEeFHyddb}?x?6*7N7m4dPuwo}++Du-&5*lg`LyWn2o!9ZEDO%1
zhLEZI=IB<TX`wV!SV_>>!*_ZEx#1$1=lawBPY;|5Lh|@L>lLIi9CCE7xYr%M!DpTg
zjE0Tnvc@>1o9}AxXcwRV(KA1O@xvE4EQ6m}9e0cX>^A(M<TI=Dj(L$^Z25sBY;(a%
zw-rDmDw7$)*nP+OptX9*BU<ZaUGb0=pR;c544!@(cED^U%toiAtAx3mO{0~KqT(N^
zew_DV-iEPPG7gHy!Bss*uJN#BJSiGauDup~`fSMf4AcDNO^%%`K#TyEV*iXbod?2@
zXs#BGZPYsrx3vL2(48E()*pF)T=QYghOu8V4vWU&)#lanAtP+4JS7^RLQ#WfpA8wG
zi|2`6rnf`bP4AWqzNFdEwSC%q>?`<E%C#u)>SD2Iu3G9A&27uCi{=4QHxN+3X3N6q
z+XVqNbu2vuuKzTDOJ`na4C$)FM#sYJGB1`ki^i7anUHa0>vysnzyR-(TC}z-1GS)?
zx?j~_>X(L=jH0ap{czXarp<Y`?oQp}wUDiW;KFT30y&#7C2zDX064sRrE~T0+H>ej
zPD4Ng>gK3LYuMW*dyi=E3EBICLuW96#Gz+J`*YMHuHV|860y{L-B}*dSw4?ZE_29O
zwP`L1+Uu5H5bd3ky-&3Fh3o?%^8r{CFb(os=6aYBFf|Ybu>fJm+5L~YLv0Z0DO(&T
zosEGFWA`tN761SBrFi2#(X>MiXiJ>})Ehd0dBul0-R(ai{N`sQQXQ~WJuZEVfAtf0
zSubYNG#V%?C}ndUPyuRz0(Q{TvSlm}R(46117hXCiXc`FuN#NMma1TFpRBU9+9KAD
zu3JVyI;}NJZqWk$oPN<V5H6`(IxUto2AhCJGX#^~)?sGwpjv{ZQA=akULSF}gJrG3
zj?p!}*l{#ib~NZZ3JeHGDd60!gms4H24HgPMN1VdIXv-eL0EsN<V@a2mp+8jS8({w
zicYDbU##d~IWJZWtrra?7ENJGb;RxnIvay62c?!Vv1M${Bet9fI!^@cCs1aq4P`c&
zQRd%FD*I1D`}aq-6pMF?-}F!j>kPDJfhm;|n1NfmE}FYmuy`3+eI0A7kH0ONpB8mb
z?^?m6EoB1v$wf^R8d`>`=rwF93jQoBa6F{LcEY{y%6qfew$K+Uu3BmliwQ+QYnQZT
zqPA>PXL?6_Tf6YQyye=^bxAtH8(A4&HH35{lJ1zOJGM5oCWLfPhYc3caJ>}^PG)}1
zT6$M~M~$w&!f#l5B+Ia9k(Z5@v77l}jU|Sl{F<n7FFv=fsoOM^2AyX@2JFbrZaM2D
zXOrk`3OQ-5?(A48#?FSeRZ!3=Z3z})XCj-oWmeP#HyAV36=~r9fP!GAUV-iMG9ie@
z5j9C>Sa=g}L^KzGP3pTmIrr-9gzyIxe36`LV)KyHyzl}!wd63pD#mNOOt+)~E0A85
zY-*;PxDSM4A$*sf{(zk4>9(GH<K%mrd`x9`l6)l1BPhwo%+K^v0!PR>MvjLbd`MAd
z$TtgzL7xmVc7sq(Psr&&3O>r0%*t3`!6c}({?g*za&?DG+rt*y{T!t|Zzn6;njKV{
zph}vpk1BFiC-@~;=A+-`*zZc~s_~<q2P|wmD-kVf<c9eX{sDJ{SB>$DH=?p<rS(^`
zCwf+)R^=^Uh;sM|4xHYm->6xqDp>XYwC>|NSkzM$1kXITO~27{rD~L4$%=CHyQ+i{
z2mD60C93k3m!lkh){NWq6Yb$uWw0c3<lQ6hoqG4wHiz42wpry}GDkW5&~~m3V3gZ*
z6YbyzKml`};#CgNiH4SNdG&*Qy4xzUywi8PFREgXvN>1VGVCt&B%)dz@Az-~7bnEx
zny7}w(Q>7pD0`Qg#38c`+lB1OB?Z?v$cO8j?`u3MDZ>x?jI|BrlS6m896IcXSlSg;
z(`_END;EmVaz)l?KKaP(4&@Pq8k@RyyO6?;@JiJXzg29fvPD&NgB;{|3rbOK-_BuS
z+8kBs;*q6imRna;Khb`q4YrPm^@qgrQ9uZ)O4nM~eE+r!>TjyjsNoHzs&&h3BV!a%
z72O~~vn^<A6irRh92NkJH-$H^e%JrU{)IEaLYJs^f1#!avQ8LvwCcAaIp@wz%w9Nm
zE>d`5_R=LV!eMa6*D!wmf<Q`fa$hE1JTs9LQNMh3<^n8>1EigFHDTrS`W1qjg&-Rs
z=D>iwa$Wc#b#)q3;401nOSfTWhK-*{QT(=nrGkvcF98FWQe=MNEqY0R1!!~QuOQWi
zYXJSl6M+<>BHC0aVA-6L2I0aIvWs|AA2!6as?JTmfnb*SxvO(iD6^IlI<PA)vk~BH
zcn!wHTiICw5Thm=WC+}=vi%)qX*~H*zzHfRkUCGK=P{CE8Q^QuQvuhHi}XE40x|rY
z3`r1FNTeiF60g5H<%1@jpr;rvQl4u_Ks7hSz<+%W!sIL9N(<Ko!WV%l*xk`CjbBF!
zMJx~Yh_nv@=S+>&Fahp5YG+pP352j1(Zpg9dNCuiK-{6^CMbic^U#KzVCt-~h%!{M
z07+l89gE1S2`x5x0U*ah1Irx!5UqEO<tUH@e#E&?T(sFWfezav?tNlinwkMTonS*e
zffSn}wfjY$ePwFS7e_Ff6$Dahid63N#%ou{ae{F}F0zASx9$_08S*9gv2hH&OG#V=
zfmER)^_kw3>q*vnY<PWg>XldLVx5~{@go&`z9aYX78$2aa8cw!Idb9zL2y&3IW4q-
z@xFcX>{UiFOzANg+L=&}XUr&D#P(1G*(4E>iVBKVNe*;8Fe{T&0|zH8)M0Rba}`k4
zlWcy*(aH>rFugpE6Bv2YC5<SdksQ*2iWq6!ww!C1M{dl{htN#VNe4=3C8v!XQg@2v
z#iL)lBy><{Cplg8NG($U41NX#F7!~KN+uh<6pO7dNY#h|V>3W;qD|~TYmkDQK~N)_
zvCCIxg}FllAUGmLCuRxM`sD1~=<L;*2^J`?X4(-~U`q~mD#lh8Cn=HF$oURAKP2aG
z$T>>{^<{EswGi>1CR%k0$C^nf>Jc(0G{&q64PTwQ1dUi`+>DtuiWuZ^j$_6cDM3eO
zYYhh5b)2#|3MZ1=ht7ra4hUN)9<t(mW_Y4mJkQ^6;P{@u=Y~Su&^^v^k2C)rXZQuD
zy~mk8<D5axd5`nn<Erm*efPM5FBDn4;#au}IN8kM_(A?Z(~Af0asBr=4~toLj~l(m
zb;crd{1Ki7oV>@Ky2l;6$2ES&o%)PB`h_AJ>2Tx}aD2lTN)@jFDh99kLK}bZMS+r6
z+~?qYk%v-#p-4tSL85tCy!jVO6PTrWroi(db?NVCN3*l}s^vpJKK|kHZ6sZ_W3ci1
zg{SYnaOZ^`4&I#}CvOX!e`o6U)D8#l&IsR(2nt&I?r`w#yvld*MGNQePTfHacy|Q;
zTT0%s=y|XD-Rd2V{P%~|oT7NkWDc8(VapLFm0^bQz9!q8y_1!zQ0y3*ct>D<o5Rm`
z5dxwVu=6r+;PZlxrX3EyJ2fSIe^`mdamP*;ywN_c`UD^3ygS*yr{c|FW%W)Ld3HuM
zMjq%D^-u3`<N*$aqAJK6CB9PRE5pi~u(~F!?*Q@x^38iw&9{b?*?%<l_E=bnL<+)6
zJ>qO@=)txIaqhD?|1J8BQci6QnyP|1)ekrx8R|{{<S6wA^M7YXKtJ&+k5qAMRq7+{
KS!-=P-2V+i04x#!

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_vl.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..555729e6868633c7df4b5646e563a014db5c2115
GIT binary patch
literal 68928
zcmc${34B}0c_)bb1_2NNPmly}LZm2B_bpNPNwto?V7Fn403}KQNj-o%Xt2|9oHS&&
zr>Qs@QE@wBJ3VRkSQE1|PE2p|i`7Xc=}a;^cnu{$zi59^COw;Ylih)uavXd1x7q(!
z?*K?WwmP0Yp2R}Ex~pE*SKn1%{i)Mw)8L64zB01&ziTvqLof2fV(_x~MT16jOB2<E
zHBoI;7uP0qVO>HW)+Y>ML&6v~CQM<Img4krbHWm~B&=a8dpE>w347Si{KmK=;S4*O
z-xRM1yO7=#cZc2V*ORCWS4wf-MCFi9t4a96eimYmS0$>$)y!{+*CcAgwajmg*Cp!1
z0p_>G8xoD-#za%NiM`w7!9;VoInfesk<zvzZ5#7D;_Zo!a0l}{<DH4Fa2NAe#6yWy
z;Z@A<igzb^!adCIj;~JihI^Uc6JL{98(y2}3-_`2%J{m(`tW+@_r^CQHikDczc0Qi
zu{pe%`Tg-NiLK$S%wHAXme?NNp4buI!QQLmI}^LYyO_TwzB{oeyodQ~<Nb-f;l0dX
z7vGoIAKuUW_3;CVgW-eBABZ1H91b65{)YIG#L@84#If+P#PRU)#EI~U#6Wl;aWZ_8
z#W%*ENt_CwN}LX#PMis!VPQ@2vx#TJ&nBJ=KbLqu{Cwht@Cz(F7=JMl4u_e)IsTc%
zXTzUm{+9SliO+>U2Y+j{EgngHKK%K_V0bWbE_^OA6dp=M!%-I39*-r4!^4U5;q!?L
z;R}h8@JQlf_+sKx_);Psjwce~1WVTuA5Dyf$C$q}KAyN7zMSB~9DDDIClje~DlrkB
zNL&eDNn8zIO<W6KV{xJQ^~7X&GVz7*7ql9kCblt_{+3ppwBf1fs_@G?%^^*+`%9W=
zPptCd|0Pf7((kwQQtDS&%GF5O`;?SF%TlgE%C%2P`9+qp4=L9@CFRetl<Sdl!&6dz
ziKX0#l$&B>O6z}~g>FXZmRLCU^R?)d688%%ZY$!p#hzUj_bSG$2di#7{^;M1H;i|8
z$|K0~?LxlYF-|V+Thh>lGc0xwV*6v4<=F5Ily`Vqd(l@KVc8dZHTLtdU%0zhPRsJ|
zL;n5hJ&p~<24m6Kxo?@p5|o<1a@`a<Fxh`(bU4PvMu%dn$42AVgQu>>M%O=gJeU}Z
z#^S-DvBdabYUErz7Q8x=x)3}(asK?s==p<#LkNhCoWGDt_Wpp%4H*T?zQK5W5J?5g
zkyMN;^QFc(!F*zHd>mN?%bD2a392uo6RdG=A~G~MbRi~~#|OF8$Y4CA6-*<^_z2>)
zg1&$B`T%|%dk0fP7Y@b-QxhD8*HSCjJ$L*_V(@(I8E$MSmQ0Ru2M3cWN}Nofs0bHJ
zj!aS|ZmCO3I>9f6JU0@JjVZxM>Xah(jg1bEoEN-Gy5z{%s2GR}oGjmoSZXjjm>NWY
zuRoQFji!)h@8Hm-*l6^?=tKhHjp*3WrO3p1GR4IP6OrM;$l#U15e(8ud?a-pDg4Qa
z@$oUV7DF_2Awt7F5~m*8o{Ps5QjO@s-oa#S|3o5j{p2`RlN3Cx4dp?|<TxKoMaIV?
z=ee<oalG3{Mn_VS_}KaLF%GZ3NdLaGN1p3Hd*tLm<n)0<N6wr*{URkpJy+I8j}Kl)
zGM(VtHx{2rj6O5S;d{p7$45qEgPh<wJ$7|z5OTVXkDVV$B}+r76)I0n3}PrIF>A_(
ztU}3p;&5y*imd)<Y<O@Yo{EUm2(289vQ}1{K<LN`ntsP(*ON%<J@M@Evqw&x+~0q^
z)NGSbDJL9^@5gu8KQfdO{G~8ywwxJ{4J`>CiN&MR_w|)hAG<opolj!kCdw0+LX(1(
zjX0$U=>;pBd1o-e&^oETVlyZ~QYb5#+J@dI(K&-qO&_w9K^Zu~18-tHbvia4$J$C@
zHVF<f=-F}1GE`IkwjXnEBu-;frOb>YqvI2)<lc#qxHyj9BcoV_iCA<5+0VvCu|Oz;
zZ6q0qk0eu(vEd&OgvY`yYwUr<xmYxcWttQmXT+(QJU({1UvSEACr*z&b3mw6UX{)Z
zHaYB>XF?XCn%2&`$i~QXBeZyw6(Te&jW|7)8sx4k^$Lwjw79yJ7_ooi+GXX6@ltTz
zvTV<cT#Ln}xUwSIH~fSm#c#|;QYb5u1(y{`^Osfl+;Qm>V#okU#}sgLaE#kGIFTHT
zA3q`3DCv4OqcPf^{)yDs^CIj#&L+K3@ys(PMv_UC!PcPQl%fe_#yBAmNyNDGu}Ff(
z8gO|q9*LEGr^Mj(bFs)c7aJbAM$4Cgz!j|f!BlEAa!v$DLNhlp8i|fak{1TKXe=5@
zaAV^!B%^N=VX%Hg^LdSCh+w(=*d@>66?k3+x*F4jwLn>QR*m>CYKv-P`lt?ndi)vi
zXN;PLZ5hq5HfsKoGi-=jV#bROxxmtI)TkalY=~OFWC)uxnrqsy<%}j|7pmCkNz>>V
z+6UP86KvR+05S>43tlWbfKd!gSs<WaWaz@+=x8jS6zms9qS4r>nB2t0u#t=o3>ix;
z($MxuNX+6ZaDG{POOwK{_}nn1HD5(qdF#|_(%Q5pqLbs(I=o2;kVca>;0@@#_#jT3
z)(-2Zj463MHEBK47}Lh6_O9+*QX7!RB<H!V3F!yU0?gPi#W*xyYBhEdY*>Qf+{j=u
zWEPCc37Q?2NQ8m;2=@%~bEn8TLrw!6!7$E^T|{C-G8P{$OL1CB_8cX%Mj}J;!DKQL
zNzyn3+4IUzj;={1#@CFGjIYKb#k^X5ZDRA*EtfXO*2G87tr@?bx-d4n<_dPIHEaq+
zV%K6rnBAQCnp|_4CVu2fym$OM7e=|0P3j-BSMI~lAW?Dv&Og1Pd0e5fR@^Z2mYVyP
zx<XxB#_*b}(7GvOxNiv->O1JS=3(`!xuXlVY}LMu{eiEk;HakmHLV42W5MHpY&ZFB
z8N*ktizrbeXs-<^pA7HH2Y-l{Tll0G@w@!_EOJcgru2waK5!{bS{KDcxTt*WvKY-p
z<#RqQRGtD;RF<`rTK1*2GA60s2IP|IN;wODza{k*rE1S;-q8*G;Ggk?Oqe$p2FEdt
zu8hR4iqnNnoX;Q+n>Zl@_gV6P9*&?rE@<~9se?2nxX)3Td3cP&b{U;yfOY*7OS4ys
z|0N_&z5wSHO~K`U{pyXYHw+nVrmx^|zJBn=!Rfx~b2DxEx^;Zry7~RzJ^Aj*duRVR
z@?Iq8cs8RgINYxvxp8EA@GHmjjt1V*Ff%yo%QyG&&3!q?I>fu&84DLd;UU8hD)93I
z>h2Hd8;!hz=7y}aFh&Oxu}DO)MF_-A#L4f7L@rMZ#-$kj$Y_eqOu@)7Fu^45l-var
zBsis2F%*l(BawHs+)D^e(yqCOjRbcRUgo?^5rc64=}VfTNmJiYXl*Oh2MYB~kL+Hf
z?V+!_Xv8m~8k>t|@>w)hwM8rWY~-U<MTf>#@k1y1RvC<*8ULNY?Lbij?_B%0d*12!
z5qVjkS)D_uPI+9CZ}GR`DTmbrp)XpLbc!dci|V7=VI!cnk)UzZ6f;H5F>}mvu~JE-
zc+P9p!-sW5A_2<VqPj^esHin&kJ@6U;R?0~*s%vVqK=jFMxB85P6q2M0P8CRS2=h%
zar~Ks1A>OI*vPPm`X>dK1jpq7j^>wO8XQVRhDQYlKJ91<Xf#9LP2!#?cqWpu2%+lO
z9YmaVsC+<Z#nHT3oPo0p@LQGx{*<z10Icf($N|LDrmt(Fx^L*x=DT{C$|~OwQp%cU
zn?Wg$;fXw@(rFV>AP6=D<G{h6*n8s)8IKGP^@WVA>)a&u-!5)w5!xBJFHndrI+7#`
zERq^8&$cdP=3YcRoAX>FOIa$DYg!txj=PS4kX3{SS1I2$a%jw16sw(8$fYTatq<xg
z0SkIw5!VTW{WZ%zt^)MmK!)TcI0W>4WkCNyT`z;^^?>Dt+V(<CL!l}#{ld&=vffak
zy6dsaQV;O{n(J|;roN}(sHeoAoU&M{scyiIU>BFs=TWKpo)AS0_5{sEi3@^P<w2<0
zUZA<Cd_5&8b`=?RFaMp=rFDSI+JTUs`#EF~2lR{ZA)o|+ZHf4JWNacu$UW7HK^4c8
zAk-wovSkR21tWvr-$7)u3l2c9zxGz-W@Ps4+n;&!GxNUhHoe<)&y(xhmuugj^B>6A
z3a;9$rB(!`E-sEdT!NfYID+;dFo%)&1UE)+hI3<MagJKSjgxbkoMwvA12+-p6g7+E
z$VtK}2bL2QNY2+O;>&OdSOWUh7q)Kue%1G?3hOo%s%i=?osT>X#)gOfnxYZEfSGj-
zMKk#<8ke_dC7(^>shw%R({sCLrg6^y?Z7*MZ0$zgy{TxYScj%MG`E4TT2pk=YlX(+
zE4s+%)&zn-q{554bjCUn!2U=BuQ(m3aYOi1o@&Xrn8q|HhpH>URAT)AuBzj<QT?zP
z(AErSYX-D61KL_*Ry7t6psi}S0&OiZGt$^E)+jAiJW?911dW|h(PxWQMC~ybV6idk
z#BT*)e-(q#F2HDa)U94))U!f(<qF~66~cWhgjcAC4?CiM><u2aH&kM8s1iKo;A3xm
zZ0OPeM})~iK_4AS2v)FMA{W40ND39SWTbrpQEXuew$U*z5s4FzV;R&E97`xA7wr~h
zEF11DDj8C6cf1g?MT=nZCvcW+8205GM%wsFeQDE3DIi^SPbPXmM%#=!4QK=fd|*3J
zz{?XcN~tLs4<HJKC=XNGjLk`pjmDC;rfqi(-;%aIlqdN#nv@qEVGnYEHi;Ugd?w0w
z*Ic%#DTpSvB+J0xe)WI<t=S*_(fqD=z^jXmCnt@)G?pO$t&BpA(D45&lq|T24v7sB
zQ;1PB%f1136N$KAgmZS%(2MVf?Tz-H(jHgZWkU9{EsQoBK{q-oSQ+U&fR8K~=~MTK
zKkK+1l)^yGV!%hxQ|S&7!hV&ip!RXElf!D9CLispr5a1E6L&ZwXaR@ir+kxROamDp
zvstQabMGNnl1is-uC8pGE7<*6d&7g;;9He%2i^?KZ@6E(C3Eycf77h~YZ2^kwlePn
zUw5IZwouhn2sF`_$o9i$v)<N1;~IJobU*f3iRgLFimlYwT5z}uj=F-kR@xX@`m@u!
zksRBnkEkONjTX^;+t5TL8M_<@yGW?u7;7dnK9(eYgJ4SxUXvmPvy^B^nR)0J%_p`l
z-hhV)s(;b;S(@pDR)IdgtCa~O`Wi&Wpgd&_AV_);N~GMfr?hh9jaM!O&_p-zj)A*_
z9Na89Z<6y(I3Rt#L4MkyxL+lQx)L&#_G7hNNg4!kGL&u2j7Pn6CP;MA-y(VPc{s0V
zup>DurVY2OH?2hR9KCUL`tny!6snsG^}ukN3%>fIUE`@+)R;WBM;epUmeI;tEH^DP
zzB_fd>t_4E-jH*5@{Z0WWRZ8-Ue3LW8o3NPBvlY>XHTBqcQ|rp|1<q;cVE7*-=;*S
z6O3+Rn><HbHg|)ZFgX{<QQhfZqZo4T;V)T_y_0r&hi2P$w#{$Zq3ra9)&2R^$NAOA
z3&HkB)oq}ZobI9#zu5IbGnvU}(bNWtR`RX9>r<>l<8PQ5nt671@7qV-Jd$l#&HH-i
zeY|gD(Mi!23R2*rS2rOA9`aQJDJXi$=hIYo7yaa`($qB;sXfISqRDE>cU<c+dLG){
zukX0AqiBR5ZS>dOI)3wb(M)e>XX72mZAZ~cZ#Fs3PHzrPW%aGV%|OvfZxtGw>-E5m
zz>i#b6HyNuttF_343eK9=w#*_{bCz0G2g&`15%*MZd-yB7{R8K&<_bY02%_q%}ngP
z;Yx*YvjJI9MKM6&sfL4jx0IlBiCkcL5isW631Ve(1A-YmNaFDec2H}n*tHbfD+oLa
zl}T{%APSP$o{Yoiqg@%0D3!c0F+2>qhG6`1FwJ&qh1fz-3PhU499*_jTc6meb=di|
zlgKj(D1-e`+KJ&e;*B61djN0Bp`H}VIS>xU!}14cz8)BW(yElQgR1gHbs!;S3_y>4
zUZ2*<@C$8F;9SZh*P~vmdT7)j?dwLiubaLl^#diB+NWSTYMAM_q-v2vNtdd9N?Wu_
zz2+zCb;@}eKEYkYD@S}I?w8@5<%q8Wpv(x)(w_VZCHPs2swhJR&QR!Ga;P&L!7uJt
z;0OjbSBTi<zR2DW9XS51xY-lI%c!rAO@#69P{6+>hv5O#U$M+m?P&^QlrDWr83|ZI
z>WWg-a>kfA?G;?$|3uE@pTYSj-~v_UxIleJcGZrBL4MV4zJ8C$<80ePzs&`^D{pW6
zz}{A<Ys}ZJ;_Fsrjy+UI9ej;5U&#5o2@7B}v^(zz@Qwhs7|A12$xDc7r&%JV-J0s!
zTjy_{|Jn%h+aJ_*m$Es$<!FRVhKo7B>RN%Orb))o0;pt&G&KU2KU@!{tg^&PvEaL^
zZ264qs<H^>r6VtyDeY+YO6AIFewy;1&Z$-S#+r-DLMiK&vZw(bG#8acpq7G_WB>=+
za7M$OLkh5P*ew4I__-K4Z06I{7AN)3Q6ggrXAx}I6wa5RjR<<M6OuHlZ0?q!EKhRh
zrD-c6F0J^0Nm_T{DkziD?IY}Eruk0C?T*>X*|YifjePsYT-~Oed-IL{hjR4S9C>#$
z?{1!LnT_T<Ht`)4pXq;C6S(8L?V8i(YF6EFW^B{_#IN|w&Ckr%<@`P1PI&ycnr=4X
z&C_$kl+kBS6<n1Wo5-#(4KRRlP$C3F%h?xYcnyOFzfMDRgPdk^zDy27WyZ<JxEU)W
zHFK1Pod1r$B!LK#eX(_Cp{2FZzDmJq9(mh=#{j!9;ukmqxVvWZSysePtQ2k2Gz5!w
z@;Nk3twksK%5WBX6>%2wi8u@Se1xC)$v2?28oe^p7+#ra46nE{sqsVjQy!UETwIGS
zr<}b}!ZD)t5{6-5jAD_QU<9jp83qB&L1g(_!A`J(9c)<vN6<xWUoyzsNZ28ztW(;g
zc!qURds#|ntO7bQU|`&J$}2Zo5pzdf_;cfr>T6LlE1qFX)Ke-&skbs(8S~<woAxgH
zLv3C#9DK{eS1i{M^&!1K>Q}E9`Kr`o)I&uK4H#4vO0AAotEWQiRC~F!FO2oG(s-Dn
zHK?H`S{tiH3r*_fiLIe=K|ktZCN@HbXdQCaGnPyML{wlYc6XK=98CgHKvq2<I3>xl
z#EG}i4jci4U>U|H_{&)@k+Caa&OpQ|vRo8o2hAXKhwUNXLFh6>?n#!5Rt*sY%7R%g
zKG;=Mb`PXbb|9p%$f--eNTHy3NJ0DmvIi-Y{R$}@%cAj$6iVHI{VFL$BoyhC5kN_9
z)smDpB87_B24yIS9YbQ37N=y^Ch@qHQc86|oP$t#rJ)?9ov2A=wMO-+201rMRB4M`
z79mm+g01X(DZ<0pgS<)`<uDpE)&6TQ21{vVAJQt{NDk9z!1$6v(H8}IPPNM^E_TSi
z(l1I<85#BRWy}Mm6Lrm=RJY=5lYJL^WMAnwt-EWK^G})8%SWg(Yf3pMF{7s}sWoy)
z+Jd=*FnO%e8ihriTCb#1{emmhOYKp<y<7sm2=Eaw7KuS<T*4q!=0@4rZYt%IeW|UA
z?^Dhjxlj8wuUm(7=OMRwX$yL9{VDsU+N-D~ZI*gwO<TXN`37WlcWpAu^rr5$Z3fgk
zWtH24@l{%%+9~%aZAtBx{TKJhzS6I}3#CnW?XngpN+O(uJyFM$4WqtSelPu|_RIc@
z2W4OB_tIuyD5sv9^KdDL>|;4Mq>jn&pRWD#C~(!E+^!{kv;1^@E34tS+{)5#S?oY5
zRQ8p{s`UMW;fj{4O`VccN1f^;h}mB84ZYmwFKR#S{06){Etg&TmCGrc&Cjyg3|D;6
z3KckpP!%|UI!KLY*^?r&nLUUP%l^_Y?dr;Wcggczz4s6uxW6SqW~_tfpI8UIa=F*B
zLbPm^TrKm3JR+`sUQG6IH%CALr2RAa5w%cgltfa7X#YubFE9yGTs3oQL^*9EB@X@B
z$?D!{3<yRF`feiMh+}Gwy&+3kc3OEN@x-Y6rDc#>Ckc>5Z7X9mbsg$e3&?SBQsnBd
zhFWxVES3z8j-`T7z9Pll;G{Ds>DVFoYVV|__Z-QllD*(4{ENj4p*73-86=z#s!6s5
z=GO=lpOkd}#KEIZE$5j{K=GH2s!&rJ7T{#ie1W!D6na`oQDQ$vnLSkgd0<`<^cdZT
zl9>xMqAWvW3^+Yx0;0YPeJ8;#D%!EOFjk9TJs|5O3RX#E5Q~bem|sB-j=-bHZl9w9
zOybuSY$AvGI8;&vBT&fmF;Wdy`H~#1dnR`lJfz|%>ko_H=_W;reC>nB`_CMX^q)No
zH1zbzeJ3LQN6sEN9XZ&~`6<!Aq1r7k96WjY#DUXi1jp$Ks4FL82RIH|>c(hnJavKb
zt_2TtgA@f?QD_yQyf#U+2%QtbBz|mJp7h&P!FS17I<?p|VjLyG!loFLSTbQ`WF&fx
z3BH~xT3W(XD#NxFrqWs>&r?8QiK$e%gsIe(uiwDeZ(#hSLTyLBb}e7K7VMphLg$8j
z=W)LCI7NZ8)G6v?A<9)~S(9(s%eU;MsHQ?oN4{k%-?DX~k8jx_2DPrux9;a#_tRUj
z(6uq&HNbZb&|7<<c^&;WK4@+umOww>-hXdB-+nOHe29gE8V;_`H|^k?c0e8Mm-N&7
z^S(ab*Ozmz;~ncB>2*PfrtVt;k1d+Ox<YmRt)IF1GlgJVKDdPsZYk8X=WF`-n!Z9!
zAYaqP*K|F$8Urjt4YUU90;D)aY=*sj$KHGU^ZU>8`_JZTpQR3e<PW@Y`p#!>e|GNL
zeg76P7`)YaZ!7O@olU*{@|!R7-i;Z{gU0O(hu_zJ??kTgD7B*gqpH;fU$fXkrB0I1
zG_~fNHt|iH6j9vsS#P^2TdPKUUb908*U|O%OK-mPxJJ{``BrjnL%#bk-+egOdE|cc
z(Zy<qv*J;ersbG+`p9Fy#?w^@gz|x{d|)f<>{>p!w$Ry~@7%?A?ka><7n(wa=GBG9
zwwV{Q?K>7;TsW4kKV0b8{Er^1rxL6Hl=Fy+T+~-|u;FNV9Mm-Q6{;E^R95FJLwsc@
zSJ_=?+5FgSXkZCy!FQ++W?T=6HAs4P_nSB7oA>a|dp>aNDY$(i)8>Br)_nURzWvY#
z?n4jUy>}<_YYy^j4(8SzzVANrQE)>(xSJ2|&g{SMXeczcWKKRL?ofcY2Oc<rc}F+z
z=w9jx@s1D+>E#{0MXRwL!Y!l2_Sm8EHWey+=Fa9<@8VbQ%J%GDn990OEb4XMilRp6
ztaxl9=49e#;&A}OIXji_+{SlqyWhNhvAzN$S*K~)fq|^mcv?!Isj=nG=<U%0P1e19
z>)r?TYv!H#wTF59uRl^YqO&i|jm&)}TfY?pT4-+1H?QNH*A?2<|D)fI!Nup>@rWu}
z)Vt}^e%1ctk56bZ)<6DuK#Slc5i{@WcAj)w{!^&G?xf!`gypC_<Yxpd?bA%LNQo+W
zE-D0SS(pkEpoRi~Ir#I)g&p<x@xy%vj$jhcR&c+A7icej7C%fON75jo;7O*AFH303
zp$dbmUnh_fM7mcr4_)58tBH3t<y~#Ot1a*9=3U)+S0C@{%Ub#vhw1<K9&>+=rV6HL
z><Z2gaeslA^8Oa^zEo#*Nq<?UJ5TNKI^MM|YgxxSJfgwZ!C?S1MB{9i)Lsy@S2@~|
zhZI%<UI=AlUw<3EFf_}RnW6T@%VJf&eOe*zRHfcHGAfgjX-MFQOZp^wyz3ajXn-VL
z^cmB7)lv-59Wg@kB-Ib*vtCUxS=1qoDx@__XGdR`Jv1KlOzF$|rZU&dV%2)CXb7ma
z86ts|dTvUa)N(+_U}-NYox&~=TTJc~y`*%X)Js!JVQgHiD3v4o%6h5B)X}F+=XFuz
zU6cGBWl{kwH}e2Pn>iXgQC4<|d_!=cfnylFHj;$mvu<=;aGc|Cwqyt=;&8MK`mrKr
zWyYa6ru=P95w{L#8V=qK$H9aHayO1r1lusqAw_@>j$enOIAPPkzXht~FUg@V2^5C#
zyAfzw881L;dqpr_Wj~gyQh3=J0uj_eL3Io#)5Khpt>v0r<x8+E(XY`u^uPfs166>k
zTf1-Werw&^Ti@I|ck0)6<XboMt(zCL3w^oPo%gi&`WCL_yazLug4>hzck=GejIrG7
ztrxfWg2PjAG>Yz`)d=ku3z+S`K;GNVd)sFR=R9-$bC+}8K9nTq$$8r|mXEytPuT!D
z+fQGW%O`@_w{&k?-n7hh%^%K&cHY~2KX@qTI-Io}W`IYqFmye2;p!6gRU*(BoWZHy
zC2%IH{Su(Te&qy<Jf|RjLg?%I*A1^5hYXCV@~lSlS(GuQpE67VK16kwy71u}Ko(NT
z%N}-)MU_yM85^T33HIm&%qQklU9)J9ye>pCbjpNw(&-vy<*G6eO;J5qfD+7^!g-!g
z7P^5AXHGM=_eEJqQr2^{L4x2@mNZT&F@hJPMJ>5Xs@h97LgEJ#?`?4hoMRd-+x}ky
zt-^*`OQ%apAORprQ2_YY+FM$!=Cvw==DOzJ>91<p22YxH*llo@P}jSb`%M&CTAs_!
zX;^ohkB!EzjdQyuH$831fspIn0m5}Kp4`=|<oiCYLgH}!9nloo`d#n7@J{Dk^W3R<
z?Hl`MwX=P9j=cNAk6E=}tP5yMzzNs}5x*e5i`2ruCx^if9K9NcF24wD^h5B?Qrt&y
zWIgkLfM0NuvKgD>;=Y<H^%6&gCGg{2s-YGco`}a;c}bcKOu9)9lW>+m5W4zw5QId(
zN1gwVDCiZ<gPMAtI-jfGm8;p6aXzwX0&PEpV9oXj^hw)I^RyPHSq6(njoUNb|K%%1
zy~gPgMeQ@EFisott=st4ZTB79AA0<GPc!dno^75zHD}0o?dH37=RAAzo<qFn(EHl=
z`*NNWkBmC!fEJ>|KwA-_IQPdI)I`W}&8^VQ(9EGZ&;82oj2WnQzOj#Q?3-VmYuuBy
z)E8=d=AP$kH|A@1^0hk`26MH0G8F|^L)Oyp<Huf<!8Fxw_t)*+XjuX`Ea)YJ8{ffX
zT?sp7qH2|08@s;hI#$C{rvPIBRRD9QbuYapEdkS%8BFX?T))`ebr4AazNO76YAt(I
z8PgiIJr`Ovv<&fpVf<-pviuL$WJ_BwDxwClc5=%~tt^GgJ_WMa)3*PC+>WwdDgp_)
z4veB5qls5}RLfwa^C>wUE9R_#hOwQ#(UdD~OFNj)T~=CEseaj)cBS16*OB%XrtILE
zs(eZ=d)o0tF7K4@DY=~KiYIdUr>fGPbR`L-rmEqqX05JCS4zIxs4nec^RAY~)Romy
zBln{8oA%<LKkYwnP`+cC?w6Xre%hC=qQ9~nfpk6ab81mTx*;8)?{u-gREO+~nxhtF
zM{9gayXw-l>6&!)d1$!ZwaU3xDi!;i^gX7U(oJf!5Gy_)x1;n6QHi`SHX((y;!5$D
zZ;eWdU^<v?n#2m2g72at04$|uEtSh_PB*Kyme|)s(?DorQG5nvty8Y%Qi-w;r!+AC
zqmHOqPN`NlQdrUkWhAJqR=I@IZ`u^K;5$g;rCJV^B4ZvcY2(HAQf}FoZjr}D3&{A|
z>jq8P_w0~Um44aTVdXo5GH?!vM8PJc3F#Qc&k?=L{Wmy*Zsa1UR14$$;*|Lhh`M4_
z1GfktHfv%9ln9EDkNZ9a(2mXhAsoSp{ZKRvz|=GusbImuF=%QIF%n{IFtvUit5MK_
z;4s9;VCut&GsTH<!IA*gL3=s(zfyt!g&e97r-mjH*v-LYoq&Y{6Ht}G(I|)&oO&OP
zaz8|pP^+lML^uI!6Zpm=e_rOo5+~IxosZ&vM9CCtMKE0;?rIWz5b@W1Au=2vBV#02
zB@a>z#YW<kg8k~E7X)4ODzsBCFzf@KtD?st<(1x~0>n4FSc>!_7A3yuulDr`aMr?E
zOTM*hsZ}%>R44njiSN`z!HiD?)<qI66fFc`RA}Urf(5og&f)Z5RIrFB6ar~FDp=0S
z9ufbk8zy3qP$yO*!~o!KkB@=)i%qUu2|Zjn&z}-@^leOQ=z;};`M^3p0JaDnGst_o
zcu!ZxM2cLWyZO1izmNC#Wo!>CeHrtE>ZTiqGX0s$)6EZ{JB?_f)4Xl7mw9j3T=RD}
zes|})JKy*H=lVaXf2`M4Rb&o=`m3t{Gzq~`u5P$Ba&zP@<J-13ZMmxM%pn|)SQbLH
zl6G13T;H4Z*>(Hw4f5*_-S;2P99%i(p{IJL6DV6|Z$a^)S;6)@FW-K7?%aIKLh63g
ze&|<b4oyG*Ak_Qq#&;SQ%=fCZXP&<wdVzOzWRB1DJm~Bp{__0r!tnd4`<-WbM_cCD
zOg%KYymd2&_{!GIzCvZ~%)Xnemw3F>=Wlk;>RJ3pQrmmx9SfJ<-=1xLKIea-)bO5p
z`@&~S!G+qUY|DDSc75jP!|LYQgM9U>eARlsYW;lwJeRB5mO1nQ1AFP_rP=j!`nfan
zt=X1M3;p-2cIB%M@>K`#U4Fmi{lQ$-Gc<|~w=Uki2nPA&o0HQQb5-jyhaQR_clHoz
z=^ZRMDyPqbc?=)E!Q{=!*}>__Ty<CG@Wbk+e03*Z-HGo!{oGCa%yU3{J8%%OV__B8
zx-}J<!@zTEf?}dM?Ofm7;JjzPKUcjeU%iX3-nDS~Udz3Ux$0Ay!-eW55(CU$o@<#q
zm#gl}S8wI3w=T3SAo>WR9p2XmZVb$9`3px|F{VYKk1uF7ZvX4oZ(N_Lo*lgJ>dIQW
zL{+#uSUF2DV1kGQ!xvw}ynY&o?mTE|HQ_8ytjKU)S0d@ucznPro>l^3)heRiGVBqU
z*7ApF^(4{ipPbXNJfB7*QTcR!QB#NhMR97ZPD4148U;){13jP#K(G$uAnQ}>RN-~8
zI_;?Ii8?`3NacnMFaRZPWwf`kT?>>V+kuReF>Wj=Mk)e8?mtqpKP89Jo__`(xZ=e8
z77y>dNxpBwSw=3`ko6^OM55u8#9;E0blPch?MmQrr5t8VgXHg_3UIG*(7&F6oXWYQ
z`JSD8&(8b)T^Sn$GPk;KcFzpX+45am`L3<^E4O9L>S7q;ya#z#@P6BteA_|3?cfKl
zgAeQ4W>3wYp6Q+2Ha|4a&F$vvw&iPg^R>Hkwf&i+SXA!1nax>OOV-i?y0oG)?`-6q
zjrUtN<y&_1ExSK(?k-dXXFao()1$MK^R4siW`BmS+Jx2as+IGJYvuFk#}aO~LM{F(
zRt=r=TH%niv=)$Ec`!?8r7e4y9TW+JV$`If_*O~?wg^@xJz$q86kJ+YI!__5J+3RQ
zn=*Vd4;J~9HK3+iR(1+QH|kF7E_%hf%Uxv+7|<(!d5q`>)+e_Ze6+NY@Oaj{>Q78d
z++`_Wc{*_5RmKw|SHdmJ`Oa#z307HD^Yh>>i|U=A{ls^Z_|BB_<S?@sCXcBqUTZEJ
zLltU34X2mK45wvuYBOQfRaT}7#JF3cc+6#AI9NVXqCag`!`7ol`J1H8=Sy5XP!Vca
zc_}sfZk=ki$mKE0)iPy8y=q@i^VF|r24}>U3dwa~POXytrC+(W{hF7~fqQ}(F=d}}
z;GB>HGYlL{I^_%cPNKZfYADC5sT^K`VC=OP^|*_QI$^2av|X-w%8A-E7uS~JWMA6J
z6pBjgv;rIqMd?sZ1zN2_E(^@fsDVn`Sc;W>OV)cyo)VPfOTTFxdrRABb%DCK$ukyx
z*MlyylN}{-hhQX!V-yFFnbHR6Anu=$3A@W`d@+%Cc@Y7OkOB=w3`~(QdW(ESDTV4e
zJ*8!o6{DGcAE9JZ4Wv+N5Jn9_`9PCJ+@4I3s=(@+U<9hYew|=Sjj=dbM%8dXp?n?@
zlNV9(cx><rh@hc~1W`r$iz6v!s||vhA!;g7LpbCfyBcAeo?x9AO~Q_13~${i5C^Uy
zw1L${AoV<wa<uzU&CvDX-lqT?Rr?>{!!ZfA8GfEZiLer!vT>{wvL^*6<GVt(z%-~}
zXiKIUk|MK~kf+j_S)sb5t|M7xVfkP&PgHP0y9E8Y_$9$tN+>G-Fp|ep3YCqz5X*fT
zIkVC!m2&ZsbV{WPt0Gwo2ghq|n%cTMhTDeO{cj(8^VodqyOZxuW}i7bW60G!n{g^S
z0&@+yn#~#KM|S`8g|`g%?Knr>mO1gDI&dp}Gd+9wI|sgd?A>GctM}YE{4mgV=j82^
zxxnho3E;qa{|4T_Vg99@e;-syYTD;)e9bx(T-%VZ4e_<1xz#zG<*q2ycIInW@wKbw
zcILZx^WD4Ok7jFE<!aAlppR0Q_xJFA*e~(@;;9+!^jV;=FMJcSsM+Z4&p~ry?uFkR
zT=2|C-}xNy<tp3X+T1rfrcZsx_+9I}*8JN2{M!BZ*B+d?aA)*aM*r-<e?Imn$1)u`
z+Y8w8tzMCKdhzCqv$lM210UQle<~N;yik{I5>0<RBt4one9fA99KWGv6GM4B5ABzu
zxyD1hr5@*T4i)@Ow_dvW((Hz}x4*f4;p{Z}x);=3OIy~`^q{eG&hTyfJNCb5+;C$c
zb7VUCA&#ZH8w&O9g{IZy)-=HgS3^bS1kSR!YiIV0$}JzbwlcMr{e0*CeCJWV^XU6q
zbDhs--ED=ov$Om2ZM*okUD@4d__njqyFtI(E3@uq;544Dyt|io_h#4Z`Ez%Fv0l@(
zu^7<QHr%n_w$Gkmop?~waL0PvT5#57PG%c7@{WxQeV`?4Z5byaMPP;pM7#!;i<i;>
zgmo|)0QP@@*PMqe{hJWalrVWfDhW$LO67^tnN8%NNB#wlqHw?DJ#PwfcfjqW1h<Wl
zLh0}hMQA1n0uLO!hb3)<I;!?H2lzy4SP&GH6$r<$3WB*%skL1stZdmcWe2PV9~t|C
zRpwA>A%GeU0_p-I5%ZSWrL#p1rTtgVQ7T2Q8TRiCYE(g5*<AtICr}5DtU($U(uedv
zvC>J8-piM+^iG;ZZ?B-e4A=}K%ux1ZL6;D8X=%_E1YJ1@=9Qa^C2&3@5}g=_aah19
z!6~vxWXquz!2s4tN^p~DFK9AC<ei8C8YaPJilqdIzL{xF?g;7=%+Mf2l^oZKArth2
z(WtD#N3%kxVv=vUlw>3!*{+4wBT7wz2ZoBA%w(xlQxd04QJ)ehwvCJwA_KESCfKF+
zvUC<^h!Fr#FtQ}9SxLf4%K@Lrxp7cMlAYA#WZO!_NO`J51OxvFrM;s0SZ8dpWi5@5
zVHKx-W<$PyEnmO(UVFBFZLa=suIdO3=e4x|T6@O%H?6C9M^k41^y<Idc#L=VP1|OU
z&DFq?-fWcjt}6Hfq=rZE@YsA^u6oC`;bBed?0&u`G;PG`{d{meA6!4}{LtMn6PtZ$
z9-3i0KXm(x9?hoXTBxSgwn=Fp1Uu)9b3b!`&$GGUb4vRA?)3#ntz_yg`sa?;VuPlw
zyVzK^U~#1Jm(U~Wu-`zaVYz_=lBNhoaQGlqY=*zgU;&9h*ik>h0z)L=IHs<%J-Wmw
zh1p=th>;=8nG0i4j#iU+eDE^){+^sQm>O*3=4cCt#W+kwarYH%ArNK59j8PulEcv}
zR=cQ!v`5^*ev1Ohp~8~C1BXr#S~T@d%K5><&i+TP5iQOTR<9}=$pg6MttpzB7hEpM
zwvm;+!zO~SXlGsr88UD(Z-oZHKFT+3E3%SsauBBkJuK=uy~b2g)M<_DrYCNF;pP`U
z*1)@{1fni6di{)%tQk=BdL?>2MOS`kte8&SHwKEjYU2^@bh4<S-x=w5K`*}FGybvT
zJ>;i2DxiU!%A$eZi|g#h#@YRIzPX`yYTrD$sKINoZksVQzhS|!aOQi~cXt;xc)d6A
z$LaUdi{vd{(>jf<4}G=F;(`%=w8iGiOuU}Hk)C;$R64V+5N}<zXr{QvH83G18*6}{
zjp41Hn?19>+34K*H%H!V;w#q{%@k#k>@h4_>Fu1h*4Qw6c<$Nx^$W)DJHF@0uHVnE
zJ^-@2s6ov8>)%iQ$(A3HSKLSFYYyR0d1Q@&Mc8{^a;%cHFv4Un)j&3)aM;g)19hgT
z5us)&)PhhGLaoxf4ew^W+aYDJMs084P-KiO>N#M=$$<lqP8@)Q^*wgv&&^zYtRm)$
zIYjymc9c9{GQqx63yuytqF(&z5ocmX9(*{e>A?X;N3<$N$04OWWhtt^<iL^06;iN+
zgnk?(tcp2kCy7<7Q3b3`b+OuLJ=Gfxpf7dIbVX~lAy$uC17b^~jj@Jk6Z#|eB8VJv
zf28t<ZPDg08N-e20Adq%mNvzZ_fjLgOSCU&!=}H*J#bbMZL4kTDO%3#kvDZ&#ZoWm
zhf>#oCPNGT!mwm*kn<qz6Do)2FasoIgXN}zdzWO762K<L0NKj)zJBe-wY;mHceTHj
z$hkITEgRTW6HJ$wnQHNTB#KrZ0#|nYEna|g3l{u=swj~qj~WqL>L-l$LWxcd?I5#e
z^5#E+G;eAD6>N&aNUdNYyBs7XI13)zAetn&rG5d<ie}k4S`UJLd~Ez3ok)4m2TG#D
z*y}{7I84LT!8W#)hDj;zJdM<LWTuho%A~}x>f&8p4;+C<dV|~c&|iNmd^0?2n**BL
zS2Q9BtKa2+WG0`+U=@##FPSDZm~5KRIhGZt3AK6IBTovQ*n4Yg3<ls~lbBmR7sUCZ
zM1Rt(P!f$&Uujz_n-$Hxt2t|FW)osb7YN~Gb6^`hE6;(bb_6Ut`hse+fmw=uheU|<
zO$65nS=fhhY57}%qrT+R310f#%Ti5-R{oUBl3qp+7s)gS^{_3I5|xX2SMTf<IC<AD
z-nA=h+4cWgZ#mqXQR?j#x)9*0y<L{-lX|->X$rmNE~7?q=b$Be7ACuGbpB?T@Kq4a
z(J|@j0vJAJgMW1-nz|r3#Fq<9EXYkz8CS@`T_2i~z8TE{Vve$@d=#}|DjQ#^f*POp
z(tf1&04^ZI@<$<2jH8uE?^Y*tN~uc3P1=}JL=7^8VCr=Wi?&pkk{`--YD#*fOsA&O
zLu8SfQV+-;iyHHG%APiGr_(0Rk)pN3o+)CGLFoU6Zpt}oNhvBZQ;rc0V`(`c>?ebH
zFp|d@p~j0U>MBt^ZFC^b)Zz>j7d5_NOgm|HG3H#wl&j1<jw@YJQtO>^k2=fZpx{&<
zht{IKlNejZHuj|I#eSf655n<fON!o8m1(z{I!4;c)V;lkr4_d9kz##Nb@8$u`<TiJ
zlvmQWsF|5TLM>2_ai^<Dz!S2H%Etf=H2VaXVsm{MC!xURawad}KwJz$=2#S`xInew
zFqiZOyZ0t>>OxtV&1aL8%a(w7-*K|mpA;?3iGI}bGEMI(au`=`6uyv~BWj!*CkM9&
zX*l8$bF|BHzfHbp$f0>A9)7D7*I)UCAVQ_Mkd}nO#wj3n59KS8!)m4aL)GGrb(Lx$
zrP^gH4>}b|SkVX6z}Z0s6;PUj9x==PtoTz@GU<a04w$>*1|#BT4m*47rjjVESJH(l
zf>VAM2g(C0#uEGmLCUltJ>wu)@lpmhOd`)t5PvU7zgGo2rD13F09)8OKglu!+hdXp
z<tV2(%lsno>5dS9mokmuii4H*>E-FJV)i5nI)M#Wsd3b2?JbZq^?&na#%0>XH*U%`
zZn<%?;0$D)ZRKH^lOK5-X2$NX*`M<s$XFiwYVy7g-q(@yb!DuDnr4w@1#XqUCGTI&
z`&WbWM&6CQe<Qq&-TB7deB*BDL;khh_o1u$K~vwf<6%orp>x|Kqdr)9)A87*39g%V
z6q=f+9Ut~=DQe8CD+<-Eg{o$p>6$&tSN9g`SLN&1@Hi^uf*GdLTLoXg`;i^Vp*QYr
zdgO!;N0~AMGbbLqHO;H$o%crX2cLx`{G(uK-hS`+{otvrqv2toW3Dc{=?EV>!Uv8(
zOX4GsFYAY)r=7fi=fdTjrytr9o|e2P#Ct+>VcxS@dM8DSxud*iQ^xeLDll{9=GdHx
zuj<X%3xQ79z1O~Tf)8v%c@JGd$ojLc^;ye$5mRKw8pUrcxIx+CikZ@ESt89dU`Dd-
zq63~~rZpggrh5<Qyhus54N#yXnd~po`p~fhtAd|>ebU(#SDd(+$zs>9(ZZqR;u%M(
z5%cU75%>Go2%qd$M;KH~{SBH}L6q@NP|S7tZd~PEV4hZGLtCMC>t4O6(GixXldwEy
zsxpGZtAaI=0IrVHp2;Qsr!AB9pF|of_rHWDV<ad&9%&>5A9Y;pGCM)b#sGY*7m-G2
zru9=A`v~2m1k-l_j550$qj#eJg~-9v{U;8bi9Ca|s?QzSf8eA%dbeocW>y$II-oVV
zS$*`LTJgW9k!(XFF_KslZa<CX7U)q-zj%M+Q5wyy%SLm_$Pv-OM(!8kVK_4yv;2`a
zeYPFy!2?z0p<=V682T2=9-4bHViDC~>}mGkfflh5nyAPzWlAZW(zK~Wtbsgv$G|Ov
z+ys!$izS5iK#87x9cf3v9-#Jh*o7+e0mZ2;E-H=&o-v4UK8A@?l+PqM#LF^J79nm<
z=}m&}9<h|<*f5>U0j-b}>d9&jxRHS9PeeX>l!i5@w9>>fCReRI1(v7%UHa+~i~*C6
z;B;xnalYetu490=v}PRB38v1qkq>Mv)U@HOFt~pC>YaS`&V}>$u0sz8(NIcn*tDoI
zHh`~K3*g?lWucAl0G{6Zz*U*`_U2q`vX(U>j@ycH60BmshG78cRlE;L-;jL=h3mct
zG3A;!X)U44;v>(1q#FdP$}Ev**_5_yE-2^4pcx883MlYqe6xDYD3G&+tU+$5UpYPL
zzR>()2pIC<oQy#-Jc2f3Cgc3rq+O%IITWh_^AS1+3ep=bZ->GahfGs~94N~ql?7B1
z2s11$i>M`d^?Ir?s;BxXjJ+A8nrc{0NH3i_fu@6EX2HbHo``y&L&#VXX@Ygiuq9$T
za_h)>kK+Frjy!$oJ8{2G4t*g(Puhq!Iv9`5BQc&7v?EVWML+Itiw{kZ3Sp#_bVXpU
zmiT|B$@m9o2Rr8lm6gu7Hb7B}RL(|kj^?U5pr&T8$Xxx(j+s@wy=_kWfj#uFssZ|Y
zm2cM1I_K+tcj#W{@5J8^^Shqs`<~~6FYr|_WDb4Uw<YJ_`fl}H>-5mfk*|%-S7&Tl
z|5hdto9TOFXm-`t$L1#Q`?oC`^;NdN_HUck0^C*9%xG`CG!upz+R=9^7Cd~{Hojpy
z@7#_(8mFQC+n7|Xs6iI+4Bd5@{XhQLuBqDg<BxR+W9<9)JdV9phW9qt@2xkG=Bs!~
zoM0h)3L`+71vd!1B!(0=OeK=fF1|)1SRYHSBvJru5ufB~0G0rv8by!E1-=eVBphmz
zCO#-F{VSE~O9|J4lvGMUg>b(PY6_-NN9`zIq4iLl^pIF9DvFZIj#hw<lIo&~n>Nrw
zl0h@n91tcxWj;m74}q0Yjoy=i0AdO4U-l@midr=4@ydzRjG0Cu76YY&WtO(d3-h9i
za*hmKF47<_drInfa_`hsW#kf=btlDQP^l=WZdkB&Nx%X0s~xC?Wk9HqkP2BVSWgi2
zH!v9v3horFbH~dNi!%Lhmq;av3mI4d_nWk?$50>6j*W~m8V95a-K!!p9T>JK`nkVC
zGEPe{z=&%EnLc)snL=T3gL)~8%I;FB|Bf7L68CL#=)5(9AY2Kc{Cf&x9E*40TS3Sr
zVvy4Q7lYlnC}{_*2unnwgt#?HCGr14u*8Hau(4G@q9U5I$klDgxC;KZynhYvUjqW6
zvMyWS%~$qh%-{;bWc0H)PlB$ngFtC5G<Dud-%e+HcHJ}Pnhs{cP_${_m^7<4-tJyl
zlizlN-*zH%4C%6f4NcpT;z4Zywx;JT3;uUqe8cX0-F(A|T<t*SC?X!Xy$^iVGq%~2
zqDVXE+g<Rr=6$^|O%2EcvjP^4r+LwCs;kHx1qI>p-m*hSwm;jnX1<wkT0bAox%d2)
zr|PEvYt?_{slHkDhW=~y%=5JxY{E_-$dD@N4^YqM%?q{nj^_L)(Z#YWJ+zE^#`RAF
zq2O|X8PUyxY3v*s=4V`5#`NPZ(f6X&DAL)q*2D=#Gf1?b`4S~z^ztu~k8pU7V1p=f
zW4O`3p)j`Lj8g;?qme*_qbbB4C5NB@M;cGu|3t4G`IZaJA{0Xosp}?h!UKWX#}Hp_
zESii)+gw#qgP-h%{lG_zwvQ{c#+IT<Yur5tX$^j|o1a;v-=$&4#W1%9S2Wc%e(c<6
z+<>`2hC0ay5nEl+N<J9zt|{8dhhxGuMV1csMb>9G9_4F~zJHdlJymp3G~{cp%=MYp
z%*(vBanXaIN26N3(KZiR7=G?SG=`t-ndg2;zeSr_vJi@2RP3vtSwE|v*}{9<ie?Ie
zK+5?;EBPwj#<k3rD1Mixq##PUXeD2p(^v;w4I1RvXE(mR<INp>^_rrd0(bO_zb8*G
z(tEK(6Ixwp>w0AGG}b+=teQ^F?3=!Jv$tr(JL>Ru7R}@%q2#RZc6ZTAZ*)(~%-Nft
zEmAHFhpi$rbffl1PP~bT9{Wc4g32Sq_{EnIRJuHnE~JX#(kV&o17R3MTzV3O!JfI3
zT}8Dtg^8t?6cVEbCQ#DFEU@fphB(Ly3zbG#FE_#}xe>xK5Ct*VCnr!1fsq5{I<6aV
zwUlU%|GDGr%2e@UNa?Ojk+wRE4C)%;qDVzu%e7oELT9Pfn5)=O6$)kwo9h(r*T7~?
z*dsPYV19ZT%LLFj4M1s&*uD&$3q}SIf6~1pEpcENDWBf8BQ4S_U<A>N6p2$a>0N4x
zMX;)p7-al+u%zT04v5MWxzVh6aO4!a2UjSHRWgD@u!}{C)CaA65cGINo>2us=O|rQ
z8zIZ?lU)*V^5obvAy_G;1v_A}AEiMW;BRDVN1NyRbN*gp@hp9RNLT(9$a(0hn+fx-
z&bjUd8^3BV@7kNS>}7LufFq&|J6$3&Cf=K?PI>$Tss(zbQ~i2nqA#F2>S@ZqFuo_)
z?0WUGWF%n}`t?A}R!*sC6tR?Kgi)b|Fg()pNt6(yw@IT&Jtt9J%bs#d8?1FRH&mi$
zaOxIllK9AoR#JCV^F=LK`J}b7>>(6}+ef-bOzcpdQtV);ohF2Rc%+okA7~fZqsB|<
zFIV-Hd?x6nO5>s}zs1H@3I`JCmm3GhcFE8tnOIaCQxyb|v}%Ers;5^$3T1Q;hA|~d
zmwgS#lr!y6GoFgjfZWE?@04q*0$<_fPx%$<N;zfUlsoN)HoQAs@u|Log;JKjLJ4_J
zSESwYI8&QcTkA=CP?sm|`c!pUDWz&%uCzy~%Y`v-l6zD7W#0pL89>`t8egPqF2&0}
zw3|*M8)0TsN*8s!L81(tmb?eZAfn9g!8iF5gJ-=ZK3z~YMjY&FkA{M=YeO-dxD&5M
z@5C=`tt2KAL1Z`=<AP(uK@ojsse5o)dORLH7YmM@hvj3K!MlhiO&)kk9YeUQ7M2B(
zEsp!lgDKoy8(jBfS-(o{Jt3CGSWKU?sbX5{%@bu#o)n7{c~qaWJSnkif#6-1#5aG4
z1`AesJd;b}7+LTikN})y_DSe#ggk6l5)347;O-zqWVbOM2CX+y0%a0!Hpf}XL2i_E
zq<@Q27Ac-#r73z<njv@?H(A_lr0uOdh>bupRJn|s$NdSFLS5jfnX*J&>5brG85P^r
zN$yQb`%OygkywAFStWQ&ekF^NPArKDi++=OQEGby`*@`sE^+Xc0H!2>{dd_TZpWgz
zM7AAcC!~uo6|(9RcVsEChc@LFfJ%^6AU8y9;FY%J4>#_fS#_uPcJEyE{kpz;XEUxR
zLmqaldVA!}k$lG~zT;G`<4lR~c<0FNBl*A~K5&RJp`rN8Sd1{T;i!Kg3WfIE_x5KU
z{aJ5+p`|b1vIE8lvyP?@T`dJ~M>e$W1Mjv6zPeijHwU2NR(nMIu%^3E6M}g_e-+{I
zopYWKysOGmtV04A!}C{x|J~k|?b@2%K9FlW32oyCfu?M*Z@w=V*hmtVrq(;xZ(q+h
zZRMM`%8XH1>kEoaCX0Q!z;@7N!EGQ!f;Qd~K(3iSPzJTDM2S_lZ*RWu2;X-kb0uT^
z&|ddshZ=hF4eR)Zb(w(=T@3|q^X!2SyrHtj?s{0$flDx1Z=lXu8<;sT3xg!<pn%!9
zI^Vc~Z`_bM`Jt<^;BA?G?gMXkS=QYTYdQ-xjdIqy1{}nU<Z3rgn~3lM3E9p2akE%U
zp&IwrwioI`=t@-&x>7}=u2O<}9PljQvd#MTQi4Y=CrMnKlEkGnZAGG=mW`sQLU34N
zYxxjU&hb^-k0BX=1OV3y7^1oqGK-Je*&%3Q%M27F&eD`i1(cIm(6>HJj4)svz{DAA
zs+<F?U|rzPnkD`$T1?h}z~wbDqqk<d<2-79!vrRpQO#bMy!)pu!!Q-CZYvD>*yuYw
z(3Cz3O=*+D&ozUKYZ>4!A?^qN42K<3IZsLP>;bus!|_8<i8e8=j$nyS;Lr!I)#DhO
z<z0e1u)a^65y>ts<IW&CF?Iw4*~k%$6F8Exh4Fs{!_XLR=e8jqEY>nfh5~j<-;aBb
z%9W6QVq+$`e@h`1VoeI0(<Z*N6ofFA;E^co%OcY!0iQAu%}Po}3HaPbN#GAN{)qXe
zd8Tgm*|~%B{n?sL3;I7?_s3h_+j8H1945c2YM{*QshXbr3r|a?|6z4q0fJXAALuEx
z^*-obKY#Ro@9td79=><?oadW;*<PH3+*4={71~0O<Th4h2C!P|gLhWlUiI~!xr%J<
z=FCxCDVujR@{Y!t$v=0jD*82*t+*V_U7xko{rF?2rnO(oZ0fvMVclzVh!z-~%h@a?
z#t37eypJ*9=zJd6K~8~Q8K0z^UTK85QF0>m`Z;obk6y_!(`ej95OjuhX5&8XoOxb9
ze`el-^P`YrBVb`@k^L6yG&}pXkF2LikC^TvA<uFK0t>^nB!QWI+2+1%00vms&7b9c
zTZ=3oXntE@(aus0>-@%g<ac|EX7Yh=<ttjrC-O+hhYQ%iBOxCyIIGBv+-Q32!kgF;
zYW@&ft~@e5vG^MZD!+V$7zDVELkH5G>B-{a5mO9zrb-M0Ts~6vhFh!4-f&Cxu#M@q
znxVN$tO01vE=xh_ZIX7Zi7q37ZY}B5is_tEEe_n5s)ZgcyC4Lt2D;d+bQ@`fAX<ce
z?)Zs`cxnVDj0fY-C^~YCm4NOl4}m56TO=I49N@8ouTn~&rFtAz(+WOu4UH1M2~*ah
z00D$LX(m3QR4A%v$d_9uW1O<OR9e<6E-&dOY$Tqd`9z#PlBBmT`0kgK?F8JOjq}hr
zI3b|{Onxq@tk^*JOX@321QvD_#X8yxm&wwVVJO{WHl<_gscN(r?GDSHs1xdndQzwY
z&qSxLoO)il?Eac|$~3Lzf`I>Yo)S!TK>WV}1cy0)MuXX=?1UDIPg&WpYLs^1<c&XV
zSA*#|p{|%^gY6;R4ir!lU9fWO*fX3%x)E@ZUIMiXTF(jFd5}2bq@^|O1cl4aM}AHB
znw#w-Oi8S~HS)dz3d?q03)v)QAk~w$OK%2Nt3qwx@IgBR!UWvbT7mPQ2B?oo;|Kdo
zF4d7T%exLJLscP)+Bs*?e$t3VErfhedBEpVXlijJ$wfOnQRSQwuE;X02~*OpsEtaI
z%LKJ=Ss@)`;+4|9_FrKYNBMRo)j3s)+9KzBN;+jk?m9|T=cuhzkMdQ@PA1DEPnZd5
zE|iUYWhrO6a+p+YU2N`p%dSW9%578jd?)t&iUGkS?s=kwhx;$+EB6O*KrsD){Qny{
ze^1Uoz!9t?qcB$hDM_*<`jIze`2?rnW$JX1D}(Wgn53ze1gZ6iN+GEt+iGwk^eFlN
zj2zPY<<67y9dby5CMvR2lC(EY8t)}_;EPBCTcd-iAy@*1AO?5$oS<Abav0zLhm@b@
zY{)NS7ph$;mH2;9iIU!)+>1yY#^I|~dcq<MOsp#5CW9O|c%383luVcbd`VjK2Pss-
zjbxxEy~+lJ{u?EcR5aLeu?u5y^htmc9@Bt^iiVU_aLWdH<PcH0i55l)>nZspZKsb>
z!Q^U*AF2wXpBUs<2uS|~`ThwwP=&@@J$?0St6}}m*E_xc){&b>L~#=D+df|lCu7Cl
z4Cy%;xv8032i|Gc-kaIP+j|Smtyx$<?dZxnTK}e|aoSMm>fzn()ApGcU@gA2lW$o+
zR|{v_Rq(dYMR@NH?DyOEX}{m|y`DnNs<{Io$F^5ZpUk#x;(eQ8*CG&lq|pT`KU}jp
zS9Ru{Yje#Dec3&ybK6f(U!Lij?YrH5^X0i~eAO9Pa}QKbTacr<{nt#>&O*=Txt()s
zrkyhvV5+sSVaNQo`JQQKwh<>g*L)Ogf78qdw-sR6JP-n10}I_CHDKXeV{ERRb^^<2
zSd|Z~<^!weF69E-rmcmx)%mu~eB0)H+kU=n|GgK9etYH=-*y^Q9IW8nX}sN7@bwpb
z?FFBI(QK%z1kvNrcv|!B5bwqj-Rzdb{Hi1O-A4=VPVso@+*EewX@1R_KX;!kp3!P*
zn;xIlY8sj!w1wE!vb_g#Z3iDTwGl;_4Q<ag?Rad|H&om>0V1-Y`RfNWCq4=^-v$}G
zi7sCD)zfv&)y?Qd!)Ek?k+dM+0>Of#;gMb+usy7(hh|~`+B7v7BzGVi=*hWOXDzFL
z{P8KRruwW_)GXL;J6Kuq`z8xqrftgBe^RI_Uy%`Ix-U`HB4mqg%zuY@1Xj1Yph8QR
z2Z)avfmJels(?x|46VXS#%76n=ppR@0usv~95nrx)<yaapIn!z#40Uq&T8ywY*mVm
z!%vk`VP}{6RWcUwloDa!Lmt1MDy3T8irO1k&O~nDku(TIp^Xel0s0B=V$`K*0FG?}
zCC-~kaFoMY`PhMIgp32`reS-B;1H2iDVz#{tyi{T5Y!ipF`$mu1p~llRNPy-DA+}|
zrlE8I6Vt@yf|)b6b;P2w7ScbXAP&cuz?y|4xXW74GO#^MaEq0*PO)G$)g+QZVKEGk
z#NxoCp-?b9a$d6Jql&hR$no+V|A~O_U!v_yS+1`2PQ&enZ0F|R^?$$qd-eC8%WXZL
zt381O{`H}JeJ@|%JICefVF#_|VQtH&P5P0``=GWrU%QL1-BoZ`XKO<Mv~_gVLERd)
z&_G|lehXi}WuZD(-~S-EF&{j@2M;JYn?GgF#|<vx+PGvrSqr+(=yt(Lx=JNDQjU}>
zaO5L=s8=<wYG2j8s(;n;s`XXdtM*qNuR7`6(Tz`i_AF{0(cI7xg7js}iuuax$A_S&
zlyAzgLTxILLPq7jY+E6ZqP{2ALav;LX;;Z4YbjduWzvdLQ1Vj5mz@Y#S*c$JqOPXB
zB;NV=WgPn~omm;yWh@zMMn9~FeB3c*S{A26oEA5tYBIKrJ>$qYhpjkJ>X<T@1YS|&
z4U5`Y6^Kq0ZKJZ(FesWfmtxM7sKh4T+k}G-;QEkCj>5{L&eFFb3~}-I;rz1xmga^@
z)HO>p)kP2ik`~xS#4mqfT0z+ZV30}q&T3j_GQ<>xjwLt`lF+`q+|pN*ccB|bb`nN^
z!=U!9NDY)k@QebN1Vey6Au}urfL0b&CmAx!lvo%Ohb(*v6=f1}3=M#o8^NMV)IXqA
zqWD~tkqeIUZCY@M2ScEjejfJ?;c8Qj0>fT;MZ^__1_EJX6_W9SL~Jw_xqLM?y8cRh
z^4U+qA}K3?FQ9N_VjR7QB}?YLKe5=K5WxF98V_s}%;4GQ`Rdhk7x?PU%>G_BxRxiw
zdz<*`O_{^Q!M<?U_-)5Kj{Dw?S;xk#cjHIkO22UDrQ0uk9qi@R^8py51{cj2%=^~x
zzBO6z+WBp~cW2hIld*-COeW$Bv&nQ9!|}^jOeXjL7nA9RtGpJ*C4ip#4W}v}poG{M
zS4g4on!$lqre@kyW>*8fqlbgeue3}|H#};<LQPf<y%8;G3oEp~xlB&0P_y8eGnGtc
z53ueiE^1Uug)8mMa!U9u-!RJHj^z5_XTVB0yAuF>t0~KkN>!>Khx4MguN$KFZ|K?O
zyi)JLFAqRh*$T_vibNfCRgiT-HAPCfW@X7%uqA5)7ssBqf{U{jZE%1)qa1`2N0HpL
zL(WCI18OO5_|I!^c$u9jNu&FQ@4R*rc}qE8TL=DvqMWIEWX^uWD+3~hcDI0bcMUKG
zxkynnWys$oM23c9vg+)GSg@oW4cRU&`L4-eD2M}d6Y(esd}Eh!Gh2|MHBy3L*Q724
z<0m^N^}T(=lh&Z9=a}4e5G=w<od1d>$74eyPyrR;3sd&S`M63{x*TFLylf*H!!ZRs
zM&>h(yY~<V3$vq)a4*3%SmK50swlUPqFu>Y9QuJ`H3a3VmO(kO>qK&w>4Cn3SHU_o
z!EsD8TyTrxaoRw{k^~<~LdCYTLo+M^?v;zfqOe4DTUi+85phDY?8L$T7>?1A^I7T<
z<3LDa2v!=B3*M4Kl+td&U#>!>1SjbzXNgRQ5AaufMCmDm!Xm=?|2Pz0u~;28!{l2S
z!=DlgKWyxny~;PPfn=a@>y49{1JhdyO&dk&Wp>-~T+<0?t`_Rn=Ib`_bsOfN&DCws
z9D4xEkKJ!g+;`!IvCv!>-?)C-4og;dYH!!(Yq#*VTMF))nXYWxhWSejLxsw!MdPcU
zp8VSG*$Z=*-@NpJw-0)b&Wb{1*In;i_*+eor$P&JTQh_#bIqi$KX<yQ*LwOE^+=WV
z_C2c5wDdp`Hdyi3&E3;Spn~tI%e#ZTJ2=}n`{G=3_T>E5Z1c|S>F2ZV;Ger+C^UCN
z1>f0#T7ng*ysdNg+PrpNH=E9PZs9w(<T|(ITDLEx`PO4uN3c*A$Q=92hSgvZxa;%o
z7T(=5yY;?%wenW*ugdzm3)St}D#(s^@>M$@>9zh{u)C72>c%Au{+=J|4N%fGY8rdN
zdGU4Ty_<ONrui@28_0RjWF2RI{Bb=R!X!X{U}!qvF)-`_7fD(YBoY__31kv=0C4?;
zXn%;daB;;DYfogqIm$S1;}m*{9CoU;l_q*SIc?;SO1Eg12H;S`{SjV672-l*>w=L^
zY;lZH%3mO-nlg5f<0pqLB3d;ZE1MNd6(k8;{X8C8413rkE&wl+8Z1R7CVT&7$j1)|
ztN1%q@XtSHS_F_;r*2)pc|Bj<2YiCBK9=2pW0%J=jzZn$nYKHj+o62jW}g0^%5HlG
zE>yUEH6pjGoA-6+e5;|e{X__;u6%7DU)u+YEEp1RrNiYHg~m?Nt{KjRKCJE#E1gHR
z8#0cf!DQX_oqa#j;HT&gTF+|fg?@j?+{fS=IvWeMK^zdxSFeFmZ6UA~8UwhCu0oF3
zF9#JpOC;eT?{ZOKFMT!Q!H9~|OfvYp^hzWIN6bNv2xSf?9W~r)@(~Kbts;jg8m^DM
zQmm@B^naxi$Vt<H3rI}ng`h3H8`hmAMd)K%WA8)A@r>jFiw{<(y)(lz^}MIOXl7wp
z)ufSZn%T}n8Q99gAm)RZaJFjZ81L&U+F2O1fUAD!WZtl@4uVE+Q_+ZD6x!ScqtegK
z*<p09Xr>@2Dto5ASXWt3H*f7(v{K-f!z7-pY%dzgBWF7^XW@f=MKcStXlhm$t;`E?
zWaV@ZZ*BUKo!&*cBJ1%GI{J>0W87Q1e3V_3niPDHa+hxK6s<AByrIZ96V0H5eO9tR
zC^FPVo(7p5i(ZGVu92b0Aa|b3-Y2OV<&lZI#ot5FQu!s!3}|6R2O0*X+|1;W#xGTb
zjb!%*O3oEgbIhcM??GOv9&Uvk)5H{?Z7ZY@W9>>hhkCl0g-U@{ASbC#GfO%)kUcKJ
z$=37n<0l}?jK#St=+iq|cE2v9{_!}SoFxVd3sI1EOhZNiVy<ZxAHrGr_-yI;FcdX`
zf{Ble^r=yN$-_|UBa&d*Q-)M))u=hOfmNfpKk1J8OF%7>W}wYFxrJZUUdJs=bfi?r
zZJ_1%1vG2&xOlRf*|{vk=FW4t;s{!SOoMNXld!wg7@>AurRfHIr0hQ45Y#VTM4`+~
z8Ap<0%+w_KR~(KC<F>X-g1xLZ?mbH2z%~<$%io4UduDrprX-|B3_(&_t9JN0jD(X_
zOTN8wooqkhAR|Zs9OQw;dBe<GYGyyPPzCPReaoH)uKKUMj7uOtaCIwJsJ@kCTWc5Z
zhMC57yn9{Vy@z-2$-7_V-7f-V=&JZwqx0b=PouK}2QoZs7tQcNh=4F0Htu07dVnos
zu7^QDa(c;GLk<(HOYBXwt4x!KbSlaP>+)w)(<tI<(}tgg)NaZ&O6E|M$;e7%4sH@e
zdGvtk0!i{{1&+&!+RiYf!epS(-4@S~g59F9n#$M`8Z`qaa;d0Qg=K_L8K#JpGgsDW
z0tK{1vK$GmZb;CrkUg4U4U!fg9!9s~CMB3}(Y{uNE9gC9IGrRdqy3b#s4^YHECKhT
zBqMa9EV%NXos1>QXv##_-KV6HC^1#kj?yJ7%BVcF3T99g>&nbFJPq2ihqWG`l^&_}
zuv7_XWE$YMqgJ};0(Vhki7-N{+|Fz{ppJm2P06|KC@bV-D~H<*zu=NDx{$@B#J}UV
zQqd;1WRu($N(a-q(FhA*8d1{H!rF_|jTyA`xDAx^H{gWq;;N#pMs<!VP2qA#E*Qmf
zNu4uETR9<D(j)5jTtMKYf9VR84A~x|1z3ZMAoqg>jhe6Q%G*0Xuy+<*fh>;523Oy7
zKBOy=nPt}(bHUvZtyR~<My<Cq>s_C9tcP0&tetP-1O1s3h3amYk{~|LgJ8!4hkrUs
zmp|kjEo5(X0}re|`rXlYNB>c;Yqrr{7DuKhaPF<Mr{Jz7i>~e(h|W4;?V>evVrC2E
zXYLN%{5n7KhZ}LT!!NDRR<F)^d$Gp%YiW^huE2)xZz)vuWY-+Lcm3X_?CR4@5~%f`
z)jk56-&m|gJ&#);?IJL;>I2uR2i^``Ilb@#?>>lf2u$F@U*H7LvD|ulE18tc)$arh
z$~dPl(-25@Tmh4Dw#~jA(;}vWh-49r6J^nieaAi}jk-DpwGK0aBWDAR{#TKXFsM4s
zUhRJE#~O>VVs^4fKMU)BNI%7ZX2%|FVRhd_vf3De%|Tq!w&UiGq7i;H9_9+^%}j3=
zP1Cyh{e0t=qLp54nwkb?Pcw?EIf`})s?ao(*~TEuHqtAdDtkR}Bap2D%GCWM55h#G
zhuXIU8Igh5A|aTc4jEyaKU;2sSDt<c$GCli6Uo8&@e>RM;MUV<C_BiKjh~<%+xWYX
zX6eRXI=2rE70h}W8iPBdRom*-ws|%937g)kTRw!0uv8LJ;4pY(nuxMblprB23J`yh
zJ)~1A!@#@B`7Gp9nEWM(CbwVh{x0qmM4+@=FMGHE;JI&EAYRqZPM}tooN{zas#*4<
z<QCaq`bB74=}q>fp(}^G05ECkSyG}a)hULSzC?L^naz3C`bxW2MA7<Lp>I8MJ*8jN
zL>w0O0D&^%d>cbrxJ{Tgf*F|Qh1g&eFr2m=hE>7l62pTIPyk!JTWJ;&b|cv7JeiE|
zP!1SO7ZFpoZjVux1C*M+2)Bo-@TNv!)?<u|iU@xc2L+O_z(ltyN$e-?AmwPG(rj07
z1?D*>oaD|>5r@eMQj{B~4MtMQlJbktlo-4eL#dE-iYDA)cX))^LSS~^lk%xLW&Lo6
zsUp_Vmrx|*8?enlQVyZcP6kvKqk@xNBcMd$ND(KyU(q;g;4QuPEo%#&fM`D`?^(}#
z*5^IDdCzW`5vpzxsn(1G7KG?V`iFroy3@Y)0l;%j>)qoERrjiMJxA!eCAzWR2DXa0
z)pUGd?<lzZc~|HIR|q%V-<iBUDc*KJZTMx!N3iehtIPY^dD5$ZhfFll<@EJ!P%;lz
zQW{XmfmONs?#%yP+_whBk!9&+y?9kY6$nsKys~(RcOgI$2oNnKq1IdK$Mno-b`~M3
zkWfp2vOsDv$fNG*^+>zDZZtdIM!T~X?Xcanr+1e><Du6ZJ8C;(M|OlGGAZ?BZLQ?S
z_N?t6c0{S6t!S^q;qTm=m04BF5}I*)of5b5aqrEWH*cPE?z!iD=fFG1ekryuXQ|r<
zmF<HOaUZpS$YXxtyGL#vQC+(f*Di>Fx%r>wa48ULDHrjW(j`hJC`lverqkd3)W4Km
zrGBcSetKJo4(|V4sC48J;l|HO*Ax1AObMr^Q~(2z)S@w$<{v_)RT<`c{~J^<mBbRJ
zYtVMydK%F!gZ6(6ID{a@aL)db^|T{sIh|z{LReZO{MMlJM>bfR;ZC%j&I#oL$2AW)
zu1?^%=5fSRprjVQZBNjg)2?7qa0}*>#lS`_f#oWnPnKdnSrFXH%DG`1?}dG;2Ux6y
zX0##b4tkKshdf(&8FpNb<KkdNs08;e)$VN%R^sed?W|WnTZOY_z-KK*USEd0h?-Tc
z9XPG_)8)aMkoUQA*CKa?cE?Jzvku2q!TL}&cjFCi!=6Y2Bx>{H?oRqQ#-RA<Ec&Yf
zC2BI1$k1BUz$9IiZba!?)LnRizV@{3!jZHSID~a_6UuDU+T5V`QZvpr23s=pPiv?l
z*p}g1#$F9IXzk1i22gtw^auSxPq00>{YTbdM~2$yP8>Zq)BX6>&QLRZZWDe2=jpDu
zvro4$jm4gfciNGm1v^6+b4+8AsW<plKKe{YZOE<ZDt19v(HiW|a3^|iChgbXNe_Ch
zEx0=rz{trn&&zvQ8)5AsW}k|2*o%_e(LWt{-+kEcWFk`+W+(%(YDT4BJ4O-{uqv3s
zY2@OIh_}qWF<#}iGR!c>7R$O!Y~up(d$r#y{5SU;u?u!7duEF501h+<DEa)Pi(S{Q
z{LgHzFbK?Uy*M&)ZU#=`z!AgzKcF$uz-&p{1%A27Hk;4)5*6eaCA1n+E2Jf+Noo8X
z800X8903I3*!UY#1CiH%4&udT;wMJ6sVDnDXrGCLXRwpm!Yo1hB+Ipo?(#`_lB~oG
z`>MArG(}`KOaF=*^9d!SO`mN#IdSot$d=4S=w0}F8lI4;;>Gc>7@nD$B9KZ59I-s6
zP6-npTP*K2GLRjTq)7?dd)w&6u<@{AdMvPMO&iWu){RA~VMKeG?b>8CFgN$4l`Sgt
zXT+jNi+@8{b8b<cRf@A};pziS@3!oXrl0s_fmbd&5GfdvbA~w6Vp7gC#B;J`VejKr
z+$U8$zm>yb{SqvOiRH+ZzL|;YOa#wK&k1D#+4-5(p^MW-8Q9X0xULK6Sk4xP6Ehe>
zS2a<C0KBV_iM9H@kxv)qjk*mR#c)}M9QqP|I44MgvfjdplXH$YDe#6aup0Gphke7C
z++654mXFE33?r7_0Jb^%wC=`?iHC0g2Qk{ib0nv*&e5&-lG~RwF|ef6rw7F{Li?he
zt^mSaYLe^c`({KFrHT?cjY)&~vj+80ODLsJbZ{@cr}Ry#o^DB;Gq24oNL7LkpzjgJ
zYS=I%Fu%uT^GV5@p=nw)VH<ML1UYR>+$YKDZ!bo4_H<Vw;{{S0q-_}QyV6eK@B)-{
z=^LK7H~k!P_CI|tF(HNV#6Iq9i09Tv&O|mFuljL@p4|I%y{N^XIEy~mm)JLc&3lFc
zlnBH6=(z^x77PBaXT#{hb%GlkFhWc;IOdWN8wC#Umxe>Ysrn&mCzl3Nasz<wr#Lhw
zdD0vmu27bORHnryhAe!Q1a?CafZ1%2=0=h}5o8s`3NMlO6{GKoIU&ukVnr}s)QlR2
zr>7W`WcQ0P?8J-Xm&Rcn6_SX@V)7=9P?@bsWhfYp?mhVvx-rwLpCCTNrkHG=aTdj-
z<5V{L{79Ih$;9#r4PRIAGesf~#I;2~$q>6PhOS_d<>yrM6eZ2nd!F#<`A~2MAw{%@
ziIoy`BbiBPR<eotDn)nU(^IAvzlSO?bLFcE6c4$8^-CC@1Zd6pC4|fT4Z4fjJam+*
zqSqjiijpr85bFTHV_WjfGy&t1N#@aKss9>`Ap9ksiO*8m%E5yiUsP;S#U4fMQN?`<
z=77nQQvlkk6+4uQ9cslvrQ#rYT=VH_)Za;y#VY)&{vpLbbiY*bpX8_9qUzqMxOc)?
z9Me|-{}<J&MLkLpOk*Du4FcKe=7HZm3bk8tJ?zdfy#&OrXZNaSHv)IXvxWQ`nCq8!
zMm?pfr%v(IJuDL!OP8uviX*VYt!#R@wRZ8~(xJ%Koza?YYE6$)(-Ym+w~?P+UV!=R
zQD|hVJGBY4Jor+i^<^}n8Z+nzIph<WU#PmO5l%;Sy`Z>WU{l)%IjxvmSJf}Rrq=IP
z>fverwMgY_RDe*IJjJTpzv}jH*o1t~d=_t#>e-`s_B?P6ticK)8`I+lIU-cAE|2Q0
zTy<71)_u_Oev4eQ8{P!I>V;{wx?8F4eo)o}M6s3vK$rP;&kt_o3WcQvD;6!TR*SbQ
z#oN{57nR}{^+~&0+zG$WFEltZ-|oj$_~wC6T@6q`wzS_o@W9m&^@*x4p!fo+Z$R-4
zKu_QXWb@t0JCn<Hb^9R&|Emt&w11jY{^jQ-D9(%-|FU$@aj4!d6=RIiIMX*>HhBl9
zl9z3g>_JTfg(gvItLAFw1*L{6Z_Y|f7ocLgRH5Guz&=d0hw{-U!2Qn0C~MO4ghtb>
zplQ|<Qa@UXwKJml{0kkYPlP_S4{iKAqUVv8FuYSG!*cFj83OH_9vOWdDj`~T;H$~A
zeVa*$&nW!2^f`^9JvW43x@pi>_!o;+|8B*<`$2i{dM>S@!5gP<em};@mgc3}r4rfG
zzFe$!98)@u-G4>tcnR-*{&d`C?JUA-8^#i}>V1!?;JPiFtiZE#^MGNA<1oo#e^fbW
z$zhM2^4dsHVj`s-9k98G&te0cV&?FbGqOQR-wg4Mp~(D>u~cmSYLf<pO|w-zhXIik
zA=XTfjFmIf6*x1&(^Nov)>G*Ml<{o18+t5#(|SP{os8>1GSEb62m<45xRSuE_t*3H
z%D1;M(cJX@b39-HJ`Y%A>cW-L3fP&l9Em;#QbD5~i{RSlV#DWR=OF<&qqZ7hF@X^I
zHd@P9Z5f+mACb=MxFXbGV^Q3dh2n}i2#sJE;sWDXjJ>hXjd3UT&Cvj5tclOZ$^ifg
zu(4nFtIJ$C3pWb?H{1;Kvyv9IWV=$beYr4F(giFsXUT$H^>!&<1XEYMyHszV;_X`*
zjCcoDoddurNF~PZ91vr`1`;vO*NHKF(!B2-y?s<ICW9umxEoG&QGiyK?^4QlEnim3
zcdO-l34GpHrTTU%zMab>im!*$-~W;8z()+Czxy#&&PX&EQgPWrF}HvE#g<Nlkq4h}
zH7KrzC7a@EUHaD21=+QmGo+|z+hSPpw0vR18XMN*io3r2d<$w~bo-OM!PfnIfOTw)
z1%bvR`}W_)4t@JtK#@LUeb{`ICq@s}uWN`@BbPR|lWI>P(PmCw##Hs4IvRsmNdT#)
z27*)@1B}K?j70?>mL{>EN}wx;M-gOI$~0K^Y)Yb^RoqL%We^Rb>3qq8<+leAK6K$#
zwQ{FYx$_rWcg@?PVDX+7bo$bM#j}06e7RZn>`^^9*#D_#2rt3g4LQN3!70*Oo4(#g
zT}9*GiNEzfLz0>L26bQfjCh3Bq&&2urqdNvtZl$7H0lBB-3>VU-GB+qob}BDgGm$H
zh4-^PG0nwFzYW)^rEG&wJ$Xm#)8JR=y+L(j!>f^qi7+J@6fSlKFw0I`aT?J1Z=_}6
z9?5%Atu%lnK_IAy(yC(|EQvr=Qz%G?<s(?+ha2=bIYVe(6^ujAzOd<ge|7~`^yc3}
zqhQ&XC3vgeo4q}|7+9{0V6EK+xSZ5u_@nyn_{fMh7%A(!S+M5ZDm$wekI8jCu%lr|
zwGX$nMN4WSgCdA3Obux%9QKAJ_;~?R`*2H#*;NdkI;I**88svhu~D;zoxkHzV?MI%
zNh1r04oM@+oj$UF+~!Dd!VF_ecVl8>EBgfZY<JM;A>C`NNP`Ea=^l52B>XWpx(pxq
z?<9>my(k7D^Mc=xj*|wFB$o5om}7<Yyb{%5Eaz#eLer7QO}_sxMqW|{yJ+OyLDSgC
ztFFI$;m!rQY2cncQUygJK{Y*l>_sbU@1DMMT5jxL2}UaS1Jh>BStUESE%nPSFR;;w
zBiLnNG&V=;x+$b@?M|%j(SU@k2y=z!8juO(Q1;M)6t+UcGexA-%&V;M>%yh<4S*WZ
zE@{A%FtKEEy`9cUO<+k(TrrE~XU=rY<_ZaRb=@{Gff|_;%~w<-j1tTY9i)aNi$-(i
zNU)>%>3v}=<_Ae%s4-P$Y^4)mqYS~#ex&OOp~W@5lbHa_U{`cqqEREDJ~YNL$Gq!!
z`mA;m;HjC;HYI2W{0)f(FvP?pE<n5iF?<1jHQW{a&=SjKyTmqNrb<$pG>W7t4`Fzr
z@!$nXufqepGG)_o%GF5>gQN+GdGI;Hh$cLp@IJmy1z2T_IWd03K-3)>yo`%Ug+x&f
zQy9vQ%^AwmrB2be{NK?q_AM7z0|H#xvi)XG)V=lH>$k2iTA&+1*gx6rUvrkuU%_I*
zVqn#|JzBnP@$W%kRLlF6^1hV=KRf#IQMLcL(tkWse&W`#wP#(vc?_W@5oU7LUH@=v
zk0y>TRxG{or{DeXyOH+2_sJ;0TLe2S2%9;ASa<h3cfPaKf3I=jJCW+6^Dc0^QXc_L
zs3lzrlZy+>-mAP_xgbRfYZfmkh1-`AyJ$f59E3?%#B&G;UG8#dITW{lu|DE%lye#x
z!_slZXu@nx9&+$zxYS9XJk2cszmtclza#R{^lTT`>yBxiG?;(X`1E0q@c)!VAd<P6
zuVNC3$RcmPIhH=lVHftR<|IP*Y{cp-NCffrBoe_GF=NT!rBC<<C2vu}iGuV!+Gk8Z
zjV3U1zzBm*6QsA18DIu%0{VR_$S8twi+;K{bHw>ATn*EL6caa*@F}T56_R-M?DJEF
zq*7x<75?@srwTP~a$vtwb3m;*tkfLF#Dw&Ns>iQ*{4l+&EdZjXrjjJ$5EUCgaKG=4
zh#m9!2BDB)s(9)CH4_pcw+!6(5{-EItD_O-LhU?y<~;!s9I=*+2_|L+;A}9_z9L9v
zn0#0X&?{3c+@K>72Nf%F4A2WDZOk0H9;VPJ3*fHiOi*Phr5P~SJA3Vz9x?M}7!xtx
z!MF%5kKlwMFn&VghY<d7_8N_^IT~=9wLU#3;)%i2o@o!yUZd3u?n$QMJ-r^f7A9s-
zV~&rvdb1f$($Wa4Dm**1Ia_*qqV!ZX-=z_GgN;bU&w~-}Uzb(iJiO*9lPgJA4YV7%
zmQ)#Q+g~Ns@T<!9SD|w3D2kRMI4^!>5BZdP+Q3i>eRAc2RnGxlW_6P?t0+?@_{2D3
z!q*|x6lWbS-cOp3y%Qamh^m%ioj`JCE&kSjfWAH|ScsWCH%bMQmQXl-GgD-k$&|@~
zp~&p?ZNV@&#i;#X7`23Lqpw37_c3!5pkPsEa$3;F<lsZNYO<!R$;KvE%p@`*hP3?#
zWb^CU*9k@*CjCtI&Ld~?xopz5Cvw4AJPVNAc1GfJ`R|zR_bu;Ppfa4w(AsR)+H)CN
z%Yf$0p5r-NtF;C&_F8)Yv}YKv>dXYak5K`)a*L?~)Mg;{px3hiB@VMQ{#^Ws1#STQ
zg{wrpU3lj|8}<RgT=VB<{f2Lxwzn*#%KBs5RSQ^J3W1{xWZb~axqp?Rsz;-a(Wj8`
zgac^o*cddOFzd05QG^~rqZ~Q?7e_9g4UP=V4sJ#q0RJHoC=8oKpTBCLNhGRxj|c-<
zZrl)727h+^<Kt@osnz~d>@&rUZJ=8Qwg&T7pRGJhkuJnbGvR6R{K%D%*uhcMTg7w0
zK{s6LXG^~}p<C_{1Un;$y&}9lm_=<ZQBk%;OG7f26=o(r5`F8^?@`h~Nf9NC;WLF{
zFZw|uzZ2BLc>O=1>+e#+>SI+==m?FV@S2|B22zX?vciq!k!u|9lBE5sY%!GqYZ8^#
zH%_kIX<a$n{wwzV52&ZVhUWiQT3`jE_Ep_2zf-Q3btz?C@O-WG-~HB|Z>g2Ll*(Od
z<zb}~AxC`=ed1!d(s@dSFYS?NNi|1&R!cgSlFpk45iv-0*C_6q#dE80|Mu10ZNJkl
zH}@*OKGnBZ@$FT8FDkwlBfi78v*#`I9rGj6t=@&fA6$_=`(*#X%H@?&xq4s3vv2+i
z2>rr{T)R`L+PQpL?mwY)pO8yWL_8;=h2?5tol;o0l)YNm{#^H{tdeVXD3v?r^P<M?
z!?LP{%m2tbKL`bxTG_5twl5dl%ZgOKIDZh!l#9(!bNhN$i!q_`EnHaYMLU$@owpA@
z&K7*Mc(&Cq*X~|v=AoSA-6v%K$w=ub*>mb~wNU=D<x8f<d27fqlx<02AtdL49180a
z()SQV60uw?Fncl$s7=U_31bcr8Q2goQtG(QJhVU}LF|EyLG`f>kpbzm#HQ)hDP%WW
zwlwokOAubf2t)~($5=q1O@Y`9k2Ev(l62L@Zl03N=@^>i88)Ur4+2LcU!uKm=cMIa
zwwbdf^79(gpU-rj0Br9>Z-Hc+J_(3#4&68X?u3Ohmz{{9bKU;VPa%dSnGG7ge6Q1|
zefg{G^Q5|TkHN&dHGhhvzA|C=Nmsv`_hGgc2_Y9+RrCdIo4yUiaoKzXn)L&Xa5KD^
z#Mr&=GW=`I{Av)vMf)P=TrB)J)(xo9Y)Z%22M4ixgma+ae@HL)6S^L!BoAeIB)c^_
z{124W(z*YLy_gd|BcoUbn82U(gicRUhQC4b6f=O|2S_|PDR4#L5jYMcQY)-C8C$tS
zH~j-7u^i@?LQ#gZ;4%onl9-Eeg+$=Ke65m%WBMhgzDn?CtVms)9?8Tn%E;oB7vREf
zqF8u#_hy_UW6>qzA<KAlFc26NRKck?nqP3!8Vz)+fqhC~U)1GYXn`|eJDdTVZyuaK
zvPk~<-l|3G?eD;au)A08I~wUecK`Bf_bIuge(|hQ(!|4YM-Yq7zgp5IzxH)77FUJp
zs)g6!Lr>9r?%VEvV*McZ{oJL-h}g9}vf^F-cEq#)-k9P!hIu3)6=23tb+`9U@8ad9
z=H(0Ww!ujGKDGRaQhwxq$NjUB@|U2qO4PV`Y`I6N>suKE=;s61P_%ICLi6IR;_FZf
zJ8tcZZ$;DLx92MOp>6(H#N%Ie`k%Yi54ZXj`XgH#mpXxd1>md1EuZ%x%F6E++$jJ~
z;L6AY?_Sk=Nbw%JUwD6C#CsBP%f&WT>;S?6>jOpX{`1<Ei;>==ig;A5eo3i*DN_9k
z=2Zx7t-7lfclBa^#2t{gACTP#<eURfFY(|da>nGtP9|Y7AsAXDX14YVWK9+Xi)f&v
z+TqQ1KF{DvE%S3j24t#5k|^Yyny1^0e0*8z-?KJnoTC$fvV{RCV>Tbg0wh?SZO#go
zdI}5_vvh8vfcX<x2%Aw<gCXl|6_sn-obLEcT4-a5($GE6k{plaN<NRm+`khwWhcrT
zzezPgS(Q|iKC9q0z4I~{kq!C)7)j7<p9{aAU=MTs-zCcN_bFkK6mMZKp>m>$fb=^=
zR7#R2-^`4N`K~cxHs(pX#;8I9E7QoBfXOt@nCPlJ?CP*ln+}ng(aJBq#J{DN{)gxw
z0LE1xCM&eV3jKfO{y`)d$$#ap#bOdB{C#@>#<HFxl+ibZ=$40+Y9PT?K*hb#y^07f
zwGC=*zf#*T?>Qc+Jpss{sHgs;61n|_NE6`*$ewzZHL`hD;2Ou>xDPDYJoR!8Ul`>`
z0v}S>60(Bv%;r(yzJZMRoG{q*xX(01>`4|6I@TNPblfa5bCTp?rXHZ_zcKj-LYzKS
z%@hZaY)qGoaMnb6fXA5)b!#=!%!a1!o7@3-0jxz@sbok-(-tA-NlN}4Or6my=^M`K
z9<9bTc-#`P!iFa>QAK1ZrS~#Pc?rqodTx?0FEHrlNUBLZ1<?M@WDnF|%I}|?CeZ&(
zTV&e*DfgiTiL?!-{}veeC$(nIN-~UQIfaPbO<1YM3lgMtN=7N!g#;Fc4DEu(sPre4
zT)<h#B%e?YCZv2pd!(Y4E>d!dl5Qdy%;1WdSskG)AxeUj<lt%|v`bp;XK<ZXUl<Mv
zq?d54%=jvj{AGdsJ{|L!U%E6hJ`uwlUbn<H=nenGm>n`R1q;)t)n~(+4x$X!&X=(8
zlVmuZFq+&{yvbPfGond^^l(FX>=GLHL`wH44gHJ$ABGn?{^1q5q5q~+F5RQ!dGEhp
z_@M46me(*p%rAQP=&hqsSA7)Dsl&I17lLY4hf>ucyI?9@M95EhkF#yLc~RH4sH+t&
zuKsNwINx{TaLKt+2r<SF9Pdh?_qKNYY2Sx^$g}kN%4M8y#rZ~1!J2l}-=p|@qOLM6
zv<#w)`xkepwS5Y}%Py${r<8$H@=GsA23}EWUx7lt1|_Q?8`TT|vMpM(FY0SRJJ?wW
zZ#6xtzhCk9v--&9c+sM8REK`04lDaVoBVh(Q3*si%Kn1lf8n0xUdO$Wi2o4kUUS!@
zPh@w$oYVj1=lg*<KETXqeyiv}gZ<!#RyG!6TM&>g2$S;3$t$D@Vmen2*78$~LVdD~
zeL-K>ufscFG6{auH%yXE4HHcXCm9l1606*_CJjR)ojV)BMKmeEI_DsRksD59N@ZY@
zLtkl1KqW8En-MeI4dg{Pb7G`5>$-IUhEyQoI-$c<G$kKene`??%$Tg68*&G{uh3RF
z#!LT#zGdpY+1qD0ljZV0CLU+RiOH*?1enNifTD<JQrOoS5dc-KA|lF<ghL{Sdlj!u
z&PY63p(xEvz%5Z686AZeJlx+!AQ7FPo}LQ#wztEj{rt??06xKXf_ZAgdNxIaW(Vz4
zh!xe|v8%IlcR*T3!<uqqCH&iDab2}F3JO5MgvveC{!h?;rdE^A)8S7jVFW2m6=ZW&
z8$(Yqh#U<c1Lj8u!Ud&Z8Z(J1-dszT)@3;ugJA`&!3+mM*eX?Tr{e95x=NT?B)83P
zS6om;HAKZOfb*Ai0i3@q?`A&PwfJRc<461D?L(2)gZKTbtw*C<L_i9zIbne%J}jz;
zTdjrrE$cS>7Q;A8v&yHHjS?P5AX?P|p8=#W%r0zS7wm-vpdA26^lbYpNGJuuwr1H?
z^GojzYD7&p|E^gRVCz*QJKI=WTVcH^x9xx6I<RKIo*3XWDG_++lW^j1{Q&>)Y;Qv1
zU|K4iOy8t#AR+BEB!tA=-0TCC{20jk2WQj-IBQ-1W1KbYxDy;7XiL-*l4ytvq;003
z9a$IRvxhsJ?Z=?!v|)YN{^pM7Y_W)Y=^rOAPwDfv7$0UfiSHvH*#+U{nF(=hQbMH3
zpg1*x=$tqZwFy!nFE7E=2BmZ1Uj2y9>Ys40co5+CP&$NyVq=m50>MS~JR-hOeBV>#
zQOv*7k(A1)Lgot;NI9)51fFq^L>>{J>#unmx_fi;iIcAmH8=N)hsQ*wlpwcSXj0Bz
zq~{8T#zr6s0IYU;nw}u3mr`0xRZ$?jFsRfhRshJ2IgGfZ)8|8C`25IJNROa;rm?FP
z)m<Kjc+zyH_32trM7lZ-!Z$vhR7fk)+LYQ;W`KZrlq8ryQG*G@O2p(P5suGS#wTaO
z;?($5=;HW9=&Ad|*W(<(wNuWs_Ziltm|pRe6l&9CoFISKq9G%tmTYe3v1)q7!C=Cv
zT*S%=;g=AVpCS0rFe(|nI734ub*xdZwxOwS027W!{K3uXNaROE_|JyKF}x}4jqq+y
zZ2(n4+nE!S6QMKW_!t-ucc>2I{vkH@L&2xZwDC-ujpg~Pz2d731Vud4IKhph!mVOg
z(;14C%l)&v4v3^8!?UFH9lyOO0*Wy3YqTQy;fI+aML4Yw&;Wiutv5_t!3JhpJG9cz
z?hS6k!E}JrX}!VA>%GAa#b3EMp3w?zYSBUrH;1!fQVlUsG--->Et@Mao;^f|S9ngg
z3T6gu##9o_7lY8vp4K8r=TZG^!)E#-jehnJWBwDA0At>35nQ6|Y(XH^o5vxXlG|L>
zDxws5DrHa8Lr=x;6{w!pRZr_$eUn;0q|_tMMWqJi+Y#~9L$2KhOtKpAT*gY*ycH_I
zvb-&-w?pxEP~aW>_wNK}U8~(4&lk!%5g(CpSRksE$<DfuDt=t0HVv&d4KZFDP+Wnf
z>uUR;(mr_4A89AeVlvmI4j4su=^IV*=x@CTNha-^sYXhl3@3DRRwhQp3KH`n4mboW
z5%ywO*VCO7QqiB|K*!-dm;r}^Bs(^_;+0KP-<P8j^gSXCLBmKYI@R4lSZ-|*_g*<?
zFVogZB)F$MD3~CB(BEediuEt@<-mUWcB2T^VALgPTM#krevDdaO9la*gN`LhCz2tg
z5SuK}8eG~2*+6?8T-8Qe8!R{HhhHBjKn=pJ2!(MX>(a;+jKJYIz)Zj@kWG3KbxGeu
zlVXJk&H$_nhIFcB)C_W{AEduPZeRvZjvy9Ts__jgKHIw4(5IrqS3~3H&QFJD=^Y%#
zt)VaT`k)VXy5H@))h9cv*bGioT;gKWV)+AC+e4U9?pVJ5pl}GjvV_FMR%pAIcc@*5
zm9E3GyC&j3BIg`2*RQfs*@^okdsvz}q9H~H0}s<)8qG##`*nKwVrZK2Wza%6ClgCV
zpMq>B&G|J3t`}hgc^0wNNU;!Lp)Mqey%`%H<GB!kCNR&KlmO{9d6i5HNCd!GuS0`l
zg*-&iv;-E%BltWO__Ba4ZCo0rw}o7re+a4h-=voyvX_8~wWmsTw=3@UXgOja*GIj6
zOs~l;(yj%^VS!zxe~F>cv?C3d3R>Eb1SA$%YOzp53E%Bx<?ZOyj24F|RyqaOP#}--
z&V&+@H$Udp>>D68a5R2$TxZcoXrxH@XaG7#0Z17}M9}jHs`T4*dXkdgq@hgydmJo{
zIj%A)&-6u?=>pBY7?qb8*z^l@j+vhAqrEx0%Jk4oBYlewkI=AZTIzP%YoL52gY$*9
ze@a=%@j&`#lzc#k-L&_|w8!Rrx9E_~2#GmJM64ttA<{9bk3Kr~s-?fA3ld!jBVlV2
zd-<&I6kVZY0p-Hq!{8(&Mh_ya$@a2nWgGOua>ZWkf1YJ8$%A)Hz8AB*xWiVK_c%YV
zDoeKe;$B!S%k~NYS(a^Et3>eZj%a=V<7|6H-i9r!3|UH0VOC+>n&miXS?Y=l^t-J6
zu5{fi{<!yZc5dCKXG4j7mcsyp+~qiIAy6^;B{)d>jZax}9eK;6aREQ_z)S1&8!z=Z
z3hveay!DgTxPV>xm9MYUZ@kWq+pX9z(C~ZDjtL@u<E~Oi0b+H>ZTMZwty(Nra_iR}
zIEZieYFF@UT){znN3o+RS`H_7{I2B|+?;uL?$+GGE3#Wua{cQLoQ=0`)w1B%Bn!^Q
zI}06kD`Rm1Klh8*=_kIe7@>o~o)@>=0X{!F*wF*C31!Dgez=xfIA6bDTX<!$b|GIW
z+NR_-(EVPr#9J#JLzcBt-$K{z@wkHyz~M`MvacPkl<{nK0<hrjw8rML3j-EM?c&e}
zhu%N*!O8be5_EZOJZp=ieyKDr;78tZ=>870VVw@*%?*w{Yg;P_O*8JmKJG)f<Fp6-
zaE7uO&!r<kh-<f#D?4Pcz1+@qCtdi4MHtv;iDw5GFlV3>F`+-t$AJ##Nf)SAz;jmj
zCi0~Kcv23RP*oGBa+uq5?9O#J9i6vmFrkl~y-Af~AC)FBLg^?8Ba{x)Fhc2+OW0Bt
z&!@e_EjT>rx|`0uVX->~EqY(j0q($?vS3$oD}drk=UfiJzb_tI`r2~WisNUlk6m)t
z0i|t7sXGYQ9$dQLbwB)XdY}-&e!L(D=y?TCfOo1P=FwN#^iC{$csMvYIy@Y6k4|2s
zAR!1t9uAD09VHVP?Q>^D1H_i&*T-_lW+p)PCjqcT%v>Vf0V0`V9iE>g-2h@HTqBy!
zu<v6I0AL_M`Dc`yC>qw<C#BKzfr$x5fq?I*9R^s{Xu`<FSe~&jeV+=s0P`^sh6D;~
z9cF0zv5MqV0mgsAfy)T4)CoC2B0XSi*R!$&cxWcg1B5u0UYN|_r0;>oWxh!l-GsCg
z5-o(px-#8~@<E6r@O3TFI}ZRw#YwLyk&Q>@hO**(GLqI%)_}LDjoy@d^UO2T<9J16
zgBTM@Dhe>w1-;;a7FIqSkV5BR4k2BW$b}tYt5dUa;A1knjFq!XB#Dkg1wwUDtXKf0
zP2ye9iVVk?*B+DcvRJ8Bh8{d%tS<1t>9pp8<xRR_keV=l7V8H=4w}y3>H`pW&xIt3
zMBP|D%gA2vaOjQD=nU=~-~iBp5e(WZtW8n{<*j~3Uc7}X5(Nl~`Ja)Cv;>GkOW>0d
zLG{F1o|QQbQ&bYEM8h*mAW+c6^!O}qvY&Dz78v@${P8%PDg0Lvxfe<SUF{&%P{}s4
zlDr}=>jt>UI?P8yEtP4?SSCzufP|QkX}Boo=K1yIA*r5f;cwS?tpTnwk+$I?7d9Gc
zuZfaoN?MR0f)9IAy{-Ur%#~UxLmMRo?iBMqm5X~@5k+aIT-zz>poFC3SeZ%wv2nb{
zb5a*w&u7=6P?~{g7Gl64+K6V|f>E2GeOf>5q*8fI)ij1+Mqw@*(fm-_O-U~$eJm5F
z7(3}>?x(YRC?N-DiOFbtX>X8{eU$7+0(8Ixi8?@s4m#|ThUof1c7newHn%xMXPE$b
zg!YcobwXsqCnz1GGsh{pNXfqgC6InZ2@~l~(zzK*-l1fPlAlmQC=}9PP{JZ_bb=Ew
z#MM|4CkGJaH9`YbCKKV9@xw5c{Y@mXoPIt`2Ba@h78MC$@{>SZAdBU3r(ii``7grJ
zPlcnO35}10ibq1}e-euRT5vrQN<I^+Wuf|!Q2$8S_l4DJu|CNXEH7D}SZx;T7dbfo
z0>@o{BMd$gUU($zc_h?)CLDYuG(8e(AJI;?mXq$mPMmlooO~o4cqFtxv1X$>ffA2k
z`MO0BUVCD7Sgc@xsMaM|P+Qw0q4SA73&#SICk44w0trMsoGTVAt)EdvMg}ws7(96;
z^WTW%R^7+~A1<qsg_4adpQUi&<-6a!^UVzbyBobV7T^5Y_r`CJZwT1kIAZBR2J7A2
zJGmPIb~mnAIxJfj&fXorgB;l1IB&UZw^Sz1(Ei5x+!3qACs%ZA2(+_t$RSxQ<+8X-
z?mni7$2SBz+_+$yv0CzEKa=46CpQE-d_3h4tXtPgO3}hnZ&XCkWZzm%?c>7S(yR@e
z(`w!D?yywOA6XahvtEW1aXPUvVW~o0zUB=9zwvz*!P+QWid9R)s-+=nuZreYMGKoT
plR^b~7qcySQG3?+55I|NtADY7*|+lTbsL>scOt`MmVwP<{}1M10c-#O

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen3_vl_moe.cpython-312.pyc b/model_executor/models/__pycache__/qwen3_vl_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..073ce75723e7d9ca9bb91014c40a2c4e3900a7c4
GIT binary patch
literal 13197
zcmb_@TW}-Sb>MBhp9DyN07!x)_$K%O$>F@H(Yz$i`(axeX(iYSf<ZSqAn~BOoAaQ7
z_1LAVaN==^s!B3c*1M(??}jSP*3wnG<;iYUG9Rf#sr;}-I%svMgjsuQOI5p77?ECi
z^O4<iZg&HiF~-(b?In5pKF&G!_UUuZJ@?$pzj3=A1X9NI-Si*4Ovul$q9>bH*jr}^
zc|ceaCoIDnGEAI-r!iy58so;SDQ;r0-IOtBEpZDi8#30o723=hTh<=8(>6=Sk#)wM
zv~10|vhKK>mTj4atS9cFWqZb(ZHzb4vLn-!^~HU(?9BMH&GBYhc4Y$DU_6)&#Y432
z&a`A(<E^yZkZH??<6$U!SZ}61+Y#@`cE&qty)hHXcE!80-SO^hPrN7F8}H5b#rtSq
zQ>H&V5Ff}6#s?W<AY3CC{Se+6Q+&uk&Jou44q^RV--kx6br_(W@P^Ishd+Vun;!;s
z9EuSFj25m_$M{f1B=Hg2+X}sHT!-Ep9|d}?bKlT_Y93rKH_UZE4C{~-yB)AQxE{T&
zLVN6vA=<fg_Cjuk<GEal8_nl3cOqZA#pNbPU%xzhC4VN8&9hu4lFDZnl4AOLhKt-v
zi#H<Y7iVYFx!JSH6f|(@*&Ct|`wVAsHEK|7FDEmZB)}@R3nIs3Dat68w2(=su;ir!
zyngvgo_jf;n@P_?TeGmZu#o4)gqY`3Hxf8rnxZ*g&t$R{FxM<6CKeVFvwVJW0nnW3
zTv|+I^0TuX4^_|Q{A^kjzRKrQoFL?}so|?h9;U-(E?+s%C0UqWGt12+7c*i)oj718
zS&mm)vdKHwxdhK;lM9LYn+YM6%y5ZZGK*98U3u;DwF_6iGJX1T;*~S!F1&i}l{c~Z
zLJnRq%dzRC$X(-dFr@Gq3IYt{qi+fCcs9?!oLm%=FayP{H(o)uM$Jl)HY8q83+a6B
z8lTJwGkG8g)6tkTy_n73xsY2}6or=-(;1v;r`Cmp^Eoyx0%|gIj>`eBv8=Re09W8G
z(=bvpQ{jlxto3Ov@Dbtb=V89Vw1Aw=rUd~S6AQq$EC+9=xKze0@Z3!LcB)3yh$ix6
zuL)Wo5RQPNlemFp-XU=#h?Y?a=`+c5PY;;VagiP>3I6S!g6sh)kU4lho8~lCs%;ld
zdQDfQS4ot)3IiKc;%&u^(sE-4qzR>rw*WAFG?Tz(W&|8R@=sUC#O%V@LV96TO!5Fd
zdVBH6)Y17P+*l@keQe>5cq5-1y9p9FM)e@U-R4q@Afjqj7<(I4C2=#8$mY4&!X3U7
zs4n$C@1<i;&F4743L(hu64~Q>_x8QpB~PE^>D%r<yyZEvX*;q9eV|Y##g?FQm`Es&
z1dPNkf?y^TS0eHDVlsmgnn=)*KOlTJpzvLoh4t)3C<s=_-XVJi#(Y$T!S2ug4<rym
zdm7~{k!A(OzK|EFKnaRJT_fBHQI&4RO<{!um%Yvbe1PS+1wl-v<`XIrwH?^(W$(b$
z(y0V6Ho>N|!c(Ht0K;S28-Wk;J5LD@Yxq8_7Mzhaai$s5GMRyO;hl!K*-r3>4X{?u
zGN<FKRA|oHp3`pUY^-GoIKVod1EKahD{!v*aGVXP%(z(hJLb5ZZQx9-hjXyr`p|46
z^f!UkcX2Mj@x5b;yJ1ae;5?kEKE{lp1>OYz0LROjury<0n*p<NncQaLO(5Pu&3=Mq
zxqSHwwId4o0PL%(po$a4RTudKK%t^)2B@IIP*vN7!tXN=hzL(L-7^-*_soP8n1bOU
z^C3b*Vu%QBYSPz@In<<Ql5if>R`&pE`b4K*DKK*`y<C0P`;v3sYQJ8ZLmTr<(v^N5
z)<MB~k+24RhTmcCkUJ!5y!wHGp9Cx(8L@O31QnK;O!5xLM}!;s#S9y{&P8T<4$L<n
z5pN`Okvt#aP^}_jK9b>bgH`#ynHHcO#GC~yAVi}M#SDuU7)Vf0x(p?FJB$JvA|z(g
zydWmPoX;!Hnn4vKkOYH@#$WqHioIf>6gLb3_FL}>J#Xv}Ond}is`6%vJ&{Odl7f&(
z2>68~k;q-u3LJsjlDd}E2uw_$@m1&+(vbb~F4?iU?^z{VXzlBd0-Ltbw(Zo8r|rA{
zvg8^5*fT8qf+b&%<m>s7AbZ<N-a*MbSn?i_ya!6&Q<C>o$@`|{eRI!f7;N~Q82k-o
zVs<x_EllJ1o)t<@Xq%CEN2v9=$`8Vrd=#@G%!V-=flRURoVdv6Qnez6Vnv1aBQO>q
zvS_<$(m(f{CaiipKKYh{>D$JFsc6YHf@oHRxC&EXbO9<_SW>j+8Vbg{hKuAoOu@)9
zsC-2Wl&De`ts<IGnne7}Gyz@e4(oOGsZ)jCIsy-^b&QwpnoX0pjuP?>c%P!JXg838
zy<jL<3Rb<J_E?J6g843UKTxoVjr!QEQS|BMf?1z~uEsZsz}$}kB{OR(*!~sy*YvHH
z0HJ8P|AMI=PyITz>QiVCgL(~T#hSlw&_{X|*KK6lGl|Y#`##$29R&**GRsxPeIw1X
zTrL4BB65Oa<2fPCf|BtFuLP^|U%R#>q6YqD=;x;)i@K@O@xU~qc<ADzEkv-I@%Ygd
zJC|Doj|xUmEL8OceoAX+Ra>B#K~uqld;yzXpuV6=s`m0|i4;=~e6pxhRl4U%ZgozI
zoel%*>21YKiwctv&<=uL>WQkSVg+ySR+49zR7a^+MYWzc08N0M3wR0pUg8RU_e9A#
z@Ue41_JlV*gK}i_J@;;;w-h-jMGkJfxfMCN;+BJL_s;M71~z?@o32U7<?#4MrxZTD
zd_@ipuV0jcN0!g;MEZAJ%`5DK`S<3xT-|HarQU;5@4*fBC%GTz{+H3v<&a$A<qIo|
zPb_3$ME17G-gem=+OwJl8YEZG@|D%2Wf$@GOP-01^j{p3y^X&&xfvYY^2NXiOfzT&
zjx>~Qq`6xTjBJjbeSGKf{O0H@QsC7mMyB~1^TbFRJIXCE&VD!XhSAOpee4<9@%78y
zV~^gDyk~(9+7ScV5fYC4VCwy;wYN6TZ?zo<Bem>ac^g?^3sZvvp9tI_#Yw$Z0o;w0
zsJN+P&uVVIViRrvqv4|{PLK!i<iK=`!c%qz^_tq5KZ64Jp@xEH1*#UOo~5aJp)4a-
z?3TKi7cBJ_MO`b4R@P9o)hv+}y#+ha3c6`87z=i4i5y@Hte{H{Se{J<J8OJs`cNCI
z=qxxvyIWXe(RM#<A_W_0m-%Y!>@{%18dQ6l5EfIoCyH7Wi+E=NJbcBJ0x9S5eHGL7
zd_JSNpV|=d7ojKWQic9&Q08C3>{ZOJVfGqiikWhp|2md^8pAVr*g9zp2JNGaM!q+t
z7I|K4*T0HYo0ou=Qr8W9s`}A_Boi}>0>?g$C@c+8FS}M_o(uaOpe+<2yGzPm(imQy
zmb_id=ABT-51j8ie{_ER)&JPL{-)G><WX~J>asL-c`I~f*)4bUY}(p(S~^z0`L`{@
z%NOLX*!mr*YiiTg@kyXZ_BPAjZrSSxr9kcI?Ado)gAL2)KKBxDQ0^a+yglV0X&ouI
z5-$+yR^`;H?UqxTMTAKaf@=tsyPIIJ9*|iGkNgo+G=OXvtC9!S6=9x9`U<F9;iBnR
z-L;|_a4V}<m4J>5tDg}h(Zrf(K^g(JjvH5RodfA)rpb!ot+%ul%K?&T0LcZy-+;Lm
zT}5}Xfd!d`)yKqI@yVN58?0V7SXtdrXL#m*h_%xm=6-v@G3Tz%PcH$atD-Rufbr-(
z)n~z|bAUI4j+iLrGu71*+K5gA#(bqd71mLq;;C6pfu4?Agz;hJ<tt;{0&R3q4fTl4
z`g{r=)+q+`n!a`yy#;TzbsiQH9<|zA@D!XneTL*JZG{FMlL0q;g~>fI5%^M#1q*PU
zc?%r9VpE~%8~8*{`-%+}o_c}HjbDPB{u&PXpW@I&!OGt(IP0zGENp=E`4*k(_vJ4F
zY@7bZ)hFA)x*vL~&>&sy)n2_+@B<f}tQYynHWut3YTjD0`PafXQFvbse4x;Lo8b)%
zDFlkaT;|td7aD5tg1OfV{@*B9FiR>|e-5+tYu_Aq{4~u)v_j28?A9x+U+mS(+REUW
z>(^VV&kCo!x?})v8VWwv_OQ8P?}LS)U|3=98w>uT10?3VVDlS!Z27DDa$TbxxPstY
zAoSnYeEnMez`p-cpAs9WXvjo;`C@}?sPYz}LWqvmBBI+w)7-FLsy^8km{q7M?JI`+
zBZUy?+W&)Y>HN~i1{pBVjaJ9dONEM#gH9Rl|2FW>4C`g<)u<WbMz*&h^tZt0=M>A^
z>XUgpYUEkKRxI;c%Y3CpgJo_4s%sWp%*5h?3S_4>q(q%rz?erGR;`~$zdh<$GRLl`
zlY(MS;A6=an^)tGu&2~Y(5A&Ap-n3-xntT=O@ow*TMuQ@>XIv_y31;(OY?_m?QGPv
z)TFsSv0D?98sb0s^|sn~P`z-&tqDMC)B$cC&~YkFZ2ne`zO;^TfEVEH_(jOBEjhE9
zg_wp7J7$ckQg?wLfbP%!86r@h;aUi;iV>njlmw4K3CbbGaBDIKyrT}sZ(-}dfK0LJ
z@!2JNtWs=<B}Fk;t$*`uelf>J=5I#mppkSAcKBQ*b%RUIFXSP(6&d7Wv$05@5FLqJ
zUlb#`ycn6GI0%PRPKg{FLC;c0raSj4UJR&@YSaaauev}nh|-v-6Y525wi-<p6r;e2
zN)tu`Ri-2$-c0>5ix#G&ewCHy7BUcBS8QC46)@(`qru^E>!?@(8{U=Yaj{hFB8H72
zZpSI+)Q!d5JfB2J+&J)WVuo%5AIFTkX%;nHuDD?1k;71L9wPsWG0C#g7S-Fk4zNmq
zM)mZ$3zcbl(zCD~;=rMtfp{<{P`9w+Y^x5q(yYCk=8x;I=)urPjWegT)z(xlRYsx?
zCQm(2bUGCWB}OBmic^z+<gO|l5CYQP&kKWS!>dq=RU4m22?F;Ykm&1htm4r8&%~{X
zn(`$7+Xxw;hXD(~16|1I=mLI;T3_|4vg)|Hs57cLdrR&0eO0ad`#?@8z*o9UJ~vpq
z9h<g}a+9;ovFzCokzm{E!BX3})Hc4=c3>+ox$NBO?)&3Da8Gg9cSMRD*@{eU+S=vT
z&SlT8>t)$>vTQaE0FfTpeFfWae^&~ON`X<p>=}|=oy*fJqknhklH{FOajafi56Qmh
z`ZdWnv3cnHN7K@wuY&Ko@)ddH+@?PY8!vz78Y}sRWPiBaK>S^6(~@rxDzL|VP<XGf
zc4?z^EBNAyY1bEgaQwaFYn|J^i4FGguypteK>ge|w0>~IzwJAWC>ls`+ZX+L+rf=%
zkB)7%om-g(QY!^H6oLNLZ>mGdp&l406kRdzL<ZK)>)+Zw_1aeCb=cbaBHO)FAN!_0
zfvNPZxBt|C<R8`2BipwBwBl_pUtq}L%S`z)Lwci|-pEep!Ig9J%NHg8sg;Xs&h<AR
z+2mmNdao3W!I<!ZgCm>%Ub(yfPey(?vi{9S7q`04tz6m(#-KdC9Xt&{p9K5m!9%6N
zlhWYH$A-r*Z4I7Vb<1rN8`q?^DS2e7G;&fJIr*4*%x{jI+#0#KdPR<omZImR=s7tu
zOn*n$lTu_HJ{i>ZoR*=E)r-K+q1cy!8kqRF|Kvve{c|wcf#FjBwA4Rcp({rq27n|7
zIsm{=+6PPFaS8YP+u_sDvvEv{oY)QHxa*gs$kA2vzKul3{)6)a=T5kH?bV09Yi~;7
zv5n@^#I!Uq4SVir>#7^}{5|7xxJwR4<?w*qH!Am!$-`r?!|7>VweERIs8jA7S~YzV
zYA+WV5;^qbl!1f>pV&xC*Dgp#@x9_&Vmo-~QSak<>4mR-5{mpB7%FaD+YY_}6&)nL
z9UPY@4*ewj<1h@f8J&XR543KEVz}Wy@Tg5{o8Ad`m%?K(!?J;N{g#1p@bJFX)ZX#L
zLE8Ivd!|;W0e9Ubg-2J;?DP)Hq4w2pZI7P;QhkAyEAS@G-6$#B{v)!hrQ~XtT<xpu
z-@1CrS4^aLxO~+_yzP1z0RqNXuSR`*4`?Kh{u<wh8SaO`ZiB(aaH?XaXOxOXJ@BI;
zBL1rgSEO*TvZ&UUnqiZQvA6)s-nS5F6&u`Iyf(#UGKs_o41Wq*1&nK+qV|IygCfmN
zW5+*3_RDt&Y$ab}rkT%)&D^lIRK~}n$zR~3940TGV&u^Y`S|H4?m=_=t}pc9#rIw;
zo1u(a+(K(stl3ECfsJXY<7nBARR;;RQ&ncA;859#O)k;}fgmaJLK#VcpgKJ7hVO+p
zL&K7Nc+Z1v*O-vGXSboTY=$Qc5NIu1v1HSzmF-w_5MQ9|#FC2yTFP!L0kwub50(zj
z7|iW!=ht7`n0#dZbJw4`HYca0(KAx-*)qYdk0w77{`%+_v`lx;lp!hLMI~wb1hN-{
zrZ0DlL=RGE{80(im}NXn)lO;oaUjM|U^a=_uN<OO;zT#Wb9wp@MMPhQCOAxS67r!|
z18<b6cWm-y_u2)Ls6>{4Qk@7gKveelHGVx)vyX+7S=~E+XwXZ5SBYWQM0e}PuIED9
z>(o48k5wniJqOXNXA?lynfFukGwQQ~=oV@YB$!_X>p5d}sF1ZeKL)UMBG_}0S}3(V
z*Zr$)fF1tT)&zR(G>K>!XnM|^>TpWmIl&wGYOw3gva(y!;V2&}kZ`nRzN(n1H_9IZ
z7{v-_emB(n4K6so%89infYE0DFaYs*ghovme+)}6BBE2|ZdZW6jm`fSGirbE8}fgQ
z8Gd2KaT5Z2*Aqf|2_mg}<Q^*gkFeJ#rn$teJcL+j6rKgoQczrKL|)9#!|}0VQ5_y0
z^nxf}a6{p)25ubG%Nj~&HaX7$_JVi^_AJ$l75dpTe-iNOoo}fZBGgb|jUHD{xz2)N
z75*zA|B{|^Z8vnS9h7Vn+qOwL&{Yb=q(H0`I4T8>mIBjKV0zhf-wA6<DSS{0A6zzV
z+gf&-`@ki6c==J_ad2zo!oJZEZ~&BJ-$FwDvdjDKrF)l3u5QWIU8(dykX&wQFSQIw
zEfCf2T(hj(w|oco?dA}oy1*g=-m!bfO3tB=okQq=4E=DZ)IBA2PnEh)N!_QGr{BGN
z@A9^*b0;#kVfu;l$IjCDS!w+2R^%K`s(lymFW$RYavhdjhs#D{cmLF;9<N2M^;R(c
zec*ul`Tq@;et_JpS#o}ejhLN5cA-wek|Upf`E$}_cHnXYk4KYV;NuBqs!2u!xIJP@
z!z~iU#o}!hb;BvtH`Ffx{L_XS!kvacV$w|9$ikUFoc){O+}y&MwX=UKoc&v<(YC@i
z-KKO`Z&%>Au6F^3Zr5Sg$iZ0rEM{rUzO-5YT`)cW|IK>Q2!^|2YGFcJDw>|NG}JMx
z5Xyy9`l_KXKxnsSVKCP_IcFIRH3D4q*wQ>#303N|fWTYjC{JjC&`CXrN|05su}BdW
znWo$c5jRCN6^!+azgP+T!I3J2n)P5$!6a5fXaxgn(H8(Pt7xvCNe``hXs~v4u}cRl
zFi%ml>C_(D^%CG!j5v(Zt7BH5&{}6fs0WF+L4aOmp3lLo6XpY~$`T+(^|9-74uaB}
zQvq0&uL5HY>3G#A-zio?UiGQXp{Mjr(if&2!#ZJ%%F^|mG2VvuN^rYM>f4-%?h;J^
zf!g*=(#M%5?^;rZS&}lmbqa#l77>>)n&xnwdM1H(9DSw<s&i;ao=Nb=xTZam=1x4*
z09Bo%?-}mDWP*9XaRf<3bhw<AN_VCH98SKZ!&jd`r6N1PgXwCIUaHTTC2(W`7xx`B
z-GMnVbY8dM4DKoflagXmF{iW1S%~u7OtTyqTRtl!@MJmxH?U^E_doyB+82MhaYC`E
z_f+uOnBJ)_>FCBPjSziFATb(j!F!QPLk14N7lANdE#orOpWu;aYT&Y0^&RkoKjS-4
zvPxqXZy5qAocU=HtZ(B;O<9;&E(Ij{gb4QvvGAwZ;m6olCY^<gn{Wh+>p!gc{7;ZR
zIyn4s%-+F_`X9K!@c$VyC9nY3%pe#8q~HczHBR*JvD11ZDPT-Yanm={Z>7;Qefl<v
zuX>#T4}de=O?cUhNc|6yfEgT_yr6gm2oNHDUcZJD$R=+m5aW7M#6Gy9irx(W?+|qz
zvk}Di<lzckjaLNjl6qkXqMAwrWfF}P;$66?jgKHA>I>ao@W?XtGyNAVeFd{qkO{c=
z)Z$Bb)vY1!L6?Sq^D0<zf6@%lfosYY_h)onlx)YhZ71cPSgGfj)N`!Vb4KbpvuuIT
zNGUib1;>_M6%VKsJ}ZUKZrWOQ17YeKbsa$eqeJdGQ0h7(b)ESrAa#9(Htl*MCC?$r
zb4Ygiz)A8tcAI)iO-H4sqmP2yO{eA7j^*j^UHW<JgzOEJyuFgQcc&$?7Fh3i<lkyJ
zA-6|&f<0?z*UxVS4}n8e>OLxUAKiCa+8UOp?_YxJ51ofJH*E9t*S1Dpfgw7<ncB9s
zfj8xDEV%|G*T8yjY3R5#bi6clO@d$7HR>8|LpaPqVLBlMR&t$`AWnup)3$8{A|f4q
zYp<93rlh{9&10`^wZD!;TVY%4^_M(dAA7p?jl}I;v8Zz{d5=rp<J+ziyNyj{E2R;k
z?p(>){;{)tt@lrce>l9^J+<#5t(~i4sq=``d1SlgC`4(78z5}aI<<0o-%c6>51j8g
zWq)VMKQ8&lOa60`|D5b^E&2N;e}Bn;K=L2>h1m#W*Z}1TA}>$>)HMJ{*u!JX)7!2A
zxiwO1jY+MsQtJt+^#ptzkKEDygZ%sX4O40Syac};=a)@CwYB~4&zk|A-U9v0iPPo_
z!~`OU)}|)P@n={?ar;e<;*Svqv#+CIp>4+4L<6z=J}0JTN7-oUuxy%IVV-KV;;{Jw
zgZ?8v(SgM06Pl|oB$A4bE7nAU&8Ofh>l;v4JgGcbrxf027GlZkDK&}>ju`~J)37%X
z;l_e`!ADi!V>Aj5mu4U!EX1fK6Jl@IUe8sH)1rDuI#Jt2Zw4!EcyThO-aM!GsADXb
z$^$rD>gI84tzNAJ2zr|sIi+|h4x5J9P#TU9I99y^Nbg|A)HpkjE}t??0qL|LIIUhH
zj;Xhi5bmjskh(vb{52TrMhxTOXu+!+E_I(aS`SklnjTN^`svZ4m<Ar=A%c3Y;877P
z_MFFqcDR*@d=cPQB>szldLzoNvM-zG)J-KiGjMjMv0Js{=&JB^*$83@y$Z#w4vD^^
zYTc;}{ti}gyRB|J(c&vjJU0t$RTl_#gGgnLM{i1%n=XX2y{Ik+C-_gG3Ia)le}JrP
zWEkej0m58ien#B?Kw_Vg@Xv_rQ}V`tBga1_-Jg=^r=;goa_&=d^$UZMG5o?tnDI}^
z=zk|uUl=S<Cy;&7K$xk2wEI`y*s^!rwd`9A%+bxxgZl)YpvZ>cZgT*GUm-ctCAYNh
zcK1AKv<EEvMyJ8BA6hgr?JLDSg3rAcXe!gD{ROL!acs7a?-O{IM~Go?lku0B0f`xq
jO&zkmOKu#35GRmuoMbLAo6+-o1PgmkXnR82C<Fd4pJqtV

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/qwen_vl.cpython-312.pyc b/model_executor/models/__pycache__/qwen_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..00a113f7b5be27048cd0df7165520f7f747175cc
GIT binary patch
literal 33646
zcmd75dvsjac^`V_{eA(1!5bLxJtP4TB*m8?k|05f4-le6TCzrx#{<j(FyPDpJTrU%
z1|3;ZY%q2rFpW#FRw}SjBB)Xtq`j@_-mGQ1>1w=s+q-52x)`5QF|(pH(OUJrLjjJG
z{Bd)C-`?k(d2lGXsngX%V$VK%e|w*O_Tzi+ef}?(%P!zb7{3{Rb4U>WjBeD+rbJf%
z&>#pmg)ay(AuPmnF?~W8*0EoGSkHb9VFP{*31iX}HYLqrbJ7yFB&}g<(iXPqsEjdT
zPddVmq%-Vf_ojp^=?=S-p0FqB4SQLdKH&@3u=;AlwfHqBYLou3pXFH+b;&?Dz~a_K
zeX=3kz~Z(<W3nmSlxz++CtJcT$<}ZyOSdQ5lI`Jk7I!3q$&PRbi#rqRlIz3kS=^P_
zklYyF$l~tArsU@EW)}A(wj@L0P;zT{YjRt78%y&hwkJEooh<H4bS1mP-N_x{9qhg)
z(UaU6-pS&%iCxLv;oU6mPdt&_6W){D8{V7T7v9Ix>Js~t2f_zfJdk)Y*&FUnJ{5i{
zc`$r1c_@4+c{qHS<<%$pl1IWvSiB)|G}#~SXYt0wvE=da@#NFtr*YpDYfhX<o(!K%
zo(i8zo(`W*4ul6-dQ0L=axgrYd?x&iPS6Wa3$fPMg;<+-{5^~%UE#AVwH>L!lGJC#
zv*NSU7UVxCdc||Gj$Xhr$aR2RFZ#z9S@E(!tMdyCaswbYeh%dG40017H-8S~3k-4#
zAVZ%6`9%h~6_DFL2l7P*xgC(5;xk(7!+Jq<#G2mkdQZn+FV-!##CC`+BgR<I>&Ew#
zcMiYAO7BGJUGM36V)$j2wi{_rh)-!XzQR)XAa$>JM0}+Yz*^pySl&M5?H7A1@*-%-
z?(w_I1519yi1>>5rS}i0wXiy#L>;~2pg16&5>LNp=HOauqf`3OQ`3DXQzN1zriR7N
ziBw`L`0N!i)%pBDFgXzu6T#t$<YY7xA4-V9EAh-&@WiFj(Rga~cyt&EVtjNglkWPM
z>KzQ3Wb4srA`u0wY(F}YNQlFk_(V#!oQY0OqKs@kCtkcn50VY%#7syp+Y-{H$Z&Lc
zOq4B?Q7IFTCPD_;)|X06WTF`{CR+yL8BvNRWZU_vNwF^xkETO9S)WQFv}dGfDm^kG
zB`M8!G6l%Vi3A!ukvfC6hm5lGNHjA%c3g~RE=i*7Ju8VQ6Hke;qZ6r-_^4cql=D30
z{KN$@6`vL**?wM3r6(kMAU)+|GCC@rOif<O;LdhlyqZyO?9V3>NnR7OyhoyGvHwys
zIrYpWHGvvs9~Co^=x`=7lEQoW(I=OZsk2eMP(n-$pdnF7_C6<0CgQ{Nx=M=gxrr;~
zK&Yzb*-Oz>CO*wxPkE?bwm&DPqshsHDD9LT>|sOc$m9e)+kNIzA`_>MNSqd@D5dty
z7Y5FsJo8L{-$3NKV^5zvcmBB-(X1L3Fq-I(W}^M^;f!2YOgkPI6Ka2zB%i(#l}6Ji
zGa~E#+9EvF!IMpLJ@rX3>#Q^}ET+-7at&oDx0o52ffKS1_sPi&bq6L_QcPuJCr|pq
zWDMOyqeTGxu3yYV;|Y4LfY$MBVA4k}#S<}6q8Da!A}Pk=D9%SUjald9(Q}w~$*Am5
z?#7~%;>WbQF>n0EHXln4iLn^kn3kRAE=^8ONSXA&#B+Ueje1vvmF;TU*|T_#>)98?
z6zc&R1ldNnY&?efI^>~Mxmo=(A~yw5009-kdXQ8dNT)t*6iqQbp$E|%GZ4xZEuwY2
z29b&jh`}B+#!NAD%<`U*XO5^PtyFT#7P8BJTHkC^pN(G?6THu&<9Ks>5LbU3J)fre
zdw|_jT4!)5bs)&rQZS7*65JY0T|&P|!HJPzoYqIW1a|m9a8Sz~9*d?@Vj>;fvMW>q
zGj<?&f+3HRv?~XKFT`V+F*{2eoXCj5%vdzT9}r>Bji-?$1}{ewm&9N^#c$%&THq;K
z(ZS3_@XA<xcnr8HD2Y^v)kdXQLkU1Bm;&aACX^Kw)R0M6@aQE8=r99Rn4~4t$qT0W
z;Irz6qp2Xnl|y1MAzlWC8Wm%~p{d|xG@Zs=QJy7gb0-*!OTdPSsV-Jtc1}{?N7##`
zWn%`oM%E9dJ|+q*>&9f=71@Y6A02$xAzLGnR5U3@BC<Ua0aCt{ptv&<xp*m>P;xAh
zNNi#_5|Q?y0?9$Ocp?#WJ>gLrOk@!^Cz~=8((ssU=96CPMB2N;Dnj9JPj+XLliic?
z$<7RxwwUR>dTH<eeHZqM-HG^6_vBP&Y$DZt87QwCjX>kYtK#q_RL5`A-4`*hB9{|g
zlT*?j)W?EDh@|%-_!Z%y-fprM8ib9zUhSXVJlB=8cPtxs=Iym}$8HYX7`VM{F}BpV
zl)iIxdEMcx|8UOUchA@-J+0PMwr0SDuxs^8`1!@G8I^2mE5^cBj5TDF8?+UpAp>RA
zfC2qQt(y2q`aqB^%isv7SA3~$+4;ntvXuj{6Y*F~OtE~vSiU^QQrIH-GG=W$6HF52
zV+(}m@!GInX(=S4snJWAvkHwLiVj~Gnn>}b5>3T|SZ8UBEar4^kzul_i%hA7O@m;3
zgx1<v^s<O0A*%D6t(gd00BJrc_hYC&7SLg`ek?6Lg}XuNAVTRl1#Fy8Q0$Z%oJA!4
z1Ol2nR?Hp$XU?6Ycl^ui4rcuabM`~`jE8uQRGIA2#*YtM*;H}@g09uyMevQ1$wcVa
zCeXi_D`pUlF(dv=K*nbL>WL4IS=88weO4IJ#jLNp!e+p`V>Zz;?q&6s1u^?$(s_N3
z>bWE4nDcd0*fuL%)rIZngpfz}JReVEK>9KnAS$fy>DSU?Vx%*w-eZKPfS!jFz(;&Y
z&Q;6LL@$VGj4_xS&fPIA`%-#)aA<pQ>=lNqXg+{%x+JC2!HG*50#(KzoQKG!6@S8@
zY-8gciN%w$4Fn=GCPrhxZbRVOWa9-&HeN<Jtni_%YfK0U>#Z(fYJ6LFQ^;sNcHKN9
z{2KCAepM&T=w<{kz{)ja{F;8on9{LSs)JoKCZw8_RD}!*!i+Fp`cxHGcVUZwUX?tk
zTNqbKv64$aGYkSxrFODwMvptKE<9U5jk_3wOY2VwuTgvS(`Y5&R754PQd<42#i|TV
zPiB&~`UL))www}TdiC93(`D+^{29p8GrDQ&8Kp1qB*OXZDutWTl|ZO7UC1=6u;VRi
ztoV!8xQlmc>^+PQU3ij*$G}d2RT`A23DdoNJ_fZ32?_|Vl$bb1e>k;NNGOm?*<_Rs
zpo)-JHX$GUH|SkF70-ZTJ&SbdJOy7sAlF7NUbq~gS;r9zO*H8_%4sXXe-YFX(G~)m
zgK`JW#_}|<$$(=*2Q47Ev9by+OKPG=SmLS3q%<)uTd@du%m^GiCL7ZirHt$#ZXz-Q
zUVlOgS&)b~<n5;hO6MpjzKJaoVM{X-Nz)7=9xE7pRbu$>i%6Jms94`!YM+cDH~kX?
zfBmYk<`r!2>z16g;hwcA-?(np_$_z7C75m5exrXWggaZs-TKY%?7zK#$(CEc|AY1C
z@5H_z|6cru`*R1+&l>MpgAaHO1+(C7oZp}GY*^HN;0a}|p{ysA@7jB3f3B;a0Jr6P
z4$yB`KD3j5H&F@yif8i&p3Mb8Z?or}r&bO4&3ZPknT3Wei?*enrKvx7YPr4-jdI>c
zO5@VW<%WZ}bKP%le{27({R`(;HlE0BJh9w-a@P1GYXd{yvhJ#E!?2|y$!Pk5Z02Za
zSX=7o23k@Kef$$F^_y6(#K=}&>LPj>kk<^?jMq$<<fXMJ1+ZL{(vaDOYi7WiKdZhN
zmVFZ~Uk%L^pBw|4sD^TA*^cO^0eH=#7f`>36pCeMEWeJYBTrk@C3#hAjp^Pus7sx_
zrS+QantjGPt|6I{8VobW>TRaBRd2P*9gVw+^{6qDIn-xgv(DK5mp{`sV@0d0AgyWi
z-!;dK{%cz@KDD*gBqtze2ijfj-OMo!g{pmU&6(O%QlDR~x%m5Y)uy2CYt9+xczv;~
z8e=1>%tpZ2|Cjfw{d3+CZPG^FHRGz<zQ@e78N*{{nX-<qQGF!xR$MU)lW+B^bUUsQ
zvLc|m)>$2&feWy9&1~&fA%P=0wm#ihpRTIw(~b4%!aKAVpR2}ZTxB@K103Q3%Vr(?
z`0sFWQm2y*M7n4ONL>g%{{N8mG2Ma+8i@y!UZK2~C<r3}-xL?GfIvc1l#y*rR)v-a
zawkFb6NF_b8jB4jld^#VOL}4?lZ;-4T1}Lam!LecLqN{NM=woWN=q+ODH5GRUTKKp
zF$zQkvOaxL)(y$Ji0n#2M2$tRMi?t8dsE_-2)IpXZz5^ZmB<e0@}wyx+jc=zqYft3
zD(TjXk@Rph0ac!-NPj^`htjf(S_E~P0$EQFC`(eFW9D3En)qo(C`$rHGGz;tfKW%p
zrt2%orjqe>6irW{gI^U2PQhPybI*-E|7hQJ>#TmZZ}wsyB&hdR@1pKIhd@hbU2_*f
z(ON<)&7HaC&gJIrCBsrpwt08n>0NQ|%sF@Fovu0Kig#BI|DC%ECc{4aL&4Bu&srM_
zR-tj*ylbUlYp!8yc6)EO;i*{{YU}P@>FUdM^|3m-bI$Ii=L!a)`-pB;(0AK&)@`$n
zxfd541-nqcZY8iO7ub|{x|Qeb$$9tWoO`sQs}^Iu{Zp&p@Lvzj_03)UW_JNniXSgl
z*LHL8#^7g`tb4R%4RuNTf`6r>Cx`#FJ+s!l!=H5o@3*agD|suK2RpED;l-7W`*Iui
z-Kn|r-15f5pzrPO>(8uNh4u|^#c#zItxKVmoyT%JkKG;m;kxCWXO`OrXP?P8g;tt+
za!ox;L)oUD<);0!o(F-Bzvug{xrN5Iw`{j;3*AdkE;k%v{o1&RcQv}IWO&eX7%J-K
zRhy~N4oI&+ke#`P&c*1G4|;}+%MJTi8v1h${mTu<Syk(ItgPFeTeo|8-5zKm^x1V!
zvRbz0oLdV9{UHpoem#b`9iv$~#7DCY{j;tI{)U@pZk$=@T=ws{ZksjF=^l9MW?hVn
z2^r204!)}!3^^oHhe(Gh=%e5W0@)CUqSH7uF_Dmn^<%49I!3YADBGp5io;?e5sAF3
zlZKI+Cd77_^NS=VOBB#bPX7jizkVG8vjGBgjSy(U<i`Jpt`^fN-Gkad!9)?fgTKCD
zVNt8#sV&%8)Gl~x=K8OX7aZ)?soegI6)wQyw6*J@<!PNM@WA1HqxX7m!9+JyS>w&#
z8@&q~a<!WZ3;^rE?s=o-ddsIa0^!0qHIiDdT`KFddKgKM%HA<+ncU4}<PkHIw9O=G
z$1JZ4VGEOrtw6ChXjq|wdVb){z}e|;1VOBRRYl0P7s*MeC{mgLOW<4u(lsbMN(2De
zhd}}2<eFoqR*{`hx1}<Kp`d3RRwxyF6%q!Cn_Q*NuMlBD0n0_$40tSlk(e0M%^2R-
z=oy47jVsM)oLkJGQWWHCr86400`3JS*NS>H!IKGT=R<lff_w{)mW`ug;!?;ey?`4&
z=ZMzI#^K1wu+%_NGq+htL|<j|FcWt|CQd7Ul}de+0;-HpM`{&e<x&x*MjH%Gcv%Km
zdH?|lFU}I-<-UJQ-dUe*+`8nyJFsTZ*V##Wf$&h@u@G1eY{8x5eqeLn*$S|{uP)!X
zam{9`2h^`Q*xVWhZr3jALpB~)5rIq~RO8_*czxY9;@7p_*Xn{qq4xeYC?CeP{;vkX
zqz0-<cTSLg84w|Z^ag&UISOv@1X`w?;9fy2O^-y+@wH4Ve%e>;IE8%uIRTPR^;IG7
zseNPW`qaGdn={vqv%1+HAgMP_Uq3ys`{v-Rj&i?p{VVf5-~6hQ>+#N7`RZfsu~kDs
z((9;NB0h-E25N;wBvbkZf>K;_of0X?QU<jMxaP;k{h%Pb_CB<EP4)+M4FwZ^ffQQW
z3l@r5h5FFq?p&bzX9Vz98;m9&ZxK~Aj6dyCH598`f#1sUfoQ14h{g0H2H*%2baN)?
z=FHH|Swz#Q4$xk$RxQF+yU^O%xc;t0YiC!qc8+nH{}mUscGc5WtzFezMQi8!2dUWw
zeW06RK4LCCvcH1yIg*$dzVH|PJ-mkpWlM}K2QWgJQ(PlrOC}~G66t1SJ5yaSE{`qg
z>gu_Fi^?i+o23%BfnPQj*9)+fwkjXVp=r;qBAx?2G%%$W5jR}d%o$DoC0waW8>p8s
zF1s?CG71pp8PoeZRZ0VtN?u4&r60svEJs}-TM+}w#zZR8!@`|>IS{dujih{F6J9o;
z!+<l{>ix&alWtNlPr)q;7-nU?dWDQw94}G}u(;_eMUAc1MoYtzKSiN5as7lPOI197
z>TjFBvh3eXxbep&@%#SzdCNj5*RXBbzkSwr-@kt0>BZ-l{ksY9er-#>p*`QWnQ*4X
z=qH@1V1yX8TcltFL77^G$QupOD&+u$>c7@Jqpyxe$F)HQsB)<&GX+y7L#$QN=8PW0
zrIbD=yo({yvF5-gt<OxzrWl#Uq~AiF?;0xPlrpr*bVQ0Cysc{2YNCe@b1S_AH9`=u
z3tfA&ok!+QlKE-D_fGxo`g{J+4~?@n4aqLVXQ!4uJF?atoXTjk7B$cuWL-qFfizE#
zp);RDRZ2U7Nu5lcU6sxV;~G`RBbBST-qcQ4YXJ?q4WN)w`W^g8-=W~2Qt&1PZzCw{
zMaFJUw^Z#vg$}`AOGqC@LDqXN_nh&j`-Xcy^VZa@sYTy+W|pSr+{@m+oU;$4h=in@
z)*IG&|67f>8W(!L)3WT{lyhz(DpgLDyp=?WSR2_kKqibqs8!j5luaXviD*WmE|<+`
zm>IN$X7wYPbIt5!U!&WvQ&365ev=X@`0w~j|3?HMVVDao?fITv-);GWmi*2=4_!5&
zWIlhvgkMlH#4HrEg3&G5C}tPxTIYx7zp!xRos+juW?MUR{;q<9a-15qqe=>0jAu5R
zdNh_9@k)-Fl2nFy)kb##R?K4ZX~ht)EJjIcu}^Kd<7AayZWw>srE11j$z1vOAgg5Z
z0<-;dkXEZkTAhqdw}DN!KaPBk=wpu8jbRtdC+?%-LcSCE9uQD(%mor0tN_4m%>9^j
zPMV2uS1AS3>;VDwF#=ix0_u~!a0BAbM54rqr}S-9KPa0RHkZweJf>w6Gig<z{o&GO
zNjwZg3;zL;3W5nWWw|gwNTWz3nT?3bva3iKt67Ii*?)E6_X}@WhV`Suu>O@AQZJVg
zM^gGioehku;NlzlZ~2XYy=GC%my^t4y^iHxA>#S2zDVUt>8A8P+A94X1#HpU`NABC
zr!%q%Jvu6~wI<u(i!nqzNgAaY4J{V@7gV~OkV?cFa}r8o5YbP%N@-|g<$!7QlV*83
zfnr2IYf7Yyd|eYLqCFpIA$j7X#^$$LZ?yuVseS(Po2{!po6G&sD>QAM>s#{(zKwZ*
zBm3W)Zx7`=I{(UH_SF>J$bU$Xs|H6C(Ng!{e4@u~ntJu$*7vnpIWa{Ww2Md_n-Y_V
zFnL7FDn?>D62htx(`wd*YL<m+3^F6DOwkDO?O)*moC1(gBAdDUp7h(efnI?|h4K1a
z7LncLPBt7(XCjOaPq#nP;pG5b)a@Zu!iAKtUjOQRH0KGfcs9V4wBiZnJfRiOj+|%5
zif2#GvnOla!)faOHa#W%Yc&3mZj$~DQe|^Yyc{1ErSDdBlBd`Q3}8C=8NI|HdVc<H
z+MDz2&06<ztRBOY8Fy61r_roqQ>zz|$4#w%;T2$|YX&gkup5^$9M^Q;avQ<AsH}pH
z%@J@6Y>8@*lyy?thzHOblul4XUPCb5@W{I=d;)x&h4gxWfKM<BHG!LLzu7k1_hYYb
zu48`co;P&856aJ);DZW2ptc$xAiYD+d!2$s3g~U6cPSu}QKB-VX)N8LfJ7DP|D@m;
z1=QB+yuf>uLqRPym`V^Y;4J3_JPqIlJT(OqeidGTVphQmwHd|i#1%Lw1`X_^T!D*n
z+!|Lv)fIN@OnVnh?>KHdRs}>0W}Ru@Lftzpw_E6bA1d$D9n(EDm`uLBFL1NvMoWRk
zw|4*j_IJ16@#nTa#S$La+)T-40wA9z^ftrz)2@ILTb)Csl=ySs7Din4B1zE(NYMsJ
z(FTxv1M_XM;@5^hJN_Jyuyy41GU8{X-N`g?uIe5uAj?(#U*Ik60ZA`<viM{l7*5#V
zOQzDGZ0FuXWC)S%@ID?MV=A~3Vx!RvIGVr@PL$$eTDEgT0rNj`D^<XiEfa~yxM1th
zdPRU+k08+f>JiMS3OZd=g-+{6^jCFE!Q&*;PZ`zLYkBT#9^}y+W!H>z#?3rITr(c}
z9U<QlT1h+?{6IB@UNuuDDfqx2=wo^qdKC(e(wc}ngVCGD-8FBKGpK6n^cMX?#?`r@
zHVD5l(~M?FE)~Y{EZ`7+75zstT3R(vl9>5@iz?q;^8x$#P`85aQJ*HdXFAlH@s5m3
z0i^wXtLm=~Sj~K!*{H&1Hfu4WI_w(Xs>X`HGa7%RJ=;2CjoH|^7-oDi>QnoB3J*8l
zSuCl>AlOyW3XPNHuHt$OBng}q*ZU5&XYh8Ksgw1QRcogZX;O=Q&Zt`X=zsRu!c1;e
zpIR}tr08YWj1BG4nDH4~%t_)T(pnV&0ckEJtxZjXg2g?^Y@5fi3%~(a8P)Gsc9Oe{
zcIUVtN^l3}8g+9zBgNsVP0lf+ys8J^mj>wW*M9o17e4(DO9$b^Z4f8Z(h?FseiZ?H
zYiy$^#Sy}@NZ}qpW_SjXO_g*pvNalu!UzAdDA&X$$Q_<L?C|XfP=zxB!RQ5zp>%=j
zZ7(W=q`Q>*0}B2V1%E^VV{gqzCsLPp#$*$$0GE4Y8+qv`MOX^B4VF0GSW5QeiE(l&
zio!`&bpe(L;V@zbVS-$VL`HdJN2VxvNYu%k)<r1xWeWZo1zL+0f0#*_i)0JcgO`(y
z<d`J=djQH##qlx~1J+aTCZlv0s^w(;E>+0h?tO~=9t9dcmHr*wvNxvsxLV76fjRrD
z)r~RFZ45Jcen+@~<m6~t&Ej`F%ft-8Tz(ivo#|Qx#7dN3rObWPBSb;t?w<kzN#905
z+<i+acfYsq?t$!{!K`&KXYH7E&RtmOfBTty_0*<Ki`#Qed+s>yekHf>xoqP(NCfVD
z(+2!_?$_1deDTJM`G&@PV_UvqUB0#zM0m|%4v<yC4y&3kFqgUEm^Izsu<4zF+XG8=
ze^~eZ=I=G%J@><n%lpsfdd@Cyc$Pe)IzFmvdGooqUcUA6V&-1m?pgbv27(K9%K_5h
zIqo-a%R7B}XAKMM^7S30p>tVU@RWPj29irQ+z&Lqx#6wQt<b{B<)*IXKzBY6#Q%k(
zIT%A~8>mcOQ@(w}n#bB?|I{luT-VXu`jy)4x!Ub3wYze)yYe-Gm6~n2nr$mJJ-M2m
zf(byYg27=g_yn8lTkeNVLc_X+t;_YDXq5B5KS0{BysLiRpL4aoUH4A&?dHYsou=iE
z{+zQPW?yca0f*9#0{5)V`IfDV&*oaX=%%rF^CN3x3ExUu#4-~NQC<W7Ru@4PNqJUP
zw^&^qQm7wFYu9^94EPuIRbJK9W@?F|29lX~XpvT2MFkrmbX8rlbmJNwEEeXQHc+Bk
zo`Fz)%&01>S<M<fEUg3EISi#xMW-CRE2R9&t4IMd^=e)<>V<Y`IA4WBi!}PI(je_u
z=~u%1tfw@3P%K^1Q`O!F8(QEjMk9}l)uY6D3J?EY^;C1kDL379ls=={lhC8<9)+0(
zzeeK&HIaD`#N)RC!tpV63G?5P#wf<fNDar=|Ai8mFv8@J9ByR`bRf)e#>9T4G{F!F
zmF`jSIt4|vpP<_xQLsWmo`N4EKnsQ_9z&3(7L<u(jgKNuMJD?y;mvvk5YL^iH~O#l
zGt96qSF?^|hUJ=F40Wu})vo8LW4ZPTpbM7|=)z^6)j_;*`QA8n{S;hI&M*b<8z--y
zoQvKZy)il;y)nMf@y_Pkn-@E7Z(ST(cJ`D&%=_m1mYr?0x(80zZ#w4tS6ZIPwLI~E
zr2laD_xFEq|J`T*`1v0^|HHmNdU5&5XO{P#UG_ekb3RMJC6-N;<WJM;V%`}oIcLlK
zv&+u*>QD2&F?fA&zGvClO8MS52Cfgla{3GdhIZO^!*(5SQj|j>`3|5<<Ji_J#Cx9A
zV^iZJP8)2Tm?&ByfPRj!`F$ES3VLZIh)*G56Ii}AkN<5ONbg*K$khD+o*5?mLe_*W
z)j}~YYf{Wkx@ZT*oFsp`DCQ>l(?c;Yd3E?GRzqcLDdra%TMBg)3urPZJ*IF(UvKiw
z*S*zptEC_yy10>K%TFoFF*mh!7=PNOBHmTvno31U+L-+&oYEmCVw1#(kqL;V*WF<g
z)3BOp>BtVntj)}j0vJ0pc%YH^RoOv%iWI*J=`T_BFgl1`G`%%53w3#goCY^u(x;Z|
zG-#K=&#N-K27O31wb?ae(exNI#GyB-hQ;5;YtI<ty0>+|PI_EwDZ7}<1=i`uxMMHG
zxG3p3ZbOzLn<+b)NmhAt*)}$!cEY!)Aa%cNzRdP{gv@-=Yc;|tgZZKGnrW2M^mxWm
zl`>LnvmZQSsM9qT>K0AFlK=+`b>He@9^?xz-3h>d?Vk1U17FLEFO>6zR(!j1zFo8C
zJY3T1yL0v3v(AqKn{$D4i<^GG^W9EF?j}A6fOArOFz{}NP^om7f<6jJzLX8%^0}Jk
z>y-8l1f?zo|BVtUn5R~)Lj=nr-*@yA!E8FOTbM4e-#fcLWxo$u$mb^&!ZfnL&5>ye
zY#DV6@1rVMnz}@3R^LW|Jtpc5tI99T2rAXPrenLPb+2P52B?D(g)1(NmOUoFnxghQ
zptHXPS-wP10GE*xjRMgcWAq>zX{QlAPdm0IM&rY@@djR=#SMmF?6IK{8<(-AVr=44
zBBt$1#E$DkobBIYRlM|NzWT6(mhZs*@+&XVvg_hgP~FPMZ_`~Dm92agg<jdtDoan0
zSJhN7Dv3eH=;Jw%@`7X7Mc&0Xq*0S&Sl!si0XazBFmy#ivjD6ORFF1O4vBEox|E8s
z@_f_jSSB->KG5Ag#y6W|TZPy)Jkd?fVF9+Mcf*`8)Sbj`?rx<zw$UU)O~)2Q*3dHS
zMJy*>t6xP>+%w2FcsXKl8HwpdD8Ps@6Af&87aU8<?u{b3m#{p78nMPqup(Jm4Nh_^
zLB5T0SZOPE<C5~s%<fP#;O&5SOqoNjzdaHm&9T-IkfN}?5|T2PsW7fxy)c(V6X}Cp
z=hbQb0*5(CV%OPd4BJNGJqy3uL}KC!JayBP;xIPQL*|XAE7JIaD4o8vAcz56{pSci
zZ$Uu$q#5cN(^gs&%F|Vi$tJ|i{L*OY;evt6q!_56&|$kUtURYQoH0=!!aP;W%u}Xw
z5FMB)$^=uCVNf;<9zP1~`d0vwK1DzphfAsWFmN1gnT1AB+1M*e50NdKapC~--~%Jl
zucRW=pHT%`Ez*60)n$r!G$@^*B&#||)2ILE$E-`O><<Xrji7!=u^`~>E45p4wObbJ
zmW<%KX8S?%o7&!LyVbVR*p+MS%KIDg8+PS4?=M({rtUSt*i^G>viRK(jfl;WHr-cu
z(|N-=|Li~V6!b`YNVx^U;(~cfK$MxMz8mQC8nH`{wE+r&v|O9M5T8^h4xf!_^p_+}
zNa->cM{T<B#Z$zeGr9~>X?Cf)B?(k@RQEqPQ4CjgX`KH8EL&wt6s0s^M&>7i89@VY
zhw?a;&O~vh1ZSZ6h$|z_fjH?DP(adAK&foBS*I|P$w%4};pL`J{Q?GBsq2sMu=HVc
z4;yE1(|qXdbN8^Hs&&)+={ehj+WMOZZye-<4?pXCed`DH+ZX&Kb%XWxhroK%I2v4T
zM)Po}fB{RJvl9B_gCS=n$^C!vD2a5L60K1<G%-u;&{RfDOMgenuT$_V6qu<Wj#KPu
z3fN?CcpS2k)&N6WG}FJ12pCtZ(7ijq?*N?sZ0-j&b#VH#xeI2Ytz)6~))yBIx4s1D
zKcrZNj%|y(ZhMy2=YmfZ2pF8JyJl|V{Q4W)a;~;j7bR^KLS6ZejSp=uR94?Ke|};8
ztru_nQo)3KRJsmc#T2uGtDWC)<5Yp*s2<;%3o+h)I~pf@DsUvuaxe~0Oiszxm?%zC
zj9HagufZXV%@!Bi*`Oj>iRvkHjFE$%HyvpEsPNCI+;iw0jC6xg*U0?AL-5FY^~{<v
zXmT&?Us=B=w|>u>fSUr2?AiXr%C>{KZ3kDjJ)PV3bav~BA9}J|zL+((+%s-`(6;B*
zGxv<mc}GLm$T!245i?a!vHI`uz;afc4voORWabqaGim<P&M=4<*mEn~Dl8=@)?lZy
zl4>nU#Xe;v)mD<~;5H-dZ?=n0(Iq-HVrODR&LO&y>aIw2idNCX@;Q`I^nw(U2V>Cz
z13Q{4c#SAY0Sfzr?dXh83C1SGbZT>kvlckfA%iW+S5m<f$Ai#-a>hnuQLrgp+k*=B
z1ZPzM67JunY|0BFIFLkwIf*~YoZzU4C=NKlE>9fKlE85gKsBPI97qAqN9DbKQ9R4~
zft|abDDqE?6)3(KZOUgX6&NVuwEjL%<<bP$qxA#3p4iQLSNeZ2gV;h~Ou}H9d6`f#
zW1De;)nkM&Rgw0{=4>)`DRiGiv}$M_;uj7Fqv=vAa8(nvisD!`;~0!a#u0tSi;CD)
zO)&;9dxcPy)a6%86o1wCDS;v}rs9f0(tTgs^*E}j&G62ex({NYd63x>Af>q2h643?
zqL5*9SMPt`y*c|QheofA{`B8C&U|=ibm}Yr_n)^1<wMAP;~PiT_V?rtjeh&ehncSL
zWe<&h?Zal<7k)Q)2o%7W6r(8;t70KnQJO3n$Dg9Hk{f|+If?^wuun`j<D4McRz^BG
z*>dFM(J$anww|Bh=YYsI^0TAEP(<0oSy0U^p|VTbJds_PM&RmIY4t8Wj<8dab$XRi
z6DIXdv(q!4AJ8NZO$_~r5GJ|gk|y6?qRD^29dwi(%?}#d-g4b?&ARe+>lS)*bvtJ5
zAGL>8+Iw>CJs)|SR=gcKFVx`e3r$)7_WSF0t*m=8x9-U`lfhSm?Mc4o74Q0-cm1+=
z<9!0&kn?WHH}>WmdKpB)WhYl2XAnyFA6Z)%CDGImXc}=1d<AqN@;C>JYD#By2Y{Xv
z8Kqajs=ywdiH=r!l1OcM(sX+T671q*p_TeO>N3*$zA8L`t3P~fRy>_KPiNNJ`4880
z7jJ|JlTx*Y2dUw$)f=vqf#->^TG8xnInTDNb=yC9vw^0oHhcYNG+QZy{n>)l0XWWJ
zkh~z9S!bkWH{Xk{?1(I9md)y%!MT1kXLPT^Des!@vzg|!$~5a4w7vvd|0s(MXgyeL
zQaTW8UU8Ku(2W^l2H6D<dbEcweprPB#nv@b>WLXW<TA4&m%%oNo##T;-MnVCJY=&v
zBODB`nPd7AJgH$m{uBy}#`n1HnyKiJ2$h=gcXTr*{27Wn*ELDc3`tKpT0+{3YJfl;
z%HC7*35OrPk%q-e0psBe2{9!#(``S%u~9aIBW)xi2&&IMllC?c1Wt7ns5<OCWhbBD
zU@tzyl{*u=W6w<!0b~*a0*2G*bP8eyB9Ur{jpsNpZ_=dvXS+?E-r3%KZQX4DeNW^3
zhPRFPJn$@RnA<bkpLh6X59aIYXOC0XrnfiT^K6E5;@lT!k3R@B-Avs`Eu3EtY@Ky{
z<Z#bk{^pbO9UnNF^UbZ-2mbWf>E-5uA3T5O7%9_t<XUzt)%~bt@7?ET2eQoru)@86
z?DtQ<d-{%ZdHb<!^YPh%k37u<J*0?yO>4n`-v>2q*thB;mb!5>Oq*Ui^lUc!-+W>b
zTF&SgBL6{M!;yL;1n$8>SdJ?+dq?ngl8*vf)(p|hR`6i(*UwBzOb8)_CJ}OwXsJnc
z1jh!9h^|C7U^YGy4$gdxdzO!KD9Gb4O=b|N1|RBe*x49pgj1F`STNxi0)l^Y!9p>3
zL%V-wqu3t7>@MharmltBPvBD3wQ5ik0M4_v&!;JCyOy>6v$E{M?tS^aPm-42){2L_
z>*qJjPu=RyxkHQnIrol&38|>S*9_@pYYraa-p(as&bzx{p$znM%lvo_M_=sDHDJRo
zrP&30;8O=;9KX<;mNEJ2%3eK-S1)R;NLK|WUJpkq&gSbxGaRdoxVIn=KG@JaF;<&z
zcmk{$d8FgAbLKznoHB*1{3JMyGAqaMJ*qo3;^~YD9AnJ@a=>rpRgDA!<*Ba#B$y$z
z$S#!;<EP~m{hW(vOC_Er*)W{B%DGdv;@NB?X-hSO(dsWXgUPNkz1sA;GQy<1V^<l>
zc3Q5Ts0WrYY~wv~<HU-8Q_jB$J87^iL-#iByXV=TweHV)_J8E*Ua~EF4rHwd_?VH>
zsEl8rmn2Q&>T3vY!jAOwcUOiwnq4Ebmqf$cYHINyr0V!t<y>RBH=#}@qXbu$=!>i&
zyjzKrm)-1u9ZhCpi;VYN(Fn1tq?hS6%X-;MJqTE>is_Ay?dVdloz&OIP#ZZ3Z<@`#
zarOGu70;%eXVZOWGh7<IcBn*FYB%O;H!jx#88)p1w&Vg^fCV2~kcnmFse5Rnm|(K;
zbu(Dj|EQl&Ry!g$LFr;bocDvY9WNv?eaCm{b#NyrIK7_UMmd}aiqvE>l87fETuyI)
z>`PUFK0xnAG!XCRh5y9tFJ-N5kMcKK3$^7$EvdNFu_VKD)ulzQfLw9{C%|0|t{KUF
zj@;T}1`45H#XoZNB69+lM5G_!LEKWUm-bMHkg%Y#`2U?UTPXD|#RwLsijub#$m?ik
ztjORi9p|TxqqCJb0cDEC^mOR4y;ceO6m=O{qS(^o%Wm1f1v{`BI#wFC09|5hy~g$z
z1pxAaIh6}^Ep_AqyJj7EPt*KMInS1?bqnin$VC<Ois22K(Xx4BXdI4UY|2Y}>0Jp&
zagy~q#r9Jg*=YG((R5?d4oah78?~C!p$5|%O;2XqcdiQfEjZ04`(l7BR`#W5R_UkU
z)tTBC>z8VmhVS(M!T3^pF4RXZzBom|VhSw`uL=0!sDx@RL;sqN=Vd&q9R0&kVN!Op
zLe~T2ZvcX)ljmTPAU|CZ=hbNt@aDyxMS(XmO^hCTAS?7hI8|=Ss2*|n`~W+?_9Pt#
zr=FrJ+prpjVV=pPIc31RYnP@T_!A_3!}tx;<2-rDK&)bY#<Z5!qEuInk=2#~6b02R
zX}=0@)oO}`Uqz2p^VFF&&Z6HyDy>C-N_f1&Cx!f4)E4$@C(fx1FBT9)d4@o!<<egu
zC__7htassWbvJ@<>rV?hjM$9u3gqo;KtVG)*!*<Y4c`&2>k-rcmiZs+Zt8Txw|qun
z%J6%JE4q;JZ>?u>@-EIP4o>S21ZAClkWD~nF!fzKWL+F5kR?YWkf>xEMVL&ec;&y!
z<!#y4J1VBctCP~f=>vQXK02U`_QmL!V#qF6Get9#R`wa1-XXllU;ibE<~Y);-u~m>
z^Gg?J$L2214bRuipPYYk;mSgMQM!loP<qe*4Qs|P*EQ&vHw;`f4ZsVsF^*Gx`4ZE3
zLD@Jy5l>0~61A&H=P>3y_8_ZB1l)Kj!H{s4xgecDpdp{bhouuJ&o`(P-(-68&-uzH
z=>0_0@HfCZI5Opx8?P+vUF=(~>zcJcsBgYGbz^F!z9(1Tvs}Mx)|vMQSNuD2{vAL{
zHEk<3+jBMBXDtsrzBjI1zp_SsbHBImZpYnl_PKLE_|m=J^YD?Yx8qnBqER>mjV*3$
zz)p)735&{htfvWnKy;afg=P@rvdGitv5E$QsJOH>0wq{A3pJ4ePAabIaHN?9`*`VD
z6&L)nG{0{g;$@KFt6d#VT@!3?FLu&bXGX9Y+X8=M+xtfKuqH-^O$r&(mJ&Q}-bYhp
zGxr>o&d_YIP2fmfkR34%hUGL(0F6{hrwG8uH1d4xxj-JWb2HCbf~F}YJxhT`(PSq-
z)K+m<bt!kHPgPVj+OyNdLa4%@D*pM1;_(M#Aj#f1z4hmqcM9w|ntH#4YMEpR8^OsN
zCs+L2a(?XG?kuNzn|Ck0oZEaPYdr#2)@zmX^iQ8SG{5z&u3KG;_4k^3?w+6ZK=g3=
z=gzOxZOhed%Lmrw>o??^H{t{y91axNzABgk?t;NWlhUG0N`69xy^>T`kVAYUK#=Ou
zWT}IK7wMKUQBTt?Ekx-MrBU!Sz1|p-h%nkf3oST0>D-bvw`G4p!2O-!Rr)Ek2~YLu
z9@^@ZO}6+&>;291yA}-d`*O7#3KmL&wWnqNXttv#+tQQs?_4^c^Y1TEArhQg)*Og&
z%1MtdqntEwbgh1Xpxip5n)x;ANVE~Q5|uiZ-Qh$D<%|gP>rMz)F#gA^BK8iHLD|dh
zOrmYX&NjB%V@_<FEr&HRScf8*nPCMnhMiUFgdGKx+%0-YISxuqyJo!1naT%R<dqxw
zoGTtZuBlhat%^=bhhGezpNxVl4%~KdXb~Rg)SL!ey-0Ln80bGC!aS|eul%aUf)Y)K
z#HL^*<>(X8(rR?P=vPX|8h&j<iBig(v8qo|>8~OeI@I(TP4NWmWty>E*n(-sPFgMQ
zKe<kOYvGg1T@Gf9MZAOlG7V0z+oDp}mt$KG1bab34~Dw79@^6TayP|aPKBn8FZaB>
zQz9J^u+q!;kzS$TOB6&X)hg@p83AMZ(ol-wp%N|B76N(!EtYGzeyEg)se4|l)G5~x
z<%5X{htb1HpPi+y?tdce!VuzPcft}6q6#Th=0ew_O-axaeGTmdWrvITrY-NhaQlV4
z6UWHZ!WA7yi*3SbWb0<lS?@X+SOcv$U%K(qLc?<1)>(VrQI~ae+^=n&AAf(tz1r@q
zvpZYc{SovU;qSE1p32v5Tx|NFc30N9D_gtkBai?36>Ry;*J2ZGb3V`xUv*$2?^a-<
zQt3^0@af8!5!s44iw`~|({iA+|41TJW^gT&F_c5wmBiuFSxl3L&0-@WH-#x3`~{A4
zPD(kzXoQApl!7q|;s`1|0b0vs+X#22N=GiS?+~P?_da&@b$w>R>(u!~e1ZPmg13&L
zFXs5iRgY!1H*Gl*LM`>s$tX(>J~#A^6&KE{#0$~&^THJ^V^}H%&gMeBvKLiIrxD;d
z4r2_gsk9C^bj~1~tFWFA5kx}m$a0%`9iz|~w-Ne$L|U;GO*8K;_#-Nxridmqywz2;
zz;95Gaor3|L|*^>#;%pdJ-Nm`OIMZ~50&4+phGjuppZA&MgCOU%qe5G2<5Ozauu!r
z1v6XK)nipyE{$=+xi!_#fn}CaLV4zDM*y%~E6a7_eJU=Ni_KhBm33qWthlt+*k^2`
zx*0p^4X!zg+YR6Y28M1_pCQdHyT(b8TXD@;P}V`h6kypYnqUDn(GQw_W$unL7e{5T
z;aesA;BdCKX{V9_m|!9Xdt_!xHgi@@c1Xn!gTO1Bv4u>ccPox>ivLoD#KE=COrGD2
zW=SO2$Q~Te3?%?BK@W8D$y~$=7in6Pa#6a1m}~=<Qa)V*V}T-lp&+4ZCX{J$vK=Aa
zs|hr!Ta{vD;5rhfCo1xmDtB4S7J-5hRczDw8Q6xn(Q@!NX~q0|H2g6vW@zV1s1I6*
zSvQ?o$oS7L9A1KR3&DTZZ(NA4Y&w*~|N6s_ed^XPoLt%PWDfu9dO-my?jP{8n^&6m
z=bHB~H$MpnV(gcio5^n4ldIn|>%;+WuC{z*FyF9YVLV&kbHAl~rR7kr<xsw^V{UNa
z<($7~DZDh0^B>Ny@5J(Lty#0cWvyVa(L%N<3prF%$)Ym*0^?I@HyAe~5Gj;4(1864
z1sCX+5SBDavGo)qj4FY55TswCw69a_8wi*xkPDU4OO!*w1?oq#SCE&!zM0GowFMJ?
z!K&6Y&ezV5%s1zJ8w(an!oe`ay_)Br%++o#*eD4n#DIHU2+W_(`L`4tl;niI|7R|W
z9k7_{*hy*lMSXN?BE{e=wPn$;`23<H7u;RIi7s`hrfuT_JgygB%C+_s9F&A=+^a5%
z)mYK2+V+A8zo@3Pu!WLf4)M*^W&_)@zHK?%_Ej4t`kPRwW@EvG-^xOiWEC1Z3pR>@
z&90f-p0l-o>cB1MwW(`B9BB2)PDKD?`l4ZUq;`?>0bQ#LfGcOf$vtTldj(>~QK((s
zWZ$=`=JA2!9pSK~*emE<8SYQ(Kq^j@Ate@0al!d9D&7Jc4VR>t>rFj2pSxooKzT)v
z=psCbFXGrotZY|;54#e)u^Q2bdTNw<jImm<*R?S}Qq1@~*jCo|vH&W!I=}>2KDh!^
zT;n?`5^#&Q2T-O_d0G?dsK<RX^A~Q7HB^66tno4FP59s#d+%8DV<31gf48b{A-1r7
zbH-Yr_-ke2L>p*+o7~1x%<%~c8(d?`-qoj}OJXO)rOwkCkaQH9tiQ4oe?6E1zszR9
zC_bzNwul`N`KaZHmM9~$I}s^mVIC(>#0=ou6%s*w`*g2eMUqd88Rn)1x_}Shz%7dQ
zj=&>}f1`&{3+^OV{1nl&OLJlorLM8*meO0r6^h;pn`kEz(`{99OOim7-0Ejjl(Y0~
z*n^P*8Nv6g92vM^OFSK&(~kF*eIpRWpr?~yb>eJLrPBvjVSz<S@(-j<E2#c)<G^%x
zMezSjC@P3YftAM=p|%xIch1wDZ{C^@?9Mmr!)b4XMvbbtPaXx*aRlW)Uew)ekd7nr
zcm?izC`gwCoBs?cF%7?EI9I}B#*8Y&YdQ#ATv>V)g{EDKxYf%9t?A%1^pQCx>Ck{N
zBF{cJ!@sX2#^B;)=h{tjikI!r)7PGkkxw$lz%ZOhOWK>1^PIJe8q&wZ#wO?sVAS{1
zJ3o7Bvo2*H94nStp?=+lcZHXYqjts7mUH0Xy?c($c^vN%oj<qW%GP#eon0Tf8?ud0
zF1vfP)?SVs{{n?D{C|lb*;_JsBJ3o)kE#18Px=k?3lS`KQRizbg>Xy7E+=DgmlK>N
zG>MyhrFGiThUImm4J3;)yF65ALliHE;36eGmKNBn(g_t@Rii$34ys?G_!H`-jVMNv
zq+500$~UYhk*~G0U=eJM@Km?iKfy__{3K-Nb*;TOin8~1;CJ;uB6$4di)p%fSP!c1
z6^8z@2m_PY*Sf&^qJ@=LRgsBp`ha$nJ`92LCt}7o^*DSIB!*vLef2mwOWU`44*S8r
z<|^8)u^<fZn^o<_IT{noU{QWz#x#t`lc-JVMF7!hAH|<SAbYVZbRuzCj10wrdGVP!
zKx(=0a5qd&OmYJ*bL-nf1y4~W7Cx-^DM6FfWINRVKuORgVC87>E7G?y+e*GQ5@Z7|
zx6=nu(jq<-7Nc*G#i4N!6<Z#YNT&~e&g%J`@;{|H@;X`wW)xonX}dXnV|t-$X~S~;
zUT~N7t!4KQ9Q9ep`uwJ??_9WjVP(_4+@^hZT5_9?XPw7qPt7;wH+C<L=i2+S&X$j0
z8m?OpCNkgALuXpTL*59s(J43^P{aM&Z9EqorQ$pfR>te+(zbGH0eii&E$K!yli|TH
zB0^J<E6rniQa4E^`sfbv5*YmIG8L7rxYRN#W&}xt9hQymX@If`fZ_fx6lZo=WpD34
zp~0fbtI7p_)zDrxIJ-V~aJbM?TF8WEsz(Vs0&|yv+7`M#aO}v}w#{G0@!eVHCU_RE
zc-nKGc5awo_{!3r+~xzz9<cXMvOX+Z!Gy(Fw>2U1I8j>h=fEjr>|MVLP{wpC)3AmR
zcR6vL?)jXTd$fpyUX3_U@-0wa0q3<p+GN6d4C$O_O@5q@Mob4UHReYFq{F=O*w|Ma
zXU(&YJeo1e`ay}PDaMxeT1sysP!H8&>y-vr_9<?(+7TgX#hj;(x|d7E>?4GXQmX2c
z$KvM70&eP({k%&82j*fcfde`E-+$+M1TdUC0$E2Jd8eIx&=Ta^vX?F_x4`VsnD+#;
z)*xRrHnv<K*QOx}D~Fq;Wq;Wr>D)gLpLO86Eals8Wx6>Mz*xr<7Q<XId<|F|ZVQh&
zpqn<2&1m)`(i|)ENcyMLp$Y>0ZR+8-Dfk@<ewPC3WZ9)2=uV%KO+SMC_!(xKK4+SZ
z@GnaQs3Ut=M`D+?GnjR3!?%@Y&pc>o;eHBvXWiUXcHN#kF4+IrCkOCRq}HtBQj7^P
zh!bYYof71_q=@e<Muw(1cc|#d<iI3+7s(BUak^=hIh5$}vWE|`HXe-Cl)i<RmL2Sq
zQaFxgY$8_T&v1h}<iDXT+m6ez51}}T$<BimW0SO>V#g?;>B`Q#;peQqMYr9QL0ep;
zZ4`Trg0E9hDL}tQFcf@`a6jo<Nr3hWtsPloBZz>%Wo|2W_G33b91t7r4^8GabJo}d
zi2Be<U|%k<@6~4tMhL14?p1-wtAg1_ZWd21?gE-OJ+;Jt?(Dkj|K5R5D1{vOI0$yT
z*Ei<7_J87Vndq}rfgm;xAqGEiKQ;{^W*3^<=f9F`+E!p7BuoFyMHy`YlRw|kRxsfA
zfvsVFH{{+`6K)DSjHcct4?Vm0?y)}}_`v`<d-N8ZI#Y1r*gGd~pLpk)+wk_lZNY3d
zb#Moej_mFe<N?xAXb^f2>++pF4;^k(>x0?``cgu{ggA8u`))$PLU%Y(W#>|Vu5Dkz
zMz?mMq4nm>jhTg5u6}EQ%7VVtHWpkIb1Pq0$TmQ(-}b2oX>6ggjt>p74@*c+8i@#v
z(cdDFJ;T};nbTd-p<#ZK9#K8+0Yi(E?HrSBBbQQ;Y9_#GTPe{-#m!)0!Je?Mh_Vli
zN~CneA)n%?cvXthv)BxBQ7XhCd}Wm5H@*`gP?FN6amH!BA;GC7h*FxXbA0sR8VX3?
zC^wWsC|>cGGWh<lL`q0`Ls@p2iGV>xhVZ#z=7P#k8^C5_`icYJpdMfwp?OMI5!o`M
zr@XP+E@^%kY!^O~5WmcJ9rLdybbJPEf_>~+A`XImPmX_DVe@B{V4s^%3?1yOLwUnz
zK!c0q-+|_5NYSw(a;O?SunIoMOB=oEJF<%4$puyqhbP@UBR5izYT?~e?3XT%-?=$>
z9lg(b0;{Vi+{HLcrje7I9?9d33C$;xAf!zcY^DIbmZGC=tWszsj(!}KNI`>LD71ea
zZWZi{;tVax4J?ffd6)XFBKDPMX*<<Rh6HGA>C+yxr992C8mVp=a+OF;Asa7Z2f0Mf
zJko9oG>%(hxbi5ay-NXk<+8Kk*%7zwG%t2&14p*xq{^Ml$gzvt$Vqu7*I>n9Qzm_U
zP}M23Wy?4QzKTg0ldZjcj1EeFjAHmNq(4AdFz9r;Puzm;gznD-$A6{&H9rwf{75+Q
z6Jg6wgdI6y$Dau`|5b2)DEL1V)_o}K{)zC#W#Nk-3f&(H2mYK=c6})HeyTU>^bZ9D
zKeG$Er*){}L!lo)<r#ZE)tdn#P=IGX^`X%D6XD>eMw3ntL!M6msZ-ExTQj?LM|AVO
zYXbeQt#j%Q>*i<H1p0-ozinrB_du?7;8o9D<FYWYX1<`)1?Gls#&5*e1d6Y{Y-rT^
z=Ja$P%bI}b+P)1s-~3McF5sGg=-Qxe696P~%~=x=U3*UVq7EQ>`X11lK=HM!dW-J7
zZY~6uI{ZHL3wp;~&plmTLBCT6W@cT%fZqqEhEGiR1<B9{Sk9;8y0bbRzV1We8VvKg
zP`0^~nh{#t*P*j#+n>npIhAWay(Zvp?S$?$;IhHJ*?j}K;F&dnZVRw}>$hZe{uSNk
voNja8*qXQD%&-t-6TN=TKBCjL=8e9&1M@T4&O@sPx?go5>mkcxWB&gGt4mrs

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/radio.cpython-312.pyc b/model_executor/models/__pycache__/radio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..65040adb925af975b2e07fc74e5db5b3c84055ef
GIT binary patch
literal 24093
zcmcJ13vgRkdfvTwKZysy2LQe)ii9Lm&*)|AWy`Xpl_}dRdu_%J4Do_8C=jGBKucu7
zwUR1bFzc<ztTzJJn+WP|W2jcT^h`5Lx0zY(Os8=s?G!NN5Wb^rna1tLGo20<YP-AX
z^ZU=my#OK5PBzIQaqfBFbIv{g^Ze)hsoiej;G(*(M~*(taeqM(#pz3dwQU-XyTQG{
z37o)3xgmOLqWqX<NW)WD8`X~KhIA~fi|WS=Lk1S+qsAd4t795751C78mND}%>Wx{4
zY%E0|wU5;e)v>T4>KJnlIa$~kb&a`)+$?O0){l9HJS=REHjFh6HS%1zDcp=-(}>24
zj!qjnZpa%pgnfeLam115r@s*`<%W%;`%9y#c(6LHtd5oH2)1k7P@9Gew+Z(5c)8$E
zJB!z;@eUSusPRq~cdGHOaNAI~hI^V5T-P|k9X5}itaxQ9_@1`ZdJijEkCL7*D7l%H
zY(UAzFDTi|N;aWnGfF=DId2cJl3tYbeL<UBSV=!hwtPX!ty6rU^)q_uV1SoQrxIZ?
zbUqqJ*dT@{!l490=5tdM;bYNAC{7VE91_J)>;jc>J}ZV3Vki;|3r~*6Mj{uG=6-H6
z6iY;=Ly5?EOigVN!Xu%{Xd-wy9J%m%A{ZSH31Jb%>rch-&e)5QIEp_N8y-ipWR1io
zCKEv+G8RlohS<1>=Wyv0vkAfy=jfxXx#4{c%RR-7@B)9$G{YzPFLMFS;JV@ll&YuV
z*Wi7NzriKc#*$ou8e{IgQb_c#%hy%s$E^vhU)d!&Wi5S~E2k#R<@{M*X}4VRHa{59
zOBM_|7Egp?!(ov|BWdFaQPL+SC!%4I-Wt$I{1u6h#i?T*SO5Cy?TN98?GurS{zOQ;
z5Ki=8ncR0^|HXab?a|2j?Gsap*T-Yq--t%XwvS;Rqrvc%@bF|}T$H2n?P5rXj1Npq
zN&1P97!OZ324n1H1CK|?heOf$;Q^N3j<>~k!29`C?!L8QF7%z|d)BTy2Ny$sRDW;l
zq5JjCY1cRRr_SDYc;0?7eJp+Ho39icT{%<N8tQPj(QVO#fY=C+b^Wytu>oPpSbCpG
zP~Jwl4tRLWLycD7y=viXuB&InCZv5vALuh0_GdIRpV4d#<EJ`XDYQ0<0Ih&9H^d9v
zkjBi(e}YBOgtdYeKV4WS=<(zUg$M>EG-6?^#(2#>q!&zK!)Tq_x*8bK2<B_LAybOG
z!Vj6TvaFKn$!PrC_{DH+P}0S)L?ugX66=#v;*v2OBlr;{ml(bfiDPL8$FS@p_@a`X
z$|=e5VOo@mqcB^~=P_=!K$RSB)|lkJ0p$K(DTU{fe3A>Qi#Dl6jOsEcP@cMAlN!Vn
z!oVf9;;Tu$XiDlU%fuW>ooG+$P*yjMeoTYJROTmnK{IXQxEVvjuDqqzOeI`uE&*kg
zqn?bSm1;MQgro`}Ny9Xav;>^!1tWJ<CkE0~8AoesUb)TBc?TD?D&?lQfOb%%3H*ti
zwDQA%P146FCxCiP!C)j7Nd$vp2QtMj@-~sz2~X0*Vv_mUkQf>Z<I@6E$Hn2-B|Y$=
z5Th8@fMli5JP}F^zaEYUOp-1hj*iHUQ4?~D-Ac1~EdVbpnS;UMXeb^J2IDkK9kRR1
zz((vt%Ct*ab^}Tew<9_J2k;1hoSeCC)|fXn-!u7EJk2THTjpX@8y>b|D;`KK`Zgiz
z_{8e|#L-gh*)^y8*xB`otE<?vx9Dlhb?(Z0c0JH)HoNC^_ncj;Ca%Go-ZXzY_0)Z@
z|7OcV%YA3V4ePu$eLCw|4m_5}f6HS_=L*gz?!J(Bo?g>xe08bg-#85@_O+#szjb=W
z-+uGR!jbH`<^Cgi{QHljbRV0V8F-6?jfd4Wj0mk#1_A#LfgAYN1lQH>s)n$8?YvPH
z2FkSrURg_{DioA+ll*8U43;tko{*EE5i|<fpV5@jdCgUaUR}@#+B-T0(U+)@US4IN
z{XaO-hgNU%k`@>vU=aHelgyK`_@&8kcseW@!dE7+h_D=94`CT@rEKjm$gftU&&=kF
zRf^Lvu{uf!b!1$;91?|Tr@A^yDQ8hE9)fq3D_R}b56&LUSzC+sp47<|r{{)c-m>i6
zly`2*JXdh`E;|SE&VlTu?_a)sdGXTi>7`vuBED-%f8XZ1eropAinF2Ubgk;O_Bt#J
zm;0gBV7H|BRVU|krA+LD26SwI=LQD@7J{J|AS4)+EWscs(PWguwqWqmWGGt7(MDnk
zNq2sHJj#~0JYvH+;LveVJcxcv_7X@8hojM8@HQ{*q#+S*I4Xk$ktvb90m=x&`}s8v
z9rU*pn_G%~+lrg|9@yLTNBNaHbe;mM2Ckub)yRS-&fU0bW<d+r(w^}w99*@ssEup(
zr_aq#|CCi;J<8klu5<%|z|S}Y<poUd9mY>}{!(b|cd)E$5hR5$DNkW@6@k)&H0cE+
zekKqsnOK>_2El?9D~Og&AzXr84b_G9BR)pP93W#x!5KD<)<D04t9JT`PH=;~S;AHU
zT&+T4hHQv?D&ls;!ON=ob%-}s#2tu(gH`jL;ALy~!y9&u5<0DN=!Xyes2BVj)N84o
zj(V-A=lLbZ-G+J%^eu#5p}ltNLdOQ_^0(;>H-^Dp$P!KIdu=q&CZX$^eyFMRzHWTK
zzt6Teq3vdYTGdtd3A59KQF<Bk;sf*2C%ImXoO_mN)6?M?Sbfm1LCM01RWKd_9x{i=
z&W8o!yuqC+OgPw@(D`_9VmvOnh#3z>QB)yul6g29m)RewZY*>K<g>)P$0aMO1O;(?
zVtg_o)j?L66l2s(FdQ3}>WEINb>m_;)&wK9N{7xv;uv;TtQ2Cp3H_}N!2cHiHDct|
z>{)j;pOjE>eo~uIF};GLMIAUNe7qTL(g?buoiSFFH`Xj~Od3(%Sf&OkUY0tN#^dVZ
zS18U5N+-1!_c3m&+!GVH7_~1+Gh(VJQRbkMbxFq^jndN@=PYq`WsyR+juRpt&#FvA
z(kL(ydX}FC8bXf3Cv(Wr5oJ?zRBo<nJo;;<r1sJApe>a@1_f?b-dKJjm55xGBaRMr
ziP2{cv%&?{ubQB*&K$%f!tHR#S5a7^S5BjTCpF;44M}^1PddNH|5KV15;K?s5Bo$?
zBN!Q{>Pl=?(nq%`q4G096qUJA5^}1XfY}`-*`&(h?b--edb6vFPo;@vF7Yc$2pq2^
zX-Ha=wmYWxO5YznR>%YgPTXJ7&l(Dkq^4p<)E-T76}5;^RyhR;<6RYX0_OD+F)g~?
z_^pk=`xgHtj%Q5Qt6()}__FkyAaG-DR23?e6nrRtRx^#Ir*soB3{;8z4u6B^xwp3H
zxGC-rw3m62mH_yf!+1!#u~6c5NjDshL~m;)&A<+c7sRKKQ{r!A&Q~%&egSyu%7l1$
zy8jW(r82^0@l`FJq^9WG|NJkBJznKB?UqlDon1Qi){}4RZkXrI>CW`%!a%_p$ezwS
z_b%J^{iy91aT?=49@xo4?luVFHzLDfNiQUz{b14p<8apL6=-(YEE0!aF^d3IVgWH9
z0K(EdSl7*iNbn<`gST$L;#ZLJw;bwQ)Ch^%@=$Z_$3O5b9?S5Vp?~i9z*icS!_9-+
z0zwrxqa?Vs8nQ^BT_k9e`7we}_NhdIMaeWg5hhkHES{l^XDCf4M1~XWqlqUe@dPW#
zgxvAVammE+`*<`iK25pAq={dmB9>EQyBG}$$0a+dc*a#)Qm1_6Gteo8AdN9{gtv+T
zs=kFhf^CsLtz>4Tga{U61I5!U@l0qcEDnN9L7gRpp^8dONlux>sl-bR)XRJ|EjiY4
zxsz-hrznluV%;qdSRAA@LRhjyNG!Ja5_vDflZ+#wVbIelk&ueatdf+|@fx`Gb*@sX
z^C<&X>9M-1Uqj{icYqUr0r75gg?L9QnbGfc-?MIpNS7JSd3UBxuUNe~YiF^wH#JDv
zvF{Dvvu-K2ZOg`Tt%p*BpL*NYN+1A1t=)o%&ypf;-rJkql5gGv$<SW(Zze&p8P(|N
z|J2=>9?3p+&%G;UT#<!GMWpn0p+enC^XAN@d~+Z>lyBb0TBuIA?`tp6dW2W-9VhX#
z2&wSU!lCS*?;pB-DDU6D{*A4@SxcdHH<MTIH*YT58q;RTq+Uz0Z`Ue&?mfif^tJ~k
z&Q@Raw5AjDXCbAww%>eZ;T1(nJ(f-^w{Oq4Z(sE0ohOzq!27Tv?;OPN+aRaDHTclP
z`MQd>hGJ6>+9<YdFZy~R*kD>PvIlOi@4#D6Tt72=ChaZQx>vQF+5WMq_5R_bKfL(C
z#eXxVB$TCDQkW8dvreidN>4~)?IU<hsx8qtL{$g<M=5oNv?MCZRSR&SC44OeEI{Ms
z<I0@ED?m3h#L;l0gy5@OnVzussQg5^SXBv2IY$YBYXYw{qJb2SAL&tuph1sY;ueXC
z3>YN4%tkV(BPb6|Ohl&?&QBy-Cj;083K22^Mk1=r<Xp+9)H9ZNMTVFOhGfBysNS^q
zQOGHYzV9MCJ_Zk>ue)*Cy(#Y|IoI8rGGg^D`}_0${_KUjoqyc>quviYKkT}@HRtay
z_y?gpNg3ywQ0K<L{6MCu;0~Y$wa}Y)_hyX+_YTCZj%91xN7lAty)XTAuD&~G>n=JP
zQ*~@5tfLO}QQ5~Q)VGmJV-%mP+I^XmX{AP<q%Pz`{H6I};;%dll0%+Um4lw{d~`;t
ziY!tSgwL;XD~|f>U!DExvZE*O=*gLS{^7dciT8<@)_0zv(&>&zJG@>d_*XUh+n0Cr
z<xGA5aQ$V3s;a+|L+My)Y1W$Tsv=7@Iv>b80y$IQAFlJ8YE3pJPPf;dY*ioqM>V>;
zHSgG(Gi`meyR>N8(%yr>MoSx5sK(-+Mvd|UXC$>&r)BmbelapJU4ur_R8!tvG!`f3
zn=R;NM_1m_l{vTEvoDW-$G)6tAM3khj*G)VhLa=<ZJo&B;Yw6X2$KzI4seSh@uNtn
zc1caGR1)&U-!AjYWkIr*g0XhXvf5E01j-YrTq~>JKd;tBu%B_`Y3%JP%>QrjWuXoV
zd?xDN(Z8pY#{&)@T)XT>ZAz&8qz#5zDt@FATUg~tC=-l=>5f?ubI`s@T<~^_D#${F
ztEHV9rOlx#S0;))<cENDka6FP+DvbGfo-yMB*r_SMGT7*<Izwe+z}g(^+TT;62l!b
z+Zc&mnD(6S=zG26a-d_lqyKQnc|0hFeYMvm{<35|9~qv+@7#&oI%w)i1EM1?7ZfWR
zxeyBukBd-~#3eIrX(A~Urv_OYa&x7&16G-+k!&MA4-bu95)&fPe~CXq8=7iA#b2XB
zK~_izB|?&Zczj|is8GNu$|WF?OtfgJPwUB_WM#Xj@)DkIeH5%Kvi~jGi4!6sEwJbM
zk=Y~Z(dD**eA~cB)`9y?zVGb0d0^o{=H+*Tw}Ok$0cZ;T{e`9jP!iYs)6dO6mI=JO
z{nqxy&V1LNkLve8in7-gosWZuve)J6_ke}+b`_o8oPX!yOLv<ef<dcGoqA~CyuO?E
z1v_$zjlLUW^JAHF@4kBL)m+2wVnbW8t*hv32dBl#)}e(=AlLt7q4{{~RMF(V?wEBf
zn_Bax)^z0K5}KDBG!qlz_-JYSSaLETu1Kj3%D?x^f%3xN2Pgw<f&COfR-O!?wWOs$
zK7{4J5m@Us0BgMfUM#7-W2gYUUly?Iut=&L02^Q}nD1CB+OGs`>pH-$ff`0h0IG6T
zfNd)Qb_<Hh(7p8wp_|d*4uT8@-ZDs6g11)Uhec8Wh%@AU72dfM;+uF>gRfjSV5tIM
z@fy`5=oNpHynjL-lNG;4p%gp?UcXKWB!f$JY?YF7wHDMmWw4|*8y+Uxi0Q74K(}1x
z6SNyIz=I0Iz}fuE){eZjBe!YK@}`6NO$R@+9=zY$@jcJG-do=6k>#yN^IMPJb>+7{
zdG}I&>&ZgrsY2`N)ZmJzD|0OG>B+kC^;@#z%L7m52cEopEI)AKqxusim_Ag3=@WqI
z_P(OCz3ALrbk`T%9ry>Zw%4W3KCI)~J8q6Gj8QfKdwhO8lX&;dTW{tX_EiG5QnoMa
z$Q?LaXnQtwwrFaWfqL20oi}x7&VFp#BXbp%90HMFMuJKB{<}y^Dzs@xN>P~U5Ly+7
z;jP<Liy@(;gDHs@QKZyjm)6NN52;!Yyc$9V1c?6m{tN_$J_rn|a3IpF6y<hAxDppH
zB4JnuPjM;}G9qKHn!BKJWfzp@s>%VMRJK>jm6;2Y+|)fy(sI)Ju5#iy(t(|-oxoo_
zj@f(dix`KE-%dNKNnK60LRX8exT96DPVF91e`fR*{UN!g%E8hB8)@p84Keg!#sK!l
zKm<0aBRMvplXqzue*w!C(&aF%4v@l0ge5BsZPtmdl8M<ofxD1(LtCkoj%)zRl_mY<
z*TZ5sV3fsL`tss$lSiLi9H$!ki{bD@T(Xs9T((aVrv*?_7Rj<M$+5K-<2s4@7bp~e
z7aq`rjdOagCx0sm`4pf}(rZ`V-Idw*?x9<U7G3%7-HStaeFgWKlyL?7!iRqAQ2N|*
zYk$7Af06&Fb?2wp<j3Z4(c{1I%=|N%&b((+CX{t8_Wq#%{r(S)|FP~*>OkgQZeXMO
zCb{VcMy-n!BzE^h8`si#^Rb1;GLzX0i<b)i1G8sV{9UOtD~`r=3*^kq<(y+6XBv>1
za?5!YSJnoC;{XEMNlj|6+GlHm!i+BFDHChO2&~rj#f%OufZ$d;EQa#7y*{bIR*;^Q
z8?_WDFbP19$c?IGP>z$&7P!8afq=kl9?Q${^9^Z|`dY1{M>W(j@@7w^u>yE~133K>
zYM9Z}Xaa`y%74maYU{@ls8CyjTFYwdT0%~RD!XBwDm%b4$_S+T0-6(FB#-GT=rtW3
zC2c2DZ0~rK;#B}w4K=<G^BpG*Q%SeocJhOvB|d#AbNt=2x6XdtzWalrl7idY!izMf
zvZfxeOq(&1J`xkcR{|zk!%J8~st>BKCGD{QP>zdxsWv1zPUZy|R2wc}n*w%<B{2Rr
z<(9$tX^IN)q&n<T$V%)WA$A7FugP#MgYnxaRf|_w`w<&<(OCZ(%Ke-{v8|B|HoUDj
z+ZWnrPeXxQpuxi{cuzv#>uFy0Y|DGLWrvo01<&!6dBxhmEIe9rww4ud_p-M?@9oc?
zFL-w@d-vzP`<L8H&)@a_ar=+jbI*M_f9zbr`$DSjQ;+w?nfWtNgD%@z^0t=rkc<nm
zp?vF(#jeHk1>1q8OCJ)<H&{|;Ks~tqk`2!~mYYZheebm*h|1SAe>;`Hh-OwpGOTC=
zs@I{FD#uKIYNXeMQIcJ&>QfY{m8?do1R%Q9ZY`J-u%8YUYgumArZm{_HNec2$Y%|B
zoYOD@T0^ErjxFI(I#!F|2}T9GfUE%&WjE?kLggo9YWyX&qqOT&<*?aU8WBq9$(WCc
z8G0gkFySlrpt-6dqJmlN0XDC#+>EKBAHGM+SLFWEy-b>tMzxnl>ZRHTGqz97)cYB1
zq+&E?+G}KSYsH&MaHw+Fc(uYHO9R2B^vy@fT&K$6>#Bx_Gq#ErHyn$g-*C=Llm)%C
zDWjROSG3tt^>Re%{j-`9YgYSPTGel9^P<LR_oJ=QE~7#PRIFe3H+nNO6xd)y<u}ur
z0q!?70w>$%*Y1M=2rg-`2n)c?I4b&3>l?wuVf{CnaVDLZJ<Md%&Q_}{=^E{kTdVW|
zj|vs;txT80Ws^UiO9Yhs(Je}-{KUxn%P}SNUMaBAI2o-iL0Hly*o8X5amT5!s-r~s
zsvO=!JAzeC8N-Y=_G<|uT+Gd?9L9{hqW620{POejd!KYC-4Nd$g8hz5Swp`}-!x#7
zAvBcc8+|oZr=TB1IIEoCrj03Jb<&I;{kx0=>+0`33iR<nRR<BRSVy(EIjx|t5FMaq
z0UuRgQdX214O-buZLx0WhXgCa;A?4kWX?Scd`%Esn>NY(;YHvo(UBy)pq3}NBj}T1
zZ-&yD5zhwg=;<Am?Z}X;)GD`=gbE&9A!C+4`@b+x9gx+lG%)aU`{|)!tPSIuO6Lz4
zD<j!2gP|I~9E4pn6dBWxKg!e9;I7KN-MZR4i0298ZQyx|4sW`1b|yV_^UZ}fvtqt|
z*GG<B#g?ATaP|ne9RBvJ*(3k@SZ?#7e9PfE^TwtB#m?;bqGf64`}XX(TDqRtA|`fR
z`1S(14~}4*FX7D>@PqryBO*Z=G{bsW?N7v6-fhj`pkz89iOSXp`suJZ9zPd=s`!E!
z5yW3d1;}q9#z4x}5x+rgXvM2|h!kdJ#P3pSYgzFtGmS<u%&dK}-x(IiCZQmHg=&0@
zyywZgMjr8@;_r}0y_K}l@e7g`>?ZXyG<;Dqz;1kOA}E>A$@oMFM@fi>g&KP@8iW>l
z@_dk~upq{w%fUFx!rWXxf&(}SNdtR@mszVY+>@1D^yy*B0EK!Y98;_$zKukgeHJM6
zJt|`!i^PJ=c%2zMNS0810_!1&<Z?K4MKZ|gl981SUQq&5&~KCJd+^GXWFQ$BPd&zf
z66}Fg7Mqfctmnu!l6fIa6XOJ19giAT$gKA7A#=LtZ?r1=X!-SnV$t%mIj=u6`%HQd
znJ46|FlzY7y02K@bmQ>+;he1#4EK$}`N3t+mb_<6c4t=j{@CrYrE@=g^@CSGe4^kv
zyX^T&-t(2B&7Qh6*E#nb)M>;pKQ!sht*dn$+CKF4Lq+Vl&U}65eoM#AQwygu!|x2v
znTZ2GJ%2hqjW$C|=H>k-^ZQTU^PDO+HKz~E&pgob4VzaQ+aKsP4IL1&U5yVdTwB-8
zmlj^igx?9yS&D6a>0h0*-1oNK^e%YsZ`fLA=5)SkfSTK}(%3=Gb*^c3KKGmf8Uuev
zX7j?poDquo%+Aakw+`lgh~4*hkT9P$E;i+Q4=joI{7)?VPv!lmuxb8W!GCtn1gYev
zZ^4&2y~r=_TnybcFCTq2fAraV-sg&*hO}w^3~V*%6|_;%cC&7w4#{(uGM4PlTlU4s
z^4=5qy(ehbz`f#bL6^L3KWW>vFp?Qs^er8GzxA%B(Dvl2p2mzVg)gYz_-#JDXRe=G
z>HJA&@2$qHW$}q6%iWzH*bAK}<W^wu(SFmv;Ln7!FJyjg$$iiJ_?%(I*OA$u_ifFN
z<b8YQj1X~L%{OfGw)At~bSO6R_nf_-wzS@SX5kr_irhFmf41Q1QN=HktK1O5ir$W*
zx4YQcSM1shjcKd<XEv_BVZLkb<r~5IV8Pw<z|OgRIH=)oOOL*@9rIh=WYO1|*_ZQf
zMFVK*p;?bMEbH4?wW5s&bzJL~Y@pDxXWsnh%{`e&p?OE@)JkcCXIFZ6&f1=Va=8C~
zv$wPnbHg$3C^$Q_mb;ri9AX<aKdE!ho}csHXrFH{)OBKl?2Rx7YG_;b^gvgf2^Bnj
z%bp#1&yGdc;xQ<5JO?0SI+_*fFJL=&;>2JHd2-wdMn47zPYe!<zYhQm_{GQY5FaP+
z5P58C3=BLc9wF}!$%D*SLU2bZbP%3og7zEuFfk>Hlr~7-Bzc?2yFwnZb+RqkZ&7HD
zJW|>+Q#Fw^X5!oA5hf6ik@p0=%A*6vDUm$dhKmn@^3u@(Y(}*fyLtfy#r~be){bKP
zrea&We3GE(?*RA~>)a2zpW^ivEE76Oz=9^u)3j=4K??^cwX&d%&KKBOu#Ri#Saq<V
zlk+sMx>(T7c{gQ*eDjvodKUL^jsDdJ7HmXER-0I`ne(=+dRfq?98>VKXiMps!fGpv
zw&A?aPup2=P-E0L$tM<8IRvvk-`{q7+ZqK|-JGHBfri&_UehA9N+FCzP7A1M0X1!l
znzltv+oq;%Q`7dVY5P|V_4+{Og?C@M^~x%T;F9>m<Oj($3a)PP>VE~(dNa9@T-8$e
z$Z?iQ;nlrbbbFHJaR@Hze_(sxwnjl5HQBlyALW6$QNMk~)p(<2zGYR9Fy7zbBNaww
zPu|nJYNRBrVqdyD9Z&bopTz`wwyaXERSRcvTyL3eS+i1XuhL+H-n)YDr^mCpF-oe@
z7$uh*qu9W+yxyA~UghYyG<o;SA9mk;>4P_a#^Q|YV2f=Si%oU9QfQ5ce&u-)fu}PC
zOqZ#-W*gGs2&2B%E<J4hYo^2MUk|H)BeVK95uYc%hF6GB!CPmXMv@x+)<`_5I&=s_
zw9h+qI3;hY+}4UDg2`}9?Su6p35dN*Hi4uUs7gSB_v!kw`KM~@m?T2nfLsvb`zE_`
zkc}N#`-VfFK_dEM1m3zqsEVg8XksI^6Lv31y|fv-Bh;TNS61u7E>2TRNeq@8;;kxP
zvt1>$Rb&6;^VoCJpkn{Gc0I<r*JkTkJ>5E!3Im<`9IYA$MIo-$Ouu7%uhd%_BNm0J
z!k|LdnSK}5nF@7!3z<0dO-yx6O$G40(sAWVpk(fV#0f<DhLK0f;Dt3fPpp~3Z{mui
zL6Tnn`b*T@9rB2!WP7Q|VylCFNwy{Or<C;{;KlXun8H+M;)oPXyDL^o$+qt*EtFYg
zf?>n<1sODiKC)svvgt--K9b?T8BIN1Y;0wFli0V&9xF5sAcgIP*z2x;W%es`&(Hp9
z`uNSW3up88ttm~hX6k*nAFN!_w!i3b5!d$S?3?A#L%Xrwk}}fqx2BTaU%*_G+|{6O
zwdv7o7!iZge?;RWWd+eAjYi*-+5J-vk5!YijM5R5QTop~1ZC);7KZUtov{>J8$e(k
zet}$zlS1<0Xx)f`VHzDBf@T=Qz%a&nRFc2r2@3rxymfmt^tp(buTl2;6ZNw=Ui=MU
zH|WAjM~9hChYoK*ipJp$9Ub1NKE@0iA8f?6pfx5=vp0%=f+)~e8KtP55nrd0JK@D?
zU9*)_+G(IkpKen4|1(T<QxVPEG{4(Wq5{#RUFp$m=fYUtyDb~Zn+BJJoN4gxg^x^w
zmG~#XpTIUiEvAO?Gwf3zL&J~o8f+@b`zF1+i{5>Wdmw*X?7r)J7I(A9lJGN%Js?m1
zrc`O&H?2bgxitc=b>9^Fg$sOyAJVcDW^SM>(p~Gnqs5s*9XnH~VTa#w%pHa&SQ~<T
zvd}141<i<!tpVFL$B+qU3k_l9g$?DKI`HM{Kv67$;~F<)#aTOBt%E)|qi7qY4_M_u
zk6ftjV5`fC)m1MwK2H}BRNnmX4Bb~CX)j%TLsm*i9FB$f$jtBchyW}8V3e%-<H7Ma
za26l}11)BdDNK%yO$A>MhlDs}NHIJTfxJ1)ZlaKEump=GV8KQAQiy+sPKnFp70F{{
zL?H$AG~q|jwH!WD6)pUt1Nb$Ktt-)Wt(^izrv`FRW4A!jTfc%n;UJF!%M_-bGKa8P
z2`7klGM8vlLTI^J374NpwUlE@sPYug1|<OTN}sWhKznk`)h><H8Y=;$Nm;>4bv&7F
zpRaY~3Wn_j+*GFKkumJuk^z)1secDrv)|R=05;(zxjb$3F$c_|AB56IR$zPyX|h>$
zH$u~<0USl7V=cG!;wO|Pk+*)eKnqgla;T70C*Khe8M{zAHHjlEyX0#-o}zq9WGr+c
zEa#cZrDP2Z%$DTCFeDM-?tt-0ocp%1lar<P7_%r@ODmsQC0byotK2c+VD?W?vXxG7
ziu6J0<_R_sY;-bwxzT9Ezd&gjbJ9{`m~%aY)?OPrRUArIb#a;^;LwNeii0UDjV(Al
zVJ#j!ynOJP{K04L+ZyIZmK%HXjlBh1Uv~5ImdEm29)oJ+F-zXW4vfqt-u`MPaj$nD
zB>ZMSj+@VIUUv87-91^ua^HbG{@n)(wu4JAE*~1q<KIT-H<~Re8_IX=EZW@5w${9@
zl?B@JwzguE|HjPxOwr#91EpfyrscNn`L^vK*c~|5anIC(?lx~N)_aTIo?`E@V$0TI
zW6Ru2>6dc#B(kGn-8XD9?p?w7YVUAnkOM|jbCsW}I4M_obfRpLP__i7BOD4;ALp)X
zuj_`j7r@HCijT*RZD_Hlh_y`2-n`~5n+|WE(an@~@7T$g^~89xog20jW<b08q+tZw
zX}YILu5+1aDb8j<7DsEGY}uj}{}Y7?EF|r8WJ1}~rUfgmP%0mn_zCgPDNZ~C+r%y{
z51A?ZF;b^{Hd-C*+6-l}|A^Lzfbztr)#t4KVtx1h`j+%dh5F4Y6Vz09h8O#mPTw1N
z`kwD(e&Fd_0-2elcV_r^_T~nj{>XQ-;5n5t7aQ9%{CqU?a`w`#SMrTJQ`VxRDecXC
zDd*UpGj0FHnx6BY;u-V!UB@wtWt|otU666Q4}pzD1I0WHCs<UY;du3N1<6DE^zy;x
za;fR98%#y5!hb>&LYN*CA~TdZQ(IZEStrvFA)?>f>z~u{tD4i?Z_s8p4YSIXZ7erF
zQFNz#>PX()(9jJ~b~Z>H&?dWxIQ9Vk8=4k>0#C7bB<5YRE4V2E!|S-@DB+$U&UxeT
zcYM9UGSll!w{0+4CC2{W)BF(E&*o>@(Vcg6%O4p&?sHgf-j;9PmVK_!ygg+v`r2-8
zTiCYvYI<A2_hiaZbhN3n`TNvYR~4fsH9|9f5eM7l+bH6}G1yO$0T)qLk?^3bpK?*C
zk351Ckrur8Kgiok-cfjx^#rNTD=w<2&C!2E706qlf&EJa!1b+|>~s3mWt?PdGvstW
zXkIt<6?g4jHFiRyWZ`!0Ew*<Q8=L>if%uBEV^vS-2CgZP-IH(Jt`zI(%Wk@Ldeusq
zHqO_&YNt>g=klylMaU(Vx}Ulzbb>eNcP#E+YFLWjeRAo_2krUYC)YTn{gso~x33y>
z`gTQ4gkZKuM$kXw5RsQA4PY2Q)hYCQZ52ryaiBu|FVBB6{?!96)LhH*p~Sn^eQvH5
zxs7U%)xd}W{HuP*20qmuHhPf`zSarOv<|mp)O;KA>2{1V=h`4y*eYh+s#ri1B@BBH
zLGfeqHYB@`u$;8?7?ckoP{nc@K41M(zG$q>0s)@O%#RLDG6&{IGbr9i7{d2@E{3g6
zNl(Weq6#tCu=h;Tq8`fxp;FYUFHeceA{1%S??UknScLlx>#1<P7v#5*$ghPhJnX7P
zuHXW*H$u@#;FnTNMoR0bvWhBC;AITQe?B@SwF%X!a^*d4g&t_cpQ8*oz3>%SdtzT}
zBoYfn6(slz<cWVx1^B62$j)6cCnW^;-)Ty^Q3cjr7S8UvetP!wT(V%>l;S}UN=KJ=
z7Ag+o5$#qS@xg4d^ue#ZzwW(K30zX7jtgTfEd`}IJ(ZFw7q6{cMm281^R1I%td(ua
z;YV83#jKTe)Hmspy5rm&|LX1%ucL<%u71@1Xp3d*jX3|7H>oe%E0uG|vVbnv5HxRa
zBLCL5q_Jj8D(8eUhXvR&ZBS09^iuS~cG5UXB%sQ{62PGFZUVy`?{L4XnK8xYH)yl`
zZZC8m8?|Yw+2(}}+Ei_`#1}VeQ5ngMxjb)4wVq(P_zG6-zNA?&5cZp~2>O}_G|bQm
zV2;(+tVye2dxML+lGd6tt=_(gnO+m>k`_o~`lJ<eq{FP6@Fo8*th}^nK{Lm{MO?0l
zz28=rT9Y=xkx+5As%W*t+Qgo;CDqx7)<`o-m8)FRr1X}@I(uucPClOO9Gtd^q-tQB
z^U;CBgd8MW9BPA*IK@mgr`<AJ2R(rhp<@{k&ZZj~Qp9D5be2Pvvj!x7Kvqs+9m`zx
zv|TQF9``3+j1P#dl+gn3Faa+%>*G7g+ZE7E>ku9wf7iftgIue`H4VtRjR9Czth*f3
zj{6{Sz2>Xbl9R5@5@2Flx_T}yIw@Hf#T|pNa7~2A;*tdh0b(M4If9!tv{Bqdr;krW
zBe-R2bR2u~MsTIr)E7lk8c13gEd=VAq$nBX*W#EqyOp!_7P`HM-i8Z&aLt2cD-{Z|
zH|nT6l0i;GHz&_aCc1Yrcrh$rE}6iYIW{bsWXTYp93kBdT{{^X6Sag2iIb3tiQ>!V
zB{u3r>6}-5x~T$@R%Se;CcX_1`vqM+-|b1+?>G9=dzSq>^8OtK|E@yg?v(XY+=Ou9
zJBfSNP51rn8RNV5TlVid3jQ6lXFjF)JBLzdK5glnJ(D^<x0!bOkIWy*9KKh-YsJ|N
z!}+)4>BEJlExD#`Id^~RN$_FL`ds7Yykm3G*<5tE>G*W6ZPz`=Ze+Q<D^32?Ni})z
zJ;%Oc>+Z!Te{kykQ%l2lcNX?Mb@zOJ&#Bz*(>ec_=1oPH=SJInTdrfzJ=d=kTemN2
ze_(#!ywtsPsj%bN-LCwOr*hj*<or*oB{PnDt{r%jx8<gJ!JO%Sr*2MvzrJy9@|y=U
zuHQaV?7*JwEz{g7>|4s#0oh~OC$Kf#x?}FdN>gj5E#I_#aqsf(<N4jkb5Ff+Z}*GE
z=8j_L-o>fKi+5dj_ulQxwSQ^u<bQ#Dbuw!$wCpZ6cV|xKoBQ#aj^3<3`{uo)FBCdn
zoU?!8Y)ywVFWz%*D>_@3ot=4SXQuDZoLg5<@my<Q^$gEBTXQDa+D808_{{5s8=_2%
zlATAOl9GXHRZ=|UlA|jQRD6J~i(hYmR+-sE0TZZfj$D?NCu=EYZ$G1blWexY{*VlV
zohjU4%rUCYc99iQP94NeA_}NWrVy^18^O)DRdoG-qujK&VmYqo3~)6t7vGOESGi9;
zerzzDUO1iWJFv8;;5iC8*6PVwJ7ClCZCCo#a?3!T{&(cOJMv9CaoEz)lqzj<InaW<
zfnF`bh-;L!p}ew{a*vYtkUWy4L|pO=G({eDzP6n5KPiX20?Nhn2-J{M>bTweR*h~*
z6qP~>;!H@P^a>$GE~W@66qAJ%3duqWg=8UxLfbfOwr|_<z-Z9J(#3xx3VHurzA><>
zM*=n6Qcj{W*pjt4md(Dr*|%n<xO2O{H51S7zIA1dLvZyxq@L!C{$1NG+s`2Ely01)
zF$T8DhjSgn<54nR1G<k7gw7Akx9^&PM#ThfB#g7mcO?UE{vjEWR;+wKp^4r1IS`96
z69lPVi4KfR##n2isAMUJWy32&I1(F&K^d`dk`2scEDn}%4BBk=HKkrcoCAy^s2BDs
zB!TI$OLr+VF;(iXRa&mhu(vo+A|jKC2nNECeb0t<;sfkpaxC~pB*D~(<tu+gV)!IS
zFc^x(#z8q~u5c^rAJSwTC6AOD>>^*u4E5(uS^Y^mCKlh#;w-qQ9F(scmJH9ZOCjZ3
zdyZ2(uTedNyjdd>W?<3@TbS}yNu<`6354l!3>Q~Q9u{|C$>N`j|1Wr}TAt@0Hgde}
z$K0kLb1nG)3l8Ci|ID@LxOSEj_^;fFA9H7a%ssW@ZAnjNzMSpOytMFU-aByBntHjw
z4HP}zbWf%stIzrR^PYjlh99)N-;(znx@t(73*4c<G8lLl?uM~@=8k>+^i}gGw)%|%
zMO*z<^FzY`?@Ec+r)H-fatJ;=&%dnWy=e`h@P{0QA6_vv@J(~>8{T>ELk_`*JG6Yy
q-19eHo`3lvhu}loKE6Hu{LPma5J&J~f`5tUo8=lm<tWTVrvDGC;peXa

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/registry.cpython-312.pyc b/model_executor/models/__pycache__/registry.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0f726ec4c07b2de51bfe24e8ea44400060503a2d
GIT binary patch
literal 44147
zcmeIb349#Kbtl|&pTOW4+}Gd+Na6-5-XboZI7kAbB*^k;h#rtb&H?odNCE;S`bYxW
zjzvXwM8$FhCH9(%<e0Lv36pFR$xb%fB%90#a4;Ox8#z|K#GBphkdz}^PO|%dRnt8O
z1`r)5{`U9%z5%+rUe&9+>b<I0ud4qvC&w({=hc4F^Q*53!gmRfe|ZVZ-G2bibAl*L
z3ZhC>dsUMv_Et}-*;_NIVQ=lEmc4b8I`-C2>e<^cX<%>Tq!Dk8*W@!#nthf@i;CjY
zdab^k$sAwqWG;hsUYjp(GS8PkneQu@EMRVWZ=ugVX=iqWx5!sKS<LK4Z;7vTvXt4?
z-ZEeLWO>3~F<F7QP2Ngh)npZOGkdFjHIp?y$E3qoJ6X%zEZ#a_{bW6}TfGgw#>qxz
z&+#_-nkSoK&lPRn7GLXRt8dffCg0}C&Au&@TYPPkZNB!&c3;P2hp%(8)7LfG<?Ej8
z_VrBmurPVvUf<Tqt-fuO+kE#;-lr1Og1g?m{S_6j(a9YiLChBmo>hs3q8(<DSPZj-
znWbVG?B!ww%u2BeX0=!Y(;?QvtP|^DHi(Tdo5W_AEn+LoP0ZXZZh^gxne7xC(&-R8
z;npQ~!|V}zVQv+-!Mso04s!=HcZ$1U-!1NexmUa&=033xX1_Q9b5I<DxnDd0^PqSL
z=3(&&%wcf^=BPOKtm=!D(oyjk;N#*r%n9)Um?y*sVLl{240BR^1m=gtM`3<gbi#a0
zbiq6+PQesKH_U1A6wK422j&^^EKINHgXtFoFlWTa6Ddhz5O7GGg?Uaq5A%XJ2Xmg)
z;1l8k>=(r+VLruNE{Pw3{iEW?V18Wu8JIsS{v6Cj@iNR$Fq}_{pMw48nf=q^(}|R>
zu<|}5{sR1-6+Z*>v*Itpd``Ry^Lb|e5;H$1z5ticv+%zxz6kr0_!7)tVdk%jUx59K
z;(vhoCGi@}m&IR$`HJ{zBBd{rP5gE7D=@E%ufhDP_%)cnA^u00zbXC}%p2lw!~7lb
zcVYe~@%Lc<zW4_)Ul-qi`E~IdF#k~eBbfhL{9~AJivI=XpNM}7^UuWpN-2p4#6K7R
zLJZ?CBEBUqiz{NW_)YOIU$A^pHMvt<6{BLecuc%0J}kz>$Hi}nx5RIY{|z{Q^+Jw&
z=b7^|aY(*jNmvJkr-i3gPphZ29$`xTXn`PnNG%8#xv9FSUQmmlINKr!l5Rm*P%WsZ
z)z7LwW!DN*+KcLos*3{aLvOSC`;Pe6$nkf@cVO}o{tYV+FV+7e{w>`9PW&Fs|1SPL
z%>Tj6|0yoR{twLlzr;A~x5Ya!?~3oj{J!{)Fy9k@z-r-#;t$35Ur?jWyTu=g|0Mpi
z_%GuBzM>L^#G}Gn{ep3FkB3||c(l)wn+}hj*$l85nau>7nb|C`S(z;dwp?bj!IsBt
z`LJQk!z{#uaSyWy55_6X5<I2MRt8%+vsJ)W$!t}yRWn-+Yz}6tg{_X+>S1f3(T;Z`
zo+jqn3|kAcwZgWE**3$rh1uE^TRUtW%&il)E@tb7t%uoqVcW`V+hDto*|x*BgV}b%
z2HF90Hy+Rrn0xVnhQQp1r%!GN*!%H-qEJi2Hi!q51?GM{2bk?3Y=@ZbFl?YQFo*Gg
z(!d<WGsbL3VFR^+c^uC;vrWJTssr-`9#9^b58(mzfjNl>6bR;r@DLSZ{Q~w6;{iQ_
z`4}D-vz>$ubSaTj5fITQ)`wu9#&e3{orcZBY-eBt#e(ToY(Cih%q;-h46{8Bo5XBE
z*h0)U3)?wnI}h6hW}Aa;p4py&4HOOLMLeKtFrUJ6iSjo|wfzx1AI0-AJRisNGbzu{
z!v1r37V%uh^9ekk#PcaUKac0rFW4sU$NOnKSMWUZf_jqLjo@EMxIK&aXYhO$&oAP6
z4$oCQ&*S-}7tE7=9>Klyiz@eSJbUo$#dANNeR%qi$9}ir%+Dq%hHOLV&*6FDlxC9p
z!sqe)a^g+)Y|o1?m?nq7O=&DGT~WRIlFU=p!U5`2zw&W1fAtkm9{S0&X>xzU{|n6j
zi*EBP8jdk}V1wBH1H=B3`+$tC#CLFmP}f+fm$QUAgiv<m@7Iv?SLB=ne$`FA{mbqH
zFn`^B#9e;oD$iZ2Sq4B<&l?0`S`WOhd|a#KX5^mY-JcTrdP?X~cYdOFUSm1`>YCac
zL;Pdz{tux3ny0l->k`zzG(r6}j0b2h>J~JJ;}G)wwFT|xgwLxNKuKTy4LK!nf^x<Q
zbQiT3HFC{N9z~c^g!zw(%P~N|>CQPNxQ|V%sYU?*I_z4!f9vDgNumb7gXae9<8Go;
zzs-1#5iyO+^`#Q#)N|@7wMyYV=fSZU#L_=6wEQlnYV$v9e(<#0?>^_29CLwLhf5S4
zF2BPiO`Z0H+*6@h$?XUQ9HG;mpku~$%Du%g<8`}&ZimYo3^-<IL|4ddek|k;hJqcw
zfavxHJ0$lhPcS6Swa?5w<~Z*Oop!h{xO@oaI5>Oil*fN+ziZ0v;K+{YfaLIm+Rfji
zUNG9Kj%oV(2V%LdlZe4J74o@5rvoCKjRP*P*LBkCj%mi-p;k>y?+S{ZsZh*>9Jr>u
zu3#{xoA$W9Vyh}<@=CMLDc96#HvsKXSLig}hKacu_X(FoPHz9XAmXr$P>u%z{%Oyt
zSUJioIa3Sn6y4LVS#Ky9t3h#`K38b!ban*9Y4P|yA*VNR>Xe(3Fu)e__$ULl6!?@o
z<Yc*YPD=rwQ=Id=e4Z&MYGKyv{vOSlTP-o$X;;wc@%xdFU<ef(Gm(Qo5SR(Z@;yPP
zD-?43L!N*ik+|Utr_*yMC65>@3C_;U1f)>VIVA;xL8se46%bL?u`0#G=klF&IcFsI
zwC4h=9P%zqdZVBoWXI)=)n{?!F(PB387I|vtS%dp<T{W1&&-CL0l#-HW>IivW@5z(
zfR^<KrzFn|6$Q;uN|lqSYv)WL;6=`yA+%O34<(cxSci#~!X@Os5JH8bnp~_hxKCc+
zv@hV^ACLxIvq6`4cm%yh=OQ<$9@QHw=$mm%q1j+MhQY;MrAETB^gTZ7@w!H+TTpOx
zIiD+*H%zaTaIt)jm+F+)Cr!E6Bu{SAW{Nr={vpp)N)RNVM|Xpx)J7PE{VvbI=~<UQ
z9mjam<(VR9sYAwMU>cUx2|uZe5Q-2D)!;~GWmpgqt6Hj(ZbB_dqMqnZkFST~>m{VT
ze(E@BzA@cNa+9`le{Ue*%k(EV=|1we4xDy{4h)aTm1>v*e9G&K6(l@Tg2rl6+yZ{l
zL+$JG9#GmkmOl_U?Upj?**F#O`CNWclJ-!F1so@}M6uj~^Qn1^*#=Ka7gAD2V`xP<
zNqrPU{-ArxGdz;+Z}q!<fslmJ=XV9A0m3UBbh~GQZui-AOpBOscAo2&h6u4pM$D||
z{qU6zq@(nt#U?S7gM?D7#L|;ixV*tYDA<)2Dy9?3O*%~B3Wp@W$KC7PnvP;{Gv}?+
zFd>!5NY1rACxHlZ<(5VXIe+MaE8x#)20iFJ9Hpa#QNS^JGm~T}z0z^QDc$e#NJ01G
z-I)Unt&uyO@N=?3C{3_r_q)7Pfs6s7pJtBI3BoAm7$aHwEF*xiyiBiHArEpeqXJDl
zTIcC5=@E*#aKG1mVa)3bq?gDv4QFQn?$V=#mUqC7zL<`qJ4J4ilNEvar#2ta0fx{m
zxsn*^ogjhHBTW%T0gIz2qaF+_k{-Y0CLH^*^KO67C`e^`Ud)e^yVDO3=@cR69`L4)
z4CF?G(J6Vz&j!DY7SzJCS31kH0qdI1Vk89CQ+$M!e_$pw7R;o&r)Iz+f<Y<3Q#m@(
zJv?&I?Gj}op#?&>^f>tz9XLAC?>RL9nw(w|3q^9$a|)c!Ed}L>4yPmO2<eP8OWp;D
zY1AEfC>_H{7=Cx)f<)_nAb~q!Dv*w3IK^G1Ii4jBttq=Xfkxxx3Bs&M#0JcRj8msa
zo0r7rj9j{y5o-LjOLB|rh6*xo=_v}OKOlKRjP2=9!G<>cNFuX=vt6uW)1%RylHh?3
zORp5KSjoXz|HEK7BY~k4sUGMW=F_wOIe0nGbxE|?iIpXA2i^XlI|Ez#IbcYOgl0cD
z@X!fQ5Y#*+A;ed38f;#g@&?YiE;!FI1nDvbC_LoHbj+VdgJX8tF=P0cJPg_E>y|!6
zfr}Nq6GQ3gSrtqtX1t$fS(A}dM_kNyxbM(-MxQ+6@&u)4C`{hrEcE3J<B89bf6)<-
z&ok`tyIoRx`j)fsaDofNNBS(G+J>in8O70h;Uqmrz6IpFrkfcFfeo?efh4sOW<H~#
z8G}{NXlJkVIl{;r9(IlN?N3gSVkN@?|EVcgXg{XUr&B!8FgafC<(wuz>6a;;NtO<y
zpBXvUGuqlMEfGe+2&TdVM>Dvm!3Wo=8K3kkgj1NnNv(6FYD^&YNMBH58gXUtX&WK=
z&|la*u(K;xN|6C=0yM2NwZlr+C>DFddnDB>>6%d#vm85`;MWqFptXoMrGBW0AfIV&
z$UTb4T%|8lxZIJM4AQId&4l25bRs1x2^$jV1S6i248EfEVKy#(m3#|F6BCb=a8z0H
zd_?*U!m`U)2h-8aGMe+W^qVZPwM<OQ_}2~c%_HB8I?<7LxAZ%Te`>Sw5E=B6g>Xy1
zM<H^@(n^e+YXUPN=?{2p(i)ne3y_=i2Kn2@W~I!E3BXDE2KkmAb@@-t4*5>HAzIHM
zlBU3n+do78(jO&pAMm2tK-bc$Nczt}kp7sk>_@>$JU(A0oic$+ad+uW!pl8++LIPX
zOfz%ZBmD{a+2EI2K`5{mo;}i^k#9bHGcyp=!=HG@pK}Z>H!_<*Kf@fQFiYXsgKm(<
zG=@oRU3!ar^N90jwjg<TODp7G$o$t36%#{YROK&~Xfn#7Bb**7szlS1J(?aCO$=z%
zPccCjiQC5t#$j7C888P!?wKAonq&5HveQ6LuU#Y7!&v-d)lfK|u%#m)60D_YCeR%#
z0!qT3j-(3)ye=u0H%_l~FH^|vb<@hEJ7%ANmDV8{b!Z@zX<E1t!u~YYgktLFiT-!T
z@+a9lHF`@d=lFvu4$`+#GtysCEtc})437-W1g27Huw2mL)XACjT?+U&Wc)1|BsGcU
zKLl15OdWvI-@~1{-ASx?V+H*%`5<A-LbkS*;uN%+yvEVBMECfN3z4ir6A8`2=bMSi
znIw^06(&<uLF4YnXCZBH50D7PGwlI8!RSTexs<q*<UdXcV-Zd351a=#IqN<Ua*w*t
z%dvf*r;z6M^W;_{GiFNWxcj_IlBb8#XUM-=X2R=aAtz>{;<0q3I|#woY`idFs;CD{
zaA{`FIvmHNX|MDy8Eo=oL|(bad*t>5GJXgnW@hY`M`9fzd6&zZh>~8CUr8EOVfHa6
zst`#~A$0C&0Mefn6p3m<f_M%wCx$0wj}O(%;>V19s7gLbOCicx2w)wR0#oi_FuksH
zK#}x>S8zN)S)j$qh%0#3Ewag?LE^5lqJ(#PABb5K&a8B-+r?}T4UeR{#!LglhmJA?
z>UC3I&kPpfaLS0P7L|6+C9g@ct?#L_FlRaE;tLcTWjl}P=?P>yRj@+@^_-MX{xz)l
zCx!`Qoj4N}cFrpmQV7eq=M?fNXILL(AbKc!r)QdSgqbKrO##S6W9A9P4j=nbOtep*
z^BiyoFn&TF^nt!1sSIhfs`&`3qDDr}*6E`OtnvibMBuF3pE;6P--y-lQL|B0Dk@t&
zl}cjW?*nliX}H-FH&UdIL~CylW6W^I<99jFd1Ez)VPVa&PN9ub1tOIy$$;L1AXSr5
zLxuxJtUlSj)=dyoa5<IZF8^7QWmfh{9=7marxR#h@Ry+cAjE3>=3L3;$U69D*Br{j
z*CbGrz+$eS3;5Q-*PMi`uayw1`q8@>_gDv2cajjK%`7iqH9jyDKIK>^fC;RLBS~!(
zs4*ep`oKcuPBD2|w_K183SFYek%lwmQ88;$bmi@qx(Hj5I*kn+M|-4<!X$EFN|K-!
z0vbc2s5OX25=J=*X)7T$4JG7J&J)9l3B)?(Hlr&;a<vuxN`i_BCRh7s=VsG$p`C`4
zw1a%BIXNf)bs{uzA&JxHlXg*v8XkfzOV<fv=0W@vW)FqQgEX@@lOU1Q<D7Iq`B#zD
z<lF|CFfb8G*Ey+=&>akY!+MbVfhY|Sc4I=KFh1kPd}V_~auc!zXOLk^gA_XVVE5RG
zVVc~?#7}p+JAlgFPrmt_<EA4R`H~qp2MH&+%y5pn`~kF}^F%jDVV<8LWvv19!-VeO
zQI4~<*E$uPNCDEy;glfj6Ldt1-2%^4kj+lljWmHHjZvgE<Gz3wy={XEGX#Nh4q}sI
z6rl2mdydVi)`?$x7XH#Wq1F=WiQz6TUtI^^O!(-=z>*%IP-Sc|t%I$RP=OB;S~ZCh
z)~^fHyn)FSfd4Sz*A074oequp6Jv0l_|0Cz3ixSAK0?8Y*?h(+uOa2OMf8@GHjR}s
zG#M+Uqr|G2Pwz(c>jP)^xq79?D8VY=pWBFB)8@-LmvoYln;0@p98P#dH(L;{Q?NW1
zip?HC@_;Le$q2@<HZ)``HzBY+$`LHegDeD#P68*jn&OD9bMO*&1uc_W@d$V}Y+
zQ^`#ai_ar+HxjK9R((P$ablQ@EY`_Rjx3Hi=XG{=NoOgjk%B_NGKSWXB_;vMm+EyQ
z#p|3DATLK^mb&4f@$s2#kMuYN$s3`CKNUJ<OAUhrf{7sc>qjx7oP$V9@5jJ#iZLs9
z!4?8dU$tYXL-=X~cuN;3h=H8Com=5*AXiwWdGe?~imhj_8{Kxp&TgGyXy~`Z5*8?A
z?NOH(Gq8lzeVuwV%>aoJa_LD5M9c8rkqj9XEyH_3<u4IN8N*O^Mbm4+Mwm{Y;wycW
zg47&MiiOt6hhZimBl<W6sHUmwhUGQTRG*6avxHyArn=6ppt|dK#TXOuqhcx8Vlr6Y
ztmxTj=vXMJZl{aTq)$*dE=h219rHoHMlFg~vvaJi&Hx;p&<pUNbxW~LiHs5E1b166
zgR%M)+;x!}2&soByb&2LrtI|a%=iLsB}1E2!+%hY*b1U&!#ZUvh#soZXO$X7hz+@R
z%*r!|p^L0ZpQV6><7em22c)ydyH2EXVRMi>OPCZqM|d?%5VCQWxZDI;dY*-tzyjXm
zme#9M8gY<|5Q_9U3gAct*kGb6K^<9;K2O*=OmucGa6#?}Ms$A31qbPuS@I_Wib!<5
zz7J$tCre8#z=O~!fmm&${GR71(yt%@@(*I?3pjnDnV5kDrXv$a;b;ND_PLyH*C{B6
z6b;b}+#+)e&dRWQ6KKUrG{&)#<c-l=h^Z5ZB@8h^Zz-oqOdcc0>xuCgd$OdQtIVi*
z7Ry<b$_zY1!j_y;Q!y=s2BFzmUQ`pC4YLX`vMDro&QFuoGjAJ7_6HJ@eU4>ilTI2V
z6tkHoo#?&XPw#V!P@0J8N7x&+nxlwM8M<{0(o`mG<pFYe&!$~O?$3rBF=+C)#UK)4
z?ZY~Y^d&T(^fDQw<0O3<Mq<K|Ql+d~dSbkKdMG}Suybi*ciy@wb;8+9-Wr!2xpp{$
zJ)<_bE8E=URlprAy!0H%Pc1QXl70{QM%7r+hyB56a9oJpVkHwPP)czi0C<ziS)1xV
zLJR|uW$qjl(Cl=0B(*QZDu;Zt8}Mo#dwE*ynR0EGfrc~`B?Fl<=q&MN3PLzaRa$(3
zq3l@eq?#SMF*Qom;W~1IM2)tjV)J5b9H1jDfKmhNCuElX3-#0gO2(g%@#kdx1sP#7
zB4oTp#xfZzFy_^5zWMrdUazm+N1W2>zTlpkh0KV9!FE|IZeHKn-qqROJ+JF*-_hRP
zYNA<I$TOYNbs$!PbZguPjkiqK-ps8!$T(dI8E34LtP~;}{f$)(2K=+@d)Myw1|$;X
zuFDQ$RU;cFP(8wE?0OlPfGV6G%5U>X1j0_`r%TxG{xvMm32p%=Z-hzp1A<%Q##x))
zaCPfoQ!6$Nvyrb>anmU_y<#&cHlt!QDK@iWvnV#JV#`r%xr)uE*z%Z7FXp=qZsVB(
zr7Vhtv^K>8QJB_>g(+I7<~e(7QOwMz$A|pWftVFL6^f>%REJ<vEsU5wn?9UG(MlC$
zRFP3hMl~5lWR#ErrBp#GCZn8;8W^#P?5cNMNl(Z6YfLY>q3r3WWsLGO!luD<_p5My
zP6#P}Vm^+-s1}4X2^C}|1T0V?SBK<A6&3_ptrhN?kU_>wbJvDUS>1IZOICM%C?~7C
zA!N(yZVcsTbvK0yv$~r@RG;jZmQPEFs(7utHAD@w);%XgZMD`tH$=_1*4>uP{enue
zs!)$-sG&1{sMEX<^%wR_&FiOC<3ek}sPrAQS+ZM6e@)=M_9CSNN#CVl)Tv$;TJxp1
z0mY0?sKNQ%PG?H&4q*HwvA3$EcMvzNEd|H>hdV;PnT{FHOdF=HP!VmrFniyQ?Pu?E
zcX&M~J7(sf8SL*Mipv#`6^ffh4;k8Iq;<<F^OQF@UzQw#?de`>bm^cCIk+UeV=KEO
zl;oMCWz{cM|59~a1N%FTdv3T_8VBP#0PpIB>h^2ym8#yjfk2~BxAR8hO6|V5i9oZ^
zxckP?N<)9#LZDTs?Y%y<;@BC_Auw0yJg$o76}_ubcjm@z<YX7RCK66vx$z=$Di_Kc
zmWEbJH^nOmtQ4xYTpL=c?2cCvSS{3aUe~QuZ;RIu=nzUAOS+Zfrg$xZb;9O@syB5j
zn?~dH1UCo`l)d_W@kRn$g#6~E+2y>pxAMlXH?DS%N4m#<5N{=~ElNaf0OLZ5$$S@W
z0tIc0^mo+yW+zo9RF|F3nAPcgeAeaVy&<N-R#?pDbh`Zh0CbqK7Z?PN_9WDLV^(a^
zLfw@sb;q<!#aHe3W7^5$lKwlQmj0HEzbE5+WKd^g#{YsPNXkS%BfMQuw5%<PR@W_S
z>!QWw%i8j2dDXJEDq2;$tgVffF?-9FW$l(|YumE6Et=2pi^`U@Wzmv~Wo<>&R`{_o
zZqzp~Yn!8$j%BSQTHCm+ZG2moA6J*^%vZ&w?l0|lX~*+{xB&3_mOJ#is}b}Cx5=Mp
zlJb|v&$Lug_}x7YBgxO)I6vyvPOC+A3O~>>S3ORS<gqYm1`Si-Yf|t{bJ|v2%<k-m
z2L5rTW)EFhzAGyI4P^w6@*_K=-np=VdMh3uRlTeleOU#)l0fJXDdzj2RqhstB<NMZ
zSsQeFr}-FUO#sz%KNf0JnCY{b4UM0sY*}bugI9yWbeFgY22*Zr*jUTz>|S#z{QyOf
zen`fTV5DX#*Bfw&Dfy|-nxAx}dSpiW7mAH~*J!Jmb!F*)kjwuhgIbRFw|^$^4jFgJ
zc$W;EZ(Y+l|B*b%s3xkh7vVoHM0JI6wMtjFwDXRD7xfoAbBOC@+md$a_?I4j>EV}b
zNtD|ZhIc87FngE!6{L{tQV)O!PhuM6)+HuK8+0V#@M)7t)VMdmLx<C*bU3q!sTbVz
zIBH^nedCY@U|HvkG^cfDbkF&tW(R)9-8g^{M0X21T>J<Kj+VGW4xDqqi4qAKpmPpv
zqxl^kA020Kiw=(;7&tECf@Oy9Z@06kVrI56F^$6{!I(+unrWSjrXg$y^s|afPGCZ4
zFaA5DOjTqTA!X9CAiS!Q&+mYts&PU^!XY2@6&S4=iMR#tGDN#xRx$UKj><^dd`)I;
zWbm9W#1eEMed0Maw@PYPOFAPZo!85jOLj$zYu?pqhzM&;36it^NGFc{9L*JyWl?P7
zP+veE!DCqgGDeg{U4Fi9O-9!Y>FtzPE6XeB=hIJJekyFN-e6eYLzW~x)naCbXuM^q
zx%4r;D?K+)UVbuctV)dUoQ&}uGdP`MU<xx9##4x&WRCIM<i@xVqX5~4JZo_>S}5rc
zqauDrxUE&|jB%ro57ttSTDj8y+@WU<U4Cj=Tg{k>R%c#nSdzXp_tM-;9d`tPjElt8
zu*Iz^UCq+YyPy>{alJ}cog@zL!i`rg>t|^sL7!;XyT1?11|)%q10VQ$QR_BfDC<&&
zw-Ijg@HUACT2Z;pqLH1y(~2fG=*@6pKB942FIs4b<D6NJJ6E*6nj?=53WvCJQ{uM4
zEzg~QrXi8jlvjeY*$`JD$VDDF+OTVWE|X*oe;~=g6yu)Bg(Wdzp?ONo%+F$xoiomq
z+%by5sK!oKw^^wM@rsP!E9gA*6IJtAwlHeJHGiP)I~~AzGl^C+5-nX~wiCnHIT`31
zI5^}yJ~lRyG3$xt@&jXZgv}{>r1|=671W-NgyWh*kd}W$MG8MNxN2{S*jtuut=EPl
zw(Vi#_O+vwO2JBc5|;G{$LH2v>fwx|CL8?}ac73yGcKwYRER<Ic{OT8I~r59#Z>L{
zy7n_cI{PJ|FQH0c#0-)fifB`AP}qM$O~#CvXRswk5Wa%L!RI1{DP^Aac-_>3^DQ4#
zJ2K`lq6%(jRfKutYH?GfxG7xJy!7}r`&VjSt_ip72p8^LE$ojJ_P^fqre?Wtc+nUw
zD8EvEb!*tB%wJ-1R|3~MJvv3%lYcZUS%ucY^*O<WKTzXD$B>ce{YnCWFX3nWWMAq?
z7gJZ$sMuH4a@B4XE~c!g&(J(8<F}w3Grg!4ak+^o$YE8&QyA<t5EoQu??W4G2@z3e
zzcb1zT6RIF#)SsiCaG}EBL0w%65|l6kX%cPMvt(d74?+r7gV%Dtrxm5tvjz)2@eY@
z{C(=k1<k|4c~!j-GRtW<2vWOB_<-DL{&l%~82LLdC~49Pm;LT3O~X%~W~*uRecfzm
zx@|k=-A4J)=6vS>4SX>%K_cqmpdRd)#$j1TxEzha_Qs%t$lr8e)-T4i)D`DD?lBzB
z@?s^1?Giq1q6Fq!vxLn^4jV_1XF3?IYPCu@Pz{+A4D9b>cOa&vAsy2agO26zM}D!q
z*iX4*3yYYZpN+-AH22BbQ^|qPxN*!hbYaTP4}|L2_?Jp4=3F+fqYOHsUw1mDrFtMm
zdr-xxP>|+sm{rQep&aLL<z)d2!<P2!An<%gb{es6036E}g8zj0F9~sVm8mqYHs@4g
zfw)@R8>#JGuHAOSzPjUBWXG}P9pjPO@hiEvips9GU%&60MZ0c<ZdKR4=y~3AP5ZgP
zl>_f-gyP+CyO39M<=o|`mNvg-YrB<K{G9a}Yt%jzwU@5i8zS}wSe_euX6#*qHoqWl
z7D_82T(DP13b!s9u2~|EUf9Cct?xA>u5i(=AH7r9a7WPRR4Os;&l=NhiYcB0#2;b#
zp9gt{-c)+aTJZGn<>6@Fu4tZpHO~>rbHMVP?HL<V&&fp?dnv-0O5YC-qXItG-d`oW
zR@|SjdBb3Y^$lCkK#A~mO%9p)y8d#**NY8s|9VyLfL-&Ad==ckQK%xjT|@Sg-oaeW
zALgiF#?;VzO(l2=!8{5giTju6?j^yex~NeR=}aYkDuuslUQl1uV(=-#L^fubArnrV
z#n+utgo;Uj5k&7*U6Kec5Lp9}&HTynFanI}>4IiKFX~@4$RR;`4M`#78Cqdy{1&te
z2GRJcDM<=NGyTaifHayj$={q=Aw`Nj0HmlC<WC{8XB5$7GC|QI*9{TUIkQaCTCMYS
zLDxCAg9ZyEF)nG&L4%Z26CCSjLqkGO$Fd-n0~J>~lYSmLtx#lCOI7fYXk|NrT`vRl
z!)e_HGIaq;BF?~Bshs>PV0;e`#h~~2Mc|CiSF<7SK-y5uOeJG1!FC*VZ(Db(gpFah
z)PCMgDoW1TkjER8wop>k-i+$RbiT8g6*1x?IpBq}yR*I-sgbZ~nIAK`6>?(a<YW{1
z5lvxnr4kl?jR4CT&9$T^ia<3TB!0?>i$Y&Yom87#?7-+tD8R27m~YEYUDiRLK?*_A
zVZS8&jd3ilwV3XIyR`mRRsB-`=O%CKG}XC_qgYOqRjrn8j+Aa*E^S*p6txyTJ$89)
zY4CdQ;@FCHd$g+QntipkFVfn#+&U1c8dw~?nO}YN$s2}m=I?vG?-mBM=^4}2_G`7*
z`@WgC4MeD*PqmuAFOt9SNAK85A$Ty|4??hNt&CVJ!&Q6!(z-XUf!q7RPGoGcFSlPS
zyir`%w_Wo_hmq{tb^R*C8+$ace_h2)ZFPU6=IaeAnDdo<@{SIcSTQDAov|zQCDtk$
zU+`4g`dk_Pzk?e2IgI~ob8WeApP|`m#_zIlMqUY}_+%aVN&3O=)ZlYcHomdngqxdG
z8_@yjYst~RfP0eUQOu@b%5*8~1W9v7*<?s&QKm1V?p3`USGJKY<6Tr|PTx>+Wiuif
z?}A#cEl^19N7_QP9$>#S%2tHzf=Qhrd;P(cww5w}NlLb$9Tz?zX5+su<`C^yvEQOF
zjl1nWZcLWv15z~q>rz}$f205*Yvpv4Z%}Y$s*Md8lsS`Lf9e~YUbk9CB|CcX_x?A2
z^BP=y5>rbj_k$wZW`k}K)3zWsgF#m3=C=%EhLSP0%a~@-q=i%F`8@+P5lkhZnNvV0
z>;>B$6lp4@g=UaTY@bS&MG$E4P)EFb7{+H+sq)}#D-cvk7QvX@9py%mWlEZ)42;W3
z6=BXLzHBq@hDy#!(Y1Gedsa%hM$FW{+Z&j|9W#4j;UPaqM3a^dKe!}(=J2Y$En;uG
zCa$*kMcVt8+Xq(cgKT{}U;BYIj4dn+;-M`pnoeSSLeH5So0P_M!5Ob76vJ%>;B!HV
zWY{qS&9AZT6w~;`tuZYLDsefB`+^9aLTq@n0*8?}sex>4JzL<EX8pJg#TlGEnGjq`
zBs^>7^V@`IfK6*TU%HQi5}RVv+Q*3X@GTG~nrphZdiw~4r_&0krFV+TUTAst!>dJ`
zB1N07Ygaq>MLPGbcJ7aK?teYF+<D~9{z&IoxZ`N}=y<qoB2qN5XvV5|(ek#XXw^~~
zu~e>Ds&C~NT{*MVu#(?=t?O2G<BMmXKYOkAD@`vqz0&gf&`R~;)#`~z^~7@Zi7OUj
zF)a{s7Zk7NcSiC%uU9PR?^*1R+VU5lRHmu@S*NKq;Vr*ndPklXk7vcgmRYXjTh_t5
z8g;IDQH=?*$@aAMvNdY$xNcwV>Wg&sz25uB_rGyJw$w~!#Az)FTk4|Lyj5#!#M*kT
z?%LTE>&~~4AJcn#kk@d2^ZQJc`9?+WP`>7m@^wSyhBW>}gN7~Vy|AQmr)(SFm`P^g
zQ1Vc@s7l%VrmgcV%XOI($iqs9D}I<9oO)gkw<h-8cvr=h57<!)Nvy}of)fqaOsO&x
zHX_%NASIVSxSc5YCF(q_DC#BQR&L2^Zet|3aY<Zl+7@Zrww!z4qUM&Z_)75V;EQ9=
zk1gA_gpFI+kZZMPNLnQmb>)9RFO-;+m5Ehp$R*c|oM5nVLxV!1`7Iwo_qz9Dp<ra(
zk0<y=gii`$X@Afj&BGoalfSBTJFX7WR?Cir+!eOCUX4AP@w)<EabvZv^!ij>!0X1D
zH+v&{$L^9nzE5S--G6OoT)^w~0rq-x@Ge2O>#+K|vOnzDyP~^4uCCV=(0&hIl)^q0
zbBP~Tsda5j%4W~INUM$27|ZwfE+Nn05eA%P4|?Vyl;oQjq!GgQ!MS7-rBi-Hl39Oz
z0hW~25(Fp<>TCo%sS?1}Q>u;DOvK+pO0UGaqYUc~MGSLBQMpiZ1F0V3PvnoSJOpLs
zp&gZ%6?x!%v~qAlx)%cb^3AvK)d4nisQV@PR;ntDqq#BI+-ivBvUP$SG$@TDxmZ39
zyn3c_BNy9`Wc9^F^~(HT>IE94i^uTdRY~E3RCO{{jTJiSUas^3Ae{i(tAt7m-%G;x
z&4RA;ZLNJ(+Z53@EzPfJyGdwokJ{|3w)%*ze%aO-Ha7m?mc@PtjcdPU%w08>MvSH5
zvVqqpSByt*+6v=3c)TB^N#gUiR^jEEK8xlJvkGRK<WOl^KM+ZBhzThMQ07nOz^t*5
zQT|IbmO_5AH8bh!tkYQP(fQ3vn<QBAM$MvSyG6<67O!q~vbs~rPpp_#^coH?J%sH4
zF4gr86arEfvs|%F5nI!;ttD)1$yTxZ-!!in$CDLHV#|-(3WQ&%>D7Eq)vHOH^~l}%
z?mr-*)NK-MVPNMJn|p~mp2R*U?QZf5_uNLlql&#!lbgva`M&5R?T11T;I_D}XJ}_D
z<44mIx1P37M2%>`c8L*N9J!*&ZBt?~!zGW!qS+`G(U91Lp$(V(1b%_yYNf3cF$a0c
zb=zr2H{qifX;Y;r)d#uAgIh6jp_lW)a>zrLxC`8RUTR?G1G98p%neJe#8H4a%GQaa
z9BDuy4i{Hv&kgz8;a|Cde-ZqvHt;WofAt3bCGfA=z`qp!jt%_F;9t9ee>wc?Ht?^2
zfBgpjmGE!az`qLqjT`t^!@p_H&{~6Cq!FT!^3t5vBeGf{w#}iOIv3M38X8=yJwmjF
zv6^kLthY6kZRL=pP<+2xEz$LuF*+|7%-rOS71Gsz3GGB&5<#Rqh+XKkY`15@`7@#$
zBni7D&@S{7m!DX*)kJJH%gJ3DPK{`vel$(us1VxsG4xaCbPKAaR)9<>gJq&BMVV0{
z7j(O4>gG#wqvfO6@5(;AI|pg`2k=u!A+YA8YR3=US788<gi?dBpPV;oD|o&ldysvJ
z^vFc*qBceGQ7gNOTDIYnBkE8BMK+OIg5;LXg7(wGMV<fQw45kxM#)KMiejWXWu2ad
zL@Hs5LyC;yjI!!amLf%xq4SrC`X9R$NU|%F|75gatGfYVco<!Oit07fGK+rl<}=-X
zien5oY2orF7Tyq)o^(5CB~RKY=dg3zZdSrQ#wQ_|JwJv;yPq)KxD&uF?M&jdIr<!r
zJjN~%X!rZu(Yv8J_t>M4Jet_efz%P|Ro*!VF6V?omw$?wFVlLV;mg%sD325mR-5FD
zj1U6Nr=ULb*ly$kaqiu@n+e?Z;^NiQxHVGF5zBihpk&(N@Ve$bNRY27QqpqZtW?l}
ze*~GH_0rw1IOF4?lH)Q)oS~bi)CV3I>`RI4JPtc1qDsp->QY49vq6@C<i-RLb?ByT
zq?FK)9iPS7N}rp}Kz2F?nC2j=qD@KC%@U+CqrAAc!jW83KbEYW`Q}7h5EXgM5j-83
z^@`LUu0*A6VH;*H$2_Mm>6hGMI}N3lb&w=Qxo!(9#Cea`OHl<d^CbB=?qPMDoMXlE
zyU!>3iLx~pQ|**GFka`ohc1xf9C9q@;R73PeotzTT3ZMQq(w*PCg?JX)MVwdjY6Bk
zj5Dr&Z16#upD)5llPzYNz*TFkju}Db5?KRoRq><Eq<&;Kron!C%zVP-olPKG$Q99{
zzFFZ?)Zv&O45`Yr>bZcO&9#Z#N;@c&iAhm#kFCUYdPz)6eOTVB%ayB`&*JB+GKhY<
z_g^5&;NK#OO9Hf9^UAMo`oh$TZBx{~>pu;?UcS70IJ|2lTrj#gaI2u=>cF$@VXFgD
zjH~t+E1s{2SQ==@YxMFc)bR3myq#Ab%`1D?q|3>LK*3sk#q)*26-#5ZwDv{Y^R{c6
z<<c#Shi=&luI%{alS}z;*`Q&1_=@IMv16(5*+4k2@f~~1wbrn`_wvxKoRX`iFZ8bD
zw7fcb!}N#Uf4t+39V=}kx9kn8_MV8n=lY>#``*h#(CW!AyH!?o^~`cvYZ#im8dd(5
zxJJmygTioOrJUWm=0)w(mdlnahu<>RuvH><WYEgkjA7R>2h)}dMA;a7ejApb(=rCF
za0@skelj!ugf^7mDv<4KAz4*@+_<0`RMZe&NraVbNjfWn8!;)l!cT~|4GNDol2QUV
zk|KFOhfVxXS(ESrldyxk5U*uF5wcXog&VSA>OZfO)BC7OE2LoY6b+Z@_H2b;eN@$I
z98D9;P*HmD+--vKS=AA+N~(ZIQ7NQua#?*&_(j!oD(DlKwb<eRvgW*s>ynagF)kcd
zw|B;H8wjp*Da09@%=t%RnV67Vns(Do!xv^G5?!XxOPmre1avz=lbo}DWfGGjxs*dv
zOEJxyAN(E3<-)l`uU)(rS`39tHlY*0cJYTnVyPd?%~#FaSrTcaDd?Er=fG{KUXT&a
ziV|xnx7hAD%5UR_lz8eaBS+X}4>Cmo9MZ<dALK*WKWm>aTpO=rzS?mfdY4Mhi8c{;
za}YiDI?l}pIPn8rBu#@Pp36T+u`8*AR}k9_cyaTLgD#`OUZW#0%_H+nvx~*g;{ZKn
zpKx(%IG7+_sXe@Xek%&@&PWW^3zzflj&Xj)H4)R)VX@QEs+F8Xax}=7G)=Zj=h5Rs
zCk~B0Fh2aSbNqp$N5_s&3=KL*#s-Im#}firiDY<^pV0H5lzPq+m<`gUkd%2T0B1$J
zU>}!Z7iVwp`Nn(d7XM5!eg(~p4gk&d)#`1L>TS!_(95cL$CA5DT>{36W$0ExWwfAa
z>EaU9&Q;rvs9@$FQQg&O3Ui?Ynv;9iEELr(4r1E7QquF5t>;$#{jX~y^+Vx2$2-N2
zXmRVchHJ$L)L9xWZ3&mO#s&4Jp14L+)N@y(D=CNzIw%;J5XZa4f~_o?Teq}lsRQ`k
zEzy=;;pW{SPdR&$oGnG=G>!Bq6X@e84aOZ!cVWx?ol{9FX#Xf=XFa?H6|I`(X`w9o
z<f{fIk9nCZgt7U2s$hY6u30Q(k?IuF@M}gQsCh7ji5DMv{*j2KC0bbWjty$s*Fs-;
z;^il9?2L5mU$z|x8xJtz`~O;zNh~6rquzo?koN${b!|^03Dz3HO63N{ZCpBYz2Ubu
zzqa|tnMn7cW!vGf@i3Q2eg~v6X2moTXBTnBGH%3ATQw>CW)T^oMo%6mz`6!>8#{u@
zrdDT@ghRJOkk>XBR6#S=H?*VAelnlBs1eoRFk>L(+67IveOwt6SWwSoUtZ8%)I;0D
zBFB|{FDN_&{HZi$2Um}kQ#PFqb+#Q`QS++ymBg9{EM>P=_|!3QEv2+c-3;suD<!;W
zSTJ0g`M@&Z%)rKF5EWke6O}=qECb7#>Qj4Fg5RMfxv@Q2W3o*&ur(qLU}cwC#Eju{
zYSHxh)cJtn42|B5pWH^lnja%}GmG7l7P~szuC*LH^hvFwF{2BoZ1HV|8R)2(`(VfE
zSNfcTiR_H&?T3$%2s}~tn3ZO{IQi%#jw&snH&3v0&GY4ng~v3MSQ5+$qXCPmcE|iT
zX>C9}(1mpgecghN-6W6_E3wow#t!V)NTh7jLZ3lE5U=|ju|KdvWmQKp`rHYoh?NDR
zNsXeFEjyZ(LNv=cNSvRL*AZ;MI{1KX4mz6U+GuvPtefoAY!I40t?l#m6Ieo~rb>%A
zejJFM+#()6UnQrEOZMrGJ6yxbzv{sj!mYVrwiCzuM#uM$9UmDwKJM)A8#ppFDl=ON
zpKZZn;PiBYs6bPPzS^O~tkxHdv0FPsLAoSTB1r_7)n7yqe%3s(BSN|2jJ*h-e>mxy
z!Yz3sB9!wJt72Ngp_G&ONi1)$HK77TBu=_Ok<U}6^!!^GF)h;wCqWn*TPA@V%Ax~Q
z#uy9^vEZ&KTsM-EB-D^cQpIiU>tfasg{E78Na`(EOIIrHi&*Z97S@EVHQ3e6v0oWp
zwQq{pH(fh?L%VF<^Op6%AKJfBj5UKP|8A*J(!IDp>S*~=?n}9U>F9jMdPRF>8qDmu
z`=7agY1=moH{G&tjh0qNOB+^8H$_S}MQhtuYqv#ew?!K_{i8`&RD4?})OI1Vl5U(h
zEUkHA;o668^e&g|TeQAy!H#LodU5aiW?{#z`oVSLZpD(Sq4>&h+$xkdL`phtmR7|J
zDWPJ)?pQ6{6e-+v&Hq;6?r22~o2PVMuMBtYiwoL5)gUH0+M+>Ba`ZGo(PM&=C*)PG
z+PWgPt`%EP)K;--qg{b(?Qhw(;{@M3G)LNc-5cIIgqh2J70qArJCbuG)G7tv5wY!9
zw(SZVcX5`kkZg1{QVt~e?%%=KU>38MxupsO>En<J$xkk1@EJID(*0G9%=Rv77BteX
z1?7W5YZ)Ne8a7}VOVC4!QI(AaLNP^A8X{u8&isoOWz7o)`smNN076eEf}wzKfm#B6
zVTPT)w1RSA&KqJ7HjsawM#raNV3JIkkVp@ajbVu-jZzVLWez8(<I$&aV*23hG(Ij9
zQ#p|cl=-o+VzB8Xjw^E6E=?mGi65U;+wgrG$gm(-;wbagnWHG(U!<|~2}F|^J6C&O
z-1Ypfh@~kpd~gb<GioipRa&!Tz2>_yv0U1JtIV-fdF{y?q2;nc(yuiy>Y(Fl&5xE=
zT|Tt9|4JXmT>YNEtlRrc?iI_`W6{c%)ymFDW#{$c8x_lyLsv}E!pbG>mn<(?-YVQ2
zt!Q}5-Viqk_4l)0hWY#2&ZSI|<EXE6y|!#pW=XT4I;EneYtWMHL^wkM5<x$#yVcqB
z+(b3|?o&IIb+YKXVm6{7=A6`GqVD&RUBJ#ZS5mk-(;RC-C(}&h%*Hw?Ygx)g+2cyi
zStu@1NAV<QUre)0zmEK2WS#U3EWN!c2mIBdQB<^RMbp2cCQ7pBJ}C)jHGvW&YJy}R
zZJ3#A5Kg&JfHe>^pd+m4i(S;M6Sp#(qqr}rKGn)&mj`J^Et%J;r9B(g(vR04e#}}x
zxs*MFl(H**6-34|`hLS`Aj<+D@>MMF=`1lWigt^P$1^nnQgLSb2I(i5i9Rzq4;{ox
zk@G-Vgv)uduR9a6AAEK*MfQWUnMBZD)<{00YqaiXa?3Pnk3^ce^F0|9Xw3>Mi-_m5
z$m?BFu}p|~Z2hl|TpPTig|f_%=Z~!9HNQ6U!@IPI_*iKLj#$$)jnP@mK5*4wcIno?
zL8+yyRL<vN{2P_?ODL!GOB5;T<KYbTNwPClACkOCA1C9JWYCHgA{nojvyab^8*O6A
z@?s`_VY4wNgOR6tIO-9zDI`C!B}kIS#~9m4(TH<=P%}MAtm13vSrED4G6slxeP0+~
zv9w03HeDTC9Jy($gsdf8HLzST7`6^VbIn@1YN?A@>X!U(S$Z*}S}p8~6n0&2dtDXj
z?tguFx$qd1yM%2uxM^UuYI~$=`wjbY)!r-SXkk^jur*rQbWIzsXbaohqB&)&ISrAV
zhHKWha(Zzk!D?A=q^$S)hnCCw7Y|46)l1fJVO!YR1{rWp-ZFI;7%SHPC?+m>&5^w3
zYunz+>$;U!a@D%zzdpU3x99cZxAG3W{S)QtyY^a?fTT~|k?QX2y*DbCtM@OCC9~&T
zE*nDjY-JG}B;s{TgAgFSmDkGUMR^<L^e4;M+qS}0+op(Z)3rUzwjE*PjtzL~573GJ
zFXO5AuS4zAdFmF0lVs=SoTrx2zU)24r*NhWuJQl#*8eZ_R_PaslG4>~KP}ezV=)nV
zWy}N<q*R)PS^jAn6Omq^0@0#F`aF#PJ9y!}6yw`z#n^}!l3JnkA{itOkv@PIvP&eS
zmw*|}V0^LsHTjy)WP@ukzDjKH_y2v^V5MWVvNuxMdwpWLawl6Tg$rAvm5ocGaK)Ce
zeM<%#EUW?hDXm;B?TnOmUbiooZo|PQTWQ$VfbG|%-f&4vIIrd3lp}sn2G`?=N+xTT
zOZ!+RBgss@mDlnUbHoqI*gbGWnogo^g}Z|=Xah8x!YI=yLRX?66Dw%2^3Y_{Ur%nm
zFcs`N1b8`d7B@LpV;lU>P}ih2ZpxI5(C3>or)2AVto84xOVZ{oTg0QTOWGnOZCI{<
zXu0I@W$U8pN*B5Xm;Z!~U27);|Gq`9Mb0Fq44+X*^1z)W>0-XjZ`4Avc29+Cjo4bl
z#@3&9;YcKqt#Gko6eQ*A!4MHK8op-NDLdK^?y=OJ5nE^2*!j~gHM=x1OOwV5QJmyG
z-iab-Y9MC8fkf?|T6s$(c~By4NA2IY3$yznvz50ly)5ZpY)%xvYi$otsiJH_jQ3a@
zyCUm|WB+|?qk6qQPx}coGbtJ%yvsMNt$?*ydG}c625^qBvEirP<4HR<>o_msQ!|`s
zOa0dPd}f)mVwK)wnOh=EfB&alX4<RFTILe8bNbiQ6J5P&ZA)jvbKGOOX$c!PZu)7L
zn_c>vZM54^ZvJK2M0qo%>lywnC@0gZ`T)jU7qQiajr_j4pCVOb_u6JFXD-U&4+LgF
z%V`U4jW%JrcPC0I{T3!MKkarRJ?E_blXx%NOPrEC>=u+nIWl#NvZHOk$KKfyv2}!v
z9Y5_-f0x#(*;=h)O>t<yJW=#bYe!~!4JC2+-DCNCBeveKv6q#<wRz2<MQR*6Kg)N%
zm`syh@W{?E(n^e}nPuJ?=RpYEdIO~ZCf;OPN&IvpNkAo1GvNYJTJ^<rp;_#(^Yc?*
zB>y;7P8}h!S?8~j8=XLtew~c#WPFv3-yq{R$@pzD=-`y}dt_wXmpVyqWc)Fn;4#d~
za4b?Ubo9PHxYB;;(*DK4D}~|WP2v1a5$on<?V-4q?y4NWR`}9GbO&8sT)#!v^0vJs
zuEQHLQG4lC^^2zGP1su=j}*4V4diST%(-_>Wc!e+1XrUD-Y9(S&|Lx6c(+z}P<0Jw
zDd~M(ywUv!JAQk|Yk@blk!{0wnPc3l)g4h?FC>&BsvG66i;*3N$qTw})_p47?zfA}
z;ySV*`I5T0fmxAc&SL0t`CStO2XO;yB}2qJfk!q%yK5p_Z?|se+a={!Czk4;fB2cF
z;yS<yM6v<Vwm5&aXYr|ssphVUoKCBHGlBq41R)y>5|S_XThfGa1kluQ*F=6^m0s7K
zmK@+jSh683YK&}odflcB#7zp~CIxX5A$DaTb}5Km3St)_wq+o;DTr+fVjCgu&Onsw
z7(NQ(ZbEF#Kx|ZEY*Y{%39&T;u~k8ARS;VVadQUZW(9Gxg1DIw>oXAR6~uZ4vHr(G
z?97O<Q;D%tiLsMn+?s*7RYBa!5Z^@;Ze{d?jj{QPb+54rwqrZpN`o;6MojITh^eR3
zuU9ASH;hl=ZXPgFPa<Vooy%HJxN$@k0=?tEY`eni>;)%p<YUSSUPzfC2gq`&cL968
z(`tF|8E1%;Ge+68<5INWv`kZuN`&7<9geW-HoDUU`hUu~A1F*HDh=#zB_f9GccxCZ
zCEp7MId@Y~v!Fj&eN-i^bzw(kQ?GX0a#5eWupK(-x@<=|&nQ>4C)1VNfKGqOIattt
z6nVI)e^P&5C7*uIyeGu3;rE1?SYA_eJGbUek-5ZmbghQb`9iL21|`qHY-naS)Q$_$
znb4OmWYT&3aEj$lxn^*2zdM04U&)SmIGAcWJFkSZ8;R>DcABN#=xMD5F(b6EX4q9~
z1rx9ZNLg)=9YUfrf$BgIU#w==t(^&Y{4vXvH!v&Cc&5%mKT1b8Es^Gy5^YQajS?KE
z9)F<!=<%_Eq49C&z}U!0-{@d0kLjg56Q35q%#58G#wTS{PW(V^Bm@sBrWf7p1J3Ni
z4Lwgzs-+AYr8n@x=Zlb6oRx~%cy+MbJ1C#hpOCkORfzNCTnHBeL*b7;XW$lNDz`*8
zYphk}lIX%rW}Kk;!#ika>=Wt*bHS>q0fc?U)O4-+R(a)%&CfT#xaIjROXtI#L(Ap+
z7j1WO^F+nl#kH%&&5`2fYX#Sw;g&ti#d{YmkX_oVpWFM)-don1r6*qR#Z44;^P(|s
z)|-l=R{N^8F=B08u{P6H76n&2mgw-vwZ2=0WzX$;X4lonpWTZ~G;&+RIW6yX2<GO9
zsp$u}#htEg)0&FjDX5MXbX+(7mhCkgzr|y@^I*8+P&n@}Zp0|eeY?<(v*tNPKZ@&s
z{r-Da9@G1BY^$awMEHL2APV}~KKsCK%^REY`rFlS?6kuEb$!u5lkV#kCbGAi2I_TR
zzpr_qTKA1=9qiwz*TDT7O}c>&(>FF7$i7=Qs549@2Ztcg6p7KZZp>*?ZYRL;4BVim
zoHfC?C$Sp)WuspqQWE06%IyQPiy)k#^WGW1GYW-DddOo{9;Zz9sk(?`OA9L54<}R<
zJq}PHjZ8&Afv|&=P0t}E=UKF7lbR!Ps;VDn#3%1eu(N9k==caemxYTHW=}x}A*Mcm
z5;vz=6E`9-Hz`Jac$vDtj=}_S|NdMMSJ;GbuR=_J5(-!tTKfr!4J#eL-0e@{01Yn|
zm<=sU%7~&*fduiD96oH)C7>}a-D)GfgYd+Jf+8v$mzZh0zN0N&(U!kcT=|^$8SfW*
z=-&L*`kqLA&uablNd5NZ`kl+gyFM~@sejS(ogCXICob)O$CR^p_G<5n$+6TIHJY9_
zTsC}0Pq!joJ+YkEuwrb)P%zi7nj8_6BXLbjO=EwK=Ic4S{$c}N-a~hSJDp&&bRqU=
z>jb}cWRMDbgbcbFPNHcrt00Na3`_rwj6Z?_)r6B%5_MO0?|aNP74YH<@a%&H?c_xT
zm#9m}ETSvqV&~u7L4FAx^-zgau41O?SwBuv2XIFnbym72FGLpw@f(KpP_m=bb<}4;
zbm`C@4uJAgbnN3yT53#wC9s9HE7#=Zs|KcVM+$f`?#D0Cl&H(b3K%xIApXQ9d31+L
ztciJ~>ZNkuc5x1RuDIS03uNfIa&=n`)dmw3v6VFwpD<Yh6B5(uUH-M1O0qGLB9o*M
z+m6|i*RMm_Hi(lygv1sxb!4OOMDRm~CC-VVhbEi{hDL{u_e~rc8%-R<kv>Z8knbEC
z=^q*#JT!VB;T|h;4jdl?8yOlMz=@sXvU7oR<bmOdLpa6LH!QnVI>(O=4LmT6cux#D
z2Zs<KC8Fwd)#S{RK+;o`0V}?yh|8Gy;h>nAf4Ip7HD~G1sd|Xv^7R~B46<{N7II??
zMD~$@cd4jskB=?+X!RA#8A;UzmR_e2jN#DOY1PM6XQfec^OHemC)usSV3q7c8d5P_
z*zR8^`*B@KqkPO)`WJX3Q6cydbP}A{QK@e0H7YI62B~b{67s$!SiU8gz9r;*OUVD0
zVE&e1`zxXTuY}gW5;`M7=eLELZwsa07RvudDEgLA2=hI)R;9izz`%_ss)lb1P2UzK
z-qTuD>h}cMxXo<kGU9EkU@p4y(6Xuel0L3Iuc}bLtt}3hZjI~6j%l;5EL^@TZeWm6
z&=rIWJL4t>;ZhY`kg_dqVUShOl~A}G2IVrp?Qt7}3IttwxMFX-kU_->sDweKf)2_%
zL-8^Ol?%G+aLu831%oORaaJ*?Isw%%$RX$o!}hK5S_ah#x~6dR!FWA`8d&N(<Bbez
zN|d3QK`nx=C|ulgyOlwk1YL2sq&vQuL0ee3z40~%wX=No#XA_(naF1sgSrz?4}*FI
zT~)Yxe|#&0wk7g;AA`2DSoXwsFlc9@e7hL5J5ft}7_>K$&-)p)PbKJT!j92+pNhf#
zfKlDs;{zPVcc3ZJUGX6f<IB%f$@j+(aQL7MAL8&~z|=r@j&K;?Xy);aaClUP$2g3O
zTzS(U<M46772(SM_&A3r0HY#1;tz261YlN`4|4b+9)5THVGd6MM*eriAK~zaWc)`t
z{9(YXBRDzy829gqyEuFjFuLOI_!NinJz$<cH;3_kUkX1MKgHqGfa}8bC*mFsV^fvG
zXF2QzoD<HiyW``qpNHQW4{&$}FuLNw_~RUw06W69!*N`6O(O$WDNubJj?Z%V9AMP{
z_BhrL<bQ$t_r>QpjIZNTdmW5F!C`#!mcs9dU*zzUfLZ-L#o>MGL^tYF^Y#bK>Sut%
z;Ex=Ch{Kp1@cKExVGt=kAP;f)Fkseyj&K-Mi~Emp_$XkM_sE@N96m1lk8^lJ4*vj$
zK__|rKgeN_Og_jT<}j!y`5%fu!eLC@s6UUzALa0e0i*m!;!X}f#^L_Bi^EVzr11B}
zr#LKfcvsxb;nRRw|MPGdi){{{<**kpt4|+?L7;j50vv{lDDTgYa~S-A;|Dn$0?fwC
zEQik};P`nCUy$KB4$lK-`FVoF3$p)34nGN)w=akHX;^(6iud7IGx|%v3=eR45HRYe
zFFwTK{eW5g2RM8XFpKXHhYthh?aSd|86M&AsEj|x;iG^V!9K>}<A53c80YYW?Ee6V
zPbB<rKgi*Sa2@v6X!-7FWq;H$5Uto7t%6R-)@Ws4w0u{zY+JN!`yC%c4GSglbGTHn
zGum`CTDCV@*c~nDj23r98%J?$HJZ0GTG$({IS_3+hIP^Hs*WOcyg{hhwpzU_QoU=X
zde8R_I)fgv&zilLM;H4pKXFBKWg=>^g$o<svNXnZg2}u%aK*m3>vC?ide2>kTtkt7
zwu3`-#WxcG(vI5N9&aN6lpR&MGu}Y}2s^9CE&@Q;^TP!l@g4#|)>#d0B>+^N@v!>{
z08y_E*A2&a5CEEvj=DF#ivW;xB)UDmhX7D?)`a&HKm;8L?E*n3kmz?_IKKn*n?NGp
zEjSpwNe==}4n&Vx>SGKfatsc4B7Tg4M2*3Ux85FSAc$+#j%Y#qoks}_3;A)7$EGn=
zwC-SBt!dH6jhZcFwCZmgh1Q2ux7C1gc%tlp>dxlkGK46KcOFw0tG}bIi!=<!b!11C
z>soHJEEyOKrd}7RKNPnyC{NHeL>kB9`3wS!Pv90Z7>s-i!nW(<6%4Keb&1p*j@L5?
z47w@;TG+@SV$cy#_GSiwLAN1fhd$oQU}~QTSacVI&_IomrU&9Z3_=Sv0T%__%3#!f
zNd%LSJq$wiBZtT0_cMs<zd6$KAnKpN#87z_Zx3)6Vv$9W;;#4+4l@=RDcczz;V?Bx
zMWpgze2l}?Ce28`RgYF-aT3!@xID~Vh>ay&T-=2iQ&Xh*0Wc;Oh8R;lRr*;D6JttL
zrH{K1t8qkXhrnuB2x2v;gmJJM1{14kMLss`!EBfdF%MKQh>M!R{eW4B0S*)MV2wA#
z;5ac4x%Y7lVh_9-?u>C4BKV1hd62sh2}i8QK*CunM8Z-1yFkJjOeB00@`bK9#a)O<
z+agfAI?G`q(hT--n22<uwgTLRkzH!i^Bg9!n-j@xiO+GE$gTxfU&o)|Fp=F{Xg$X-
za+t_&A`ee-7b2vI`aPhbe8!11@}b7y+e8{mBbaI(<1mp%)c>*gIERTeQVZUBfWt%@
zS?xZ^;5bMlAFB^@|4G1!_IZT6oJ_h*aTi>{r7J;QmFeSWxeFGxa?XR?Wgae@fzzgs
zKfzu4wJawm;saV%<AZ<`DGhO#VYrk>D)z-kI6Nwc7~}9!4nGh-#^K|D6D=^#T_)jT
zj}&#sAK~za<PeW?_^||h+r{9pP;mRSRw&wXvufyO^}(ApN65r~-SEw-k(;IW-7IRq
zSvh#KWb4hs=9^_ZZ`!xrsVQ`T1XbQ{7b^CvZfiA-`a33L9h|CfmkN#}s+)C3;kpUL
z3uOn{sz0W>*?0m(j3Ce$xOb7UU4Lg+EsF~D)R?D^>Z{@!yx-Pi9}I6SXAG5b1KEs%
zp)779n^`c_$1P;D3Wmmb4%u?a%?8^gYrIk@t$6OqXP$g16lpsiE*=jHg`kXOwKps4
zZ&o(IT2OwoVav_NwwtY8WHz<mDY5eMR10d$GY#KVmAt3ktTNvbVBFORYJ7wOwtxJP
z%Al&d+Vie}*KNCu`j6^DRdu*z^IZY&1U789w<HlfDpgy!qT{YWmIMk}Z=>TO!5$=d
zTWwL%&8fFFc)x9_xvj$+#n+n`>z;1C-1-scl~6=ian}InL=3Rqu1tnECc@**!sAWh
z^R6^Rbj5cK02ATJqZr}dQ$MLwZM`FqNnVyXbGY4a74mCPx4rvRt35-Jo}rbV1K+pk
zb<~i(2UQVk$Kv5gX~)%yrPI*HG!^1wM>os2UO#*N(QxTNw4~<yI!%!oy&hKq8!5nD
z3VT;$%vWE^LAB{~E>C>y(M#Y~6{yYaOa0f>OZy`g7$<<QtKX&9_jg-VO=w81_452%
tnzEZ(<In7edY`uZhwnl(YS91i-Q$&rlwBhHW^u^_t>%@Yss}o){|BcyY4!jB

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/roberta.cpython-312.pyc b/model_executor/models/__pycache__/roberta.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..321a0e225b224d05d830d001ba94c936cb1c51fd
GIT binary patch
literal 11941
zcmbtaYj7Lab>3aPA0!BZ4-f*W<wGJNiJ%_V!!jewk|<j*O0ncPMx3A^b|HaUJbZU)
zix_CCB$|erIJGsIM)EXm=;;qjBXz?3X_c9F?4OzT4>wc?$d;a}ji+h;K_NAE@}tvp
z?mhrgpp{AQkay3$_uTir=X~c}{A){#mw_PJzn}fvEe!K(OqjuK5G((}GR!STU<6iT
za%_TSk>(^W!NJ!iaXDMUM)T~FJ?BU`DD9A(Iak7!b0^$1?UXz@Z^E1NC44!5!k=qN
zw9tH))S3$<0+e=3ZMk3~m}^h8=R%24t|QTr>r8agGLO`i>rQm%!ijLMC(%Rmyiz2$
zDX|G?pWv6Gx!y!?t}oF?(=F2G9G~DR-759x1`-1-!!a*2Lf|?hw28Lq<K{%`-+MNl
zP7G1bAaJ%ngL4bVhyz0C9;^`tTCW4@b&Bm~YxndbCb6{%Zx`@(H}6B_@7eXLRtv*I
zSmdV984Wgkgq{uZBVtV0BybtG5WQ|sY@6j`y}!kJF;;V*P(+fNlEg_!aQQsMEw2`)
zM53gQ7V??w#Tcjg&J+Yu(vzC^Ym$^RitJk3Q7I+M*-Ta>=L!W$B%15!>GMcxt;e!*
zF{Pw083j)L3mtTQt&mPlolB9FB#F{QZb}q{Z2n@*p|xE&dun1bdEt$76Up<hoH%|#
zYd-=*u~_IpG!N$KWLHuU(=fWEQn)PUlgeySOlAdH>q?6GCiyX&7JO+&DZDObFJ4mQ
z(}k1(LvAsWXHvx?B>lP6?39=+5;2p#0>cfR$io`tL?N3}#0z3xE)e;*xYe*UejLi{
zS>@8Jg`%jnoy_J_#_G}WLG8}-GsR+oDDqKKkmU&+70#8_Is`G3nvs-b5mpPb=-|^0
z+sSy0#LAC=_#Rw8kx8%u16Pg}Z5eKk$*=-<-Jh^~7{MdhMaQ(ivARwRjt%mi8|2$c
zE`||Y%}e13xvx7Ct~urkn{c0JVqUGyn6R};nlnvLPMT{NjT30RSS$YkxqrppVic?J
z23KZ&;9wZ@fU``Qoi+}=#RNo|Ng7v^VH9(1ke7<DMo!>u+QL0!M9>nBhX&wmHR<{n
zI84#UC?PX{y2GUEU#Q<zPnlHn{>#jCo5@lC-e*lA0liu~_{?4-^%hL3d9Mw#wr1MU
zdY@Ul{%zh4<nnbMle*6}v>z~YVWxv7UH=L;1r&@Prnj0@{R=%bSxZx_PRHt;CMDR-
zQgama^lUTB>t9&gPBR6gYr-KoF7Ia;;!{RVKEY|W{vCFfiMdcl`idzktw7A6aIlF*
zS@RbQa#qO}@+f-<9x~0Hnvx6Bj3SnvJDZng`C&6X%v;Q&Df#Ht=d&^|>#{-=V%?ep
z5+IG-$z(R4Rgy`~cPT3fAmrq1N!08Z6Fe=N_iYrXdUoKQ0uho{!#K2*U<k*oKsEzE
z!K<Zt>esb9m%0K%$e2Mx-B7d40F|)~U3NBz-iFGa)2UgJOcqE^Yn6~p=7CP)as`NZ
zF)M>iO-{{ZGB8JnQXuI|niDia{-UUPX7ch|GolF7?0$L(bg@7UrKA~gf{+3Mp>CH&
zDMNbc#FEK0>ZD{+MrpzG*Zy!~Ovx3;irM0*k|GyHW%SC-{^t)|-Y<?x*{QMOta7Q4
zAA1|r+E@-1T~fRvra?&%Jt>b7T_47avt$UGEcL9HcyV)&@J!1Q&<$T)W0u`5H(aVa
z{Lme#c0?*2Th)%ObM|*V%bWLB{p}Thuj=o;{dQ&ZE_L&+6&uHU=j;#N(VCNq4pcV9
z)lG3shnEMpd^G;yIIXcw^>3p@pX%?chNG46h#DSQb=ik#U4GTiY#sUN%@5zCOarQa
zVE%YzXrDT?58B^Kc?MRUOeFe~=m*jHOl9i<b?bo#naZK_>Y?)wdoIA}TB~k<#T`}M
z(W*bP><_+o`o`(oU6r2wYR~>9|AC7Ci0VJ`$*v{;#Hz#Q@z%V|NW3yUp$<>rXosr4
zK*cw#`iAcu{H1U2a(lGeb_)6qwbmG}rL|^b{QFj5iI_>vlg$@r6nbC!Awz4SX<0wI
zvgRbBGDGs|Mm2!jiT^7PAOZzqpe+>k<~6-)FWasK;d&$Ay3oL70}fC)>qD8d+Hn8}
zsKNE2Y>Atz&a$oSECEB=f$>!r)UcFNy<XX6wdpFm&NFw}$(Vzn79b-S?Z7CG(HKNA
zHvtjEkQXq*bs^&rX{`-c3?+<JN%PikoQw*KHv)Mc>$x%o@=l5frSMZH)+jjwZ1QD@
zt}$?WB0Cp6OFakYS|9nsi$1;@<tx#hYINs9&r<Y-xigRY1}c5~)V_TS<)yx3i|$R2
z_@N4aP~{IkIJCr{Ty*zVI|mlG98^0GE`H^l+IeoyTkY(*^{t!Vnm@VJIR>df&!W4B
z9EASJix9;;DBkj^oCxC0n@qy>n~{+ACzEf@q$ItB;8xL_M|K0HIdu$1aO_%(aoy9R
zBqft~S#kh!Wjq>(=^BtIkTgQgBfkdG7uT5@7jd-SzWRiLPwg<v#CJdTv^gS=Lg8EE
zH^*xZpy48RM{h|trJ4&<ZYJD&t9-LOFR0zyYRC*{-y3)@dL#O|4^sN1u(LG$TfscP
zD{n&9S_qf03C=o%6Ku@^*G8}|V;3BN<?BGqrI}*MgyiWIs-#!Mlu#PQn1?;*Wf8z^
zJ}r();@hIcQ&9=<UFYSMlzdr^uK{kj`1ICw!J@7MZuUP8xLxHyv0H%4S{vr7tq$Xw
zf;g@jpe;AgwXK0s*4_ORduRgF%4>VD?m7Si4uOF~K+PEQl0lduJ+7MPQYNWmVa<C9
zb|6VvbOr1@oz06WLhx8ZT`(&|&6}UeC8gAqD9M_;0OGMo3ezAiP$qy`LY0%=9@TYZ
z5__Tt9(M_^{x$v3Q#CbUT>7WagQc(DfNJtZh`v~>uY$dm;IJATo^w_^`zxJ0)Xp7q
z-sR5jTW{Qa!_-*|`zm`T)IAfwNIdNPI;alsayar6&j%h$L(MxY{4SN>^&qlp<9a~-
z{Gf&25{<n=z5;!&Ic9jo=rKdP;1*#0X-m9Ah7lS>IIAEx4NYx@x=LU-5ao>=?0G{V
z*$LX!x}32qsr)7KDx_naE|xC<EhD_+d3~Kx1eN+XUS~tfPGLQi@7I_|{<il{-Z=UG
zTi-u3$D)F@5>+TUbK}hI{w05Oj;#jT=G=6-p!4%kmEZ-6dB{<uk6|<ck>*M!g+e-+
ztjkAo91C$|<YkOrfv8a+p2SRyzJ>*eSU@2D%D(@J-R1Ds+8vJI?M?&;H3rB#TYkFZ
z?vBrq)Fm8N)NEkmr-877&!ATR7l^0C94FX*%z_{TktI4Zb}ICo*IN@#516<@P;iT`
zW_FR_*&yF5dIT4>Qhgh6=%xPVr5Uf#0yeA{`ffKzCHO_3=*KoQPN5Y_TZDkvDh5Qy
z25oRXFjM@`a6%gh;x=j#2f-o^X`Sn}E%gPIUVMqCSD05Wr4)Wf7G>UG<dp&sSN-j*
zAo7+%=QA_;G)nN41h$1J$29;Cnp1a6Xg<WNhHxR@gmI+J`-0~a)egN)1c-G)8^8}*
z+hw-QfyhK|2piel&BXS!Wf|*rF$U`jMGy^CAl~K3w;)A_7IW5RqJEaoU=f;g)FO%5
z_3LF-&}AA<Vx36qYr3+QILku~de0if+59&ibS)wZKV0RvSNH=ef1tu2QTZbk{;bNM
zowNU&J4}!EBt>1C$Fw+Pts~pu_(_7=M9&XJWV-yaW(?ip?W8M?iheCPErWk!+E`~O
zv_f5B!Rj{$q_9V2fV5y^<6=O7^JSa7Yij_AXwu!a>lrDa_3=#s1$I#n5sOkPEhdR>
z!dPaWOc!2r&;w~`n1(j6I&DbCIl?Ba5qQ1Lcfk;Lc;sZ1?*J(~7|%epYxAA#Cl@Lc
zuc;HSJ+X0MHMp6!j`vD8N>GG<k>P6p-kOJLi>xq?HZKSskC$#q8duZ|I1;+Te*pw&
z2zJ^mY4|o<=VtmrU@rswCM}8u6zF}hd>QB0c$mtZ;x#+DZ!^6$uow18uv7|QRnC$>
z0|wX_>kMlF>n7_4Dck}o$LZPM3*01(5xPt$K8@Md-2%gY)m05Z;;EUeBp^l>rIM-J
zCrlRt6*2Kfp6@}!@?nUsF@R<L-4)-U>Km;1MpfTv#W$h)CVmnArSGfDp}_^;C&wR#
zPA&RReHMyVqr(f%hp&7cbasbsw$ZK7T<_>U(=}QfPbJ-xe*$9dskh7?uCA#C_BvDM
zj#-{Qi^o>Bk$_^|Cjm4@mc3s$w(R-VhEm7+(uQ4R1m{KezRQ$rR~=<XQ?m^2)qS_g
z1v}}Pv;-(jg$mF;@Lf3u(J2s*2uZ#P8}=q#<f|-2w5GsCej^BsIi(-5w^){WH)3aI
z*}u2F!^XHjxQ$B~N3`gb;nXPdJK#Eod&<RkYId}CG}d%m7~Ad{zbNL#D@Agsw72=S
zlfa3cG&UzbE`cvdk`KkLYCnXb$^8)h4}v_f!~4Cz+JE%!%Xf|~^v@l8@9d4Uw@+65
z!#^wkUdG-0P9M*bA`m4fJ!x?mYkPrY!986_=EZjmw>bF*vbaG7A+ANH7Ws0vXq1XF
zYN{M{r-N7DE`hg4v!(L0Bm~t+J4Bklaolh>sNI{RCB|fuv|9V6lw22I)F)47k<Ez>
zh(t!oivr3NQDsPPbUzyVya{|Vb_me7d(-Wge|UAyzue0|HdYAS7X988hU@b#x+9O_
z0`-CGq-$`Y^vQw6eWxFGp1E;+)r}eC!GVSR!_JAh<DUfw=AV1uT_`^c9s}eY=&S?=
z)WE>}_ygx+U|=cm;-dRSdYQmrfHOeXFxI{f(UI3-NCd@_W|I}N9@n7{QwMicaCBo*
z!U(S+IMQZ{@CbuT&>Z|FummF%p7O^K0r>k*`-w*{9sM1{InJ^3B{(AReX!>V{npx;
z@xyF&bk}2F$l<jNWS~K)bo5Yj*@Y=Lvw8QzF}3eN&4Wqr8haV**8GOOywZZH9n8K1
zk8N&8Yjx9>8vTy#rr$@N_V?dZJ^d>VD6Dk^9EaKYSMI#Fu;+o}WB<?ni+hf#qZ8`T
z@y{77qU%X#l!nPzp~aw9GH^?u2BZl)yuyJP5de}3PQfL(;Q_@f_<roZ?>BF7!YQ-}
ztpHpDq6^*%-3D+C0&w-fi=Y<(qg(V(N31?ABGU*CLjVq2g^uQ&@Iu(U1-sA%^#TZx
z0jBnDSihUX;BfO+;61QS&^aO-aOkC*zO;0sG5X;((UAyJ;M)!&v`;hf?C}CQFM<ab
z{0wW2&y)b$@&AOuUN7GD3zxuMPQ4dAbdxH|GZMVc$$+gz-g+M7Q+dGz)-oh`3g|Kb
zh|m{8+p&~14-a^RdQ6a0;L|g*Qpkam9a_*I=qx}k$MrG1q$ngi1wMZHAZ?4vARTBO
z<X^(xK*+-y@P$mnm;m_et{4L^HFO-enxT(^B6+GA{S6h32fYn*X!XJCZCogISTmF3
zbyvKDy5dXSDFxsx8W(Z&oX6j~{5JJ9l)CB#;C}!QZJc^0N|C4Xtu{;TjWF5Z_phnl
zW~8h-F}LP~@g=1^h;e)zkW1cN_KHa2uftGEtvYRbKr{zF9qcN(a#As#Nn6Bjy<qox
z6(!G1q2xprMc%~70%ewt2Q5yYS1EWo0;zRI68L}rm?z0*=FwFfKvPtu>q0Z$XPHuE
zTT>5M!}FzrYJi3^s{}0?o`_9wqoBH_0n7-TF9a~xEI_NE4xyp>xbGP_r}1&JIcGCj
z2p)O+HSQ$y9aiZz`%%zlp`qD>A{ac(G(zKb0f0B|8U$rf{{pqer0y9+^SXllzQdgR
zpHSObuPwNKY-?B%#4|L2(d(Yn>{IY_0D`&|ejCt&mlGbjOb?*xYsE)BgPsNK=Q8dv
z`2kdeH?Xvl%;e$qFI^xa6dS&OvjX``;39}!VjW*@Rg<qGCq)VPY)x$p&1GOv>HwlW
zl6SEXPXj?Oj@Axh$#^id`b2}Dpu-c~4|Gl@Ub8Ni?vJERQGcWb${HP#F$2JEs2(gs
z{-2>Q`L_^#vCc0UtpsCgFjfifQG<H`V>LJF;oa;}gs()ltC8*CnG7s<^VRU+a%l6s
z^Nw>VG`1Yw0k39Za7n)FU-dGZo?AFodG56O-07vr8RUNy9;}3Ss^OiL@F6vPXs)Fi
zh%N?37TqHdf7Uhh*}zC;;01Nyh3dfAgJU0`{rOq2mIm7aAoh+fM+g7<#KO=&j{R)x
z7uz7a7qcVV8ncHXJJS9*;B9GLvH82vGwRcE48qao2G*-kvc|x&EDf+lxaRL&a2J}$
zp}NxtbT&6hu0YFRd!m$}z)=fL!>?En?o$_&f#MD06bDHD9HKSGDXmu;edhKy!tZ~_
zM!*I~_>H)EDLB%InfEU|SJ`t)-E)c}=hKVs)A|b0mofA%tXU=$YgClu;iKMT_^uDl
z7s<TLrU#fKXfYYqJ3PG`uau?>82ex20{#FpN;{u9b*hc)&HV>9gM#-OQw@aPE8i$r
z0^8NV_B$t*0{a%-`{-mRNeVc~6h`A19fl~4SIZ1Y(|K2cSaUqkbM$PlljGat%@4^R
ztE_|u&qxVIav4OlOvQbfHN?IN#nI#FFh%$?Jzlm3kC%Ot2rxf_zYQTGL@^i1AdPy2
zZkH~8hB1lV5mbbxjG`x|$wEG5I39sYrIBauqygLh3%KR05P_Skt+|^EjK;{KZ%Z}Q
zjb>6Mv{emlt%P=|p<N4KeR%Msy7%NSsn=yObgCMPE`~-H{UZ=B!@K?Sck&PYUonox
zdN)~gotq3?f?!XEni-N>TUNGyU`7pk-2}e{1E)qNxrWpbMtG3Ow=vp{(Q%B*7~v5o
zb;I*zOuhn9<Ez4VF%zS|qXmE&z_5I5cRSp*4kjF3w0Ha}GW@7(N42ZB8rf6r+gI(}
zRqfth?cP%D9DW@1M7^sv-zMjxy}K4+j<Cnr-!V~#7p+nFpfL)c+BoMp)7%&YLmi50
zZq~8?PUlafcj5H{$Ol_K-tqGtD@fK_4Li09Z@n!YmMJ?w1e;QGKt_W-i>U^C7L)7j
zS<Lb?J$*m%f8d{2)bREiwh5gWPr?C6=>m%`3_XMWxJ2~GQu$?rq#2OL{}t5K=-Vs<
zfGYuAg5!J@e|rRi8jt^7hF*oW(wE)^jD8RQG755V^mH(e;QOcM`){6A?StRerDtrr
z7DyN1N0;<nL5`=U()zB`4Yxx@&9A_3aAY{+IRNGK<z0Vjh#T*YPGHi#6aA<j;`B^e
zznF>ZU_P#+1Y+Ta27IySORDL=Dk>U346Xl+N&lVG=4Lf%|8kt-E_(G_aex%{;2SQL
z1RDP(HD{EpB<tFbI;U_4v=&-HHf&gW_O({*BZ&?>a7TfyNL?>s<n~%-rA&G-BT&ys
zPNig#pp!szo}oW)(0`F|5^|{9f?gVW*)$te(*@h#VCg}Op2wQ*ahN9jGU5<Hm<xA{
zk^dW_nvG@ICvJw_@@vNbDbw*Ov-LO3*yo&s<v>EP+!H^;zRrHmIe}y#`n=W7a*r8^
zo_HBH{u}1tr_AW5%&t}EC>wd7+?u^PyUGB$I>iRr;5_${=R?mb1LWfohU<D?Tw<fE
z++OxDyBLkHFi5P}7_PTQ^Bx!Br`0CYt1RoCCm+pzIJ>y}<rM~#1}l=aY0k?IRRbNU
d_i8qzx9|Mv_}y`xK7N9JA2~d$4k)AR@P8RJYJ30y

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/rvl.cpython-312.pyc b/model_executor/models/__pycache__/rvl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4c938d03679c9391dffa1b7c24e62f0c62d47872
GIT binary patch
literal 5507
zcmbUlOKcm*b(XtJE-6wJB~g+U+EHXnHXVnmr6i8iCb1LQu3JftEyYC`2Md}zl2+Lz
zmD!~&5ftEqfGTK{ria3E5x@#iAP($<3$&<@Jrx0Z5up?k7BS!==pl!qbfmyRPknEe
zOHquB1RaoXX5PG+c{A@j`}asBM4%Ybuk`;!2>B8_Uh!8On<;^i>qH}(U=UMC3j(%%
zhA-{owP;FdiQ_~=HvMToZ%anNRMHA>%SO-)r9-^!H=4|FI?USvBVsnEo1v{}K_hCm
zq+85bI%c+}TRARdw3+SccHV9>;$}y>Lm)nKhG^kMqD5%yZPDd1-N~`dfQ`}?+PMeN
zwXrTf)&gTOD$NXf$J?%Jl-)i;!!yrsk9aK_qn)(tPHjKFVjHa3PTRfNx2weI#Jn#V
z{|b9a!3m6JW@q)>)EKmz&zu^0<7C#>uVidJp94(jqG6b?<#Utz6!cnN%~*7}V4Cyi
zW|6=GT-)dyBNJyw&kdg(Q7@c2b9Q{<!kd6@9W5BPKAP7u#&E{Y4C`6@E07XNicaT<
zk-3uL%bd;47HsR)f^KM(ISD>6M(6D9$*;3~mReSxRj1)-6$eb8%}wTEvwlADT#jDR
zEnw?(o&n36jx1)3Gc-q;cb>>Es6I7qTX<;7veg^mm9N^_+y{;8gp#zN5zruEk)%b<
zN2N)hCN4^8d0tA&PVB<Pk)3>G@pxXr#ZdH{D68wFL}t8^x_YLn9Caw-32B^sDvTw4
zj+nLQoX8Zl)#*t!>j^@#s4;2bhCTm1HDH^w1GD<<Gj@gn;WKlEW5-{3=NKI@^veUY
z^Y(N;H*f{SIAG>AYN&LMW(#(nxm|03T`^L#^Q;{fD?a(1Q>AunjcRMf0bC;+(YD{r
zy*IZW?JGz7)}jYjm4llwKpg)&SAh>}$92ds&;<X@7Xe%c3wg|icrpMguV{i!O2Qw6
z4}@`&^o@NAfVIJ((^BPZ*3%FeK-O3n01H>@>0up+cmhDN_pwK-Es(&82=H`=mTdQY
zhssg-4c>Ylz^XFHI)Pv;>30-W&1Fogs!m8%;c5#8w!^CWZXsj1Bm7bwfBy0e&Dxv|
z)(x}y5-w{k*hRpZ#&a!_uYH1isNxsop<5kW1S*#vsdgxA5D-{4F9E1mSSnJ9%9B2n
z7FS$}E3Q9?ZcL`KChVZ_^Io7zFBJoPmNKbmfkinT1a%KOak#x*EH-GGpp=E2Z8?5M
z?E=eX>qRI51KbLp<s6oTnR*)m92QN`e7CE!7Qn<7#FAL@6+vY{;L?~Q>t<$(GNdR5
ze!@F1gUyQ|{-oqeycfotP_AIAeAsfDc&*y`cWBN+E_$Hw8+V#fZ8Y>@stvxRcwpC)
zakby3dJ2}Xa2L>w_`d6J|Mu;bW4BJO#Zyb6jgBXmnjS>Em(yi#1g?HK0gJw?8Z_sG
z;EM9Dx6C3ZUV&S7@8%vfz(e@H_iiLGn(94yi(oy2#???fFLDX!7vu$hNo28-xcd&b
zt1`)fyITlo0_=jkHI$NE@|UDi;Es5^dI}v4QW|4@K*^<(lpOi0uG!O$f0}z)b`XY~
zVEzhaOxLId;_63?q=Vabo<c#ma<cRyRj=yyG}w`4tCKVXszfa(rfv(%m26URC4Lw;
zMS-xV5%7(|uK$CDkcUXM=d$8N-JNQ@SPINTt-#`HMr?aCkeLQit9bDHl%q<B`&;PZ
zuaQcabUe93Lmu=W{zU&+U++I(?mxfQKVDY$FNHre|M}c2%ZG2KZlrE?e%^ibuM<nr
zil0Q<Kb%;PKV6PLz0uLT(RpCwiN1~QWF<&Cj%*USqq!mmT0#{P2!>pz&<cAdLkyi3
z+lv5$7ekwKM9XH5sOM~!L>wkd3=hpPBsKaWRB(o%2maPHfJIXAN%EmvfxF_}@w-a-
z(D4d^{=MubR+V=0(n;ZAuuTp<h_zQ_sDb<TCzgj+#N`*tZ3ij=L@6YmSblBwsiUij
zqviI&yA$R1;}x7#36W4@s|i}}IdJP8&doEG&5JPd%R2YAL?#7@$%-43XLxo9By~jt
z_qQ8<Qqm-d-~J^sC!_<Qyt2~)^4*bZprg*S9Zn3*i#xGD355JkxK8ZaUhnxz<b4?T
z%uOJ6%@}9A?6gKrAdbzT1RBb2ylTRono}$hwYFB>`ppf?K=+5Q50n^B8p^Jmh<79}
zg9J{zphIkowY+$zhtVbv_q}}nz}^3EKEoa-^C0K3srUc==aol)yUPOyowX()fJm41
zjFpTyvQ>ao5W~5i(`^XhzFf`;j%4O38_P4(iMUB+HTiOyrgcrDITd}Dqs%g@=8(!i
zqUUIaIZYT;JX*!zNcAW~b#}x|)^<GHU{d6+%<;QfofA~mtdX%SRkcvvdU~$8DZ(qz
z;fdKUikkA6ei?|Y-vjve8u>zrycZ}dU7su6Uvzcf4BrT^TwL!vUhX@--gm0pcj~j}
zKJPleB>g&qqrn@&jd1IFxThTMSq~p6hmY{?zH)fqdiZcTe0U=k-wH^3LO5Y7MB01T
z+V(?Rsh?a&jce6)Ym?uPa6@+@t{<+tc(xx{-eGNcbZ%`QK!YdFV0De9BzQq<0mBv2
zH<UUGu+iN@WXV@s11WY3dG!>&al*K>mDn)s#m*r3DT1>As<LDw&~_r8hS(V!o-W8;
zEye^U^9<5st+;P@&y%W-kHRGD1OP}lx)L`dHzF(MTGz8nk?;1D8_LSwwXT82u?Nw_
zs*>Qh4pFlqLZDJPGP*j5))SB<<rzDNxJXqCv(zwD^;3cU9I*VQal%zc%-|V<mvCS|
zfNvMcmM;Q6eV<?6yYj{-mp;B!A<(=_|6=^nc!W*Y$>S_Y(tiY%6Lym;oj(AxfT<PF
zLvFqfsCv&2Z(k9UMNQNsP1gJ$$#(*t4AT<6&_5Ei5Tv(F)USoL$Rv1rh!xF?&FKL5
z`3m^_sI%w7<KBnGxRJ?C6(HNhe4ZL97ZyDaVCSz=mMV6b__RfmjG@Bg!HpRyPqlOO
zDw=(<vtcpARHtc1OC{xE++DbVpxEZ3tNy0CTf#-|zNa_EH7ajsrM4Bk!}Cm^f<#z_
zL130n>T?c0`~B5+6TS?q{)(mH#<@w3)n0FyaH8`<E#Ab)*AM|ADa8m_5=y>1f|te%
z7>RIJL)k4RE{Jw5rj$fao)AlFkrX_*51zv8Em)1SnDjIBcZ@4>nBR}*af7v2GS^Wj
zzU#duWjBkgt;l|c>v2`bZNXf3c;DW~s!YuRW6ER=0jP7pD{tNFSVcd4Vk4GVk0r~o
z<a%tV92;8lf6@2jd#Bg>UR#p>q4c^o8f>&t4De124g}KUQZo5R3x*uBV+im9*aZaR
z0P3w2vnGZB|JHc`V5JYkWKTcjWc@E~>>u1XGK{e6=)<Uz2yKa>J^ocGUg;vQ3d6$J
zM3jexm12e0_lDg1GwBiUKjhH0X<R?K*NJBHh5@+~eiTY&E@ycP%Fu!xg?pJ)F2_z_
zx65XkoCR*qqzp)FADb*UMsj^jxgn9C)ak&pS1~CrPLO!U;0di0<%4xt^yAej+t`%r
zW_bGRgbe)r1okjzGt3?tCM^u}1t;nb<-HF{48Aymn=IJ6VKEd3f2#95+3}C^C%>y^
zt&C3TmQ5M@1NVCszx{?Z+fjZ3yu*irmzfExVPvzG0aQdm5WZ1}aNtW4zE9%!$<V(@
zFTnd`;68cokt7MehXlYkAp+95PkOfevM{vTHLyjX-fHO<LaT|P)n`wY6Q{Qb^tN8?
z5cV!#xcTOdH@65hD}%&$XjN!m7Y>$%gBw!MMzDJ$)(?^0=i3Ukz@n=?r#A^UHk$zV
JkmI<B{|7rE4ru@Y

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/seed_oss.cpython-312.pyc b/model_executor/models/__pycache__/seed_oss.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..61f42259adcd74f22cd744608f1223cf0f0de95c
GIT binary patch
literal 18362
zcmb_^d2Ab3nr9X7QzUhfk|>F~P3v-OM?PXZc6`L~p*XQ~G&>nKtt!d1NlK}r99u(m
zJ3YZh>P{vy23gCP^hB8hEpI#<FLto&{;RVK>>{%lRF=ER)H)aglfj^YSwL<nlg47P
zyT9)ht4OISr)RM*(c`OE-@D)YzTfw~ul%3AUKfXuvivwH9pkvar3XFOi;2~JCXTzo
z30#a5c)^t7)25h-r?fd`PFrFYmbRp<F)Q+{DQnsmv#~r|%AR(_oGfimxzg^KJMD>i
z*s~+$O;^RLSlXHLrTsB~IuHx6XIH8^T@$NG*T!nuvpZFnu8-BTv?mozhhia?_NE%r
zjj=|Su1Ynf!?AF>Io6zRiM6miU#c}7iA7l2pK43D$J$vskm^Wx#yVNLI@Oi#j&-Md
zVm<7+CbcCUjYZR2V_VsCZK^lj7wbd1PN+}yrw3vK>A~0_dk&_yrJsmBk=`ELp577L
zk=_~GnSL_%WO^tz#B(N2tQU8E!fUe_+il{W<%H1NoX{ZJE=u|&mwrDn7b*8L%0^H&
zeGBDNj4}+$=5L|I5{gw=ofiD@LhFZ?+Y!BItd2I+(f;^4J}GuJwx5;gK#9)ECBy-7
z@DposGzYF)qFqymp397il9(A0`^Ph>tC6#!C_FFAk@UDArXnNb>4`)(c|IjZ-b`jM
zM2=66jU_W<#}XsR5R+pUvhu*MsJ<w#I-bjlQUat%+mdoBIU)`tY06{}`_D*XR!Sr@
zqHuUTGnyQWnpEeZY*x%<lj9lHYb4KIouCTp<jIMNaVZ<mj!PpK;?$2MYBs6v!-<g#
zqE?6MdO4L!8})g{#B6+GB0eUKPfn<v^o085aVgFQ6Q4*(iBw8V#orv4QbJr#PEkwl
zWG0!7r^d&|L<x_sv&q!tp^R{PGKDAmi>J>Hk4x#OS#3NmN@LXf)MPqyrdZV}3@9O~
zffr7`yfN#=@i*6Jp*r8G@v&r9J|m5fh%!2ctm+pg6PSZ3%<_1qI26n!bzU0BRG8E%
zqngvl#e|^NzdSyYIIm|OO`jJ90c!%vIzb#wOs2ANZD}y5gdj?4LppKwycn0nbYdcY
z>2h2iNu<PhCXuG$*F2ZOvZX~KnaGOg*mTLiqN9QOJZH5<kWY=jcnC97d^&R`YEuJ;
zCbQ$OXj|Zv)=t%#GpCcXjJ}*oTt&OVq)f|^*7Df&r$scT_M{V+#JHHA$X<;n%bG7P
zmmD8Wj9}fbs%}P@qS|EDqYYz15=WC)Mzl?=#opq>>Io#?0Y?<M7!R&!a&k^ia0w>S
zEST|U5iNpM1TUNd2Ni61vJ3pEXNDW)1;^Xom`!lL&Bg39+!a3NILk%d7_)X9PM<n6
zthz5G1wqWPjiUzEb)5E+>MFiR=T*-ew5-^-wAWRe)@jv-Log|2Mr>uhcOXp+W_1bC
z2mB2#YrLGb<+%57T=fIabJ^nI<+vQ5GmU{|Od&@w<t#btA9I5FC#KsL{eb7Vc#&~&
zT-K>qnlt4fDvI>h4fLhj&4TUHE{>CYS$%Rj!Jadt4aZN+I)nNlpY`eW>U~73G$IzR
za#82-uOOqiV^iLNF>J8-<V1Wz8ozkUtXj?|6SA}wFQr~YQ?3DF{LKt|t6F3n!l}?p
znIabug$O1!d6^xOy^*Q5fynd3tcWa<lp`gw(Qzq~8Gmyi>Qt@B#b$HFvBz-2<5B?4
zsGjm}NHvt@EH&(UIgy$ak4n<GB+<}R8`_PJW}<fVNlcAOJ;;={P!y%e=)UTV$462L
zS&qkL63-D9uKmvwgW2@N;6!qwKbrvi$o5~E+_h)-rCs7+DtUfz;%fH7cxLc2xY(e^
zqr@xX2o9E{J<5YJ_FsHlmIo%TN;^>RR846|4(KC0ju-MDBKplWZq3g*t7h$rBXr-<
z_#iw~@B|CqmL*T?LYw00C<N*Y4PAx$@Z78OuP@c~uDNZ^t{KaHN5fhb*VtR|G!uOp
zQEaJZ3y2y)^lsHk73Zm+ufOMReNY`PRBv6}yV$oh^vaU|)m5{prfP*Vd8^iJT(Iqr
zQZttK+^gsjH$uy=2ilKpuU|pp2AAV57KN}*K)*R&-(Rnx?6hgx3_4>cmnd^4oo<>3
zg|T<bDAw1+qbB|=cZ(m6nx&l}ld!`%=}AOUi?ka*Dt|?_7dME?$7KuhXd$J&^wN&a
z^=3j6rmD-<pqM9uKz<6*HLg(Ckgw}j>be)+SgwoCx@PQifr7{X{>j;s^Y&#=WQH&J
zYTp0;?Dyvr%f860Wrm-5qTut-I3y|`H4UpcHneStL&xK)D^Buj5-dBedg5^~mQ?YL
z89Yce%UMaPLrJzjq(exl-r{B)5mTvn{1z|mL9R@5eUJ@B>Lz-Mo~0M(5dG$DZpFjx
z*j1<xJ@PhLJ08}BR;>74v2o$n6+5LI9P*r$a&f`v;!dT0aK%lJ9xhP3LWQtFTvcED
zkow2H7HfbFh&3~U7L3qPOs)PBiE?%g0Av!ts_~yiG+#9Mh*6RowKE280~5F7&w)QD
z{#>F>aEo@q%ow{zbQDuw(OFDYi7vs1Kfhoe4Kaov0K<0+)uQKOW2t^UCDd$^@2{Lc
zY7=VTw#2HK=<q>w)T#dBCNYprk^}Ng`oTelrDxC(<0YyyGntNGfLw=wqa@_B_T-?S
zxR6Yf;JXr^7?+a_D!B+2#IqN~Y(n*n5Ev>-8ODrM4|`1_9&(s*R@IrvW;5|DfR)sT
zc1Jw=DDmsYA3Kpth&M<d??&kZnZw16^PD9<$AZrLr#+A^T%1k~3pkY()-dOpg8UQs
zOJJk2=>+#fI=z+Y&=%@5PIeBQAa2M`$S^K$^Z|90k4x`?=hADK>DtZSmi45b^~6(|
zvW$-PI7_mG1<2A(TAo7hKPk=@dRmge+(o9^={0D-sHJLs4n2`{M_Gd&RMo#t_1Lns
z!Yov#!ui15qYY#BazGt%L+WRnjq<ck75a$WN~>3KRs>7Vk#hk>5c05nQd~W>XW)oz
zo6+88^;YNun<pL!MXTMxYA@~^)NZU+wyUi63iWI<LM!qsaEYArwzCXv5tv{hOW1$~
zlrz>&&!gGiWFA8$8a)NtN-Ityb+egtVXW>?iYtJzk|<yS=*u%K(FT;lh{m+shd)0z
z<s5heY=&@{G>F_|Q}%&z_87IOU@t%_SBddR&*LR<T0$137m=K@4iG1aTBXx?l3t*Q
z0id&#A`lm?m$p-ykctMCXdkJ*Eb2_f4NfPWqTK3IuFmwNVR~T(zhh0Pwl_4eZ6~dT
zAhum+Y-gwini$n#jD_Z3wP_=f>ghorjF>(z(Oy$6YyeeE*lQi6u4v<-w%L#+R(WZ7
zG<G&Ti3Y0LvlFZ{noy-pL=eFU*E9)BQ!v%AQ3e>0EsfXmeMn@2Y~eD<R%q%bJQjLT
zJ+xfCd&XX9-9pb{V1~S}L-BPij48hUJAr$??MsgBOTO)ehUR=jztYfuC#W>+CYV-e
zAD|+wg-`^K-h$hgceg9<_Jy%~?taMg+EBh`t5UOd@fD?J=Ux6@&7LLCo~4>S5b(84
z^XKx-I~DxD?$v{E>jJ;9GvBdS>DYUBOzAkf96rWyW1+tBM&^2EA^X$mkEfOTooLZr
z2sY(|Ta@6I#hst-zqMZpQnx(Fy)k`#dO=WvTiJ7CCw_cig`$Kx0gz75p2kn!6Hz=7
zmgr!Jwa!4S-&v~ZS@Ss>2#k8ys=446gMMM>PxpVkU-4|)fL~u(s_6oL4N?&|uyIp|
z-jdcEsyk43qxE_#QXp(1LLb0zT?-Ko&kpPKcsezEip};`rC}=-BqZIcf$5i)YC6^e
z&N>u-&&hC)>eNNHta^3LF$*0?9w`U2#H5%2hT&{;NNhk|28qqnmYlgFB<3y}!WZ=x
z16YV5H1#~jgev5YnFao~Nf%qMp=Z<9Y1_0Nbr=GytPVbB&DnJO80#CTL2C$|GFnjP
z>^kkV15}2PDWh`epq|y{#7LchQ|94c{T~F_E6iX_QM>dyia^7gNF}pU3~A}R6vZj}
z9!0;0DC*MA`FYA1L8O|&E2M*z;@?pDODca^bu(}@KAD}E%z}BaUzvEeaiBHy&w%w*
z=(i4Z5&!=cO32p`UE_d`tLtwxUvHkDUJmrn+Gfl%FBGclZbYv~=g)og-J9QC?EJLv
zR^MIA&pki$EQODLzI`sbTs=H%Cq-Z;LCV1oW`8h$b+K*ng=ODhQ9-~lOI}an5I(Vx
zSgzkP<1W;OZk)V+a>2b^+c)c+vCToPsGIR>N`zlJjJ`-mC^||J$p_Vb<mln&j~soG
z49b|jQP_vF5{;GV52`ggIgt{jXDNf&7c$8BrrI>K5Ssz%IK6!iQMo#Ck}@eu(TlGT
zkvdVuHFp=nZH3;!!uFv;R}`v6p`kn9FrYLHJZd<~TU|`apagNH;EJ6k9bB++#mSN`
zuBLv)&5|C<^|B-mXXA>GCH-8mec^~wzhx!Bp1~7}ib)N7uH}N^dEt6$rH(z;lcEx2
z$q+TjI<eA7N=p;V9X7eF^$%-8H}+lMw_-&a9Sb$z$X(B^*y+i^xqR=3XT#q(@uaCY
zG;G>jM$q^E>V0IDt2bngf<4Mpv`1Nrb|?!J7|kMOg&JdnMasn#6gw0YJ5(G;B>(`m
zr*gh)lYHIgwaNR+rAAGptBpDYH<TMUQ*Jysjb2r^LL3oCU?-NCy>D2xY38mnWYCM^
zn$l4OV{De_+=H`lt5<+dHYgq73+qi@IleMatE7m)v;`H?;4#*cih?(0fivFN*1dsM
zP=6x@vIdx~1l^|X8Gjjt0h-ykSTt=f8O6ZkD)D3fqQ6A1r!Y>!GaCYOYd2)!5xInK
zHU#iu6I3Ky&H{jK`-v%Mzit1dxElcsjlO1^^n#oAj{xI_fHqq;WZ@C*QELRa%b~C_
zzHEnH2IVWyMW;?t`n~PaB@p^eu#ScQ4|N%H32^KlW<W1_@EIS+@U7~E!FnVyDJN3r
zV2&hvU!37ZcNtV9Ok9Q+9}5+yECcD(1n_bX71}}(X$B>$;VsBBaYByPZGg=%LP5RH
z!mvY|QOY1vJx7Nb^Nv41eCj)l*{U^!s6nP(q7>~0!E$Q>jO@kh0a>HIBwmeQCL5<l
ztpRSQF;vYkWb_nJJT)QFV#2PFmg5;*g~ZWe)tAgbUdEYao-)-Cz)rTTFUFgwQxn3I
zG>{UeW{iPN9z)jztTjAMC_@*$<xo0Yl)U8}$3WBn9))DwEHX4*wGK_U<(vAIrhdYz
zp|9$~^Di&Fc4yae-BUBJ2f>#4%M0JXlU)w(oAIo9I8V*o(EL-2mizAh2cfQfs9y>7
z&p!7RCATY~?K97P)etR&!uik^CA0;wFJHe+soz#;Xw5h5QW|!##15rlN1?9iM*Mob
z5Ns=gMBU;_##A82wV+3{r>-?}wJoI@TRQVCLrTj~A=s?JX9h6IRC{jjX<*Y@!ln*j
z(@4+4<$TW`rDxCG%lW5YRGxnEe(PBpVfew8!Gfnc?`csyEepr;ox7CIU2A4j6eWM*
z=+XpM2@W|VQBDf5Cytb#OiDBEd=Cj2Y0cMabD9wr6TC5$8DUMCI`ET<G&!?=p1;MU
zi%X5$yiPk!rj>HJQEZ&JoK90#A1QbnLV53~)Tjy4%QPG{Nya3=^7})Sl72wZA5e4+
zQPCb;B9q=m?s|K$h6tM~?aLx4d_-m5LIh9<(|PTZyQvWDoH<?yNAlrqN_g9y=H>9y
zv!@?+Z_Rh_Rl4`y-T(QP<?gdkduC40@5avfsOn}F=@^YYD^{+dXO%NU`SHTw+R>A5
ze_CmO`ZMq6SC-pfRUEA|-nlDO!g15F(7YTPobeWX;rR<ozV0PQw}uMM!<ywW>fHbj
zRc~<=huM8q2@{sUp!5dDAxRWXP;`i*;}mTKgIUU?=-=T_{tyv?K?m2jjbI?m%kF+4
zKY#Oz6~Dk&I)by)Bfwt~z&YvBMSzXyF=T)=FQtBuueJ6V7!Bz%j7Com4*0F_df!5=
zQr)%Uq%0R;+sx$qx!K(OOCP;<^R*>kRB>+o#*KH{nP7bu(N$PLoEmRS3Nl-MwRYW2
zpLU}Rm5x!#8iSRgnD~XOFv}-L;<)D_>xn#q>WrWZ-_;{HAmyM?;Bhf&`Ve++Tt^ZV
z1PB!El>h>RVm1a1ZEsh_oUnkqD!~9i#)|o)7F=&yVjc!U1Dlq1S1v7hM6cjt_I2+j
z6x!QOS{J=kcGM+Qy={$E!4~fm{i3yUO&aW^@nS3i(aJ_{5&Y<VH3OkFIL6huo-SU_
zlB)tUspDXiU{R|D4VP*HikZGuH{G)7rgA2J-UI0fmV*W2c*H>%=lgTSAMo#(-?6-7
zeaE)$N*0>%?}AS&Y1}`u0t1mi-w=LeL4E}@;g4*ymP$tLx6YIh<}7pvofk?+X04Sr
z4st6XOJ;uWJ%P*Pi-yUt)Ukg`O?vyE6pR0mpM}9R?$&FgYwVH{A2nArb5_EqdW{z=
z;88h(nkpbt>0k-p8s#H;UrN7HUkOiE?h|r5OZ0jQqcH*TYFF(REw>z{W_%^{uik$7
z`&si9UWOM|mQ1HC{K%Z`*VAaT!dlH(W~?wH*l>icZ#!7~!1qA+v|AC#PJ=dr+7n9~
zbBugCKP+UQ)Kh{(aE_TOk5FGvlr%Jj-*HZRvU~IvD%Xu%x=Y;<*5Q3)O|NnlXR_=)
zFuWQdy!&P{gG+qvxXV+2eKwUOml*ggQFa94I3kay#mM=|Yy>Vq5zV87JO?u4*^>9b
zK;+y7<Y}%?ld=fMg7p<q`S1N!d*6%fkNo~L)s})+Pb7OGk%@ed8M`%q5v?_iY9MkZ
zCBmQ{!6jZM0zx>)Op1~0ctl9bBa^H+DjF3Na1;>-;5NY!Jlvoz!8hlYsiZp?oQvj?
zEP13St<pjHz;XjOjkD%i(=0!WOEMs;;y%^Tk435g#&2=ZQ+iQa1L=%{7$j>@CKMLA
zhM?VqJNBg#>GMM3z*J8;4>s`lz`hiGlv45mBs9W<;IlIA&);0*0LKAw3(ZmbKiK@W
z(;BW~Vi@-j+FaqrnssG_I`B3{R}e*8OKK7>MTzU{4mQpUqdIFhbPTnsxO&Ciq1rDb
zWTsTjp)xh_TPvj6uu;-5iP7Ly*JX0E(k%TXy&>`8n3R;D=17UmCAB7-6v>lJDA%z(
zpn(^NMk3J}WV)Z~DPKh?Lir4GbWp`^88<FPWlD958A02}s!f{=shx;gzr|;YX=&11
zL~0?8Eb7qou0N!<*krQRWV6E-m)MV{a*;@a%Jsd22M?BOTy+(f7Ji_d{3nS17cMT!
zRjr4Ca6S-K0?~Y6hZ5K^V=DyP^T9zSI5-2-zmWu3^Mvy5ZpGcb<lg>QZ$e#Js_lV}
zvYQzJ8}l{2N=@(L<^15Y%HXs2YMx!;9NwxGlR41)jg9Nueru>u+nBHIQ)>H+#H!WY
zSH0>4-4f_w^J^w+e<93nP8tf0k$hvX(%4Iu{jc1?A0NoOd+xb=n4;8u&(nQ--zNw1
zy~pnL9{VaXRPfj5{cVcBjV0O@e>?5c#>jkVp?N7dxaPFBRm~jvg{K*VZyQ{WY@0c9
z-_wjywQRfBeC+;?V@q(m*?pK*-l=#x|IuVc_hG$kh91XmBLdDnF2(UA(@5t#KO9)>
zyxqH2&ux2!FL=ZA7neNI#i4xfex-LmylS>VbGz^8gIA3wL>=$G=k9(GYF)79Bioh8
z_Pe(H?vu*yllMcXW{$iEUA22Tw1rX{tbK>pxDQcfFC3C?-|mHTmXr2_Fv?2{_yG&r
zjUS1smQ9Fs?--x9#SQR0rEBb`>7W+bnDO=n+D62&;4ecrTM@+<S!h`H^)5MjS>J~>
z-D`&0nng5Ht_TvlBhj}ipc=q4#9Gh=?nUa^h9EWMEN{VFHEqoVHc>1Mf1zosz)jmS
zRZxC44+UI{kQAM^=782&s@#OQ*-do?P=}UvU7)Ogx*$Koy^fpkX}gKb*`csjxLkQR
zV5u}-x`x~k<f@XF0@Wm#KQyk9&e9z;P5*|#S}e|8@jAzmvqEfGhS?1YW5z()24lt@
z3k^s52}O$(k*JaWjG~Vz`csNNqKL4B^cRS9lMvgT=PB1%<x<6}m2p4mAl}R6MxpZS
znA&wLs;G6JqpkHhiZKSI9UFGuec>hFmO`Zey7ytEGauQhM0Vc!&T{1GIWMjzXOBOu
z=~=4TvE<o-xB%U}RS6%OIb8_$E}l?=yJn6*sB4-(^3lngCl_n;(LG9Z&)uCrKk%~y
zzpOhkbM%Yu-h#iO;BPMYL#uX6PZd+)Z|+_(bM+^A*p~d^AAdjZ+j`Hp^+8Q{p?&b~
ztBU^^&UdZmH3$9?j(oJ|=AMPu?;Kxl+7I_V=<{ztgI{ul*?CayMStscN7>L={sD`2
z19$ua|EK)4sdON)%ydvT1i^IMaN^YO+osJW=TiL`;r5L`!p-ro9|6Wh3v?F<7Y^%X
zPU7DsSD6Yoh;Ln}oL}+&(5kn7g`c)dCt*#tv%}@cy7eyS9D+4#92xzfOgnS7i#RG9
zgWhwvuWrG{GUaR;3%0&ZJF+-dPB>23bcD-uIm^Ys#yWtX?Rvj>?%iuS6OQF;8p@t_
zO}pXd<i;HEY!0jyj}crm^ftgUtd%q@!DvGQMb6CX+nFt4c<4}i9cbwg=7uT4xH)xH
z(x9fD`si{VeU^BR=Q8Ik+&`fQ-;|I(^-AvnjpCYVj(^v_Ne}5=U8#@XzJ7Xd^%gc=
z3uBM)*op5xi_uuXkQ~ENE8IBQJuuuvm@`WfD{16i((*2r=M|k^E@^o?@uNDKyC*A-
z4Nk>bw!P@6%v@)Vk$DI1^W&GrxPUv-<Or_ur)r9xGLU-%$;{>Ws3g9jde^z$Gw&O?
z&5)~ev`V!INw|jl$$L{Mxx>qF;l#HQgvV4L`Tc87eauT=nnJEbn^zj8_vVBksCG%5
zNZ|_%)d8$1({~wC8&UjgipWg~_B|$}=`g7EK$jzz^akZPJ_4A4Zlt;=@C^fO`m9f0
z_NhRzQ!)@Fx~S@z+K^ON>AL~d$_ld<RToP$Z&lS@96l@WkT1YnHV#9Y7aak@ECo%C
z@KCG8j}>IYSw_PP<*y{-=zodm8ux3Hz1_9sXn`w7uxWm0zG<7%wC%I5rKWAmO~;q(
zpPO+%Xz%*7t{Lxxj;)HPb>_%if5F$eXi<E9V9f^9Si)mVd%k5*X&KD7Jgu}m{h4LC
z<>-?C=$s1?*l|PW!U-ibIA?tj=~=Wc{^0(>mzE<h&v_qqZO?ZNDP2R$UAyldy4SV;
z`svU1FTL=ha`-HmeW2x$4bi-~@cMoK4#)!yOD=4^@9#(Z|NY66ivNi@*Zj%FP@$#;
zt}r!Q3$<bLjKLN2!pS?0xQm#xJgf=c*nfThLhyb~bWyn5s|*|k)dP6!?7UNZzXk|6
zTnKgG-a8bXvlb#<`N$3>vSZHsg}<3vzH|J(fBzT$x|IfQ=oG)w0*9Xp)qNG*cBl5v
z?=J@r&shpJ!MS~3lsAEgQWG1dpx6uz(9@9jG%KFwdEu9yj+L`K*V(%Q`Ri}i#nvs;
z@Nl$NI!s#=LZs-8z;qwt@XWrfT9|Jt0X)@))rYII=0R36IWuIz0K_3GMIuczL;o8}
z{RfJUQ?$_*{Vruv<e)92B0;w3MlRS;7&!E6_W^4ZOI;sXu~W)H#%3p_TwHV8LiJA@
zK5n@A{MU@?pozEkE!KS+z7<~Kki6UV^S+<;tx^)E{e1`dLjMzw++l08VVFi5b=Nj9
zR{}ddIk?vCcaA76yH}j_=qh>^Fo&oWDoaLg=3cNA>Q$V*t6s|6_oTIX;rQZ9cXr&h
zGLMlRN0k1fO6Rc^4sSl+@wxohyT75N2Ki~QBlt6dE;?5U6qH+@HLyS)*JCEZ@}Vha
z7OaBpLwHfb5)IGlQ46y*J7H_K!Na<uO`5!}E14W&sPe#C>twd(`b|q$RW8juwVAzG
z@NYt)z1^gBky)Z)YYxEHOg`Qf`?y)(1<g`z5o*X<F4T%%u?m*ziglD(s@<??>z3*|
zl=L%8bpWC&sOldK92=Jov-{;!ry*$m5^E&=ONu_F=nh5y3K8%%i8bvLg=Z-B0Y!!;
zZ&-dvU=cK?<FFdR(*|D(Ac+50TQz+uQOQ<Ko@cNN8p;@R!nUA&7D^ur<;p${%9%<w
z>XL66YH=9l3{^zOZ<V|rr0>G(t%Bc!6b9n->vffWE1@K`O2UYR%rj-q&E`tBWV9D4
z5|{ntEG7Fp#%5q7e0o)!iFK{`N_J*_bmi~MT#_sHK}Vt}W6aVf;|1c~7*MKK&x6l{
zby&4B!x{FNv7b~sE=K5U1L-<Q*Eu8nb7V+2C}QR!W;kLzwUhGx3q{0VGzITZD78S*
zf2D|!tn?v8JrqSKqQ0npd~AuYAPJvopFv80j_jyyqrqx}nTm7`h9Js~RQmO6*~v1j
zkpGr={ud|(o8tqASN|xg@EAkY!}>6pjvf|GM-S@SAO&xqx?BHQaJla}SgGpi4&Jrq
zC^N^v?Jn<&-t$EZtsNgt-JHs|4k@iebCwT0U$yo#8&#K5+r<*yN^N(ct^Yw&&!X*)
zbGd0R%t?`IB84?6ymh&$cjm~ur@o2|-m&Gk9a6R(T8=zJ_8*cY-oX1OW>4fjLyBhz
zNW<y<g`-bn`Am=Q!#LNehQt&YV<0HVtUUPL7%C};rSGqF%a2K0X(oh!iYm(OK1}JK
zYA-6{<;$?a9`s9E4cZgT;`9F0>=b5A@kJM-%f6jUj-6~Qznj%(0JUsxw_;9E#!)22
zMIQ&x#-VRCHf`ro)dur}Y;3f0Q$u5g5f%*&U(m?tK(K56hUSl4H(do!-Q3ls_My98
zDEaKp-d2W+n3-eUYFSX6t=56Zjg6~h*TQ;{AV7e_1RNYRYn@5@Z^&UM5u%2v10%?Q
zQJEb+nHs}s(tvmseP2C^&oi}`Q*9LnyPo9lXw0ps17mi;-!&iTRs!Ad0?&P%yYu>T
z;4tjJhC8Z6e6R9wC-A1+fR`h~RB<?XWrRw;V-k#VV|)f*`j(^$O~FOGQOrn`Z)$iG
zPdSP#Zvd*DSH6^_&r<2TVo`?c2aQX+BVjC!;H5r?G!mLa`mlQ495N6()mmZV$~BpP
zplKUI9pFfTcDR<qIrh`1ZatOnJ#nx1#Qcey`<Bj}TeF(0T{AY!D{RrecE#7eu&c~6
zD*Z?5PxS^&t=3OyY981-0JNd!Np4VAbmL&hxrC{giH>%~?*y#>6A@DMFK9&n8wmjG
zUt277<f-8eVf(LG;j8k<>uRwrSsGVD+%x<U{?}Zy)wM9SLO*wRd`&+q2YBm~C1Cwz
z30OZ_2CQ9Wz#8c?U`<bDz?vR60Bg$H2&^eDWQD75FwC5Ltw^I%4SmmB6lZwVPFYn}
zYu_f|8*g;*jiknjX+ok;tM+(Y7$3psn!b^7{DTAda(O%>4<ycyu=$092|j|)j*q8g
z%~;CR9H#wv@J}RUWU!Sqc9%qaNcv}p)GG2_ppS1fPe1l8i{{eZ#NN=^Os3e^(F5fA
zASK|rElY$AHNS^}qGzs)s-zvE`dL9-I%cILt~EtL6XXPribcQ+@J}L0Rg}}ks2OsI
z>z^nW@9G9hUuJ8cOm{wpmf3XadP;LDY<nCj`==GyN89W}AMIQ1-p7^L2rC%c=y^;D
z_K|+^-(Jvs;2&3i$=;*=iwoK}Mmru;zjlR4_7V2)PB4i`7t<Ox3en8=S1PVew8muy
ziYArGY!VxWnS#j1qk36ES$t!X{_zfGT~}SqRSExkf+$PPAd*^$(yA3@TrEPmZ4|Xr
z)Im`vMTZeF;XrHtIpuUybdn;bt~1!jj{P4|-cuCqMWj0RX)Nb}^gr+jcEHK2h*r!z
z&p+D6@yGeU<2t|O!hg$ozT|4Z<o5nOx8qB0|KD(ff5SchCD-vKx9>}C_ctaBZ+gTb
z`r1WhzT}R5$sPR0WadrZI1qj9;P`>R=eB)gvLlB>^r)J1)y=)S>}<JaTeG$Efw}4%
z4c8miI3(9j@GtUw{hV~;>h-H@9HrMTnvU>%&wTqw(VNjVj?#~YO`IwCu&%yP7c4~J
zt=ag<X|1=dne8Uin*S9O-#oYd#-8hYRyj(q29UkNve&YfXL-JFzWSqvn+*%6?ri;<
Jqh~fL{}+y`#bW>f

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/siglip.cpython-312.pyc b/model_executor/models/__pycache__/siglip.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..12ae8bd636763209dcc5d011c243091034f1a84c
GIT binary patch
literal 48402
zcmdVD3v?XUc_vuZFZ2uO#=G%uJV}rMNRZ(BErJlApd?a?1WRrM=mObfHvm;P_&`95
zapW;*%MrPm3_(W@p~N|cY)uT$<izys&PK^3C(35dY?r`nw`-^|9dl2{vvabLK&=wb
zoZbEYd+X8NERb?0IcKIw+`e_|-dnfs<A2}({zY-ISHKl_d@c50-x7qM(v5z3w8+Xg
z9D;CDcwUGKLqb%H+T!Anh+li$maq@m6OJK=Na>EaGvOL?vA8o{lyDEZ6P_UtySK%?
zLtf-@#k~pNkdLJm#r=umq2ffzP)Q;%6i5Vzf{D_hQufRpFH4jUm9w}fUXiFAs$_9*
zyed&WRL$bPcqmabRKw!_cx|F?s4h`IRL|~<;|+<%p+*)ji8m#}L*Yd8P;;VXsD-5k
z;;o6cp|(W(P&>O1#yb*ghSsonX?$&>bEuQW%i`-2>xb4Sx`w*geR;e)(KFP;;uY}?
ziH$=W6TL&diA_VB5}SuMC;Eo^*t5#`mc-Vft%+?z+Y;M{wzIUV_>RQRp`D3cL%R~Y
zhju6S4DCtm9ooyDRmb-w_7Cl6@lgCg;;EshSiB~FFwsBMpExvh2=}$oy7)li>7l0+
zhldU)jtm`PY4!1=iDN^@SiB*AJaJ;^L}GAgkli=NPbQujdM5Gg(6fo>hMr5D8akCY
zJ#<<WY{Jt*wCQyr8kYLMYv&_9^nA1#|5~E0Z`p@lkbX&eQF?C7R)dGqOVPI7_>Hzp
zFGf3%>WHp+-7z%8YFUd~I;CAkEuUkl>yWx$+An>M${WvKX3x6ttXtYy@az@#tOw6F
zNY6;6dF4LOo^8alUdeavf937X4UIQ^f#uwUoSUDJbC~7qL(VNv$T`AtZbi;*PslmS
za&AY?9Z$#^WjS{u=dLH@lvvK)$hqeUImcMey~w%m2|3TOocodUz!P$wWjUWh&Vx_L
z8M6t}v1tEyMLsUL>p6EfcZ_&kdPVx2^zyrh^buqA51{_1t?QQ#OGm!z<Ym9BRj2<B
zoxg1BJUspKk;G(NN=W0W;Z$s5JUlTLJ{3C?k4?T1OXB{-L{y50W8*1lJSs)QsfqB2
z6rLE5Uk*<trKtB}EOj<E9v%)~V7bHb;qfz5!)K&$g39&$jNUoeX;a-tQj$D85|`AX
z6T_2}vGFsVq8b<-9z82XBa`yPq$H;<BcJEM`1k}`B1P4r<1s1|M@HNDc&AhKKQ){h
zJv$%`r>0~{_48I9oERUAolyh)?iqPvR7xf%WHrbWPD__kT9&fh&*EvQy6nVMJQX`E
z4Mz{8@Qu_3NUb<DK8g>JPvS#!)4eam;|Zf|@TuXX)IXI-Ts}ET1(WyyS2T7Z7M0Yt
zGg2yo3elDb>x;<bFg_+O#UmFd<ajiaj7>{;lb7-hkESAH<DGW3;^0JlDlz_ymi2gS
zTpE_u(r1soP?+@G#Krt1yt|}7mYk$MdS+rGF3GBk|I$}JJ2i}Nn`T37w7=?wiP7N^
zy_!Rb5h)s_k+G?jQE6-#9TT}I#m<~fMdA~~=nb_dF?@MMipWx8crtSSLL@ml9G4>F
z!wLG5@)OS=KYirH$^HY!BhMXr`pBu%&%K0E;~k7?G#u|AP7U|RMpJ4f>vWbj5R>9j
zZG?hm@{#e$sZ=sI<FSjw@|h&2Q6iaJ=kw1W>8Co;dF4kEn0dw&;8{H^@f1264Wywq
zTEd>Afz>pM<|CuLT1F4FTXf5j@v#ZD4EKr2)DbL(OQ+Ew35_h}Y0pWM@!?Unl2kuW
zdVVsBsf@m<GG+?@u&1VCadas4+7T=*IUz-3$a$L07n(+X9zBKikr-Be+TGdVN$F<<
zB510ZO*TdjJ#%Vma&kgWCC#U5v7W{z0p3}mkM1Pq3BD|nx;!c2rKJa^QWL+#Mm%|(
zkGP+Y_@pe2#V(<<N;y=}mIv#SI-aDh%TrQZ8cm%_$@rWzm(|9{JVYk7k*5FnR3egO
z<p2ygAc>?V&Z9HbMp;Tu#4kvcJT)ATNPJyJCZ<v}K}I#0#(vz|&C1J&+!Q1Ml$J1L
z1MMXa*(FDmV`FF3PS{v-Nk!*^T8W$=KweMO5p_mg(W38ycB4zf<Ibp?N?!JKdetfp
zO!$n8U6SH_T&EYjVO;$&z*B;r$(`(;(z?SV<2%C)goSDChu4Mi-6N7r5I06MH<^=n
zbZ2<bcshD^czj%nC&Ozucjn|dyEA;44HnfP0hID;a&lbU8UCeMG<DV@gX*88W=Adz
z$ET#E>Yyp0+D68IM)Zs-o>j$*sspokco1Lfj<7`@iKyNPL9;2W`iSa}L|(<1(DKJ!
zQ6v(b7>z{aBB~$|iJ;8{$*C8R>Y`L<YC;}8tGf7fmNy{n9bpBb@bkkPQi;h8ld;L}
z6kAr^m!`Ju*nWPSv>_fF*)VxIb#`KW!v#R!4R}A=EnSjEF<WJRo7|9OIICy!vb+b?
zvEXS$lA95HS@_82a=Mp;g0Jj)kK%1!ax`bX<<}40JbvT&+v^viiw72ycMdMK>`zzh
zSG))AIu6Ju^jcKM*i<~OI!EKf$t2dD<HVr@gR1?&@#Cuf;PF#xP2`!ACyyT)d^&Ra
zrDqOBPM?eb@EtgP=;@cx#X0Lsb;%MC*Z8Q0;!(dK5Nf6lUl~MjQ}75W{PJr?AR_LR
z&?=;CdRm(x2Sp*JA#{+G;*9W{wr|?LtJN75zGS;7T(Z9;TogNPgVVbPC&FVKUxxVt
z!)Sz)+Tskyl3_ps;FxH5Y(fs_wsvQ@(=MOJdsX)_>GC0221@n5Ky!t~J4N|<JWSGi
z!!k8qZH>@U)>g0fQf*a7^f$^w$oV-cco4x=VcF$!R@@7$U8q+AThs2Xe|yhY{;}Xd
zT1jZxCI%X^4V~%wu4TJe+_Pf02fWKJAy~0oWcO4o+mY?(Nm}z?a{Gj@)wJ33fC0@n
zx>n){OkfZdUl)e#Q5!->)Gj&4Y*7b@aaYtS6-jO^eb+SRFJJI@R)lBXD5ZPw=af8S
zuBaDjKE(Za?nAtorQ4!@#7i!_I*Zi`4jl4PN8Y&8n6q);&ssMloWpP7b&hfrTqzAC
zfi2L+{FLyHIEZ;^A5C3Si)jqbjzvZpRU{LC`i`hNF!p0PV<mq9>C-J%t?bFG;4Jbb
zs}WokvVrn9FI~Ho3A8JL_HV_P0-MwB&1{wAeHb;5eOMnNH-(fj+3|@MpQF>F=EumN
zM?u0xymdK<hP7HA#^an%QLA%iosJx0z|_-StA3s~M{{$Zr&_BJTovvG!t)iG=FLj;
z=B4H>OKe`U?^Ipq83~g2y|fg4_*>~ma1)&2Dnn^3VPw-Tb128em@p%LOZ+wQl)%5=
zE=Q0{4Qit?sgt!by{pqEkKjihLy)A3!+Z(KG+fi|tA01;g;CKsm2E^oBfEAs#m9E7
z5?K3glM*<1X8=LkeUO8}7m#l-@3ZNxY?x_=-DHA|7#iPcA5@(Tm&qIPKt4`^<%lIY
znF4&DNJQeXL@bqj%!pa!eic<G{Rr>@!Roov*_pJvj*pX%wIFhlFrVt@H)k25G`@k_
zPY{BA!~cfJO&U03vLZpd^a*;!j^|XW;5z3hNWkqm9rolry5g8|T(un)z9gn}(U34>
zKS#q^aLtG_ws*zvYVS%F>yKv~=SuXr`KvD+JwKp<ZSWnNOi)iwAn0_<62;kk@^jqD
zp@UjX0AG@IV6hX~)C!t$M33=q<5U;}+YI1$I{DNys#nV`R+B8Fsw6E9B7C&TnZ)gM
z=c<#l@STJRlLQrkCHz8DYo>9h(ztV}aW{tfeyIMo`<6Qs>Q+MCnb0mJv}?9F8>mkQ
z)~4NS5k3fXXZ=kXf1l#-%hs;}7Fl)*#amVcdvVD_w@|!su{g8wsIu|slK<F>&lU78
z3oeiMG0^M_Xvh<%h&UrY4#r&)uh_2GP2@deo3Wb%jm2XlM%l@yt&2}sAYmFkwS<O+
z4++tZayt?`9egaPr{oJ1Tttwh32F4Y+MHhyiz0Ov6kHPgCZ`LM(_2>^6Z3@@<-S5M
z>qUSC*w~UgJlUGAOwBH(X4g{9p0s<<tn<3-ULZ6#weZ5-KwsM3_n3a>WYFW6BE(?A
z74#)?Szwg><pX#+fhGcCUdE41a}ZrRf*;k-=}Zkw6l-_9+mlqWK6Ck+NDN=fTN96&
z%7t0qKxN5I2+&g<>oOh3m5$>}9fOLyb=H49aX(O=2@v4ThT0bQEZc=(=ZavXDQVND
zWM@D=gwpZ=1w_<xOvomNYhvUa_$>zdWg2?b4q{8SLtrDHr>ykJY`X9sxI(wbDPROH
z^|wsy5(~~Ck|fOVy6~}0boPDh5}n(Y5%h}-RVxDh(p~*R^<w$r=$-!WpIdBFIuFp3
z`ej$ClgP8Gn&l#jxrOT5We>%?g130ZN3jmObIalmtU~9OWv|oeogaND;D<MbS}}@0
z<I>?|0Xr8JB`|YDxe<LFwMh;LRPCU>Tpl6n1})|+$l+r7i?sX>qVG`3J>~{==N$4}
zc655w5MKjKmXpV!s~+H|(TS<?R8l512pMJm#V`nU{7vDq2-vIg?$vShui{BAj^-;l
zN-`rzhc2b2*R1wtMv0jje}gJ=A|Qla%DQY&ElNtSM&i=A>P0IjxD0BP8lzwMR*vKD
zAOZkpv%+ztmeBDB@RT*4qgNMPI&NeO(s{)-W0y;T(=4!PRMhd*I9T#4MZ~w9qqY@X
zGtL>;jAN$gUAxYDGpfQdC=(`-sqX>x3|Oan4Xlw=JrfrsS%&B>+38U20DG!~=s-5@
z)l$Zs@ZMxlEeX6xU_hRwfJRBaM#0x8_+<)a5U2qT0*$H}zd_KIF3$Iq5`^V7V-SdA
zo?iDE##GBYhqst$uBz$gD>q)5-?ngIsj_F*d%t7dw_|U|G9Aw<9nUUxoYEl1Pqyrv
zTX(zXR?kB9-P+#wPR|Cg?usj}pUzaSS1Q+Mt6H+vZP~i^Y;EVVN2uyr5u8;e%l0CI
zDMcDg;bf+_5U|kPkzb?WDg|Gmpp=3p3T{wP06e}#X%zfZ{3VG3eO&<S<}6z%TC^{o
zT68OGcPs-yl-(I6I8nA-BJ4RJe&i{4dheH3EIaXw)>qWcZJxK!ZCA?MmWwFKEmYRe
z9ZWa(rt5o^icO2Bm5Lq9REWSy{X-vO9Bk05^T38qB&|TPCVT~xUY7$&b^rzkm^Rz%
z4t?qlIRP}vqV}lcEfJstG9k%9V1)q*mjn<Yd64SWfCm`CoI5+q<&k_*9uvV5`e%hP
z5iDW=Y@ttbMg3CAW9ty5z?e5$4Dc0<mPn-qc}4cVGL0Q|MFYrJZc%4Ys=&7uNtM)g
z0Jc)(tC|%qi9^+(E6UXxJ|Rt+pvIa`$Q-EUE?I*t{wnJFij7e{h!tK|xL5Dhui8v1
zXV!-P5MOtvjOBjKcFtW`o5{}h3wkX&$hZQ!icv=f^-iS;?viY0WiNu?5RVBWBhX%{
zAmU&~#7mG~cwG=>$Bg*T#G9fhyiw&4E(`zMeo^FW0qO{d=Of8UX*32wV=PL-9$U{w
z)y;@tB&Z%1Bl=4t5Uz3%;Msjf8ka6j%6q4Gt=iK)9F*vl_3VyA_#RL0?J)}f3p6*m
z2EpI{N8xWl_6m+h?@#KtU3X^#)pM6KP1_ax4{U!3QnvC(_1pfAk$S&c+aQ7}|1}ij
z+`rLA)qyspRHqD;jHG%mkgT6;9W)B4M8hs5X~pNsx9I)Uui@~1{$VBgZJu8HS-<Xk
zRMkEN_>TJ(p_@l;9LZFyS1Q&oRdmmK?$tD`(8oQfZ=UbWv}{#cw%)DZw&Fw*(rdl5
zB_R2OjcIoS$8!)_y8$n!rZ6a~3p^|&@M@6;LDi~UzLwZY&Zev7T2C+$q?RbZjW&(y
zxQwPfO-uUbl`#arA!53Va`B8!_L-s!6MKCLyqW9=v+lSgCT*e+6Mh%CGir~CzbjsG
zm~y&nt{LI$pkIg>ov{O>Ip1~YYB)?~=iu}V@5%7+=%_TAN`{FR=w@m)2;x|;^Sc<+
zgLH)<N)3-pq|P>nkC3Q1_hC384UZ?olMqirmLDD-=jFph>eHQs-nz_Q5awOiqm~Uv
zp@7n6I_sw704C9IqYLEUq2OB-{4NF5VIY}b!jI|%9}X>$6AHZe<<26GKvyfIdLj`f
zGmS)&)X6}YxcG{Z-$BB3)9SN{z2RRWQ}PS~Ornp<1b^9$Gxy5smu<Gv+7-K_yaWrR
zxa1?h;4fcx*;`Ap<sBcCcP+Fm+i`P0*fuYH<U}m(Z+hqzf|b`UUb~VlugO-_Wm|V-
z!<(~}4a+_uh?$tj|EWISNsKyU(+*n5MADcuXb!vBoFQ~cbRSr^0frcL{+M8x{4NDX
zPZsdQY6HpX@Gh>ejL;Xyq-11@sf?1-+g9(K#}-uaQr6!9ASL*0wt`d--o>ZVC^cNa
zXd$o<*^fxBv@T`jvJ!BZ3*ucv^o(h3=VTgW!vvE_R33$5P7dQnEgB)cq!iV-FPQ)Y
z>zjO5tCG=aSi@ta7EEfQiRlfG=?o&j3Jd%cwI}NkToq{SEABRL%{1>-n)lwhxYYdg
z-N50r`!MgAVknYKn2|?28=dn-RP+_$E8<t2H-&4KlG?9==P+0Qm~GZMD}oRpIkO*d
zL5DX&)NZ0dOC*Rl(KX`$ywHZ=3?V<~pz5Z12rzvq4-L``EXUu<dkB8Rjs`ld32?J{
z2B}Z-3ZrQ#u3a;RX!(lmn#)R<bq=7d@B(Y$Elk6Q*v|PMO~tIS@zg8!YmPJGjC~sI
zFlUfFiKm@Ks)q?LX!*%)NRcm5K$wnmwFVymQ1k~#Rb32lCRHy-TO=t_g9eMBsTAdT
zs(`J{5yTAGboHu+%>(pS*;M9E4?JP^X#hi8xh7&SsOMvP8@&?X48SK-xkjm6vru%m
zw|}Yf(Ck3ArYTd?qtx^)Tw1ExK6~_jQ|s-^w}AHdC{25^^&Oe|E~UQf&d$uP<I1k%
zkQ0RWLQW6{d;{+-RJNweThkp|mGZ4=|5i>K69t4-=!Vd5I37z~R$W}kq55*Z4iIY|
z`8d75j$)k%0P2x9)#>6e-h^boPdWY<3g!_ciCFx?7Xa5af}xzP-~0}l?*4`P?>|w!
zPa*g@ll;{-W@@^Wnl8`;jv~*tZ;gHm9%kFa3Zb|$TNA!l-I=N0pj2;Is_xC!uYXts
zjIeCa1L&N(3l(xYH1YXI&r^(e9@P<#L3qMg9a>j1Equ9^f@TT`X~`W3RL2M;r}FR7
zJuL+W;^coxu@(x}Q}9O!)M5<>j!GacBkzdvcaX}|7revdU#F}TP-RKjqzQlfx{!5N
zEZf}9#(De40)AHPf~%4xEH?_f_lwKEM({x;!iLQs2N1g-EWaL|+k7K-Be3kGCoZ83
zTolFJLi5@M`@#zgJ|*0@?4cyD(AYkIYN2EPb4o++V!zU`U9YaZeLkg>tzV`(p(^#(
zeo{)Y{bG@`@_uD#*@<7&UEZ-=M6rUpDJie+WgjK^1#ihpF~!Q9&LiUe@}^}cMNm<0
z(~4M{Tkw`%FHcvkPnWJ&JY6dumReGcZ!BwHcH+0N7$v!dQ1`NjVqgtRX5)&d?o%Ib
z`68gc9mSt<(Uhf2)7a?TAqkBj7P3PrXor%Il!Bxnw1Z!CA`Yto7Iz`;(&D5XEV}IO
z^vF@vXNuhOc`6&8(I0{Hm9+?-Bu9>l)8LN)4Q+!zqk^D*D+!b^%bv&?h&V{(b0&3G
z$E9&(VzT}`T*_eNbO&F1IchW}S1JUGPE5RH2=%Zv7p%wxI+Z}@QegeUt4d&F+P#r=
zW*+823I0tzh^)#b(gze=x{k}H7Hhf#O<PIyUZJ*#!Tf2>BCYT%OfX-J)~tZ_L;Inq
z%mkX1KyxP0r3AXt?yi4~w#$Ekm#JPpCQKwhjD%dpBoo=2&sX~fGY2&Lg8Xl(4@fkd
z*Vi<6*!($;$dl%ewOm~1s-c4b-k-5eV`Pkx;F$G)N9FpQVq@{|kdQy8{v0W~$g*%W
z9+{uz_@E@scnnH&d#1ThY3^HU-g?K8*?vsfer##`iR(vaz1cv`+>jDjlXkCRA3g}l
z+#wW_2Pk-&f~yoHDPR-;wNs{+6w0F5GNgb+KglDAkSxmO>;>2$xirPNT$*BBE={qZ
z=<J@ilX$9|<lAQ4=3G0Ud??_DHI1$FJYb>=GFHBYm*onZ2%LZpBw-L}KyGVbMG8e7
zQV|4CMNyaJw0h2@)Q%xH#8f`mAz0>Nwh611Cwm3wke3OAd;ltb-E`>%X0VxKI_Bcb
zFi*m5aK|KjCGI$d@8s7tC}6%0EUHf|k+@wUVk~$NmpZ7`i{KYI9QrMCc=fpXiyVZT
z*@YZ_J#PLYhf#AXpr>0IbD?~h{@nb<0@26KOeFoU<-4p>qasLHt(9nv@fE1Uh?`Yg
z*Gvl#f<v?fHTd-0$Xlhy&0pj&+Lj`|hF!=@AiLl~s>Rpo1UG6b(F-6a(K-cJ)RAh|
zlg_p1G4t2@t*Nk{<6N5_Gk@Q8>hC|d#!S^?QI{_2ix$1>*7+V0(z#9#><M6@7K_64
z&=(tz=$3G*pZGT8&UaptVIaq(TdE5*99iHNO+v~6iHQ6@UPQK7$ru@<kz@}xG0rGi
zyg^e=h6+FX|8NZ;)eHGX5=0;jfjcYY1u6*Jx7c_r1rxR<y7irnMWc|HG3LS}k<Dx*
z8cWCqz?7-?RoB6Z@e7-xs-G~e(ar#ek*pLoP4&@ZmIxcXVs@i7Gbz(Jt7S&B%|ZcL
zIzw%gBO_B|V^De=Wp9MdFbVpcQ2lM~Q(cfp4v$CQ;j%u~c20Z}9x>!Fe}x-e4pRsa
zdh`#kC1^_A3mBJs?&51jiaT`IU7M|{pLM+9V|>ecrDi>DO0u=#OznE5mTm%hHxHVc
ziJi%Y8Z)8wN@#tyrr~zut;Q@=`GH%3Y<cy~eK+<&IP=iw3VUZAcir`%K^vNHpS*Q)
zA@#l2-g!-_-}_##QrAz<LfMAqOhdQQ&`o!>_gc1R{lSdCQSmp<JHB1=cFBs}*2-#W
z0_gV?XWaFQyFTl$z2`4|^Z2#na}}8yYVz-I`N6L5@4D;Xm+=oM{(<){F8NPptLvAG
z1W&^!f<x1ls9vM*lT63XHBc|0NAd&)#0oGhy&vH(LJ?VU;iilQDmhC~%I#UNIAIuK
zfJ3xEyR@e+QmLI^3tU-5qDU6A%{Wd0SX-8|lLp}m<+TJO1hk-eCu10z<^>mfYM+5g
z-87!eK&wK(SL`U^urhUt+D!A7CjfE-MChR6?_YApu<O0zo^hWmFZc-DLLuseSl6X1
zA+NYoL|d}U3Ot{qPAj-(+%vY%`c2aS|1<VqBsZBRM&0jva$0B_3K=pve4W+I@KSTn
zZ^NRlGkbByuJ`OJrP$1%QV@+BC@AXFOF=ZgT3^Dr5(;Jw?VoEX=qTKh2pywBYX=vN
z3K1&9-vr$8LbkxJ(`R9=nvh@y93{I|$hC)~!;{!2q9>9CE0~?*N1h3<jZR6lQ$@Qa
z+4<Sw3xKyqZA>r?$+))TAv`r6kDbT9meg6;W4{nPo$L&!&JL%-&<IUjgmnI_wxNY;
zrM)on<U||>?nZr-0XFj8u&ia~v^vxdGb2O1IT=n)!9bf;8cT&o(SGcsnM%@@7;L8r
zpT#x{NjB<ZR_{}Ut~Ar|9<TB2)WnoLDw&4mXH%)k<jxHn&OqKjHPSOWk=QVXeFzXy
zoJTd-KQelD1CY(chLQNh$cCu2Ly|T}$F`1+ZQg-=JGN{Z9@(;GdtcwS;j!Ma;oi+#
zw`|_JX?TOio8gPbljz%oB*VD6^?2{LKBFZ}A<r%SevE-T^Nm|{{cxXr0Cybi7LCM4
zr|>rbL6o0w7r{$mx2-zJ7ELV%az6vSJ^}nKCx7<;0uN6g)@;`0Ft^4DM<=8t(|{yM
zh|Com)Z;lL5ry?K$M5E-CSf@9pU@K3#doo&o~iNVt5cE$v7j?adnsh%aMU7n6T7=g
zcMiPdEKFu!m7!xomc$f>o8fft*wpwajmdDFh!JBJaOH^OLQJ{{S-=P?k(VjBNWlfF
zvs`an#F%nP`9IR*pV4DG2nbc94Um&(N)kHJCckcL5XyOLgyp2|5SU)Ng!~a4zFL7k
z!s)+>01SVKnb&Pm8n<K`cPov%GmQgE<G_2bE;Sy3v0b(*oT=(isygOhRjN8?ec90Z
zOsH20^)5Cmp+4B%`Kso+Kk%(t7+93Pa}r9Jw7=tiNhnj&sFXC$$x2DftUX&=J=b@8
z->rR0>AG20Hdr}Val7eOlM-Az>jXzu(==ax%RetIjJ|#Tx^vcbzqUJ5yG5zplJytA
zk^HB9H+S6FG55++`TC_m*Sn*?-}Zyf?|0rgv9#&vQqQsXPXX80d6^AF-MUO|uTqPa
zEk1ikywkf>yJt3VueSbn_bpVoS*hKe_1E1GR=rhmyXIES{GO$nUM1Lz=Dg*&?YZTd
z?_LURRDv6qo%Y%iG^?yGTidi85bF9?1UJ2cq>jPsuCE=N+n1@^sMKv-EK}<GKJfS5
z3zS{o^0n!?NTy+v(y(a}!PXA~TOW|NN-W(5({<8T!T1nNr$r+(wNELvPrcXs-pKo{
zOSOZufouTE&qmI3k}gFihBi-gLvWqZ8ZYAsXbtfk5(=-E0ds+U?N=P260FU7G^m_g
z(h6t5xMvk>J4;=F3wDiY7hU=<Xo@0h8bHr+&cI;2B!#fdFm(mMsB#E+RXArbeP&Li
zL(Qt=kZIJ#@d(RLCM*RPYO!Dq^|qMhJ7Iiu4`mrRW3aB%EB_rO{51uiQt%-H)s~u2
zi^hNzz&yZGfWRhJsKkbjfg$<dBbyE&j8Rp^NDiRTjS?Ai0-lB7odymVOtAtAMS#vQ
zOpi`Ca#`OaFhF~L1|yREmuLf)yh~_WpK08v;J>>Lx~ksUvFlQ{x-L__Ua4N6sotbi
zZ^~3}SE{$q`i<nQKlJ9wYbWQsW=}5pH(=R?yt951t+Zq+JC(}Lh32Kou1w`trE=@y
zt9Nj-d)E6CUu)K1HP@D@-KNxTyW@Rt;Qd2Owa+R3=Vp(hXs|Zzu7NJ2xSF!CwcD22
zbWquJaH+Om@%PUjg?I>A*iz^e2Ri+QvLTu@GO;m?3zCmf>?#GcWaNKCF+aurgkpb+
zAXobS0VPs^jquzI3)1&xTgd56H}!rZ;CH#N*VzOxaJ%akwxLjb<7WQ5dmsC~?<sk+
z{#yNt6VH~<io$X6S@9!#iL*9a-+cS{EhuUz-hY_=YMDQEB8{(Zdif~+j7#V9SAGjg
zxe_Hvfc!)#!BELT7LCmKh*>*o#!A?*MtfL@xWli9e%TXuR2+l+2a+fc%#yrOFSZI>
z$PFM}DqiJ@s2LzR*nXE1CQAx{L@U;}-5OhD2jzc)*MgCTl?Lq?<UF$<+r-AfuJcVP
zB<ED!SSLXHam}hyBmJ15oNz4zZ7zfbGADqse<YccK_~+-Sg<xo)kg-+(=TFpAW<PH
z8M~0nkgn)yl*6(t<VV);VnlXL$^cr-TGHa}zX`(mn+Dkq0^IWLhKz~m33dTl80?Im
z#=gUlLZxW(u*<rI)^9?pMJtKzL`xmtv_T4F%FGO4pE4MNRo`Vb9=ui;YBkt7jD&$0
zOc~a9jW3B9J(_CQ5?2`;w4_DPVgBkeEWF2H8nNNWf!rNtE<J`+>$zZoc32O&@ht{J
zhj$ob1UZ;@aQYQSI+Cm@oR~_&8b}J$R`X<xIEazUw3#$=RvM0Cm*^QVJYO)fe_?0%
zmuUl7kCAc(>{B%S1)~IVOxrqp&hVz+|HEld&#Tzo4K?mLsE2=wWEha3YA*B&q_C|s
z&Nhj#_sOLMUujjN9Es&vIR~`xWV^)6`1pQZc9WCe*+XDJ4xnsjB@?%CP)?FI_Fnk`
zy}X=S$`C6P;IX%=9;5lHn>CK4a4%7IC*w2JQnN%94hGNywMdJ|Bx6<G`bWyu>{f5P
zOrxt7r6zfEX}r{G<82Y}1hkhw#iWU<gTCM$O;66+ZFGlRMji7V6lZ#JM$2pVPlT|h
zHKX$by59jq;C311l20Rm!0lmB@RaBxxBFHiH?kYptki5~@;8XnN^X@bw0*DVogO8$
z9cduY18?rRwg&|G-dlSWU+2Q<?|uHA&wt?C#f_=TE66}^@Wvnv2<A5}J8h+FOzSG>
zZ>wsVO>)0dxfZo~v(*h;<Bl8uy-+6!@bJbgvL$XLvi0HHgSQ5=HSLfNUVm}!rF8ik
zNc3tTi+iIOpHj09)Wpp%-uR+kEH9(Ssbwq?Lc5o$_pn#2>0XF_Z~UF{JJCOk|1iF^
z<`{|m+I~_2aUMi|YZd=mMBY4c?F9WCy>^tp_<4NILyxl(FaElRp<1<Am)w$jiDaId
zgTN9)IlqU<YWlSqgQjH$@7T)&>lP|iaFIDZ4A_Ah=z1ABi2i02v<Ck86CM)PI^)vm
zR#3^-hVex@Wy;>|#=G57*fIkNJEvQZ&_W9{9#-FBekpt!d(gv|!Uy@@an6zxmk#qR
zST4dTheL*oAFP(qvs2^eWw`c%l{W&NLT#gmURokB1wn_&9!dZzm*mS@lIlG#8F4?`
zNv=P!({l6C+R(S^Kg!NB!fd*lQ?2GI(8$$y@VewM8VqvPD?nOYe5-gqu@vgNRy^yy
zejwYsE7N;G={@jX^ZRA#-UCa$#}#)EHq@M(@5+{xy&1a}oAb|~TkKjY*#`y`<r{7_
z%qN#>)?X``^<97VexP=)KOG3C-C<6NeIBoRCum7t5>}IIDR_;7eH0L;kqN*T5TDrN
zJ_Ua&k0Cls@L@6qm*@+>jw*=gbPJoeEf@7LD~9Ttk9~;U54NP+w<y6a%T7vn3Duno
zeM;2^JsZsDDI3;kd373uds){)D&04rY<OBJdwRK;9+ki%;*$Wyz94#?&G)P8Z_eD9
zS#~0h`n-YJsW)e?&CH!nLu2k~`Lqb>yf>(QqiC9O>D0ptiFEVnQc$KIGM&(9QtYaR
z2?J;%(5WQ)6UW?)`gFZsJX8c4)osOiK?iD?j=eo@m|2+mORwtT6XwM6X9l@i!vwgG
zh~$YfV+;Em_?};kmNYH(KrdNPAo_v?rZ$!}7}QDt1%tLRde6|3M#T$)45s#qW4r_P
zT2Kg}*FcL#9p~553?UqXd_l7&J(imfHiia8VqL3s9WxHuHe;hbIgA2vf&wvw-uN!B
z{;m`uNOrAKkL8yX)Lv9jyFn|0zH!smNB;<R0fRCbxeRav{7b$fh9^${Y(L)2M2*vq
zp0Uwh=<JLUXDORHiwkK7qMcN)2Jj(ogq#tQy9?YDd~95GlR*tRuHe*7DHD@vPFOhB
zucR96cpWDW5Zk0%!{uXn)yKFS_|^d-_84rhxgWx`HSqio2mnxRgy;Q_;`w_GYZhFY
zwL7qdW~pH(Q+55sS3P$;gFP|zy-W3*)7zd?>YvNjHeNdh7+G4K3AQM~migzD;F<-9
zwz@tDo?5KR^d3=qkG%hs(mR-b?v&Ddiumo&Lu|SM<}Bk{GZtx6{B1w#?7LNer;Q`g
z)7SR_hgJ~scB6e2?M61E;41mQ?&e^GkVqb;rNzh=Bw2ENMojydy`K6agiVWJr9~^i
z*;EtEX}L+DUEYb-$=fK{g+Mobp*AyQmv8z)QiN&ED*+9nhNdz|PLebSMlN+tx3}Ng
zK7V4VZWC0bv&Gk61(}lxty4nl7WOQKc0gEakp=sf-Sxb?zKnWS5pfjYAR-`hBp$1a
zI5yJPQ1A!T&{t4Q$2Qrj&_`qvn1g1>-Y*Bu(5+hln$au=flHX_;eOHKY?y!k+b_TU
zGHmdj4U5tb;@^*dN>TnD^u9dop|AD-F{B#WQq>Hcjt^g!WG>iXoJt|mVN^cDJT$TC
zBGQlK32dT&9)0m-%wuI{4+yN+DCBqzV0%iyQH$S%S`~IE4tgcy-wixus`ace43>%^
z?ciluc}px~60&HGP6G%jf{yIsJ6sI@UTZJ%nz94~8~%f~MW0b*CE^;K_Vy5qOHAT8
zOdbsUz*sPdqwLaT^5>48M0`@-g7L^h7(c~_Fg}wJWva)hh--a3eEgvSQ%mAB6(Zw^
zM^K^aGw*xZ8dL3fLvHdWxs{e3b@wCeUmd4oa%Y)=8GcNqegmZ*;Q)!-)2%HY)DQ$W
zn6067`C1s317u?h6^t<evg;df@4mHr!STJ4cS`OIWOhHR?0)uc-E)LWLiftSLYbur
z*cUl8VDDYM<X^f&PlD}#fQFM!0?^jdsfG!a8QeA|If`l5jA&{QwEg~eX0?dPMD~lU
zW@EbRrLYJL9*xy(2<BGFL3WT@jZrxL0XGF745CaJ0PN9W{K#+}3P4K%8E5N07Z`H{
z&l<^C6dtfRwxD%LgDejs!g-roiy_wV#^0f~B<*tmd*c==nrGecYLN-8RYGeQ8kR!a
zIIaN4ey4bD?^4}>j!@i{b0NjuJX?IfJUr`W_$9XtxN&&Km`4p8P=lE{P(K$<2U^nZ
z7Cv~y?a1BqS$~RHu1tI%B~tJosD;0dr#iw|E($qMi6AtHKcQ$2=3q~9P=}V2SQHjr
zg-2n}IFrJneF0~y!K5H=$)q5ie+0F16b&>kot$3z6C^#tq?9~Ce9oB`2+<)5$4*}+
zNOw!jT7t1N9<Vaz{$3yU_xjHfS6Fbd{kb0NXHvjAT^H8F@|^7jW+L`d%*Oz{_c70A
z8kn%eLuxIPPI1FD29uHzeaku%%yCIn9(P1IieM-$z7?V-3UCzEY>$<++piXb7qGx1
zS6t(e&0cYt7|Y5g(!@{@eqb2s>KEQD8nvAP!T3rQmU)qB5W}#HgK*wV(QgXhv|~S|
zf%k6M-UvBR=87RA0roNYwaa)SvZoh8;0;c@dwBo!$OrIN$T}AAVpHg-mOj#xn(qGu
z^LlrjHi&$aiqPCsUA!_~WMVP~C-F3==bxp_9*!-rgNt(sxdM?~v7qK!P#bUqCHOI7
z$*<tmgc8agWft!H+S9)7Y`7y6-mc)kzu|s(XWHNJpejU?ISAic)}+^LzuUZHCE&)s
z$r7Pu=k+5Gi-pqGY(;IhxjWm~HuvKEiwm)Z&!y{jWE<N5ACI%N4AO;`ogYz&6}z{Z
z#A&|2``CtChSdJZQFoxrtrqjWg_@>P4RKF*5!z3kFLcWV^#m{3?9*5Q@r($u7WUBs
zY2Z=e)i1o#j9KA?#2qGY`kZ0N!2#i#Eh)Z1-Y0V3pjBb!#;)&H2R5aF>$SrK4rXwi
z6|l*t*l=PKCfwZWJ6oTpL41K8l;wQ|EHAM8hoOLCN%Kd^#+Ks&LOO&8aOI$a%DiQ)
za}VoiP@h2oCgf`Bnv0}iSQ%;uc!%xd=id6<?1>*WbuGNI)U-?S*Uz4q>s145vcZ;2
zuu}<kE_DB8a660@8#`$iY+JUxJ?(ENKS&xs0e2*Won=oDX<fzJKZ9J0t5W}%GOx~T
zz;Cu7Q{bcTBF&4AJF>l7mOb_0C;WsxiV@2}9+aMgJLuLew69%gd;6$f2#ACVL7-(N
z>k7~#Y*{M#q?BU2gU$v6iy)55Th}ZXQ4Cv*0;I2<bId(|`{i3NgEdn;>pu118OJHq
z`cX98xO5@N$~rvB$0^aEiBTZHa%f^NnBv1aPZxW+p>%b@MBmceD5-3%ggX#>k()se
zL~FrS%W{0>v#tSH$g*awjjO%a4g7=c0`Nrv>?UDjf@SNN>m9;bXn(Qfq!?OE-YHDw
zaH*<Id2+#g+O#6G#9$m&<}p#|ZIg*2bEN_V_4iT*Lr`WgF($1DgkjK<IfyBT(Msu*
zg<v9{Tr^{f-z-(DWWfuRR(RzxR|Z3qQ<nvG0eyjZuD-A)*x6vk(S=qSN>H#yj=`V1
zdo&;g;?=}ZLG&mm3!Xx(GgyEKxm-+hWJx1<NVk<ta^p6()agxXkybrJl=1-8OS&sH
z2+yL>6LPFaJd^6u{8<M`LkO=`WR1`4=pCfMvlg#$&TMrhS|f+61(VFcntKTlT}3kq
zYnD8UHG%pv6&*@N$E@c;ZO_7mrP{4vodOTwKnK18bnVoO>GF<ym7U<MVDbXJ7iwy5
z{kH#Y|H4ZKR~2SlRl~iCD)M$Q7h9;xbna6+_bpZIH+4`Rt`o%;1Z%0-cC?g9#qe8r
zS)w+B-!V}c*&eD;(vnvXrt&2NLERtK7)B<~A60;Bg^hOU{v!)Jv>@9H)UPBJW*hF_
zeC^t6nLv*c=vlbD6xfk=@8H0cES_XSqj`4nwAL8nPa(3p43G>5480f;1(v9tZN<^%
zKC^N&Rx&ErF4%>k4Rj%g6I8W*Z~#(d1HVJ^N1Y}QBbPjaK%a`#Tg+^W=Vd6r6n=o=
zV^!M)!c=1hd!LK&8>}a$#{RuT{dWW}1>*OUb_<&z7Cei)-vj4%64)PlR2UCsYuCKj
z4smS*xrA%*lC6{*n<BXUHw`1H`hKL{H?>%55jS<spI(L*q#xgNQ#b=U`nSPCn;uTA
zJ6E@yFgh>Cd7=J{HYb2GOG43!FJfv=8}4^#iqE1e?kgUc;5p%WM|{IS<Fxep<%aRM
zIfS6@387r^&Umf#E>}QX%=l)!@D%3Jr-vwr!gv^zol!Pr$e(7s*k)h=SG|N;i~eTl
zSsa#zg~sFo^*DuhfNI19ddH4g!xX5lSDD3wD!yu@oYzv$8!6nHLKQEl#d$9EvDxwa
z_*l3pfHDFnAz%{^jND-g4L^QxVFuG==2Tw3fRR&+ptXR6OO^@#t9EQ}g0Of5aXCSc
ztDvYIJ+If2jKE1h9kc+CCRA$@rX!>XVXpkOH^J{Wz1K+8?4+@+6$O}nMD=OSW%=CD
zG0RbMh2&&eShJWHRz~h>0i$|VKfOphKOm_)8!m(@xp{B|hLHRte9cvOA9S{0wl_k8
zRb4mN$Bk_vRbQ&wJnOsH(*8Rjkbl~`PVqO*_FwP*_gjv^jQ6^C?$|;oTi!SyRm#_8
zVIKfX11LM^k1f_NRqwv;$c9?y`;}1Vb!Rr*o(XSO!ke!b|0vinC(XaIc=&E`&yRwY
zu=d@0TwE>_YTC5C_rhxyoC~kr-T(Yj_yr^X-5^YfYcl=@uvv4_zx1~**9mRwm+RqA
zMkl^GXYq(anPy^+F8QzM_9z9%D2QPkIeksQPVS*wQWMKxrr=K~tx#U`3O%7<5A|OL
zS#+9vxv0u{K$q80^nNhB>||*<)V7v~BsDBbJN7>*X3>qJbLT?k_v+uNCl78r@3jA6
z*AL-M4pGqIJ)1uAlt86i9=f^v#_stx1&#q=*GPJ0Xqn?T;>$&Jhu!%NY#5?S^}1y$
z0Ra-H!B>2A7Y;#}aCqVQ#m#q|f9U_AKfSqM={}^i4J^a{vf=&B?<fC!`==D;D22W>
zk3QGwxfNm~bLn&P`tN~D^{5y7^&L<~V;2gO<G{}wy!+cUwR90vOGDygsg{NhIIDC}
zyPiC?v`=m2@SgctBXY(tXn2M@fj^A2>3ZXF*mxe+GW7fc>g<1pUMQf4fg$q+Hm2Jd
zD>02p2V03}V8cS*VGOW|uGKCbfa*vA^rj(YO&MYrD|N;>!~9OKi{!Od??9@BksPzC
z(P#j?Rp-lc+~Hf%*sH!FWVS+&!RZdx5M8L>P+Q~}DC!&mSCpG=$)&i92AP%k=}uAg
zF{elHWh6stL}a#12>2a)0U4f0d{Y;yo@aDCz+eOO;T9d|G`SPR^N6G!fs!}T<Pd6C
zJ-`tB9Ge_koXehw2xoc<F3Z+@IT!E*jMOF~ilBL}TuO7OZp>g~0_RL{gYNzc0i$oA
z7NWazRof3Lt8c!1<K=I)e|tSnUKn01T^z{3W~FanspaXV%EO?py$@;{Z-;J$GBtfl
zO`oA@o_A%!JC*Rx_Z=XJYT?V-rfE4`0(N-R->RP<%XDm4I=0^#%j`X+>^*h2<}_(R
zNX=1Rv*3Tvb?4H1sXLK}b{i=<G!3=t&!yz@h;oBWC02>l8P<-K^o77w658~^cN>?b
zS{hC$v9Up$K#+P_8-0<=L)3FcMMf2o@`H$B9qbwJc|`ePP(WrDljS8P%8bKQenf>Y
z+aR)Fj6D&_RyHhA!`2uS5Vl3o$I4_<#<xWjVbc`(M*KQW^uM9xHz{_V0@9txe~UDo
zvc7=?)yvn1S?V~Yx=6exMNOqyE>*q$GeB8gxOR)?;Med{@F<ndnaU2O5}TNoDm&p>
zHCS=ed&8RvHY>sA`E?5;i!DpREwj%1+&U3kkzT$73&g|kmnzlAX8mwm16_;uEWT8|
zneB?WdFjTbdH+&%H}2dOb8f{QM%L1XZw$|u&PA2dR_tU7RAvHjsNXa%F6C%nzDzyw
z$X15K)Mo^CR;LeE7rlLjdYFRO>8oEtEg%Da<mdpl-Mo#d`h!g7w(P`juC$GAxssn^
z<U;2YAH~{AoUQYRzJ2`d<I4h~i_iby<?p}zDMdLVrg!BbVqHYCLJIL*L<|&MMF@on
z%djaJPImHzWxC?Ur3t6pP{HIYTj&H1-|L1I)sPqW{+xSXw3xl2<Sl!26%|V~2((`+
zm2h#D_NFo^pv6{E*uXh!`Rgt?XRVM*r84ZRuvGc*bwleD!n$&)h+-fSDnTMtFjY<^
zR!p_3nL6?fI**9NfEP$@pq9$gt5Y#qq78m9QX-hmgf%9dX4-{Y$ZH`sBbY)sgnn1P
zfw@pXCOk>6vx-i~Bo|B=0whT=l3j&jvl%D1P{<RUX}M9(AQY@oJ#;^&g@Irtg0w>Q
zIwZEP^L#)0YlFG7fwmlz-NJv%n^4~QO@lwg4h+ZDmj9OeW{Sw_5AfX~uQ4}STZ#L?
z{fg%r_1-ssVZTRU85epv$YX*qUIYujocmO({$xhPF;`lNq%G<m_o3c4{i*qj(&hRc
zuuq2`H-F{oRHuH&^mQ}?Jh1um>KF`l7^8Zb>^6LZas;y&a!F>ek*_qHZaj@Gz7uln
z42co>Mrv%%W<FBS4kyFYbvSGg<`~JY@CdA*FHcN`Y2iq4j1dh_yS0ZsjP6ncv{3@m
zMx0s5Hc6bGcJ>hMB!89OUu7lyWc$K$WSs=wxP*vl^X%}!#k59j&q1N=vxKc();=cr
zEJBMxm&r11xmDeIGZ?^@C2E7Vad_25{(xRjZ+^V;Q1g`a2#7HVGaBsVLDWNpnS~lL
zPawK+v1+N7HW4s^C^r^abATHMa+xSu_j8#jx$9`n)b}a%IOCz_p05Ol%D}cb6KGKa
zEla*uBG2|J9eY3U?Zw7}Y}v+i?^EfG2f<nPi{1CSH!fEEp#J;yncjW{4iUQ#rMm{+
zJBx##N}myPw$DP%)sXhJ-3x=2C)AW_+orT_TMBPa?>?b~Pe9%I6JPzkmbPzqz1_8N
z*`NelPS5uLrN8NZOUG>gUHF4_2{qw)S9<M^yP=)e`rmV9_P?O)e*tu*r}&LxAV=&Z
z*z?sr_d>g{+X07%z>&#ZXudLCy#^LCH6^qCUq6Dpe!eR)&rz2Hqr@OD;qqLEs-I25
zX2mw?f?d1(7V0FIW4efl?K_o+k;?2hG%|@cqfTqW$493D+gSP`%>mLaTooP!%CGm|
zJbB~fQbqexpyM$<)Be#vO@14*66a@17h<D0_p{)$eg_Zpcev&t&>mjsCy)8AZY9v2
zc6T${1<nZA_E5DLwqDRfa2-WbtzPZeGP3XF8%n>0X2`#bz+e?<xD5d-kv@-;Xq)G~
zFj+N~Ex4fEwnv32axkTVWwvvKdcWZMl~PP90|A>4O@j(n(!xXo$23?o5QZrR%r^}7
zVa5gIK`e@eG{DlN&jG!b)-JTb#h3+HRXM2Z&LcqYQ#Y#RbWjQaCELQLjREUh2t`eK
zJb3|;Z&N^UQr?9R<@_@NLtRyGF+f~FAJ7%_d;?n2aQ6!4Hb*<JxuSk_y=db4|C44G
z*?mA<k6lbmT#xP0+4eolPN8Nkjx@o}rD90(Vc(0L!jRi%+c({5OSkXE^SU*7&Ri6D
z0a-G>M#a~d_N`;5=JYC!y^9-`8lRdyd7t)aeRU6#Z^v%M76MC++h<P#RKXU*Ux&?2
zRB5>F+rGDbneZMZyeHeX3&5Av8x(>~hQk1o1sk)IriC#(JMb0%(Bl7`Z4#CnXRV}5
zI-!O&K+1zZ)szP=?0#}tGM<J<8@Oh-+*Wy2e4}lZvIf&Cx0+jOk=Gz+sEha&HOxw)
zOa)=I6CP=1oabN0%oE>uamJRT;P71WUSY}zO~K(hXOK90tsup`P*s?#**@c9th|55
zZ$-vlDTachc*Z|dG~?4rryK=`R@NkBXZ%rD%Fq<+CCpm%H!}rCgV`!QX2J_7IQ~pi
za6pPRLCcL+-*kz#h&0<NRqWy35J)KjA1kE5kS|hhCaQjmV#5?LqZ%*sB%CB~^sF}d
zDzambCfuE;WZLP-lnC-P#p<c1Uq-C6#MEoZGxX>R1z$v<o7b{KdF0n9`6>mcDfkr%
zzC^*VQt&zj)XF4LZ&>m<7hnA(SD$X<LWM_Hf3AAM17MwOM)uF9p14<4GuKA2AXD3|
z)OIgb_00NAl?4ucBAscvX~W&X#>LZ_Er*pYhtpf0$p%9pKY|tJ!+Z5jaB1d!+q<y&
zcLIx|65fP;AJ;wE^7?t-2j%Ob=lJP=59*H%r2g3Wi29?-()frbE1L$~sEBQ<`zx9i
zZpb#Vy*723lQx9&nE;e4NB)?Kk%s&i)R5eyYAE;))?l&(5mQ65(Mdj8Hf_yzc0)+=
zaRB!)Oj>qQdXAEWXVXlQd~^rf>hOHqtzFB-bXP*VB&e`vg+#HaD7Z>K!cjQg<iNRv
z4#k0cQ7sL}nQCc0D7<b%c3n?);ONK2EzYL<Rdq~#;zS&h8CWiPDCQMHI1%T@<@r9P
zdd;$rl3<#*=T1s#KDbQfP>-fp3DDhPv2|6&3ZCeS6-2o_hdO8!ooif%JZC$e<jQj-
zJN%i7?C6|Il4G*tb4aFRhZj>QR+y57%xHNGsue9pXQ)COs~OSy9_Nh$4$kO2)nXi<
zQ=B8`3E;jY=RQaZ9xh*!O0D=-NQ2yv{Ae;6tsSK}E{C_xYh4ObpE8(1RYuFDDybTW
z@L1NJBlYo0A#N}XsZRykUBje4wM^=x?HS_G1!kmDoSl!L*+I>rb93|opINl?9LA|Y
zv_prEfbROPHiEea1v7@69Yn&#GN3Ls3JpxTL4|@Phly-)&jrpblY_3fObrBwzJOY}
zoh(fh)t{S3r@~fcUYSmT$Pf;HbF~VZiF{7)7_91Mg1DPes*qKEP!H{E8PQ*0MjJP9
ze)N@e`FhYp4Up~srRFduk2OQ9IcxS5BCFci074XAk7vsM1&tr0R{t6W3)vQab|5#d
zF>G;?x>xSpkERWYh4}`k12~_?yjq8qKsXavuLRa-0=tyJuC#j>Tf5fZ*@O1{BHyVq
znl_nz6Y-ISpToeizGFML^^C1NLd~U}mpJo>oN)8zb|`_4w7cUUub~V}4CA%ATref-
z4i@qn%DBrDmMvYA<Au7A+tXGH-jZXL*oB+NaeH+14>&%JcLOlM?h*%E`~}s6JEA_<
zPmi(SW(rP^;oD2JW4&^}Pvcjfr4NKCk@yvy0t0{UG#F&h*1m`Mh_+og87|n2li}!4
zIH!In-0G~u&#^H6dte=`m{5aEXY9mv@s+kbhQd(J(%A6}x;Jz;U2-)T3OA4EhE_6X
zFc}-bI9Sz}%VZdg1@c-j1D}b>7)4oQ&$Zbu(^Im1Foyxa$%{IX4{IyWuWXs|%-FHd
zycZLYZDYCOHKob0hbl@Dq0KIXUGQmERfaT}u?tOlKJyo>jMjHx7k-e(4Ee7VUnv3W
z;xd?_X0x0gBi6=fEn2QILuBpMqUSMx4Lhx(nG(INk1#|3kY8trKt$oX_{JKI9ddJa
zXu9q~4r=Vl7xET7%;%Zp@1WD<1Ng8`2R5Ock1!uKh{3%Ej)9X9dsU11dPu|1Zy56e
z6Micei$UpOs+RaHnMTEAu;h1ftGcn9fpcEO_Z9G1Ci4XzZiJrG@-N`F<bO_S`COJ-
zEK6it21_%xh2G$@3fQkCtrU*&jZhw>7cs6&v)s*vUb*}hktInYK7Ijyi~FADt{yYB
zJC)j<OI5pOeGd#%G0@+ol{W)70_pIcyTQHLicqGaU8!i#RP-qoed&tb_wyLA-FE|f
zp3H!8j_t~|E9r)3?gpNH5Z-a8?LFU8`1tkWY<W0c-nH29-g>3?#Qpj;3&l$P*6WAv
zwXM&F8s=WRyYUd*=(Sf}Kk*Tc@M)QEUud{nu`OHC%v&{|xLeT&4sXRpR%xHb#_j%R
zv2iP9Hf|Nan2p>20UI|M%!12%L41VGvkzdSNu3q1r~0|qH+~eH8c4uDu14puxw9H8
z$ah`2_^vDY_h}OT9tDglVHn>un)_p#QhyJ=aFHscU;|CH4n)8gViV2P<JqdVt0%#6
zkxLeSgt5sX;+}Dcl%B&O@@zVXNOvZONOzn=q!{0)La`3fxqE(uj(8=by4?nI2nS3W
zbGXJxTWh4PMa??H_>s?#=I9I~;>b^1T_^_2yBvnmLrGqPVWe`XM`IX^>8^h3s{A6J
z==>t0oL{7l8%56>mu``=@)nYE`NhJsFu<>Q$Q;iKm&2<G_yq8h)=yVC<w7e}WL*kp
zXt=@66)~QSTuXc9FVN5vyOJj;B~dx10*(g4;{xXD38!7;h(RsA#XzfS7_8w9+NI+`
zFkyz6KCdR72iFVW_lY$b)C?#agBCF>z)5umRbnN6MEw?T)p5R+t8<f@irUR{>)81X
z&OvTI{~z%F0r@_{ysh^%0_>av`L`(cQwrci6YkbD)c`-S!Q`B{Bh~+l^0D>*pDFe?
z6#U-^k~DbvMr%1%_=k)gECz@94HRG&Lf|kTJ=x$v6C4o3K?*bSy^v|@RhoJMuC?O{
z9zrw&$vmFJ4td?eK&ET2(zO@Q^@9i8RtFDMWoou5HQSc_+cW-sihtjGMN9s}j~+QN
zC>Lx!U|XX!Mgkwn=P8@3FX9GFi2W)lb<lT(muauT?98Z4!8K!0!>~L6%QB7Ue4~WE
zJCeqPb-ixBRnR(-o)Z&nZM0QyZiUDh1dUaBm&RZ>%Cemh{+hHe3@>t-`i)Bc#>JYY
z`dzap?l-n%8p%KPVtlFbAo--OglDYnO67KTe30%RmbcbZh=xdQRp6xSF<TfJWT4;{
zwQC4vNmyuuMHGa!p9o|b)x~U|ea_l^+h-&YLeOlV>8`-`nUZwd=TCjO<A9XC@f2Q!
zJvzUJAJwm&Q_hZl9Yu<9={Bh=jc8mxh#i7cDQxVp|F#$txp)quIDWX08)7*)-Xg$?
z{pE0{rAvs0JOIRAIF$8CUfM4>=3tJxieE1o@&QP%#V$Zgb0=QcV+^exSIT8wCp)#;
zIaCrYvwptn+g7X31;Z`JP=I|$#VU1HN<r;gR<ETBsG~GmEtR1c%e7u~L_=iS6|F(a
zY9$@fTI8u@&q+{FaGmQZNWd+Go^>b_Vr?#p)<+xOvaLD>jZ%%)_NG<7j*WOUEY+^s
zM(!548G_h4?F(xlz-&Pq>X}%zbJe%=x?5LybDPwlwJo?x4ql%3s^x4M^GDm!^NrCC
zsYwby+3*g1w+8KQW=OsTNPeBF?OrrM4wJo}W}9}Pf}SLpB~w8ApyYpz{#V5qJG*ai
z6wAxFC{BMX1f&3IpI`?pi<gCzQQpLjUlJi)mCvD$>F~+%_+{;sW(Zl?;hc1+1&&vq
zoRDF^1W3TxIWptK!3lQqlS~bi{}fHtupC!ktL5xyz&H+kI6D!K!aEI2&GmD-^S_)O
z{Ks|^nK}Oq4NVf050Ra(oU5kiF5dO6!GSyvN<!(HT}vgq)9&3IQvDNZLI6!reHY?!
zoNHt{bT&kgkQ15qhx52Aprbs6LTdD9E?z@%x~#S=kaqwpSq<$$v#i5{;sRcSDT7IE
z!Q3L(iqVkmzz9RssWTaxj2U~5&7$3Edjd=y>{gq9nNr(g^Do{@n2B9*jc=Vp2lzsY
z7<iu7HRDJbav2=9W5|9?+6#3XwtqRcenkZ(jZ?YuN*Y@)AcN}A-)jD%Zo@P2D*e9B
z%&o`B8UIz=QGt$$K@A24n(Eebq&DcWa~t)T`8(s*DbSpJo6P5W%*+>cy=Blfcq1{I
z?25w0YNSrTgUZ7_sCvokM|^lh!aAb~ta?+}@*Lp`kSzorn0VHv`f|3_s!oY0%F~_o
zIm(e&sWhFot*wnxS}moCsdy^JR=S?fDBs_rn*V~WC-y$A%wM1mzSpCKC9~I%<7YLf
ziJy!Vw((2eN(KHcRmN1EOfUrPqo7u>@&&uCWtp;vC?GQgH2^}4pN-773#%SVV6V_@
z@ny9n5=*iZ(K+u94r+wT|2e%gNCEpE`dB$lfkFZM4)(I|Aajydqag>%RRL)<`XQY@
zXK>n}(f=KRsI90kpGLpmv@X-MO=;SeX*!@Z9l)s~)h(K1Vt=-N4L3y0)DI~21E3F~
zB7zm8FWbC{TwgUl@ReQPI=B0-Z*4Z*JUeg~zEY~{GgWJqs<m{$363c1QbJwWhTGW5
z2~R3jmkoDk!aJ1k4!Uc2P`e@PuZBqdUU}2JYr(%%z6I8SFvo$lBn};Kz|IxgK+d0*
zER}D=Q&LXd#U@_A(7rL#wohr>NB7N;+GKF@NN8gwv{wo3h2tjp@Cd9;yVoMjHmsve
zwGXP=9yGOQnzkrSTNV>bP5t-C6<DWI12-TzFdApwlZzH7xoCOA2XRAFD=EV2IONW!
z*R6MB&tiNYug!oiLqlwA3kvcVUe<fG^`*;f-f}f5T5$kj)7p*i(1xbOUcdt(fz5F;
z15=wKWAPXqbd$yJ_^6bOj9eyDGUJ55RTz~xl`UqgLbLTt7P2gADPh#SEV{m~V1_=D
z@8>jCe+eJOSQ&nJUAC%;)GoCU$_NeEJc&7g`3OFM8<FvumhRrW6xs&^GMt6ekO}Qp
zLc1}0=5~XdWOill9EqFi)?1!OrI7T62503t0I)pEQ^Q3-R3z(i_`ZP)OyCXd$Ec-W
zV31m28mkld6}vOe15(0GhBnZ^#1_~&=cysL(8dx!Q99Dy5>uP!K<3myaG~HbJ@!N$
z1f#G=17S`Xi?`<NW;ee0$?Z5}Xl{t()%t`Ef7AN}2k7xT;BoCaj)OCM$H3v{C*-um
z&?Y>oKdiJ$reW3<&u4z4@$FA~Blg!9aqSQ=GCwVZ_cX?1#>?gd_5#fKsQ*DuyQY6S
zfE5=uR$Mqa5k7SC6i!5gqls_={>E@l+C-Rbb~F#;0xAg~JbnrZ6LIWC&ppPBpVgMT
zXv4#@1S9?nFzSa5KUs{$#>3Juj{MT!+7r$_2QG@8@}sGwSH~)PuJFjj)Od7Qj-g3(
z(gA^rWPU~A*f^b@K;HY}mwSvF*iN=VzNw7}0Vrlk*bIYIX4Q5SNub7uQ>qJlERz#5
zd#XAw;_Nm_{?GIjyLTp~VbbMe7k^wDz98v)^gl#JOd6)r?f?#{qOq|t9Q>)Z_cFHZ
zC(o-v<CYo;;HDPw1HY4Wwkb{?z_xu-?BGB(4gArWrfTWvlq_TCrvV3%fdNUa7VCZb
zvWjL+_i+hL0f2h~j12%XBsZZrb`n$w{=n>|ukD#T@PV%(TV6MN60(rmj``vFku)&W
z@jK;rTGCy6l$t%WCD~BN0?rOwKU@5uE_{2(tsM`7l{fu2{By%|rxrrrYkH^YZg9sv
zr1@_6=1wdH*O4#dZrHvBdnpw;-x{4?`<scm$l{AXh<rbCH+X2d$U)f8RS)1A!uEX}
zWzajnDP7i)?%Z*w_0Fbr=U%03?`%=Fw0Rz<9HdJ-Krqm*ym?zX07MBhTfR;Go<DHC
z=xfL4L*H(Cy9rxGL*Bpk)+ye)xu=)BZLsC_R1$7)A?F<LmM^^c-G)1t{_wRQzIM0%
zBvBdF4RdjvpR^EN+^zKNSE~2p#M0{i^wTdY)h}XeV4!-=uLRoD?skrqnV$c5(Sdo8
zoDd{~<dcX1A=|Dt<v^6re2kZYbjb-P+1?af*!hFHb5J^<KQ~dZa}$Mc(R`)W!DfNv
zV4QAzo??s|c5oWd_z1O_Z`{-!{uADymC00oY8f+dNerKnB0Byu4ie8N{2tA?ohI6G
zR0q5Y6Y5qNPv7e}l7(3V^LL#IZcu`B9@UzXG_+J4hjzl#14F!xWb9CclP7?CH6!gD
zCk<n$)!<zbXU5V#{I2{@2v+CzqlUvJ?EAG{1<#LOCWujRSz%8r-u4oF-{m@|!uEUc
zoHLH7?JYV?Lc=#0AMCrO9*2bBDg4L>DQ@RS67(ak2H})+B7Q-NjL@>j!IL;S**-Zj
z$tiS3lK(3zxQ7aAJHV+ESgkne_R=IkDm1%ibK(~ZtWQ9FVHXOvQUSO|*zwFbAR-cD
zgUf7~R)Z&xFLjiL`8l)&!;JOVcys#3^nA}^+fwy5?6CD!r+rNjOJEZZZ5_|F>{42G
zWm*Q577+LYI1*y$UZ6c&+LSGA$hLMb9#tC1pDmfU80Yx9SmW}2<517C)kg9-8gFf%
z^=htb4W5#%6`A@RNaAm3nb`S)_=MICjZwa!rjmTZ0GKCpJ1RN7&KmMs<$aO*rydn!
zKQkcB*o`j|Oo5>lnOM!wECsOfs*gdIycvz=@Gk^mM_*{^T~Rmw5;=`MOwFf)xvMvh
z^QEU~0W-e%F{?K}<15r`B9jbPQTkSe0XY3H24iWm$7(r_D~ZOX$i&2jNFu@6Qnk{|
zV0yGl%0H)${x1j&@JS1hNJBQDUqXb0PatuHDIBFhmcKcG)EG!k7DFgN-^;EU+pl2p
zT@9qra(-PSZ*vgFn97t>g4I*LXiXn+m?RMTQL`{R{wuZDXf&WIqbahKx_}(a`AZ((
zl3&33Yyt8ZqZ_anpl^xbs-|oQf$#+y2MI3%BMlT;+%kVU?eF}+fBfB3>E3~*?x)}H
zRl0Fr9n@A}b^%8H&1v7-g%jzn1NX{9H@3m6&cY6GxoQ8F2Z4%f7cuFw{>p62HnuTk
zGZ~a&qf4GaS>8M(yv88wX+&<qNxJn+jEXUI^S8ubBPY+ct59lyTd{WjWeg#4E_^)_
zmH=#gNS*pA0`&3-l4JsLIJDISQEF+fEQLYJBn`KTv4Xt+%(<t#Mzic@Gus8~=N+gD
z^Sx^4^=PJQr$Ybx@4SEj@+SiyZube#sH(#0htuP5${N<&3D7I>{Ij+1sI+d7I
zEAq~#;G}1AG?$Y$I`{K<G3LDeSA6DNH_sAhhs4ozEVz>VOmOS{WQ2+wIVi|BINkEh
zGbFI4la&pjb(m;<knA|7nGA>Nz~ASl#v%8T4#_e|Wj4|8(U@qbWig?I4Xu&w6u`QK
zk5eH>&W#;4C1OG6<DGQ&<rk^XNj{IM9TfcGv~T^rvc`1N!KJePw7(zdglr&NJ_xjs
zMUFqrz-BvWvH93y4UUox98J5Aa-!@J8%P77450oz&Ki8_8RpgCjLnpw(yX-<gBY9{
zW~!6Sto89F>U|pSvT%SixBBXt_VK%s*l@CkPDV+dCt=6b2!#7dwH7BPPryIG)VP7I
z`Du$%5>tN*TFDHobbLe~1W(2A#s$8LAfrx`aWkxDO9Yf_iS;IRF3Dt}Brk1YJJCAR
zILT}6);q=NH3Pu1W!_mAgj&HWzT0<x+frbC+P$84D9uRub2RR)1*%y!2;i@Ah8(G=
zRg>I>8K%%w9AX{ahgl_#Y60eflxHj^#iN=SRrRrhy!o-<+==Z~dfWRnl}G|!sQ0Dm
z$2cBtFGOft{vzcga>#@ld^`8Qrl;hmUGAl)|AqqQpi89bN`mXcjVNEH%zr`;{uBX2
zp!*s5EB^_5g5ZC~2qd3J1*BHSIcN20N5%cdwI8fIoNhRhcHr31aN1FG-x*xCIh=bI
zHq!wcdlvc6oz3r6{BY;Tl(GT~p;DFw{r(iTP=73}gTIdHW%{|Z`4jrVnNLhpT@G)!
zd0x7ZkfW)ly8=x$CFz>#6(8NLTjT7wUsipy>qghI6Y-q#bf>%3UGdP}i=yzfcuf3=
zJnkCCN!$;wzF{TL8Se_Y-(7Bl5fWst%Xa+U_cXzyn5SdK$t;uX&MoP#r*ML@bIW^E
ze>U?+GuTk++_LNyolS62a`^4T-#+>FNwT4$Ju!Qq5|@iAn6*>Srfgg1$HlnOI$+sJ
z4_rdHZ!xMg?bP$-x+wEe4!_XYvP|VLMBGN|lK|ayxtz@lRm%c?(tU?l=oiOl@7^zF
zyL&(K1)Rsk{GO&1ysn~#e55TGv0Jy$v}v(lY23c-VfWbBlj9+cRf6}I*DM#a$9e-+
z0_?V>$k}D-F6~nRPxy+X$<`T{57R{aF9_7Y=tP`0I>QA*vS)Z?R3<PWV_8F2!45Tt
zbS5bi4uN3fGC2*D3F^tjHp(RQ;O2P#l<CG7=fP1r3GZaW>M~Jy%zKSmLCQfo*^#@U
z;=2afS!rsQ)uW{Dpf*Cz9n6Cs*%@nG)reE=$H!u4*qT<WSS38A$HcpGDOvy(3B5c@
ze%fR33n4}2GHO^kJ!@yr7<P(Cm!#1t95JQ)gE!BIl1aU#Ha{jWBw5n1ERzz8og~SR
zh<aQJ#u>{wN|!Z{sa`)%iiV510#Y|WCijJj(cuy1I1)n~H|b+$SEY7amE=9ZF+z{#
z-*GAx!xSLyLMBxsJZ4Zo=JakOrSh&fQ+qf^C6hi<4pY!fK??<~2-M1gYI+z8D7R6D
zb_zNuSM4LYIIBbxaSi2y+***yy@<Syg7pa08jC_>F_JRMUG%(|J=aBK3|^}tmd3ud
zhm%pjxMyL_EED@DlM0f~ErsZA3>x($2mG7p(PnxSFds!mhH<!eAEi2Z-!a5XsyNlf
zNlSSf6=a5~L=MV3DPa588MYxZm>YJ#MzJFlFgeT16#EhdzfM7v0)~q|pcuFqexMUO
zf`EBj=UPDK0g5RA$uyIhII3l`bOuX-PAug;3ObCTBBGNyuoy&4b?@c~cdy(D)P&+f
zl3dfn|Ar`j>=MP+6_+6Te=Kx=D761rX#c6;|4^v-)aDXxp9mBL1+ni#;lzhR%ZI||
z9}7o56n1}VbBMN&1O%UY1@Vyhp)l~F@WQ7yJF>e4aidxK(-J{^K~#k2&7@C|wC6*i
z`^UoGzZOm^!pRSX-X9B_%nT39yy8>h+{+II`i0}o;_|GoH0vw-sK{|xw55fbxxRUO
zy8U1}d{C+DhwMkREth!2ifmcsvK_zoovkZQ{5}k=6TRuW?uP<?9}bDtxNF*y-g;DN
zI`&Y&-NU|9BGSU!(%X;2#mGZ}ZXd>NrQ+Ijs589|%9=e71>8Mc_p&I~&OLYgrCTpO
z6e#}ii?&^2^YxLNu^X|60-_IR#CEaay6vXthUcMx=)-5kbz<vW+3lKJHPnJuv|s~r
zJVidF9}0**i~_lf4RcT3K5`2w6n{8qYZY4;TE5r$PUk}b(TB&yr)<bGLXHC-3KV~M
z)G<cIY_~nPJP&dBH<C`<8_~W^ByoKxAo@|iDA=m5OG{#XR$P-7D>C95MO>40G-N#u
o+0srBb~f8X@AG!Ci<e5nxnB2*KnW{8JOdG8Yxu}d_iQfx{{(S0<^TWy

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/siglip2navit.cpython-312.pyc b/model_executor/models/__pycache__/siglip2navit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ff9905ebab088c17ea421b12bc8ed67b4e2b48a
GIT binary patch
literal 32260
zcmc(I32+=&dS1_cUpNK>%m5r*1O@~F61*=-;3-igcxokKC5?ud0Xg8{V9$UDcCeIP
za(1|uOTaod0k1a%ZC3<ZN(r(Z3u`B}RP1=Q<*Ed|19?Vm%FD{iNmQvMkjS;{RFcj2
zzn<<H44afTUfWIZ&3muk)vw?C@AvngI~-OHS3>{G@&6j<xF1tOzFdXKy}!|N+;uL>
z^>a~8RGZKYYx}htit7@(ejR@G3H`94-!N?KH?n*~LN{#cH?g=eVIH>hTUp$cunpV$
z?JRCiIEJ15P8PQ$T*K~uH;Y>np5coA3Kq8|Du=83tA?xlt6AEf@DA7X*RZ%F;Tx{)
zuN|)IuN(IF`-cPlf#Lf8dUns5Xc%78zlOzKiQsT!e<O>#6HUX-{mqDbq7{jj;nx0E
z4X5P}anZ_GxoB0)G;~CM_~P%IIw{`Y#!6PBr1uL-wnsaoHLq&=L-_UKx5L6ARvXg|
zeWlp09E;XHB;Ws#{J=x<>tmhKhS+-byXv`v+FA@_&>mg$s-eG&Jzo&d*Z2j`*Ud^c
zp=9$Hl-$5dwxDF|7nIz{O0Gr8wl65z!%DWJWatY@Zek@nP;wof-zm>{@%NGMd-D}t
zX#K<sPYsVHV#BeKR3sH29SM#O22aJ$CgNjXi6@ahIvR~7g7J}5Y$O_s22-QKGqK?4
zNa9LxJQ<5xFU3>m;v>OG@FFW6OhiV`jz`YMg2Pm=>k}GENF$n`O2zodnMABFq!lfE
zEW-0B7!!?rY%CT@p@ep11fg|sd}M%z5lJ9bDGj7Y8p*!Vk-_*`WV?^^u@oPPkHn%%
zUR7@jBcz&pBLn9#)&nEs!zddZj$Ant3!jap!WZMI@L(d6JQt3nQX}CrQaOyr7>!?y
zM`L0Ol|n1YQ9jIuA0CVFkwhYv2wxiI6VY%oJ`tlqQn|<gS{n%&#HxLxiSgl)<AtI}
zFsukKTBYB;kz`EtoOt>xWw+fYV`GW<KqM857Akm7j$T?_2t8Gt7?0qgCfJ)%p0zp}
z8;p!6QsGOn_}O!*aAGtPjqx-w1LHi8SqP6MBB{Yqe)toOH2qcb^OrvPKyjIHoT-qw
zcM_3r02;=)ehna^HfoM)V!Eg{rjP2P`axrc8`MM%uR8h-Q6utoF{9eL8`MWluj>2F
z8Sb*C-*SozS;T7TEuI`rMffWRhR?*J(fG(&Q5TI5i-y#>SSmuRAvMmA^bHgs5*w2l
zA*JvAE`ndvT<20On}TclH1{h8j(f9^LohI{O(93RhKzEo_#4%x0oPM{IcJF4FT38-
zzgf7S)=bzqZUSZKcT$(;hVWZ{MGa|P)cBT3hNK$q3Kuf>ot4V1JkA5ZaGy|cOCuVh
zsVieK(HtMS7#`$f7Y@>j8jJDCc#>9d$S4|;<4B9<a5z4KH5<nCjPe8LL?f0MZ5qQM
z-gruM@v*a1hYz0_9~{I2Fo^nOEHTLY(Gee@pb3F!35N%;?33Yel4d4|>y`i2*PR+3
z>mG}bt;g%Y>R5kyeA|xg=eNbW6Y(?MV^>n=Mn}3YCKAKl(oTq7jtz`s7*aCXon#=Q
zXC#7M)irj7Z$--!4XUrWOMVU-P4a03fBOn|$LzRf63o73b6vjDJJb3*2i`bx^T>i{
zVc(+XPg}pg?!9%(EqzNTP75ukg}P^i%CBV1d9yud4hZJJO#i%ZF}7q5d|=*x56y9+
zF&Vp%h>Z-;6w4PqD_b{zh6q*-Z3T7>m6j^xr8Ri7%9<!-;zw--J*1@CI?~81Vp3bu
zKch&BeNZf|Rd4mp!dS8Lbl64OzFP#YVi)5BF}@M?LPmZqe)u*DXny&P6wocvFglLK
z5z_M=l+{I9I?NN64^~|=Nl!~_f$yX{CV-1e5k5Lmul^1Tx2d1xK?Hb%&dS#l*AjVq
z#mwd#duI3K{M~}Tdm;7i<U5nOZHI+zhwtmOE^9`2-^h8q*KO0bnSFCrZ`9wc&$_!a
zhP<mPW9QeSsgOq6D49QbB4njiKN1;^Vbxp11ck>F6t{=N7sexr!W|vZ5#NrgY}v6H
z5RIo9;O4g=TXYnb{6H*`2#0TJ_;tul(h7KjJuY8Il_{W^N^VE+x36-aYITMKnwfno
z9R1E4q~FE;KVj(=tHDq`GqA$pXD;?e;%4G=in2#wO{v4vucPf%@D$K=P|KjG_Emeo
z9+Z<gs*f3l>?l}vMGeST!Rk@ngo)z-e+@(KvMNXp8UcF^{T2p$tqk_otU{y;@J))w
z0ftmpZ5%W$ZJcFnpE7`pWx5*R(#8oZ8!D|)-!NfiYoUbN^5?<|&_)TBsX#9ZFh>cM
zNkIu3IlE9oWnxf5*`z2@A(t-xqJ%|GVMD6)64jjFkEQeNRJBr0Gvt-y#b4A`dCmzu
z<s<JX<14ll)xM>Z!3f5u%njO6c}D(dioid+9`XcwLT7K%X269Om8VRtk@5icf^w|*
ztKJ%NRmLoXEwt{DTet$GSkgm_oL~IKJ5irWl^)Qq%KWP5Mh$Nn-z==JFEN9oXhoUj
zlF_O5IDxevHPMWs<>LDL8C&?reG4E>7)5e0q!X?2k+Ja<qijVR5JoW}(PH5<@ksKl
zGz)hh7Y!F9iFg#0hAlo49yk{n8Hpv5q8$~BDckuNk8G(;V=~1PZEYHhFnW)tH5RJm
z>Gey{`*FlX+qrl&8XJ-7SYkvShKVq=jzv-f=cH_Fd>D*HVW^<)L7n4XEGbrv@v&r#
zzZeUT^6|5A@D5=RSPr>KHUOS>yJ)9s%CKEh<E%HLMfn|6re<t387D>}tlVII@&tcG
zivm2wiU$jdMiA*2d!iwogmmfIB-}%k2<R>e`?Ml4QQ)!)%#G4)QX!W%pj2`a`?QQ)
z@&+>c*KGOPHM!b#LhU*vocX$7u5O)BM+w*JgugN8UoZIAXY|WvU%sUy*Ydc~@;Id$
z^YzWS`i(;UMoQJK7&*H;XY&g-|4ihEwl#N}H|42vm*DSOsCswJJ8K006Sp^i|MB-8
z7yKvlf#8k4*}i<B@xDpl;>_${wg*?NoVzOLYX70D{Z4n!!sgtjeZr=Fw@(S1p3HVX
zHKkv6ci!pfe7o~j=RzvC?U1nT(EC;YvEc^|*^cL?^dGp}Rt%gwbl=LgtbJq0%^mqb
zQ!dag1iJI}jW=GJeTjNJHhU~z<G+4&`fA>{=Dy7+ckEO;&bPF`aqQ+XkRey!xhk|A
ze1D_Re1y6V=DRn&ef8GW+b!Skey>~TKJg{SW5ReCe(w|QWAV#a(^&rFSaFuKSk&Rv
zxl2jD9&c$Czd{Iv(VhPrNbfp<dt{VfYBZ=C{W+;il>(LWW{^%Pz)=Red=vUCfcMf0
z0Iw>%OIr7qMn(qm@1%a@55BNp1w^W$No6ck=v6@h#nFHZ<J1uFP*t&v9D7Jf6;x3`
zuRghE@fU5V<jP#$BvJo=&lyYWhZMwH?3X<!v0`PHJU^4*V22vYZX!9Q;a^H?U(p`s
zeo>QZl<yA_g<p1E)hln!fVNc7s_I%(87pcNFHv@>=SH<MNiq~FtAJ!wCy!}}2=B6s
z<Ooqn50u$AMs<^>w01xD;zu0!0`|_NdD1dzO`Fpe_C~D~PTEq$EU;^+OO6$P)5f$V
zZ5`A`O;Ph(7Nu=_+WwF+7-<x8In{S(pcbj`;?qu|y{L|4ibKR`m0f8wS}YL5R8p-~
zdMeCmPgzwYiIh;kleVhoKfDG;Tp*X(IMm;Q0W)BXTBA0(tm=4eXshIz(uTAN|7;T&
zv7cix2i}h9wIAuZv_5U1{7L;)J@^iL<OnvEm6%Mrdik@-ol1&wN?~fS{beTQ=sHNk
z4T+h1IkdVw)j3XZI4Hqkl2s<pMaE*m_EqgtIl4-SgwBT+kja5yM=%u|9vg+kPogXs
z)<<rU1X-1Mpuy0p90fz{RG#d}=*ZcJKNwYzpQd!+!A-@6`5<QZlb_;}L`sBb_!<g`
ztP)LU;sfLOPlTPGgq5P6q&K1iMB7==Yonmc_~a+ROWY?!4~Ob_68DKlNsuUs4XhC4
zjwDl&5r`Ow!4S20FSM9=lI@H7i}Bbco)I=DC|#*CY5WnoV**u1FNc4cDj%bO;EQOT
zi1DMza3T&m@fpfJMY)#ok>rK(SPX+Uq0TU57oz4M(U}lpjEzE|8RKcp{BZ;!heTgJ
zOBv5mb-N_S3QNK@dkJNi6dfScBw{W+61yZ;%XAxFv_j$~Mcu$iO4Q)*oT#}Z8ZVMm
zHzsPwVo9uTj;$v-kf=D4G)$~{2xr|@5SY;XCXZwPyuz(CalSyVW}Q&8E?3hd)b!+P
zwhJ}eGxj^S>ZxeX+aY*6-a5Q&+m`pQDF{>S@4DV`-A*jHvKvli{im-Tx#Osr(dT@f
zg0J(fGjGRl#g`r1^ZvG+zf<sc=G_%}cNIxma_)A)-9Eqh?OnHa<<=b*@aH~E_gvGi
z!p}X6A>hm$S+R40pn7kaBdld6)zL2Of4A?QzN~*==Ez-}D`#uT+FJ6Jfu+j!C3`!<
zJAuYrpi>BR&cBci?93d!3rf)4Cb-*j?k>UIm2+<u+*|WizFgG?p=!fIORlF+=;>QJ
ze)679>#6wM$W{2KYiBn8YT!p6-*nB4XQp@N!dzq4)3RdY98D`uuCgk#?=Sr=)21oS
z)W)euzP4`W#BBAPXSR0Ac&FNX{l)1Q^HrgIoqy)Uj5lA~ly7RgZ!vf)rnGoOukU*Q
zbpM=YZsS~J-jl6fm#f|+RBu}7UAVBg@tyI-Gui6iDQ&*GW=1pp%=H(hUzls0JCUt!
zV|i3HUsa92nJS6o7OK{<M_DUWt$k>=_nyPVx_6g#Ki@llAzQsMSG_~1-m$p$c2l<c
z06N;db;>a_Ft=}h?ad=g?u~hO<<!M#$Fy!G#06ScI=DdlJm~msn17dl$?Ruz=`BrP
z$i{EQ8soQ7K!Plu2+$J2n5_h$LM@@dAbuy6qeaZ`qF^_IQW4o>lu1E1-Jo?05!s41
zXn0<;w5Izf97R?RYq+kSPfbr~41v2|f6m(`ctOTf66{1(ZLYFesBE5#3Y8rztk8;?
zv$|dnTnl_|p+b`Ij5=8*fg)(bNN5oekkFds1|UEc0*%zQkd744(+l{W)PiKDy6jRT
zsna?e#H}C{N@|`0;sr8<3OK6yC5Yz;!LuAgY0jh$VqAqBFX=@g!3*6|ZIxbtY&AtC
z0T3kkaDv->KLQ9Ti6-k};C#Z@)zuY*w(ZhraQ$OJO0=_72+9H-a>0Qc2F{I-oR>hV
z4w@vMz&dmXDd@FAdQo$^06P=0$i-Mx)L!0*|2<`5UmFi~Oez*W7lGd3RW$JH_@De5
zf>*c?ZQi`6;(85j$2sj(P1e(V&6v?<_TF(-y?*7|m6@KI<{5sbc3!*eTDN3gch^%f
zwP{v2(>SA>+CB{?a!xmQV(#?3X72QyWj2x7o6+8J`R>>~uRne5>6xaP%9%4WmN|ae
z-m%nq@cmv$i`~{0PHVBURWU%1BVP(n1r<755NbSCR70;Vs%6xo9<+!m=OvXoUx&w(
zsB2}hK$NLVYNNUl==<d*HK{4SX2|Fty#EE-CM+UQx@r9{VZpIQrJ>QK=y}-nz<p&g
zr`dB%pcIu!gHn^*IICsLsIcg18BP2GBRwvI)HtKaOFDy+Qlv9DaxNB$COd=l1EGpU
zP7I792bdmp<Z`qY_$wrL33dm2Lcvj9y}hz>tZ%l4*=nAslGbiv-EIuF_XMM%2Xmw7
zqN|UmwMMI1A{7{hCn|yeIt8>MLk9j8`~W|X0!d@U{4Y?_$dA%UlT?G@Wl4|Wjf{;Y
zu7nFi1bPoMs*?XEirvKj<R2gaF1B(`&+E@$dwz<)_TtP5!O`%_!Mx2gb>jN7)6dSF
zoc`($ZNVjdaLE?DV|C}vwp+UdNAuEd!d5opEBm0*uz6IovATC$+i}<K$P7$vn>skP
zEt9x*Y-T{PH~!Ak3z~)Ig-eUZg-Z*aK<oZ&%h9Fdr-YVMg8fvU)z~`C%C8u77Arud
z!vz_K-MGRT4Mw&pM9l?JbDsYOo`KIG5Ub-!6`i&ul%ScBF9o8mNE=A|#n3dWrv*Et
zY!A7qqPlew8{+5EjxMd|>mRMQeY4Pg(n4$-nd3|vG+f#+X&f=86j8*aQOki5<c4I^
zp5mYtC2?B&$h*2n-Bp-g6_G|-k*QCb*eEoQYUv+r6pAos(hTOzJg5bLFqYsMw&57}
zKn4TlyCr1dCoyND6?&mm{OtJXc#`*0h7k+x^4PfOD_T%=B_dbAPIO6ojei}**fwLD
zInhK~?r<cD7Jr%UyheetaQR=MBvlcs%f}EV8xYZSK_bpY(|IY9B%mo%;03K^)vCG$
zGM~SWg74yg^4}xCUUzaf=j)+sp{d@Po=hlfZJ4<rSQ~TJPQlulwRXL-FK=}`^8SaW
zz;f%BT<dP3b@y`XV;`CK+zoCJ%=I4!w=S9MKXf+F^}ccF=AqwyYCie)m0MTd{MzEa
z?>+V1r~dfqtn<m7^SIzVzI5Vb)_LlcLqAK|yscvD(2~u+q?d@j0X&Uz$xHqo4Asi?
zi~TwaC;f{$VV|KV?IN%u2p8xRjnEpJqNbQx${DmWO{5w292RIIT~SNSs-}dAS|5^c
zi`muhsOL&purM0?&sMiEV#%V*9Cbj)>0mleCziNdbQd@=#Smy>&rul3#McwrgXI!T
zUnB#e;2=Lb9Bfm{1)oX=dlQM^^P}UzzE~{U296&bXdh#8MLYD)u&9yrq@oe3hQat{
z(F5bBa5R#NC?-N!$0b%p;n9mRo)jMg1bO9)=tP32_ilr@DbuV1YW)LgR+SL|E~-(g
zs=6vkw6sd2rRWLe$6?|sc_9`vIU;e?`#KLUg<qRepeM|ARLAsfka4)9(l+kszGHY3
zi=M7ur1~o3iZUH1v}#2{OQSAY4%?)bXmgb623KiO)n`qmU-dB);fQe?zoP~9U%<-h
z8b9^fcu20)su`^+;!d=x=!Ah&wNdMcCDklHp^QUOszT07waKxEj9pcvER)A*NfFpX
z(BC1qRs2N>MN?iB;G!>;*-H_p$*v*NeU)9x=nZe#WIT-4iAZ4=dw(G7r7K1JFuTxK
zj~p-lB6o8!CCAc+x9oD;#7&mAkGLYpS8p@5Q*LL7nCY^s<SsG1Wmn1FC(3Ric}{mx
z!&jG-QE6fISk<1nr2eDFr#1rZMVgI9d2BFnbM#H@V)8S_F$|9<Q)C)Swv@>@EIor~
zt}p>CV?KiIXGc@PmzCl#?+i{<1S2ES;L9ZIWMwE%8|peMb#eE52PZ6D7tUV{kMW~J
zU;+*!U$jt3Nd@dmfn7<2mFoO&paB1E1gJ*}X;x3q_fqy=3X}qj$A*sf2IbNt@!vrZ
z(nvo|Wy)#RGZSKpmDHPpNTgwl7G(&cnGKIAuD?Q>!UH@%%7eEVh$LVJTC5o5N5?Qk
z(IiJKAg=}@<H<;ZC*UZW<p<|0SyFx;o@9}rt;QskGyzDlM(H1FZ=MiRis`RKGa)JT
z6yr(vB}ocAWC<$Uj~0ZbrHD&(QKj)QsO@8s;qYLDCjcpWi)0^kpge5t7?s9b>8ADI
zk=|2JhI>z+?h~!2kDc82Wcbwn<GrHe<gtB6!@W<PK5#O8u$Pg1w@f99@#6dVO&TA)
z14&s9Ql&uYl`70@%MrYyDgO^BpLAls{_QK=eK%)uDyD^Mx^hySZxU)ZF~zwraKkz4
zoNsx%>sFWG+m1X(-sXCJ&$T_UYI|(<F~Js^KmGPgw_f_8ZP%TOz=~E=*_v++z46k`
zmzG*KuW*_zRS*SU@0;#hf}pEs#h~@H-P7qSohzK);RKuMts~Lo+<u|D9gSP_HTAig
zZlR_d346Y_fd+Bk%++?}rIF-Oet3FVR<GB#=DmTb=VqQ?s%!%<SZk#L-gi=Y=)u1}
z{dKw8s)81SRPa+bSJ8Z}ce(vYw!Lpf$5|Y&*}=NDcg;uN9=SEL82w)2yNPVu)1?1z
z$@>~^xMp3f10z?zu`rT56*akvkWdlIR;<f6ZG*PI9)nmm*W%fNtrQEONymDKm2>V!
z!QIFrErPoxzjhZ&JDi`Q<87?U%;shP))hCiGYAN_z#V%qXJ04S*R76p3HGiPlfKpZ
zDW|tvVGz)`B^P{L2tH0$2KAWzT<cb$b*oAxgKif@NV>Hc;Rog>iDfR@fk4oe1ZOiI
zmINM2u~OCql;{B@-Wl|naw)<mqH9PRIi%bwMwskTKS?TB6^=QraAmBV5$aCkP=OLC
zwgDPswLB9o$*RyH+7o3L6LG22CbTchE*Y<ZFSPs|TZ4-9=hzx4I#sAXK9bh4nX^sW
zQwndNHmjNzC<<{rr$T8KCj-L00`-`-rS0fXp@oWNWGapI31u{TQmB|>sbWiPP9I&u
zlGc(aunw|k$bq$W+yvgyP))HlIVRINLkeXh-zky2IMm0@cOaj{$YmE(I$J@9YSWIi
z15{{XH4W956+{xE#-hU4Ii(qCN1F`~mP-ZYyrCvJR{TBR&Wsq)r`m3jWJ^&4&B3JW
zEH~*!xz=KBIVR7=q^E>Vb;<7!1_SS*enr}ouAs@9tfUxPMVzIp@Z6Q@sygn`>tM1P
zD)}!{&I?8Smnm11u1<T?HG{hS-0Qvp?OA9yUId*y=}Y@m%_R&`vrJJ>YhUx~QGU|L
z3?Zr~y^}Smb@F@+b;_~guhdu6@|IOLW|*u^*M3nys&Bq3T}f}G<o(yC-9rjhUeaf+
z{0=nSYk#8WQXA!aYIJAX9n}}LG?PxOr!8{%;_p?b+$P&~PQXYo_5+Y_&}>}dLbi$K
zr^r}QQj+fs?j=!o@N)2Ud^m=meUddI|5Y?8Nux=$%p_fm-s^)>#9jpc;R~x$=SBN)
z<Z=Ns(7lq>c_!B`(4|Btik1T179I=v`F}>;+@gR)XMBu;w<!2+3jP%Z*C~ioKyok9
zBx|~L=tb1Wp+e{1p}W)v|27494IKab2t;FQG=XCtqCq<RVZq6#kt7gTj6YAe1B|$Y
zwd5$Hc%$Pum!uGyI5ILehQm;d_LD^Fzl%!H`*%?Le@MZ*6f7bTt-y<6kalNN=Ol91
zN>nHmN`yBxVTk0$V|*NO{rT7x*p5p^7)7C;Xe~~fXk%0*=vKTj(OOhXh$bm7DQXAC
zMNM3^paVV?jz=$xCJdEDbQi*LQFoq#i{ZE=|2IqZ!trDs2CE1HABdDF=Y0=Qj0LT{
z7Z@P<E(k_Q2i;s_S1!0oz@NE3W1V{HE+{d_tYdCC>)U+Ift=oaup<Y7UvR^MXHmNp
z+>j0KqOzu`s;P^2D{8NIPIt~s%x})EJ0z?lo5uPd)MqQ6&6x78N~S2Qn>(Fr?G;*k
zVLrL%y**jiiHtt)sk!clmaKoiDi=B+gbv(JeSh-3$*kv@j1e04*Y|vLPrjz(+LM`m
zQ<ZlD8}jZNiM)bR9HbRg`OazQ%!Mq`Tb1k&<X4B_?zm?&);q5q%^aFK4Z&wk!}ZbW
z(YZ+0+nza;udKPgdwTbr=2t;U-Sr0NJaZLOBXbkbO7zTK6}($>)w_i1UD@hAx$3<_
z_1<jt{)`pWaL(5HLtAUUt|3>qMX1|?p`ib~+ncX%Q~p+5oPX;*&g^%7?&e(HYiFm1
z=9;q3*3Ueg!?#kwIV*CG2B=w<o3`efdWELmtfTjCZF8<RB-DoH8-?1=`3pkrhRor-
z*N2gM{5emP;Aw&Z0Q8O3bu&BvqI&I=CLe(8cJ{!OC0`eqIRWMWGqa&76I9JL4Kwk1
z(~@^X&bw3a?p)lM_3oL{frOpeG573}cYV&gP4I48)MULoDLXLp{M@A_Z+FhSL-6ic
zY|MIhPwAj=d8}7+yZLtVyT`J@Bi}u?aAD5#hX1C2{=|ajgT|i4V?yxAv|~y)b!w*h
zV}Bs$-y!&SEH*DDZ|_?=^_6A+vs31~{$|PCc0RJ;$@(|t{JRAIuEj&Q<HGJ^ODD*P
zW6F#PWN+{C2k!QjM$X%IzlHM$Z-iz;bB7i@%XOPFPv>jvZ`9A$&wVXhyXl%UW1BjW
zchxPK>;CSuO0My!CP^~A_v>m8Z#Ul3_lexWKK>GNLas7f0MQf%U>FF8c_I^elGQ+k
zmf}VInbFaN1Y`*9O7LMP-8Q7gaUAp!b^)_go`OHe|K#@(z%JlJ{UPuJo3`QY!SEu#
zr}tCGL5;zB*WJ8gpa{L9(EMh>+r469X*1`kTCuRG6&5HfHWsyW!OaU%Va?8;u<9$%
zX}PB~M>U^XdNl_B-I~Dl^mKZ~KnXNhU3dM+^pO=4OPaZc=D96z?7q2sq59pxJAtL<
zJwp9sx2uHu11qdHhG%tU#$QigOV2!W<AvE5=JyNr8<t!f1k1+HZPbQjj6hE|fd9%R
zixBT!L{{lZo`Q_sinEb)4pJZ0Fc~{Z+aYHk#M#F|P1Fd<I+M4nk(p6*%&eA=(~}mQ
zo`h^3rzdTYZrem_0hAp*a$FKjmq;^+dmbp|CWyKtF617m%gf}<;7}eVXD-?|fX`9k
zEo2-GS&-6Wii8sELLC*k9&#0_q+AkorX;`AKz^x}DHpUVPdB&fgpFE#^}eK5b!DyE
z<bENy()Ug1y9Ng~hP1^wWH~({d%5U`o<_75P7>hAFHGrhJozF!kBj5KJn<s@VJhTd
zhHAsHXq@aRnDLzsok;Q<#CmX4k0D)VI#(w8AOer=X@<>8g&y(|XuNkt-0@YyUcZPc
zB<^rNDDJpZ-!^Z|weJwxcVz2#66ak97QLz+NA+^{2EpFIA}xZwB`=E&PES1!YpE&{
zFPQJ!xvJJ;5v9_DWq-vi?HNW#5G%3DiicJpTZNYqVTSM+cllMu8Ec?Z{sIn~8EY$R
zuh^bSOPW)h1Q&JuU!x%ZV+#H=0{MIf8~6{9k)(lQ@=J(^isFuwjrr&dXOcv(uW+!@
zyRm(C``pp2zX!)yGmfbX5XIzt9fGf8eoxl7BjZpj;tJr{Dx0*Bu8$Yd)Ilt|t@tf5
z;8I{Ue}`^-L_sSBYbhWo{Rr@Umu^$gPlJ6P5i;8{E3o-fTTKBj<F^znQ&NJ;6eFPg
z6DqpWqc_ygJ@dv3H(!8A%TT`%dpGe8jy@tPy?p9x0RNRs=HKrTQTZUigqqQz4l<c)
zk^#|zTG9mIX$FwAsOfH?s#MRnJ|y23v*8YjLd&jNqzBDWJ3wwxq3Be+4;&a7fDtW!
zgtXnNu$M_LS1I}w0DJ~7p$q`4DEd^*)VMIMNp=<Og&uO~jmUwr3qV(X5hZtU)&o>8
zT>!N-N_G_$a<GAt0I2pmTC(N_+g8|Wt3a~?q<^mCu`1(H#3IUg^faEg6nlM)MtM4b
zbYtHw*u}-hk`vZ0Is(r;JlxV3;X6+_lD#KD`r*VF0KjSx42$9xD#G>|0d&b~nI=}W
zNUt9L6htSpc?gdn9!7Vft(e}(h$65va{r|_d)Sr~b?BP^*Jv|IbI*YNsxx7M0?a90
zathc_(}pJUguwnPDR=2nusi<x8@p$B&+FfI-f}J;%<VoQ>^`yVKS^l7cc(T4z^*|3
zei-iN8@frXYctjn@OJ{A1R5UEKxKVt13(+7U%(uzuz|u=J}6J61w~8y-U0%Wr?NvZ
zc)0Sb2+<kLSGGg3oU}Z!s0;T{P7jw2D1eyMZejTr>tN|C(pc86vJHx5R+T7e5u})Q
z;;*dIi&Hz%pqx1*o_S|bl2^d)04_yJ4l6KjnAztMyWJU7)MBA7rETh?D6QBT+&4Zv
z4kP&Z#TeQ3jl<bNEGY5nNt|1t4p!Gy5pC}b9xohilzOByj}KPH)?jE+d4upEu!5=K
zKc(O^3hp6*Mvjp)tILXJ82!hiII3S}n8z^IgkNoa7kKhtr{$eO%izg<TvcPn3`RWX
zYZrX&^YvNZHXzi3ilnYBU(=WmZdx&MwQct}J(L{|AgtQPxjlk!L&kBpG6-)GDwWN%
z<~cOgO-%(0h4V#}%zsGFRn9{dS*H?oOrWY9C;t`Y5v}tG?EDGcrr>MzwBJHxHFjp4
zldpiF@mq?ZDJdanib-4(#Y&haN^Y(*)GMqK;w79CrHD}?_GiUHDTyh{xq<@zERCPr
zkSU>c8sq@}E0+v!nID!?v>w%zSRA>27K<ZrIb6RrYDH*^!jfpHPU%gFL}4YQn(t80
zhxY>~5V@1_PA+B{<XpY#CjO9ZveP6-!`d5;@j>h+Lh(UZ`H&kH><ikhFH1&0T};0!
zolj=qKKU|hfB=1oRgrY7D|jFRsU%AT<H=wo_|=zJcYlQFh?igNva&{2ABvJX#6B%^
zaKws!N!o+n6M@5f31Ip%+Qa;1nLjnwFQqV1>a@k11rQFQx3M7f1|FX@mMCmw>Ozw?
zew+Ia%sxS3Xk`imqVHNJ`Zmff0m~~aXo?i!>_YD($SAvz>n+Pdk{!?2QCQNZypl<k
zr?TSEYbiq;c(7HJP}p3wp`si?iK3cHGo;prYOZ8DRbs@WQB$tGVvZ91rYN_r(33Ph
zI8HT{N>OQr_hc%(Cp_<@sYJzMl4lF=#Kqo;X?1@EvApq;ETA_*KyT=qFe^r({~g1T
zPNiwmp{f$%it)dUuCg9w?p=;x$MJuH;-cq)oyK6LXq5Jr<h6wnXE&+1vtZ>7R7VP2
zcIu2B4-;*d;v><~OA;Gik;G}RI7~&b)8Rj096puA>cQ~@uxToMCNVkyIWv5lU4~%W
zkc3yR6!QZByH$qY)Y$d!Q13cOtoa|(Q!?(INMe~TC}rSf*DD2*PNC-h4IzLH2p*v3
zB%6ghII{#pfcq6(pmENdYuq6;?pXHkyyvk%qweMcyQcQtcX6JUd{te(aecm_W#+lL
z=jI3IpIP#6%CFs)?|A%gY(`H7WWa%4pHiiJI$I5qc((g>+?vgdzb9G1+}d2zZUKMx
z-M2M@y%!elYfx<2Od>X%|1Y`~SmiB%xdtfu6=-VDHEk7|wk~>eJB|wYYdT78tbt8^
z&ekT_+LmnH`Ox~z{txVH(Qac~F1T9=?#>1G3c<a%H!TMbq2CVYhrvTL8~?d(s`uB7
zOTj~*QWmT7cb~1t6a3w0oybTM82Yz?{hj7N^;GQNs9z;>P#CX&2@rUlgJu!#zV_od
z^^3{E(PG^swDcv;m<sF=+ElKzq9In-(aW1dP45l6#o`fQBeeXqF3K*Zw<ijs>?$1R
zRk?#hw-5C`qJBq~s7=xs6mVATkR8H?BezxM6p&Rc_humqFkS%f&|0g_nPQWvI%mZL
z;cC=&sm2+Hi~q^zjK=U~=8VccYR+(|T}|^`GLtH{2ROfA!Vw=WeAX1^S<UtU4(AkB
zUS5wHtn=3{LK|CrQz|GC_6NFR+q6IE+}khVP!WZaf%YS94?sky+Zf2>fV~8)9Z0I8
zHai%1VSG5^PwuHqebN!;epHauwQDHG^thzL4LK#jR~zNV5s1dv<uTX}O6t<%ls!b*
zCK#!akvIQmly#K?;{GJP=WUAp9|SlsNq}86%O|vP-WUiZ9!>H*l>wmOc;Z7~%~!Y~
znlH&Q2dOw&O(x>4T#bTY6qiV_UKo^;@d19N(@AvPE?huY6LqWULOMqw-}_IPq2xRQ
z2pTJ@GNwB<Ypxy2^kyzhHQtf5AalLHdNo(GL8yUFGF!7LSF=;7*}2%Wcp+QUn|U%{
zvnE&5Ce*a$-JYq_x#~6ne{Q6pBy1AgO%KV&nP8tY^CUP5Ur?$)ubJP-R9Q8fN?Og<
zgfdTl{HTF!#F5&6tbye1m9O_*>-)_uH+IeLnl~@BFSYHuU9s%npYuO0_@92i_x%f5
z|B1h_pTtR8U+{hhSLwSRnhwnzn)fVMtb>-;7yK>HT<^`jbJer1oNt}rTbK2%2anj$
zlxx^1G;Ca0pKW*oM{e^_Qa&rxZpqc|5o-4=MzXa}WSn_dJ<fnIo@o^(BEprC;onj)
zQB-qQGl_l6<Q=$Oeqmp!K-L0Q(3h8%h+9~kN%##y4`wj}+cI|Y=izP9{(VS4lh#Q~
zQ3IsL1dy8zMx-*w81hb5bu7aiaww7+8*rEf?jb<=F{>Xt($<o+19$Cs2%PDnCx(@X
zHSH)#yNX&SRUMNJX9*nmZ-?>>5Kh5sZdkA=j7xD2@f=Q!zy)kwkPyKJ$*l&h0T-FO
zlBi<4|IqeaY-S8-v+%a4&8Ut}Jq#)AOK}Xa12de}K57nO7bL?<kNR_zlt5o{Zv=Z`
z7o}Cj92IFj&8yrpPSJVP?9hsE8tX+xYR;Zj7d2B~)E=y_bgFovQq9&#rYlNDp<lhW
zh6oFkU2?4nVp#ORc9Xz%3Pmv#EGv#Au$>0yBMR#s*bd@tb|%g$`9KrR#Ph@3MJoQA
zKZRQjaI6K?!;sL+l<cQ~VImLze<{vT&Jl{OrGO!(vlKgzK-9t2nS_vZ$?;)^jNoT+
ze3%kHr2;@-z*15E-%*wKDEK-8FiC`$cz76xJBtDX!x$6M13{q7(J)7+NzqkW0LV-9
zl6zyu;qXdX@&IC#&|KjcPGnj7l4yl*R|%1wD~Vqc4N{i|JVf}M$bK$~4r0ut9+Svj
zmAoX{Srr(b!-ZQE#!ZDGTBK}px#28IGQ;pYn<W0d1UV{E2}`=kM!od;6fYYx6IEW|
zr<k*33tlqtW&N6rJ>T3i*Sut|g*%9h3;c$|ld}f|dtgqV3-$>3v-d1S-yMBtRInc)
zyXZAA!EWmo>`j@2QwL`b-gSFtT5@%r0{+}^t5KSQld{_8%wbfJ><{L=^BqFt=7kBN
zu{T?_H&=C7sDi5v?~HZsFnF43XXXG&;MUFeFYP=otUoSP9nT!dS9PpTLu1=2)ORm!
zJ}d+dXO6<GW>xx*KX7Bq?3TIedC&ZTg^dfbrS{#6L+`g_{l`kYbdX7oyFTw;D}}HG
zVje!g0k#)Bd}vTNvgldt&H5k9`40;IgHoM2hv0?<H!7|z`UUZ|%%#XziFbqG-LTNO
zaALum^={93pAfuH+^)!a_rp$yT#rZ&LSXEIp`gwS3#WzF9fEIX=Bd2hm$R=C>}%#M
z^Dv&-wQS#gw_y81mP>Q{b1l0B{JD26J$4MfK!nFm3GP#PAr4|b9Su1<DXHgP%C+tk
zT6bn~_|m>7Z}-m`=j&juwJ;<EpUAB_D6Bb{UGt=1fAX8hRt{+J9`7I2aK8HMSEjGb
z1r|0g*KEny$!A7=*OIGi$=t<owdi1u4-0-_lFW(BgTCBIOu>-&%RmwjRbeY2ocV{Q
z@?}?ADZxw|i2+sA5~>bUfz;KIZ;97x6(&)QWsw0UZwE3^WLCxDjkrqMbQkmGScz(-
zbj)gOi^2dBNuq{$<gu_hAQO0v8rlI8P)9e|-RgH>u3DILQu@Gr8P+&pXIMDMe05R2
zdS4}`uJHb#UPisw0$HYl7)!<jug$9CLB4ulCF9YRtdTnTeH4GuG7uTq#G<bXGtAV<
z3Zv|j=N)$+fl>#xApMG~GFa9KlEgT&nKcxAS;%Rllx75hoM)2qWW+nv{9t=gQ_0%<
z$6C*dq4lJ-<Z0FB*QzQ#RaSZ0S|r_8wM8UB*;N!MP1>NAw5LLH0jw=T`em0)6v4o~
z3uHZ3{-lGMO?Q?RM3Q&Hq@PnW48O?ny0mrDH3E^;qzf(yoH*{_N?VlOVt;J|e74!u
zSK{Ae)x+~$+E&<qk{E!fs<JDMLlE-nARl!Q1Xv=Z1GLK2z-rY9<*owR57DkF)#YZ&
zU7|46X~E1HK2eH(XUmkYRQ~|`OaTs$^D*XQw&WWb_+o)H9()o5-<wFT*1pQJ1?Yee
zkzcn5RKP?~F(+j)xM3;r@FtHMRB0*#_y5pDQCm1xi7#}}_c+QrqVmt;;|b@Wy@HN;
z1g9+Vi4MtkZ;+HvUms7!6Ui=!+GB}h%o_XU7cp>rHy{#)lIwx#iUjfTi1<j5nSmA`
zir;|u$0%XRWs5{8Ga4Do6KZkks{@S`ui^0p9H>VrpxpoycBY_azUf8X5ajQ0G8cv+
z`v7^}r8-1*rZ)A66_CzDxlPCIlk~v>sJr<WabFVk5cMocbG|{b3{~{t)!+*v5aGi?
z9P@R=d(bgXWyUUrnWs6?gfARGKb{gTF-$wYLxPh3n;PIyFyxlV?zJ@9=O~wiM0_PB
ztEeHOXKA_cKcMb(q-a>A67NzH-(bK9abgm*E`0JQCDnO=>KT}7fp0-PNtjiBv+{3=
zshPJ-5>(KL<0~{=@(KcI#2Yx6UrWZ)p=|AD$Q?SmavhHg9gp9(WIGNE=C+J|$=e1u
zY&VX~9?9dFTxBp<*(OxB-D&N3<N2G<=RlLS?pSW!H5Izv{jKglt^U6MJwH3m2Ra#N
z?CRldce4=KytL(DHgE`ecdMHu!BMt4bj=E5cTe8en)9s}eCr``nM&nqx&-{$yB74h
z4Tppchu*IMy~}j*My_`4T;lh7fA7N5+U)|fg_En!pIzXypbZ`Q+O}M6w@};th{j-&
z;shaB*FJCmy~rPVmfCj;wY%`>a@7UXVnw!gcg9KIB8Xp$&os<8Ecv!Co>_MGW_0;A
zO*byhUi$Wx`R2FVZneD`T58w~DbB~$b-C(Jp}I3~ul`nK#xoU#gP!>BlAudJ3x;6*
z{FOffg}hjG>nfhdYyB@)_caj49$3b#UH8zLT=Bpo&^^v#vw}geRNnV-UjOyyr=Op*
z=7O6AST&!>2DdHNEv?xPZ*Ljv$8~FNte;&!Z_n0k$++(NS~HG2f!4X`8|QDH|BFD+
zwIi7WQ(IuKpQ~K|!^-sw)r&2;ou>u-Z9JWCTsQ5!+t@SZ{1BR<^$QJ4y{EH*XRaNE
zr@Z=2(D&4?{TbfUsQiv{zFxuCd%NxZo~*AAHWcM%5$<v;#lNIYpk}H_s9ds*SPcfg
z$a3*>sz<@^)0X)bBCw74RBJStSG<b(A~TR^HaMAOIexJ`6vJ{#N(K@XlMEy%R$?H5
z<Yz}TenZ1&JG%_sD=%yIX-cdmD1ip6YU!B7iistQ4(li>*+$SH2k>9HWR3E@-#}KW
zZG_^9#r|_Mc~lYU!#j(rVIyoIY^#hK9in_BM*7M}i4DY;v@RfF3sKwmK1NVxT>u^N
zqfE;|gA+ehc0sYEsK|<DSI{;qv}jTAr&t5RXneKp0Ls(I*j2P<RI{xIf1zqWP&}Z9
zwrp}+lDW9Kt6(6)Gp+W2!`%l>#SbHw`AZb7%$|!`SF!a>=bD&(iR4E0e^9~yi9mEh
z6@bq-kwFMq6o$-?Ryj*1iR(}^N&BvVNJ^E>jRi#Vz}r>S&KC)%oJZ}4sGXrs&Q+0L
z%Z%mYx{V8KvvoV5Gj`pnA&YRuaPYaM%C(B&ppUf5c7Vq<jW-griFx?6%<ViT>^!#I
zaGcIz7Y<fDi%uWHW|Op(Evhj@9?E9Jctjx>=|fCZqwE4xR4k)M8D$X_3ziV$`ZT#I
z)=a#sP(iY(0P{wdRP)?hG~;`D6=m5ID)&}=nh`x@QzTPzL^Bq8C?V*A?dRBcygGxI
z;?dN(qPJgq!7xKAQkv`o2qgp{O!c+{R`NS2*oi<k$}7$_ndgZfeEumFmPuW9o{uJm
zEua!IWc3#bN??O*|Na^+o;|1uf~1PW5heHwn71#)v%V*QG2ovcq{n>yq9q&HOTsre
zmSqn7mp1fDId@&bC38@Mq5t2uc9+pVe}#gb6wpahbqA(fX;vs0r(qMtsA6kZWjLW>
zxP&65$b_XOY{H@vI$_Zge8SS5E<<C9_fw=85|Nyru9zrY#3D#Z6F?(VM<UA@swxt3
z{!=0m7~(l&u9)E=sD?3mqzeEta>oo5gC@oS^y6Wscoo=bF40o}P<`~>FvgSota#@n
z8ZN^-4_MR}Ir~Rq3<ZDy%Io?j99`tO2H*W4pV<ip>S6lYg8n3GhF+LxUsdK2rrff2
zxA>$A48B3@aTD4thru5Q$Sy~LvM(-Gu2Y~adENNHTq~`e;{L8jGXu(lAfdq0b|fAJ
zON&PV@Mg65E+enB3Qsss;9=!cGD^P6DH+)*OUYvvxR-b6DVs0|01N5EAY^399&Qb2
zWOw5|PDc)3;p&n-lxUK?kSABEQ5AY)KL$hwJyFeX;gC?##6cYqyorA4dK0zif>U4x
z70CCXhK1^s83tjflW--;zCo~~ph$%pl^j2$4RF1rc@64HHFF=_Hz`O7Uja<Bg-?bJ
zYVzAj8>BEcC^n%Qm8CEmPQ#4^A%{`wme^V1Y+=#4rCg)firh0)czQKc3n(HB&yQpJ
z<K&+ouUgj^(&5eC!mNnK3(QLr^U$c|otN@nLjfgE^1>u)E{cxTADuLddN95z(M_Lb
zi!yI`!!hvJ<f=6W2S?z}6A^fle-Z-`P0-uGLWAe4sdF9lMIfU{{>AU5+g|3oSZ*a5
z9>(Ey2na+QTpC4&lW;Rd2k_X}E(<;3C_444WJ+VBuLhw4`;Ht;0i};*vT|nNb)Jrx
zlVS@+*szjBy)#@`2qZ0(ojNLfVlz3>@BrZID!u>5wAkN6JFjq`X$?)*C36Fg(bf28
zHs|~s1pfw{63cowWo&nvT7Mh7-jAC*pcTpNpIZNyTb>r&8>g%@PtW`El?}{QcD^b=
z-hFV^b?)hfx@^tvDg9kvGh7JyLQ{r(uvI#(KIQn(T|X0>dvW2(W%r&B-PK@0w;s_D
zVs0svy%TJkH_TsMe&U&I@GDCBW%s7My*6jB7wq*j(GTp+EA?E<I!GAYuw*E><o*zk
zg0D1frFXN9g6$MMn%g5$k7WOTg<?hQOyG%U*6~l{HS^C=u#56`BS<18f0gesx<kRg
zpy{N2s)DiI1?zbHmf~wlO6Zzm61JvT39_bSiy766p30G0g{vto<LY}BN>$b3_}i27
z&n#?OG<?tgUHj6e{lfYK__ELnhdb|YdO!Jt?VnRrg3L7fkmg`$3s3y9=o%Qs_hZ=?
zZIfM*GXp%E3rQ#zi;s+sC7Ii9$xey5Bhf5<1!H7{C(tKpl<g3e$+qfA_7=ooX;v3#
zOne%59Fi@<Urgf1+`x-L`h;f}vx=fyU4@U{!f7k}b|`;E^59ifR*bPElIJfsyA>rH
z-S`=Nlp)H~c9Hy$wX%B*U54ckgvtiM#dESe>7B&JN0d#lZ{|veX-QPZe4w!}c1g!)
z+a6Jux#ui=Ay+!!zFw`gG)M+J_^tv-kmiZOA}6aOe>PY4c`M<1<~>a`f?C11C?y-@
z$7qnRQt(X**i!$9Vr-RPr`Rk7cPaRUg3l>n6e+EcTb#67I*}`ycVlp9`Y}F^TlnLW
zgzQ#y8ja>tqej#G6C<Z-{V`|%5!dn&SM?EvogZ;~{+jFki0l0k_tZz+?$5PGjrJ!T
z1x`+LNb?bQ>?3a7UvusEjW$j7%-$PM%|3OXL-c-NK%)uFoVgL7jo;@eey>kw)>!X(
zD>cTItz2{ar#6o!kT==Ck^Y7BiVpF+g}4E6Y!=CX|B8uH@>W@~P)gc#6ti<iTV~7a
zyRYq@slE}I4J_GO1;g5V4&1xnenhMBPw}Llz0Xnn{!97>P5o5G_1fv$`y8V8_iDCi
z>SvnBBf@<S(febXt6CH}NfNdD9L4YNH?Gw*&hR&`%%T}Y@1N9cMJ2-x9P%N)<R=`G
HY?l8YPItOV

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/skyworkr1v.cpython-312.pyc b/model_executor/models/__pycache__/skyworkr1v.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a729fe1d2ab8bf0d364561f40e95a1fb4d049db6
GIT binary patch
literal 35337
zcmb`w32<BIl`eR(?*vEy+!t^sxQe1yidtw<vKET6EZI(IxzQ9aD3Jn4`2y5JgJ~w?
zl)=Q^qB_YFHSJfX)9x|d)|)V0sn<+(=C$*>X2w0!nZh;X0&<^HVY>ZZDpfNzkf}^M
z-CgtMJO8~G04c~x`puR2-~aymdj50Hf6l@G?r>N+JR$wpCj&8#`v>|^AE)Bk{6`(f
z-Q`~3c#hYExUgna6V{Gu!@5zOhQhQVeb_K+2pdO@VbiFIh3P`(Q8VInAxqdgYE{B)
zVf(0q`SqcquyfSO{DzP#Ts&GFE*UKeyGPwD%oy^7y`x^{H-$>WWus-xZw{4*D@H4r
z-x8_}SB+LNzco}Ht{JUiep{$ETsK-5_Ko`3w>?xJZWwJ~en+S=+%($6{6(SWaLZ^*
zxOKEO+&0?A!ki(0xP7!e+%eh_?i}q5ca3(ja95~1+%wt}-Z8o(+&kJE-Z{E6+&9|C
z;)+AN!n;RzGk-~FPk8U>Ugmd)_J#M4?q_~as6TvQ^gwuEbO7I8zBF_&d}#Dg`0(iA
z@R89YEUYXv7=C8-nefrkqv4^^A%vBW9^)%UkMotI&+=8HC-~~olUnXsj<0#0<7<Nl
zKES-tGkS`J)*;lF7kWB)DtLO%g!tj0DR_pjA3$2ZAviLj<r`nukDle5g3s~I!E?dq
zgCi7Lfq44kTY@8eEB@N>=g*Iwu=DN6d7ke;Oeg-jf*1I1{B2ET<$I9o1%3xo^s+LZ
zsAIy&??jpx`98$&!e60wQ2lwOqm4RhA6l^+d0*o91f5g02-x=ghO*8T&c#Z$@_SM8
z7oJ)&Mlahdxn<_5zt~niKGDK`C})(-%YMvD{|8z*)#%GC>;S?Bf;+M^c#(x3MChU5
z?%+jgOE&Hm7IzqNM}j@u;(kxd1skUR!;>ut{$B86@Rj?6YALLYXHdq`pmplQ0_hJ2
zk9=T|!#_}>N5^jI{6oK>FTYMQpNs~Du}h(#WI8i;?b_t@WyyR#`08wMdOV0|%i#3%
zOmr+7<R#PaBqa?=mJ7G81qVZuW04WRMlzfXk6osu_GiYT<5!Lc$D*@BP;xyd1f#;(
z<aCffIx{^nd0Dbv2u??41j>wT))zyeupEOg*E3_0;LvP1eCzDB=;X|Fgu<Q=UJFf*
zQ{BTTW=ud>$+_9F>FDI#7$wT)whX>>PWjME#V4oH%;^^=BS>;)h7X3M()^(3sFf@n
z<+;ziFnr<UnX^NK!-40IJ$v%}h3CKcKB^g?nZ6zrqJc^3TOf>5(7}>3v!UoDvW|s@
z#-d|GljBjzn+rQW84Rg?%?mz#V@$Xl!6=6#e!b*oqjfBNDai8}YZj~oJ}1nK2O}6E
zIncsVo}ZixqLo`Jmdi3oWi)8HsBC_zgd&trs$_a%Mk>a4_*#_4bZk5r4o*iUyBzew
zH6CLux%0n<g3+<b5Y0kqc4kgaUz?3ao|&Bt@j;pkHyhP(ke@_$d2T6#eQ^5Lg_*0t
zX|!DMYbCoJb$<LxFgzyNl&>pe*Mh&$$V<?Z>qB;6B2vlu*=yHkglHreD_PaB=bpoS
z6c5fuXI=_UUcM5I49|?ARZ`{T^kg(}9ZM@91TRlUuo8kio4=4`50Blt6bxJwf)kTB
z=L`dr;me2Si~~LF?HD+D=Gnl}vm+Odec{3(zwWX%^{3YkT7P=@^50(n4{ulY{N(WE
ze{=Nfp`ZWrj}IfVW|Tkh)3ZN1eEHTdT6)d*|L*YRAN?JB4v#CFjJ?dt$L2TTxyuE)
zQ4P<HYH{RhMs>V)R39|(3_J&oypF&)0J?dqM9G!+0ywbpdfvbrdD91aIYI{P$Z7tK
zIV~U1NaM-ou~ME}Hosk}Jb(4pjTzzU^Sv*!1^3+K&0t8L>bW0TeRzf@v07*|Mf%w{
zg?0HZO<(Kxu^sP=V5WWTzUf)4YQZ-%;bXfdf}pluUk8N;uF<9oM*MjNjQ9ISvN^`D
zj7?7mLlIwFUw)b^{k{`ye)IC(==Z%e$w#l`1zno{4NYNbCHpn%Tj2UwXf_y;^icpJ
zNr!&?f(~3sb4AkJkc#uu1SUdbQAvAgTC(MJV#IHg%z?o4SU4C6NY(%?uh|g!?Sa6n
zvtuD8#uNzfGvk4PuoJ}#IIua%83>@C1W#!=5oM%MLv%(Mzakmsts%4`?0s$%F85Ev
zJ<;&Bo@<lWx}tz0!D!db*}ePsUELe(2~A$=xppghWoEjEmU|Dus8AqyGdPY-A;_PR
zo`^iTLhtqNYqx|QD3Uox;E7y<^HuJV)?_eeO1S2}g`s%sQnzTWPwIDWl=;$T$8Gzf
z{l{ka(y`^<<?)riq`5Vt(^&kEbh>imCZ{tPGghvoDlg$s(p*7Fs*t3__?VIi&#0Ad
z*%~w)^lW|!&VS3+2wDqo89HkTOTyN%$y-M~Gqan(#5RH1Z;@)ZZGtQqQZ~Y0umx0j
zBTP@`FJyV?=dI1jiAcYX?JVDfd^EECl9%EN5}cUi`QWs?liI?wk*F_BJH{8i67*fk
zi^Jv$jZI&k#i`_DGoCHS=esmEe)ZDKbWq+vlASdr5Tv6f!q%Xqot~6*Xpp46g7pum
zKQ`jG3;h@=;Q%=_9>PI#vP)JtM4z-wg~Q|=fg|ZdfUInt3WF5LruZoNj;YQ|@I+3-
zp%rGt3Uh5=VOF=YaF(LW$KD>kH!PO<MYEsQ+t70JiYIAqp{3M@rDV%rN>qj9-8NzJ
zJW19`I->#vkj52|htwQr!5?k%O^^;)ZBYtiPgKF*IBs4$uZb#{630zZkGDN}u_|EC
zOTlYi=RQ#C%uC7Wu)JjO#_(@K8&$wK>auT*r?07^C&TV*Rcte_eAkodR6H*)Re>WV
zrip3q>(ml2>(#cO=luGSErUl5b>nZd5)KA0JFqdFV`>4&rX7)V&p-Q&;6*av0Xm$k
z5lZV5XlY31fzVj^5<hlmuKp6?5CLF^(~*f8A>2I>ni(GpMGnCuClQb#Lc_AaJ*e+n
zJG$<DP=A;$GZgHYBn0o;3}7>$C@>6tI5;*f=^|0yZ<QP;&kR0$Y~<L5z?ox%Ba%J)
zdH%wXq`4rOjsgvui3BC%Fsn;4J|Cp@qTr2cvB2_x5kGVC=nMFh%ok>4;4E22(BQEU
zGWd1E8S0mw)uTi45n5t69OeExxAjsWcsq^1$RwNv?xCyZtysKqVd$aFetZAo{!i_W
z+b0%Jh~C3V`;mw8N4mIbc{Jf_`++94@3gq@bZXyuao_pJI<2GVv5|8W-9EK=>g&Ul
z`1IoG<qIp32lkGP!(_2;>MV9+hO;Q}SF(>qt_8=V0fEL$a>$2?{1uT5H|RW-j91uE
zi%rCkUN$I3An~)p^tifBsE4#k*k&U7B!4|%H7ILi9(c{XF{X{_=8$^c6w?fGuVCZO
zn`3645qo&+8Hlza)Dorg*n`bsnZu^ZmSl}tV}`4!Uogb1^M;st-uPw<3v0trYToRO
znRr7?PxUCSQUeQ7YeDSQA(noKmGG>diy5(Ijaajj(-VHJfYLbGp}sQT&*dg<9L5?m
zOoV2D3+To!Mf^5loRaY51j(5o=Q140c_|oCMmfMwPE1JFT!5q>6M|!sL7oG*G6!2G
z#>(PY&IksE7L)qOi>hK`a+(i}hp>QAPkvs3fZ9C%BHw_sz&&<xW!1~az7bkDn=UR}
zIF+`!mi8<jS{V9I#kFxmy0&p;@ZObG@9L}Xmy5N%33Js$Z~1a{qV0fKaUkg(h+ES(
z@3Qk_TWh+uEq*p#QM-65?I>G5oOHCOo$jUa<x^s5%W9=q+P4;5AN=kWvGmY~-Va~>
zVYyg(GU+^-u4%Yq%@lJbb-*p`r3t;4ZC|N4JUJcUZvjP`9G9^|1dZL?7F439$Xkkz
z*+?)Dy#kbR8l(x$0DJUsX~x)!q@(OE7t;#b7&ooqHS@Ax!~B|<PO!!hdUY?R%Rs(4
z2gXc;HK&=-G6*KGfI$@VzFwHcOSn$X4RUV6iBNSkCGvFC3c<)s=z1`a!?Oa^LFy4O
zM&UK2Cfq+lhw1|NsEF%6q7lpeAD+X2{J86|>iwC?lc;E49s9VVCvC1+J|~)M6XuEy
zTXmwgCt>SJ=zHYRGg09vSTZR!WH%<t=V-;SVfcG^@;4@R5S>M+3a*E^+uGZ@+xl_+
z6>ePn3Xb-9Z4R*WI2*R7f29LybiW}@8Pe!cn@-+}<Jz0rt2i}iu-V%*t<`YTdWxUW
z{;~ee3O)B`7ybtI+`M64hcj582MPd0UgvUW)Ooa2!;S0b^_21kol|VOwj5T}e|A`v
zvoW9}iogusjL;&WfQi<P2-#iEP#7F5nwxp2mGC?=&2<Cg&Y#*XVDrgS>pRF3p#yn=
zTYYt{`2FbG*t+Js{GY$3o?N=C!CM4NaPVEm0R&PXybZrmh#`+adsos-OPWbZGsS>Q
zgpd$gZ0d5W{=D`GZy@!%_=_yU0RXUbC1p!DR!pn)@7Nv`cmC2~^csIw+!-HySX{dF
z>T><^*uCa|Q}@JY+E%hOwp@QF_`ue(eB%>aOUA-kZSldc88b$%q&{QfEY6K$U&erU
zy0{Z>L&;|x%6?qL*-MtX#OD47wgU<MfnPs%B9wLFn}hnncC%!i5hgDO<kQB+{PK~L
z-OQLB4mi8KieHBZn;C0&jt&V!ZtcYkI9d=M)7{so+$|h8x|lIH%Q$rCn;kan5HhQ=
zTS6@{J%ECR*C{{&J_ZylF-y!8Gf(KSTJ$40>$d{>-16~j807U^g*e(P(Adi-1Dyv9
zX2_=np)`_RSwZp;sK>B!?iw!v4Z0eM5X#6VojEd~sRn*DJ`0Rz3#gGxiwJ*&9Djko
z$XDPjaKN=awJSE!-LWtXG@)u&+U!Z2z3HOzw6ikpu6b-TRv8oeGC*ceZNk^LHYob`
zi0(ZL!)bii?^-)2*6$TPdl$~69ln)f(b1S_*}q;dwhV}lfraCbjGWoKT)NWx--Glk
zTB={P#f=-b;-!I=nuM)8q3@Pqm4U(T?B=A6nVs7I2t0wNb_#*pAMi{8L@?cygFP`l
zCY*sJpun_5@LWXfym8(HjDnj|!sHm)Ws|4PViA_h+`KhP^|L2tRAYdbTtG>-m<>6!
zbEta`yAD2-nHPreC&G{piv{I95rfqEF%$ZEd(1LLM98)$W>?!W?}%Ba2!L;UVh%Nh
zhI{ixJr~7^B|kB%8WS^KC0s~*iu($kaXSm8Q5Ja9Q$|Z0(@x|@tLQ0hDN<|Ha4{>}
z7{~pFr>}cLsr)8MPnaZIqY}_b_VE?ONcwSM=9**#(>XZJOS({S+V2!@BWC;l$!)AZ
zq}Z>M^Cp#GlZ)fQroAk=uF3pU@cY=xiwIw(G`dSOHzi91oMhtWUIy-~q7d{Mq1&+B
zX3N`gH7W`MexXuw-cca@3G#{fi{R3Uwp<Zc*Yx((y(v*&wQy?5hHcmJtOk26?Ws$b
zHj<~b3j40ZDC%1mj>m_WyRiG*<##*pbgtM}!-=|qWXZvW)9JE`gx>SeQL?n>k6wvu
zHXKDuoh$8PNvG)OTB{W82hs=`Sm_ttU819VtzEPaq>G$tNKyA%z3Av$n-lGW6g<3g
zO7wJ#MLlc1qGQ*(RkS~ou^61zxDM_0`cj@I(bKeYKI!qtEopOk%3LR!>sBnEnA<aM
zuBhs9DQ9;koOMZ?Z{_&Mw)TX+Jz;AHuJV>UQPY*IKy4pa^rg#d-nQSfuS~7ACz=l?
z%MZmJxw0G&%-tKds)W9Z0fj6y&|~P#_@h0(xdvwox&pdEMO3!H0S&;tN?{mt<SmW@
zf)9E?2PzlOyeYTWr>LH7Ps{`a2<XIRLVf^m=Yc}TjIk`$aYy^6U5~i=YzR><3Ic*q
zARjv1eJ}zLX9JJo8UD}UJ+{Of6mW?gS|^NiA{io4FlhW1d5IJ0m^=67bApPIELpNx
zGAir17vT|t9@&K|9||&`H4vQ%Y++jFa8Y3enf{q_|2`Z>6L@>q%GO(xo@W-$eCn!O
z?SJ6fvvBeuaC);tU8jwYErufF!f~AEo{GB%?i~33M6&MK_b1j~c*nBZ{E2VJ`h-|_
zEa^Uu^TJk!bL7{b={VnUO@zSkUpWWe=5ctkPxij~8Gyw%FwrU-TxNpvTKv<!rQ`KM
zFu1`GH-e?DCC(jh%KFSflM-g(wG;L@H=*IJuNRG)gBIQrG~(vd_PYK9rOHt&Z%0l?
zHn$~c3)%?_#O-7e?(ZC|PO8`Wmi{-?=gQR_EDEA+GWT%8$``+G9CiLHOLFCx#ad?N
zOHf`h??$UV_@iDKc`sU9VgdWg!tqsnY0wpPPqk!6HtV4henUSj$m^ME&t}Pbl-kQ)
zH;k6bH7WH~^W{N1a<P$P^C8blY2h|}Ufc3=V+22Eb}LY0Szc;OuzaG3uSDA_;@nNm
zXeADv8p)kw{^8C_zB8NqKdrPoE?k+6$c#}RKNE~hw?=(Du6w3~zR76BH*;g!cjCBD
z0p~M9C(9F=@!ddt_*#fvi}_||afyMHV5R!5;QpxFsuUgcje{%Xi_Z8arz5x>l=mOL
zaoH8|q2f!pcH@yxz9+d7jb4lN_w-zuy?hzBa1*$8>mHx!Q5vtlyKwQ+)wl1N9$<f$
zdcwFcm3jBbp`JGZ+>S)Szi%AgxqByT%gFn>ZPck`#FZu8vRYVk=)~QYLb!rCA6Jno
zdeeSo0Qg@3RKKMG2+ppGMW9uGh<J5R;lKx(9Ka5iAHu%_YFUUY1Z1ZOk=^zHOD~+Z
z01uQf_ys%C7vP105-nDXj_IN$s$V@e6l6%x@_W?S+#7UeF2DY%`3)?8X)d4Y!?Bdh
zZ-^4H$)2tCM~M<;4-OX-A(x=4aU7vfpo+IYavUL^A1H?$#yHz|I-UYFW9$KK!v%8a
zENJdPcC>LAa)B%=iMndlT)8(=sBoFPMXcLj(A4@}IHhK<;T{$DTkIw^AiRrk;m_bm
zj_d47Js>YMncrn)7kiB1&XyaPhY@U!=oq92h_e>W@lPcErJ0$K<l?cnB4f1M6mF!G
z?$%^R4_mwPA!-5M7z|D1>fgScFH^&4eM*)9IAUWF+^20hB^TH!DZGy)bJYbvMz`9>
zN(^@dtOf2LaYUAImZC+IXfA(XuG}cCj_cpFr7IfnD%z;@r7F9{%I;L<ez9^tIAq%c
zh+$)EO8Z(;zI~!^U&3DV&{>hF?6`maffFpY-h{LFw@Ly!sySWXnyT*?>-!V-T2@Nu
zeg1*7FJbOWIQu@WYanJ^zvyUQtrzVbtJhOK$HkuGA8Ev%lcN39rcUd##`O=()u7p{
zn$db^x_&1G)MnoeyXd<v-RMs>?iCyN#`T|=E4N~47`Ys8Z3rJvquHjipn$T-j|w_+
z7aereoaf%x5IN0Ol!f>i*TMV0B-!$=-{02=-$l|qc8pY%w>|=s{9Hq!`P`c32+b;O
zvjuL$>AwA?#V@6tt)jCv>Ga?45S@Dx<~=f@YFF;%<W;;MIkHd^eol`+1|<o8=EF$v
zC9od>iE>bpk%PGo6LAPglijC<pkz#+gSsm8IL`^+LslS?{~j;NLSu9O!r=3`y&&(g
zks+ahB5c?p#MO@mZ$^=r22J=rIn)Ws0m3B|P&yZpEb`}UD8vvohD*wLWD!k+Jb09*
z@ZfGu12Hx(vIDhX$5^?Frj?LbzBBH4=&4z8h@P(RnZQ1XTRwF*q@3NNvwQW{4?2?0
z;|cR|Hsk^g4BO^g2m)evv5{VZ2TM%@=v$CQFs+Gcz_!)0`0VH-lky;5I}aj)#nb$4
zdl0Xi2M?0PQ?1(`#DmKi%@XXyd?21B$PcA7EMx5m>juWX0H2s~e$^={5Wjs2+$tkE
zk9$1VT4<3MNH{{1K|=~Uw1jKjmuNX0A4=I9KDIX`j=h-CahA%A`6=O6&ef1``jN;{
zoU%85Y;W8sZX_OG74G(X1`^#zm-VUg_K(ZkKdOm4K6Q4bYkTN_U2nRw6@-Gzn&Au<
z>sGiygOr`jQ}|$T1FhWtJUOt8`(v0l=5c=v;MORUjE(UhQ3kGS{su2bX8BF>x-T%u
zIr=I>Tac}Im6hsM$8if!ch3KLL%t>H6b(A<GsbVL_NA)&#Hzmh(E;DIde<grsJ7xX
ziJO+nKv20lSD#&bDd{|zFdvkmk4@fqGDlFkvsbvH>VQ$_sRL|pd=s9h4JWSw39RG-
zT%z>sVZ+Q#DQi~^r8nUbh3>k+bysi=#%KdO4p(o$G73R3f`SS&NTU+Kag;6dLfJ9R
z(<j}ZU`zbZ<R^}0j$#&w0{}ia17QCPMg6bjuv`q3X#!91!aW3#wqXvDxwb;{S19Fc
zG<`3l7EGU=tEfqp?*s%(SJq)CRP=3f+6rsj@z~7O>`#|9q|2MqWmR|o;Laal(WfhG
zQ<a@!WhdA<HJI9pxNYg&vIb07SJm=`R86ml|LnMzVcpxPWLz0ccsY&`wR|wg(Nfy}
z$N+~;s4{Kp&Y-*0+a`r~(ZYBgxrsJmij?&EB?2V``uO=14W36E<9V2}d=3-4WH~Ow
zIX&Zc<o1+2pL%&GuAsKueEQAuR8rTsL&xl02jhc8fDNk~Q@K;Cl8>Uu6MT(OBs!;3
zO(2@Gq+j>vWVlV!96=q7MOR>#);+OHAJuY|zRhBb%lgO#-;&|6lXG;XUEXw6-P?!n
z9Zr|m(f`_pRP7G2cE|r?GdhaEPOJ1iqCB{Bw^)Du83!+e@&C4C(58p18BS=aNWM(R
zaZPftk#XA7>O*G@TNK0C?d<FWa|#kE*`*QF<nRm?97c38&1Lx{q||vgcrk6k)LNw0
z<}uE)&;pmDZI~<FBv@zD>sTuJZByDPFUgo8kIiPzosos8y_i{rMtSK9P<k;lmb67#
z(sU(j$!lX)co7TK$rflf1bibcs6^y`<sx!HRG<*8DBl1w7C$%TQU^TuW>_3y8d+*B
z7Z<a~Z0cx(MNeC=NNHysYAlKsO?h*vRUfa9Ii?Cwjl4mXK|^2aap$R-FM9L$Ad0|E
zRj7G$?^ur6>73+Z&Og({On;`CcSWnzG%;7qct7uOWcQ=mdCLv?rc^s$gbi#`?mGVz
zxo~je?wgZ}<wJ+Sry`m8PbSF2LaOW#yHdq<s7+p_0g{sR7YX-~O*l=?x5)WBa&T)5
z{yGG-C8L}e)Fa9DGH@<@NU<hDD8cxU^b<fl8P+cl{PP#f5aLJh3x&YM|3SHx<B$n;
zMZn<C6W<H~8c6y{NL35HR0bUr4EI&VSEyo16QzFK1a`}0mnGNuO!yLsqz7hZqa@87
zDMmg8G044Sv=}rnZrwtGz|*KlId+vm4B^8J`?9;@18KK6J_MR=x#?Z~17~yEQ@*q(
zK9sf<#}B2wW%1(_)$(rB17~Zxw0h|a@#CM`isIM5eqg!&V_Q|as%CL`qpmSkcUY`D
zoOYF_8~W&f<8DAI-w_QE3SUveUJYcTrQ^LXzVpRI&*5bAk%!Ig?_GT7;*UEHBs~LS
z$AOhy-#owU`PLT`9S20u0O-M%l1BzZby0kHvxuwjU9zWZ+hqW@RxH-`E!om_?W-43
zU4tV2*9|V&H)`rrH9N$b9c$I=uO(|vFIj(fY9v{9_HUa$#A)}o<(_55zdHJz!25yq
zu}{j6eAKk07t79O94H(|Ax_KbJJTx{lBMl&+eTIY^3_CD|LR3J33K_U&Z<Op=X&=8
z=gEZm<gY)g=e!4h{h5a=e@?@MzJ54RGE{B-8&}g%y%Bu&kr9aLu*Y9jP*{<89YQlX
z|BjshksPA>B{MjESdP(K!a9XDP#DC-1bJ;5qO)K^$mbVZ*$gxJ-zX(P<D9&syxIwF
zv9&Awl*(}^Oo#CxEfJ8c>;jg+^%1swgl|)Na*AnzyaBNOkFP7Tkd>UjE8W(aZtwog
z*<{$a;lgb?-k{YzzKn@{R<62k#dEJeW1}y-`sJXnBCe)>W!Jsa8On>Xwif-en0&(;
z&RCSuY7Bc<bf0l}ZR*s3jL~d(R<luBkui`56_r*j@47RZF|kiGXRTR2FIwt1E$lnj
zzI3zyGe@PtiX2LVO!Q?|zby1+RU2fZFFRLWz0BWvEyMB^aaLzMvUD_lbFpsIN%4oW
zoo9tR4Ttgyr>|V$^pz`|zH)`r7YZ+m2bYd6yO&NZ&WM)UO(z96lo)ohE@n*RGjnB?
z84LNWoYk>uBVTv65sz$T2J42)v-HB<m+!nRy6Q6q1mrb|zH&{XuUwPp%g!2cJG2-Q
zEmfNi3fjYAa`zvkDQ2^r-nr+Iv)gb=vr$wG;a2yZlZ!Jeda<Y}W1vt}R$O}5cE`5N
zuk3#Bz&i)T+8)u>v(_ZK_GC;fMXmwtGq*h0r(K-@2m37IDyo;K#PYV)U1E7phSf~#
zr1V$C6fdKtv@*x>mwgBmqi6FHocvpwAXF8C`UyR+!)*j)a&QX*H3eQze0t?JM9Uix
zXTcqW8MiiO-i*5(7LU~C2{Ug&tQCG6ZfdOX+i&S1L|^^{vaTwt7_Ty=8JT5GdrEzX
zs-*3{`4u>K>DI0wgJ24~ZTpjB%S?ckT?oPXK*@sGEa{&sMUCY(Z)szicQt>c0nwu!
z!IAnd60xJrZ@_UFy$Nm=X`y7V85k6h97Kj(nNZlL@@JM;k5U-%^K%pxp~kCps!Pe0
zEvx{Es*D<wRzd~Yq!Iz1V<>EaOFLWQ(c3o{Z>F3rqO;|p9dr(8_YHSh%H1rwo0D#w
zMU|=2HnFq~F#C~-2zxW<^gh~3;%}7<riL=4m5%hgU~co=q&zC}CFdZ5g};Q8&&n&K
z9)ZhDx;><u6ApwX!?>N9+wrvJAd6u=nd9%Ne*~7%KUdkZC;kTsbFI9(vqYq1$qq-B
z*F;U$<Bv6c7#`r;x&;@eJ%6booE~-B!7tJkVsjF04Ze`F;M66NtsfKnf1wnCjupRt
zJB6D;=vI+JmT<1?bBAI()%%}m9QL3nM&#JN30rl#ygF6hC6;$3%X{J{H=N}uXO{@(
zO?hLwq8TDvu5RdW5VfM)&bvV|Io^#CB|nYXkR2E>;|lFJFyJ(WBy+O)bi78D^@-_#
z!taAr4~CJXdO&Iz2`$Il#L#mKlk+J=l$ar?MQjh6Oguyc#Po`+Z#yK0^VxVvn-eFT
zH@w*o)Ej_`NS}x{W>~OAZE`8Ns4=Ld3uI~xm{ue0bed(ld&^F*Kr@JlAYQT<FeRC5
zJId62d{@S<2Yq8u*?{g2bUN}CKuAw&M?IJxY<XO!{5kxi8lTXRBt@lTf-oaM<d}g6
zs!g)cHKWX|=IPs`6tA*+S(H@1Jrt^)*Jf}dBWZ64Pyi8fZI&$5FqW;b)Nws+S(#)Y
z@f}F;MXx~X2@=REcX_V=b64!==6y`dm#`;nV^4X?;}<>tq^Bcp+3?h)JZ++<4bmy)
z^{Mi`V)@==`Tn?LWB(D+3<f^LWB2^0(#FN(@n@E_>FVZH?Y)uJlk3{|M}Tl2+n_zr
zE0*`BtLxJ>jp<6_YgX*s<n$Fq@sl{kT@{I{o}{xU-MS;;YI@kQYkl`er4Kru6J2c?
zFIU!-Dd+6ImEMnSO^LQ6iMA6DOR5t!&n8PwB<v?PoUI9SD+4xu$2P1~GR|C@0$*N6
z0onW#xDkFv4ntA@Z}KrrlV(~V5smGdH2;Od$oVl1PZ*xpxePREtgEFN4zI+nXE*7c
zacK;7t7U8Mwej_#?@q1NiT=S&V1IQPqXV&o>19mhlhGjZSvgPZss|!O85?~9fpKg)
z$X8oxXj|L=n8Qm3qg4Mm{<4pHE^dO}24u*Ias+ijXfw*_Kpwhagy4diiFIhUq%g8C
zlaf9kRWRYQ-vac&BIVuLG0otU`TD1l1qa9Y%<ObDB4Y^(0A?+v(PqGX2WutZ5XNx(
zgVQRjP%{q^6j_RoF*4=Ti%JwkIHb&i9e`Uawh8|$f+TAe2uHT6eXz?Eo-~=+wai>c
zZeu*z3wE;Q5*MM$NDYd|PVm;=edW$8D|=T5liu#Q6(Ahfea_~DxtUGPh-8WcUkyNL
zPO@SoW@N4Daq7AH5VT~YK*SG&;%ZFZyU>xQLg*}X))s=}TgDH<w?Z)vNWkpvPfjZY
zQutsmLAbmi_Qj+;aZL^gt@MK75)ksfjUpN7#Q~ZJXfdafWd>^6!XyvXQgGRz$uT2u
zCJjXv2MBJ-!^<F0L}g6s5iQU>3I_6hoqTVyS}31W23Ogl3ot2*b0uT+Nt14_`?s8E
zCB2*GdJ1(i26Su3dz0@>rdrO4E$5Og=S6d4+`bgvz6gG{`|xu6+uirNSIZt$_I`LF
z?!^9fc$O}tyd9#qBVF2%E^A6xHK!~6U>1~if>%&ll+l^!podbByr<dCqIDa{5@^Wt
z0F;h~g=7x|i1c%UjXnp-_Y65l$@za($3Z>0f-eG4Iz!8<X-&6we$6bl?FW8gXjva8
zUC|a?O&uK6JOUwR-6-~C40xmUo~q@(72Wba(cMJU8i6Tq_43g~eQ%<=SM=;$yC8b@
z6ZJ-5%Ub;y)SJ=|s(%Y?A|#Za&2PimDrhE?Fn~EKgd%8_`-13M-j@NQS5_usW_;Z~
zYGPt&AZWIvpf9sR{6JWX5kFSwXm3qtgX*aPB25nB?tu)lBV7>_WO4$|IHa1~lF2E#
zKc|W`Nk*WqP}zsFhrGlX%#$f2$qLdTkWVG$?>r-_V>_Q%A%z8dp1gURH!x}{AA%q^
zJ%#QKc(96NI--Ig(qk-iEd&|NEH+h0#W7}5F{~Jf$^q2F@GJ=1>xCj(Z!jan2`+Mo
zgCetV29XRmeyey%B{F+1pW+eBl#-pejN@|{>4XQA$0Eb-0tG|mJ1aP>a0Mm%mO@!k
zjJ-q0pUNgw#7o?$F`slPFp=F)Hq=jhW)h|SBQDUv&}q2$tXRD#?XF0Bs?w!(>9Trk
z;F`VIz%|wcbgGNE@|{c3ySMJ#N|p7B^#9P>NjPyk@cC55F0o=)ya+e(J-faWdOx&&
zDA|1q*%FoQqPb(k=}VY>Z0AZAbWGuemge`7$S`>|ZIOMT{<4Ksjb75NMB#%pchgwt
z@(IT*a?_(yNw}NLqVf>+Rbul|_0L~AIIOb*!g(nPUTu5$Z0Y}sbgpfM;S)9M)n44!
zs|OV}vtdL?AYRrBp#ux6m{{#{=yCGVGQv8fqe+nn4q|uTVhnX?W5b$=P>v*$ldKK|
zCb0Kqlw2}hV%8IQXbfF}3L&q`6_ip*FrcJVLJ~~d<qEv)2*l)0ka3cT!hD$P`&_`&
zT`<!iE!mrBAPy{Wz*^oubMH)|{ooH~|N6D>zxGk@UwtWAJ%Tj{HA1MeCA}SS>!(il
z!`i-7?NPDzC<t@}gAZLtnyYoYQnlc69aw)hSv&NwqB~WwN37Vhb|YDF_+izKRMlRw
zYVW$~!^&jU@MFi8<4ZE5GsO0fNDl1QymgxoxCj`sbqljhI11j-ykUI9MC_u)-<n;-
zn*rdo1mL~~<faf}qoPUkdZ0A=>rk2pG0C*ezLqC`zG#Z7oHee{9hthCWQoN^)06{k
z-}b0Aea$po!E0GvZl1fWiDqT^P&3nSQ}+@P%}9+~!LONkT{OFrC$w>6+!WW~cmv`4
zx*c+i*;_9%FM``WlS)coCRUC`S=Y3JB{K~?#IJ5<St-;|8f+?L^CAZOTl%{kIsxDI
zhtIpf%;Ux7aBxi?P{>QG4v<g+@T1Znd4=bs_UE<JN0BCb>f{pTrO_>#3!O$&*`dtK
zr7Lt@h{cc<H_fG8q-#-Ha(L#oi@0s4Gat&3`Y)H{^-CZ1uq1HQekl`gm?BJT+XMbb
z7TjPmpti_x;Y}oi=@uqF$M%9ia&7|M3$lwkiE#}T+FWJ_FtQ{^hRX*fqd<d{Yl0j`
zntli$pi~29P`;S^K1DJ91iNGNQUn8ab>t(8C?|EffJeSOt0V+jx%?wzL#iw@ERoE;
z@LND18TARwGTTIvoUY~5i=80&^c^$@M{3$zlk&ET-d2E}2bEn9dY(yC90l+xEs7t9
zP=~8>x#dB_?g!32>AL1r-5#-S&)Uso-H|)E^=eGj>=bKuuI)?K3@lmGb&YS|x_2v8
zcTlW5nD(`&d^<$nj&yxTs(z<fzY~{e;3@bHfv4arS+awauIgMpAy)2=pN6Vk0*uzO
z`jw9Rkq2dc30GgDtZ&0zmvVQD?(Wst`pZf8$%Or+j8e0CWyB^-a>23(ObkSC;a-(l
zeIZ4stl1`6U)7pJbtE$*MnHqex3moDIf8*e_8DfWgI(FO+4Uh<C4$)evE##snUrh_
zI3;36Xr;N$PBkNde*gCg^Eo2lZb@!-Mr@s>x!&J-VxOl;`=8LLe`aLRb|mL?V%I6L
z>~!3|QQDX)?G#Hplcn8pTiRB;(jnTq(!P#F=V8%zgd}a<HBgrRp7$@SzgzvleJEi+
zlyDzP`+8+j+@!BxwAZ8^Rm-o5j&{%;4J|9i`|j13*K5VD6G{I`(FeKNnhjqAipuES
zmQ$MVxqrpcJHy<^ot&dKUExc^Fi!QJ$0j|5K6FMRtc(g_<#%nTseXoj$%NIvkdNpS
zfzU;E%nP;TBVu15NFfju73#_9rigza-=}aG>s%gm0Y(-%=CskU{SdLZQp{*e4fPu?
zcgBD>dR9`g>|UN&t`duzGbRc$%S4uO`GDwd%~&YN%80C$(&f|Ou4QZ#1TIkNFCFCD
z;RJ=|uFDwkMtSvZtGd+}S8bwiSH?s^xGgMRawkeV62%>&rE}9lfek&#R07sA-rF-#
zkeMs*%2>z;GOlE)Q?%6m%7#yQ^;5^dMJ4QAvMU5T<MxcBkJ(2(88`O<&~7F0MnTYl
z?PTC}&@UmgS_XDIW#o-{dO;xNc=KBt=+>BdE7CyUXu`+{JsWh1EYKRVLTku|laaK9
z?CQ5%7Viu?C>O{$7m;ybY;|T+u+m_E(3fp%)`RrLU}+WeUC{8+jFv#d$2|px^Y#a=
zE*Os1cu=30_XbOmrc7=PLQ4@^&X*zNDLI1`g-fL6Mxzs~EF905%Y-c(K|NoAdaC%R
zrKK^{^HoSw&Dv2w*P!62X!&a7sZn}Wi!y5PU58Qa1|Cw&*S)2EYMs7dEzjncuYXDp
z<k$wx*i*(vA@CbtcaHj)c2&<)YioK+9nHadr4=ntNg=mFp0|3~j%>v`Xn^(2g7f^e
zmdbTteEb-nM!r4Rgn2U*E<>I-nqQRG95j#*IXjTEg|Qu4fkf=c*Pl8H%_1^&6S^R@
z5pek`axi}C$QC+~5F7g2Br^T!bfAiT3YuHm98H*`!M>s)n+@5cZq9dhI&@3XqEgR1
z(xb}W4#HT170M(q0!UX5!ei79yMMazP$bvft?XAforUbIyfQ;}3Ih=L$QPu}c9^kV
zw<Ua&z-k>Tfy#i*owC)6w%X+z4`2huUHxeh=$Zq`qJe~YK&GXk$v`X`vL-0mn8`s!
zGiDz~GK(RjNNDdV!}m1|Vqt!aisF-^RUsm}5Dx}dk_DBifOQrwL*<a6IqCzkUQ#6@
zjuCs9@(`Ux@)uVaFV115Xm3F*`KBfU^0Y9nJe9?P)q3dG?<r{uh|%GG5OS_L6{jez
zbM|agv(o)5)T|2TL2c^cLwza$<dDLdZH2B7$eU_V<8yDBXhYsCMFHM;Q!ZZhL3<xZ
z2GV7THKg;avAH)XDIlgL7oz&29jXteU9vRAeS^xvK-t-mj`n2JLQ$enU$&H%6+q09
zjwp>-8SFuO`c!}JO)cG0idm(H?pstk3Z)QT!ycY`pA~#$U)5?HYS^LrbMLACoL}{!
z48pkB1GP8ni0~f#jA<j4Dah;anVl~lJ3b>E9h;4eg@(^ac17<E5GoiVJGZd$2!ck@
zw=_*ga1}Z|Bhapwid5@-vdvLk8NpCAt|`E4%L5LuSQfh0E5M#K=dWeVOj%yd&Z<yT
z9znElkg^wt$^I*YkZR<+Xg82>S^aKHgIu@+84u=N*9w15ePk3IK^d9M`wscms1WP5
zNC1~8WZ+W~mQ;G?7=u+xkeB0R&ll_#GO9{J%<`phh#FQRYYFBLkkCyf6W>MXBHv+3
zXO+{jUJp`$2euceD@-_(Nx^`vAQht^*w2LIH#BNtL@9Drstb=@4Z?^a7-c8}cHb0x
zv#Joa%Gjl0W>X+b<Iu1PN6E?c`)M59_tDIJ5zpKap(+S|gU*FNLunu_ADSIm^}yol
zRIy(y_NR*b#NxiV5vl^IvL3Ol2W;8u)>QQ_v3ggk`nXsP&8G@gnNZckGuu;UpJ?{2
zl&)4kFz?y$R;9e1qPO#7@7XnDYR8bcV<@%bthnPW6b&iPFM9nc?=I21i!=|LNT=`N
z@1h0>eL~+}(FZ-h2j&{4y4WFBc2F^l=<N|}dQvq9#hQcbV`9w_N>vG^hZKx5miZH1
z$HlVaNQ-{?Qq_H8bzj<E0@gDw?C%cW8Gh)lTQRN{CEa_8ZB0rqHB9}m0=(_I{Umi#
zS}h9~v6P9neM$Fz5K(n3RTYR2Z^hlScg~{FrQ!S4YZL1eN&m5oj`KD_6~l{EZ(2Y?
zH2bMp_33(OG(wee!|qDi>qL89%6?e1A4YPE;}dhIOj6JWVY_DwB10z|LuBY?WUI}I
zCk5t(V};Mrt?X;ugJz9-<K)#Ax(kWafe%z&IIa-CD#tR{Ks{If2kwvLW;<Omf31Q7
z+G~&_xlbJ~Cg)iMNG2dcW6`J}l>%<SJT23wfazJvMW(HVZz8G6NzM+IoYzHLJs+rS
zV=D_J?pzqFDgco_q}}r}YGb;B_R^)$yC)ymy4eyWJ(~FGhjlG0uO)V!{AgFQ?m5Ud
zr#-MuviD=p-n7e?aCL6Ds#C5$(bbo7^^30l^+TVyPC<sLxQiCZJ}_YHvUxNHld{uI
zh!>$XY`Q;!2Y9P4GK?vOfBOS8$N(J(<PmC+g7R*A3L#}N18LpCo&nr><203_`14qP
z1xq6VC+HJque#53ISq-z^{cowFnHk5)IeEMUnd_Cl_ZZKTZ#>Y#%=+g2h{s(1{NWj
zXjimFSu{Hoq~a%X351CVgl4FUb-A@cAYVS_JPO2DS&VX#FCqR3O*`Qft(BG>XDAQ6
z%Er27t#Wqs{RsV1G#R0M<0@my$$P}cJqf!n?QC2b``FpK;i;6Rf>NG-(bJzecuw@3
zOI&zC^t|v$#}zjaoY=qKD>e-zT=k#2n;=4;azT`~DP7}FcMPP<YM{30DT3M}jA+8d
zN&9L`s{N4IekkcaoUqGQMz_dO5a!1gQ5-#C#18_tKZTaeQ}OTu%L|NnkmT}H2!iCr
z7Qo_xOJ(s>CSOtDDvXS%sf!596qgcoNuY-0nKSrTmxbjIDVmt>Pe6YDTP<))g^tK;
zdlt`C`-&DQ-n<sjMp8>M=9i>mtJnlkYauQQL*S0jX}f!YnSo78)=C4H@Y4irTd>uN
zNEj8D7raf`BFqXEgOl26NYKbXco3bWA2%4L-9uJh^AIIM?Ir!Q$A(`}wG?x^g5iD6
z>k#<OD_e3B2+a%FuD>XprfpIC^ld@7($8r-`~Y<`=4e&DYJQ+!tn80Fvj8+zxlgRz
z7k7T@EWSOzIRDUIbbEMlc)9L=AIuQ$O7)!(@xSLpvg71O=fsW?v0@}?Kl>11)>Zc|
z_S9-qs{OEt|1F1;4M#p46dR6-u49N~a&vxEvs}JXvNR8UN48@e&fCu}KKu2PatTjK
zx9Ke==4i1hUP>ECeP{u*4fW^hhQfRMqb`e!dcam48H8iDL-NZ}vM^F2N3y~;;Fg7*
zi-AGf{7s-PCTNmt3W<Z0fD;e9L~6Q1mrrUdSs4Y}mZ!<~^p*i_czT=VxTmzd;GH6G
zAaYUAS-?y<PYi`DXvvN8@7g<TIiqs!yoXZc&9@6aNqfB)yW$Rc_17nZH`u<BOi;WD
z&*FC_tc2!IUY?zqjR?mv(dxOfKpE^2C{YCiu#E$w^}_225=f9)*iDg|@h46b$ssF&
zMXt<FOoW1S^@TRjmLxjNN+gNm=vJuo?u&O`{Kgj+t+)a0jgKuAZ@_f&@x|jyy-Q<n
zxtGtaREx~8+4pp7gX?y2*HCiDv84St46z~I$;Fc}j9I)qxcq9;UZ1jeiuTT=y*sW+
z%Z1?e(C%E)EDeh;A5s+fxVSPbdUuGf-lTo!rp4euJAnJzUAGS}9$w}@wl$>fE^yCX
z#c?xmo8pqYmOB<0>O8liS?Nu>no}<1-H~+dj1Q)ruDDsobbHacEp}kDSkFy)e-)H#
zhtPCRzYymCc#h}3N;a{`Wq$crd7v+vUDrThu^YEPG7|#^4{@ZZ$H`3%?OCKRu=1W#
z3Nr^ydl{nFN-Yo}FQ|%vL#E)m&*?%U=kHuM%t#mRALFB{ObOPe>|vW5i&$35h3aMp
z6b!`C+{jzyD*5Q(|HXgBgQ&~$USO2+zoW=c;E=+ktV218Xn|4bL@=v}I+Z6`>9A4k
z`qM^XTV@-IE;*t0C}3NuBHD9}g|^DJL|)n~KSYtVSt?TA7SY?XHk|ObB)x+~hSq%>
z3-O(u-+pz)3~Ce-9xnINDaDK+(6H9kKG+*fx_T1k9_+9|WRS06SFNeGePY|b^<uH@
z!1}olH6QLwdXH0ysD$omSFIm<QiCswgD)n$tx4}otTHt!KkxG&R;C8eiG$}7&tDJ+
zUr2giWTo8w;+-!p&n3O>_=3qDbA`M$evYnWIkE6Fn}asIH$9k&r!%ra(J43@CbO{6
z6E;aU4e?<yN!uSB9=SBw3=3G?3z}QdIry?8x2Z^^2%<zveFUy~w%~vf=8i5yG|Qna
zgdM86h0d6v5Iw0LQ=cbXQi#*5=G)emtT>5UuVQYC3{PbxG-BE>k3_xdm_W3IOsH^$
z)S{=dyh1fKWDc{Ozg*aVTW;R;miE3`1uY=BvYbFZt5A*$3h)HC%5C9Zawpm#oFZqP
z9NL5k&2Bx2da)EN-+n|&F4ejSl#S_Uo+5LyWx5bqqKjOanGNy2OF`f4Gz`LzU!h;$
z>h?P&-L;u(!ZE6W(ek-_d=p88LB(1!&Q4F_r?~`)5;33wrBC@MU1Yx3pHswTYC_Rq
zglyD-t0!xaDAqM-M{MgL>(qAqRH_3dFF?;^4EE;ni#d}J3s9MgOn@+7hAfYy`}|Bk
zf-fdC83?VBt7&}u)V))Q*8cUOWc466ZMwQ)dq`Q$-MKq+E8S~N$+EqW17H@mR;v^K
zgK2l!2Fy>|8XvlQ)859kxBjs~M|7PISMyfbV@N<&qoOxn^w8#AntnI<Ug(|B16yCZ
zrXy9;C)V^OYj&q<2E>|yWX+*e%~7%DXtL&5eB@IoXLsLkeBkU(n7b3s?sOBgn^n(h
zZhPqNqPn1uUEQ@&QS)}yy{c5jPO)NVs^XwnaWMU4&?AGcq2#f}Of545fA(<Bnncav
zWYLj?`G|axq?mwV!`i*&Bqsnsr|;&+7&8J_vV0k@W%wP8p33&E0W=EAwJpddfw@9L
z{>aNtT=m2zK&Jp6T^``c%1`pl$gps@@VUy9;Srqw+n+)bZ-vCKR6tS)2=Q4f66mM4
zkVqD9q#K~8;T!*dwGAVrgZ&4cV*de{4e12RmhNHC!6MtRM+>u;G`Z1;8Psvk8duT5
zHUp&V800vPlrn(H!Vm>(pzTdZ0|;1#DNIwqw<tMJzIVw-bgb|)9LX{}9RYj@!usPU
zh=Dx@vU{x3tk)?WtBQb>Y%Rep%Y><n9HNUOPrw3?s#B`mD#!pJ&(=;p0FZ^L^HUDd
zt|xJQ?0Pe2FI&2fd)1Zhk8L~B?%L(+qPrzwZ-I@rl+!0dR@vE^Fn7Y;AntRASk|$6
zI)Pt5=^Rd$ogqn}`jsxRbVr<QEZd#&*OIoX<ySwp`O+j>)dW3)mFHJI->G`PD&;>S
z`j4di!=isU={}Qkza+X}O1p|72S%F_zo7!$ySz!}aKnsVStr=`WsRw_HnFU2wPf|e
zcV2$~<y6;@*fo^udQR+mE?IUiZvR>TF_L1n{<#0x>Vf#_Wsm?Z>m9^<u11-4B>Vz)
zrL$gi)+ZWvCz+kOUw>vo3>((JG1!kb=_LyrLfm;ow(NI328r$WC_LEj1$VX34B>sQ
z5W|U}LLo_2qV?1rh9jD4V9zb!`CGq9#PBLD6O=?E%#7v7&X^E|o`Hjt@4JW;V(@QK
zRW1!gaQFVi70z6HA;hzA+TW*@B5SgyZO+>RUmHlb^biYUSj7L9;Z*YrV)F}WSIN>K
zCZVM$KJ<y57=A77%*Vj#7JLtFln0d1iKh*yYHm-%E~}nUSS}%vg01&@h54CJrn^G@
zAzmEtX<FY6qO&1kZg{et1n3!F`W$QL)AZVT4TO@J?l}<|3lQ&Rpg%jI$gDg$as;FZ
zOw|n{95XkI0TIadm8#6f@Bso0Tg50`jJycs?j7fv3eDp7R9C6LblZ#mmi904snULt
z{tvCc2!{msN)xtPvX26tWQ<3f=xkf9N;-EZ%)8m39EZe*gKku_7oL(EKMlx(M=&#U
zous|l-Js;nC6Fm0hGhx=9d++@IE8Nk{unJI@e81)b$OPRvXmQc0ESRNF?Ls>A<fdu
z5NyzX8K=R5GbhNr2;}z<K^Nw%_5j7C{mh<REJK6yOqFALlwTvklzf%ipX~(pAA|H?
zqR>^81EP+8%}v(eAmE`wcG`>EGRyWzh-!e;rq3sf<qB^g;ZrEVttAUIlM~2|D^J*t
zu-7MSo!@gOcArZ2p8ja;<6d0V;qt9jw70HW9@xp;1|?}*J(K7heCRH}vsZMtukKH}
zcPH$-KXrN*Z@}t6+U`v^>?IRwzCPR&x>|8hNK8W2ejs%9XCjk?vPN)0T;Q^oe)@~7
z_9(>f7OQI69YiQPrdao7J+uu;;}Fs?@}R?VgC0!8f<X1lP0(U0FzFDtFPMHZZ!s_+
zidyC8ch;gZGA$~|v|uSP?I$*yblD&*lJhlk2=dCC7<Sm;2PwcrqviW`1G_y@1$ztS
zr+qFJK{Nn{HF!nUM{=kPYWjiSNQCe=wpic@M=66z$uL({X!k3Taat;L1tzZ)U&7V_
z^8@jdxGIjH!NRD7&4Gq=)4p^~JFH1mTH{5upj;_iy=cRl=}OxxQ+8Oftxq)WS=Xob
zjfne35)Ee`*q?)enE22Gd&5R~FIl1N5X(Dcjc&30=-LPz{M3N68hYRib_itbZOd^=
z^GSc3``|nc`WKq@{7o#IV%5q6T?7MCSb@PnXy!6(R;XtoGc!kMnlf<0AEPPxc2si+
z($)h0l*W$4S{Q2N^2kR-%1IUk*SeC<9FbtUA^*_rmJSkpVI3r_?k;y3COE!L7T!?1
z{NSe%v`|b?nHj)We^Yk>ji6d!2j>X;P~K=#5!60lt^<-84E{h&1e~R-%7;7eBftmA
zM7jVQ1v57lP;DQFq=x`G5`iR4%=lu9RkGpNZUXp~X_lUSsF`&z51m)14DppZ*#{J|
z9g(Y(*MOFi^c|FcwL&L4EZOlRZG1o(DS%IgsC)yXA-n@eGEy|IMrqiv#^psWe4FOV
zS7?Ffm-ar*6k$aR+-F(`vkqC!l{BvGTAP1Rd<?Q5POm(9D|?g9j)b{`tx53t_MmvY
zt|F_llwi=RZJVq(4zwU_L<BC~k~OuIyM4*V3|ohT_?=f?_!$+!sQ%q3Q@~*(+qn`5
za}bCr!!G7!16XwJDqMsk8P6~Q0CwXfFt%crvmh{X;$JA|FgXl8I8DC4Cx;LPft@}J
z<RgJI;Va~$V?=18&n5EFYNrE(tZU&%ziB`V3$XW63^}i3MMmC+Ljvq%z9^xu*f6*<
zTD{@mYF~!KYfXNw_kHO3e*b3_LiVhRSrTM<Ml+=OjO#F1SLQPGT1RrcKGOe^UYSvi
z&2U<iF2!$%GS8k9o6M7`EH@m{FpFE{0eC9&!%R|XPsYT)@q@Od85{H3xnj?zgLwzI
zvWiD!>xyM0D^`>*qu9cNHnU;}%WA(}u~@N5cCa@0xeUdbCIGzEW8WEmf0%xZv2y)|
zzrOhWi<{)llr|U!HR<x&jE+1Tmf97MXldRw&{yV!rqZx?!`q%Q;El?x&fC?C)yw+j
z7v8>j@1j`VE?U}GUs&7ymjmA&_|To`1Ceq}v>e++i}q&r84c}ghQG9b*G`rq+CTJ=
zp@?=e6w$bH?7b83oOti-J7>v8L}SKiFzg|N5_lzcoxpi)*pu;ahn~@7Odcky-@P;4
z1QTHR*ubyV4BQ#W7%0NX`F5@GVqL$QuDs@M>`rWj7t7i+HcDaVY8x_?kF0dD*8kE;
zU%R-0Bbszq?;~4<p(a}<{3sJYH$pX-=*!I2?OYoYYxiX=^l9a`)IdRY&RvmlkPkJ~
zY&yxeM^9r}R!xn`80aH!@I*`Xriq2wU53t;6Bxk0b;DoVzi(Ftu<3Y)L(E5gA4UFl
z->=9kA1t(D{g))?_)LiGZ4-jhJ$7lFEqPhNgRl>%+uVYYmCN$4<$^uH33Q^$x}IkC
z8_(U-)AF7yWuLMXMR)cWUm{TJR(}*VB7A{usOL@&GjnwK?JzY85KLAkVf)@r$(Z~x
zeqDlo0)hbssgxv=m5}Znw#=0JrFs_0;BfXQqq}9Xk#6EqjtK(0@^1Z{boru44ERVL
zzh&y~u^X>4NhPVdP!86tNH;?Or$J9fb22HCQ_hg34g?Y<mb}|SyBSkMAc0n89C8DI
zatVc$?HZIL1yjFyvIxe=%+sr@rliC&mMXW`rs$8;)RSbeKoaDFkDPjP8sJD31u{)c
zVyrI<jTG--@i6Hziz6|}V5>4q`O_YljZTIl-Rux#Kk?B_dCOT|C5qXW4Mgy3>)|n>
zh3apmH27s?oWS%OBoP^ow^LLHMHyI5c7Vzvo81)kSLFPFoPSTwi{!jS&JJ>pk;9IR
zL*!$J(k1eR$jO}`#K(}&qu0py204F3&YzHTgq#&}zD>@5A&2-xOvgzo5rUWTJJXQi
zR|Xh2#Q%eOfG}KG-knF01HUeeWdkv{L&6V{1pm3nKjC=6FGy=Nzw&UJeIIjsf6DC;
zxgGz&*?+=$f5J7u{V8`;<c|Jl^7s9OJM<Io_)oaOUukt3?Jv!oX2(ysUBA-mHQGlU
zoL^ZD8Z96se0C!eaO4zmnu9;#x_-j-|CBrQb8cAVhJVV9h}_7A-MwH*TT2#9>7tqi
z+lH%o0k~?@g8i}4qcN^jKj!dy++76!#m5|8nI_Iqm#9B1>Pe7MQ@V5ul8+i~#%@Cr
z-6n@urq-h=O_!8qba=yb+p>Xvm3{fjJ*Vhy16<aW5_`>=v5?QoIb49m@X<L2NDN;Q
zXSBupmUQubUk+?KDWuz>*|7ohhz7g?Da)&1D+oR_EMjLY<b$oCa+nE%&z_&zK_Nby
zW+07Pba-#zZNM9a7_IT<CEe2bCG%pBXsFyYQE+v&riUr1;f*vU-i(QS&`m4f+6@Z@
zTdB!5^4Y0=2l>>-FP)Dc6b%)dP6|BKqN&C&+ulB~cp#&LA4P93&_uyzD$qhcxkKbb
zhtSg79g7{Jp>)$hK^HV`O?kFF_)#7*n#gD7ii$H9@>$7eBcI$l@=@#FxcKFZn@)WF
zs`Hpmb4v4wW3R{08GAKtiMrm$9Nv$wXv#I#MC1NM|MOzw`Ntf-9`E_024PJH5(5{+
zrWYP_^qIM-<+N=HjVGmP6*aACeSO+epDyl#*sNCj*m_N`>0EAj+kelWXx_VCxyez$
NrVVkASRC6M{~w}A>mUFC

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/smolvlm.cpython-312.pyc b/model_executor/models/__pycache__/smolvlm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bed5a9965443707c7d285ba2d5db668a3dc64a2d
GIT binary patch
literal 2255
zcmai0&2JM|5PxsK{Eb~cBIgTIT7@_eTPmeA6+!{Rhb0nPk|K3`SQ+oL*<{!2zFku%
za-<w0HK=NPs&eU}haO7d58y~|NWIu<rC6(?9x4vpOcPYpQ)kv67z*l>Ja1;+doyol
zes9*l#A0Cr!<4=>ev%3K6NT<jI?T>pV77=(bZQcds+1xxn1Us$qR)$_WXY-wyrj#f
zVg=No&nv)()Q}Zc!@e8<Iif}>5y(ZN2RDcwV&OYt+m9L(2$Ppay6&IPEXramc(=FH
zKOKS7Q5Nc+zSG&R##dsgJ&#dJQ7^Gz+2*y&b02a$&m70*pbK9!P3xRpDi}qO_RW2K
zc`-Y8W%kTv?dti9*@eZcpFF1R(?eOE6^y)de70g)E7?-H;yPz5hN&~261=hQ>IIvF
zIo)s#yOc98vJ&Gt<h_CJj*feyRLqtNHh3NGuFO?T*O;^QoY}i#z7vT*^=fbm#4W;z
zN_C<NI%T3RFsUHv;)bNky2K#!s{sOaVG0YdKtULU6R@tpdT>Qf1-t_<CZls3Pg(vv
z$BT}qaOPHcDUZQ-2S9>E;I}giWDCkxBTL=2zIjRL6FRIbb#(=5kQ)7geoYt1Z91P4
zJu&ZAy+o0@+Kqx%?$(AQ5FoLV!^{GYf#9Isv9W)$8P_Uj%0_w0g{v}ms#-ZY{r>Vv
zmNAX%nevKz!!BiRLRmAGtus?&RhF-~HgAhg#sL)EG_7=bh3^H6tK+ZCMEd0mCGZM|
zfUJ{dd}7o6rh2Qo9iM2#Cw@y!H{!GRt^uhBXLn!=@j|^o=JWmez^L%IQw6dGnOILi
z7W=addK_H{uhANPRYunY(D$<1K7({k1br7M&(&m2stGl*CKbd5!ZDVV<cIG?3@cY;
znrkn!l9wptmYLSC*;_R2>p8Pumy-EDFu(_pB#|Jx_z(~WF*1gO?+4CHXqd)6d#}s(
z%lpuQa|sA!JF>qX8EGa*wv$th<kYXp%x1PZaA<qrXk*~$W~4d%_V)0J#_)-HFxea(
z-yWTAj84~sL(TY5edJg@JyVa*)Ppnp02oV!yr8C)au(AxFRW<*kcx?XRMS4I<jl^B
zVqafkdDn+vJ4v!zDVxj_9hdWAFm#*v_WU4u6cj#*1LK?qvO!t`mCw^32U-N@`nv!N
zWLk<MpP}{15AH2CCeO48O841=bM=oFA6)v`-t`r2(`Xg(Z$OjqqB=Gm&G5U<3q1i7
zj$<bc<ck-&f-ZbVbrE_4^n-%5NeWb#H}<IVCaF?YSs*FJJJiAcYr7WqO{L7C^HseF
zJ}NEmH%mSN?t0w;5sp~&k&P?g(k<e`+#a{Y8u<z?TB9}LF1^!v50tDxfb%JVr(m0J
z5aN}cN||vilTk8UO#_(vVC(JiLYkI0bB?2F4*CSFt+(rN45ZbG|A{EwHGCL$J6OwS
z>*V)f>{g%w_({Ii+&9>gNoepX5kuiNXaXERLwpp;K_uvwzlj80da=%h^2{{h!jw;e
z*1<PD)4td^ZbgE29CZ8)5E3P4=`8(=NOJi5)fP_oj{l9*6C`aA;Gy|c!i%~*S8@tA
zw-|SPT(+x`?o<PB<i)W*X$wCh0PLK}5gT66=zO<0d=Q8?*vZd-zhXQH>pX-6{|0zN
zot>}vD*0&l_HtG<9GCIFuI-145k7w(Uhq`=ot@_I!2;&R`4mV?q?A4l6FT{b9DYbL
zkI38~Wd0$!va5tCJd%-jb_p`AAtFrF>Hckcq(P4~rGw4T!R8y2y8%fMcEd6a*T*mH
O5SVu&pm~BC-}%3L?J$%8

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/solar.cpython-312.pyc b/model_executor/models/__pycache__/solar.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6fee5becc344fbe0af0c04ac2d5378b1c3111030
GIT binary patch
literal 18938
zcmb_^Yj7J^mR>jBPXZuF0wh5a;v0O*l&ps>S=Q<?k|l9$%d$NfyRZ-&q#ywx-2i2g
z3wktLP7Ka?#$+Y4q&J?JlTETz>?-rumL`8Zsccm|wW$<Z)C@2kIisyrYRmZrkLa~)
z@+0}qZFB>qL5(+?mU#R2?fW{n?>*-`=bnqdaXM`ru7u%-@rE-T_jmN5UgmP-p+U!S
zE1bZEIe`~+2|lR{>v)Rm6Z)hfY+!Li!WcFp&6qGIO<@yDGbPMPOW4BV=7cqA3)@)S
zlCUQoVF!y_6V7B^xGw1myV$cW;ZAzOo@9Nvo;}+W-eg0#fyEt(#$;2tiN&1>U(z4;
zC!52~$(C>nORGz?CIjIBi@OqS$@XwNi@OsY$zV9h;-18wWM{ZD*%j_$&-ID!WKXy!
z*&FU<&)!5|vOnC9c!SWG2qg!?1IfYgAbV~~3?+xd!^x5GNOCkhn%o=Sn|v(%SaK{p
z#&bIETb$r~lN0<g)743J5G(f&^h!LupXF>u&Xzxr^Kq856*&WcAm@RYgXL{Q-u6f5
z{h-{X@Ih9h10{mBOT-3ZgC7{ny*@N&2<@3ab~ZH`6Jx1~*zj~JF&DfzorsFT<g^e=
z1Sh7GGto@^av~OdJ)XG|JTp5r6;Dl_j!qyU7N5G3NsoL+wS{=uayAnaqsWT5{&;F`
z9CuwRh0y)17|V#!cq%5Gm`+W`r;uhnp2@^gnfNqiXiU$}%uI`!NM>4`xDugO<ETd`
z+fPI%uEdl=vhBr0B3Z6LCp)HMnaIpcWJ;W#osqlg2^FTN#R%(qWF{&`6Ny+N^7^!x
z5F+XLJax==F`k$`o)Rw1Ch%l_{=&uaX)zhn%PkjT;uQ5SF`G<1TP}MZU5<*f=ect)
z?o4`q`t|KesLpkMdMchtKPyg8#M0;qlIowEje^Q~4B~W3Bi=&26{ly2#5%2-3uj_c
zL2i0+dLnvRO+1yn91{c#IdV1%vB~IcA`?+YK9ZP@3NcY`PDbZ0$0A}Z8J&q-yB<kT
zL=&+{Dw-sEy=PPSD#@4-k7i;ou<=QM#?uGG2wqf1J$-)q`QsRw^3$`=hD@^O_-tnS
zCFKjBSK6t2_Sp;ZbQ*m*ADu(HzId9(KdGd#@lM9jnB13)UW-Ly$(hVtBwp2g`TL|J
zlhFx$=sDTWGA5|DwCqsGm=R->@f#D$3{^r``QhQSh`a^1730D@SeMSq(Lcd1=wf<7
zk3U1qAQ)p{S@U3Yf+=Pa%t)~a{A68@o8$%So6fLVu)WEJEjjK6AGTiPLJrx&X8eWo
z&yLIXD{(=HrPyqdJ=;1@6G*m|--7_z@fv+vOjerFvf*+(nwCvU_hl0%{H&OoQ28xU
zV8I{pi-&mxKjBxn4DQOcXwGs!!m3o)G0$bnYn0=%d{#HbgCwM6jaft1^shKU_fy@6
zdUYLVxk#B0aa_i#)|u6zq?+G={Kl&MmD=@!>Dob#6I~gnT2e4)^=QNLQ~d`tQ*iw$
zpHV-8)<?8T6tQcL3t7iMgGk|i?;M%JOpDCUL}tY4t0ALoi>GF0Gs=iMre`ziLs|?W
zzt~T~0D^hjh%o(niWR$M6i1OH+pF^L$SxbwSjqGLOQ|yNhzUV_mH2hG(w+#;?->bx
zo7fp;3&zvIO18;qF_@ZueI#U+jY!3ewL~yc<C#cABr?HTsz?w$lw{TV1~wE;%*IZM
z;<PBzn8_xz8<|XnEa+1#F)8*SQS7Clj{-&^qm{^%t&zw?BAQM|B54}GpmN>({kKLl
z$(hla_{?x73Qm+6zA=07@S$r5W21@q<<XhB%$4cX=yh<wQH8(7Zp0?AMn&Z@J(?!A
zJu)*VK8{-FJ?fkuQAs<E<n)gbe07uCs^_eAi)P8<ziVl^7dTM#brxF&^UXu+uSv~&
zi=M_}b5F4;u=Mikt9kF>mfh55%Ng!knz!n>mcgR0zv%C(&J@mj`;n;yncl7|)p3rd
z)uuc4j(hciV*SAS6YE3y125&>FF(}lymci`=d9Z@alSqOB9Sxv$o>#L;wEV7s29y;
zwoYy!vchG#tL0g!W}thPSLfy{D7&Cr&?BF=3Mx6XIyK({j~v>(ugbB#CLT5M7r9&f
zct|fEKsNC(1y~|n$RIv}o6O&k&E**)^O3XxY4j1rBlOaY+4Xu<6z1L97bvF)c%6O{
z!A-8%*j#Arl^T23UfXO8E!uMCB~Q`ee&^icxmEL~BbeihF7G>UEWWWC-E;*P4LLsd
zSkdLqS;V6#AJUJXmbs9PrY*7gNJO?pNb1dk??+@uBm&NqD8JEziOKqOMijl&J;UYc
z=>(f1;t6_omS^KcERl#rZt)^@FiivgG^0oCMwA7o=tUI4S8sA92e<EFv9YDt<p10i
zFm~N<^p}jdmrPusqhzL-g+rQ^Vm8hfTHh}<jh5{6=-^!5l9OU}oTs5g#Y=9^R`-Pm
zv41#XFnSn~tj!5Dr(MnE*u(#d$k)YyA`Bo7>dWH5P!<OU2m&JnfhlH=StfN<O<6!#
zARMeQYx&6*vkCT?z5L{enFS{Vho1?KItUJj;EFk~2DJWY5y8Dny0dorq)G6+X$ZTR
z2y#ONdF47bSu{vAE}Imw!gz^nP0c1FR{#zmB`FFauRPfZLqsxHVwtGyU~v-ukkGO(
z8NCsinNG(EcR&`GQAE1Jjbz6JVXLzIVk}r31WgkTjWCWQO@gh(G0gHEGRwJBW<la`
z5p5-BG})(0wFO5Ot2Ba|lnd)olOSpuR<>i_L|^C{_-0!73}nx)`Op^X)7CU(BNstg
zt@dh4)Ktf{S1_R)P-o4zRc$x1wjH%|R^?-TtjI?Jqp(Ze=<f&R@j*{D+B38=*_DO<
zC2*=%fjmr;qgSZ2LCI4c-fTy@HlCF?NY!euq|PhjRb8hRujH!T5<?$c#IEK;F1H%5
z+#gw18}Hh=1j9V~44O3@0`$T~>eSk^z(^4dg=F?<=``Lo#s;Z1#sH~WKhzq~sx@oL
z+JSkDz)7YL$}<=3k?dzzhJ-r1cCEKYAK0krwA#(6-BN|ZwC|oFc%ar^qn=$TG-HHJ
zA6lzwY*g#X468Ae{l;Gzd0W(Sl{->veQR5J%xs{_UNvSuwIooXV_c*OFH)_tg_u@E
zh$p9%9QQx|y>;X@Ff)b}&1GK4GBL32%1mdXiAaU{)mIW!7Ptcy&YMT3S#{!LXd`5h
z!65;s=BQQDFe*F|k}#T%i5HP=-Z&D?WKt0C&*4eDL_t3V0|-KXaX-ZgRVm1h=8qVr
zfb<dZy9i`Gs%E8u48V*t5VtQ;y6H6q_?k&CBL%`-X3*mERQ3f5Xl!MRIt~ilG?l5K
zxuDSiE-up4lnt!AbqtM&-=;cfb}HRrB(TbfG^GVb3`3xdHX=(lXJ%NB6oF5xj4+IL
z-BhGMQ9bY5E}S$(nZV05Y$Oa(2C5Kcv9*`rqW@m~fzA3uIdie2pPmB%H3e6f<my_R
zl3c?Zo;$9wyk#u!8Y?!p6`F^o=HU&W)O?6gWU+IEigXn1u7bT&vUjdc-LVe?Uo`j&
z-T}!wu>O+d-G7_E<2{^r9L{?W18_97uD(!c+b`k&wpaH89c%pB{zBIiQr8o=r=+e^
zn}O2|&pz;XteMtr8z(pYhtaANt-W(}@o3&2ECzywz>pLe+AtLMo|N!Ea58uD?F+@G
zmX*|UYAy4Z3qM<sn)aiVz36K#`1&PZ|N8!qj@~*d`G^7sQdbt17uE#HH^81-x^Z(A
z`<|kvyC3*NgrZShayiLb+bae37CX8M9S5Y21J&^QJ9%&4mdnyi@Y)IJ4*X3m4obek
zb>XArt)%38at9)RDevt8BKJ`d`<9z)?IL)2Vevw_S4Bektw8z6)JmCLfcA~;lxci%
zT+NH8^NZ)%#~F~C2S_PU^@2-zZx{O1h_XMjGQcKVRk)FsovIp*r4UO`RO51z)(lbj
z0Wx<*_Zn(v=w82I$m(mN``x6Uh62!9`2rWKkvgRp_z!ieRDK0LTQDw|79eY`TGf)3
zJJYC5s(faBLvG~N<YHA`@aC*p&AVVhE={sk<+7;y39HQtO35gpAOGzC;DP~156%@b
zivo&3Tb)V7VMs$<yiCC)1;kCo7=n;Z;Rta`xQam5gR6*tL^1v~nZG9U*JV5Lj)<aH
z%O>TXCIO)>eMOOB>cM=|j-_8#W&R5J(>D>^<N)vMn^xME+g2AgJ;RHpoIdwlvA%I7
zv>aM};r;Kv``z{KkA`jy-8Ove__-q=IQ7ZcQfRY&e9=rgO)g4$&i59-w>r1JXZ^WN
z*JxSS!Lo=i$FXW3TZ?Ws_2=xx2LH;r<#TKH&4!^xYtFO;4XH8bRP-V9XYM|Z8~=<8
zB0N1Vo<z?=9`O`z;%N%LMFD+%@eBglI0@5PMm7lXiHvxbk_kgG1xb8{V)W@5$Cr)F
zA}N~`(-|8S@f^K9kDyvl8mB}GuF;FXM?iW~9oN=b92qP24Hm}^kis-LN;*^X8Qy5S
z?+%uX6aiOjYA%^s6kN<#va%@jrk0YOMIBsYOUcQib)2ttb>EtP^$>9(scEp}V(D(K
zv!~=?QE-T|!sTVp4Ww~3vS<_M>s&i2HT9Q#?AcE$80$@`g><l1mimIuW^B6e^{*UR
zK2kCwjvo5kR<g_4l9`??oXz!4U@`Ee6;Fz`MwCzBPrK9=@$fE^zOJna4oyo_jCBUh
zY-fbo&IHZN#xyT8Guc^UmaFwz-C6|NTkUk)F6pXaaF_SBODQ_zq(!hpYqK-0&4D%Q
zlocb($=C#J<svhRjw|ALJA_cwDq?)<MdFq*!3{{y9cq>JYibo=8{*eewV*&?J4a(W
z#)=ZQU9|wyGJQX=?X97rc!;hnUlTl=1Opj4wv{sq8be$#Z+l}FENV|~@M$NEnr3wX
z&>L&z?SdtvP8TwF)@JH_E#SVbMjLuv1Kg{9Ag~N2LJ!!g%NhXo?EtQh56UeA>}$Qt
zXt00RzSNkEXr18Njw`F*)<<WBYSxE3^uhH(Sumjw+BjrXa|cGG=J)4oLG=&aswhKU
zG|Sla|Di5T@dBv#j4SAM7L_vqEeEH?IQE4A)~g|Qwb_9o-RmeI*FgX&8$S^;nV)6|
zUiLD(Mr<x}os6rBc>@+<vZqEE+O_|`0$ocoF~eG#H;f<}GAUrWmpb1^K?NNXFunzm
z8=Fao+&f|aA5-2pC?H;^bhtu_Vvn(E{Z;H{S|d;p5;G!w5ZGyw=|~EjP7yRCyA<m<
z+XJCQ*$)(zA(G2uq`gt4JHz`s7|ag5|2^s@GvsX(?A4gQg$ed*)}_JvzeefwG|<^s
zFcjBqgY|m~t;165FacQqy~e=mi)*iJJigg@IA^=(YhS&-_QpnL(|082xNrC6?Oh+5
zi;nty!-3m|Exj&egV^x+3hslF`(R1WIh*s%PfCs>Fa>uFtoP=}&VBO2X6N&HO9xU~
z_N+DKLx*oazS(^Icbu-p_SY|=s-@Gbr(i=q&D(NhL2l_UdYg;>K*8TH`TJq6E;Q|x
zn)cpn4i?=_dH?YG^}^^`Y4j|LwA7IV>m>Br{Un8+4h_jN<8^DDV!YmJ=NbZ)I@`Mo
z?FXcG*vH!xgpX49JpR?DwU+fuo1T4&jr@hBV_Qyh1Hotuuy(L-?Ruf_u+(?>_VvQC
z=cQxM-|e_aLl(H#KMFDmj&{k>zIM9MeNgH?$c83o_?4wc5u_FHW)WlQxByG;1fdi4
zqBs*BcMt)7*57Q%D%Nj&v7J|y^;?%}1T(9dC#zSP#vibyV<+lEUd_8ec9&|QR&E^3
zwN`x^bFK8Tx_4A+QU|H38xQG3Z4jW7=TJcWXA~?_@XryH4e^z1;t!CTrlBDetEjFg
z@HF52^=V#)uwPM$?;`+&#g0Wo-ridDb?44#s@O)`X5iT3h5Nk&h2AHm-Y0G!{iJ`h
z_oC$J%3WAJggNql-Me+grjBAuU&+Wd_dVqF(9oQ)Z+G<-I*&=6$A01b<i=*_%aWxd
z=Ulo$B`oh+*4j4xqd8~M6<EEJclG8iy$XiakC$<)vnFn3h?ML_3SK3>T%4m|9syA5
z>`Wr|2y~jItQ7ob{H5PRK<L!M4ecdd3PfrjD+5y8u~t-+Xr@Pth9|A`Xd}!>`9Ufm
zqmyD+_y%L2h8PjALX7le;eaNGmWS3Fr23wcm6B`#k-6D-vWwZ(OYgt(?kjm$NU{!m
zX~#QdB~W)K@TXm>Y<~z(j%|>VFwc81ohm!PlLiJHjc?Y$c?EmGS2a1P)x^<uK&|vi
z>=py$S+I@Z-nFci?JnDD*MKbqtDxj??2<!yyGsvZ?CqpYaK32_+l0E9J?4lRYS*Ly
zQ?{XDjyYonih%+bD5zsF)rAG+!OlKy4PGFJ4yGDmmxm;sY^UACYWx3$${v79Il?52
z(R{)%>RbA^3~w2?ZCXR|-M(pE8>!S%yMJInUJF{-as2?BZ?(*oKQJzCGwv^vX;@=E
zi-ua?vNodopxk0Dbs~+ewptiYe4>H~wen3nx{gP&w+d--wfcnmYZzEnmRgP3Qm#yg
z+Jf3<_4|qe9Cdc8IV*SQ;f9=X66TFJfp;~R0s5l2$k2h>G!%=tW{gH$!?E9x?!L^R
zQZL8VrVyz^YL3eNLqiqin%Q_4%C+|yGVQWU!1|uj)o!t>W(`RLyPC(fNlsPJBqzcj
z(g^-UkLj&00d7&Z$S-2Q3KEY53ob=E8EUC`A)awp2qs!tiV2wkH3FB4V7hrz!C$iF
zNFtiNEJUB0@2M<I4SkIqNx=Unk$wshB^z<OG*SQ6P3~^%5U@zGEkyr)ZC_Z8fjY)5
zVfa@3XvBA@1Aj`vRSHNlhFU6M7FKX#1ghJL^~$8m0V<f1dM?|plOK{|Beqk56aGGv
zaS`ZLjHa&1-b_43zEwgM%$FU=1Lp=Mi%3gEvFbb64kX;WuE7OKY^U@+RHug-_Z6QT
zrT?-$4TF6KwUCdIHI@>}QB#>d;^yL8RM<d(SqxIN;}5tT!GiV#m0O~q#wSwHGGP?p
zho_%@x*95bYkVaSeUoMc|NAC)&*D^FDeij$1y4xwgbJR0l4oDe1jmYkZ&dP)=3o!j
zqW7BuWS1=lm|48}eoL^>GAOkSk{$Me-S@+%3iiG`_CAIcd+#`UKRoimQ-#6PcLq;C
z2p%Z98&+J)E@0e(yHj#^J~Zn0)a6e8%F(uE<Mxbh2KVMp-gUIyJ9L7T@0J|hU+9d^
zI!J3@8$3FgY1m^uY?CaHGa$d({ocrW_lJX94V=SIZTH@>_ueDRcp*3@1;=ii3Wv@~
zhtA#gpU<8A(b)(7-c5f$Y~g1gjJ{ZO23D`;9ijCDg~6lJ;89@hy}-f0vJA0VDO(lw
zCN88EBM3x^b`dLL0;U_0T`j?ycg96dJcf)|X@8E}EuHc~e};IPYE}I&T*^$-+MQQ4
z9VY!ocDy@GUy+tSJTho&A}G0nYt5Uk!MtUV^?#f}Ou1p3BN#L@`1Zlb&DuyS(?30-
zNh8#!$<B2USj|*aPJXp|AW(oVu{mq_zCLSMFs3}aKx=I<7K{S7U`o{i{wrJL;Pb@h
z7K~ZFz+4;_Ovquzp9Ozb{Mk?^^=rq4R%>pQ){?@4p4v$H{}Ck^CRwmooXb$Q1|CCd
zjV(r%ho9tL{RhzI$kJwf4b)IemS5+@VAgoGaR<40RKEd?{H8~~x9-|r4cY$<+OzzD
z_H4Vh=l?ntXfFV3mR)fR6by*jXe$$c$c%YlEx&`!ZpS;*uI<#oCafK7j_=xz?Gf#8
zwcKU04mMMrIxg#k+6SwgYN1m%RNnr|P$h`f?{$^L#*QmpSHVG4lVE&L+d8^PP7_@_
z3gD5oSYChS7VEM`2zS$XMPydCt)Y%q1ZllUqEK9+;NK#UEzGYO9ybgX$d=3LYZIwR
z=DKWzkerH%q-u#jrJQEv)nl@8A~Bu9PO$PkrbhOuk^SPorb6#hKqDo-k09i#@H<8C
z{de^0-&3G<Pqr#`UWq(biH@mJv63oA#>87FD)VvK$mA;9B}%)H1_4-oRVmZ;Rf4dr
zMIRv!`o9n`Q;{M*nCNl^@~-}3aCq5yKiFLe?w5l5H@>qOJhtS-4&>sQ``*61cVFJI
z4`DH|ccViJ9M55Ma&Y|_$#*b!=6-`eXT_e+wqRuJqvU@`F701=a{0-Ew@>o+tz-Xp
z;1>=5rS(6x7LH$%j$g{Z_>y$|<(%b#r)eou@byW)zV(KW+HbZ0+H)v(94>TACutk0
z(9kF0zpJkp2o(aOQebp5@Ys^I80da~{N3@*z!2j9w7kL4`Wd2m;S>IoGrx352QNv%
zOCY|rd+mnQI=az+JNk?MpC_cTb5iTMB}<Lg{;@TbH^}(q@!YB3^bQu?%|&-x(d~a|
zHuTjotHryAN^M;I;jMno9r)oJ1=qkG*T6k*Z?SXq_REs{G-P*!;+_e0JrI2V@VkfC
zUfnpe*?JUyqOf4R2Af6R5>N!Yx$OPF&2y9R6O-uw1IufLn}QeDzu^~j6-<o<N$+=D
z>H=4HLKpNE?`QQL_C@)V+!FsPFo4P?P+JXw_Wdih(`)YM8r3#$@C#<~95x5cj5$?r
zNLU12Mm0TXzF7-aFmqZiJ1(`qg8mwyzo^TaQt;ST1m}VYERQ^mOsZhxxvb%;w%Jgr
z3j4-bQ*`m%+kcYPK>)s@C~XV21v><xJ!`zqi~QRTh&WAgQ%X>X_cpZ+h=Q78P%x-%
zh{%!Ev-<XDG&KupnztHSI*ze1Dr1wiT&*FH7OX0DS%=EddGtT^f&nbImY}WKgWqLZ
zRXV6w)l}TnE%9&bcIhF#b65IUwV|}j_fvbTwy^8B(B=q_`S<o8ff@sZg>gJ&gop6U
z=qz-v*A%Ct89Y@IuPKSIZA(<VokUSd9HHVi#butnpqSV}4J_R<Qud-(+^3w|j(xD4
z@LZxjlu(^`0~N_`^7$1iCo$4+{Kdf=(m`bx9XU}vKG^{g@sE)z($^M~^j;qo1lcUc
zW)e8tBU_+%rRl_v*g-jNQ$XK5<W$7aUr~`JXlfJJ)CSYo`<a;`-&6Yxj?Z9|gSOXY
zCp)E5?o=8&8@i|^Diq1K%8?b>$O^L-WgCk#A7|NKrk<6zq_4omIs&zVTq>%?m16vr
z9n@<1oJ_jxz@(@E)h}j9di|71uixp+owmHC9rk<dukSCk?v+~iZnlnXHtoyV?{)V4
zMNiIouWLYZbmUGh4Qtv$-ZfNg?<};BO6{YC_G41}v0oTA+fU`)r<QC8U<GaNUVBFJ
zk1iSS1^d>G>)*Tk^rg+<i%ZV?J!6HQ15(d{&7MQIkKgGzx_sdmNAu4;FP*rE-4Rdw
z=OzTJv9(w4y7z&R7u<U!_nx(ZyY6A|^#A_&Im!Lll5O?ey1(dchmVnWpoonNxEx`V
ze(l^w3$|gF4EMdhm7~i?*L-)qp>^T*pfqv{xgNlIYX3&VUGD)r-1m3EAHW}4G8Th9
zh2TCZxNph%8+RMEym98P`{>`g8%rJBf%AN+8@^Yys`KsLXxR9ZP2Y(nL(%J7I`W(9
zCh$;cV#g4an;`-n%>_rB<Y-$Je(mTgeTV0|2TNg|bGNAiN74P<J8k2DyfrQ244f(G
z=>%mVsUyBk!GEOSmlT|%;5>qAH;x}uA_X|P$fZ9<1cvha$4~r@>owZe=1X+Dz3&UU
zm7e8!<IsBJM}b>`5{KyRo{xuqKJ<{H@Ms?yBcpm-*(ko&EqQxOMkHWPG&D2M3K-Yh
zAZk0tHcm?Ihe|N6x4|l|I9f2bF|x9^k(Hf!Tjc$Nl6CMQ?Cou^w;wXLt({rFw6X8D
zk$KkaJ1GsHlDbcqIK25}-zVu`9{Q4^Ok6XHCP0jKsRHfc8=$k=Jwp-Nf=<v+=>)@j
zy0D(CY=Rjv*v6-L*wn3p4c2x$+%(`MU$(Y8VQsg-T5YXmKZWCb&2-qR-Q-fiPI0yD
zTDrb=X~7$F2p(pOZ`dV=@^+WjV-6|{OM4?M?M|U-mpXPSjlTQH&W@v@u9zD~3u;ry
zba4`!7z0m?feVyuM#*|+q4z?Rw93j^k<-)SiRf%PnmB&}2NK~rN)kafDPlx6DUw6B
zvZE*Lm03MyrDOhK?6`{TR!kqv)IkRa)3T?0imH+Xora7kvKjV&+PM}t@x=B96!W2G
zCew_iq%YAP6fLBO0-knwt^5=A0_ea^Ev=rM{$PvN>?+K?-+=bnRb^4AI-Hi(3EBo_
z#jOvuXjX%Yv%Lz{YRy=2r3z-~Yr!2jB-YTDvxdq+0Q5zJFR*l%dyc-;sWhOD8ak~w
z3IJQf8gezLmaE*ac2?qQ45b5VymGJU%Ffod3f2~knLaf?dPd@Y$CWjHXjb7;^)3M{
z_Je9xbyT;}S(~0AwM^xXQkrcA)_TjhY-HwYOjvDBvdM}Bf;HuhtOT9ARSv#RDV3Fu
z!FSTga7D;hv3`sHk_!EV0#=+X-HbVkG?3!2D6muTE(K&f690^X9tzkZS)~|TJSGK^
zC_svKQe-#l2TsMR2Y?kz_Zr@P-2ly+W}WyoRmt2nNP$w&Otk@8*~G5m4%%kH$0VeF
zk3!fQs4_zrA7O?r+n(>2ZO;!HJK#Ee&r5#L=1uS3Eu+4P92sm|mTGHoYlzvK34>^c
zXKX>-^L4GAUO&6(JFrDN5ikm$hq!`e+7-Iv3Ke??{_^V2t`>TaO1(!5y(gvKlS_sb
z$Fk$DyXyg5JbKrMZ+kaej^@tY>juVwJ)7!ZZ-q-l53^|RK_>zOo2`SaViV`|yz|WB
zGX=*1$#DQ6$?8<?%;L{z2x$&((?^L}F@|*r5oTe=edkq6Bdwe+RIScBWp0qoNBj!}
z)i!4aHs+Oc^VMHzhqd`{>0=S#X4d9+<`?HNOp+_K9@=#6&s+9aS)4`9xKrD#OzOez
z7IX5Y$Z8CS^gopfo>2i8s3(XHHfV8*Y0as-LuJ2UQm>WySY-zCGc!;%p_9sy#|K1U
zH;OQq3V&c_etEv=Xk41hcOJOygn7Yl%Q*ml+%O}wD!7D9SKB_B0SWArJ%z}wByzRv
z=lEzOrEtMD1+F9tWYmejL5jjN^a|b7sBBW!YML4YiHttEj(&My7RQ&Bm-8K8BXxU*
z5>ecS8t_RyjRjAy<mtuHfb7q*8?SD9PGJ8>b5a&bW!gq6waiGRk5Roz0KFUa(nW-P
z)A>o=V89mYBm2D6AdyKw60nU-mTSK4YqV9XMq3ri?s+=b_HTOn88ro0r{wBfJ6N?z
z0+*ffP{R&nE;r36x*^y%j-^(VLyv|+$|qLSa&skV23jaEi~36ZruhE1L_7`VHv;*8
zLm4TcaZckmO9<ru&R}RHmlmfVbGBrJGtcKvTe~T5XekA_=E0)3_j4rTxe=JXb8yX`
zH?%RuAgCw?xRGLjTj?YegU2h1!Q&Oh;BojG9eJ8B4nOv}-DV7E9y5qn=>_yur5DiS
z4!wYqcIpL`=GPgU)=zzO{?>V%vo<!}zVz`cKY!&RMN1Z)acCEf0dG`|0a0aT((r^1
z%jQT#n4Z9?V%NkpeoX@h?59)dk?7?KHrlc&Ge;`F;y*t}!%A>XcEBp0N`oyVG4+_^
zy<A7mCUnk9@oQ8LGPSZqT2t`^JGVa~z?oW%!s$LO5@b_+R7T2&VF`e;DIvRAK_QNF
z&GE}vu!17BNvn~2*gFOrBI+Ue^5*zR<re~!qx;>D$jj{FY>Sxyo4n^yS=sM|upbX#
z$GMb4T!W7)!G0;E3MnuE(f5cF?AIpBKO~}@<$hHC<zsK!$`Z+?L*Dm@`jzc|vbeBc
zO{tV*D5!~w57#QL479>#M#@H-*-Si<R*XvoBV{Kmn2x<ROFuKi^m6)L2>e(GehMU(
z7Rlr%5@?l;N>Rql2pcQ*ry#}lP(UzEHeFy$Me(s6r{pXJKc;}@?JZ83!$%N@yM@An
zo)QTtVXbrN|AwHX=Xw6~F^)gY|4**_Q?BXnILD`4!>3$`Js$lnH~L%d+n;hrKIIO5
zsWb4p&p8BN*f{<S|0#F+Q|{?6b$VX+r3Jwk7LFhJdv5QSIx|u@1X~SVyeB8VGq*Um
z#UZ+Np1;KNO-s+Od}sMPTO7r=W^`wHzHe3czV%(}7Dw^Y%Q{Zy+tR(P<J*?%SDKfb
kA956bs7G>%C2w6foa6bSC2?hLd2VfJ!}bM7&y3#x3p2+pQ~&?~

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/stablelm.cpython-312.pyc b/model_executor/models/__pycache__/stablelm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bb43f143799dcc76adea66b17faa0ee2bda2eefa
GIT binary patch
literal 16058
zcmc(Gdu&|SdFQ?JesVY*K8E5@98!E}C_W@nk|kS~rAo3Si(>59k)5fX@o4U)G}1ii
zdxx^c9VSX()WgK7rM7{nZVS=fE<(Wq!gkS?X@MsH)kT4V*Hk)_TY4iPDHi#spi3G~
zcNf_Gedo@-Gn@=%Z+90xAkUn~ci!Lmp6C9Z*X!aCQkL%||NbDy{hTs-u$2=V4|$He
z!wFoJ6L`Ut;?t(6iKnzVWlme77M8Z8tWhh<tSM{S7PYZ5TgskxL>(+`PdU@BsEef?
zDR<fv^`yN~FUvbq4QXH0mu`$Uvb-zhPd7!ISlXQmq?@D7>6U0qx;5I$$~>vIbTArZ
zX>Y1My(7AVr5jQm=}<Jp(!Nw@dS`TJx+~hn@{Or*x;xs<(*9IWdRKH8(oI4j)tl~%
z_OWzxsy{st9Z2tv?oLOdk@R46Fuf<bhv!V(8BS<<n-f|^+tpX}4XXTpVAj&nVFuX-
z$l&Kdjxfk}K<@Y)$WaE_0m#tjK<;Iboq*g~A5!f5z*3&+z8jWE*G%eMW>S>IOhO#a
zW>Po8FXrNx#PJK^-B)tCDf!9K(aXu)mFY_(iEMh5>XNBs?#A$mb1ahrWW<%u3Sue@
zfT?&cc_}4^-$aw}+3CxdlbOrU#uF$Ilb5gL<dI*}&=FpBoXd$)9H2<sl5#4U5GRl{
zWip5xXc+XIKAFu-CNHDJc_Nn+Gr43o6EUgolkvnAQL9s37gH%6&ZK%Si@Dg;RP3^p
zot{#ADTj7)R*JDH#-`#@Je3ktu{X0)N{GqH8Jd9W#bj#wL`JwUor;*%9T!CDvM8L)
zrl!-G=gSSolNm8Css0zvU#u<qa`w%wMd;Btp2e=o&r8{aC}VgOHN7w$#|mb!L)nb6
zFb7Rh%1((`SA)^bg|lK@P+Ko%6Y)!W;py}xQ4p}7=&MB#C*#wpTuj^6SSlMAL>eS;
zE`xndi$XG<6JKI0mw$<?OIz-Gae8VhD`8g8N35#<#B?tEvUV!tthw5jlxgqMNm<4)
zY_HNHx>E<z@oQpCOi$%*#FAA5l=oJSO~w<staL+lGr&~*hA7FZCmp|WNsLWN;$-rz
zgobij>?~(Ca!9-bx*~E>9<;^e<eZ$~6ilL7FpCy}pRseCU=ghXsLG_Hz)kXk?QL(=
zCfG&$)yC>BwX|TZUp{FO9B*5q&I0!qA9cORMO>;|!?9HQ!uazOsx84VP4&D%hZHO4
zY}(van<VC@rA(rHZ`fE4#B}2~p2PNjkH5pwTC^}{$#dVea@+^yJkRC%JQp+R^?ClP
zPFM9J`~sp(L6GLJQvWpp5XKC0ZoP7w-s<*nna7@DW`Zei%A5ZqCz$`x^uY1~N+_Uz
zV_rF*R<`Y2>aM})*ILuBv6@^!?^oX)jLP^AmEYhZwuxWTMm;;@9k~n~j!jPigR)oe
zn^nuDWL%cIQ7QExnsJQ?**7z+HsV&T^7Ir?)e!@RCUdcv6b6jyzLFFKF~csp>feI9
zboV7M0ePwil4#+o)970AP~HXvk4<K9Z!EHynq-|<rlLAyu|z5^%dwbDdl^Q!`QM)#
z&84SCr;<~{xi|<)ZuqU~CypGx_JlZ^N?sbBx{<q*&5T|L^%~V^llYdHz@3z|tUM|+
zBA7~#Ox=(o=yj&K3S~$1bsj^F{GSp1>L$18;hYU~cEu5V=-5$e4HYc!x=S71#g1X6
zW4K^>=m?g&2a4TCl<p&x+qo7xRPr<xJv$Z8&XPA!^!6#<z7<dZqF?b0mi(=y_CEA-
z>y`P}RswrA-L_5_HEZ8&;CAd`4SN+&Z>5K-2GNzkZZz0|2JbcizODOrQw7U+-5Z!F
zr}A$ljLU#Lp*_1wZy|99Xn2(<R!zwBACya9McY}^tQl~|g{c7NO*-5xF5T5KYFFwB
zp>+t>6OW$w7rFcVM8qr&0Z<yDXc$q%B8^gd43TOtV~NVgWV(iQ$kIMmGntj%j7!2y
zp!$Hyg(NA+Pa(R=m0H@1E&WPM|H2!qEs;4_!G6nM@-)78e(wCdebo~#@Fid1y|2%G
zeLlYG3(r{!d|_Y7*H~~!`_VpPnov0)IxsvFPm8gb>WUFpn@&;M6N`a#rL-D}uCe4t
zq?+ZN#IQ%T0<{uXRGY>Xq{CF}E#qxMOr>J6`@FOlr84dFakez63rQ9|O%)dr{pxLQ
z-NB7LQECl-;tX1MJ!;&!ZpH7qjcbc69#C3G*X@*baQ^0X0$6u(u7*$DlsaIs`sZ8j
zh3<ydIV2bRelT=@=rc;P6|#X67{drUk=vL@Q7xkYt8mw06&lm9iZ;Oprr}~t!w#ll
z7aXGFYLn5okr15Ql-uf;Puc_*m<f6YGjW5NcvQcB@P?Q&q0t{tf<%=vKdBH5X%|LM
zRO2R*Kz0ZI5~Vfl#P)y7PI5ZKHCWQD6>P&GyT(>*VF9>3MEhz&-a3Q(2ciwutOfK`
zhZO_D7!^I$+4sEl+N;2>=Iv@{fW-oTZ8s3F^*QcaeBN3gvI@>baJd$JW?)C#j7)3z
zpiF}>Q-eJL-e7@xFSOcvJ5k;T9Y=|22P<v#6nZyyG1p;~LUG!Xvj`?#fzW@^vcZ7o
zuD0sw%CBIZ!OQ_yVb<JLqfG@4^RLsI1Oc=)&JIvU`U|!t62rolwLm<pT7z-&^=E<7
zIx}W-vuZP}cOuuG0Os`P2K4a-2l}aVau9Kx^+!OB>kq9uCjizEi)EpHPbjUkhbT2p
zS8vbo#aQ*0(%wo=Pvy;d3+Cd6z~uR$e5Y_K1`g+l5wWoCSas&L{mu#Y@`zrH*ia?<
zwdv#Jh^eu#?V9V12v|cn)!TDi{Topia(|_jo<g4?Jze>I;H#ST4!t}FjL-sF)xoH3
z*RoS@SNR2Oy_*1$nVnT5cFtdQR>mA5zBWxrL{=o)P1Qk)U2H0mQ(LCuQZ5-!LDhpW
zc%!T^UDk$t^dr?XEsL=?u3e9jjQi}&GgV@1I6W=r!k5Ibki4FhnRb2YMmRH_j$MJ0
zD2I1n&gR0eS2cM3$?!~5IGz#0uNzQQW{Ql=I7es@CQzFy>}bY5l4XTbKV}rMsIKxf
zg=Cu4xVK_cSvg61D}?a4EJ|kpHe(%$=W-c9duSMR%jP4ULS3cnNT&n>&M^^0lbQ!9
zOGHx*P&@RYDfU`()tAE#rDDd+Rc9s18e9`^#IDCv(_*<nd!<2bl^Ii49W<>Nt)#7b
zB~WL}`m_wuPRwB*5?hyQmlN?66kyf%hNd^zu{P2cREK^-usYBTPD@f&k_g$fD%w{~
zf3TJJlgI$=CeR>v1%ntni_s;z?W%=sqFoa-!ziiQK-Hd`Vxw!a8MPtF6AFeVp)t*1
z$FIpBhJNrm8pyu`oFx6A;q&x^wWdR>O@|BiQdeKG>xk0D^n_5Uy|dUpth5g=wJGg~
zNu+-i87)RmDv^_<5cHSazM?y#xFd@%f8;&@Nw7Is4D3?^`<Biqfv1+=_$Y9E#dCZm
za2!%$bI1Hk#m=V`{B5aP+Xb<Bv9~yQRvA3|;TdJ{#noLeQSaeWFjNfgR)V`1PZfub
zEBFf@#~i$+f#Kr7X=UIvLG`Zn4M7vR_1quZ7i}wh&wS`#4WHjIoBEl`(t|k#Lw9Cx
z&n^f`+aOwdO07HYWNv2`a^IhQe^zNdfHHTft)tjBs<e$R_5Q{1pA0K)&k*EVuxr7#
z*syF}4IX3TLS(-%cVYh2y@|UMP?Q#5Ry+rmn~O)zDM!wI<UY676k0d&fq~M%p5nk0
z%D@vV{fA3Uy$dgW|7-7mZKe0X(r>I=P5#3hW=o&}a<I1nYFqmt6oH~Aq<BK45ukgP
z4=bK9OAL}iR<6*MvahZL1~z?;cG9uDn@wEXZlle@f$u;4{?m$QFDqfaRw-vMuLSy_
zoV8IyH*lh3m)><-2kjA#`(DT0j$->!rTu8h-*Ttpc1O`ap!f$$J^jU=qe{<FH1DA1
zJ~VIHNzEtbCiGsA8=o6zNV89A-$z=cKIgBj1a@K0Eol2)ClmTrr%qdB)vHr6+(uDO
zRBLx6D>L~R7T@i4L__yunw@#pk~i1Y5$p0QQ2ja*ME%msW`TcT(j~}OF|%3gtZmi~
zXhZ77jLQM$A8X#G%S3E$fCj7~JL-^-9RQg(<fmDZYsg4Z6Y>sSa$&tWu~H{A5%a_^
z{}%#`eP$56h+Tq!&A~J>1(U5rnyB<uieePKPSI<KA})>iT%v*mBGn8!ClNnY`8QPl
zn#x~S-9)Bh+3DQWbWXKtzcMKhj25v-qerAy&b0qJJu0ii_fak1M0AsbV%XGrr}K8_
z{OqcKc+OTZ7hWhewcLr^j?BMw?>F!M=3+1Dhs%~9d4A|w37!6M|E<Vs)5M&e^x{IC
zbmec%ePjN{V)x<;tG>~)zKm;~yq#R&7xpd0S6g=%+@<E=o%6TPFSu8mhvu9G+bw9>
zEd?(_zWe5h3F!!C6Y)q-;zuGyT{=n;p@Kwu0n?);(tkB3Mg|w@8H#AB(s7DTAd;)p
z=95%N5$&}6O+=d7JhZp8{}5@;?lZjA#Z+fXknY^Ga7t<2y>4fDhoMV5S>8p;G;6c&
zA#K{rO22G!Sz8|kf_IMIKDus2ny6goo&4?mx}9<k&gFYAG#C2JiJYck)12stji6)T
z#-F3;-$BE6)z`7>mrk16G0U?4?PmJ7hw0yjW$cugfGa{8CkwQug4eLqU)Q|pzMApB
zaS8|cd75|5(AjaPb$O77JZRFLDv;f&Hx?>-H=s4ykqoYerUzJ~znpQ)^Sof$lCug1
z?a*n+thHjGtt+eY^)>DXcAaKnY(xM5f6$kXM`XfvOu#lvW>OOFGO#N3U^iwgBk9zX
z>d0iJbWEI*)duD!i0S$N_Q{o>7yj&5zc_Xu#0&Mfkrly_&{lOCT{1(FYDRz3Mbt>N
ziK<gObaXF~h^hLL8PKX28-)f@gJ3kdDtXhW0i9%KzA*K*ReY6XD%*=lt}l6Y>Xfb;
z^9<qZFR0;rh-!teHDdTpx5gKSmiw23Ki;wO#Q3J!R5q7Fe(IXPzK~zOzI^4!!t$3M
z2FAf^9czId^M@9meDLPd^_6G7wDQ8m)zOz%1FsYuYhB&<@^|x#&lZP{DMQD8eD-12
z1(JzEYr6-3;JNQvx>!7TMmc!q!&e^ezF4sQ#L=e_1B2ji;k2a1vHS3+NWdDaSz3v>
z)r2ZbE7@5LtgnF49eKd(7&lAz#WaIzq_kcQ?5}EL@NhtJS83O4!j^HXdd!<AO`ry*
ziHJ!umIf2<e?WWbEsF9K-9V%pb`3D7YNDJJU_sq#+hsI<CRF#3%N*@*(4S1*gQI!4
z=I(-n39Lg(aA@(h)!<VFFY@;q?lzQKyGlC-)~#Iozy@cA*yaU=Ztq@rS_$q&8mF$e
zJ*Wf^E~Qt4r?j??yN-p<)!-=Q!e#JBzR>)Y6<_~~qhCAB3@yw1f6m2V7oMI<iH~7s
zQ|MWuh**UD+lXqJS%dXuo-s2@R5LS{uVQ8_uQ4;0)R-AdhMTPe1}{UpikDH2cv)fk
zz5HB${ww!hz5D8lFQPaHKXal^TR%-Ofqx_DcA1SH;BGZ%qX!Is0Q(!9j26){X<-&(
z>)Q=@x?qFLypHVv?#8<1Ww)XOmgvT9+q&wv72Kjza54v{XB!BucAK$9Ry*kuyl-2h
zE}=nmiyqNZzbB1v67R%HyrPA1QH$V%6}y3PQ6KJ&Uv1LReEh=cschoP1@h@L;YgCu
zQgxH7O1ESaMNjB7!Gw&#MK>82eaG^S^&Q(5rzm9OTBm4TJ5U`N{M%%$CRwZ|eA`mr
ziv4X{g@4Xj>zyb{8*4g4cFvYJ!4_A`&kc#bVp&G}IySI^rC=@CCgHq(+rfIWfZJPj
zo=sW;xUP<ul&<jnDqC-koGvWP0VB8M;KR^+(|>2pxo#c)DjiErsK3&@`GHfX%a{k5
zDOjkosJbrm_1jjpYu4L=>$@l5vSmh<ST1`FPY<MXs5Ov;An9lW_}`#;e$Nc_&{2q+
zGtKdHaOr_v5CcMBq@1B%glFUjM4Q@a96C%XTDV59Z{F0*A*$nODxSV1#E;Dk|2j4s
ze0k((3QsFi@-ZYd@PDSRXgT224?9Lnjji*Zh1Bw)PtB%K1EVl7k}-)vW^>X61M>Mx
z(-d8&i0DtGr6RY$c1D*-e@@`MGO6F6Qv^=amuO7Yb)8;%Xl5QJym+>3WQbt=%nqix
zv$ct+ZW+eJvWTNP#f+dyJF2ZbQA0SAi0i5r5`!f2L8x7y^P(f-&_tqd0a)90CJ3=<
zhpCLseJ@fn-AmH{jvqf>ZIbGE%=Z6`+Wi92|G3GmIlQ{Z`jJ0W^hXqbr05@0{9^@M
zsjWw|#}qtO$zO!_GoN#(;_0k7pLGiZb5%R7x~tm59XZ7_DDqW*YBG5nh(UG2sa-aM
z9C0a*gCs5m=X?KPWU=?b9@sQsrK&G#HMiawzdgRtTI?QEy2qA-51W4jvYB&j^kT^y
zTJdzwUoUp;Q@ZxS^t2a7j-NP&81kr2O&U!KvZjHUuzEd^<V61)y@)>F|NSB-;h7#@
z^hk5~xo^@=>K4*6^{RWNeHscG<IeQdIguKef2B_7hQe9x3lx1}#TQ;^U-j)-aqMC1
zm|&8X+Pvi@h4#V<<{LJatXWp&E$&Sc^w<*VwM_NB{{R&fu2ye|Rs<t@-ttYTO|#Za
z2SmYo!lL2I2aGdszR4Vbc^GGi#X(6j#7DHR!$44KC_&{x@q<!>NLNaAf_sX44I;v<
z&BVb_W6E1~a#%L&*xzlmRM9nKeRaeN*_$&QXaY<`Nn<rH(j4d<Y63>X{!xGf*Q!xS
zMs!>ftpg{3w^&IDYK|1oT$6qmWs-%W?^5&~irz(}dH{#_DrGR@WYTXV(r-QCk|sj`
z9;LoV5e=hS8DWvWj<j*_>F!sVe#)lkY9V5zEGhp_YW7Enm?hd1{LZnWd*CDYK*<+c
z@$D{!hi`iyg?o$P14{V7(pOi*&mbQdSP6`+c*YQyLVK6Gl+cO7g|(IrSYOZIJ-^so
zj2uxSN0tx#=-3aB{X@%hh0{On-?MmbX?C^$wBp%SxN!IIx|wS|&;P>L@tv<1eS;tQ
z2G;`pi@xQ~m4P#>fwL=~vm~B7?>ZNTS4j@1$v8sVrL~t|EpB<OLMX*hd4-|!WylME
z#Lt>4tPDp-^)*391mghB6<dN{2P+;A^!g#k88$)_@~<L~9%t>dj#+2kk+)vwCH`Gc
z-da~Xa=?06zD$H9_3V-GHJ8yy0z}@-`a4kdqzs;Ry$_6Z0(zU3T_{)HRqtxdx^WrY
zc^58(Q@<uW$8(vJ7T7bt@C;_Rox!&&GpN`q@-Fz$4Jl3^w=x%f1$cgEdHiMKxp)5x
zGqvDCStcS@yaU3P<I&d}no}%^j8S$?E4x}<rg_w)Yg*Y5wRN)BLd+pVhf#i7q}t2R
z*_eM29yD_Isot%xI9;kmNWy2>NRN4h$}>zEk9owLYL~>R6rR+o4lsO~9@<Le1eM;W
zh;e-K9joTJAi##g3>&{s1+5Sk64&$&<ybmCHAP-7H(ZnPv<wd!#`Ln6q~$?nNDP>Q
zQK(H*b+HEQ5t8aIPo2Rz<STdu6-x@Lm4UD+$wW$tM(Baj3e`gcm7lN5GhKC9Q#Amd
zfx`fU=qC3sCVP)-#j$g<k!$OiKTz!0t90yL?byHCI#zJ6_4NIxzJm83cfnuMRXBBP
z_#Y3RR~q--a?PJ#43+{r;r$5=mYPFw^pKf!;r!B$)wZLzERO<hcb>le^g`RiKx9!^
z-lL412Gm+$aPh!W^TWU)Y7*Q93vDoR%UTNe6~kjnc<h$<r;VNS;=*f7XCF2`{nN&l
z^>*&iIKRFV{;x0I-CB5H(YpAJhsVFN8op?B`LJ=U<Y_N@NXVHNe&X4+KFam(S>MYw
zcIxCwlL8uRResV|>YA$=H(<1$8Lo*&N#CI8k16^SijGrs0#UUw`<qlq(SN0iWkk^b
zOD9hL3m3Gy7G~DzXL;;X`dL4~TZa}~eh|8k7hXs%_x)(-heI2bTyNw?_J87Twsux&
z`JH6-XlM3oJ8GcickN#~rR+Ss4#mC`4g$@b&75}Y)RxTO%%;5(+@m=6Y<Q_`XqUBf
z;q2m9md2K?%vUgWN*O+_^gg@Jq2|M}59Pl-{23(~RcA{{U=>Etnf=BkVA%g}O95;J
zP5<t;g1Xj>?W`P{l>)X7vKP38M%Wo(L-+!gh6cmZ;73azvoth<#s*a5q2#k!>12Fb
zj;F>iR7?%hw{SE}>oBxOqM-)kwIEkxs0YLPw;C7d`DZ=Zker85jSZ<YZ$XZPDHbXQ
zhCE-zl1zeO?yR^6(aw-PEAOA-nk3z?CZLqAXidP_WSG!iYnSJMUUkGJX|awRdzJV?
zO^`+bYcS19Wxa<sSL;8G307L^smcSiiZP=8`gFkqvo~blZD!P~_g?u$E5lR)lY@0a
zwK5GG7GDErW*j51Q_-UjW`KwUD*CweTj)x9hoWwZ!W1#`)=8;9qllz#sX);nBGq2*
zOAX|bB7HR?R6QJF3Ycosc%VePsy3$BhaV&)XkUIvWd4uXYSrm5N~@G;vWzeWS*=1F
zX6LF~Vwf<FfL6&0n*C~v4qbYj4qbi`9@<UnZu?rx0GQf?@#WSZx2+DHga4tGT>7p}
zcoF*_qhY_Y66oJ_T7v}a0YQel|EamBitfRW+=F-^@cqH}2a7#Nl%6BSp5sc-@xm#3
z4e-#@wH6*-vK9B9Q1+f!4MS^w=;(Zew$IHySM(fGJcl5tJH5KXEZw3F+J$I~@J&pM
z{x^t)F;yAAwV|H)U3v7atIsCwyct*g9duExJTuK{W|t<Fq|(*<U!yU9iH?CDdohjq
zy_vb0A}rIs$YNyGcVNYFph|0&3}tGIYD`DZmNbII_S(PZZPblpn);{P0SIw*6l42#
z2?dqmnC>PUC|0elm8~>emsnQUzD!G_O9;nC1BW*uuDh<1r{&g-m7YV(UKlu-3&U0|
zkt6`U<-9B?V2dNK`L>IztNr7|i0UJdyQp$%(2h9i&k;eUX3{MU3X>PRcQOrzi=+ve
z4fI9YG(IBHDs>CU*41u>`5G;n46s<V1Md@x{(i;Zk5@wZ_w!4yt@=;GDrGz$kVvrJ
zvR)dVt@lYJs_h(5sL(S7TFn>5P*S>>WTvl`N%B}LeeShotqf|0eY=Ox+qPhAwID6h
z@`%`hX!v^;4y^ijvjr7>J&Lbq;fX3!4;*O|5&yqcy8LUJIqk$35;6Y^0aA3B=JyB*
zUBqnGL`?jUh>4%|A>MkhB4Qq_h?oa~rALqRrQv;_xLs9ZCel@6CgrNcOv=`XnN(CO
zW>Q(uiq{rxA@;t)iZnXaWYKwx;tXxrsi?tZ9oj||MU5_sBB_a@wB*Qs)gFrp*#y4g
z@FlYNIx#^nE#;B;r3BkS*bea#UM`zW$(k{T?vm#7_T*sak#S$sKnM0@MQtEA4ZY0N
zUR7$344Ll+A8^vwl-i>f(h}501}h}-jY#qm?uo#xNZRAfK31pMuk|mJ$_DTed<>Pm
z&c0*RzK-gC3@lz!;=@Vyp%r^6slAWf^SBnZ9F#HEfycC9AMKUDtkgbxd0hYHx2=qj
z)Ay7Ti4^MCWBS*u^Q6<VZ$~RF19TE3#i_&fnrpkK-PVz^raYZX;vAWZ?qzLc@r`Nv
z_*NphPjxZND!!)_Wr+kW)v7gMlz`+pX1|w0l%jjA+Agq9fV3}lPEzp{Mc<@|(Ca>@
zq1ryA;T^%0@WIeA=^?U2kmNr_v~K2k{*xh|ANkbA@qHh2p`UY}kGbZLxq*M;dVj`^
z{*3$5$K27+Ocvhs35V!Y7ssFFKjxnOm^=QN$&3OA$3KsP;eX<KJ~P=+z#-af>f-&k
zdgw*hCWqwaDgGs%Z=E-hy={}D^k&A?#}CZ!zjx&BkxdTC&FA@-dA@VL>0bNY_Dzn`
Yn>o`cKQ!NSFLF1s5dD-xhOOy;1A)<lA^-pY

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/starcoder2.cpython-312.pyc b/model_executor/models/__pycache__/starcoder2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ee5f1f8a93cf50db4cefee5e12c5ebac3faee706
GIT binary patch
literal 15422
zcmd5@TW}lKdEUkSO7IGTB6txmCc&#DQnqMIieyoWWKpaf`4S^`5C~XGkN^VS1!ao`
z8zu47q%So!Q;(?TBD#GrHPXaP`%vY{p6Nr}=?m9X3S=WEnu+s}mku4$<4oI`^!v|Z
z7a+ZqGo8t_EAi|(XaD~{_y2nEZ(gs9!;`eUo|qoyxZhAgdu+wb`hV~oca4j4VJ^<c
zO-Vjw3Y&P!o0I00C2V1NOVS#)qRyJMrfgvwtFtBTDM#4B^7f=N<qEr4-jQ^tJYf&Z
zJCoj2MYtm63;S5vm8?uvg{xB4;c8ZPCu>r*;aZmWB<oWCus>BFu1^KR0aoWtHl%ih
zcd&d#vN0752U*^iY)UnUn_0dx*^+7vx2AT6cd~L-vMtpfZclZDJ6O3o*_nDM{1Ear
z@!Dipsyp1x@^#5jswdo&>J9g%`oevw{&0V4AUwcxChn_T-2Vy}uNQ0=zNt-E>3z$r
z=EJ)fWB`y2Ujn(CLGA!#<Cj405j+ew2-v0v!`>=(DLlk5nt{<`j3IR2vK0F~eAyCe
zoo+aN`Kh!RJKuUH8x>>exFGInP2rUs_#MH8c*SudD~QpvNdb9VLP{oL!Z@;~$w{P@
zCA1^y$%(`{)Hx4lv%+LHktTpTX)2RRi`ht)T8YHcsZ0W-Op5zRG<IH4krdZ6$z-ZX
zz@&K23E4;{6FDcQr!q<hl|WERixJkdNG2*qlSv^Nc_}R>;}Iz_O?`6_Tr`%AOiYH%
zO6`$!aw;`>x(GU!m=vO-QuXA?XSP;-E&bBwD$w$crOzd@(rGar6C^Z@s_G}Fq8QY4
zlm@1c)j^Gl=?smiLML<TxDbsi{%6v$=vl4uXzHvGk0&P20kSSGOhl)W*~m*m;@tUc
zB$<w4;+2L}^zvCDA_}Q!CUWsoM2ba|LS!<UqT$t?n8Z4ygm@yF6`o?#A^i>~mX^qM
zMxA8o^y!dQsX9EBO+U*hOJgeK`h-Lino39#dcY<yC4ijLm5N>zB0?&Yy&OrDHBg*z
zDKdc>O^cTmHv>#YFAJiic+`$&L}4QFa!lP%YU(T&*8dinSHVsMF3f|an4BE_i@W0{
z!5lXWmN-9c=eW2<05f4Zt6-aO%yJWa-1dq$Y>(Ro$A#*0(rP~L*rwiTTt8upyI!$`
zU9;TFeAs=43we~9(w^0K>bPQyvHh!fVze)@QE4|To)>A=wUVtkVryByh_MnISg%Fx
z+x#^ytACuc<+wLds~u0C%keobV$uL|`~{8qYE^gxqR3V_F00L_PGiOjEXK^sP*g0P
zR*t*i+5DACIqNha;{3&Kj+0DJaNk8=wt+(r(F?4P`k=*1Enj*ALhl_Y8LU;#dhvOV
z6Kl8oTGk&w>yOnKvJ8&(J6osqB5pFqz*sScTg911Pu&^@;PrXZ>S(k^GeI<ftIs8%
zDoQw74z&R-UwTht-GS@XY5?We@}>6!arL&0q2lIg2W!Kp(Zf2mYWdO|z0g+=5N)L|
zS`H9ZdY-?~q2)_&K<Mk6?b7PeFXOp1m=D0}^QhsodDrP~sx|6^IcNDkIK~f6x2?B|
zdlUVt)$p>tT5j964Em+6(>CMSz85yuiy|LDFZ8v|4wm)8pgrTYM6JQPWOtX*YSr?k
z_bp=oc;fckj$5U^G^n-U9(%PM=<B;lt7Efo+{5M)jFtlheT-TiD425UsyHzpuCi5W
z)L<@iA@{gQ2T`Pcom1=Yzd!99co8BlBc?ChG%J>~iKryfbc>xxrtJf1_UWmRMRAE~
zs3w;q@kELQ&&!caT1t=*23AxO6fb1kq>z3&B4sZpg=y<RG@G3So@a6@MN;%UWU(Z+
z6K%bLP*AZ#F@XSdL?HJP*+@jB1yJ1Q6Y;n($#e>lHmp)ZWI$5YXjE#7FN;1UBlL-p
zSDd9RL%1khj$Dc+r-b77>Joz1CB=-vi2c-tgNU#J+FoQ$D|Qn9&}$SsDFKk#Gz}Rc
zl07eEqe^}GG(dV6H48~`Oi4n7%_T7f#i32HNE|@1sgo+!P{9mwug@(=h;*bB3!6N<
zVv&U81e=mAGpE?I8MSB5NF<hwN>U^u5o#-YuKefNU^bN*%p@}XST$%z{Vz{FGP3XD
zBf?-Zadt3sIeR`mId}=`-k_??2`>vV=qsXHlm;bT4;{!{7U?ui2Mq-FfVOUj0U?cG
zgZ<$Ow^6}4E9UI7BXHNTqu>wDTHbKqZ`_%0?3Ww+XDxRffqT^tuU7AywHI1C^DQHC
z%Lvs53%;7XuU+=FFP@Wq{mWG!`Sz?h_N@5!6dIcH4gGRM|8l+Dun*)a3T@r_w*7M3
zenM<1xP5tdo9u2|Jok~if6d0#2J$sMa!t?DvvSSw9sZ-5krmI#O3lccgR5;^cq-pC
zEaU&CPxpc?i~QnnzWq_T{n0z;<o2Vh!DB?dp%4h>1Ko0<ducS^cSy$nz#;U(Tk!9=
zHhFb&G5hY!J2SF>n1)%XZ_L+s%k|w$!|xrqc|fkG-g;1bZRYCCVqC88VdWjI`5nFT
zj$Raeg|7a5*HO9aC^gnm2sGdDUH9RG_me=V;Hk`eg0d%w%v-1CPO);U>}h40cG=Tj
zsH(fxbhW9_(20qj|N6pnD>YpkK1YL#C~Q=7_1!wo;_$l%-Z>z9cCi{pbqn&dD>a=P
zZd*MeyRnLm?Eq!%ssmu_uvc!_d#|c?{;6w`tC7{J&ccpn;4~7B4>)zrgfl)juA!nd
zHaEsld*p^5>Z#V*r&ns)(b+oSzUf@Y4&oH2##SW7t1*ErRBcJIi9&WtoQ&yO8Ni9#
zGOZ8RDYRU0$09E#TH2E{X&m}_?9UnVj3sBjP)?-?2yBanQ+lJ;Sh^b2o-@b!+a^ul
zc^+-dSZ8cAcF@puv@*(k&YH7n#w+U^paH9ENoBBr%-J>A83&+rou&-Rv1z1EjMNET
z+dTfeKjMLfVg~mP*~NoE0q4ym6IpQ|^5O_3bcDsnDftSLkV`y5`QwzFK%$tz#uPrH
z@GmO-MTNhlxQR<e(o@;YR2E!~y(LnLRVGBKc#JUZ6KV0Ks2HDaG-4sekKY5NbOp&3
zZq3D2`)OM*%&b=R&)H_pvriVP>#l{ah8CW>@r~=>Sn7DM?`Gc}%ln?6dRBr*Kio4P
zTCE<Rv(NIgyJw@|BX50s?%NBOmv$~ax#}C7vrs)9*TmHX4*BlI=&HYa)?KI#TswL7
z<f41Ewr|ckYn$f_zPeej_*Hb`rg?l^;cj|JGLh*Qi72iJ8NO4n1tW?l5`jsQRKJL{
z6+~KLk<=)~EM-N;G8HQ`w-uXeD2mU}S8tJF$An}u61mBXM^P)$zCFZdOWcVpOAgV8
zOGy6k3J1>Bx2v${;etQ#srwLbb=|LQU9(aK?5@6Taa8tqui07I!PSSBhGqZYnv<1X
zTvhF73}<cB<g)tj*95NZzq)_Tiad}5P1kZ)b8B`gIXIW^t>9enb0<n{9#}_W=!5={
zl%Z!mgJi318FzlsvYfCnd(sMf(iXP~b|WhWcBWzdgeC5P-RNX?qYHc4rFctw=+xNh
zaaB6%Dn+dP2tzSf*#n$NTa7}?R--UmRNbIX85@NB1){g*0j!Z32!#wvG7ojkRHhQ@
zEF)WPEErSOVM`4@ur2eJwsfjl(lgitd|ge~>R_JH*24q!S!X;@7cJw^;bM`AnAnAn
zPz7U56%2XA0hHPH7D<^EcOg-#HhC>bWfBiiy@gRw)gG0ANPJ6i6?r?{8j2Z7$f|N1
z(*8>Np?WlEU5J-lQI7}HMf{sKfv$yI1*r5I64F9EWm?F+TFAlbyr)_AKt3VUA$vLs
zRrS|euC{CzM{XO5qc@xoWh6T_P#t*-&Q_6G+q^K5ZyuDJ2Ulx$L998{Q$!3@d;&=f
zB1nHAAk_W&GBVqWFJ4<ACL;J5GPVhG%ahaLX2_+W@8%L%2|}mDpW$xu;~}#+0WdK^
z$vGsbI6`^W?bFCf)F9SCT>|1`({-Ddpvc9S2zWn|D_o(m<;KYMk;NBQ8;76^&U)ux
zgerBzaow@lv>F(k^%B5i*B@J)S#8{_0r-L|jv$+}kZD}}ItYc_Vi+&+8<fD2!Kv()
zIIZ{sCA1+#atn(QN~m+<w<w7sDQB!Ps-$F|K8ztz8SBs^#8sVj*4>P$;!QlY$V2T^
zbPx+AfVBaOwQ2F`cb|Xf`85vNW#ONbKS_R0S#_a_JpJhpi3NK8KfB_}PSdEsyw79g
zVJ!02cJ#h<CS&Cri)4YB2KUV`GFW(#wtC%+^{bL6F008F^3Z8Et;$4;Y#mHWXYg5_
zT>)CPe^n+(J;DQ6or#thu95TsW7MgtxD1~+@}}LkX!;%K>#YCJL|-2v7_xPI+BHD-
zAeq6FH%+A_nYIk1l9`)O?}UuBi9r)@W)fU+>X_^V!0JtAL|RJ4sjhWegk3+0Gy)=t
zB<y-$ViJm7ggKk(gA#yl4&T0RgzH~IwleO$dAq1AoYn!{V>1tLDKU`pU8ghiWgto4
zNAd-ea<eVj&<8eM@C0-|9$u;G-f&uX5Ff9A7^vL|fW_b){~gB%mgV$@*;GrP92+*S
zwe3dkdT!}hzVD#ickqK_`O#<P(P!_re4UK3;Jxmi_dGW}ObU?XSUi^Rctq}a1QbG`
z@N-9}dgza%lPa%dEWWt^P|0z$uh<FsF*0EBrWrGsb5Z0HfcBKEl<gUO&UBmCb|0Y3
zIny-IkyELbpUfiJEmZaMrL{`FBTc+)rU+fjG#)aQ^#71WBwbV#DS3$!2?=VCP+p$`
z#UTn(A`azPqOsGWmkEvLZPvUfJ$?oZiO9kRpmm#dFyp&V4)iU(uo`#_G6NE%;(A5F
z-%{AowPxiSy4E=}tX(g7bi>ZY19D&&^6&s?xO?Tm-sRM4U{u8|lRkmgBKZB1&=H@d
z!8}LFR_T$VN=n|tpOiteRV}Y8YUOy70MV3kDwgTwR8&=R$_><7n{<U7c_3;EIh9HZ
zIZEngqb|hor$3rQcfAeUs$3zb`0)=AH%6$(B3LFYMK!zvkz*U;k_N6wsNsh7MK#=k
z&{5^KxGrPdxLa_>oh-QI*#<)Wx=q^x`#Rx@dtb4JUGWOREqDZrF{KF;c{k|~Bk>9r
z%AxN*m=G1rgz#ZoS1G>IE<8m+R;Fjb66*xG;wG<HG1SCrV%ljX)lHXp4wT;JUp2pK
zdDZ%5(IzA5V&qkL%>qfJEAD8m_`GH|R{dYI&cTc+Nx3<T(V_xEKlfQZ!e9)GT7yWy
zoHb|C&6%R4+$8<#wVndsz?TjC-7;&PK*aGC2cx7$4~l$}{3M`8b^&{k*S99}x~Y`i
zsX-Wd>9^^*#VC$)+oo|*(AUkQY)GRYx1ZyU>6PK>(J#nm$N02&fH{B>V84i{u$Trd
zed7>a5`omzI+-|co3UlIZN<%*=J+{?1u*yG<TB>VXoPsibHHY4bE;loqQIoT%3-fu
zQ7t3Iu|FA2osCBiPWNot;JQp5*q=l+JSiPSMuq)7h)HA?LdxE4++C>jFL;*se`x#6
zYzkH|jsx3|NqR}lQNzUfn6L}^OQs+~0(6kH2(9z{gm!}33A}?6>bBy#MA3NFu}?Fo
znvb4Mb4PIxrHZ-o)i8kCyyBMNlrAbHic^@3tGbC|D|V0MpGa|Eaf&EdNNEw9DBJQS
z@pbsbju74qB?c3%YB6+*AkGdQI#h0o2DY2)`v8}Ii{!tqaQ7Tu%^`ljDwwYd$yK3z
z)sS2@G;1r=x8>^x<@&){IEwY`ebsMXD0dZq65PXdktW&Gq$?%5+VjFnO)u1*CTJ$`
zT0`#{8RZ!i*}9*ZOx_BTN=<MQ7md~tm+aU}z=4I19}FyY-0mg+ZT+>et7D7){LUeH
z=g=L0eq>A@8M|A1ij3lWgU=Ma!4*%_!liu6Zn<Umy4kdgX+nK$t0+!YXG|c}v%R%T
zyWz{N-7}nc5r8-VuiyoJm#xt2$V*_oSP1bLUW!lMI(oa)Wojj3?!|Md1N=8pppys-
zl>!c}vafZqVb#~W;^<|A7-!0iQoG5eq27FfQ<~9{)M$^i$rz&T2Uf<dkK$yPpYL0!
zq~`+ld&?u%=PciW@iJqbZ2U5-9Wc(E`HFgJ0Ip_|ZZp<0qlq&T9-yk5DW%3ytLY7;
zN=|byk8&@-^q8@kIJlinIjhF@W~^^`EoGcbADPauOT;8^N!Y~U>Q3nXi8JJ=*V%3f
z1ML)fBCc0hRUSwl2)Lrr8+c9;Vw^~butCJ=<VEpsP$ya_nWf~fDR~u%;sG2&Vnr~L
zN8%h3?U27t6--}!i*oanP&0~E<s-#oj+0)lxz=wz=0%nDkHD0Eh=j$xJb~8_=G|Q%
zxw{HbDt+CB*8Z#B`>h@M)?vAIc=@^2)~}#k)3s7FwBi{;S_tl1ZjpnBXHVU$Yg`z;
zaq{}frP_RGL=KJI8GirZPY?ck-4nA%e-Yfd7=i{Id~EL2nwj&T<UjE>zW!HvU(ZLr
zo_jS9E&1*=t#o~LwdVMW=Qydz&g;&_{#DY2sUJm;iegtUI!T+HP&8b&ZU2sK+jDSR
z{ym&bCGmvCqVHRtxaqc8TQ2QAV=g&SwXJ~|1dr|X1CG-p943@;c3FJHKI52i<{UZe
zC0^v;@Z_u)s6SgCe7BdjVCgmv;wSp;5@7ejBC@hW;mWy;HvNnn8`_<7VN*M`t<G~i
zH@P31x}<+tbLLWOIqMbvjc;w+W~$U?$p?^g#Vy%NZ4g>ZrPej-xQS$W@Im0YH-2OR
z6b^$GZaVnoSnLMzX$skkPofRI?xI@vwemVOv@f1P-7&;}DsibTeMyMKrx5#zA*`l&
zH{E@Md)*RGz$aTtk&SrihMI(+hLBb4qL4{OV}ck2L6K~8kyJm$jtDdS0;1@rk~tcW
z!wtds_1je8hv1G~)aXeOT&&AbFx{QOy}*=&kUN_6vg>!nHYG@J^gypvd#Sh>0t?6}
z?qbgwoI^T~_);VhSF8+#^-UrUN5@!uREgoChKhIor1Ge?DlW>u*5OD<8=!K9`@PB9
z=2~$ylV7-TVL0EoOK#ltLFY>2uGPlltNs(S?t5*W|Ij(>{bhTP>}i=Do$vqU-jj0W
z?s?b3$)!M{rWxVinw~;!kfOnexGbJr-mzN0f8KHraq8ja+PgIm)5kzNVmX1(ytUBU
znQtAETZiVozo=|l5EfrpK7P0Iz%MH6)@rzi$M_9D7udaAyZo1{^+)C{g_`>L{lMRb
z*uB=SCF|0+?;d)3we=aD;N8lhf~O(xA$?*Y{&P?JT8QiDUF+d0n>3!G%HYbaE?AN%
zhTd1klo`uqepq50h=O6e3F40khuDI#clIyo3njn8pL7Qa?Cbl7kNlq7VRbD|uhHwy
z&}Z~o+s9k`mg?RM-VCmB$lmFEzwf7g>y%xq<OcS9>i(itUE9EdUUt>0ZrQUuDmU+2
zb5hY&G`U%PevNS9d{6^nD}i3w*}Lwgy1o{;evdCby*zZs$^wr=qjLXIx#QRxhc6!v
zeJK6wzRxME+UYcu82<D}leg<<v8(>vb~-He>i=^~-O!h?osU8F5frU;cf1l-J}me@
z!OpMH?ffd(`95anSAt>IC}kmvV`=e7bV`aQ$4)V8U$td)eP1`#NJY~n;;*n!Tkewn
ziC%3Z>mHszL+hUIBft(N^^rYgl87&pDW<sY`zzfs0G{qIz^w)Y+Z_;2jWQq%0)S!=
z5?+^98Z6XRV&+>OP}8<CH`$wQ)IM+1w)p}HiY-sh!h8VatG8$dZ#ms;i-urKRns<r
zqxX875s=Bb<pGxN17Tiu#mY=qxH|RSFzpzC3y5xmsWy0Z$<P(Q1A5|jDe0huT3}pD
zq+W~5lzb0~Qj<*xbTd9)b}@`uGKyWJO>4pIUy*vGR3_PNcaq}jb$9VKRBOI<y>n#&
z@1yuGkz;`gxN@Vk%+Ff3^L01CK9Xxc1L7YxnWlvYnWm~edan*wl-h5P-SK}=zuI>K
zo^U_;(#hcoue^S#>At%v@9zA_-AOUNN3TDcZ`>m{?wK8ZbL^AG5PS^z%AIoMPL^qt
zE87Z9AsD&~fyKZ|eGhEdV8!g{8)GnGckWuY<#!#HcO71BeVk0yru(>0^u*i~dC$YL
z=V9o=PVdhhs_`i@#eRFUb05ab%uc+wK1LdDDO{?Vq9%2HnT&fAB+3m@W{ymEmaK&G
zdEa8Ao~G$1#fh1qZ%xll=Y1jB7g`Ff`i55=!)0cusM{!;Y)x8plCA3lNVd17)gYR7
z$W*IJv#M#UYMX02lc==0%1xmr<3Sb;qBAr&IveoeS8xqYH(b|U1y9}l<(0OF?|9)b
zVBUILxsE~B*Cw09f(kY~(ss8Uo}odFRU;mbhvFiomHQ{ui2sPBJhlzj5j%66!rMv(
z{XAwWE8qtq^z)PH4&(7|hKkUzi3ecV4qRW#S3M+GJ%r1Fxp#8QFRWG_ful#iT_loP
zY&_x&zLYx;a%3zQM}$xMW8_m7;S@N>PvVyzB?&>ZU}#g7nd7)2HeFHVN&~7|4P(J8
zT}))ajp)}Uf&>pFaeI~f{Dg9(%4w6y)O<`P{eWiEWHPAfHscvASG6Z-{zgC&9I2`e
zmj^M6UA^yKeCJ~Rp`#x?babT(9HZ^S;SIOF+BIu~o(C@CYm<F#i;t8!ZxFN^4^{nd
z)m73uMcR1cZA!jGWBoC~Q1S@%{XR0#SPP`F`c;h;FVa}?THD22_m(u)y(NuxFAmB6
zLwuos_or@GSu6;7@KjA}rILfwwN@%_(ORi$tJX?&0V{5N)d$%fFDvpOs;agN7TFnG
zw^LPx)7rO<W{WSHW{a$<+0u|hdlh>m5>Ll)8O|3=<9A>&x(qH2M9;?948j$NUp8ga
z>7=AOX}$?8HR9~a!ha)yU8JyC*liA_f`Tq|Wn8`At=@ueWR-Nx5=r)ZuYovjCx}s8
zs*^-gd(>FXfchgL^#UFlCQ2nkj3;mpFL4$JInMk?>P7NS_D%IxYnPsj{_O!=L`qy@
zEvdJZc0K?Wx54pKHuVY=g(%d!-MtUO*ec$c)bDx#2K&`h@waa3)xrnSFJ91RvW9-)
zrd}`~dH{XZ7f%K=`yF2ilW8V(G?o2E=<4jLr@hE8B2(D}R+>~s)g|C%h?4N)lrRa0
z0hxq~i@8+sTQ)%wcTj~@#bS(wxfGfRznKzZrHTzEIWAnXD-7)30t<$y`WEfNo1D5M
z;Z4Fd`~Bz_pbv^GDB?(R(!U^CGxI$EX&=Y8{+8?bm<#@f^L)(Je$0hf@xZUS!C!NK
z@iDjmbCZQPeaa#E%*FA?`H#6{A9II3H<@|U=ME&FIXHgcw_MxjCL0PIl8x$9Jnvs<
zyAiq`+TbX^@hwx3Z<>Gn+KH<tHaKKA4)*a)3tzkO-1X-+IAqswQN~oiVS1Ve*jc)d
iy3SF4-HhrrR=tri?c@6v9=~zo`iaHq&o~s=ApZy5tmkw9

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/step3_text.cpython-312.pyc b/model_executor/models/__pycache__/step3_text.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d51134d454edc8635ea80cb52366874a30b1f629
GIT binary patch
literal 22603
zcmd6PdvIIVncuy5KM8^_fFwwQZ$TtMiKJxeEm;rCdeE{ZJ2ql379v0j5<pTHpk%RN
z;-v1Hbeu8SHW9UTDmv+`sj;_arrn9WeOTS?Y~60B!z(fYd@DEFiFUgAj}GNJNjq(S
z-?<NfG$<!cciJoQ;M{Y*^StML?{ogr>9lcp5{7TZ4-atM&*(*cOiE<!oQ~tJb5SnD
zMfs>M!6$Vg9Zzw6LZ38*3@mO)7?Y-uiN%cxbI6Q*Q^K6Ige)x0oUkTsAsdTZ685Ac
z<X~}Y!kH`yl_XsuSF$uz%F=8Jcd{&0mMjmICo4h~EX|&%Ojd=eSlp5DB)uUoi#rq5
z$(m3Ni<cy7lfICT#a)TIWPPYU*$`?-`a}L?W2lj(mnNE$&7o!%cPCnst)W&HFH5u~
z+e7UvUY^*J41@y7t)Z>#y&}<(><o3Xcx9q184LvxuZnsS-N|jCZ7l9hY)|%tdXl}N
z-eg~>FS#SMBe^rQljn3?tSa`{ySzM`p?)3r1Q)G-m5bKIEEffJvh%<1>J`Y{46+uG
zzAu5?!yxMbS^p)Fdl_T{ApKtgxi98mu#JFidNl02O6NoSS&3$pXenMIw(VVmGP(oT
zjDgmP`X@(*VnS?WFxE9XlDOtSF)l<>sraBjIU0>6f<GtV054gdOvi-C`9utHQ#_T3
z4^m8jXyn=eesv=w2(5?G>DWj*K1wf@sqwL~Q6U{pj|zhq!h@s9u{cWWCHvvX;Dy-X
z(UGC}uw*|?ttc<H=Msse90#0ZIF=5NjfIDW(eW{<h2BtmYE%fbo`uIELL`xhCBj!n
zg+w%*iciEOe{l%Fg@ssjob}lrABm^KiP7QVn1FuT&c+ktheo2O#}jz792-x?qNhiX
zB5r=>^x1(?AsH}86^BO?<H?aTN|UGJBe94e)trtA!?9@5ywYc4W0<5!Iu=!+-Or3(
zU0(s(aGe?*j;B*+gwerR3S&c3+0)|@OyWd@CQ_LVbd1I?jE=<uI;ljf=JfGcBq~)s
zH#!(OuO=Q%o{vSN@sVNFRT+&9MaC29@YPs+_yUbO5@n+<e{uxhGZ~A<(Zh3WT2nu#
z4T3_pv+|cqojDUQqOmil<5&<Q!>1zGVuIv}r|7FB<uvvck}=dJwI?H&V&PbFEPX8;
zFQ{GlYN_y0WDslNnq+5y392n6Ig*iU=VRe9AvP3$c~D-Na%fgw*2WNd4d^e%g?OMq
zot3k4QEOBe(?|6&LzJHYWYiEd4w<I7AwFt+)fqBHO)>Mu(!%QGc+^}xeaH~CylMzp
zr?{8-knJoNut`pJDLkGS9lSIknFi%0>$ptc2Md}lV3X2wWmB<M><9^ktSw?jzr$bW
z(sJVnrwtkI+eVI4H!RPk@g_fNT80ZN2#Dh{+(nfLs9^Zb@E0uwuS)dN5snku($qS8
zqI~hv|A>p~ir0V~{r8M2qWmVGcB*w1hev9O3X%UsYLS^oYFQpejYSPeuTbCezZqRd
zkKP!+r+d%zt}<54i#E1&wF<jwYei-#YKU^IUNh>oysOMS>ea@1jSE-@CMx9};U81>
zyPuGYf1=$VPx*(17`BYyPhW_PAc*-##<Af9|LBlE_VQRvNT>V~A3Qc;2`aAvi)05(
zSb3F<>Cv(9CCPpv9*xFEWW42Gw_zA6E0GZv@Ky>NI3?MEqk)Vf33Nr+g3${B1QW*K
zFuHR~FB#6qBdL5wphPkP17lxW!q|?$cwvD?DVft_a+|K?Xe?aVG23&I#CYteAdCuv
zn?S7u!FnqM>AjNPzu40<>X$M+1<^=mWwb&i6*N#EflCajSYk+MM^e6{k~JJ2On~Hs
z!zub8emt-I`c!v1Io3TEAL~j-fMe5LFONUAtN+qtvF=3teD~P3^o7xp?kgY{-7+zV
zy&M}H2X>KPQ{Aa_Y^)cU=jC*8?3%Cx^-ff++s{FDRwyr(L-5O2xQ7nTS~6`GE#4JN
z%{|YaWzW7T!yAtKcGsJGr}xgaWox#HHQVmmx7{oA<;vO@4DUN`Ip)8%%JDk`xj=U|
za6k+kSlV*%4!^4B-G})#y}rC;mD4**9@;psKj*E_dV``jm@D&U%bLWpCYG{Q^lr`7
zw`A*gi}ky6wKCXt(YrlY-I}ZN%{)K%{8D+_L$}pyquxBM;3`{lj<T$yUUby6NR#Mj
z%DJm@)paubvrFa85ACK(z<=AihOu#yQ(bOpe2SE05@P9bVPp_|rS=dCV`z&5+PY3i
zM$5`aCJA-qU$t12ryV(|N3Mpvv`lcS8U4FTTa$#AG^Ce@$?z)Tc@dD4hDjsfR3eZE
zL%%YH_jFoqCO{S2>UxF_?Rj*VF{$-Wnlh$hz0BxT2oM0nz|a2|o`6nx9F0p(a3R?C
z#5aIm3-w3~n6SkzM8;y0;YvJqRoI6#VJ`(cDIm-kFbn%B&Z@AD3i08vT*9V&j%Yk7
z90P>Jho$nN_(&uXUiYC=Gy$|F@CXM9&^$CMT#X3PiOTisSxJ5lFsVO4@Cui!Y|2({
z5i7S$*|g|FnOND0cW-OfOY3f-XJKO5yL-xczqaA#t{c1NUs|s1#rmIe&Ro7<-*hu^
zBay3VUz}Xka}6D9oUXyPWT{;>agI{9BO348YwtBZzI6Dx<)*JJIU4S}nzF8T(bc|S
zTXyv>S$c&-=*lhKfW!stgo#EX$yhin*}}xcjVCDX2!}yY6LO9~!jRxaAn8+Sf$dzv
zm|!6#lZ=&x)0FE}u*P5vyj}PfFC0K>ia3~qY@UQRL|M>B8C2$%uX3vvuJ^HAmG@I?
zgVA=sw06~qUkt|+Sm+b0x>wEgYT?`!pAo?7<Gj<@H~;KAFTVZaDu?J|>_>?oCO)Sq
z8yKs95LIiBN=Vi+NcsZPVpo_JJ=hgP)EF}=%!>(ckk*DAjDfK*2F6;PQF#OdV_V0-
zI3&keLW1Xj15ckiGr&-|(2Z_M>f!@GmdC@wVPp*!G8?q37(Vzfh-_eEu<JHsW3WGU
z!#qZYJq||0kTEj0Lie7bfZ%F4B5g(G>;cJ#Y^%T%;V*>O@I^)+HC=iPpVpOUPNHT;
z)GgoBtNRzMi%YGyfUVN-1p3H@wU!yt|2d(jW50GXdKw-d14}x3QRqS9ge@2yy*k1Y
zK*As{On9FiQN){A)Q@S5Ut!$(ZvRAM(Ek*PQ3OWpLLLko)ITzMH5jl7v?STm7KrtM
zqywC+HCaVTR;@*$pMZ&>l1ykRJT$_-q>5RHFte{Jgeayl2J(K$V~<zlUBM_}W#Pim
z2;nfwr@o7T2w`a<A@uFcIXpRMJvR7!qv&X6q(&i4FD;dKfYj81)T~&lAC_=69XUrG
z!4o}FfI>^<TL4r;^s8jGgmYBQRo%5WFe<urVfRAk($23el|H|w*AcnYfm~usHvWSI
z!0ox(wkgApEna!U5h7hjv}hr*Mfx%#AX?l-!T}qe4WvZ}GQ~Zb08D~UFG{2g>Jno_
z%7~hbXSrMaKtL~q(W(%k;P(*(Oa-XltbAeNByyzEbvzV4s$>Fj85>WhX!|i-FC%+~
z>Lx1IeJ%yh|2;sah~f~Qug+GsiIr{hlgpJmrfpN^8Fvooe9w(N^H-N^yO%89T!r`g
z!0f<MbMJCR-?VkgG{fgyl~Yc6QU_2?z%HD@kMJ}F&mfTW=%sL$UI`t`%k><^o~3{g
zszAg>_zHqT#QOpzQZPgr#48Zubts6}=`*(9uk@}O@e9Q3Ygjc?%)%kfN->*;jP3O5
z05V>sLRdDolFwWe+iNgZsaP3N6)PhukB1r`#Gm#MYeLW3T?8AkGKrJ&zi4>@e%1p&
z8z4sNfpPT;p0>n{F$k7JI;v1fvm)1qKYPrgq&Q+$CFYEohP(`?mjI{RqOO?zB2DIo
zCtA8my1RJ#kSSUQT<>JUY6*Ci3aLz6Bbp9I#`uzzSo{l66F}Cc=%p*ln?+{Z$5N7w
z^a^3fGU<q92Y({O!k5F~Oe6=(NDV^h7#WtTl989gW231!DJCH3D{2PGLbc2AgQVI~
zMB_Xz8dRwwjhnD8+pyn7xPhv;Hc}OarwK8$C#`XVDo&qtf@*MK;#}ENoEOYEC$O=i
z{3T$=l<oxgP2xZ`TA-GNSnZrZTd1#)+UUMOZS;)V7z(LP1_&jr^)6$@n^r&CB35w2
zgH*!l8y=#WD63JXj7iXCOe6N<(10X%i9KnL8lyQYDpGSr1#ly^If24aQ^uZgfL3o5
zjvZ>v=~^|07PRrHY1H#g#{^BZQoD77=&j97x<RdJll~jtv#DG^My}0Xy7^1W7422=
z5ip)b?Wui3Pc`*Ly1k%9tsiRIX7iA-WQ-Z}dyWDwh^Rk%iqBlsIe}T8EJ=41z-eDx
zP204+64a{AZUMB7edQ92&h@Us?_oZP?O+eMq0#|?HXW04CVIb!T1e-iArgObJeBsJ
zkNLNE`p=K2{llYazd$_}UPN&0*Vf==;G8@+We$$Aw_8vj$Hr0<`ry^eP_Y6DLDat{
z<B>v41I<Px6%$5L8L=pM?tciiM<ksdfp8|^ooPY>o&vTiNU4N%Bv%^MCYYXsAwhu%
zlFU<GqS$2uGNXe`>0-Lfer2tNMe8?X$xL#$1zHA@jgjy$p-`cm5_DHD3q%#PaR5IG
zgb^eI>uIUX4X}=}F0j@U01%QCj8H&h6vil^ZpmZYLa_h^I}u1`1slu!9W6eYU(mur
zMz8jZpH5@<zKx=(KLfKw>|T8VyT=%=6^r*?+0Ny%{weeQhAqU~`EsuEtgBgcHO~)=
zuC7J*U02VNrDw_21GPi8x=XC?TJ(t3{lwzkw|nNc-?jS~gLm{!;?D0aojtcy`fQ%T
z1L>~|FqZMY*N-C3oToPH*&=$jEcCs<@76xiLlrqbZrwI}X)*ev<PVd?3qJ5}A<h!Q
z=gH}lb1gSJZ*(rW#hR_6V{0M1`NC3pJJ`)?VmF;&Wj!cWnsxX^hkw5Boqccb6CK+&
zaHwBdDsM#*4;8V4i>+;%Z+WNV?T*F%m72XsbKNUzQ`)7U)6=Ktj%0n?MEplx1+4Db
znf<7zoa!-CJ<SR@#&>;kb~0DpopaZMF$PdA0lC1}lzXms&34UKh-Ix)=6e<3o=e{x
zm>y6|I?55tI_gC5)hb8LG(1kTtl?o?k7QLzbBd`OWO<G#t@;pEW0dzizWS!DvZe!J
z46YuGu)Zj(%w5!|uG#>@L<&a9r)`!x46Z7#$9WMwn>0?ECe6TF8vV=HlF`)COfO{5
z=cutfL{v{Zk--&m9tt4nqY=6wWo8sMp0r4s#HiMYo&z#tR$(VCfO6+^)mX-|PAITq
z&a6y>Bpd|@EGl|Z^AJW2ScOUaKyL)&P+A}*f$(=I_&NozQ1A^3zDdE?5I|UD3Zz#l
z;c*0#9#}~hBlyb_e@Wu6NOr<7VOfNbEKnH7qfn@%h*D^1p-`ZxDS{RhvEnBvle&rE
z6%Jdptm=B*Y~9@Cvb$^AG^L+<I#*VCJun-XJ9qP|H@>>i@_y&7&fA6$9UnNBd`Ca(
znF%bH4NRM-_^Itv5n8=ZO+PhvXxULe#namp(@)GC`qqh=%hRWk;3|Lf>(gJKySC7{
z@bt2)d)h$7a#c0g<FoO3et!FWWVvd~l$}y8&0d=CSgs0A+ovoujX9TR%Egv^z&tPz
z=lmS^a}FzdU_f{Z9S^uR2r>du4aqnJ+gDmLMB`9;FsX*NgFq|ox0G+<RD^;z@R$0p
z2uQvu<(k`b!Jb^()||IC*U_Ep*-3h)+9!A@nn>QE2&S~cvub8h3+Jg>wX&#<EBCJ2
zS=2#tkdsAAxT@;8zS+>Ki@gGk)z0<K>*xAsN9NOFRmZBErI&GyEvw}$TEUf9tyZ#V
z73XQ1KO$CbS@p1YuO?Mhv-cX(ak0*=KBKc4y}9c8o4y;qRXxRb?jbc7i{H1Fyy=_v
zeQrd$EL_pZ2l1yp>Q-D^LDCn6tEl6PmO4c|f-n^|LG5K@B9a**k~wOD*;-??v^HSx
z+a%q#NxEzmG{rW_FJ4L(?1n5+JH#tH6R#ZD$WAG*F*y<&gvDB5w$K6Dl)+e#JefX>
zUJugZQXj%Agl*P*z?d5(9@`fso?>_vI&;3LA+W$ySfELR_ASb3Sj$+T1K-S?sPXt}
zr<v{!MmV%vjEDR!Onj(8<8$-1BbB(S4G-|GLDLp0eFAT)^{zkyF<h+MP#CXKjY>qB
zj9wH*vjarUL?=|-J!x7ugO-9BG-u4;*qJe3)FhOA%kL`DqAgj~x{q*gS_XB)P+h$Q
ziZp2{7>7nXW_5444BVu3(lXMVZd6-frrIX;E&r=ZLIpKrb%8=zP>)Hj2eiw2g%eJs
zTh(%)eR?*-HgNxTb%kJtiHBuRI-tft>x$8G{^C{@BL5q8DD^r~Z%KiKqkZEjWc#ot
zqmJ|zv{QU#^B1?}>sMo1JEa@ip%2NPsJpP8H0e9pv&sG`y1L&hQ)d@-X)^Esg}Qud
zZ?0h_@c5gwTrG$N$_Hc-pdN70I+L|D%%lg0ti8_*4tboD0BnKGz~l%fQ7~bGzUG8k
z_O%GgQW^0f5;OkF$>A8JIf?I_Fa%-Wg&wn=YRu!a-=iv=L0K;(n{@-myftBi-uWC=
zlNdWDjH6hfE-#Zw)(b<bW{9L9$qchD1}89DDwUH+iC5WwNL5$~$rO{Z!VnaT4N|gd
zbHvEJ@EX-@gykqcCK-ju$Z$+@Q_YG|O&&2b+emthmgy;_(!#OH0%&21WQI==>{T(@
zdZNehWFgQMAA!;~%qk^GQ1XHWPZx|r%Yk;4v2ko_^WToX4*TMgm4Sxi(U*mPNJHS`
zQVChx<qos-14vI1vCZ>zg|c3~#?%#(C{5gZK&AgD*d!A7N(#k2w<qgv6y1$erd(}f
zwzf;G?IOX<d(TrpcV+%-i|J+0-YLg}>W-Y(m-TKDA%j)<vQ^u}s%^RI8j?uxzp_>~
zHRhTF+2(^{^FgFs56_1425wKCEZ=D&3^NK;J7uE)B+yFloav_HhGYJPWpDQ)FM4~j
z-hR>Bf4h9yyYF^H^d4NUI5cIwSJOD(wzPH6?Q_dDk59RB_L?PoTQ0aS8$2uq4=)Fg
zW`ifi;K`2;uLRF5*F7x;&n&p#8k}$Z-q2F;%+!Eb_cV+PTe}x7FSccSPKZ4xRstuN
z>rRP*lk<oEFtQXlIW@3Ucj~^qVy;BAx83u!<UDl?r|ulP)BjQ5orZ^cowsD_$Q#E|
zNn=;e=g;~&MPFyGX-l?gm)NumQ<$p@<ZAqL-ub#EPdCK8M!>H)>LBO&{8LB1ed>Xy
zIp=H2`hub_$ja>&n_%|Om#dihI*Q57P^m_=cj{h4+x(Sm`!2D4*X=9W1J8&Do>^%)
z%LMa#Te>xOfcazDmdC`F$I#CJ#LFLBT7UJ6$GG}u_+S0P#MPhXQ$$Mte1F+-gW=zH
zSdUu`!mCJ-1xC^c41$Pg55*bdauDkV0;B$wii~VK!TZK1Z#<vWjZ}ho6otvV0WiU9
zb4v`2i0|<#8ivzBacc}16cwhRz9M8x=s*qDjeUlIr-{4F;-m7i1%L$*U`{edQk9}V
zXn9C?mQ<d_M9h4x8e~8>0Ckl%+pypL05u7JNWnj$;B5-#Dfq_}d>?^oL()nK^o=Bk
zjGYvL&qjFSQTC&{;+R2^_!{w@QXisPNPG^?QL$vN&3Rg;j<dB*3Xa9PW#576)A!r9
zX4`g)ZM$#p`)JE@+gaEFr%uoH-}m}%mfR@GRW-m*VAaS~x36(}XkMH!<TSTun+}Lg
z2ktmOdU?6&dC}4Uw}O|MH_hvNVWG;_c8ax~3vfBuGj$4Dq?_Iw-ubTO>TOdea=tAK
zyG7rQsnakGmDbH&SaP*3S=!J*UE|H;H;%(k!Ph%=`o7DjX2}wvUX=o!8>K*!h6}_!
zCIS+7Ae^IsY+CR$7#~Z-9%0)0`vgkC&+wOe3xVuY(78<!_w0KVw*ve^*i&UNGrdCK
zQ@jkU^lBr+7QtiIVc2p~Y=W;bw%;%JUf(;rch!hE>hRWG&&+04&Gcr0pm@D=wv(xf
zR;`p|<7}>}@i#NmnYm|gzIfxsC09VSZvEVjJXv0&?hfKld(<_)_5ewR@){&H9)>I(
z%wBL%DDb8<!VG3ACI-O&vS>QIDb0|eEX-5WxoK%j@zRj>tWg8=>a=YFA?I$^x()K1
zF$Ad+zMOW*ZzWQRwgs5Kv1BLLF_jx(RQNC^V_;CP%@W5E7NPgGKLyA19sV``HN$Jh
zb-tWmaDtfTiwSSV*yu?;U@Zl$Dbd#rNT;Q`;d$K%HJl~}<uk#cYS?bQ5h|@Isx%R$
zEMHEIrTnP3h<GOKE>d1&=GD^J4Q&OUm|W2w>Mz#h;nkRmwb6e~yc}`mO+ad&3-j|r
z5&GPu)|CI9GE5n#_#vnjU$ta(5F>RE67;H&LkdRJrp*E3n$Ux|HV41qxZ4YiGDSy-
zK6d8&rpDmZg4IM1+RTeX#Ye8?r?<;xNWhJnhCzG2WKK142*w=qz+fRMrsYBdU)zb`
zJ9;c=Eq7XfQR$r89Q{u7(;&Yf#s)bR8w#Y%P)zp$0!QcuPTl0yuk0^?vK=NMM;0so
zDPk$A&Hu_PG7BqN_9i09^U=uuiNN};sxh#^y>P>ZR&zfhGUz#?T%-g5OS@9LE$3;<
zdb&kVH!)!N@2UIDYV?&bEI45f%A7PD#aL%ZI>~cAfttLWBK(lDzDt4DW65@fJnUuL
z5aZ!#D@snd!Vkp-u>6oTE=lF-c#IAsMDw<B*xUgF?^YQ^AYqb;PLhM!&*5Er3C{O|
zpVFHt_#Ofn;b96>1PjR;8;QztfMk*f!K4r220<E_1&TI<)bJ(#_o~Mb&AvPd8>A5?
zV3?8X|9!vz;K4%S!n4UoA;vJ}M)2QX;qF<Ss_Sgd?aR6YqC1dv_loXbNEYh1nQ|0H
zYy8=o4zZ?#>>v;-@MC{q_k3%A*4}>C-p-iXw!4nD_x8TKKihHaZpX0){++qfitDaf
zSFW@wTiPU+Hmw=;#9{x~Q3oH}#_nbRHpXs0=s(QLw}_6G&vZs-3COIc4!*R^(&M)7
zvWb=*OwO5Wc`LZk@?Ho0Y8_r`yX`Lces9CPDeLbM{XMr$+5VGa|H&2aDX{NPKJd0J
zd$)ikfAT^1b2+DPF0|y>ve1^@x>ww~7Y43vjP34Z%TBV&5@I}>D(<w@g4y2G5~KOU
zp5=r=00wyBHhymDWLffGBc7uDs(OaH<RzswIgu9$8PyAJ$dA#-BUAtvBC_rIMVEiR
zdfC;nWa*H3hgXp)Rjl(?f`E==Dk-del6_P1QctbZcWQ()iUtbti;C2XVHu%1WB3Mi
zQ<KIKXmE<UUTO0&X^e7{rjZf|B(gULP(EQiSbV^~u$U?DD}vgJ5L%=bA+ty=LS$7E
za)f&cy4*>#j?0)K02Hwzz2P<#;8Sh98i_+El_yn_Cp1)3RR5MHG%&G3BTi}w*&3yi
z55;Z;p90y^^f<tnbO0QjkJ|(qj_@ZG{2K}g>k9vZf)6P8Qwn}W0pU^MUm}2sim57S
zdCB6+pHb}3DbOmGj0_VoJ5-9qD!=*&2MO>rf{CgPNJ9}gF3__33ji=hguLb0c6a%f
zTw8Mfu36`Oe@oWiC;IyqUs(1Zm?7iv^zr-U?MvmoOO9TIIfx|<qVLeu>71uy;e_aU
zZ0h)f%G$XjH&5O;xloY}>=FaJZufn-|AYNMsXQ@t^y9XUg(nv$?_5}Jdx{AzH~Qhx
zTy>I%7+>o9*4MJGt#@5p@0GXRZ|%wXw|r{UyUW(}#tL{N66zq)UG|P%Jic7JPw|h=
zp~Ds*+bP(ZWP5_6^FY9{QSz|UjGU!ly}TiR5jOEOU&X!Y{+Mzo*iX|oiwH!HPYumR
z+x&@D4nMc`?B~w8&**LS1kW2g7b@TP-SXjBg0b^<>xZ2mbgoep!`OR}&vkA8)Lw6_
z)5HwK$u3pRgbp*kS-6It#Uo;U|EiT<add&nAoEetvvrlqlE~s>b|EL;WL!agBrK&p
z>h@Zrp0ATL;O6@lj;=!1fE)CXK{>Tm653qOFc+5tlv7)>oKd!^oUxe{VTYVyWpak2
zc>QuN>_JYFC!!^rKyBVT7uk{E-sgxpV}|0TWt$TrEjSvM#0(U}xZEh|ViHU#Hh8&|
zcLF^&DjbfCry_|{r`e(t{uxRL8dcYrJspw>@#*om_I-SV4W=h}xUP5MhKiif!-l80
z^ulBf4Vt;>X(q3{V>Z$Yv^d~+iMwD=9{FiVQsc~37>w#vx>9`u&s#+PKxz?($^!F>
zE~*_B$;$%hiH4H%GDq<iR1*%$khcwcAgMH~akc-2b%Km&^{a3kcd;cOS7RupjT^kW
zfpkRLr<BYPQpszHed0iQQ6`l!ajXdKK*`8hZyD_~#7@GO@Xsj-Qb2tW{sRRhT}Y+!
zc@}cWk`JH?e#-k-2%zL=gh1<#%<(fWk-jxy{6ZcvuVyM(p&I-CI-#$3P>l4?g~zPE
zz$@OD89~(z=|N@lqW#XXmCBP~4{Zv2$XK-60Am6h#nMKN8@%Ufo<Fwm<g#byL$kq0
zn%Yxf3tRgZk7fIgihW0yTaFR0*!Z9}uw2_g*}#2H_nRlCPh=fCMaNE%1*`MN7MXt&
z7!f>-UKeNI`jNxfH~emViaO0`ER4$1>4d*TL75WVL9CFWW2qA@8Wk;^)(x!OAJOd6
z2W70>n-kL$S?GaWfrY@bt8d97pH>;zK+cOZZL~@@XGux#nK7uMAQ&#NA1ZT7BT+S$
zn{f}tJ=}do$EffNw`gp%Y@whm;h-h7-LT~xl{43tns(lHg5ze|M$qv(l^QcXW!)Du
zpg6;Ww4yg19aoGo#n}PEq<Bc{tBzJD{70m)jRcDs+b6^vK|*8a!&1~3_6OsJq!K#(
zj?-hx;jxM4qQhMe^d~fG;tlXc-IZB)o9J$vPrs9SJG1!GvimSZD$RdiGRvpC*UK10
ze%X+{AOf#>aC-#EZj=r_AY<cGbl|@$Bu)B;2WmZ_jtQhr*cq9_aqa(~dh|Q@rO23R
zw0|4*7MV-(V%sp|^!i(T-T!C(|J&$!eun;bYnRvZuzpg9Q+$?T7`4_(pClh`cvPlA
zWiBQSc^@4$Z_+pnx2Ny(bXpZ&9%jXV1S}MMB+XG9F^cf@u)^2Ff)xG;H=}#0gyTpu
zeBCo?&FCSoCh!g{Fln2#PdYO8Y0nj2;NNiMS+pq+u1v5)VQM*|T}q(#3XqM{o}zw{
z_KfC>|GFp7%uRbToQf_{`e4Q|?V*0+oQAWQTi0X>Wa*NO6DKAds+7&c>++(;_T?vT
z+N1W1=Xmaos|Jqd<)uGD?XHZg$S6yGr@nWgG*Q$IPt>9IBIVu$!l^<CM$CtS&G@-5
zpNRrRy0w^kSN3XE>&D2TvYsr(%$2ekb}KW9US%Aa(!3WA=Bf&F^&8CT4F5(GAa$tw
z7S;`L0b4g^ljYjVasEzo+PQ8Ph%?>rV3qhbB;l2fucClaFUwRA9Z~0Eva%qrd_!J2
z>TLXCoyA+qRA$OEl@p+y>S~;<%2Zu!E>d3e?fT8uE9Q0yx*^Rdvu>y8ko(j8+!Xk0
zIis$0o7%e8CvDfLd+j&r!;Fr!Q^c?-zDMS(?4(B;)k8miSw5mcybe3Kfuu_;2@(1D
z1{j@}2-YSak!2@32wY9K1l3cs^(-}@|Fwr)iqwlRf>*cqD)&Q7RI&_qDw666${Y+%
zQEW$TE7VFkgHUSB=l2Hm6IJVL?O9)`c5*gfsE3_o(IjJ3&sd{g{I1dLeuqB^ltO&r
zOJJ7B*>YNUh5IgloyX>}8MtfQAM3C3jL*G=;YzyTHmN!qPtkoy<QNo&zJBmhEGplI
z1EoApxhpK7V&Aat9gdB_c}mzn(N~oFqnmk@aij`N9crn+A$G6<UH#?XkOYN0B|K$+
zwd1KJ?{)|*mBGb|m5Lo7?|AB0%&hWvOWZhp9i$6EBx9I<aA}Z*oCc!sB!WSK-BUtQ
z=lXkrDr6CF1ntNtP-YO5N@+OC*yyI86prS{(vm(ha!oP|xaKG_7!zoV34cZ4`bab?
zSzxqCU5%$N2yaow6O>_-ofOEyO7_V%jYM$S$W_TWI68JMEL<l@+WrBr%u(N^Qf2HE
z4lZJWD_AlzHpWgOuAA?Cx}7d;0USAbOHOv#k<#y!RH=+w0a2?mL?bx$ShMNJgr-}m
zM_HmaRsp-nK(Z^-M-wFclzMAqx$;Dql{SR?lvA;;8s)ka_^&Zb5B$DxWeV&(<N)>u
z1a3Va8;+0AyCjb)%<kM0?jbWpDi25(#h!z*$l)klPZNz_y5v5f^|cKcpB5J`K=9>C
zt8=ApGPc-f?b*_Hv9vvhb1Hjg_hierisf4u&b|NDTVKs~9TK|^-9d0vEI;}wE<JgI
zU$vT`GA&i>`0XpW@2<RFJ6oG|ZxP*e9B9w2J=u-}BL2G%{HA@do6(0dr4PS*eVcaa
zPNUdySacu$t@_nmU5{%tYF7I>Cp@=0SIvedyw^if0T=(iZ0$C&cH44o&vI4ol>J^)
z>knF|oWC#_8Ua)Hse{{dhF@+yBkq1`v1LBGu>A+aOS_+1vNSEVo_WxWlTZy)M`pVI
z^Ny2Z>Gm1h+{p!RuDl+a+w!fs3g5l*DtPBG%mK5Rr|co8uPDRkuB@ZuNpLfnKe<=~
zcfT3KJ$&IlV3qQnD3<d!<1B$UFk{U5TeJRN(ce4c{1{$2vH6!4kFS*O%azt;OGyti
z-?CEL{&8vLY6G|P6u;KQ`FG4bk?TJoR_vHLF>haZ9@f8w7SR*T;Wiu`QQv!G?}B|X
zv|M{|=Ewt2a3Q^TZpE`3nb68W(s$l)&JVA6gNrRc>iS{V9rH@h@mx*){3WqwJ5}Jr
z4LqW+YvyRKB_O-K&78j1x^-b+wqw88vH$jEvE$HBS|6XY=DPRZenIShV#(Y2v9~qn
zYlQs({!O{ou3TI9f5S<!8aNiU9p<rOaA!(It60%GA6=>FkSeNIdohN!gFIK$`KjGl
zU6u3V(w^p=w=w5!xL@105EW~Ca=w;aL-Wndjm*Ny+cnD#N9GLoYI_#@Zda_-?x#$D
z$HEcOzkSY_t8cz}>Bgmn*6h~ZBL3I!nbY5EX<x7|9=_#TZt0)1;(N~zFY4b;E;sef
znR9I&?<C$%pvSVG;X?ej=guy1*D0ty+H2<QG)*m8ZvY=>p=-t4&+c_$Z!Ig{ZpmAR
z4^h+ku!-~aD&6_Gush^A=xdxmu+sM=Dh$-jIX^{(ZS%2(msY%c3M%`Fw|n(j9oN#a
z`kYQywEXH9U)6DKPxDNn^Y5A+XUqoSFMyT;?*CKshltVwX)FYifP|k>@INScj)Jcs
zD7<ChBTA%TnlRUYLWEqgu!E|90lz46zN+$*)0BFh3&r|*<Bq&(WJlgKvZKH>Vk<C>
zAdZSu(+Is4m`3PzooQsvPDx&!v1;My`=@T5!c7*&s@u<g_~HjI;^rJ<)vDzRZ>*a?
zzVPf~?`<PHHPw5BFlWoLRgSVg>isD7@B2SzaoMOs0}LFL%;9i!bP#vtxCTdY<st4H
z868OlBj*R%e8I{Ls+=AjO{AE8Pco&i5t$T7ODns#nGlmo$mxmB&B{L3^6AuCmPop%
zc!J$w5{%-6ix9z;J1GIo5S$Sd2)gc0cAz8Gk^ub;SOb;^;t7Xqoc)bOWyQ0T03eF0
zg`pI~Ws3qGgppcV5!pdRy|qhm&IsmjQjsq_X?X<f5M9*Byt0X>mL3JlY?aJWf^_Xt
z<0ERtMF+Uqksaw}ceAjQzycW_q>e`wV_LrgEjme#Qu`xHuuBA$OCII>jviINayFW2
zed%gP`KWR4BkGqOR)`y6cVy;EGJ62|p-5fDipw8{@hXDCK!?ZEaV#z3%p@l(lZss)
zryE0=)mS+TjoTe#DS=p2$tV}_BQEoWO%x*`N;W^7L5yiiu_z=Hd=qdH6!Xbv?)dCH
z0P`bac2Bm+g^#K5AqoysVas0h6Q%YG71;jx&!v8a0JpC3JWv?l`qx~`C!FsSuIgu;
z;}foez3%%dw^!u$ey%g{x=%R-pV>GbV0%B|c74M2f37p~x-|~LXAX`(&VRxk`-D6A
zxlWG+3&)>9Lf2n&O`q#bNZ=5BTFTifXP#fS*1uwUXzJ$sW*)!(<m{6VIYb{u`DVUq
zrsw*u*<BAgL?52w&+)u>uIy&@jp~OS#UGC7p6B`YxyNrlc>|>=zIsK+={yg0Pw;%*
n%rn<tn0;Z5qxhO0$*U~+;W^!qj<1{RVFu}opK<iYrsjVGx!^4c

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/step3_vl.cpython-312.pyc b/model_executor/models/__pycache__/step3_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b959dfba0ab3d4c494feb42e0124c61a9bd22c24
GIT binary patch
literal 51493
zcmc${33Ob?c_!NXz5$J`u{L%z2!aGjkRZTC+&2&;MQUrwhCy_L1lSFLx0@RTNK_)n
zO-mkui5-H8`~>DW5g2L4P$n;iXL63|oS6xem&xhNrrqspW&+2`n`km`1~Tb*IhmRF
z{dJdKctP5EC-W|e>biBS>ej90-|Mgc%jvXfa77GnjZS@4qxm7-$d^TmJp8Odqq(7Z
zP7~6Ev=L2^esvLTR2S4m^+A2q5Hx5hO&>8vO+gcj8zP#hIcSbrf);jfj98<#pe<?-
z+M|x3BkBw~S-Ljj3c6Xno}h>Q7DbDL#nLlxw0Kyj)kI5zr7Xo1DT|f|%URqUsfhZ5
zJ{Gq`Dx+1wDi*g!s-rc*nrLmXHd+^~V`;XCKUyEGXK{O^A=(&hWN}BNDcT%tW^rev
zCE6NnWpP)eEgA?0Slk_HkFE)>iFO1#qHBX|S(+!(8C@4#$Kpki_0g_i7mF81HbgfD
zH%2!FH$}UH-7L);*&N*x+!E~x_OSbs$ku3Yus7Nl?2B#-Zi{XYZjbH=?qJVKBRiwd
z1fOB?vdFIJ?%-|~FOTer?hWo`@rua4=>Fh-7WYLCL=OfJMh^uK;l46d6*(L|5<C*^
z5B5io29L6|>c~L!Snyc%c<^}iMDRrP+2FG*y(V%pdMbEItI=r=XhOAbYC?74gCFR{
zF%Le+QvFD+&q;kg{9O3?DYHfsd?D-%zZh!RhV0>&!sTO~@}$ZBhJ)(qJ}MIozf8X&
zE!8%nr+Dy{P-E~j;g?Zw6V=OF(2N$ee4xWEuHa``S}W4pl(a#X7C>6NlJ+^4wgzb(
z;XdV?hFI!aq;`g%2@labm1n2fvvqj3KHOXIY&g{QrY0C-IW{22#&Gf2pR)$#1xj5b
zEaxWV?0!nlGc4z3<lOR<oM&0i9^~Bml$@h1XD@R0JtgND%ef6Xw?8H4Ih`ilHI~Wy
zTy_&44iAM-f4D>bc2?s~)cA~gjp6?A(GQGbJs(Kb1*2EAfnA@_-9SJuSPsR*+|cPr
zSTG+Qnw%URKO<O9hR<IJj}M0fTERTYO@uBC#{)XSFdQC@2!_~sE*>xl)?MS{6Y-&V
zI3(zIjb9PW{i9S-M6jN^G8x_#86AqDxbaYQ=nU0ki*rNcv5^TbO36is#*uk)A~F;o
zoftnl5elOvj@?7?;j{b0L-7k-SnwR@!YDI39uDo97#|ruBiK%b$72&5RgWr)k6wtx
zM-PUFLc8Me@Ho{&uX#QaiHiAg=h;0J3-7%Ujb1r6Ng3$XO=rUKK@>nugHgOVGB`Pe
zW=9aYG{HqegR#*m)?msvG#nos8Asbn_Dn=BM8}UyS^LqfAx<bdapd{Jq-Q5C<tI^F
zPh1#63#ZuEDy{P#eXjr1p`*w4?&=?WcHe<RCr>^55?&>K82V%=vUeyxw0CqkE|jv5
zWoi3I!x6bha*~f+8sg5xFqY_FonU3%eiC0Ic(X;RIx&Y)D5tK;K03}#42NUr6QP(M
zNVk{_hsH-Hgd*HWC*#kCCnH0{;V61raEM9IO@=T91aI!$-f(<qG(vq{ru6@z@yQGE
z*zOCXkx-b!6EB+p(Qs%K#l>-@0u?9Y;mM89kH#=q`^JYcJe<;94$QJs6X(L?_$m(H
z=n#vY96lS44heSY?(EQH_!BMWHVs<#`}RdoheIKJPfRF2d0}#Lf{VwpPX(KtcKkS|
zcG0d2@rf70qi4>>WBn6DXoTRDZfS|&wsLfQG(LC{b8V0dpBar|GKWLrbP^oVp)04u
zgOgl%Wb`t=sfxQWJ{X!DjGZ0gLdbQIeVv$jSXz_pN5TI|+}_ZHH9>7i6V!nY&<6Ek
zLrBLUxiO??SilrEk9l&7i*Y~>Yse5XhD;&z2cRS98j(xto>VeqA>6>qTT$K?vOiYd
z@uc$Nn?Inw&wZzp%3QGoTtc}xxczKy9v{6Nj)=2j2qcTf=Et>n6myHlKGw_bDQ&I)
z^mwnIfd)S<O@F(8`~pUk^G}TUM+v&ba`F!M`UjM!!)J%a$HS4Bzine6C(qel|3Nmm
zIcb-A{V$A$;%9S`PLEGM<-K`LnIzzq*Os#=FTRMH%AV&`e+f_7EAt-;j!Ej7!HYwY
z3*nexhy&UQy3^yI5Tzh!&kEX01A-oH6Le?scWF{6W;GAy6|<v@0M}TH0ye=iI5<8O
z4G#_qwn3VB7a|mQ3=W>ZFcguVm<I<#6T^dpoSk0e9vnp95qzi7K&q8ejqwR?_^e<O
z*BaM>wA-482sJ-Hye=M{TsJv7xi$_!6ppXGd|}Jho^xBm>msA4*G*oDpPd+AM+;`1
z2z0}j!^2o*oOl~shb1(*5i6>5@(Q;F6|$fYk=P{!pVxe<vl=ZcWg2_&Y$tE4PZ{bn
z#Z`0r-s`{Fe|ybhXld6{?9QH4`@v-OLB9A<%5W%CQJ=9m-*H@X%*J_3)y<a|N*A?@
zo0dvaH9L})9iQrTKGQ>u&S+XOX;4%5d)sbqyIr+-Di!EWR`v2lefJH0+!47Yc?%WG
zgk29mi=V=U8qx&~VWYHIP10gDhb?2pQmLFDEE$`)SY?DREmbUDY1vqXs@!Fxz%g;@
zO#K0yQUBl9%}B4GEldB1h<@2p%bBgTW=2Dy@VK}J+oBg@aetI1m_L3t>_40H40Am)
zG=Am+R;Hhgwg2?c@VV0y<6&_T3J$hv2g3xCW87Bs2iJ>0(2j8Q(SiXeWoRH^=l0N}
zy%g-DU_S*cJ55pU00lHHxq}oOqJU;3cbEb;a{Uw=kb`50#JUmCY%*dtxirliukKB>
zN;7Ih#^#;fcccG$|E)C(p~XE*-c-Z(WXX2kw&T8Ghgc(31`NWmlnBVgf%qheHVLky
zyIveTbadB&eS;?t1^4Am8i}UXJgi0)*-3-p*S!h&4v4GAuK~1~NhlFtzz~ImiYK^%
zVF{e0yhcMGP9Wi72P(dyIRhl|JK7loes%aYPV3*$P3y<C)7lw*Tms1&4JgpZuAHa2
z^-K9akbZM=nI5Y`Gi{hQ%FIAcP8p%)6qrVfMs(A<kp5g7#>Nw8>@Z~*bL3=`qT}wI
z=dQ<}hYTMY<&|?r|AF+K)0#o$&FF{Mb6WKO|M%;s_5T~bpJoTUu0T+L{>Zrxm_YTP
z*|_aLZfZ^br=4dmo%w(M$bR&%cAmNN>R<kConP3Ahwpr0_oJ;{{LV99x%5}@&Tl4n
zo_XW1s;tlb9=}sCpB^2)fWK29z?`GGM7&@n5_gEv{WgvUOEB*N)i@Cg3zkz8BFYe~
z1K<FV352QX*)ZXA&dsv!KD6gK{0Wxbhx!i<?A!IMU{yE<!7ZXVB>_vs5DP~}5K>LW
zc@1Hdm0%N#u;+$ocxYVE$Ks(FO<tlZ{C<vr17Su+$_-A{sI9q9`7tf!7(^qQtH6yL
z5(dGwA)(JSu1z*>y&hbOCu|@48q>Ztyl>6Np31bRk@qyFJk1X%-o$&F=1(nbOnKI^
z`+D9}pDFdtZJO<0E)Oicbgz8#BfX|^Q@Ww=UPIr<zV@_lBk$Xoscm><Hx(7Hm~Bqi
zL%pNYmN2~STItbvDwFQ!M^zeUdD>CSJ8C~JsZE!(@+GaQlE4FsxA7%y3ndG&RLMqm
z-^`aZXMBzG!DPky<*K!dzI#=@cw=i%x@G6RmYpBhbf#;z@HJa94J~+MX&K&FRE#$|
zT`PKx)%hJu^-8U#xNN0PykUTFm|%~55!_&~=wBdmLo==88baD>&6omr<cu24v{qiF
zW4Sd*8A3Yw>8SQ3AR6kBnAdC#zg!&w{Q%d4!W^yqfSx;zAHjNIJO&0gjLA17Ce!c=
zMuwLJ%V<m_onq9&+?g^AHgRzEnIb+;piqqP)m6>+?A}aC!~EWKQxD(Nvs9XD+L>-T
z#5WzfTc2v`PkN6g9Y>cb!}|lb1{S+hO<U7Vd-$e3cXp+k_9wjul8ytcvjaNrMN~L&
zTf0ACEX0bVc*2cSP=NQIr!)%an`5*f-_$(RH5zS?4r>j@gIW=xQ3m>Y<?>3ghkt?L
z%fVCHus)>2pFXS~F@+3oLJDcsgsMVDq?zz%4jaSx#Z$&@5U&!lsH9oLX4GMlpRf`J
z%1wW{HHh_$I6}5JjX_Ju9=58HP^e2aeZ&xQppCYW6K!*`cIUJXU*N`5`>Ibpc<NA|
z7O`(GMw)Zgc6jlQ68x3ouMGKZp>pJRDRs~{E4_pFSKz68)!Hbx>UW{vRMT1S8N(jd
z@4l>*5B*SyHx*s+1*!!Hqw$V2zJL=9kqHQUjIpy|h6NL(Ef=_P^>uw5LxXj#4QbC+
zVp2JP#dT94ctW~!dvOnZj@7C^i5yb8fu%dLm=_pdp%9SQcv1sA^hpM*@(k+6_0yef
ziGD(`<ddIb>Vb3CM@J!h;b?kt90f51`Kz)t6bA2&eBr@MqvN58OH6z-)sXw4ovL|e
zsV-tLu4*!N_w2?m_GPO5^W8W57dGCj?wsvTI=UBkAplfdD81FOSah#p!`rdh?zzUd
zUQb&3mh=eN5)zD;h;tN7XBkt84h2q%;Ri%wjELPcgB*k$gYmQ6a4zkH{u80**8pd3
z5VSK6>n`igy@C(5qi69Ob00>($~4%oXtkRB`!kvuQ%)c2rwuX{wpTN&{mdGT<`wkt
zjCsZ~ZDuj+jBVP&V)hvtMJpRmT}V6bjT5wE7o|^uE}OQqG1g8YRffwm&bR`Rr=4=@
zUd=nMVci+cu<kS9jb>ca_G#A?@?F=xZ8d0S+%vAY%rj}G-Et|+CYn9oX?KVL0K64%
znif+nN-OY`*n(-@v`w|ONN25esI=CT(^`-G-p5+&$ZKs;UTcfwQc7!!q}JM4YsD2{
zq1Lfh;3>5>u25WK3WbYg>54m*7*Rj$nl3`mV6^Cx-x*f~JfL%>XEVjq#UW62pU0?$
zbZ2xTm{ih`N@=XeOk*-I7prAqPRmMilBMW0YM(aKmz_aPADZO1$}Q4jUcKFE$o)RG
zT1+8bw(N{)+Jrv$N;3pwKI4rS$?u-_ioCM?hP)?Q0%xjE%=APqOFgfe%Od4s_2lLn
zF<@@)H(<ujcwcwE?ioR!oy47%Qe2lFk9jX?0@eX;E#Ari)l}mt@V%cK9ak3j=lp=A
z7a}2lWHjs_9rv$)t?QHjh3ht?;2{#@0HPU&E|11Op^@YW^aSjJerj}*qs1W@As{~!
z7W9$uxS)f4$2i1sLstN$AztJNa0q(Pxq^u#kmDi2K0Gl#47f6mzd(ryBwwY9rzx1B
z;57<fM<AF*;27gVbY~#YB$x<J4PKId0lz4f-P7+`!FYKPQY1k;Dwr=1#vs*+3&txf
z$$Uk=7nAj;Coacm8h}`O>=Nm0M=UZLl410eFAqHDKKcr3iCNG=S2Zghji+d~|Gv9<
ze%C#BbJEhEZ0%23`uUtVDB(<TNy7YbWzAf8{<(DJnrnv>duN+6HTBm968mTOE0JYi
z?R?8`)m`89VQ6vR(*BPI?u_so`|qCTHy%%Qo=EI_ux9;Y>4)1=Wj(jI%@569oY(%w
z)WWvJfn-_F19$Q4mba$ohVHrR<_|3FzI9}=h3L8Ndri+|Y8&TAZjR5I=XBTY%f7n#
z&G&o(yd=K({L;urgLh5*rh(*%XZcOfrq-SOC%t9!y{286+NSx7Hz&lmd|Xm?<KXp!
z@1FWv>q6_|mQ+Jus%G22+jGC<U}9gUuIYD9EEFy5S}@JO#MiA$?ECfl*`c|j+2>~i
zyrVkf@V+x}ZQ$Jv@9ns`W1)Mod8z56j%54JJ45%Y4u02hXr*3L)$yo7<1M|>dA)PK
zeBu24;;w}GQ;Vje?x9idvHhUDc2*DG!BsTtojq~A?5&sIZJZmPufI9++iSiSTiCd8
z{`O`FPP8BGzr8cn+V{sN?|AQ=_;%Ud#=Ap**7EJT)b<ni9M5LTYd@vRAb4{Y&vqwv
zteEwl$`y^?TKTgd)o9AM{_ICK78WB@j6m488ypApra#&0IAAgT`;EJ-2b=~hhUl4L
z2__<oMniasaM;5?L_pNa7=8;chWm6gdcbQ@0->7*r;&sEkS@c#8ABF(jOAi(sZzW_
zkuzl916hb+1h7+<OF$N593xy`aDkfA$#2qXrimf~uR<SmTgQG_5HN{LRv#U@%n{ZQ
z^yA@6f`J5Uf^l*PYZh4;g#>c~4Y!>F0{&t#)8r6@c8{~YHt;_~9F!D8p{erx#i%@3
zLM^eA2tXjYi{H6??eaB4LYwHy*d4RlFK*6w%MyoaX>`pFy>%sFcu-V!!*|^`xADE6
zn?3WPg}w8yEOw=ex)Y|1#l^(1C+Ax3Tk13J(u7kaoUB9}iNuqQq9OsMPJ)i0AvCBW
zftf4R!cc1Ejs%iM4|0{$;8lpYh(QnrQ4^(k@&;KcF@xcv0TYQ=`VANcKJnvi90{H!
z>NL3%JlGXVoJRmAjP>~MQNsHO2zEnIE?6)&i~x<%WMrUF1b>yJOdKU;1$#UQJt*}(
zDWs-a^ZI}FjNe9;u_Fio8cmv_%DKb5rzK&0V0R^^=C-En%?rAF_Vz{NlJ*a*OV8bT
z?%#aoL3!m|@BEcic~|0K##=S_V$$23bTnt&6?5%LcT>{R#Ks}7!<AJe^71*<WllH8
zm37A`xOLfk_54JcVaTX%c3~LxL?6mHdq$h{3@b428Qwe1u=8y#Bv)(zxKpTxdmBN(
zP&gEh82Iq;;0RQ=6I{%IJTwmCFx05^E*G8@m7i1XPaO#*@1LXI*ii&mHIGahhg%wg
z4_)`{n;%pKKHRftTRN2L*w0t(PxL>isG2*p;NYt_r7F4;haUK<=Yk6ze9h*RZ%g8E
z;cy7{98M-r=1U*LAe@V_=ByW~XAK0+SRWgw4bl?OL-K1HUxUd_eU0%V>SxA0ZI*a8
zSI$To<Z*y`2wpL6Q+tNDfWM%T0X=6_-lCha;4Mbh0{Jc0X{*Xxj8Axr@{A<c(?<3d
zOHM0Ha@m|Ti=4(5Enp|nW@mouCS8BFGoTgchpk|Ka33KT=piE8uwu<;rHGZmp+N$!
z)=+pDYZdkYf=vWT`N?Nv=t?%LXlBWCt6XJn4RaHdQ%z5sRg^1*8e_K+u*L1Io;$}E
z2NLE?arNA*d~tiiybQ(H3Gk>D_16w9SJcf17GC8Wdijdp#Gy?4#>L^^U-#wVxz^u^
z%%8Yd*7C=(J6rzkbmBm!qH+EVU$GW>q~gBDYlo?L`=Xt1=;JH;o><)1G=GWrb&7C)
z>sznA8=LR_?bnm;&ZMQ2fe!9BsW-J_f({I@E`BMG!6mAeO;^H43?XCM7G4-`OkNB*
z9w26*-w|a(66<hM!~H8H67@_y6)@+ZJ9<6$Zz%Y;6#Ov)!6YgmWAu79KJo}jB4IWt
z`AAQc71M+Nj6$&%1VDO4B{wRrSIl+I4b2zLKYObTbk(!B%aWDrQ$=0CY6>39gP+Pr
ze@$GYt4Kko72MA#677r*vQFx(f{S3EjNEc^Dv&grJ%_{2h13ckiq2J#o?Ij7AU#%c
z8@f(=g<7CWr_cb&)J#qrh#D!lsI?eOhyc$3>WIIx5dkY{V4)FGi!9%(40cG*IA|k5
zE5uRvj9E3GC?P0QdxnVwN=^DEBcPprs(iJ2rp*$%7s;*n@InSd0v7H=iZ4<?%@A=8
zL;v5T+jl8QAVAK1LO_Hr_F-7agt<Y+xe-Uh%^?u1BNre)<|Z!1Viw#>b5lZ1ZUP@U
zTKlQ$$G}F;)4xagm<=-w)70OT_V48VJMUQU_NM&L^Ol-~b+(r!@8<oxGmg^PsfT)9
zy-j)o;-S1MUACStTmQh}p0&*#N;z6S)Gr)fvZmU0BWJlSVMiuM`CR=ydsW6;zTDK7
zZhD3Xx8w1Fpm-H|nq9o3K5=Mv3K`d|OSkv&?R|Kf@l<AtYvx`}7OhEoI&z{9t;RJd
z(waDOvv#g|zVwkp1D5UOlrONbi}$TvZ00MrEY&l3L^Nez3anQBJ$ED8btKgWUW;#g
z=FYBrZTqMRC$76@tq;6qv#+MSjq@)hy`4#i2#*HxI0EWr27o?B_*9NSef`ngm#7_a
z1_MI@-=5oo0RUwWE&?&m|1?d-4D_B)<VQ4P1UU*Ww(<(!t{qd>bT&KMWE|1uXiHVJ
zsbi!AD7fTrL;EyiicBV(DXvJ6@U4n;F<vU?$W2x10?<}gpcWcw7@UH<){J2#7GBiu
zX;U6_F|Z!S*U;CGu%71DqWAtezS=wvs5oPW9Myt9E86HQY$4DRYvZ(uK{b3E{pLY6
z8=D!BsK%@0($hAXI@zoF3=9ug4ksj|u2(?CK_cpzDS{+VGgc#)$o@{7r#;hd$l;1)
z)6E(0v}LR=n?sIGd*!!)gLH;;1gs#nRUlwY`}WRht7=I_cB|FAeZrubwsK9N+L&Q*
zyk4nap|Mamh#paAj~W~09NFIwq$paVowlgfA;RtEc(YteEtmX7kQkOo5<`5?Ov!Y~
zwDlrMlr2nZS3+}2oLQ38t^^V~gUCUPV!Ai*nt+!v!XiNbT_iB5PTCHVeu*5l4T|WY
z=wt-U8235KvKq`6tYN@lC=CJJ?@-1sQ9y`5&`(ZGa$i6!P?|%Y{2o1jpPoC3Gt9EP
zF8NlZFGaM$R0YHt5+MS^ThV-rF_marIL7@6RhPvl7LjZj4GC@;;fxGUPLPmLds)!J
zBv;IENsgQqtfxoMh{{byxy5K5%Xld7m+?zXtvFShhlmCTMKve3AZTKH0h<`XTHo}(
z<(5T8J#8K7wgY_I0U7lKfO?t}&e_)ptN7*)-2<;$yVQFxurE_wc4OW3b@Pp>;+Djo
zOjGOo2X7seFv~JkbC_>CtX2&K5@XlK=GHFMCVf4B+??(`%=aEn_nzc?Po`X_pqekM
z%%V8gyffwK{6qcXz@4M1_0P&E&XPrOWplc@y|des4*zn;`gF%ZzT;rVQ#1G40^z!~
zKwN>u(YYOHeo^h*YoLD@w=Rt(Hypa>K9s3zcyH?FRHn3Hejr)0@eiL%ckko7_ocfB
z`0fD|_7`7wtXMSu##zU5Sp`V)avzxS_D&gP)?_@jIe0QBs)8~*w=BN;-L-poPhi$E
zw=NUtfdpVy3kl4bxl7Pqy?5;9v4#Gn`lS<h%y-LE)hA}H8Bh5Q*LBz2mHVDRrlflA
z{Pq6%eY`iYa3baHM8b_@*N@E~{7%W*6}zT$ul7@y##1qOaQ@kw{a|6uAM`JE@g3Xl
zRd369DsDKgJHG6qJ}5!09|Qef`i*Ts(%wc01OuHP4llNT5V_yhm-1}m+xq6aW{YOe
z{(4Qat&jI?TQQqTTq_zAObTq8vdR^^eEYK>p}y_REaOkB><89b0@^bh+4aMnf#O14
zH*x&p>U@h9l`(!{5_apxk;ueQT%^i~DCO8X&ysMAX1hZV{vDMvoSvA7sA|m5QyvQ5
z!C#C3(VLnTo!+=@p%Kza<F>_N_OmqnknUiNSl95Wv))*_>@Hq0;+OT!ikV^-ji+RG
z-(2HdY_9G4G2Y#@Vx?r;W65?(c4*40SEweKq}kkwxL9(2&w@8u*}<2r<uT)oi^EGB
z7tem=PP%vU)@L5NDf@n{*;qCge(&7Pb1ND|7s6jZcl+E!imnu!jWGMDUeVKU`&#z9
zY;`4KvwISkuR)%R^j|Pjv2h)%iGHaj`rWqkA^onj>9Q?AbOC*YAL=UnEXCN*T|HS^
zmaSOIjq4V?D;oSPp-b^|r}?h_?#a8BZ?Ahuw<{ZZjINBg;zr-~z7;*<)Zh#6yn5}`
zxxMqH?^oTb;;Yv##25G8o?6<=uX`rxeulU1dSpaSksqbeBa&RXWRB+Hf5mWq0aT!D
zRvi)z8Vn(Q$S`6`XhyUl<C~5kj2K{20L~y}deb1|G?*WlVYXmlrVC~$@2ya&TSK<6
zEo>hvQ{JUSh=@Qfwy=X@P{G@g-^t7+o?ONecCm8qF~3ro5@B_jLQa@N6v3py9CG6g
zF7_@1Dg05gIP66l(~U{y6Q&TEGL(dhSlb_eZU~WCLn(VsbyE4K)oBTppiCJ|9lS7g
z@P^7!#w&fZcf`U>8_KOPQN$NlQ!e>AYo*xMReBCNSMAZ9(mvE#k#nyP`|#dM^h{+!
zb6Fd#f*7|(@SKDuYvc3%iV3A)g3^q(l33&NMglI5{vF6;;fc9sY{Lkq%vZEGG?YcW
zuIZ;WU&3>FVlZMygDp|g1(H=WNM+eY226t>_oO>|Ms>3*s{#fQNQ_Fs6~dd;RL3%@
zjJgztA!NXvQb)*$JB3&dnQ%w)Dt4jH5;>mzMXI7`&Zd$O4rS#9L<GEgSrx-(sjR|;
zWC>%r=TNi4j$F|M%mds-yqdd=K(L%1C4y&&`{XumKRJQm=eBL5l12NDfE&gY7qAV3
z8>J%Or{Dns0ZIf}!p@CQ>hqLZET&>Vh9u|3CYLherNwl~;F-zg#dMKs%1gJ4dD*NH
zeE9|0o|v-}w6R6-<(JKQ#PEtt)N!)dI@@+D2&>3Y45s$7%=)TGgV8rm`3h&UVwm_0
z(P5<e`6(pPHjUMF&CFXW?prFC%c@~8XwUc>$Zl}CvIalyjQI1QVROdedFR-*V-Q4_
ze7){=9VnGX7#QBS)B$z1wo|Mz)6ypXR<+V^MJBK|9oWhTwl3{WZ+n5q|G*3Mpk>tu
zAD1`&#%l?~mmCZ@52LBdMN5V)vg3$=H`l0f$7&L>>;xK9mX=a0Ga{1(hI(;USV^*S
zabkGrH20s8@wS!`=rL-HBztk?jPBrQXsYh9-p<ePBK5f+<*#a%-QIUzyY^bz-O9UL
zQ|`b*Q@XvE$A5R9Y#+oaTtFU_p~kZg_#z^|Ob0wB64W!%yhg1%M1j7z8r4*o#Oa86
zM9C|_rfz`yJW?@3{|kN?$;AEN6#H9BE!2E*yOAn5XgPtUVQfmF?yE$WY~^%fY^wRO
zK32>23ib30cm?EKO>OV@-|80yQFnZI52u=5;4SqD`|K;AyPOqso6=RA`KrxJMLf1|
zIQlZK;<PKky8@r;wa)fsm-|zr&gnr`ch#q6y|ZdXZ?xLjycA5VWwAWjkqIwl!$X#r
zWM2;ntrom|19(x0tW|AW)g?%ZUAoNKg5z!i#|>4ZDA?ACd?a<Z3>O|E&X`o}apY)q
z%RoVzvChF5_*F@z7@MkntTXeT6CR7LK`kWI_9jf<_xiwWIf~yodhO_3(|a8^JLY4l
z$~E6{bim-Z1mvu&q2;0|ls9V$=df-$g$Rk%z^3aZHoby%jk>@aUG||OeijXWz{*!L
zRvwJJ#KP;r!s}t?%HGTDcA>`k7;nn$7xAG=r_>DsyI%}*a<>e|C-QbhO|5^to1R=E
zLLIjQ@4u=6XH-!u*+A6H>d{foqO_xtcQnrLS!_!>8dHwGrGb>=NT$3-v~GYsgY9QO
z(vS^<0abjyrr98_7HPwlv|a|IL$Pz}ef+QRdNK^0(PR1<a#UZ65j7^{9rU^}SGO%s
zGZ@mfq4~PQnqPr1K1AYuYDdBK+aMdis-FViglTP16+)`gCu*vKtob&?|Ee20Sh|Au
zvrQog#e`SC_`8&4btcb15fqsYVz0MBi5ZC`Mf}(C^#<h&i?VN(V`!^FJ;`a<kfKmN
z*|d<NtdM&di}_Emn9+AknP40cG*ixPA{oG}qjpT$rCV5S?U-^)H`3_u2w0ieh)I#S
zPw*ze6uu0ru8@elO63X4NRJpz=}~N&`tQgnLS+&`$rd04i@Bdu9fmk6k*Hi&fD~nq
zZGLbM63i9b3hF2_<$rvE<mb3Z3*zrl7o<MmWs4JrOi5Y73fqs_SHD}-nAioWe6l={
z^0qIWyXW1SbZkv}w}RA|jgl4oZoX-EvT@IyzGTTU-f=9k7m}T{qnZqpib`+PUaw6T
zb@N5tixa7${YlROXdcqu7T(*EEN&&dx{t^I;(dVUMf<hO-trqeuJ1^DxA5LAOU{&c
zf3o-hKzz|b?IXRx>4FK7ry<$Wvs9F7fo7s4SrH(yi2?e9w8zhT{F#!98w1w|(j`57
zNl$X?;Z(_yAM174Z&9i#Zd$1%M*XD(EPZQ59AQ%^#(X?MONs%+|AYv$;#H+&u*`H{
z)iW(0Q9cEi+AarJ5TUc_VvC0GQNhL1RVHrEV){kjrR=*97ZbCO(lW9Eb_Db*>DZ?j
z87|Fh3z6hBsX-O|9ooibEcZVt#^xs@7$o})+B(DiFM6b*DMY<S@<!1tL!5^qdGMrp
zn9cDvRq`vS1oP0Mfs%Z0y1JLI#?H;YrJkgFZ^E$bEPCg&*FKwecJa=x#g3G7XVURZ
z#_dhJ8+dm^($zR0O1JFd@!z$JD1_Zwg_PUKyEiT#PPum`UC$8FuuBVQZ!H#uH)Fip
z59Rw9-+=e@BrQGS^vJ?=X#HS}J{r0_Odly<$~2iq3h*Wj#F*(!8DNhz%yL%xRa5+o
zW2Yc(@Pm3pozPGw3{y6kVC-R-HZiCQMJWABgD9#y{}Bl=YSPlckT6%)WwMcCki>{o
zc^?%Gi{Q$F3IZxJza>7)4h}t2(QsBUXp@so;;>><0d=sWl64MEioJrCW857izAgIV
zPR4y~=L6d_o~mTcI&d=W5ZJaP4&QWPZd6vo!ltG!F_38vq?@<$&0Ck+Q_cH$OGCmo
zJCJevU`FL`S#T}YLSUVAA4ponJvVH!3icch4n|(+gjn9NDpVpo=rD3feK6&f3?xpl
zf?d$2p$uIhz-_P?&puI58`CY?v$j!L1Phc7$rT~EGuZ8!qx)CNf;3nw>78gQ7*+LW
zX1NVOo9a0*g+vB{-j&V$_Bw+mWKctq*a<3q7nlj7Xq7XykBp@OL8Wc`IlUV5hbF=?
zKen3ZY$wj<q%N0SPQ*HMCawu00HT0J?ThVs+AY72<0d%nF51ZmYQZoDU5Grb8SHVO
zWgHwKL39kKAMqIXW6DgpQ82K<C1^@;i7pW~d8HN%=CpaL>9Gl`l4}9)iM@#mL3Mjd
zZrHBd<{%qyO&C9h#omRtdgrv)cD#FXzVx?)_w20?imNl87ch6d5R>a5Cbww36?59_
zZL^gL(}QyVeCc<~Tdy5R>`KHH!u`IZPL4OvYv*^}GT!X?j-z$OsHtc}c~9{>m#$r!
zy-3?tBqZh%H~C2JPx7ZSeL6#Ae~FMN`>WW{0mD3LFaeXaSu;Ob)f)qPzyyTZ2g|L?
z$*oh(4b|z4E<2%N+#=O4DU3@;$(&7H8Lq&$8RM*W{B`8AqRj<Yw#FF~+OMc~5x3#b
zjz0%&NBGQtz~aD{&Oj+U<DNFFPG!v)=;Fd_+6ncq)N1)xtI7E$mz*lW_y#C%RcJ}H
zU#)f*woWJ}2XakVo{lkhVM_osfSSc?T6t?u8C8{jD95ZhTMC;`Bml&)2h`KkHnlfS
zE8A$$CcEl)DO+Zc!+llz_8&oEtoHrNMj+78cd?~JF*Q(?Gb*5J+7U9o3rsj|;VPa|
zMp0h_Semw>qoC$)%PCVP_g?mQ+8S5nnPcE+3$G8&^4v$A7FH+m!0?;Kwm(5h&(!*g
zAwae~6#AO6>g>H7gQ<Yj^Wcc<v0X~bYEY!Raz0vt^4J38E9L;B0NuX}bbvqohgP|D
z3Qt`Op4uj=#ZPfRMP;ImlTO?g%Mkr8N+oKFF%K}bvx5O4|43}tiU)W;HaZTX4<4bo
zw<ueJf(I1*0|ozsf}c@9+z4mK;@}P<Cg`z21@?HXGA={UO6VDh;W&~wLpwiAaR!`8
z=E0TXx$Gcfl=%#z##{zVFW!_es1K)8qVzU4NWLNjPp<Qm!ALAFl!>IuYU#PWH_I;x
zi3yBjZwpMfP)BYWNE%8L8F(`{#FY60#KMv~9ol)ucuAr}xgL&ev;=LO?P3toN?yot
z4AVubig-m;`!`TWtV$;nJ)Xq2jJGtg_W@{^rmq>WKL)JK>}GIN_M*g&Olf&yKRs&s
zTGM@ZYo@Gv_Qk}0LOB=T>JtsRs%jGbnabMtI&XF^l%y&<zj$Q1u{GV;%{O*0j-(n%
z3!bT~Pl79JZcREGq_Dm*>8Q<!A&9CY-`{qe_w-;(N)@=QjK`n$wDO+T1w*>6pKt5G
zd*<#-skRsHdtM|(F|*Sey60`pl(eTyy7-c=Oht9NVjEwvZRzFY$rq9p+fo%TKGN&3
z`5gM->a?eU_cVNM<NT|s#*Ozqo0hw}(_I66*FdJE^vf}z(el=0pbyw`Lox5^oOR7J
zwRB_JLp<I>=Y7xCjHe;zZrR(+d%KjECpYZ<PRTxOcG-SH`=~`z-}1iomNnT9>$$#6
zT|1;V)viQ8HobUS9(4D9<E4*YO746v)&2aeBU#hMdp3N}-Aw7PeDn%x{KMvNw13o&
zrf)8mpMMJ5HWC$;xPIWPncW5Ep{O+NY2!U@upr%=?$`#EdUD6{?|4pRd^Nz<&LXIl
zp&qwrs_K+MNgVmuT?OT{(*=`&6+M2Ji)&Ym_(eWnD>mw51C7Q+A|@vaGv59`R5l%G
zFmMyJvh)K31A%I84=t*_6zrpbgdbcx1*BFGEYOHRj}pJaY^6o6?ML*Kt#ZOng69zF
zR9+a3pFJ+xqlinMEoNHdqTdy^_`gf}^;jfXrb2`TY|#@`Ws9Cocfl#?JBGuwrye4|
zzsGYXlz&EC6awX^U?)xgA0qfEY2(X`Ez2JNiV?q<Dkc6EGsP?#o9o9`imlg}Tq`=Q
zaofE9M;iP*)XNDgCX3NV>S_FtUK&4lVh`zOrNm$?o8P-o`t_>YReV$TiU#*fP05|d
z_}=3W>1L%^Q(5<^8F`l>7kKW*%hz9q7l#!i6*g(S<ty}vwIUIICvq*qTdN*gS<NNJ
zy5-V}6(fF;v!;H&<mTap5@@kk%#?(NyP=WaJLkQADDfI^t$k>v<PMv0>vBo?iV?pk
zR+z_3$rUba;%AvCf?Q?36*G%k^4?=*X|~5Iv9ol)(^$8lU(w))RPy+_6S}+c+oLR+
zJoUmuN?K{qv~^^*ZqIDk{Hb-17QKKCV64s8Cgu&it7*kZsb~W>0okwH=R)({@Auv6
z<7?OPo^^}xfU$YS%yMAvR?m&`6>STf_=<HatTHgxwz8kt={aMj*{Bm<P%ffP>3T@y
zbiN87ih3QC(b)FDJPMG(FEFR1{MIo)1r|Ibg}xE_tngJ}mV6Z;jhGs_q@pmlAfFAX
zc9bDSKRghGovaQ~k?*>q4>*L<d>%k@mB-Y{d5SKg&<MXje3rF6heB56;y*wxx<D%^
zw4Injq5L$9<wX^Op7ojFBx&8*5t4(GmYdyXHQoOW738YDJW_5&Ejrbr`c0jM`Ti%Z
z$X3*LRrA0N9>gO$B1r*n<iwe<oObnzqdJh+E5K%AuYmK#h+-?VhFpH!hW06f6z(tu
zg$-s~ETH)%?|tNMFA7;pbTl5DTDy9?Rk9oK@))V6i7_jmE6Gav@|vg&-0!g_VnFcO
zg_k@a%)Xa~x!`*8FsiBKo>D?y3OVm7oD4>;3oYdckPG!RcA_9f-0llN4hK0gxV01=
zeZ{y}k&kT}hBSy)o#4O>QszXAMoMOenJN!E5v3YMne<fq>b+l>*Gyf105ziPVT4}Z
z!IyWW$~zN|jJqoBUeCMNvl+C3cWg*GHl-a<<n`vK^g*>(FtY@6EPQ^DwoO|xC59(1
zjK^bn3Kbd`wgg)ckz}+_7)zRn+(u-8@~MY@Bo`E0saJau<h!6?d;9QW`c_Fw51cv(
zZ>Z5ijgtf<*n(0o;i3*Awu1@Siz?<y(!LG6Z$rwrDe3M`TDlp8%$uhM`Rgj#*JS|=
z7L}rM6BWBBkpmy)$4}wn;x^;Mrnam;luw*QrPOTVPYEKR(R1-sc7LH@#<voko~K|{
zme=o~7#U_|8=mEJz(JFtJtUvg+KXDwo)wb8Ee0A)7ery$N=uMDU$PJ<;T*f-%Ay%j
zHq$_IA<81`axP{9W_S~>9QJ16tn`koD2suoscz|u{FrUn@jo#hxq|38{GN{EChR{K
zzT$6XJ=W@nMXx^=4^MPW<P95r|3>^h{51q$(H?<ZoU8yo(}VBOUQ<;t%fLp>ECL4d
zG!Y6eq$<6TeIx^n-_+jFg7@w<Xs&4frT&su#3hC-_{f0`dO_E@o~fcm^9fo{e*aZb
zNM_x3COjU#Jjv~t>Ro*Xkp>0*Ca#grZ4sDcL}EKSm9l=CL>O+(PyddrS%5mc*l=F2
zC|m1c7@Tr6rX4-Jqi4zcE#EhNclP}0;cp*KJC1#?y#8m*@ZeW>?9#%8p2(tlFnnAE
z1#h8RP9jh*MCBC?FW`#R5KU0Fus<h5yCQ;}d5xZG{RO|Sf<EPC`V=e(@LreR+BVm9
z&t5%mUbw{jH$&Q&tT~k`elF>FZn?C2?ghTIIbkENt^I5951*Tl-gj@xR5r~)cKxxt
z7}ln&BLMciHrx>5FJsk!yO6|ZbTdN$G#}t=7s1;U+e9&fXWTXl{FFwEo~xnQK8i7{
zdxUQLDS-2JG58;d#J+$eqQDJCTe4vTk;S$ZhZfXh`JxxLse3;fTdd;)yB>n-2B~W_
z+U8*=i=P#j(YSfJsAR>6Uyz6;RdXBX^>aPEw`s*pNuYtroxt#H1#hi{)iaV@T4VF#
zR;sFb#bn0|1AQwR{NB+&q92h=q~;OAQZ88>`0y1Z<&%kF_~ewxJzdxUi%dNTI}_{^
zEpT9k-K=oUl+8honhZoTGV)NgSJZ_qurM^k!q9rf5U>ieMHcfeE&70zyc;tVA<}`E
z1<Iv>>GiB}Sea;k;YBW8<kdL?CyChY4mbhmgN+T0E}|N_A0U8~MvwU^&tyVN9I0;d
zag&RtaEKgWL*{!qKGi18-^W|ca8fpBD@|aU7(mpewKqO<{WJ4h7IvjdI}<jbYEba*
zwxp$vjl%#(h*7X%X-|k=w)0dZpvFbyyMzcqxH0?|UTP3chIULINt=RnY7}u^kC~?R
zT+y^%J)ev(#zAY&n3;1qYFoi2ZT2xk1}ni+A_wyNAI2yO&BXd#uuj12goA^V7`#Ut
zM&UABTv<3JKqC|}y_eXv3?;;5orFSAa7QSkL)^G3c|>qZchU|K8e73FB4OoiDq1!M
zw8WQ5IBIImFEZ#-<~20#G(t?l*1G2X(OaYGmJ@u-iB!u;-qM(G%ti|*#1Fc6&b2ea
zMfv^8t~;j^Zme==$?U0g=^DOtO{T0NQ{I%RYR*&!R;-$`4nT!6xE3@M95YMYfrxr+
zg}{u4AP0mUMkjEzXGMfrC+W5TW*wk33R>t(&LS_tES)j1U|!TOo?Nu>ZClAEJwR6c
z_<@(1?Yp#}T8qKd5{$xcA&jCViw0nNPqMx%Sq<^khQ(8S$<`Grv;yX}`jH(m5h&5C
ze^H<We|i8qVQeU4fCgsgAw$>_w$dGd4e_fs@T+hJ#_~C2fW+>c;vJ09&B*71hi$7+
zDUEd2v-xqwue${!Of+dsD9feq2_v6lzT*Yw#D#eFR)k>E8bE_`9ISj9H($_y!T1H!
z4fqRRWknODD!4*M$f|W;)BX$X7me49YV^t%p=`|3Z6msbF=0yRM_|45rUS}T8NkD4
z>6!`V4~7p7vh4f}ty0qfyf@+-nfe_Ap<F}+dGYs<D1xu(Z)mOo08lqiGmFuDHJ3<C
zs`<*5K?v+P$b;=(OtnoQKAHD2wfr-Bd?pck1s6=TvA0pp*h&U^@@IvZ5z~xeyll0a
zuzx{0RzuF6?I<-9@@d00Q`S2dx(&wH47uz^GesTi&ndPR0o=Um!CeV1=B-(z-O#%r
zuoz82rrAu!2Pyvq+wR<g6u}MWtYI9Tz(_sHZsCIHc)>z5j0T9w(V4`YNyxb^^t4ih
zZaIopr2_6nWXM9ht5+q$vyAYYq<f`f2_U-<Pj*dA4XnNpIz^)=cA&xF1$KNvEK7{4
z*LRp;$^U^b133p+Hva-&zINd(U%n-A@By|lpPirKYrE66y?kwNs<JO}B;&4}JMqQW
zGtFz0oxAzwJ?Z9yeDlGiry*0nHeJ7;uip<r_Ux<4rp@W5?R?XAI0l6<yP<fw*b9S`
zhSKXK<Zb8_v)(y>xBl*_RQ<Eblc)Il=Vo0Gye(<(X5PCQ&P6kITOX0685E&Y+5$sE
ziNg;pa1jJYyO8aEi-yFW(@P9y!f0mzohlOh%wC6$XcLu|Tr50K&tIT`x}Q5u0gV(l
zgh2MM@Hzi8qQqA4s`Tts=Px%ByQrth;P>YY0aa|6jo-L({YtvLi>LoblA8`AguI}+
zE8YAI-~3F{(y(H1T3sKW{D}rXkNg^EZN}%%RBT9=Z_HG0cw~k#*ot13mNOtNSOEb=
zg;JiJfWQlr6W~lGB2`u)(Xvda8VJkUXefl7K5L)x<dvCaYIE{A(5iw9grTA$&dF&j
z$cEd0N{s-j64(c9fCWbuEU>9%5H*LpP<wV6W6BV*!yQDbU<~815O}T&;ph^smQu{8
zneqTTRY!2-%isuBpXet^HtZ!6WpS#}+Y0Q%O4-B$q8g#IPhygIQxUGHU^{V<7nZ<*
zM4DI>^)um0x&KD=dUXEiA9jDE@1wq@^Z$BBs%&?{{;}Kpz}K1fZRUNO7cZrJJ0H|-
zO4se>>-LhcunOzc?}E!8WU1)pE4mlYq$+l(WpP@GzOl;E&&L_HdNhQijur_V8a$4a
zx*Q=4u9<=`^$ICU1=GaoF+fz-n;e-X7t%e?Q5pr$&_|v}8KQe?LDdvDuNd(Qs;0he
zLBDWv!NU8yR?L(Hziw++tP}$kQ#{+jTk9U$>Gm0|2PM6AD@OdvC7)lg^ZrdMW=axy
zwq)5FczWQi9gnO?6bT?|L!O{VVF3OTEn^G-aui-!Ysb|*p=8$;^IC$LT?w;W!hV%7
ziOcoXmR)UXX1&0>YU@NI!N?Lz#`5wnyp<?8{3&%S3VNmNDu&Ro$TGn|8`2K$`>?!H
zG3~$_hpz#cvq)=E%{xN~3J&yuQOQFzPQfKp6kwo?V?;X_Tyez+Le1Pk`3_@t3zw=9
zgAv<O;Mt#!oe5cBh9LEr+8d`8Qx5p0wXE`8M*1@OyI4MzKB9LrE7dI1Y>Ai4A2>#!
zr{Ds6XMtx^-G?>>I>TGlD*Z3jF8ZRuNDywo1wRp1@@E0)XdmF-K#E8-5xvCRda?~P
z%w_kf{Qz(wO8*@Sf(QgBu=1I405NVn%*Aelj}MJT10K;~pILTHPRJN;{)XT+n5365
zccYVyxL;+-7f0cy%8c9S1suL)Bgy0FnF|vaV(`H<A;MrY+Z4TVgP`3HGX=#_f0)Aw
zelQ3T%tNQ)=6oV1SmI|uHjy)g^LQfIrF7Bd)o_GN&T-}vm;)S*h5X{N9fBps4U45%
zi<o<Z>{E|)#*vbu>M_es#Fq3r?oGU$EXHDkh=9tn6}{7Otz(u;*($H@$rSsTn}GUM
zansc!(9th!SlBi9`l21jzU*FfCuXi5f}HHjn{I5qzIE>9bWJB;)46b-ujyLc#n*JF
zyqi<*Emsf1v5b`E#gw-t<!-%tkQ`!S6U^0p%Vzg%&pmV1vco4Tv*ymvw=Eo898NiU
z|Jqq{?S<JBb6Ro*m2&$3+F5=r_|_{cW{tHBfYaBKu4scs^TX1w*W9j2RcuK(A5{3>
zbKZ1j9KK9(<=nw!QFErK5-tfcm32_u`)ogPXzb2w4T<O83amJ(78k2!EnIai3@sKd
z?pi#bs@R%vW-6M~743XQ`$Es+S$@rqJNi_`UQ}P@e{bu}t@ERcHOc0kcTU`|g4t?C
zrfN;PYCT`I9u*v1y3B7naJQb{bmZ>IRMiQ3?5;~%>XzMQ36V}5#!ON!3C3uc<g9R)
zG}tiO9Ss%?YF2&NsCH5Z7+2MFNZN>vHM3p07Glw4#VI@7L^;kT#<p>)<Bh+;v?$ny
zi_I)g+=i<v_QsY|`8$cWQ^5krp+I`%P@%k#LlLNF{ZFZFpUp8dQ`t7l#7~M^LKz2*
z43%WKi}%^(r#bH<4N<{`_L2gq-~w~5@)o43ew$h<Ge?wq1+7sw@1PFV9#pG?dGs<&
zp(Ut6f#YnWGEq0|$}ziB-XTB3W}L=sT#lgyDiB`U&Zzp`a_^!QWRAiv)Y2-)v%euz
z&iJ)u)8*Kc-Yt*a*cv%^_BW*9K87Xr;u9?tFl3}h801vINC10KKD<nD5Yw#O+0TW6
zH(;a&h)ph=N$Lof7C3ED#5$Ky1<nwgh>g<8U1W+6wJyU<Z{W#(h>dN)8!<YvZaf|+
z<NgMz*?rW4T|CK2tllaz{XkFL4=LLS)vX(co|R5GjFRVliQtFp>d-jc(6AlMtQ5I6
z6-;}uA#X!S+#jlZf^?dTl1((Kv%??iU>wKf(T7<Tz<}e;<Zn?52yXe%y}{ELMn<sj
z+JyFu!+AFLPEDdIvQ+&0)at)SAW6kVsR8?3dCz147*h6Ce}!;SC2$dGa4b%FS2gVE
z#9h^O;%P6mw>nelhvR9!a*epdI_Ku&y88E~Z%%)>@9RfyA6e2aZTi-ZZ|+ES98T38
zp^ekk^!&=rE18Pgbj2FJVh!xU-mAS?3*)%=+&A6W|8!&L^_|!o1*G9;yR)kyuB@qN
zeqQ2VfBp9BeD#hyU3?YxyU_mZDzpv1A2+nV-*&4l-LQ#o*u=Eww8d)fJn!(&H@)9^
zs}nqoyxH4?GhNb_YTg3h(3KAyMep=q>nELafR{Y8!EsL7(aqy9gfl6}jtu;i0PWTM
zSYwa{x6oH=9@lm#M86LG$XID)E4)Mz+-d}WRtro7zp5Bbu^v|wrGYTcl7-|=K?M-1
z+9gA@hkbt1(gb7Sl-sT5Kn(<?9t5R6$3Z^`?Hnie8Z{^UXpIU|kO2q2Rv}{LcjvP5
zG8mh}Ls$YoxqU|EumBAm8X%titLEk`D=HYP%Dz>OF@F@*@?G{9#4*qS%1Zq;ZG5~p
z2<=Obxjv7QS#ZQnVu67(Ce=T81Azdtb%>60l}>-c+7EMIrl((};2@PI0+x}B+;36r
zOB65?`y8Iqrs+vows3PumiI-{6cubt1R;VKhiDzl01A%i$N^i})TDr!*kc<e%~0$>
zRvyYbEJ^`Yu}<mn9}w(-KA-5=()x61D_`2Wpyf;3p*$n2mo<F(nvA0Y%do<haDct8
zXc7~lVJq)Um-q1H*tfWZn;qigYVmQpd;?#;VX=4V{GEnW`M!kXL22cUm#)7w?^uW=
z>-z2#-7npPSCrO$4b{Uai|tOvzRPadG^QMzmmKMyLwpaNKGf6CV8EvuU70OmgE*tC
ziYi+6RQ?ud+}|mh+kykE(w?=v2Lx%#vp(%X!WM#H>AoX;-;ujReBUwnwNH6Y!sVlE
zmReK{Kt&aTp2aCu79W!cV2A4-8n?X^?4uw+!6*f6Ko3#u_h=Z~DOiIb*AVpAD3O9M
zQ@0XMWrm<t&<fXW`LPDSE4?Mg%K3fd9$-a-=;Cu^ocj}siZTf*J&c0NB`f~e36A;n
zZcs0Iu7Ni^I&@X^G6NkkDQZMNL8dpIK{6s#J<}09Ff$-z6t5jq-<EfrpK@67)OIGf
zT6-2J7>7fCHtPvx`$;(FZ&mX755@euA`$;f6Bqmg;c%$cKS_+>fZ%|qc1XOz{E@An
zNjz^>D7p{}Gh-X<>lKeR9#%+Ne7+*${C#w00Z|Q4G5<_NwL&thLt&(<kfTI2f>4u(
z3UM{~3vv%|9r+aKK5gK@;E!9g1l$MGxU-#;DsPgU#<Bwer2X=$EkZuAO$y<w4#(A7
z$^;d;<UHx0*oFK`>*X~1CbjQHs>&C@0}vES*ko+{DtstIxg+%&`bEJGaZ=~AYt{Fu
zv_h%bEY&QHC2Cd(`FMR!%_?|p)h|(qf4Mw_Z!#Xy3@SVIK^$8K&WL%Iza^p%420&?
zl(qBxxr=11ICk5>(WYSTHU+<rK(K{IV|1=Lh)U!mBAW8SsodY7XqM#V-k}n+RKiQf
zKFUJGaRfuy<m!&&6x;~20}>M~^fL&e7%~}hHP4X%O|Vi~F@xzm!!jI=uV9fI$PsrY
zYQU%+9Es|19!xwwE~{G@wW_qABWge}OBAt4#nPzy*_BJl=AK-rfDMI^{R{L|tQB>E
zkbUIJaS)_R%GNcf>$dWBTN!yubg1j5i}v2{;PJm=2Pj<Ua;cBmgY4x?;UDO2m}s?K
zufN~<Y^w7V9G24#>qg#9e#hNw7mMz>HzX|^lI{&4ZPUKB<m$Ja_w^9jyj)g!WBmH~
zeEj{HTQhvwCZyRvt_T2g(HSN51IY}-V}4Mspn@~LX11MW4jzA7Gv#fM+!h}lis*b)
ztnszyl%wJ**_~!7dx@sB6|a5m)@zILZ_Io&b0_qtW8WT2m7IX9BCDt&a>{%Vop7JO
z<DbAOP11+=5Ui#pl0gpJVu<rb*rrBlYNMEPWr<v7<^nl3q_nvJTgpjhF4=8?tXAym
zg<Mp9tE34&WG(ViVt#E2@E2UuR+->r@3!LIkZT4EQ;p1?$<HK?@)6jV{ikp^xBs$#
zk9erIDCm3xRYFB<8a{hr{9KGl5TRFO)Y$(?)7QuzaNj_j`y&Ja$sPYU>7o8~Yzh+`
z;zzRG)eZ`JtQA3fUeKNsv=<?X#M&6dx}}rj3F3+~pF+_*jYx*6YEi$)*tqQEmk6<c
zpt(PZqD<ja)s}`g#mWwBdAjCK=o2r@4uST92hy7BHFGnmqP5pxYmhjRDK5PcxE`4A
zT4<OJq>9&GGt;Rj3Cdeubz}7U=)88mYknwI)|SADKQ-^w+^oSqCEvztF8CrkvFrxn
zBa$7raVEh(;^q4TjzS7(Kax43vPIobhGM@kK|~viIST%aKJOUHf*|^y;Q(Zj8@FW2
zDl!eNpW54u&(fX{95A|xFI%@_X7?8O?p(35s7+Jt|FM|s6qG$x%jMNKrms)`1PY%j
zk!Yefs1r>bUYScYDFhRp52<AY6Om42P$xT9bOued^FmEfMy?gr(jht|LdwbrDH|iC
zTseb%wEy@(7TPmtnMdgmE@R8I0^d<U>A-`+lPI06k_SRH6`Uw98{j}?sb;w_lu;32
zAyoz2K@2G3Z5_j|`VX?$Ravk(&bC$SP=B9Nv*EFt?dTbH0k0YdPE8p)M~1t&e~E5l
z(G8fc1t^lZQJjUr4*4F$!79*U497<=vcusAN5(l4M>0Gr6fsppG#nZQ+!UEDJ=M;T
zA7UGBOQ#j7AUhGqQ4g?{o{Qqj^9No*ZZ?c?>}`}-1-U(_X<aa-+qS~!D^=4=NUib#
zaEGH<6!No36YprsMHi=LcM@`Ono9_|SRQ#aI6jw3u#8I490ZeB;!75B`4EVETrNU0
zlFiD?h^(dzEkFuSI2=NriOhYwG8a*`bg9$?J1Ke3&|gp!|D1yVh(H#av4(#O33;ZZ
zj6s_!D;Ng}&NkC9?7%z0@L~@m9RPJSRkZ<*2;uelJlpHZv>4k(t%gb#cXiTIEq2_$
zr?xzH`1?N<SpF$}9tBovBiSnv_h`w1ls=~6Rsbd4ig1!*BABGuW`nV2{<-&Gx%CQd
z53E@Xe<Siy<R=srn@#T+miwK4<puokB5qW`r443%bet}>uI2HV7N%`^B994Av=%i1
z5<n(xShF*b=>W*I3%M(2-}o?&4deQUu7H0O{buHqn|T0~79yLfzlkq<DgZSA7y=!M
z7eJB($mA6IMGk{}A6I}7xie&}ixz-N)kWEdiVhq#DD~!OLsS6kDlCpx?Fiv4U4{A;
z)-J0@R$54)^yw{B*t3787Ag!K1K(4&PC5yl*p~6zI>z}hTuAoeIDZxpJsOz|xN;ym
z!Hg`^!w3n%s?@<<$78`N&Jmo|F1R8zT?WSyAEX0q?b-V-wy<zaZ)7qzc?0*Cs3R*p
z%LU|;hcQv=o--X4h`yGV>4%smk3sZ$9J_ws0^_b6(fb46T7YKA(nQ7}nDn;c-1Kzq
zCcbvlBdbw7GaYA*RM)<@?dG-x!`EH6T}%7Z+fMM?pf!D#Dy(?mt<SB4fO$?85)ybq
z72mN`JPG0}%jnnfQN%7_3ZZ)nFQn39E4Z@oTZZ&Z<_p6F<X40D>g>Q{W+`$lGA=N1
z8JZQ}p+KPEdk8R{2%vF<5OTKxil{(xlKS{aN;qLZ4di~52knhrzb)h$pohm%E+yZp
z{buc5XKL&7a1g*(yuj4lIZrFTS#f7=YU}Y-+X=qn1fCY+24^8P9iUb|5kUy{{p2J5
zl<0|q7zcG(BTr8#=%ChzP;Vi&C^w$eE_>Qmj1<Wwu-UzcI9OD~94xxQWUP_s>lGv7
zC}wk~t(DmB@)I-e#py$@rT$hf1%d2Ek_rN`{2~bCO-&F81un6PwX+JvIS5=r2T#WY
z1kunRnuq^@pa2s*O=w7Xfy%P$$+n75BcbIb0Cy`mDVw=l@iPU8A}CTIHO|uhZOvCn
z>7(EasR{VW;uAPrX<#l$jdI;+t=#R<$x3cXjm$0Sl%<n_KKP+ZVW_~$7Es9yurlyz
zJ30}%5DE9w$-Q5|8-*e!9TMqhu@W}R1e1941PKuHPW2?|Pu1fissPjDG>d-)4R{Qg
zN@`3AramaEAX`X~x|MZv7t?iH__{6keLWA|7N-l2Pb;_1?t0|Z6t!haDl;X1oJKqM
z;{1yXLklO9Rb82u_H@fOzGd4#SdH+W2;Uc5Kc#XH^)?(NW%!c)XFt;6mZ5`h8=7}*
zw&YoP5JkY|);2^4JkAh~MZEBW%O>FF89g=}U|W<tUNgG49l5@AwcHPBY(%evf>Si|
z6>XMc43G)Vu!wdB#jdCK6T6WkQjm60<U%%Cvok^++KM6)Py=*=I`-vvUrrqTUUgt$
zZK}HG+R+ugrZ%u#2(=#D+p;RuS{*$7HNK6b;25=I586=(o=RZ0Nze(uxxk5TMc70!
z5i}w84;^M1`cSRIxqU7#gU3`PdEEX#iF{R2k>oNKr=ZJ^0gK?Iou|Vl1-<?W8eagL
zp2Frsb(;g5K(nf_`p7{ugk8Bbt33bkT!AoIdM^uy7{#dMkZa0?L8w7_FDN?wz?7pi
zp6vk<)>u_x%@0u@(~NPyD^Cn~OUfy`Ivtjay>t3ofgI;)f_)bCKLv8+**-j|T(@XS
zRc-;>?0!&{N145n^tR`cRn-6u3gJZhS#_X5JB^;sB{PtrFdrx)UGNX4&`4l1RFQ$K
zOGh1a2CzE)M82!h!*q%H;3XX{YyK8#05z=h8Sw8$2JXL5s^l_&zD%T_(4Pcna=?t_
zw3~sM+#!(Yr#EQ?j-!+aYHG+LWWhlP$T~B2ciN7#`RX53!}aZ*c>2H#{DBuz)h{NF
zV$pkQz)AxK)zqh}JNW93rR~Y;j#Txb#L>qnsmJ7!tHPv%^dW~RSRFe39Zf<CCaLL?
zTr!W<E|Q=VesiG{-HOnOVj^^+Sc?^O6ExG2>ye)r5f|wsdIM~lX!DBTkhWDa=U~HV
zo^r_|xQCB0F>;BgkTwV$LYiGN^LSSW!wu9#R}lMvgXA8@6sGfDti)x9tjwK^DP+qz
z4aOF-haB%}Lr!eXb0H6MNrF!Io35Y(&SE@oDlP<qF5DO8+`B`?VGrsqlIk{uyx`f3
zLnUGFSew|A+z>fc)4}VPqFgDR!17C$D@VDqPz73G374-@+9z!<G~iSfL$HFiVnc4b
z#Q4~z$I}4bt5Bv2WvUUcM!W_)t=ELC&|=iQs|(ex^3J+&wb&;i|0+4yXoTv+wX61u
zjY&@$-gF1+*!eRZtG=yqm3K6S{ZcEMSIHr^LL5caz7PA^tZ{@|uwT4B)VfMNtBkBN
zFWS&^4WU4|5u>z9UU8JzhEZLp9r>FWvEK}0f2|;&W3hjNgCSmsSp*J64!~6dJN$V3
z)KqB%W^)(d;0r!sLg7fK7*3TJBu7NmW@kV*Ws<U3lr*hSJi*~uIk+Z=TRkXQ!y}`Y
zIr4QO(ynpLko*I72o}=cLz(7NV~DdmLg;MT?4GNvnbNOlm2KHSKy6e0W8{W|Z6fre
zm2C5ye>CP-TmV5+Wn;dpW0&9thoilq*eIumk$bkec|uRYOD5{M8xld#Pi+(_?*7%f
zm2IUjD0GWJBJJ+Mks)?(+Fr}sYv(TAx3^}zbsxJblD@u_Yg^K?O$2fOh>Y;l^809@
zV80kaSBq92EJg7mLKu%o2iBE$5k8&#QQNSl#v;MuPSu}?8i@q8AsDT!CWMhy3eki!
z1r&i8+A3Y5w^x)RjW)ZGPhsQaG}x6Xg#N6SE6rMTz(P*N&LE`85!wN~%eWm_T}B7l
zsx{edZfJ+n#;0s^QGKtP8M1l{$NV`BkfJby){iwjo(?MxsTa|{V)^+$seOLAboTd`
zX&+gxU|WwdcViFQq--|IX_E>9`(@vR{3>SMNNvxyUXEcK56ymDXpgdyX}mf__sW>E
zJEaHNozix8r<9DZ6Kg|#@TNMpUcSrz=FKp>Ji|V8<g_E#uICp-nP@F($k+uYz&XH?
zrh@It797%M8U}b7J0Kp=qvO6vF!n79`Y88W1Ry+>R61=cM0VH!C1e{zqTF0)kGwyo
zWZDgz178AFS!P3Uu(!&Oe@@wpqBxXhlmS>dos@Y(F}7REyfv&=sGw-W!n}qtPi=!R
zTq7$SY!79GqTrOiO?o{M6WmYegGh|ReT4!t&jE&EW&ne-RR-CJS6vv#8^|p!HYUNM
z2HPXyvR1N)cVEQmIH8G4<LqQtScqdwQeMIa!PL*r7=u@Pr7)S%3tq|@8RCExl_%Ur
z`a;nYt<=_^QM>A*L+8Q}FJQYXHWb4iUe<hyK5t{P1uFHkD4VCQ;{K6t{~j@QA-U|O
zWmN<-h?k*}gA0UJZlN-8X*ovf%kZFD6yS>j>7tE%(MFtAU)`Fn-o#gLN>}gatM|h)
zQ$8I`7OK~8NZ0S<>-XI)<Li$xIs3A`I&JUb?Oltl-?8^T@Ndp|%F-UVa%_S(^9SXP
z^ZOSDQssS_hL&_g4^BgXxV_$$*n8hm19^K>%llhz!3nEWBJEkvd)DXNk~L|jx&~+E
zq|3MR<y%p>i52#vaC7VXhi)Az%$==^nWEP7o<3GXMW(_Bv(si)ydD-#ZSC)0xpk$W
zIL;PFeyW2!%VtWe(xvS%$i?pPHWd7hqX~km`exSrOk*qk`f=bC{nlq%*U)d%$F)6~
zibg0J(q(OYS=$3|-MlH;)|2vXMJ;vUXYX68VE9VM0@d-3y0l{_@7M`G%<BA(rGw#h
z1#@HMH3Zuk<|fuE&-<CGCg1}qgG**s)G)a$&DRSCc;kxG*$vV*jhJ8xg)ff6fAfDs
z9n88`VnrRGA{4)mt4=tv@b_uD5uCcJ!7l09y>xhNs-!vPZb`dwM(Nt5W$pjo@8oP~
zJ!hxjSJAA;K8_NVlg3v6IC69S*H8Gi4&L37l*UjniQZE3#*(NQQfNMW7i*D(nCb*A
z9Ce_nbU})so=2CHhiEX=S9pPK&DLXBC66H|51fr$)lVC*YOlci${R;=NNK2ESJ5J=
zh^*w9H?4o89=K7FtYq7_iiAb_2H2%48<pwk?)>{{;~Onm^#H6+Rn6d@{DxeoCRt%!
zcFPqQ2FpO9_X3hrK!~#yKLw8<WMHY3W6FQ(ELaIT+XZ%U%<13hu>Zn17aqdCCRmwv
z0@VK*)v<+w%lKw-N)F&waP5j=9|Ku;vok7WtU%5l3*O1m%d%KOT%<xB8FRy~n^4_F
z@HOyNha+a#VV6w8J+<>`EXh+U_#w^yAK=vxHeowL?TxAHQ}dmRO)0oIab#*5-wWOh
zCfl|xg;F(pVBQ8Gcw_AP*nG{RAyw9$umg_gl~}fyC+&6f{mG^tY+_<}jSnCIEN#rx
z1l}9GIk<4@>%rT>R80>&b0@uBfRb>9(%8c{l6tW6o0X}?y=X@bv%-OI6Ej?R(7DmT
zV`P^jr4(x%6-hfP?o_Eb>lFp3V!CURH9J!-I171(0VqLo(=Pi!%@aN<5@m9;z!o$5
zrSQV08f~S9*-gT_GrOd61dfV>N_pXcQPQezRKj6E*$p)6hgx7k;GfJ8FmoRQI0aW$
zUCeSQmIB#qc{#M|``(rIVo$$%Yo@U~UnY2;{za@UD$HGeTOhH3uaVEAsX4pp-@q;Q
zkFfngZ_^{<ce#tSx-L*ayURF;^Q0X>CdA~$RgAcx-7RR33%Y|Z2*z<T*?w$gl@pCO
z9LBk;;&PH_gyIQxRjjc}LBi{?e~nhc6v|yA*+TE0Kaq5|UNev(=>w<d%O$fzzfu0y
zD+yi3*P8aN<9+KEwToSgLn&WR+P9teZC@I?Q+(&yyTvJAf5N4hPA`n7eA}h_PTtqK
z@LI~Z1NWZVw5JgpcIJ1bJS_<$tF(jnbu65~so`A8*PHh3=6$>Gbln-cTa@x0k*et8
zeO-&4Dc>&KV})2m`6^CdAZe;}Moiwyz^92M%VtELE|$-3Jj1p#=3fJ23<uA&MHMUw
z(fI(e!?@#o7_3|q13^42Dwp$-EP<zbo(k$nW}{NlP9sB{C5;TM)ctglS9QwW`TOS=
z>pyB(xWH!}?9#~&Bo$*_(V5o?ip1qbw3)zzxQj8QI|tsEgHsRL7wz~aU@LrM;e{M}
zViA>P23kOLA@)YeswJ3<F}VcuU<m3!cK3x+fZv5zu9Eb1{ToHA<Wj(tSS!xQF@{XJ
zE>B)p4yu9*_UqD-QZPM7PV2NKWMXd6HbVwP?n*3VSptVFHaOK#WINfG;Y=A>ub54Q
zYys(t;Z^oQh#h1u(@gT$<5U^-x^>em|0-|L{ZenBF9G<RF@X+I`Hmb@1;vOyWMMr~
znpFd;S^Q>=?#E$nA2Q|61o-0p$bi#a$WjAdHPI1_94I6aFz+;?+Y!d`TRA!#gd>-;
z*~70y@W|k1g0df^z(*_2F0Qz0%FbY9iMSauAO4AZvP+?YJtLpBqIe7!oWmEu#*;@U
z>@UA8o}b0`zpymHPLCx(iWAgWzE}jzM~qMwlwk73lwm?i0VEYEnoUn#=J|k|m2%M%
zKZmbmWQ?PH_9Dcr^PTtX>oYZN3$=Vr&$WSN=*4P!`I_FPzB{k+eb1+AUPugp*eIz>
z)@|gyo08sVK#tIf9c=gGxn%DE-+Ao5=Q#GgVDGcD9+XH`%Y2lt+>|&1`~S4BoA-4u
z0yOVS&@m*QrlflvY9Kzajd!#q1KaOAb}Sc_vW?TkW;O!Uf@y^xkLu?6bKkAraIGKb
zdR@uTsVW(G&+hu-Or~~2rlfxU=;9%Ghg;F>>WXLWs9Qc6Wxg-nxRGz%xVU@CF74@T
z;Cqgy8VBxsj%6I>k_(g97KZq`_3659zOH-m^ipRUpVB*Um*ab%P1T*e?>GeqC37#)
zS$WuJQ!h66LHpW;bE)>;r4#qscYN7+!+PC1x8}a5<<61h@e|)3z!90C#k`uDjVl!z
zPjk}J^f<>yFpuETLt+&fn!s=2CG)CUjsz)%oSRTgKs;YuHMQYsQ{wS58)-t2>{o*M
z?CeKN!{coxZiaDirx01)t7S+F50+Z;U`cvlI`fR_jGqjBv3p%ae1}mtFkTTYy(R>b
znF`1F09uejk%YH$_8{X6G_+vE#o}R42D2hK#S7Z1gi2wF&D19ZT+k<Fy|bZoSuaoj
z_bxq;0K~k#ENQQ$BZdxTs{QHeZoayE@m#8UH^fF6w?Ap|v+jd3#W@<wX^G&)&Y%$X
z+f7VdRQ!AkR*{;39}1x~+iKAwhh&p6uARDL4T5308xhwiR5+=?NwERe6?Vc`-K0(u
zuWOQhN0yE}sZo1M_QhZ}wKDb01_Q#+we(`;?HHK9LA`=o>@TI+GCkQrx$}#ti}2PV
z<J7vR&DDapY^OolgZD#{w^E{U)F<t23rCY3I8e9ZI*zz)U)Y-Rb|)R(AG=GgUBZc#
zI661euq9L3n(=RhS6xplyy}v}Ipt7utL!%;CX}d&CYklZV+P-B4g4|MfezQdp@*kr
z!}zXg!_}Ru`FRcL>HIOaB47%rN{47c7m&Rw&E$ehP4`4}6b4J03^R~qFa|<}ZV=6E
zFtmz+INYk4F}#KW(3fmv|0@9(w(g8vfJTr;M>Ku^?`R7HKC(MzHp1)ac^3s_-61Z`
zHo9e2uoje|#Yh)hkfJTD>=u62H8>*r4LCug{A;KKgY3~b{7L&7EHUhIbXF#v4H<v;
zydmxH=IQ^=B@=?AqlT@)^?WtNr@oA*K2zJeu<7f4xBJp-_VM^%yAOD!rVH-aYg{n@
zfIF(1#Gz$6U5hysag@$pNj7Z069q={!Sk{XTOge<wqQmgY#p-?%cF3q=jrbuS+A@H
zztu-trqN{Ru45f6xP~F}hpV!|$ix|(*TOwO*XEM@+$Qv};wp62Ud*qB=2MKUe$kou
zppyT$uxp8F>xiN=#?QpYf$$5MkHP#&uoHeEL6GoE0ugB{5?VDI0vLi@ejNw3p;XE?
z>LPU0m=&a(vSdkCC98D#o~R0PWkFR{UDn_idD)&jW3ZFb)QkIO?tI?I^Jeawd+)g_
zvhPk-qmk9P;oZ(ke(k4!F%ft;g`glf%kdAb)m?sv#B&B|_CE{{pPa$iO>LRz;t68$
z`uX>7$FsyVh0&O(EpbaukRIjRKtt)BU(yi)TLo4%juE&#^;^cb_^u+uw}?gKZPkWv
zG4BK&h7T?Qr-Ppb<{@v9iXLF)JZzg8orh8ePMcEgLLbng5tkKq!d}`xl6Y|8Y^aE!
z-<PWB;}+wnCt9gR8whM!(E^&5OnE$RE2A=`yf9Z#cd_CBrpMH?&(j}G>oOLs!lH!v
zQ;CsLqGwdC=k3&Y8};3K{lK9`qgMbLfSk&;mW{7}&b|)K2YCy~Z{d$O@9lKnH9GI=
zu7+*by|=!3l|z&T5z}f!FWprik?SB>v`7RV8GEe2M~^gKq}LPeblZgq^8z5_B@9cU
z{GwnIkb?;h2{1`hbN&<%bCc$kJZc{xLay0@cHz~2;S6Pms6dJdQf?ohtd#Gir2h+L
zNq$hi8n)Zg*jNzYx$se$oalBbC1*R#rwOwydd&pA+JgRtlTG0Nq6;9hjEcb?)FT^H
zCoA>nR@ZNZ)%$0?yM>JuB+p@{X)c>?&4<>byh^v0>}zKzJVfVuGr350Zm7d%^H$!=
z_Cw;t5R5HbRzZh7ypJEUM#PC&jM8Bf)p7XA`i2hCNshp62Z-bbxS~V|Hy=b`#q%EX
zyir@R*3AK-6iuVVzP&i)H|!NLjdIa;yXID|TEJq}+*=E;mtHN!C>cG=wMz;qB#Jl_
zm$oKePrsU`kP`?}QK?n$7JH*<IPTjKt@qi|)1}Z|9eW0LPfP<hdW&<d5||_XFZzGD
z^WqM*tE8wG9=)N9!d`f=ieK&F(R76o?`ztxsyoa=W<R&^dB?XMM@aMKEgOELto^87
zVJUgxuKA6Eb5R17$D?&uM5!GX3`f?plBXqavMG0wb#(DvZ{tBm0gU91`b3&OWnA(M
z>6AOg%9=L%4EN=zow5%0))|Q9WVx>BX-Z`#&Y)xMu%C}*5wFQg4^=q_M>Wde1nNRU
zR>NKrOP4&SQ**ENuMclDZ)!g}Upn>XKEr$6sJannC{YUy4XXNCLE0xkh0RS9L^!s@
zgTB$RaWyJwPL}Yu5F4RPeKa=*(;Sin1<j%g2-5~_4dg~a@_?XC13@y2AZ0%``4(p8
zAB(5Npf?BLmUCi!$~QZ!UX|RVtZ#B*R-SxxI_yZM#Ufo>+J^&!g7!|K@TKNz{uT5Y
z5%#2Tl4iO<{yFYXWKlh5iWzQDg*~JlP(fA*;XIm0eel=<1REZJaw|}P5YpPmmrya&
zBoRI<D=UsKDM8CH2+(R%PXM|A4%`?PSib_JsFrM{x}W%RVtfHtedN55^xPHFt=IFO
zx}@$H70SJrHY$`GZ|!?pNKBf*qVx=wE;->WRr}axK$Il!DtS9TDQ^c=TnE~ulTgUv
z{C67rq#i_+Qw0z8Q}nM2YCD%kNCnlZBvM7Bnn(>u*mXjq$pCKlp{S+u)3O|}_Y0WP
zCj`x(;WEif{Z~g89tEa@iT^4nL5;%dVV+P+f~XS6s*JuFE|k5g4wR|DNN{{=VrEpF
zr>ktBGdiTyK8fh(K{c&kpdvC!32U;YT&RUyiO4)bv`~>PF<PZ5veZS921>0cHz_4o
zk8da?H`MDe;sq_P;v*uT6A2UXQo&6k!$b(5RS>qcGB{tSEV;Z&KNjhepe#Caj-mMy
z`!fj1E|(M%!qq%5h*bDg2ZkqnWUh(_=oB5X;NPIpG|oBjsJL^FwHd4}!b<m8@g8g4
zX05-ooL`wU!t(c6na;|Ph_H$XySB%A4c7YyYnEBi?g;CMTddr2z(C$O7{AFQ>_U<i
z2dkUMEjE-gBAJYLMwmCk`Xa1-k6rzf4H|4PZqc{}lQ}9l8NX=SvUx{n+GIGGb#{Jj
zt-)kCU?;?LS#KXU%7=B9vplfPhA|<B@>h#jir4(>tt71*HEo-Do8yRBb<emmpt}Z)
z+*>+30}PZWnagS0tSD|f$NTvKBO1TYXDmGPfDw&9(7v*8#{na1E@?H~p_lkfhNC&e
z3y>?nq_+(k<+n|SoY~R{7Ov;Y2e9NY8FGhHyp$K1UA&1Gg?d&8Rt8Llr1>fD<i(*T
zf|4~El4h5soR=;S5fYfmkTh>_(9qawU?p(GaD$Pv>RNG`3`w&GU6+Q2RzF!m6C{Bg
z&Mb90&)ea(2Cv<<x_9mF-E1<nuvkpT!!+(*8>65ydSma_{TL%gECXc+vP=$;e*lTN
BA{YPw

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/swin.cpython-312.pyc b/model_executor/models/__pycache__/swin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..936b74c98c10dd3a155bf359329e1dd3e9f8ac45
GIT binary patch
literal 20902
zcmd6PYj7Obm0tI}-w!+oFJb@!B!(o01m6@H(xga=v`A1CMOi|m9S_kBa=^iZJp(?F
zfhBF^G8j`Oa5q~7?YIc-I;Ekhtl{idLT|RpTqoI*cT<&VgS#_sQ?*RlDM$H{3=PP#
z{bQ5w+<wepFeGK=Pi_HsPT#(-zJ2dG-#Pc({#&ot#UUguUr)Svfa88f7kaR2#Nw}b
zj=RALoWLi!5q^N@i8duo119!s9<dBqSeiL$9kC7A7;Q<~M;rr=5$AxDU0ZSO8gMh(
zmh_Bx2fU27Cw(LS0Y9T1$-qc(AUIMpP%~0HP|MPs$-0sHfqF)}k_{t`1C2aq;-2FK
z_uHJ{5iP@;^bVJP@0eA3po!)5BB$>uIh$EdKXL}1lCy>73?gUEQ*ySloVCbV_mrG%
zEN4A(Hi&Mc_b!&&h}6(i%CBNMn~<~lDLLC&&KBfseM-*o6;q_`V;aZ^uQ-mTMJawJ
zDfZ*Sb?Q=L^x3h|p~TsUN%7Iup^-D9AS6c5rj!6(zYtFko;xl|XOV;wPD(o#zamOh
z*NB)pcUDRWRMlBA9g7d9V?(16vr_l$SaM<ng{62hDJG94M#Z?K1W!Kya%IwsW0#gE
zp{|;f6Y<e>VltjijOpFum3l!Oiccidu}fm&?74I-ITja0X|Oa|IL@zKEdC>iuVJo>
z+yF0d112Zu#9J0jqFFGD7QuplEB<YwRp2M>94FXCo8S=mA>TAN#0$>1y#sc^^)@%)
z5FDa&xURerl^!x--dYCSR5R+X#SE^RPw*l=w6eU`uJ4I={i0XP=MX7pm3|0;AyX5o
zA94x7x2*&IY3?#V5IDs}>Xab8t5affXn#5_Vm!x2`xV<Dd)taxNQ@}X(TS1RIWaDz
z6gRR8W0zv7#H6TrF3|YLw5+yqNgPUCR&0`(o{&ZdF<eG)f}$n5_;U-#{SkkIOB=VY
zdNbTRU_E!V6rRhNGUiDe2Ae;>gX5%{w9c5ogfgaYa)LQyMr`?(^$r*nh2Q5h<_s6p
zm;lG6sXZ20U2fE_<wP!{whT9nRw@Hh8H-$=K8aE&YvfPsQ;5r0(g8j19g|8)ri^9O
zoUvpqLnf3e^`>gwf_2itYB$<VH|jN3n-b|3<8G@?m3{>qo}i|5ty2O|ub-Ynuur0;
z$L6yy&&QtJtUp=VI2t2R)}OH6TIu&mz0qr%vVX2RSWk^Q9A$NMmfF{;bhl1r>>0;d
zli>KkS@~2`&ayhz==n>(8K+>^%S^d4E&+n^t0WXzJY=SkD^I0#HI+tu%AIi!M@qHn
zlwcQZ0<Q~!;q`iY=~rJHRD<3cYm*-`Up8H43;RjqtiJI{FUJj<2TglWaYa4$r`E&9
z`l<Dl_2)CsFU-|auZDX|Ppwme%Xr70C$Ef*M{s}O(cchOp0SS7eR^%+2vt`hQjOKE
z=fybj!<$Q2I+d|zY~VoNZ<#*u-O);+wPyYP6)xiMmxvim246ZShR-DgK^zSe(+u}a
zZjXc$sqpAnIvfv=Ku{&dlVW&mD4a%4aN0AXL|1X08HX9?4fiN~<gD7j!ykN1b$?7e
zO)({gNyLIJi<cpLKmI=mhmqoy#0wJ%NleAgN^xP*61{N#V#KDn)xM|<+(}idq(42D
zjwfR!PH#Drh^M4_G$A!0inJ)!)Wo<bDUMhyF`7unVv6hKcydBKBuQhEQcER`K5Np#
zoES|jwaZi0=Dd*iER%ZaN~98_sdRjFP?U&^OC-V2;9xu{DyGp<#Yw_{L<A;Ltm!dn
z@SI|u6s570(kh8b$p4FCY<w)0AmJ6Gj>po3T@)Kijh+=zQ#w9)UILrt6#EbgK+q|6
zJk7{NT2x$+VClr!iLr^4VoptrD2*#CW#cPBl5mOxBgq<3%rvGx#gc;Xl!DZ6V!To<
zMf3!v;Zq!gV`Gw#ik&m4OC)3|P4Q{>^p5$B=G7b0PSmA1W3j<xJe7*YQa)UV%fp+$
zJ-jhJGQM#<G2WYwOTbvYmnU}Y+IfD5xG|YHvvK@N`rO#)#*4}1$i|T|K}^QP%i`b!
zMpC^@ZA?M1N5`*7#3d)2S0I9@{?ZAeq=qs5e*Gr5RKq!aSM9PRbl=fjaQkMOuI`(S
z|JdFBpr*A@vwH5?xot&`k8~Bfdgpd$<3%$c>{~ROYkft|?DZ90TvzY3<-Q~QVD*~0
zRQA>P-dI?@gC!K&I`VDX<hE^hE%}`<$oOk}fo?P}*|<RS?D}tCzVF}k$jo^|4{O?H
z|5+}$zG&y1-usRaDs5=a*Z0cxz1g%}zh&BT&GqvQ(eEC+ee8iJ`0n#ppDzS!W?stI
zcgywNb8)%8M-KL6`{dw;`QZFZ`E7^fZHMl~<!wjgz9S#@$$iJ<!0`{SESgPT-=f*l
z>!MynmV8`Y(~UjX_sm)H;Z1UQ(|k}4Z&|3_I_-E+8+y!*V8e};>n;E4mAT9Fq1>8h
z?!9!s?TZV+=cjECnpWLvyV*8(F?(U5sc+g>Xzuw=@H_jn>1?yyymkI7Ka77^_cs^r
z4a+-D%FQRI{e|X8zPV3s?wjwJKY5p5XnrQ&d`NCSw9xz<ZaNyj!GEJ~Ha=@#aD?X$
z=DW7aU0df*%3V9|cF0}3Wyfx$f395nvzC0%PPu32-JsmF8+F}{%U%0q$3CjCvoGJd
zP43(_e`cX`SI*J?^R<!pGw)>zp4Ic)mdvIeHgH`_4z8}d5Navl9W_MdhG?NRoNwJK
zw{9&28*j8<Z!a`;7aCe;UYUJqX5W(6UWa1uI2JMGxIyB0dLWj|;N-VK+#n{c!8<(z
z{pvy!0+VkBc%w;M8ITG<S{a5+lSrB}q26*3t7XfW3~|IGhXL+NwFoA`EI@O(qty+R
zZR?j-Ap?^M63GdPK-|al5D_aF2qc5FmXZk{D3*%}@shNSZknatl)_(D+@s>9*yUL2
zTzp(iQ9&>O=>XlVOM}a$!2iV9(3liU4UU2BPp(<Hh^ys0i5gNbA$pT5G&J5Ax<2%W
z=VnuLrkRm~Cy@7a$(}BQC|b>HU5_|(qifn-bZ}nZyN9nHp4q+NX`ki`{=mCeu3ni9
z&hDSRFxRo*@5(v4q-Rm_VEM~2Ufl~w#jE3nk)twHe_6x8u9X3}NvoZ(*A%^wD!EW!
z71=K6xT)GbhUHY$|M|<7P#x=8wW(sE$zotXk}nlOpT?{PAh^mP7}F8c%vwIpXoj)5
z7O_hNf0!7No+FA0Cz@Z<c0`JEVl;JOLKG*(h)JDq4TcC>CRS6lhV*F{jFB#nj3j!Q
zK%88?a?Y*D^eU=IeFqUHTt|1l<AB_8fX%QT+0&Ev^va&z?3o2m-y^fB)0K0qD%!Zt
zo%xPEa>pK)tyT84&YqM#?Q>oE&dqY?=J`G_9@(?)X?J~#c8gl0i`BSK?$~#azt?v!
zzR+<b-*HOrIJMAm8Z8$5-Fg2;*}rj~U+{0vIX1Ittax?kl#ZuGNbM4?8HuOPD=L^`
zWN>UEJw5?DhmPS=(ZTX*NnC~TuP9>1zmQNFUc<d9>y&NEj_FIeD?-MY`mf=wOgW~U
z8Ar9rFYtot14DshwYsL<Qy$b>jk~$^1qEfJdJd0~<8gJA0J{ryRGIe1r1oY^Z+$gm
zs>TEa3tQ4Y+^w=K1Z&2Je_O_OM;qDUDvJX^-8YHR$@tI@LQNH+y!@0u<IVVo3C2|f
zaB_{wRK07_?=q?3&3LQ!m(-5O^+1yoQ{J?pxL32`3=<Hq2*Wf;6(QrwxHF!NSFn9x
z*GFe6AaGN`OkmhB9+V0}RyhP%xO90n+*Z1$Q^p$$ppJGuwe+jshqQGvX&Wxx)2Shz
zjZh70sPaZLHTpPC1u_=NmI-8nL#C<POzkNy6By!ED&p#w4xvIOP9wYuxQQz<f%*%*
zDVQmpSbd{0b!iIH*f`c?Y@G4KkN*)mQX~kifMluk3<@dM!E+O%=cO-FP5l%RpHyt(
z<?;Bapo->Wl)RB5Qc@My(8TB<DID>n(#kXyAtsDb8)L!*44lT|XM&tDTIn#AUWX`B
z$M~#tf)ZY!h~%*JA|l0ghHR-!F=CIWcu2PzJQp7w6_Y8&Me2vjU=%*4xWTxkE3qWm
zS{3JcQ77FONjcNf14d^wbfCCsU{o-nG?wnNRP~`nLGhAeBwmIMmDTPq<-<dsNhys4
zNtWf&YP75UOQlHA0H>@7DsZs_u3U;s!erA*xuM+>Q9<e>EWbCoqK}Jg&jWhm&(S^Y
znt67%^<k*>mgA;lu5BT-@v0YT`wP*X`RHCby7%sdduMXdy$jK!vSa<Ud*;<S_rtnS
zzOGlU>&+$>>UK^$84lejH*B1DFEs3#c2{0MY-!K8^vNxK3oTo6j!?nflyi3%n%3r<
zdgZ3xY+P>IH2uZGnyvXYyW};y3W4CvGr&Hp=TcA@*7|<otGhZ>fW9&;2YRyW=7s$B
zetCO;?uApi)2|?h-&eG9-Y%#t;Z3>CNAsIc$(v8165QH?!i`rGv;5bSkF2I}OU}~@
zF&N&IZ{I4nZ!H9BW)9}-Hpq1wvV-$mkU#804xnqO5*UqqXuTX-pAQ|8Lq`gp#)7Aw
z;)XSahNhyMYdXp=a<(Sdv=;-~(mw5f80yZ4dgTxv2ujfY`3no7UHQ;KIdpI#ba>iZ
z=-im^+$wi&UFh6CpSo+xb?&~K&hI-Z?>m{>drIy+1-M_JD%Q!Nb-DEi7DCTXdmq`j
zz61R9>$4|vo()Aa=L`TZ1{$Y*P}Gj{FY~$QzEqyd1ng~7zrx)%_xB&h+Ju#16be6C
z8DcT0tP@G1J+T;U&Pnx-L~K*)p@>*NRQI&R^jCEi(@IrrFNve6F^Mf{#eEoi0ckZw
zv78wjOTw5i0qcu&p7MG%1$$70Z6bD?m-ZtyMV$W&Y`RKh=VcL@l~O-N^y{~2R&Lo*
zXb3&>@36Wa2AYdj{NiQ#f<-$~P<a}QPNJZiV*H8naE+1dR?NGimo9x=u&zkOiviB%
z`y>eJmlAKYb{7LK>z27~@9%kU&msr1xQg4lvk=`}h(sT`H(47WHn!f#T+bA(pwVR0
zs(dIShay?LyG=zqC8G7Fd~KIp+clS#Yu6W@l<4AG!*g9XcNeJ+bjIbMo_IHNH8XoE
z=MT%yj!(TvXRm}k?I0f12s-0loI%oxtrK_I)``AlV#SsT?3+U_wq;^xTP6<CQPoE6
zd`!BndiszJn=h6D)QrsxH}J1V-JGJ$j1vrk^_Q7t3|p2&@2@%_BUW6oKVhxhpD67|
zz?O);ii`!eKpwV0lP*AE3p4;5Y=P$f-`b)u0H(x<MR6rY2^z8u6t~JIRaS3wFJh6p
z&<%Aedq62xR`|9}l^KLkRJmsqQKu^DF^to`sm|AKTu(OYtW_Nl!;o_mH&e7m$dKbJ
zGvqv|UsGsoCM{i8#$V3Wb}c!r4Wx~`)OkU2OYx|W0$UoE*r4&mxJ5MmFGdkDEl&eb
zxHLiqfaRym8U7S^oA1Zcdjq*J4y604GV(2=zKkeEtDc@xeMVZjlMNNmsL75jWhX2H
z*<r(+zxB+`XXZv0TDHPsHSL|b@X+6ybF``tlti}M9%&3e(l|vIC|b^8B#F{!R8<&|
zB8oa7U83kRqH=aYU`L{8mTrt9B6i`@*oE7xu?zfa?1CtV!5W-&=_1xZS!tR2KJgN@
z%4%&Zv~}Kk?dEGmGts;D{-E{yt&D!?^u619we?dg($xo}4h-Vo2!4%Pybof<3ig++
z;Lou6scmZp1XuMHD!7qOAfO^>+m)Ut-t~%ZV_TDQ8sNB88KGZnY5K6G>1ABN2QCm)
zyfh*9>)Ka26R2XFRoOwgE<_p&o4#`(D%b(EvE|#9W$b`g*@3n_pt1zbxKPd#%C;w|
zgu0nvu3#WmG|fWV&};5!DX7cnE!c~tf6^Ky6ZCCU$>983dsJmE5l0y}VG@ijDw-CG
zP0a$yDW(<AxHK^;3aaTIrC7ESuc<b0OhA%Roz^2lIp1Mx(s%_1+xZ@Hr(%dI?Z*#b
z8T8Z?Jbn$X=*;JIu68v{f%RZM*PKfMu933MJUf@XJ9PJzdtb`!J`VdL3{sYBZdixg
z!rweJZTUM#Q;AJg!0TmvpI#1o(WHPro=>T-Rp;(gkO);3a!5RykKk*hkRVJ!JssjR
zR@ivBW{!p&%Df#j)U56fF`Y#-xkz8fZGG5@y;k&F@z5*QfIplrN?2Tdi4r|Rs_bQy
zGsya7>mjP~#}BClX*CR6hgxr3xqhYKX`0=e-Id$^9AIV0HSJM3=kA-k=Q8vA-+SY(
zccJAlVd2`<xti{*Xa3~;i#eEuYj#fC3;u>_Ux}Sc#PTBk&%smEC@4)(bdjRRv)HfE
zZHngcpSp)=86vB<b}~eUUya2Qr6Mw-R76Hp86u-g6_F98A~K@3mSHbX8TJB=$}6xJ
zC9c3;lvu)EbXCG$va|J5FOt;ZqeoiCwB1Ocut-8?1=DtwG40O-yB-IxEbwqChgWXZ
z*XJmdLTN-460n1n^VSj^c|5?P7gfPgp9rwh2B(8*mu7cG$e74Tt6L5p1IDWGQq<<F
zs0x=xJzUIa>k8>4QU-UWtB4}bGJfi!)E-2Nb0j$)lgJZ^VHb%+h~m;LhVXY%YOxn;
zjGE>FCB2DUsj9GzX~g9NZE(;6m3ax#O5hd&`+VT>&)D*Tup9`_ZIJ_O7CdXK0l90g
zB@fpX%?{<G`{d}ph1Fjmwizz5&1D-d#3LD>d;!Gc`J_I4%pl2Q1Eo5jGz^zy(>}#X
z{~VQq3lip&ZXmj?ZhEM|@5@M7w%x(l!DNUy+OqM{nA-oK{Ob|Hyxh`W3Hb`4)_iCa
z)T4P=4E8~}t$={iS5a~WlKTTnq$rR7)DWU&NX}>7&oe$lgvMwXSqA3VwTk8#slqu%
zhRxQtxzq2z_TFpQ7qzy{i~m0Pz2v7vs&9iD{{NC0Ft<Qet@vHp04=A_&IW!*Ch$0&
z%wPjoIO$)a0})%<QYJ-9H75KKQEW24399<?tflFvKDx0m|2O5{hiK)(TvKgT0_x}>
z=P?>q^)>iA=~URn)K-}EHo7J;wU3rE;98jmRa5pn+Cn1V$W#lW>I>;JEu3#slN9|g
zs_e^%mMt7;Gi=?ER-;->h$>q(bXipeGL@DLNPWqGRF@1jxopW0dZn;PjI&aHGS5s;
znG7u{K6ZG2I$*$1y+55Iyggycs9~lIH%u80rgS&~>AVt2s<L&U1XT4Hd$DkGB||ZD
z3{iY!jE;@R)8|ND!22Y1E-|DU1WNE-)k(^CP7Iyo$7rTv={QxLBvYn;e8B6DNjz7f
zp;*9{HLV0y8G+p5V8}2*4>9Xyp=nt33~3#M0N?@;tGO-6ZR~R+w^47IgJdbUts-}s
zjE&g)u^db4#w|3fI?~J$^&X;0SJVK#*cY#(bOUlsdZXn6mWgWVUm(jec}=)V^(~^^
z0oB=+F?O<Ll*BWevML~VRq8=iI#%k1YKI|IfaRrza-E2+GUgR+Fbz1;bE!W>0b&{r
zx*4WW+f)eD7TS6X4ef=NNTIQ#=;fSEOPt;5g4a#++LEe70<A|5^%%TlAXnQ1g{hfT
zA|DhcR8poey`I~B3JOyj?%sDaL1Sv{D8F5%Prc)2YYA2uS~JXZp<fyS8F4)p(ks>>
zGO;pyY?-yBs(FN#3tKa08Un(#Dt7PaDm1qgHg6}JYHf$cA@Hkl2%;QZ%c`Q2C>L2*
z-9&i+!HZs^d|Z8~=qC!=qGo3e(q#=9Q>e;f9gHcT)`NP)AyRn;^=BE+pt(h1ks!rN
zo&jI(m44zD!7jq!NopYYhTY&B@EK?R<1W!Dz^E})$2f=w9K@xWQ0m|T?ylzUi<1mq
z5uWI(|F+;qu2$;S@}Sip5d9hzG$=R9SFM>DPdq{mj3)uc$AaKv^{VgwsdW78GH_4x
zo(z%W>2oR{a~gb1als{gG!-8qQ@XJtRTf5TK@YULN%SmU#2c?*Vc2Y5ZdL)4;bNK|
z4V{|&sHrRqB?C$|U+t2?Bx7vN9^~G24Vuovjp+5Q(8666?8!_<n2d{Q?_luE``mOM
zz+N&5rcoc1g@E36=@<EEYuS-;f^C{Ju5WVRGJjyXqcOGXrfb_RXm85c4961~3_W9i
zYmJEm6E$Z{X@d<`vy_3oYR`@G1`8(d+899=7Oubp`AK&NO+4$#B@S#>bw8q!opeOc
zB*zBNr=qYsJdyR5-YRf<4T>tR(J^U6-4{Fz+1G_M)iPSDN8Keo&h~DOB~od{%A7IT
znpc^yO>JIrGM?Cv8l~@0<&N<&uwyz&;;G7hv(y?hNZlri%9MJjIN5GxEFoN0*)a{1
z&W-WAf+4f1ZZPBsaihOS5n{+8ogtHhV?!$$nF_TH_;EaF2;CUDK7t&bYv(4u-MZN5
z@%kP$aGlYaqf7N%u({CEK{oX6ZG}~93#&I|UzJzyD0D~XgYUgQAOCUpj++<m4(0d0
zAn$!4_tI&3@99EEZ(&u}>??DxWE0tcnrqqhtDrMj15VW$eMEIHntiI3tJukT8glNA
zpRDRBK*t;W^E0F`fTy?nrVm~_!5AS7^<Hc)wy&m?hoLsQ{>?8pqM8(e;J?^)V7r5<
zS2{?+F%MYrfl*Rr8_|Jy@>2Xt3Rp!-GuPTdL%gFBnzd{-H(<n|6PlRT2X~b;uGIjb
zVXR<1t)yfh<X&&*IKz3x{FW7~!9i<q6o+x9a2P7%WKhF}lN46Nk%4^RnVoHlzt&*^
z7-6m~223fn^HwBd6PPQXU}h`TUVb&@oAP4K+u`)#8?wOpgRAB|12+njVa?-5Vb4Pe
z{Ie1~?)rz!%w55e3A};bFJ|Y1!4_!&FjGsJolkYeGAm9I+xa+K1-S8Dbe7HDNKl>U
z%<lJRlzNh)7b*I4M2hVkJIth5FC~QZIfYLs9(9(hTce6!y<+~{%;mwWCaAW-l+v-x
zcPVy81jrZRuAs4PEH$M@ZK9M22Y?`JZh4YgWvnz~6feB1&x*QfGDRGqY`v*unXaLp
zH=-iCA@W69bEG1`5E<Z_BG}2d%~&6__hjq7+j6_*@7uRsJu$t1I#Y=5$VH!>O=S6R
zBtNX1KJnjLu>{(%3JQVtLZAc0qTANyn?8<O+SX+|<kk&Wj~5%c@b+Re*ZWM)5h=L+
z@9w+0FXvuU*aipI?+x7BFK<2cp*8oy$saj$FMmmX?n}9FU(U0t(6KgKpWAdGckpyB
z{Bq9I23OTvCvKi71p0DYo`r3+&4;QTTxU<Ve%^N1nhWnmCSVkAbHM||)mF4yXpjAo
zheKHyRbS8cWjE*AqOvDCeZ0)<09&vMt6*h1d^l3`cx+`!f{9B1n&t$p!%C2~k<wBW
zF{5dks0oVBQ&bg#y-#;2>Y*3#D-Z<1YPgMCH2hV+*1C#mX!zCe7f~wyBFe=DYKv~7
zJcPu&M8P{cG;6)SyXdE@09W6Qz3001#UNeQ7?7-%F6#)AQ7gp;+TUs<YJjH>M52YB
z-bdaZYn!pl4H}(j3D245PR%)PZY<g<WrdlQ5=&-Qy7Iu!VXp4x`XW__{^=XuWOVf-
zNd<s35QF$Pf^HyO{A(mt0zko62LGO5bk*RUA8@eh4wm2)U1ji&_R$)Q9vFlM>fEA7
zqdW#>L;0#TYw*syY;P=}xJlJNG&+c50FtV%Do#3_S+NVfa+ACcy<rUhA((mvd~;O7
zw{o4cnzpH%3ISUT*3BTFVWcU+xN4SKfn0s7fU-2f0v2$;TwH0Xdb`XgQfnFD(5it$
zU>j`jSci4&ua%;oI~omOS7*W2&Xo1ZhmlH0$sk$`h*zpm?+IGBYps7k8$@Zt`!2($
zAt2R&rwQwH=~u91>~wf=nGM{eibvxffmD-VrRh+fhNFp9M<~ONdf{GYsU4lt?%AF;
z%7CNxX2Y8PS#skLBpNA|fe#`1y;d1F<b+aj9#19N(p`Gb2r_8ae~4!W#qD=AxQ#dV
zrwoeQ^)bh+Gv>(^Kw}1vt(SDl4xsE%MYm!e9G}2(Dw`l)OyG1<Ga6*ub^y;z!~#4!
zE5UP?GEoCk6?_WUKk79@%ZfRPgGi_wS`|F|$j?u$RIQO%y5dOUXw-NdZO>7$9h7EC
zq{R{DhA90TO8irb7&q^s+fI>AXOoCldqL|!v8gqqx4S7f!|BA>O2}C{Lix<XxFr2s
zy0IToipEfv=H<}2u8fTs;Q1>gM<x-iFo8C=%?{lfxjC}XyaDjpuYqaU9~xS2{NDB7
zBj360`Pv@2w&#P@*`e=_+#Xq2x98sJPt2wU-=fv(cRjLzn&FE$^}~)GymO>zLJCl>
z(^KS-0s9$^O$?K7AWWWq|Bd(FxZkm3aeV`T`8s%f1DHotVE!P~GJ81Rx&ingdtp9u
zJ0rL5UI^`Z80whoxar9Tvqx{Y%AxIrifbHySkpkluj5wl&EBk2Zr%*Yo?jJ}S4Fc|
z<W;*0t2$WKw~pUDo?VAs)Yfeaq3wTJTWIZMNgK0A@A9{g=USfufOw|4XtuOB5MJ+`
zJNW*I_fE{?K+TRHhjx5ohO6JhrnZ$TL3b@wf*w4}BYLVubBI)ecig}Er56M6n_v2n
zm;(Cb{wmUVXpQBEJqP*@tyh7*^k?)&m!rz+aQ+XF5eKyK64mfj5Fgb*Jb9|CAfDMj
z7>IW;C6_FKj%6U;iKDa{hzG?EVz2|X`Vm^@`wj13)3r?m@d2fAv;j+AJ<uS1i6}Zy
z19kM@5uGF2{bUd=eV=mv1x5dXqQ9i*9-<Vf)%qOAZy8o)c79D*>S#4fll%&bKtT*}
z;mH3xNChAalRGK=Ks{{_!+rCea(G*A$B_?f<Q>Oy?Z<KAq1Z+!Hp~UumbolRKSV!1
z*B<+428sU}El3ni(R1GgvCM|wqgm+i3vdPu2vD}nhEJEO4WB4=-;1c%%3)rp4CaBZ
zfO(X%0_IU-3FgsN3FgsN1<XT|3iIeumccyTM72l&xE$u4=0y4m1iuIAY>&W)uR`Et
z7rq8zV%9v>wb3+$T>yLyg1I(674E4eALr<(-gSxC(Pu5#L~@`Cp#v3xfjbAjEdj?T
zd{e@Qe6)*SC8ugPWYXUz`c>QHkVWufXTN0i3#e8<7;D6&;(<#yKJ}p<H`R7DD$IHs
za$=pbBWAd8D<((<F2r8LlgxTg+t@3U*Hv&KFp3V*%SH#tu<8MCj40mp3ba(V(_fBL
z%39Xv2Uo&-gjA~;>#B`EIS-M65PKgM-GvDFgV;0+@ZbV(E5{Y03eHt`178U(s51L+
zP)hn+iv9~lB=DvGiby>sFeJwD^$js4(Re8?1_an=TG$d+T-bNQ*#g4*id}0bVl6`i
zrT4ra6)<ZNamI4V&vr4`OflsCUlVKieH0+M?^$Uydr%?%AGEg5*|f8>eRu1A(Ej~)
zoVML{Ox|)_4j*4=?Pt3aKX2~IHY_x6BEayVv6Jn21l~Py^+evYM)s^Rc069m)vkem
zD!i2}?|9fEhcjE^G7hG(GZ1Aat-<nnOQ?v=+gCt*MyCeLW1YWXqM|pAeK)NQa{hwc
zGWA178FCkN0j)_2A{@(ONbIMSVB}B&#yit2Dok`Me(h};W)@m@^lA{w1Qs){s4qv`
z$NdStn=c?Uj4K{4y7{}Y+p)W^E%bg-cC3RVSFU;8!{$}DHr(7$@U+q&cAQpiEIPTC
zwTqm!#Wn2*Ck?dYSe!btcJ;G5sbzc91`9Zd#%^$D;Sc@C@c&o_B50^9g052Oi*3qW
zQXBPqQ<e-5OJPa_88{G^G2wa_u2JKZT|M}gv0mgQ{+b7>8}+3k0DP3b+d)=FrVJ6_
zsHR{{xdB?-I7DU3ICa}Q&+*)77*ND0TeckvW}P-{@p_3;ExP>>U$(If`zyMJOV~Cs
zY7}_x+63CLVA`1bBW7%JK7&-n%8vLb`~^M1jAK3ue_p?|vT3gH7ZvZaZyrS)ibY7k
z_b5OICIqtMs^3sZN!O@eyCjY$NwN3^yTWNsY>G+}@l?ee7X;n<{tuMUz&@d%*OJ1)
zs_}6$8@gGoDJUCg$jd&qq_vb%EYz-%sP>Im5W2xmci?kE>NlELJ_n9tNdoNlij`$y
z-Ad8GvPrH*Y_7xliLW|oUwBHX{@?1PFHirUH1q!o<=^CfX;P1VF1fhImf5ZOmQ8ZY
zriGTx3k_SQ-48mu|D=1``?J;SaH@3r;7spNw>>Wh`et0S&u8K2xN1(2Yu6R(S__RW
zblhU@`T6FB#yvBZhoRMTIBF4@u@=JJ`S2Ee1YpMdlR(?7IQRPek^6yv@{>S)G01H{
z#>39l)TQNp5MG<LX5YB~h0_b+myP`Q16yDv%zN5oPur~Ucb?S%d|m5t;G+WYk-4zH
zx|LAz$6`1mhVOWgvjM&nQPo0NvI{Z<h;^k|2x)z?c_9%Fs%|j6Pj@K#k2JLZ3B<3z
z$`xu_7c8y7V(K{<XHY|g_yvyBcVO*w=^%3-Wk7D2``kpW<FMCDXIgq6IsMl5hYc<H
zhP86T+H4m-5Ky!tiE!nzQ!I8$bm*s8s1((wonnDeZ_!Ojoq&9EN3y5qx7@Y<!1H}i
zZp%Tr_mJFmxX9tohg&{O{b=W>M5?%u9xKwJ_y@=EDKd7jFBOfS8C1VVqH5yo%Olaz
zQS|_zhaIN}mxVPy#f}OnYs!<NBZQ_>(G=`$Dvk9LqbnwyRU<BOE5&`}Flp1r*eSc_
zWp&`o9rU@A7#v8FDfI&;-Sim`wL;@F9=a_8o`#8w?ER}Ah#gPJ3%dfowk8q0VIMY;
zXsIb{pHPB*?@RmMntJA{w_0xY+}d~7qS^{q`_EX54J#GLxzyuSlhpdxC?dU6b-Z|=
zD1zy1s@>+)_j3RVienEdN8!B^IZoh@OZ^BDJ}tuYpEx+a`)8czBd-1<ZuLKKr#|AI
z|A^c8-?=@Xnk>BO5r^m#7so%xf5e?wvVDc;8)r?ooHw0I9MMY$EcJZb%!@Z(z5ePF
z2Xbjs7vDH@;KtGGN0&H|OZ|KuGDzemy~KfBiq_z|=0?+XcxHfHTGz?DX5330ewMz-
pzsTdR>4x(<8X$UU*z_zVb>4_vk1TOSFC8=O(=&a-fn<;Re*xQ^wVeO}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/tarsier.cpython-312.pyc b/model_executor/models/__pycache__/tarsier.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..783d93980ce04462b695c118daf13d7657aded9d
GIT binary patch
literal 27177
zcmb__3v?XUdEV^%iCw&b1+c&Z#B1>+L69K9Hwiu<kq{-4lC^#;mzV*$&@KSYE<_St
zIJBc2gLV>ANnBB}T|<ddLosvA<fILqrnPdK^tfr-%y{AMW<pi$iPOZVNedeAvE!ch
z^!xA3?28LgImwWF=gz(VegF5r|Nr0rUi_zu3MYprX8uC-_{$vkm-L}OZq2j#J0^~M
zle@(69B+tmA$l8QhPW|gjGIEHxH)7tP?#xZiCaU~xGiLh+e7xaBjkuXL(aG><YMuL
zm^<WVc~rzbArA{P$Gq{%P-VO-R28odRmW>WH7wkM@Y+xv^IK!}@rF=CyfM@m_l0~c
z%ob~kH;0;;-yUm;`$PVCYp9idJ7R6|KqwGz54E#zXRIT>BeaA0U9rx1SE!5m-LdX?
zPpBu}8|r1>6|rEvFVx5Uo>+f;AT+@I-q>J#C^W?Um9gRY&d^TguZr!8kAz0zyF<I#
zcXezuz9+ONzBjZtJ{B5_?+fi?;We@S@$t}j{6OeH{9x!{{7~pn{BY<ni>r+ti60Fe
zW&XO@vH0=Oaptd&orq6_CgLYUC-L3DH^xrIPlrx3zb|$sJ{g*fKNET;{%q)37S<Fy
z8$TC1$NbH)srYlD=i=u>=i|?Zo@Ze#u@~YOLKor}Ll@(hLYEAjkvq-t{?|FaRhak&
z#+RPZi!8Jap@D+XmxLFEmzHdZ|CrzuUgp~m0+vB`0CI=m$fXal&`yMQ34Xr&Ue7no
zEMqS8aTe2yn4r*{gZ~5z?L%n4;F<k>6}HgLL4Jxs4ghjcIFJhs8#%$n4+-IW!{0D!
zC0%BaI{~>%7!WS|5S)XLu(%P#?H0yM;;!(c!a;tI5S}sfdtWz)rg;ND_7wxaPq@tQ
z7mljX{J5}_H&9;ya(u?lA9&pw;sJS(KlBwNe^?0dM}$5N;;0~KzGK1+;7<$ZDCLZk
zKaNyaQTL%)sj#)GU*LslA#(48UTaq83Do&y`92b!5uW{qMNRt+ExS<krXhIh2lO=+
zG%5DUq##DF#0155F0!x?ox7^oF9@$L3Ukv!(5g6&&CSgxBT0c*ET^J#k(gpT8>JL6
z#eQC#PtH%z#}voKn+w9RSTvGQY~+10A_mQh`*<WdeeIMGNiK?lQhDO+<oOq)iRk>?
ziTSyi=vAfiyeK5aNOVr%wUFuy(W|lOLLpSppt#P)BCkbM5LDPX8IN2QCg&CwlZxl6
zkPJuZJDi9v35q8<AD&x`FWd}AL@{y`i9IYaYC0_>67yovNX4=bwDj5Q5%Fq5v0j>6
zh)lnNxGGfX;`}SZ95Un8A{-Zm8%gFxZq65DvA9+fd{OC<>123j4ryyo%*PhvbLS)I
zo0t$gi*`jsrRs(G>%~FHruzBC$XqhI6iMcK1ECG9suPRx_)S(`;`m}T#tR~%YR+9c
zdvWsIa}&qThF>^&dh)`>7hXni%kfA;IJX!}M$gUjkyx&kCnD3=1XQUmA9pG$#Pn`1
z2v&OlC=gFz#A;aAo{V1+cplxug0;Y0-fEzOL0+IfugMoO5lKeWyevw?Hg!{~DIz}x
zlXElkN<C|EJ`i1;M7Ps;%*Pj!F9-{<$g~g_=8}qA4Z5_z11Zr5^^{%tPMbs~VqD;(
zfV?QoVfYj16u0WVfG&zh6qojOEwUi|z<@b{EWLSDMZXF$AYE;~k-6?kDAgAh7Z&El
zWFjA{IQ6je=aE%aAx7(&RUKPQ&c7r?uU<<g&dx_L#7a|iE}9I#2J8xp!qsR36&Lt$
zoJv>R@yN|9LU=(GW}-JxmnwCBoSd6Rw8;9el`s*AA5I7{VH%S){2H5S;Upn*LTR9Q
zEeI2v(uJew_-TzMu$Nu?*t`tSo1DOf3_KSyVr@5sOuR8<7A(AxXr^H0O+@Dfn_!=<
zhNt8K^>XrN-ojgXn@;6t^pr+QdD9+rC=C}QVj_wb(EL3gy&=R@v|svpX8_Mc6yr_g
zA~DXsDQqxsWo|sc=t_Vle4sCYR$mds!2C>r(Sbw(?DTkGDi=F_EiyMJ#1ett-N6Ew
zYvX}4Y$OW8u8#*^it@>8EJ$%LP}Rb(MPiFWLNO;n-xTAOxgXHNs2Hv(hU-)Bx)ggj
zJQs-z;jrQi)3`0h$nOq^UtNsEv>01B%+F7U!{QMn6{))wZ#ax<5rL(KBFajkmgKxR
zeNC~dxG4@J>|JgXF89;P;beSacp<tlm;~(-l7lxE$M)}gWlR{3MXwAm+)Q4ZpBpAT
z8fM577H$aBz&26+ObjCx_4&}kP4N)&W6n4{i7_}o$2~S$E%uE{u50(LiItu^L$b3y
zZ63*1H{U(^wX<)XeYgKU|KQkz#Cs>weP^VWGjjFhx_MGOr{`3JPgu{`v-v5!{%P<@
zU-xp@WXoYwb0Ie6=BS2I-)2MkkH@I!OkzC1@HH@_u4@bp3vlNe0M0~tUYJu6v^Tz(
zNCx7x5(bjjguu0eIN)q7GIw<m=pSICmCGj(xPk@g%KV(5;;Q0i$Q>4lG$&O2If`CY
zOsJ7!yav1kIgCt+69^Q~lEcPiihSpF=QKQtJ#e-iXJ^fwlW(4V<Lul0YyAC_4@T1+
zN2S`Mvh&!w`Iwp`Wu{aY_O;r@MI*0qcHHI~pbJM{FbQTxK`gw1QIPyMqYH?)YVj(C
zF$p&9+pNJ`1-lAE{E`-D(c*Mis}8HhGb|~{+fMO3WDxMI7T!r;H(f!u;?>%9W=3O3
zDm0oot#T|bT9m@tN0mAxjKYGL^1=<JRRh;>L!-vw1h|}}aP_8ATM{3O+yw2fT@dGI
zLAB?_u!<eTQz%;YbHeo)IEiqSzoAs9B_fDEFDkw`E&afpNDQlkp2roiVN*eucoMA=
zPmx38F4AliJ>*Qn0pegSHKAsTIfms%yi9@SEA#WQQuKL=(vU;H#4Mbj<FYl4k}oLN
z^rg*x*{XV}p+~OjO`ChO4J~&sys?xvw`V(pYdhY4CT$+dHnpvqR{6EvZ%5zu%1t}d
z=AA6)EhO$NNKn&wx8{xUwAr8S?vu>^yUBHPpNex-a1nkH>7{402~Hlrz-t?$hA5=X
zuNXt7o93WJsn<pnOoPe*YAl~^A;MUkQ(y?xQGG?_1=T)Igw@Zfpt+<U6-SsCW+LeL
zL}^FOpfVykRM!Mm?R9R$%2m|gS==xg8=deswLErMs;r;UNG1WF0+#@KpNzzcn&?0j
zJ)1AU$v4r#ssDHzZxl>CrjKBui6B_jiKY21g!ts=&9q3<7jF?95K64CTS86<0CuIa
zv}>jmD?>0^<cRsQYF%Olo4zQ{O>1%l^5QrvelGkrJ1`b+aw)^Dij?t|D@hy_dw9b)
zH2-G}MlQw8YBHD}Pw%8oC%74m9AGHdl4n-uN(#cGhLq(U!!H_^ttrE28d&a3Q&9i{
zZ^|$OTu6aeq2@Dq+nh1VE!&b6I%LY2q$$B3T}l+qDdSbcvT<&x2(GdeF40;T&ojFA
zWNwMVKC$HcBxPK-r);w|dan65Z`GkbvzD^)j2<pKl65*nvO)Ky9BQdLy#9vh%q=^Y
zT`4E}v{8r7zn2i7a%~^S+m-;lgz*Lp;c>}Bu`0~68xSoe(G+Wcr5BUIl5ztM^<8#f
z<<MT^1ouf0+vSQ>#cbP?sgPITBZs=Fe)^apNBiuKGHEOHJ~41Vf7nde;2><6?RpZH
zck=oCJPfPK;A6_JVHL}VVU;)8qvr;E^Zte*Wy8;N&!yMy0vB{oEsecAzZkd{c})l;
z=L3laVLCc<GZ0AzVnPHQ0+xE>VK1vQ@N!^Y3|yvJczH;vV@nLUUE<jxC8*O<jG|DH
zX4TTM$vJSRQ9ckQp*TRvh63j)Um<{X;k76)1R?<tdB}7Flyf9NG@r^-0~6w5%4{bb
z#io%r@fv-3)VUu{>f)1lk%B=oNt_B3GaRgiSWL|ENl}~^m5Oj&0As4xl1QB5$hAOm
z6*NKdstX$Gs1j$z38`f+k&Hn1AYMUAahj5wz~_o2XNWXi6z2kQQ>wt<OhONla^jz{
z45}HbQjhp?g0_jO@Q9L`o`A(ER;W6JIbJa>%rA(f%nVj4W(ZF+;vAJTPbn>tMLs&O
zSgHT!6XF7eRm?9Y(Z^crbheE3dqVM`A&^#Sy+=>0ovK)`G4VpNTqlu2siX=Q)CAgx
zL?pft6U0TzUtNpT{1QZRNa`tkL}KYk+L(rxAsk-vl~VB`Jt_{s#P>jiZ*d#-oV$AE
z@Lm3H>|u3_<bN?;{gUK<=}}|fU2~?fPj2jc=<axIGW(p5I=a6;^!8Au<DlGeaKnNS
ztXkf>$2Ry@DmI+RM{@bI&BJ#`GtI+t^KiDZ{;|o};>kAktYLNE$3AYK-LP{ltt)50
z@2b1Qf91rwE0C>iytDWA#KWrQyA$tpu2=Q^uJgg@dxmd~{n3f_oo7(1Y~_Vbld;CL
z!5J$&D5$A*#glb4WL(X%tNHF!+SM<)#vV2Ita;?-v6ZtATl(%DelYOftKS+<_dk<v
zdG_|Xl~Z?4KB{WCJNmUFZyk}V`qma7n7{4)mRBA={hfAs_*uE~Y__^SQ#~SAk32RR
zs&+rBu6b-RR@H8pxC%dttgOv=M`Z8F{pfeSN3xZH)njsHmsA;e<ZoM<`irL4JJzhP
z?Q5-XwW2YZ+D^H)bCu6@@0GjvO8Y0}?n%_Ysrrr;JyzA0sq8}H)tT>A4sJNO=C%zt
z*VMDREc^CkeEVhJerf!f?@Xk9&!ds`op<;*=iZoG{ghmP@&59ApOnWgz_;Rh=xxqc
z?Y#4>RJC*UAe;wtTP9<r6FuZ`GR`Pyp2G7auUCbk7m4tTv{tZ5B-WFUW+Ov)@r&du
z5flhxL~>&IC9c9@3`}bWMzbrJ^;BoQHIJ*tEzU=kO&b=x2{#(E&Svzcx8;%3vvTwH
zFnZM6gb0^c@&+J2KDL>>9UC@+uI6fdl5be9-nmgj-?f~xeya{XmCd7)X};&43eC5f
zg6DH3ToCWpI3N>v94H&W$XlV9P!+H?!93$$A-2N)dPT^_JIX66cxU-=sCivb^Ey|!
z8-|bz<hw#?(&kxS(*u@L<=Ur|YK^bg*mtIitYor6L5TQCv_j>x-B1e5<pc?<s@a(a
zyOw*1>oMWC`D<{#WO$QH=Av%fQrs`l+NXsWxFo*RCuK+(Q|6Q<W&JX=HeWT~GwRyk
z6c?ua*pt+mOD<*7*GI(Xaw+6%3i30R<d>`OO%8~-<QO7BB_f7*K}TgKDMb7g6eoTO
zPCjx3oTnwRxB$5aM2sy4VX+w?id|1G63d~OAOwlTTI3>-RD2x);xCc&%jD#`G+z`L
z^zd{nl7KQLLA|IE&s&Ueif<ugX~*_s3F@iViF!9d*!YuM+*UQ`@Z7e^_QrL4)At((
zvhLQbyCqxIm-TgJ>s#)8?C#4_P0yCg3L0tt`HC$MSKBJJj-+dL<J11IF-XwcCisO4
zhW?62T@^IhF(JN+!l!9{*B=@`h7&j70ng3N=D2Mggt%UPL>U)oTs8qNH}VB=MjdXM
zIPcupmxIXVWW2z=Yrv*~_^SXDzf8_o;6O-X<MJ=yS1NRrr%i)|VhAUQ%coILmoD4P
zya-W?U+VafQP5!i15zdq!nws|o7=v2=&eI*t?A}{7>JdMJFjLNTfSz0%f9MQHx92<
z=m7q7^Oz3cZISFPDy1||Dd56NggG&Syj4bnC!e1jLJ{#9a-JpU*WrMvQE_Tophfpx
zgZNd1CaC+5s(AGVfs*r^6hT7rPe408-0rb#edA-V4>Yr-ZNq{$NMm#BhK+o7uB~Ik
zK|Uwf*}LH)pPOq4u8qp|!y6U!>EWtse?-YQ_L?pJRpINgw__U|y!RJ>FZJ80ACp(5
zo>cfWez`|yUN>nL<|RnpAed&1yb<)x48H|_6Z}?^6!C2b?X%$90l!ml32xp>a-^zo
z1FQ{k6}%nc4*U#)d&bH;5$1v4i+G}&l`P!IyWy|W{1xz5Ykm*>H8-t6uTodcz0jTm
zw9+c-7a}(yF#R@<vbF$W@h*MJp?O}!)Y1I{C$1tTXq0I>37raQ#;?ujN}Y-`GX=X%
z7-&LlHqa{iibNN31O!U}F|Jy*hl;ZLFO-m$U*N8{=8HFO-^h5oWN+6y@w9hTvX8P+
zn=Wjm8NjTOqws*@=i<uGV4eP#Hq0m<KzdeD@webBtUbjn4VLY6R(ow7E8HTGDGOpA
zZgCI2-K)t=&wjaQf4b*D+Ivv4A5@W#c;lkB5Iu3>xA_j7?P!(W0#G1BxxwSHnw6tW
zdOBUcq8)4Wk&f^vQGd#550XwjmPv93lHst#8>hriBO+*J-KRJcLQ<22)Lq8B&>_+s
zS1Ps9&IvD!a{_IA9kHsg;L^I2c3KiNvN{nIe+M5+-P?}?5HgqVI$#s0-~f^8n=<ty
za{WlUessn4$nMG5eX`wmcVNwx={+v@9#8j9tlLjM^7gJIRgCMEy}j$f{jzuB!HaMt
z`ve=XsiMK6MTQ|B^~{@K9C$9Oc8OwPi;~JHmLQY5sf4ARcED(}DjtqS<I!Z|!w{?t
z_+L=_NCZRsDjV+BuKbK-Z)LUAMK)D((p2E8IF+kE)tv^O)&Ct#nWrM#HVdMTRLkZ9
zcFH`PV{%Z2_7IbG&!8h;%2W=?^w?!f3Y%uHfTIyV2^6I%QS#)<wLZ06>nwFs$&<3q
z=2TeusE=Gf8&phc{anc^Jw2ae3qK2G#<C@uQ&Z*DP_sl6N}g0s!KD)=D19s`J5v~$
z$z67&9GGmDsdtUy@8Mf~Kn@M!(&&l##TXyJW>|n1XyX>#WFQhyH5(<nd;vBag~Slk
zSzukKUR3GcIDASiP0mtDTh#}&Q<TbT5uYBu9!*}uhFt=?`09>MLi_?{_IYxylM|sF
z&Dg@Z1{J}pVlwDd=XkFEiX*>()RZBiN*z@N6Pn}&%oMHiid!Qvsw%@@7D(4NE7cUO
zB7ZJ}CZ;zoQYVD5e1@_8m!P=}dZRrmm-25Aw$!&h*(vR@{|5NP-@<_k!OhkAGPT`u
zZFjo1cg2xy?Z~u_%dO+-RxAU}4+Dp@?zW73RCbSMTY9qo;D&{(*t5x*Ak5pL16QLq
zUDkG|WcP!waksA?`>v}CY+I)JnB06U-FyO4{lGKX${m@?eRAc#Y+xW07?A@b+4jLq
z`>5PLiY%-4Bg?94WLeduf+5R6kK_&_%gVv~hVOcJJ**E%?JuS4KPFXvEZccZa<@P9
z2i~duy6<hD)PFSHek|=jF4>#1UE|WB=j5*Eq!%v8T^A&KN7fsZ?7<INm@lI%o=RT~
z<rg!3p5K6KdD&Dj*NrJtezvlOC}_;1AQlw1oHO-T7s}U}?f2l%gB3H`;vXP#X>9v}
z{!sk?zet?e1qTGVc$BlgfsF5f>^qS59g^&aRxEd{550|d7uQ}~e;Q9iYOAMp9g{QA
zJ>~hGVzR5Q*uRfl(OcA9k&s(keie6;ZH{Adlg_O|`%-65(MqgRig@Hk(Ion?IZ_I1
z#F~@Xjk3{O-F=zvvvT*@boZ2O-?8Gp69?;;@zNrkZS2hYx`Dx!L0~W`aZH*LC%2R#
z4=^&?QnnYKr}bC4Jr$k3HL4`>Q^=;23smazB(Pw6ajE}l_)-AupjPL&+l;qe_O_?J
zJ2KuqvUiVU-}B@o`loJLxLnJsidsgyq)R;?p;ZLv-mXQvWbZD?zKgXeSX(MVzC_hv
ztIvM&(Ogxm^H+${Glr0{dZL-)u8>2EiTJO{A$%2SMyu%iC*=E6a!7J0Rn4tY7&-qL
zzXS=|5HF1e%bvSGv&rGLVKrC|Nx^aYIJ9B4SWX(&>NhxgOQRE;%(LM!SlZSa?$_L(
zelYRdv-jKN;4y-4+pzjAeUMA*eH%9N*|~<M4F~z0oU>xnMZUu(%bxp0d{LIuVsWlc
zQ>GA54VJyD3Cd<K)nR0H_ZIvkthZQ&VGlDI*2aLgI<L$x&hgV|K<+`uvuBgIo4lZk
zO-iGptGAyt@FF$DNhA=7HCDH{&yw#PIYe#5wC>c<(2_**I+r!uRS1eKs)eo-+x!G#
z^0k1-3fm{zW)-Ze5Ug&x3N}q7hTsfw)=t~2C2&?)L77N|rX442y)x06Sw59jCTd$C
z#7k)V3H60y0P)w_&d;k<cVc+;C&vI^Lr9_In9M=V5(<_)`90c?3I}~6&0{>Ezosei
zU%?0Zdl)bAdGbT^$47zs?f6h^S7@U~;B}$szY<smPB96t3)8Gc^Jd6KF`<d#OFK2B
zDbl#AoitQ7MI#OKAhL(Xj+FTieM1@FUfH+z{`Iu)Nb%Q}rHBSAb`&2aD@eA(lke;4
z!fqoJq7L1>1Lt$x=M0~-zRBJG$hruf16Vev%;kpT^Uz)=X(-t<V_dPW7@)%j`n~Q3
z53VC9%o}c7uVM@Qo>@1Cx=PZTWlFJA6Ns1<ttnJ(V&FGFfe!kT301b0(;T93ZETBn
z=5r&yY)IyWp;Q5^juGNMFh03Ts*NBw#pQ$nW74IE=XK2G#Ftb~JDE#sf+pI;1PLP(
zB+PTiQC?1D(eo`T&vLu0ed26xFTEg@rMy5>ZvXtANpJJAnGJ=R_M$NaW_3m|p+sc7
zNrmEIOA?`$xC6zBo#dq8s2YTvsSxe&MkwyzlJoD#A)Ze$llDMeEWSX2B$oso;s@lP
zBj*pv`6D<=J@M}|WTaih&0trxz(QK}vt3YNiujOHzYZrsL#Ij$w{G2H6jbq2-L?Hw
zGQM3p{j@m=A%}KA7nyZ#V(4IO9{ZGu!%VqUkWoKPRZ@cd1YA>{KU3Eu*Y!a9UvC;*
zA3iSmPGBpo-m`LQ%g$9c-R)lQ*t724o9!LS^d6CWkGyA3_fATcUElBOy;u89-@86(
z_nCBXGTrrzRN0XY9+r+>kb@Vb7hjTtFUghNkNi6_{t?+fa(`difAEeo8yuuWnc!(T
zcsd*C%LI1Hft}g*{!IIb+&%&xt?!HhD_vi;RN0Lsux^J`vqS1WDAyd6+?v9R5k45t
zGvljh@}^=<GLBPm6|^#F5&x39m$3&S^05K#gD+@PWk}ZjL=wgK$@w-pe@)K+fRmv4
zcKI?5imGN-Y8c@w?&PJRf7qaOP~X!6`BP1*dvo%Q$xLm(T-%?n9fV}(>&W;<W#8zE
zXTx0OIP}i+k2$=ydbx_$tS^vl?1s5lwxxf|W`=BMvJx+A)p*&dpr>?ErbWGg|M@fe
zY$xY0$mu4hgB+q#Vm~?mlbn*Z{CgBeP6O4R)Q!ad*r8Uhfm$7JurKYsYo@gq*IaU7
zbi+nLcFtLKr$(ypm#X?@$H1n80&6>vsJd&zf_G^m3bJ#J*s&!an4ju91G1xS%Y{#s
zZD95IO{xrAgi)E?Ln{MY9cbgVa1qWEK%F@^FwQ7wV4B1N{j5?SzCt$tVIUJ(>5^ia
zP5-|`mN?+UB`V;7BGwgHtx3DOBy$(5*1O=Vrpe}?;T!Y{bcR6VBE<iVB)NSgs&H-@
zo54qMMe{3wPT@pPfvAezC8qkKX5zWP<yVCK@|16`PP;z~PHsy4Ur2!&L8Om0pADx{
zGc})_B>M-VF9OeONSJ*qm<Bd^HVB^DP|P$mKiN~57AkunZUX#S>MoL^zzw)Ld-a{p
z^~S+<+t5QVw&N<Z?#66&15lW-*X(eDVQ{s6g<l>0@@(1}l+3CYKzs-3-^H;I5eH(T
zB5d$UPc%0##@Vi>I$hZ&=Z^r$!g4)LYbniNh7x~+%6!iLIR}&I5Lo(vB`9kl2lZij
zRsq{Hc~*fp7WhqhKelGTn||J2FgBKaY;J^|M(#G$bhjOP$g*{Aq9~11uWyoOGka!o
ze1TY>^y;B2_7w*<fh?~hzlq!qwT=hKx3NIUXw9n?^NK_4Tid=`pnfc<hdEiRm!sEI
ztSqpGGXp!V#3kIb>$~2-&>TmSGAC(fvZo+@vmS<h^D^mqM?o#kdP}~{ebop%LVqr;
zO^*StJExQyeOYG~zL<$*9o)b)c+CDg%)%2mo&mehCwF=YcNoVOfQN8~H@t!{(T*B&
zc^>EjVpKky5~y4U(M@pVKc;}6z)4V)zV}+mmXCruEse3=ZcS&IoWBm5LkdKV{^Zy1
z(u6ZKyV{X8)^AtqYSnjL9od>bY4E6AbM(Dka?OO~p2&JTpj2Z7>Ir^yH<E7dg!3ii
zvz&po@spr!%di!_joqNzIS%We8{Ra)cF$|(ZgRh6x^56xk%+AhIIm<J+6hBu{)YHd
z1S<7cVDQGYzS<VF+R2(~Oy_AF2d@fq!i@#-@Y2qY*!WzE1!{FG%KFLQ5a$9zoL=Xj
zpS<v3T6V+kS?buAaqs`bPyIbB@n>u54NJ{h&#GOnAw__!=Eeg*tqMdFOx>N^6oGD!
zsEN|_B&N*2CWs;o(Zn33S?akomrEH?3ks;V=>d#kK;sI=13|C&G3vBWP}WsXWUVqK
zj4V$RgeAEMa;%u3=u!{%<!Q1=%a6E=9Gddt9&&yN2P$#Kx)jqwR;=PFnhOcV_e2da
z4KPKbut$$4uClQd{~t0fQehv}I3WLrj+sb$sSu4)6P&-t5P7(|R+YKAb?y<ob-U%d
z-M6N){=SU=pzJ>=nVUAuCd-a{)6mFScKqoH_FBLA5~(_NU|GP*G4#%kbzAqJcaCP=
zO;XDUc+)PYY;WJPa?aX2Q}0~7w`cX-x?|*FXU~>~5di6RZgLu&ovfrh!F!!+pHBB3
zmV!s5Bj+Xe^8oT<^?@-L*jyAdxZb{N-8S;j3+oaenU?e%&9)9_YkaUQ(U>flmY~RU
z>pS+WJN7>G2DSyn5uS?C-<^2iPmi7kcPu$4Z=HDP^xvIMJ3Az^Iw?UWaw{y2eD3jR
zzRg-JUWIm7bP((+4tW2Xfj9Byt043+w5MZXWO-$S{Q!<;@D64#z^np@@udgq5f|^q
zf!PWuNj!kD^NtxSv(NIr?g=^hN*vW?HU%uLnXiIMrGl>(Jc5^5vDXNdvmI()g|1Lt
zKAaRTES<f4ys%Ave66a~(OOW4TGaCO<?}#&%hn0@6AegL$2SV~+rfOK^3A*t`84oN
zu(Q~vtdE#aGxBL<d5jeHp6Z_+eKHJ7cni`rYva;_Hu>@Gr?Urq4~~VGZ8_hzO?W_P
zRk4C^-v)x=j8<CNyoFXaCT_k1=NH;=u)HkPcKxK`q?zwTD*`xx-j1HLmd``Q0Ky>T
z)}bCXLi@XsatE^q?8K7WtF&q4_0+tGvqHN4@o6kAIO_vj<cm;+Szl$FemF>>y<bz`
zj;k<@QoXjt1?GXO)Bfr!TD+UZYcb;Apel+X%D9B7BDEi8r^;R)ga>Sbp}bm0XH7)I
zO=DisSGdQkD=wC72bp@{@KWHpx!6thL?s<fgLQclpNT+j!9j(cFx1A`SK2^j8>P&o
zCYE3o7MaeKDhT0KRVLJsGJ&1ry*5wBn#oLhY4=mQktq&J68$RC_cmmGi+kj%$+%i&
zSL@yD>#m+`P0RN^IGA)G?a7;_5DO1U>q~ekE_T3HT_aU)9a*u5xFi>TRO8K`;;Y2w
z(pqYBiOx2&ltoTC8x&aJ8OoUmfaixPLRqUzQwpY8d9FGIb1j`?h3-i!7isN!;RQS@
z2s3Zd6@yS4*6A=XRH)be`FA<}79gAQ5V~(0$QC_5|HhWTxv2KmT<vY&&=j1geNJjf
zw(DuZ-<B=AC^vg9x7_U#$StP{ge29a=a+x;&ipBj+1`A(?nAkxmnnI!8j_@;V9)G;
z?#sXPXFPbrJ-6QL2C_yfSBHwH)?p~0x9<B#)S=9hIZI4;$%Ed@Nk*{c^-P^o+=U{6
zxP=7bWjGg=I(FuePB<4HI)v5KFA>Zylk-V(E|bI9K{oR|`axIqOgn^o($=d?BLiqu
z^^yf!jM|wK+B4$WITKvC0JGr)9gfG@#oAl~Qh4jYKJhLU{1zOXo2TRR+IB*oKUJ(6
z0U%yc+(+QVEGjn8r${m>GBZw<b#>{stfZWMnIKu)aJ394j?rfeCG_ei_MwuPnE{*r
z43%zGkI0Chq7QRye(tImCU09j@``|iybDRv(Bv;D$Q`lKG=r>vsB1)0*r{>>9Wc>O
ziZc7^uOgZ$2|;A>s9Iaq#<}-tgjF|mejB+bUV!rx=#}ghx|wsfV=&V(E_aM)Iws_f
zi4|+Mp(E2UEH@0VxMA}Q!)DjRmi<|GHEB{>cRZ|VTeYrv(lujS4vQaV(Cc;|)Gkf!
ztMyWF;ypg?dv?Y1{jMX~wysRuZn<rDrtOH_b|g!x*<sl~obex!{Rgt`J(>1{a{Iw-
z_b3=(mZ{WxBwcfKtHRdJa_!iv<l6RU8+V`*nfhM2zE^|Vm#*0leNG#LYKHR8QIWB?
z$aYv>cRzGjeevw=vv<2QO(SyCh~(S-2YbFf{;lzK_bD7e-LP>E{}yS1ic)nHq#BZ&
zhH!G>cNc$e>9?2G-N%bldAN$IjJr)H1DGSS`v}gHI4ZtpA5c|>q^vBGe~Et6TC@2t
z;cUNb7o0{T`$&vX>BAcfV6Z=O%ak(RGTh`+#?Mp~EcB$a%gNKw8JG}DIzaZ|+@%Q{
zNwogqDb(m;717FsPQyA?u*qjs51=1L0>}_Y@M5RJmI4>AfkhxQ{y^dyGv>M?1QzE+
z0jf#5VP**O?avbQA#%>cQ9Q>I2|*-=iAkBdaSQcXzQAJR7NrgLPa-7!$Q-V@pmT4;
zO{vs?ZJaJ0c`ELIcm{t$QzD5fKz_7xjjeAky|J`9biXs*Fb3pr@E3hQay3Y<w$-yz
z=e}%B1N*{k=*!mafDsh78EbK(iHx9dbgEHuA!>-C>e};B5Hh`f$$up6IV#zYsz^f=
ziFLqG5ywZU!&nsR`!~t#6@!b#24AI5IpdI0J0sjVqYLNi#UZ()>KIo>c0P`5_3hhS
zor*QFKCSQBH5sJR${Erv?SJY(sKfST(*I6F(2l}yagW_xB_?rWwzK!^&%XU^rgKW}
zoGRVFZPX|utn1V)wRR<P`dI3pYW!IDdEl~{N1-LpClE&_S}+79SoY-SOF0fNe~Lz*
zG0@wZQWiRAOJ|hJa(_6*Gn><^>gC{MYEHvi5T*;{`5>I8#o*hKM`b~v<}G)sIF-{-
z>UAu)3!1kGSaxXnm*W{pH(B!hgY$PfNMIp3tK<Pf<NQ*}tn;}z$LyH(mjL0D;CM&M
zJd@MPE>|Q;EMU)UK=Ty5aOSxJN(*P6Yg_iPaRSV;H|5!;HeS?4!-VC^l(T$YSWR+z
z>*cDa)TA<1g_<}DYEqr5zQFC^k~z-16PmVVcQU7+2BkKXo9NJ(gZ9J4xi99@*)NzF
zzy%h<wX$&ASH1ekr`(@4^7du-r`^{L*SQ;}m$~bPpnK`4lb8s4avL%UU5nV02wcW7
z+i+q5lAw00(B(jE{%Ul3D3?sN<K2CN-DndKg#=xyL?@6nyVv5G86d$C3kAU}S?Ex7
z?~-vKu=MfZP~apqo1#E>`!MOa$ZVFx&}r;4L(ImSqUI6_T!nI!PBSk~(`{oz<&z#-
z@(;kcSd6|Vz|i;!d)h-kH4X))m>&HHv><}@H1W}RunH&EsG24F^NN)hUW?+SGUEa*
zjN4S)?1~nxheSWfm|{%ME4Bn~R1?5O1}Mb*T2#2MxL;VrC17#w+_V)sX{=}>V;)V@
zkz}w&-6F<?f;jU`wPpR6U>p95LoEl@Q}_OvUYD6W>ej*HUP|a?aCDoOy5~@OuLz<G
z?-ilX=IKRI1dCllNyF5|ia}87)p68Wb+z8OAFf`fxvEXI7N1c3@G-T#X7?P9%z*6;
zYw=2R`DEdlSR|=b=gPuOM$|tjr?$|<K~J0@n#7Q|*im&4J~|_=?`jkw@kdyrwoCfA
z=-&k08OHX}_nkLn#xBYDZy#N8O0~hY{pHP$TXso%PRlK)CA%+M70gual&f}vy>4pF
zG!4p4gPEq?a?|ci(^0wU=!*BxTl%qEnQ;eYcQE4~klh1oFQ(n2P#yc7f9<Tg-E*h?
z3w^Lya5O!(a=zX*bEfy0+<Pq3J0bT@y!T?d_iVcHT&D4o+;|E05b4H`;Sjgc<EYE_
z9nbWgmita;E1}XJl6D?@Z$C2ahb48-Ml08`JJY^jZr`7+XpnsUYtP?zNbYgOcffeN
z6?*TE9<rv+R`g1JM<w^MY-JS|WEP42a~NP8eL?PhL9%ycyANi%kICJ~vhI4RanJpm
z$fE~&>;PZY+Mn_7lKs2xk3V?zy`VI5HtjzLv+Rd$onO28)=ic->@5zdc?XcF1$kF?
zBJoeQ_Jbw(A?I||J*;kp8Dv#kwrwoac1UhJB()yi;0#9^vJLHbVyhie*BBTxgzT@)
z)^<rX-K$sDd}}VSWTQdUq3;O93&b8Z3}uIoN`uGVtKRV1s!kd<O%5DIujXp&HfkId
zb^m9>gu;HBATjyh8){EFxj%L~PMJ-ATr+U;i0O}ySm4L)DRlipF~>pL4q7`l$-I<y
z^2$;0TgGQN9JDa-23iicwSO*~7M4;P?_Ok7Ua$*Xj{DHlh@Ger$s#3Bo}*zq)3ohV
z@?cFwi|C;vE|42?+8pdg=XEi;6%p%@sc>JHRF1^NE(Nw_AGLil5&MH=@x<8AVfa-O
z0-}@Z2~8%B<9burkdQ<22=o!JQ~VSKP%%nF@#2%aC{L-*uTMHH!Il*>qSC(;G>R%&
zQOQXitx9BTP*nG&Jx^tK%O&$;{1PO|gNy*daR)&__68*HfMg$l3wh)2oZK)7$)lq?
z({WVpILau3Uv~TNrZAs&U~05sPGW}D58hk+X6oJ4y6a%Jy(`mxKyE)E9lVfkzbN6z
zvcFxGvZaGlY5#L8Q`wq!oQ?Q?bu(sAP3^;4Xij&gYj;UCBhtu;4P1~w)4)VGGC+P|
zVu^kriy?XuXPv|IM`#Ff)+#RJXc2U6;u(CiTX>d@1*aN~d25q$y3`zwRslzImWRk*
zd-67dg}eN`Id5Z_hag_45c`m089rN^humxqm-Vs=&s9VH4{4Z5z0V_F6@B|AajPO$
z&1qb}g5BNRb%ffDZ9{?6IM$@@`-&q#N*rZpJFa;wW(a(pGGtjZY`;K|+KIx8gv!su
zDVDx!OHfgjfJgs<n8;G?Bt-liYQPZD-EikMDArepzUzW*9F`p%zyTIL^!lWxfqTL?
zWADb+y$7-l&6$Qha>E{J@0oN1jPfSGUmpNI)wMrt?~=OrrQ7#Qf$;|&K&QIHz@~<3
zU=usP^CY6vQHh}J4X*X4y?Z75-X|>w(0Y}c5|g|gHO(7Y5nuMi;fHG4hA7rXE{!~`
zyPiyQlsb##G8jNm#XIB=v36kE9@2L(k-aP(=jpC0b`}-%-+0S-6}lK;X-)z~V(rOe
zH82r&Rhq>I?xW_!7vbm#!*nQwHN^;1sWOiFtK)Kp*4u4m4V9)iL2V}s4z#^~{0^U~
zAD8JroiVMSSaD@t^^&VKTT{0(nLGco)|}2C3{e~m;h?xpC=S?EvD<qRQ0bP@hk`q0
z%c?e$%HKjJp)$Y+(`QUPw``s}mNMTu!p;QiomTMXP3UR;{;={rOm;x9v?)iG%E|vk
z<Dgp6WkfUTK&f-PGx@^HuC=7X!Hy4X>&+_UG7e>8Y|T>;Kq{h%aDJ?yANx3sGg)$r
zpCso~<S-PliXr$lhF>-QqYhT}I3eWB<P>oXK>9@*<?<r5QK~fcKO1=x9unf)2rs-)
zL*3P5*CXW4*ldeIut%XgA0`QLei0dg!c=nZfaL1WwghgU%T_c=6&=~Yo>g-uut%o<
zM;=(=NNzs>GA%phmYvy3U$(M6+uE}>`ppCH9?0~ck@3Iv4Ai&&U7MWQ?^!tqEt}5|
ztZQt^H1^Al{h7vHa^tRSeH;C6--Anva2bzp1V>lcbw<!E`SlwjSObgJG#XFFyU`xO
zcGRZq49(raq0=IxDkFMGZe4`7k_6`@E+baC6xOxq8t@p5zYuwhQO>M)+fFUcjH;d>
zWkHUOAd-~v(($GHgK2M0x2V{zt5*+~Z|pd0Y{4>JV7`yz_~i&vndXw=rQ(j^a^tX8
znogDkv`w*64EAy;H!xOetFKb42cAZX3-gRpn@Kf<t&6IT)zNfSFC-~%ol1^Z$I{+@
z$==V_5m3shU{{H8GIq1rU1e8ps%KC1TOjJ`I&eDD&hGKW1k^4@cd?6Q;sP$&<qM8;
zkxjBlth;)5$e)q#5;=?}?;_tGa`KD)G<}*V8DnVK+Rv2YwBj==t{CU$6ze%w0r6uL
zO12wpii?Bf`*m^%QAFxQT;+*7(x?Z;-=GNET4097N7cS{Q4Bf1fL~$^{YLkbxH*5j
zWcK~g%GK@8`Z`ymQsd6Y7E`O0tfHKpwQ9p?wj5g9O*f7ly05+-?0&EITjM{ZkWG^g
zf}D;UCJaC1dT=sqX@g!50FKvp%s-;n#tViz%P~W?v30{lo=1-6yS(h^*tF2s#*hO>
z+4Wsg?|!*{|Aqx$5Y8G}-i*BwTfMl}_055I2js3XxqfWJMsYCg_I|PDcFSGMUEyo7
zw_<B2q}E}%ai{Fqx#=K)`e93Fws-KG?swfACiovYJOsaKfq&zQp~~WURN1p(!5igl
zpO=jQx;>V$M|FV4`@^9LAYicUSUvgmGjE^y`g3nTN9W=o>zXZl=`<c*(&!nGDx8(8
z<qjS-WCwRWb~Rf3k7^p<JopCgTZ11()cV+$jlOV4%*g!-xpm)$gFc;HqyNp+8>v-Z
zZs^;fwCMU8-$n)bU>wG}MFQ<}^ly48Y}8D>jjlu@+~-D}oolgKcC>8TSeV;r8CX5D
zcIp1^2bOQUzvY&8PsoEO<<3*EPqPesXZLp!|8d`s$*XQp5GDm@*-;h6i@yLsmyXi~
z)<cmi(+nR~i+|c>!ba##`l|x$W^45pT3Q%Ivda~n<Pdkn=7wTt_g)Xp&51D-fK$9;
zWG;cV1G6-tUR%Zt5Q*(l4G=5IcMp!zSO`0$3VVymD9lkv7%jLx&{qV=ly-@s82yC-
zv6eFO7sYD=8>!FK-0CPd(upgbMS$83hs^dz1r3uqs(Jw%sSQ-)lOb*InW%-*Mdm0&
ztO~h%x`$Mw)gjz|6@886re25D{vojH#aZkYE%nB%o(}<LSC46bdVpPcqy)-A7j;Z4
z)z+(m<*pnSN!PB_m4ptd=MVxES6>>Za&lrjBH5vjCsVVHIdKO8bdp0>6zq_Q(o~vR
zerUuVf&vr9i9vGu$mxfp_{t=jiK4%*iUSm1!QvCzpSxg$RcT~lY_x~8Yc3P)Zv}`$
zl<zR5Gf(5sR4_wW9Ihg!bq0T)Afb|IVvNO6g0d#qpR-`ZU$Ln8Lkpv7J3w3oT`oyi
z+>84un3i7kv_D%5&eJDbM<&Vl5;-&E#F>K`qM9nK(I;`h>WSCyk?-%w*(8T2=L$Jw
z@1RuYj1{#0gVf3v2jU^s$vp+1Vm}BBz$NyF#m^%d{&NX0Rt?B;1_R7h4ek%PF_|0t
zfO{sxJ@c2G`+ctN$3~062-eDA{E?e8?EQdyPUfC_pBw#vJN^N8?ytCx_ql@~aF^ca
zPQA}fyw454&m9I#KGl!iRwU)f@o<Ji?{kA6aEJejYyW^dD|2Vx=ej=NretpF$40Zk
z_?UyU<#8IGG2D%9arEA5avF{sRtM<oxM8D-Yu_i0Uy=itB(D0-WSYCQWpx<(?_AsB
z@Y-s$8my9k@ctz#(7IK9z~H>|=`9Ygt&|~P@UK>rhI5O9ck2}NgN6~PNw+xiJU(UQ
zJau<IAq5YwR~)(J+_D-B4k<A9z$ph#;PkV>v1K1LIHmS|51Qomi7gHv8<){<-BMsL
zl#O^FIFFUV&<!SdWbY3hZbM(ziCZY~epKDN)+ATsstbI8_`7@8I%U_;2EovZ?B8^e
zubb=c%U0L^(6!UBBkRSQiua@H&efz`-M?YM2a-0n+~wc+XB!Usa&i@w8w8Bi!dfRa
z^vagr%?kR4A-}O#GSp@aJ+h%EYi`Rr+HkWSEGdk}E$7Q7!@%m5uSegGO1n<H7uw_~
OVAF-T$1IK^%>M^c=(DW=

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/telechat2.cpython-312.pyc b/model_executor/models/__pycache__/telechat2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4dc7d4a07a80960e8e9e0d72b5f5d82b79a683a3
GIT binary patch
literal 5791
zcmb6dTW}NC^{%ultzMRF%kKxav1yEL88E>RNE?bF!C+uo+A<<!E3|7{^6HVhD}psr
zLucsJnbN74Nylc&1kbb|&cL+(EB$Kvm$W}tG4XQ8nPw)<NB%@@CYgTq+`C%&F{Y(g
zqr2xm&bjBFd+vGMzxjM_1V!b45mOow`hqsBB9wu(y8z508OfZA5?q+$C~Q-0VH^9}
z6MUFweRfqyIKmDF^Qto;hD8Posw?3RyAz(U2igwVsd^K>u#dr_T9xpJ{fR(0kf;t<
zCu+hq9I~O;k?gvOWVhnEZ#Ve}*Roy@^m-L{r8hWj>-Bv_r}T0}JgqA@a#dB%LBst+
zRZW~oCC6hE(5jP_@kmD1rFWFr#H22%sfeuLUK<IVRU?VWsT4jD$!HPv>=<#gp0Sjy
zs9$j=;cC`3qC}w+pN&idCQqu5XY|yM7&+}MBS)$(To{XKS}ZxiCJ|qGcr21mE0{FI
zG%1~y66O>s9l?==0xU<(Et+*j?vv2|IY?eXVNOOMZBDk`<z%~JmwAOB=V#D3Ckr>L
z!h-Bj9Ewxn6)|43nUo2S+nNBNf7z+H6`n%lye!`2!=4#*oeO)vk9u9C>Y}15Cnh8M
z0k(BQ1?os+WjuDBc&>pgr6?07t_J)l6$~vl_*0JQDXrO{^=obx<+wOBx0g7byRGEy
zbXPL$NEYt$FODZwXvvQM1FNh{R1!J6#9Pd;mL+$jd#(QWgdF;18-o4hY!Afy<uy5!
zL-Bw$XX879uDpv-p4V%wz8tRyE!e`w+^wLDa(ukr8rk^9;SO#uTey62ET2V(t<`F^
zHoo!p4cLOVt@WZ<m9=jDlt<H`OXr9)DXH|D5Jys)R3b9*kB<WslVv3-X|b$AYS_4x
zOyPv2q_vouO42)(%p|O7Y=TB=X;(zom82d^nbb5=9ZSN!NhoqGqAMmrFHUF`a)bwp
znTsFVFuf2=WqSj}o1mAvtjEMPIc|YIppRo$Ge9d5NfURO(MVJ${MA@QBVs~LOAHdU
z486*tB*l_3U6P2S%%?jB_g>Q@$*6)ouqbh9iaJg?PZII%scTXir{ct?O~p(~Qbd-C
z9q1D81l>d?&1UpEfOkOLU>xtF)C5zWE=h{25lxdM%>msVwA}djnL#~~9!$s519}8c
zDEh$l%<z%JQ^U%j8oN4}p4KN*$w7LD2Tchm*Oe$3FKjloK^?AslwSQ%dK&it-E6~F
zYY?)wyB7wvM^Jrp0~x_xE5ZI^uzw|Zs2Dsn<0?5&SD&%F&*(g0wC;QA5{|iNJS$>H
zQS4X|_ZG#y%i`gZ7ajS|_THBPv$=i7b*su~>zr{di_QNOeeXGoV&nYfhxJQh<Ffc#
zNksL{vzOn$Jacljwrx)N-CK`q4;uRp7KB;<ZU0K(rDEWv<-mY(<khV`hm6nx=yBb4
ztpxTI1ACSOea7(7%{`9;2cLRSedii%3lXR3AvEH^ik`vAXvNgPs0;qg)U87eP7#dP
zge`B=EptdsL&eBYa%Q=2earLmcD-V5tg$=~xb#f7mAJUA1Dbg-OgqkH?tJU~oREbb
z<iSjipaOU0Hwe8++s?cw+jGuq2!Aqx@-Fzh^~y!g3HQsKf>9fR*`Ayy=g0!jGEeKg
zH|L7`x2{85IWgyjpCb$K&uDl6wdsB=dSE==&&6bTIj_u{Yf&oAXan=sDIV$6`>?W;
ztIN4$;eo?4wRzY7nC;#&+nsa9>n!RUU)d>FOn=^~H&`P%XAW5_fl>c`4x~w4Yu=ah
z?PSRFRW_8X%K3mtmleLyP>1!o<w{7yq2wQB4?CHo&*8}PLL7bl!W@aRcY~wk^_&e(
z{S@d4XmZ}459F(J0pN#&U3z!s2*&-EEdGm(`d*x)T=fP=AdwK9{LYfM6}VgK23@_S
zay~xUr&nB<MXhoQl`{p6<m1%DZYw$GhUUQ<AMh{_0;Q^Ry>{FWbBT+YZEDpqH4#>~
zvuwyQy|>xgiW3M;Dbv!mh?-HpqSH+rj@ac`g19PUxR;XVrU-Y92ybT;JWaT_iEnGv
z8X&wJ1K$)#Li{Li#E}}YYl==B<v@)pGx2P8x&n?QClunK;b>AO0=R(aB(X;$I&oqp
ztwz9iQ6qrAO;MfTNvLDQ)K(EY_^aL;JV1vJ(2ja=cF`$oeT{m~G(^6{!{S;^Vl4Vt
zpk3xsBYr)lM^uS<c?b)@vC`-OrX~naH$$xX=7xzlRSwvRc+G;i7!hD;tP_E)WHRe!
zu*8UX%Hm=TQJailS&GRT4F#CP+*09vbTeMcXL$uJ+p^93Z5{-3h_pdC!W-ywZ@=N)
zTN3PD?j^B(T|^Bna|c&i_7z+9J!(1dsD5b1v)a}3+nyPp(cFHo?@r%JbAPe9f5var
zHq0KqeRQREZ?SgoLaJE%>WsL$dvDRZYi6V{VEDTi_@ckxXlW~mtXgeqpL_SyroqB-
zqqS{bymNM8f3dZ{aMB32&Yr)0etvAR=V8xBFBM-IT{<xO*W*hE#){qNmV@WZ<3?l8
zys|J^+;iw*-AC0QUHVIF@yOUx<ArB-TU~w0iJJGVdr@oWy(4#y%wJmEzufY2L0oO=
z*wQu{T4r;%bMt2wn;$hCEAXqp_`${Ca_u2l#Aw_-KT>S$EeJ+O&q~Kov16#<dlCRI
zJ%4FITMi6W;KzX>qq=c!<n}I$;Oh(FM-7KxoZywk6ORLjzc_Nf7<{=fI`3JyWHfXw
zbQc>!Mq`K3vg_WlJI5A0i{VEtuN6jC8$t{E;>G2LSLk5tw?M9~10c8V-j(j*V)t-i
z>`Ab5zGtEBp|~78{v_B`szt9{;MVI=<6s%_$!5gW?mnZjZSLLWeJ9uKwx0UJ*i#3p
z>!K8vgTscmX~o-C^tR2(pL%zfE_0~6uk<E|0&PoTE8Y)^)9a&=Bh^cY9Nm%x;aEnc
zuve1a&O}sm1k=m}?lN4x9)K{7DB!YY(yD^NE+gW&s3f%%#>eSsnD+R}abZ+ZRY~gQ
z@F4VR)QP{w6dY4;%_?eOv=dN$a}ycIPy7ot3diQNCHi?d^o)K=2Zx2W`8O7RusHNk
z__Oy<-ld_D;=svb_o)(sk&lNy);>A>H3iw87}Y2ctP~n0(X#ddR2vDb4MFM(5mOA3
zSeo$BrvO>JD?D&nz9Y;-$}f!DWRK#2G~X%v6j5=-D@hci$|{z`I^?RGLf9kw6|drh
z1h{Iaq-In48&CoY^U;w0Rzvz*JzdjVOM;clzUdVp>(#+lYU7ZeC^(dLu(&yt6+>pU
zAIf?{8<ss=6;cvc!4m4JDL5E9EyaR)Kn&3gC)6us?V-s~Hc-Jb)0t4VI`mEo%oD?x
z!F&R?GXz<Zrch)xDUFBVm7*qvV-rALN-FOFWtNn0>C-Y-sk+d#bR%;hZpN*oPp6eA
z)hVk`m@3s8^^db?Q}{|VUCufVaCf$I7!qK33ovzuH|>8Vslwwhs8Mp%rkbYIV`fH7
zV%d(Jgd5s4;}#`AgSs0Cj8LF`q3_}Nvj60gc+ylZ>T2*1R9oWk$_8d&WXlF<1Wx_y
zwi2fp+X@D4oZyo1xbnbeZ8>kt+2YP^6QK!D0BEO3{DIxV1Yz;#vLd{bP?r{h*Ap|>
zGfzv==yM8nk??jTU>c|6??Odt^_U`UQvvfzS3`aZC(fQ;%82$&?$^OQE7s^aTC!(|
z+0GqhzS)Pp4>%e%9yicxb(i4{7=43(IQrqymA=ux_l?et-Z{2(;o`bruW`>fAnyv)
zulT!){;v7q#e*wDr;9_Um;7Ci{G&_aC_AKc5EonqYWPiBU7;0yL%|7JQDeXi8h#5P
z!c%1=wq%kx#+dQL^qq^DI4n_!8aVu8T2-vuhse|g>Z#dd8LNH*E$vrO-9%3sdp`Fz
z&%IHy+gjbgaIoFz7%)2b8x5UCefv|7qt(6c@-#V?__|UDYG^X{3_o=_gj3w-b-PLe
z1t0;f4wjq@6j5E%T+O|vJ59IGud!*RfFPXVo?{Z}kZBXw5rs`&sX^?mBmQVgh1{Ax
zU1*`m)u_2qX2eAneT9-qoQApP8(XLxx>0Q<1N7)a>>f#0#$IlkXCErZIT<~sYG#zy
z@mw4&q|%p8>;Tf3YB)S8unu}aL@;SEy`--f<^i%;ka-Te9gJy3-I#gN#bdx5xUX+x
znyFD=qm4jSvU42wEQGk8FOc^$RQDz7`V5`_2Ri*F>i*g$aJDrB)q3E29M@I|uOs?h
TkK0<fGu%>3-!nu3w#t71x!-wB

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/teleflm.cpython-312.pyc b/model_executor/models/__pycache__/teleflm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..477aac4fb38f544263570d361936f191a9284b34
GIT binary patch
literal 2894
zcmb_eO>7fK6rNqL|JRNQ4zYuqADYlO0jClv0hCs$NI{g4v?^*PSL({~uEQqlpU$pP
zevFg@YE4_zazGRniEx65N=QAWr}kK>7u-_WT7gul>Y+D7f<Qg>y;<7{!MSy`dhgB5
zn>RD>=bQc2=kpL~n((DMEE4h;cIwSu6V?kLTq81(IgP|E&ZYS{&!Nm~wzLozm~7MR
zX-C|_WI=PLU2zwa?V3C7iF?xCxHm1vMUL>~B#|8#iR@IwyEbc|xQ~sxVAQR68>9XO
zF6#LQRVJgH>G@F8(#NxzlsW@FaYiwuTuz#y*?bQAEfd)p)zIIg*`%WDSsJyOyC$?m
zIx(&!v$8@b5(^4718nF-mL5;!^@KKY#`Lg}GoYd+t;1N<RqL#O2Eymy1BJvnnZ$XS
zQ*1JSgO_cJAPb6Jwkr<BIUCrz*pkD*QjQ`?ad2OM+zmJO%<g$vPj)pQPYJU7q7WC0
zWS)!rJ|Iz#DV|j{<;27pc3zW2dDD@jN=ltKJsMt6G8S@*={*mgl9J3-6hcd=4@i=$
zZH-RH03%=j0mxPE8Zm%d?UGO+mtnrZ75IYfd#)Z1j<`vI%nEhAO+M?`l<QJ~NVVXC
zCDKfTMs~1PcYWOyaIn_ccY!Rx#V4aS>W7)l`$g@hUC-wr$}UM#GpZp;ro(cA>CEej
zl+Nc&kDAHl4G=X0^aWkfQrpa!Zb?dN30;>Y9lg{IZTa6*Lq<9`lv8sDjRb|%J2;;o
zIeKJnL>bc5>7m?$aW0z~Lbng4F_k1`UP<PSEVa7&kO6T^Y3W#Qf$jpMi)~v28LOYS
zAExw4AkUY{hM&0omz*V6XyxOzJ-@tr-xYe``l!mg++wwrgd*3Lt}K<?2TJV&Md2&4
z;%)hQ^o!9-=f0bB*XPQe!==vQ;`rsMs*Q-Db+AZGw{>+@)=dXhj6BUGd7P*<j26p?
zPe8baF{|fGT?2T5yIUK*z=Out^))Tp0$I~EOBTVKu!@I7<{)~esHCSASu(P7N=B!<
zVLc53fw;DzjMZbhnU1VxW^_Cogo3u?c#E~Raihh^3;x_T`z9>W4+2>xm0+kG>?;NP
zR@C2vuNU2QzlC~M#&1vEnkt136;D-KLf~y0f)!CeW>Y4SRv?=^k_6GsYbcA7^l3h!
zSu+$1fZ_>Fn{H53U}eZ>GNuD66&A3dn|4Tu<T=xE7A~Bnv=jAxwQNf&nkGrB97TZ8
z(aB@%suV$*k=JnIeIU;-lB$Qahb#L>o_KfL->5psp6;p>B^TKhth!P1khbu*tvAEh
z!&j!BGOYo@9=_9dFR~h`5)jw=emd~ufoCYPo3cHUV7}2X`?0OZfV>ES0Dv3-pbY>}
zNC^z$>;Q3g22~D-u)}PvMPv)uQZE>aa#qPUinoDFm`%7R%fc0K!Opk@s8q{6?*GN4
ztA-m+z}np!pJmTvty5!kxp|JyBHC_ifL#rI++h{^Vp{{vCbkyAgJ92DR|c&nYcJRg
z1R2&qqqQz?@*U2B^|!4RY<2vHeKCHlAqHD0%x}VHRHXO{vRtRQsa4bn+@`4N5`d~9
z(L`p>3;+~MdNKi(lu9I_Dok%SZ`6UAViK6U^O;;imH{EoXOoF(NmmyY)3ZemXzaz8
za*Ze7ZXrh_vrI2jv39Zw3rz!xbT3=Q#jtqq%bD6h<aa<{zX1dg`Jv0#z+;BSV}G{q
zZ3@FTCcc|2M@D{&j8uC2Z=b$(y4*Wf>K!YNKM;E=U9a9;y1rEII$Y{HycR4Uoh-rE
zHHnjvN=Ik8W1!SAP(1yx_fRDeEC>2af&M$a_Xbx7%L8Mjfw7+l*KK^Czc~Jf*i&_r
zSB?}%Eu?bNE;uLcM$&@>>xk|{g4d+@xX>t&t>`j{gGk140uc$&rSkUiC&Xj-uPj!P
ztsQ!X>@gAxDsVxxh3*Gtx)`X%G8x*7UH0!0tNnX0L=51w7?V{1Ms+%GC^BUkG028r
zd@W<_Cq|ELkF1pu-OW}o1F!;r^(+|1;-L5sVL>OJb(L7>W^adU)B^Fh=rNc=q}7iC
zsoFS>TOTHz?-6PHo9uf;qL0YQXS~4ij|q?se+L)-=GX=SwsFkM`R|9LPYG~l`aiur
BbIt$&

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/terratorch.cpython-312.pyc b/model_executor/models/__pycache__/terratorch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..70bb7f4bb155db528f5ce569321d6270109b881f
GIT binary patch
literal 14318
zcmch8dvIG<df&MKF5Vyj0(^rc_$DM0q(nU^nWQC)vP4;;tcSf_I9@D-dr5)DgT5EE
zOfI<5Y?Ovdok~up6*udh<#x8S^jOm{lWnVQ(^;o~bheX!aF=p`xs@i&#F<VyoeZ?3
zN1OhU>Gz#;F96b%H~UY|5a*u9ci!Lmo$ve3;a|91b^<PG`WK16KS;>mU_^H|EwKHE
z20|VXfkcSF35Fz>GDHj<hK)&M$`moB_z0geN6aZp#6r_eNo&d$vC%M}v`6ef%O@Qv
zXT(X<%t=?OCQ_4fN8Bk-#FO$yyfodCtWEhMJ{q<r{i(W09Sz%(^{IwP0}b1gjj5(c
z6Ae3(&8e11ODYfv(6}?%nre%*(XcDoo(e{SG+dMHNOeX!Y1p0YN_9uNY1otON%cm0
zQ+<)XRDYyD6^evX2O<Yj2O|el1CfE$U}TWed6VJPP-G}I92rg>iX2KEjvS`xwaJmx
zk;swM(a6!%vB)u+=1U$=jYdXk*q=O+IvF_$;X0u{`BG{uGL{;TjHf0d6Ev+M`Eu%1
z<P=8?L~IgIf5NdDkGvu@if3jFLem{nWD>(dvuF~{;#tu?_kq4VmG6w92_mx`r3kT@
z=9`2TsN<Z0oFhWu4iQ?#qn{YHR?gGZHb`w3N5%74M>%hb<^>_ILp)qgy+BhtA+<|9
zQcishdVfmj)_V`J&bie}@AQ!Pns{EEdf20vqjmK{U45c+?vHe;%2yl{CqCg>{1Yu%
z|3;=4`B48-=hvjz{JbayV^U@zEd;-LU6iC)HY3GvelwWL2x3zHJ1iOERL5mW5G7HV
zOvJMxlWIK^OD1DClA>yz%8C*VSuR0kiS(>$y(Yf9Ag1FYlrx@AFHS>&+R24fYH>1_
zjhz$IPyiZH-Balqs1pdUE~Ft56XqAPlj2MwoyaCKY1Ks&t}o7uXVVKQsLuIHEE~W1
zsu;^INLao7&15olCX=2?%tFlbN=z1MLzm~VybNg$tSg$#%+88Z$e`9tCggdn<Mm7?
z2~9dEIg0>wogmJ{7LwWMEio~B6U)V5*pT5py^zg(jV8($^+eyLH!fbEx^#K+^u_4a
zv*)I+UBCKupbcDt8WNW>LM-{Zl!=S7oRKc4lZ$6!@tb1Es@kSfu~`x3Eu}gsRU%7g
zMy;(B#F@gmR_iKhuO`H#zy_;&D#>(?<Z8m#ZpEZo85@wR>wM#lsYzO==k;VPF5b)}
zVQg1p=~<C35VUqSbwd;cSVLCUTirXB<g2ucU1W*=-HETqBpD{ns5anwRPxG`q1IxC
z7RA=mGa1zh@zi|wjd>xK#igw;FD4t{D+>wiFXZ^9(!g^mQAhygbukUoEB_tteQ44>
zC7;e_#WXJetCA?HRedXu4rb-r!u)(j%F31ALB)Q3_2+>(pkL7}aGqK-FNs+xmPm_2
zG(IyM*HDITDKq$p2ipR84@kD0Cm0eW2N;j2@FVVDa?4y+!wo`m+?)xL_qaLBo&<>M
z`&Gw=YcRxVl~3R{`Iv-Ek^_iTqbz1s6HHr7HN7J)${~X^i0K|m7llD-`$>j_hy;WG
z_u^1CH9s_;m><jnqlnqT_ZN<z7=7osIFwA>7@A+q-pr(j-h-VrL_r`bzAwgs{UsKa
zhhX+Km<Z1=stwUfJUW9s8coMiqAVSQ*3QFE9tQ6=dD76UG@M><dt^~Ury!I!`JXsy
z^6vJ6yIXO07u+Gm9olps+;j}&O#|CdhNxzk`UNSyYtC`*=$ubO;P>!k<+4ajT^5JP
zLghK0!&Tbjbd+BqGjJx~aV~Q?j?J#^=1i1MoV=@5D^%cv-}V7m<A2TVT5D5++_hA%
zb%HD#V3o^#sWd*PA#x?9vdWX>?S4Xj3rZ~;mrXg-e*Mm3Kd76dl7}8+-*=$A%ze-;
z7;=W3aSReaIA9_<!&kR@kH2S*8xtgMcsroA&o7&EeAcDcK3AiMD&L&>p;70{e`WZf
z%|znHW%DwB4eH^v@GTPJr==k%1Wb#d2b;_aJQYg<<VnaDAuHu!=`f?AkY&PcCpj_2
z3|kqtx73Ug%MAo>QGhZhAub)E6qMs+)y|k5Igd4Hudt$8!@}j3aeK%(lR@TgOGmM;
z#xHYnoSrR9FMT;@CKiV+u^1jpX5z7=JQ4mf2`hXJ8^Z(rSFi_K4k#^W*T3=ToH95G
zp}e)R==H6biyemw9mkZ8V}*_}rDN<bJ0=uo>&k^yzUcPfTe`dS(c6XALrUwRP4}T<
z&%k~2{iR=cI!iq1e7WQ#Lr4EO`El}LdWSc9?0+2|Q#=Rm+gGPcM&fFC+&EZhJgPJv
zee~_ejnj&Ax)>h&CDN6M(PsaLZ300V_s5?f=y=6#21vmOKuT6pc`6C0W(Khusz|Tm
zaFDaV8Dz88^yPtTb0b{<vP($c10D>&<h1klhv$BB=FjSW7Wio(f8?w(@ah)?5=)K5
z*_}6aNymXQ4!^R~H_SHhHf(m0L^u$o4FV?`L8#*e!x8|ezMTalh->CW0~~0L*UKoi
z`=pUZp`z(sn;VBiAqDpo0*XKq2nU8~2{#et)Q>sUB#X%z88KcPdINxGRAxsBoDQi}
zG?_>xvhvdKiy9BVpac$CMwY)#ik^m5|H^OYt!;ENLKf8;rHC4hs`h9Un0O&6Lf9FN
zzPk`hBF9IgblIeHP=RVpq_fiN5Tf0tb<l;9E@B#bH{d6?fOm(K3>@FS-mu}@h(DVA
zlevv{C3Jd+KpHED)Vo%rtkfXnBKTIX$BaRT(}+nhiaZF^7Pc}1h~G0Nfrr(x+K6Bm
zETUx(g_Y9VG<q|xDwML%SOwc1KH^v*?{g6+tcgRduT1U~o`jlYpqdgON5pY0byq$r
z{tcv1(AIOvT|<ui0q|Ci(?N_QS)JG5=-v-}=k(E+YpH<u93I7coPK<>qd{*cN228e
zX_4|6!VxSp51a%dDXcb?S)&p*Cw&b()rD*W2NOdS)soFb1(Xi`0*cj9Jo}@wx?mkL
zN|(zeZP92v8I$E`R7MUD1{u~#5r{0c??01ay$3geNX8w2&}DVqwJ6rcRsUma+mr5N
zMW^T9)ZM9qvrBPyZ901j&OyaFxal0q51&$;r?-uU9{Y;vGiwLsB-I9+BMw?dR;K%J
z*D^r^Z2RGQJs^u5Y&?~*FQ5(`OB8Z6@r9vI4bBJ~eO7!wyVUc7q3kA0V>P(Su+7|F
z+OuiZB8%@vlVV!6Lmx9tbBJSCbcYj%KTXQZ8Kt_4#4(3Cdz?_kRKQBrb!n7eCGAn*
zSrVC~zd)6%U<y?VdVU4xrOZqM#nYhHS5V)?U^<fxmXRnplaYdz2?+<U-xL=qSz<Pw
z0X2>iq%*g|0F-8?9H|!28q!d$^fvTS^;RYhW(64x&IY;^ambc%JtP4<83%`_D8m@!
zn5F(o)72Z4Vjo*Ft;%<?0u&E!lV`QWS^vaYdvE&gbje`w4(u3Bt{OPqJpO{aUvc*r
z+$R<H$xZiI-a1AX?qhB`<dUvHY3V9@c+N76L*A|cqI4ajh<TD5Jrv0$?5FC|_C{Px
zCZo}hIq4gaO7Z;^8_k<Yiry?{ya(Q|5Hd}?J>Pot3j*JgljCdGEgQy-Ya3Rj|3nF}
zv-VMZ8$YEQGJcwSX7ljlTV8*Ohi}PD{4J{^YsS@4#n)Z3V3L*81y;}GI}YUohZO(e
zjq8g4L<tL(?8F{;?tl;jW9$e{e%a|TvMoW<uK{BU$NR}~3~)uOXv2xoVOMmB4h@QV
zdcc|}w43jM4T?gs3%JyxwpCWTqDf5xvoIZy>LI(fI_^DOg>4l05Rr2n;30&Wt0+l#
zO@Pl<z-LsXjHp6!WRXY-phGn;x?3rez7FXW(?UGsQp8l%gnF=QeuwJAY;~~%$gb5e
z*!R_=D8u3JLRq;LJb=Su`{0V{u{BVJ#qPW{wAQ<64Y9?-@oADq^@#){Vo<UHf!%6E
zj;kmypJ-*I<G=1q(odCTL$-W6<v4-M8M5UQY5&tqFZs~$i3U*DNESs9>h2n0{$Z?@
z^AQ%@$mAh7V8($+bxUCANdTNMwNKXMY&ojQe_-pdC*(w0&c?vV11c&USyU^OGEiJ<
zM-N3rx_YWNI**2fC{+}8Ar8)^>dltrIjuRipc?*Y>v;=EtEI2~xH9~uhVDWs8MhZK
z?2Z+H=)UmL<YPz2li=}3ro!k&W%S}^@KWB{`nj*C=<yeug2mvWC+(w;{Dl*jloOXW
z+oyMIyuYSIcvsC%4e`|7y#<i9?%#BW^VTrsh)~U5tU^4YJWJ&^={!cK&}&4m0lgr4
z$TJcSOqxUQ9q_6_Dus#Y-N6jRLkdy`{=i!H3j&{#wT2(ss;Rv{vdaI!`CVt;*R9m_
ztUEWpuJpgG)Vy5cAs>**t|ODJdo8Qj4nDU)`ZEF^V`*$-7yh^)0p0fh25&e12!@Zq
zzAYLB5c&kOXc9PzETARNSSgZN@6<$i5ChF%r?r7tXc6q9Rd9$l(OyO#3ynD$4$YVa
zC(yYBmsqohu10i2O&-yU2nGV98|Z3n1O&}G!2|XAM1L9Eykgy+(zUzVWc~Ds^?HxR
zh8d^e2NAT9;$9PMgL<`fKg7_~jEpo5YAzo~Yaf%|ob1qJR)wYE{S8}hRjS;rue>dN
z3x>s{CSBG*9R!gK<J-tb3`*z9_9sZvoGyg!C#UFnOh5%7E<;sTKU)X|VlM&#+7tjR
zv_2plBOnYyI{*kMrb;>Vu(yE1Z(;bi&_jwZ1N80!F9zq{%DhxIb9t)E*!(?cL_Pr?
zY+*Qf+q(*F!%ExmX4~OH+exME<YwDge*BWsHjSv=QbuiIBk<`PpoM>CeT_2tF0~Lx
zN@q9>foh8n0BU)rAWL%(%Tgbe;6fam8w1^(Y!=XDRjojJKxzju7R7f8e$rC-*9><L
z{lCKs(Jlo7x_j`^^}_h;%J}P#-B<F~D{R-IsYI;@-2voAW{XBWl^uz3Z7qR>5Cl>>
zTGWppz@19Pnz{dY^#i2(h+qe_fx)`Q8keCyX0f>qAx#YlGBLi6P5^X>T4-cV!C4yl
zC(Od$LhD#Lp3cAkcH)_Mi~w8+jVYnAP51bt#HRav-g=%+3K*eM(F8R%xiSmcstLhK
z&>e0jIw80h9)JvZjmaO(aHUDZzXN&FZS?Mdw_6%keROm%@nG1FE>O$1ymaWFFt*)A
z{upb<(;Y1+#8bOsW1}!LGSvd3K^{_l*~~j)I<XW(^S8FfbgT;t2|<pR_cT;h7DWCL
zhKVMRoZ&qHnH(5a5G%p{XZ|WQnI!it_pF-L5RNKpwX`f-bC#TSKco>1I=6tWu*n4V
zF9UV@NY3#8rzIGlIl+Ndmh5K>&6Rt%Y|EM6=VY*8f(;i$(EaqZoGoX}nQ}bXKQ(q)
zh8x<7_$3$w!$XrU!p(BfuA@pAGwU<4?EEzrRwuL%$h+6&oH?UjyZ&8vWf29a!xMLw
z%eiv)oa3QIzXL4WWv$DWTe^*whC^1(%!QZ+sP+5!F{tLu%naTvm_aq3&E5p<xU7Rp
z{Yb(~FT+RmXv|7^FA97{b$tdfG<Y*6-xOul4O}{3xp<O8c4-33+ZNI?+!u;VBAB$m
zuu<NcHBl^Cj!SJoEuqXI1+ZMr4D2g3im-E4`VQu_fCrKmg`D5RgcbB|qlZEs9UBOx
zXp3fBhI>cl-jnDq{tyZN5Ioh3U1e|y!Yyts={}^(Xa+~+q2d^d@o@8*TwLn<>YYuA
z{u9<S0(%bjvWGZ*_h%JHD+rWp4N6mJ<w9}vmBQ$GW%T^x(F>28UQ<Rd{E2CU+c>n^
zv3lhPZ+-Wzb?^7Sp)?=Nk6u{0@QbF`wwi*!Ss4Y&_?lNQ<ZJs@EL*;Y0?2~C?zOLN
z`UY35#kNDgXgj`fHE(Sx`Wp-WKE>Zxbo%r41NrdjpPvVVa$Wy6G1S>tY#=TMx*qo&
zeRSp1cOUmm<-0HBn_pXTe;(*xZ{7?X$y=K~_lFApQN=%6bhd)6sNn2XoW1$J(frBR
zH=S3uc_UV{13(=tdRvQa?W@;{_3ii<IJo05qk-Ct2I_;P`6BlZ+h+X8sL^~saAw5(
z=e2<|C(Iukrl&*Ad&O#M=Bx)wCR=x6=(o|Mtb-WH?4;(*jX4n%l4eYy%+rA(<Shw|
zk3{N0@1KLGnvw}Hh*LWPf}@0|3}rP5#g6^O@+Hhc?~mXoAA}W0vD`_Ho&2T4%3tKR
zYI;jN24E^1rnr)YhG9Mi)&<3VxI~G7-d^*Ci)Q&b{wkO6JchP~t5AyPr?@R&dx^&Y
zRMOGEZd`wJ-Jt}Jlq@vOO6=bIzI^?`y!W7D8`!qd)EYBiyH(p$;^Diu7$#Xs<6y~#
zA+SHx-XBnG?b{BFHj}YaTrqt3nX8AlZ+U$8h1HP{6Cb)uJj9`<S}<r}$hxa5HcYaU
zww|?X>%D7l!6nAVq|!QCa$vfX_<BIss6AN1Izeu;H$Qhnh>0#Zd+>rFnFK3fSzL@m
zV%h2H>Nd(MyETxAQQ*J~%|*ZrEf}b|*$M__i@@v|X2E>Nq|3h%o6ravgk7+L!J1h*
zY<FA{2WSvYfTniA@sUAr!aIxRa?9la)kkQZLd^>(Sgsqi6x03`Gj_pq#}e^Sou&DO
zEwOsM``01Vie5H0!S@0RR^BhxLVI<f(fEXV(J$7Cmi_6O-h~Vg{jL`+7y=`H187$b
zR2OOlIk!c%S5WUdvkPzu&GLcLlkPB#zwI&b(C)LJcu_H&O57r;Sc59!!*@8{3b7Q#
zM-@Se<@j2KUMdC?a>Wb^hnO8~4{*(YD}e{to3Z4Acvg}!_&C8BPs+5r(!Yfc?UqV?
zC}mfjRZ-aeOI5ZmYRTM_k2<i7CXL%<%i$|H+7w6I>aE9)zM`+;^P0wd(@UE*W!t6d
z!0UD0oDXsw+|j?kOBye0cVXb{Jy#bzySmW1m&3`_BoS!8?0(ZL3{CPgR>>;m8{X<m
z3y@0meOGRako|0nPzsThx)=1(qvuz?c=vtVaDjY>tCDF9**cv<A9tdxZ$UeFG*DO3
zN>%fGa$z=+4mm5@r|JYw5tI7N<7Gd)Q(>yA9jd^06WY6^sKg#7@wAZY!gnE}q?bU^
zOsd5aW|k2$Gr?mWGd`vnTIFc%V=6A5KU93EHbD9+Td1tiJ_ADe+u;4Ga`*Ds+Pvir
z6ucqD8!C856z@pE`;y{)Y12ENpO{v>msiZ62ZuJyo5AC#=C&5=nhJFXl)3|jx?!bm
zc*XRAeXFsn&^W9#4i_3Hl*Wk_SJ55FyZiIje(*o9?_Rt46UU#r@;wuq^)IiO{=h+z
z_*K|Ru7n(|NPw#EW-KkhJ!B^H9!h9b_)~3E6r(a=U4=F(>d%T~=}&PYega;Z*$ogu
z=B3zh0Rq*E_I_&i{*1(!7tBj#QJyN{5>^l9iSzJLc@gxmMYw0X8Jib%L-Bur9O*xz
zSMD3VA)<@K#5*?~0FyIua7)cq>$NBEAE7201qrYuHi9AW-nZ_4Yjx@em%n>?{j?GY
zZ*cjR!<+7rymf@>aJKo3Odq?+svj<H%kP@tQk_0*f_cX~PMJ-jEWHa=#}OQKhhb#?
z?W^FS+78=O&#U_GH<JPfwsoF9PeOHX9|&P{I1Kf`9R7Rws1~?d0&}_m>cK)5Iu^1p
zo~P6JUw}gTGxYu|de~Qe!!c?Z;egJpeqr=8NLZ?^noq5Mc<BmK6J%03x$)@zY@uO5
zX&5Lp98vIZV&gsVR-9YzmV&!ead+meooq%e?CqYs>)rv|r5yJAz!0d*gS{MDU=C&s
z^Y%C$X3FZC5lWeI96ZzcKb2=PRrYyv<x;R>J_CM476d1)<#>V9p6GPuKmpEKzUoF9
z+W8%=9qY0Up7dD1N4{@ZwhG3a6;yTZ1CL;$p;}P6%kanALLW`9dfT9wTXRMzb?!GR
z11(WwfW4xq=Inwwi+T`sx-oFs0et5Gh0~_D2#1nsU**-R&nHJdco&`~A&TyC&{uc|
zP(}B<Cc=^Q$ga6Y;H7TPuZJpMy%+Eps<3|>f+fe}eCEIaUDeXxn@ASS8O-H~p0n)C
zIp=UH_P8p;fh*^lL+x{q%c8D8UCyM}rhj2~S*NLpk_BxPE=QKUdyk&5iU7ej|B@>T
zcfcv_1xQ$mLA9!D*Gtu<hA&k>kFIdYExkv{@wtc)y|FL@N1QAzK$?WS&s1@XBvPqH
zwSWK=%Vs4BjS8w6G*>Y#RNYYEl&emB9jm>Rl~sNr4Mr#F5aj3z_<utx2N*VEDH&eI
z$XV6JPG7BgwT8a0Eq6yX!t+Iye-Fhp)uU}=Gzn1KsA|H#t7ew2npq{%f2TcU4|Ubr
z7`#)|D%HxrNNJb;0tzlQR3T6Ga2gSQ-UbhD`sy2398VeptJe#yLrUw=COpGxJPZeC
zQ_D)t|7`BKdtv3w{kkXarq!Mwbw70EJB~bdA1(UoR|htIy~VzPyuZ8HKU(OYQ2HnS
zvj5a~ovWtRnPSJ`jUyYq`Sug5rmdFV^=_plTnuz?wHyHLujO#DtMA8SKOEa|e_FfQ
zHMu$oI#nRJHm<Y`7u&-d-AenhV&B0Z=YE*mxcuqW&A#(%reY6NsPv4kzWQWfq!{d7
zcRxNc4UaGe+g2|<Gn3W>>%AMjj{_%)fdd7&XAT_N=>9Bld@Imb2!!!mGHuMPfBUn*
zMCl+2!KL*8scZh++p>E0M@O+EpLvIio|b~AQ}J}>d&eKeAH9+9J_DBXuGc>ETr9mr
zS~_=5aiq3u?Z~FLAKtUIb`@HOmDb^nmd)1jJcupsj)J>SarZqmu1|0Fzf^UP4;Cln
zWNJB<K7vrFX^%>;*1@AbFxcE!WM*Prdh664JX8xNQ7LvyJE=3E9)K_>NA>5tOp0^R
z_b@3DUbzbF=IuH*|6}wJ*qGS>1qOB-cK|}F=>~{?(tpOpKJ>ni9-dtip1<%^ZeboI
zLu7u+SNod;eu&xV{T2M=6Tn?)5~v}q9eGnzF*KMr^%fgi;9cw%@4;6F<Le_Ocw{iX
z!9I^hKK1|f<S#L0+epk_O7hI<;7@UD7fJ-bkBnc?Zz)J7UICkelRpBwcldCzJM>Ez
zM7Dg555_(mEAg0NCcz^cg3^9cr)z9|koz#VCMXRDN)DuOlD5tgmP5_leJ^k~u<gcJ
zH?;%|9(v}m^Ick<YhXwMiv}b>#r`JRj0Iy>(ta3J{<hJQ4Wo9ls~JoJD?rn>3qy^4
z{P^1W^*1&~9`QeO{?wTtnN$YPD&4P^2;}^H<mdAL7=4aGW+1@13|&?&(WsD#!;?5i
zJd;d<O$XopQ&>~oRVm@vjkttD4qY?$Km_FicxAeX|G2;|TB)RHrB5Hj>9lHqpBuz7
z{lPQpZR}wd>I&@fDr!Tj6W)lYWsqKgS7mBzVoF|EQvr~*)OswgrGzUIGJTk$k+au0
z66!^22PJ2isXxLFCu57yLYS!>5+0vS2^rjvn3ZMd7}k!8g=_*;UyAI(7nYI3jEo|^
zn~_!Qzo?6;b$e37?8*~OZ`wdBBMfUsT0C3X{WhMa%=U(-CNsNHyBeB#zg#!F9z*?F
z3ZmD6UMF~J^WJV~mRnrWE~M&4uLnt+_910&sia=achP)!4o3fdh3<5GSPaV#FB;%Q
zdkAYnJdjW_Ro#`W=neRf25A7ZuAn!A9-g@Dy~8;SO`&%Iy^H9*iCzjlYUiqz#925Z
zLA})a5C0)!zC<5;Qq0)%np3ro!P>%0&<W`|)B#umFBrft899!7)=jw3-;%DsBBwXW
z>8GUrZ;10Lse5kVIm0#q?+Yj4djFPmJ|!bhk!<QIx%`w&JS9WmKR4Jo!*c@OHhRzf
zda3756K8lv!27~ZxbdfC@PCmj3c2!>9QtdU|NcMQw6)zfm&^ukaD5W&#N1%XUdwfZ
zDY;~X?-uVW^3IiO_j?`;d^nJIwJCgi-V`jF94lw?-rhVIh)sRaeLnQeXfzwPc__1U
zz`(WV+YjwPZS6buW^O#+I+8zfQE9!jLm;+u(#H+udrs^S`0fn6!g2O|_e(nj1J5oP
zh@t+zxXA^ITwk8^7q~u!>noZ%inflTw{OQ{G8lI35sn+bU;Cix!=}~C`N5aB;e9bT
SzU_cK09ixpGbhF=-26XxZK;s}

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/ultravox.cpython-312.pyc b/model_executor/models/__pycache__/ultravox.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9a2dd2b4ddbb950fc7c70f145baf910cf0d1f345
GIT binary patch
literal 30805
zcmcJ232<EJec#*r1Qz#wEDi!#;vxv}0!fh|03H$n$|58=Yssr6-UGSdE&#n<kOT}S
za;n5j$BxLR3Bj=wLXIbfBBh3MnNBjb;%Pg|q)GRAsqW?tRnrrtsixD;N}$J%J5Brh
zfA83X3)#sukHq)B_uc3J{=WUok`gC}Cv5(e&~MFh+~3lN_Bd3}_6sJCyUjhz@tmLI
z4ZJaIh#39Gh{<n?nEhr0g_**Zh}Cb6*!;GL-EWUL{0<gw4m<r$#9PA7h|BL{Vb-ua
zQsOUVep}cRDf5>_%Khc++a9inRQfBK-x02gRQs!$-x;on)cR|g-xaQl)cfn1-yLp<
zH2NDOP5vhKT@r4NwD?<?zckz$@%p{Y?+Ld>+Wqa!Ul#6&box7)zdXDv(&g`pbo;v_
zJ^r4E&+lX572(~HUVm?-&)>(sE5rSf0slZ`&_5X2<KGh*@(;1_s_@>(uz#5OtHUFa
zeg1vSUlZORIp9CQ{I%hOkwgANkx~CBzU%n<@Zrc2|B=X1|Ix@3{wE^G{Kr^$L-=@P
z%s&=6;Xe@>_m4*={1cH$|0LoX{U`Y*|0yGPisPGK<@gri(3_YOdi<wZXe&a!IiY8S
z)54im8{(f79Kut4+YzK?Dcg~<Lm1TapJkz)2;C(N3uo(*PLG>nab1Y(76uC9rdeDM
z;(UT@{<o+t`Hx=8(=6p~r0o4EDL=(h_911zP_5^G#>fes^S_f{I(-S#!dYSJtpP11
z%RPwPdy3a1JRuwtj=pJCN_tZ*&_BZu3C{W7RX=lH!gIyLX^d!W5&sD(v{d}w;-$=)
z`Qca1{^wWBzLC}1r&nec#o0^VXTvcucxCaLH?qhJ;eijSIX;tYKNAzg;DxXt+opm`
zOQD5}vi-d9^0KfnEBMT^V{BnzF&2yoylfg<SdndKLzF%&J7!jvgt2fa7@hVRWaGjD
zT<6^K!fY(GxDX8cjI#SgFgAPXq!5fPi-KJGw757cM5Bx1ROniWQrA9zDHL52L^Z|a
zHMDOwwkRU1RE?Tkm_=hL#Q9t}92s9+m<wIRSJ{bRRG3(fL{`o%QGHQV=bTy&k1g=$
zL*ZrFc~OW3P*`A&DzZH@b$)tLjKEtlA<PAr!?7tEgR_f4rSMW@jfGg)Q^HCV=_;q5
zJv(z|>fFTG*}yZCr_P+8dFJOZ8Wmc?V0a=J3r>V)V{&yi>|{s?^GYLggP*z@6fZ_G
z&XK5GGA%?gm@~oxMuM7Mnaxf`DygdS1D_6xQH+9FuBCow<MbhwD=0$!#1x)cm|K*~
z@f}%;JtHiIgR??JScu7PCFt2D9y5w=*68DSW?^YL7Co^X3M)fWd1e9g91-{sQfjTm
z#AvHXoeIpd5_x|1k`M{XF7@kDa7p;kKr75F=X7Q=azWsEG%zZ=&o3`6EsC+|*~MqZ
z<O=O8+d0{(g+2YW&mxzPEyot07eW^=Q5KpwxkUY>b&F5uTsRnu2@8P>3vxqfAruQ-
z!I}w(!o?7VTom{KTlum(5?r|;1eQc$E_CfDjw5TqWj?gH_QZ!}XfIGz_Q6hM&-QV2
z<u)g9egiO-5%|jBHwk9mNIOxm@Fs$Rf>p51QxOFZpk&c-Z5Jc{6H;iY0I8h3nYZv(
z4JOTLwc9?ab|v4NG!=OCJa)?C*s;w!<Z}EBxtx#H<)U0GZeNMqpsk)U8gX^sD=Tkx
z)#=4E5yCo+(vBWw-~HYTquvVyN4(L{s-T7~jCvQAv6Mvb;+%K(((=OPs2UR+_0FIO
z@0=Kn2vKj(luyeNK|#}cric*sUI;BH+2m5T0s?aisEW$w7+{-h#5yu9L@vmNm~6&|
z3CiX$8Yeqqi<hy=;Fk>xvJ)){C~cU2!zJ4Tfdy0@2*}O=t+(Yc`Q3rQ%ge#A8e<Ct
z_{G^kK(u3EWKSRvRA4N18=-_nWD5Y{>?PT%>?hQWH7s@^<_&HeF87ls2V;??!KKhr
ze+<w?i1lAvK5*#Z<paWCICNofX(e`Pabb`)z#v=o0pXf3iyb5?pV2`;JcbSimR7_O
z6v!N!spucU`6ccnqt#;1lyR<#L`A#g>`0nB($31Xz2r6b4foC1`sCfScg{++KFRLe
zoY<<`6229FJ1h;2OMMfPed2HIl{Y8WcWqQA?YlB2gQNQ+lgVY>=1dlA#?HB_Zcg4l
zd+Y4$y_<ZpeK=7yEICJ#=8=rih&ruYS^awT-KINDuYYc9B-wp1QGZbK97>uGrOnT$
z5x47Z-<`fUTwCMGo`Z>ogHo9iHzl6Y`jNMbX_V>NUW4;5wTrX+lefKTX7v^9wiSoZ
zDL3Wq0395vd*B*dtUu!(2<C1Awt%%w5S)vSdRd59UDCOm=Mo|>g?L_A$cD;pWd{fZ
zpQGY_v|lz{09FsmCX^-{FGa;s1Wt>`;EJcoVT1i7`Oa$23_Q`3aB`Q=%>l{TmNd8R
zw0hn+ycNAS@y@PytCGFb3H$U%CZo&xh%;KON)=SPT$wj+%5ddPvIVK=*`~H-Cz&@0
zCf+ERK@yoj5?R!5E56P6wjs_A@ayC)M0P3Qan8tF5$9U5_-t~GR&fDxwO(dOUABq>
z$eV>(6~MAKP+MHomOo}~S>xteaK1Bd%>SmZd3E9B##}cVxgAPS$<5r<ydlJ`8NP1#
zRl{{tOk4Qenkk@-54UEVcjx9%{79i8JET6(y<wbYv+T3WrrFpv;7lTz0<(+&lO31l
zG;bMETKHVjs5`kaF!t=knR9`s&yI~xo<4VWV)B{5x#uRIdFIT-q+F}4GX;W*Ih09x
zZbWE-7p}<-N>EO!fRZo7gQ_q`h47sCESfJ{)n>VK+YzO)B$OhuHTnX+R=bN&=0IT|
zLP#7v2j>+oU0!{=?p9r@yh|$YN|o=C%J;;r>DoOvW4Eu}x|XWlBhmlSt^IJ~?nh2;
z&r^oD`@X#|z4u^h?~~HrC+TbOp{FrnZ)6L)_)__K)OH(uRPm|KnN}kvu*lN6Zdx-H
zT|VYmc4E!hCGn<OM%4Hu_lt%#^LbAEG@9VEh%{2NM;ZI<td^^g1b9Rx(`9EU3Je+x
zf>97lmApZ`*qn&8IYoh-IXF>Tel!`%Y{=C#;*XWM+V=_b^H}O-Dwlu_CaJdXW-L|P
zC(-}?n^)k(-RXv|RKtF$VSn6{Zt6`n9hI7nChYYOJoSl&-uwL%_dSyd`((m1nf7=S
zb}yTo>AcCIAu{1_+X?432_v|W;XLOvPRkZHK5UD;VGya?QGx(!_iCwoQH8!GvNIA0
zha#a^bamhpI#?t<A*?9vR&=qfcD*Y83kiD*YpBmH9!I!1M$QR1vUTyoyf7ORODKfq
zkj;sBiF~vbWD^Jo*%VrciD3#WfZ+tXMRF)ZluCS+%NU)Orp=lRhu7BhHoY=+7E9aa
zT!zCdap>u7dS^-vme$SMt;((0dlPTZZ?#Iku}2)jSW8)<d7#>X!s*$jR_23h!7Nx5
zAe;lVtqzX2^A^zA0OmO<tnACCrZ*D+CvZMz=WVZA{0?xxjx5E=n8iFMM|NOdW*3(i
zVo~uqv}9J@5!5t}MvP7U9(Zm8q|Vdy7CcxGMr|KmH}a-6<0{rU7KnLTB#<vsiQ*6(
zuv#Xp37?5A6;VWxLO8Nz6pd0<`sOI5)x#5W8;D`It@^Y@^LQT^<jN-fJc@}n!@+u~
zZn^#9trs^AY>p+X2jb3$o`!Y5<mpb>yOotL+oHnDjEHq&92ONedY1aFJ%nD^7(9Xp
zV^AE8QHp{`lYd+{ubGR&Bn!feAg?tGjb9c<(bsh=;2j~;f+uh6ZEGg69PqDbx;NFC
zTfp|cZs!f?2knu9XU)21TeH7q(zq+O(R1e!q7o}e{)@3oB0(P6v3Nxg#Skw<K_!?&
zV7S>{lS`t($Wj<AZa@U*EV~(NK;w*@a&2I0?9+kC>G5-f6;F)KjGqpiKjWViV^m~$
zAUpHQ!tgni1#=bAY}JU@$VVVmyiQph3Y<pqN~=`3t+y>on++>Vc^E2`%d@p$=83V%
z0^UztVruGNMv>7kz<GtsxVh%GyJzm4Ni`jonhqx!gnd}&OVu5a>JG$99=e-T?%k4m
z_vVX|d-VR%8Oc49F>#Ix5cxH&c?<Lh`;M*ezB_PdV6*mq!_Yf3aSzgzRNb6ORrgBO
zz3E!-rvIH|$XwI6%^7P-GbVGHGsBr3PPU%kFiiWL1u&7pJ#hgo6&K05LQXk3b>#dj
zatgrU%M?b=EBK2NEF>^!vh-})woF^+x9n2Sp$xc~o_n*z%=Ba`xT9l+j~rDN=fm=<
zj0JBryQ*=0c*C@QP^#?A*eJ-(RX44VC)$P*O+!-E-mMv_>QII<Wt^O|>5&UQ1z1wm
zv-r~=LOt|s|64d;C;*qBRE?liLE8d2njwI&2pTxF<b7H5z6=18&Nw$`0HAdH9lTwz
z^NxZPRF+evhpoJm=waR^xYcweD$sQcr2xtvp^U^70K6qgS03lC8T=IhgQaq#2D-9h
z9hHt=6cwPG3swn~(BJk2IR7kwV~7!<!5)C@A|U21g9Z*59tT`@DC~0}3i+By2v<Rw
z1Vz~v^BI*bNP8|y09~VD%9P!T?GspH^119TD$?75!qg<!j&{QVtZwoa?x6>sj>N#R
z)WDQ9Fm>NUY!O=@vK15=WO}kq-HQx~sjP?-)Nw%Z&+5Z~3W)w=!wPXX_v;1>tg$#Y
zyU1zSEII=yNu4ct=5xzc<1}bLPxTZ$Yrv3zscK2rEhtsP{y8bvEZU@8x5RW99@C-p
zn&qP5Ewh$}x4dQ5N<7cyq%vwLt`m*y$*Dl~@`h{=uUlgT3D~n{ja6uVtz?BRX7qTm
zaj4SLXWx7&ST7S}y=>W5X`ySj`I>B6&Bxn#`&W%ByQcS-<v}QLl{KU=b9P|NVm)&3
z`kWcK9nv^+)5Hk$vFC<!jr;OG4z$ghea*CHe#@oFEv`G(97St$Ya_ho;7g96lr;yo
zk!M=AD(LDY_ESZW=K~Py&xV3wg<m6ix+6sL<v@ssEMX~z02c(ckbnnB(l&!V#;{pk
zXkj+I%nJbpt7Ro?vTX^)l5WBo6QN@WlF%Rf^^0hO_$%amiJULP(L@<ng5hN$Dx!l5
zkoT1`B+ItATtX<2F_RD~in0~T4)C{fYXFku@Jb#(tM(zVxDZ|ui57<}ki`C`rNt%j
zB9(rM96}XJCoCZ3QD#M8HW&`)73Fg&prlx<oyx|h5fWdcvIySDl~A@svb;4z)}Zv4
zV;D@?5eUqNgHebKqqJ#M9FNy43d>6nCd+XYg-MS!@oUHv9RX1OF_3#1S62Jl=Wcv%
z{ouwk_dPx7`sTa!cj{C1d!+h3$@;yi`a@Fvp>$cz=02e1hEbs9hSK<xz<&)bsrsW*
z{n2~#$@(+#Cm&R{e%-v~++4fwJ@Rhn{mOF*_qh)$YHnWrwf?v*U0!#)@mAydr#Hl8
z`R=$C{MmZf*E{bsQZ?b}e%N$)eIg4UrKZ#OLU4$atE&5mGgmv)rL`ais+|uTdQ%OD
zq=rN3UA}D_0^*KGZmzXMYB{p;Je;lPzSnXDTsRu&sC=#TM(NF!jn4b_?zFvveXVWG
z+_&%kpuFZ*tyJEduB=a2b*F1u)3t3G2Uh{A!&2dlTS4-4?*7K;>!X_s$&RCOYr@ki
z*}V@v)$tMqM3ZoYt@fx~lPi!QHc*Am1dX+a;30#~dob!da~d%{Pce!be29ujHTVVb
zj}DJxI?SEd$O)}>yur8V5c*#@C2gOAhc{_0&#C(p(*YBxSO~DkGA)-C0t<!hnny*D
zX3+lEq#26zh~)N8ootSZzk?Lw6s5K)5Mq+DSO6CmqvBU6l877GL)xXl9MEroG!aqR
z#?%r5WKqhl{%uP7b#k77lP`Xfs~P&o3Ya4mVN{i#tqy$xeWXwfg<1X+l}$_l_NP;&
zp%WeZ{&4wQpL_dr?+pFH&nK%-#+?s5m5=OP(@?7MxYT(3o!WPICmWxAfbXU;scGz;
z?srF%P0u~3?Mu}jk!p|Jd;XpIWbLOuXx^J@9+jF$?;S`sk3Xm%NY(F`>i2J5P1YZK
zROuvY+o@99vK{Rr*aU?ppi$1!Hlu0UL-ZG0+W!uV^9!~w*uUV|S;SS0+~A!+sS0}B
zftCEC18kqZ(6x$TXrOw(Xun}EMso0mETK_M9$I8W<&Y-xB<?DB)-1d+rf;ueioh&$
z`9)h!?K<g^Eifmx7@=XjX!t2LnKdwQ!*)>z4PUhJmY7b2%o*dhxIONeGx63}-5`f(
zm9vM4k~QmF4viJQNHQ<iw6al%7=qT?#D^lXg(vI{`PbVBl<f>xh4^cEGBjEbmH68x
z1o`Wx+uRNF8b?)KH;|7vtisQ}jW;lY<O4xsY~YHKsM@SvH{Gye40MnP0H%UJRRCj}
z7Q0cB_zgJJ+URnGv4Gg(e}Ev_0<onC94;*IER9^IXz&6o97y<@>{8b?Q~Z_Y3Za3b
zX~hw~edQGe*UEK7P~;|BR@G~(pZcj=T*ds$Oer57I1*k2T8=)!WIM%*Bymji3>@I-
zbXDiZr=_Za_++}GedFL}@bx27#h&<hy2Y2+eHcjZ-m~uvCt6OWTAq?xo=Ub%#m}Xy
z+7p!>U!UC^Om>Y*m7@vwsKR>^#8jkJunK{^KNt?hR%ENfAIYwqrZBGASE8^>FHp9Z
z;K+6+SO7zmg`?sd6k(lRj$jI83#5<3d!bPX#!xOJ02R*Mi&S9WgLsL*M-GFd#PTYF
zWP+&TpOSNroNtr!Cvc*);b<c896x?sk#AHoSerkptAqc<Y51>H`k%x336pZv?S;U9
z<<?57c1WWCPbEg4gd2B1tlyQYKQ7fDkCy@-*LJ3A`lOn^WX(X_m9F;Q4%`YPb{+V$
z>hCmuyYZb*{b@_G`ZS=kZ{V9vZ#1RdHS1$vfA$-ndHpkwOvc^LguU*Om1}Cdd+5%g
z2PGA+y>R1&^`Z3+CB^-cp~Ucb!acEVGB#1tjNR-w{8scwkboS1RLYgKr0c!u+V*tQ
z$RnG%1mY1Z0c@)Zuzi(<vJuAM-arQx0SWC>F+vU@U-7rdq0K11MNShrwCKeKatQy5
zZRGrWIC6<fh|UTicmse3jEbZksmzG@%aoLy-^5>3g7ae%s~9ck42kyrpc~=I*n2EB
z56dbu7Q8{CRn)InuFtJEO69vUHVU#UVioK9VX3k^<DeiX6RT|0tUo1H^<-QW<mQ|;
zKP(~NjG+udnab9T1#cAC*0X8ad~VYvc}Frf3bJ#~@|%^3n%+ctujJ_4c2HnvJ2F-5
z%2@E$GM(SFOWvW3je_i4U4O<wK1gmVZuUuz)*rd>sca$Y<1GI4hlZ6NCep|k-}p@c
zw4|CeGEt1_)e@*DA;c+$Tp;}}8V)rksVePE<U+idT`oHx3(j61V+Iz?2x9fJlePy7
z_Qoy=s%Ds}dWogdY$algUf9Si&k8INgu~1P%&SN)y%$!zLGK*1&tk>F@Zu!^%h}5T
zCGe#I7A(7S1M@`c1g+_Bn?&j)h9H@z^4u_j6~&^`;5%4Zh-m{l<GsR(uOcPH=d^&x
z#)6sm1jN5kLK)m3zq0bE7M%<FOMI->7Y@pRRs@VmxhNq;0MiHdk{dS3UU%Q#kZ$UU
zo8Pn7E7MBU;o~|2J3?89_M!|%xg((PAq&^*#_J}?!cE0xDue)m1_8--h{rJO5Q8Cu
z#DsPudx{CXNCHFu)+}o#s$)(k4Xzs?BGa<wymMM?C`LN18F%anwG>Fb7%4}HStBT@
zW~@~WNz*jLz{?UPqcJw6vf(87>mV<iuY`oFKC6NlXclC{3E40s8^&eJ48(4HlxR#^
z-kMa-201)5^ZaVvV^glil+cX7j%>i56)mZXPN|~vhAnQ055<G&@(L0-cS-nP-nCgS
zmG9n+r3Q~n_+NJXosrb|jD-JXGjYp<+Pd4zx0csm*c{t@d8=*f*?XUQ`{xq9$C9<j
zp?iF+;M$H<ZI4vjlXjQHU%ok!s@f&tzh~FR%bO#q-XjwJcOL<4uXD!TfIDSPn!4C$
z_>dOb<HGH6geusRmbf@c&Pj6KBj-Pm^B>_by`&0<-=#ouOf&|A@Bj{f1o5{0Bd5{g
z+c^J2fMQ?9ZnrdTOn&3+>t{0@yj#zH>xH*p_z`)P?LZ~W;!l5cC`YtFK9mzoDtt3S
z)XW6cMagaG{fdPHzF7d@Yz)5Hv1Y7txrWG}78gn32|@A&)S3rsXh*P}`2p5e0jPlt
zvJli1<ER0Cs08+8IaBNyqBsg3jrc?!T8`{N$|6ic(VB{u$#h@F92uof#-kR8R!gi}
z^A(dWVyAM&U;=M=%c$)|l%{jr#Z$wwz%Wl}zu@6bmwT|Bs$)b+utx*mC{veJu9<lA
zDrVujX`vz3rll-iV$L{b^Bd;dwOrYEv2na^{wbpY8D~Myb=C{*>B^R_`NZ8h<FB(A
z=$+1#<<z)a%awiSjEBy4t#Chco@^~yNwqEoM=Ns5gdBuqujUId$Cj<ptD%eG<qt9H
zoUfLlOp!o@>{86WnEXO^svltF7)Ve6Zz%y)*ds!OOUPXlrYZ(DBDDxw&;_!c6=@^L
z*0Z4nAt=grXgu)_49O)Ryp?@P2G}AEF>J`-BQB7{zSm-!?U0sfuUwYRgwi7+p4CEc
z`xzLj#fTBHQN4@Nn1&86u=>$_5CgJ}-jtqsz`7}v0BuKx927Q<4a2H#g{ngkof^Q=
z5AYOl3aEhwZ>phBYUqobzvOw)GO&3iHF!cAJdtb}kDKq?8`I^rsq#*#yi+j{+S;EQ
zJ}KdU`ANt#Yns>Rer*vsT@UIS?mF%`Ho7)Dzd88E;5(N4bte&ClCG$^J$P#{ZhPn|
zPq|tpSL?>X@40#()VBTFT72S5r_(jf8|AmcH%@&}+qTh_YTqxl?@!hqps0rxbqWSc
zRqP?g&!*MUy?NkX_5HeIR6dAScSXw8{ykUwgI#@_&nI{7L*AzzG&bKoeCP02j>adx
zeD;Hern|j&dcV@I#I$c5NH+FTgaY!J82venW*(d+2+82=BY2p?4ntS?tm!H@;C*gh
zhpO3h1t|!67d$yB2&NGyQt+(l@DbXd;##Ks6t02-@L5ns$xlgPgv}HqOKsx!kyQKv
zIe$ye-;whnIe$;i|A3>JelU4tiMA2xU`4+5he+6awf-?AH=t54B%6<hkp|RDeRHb5
zPpa?R{A{xRNW7Hf^Nn{JH}ExruezqYC3i|T7Ls-Q;wAKDzhmEMPSy=7U#>f@jj3ea
zUge8YMv`?S%9s0&d*j7q-7vm9AVd_j4_k!es5fhJBzDp#L6)D1_()Sia_XoH1TGm9
zSa0cD|M?$scxCq6EzKLkH^Q%niSB6LTK?AB+iOI3G%JgcGSA{qe>7~%3@!8N4scgS
zzggw1?0)c1F!<CN3_nC+f_+|x|9XiWZ)J8ww&Jm%N9>?SoUll8K^0!SgikCPB{*T7
z<YE+!8x)OOu9;foLy!ye`G;PDKLG$|OqF^H#!JT~p!Xu9_j60a!q}Pas8`LS9_n$j
z^fNeD;|;+Ig&q1}x-u_9g5GGDj!%SFC^f6m3mX=)wx=RbpY+a%!G$OmS_GlptSGH`
zwF!ORtD)E>FX_Ti+?;ULiz5_*YO6mq089O-pq#Q$k5_mVsTS`AcL{aaA~GzBUVf4I
z&X)$5G#$7E7KK0`{7bA#z-vAvg0e#$Xc=*=ih53D(R&Bfg2LE2hz%}yhxd4+0#FoB
z-C&Y^uc|JjYA*=*ibe(A8(L5f6%a<~2eTUvUPI_}q$r#eMYIcNSY|J?7QUqDD^;Vz
z=t~+KtdvJpYi*^%SSyepJaaHib-pBAg9a4md;+SG6^wsgLj5?05@fA}EgqDJ=poCZ
zm(}lOY&qdMnz03p7v^jhtwf;_b_{~XL*>bd2Uj#r0mX3pC1w84iJ^-joWX*fcPzFP
z9UUCJh*?{{Ffh9q8N9T75s??cwF`q7cYVGGFN7B_3`Q^!gHdrdKZ+UuMhCAd=e3j*
z1Slh*2H*$*>%n<J@S+MjX%rM!{%N&`qEV=82lwtfFfzglTP<O=4ybdVCsZa3K@{Tl
zNjQwY*YVB`aM@o5Ke9%K&`foJQ;vjp5LWnPDf|^O>O2We4#^i3kjBUhn79UbEG;?{
zrKoviGo9s9Y+S#F#G0Nbm%wN(zM*w0;~4^gZOEKMWvq85?7oez@7aCnwywDOHP;Q-
zd#bHxUe`^?Mt|GC0f(VnybGUV40!P&D9#>`;Exy(<gpi)4J&mG?B+!A1}zUj8f?b_
zx=8!R2C*s<ycUQqE{n4`bhQ`_u>*Uu1snFt5QtUm1gPHG=U(wL^5t66R#0A~WMreV
z>{op|4DaJfpQC}EK#`E)!kDc5wWn@8m2&q<?!I(s#cT67=2NAuQfcdkK`L$k$Ydz#
zc=&j*#aPk-^|C5Q6*p1Zw3vZAOVgk|G$d?VYEUJ~f?hGK(5k~%;gdtlz+$x6R4Hl@
z@H09kRBXs0X)zX?o~*qMY$WmTmyC+BRx#^HD9?&eIXGvg+qJ%__JG;$=v-O0Pf&Y7
zT~k!uWzl#{<h2m*9>j@a1)~wr92ari3ereAvd7R`BpAKSFbE*zf(pl#DF>V<@P}wn
z_BpT}$FQ<+_#^?~ARQDV155$XRyjD93-iaZ<^(b36@ypvDxmUJSg!%s;2h2j0-P;e
zSqv|;C7T1K)wW+)Tnw{z;nbP9j8kW50_;vgJW#c|&b{EJyeFa0QDRlRlv|YAB($Jl
zC<qY;V_prFkO(#hV0**C6`*Ooq@JOHJ*)xQs<k2sd-Neaj){2}go_{uuBffiTZyEh
ziwldQpq!VZ`C(K94Lad!3^We$Mrk~vbeeJ@2E2MHcqN1$Ul3wf1)L^gSez15mthc#
zBbPWDpf?cB2dck9lZ`Zl#u$Ky_<1p+be&0~(UL6krU_;fxd^Ib7Q{uizlw(M4TEgu
zg)2ajAO2rF;_qW+!tC42R6sPN+IfWlRt{MpsS8T{D<ouOD{Pm51uqKXKO#gnLT#5I
zPb2BFz^g(-2rRD8On?T2={q$xlmG&Q2eNvEMLVc~nq(IPeX5;xX?`h>i7s2I%KS8e
z3oEKE6iQp&zXRa=DfvE2Q1A|#2`JdWxoZ-x=5%H4!zQn44X``eGzD{-bWKO9#wXSI
zHrt@Vin|`vx6m29jm!7?Q=`+;==A;ib7^<kzix}4!V#?o=ifWsH`)^=Evb?Ysib4$
z#HJxxvODSQ%~&``Ex;`q0Wkw1cLTDeD_T<(yCi5<Y|K>1+~8yyv$B?iT_Nw~(tMgL
z55AJbi^1352ME~-?J-FeVV;6VK~8I?%RmKUdlsrfDsK7;*}oWyLScr|5D&>cT+46T
z-c(`XFB)Px3M>YJi$dDsR_8iztd$L@|IaDA7-ZIEMcJ}pA*joevV+81N#(CYYm(p>
z;f&^Wc~nkLvN^2HerrD7q1D*{4Fxcjg|r+nGWg`a5e-rBz%HMguPX?|Cqj$JB;RuC
zy`X%$WHOr{GEv=n^tugcTC#DPZ-RRf{l9L9^(PD=)@(cn+ej7LlWin#rG{R&eyPe#
z?P$~TW#6bn!<*JMD{*<#;{QeT>H&?RQlL69Fo1(NjLg=)hJzTs1K$DyUx8QN)haI_
zE%6<F-V4Bib2zucdsq7hyi>u;f|r0Z;V?i>R-#fGm8)?u6e}AB6x*l=XbLls`0yVA
zG+`iNSd#4;_=X(O!*EOB5||YR@O<Us|E4SiG;tGy&M+|<ph%Jw*?dt5FN;5>R6n6_
z8&o-wWgLL;=p2no_*t*AL;N_v2Qw<j>%_$+lGl-1Mzq0!=#ODG*{QSwSSg~}2G}VP
zL0q{~LyI{amRyp@4ap9@Y6hT1E0tcNG86$;x?G}EqF@Jbbts#VpYn)LQh%64rez1%
z3nb0dO(;70A{=Ix)!LD2*(bH^gAOO{s#isNM#<HY=sNU0*P#a$P3ej=>B_D|MR%h6
zaJsTBRoM-t_NGy)>`hekWjI5BYr1uBqGfmsYG+gV{%w<`vJ{7|N=l*XuWuy5PO5IV
zRJVI`<eQ^!jBYI?dnc0+CYF%+uP`!_?43x~P2x00-L6z!zf{-18Qd!08cWvghk&Q5
zE>+b7^?9mlP^ubC>^Z&FpV~Vi?VWh%ndIKniK;Vk2l8z?q`IM;;;EFhyMBG<?hAKb
z*qZp()Z0_A0j(c^F2CLxCy8U$2K3$jWc{b(r4MmZ<TGFWOnmBZntbW9=5$$0+S>_R
zh33-u6rCg44ZPFTcVjB!;aYq+R{?33=Z<HyL}_ML4yDN4N(zNh<FqQu9}_?@W=^(4
zzKjJKTT#~WBu(o{a%jP^2`;WM`<T*@gL`ziXbc{vFe}9=buU-nlQ365G8--3=&rT&
zBcsLQ+&00NAz!An!P1g$Xr;62n^jUnf5t=sPmF&j{O#~I`7=*&y@Mawc3GMq)-~US
z%q?SqADFYcfey!Sj7U}8KcZ+w`bEuvq4XMFvRgUxr7ZVZgy@f^%-Q~LK!k-Nv5Pn$
z_cdIp#G5Y~dCONJAj7eBTq(iZLWZ~O8p!hFA`233@lL^kGaq)|&CW(!>2$}NYDKtu
zsg(D8)xehtF1{S+Nfc3A#jB-$H}c?o2ww?7St(y7c;>x&>vRuay+gRGc=()^uR(d`
ze63J{@+;LgnfW?|R`K-+aS7EzP4V1(gTex_ewg`2<f%n^&-@;}LAqytukO`7=uH#y
zG^n*VLWtLl?<R-=`*=5)td_4D`PLok_6m(kYx%YvQn2ym+l6M<Ca+$t?om(cbiC^E
zw>WTZ2j9PAZJj&Rv1^BLrS7gzjNM^QgjP15PQDugO)uZGLm4~d#u)lAhHd<Ap&j#P
zFP>YOH$t}<n-0NFKIH60&Q2ym-38=2AeU(JazJSzJVR&oUM92odD(hdeP2=D4zNFT
z_Y0zI%S+4y{AYjpvKsGZ@oLPfdIUYTcvTPw7`vj$qXvGWUYVf80cln&LhOdq0)YkL
zD$1qHWyC*2b7ez_*^W%-5wt{3(BJkEI3zGACMw`{@=!Fa7_;_{S)=J+H0Xy-hfvU}
z_Z$<=lJyU<SImTuB#HXrVszFC)gJEMAxW<20bIjqnP$UL)>yHZ039_97?7bqxsuom
zc7@QTMY<dann7{3EpNb?sbWErKcIqIQP3;gLsw<W)grlC*00`ob*C#^J}9kA)E`ck
z!W#bw18y>%kj2?18Z_C(uI&M*iMyV}Arzwvz=*adffO6KKg8ERPq$x8n!<PoGs-S_
ziqZFqEl<vs3ZR&CH2+*NO9tgU(M8aU*^3r(wadjQZVezK578y;fy74F`)Xkv_xZ!1
zLyOrP6rreNjat6>Ce4?97cZZO3^i*rptZ}u#b|=rlQqFbYs<9IScm3=L6>R1Q~S!k
zW8Ip64JW8Ivt`)$(;VYLX*%D55=d=S@ce)6dy(?dcT2IpW5jz3nu5>yzQ@DR2Yt>U
zX|_(|LNm7Q6cKj-$Do#iI2~+<cm#JUEH1EBFPDZPmsk#7R5dElAd;b(_!(5d68r>Y
zdTxS&TxGxLr(~2?E{`nZb~6SIRL#30m#tvoq^`k9EoHmO<%%K&;`@L?rbik1BR-^p
zT*|2l2Jy5zlNeBh!8F7uxP%Ml)YX*IdY*}UnYvG|&aH<auVS?`NC~U1ij+^inoDaQ
zp=EJDIxCkj!LMFPYXsa5lpRa46=?ml7nI?kymFtKYAVJCia-bJsd$ilUqhi;nM<y`
zUccjIim-<+rvDS<ic%|noNpS~)|YBKB()t%wT(+{<G2l^sXNs)A~lVqnodehCz&Xv
ziS+&H_F*y)Xia-6Q=YExdAbtzu7s!SVOs|Uw>)SZ+UiQ}os{-YCL3W0aNk~+CIbMk
z<nkt5eN1AVa<@zF_LSQvxqT1H+EZmdsmzyd?@6^EklGKVo7>WjKG4wR6^~3-#vF7V
z*t(M3^#qmH{-EVxx~?N#)0C<il4^!<3~R%h=sB3IJcKN*PD<05aWdNgGCD}OdVflt
zWO%^p?90{(O1-2!<!+VSttt00$xTPJ9VPGC`xs!?K{p1UBXKqZ-9%!+{u4v1JjKN?
zFk3Wb0Riy5W%Y<t<;=XNgqXrRvn#epvIx{cqQdNASLBOXiJ^!~Gr858qN{O0-IB_x
zb6__tuvH3!6~g_BP7~BO?PIxIIRym81$1ESK+j`(i&8?GI3p9m>PD(n{oW^KiRH)s
zEiE)JN`8gIshzTxlxI-#45l0V(lrC=x-N`$?n!r1XM*zx3bKh%@FGgviJ$<?A{<)q
z6w{4qFrM8jQ^ejPOPX9aUnDD3-6jqC0CV<uiU!9aQvv$~36QRDz^PjutC4hQEo+%d
zav2r==Qb5~r;x@pK(D8~HEeO+zGg2*KK(O#Ye$}9vNWAJg8au)Ooq0mOS}x+m#&z(
z7@0e<r<mM~v?jnQ>RhP$5!l00fX^Uq(aR+pVcd8av&rPmVikO{MUhqi0usokNN7PM
z##B5?4r6M+OF7kp6#6<*4#7Fuc{RoOOFc8k<Rc_?kBWbcjN-Sb*it2(CODGIl<#cX
zVnPzRS(Q_3*@zI%W?Ajcrx!ml@&80`q7Tp%rnPJ6N!9O`>LKY!^&Xab52t#^q~5V)
z{Rx=3RClDRd!*`~&GKY*Z`_$~Y*x-t)HLGY#Qgo;WB;Z4M11l=MfFYLJ_Ir~`?gk-
z6({235JjY#`=#c72qD&&H_j)@e4C?N!oBfC?{V1Rwv@)F0SR0BQq2QW^8i@@ACm@;
zr3NRZ!O3LvNfztvOtl`8S`XbDNVc9yxN(}JDdp~v+#QL|k@wvDGSytoxZzQQdY&V(
zYu~-0`;EAOs4nekP1x1Dah^pl^FSo+G?J%nlab6$yBG|oe(D?6PQ_UVV@?{9aHG7!
z2ZDfXIp!VGm~+xtc1UB%NrU@ZUcre{=s&SfKVO!^v_MZtl3*Myvu00lu9-exk}r{e
z%ckuMobJ~l59HHo55V#`rj>KuQ|J*B2eLz4?0_1S&ig5Jl$^ul5QD{zWCDEaQLBo2
zi>wyC(MyZVVV>+nmKUItoV`T1;SNCG|5eI4Le5z@a_JbXNSFl<vlhWwvLMCL9PZd0
z{iK-APPHnxMKBvnrYj_VR3WUGIA^uLV5_jpC3Z}10mz8HfhH)M#e28mP6Jlp7N4v?
zj2%+je0%lQ>c+rUCm9U7)76c){kQxZZrr<AJ&YaG;Jv&1&hEsn{rAkthNHMCtFi6w
z=$+9-*TH+8$;M+?t`A-H30K=jIMFpqS|j?}^`NppUA+t2FJ0Z5Zt$fWdmp*1RS-~u
z2EnOucU{8O@t|^W>$C6n-LHH;;eP&u(xyc7v1IA-g#Ea}@Ts&U>+(RJQK3#H{4aG2
zDC!&Dcp2ojh$YCIh^xWk(3i9prY#ZL6ug;I5nIPwn2*#N#gGb=K-z*MKwJzNY6Ac4
zaxBIc0x4OFnTKZ=bTMW74mC1K2h=DUim>5&B5XyT`z35_MJjR`aX@{RHI^2Lspu6E
z=)aTtUkqt!(mZY4Cb-v}v&M@s@_f;YvYl(rc^!?R2=&o&%@e6#@Mv+jj9+RubJtxc
zqv%x<Yc8$M^Qg^$zw6Gc?35|nqHJRqY~gNHCH^0BXiS(oMcLLaxdwU<wnIR-;cOw{
z9@qm9i%(;PWHr5_fj*g<*9z?cwA46rf~%V7EaD=&U-gerFz#}~xn|t27NlBcD9b+b
zk=8*uE9%VRHQd7j`xMgj+Hhwfw9vRamNdk2m3kL3IGdc*PW>{dsH~Jid86!#H;u5R
zw<36{BIy)enVkn7+6%$M<7rw6CXgvJU;<2kYj0kG>}6x%d#*i@y{uo6pm=b1fzoW)
zv*o&XQra_~te=2<zS_G{17u22Vb{iGsbO#2^RT);ReeCJK5(z}U1zfTd>mqJuCh6W
z8)0$WbO`EPSR7Z>-tN2Aw|;eVRXHhhzhW#^aayW4jRTG;ca!99TK^QdgN+KH)=FpG
z2Gokn>{@@fd~;&6R;nM8JVSBw!&cvBr_?$KYg4c!tpll+VF~Jwr`~Z(BU7o78EIrD
zIr7~7mgl!ErW)rDTAsh@1fx+>``Yx4=_H}vHp$)gp1UL6@;oV^D{)Cv4V~62>r8ok
zlE=5XJL!QwX5T-2>_7zL1HU`EYkaRc5B*}y6e79-o}JXpn%S>`F$<58{uM;r=X2((
z`sM3c@;^VtI87M|aA4L;++w@rX;0YOi}O&7K$u}I{Mjyyd<A>@JgF*+!ar>%5~;6U
z18Ee`)5^a9N4wvE;W@S+rVy&xy{T)pjIHuOmibz3$zP|1@h7Rnhm;Q2jNar^HKP*!
zpSbrN92}l?!A_wiU0EGJlWuHHHI7J)BU_(IHjd>}P!MO9z(y}yuUrX>P#%{qFD_mo
z28`YLAl^bnsvH8c1c*Dbn^L?;9lZocXQv3hkfNHgQ%}P~Vnz@%z!a}|z{RM~4fQBd
z)}RYGNsHvNu^@ZsdL6@?W+f7wtZ^FBoDfy4*AD80j1M(^DMO5O8;oXWLR~1xQe32Q
z8O5$P7aM)OO#J!+7ad1|KL&)T;@oWsSI_2DqHpX$W!<d<QswT=L&?g03HQDaJXJTY
zN}jH?yE+YVLqm7kJDhQFW!<<8g?LhnY8EFubgLt|s+eF#Byf~>D-{heTgb1#gW)xO
z-pCsuSuJ|YAoxao>8@F`)@h=9%{q_#g%55Gv=+Ooimn!5lVQ>(12zCQOo%yn4`cGo
z@&cJqkwO=$beI>DL6<g?ift`{=W`$$FAK27y2LD*7C|>cE)J<W**z&L{g?EyehKEv
zpelJ7OwTH}O|nv<_jgiR^yp(p3V$*Ph%NSC5c***4002;zluq7cF7Kacr8q%7p5e>
z6lC_^(6FOG7?Gh_KqO>)1uN_o@BV?k`%nuruYz8*(0qCz+gD}<b~U)t#~SvM-c)o8
zy?qJhN;t10#Da890>WU10358Ei0N%&M&s16oMFkSV+<CxSt~sn5q<PVy(g7R{V@zZ
z3U(J3Kr!>aY#P)k!ZvLQ2H@&^1ofJ!FnSmds~k~Q0&+%u)cdq*2Zu5l64z!(sY4y8
z{M^MB`Kb3yj!e?4$|My7w<VEG<#HESVR`iX3kqDq1>MTeT97e06KvALU}K`#hclKv
zX8@-eCW7FAb{QZG6P?<y1~5IMYyrp<!aln~(J(j?CeRZhhjJ(^3}s?=5>ZmIXrshP
z5yb?eTH6T<5>xvUBv|r1asZT!aBfI0dvTv#eCnZgIwfBEz*TYciA2Zneb-33xmUSk
zCO-YJt}9j7C)M=<xZGU9Jpk`S$b_I@Ga&$#0CrwIa+*N}d0Ya40|uWD!m|^mE{gAT
zotlQn!4{(Haw$yLF$Y2*ya;o7{4|F$UQ~1Ly?>&J#D(&_{H$M~At9PO2brflMCWYv
zCp}pn$fk<e^EyUIf_3cEtYbM$4s<ZM2QMo%qFe5CsEEYsLr3R}F)>-YV1jq54#I$6
z%3yY%f#n6=qDB#>;$l<i<Vb)C<9CxtdJWkf#xHMZngO{S*IR+qX6iaUT@dL+GU0|D
z5Br&pJZ++Ql}1lLfv2pb+(N%dW7m%|AagHo-xzu4vx$kB`{mC<%<idH=%S4STO+CA
zGt%&xgr_~}c`{*tlF><uVTf^h+Ser>r&f%Sa{>-fzX0P`vZiF>T20#lzG3#VqI|&b
zG=Pjyq_rZ|FJ7ZQxY!MA0C1NU`J9_X2N5ThQL4Wrr-qzU6qdCtVZ29#BAy|KkyDNE
z;g=njVV=xLEA<Q|Mgi4}JQYAHC2@|bHj{O+c$oq_DDXXUXz__O>A2Gd$7X0Wi(9U=
zQ4Bd>!(X%?qe`c(=(^T~x&C9=m<*@uJ2yg!x;-CROfA-gx#1%xSKpOxI(Tm&(Rc<I
zlGG!xnk-w&Ge)!J=;kmkTeTeBQeO9l->Lfc=*JX7CND}76o0}nVfdKqwm3IdGxWMQ
z{6l(Wo-x=FR=SPDT+U2Yjm4X8>9`xd6V8~(fAHvc+~0OH|3gRVYfU$rwk-(H?5VSi
z8Patv854OPI-1sFlA~kWLSLDYcFX>U)jf1m$9}LB&f4|r_2s*3ch)w~Ct7hu-H_xM
z+Qyw7`!lBv21^GHw4Z+c^f%7Eer_9gQ+H&n7K@kew#F+la+)r(_JS08;)Ee%t6;Z#
z4D5Z_+4Hdn9}g?*ZXdaIBx9inE9ZrDMQR<@($zKJUc0rn!ArHfGcHO|%C)p-C?7;2
zP7n3whvoFOhue23-9Pk^s}mMKT9NRh$f|l)fsMZGTx%x{&E|~MGL&&pkdw=+gn~-d
zq7!wvyQFv9Lt$sp&oRU1<Tua0fs^~>zxV8SUikJ4)L{&m)o6LjuyK0x*{$Jw78>xx
z@PyPqDRrLA;Mo6DhIfbGjsC^KA2GkOp=kZcc1@)F_=T+`zh|)OuaPiUp|i%tu;P@b
z7%bAn8e$V*m2MNN<)Hg8n60iWt5sOz-b5YrTn8gV%nXDT231&5g3z1`y|M&3#1I~c
zAt)AUlm}PlvfP@eLN6ERMsvz+r!v7_8H(xEdDBI@J%b=X!9%~%(|}F)d)8m&P<y9R
zdtS-VF{3@YV5O*jz`#R}x<d_2{Kf9_&~X83>QnovV}xRM0@+d2#V&@cngAxx=d%S(
z7;r{NJq@c;qV{s=FK^IG5)($SDymnN98nA@v((&-PQS40J-nYe(dQlS^G?0!y?O};
z1iVuk#SB48D6$;U3|>`Am=Qg!5k!!v6jh)1gq91pN@+whBk|ZznnblAg=A85W$CSP
zC<)Pa2z-eq#c>hkGz2JPjo{O|M3sI>Bbp~ApnzfgZIguRDbB#?j~6kaJ6);5vm4HS
z!*JUG<xsVmTQU5e>8b$~2H6BpgKqmPyur#E2lmK@xm;>Pb{x4V5M~yiSoIZ`a%C?J
z)06%-HXkEE{yTAaiSj+KU)yNA*>=18R`+`QulK%w?H?HX{)_dE21SnM!c?o;C%1B`
zsgB5GGic(7IDi(4&mkGqPQh#JjD#Xt`)i8$&*XfUI$;t&k3`}xlk)<ceC$sJuu@*5
z7N(H_D$g3uUU9SMtLz7b?%RB6SLJI*Zya48`kt$a4!rjyYkT9TA9`xzo*xV!PI`{K
zjcd;CmvwEt{9c)F>)<P=6P_a<l;Wxu^fFn#Ct14Zl~dV-H?21fx2?CVH$^CU*2nIi
zx^rsd#K!pg+539tkF4CWQ--AH)VD9)EB`l!+m>6Fo5A(A_2)NU{>IhUuWpL3e@<%N
zo2VatuWaPrC93b#16SE=hi)9Y`RSyqC1Gy)hmXs-vZMd-F~m)9LAahaM9a~+Kdl(A
zGynOn?(t^xcPj?R+s(dDi{l8FJ+q79Fci$N^@t7xFU&HOu3T46;%^8fS4eHlehNyt
zcZ+Cpk#wvIi9wJTCfoEIQ3DGL%miDcnULK%M}(rvU0wwF<i^}^#gr{Npq}4kzZ4<&
zeL@N)16rgV`4mY>s#t2_R4KF6B48-j5HYBR3}mG;?ACR87mH-vi2id_1B$Wt0B(o~
zU13L+*_9E>Z4sTHkb&hR+i>Mp3U9HbN>vIOsu-sDc1#wfKGLssX+$6qb+SiEzpNS1
zh;-ON?Pa!m0}Rkam22gR@K>%$W8_|SK?wuOW#LVfiq0p<4UZ*IB)T;JbT~mI8!ORE
zP8%G#zDWAH5dGqS2%H6z85XbI-^FN0xrc@2PH+Hc+QLzFrlJGrAp12icBWshW66~i
z3iJ#_+3)*_yQmpmRE?8yz;ui_st~O{iUMxq#9oTGu<VR&Q0Qp}LCEMw+(XWb<d7aa
zt6@_p<p~NS=_b2}U%5N(=Lv4SOJM{vm`Rdcq5ZI*CMJgzppDX<q$H=vVc_O8`Oc8@
zBplg(M49I&#MhA+|GDS}T>MCx!SJz@Gqn6YcR=C}e4pEw<o5k7=YF57dY|jW=lk5T
z_qkJl$F;xD4S%0I{XTb)g-pE94gSbzF&IHY8jL@3bB42q?Dr4xee`{<|9x)!``i;h
zGH26S4aOgGa6lxs?oM!x>4v5RSNq6XZJ0J}G(F<z{b-NdVBI+Kh{G%6<t(j<wxg2y
zDA;5})y<y+qiirfa#kB!6U~E^q4m+827@!vb|7(ZT53D@h{M;T(OCn++7Bg0pO)G`
z^$3^@foDw>hNhb$-DvoTgZI(yPDAs$k!~k>#KHS$+VGMAA)kH3(K~a}#2I@MhN_gI
zTQYQ~&8=xiYr4D_mMKQGKrk7eGTc0I`^>E~iPoX5(R*v#91GiaAwHwTXP&k-7+TY%
zm9K?wgx6;_c73Do^**V2P%0hV>fDOmoBYn%Z=aP8oWU<9Nu^K1Sl-b3(Bk~U3!i`C
Kkp+G>gZ~fcQGiwe

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/utils.cpython-312.pyc b/model_executor/models/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0f256581b38926c98f953b6851af484950968fba
GIT binary patch
literal 38448
zcmdVD30Pd$ohN#4?Hd#nI}}i?0*OTk?bZ%xu?4a%$+59Kr4sidl~fe?R-uJJf*tn@
z*qRY^k{0gRV>HV%8fPZ>b<aeZ`KDv{bob}(>2Ib=;84C%UgOuE_a<-oreu_Ml>Xl2
z{r=}JRiHvnGSlyU?@F9H_w396{Lg<o=l=VwEC+`tWO^f5_A<x)HN9w$Q}wL;?>3IR
z$(`l|PT)gaFZ~)q{D7g?FktL8^7L*DnFh?g<^fBug}s|X)&X0uZNT1ZA8_<K2AsW4
z7S4xUy)ITx)<AY|HVZR{+ygniIm~Yf<qmjyJ<M+n<qhQb<}<%7R4`E3Tgd$OP|-kf
zZ}C7$ZwY&Mgh~g>ddryK8S)O4_m(riD^xL1*;~o{Ss~v*Rc{sZXNRf>YI<v!-yNzQ
zsOzm`{+v+#z=qxp%%2--7-;Nm9N5^qk-d9Dn+BSCn+BSDn|aQ_iDhETd%Q9}y{)2A
z+$?Su_z^3|^&3hM+}md7M6-cA!U=h=aYFuk1|{u#>X7zsVQ~eBE7an8+l3;5$G_sY
zj6#W6D3qeiGSQ=yD|p4N;$|vaeJ>ZYFJ4rOOZ(|}2o<kcdbf*Cp;B~R45vk@UZFg5
zc)v;Ty=Kx|xRaHzHFH|lj&igpV+|CG(yD%w(lVDsBPvvjcA-YCF=KuG7NK@cU3EhJ
zTRcYKF)e&-jk_>Pzg1qeWy5Qh)F=x7U$&$Hkg!u|6l)$c=Nn%$_3l>FY{sl@!uu0K
zQ|8eTn#DbAWVVWXXhzsfTZ9(m*(<cJlV>yPZ(ApBJy^5}TTtdcth9WgU0Z3wIy3Uv
znzxC2Fq5pc44T%f(IIS4gQ5Mxj&)kRQ!8!VF|`Q0(Dnmth401+e?oM;XH*tn??D#2
z2cdgWzE@q6X+IZVOM6khdhQN^3v}YIOV~&AAn=&4{iy4(aA2L%GGGYS?o2gjNQ?3h
zqWmMmA=K9)9%MMFTs(>~-Lp=Ozx!zW`;81vY(gi>dNRoMJ|!M!v%>J1f-%Kzp=%Ga
z3WwJzH$&?fBr0W?gd-@sM>q<c`J0un3oG^*@}3Z$#LOxf_9<}>dVU<CPqQ9VspaBk
zr0ho6GYmVIix_`~@l8SxLZ21<!U?2%nyrvMNc+rd=H8QbPB<$(i#}z-#3#j5kAb37
z$bVWmy-wceP|sIbT}Lyg$Q-JScE3${9&LW^x7Z_IK)$d17WsOS@A=;%-;2oi0`NeS
za7KJyd;z`s!$%?P;=g({te^khOYfPKaO~lSGw+uSVrV5<gujQH&RpXg13#loJ&gw0
zb}TANfpZ~Iwsr@GhJxYq2($}<XrM0?h(u&_e^3kwjV9T6Fnmq69uHFTkZgNe8jKG1
z4Z=5gS(HM90iltX-TlMizG!eT90>XQ0-+Fsa-NpNs1yi>MWJIb+#fuTFoz%xNn&3h
zDpDrLbD_|H8fTCz&WllhR18N3CI7&nAcp)y0aO@*M+$^5$+hdpUm27_f<F=*5mBl$
z7!F4Lp~3U#MG3E-XNCjeXmBJzt<xJ)Ac*~e;ZW3nMGT(5K*<Awk~}gzG&CqhBmO}6
znqLf@4^f#}Jz@lHKE+xWK|tQIFot756oTkWD%jK~1TSM4i-Hk9M$|tb4h%}y{DI4X
zV2BNM4kCsx2T~zOTp|Q9CQ-j6o)4lH$=^2|i4G3<2Z!Wx>T}<)5b$3PidX#o5`z1N
zhSg!}ONR>(6YN>>f^@sdiCix)aJ>c)wtTM<AZ8NH-!o{NO|M0?iZ;PWNa>L{JBu@A
zjB~I!Gec%Mf)zmJ6l|hPu;9<GA`AyYvjnG@ExJXQm~*jOZCTonvQQb>WBK*c0cE*R
zu1Clc^F)`LQ}rP(8*%xFGo!`=rF66@?G0(%NK<&t-k2+AeTB_>gy3G3Mh@XO;)`Ao
zec`}>=o{?!iGjWgJ_R&<!G4Om<{Jn^5lE@}2ScI3D_AhTp+FQ97LK$4B-|QE^#}T*
zn047RC<V{^ql5l1rY<skE)tbihhZu72d}OUiwyTum<4NRSPJ*4q%|8l3tZZ2SN;W@
zn_N^S(K#;2jdB;$Q?le7_fPpzK65zBp`s5pG5cXTGKRAp)Pgk+%aJksd%U)_pX3@1
zBRe_<2hIT*_@Y+^eP>rqz}blJ9L86a&eND;go6@Bo1r9(tWl~&osy57DmaZMshs?4
zLJhJhB8K{9^B@Y4A~YO6-!G4}MhAvkhk`@R(SU@-)O>Y#$F7~1c8IN^;JMbJYtajX
z;nvGQL#+zR5wD7U!<aqgHPSj94Td5uL)T=B-w(XxAIV?U@)jj@D=Lfh!Wrj2b9)n&
z&&}2@Rqu*d?}}AEcjxrd-qZ2Dr{Vq0BOX{yIgTV}vO88#Iwu=1iPw5o0R=641{8n6
zmOTK060UhJsuWs!utvpqaxY<2&tSa93}ePo!zh25i}2T-qsDOq&t2mHLgw^*iXZ8W
zf<D1x{Ph|W0bvF}_>#I?)VfWmo4;t!P?JeRT4+`Am$b^Xrd69+s~nG(`X#Lbeq$qI
zX06J4H2<hMW2=l8-5JvI7jrX&nlXOrqSea6IPOD>`IFpjL(k7>eK*<}oXckHz5@~2
zDv3j(K%dA~gY1X^sH2f9!RQ6HGGv<=7TBw7x;PjN1B*n4LcwUGMXE(vQX?GMqGBQ|
zVI_c*Y*En=A_(<FXbyesk?JXf-H)~CC(Jlfv<CRK2-*%J2{_|iqOxYGa(ldT`%>ke
zc;%iSSMHlUF>!e6NWxt(llS^qBCm96|0iXY%Y`L3FHK*Xt)JU4-?mV=ZQ7W0a=!h^
zY|dA^PJYjguT6e!rvGDi-G5Udqm!dEhd*}LqzWm&8JZ5ww!gdk*6z9f`M^TW&V|BV
zsRrfbO*o_m8VReiBScm$K$=3f04w16CihLlO>V+40a1y-zh)cdJ2`Ek5f<#}qe;~s
zLbUDpTX`1FcMMN)Jka_m_Yz8C(8rG%CQTR9bEr8-c@1K&@~<0Tu}os!_8WeWzsd95
zb)N~V_MaQC@VEJ%+q|>`c^b{Kp=GmdqDhoZMB;&X8;-I`WuOtEC5|~CA6Msm&v`K{
zULBJ5jnuE6bD-tWwU#}hK~Q;-eJy&rub_a)b~wNI&)hG@IpC}u$EOu_(~c?Al#uZH
z-syR>XKw3)cXKRf^OP;--kUUY*@aWlMVI%Jin@mp8jEk#Zs2coK==$=cOpbO04GAj
zd)9YAX_}d}U?eX?vrbXs0yq!Hxd#@d0V`$=gDP`qxf}=$i>s%QAf8Pj%>!ltlXk<<
zXE@LG8D1(Pya>#eX%=*H>MB2Gd<7VB+Hk$Zgj{2WlW=+FyTVCNpje642(~WPwN47y
zN6rB_tnakolny#r2mK+?f+NKlddXs5qI`SdjC1!bTuCMC=BLFKQ>IK~{kfUTDo7Mp
z+}8)=;pa3#tmfbG)|ys9w7#W`qI?>TOr6)Dnuh9zvCkN!!75AJNVrTWb~Js+Os^P6
zfv~@2xL%GyGmaVcVPk%E;2I55GuolT@tX0I&1^cAVN_vw%{U6dzIDctVgwq;r`R|q
zEu63ZozXW(-}>4E8mCVyo2Q+CUNO^%0(!Fwro_n;iOS~BQ=__~kLtI5J1v;*I%+y2
zSE@B%W07q0v!&<v%ML&BI>R9mewW|>@^BzTixh8Gzh4;a^ZO-&PApn9R@n-&(_jMh
zlI-?_RS6G98G{o+1|QW_Ma~AwY6RWMMo%Ibm(9`PA@F==5IKDpWQ)SPNF5YqBAAm7
zQ%-^b=@>bO$RYH{pi}7!b*Kq{k-vcRJKU$H<DWLR+=(tWcE(JFGuaEK&QHGNeZ^!k
zJCZqt=DeAcNe(}=C+D`_>Rlmka<kR!NEB7hnrHjwwtauk?LD#j9dX~zc+sw;5mC$b
z+^M=5<IL%I&b)ahR@@l(Y>eACt(Xy&^q9?#+5FkQTO~;j-nr;}$L(t?<V|L)QFHCH
z7j9Ls==sh&d3XBm6u;l|fRZTPq|Wu>Pk*%Sf8_#j{Wq~9G~S9htMgD7{3E{CBpB6y
zrngLjSu|gC>G^dJI1+GOjCV0Iah-L|yKT)o<HXX^I|O6D3wsMMIA6=|wF@rMAv#6y
zUl&XDN_0;ekL6I){aUG0`M@(}foIAVvcW65@#he25GCXw%q`@y_Z+10;5|3(JrD05
zAs_Jt7zd&u);zyayV-a_q*I7e^Vc2OBC+7{<A8P+ql7}%uJz{UHyKZ@T_q^B2y<Tw
zk^HZlzf3F^6bNvLB??4fT)hxzmrih3`Q9?n3gvR{L2x4KVn5F06M<?#po6xGqhbi0
ztB*-)e9=K4$uCrfHR20~5fbpdc$Tg4mT<VGo8g$VFTMCui|<&}7mWBw8o^4Uq^Jkn
zZIA>v*L;E)g*3v~cOe)Od<t?x^043|am)ZBrHJneB1IpQ2t|o!BT0}_8rb723Ulon
z45PHcaG%)XU~#APIM!Us2PsXk5B#)*HbZg}6oCKqI{N})-#M`3C|e2&f*59{fKvpc
z4H*xz2YhF#<EjuRauz%!7&<|%?__WQQWq(7t%-5%O0yncby^pd+F6yU77(ABUb|AJ
zDm_|LeWw_O)JN2&MXxv*Mt^Cz2g5$KizM7ZLKGemqijII!?LQy@a3R17#<MAQQzf&
z6r^eMoqg{3@oxX|6Gx65>p9{--t}D9@x7g0hfW_k+rlz6nnsEsqzgduG&C6Tiv#Cc
zg5k@M9*HlH<f##>0t?at`;em#;tx?6Ne_-dnxzEyKqQzIxfC4oD~y8}kzMRnVJsqY
zY4Ch_P!j#aL_q?SL?M+jL!82PpcIP&Y|`^U7t#yl5KAq+NDl3uI+0?+i&6bs`7?OF
z!$TZ`U*(y!jB<Y;#DGSk@E~DEIX{+;@{Ag;@)1yH=Rs@xsT}r<8q-3l1|`&#7D@z$
z5^7EhrTtk6#nQb9ZSvX&)MNJAFpe9+w$f+t>or|d=)^{wY=#I@l!!=Rl1#sJ2Dvkh
zitK&%#HoYNzTofbKGfBD(to<=^vSMH|5v(>9XWdHWTRCfme$Q}_xl<C@cSdQ-4j{?
z2cT^8eguq^K7xQC?@-$GJBW{*gYyfJ+8)lHJ!y^GiWhCA%Z1(v({*Q}eB<5n&2#4_
zObAPO8}52r<_^(INn&H?-HlIvWT2M~t6r9Et|eQ^U0cb_sipFLas0RK`?0M=*_DYK
z&;bB`js~s<e=AqvD6A7WE=Ig-6F+81$;dLv!A1>&;Wh4iMvV=JD8!>uu*NYGC74j2
zDaFC*ELOh8Vl|pqb94kDjH7!}Zxr}BjVuN~mzkIrAf(kAk;ch^EWTzSPOi}?^DPol
zTs;spniZzrC=vZHJ5?OScsuQdSUkoyVMdh+J&3d;TQf}Pd1-KX=o~Nw6Gmp>?A}7o
zNGlwbu`_xdpEk9}a~h_cGcP8MTz1J)Rz*CkVkR<sa3QOH&bjE?`bkr}!qUB3Rl~31
zd1)2q;co>a&A45GX9Ny&ncPF7B#i95&CC4N2ytF2Yh>FK3JjbR0{ceVf0Lf5nQoz=
z2(83%?xUAu&pi9*(b%cee{qGuS0m4)BdeN95XL6+X?QX*=PBq)G2{Yw3B<Al?muiA
zg#?~Dmo}xo)ReOMl-Z0LLt+?gFPl#@_Mj+Gs=AB%|9ej5|A@v!w!qP*GS~BI>(+Sj
zrWy0h=mR6?t(+PD?(VtV-`_v|?7VqC@V@O%(_;RSPg=LCvsqiulah!w{^;Of2m&b;
zd>YLPvY}-v=V)ywu%g~b+bGz~(rTgxjZJg=S3}@P)t64~40VGhg>~b;O@YW2Gk#;X
z;s*|{V#88-OT4@#*1A95_1seVS0=k5gX&t&DZFnnvOXhmt|w`?<z=sMwyf;?My}#{
zUhU-0-MrFZlLW0#pT0w&LIMeTU+IKHtg*l=(>)4~ALvATg9J}7WMZ4K6G2k*9>Fvo
zka@-)DGZ+^zyT1p(T^$sp+S?bz*)7D<t#rbg)~laq%zZRr6u?t6+j#`WOL5ksb^o`
zlgKNYcq-v^Pi=X9cOtK3qI=oxxp8&!>P+EmKA1Q6hL~*wTNJWQtK|{Q%LZW_rGAsP
zUbQ<MH^GB9A-PvZeMAbAY6F06w1Quo-@x+IP_KC&&Cdof^P)X~%-`YlWec&;7(cnr
zoM_EaC1^z&dS{Xw$j}J;-B#BpKO~LdRh<)cyF7@Hk(LZI0RqoY#8C#k`Y)*zQer3)
zvzX^_yuE8KFtu|juRfkvKl}1hUL!&tuFyz)qpV^z9;FFj$cgx?w0?sA7=zkp(r}qm
zd*fKu8-`d_Tq98d|2=!-MR}V1&(Om=K55=JyB#a<!lJ7p-n>th@@41JhGv9*HAU1w
z%2TU1hBg4-Sw$LV2i2(z;YitI#+TIQ5t68Z9=YfCEO-vjZ(VBdy4&6b?}GdA=bRzO
z@s~9#95pM^+_u!b?{4$H6(hYO@F^Zz7K2@p0IULb8fOOV6YvnQr-3*^);=i^9W$_$
z3NTZT);wt`jnNckspAGL4JVdHD#oZm>Hix*FO8wO(%0Z*0Q4u;nTSW|{tQt6uc^p1
zsLwtTZ|#|@nz*{;u8zB_XWN$CbqIMVjU(aT@yZ6i-HckaotKZSw-)|eI{a_ecDOs<
ze0+|l4*TM6-)!!Zy9OajhtZT2&+{s^O_dlE%8`x1;URJ&5kd*Rv)UF~$kxasqd(H{
z>(0{;sf|o{KhFIm`@~#yskP^BYtKUVi3#IRvb*O_Ej1s%+kAW>yL-Zj)iu@r#?`y-
znz!0#BH!H^v(+e@h4Wk>BC2GhOjJx@pf4SX6K7O|zm+L$7b;#hg5>_UD#>jcGp{3O
z=SNK%bvy>%E~8-CqOA_8D5}?bk@%W5kHC*ww9=q0IWTGx440rJk#?ixO!~)PzhvX8
zk_Vzrt!lwEYWXfFm`8cImbZ1?;j4U96D|_<V2$d0qNX|@vl_TjE3~cVRGYt~f3{J}
zsNrIcR(I-GD--;%Mco^Ir0orj_MQ>XNo-VP2c%g()I}I=GU7Q#4E?GIP-(Dy7#IR`
zuZy3;%tl7bykVqlgC>cB@Bnr+DFKpigUoM`vsOt@Mk<($OBa{aLCOThrY~|KFeLiw
zBG80hLtmtCz>zJAd5>%s#B;;vrPnFU@f>M(x+G~(0$B>-OB8Z%Vl}`pQ5lUkWs7-(
zO1VxB5vx)^Ip^WXZnZrc(IeeJXoSEPToikhEy>B`J<K|3V5B_58e=jkwgCQ!O884S
zj8a{3agCefuG)#GX37#3)k_td;}x6d%kErSsCaVX#Iie&X*dTL-7WWW3U9imU9s}E
z`TdJI9m_ez%kI*db9dc75N}I)E%CgTxvwwg?Z1~_dh_`7@mSTi`LBaeU(WY_R_IF<
z?zrQQ?Kqm`_+$L$#O5dF#_k+U8u^0#D@J3HC&_{I1(94{JKHt4e{s(<3*KiZx<7H1
z%+$@6ExMXNb9rtYpFAEb*>z|CM_vE%sXu>e(e?bYr)t4fb-xWAco-px$EzKt4ht{4
zn3zx*i^wWcnUwBq<7~llPp1(_`KZ1fUeuQ=Qmao|ELF7TNsFbKS@WdDQvGY5v{=`g
zD7>b{>dP>dDlIm{((1Qr%Tw}!#V4p+^XM`Om`wobp>-r-7&R&U;V84Vy6z(G@S35~
zIC9;g!Q4RsD~#ElG3z9<Qwl_V0SU%RgOKEgnQRl1GclyBFEznH;2H@}m3Y0dNT44A
zTr#nXH2K7q^DRxjbIhy>>w6#&Qmy2Cuq%j06j>rQ1Js&J8V-}l6&7uQu<X>{Ad-~x
z!ovf8R*D$$!{D#)k|^{vI%G!>%N`{`04y8A$aIKm>On<qLfXrg^p|!)b{`LnTuV>7
zIsnO62Ovw<$!p<0Jqt67h>CvFm}zY38O(-s6ONp#2pRp<MJ0`FCqGljt>sNC{Q*H>
ztDWSo{_tQ}fppdWE;7=VVf8;g%m0i<M2NV8+$@`O6((Gs&vHCBv!}D~t^HZbsgCDV
zBRG@C7tiq}-C$iGn4K<1vY4ydu;got``Q+K?J-yRPs&eD*%KR|xN|JN@$i&u=7qaC
z8;Hq0#V5;<p6%GHc4yit+3tK5OA=-bD(949?M4l$C7=U45Bng)B$sI!vpw~hsJ;Ue
zcPwz)9yDf(>U%AAca?#Zc44=}ve4c^5tzq|qWV(4sPC3&t@;QCD3w)&!gJx`sBVEX
z!80=qBiKoO_w3>X?yEpczh}5<_#ez>4ivU-n}c2RF$-63lVw#7@Re&H!Sp?Shu3pi
zF-ou{So>gS*HH)0Ar0Y!HBV|hI=LzSrL!u%WE-<1J!Fe(pGkhyrj5v$V-)njWlnk$
zY0KB9glNhkSctaN+6n3@HQGd`uXzOPs6#6o)YDOvTD2w#UPm3EL70MU)UM6=qa%O)
zJlbYO+m5W)wqLtdwpFeA7Rn=7Uh|+;)?cGl|I>P{Sv^u?&h^r1tsZlYIwOWr*O!i|
zeO2o}N4a%tnvU1CGc}gAUOK)0?9nXLpDh)C$(%aU>!0GUw+qfu2Pjonbc5Co)RkeY
z)@r)gpruRwewTaOH0F+O(n3bvTIyGMqB?f~mal)vT<Z?*`X4blcUF(=O4sO(w4Dw!
zl^3*>FgXvAVv^!Pbu#)&(MFQ~P(kaU6CdFjX-%(C1HS{)tjrQ1tQby%>XWJ-hG*m^
z7_v*qDlww57Cwa?R_&yu5JE;aXV?T-CzLj&F~O=J+5vPIA^A6i6=W&8HD0}S{>2Zf
z7OOiMVm=HZKP>(FhNXze1cPa$x!%u_T%BBJLxHZ3<mo{J!3YuEEKsN3(*id@84D5u
zis0~|Hg*_AeNY*#A^0|on2Ct@H5N*5p}lhU(@%FRB_9u5gIbpDtKXs+8!3-zs-!7;
zwO$EGL@&rj*a%8JEH7y&1V1AfB{3}LDDQfe5or#|q|4;!l)f}gSzQXnt@K^`JxcL9
zg`1++pecKj-hUTPV@?`{&zi=>(RoTfr3_UxEoUiUq*AVOmO{rWDI*H0pwYI9mA0Bf
z&94ZE-I{DlHR6%8^#Il_IhWp5##|{|&PfYW5*Y^~=OaW^o;|A(eaf$*x%mUcj8r@x
z#(s`85gf|m9x_JbfeVzyRR3GyMQ1YzjHHcod8SU?d~y24yH4M|>c+YH`IZlA7pjlM
zT$T6SMX};di|(dReC_i`7JPfAvJ!c|SY8A17CqBFiQ=a|dhX{&LqXvK8|SOJSKOH>
zu7mj8SNH{IEGPswffxr@Qa%Gg`<8h5mWA@I3&q<evhEd?%^Y6xw#U8gce-NU_66^u
zg`$oL7g}S_TCz38ZB28}&7WDc9a`Shy0mG3eAE69tV^4Y#$6jGj?XkF3QCp=HpB}y
z%sJ=JEEF7?IK1pGn;DC{o4^9y+&8@swxjL0nilg~)0m*ki~0M&1TB|UE|oRK%bF7T
zr8C`gO>yszJLM4ec|BinhFs5ma$xS|shIV~bDQ<@7V{eQvbN6mFXr#n%Gwk!+eBp@
zpYz7O+wWwpEz8E$Y<RcjR?B?hotpQ(3)TCk+=;5XcPnmH%v%<!c1&e|l2?5ztQWrh
zj%6`_KNVivuvEK0Uc3JT%SU-1x)y4?V>wlcnhi@e`{FhG?p$7|IULLJeUeujZ`ipe
z_ow+@bfIY9o&Gz|gVQ_Am)<L_n2Emg)i=MoP`YWUbZfkHYpi4&@qIg>rOVC7^c7Xj
z=6!20mQ#2C8J=r8#wSZKc@L8tF&qz*9=N}Z>;fdccCh*AZvMkI{^%Cdhg%Nq!ONet
z@JF{<{-pJw122ENi$A*4@~68G?ZV4P+jw$!k_)_LA;W!Oh999EU64xT9T9?zA0+%h
zR#c;gS8_pesiYqQ^(UoG8zT}<(I|jx(s?L8N+q!e8<Q>~)xvPlj)>9>+#^a>b84Fr
z47`nx5vV?mGSj5%prCZiT;t=LE|Il5)Ap#cmP$?5!n6vIJ$?gaL%z2cKg<|ZwkXJj
zA+ZQ;w?G5w3Wf~aM*3!%w$W(TyGLoKp}kL+%I7&gY2E(j=uC9>xjVv-!aodubn4@M
z&rY10+J3#~_LYZB-0_W)dj4&DJ<p^+XkiBmfEgi9a}h3LNMDmnG7$>Rwd@JNibzGO
zDw1S<IEzjwi0q#sStdl5-iQ6vVA?LQH70?@JTYf^qR`7Mw0A5NZkjl<VluEkU<u|q
zCai$!imKWCrK&CQsx9+d=A%FO>ib{);K)MN@rCm47;F#RRWVx?+g2OB%2x3db>cWV
z-Q=7l=WRH$rJI>aNvA2~8FKvO5X4B&l5>(AvNBHXQnKkB6rpS`l|9M+v}PuyY*f@4
zWoKi9M>M$f@5rIyfHF_9!RQl1A-^B0rT{{j%KLyaXkVeE<PfP5$pMQ0#cSMsLzdb0
zd9}IL5;OUdh1{mrL}PPe#}oMfxjWaqe;KT#ecGNh!w+;@?49YDzBaoxUbG=;ryvIh
z+}u7LoUM%))+e15<l^cY=kjhHn>WR4w<fbFD0@{9m7C1r9N9n5C11VAoV}b&G9%;c
z>37fEIuir;S-K^j+nzKd3aH89VOE;Y&x&&$^94WfzVD4S?Ty#Nuw#F$cz@h;AZ|an
zVx_bV7IVXFN0P(OT!j71M^@-9nPY@GXASlkm~z&x&`;7~G}lrp{LDuws5a@SFjp@Z
z6erF2Ma4Ou8!+-uTItQkc}g?2(N2*LYGci0`HGX?4)6u$BYdK;_-1fAm^8AN*7o_1
zI|V=T{?HrS+7)j-yuyN$Ek}8CJ*$yCs4_Q?jklG(u3IOIO;yTXfleBlKDTG12kVR`
zqR@@pidj=Ur#49`so_}@Cnt-)aN>=@HUkl5y&4tT#D1aQ-^b2f%2@%J`a);lha+XM
zvvSgTCpC_xmHvW&?BA194M(S-3GfLG(eKJQoSU#y!R;8_06%7e6xlG2^Ej^*LT;Xc
zH^_v3VgF)yC2t)$JM8CErZ{6bmIz4zH0<BgW&c3a=8@lV0H0{)kJ_PA5<!z)QjkPg
zB8(OB7KV8wNG^!Qv~!h;sQNN&=bBg{q^}TQpvWX>I2|@jR(284z!3^ZkubvZ;g|#p
zqD)F@id2l*s9?9tN!6;HSp{0BafCYaFY&`h7l$wEX~bJtYy8>?Gxe2WOsR#PGn4)U
z^2jbFoicZ9YUFH^g!}agg;Yx~J#FqN_gV>7DKpn%6P_9drK!?gq<@<5E#bm(?&pP^
z`6$0^&52oyXI_exZ(q)@T*_~X=Ql0oZ;$71pRltyZ=$ejsc>_=aPxf0N6oRq%?pLk
zPdGnymd!cu9A0#G#7rFuL|#IvIw--<9tKJTEjPgeDhDGD;Z3>-C*9J=(I29tm0|z6
zu(XJ{^VCk-=wZdswv|=z+m_ABW6q_tLiZkEg~}F;JI*Jc(o07g_N>$L+XjU}{4o-#
zhYl6QO|53N3{ovb{a{CPaQQ{79<X>4W%+fhkrL~ce`QtqjZLcuhni1>5NrOQ!Lv#f
zpDy&KSy}UFJh9}#n$;zFsYHYgv^21P;iZBUVV2nvQX{*Nn$wPsuyZy}cFx8C(Ky;c
zMA@|Qy2Zp@&&qr>1S0ZR*djixzzJKcXAhlahRSDq&iaHPR&xY4wh=ndtB9vz&Wt19
zL98!W83)5d!zAQprI2Yd3(!REkqd*vFn_)fxGbs~sIv`+ntVM?zLu7jM%B(%u~ciq
zcwj{mf1Dx^WUC6mvJub(YKc|@n{nBA)qjqhutwsk<dF_AU#AHrQUfC5e9q>Xs`~cn
zn`fraELy7*?wlLfCa=xp&K!K>>oHr!r`D`{?tCTajnSB`?9(#uqO<AEwyBQyjI(*K
zcgz_lI%eALI-6pqriTm8rU=2phxVL<<rdii8(>ioz@@Jin&{y2PmuQS4qP4&Drw47
zBdjn1EbpN;^k^WY{bE}%jhtoE_$-r|1TTv)JXgnGF<n;{wHSuXKjK?;mY?uHBp1GO
z!%+r9xcVT<%F+QS4degpzy9i1ztWd1HHH>VJN{O-z|oD3Ac7v_(?sX`aXpn4$X&w<
z$a#JZ-=*dRdkC=xG9O)qR}La<q&`FX4CMb?1W6=yW>SGz>ER#lo)0XRwamS|RMz&x
z-HK_^s|7_oPKd6CU+E{vCEX*3C|_W!zrs%%hL--C;>h`3s$@Sr09O}*>&CalcS3K5
z7Ok6>-6c!zs<^vqwrcj-1$RTt*6^7#=f<wdUEe+(r`9Z#9$qLoyx=?%GaXrtw@@Bu
z!ym(2GCaQ(AZ`=*On3{}jLKf~2nNAeN?3_k&;CK%fN2C~Ql1oBigSK$cFs?qSlIiS
zGSwuQGXt-FK9Ik{HCjeQ267$1R#9oV4@5`+#|)s^W(VSN<`-leXcOhk0MHo`CeXT_
z17$*&73j+tIE><0VXL5Af#DIO@2aooXMo{f!Mn-#cLB*|blgC}Dj+e3!%+}C)O<q4
z8bq5Jb@nJ!w>&0q2I!t!4c!ILe0cHB>BYjf`MRaTogZF&DE%kQ+oO=(hEVC-<PeL8
zHW6gYMy&T$E&3UyAm<&b=I_DtD10Y?dq*Zm=0=uaXxh5}1LFstcx&fEDOiQhIV0J}
zyuCBl+8HnHf(cs8c6b@Uzk70boSM2&@XUhqnV9LBhd7;Cc9>_>%?~^W8*H*M6p6|<
zoZ=BB9B<U6C};vlBoJE?{}7(^C6U6W5M`sq^o;T&;1_X`5ByqK+R;|vt}z^P1u$cy
zrPG&$Wyx3_nrYZBQ(h?GjHBif<j*8!Nh$823WBjZNm9~|y>3D_sE*CJz2&?}f?!;0
zLBgT1fJym35h?v&aAe+(bLx~NA{znJIO-l2#7B>z7c#4NcK8)%5OAx8l1KU*ltG<~
zyaW%7|2A#@!<zZNKWMmfA-?7CM^*8*rxrIIU#RGgZ#q63_<bq1>G=5JSVi|w+@1+z
zA}4R^>a=^poUmn23{OHT>5bdGGbcZ`RpEeVP98WrmuI~D;pcX)vPYSrx9tZVIRBzh
z4+^|S<bo7kkpkfeQbqi!n9SA@WDJ!)k0~Uh8xzA!IBj-ylmj9uBjYt@vSYu@gp43<
z)0M6mEcF2ir@@QyqK@peSU`~pY?+!uBlf`jp;a|p)TO1Xg&<|joVMrbd0?_-xTq^-
zwe*-Y)tl*Z1TAjN3PqxosgkRrd0O7o7>(JYx&jtPRyJm2MW$BB1=sqvRcraE`Bg(&
zT3dR!U>`Go&3px@_^R;*4#zDVBmawo*vxKRNrK~6sX0uW-LpWp;1SQRf`qelhKr7i
zU6H_zLjR&+W1Pc608yhr(QEVc4NAa}LxVU1M_C4a?2d;EgCSf=gx5<TWRZ=vNXhCC
z3K7ttETm^JD(+@JYVoNHQ0WX0;m`mGowfC#YF2U@MI-%h7*sH_W`R^GBl)YWy1)oS
zcj3ccvDY_Jm`*&ajY3mLveH`{8L49iSUzEx*^3PXBCrPWML+`+8$AfgFx$j>8lBQ0
zYF4O-zlBeBD{1{|TEA=`4o6-d7R3>mk3<J$*R$A6K-4P+Ud9M8g^4c3U^rS)|JbE3
zsLWrG^N`BS9vD!UD5IC?YA6u>e%4o+7v)?sUBPWVICY47dT5*#YZm?7ni^=LJuE_N
zhsKyajLDO|u!jMNq^<Ha2$5`9HGhD=$S;u-yGJQ!bH<#$1#8vpGk2}^3AZ<9^L|#)
z5Nq7GP_TczC*i4F^3=sWb>mMZO$BDi=Utq=aLHB|x78(FB}=ZFxT|LN(1L5jT*Xr3
z?s((w56WVVyB8X}9~fc0oUG<tB{5U+FCLV0uHw%*7fQJ2t(?tX@V3Tq@Ty|dQblXL
zqIIF7ZK+~=ykh%81*|vAmYv?1ul=sG{azjpOmr^fbxm}B=J6&x^|R60{<)6W=7X`;
zLr^hv@C}KECt@4+-06l^A@?aB=45#!>B}!jT8&u+&;q$jVkHL_vJZana?E!0Z<8g|
zgkMIA(f!+P2ff^fUVDex_+j0_vJTGp?>IAFMy{NF%n+Uh2ZqamL@^904uf6T2a;9b
z*^}xuUERddbrVO|!UzxS4K&5HKo~E0B}l}*i0lJcmjc$2@ABrBwk<6<#iFH@^V1fb
z0thHzm3fT5@18?nR^e-72D6x~G_!5&iW=4&GlgN|I%=dNBQSu`8ER4!0L$vS32-!q
zz#n0o|NjjVI-6+#&uYh813tP~fJjxgo_v@bUjwYqa4we?9lf)jB0+HAJeg)m(I)0S
zCy9YeO>8152Bd?E4;yg=89BqE2wQ;N3fd#nG^HS-j|U~fo>b=r5YH(z%82JQH0tX<
zee#sA`{1dLqby3x$6AEExQj}sXcg?e&UOHOdmkNsW{pC9tbj-;*e5nK2nXolb~hZ;
zrf%w|ox!Q97!SB#Md^p3i5IU125?UUhJjM6AWi!E>QnTbJa+8ZA@#2d@6}B-Ad*7*
zH~UUe%BXl1JS~kdYf7{4B!vbC0@%~o7_W*vmWtH-yDGt<R01|Ft0KEnk@_U1WGjk@
zRjFAo95BF48B@C-O7tDu5NY($J$Js#upb0-E{6Lc#Z^w158z@vTFgVRvBO$sm>{h@
z4D87!AH+0tS{*G?s*S+xK!*l45~=Yd%aH&qOR)dKvP3V6-9@GyTmP*$Sg;oQRs;zU
zW3WlJ1k3|iVU#S}A|O1nW0y$Vyd3mOJJ?!rZrNjSrIdwS%e39>Lr!crQ2yCGF;D&X
zOpDg$d&O0=jj`r~3&n>fvzCjiVs*RX#k(f5K67qJ*a{LA?TNw~+&1R2;N~8)MUjQt
z#E{5j;<5+i1UNbMl{GyxTk?<ApvR2IZut~?)CfHwKd>A0WF%bI;n&mj1?fk99ZE^*
zF3@h8q_WXO=V%?N8yZjHRHH=@FJrOFE;92xhYOA_VMT&dAxWHUQLJVq+RCK=N)E2^
zh5-uABy5Cm*Ec7*DI{yvNU4WsR0*GpQjtSyyhs;H!7SOh0%pUVu$A7++qjU|^uTN^
zuzX?RtoB#VP1$a`r`>bH__+m3d(z68$#C11OHAa{h1skHXG_e~q6kh<n*Nwn-%2Mu
z>Gze0M!_JOE@l{@O!t-G&I}`Nx3FF_L5E>w7C(o>ipHoK1+Rhts*y3KRQGD(KGs1k
z0$Ij%7Mo7ElhqJz)yq)}$N6$4q?|^GiW=wc7+D8<V88z)74sB1q_R*{v@|_TeJlMb
z`ATVw50Q`5-ij!`n8L{MQmG^ldyPw&o|uWmOi#=XzkBu8)px&s>+6fACzL#tvJZ*$
z2f5h8tjN}00K*IvaLS9WfO(DUHM0vmEF_ea{yB1u^e~ijFr7;Fg~)h{U3;OKWU&yo
zy##!?txycnO^IY4ME9SjYo1ogY-qrVvs$T!v*r>6aEGfeLC`K3Fi0fKV5)6Zi!Ym?
z{lfhVmteGYKBB0gY3xDhjw>Tbdhn5=)y7}?T>y17s@X{K3$Wj|EOryX$F@=hEHRe)
zLxN@2+*9z-=~)RUVwCgWU~%=7Y0R!6lh{GS8Skk%v|l2dM)p0+F3x0Id4EvCet|wI
z8wzy}8$ntWyF5yXRQlecDE5rFDh-<_V=yGC6RpJ>uf>mq%lA16M^?3Camvbuw0}^-
z;0YszYsN?oZ=fNnK>_33r==AW(W!%zS7NsP|D^MK`E&i>AGkg6-rxe5fZF{CWaEa*
z8`c0jvsIvZkgBN-ACd3R;V_x(0cDy9;26~Ts6OJCnX!PuY<pni&1HXMF_;hV3XoG$
z*$$bE|J*g8tW{t|<I2`DardP24S?Mbz}8y|A^@n;<L`L-wEx86!^ck??DQXc;Z)a2
zxo}lj_rd3ta7d18Xt=0Mb+AfcNy2Wi9qjLCwjX*cBz&KMYtz7KoLep_#f4Id^7^<*
z0VigAvZ}4bl(Dux4;Oapwr|?M=}0HgVF*O=YaR`TV3CgM=)oOs{5Z^pNRO3CpZ&UR
z(v~9GGo`>C4%ACLMBq!Ttf);1!SNCu>0Uac$7X4<T6=J1g)S=5!=Md|Sf7MZlNRzS
zFW`a-{Fxu$JBags1y;kdek))xpG@l&Ss|`@MlBaTYl854Q5U<U;<VPSlY{W?n&(S$
z&}O^lS*PsMHOcUbbAATc4iL`413{8Cqy2lv-f8m)F_$R<8}(6(pWuu=;Ue~~&r-BX
zi-9G-I{)eEQ)9nQ+iSG^soyUdm%3C+&8OuU0i#Mc%LH%<*_as?);z?rW~m(gC<Cn2
zYw1(JuRA7e6ZQ#i!h!AH@|x{+`y|d4_;q0$t%ycz5A>Kr!z1m_wfV60!NRbWOX4bA
zDm0Ayt08r|9Pl-Oqyq6wmtHse)SI*qH(GEtFYGdK^=K3qIf)XJ_gJvy!MK9aQBp1j
z?o?l@Q5;9(U5URHvQqet36|UTNgJU*<(afSZdE^S*U+@i?7~7wwwXPja`UY*6YV)^
z5qMmjtzrpWR#*mMxry$|O`Twww5hf##`kF7#DkS-O>gh0Srv_|R~v!?Jq6U5hkk=R
z(svcG0t~zVQxu_Gd&p=_Cte#Jsbn&LN#-xhE`?%M&N9gsj3)R*Wk6Xez%#gvgKnV?
z(!K2JUKAlj#AH~w?sHt-;3@q`9S)716a5-mhKwC^o>IK1`GbU?ub~WV_lff6iNn`>
zVAoJyv*c}#dz&F^TJmm-d$%omcRaA0z1jC|T=~xF&Z&b_FOwOnXR7Vy*6FP?mbp_?
zTNm=S#B;VJygQP1F014|hvZNp7S_!^H+SX((?`!O7Mz+moG7oQI@nDW4_9)LhH*vz
ztm0ser7>Ufq2(auHKV(T(tk!3;>$OjR8I~g+cDXo&*{+WH4GU+q9E-@n6#0SY$Ass
zQ)+@wHunt<UGvMuer7wP4hfmB<MwsBl0|}^1gRiE6hpF0<&4-B^lSzp-(;h2VGWBg
z0GG2?-TW?R(`#xa$@!^T(z^3?s>h~ROKgV%BU|8$5M-QHCewG|fI<ey`I+WX+K2Qz
zXzqgW{4Gc|PvO+%rJ{y-QNu#f#<|V~Pg~5^HercbcjL0&iLB+Uyc;h~zBGP#*_!q3
zf}7rH?~J&RTYJ}9%c37xI9usrdHY>!JA3~uw_zc7<M@;J@@p6J>&Lr4br#1=Ct{^1
z7EC85_9hBS$9rJL=B<K&GLe<1Tp9G^EZ+ow&sn}$wd1aH2QD(r@}SuK66FSrM6Ty%
z;dJ56vgxvKl_&D@Z*HI7esk~i-f!(sc=B%6PuJgUnuamB9-hc6P83x=$g<`GrNLCu
zo_iyEGJERfo0q3AFWM?TahE3w$|nx~{lgGhZrn0)aM4wNuVBmk&V_<K69=y!zGo|)
z3B1$)W<M#fzZ;%=`TLh|UtVfG6mLDW03BXMXWZ6F2BnoXcWvHeE0<k$e+y^x-s(w|
zRlT$C&3(9f<_nX<UW&7LrBxG_>)FfB-0^NkZ7G803+xg*ze4KEHumf953kY-5kWxY
z%F4gSB&C_#8S#+^Z2BR5l!{F66yrF!Mh)?2QfRM=*U1l*u0EPAG(&-AkO{grC)0&x
zne;SiIvM@Q8xX8jRiLB1F>6ZeqO}zo$84rPx2ES$9iB%CHnjw-S?G9l(g8ifwhqk>
z)AhV<eDt6l$_9eQ6}&dmdZv|+ivu(y{+qNgU3WTWA2mZCW$#bvIjvVTji*ibAq*=0
z^WA|<Fh$fwpDKsPWL6}fJP$LKu*M0hAJ2e5G(b`Z2d(Hw*uY?905UDe$O3&#v!15L
zfi%NKw*n0fDYq%%JzISzQDdJNVdsdj<7~sIG`i$UW|1h+eXl{7zKBAL#%wCPiF63?
zCl@}FO0iSypvWxxDhI^vN{zB3^$`xm42qdlJ0P0J?Y76MqW^-b8F#`^5%x1O_LdHi
zL#<*}N~~xn6Hh8DMYcnrsCcE%kqj4L2v=n*jJQy4ByBUJF;lcM&H)U)y3V9-luxSc
z$p4DWuyV}d%zJ-o+V*Mrri88J%{|}Uw^X(xUbf?h-hWfEwCmaUu4iFbUSR>lG5*w4
z39u1V{1+xKEM-^4v#ajaG|ZJP)@)m_ZI9P%n+aU6_}E?&tJxN}ZAZ%D@|hRs8W)SU
z;&hDD@oCZ4DdPhpmsNGEc>eJG&O2>)PU0L)+o8p(j*nfPiK4CdDcOA^F87B}r+(Ai
zuGsb?i*-jA9LM5yM`v*r{Kw9+Sl!XM<Jf(t+5RNdEmpT>{0K0ct7yhPyCde@7&C2r
z__>?2?|AsR0fjyM+{QVd<k{J>4=ZvzvTYykujt5g{Bdh;N3lcpDTbf)NeTdpDtb`H
zNjd&3n=!0ns1HM?KOiU-j6~+8>5Ns%&VVi)N@+oGpwpgu8&xlMJFi@$O{J}QG^_w-
zWur=t0mr47l2KENgw|FtJ_S$&tupO?YaaRlK>C`6WkM53;IzZbqx>G^p$oepE;x8Z
zRP4U!Fd8!zq_z2*NM)3TWswa*LF&Q4$yv&|HWfe>u`hAk(tS7}@J>)78yje7ndH0-
z^Pt=fP6WhS0dT3hsxxIeje>6yq=%7_zC?j*lHa&Cel%fqFXpw!t?l>Rt@F0Hdsoc1
zYq``LGZiI@%a@8b;r_QD7dKD3CQK9k_nZZEZtP=cGdAli-;%37?t&h0uJ6{!$F427
zqrapDO35u<{GzFL_W8J}W!YH~GgT-u1(G|j5(*OY#dfo^@Q~mvCFDtm7;RQ1{#u%7
zSQD(JL4wX;KWYt#*))#q?YJQJT_TkUq-YvNNSX<4LcyJ^FJDX9{GzoS5%TT$TR8wH
z?FbMU-{0~gF?OdC1WC-Q&-3UEvRTh?-O@(-m{4lH>K#i_=K3xC|AMB!77f<U`xxDp
zPpdm(t_slJ_N*K3Nq4Mx<C1ODC)FM5jYFzpf<fr3$SDyRfhVEKWU$Iawr5q;%06tA
zp)Jx2$aR})Z>8D+eO5r<TNR7ehJ-usGbgUuLsLGh-UAD*>JA`Cw*?`jZ7^!u1`|F;
zfx`(Zl|&5VDp(>x3WKE~c<6!xqK=~QE02)2!ZQkI()6^MjwT3cSf<~mUL9b5%|%BR
z09%$G*};s66%wEE2?{BW>Q_;4gp-JQUXkF?k>eE1Pntn_82b#2^(+S*L9mk&c4lhz
zC^u>9$EBeVW$4;ru%I|f1`0>Fu+goqjG#OWJ+}=CA4BZ}xD}!uiW0*-B1(f1s5D+e
zOezh#`BHk3!g}FEXw}kYs`7?%CEHFFzKI#7sh_>lZ^3x_OA`3iFCwJ?_DeGSO9CVk
z@dJ>sH|ErUHSqcXHCfr8mQ_x5u=9*CipGJ~*^P6TVpY38sEa)fcJV9moUbIxDzUR>
zWv>{`^z9t89owP-?@XQWM)g)3lo>|!L!nYqGfCrw;i4f>1|vX&K_GWlgZ>R)(r&Gz
z678UWNS&aq<{=FK4Gy#8UVc&1h~LjZQhastt4TBbARBVoRX<59z1cWN`QO;#0~6ue
zgx#GX)>Z3(8pPHC@w5=4<J19tFlLkkRg8TY$L>L$!hWCtO`yADfbZA=W>T&O*s*TH
zkF?9F;Xsejcr~;6RaLeJAt_JU6e;OQ$*$+2vIGHliIepy_~|A(My{5pSzIt3twN&`
zG|{f8ltDgf%@8b?VA2B>$2B#tTD>B|Piq0yOq43bP1Q;*EmTM~^+c-`b|QK=ntbdd
zP*;Lb{9h!UaWzY>63hYyPPqorpb(yf>Q*VHTnYoN6fKDu$v>gV^dcR;w~@~kS4?b;
znYPXL&pto*%v^M?A2cA|mB~VC{h>{SO%{<PG+7t*sFWv@jua$SX5&6gwp5tf5;L)V
zgf6r#6?Vx04uAu7f@mFFZl!+>4~lR4E+11wbxMK$sG?}n4n?E~;SdBn5HU=q6wD}M
z@JcviVQE$l1Z1#<3*tk9QY%Czpj{Ye!)Tuk5w-dj#d_m{a-%(cGcYJ#1}#Rpg;cAM
zK116x0xT2RD1B2Pjve1p0)`a>G~eL4i%|JL4&YYTtqv8D7TU-Ba2#Y1S~?xn6!7W+
zdhtYX@A)uJrhv!O4&ixNc`602lqNfw`a^k<NP{L95q+25Pc=Ib(_bQ9x`1hvbCsgf
zGOyAz%Y{^kl7<zfo%IVLbDRMANfZU7<mF21mP&TSOLi=kJQ*)}l5{P_HA}^<@#5B)
zsQ{8YR|Pm2d)|_5W8AhewrOu{|I-V$XOc#k2tbIE?MYg7V*!UE&!B}SyO~{GG>Q)(
zGB#}$0@I1YQ)mub6Zl>Gq;x4{qKu8w0QP{kOfqgYW|IA;Yzk6l$(lSKOaQh_=o$^A
znTbGiGRj@%rHYgUH+9F3n#Kuzi-{ps^V_<R<y9W+g@xpZ&{ygjfwa8VOQk43mDiS@
zcby!hE6UNzh1oS&B)qXNZ4=g@JCK0h)q0gT7~aw-vZodYlzHw2?)sE&zG@%&FKnH4
zU8U=|v~w+_a%QI0io%nYmohsHH7mf|rC1%QsJGcyty<r-DAJ3T&DFl<eZI}C^haac
zTIdUWe%N}3S-LhY-Ig^GTeJv<30l@x(t<Auw6w7zQg`|hu3rOIzP)>WN*#;|Q!dmt
zQS~EE)?j738}Vt_i+zy-%MBl92;<-no%xE2_)I9%`u+?ngBz*R(rU>D2C;w8Hw)FY
z5wLI~QZjZ<ItSQg#;44j6{OVw1%%<qHuQp4Lxh>~`=M*bb=hhdRz8^kKzfqN)IATn
zXPP*bHD`&W%P5nY82P_ZITo*n%PC!QSH|6yv&IE?E!ezL@A%Q5<dscWlLn)`AmPft
zabohsTOG63?;iiy)d+)j+!*2DY(+CwcdcbJm*;xpl{@G*&z*0K&GL8MRqO`bM0Ux{
z#u;y{t}Eukac7v7#t>uUa*Aj8$*)5G`PsTT4#!+av>ZgW<)uo77^Gn8naQVSTH~(9
zxuf&X+<q$V+Ce-?KAMzMhH}w99M!IxE`ym%D)bi*YS7QmIo@9Ii7Ovwr}lzhMshI%
zzh8Q&%<#u$_Cp)Ye_YSQm96T<c2I=$_d~_J3hC%l46?~x59w%<h)n23i;GlXV}6Vj
z<8gVVt}ofRxlEQh@1e!?WU|l!x`134N@LxYG?V0(jGvtNOYsn6AVr8Qpzi=12ZCWK
zi3;e`6J*cSFTIL4@`nRqm2<!cSD^l3#4;s?dIWbF4PjTJ)2Gr^II@!k5uD@uYDDya
z=u_lz1${VF=O?pxXbrDuY=bn8TuvlZPi_FnZ0>K4y)yQVuP<3k<JQtet9RD=Zq}`=
zf9ziJwa0z!i@t653d`7c12??ee5-k(aPv~()_CF8`OERby%WxRo}!zZrZ>%;pL=R<
z&z%<+J;x@j38!bgM-fkSQo~Kr!J$ji{{inRu1$xJ5Mlry+Qsh0Def&3nMNZk7+{7*
z{l$}R#*&$zW4xRxmA=s&sKTmd2=T-a4BWx@l9B5W#291%O7?fkxi4lc3Hl3^5q-L=
z1y&P`a=Wy*4TiQ6&0LY40MHM{4@ragst)p;!-r+C0l)ws^Eg14GP2CH3-k>R46tv}
zfVP7PCCX#1!AXW;Km#2}(5hQQ+d<6>IW|5N2s0%$6*W9FO~$}tx9=F)vTCPn!2|%X
zSa+K*;rliOIc#@g4Ir+8%G>Sh(a*Z!T}y||%13g24VM~QeBG*TD7L2*(}6=>yM3M7
zQD7YO97KQc@gn+=FWo3MfW{CnGIU8fOz|k^K_5$_QE5<G2YXyap3V%A(S5bibRQ>;
zC5qB}qIZJKQPphh;!Y%lRdLGhl?GXhSB+MgiK;qGtQ@wv!Ay~Xu57&|ibLoe1o{NZ
zScgpENlR0D1<MKn1ntbvQmkH(_I_HB)NScCq%NRENU|<$E47@>HSzMR*N91_lg5R!
zC+BMy-8*8o9pF`S3h2DsO#N)_T*sn&bIi8+QJ#mE0{yKhR$eI)O{N8uX^~vikr_%+
zpOmm!yPwUZU?$_>P((Hn#V>m!Fhu|@flH`W!#P|wHcUDSETl(n7${mNwKRzlX{Qk>
zL)}o5DhF0??3>)T<lG*2Zl8a7!MQ7D+VyD9sokvSg(xCj@S|-WI893N?9s#M>yjBZ
zlr#z$Vj>`VP<(VS568lGU}iT0k(e0rH>YU9Ox$2bAvq}%@o&`JuivgQW(lJuIILyK
zw9zP5dg`G-x{umQbShMHx*bfW8>dHMJ3)6mzGqVUjJXTKhpU`(@FP)PMfv_Ve6mBs
zTKLMm5hmWsAx#2o*%A)mUgs;wc!^%E(IF;>V;)jNfv^%^_TwumvK<FKK;6O0M7E*~
z7RF!0enpUgo1p1zL57n&(gdcAIXh_Tr%(%~K6}eT_SW$u_p+N7vRj~efi@`TM*n30
z)H81c$B!g(ie@&%bE?LVC9FA92VebK!c#JH499mStoK~mH@YXgmt5s>SNTj}76*Rj
z__-ais`drf)=7TZl{G=mjU$ssU<&voig8tqcO_hTQ~0Fhco)Ikp2<Bk{7l=7ID2}*
z2~p6dN8wH1wC<s~Uj}bq24y%@M+7jQbaDc@bPF~mmfZI+So9EI2F`>jR8r@pGr<oa
zn9EF>WP%&m+o<b=ARdGYzLG+Xll-VygC0@}E6{VAeBUOA0gIW5q*C%t5bOjs(m$Xn
zrt_98t!#w7%v$wI)jCLlp%6&-E{W2cDBu{u2-TGiBV^eE3x%1gZ|#~nzmQ!IxN+r7
z<=!lsE_$OIlj|-V@0zH3<>)<!`^KipO;h4*+q*k%?U---!Or)0E;{y%cO;zI<4-EI
z3V|cOvt}JszP!vlv^->>Zs;}%qk)tO;N}K(($E+M`Ov_v5QCo%5GnK-fsO@N=HesY
zl9kwC8d2o|yGx-q7OIze4e3FnkSPt@hfcGzg}$zXM~-(X;v%|f0fx2uZ942m8~qx0
z;((O>m=Pwb80j3S4l->Pw1a}mjbZvX@~}CppCKfHi&77(o{obBaXy};Pq@VB0y|Hm
zp3qTFZsFQ^_WePn($$ho#%?MiA?C%d3xq(lPy;(!qFSsey=!C@5)nduNE2Ox8lbIS
zZ8Dk)A`2RJ<>*n5Y*pKJ3T8oc6kcr>w&Z*awCqL~{Aj*kO(y4S0jp9QnC?YU3DIO|
zv~<2&nO_XxN`3XqhtfaB^z;%?Zbwqc%ppClm=PD9wK&)etYyoc>Wo{96TaFB^P;Uh
zVJ(=+k6X(Vb&V6|k8Rc9!)%HQ5A;M6N@(PR{~4t<z9f+nLw2iIuhRL|mcY3_<wi8Z
z>9Uh-q1adCU}8Y{Ncmi?1*b_t)hM5lB?Kaov_t~0qOMV!_GwDx<~4`%N)RqNkw|ud
z0S-rqRK@2eB^L$dDrMq60b=y1EfQJFDA!rFqzln<)|xFSI}PnQYHH>40TMBiayv`S
z;30K6lPd2>m&CQO?^~$#cqnIcrkqMaY!OH;3XJ#_tBE|yQ@3uO2tLvX5*@k{45b1p
zN?QHS8VR~b=$BcjhNzf&M=oGttQznIxGPGjkx-;uk`{+!dQlowH9ln)r&xL@1+ckL
zQ$U=>F;h3i9G&(><=Dju@<AY{Tuvu36#S?3dY7D2<Sdf&XXN}fIX@$Z$xG<SK0Eou
zjx4bgG3<DTY&(Xpd`5%OYl@i&AsxkjkL<#k)d;(dL^?{ZWZ1zp?(BM5>1isIbeBvO
z$uuxbaxan8lSxlxGa0Q$8Q;n1UPkIEJ3nD{*?1~&UM{9Hg%N*$@G6$BVkYQkX9C$G
zTXVETw(Y@u!w_YkL<U><&qe033?QiBd1!O^+`r<Q|B7q)E3SQkYyWG`^;53kr(FF{
zxyGMz4gZO&{=#774L?V^+MgQ?@L4$iY5u2NCri+blq|s)Hl(_bOWz8no?oz6j9Zp-
zi)Zp?`er-dyf{-C&utvfPH;U~=LY8&hCTEtBRDHYye8@Oi?8tkBVT==BRAP&<?;&X
zy1@F4pF8vUPCk)amNb$F1!UzUt;`F7j}Ny4y6cm6_Ku6Iif4?|yJn*CyqYA-2Ri_Z
z?VB&W^1@0MOVYv_90_jgR2`Y+#kj4r+uq%CYtLP7E474TsDb!BFjYG>d~<YqH14U5
zaR=t|=fv-aZinKHPu%4WsA&(dv`K@BFG^UQ6J7K{inz68rt6*KZ^F|62{d0s?aiO+
zoa}}a8gDkv;{4{BSI&HH#~Uk$<;OLK1_vVZOFl=krge*JqT+I?s3t1PF;RD;X|gG9
zE}E%(r|C_2>Z#x+z2K%~J}WbaZ(gTN#HeMGFLRkIc8aTa@JIRC?j%RQ^WqOe?}t{H
zKUr$$pXKKeL%(<WR@iT{*vxxo&F{KyxuD<VJ$H=k=L6FRr#`Cr@P!ZE_~13~N#<<i
zOJEaubI<giq!Iq*vWBD?zi3o`2@AE-n>KDMcD&t(`qSV_8Vu&*6{E>uNIDvL3te+U
zH!2$8Usek=!;gZzjY%u{Y+M;GD4acc%l>9-(oP``Z91HITXAY-C7<K%d}|^*??z}c
zlr+M>jO!^+zKP2!;YW$eB(7NT_Mn*O_e@-Pz~SeC&A}hwr%vB|e){>Pg8Fzt{R529
z0X|vE6&A%fPXb3pxWc5x$Zwd-gH-{)VLl%g2K<Jk>j00@DtNc}R`I))w<?nyz0aTi
z!SnAw{{#Q~{uTC~JZvcBHzkTnlSce5XBQ;R_@(K?iXb12(nR}|QENd%9Ow3(4RLeh
zik;%Oa=Z7$IINl3$Xw@q-tA+vUyE07U*MidTHJi)toZJQTNmCPyfv8Q@Or2APUMG;
zE96bq+IS0Hafu%+gbTMXe1GsZQsMOj+<1wfWMLM+X})$o@_u8IgZCqR#SA}5pM&2%
zgRbI-F3-fzTn9nT_GD=R=8RS~ewP8jwQ+OBiWx8WH&^mylo&sEP$zyq08HU036xq;
za^Gy_^AcH}8)qiZ;8W{--m)t<NnvU8LT~v+d|Lv?5V0zgM)Lb=l;4fb?04DhnApZR
zn1Xk_Z+c_SIxL?RGg2n^@cizX;de&g9L0?S{O)=44_xoNR>+&Qx%sBqu6K{$I!=Ss
zgef}n{uvsirev*!ch41k-+SAO>p^+<ow^@2{jdpFg!1nD9*!?fxHcwS4T<d51ZeBV
w$;Kr|Q{2%Mv$y=*ZsrZioIHMG!kI<)P9=@-FFUf5X8cmG91pDUF{1nb0ZAo?=l}o!

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/vision.cpython-312.pyc b/model_executor/models/__pycache__/vision.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8b6e489f095aec5e8983dd0efc8547a4e36aac26
GIT binary patch
literal 20197
zcmbt+32Yo!nqKvNvYU4|Pc<oCO;RLvPzQBc_h}uLEZek=R*O|6o9ctEZt9xu9ggG4
zkYgvNFtZ~n<AJHg07LC~VD2Uev`CP62MDr35TMGf0b8}2Sd(>-OfJxt1{n_!Y`*_h
zRUZ^(d%R_{`knv#-~ayizyElp|5#S$<nTnzZ%2N8g5&;<GWz4u5|2eQ$KB#y<amxZ
zM7d%0*D!2A-WWB;Ov9#_dDv{Aa#Pe2vkqHX+8njT?8Ek$W7rXM4m)G6VOPvO?2eTU
zm$7<7)HCcsA4}95D<3XrW!7j#ta7-LrESrwSoLr<OWUJ0vD)F<m~Yq@^AG!3nIl>k
zs~@gsX=k({);Qc~;EbG5FEst!pyEE<jC>jI63Rbt|J<mRtut~*IKJ#Hj`s*IVO<@H
ze{Rz10<6x9x^lrJIJ8>KpPu0sR$GDEO2L)y)5=!~t$el6GHT{)-ZBrb=M8-Adj{So
zwDEqyGjUw)UHs<jgi79U!^UywS2=3u>))~tckm5DHS(Q+(+D_Sf|G9|?1qCvP_P2h
z`C=Gqdd#qP`KXb4(g?#nf?Me2n|C44uM>KN4cfTh2qJI`0JlEA1+y!L);4P8TT#=G
z+0%dP-!t)TYvU#itX-~S%(tWd($jOD;GZtjsMrCRZPZ`OcLF<=zFk63p3-YlaMaBQ
zLH*5q_u5$TJ<q^qd<|@>*M<Sw^nx~n4vyc=Z^+}?2P~_Ft$Kd-@2H7pgueZ6S%$a$
zQFuIq!u&>zp;3xaYZG{EGfNR3Yto0`qVm$HlOMz!w)0zo^)~!%$KMVe8b9=m-aDUB
z{wzv)_+1!f$8|$+&u@vqr-DYsv~T|b#S^}iOo`!<R7^;XC-|U2u^$LWqv1<YA!t=B
zha>TDRIwcq;({0%QEVq8DM3Vu{fwAMB}Nia#c}@nq_8g<2`3dBB`<_U04YBs3IH34
z3;cmZd^9qKvg&=Qln_rv67l`vk;_7yKNO#eq1<^P8jWeKOiJ^ZkP4w)G9iXy30{bX
zCc_vpii8-BUsl?lU4JzpM)^=Oazju8YeN8>&{#M%E)b5cNIa4XMH6FVEL%P@C5pf=
zG#L%2MiXL8F@_GHndMSqD$b7-v!y22xW|5!-r@v~r1r4!MGn%<%o|81TsH<yiYxR&
zB9T(3rj%WYBr*5U2&2cTphdBVLh*1+2!#}9h~_#KrL;Q~dSfaaRcpj*z*4-SP&gh>
zq{2kJWGHl(drav3;b?y<HrYQJncR>Hi=fMfYg5~HY`?rs=#NG&^-o^MipKk|fV%xE
zC53Ck$W$sJs@Y_}ic#O>b<qcK?A3@w(vH`6xm;DveRGZ2tXGwg03wh*kN+utzE?y9
z-atfP%x~mPqvjcI)WDnHat~VsD{m2OycK^&!G;ZJd&~TD4a~3|wNz^4?M0=Ie5s?T
z)R`}J7L~eYxNC-C_c<=;QYtPmS|5s!fP=(i@zI3h7$4P0uUNsGQ)2woh<0`{9B57H
z@9_(G{i)#=mtw{Anl+}me`3LTrj;1Dv?0xf^1aiB32VM_K7kfGpK#Z?yM|Livtmh3
zO$s6{JmbBP*ox*NaS^!1oD`y?tVD5yLL<>|5=)&V7=ggFxQ<$O;&r3`smb-}@LEux
zT#wi9r@4prvRRvK_useIKdNh;F~8%<HFYdEZIPR{%$R>=uV)L3O%Mx@38AYIJ~ghm
z)y%jM85>WHXs106e~zOxqYkMr#k6_TAhx6Eu0g3fl}H_nO-6+nHj%&|62*iVG>KiP
z6}#!xgO@g)0Gp0dO?w$aAf%3)N<b<kZ*)98zqQ&CEs~^XO><8?oVQi7x3DSY@kZ5G
z;w^4Kqq_!%Ws)YTVdkL`Rjf#!+z70VQ=!EG`aY(8GtGVKY5C^3h#LXpDNH8AsgZFe
z*`9?-p~V&e5I56{cJ3cfji)fEAzG;L$HWL9iVE?u)cB3gwMp_+!|f&b1j|H{4PrgL
z8tBDD4~aR(-J}(BiYXFLiTzZziC%;B+C~*++Qt|WAjv~PgBV09BiD244xt?&(knm}
zKf&wwZ*eO|vt@9hXYtaV{uK_%CH{Bxv*PBg)hkA;rFF&1)z+=pC}rn-^(ziaIXP$9
z=PslkoAT|-S;}B(T`+yl;YX`N3LpsBS5zeny`E58Rk{+sBlycdwAJW&OiQ@>fFb$`
zmZD>(T3v~g;rQ4THnV!(FsX7XXkATil2oFbUL@+pCVDXu&jid)%F=5${*tuW=^XG&
zbwRnR`@XqbZOU3P(M7VRgvDt2n4su25av)>jZrRU$QWYAj1fkK0mcjrn~W)D$&hh_
zvmt7Y*)o=xJp%(LRfYcSNplm#6sw-JQ8ze5yOD`u-6%Qt)qTw+eNAcZkLYVH>1!$O
z%Ue>!!|YibYkiy_b3ZX=Y$;kmwY5#JdD9TIp873F#z8Uj9yodIO!3)OP6g^BtBZ?9
z)n_8tpkYOi9xiTKrIoH~TyZWk7L806x2#l)iW}Z&crlIxYBC{0eh03wBQ&6@D?@=`
znPMIR3~>*T6!+q#*d|pJ#OJ7J9~D`XY#?zzl^mcFC&0v$sc?KmU@WPaQ_vE{KGX&6
z>iL(4SO8Q6z!Xc4F^wdkJ?h!vBdMg~7!uTT9)~LQHZlwem*ksxO>_UvyzLY7{!h%i
zKebiN1(z#>a%E8J*?Hf#>w&j<{(9CMl<dKW#dUk`+x9;2u3tEo_4Y~jzLL7#_icL~
zcmoS{S#OVI?|J0z{J^~U%JPPT@`i)iu0vAiVaa)9`oKeH)BH%**(#aU9S$|JCY(ye
zLzh&|H<Y*{h>)cM)Dj`A>8uu>Q3ehJF0YvoN94EE%gEf~(#G!?)5dd!tz{znJZ;jo
zlZ-iSMhi1G1aublSzA9z8+4|I(qy`E$Vmh~BBTOPkOSc>;RrJW0zh0<+XEW*0Z>^x
z5Ci9-lqX4B#*(uBBB=|QZxgML5Wf<-5*8z5PK1gH0A0vOifLaScptPMVFb#lcp3mi
zk^`!Ka0N<wNmq+_l3F}ZFCrG}pp>iq1zx9dl4j3XMm-tMQd4@7f|n$oo90$3IeU|2
z>&kiCBzxQMteoYr;Wt~(X1AP^%+)!YPqMAgdDltyb)UK#mR$p~YhbDF-l42(zhvIe
zM4{rMS!jx7i6EqvV}g)49jnGo;CJ;iLBv}1U@Z(cj_F2NAe9JQ5(1M@2C*lRx%iy6
zMMIz!l!B2&Y%&rRE_NmZ7lk+@bY%2m0QSHXDPnyP6_simW<BUSuvR97VljRD;50o4
zT#A*ChU9o+3N}^AP}BvBBEE#iWUVJjPET`>T(!%tpzI1RyLQR0U6OehqYxBZ3)5v4
z8!wE8r=lsvJUSJPDh;aWIV^;sj0@-3>Ysx|O9^Aw6+0QFlq#WVekahd&_apE>?w$2
z5xV+0P@6YghUO`nc;j1Y-lXNtTHd1Nt&~sEO0kExrMVv)e_|{W%=S|v?Yt69h_{GE
zwF4UC;lJ-1@iwqG(yE`~9Cz1vN~F`29ktMtEu)xmvY5*DUD0st5+B}kqc2n>)u<gP
z6Vf+E->zt4BpgldK|*bx2H0dJUenzCi+{Fp;nKnz3zz=9Wnue23#kY7E2#Tgc*A~O
zjkg%mkrpo^RfMp33Hd)3*J*-Lj+cgO_)ZC?!>B32l-8C}m=qS;Kj%1RX{Z{@MHK!+
zG5SXYgIH>syZs`g*B{zmj0@K$A%?KmH1Y>j@&|N=#7SsW>{tgT9O1kON2dhU*fEH&
zm7=9Ie%X48#KkG<K@tg8jFq#O&)M(W>T+J+j28+evfDnk)j#m|O7>ngzvE+DqndwY
z^UiJk*jD#|OrO?Ioz;?W=e?u%c1blyv(96Z`Isu8D#*Ul&Pmn4${#Kml_N%GV(Q-@
zQL?2B`W6uT3fp6X=(XzMVGQ#|-Eo^SGQBLnfikAFX|3ajH;@{HtqP5hZAHU%1JY)e
zhJFS2B8)p$uWnVgu~QCxaNe3WtlFqHb))_EIkaJ0RwVuxiM2!lub@R7#gAfP;!Lp!
zvB}hR*yQ73C?sRlz$`|nF)gFw;iqD;>miK|l8R5w=Z_h^g0T>tGpb&~{8vQte8Upr
zi*Eq-4E~Zg@WP_o^+kVJ*Zh9N?S_T3QrC`qo3eF#W;_pCyBGIlTZeD}<-8rs-d@?;
zyLeXi_DlADT7F`VoVT2k#1}azCL3jTl<CZYBFP?j7IQ#0m#JumqT%a;m{h7_;cKDE
zL^2tn6I(0vl}e(Jz7-U&u6QM;Qj=4uq~b+axYP(%C=R7S6fsFLNiSmbJm(R|(Y|J!
z_c69QsWsDwiv@Zre>ASebGqV^bft7p6gWob*f$MOfvO6;k~Zr#84I|xNPEwK|Gx8-
zCBcpm({wTHJU_o_NV$MHdkV)6Zz68ZSktDom8EQH<3a9S`-pK2vwj^XWX7JhgS)|6
zBF0bKiTmR?Y|{3$jaY&5H;wPqnz@VvZOz{atc`!#0k}>LE{*AAGji%P1PnKW;Y=HO
z3qehrRP1=msPPJyabd>gX_x3>`_!Sf(R-(n--SL!JDzOCRS&iLAa4<!!we1h%h<2#
zDd$x#Xbb-<Ea8#J6(P<PN{vSXVX`dX;0$QY6Hq;$XcJBaV&UtsIN*m(PA1|^-+?ab
zq}`=<4<tqzFgV9j0mf&&0Vt#4Ks15^RE|e@9s|PQNC`<zc|r#MX1<rf84t(#C=@C%
zYJgZY9F5#yno$510SugoUJ(M3Q~)lB1OUT&8AE$*c-5`k=VYMviDStjmLddK?S-Mh
zX|^c{DXj`BS^;l{b~IXwu&P26v{f5vC~!tcm?jmToQz(l1ZnD}l+ng2Kq}ebz-p45
z$RIzX9%ji$MpR0TiQ!9uQ85u?P&GLD=@C-uNXean$Y@|vOk9Bh!}sd5(`y5<DUcRA
ztGXx!MAi^3LxJ<~YHPS8feag()Whq6Xd(>otC*z#?HMv@C~#01Mc5%37*AX!3aQg)
za7%cjWMXXALU?3crHVSrjpK)OT_6z$LU~@$NTU<}>NptgVhNcq1|mstS1M1X8_!)_
zWBM2Kw9=^=2uBm~u_Oq)8ltL0l2H8Z-{XNIY2qWXpiMl2A~A}WVm;5oChRC<%7tQr
zuTC+Igi}GcI7RKQ(5qA^D_#wC{XkQg%Ak^8KLV_Y(b1%kQXHymkMP$N+jtTu1tLJk
zaR~mYq>w~oUHT_UY7oolk9Ig}`->D3hydO42x*KZeiyySXO}#WGXdsVH)pSrY>f}S
zb@Tln41T!l?ymdZ?GGy(;b*JZ^w?yo@~m*CG7nsJ?)8$Z?_u+hwDW~*^SPPR51KbD
zCbG?YW==nH)l0692UV>Ld$U!WCHLk>-e$?({K!@>*;*fZ{5kij$0noKxxyJ8&L`De
zUE}=etiN~h4cR{+nQL-o0crgfxopey;m@30edl9`#cTb{j?~Pt6$|ICnKyiY&x(n2
z_~#uT+gl%%HO{}XSSvU6%Vh(fS&WX2(A(-eR~($hy~3gEiifkWlWg4&>$ghVPG##)
z&v+kf+@7u6@fW_uO*i*0Z2DDI$C7WxCROf0PhZ=@ez~?&>fQTMi`;wQqZg!}qf+hB
z>C-t|EzrO7?FY5(3uAC>Ue4BTnz79pXI-DV%HQ2FyJPO9h1UD7cFElS#pf*;_lwUf
zxvC+yE`PnD?!Y?pFYCMq+RS<YAQHy`uDCT_g@udqr!^LYBfZarzsGN?r}diVtg6#x
zjD^!9@02j5jcF5|bG(txN2I~Z<f=dlI%t}eW-PpkH^WpWt#s9+LsI)wANqstiBpZ>
zW~?dFDA+S$*HeYx35>e>nJ8Ob0!+Ac{$zu%&a1c3$H&=h!<lVnSlfXO8mKuKP{4&w
z+>Ap#TYpYQ4CS3^=R}2?E`H}>I*a_CPTo*BTd5~ZQezQpl)yz`55EN9FHFTDmefU~
zb5w{1u0~Sh0Y01x!)KtzO(V%zpzGk7U;v7)$m2Nc3!KNXF*+3=p`(Ba!mAM+MXa7l
zO2!QV7TwSyseyzhn<FBmJ0uT84LYlbCa|D`NX3J}W4Nq!N~#eP6@C}f!~0aJ6&wm2
zqfitM0dS%=YC+r=GiE^R7?1Zo&!VR2dqMS9vT@a3FR&nA(E(jNTK;ra=P1N32|SS|
z$*^ZWEGBT_6Ja8kUVY+qyiWz4VjRCB*|H+7zAAi;@wnpDX^IHBX)?@<#65}=F4R<H
zY$`F86p0CfF7Y2zx9_n^G8IO~r{b5BN?B|&R20LmDpZAFps3+*CYu2oN2AtFe23sv
z77-S~8md>!EMQ(;Qj>?H5wtM#qziC#agAS9VmF9W@en^5V!VMdi`PN?5qkU={3ZW@
z7sPcVSJ|{&(JEK8!ValupFaMudV98dX!`kFL;GTx+%S00AUEu|7nAExNM>Ko-?JE#
z{X6eX$o``wX`P<Ambq`;`u5FlXMJ6Z8)aXwT)9DZ_ARwYgNLP!M`Y$&g_-2P?O(3z
zmFs$!>jvbyfu)9fBiTCm<Z2(ff>~G3^ub)ihMe6kd0S<B>jJ-c_RhGp>5$xhNU|UL
zC@I;Ge`Yc^S|zg|a=flxYTuFd4*`Kk{@}8Ii|pT$^>0P?p?|xy<G6I@?0x?Wgq}aR
z*t0ma*t3+Bx`%)_mAM)vbE9f#TPRSNRP3~BW0O<K67fk!3KO3L;H2+y-*Xk4+OzpU
zL<XK+&2v>Y2H`dalUNmVdTP{E?5%<aR}(QX3QU?&0Ix~LRPg;4#3G3%UF5(_sDYV)
zKulqj@4E^nM?r)m<f4tiLixtG?7Zm%bKcyyq%8-z*AWkZ045G%Pf_nYhBGc)1hBki
zFA{Dxh<_VlwWc7p>f;)?Sy$S2&3KIo*I5W?>T?6adjxYPbLE|V<|1$R+B44BzltUq
z$69z}cAJ?9w@>5`12#$a!VH{@t{RPSH^8yhY>G_VRXqx`d}q*1=AdKNMXRhCRVHRi
zy#cmy(&l70abVjp^%xHMC;}^xTLJioBV%#$_%e}<+dN@91Xv$(*YmKC#K@(o6g6hY
zLwH1logX-I=EbBcFzHYrt&en9Ucfz{7+v29T!Nv2niNyiRdLBUT{Wjj$)##={Ut#p
zV}~^XNH%n-iNyLr=SO==GSi5ZZq|jhrzz?iXee+h50tPZZC;%)Yzv0GI>u9iJ~=)$
zIturNX4@1@G=hGtVDN}SLd5kDl^jGQ4LZ-r07B(a!hQ}V!*sa;{`0ALs_0Z9m<2r5
zMoDcsRF6HgD=>iqG%<l|AZpYHIy6Kw;Fn^lnnjFA>dLMH#b6z}#!xEsym;|qeh^0M
z!0y1S8wUmkdINa(1~$=aaNzZPBc0S}w<%vpP*{c?eI-s=ItH0jmLkJ+NoE$lKVtu4
z=PdlAhKP6zrAcb9-(9(c^o<SV-zFwQl!jOrQK3BJKJDM`$EHe>$M5&k+@fVM{O5Ki
zYR_W?(`DhhViN_#(UQV9!BPA%;3^JUS;8mz55;v$5w1(G+<W6MUt_pJfp`xCA=H_s
z@hmu!#{|Vp?h27^Mj&F!!mWx4yG^meu*bzX#VTBbr-6snMr0J{si7mTv0zd$gcL6!
zUZ7o4sg2SVFhpuXN%%CPI`iWy1=(r<PD}<{uXJxH6$Gb*wG}HBMR@UjjLPhVi^SvV
zqu#Pm8op#1#ShWXMAT@*>kGIzcX1WfbBBK5oIXZA?25U4Z~jTni=Vm8^ZuKA7WOS{
zUi9DDBY8JU_Kk3YZ`icd^}*?E?XJ707vA_`>b(Ouum9<{7Ee!~mTGt9Dk|qpbK^HX
z)5o4Tx#l)pa+--`?fz`@z`eF7CSx;B^?KaHDessueOg)bLt*~t4-(m)efKN(&)9Ny
z-#l(a1(xldvb}TBbl={a13H~qd;PqyaNzcYZ12KtDcEY|9k^2DYj|(-&BzZfPoIA1
zZ+!3EZO4yYq!m>9=IuY~pRwYmh{L~ZZ<g)N^WR>)BCp$e-@c6s>zC~TjPlc}h0xLk
zxqVl*W%sY_dsZsAs@9ciuB=gN>RWP1E@&J>Uwpok^X+Dl%3t^oR+$wyLh88bc!h!r
zPzc$5o7DK#5b=xR5EGMFVT8}I0c<R@nb#7V_`VTRFz5l<IkI+`!m%H=P_eS1D*zdD
z;jqh>S(w+-swomacBtoVv9-MTu$5>uJWwd=pitN{R#GSmio{xWS2}<1;m-^>mh)B^
zEUWw-jn{xZJfY5v>ubQvdp`lsopz+%Y1Q+IU)4e*8CB0^$_n;ex=hC$3fDnwvVm0I
zLYttN+NvjA1{KSrQ3kqy#)C_M_Oyo}({J%OphcybJfa?bjEpzFvj{##OjkXyWDOIw
zs|u0jnbI?AM6LhnT9np5UHXA3ubz3~{Z(Ts0oc`zPq$TV_Gi?o*WJMZneuoY+B84i
zf9+CIS~KOT7QKDirBfnZ&Mg0m5_&>C20e``H9<WGIH?jPI_^J7d)K55iy>+2cMvu=
zm-ZG>xm6#%@SCpG@z5g(nW|K~UZ1W?b?9lmUi{}p5ZB_1D%k55y>+H4{^JzgNn;Oa
z)2*iqzdUZf=GUjX2>RMwQJ$_IHGRX?uZo}l8kD050w@RC(0Ppqv)KNXcySZGYU|?n
zH|Eo-bk(z0I8&3ZNmpD3cH-T1MY@JXSZed!as111P1imHHskJR)Uo&s=w7wf{zB;*
zd+`HDepP*6wcEcOCs6Slj$1^DHF-7d8-sya#IOE1#>)6p{rW1V{U!BvsZPBnMII0K
zObqC$!Y?y|v}~q61(QjA3b8jBQrKOYhIB)^g2{)*bYt3;ZeS9WNd@wzWSY|T6LjHo
z)swD6>!$j=schih>4LdrgH&$Tq%uj7=5(_vVKgbSF4N50a31ANw}Ls#a0u{*Ov^K{
z#jOos>r^q!w5D5CNs~0Z<G~rzg8y0xW1K7N)Ad>_d?1r)Pp`*Z>GbSKuS<8({4$;C
zwsbrG>r{KB1L=-kC}$-&|1#}#dNPQVYk6lc4BBlv33%sQTsm+tZ@lX=EYnpquP(i`
zs4SqDQB*x?JI?Vg{j5ifv@369TJw=R&l;&_n4s?Pf5w6Q4gHNyQXa|b)BR)cQhq&u
zBkMW(l|Dz+_o<t)uwU~7A&t-kizLF6Rph2Dc9+ITms-<eEp~T(J+~uGwOEPMdzE@Q
z`!68GlX!-&vqb9~3Y^qJn^auzykd^9Seb2EYCh+cL>Sso70Jk^B9#nUgiW1RG1Um|
zqUT^_bX1_PVbs2)b0VS^Mr4%F*A$$<FwFS`T(IZW6)1v3$yQBMZDkm5KB$8168gsa
zdIM*#3h_;SgBvcK46?Oev+pKe?YpV8?}<n(lJEGG7vSr;d)c60YDgEeKpz5CAvKK1
zZsWsl-nu1^cS*}6F2Y9;;=;v9m}O**ml)Z_EYinrprE>I<K{tF=p%?x$AxHtASDce
zcCWs=kt}*<)xX{g6JO62Wi}0H8QA*;gFgjN?rKy@?S0klZB(qha0QWJ^_u0sfFxqx
zZ^czK`%~g9%7aF=&A&wYDMOr&fybm%oq$zBx42%1IiG>5J8gIe7kGYTxMhGKcbV~p
z%r8t=)o)4I4KG+Y#=Zf%qXW;pYMW~wX~(WHe2sPu7m;slS>>E&`?$nKUF1{Hd;LEc
zEJ;$D|2w%A5cO-YK4{o7*M83;Z$I{qMQ+&g1-owirme#8ef-^MI7}aa1*YP8PfWpS
z9&A+O0Cc=4<`_OLQ_P6v@`{5#luIEznpB+Ok&&s`6uv4Gm~G5F0W4@BX3$NH(Tjx?
zh=h!oN`=Zcmjw}wz?Mv@e43-+Gzec)tZ)^;iJ%68?+_w3nCG}MD=Jp?_O{|(#kVXD
zA%2U7TcFoZsh1@+1qW9!$O04M5|#f2z5bFaZ5rn&Wk^t50bUbaf>Z1|Zz>h+%MV0>
z$)UwWl2U_tt6z?k6qmDFa#d)s#9z=5{xQujR=hXpYZDdD(~b%a4jdc^Jrg#nPp7i9
zKSQ&gEm;U6D<lg16bpQXM)BEWLR88rGLK;jL6#~8Eu>FPwZ63oi^`DN>}^C>099Q2
z$Ag5fo8m8UAFAtS({f6kI_+WrdZfmyev}BGpjxYV8Hrhjg{8zF5QQAL$s*#rB=YFM
zJ;V}D^@AJQ)r!A(3DlUnwi0y-F)~Kqa)y}8QyqpuE}%|eEzG^CxY+OvU+`}M7sbU;
z!VNIsq1Ym^F@^&^A{*1!S@94}3YaI!8d@dQpPf~MPAy-#uf_iXs7GlhKSpF4KBoN!
z&bvA5*)n|uH|lCOXREhNKmVDP+jGK@^`H2w*O&b7Rli?%yKZ6ouj+d5y$(N)<UjGK
zsaa|~_S3rMmO;5?P}+JV+j0~IlDQ7vA4i+iHn?;(Yv22siL)FuNR}GO*CloD$7O@&
zb<gMr_m96TXK$L1$@X5U|KLZjOD|rK4_%P^Us^F4{cuiI!);}ENv?*ht#SU1k8Od6
zO|9?0a{CqFTHpQHg3AoQsSD2S!-ay1CaG!D(nh&yP}=_d--M+X&iw~L-hTe$@)vV;
z!Oy7WW0R%XDckFxlylAN-+%S?tGP1IoO`*vRW7FhTzR|X?#NZGTdwMmt2%O(&C8W-
za%I~So4MI3!Oi6+U)-^eZB38d{$+Q!?CwU)&AnmCy*zMA9ys+kZ^#2@W%pT3-?1K(
zE~{I1_sH&^#prV1^D_Q-KTp>l)?;*kgVeA&>)Rr2e?j&kR#yFB@KCn?usnEZ$uPfr
zu_D{hBMlxx$WN+2thxYc*qp0r*|lDFtzXzDyE+ytK6Z6KXxWe}Z~f_^pPjsOQrdVh
z+ja<7Gg>{8yBU7L@_MPh_XGaEck{#c?w`GK=M|}c-$!rUZ$F0Vep=f!A6;(VC^v6h
z+Wk>mw)V)(k%uiEKWn(t0GFXu-M3_u%D3ly>z94qvadT=+qzuaCD(R=7_A=J-3(&5
zo7ccb>U&Pw|6;b~0@?tD)=mxL+{xwY0l9iWD&P1Fpul;hoU3YIuI!d8iL#X&rcdN-
zl~PUn$F}yIuXC|S_6^RsbFOM!9C5WgtZle;`R3(E)qz}f$8vSATuoO!tNTlHD>idQ
zB^JXMT(0etYx{CY_y%O(z!R_C=b1f%`zyXif|CRLtlPM}ZkxPr8=|i3hNSYHx!SJP
zy=-QmXXXfa5)?gl=NM6Ro78tgI{U)?wsW$*<x$&Ke9MTL`?g8j&PW$tx?lV9^l8dB
zyf^s%uG_mn!)$FgT%_eSb7Md9%$Rf4eyO2HuI`y}<SH9-?zV;V;4G={sO&z9uxpib
z#s(HB@|<43=abg$`;~qFii@jQ_gOi2*zl48%O0>kICNp@#!S8B+n9B1lnz}0yIGoW
zU<a(AKx@Z>^@FO#*R#Q$asaW|rd(y!^oar*<t+<sa(U;BCFd%i+xYelY|VzA#hv#W
zKAMtuoRsRHpE>cUu4}PcuIrmQ{;0lT=EUDNbj;au&0CkQ%FTP{T)Dx$x$1QbJxeaR
zbtiW3)=H^7xY#L|Zvy@mjq~4<%e!y7fOKOgxTnlNKPbBcvnN*8V-`=^xY~x#G}Qug
zX|O)#jJ4M3Q=pvNJM$-5SMyKTOC5W&t<QbzdJa>vSabGvG_+VH<k6@eQs|4%$IM*a
zNy8VP4`8={@%dJ+;RrJOji5jh<|TK#@l2WdmmM`{D((Ny<38gv|EG=aGmU2P*K}Ao
zHFXqXUHoe*u;Jv0^8(HecCg{rmYTSl9I>Kaf5_j<JjcI;zvUJ;Mz>ncY36CeEgh6)
zY`8&NoVOQ(n`?d0Qt<Y!b+3oM5X8-08WGO~1<F@F1z$2ga)QXGhc~9}`9Aruvsy=Q
z-O5EsSL*@Tns=+viafVE#Ao0J?DFG$P2AG>zCGXP%W!iR;YRo6Ry~E;t{Hf?P2~MC
zg^pi38=|vDgSF@kn&M^?c}4QADAu>?(J4FeWixXX&1?;?CcHk5v~w)Kn(*0MCy1d}
zJ@Dgm<S)@@h3`WPtGR{;E{)g&eBas}GiB*A+>|nFpWj>qAZEkh6XYn;2)047p<vvV
zh;WrcZj-nHtcK}qqtMo&Rx=e@F+xiu)f{0vT+YM?19YF5>C8-l4|>>!6aOa-Ks!zR
zU-bIl^!h(|DdqHu7%uceSAwESksK$LsJpNzeHC{q^(}f;OL(+RtNoK0_}3wdfGMt`
z4EtKQRI^gGsd^TyD?$N|1I<Vh{~q{RL9b*N2n%ZnXE`KKb*{ocUoTg*NnJy7#nANe
z)%j2DW$(IY-E+fPd*BmC*=+Spc&>8p?Ay(sIJ~p9KQzr9`GI@>(n5FEvEdU(`K<5l
zI(7k))GE(Y9V_Pcmv)?3Y<*_Om$LSzPaLk<%9-QK?k3sYlyzWG!r;<e%i9fX{5j*?
z@r8OEL0LyHt9!dv$D)k0R6${>uDiAK=FSDrl8qfc*{c21Cv)cNWpjgUZkRv0xI=E-
za^F0NSl_MS&7joSyVP>OatqFHS1oQC>49Bl{SJxr<&5~RX`xNwOCuslGW9EVFaCWL
z`lgZo(T+Z<BGC$S?fN8)1CeB|NFqg~+lnIWVos!}ok$x?<xn?1g44gQOtO!*mB6a6
zCbds8lYOEv2F?<%i|`+E>Su|4s`V#QuwE%=9rM>f1od*7YQ0k6OY5Tkb0{J?j};H=
zqW^O!N%l=9`<z^{YRzbGs~_;UP>OvQew<R<>GeFl&f=w*FToOK9}FtZ7uZd`!)tx^
zcP=HWM(L~6lY&)>33Fn1nc0Uk;vK5^K2<nQ(pM&@=p&QwQr@aw1!Q;9#D7oCC=Si+
z1jgm7zI0dYyKq+!|KiFX(F@kc|A<#(=~hezg8?Rlq2g~j*C*WiUvq7ra7UN9qkqS_
zf6WE|E4T00T<iZenhnO!IJ|!6<P2@U=6ZhPsGfTntT=7`jm1549^cE~w{%Y%pI8ls
z+PSXzO*ea=a7aF}*Be^rP4h1;ym0%~Cmb?Qh75+D`R!EOvtsuc)=Ql`S2+58?(Adw
z#U1FOJ)b+O3<nH3Z{>=K5|41jcjxTR6$@pc*fb6-waE=zS6D0PM%MbrE>_iRH0)j+
zhJIn#eeWPt5W{ZLoPtvDfZTFW;+mmpSk^DRyg2n?`fhqLeoy$f(Z7mHeaGeY6SDaP
z^eqE!GgCj~inGFS+>rAG7Z1pu{uLAD9$Cs}rru4@rf1^w!u!$NQOVOSTY4T_sB)#N
zk~-iYQ!r8Dk>1lnIgD#{JhrjqCa$w5*U_EZfB5sV{RTrvuBQIhYd2q8IJj8zVdLFK
zxoxXlvvtKpRgX~h^39i*YdYnc&c!ylrf<bU<sd<|f8KO+$9zhzTEF68Ww@-}G@rU%
zzv5z9H`l!59{%x@y(?@KT*J1yzW3U9UVH3i)yIv^hNfIa?XAX}jVmTfZ`kzV%XeS?
zFmyM>@{cS|*4%=+mBR+EruH)$duPt&oiokuU<mGf<f&j7?W761X0}kx96yh11Pj#*
zBX{Z~7bB33I<6cye#>a6&q2m?-R!#6e-l)tf=4Lmz1h2Bp$y<)X6AX^KDfDe#m0)9
zT)9v3_265u6&EYOKV#vV8GLuw?5_DL$<-)ZnjV+2inOKG;A32a-$&(DE0hPwy2ce7
prR<!ia&G<XD=QAlIXO?&yRXf@w&J3kThEnIPN&urFLF%&{eK+PcuN2P

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/voxtral.cpython-312.pyc b/model_executor/models/__pycache__/voxtral.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d7632dd76d1a1c7148cb87972f2bac13a002d0e0
GIT binary patch
literal 37827
zcmc(|dvqJunI~9yKL`>a0g~Vwd`Kij5fn*1srOs5CCZj4J4WQDA)-i;0!XF+>cJ+v
zm9(b=Wt_IunZ(q#drT$XF+KL2FtfcAWw+<V{n(w%?*4&l&;xW?-YDBSXS(<7?!cz9
zPUiIN?C-nv00<Q=ccxEINxZmq>%QyW?|$$4U(3s#9Ilx8A5YkBaNJ+fje4;sxLMn0
z;<z`sC>J%vxG?=1V}`gfY>b=2rnot5Hc*-=W{F$FRu(tMxVSBBV{uE&9(RNtac9`c
z?hUcBu#44I9<E@&?y#Hvdg7JgN|whOtBQNWUKY2-eDUgVb-X5A6R!=|vNU_lAFm77
zvA82vA8!aZu(&hU7;g$Uv3OamIo=X(i3h>~cJGR{#@oVe@%C_gyd&Jf(#m6-;+w;p
zS-c|F8Se^r#e?Bsd`ox>OLND%<6Fa9S=<xriHE`=7O#x;#<zvHv3OOiFWw*SXK`<A
zAih1koyC2z9r2yvoh)7*+ZEp(-p%4Qu|4s@@F0uV#`ebdh4-<zKej)9AbcQxFnln6
zD10b>ID9yMBz%NDtBW0t9}6Fg9}gdop9r5|Y4x#_@l)Yb@zdec@n^!%#Geg68$T01
z!=5$7&c=trL-BLrbL_q`_FVk=@bfI*6gwZk5WWx}4iDqLIocAt7=I!BLj1+>i}5do
zzr@l4v6tfEa5(<u@Rtpok>j`Vm)<kT%Od=8v^ClmZI5<DH$^u`JEL9EV06oyj__|7
zxszP9`&BNw^*y7KcZ8+&AT7k7eh;gNuJ9`?wHK+|_#yt4I;3gOBJ5cop7rymN}gRt
zPxejz&#aPl0e_i)g^#>Hpw`0b*p51O@RgH4S(laF@GtT^`4{*vy=Rl3y{BXe^Q`1f
zl-#9XQf(nT#&YgP&OJ}bIeya+9Q+$<VJK*l?5C5w5V;)VCEMA^%*@2pxMaV;e`S`R
z8s&oq$vqkwy~0OFW`yY(UP#_Vl6jP$hy{(3?aTxfjUgeDNK)Q79~&8)h#__4a%Ac%
zYIh!<jZRD-y)rv>RkELtTxYkEW0=2@WQizMb}_*VXZb`TGENOvAH5Pu9-WTQ#Q5aI
z^wfFk3ai~WEJUUfqr${Yak^2m$aT8d&+)0z=_oItW!I5Na`egxK9Zajc*!};PbH>>
z;hQtORQ}?Xi3A37bb4xRVjNAf?wp>QnN6Zx*;!N&lb=ad7iM^V^vduw>oChNIbVpy
z;#yhHkw}6+HXD!MJjeQ#Kz+{V1oS^ijnVifrY4djvFY(~^vfVsJwF?nN>0p0XcSsC
z)lq&dG8;>dT<0gouTb^~4Fh#un4OuK7LtkQp2J<mS>%~uJ$#nGNo`dqgHZ==ki2Iv
zo*6!U_S~_<XGYE+KY9AX@cEa57O6@t8i^f?BqPTrMw3!?A??HjAB!rZE=qp(dPEpc
zV2Q*N#Wh^Kc={Ntp?nB0hmXp$o51vW*=xWAjN*+>3vx+sp&e>lPV}u$d@dqj9iXGN
zG^2%QT2)dNJy343OixdZO-ueKGOAB1<(F`tpNU0A`8Yq7lw5Ms#hGX%$zuW6Xzz}_
z{KS#ji5O;Ga%*kM>6m8k=_#!0I3JxrQFXLN$#Zrhk;E1lp1#UYP0XQeqq1L;YRbqM
z7Q@IWTRVS4AdA+f`cltKpFfO6ro7_9Sfpw-ZQY_rpX=Fbx`rh<BJksAofoh><FsZa
zS3Gj_GLNmwk4@Z=tcS6!Cq^a9u~}>c$##5dJT{TIB3Vxe*xUF$i2+5XB+IFZspy1c
zJDrTgCUEb34$EzJ9J>x6;lfO03Wb6W$ruqN<5WyC@>7y=4Dl#08Lv!8#)+h4oWUQT
z7*(Ja`zcdy)^J#HU&m?9b74c23mc<`uqkTf%~4a-JZ4UDV}_{ZRae-;Tcal4HfD@k
zUo~s+&(2aENVOHEI<-`LQEHi%>L^NevD9+Z;4Dh5h?emVwC5NzM_sR)!)^yh|Du)A
za^AyN@*X+^<^YYOW)@cPRg;^GhbPC8Q#ZY&w43+w)kU?L_!^|tju|Q6m_6!w)e`on
zxEqFW-32aKCDpz#eS?;jwhj+RBQto@bJv^!Tu8n)5#<Asz^M~GqX0F4B>>=o30k9L
zSnYwaX@TV&9F0X1iNROm@-oFTjK`;^LTqs+<R4nKiBO#23RY1h7Al6LuY_1Nl0#e0
zl2zaVQKyDRl_Ql+1RbRGx3&$zw+(M_NtR5(ZR0%mO$!cGCB?wa8|FEj!^(A&d)Gkc
zkR>q-m@L^xM%W4;5zZk4(#;7zHpXrw$H)j9&&WuE8Vdw&{m0Y2$@om~%*0Gj5`c<N
z_S~4=wP*L$U3_nB;&SiI&E%Eosb1PGy=;q&@HhC;+2ph!-zIvm$rBx#xhV{z%DKP>
zGapjBbpg2&)d+rhi+gA<zikuk{#AQ@uC6U*{$|A*9&n=yVnT7wj6XIrlZd>*&2#iy
zdQEDxQFt;*B}=XaLsCHyILu<wu0B@Ln}qQh?rVm5!v#(_k7q%PJa6`iDL|=N0Q~X@
z9mgZs|8z=9&WQv)ir}ahs;GcbxQHL&%Lo$Gr$9h>5kHb=L@qd^!u7eX4JWE3CzVh1
zAh^Xn@;AO!ajzol?-l*MS^s{~zdu#}&|SCK^M2#1duQ6dGwt4)b2p~#jl!2uV%<d2
zq_T-Tg2;dAM5+^H5?)4aQW?;J(TPZGWFnf7ENlSp8rW1Ms99waD&&!|t$>_!n>U(*
z_4%lUL_GpbfZLmOcZlwetb3d2-j;Rm6xp!<K}Rc$upwW@=`kh0Rv|)NEE=h==;4Sq
z-mM#rS1&iKa)VLt6W#mL_I>}Lqn2FqTagc9sXP$@h6!9@M8JVwIsw8JOvv1(jmEpK
zY@FuqiGlWs?!K)1py)oBwjcZl9jGu)uh%&yMB=>u;0OZEwQV%GLcy<m&d7>ip*poO
zerh~<W!<>|xG!(oMMO5-w6v{DE;=LhAfO8A7K}xZ5GRaYUZiRevQYgT;MyFJ6P0{a
zL4idE1x-^RO-9&p2nu9mdTeBrh!<dSn9l@T7y`jyfo3silHui5#3j#6B&vW(c_x%Y
zN`W3eoK7QCvvDPhd<4&JxTo}T&!U;cDFnB;yq#+dWE-}L4coE}Lt?{F&gEb1$kuNa
z>$k3%jE&B;-T&Cid3<SK$Fe!wH7IrsK8XH!`bX1Z*ICgwlyRR++t0CuDVdWPvSelZ
zBOz7D=le*K5lo5E;$w)W6H~{neFv`$uhVeLIL_fvBGADu97@_zroO6#Y2GkySTM{R
zS#D!dZli8)BXS$(jfsA|Kw3a0*StY}b(7YTN4Q<EL=8!Ynm*}NV};*&i&}mH2W7Hc
zeG)akiV+>t5EV6-P?mISc}!~R*9=K**%l7sNspSd@XNRf%I$*n*D7V3Hy-0&&R}%*
zqS>=2>C9%=q)&|%ezp0RkplZ<P2rgui<+-?VNJ<7xJkd7Uih7CD8$v+yd7_*QN1ht
zsx2<i^X5Xj8XKog9Z>HIzbw7IaIeOao7C96U7dIJcMdCK4v!Zc^VZ2uHDBTPDQm!?
z)}#IcEw%j`^*qrp1NYj8W-b|2ds5VoEoxffciyVDALVGBOcJ70auv;jw(_GEb*|@a
zQR|yVwH8nhwjs$eLA(q?X4YX)w37$$x3(L>vz&ne<d?CA*6(1ot|)i)7{`6b@P+|n
z@|n4thJRtYZUBl%JA4Q<u?b)f6sa+^O)@0cp^J`v<2>N#jBsFXV54&exO^lQ8yN}h
zi%lbzI1thbeG3gFXgdCyu<Ue2*Zu8_k=GJ;`u_2?MZ-7e?r;B9g2wVSf4yPu;Y-uA
zo!9ul4Cov_8X!;xItas0;0M%kBpR3=3ovM_q=y1$BUkxA0&F3q2NaYxaC3TAkaGmC
zO+*4EB-1OM3Aqv?mjcrQYcCK9jDlGeAQDXGRs{r^T@?zPK%V$CnwS8aVrwA5^Mipa
z$>dC8u(x-7B6(%@atOs3Y0`r(O!A{inNFEVBtUxi?%v+l7ZP@0n1A!1abentq*9OC
zh#*A3{;3r%QKA`ieUhR2awZE193t>#5H6V_Q#Zl2io|C5<AN|PNLHDF0djsuvQ0%<
zWs(_8fVg}HnsAcICmoOKh07F7Q*e!1vw};=PelbU-IzurI6CmEBU90!Q$7u6C@Uck
zg23`$WjrLgYcc_nkdexS<dF{@;w}=uh>r@dP!R=Jlh4Qm!SH}~$pi_=M0xpq9>pf-
z_$?Gqyon<Ur)CA`@}&0Vyw#~=M0a$&ZC-V6%K7|vcBYQy$|_R_a@Dn|6ZB~F+a0U!
z&Rk97oiC+M{LEdQlWCWwWX8WW>)$E*ccxC~d@XNRztecXad{%sx;yRNlXmUFq3d#s
zv}7|CU8`kX533sUMswvc!<xzJt;loM@`}eEuCD3Li*H@JcS-bbL46>C8d~1AyyLp>
z5*vCl4ZS$LKdNp>9e?O;TIAn8|4#URc-6Zt?b??1Zp(T7Zw%fYT&n#2gK1aWor8HR
zS6!F&1w~&l>+2DHJ<I&caCXN@amUGw?^NpeBj5>*JH*Bv>4u#-k1y+K7d`EHlX0-(
z5#0qvPw@TrW&XV_8PASSEXKi|pK!*;ovAaxFv{z*u7KzYD1(e;TKBHH_T^lSSy#L0
zYJdCqJ7?~nS*gx+?E28PJ734uG(K+RJdHnZYJ2OYdoL|5WSVxYM8&4P*`_06(~&<P
z_#pXbdwy~`)AW2Uu<a9zsk~y%WbrujoW<c}m`KnxG&B^fCmz5QVXq^SbA(u1vp~c~
zB-hBuS7swI<%w-%Bsx7hG9nN}W3;<K*Z?DAl~oLOh`e^$D!ziJl4T5x)g;5+<P}Y4
zqA*Xv*C_ZM%4EW366in`2+9a_xCq~*2jvR?VU#Dp1q$&6q%ykc5L=bP5M`y{EIsJO
zn)~Ie+$Tnp#h!N>E$!*H{yc}@mE<qz2QzG~&f{s*($-Ho{H&SOguIi*43=F>rcXKi
zD31`s`=(L`%l@TNdbD4Av_D^?JUV1pOwhAKSan)bq2S{2(t=i-<vGKnn!3D&BFO11
zU$e1j4Yz%FZr9#i|ISYw0~Y6_irU4F#hdqf#fsqaF|lG>-hxyVsPw+!yz5*XUTS-1
z%l$24Q;+EBSuu;A?Rgtzuyb{di<6?iYk50p|2$QdcX7_jJKj6-bY;8f==iK0X>1v=
z863q7Y8T<1bgkV&P|Qi>P2lSp!M`&{4ZH<$6XI6HZM+@)J;u9JxNJsn8O>p5)QWVQ
z{9Jyb=2r4qqu?oq%aBT3M{p7$8<gYVABM|snuBFh_4-3iVL1!Wp?6Q5xF+g1VJcvX
z74T&4i?V#w)A*^ZpRy!j=In}Uc!JCf3L1yzLc<Vx;6wtSm>p6R0-p%H($m9WEFEe+
z^emt-3SS9Yh3%*d@I840d}S)8@UYpDBk#If$f2@~h+DS~2Ph{BMyq|UU3bbt>oWcK
zR0r*6u-1IrR(wD7|G=N^J0bR+$oNjC90ZnwtDAO!RRpM-ZaSN(8cMr{9=ZL1mrv5z
zw0YU&(?CilpVCXN_mq2e!d1G^DDUbw@wk*tAbF_!SH{%iYg#Df2`MXs4YN4kAEUMe
z!5)m%y?H5_?c5`F?#XoS%@jBzL+h3jAzf@VbQ(hRZHO9)d;!R0N9NxE9p>JBvWK<Q
zLvU6}ghX<J_(*IbK9Nk!^=$k;bh7^#wI^H%ZgDwJ?P6tWK5cK1sYhFa|H=q3LCJy2
zN2h0}l8Mpc>7_X9II+*E<DdbweSjq8Qm3B=^{!DK6mU#NHOC`2)=|wW+5J6~72ZaW
zpay^;$hbj0jTxPxVloOb0?zUXgq88RZ5t0;zr>$X^+Xo|dvJ1<{zYH5u3xO{&(v*C
zyLY7RJDyy4G&(loBZzFs^q?17a_KQK)MaQA{u|^L{s4hgP9u}|BqqLeRSNGQ&)k;J
z8EDCL{#)c%hM04EU%zqthRUSu7v247d;gO|q}9fTm_mdN@pE1&NPljUa+h4{D^F5w
z?3y>|k@QGa4*)eIeu<Bx?o}cN)rqnQ{}fNzBnZDxF*^8VZjH>{mK+)vdmX@HTcxnn
z7*<RR`}4MnPWJx|%_R;az*h13WyCDw>rOc^w^?_W=<dq6x4eHL=c<;msHL0P&b=c3
zyY_-{6LJFmBAm#m;zSj~@6iBWr{E3+4B=tmh@l&7v}StnPbgqR{w~FqDWJ6={0j>1
zQ}87Uh$Am7s=*&2lDLK7RW5I|SnAR(y=xqP^A*4?(rtUz2*=1<4VK2`+7<80=!0WF
zm|STQgNNxsW8P}9?0i(|%UkdZG{D!eIIv_|+%0-L@-|Ac%ZL2v9lz+PUvp3rDjrxG
zrQ!p5tJ&gQ_CDtDBX^GaHHts&Qh7ORG_v()KX0Zpp9n>gCqk0PPJc-898n7oJ`isz
z%3)=9kT0_QvQ*E=+aZ0kLHg$SJC$;xlpUqYfDJgMI%TUdEr4~BWComMw4ijmv)x0l
z?F|stIG`o@4XMZJ+jz2Wbyg5ii;|uJICD3Wn*8O-M%iIg$hk^2(GJ6UbXT%T9umHX
zd&voiH!UkItmE<#9?iP9f(SOZQ4e0z0i^OE7R=b-r2|A+J?@>l=@%^XCZTfPq+hqX
zv8Nz0UI0Fa`faGN<eIn4o9C_Xn^YYbb|9MNvx9LdAU?EW2ZJjuIW^X6LUK%B;{^c{
z)I`uMnJ}@EnW%KOPo&C`!c5E5Y0xIqwKQq+8~yJn_OB2~<+9k3-~_eemW2#j{R!%|
zLb}R_Q)QucOg|J6B6HmvuAib;sbtQgzQijCa2&a~nwB?SzWeghuI0m->QKr_@-@dj
zN7lbb^zX^|_om8!w&UR9mbXIpLd&(Q^?e@<r`*`1<-R+^+3Iewx;t0fu~PrRZ|6;1
z&DJ%}SW}TVnF;uq72vaOS<q0}vbcp;z2UJ&IZ7_=mD4iOV0|IeyvDx5qR@ZQU>?tF
zuX(`=mY)h13e^C$80WMlX#->09yNkJXano?GMHS>0)jm6L_0+#)#zlo8Y}#&y`QWo
zq^YraM`7_TlqD<G^rTmf=`m*K%hculzFCbexaRGXwQ8xt@4QRR0VZ4&j75T8>`H2k
z*<_QNHg9=fV{U_~YX7d`eT~65Zg}6O*0oSRZ`NbbPPVEw6@KT-wNe%H6_ag+Cu(fL
zjr0!nuJC(|d)+e%0l}#8Wz5}zXWpZyLUGsln#YVhc#e&}55)`2(|I?xw_Saw7m&-q
za$e_x4tbkPrt6Vw*yd&O#$$&zJMkqeHgr5fYH3iwB6cXt5i|%hXacD=NCLqiqYQRP
zc1Zgy0dA%h$N_Y>B%89~g4M#0P(WY@?!Tnizoy^;1@yjUY=hw#WpqnOGD+W{^TQex
zewR{7fFRHU5@>~?a#<fks*xq}kTFG)q@1C!5y846^`V5!Mf-rt^&tpW>H;Dny(DJ=
z;!EXnTp5Anl5bge5-M+vNwpHfpHSVeunOcEBrI97u&0tu;buxE5Q}Oxa?d0~BtgSh
zU|Zp*2nCm$)sQXdbr4&2Zu=JjccrEN25lv}3<}(<u6yJ3-P2iLx9IE6_<B-~M__?f
zcZt<q%XOLRfs_;6x~xAW`a{dtA2>c3%=m{=<p6fs+AguS3wTUhrglfl^(fe#a^)&(
zQr3^ETfuFsYtA*c=9=5ynz%QSZQd<5@6I$2W}8om&8Kp;O^<En`ij&ukDXj~%lo^t
z-3P?(0}tjh-OsH0o=qKx{4MKh5nU}ymJeN<^KP!D?Qs?7?fSW=;q8}Jo>|>=Fx_$P
zgRKZwJ<oytR#WlVWcE5!Hc%CAf3~7UtZ2zr>=Y|@u3XPl988&Vwe@ez-JMIh0I>)6
z|G55tsL!+>`%(SM;icAhdcN25pk8b}mMXt9F4~)a?rvU+Jvh7SekN^y=2xFuxVGbl
z1fAl4UhO@$*DULTxJvOzGcpw6jBIU_99w9ofUR;`bi#)elwgnFr!)#O_)Gi{0b!2@
zOVzS%#k6u^#V&U3$pgWwdcg3!s(b~v|FGc`hX))aLKg8`iY!u+ovUtKJeqFpOE>n3
zzW$YA(YGg0g)m9Z#<envZIx?kvpj2HRZ*n0E|#WW8GD4<>K>O-R7N^!B%}D#E{_sh
zlMq?2ytWRhG_pIZf>fG{QOq%G)C`7^9jK@S=qaJ1YCbFPgz8xt?;>E%5Ku6dfPlKA
z4&<uf-IUJM#hg!+En8QUi}ytBET;*oXi7=GiuaD0SluqBURVBVdDw>*tHIE!K%Z)u
zs#z_#2Og<j*^LF=!{<~TAISlhg}iB{nquw+5!VV+|2gz@9l1~EJHrwVAyUkBDF{CG
z$lL<U>U|9xC~!9bwSN=Ukv3QqdaD8*Hj?c!DfseHl^c*lqVSgp)^h`@89s*|kCBFJ
zLg8X*i~yZ+hjdH00elj4=HB7}0zAIe)}7hb17hoe2iG&LCs*C4()LqqHQ_jkGiF0V
zDxb!=qfOR2Y)YFaB5S^G_`2om);FNoz5!mMgIq_g6F|-1HvFF98`j%ay*d2`iNXmC
zuxreivZM?t>ll<TUv({*3xY{f#GE$+b5L-%apEgMjA*B`08+#o>ljf4HVD00yM^G}
zrZ>3T7JVH4N!dOa0R~+JP$T3Qj2Ma@rmroE1=DRaP#cp%^8Yh*0!X}ruxjdVLg+$@
z%$So8G#N8z+<qYPKf_aYs!9&+vE-h*ypF#l*_E>}D*W%1|9u1+CV%VJE%}UdQ=39T
zy?E~A##>2VQZi~WGRyRj69vI%Nksu#X-CoKFF~?ZH)X3k#p=#w+iKsjO!e{9iJZS#
z)}ULlXZ(9oryn(UW}Ekk&HEm_lxaShI`_!ecxQ0QEqZ&?u3j0wy+Wh-0RrqGI~Ye$
z^iAFblEG9arLv+yFhCEz!5>ix###XCtZ)@VRDnVZv3a4*Cj69wzoy{dQ&5<zSAY~8
zk_97@mu;!_<DU!t-R7%?rsV?K_>YYCsqVdVOvVC2q7VO1rTb1I1TNrh%zC>;Z+FU`
zH(MRs-X8so!w*j5^5$G!AXi(LYwX5hUJh!<O4N>3p>~FZ{|U8&yC&0R${zMAJZz?~
zuYf(a#b;+pz^?5t6xArC1Gp*Cf_2DRu+VD)B?Ge6^1k6cg%-MmeYap;ut9CY3UR)1
z%)}rc-U9VU_`fM&Q~m!?>^~qF2AhCpLaK)pl$mEhCL6oCjujnLq_G>-Avu-TK{}6w
z?Ggzr8AfEG);gK1yx@gT(Bj;V&wFVbb_Rw?T;d?gV@X5&+17c#R%|_*^Va3+J9F)O
za)ALX^n4lD201BbZF2&tNjdMFTzo!X#d+!%cP$-DySvi%F1DQ4fg^%h^tVRq^w*(E
z^&sbZVGG_Ax=$D0i;*-R917K+5Q65St-`2)Ey$;GaVTLO7sn$r7eMuo%rJWgjria2
z93mEhlKCjj;wIDyxS*2y{i44=<KLe39})dWNSn5OIlfvDBFMO(e`DOQ6V*x9>C2>m
zz|K|SW26W{3aBZ;LP0MD{}%=G6wsL^Y(^kilCz*$gdU2UFHcX$*eVfd5`@nv_%;RK
zK~O9w%~B!-6*M9P0?0{;`*_;$$XgE%VtKluNA!k>t9Y8QyVkB{)A9?;WnuvGM3yG=
z71K4{>B?@=v6VQB$XVeBf?2gGZ^3VAF-o#?{+_&pVn6|_?raquEo)_Td&t1`4t!Ex
zX$d~^c<)3P2kuVXb>}U(M>YQLyp3Y^b^UNql9OxRv~*#4^U{~aroMa`CAm27rlq7<
z)t#s6fcZMzspOrbw{NEF`&Y1zcZ-fazi`u|%|_y|?)(hG;Qcb7ra8glA?T~pTQUMR
ziWKc4!i%o8H1LA;*l8GeX4o<ghUj+<bgqv>?D?h<B2jD9_NF0f=WW0-?TXoj^VN#5
z1BMVzJ=HKhWia56WGqpRG8KrIBhCybqFbVF)DmF5S{Fn;8>CnAmC*`@xmInELw@Sz
zt5^?p>gFq{{Fp2111r{xTt5Ap>d+(oCsdxV)_)cSwoD~iA6Z{8;u^x9qjH}<r!{$G
zU`W>@e{IyiK?^kVI^)tx*P*nZuZ!06_0b02juAG1s%R`SV`;?GCcbHMA39ocu~N-^
zL$n1Y<+*I&TcQCPQ?wOnZCZL63`RWB_M&=QQEvy|7NzpkdKurY^vWLHRFtnHx|!dE
z8MNz<M4my`Vi~`gw^IzW(ur}wOq1_Iy<NBu;y%b|k}ZI+-BOEk#z2P(7HQE5vXqO&
zPC}&&%G!tzzYD(ZS4iqQDOs;7zt`kn$2j!4<*03ThDE^Dv47>N^4!IqD^D0s^sa%J
zKFnmQjM-JmD&hi+g$vSrLcs0#V@J&m+?5>fU~R59a(S9iOFdFx3PTt*yNVc;1`tHl
zCN3cWqCkf+30#^uN+p+8uVIAH5q9Z|)%0{#7fe7-xDk!Hik7R?S_;2<Oieuyf|`gY
z#;yY65-5;qk{AsoR}mW%Ivwih3k+7&=2nX&Th$oG)~?12zi7c%xKm^5+^lQKthH3o
zspLkqQ77quWS4%OlU?fb!Y^ixWcwu-Q7rl+pQPim<O1VXdH)!<R@+TRn7N<_HAVbF
zvR{=dVv(uwS+Fl<kub<%J60|u-iubU<i0Ljy{g7P0u1AE)<|VnCZbV(Y9s+A5Xl4`
zKxh>bZYk?jZKoIson=cR+m%Qnl1vIxoos3-lQN{2rS(T}qF%v8U9c+ckE6U)8J)g9
z#VjZI5!k3fMN!y8>18C&QpO?-QcGo2)~mn(#jf=%X`o0I*P%H{SgulWIpy>nCYz=+
z$|NY3a*|CkiWCUNkZKfSPo1fVY)=Oi`y#bS6UO$tP(`s9kj6x2#MV@h-(jR_Lbr_o
zlV&CM5~@kS3jyJ~MOI=D>vpVM&F&l$cMfIh&ZW$+RXnzHF7KVaOBJhSy}8crZ0B*Y
z^LWnFko9zlo-PQ4yDC!8uDUvadsH=LD}!QXFk3kwRt}`B&`m@QWx3W(?=;+R$hPhg
zTlZvJpA}o5O_^806l~s|^S2{Ywx&z0>3ZmGS+b_Pc4xeMK>M^fDNh3!8Nj?<wOQ9@
z(Y1N$TDEgg>>SLv_A0seWW0lqEv5j=-H5(+?q$?xx9IQA`Ugb+z)Cc`^Nfi9{xdmG
zP1e&UdfKv{kmw1aTqnwXXm6KM8^$TZjA$3d88{_auo332O7#tFRg|haNL55SuV4Rj
z{ZBbPm{4tfnQQdA2$+(L6jJ&&(cPA|w>?R15HigAO#7mkyQL@oBoS%U1i6b@<*eXz
zv&<bl$tOt>3tEj(KBjYr%ryhd<b=`YvX&O<8wX@#`T&^;D@76^c_!d$0>T6Y*zat^
zIIt(CfW$+;w=6k*9SSd~jE9}R5I|q0N+yzkW+T}=F;>_UlgUKPAOz#G8vu<y-*C0l
z<QMYaq)BW=TerBMyPLA^UeVo~Yv|6^gmQIT(taYji)D*LvO=(9W;($R_=MzR_N$7G
zwQ7GNmCFe52p_-9M-#$rG%!l9LA{6or&DI_3<4}8(^rj<8RI;jRC5&l>ZzfqBss`D
z<s>EnqeAKl?KH(kd5SIaj4CXUB<dAf@mOf1fHJb)N#!a;O#&53XpAGk5}9#i!|R4h
zbabxsX)9I9_*GP$AQTUb4-e-Gq|3T<je*oz$a}MXc`x>f{ywOb+_?#Q;)6H@x^?{!
z=+-$?<$xTXCe@-cw2pSBW1dYNvFbMFK1NO8G#ZH0NM<>=3^$2ONxPurDw5-xiqId;
zWCn8B?{VBEw6$P{q}QUS>%*Rc7lIZD-72{X2-2jh<PmPcJ<%;yZ0$vdFpOw4#7Pec
z(nWcyb=m`emHxpT#yaOD%vL?J+30F@N|0fU&bUaIX?}w-Q;*epiE~8j;I;o2l3)!P
z(xcSoO;H0l=?V$~DLAKV$fKFTEI5klYt-qvW8MULu2Yfcf&yJ|&O7zqVAMcZKBT%{
zCe?MaekiMj&`V8<>x2{+${N%~s8SPqU1mPIrGU)u7=cZ}$TjdP$z6lOpp^|D7~qo}
zJajsUB;a8@ekB4OKQAhg%#iwCk!|!AP&cd`;L~7ic4|~6BZPlMi4bkdMZS(Zfq*IM
zfI(<7SSF(c1ZPxPsUicBjTK}-6a^SfNQMbj<AXsbN@S`vY&24Z$|X`1Bx_|PM9Z4M
zFh{S#=3y0WC1@i8M5vbxDm*N+Y>vpz22F0UAy6(Y@%sckP9XsB04rnvon*FlpGf~t
zJh+Ac640{RbXiNzTl=V?CEL&|HuSEzG7bBoRQvO`?)27u|E_Jn=xR<KPW^VSVT){Y
zc>7H1<edwTnp(3>17g#_A4PvS@q-D{4222eHWB|l+km_5s(><Eb46+hMiDI?Z(X@}
zCEMI5Huq(lcZkh9a-No4W!0U-cfPV1THYnr_oqDrYZg;WMd}=2R(pT8ZI9TtC+BHi
z>d3b37V+P+`$78$=Io&tMEoCo0WGvwq+N}R&;Nz1C11_8A9&o%wRgP}ydOlbKWJTT
zJC?S$<k~i8F@U!H=>r!tZ7(3@VME}pz4!L!V8k%^OlH%w2v?q8io7#^e|$Oey~*_8
zGvcOa)6buOtk_W!1P!3vuRgVLo6jhcRbS1q9nN*oR6B?WvBp7U&=-qDwcV^j(}HAd
z-k4O5ASh22bC$6-=qeZ*j%j;4QConDQDecJu>g(#fcryDd{S(-__Wqk=pob>WJOR0
z)8LNWCkmq)j8{o48XJyK>~9j>&22dij{|}L^dyjkR~$0Qk~f3ApF@F@)AEzSfULM>
zmrOI$GqSEZ?PB4p6wFg_3ju6a$&-(DcIq;mm#7jz+Ow>^brL{f3*N`vp{Jd-PlGxC
z61605papp!HIs0DDYVj&sohnyg?<hl^{ww$f4}kF#y?7?yY{WR_d{1bSGDhthd<bw
z*?%s*@42++d8}Nr1v0`G2>5@^otSJ&vs%^%L!c#BHZULt238Jd0y{GeyHaOz?gmxe
zT7YXXsKB5b>P4WH{+LzYMrgF|ab3jLmf6G#no~iFD6;^$@L2>^abQ1;NTQaDnc2bt
znpahbvmrcMU)i5hC9)Kiwv|uDwX<%rmtX10xDTc6hh%zzh)!a(C$5gryVe&nzl}`A
zXn4Ukn2s7fq+E~Puea5JL7MfBY8>rmJ*#3^_G&yD=p|aC9Pmly*pqQdljJF=3y;Po
zW=0ZlJV9;<WIKJSF%E|e#N-;kIl|7Ok?UC8)7Kek4#6AI9733aFH^v%>I&I9T^4eV
zDE8@oJPz7myAeyswEIEKx@;dvg@nU&3qNiJp(aip`M{|ooF3jV;PeW*^GwxLm6-2&
z+78;V=ufDr^Jp2uA82Lttu$tQ2cQsL8_3oM#oA!Dc9&SYD_eU^tUZRk)X<r2*eN!^
zABaC!)0VB-Cf00Al|6K~=9+py(mo3IJa(+J8xvkZ-I6nrRQU*!U8V29;Bdl|4)Ys!
zna6sfc#Kd6*ts*$V#FdOg)b0I8YMYejH3}8W*ck{!&tZ2G^h%UQhC+PFN;Q=U<v9#
zaTP|c!;FfI)&XOIO_pAT<)z2=D=d6S@(Y@h4rmpsx-3N%PI`-Ol<0f`7bMKi_hgQ!
znJ_y&)|UP_$BYYb?G&}n8z%5?p$xUs$}G9&%c3^IX^Zq3HT)Brk_xE97P1csWQGD=
zkUyaxlduWzgS~oz&>MDcV2hC>BO-m_&4ol~^4jnyvQ8$;CBx{TTi#AUWEF81?FWJ8
zO0Jja3*p~TKs!$IDT;dPT4HL`Me2F~3*{twN+94CbP30`&JiFJPSP#wCfke8(k(nA
zDr`0A*L|hnV<{@R<nAU$NZW<k-Kc0G{mMJFnzkF6S<5_eWf^Po*$v^bZm}%7lK25S
ziXG}N?9hjv>O1_K7nbU?t-Hk5U74ocA5^b;PNpmmE822Z&Dp9Bv8v-?ReiQ<lUTKB
ziO*DRg&Y@zzT25HK@e8mob_!MeVensy`pdLgQFSWA#D4~`fO#ZSlPOSpd(wkO|0Cu
zvL)MpO6)(C_MA>xa{evLFRt*w;nKDH0S~&jXS?@`-Fs86G*lt%T@T&ffAY+dE934-
z+k4nyq1X{aKVF%P^=>P)9ZdMcx*e?HEzpN4?BIe{E>Wr4Zbo6{D)K!7dA{B;!KgM&
zDqZS+#~L=wWt{4(gtx^2F=b>-D4_P8*gl|ZE|ZzLf+fk8=Ls@ZkIs(5%Kh@qK=KM7
zIDFx}RvTkYYz+{D6iP<{VRmW?)JPygyd`2b1js;M_U1($VAg;z2%IIOd1MK|jo$<a
zCn`f#N8)73MLj^HWSUJ6C|{Dy2pR5Hs0?gWb~X)Ru(Db0?^BF+6zmAuPPj;GooxcP
z9nRsoWK+1XOjS{y6}Gfl6`Gpp=PqPTsb4Yl`h?ao=^2!)<Er3tFjKWXWy`s1vhHrt
z-TlzzPJ04NgW2{yBK~{!WL$$l%Zg2JB%ADvF|iKc(iYPY+WNYpy7hJ28ytkLhVL4_
zVJld97M7GA))6({)<yCsG`vht$^AVHjxKdkeZx{f|J7&TutL?#nzE(1lwr&Qs~9`<
zsyIECi5@Z!B{ZX2liCVcH;_R<_sTj+5VPch`k1Mh$bhQ4-^@iVghSo7UNZ=l`sL=e
zjb`9(6UWUu6f_5oa}8iBYSIc~`!Q<!Qm8AmB{*li)Q2oBB@BJ6Qqo|6a8SusSCT<l
zYav#;RsZ3o(6&n<`JK<T>1PRDhn|d*2i@4PqJFKS_6;k-K2>UB42aR<S+(J20Do(K
z9Dv`p$lf|`JMkVKD=aj4?Eq5;Yq0bxs8ZfA5V^2HE)98c!S5i+JvPXvfk+pJRb)pG
z&@aZOGZh0(y%kQfMD+kq7+z~C+7CKt5mSrO{O&GrukA2nB?|qw9eMzElK3Sh*F1=B
z5XQ=!EO57NdU8{&R<2~VzBiBcca0Mc-3AMhkemfe5j#u=fl~L!4$i<8j6Hz&Yf@Y0
z*_bO3`&i++y}=AA{l%{N5Ap~UpDX__e6DcqTpu)Kt{V;9OK1yuI&PR=;;zfSSS&+Q
zweDV->(EUmkB>$CtGQnNTqP^Eu(#$s+P0KE2!>$(2E020|Fm@SNJhBYb&Soz-y-Se
z!jr=6Wtmr3Mh<Ni=eBT25{(LsH)org9vK(lZKN5K4#Rpgd3TTu*U2-XDyWof@NWqp
zZBvq&6cr^4G^ZkQl{d$3;I)c5%vD=RNN#~w#26z21T6`fgoQ8ZVn!QOIaOuOYI3Nm
zfO{3If;soIPosH?hE=4{sashCc5=dk9{iHIwfU=tw!5}F<~xx`KK~o%?w(6`?9KT0
zeae}uYrx!p>)gF_>8<B8jTh4X3!j>h2tOW_nDd{;G1XK9?m=Bm-o{lnta-T2JMNx^
zw%qW;+PXL9@6IosTps?gw*O&E>s#0EU0WJoPOc1RS_bc#^A=?N#LoGeb1JJZ+pt$`
z*!y7kgT4o+GYu#19LxFIWTY(}-1DI0K~1{z(5mln&e!<JTf4YV^mgVNyOw=oW9SYU
zOuW@}ujvn49{S1a$n&fIU7wk_`rsqAilyX-zOCRYE>$iDzjf}DKCZF-vo2&<Z24QJ
z$M!pi1IL_(Kj}EU1wVgQQGWD*<<A=0DSp6m%;xxWlMV4Xw@S>(60OkO&eBy_dN1=p
zHOZ0+uN}fiSY`q|rh{5M%Or5*#8_tkdT8mv&owPB9?LC()ypSk!H=u>H471x584YW
zN{AsrAYPzk1D-T;mA@%WP!d6B;VOaz(UY&d0vzX%q7f_1AX)SNwjqvF+^&h%4*{OP
zy~TZMENgJ4+>h%yf8#?}#p`EppMB)px*W}hPK%+_FfXaBS~Eez^)ox?hGj`}rXsLb
zX7xK$E@)rYH~m3%s^T+qy`v+~QLvkNkm(eComt;@5&w5Qli6|R-}%nMDUJ(1V4A`H
zU20kJtyt47%+-sDs~$3df8%}D0F<h%YB401bv;tEE?!@Cbv|-K=+q>$a-10JIvk3o
zgV61@3XDm`oZ!+A`Q&T9$hs76j)8fAor=7r7fz$IfY!h>z?U%=olOuS6+}>aL^y;+
znz)9YO&Xf7ciNC*F7hiR!h(gJO(xwlNHf3#tUiYm3_Tyw#<gyQCiQF-eg~t|5okdn
zn9kd)7$JO_K+NQzvkB)^7&GEj?`5+5zv@glzsOAdc2SRs;D0TS*|B4GG+clj*Fr%4
zu~Q}n0s+}mcYvvvz{?h?yAXMlm<AaFzgrXIQ}D1ARfXvg7X@UIi<&}PI-%9Z&Ll?N
zTsw2-tSn^@uq*{q<~(^{4@^y8mkAxvI?Off*u*HKeu$X~$q|UA9@)88f|5~j0F7%6
zv0baAE0%tR7J}tuWeD64EY`W263~W2=n7nx0kdq3MQ#EJ0h_%P?G9cF(Gdu@@r2)A
zpPuV0DaWY4kX!^PZisv)kD$m@h%8X(04JRJbE;&h^|miu>!tpUDjnkiL@{=vInmX=
zxvfvBG#;A?X*zp4y)3D){|i+}x<+5HhXZq4zCaH(Rl>Oox;PVtx?a8NQi!pNXch3n
zCFRvT`8Gq>*~}j)DP3Ay(W_Nna^VdZ-o<l&&t03IJNjSHucDRr;@?NdiWdT=jkd+y
zp1*VdXt|AzUh2n6+xbO%1;}#^ykU7iZkyZmv_>gE5vjjk1ASkt0UE);1|!%Ifd_><
z*HH3QrHqNP{q^eXpKIK(POJjSDg$b%Tn6F5_@`%QV00n_>jXp_9-NQ@9gf1w6#NDS
zbZW}h)3b=Fa(Tif7)~Wss7~$W+GPaHr6v+w7se>_I0aON<YWyq-*N&|`63!pJ!|kQ
zbDt`ab?&Lcjt%u6j}V&HhB|<yRrND04R|1w{Pr#RSIf5Knp#prIe!NfcUJw~cg(q#
z_B*bRHf`5M;5&owT)Tg5d3+`LU^vrx<erNm@DSrywq!k<M9-$B*oU40*v-^!1-G@m
zFLh?s)j}Q!skIh}6M?H|8+VHE=Xds_=I%SroVRhQe0fp~>=C_ta?OD|Cv$-wcK;x_
z8aTFSh7RJQ>!Y51_s%Y!TpA_{V*cLz^2wFq4_gKw_V#`M+Pl|Q#vdd<7|!%QbDz2s
zf^QhEE<k?Wm*zk8Z%1cZj~mdN-3RZK!{eI=oVUM#7dS81vNiAHwm_V@>e~FMAkl<H
z%}}tr#6SgPEyQ5_$mN@|u9~Xr>OXzq+|GeLBYh(mE<X3%x%0!vkByu;JaqDc<Slru
zQo(sbs*x2eh;ASvP}OV`2#u0WpNA>N1k8*ou*y_{fR8sp@0y+kDE3u~^;7Um3OXr`
zc*(-AD8N^gI3{Ff5>cs)eWL(0#Fgo&KuSOYNj-!Ul<R90`yC1h1!l4WVVE9#i*6a$
zbedv>XbRKxfanCFiEe3K>YLO2Cwfc)2^bPru>i@O#=|wWrp<Mapjct9{S;mz2Xb{C
zOA~27`Ce?crp@)RUO8eoX84qAusE0I^7Qjy;1~3hA2e9nmyW-4>i(&B&fPypzIxj8
zRx7gM69@Ro`?-CG47r}ZPs-eurblo|x$o}2yajQr245Y!v(cTMYk|=VEa~$Ox^;5?
zCPtw~#o8@-Dof@vb@_6Nk)_P*jkg=2D=0d;*W8rW)@%tpa+Ig|*JHP1qN8Dve=Bwm
zkuA#?S9bhx-w*bE;7t!46MK$}j^jTui;gpE7L<TFPlcrss;YSte%F<cijKB53sUm|
zv*obiQEemjCvTw}^j+@3B5G<}v#~T6XRXW|T^47qVRPO@zXLnj?;}UUrxx6=!NsDS
zBi~3dbB!hR$X)sR-0iu%1##3`+m^Rc48qUOyn|v+&Rer+zKc1aI~V*Wr5m=3-W~aJ
zy03t@#Jrng9<HWtar@nHzLM^$IH&JZFJfyJwWa(v*18*ZPxUSI2FUIStzh=a+zBmX
z;+eTqc`A9k{!`4k+G9#@+iz)JI)%v`cwqUl>qjnSGCNM>IXwBvz)uqYcJ~@Z^S@<y
z5&oWXjiJ1WA{hN=7K+Fu9<9Dn{Arhp)UQR6wBAOEr_aBb$U14vs(t>&49AQXJt7Ep
z>$>T%8^I@G!eDaavnh6x4+^!kLrC9S)+T!nEf4AI4g3U;N-Q|QtK7(fLzjMp;HOxC
z3oU)KI`|^WQ%8`i@(xi#og}WPgqEh(29Yw9X-e86{xG{>5nviR0h>hg<%viFlW+ma
zvhKbN(auav@%VI)nT~hKeDe62i;{VqkIhP!>mxXvVZg|=I||drwBKngI1z8jM<PMV
zxu(N9diI*e`ybM=cNF=4xnASlS3^d+i&vKiRxYmk_CjOb@epYz@1FeDX?9ax`^HOm
zUs_Bo9bM*EtGDATDzYaq$#7#G&wxfuU~%mg1WeBbFS_&s51aCoTu9ZZ`@*Aw$oxH}
zCiPcUIyVVlr^WQU6ugQ+)r3hQzD^T{4urWz-T6^Sq3<!Q0F5&ZbAk<v9d8Bi1(%M!
zbNc>isGXh3)c0iy-u8lyk`qxr916$PS5cRI5Ph3s-$77pVac`v1#eQryYZA+Seh+6
zmX5-|lV!*9DEnE7{(|oEE;wUbtbVKUUL(2f7+Bu){jKkA{fwgW{-&zd?QeAfuF=G-
z-`}$J;RHVOgqZ2O1~_Lm!wS(rI~=Z8;b1lDP<B39AlhIBX4liXg|(t?I(9x;Av*ao
z<Z#J$i0Y;amuso;bfKlv=bqg9wGl3WdOZ41QA+mG!E6E1vKuW|!m3fXXP?&wvm>;B
zUJle=iQ228Rp^aXzXiq92tJF2++O7NGWh2M{PPLbcohO!oe2LQ1{HJwn=d6KFTv}0
zF);&*ROWimGw?CzFQsi5Eh9_Ko>Eue7pkjYuIpS$J717o2ASRUW!Un)435b9j+b_>
zh+=+%R1RGlz|@@nwYxA~+IVkCRl1F<^l*p~pU;#O`GONL0*+U_wE4c0y7Zct=~q@<
z?!cLnLZ9D(V&a?FI;CCcD5<Te3o^ys_xI2$gsSUb`cqrQY9l)NSV`}mGS;yv-D&PA
zsikO)V-qk?ePW7B-%Cledatrcw+-dB^)Y)@X1G^mvL>TB0Q2m^?l1VEc!;|aGzY@Z
zjnJHeuNbhSi9RX0^t94c7IrZ*vq5Ri=Auw7N~z}vSMZ*PkH~n{JcRhDZA6U)%{G+O
zP^+Y7X+ff0JseU`?<{IzUjjly8<Zilw33Ug=r_pSSdtaD@LZ>$9Sf#pi~4*rpvDTn
z^QI&TK-o3frp5}t?>p2vz__c_bfA9DAtqiOhBlm?;Jyuk<YFJtgCJ^bW}sjGgaoaQ
zakZQrIrQU0^i@#Opc!MTkW-^KN1#m&M{krypK@h)<)oFW<&b?3Yq!kR9*|E<lyr21
z-XiRiDZ`P~jI4r62BETbB^e|Lt@L1!0<vKf=v_)>Me44?>y&(jGAvN=Ta>}Zy!Q|E
zOJ#)*%_g3-;ruogWmqgtKd{(!Xl$b*(k(VD)v#ERu%#cO6tLLGF3wS*e&6q5P5qnu
zm%FoDj)+^1WVf6Vx17n;oCN|~mTT+DwhfAHgW0x2V%s4kIUlx=o@$W|Wv-5t;#4zA
zCs(^U*AiIT{?6X}d$a9>V*B8Oh}eEmY&nRGZ#CR&$kz3Vb$z+|rd)j>SKs_r_r30H
z{eW0M@VLxc>r9nBuHYJ5-`aO?-*VX>@A&clAMIal05bid;ssr`Nr7iXp7_t}^_OVF
zF+BP_#>&hTkWhL-7N_CSx|$ujnoD{>L&d3eB}BSXFSP_VO`#8Zz=QN(bf_i0UTl!l
zQ#x({1KDs&-MEk}f>6a*K>v|ZM!ob@XH_&4AO&C(l1NTZeO6a-)-nf5tN5!>dY}s0
z<W@NEq)m)V&yY*)0i>RVInx12kYd^<HBcniN1<9C&g8Ha)s|p}2X`TJc#g0P{iM?P
zExih+CO|`-L-0-{S>?T~eN9aEZFwUkP;J6Du|voI$A6vu%b(7Fv>)KZ1Q?@$r@$d4
z;yD!b2n<#b0Dzf#WNJ!Lh?n8Ww@`^>OioMID1U8Yl*gAslVeHAd1ZP=b;oOpTuulC
z4kW`coLa`9Y%f`0)zG&M9*-h7CgQVkv>myjO7p)%SrvDo45A5(ND=-iB|GDhaeT;m
z7G8tNVQ7rB<VT@sK0VH2OvF#HhAvq{w^lWMP|tLfqC%R_pLHN;gUo+T5NQoF0J9UY
zb2evdy2YAqsKZy*WGmam%C=%KlBwLAtvn!B9(eHE*@G9wgBLTEFQlvw-992XbFPM*
z%k%oPx1W_Ak83w=qN|NuF*URRym(-<4gOP2{bD<4a^qrRvFq+{$S%k-)xqWGMRGI@
zTd}OSUG%nRy_-bure&w-?N8Ysf(^L$?%u^4%NJL@16eQem^0qJ@`L?%_b>UEcYlB1
zyZhcd@ZhM}eK6xal(IvwWHE7fXlYdR265-Eef>9Y|K=h-gV33_cQVp*osAVOZu(oh
zgJ45r7iFU$i+1S&G1*cPn^ntIi0A?qVv3Ypavh}Yi=~gx7Ese*snDT@1xIoq$x24o
z_*gQ#?Ju>uW;To3rzY2}h$kE-{4K48Lui4SAeC3jU+0mH_p`1Z(bcmY5nbC>wr2-U
ziUTLJ182p7v)O@RabP%o@da_<MbY&lbVF3<&gi3dQNP*5o<ijBGO?IGooSILM7An2
zvF$4P$oM6Jk8F*?J&S7d%|>53C6ZG%Y9WslbIp3kb>X=YolZ2N&+Ox>w0LC0^OX)+
zp<FEZWn9NiqH}|dH;h?WrxLFB1w-Ytx-ft>Dh9Ay0S)Q1lgc@P+O(?x4Rt*k>KXv6
zXCBOELuP2ZEYNoq&G>_tbZB-Qpfdtauk~QBF2c*Wg~~Pn)HcuC=3t!!JsFFh#%~eo
zt+|L+dju_(Lohbh5OTeft)Ry{4}bicfv*t;zW6)|gZM#AGemfoFiW!J<ewu!ps#Yt
zFuspsKcL`uDa$nq7~Ho&yKwYsF@P3c!9%Hn8Rd?Q@ezED8X(!j)&%Jus3}z}1xB`T
zg}~onc2>Y3<)?5>LSOYv=s|5Lct8n^2fLKq6_YLlNuRFiL+uSRTWMK7KtGwq6Fk`U
zzQ29dy)A9umUeH00$zO(mag^ApVf8UvA|fLwsM!~>RPVOxO%g$e$myxvi*mHKN$Sb
zbs$&Q1u>hWHqW5|<ObXDMGk+iYfIW*|55Fx)X7|RBXa`3{hfpN4?Zy7c{x+P7fvEw
zjZ0Se^niJ6&efcCZ4zCZ-X2}v{JpCmy859u=-&+V)>BOzCf(4Tac@nB4yBp(-LF1v
zKts&^$s2t~y3E2K;jOIOJGAE6-uXWfdFtMQ{uBH9r~Y2iblsUou@QP+`VQdnO;B}3
zF5p{F3vh9U9YK3z8^cSmvhmMGYptHs)0-z}92#B&gMHn-q<zg1+R#)R?HS8!{m@e)
z?R2bV+ER?7f?Y#lE&qttEd%+WP?(|)TgBkvGS)gxAQ5F)PO2A+e?>_ql8rlLSOzbv
z%qAVyOF%EC<d4oK=ws^%N+M#4VHO&8!Fa!O4SLW~VL3O@8vGUtVh!R;u=R_f_wh-)
z-dyw6bW=}i2x6kG+p^s!#qN_osmOG{2*Vl}*wl0(9WGER+Qf>sr87$hG8O$W<$*}4
z29`TjzLf1F|CZFLT(y6(Zt0~Jzqn~nx_U5MeMGE2@<HDRkxca|T72Huhi(ro?py_8
z;i_Kri>}t&r?Kkly0L&gwW$hrvI9xvN!@DQ;?e-~H!wxIs)4#Jeieb$773OeTT-ML
zsCz_V=?o}}?4&G6WD&b`$%j&9!9s4LTuZJJWkIv7$d2{~(H>sPf_=dO^*zVD8Kx12
z*IY0t#X>8+@LcnJ55Nu255%d46<wL0{ojHMW*e^gGAvuCs-{Tl;`8PU98*G6N*96p
zGFXdiyacsOp&oU!$aP@x2TkBIFz)hyMn@#WSJYcHgWId>t%2QMlgj0{3oGIXzBLbb
zq)hpCik?=gS{j;`c8T5x?S+|G1fQk<H<aH7qc!X+K~@tlm$%iQ(vuo?Jg9oRnuK2}
zll8)x0iCQFQqKCJYKRw9L*NIMRDPLO2v`toManmJc!&_9uoe`qpefdq1idJ2BNjH}
zE66aXx~*G>#1(1q_R)s?KTrYb?^@dMiRNYi;o649?OFCA=S)L?re+{j_Nci-v^S*8
zsd$b#SXgZuxP2D>7KR@}syu&to-{K)bZ;SL?`wCjEsifGmxnX8{dY;dyLtPXo$Ehk
z04|t%X0dGPOF4J_623UUIp^^MYbU|{QrU7i<K3M)_Q=<=WEOp!;Jm)EHQU%LHuk2@
z{-vvKann-Mihb3!C+Dh!XxigTmF1hLQs{3~2b3ZY8=)Vtd~kK&^O?r;TCr7EFTQb~
zDr5T_pHBEajJD|0MGG{KKcRrua;XN!S1FC~0?7`IMI777o3hl4+<M5!!8~R86$K3D
zlH5(8x!2c=VDb<O-T~ZB1Q3A`EZ5xi7h6uHn@&Rk;#2dcIw(R^=U*^zwRN95sx8kL
z9#un(P7#n>a8=LJ0JWSIzbIp=p(;z)BPhO;sLX;mV56)wux6vXF3ws(-*j{?4bV3o
znXFw-Kqd6Z06(RRN9hBMr`gvTm887YOX>)9_~0kgZ~&;ZPztL)HOt=n@KXD|m(uRd
zqN8)o#vX3*S!#35?NnlUcxBTMxBg(O*mF>9KA1P*NwMO?ngt2@t&JAn(kA#)z4-l0
z?_NrG!NbO2o<rh;#Ao!w-W!u61+NG_m@vsbIvtD2mQ{&R<npMjnqsC`KzIOId%&{_
z9KR;y?{5-hglFlSGoa{YB^NroBnx<oGdG$3i)4XDH-AIk@eIeav+vc0rlw@oe4h#(
zKoZBNr$S7(OlA>oE_sA?lAJ~lL-eg*VRkebV#ldKh%);Why1;b;8TmKUjShr>5#gf
znqM&<XCL;EdN#_w&RRI6mLaZ_R5}v*vl?We!%xxY7%|x-ZkN9?LSR~Q6)BV^*w=UE
zkCYORRq7~ysMaF8te#Cy#1bQyBMDxpp{&fwC5Zu{O<km)L_1QdAqSYsvrxe!nNUv;
zJ?x>37KfN^bwi;(@Il7$Q6=IzNu4Ys(@6&A&5zFF{i?zerprAs$GXP!nxr1R+;U<0
z=upfzM%X~u5g^rXSSBG5drJy#oFOD@gK5fO0m|R@Ir$a#4dYo$ZaE`anWLUaOlYIx
z^1Kx$4C|4I2l-PP9mpa3Qr=9lPAX7cQcVbl5MEFhWe8HRg>osw)EWz6y(`AJLO10C
z8Okx|%R-1^y;P{~iK>NZ_>rUi2wYkIl8jW&GU3yWv-}iJ*?ub6%F>D#l04<=a>DBc
z#>B}V26ZxLZE)lW+p3+Ex{Cr*G>|Ovi`qj8KzTTJ3gAOr@(TG)0@p*7yhy?KDaay_
zssI-7SsYMn$|&J5=C>&Gf1)f*p@9MP`*iyy3SOjQ_I>jEJRm$qX8h+8*AV7S27>`-
zp~3Z2ZkNdI`k34FF<1RlF7Q`e)kpN-h1-w0Z9nDCi`@B-xx*iG&wR`c{ggZLQ|^$+
z9r~CX{P)~ZkvsY^H}Emn`7zi2F?Zr)?%c;*-^bjskGcIHbG@G#tp?*SI0T<nm<`5H
zI0T<L3u&BT$nY`O^O?~^>73y?gUFrxDYy4$4&R+GWgN}7tbp!i-kh^C=R{b={>$+i
zq<rFaHX75M|Fin2!GP}qQuuht)M#*~8$*vd{60Rg+wiO*9oU)Pbw&)FeazAA<7<Xp
zhW%-Lkb2LM*m~|Uhr4{zz!|&J24B|DDH=L+=H{HEIaj#_QVFB+vGa_@(3mq@zkd3w
zr_=7%rNQO-^#1c}CQ4o_LykPl@%T5KcEiA8|66<R?Rm^0`nYDyXz(qzks`}4IEu6P
G^8W*V5V(#2

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/whisper.cpython-312.pyc b/model_executor/models/__pycache__/whisper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a9fa7f914ebe91d879da75b32ceda1a9ed1a2a37
GIT binary patch
literal 42285
zcmd75349#ac_&zXpFrcjj|NB(Xo3I_P$YPXHz`UaNQsA}*3oLB3S@)b094%|MHqBs
zkDP#s9Fft)1jq6aa-0=7QbzD38&gRpR<5z^WOlj@db(Yq#>iMn?9A+Mn*tnVJi9yd
z|K6*rK3E`Sd-u0nBwoM!e&6-J_ugNYl(+?aQR}Zo{@crf@I!KFpHsCg{)0^rt_h+b
znxaCGe$7!+%p5ewEI~`m8nl|o&l0u8>_I!TTceJcGw6)Dg07f5=w^PVs3+)Ud6Wc8
z@N0{f#7cvuEX*GD#ma(ZvGQPftRh&!{2bBBSXHo!*`3kqSWU1dRvWBkZdbG}Rv)Zq
zc6YQP));JLc2Be^)*Nh(wFFyYt-;oqKj>%v-e_B_J=o6dCD9eJmBE$FUK;I)tqQJU
zc3-qJ))nkx_OfUowmP_)*~_Edu{FUpv7TU0tT))p{3@brW9x$Jn7uN(KDHsaf!V8~
zeX)(fjm%yheJHjmxQW?oqMKv=!G311jc$o;4Q`EX3vP>T4{m3Eb<rKMhl3Btb_RDc
zcYSnMY<F;XY)^1cY;SOHY+rC6^KXdmj~xgeVD`r7!Pq0gN0_}SdMNg2@KI)Ojy@JU
z96TI55<J4(EzyD4(cn?oTSb5LSnToO<FO}#PsEM~k2Alv=!w|L;K|sj;HlV?!6#!+
z1)qvN9emm(m<6dz3chXPvmp3PL=fA>6|bAbm0}0XRbnU1E-?Uewb%`Fjo1UTS6mBo
zowy$62C)z3M)4t-o5am9`^7CVw~E_fZWnjJd|2EGbC<Xq<{okH>n4=5PuvgJ0r4Qr
zN5n%g9~B>id00FGb3i-_^O*QJ%qPU-Fi(glVV)A7g!z>CG|Zs*49sW6=U_fBhG4!R
zhGCu-2Vsh$^t$P{siYzC4BThM2+U#e9L%T~gE=CO!W<J{gei-0m<e$l=6Ue~%$LNA
zFek*%z?>8>!ThZFOE6y+KL_*k;y;7=iueVXzbyU=l_XAym&IQde@%Q<{G#~lZ`gm^
z6nxe!92CUYUJ=AA(&4u)YA-*>e6PayH>7&q_j%^~I(+}RR66{}+5*k}>M>tnF@F;=
zzl4~7nv0>?^q8kv%xj1_EuGeV2bu46`2LFrq!(GtFC*p~4~QwTm|sE6fBArzLoDVE
z#GH9R%rh+Jn~3?<2gE$fV*VCle(eD<BP`}`Bj*1i?bdr_nEAd1-&yH^G+d94)WgoP
zu$u_`SJIxMuqf6~|FEL<d+t|?O2g8*ciz@=VR^iRJbuTxe$sL2iMIiP>3f_12*DBY
zUrT0bR2q{?hX1qbnfEhfrh3w!`0l5RH)Iv(Ua<z{i>AQWe@r<I1T2d4P(qT!r=ybM
zI1(Nki;SF6oX4dX$EA@$DPU4OBjeHN;OIy~dMSa}uH7Reqls`r5*5ec2&IfF*1>Q*
zfvDz@5ybHB2`2{69+1L`aamGIo;(|gk4f_0(UGCZ8KqWrs=@nTO32~C#Hftau6Sf*
zJU$u`;{h{@NhG9^L}YYCDbcMbE{;)+Dvpdt6Ol)xu&9T?w{)*O8jt6EtcquEc<`*G
z7VJ4PDoRn+QE_}sk_OM77(IbTsebNL(P)g@kz3iGa9r9q9*bQ(I!3jK!*AsoDG@@g
z;-hjXM!AK?!f1XJmJ6eDR1C!<6I4I<F?lpLmQZW!iHt-Nq3GzDGZMAZO_`v{p&{z4
zs=cGp@z}^QHJ`(g5h*My<&Qshs@Us^(F=uM$jf(l^h_iXM{$Ev9JPX1#pB~)blXIj
zDy_GsR8M+@x()HFMQJFEZVX+JB4^H0{lX%vU*(aLhff?ja&+JB!=WekA3SvY#1l`W
zqP)-1hvDeHa3Z`fGMG@R**Gx20}&}IsvVi<{n&-Dd?t?h6{9h&%*CfXn72|@=!uHP
zQ4gz9K?9(+3{&#Z$k3=#zkg(KpEQ_Dp|@Nq=Y9T!G!_jHN-<0w#ml`;j)|D9XmX7{
zq=!bv#uM>9<B=$DbJZYC6fs0YGnUtxzTx=jNGKK_3q_^yd5PNKJ;BERIO4~`ibr*w
z4YP?^8%G9O$6`_so(+i!%-J6kdZp3M)qH>Kv?PjXSX`+%K0Y=!DktK(P^DV)J0XWh
z;)8O8O~QapDc?Pw7=4nBS^O{?GpsP~q{S=AN;NIU(CB$d9*T}$Q0Hr0@x;RCq);?`
zQIg||Hx|BlT0&c;p~y>$IXr~*HY7*Rg;5xsvSQy2h!7c6%x5nu&fPNlGZG#_$b{nA
zJt4`b!;#_eNJKH8mK66MDH@i?<1E7IxZ>C|8t1W3pHW<U#-nG#G7B3FD~`Pw_bBBw
zaTboVnC@{2g~*B%s~2;Yf(GM?ZSMq@r(zbvihUmnio-q<Rc!ml0a+BYG@>~6kDQ4z
ze<`6j_s0{Xyv(79;y4f);Yo(jkOMN{7}A`HD$ax9Xk?I;Axet<pd`nrJP8>elqKmL
zDgy6Eq|>r=0rrSudn7U<qLpXI71tx<BU(cuam96L5UoZax+o$l?n59Y&=!_=B%wGC
zp_$Av99Eo<hR4FZq32NX$HF5cVKmHq?wn$OEIbiDhuWPRg?&_(s6Ns2fUM!fd6qt!
zP}~5sXR)f8J9bWSAHfVqaomm0I)W~}sF-6i0dP5-K+VlD)c#0#REBi~jT(@~P$Aey
z71zM1d_g+HQV(HBj$uMD$5>Rc9~<SJI)-A8VNQ;p8D}FTk1Eb5M$ug?raZ1Vo*0kw
zWN{RG98-dY#L=eX(b4l^bY?uNxX7-~9SKw8I68t2TKobW7s6*FRH--`eEfnWvXDen
zahwRB2?Jm%=0sSroe0MwKrtuIhB34!#^rMq&2{pe90p)Te_2n;;<(~I6_FAn;TYA{
z_M{YzpAFcN9$lM|74tZ%GmhW$C~ffKAYnf3bEuZZQ?OhUBq3-Lg`oK)_@JOgvPw3|
zK3u9r&iyj1Yo0)APykNRB3eb8hU+<AmRzEJI}%(p2OLU;iuQJoi;+<dekP)BKfZkt
zEUq|Vn61oBem(xvTm1}+`U$1v`H#d9GB6I{A^S&%{4pu&KOGr~=fy~D^`AhN{vnw<
z!{2ozzyb#p(`m(m<ccYwltu^uhK4wbjtAU|GZdoE3xyPSh;Z9@l<eM6=*97HR1I;2
zLgMIPC?r#tDOOCBgkob*PO)=1D6gjwUnqnrPBa3wDipdYEK<My^w8QwY;5gVWUMCv
ztRN+NUK-!LrT^S!X>BxedhOW7#M#l2wda9^*K*`4y(A3+*vZ@(UweTQ61`&=<#&-E
zGd>SXydTCFgu7;&&6zC~s#`Kn@6^fHp1u5R%Goe|BIRuRzO(Ym-s$QY%e-@C)?#w4
zx@)mi+m{53%`X32EvtfAp>xHrAoy4E<^|0P(JWbq8Apx4yide@G4!`C<8L$eA979!
zLnhJwiZ^JV5?(R|9mfUCA&qnb5(M!f>y*yK9)>u2&H}SbqCcz=PX3`$*{{w!KY$=5
z@?QWf@o(7Y=VXjO&QVXVVgtP=UsNpTq>GB}d^kD|pdm}3;6?_mc}*k=mAIJ21sK0+
zx+YAThE?7X9{Q(Iu%hW)mmplSPFm$Y#8mkoJsK>c`E51*CDWw&0Wr*zmIuVJB=p)|
zwoeLQED=z{Nu<-(<|P~IQa))LcIDTC+w<yTo3x?NEfb^q%3_PwA16$|)qk2OTt@Es
zU-HML7eOD4z;-qQo^yox>*;7c>mLT>{;_{-Mpa}ofa@({B&N8=N8%V8X##K!qXh)-
zz_^000{yK9U~X9BQglfE6H5H2Wc(Qn#TJQ&Hi(L4bUdNBLZQKEIF98Qr{&9Q^s-D`
zru-ck6Rqk@DV|-uYH6<{Qv4i@e|lNSRte=b*IZX!uY0CnOqKbkY~S~kWvc409ld&V
zX7_y6s;T{%it1}US9@km^A+t=dke#s?1HcA@|nw{)6&fG*^c?rbyJqVK?X?DeYJZ!
z{Ce-y-UVO9l$$NifK&cGs^$Mm#_yBy4Km&%;}6K7>MJE``+%0C068Z4KfpImQ)?G*
z<omG7WL&{t`~Zx9dPVrY^>Ef&W2;>7RlPQOc`|E*J!=<AD+zjJ9prKfWz{UqMJ~7C
z_Py40x#<%RTz3T+9Dq>91pq{whKs!jDFh%A0T9cOl`V1$7P(clz9Ix|Y^mEZ?QBYe
zIvB@B;}L?QVTgoOdQmAE8IOg=)PT5BB55HZOqap@B}R21_u?uTv{)1P<=<rs76%qH
zEsnQoy5Tbk7loUqfq+^5He7@f80QiSSmnQhhkToi?~%d!mU725Qs+<xu89@PSG!ls
z?RO9{UI7F1=#I1GvLofJn{J*h`JQtV>q^Kbav#}Q3;eJE*a*Y9Fx@t3B4m7Akkj}9
zop0wX4cbA~R=iqYg}_<HDM!CQZ{D}xr_SospF^5>IgFQujIZ*w&s_e@^!AjmE9vaw
z6Vy>OK^046Bq39eu(>HG$(Eu_^5)|_d6MxC1vJ9Ie9W3nw#_qxSph${R{Vs1{?Tr-
z1^6VR*aef!2M_ud{|$`dNj9wEFcyUyq8a}zLpBj~jcCK4U9yV~Oh~8X5E(Tix<Jiv
zn_F@Xm9k0dd8H)ib_w)PEMsXYT|rFIE1HMgV#zDEphql~yu%H7#j4gJv*?5L0eJ$a
z`7qJTl`^&Wb!2v8KoJxdo6|I(6&KBR!fbKH3KA2PH}Km?h`1`n%h<NiAeSt7L8^=-
zG?$(8HiP+{Kq#BdrZUX@qV?e7>p??YCR!OnNS})djZD;qGnbq|D?&(H=QKC-%Tk*>
z>71|w$uTq-H$N(T9=R?P4`m@gRRlzK<9O$u#k{FnE;O&S8djRqIA&fvR;vUMCI3XU
z%DChS)KG&JsHxr~h_Cm8mdkSWr#z5W?<u6EQ7QW1TUO)+=LEqkA*3U2#4;ev@0(UH
zYto9GJX#sXX(r9QM5ET7+l*0YN)X^-p9pwr6z|J|Xq_~}w0*^<5jt!R7_?8cPoQ5=
zFMTYKXR}s9?iVxDGHIW5yyJLV?RS%qXw||Is)nOf=U2?{xHPdMa@I?ov?kiM6vHbu
zTkiK<7uvTY(W&{MCVJm#er$~O91DC67C&+@7_E2QS{qQiDlLzTH2Z5bSME2j&Z~32
znvK<YAkm|_|KF<fq>XwXz3cf3trdfMzT<sco#BP8O050=Z`}eV1B~vJ`%uS;Z8`+@
z$HwCc|7poDM$Sj#5r~QXr!V?-sO;}LGn(+fphtgUtAC=x56OuC1w9V=nFGCNc;gqo
z3F_?cs1R2#C{q%+4d1jWZqAbuzpHrQPYfzK<o}GQ^52p{iGbg|l<~Rq94k!NdI=!}
zZ1R7lC?6F>mVZbo>KHx4@$mwM*TGPH32>;<kX}joZ^+jY3%|s2Qk;Zz7z(n#$SR^Z
zP$sJp<qClVF-iMnc@z|Rd=SzV$jx1xWP0)3dAWrmIkg7Lv`!$j8rXYu-~J~U9jaKV
z;)+l83+>y_!-zJL39|>>obFm652_vS3M##*or)td#;e9CGg_&j%=nj2pVb#*Tb(K+
z;yQj5z!_B8QkCE;WpvqXXG5mGeaiZ3>79yA^A-J5j!bLUl=Zf=33O1}w<6_RF>@y6
z>zOP6u5UxqxgqJ>kg0D@*Y~9Ad**6W_5GAI<ME|Ettn6I%;xWUR)e~(s!LaPrYbvU
zVXU8f{JWK#lHN_p%1t1(s~V?Iq?^~L@V_AFPE+fQX=Y=3#pcwC&9`9enQz)l6{*kE
zHQgw^UOKxnz53x4{?|Q>GD|Ww4cA7lj?5(9y7cCyRLw^Cc`~()>DsPTZP)C^cX!;}
zk*cNIdDZqUc*|Zpa{0*gp_I2{cICUhH+#S9>AzFal&Lt9sjR*B@YRQt746CPjdM@W
zJ$6fm4556lY0+Y-EX@j*l2X*XuIbvPtCwcPRPAcYcERa=t@Lu~m5VbgXT7&hO_knu
z?z>YL$kh5Xb#0mQ>P&q{rl#r2Q`1i;D?67w_Ifu}8`2AJ^&2JWx}H>B&v!jNck0$=
z%BrrFUM;1clB*^3<Gt$5G`FRjdsEH5OD<b|>D0b29?E)!(u&ufzx@0gm(s1<Q?1*-
zTeAI5-KzVi&NK(;e}jLzZl*d}+nH%-xzT&Qcd6XPGhM0?>f3*@EI8r%=a^lCI%NX~
z%}_>(5k~^Pgy>@S5!HpgxO+bMs<<vcXc=Fy`;%6{XA`iW`E8X>0VJjp*>@4F{Q$rZ
z)+q-+4#ktlyDKiX_Ssth-;qG6$iWH??i7P1t4x?${y)fIX`FiIw!CFr2+ZQtCv2H=
zhGYrO361yDN#b4|s0iq%_;y6XA}tl_SJPa=OpjfSWt#lyrgf>Nb(z)`>DInfYu`PS
z%;%&@_Qeu5Bua_aUfRlw7cgB^DK<C+Q5n;v4-Y)lZ_=cZGuYx5E}1V`jHNfr43RJl
zvbgv|Tm#=T7SV)ZR42u=sM#g!CEF!PcZ_5>Anbsib!m?Sv2-#oSKg$fp!QDG-g#WO
zX&LzO|G*b8$=^cUfL;C{_<`7EEE-A3S=i;fWPC!#PhbRGd}vMRAjN_KS4<(r^rB)q
zr<l$w9>%F~RHoSZZ=9%CHsWODv7vSMfM%8XET=IaMk<J1oI*v-wdSkM)0gJUdoJ6j
zEK`q@&?Im*Fn!|2GuNL1<XUrc%`NLUz3+LGP5VFCa3wHbF>u*2Wtv()6<)wpiCm2U
zkglHz&)0NKc^0bbt{u60WTtz*s`s*M%6`SP;H#eEGvub_#DM$*YGhdvd#mCy4PV_s
z9PnnNqfxmMR@qN(OFSWSj7xL6NLXXc5dSBNNXGBsFHWpGF~n}6rXjOpU3x`-YDIsh
zdu?XJrc6!U-SR^wTj@e&P1Z&hLMpXc2eUc_UuD+CtZt#IE$d-cuTa}QvoBTCl`UcJ
zQlU05yD?R>HtS>VGNHWcCoIz}<}-@q#dv%+H!B6dC<Hk>$mY~jyU6KA;w(i46n2*`
zmXNL8W2;%HZMrsjb@CG%>>LnM^9J#!e;TR3NP?|=4xV${;I~UjSOm#3b{Hh=F@R?`
z(XIpI+_}vmIflH9Pj`Y(cdC54kENqD#H;HuMVDv-pY8^q?h-wc+lYJ>z03HsT%bcx
z0xljUf{QN!7hk4StCP2I2Yx_aK%?>~mygJ)Q*whUV1}mv!Ga2N24E>-&9R0xQ56Ap
zTHiS-uMxy}$D{#$5@`j@0|CeVtHS9-YaX3Q<eL0XFd%)TsrZ2OjO-$kUtQYyL|2Pp
z=jfD|pVs#VBqhqLLZiGgHLdiY6AGXeD(mmmtVq}NrE2=JKEYN06T#`?;!*j}k=7Ww
zUO`9^a%HmcJmjb%Wgtf##wS!iuy=%v4InaOc2x!kMd%;N*;(FJAYPj`2FP2_5u;%r
zm~iyI$k49*V<crv$Aq(2MaA-ehaVts6Mhs>-ozagqgEosnLopalsW76JRGVCvkNC=
z4w3dzrw5UcA=29Jd+D+#la(Ey%W8=(^8nd`cFRMy&4y_9sbuA<C7-j7(5#m)coPaz
zs@2VxP$ACM$r03p8o_Wb)F?kK&b44)#r(P57^D20kP&?l>#8Hl@UsnZZNvIF@Hi}<
z;RqX#`x$cqCMLXZzvLLPihu-ULn>W3lUD*0R_GX+1X4yA*;!Cu7wYSRNY{c!U^Z0a
zN3J2mMn(}9R{13AYZ<Deg6t&20RtQB=VceUs9$9d8D1Fi0v0JB4>udHRuvgPMrnT;
zZ38lP3uRSI7QAEL7r1OC91FzYZA*IAWPn!>Up<^`+caOb`SSj$Jy%Sb%Ia(VSNnmd
zpS}JpIFRi(w<nwWZ=Jr<KVP}~^1i9vmtO=no;p0W8%X$PLev54i2;tO<q}jcP+E+x
z2|>#~YPyb}<uY<I3H7JO&rsMEWHMUu7ymP4s^e!JE&Iw<e2HHbDU*%kWU{$+JnSJS
z(6Wk#OUPMDSeWw2uF1o}HEN#tRdF!c@^COYISwWp$H8P<SE=LRtPOUg_IKQvygoTA
zrdl_A;(!-lrPQjy+>8|jZGtYo0N-M?EV`FP$<`q^L&OdsVmk@djpUdRgS&u0T?~P`
zfj~WqTb*@B4j<!K6PtWPBV78xb;a`VW<EqF9LnIvzl5a-Z_@rJR{Yxtp$|eref?uU
z6iuctpDjx0s~3>pOqf<@qO5vsJ&&Bo7;#N%Yzt$#a<O$B56EvFn6UN^4X($2(mx<O
z`M;3yw`BYs3>LNl==R&>!=@%}iYO&$f8;#VC4kBt#|swZ!UZg_Z2)%9q39;GOKv7Z
z&zWymQB4?{DA=*8%yqnukxwIa{24?ij9jK+WXM83YVMr1&o{3n!9&BH%1(wgT6I?b
z#Fd@k$EyfqIG4OaRY#__g^-5E>gU40=*(e<0@jO$k`3oeuzX6^%XEpPkd&(E%du$K
zS{Dp~e<2e`IhnM5G>hz~UZlk?x4{Tla=Z?Mt#K+6J(|bFXj(3q#@e>=1a;=ah>5+k
z#?~AC*ZXIV%r|bprr%V_l@}qsN!P7T)vcc0F<-Z3s>CRYuPNzlV*Le5j&md)LlDPc
znjb~+*;BYdY|L}uK!G5W5vFRML|TGrUZHO@F&QNQB8>VcU}6_4s%b}<AP>lW>;^Mv
zrh+eQ2NUE0_@YGFbyi#R%*nT&ee>B*1X%fKQ#peuLjSa-v`9p6K9mtnqWKMzM)a#Y
z#kN;UgKWdjNRAGe;s8v6;s}UxAkKhO(WbV#p?{b(|5*3QKSFVehcs=}-7>ZS2T?ut
z5vNU%fK9{-xE=&opxL3Wc%A__jVMR(*(RgSC187#(FOywH7vv4{9L&mP)mm_3EG)u
zA11lM76Wo1k!sPGsM0))I3UJl(6$X1A*m1-rRsG_5O8AOFp;W7pK(p{U@pmb*_UY3
zY|FINGTg4k$o(Sj%A8BHfit2y6AZTIZTb+_XWuVaXT8S&%WVTcb@!6aNr;3TH|=@+
z(GO8pk$n26*4|ij?52&!G62zm>KxdIaw^lUR=0IsXNR;|`Vr+!U|n&DTmhSBNL;m2
zs}b3#5LX=M8w5;RA^#&qap@J7iT+buY)wENGNx4NL0m;PGy-1+85EzEv4)W=^D)x+
z2+$Lh)GcVBQZ^KUszzQ8H&xWsfwjdJnPTV7%IhG;I~rrBCKWs7FJT=`eI9wnZ=)SR
zQ<@?L3GB<8(&d3vc_3Zhmn!d@vS(`B)3s|;wQHxmdDeyc)*CI?TY#%d@6-oWc{xPV
z=^98yHZo?jJ5|$7$V<at!DMCEQi-F15L_t`V@Ky(hu=IrSM`mSueZ#v+(lTi?M`Jg
zG9lS}rm7)bwK`R`8oX<|vL{v9qh~~j&|_B-WvS4%;w|r+-q{oHK7aH1dH?n)>-U^0
z#5AFa#`y71(QZ;cW4I5oioYV<N1&|en>0a8pr$0%vq{qgV!+1p)L?U7s-iq~0F;YT
z5JS%~pRCF&5ttST4SQkKO6*^)$B(?0jEBg;`7%M?g1qw)ui})UWGq4_(*XN68qF4!
zarrWGi;p2UCPl1jn{qPLyFOL7ey(S}ZWmB5-$<EzZn|{7ZZEn0Gdogs>tL(&tI=s&
zVm3Bkx1C3KUU$wk&)2QZkNlAyV<CsQZ@P;SHf@^bF(ID@SK~0BAd~SqYRhV509>8f
zz4v3G*0y72B1=EF`hG$`*$qBhvo3vuog-jMY>a@T$n6(Hz|f*G)Dsq+B&~zYj7a_*
zdUosR8Rr>DF|!Cg%R0m`M$1?JKSs-W#J^=3q)Q^SqA#H%;$a<`<f1H#bTw{F$mv@c
zsTTn$8lZn|#Q}Nip?TU8hG~$KLGAVW6(d+Z?k`wBosda%XuV?GCit$>V&s0|+m&-^
zHkBx_fhe%&5e3y+_%B#zUHbt<fnz}Kq(zG3wZcS6uZA~?LI8YQK#5!!tmAQp5^-t?
z0jpsIYI9V8+)ch~$jC(}L@)QiPpK98vLW*0UTlx^#wsW!JTK!2ufV}8G5U%(zhVV+
z!$=<LR*}C}j*9$ck{oi_%%C(*{tEXh)DrhPp&{@51+F9Se@*E~T=R1w?~e#$b1eJw
zVC<R#jNP=pIIn!9|6H=N8_2pDNFTfH5QKKEerxj0$+-jH82I|Yd?(w4U-=7Q{ZqzR
zpULqC2J`W@6`e}%MKijM;eOJ&g1z`Fz{1OL#s#<^Oo@*BDbJr1_fOJpGvG3Ppd*TN
z)rBiO2AM@Q)#2PSG4gT*?O+*@x1jY<b0q?Tbr>Y2IVxf|`R*b^rzbQ`UOj=l72$E}
zSwFr!PF|xW3MQ{gOZ;z?=Br4<grGkgEwP}}5*t%>8|R)=NexH=0x5{t8#*)Xo3l1-
zZ7&KIY*&|n*{*L>>5yF7PeF&|Q6KU)>Vy<3oUebogFMOj9cm6qC^T}Sg_9HbA#wsg
z*<Geuou0_rU@w*=!i$p_lwkphp;3v836xMwVu+SE%-GhmU|Wy2>1;zd?tz0J4siO*
zN)IKMu~d;%5gDn$rHhb5LK5J?JaH?fg@hp!0vy1+A+ej{WlG+Wk<ids--aC7A>;l5
zL8m=v-BC-}`cq*3rs-D-^~u#ux}31_@~0OHSSPK9LIE7rFcJy?lj|!KF?5z3^;18@
zP+4}YF{=?(AXn$a21eq6NnKlW#3Vv`79vE#zC^8N8?MuAxnDpJJ!YP-jnuBel+#MX
zhy1jSU*Q4y;UEgq+K@UQdmB+Q)?q)(yug?;vH1jDWe5hiHYklDK2oGWJ#?A_cAYwd
zJts8CwbzKcFdVr&noFlMCM|M(PB$~r%WEMB!|OC#?pI4c;!5;szS_*XWY1|)4sX;#
zbH7@=hXm+w+sVx9;Z3=CnhhgnG=pp!Bu8K90v^Qe*V5&FhqvbJnr(Q8X3PC1c53#Y
zA)j4Zn%wWN3tIoMt3Plpi&ocr-4}%w!g|2H3qYDrqc2Rts}(O<o)#{civ2GN+&|zR
z_<LSfcIS_2t}umAoP742ljIQ`b!Qryj<GO1y)6Gb!~lo-D4>O6htfv`yv$?ypo8+F
z<w_H3aU~2UO+*a-UB=?l<!mbQWSTfXb@bv?E6%3gH0PiaG;@fFgBQUr=Fd-b@C|px
zxjh<=ofg9nPXr2Ko=$l6ZjX*aSu_4HEIjHb$Z(M+IY_bFjlG$s&bdu<UAH=u>-PM_
zVs0wsfE`z>2uyGqXfq^I8CA+OQ*kCUL}xOUD(I4i;-lm8AWmBA=XHFfD=LNbQ#*<^
zh7-Fu!1bb>P&{0ZmPO$*D*N8ik@M?C#Rj?2`Stu~gG@6{Db?s$-cO1rj&qeb$xpq8
zBNQW|YPIulMg}Wx=HTKj(mG(OIoNH&`TqpqKY>lfF)|uDBZo!BwO>111SuF<bM257
ziiui{T@1+tj-V#RPQk1C5<36N5Q)5*x^ID^Rq~_fgl)K9+hF1)zC%MA1^yR^5GmNA
zDLVG3k0c$ckB`ClZ`h`>=WWy6D*>x&xHfQgV9J$gYEL(<O*OF{ochel)#;TxQ!95e
z$yKIrOS<pScl!>#vGK;1>sw}?zTLR?gE$4%eN<h0?dhvePbbo?>r$=j<^ms-Cr_Nb
zU406IF!vob@ZxOX{qhgiCr>?jyZR{>(7!k1tw?*@Qr@;jvl&{VcA>TzDxa!q!4`MQ
z`4G#0dgU9vvn$`}26f%od}Gb^H8bbm`s|yZop0ELe0+E9!sflE+ujvl+yB;)H;>%*
zZul$DUzTJof~#rCEtFJ{-s%^RD&E$QR&>0z{mt!j*7UkVsda}w*fPK3<kY^~UVp}0
zmiGEnUVqx#neuj~y*(*!&z-XR>5b{ewW-Fn>Bdc|#!czQ?WxA?$+8_w7F6~Vhfw1G
z#3Gb5O&$G#w>9Z){i*8uX`Hyzzo@VrY_t4D_3pI?t8L%1I^p<Mwe4Vw>st*DvbWg|
zu6D@3i<kuhJe`Q>!dky3oPp-xq-me<++TuZwh)QLKO+@TL$X{L)(9*uDSmUin;M|J
zWc|7FHX_-rTAtc3_AabO8V$6GqXA}$V~l8wh!c^B79BC?8kRes`USHHu>S=!KWR?P
z%dn2HbMcW&RnDc^^6G6K){(mwN(7S@1IXgvTOTBJ(e+H2C{{<6x%@D?Ac-#7%mRrb
zw7f5wU-eq)n1_CFC6^*U)})!UI#w+7AOGK^oLR;JqkBjdz0>_OXQb%3{0zaEXJIHV
zTq-jX2h5dZi98vsvNFVFPK+uxb}5Hqr~5KSL=FKhgW-hy0!0qP03-ERs1KXJjJ;Bv
z+F^Oc&LANjyyQo!Ih2hP<Rs8lz(&;+VIh@+@?i4E{|gdeQ?#yOs^qWhR!u!ZfaJNW
z&!ww7Q`Mcb)_2`E-E;l(UEAlYcT62H3fwf`wROIF+th(fbz{1^BURlob9%OYzPblK
zHBAJqNDnyOx;53hHM#BZtyAB8=DlY=sQAMW9N!5iw;fHj9!u36OIM#rRiDU|)sSZS
zqQzWOI&}b`s-%I#jG3D6dAp!<R^JJce|^gh*LBwnB*u^nFEqE^c;<~~rjC5SDKOhJ
z-_(Ek2%u6+0Ez3HZ}_hJW=rPlHbFR?69fmm%L{^;h6+he^0Y;7k@GubB*`e|;r7#b
zk?|w^#rGo$c({fBt;xqveQfdDN;558S@yf(A^!X5z)#4X-DfJp2Cei~^v&qpiCZ1t
zT=U+V)I$eTs}6o5Ab?|h%6AZ1>Yv7REPf4M#jM=Vwq5(_q{X6p8JV)j*dJ16Z-HV-
ziO%||e0*;IH%C+HOde5RG>eJoTl^Ya_b_>YVTBqcKLe9zfq0TIe9;H;TI*N9Z9`H#
zZ?6|IbYW{QBjlmyj2Jo_QxHRk<%nSb73J1EHo=Iovlxk-HE5<Xi3V)hus>G|&4wDZ
zYxdkPd>e8u%?1dm=c@VT?j}Ra_0|>~)-&oQ!~8W2g`D(WNpx!^p-yWwd+wJpmF8DC
zQ^|$lG-vRsOr?%hkgML8u#=2}eK`TV5esMB6Ix#*AARqg?L^DC9x*4Xp!{h@{Y?CZ
zJb)~~Tri=~;{;4-F=%Ay6Y$U(3UwvvWazyN#X6*wk0VVn=g?%tIVk0#D#~V*xhRj0
zDXyH=3q~uH7(It;C2-G>M`gQUe~I%K{3?|^y8I*+e2R=G$#{wkVoqdS_6RjdG)op?
zQ{3ml2c72JoR<^#te7}El+N+yR>W3H3+fk_pQn6CU6`XwCR`802@yZTnH?0w*fU1-
zv+Zpf5F+h4o5u8WCN#RfxI<gfeQ{FW1YLjMeeL?zbp85N{d(Gt&NQ~A8+%iYy^NqP
zqU;Ol{Qig2{R7|aA5iK1Q*S;0=JU53HzrR!$%*}@mK%q!A7-R`bIRL1eg4L0uYYzn
zkzTtqwRR`)qb3T6GT~N6S$E*f7^m0~>Su!TCNLyh_L=@4p#Q(<W3xzc=^Ugg8dpV0
z=-52%;dkJ8u-X`?QDd=q9(4wK)l76HG;j=$UV*CfBGeA5&JMcH0)aX$8J6PJQbySs
zQRcc>4f)ayE6~k1anZF^V=?(TP~6qP=U|Q|<GK`zD;I%OAXsXpgn7m}TOH>lTS?)>
zrRsn>qc2a;tx;&&EL179%`^#5BL!sKUXU~Cx;3e~HM398*KGztgA<HZU8$<B+4}ja
zKCqQ_9kVX%q!*GznX=~0s%=X)OLM747*S5fgpvFOYRaFZzyfxOz$!z>D`9!?z-qdC
zCi!J#2MI4*kd$@7y%(>*V?sNYpf#L>0KIP?r4Aq%%I>^K`}`@Nf2Mxk*PV2Bvl$t<
zM+xu#d-_zUF%@@#Lda;LGJ_~nlf>8HG7N0&<A)^i_{pv-XTo<}HM9Nd_N;?k&U~fb
zMHhLkGTGM5R=?YHvnh)!G}dqe?-R0ekW7UQq8$Cx$cIImZNC_4CpnFYGfh4(I@s}@
zWn!tJF5^6wBM66_qK61SI_hIYE_}*5Ek|y$8mq)5uK18Vk{1`F8J3iHC8=8~k*w5e
zq%1}4O4*JCUHjovyeeOWyCbFO1Bp_?9&8nyhowjvQN73JZFMLMl$@c}Q!H8p@jyAT
zFJCW5SDe#XcEr>PQ?9)1)ONJxW0)m4vZBHlFpJ+thFt5ExCX_cvW9F{Ls^X@cy0GB
zhaeelv?48FQa)<b&Qr1O(J2i&o*mzX*oAw>cWOH_bt`7i&z_w-n_ROK(i=K}@~Rgo
z2nT@g4bhIKkZfjv!yN`k8StUXXrJEg$Kdl|;Ilkdp;JM?4{FEfAipKA^jh>AT@gxG
zaB7UTdSp`mB8BC1<P2C+rE|)8YFx#qc6LbhFy_mv^5>tXs{9o7Z$H|~V18q3x?w}A
zVZ+?R^9_5Zd~`M%k~#HUR{Q#_Lul+=6s(QzDIXmLX-zs?7;rI$->Z2SnqD@syDd=l
z;xD%soP*-8vQEi~A_}1RYY3e17c|76^KjX+5GSb&Q~dHaBt307&`#GF;l8Wsfjoe&
zIQYFug@=K4f!!M@js$k1>8sF?%R8}cNJ?nyQ6t(R+|yT+7KRB!qQ4tp8&FAhq}L4h
zQO-tOa$Is=a!ooXZRepP_o^4imy8GsCyw$WHGMR(j1C~>#AY&LOj=le8!;(u1f4Fq
zC*4MSc9%RLZ9J21kT))E>eBwn$R-dspT3;2Tse6<Q*P0c(AhdI_gslui?D-bC<x5$
zPC`WYChB7aRJ9HSYyrzpD|2eO`uX;W@_bKzcFsw2%Od|K&7%C^b3B+1O&JBNC-3Mu
z6$-1?Kq6BE*3R%vR26v_Wcej3u_#7fuDH;H-Sbq!XQOs8u}iVyvekrAMwd}y9|HHB
z#w6T69mi2)+yLv4`NhAA6B4~RU2-U2Lph2AO9CoFvfPfLRxH@Gf(VLHMXytE4Yo`M
z&uRI^>8f9L|26n5<R8ZY928l??nYM2#5Gh@1KpF?QgO2c><&%Eqt=|ob7EIS7KwMW
zu_&xsagfdg^YxDrq>7gcQZHnVPiU8Qa3qi)G(u~dE*W@P_}J`dcLVf5Hdot7^89tF
z#&tMfF<;X+<+;<|@mn2`F0NRe^0rRxyVCR54?UJDTYtqp{n%_>rm_XMRaCCdR5jsd
z3_7Pg^VnR&eC_rt)&<;nvE%BFncCZxfm!iZcdB<kVlC9IzzOQQz!h7@-;wtBrTl$Y
zO1@v#JT1*UH}}ZxvK`+qtIpO6n+}_@O}OLZzB%0Sch1^of9dwFlk@&ldM>xi`ZC`7
zw3o46;`h8OvfaYUZkz=xYu1l|+;bRxS*kN9J0wUc6ZXM%rQ>5!N&Xk)F-wM_Sn*dW
zgp2{|=zoud8bRu?xrrdf4-usJ$yRu6tqXO{H@w%qGl|*#?;gH+IMul&Rk!69`f69!
zhG57;IlVfwGF7=M>mV;&b;3zl7rC@s1s6T!YO>qb+%HQ6BTIe{;j}g7YFc!VS6LfG
znvcw$oa?(~V;2DQ?MwCSPpv$V6%g`4-v{w;_kTiGP6Jc>2GKPA)8O+WNB7!AxS|Pn
z72?`BP;ge*aUCwMinDM{6Gq)Zg9Twu=&;~ux#R}5XNTJZyF)#d;=O3Wc@&MPImR#8
zR`2xYJP+!ke>70^x3~)iBRlY0{285h${h;Vu#SdFEs6!Zj7kaN$J}uOT7*!)CTPGE
zgH*PVRP%B-85UHww;+SpX?BpPi(d=)(&d-ZzK)cy<7=^b-^QeKBkSh@UA#(7KnmVA
zlEdJ!6>JejNDtgHpxDB6H89(3m;VT%^1G-<UcHoBDqOv<6%Z>H3q>O_-2Oh%qtXC{
z9n0!!5dBM3Yic@bT~<3?J~f$iHnOTJ_H*pI_JSJItnlD(aR|mWGyviN*or?9&umPZ
zzGnJ$(w;XPZQtcn0F#yk37Xlb;X3tpJPQ*FupYoA@MUU;<Fq%w;a(|M_hCY~xSziq
zfSaT6Z~y=~o-2?^twy7>e-|C7cro63YWer6PpybUke379YAWKMOeeaR@6>xDU#BkJ
zhFsC5wQH^<(zR<+^ncUrc^Ei$(bSc0+L~(GnsnCR@zp0Ax^MUFyY1VbbnZ|3_Gf(l
zq|?u7M^sP$^tnPxE6b7J8ZBki<J#;u%QU5BCKxQ9R8`b^x&w>NJ}zjCPpn?P@x^g(
zP}}uIkoL8ud~Nf-6=`38%GaNC_Oo^cN{Y9AXae$T(P;3K0C&jtZ)ni$qo;?Z!2}yk
z`8}%qACkeA#lNLke@q6ga%TJn)!`t#_yw8|O<!6Bum4aMH)l4@*3MPV4c^-K_2IeJ
zRA4s+G-d5pTifhV7Dw~il3R{}inq08y(Zh1nZYH5Z(((2ITrv(Z3kiTSrnDKDVzW#
z-4o7PUmOj#0t8wB0`0iHgTNwg>?nv~XD$Fo0-vIli37}%6HL5=ZsoXW4Y(8y`Lh=&
z4&^^rpt!K|2S>+867hTGMbw!LcCKSp#GyL$QSn!>F%7*me$OGJAmy)9pVG{msNO!w
z^hrjC*k&qwf?)DtT)$?)l+n(ld=t?Xw>~H01*cM!Qkq;My`h0u2wqA|bg9$o-bOKC
zm5WK6Pw{5d0t>3Tg?2?}HqY*!ukM|4FZfo?Hl%!gNoOA$rU6{O#_wNN+~}B5{#eH#
zb%gfmds-xv{#g);wzz2b-sprQ7!Iq^DaT10T^xxUip+-WNWNZx18Q;Q*zeHhmR4u{
ziu&;+>@EqHoTP?mq-Q{v5l%Ya(QmkB2*o;(8%jJpVaNT{XFwDGDUFwl-i9DWtvIg8
zw?^==23uoFNjx0GO-CbVLU==fZdW}!K5~w3wx*PSLMhAH3mJTz7{G{YHz55v%^R8x
z@?Vfaa8~{f3|!YrXpM5=h5NW$uY$paNJ@Eb-e5@adPi6X$M>B&YUG<VdnVC?jE~1A
z^`YyB(oNe^P21+1b^rt~)CJOYn^Rnp+mWu?kgD1+_gt!K4<xxov+Zvl+Bv<N?nIld
zz1^_>{S)Bzu`^zE<wUx=J5^2BhRg=v--%uCnl+08cFwaFYndBxMZ23NjauLuzu&`8
z-u=}yIrBi?pHXKK2$ffo@gK-p1nT~n{K)t%YTH>vBT#3tZJc$?S>}$<Ia6I*a1)(v
z<E=p`PTMwSD})`pO?O=tIKYg<$~OEG71}u6H)EOZPgSnWI>^f@R5wlUO}4F1Hm#>l
zIFYK_lBGmMkv1)PVB@fmiY|bKM8D9tn1xX&FwK#R4D#7Q1OggrYboe}!m|@f%x;2y
z4EEV1A{Gn$hU|=p^io_v&=Q1}s_@cL;BpqYOp;H%fWd`pwaXwb_2G`A{M07qD(88j
z6xuJZfJn2lC|;>lg*sJBHH^e{vU`hbnE<m6fU-=#pgZ?ui%NZs%J-pYPov2{7XUKl
zq$hysI_-q))Gv3QfzeL@(=K&qFpkG`<ZsjbVTiN~3E0Zib_W<qgjofWh!aF*e34_-
z5tj`W8h!B@G`6=m@;7OMb|O1~?k0cn(!1kZk?h@>?md#~J#yPOkaP~P`Bgx1Qi~W4
zqh)eUz*AM`ffL3gaUE@ra&V-{3_<JR>7|K271bD3dAUS?MpY+z_hn(h$M1DlaE&zO
zr#MvDGDtPkK6EOtDQzDRHGhVm>0}6$ld$Tg32Ey842(hqSv`msUlLFTRW*s!%CEam
z<qcDOi)v0(Iv`$!P+l<=SMSbe!~&=46*snbLn?)@@p{w}9X*;+Ka#Fbn&o55(fLMn
zrsx3eZ(+2*EpMKhjpTJXq=vIH)PMLOP1Nh7<prw5W~43>;XH;Vp#dP_GMzlYDrHxe
zkf2%DvcF^(aaGuPx-HvoSQmXWauVQXJ8CjXx9>X#pczI;3r~J=Bua=3i%1_t`LE$2
z-+=+d8a|E3X1E}mfHp28$t|{NieecX9b+qw?Gh*zA?W``i4DbQtIu|+I<p1^FifhH
zt5L!BX)<xPbwKkDj0}A*bDH>XP@>Kd8cqItOaCrS9tdG+Tj4G)Ag#>!cg|Sfa=qzF
z`*)`3|KaxoFp}QpJ2ee6wQn`P**N>ueA}kmHJhgn-l=Q4i=#TFnTkd{s#0IN(6Tn&
zvLn^9<6|3KQ-_wELUa4|gQ=!XI0v4oY9s-AZClnQG;dxMY|W5e)nkLzTb0Dste&n+
z&%^1SJ*l2O@AuF5P>Iv$Qr^{h91^bP9D>>~J>R9&<o6-*!|LSDU!pXz7%<rdOa5JG
z2|bn(WoI-^F*R`HiU?!~4QTTOL@*7o+yT4dU{8WbqDC42kU~C!QMBS2yhL4x=)ttO
zdb7dA{Z_nTihrO%BQ+T4KGQ{1w^#J1SL{ly*!6zx{E9=jeUB!ck227zI8hj$>5D;O
z5pyT6n+UvWpAG|_htJQ2p{#jp7zFMa_BUxILO4g7GWb|TnmTdY11?WaTvY5FV<{e0
zmP?Pgp*z`fV*Fn>DyM0g{8;N>`5$28JP6lcDY{fusbn3<L2GE7Jq8z_=)Dh!HHd$g
zx|_6N7)goixu6c7uI@`!_sv&7H0A!t+nlM#&A#<l;+f`_>Af?nQ%!4@99HOjTkJ#-
z+Es!uP+v?7GJJfSn&3ng@w`joBEPHaKT-qB$Y6rZJ1CsfhYI=8;K_ePHUj%HEqgW(
z<sXra@UOgz44VJ)8ZxpJU?}cPQ3x4-Os(|80&!>7Y_=UWCEGWFu7w4pqP>(}r>L4;
z`7wCpszr<Dk+r+<fJ#~A6>+-nYUHXfYl9oqW(9~$vN;8J$yDOX-pdy+w=TNKr>4f%
zh6ME5N*hJ2pRSx9nr=*$chChpZAif=Rr~Zd+!9SU?X-a&B}#RsX8JLxU1V|F4j6X9
zT|>9+v}M=XY>$~1DqFKQvLMH{u35|Msaa3TzcK4zeyBwGmC9sIce1=Y<yy1oV!ov%
zppPp$vNrq{CnGOh>)exdkqz{4#g#QFSL-JpI5|;FT?Q(O=BMK2R0xMmgXnMl)AYC(
z|08<0kWvm>u$^Z9DlYmFt+-py_J%oV#cN`?<VSRf&Nt}le&kIbjsxNqD9ITF-3+SM
zBYGI+?A2`Q6+tDhcy&4(cX;9*juNBWX+$6B;xdWoV=bq0sa&jJ@`y_KRq6g-sbZ*1
ztj?p~E0J#v!fQbx=gPN>b$M~B5r@hsM?9}o20FVwFSG`s4N@(u0mbqnC)OTFKpOMn
z)rn1FGxTa(q<XPc@~Ca}<8Wky*d{d^9mNvcm+|)+`=e$nzyUO)4voV^0Tg}1bS|{$
z13$A8Y5Zb`)P{8JkoK&Cdj+ID8$^%TDR$vd=W_K6NbTy_tv0Ta8rm(bWObtL=%Np|
zx2}1`5$sUQUxo5}P=2S_yG)MDwcRSNMY=9=ofME(L#e~CM>(g&W`<YlmOP9fvWn}G
zat-5$dVm-E6z#&z1EciNtEfI&bWj?>`>=FB&I!DwRi@vuqu&3S@58qp^L_Z9;6$ZH
z9Md%dy=t^VPaZR1o~XzxLA@h%qN*^xnyZU0B%;gcdT|Xnw{GY~4mR#bKXBtYRlJ~h
z24d0Bh;#wM_tQAxra1BN<C*dB8EN2N0US{kjNUi_3nQjYFV`mY5j5Ji$k7@&zGuE<
z%57s@#>H;@1v3o}FdAgy)qVW!R)}i+iBZ2+ogJOhNN2DA(2)P)=r|sFi=U-XO?r1)
z@-wQ|9~tq7@tDKV5DrI-B=pp4{9||?%%3<b`Crg-e8JDi6iPz=C-UDSeS%&HjwgEM
zQ)nGT^>+TkEwl*2@(60isoiosB^ROhS8+;$cN(NomO)U={|L~=&wWvU=>+Ug;XScl
z#m>vkrrvvUZA2#VK4b(UcEMAb^fZF-EUA2L;PL=4S^3%}3n61SuIa}?3p_q{0q-}>
z*3Gk53pg|<!j4@!p}6A-{TU%}(eZQawIL{{xO07}9x;iMpsZBpT|opr@roWy7p=7g
z?+@w3=x?B+pt7tldvbadxoPlu&`#igaD#vmw>5+vBhmVXdD1T938zW>mxZsGAs{r1
zc6Rly<0}?Y+Z3TU0o^B;>T<tfzU0hNXt~{&NvF2|f~n;hnAmn$9VY$R54_zx7{N3U
z{TI&SkvqnJvWbTYp$?OuH=OHnQ9lAJ5-+2a#pt1Cx~dDeVlg?MbNeJ7W;#Fl@I<Yl
ze0lrigc*Tm{8mgpynPbSNa8U|2%=+SaY&!dxkHa?XY1O@+zmGEV>BOUAxV}gF-fLO
z!d0077o?T{orYN-Yx(~qC!31@7ujfoPBxK2^*54DvhAWXI$Tr7eBz-8%~%p?-jggq
zv-Y2%VjwGPhzasE(wh@yN1#YdPfO6DK`+h(E`T1AW`gOCZK;lJ$>!}@i@BrXuEXA1
zdbdnizw=7}^gyz)J5|2s{XLng?%79Xx6VD0tmwasXDYTVRMlL$c;#HOtuI-z@vhBW
z{?OgZk_z{feW?k2!#{s?#y;=sOgcOHD)_HxwqlADh&gC|(%&K>NKD&hHWf4&B}2t2
z$6e)=Z$59*_@@c~(UIsy6&z{gzdsV!UZVsTg~i5pAGj(94JkMQHg;4)*-4Zt)yc0(
zt(f8%d;9t9D81?&0;JZZK+D1r8kM3%k09GP9ZF+>B<*QQd0M6~-1c-rZR(@ax@7&f
z`O@u4=XTa#1^q-cIqRn{!IIBwqQ_9*;!o?Z!i`ZQ;hvEo1i-;S3}~dtl+(<{5{JIE
z8Oss}lervzFdD(jF*4M+NyDxebyRE^5h!KS!F?{r|4Zs|RR+R_pqo5sy+A8nlVKF?
zs@7A_0(3}tCKKS0wtqBUcgv?)Duzjq($MTgy}<NBbRC#&N(Z*30^8=Rwokb}^0j4}
zSEZZ#Q_cP9=KZPW{kVHIUDubY>r2<|PSx#(CN{BR7L^rK%6Jcm<D5bX#S1o#^uhdB
zD6e2J4WY6=n9FPx84VWctG&!$U(>gLj0TV-TSf<?*z07r2{3?K>DrF3gN>wIN`UP5
zX`I|=N9hf7wv+QDc~}RfNK_kkHmKzknSnz#ygqVP!nj9)@(+=IV&kV7M15aS-B%9M
z_#Nlthj)4l#}8XC>FRZ<>UHVrZ7G~;bZ4+r?(0Z8J76*y$7>faUrg2qW*<$j*^|Qm
z`aSOlQ}svZeaDi{V;p?_fF|va$k3H+b=fl7lDpQF0DX}r@jcfiW7*OyDEbUX64=^k
zkz(Tz`pG#x;$?EA&G4cRsr2QY@M(cG6LQNLaYz8jzC@*F17Oe(a%p~aB-;3z)7<S}
zlhE<eXaPuU)Rv<RQmJ4cwjUcbd+yipg*wCc`-WR`sWjWLU$f<Ywb`6sc4CDVJ_%+y
z_tf?!TftpvMlHAD<`f!xe8^GnCw^ZUX>v2k%P>h+LAU%ZqVbDyJRoQz0Ah4q13O{{
zcEHA5fvP-(Z?;<4J!LHEW@IRjk@2f!uqD_=dHxbP*+DGQ6p?FCB~XeHNz?aZTF&g;
zhWr(ZN+?JvV|9q<iHeIa6y-N7u%c^`<^Aru*0$f5#fI7wt;D6o{~gK)F@4_?Sa~;#
z)-*xq+>@#Hr>lEX)jeD|1~2zV)oruq-d}aQ`VezLC7musAQeAYh(5<{V|OZBXY8}?
z`N}?e(2BIzOW3KK8ztBA7#6#va^*Kxe|>d&!@ksped!I4r#3u3U-tyXyHnFVJv0-W
zJ3e2t1sae3wR86Ly4|UDyFX~W?LV1!m#D5YUVyWSBqs^l;!`m0quylEw>Yd=2I!yS
zZxYIJL}IcfYSvYH`6(xeJbxEqAYteyPwV}U$k(j2@|`w3n=XcQ)`p`eCQ)M3NYjAV
z8zM6WCr^I7tC%_W0POFekcrL*0qi0EsPrWo`@KlPB%QU}u88THtttAy@75_8Qy$WU
zUwwUbrg2rWb91V(pR2@^K75CvK0K<Ve`Kf5W3M7FD`!?$tDXuL4YQf~ilP$%_bA9!
z5Y3@6Ui^OGi46~G_PuF-je3Ai)nW$|YVs48C%9Hq(%Ht540XGXRj88sBog7c&m=PE
z>Bt$ra%OnN1s>g?iKRhBCPT+Y1e-~0{#fKDTKNprkgBV;1wr+cn-Nq<DVOn+UW_$k
z#J9ftuq<FGPVwv1MGv7;ppk2~8cY#9Q|G?wPM7tj%6ex%lic=LYVG0qvLngdmM`uf
z!=XKBToZ@Ls-aY##ry})HadEqwkeo2U#ZST$laL}m)ohuD`4oW8Fn_c*z`Kg2EtfX
z(TEl|?08-OMw@(=yvaw$*|fa~wjx(jjr3|2Z9>QtePZo{CS%bVyw|ClIV*w}*YVnj
zJ{Qxz^(o)_xxl<H$BLi?{j<Wxz}jh8Nazg8BR^b?2u(2k?kLjR{G2bxxUrk)*dcEX
zd*<)cf)3H2kN{hu0=R-zK?6b9c9Hf?m?+HfwnkhbKtosbX|rAHdb2!=`ZL6eiDP<+
zYwc1(ZRe96(ti9wJ^TPbd+%ZH-=Z-fXaHO|_u@AaUr*fH_svJ&d-V3^gB%+C9qNS@
zw?Nffi+J+8Fbb9+tyH!IU(imT(t4fP`3u(d2Gwi>uUQ7Sc{f~dNUq#CC(hSzn<`!K
z)F(Y1cbeDC_Z<A7Wxn~TsR1xZb1k=hyOPdbyyhlUx!|-C%^DiDMUr|m=!_V}9~PCt
zc;WPt>Pzz|H);*=WweggBUC7p6+&~l5H6JtLV7k%l0u@pa$9uELZ!m^Z&7!sI)mla
z>GD;n@>Tr(&$-xq`99o(u0L%jzrJkCM_9{qQn^W{)sc6vr#ZJmawoRv{%~Uug5J{U
z_*_q7?Wn!Q*3Ja6(To5kk#kA>9C&j6d^uF~@SZ)LN|8v7XEU-;nnJ1$$WZv4gqy~~
z@epu#NIkbhry7)U?2Lo!W-mObiB&}uYB_a(7$TB_?q|m#Ce}P?PUas&AtFaTFL$TB
zeP-h=&)lWk<@+I7vI~`KXD`fGY{rAJzUs8EJ>_ek**v!q7i^{a4kdl<^SKRbnd!*&
z7VV1y?o09+H18tcDOZIDO3fHQuLF!R9+mV1J2LH)$aL|7(x~dZ$3vR5mZ^k>Mj>)i
z>JA-0x~XqVXnpAT$z#WkK5=6IzR=;_0|$>Ql{r;;jf99Rp1~+&;y7n?c2wkhu_T^W
z%p+sCBTWp;a`>W5EC&~s5HrTajIx7f{T*_8$W})6vau`HxFRz<vy!3k_sIAIGKfl3
zuY5bg8Yk052z-xsBZak*(}(gIGGSnbBmQm*pmi(Xq|gT(Zdsx@WSD69zK*oC+gm0y
zw<WFhA6u=hwAtCdIoW?C=^waT;%Koatqpf8g!)yPj&--Tr5X?7glRoIs}XNSXVTi5
zY1ojo)-Kq}vSyF1Z?<waakC*Sz<SGaOMK70MAk)Y7nif}Yy-13*}4{d<%H3)HrTQI
zTHBs=kPVU@Z2FSTEmYP_Td%IpddP(rbsCe68&j1JWlPA72T+@`KC+bwHMq;{YA{<)
zt_s0j^>HO^YMJD>ot0^|?U?N&t?wOk{O4BR`&I94{g`~z$grUxs;blG28o-s&~M)+
z_PgL}{MZJ!8W%R8Wr|y3d)&0pfc<B(pebm8gIV!NRXc4U!xuZq*apAc@G&-!AIICl
zdctgru*bB|^s!KGJ7uENMf6L@i|9AI3MYaVD(l#B_kzPj{2Woy$sv=ieP;h#kG%QF
zTSwnKO1kdtS-S<>_p>#m9g6+@jgOFiDE9NqgopQ-vJN-e>lS)9WL5?~E`dWYiUM%M
z1@H-OkJ94RHM4VK^vH46LovKUOM8~mVKn%Gq(vXO>g=}NrdxI>KHxXG_v9k8WXsI9
z8h%C!vTa+<t&`t;_Pu9G!JsDVqz(CHjxSM=c7BQM9DT8gOz`Ypg-ZgtEAY4YpI|&D
zm>4p{(bCiEQByjkvJ63_5gzh^9H2K60|DS097oMbyS04Si#NJ>57kjW+Vj_t03C##
z#9eN<a|1`M&Y1TLqU|$SonJCvGyk&9hWhjHFPW|ZeZDGMg^RY$!mA~}W4T}o*eAZ?
z_T$^jR0;h<<I$)eucnX2{e&9)Kn;G58vOiNB5mf;Hfay-r?Q9IU*cANOJpz0>^Sxf
z&xR9h*RMDmq}QG{_78?f=xKPmLO6nrz6shT!r4n+0iM-Fsk&*~%gg7=kqWwjJ)w+4
ztMVH(hy)208>_iILLOg+fj~CGUnLJcjpAZhkIq*X)7fhY7LxJ11l>lF=Z}bTTLiH1
zU-nK}r-twx`D;5a?|>ljwrBMntgLNUx8aVL&s_h^?D{W%cD}NAY9Bp?LFf6Nnmtb!
zm>t5K=F{h=OK0on_9eTvBx|>(y<3yst(nq_D+i{c^Uj959%K)|RkH1;j8^>o?#A6c
zrax&m?e4b!NlPj0fw;`%uD-$1XcR|Vuq7Vv4WAz5aGMA(rmCa3am^<Q%cGIg{4P#=
z;v$_$m1(lc48zc5Qf!c|j$M@dsksb?kUpg1Whf6r4&)i<nnCQK4T<oSHTi+PK%mfD
z?7eU{0#UonohT=ydhjbfONoN$)vwrRuhR3^f2#^Z_*Jbk>AEN#MnUo3K}^Yb?z(=N
zXlnilRWI5+6gk6RC(NN!LXt`i%Zx|p&9Q<^U0x|;fntQNojnc8QIzW_4fp1%IK8y%
z$dIyH7T=|o8*(*eJ%Qt7(%^VvR8}vY?ajUMBa@n)(#Fa%j*BxB5{Q8&#N$tulAu%R
zzF!JP;^xG9T-w)ppA;{Sher~T38qXT`zimv`^4sVJJEq-%(iHbahBUCWsgxx-ZV}b
zs!KIAo`_(lzMazecp9BsmkGYA!;>4AUf%0mQLO_pm=>B+U6i<&E0!}gwJyr1;hqTk
zxl1`f*{mj`n+#HBQ|b-k4@Kzgirhote6;c>Ja0>{zF)=nx++;dteL&TaV$Mqk{B1K
z)a8ZXg^4&Q?D*hWDHfLLXqCL4O5u}}r^eL5Ru}IuV#;tT5er!!3PZ(LX7n4$OXN)y
zWaH6@n&*V;7P4(6gUN<}k8J-$Anzes-^5VL?~@^t-#pp2Q2=2#_97>HtAgE(%x^H;
zPw_60!GzF+i`eNArsbzp$kG|C8SIhfdV?WTMm{o?!#|*$87%!Hvgv2;aKSR>2`KM}
z<q&Fsd?6?X^vYUHCexx*FnNC<Y)%QAKNQ-3AatjM?jH&je=T@F6skTkTTSM>0*s%y
z1=C*B-wS;o(*IpQ5RT0Y$C!QhheGFv!io=t?S-))F?}c;_)r-5P&oRbur?R=3357Y
z`owHAnW0OJoV|i+$A`imMEZg7@Q1?IzZafN2~U1vwj)e{f!%U<^_8dQT`e!$v(Bwe
z=8V-j)t$A#wg6jK)&?8M9-C`wb=E<4C)uF`NOm{b*JM3p_mVx3Eg^d;*}JnovX^oH
za<W%&dnMVc$i6yTP4*hHcV=tJUPtz>Y(3c<xPK$ro5&u>Hj}-D?5ne_WcPFbHnO*q
zz3c7@vajTEI>^3?`DZ)H-bMD#Y=G>mxqmm=*Kq$HviFj`JG++b>$rVA**B1VO}3Bh
z8_6EXK1B9SWM7@#O!j{6zlH2u$=;RSM)vL8zJu%!^Ef-nzRN_8HQC)Ja_v!Fdzot=
zb9H{apSke<04wq!b3MYtvWJ-KQReE(KE_;!nX5Z{gt>5&A4_+Xxv;;(D)l&XK}N(%
zKh9hym}_<RBy*io(>=*tPpPh_nJdU#UD;=t>sjXN&OXOnxDJn%7h<j#R9Bd}POGj#
z=ECY_F(u|2Vy@1+XPE1(N$`|s+?5%3b;ezmao1$r<sZi>C@It}O_)3;`*agHDHGH-
z>P?l&mUT-4ewX@froc?aTTO2w5Z0x#vnEr`75Uo5s~499vM-&o>@?LRp^hxzcWIxw
z+0=Zc;#&RH`XvF@rCp|gsd>8nM&Np22{#}%FFj@I&w0SQbl%j5Bu|ja^O6ATQq<IA
zTBCWuy7Yo+w+T@;T-$PW%aTC$rAN%ArY*^)-X#IQOYL<gchbKpx%qI)e`HC3YiZLi
z6a3n6G3~Kb+v7_DIkN}Mg1IYcs!E$WQ>M<0wI$<f$&{~#CbikT<Q_Jg9y4XE_Fp;l
zImi%JCRg<@VlN(kiynk$d3ZKx^O_nnCDm6X=nGd<&m^0AQZ>D)lC@b2f);EgQ__{a
Z)73Yct~VvCI#Q*pQnt<|O2y#Z{{+<KpA-N9

literal 0
HcmV?d00001

diff --git a/model_executor/models/__pycache__/zamba2.cpython-312.pyc b/model_executor/models/__pycache__/zamba2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5862fa3742f75723bf7723aa0f26d6b0d40e3068
GIT binary patch
literal 35673
zcmdsg3v?XUdEV^%jm6@<zye%=crEcHz=sHuvM5q~NF*eYH0{9FSud~)aLL^TG`pZg
zcwsAvPYX73L?&$r)piXfZbX(!%$(+&(5LOOoV2G-)20}K_O2#W!!~LgpOe!<23#j?
zPTTLlcV>2WIUvQ@J~{0iVD`?Pd+*%2kN^Jv_y6~wKl1t90*;jRmy+-NJwf<0x=;_N
z64<z57KH0UT$m8zrnos}N}DIlCJI|pmb7)k%EH!^Ep4B$v#>4Ym~h~}J>^I{C!8$K
zk#eQo6K)oEraWoygqMX~DPOv3qKbvxDSx_pqB<Rz2&8K!YFL~nRhzDxsAFMosy^K?
z(ZIsKRAahnqKSp8Qo(fdM02`jq9q-g2&G#mTGMS4ZS0;uwJjZ<2(xf?sy*E?(ZRxj
z)b@1eL}$8dqKjSEq`K2R6Fn?ko9azRCL%0cm)eo;o9IjTPxQ0v`qV&raAJ^!8&X5*
z;fY~{8{<u>o#~N@k@V=qXnNPgE*2L|?N0BR*puEnu{Zt1#1kgLEF2T!&0iAYEeYoZ
zQElkb?=1@tPmHmYA*5`5M9TdvWgAj%dqm0uEM*ue+aHngAWPYSl-nPX@=2Dm6DhkM
zk@6FXDwehzX?q@?_LkBh6Hl=my~q(U&XE{Nj3##7vMa52=&~)cBX-Or2rpbdJ1b6|
z4^PC>ld+L-dN!U&g_G&IR3e?o<YKwxY$iNCD~2zfJb7x+?LK=xnWaSYsYEGNHk>=3
zP)mrRv}7(Zm75n6;c0O;?LME&&1J`ihGOEY$xDN?;>=KNGCMS~Yv<0vox4YNjr50K
zIiExore@QV$xI>}K1Fp2$1?HoSuvK$;_>N(=++mU4JR|<Sor+qNii8$Dm^=wOQw?x
zi8!loVtP6`mBcHAvx%4I6Pc+5PnOKg42I91Pq_J;#!|V2n2F`^)X7Bdl|&*F&f={T
z;p|*Y%@R(<E+@n+t57VLLz!rlfyr1FkK(rm-9Mm)jhJNT36vL`OeGMuO<kU10n4Gx
z<#9xqGZ~z{yr~b*W~P%fxON><%fv-}c7ASdR?J0n)GJXm$y^d;SY*%P*wpz1&m?<J
zQ8y_U?sKVBS}Uz{CV|X}Om<d`vR91G#l%=Dl}JTjnH5v<XckR`2f2?WQuBv0@l*3D
zTscmkIx~)Dj@ab7!?UURbmj#m*Gcq9Oq82XCB&IT-0)uD#pljdB(FZ5m`f$6(2#MZ
zfWYb5SIQINvHp{@Gs#@`1#xyNkwuLW<zbzFD*0+c9Eq6aAiF$6U2-IMc`k7{mYSMR
z#n3wXTW8M4^tVt<&5QFf^wR<xz*^%tsd2>FxdckC(rR<+cp?^;8_vy6#U|CrXVR02
zcpQTTW!1+M)3NzfF8WF$IdeW2P0hyQ394)Di41x>orot<y|b*%vp>L`63}11<FV|C
zOeP_+x?@~qkF&ulH=p4>oMmtJf|!_2zDj*d&$7sYL-V=WPqF7@PqOF8KIQUMY;G<g
z%HDMB@?;`9$1+aw`OMEA<zizFfxnA|C?QOkuo#)+rU{Ena0ziw+>)@yt@yVktO@)F
zk#fNy2yuJD9yha)BjK2KFA3A8xbsWC31{4ua9yZVO4j{Mo8#^;StmS8!mFkU?-?QD
zmEC+`pPW5?Xkn4ge0H$us3Q<;RDzU*ahy;I4Q5wZmnC;TmJ5T@%+nmhRL`D|i3n-4
zkIlsy8eZX3CtqMiO{Qk2E@lT=cwBZRGjsE~Xgrygt)L+nW%ulSPL1)tOoIcHi)Nr~
zSDI3xjqDv=IMWKVaT}+9V7e~kSTvokIP$`mZGxcEUXzf+6+iN(JQ_Q1jhpkfuLyC=
z*Uax&RhpX@qEsR~a#TJ$@|GOqE9l}DxCc5!N6yPbg0N`M*mKs>m08H!^X9yTp7M_E
zmU0JWqZ9dY*&cB${HGI{WG)#?VXiaUTxvK*u$0!P9ylb<WXD*e(G?w9%Z>417>$Ur
z4VqV$j9PV!_ZbDt?v>hlEX>1O6r%5lu`r*f^I~b$;Y6CHQs%PuoTFzK%!7v_R@pk4
zjAg|>yuIwhkT{<Zqx_j-KjI>0aS%W3{&>VG+dyD3i=5GD5=|71iq(|SbVzn5v&jr-
zKUNCano4GKVu0Ow8kwxwL~2^>rE(&4+Ce9JB721Fcse?jie<C1E6M}WXqI?F)|}z+
zYyb23P%b?;G?$zk$i+ZLa|5r=@7?#r#l4B4RC01??sD$@Y-Z>Z$oLQ^*@;&ZQ=kJP
zzswFTu*G?B?y|TO#V*vACfcC-9%HzX{VYy@`I@j97F<<V9Fnu?uCw{WKv&UQU-VWN
z0}aJsSFyRR*but<>E+W`4{rJ#HSQ(r>-NnW!P{{4!Z$kadV20P3|~3+VZ)B4WA6u=
zmg|-mZrk2Hc{lLllJ(2>4U~^oKA()o6PYMmD6><_sHIzM&aioN4j0#jyl{cYVa1U*
z-BMydi@b~GMGMktbEA|vZ+;-1`HXPWG>$$UK{9bSP7$lPhr;`Dl0B(eF{bpsY>H-S
zdQc~b`{=F%jKnK3F}_fvYd<CKGf0r7f%2NL?i8BazTWU=!-{V$IC!OM$#eC^Vz8CP
zc-DgbN{qjG)!8gkv)?q2%R<CQV=5C%C!$f=9i_DwJQBj*XcXf&rQC5uqw(1(L|c-X
zoVW|QMWVs71>=o%u54o~zij90iTD)V^(o_ODv?S>qc=_B6Nt@HBR<7mP3%FCokr=#
z1)To!OTtHHtIfIIAdK!UHZ*<Y+h#j$x?kI{Zll1uUGUeeJ6O;u)Hf}6E@$72Tzh`q
z#iHCoW8}szsbOf{!>+wTpzcSkg!QLQc3aE+#?bZrwfv852(va|51+zwwZpH3Hf|tb
zv>IVO@+<3+4eODud<{}oBWD6DP~1FS#a1LYRwP&4lW<>X(4M0O;$D>D+v1+fIDXn0
zufi(kWviGEt5~({=YvCI%3=<*Gq|K&a^O7p1l<~xPE4JTWs=$S$6eu6J}>-AGIu^a
zr*K%r_hMyYM6W*#UMf5%&Rzfm4T_uX4-;EEn~9|u;fuv%b6`0*FDlN0np_Ug&1OOC
z!KNovo+ZmTTwP7ElJbYp8agG;X0xocI8nLe<UB2-eEF<koly~D%!p@Z8OCM1vS?OK
zVnL3wOwnZgRXLEEPe(aB9_2i-?42TxRas?q)Y2{{ARA<+v=s|INNXUY8+p*piuJZ?
z>-AP$gBKlGd3Eb+9uy_2t(tk$1#OMhMhj?DRJU$l&{o{C6dF%}GO9{<)DX%bI?oQ!
zFj`6~j=W<5WyDPvdoeG~&kDa_+M*=K0%#%1(^>`TYAOoDB~p}l2f?t`YDwBVqh<yr
zVS;&3Gs^<r0Hq?#598FvZ?}LJ#2tgSySNtwsXIrsjU92TaXN5GHrz32TimgK&8DsZ
zzhKI>sAU<Kgjj>OM65xt#2tBC-i{|Y!J)Zy9GX^-+_pzN&2%BGrYQYt<+@q9%J@R-
z5-Y)uT$dWU(5;3_zcYgRzR067-Qf3x3)(m<rN#)^QMyt?3kbwL3+R2;JH}~f-F4;$
z)I7%Jt93adyp%_JSKhV76EVW`W*Xt*zTA+mOszH5I5t|0d&z*H=dG-dym{wWgs)lN
z@!e9|bJ3l5;thTD4w*V#iw>8bqlPpJ;l?|nhLy(!S}-e)yjy*9lkoZ%tODMe7V3)Q
zs!9Bs?%9v(O>Oi(MxK!R$j8Xjs^$6Ey?fR45?H8@)xUo~cTg=K?P)OY(N<5YDN4Uv
zq~&w43UkG;^{wY;@Pz8JCwPAbPY9Gf!IwFp>#>K8O3%kk=lz)Jd}wK6hbs=lQSK>?
za^xb8vf?nz<t@ua>~F<kn9Ennb=CCxJ~pSGs>p~-@e{ejYAotxOeu_FO&5-+`AWYi
zL0bb$vGJOC?K^ckn!jDWce&<rO{6~d55e#K1mZJikj4mOR3T9=#qt}9bn8}RL-te7
zOO1t3Wa5ce!?V*&bf=p-R*tb;Ww{^Vyzp#rhN&=aOeRDsN5M%sV^)?~&!ZU$;1?5@
z2QI}@^NBE}1S43M`zH|J>BTwlG8TSbVR4lR#)J}goKAq(4U^==`BlmzlDPQ;I?eEY
zyZ`Nlmo#`Is*0ure5B{IIiR|L9xg$)2PPYyyiAP})g=c<pAGlU%;v(M)5R+CEeiSE
zSa_j^p-rD-?M&$@&Kwy$y5Jgo`QjxYakCe0T1qGb!vq!_gR|_8NQ}gSeGsK*1|hhf
z#wAY?7)&v2HTrT?Ve4_b@4?#_)!PeNj!SCP_}PeEc9C4da9!EWWdeqK0VsSmstN}{
zNq|?&UIIU(*(o4HnHkxa%tkYb*;gUSUk1qBDH5q-QmBZ<RS=)2(~CG!xyT1>B^Q(H
z4I4_XHE3Bmn4^&xHM&)!D~9S%P@R+7lK^VKG^k@jcAulM_lzjciXzQ>o`PCjB=$)5
z==xi>D=iLo1T{Xz1n`p(ab#zFE*2$7N3Nopq!Vc_xnyM<psSgLNX!)=T7Vk4WbU$T
zC!{qKmqUObqa1qFjTxo0<oe3)<Bw3IwQehq*1C>GGqG9rDn&*aQt73qQXQ$y#b&Bn
zqrNMnB{@&)Z$w4>90*~Z_5yOTp5x<98&$F+H^&>;bU}8N#5W6CNUpAYAuUFG7cEA6
z4Gu++uurqIbiBra35HiSRfyCYXq7^?>;?os0<F4rpw+#aJ!>^jEI9yG0iW^|+eenH
zcb#p;=5V38PipQ%r2l?bU!m)e)OCn%brd5*g~(wka+t2Vi~ibze?amN+;&L*y?1uL
z=RdIOJh19NP~09VY(FS%KlpB=wEZ}x4Hr9l3myBVj{S7Ct=JSQG>u42Be!Ryrh|Bn
zuh`IBXc&+h25y_AhMl+LQvDdB-9S)$fr59t<lVj!FLWP~@aH{JM4Ycj^7Z`CX7=`O
z+J)NIb+fs4<o?K>!pKQ!<mBqkQ^lIjm9vGegHqSQ)y^mHOs+dDfu~Iy7F%uAx?uBF
zZB_}v9RTbK-fqd;%>wik7T6(qcPKy}L-BrYwYCQ^UXWls-)6PY*sIG}Q}DJ)-Zp*u
zPp#H=ZF=mDl-{!$5`ryX_r2*`nOtj%Pzm?F&8+FVB!AZpd!hHBgg^hmcTJN2&_@=N
z@385<zrNt_l>D6^+04GKb&KF~Z@Pu%ZOggBw%yXU-QN%HSvpblH!bfev<yr5^AF!1
zf6xE)y@qYYx~4*1zf{-H0)0|l9|G5(z4mOeeW2LZx%}ysb2kp%7+q}{q8ip*wX9bO
zftsr?Ub9~_eb~@+{o=KYznZ>k!3(}|>dL8tH!OL>E4APAcC816=Dq7}g14sN8C>%W
z-i!2ov-M`{ZE-C!wshpKxBJl%AGUU^>?&;ECvD$XXdS!iD%OUUFBP`!lJHl%>rT~s
zwMXyu?9>KFv8k=l)F(Cdm14SfVj!(FtwzRHx9!IZ^fs*4b)qYKM@ngacDW=xt6J#Y
z@%HE6`uuM!;>q`VB8K7n)pdpH9a8m<LiJ9mdgtoM(|4;67e8L)_p1-D9~9d5uRmpC
zZQb^sr|n)_Hz4Ig^G>OGXR&2lp=CsB87a1IFSPELTK5<0gV&?iqQ%zsVp|8s>9(q+
zBVT?VqsF_9!-fRgim&1%d)1{1cv5ys18;DP#6AWN{W_NYj|nPU7j1c~A*d`|(3g#(
z>6kIaO(ZVI&F@%LHOy!6%tia6W6=pllGc=p!$>3-Zx}P3c{3p)i>@54tL(_Ta+-K-
z1W~B95E*C$wGV{vTMBFr0oa~*lc2w7--1o%&-3V>=XuQMd34Y7<{f!2dmfZuM%qB-
z{d~IT`5yCmKHc-G^3Hq}d)`)UZvYpF4XB$2I4RAHAAo`OyhAk@VJZjoDq2*yK#Oa|
z!QX^(<eh4sML*JNf^{iF-mmruE7gxN=Ld#tjZL7Vj&fxKVBRd*M~JiYGv^;$7pJl}
zr2o#6U;v;v%(eUB&rHU0FcBbjsh^A-qNzltKdk0J>`P_5x_)|%g<nuX;}b`+oZnU=
zAUBlwi?RYVZUJ(_yeKl$3a*yTfp1Z)G&qh7#UUgZuHq$@;50*gEA))dGllHm;B9_D
z#NY@22ggm5Yysa0)+d1|FpV%e$cd8(bKW&Wp;<Z+%p=ky7K!H&=jik@ow9VAr&E$n
zBveGIODZKso5V%L$`&xE;wLBs{c%FPtmwaFH)JF=>}9f&dganMd)bHX(dnjKC63B>
zvHXt4S;@XjWp_-Mv(<QdiN)d}&SyP^I}44Ke3qiz`Up3($1x_M+zJad4cA+*wJtBN
z1qQCzmn=&!7I*IYz2NTz?;QE|sc)US^NH`iDD59#J$vqUaBb(OB<J9g_v(d}{`(&P
z8~d;9FL*}Z^Niltn52EgB%Qd|*uD~Z=kzx}bMrHI8~3ex_pR3Mdq32*l3ok#S~^v1
z>A5i=wd`Fw`Iz~F+gH+3aCGU}$IMrHo?7Yc?|HTtd-~q~;#*%VR)>~TH=f<Fn0u=v
zZ|Bm<<sH!Y`MQ>l5LdArLEOq`Z;#!{uX#@{nZOOb@%byCU*7pkU$|mjGA->a`m2|m
zT<vEW9~YlS)84ES593E92ts^@PDklPNWOTCPJ}`*HJ^B#Lc|k`C+PGnot~o8b96e1
zlU}PgPLXtq(~aN6iD~t0(CRe_{lmqPJ*3$4A2!>n?pKG_Z4>}o8Vs#FSkNhiwynEZ
z5DLAHl_OF^@4AOwdo=~0k6nY)s#|9ztyc@~sviYd?6cNBTR_qEt=kYr>2;0k4hlI1
z=m1mKQtK|datm(%8=)(qAA4}cmv*Z76#lhCUHdkE8Bs<W!MIPS546KR#Wu~>F=z%I
znstgZ?u0%N8oOyz+{N^PZe!gZ^n|v!)A-)BJ?<^j`&G#<K6zkH65B@PJCTSFDD#JG
zOdivgh1;e~>kG-izHC;!h&2GVEsBbd?ASoku|Uj*V|WCN14Kr2p&iyNi^815Lnuup
zVW)QNnUkM{7B82)#O)-QG7-;%MBh&fOr})$WNeBXW}tZ73D1hjnIv?Hti(YqCsV2U
zIEqwtjA2C(Rm|Gh!oa~Rc7r`n(FAe=Taq(15mP*a-ks9(OC((r$=;a6xk9;z^}XDf
zhAHw0-eE_MCJ{SsDZfyRX#5*f^AUH*4nWUFfV2?R>VgziYU<K2O4Oc`3#jo}@eN9Y
z*^QyHYKC!-xTn=kEk`hhF|Eu%$PC!nqC(%OhXz;X8rA&9&oi#wV?W<o@qF!#(NYGy
zQQXGVdcmB=3&rimDWO_(e9fYAM^N5r>NH(H(rU(z+;%l|p;HZ&e#?|%wQ78h3~|_j
zx7ONCje{|j!Yf00m1BG|)pSScz8WI+tfIWysZ)p<k0sNEK{a3L_Yq^lsv2o6I-sm7
zz3FhN1U00#4b<6!k$TV&T6d^#3T4$Lt8m#FamCv4@)Z!aM#3Iy`}H#cuNmVALdQrD
zBPWc+sf-N6Rhez1Vma_Q`1MbKK#QM5yD#_#iBw1D=Qvt>j^f;d@!3~0EJC)<z)p5y
z_w$+5<p(HlG8<ORbzwlkL1cyf26+ZbESn<Zk!BsL%CI>GtzN=&I6yazkQ~s{d&bgp
z>ob2W9*>fJ8_+^#hwCk?EyF-vrOLWXj~9t&5Q*FY&Ya3cr!$=WJx?(~eJLuI%mK-Z
zl<fkYdgvt5DMhC=P7#+O#@I*q`{~3a`8uQ0IZjBn3u?dX5kkcx3xia{2C>0F$X>&#
z(x6Sj1n)KOUuz_Q&a0t=E$xLCFq#7d<TVxBdkXFQr1pJu)dnQ4buWX)LXtOB^!l#W
z6#_j{pl7wZSMv521NGNiuC){b{ZgQxtmGKD_R?x?ACR0@fMs``LEtOReXNKM$=gvX
z%P{N2YHcsFHWSWPwGQ(-KvN;f6I!vq=jpyz6IwT$YP*Zw{e|wmQup4~t|#u8)-9&M
z{tb(TP(TY%KrmSCznWq=on6?`UqZA{neKbRwnrjvz^m$-3w7O6T{jE#NOe8My87k1
zLU2e54y`r~OLfD=y6}d})>|W0Gq6epkg7Y`3liK|@a~kn0E&)&&wK2ndLV5T$jub3
z?dn16A6;+!IZhuFtFbJSafr6&t3?rAW~hlxXJBi~X{)&r{_+57V$-1tc0vLesz3&Z
zp3-yFP+nWH7HOSV`Bn8ceoLh>iQj>mJ0S6!VlQBzZYlA9Jld;D?mq=t|8HAV567lS
zb4MKO<w~6)5eID1&~wHbe!v(^ZE=V=#AUR(_*FVp2=HH_xHoZ%I4gv8xk@EJ+&-0y
z><)#q70EgQnj(fh=#6y4IypL^i2{R)1dt$Nlt)%b&`m;Xdm%I+g$8awzC9p0gG*J*
zWKdb#Sg0A6YKCtIrJDUqj(fGO%QN2)35C5|JG$x|UG<N?-_W|8UTf%I@)UzTH~OUD
z?j<I%wSL|6re|e*t!Z@0hmwGrj$a#JIk;B0^NMT9eidS9{gRK*yF>KSkB~TJYdkrX
z`<sZIzk<?5I*|;N{W}QgL{7z!^nmTSiOHK3P~=S(guEGEv8<d~alZNFx{F2W3`yBF
z8IrF1Sg?xZOg{_eO+j13$|v9c>|38*7ZAKN#eUvR{Oi<rQa`2`{_a$<Dg0{(>7D4<
zco!!lkrGCx)jFZ_r(tAjY<%j2uvuj+Y+?(AVV-Gs++QYy2IQ6s1m{R%3Ojwole7UT
zhHZYr8B8ZAvg15n5lUg(iH%dZqq7sB-BV?gOc6h^LxN2(wvme&1nBp1#c20aCJrO%
zur?_%kvRuPf+pW8FrXljJbwlohiI!oY4#3;bq2F!J3pW)d)dPW!r1pRP*%OIi#n<&
z6{-;33z`~XWsO%#qNgzwN_uoIj%orP?rGv^2<=%Rjy_^<2Nn<rZh8AVCY}9=w*2XK
zbzmO|(sKKzN+C}ZSW93ztRoFYQ^kT$6O>SU<-pz#Wx<5lNL&>=N+lYXhuBAzrHN9s
zk0kcXXrc;1qHO5>EeR9a5<$G=Pb5G5KWG1P(<Z)vzBW?sLzbZ_6;;+O?2IU-EV1Y$
z^$>2Jn9GhwJUZcI95-Ya%~mpY$govF_UcO%iQI}zVDXA+*p6W0M^TRK=X-|O9HvOQ
z8m2wb>1i&|QH;7wGYP0vt%|uyMris)SuY}VK7=%CLc=f7szs|rr9lDs|K>>1TT^U_
z6x)V~!^dB35GqN|qHop-tx&b=?i)z}bwapj<>ecD3VjD9{Pi4scTeH)IqC4ZyW2iR
zGD7IXa1W`?$E4n|ckP9z&PY$4xf?#aWc{AAwZt{c4Jr<&nJY1#k4sN3RZ)|j(kKO9
zh{BAq{x=9<KN?<?ABK!G=+6vxqP=5QsRUza_2ntKOAIYbp{J8t3eY?YU@C>qv2+^6
zQ4-;&q9h~s+Jthfx*D0lI@@A5@hV%g&L5xJJdAy&ZOCL?b}2bKpXG~Y83{4&4;ZGY
zcqtp-s;Ua}D=a3m$vC$4lodnN2nb4s@7*Z7_4ph)6{a5AkbnyCq53-QnT8s-vzneR
zuILH*W@l_C;rzO`L8X#=(8?8GLsyGGj}wg5NG-+&ZN$WX>`bj8d(a59_m}oni|<gP
zn{@guI{g!zA~qe*{@WBwxPkahoU$}V*=y_g@$C<r`U<uC7R~%GATun9hJ_%^Ga^z`
zr08p24UMdNNAJ{ZTFkJL@j+7&Y%MhPOHKVZURrC~&-iWZ?y7pTs^|?CgB`_&ZR-vp
z*s~#6S$Y`bApL;UMC^Xk0VO>z{>H$&`&OGGYfYz?eE0pKRcDCL@;B&puF~lwPI{Hj
zHz<-$KTq}jT?80^?SM)rq*Lki+dj!zYzinWHVbl<4h!m3I_z4f(qY$JrNe?;rNe@s
zHTBzCHI)v+D80S=ZSPy&bq8HJNx|cykXxt=UO#Z{z`BR7ysCo7hb#V;^crQ{xGFGj
z{1A7Hx$&}1Uwp%{P1}0>P&E&2U}oI>*6JQZE?ZF?d5w8+<?dG7#&`|4QX;vrdCaEU
zJQk1@4J_N*t>@hr{#0Sy*_{gZohfk2m}otZuK8l1Ez*i>1V&Auzrh}9RfWSTR9Pu(
z($Y+xiZPuKZROIuA<*7xk{A+T>cQbpouAKKgj^2NHa(x>WDR14x-ShiCW}bQfQ@Dx
zB~~n%_4*)ePAA6%>YlHP)%^j*Pz{C&Thsm#Cc~pRaqzBIq^~#-s{ul#Tf{dn+V%Xn
zQ7YusxZP4-#Cl6tY6u1)h8#L#tJO56U&PY8RUC*Vz_#LGB^$)E{a_};jgDNp(5sM$
zF~b2_K&!iMzm#Dcp*99aG^O<!Wf6MJ4tNW(FZ@=8AYd?*f7;@}Pk`=Y&vp{Py?roE
zt|VX~!r0cTY&OlUGq@FOHHPw~=tZ~y!KfuQtN3epVcAC}xa<~T@3NCFc_<T|fh7-E
zUKbNP$Q)dDGW%=Tp@_FAv%9356^X!CnBa<UBW@fO8m4<>3qUR%;P51xcy$i5l~q)v
zu91B_9=6@YAF9dXtY+f3DEoC?vW!wQUna`)QMIzXPBs?9`FC27%h++FN>Vd$$ezSy
zwjg68yUwOp+1qf6YOber8Y{j|3*2{*nOO0V&bAi|4$K2XLsDqyc6VXqh=jk;kyU5#
zUVWI^Rql|Qb`%NAACg*zm?`0~)H+OTJDL9uO3j1C`j$d{pH$z+0uiY`0>Hk|utRFt
zQLOL2(OuZ_q=divCyT*tg<!uF>@PO9Dono$?w?z&?cCf}-9QMv8^*`r>@O91_DMba
z?p!K-;<WUM(|5O>A<kV{)5%g1_Usx9B~~!+#Jz~b%#^Y1M6wu(`xOL$hnrv{X8w7g
z(s?sOq6ue4LscGnW;#dt*<nloZz=hiEub+2Z&#UalR%(^@?>JaO)(#Ege}=`*1hG+
z)kEj_!<g{Lv{&1*rFHv76yFkzz1O9O&0X%i#<D7dH+%?A3jk})a+8a2a+>TUE+r|l
z7ZaTM8BsRM=v@tQlu0c_$BCDAt>|s(dgn80VXX1Wvu`PAs5@ZP1iX^in({z#+Iu}F
zi_f?WRcz6TDGa4gCgNJTzzv8*a8}-(NYCXiLp2B*`7aR*OnwjDWOlp%ibC4Bmz`?q
z;#;_prJ<-an~s;?reNz2&<%x;Z^UrS#*r0Bd#_N}zT|{KlDBKsGh7TsR{NikLeDIn
zB96G6iHCe&(^v?!OM&*4fwjQ!lD+8kzTv*&CZ^t7vuU%q+~8q@?JIjA7L;-8H?8A}
zAy)(zUE>eK)=8-S8(VYzQ_4)IKgWd4{(A&8XuXbD|Gpu`pv%`~JIlF$3gBH;(=7+P
zhF(xH<#MrW9mLMAImFI_9Aam|vnFBe$zo)nxM%DmV(2SGfX>L<2i`hxyHnb}N0S2>
z_rKC9)pn}_0T&c*<fQQEmQn$|;S~P0Lp7<{_%5QhlnV4Hy}iQVOXb4h2!gpN0-hds
z!w9UJ8G(6V1m=PB2d|;Yif@bfsx9K(#_@0zL0Ekia}+^Fz5!X$5^=XqCmBNjbLd%q
z{QxpwlD(l915eH=tDew29GNHcEd%NV+MJz&4+l=ZC=r`qpn%vr)X(PhE8y?3gHZLM
zR7odaiNS>g_wxWtFfK;GRzven!RSVe*O!$?#1)yij|qKg3N?mRgks%>O3|yrh5;eP
z1dYEpdkia$z?4J=el(_#Moa*t$-=UjsS?5|cpf9QhU$ExM%jy{dngD08GK;G#xRkC
zI2iTN!2fp<Qz3FZXp2T}Bs9Hrxr+&%aA7tSBMf6<D+J4OSVvVV1vDWhr?B#*{pQMs
zyaP<R0^OlL+S@Ru{7V%~xiUl;68q4V`oX4z*-eSLDPQxMA)uzhVaqE<fVN^B#coG#
zpCX<^v);5C@x9|P9?@7{4*2|ABo=Gw#F%rtQU*~FjrZk>F4gda<#?WQY}w@uL*B~H
zq?xZix;d-ytIyNIa}h-ozuKnbSAhwU5l69O7eTz+?llljtn94P0^GL}!;H(fSXBva
zy9rn3h%*PBJ@z(mo!?X32l2I(!C<tOmTi5ZVWDRqw_p~ThX`$;B9C$aZ#8M=XJlld
z3?ubE{pPK=6b6!+G|<Kw;es(6Y1QG$_PiZb&=UK7Ja$X=af{LTLIt@|cSmS6M>oNB
z#F7Y)ZV$muP$1oarMnLhGETfySW_FYBjs6*2p7mzn)X*{Kq-VnE&u2s6qw9M4~SMN
zw?^nVkz+L~Q99y<b`6G)G6P&C6W835^T}D}5eP5XQ$Yo@rEL@s`fB?r^4lusSuWN*
zfPoXe)_0G}^J#6PuzWfWv+S0Rfqp^HH&eOlz4ARMT6RN*_xZA2BqdF_zK*5!wtRsp
z?JAF0nCMo*p@C=<cMD#aksL;Ch-DL3DOS$}YZI4c;MOKSMt>DYWZ5k^;oyU`2#r7v
z%I1g^5lI9OJS=oY3Z46<&i%y6Zr_L9sMj;sGK5mQgsuY{g00KF>TCy-+}ls4Caa?-
z*LqG#&Q3(G>{J+KCQ&1M_b1kELa=W`uqaS?b*qM1{~^6twc$>NZ_tYqN#NTVej+aT
zkEj?r9i^9~HJfq4b^zebWn6Gzo6UVcw3pnK(O%m?>pHxZxfOhxLOT4LE&+clY%%<l
zxv_Or^<d_w%WASap(0_62eXq}3O#M=)$zdy<1s1}PFH}!IRNgWtI`e!TyX%LUZafF
zRpG>qFi2`8s~b1REnhV$-Zx>05_e476+fF*6LuJhIE<h~Vug+3r>)HYri(%1Tjli_
z=LNHDSZ3Uz_yRS&n{d-zFv327-X0jccoQ&sF)oSk+aT*b)W0fWqY!FLEVQ4o(AA8E
z_9((2fyN8(9i9cB%3~ClzK@#D#_Y4=>Gy%fKwW0Q3ac)GOTIBQ8Zj^nQ(s1N*d&Gr
zHV%~MW-nrEMQLvwTbQO9F=q+GW!O7sS^4%L6ZaD7AqS5tG~SN}VWuhLQ_AWKm)C+o
z8WgtP|1r)L>}lY^trA9nkP*@i4~vHAIm{PLMrM@Y0SvKmKum_{_@YC{wrU3H*f{It
z+gI5}4UKWlTMW^0y&X$E+JPP5MU0SiixGCMf?Qjm;Fb#^wbat@Ev5C32yeLFa8Fs1
z!j$<X)Rgf;E^M@Q=Uu;Qe%);q7Cno&E^TDUwX3DzeLB=|=~q{>cgj3N<zm~!qRx{K
zTE&~|QFG)qe>?=y<;`CaN>)bK%&%{=qJ%}w`_7_oMp&%UVf+>&?^dNcyd)~`<X-gW
z`qXC{KAmkWR&y?z^Zq#Z?KPs?9-;a3S**@`@@|^m@E=umVMr~x^qV7yn;rRTys=9W
zYG~t&!ey$@!Ul%3Ta+=Xm7!Q*<#iipbot>bH@90&Yvc(jU!|tTDAC44j^HeIpf3q}
zuQ(8Updt#FWx5h=gUe;x6ny?qSr*-ku2;}!2&3O#5uia?uMpPswC<t8nvQZ*I_a66
zBv+BdZRKJ~W&_AnaQ)0*Pl6)=DoaMcOr@gO>M;_=ye?-GIodx~Vu&ayWO4YW*1@ej
z!pJ=ja0A6}IvJk2DK{PBZ=#uGI~N1QKgNZk{RrzsLE-`6!)96~ji)IY4N=9ND_)J<
zG+QTUXH!hvm))1hRX5kyP#-ELNsKnbaXRQU^fL)4Xkau6y-78HJ~u`p?*gKgGF_z8
z1v(LbBU`Y2S`KiUuQ;|OhvVXLx@pZMUd^#B5R7+WFrIEdg`H>P`juOh!OvC(o&8e{
z$4$Ra&tt@&NwF1}h0L<TD-YW%4EqT<Es8UyRCcjPFkhQ~798OwCF$54e96KCr=4AA
z#XqAm+&neCfNWzoxH5-mDeD>iNw3za)2+ywX#5+*s{Joe%D;qYT&)w0?*~GKKtu{e
z3V~56FbdGMv7^v9BsC5#dAA5Qv~y=FOP+hpZOflugD)5V`?Vdb&W=@o$9?YZ<-Xp{
z3y|H`QEWzd<M}JkYl8QN%~INx5g8#p(g|tg#NFO!f%LYx|6}j7*w1j)wY(3mCVUN7
zFT+zvvG-Xpzpkc_1SHt>0xpKlSEzlZq0qiZYTt9WW$#9<+gJ5bjSza`>fz0RfQ=w^
z&Bg8A_qroDhSs{r$V-XhsN{e69Dy3}l%Xd+qC6WGFZ?Lm;en*4ZpnVHYw*UU!q72k
z=-BtWj!WM5r4v^d@D>fhuhuR{*MbALT~cu08obCHE&7AYpMKBZb+0M3eC{jWtF~gO
z@5Tu!v<D7IsvEBRuKDiObrqXhp%yDPwHM)Hg#T^p+Vnf?8-8SQqZ&;@pphqqH<Grp
zL>@aOaw1WW(0#(R`Gn9Iyq><6UOBqfKt6OlsMgkcufN*3XhK{4)eo!ij#)2;&hL-;
zj)m-h(A{yY!>PJhCvP3Zx~K=SFN}rhMBvdoKu8C*@U6p8!zM&BXJ8Hv7^_8=PLRS&
z9M?lhB+E&Y8!#60#7}<DDvB#f(uShsGt7VPgD|Axh)q{miB3XJ`~dHH)6A#$Um%>N
z)=+&;`#Dk4YPX<Rc%LGccd+8-k7=F}>jSy3Mu1Nie^~N|SAuK)zEx)*mpKR`g5xf>
zYnXe2DtDHmAx0#qqWLYafp2_-iqVqC7Mw?@88wt>(N@}&i;^|24v$j~b%n*&OVAs}
zNpXi84z~82!Pn3L!9g72qV@GU_yaWFkW+f9HE+dGF~?4T3~h-wv8C_h4wDn*V@+GM
zh%~B51V+;XC`D;NmSrjHlJZ4!fLqdFWU)lLA^oTk$&GWkl)<qc)nX5DiGI(ZVw<S=
z@<`4l2um%ip9-$QU$qtw8$J!bh}gydjxOP9KigDl7T>P;4-`QQiufT;DhNx1oU8rT
zDa2HPteF3TOWDSj9`QYdvw9d-zrjXvV9zIk0(zJ+CbFcN#^CQ1yunpZxEKl-Lc>xB
zJ8ITK`{78UscXpxlGV}kcFS8WFyCw6zv^te7mnQM{AS<HzVC<kU~k{jiL3MPhuVwP
zt;L>$#pdms4r^-_REBP$b;p%c>pr1<FDQ3~`mk6s-jf~tGauztjaXGi)y6UYuEY0W
z-1O_FMRUmv7Xw%s)JUlv#0$`I3%Tf6w3PO;srN_-!&Cvp#HNZ3LY5iV`*4jC$^Q^o
zYiHhe$t0Ry_vUSe;H(oKZWJmE;SF047)uWE#b|;qdf@#AY&*mZmpT<qf=S49VIm?o
zd(w$gDLD_XJ-}k9-AW&)Q1h0`Q|kab1M3C9nyd7i*Bm;7*<ZlZXi{6oBNhN~2_%#4
zFY|4;rkAyti%QHzEr$DCluegpU->6loZ_!jA=TtEGR{7H!(2#a;a)$HlN~_+QuwNm
z_}7%kf$uOtr6G#6nO(L3yN!4`5#OYU2H4z8!6J^Al7&gl+#EP$*~1)DX5p@IDkuBc
zr(o1Ha$xHG#X0RWF;odH1+S;<X1UpC0%VU;cb3jc`j|M@FWJVDusX6eSI?<2J-Y0r
zrz#(#$u20)_4r)U-|3<Wbr<jQn(#xjtpg}w+a^%4mgQaCGuv9r$XdfF_^^(y-@v^3
zli|IRw|~_O&oF<o`#HD<yXszk?nYCwwrv%ARBQJZ>q5oO-G$DBQs==t7r#5U)_HEV
zy1m%6eYJD9)U*e@OSr2L9))W7s_*^k*5$;?OSg~Ttv>jEb^W?u*mKf^C9SUO#&b$h
zrF{2bGjF@`#k)^^axHvL%X_yPOkc3zZI!&Ot8GKy^A4|X6Lvna9u{<%<w3k%Bw&bH
z61&29_eyswjL5ao-KXe8lNR4xn8ydN#Q#kZ9!ynZcP!MFBAvcM>+~NWK+vU?KC<8y
zo;DpZ{ZKe<g2sMjVVwu=j4FZeT7Sf2*3X+=w*DLS-wfRhtqTa=>H2p6xB53I2=;Ms
z<Re!*Fv;2`W_W8u7?`AjLOSTmDKxdxmlsyzQsa(wN~{5st8hr?>f7*8+)-1rt##%2
zjZfYly<_{f_gmi8(Ie8pGg9Z#bpdz2JNn)1A3pJ83UaQ3-f9Z}+M&+)jlV{7R3e#X
z0bdXTni<D;guZHd$F5Sh2{Pq%#Oa$s4t$1;gpG>BIF_S@9MM#%;)GjQmLuUwcz7z5
zj4-Y&3{zw~gpt$pC99Ux8~4V2Kw2FMA5h9Fd_TgkAg$G3s+#b}1E@u~qGGs2tqtQ*
zdJS;P0Fc&}E%VkI=Z)8G5$|V6Yki_-%cr{I4ZvAz<BeOCutja-tYp-=33aZE2NU&Z
zu`1&-bSSMW(U7QOEo#MQ_pB3*45e)Xbq=Y94&b^D$L6!K)X7t^ofs8*^n!oUVv5~{
z=|g5_J~mVO;98h05f!$K?K@;&%L%_C#^%U18hi^sfcz?U1B$wDAWYwqGAfmU5hR>L
zR3Lm75Cu_Y^<zcYh)9M;3O1p*FouP5h9$wK#T<uv2g1r%xpXdXbPN*%O7zGH<Dif!
zhVNIAQS?-7E;gA&apa%}3=P;ZRB0vw9;&n}l6|yh!Fgzq6aEF~(@F^6{jwc`%s;c>
z9M*2`RBz&AW~7?~umNYiuSB!+lk}|^1|%>d$7~#wwV#b@Qt}d6V_#l*^j4vd3nCjs
z#fG*IhM=;MS+&YRoDoDu%N-&)zL9Iv)N3P(rEZ+zFuzMTY&?9L!U2{j%6IUwc)6ZO
zk&&-18XtSJOr^4{$;yPYcKRHgl7%d6qpXxDnG-5t)WRqq<+`yy_{dD3MB`_Vpo&0C
z+(LDv;NLI#p}uP@cst=;tl(u%TuYbWTKDMgj!E9J4TrVby)IZ?ZbqNW1Z-leS@-s0
z5|T+NVOW(1a9fkn&M>3ShIYVWq%}aSfpo`g>#Zf0(5PD>=a~&%Em@3IS$K}YQi0gI
z%C`aox)na#^k7=ZnF_+pB*#%Sm-_iYeBY5i8OZ1ADH?1&^og9zC4Bpke{P3Od1iOb
zkyO<>i`cOT_3&i?EqyAJ3Il5S2>I?Tu^l?>w){hE1FS}>xjNN%EPRH37=<aXt*)kw
zHmO|W04Px!AC!a>ZkB}HS(lf?bLu~L$)=803Y6WyhPIV`@El$Gf~5G*5GVd~I{gc}
z>sCsKl?2=Vr5e@avsiwWkg5PL&1CU?I(?f?r05o@`zoeAtEpVay<L{RV#%!Zf1mRF
z0p(F_<Y|Q=3;cKK#&>YS9y5IYR^W7!c6#$C(yLVLF_Rx41MJC<O9mdu^f@8}zli5S
zpbZNx-G%1eQuFR5f3a>GcY|E0+auNOS#lLaU4_ty6dJkxbA{c{O85&s3v>7n{k;n1
zAj|hiq4`Ov`N?8^TcN&Rs_%yZ00&Y_F^%Cu<Dk?y2&k~oG$=I<0wg3V;#8;z(?*Kl
zqZaDNsa*3&Go4WtvQ8z<qcL4EqA6Qz7juM0vEvG?ioOg>P?br8fJnx5nmrOTuG3P3
zev}#B8BsW-Pzx7y+DDVlg&TIjssd@ratZl}g0dr5(lb5=T`7Bl<}Mi8AZkAxc!IhU
zZVM-~hR$RSHJukoQmHspc3c0PGHql-MFw2z@}L*^K?a1eFQB_0qL$*MW(&UVp-5X9
zNd&$NYN&qM5v0pdSyiT-dQf$x(ln;AA_g&w?~Bn__CzT3e=_}*j!wstS-9HO$RDHk
z*(|_m@RaOB1lWU1TL(xt#+C-+|B_i4u`+E<Sw_m-o59B=N^ZjN2@1B}l=cP4HU?V)
zi(@<;O-<PWO93KjY_^U^YPdlq(M-8odux@R4kMaNxzAIGm2#ItU39`nyalm^Ligyz
zsO@&d$sRDPDvH2BY>{RIJp8k7@)GExe3aL2sJiN;a-TqsEKOT_)3W_RilwEVaZ*23
z`2`}3{|=d;PJ;HLrnOv$bRVR$WiR~2t~#4Obo$iqSgM}_Xz3<1%%);^n0{M}p`Jo$
zmjpkvxC)Y*g)oVCPTpyFw{fli1a|!@JAB+i6F1x>L_t#|-K*WUV!z>9s~rJO*hG7Q
zyb$J_*w+oYChNBK_uRkZE({-&hL5c^;*$Zdd-0U^;oJ7Y@F8jV&|3Iu-TwZ+z-yIp
zYeW+mU8SaC>Ja=^9!Ah%X$ugz7t_M;VG4a56$$GIoF3#+820=q4T+llr>7t>^AX5k
zm;Z(r*K^<uab9SDkjJi2jQnF7F(jR0z*Ipo^2WlIg@QjK`6D+XYyMrU&Rr$th)AHc
zY`+LYx|wp-2rV`q{BO_{V_ktETzSyWEcgMVF2eyV)ke+#|C`!D?PmJjv4gkO810Z^
zUy_9VB^nRv^9(%GlK*mOE})5Hd?Bo2Gmz~?9mRZzbMG>pg+>~oG$X16jl&+au}E`9
zr%xcUhA9<Fghj7AP|POvgaraOnN9vSjgsvs45OqQ2>;jJZ({ooK7EV7AS5bg^XS#%
zhorhFo2^zvP}grfiPM%t#MoJ##%n<K!gp#hXTNip?VwJCIZ0(}sUcSJ(1o<Z#`ie;
zIFYIbVq4$X`az{rE3giGMDOs=u5VqRQcs!1Zt4zNFaW=^?xIGM?fjLp)L0lp9GI?B
z^jrjG;Ir-viZP$QtIAXSA@vwp&hUkxp%Cbn0^KXQxASl1Z@;t_I1Gz|lIOEcBsA_V
z!UOa`M_%K1s4tAED-<@=+Z6|7Mg>YCnQ<H+dAAetj~&Dok%kt7hvfjQRRG5@7Dv0y
z8i(pgjYD6EFKZl@aiQ%&Qm2RPi_{*yDB?BYUH~5?Sqt>C7AW{TB!9=s-rKthqbH=%
z6EKxn^Fu~>mXkdOodgYG@J_1p5PA<%8GWJ}`jGRpanVbidV=oNQmBzm$LKOlAuolF
z(`hH2o~09`-$X$<Y~D}lsPi8MnpaUmIz3JA_C*9#hZi5!3Bm6B^-aa54*Y%Ou!h{5
z7JJaXYORNY&K_7dJ7ED_-@b0cFJN%De`%iiVt?lA&%OEFs=r5a_5RR-d-#Bml6t+4
zg<6z+_*L><J+r+1>Zh-KamBVWbz}6l1%BnjyH@?XB-idAI*?2$f-;OLP=1%~Fhla`
zmw<fwB^;lA*T+o`+in%cM^J_F5ri2t!T3QPjE}Gm#;2<a7@wlt0=~`cp^)loW5Y*R
zdwjMAZL=Q2?2X9P`m$AWg*F@%)n>LmXW9bpr&}uCPhmb}s7E4Ci$~FevVUqemEt~Y
zvV*b7DXtT7CE>g!2b(KyE+yN6!hzKl*%)9$hxk6(t24CEG9z)hj^+h@@QgmEHJcga
z3Skm3<ra2}h(I#MfYCv6@B@r=R?LbdmdVUYb`TN*<OROfl9p^XB;{(BTldvs_L(xd
zi$yach&}ZD%jx`~cpc48I`@U!`H-}%o@B+#?6~Cihb3j+c-gn(nWJ9zaWcM@sgB;F
z?_qf>_-oE~4?H9XgD3|%P|4gGjBx(|{U0+AAT9JFA*&o`>3K*#J<82LP5!WVQ9d`P
znMCl<m5n~6d~Uj@K|-aROhgG$;~6#u?_N$=6=Xch->a4K_}C*=yKa%BX4%aQB&MP9
z&5B_}i0yRhpj$Scl~Hs?B1u$|?Wbm$IN3w##_9AcbovIJXj2-u{bQmP&7YeBpG*62
zOLiVW4Izs@DUyW>{)8-{PH^gLGJRyXo2);o7EE0q2rVB74SyzhKM?9Z5W4=eu;T;a
z;GYTyB;mjZ!l4i7{KSvVc9Z!>0-dS^({a-W!ZSZMTX5wROviBbly>z3t_J?A@SG$(
z_ou=kNjS7=A2hXGt+^h&7TgpN+?+JMYBmL~PF_!5OKu7j-n?XsnoJE>&DUMmT$=)g
zH;-82CR6K5$J>#&BAc*mFtu)uTRwxI<;kxn-$X_VZ|2RXDa!nH*PF;l;dP)v=EhAk
xj9go<c3h8Ki)>(lHnoD9nj6<y^yW$1r_HA4Og!7l!P~v72hROSU~#PV{x9^&clH1P

literal 0
HcmV?d00001

diff --git a/model_executor/models/adapters.py b/model_executor/models/adapters.py
new file mode 100644
index 0000000..a9cc494
--- /dev/null
+++ b/model_executor/models/adapters.py
@@ -0,0 +1,543 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import ast
+import inspect
+from collections.abc import Iterable
+from typing import TYPE_CHECKING, Any, TypeVar, cast
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.models.config import VerifyAndUpdateConfig
+from vllm.transformers_utils.config import (
+    get_hf_file_bytes,
+    try_get_dense_modules,
+)
+
+from .interfaces_base import VllmModelForPooling, is_pooling_model
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig, VllmConfig
+
+_T = TypeVar("_T", bound=type[nn.Module])
+
+logger = init_logger(__name__)
+
+_GENERATE_SUFFIXES = [
+    "ForCausalLM",
+    "ForConditionalGeneration",
+    "ChatModel",
+    "LMHeadModel",
+]
+
+
+def _load_st_projector(model_config: "ModelConfig") -> nn.Module | None:
+    """Load Sentence-Transformers Dense projection layers."""
+
+    dense_modules = try_get_dense_modules(
+        model_config.model, revision=model_config.revision
+    )
+
+    if dense_modules is None:
+        return
+
+    try:
+        layers = []
+        for layer_config in dense_modules:
+            folder = layer_config["folder"]
+            linear = nn.Linear(
+                layer_config["in_features"],
+                layer_config["out_features"],
+                bias=layer_config.get("bias", True),
+                dtype=model_config.head_dtype,
+            )
+            if not _load_dense_weights(linear, folder, model_config):
+                continue
+            layers.append(linear)
+            if act_name := layer_config.get("activation_function"):
+                layers.append(get_act_fn(act_name))
+        return nn.Sequential(*layers).to(dtype=model_config.head_dtype)
+    except Exception:
+        logger.exception("ST projector loading failed")
+
+    return None
+
+
+def _load_dense_weights(
+    linear: nn.Linear, folder: str, model_config: "ModelConfig"
+) -> bool:
+    """Load weights using vLLM's weight_loader pattern."""
+    from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+    for filename in ["model.safetensors", "pytorch_model.bin"]:
+        file_path = f"{folder}/{filename}" if folder else filename
+
+        try:
+            file_bytes = get_hf_file_bytes(
+                file_path, model_config.model, model_config.revision
+            )
+            if not file_bytes:
+                continue
+
+            if filename.endswith(".safetensors"):
+                from safetensors.torch import load as load_safetensors
+
+                state_dict = load_safetensors(file_bytes)
+            else:
+                import io
+
+                state_dict = torch.load(
+                    io.BytesIO(file_bytes), map_location="cpu", weights_only=True
+                )
+
+            for weight_key in ["weight", "linear.weight", "dense.weight"]:
+                if weight_key in state_dict:
+                    weight_loader = getattr(
+                        linear.weight, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(linear.weight, state_dict[weight_key])
+
+                    bias_key = weight_key.replace("weight", "bias")
+                    if linear.bias is not None and bias_key in state_dict:
+                        bias_loader = getattr(
+                            linear.bias, "weight_loader", default_weight_loader
+                        )
+                        bias_loader(linear.bias, state_dict[bias_key])
+                    return True
+        except Exception:
+            logger.exception("Failed to load %s", filename)
+            continue
+
+    return False
+
+
+def _get_pooling_model_name(orig_model_name: str, pooling_suffix: str) -> str:
+    model_name = orig_model_name
+
+    for generate_suffix in _GENERATE_SUFFIXES:
+        model_name = model_name.removesuffix(generate_suffix)
+
+    return model_name + pooling_suffix
+
+
+def try_create_mm_pooling_model_cls(orig_cls: _T) -> _T:
+    class CallVisitor(ast.NodeVisitor):
+        def __init__(self):
+            self.calls = []
+
+        def visit_Call(self, node):
+            if isinstance(node.func, ast.Name):
+                self.calls.append(node.func.id)
+            self.generic_visit(node)
+
+    visitor = CallVisitor()
+    visitor.visit(ast.parse(inspect.getsource(orig_cls)))
+    if "init_vllm_registered_model" not in visitor.calls:
+        return None
+
+    class ModelForPooling(orig_cls, VllmModelForPooling):
+        is_pooling_model = True
+
+        def __init__(
+            self,
+            *,
+            vllm_config: "VllmConfig",
+            prefix: str = "",
+            **kwargs: Any,
+        ) -> None:
+            super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
+
+            self.pooler = self.get_language_model().pooler
+
+    return ModelForPooling  # type: ignore
+
+
+def _create_pooling_model_cls(orig_cls: _T) -> _T:
+    # Lazy import
+    from .utils import AutoWeightsLoader, WeightsMapper
+
+    class ModelForPooling(orig_cls, VllmModelForPooling):
+        is_pooling_model = True
+
+        def __init__(
+            self,
+            *,
+            vllm_config: "VllmConfig",
+            prefix: str = "",
+            **kwargs: Any,
+        ) -> None:
+            super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
+
+            self.vllm_config = vllm_config
+
+            # These are not used in pooling models
+            for attr in ("lm_head", "logits_processor"):
+                if hasattr(self, attr):
+                    delattr(self, attr)
+
+            # If the model already defines a pooler instance, don't overwrite it
+            if not getattr(self, "pooler", None):
+                self._init_pooler(vllm_config, prefix=prefix)
+
+        def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
+            raise NotImplementedError
+
+        def load_weights(
+            self,
+            weights: Iterable[tuple[str, torch.Tensor]],
+            load_lm_head: bool = False,
+        ):
+            # TODO: Support uninitialized params tracking
+
+            # For most pooling models: We have deleted this attribute, so don't load it.
+            # For converting an LLM into a seq cls model, we need the lm_head.
+            if not load_lm_head:
+                weights = (
+                    (name, data)
+                    for name, data in weights
+                    if not name.startswith("lm_head.")
+                )
+
+            # If `*ForCausalLM` defines `load_weights` on the inner model
+            # and there are no other inner modules with parameters,
+            # we support loading from both `*Model` and `*ForCausalLM`
+            if hasattr(self, "model") and hasattr(self.model, "load_weights"):
+                # Whether only `self.model` contains parameters
+                model_is_only_param = all(
+                    name == "model" or next(child.parameters(), None) is None
+                    for name, child in self.named_children()
+                )
+
+                if model_is_only_param:
+                    mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
+                    weights = mapper.apply(weights)
+
+                    loaded_params = self.model.load_weights(weights)
+                    loaded_params = {f"model.{name}" for name in loaded_params}
+                    return loaded_params
+
+            # For most other models
+            if hasattr(orig_cls, "load_weights"):
+                return orig_cls.load_weights(self, weights)  # type: ignore
+            # Fallback
+            else:
+                loader = AutoWeightsLoader(self)
+                return loader.load_weights(weights)
+
+    return ModelForPooling  # type: ignore
+
+
+def as_embedding_model(cls: _T) -> _T:
+    """
+    Subclass an existing vLLM model to support embeddings.
+
+    By default, the embeddings of the whole prompt are extracted from the
+    normalized hidden state corresponding to the last token.
+
+    Note:
+        We assume that no extra layers are added to the original model;
+        please implement your own model if this is not the case.
+    """
+    # Avoid modifying existing embedding models
+    if is_pooling_model(cls):
+        return cls
+
+    # Lazy import
+    from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+
+    class ModelForEmbedding(_create_pooling_model_cls(cls)):
+        def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
+            pooler_config = vllm_config.model_config.pooler_config
+            assert pooler_config is not None
+
+            self.pooler = DispatchPooler(
+                {
+                    "token_embed": Pooler.for_token_embed(pooler_config),
+                    "embed": Pooler.for_embed(pooler_config),
+                },
+            )
+
+    ModelForEmbedding.__name__ = _get_pooling_model_name(cls.__name__, "ForEmbedding")
+
+    return ModelForEmbedding  # type: ignore
+
+
+def as_seq_cls_model(cls: _T) -> _T:
+    """
+    Subclass an existing vLLM model to support classify and score tasks.
+
+    By default, the class probabilities are extracted from the softmaxed
+    hidden state corresponding to the last token.
+
+    Note:
+        We assume that the classification head is a single linear layer
+        stored as the attribute `score` of the top-level model;
+        please implement your own model if this is not the case.
+    """
+    # Avoid modifying existing classification models
+    if is_pooling_model(cls):
+        return cls
+
+    # Lazy import
+    from vllm.model_executor.layers.linear import ReplicatedLinear
+    from vllm.model_executor.layers.pooler import (
+        DispatchPooler,
+        Pooler,
+    )
+    from vllm.model_executor.models.interfaces import SupportsCrossEncoding
+
+    from .utils import maybe_prefix
+
+    class ModelForSequenceClassification(
+        _create_pooling_model_cls(cls), SupportsCrossEncoding
+    ):
+        def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
+            text_config = vllm_config.model_config.hf_config.get_text_config()
+            model_config = vllm_config.model_config
+            quant_config = vllm_config.quant_config
+
+            self.score = ReplicatedLinear(
+                model_config.hidden_size,
+                text_config.num_labels,
+                bias=False,
+                params_dtype=vllm_config.model_config.head_dtype,
+                quant_config=quant_config,
+                return_bias=False,
+                prefix=maybe_prefix(prefix, "score"),
+            )
+
+            pooler_config = vllm_config.model_config.pooler_config
+            assert pooler_config is not None
+
+            self.pooler = DispatchPooler(
+                {
+                    "token_classify": Pooler.for_token_classify(
+                        pooler_config, classifier=self.score
+                    ),
+                    "classify": Pooler.for_classify(
+                        pooler_config, classifier=self.score, act_fn="classify"
+                    ),
+                    "score": Pooler.for_classify(
+                        pooler_config, classifier=self.score, act_fn="score"
+                    ),
+                }
+            )
+
+        def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+            text_config = self.config.get_text_config()
+            tokens = getattr(text_config, "classifier_from_token", None)
+            method = getattr(text_config, "method", None)
+
+            if tokens is None and method is None:
+                return super().load_weights(weights)
+            else:
+                # Online convert ForCausalLM into
+                # ForSequenceClassification model.
+                return seq_cls_model_loader(self, weights)
+
+    ModelForSequenceClassification.__name__ = _get_pooling_model_name(
+        cls.__name__, "ForSequenceClassification"
+    )
+
+    return ModelForSequenceClassification  # type: ignore
+
+
+def as_reward_model(cls: _T) -> _T:
+    """
+    Subclass an existing vLLM model to support reward modeling.
+
+    By default, we return the hidden states of each token directly.
+
+    Note:
+        We assume that no extra layers are added to the original model;
+        please implement your own model if this is not the case.
+    """
+    # Avoid modifying existing reward models
+    if is_pooling_model(cls):
+        return cls
+
+    # Lazy import
+    from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+
+    from .interfaces_base import default_pooling_type
+
+    @default_pooling_type("ALL")
+    class ModelForReward(_create_pooling_model_cls(cls)):
+        def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
+            pooler_config = vllm_config.model_config.pooler_config
+            assert pooler_config is not None
+
+            self.pooler = DispatchPooler(
+                {
+                    "token_classify": Pooler.for_token_classify(
+                        pooler_config=pooler_config
+                    )
+                }
+            )
+
+    ModelForReward.__name__ = _get_pooling_model_name(cls.__name__, "ForReward")
+
+    return ModelForReward  # type: ignore
+
+
+class SequenceClassificationConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        text_config = vllm_config.model_config.hf_config.get_text_config()
+        method = getattr(text_config, "method", None)
+        tokens = getattr(text_config, "classifier_from_token", None)
+
+        if method is None:
+            return
+
+        assert tokens is not None
+        assert method in SEQ_CLS_LOAD_METHODS, f"method {method} not supported"
+
+        if method == "from_2_way_softmax":
+            assert len(tokens) == 2
+            text_config.num_labels = 1
+        else:
+            text_config.num_labels = len(tokens)
+
+        # `llm as reranker` defaults to not using pad_token
+        use_pad_token = getattr(text_config, "use_pad_token", False)
+        text_config.use_pad_token = use_pad_token
+
+
+def load_weights_using_from_2_way_softmax(
+    model, weights: Iterable[tuple[str, torch.Tensor]]
+):
+    # refer to https://huggingface.co/Qwen/Qwen3-Reranker-0.6B/discussions/3
+    from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+    from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+    model_config = model.vllm_config.model_config
+    quant_config = model.vllm_config.quant_config
+    text_config = model.config.get_text_config()
+
+    tokens = getattr(text_config, "classifier_from_token", [])
+    tokens = cast(list[int], tokens)
+    assert len(tokens) == 2
+
+    model.lm_head = ParallelLMHead(
+        text_config.vocab_size, text_config.hidden_size, quant_config=quant_config
+    )
+    if text_config.tie_word_embeddings:
+        # embed_tokens is the assumed name for input embeddings. If the model does not
+        # have this attribute, we fallback to get_input_embeddings(), which is used by
+        # the Transformers modeling backend.
+        embed_tokens = (
+            model.model.embed_tokens
+            if hasattr(model.model, "embed_tokens")
+            else model.model.get_input_embeddings()
+        )
+        model.lm_head = model.lm_head.tie_weights(embed_tokens)
+
+    # ModelForPooling is dynamically defined inside the _create_pooling_model_cls
+    # function, so we need use this hacky method to obtain it.
+    pooling_model_cls = next(
+        x for x in type(model).__mro__ if x.__name__ == "ModelForPooling"
+    )
+    loaded_weights = pooling_model_cls.load_weights(model, weights, load_lm_head=True)
+
+    from vllm.transformers_utils.tokenizer import get_tokenizer
+
+    tokenizer = get_tokenizer(
+        model_config.tokenizer,
+        revision=model_config.tokenizer_revision,
+        tokenizer_mode=model_config.tokenizer_mode,
+        trust_remote_code=model_config.trust_remote_code,
+    )
+
+    false_id = tokenizer.convert_tokens_to_ids(tokens[0])
+    true_id = tokenizer.convert_tokens_to_ids(tokens[1])
+    score_weight = model.lm_head.weight.data[[true_id]].to(
+        torch.float32
+    ) - model.lm_head.weight.data[[false_id]].to(torch.float32)
+
+    param = model.score.weight
+    weight_loader = getattr(param, "weight_loader", default_weight_loader)
+    weight_loader(param, score_weight)
+
+    del model.lm_head
+    loaded_weights.add("score.weight")
+    loaded_weights.discard("lm_head.weight")
+    return loaded_weights
+
+
+def load_weights_no_post_processing(model, weights: Iterable[tuple[str, torch.Tensor]]):
+    from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+    from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+    model_config = model.vllm_config.model_config
+    quant_config = model.vllm_config.quant_config
+    text_config = model.config.get_text_config()
+
+    tokens = getattr(text_config, "classifier_from_token", [])
+    tokens = cast(list[int], tokens)
+    assert len(tokens) > 0
+
+    model.lm_head = ParallelLMHead(
+        text_config.vocab_size, text_config.hidden_size, quant_config=quant_config
+    )
+    if text_config.tie_word_embeddings:
+        # embed_tokens is the assumed name for input embeddings. If the model does not
+        # have this attribute, we fallback to get_input_embeddings(), which is used by
+        # the Transformers modeling backend.
+        embed_tokens = (
+            model.model.embed_tokens
+            if hasattr(model.model, "embed_tokens")
+            else model.model.get_input_embeddings()
+        )
+        model.lm_head = model.lm_head.tie_weights(embed_tokens)
+
+    # Skip ModelForSequenceClassification in MRO to avoid infinite recursion
+    loaded_weights = type(model).__mro__[1].load_weights(model, weights)
+
+    from vllm.transformers_utils.tokenizer import get_tokenizer
+
+    tokenizer = get_tokenizer(
+        model_config.tokenizer,
+        revision=model_config.tokenizer_revision,
+        tokenizer_mode=model_config.tokenizer_mode,
+        trust_remote_code=model_config.trust_remote_code,
+    )
+
+    token_ids = [tokenizer.convert_tokens_to_ids(t) for t in tokens]
+    score_weight = model.lm_head.weight.data[token_ids]
+
+    param = model.score.weight
+    weight_loader = getattr(param, "weight_loader", default_weight_loader)
+    weight_loader(param, score_weight)
+
+    del model.lm_head
+    loaded_weights.add("score.weight")
+    loaded_weights.discard("lm_head.weight")
+    return loaded_weights
+
+
+SEQ_CLS_LOAD_METHODS = {
+    "from_2_way_softmax": load_weights_using_from_2_way_softmax,
+    "no_post_processing": load_weights_no_post_processing,
+}
+
+
+def seq_cls_model_loader(model, weights: Iterable[tuple[str, torch.Tensor]]):
+    # Online convert ForCausalLM into ForSequenceClassification model.
+    # - from_2_way_softmax:
+    #   - Qwen3ForCausalLM
+    #     - Qwen3-Reranker
+    #   - Qwen2ForCausalLM
+    #     - mxbai-rerank-v2
+    # - no_post_processing:
+    #   - GemmaForCausalLM
+    #     - bge-reranker-v2-gemma
+
+    text_config = model.vllm_config.model_config.hf_config.get_text_config()
+    method = getattr(text_config, "method", None)
+    assert method in SEQ_CLS_LOAD_METHODS, f"method {method} not supported"
+    return SEQ_CLS_LOAD_METHODS[method](model, weights)
diff --git a/model_executor/models/afmoe.py b/model_executor/models/afmoe.py
new file mode 100644
index 0000000..6f654f4
--- /dev/null
+++ b/model_executor/models/afmoe.py
@@ -0,0 +1,711 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only AfMoE model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.shared_fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import SupportsLoRA, SupportsPP
+from vllm.model_executor.models.llama import LlamaMLP as AfmoeMLP
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+from vllm.sequence import IntermediateTensors
+
+logger = init_logger(__name__)
+
+
+class AfmoeMoE(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.route_scale = config.route_scale
+        self.score_func = config.score_func
+        self.route_norm = config.route_norm
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = self.ep_group.rank()
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.num_experts
+        self.n_shared_experts: int = config.num_shared_experts
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        # Router gate
+        self.gate = nn.Linear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            dtype=torch.float32,
+        )
+        self.expert_bias = nn.Parameter(
+            torch.empty(config.num_experts, dtype=torch.float32)
+        )
+
+        # Load balancing settings
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.shared_experts = None
+        # Shared experts
+        if config.num_shared_experts > 0:
+            intermediate_size = config.moe_intermediate_size * config.num_shared_experts
+            self.shared_experts = AfmoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+
+        # Routed experts using SharedFusedMoE
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.num_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=self.route_norm if self.score_func == "sigmoid" else False,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func=self.score_func,
+            routed_scaling_factor=self.route_scale,
+            e_score_correction_bias=self.expert_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits = self.gate(hidden_states.to(dtype=torch.float32))
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.shared_experts is not None:
+            shared_output, final_hidden_states = fused_moe_out
+            final_hidden_states = final_hidden_states + shared_output
+        else:
+            final_hidden_states = fused_moe_out
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class AfmoeAttention(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        layer_idx: int,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 131072,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-05,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        # Check if this is a local attention layer
+        self.is_local_attention = config.layer_types[layer_idx] == "sliding_attention"
+        self.sliding_window = config.sliding_window if self.is_local_attention else None
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        # Gating projection
+        self.gate_proj = ColumnParallelLinear(
+            hidden_size,
+            self.total_num_heads * self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_proj",
+        )
+
+        # Q/K normalization
+        self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+        # Only create rotary embeddings for local attention
+        if self.is_local_attention:
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=max_position_embeddings,
+                base=rope_theta,
+                rope_scaling=rope_scaling,
+                is_neox_style=True,
+            )
+        else:
+            self.rotary_emb = None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=self.sliding_window,
+            prefix=f"{prefix}.attn",
+            attn_type=attn_type,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        gate, _ = self.gate_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        # Apply Q/K normalization
+        q = self.q_norm(q.reshape(-1, self.num_heads, self.head_dim)).reshape(q.shape)
+        k = self.k_norm(k.reshape(-1, self.num_kv_heads, self.head_dim)).reshape(
+            k.shape
+        )
+
+        # Apply rotary embeddings only for local attention
+        if self.is_local_attention and self.rotary_emb is not None:
+            q, k = self.rotary_emb(positions, q, k)
+
+        attn_output = self.attn(q, k, v)
+
+        # Apply gating
+        attn_output = attn_output * torch.sigmoid(gate)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class AfmoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
+
+        # DecoderLayers are created with `make_layers` which passes the prefix
+        # with the layer's index.
+        self.layer_idx = extract_layer_index(prefix)
+
+        self.self_attn = AfmoeAttention(
+            config=config,
+            layer_idx=self.layer_idx,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            head_dim=config.head_dim,
+            rms_norm_eps=config.rms_norm_eps,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        # MoE or dense FFN
+        self.moe_enabled = self.layer_idx >= config.num_dense_layers
+        if self.moe_enabled:
+            self.mlp = AfmoeMoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+                enable_eplb=enable_eplb,
+            )
+        else:
+            self.mlp = AfmoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.pre_mlp_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_mlp_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = self.post_attention_layernorm(hidden_states)  # attn norm b
+
+        # Fully Connected
+        hidden_states, residual = self.pre_mlp_layernorm(  # ffn norm a
+            hidden_states, residual
+        )
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_mlp_layernorm(hidden_states)  # ffn norm b
+
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class AfmoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        enable_eplb = vllm_config.parallel_config.enable_eplb
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+        self.mup_enabled = config.mup_enabled
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size, config.hidden_size, prefix=f"{prefix}.embed_tokens"
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: AfmoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+
+            # Apply muP input scaling if enabled
+            if self.mup_enabled:
+                hidden_states = hidden_states * (self.config.hidden_size**0.5)
+
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+                "residual": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if (weight_name not in name) or ("self_attn.gate_proj" in name):
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class AfmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_suffix={
+            ".router.gate.weight": ".gate.weight",
+        },
+    )
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = AfmoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size, config.hidden_size, quant_config=quant_config
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = config.num_hidden_layers - config.num_dense_layers
+        self.num_expert_groups = config.n_group
+
+        self.moe_layers: list[SharedFusedMoE] = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, AfmoeDecoderLayer)
+            if layer.moe_enabled:
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_moe is None and self.num_moe_layers > 0:
+            raise RuntimeError("No AfmoeMoE layer found in model.layers.")
+
+        if example_moe is not None:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ) -> None:
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/aimv2.py b/model_executor/models/aimv2.py
new file mode 100644
index 0000000..5872e81
--- /dev/null
+++ b/model_executor/models/aimv2.py
@@ -0,0 +1,247 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# A modified implementation of the AIMv2 Transformer
+# inserted here also the image tokenizer used by Ovis2
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.distributed.utils import divide
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.transformers_utils.configs.ovis import AIMv2Config
+
+
+class AIMv2SwiGLUFFN(nn.Module):
+    def __init__(
+        self, config: AIMv2Config, quant_config: QuantizationConfig, prefix: str
+    ):
+        super().__init__()
+        hidden_features = config.intermediate_size
+        in_features = config.hidden_size
+        bias = config.use_bias
+
+        self.fc13 = MergedColumnParallelLinear(
+            in_features,
+            [hidden_features] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc13",
+        )
+        self.fc2 = RowParallelLinear(
+            input_size=hidden_features,
+            output_size=in_features,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.fc13(x)
+        x = self.act_fn(x)
+        x, _ = self.fc2(x)
+        return x
+
+
+class AIMv2PatchEmbed(nn.Module):
+    def __init__(self, config: AIMv2Config):
+        super().__init__()
+        self.proj = nn.Conv2d(
+            config.num_channels,
+            config.hidden_size,
+            kernel_size=(config.patch_size, config.patch_size),
+            stride=(config.patch_size, config.patch_size),
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.proj(x).flatten(2).transpose(1, 2)
+        x = self.norm.forward_native(x)
+        return x
+
+
+class AIMv2ViTPreprocessor(nn.Module):
+    def __init__(self, config: AIMv2Config):
+        super().__init__()
+        num_patches = (config.image_size // config.patch_size) ** 2
+
+        self.patchifier = AIMv2PatchEmbed(config)
+        self.pos_embed = nn.Parameter(torch.zeros((1, num_patches, config.hidden_size)))
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        tokens = self.patchifier(x)
+        _, N, _ = tokens.shape
+        pos_embed = self.pos_embed.to(tokens.device)
+        tokens = tokens + pos_embed[:, :N]
+        return tokens
+
+
+class AIMv2Attention(nn.Module):
+    def __init__(
+        self, config: AIMv2Config, quant_config: QuantizationConfig, prefix: str
+    ):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                "embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.num_heads,
+            bias=config.qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+        )
+
+        self.proj = RowParallelLinear(
+            input_size=self.embed_dim,
+            output_size=self.embed_dim,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+        )
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
+
+        self.attn = MultiHeadAttention(
+            self.num_heads_per_partition, self.head_dim, self.scale
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        qkv, _ = self.qkv(x)
+        q, k, v = qkv.chunk(3, dim=-1)
+
+        x = self.attn(q, k, v)
+        x, _ = self.proj(x)
+        return x
+
+
+class AIMv2Block(nn.Module):
+    def __init__(
+        self, config: AIMv2Config, quant_config: QuantizationConfig, prefix: str
+    ):
+        super().__init__()
+        self.attn = AIMv2Attention(
+            config, quant_config=quant_config, prefix=f"{prefix}.attn"
+        )
+        self.norm_1 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.mlp = AIMv2SwiGLUFFN(
+            config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+        self.norm_2 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = x + self.attn(self.norm_1.forward_native(x))
+        x = x + self.mlp(self.norm_2.forward_native(x))
+        return x
+
+
+class AIMv2Transformer(nn.Module):
+    def __init__(
+        self,
+        config: AIMv2Config,
+        quant_config: QuantizationConfig,
+        *,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.blocks = nn.ModuleList(
+            [
+                AIMv2Block(config, quant_config, prefix=f"{prefix}.blocks.{i}")
+                for i in range(config.num_hidden_layers)
+            ]
+        )
+        if require_post_norm:
+            self.post_trunk_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.post_trunk_norm = None
+
+    def forward(self, tokens: torch.Tensor) -> torch.Tensor:
+        # they take the -1 as the ref embeddings, like a clip skip
+        for block in self.blocks:
+            tokens = block(tokens)
+        if self.post_trunk_norm is not None:
+            tokens = self.post_trunk_norm(tokens)
+        return tokens
+
+
+class AIMv2Model(torch.nn.Module):
+    def __init__(
+        self,
+        config: AIMv2Config,
+        quant_config: QuantizationConfig,
+        *,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.preprocessor = AIMv2ViTPreprocessor(config)
+        self.trunk = AIMv2Transformer(
+            config,
+            quant_config=quant_config,
+            require_post_norm=require_post_norm,
+            prefix=f"{prefix}.trunk",
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        x = self.preprocessor(pixel_values)
+        x = self.trunk(x)
+
+        return x
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".fc13", ".fc1", 0),
+            (".fc13", ".fc3", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            # post_layernorm is optional in SiglipVisionModel
+            if (
+                name.startswith("trunk.post_trunk_norm")
+                and self.trunk.post_trunk_norm is None
+            ):
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/apertus.py b/model_executor/models/apertus.py
new file mode 100644
index 0000000..0a8f21a
--- /dev/null
+++ b/model_executor/models/apertus.py
@@ -0,0 +1,587 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2025 The Swiss AI Initiative.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate the architectural differences made by
+# the Swiss AI Initiative that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Apertus model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import ApertusConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import XIELU
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class ApertusMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+        reduce_results: bool = True,
+    ) -> None:
+        super().__init__()
+        self.up_proj = ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "xielu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Only xIELU is supported for now."
+            )
+        self.act_fn = XIELU()
+
+    def forward(self, x):
+        x, _ = self.up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class ApertusAttention(nn.Module):
+    def __init__(
+        self,
+        config: ApertusConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix)
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = self.hidden_size // self.total_num_heads
+        self.head_dim = head_dim
+        # Phi models introduced a partial_rotary_factor parameter in the config
+        self.partial_rotary_factor = getattr(config, "partial_rotary_factor", 1)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias_o_proj,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self._init_rotary_emb(
+            config, rope_scaling=rope_scaling, quant_config=quant_config
+        )
+
+        sliding_window = None
+        if layer_types := getattr(config, "layer_types", None):
+            is_sliding = layer_types[layer_idx] == "sliding_attention"
+            if is_sliding:
+                sliding_window = config.sliding_window
+
+        attn_cls = (
+            EncoderOnlyAttention
+            if attn_type == AttentionType.ENCODER_ONLY
+            else Attention
+        )
+
+        self.attn = attn_cls(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+        )
+
+        self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = self.q_norm(q.contiguous().view(-1, self.head_dim)).view_as(q)
+        k = self.k_norm(k.contiguous().view(-1, self.head_dim)).view_as(k)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def _init_rotary_emb(
+        self,
+        config: ApertusConfig,
+        rope_scaling: dict[str, Any] | None,
+        quant_config: QuantizationConfig | None,
+    ) -> None:
+        is_neox_style = True
+        is_gguf = quant_config and quant_config.get_name() == "gguf"
+        if is_gguf and config.model_type == "apertus":
+            is_neox_style = False
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=int(self.partial_rotary_factor * self.head_dim),
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+
+
+class ApertusDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: ApertusConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        bias_o_proj = attention_bias
+        # support internlm/internlm3-8b with qkv_bias
+        if hasattr(config, "qkv_bias"):
+            attention_bias = config.qkv_bias
+
+        # Apertus defaults to causal attention as it is a decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        # (e.g. parasail-ai/GritLM-7B-vllm)
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = ApertusAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            bias_o_proj=bias_o_proj,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+        )
+        self.mlp = ApertusMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.feedforward_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.attention_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.attention_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+
+        # Fully Connected
+        hidden_states, residual = self.feedforward_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class ApertusModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = ApertusDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.aux_hidden_state_layers = tuple[int, ...]()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            if idx in self.aux_hidden_state_layers:
+                aux_hidden_states.append(hidden_states + residual)
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+
+        # we need to load the buffers for beta and eps (XIELU)
+        for name, buffer in self.named_buffers():
+            if name.endswith(".beta") or name.endswith(".eps"):
+                params_dict[name] = buffer
+
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            if "scale" in name:
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class ApertusForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = ApertusDecoderLayer,
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        self.model = self._init_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+            layer_type=layer_type,
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def _init_model(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = ApertusDecoderLayer,
+    ):
+        return ApertusModel(
+            vllm_config=vllm_config, prefix=prefix, layer_type=layer_type
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/arcee.py b/model_executor/models/arcee.py
new file mode 100644
index 0000000..20c3ff0
--- /dev/null
+++ b/model_executor/models/arcee.py
@@ -0,0 +1,439 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2023-2025 vLLM Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# You may not use this file except in compliance with the License.
+# You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0
+#
+# Inference-only Arcee (AFM) model – adds support for ReLU^2 feed-forward
+# activation.
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import LlamaConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.activation import ReLUSquaredActivation
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+)
+
+
+class ArceeMLP(nn.Module):
+    """Feed-forward layer for Arcee using ReLU^2 activation
+    (no gating as in LLaMA)."""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: Any | None = None,
+        bias: bool = False,
+        prefix: str = "",
+        reduce_results: bool = True,
+    ) -> None:
+        super().__init__()
+        # Single linear projection up to intermediate size
+        # (no separate gate projection)
+        self.up_proj = ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        # Down projection back to hidden size
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "relu2":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Only 'relu2' is supported for AFM."
+            )
+        # Define ReLU^2 activation: (ReLU(x))^2 elementwise
+        self.act_fn = ReLUSquaredActivation()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.up_proj(x)  # Project to intermediate size
+        x = self.act_fn(x)  # Apply ReLU^2 activation elementwise
+        x, _ = self.down_proj(x)  # Project back down to hidden size
+        return x
+
+
+class ArceeDecoderLayer(nn.Module):
+    """Transformer decoder block for Arcee, with self-attention and
+    ReLU^2 MLP."""
+
+    def __init__(
+        self,
+        config: LlamaConfig,
+        cache_config: Any | None = None,
+        quant_config: Any | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Rotary embedding parameters (reuse LLaMA defaults)
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Determine if attention bias is needed (some variants use bias terms)
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        bias_o_proj = attention_bias
+        if hasattr(config, "qkv_bias"):
+            attention_bias = config.qkv_bias
+
+        # Self-Attention (using LLaMA's attention structure)
+        from vllm.model_executor.models.llama import (
+            LlamaAttention,  # import here to avoid circular import
+        )
+
+        self.self_attn = LlamaAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            bias_o_proj=bias_o_proj,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+            attn_type=getattr(
+                config, "attn_type", "decoder"
+            ),  # assume decoder (causal) unless specified
+        )
+        # MLP with ReLU^2 activation
+        self.mlp = ArceeMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        # Layer normalization layers (RMSNorm as in LLaMA)
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self-Attention block
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            # Fused residual add + layernorm if supported
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+        # Feed-forward block
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class ArceeModel(nn.Module):
+    """The transformer model backbone for Arcee (embedding layer + stacked
+    decoder blocks + final norm)."""
+
+    def __init__(
+        self,
+        *,
+        vllm_config,
+        prefix: str = "",
+        layer_type: type[nn.Module] = ArceeDecoderLayer,
+    ) -> None:
+        super().__init__()
+        config: LlamaConfig = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.quant_config = quant_config
+        self.config = config
+        self.vocab_size = config.vocab_size
+
+        # Word embeddings (parallelized if using pipeline parallel)
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()  # placeholder on non-embedding ranks
+
+        # Build decoder layers across pipeline ranks
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        # Final RMSNorm on the last pipeline stage
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        # For optional capturing of intermediate hidden states
+        # (not used by default)
+        self.aux_hidden_state_layers: tuple[int, ...] = tuple()
+
+        # Prepare factory for empty intermediate tensors
+        # (for pipeline scheduling)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        # Embedding lookup (on first pipeline rank)
+        if get_pp_group().is_first_rank:
+            hidden_states = (
+                inputs_embeds
+                if inputs_embeds is not None
+                else self.embed_input_ids(input_ids)
+            )
+            residual = None
+        else:
+            assert intermediate_tensors is not None, (
+                "IntermediateTensors must be provided for non-first pipeline ranks"
+            )
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states: list[torch.Tensor] = []
+        for idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            if idx in self.aux_hidden_state_layers:
+                aux_hidden_states.append(
+                    hidden_states + residual
+                )  # capture pre-layer hidden state if needed
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            # Send intermediate results to the next pipeline stage
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        # On last rank: apply final layer norm
+        hidden_states, _ = self.norm(hidden_states, residual)
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        """Load weights, mapping q/k/v projections to fused qkv_proj."""
+        stacked_params_mapping = [
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                continue
+
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            if "scale" in name:
+                remapped_name = maybe_remap_kv_scale_name(name, params_dict)
+                if remapped_name is None:
+                    continue
+                name = remapped_name
+
+            mapped = False
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+
+                if name.endswith(".bias") and name not in params_dict:
+                    mapped = True
+                    break
+
+                if is_pp_missing_parameter(name, self):
+                    mapped = True
+                    break
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader  # type: ignore[attr-defined]
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
+                mapped = True
+                break
+
+            if mapped:
+                continue
+
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class ArceeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    """Arcee Model for causal language modeling, integrated with vLLM
+    runtime."""
+
+    # Map fused module names to their submodule components
+    # (for quantization and LoRA)
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+    }
+
+    def __init__(self, *, vllm_config, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.config = config
+
+        # Initialize the inner Transformer model (ArceeModel)
+        self.model = ArceeModel(vllm_config=vllm_config, prefix=f"{prefix}.model")
+        # On the last pipeline stage, set up the LM head and logits processor
+        if get_pp_group().is_last_rank:
+            # Determine vocabulary size (including any LoRA extra tokens
+            # for padded LM head)
+
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=vllm_config.quant_config,
+                bias=getattr(config, "lm_head_bias", False),
+                prefix=f"{prefix}.lm_head",
+            )
+            if config.tie_word_embeddings:
+                # Tie output weights with input embedding matrix
+                self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            # Placeholder for lm_head on non-last ranks
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return model_output
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        # Compute final logits from hidden states (last pipeline rank only)
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        """Load weights into the model (delegates to inner model and handles
+        tied embeddings)."""
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+            skip_substrs=["gate_proj"],
+        )
+        # AutoWeightLoader handles weight name remapping, including fusing
+        # separate q_proj, k_proj, v_proj into qkv_proj
+        return loader.load_weights(weights)
diff --git a/model_executor/models/arctic.py b/model_executor/models/arctic.py
new file mode 100644
index 0000000..b5cc07a
--- /dev/null
+++ b/model_executor/models/arctic.py
@@ -0,0 +1,635 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Snowflake Arctic model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import fused_experts, fused_topk
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.deepspeedfp import (
+    DeepSpeedFPConfig,
+    DeepSpeedFPParameter,
+)
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.arctic import ArcticConfig
+
+from .interfaces import SupportsPP, SupportsQuant
+from .utils import (
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class ArcticMLP(nn.Module):
+    def __init__(
+        self,
+        config: ArcticConfig,
+        expert_id: int = -1,
+        is_residual_mlp: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.expert_id = expert_id
+
+        self.ffn_dim = (
+            config.intermediate_size if not is_residual_mlp else self.hidden_size
+        )
+
+        self.w13 = MergedColumnParallelLinear(
+            self.hidden_size,
+            [self.ffn_dim] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w13",
+        )
+        self.w2 = RowParallelLinear(
+            self.ffn_dim,
+            self.hidden_size,
+            bias=False,
+            reduce_results=reduce_results,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w2",
+        )
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, hidden_states):
+        gate_up, _ = self.w13(hidden_states)
+        hidden_states = self.act_fn(gate_up)
+        hidden_states, _ = self.w2(hidden_states)
+        return hidden_states
+
+
+class ArcticMoE(nn.Module):
+    """
+    Model-parallel implementation of Arctic MoE Layer.
+    """
+
+    def __init__(
+        self,
+        config: ArcticConfig,
+        tp_size: int | None = None,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        layer_id = extract_layer_index(prefix)
+        self.tp_size = tp_size or get_tensor_model_parallel_world_size()
+        self.hidden_size = config.hidden_size
+        self.num_experts = config.num_local_experts
+        self.layer_id = layer_id
+        self.top_k = config.num_experts_per_tok
+        self.intermediate_size = config.intermediate_size // self.tp_size
+
+        self.is_moe_layer = (layer_id + 1) % config.moe_layer_frequency == 0
+        self.is_quant = isinstance(quant_config, DeepSpeedFPConfig)
+        self.reduce_results = reduce_results
+        # Some other parameters
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        if not self.is_moe_layer:
+            self.mlp = ArcticMLP(
+                config,
+                quant_config=quant_config,
+                reduce_results=reduce_results,
+                prefix=f"{prefix}.mlp",
+            )
+        else:
+            self.gate = ReplicatedLinear(
+                self.hidden_size,
+                self.num_experts,
+                bias=False,
+                params_dtype=self.params_dtype,
+                quant_config=quant_config,
+                prefix=f"{prefix}.gate",
+            )
+            if self.is_quant:
+                self.ws = DeepSpeedFPParameter(
+                    torch.Size(
+                        (self.num_experts, 2 * self.intermediate_size, self.hidden_size)
+                    ),
+                    params_dtype=params_dtype,
+                    quant_config=quant_config,
+                )
+                self.w2s = DeepSpeedFPParameter(
+                    torch.Size(
+                        (self.num_experts, self.hidden_size, self.intermediate_size)
+                    ),
+                    params_dtype=params_dtype,
+                    quant_config=quant_config,
+                )
+            else:
+                self.ws = nn.Parameter(
+                    torch.empty(
+                        self.num_experts,
+                        2 * self.intermediate_size,
+                        self.hidden_size,
+                        device=current_platform.device_type,
+                        dtype=self.params_dtype,
+                    )
+                )
+                self.w2s = nn.Parameter(
+                    torch.empty(
+                        self.num_experts,
+                        self.hidden_size,
+                        self.intermediate_size,
+                        device=current_platform.device_type,
+                        dtype=self.params_dtype,
+                    )
+                )
+            set_weight_attrs(
+                self.ws,
+                {
+                    "weight_loader": self.weight_loader,
+                },
+            )
+            set_weight_attrs(
+                self.w2s,
+                {
+                    "weight_loader": self.weight_loader,
+                },
+            )
+
+    def weight_loader(
+        self,
+        param: nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        expert_id: int,
+    ):
+        tp_rank = get_tensor_model_parallel_rank()
+        param_data = param.ds_dequantize() if self.is_quant else param.data
+        shard_size = self.intermediate_size
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        if weight_name.endswith("w1.weight"):
+            param_data[expert_id, 0:shard_size, :] = loaded_weight[shard, :]
+        if weight_name.endswith("w3.weight"):
+            param_data[expert_id, shard_size : 2 * shard_size, :] = loaded_weight[
+                shard, :
+            ]
+        if weight_name.endswith("w2.weight"):
+            param_data[expert_id, :, :] = loaded_weight[:, shard]
+        if self.is_quant:
+            param.ds_quantize_(param_data)
+
+    def local_moe_fused(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        do_normalize = self.top_k > 1
+        topk_weights, topk_ids, token_expert_indices = fused_topk(
+            hidden_states, router_logits, self.top_k, renormalize=do_normalize
+        )
+        # topk_ids: (num_tokens, k)
+        if self.is_quant:
+            if 2 * num_tokens <= self.num_experts:
+                # If much fewer tokens than experts, use selective dequantize.
+                ws_dequantized = self.ws.ds_selective_dequantize(topk_ids.flatten())
+                w2s_dequantized = self.w2s.ds_selective_dequantize(topk_ids.flatten())
+                # We gathered the experts to the tokens so update the mapping.
+                topk_ids = torch.arange(
+                    0,
+                    topk_ids.numel(),
+                    device=topk_ids.device,
+                ).reshape(topk_ids.shape)
+            else:
+                ws_dequantized = self.ws.ds_dequantize()
+                w2s_dequantized = self.w2s.ds_dequantize()
+
+        final_hidden_states = fused_experts(
+            hidden_states,
+            ws_dequantized if self.is_quant else self.ws,
+            w2s_dequantized if self.is_quant else self.w2s,
+            topk_weights,
+            topk_ids,
+            inplace=True,
+        )
+        if self.reduce_results and self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+        return final_hidden_states.view(num_tokens, hidden_size)
+
+    def forward(self, hidden_states: torch.Tensor):
+        if self.is_moe_layer:
+            final_hidden_states = self.local_moe_fused(hidden_states)
+        else:
+            final_hidden_states = self.mlp(hidden_states)
+        return final_hidden_states
+
+
+class ArcticAttention(nn.Module):
+    def __init__(
+        self,
+        config: ArcticConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            reduce_results=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class ArcticDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: ArcticConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        layer_idx = extract_layer_index(prefix)
+        is_moe_layer = (layer_idx + 1) % config.moe_layer_frequency == 0
+        self.use_residual = config.use_residual and is_moe_layer
+        self.self_attn = ArcticAttention(
+            config,
+            cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.block_sparse_moe = ArcticMoE(
+            config,
+            quant_config=quant_config,
+            reduce_results=(not self.use_residual),
+            prefix=f"{prefix}.block_sparse_moe",
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        if self.use_residual:
+            self.residual_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+            self.residual_mlp = ArcticMLP(
+                config,
+                is_residual_mlp=True,
+                reduce_results=False,
+                prefix=f"{prefix}.residual_mlp",
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual_input = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual_input + hidden_states
+
+        residual_attn = hidden_states
+        if self.use_residual:
+            hidden_states = self.residual_layernorm(hidden_states)
+            hidden_states = self.residual_mlp(hidden_states)
+            residual_mlp = hidden_states
+            hidden_states = self.post_attention_layernorm(residual_input)
+            hidden_states = self.block_sparse_moe(hidden_states)
+            hidden_states = residual_mlp + hidden_states
+            hidden_states = tensor_model_parallel_all_reduce(hidden_states)
+            hidden_states = residual_attn + hidden_states
+        else:
+            hidden_states = self.post_attention_layernorm(hidden_states)
+            hidden_states = self.block_sparse_moe(hidden_states)
+            hidden_states = residual_attn + hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class ArcticModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.vocab_size = config.vocab_size
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size, config.hidden_size, org_num_embeddings=self.vocab_size
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: ArcticDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self._attn_implementation = config._attn_implementation
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+
+class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.model = ArcticModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.vocab_size = config.vocab_size
+        self.lm_head = ParallelLMHead(
+            self.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.num_experts = config.num_local_experts
+        self.num_experts_per_tok = config.num_experts_per_tok
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        mlp_params_mapping: list[tuple[str, str, int]] = []
+        expert_params_mapping: list[tuple[str, str, int]] = []
+        num_layers = self.config.num_hidden_layers
+
+        for layer in range(num_layers):
+            mlp_params_mapping.append(
+                (
+                    f"layers.{layer}.residual_mlp.w13.weight",
+                    f"layers.{layer}.residual_mlp.w1.weight",
+                    0,
+                )
+            )
+            mlp_params_mapping.append(
+                (
+                    f"layers.{layer}.residual_mlp.w13.weight",
+                    f"layers.{layer}.residual_mlp.w3.weight",
+                    1,
+                )
+            )
+            if layer % 2 == 0:
+                # MLP layers
+                mlp_params_mapping.append(
+                    (
+                        f"layers.{layer}.block_sparse_moe.mlp.w13.weight",
+                        f"layers.{layer}.block_sparse_moe.mlp.w1.weight",
+                        0,
+                    )
+                )
+                mlp_params_mapping.append(
+                    (
+                        f"layers.{layer}.block_sparse_moe.mlp.w13.weight",
+                        f"layers.{layer}.block_sparse_moe.mlp.w3.weight",
+                        1,
+                    )
+                )
+            else:
+                # MoE layers
+                for expert_id in range(self.config.num_local_experts):
+                    expert_params_mapping.append(
+                        ("ws", f"experts.{expert_id}.w1.weight", expert_id)
+                    )
+                    expert_params_mapping.append(
+                        ("w2s", f"experts.{expert_id}.w2.weight", expert_id)
+                    )
+                    expert_params_mapping.append(
+                        ("ws", f"experts.{expert_id}.w3.weight", expert_id)
+                    )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        logger.info(
+            "It will take ~10 minutes loading from the 16-bit weights. "
+            "Alternatively, use the prequantized 8-bit weights of arctic "
+            "and set load-format to `sharded_state` will accelerate loading."
+        )
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for param_name, weight_name, shard_id in mlp_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(param, loaded_weight, shard_id)
+                    break
+                else:
+                    for param_name, weight_name, shard_id in expert_params_mapping:
+                        if weight_name not in name:
+                            continue
+                        name = name.replace(weight_name, param_name)
+                        if is_pp_missing_parameter(name, self):
+                            continue
+                        param = params_dict[name]
+                        weight_loader = param.weight_loader
+                        weight_loader(
+                            param, loaded_weight, weight_name, expert_id=shard_id
+                        )
+                        break
+                    else:
+                        if name.endswith(".bias") and name not in params_dict:
+                            continue
+                        if is_pp_missing_parameter(name, self):
+                            continue
+                        param = params_dict[name]
+
+                        weight_loader = getattr(
+                            param, "weight_loader", default_weight_loader
+                        )
+                        weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/aria.py b/model_executor/models/aria.py
new file mode 100644
index 0000000..3d07e6b
--- /dev/null
+++ b/model_executor/models/aria.py
@@ -0,0 +1,655 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import AriaConfig, AriaTextConfig, BatchFeature
+from transformers.models.aria.modeling_aria import AriaCrossAttention
+from transformers.models.aria.processing_aria import AriaProcessor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_rank
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .idefics2_vision_model import Idefics2VisionConfig
+from .idefics2_vision_model import (
+    Idefics2VisionTransformer as Idefics3VisionTransformer,
+)
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsQuant
+from .llama import LlamaDecoderLayer, LlamaMLP, LlamaModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    maybe_prefix,
+)
+
+
+class AriaImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of images
+        - c: Number of channels
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 3, "h", "w"),
+    ]
+
+    pixel_mask: Annotated[
+        torch.Tensor | None,
+        TensorShape("bn", "h", "w"),
+    ]
+
+
+class AriaVisionTransformer(Idefics3VisionTransformer, SupportsQuant):
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    def __init__(
+        self,
+        config: Idefics2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__(config, quant_config=quant_config, prefix=prefix)
+        # Unlike Idefics3VisionTransformer which uses LayerNorm after the
+        # final layer, Aria omits this normalization, so we replace it with an
+        # Identity layer
+        self.post_layernorm = nn.Identity()
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # NOTE: post_layernorm is not used in Aria
+            if "post_layernorm" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class AriaProjectorMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        output_dim: int,
+    ) -> None:
+        super().__init__()
+
+        self.linear_in = ColumnParallelLinear(in_features, hidden_features, bias=False)
+        self.linear_out = RowParallelLinear(hidden_features, output_dim, bias=False)
+        self.act = get_act_fn("gelu_new")
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.linear_in(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_out(hidden_states)
+        return hidden_states
+
+
+class AriaProjector(nn.Module):
+    """
+    A projection module with one cross attention layer and one FFN layer, which
+    projects ViT's outputs into MoE's inputs.
+
+    Args:
+        config: [AriaConfig](https://huggingface.co/docs/transformers/main/model_doc/aria#transformers.AriaConfig)
+            containing projector configuration parameters.
+
+    Outputs:
+        A tensor with the shape of (batch_size, query_number, output_dim)
+    """
+
+    def __init__(self, config: AriaConfig) -> None:
+        super().__init__()
+
+        self.patch_to_query_dict = config.projector_patch_to_query_dict
+        self.in_features = config.vision_config.hidden_size
+        self.num_heads = config.vision_config.num_attention_heads
+        self.kv_dim = config.vision_config.hidden_size
+        self.hidden_features = config.text_config.hidden_size
+        self.output_dim = config.text_config.hidden_size
+
+        self.query = nn.Parameter(
+            torch.empty(
+                config.max_value_projector_patch_to_query_dict, self.in_features
+            )
+        )
+
+        self.cross_attn = AriaCrossAttention(config)
+
+        self.layer_norm = nn.LayerNorm(self.in_features)
+        self.feed_forward = AriaProjectorMLP(
+            self.in_features, self.hidden_features, self.output_dim
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        attn_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        batch_size, num_patches = x.shape[0], x.shape[1]
+
+        if num_patches not in self.patch_to_query_dict:
+            raise KeyError(
+                f"Number of patches {num_patches} not found in "
+                "patch_to_query_dict amongst possible values "
+                f"{self.patch_to_query_dict.keys()}."
+            )
+
+        query_num = self.patch_to_query_dict[num_patches]
+
+        queries = self.query[:query_num].unsqueeze(0).repeat(batch_size, 1, 1)
+
+        if attn_mask is not None:
+            attn_mask = attn_mask.repeat_interleave(self.num_heads, 0)
+            attn_mask = attn_mask.unsqueeze(1).expand(-1, queries.size(1), -1)
+
+        attention_out = self.cross_attn(x, queries, attn_mask=attn_mask)
+
+        out = self.feed_forward(self.layer_norm(attention_out))
+
+        return out
+
+
+class AriaFusedMoE(SharedFusedMoE):
+    def weight_loader(
+        self, param: nn.Parameter, loaded_weight: torch.Tensor, shard_id: str
+    ) -> None:
+        # Override the weight_loader to handle the expert weights in the Aria
+        # model, which are already packed with experts, and merge the gate and
+        # up weights for each expert.
+        # Note: Loading expert weights with quantization is not supported
+        tp_rank = get_tensor_model_parallel_rank()
+        if shard_id == "w13":
+            # the shape of loaded_weight is
+            # (num_experts, hidden_size, 2 * moe_intermediate_size)
+            if self.tp_size > 1:
+                up, gate = loaded_weight.chunk(2, dim=-1)
+                up_current_rank = up.chunk(self.tp_size, dim=-1)[tp_rank]
+                gate_current_rank = gate.chunk(self.tp_size, dim=-1)[tp_rank]
+                up_and_gate = torch.cat(
+                    [up_current_rank, gate_current_rank], dim=-1
+                ).transpose(1, 2)
+                param.data.copy_(up_and_gate)
+            else:
+                param.data.copy_(loaded_weight.transpose(1, 2))
+        elif shard_id == "w2":
+            # the shape of loaded_weight is
+            # (num_experts, moe_intermediate_size, hidden_size)
+            if self.tp_size > 1:
+                down_current_rank = loaded_weight.chunk(self.tp_size, dim=1)[tp_rank]
+                param.data.copy_(down_current_rank.transpose(1, 2))
+            else:
+                param.data.copy_(loaded_weight.transpose(1, 2))
+
+
+class AriaTextMoELayer(nn.Module):
+    """
+    Mixture of Experts (MoE) Layer for the AriaMoE model.
+
+    This layer implements the MoE mechanism, which routes input tokens to
+    different experts based on a routing algorithm, processes them through the
+    experts, and then combines the outputs.
+    """
+
+    def __init__(
+        self,
+        config: AriaTextConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+
+        self.router_weight = nn.Parameter(
+            torch.empty((self.config.moe_num_experts, self.config.hidden_size))
+        )
+
+        self.shared_experts = LlamaMLP(
+            config.hidden_size,
+            config.intermediate_size * config.moe_num_shared_experts,
+            "silu",
+            quant_config=quant_config,
+            bias=config.mlp_bias,
+        )
+
+        self.experts = AriaFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.moe_num_experts,
+            top_k=config.moe_topk,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            reduce_results=True,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        """
+        Forward pass of the MoE Layer.
+
+        Args:
+            hidden_states: Input tensor of shape
+                (batch_size, sequence_length, hidden_size).
+
+        Returns:
+            torch.Tensor: Output tensor after passing through the MoE layer.
+        """
+
+        router_output = torch.nn.functional.linear(hidden_states, self.router_weight)
+
+        sparse_expert_output = self.experts(hidden_states, router_output)
+
+        if self.shared_experts is not None:
+            return sparse_expert_output[0] + sparse_expert_output[1]
+        else:
+            return sparse_expert_output
+
+
+class AriaTextDecoderLayer(LlamaDecoderLayer):
+    """
+    Custom Decoder Layer for the AriaMoE model which modifies the standard
+    `LlamaDecoderLayer` by replacing the traditional MLP with a Mixture of
+    Experts (MoE) Layer.
+    """
+
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__(vllm_config, prefix)
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.mlp = AriaTextMoELayer(
+            config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+
+
+class AriaTextModel(LlamaModel, SupportsQuant):
+    """
+    Custom LlamaModel for the AriaMoE model which modifies the standard
+    LlamaModel by replacing the `LlamaDecoderLayer` with `MoEDecoderLayer`.
+    """
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+        "experts.w13_weight": ["experts.fc1.weight"],
+        "experts.w2_weight": ["experts.fc2.weight"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, layer_type=AriaTextDecoderLayer
+        )
+
+    # Adapted from LlamaModel.load_weights with the modification of adding
+    # the expert weights mapping to `stacked_params_mapping`
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+            ("experts.w13_weight", "experts.fc1.weight", "w13"),
+            ("experts.w2_weight", "experts.fc2.weight", "w2"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class AriaProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(AriaConfig)
+
+    def get_vision_config(self):
+        return self.get_hf_config().vision_config
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(AriaProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(self) -> int:
+        hf_config = self.get_hf_config()
+        return max(hf_config.projector_patch_to_query_dict.values())
+
+
+class AriaDummyInputsBuilder(BaseDummyInputsBuilder[AriaProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token: str = processor.tokenizer.image_token  # type: ignore
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        vision_config = self.info.get_vision_config()
+
+        max_image_size = vision_config.image_size
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size,
+                height=max_image_size,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class AriaMultiModalProcessor(BaseMultiModalProcessor[AriaProcessingInfo]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            pixel_mask=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        num_image_tokens = self.info.get_num_image_tokens()
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=[image_token_id] * num_image_tokens,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    AriaMultiModalProcessor,
+    info=AriaProcessingInfo,
+    dummy_inputs=AriaDummyInputsBuilder,
+)
+class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
+    """
+    Aria model for conditional generation tasks.
+
+    This model combines a vision tower, a multi-modal projector, and a language
+    model to perform tasks that involve both image and text inputs.
+    """
+
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            # mapping for original checkpoint
+            "language_model.model": "language_model",
+            "language_model.lm_head": "lm_head",
+        },
+        orig_to_new_suffix={
+            "router.weight": "router_weight",
+        },
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|fim_prefix|><|img|><|fim_suffix|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vision_tower = AriaVisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vision_tower",
+        )
+        self.multi_modal_projector = AriaProjector(config)
+        self.vocab_size = config.text_config.vocab_size
+        self.language_model = AriaTextModel(
+            vllm_config=vllm_config.with_hf_config(config.text_config),
+            prefix=maybe_prefix(prefix, "language_model.model"),
+        )
+        self.pad_token_id = (
+            self.config.pad_token_id if self.config.pad_token_id is not None else -1
+        )
+        self.lm_head = ParallelLMHead(
+            self.vocab_size,
+            config.text_config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(self.vocab_size, scale=logit_scale)
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> AriaImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        pixel_mask = kwargs.pop("pixel_mask", None)
+
+        if pixel_values is None:
+            return None
+
+        return AriaImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            pixel_mask=pixel_mask,
+        )
+
+    def _create_patch_attention_mask(
+        self,
+        pixel_mask: torch.Tensor | None,
+    ) -> torch.Tensor | None:
+        if pixel_mask is None:
+            return None
+
+        patches_subgrid = pixel_mask.unfold(
+            dimension=1,
+            size=self.vision_tower.config.patch_size,
+            step=self.vision_tower.config.patch_size,
+        ).unfold(
+            dimension=2,
+            size=self.vision_tower.config.patch_size,
+            step=self.vision_tower.config.patch_size,
+        )
+        return (patches_subgrid.sum(dim=(-1, -2)) > 0).bool()
+
+    def _process_image_input(
+        self, image_input: AriaImagePixelInputs
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        assert self.vision_tower is not None
+
+        pixel_values = image_input["pixel_values"]
+        pixel_mask = image_input["pixel_mask"]
+
+        patch_attention_mask = self._create_patch_attention_mask(pixel_mask)
+
+        image_outputs = self.vision_tower(
+            pixel_values=pixel_values,
+            patch_attention_mask=patch_attention_mask,
+        )
+        image_attn_mask = None
+        if patch_attention_mask is not None:
+            flattened_mask = patch_attention_mask.flatten(1)
+            image_attn_mask = torch.logical_not(flattened_mask)
+
+        return self.multi_modal_projector(image_outputs, image_attn_mask)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        multimodal_embeddings = self._process_image_input(image_input)
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if inputs_embeds is None:
+            multimodal_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                multimodal_embeddings,
+                is_multimodal=input_ids == self.config.image_token_index,
+            )
+            input_ids = None
+
+        hidden_states = self.language_model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/aya_vision.py b/model_executor/models/aya_vision.py
new file mode 100644
index 0000000..0ada2ed
--- /dev/null
+++ b/model_executor/models/aya_vision.py
@@ -0,0 +1,450 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from https://github.com/huggingface/transformers/tree/main/src/transformers/models/aya_vision
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+from torch import nn
+from transformers import BatchFeature, GotOcr2ImageProcessor
+from transformers.activations import ACT2FN
+from transformers.image_processing_utils import get_size_dict
+from transformers.models.aya_vision import AyaVisionConfig
+from transformers.models.aya_vision.processing_aya_vision import AyaVisionProcessor
+from transformers.models.got_ocr2.image_processing_got_ocr2 import (
+    get_optimal_tiled_canvas,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict, MultiModalKwargsItems
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalFieldConfig,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+
+class AyaVisionImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - c: Number of channels
+        - h: Height of each image patch
+        - w: Width of each image patch
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("np", 3, "h", "w"),
+    ]
+
+    num_patches: Annotated[
+        torch.Tensor,
+        TensorShape("bn"),
+    ]
+
+
+class AyaVisionMultiModalProjector(nn.Module):
+    def __init__(self, config: AyaVisionConfig):
+        super().__init__()
+        self.config = config
+        self.downsample_factor = config.downsample_factor
+        self.alignment_intermediate_size = getattr(
+            config, "alignment_intermediate_size", config.text_config.hidden_size
+        )
+        self.layernorm = nn.LayerNorm(
+            config.vision_config.hidden_size * (config.downsample_factor**2),
+            eps=config.adapter_layer_norm_eps,
+        )
+
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size * (config.downsample_factor**2),
+            self.alignment_intermediate_size,
+            bias=True,
+        )
+
+        self.act = ACT2FN["silu"]  # SwiGLU uses SiLU activation
+        # For SwiGLU, project down to half size since we split intermediate dim
+        self.linear_2 = nn.Linear(
+            self.alignment_intermediate_size // 2,
+            config.text_config.hidden_size,
+            bias=True,
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        image_features = self.pixel_shuffle(image_features)
+        image_features = self.layernorm(image_features)
+        hidden_states = self.linear_1(image_features)
+
+        # Split along last dimension and apply SwiGLU
+        x, gate = hidden_states.chunk(2, dim=-1)
+        hidden_states = self.act(gate) * x
+
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+    def pixel_shuffle(self, image_features: torch.Tensor) -> torch.Tensor:  # B, S, D
+        batch_size, seq_length, _ = image_features.shape
+        height = width = int(seq_length**0.5)
+        image_features = image_features.reshape(
+            image_features.shape[0], width, height, -1
+        )
+        channels = image_features.shape[-1]
+        image_features = image_features.reshape(
+            batch_size,
+            width,
+            int(height / self.downsample_factor),
+            int(channels * self.downsample_factor),
+        )
+        image_features = image_features.permute(0, 2, 1, 3)
+        image_features = image_features.reshape(
+            batch_size,
+            int(height / self.downsample_factor),
+            int(width / self.downsample_factor),
+            -1,
+        )
+        image_features = image_features.permute(0, 2, 1, 3)
+        return image_features
+
+
+class AyaVisionProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> AyaVisionConfig:
+        return self.ctx.get_hf_config(AyaVisionConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> AyaVisionProcessor:
+        return self.ctx.get_hf_processor(AyaVisionProcessor, **kwargs)
+
+    def get_image_processor(self, **kwargs: object) -> GotOcr2ImageProcessor:
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_processor = self.get_image_processor()
+        height = image_processor.size["height"]
+        width = image_processor.size["width"]
+        max_patches = image_processor.max_patches
+        return ImageSize(height=height * max_patches, width=width * max_patches)
+
+    def get_num_patches(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        size: dict,
+        min_patches: int,
+        max_patches: int,
+    ) -> int:
+        """
+        Calculate the number of patches needed for a given image based on size
+        constraints.  This method replicates and adjusts the logic from:
+        transformers/models/got_ocr2/image_processing_got_ocr2
+        """
+        size = get_size_dict(size, default_to_square=False)
+        num_columns, num_rows = get_optimal_tiled_canvas(
+            (image_height, image_width),
+            (size["height"], size["width"]),
+            min_patches,
+            max_patches,
+        )
+        num_blocks = num_columns * num_rows
+        return num_blocks if num_blocks == 1 else num_blocks + 1
+
+
+class AyaVisionDummyInputsBuilder(BaseDummyInputsBuilder[AyaVisionProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        image_size = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=image_size.width,
+                height=image_size.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class AyaVisionMultiModalProcessor(BaseMultiModalProcessor[AyaVisionProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt,
+            mm_data,
+            mm_kwargs,
+            tok_kwargs,
+        )
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+        image_processor = hf_processor.image_processor
+
+        # HF processor pops the `num_patches` kwarg, which is needed by vLLM
+        if (images := mm_data.get("images")) is not None:
+            parsed_images = (
+                self._get_data_parser()
+                .parse_mm_data({"image": images})
+                .get_items("image", ImageProcessorItems)
+            )
+            image_sizes = [
+                parsed_images.get_image_size(i) for i in range(len(parsed_images))
+            ]
+
+            num_patches = [
+                self.info.get_num_patches(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    size=image_processor.size,
+                    min_patches=image_processor.min_patches,
+                    max_patches=image_processor.max_patches,
+                )
+                for image_size in image_sizes
+            ]
+            processed_outputs["num_patches"] = torch.tensor(num_patches)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
+            num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_token = hf_processor.image_token
+        img_patch_token = hf_processor.img_patch_token
+        image_processor = hf_processor.image_processor
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size: ImageSize = images.get_image_size(item_idx)
+            num_patches = self.info.get_num_patches(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                size=image_processor.size,
+                min_patches=image_processor.min_patches,
+                max_patches=image_processor.max_patches,
+            )
+            repl = hf_processor._prompt_split_image(num_patches=num_patches)
+
+            return PromptUpdateDetails.select_text(repl, img_patch_token)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=get_replacement,
+            )
+        ]
+
+
+def _get_num_hidden_layers(hf_config: AyaVisionConfig) -> int:
+    feature_layers = hf_config.vision_feature_layer
+    num_hidden_layers = hf_config.vision_config.num_hidden_layers
+    # If we have one feature layer, initialize up to that layer
+    if isinstance(feature_layers, int):
+        return _get_layer_index(feature_layers, num_hidden_layers)
+    # If we have multiple feature layers, initialize up to the deepest m
+    elif isinstance(feature_layers, (list, tuple)):
+        return max(_get_layer_index(idx, num_hidden_layers) for idx in feature_layers)
+    raise TypeError(
+        f"vision_layer_feature type: {type(feature_layers)} is not supported"
+    )
+
+
+def _get_layer_index(feature_layer_index: int, num_hidden_layers: int) -> int:
+    if feature_layer_index < 0:
+        return num_hidden_layers + feature_layer_index + 1
+    return feature_layer_index
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    AyaVisionMultiModalProcessor,
+    info=AyaVisionProcessingInfo,
+    dummy_inputs=AyaVisionDummyInputsBuilder,
+)
+class AyaVisionForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: AyaVisionConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        num_hidden_layers = _get_num_hidden_layers(config)
+        self.config = config
+        self.quant_config = quant_config
+        self.multimodal_config = multimodal_config
+
+        self.vision_tower = SiglipVisionModel(
+            config.vision_config,
+            quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+        self.vocab_size = config.text_config.vocab_size
+        self.multi_modal_projector = AyaVisionMultiModalProjector(config)
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "model"),
+            # Cohere2ForCausalLM and CohereForCausalLM are the same on vllm
+            architectures=["Cohere2ForCausalLM"],
+        )
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        return vision_tower(
+            pixel_values.to(dtype=vision_tower.dtype),
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+
+    def _process_image_input(
+        self, image_input: AyaVisionImagePixelInputs, **kwargs
+    ) -> list[torch.Tensor]:
+        assert self.vision_tower is not None
+        pixel_values = image_input["pixel_values"]
+        num_patches = image_input["num_patches"]
+        image_features = self._image_pixels_to_features(
+            self.vision_tower, pixel_values=pixel_values
+        )
+        image_embeds = self.multi_modal_projector(image_features)
+        return [e.flatten(0, 2) for e in image_embeds.split(num_patches.tolist())]
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> AyaVisionImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        num_patches = kwargs.pop("num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        assert image_embeds is None, "Aya Vision does not support image_embeds."
+
+        if pixel_values is None:
+            return None
+
+        return AyaVisionImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            num_patches=num_patches,
+            resolve_bindings={
+                "h": self.config.vision_config.image_size,
+                "w": self.config.vision_config.image_size,
+            },
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input, **kwargs)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
diff --git a/model_executor/models/baichuan.py b/model_executor/models/baichuan.py
new file mode 100644
index 0000000..8991ef4
--- /dev/null
+++ b/model_executor/models/baichuan.py
@@ -0,0 +1,496 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only BaiChuan model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    row_parallel_weight_loader,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP, SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+def _get_alibi_slopes(total_num_heads: int) -> torch.Tensor:
+    closest_power_of_2 = 2 ** math.floor(math.log2(total_num_heads))
+    base = torch.tensor(
+        2 ** (-(2 ** -(math.log2(closest_power_of_2) - 3))),
+        dtype=torch.float32,
+    )
+    powers = torch.arange(1, 1 + closest_power_of_2, dtype=torch.int32)
+    slopes = torch.pow(base, powers)
+
+    if closest_power_of_2 != total_num_heads:
+        extra_base = torch.tensor(
+            2 ** (-(2 ** -(math.log2(2 * closest_power_of_2) - 3))),
+            dtype=torch.float32,
+        )
+        num_remaining_heads = min(
+            closest_power_of_2, total_num_heads - closest_power_of_2
+        )
+        extra_powers = torch.arange(
+            start=1, end=1 + 2 * num_remaining_heads, step=2, dtype=torch.int32
+        )
+        slopes = torch.cat([slopes, torch.pow(extra_base, extra_powers)], dim=0)
+    return slopes
+
+
+class BaiChuanMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class BaiChuanAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        position_embedding: str,
+        rope_theta: float = 10000,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = hidden_size // self.total_num_heads
+        self.position_embedding = position_embedding
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        # pylint: disable=invalid-name
+        self.W_pack = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.W_pack",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        # Create the alibi slopes and slice them.
+        if self.position_embedding == "ALIBI":
+            tp_rank = get_tensor_model_parallel_rank()
+            head_start = tp_rank * self.num_heads
+            head_end = (tp_rank + 1) * self.num_heads
+            alibi_slopes = _get_alibi_slopes(self.total_num_heads)
+            alibi_slopes = alibi_slopes[head_start:head_end].tolist()
+
+            scaling = self.head_dim**-0.5
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                scaling,
+                alibi_slopes=alibi_slopes,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+            )
+        else:
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=self.max_position_embeddings,
+                base=self.rope_theta,
+            )
+            self.scaling = self.head_dim**-0.5
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                self.scaling,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.W_pack(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        if self.position_embedding != "ALIBI":
+            q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class BaiChuanDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        position_embedding: str,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.self_attn = BaiChuanAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            position_embedding=position_embedding,
+            rope_theta=rope_theta,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = BaiChuanMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class BaiChuanModel(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        position_embedding: str = "ROPE",
+    ) -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: BaiChuanDecoderLayer(
+                config, position_embedding, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                    "residual": residual,
+                }
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class BaiChuanBaseForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
+    packed_modules_mapping = {
+        "W_pack": ["W_pack"],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        position_embedding: str = "ROPE",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.quant_config = quant_config
+        self.model = BaiChuanModel(
+            vllm_config=vllm_config,
+            prefix=prefix,
+            position_embedding=position_embedding,
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.lm_head.weight.weight_loader = self.lm_head_weight_loader
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def lm_head_weight_loader(self, param: nn.Parameter, loaded_weight: torch.Tensor):
+        # Unlike Baichuan, Baichuan2 normalizes the head weights.
+        # Refer to:
+        # https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat/blob/84603cde5ebffb6084e476cfaeceaf0b8b91fe54/modeling_baichuan.py#L508
+        # Distinguish between Baichuan and Baichuan2 by checking the
+        # vocab size. This is suggested by
+        # https://github.com/vllm-project/vllm/pull/1022#discussion_r1325652704
+        is_baichuan2 = self.config.vocab_size == 125696
+        if is_baichuan2:
+            loaded_weight = torch.nn.functional.normalize(loaded_weight)
+        if self.tp_size > 1:
+            row_parallel_weight_loader(param, loaded_weight)
+        else:
+            default_weight_loader(param, loaded_weight)
+
+
+class BaichuanForCausalLM(BaiChuanBaseForCausalLM):
+    """Baichuan 13B and Baichuan2 7B/13B.
+    NOTE: the class name has a lower case 'c'.
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        if config.hidden_size == 4096:  # baichuan2 7b
+            super().__init__(
+                vllm_config=vllm_config, prefix=prefix, position_embedding="ROPE"
+            )
+        else:  # baichuan 13b, baichuan2 13b
+            super().__init__(
+                vllm_config=vllm_config, prefix=prefix, position_embedding="ALIBI"
+            )
+
+
+class BaiChuanForCausalLM(BaiChuanBaseForCausalLM):
+    """Baichuan 7B.
+    NOTE: the class name has an upper case 'C'.
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, position_embedding="ROPE"
+        )
diff --git a/model_executor/models/bailing_moe.py b/model_executor/models/bailing_moe.py
new file mode 100644
index 0000000..024425b
--- /dev/null
+++ b/model_executor/models/bailing_moe.py
@@ -0,0 +1,646 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/inclusionAI/Ling/blob/master/models/modeling_bailing_moe.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 Antgroup and The HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only BailingMoE model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class BailingAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.total_kv_heads = config.num_key_value_heads
+        tp_size = get_tensor_model_parallel_world_size()
+
+        assert self.total_num_heads % tp_size == 0
+        assert self.total_num_heads >= self.total_kv_heads
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.head_dim = config.head_dim or (self.hidden_size // self.total_num_heads)
+        self.q_size_per_rank = self.head_dim * self.num_heads
+        self.num_kv_heads = max(1, self.total_kv_heads // tp_size)
+        self.kv_size_per_rank = self.num_kv_heads * self.head_dim
+        self.scale = self.head_dim**-0.5
+        self.use_qk_norm = getattr(config, "use_qk_norm", False)
+        self.use_rmsnorm = getattr(config, "use_rmsnorm", False)
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_kv_heads,
+            bias=(config.use_bias or config.use_qkv_bias),
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+
+        if self.use_qk_norm:
+            self.query_layernorm = (
+                RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+                if self.use_rmsnorm
+                else nn.LayerNorm(self.head_dim, eps=1e-6)
+            )
+            self.key_layernorm = (
+                RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+                if self.use_rmsnorm
+                else nn.LayerNorm(self.head_dim, eps=1e-6)
+            )
+
+        self.dense = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.dense",
+        )
+
+        self.partial_rotary_factor = getattr(config, "partial_rotary_factor", 1.0)
+
+        self.rotary_dim = getattr(config, "rotary_dim", self.head_dim)
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.rotary_dim,
+            max_position=config.max_position_embeddings,
+            base=config.rope_theta,
+            is_neox_style=True,
+            rope_scaling=config.rope_scaling,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scale,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.split(
+            [self.q_size_per_rank, self.kv_size_per_rank, self.kv_size_per_rank], dim=-1
+        )
+
+        if self.use_qk_norm:
+            q = q.view(-1, self.num_heads, self.head_dim)
+            k = k.view(-1, self.num_kv_heads, self.head_dim)
+            q = self.query_layernorm(q)
+            k = self.key_layernorm(k)
+            q = q.view(-1, self.q_size_per_rank)
+            k = k.view(-1, self.kv_size_per_rank)
+
+        q, k = self.rotary_emb(position_ids, q, k)
+
+        context_layer = self.attn(q, k, v)
+
+        attn_output, _ = self.dense(context_layer)
+        return attn_output
+
+
+class BailingMLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool | None = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [intermediate_size] * 2,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            config.hidden_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        x, _ = self.gate_up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class BailingMoE(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool | None = True,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.num_experts = config.num_experts
+        self.top_k = config.num_experts_per_tok
+        self.norm_expert_prob = config.norm_topk_prob
+        self.hidden_size = config.hidden_size
+        self.quant_config = quant_config
+        self.num_shared_experts = config.num_shared_experts
+        self.score_function = getattr(config, "score_function", None)
+        self.n_group = getattr(config, "n_group", None)
+        self.topk_group = getattr(config, "topk_group", None)
+        self.use_grouped_topk = self.n_group is not None and self.topk_group is not None
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", 1.0)
+
+        router_dtype = getattr(config, "router_dtype", None)
+        if router_dtype is None:
+            self.router_dtype = None
+        elif router_dtype == "fp32":
+            self.router_dtype = torch.float32
+        else:
+            self.router_dtype = torch.bfloat16
+
+        self.gate = nn.Linear(
+            self.hidden_size,
+            self.num_experts,
+            bias=False,
+            dtype=self.router_dtype,
+        )
+
+        if getattr(config, "moe_router_enable_expert_bias", False):
+            self.gate.expert_bias = nn.Parameter(
+                torch.empty((config.num_experts,), dtype=torch.float32)
+            )
+        else:
+            self.gate.expert_bias = None
+
+        self.correction_bias = (
+            self.gate.expert_bias.data if self.gate.expert_bias is not None else None
+        )
+
+        if self.score_function is not None:
+            assert (
+                self.score_function == "softmax" and self.correction_bias is None
+            ) or (
+                self.score_function == "sigmoid" and self.correction_bias is not None
+            ), (
+                "score_function and correction_bias should be in 2 combination (softmax, None) or (sigmoid, not None)"  # noqa: E501
+            )
+        else:
+            # default value for scoring_func
+            self.score_function = "softmax"
+
+        if self.num_shared_experts > 0:
+            if hasattr(config, "moe_shared_expert_intermediate_size"):
+                intermediate_size = config.moe_shared_expert_intermediate_size
+            else:
+                intermediate_size = config.moe_intermediate_size
+            intermediate_size *= config.num_shared_experts
+            self.shared_experts = BailingMLP(
+                intermediate_size=intermediate_size,
+                config=config,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=self.num_experts,
+            top_k=self.top_k,
+            hidden_size=self.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=self.norm_expert_prob,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            scoring_func=self.score_function,
+            e_score_correction_bias=self.gate.expert_bias,
+            num_expert_group=self.n_group,
+            topk_group=self.topk_group,
+            use_grouped_topk=self.use_grouped_topk,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_size)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.gate(hidden_states.to(self.router_dtype))
+        router_logits = router_logits.to(hidden_states.dtype)
+
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.shared_experts is not None:
+            shared_output, final_hidden_states = final_hidden_states
+        else:
+            shared_output = None
+
+        final_hidden_states *= self.routed_scaling_factor
+
+        if shared_output is not None:
+            final_hidden_states = final_hidden_states + shared_output
+
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+        return final_hidden_states.view(num_tokens, hidden_size)
+
+
+class BailingMoeBlock(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        layer_idx = int(prefix.split(".")[-1])
+        self.config = config
+        hidden_size = config.hidden_size
+        intermediate_size = config.intermediate_size
+
+        self.input_layernorm = RMSNorm(hidden_size, eps=config.rms_norm_eps)
+        self.attention = BailingAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attention"
+        )
+
+        self.post_attention_layernorm = RMSNorm(hidden_size, eps=config.rms_norm_eps)
+
+        # Choose MLP class based on the number of experts and layer index
+        if layer_idx < config.first_k_dense_replace:
+            mlp_class = BailingMLP
+        else:
+            mlp_class = BailingMoE
+        self.mlp = mlp_class(
+            intermediate_size, config, quant_config, True, prefix=f"{prefix}.mlp"
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.attention(
+            hidden_states=hidden_states,
+            position_ids=position_ids,
+        )
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class BailingMoeModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+        self.embed_dim = config.hidden_size
+        self.tie_word_embeddings = getattr(config, "tie_word_embeddings", False)
+
+        if get_pp_group().is_first_rank or (
+            self.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.word_embeddings = VocabParallelEmbedding(
+                self.vocab_size,
+                self.embed_dim,
+                quant_config=quant_config,
+                prefix=f"{prefix}.word_embeddings",
+            )
+        else:
+            self.word_embeddings = PPMissingLayer()
+
+        self.embedding_dropout = torch.nn.Dropout(config.embedding_dropout)
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: BailingMoeBlock(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(self.embed_dim, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.word_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                hidden_states,
+                position_ids,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        else:
+            if residual is None:
+                hidden_states = self.norm(hidden_states)
+            else:
+                hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if (
+                hasattr(self.config, "norm_head")
+                and self.config.norm_head
+                and "lm_head.weight" in name
+            ):
+                loaded_weight = F.normalize(loaded_weight, dim=0, p=2, eps=1e-7)
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    if name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if name not in params_dict:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class BailingMoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "query_key_value": ["query_key_value"],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config.get_text_config()
+        vllm_config.model_config.hf_config = config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.max_position_embeddings = config.max_position_embeddings
+        self.model = BailingMoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.tie_word_embeddings = getattr(config, "tie_word_embeddings", False)
+
+        if get_pp_group().is_last_rank:
+            if self.tie_word_embeddings:
+                self.lm_head = self.model.word_embeddings
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+            self.logits_processor = LogitsProcessor(config.vocab_size)
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+class BailingMoeV2ForCausalLM(BailingMoeForCausalLM):
+    pass
diff --git a/model_executor/models/bamba.py b/model_executor/models/bamba.py
new file mode 100644
index 0000000..e0a2def
--- /dev/null
+++ b/model_executor/models/bamba.py
@@ -0,0 +1,522 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Bamba model."""
+
+# Added by the IBM Team, 2024
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import BambaConfig
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class BambaMLP(nn.Module):
+    def __init__(
+        self,
+        config: BambaConfig,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=config.hidden_size,
+            output_sizes=[config.intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=config.intermediate_size,
+            output_size=config.hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        x, _ = self.gate_up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class BambaMixerDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: BambaConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.mamba = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.mamba_d_state,
+            conv_kernel_size=config.mamba_d_conv,
+            intermediate_size=config.mamba_expand * config.hidden_size,
+            use_conv_bias=config.mamba_conv_bias,
+            use_bias=config.mamba_proj_bias,
+            n_groups=config.mamba_n_groups,
+            num_heads=config.mamba_n_heads,
+            head_dim=config.mamba_d_head,
+            rms_norm_eps=config.rms_norm_eps,
+            activation=config.hidden_act,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.feed_forward = BambaMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.feed_forward"
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        output = torch.empty_like(hidden_states)
+        self.mamba(hidden_states, output)
+        # Fully Connected
+        hidden_states, residual = self.pre_ff_layernorm(output, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+class BambaAttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: BambaConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        if hasattr(config, "partial_rotary_factor"):
+            rotary_dim = int(self.head_dim * config.partial_rotary_factor)
+        elif hasattr(config, "attn_rotary_emb"):
+            rotary_dim = config.attn_rotary_emb  # for backward compatibility
+        else:
+            rotary_dim = self.head_dim  # default
+
+        self.rotary_emb = get_rope(
+            head_size=self.head_dim,
+            rotary_dim=rotary_dim,
+            max_position=max_position_embeddings,
+            rope_scaling=rope_scaling,
+            base=rope_theta,
+            is_neox_style=True,
+            dtype=torch.get_default_dtype(),  # see impl of get_rope
+        )
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        self.feed_forward = BambaMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.feed_forward"
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def self_attention(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        # Fully Connected
+        hidden_states, residual = self.pre_ff_layernorm(hidden_states, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": BambaAttentionDecoderLayer,
+    "mamba": BambaMixerDecoderLayer,
+}
+
+
+@support_torch_compile
+class BambaModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: BambaConfig = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = ALL_DECODER_LAYER_TYPES[config.layers_block_type[layer_idx]]
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        residual = None
+        for i, layer in enumerate(self.layers):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.final_layernorm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            if "A_log" in name:
+                name = name.replace("A_log", "A")
+
+            if ".self_attn." in name:
+                name = name.replace(".self_attn", "")
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class BambaForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsQuant,
+    SupportsMambaPrefixCaching,
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": ["up_proj", "down_proj"],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.mamba_expand * hf_config.hidden_size
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.mamba_n_groups,
+            num_heads=hf_config.mamba_n_heads,
+            head_dim=hf_config.mamba_d_head,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+
+        scheduler_config = vllm_config.scheduler_config
+        self.quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = BambaModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/bee.py b/model_executor/models/bee.py
new file mode 100644
index 0000000..4f0342d
--- /dev/null
+++ b/model_executor/models/bee.py
@@ -0,0 +1,157 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Mapping
+
+import torch
+import torch.nn as nn
+from transformers.activations import GELUActivation
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict
+
+from .llava_next import (
+    LlavaDummyInputsBuilder,
+    LlavaNextMultiModalProcessor,
+    LlavaNextProcessingInfo,
+)
+from .llava_onevision import LlavaOnevisionForConditionalGeneration
+from .utils import WeightsMapper
+
+
+class BeeProcessingInfo(LlavaNextProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(**kwargs)
+
+    def _get_num_unpadded_features(
+        self,
+        *,
+        original_height: int,
+        original_width: int,
+        npatches: int,
+        num_patch_height: int,
+        num_patch_width: int,
+    ) -> tuple[int, int]:
+        """Override to use correct max_num_patches from vision_aspect_ratio."""
+        import math
+
+        current_height = npatches * num_patch_height
+        current_width = npatches * num_patch_width
+
+        aspect_ratio = original_width / original_height
+        current_aspect_ratio = current_width / current_height
+
+        if aspect_ratio > current_aspect_ratio:
+            new_height = int(
+                round(original_height * (current_width / original_width), 7)
+            )
+            padding = (current_height - new_height) // 2
+            current_height = current_height - (2 * padding)
+        else:
+            new_width = int(
+                round(original_width * (current_height / original_height), 7)
+            )
+            padding = (current_width - new_width) // 2
+            current_width = current_width - (2 * padding)
+
+        unpadded_features = current_height * current_width
+        newline_features = current_height
+
+        # Get max_num_patches from vision_aspect_ratio config
+        hf_config = self.get_hf_config()
+        vision_aspect_ratio = getattr(hf_config, "vision_aspect_ratio", "anyres_max_9")
+        max_num_patches = int(vision_aspect_ratio.replace("anyres_max_", ""))
+
+        ratio = math.sqrt(
+            current_height * current_width / (max_num_patches * npatches**2)
+        )
+        if ratio > 1.1:
+            height_factor = int(current_height // ratio)
+            width_factor = int(current_width // ratio)
+            unpadded_features = height_factor * width_factor
+            newline_features = height_factor
+
+        return (unpadded_features, newline_features)
+
+
+class BeeDummyInputsBuilder(LlavaDummyInputsBuilder[BeeProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        image_token = "<image>"
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+        }
+
+
+class BeeMultiModalProjector(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.pre_norm = nn.LayerNorm(config.vision_config.hidden_size, eps=1e-06)
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size,
+            config.text_config.hidden_size * 4,
+            bias=True,
+        )
+        self.act = GELUActivation()
+        self.linear_2 = nn.Linear(
+            config.text_config.hidden_size * 4,
+            config.text_config.hidden_size,
+            bias=True,
+        )
+
+    def forward(self, image_feature: torch.Tensor) -> torch.Tensor:
+        image_feature = self.pre_norm(image_feature)
+        hidden_states = self.linear_1(image_feature)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    LlavaNextMultiModalProcessor,
+    info=BeeProcessingInfo,
+    dummy_inputs=BeeDummyInputsBuilder,
+)
+class BeeForConditionalGeneration(LlavaOnevisionForConditionalGeneration):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers
+            # v4.55
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.image_newline": "image_newline",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        config = vllm_config.model_config.hf_config
+        self.multi_modal_projector = BeeMultiModalProjector(config)
diff --git a/model_executor/models/bert.py b/model_executor/models/bert.py
new file mode 100644
index 0000000..2679448
--- /dev/null
+++ b/model_executor/models/bert.py
@@ -0,0 +1,925 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable, Set
+
+import torch
+from torch import nn
+from transformers import BertConfig
+
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, PoolerConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.pooler import (
+    ClassifierPooler,
+    DispatchPooler,
+    Pooler,
+    PoolingMethod,
+    PoolingParamsUpdate,
+    PoolingType,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.sequence import IntermediateTensors
+from vllm.tasks import PoolingTask
+from vllm.v1.pool.metadata import PoolingMetadata
+
+from .interfaces import SupportsCrossEncoding, SupportsQuant
+from .interfaces_base import default_pooling_type
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+
+
+class BertEmbedding(nn.Module):
+    def __init__(self, config: BertConfig):
+        super().__init__()
+        self.size = config.hidden_size
+        self.word_embeddings = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.position_embeddings = VocabParallelEmbedding(
+            config.max_position_embeddings, config.hidden_size
+        )
+        self.token_type_embeddings = VocabParallelEmbedding(
+            config.type_vocab_size, config.hidden_size
+        )
+        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+        self.register_buffer(
+            "position_ids",
+            torch.arange(config.max_position_embeddings).unsqueeze(0),
+        )
+        self.position_embedding_type = config.position_embedding_type
+        if self.position_embedding_type != "absolute":
+            raise ValueError(
+                "Only 'absolute' position_embedding_type" + " is supported"
+            )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        token_type_ids = _decode_token_type_ids(input_ids)
+
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
+
+        position_embeddings = self.position_embeddings(position_ids)
+
+        token_type_embeddings = self.token_type_embeddings(token_type_ids)
+
+        embeddings = inputs_embeds + token_type_embeddings + position_embeddings
+        embeddings = self.LayerNorm(embeddings)
+        return embeddings
+
+
+class BertPooler(Pooler):
+    def __init__(self, config: BertConfig):
+        super().__init__()
+
+        self.pooling = PoolingMethod.from_pooling_type(PoolingType.CLS)
+        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+        self.activation = nn.Tanh()
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return self.pooling.get_supported_tasks()
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return self.pooling.get_pooling_updates(task)
+
+    def _head(self, pooled_output: torch.Tensor):
+        pooled_output = self.dense(pooled_output)
+        pooled_output = self.activation(pooled_output)
+        return pooled_output
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        pooled_output = self.pooling(hidden_states, pooling_metadata)
+
+        if isinstance(pooled_output, list):
+            pooled_output = [self._head(output) for output in pooled_output]
+        else:
+            pooled_output = self._head(pooled_output)
+
+        return pooled_output
+
+
+class BertEncoder(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.layer = nn.ModuleList(
+            [
+                BertLayer(
+                    config=config,
+                    cache_config=cache_config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layer.{layer_idx}",
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        for layer in self.layer:
+            hidden_states = layer(hidden_states)
+        return hidden_states
+
+
+class BertLayer(nn.Module):
+    def __init__(
+        self,
+        config: BertConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.attention = BertAttention(
+            hidden_size=config.hidden_size,
+            num_attention_heads=config.num_attention_heads,
+            layer_norm_eps=config.layer_norm_eps,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attention",
+        )
+
+        self.intermediate = BertIntermediate(
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.intermediate",
+        )
+
+        self.output = BertOutput(
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            layer_norm_eps=config.layer_norm_eps,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output",
+        )
+
+    def forward(self, hidden_states: torch.Tensor):
+        attn_output = self.attention(hidden_states)
+        intermediate_output = self.intermediate(attn_output)
+        output = self.output(intermediate_output, attn_output)
+        return output
+
+
+class BertAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_attention_heads: int,
+        layer_norm_eps: float,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.self = BertSelfAttention(
+            hidden_size=hidden_size,
+            num_attention_heads=num_attention_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output",
+        )
+
+        self.output = BertSelfOutput(
+            hidden_size=hidden_size,
+            layer_norm_eps=layer_norm_eps,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        self_output = self.self(hidden_states)
+        return self.output(self_output, hidden_states)
+
+
+class BertSelfAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_attention_heads: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = self.total_num_heads
+        self.head_dim = self.hidden_size // self.total_num_heads
+        assert self.head_dim * self.total_num_heads == self.hidden_size
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.attn = EncoderOnlyAttention(
+            num_heads=self.num_heads,
+            head_size=self.head_dim,
+            scale=self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        output = self.attn(q, k, v)
+        return output
+
+
+class BertSelfOutput(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        layer_norm_eps: float,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.dense = RowParallelLinear(
+            input_size=hidden_size,
+            output_size=hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+        self.LayerNorm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
+
+    def forward(
+        self, hidden_states: torch.Tensor, input_tensor: torch.Tensor
+    ) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+        hidden_states = self.LayerNorm(hidden_states + input_tensor)
+        return hidden_states
+
+
+class BertIntermediate(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.dense = ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+        self.intermediate_act_fn = get_act_fn(hidden_act)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+        hidden_states = self.intermediate_act_fn(hidden_states)
+        return hidden_states
+
+
+class BertOutput(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        layer_norm_eps: float,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.dense = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+        self.LayerNorm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
+
+    def forward(
+        self, hidden_states: torch.Tensor, input_tensor: torch.Tensor
+    ) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+        hidden_states = self.LayerNorm(hidden_states + input_tensor)
+        return hidden_states
+
+
+@support_torch_compile
+@default_pooling_type("CLS")
+class BertModel(nn.Module, SupportsQuant):
+    is_pooling_model = True
+
+    packed_modules_mapping = {"qkv_proj": ["query", "key", "value"]}
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        embedding_class: type[nn.Module] = BertEmbedding,
+    ) -> None:
+        super().__init__()
+
+        self.config = vllm_config.model_config.hf_config
+        self.embeddings = embedding_class(self.config)
+        self.encoder = BertEncoder(vllm_config=vllm_config, prefix=f"{prefix}.encoder")
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings.word_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            input_ids=input_ids,
+            position_ids=positions,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return self.encoder(hidden_states)
+
+    def _load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "query", "q"),
+            ("qkv_proj", "key", "k"),
+            ("qkv_proj", "value", "v"),
+        ]
+
+        loaded_stacked_params = []
+        other_weights = []
+        params_dict = dict(self.named_parameters())
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_stacked_params.append(name)
+                break
+            else:
+                if name in params_dict:
+                    other_weights.append((name, loaded_weight))
+
+        return other_weights, loaded_stacked_params
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        other_weights, loaded_stacked_params = self._load_weights(weights)
+
+        loader = AutoWeightsLoader(self, skip_prefixes=["pooler."])
+        loaded_params = loader.load_weights(other_weights)
+        loaded_params.update(loaded_stacked_params)
+        return loaded_params
+
+
+@default_pooling_type("ALL")
+class BertPoolingModel(BertModel):
+    is_pooling_model = True
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        embedding_class: type[nn.Module] = BertEmbedding,
+    ) -> None:
+        super().__init__(
+            vllm_config=vllm_config,
+            prefix=prefix,
+            embedding_class=embedding_class,
+        )
+
+        config = vllm_config.model_config.hf_config
+        self.pooler = BertPooler(config)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        other_weights, loaded_stacked_params = self._load_weights(weights)
+
+        loader = AutoWeightsLoader(self)
+        loaded_params = loader.load_weights(other_weights)
+        loaded_params.update(loaded_stacked_params)
+        return loaded_params
+
+
+@default_pooling_type("CLS")
+class BertEmbeddingModel(nn.Module, SupportsQuant):
+    """A model that uses Bert to provide embedding functionalities.
+
+    This class encapsulates the BertModel and provides an interface for
+    embedding operations and customized pooling functions.
+
+    Attributes:
+        model: An instance of BertModel used for forward operations.
+        _pooler: An instance of Pooler used for pooling operations.
+    """
+
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.model = self._build_model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.pooler = self._build_pooler(pooler_config)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.model(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        weights_list = list(weights)
+
+        has_model_prefix = any(name.startswith("model.") for name, _ in weights_list)
+        if not has_model_prefix:
+            mapper = WeightsMapper(orig_to_new_prefix={"": "model."})
+
+        loader = AutoWeightsLoader(self, skip_prefixes=["lm_head."])
+        return loader.load_weights(weights_list, mapper=mapper)
+
+    def _build_model(self, vllm_config: VllmConfig, prefix: str = "") -> BertModel:
+        return BertModel(
+            vllm_config=vllm_config, prefix=prefix, embedding_class=BertEmbedding
+        )
+
+    def _build_pooler(self, pooler_config: PoolerConfig) -> Pooler:
+        return DispatchPooler(
+            {
+                "token_embed": Pooler.for_token_embed(pooler_config),
+                "embed": Pooler.for_embed(pooler_config),
+            }
+        )
+
+
+# Here we encode the token type ids together with the input ids.
+# Since we use int 32 for the input IDs and the vocabulary size
+# is way lower than 2**31, there is room to encode additional
+# bits. At the same time, for cross-encoder use cases, the
+# token type ids are only 0 or 1, requiring only 1 bit.
+# This means that we can store the token type ids in the 31st
+# bit. We void the 32nd bit because that would produce a negative
+# number, which could be used to signal other things.
+#
+# The reason for all of this is that all the tensors that are
+# passed as input to the forward function of a module marked
+# with @support_torch_compile have to be persistent. So to
+# avoid adding more persistent tensors in the model runner, we
+# encode more information in the same persistent tensor.
+#
+# Since the *ForClassification module is outside of the BertModel
+# which is compiled, we can do the encoding here and then separate
+# the information again in the Embedding  layer. Since with bit masks
+# we can do this entirely with torch operations and without branching,
+# it works with torch compile.
+
+TOKEN_TYPE_SHIFT = 30
+
+
+def _encode_token_type_ids(
+    input_ids: torch.Tensor, token_type_ids: torch.Tensor
+) -> None:
+    # input_ids can be padded to the right
+    input_ids[: token_type_ids.shape[0]].bitwise_or_(token_type_ids << TOKEN_TYPE_SHIFT)
+
+
+def _decode_token_type_ids(input_ids: torch.Tensor) -> torch.Tensor:
+    ids_mask = (
+        torch.ones_like(input_ids, dtype=torch.int32, device=input_ids.device)
+        << TOKEN_TYPE_SHIFT
+    )
+    tokens_mask = ids_mask.bitwise_not()
+
+    token_type_ids = input_ids.bitwise_and(ids_mask) >> TOKEN_TYPE_SHIFT
+
+    input_ids.bitwise_and_(tokens_mask)
+
+    return token_type_ids
+
+
+class BertMLMHead(nn.Module):
+    def __init__(
+        self, hidden_size: int, vocab_size: int, layer_norm_eps: float = 1e-12
+    ):
+        super().__init__()
+        self.dense = nn.Linear(hidden_size, hidden_size)
+        self.activation = nn.GELU()
+        self.layer_norm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
+        self.decoder = nn.Linear(hidden_size, vocab_size, bias=True)
+
+    def tie_weights_with_embeddings(self, embeddings_weight: torch.Tensor):
+        self.decoder.weight = embeddings_weight
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        x = self.dense(hidden_states)
+        x = self.activation(x)
+        x = self.layer_norm(x)
+        logits = self.decoder(x)
+        return logits
+
+
+class SPLADESparsePooler(Pooler):
+    """
+    SPLADE sparse pooling:
+    logits = mlm_head(hidden_states)
+            -> log1p(relu(logits))
+            -> (max|sum over L)
+            -> [V]
+
+    Padding is masked with an attention mask,
+    [CLS]/[SEP] is removed (selected),
+    and then pooled.
+    """
+
+    def __init__(
+        self,
+        mlm_head: nn.Module,
+        cls_token_id: int | None = 101,
+        sep_token_id: int | None = 102,
+        pooling: str = "max",
+        remove_cls_sep: bool = True,
+    ):
+        super().__init__()
+        assert pooling in ("max", "sum")
+        self.mlm_head = mlm_head
+        self.cls_token_id = cls_token_id
+        self.sep_token_id = sep_token_id
+        self.pooling = pooling
+        self.remove_cls_sep = remove_cls_sep
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"embed"}
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return PoolingParamsUpdate(requires_token_ids=True)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> torch.Tensor:
+        assert isinstance(hidden_states, torch.Tensor) and hidden_states.dim() == 2
+
+        lens_tensor: torch.Tensor = pooling_metadata.prompt_lens
+        lens: list[int] = lens_tensor.tolist()
+        B: int = len(lens)
+
+        token_ids = pooling_metadata.prompt_token_ids
+        offset = 0
+        pooled_list: list[torch.Tensor] = []
+
+        for i in range(B):
+            L = int(lens[i])
+            hs = hidden_states[offset : offset + L]
+
+            start_idx = 0
+            end_idx = L
+            if self.remove_cls_sep and token_ids is not None:
+                if (
+                    self.cls_token_id is not None
+                    and token_ids[i, 0].item() == self.cls_token_id
+                ):
+                    start_idx = 1
+                if (
+                    self.sep_token_id is not None
+                    and token_ids[i, L - 1].item() == self.sep_token_id
+                ):
+                    end_idx = max(start_idx, L - 1)
+
+            if end_idx <= start_idx:
+                V = int(self.mlm_head.decoder.out_features)
+                pooled_list.append(hs.new_zeros((V,)))
+                offset += L
+                continue
+
+            logits_i = self.mlm_head(hs[start_idx:end_idx])
+            scores_i = torch.log1p(torch.relu(logits_i))
+
+            if self.pooling == "sum":
+                pooled_i = scores_i.sum(dim=0)
+            else:  # "max"
+                pooled_i = scores_i.max(dim=0).values
+
+            pooled_list.append(pooled_i.contiguous())
+            offset += L
+
+        return torch.stack(pooled_list, dim=0).contiguous()
+
+
+@default_pooling_type("CLS")
+class BertSpladeSparseEmbeddingModel(BertEmbeddingModel):
+    """
+    BertEmbeddingModel + SPLADE sparse embedding.
+    - Make logits by self.mlm_head
+    - pooler: SPLADESparsePooler(mlm_head...)
+    """
+
+    def __init__(
+        self, *, vllm_config: VllmConfig, prefix: str = "", splade_pooling: str = "max"
+    ):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        cfg = vllm_config.model_config.hf_config
+
+        # MLM head
+        self.mlm_head = BertMLMHead(
+            hidden_size=cfg.hidden_size,
+            vocab_size=cfg.vocab_size,
+            layer_norm_eps=getattr(cfg, "layer_norm_eps", 1e-12),
+        )
+
+        self._splade_pooling = splade_pooling
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+        self.pooler = self._build_pooler(pooler_config)
+
+    def _build_pooler(self, pooler_config: PoolerConfig) -> Pooler:
+        cfg = self.model.config
+
+        if not hasattr(self, "mlm_head"):
+            self.mlm_head = BertMLMHead(
+                hidden_size=cfg.hidden_size,
+                vocab_size=cfg.vocab_size,
+                layer_norm_eps=getattr(cfg, "layer_norm_eps", 1e-12),
+            )
+
+        pooling_mode = getattr(self, "_splade_pooling", "max")
+
+        cls_id = getattr(cfg, "cls_token_id", None)
+        sep_id = getattr(cfg, "sep_token_id", None)
+
+        return DispatchPooler(
+            {
+                "token_embed": Pooler.for_token_embed(pooler_config),
+                "embed": SPLADESparsePooler(
+                    mlm_head=self.mlm_head,
+                    cls_token_id=cls_id,
+                    sep_token_id=sep_id,
+                    pooling=pooling_mode,  # "max" or "sum"
+                    remove_cls_sep=True,
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        if not hasattr(self, "mlm_head"):
+            cfg = self.model.config
+            self.mlm_head = BertMLMHead(
+                hidden_size=cfg.hidden_size,
+                vocab_size=cfg.vocab_size,
+                layer_norm_eps=getattr(cfg, "layer_norm_eps", 1e-12),
+            )
+
+        def _strip(name: str) -> str:
+            for p in ("model.", "bert."):
+                if name.startswith(p):
+                    name = name[len(p) :]
+            return name
+
+        weights_list = list(weights)
+        model_side: list[tuple[str, torch.Tensor]] = []
+        mlm_side: list[tuple[str, torch.Tensor]] = []
+
+        for k, w in weights_list:
+            name = _strip(k)
+            if name.startswith("cls.predictions."):
+                mlm_side.append((name, w))
+            else:
+                model_side.append((name, w))
+
+        loaded: set[str] = set()
+        loaded_model = self.model.load_weights(model_side)
+        loaded.update({"model." + n for n in loaded_model})
+
+        if mlm_side:
+            name_map = {
+                "cls.predictions.transform.dense.weight": "mlm_head.dense.weight",
+                "cls.predictions.transform.dense.bias": "mlm_head.dense.bias",
+                ("cls.predictions.transform.LayerNorm.weight"): (
+                    "mlm_head.layer_norm.weight"
+                ),
+                ("cls.predictions.transform.LayerNorm.bias"): (
+                    "mlm_head.layer_norm.bias"
+                ),
+                "cls.predictions.decoder.weight": "mlm_head.decoder.weight",
+                "cls.predictions.decoder.bias": "mlm_head.decoder.bias",
+            }
+            remapped = [(name_map[n], w) for n, w in mlm_side if n in name_map]
+            if remapped:
+                loaded_mlm = AutoWeightsLoader(self).load_weights(remapped)
+                loaded.update(loaded_mlm)
+
+        return loaded
+
+
+@default_pooling_type("CLS")
+class BertForSequenceClassification(nn.Module, SupportsCrossEncoding, SupportsQuant):
+    """A model that uses Bert to provide embedding functionalities.
+
+    This class encapsulates the BertModel and provides an interface for
+    embedding operations and customized pooling functions.
+
+    Attributes:
+        model: An instance of BertModel used for forward operations.
+        _pooler: An instance of Pooler used for pooling operations.
+    """
+
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+
+        self.num_labels = config.num_labels
+        self.bert = BertPoolingModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "bert"),
+            embedding_class=BertEmbedding,
+        )
+        self.classifier = nn.Linear(
+            config.hidden_size,
+            config.num_labels,
+            dtype=vllm_config.model_config.head_dtype,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.classifier
+                ),
+                "classify": ClassifierPooler(
+                    pooling=self.bert.pooler,
+                    classifier=self.classifier,
+                    act_fn="classify",
+                ),
+                "score": ClassifierPooler(
+                    pooling=self.bert.pooler, classifier=self.classifier, act_fn="score"
+                ),
+            }
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.bert.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        loaded_params = loader.load_weights(weights)
+        return loaded_params
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        token_type_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if token_type_ids is not None:
+            assert self.bert.config.vocab_size < (1 << TOKEN_TYPE_SHIFT)
+            assert input_ids is not None
+            _encode_token_type_ids(input_ids, token_type_ids)
+
+        return self.bert(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+
+
+@default_pooling_type("ALL")
+class BertForTokenClassification(nn.Module):
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.head_dtype = vllm_config.model_config.head_dtype
+        self.num_labels = config.num_labels
+        self.bert = BertModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "bert"),
+            embedding_class=BertEmbedding,
+        )
+        self.classifier = nn.Linear(
+            config.hidden_size, config.num_labels, dtype=self.head_dtype
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config=pooler_config
+                ),
+            }
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.bert.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        loaded_params = loader.load_weights(weights)
+        return loaded_params
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        token_type_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if token_type_ids is not None:
+            assert self.bert.config.vocab_size < (1 << TOKEN_TYPE_SHIFT)
+            assert input_ids is not None
+            _encode_token_type_ids(input_ids, token_type_ids)
+
+        hidden_states = self.bert(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+
+        hidden_states = hidden_states.to(self.head_dtype)
+        return self.classifier(hidden_states)
diff --git a/model_executor/models/bert_with_rope.py b/model_executor/models/bert_with_rope.py
new file mode 100644
index 0000000..131cb68
--- /dev/null
+++ b/model_executor/models/bert_with_rope.py
@@ -0,0 +1,732 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.activation import get_act_and_mul_fn, get_act_fn
+from vllm.model_executor.layers.fused_moe import activation_without_mul, fused_topk
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    maybe_prefix,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+
+from ..layers.pooler import ClassifierPooler, DispatchPooler, Pooler
+from .bert import BertPooler
+from .interfaces import SupportsCrossEncoding, SupportsQuant
+from .interfaces_base import default_pooling_type
+
+
+class BertWithRopeEmbedding(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        if config.position_embedding_type not in ["rope", "rotary"]:
+            raise ValueError(
+                "Only 'rotary'('rope') position_embedding_type" + " is supported"
+            )
+
+        self.word_embeddings = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        if config.type_vocab_size > 0:
+            self.token_type_embeddings = VocabParallelEmbedding(
+                config.type_vocab_size, config.hidden_size
+            )
+        else:
+            self.token_type_embeddings = None
+
+        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        token_type_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        input_shape = input_ids.size()
+        inputs_embeds = self.word_embeddings(input_ids)
+
+        embeddings = inputs_embeds
+        if self.token_type_embeddings is not None:
+            if token_type_ids is None:
+                token_type_ids = torch.zeros(
+                    input_shape, dtype=torch.long, device=inputs_embeds.device
+                )
+
+            token_type_embeddings = self.token_type_embeddings(token_type_ids)
+            embeddings += token_type_embeddings
+
+        embeddings = self.LayerNorm(embeddings)
+        return embeddings
+
+
+class BertWithRopeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_attention_heads: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = True,
+        rotary_kwargs: dict | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = self.total_num_heads
+        self.head_dim = self.hidden_size // self.total_num_heads
+        assert self.head_dim * self.total_num_heads == self.hidden_size
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.rotary_emb = get_rope(**rotary_kwargs)
+
+        self.attn = EncoderOnlyAttention(
+            num_heads=self.num_heads,
+            head_size=self.head_dim,
+            scale=self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        self.out_proj = RowParallelLinear(
+            input_size=hidden_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class BertWithRopeGatedMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        bias: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.act_fn = get_act_and_mul_fn(hidden_act)
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(hidden_states)
+        hidden_states = self.act_fn(gate_up)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class BertWithRopeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        bias: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.act_fn = get_act_fn(hidden_act)
+        self.up_proj = ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.up_proj(hidden_states)
+        hidden_states = self.act_fn(hidden_states)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class NomicMoE(nn.Module):
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        params_dtype: torch.dtype | None = None,
+        tp_size: int | None = None,
+    ):
+        super().__init__()
+
+        self.tp_size = tp_size or get_tensor_model_parallel_world_size()
+        self.num_total_experts = num_experts
+        self.top_k = top_k
+        self.hidden_size = hidden_size
+        self.total_intermediate_size = intermediate_size
+        self.intermediate_size = divide(intermediate_size, self.tp_size)
+        self.hidden_act = activation_without_mul(hidden_act)
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        self.router = ReplicatedLinear(
+            self.hidden_size, self.num_total_experts, bias=False
+        )
+        self.w1 = nn.Parameter(
+            torch.empty(
+                self.num_total_experts,
+                self.intermediate_size,
+                self.hidden_size,
+                device=current_platform.device_type,
+                dtype=self.params_dtype,
+            )
+        )
+        self.w2 = nn.Parameter(
+            torch.empty(
+                self.num_total_experts,
+                self.hidden_size,
+                self.intermediate_size,
+                device=current_platform.device_type,
+                dtype=self.params_dtype,
+            )
+        )
+        self.bias = nn.Parameter(torch.zeros(self.hidden_size))
+        set_weight_attrs(
+            self.w1,
+            {
+                "weight_loader": self.weight_loader,
+            },
+        )
+        set_weight_attrs(
+            self.w2,
+            {
+                "weight_loader": self.weight_loader,
+            },
+        )
+
+    def weight_loader(
+        self,
+        param: nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+    ):
+        # NOTE: Nomic-MoE has fused experts weights with shape
+        # (num_experts * intermediate_size, hidden_size)
+        tp_rank = get_tensor_model_parallel_rank()
+        param_data = param.data
+        shard_size = self.intermediate_size
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        if weight_name.endswith("w1"):
+            loaded_weight = loaded_weight.reshape(
+                self.num_total_experts,
+                self.total_intermediate_size,
+                self.hidden_size,
+            )[:, shard]
+        if weight_name.endswith("w2"):
+            loaded_weight = loaded_weight.reshape(
+                self.num_total_experts,
+                self.total_intermediate_size,
+                self.hidden_size,
+            )[:, shard].transpose(1, 2)
+        param_data.copy_(loaded_weight)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.router(hidden_states)
+        # FIXME(Isotr0py): This implementation is too tricky,
+        # we should use FusedMoE instead in the future
+        # after supporting ungated activation for it.
+        topk_weights, topk_ids, _ = fused_topk(
+            hidden_states, router_logits, self.top_k, renormalize=False
+        )
+
+        final_hidden_states = torch.ops.vllm.outplace_fused_experts(
+            hidden_states=hidden_states,
+            w1=self.w1,
+            w2=self.w2,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            activation=self.hidden_act,
+        )
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(num_tokens, hidden_size) + self.bias
+
+
+class BertWithRopeBlock(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        moe: bool = False,
+        bias: bool = True,
+        rotary_kwargs: dict | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.attn = BertWithRopeAttention(
+            hidden_size=config.hidden_size,
+            num_attention_heads=config.num_attention_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            bias=bias,
+            rotary_kwargs=rotary_kwargs,
+            prefix=f"{prefix}.attention",
+        )
+
+        if moe:
+            self.mlp = NomicMoE(
+                num_experts=config.num_experts,
+                top_k=config.moe_top_k,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+            )
+        else:
+            if config.hidden_act in ["silu", "geglu"]:
+                self.mlp = BertWithRopeGatedMLP(
+                    hidden_size=config.hidden_size,
+                    intermediate_size=config.intermediate_size,
+                    hidden_act=config.hidden_act,
+                    bias=bias,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp",
+                )
+            else:
+                self.mlp = BertWithRopeMLP(
+                    hidden_size=config.hidden_size,
+                    intermediate_size=config.intermediate_size,
+                    hidden_act=config.hidden_act,
+                    bias=bias,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp",
+                )
+
+        self.attn_ln = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.mlp_ln = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+    def forward(self, positions: torch.Tensor, hidden_states: torch.Tensor):
+        attn_output = self.attn(positions, hidden_states)
+        hidden_states = self.attn_ln(hidden_states + attn_output)
+        mlp_out = self.mlp(hidden_states)
+        hidden_states = self.mlp_ln(hidden_states + mlp_out)
+        return hidden_states
+
+
+class BertWithRopeEncoder(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        bias: bool = True,
+        rotary_kwargs: dict | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        every_n = getattr(config, "moe_every_n_layers", 0)
+        self.layers = nn.ModuleList(
+            [
+                BertWithRopeBlock(
+                    config=config,
+                    cache_config=cache_config,
+                    quant_config=quant_config,
+                    bias=bias,
+                    moe=every_n > 0 and (layer_idx % every_n == 1),
+                    rotary_kwargs=rotary_kwargs,
+                    prefix=f"{prefix}.layer.{layer_idx}",
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        for layer in self.layers:
+            hidden_states = layer(positions, hidden_states)
+        return hidden_states
+
+
+@support_torch_compile
+@default_pooling_type("CLS")
+class BertWithRope(nn.Module, SupportsQuant):
+    hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        add_pooling_layer: bool = False,
+    ):
+        super().__init__()
+        self.vllm_config = vllm_config
+        self.add_pooling_layer = add_pooling_layer
+        self.config = vllm_config.model_config.hf_config
+        self.embeddings = BertWithRopeEmbedding(self.config)
+        self.encoder = BertWithRopeEncoder(
+            vllm_config=vllm_config,
+            bias=getattr(self.config, "bias", True),
+            rotary_kwargs=self.config.rotary_kwargs,
+            prefix=f"{prefix}.encoder",
+        )
+        self.pooler = BertPooler(self.config) if add_pooling_layer else None
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        token_type_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.embeddings(
+                input_ids=input_ids, token_type_ids=token_type_ids
+            )
+        return self.encoder(positions, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        weights = self.hf_to_vllm_mapper.apply(weights)
+
+        if self.config.hidden_act in ["silu", "geglu"]:
+            stacked_params_mapping = [
+                # (param_name, shard_name, shard_id)
+                ("gate_up_proj", "gate_proj", 0),
+                ("gate_up_proj", "up_proj", 1),
+            ]
+        else:
+            stacked_params_mapping = []
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if not self.add_pooling_layer and "pooler" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if name.endswith((".w1", ".w2")):
+                    # Nomic-MoE has fused experts weights
+                    weight_loader(param, loaded_weight, name)
+                else:
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class NomicBertModel(BertWithRope):
+    # for https://huggingface.co/nomic-ai/nomic-bert-2048
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "emb_ln": "embeddings.LayerNorm",
+            "attn.Wqkv": "attn.qkv_proj",
+            "norm1": "attn_ln",
+            "mlp.fc1.": "mlp.up_proj.",
+            "mlp.fc11": "mlp.up_proj",
+            "mlp.fc12": "mlp.gate_proj",
+            "mlp.fc2": "mlp.down_proj",
+            "norm2": "mlp_ln",
+            # MoE mapping
+            "experts.mlp.": "",
+            "experts.": "",
+            "router.layer": "router",
+        }
+    )
+
+
+class GteNewModel(BertWithRope):
+    # for https://huggingface.co/Alibaba-NLP/new-impl
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "new.": "",
+            "layer": "layers",
+            "attention.qkv_proj": "attn.qkv_proj",
+            "attention.o_proj": "attn.out_proj",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "", **kwargs):
+        super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
+
+        # GteNewModel only gate_up_proj does not have bias.
+        # Hack method learned from vllm/model_executor/models/glm.py
+        for layer in self.encoder.layers:
+            layer.mlp.gate_up_proj.bias = None
+            layer.mlp.gate_up_proj.skip_bias_add = True
+
+    def split_up_gate_proj(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        n = "mlp.up_gate_proj"
+        for name, weight in weights:
+            if n in name:
+                up, gate = weight.chunk(2, dim=0)
+                yield name.replace(n, "mlp.up_proj"), up
+                yield name.replace(n, "mlp.gate_proj"), gate
+            else:
+                yield name, weight
+
+    def ignore_unnecessary_layers(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        for name, weight in weights:
+            if name.startswith("classifier"):
+                continue
+            yield name, weight
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        weights = self.ignore_unnecessary_layers(weights)
+        weights = self.split_up_gate_proj(weights)
+        return super().load_weights(weights)
+
+
+class SnowflakeGteNewModel(GteNewModel):
+    # for Snowflake/snowflake-arctic-embed-m-v2.0
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "layer": "layers",
+            "attention.qkv_proj": "attn.qkv_proj",
+            "attention.o_proj": "attn.out_proj",
+        }
+    )
+
+
+class JinaRobertaModel(BertWithRope):
+    # for https://huggingface.co/jinaai/jina-embeddings-v3
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "emb_ln": "embeddings.LayerNorm",
+            "mixer.Wqkv": "attn.qkv_proj",
+            "mixer.out_proj": "attn.out_proj",
+            "norm1": "attn_ln",
+            "mlp.fc1.": "mlp.up_proj.",
+            "mlp.fc2": "mlp.down_proj",
+            "norm2": "mlp_ln",
+        }
+    )
+
+    @torch.inference_mode()
+    def jina_merge_lora_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        # use for jina-embeddings-v3
+        # Merge Lora weights into a single weight tensor.
+        # This is a temporary solution until we have a better way to handle
+
+        scaling = self.config.lora_alpha / self.config.lora_rank
+        device = self.vllm_config.device_config.device
+
+        weights = {name: weight for name, weight in weights}
+
+        o = ".original"
+        a = ".0.lora_A"
+        b = ".0.lora_B"
+
+        # text-matching
+        i = -1
+
+        for name in list(weights.keys()):
+            if o in name:
+                dtype = weights[name].dtype
+                shape = weights[name].shape
+                weight_name = name[: -len(o)]
+
+                if "embeddings" in weight_name:
+                    B = weights[weight_name + a][i].to(device).float()
+                    A = weights[weight_name + b][i].to(device).float()
+                else:
+                    B = weights[weight_name + b][i].to(device).float()
+                    A = weights[weight_name + a][i].to(device).float()
+
+                weight = (
+                    weights[weight_name + o].to(device)
+                    + torch.matmul(B, A).view(shape) * scaling
+                )
+                weight = weight.cpu().to(dtype)
+
+                weights[weight_name.replace(".parametrizations", "")] = weight
+
+                del (
+                    weights[weight_name + o],
+                    weights[weight_name + a],
+                    weights[weight_name + b],
+                )
+
+        return [(name, weight) for name, weight in weights.items()]
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        weights = self.jina_merge_lora_weights(weights)
+        return super().load_weights(weights)
+
+
+@default_pooling_type("CLS")
+class GteNewForSequenceClassification(nn.Module, SupportsCrossEncoding):
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.new = GteNewModel(
+            vllm_config=vllm_config, prefix=prefix, add_pooling_layer=True
+        )
+        self.classifier = ReplicatedLinear(
+            config.hidden_size,
+            config.num_labels,
+            bias=True,
+            quant_config=quant_config,
+            params_dtype=vllm_config.model_config.head_dtype,
+            prefix=maybe_prefix(prefix, "classifier"),
+            return_bias=False,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.classifier
+                ),
+                "classify": ClassifierPooler(
+                    pooling=self.new.pooler,
+                    classifier=self.classifier,
+                    act_fn="classify",
+                ),
+                "score": ClassifierPooler(
+                    pooling=self.new.pooler, classifier=self.classifier, act_fn="score"
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        loaded_params = loader.load_weights(weights)
+        return loaded_params
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.new.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.new(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
diff --git a/model_executor/models/blip.py b/model_executor/models/blip.py
new file mode 100644
index 0000000..2e4f733
--- /dev/null
+++ b/model_executor/models/blip.py
@@ -0,0 +1,349 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Minimal implementation of BlipVisionModel intended to be only used
+within a vision language model."""
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import Blip2VisionConfig, BlipVisionConfig
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .interfaces import SupportsQuant
+
+
+def get_blip_patch_grid_length(*, image_size: int, patch_size: int) -> int:
+    assert image_size % patch_size == 0
+    return image_size // patch_size
+
+
+def get_blip_num_patches(*, image_size: int, patch_size: int) -> int:
+    grid_length = get_blip_patch_grid_length(
+        image_size=image_size, patch_size=patch_size
+    )
+    return grid_length * grid_length
+
+
+# Adapted from https://github.com/huggingface/transformers/blob/v4.39.0/src/transformers/models/blip/modeling_blip.py#L164 # noqa
+class BlipVisionEmbeddings(nn.Module):
+    def __init__(self, config: BlipVisionConfig | Blip2VisionConfig):
+        super().__init__()
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.class_embedding = nn.Parameter(torch.randn(1, 1, self.embed_dim))
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=3,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+        )
+
+        self.num_patches = get_blip_num_patches(
+            image_size=self.image_size, patch_size=self.patch_size
+        )
+        self.num_positions = self.num_patches + 1
+
+        self.position_embedding = nn.Parameter(
+            torch.randn(1, self.num_positions, self.embed_dim)
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        batch_size = pixel_values.shape[0]
+        target_dtype = self.patch_embedding.weight.dtype
+        patch_embeds = self.patch_embedding(
+            pixel_values.to(dtype=target_dtype)
+        )  # shape = [*, width, grid, grid]
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+
+        position_embeds = self.position_embedding.to(target_dtype)
+        embeddings = embeddings + position_embeds[:, : embeddings.size(1), :]
+
+        return embeddings
+
+
+class BlipAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config: BlipVisionConfig | Blip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                "embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+        self.dropout = config.attention_dropout
+
+        self.qkv = QKVParallelLinear(
+            self.embed_dim,
+            self.head_dim,
+            self.num_heads,
+            bias=config.qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+        )
+        self.projection = RowParallelLinear(
+            self.embed_dim,
+            self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.projection",
+        )
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
+
+        self.attn = MultiHeadAttention(
+            self.num_heads_per_partition, self.head_dim, self.scale
+        )
+
+    def _shape(self, tensor: torch.Tensor, seq_len: int, bsz: int):
+        return (
+            tensor.view(bsz, seq_len, self.num_heads, self.head_dim)
+            .transpose(1, 2)
+            .contiguous()
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        """Input shape: Batch x Time x Channel"""
+
+        qkv_states, _ = self.qkv(hidden_states)
+        query_states, key_states, value_states = qkv_states.chunk(3, dim=-1)
+        out = self.attn(query_states, key_states, value_states)
+        attn_output, _ = self.projection(out)
+
+        return attn_output, None
+
+
+class BlipMLP(nn.Module):
+    def __init__(
+        self,
+        config: BlipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+
+        return hidden_states
+
+
+class BlipEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: BlipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        # fallback to sdpa attention if tp unavailable
+        self.self_attn = BlipAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.layer_norm1 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.mlp = BlipMLP(config, quant_config=quant_config, prefix=f"{prefix}.mlp")
+        self.layer_norm2 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states, _ = self.self_attn(hidden_states=hidden_states)
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class BlipEncoder(nn.Module):
+    """
+    Transformer encoder consisting of `config.num_hidden_layers` self
+    attention layers. Each layer is a [`BlipEncoderLayer`].
+
+    Args:
+        config: BlipConfig
+    """
+
+    def __init__(
+        self,
+        config: BlipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        num_hidden_layers_override: int | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layers = nn.ModuleList(
+            [
+                BlipEncoderLayer(
+                    config=config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(self, inputs_embeds: torch.Tensor):
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(hidden_states)
+
+        return hidden_states
+
+
+class BlipVisionModel(nn.Module, SupportsQuant):
+    config_class = BlipVisionConfig
+    main_input_name = "pixel_values"
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    def __init__(
+        self,
+        config: BlipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+
+        self.embeddings = BlipVisionEmbeddings(config)
+        self.encoder = BlipEncoder(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.encoder",
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.encoder.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.encoder.layers)} layers."
+            )
+
+        # If possible, skip post_layernorm to conserve memory
+        if require_post_norm is None:
+            require_post_norm = len(self.encoder.layers) == num_hidden_layers
+
+        if require_post_norm:
+            self.post_layernorm = nn.LayerNorm(
+                config.hidden_size, eps=config.layer_norm_eps
+            )
+        else:
+            self.post_layernorm = None
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.embeddings(pixel_values)
+        hidden_states = self.encoder(inputs_embeds=hidden_states)
+
+        if self.post_layernorm is None:
+            return hidden_states
+
+        return self.post_layernorm(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.encoder.layers)
+
+        for name, loaded_weight in weights:
+            # post_layernorm is not needed in BlipVisionModel
+            if name.startswith("post_layernorm") and self.post_layernorm is None:
+                continue
+
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("encoder.layers"):
+                layer_idx = int(name.split(".")[2])
+                if layer_idx >= layer_count:
+                    continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/blip2.py b/model_executor/models/blip2.py
new file mode 100644
index 0000000..f71b9c0
--- /dev/null
+++ b/model_executor/models/blip2.py
@@ -0,0 +1,695 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    Blip2Config,
+    Blip2QFormerConfig,
+    apply_chunking_to_forward,
+)
+
+from vllm.config import CacheConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptIndexTargets,
+    PromptInsertion,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .blip import BlipVisionModel
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+
+class Blip2ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class Blip2ImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - f: Image feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    data: Annotated[torch.Tensor, TensorShape("bn", "f", "h")]
+
+
+Blip2ImageInputs: TypeAlias = Blip2ImagePixelInputs | Blip2ImageEmbeddingInputs
+
+
+class Blip2QFormerMultiHeadAttention(nn.Module):
+    def __init__(
+        self,
+        config: Blip2QFormerConfig,
+        *,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        is_cross_attention: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        if config.hidden_size % config.num_attention_heads != 0:
+            raise ValueError(
+                f"The hidden size ({config.hidden_size}) is not a multiple of "
+                f"the number of attention heads ({config.num_attention_heads})"
+            )
+
+        self.num_attention_heads = config.num_attention_heads
+        self.attention_head_size = config.hidden_size // config.num_attention_heads
+        self.all_head_size = self.num_attention_heads * self.attention_head_size
+        self.scaling = self.attention_head_size**-0.5
+
+        self.query = nn.Linear(config.hidden_size, self.all_head_size)
+        if is_cross_attention:
+            kv_hidden_size = config.encoder_hidden_size
+        else:
+            kv_hidden_size = config.hidden_size
+        self.key = nn.Linear(kv_hidden_size, self.all_head_size)
+        self.value = nn.Linear(kv_hidden_size, self.all_head_size)
+
+        self.position_embedding_type = getattr(
+            config, "position_embedding_type", "absolute"
+        )
+        if self.position_embedding_type != "absolute":
+            raise NotImplementedError(
+                f"Unsupported position_embedding_type: {self.position_embedding_type}"
+            )
+
+        self.dropout = nn.Dropout(config.attention_probs_dropout_prob)
+
+    def transpose_for_scores(self, x):
+        x = x.view(*x.size()[:-1], self.num_attention_heads, self.attention_head_size)
+        return x.permute(0, 2, 1, 3)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        encoder_hidden_states: torch.FloatTensor | None = None,
+    ):
+        is_cross_attention = encoder_hidden_states is not None
+
+        if is_cross_attention:
+            key_layer = self.transpose_for_scores(self.key(encoder_hidden_states))
+            value_layer = self.transpose_for_scores(self.value(encoder_hidden_states))
+        else:
+            key_layer = self.transpose_for_scores(self.key(hidden_states))
+            value_layer = self.transpose_for_scores(self.value(hidden_states))
+
+        mixed_query_layer = self.query(hidden_states)
+
+        query_layer = self.transpose_for_scores(mixed_query_layer)
+
+        attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
+        attention_probs = torch.softmax(attention_scores * self.scaling, dim=-1)
+
+        # This is actually dropping out entire tokens to attend to, which might
+        # seem a bit unusual, but is taken from the original Transformer paper.
+        attention_probs_dropped = self.dropout(attention_probs)
+
+        context_layer = torch.matmul(attention_probs_dropped, value_layer)
+
+        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+        context_layer = context_layer.view(
+            *context_layer.size()[:-2], self.all_head_size
+        )
+
+        return context_layer
+
+
+class Blip2QFormerSelfOutput(nn.Module):
+    def __init__(self, config: Blip2QFormerConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.dropout = nn.Dropout(config.hidden_dropout_prob)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        input_tensor: torch.Tensor,
+    ) -> torch.Tensor:
+        hidden_states = self.dense(hidden_states)
+        hidden_states = self.dropout(hidden_states)
+        hidden_states = self.LayerNorm(hidden_states + input_tensor)
+        return hidden_states
+
+
+class Blip2QFormerAttention(nn.Module):
+    def __init__(
+        self,
+        config: Blip2QFormerConfig,
+        *,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        is_cross_attention: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.attention = Blip2QFormerMultiHeadAttention(
+            config,
+            quant_config=quant_config,
+            cache_config=cache_config,
+            is_cross_attention=is_cross_attention,
+            prefix=f"{prefix}.attention",
+        )
+
+        self.output = Blip2QFormerSelfOutput(config, prefix=f"{prefix}.output")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        encoder_hidden_states: torch.FloatTensor | None = None,
+    ) -> tuple[torch.Tensor]:
+        self_output = self.attention(
+            hidden_states,
+            encoder_hidden_states=encoder_hidden_states,
+        )
+        attention_output = self.output(self_output, hidden_states)
+
+        return attention_output
+
+
+class Blip2QFormerIntermediate(nn.Module):
+    def __init__(self, config: Blip2QFormerConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        self.dense = nn.Linear(config.hidden_size, config.intermediate_size)
+        self.intermediate_act_fn = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.dense(hidden_states)
+        hidden_states = self.intermediate_act_fn(hidden_states)
+        return hidden_states
+
+
+class Blip2QFormerOutput(nn.Module):
+    def __init__(self, config: Blip2QFormerConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        self.dense = nn.Linear(config.intermediate_size, config.hidden_size)
+        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.dropout = nn.Dropout(config.hidden_dropout_prob)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        input_tensor: torch.Tensor,
+    ) -> torch.Tensor:
+        hidden_states = self.dense(hidden_states)
+        hidden_states = self.dropout(hidden_states)
+        hidden_states = self.LayerNorm(hidden_states + input_tensor)
+        return hidden_states
+
+
+class Blip2QFormerLayer(nn.Module):
+    def __init__(
+        self,
+        config: Blip2QFormerConfig,
+        *,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        layer_idx: int,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.chunk_size_feed_forward = config.chunk_size_feed_forward
+        self.seq_len_dim = 1
+        self.attention = Blip2QFormerAttention(
+            config,
+            quant_config=quant_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attention",
+        )
+
+        self.layer_idx = layer_idx
+
+        if layer_idx % config.cross_attention_frequency == 0:
+            self.crossattention = Blip2QFormerAttention(
+                config,
+                quant_config=quant_config,
+                cache_config=cache_config,
+                is_cross_attention=True,
+                prefix=f"{prefix}.crossattention",
+            )
+            self.has_cross_attention = True
+        else:
+            self.has_cross_attention = False
+
+        self.intermediate_query = Blip2QFormerIntermediate(
+            config, prefix=f"{prefix}.intermediate_query"
+        )
+        self.output_query = Blip2QFormerOutput(config, prefix=f"{prefix}.output_query")
+
+    def forward(
+        self,
+        hidden_states: torch.FloatTensor,
+        encoder_hidden_states: torch.FloatTensor,
+        query_length: int,
+    ):
+        attention_output = self.attention(hidden_states)
+
+        if query_length > 0:
+            query_attention_output = attention_output[:, :query_length, :]
+
+            if self.has_cross_attention:
+                query_attention_output = self.crossattention(
+                    query_attention_output,
+                    encoder_hidden_states=encoder_hidden_states,
+                )
+
+            layer_output = apply_chunking_to_forward(
+                self.feed_forward_chunk_query,
+                self.chunk_size_feed_forward,
+                self.seq_len_dim,
+                query_attention_output,
+            )
+
+            if attention_output.shape[1] > query_length:
+                layer_output_text = apply_chunking_to_forward(
+                    self.feed_forward_chunk,
+                    self.chunk_size_feed_forward,
+                    self.seq_len_dim,
+                    attention_output[:, query_length:, :],
+                )
+                layer_output = torch.cat([layer_output, layer_output_text], dim=1)
+        else:
+            layer_output = apply_chunking_to_forward(
+                self.feed_forward_chunk,
+                self.chunk_size_feed_forward,
+                self.seq_len_dim,
+                attention_output,
+            )
+
+        return layer_output
+
+    def feed_forward_chunk(self, attention_output: torch.Tensor) -> torch.Tensor:
+        intermediate_output = self.intermediate(attention_output)
+        layer_output = self.output(intermediate_output, attention_output)
+        return layer_output
+
+    def feed_forward_chunk_query(self, attention_output: torch.Tensor) -> torch.Tensor:
+        intermediate_output = self.intermediate_query(attention_output)
+        layer_output = self.output_query(intermediate_output, attention_output)
+        return layer_output
+
+
+class Blip2QFormerEncoder(nn.Module):
+    def __init__(
+        self,
+        config: Blip2QFormerConfig,
+        *,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        self.layer = nn.ModuleList(
+            [
+                Blip2QFormerLayer(
+                    config,
+                    quant_config=quant_config,
+                    cache_config=cache_config,
+                    layer_idx=layer_idx,
+                    prefix=f"{prefix}.layer.{layer_idx}",
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.FloatTensor,
+        encoder_hidden_states: torch.FloatTensor,
+        query_length: int,
+    ) -> torch.Tensor:
+        for i in range(self.config.num_hidden_layers):
+            layer_module = self.layer[i]
+
+            hidden_states = layer_module(
+                hidden_states,
+                encoder_hidden_states=encoder_hidden_states,
+                query_length=query_length,
+            )
+
+        return hidden_states
+
+
+# Adapted from https://github.com/huggingface/transformers/blob/v4.41.2/src/transformers/models/blip_2/modeling_blip_2.py#L1025
+class Blip2QFormerModel(nn.Module):
+    def __init__(
+        self,
+        config: Blip2QFormerConfig,
+        *,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.dropout = nn.Dropout(config.hidden_dropout_prob)
+
+        self.encoder = Blip2QFormerEncoder(
+            config,
+            quant_config=quant_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.encoder",
+        )
+
+    def forward(
+        self,
+        query_embeds: torch.FloatTensor,
+        encoder_hidden_states: torch.FloatTensor,
+    ) -> torch.Tensor:
+        query_length = query_embeds.shape[1]
+
+        embedding_output = self.layernorm(query_embeds)
+        embedding_output = self.dropout(embedding_output)
+
+        sequence_output = self.encoder(
+            embedding_output,
+            encoder_hidden_states=encoder_hidden_states,
+            query_length=query_length,
+        )
+
+        return sequence_output
+
+
+class Blip2ProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Blip2Config)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(self) -> int:
+        hf_config = self.get_hf_config()
+        return hf_config.num_query_tokens
+
+
+class Blip2DummyInputsBuilder(BaseDummyInputsBuilder[Blip2ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        hf_config = self.info.get_hf_config()
+        vision_config = hf_config.vision_config
+
+        max_image_size = vision_config.image_size
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size,
+                height=max_image_size,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Blip2MultiModalProcessor(BaseMultiModalProcessor[Blip2ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            # HF processor always adds placeholders even when there's no image
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = tokenizer.encode(prompt)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        image_token_id = vocab["<image>"]
+        num_image_tokens = self.info.get_num_image_tokens()
+        image_tokens = [image_token_id] * num_image_tokens
+
+        return [
+            PromptInsertion(
+                modality="image",
+                target=PromptIndexTargets.start(),
+                insertion=image_tokens,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Blip2MultiModalProcessor,
+    info=Blip2ProcessingInfo,
+    dummy_inputs=Blip2DummyInputsBuilder,
+)
+class Blip2ForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant
+):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        self.vision_model = BlipVisionModel(config.vision_config, quant_config)
+
+        self.query_tokens = nn.Parameter(
+            torch.zeros(1, config.num_query_tokens, config.qformer_config.hidden_size)
+        )
+
+        self.qformer = Blip2QFormerModel(
+            config.qformer_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qformer",
+        )
+
+        self.language_projection = nn.Linear(
+            config.qformer_config.hidden_size,
+            config.text_config.hidden_size,
+            bias=True,
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Blip2ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            expected_h = expected_w = self.config.vision_config.image_size
+            return Blip2ImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                resolve_bindings={"h": expected_h, "w": expected_w},
+            )
+
+        if image_embeds is not None:
+            return Blip2ImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _image_pixels_to_features(
+        self, vision_model: BlipVisionModel, pixel_values: torch.Tensor
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        image_features = vision_model(pixel_values)
+
+        return image_features
+
+    def _process_image_pixels(self, inputs: Blip2ImagePixelInputs) -> torch.Tensor:
+        assert self.vision_model is not None
+
+        pixel_values = inputs["data"]
+
+        return self._image_pixels_to_features(self.vision_model, pixel_values)
+
+    def _process_image_input(self, image_input: Blip2ImageInputs) -> torch.Tensor:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_model is not None
+        image_features = self._process_image_pixels(image_input)
+
+        query_tokens = self.query_tokens.expand(image_features.shape[0], -1, -1)
+        query_output = self.qformer(
+            query_embeds=query_tokens,
+            encoder_hidden_states=image_features,
+        )
+
+        return self.language_projection(query_output)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        """Run forward pass for BLIP-2.
+
+        One key thing to understand is the `input_ids` already accounts for the
+        positions of the to-be-inserted image embeddings.
+
+        Concretely, consider a text prompt:
+        `"Question: What's the content of the image? Answer:"`.
+
+        Tokenizer outputs:
+        `[2, 45641, 35, 653, 18, 5, 1383, 9, 5, 2274, 116, 31652, 35]`.
+
+        To reserve space in KV cache, we have to insert placeholder tokens
+        before they are inputted to the model, so the input processor prepends
+        dummy tokens (denoted as `50265`), resulting in:
+        `[50265, ..., 50265, 2, 45641, 35, ..., 31652, 35]`.
+
+        We insert 32 tokens since it corresponds to the number of query
+        embeddings outputted by the Q-Former and inputted to the language model.
+
+        This way, the `positions` and `attn_metadata` are consistent
+        with the `input_ids`.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+
+        Info:
+            [`Blip2ImageInputs`][vllm.model_executor.models.blip2.Blip2ImageInputs]
+        """
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/bloom.py b/model_executor/models/bloom.py
new file mode 100644
index 0000000..00fba93
--- /dev/null
+++ b/model_executor/models/bloom.py
@@ -0,0 +1,390 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/bloom/modeling_bloom.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 HuggingFace Inc. team and BigScience workshop.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only BLOOM model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import BloomConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP, SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+def _get_alibi_slopes(total_num_heads: int) -> torch.Tensor:
+    closest_power_of_2 = 2 ** math.floor(math.log2(total_num_heads))
+    base = torch.tensor(
+        2 ** (-(2 ** -(math.log2(closest_power_of_2) - 3))),
+        dtype=torch.float32,
+    )
+    powers = torch.arange(1, 1 + closest_power_of_2, dtype=torch.int32)
+    slopes = torch.pow(base, powers)
+
+    if closest_power_of_2 != total_num_heads:
+        extra_base = torch.tensor(
+            2 ** (-(2 ** -(math.log2(2 * closest_power_of_2) - 3))),
+            dtype=torch.float32,
+        )
+        num_remaining_heads = min(
+            closest_power_of_2, total_num_heads - closest_power_of_2
+        )
+        extra_powers = torch.arange(
+            start=1, end=1 + 2 * num_remaining_heads, step=2, dtype=torch.int32
+        )
+        slopes = torch.cat([slopes, torch.pow(extra_base, extra_powers)], dim=0)
+    return slopes
+
+
+class BloomAttention(nn.Module):
+    def __init__(
+        self,
+        config: BloomConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.total_num_heads = config.n_head
+        self.head_dim = self.hidden_size // self.total_num_heads
+        assert self.head_dim * self.total_num_heads == self.hidden_size
+
+        tp_world_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tp_world_size == 0
+        self.num_heads = self.total_num_heads // tp_world_size
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.dense = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+        # Create the alibi slopes and slice them.
+        tp_rank = get_tensor_model_parallel_rank()
+        head_start = tp_rank * self.num_heads
+        head_end = (tp_rank + 1) * self.num_heads
+        alibi_slopes = _get_alibi_slopes(self.total_num_heads)
+        alibi_slopes = alibi_slopes[head_start:head_end].tolist()
+
+        scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scaling,
+            alibi_slopes=alibi_slopes,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        del position_ids  # Unused.
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.dense(attn_output)
+        return output
+
+
+class BloomMLP(nn.Module):
+    def __init__(
+        self,
+        config: BloomConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        self.dense_h_to_4h = ColumnParallelLinear(
+            hidden_size,
+            4 * hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
+        )
+        self.gelu_impl = get_act_fn("gelu")
+        self.dense_4h_to_h = RowParallelLinear(
+            4 * hidden_size,
+            hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.dense_h_to_4h(x)
+        x = self.gelu_impl(x)
+        x, _ = self.dense_4h_to_h(x)
+        return x
+
+
+class BloomBlock(nn.Module):
+    def __init__(
+        self,
+        config: BloomConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+
+        self.input_layernorm = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.self_attention = BloomAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attention"
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            hidden_size, eps=config.layer_norm_epsilon
+        )
+        self.mlp = BloomMLP(config, quant_config, prefix=f"{prefix}.mlp")
+        self.apply_residual_connection_post_layernorm = (
+            config.apply_residual_connection_post_layernorm
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Layer norm at the beginning of the transformer layer.
+        layernorm_output = self.input_layernorm(hidden_states)
+
+        # Layer norm post the self attention.
+        if self.apply_residual_connection_post_layernorm:
+            residual = layernorm_output
+        else:
+            residual = hidden_states
+
+        # Self attention.
+        attention_output = self.self_attention(
+            position_ids=position_ids,
+            hidden_states=layernorm_output,
+        )
+        attention_output = attention_output + residual
+        layernorm_output = self.post_attention_layernorm(attention_output)
+
+        # Get residual
+        if self.apply_residual_connection_post_layernorm:
+            residual = layernorm_output
+        else:
+            residual = attention_output
+
+        # MLP.
+        output = self.mlp(layernorm_output) + residual
+        return output
+
+
+@support_torch_compile
+class BloomModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        self.embed_dim = config.hidden_size
+
+        # Embedding + LN Embedding
+        self.word_embeddings = VocabParallelEmbedding(
+            config.vocab_size,
+            self.embed_dim,
+        )
+        self.word_embeddings_layernorm = nn.LayerNorm(
+            self.embed_dim, eps=config.layer_norm_epsilon
+        )
+
+        # Transformer blocks
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: BloomBlock(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.h",
+        )
+
+        # Final Layer Norm
+        self.ln_f = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.word_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            hidden_states = self.word_embeddings_layernorm(hidden_states)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(position_ids, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+
+            if "query_key_value" in name:
+                # NOTE: BLOOM's fused QKV's output_dim has the shape of
+                # (num_heads * 3 * head_size), while the
+                # required shape is (3 * num_heads * head_size).
+                # Thus, we need weight conversion.
+                output_dim = getattr(param, "output_dim", None)
+                num_heads = self.config.num_attention_heads
+                if output_dim is not None:
+                    loaded_weight_shape = loaded_weight.shape
+                    loaded_weight = loaded_weight.view(
+                        loaded_weight_shape[:output_dim]
+                        + (num_heads, 3, -1)
+                        + loaded_weight_shape[output_dim + 1 :]
+                    )
+                    loaded_weight = loaded_weight.transpose(output_dim, output_dim + 1)
+                    loaded_weight = loaded_weight.reshape(loaded_weight_shape)
+
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class BloomForCausalLM(nn.Module, SupportsPP, SupportsQuant):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.transformer = BloomModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.transformer.word_embeddings
+        else:
+            self.lm_head = ParallelLMHead(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["lm_head.weight"])
+        weights = _add_transformer_prefix(weights)
+        return loader.load_weights(weights)
+
+
+def _add_transformer_prefix(
+    weights: Iterable[tuple[str, torch.Tensor]],
+) -> Iterable[tuple[str, torch.Tensor]]:
+    for name, tensor in weights:
+        if not name.startswith("transformer."):
+            name = "transformer." + name
+        yield name, tensor
diff --git a/model_executor/models/chameleon.py b/model_executor/models/chameleon.py
new file mode 100644
index 0000000..fb7476c
--- /dev/null
+++ b/model_executor/models/chameleon.py
@@ -0,0 +1,1120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable, Mapping, Sequence
+from functools import cached_property
+from itertools import islice
+from typing import Annotated, Any, Literal
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import (
+    BatchFeature,
+    ChameleonConfig,
+    ChameleonProcessor,
+    ChameleonVQVAEConfig,
+)
+
+from vllm.attention import Attention
+from vllm.config import CacheConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    row_parallel_weight_loader,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class ChameleonImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class ChameleonProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(ChameleonConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(ChameleonProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(self) -> int:
+        processor = self.get_hf_processor()
+        return processor.image_seq_length
+
+
+class ChameleonDummyInputsBuilder(BaseDummyInputsBuilder[ChameleonProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        config = self.info.get_hf_config()
+
+        width = height = config.vq_config.resolution
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=width,
+                height=height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class ChameleonMultiModalProcessor(BaseMultiModalProcessor[ChameleonProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        # HF processor adds sep token for chat mode
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        sep_token_id = vocab[tokenizer.sep_token]  # type: ignore
+
+        return prompt_tokens + [sep_token_id]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        image_start_id = vocab[processor.image_start_token]
+        image_token_id = vocab[processor.image_token]
+        image_end_id = vocab[processor.image_end_token]
+
+        num_image_tokens = self.info.get_num_image_tokens()
+        image_tokens = [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=PromptUpdateDetails.select_token_id(
+                    [image_start_id] + image_tokens + [image_end_id],
+                    embed_token_id=image_token_id,
+                ),
+            )
+        ]
+
+
+class ChameleonLayerNorm(nn.LayerNorm):
+    def __init__(self, hidden_size, *args, **kwargs):
+        super().__init__(hidden_size, *args, **kwargs)
+        self.normalized_shape = (hidden_size[-1],)
+
+        set_weight_attrs(self.weight, {"weight_loader": row_parallel_weight_loader})
+        set_weight_attrs(self.bias, {"weight_loader": row_parallel_weight_loader})
+
+    def forward(self, hidden_states):
+        hidden_states = F.layer_norm(
+            hidden_states, self.normalized_shape, None, None, eps=1e-5
+        )
+        hidden_states = hidden_states * self.weight + self.bias
+        return hidden_states
+
+
+# Copied from vllm.model_executor.models.llama.LlamaMLP -> ChameleonMLP
+class ChameleonMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+# Modified from vllm.model_executor.models.llama.LlamaAttention -> ChameleonAttention #noqa
+class ChameleonAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 4096,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.q_norm = ChameleonLayerNorm((self.num_heads, self.head_dim))
+        self.k_norm = ChameleonLayerNorm((self.num_kv_heads, self.head_dim))
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def _apply_qk_norm(
+        self, q: torch.Tensor, k: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # reshape for layernorm
+        q = q.reshape(-1, self.num_heads, self.head_dim)
+        k = k.reshape(-1, self.num_kv_heads, self.head_dim)
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        q = q.view(*q.shape[:-2], -1)
+        k = k.view(*k.shape[:-2], -1)
+        return q, k
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self._apply_qk_norm(q, k)
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class ChameleonDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: ChameleonConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
+
+        self.self_attn = ChameleonAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=False,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = ChameleonMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+
+        return hidden_states, residual
+
+
+class ChameleonSwinDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: ChameleonConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
+
+        self.self_attn = ChameleonAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=False,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = ChameleonMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        residual = hidden_states
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = hidden_states + residual
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states, residual
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAEVectorQuantizer #noqa
+class ChameleonVQVAEVectorQuantizer(nn.Module):
+    def __init__(self, config: ChameleonVQVAEConfig):
+        super().__init__()
+        self.num_embeddings = config.num_embeddings
+        self.embedding_dim = config.embed_dim
+        self.beta = getattr(config, "beta", 0.25)
+
+        self.embedding = nn.Embedding(self.num_embeddings, self.embedding_dim)
+        self.re_embed = self.num_embeddings
+
+    def forward(self, hidden_state: torch.Tensor):
+        hidden_state = hidden_state.permute(0, 2, 3, 1).contiguous()
+        hidden_state_flattened = hidden_state.view(-1, self.embedding_dim)
+
+        # distances from z to embeddings e_j (z - e)^2 = z^2 + e^2 - 2 e * z
+        distances = (
+            torch.sum(hidden_state_flattened**2, dim=1, keepdim=True)
+            + torch.sum(self.embedding.weight**2, dim=1)
+            - 2
+            * torch.einsum(
+                "bd,dn->bn",
+                hidden_state_flattened,
+                self.embedding.weight.transpose(0, 1),
+            )
+        )
+
+        min_encoding_indices = torch.argmin(distances, dim=1)
+        hidden_state_quant = self.embedding(min_encoding_indices).view(
+            hidden_state.shape
+        )
+
+        # compute loss for embedding
+        loss = torch.mean(
+            (hidden_state_quant.detach() - hidden_state) ** 2
+        ) + self.beta * torch.mean((hidden_state_quant - hidden_state.detach()) ** 2)
+
+        # preserve gradients
+        hidden_state_quant = hidden_state + (hidden_state_quant - hidden_state).detach()
+
+        # reshape back to match original input shape
+        hidden_state_quant = hidden_state_quant.permute(0, 3, 1, 2).contiguous()
+
+        return hidden_state_quant, loss, min_encoding_indices
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAEEncoderConvDownsample #noqa
+class ChameleonVQVAEEncoderConvDownsample(nn.Module):
+    def __init__(self, in_channels: int):
+        super().__init__()
+        self.conv = nn.Conv2d(
+            in_channels, in_channels, kernel_size=3, stride=2, padding=0
+        )
+
+    def forward(self, hidden_states: torch.Tensor):
+        # no asymmetric padding in torch conv, must do it ourselves
+        hidden_states = F.pad(hidden_states, pad=(0, 1, 0, 1), mode="constant", value=0)
+        hidden_states = self.conv(hidden_states)
+        return hidden_states
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAEEncoderResnetBlock #noqa
+class ChameleonVQVAEEncoderResnetBlock(nn.Module):
+    def __init__(
+        self,
+        config: ChameleonVQVAEConfig,
+        in_channels: int,
+        out_channels=None,
+        conv_shortcut=False,
+    ):
+        super().__init__()
+        self.in_channels = in_channels
+        self.out_channels = in_channels if out_channels is None else out_channels
+        self.use_conv_shortcut = conv_shortcut
+
+        self.norm1 = torch.nn.GroupNorm(
+            num_groups=32, num_channels=in_channels, eps=1e-6, affine=True
+        )
+        self.conv1 = torch.nn.Conv2d(
+            in_channels, out_channels, kernel_size=3, stride=1, padding=1
+        )
+        self.norm2 = torch.nn.GroupNorm(
+            num_groups=32, num_channels=out_channels, eps=1e-6, affine=True
+        )
+        self.dropout = torch.nn.Dropout(config.dropout)
+        self.conv2 = torch.nn.Conv2d(
+            out_channels, out_channels, kernel_size=3, stride=1, padding=1
+        )
+        if self.in_channels != self.out_channels:
+            if self.use_conv_shortcut:
+                self.conv_shortcut = torch.nn.Conv2d(
+                    in_channels, out_channels, kernel_size=3, stride=1, padding=1
+                )
+            else:
+                self.nin_shortcut = torch.nn.Conv2d(
+                    in_channels, out_channels, kernel_size=1, stride=1, padding=0
+                )
+
+    def forward(self, hidden_states: torch.Tensor):
+        residual = hidden_states
+        hidden_states = self.norm1(hidden_states)
+        hidden_states *= torch.sigmoid(hidden_states)
+        hidden_states = self.conv1(hidden_states)
+
+        hidden_states = self.norm2(hidden_states)
+        hidden_states *= torch.sigmoid(hidden_states)
+        hidden_states = self.dropout(hidden_states)
+        hidden_states = self.conv2(hidden_states)
+
+        if self.in_channels != self.out_channels:
+            if self.use_conv_shortcut:
+                residual = self.conv_shortcut(residual)
+            else:
+                residual = self.nin_shortcut(residual)
+
+        return residual + hidden_states
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAEEncoderAttnBlock #noqa
+class ChameleonVQVAEEncoderAttnBlock(nn.Module):
+    def __init__(self, in_channels: int):
+        super().__init__()
+        self.in_channels = in_channels
+
+        self.norm = torch.nn.GroupNorm(
+            num_groups=32, num_channels=in_channels, eps=1e-6, affine=True
+        )
+        self.q = torch.nn.Conv2d(
+            in_channels, in_channels, kernel_size=1, stride=1, padding=0
+        )
+        self.k = torch.nn.Conv2d(
+            in_channels, in_channels, kernel_size=1, stride=1, padding=0
+        )
+        self.v = torch.nn.Conv2d(
+            in_channels, in_channels, kernel_size=1, stride=1, padding=0
+        )
+        self.proj_out = torch.nn.Conv2d(
+            in_channels, in_channels, kernel_size=1, stride=1, padding=0
+        )
+
+    def forward(self, hidden_states: torch.Tensor):
+        residual = hidden_states
+        hidden_states = self.norm(hidden_states)
+        query_states = self.q(hidden_states)
+        key_states = self.k(hidden_states)
+        value_states = self.v(hidden_states)
+
+        # compute attention
+        batch_size, channels, height, width = query_states.shape
+        query_states = query_states.reshape(
+            batch_size, channels, height * width
+        ).permute(0, 2, 1)
+        key_states = key_states.reshape(batch_size, channels, height * width)
+        attn_weights = torch.bmm(query_states, key_states)
+        attn_weights = attn_weights * (int(channels) ** (-0.5))
+        attn_weights = F.softmax(attn_weights, dim=2)
+
+        # attend to values
+        value_states = value_states.reshape(batch_size, channels, height * width)
+        attn_weights = attn_weights.permute(0, 2, 1)
+        attn_output = torch.bmm(value_states, attn_weights).reshape(
+            batch_size, channels, height, width
+        )
+
+        attn_output = self.proj_out(attn_output)
+        return residual + attn_output
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAEEncoder #noqa
+class ChameleonVQVAEEncoder(nn.Module):
+    def __init__(self, config: ChameleonVQVAEConfig):
+        super().__init__()
+
+        self.num_resolutions = len(config.channel_multiplier)
+        self.num_res_blocks = config.num_res_blocks
+        base_channels = config.base_channels
+        resolution = config.resolution
+        in_channels = config.in_channels
+        double_latent = config.double_latent
+        latent_channels = config.latent_channels
+        channel_multiplier = config.channel_multiplier
+
+        self.conv_in = torch.nn.Conv2d(
+            in_channels, base_channels, kernel_size=3, stride=1, padding=1
+        )
+
+        curr_res = resolution
+        in_channel_multiplier = (1,) + tuple(channel_multiplier)
+        self.in_channel_multiplier = in_channel_multiplier
+        self.down = nn.ModuleList()
+        for i_level in range(self.num_resolutions):
+            block = nn.ModuleList()
+            attn = nn.ModuleList()
+            block_in = base_channels * in_channel_multiplier[i_level]
+            block_out = base_channels * channel_multiplier[i_level]
+            for i_block in range(self.num_res_blocks):
+                block.append(
+                    ChameleonVQVAEEncoderResnetBlock(
+                        config=config,
+                        in_channels=block_in,
+                        out_channels=block_out,
+                    )
+                )
+                block_in = block_out
+                if (
+                    config.attn_resolutions is not None
+                    and curr_res in config.attn_resolutions
+                    and config.attn_type == "vanilla"
+                ):
+                    attn.append(ChameleonVQVAEEncoderAttnBlock(block_in))
+
+            down = nn.Module()
+            down.block = block
+            down.attn = attn
+            if i_level != self.num_resolutions - 1:
+                down.downsample = ChameleonVQVAEEncoderConvDownsample(block_in)
+                curr_res = curr_res // 2
+            self.down.append(down)
+
+        self.mid = nn.Module()
+        self.mid.block_1 = ChameleonVQVAEEncoderResnetBlock(
+            config=config,
+            in_channels=block_in,
+            out_channels=block_in,
+        )
+        self.mid.attn_1 = (
+            ChameleonVQVAEEncoderAttnBlock(block_in)
+            if config.attn_type == "vanilla"
+            else nn.Identity()
+        )
+        self.mid.block_2 = ChameleonVQVAEEncoderResnetBlock(
+            config=config,
+            in_channels=block_in,
+            out_channels=block_in,
+        )
+
+        self.norm_out = torch.nn.GroupNorm(
+            num_groups=32, num_channels=block_in, eps=1e-6, affine=True
+        )
+        self.conv_out = torch.nn.Conv2d(
+            block_in,
+            2 * latent_channels if double_latent else latent_channels,
+            kernel_size=3,
+            stride=1,
+            padding=1,
+        )
+
+    def forward(self, pixel_values: torch.Tensor):
+        pixel_values = pixel_values.to(self.conv_in.weight.dtype)
+
+        # downsampling
+        hidden_states = [self.conv_in(pixel_values)]
+        for i_level in range(self.num_resolutions):
+            for i_block in range(self.num_res_blocks):
+                hidden_state = self.down[i_level].block[i_block](hidden_states[-1])
+                if len(self.down[i_level].attn) > 0:
+                    hidden_state = self.down[i_level].attn[i_block](hidden_state)
+                hidden_states.append(hidden_state)
+            if i_level != self.num_resolutions - 1:
+                hidden_states.append(self.down[i_level].downsample(hidden_states[-1]))
+
+        # middle
+        last_hidden_state = hidden_states[-1]
+        last_hidden_state = self.mid.block_1(last_hidden_state)
+        last_hidden_state = self.mid.attn_1(last_hidden_state)
+        last_hidden_state = self.mid.block_2(last_hidden_state)
+
+        # end
+        last_hidden_state = self.norm_out(last_hidden_state)
+        last_hidden_state *= torch.sigmoid(last_hidden_state)
+        last_hidden_state = self.conv_out(last_hidden_state)
+        return last_hidden_state
+
+
+# Adapted from transformers.models.chameleon.modeling_chameleon.ChameleonVQVAE #noqa
+class ChameleonVQVAE(nn.Module):
+    def __init__(self, config: ChameleonVQVAEConfig):
+        super().__init__()
+        self.encoder = ChameleonVQVAEEncoder(config)
+        self.quantize = ChameleonVQVAEVectorQuantizer(config)
+        self.quant_conv = torch.nn.Conv2d(config.latent_channels, config.embed_dim, 1)
+        self.post_quant_conv = torch.nn.Conv2d(
+            config.embed_dim, config.latent_channels, 1
+        )
+        self.eval()  # Chameleon's VQ model is frozen
+
+    def encode(
+        self, pixel_values: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        hidden_states = self.encoder(pixel_values)
+        hidden_states = self.quant_conv(hidden_states)
+        quant, emb_loss, indices = self.quantize(hidden_states)
+        return quant, emb_loss, indices
+
+
+# Copied from transformers.models.chameleon.modeling_chameleon.ChameleonImageVocabularyMapping #noqa
+class ChameleonImageVocabularyMapping:
+    """
+    A class for mapping discrete image tokens from VQGAN to BPE tokens.
+    """
+
+    def __init__(self, vocab_map: dict[str, int]):
+        self.vocab_map = vocab_map
+        self.image_token_id = vocab_map.get("<image>")
+
+    @cached_property
+    def val2name(self):
+        return {v: k for k, v in self.vocab_map.items()}
+
+    @cached_property
+    def image_tokens(self):
+        return sorted(
+            [val for name, val in self.vocab_map.items() if name.startswith("IMGIMG")]
+        )
+
+    @cached_property
+    def bpe2img(self):
+        img_tkn_chr_mapping = {chr(ord("A") + i): str(i) for i in range(10)}
+
+        def remap(old_name: str) -> str:
+            return "".join(
+                img_tkn_chr_mapping.get(c, c) for c in old_name[len("IMGIMG") : -1]
+            )
+
+        return {tok: int(remap(self.val2name[tok])) for tok in self.image_tokens}
+
+    @cached_property
+    def img2bpe(self):
+        return {v: k for k, v in self.bpe2img.items()}
+
+    @cached_property
+    def bpe2img_search_tensors(self):
+        return torch.tensor(sorted(self.bpe2img.keys())), torch.tensor(
+            sorted(self.bpe2img.values())
+        )
+
+    @cached_property
+    def img2bpe_mapping_tensor(self):
+        mapping = torch.zeros(max(self.img2bpe.keys()) + 1, dtype=torch.int)
+        for k, v in self.img2bpe.items():
+            mapping[k] = v
+        return mapping
+
+    def convert_img2bpe(self, img_batch: torch.Tensor) -> torch.Tensor:
+        device = img_batch.device
+        img_tokens = self.img2bpe_mapping_tensor[img_batch.to("cpu")]
+        return img_tokens.to(device)
+
+
+class ChameleonModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.vocabulary_mapping = ChameleonImageVocabularyMapping(config.vocabulary_map)
+        decoder_layer = (
+            ChameleonDecoderLayer
+            if not self.config.swin_norm
+            else ChameleonSwinDecoderLayer
+        )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.vqmodel = ChameleonVQVAE(config.vq_config)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def get_image_tokens(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """
+        Tokenizes images into discrete tokens with VQGAN module. Converts
+        obtained image tokens into BPE tokens and wraps with "boi" and "eoi"
+        special tokens.
+        """
+        batch_size = pixel_values.shape[0]
+        _, _, image_toks = self.vqmodel.encode(pixel_values)
+        bpe_toks = self.vocabulary_mapping.convert_img2bpe(image_toks)
+        bpe_toks = bpe_toks.view(batch_size, -1)
+        return bpe_toks
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    ChameleonMultiModalProcessor,
+    info=ChameleonProcessingInfo,
+    dummy_inputs=ChameleonDummyInputsBuilder,
+)
+class ChameleonForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.model = ChameleonModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> ChameleonImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+
+        if pixel_values is None:
+            return None
+
+        vq_config: ChameleonVQVAEConfig = self.config.vq_config
+        expected_h = expected_w = vq_config.resolution
+
+        return ChameleonImagePixelInputs(
+            type="pixel_values",
+            data=pixel_values,
+            resolve_bindings={"h": expected_h, "w": expected_w},
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        assert self.model.vqmodel is not None
+        image_tokens = self.model.get_image_tokens(
+            image_input["data"].to(self.config.dtype)
+        )
+        vision_embeddings = self.model.embed_input_ids(image_tokens)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+
+        # Disallow image tokens which does not include special
+        # begin-image and end-image tokens
+        if logits is not None:
+            image_tokens = self.model.vocabulary_mapping.image_tokens
+            logits[:, image_tokens] = torch.finfo(logits.dtype).min
+
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+
+            # With tie_word_embeddings, we can skip lm_head.weight
+            # The weight might appear unnecessarily in the files if the model is
+            # processed with quantization, LoRA, fine-tuning, etc.
+            if self.config.tie_word_embeddings and "lm_head.weight" in name:
+                continue
+
+            use_default_weight_loading = False
+            if "vqmodel" in name:
+                if self.model.vqmodel is not None:
+                    # We only do sharding for language model and
+                    # not vqvae for now.
+                    use_default_weight_loading = True
+            else:
+                for param_name, weight_name, shard_id in stacked_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(param, loaded_weight, shard_id)
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    if name.endswith("kv_scale"):
+                        remapped_kv_scale_name = name.replace(
+                            ".kv_scale", ".attn.kv_scale"
+                        )
+                        if remapped_kv_scale_name not in params_dict:
+                            logger.warning_once(
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
+                            continue
+                        else:
+                            name = remapped_kv_scale_name
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            if use_default_weight_loading and name in params_dict:
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/chatglm.py b/model_executor/models/chatglm.py
new file mode 100644
index 0000000..5d6f5e9
--- /dev/null
+++ b/model_executor/models/chatglm.py
@@ -0,0 +1,498 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from
+# https://github.com/zai-org/ChatGLM2-6B
+"""Inference-only ChatGLM model compatible with THUDM weights."""
+
+import json
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from torch.nn import LayerNorm
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import ChatGLMConfig
+
+from .interfaces import SupportsLoRA, SupportsPP, SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GLMAttention(nn.Module):
+    def __init__(
+        self,
+        config: ChatGLMConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.multi_query_attention = config.multi_query_attention
+        self.total_num_kv_heads = (
+            config.multi_query_group_num
+            if config.multi_query_attention
+            else config.num_attention_heads
+        )
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.add_bias_linear or config.add_qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.dense = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=config.add_bias_linear,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+        # https://huggingface.co/zai-org/chatglm3-6b-32k/blob/e210410255278dd9d74463cf396ba559c0ef801c/modeling_chatglm.py#L141
+        rope_ratio = getattr(config, "rope_ratio", 1.0)
+        max_positions = getattr(config, "seq_length", 8192)
+        # NOTE: zai-org/cogagent-9b-20241220 uses original_rope=False,
+        # which is equivalent to is_neox_style=True
+        is_neox_style = not config.original_rope
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim // 2,
+            max_position=max_positions,
+            base=10000 * rope_ratio,
+            is_neox_style=is_neox_style,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        context_layer = self.attn(q, k, v)
+        attn_output, _ = self.dense(context_layer)
+        return attn_output
+
+
+class GLMMLP(nn.Module):
+    """MLP.
+
+    MLP will take the input with h hidden state, project it to 4*h
+    hidden dimension, perform nonlinear transformation, and project the
+    state back into h hidden dimension.
+    """
+
+    def __init__(
+        self,
+        config: ChatGLMConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.add_bias = config.add_bias_linear
+
+        # Project to 4h.
+        self.dense_h_to_4h = MergedColumnParallelLinear(
+            config.hidden_size,
+            [config.ffn_hidden_size] * 2,
+            bias=config.add_bias_linear,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
+        )
+
+        self.activation_func = SiluAndMul()
+
+        # Project back to h.
+        self.dense_4h_to_h = RowParallelLinear(
+            config.ffn_hidden_size,
+            config.hidden_size,
+            bias=config.add_bias_linear,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+
+    def forward(self, hidden_states):
+        # [s, b, 4hp]
+        intermediate_parallel, _ = self.dense_h_to_4h(hidden_states)
+        intermediate_parallel = self.activation_func(intermediate_parallel)
+        # [s, b, h]
+        output, _ = self.dense_4h_to_h(intermediate_parallel)
+        return output
+
+
+class GLMBlock(nn.Module):
+    """A single transformer layer.
+
+    Transformer layer takes input with size [s, b, h] and returns an
+    output of the same size.
+    """
+
+    def __init__(
+        self,
+        config: ChatGLMConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.apply_residual_connection_post_layernorm = (
+            config.apply_residual_connection_post_layernorm
+        )
+
+        self.fp32_residual_connection = config.fp32_residual_connection
+
+        layer_norm_func = RMSNorm if config.rmsnorm else LayerNorm
+        # Layernorm on the input data.
+        self.input_layernorm = layer_norm_func(
+            config.hidden_size, eps=config.layernorm_epsilon
+        )
+
+        # Self attention.
+        self.self_attention = GLMAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attention"
+        )
+        self.hidden_dropout = config.hidden_dropout
+
+        # Layernorm on the attention output
+        self.post_attention_layernorm = layer_norm_func(
+            config.hidden_size, eps=config.layernorm_epsilon
+        )
+
+        # MLP
+        self.mlp = GLMMLP(config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        # hidden_states: [num_tokens, h]
+        # Layer norm at the beginning of the transformer layer.
+        layernorm_output = self.input_layernorm(hidden_states)
+        # Self attention.
+        attention_output = self.self_attention(
+            hidden_states=layernorm_output,
+            position_ids=position_ids,
+        )
+
+        # Residual connection.
+        if self.apply_residual_connection_post_layernorm:
+            residual = layernorm_output
+        else:
+            residual = hidden_states
+
+        layernorm_input = residual + attention_output
+
+        # Layer norm post the self attention.
+        layernorm_output = self.post_attention_layernorm(layernorm_input)
+
+        # Second residual connection.
+        if self.apply_residual_connection_post_layernorm:
+            residual = layernorm_output
+        else:
+            residual = layernorm_input
+
+        output = self.mlp(layernorm_output) + residual
+
+        return output
+
+
+class GLMTransformer(nn.Module):
+    """Transformer class."""
+
+    def __init__(
+        self,
+        config: ChatGLMConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.post_layer_norm = config.post_layer_norm
+
+        # Number of layers.
+        self.num_layers = config.num_layers
+
+        # Transformer layers.
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            self.num_layers,
+            lambda prefix: GLMBlock(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+
+        if self.post_layer_norm:
+            layer_norm_func = RMSNorm if config.rmsnorm else LayerNorm
+            # Final layer norm before output.
+            self.final_layernorm = layer_norm_func(
+                config.hidden_size, eps=config.layernorm_epsilon
+            )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor | IntermediateTensors:
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(
+                hidden_states=hidden_states, position_ids=position_ids
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        # Final layer norm.
+        if self.post_layer_norm:
+            hidden_states = self.final_layernorm(hidden_states)
+
+        return hidden_states
+
+
+@support_torch_compile
+class ChatGLMModel(nn.Module, SupportsQuant):
+    packed_modules_mapping = {
+        "linear_proj.merged_proj": [
+            "linear_proj.gate_proj",
+            "linear_proj.dense_h_to_4h",
+        ]
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.embedding = VocabParallelEmbedding(
+            config.padded_vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embedding",
+        )
+
+        self.num_layers = config.num_layers
+        self.multi_query_group_num = config.multi_query_group_num
+        self.kv_channels = config.kv_channels
+        self.encoder = GLMTransformer(
+            config, cache_config, quant_config, prefix=f"{prefix}.encoder"
+        )
+
+        self.output_layer = ParallelLMHead(
+            config.padded_vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output_layer",
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.encoder.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embedding(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        # Run encoder.
+        hidden_states = self.encoder(
+            hidden_states=hidden_states,
+            position_ids=positions,
+        )
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("linear_proj.merged_proj", "linear_proj.gate_proj", 0),
+            ("linear_proj.merged_proj", "linear_proj.dense_h_to_4h", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if "rotary_pos_emb.inv_freq" in name:
+                    continue
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class ChatGLMBaseModel(nn.Module):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={".word_embeddings": ""},
+    )
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        transformer_type: type[ChatGLMModel] = ChatGLMModel,
+    ) -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.quant_config = quant_config
+        self.max_position_embeddings = getattr(config, "max_sequence_length", 8192)
+        self.transformer = transformer_type(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        if self.config.tie_word_embeddings:
+            self.transformer.output_layer.weight = self.transformer.embedding.weight
+        self.lm_head = self.transformer.output_layer
+        self.logits_processor = LogitsProcessor(config.padded_vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+
+class ChatGLMForCausalLM(ChatGLMBaseModel, SupportsLoRA, SupportsPP, SupportsQuant):
+    packed_modules_mapping = {
+        "query_key_value": ["query_key_value"],
+        "dense_h_to_4h": ["dense_h_to_4h"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        if hasattr(config, "vision_config"):
+            hf_overrides = {"architectures": ["GLM4VForCausalLM"]}
+            raise RuntimeError(
+                "The configuration of this model indicates that it supports "
+                "vision inputs, but you instantiated the text-only version "
+                "of this model. Please use the vision model by setting "
+                f"`--hf-overrides '{json.dumps(hf_overrides)}'`"
+            )
+
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
diff --git a/model_executor/models/clip.py b/model_executor/models/clip.py
new file mode 100644
index 0000000..5d611de
--- /dev/null
+++ b/model_executor/models/clip.py
@@ -0,0 +1,965 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping, Sequence
+from functools import cached_property
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    CLIPConfig,
+    CLIPProcessor,
+    CLIPTextConfig,
+    CLIPVisionConfig,
+)
+
+from vllm.attention import Attention
+from vllm.attention.layer import MultiHeadAttention
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import SupportsQuant
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptIndexTargets,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal
+from .interfaces_base import default_pooling_type
+from .utils import AutoWeightsLoader, maybe_prefix
+from .vision import (
+    VisionEncoderInfo,
+    VisionFeatureSelectStrategy,
+    VisionFeatureSelectStrategyStr,
+    get_num_selected_vision_tokens,
+    resolve_visual_encoder_outputs,
+)
+
+
+class CLIPImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class CLIPEncoderInfo(VisionEncoderInfo[CLIPVisionConfig]):
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        return self.get_patch_grid_length() ** 2 + 1
+
+    def get_image_size(self) -> int:
+        return self.vision_config.image_size
+
+    def get_patch_size(self) -> int:
+        return self.vision_config.patch_size
+
+    def get_patch_grid_length(self) -> int:
+        image_size, patch_size = self.get_image_size(), self.get_patch_size()
+        assert image_size % patch_size == 0
+        return image_size // patch_size
+
+
+_POOLING_TYPE_TO_STRATEGY: dict[str, VisionFeatureSelectStrategyStr] = {
+    "MEAN": "full",
+    "ALL": "full",
+    "CLS": "class",
+    # This lets us use the same pooling type for both text and image
+    "LAST": "class",
+}
+
+
+def _get_vision_feature_select_strategy(pooling_type: str):
+    try:
+        return _POOLING_TYPE_TO_STRATEGY[pooling_type]
+    except KeyError:
+        raise ValueError(
+            f"No feature selection strategy is defined for "
+            f"pooling_type: {pooling_type!r}"
+        ) from None
+
+
+class CLIPProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(CLIPConfig)
+
+    def get_vision_encoder_info(self):
+        return CLIPEncoderInfo(self.get_hf_config())
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(CLIPProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        pooler_config = self.ctx.model_config.pooler_config
+        assert pooler_config is not None
+
+        return get_num_selected_vision_tokens(
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+            _get_vision_feature_select_strategy(pooler_config.pooling_type),
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+
+class CLIPDummyInputsBuilder(BaseDummyInputsBuilder[CLIPProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class CLIPMultiModalProcessor(BaseMultiModalProcessor[CLIPProcessingInfo]):
+    @cached_property
+    def image_token_id(self) -> int:
+        tokenizer = self.info.get_tokenizer()
+        dummy_token_id = 0
+
+        assert dummy_token_id not in tokenizer.all_special_ids
+
+        return dummy_token_id
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        if prompt and mm_data:
+            raise ValueError(
+                "CLIP accepts text-only or image-only inputs, not both! "
+                "Image-only inputs means passing an image with an empty text "
+                "prompt."
+            )
+
+        if mm_data:
+            # For multi-modal data, the prompt after processing should
+            # only contain the dummy image tokens
+            tokenization_kwargs = {
+                **(tokenization_kwargs or {}),
+                "add_special_tokens": False,
+            }
+
+        return super().apply(
+            prompt=prompt,
+            mm_data=mm_data,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        image_token_id = self.image_token_id
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            num_image_tokens = self.info.get_num_image_tokens(
+                image_width=image_size.width,
+                image_height=image_size.height,
+            )
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=PromptIndexTargets.start(),
+                replacement=get_replacement,
+            ),
+        ]
+
+
+# Adapted from: https://github.com/huggingface/transformers/blob/v4.56.2/src/transformers/models/clip/modeling_clip.py
+class CLIPTextEmbeddings(nn.Module):
+    def __init__(self, config: CLIPTextConfig):
+        super().__init__()
+
+        embed_dim = config.hidden_size
+
+        self.token_embedding = VocabParallelEmbedding(config.vocab_size, embed_dim)
+        self.position_embedding = VocabParallelEmbedding(
+            config.max_position_embeddings, embed_dim
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            if input_ids is None:
+                raise ValueError(
+                    "Either `input_ids` or `input_embeds` must be provided"
+                )
+
+            inputs_embeds = self.token_embedding(input_ids)
+
+        position_embeddings = self.position_embedding(position_ids)
+        embeddings = inputs_embeds + position_embeddings
+
+        return embeddings
+
+
+class CLIPVisionEmbeddings(nn.Module):
+    def __init__(self, config: CLIPVisionConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+        assert self.image_size % self.patch_size == 0
+
+        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
+
+        self.patch_embedding = Conv2dLayer(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=False,
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches + 1
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions).expand((1, -1)),
+            persistent=False,
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        batch_size = pixel_values.shape[0]
+        target_dtype = self.patch_embedding.weight.dtype
+        patch_embeds = self.patch_embedding(
+            pixel_values.to(dtype=target_dtype)
+        )  # shape = [*, width, grid, grid]
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+        embeddings = embeddings + self.position_embedding(self.position_ids)
+
+        return embeddings
+
+
+class CLIPAttention(nn.Module):
+    def __init__(
+        self,
+        config: CLIPTextConfig | CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[Attention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                "embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.out_proj = RowParallelLinear(
+            input_size=self.embed_dim,
+            output_size=self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
+
+        self.attn = attn_cls(
+            self.num_heads_per_partition,
+            self.head_dim,
+            self.scale,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        """Input shape: Batch x Time x Channel"""
+
+        qkv_states, _ = self.qkv_proj(hidden_states)
+        query_states, key_states, value_states = qkv_states.chunk(3, dim=-1)
+        out = self.attn(query_states, key_states, value_states)
+        attn_output, _ = self.out_proj(out)
+
+        return attn_output, None
+
+
+class CLIPMLP(nn.Module):
+    def __init__(
+        self,
+        config: CLIPTextConfig | CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+
+        return hidden_states
+
+
+class CLIPEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: CLIPTextConfig | CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[Attention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+        self.self_attn = CLIPAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attn_cls=attn_cls,
+        )
+        self.layer_norm1 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.mlp = CLIPMLP(config, quant_config=quant_config, prefix=f"{prefix}.mlp")
+        self.layer_norm2 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states, _ = self.self_attn(hidden_states=hidden_states)
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class CLIPEncoder(nn.Module):
+    """
+    Transformer encoder consisting of `config.num_hidden_layers` self
+    attention layers. Each layer is a [`CLIPEncoderLayer`].
+
+    Args:
+        config: CLIPConfig
+    """
+
+    def __init__(
+        self,
+        config: CLIPTextConfig | CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        num_hidden_layers_override: int | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[Attention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+        self.layers = nn.ModuleList(
+            [
+                CLIPEncoderLayer(
+                    config=config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_cls=attn_cls,
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        return_all_hidden_states: bool,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        hidden_states_pool = [inputs_embeds]
+        hidden_states = inputs_embeds
+
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(hidden_states)
+            if return_all_hidden_states:
+                hidden_states_pool.append(hidden_states)
+        # If we have multiple feature sample layers, we return all hidden
+        # states in order and grab the ones we need by index.
+        if return_all_hidden_states:
+            return hidden_states_pool
+        return hidden_states
+
+
+class CLIPTextTransformer(nn.Module):
+    def __init__(
+        self,
+        config: CLIPTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = CLIPTextEmbeddings(config)
+
+        self.encoder = CLIPEncoder(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            attn_cls=Attention,
+        )
+
+        self.final_layer_norm = nn.LayerNorm(
+            embed_dim,
+            eps=config.layer_norm_eps,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings.token_embedding(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            input_ids=input_ids,
+            position_ids=position_ids,
+            inputs_embeds=inputs_embeds,
+        )
+
+        last_hidden_state = self.encoder(
+            inputs_embeds=hidden_states,
+            return_all_hidden_states=False,
+        )
+        last_hidden_state = self.final_layer_norm(last_hidden_state)
+
+        return last_hidden_state
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class CLIPVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = CLIPVisionEmbeddings(config)
+
+        # NOTE: This typo of "layrnorm" is not fixed on purpose to match
+        # the original transformers code and name of the model weights.
+        self.pre_layrnorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+        self.encoder = CLIPEncoder(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.encoder",
+            attn_cls=MultiHeadAttention,
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.encoder.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.encoder.layers)} layers."
+            )
+
+        # If possible, skip post_layernorm to conserve memory
+        if require_post_norm is None:
+            require_post_norm = len(self.encoder.layers) == num_hidden_layers
+
+        if require_post_norm:
+            self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+        else:
+            self.post_layernorm = None
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    @property
+    def device(self):
+        return next(self.parameters()).device
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        *,
+        select_layers: list[int] | None = None,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(pixel_values)
+        hidden_states = self.pre_layrnorm(hidden_states)
+
+        # Produces either the last layer output or all of the hidden states,
+        # depending on if we have select_layers or not
+        encoder_outputs = self.encoder(
+            inputs_embeds=hidden_states,
+            return_all_hidden_states=select_layers is not None,
+        )
+
+        # Handle post-norm (if applicable) and stacks feature layers if needed
+        encoder_outputs = resolve_visual_encoder_outputs(
+            encoder_outputs,
+            self.post_layernorm,
+            select_layers=select_layers,
+            max_possible_layers=self.config.num_hidden_layers,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.encoder.layers)
+
+        for name, loaded_weight in weights:
+            # post_layernorm is not needed in CLIPVisionModel
+            if name.startswith("post_layernorm") and self.post_layernorm is None:
+                continue
+
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("encoder.layers"):
+                layer_idx = int(name.split(".")[2])
+                if layer_idx >= layer_count:
+                    continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class CLIPVisionModel(nn.Module):
+    def __init__(
+        self,
+        config: CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.vision_model = CLIPVisionTransformer(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            require_post_norm=require_post_norm,
+            prefix=f"{prefix}.vision_model",
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        select_layers: list[int] | None = None,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        return self.vision_model(
+            pixel_values,
+            select_layers=select_layers,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+    @property
+    def dtype(self):
+        return self.vision_model.dtype
+
+    @property
+    def device(self):
+        return self.vision_model.device
+
+
+# Assume EOS token corresponds to LAST token in text model
+@default_pooling_type("LAST")
+@MULTIMODAL_REGISTRY.register_processor(
+    CLIPMultiModalProcessor,
+    info=CLIPProcessingInfo,
+    dummy_inputs=CLIPDummyInputsBuilder,
+)
+class CLIPEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
+    is_pooling_model = True
+
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: CLIPConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        text_config = config.text_config
+        vision_config = config.vision_config
+
+        self.projection_dim = config.projection_dim
+        self.text_embed_dim = text_config.hidden_size
+        self.vision_embed_dim = vision_config.hidden_size
+
+        self.text_model = CLIPTextTransformer(
+            text_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "text_model"),
+        )
+        self.vision_model = CLIPVisionTransformer(
+            vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.visual_projection = nn.Linear(
+            self.vision_embed_dim,
+            self.projection_dim,
+            bias=False,
+        )
+        self.text_projection = nn.Linear(
+            self.text_embed_dim,
+            self.projection_dim,
+            bias=False,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+        self.pooler_config = pooler_config
+
+        self.pooler = DispatchPooler(
+            {
+                "token_embed": Pooler.for_token_embed(pooler_config),
+                "embed": Pooler.for_embed(pooler_config),
+            }
+        )
+
+        # Assumes that self.forward is called after self.embed_input_ids
+        self._is_text_input = True
+
+    def get_text_features(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        pooled_output = self.text_model(
+            input_ids=input_ids,
+            position_ids=position_ids,
+            inputs_embeds=inputs_embeds,
+        )
+
+        text_features = self.text_projection(pooled_output)
+
+        return text_features
+
+    def get_image_features(
+        self,
+        pixel_values: torch.Tensor,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        if feature_select_strategy is None:
+            feature_select_strategy = _get_vision_feature_select_strategy(
+                self.pooler_config.pooling_type
+            )
+
+        pooled_output = self.vision_model(
+            pixel_values=pixel_values,
+            select_layers=None,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+        image_features = self.visual_projection(pooled_output)
+
+        return image_features
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> CLIPImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        if pixel_values is None:
+            return None
+
+        expected_h = expected_w = self.config.vision_config.image_size
+        return CLIPImagePixelInputs(
+            type="pixel_values",
+            data=pixel_values,
+            resolve_bindings={"h": expected_h, "w": expected_w},
+        )
+
+    def _process_image_inputs(self, inputs: CLIPImagePixelInputs) -> torch.Tensor:
+        pixel_values = inputs["data"]
+
+        return self.get_image_features(pixel_values)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.text_model
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        self._is_text_input = (
+            multimodal_embeddings is None or len(multimodal_embeddings) == 0
+        )
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        vision_embeddings = self._process_image_inputs(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            raise RuntimeError("PP is not supported for this model")
+
+        # Multimodal inputs
+        if not self._is_text_input:
+            return inputs_embeds
+
+        # Text inputs
+        return self.get_text_features(
+            input_ids=input_ids, position_ids=positions, inputs_embeds=inputs_embeds
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(
+            self,
+            skip_substrs=[".position_ids"],
+            ignore_unexpected_prefixes=["logit_scale."],
+        )
+
+        return loader.load_weights(weights)
diff --git a/model_executor/models/cohere2_vision.py b/model_executor/models/cohere2_vision.py
new file mode 100644
index 0000000..139ccba
--- /dev/null
+++ b/model_executor/models/cohere2_vision.py
@@ -0,0 +1,472 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from vllm/model_executor/models/aya_vision.py
+"""Command-A-Vision (Cohere2Vision) multimodal model implementation for vLLM."""
+
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+from torch import nn
+from transformers import BatchFeature, PretrainedConfig
+from transformers.models.cohere2_vision import Cohere2VisionConfig
+from transformers.models.cohere2_vision.image_processing_cohere2_vision_fast import (  # noqa: E501
+    get_optimal_tiled_canvas,
+)
+from transformers.models.cohere2_vision.processing_cohere2_vision import (
+    Cohere2VisionProcessor,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import MulAndSilu
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.awq import AWQConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict, MultiModalKwargsItems
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalFieldConfig,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+
+class Cohere2VisionImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - c: Number of channels
+        - h: Height of each image patch
+        - w: Width of each image patch
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("np", 3, "h", "w"),
+    ]
+
+    num_patches: Annotated[
+        torch.Tensor,
+        TensorShape("bn"),
+    ]
+
+
+class Cohere2VisionMultiModalProjector(nn.Module):
+    """Multimodal projector that maps vision features to text embedding space.
+
+    Uses pixel shuffle downsampling followed by SwiGLU activation.
+    """
+
+    def __init__(self, config: Cohere2VisionConfig, prefix: str = ""):
+        super().__init__()
+        self.downsample_factor = config.downsample_factor
+
+        # Input dimension after pixel shuffle downsampling
+        input_dim = config.vision_config.hidden_size * (config.downsample_factor**2)
+        # MergedColumnParallelLinear expects the intermediate size to be a list
+        # of sizes, so that it will load the weights as two separate linear
+        # layers before applying any parallelism.
+        # We need to divide the alignment intermediate size by 2 because
+        # the weights are merged weights of two linear layers for SwiGLU.
+        self.intermediate_size = config.alignment_intermediate_size // 2
+
+        self.linear_1 = MergedColumnParallelLinear(
+            input_dim,
+            [self.intermediate_size] * 2,
+            bias=True,
+            return_bias=False,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.act = MulAndSilu()
+        self.linear_2 = RowParallelLinear(
+            self.intermediate_size,
+            config.text_config.hidden_size,
+            bias=True,
+            return_bias=False,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(self, image_features):
+        image_features = self.pixel_shuffle(image_features)
+        hidden_states = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+    def pixel_shuffle(self, image_features: torch.Tensor) -> torch.Tensor:
+        """Apply pixel shuffle downsampling to reduce spatial dimensions.
+
+        Args:
+            image_features: Input tensor of shape [B, S, D] where S = H*W
+
+        Returns:
+            Downsampled tensor with increased channel dimension
+        """
+        height = width = int(image_features.shape[1] ** 0.5)
+        x = image_features.reshape(image_features.shape[0], width, height, -1)
+        n, h, w, c = x.size()
+        scale_factor = 1.0 / self.downsample_factor
+        nh = int(h * scale_factor)
+        nw = int(w * scale_factor)
+        x = x.reshape(n, nh, self.downsample_factor, nw, self.downsample_factor, c)
+        x = x.permute(0, 1, 3, 2, 4, 5).contiguous()
+        x = x.reshape(n, nh, nw, -1)
+        return x
+
+
+class Cohere2VisionProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> Cohere2VisionConfig:
+        return self.ctx.get_hf_config(Cohere2VisionConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Cohere2VisionProcessor:
+        return self.ctx.get_hf_processor(Cohere2VisionProcessor, **kwargs)
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_processor = self.get_image_processor()
+        height = image_processor.size["height"]
+        width = image_processor.size["width"]
+        max_patches = image_processor.max_patches
+        return ImageSize(height=height * max_patches, width=width)
+
+    def get_num_patches(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Cohere2VisionProcessor | None,
+    ) -> int:
+        """
+        Calculate the number of image patches for a given image.
+        Uses the HF processor to determine the actual number of patches.
+        """
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        image_processor = processor.image_processor
+
+        # The current implementation of get_number_of_image_patches
+        # is incorrect, so we patch it here.
+        # TODO: Revert once
+        # https://github.com/huggingface/transformers/pull/40312 is released.
+        # return image_processor.get_number_of_image_patches(image_height,
+        #                                                    image_width, {})
+
+        min_patches = image_processor.min_patches
+        max_patches = image_processor.max_patches
+        patch_size = image_processor.size
+        crop_to_patches = image_processor.crop_to_patches
+
+        if not crop_to_patches:
+            return 1
+
+        num_columns, num_rows = get_optimal_tiled_canvas(
+            (image_height, image_width),
+            (patch_size["height"], patch_size["width"]),
+            min_patches,
+            max_patches,
+        )
+        num_patches = num_columns * num_rows
+        if num_patches > 1:
+            num_patches += 1  # Thumbnail image
+
+        return num_patches
+
+
+class Cohere2VisionDummyInputsBuilder(
+    BaseDummyInputsBuilder[Cohere2VisionProcessingInfo]
+):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        image_size = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=image_size.width,
+                height=image_size.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Cohere2VisionMultiModalProcessor(
+    BaseMultiModalProcessor[Cohere2VisionProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt,
+            mm_data,
+            mm_kwargs,
+            tok_kwargs,
+        )
+
+        # Ensure num_patches is available for proper tensor splitting
+        if (
+            "num_patches" not in processed_outputs
+            and (images := mm_data.get("images")) is not None
+        ):
+            hf_processor = self.info.get_hf_processor(**mm_kwargs)
+
+            # Fallback calculation if HF processor didn't provide num_patches
+            parsed_images = (
+                self._get_data_parser()
+                .parse_mm_data({"image": images})
+                .get_items("image", ImageProcessorItems)
+            )
+
+            num_patches = [
+                self.info.get_num_patches(
+                    image_width=parsed_images.get_image_size(i).width,
+                    image_height=parsed_images.get_image_size(i).height,
+                    processor=hf_processor,
+                )
+                for i in range(len(parsed_images))
+            ]
+            processed_outputs["num_patches"] = torch.tensor(num_patches)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
+            num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_token = hf_processor.image_token
+        img_tokens_per_tile = int(hf_processor.patch_size**2)
+        img_line_break_token = hf_processor.img_line_break_token
+        boi_token = hf_processor.boi_token
+        eoi_token = hf_processor.eoi_token
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size: ImageSize = images.get_image_size(item_idx)
+
+            num_patches = self.info.get_num_patches(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                processor=hf_processor,
+            )
+            patch_tokens = image_token * img_tokens_per_tile + img_line_break_token
+            repl = f"{boi_token}{patch_tokens * num_patches}{eoi_token}"
+
+            return PromptUpdateDetails.select_text(repl, image_token)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=get_replacement,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Cohere2VisionMultiModalProcessor,
+    info=Cohere2VisionProcessingInfo,
+    dummy_inputs=Cohere2VisionDummyInputsBuilder,
+)
+class Cohere2VisionForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.language_model.": "language_model.model.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: Cohere2VisionConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.quant_config = quant_config
+        self.multimodal_config = multimodal_config
+        self._patch_quant_config(config, quant_config)
+
+        self.vision_tower = SiglipVisionModel(
+            config.vision_config,
+            quant_config,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.vocab_size = config.text_config.vocab_size
+        self.multi_modal_projector = Cohere2VisionMultiModalProjector(
+            config, prefix=maybe_prefix(prefix, "multi_modal_projector")
+        )
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=config.text_config.architectures,
+        )
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def _process_image_input(
+        self, image_input: Cohere2VisionImagePixelInputs, **kwargs
+    ) -> list[torch.Tensor]:
+        """Process image pixels through vision tower and projector.
+
+        Args:
+            image_input: Validated image input containing pixel values and
+                         patch counts
+
+        Returns:
+            List of flattened image embeddings, one per image
+        """
+        assert self.vision_tower is not None, "Vision tower is required"
+
+        pixel_values = image_input["pixel_values"]
+        num_patches = image_input["num_patches"]
+
+        # Extract visual features
+        image_features = self.vision_tower(pixel_values)
+
+        # Project to text embedding space
+        image_embeds = self.multi_modal_projector(image_features)
+
+        # Split and flatten embeddings per image
+        return [e.flatten(0, 2) for e in image_embeds.split(num_patches.tolist())]
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Cohere2VisionImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        num_patches = kwargs.pop("num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        assert image_embeds is None, "Cohere2Vision does not support image_embeds."
+
+        if pixel_values is None:
+            return None
+
+        return Cohere2VisionImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            num_patches=num_patches,
+            resolve_bindings={
+                "h": self.config.vision_config.image_size,
+                "w": self.config.vision_config.image_size,
+            },
+        )
+
+    def _patch_quant_config(
+        self, config: PretrainedConfig, quant_config: QuantizationConfig
+    ):
+        # the awq models from OpenGVLab missing `modules_to_not_convert`
+        # patch the quant_config to add `modules_to_not_convert` back
+        if isinstance(quant_config, AWQConfig):
+            text_config = config.text_config
+            llm_quant_config = getattr(text_config, "quantization_config", None)
+            if (not quant_config.modules_to_not_convert) and (
+                llm_quant_config is not None
+            ):
+                quant_config.modules_to_not_convert.append("vision_tower")
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input, **kwargs)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
diff --git a/model_executor/models/commandr.py b/model_executor/models/commandr.py
new file mode 100644
index 0000000..77bb178
--- /dev/null
+++ b/model_executor/models/commandr.py
@@ -0,0 +1,473 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 Cohere and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# This file is based on the LLama model definition file in transformers
+"""PyTorch Cohere model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import Cohere2Config, CohereConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+    row_parallel_weight_loader,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP, SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+@torch.compile(backend=current_platform.simple_compile_backend)
+def layer_norm_func(hidden_states, weight, variance_epsilon):
+    input_dtype = hidden_states.dtype
+    hidden_states = hidden_states.to(torch.float32)
+    mean = hidden_states.mean(-1, keepdim=True)
+    variance = (hidden_states - mean).pow(2).mean(-1, keepdim=True)
+    hidden_states = (hidden_states - mean) * torch.rsqrt(variance + variance_epsilon)
+    hidden_states = weight.to(torch.float32) * hidden_states
+    return hidden_states.to(input_dtype)
+
+
+class LayerNorm(nn.Module):
+    def __init__(self, param_shape=None, eps=1e-5):
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(param_shape))
+        self.variance_epsilon = eps
+        set_weight_attrs(self.weight, {"weight_loader": row_parallel_weight_loader})
+
+    def forward(self, hidden_states, residuals=None):
+        hidden_states = layer_norm_func(
+            hidden_states, self.weight, self.variance_epsilon
+        )
+        return hidden_states, residuals
+
+
+# Copied from transformers.models.llama.modeling_llama.LlamaMLP Llama->Cohere
+class CohereMLP(nn.Module):
+    def __init__(
+        self,
+        config: CohereConfig | Cohere2Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_up_proj = MergedColumnParallelLinear(
+            self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class CohereAttention(nn.Module):
+    def __init__(
+        self,
+        config: CohereConfig | Cohere2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        tp_size = get_tensor_model_parallel_world_size()
+        self.config = config
+        self.attention_dropout = config.attention_dropout
+        self.hidden_size = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.num_heads = self.total_num_heads // tp_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.max_position_embeddings = getattr(
+            config, "model_max_length", None
+        ) or getattr(config, "max_position_embeddings", 8192)
+        self.rope_theta = config.rope_theta
+        self.rope_scaling = getattr(config, "rope_scaling", None)
+        self.use_qk_norm = getattr(config, "use_qk_norm", False)
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=self.rope_scaling,
+            is_neox_style=False,
+        )
+
+        # Model v2 has interleaved sliding windows, v1 does not
+        self.v1 = isinstance(config, CohereConfig)
+
+        self.sliding_window = None
+        if not self.v1:
+            layer_idx = extract_layer_index(prefix)
+            if config.layer_types[layer_idx] == "sliding_attention":
+                self.sliding_window = config.sliding_window
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=self.sliding_window,
+            prefix=f"{prefix}.attn",
+        )
+        if self.use_qk_norm:
+            self.q_norm = LayerNorm(
+                param_shape=(self.num_heads, self.head_dim), eps=config.layer_norm_eps
+            )
+            self.k_norm = LayerNorm(
+                param_shape=(self.num_kv_heads, self.head_dim),
+                eps=config.layer_norm_eps,
+            )
+
+    def _apply_qk_norm(self, q, k):
+        q = q.view(*q.shape[:-1], -1, self.head_dim)
+        k = k.view(*k.shape[:-1], -1, self.head_dim)
+        q, _ = self.q_norm(q)
+        k, _ = self.k_norm(k)
+        q = q.view(*q.shape[:-2], -1)
+        k = k.view(*k.shape[:-2], -1)
+        return q, k
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        if self.use_qk_norm:
+            q, k = self._apply_qk_norm(q, k)
+        if self.v1 or self.sliding_window:
+            q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class CohereDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: CohereConfig | Cohere2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+
+        self.self_attn = CohereAttention(
+            config,
+            cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.mlp = CohereMLP(config, quant_config=quant_config, prefix=f"{prefix}.mlp")
+        self.input_layernorm = LayerNorm(
+            param_shape=(config.hidden_size), eps=config.layer_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states_attention = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states_mlp = self.mlp(hidden_states)
+        # Add everything together
+        hidden_states = residual + hidden_states_attention + hidden_states_mlp
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class CohereModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.quant_config = quant_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: CohereDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = LayerNorm(
+            param_shape=(config.hidden_size), eps=config.layer_norm_eps
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, shard_name, shard_id in stacked_params_mapping:
+                if shard_name not in name:
+                    continue
+                name = name.replace(shard_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+    # LoRA specific attributes
+    embedding_modules = {"embed_tokens": "input_embeddings"}
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        # currently all existing command R models have `tie_word_embeddings`
+        # enabled
+        assert config.tie_word_embeddings
+
+        self.quant_config = quant_config
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, scale=config.logit_scale
+        )
+        self.model = CohereModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        is_not_lora = hasattr(self.model.embed_tokens, "weight")
+        if is_not_lora:
+            logits = self.logits_processor(self.model.embed_tokens, hidden_states)
+        else:
+            logits = self.logits_processor(
+                self.model.embed_tokens.base_layer, hidden_states
+            )
+
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self, skip_prefixes=["lm_head", "rotary_emb.inv_freq"]
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/config.py b/model_executor/models/config.py
new file mode 100644
index 0000000..2ca5628
--- /dev/null
+++ b/model_executor/models/config.py
@@ -0,0 +1,503 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from copy import deepcopy
+from math import lcm
+from typing import TYPE_CHECKING
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.models import ModelRegistry
+from vllm.platforms import current_platform
+from vllm.utils.math_utils import cdiv, round_up
+from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
+from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec, MLAAttentionSpec
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+logger = init_logger(__name__)
+
+
+class VerifyAndUpdateConfig:
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        raise NotImplementedError
+
+
+class Gemma3TextModelConfig:
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        hf_config = vllm_config.model_config.hf_config
+        hf_config.is_causal = not hf_config.use_bidirectional_attention
+
+
+class GteNewModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "NewConfig"
+        assert config.hidden_act == "gelu"
+
+        config.hidden_act = "geglu"
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+            "max_position": config.max_position_embeddings,
+            "base": config.rope_theta,
+            "rope_scaling": getattr(config, "rope_scaling", None),
+        }
+
+
+class JambaForSequenceClassificationConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        pooler_config = vllm_config.model_config.pooler_config
+        if pooler_config.use_activation is None:
+            pooler_config.use_activation = False
+
+
+class JinaRobertaModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        model_config = vllm_config.model_config
+        config = model_config.hf_config
+
+        if config.position_embedding_type == "rotary":
+            assert config.__class__.__name__ == "XLMRobertaFlashConfig"
+
+            head_dim = config.hidden_size // config.num_attention_heads
+            max_position = config.max_position_embeddings
+            # Jina-embeddings-v3 has max_position_embeddings=8194, which will cause
+            # out-of-bound index issue at RoPE for long prompts with torch.compile,
+            # because it can't be divided by triton num_warps(default=4 or 8).
+            # To deal with this, we increase max_position to multiple of n_warps,
+            # so that triton kernel won't hit out-of-bound index in RoPE cache.
+            if not model_config.enforce_eager:
+                max_position = round_up(max_position, 8)
+
+            config.rotary_kwargs = {
+                "head_size": head_dim,
+                "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+                "max_position": max_position,
+                "base": getattr(config, "rope_theta", config.rotary_emb_base),
+                "rope_scaling": getattr(config, "rope_scaling", None),
+            }
+
+
+class NomicBertModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "NomicBertConfig"
+        assert config.activation_function in ["swiglu", "gelu"]
+        config.position_embedding_type = getattr(
+            config, "position_embedding_type", "rope"
+        )
+
+        if config.activation_function == "swiglu":
+            config.hidden_act = "silu"
+        else:
+            config.hidden_act = config.activation_function
+
+        assert config.mlp_fc1_bias == config.mlp_fc2_bias == config.qkv_proj_bias
+        config.bias = config.qkv_proj_bias
+
+        assert config.rotary_emb_scale_base is None
+        assert not config.rotary_emb_interleaved
+
+        config.layer_norm_eps = config.layer_norm_epsilon
+        config.intermediate_size = config.n_inner
+        config.hidden_size = config.n_embd
+        config.num_hidden_layers = config.n_layer
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        rotary_emb_dim = int(head_dim * config.rotary_emb_fraction)
+        max_trained_positions = getattr(config, "max_trained_positions", 2048)
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": rotary_emb_dim,
+            "max_position": max_trained_positions,
+            "base": getattr(config, "rope_theta", config.rotary_emb_base),
+            "rope_scaling": getattr(config, "rope_scaling", None),
+        }
+
+        # we ignore config.rotary_scaling_factor so that for datasets shorter
+        # than max_trained_positions 2048, the results are consistent
+        # with SentenceTransformer.
+        # The context extension uses vllm style rope_theta and rope_scaling.
+        # See #17785 #18755
+        if (
+            not vllm_config.model_config.hf_overrides
+            and vllm_config.model_config.original_max_model_len is None
+        ):
+            # Default
+            # Reset max_model_len to max_trained_positions.
+            # nomic-embed-text-v2-moe the length is set to 512
+            # by sentence_bert_config.json.
+            max_model_len_before = vllm_config.model_config.max_model_len
+            max_model_len = min(
+                vllm_config.model_config.max_model_len, max_trained_positions
+            )
+
+            vllm_config.recalculate_max_model_len(max_model_len)
+            logger.warning(
+                "Nomic context extension is disabled. "
+                "Changing max_model_len from %s to %s. "
+                "To enable context extension, see: "
+                "https://github.com/vllm-project/vllm/tree/main/examples/offline_inference/context_extension.html",
+                max_model_len_before,
+                vllm_config.model_config.max_model_len,
+            )
+        else:
+            # We need to re-verify max_model_len to avoid lengths
+            # greater than position_embedding.
+            model_config = vllm_config.model_config
+            hf_text_config = model_config.hf_text_config
+
+            if isinstance(model_config.hf_overrides, dict):
+                # hf_overrides_kw
+                max_model_len = model_config.hf_overrides.get(
+                    "max_model_len", vllm_config.model_config.max_model_len
+                )
+            else:
+                # hf_overrides_fn
+                # This might be overridden by sentence_bert_config.json.
+                max_model_len = vllm_config.model_config.max_model_len
+
+            # reset hf_text_config for recalculate_max_model_len.
+            if hasattr(hf_text_config, "max_model_len"):
+                delattr(hf_text_config, "max_model_len")
+            hf_text_config.max_position_embeddings = max_trained_positions
+            hf_text_config.rope_scaling = config.rotary_kwargs["rope_scaling"]
+
+            # The priority of sentence_bert_config.json is higher
+            # than max_position_embeddings
+            encoder_config = deepcopy(model_config.encoder_config)
+            encoder_config.pop("max_seq_length", None)
+            model_config.encoder_config = encoder_config
+
+            vllm_config.recalculate_max_model_len(max_model_len)
+
+
+class Qwen2ForProcessRewardModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        pooler_config = vllm_config.model_config.pooler_config
+
+        if pooler_config.step_tag_id is None:
+            pooler_config.step_tag_id = 151651
+
+
+class Qwen2ForRewardModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        pooler_config = vllm_config.model_config.pooler_config
+
+        if pooler_config.softmax is None:
+            pooler_config.softmax = False
+
+
+class Qwen3ForSequenceClassificationConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config.hf_config
+
+        is_original_qwen3_reranker = getattr(
+            config, "is_original_qwen3_reranker", False
+        )
+
+        if not is_original_qwen3_reranker:
+            return
+
+        tokens = getattr(config, "classifier_from_token", None)
+        assert tokens is not None and len(tokens) == 2, (
+            "Try loading the original Qwen3 Reranker?, see: "
+            "https://github.com/vllm-project/vllm/tree/main/examples/offline_inference/qwen3_reranker.py"
+        )
+        vllm_config.model_config.hf_config.method = "from_2_way_softmax"
+
+
+class JinaVLForSequenceClassificationConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config.hf_config
+        config.num_labels = 1
+        pooler_config = vllm_config.model_config.pooler_config
+        if pooler_config.logit_bias is None:
+            pooler_config.logit_bias = 2.65
+
+
+class SnowflakeGteNewModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "GteConfig"
+        assert config.hidden_act == "gelu"
+
+        config.hidden_act = "geglu"
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+            "max_position": config.max_position_embeddings,
+            "base": config.rope_theta,
+            "rope_scaling": getattr(config, "rope_scaling", None),
+        }
+
+
+class GptOssForCausalLMConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        structured_outputs_config = vllm_config.structured_outputs_config
+        if structured_outputs_config.reasoning_parser == "":
+            structured_outputs_config.reasoning_parser = "openai_gptoss"
+
+        # Increase the max capture size from 512 to 1024 for performance.
+        # NOTE(woosuk): This will increase the number of CUDA graphs
+        # from 67 to 83.
+        compilation_config = vllm_config.compilation_config
+        # Only override when the user has not set either of
+        # cudagraph_capture_sizes or max_cudagraph_capture_size.
+        if (
+            compilation_config.cudagraph_capture_sizes is None
+            and compilation_config.max_cudagraph_capture_size is None
+        ):
+            compilation_config.max_cudagraph_capture_size = 1024
+            logger.info(
+                "Overriding max cuda graph capture size to %d for performance.", 1024
+            )
+
+
+class MambaModelConfig(VerifyAndUpdateConfig):
+    @classmethod
+    def verify_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        """
+        Enable FULL_AND_PIECEWISE cuda graph mode by default (required
+        to get good performance for mamba layers in V1).
+
+        Args:
+            vllm_config: vLLM Config
+        """
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+
+        if cache_config.mamba_block_size is None:
+            cache_config.mamba_block_size = model_config.max_model_len
+
+        if cache_config.enable_prefix_caching:
+            if model_config.supports_mamba_prefix_caching:
+                logger.info(
+                    "Warning: Prefix caching is currently enabled. "
+                    "Its support for Mamba layers is experimental. "
+                    "Please report any issues you may observe."
+                )
+            else:
+                logger.info(
+                    "Hybrid or mamba-based model detected without "
+                    "support for prefix caching: disabling."
+                )
+                cache_config.enable_prefix_caching = False
+
+        # TODO(tdoublep): remove once cascade attention is supported
+        logger.info(
+            "Disabling cascade attention since it is not supported for hybrid models."
+        )
+        model_config.disable_cascade_attn = True
+
+
+class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
+    @classmethod
+    def verify_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        """
+        Ensure that page size of attention layers is greater than or
+        equal to the mamba layers. If not, automatically set the attention
+        block size to ensure that it is. If the attention page size is
+        strictly greater than the mamba page size, we pad the mamba page size
+        to make them equal.
+
+        Args:
+            vllm_config: vLLM Config
+        """
+        # Save the user input before it gets modified by MambaModelConfig
+        mamba_block_size = vllm_config.cache_config.mamba_block_size
+        # Enable FULL_AND_PIECEWISE by default
+        MambaModelConfig.verify_and_update_config(vllm_config)
+
+        cache_config = vllm_config.cache_config
+        model_config = vllm_config.model_config
+        parallel_config = vllm_config.parallel_config
+
+        if cache_config.cache_dtype == "auto":
+            kv_cache_dtype = model_config.dtype
+        else:
+            kv_cache_dtype = STR_DTYPE_TO_TORCH_DTYPE[cache_config.cache_dtype]
+
+        # get attention page size (for 1 token)
+        # Attention backend constraints:
+        # - FlashAttention (FA) requires block size to be multiple of 16
+        # - MLA (Multi-head Latent Attention) requires larger alignment:
+        #   * CUTLASS_MLA backend: kernel_block_size 128 alignment
+        #   * Other MLA backends: kernel_block_size 64 alignment
+        if model_config.use_mla:
+            use_cutlass_mla = envs.VLLM_ATTENTION_BACKEND == "CUTLASS_MLA"
+            kernel_block_alignment_size = 128 if use_cutlass_mla else 64
+            attn_page_size_1_token = MLAAttentionSpec(
+                block_size=1,
+                num_kv_heads=model_config.get_num_kv_heads(parallel_config),
+                head_size=model_config.get_head_size(),
+                dtype=kv_cache_dtype,
+            ).page_size_bytes
+        else:
+            kernel_block_alignment_size = 16
+            if (
+                current_platform.is_device_capability(100)
+                and model_config.get_head_size() == 256
+                and (
+                    envs.VLLM_ATTENTION_BACKEND is None
+                    or envs.VLLM_ATTENTION_BACKEND == "FLASHINFER"
+                )
+            ):
+                # https://github.com/flashinfer-ai/flashinfer/issues/1993 reports that`
+                # head size 256 and block size 16 is not supported on blackwell.
+                kernel_block_alignment_size = 32
+            attn_page_size_1_token = FullAttentionSpec(
+                block_size=1,
+                num_kv_heads=model_config.get_num_kv_heads(parallel_config),
+                head_size=model_config.get_head_size(),
+                dtype=kv_cache_dtype,
+            ).page_size_bytes
+
+        model_cls, _ = ModelRegistry.resolve_model_cls(
+            model_config.architecture,
+            model_config=model_config,
+        )
+
+        # get mamba page size
+        mamba_page_size = MambaSpec(
+            shapes=model_cls.get_mamba_state_shape_from_config(vllm_config),
+            dtypes=model_cls.get_mamba_state_dtype_from_config(vllm_config),
+            block_size=model_config.max_model_len,
+        ).page_size_bytes
+
+        # Model may be marked as is_hybrid
+        #  but mamba is skipped via config,
+        #  return directly
+        if mamba_page_size == 0:
+            return
+
+        if cache_config.enable_prefix_caching:
+            # With prefix caching, select attention block size to
+            # optimize for mamba kernel performance
+
+            # Mamba2 SSD kernel uses a chunk_size, e.g. 256
+            # Align the block to the kernel: use lowest multiple of chunk_size
+            # of attention tokens that would fit mamba_page_size:
+            # e.g. for mamba page size = 788kB
+            #          attn_1_token = 2kB -> fits ~394 tokens
+            #      then round up to a mulitple of 256 -> 512 tokens
+            # End result:
+            #  attn_block_size = 512
+            #  mamba_block_size = 512 (aligned to a multiple of chunk_size)
+            # TODO(tdoublep): this constraint can be relaxed fairly
+            # easily by changing the way we layout chunks in the
+            # mamba2 kernels.
+
+            base_chunk_size = mamba_block_size or model_config.get_mamba_chunk_size()
+            attn_tokens_per_mamba_state = cdiv(mamba_page_size, attn_page_size_1_token)
+            chunk_size = lcm(base_chunk_size, kernel_block_alignment_size)
+            attn_block_size = chunk_size * cdiv(attn_tokens_per_mamba_state, chunk_size)
+            cache_config.mamba_block_size = attn_block_size
+        else:
+            # Without prefix caching, select minimum valid attention block size
+            # to minimize mamba state padding
+
+            # Calculate minimum attention block size that satisfies both:
+            # 1. Backend alignment requirements (kernel_block_alignment_size)
+            # 2. Mamba page size compatibility (attn_page_size >= mamba_page_size)
+            attn_block_size = kernel_block_alignment_size * cdiv(
+                mamba_page_size, kernel_block_alignment_size * attn_page_size_1_token
+            )
+
+        # override attention block size if either (a) the
+        # user has not set it or (b) the user has set it
+        # too small.
+        if cache_config.block_size is None or cache_config.block_size < attn_block_size:
+            cache_config.block_size = attn_block_size
+            logger.info(
+                "Setting attention block size to %d tokens "
+                "to ensure that attention page size is >= mamba page size.",
+                attn_block_size,
+            )
+
+        # compute new attention page size
+        attn_page_size = cache_config.block_size * attn_page_size_1_token
+
+        assert attn_page_size >= mamba_page_size
+
+        if attn_page_size == mamba_page_size:
+            # don't need to pad mamba page size
+            return
+
+        # pad mamba page size to exactly match attention
+        if (
+            cache_config.mamba_page_size_padded is None
+            or cache_config.mamba_page_size_padded != attn_page_size
+        ):
+            cache_config.mamba_page_size_padded = attn_page_size
+            mamba_padding_pct = (
+                100 * (attn_page_size - mamba_page_size) / mamba_page_size
+            )
+            logger.info(
+                "Padding mamba page size by %.2f%% to ensure "
+                "that mamba page size and attention page size are "
+                "exactly equal.",
+                mamba_padding_pct,
+            )
+
+
+class DeepseekV32ForCausalLM(VerifyAndUpdateConfig):
+    @classmethod
+    def verify_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        """
+        Updated fp8 cache to custom "fp8_ds_mla" format for DeepSeekV32
+        """
+        hf_config = vllm_config.model_config.hf_config
+
+        # Mirror the check in vllm/model_executor/models/deepseek_v2.py
+        is_v32 = hasattr(hf_config, "index_topk")
+        assert is_v32
+
+        # For DeepSeekV3.2, a custom fp8 format is used when fp8 kv-cache is enabled.
+        cache_config = vllm_config.cache_config
+        if cache_config.cache_dtype.startswith("fp8"):
+            cache_config.cache_dtype = "fp8_ds_mla"
+            logger.info("Using custom fp8 kv-cache format for DeepSeekV3.2")
+        if cache_config.cache_dtype == "auto" or cache_config.cache_dtype == "bfloat16":
+            cache_config.cache_dtype = "auto"
+            logger.info("Using bfloat16 kv-cache for DeepSeekV3.2")
+
+
+MODELS_CONFIG_MAP: dict[str, type[VerifyAndUpdateConfig]] = {
+    "GteModel": SnowflakeGteNewModelConfig,
+    "GteNewModel": GteNewModelConfig,
+    "GteNewForSequenceClassification": GteNewModelConfig,
+    "Gemma3TextModel": Gemma3TextModelConfig,
+    "NomicBertModel": NomicBertModelConfig,
+    "Qwen2ForProcessRewardModel": Qwen2ForProcessRewardModelConfig,
+    "Qwen2ForRewardModel": Qwen2ForRewardModelConfig,
+    "Qwen3ForSequenceClassification": Qwen3ForSequenceClassificationConfig,
+    "XLMRobertaModel": JinaRobertaModelConfig,
+    "JinaVLForRanking": JinaVLForSequenceClassificationConfig,
+    "JambaForSequenceClassification": JambaForSequenceClassificationConfig,
+    "GptOssForCausalLM": GptOssForCausalLMConfig,
+    "MambaForCausalLM": MambaModelConfig,
+    "Mamba2ForCausalLM": MambaModelConfig,
+    "FalconMambaForCausalLM": MambaModelConfig,
+    "DeepseekV32ForCausalLM": DeepseekV32ForCausalLM,
+}
diff --git a/model_executor/models/dbrx.py b/model_executor/models/dbrx.py
new file mode 100644
index 0000000..528ef4f
--- /dev/null
+++ b/model_executor/models/dbrx.py
@@ -0,0 +1,482 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn as nn
+from transformers import DbrxConfig
+
+from vllm.attention import Attention
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class DbrxRouter(nn.Module):
+    """A Router implementation for DBRX that returns logits for each expert
+    per token.
+    """
+
+    def __init__(
+        self,
+        config: DbrxConfig,
+        params_dtype: torch.dtype | None = None,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_total_experts = config.ffn_config.moe_num_experts
+        self.d_model = config.d_model
+        self.layer = ReplicatedLinear(
+            self.d_model,
+            self.num_total_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        router_logits, _ = self.layer(hidden_states)
+        return router_logits
+
+
+class DbrxExperts(FusedMoE):
+    def __init__(
+        self,
+        config: DbrxConfig,
+        quant_config: QuantizationConfig | None = None,
+        params_dtype: torch.dtype | None = None,
+        prefix: str = "",
+    ):
+        super().__init__(
+            num_experts=config.ffn_config.moe_num_experts,
+            top_k=config.ffn_config.moe_top_k,
+            hidden_size=config.d_model,
+            intermediate_size=config.ffn_config.ffn_hidden_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            tp_size=get_tensor_model_parallel_world_size(),
+            prefix=prefix,
+        )
+        self.config = config
+        self.d_model = config.d_model
+        self.intermediate_size = self.config.ffn_config.ffn_hidden_size // self.tp_size
+
+    # Define custom weight loader for dbrx model
+    def weight_loader(
+        self,
+        param: nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        param_name: str,
+    ):
+        tp_rank = get_tensor_model_parallel_rank()
+        param_data = param.data
+        shard_size = self.intermediate_size
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        # DBRX uses GLU for each experts.
+        # GLU has 3 linear layers: w1, v1 and w2.
+        if weight_name.endswith("w1"):
+            if param_name.endswith("weight"):
+                loaded_weight = torch.reshape(
+                    loaded_weight,
+                    [-1, self.intermediate_size * self.tp_size, self.d_model],
+                )
+                param_data[:, 0:shard_size, :] = loaded_weight[:, shard, :]
+            elif param_name.endswith("weight_scale"):
+                param_data[:, 0] = loaded_weight
+            else:
+                param_data = loaded_weight
+        if weight_name.endswith("v1"):
+            if param_name.endswith("weight"):
+                loaded_weight = torch.reshape(
+                    loaded_weight,
+                    [-1, self.intermediate_size * self.tp_size, self.d_model],
+                )
+                param_data[:, shard_size : 2 * shard_size, :] = loaded_weight[
+                    :, shard, :
+                ]
+            elif param_name.endswith("weight_scale"):
+                param_data[:, 1] = loaded_weight
+            else:
+                param_data[:] = loaded_weight
+        if weight_name.endswith("w2"):
+            if param_name.endswith("weight"):
+                loaded_weight = torch.reshape(
+                    loaded_weight,
+                    [-1, self.intermediate_size * self.tp_size, self.d_model],
+                ).transpose(1, 2)
+                param_data[:] = loaded_weight[:, :, shard]
+            else:
+                param_data[:] = loaded_weight
+
+
+class DbrxMoE(nn.Module):
+    """A tensor-parallel MoE implementation for DBRX.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        config: DbrxConfig,
+        quant_config: QuantizationConfig | None = None,
+        params_dtype: torch.dtype | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.d_model = config.d_model
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        self.router = DbrxRouter(config, self.params_dtype)
+
+        self.experts = DbrxExperts(
+            config=config,
+            quant_config=quant_config,
+            params_dtype=self.params_dtype,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.d_model)
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.router(hidden_states)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+        return final_hidden_states.view(orig_shape)
+
+
+class DbrxAttention(nn.Module):
+    def __init__(
+        self,
+        config: DbrxConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.d_model = config.d_model
+        self.total_num_heads = config.n_heads
+        self.head_dim = self.d_model // self.total_num_heads
+        self.total_num_kv_heads = config.attn_config.kv_n_heads
+        self.clip_qkv = config.attn_config.clip_qkv
+        self.rope_theta = config.attn_config.rope_theta
+        self.max_position = config.max_seq_len
+
+        # pylint: disable=invalid-name
+        self.Wqkv = QKVParallelLinear(
+            self.d_model,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.Wqkv",
+        )
+        self.out_proj = RowParallelLinear(
+            self.d_model,
+            self.d_model,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+
+        tp_world_size = get_tensor_model_parallel_world_size()
+        self.tp_size = tp_world_size
+        assert self.total_num_heads % tp_world_size == 0
+        self.num_heads = self.total_num_heads // tp_world_size
+        if self.total_num_kv_heads >= tp_world_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_world_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_world_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_world_size)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.Wqkv(hidden_states)
+        if self.clip_qkv is not None:
+            qkv.clamp_(min=-self.clip_qkv, max=self.clip_qkv)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v)
+        hidden_states, _ = self.out_proj(attn_output)
+        return hidden_states
+
+
+class DbrxFusedNormAttention(nn.Module):
+    def __init__(
+        self,
+        config: DbrxConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.d_model = config.d_model
+        self.attn = DbrxAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.norm_1 = nn.LayerNorm(self.d_model)
+        self.norm_2 = nn.LayerNorm(self.d_model)
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.norm_1(hidden_states)
+        x = self.attn(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + x
+        residual = hidden_states
+        hidden_states = self.norm_2(hidden_states)
+        return hidden_states, residual
+
+
+class DbrxBlock(nn.Module):
+    def __init__(
+        self,
+        config: DbrxConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.norm_attn_norm = DbrxFusedNormAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.norm_attn_norm"
+        )
+        self.ffn = DbrxMoE(config, quant_config, prefix=f"{prefix}.ffn")
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        hidden_states, residual = self.norm_attn_norm(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+        )
+        hidden_states = self.ffn(hidden_states)
+        hidden_states = hidden_states + residual
+        return hidden_states
+
+
+class DbrxModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.quant_config = quant_config
+        self.wte = VocabParallelEmbedding(
+            config.vocab_size,
+            config.d_model,
+        )
+        self.start_layer, self.end_layer, self.blocks = make_layers(
+            config.n_layers,
+            lambda prefix: DbrxBlock(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.blocks",
+        )
+        self.norm_f = nn.LayerNorm(config.d_model, eps=1e-5)
+        for module in self.modules():
+            if hasattr(module, "bias") and isinstance(module.bias, nn.Parameter):
+                # Remove the bias term in Linear and LayerNorm.
+                module.register_parameter("bias", None)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.d_model
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors
+            hidden_states = intermediate_tensors["hidden_states"]
+        for block in islice(self.blocks, self.start_layer, self.end_layer):
+            hidden_states = block(position_ids, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.norm_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        expert_params_mapping = [
+            (
+                "w13" if weight_name in ["w1", "v1"] else "w2",
+                f"mlp.{weight_name}",
+            )
+            for weight_name in ["w1", "v1", "w2"]
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            if name.endswith(("w1", "w2", "v1")):
+                name = name + "_weight"
+            for param_name, weight_name in expert_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, weight_name, name)
+                break
+
+            else:
+                if is_pp_missing_parameter(name, self):
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class DbrxForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        if config.tie_word_embeddings:
+            raise ValueError("tie_word_embeddings is not supported for Dbrx models.")
+        self.quant_config = quant_config
+
+        self.transformer = DbrxModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.d_model,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/deepencoder.py b/model_executor/models/deepencoder.py
new file mode 100644
index 0000000..e62a57e
--- /dev/null
+++ b/model_executor/models/deepencoder.py
@@ -0,0 +1,673 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from
+# https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek-OCR-master/DeepSeek-OCR-vllm/deepencoder/sam_vary_sdpa.py
+
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import math
+from collections.abc import Iterable
+from functools import partial
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import CLIPVisionConfig
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .clip import CLIPEncoder, CLIPVisionEmbeddings
+
+
+class MLPBlock(nn.Module):
+    def __init__(
+        self,
+        embedding_dim: int,
+        mlp_dim: int,
+        act: type[nn.Module] = nn.GELU,
+    ) -> None:
+        super().__init__()
+        self.lin1 = nn.Linear(embedding_dim, mlp_dim)
+        self.lin2 = nn.Linear(mlp_dim, embedding_dim)
+        self.act = act()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.lin2(self.act(self.lin1(x)))
+
+
+# From https://github.com/facebookresearch/detectron2/blob/main/detectron2/layers/batch_norm.py # noqa
+# Itself from https://github.com/facebookresearch/ConvNeXt/blob/d1fa8f6fef0a165b27399986cc2bdacc92777e40/models/convnext.py#L119  # noqa
+class LayerNorm2d(nn.Module):
+    def __init__(self, num_channels: int, eps: float = 1e-6) -> None:
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(num_channels))
+        self.bias = nn.Parameter(torch.zeros(num_channels))
+        self.eps = eps
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        u = x.mean(1, keepdim=True)
+        s = (x - u).pow(2).mean(1, keepdim=True)
+        x = (x - u) / torch.sqrt(s + self.eps)
+        x = self.weight[:, None, None] * x + self.bias[:, None, None]
+        return x
+
+
+# This class and its supporting functions below lightly adapted from the ViTDet backbone available at: https://github.com/facebookresearch/detectron2/blob/main/detectron2/modeling/backbone/vit.py # noqa
+class ImageEncoderViT(nn.Module):
+    def __init__(
+        self,
+        img_size: int = 1024,
+        patch_size: int = 16,
+        in_chans: int = 3,
+        embed_dim: int = 768,
+        depth: int = 12,
+        num_heads: int = 12,
+        mlp_ratio: float = 4.0,
+        out_chans: int = 256,
+        qkv_bias: bool = True,
+        norm_layer: type[nn.Module] = nn.LayerNorm,
+        act_layer: type[nn.Module] = nn.GELU,
+        use_abs_pos: bool = True,
+        use_rel_pos: bool = False,
+        rel_pos_zero_init: bool = True,
+        window_size: int = 0,
+        global_attn_indexes: tuple[int, ...] = (),
+    ) -> None:
+        """
+        Args:
+            img_size (int): Input image size.
+            patch_size (int): Patch size.
+            in_chans (int): Number of input image channels.
+            embed_dim (int): Patch embedding dimension.
+            depth (int): Depth of ViT.
+            num_heads (int): Number of attention heads in each ViT block.
+            mlp_ratio (float): Ratio of mlp hidden dim to embedding dim.
+            qkv_bias (bool): If True, add a learnable bias to query, key, value.
+            norm_layer (nn.Module): Normalization layer.
+            act_layer (nn.Module): Activation layer.
+            use_abs_pos (bool): If True, use absolute positional embeddings.
+            use_rel_pos (bool): If True, add relative positional embeddings to the attention map.
+            rel_pos_zero_init (bool): If True, zero initialize relative positional parameters.
+            window_size (int): Window size for window attention blocks.
+            global_attn_indexes (list): Indexes for blocks using global attention.
+        """  # noqa: E501
+        super().__init__()
+        self.img_size = img_size
+
+        self.patch_embed = PatchEmbed(
+            kernel_size=(patch_size, patch_size),
+            stride=(patch_size, patch_size),
+            in_chans=in_chans,
+            embed_dim=embed_dim,
+        )
+
+        self.pos_embed: nn.Parameter | None = None
+        if use_abs_pos:
+            # Initialize absolute positional embedding with pretrain image size.
+            self.pos_embed = nn.Parameter(
+                torch.zeros(
+                    1, img_size // patch_size, img_size // patch_size, embed_dim
+                )
+            )
+
+        self.blocks = nn.ModuleList()
+        for i in range(depth):
+            block = Block(
+                dim=embed_dim,
+                num_heads=num_heads,
+                mlp_ratio=mlp_ratio,
+                qkv_bias=qkv_bias,
+                norm_layer=norm_layer,
+                act_layer=act_layer,
+                use_rel_pos=use_rel_pos,
+                rel_pos_zero_init=rel_pos_zero_init,
+                window_size=window_size if i not in global_attn_indexes else 0,
+                input_size=(img_size // patch_size, img_size // patch_size),
+            )
+            self.blocks.append(block)
+
+        self.neck = nn.Sequential(
+            nn.Conv2d(
+                embed_dim,
+                out_chans,
+                kernel_size=1,
+                bias=False,
+            ),
+            LayerNorm2d(out_chans),
+            nn.Conv2d(
+                out_chans,
+                out_chans,
+                kernel_size=3,
+                padding=1,
+                bias=False,
+            ),
+            LayerNorm2d(out_chans),
+        )
+
+        self.net_2 = nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1, bias=False)
+        self.net_3 = nn.Conv2d(
+            512, 1024, kernel_size=3, stride=2, padding=1, bias=False
+        )
+
+    def get_abs_pos(self, abs_pos: torch.Tensor, tgt_size: int):
+        dtype = abs_pos.dtype
+
+        src_size = abs_pos.size(1)
+
+        if src_size != tgt_size:
+            old_pos_embed = abs_pos.permute(0, 3, 1, 2)
+            old_pos_embed = old_pos_embed.to(torch.float32)
+            new_pos_embed = F.interpolate(
+                old_pos_embed,
+                size=(tgt_size, tgt_size),
+                mode="bicubic",
+                antialias=True,
+                align_corners=False,
+            ).to(dtype)
+            new_pos_embed = new_pos_embed.permute(0, 2, 3, 1)
+            return new_pos_embed
+        else:
+            return abs_pos
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.patch_embed(x)
+        if self.pos_embed is not None:
+            x = x + self.get_abs_pos(self.pos_embed, x.size(1))
+
+        for blk in self.blocks:
+            x = blk(x)
+
+        neck_output = self.neck(x.permute(0, 3, 1, 2))
+        conv2_output = self.net_2(neck_output)
+        conv3_output = self.net_3(conv2_output)
+
+        return conv3_output
+
+
+class Block(nn.Module):
+    """Transformer blocks with support of window attention and residual propagation
+    blocks"""
+
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = True,
+        norm_layer: type[nn.Module] = nn.LayerNorm,
+        act_layer: type[nn.Module] = nn.GELU,
+        use_rel_pos: bool = False,
+        rel_pos_zero_init: bool = True,
+        window_size: int = 0,
+        input_size: tuple[int, int] | None = None,
+    ) -> None:
+        """
+        Args:
+            dim (int): Number of input channels.
+            num_heads (int): Number of attention heads in each ViT block.
+            mlp_ratio (float): Ratio of mlp hidden dim to embedding dim.
+            qkv_bias (bool): If True, add a learnable bias to query, key, value.
+            norm_layer (nn.Module): Normalization layer.
+            act_layer (nn.Module): Activation layer.
+            use_rel_pos (bool): If True, add relative positional embeddings to the attention map.
+            rel_pos_zero_init (bool): If True, zero initialize relative positional parameters.
+            window_size (int): Window size for window attention blocks. If it equals 0, then
+                use global attention.
+            input_size (tuple(int, int) or None): Input resolution for calculating the relative
+                positional parameter size.
+        """  # noqa: E501
+        super().__init__()
+        self.norm1 = norm_layer(dim)
+        self.attn = RelPosAttention(
+            dim,
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            use_rel_pos=use_rel_pos,
+            rel_pos_zero_init=rel_pos_zero_init,
+            input_size=input_size if window_size == 0 else (window_size, window_size),
+        )
+
+        self.norm2 = norm_layer(dim)
+        self.mlp = MLPBlock(
+            embedding_dim=dim, mlp_dim=int(dim * mlp_ratio), act=act_layer
+        )
+
+        self.window_size = window_size
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        shortcut = x
+        x = self.norm1(x)
+        # Window partition
+        if self.window_size > 0:
+            H, W = x.shape[1], x.shape[2]
+            x, pad_hw = window_partition(x, self.window_size)
+
+        x = self.attn(x)
+        # Reverse window partition
+        if self.window_size > 0:
+            x = window_unpartition(x, self.window_size, pad_hw, (H, W))
+
+        x = shortcut + x
+        x = x + self.mlp(self.norm2(x))
+
+        return x
+
+
+class RelPosAttention(nn.Module):
+    """Multi-head Attention block with relative position embeddings."""
+
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int = 8,
+        qkv_bias: bool = True,
+        use_rel_pos: bool = False,
+        rel_pos_zero_init: bool = True,
+        input_size: tuple[int, int] | None = None,
+    ) -> None:
+        """
+        Args:
+            dim (int): Number of input channels.
+            num_heads (int): Number of attention heads.
+            qkv_bias (bool):  If True, add a learnable bias to query, key, value.
+            rel_pos_zero_init (bool): If True, zero initialize relative positional parameters.
+            input_size (tuple(int, int) or None): Input resolution for calculating the relative
+                positional parameter size.
+        """  # noqa: E501
+        super().__init__()
+        self.num_heads = num_heads
+        head_dim = dim // num_heads
+        self.scale = head_dim**-0.5
+
+        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
+        self.proj = nn.Linear(dim, dim)
+
+        self.use_rel_pos = use_rel_pos
+        if self.use_rel_pos:
+            assert input_size is not None, (
+                "Input size must be provided if using relative positional encoding."
+            )
+            # initialize relative positional embeddings
+            self.rel_pos_h = nn.Parameter(torch.zeros(2 * input_size[0] - 1, head_dim))
+            self.rel_pos_w = nn.Parameter(torch.zeros(2 * input_size[1] - 1, head_dim))
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        B, H, W, _ = x.shape
+        # qkv with shape (3, B, nHead, H * W, C)
+        qkv = (
+            self.qkv(x).reshape(B, H * W, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)
+        )
+        # q, k, v with shape (B * nHead, H * W, C)
+        q, k, v = qkv.reshape(3, B * self.num_heads, H * W, -1).unbind(0)
+
+        rel_h, rel_w = None, None
+        if self.use_rel_pos:
+            rel_h, rel_w = add_decomposed_rel_pos(
+                q, self.rel_pos_h, self.rel_pos_w, (H, W), (H, W)
+            )
+
+        q = q.view(B, self.num_heads, H * W, -1)
+        k = k.view(B, self.num_heads, H * W, -1)
+        v = v.view(B, self.num_heads, H * W, -1)
+
+        if self.use_rel_pos:
+            rel_h = rel_h.view(
+                B, self.num_heads, rel_h.size(1), rel_h.size(2), rel_h.size(3)
+            )
+            rel_w = rel_w.view(
+                B, self.num_heads, rel_w.size(1), rel_w.size(2), rel_w.size(3)
+            )
+            attn_bias = (rel_h + rel_w).view(
+                B, self.num_heads, rel_h.size(2), rel_h.size(3) * rel_w.size(4)
+            )
+            x = torch.nn.functional.scaled_dot_product_attention(
+                q, k, v, attn_mask=attn_bias
+            )
+        else:
+            x = torch.nn.functional.scaled_dot_product_attention(q, k, v)
+
+        x = (
+            x.view(B, self.num_heads, H, W, -1)
+            .permute(0, 2, 3, 1, 4)
+            .reshape(B, H, W, -1)
+        )
+
+        x = self.proj(x)
+
+        return x
+
+
+def window_partition(
+    x: torch.Tensor, window_size: int
+) -> tuple[torch.Tensor, tuple[int, int]]:
+    """
+    Partition into non-overlapping windows with padding if needed.
+    Args:
+        x (tensor): input tokens with [B, H, W, C].
+        window_size (int): window size.
+
+    Returns:
+        windows: windows after partition with [B * num_windows, window_size, window_size, C].
+        (Hp, Wp): padded height and width before partition
+    """  # noqa: E501
+    B, H, W, C = x.shape
+
+    pad_h = (window_size - H % window_size) % window_size
+    pad_w = (window_size - W % window_size) % window_size
+    if pad_h > 0 or pad_w > 0:
+        x = F.pad(x, (0, 0, 0, pad_w, 0, pad_h))
+    Hp, Wp = H + pad_h, W + pad_w
+
+    x = x.view(B, Hp // window_size, window_size, Wp // window_size, window_size, C)
+    windows = (
+        x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    )
+    return windows, (Hp, Wp)
+
+
+def window_unpartition(
+    windows: torch.Tensor,
+    window_size: int,
+    pad_hw: tuple[int, int],
+    hw: tuple[int, int],
+) -> torch.Tensor:
+    """
+    Window unpartition into original sequences and removing padding.
+    Args:
+        windows (tensor): input tokens with [B * num_windows, window_size, window_size, C].
+        window_size (int): window size.
+        pad_hw (Tuple): padded height and width (Hp, Wp).
+        hw (Tuple): original height and width (H, W) before padding.
+
+    Returns:
+        x: unpartitioned sequences with [B, H, W, C].
+    """  # noqa: E501
+    Hp, Wp = pad_hw
+    H, W = hw
+    B = windows.shape[0] // (Hp * Wp // window_size // window_size)
+    x = windows.view(
+        B, Hp // window_size, Wp // window_size, window_size, window_size, -1
+    )
+    x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(B, Hp, Wp, -1)
+
+    if Hp > H or Wp > W:
+        x = x[:, :H, :W, :].contiguous()
+    return x
+
+
+def get_rel_pos(q_size: int, k_size: int, rel_pos: torch.Tensor) -> torch.Tensor:
+    """
+    Get relative positional embeddings according to the relative positions of
+        query and key sizes.
+    Args:
+        q_size (int): size of query q.
+        k_size (int): size of key k.
+        rel_pos (Tensor): relative position embeddings (L, C).
+
+    Returns:
+        Extracted positional embeddings according to relative positions.
+    """
+    max_rel_dist = int(2 * max(q_size, k_size) - 1)
+    # Interpolate rel pos if needed.
+    if rel_pos.shape[0] != max_rel_dist:
+        # Interpolate rel pos.
+        dtype = rel_pos.dtype
+        rel_pos = rel_pos.to(torch.float32)
+        rel_pos_resized = F.interpolate(
+            rel_pos.reshape(1, rel_pos.shape[0], -1).permute(0, 2, 1),
+            size=max_rel_dist,
+            mode="linear",
+        ).to(dtype)
+        rel_pos_resized = rel_pos_resized.reshape(-1, max_rel_dist).permute(1, 0)
+    else:
+        rel_pos_resized = rel_pos
+
+    # Scale the coords with short length if shapes for q and k are different.
+    q_coords = torch.arange(q_size, device=rel_pos.device)[:, None] * max(
+        k_size / q_size, 1.0
+    )
+    k_coords = torch.arange(k_size, device=rel_pos.device)[None, :] * max(
+        q_size / k_size, 1.0
+    )
+    relative_coords = (q_coords - k_coords) + (k_size - 1) * max(q_size / k_size, 1.0)
+
+    return rel_pos_resized[relative_coords.long()]
+
+
+def add_decomposed_rel_pos(
+    q: torch.Tensor,
+    rel_pos_h: torch.Tensor,
+    rel_pos_w: torch.Tensor,
+    q_size: tuple[int, int],
+    k_size: tuple[int, int],
+) -> torch.Tensor:
+    """
+    Calculate decomposed Relative Positional Embeddings from :paper:`mvitv2`.
+    https://github.com/facebookresearch/mvit/blob/19786631e330df9f3622e5402b4a419a263a2c80/mvit/models/attention.py
+    Args:
+        q (Tensor): query q in the attention layer with shape (B, q_h * q_w, C).
+        rel_pos_h (Tensor): relative position embeddings (Lh, C) for height axis.
+        rel_pos_w (Tensor): relative position embeddings (Lw, C) for width axis.
+        q_size (Tuple): spatial sequence size of query q with (q_h, q_w).
+        k_size (Tuple): spatial sequence size of key k with (k_h, k_w).
+
+    Returns:
+        attn (Tensor): attention map with added relative positional embeddings.
+    """  # noqa: E501
+    q_h, q_w = q_size
+    k_h, k_w = k_size
+    Rh = get_rel_pos(q_h, k_h, rel_pos_h)
+    Rw = get_rel_pos(q_w, k_w, rel_pos_w)
+
+    B, _, dim = q.shape
+    r_q = q.reshape(B, q_h, q_w, dim)
+    rel_h = torch.einsum("bhwc,hkc->bhwk", r_q, Rh)
+    rel_w = torch.einsum("bhwc,wkc->bhwk", r_q, Rw)
+    rel_h = rel_h.unsqueeze(-1)
+    rel_w = rel_w.unsqueeze(-2)
+    rel_h = rel_h.reshape(B, q_h * q_w, k_h, 1)
+    rel_w = rel_w.reshape(B, q_h * q_w, 1, k_w)
+
+    return rel_h, rel_w
+
+
+class PatchEmbed(nn.Module):
+    """
+    Image to Patch Embedding.
+    """
+
+    def __init__(
+        self,
+        kernel_size: tuple[int, int] = (16, 16),
+        stride: tuple[int, int] = (16, 16),
+        padding: tuple[int, int] = (0, 0),
+        in_chans: int = 3,
+        embed_dim: int = 768,
+    ) -> None:
+        """
+        Args:
+            kernel_size (Tuple): kernel size of the projection layer.
+            stride (Tuple): stride of the projection layer.
+            padding (Tuple): padding size of the projection layer.
+            in_chans (int): Number of input image channels.
+            embed_dim (int): Patch embedding dimension.
+        """
+        super().__init__()
+
+        self.proj = nn.Conv2d(
+            in_chans, embed_dim, kernel_size=kernel_size, stride=stride, padding=padding
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.proj(x)
+        # B C H W -> B H W C
+        x = x.permute(0, 2, 3, 1)
+        return x
+
+
+# TODO(Isotr0py): use vision_config to build sam model
+def build_sam_vit_b():
+    return _build_sam(
+        encoder_embed_dim=768,
+        encoder_depth=12,
+        encoder_num_heads=12,
+        encoder_global_attn_indexes=[2, 5, 8, 11],
+    )
+
+
+def _build_sam(
+    encoder_embed_dim,
+    encoder_depth,
+    encoder_num_heads,
+    encoder_global_attn_indexes,
+):
+    prompt_embed_dim = 256
+    image_size = 1024
+    vit_patch_size = 16
+    image_encoder = ImageEncoderViT(
+        depth=encoder_depth,
+        embed_dim=encoder_embed_dim,
+        img_size=image_size,
+        mlp_ratio=4,
+        norm_layer=partial(torch.nn.LayerNorm, eps=1e-6),
+        num_heads=encoder_num_heads,
+        patch_size=vit_patch_size,
+        qkv_bias=True,
+        use_rel_pos=True,
+        global_attn_indexes=encoder_global_attn_indexes,
+        window_size=14,
+        out_chans=prompt_embed_dim,
+    )
+    return image_encoder
+
+
+class DeepCLIPVisionEmbeddings(CLIPVisionEmbeddings):
+    def get_abs_pos(self, abs_pos: torch.Tensor, tgt_size: int):
+        # abs_pos: L, C
+        # tgt_size: M
+        # return: M, C
+        dim = abs_pos.size(-1)
+        abs_pos_new = abs_pos.squeeze(0)
+        cls_token, old_pos_embed = abs_pos_new[:1], abs_pos_new[1:]
+
+        src_size = int(math.sqrt(abs_pos_new.shape[0] - 1))
+        tgt_size = int(math.sqrt(tgt_size))
+        dtype = abs_pos.dtype
+
+        if src_size != tgt_size:
+            old_pos_embed = (
+                old_pos_embed.view(1, src_size, src_size, dim)
+                .permute(0, 3, 1, 2)
+                .contiguous()
+            )
+            old_pos_embed = old_pos_embed.to(torch.float32)
+            new_pos_embed = F.interpolate(
+                old_pos_embed,
+                size=(tgt_size, tgt_size),
+                mode="bicubic",
+                antialias=True,
+                align_corners=False,
+            ).to(dtype)
+            new_pos_embed = new_pos_embed.permute(0, 2, 3, 1)
+            new_pos_embed = new_pos_embed.view(tgt_size * tgt_size, dim)
+            vision_pos_embed = torch.cat([cls_token, new_pos_embed], dim=0)
+            vision_pos_embed = vision_pos_embed.view(1, tgt_size * tgt_size + 1, dim)
+            return vision_pos_embed
+        else:
+            return abs_pos
+
+    def forward(
+        self, pixel_values: torch.Tensor, patch_embeds: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        batch_size = pixel_values.shape[0]
+        if patch_embeds is not None:
+            patch_embeds = patch_embeds
+        else:
+            patch_embeds = self.patch_embedding(pixel_values)
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+        embeddings = embeddings + self.get_abs_pos(
+            self.position_embedding(self.position_ids), embeddings.size(1)
+        )
+        return embeddings
+
+
+class DeepCLIPVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: CLIPVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = DeepCLIPVisionEmbeddings(config)
+
+        # NOTE: This typo of "layrnorm" is not fixed on purpose to match
+        # the original transformers code and name of the model weights.
+        self.pre_layrnorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+        self.transformer = CLIPEncoder(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.encoder",
+            attn_cls=MultiHeadAttention,
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.transformer.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.transformer.layers)} layers."
+            )
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    @property
+    def device(self):
+        return next(self.parameters()).device
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        patch_embeds: torch.Tensor | None = None,
+        *,
+        select_layers: list[int] | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(pixel_values, patch_embeds)
+        hidden_states = self.pre_layrnorm(hidden_states)
+
+        # Produces either the last layer output or all of the hidden states,
+        # depending on if we have select_layers or not
+        encoder_outputs = self.transformer(
+            inputs_embeds=hidden_states,
+            return_all_hidden_states=select_layers is not None,
+        )
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/deepseek_eagle.py b/model_executor/models/deepseek_eagle.py
new file mode 100644
index 0000000..3fb04c3
--- /dev/null
+++ b/model_executor/models/deepseek_eagle.py
@@ -0,0 +1,260 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.deepseek_v2 import (
+    DeepseekV2DecoderLayer,
+    DeepseekV3ForCausalLM,
+)
+from vllm.utils import init_logger
+
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
+
+logger = init_logger(__name__)
+
+
+@support_torch_compile
+class DeepseekV2Model(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        start_layer_id: int = 0,
+    ) -> None:
+        super().__init__()
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.vocab_size = self.config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "embed_tokens"),
+        )
+
+        self.layers = nn.ModuleList(
+            [
+                DeepseekV2DecoderLayer(
+                    vllm_config,
+                    prefix=maybe_prefix(prefix, f"layers.{i + start_layer_id}"),
+                    config=self.config,
+                )
+                for i in range(self.config.num_hidden_layers)
+            ]
+        )
+
+        self.fc = nn.Linear(
+            self.config.model.hidden_size * 2,
+            self.config.model.hidden_size,
+            bias=False,
+        )
+
+        self.enorm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
+        self.hnorm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
+        self.norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        input_embeds = self.embed_tokens(input_ids)
+
+        inputs = torch.cat(
+            [self.enorm(input_embeds), self.hnorm(hidden_states)], dim=-1
+        )
+        hidden_states = self.fc(inputs)
+        residual = None
+        for layer in self.layers:
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states, hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name_mapped = name.replace(weight_name, param_name)
+
+                # QKV fusion is optional, fall back to normal
+                # weight loading if it's not enabled
+                # if go with fusion option, then update name
+                if (
+                    param_name == "fused_qkv_a_proj"
+                ) and name_mapped not in params_dict:
+                    continue
+                else:
+                    name = name_mapped
+
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # if PP disabled then draft will share embed with target
+                    if get_pp_group().world_size == 1 and "embed_tokens." in name:
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class EagleDeepseekV3ForCausalLM(DeepseekV3ForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        quant_config = vllm_config.quant_config
+        target_layer_num = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+        self.model = DeepseekV2Model(
+            vllm_config=vllm_config, prefix="model", start_layer_id=target_layer_num
+        )
+
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            self.config.vocab_size, scale=logit_scale
+        )
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = self.config.num_hidden_layers
+        self.set_moe_parameters()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if inputs_embeds is not None:
+            raise NotImplementedError(
+                f"{type(self).__name__} does not support multimodal inputs yet."
+            )
+        return self.model(input_ids, positions, hidden_states)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        def transform(inputs):
+            name, loaded_weight = inputs
+            if "lm_head" not in name:
+                name = "model." + name
+            process_eagle_weight(self, name)
+            return name, loaded_weight
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=None,
+        )
+        loader.load_weights(map(transform, weights))
diff --git a/model_executor/models/deepseek_mtp.py b/model_executor/models/deepseek_mtp.py
new file mode 100644
index 0000000..e028dc4
--- /dev/null
+++ b/model_executor/models/deepseek_mtp.py
@@ -0,0 +1,360 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+
+from .deepseek_v2 import (
+    DeepseekV2DecoderLayer,
+    DeepseekV2MixtureOfExperts,
+    DeepseekV2MoE,
+    get_spec_layer_idx_from_weight_name,
+)
+from .interfaces import SupportsPP
+from .utils import maybe_prefix
+
+logger = init_logger(__name__)
+
+
+class SharedHead(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "head"),
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        return self.norm(hidden_states)
+
+
+class DeepSeekMultiTokenPredictorLayer(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str) -> None:
+        super().__init__()
+
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.config = config
+        quant_config = vllm_config.quant_config
+
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.eh_proj = nn.Linear(config.hidden_size * 2, config.hidden_size, bias=False)
+
+        self.device = current_platform.device_type
+
+        self.is_v32 = hasattr(config, "index_topk")
+        if self.is_v32:
+            topk_tokens = config.index_topk
+            topk_indices_buffer = torch.empty(
+                vllm_config.scheduler_config.max_num_batched_tokens,
+                topk_tokens,
+                dtype=torch.int32,
+                device=self.device,
+            )
+        else:
+            topk_indices_buffer = None
+
+        self.shared_head = SharedHead(
+            config=config, prefix=prefix, quant_config=quant_config
+        )
+        self.mtp_block = DeepseekV2DecoderLayer(
+            vllm_config,
+            prefix,
+            config=self.config,
+            topk_indices_buffer=topk_indices_buffer,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        # masking inputs at position 0, as not needed by MTP
+        inputs_embeds = torch.where(positions.unsqueeze(-1) == 0, 0, inputs_embeds)
+        inputs_embeds = self.enorm(inputs_embeds)
+        previous_hidden_states = self.hnorm(previous_hidden_states)
+
+        hidden_states = self.eh_proj(
+            torch.cat([inputs_embeds, previous_hidden_states], dim=-1)
+        )
+
+        hidden_states, residual = self.mtp_block(
+            positions=positions, hidden_states=hidden_states, residual=None
+        )
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+class DeepSeekMultiTokenPredictor(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+        # to map the exact layer index from weights
+
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): DeepSeekMultiTokenPredictorLayer(
+                    vllm_config, f"{prefix}.layers.{idx}"
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        return self.layers[str(self.mtp_start_layer_idx + current_step_idx)](
+            input_ids,
+            positions,
+            previous_hidden_states,
+            inputs_embeds,
+            current_step_idx,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        mtp_layer = self.layers[str(self.mtp_start_layer_idx + current_step_idx)]
+        logits = self.logits_processor(
+            mtp_layer.shared_head.head, mtp_layer.shared_head(hidden_states)
+        )
+        return logits
+
+
+@support_torch_compile
+class DeepSeekMTP(nn.Module, SupportsPP, DeepseekV2MixtureOfExperts):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = DeepSeekMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+        self.num_moe_layers = self.config.num_nextn_predict_layers
+        self.num_expert_groups = self.config.n_group
+
+        self.moe_layers = []
+        self.moe_mlp_layers = []
+        example_moe = None
+        for layer in self.model.layers.values():
+            assert isinstance(layer, DeepSeekMultiTokenPredictorLayer)
+            layer = layer.mtp_block
+            assert isinstance(layer, DeepseekV2DecoderLayer)
+            if isinstance(layer.mlp, DeepseekV2MoE):
+                example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
+                self.moe_layers.append(layer.mlp.experts)
+        self.extract_moe_parameters(example_moe)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, inputs_embeds, spec_step_idx
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, spec_step_idx)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        ]
+
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is None:
+                continue
+            name = self._rewrite_spec_layer_name(spec_layer, name)
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name_mapped = name.replace(weight_name, param_name)
+
+                # QKV fusion is optional, fall back to normal
+                # weight loading if it's not enabled
+                if (
+                    param_name == "fused_qkv_a_proj"
+                ) and name_mapped not in params_dict:
+                    continue
+                else:
+                    name = name_mapped
+
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    # According to DeepSeek-V3 Technical Report, MTP modules
+                    # shares embedding layer. We only load the first weights.
+                    if (
+                        spec_layer != self.model.mtp_start_layer_idx
+                        and ".layers" not in name
+                    ):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        and rename shared layer weights to be top level.
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        shared_weight_names = ["embed_tokens"]
+        spec_layer_weight = False
+        shared_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                if weight_name in shared_weight_names:
+                    shared_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                f"model.layers.{spec_layer}.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        elif shared_weight:
+            # treat shared weights as top level weights
+            name = name.replace(f"model.layers.{spec_layer}.", "model.")
+        return name
diff --git a/model_executor/models/deepseek_ocr.py b/model_executor/models/deepseek_ocr.py
new file mode 100644
index 0000000..8179f91
--- /dev/null
+++ b/model_executor/models/deepseek_ocr.py
@@ -0,0 +1,593 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Deepseek-OCR model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, CLIPVisionConfig
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.models.interfaces import (
+    MultiModalEmbeddings,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sampling_params import SamplingParams
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekVLV2Config
+from vllm.transformers_utils.processors.deepseek_ocr import (
+    BASE_SIZE,
+    CROP_MODE,
+    IMAGE_SIZE,
+    DeepseekOCRProcessor,
+    count_tiles,
+)
+from vllm.transformers_utils.tokenizer import cached_tokenizer_from_config
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+from vllm.v1.sample.logits_processor import (
+    AdapterLogitsProcessor,
+    RequestLogitsProcessor,
+)
+
+from .deepencoder import DeepCLIPVisionTransformer, build_sam_vit_b
+from .deepseek_vl2 import MlpProjector
+
+# The image token id may be various
+_IMAGE_TOKEN = "<image>"
+
+
+class DeepseekOCRImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of images
+        - p: Number of patches
+        - base_size: Base size of the processor
+        - image_size: Image size of the processor
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 3, "base_size", "base_size", dynamic_dims={"bnp"}),
+    ]
+    images_crop: Annotated[
+        torch.Tensor,
+        TensorShape("bnp", 3, "image_size", "image_size", dynamic_dims={"bnp"}),
+    ]
+    images_spatial_crop: Annotated[torch.Tensor, TensorShape("bn", 2)]
+
+
+class NoRepeatNGramLogitsProcessor:
+    def __init__(
+        self,
+        ngram_size: int,
+        window_size: int,
+        whitelist_token_ids: set[int] | None = None,
+    ):
+        self.ngram_size = ngram_size
+        self.window_size = window_size
+        self.whitelist_token_ids = whitelist_token_ids or set()
+
+    def __call__(
+        self,
+        output_ids: list[int],
+        logits: torch.Tensor,
+    ) -> torch.Tensor:
+        if len(output_ids) < self.ngram_size:
+            return logits
+
+        current_prefix = tuple(output_ids[-(self.ngram_size - 1) :])
+
+        search_start = max(0, len(output_ids) - self.window_size)
+        search_end = len(output_ids) - self.ngram_size + 1
+
+        banned_tokens = set()
+        for i in range(search_start, search_end):
+            ngram = tuple(output_ids[i : i + self.ngram_size])
+            if ngram[:-1] == current_prefix:
+                banned_tokens.add(ngram[-1])
+
+        banned_tokens = banned_tokens - self.whitelist_token_ids
+
+        if banned_tokens:
+            logits[list(banned_tokens)] = -float("inf")
+
+        return logits
+
+
+class NGramPerReqLogitsProcessor(AdapterLogitsProcessor):
+    """Example of overriding the wrapper class `__init__()` in order to utilize
+    info about the device type"""
+
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        ngram_size = params.extra_args and params.extra_args.get("ngram_size")
+        window_size = params.extra_args and params.extra_args.get("window_size", 100)
+        whitelist_token_ids = params.extra_args and params.extra_args.get(
+            "whitelist_token_ids", None
+        )
+        # if ngram_size is not provided, skip validation because the processor
+        # will not be used.
+        if ngram_size is None:
+            return None
+
+        if not isinstance(ngram_size, int) or ngram_size <= 0:
+            raise ValueError(
+                f"`ngram_size` has to be a strictly positive integer, got {ngram_size}."
+            )
+        if not isinstance(window_size, int) or window_size <= 0:
+            raise ValueError(
+                "`window_size` has to be a strictly positive integer, "
+                f"got {window_size}."
+            )
+        if whitelist_token_ids is not None and not isinstance(
+            whitelist_token_ids, Iterable
+        ):
+            raise ValueError(
+                "`whitelist_token_ids` has to be a sequence of integers, "
+                f"got {whitelist_token_ids}."
+            )
+
+    def is_argmax_invariant(self) -> bool:
+        return False
+
+    def new_req_logits_processor(
+        self,
+        params: SamplingParams,
+    ) -> RequestLogitsProcessor | None:
+        ngram_size = params.extra_args and params.extra_args.get("ngram_size")
+        window_size = params.extra_args and params.extra_args.get("window_size", 100)
+        whitelist_token_ids = params.extra_args and params.extra_args.get(
+            "whitelist_token_ids", None
+        )
+        if ngram_size is None:
+            return None
+
+        whitelist_token_ids = set(whitelist_token_ids) if whitelist_token_ids else None
+        return NoRepeatNGramLogitsProcessor(
+            ngram_size=ngram_size,
+            window_size=window_size,
+            whitelist_token_ids=whitelist_token_ids,
+        )
+
+
+class DeepseekOCRProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(DeepseekVLV2Config)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(DeepseekOCRProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self, *, image_width: int, image_height: int, cropping: bool = True
+    ) -> int:
+        image_size = IMAGE_SIZE
+        base_size = BASE_SIZE
+        patch_size = 16
+        downsample_ratio = 4
+
+        if CROP_MODE:
+            if image_width <= 640 and image_height <= 640:
+                crop_ratio = [1, 1]
+            else:
+                # find the closest aspect ratio to the target
+                crop_ratio = count_tiles(
+                    image_width, image_height, image_size=IMAGE_SIZE
+                )
+
+            num_width_tiles, num_height_tiles = crop_ratio
+        else:
+            num_width_tiles = num_height_tiles = 1
+
+        h = w = math.ceil((base_size // patch_size) / downsample_ratio)
+
+        h2 = w2 = math.ceil((image_size // patch_size) / downsample_ratio)
+
+        global_views_tokens = h * (w + 1)
+        if num_width_tiles > 1 or num_height_tiles > 1:
+            local_views_tokens = (num_height_tiles * h2) * (num_width_tiles * w2 + 1)
+        else:
+            local_views_tokens = 0
+
+        return global_views_tokens + local_views_tokens + 1
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        if IMAGE_SIZE == 1024 and BASE_SIZE == 1280:
+            return ImageSize(width=1024 * 2, height=1024 * 2)
+        return ImageSize(width=640 * 2, height=640 * 2)
+
+
+class DeepseekOCRDummyInputsBuilder(BaseDummyInputsBuilder[DeepseekOCRProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        max_image_size = self.info.get_image_size_with_most_features()
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size.width,
+                height=max_image_size.height,
+                num_images=num_images,
+            )
+        }
+
+
+class DeepseekOCRMultiModalProcessor(
+    BaseMultiModalProcessor[DeepseekOCRProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if mm_data:
+            processed_outputs = self.info.ctx.call_hf_processor(
+                self.info.get_hf_processor(**mm_kwargs),
+                dict(prompt=prompt, **mm_data),
+                mm_kwargs,
+            )
+
+        else:
+            tokenizer = self.info.get_tokenizer()
+            processed_outputs = tokenizer(
+                prompt, add_special_tokens=True, return_tensors="pt"
+            )
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        images_spatial_crop = hf_inputs.get("images_spatial_crop", torch.empty((0, 2)))
+        is_tiled = (images_spatial_crop[:, 0] > 1) | (images_spatial_crop[:, 1] > 1)
+        patches_per_image = torch.where(is_tiled, images_spatial_crop.prod(dim=-1), 0)
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            images_spatial_crop=MultiModalFieldConfig.batched("image"),
+            images_crop=MultiModalFieldConfig.flat_from_sizes(
+                "image", patches_per_image
+            ),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        image_token_id = hf_processor.image_token_id
+        assert isinstance(image_token_id, int)
+
+        def get_replacement_deepseek_vl2(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                size = images.get_image_size(item_idx)
+
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=size.width,
+                    image_height=size.height,
+                    cropping=CROP_MODE,
+                )
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement_deepseek_vl2,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    DeepseekOCRMultiModalProcessor,
+    info=DeepseekOCRProcessingInfo,
+    dummy_inputs=DeepseekOCRDummyInputsBuilder,
+)
+class DeepseekOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # map prefix for language backbone
+            "model.embed_tokens.": "language_model.model.embed_tokens.",
+            "model.layers.": "language_model.model.layers.",
+            "model.norm.": "language_model.model.norm.",
+            "lm_head.": "language_model.lm_head.",
+            # remove "model." prefix for other components
+            "model.": "",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: DeepseekVLV2Config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.vision_config = config.vision_config
+        self.projector_config = config.projector_config
+        self.text_config = config.text_config
+
+        model_config = vllm_config.model_config
+        tokenizer = cached_tokenizer_from_config(model_config)
+        self.image_token_id = tokenizer.vocab[_IMAGE_TOKEN]
+
+        self.sam_model = build_sam_vit_b()
+        clip_vision_config = CLIPVisionConfig(
+            hidden_size=1024,
+            intermediate_size=4096,
+            num_attention_heads=16,
+            num_hidden_layers=24,
+            image_size=224,
+            patch_size=14,
+            projection_dim=512,
+            layer_norm_eps=1e-5,
+        )
+        self.vision_model = DeepCLIPVisionTransformer(
+            config=clip_vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.projector = MlpProjector(self.projector_config)
+        self.tile_tag = config.tile_tag
+        self.global_view_pos = config.global_view_pos
+
+        # special token for image token sequence format
+        n_embed = self.projector_config.n_embed
+        embed_std = 1 / torch.sqrt(torch.tensor(n_embed, dtype=torch.float32))
+        if self.tile_tag == "2D":
+            # <|view_separator|>, <|\n|>
+            self.image_newline = nn.Parameter(torch.randn(n_embed) * embed_std)
+            # This is a typo in original implementation
+            self.view_seperator = nn.Parameter(torch.randn(n_embed) * embed_std)
+        else:
+            raise ValueError(
+                f"Only 2D tile_tag is supported currently, got: {self.tile_tag}"
+            )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=self.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> DeepseekOCRImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        images_spatial_crop = kwargs.pop("images_spatial_crop", None)
+        images_crop = kwargs.pop("images_crop", None)
+
+        if pixel_values is None or torch.sum(pixel_values).item() == 0:
+            return None
+
+        if pixel_values is not None:
+            base_size = self.vision_config.image_size
+            return DeepseekOCRImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                images_crop=images_crop,
+                images_spatial_crop=images_spatial_crop,
+                resolve_bindings={
+                    "base_size": base_size,
+                },
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _encode_global_features(self, image_tensor: torch.Tensor) -> torch.Tensor:
+        global_features_1 = self.sam_model(image_tensor)
+        global_features_2 = self.vision_model(image_tensor, global_features_1)
+        features = torch.cat(
+            (
+                global_features_2[:, 1:],
+                global_features_1.flatten(2).permute(0, 2, 1),
+            ),
+            dim=-1,
+        )
+        features = self.projector(features)
+
+        _, hw, dim = features.shape
+        side = int(hw**0.5)
+
+        features = features.view(side, side, dim)
+        newline = self.image_newline[None, None, :].expand(side, 1, dim)
+        features = torch.cat([features, newline], dim=1)
+        return features.view(-1, dim)
+
+    def _encode_local_features(
+        self, patches: torch.Tensor, crop_shape: torch.Tensor
+    ) -> torch.Tensor | None:
+        if torch.sum(patches).item() == 0:
+            return None
+
+        local_features_1 = self.sam_model(patches)
+        local_features_2 = self.vision_model(patches, local_features_1)
+        features = torch.cat(
+            (
+                local_features_2[:, 1:],
+                local_features_1.flatten(2).permute(0, 2, 1),
+            ),
+            dim=-1,
+        )
+        features = self.projector(features)
+
+        _, hw, dim = features.shape
+        patch_side = int(hw**0.5)
+
+        width_tiles = int(crop_shape[0].item())
+        height_tiles = int(crop_shape[1].item())
+
+        features = (
+            features.view(height_tiles, width_tiles, patch_side, patch_side, dim)
+            .permute(0, 2, 1, 3, 4)
+            .reshape(height_tiles * patch_side, width_tiles * patch_side, dim)
+        )
+        newline = self.image_newline[None, None, :].expand(
+            height_tiles * patch_side, 1, dim
+        )
+        features = torch.cat([features, newline], dim=1)
+
+        return features.view(-1, dim)
+
+    def _pixel_values_to_embedding(
+        self,
+        pixel_values: torch.Tensor,
+        images_crop: torch.Tensor,
+        images_spatial_crop: torch.Tensor,
+    ) -> NestedTensors:
+        images_in_this_batch = []
+
+        is_tiled = (images_spatial_crop[:, 0] > 1) | (images_spatial_crop[:, 1] > 1)
+        patches_per_image = torch.where(is_tiled, images_spatial_crop.prod(dim=-1), 0)
+        images_crop = images_crop.split(patches_per_image.tolist())
+        for jdx in range(images_spatial_crop.size(0)):
+            patches = images_crop[jdx]
+            image_ori = pixel_values[[jdx]]
+            crop_shape = images_spatial_crop[jdx]
+
+            global_features = self._encode_global_features(image_ori)
+            local_features = self._encode_local_features(patches, crop_shape)
+
+            if local_features is not None:
+                combined = torch.cat(
+                    [local_features, global_features, self.view_seperator[None, :]],
+                    dim=0,
+                )
+            else:
+                combined = torch.cat(
+                    [global_features, self.view_seperator[None, :]], dim=0
+                )
+
+            images_in_this_batch.append(combined)
+
+        return images_in_this_batch
+
+    def _process_image_input(
+        self, image_input: DeepseekOCRImagePixelInputs
+    ) -> torch.Tensor:
+        pixel_values = image_input.data
+        images_crop = image_input.images_crop
+        images_spatial_crop = image_input.images_spatial_crop.to(dtype=torch.long)
+
+        vision_features = self._pixel_values_to_embedding(
+            pixel_values=pixel_values,
+            images_crop=images_crop,
+            images_spatial_crop=images_spatial_crop,
+        )
+
+        return vision_features
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return None
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+        return autoloaded_weights
diff --git a/model_executor/models/deepseek_v2.py b/model_executor/models/deepseek_v2.py
new file mode 100644
index 0000000..a67baff
--- /dev/null
+++ b/model_executor/models/deepseek_v2.py
@@ -0,0 +1,1758 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 DeepSeek-AI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only DeepseekV2/DeepseekV3 model."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import DeepseekV2Config, DeepseekV3Config
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.attention import Attention
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.attention.ops.common import pack_seq_triton, unpack_seq_triton
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.forward_context import get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import LayerNorm, RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    per_token_group_quant_fp8,
+)
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.deep_gemm import fp8_mqa_logits, fp8_paged_mqa_logits
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.mla.indexer import (
+    DeepseekV32IndexerBackend,
+    DeepseekV32IndexerMetadata,
+)
+from vllm.v1.kv_cache_interface import KVCacheSpec, MLAAttentionSpec
+
+from .interfaces import MixtureOfExperts, SupportsEagle, SupportsLoRA, SupportsPP
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+if current_platform.is_cuda_alike():
+    from vllm import _custom_ops as ops
+elif current_platform.is_xpu():
+    from vllm._ipex_ops import ipex_ops as ops
+import ixformer.inference.functions as ixfops
+
+logger = init_logger(__name__)
+
+
+class DeepseekAttention(nn.Module):
+    """Normal MHA implementation used by Deepseek v1."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: DeepseekV2Config | DeepseekV3Config,
+        hidden_size: int,
+        num_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class DeepseekV2MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        is_sequence_parallel=False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        # If is_sequence_parallel, the input and output tensors are sharded
+        # across the ranks within the tp_group. In this case the weights are
+        # replicated and no collective ops are needed.
+        # Otherwise we use standard TP with an allreduce at the end.
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class DeepseekV2MoE(nn.Module):
+    def __init__(
+        self,
+        config: DeepseekV2Config | DeepseekV3Config,
+        parallel_config: ParallelConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", 1.0)
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.n_routed_experts
+        self.n_shared_experts: int = config.n_shared_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        if getattr(config, "topk_method", None) == "noaux_tc":
+            self.gate.e_score_correction_bias = nn.Parameter(
+                torch.empty(config.n_routed_experts)
+            )
+        else:
+            self.gate.e_score_correction_bias = None
+
+        # Load balancing settings.
+        eplb_config = parallel_config.eplb_config
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.is_rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        if config.n_shared_experts is None or self.is_rocm_aiter_moe_enabled:
+            self.shared_experts = None
+        else:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+
+            self.shared_experts = DeepseekV2MLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                is_sequence_parallel=self.is_sequence_parallel,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            gate=self.gate,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=getattr(config, "n_group", 1),
+            topk_group=getattr(config, "topk_group", 1),
+            prefix=f"{prefix}.experts",
+            scoring_func=getattr(config, "scoring_func", "softmax"),
+            # we do scaling outside, set factor to 1.0 to avoid double mul
+            # aiter applies routed_scaling_factor internally
+            routed_scaling_factor=1.0
+            if not self.is_rocm_aiter_moe_enabled
+            else self.routed_scaling_factor,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+            n_shared_experts=config.n_shared_experts
+            if rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+            else None,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # Chunk the hidden states so they aren't replicated across TP ranks.
+        # This avoids duplicate computation in self.experts.
+        # TODO: We can replace the all_reduce at the end of attn with a
+        # reduce_scatter instead of chunking here.
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        if self.experts.is_internal_router:
+            # In this case, the gate/router runs inside the FusedMoE class
+            fused_moe_out = self.experts(
+                hidden_states=hidden_states, router_logits=hidden_states
+            )
+        else:
+            # router_logits: (num_tokens, n_experts)
+            router_logits, _ = self.gate(hidden_states)
+            fused_moe_out = self.experts(
+                hidden_states=hidden_states, router_logits=router_logits
+            )
+
+        shared_output, final_hidden_states = fused_moe_out
+        if self.shared_experts is None:
+            assert shared_output is None
+
+        # Fix FP16 overflow
+        # See DeepseekV2DecoderLayer for more details.
+        if hidden_states.dtype != torch.float16:
+            if not self.is_rocm_aiter_moe_enabled:
+                final_hidden_states *= self.routed_scaling_factor
+        elif self.shared_experts is not None:
+            assert shared_output is not None
+            shared_output *= 1.0 / self.routed_scaling_factor
+            
+        if self.shared_experts is not None:
+            assert shared_output is not None
+            final_hidden_states += shared_output
+
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+        elif self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+def yarn_get_mscale(scale: float = 1, mscale: float = 1) -> float:
+    import math
+
+    if scale <= 1:
+        return 1.0
+    return 0.1 * mscale * math.log(scale) + 1.0
+
+
+class DeepseekV2Attention(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: DeepseekV2Config | DeepseekV3Config,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        topk_indices_buffer: torch.Tensor | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.num_heads = num_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        assert num_heads % tp_size == 0
+        self.num_local_heads = num_heads // tp_size
+        self.scaling = self.qk_head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        assert topk_indices_buffer is None, (
+            "topk_indices_buffer is not \
+        supported for DeepseekV2Attention"
+        )
+
+        if self.q_lora_rank is not None:
+            self.q_a_proj = ReplicatedLinear(
+                self.hidden_size,
+                self.q_lora_rank,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_a_proj",
+            )
+            self.q_a_layernorm = RMSNorm(self.q_lora_rank, eps=config.rms_norm_eps)
+            self.q_b_proj = ColumnParallelLinear(
+                q_lora_rank,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_b_proj",
+            )
+        else:
+            self.q_proj = ColumnParallelLinear(
+                self.hidden_size,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_proj",
+            )
+
+        self.kv_a_proj_with_mqa = ReplicatedLinear(
+            self.hidden_size,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa",
+        )
+        self.kv_a_layernorm = RMSNorm(self.kv_lora_rank, eps=config.rms_norm_eps)
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+        # O projection.
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        if rope_scaling:
+            rope_scaling["rope_type"] = "deepseek_yarn"
+
+        self.rotary_emb = get_rope(
+            qk_rope_head_dim,
+            rotary_dim=qk_rope_head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=False,
+        )
+
+        if rope_scaling:
+            mscale_all_dim = rope_scaling.get("mscale_all_dim", False)
+            scaling_factor = rope_scaling["factor"]
+            mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
+            self.scaling = self.scaling * mscale * mscale
+
+        self.attn = Attention(
+            self.num_local_heads,
+            self.qk_head_dim,
+            self.scaling,
+            num_kv_heads=self.num_local_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward_opt(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        if self.q_lora_rank is not None:
+            q_latent_kpe = self.q_a_proj(hidden_states)[0]
+            q, kv_a, k_pe = q_latent_kpe.split([self.q_lora_rank, self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            q = self.q_a_layernorm(q)
+            q = self.q_b_proj(q)[0].view(-1, self.num_local_heads, self.qk_head_dim)
+        else:
+            q_latent_kpe = self.q_proj(hidden_states)[0]
+            q, kv_a, k_pe = q_latent_kpe.split([self.num_heads * self.qk_head_dim, self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            q = q.view(-1, self.num_local_heads, self.qk_head_dim)
+        
+        _, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+
+        kv_a = self.kv_a_layernorm(kv_a)
+        kv = self.kv_b_proj(kv_a)[0]
+        kv = kv.view(-1, self.num_local_heads, self.qk_nope_head_dim + self.v_head_dim)
+        k_nope, v_nope = kv.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+        k = torch.empty_like(q)
+        v = torch.empty(q.shape[0], self.num_local_heads, self.v_head_dim, device=q.device, dtype=q.dtype)
+        ixfops.mla_rope(positions, q_pe, k_pe, k[...,self.qk_nope_head_dim:], self.rotary_emb.cos_sin_cache)
+        ixfops.mla_copy_kv(k_nope, v_nope, k, v)
+
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+    
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor
+    ) -> torch.Tensor:
+        if self.q_lora_rank is not None:
+            q = self.q_a_proj(hidden_states)[0]
+            kv_a, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split([self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            q = self.q_a_layernorm(q)
+            q = self.q_b_proj(q)[0].view(-1, self.num_local_heads, self.qk_head_dim)
+        else:
+            q = self.q_proj(hidden_states)[0]
+            kv_a, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split([self.kv_lora_rank, self.qk_rope_head_dim], dim=1)
+            q = q.view(-1, self.num_local_heads, self.qk_head_dim)
+        
+        _, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+
+        kv_a = self.kv_a_layernorm(kv_a)
+        kv = self.kv_b_proj(kv_a)[0]
+        kv = kv.view(-1, self.num_local_heads, self.qk_nope_head_dim + self.v_head_dim)
+        k_nope, v_nope = kv.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+        q[..., self.qk_nope_head_dim :] = q_pe
+        k = torch.empty_like(q)
+        k[..., : self.qk_nope_head_dim] = k_nope
+        k[..., self.qk_nope_head_dim :] = k_pe
+        # padding value to qk_head_dim for alignment
+        v = torch.nn.functional.pad(
+            v, [0, self.qk_head_dim - self.v_head_dim], value=0
+        ).view(-1, self.num_local_heads * self.qk_head_dim)
+        attn_output = self.attn(q, k, v)
+        attn_output = attn_output.view(-1, self.num_local_heads, self.qk_head_dim)[
+            ..., : self.v_head_dim
+        ].reshape(-1, self.num_local_heads * self.v_head_dim)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class DeepseekV32IndexerCache(torch.nn.Module, AttentionLayerBase):
+    def __init__(
+        self, head_dim: int, dtype: torch.dtype, prefix: str, cache_config: CacheConfig
+    ):
+        super().__init__()
+        self.kv_cache = [torch.tensor([])]
+        self.head_dim = head_dim
+        self.prefix = prefix
+        self.cache_config = cache_config
+        self.dtype = dtype
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        return MLAAttentionSpec(  # Only has one vector instead of K + V
+            block_size=self.cache_config.block_size,
+            num_kv_heads=1,
+            head_size=self.head_dim,
+            dtype=self.dtype,
+        )
+
+    def forward(self): ...
+
+    def get_attn_backend(self) -> AttentionBackend:
+        return DeepseekV32IndexerBackend
+    
+@torch.inference_mode()   
+def cp_gather_indexer_k_quant_cache(
+    kv_cache,  # [num_blocks, block_size, head_dim]
+    dst_value,  # [cu_seq_lens[-1], head_dim]
+    block_table,  # [batch_size, num_blocks]
+    cu_seq_lens,  # [batch_size + 1, ]
+    batch_size,
+):
+    num_blocks, block_size, _ = kv_cache.shape
+    head_dim = dst_value.shape[-1]
+    kv_cache = kv_cache.view(num_blocks, -1)
+
+    expected_value = []
+    # expected_scale = []
+    for b in range(batch_size):
+        s = cu_seq_lens[b + 1] - cu_seq_lens[b]
+        if s == 0:
+            continue
+        tot = cdiv(s, block_size)
+        blocks = block_table[b, :tot]
+
+        value = []
+        scale = []
+        full_block = torch.arange(tot - 1,
+                                  device=kv_cache.device,
+                                  dtype=torch.int32)
+        non_remaining_value = kv_cache[blocks[full_block], :block_size *
+                                       head_dim].view(-1, head_dim)
+        # non_remaining_scale = kv_cache[blocks[full_block],
+        #                                block_size * head_dim:].view(-1, 4)
+
+        remaining = s - (tot - 1) * block_size
+
+        value = torch.cat([
+            non_remaining_value,
+            kv_cache[blocks[-1], :remaining * head_dim].view(-1, head_dim)
+        ],
+                          dim=0)
+        # scale = torch.cat([
+        #     non_remaining_scale,
+        #     kv_cache[blocks[-1], block_size * head_dim:block_size * head_dim +
+        #              remaining * 4].view(-1, 4)
+        # ],
+        #                   dim=0)
+
+        expected_value.append(value)
+        # expected_scale.append(scale)
+
+    gather_value = torch.cat(expected_value, dim=0).view(-1, head_dim)
+    # gather_scale = torch.cat(expected_scale, dim=0).view(-1, 4)
+    gather_value = gather_value.view(torch.bfloat16)
+    # gather_scale = gather_scale.view(torch.float32)
+    dst_value.copy_(gather_value)
+    # dst_scale.copy_(gather_scale)
+
+
+def sparse_attn_indexer(
+    hidden_states: torch.Tensor,
+    k_cache_prefix: str,
+    kv_cache: torch.Tensor,
+    q: torch.Tensor,
+    k: torch.Tensor,
+    weights: torch.Tensor,
+    topk_tokens: int,
+    head_dim: int,
+    max_model_len: int,
+    total_seq_lens: int,
+    topk_indices_buffer: torch.Tensor | None,
+) -> torch.Tensor:
+    # careful! this will be None in dummy run
+    attn_metadata = get_forward_context().attn_metadata
+    # assert isinstance(attn_metadata, dict)
+    if not isinstance(attn_metadata, dict):
+        return sparse_attn_indexer_fake(
+            hidden_states,
+            k_cache_prefix,
+            kv_cache,
+            q,
+            k,
+            weights,
+            topk_tokens,
+            head_dim,
+            max_model_len,
+            total_seq_lens,
+            topk_indices_buffer,
+        )
+    attn_metadata = attn_metadata[k_cache_prefix]
+    assert isinstance(attn_metadata, DeepseekV32IndexerMetadata)
+    slot_mapping = attn_metadata.slot_mapping
+    has_decode = attn_metadata.num_decodes > 0
+    has_prefill = attn_metadata.num_prefills > 0
+    num_decode_tokens = attn_metadata.num_decode_tokens
+
+    ops.indexer_k_cache(
+        k,
+        kv_cache,
+        slot_mapping
+    )
+
+    topk_indices_buffer[: hidden_states.shape[0]] = -1
+    if has_prefill:
+        prefill_metadata = attn_metadata.prefill
+        for chunk in prefill_metadata.chunks:
+            k = torch.empty(
+                [chunk.total_seq_lens, head_dim],
+                device=k.device,
+                dtype=torch.bfloat16,
+            )
+            # k_scale = torch.empty(
+            #     [chunk.total_seq_lens, 4],
+            #     device=k.device,
+            #     dtype=torch.uint8,
+            # )
+            cp_gather_indexer_k_quant_cache(
+                kv_cache,
+                k,
+                chunk.block_table,
+                chunk.cu_seq_lens,
+                chunk.num_reqs,
+            )
+            logits = ops.ref_mqa_logits(
+                q[chunk.token_start:chunk.token_end],
+                k,
+                weights[chunk.token_start : chunk.token_end],
+                chunk.cu_seqlen_ks,
+                chunk.cu_seqlen_ke,
+            )
+            topk_indices = logits.topk(min(topk_tokens, logits.shape[-1]),
+                                       dim=-1)[1]
+            topk_indices -= chunk.cu_seqlen_ks[:, None]
+            mask_lo = topk_indices >= 0
+            mask_hi = topk_indices - (chunk.cu_seqlen_ke -
+                                      chunk.cu_seqlen_ks)[:, None] < 0
+            mask = torch.full_like(topk_indices,
+                                   False,
+                                   dtype=torch.bool,
+                                   device=topk_indices.device)
+            mask = mask_lo & mask_hi
+            topk_indices = topk_indices.masked_fill(~mask, -1)
+            topk_indices_buffer[
+                chunk.token_start:chunk.token_end, :topk_indices.
+                shape[-1]] = topk_indices.to(dtype=torch.int32)
+
+    if has_decode:
+        decode_metadata = attn_metadata.decode
+        # kv_cache size requirement [num_block, block_size, n_head, head_dim],
+        # we only have [num_block, block_size, head_dim],
+        kv_cache = kv_cache.unsqueeze(-2)
+        decode_lens = decode_metadata.decode_lens
+        if decode_metadata.requires_padding:
+            # pad in edge case where we have short chunked prefill length <
+            # decode_threshold since we unstrictly split
+            # prefill and decode by decode_threshold
+            # (currently set to 1 + speculative tokens)
+            padded_q_decode_tokens = pack_seq_triton(
+                q[:num_decode_tokens], decode_lens)
+        else:
+            padded_q_decode_tokens = q[:num_decode_tokens].reshape(
+                decode_lens.shape[0], -1, *q.shape[1:])
+        # TODO: move and optimize below logic with triton kernels
+        batch_size = padded_q_decode_tokens.shape[0]
+        next_n = padded_q_decode_tokens.shape[1]
+        assert batch_size == decode_metadata.seq_lens.shape[0]
+        num_padded_tokens = batch_size * next_n
+        logits = ops.ref_paged_mqa_logits(
+            padded_q_decode_tokens,
+            kv_cache,
+            weights[:num_padded_tokens],
+            decode_metadata.seq_lens,
+            decode_metadata.block_table,
+            max_model_len=max_model_len,
+        )
+        # padded query len
+        current_device = padded_q_decode_tokens.device
+        padded_num_tokens = batch_size * next_n
+        positions = torch.arange(max_model_len,
+                                 device=current_device).unsqueeze(0).expand(
+                                     batch_size * next_n, -1)
+        row_indices = torch.arange(padded_num_tokens,
+                                   device=current_device) // next_n
+        next_n_offset = torch.arange(
+            padded_num_tokens,
+            device=padded_q_decode_tokens.device) % next_n
+        index_end_pos = (decode_metadata.seq_lens[row_indices] - next_n +
+                         next_n_offset).unsqueeze(1)
+        # index_end_pos: [B * N, 1]
+        mask = positions <= index_end_pos
+        # mask: [B * N, L]
+        logits = logits.masked_fill(~mask, float('-inf'))
+        topk_indices = logits.topk(topk_tokens,
+                                   dim=-1)[1].to(torch.int32)  # [B * N, K]
+        # ensure we don't set indices for the top k
+        # that is out of range(masked already)
+        # this will happen if context length is shorter than K
+        topk_indices[topk_indices > index_end_pos] = -1
+        if decode_metadata.requires_padding:
+            # if padded, we need to unpack
+            # the topk indices removing padded tokens
+            topk_indices = unpack_seq_triton(
+                topk_indices.reshape(batch_size, -1, topk_indices.shape[-1]),
+                decode_lens,
+            )
+        topk_indices_buffer[:num_decode_tokens, :topk_indices.
+                            shape[-1]] = topk_indices.to(dtype=torch.int32)
+
+    return topk_indices_buffer
+
+
+def sparse_attn_indexer_fake(
+    hidden_states: torch.Tensor,
+    k_cache_prefix: str,
+    kv_cache: torch.Tensor,
+    q: torch.Tensor,
+    k: torch.Tensor,
+    weights: torch.Tensor,
+    topk_tokens: int,
+    head_dim: int,
+    max_model_len: int,
+    total_seq_lens: int,
+    topk_indices_buffer: torch.Tensor | None,
+) -> torch.Tensor:
+    # profile run
+    # NOTE(Chen): create the max possible flattened_kv. So that
+    # profile_run can get correct memory usage.
+    _flattened_kv = torch.empty([total_seq_lens, head_dim],
+                                device=k.device,
+                                dtype=torch.bfloat16)
+    _k = _flattened_kv[..., :head_dim].view(
+        torch.bfloat16).contiguous()
+    # _k_scale = _flattened_kv[..., head_dim:].view(torch.float32).contiguous()
+    return topk_indices_buffer
+
+
+direct_register_custom_op(
+    op_name="sparse_attn_indexer",
+    op_func=sparse_attn_indexer,
+    mutates_args=["topk_indices_buffer"],
+    fake_impl=sparse_attn_indexer_fake,
+    dispatch_key=current_platform.dispatch_key,
+)
+
+
+class Indexer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: DeepseekV2Config | DeepseekV3Config,
+        hidden_size: int,
+        q_lora_rank: int,
+        quant_config: QuantizationConfig | None,
+        cache_config: CacheConfig | None,
+        topk_indices_buffer: torch.Tensor | None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.vllm_config = vllm_config
+        self.config = config
+        # self.indexer_cfg = config.attn_module_list_cfg[0]["attn_index"]
+        self.topk_tokens = config.index_topk
+        self.n_head = config.index_n_heads  # 64
+        self.head_dim = config.index_head_dim  # 128
+        self.rope_dim = config.qk_rope_head_dim  # 64
+        self.q_lora_rank = q_lora_rank  # 1536
+        # no tensor parallel, just replicated
+        self.wq_b = ReplicatedLinear(
+            self.q_lora_rank,
+            self.head_dim * self.n_head,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wq_b",
+        )
+        self.wk = ReplicatedLinear(
+            hidden_size,
+            self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wk",
+        )
+        self.k_norm = LayerNorm(self.head_dim, eps=1e-6)
+        self.weights_proj = ReplicatedLinear(
+            hidden_size, self.n_head, quant_config=None, prefix=f"{prefix}.weights_proj"
+        )
+        self.softmax_scale = self.head_dim**-0.5
+
+        self.scale_fmt = "ue8m0"
+        self.quant_block_size = 128  # TODO: get from config
+        self.topk_indices_buffer = topk_indices_buffer
+
+        # NOTE: (zyongye) we use fp8 naive cache,
+        #       where we store value in fp8 and scale in fp32
+        #       per self.quant_block_size element
+        self.k_cache = DeepseekV32IndexerCache(
+            head_dim=self.head_dim,
+            dtype=torch.bfloat16,
+            prefix=f"{prefix}.k_cache",
+            cache_config=cache_config,
+        )
+        self.max_model_len = vllm_config.model_config.max_model_len
+        self.prefix = prefix
+        from vllm.v1.attention.backends.mla.indexer import get_max_prefill_buffer_size
+
+        self.max_total_seq_len = get_max_prefill_buffer_size(vllm_config)
+
+    def forward(
+        self, hidden_states: torch.Tensor, qr: torch.Tensor, positions, rotary_emb
+    ) -> torch.Tensor:
+        q, _ = self.wq_b(qr)
+        q = q.view(-1, self.n_head, self.head_dim)
+        q_pe, q_nope = torch.split(
+            q, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1
+        )
+
+        k, _ = self.wk(hidden_states)
+        k = self.k_norm(k)
+        k_pe, k_nope = torch.split(
+            k, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1
+        )
+
+        q_pe, k_pe = rotary_emb(positions, q_pe, k_pe.unsqueeze(1))
+        q = torch.cat([q_pe, q_nope], dim=-1)
+        k = torch.cat([k_pe.squeeze(1), k_nope], dim=-1)
+
+        # we only quant q here since k quant is fused with cache insertion
+        # q = q.view(-1, self.head_dim)
+        # q_fp8, q_scale = per_token_group_quant_fp8(
+        #     q,
+        #     self.quant_block_size,
+        #     column_major_scales=False,
+        #     use_ue8m0=self.scale_fmt is not None,
+        # )
+        # q_fp8 = q_fp8.view(-1, self.n_head, self.head_dim)
+        # q_scale = q_scale.view(-1, self.n_head, 1)
+
+        weights, _ = self.weights_proj(hidden_states)
+        weights = (
+            weights.unsqueeze(-1) * self.softmax_scale * self.n_head**-0.5
+        )
+        weights = weights.squeeze(-1)
+
+        return torch.ops.vllm.sparse_attn_indexer(
+            hidden_states,
+            self.k_cache.prefix,
+            self.k_cache.kv_cache[0],
+            q,
+            k,
+            weights,
+            self.topk_tokens,
+            self.head_dim,
+            self.max_model_len,
+            self.max_total_seq_len,
+            self.topk_indices_buffer,
+        )
+
+
+class DeepseekV2MLAAttention(nn.Module):
+    """
+    Main reference: DeepseekV2 paper, and FlashInfer Implementation
+    (https://arxiv.org/abs/2405.04434 and https://github.com/flashinfer-ai/flashinfer/pull/551).
+
+        For more info see MLACommonImpl in:
+        vllm/v1/attention/backends/mla/utils.py
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: DeepseekV2Config | DeepseekV3Config,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        topk_indices_buffer: torch.Tensor | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+
+        self.num_heads = num_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        assert num_heads % tp_size == 0
+        self.num_local_heads = num_heads // tp_size
+
+        self.scaling = self.qk_head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        if self.q_lora_rank is not None:
+            self.q_a_proj = ReplicatedLinear(self.hidden_size,
+                                             self.q_lora_rank,
+                                             bias=False,
+                                             quant_config=quant_config,
+                                             prefix=f"{prefix}.q_a_proj")
+            self.q_a_layernorm = RMSNorm(self.q_lora_rank,
+                                         eps=config.rms_norm_eps)
+            self.q_b_proj = ColumnParallelLinear(self.q_lora_rank,
+                                                 self.num_heads *
+                                                 self.qk_head_dim,
+                                                 bias=False,
+                                                 quant_config=quant_config,
+                                                 prefix=f"{prefix}.q_b_proj")
+        else:
+            self.q_proj = ColumnParallelLinear(self.hidden_size,
+                                               self.num_heads *
+                                               self.qk_head_dim,
+                                               bias=False,
+                                               quant_config=quant_config,
+                                               prefix=f"{prefix}.q_proj")
+
+        self.kv_a_proj_with_mqa = ReplicatedLinear(
+            self.hidden_size,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa")
+        self.kv_a_layernorm = RMSNorm(self.kv_lora_rank,
+                                      eps=config.rms_norm_eps)
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        if rope_scaling:
+            rope_scaling["rope_type"] = "deepseek_yarn"
+        self.rotary_emb = get_rope(
+            qk_rope_head_dim,
+            rotary_dim=qk_rope_head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=False,
+        )
+        if rope_scaling:
+            mscale_all_dim = rope_scaling.get("mscale_all_dim", False)
+            scaling_factor = rope_scaling["factor"]
+            mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
+            self.scaling = self.scaling * mscale * mscale
+
+        self.is_v32 = hasattr(config, "index_topk")
+
+        if self.is_v32:
+            self.indexer = Indexer(
+                vllm_config,
+                config,
+                hidden_size,
+                q_lora_rank,
+                quant_config,
+                cache_config,
+                topk_indices_buffer,
+                f"{prefix}.indexer",
+            )
+        else:
+            self.indexer = None
+
+        mla_modules = MLAModules(
+            kv_a_layernorm=self.kv_a_layernorm,
+            kv_b_proj=self.kv_b_proj,
+            rotary_emb=self.rotary_emb,
+            o_proj=self.o_proj,
+            q_a_proj=self.q_a_proj if self.q_lora_rank is not None else None,
+            kv_a_proj_with_mqa=self.kv_a_proj_with_mqa
+            if self.q_lora_rank is None
+            else None,
+            q_a_layernorm=self.q_a_layernorm if self.q_lora_rank is not None else None,
+            q_b_proj=self.q_b_proj if self.q_lora_rank is not None else None,
+            q_proj=self.q_proj if self.q_lora_rank is None else None,
+            indexer=self.indexer,
+            is_sparse=self.is_v32,
+            topk_indices_buffer=topk_indices_buffer,
+        )
+
+        self.mla_attn = MultiHeadLatentAttentionWrapper(
+            self.hidden_size,
+            self.num_local_heads,
+            self.scaling,
+            self.qk_nope_head_dim,
+            self.qk_rope_head_dim,
+            self.v_head_dim,
+            self.q_lora_rank,
+            self.kv_lora_rank,
+            mla_modules,
+            cache_config,
+            quant_config,
+            prefix,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.mla_attn(positions, hidden_states)
+    
+
+class DeepseekV2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str,
+        config: DeepseekV2Config | None = None,
+        topk_indices_buffer: torch.Tensor | None = None,
+    ) -> None:
+        super().__init__()
+
+        if config is None:
+            config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        moe_layer_freq = getattr(config, "moe_layer_freq", 1)
+        # DecoderLayers are created with `make_layers` which passes the prefix
+        # with the layer's index.
+        layer_idx = int(prefix.split(sep=".")[-1])
+        self.layer_idx = layer_idx
+
+        # verify MLA attention specific fields
+        qk_nope_head_dim = getattr(config, "qk_nope_head_dim", 0)
+        qk_rope_head_dim = getattr(config, "qk_rope_head_dim", 0)
+        v_head_dim = getattr(config, "v_head_dim", 0)
+        kv_lora_rank = getattr(config, "kv_lora_rank", 0)
+        use_mha = config.model_type == "deepseek" or all(
+            dim == 0 for dim in (qk_nope_head_dim, qk_rope_head_dim)
+        )
+
+        if use_mha:
+            attn_cls = DeepseekAttention
+        elif model_config.use_mla:
+            attn_cls = DeepseekV2MLAAttention
+        else:
+            attn_cls = DeepseekV2Attention
+        self.self_attn = attn_cls(
+            vllm_config=vllm_config,
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            qk_nope_head_dim=qk_nope_head_dim,
+            qk_rope_head_dim=qk_rope_head_dim,
+            v_head_dim=v_head_dim,
+            q_lora_rank=config.q_lora_rank if hasattr(config, "q_lora_rank") else None,
+            kv_lora_rank=kv_lora_rank,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            topk_indices_buffer=topk_indices_buffer,
+        )
+
+        if (
+            config.n_routed_experts is not None
+            and layer_idx >= config.first_k_dense_replace
+            and layer_idx % moe_layer_freq == 0
+        ):
+            self.mlp = DeepseekV2MoE(
+                config=config,
+                parallel_config=parallel_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        else:
+            self.mlp = DeepseekV2MLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", 1.0)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states.clone()
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        if (
+            not isinstance(self.self_attn, DeepseekAttention)
+            and hidden_states.dtype == torch.float16
+        ):
+            # Fix FP16 overflow
+            # We scale both hidden_states and residual before
+            # rmsnorm, and rmsnorm result would not affect by scale.
+            hidden_states *= 1.0 / self.routed_scaling_factor
+            if self.layer_idx == 0:
+                # The residual is shared by all layers, we only scale it on
+                # first layer.
+                residual *= 1.0 / self.routed_scaling_factor
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+
+        if isinstance(self.mlp, DeepseekV2MLP) and hidden_states.dtype == torch.float16:
+            # Fix FP16 overflow
+            # Scaling the DeepseekV2MLP output, it is the input of
+            # input_layernorm of next decoder layer.
+            # The scaling of DeepseekV2MOE output would be done in the forward
+            # of DeepseekV2MOE
+            hidden_states *= 1.0 / self.routed_scaling_factor
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class DeepseekV2Model(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.device = current_platform.device_type
+
+        self.vocab_size = config.vocab_size
+        self.is_v32 = hasattr(config, "index_topk")
+        if self.is_v32:
+            topk_tokens = config.index_topk
+            topk_indices_buffer = torch.empty(
+                vllm_config.scheduler_config.max_num_batched_tokens,
+                topk_tokens,
+                dtype=torch.int32,
+                device=self.device,
+            )
+        else:
+            topk_indices_buffer = None
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: DeepseekV2DecoderLayer(
+                vllm_config, prefix, topk_indices_buffer=topk_indices_buffer
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class DeepseekV2MixtureOfExperts(MixtureOfExperts):
+    moe_mlp_layers: list[DeepseekV2MoE]
+    """
+    List of MoE MLP layers in the model.
+    """
+
+    def extract_moe_parameters(self, example_moe: DeepseekV2MoE | None):
+        if example_moe is None:
+            self.num_moe_layers = 0
+            self.num_expert_groups = 0
+            self.num_logical_experts = 0
+            self.num_physical_experts = 0
+            self.num_local_physical_experts = 0
+            self.num_routed_experts = 0
+            self.num_shared_experts = 0
+            self.num_redundant_experts = 0
+            logger.warning("DeepSeekV2: No DeepseekV2MoE layer found in model.layers.")
+        else:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for moe in self.moe_mlp_layers:
+            moe.n_local_physical_experts = num_local_physical_experts
+            moe.n_physical_experts = num_physical_experts
+            moe.n_redundant_experts = self.num_redundant_experts
+            moe.experts.update_expert_map()
+
+
+class DeepseekV2ForCausalLM(
+    nn.Module, SupportsPP, DeepseekV2MixtureOfExperts, SupportsLoRA, SupportsEagle
+):
+    packed_modules_mapping = {
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        qk_nope_head_dim = getattr(config, "qk_nope_head_dim", 0)
+        qk_rope_head_dim = getattr(config, "qk_rope_head_dim", 0)
+        self.use_mha = config.model_type == "deepseek" or all(
+            dim == 0 for dim in (qk_nope_head_dim, qk_rope_head_dim)
+        )
+
+        if self.use_mha:
+            self.packed_modules_mapping["qkv_proj"] = ["q_proj", "k_proj", "v_proj"]
+
+        # `packed_modules_mapping` needs to be modified before
+        # initializing DeepseekV2Model, as it is passed inplace to
+        # quantization config init and may be used to select the
+        # quant_method for relevant layers during initialization.
+        # self.fuse_qkv_a_proj = (
+        #     hasattr(config, "q_lora_rank") and config.q_lora_rank is not None
+        # )
+        # if self.fuse_qkv_a_proj:
+        #     self.packed_modules_mapping["fused_qkv_a_proj"] = [
+        #         "q_a_proj",
+        #         "kv_a_proj_with_mqa",
+        #     ]
+
+        self.model = DeepseekV2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        # Set MoE hyperparameters
+        self.num_moe_layers = (
+            self.config.num_hidden_layers - self.config.first_k_dense_replace
+        )
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+
+        self.num_expert_groups = getattr(self.config, "n_group", 1)
+
+        self.moe_layers = []
+        self.moe_mlp_layers = []
+        example_moe = None
+        
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+            assert isinstance(layer, DeepseekV2DecoderLayer)
+            if isinstance(layer.mlp, DeepseekV2MoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.mlp
+        if example_moe is None:
+            raise RuntimeError("No DeepseekV2MoE layer found in model.layers.")
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.num_routed_experts = example_moe.n_routed_experts
+        self.num_shared_experts = example_moe.n_shared_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ) -> None:
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = (num_physical_experts -
+                                      self.num_logical_experts)
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, DeepseekV2MoE):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+            num_redundant_experts=0,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        rocm_aiter_moe_shared_expert_enabled = (
+            rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        )
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        # mla_params_mapping = [
+        #     ("fused_qkv_a_proj", "q_a_proj", 0),
+        #     ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        # ]
+        mha_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        if self.use_mha:
+            stacked_params_mapping.extend(mha_params_mapping)
+        # else:
+        #     stacked_params_mapping.extend(mla_params_mapping)
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts
+            + (
+                self.config.n_shared_experts
+                if rocm_aiter_moe_shared_expert_enabled
+                else 0
+            ),
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            try:
+                if "rotary_emb.inv_freq" in name:
+                    continue
+
+                spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+                if spec_layer is not None:
+                    continue  # skip spec decode layers for main model
+
+                for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                    # Skip non-stacked layers and experts (experts handled below).
+                    if weight_name not in name:
+                        continue
+                    # We have mlp.experts[0].gate_proj in the checkpoint.
+                    # Since we handle the experts below in expert_params_mapping,
+                    # we need to skip here BEFORE we update the name, otherwise
+                    # name will be updated to mlp.experts[0].gate_up_proj, which
+                    # will then be updated below in expert_params_mapping
+                    # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                    if (("mlp.experts." in name) and name not in params_dict):
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(param, loaded_weight, shard_id)
+                    break
+                else:
+                    is_expert_weight = False
+                    for mapping in expert_params_mapping:
+                        param_name, weight_name, expert_id, shard_id = mapping
+                        if weight_name not in name:
+                            continue
+
+                        # Anyway, this is an expert weight and should not be
+                        # attempted to load as other weights later
+                        is_expert_weight = True
+
+                        # Do not modify `name` since the loop may continue here
+                        # Instead, create a new variable
+                        name_mapped = name.replace(weight_name, param_name)
+
+                        if is_pp_missing_parameter(name_mapped, self):
+                            continue
+
+                        param = params_dict[name_mapped]
+                        # We should ask the weight loader to return success or not
+                        # here since otherwise we may skip experts with other
+                        # available replicas.
+                        weight_loader = typing.cast(Callable[..., bool],
+                                                    param.weight_loader)
+                        success = weight_loader(param,
+                                                loaded_weight,
+                                                name_mapped,
+                                                shard_id=shard_id,
+                                                expert_id=expert_id,
+                                                return_success=True)
+                        if success:
+                            name = name_mapped
+                            break
+                    else:
+                        if is_expert_weight:
+                            # We've checked that this is an expert weight
+                            # However it's not mapped locally to this rank
+                            # So we simply skip it
+                            continue
+
+                        # Skip loading extra bias for GPTQ models.
+                        if name.endswith(".bias") and name not in params_dict:
+                            continue
+
+                        # Remapping the name of FP8 kv-scale.
+                        name = maybe_remap_kv_scale_name(name, params_dict)
+                        if name is None:
+                            continue
+
+                        if is_pp_missing_parameter(name, self):
+                            continue
+
+                        param = params_dict[name]
+                        weight_loader = getattr(param, "weight_loader",
+                                                default_weight_loader)
+                        weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+            except:
+                pass
+        opt_support_quant_method = ["GGUFLinearMethod", "UnquantizedLinearMethod", "CompressedTensorsW8A8Int8", "AWQMarlinLinearMethod"]
+        # add your opt here..
+        def inject_layer(layer, quant_method, is_mla):
+            q_lora_rank = getattr(layer, "q_lora_rank", None)
+            if quant_method in ["UnquantizedLinearMethod", "CompressedTensorsW8A8Int8"]:
+                if q_lora_rank is not None:
+                    layer.q_a_proj.weight.data = torch.cat([layer.q_a_proj.weight, layer.kv_a_proj_with_mqa.weight], dim=0)
+                    if hasattr(layer.q_a_proj, "weight_scale"):
+                        layer.q_a_proj.weight_scale.data = torch.cat([layer.q_a_proj.weight_scale, layer.kv_a_proj_with_mqa.weight_scale], dim=0)
+                        del layer.kv_a_proj_with_mqa.weight_scale
+                elif not is_mla:
+                    layer.q_proj.weight.data = torch.cat([layer.q_proj.weight, layer.kv_a_proj_with_mqa.weight], dim=0)
+                    if hasattr(layer.q_proj, "weight_scale"):
+                        layer.q_proj.weight_scale.data = torch.cat([layer.q_proj.weight_scale, layer.kv_a_proj_with_mqa.weight_scale], dim=0)
+                        del layer.kv_a_proj_with_mqa.weight_scale
+                else:
+                    return
+                del layer.kv_a_proj_with_mqa.weight
+                del layer.kv_a_proj_with_mqa
+                if is_mla:
+                    layer.mla_attn.forward = layer.mla_attn.forward_opt
+                else:
+                    layer.forward = layer.forward_opt
+            elif quant_method == "GGUFLinearMethod":
+                pass
+            elif quant_method == "AWQMarlinLinearMethod":
+                dtype = layer.kv_a_proj_with_mqa.qweight.dtype
+                assert dtype == torch.int32
+                if layer.q_lora_rank is not None:
+                    layer.q_a_proj.qweight.data = torch.cat([layer.q_a_proj.qweight, layer.kv_a_proj_with_mqa.qweight], dim=1)
+                    layer.q_a_proj.scales.data = torch.cat([layer.q_a_proj.scales, layer.kv_a_proj_with_mqa.scales], dim=1)
+                    del layer.kv_a_proj_with_mqa.scales
+                    layer.q_a_proj.qzeros.data = torch.cat([layer.q_a_proj.qzeros, layer.kv_a_proj_with_mqa.qzeros], dim=1)
+                    del layer.kv_a_proj_with_mqa.qzeros
+                elif not is_mla:
+                    layer.q_proj.weight.data = torch.cat([layer.q_proj.weight, layer.kv_a_proj_with_mqa.weight], dim=1)
+                    layer.q_proj.scales.data = torch.cat([layer.q_proj.scales, layer.kv_a_proj_with_mqa.scales], dim=1)
+                    del layer.kv_a_proj_with_mqa.scales
+                    layer.q_proj.qzeros.data = torch.cat([layer.q_proj.qzeros, layer.kv_a_proj_with_mqa.qzeros], dim=1)
+                    del layer.kv_a_proj_with_mqa.qzeros
+                else:
+                    return
+
+                del layer.kv_a_proj_with_mqa.qweight
+                del layer.kv_a_proj_with_mqa
+                if is_mla:
+                    layer.mla_attn.forward = layer.mla_attn.forward_opt
+                else:
+                    layer.forward = layer.forward_opt
+            else:
+                pass
+        
+        for _, layer in self.model.named_modules():
+            if layer.__class__.__name__ in ["DeepseekV2Attention","DeepseekV2MLAAttention"]:
+                if hasattr(layer.kv_a_proj_with_mqa, "scheme"):
+                    quant_method = layer.kv_a_proj_with_mqa.scheme.__class__.__name__
+                else:
+                    quant_method = layer.kv_a_proj_with_mqa.quant_method.__class__.__name__
+                if quant_method not in opt_support_quant_method:
+                    break
+
+                inject_layer(layer, quant_method, is_mla = layer.__class__.__name__ == "DeepseekV2MLAAttention")
+        
+        return loaded_params
+
+
+class DeepseekForCausalLM(DeepseekV2ForCausalLM):
+    pass
+
+
+class DeepseekV3ForCausalLM(DeepseekV2ForCausalLM):
+    pass
+
+
+# Compatibility with
+# https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/blob/main/configuration_deepseek.py
+def get_spec_layer_idx_from_weight_name(
+    config: DeepseekV2Config | DeepseekV3Config, weight_name: str
+) -> int | None:
+    if (
+        hasattr(config, "num_nextn_predict_layers")
+        and config.num_nextn_predict_layers > 0
+    ):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_nextn_predict_layers):
+            if weight_name.startswith(f"model.layers.{layer_idx + i}."):
+                return layer_idx + i
+    return None
diff --git a/model_executor/models/deepseek_vl2.py b/model_executor/models/deepseek_vl2.py
new file mode 100644
index 0000000..e7b48e0
--- /dev/null
+++ b/model_executor/models/deepseek_vl2.py
@@ -0,0 +1,655 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/deepseek-ai/DeepSeek-VL2/blob/faf18023f24b962b32d9f0a2d89e402a8d383a78/deepseek_vl2/models/modeling_deepseek_vl_v2.py
+"""Inference-only Deepseek-VL2 model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers import BatchFeature
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.transformers.utils import replace_linear_class
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.deepseek_vl2 import (
+    DeepseekVLV2Config,
+    MlpProjectorConfig,
+    VisionEncoderConfig,
+)
+from vllm.transformers_utils.processors.deepseek_vl2 import DeepseekVLV2Processor
+from vllm.transformers_utils.tokenizer import cached_tokenizer_from_config
+from vllm.utils.collection_utils import is_list_of
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+# The image token id may be various
+_IMAGE_TOKEN = "<image>"
+
+
+class DeepseekVL2ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of images * number of patches
+        - p: Number of patches
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w", dynamic_dims={"bnp"})]
+    images_spatial_crop: Annotated[torch.Tensor, TensorShape("bn", 2)]
+
+
+class DeepseekVL2VImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - f: Image feature size
+        - h: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("bn", "f", "h")]
+
+
+DeepseekVL2ImageInputs: TypeAlias = (
+    DeepseekVL2ImagePixelInputs | DeepseekVL2VImageEmbeddingInputs
+)
+
+
+class MlpProjector(nn.Module):
+    def __init__(self, cfg: MlpProjectorConfig):
+        super().__init__()
+
+        self.cfg = cfg
+        self.projector_type = cfg.projector_type
+        assert not cfg.token_pooling, "Token pooling is not supported currently."
+
+        if self.projector_type == "downsample_mlp_gelu":
+            mlp_depth = cfg.depth
+            mlp_ratio = cfg.mlp_ratio
+            modules = [
+                nn.Linear(
+                    cfg.input_dim * cfg.downsample_ratio * cfg.downsample_ratio,
+                    cfg.n_embed * mlp_ratio,
+                )
+            ]
+            for _ in range(1, mlp_depth - 1):
+                modules.append(nn.GELU())
+                modules.append(
+                    nn.Linear(cfg.n_embed * mlp_ratio, cfg.n_embed * mlp_ratio)
+                )
+            modules.append(nn.GELU())
+            modules.append(nn.Linear(cfg.n_embed * mlp_ratio, cfg.n_embed))
+            modules = nn.Sequential(*modules)
+        elif self.projector_type == "linear":
+            modules = nn.Linear(cfg.input_dim, cfg.n_embed)
+        else:
+            raise NotImplementedError(
+                f"Unsupported projector type: {cfg.projector_type}"
+            )
+
+        self.layers = modules
+
+    def forward(self, x):
+        bs, hw, input_dim = x.shape
+        if self.projector_type == "downsample_mlp_gelu":
+            h = w = int((hw) ** 0.5)
+            """compute padding"""
+            if h % self.cfg.downsample_ratio:
+                pad = self.cfg.downsample_ratio - h % self.cfg.downsample_ratio
+            else:
+                pad = 0
+            x = x.reshape(bs, h, w, input_dim)
+            if pad > 0:
+                x = F.pad(x, (0, 0, 0, pad, 0, pad), "constant", 0)
+            """4 to 1 concat"""
+            x = x.permute(0, 3, 1, 2)  # B, C, H, W
+            x = F.unfold(
+                x,
+                kernel_size=self.cfg.downsample_ratio,
+                stride=self.cfg.downsample_ratio,
+                padding=0,
+            )  # B, C*4, HW // 4
+            x = x.permute(0, 2, 1)
+
+        return self.layers(x)
+
+
+class DeepseekVL2ProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(DeepseekVLV2Config)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(DeepseekVLV2Processor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self, *, image_width: int, image_height: int, cropping: bool = True
+    ) -> int:
+        hf_processor = self.get_hf_processor()
+        image_size = hf_processor.image_size
+        patch_size = hf_processor.patch_size
+        downsample_ratio = hf_processor.downsample_ratio
+
+        if cropping:
+            best_width, best_height = hf_processor.select_best_resolution(
+                (image_width, image_height)
+            )
+            num_width_tiles, num_height_tiles = (
+                best_width // image_size,
+                best_height // image_size,
+            )
+        else:
+            num_width_tiles = num_height_tiles = 1
+
+        h = w = math.ceil((image_size // patch_size) / downsample_ratio)
+
+        global_views_tokens = h * (w + 1)
+        local_views_tokens = (num_height_tiles * h) * (num_width_tiles * w + 1)
+        return global_views_tokens + local_views_tokens + 1
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        hf_config = self.get_hf_config()
+        candidate_resolutions = hf_config.candidate_resolutions
+        height, width = max(
+            candidate_resolutions,
+            key=lambda x: self.get_num_image_tokens(
+                image_width=x[1], image_height=x[0]
+            ),
+        )
+        return ImageSize(width=width, height=height)
+
+
+class DeepseekVL2DummyInputsBuilder(BaseDummyInputsBuilder[DeepseekVL2ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        max_image_size = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size.width,
+                height=max_image_size.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class DeepseekVL2MultiModalProcessor(
+    BaseMultiModalProcessor[DeepseekVL2ProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            tokenizer = self.info.get_tokenizer()
+            return tokenizer(prompt, add_special_tokens=True, return_tensors="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        processed_outputs["num_patches"] = (
+            processed_outputs["images_spatial_crop"].prod(-1) + 1
+        )
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
+            images_spatial_crop=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        image_token_id = hf_processor.image_token_id
+        assert isinstance(image_token_id, int)
+
+        def get_replacement_deepseek_vl2(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    cropping=len(images) <= 2,
+                )
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement_deepseek_vl2,
+            )
+        ]
+
+    def _cached_apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        # The processor logic is different for len(images) <= 2 vs > 2
+        # Since the processing cache assumes that the processor output is
+        # invariant of how many images are passed per prompt, we only
+        # perform caching for the most common case
+        if mm_data_items.get_count("image", strict=False) > 2:
+            return self._apply_hf_processor(
+                prompt=prompt,
+                mm_data_items=mm_data_items,
+                hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+
+        return super()._cached_apply_hf_processor(
+            prompt=prompt,
+            mm_data_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    DeepseekVL2MultiModalProcessor,
+    info=DeepseekVL2ProcessingInfo,
+    dummy_inputs=DeepseekVL2DummyInputsBuilder,
+)
+class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "language.": "language_model.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: DeepseekVLV2Config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.vision_config = config.vision_config
+        self.projector_config = config.projector_config
+        self.text_config = config.text_config
+
+        model_config = vllm_config.model_config
+        tokenizer = cached_tokenizer_from_config(model_config)
+        self.image_token_id: int = tokenizer.vocab[_IMAGE_TOKEN]
+
+        self.vision = self._init_vision_module(
+            self.vision_config, quant_config, maybe_prefix(prefix, "vision")
+        )
+
+        self.projector = MlpProjector(self.projector_config)
+        self.tile_tag = config.tile_tag
+        self.global_view_pos = config.global_view_pos
+
+        # special token for image token sequence format
+        embed_std = 1 / torch.sqrt(
+            torch.tensor(self.projector_config.n_embed, dtype=torch.float32)
+        )
+        if self.tile_tag == "2D":
+            # <|view_seperator|>, <|\n|>
+            self.image_newline = nn.Parameter(
+                torch.randn(self.projector_config.n_embed) * embed_std
+            )
+            # This is a typo in original implementation
+            self.view_seperator = nn.Parameter(
+                torch.randn(self.projector_config.n_embed) * embed_std
+            )
+        else:
+            raise ValueError(
+                f"Only 2D tile_tag is supported currently, got: {self.tile_tag}"
+            )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=self.text_config,
+            prefix=maybe_prefix(prefix, "language"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _get_parent_and_attr(self, root: torch.nn.Module, dotted_name: str):
+        """Return (parent_module, final_attr_name) for a dotted module path."""
+        names = dotted_name.split(".")
+        parent = root
+        for n in names[:-1]:
+            parent = getattr(parent, n)
+        return parent, names[-1]
+
+    # patch for timm ViT instance to support tensor parallel
+    def patch_vit_for_tp(self, vit: torch.nn.Module, quant_config: QuantizationConfig):
+        try:
+            import timm
+        except ImportError as e:
+            raise ImportError("Please install timm") from e
+
+        for name, module in vit.named_modules():
+            if isinstance(module, nn.Linear):
+                parent, attr_name = self._get_parent_and_attr(vit, name)
+                if isinstance(parent, timm.layers.Mlp) and attr_name == "fc1":
+                    new_linear = replace_linear_class(
+                        module, "colwise", quant_config, prefix=name
+                    )
+                    setattr(parent, attr_name, new_linear)
+                elif isinstance(parent, timm.layers.Mlp) and attr_name == "fc2":
+                    new_linear = replace_linear_class(
+                        module, "rowwise", quant_config, prefix=name
+                    )
+                    setattr(parent, attr_name, new_linear)
+
+        return vit
+
+    def _init_vision_module(
+        self,
+        vision_config: VisionEncoderConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> nn.Module:
+        # TODO: refactor vision model through timm wrapper from transformers
+        try:
+            import timm
+        except ImportError as e:
+            raise ImportError("Please install timm") from e
+
+        with set_default_torch_dtype(torch.float16):
+            model = timm.create_model(
+                "vit_so400m_patch14_siglip_384.webli",
+                pretrained=False,
+                num_classes=0,
+                dynamic_img_size=True,
+                dynamic_img_pad=True,
+            )
+
+        if get_tensor_model_parallel_world_size() > 1:
+            model = self.patch_vit_for_tp(model, quant_config)
+
+        model = model.to(dtype=torch.get_default_dtype())
+        return model
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> DeepseekVL2ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        images_spatial_crop = kwargs.pop("images_spatial_crop", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            expected_h = expected_w = self.vision_config.image_size
+            return DeepseekVL2ImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                images_spatial_crop=images_spatial_crop,
+                resolve_bindings={
+                    "h": expected_h,
+                    "w": expected_w,
+                },
+            )
+
+        if image_embeds is not None:
+            return DeepseekVL2VImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _pixel_values_to_embedding(
+        self,
+        pixel_values: torch.Tensor,
+        images_spatial_crop: torch.Tensor,
+    ) -> list[torch.Tensor]:
+        # [batch_all_tiles, vit_seq_len, c]
+        images_feature = self.vision.forward_features(pixel_values)
+
+        # [batch_all_tiles, hw, D]
+        images_embeds = self.projector(images_feature)
+
+        _, hw, n_dim = images_embeds.shape
+        h = w = int(hw**0.5)
+
+        # fill image token based on self.tile_tag & self.global_view_pos
+        tile_index = 0
+        vision_embeddings = []
+        for jdx in range(images_spatial_crop.size(0)):
+            # extra global & local features
+            num_width_tiles, num_height_tiles = images_spatial_crop[jdx]
+            if num_width_tiles == 0 or num_height_tiles == 0:
+                break
+            num_tiles_in_image = num_width_tiles * num_height_tiles
+
+            # [hw, D]
+            global_features = images_embeds[tile_index]
+
+            # [num_height_tiles * num_width_tiles, hw, D]
+            local_features = images_embeds[
+                tile_index + 1 : tile_index + 1 + num_tiles_in_image
+            ]
+            tile_index += num_tiles_in_image + 1
+
+            # format global and local features
+            # ----------------- global view add newline -----------------
+            # [hw, D] -> [h, w, D]
+            global_features = global_features.view(h, w, n_dim)
+
+            # [D]     -> [h, 1, D]
+            new_lines_in_global = repeat(self.image_newline, "d -> h 1 d", h=h)
+
+            # cat([h, w, D], [h, 1, D], dim=1) -> [h, w + 1, D]
+            global_features = torch.cat([global_features, new_lines_in_global], dim=1)
+
+            # [h, w + 1, D] -> [h * (w + 1), D]
+            global_features = global_features.view(-1, n_dim)
+
+            # ----------------- local view add newline -----------------
+            # [num_height_tiles * num_width_tiles, h * w, D] ->
+            # [num_height_tiles * h, num_width_tiles * w, D]
+            local_features = rearrange(
+                local_features,
+                "(th tw) (h w) d -> (th h) (tw w) d",
+                th=num_height_tiles,
+                tw=num_width_tiles,
+                h=h,
+                w=w,
+            )
+
+            # [D] -> [num_height_tiles * h, 1, D]
+            new_lines_in_local = repeat(
+                self.image_newline, "d -> (th h) 1 d", th=num_height_tiles, h=h
+            )
+
+            # [num_height_tiles * h, num_width_tiles * w + 1, D]
+            local_features = torch.cat([local_features, new_lines_in_local], dim=1)
+
+            # [num_height_tiles * h, num_width_tiles * w + 1, D]
+            #   --> [(num_height_tiles * h) * (num_width_tiles * w + 1), D]
+            local_features = local_features.view(-1, n_dim)
+
+            # merge global and local tiles
+            if self.global_view_pos == "head":
+                global_local_features = torch.cat(
+                    [
+                        global_features,
+                        self.view_seperator[None, :],
+                        local_features,
+                    ]
+                )
+            else:
+                global_local_features = torch.cat(
+                    [
+                        local_features,
+                        self.view_seperator[None, :],
+                        global_features,
+                    ]
+                )
+
+            vision_embeddings.append(global_local_features)
+        return vision_embeddings
+
+    def _process_image_input(
+        self, image_input: DeepseekVL2ImageInputs
+    ) -> list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            image_data = image_input["data"]
+            if is_list_of(image_data, torch.Tensor):
+                # it's already a list of tensors
+                return image_data
+            if len(image_data.shape) == 3:
+                # 3D tensor
+                return list(torch.unbind(image_data, dim=0))
+            raise ValueError(
+                "We expect batched 2D tensors; "
+                "this can be either a list of 2D tensors or a single 3D tensor."
+            )
+
+        pixel_values = image_input["data"]
+        images_spatial_crop = image_input["images_spatial_crop"]
+
+        return self._pixel_values_to_embedding(
+            pixel_values=pixel_values, images_spatial_crop=images_spatial_crop
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+        return autoloaded_weights
diff --git a/model_executor/models/dots1.py b/model_executor/models/dots1.py
new file mode 100644
index 0000000..d24da0c
--- /dev/null
+++ b/model_executor/models/dots1.py
@@ -0,0 +1,574 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2025 The rednote-hilab team.
+# Copyright 2023 The vLLM team.
+# Copyright 2023 DeepSeek-AI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only dots1 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Dots1Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Dots1MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Dots1MoE(nn.Module):
+    def __init__(
+        self,
+        config: Dots1Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.n_shared_experts = config.n_shared_experts
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        if config.topk_method == "noaux_tc":
+            self.gate.e_score_correction_bias = nn.Parameter(
+                torch.empty(config.n_routed_experts)
+            )
+        else:
+            self.gate.e_score_correction_bias = None
+
+        if config.n_shared_experts is not None:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+            self.shared_experts = Dots1MLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func=config.scoring_func,
+            # we do scaling outside, set factor to 1.0 to avoid double mul
+            routed_scaling_factor=1.0,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = (
+            self.experts(hidden_states=hidden_states, router_logits=router_logits)
+            * self.routed_scaling_factor
+        )
+
+        if self.shared_experts is not None:
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class Dots1Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        config: Dots1Config,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = getattr(config, "head_dim", hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        attention_bias = config.attention_bias
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self, positions: torch.Tensor, hidden_states: torch.Tensor
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = self.q_norm(q.reshape(-1, self.num_heads, self.head_dim)).reshape(q.shape)
+        k = self.k_norm(k.reshape(-1, self.num_kv_heads, self.head_dim)).reshape(
+            k.shape
+        )
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Dots1DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Dots1Config,
+        prefix: str,
+        model_config: ModelConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        layer_idx = int(prefix.split(sep=".")[-1])
+        self.layer_idx = layer_idx
+
+        self.self_attn = Dots1Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            config=config,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        if (
+            config.n_routed_experts is not None
+            and layer_idx >= config.first_k_dense_replace
+            and layer_idx % config.moe_layer_freq == 0
+        ):
+            self.mlp = Dots1MoE(
+                config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+            )
+        else:
+            self.mlp = Dots1MLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.routed_scaling_factor = config.routed_scaling_factor
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Dots1Model(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Dots1DecoderLayer(
+                config,
+                prefix,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Dots1ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Dots1Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/dots_ocr.py b/model_executor/models/dots_ocr.py
new file mode 100644
index 0000000..f46caaa
--- /dev/null
+++ b/model_executor/models/dots_ocr.py
@@ -0,0 +1,900 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.nn import LayerNorm
+from transformers.models.qwen2_vl import Qwen2VLProcessor
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import utils as dist_utils
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM
+from vllm.model_executor.models.qwen2_vl import (
+    Qwen2VisionAttention,
+    Qwen2VLDummyInputsBuilder,
+    Qwen2VLMultiModalProcessor,
+    Qwen2VLProcessingInfo,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.model_executor.models.vision import get_vit_attn_backend
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.dotsocr import DotsOCRConfig, DotsVisionConfig
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .vision import run_dp_sharded_mrope_vision_model
+
+IMAGE_TOKEN = "<|imgpad|>"
+
+
+class DotsOCRImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - ni: Number of images
+        - cps: Number of channels * patch_size * patch_size
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[torch.Tensor, TensorShape("np", "cps")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+class DotsOCRImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of image features
+        - hs: Hidden size
+        - ni: Number of images
+    """
+
+    type: Literal["image_embeds"]
+
+    image_embeds: Annotated[torch.Tensor, TensorShape("nf", "hs")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+DotsOCRImageInputs: TypeAlias = DotsOCRImagePixelInputs | DotsOCRImageEmbeddingInputs
+
+
+class DotsOCRDummyInputsBuilder(Qwen2VLDummyInputsBuilder):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        return IMAGE_TOKEN * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features(  # noqa: E501
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+        }
+
+
+class DotsOCRProcessingInfo(Qwen2VLProcessingInfo):
+    def get_hf_config(self) -> DotsOCRConfig:
+        config = self.ctx.get_hf_config()
+        if not config.__class__.__name__ == "DotsOCRConfig":
+            raise TypeError(f"Expected DotsOCRConfig, got {type(config)}")
+
+        if hasattr(config, "vision_config") and isinstance(config.vision_config, dict):
+            config.vision_config = DotsVisionConfig(**config.vision_config)
+
+        return config
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        max_image_tokens = self.get_max_image_tokens()
+        return {"image": max_image_tokens}
+
+    def get_hf_processor(
+        self,
+        **kwargs: object,
+    ) -> Qwen2VLProcessor:
+        self.get_tokenizer().image_token = IMAGE_TOKEN  # Ensure image token is set
+        processor = self.ctx.get_hf_processor(
+            Qwen2VLProcessor,
+            **kwargs,
+        )
+        processor.image_token = IMAGE_TOKEN
+        processor.video_token = "<|video_pad|>"
+        return processor
+
+
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+def apply_rotary_pos_emb_vision(
+    tensor: torch.Tensor, freqs: torch.Tensor
+) -> torch.Tensor:
+    orig_dtype = tensor.dtype
+    tensor = tensor.float()
+
+    cos = freqs.cos()
+    sin = freqs.sin()
+
+    cos = cos.unsqueeze(1).repeat(1, 1, 2).unsqueeze(0).float()
+    sin = sin.unsqueeze(1).repeat(1, 1, 2).unsqueeze(0).float()
+
+    output = (tensor * cos) + (rotate_half(tensor) * sin)
+
+    output = output.to(orig_dtype)
+
+    return output
+
+
+class VisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+        )
+        freqs = torch.outer(seq, self.inv_freq)
+        return freqs
+
+
+class PatchMerger(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        context_dim: int,
+        spatial_merge_size: int = 2,
+        pre_norm="layernorm",
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = context_dim * (spatial_merge_size**2)
+        self.pre_norm = pre_norm
+        if self.pre_norm == "layernorm":
+            self.ln_q = LayerNorm(context_dim, eps=1e-6)
+        elif self.pre_norm == "rmsnorm":
+            self.ln_q = RMSNorm(context_dim, eps=1e-6)
+
+        self.mlp = nn.Sequential(
+            ColumnParallelLinear(
+                self.hidden_size,
+                self.hidden_size,
+                bias=True,
+                return_bias=False,
+                prefix=f"{prefix}.0",
+                disable_tp=use_data_parallel,
+            ),
+            nn.GELU(),
+            RowParallelLinear(
+                self.hidden_size,
+                dim,
+                bias=True,
+                return_bias=False,
+                prefix=f"{prefix}.2",
+                disable_tp=use_data_parallel,
+            ),
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        if self.pre_norm:
+            x = self.mlp(self.ln_q(x).view(-1, self.hidden_size))
+        else:
+            x = self.mlp(x.view(-1, self.hidden_size))
+        return x
+
+
+class DotsVisionAttention(nn.Module):
+    def __init__(
+        self,
+        config,
+        dim: int,
+        num_heads: int = 16,
+        bias: bool = True,
+        *,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.embed_dim = dim
+        self.tp_size = (
+            1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        )
+        self.tp_rank = 0 if use_data_parallel else get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(dim, num_heads)
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+        # qkv/proj follow Qwen2-VL style; bias controlled by arg
+        self.qkv = QKVParallelLinear(
+            hidden_size=dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+            disable_tp=use_data_parallel,
+        )
+        self.proj = RowParallelLinear(
+            input_size=dim,
+            output_size=dim,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            disable_tp=use_data_parallel,
+        )
+        # Select attention backend
+        self.attn_backend = get_vit_attn_backend(
+            self.hidden_size_per_attention_head,
+            torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Unsupported vision attention backend: {self.attn_backend}"
+            )
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor | None = None,
+        *,
+        max_seqlen: int | None = None,
+        seqlens: list[int] | None = None,
+    ) -> torch.Tensor:
+        # [S, C] -> [S, B=1, C]
+        x = hidden_states.unsqueeze(1)
+        x, _ = self.qkv(x)
+        q, k, v = Qwen2VisionAttention.split_qkv(self, x)
+        bs = q.shape[1]
+        # [S,B,H,D] -> [B,S,H,D]
+        q = q.permute(1, 0, 2, 3).contiguous()
+        k = k.permute(1, 0, 2, 3).contiguous()
+        v = v.permute(1, 0, 2, 3).contiguous()
+
+        if rotary_pos_emb is not None:
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            q_ = q.reshape(bs * q.shape[1], q.shape[2], q.shape[3])
+            k_ = k.reshape(bs * k.shape[1], k.shape[2], k.shape[3])
+            v_ = v.reshape(bs * v.shape[1], v.shape[2], v.shape[3])
+            output = self.flash_attn_varlen_func(
+                q_,
+                k_,
+                v_,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+                dropout_p=0.0,
+                causal=False,
+            )
+            context_layer = output.view(
+                bs,
+                -1,
+                self.num_attention_heads_per_partition,
+                self.hidden_size_per_attention_head,
+            )
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                s = int(cu_seqlens[i - 1])
+                e = int(cu_seqlens[i])
+                q_i = q[:, s:e].permute(0, 2, 1, 3)
+                k_i = k[:, s:e].permute(0, 2, 1, 3)
+                v_i = v[:, s:e].permute(0, 2, 1, 3)
+                out_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                out_i = out_i.permute(0, 2, 1, 3)
+                outputs.append(out_i)
+            context_layer = torch.cat(outputs, dim=1) if outputs else q[:, :0]
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            from xformers import ops as xops
+            from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+            attn_bias = BlockDiagonalMask.from_seqlens(
+                q_seqlen=seqlens, kv_seqlen=None, device=q.device
+            )
+            context_layer = xops.memory_efficient_attention_forward(
+                q, k, v, attn_bias=attn_bias, p=0, scale=None
+            )
+        else:
+            raise RuntimeError("Unsupported attention backend")
+
+        # [B,S,H,D] -> [S,B,H*D] -> [S, C]
+        context_layer = context_layer.permute(1, 0, 2, 3).contiguous()
+        context_layer = context_layer.view(context_layer.shape[0], bs, -1)
+        out, _ = self.proj(context_layer)
+        return out.squeeze(1)
+
+
+class DotsSwiGLUFFN(nn.Module):
+    def __init__(
+        self,
+        config,
+        *,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        hidden_features = config.intermediate_size
+        in_features = config.embed_dim
+        bias = config.use_bias
+
+        # Referenced aimv2.py AIMv2SwiGLUFFN
+        self.fc13 = MergedColumnParallelLinear(
+            in_features,
+            [hidden_features] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc13",
+            disable_tp=use_data_parallel,
+        )
+        self.fc2 = RowParallelLinear(
+            hidden_features,
+            in_features,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.fc13(x)
+        x = self.act_fn(x)
+        x, _ = self.fc2(x)
+        return x
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("fc13", "fc1", 0),
+            ("fc13", "fc3", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class DotsPatchEmbed(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.num_channels = config.num_channels
+        self.patch_size = config.patch_size
+        self.temporal_patch_size = config.temporal_patch_size
+        self.embed_dim = config.embed_dim
+        self.config = config
+        self.proj = nn.Conv2d(
+            config.num_channels,
+            config.embed_dim,
+            kernel_size=(config.patch_size, config.patch_size),
+            stride=(config.patch_size, config.patch_size),
+        )
+        self.norm = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
+
+    def forward(self, x: torch.Tensor, grid_thw=None) -> torch.Tensor:
+        x = x.view(
+            -1,
+            self.num_channels,
+            self.temporal_patch_size,
+            self.patch_size,
+            self.patch_size,
+        )[:, :, 0]
+        x = self.proj(x).view(-1, self.embed_dim)
+        x = self.norm(x)
+        return x
+
+
+class DotsViTPreprocessor(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.patch_h = config.patch_size
+        self.patch_w = config.patch_size
+        self.embed_dim = config.embed_dim
+        self.config = config
+        self.patchifier = DotsPatchEmbed(config)
+
+    def forward(self, x: torch.Tensor, grid_thw=None) -> torch.Tensor:
+        tokens = self.patchifier(x, grid_thw)
+        return tokens
+
+
+class DotsVisionBlock(nn.Module):
+    def __init__(
+        self,
+        config,
+        *,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+
+        self.attn = DotsVisionAttention(
+            config,
+            config.embed_dim,
+            num_heads=config.num_attention_heads,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.norm1 = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
+        self.mlp = DotsSwiGLUFFN(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+        self.norm2 = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        *,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,
+        seqlens: list[int] | None = None,
+    ) -> torch.Tensor:
+        hidden_states = hidden_states + self.attn(
+            self.norm1(hidden_states),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+        hidden_states = hidden_states + self.mlp(self.norm2(hidden_states))
+        return hidden_states
+
+
+class DotsVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: DotsVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.spatial_merge_size = config.spatial_merge_size
+
+        self.patch_embed = DotsViTPreprocessor(config)
+
+        head_dim = config.embed_dim // config.num_attention_heads
+        self.rotary_pos_emb = VisionRotaryEmbedding(head_dim // 2)
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+        self.out_hidden_size = config.hidden_size
+        # Keep blocks for compatibility with other vision towers
+        num_layers = (
+            config.num_hidden_layers
+            if num_hidden_layers_override is None
+            else num_hidden_layers_override
+        )
+        self.blocks = nn.ModuleList(
+            [
+                DotsVisionBlock(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{i}",
+                    use_data_parallel=use_data_parallel,
+                    attn_backend_override=attn_backend_override,
+                )
+                for i in range(num_layers)
+            ]
+        )
+        if require_post_norm is None:
+            require_post_norm = len(self.blocks) == config.num_hidden_layers
+        if require_post_norm and self.config.post_norm:
+            self.post_trunk_norm = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
+        else:
+            self.post_trunk_norm = None
+
+        self.merger = PatchMerger(
+            dim=config.hidden_size,
+            context_dim=config.embed_dim,
+            spatial_merge_size=config.spatial_merge_size,
+            use_data_parallel=use_data_parallel,
+        )
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.patchifier.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.patchifier.proj.weight.device
+
+    def get_pos_ids_by_grid(self, grid_thw: list[list[int]]) -> list[torch.Tensor]:
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            hpos_ids = hpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
+            hpos_ids = hpos_ids.flatten()
+
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            wpos_ids = wpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
+            wpos_ids = wpos_ids.flatten()
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+
+        return pos_ids
+
+    def rot_pos_emb(self, grid_thw: list[list[int]]) -> torch.Tensor:
+        pos_ids = self.get_pos_ids_by_grid(grid_thw)
+        pos_ids = torch.cat(pos_ids, dim=0)
+        max_grid_size = max(max(h, w) for _, h, w in grid_thw)
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def compute_attn_mask_seqlen(
+        self, cu_seqlens: torch.Tensor
+    ) -> tuple[int | None, list[int] | None]:
+        max_seqlen, seqlens = None, None
+        if (
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
+        ):
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        return max_seqlen, seqlens
+
+    def forward(
+        self, hidden_states: torch.Tensor, grid_thw: list[list[int]]
+    ) -> torch.Tensor:
+        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+
+        # Convert grid_thw to tensor (always expecting list format now)
+        grid_thw = torch.tensor(grid_thw, device=hidden_states.device, dtype=torch.long)
+        hidden_states = hidden_states.to(self.dtype)
+        hidden_states = self.patch_embed(hidden_states, grid_thw)
+
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(
+            dim=0,
+            dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32,
+        )
+        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+        for blk in self.blocks:
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+
+        if self.post_trunk_norm is not None:
+            hidden_states = self.post_trunk_norm(hidden_states)
+
+        hidden_states = self.merger(hidden_states)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen2VLMultiModalProcessor,
+    info=DotsOCRProcessingInfo,
+    dummy_inputs=DotsOCRDummyInputsBuilder,
+)
+class DotsOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            ".attn.qkv_proj.": ".attn.qkv.",
+            ".attn.out_proj.": ".attn.proj.",
+        },
+        orig_to_new_prefix={
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        },
+    )
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+        ".attn.qkv": [".attn.qkv"],
+        "fc13": ["fc1", "fc3"],
+    }
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|img|><|imgpad|><|endofimg|>"
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        self.config: DotsOCRConfig = vllm_config.model_config.hf_config
+        self.quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        if isinstance(self.config.vision_config, dict):
+            vision_config = DotsVisionConfig(**self.config.vision_config)
+            self.config.vision_config = vision_config
+        else:
+            vision_config = self.config.vision_config
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.vision_tower = DotsVisionTransformer(
+            vision_config,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+            use_data_parallel=self.use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.language_model: Qwen2ForCausalLM = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=self.config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> DotsOCRImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return DotsOCRImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return DotsOCRImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: DotsOCRImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"].type(self.vision_tower.dtype)
+        else:
+            pixel_values = image_input["pixel_values"].type(self.vision_tower.dtype)
+
+            if self.use_data_parallel:
+                return run_dp_sharded_mrope_vision_model(
+                    self.vision_tower,
+                    pixel_values,
+                    grid_thw_list,
+                    rope_type="rope_3d",
+                )
+            else:
+                image_embeds = self.vision_tower(pixel_values, grid_thw_list)[
+                    :, : self.config.hidden_size
+                ]
+
+        # Split concatenated embeddings for each image item.
+        merge_size = self.vision_tower.spatial_merge_size
+        sizes = (
+            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
+            // (merge_size * merge_size)
+        ).tolist()
+
+        return image_embeds.split(sizes)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+        elif inputs_embeds is None:
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=input_ids == self.config.image_token_id,
+            )
+            input_ids = None
+
+        hidden_states = self.language_model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="vision_tower.merger",
+            tower_model="vision_tower.",
+        )
diff --git a/model_executor/models/ernie45.py b/model_executor/models/ernie45.py
new file mode 100644
index 0000000..c1a4737
--- /dev/null
+++ b/model_executor/models/ernie45.py
@@ -0,0 +1,53 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Baidu team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Erine model compatible with HuggingFace weights."""
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.model_executor.models.llama import LlamaForCausalLM
+
+from .utils import PPMissingLayer
+
+
+@support_torch_compile(
+    # set dynamic_arg_dims to support mrope
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class Ernie4_5ForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        # Hack Llama model to fit HF format Ernie4.5 dense implementation
+        # Attention difference between Ernie and Llama:
+        # 1. rotary_dim and no Neox style.
+        # 2. There is no bias for o_proj in attention
+        for layer in self.model.layers:
+            if not isinstance(layer, PPMissingLayer):
+                layer.self_attn.rotary_emb.is_neox_style = False
+                layer.self_attn.o_proj.bias = None
+                layer.self_attn.o_proj.skip_bias_add = True
diff --git a/model_executor/models/ernie45_moe.py b/model_executor/models/ernie45_moe.py
new file mode 100644
index 0000000..8e8be04
--- /dev/null
+++ b/model_executor/models/ernie45_moe.py
@@ -0,0 +1,760 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Baidu team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only ErineMoE model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Ernie4_5_MoeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        use_bias: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=use_bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Ernie4_5_MoeMoE(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+
+        layer_idx = extract_layer_index(prefix)
+        self.layer_idx = layer_idx
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        self.moe_num_shared_experts = getattr(config, "moe_num_shared_experts", None)
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.moe_num_experts
+        self.n_shared_experts: int = self.moe_num_shared_experts
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+        self.has_shared_experts = getattr(config, "moe_num_shared_experts", 0) > 0
+
+        if self.tp_size > config.moe_num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.moe_num_experts}."
+            )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.moe_num_experts,
+            bias=False,
+            # params_dtype=torch.float32,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.gate.e_score_correction_bias = nn.Parameter(
+            torch.empty(config.moe_num_experts, dtype=torch.float32)
+        )
+
+        if self.has_shared_experts:
+            intermediate_size = (
+                config.moe_intermediate_size * config.moe_num_shared_experts
+            )
+            self.shared_experts = Ernie4_5_MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.shared_experts",
+                reduce_results=False,
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.moe_num_experts,
+            top_k=config.moe_k,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits, _ = self.gate(hidden_states)
+
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.has_shared_experts:
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+        else:
+            final_hidden_states = final_hidden_states[1]
+
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Ernie4_5_MoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int | None = None,
+        rope_theta: float = 500000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 131072,
+        rms_norm_eps: float = 1e-05,
+        qkv_bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix) if len(prefix) > 0 else 0
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            is_neox_style=False,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+
+        # Attention
+        attn_output = self.attn(q, k, v)
+        # Output projection
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Ernie4_5_MoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 500000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
+        self.self_attn = Ernie4_5_MoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=getattr(config, "head_dim", None),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=getattr(config, "use_bias", False),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        layer_idx = extract_layer_index(prefix)
+        self.layer_idx = layer_idx
+
+        # MoE
+        moe_num_experts = getattr(config, "moe_num_experts", 0)
+        moe_layer_start_index = getattr(config, "moe_layer_start_index", 0)
+        moe_layer_end_index = getattr(
+            config, "moe_layer_end_index", config.num_hidden_layers - 1
+        )
+        moe_layer_interval = getattr(config, "moe_layer_interval", 1)
+        use_moe = getattr(config, "use_moe", moe_num_experts > 0)
+
+        if (
+            use_moe
+            and ((layer_idx + 1) % moe_layer_interval == 0)
+            and layer_idx >= moe_layer_start_index
+            and layer_idx <= moe_layer_end_index
+        ):
+            self.mlp = Ernie4_5_MoeMoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+                enable_eplb=enable_eplb,
+            )
+        else:
+            self.mlp = Ernie4_5_MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                use_bias=getattr(config, "use_bias", False),
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+
+        hidden_states = self.mlp(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Ernie4_5_MoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.config = config
+        parallel_config = vllm_config.parallel_config
+        eplb_config = parallel_config.eplb_config
+        enable_eplb = parallel_config.enable_eplb
+
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        if get_pp_group().is_first_rank or (config.tie_word_embeddings
+                                            and get_pp_group().is_last_rank):
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Ernie4_5_MoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.moe_num_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if self.config.tie_word_embeddings and name.endswith("lm_head.weight"):
+                continue
+            # MTP will be supported soon.
+            if "mtp" in name:
+                continue
+
+            if "e_score_correction_bias" in name:
+                name = name.replace("moe_statics", "gate")
+                loaded_weight = loaded_weight.squeeze(0)
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name_mapped.endswith(".bias") or name_mapped.endswith("_bias")
+                    ) and name_mapped not in params_dict:
+                        continue
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Ernie4_5_MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, MixtureOfExperts):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Ernie4_5_MoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if self.config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        moe_layers_indices = [
+            i
+            for i in range(config.num_hidden_layers)
+            if (
+                i >= config.moe_layer_start_index
+                and i <= config.moe_layer_end_index
+                and (i + 1) % config.moe_layer_interval == 0
+            )
+        ]
+        self.num_moe_layers = len(moe_layers_indices)
+        self.num_expert_groups = 1
+
+        self.moe_layers: list[SharedFusedMoE] = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, Ernie4_5_MoeDecoderLayer)
+            if isinstance(layer.mlp, Ernie4_5_MoeMoE):
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_moe is None:
+            logger.warning("No Ernie4_5_MoeMoE layer found in model.layers.")
+            self.num_logical_experts = 0
+            self.num_physical_experts = 0
+            self.num_local_physical_experts = 0
+            self.num_routed_experts = 0
+            self.num_shared_experts = 0
+            self.num_redundant_experts = 0
+        else:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, Ernie4_5_MoeMoE):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/ernie45_vl.py b/model_executor/models/ernie45_vl.py
new file mode 100644
index 0000000..7aba1f9
--- /dev/null
+++ b/model_executor/models/ernie45_vl.py
@@ -0,0 +1,1742 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Baidu team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Erine VL model compatible with HuggingFace weights."""
+
+import itertools
+import math
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Any, Literal
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers import BatchFeature
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import QuickGELU
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .ernie45_vl_moe import Ernie4_5_VLMoeForCausalLM
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+from .vision import get_vit_attn_backend
+
+logger = init_logger(__name__)
+
+# === Vision Transformer === #
+
+
+def rotate_half(x: torch.Tensor, interleaved: bool = False) -> torch.Tensor:
+    if not interleaved:
+        x1, x2 = x.chunk(2, dim=-1)
+        return torch.cat((-x2, x1), dim=-1)
+    else:
+        x1, x2 = x[..., ::2], x[..., 1::2]
+        return rearrange(
+            torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2
+        )
+
+
+def apply_rotary_emb_torch(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, interleaved: bool = False
+) -> torch.Tensor:
+    """
+    x: (batch_size, seqlen, nheads, headdim)
+    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
+    """
+    ro_dim = cos.shape[-1] * 2
+    assert ro_dim <= x.shape[-1]
+    cos = repeat(
+        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    sin = repeat(
+        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    return torch.cat(
+        [
+            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
+            x[..., ro_dim:],
+        ],
+        dim=-1,
+    )
+
+
+def apply_rotary_pos_emb_vision(t: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
+    t_ = t.float()
+    cos = freqs.cos()
+    sin = freqs.sin()
+    apply_rotary_emb = apply_rotary_emb_torch
+    # if current_platform.is_cuda():
+    #     from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+    output = apply_rotary_emb(t_, cos, sin).type_as(t)
+    return output
+
+
+def all_gather_interleave(local_tensor, hidden_size: int, tp_size: int):
+    """All-gather the input tensor interleavely across model parallel group."""
+    import torch.distributed as dist
+
+    gathered_tensors = [torch.zeros_like(local_tensor) for _ in range(tp_size)]
+    dist.all_gather(
+        gathered_tensors, local_tensor, group=parallel_state.get_tp_group().device_group
+    )
+
+    gathered_tensors_split = [
+        torch.split(tensor, hidden_size // tp_size, -1) for tensor in gathered_tensors
+    ]
+    ordered_tensors = [
+        tensor for pair in zip(*gathered_tensors_split) for tensor in pair
+    ]
+    result_tensor = torch.cat(ordered_tensors, dim=-1)
+    return result_tensor
+
+
+class Ernie4_5_VisionAttention(nn.Module):
+    """VisionAttention using VLLM framework APIs"""
+
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        # Per attention head and per partition values.
+        self.tp_size = parallel_state.get_tensor_model_parallel_world_size()
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            total_num_kv_heads=num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+        )
+        self.proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+        )
+
+        # Detect attention implementation.
+        self.attn_backend = get_vit_attn_backend(
+            head_size=self.hidden_size_per_attention_head,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.use_upstream_fa = False
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Ernie45-VL does not support {self.attn_backend} backend now."
+            )
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        # [s, b, 3 * head * head_dim]
+        seq_len, bs, _ = qkv.shape
+        if self.tp_size > 1:
+            qkv = all_gather_interleave(qkv, self.qkv.hidden_size, self.tp_size)
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
+        q, k, v = qkv.chunk(3, dim=2)
+
+        # 3 * [s, b, head * head_dim]
+        if self.tp_size > 1:
+            splitter = partial(
+                dist_utils.split_tensor_along_last_dim, num_partitions=self.tp_size
+            )
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+            v = splitter(v)[self.tp_rank]
+
+        # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
+        new_shape = (
+            seq_len,
+            bs,
+            self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        )
+        q, k, v = (x.view(*new_shape) for x in (q, k, v))
+        return q, k, v
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        # [s, b, c] --> [s, b, head * 3 * head_dim]
+        x, _ = self.qkv(x)
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head, head_dim]
+        q, k, v = self.split_qkv(x)
+        batch_size = q.shape[1]
+
+        q, k, v = (rearrange(x, "s b ... -> b s ...").contiguous() for x in (q, k, v))
+        if rotary_pos_emb is not None:
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
+
+            output = self.flash_attn_varlen_func(
+                q,
+                k,
+                v,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+                dropout_p=0.0,
+                causal=False,
+            )
+
+            context_layer = rearrange(
+                output, "(b s) h d -> s b (h d)", b=batch_size
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            # Execute attention entry by entry for speed & less VRAM.
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                start_idx = cu_seqlens[i - 1]
+                end_idx = cu_seqlens[i]
+                q_i = q[:, start_idx:end_idx]
+                k_i = k[:, start_idx:end_idx]
+                v_i = v[:, start_idx:end_idx]
+                q_i, k_i, v_i = (
+                    rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
+                )
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                output_i = rearrange(output_i, "b h s d -> b s h d ")
+                outputs.append(output_i)
+            context_layer = torch.cat(outputs, dim=1)
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            from xformers import ops as xops
+            from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+            attn_bias = BlockDiagonalMask.from_seqlens(
+                q_seqlen=seqlens, kv_seqlen=None, device=q.device
+            )
+
+            context_layer = xops.memory_efficient_attention_forward(
+                q, k, v, attn_bias=attn_bias, p=0, scale=None
+            )
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+
+        output, _ = self.proj(context_layer)
+        return output
+
+
+class Ernie4_5_VisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        act_layer: type[nn.Module] = QuickGELU,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.fc1 = ColumnParallelLinear(
+            in_features,
+            hidden_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.act = act_layer()
+        self.fc2 = RowParallelLinear(
+            hidden_features,
+            in_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x_parallel, _ = self.fc1(x)
+        x_parallel = self.act(x_parallel)
+        x, _ = self.fc2(x_parallel)
+        return x
+
+
+class Ernie4_5_VisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_ratio: float,
+        act_layer: type[nn.Module] = QuickGELU,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+
+        self.attn = Ernie4_5_VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.mlp = Ernie4_5_VisionMLP(
+            dim,
+            mlp_hidden_dim,
+            act_layer=act_layer,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        hidden_states = hidden_states + self.attn(
+            self.norm1(hidden_states),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+        hidden_states = hidden_states + self.mlp(self.norm2(hidden_states))
+        return hidden_states
+
+
+class Ernie4_5_VisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        in_channels: int = 3,
+        embed_dim: int = 1280,
+        prefix="",
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.in_channels = in_channels
+        self.embed_dim = embed_dim
+
+        self.proj = nn.Linear(
+            in_channels * patch_size * patch_size, embed_dim, bias=False
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        target_dtype = self.proj.weight.dtype
+        hidden_states = hidden_states.to(target_dtype)
+        hidden_states = self.proj(hidden_states)
+
+        return hidden_states
+
+
+class Ernie4_5_VisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.inv_freq = 1.0 / theta ** (
+            torch.arange(start=0, end=dim, step=2, dtype=torch.float32) / dim
+        )
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+        )
+        freqs = torch.outer(input=seq, vec2=self.inv_freq)
+        return freqs
+
+
+class Ernie4_5_VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        patch_size = vision_config.patch_size
+        spatial_merge_size = vision_config.spatial_merge_size
+        in_channels = vision_config.in_channels
+        hidden_size = vision_config.hidden_size
+        embed_dim = vision_config.embed_dim
+        depth = vision_config.depth
+        num_heads = vision_config.num_heads
+        mlp_ratio = vision_config.mlp_ratio
+
+        self.spatial_merge_size = spatial_merge_size
+        self.num_heads = num_heads
+        self.embed_dim = embed_dim
+
+        self.patch_embed = Ernie4_5_VisionPatchEmbed(
+            patch_size=patch_size,
+            in_channels=in_channels,
+            embed_dim=embed_dim,
+            prefix=f"{prefix}.patch_embed",
+        )
+
+        norm_layer = partial(nn.LayerNorm, eps=norm_eps)
+        head_dim = embed_dim // num_heads
+        self.rotary_pos_emb = Ernie4_5_VisionRotaryEmbedding(head_dim // 2)
+
+        self.blocks = nn.ModuleList(
+            [
+                Ernie4_5_VisionBlock(
+                    dim=embed_dim,
+                    num_heads=num_heads,
+                    mlp_ratio=mlp_ratio,
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                    attn_backend_override=attn_backend_override,
+                )
+                for layer_idx in range(depth)
+            ]
+        )
+
+        assert hidden_size == embed_dim, (
+            "vit's config.hidden must be equal to config.embed_dim"
+        )
+        self.ln = nn.LayerNorm(hidden_size, eps=1e-6)
+
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    def rot_pos_emb(self, grid_thw: torch.Tensor) -> torch.Tensor:
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            hpos_ids = (
+                hpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            wpos_ids = (
+                wpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        pos_ids = torch.cat(pos_ids, dim=0)
+        max_grid_size = grid_thw[:, 1:].max()
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def compute_attn_mask_seqlen(
+        self, cu_seqlens: torch.Tensor
+    ) -> tuple[int | None, list[int] | None]:
+        max_seqlen, seqlens = None, None
+        if (
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
+        ):
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        return max_seqlen, seqlens
+
+    def forward(
+        self, hidden_states: torch.Tensor, grid_thw: torch.Tensor, num_pad=0
+    ) -> torch.Tensor:
+        hidden_states = self.patch_embed(hidden_states)
+
+        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+        rotary_pos_emb = rotary_pos_emb.to(hidden_states.device)
+
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(dim=0, dtype=torch.int32)
+
+        zeros = cu_seqlens.new_zeros(1)
+        if num_pad > 0:
+            cu_seqlens = torch.cat([zeros, cu_seqlens, zeros])
+            cu_seqlens[-1] = cu_seqlens[-2] + num_pad
+        else:
+            cu_seqlens = torch.cat([zeros, cu_seqlens])
+
+        # add batch size
+        if hidden_states.ndim == 2:
+            hidden_states = hidden_states.unsqueeze(dim=1)
+
+        # pre-compute seqlens for attn mask to reduce cuMemcpy operations
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+
+        for i, blk in enumerate(self.blocks):
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+
+        final_output = self.ln(hidden_states)
+
+        if final_output.ndim == 3:
+            final_output = final_output.squeeze(dim=1)
+
+        return final_output
+
+    def load_weights(self, weights) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+# === Vision Inputs === #
+
+
+class Ernie4_5_VLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - ni: Number of images
+        - cps: Number of channels * patch_size * patch_size
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[torch.Tensor, TensorShape("np", "cps")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+Ernie4_5_VLImageInputs = Ernie4_5_VLImagePixelInputs
+
+
+class Ernie4_5_VLVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - ni: Number of images
+        - cps: Number of channels * temporal_patch_size * patch_size *
+              patch_size
+    """
+
+    type: Literal["pixel_values_videos"]
+    pixel_values_videos: Annotated[torch.Tensor, TensorShape("np", "cps")]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+Ernie4_5_VLVideoInputs = Ernie4_5_VLVideoPixelInputs
+
+# === Vision Processor === #
+
+
+def round_by_factor(number: int | float, factor: int) -> int:
+    return round(number / factor) * factor
+
+
+def ceil_by_factor(number: int | float, factor: int) -> int:
+    return math.ceil(number / factor) * factor
+
+
+def floor_by_factor(number: int | float, factor: int) -> int:
+    return math.floor(number / factor) * factor
+
+
+def smart_resize(
+    height: int,
+    width: int,
+    factor: int = 28,
+    min_pixels: int = 4 * 28 * 28,
+    max_pixels: int = 16384 * 28 * 28,
+):
+    MAX_RATIO = 200
+    if max(height, width) / min(height, width) > MAX_RATIO:
+        if height > width:
+            new_width = max(factor, round_by_factor(width, factor))
+            new_height = floor_by_factor(new_width * MAX_RATIO, factor)
+        else:
+            new_height = max(factor, round_by_factor(height, factor))
+            new_width = floor_by_factor(new_height * MAX_RATIO, factor)
+
+        height = new_height
+        width = new_width
+
+    h_bar = max(factor, round_by_factor(height, factor))
+    w_bar = max(factor, round_by_factor(width, factor))
+    if h_bar * w_bar > max_pixels:
+        beta = math.sqrt((height * width) / max_pixels)
+        h_bar = floor_by_factor(height / beta, factor)
+        w_bar = floor_by_factor(width / beta, factor)
+    elif h_bar * w_bar < min_pixels:
+        beta = math.sqrt(min_pixels / (height * width))
+        h_bar = ceil_by_factor(height * beta, factor)
+        w_bar = ceil_by_factor(width * beta, factor)
+
+    if min_pixels > h_bar * w_bar or h_bar * w_bar > max_pixels:
+        raise ValueError(f"encounter invalid h_bar: {h_bar}, w_bar: {w_bar}")
+
+    return h_bar, w_bar
+
+
+class VariableResolutionResamplerModel(nn.Module):
+    def __init__(
+        self,
+        in_dim,
+        out_dim,
+        spatial_conv_size,
+        temporal_conv_size,
+        config,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.config = config
+        self.spatial_conv_size = spatial_conv_size
+        self.temporal_conv_size = temporal_conv_size
+        self.use_temporal_conv = config.use_temporal_conv
+
+        # compress 2d conv(picture) to 1d
+        self.spatial_dim = self.in_dim * self.spatial_conv_size * self.spatial_conv_size
+        # compress 3d conv(video) to 1d
+        self.temporal_dim = (
+            self.in_dim
+            * self.spatial_conv_size
+            * self.spatial_conv_size
+            * self.temporal_conv_size
+        )
+
+        self.spatial_linear1 = ColumnParallelLinear(
+            self.spatial_dim,
+            self.spatial_dim,
+            bias=True,
+            gather_output=True,
+            quant_config=getattr(config, "quant_config", None),
+            prefix=f"{prefix}.spatial_linear1",
+        )
+
+        self.spatial_gelu = nn.GELU()
+
+        self.spatial_linear2 = ColumnParallelLinear(
+            self.spatial_dim,
+            self.spatial_dim,
+            bias=True,
+            gather_output=True,
+            quant_config=getattr(config, "quant_config", None),
+            prefix=f"{prefix}.spatial_linear2",
+        )
+
+        self.spatial_norm = nn.LayerNorm(self.spatial_dim, eps=1e-6)
+
+        if self.use_temporal_conv:
+            self.temporal_linear1 = ColumnParallelLinear(
+                self.temporal_dim,
+                self.spatial_dim,
+                bias=True,
+                gather_output=True,
+                quant_config=getattr(config, "quant_config", None),
+                prefix=f"{prefix}.temporal_linear1",
+            )
+
+            self.temporal_gelu = nn.GELU()
+
+            self.temporal_linear2 = ColumnParallelLinear(
+                self.spatial_dim,
+                self.spatial_dim,
+                bias=True,
+                gather_output=True,
+                quant_config=getattr(config, "quant_config", None),
+                prefix=f"{prefix}.temporal_linear2",
+            )
+
+            self.temporal_norm = nn.LayerNorm(self.spatial_dim, eps=1e-6)
+
+        self.mlp = ColumnParallelLinear(
+            self.spatial_dim,
+            self.out_dim,
+            bias=True,
+            gather_output=True,
+            quant_config=getattr(config, "quant_config", None),
+            prefix=f"{prefix}.mlp",
+        )
+
+        self.after_norm = RMSNorm(
+            hidden_size=out_dim, eps=getattr(config, "rms_norm_eps", 1e-6)
+        )
+
+    def spatial_conv_reshape(self, x, spatial_conv_size):
+        S, C = x.shape
+        x = x.reshape([-1, C * (spatial_conv_size**2)])
+        return x
+
+    def forward(self, x, grid_thw):
+        def fwd_spatial(x):
+            x = self.spatial_conv_reshape(x, self.spatial_conv_size)
+
+            x, _ = self.spatial_linear1(x)
+            x = self.spatial_gelu(x)
+            x, _ = self.spatial_linear2(x)
+            x = self.spatial_norm(x)
+
+            return x
+
+        def fwd_placeholder(x, grid_thw, to_tensor=False):
+            grid_thw_cpu = grid_thw.cpu().numpy()
+            grid_t, grid_hw = grid_thw_cpu[:, 0], grid_thw_cpu[:, 1:]
+            grid_hw_after_conv = grid_hw.prod(-1) // (self.spatial_conv_size**2)
+
+            tokens_per_img_or_vid = grid_thw_cpu.prod(-1) // (self.spatial_conv_size**2)
+            batch_offset = np.empty(
+                tokens_per_img_or_vid.size, dtype=tokens_per_img_or_vid.dtype
+            )
+            batch_offset[0] = 0
+            batch_offset[1:] = tokens_per_img_or_vid.cumsum()[:-1]
+
+            slice_offsets = []
+            for temporoal_size, spatial_size, b_offset in zip(
+                grid_t, grid_hw_after_conv, batch_offset
+            ):
+                for temp_offset in range(0, temporoal_size, 2):
+                    slice_offsets.append(
+                        np.arange(
+                            b_offset + (temp_offset) * spatial_size,
+                            b_offset + (temp_offset + 1) * spatial_size,
+                        )
+                    )
+            slice_offsets = torch.tensor(np.concatenate(slice_offsets, axis=-1)).to(
+                x.device
+            )
+
+            slice_offsets2 = []
+            for temporoal_size, spatial_size, b_offset in zip(
+                grid_t, grid_hw_after_conv, batch_offset
+            ):
+                for temp_offset in range(
+                    1 if temporoal_size > 1 else 0, temporoal_size, 2
+                ):
+                    slice_offsets2.append(
+                        np.arange(
+                            b_offset + (temp_offset) * spatial_size,
+                            b_offset + (temp_offset + 1) * spatial_size,
+                        )
+                    )
+            slice_offsets2 = torch.tensor(np.concatenate(slice_offsets2, axis=-1)).to(
+                x.device
+            )
+
+            x_timestep_1 = torch.index_select(x, dim=0, index=slice_offsets)
+            x_timestep_2 = torch.index_select(x, dim=0, index=slice_offsets2)
+            x = torch.concat([x_timestep_1, x_timestep_2], dim=-1)
+            return x
+
+        def fwd_temporal(x):
+            x, _ = self.temporal_linear1(x)
+            x = self.temporal_gelu(x)
+            x, _ = self.temporal_linear2(x)
+            x = self.temporal_norm(x)
+            return x
+
+        def fwd_mlp(x):
+            x, _ = self.mlp(x)
+            x = self.after_norm(x)
+            return x
+
+        x = fwd_spatial(x)
+        if self.use_temporal_conv:
+            x = fwd_placeholder(x, grid_thw)
+            x = fwd_temporal(x)
+        x = fwd_mlp(x)
+        return x
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if name not in params_dict:
+                continue
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Ernie4_5_VLProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.model_config.hf_config
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(use_fast=True, **kwargs)
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        max_image_tokens = self.get_max_image_tokens()
+        max_video_tokens = self.get_max_video_tokens(seq_len, mm_counts)
+        return {"image": max_image_tokens, "video": max_video_tokens}
+
+    def _get_vision_info(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 1,
+        do_resize: bool = True,
+        image_processor: Any | None,
+    ) -> tuple[ImageSize, int]:
+        if image_processor is None:
+            image_processor = self.get_image_processor()
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+
+        patch_size = vision_config.patch_size
+        spatial_conv_size = hf_config.spatial_conv_size
+        temporal_conv_size = hf_config.temporal_conv_size
+
+        if do_resize:
+            resized_height, resized_width = smart_resize(
+                height=image_height,
+                width=image_width,
+                factor=patch_size * spatial_conv_size,
+                min_pixels=image_processor.min_pixels,
+                max_pixels=image_processor.max_pixels,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        grid_t = max(num_frames // temporal_conv_size, 1)
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches // (spatial_conv_size**2)
+
+        return preprocessed_size, num_vision_tokens
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        image_processor: Any | None,
+    ) -> int:
+        _, num_image_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            image_processor=image_processor,
+        )
+        return num_image_tokens
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+        image_processor: Any | None,
+    ) -> int:
+        _, num_video_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            num_frames=num_frames,
+            image_processor=image_processor,
+        )
+        return num_video_tokens
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        max_image_size, _ = self._get_vision_info(
+            image_width=9999999,
+            image_height=9999999,
+            image_processor=None,
+        )
+        return max_image_size
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_image_tokens = self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            image_processor=None,
+        )
+        return num_image_tokens
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = 0
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+                image_processor=None,
+            )
+
+            if next_max_tokens > max_tokens:
+                break
+
+            num_frames = next_num_frames
+
+        # If the number of frames is odd, discard one frame.
+        if num_frames % 2 != 0:
+            num_frames -= 1
+
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len - max_image_tokens)
+        max_frames_per_video = max_total_frames // max(max_videos, 1)
+
+        return max(max_frames_per_video, 2)
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len, mm_counts),
+            image_processor=None,
+        )
+
+
+class Ernie4_5VLMultiModalProcessor(BaseMultiModalProcessor[Ernie4_5_VLProcessingInfo]):
+    def _pixel_values_norm(
+        self,
+        pixel_values: torch.Tensor,
+        mm_kwargs: object,
+    ) -> torch.Tensor:
+        hf_config = self.info.get_hf_config()
+        vision_config = hf_config.vision_config
+        image_processor = self.info.get_image_processor(**mm_kwargs)
+        image_mean_tensor = torch.tensor(
+            image_processor.image_mean, dtype=torch.float32
+        ).reshape([1, 3, 1, 1])
+        image_std_tensor = torch.tensor(
+            image_processor.image_std, dtype=torch.float32
+        ).reshape([1, 3, 1, 1])
+        rescale_factor = torch.tensor(
+            image_processor.rescale_factor, dtype=torch.float32
+        )
+        patch_size_squared = vision_config.patch_size**2
+
+        image_mean_tensor = image_mean_tensor.squeeze([-2, -1]).repeat_interleave(
+            patch_size_squared, -1
+        )
+        image_std_tensor = image_std_tensor.squeeze([-2, -1]).repeat_interleave(
+            patch_size_squared, -1
+        )
+
+        if not image_mean_tensor.is_contiguous():
+            image_mean_tensor = image_mean_tensor.contiguous()
+        if not image_std_tensor.is_contiguous():
+            image_std_tensor = image_std_tensor.contiguous()
+
+        pixel_values = (
+            rescale_factor * pixel_values.to(torch.float32) - image_mean_tensor
+        ) / image_std_tensor
+        pixel_values = pixel_values.to(hf_config.dtype)
+        return pixel_values
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # when the prompt is not empty but the multimodal data is empty,
+        # directly invoke the tokenizer.
+        if "images" not in mm_data and "videos" not in mm_data and prompt != "":
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = tokenizer.encode(prompt)
+            tokenizer_output = BatchFeature(
+                dict(input_ids=[prompt_ids]), tensor_type="pt"
+            )
+            return tokenizer_output
+
+        if "images" not in mm_data:
+            mm_data["images"] = []
+        if "videos" not in mm_data:
+            mm_data["videos"] = []
+        processor_output = self.info.ctx.call_hf_processor(
+            self.info.get_hf_processor(**mm_kwargs),
+            dict(text=[prompt], images=mm_data["images"], videos=mm_data["videos"]),
+            dict(**mm_kwargs, **tok_kwargs),
+        )
+
+        # Divide the processor_output into two modalities: image and video.
+        if processor_output is not None:
+            pixel_values = processor_output["images"]
+            if pixel_values is not None:
+                processor_output["images"] = self._pixel_values_norm(
+                    pixel_values, mm_kwargs
+                )
+            for key in list(processor_output.keys()):
+                if processor_output[key] is None:
+                    del processor_output[key]
+                    continue
+                if key == "grid_thw":
+                    grid_thw = processor_output["grid_thw"]
+                    pixel_values_all = processor_output["images"]
+                    # Identify elements where the first
+                    # dimension is greater than 1 and
+                    # treat them as the video modality
+                    mask = grid_thw[:, 0] > 1
+                    processor_output["video_grid_thw"] = grid_thw[mask]
+                    processor_output["image_grid_thw"] = grid_thw[~mask]
+                    image_patch_num = (
+                        processor_output["image_grid_thw"].prod(dim=1).sum()
+                    )
+                    processor_output["pixel_values"] = pixel_values_all[
+                        :image_patch_num
+                    ]
+                    processor_output["pixel_values_videos"] = pixel_values_all[
+                        image_patch_num:
+                    ]
+                    del processor_output["images"]
+
+        return processor_output
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        before_placeholder = {
+            "image": "<|image@placeholder|>",
+            "video": "<|video@placeholder|>",
+        }
+
+        after_placeholder = {
+            # image and video have same placeholder
+            "image": "<|IMAGE_PLACEHOLDER|>",
+            "video": "<|IMAGE_PLACEHOLDER|>",
+        }
+
+        merge_length = hf_processor.spatial_conv_size**2
+
+        def get_replacement_ernie45vl(item_idx: int, modality: str):
+            out_item = out_mm_kwargs[modality][item_idx]
+            grid_thw = out_item[f"{modality}_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+            if modality == "video":
+                num_tokens = (
+                    int(grid_thw.prod())
+                    // hf_processor.temporal_conv_size
+                    // merge_length
+                )
+            else:
+                num_tokens = int(grid_thw.prod()) // merge_length
+            return after_placeholder[modality] * num_tokens
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=before_placeholder[modality],
+                replacement=partial(get_replacement_ernie45vl, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_grid_thw = hf_inputs.get("image_grid_thw", torch.empty((0, 3)))
+        image_grid_sizes = image_grid_thw.prod(-1)
+
+        video_grid_thw = hf_inputs.get("video_grid_thw", torch.empty((0, 3)))
+        video_grid_sizes = video_grid_thw.prod(-1)
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_grid_sizes
+            ),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_grid_sizes
+            ),
+            video_grid_thw=MultiModalFieldConfig.batched("video"),
+        )
+
+
+class Ernie4_5_VLDummyInputsBuilder(BaseDummyInputsBuilder[Ernie4_5_VLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+        prompt = ""
+        for i in range(num_images):
+            prompt += (
+                f"Picture {i + 1}:<|IMAGE_START|><|image@placeholder|><|IMAGE_END|>"
+            )
+
+        for i in range(num_videos):
+            prompt += f"Video {i + 1}:<|VIDEO_START|><|video@placeholder|><|VIDEO_END|>"
+        return prompt
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Ernie4_5VLMultiModalProcessor,
+    info=Ernie4_5_VLProcessingInfo,
+    dummy_inputs=Ernie4_5_VLDummyInputsBuilder,
+)
+class Ernie4_5_VLMoeForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+            # model.resampler_model.-> language_model.model.resampler_model.
+            # language_model.model.resampler_model. -> resampler_model.
+            "language_model.model.resampler_model.": "resampler_model.",
+        },
+        # resampler_weight_mappings
+        orig_to_new_substr={
+            "spatial_linear.0.": "spatial_linear1.",
+            "spatial_linear.2.": "spatial_linear2.",
+            "spatial_linear.3.": "spatial_norm.",
+            "temporal_linear.0.": "temporal_linear1.",
+            "temporal_linear.2.": "temporal_linear2.",
+            "temporal_linear.3.": "temporal_norm.",
+        },
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|IMAGE_START|><|image@placeholder|><|IMAGE_END|>"
+        if modality.startswith("video"):
+            return "<|VIDEO_START|><|video@placeholder|><|VIDEO_END|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.vision_model = Ernie4_5_VisionTransformer(
+            config.vision_config,
+            norm_eps=getattr(config, "rms_norm_eps", 1e-6),
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.language_model = Ernie4_5_VLMoeForCausalLM(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.resampler_model = VariableResolutionResamplerModel(
+            self.config.pixel_hidden_size,
+            self.config.hidden_size,
+            self.config.spatial_conv_size,
+            self.config.temporal_conv_size,
+            config=self.config,
+            prefix=maybe_prefix(prefix, "resampler_model"),
+        )
+
+        self.visual_token_mask = None
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+        if getattr(self.config, "im_patch_id", None):
+            visual_token_ids = [
+                token_id
+                for token_id in [
+                    self.config.im_patch_id,
+                    getattr(self.config, "image_start_token_id", None),
+                    getattr(self.config, "image_end_token_id", None),
+                    getattr(self.config, "video_start_token_id", None),
+                    getattr(self.config, "video_end_token_id", None),
+                ]
+                if token_id is not None
+            ]
+            self._visual_token_ids_tensor_cache = torch.tensor(
+                visual_token_ids, dtype=torch.long
+            )
+        else:
+            self._visual_token_ids_tensor_cache = None
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        """compute logits"""
+        return self.language_model.compute_logits(hidden_states)
+
+    def _vision_forward(
+        self,
+        pixel_values: torch.Tensor,
+        grid_thw: torch.Tensor,
+    ) -> torch.Tensor:
+        if grid_thw is not None:
+            grid_thw = grid_thw[grid_thw > 0]
+            if grid_thw.numel() % 3 != 0:
+                raise ValueError(
+                    f"grid_thw has {grid_thw.numel()} elements after filtering,"
+                    "which is not divisible by 3."
+                )
+            grid_thw = grid_thw.reshape(-1, 3)
+            # example: [[1,64,64],[2,80,80]] -> [[1,64,64],[1,80,80],[1,80,80]]
+            grid_thw = F.pad(
+                torch.repeat_interleave(grid_thw[:, 1:], grid_thw[:, 0], 0),
+                [1, 0, 0, 0],
+                value=1,
+            )
+        image_features = self.vision_model(pixel_values, grid_thw)
+        return image_features
+
+    def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
+        """Set mask for visual tokens (image/video patches and delimiters)."""
+        if self._visual_token_ids_tensor_cache is None:
+            self.visual_token_mask = None
+            return
+        # Create tensor on the correct device
+        visual_token_ids_tensor = self._visual_token_ids_tensor_cache.to(
+            device=input_ids.device,
+            dtype=input_ids.dtype,
+        )
+
+        self.visual_token_mask = torch.isin(input_ids, visual_token_ids_tensor).reshape(
+            -1, 1
+        )
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
+        hf_config = self.config
+        image_token_id = hf_config.im_patch_id
+        video_start_token_id = hf_config.video_start_token_id
+        video_end_token_id = hf_config.video_end_token_id
+        spatial_conv_size = hf_config.spatial_conv_size
+        temporal_conv_size = hf_config.temporal_conv_size
+        llm_pos_ids_list: list = []
+
+        if image_grid_thw or video_grid_thw:
+            input_token_type: list[str] = []
+            video_check_flg = False
+            for token in input_tokens:
+                if token == video_start_token_id:
+                    video_check_flg = True
+                elif token == video_end_token_id:
+                    video_check_flg = False
+
+                if (token == image_token_id) and (video_check_flg is False):
+                    input_token_type.append("image")
+                elif (token == image_token_id) and (video_check_flg is True):
+                    input_token_type.append("video")
+                else:
+                    input_token_type.append("text")
+
+            input_type_group: list[tuple[str, int, int]] = []
+            for key, group_iter in itertools.groupby(
+                enumerate(input_token_type), lambda x: x[1]
+            ):
+                group_list = list(group_iter)
+                start_index = group_list[0][0]
+                end_index = group_list[-1][0] + 1
+                input_type_group.append((key, start_index, end_index))
+
+            video_frame_num = 1
+            mm_data_idx = 0
+            for modality_type, start_idx, end_idx in input_type_group:
+                st_idx = (
+                    llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+                )
+                if modality_type == "image":
+                    t, h, w = image_grid_thw[mm_data_idx]
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_conv_size,
+                        w // spatial_conv_size,
+                    )
+
+                    t_index = (
+                        torch.arange(llm_grid_t)
+                        .view(-1, 1)
+                        .expand(-1, llm_grid_h * llm_grid_w)
+                        .flatten()
+                    )
+                    h_index = (
+                        torch.arange(llm_grid_h)
+                        .view(1, -1, 1)
+                        .expand(llm_grid_t, -1, llm_grid_w)
+                        .flatten()
+                    )
+                    w_index = (
+                        torch.arange(llm_grid_w)
+                        .view(1, 1, -1)
+                        .expand(llm_grid_t, llm_grid_h, -1)
+                        .flatten()
+                    )
+                    llm_pos_ids_list.append(
+                        torch.stack([t_index, h_index, w_index]) + st_idx
+                    )
+                    mm_data_idx += 1
+
+                elif modality_type == "video":
+                    t, h, w = video_grid_thw[mm_data_idx]
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t // temporal_conv_size,
+                        h // spatial_conv_size,
+                        w // spatial_conv_size,
+                    )
+
+                    for t_idx in range(llm_grid_t):
+                        t_index = (
+                            torch.tensor(t_idx)
+                            .view(-1, 1)
+                            .expand(-1, llm_grid_h * llm_grid_w)
+                            .flatten()
+                        )
+                        h_index = (
+                            torch.arange(llm_grid_h)
+                            .view(1, -1, 1)
+                            .expand(1, -1, llm_grid_w)
+                            .flatten()
+                        )
+                        w_index = (
+                            torch.arange(llm_grid_w)
+                            .view(1, 1, -1)
+                            .expand(1, llm_grid_h, -1)
+                            .flatten()
+                        )
+                        llm_pos_ids_list.append(
+                            torch.stack([t_index, h_index, w_index]) + st_idx
+                        )
+
+                    mm_data_idx += 1
+                    video_frame_num += 1
+
+                else:
+                    text_len = end_idx - start_idx
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                    )
+                    video_frame_num = 1
+
+        else:
+            text_len = len(input_tokens)
+            llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        return llm_positions, mrope_position_delta
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Ernie4_5_VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None:
+            return None
+
+        if pixel_values is not None:
+            return Ernie4_5_VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Ernie4_5_VLVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+
+        if pixel_values_videos is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Ernie4_5_VLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: Ernie4_5_VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        pixel_values = image_input["pixel_values"].type(self.vision_model.dtype)
+        image_features = self._vision_forward(
+            pixel_values=pixel_values, grid_thw=grid_thw
+        )
+        image_embeds = self.resampler_model(image_features, grid_thw)
+
+        merge_size = self.vision_model.spatial_merge_size
+        sizes = grid_thw.prod(-1) // merge_size // merge_size
+
+        return image_embeds.split(sizes.tolist())
+
+    def _process_video_input(
+        self, video_input: Ernie4_5_VLVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        pixel_values_videos = video_input["pixel_values_videos"].type(
+            self.vision_model.dtype
+        )
+        video_features = self._vision_forward(
+            pixel_values=pixel_values_videos, grid_thw=grid_thw
+        )
+        video_embeds = self.resampler_model(video_features, grid_thw)
+
+        merge_size = self.vision_model.spatial_merge_size
+        sizes = (
+            (grid_thw.prod(-1) // self.config.temporal_conv_size)
+            // merge_size
+            // merge_size
+        )
+
+        return video_embeds.split(sizes.tolist())
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "videos" not in modalities
+            ):
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return None
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_video_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        if multimodal_embeddings is not None and len(multimodal_embeddings) > 0:
+            self._set_visual_token_mask(input_ids)
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        forward_kwargs = {
+            "input_ids": input_ids,
+            "positions": positions,
+            "intermediate_tensors": intermediate_tensors,
+            "inputs_embeds": inputs_embeds,
+        }
+
+        if self.visual_token_mask is not None:
+            if self.visual_token_mask.shape[0] != inputs_embeds.shape[0]:
+                padding_len = inputs_embeds.shape[0] - self.visual_token_mask.shape[0]
+                # right pad False
+                pad = torch.zeros(
+                    (padding_len, self.visual_token_mask.shape[1]),
+                    dtype=self.visual_token_mask.dtype,
+                    device=self.visual_token_mask.device,
+                )
+                self.visual_token_mask = torch.cat([self.visual_token_mask, pad], dim=0)
+
+            forward_kwargs.update({"visual_token_mask": self.visual_token_mask})
+            self.visual_token_mask = None
+
+        hidden_states = self.language_model.model(
+            **forward_kwargs,
+            **kwargs,
+        )
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/ernie45_vl_moe.py b/model_executor/models/ernie45_vl_moe.py
new file mode 100644
index 0000000..e8ef86f
--- /dev/null
+++ b/model_executor/models/ernie45_vl_moe.py
@@ -0,0 +1,803 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Baidu team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Erine VL model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+
+# from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding.ernie45_vl_rope import (
+    Ernie4_5_VLRotaryEmbedding,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .ernie45_moe import Ernie4_5_MoeMLP
+from .interfaces import SupportsPP
+from .utils import (
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Ernie4_5_VLMoeMLP(Ernie4_5_MoeMLP):
+    def __init__(self, shared_experts: torch.nn.Module | None = None, **kwargs):
+        super().__init__(**kwargs)
+        self.shared_experts = shared_experts
+
+    def forward(self, x):
+        if self.shared_experts is not None:
+            return self.shared_experts(x) + super().forward(x)
+        else:
+            return super().forward(x)
+
+
+class Ernie4_5_VLMoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int | None = None,
+        rope_theta: float = 500000,
+        rope_scaling: dict[str, Any] | None = None,
+        freq_allocation: int = 20,
+        max_position_embeddings: int = 131072,
+        rms_norm_eps: float = 1e-05,
+        qkv_bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix) if len(prefix) > 0 else 0
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        t_rope = freq_allocation
+        h_rope = (self.head_dim // 2 - freq_allocation) // 2
+        w_rope = (self.head_dim // 2 - freq_allocation) // 2
+
+        self.rotary_emb = Ernie4_5_VLRotaryEmbedding(
+            head_size=self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position_embeddings=max_position_embeddings,
+            base=rope_theta,
+            is_neox_style=False,
+            dtype=torch.get_default_dtype(),
+            mrope_section=[h_rope, w_rope, t_rope],
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+
+        # Attention
+        attn_output = self.attn(q, k, v)
+        # Output projection
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Ernie4_5_VLMoeMoE(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        layer_idx = extract_layer_index(prefix)
+        self.layer_idx = layer_idx
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.has_shared_experts = getattr(config, "moe_num_shared_experts", 0) > 0
+        self.hidden_size = config.hidden_size
+
+        moe_num_experts = config.moe_num_experts
+        max_moe_num_experts = max(moe_num_experts)
+
+        if self.tp_size > max_moe_num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {moe_num_experts}."
+            )
+
+        moe_layer_start_index = config.moe_layer_start_index
+        text_moe_layer_start_index = moe_layer_start_index[0]
+        vision_moe_layer_start_index = moe_layer_start_index[1]
+        moe_layer_end_index = config.moe_layer_end_index
+        moe_layer_end_index = getattr(
+            config,
+            "moe_layer_end_index",
+            [config.num_hidden_layers - 1, config.num_hidden_layers - 1],
+        )
+        text_moe_layer_end_index = moe_layer_end_index[0]
+        vision_moe_layer_end_index = moe_layer_end_index[1]
+
+        assert config.moe_num_experts[0] == config.moe_num_experts[1]
+        self.e_score_correction_bias = nn.Parameter(
+            torch.empty(2, config.moe_num_experts[0], dtype=torch.float32)
+        )
+
+        assert text_moe_layer_start_index <= text_moe_layer_end_index
+
+        if self.has_shared_experts:
+            intermediate_size = (
+                config.moe_intermediate_size[0] * config.moe_num_shared_experts
+            )
+            self.shared_experts = Ernie4_5_VLMoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.shared_experts",
+                reduce_results=False,
+            )
+        else:
+            self.shared_experts = None
+
+        if (
+            layer_idx >= text_moe_layer_start_index
+            and layer_idx <= text_moe_layer_end_index
+        ):
+            self.text_experts_gate = ReplicatedLinear(
+                config.hidden_size,
+                config.moe_num_experts[0],
+                bias=False,
+                params_dtype=torch.float32,
+                quant_config=quant_config,
+                prefix=f"{prefix}.text_experts_gate",
+            )
+
+            self.text_experts = SharedFusedMoE(
+                shared_experts=self.shared_experts,
+                num_experts=config.moe_num_experts[0],
+                top_k=config.moe_k,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.moe_intermediate_size[0],
+                reduce_results=False,
+                renormalize=True,
+                quant_config=quant_config,
+                e_score_correction_bias=self.e_score_correction_bias[0],
+                prefix=f"{prefix}.text_experts",
+            )
+        else:
+            self.text_experts = Ernie4_5_VLMoeMLP(
+                shared_experts=self.shared_experts,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                use_bias=getattr(config, "use_bias", False),
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        assert vision_moe_layer_start_index <= vision_moe_layer_end_index
+        if (
+            layer_idx >= vision_moe_layer_start_index
+            and layer_idx <= vision_moe_layer_end_index
+        ):
+            self.vision_experts_gate = ReplicatedLinear(
+                config.hidden_size,
+                config.moe_num_experts[1],
+                bias=False,
+                params_dtype=torch.float32,
+                quant_config=quant_config,
+                prefix=f"{prefix}.vision_experts_gate",
+            )
+
+            self.vision_experts = SharedFusedMoE(
+                shared_experts=self.shared_experts,
+                num_experts=config.moe_num_experts[1],
+                top_k=config.moe_k,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.moe_intermediate_size[1],
+                reduce_results=False,
+                renormalize=True,
+                quant_config=quant_config,
+                e_score_correction_bias=self.e_score_correction_bias[1],
+                prefix=f"{prefix}.vision_experts",
+            )
+        else:
+            self.vision_experts = Ernie4_5_VLMoeMLP(
+                shared_experts=self.shared_experts,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                use_bias=getattr(config, "use_bias", False),
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        visual_token_mask: torch.Tensor,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if visual_token_mask is not None and visual_token_mask.all():
+            # only vision modal input
+            router_logits, _ = self.vision_experts_gate(
+                hidden_states.to(dtype=torch.float32)
+            )
+            final_hidden_states = self.vision_experts(
+                hidden_states=hidden_states, router_logits=router_logits
+            )
+        elif visual_token_mask is not None and visual_token_mask.any():
+            # text and vision modals input
+            visual_token_mask = visual_token_mask.repeat(1, self.hidden_size).bool()
+            text_token_mask = ~visual_token_mask
+            final_experts_hidden_states = torch.zeros_like(hidden_states)
+            final_shared_ouput = (
+                torch.zeros_like(hidden_states) if self.has_shared_experts else None
+            )
+
+            text_hidden_states = hidden_states[text_token_mask].reshape(
+                -1, self.hidden_size
+            )
+            vision_hidden_states = hidden_states[visual_token_mask].reshape(
+                -1, self.hidden_size
+            )
+
+            text_router_logits, _ = self.text_experts_gate(
+                text_hidden_states.to(dtype=torch.float32)
+            )
+            text_shared_ouput, text_experts_output = self.text_experts(
+                hidden_states=text_hidden_states, router_logits=text_router_logits
+            )
+            final_experts_hidden_states[text_token_mask] = text_experts_output.flatten()
+            if self.has_shared_experts:
+                final_shared_ouput[text_token_mask] = text_shared_ouput.flatten()
+
+            vision_router_logits, _ = self.vision_experts_gate(
+                vision_hidden_states.to(dtype=torch.float32)
+            )
+            vision_shared_ouput, vision_experts_output = self.vision_experts(
+                hidden_states=vision_hidden_states, router_logits=vision_router_logits
+            )
+            final_experts_hidden_states[visual_token_mask] = (
+                vision_experts_output.flatten()
+            )
+            if self.has_shared_experts:
+                final_shared_ouput[visual_token_mask] = vision_shared_ouput.flatten()
+
+            final_hidden_states = (final_shared_ouput, final_experts_hidden_states)
+        else:
+            # only text modal input
+            text_router_logits, _ = self.text_experts_gate(
+                hidden_states.to(dtype=torch.float32)
+            )
+
+            final_hidden_states = self.text_experts(
+                hidden_states=hidden_states, router_logits=text_router_logits
+            )
+
+        if self.has_shared_experts:
+            # for shared_experts model
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+        else:
+            # for not shared_experts model
+            final_hidden_states = final_hidden_states[1]
+
+        if self.tp_size > 1:
+            final_hidden_states = (
+                self.text_experts.maybe_all_reduce_tensor_model_parallel(
+                    final_hidden_states
+                )
+            )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Ernie4_5_VLMoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 500000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        freq_allocation = getattr(config, "freq_allocation", 20)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
+
+        self.self_attn = Ernie4_5_VLMoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=getattr(config, "head_dim", None),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            freq_allocation=freq_allocation,
+            max_position_embeddings=max_position_embeddings,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=getattr(config, "use_bias", False),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        layer_idx = extract_layer_index(prefix)
+        self.layer_idx = layer_idx
+
+        # MoE
+        moe_layer_start_index = config.moe_layer_start_index
+        min_moe_layer_start_index = min(moe_layer_start_index)
+        moe_layer_end_index = getattr(
+            config,
+            "moe_layer_end_index",
+            [config.num_hidden_layers - 1, config.num_hidden_layers - 1],
+        )
+        max_moe_layer_end_index = max(moe_layer_end_index)
+        assert min_moe_layer_start_index <= max_moe_layer_end_index
+        moe_num_experts = config.moe_num_experts
+        max_moe_num_experts = max(moe_num_experts)
+        moe_layer_interval = getattr(config, "moe_layer_interval", 1)
+        use_moe = getattr(config, "use_moe", max_moe_num_experts > 0)
+
+        if (
+            use_moe
+            and ((layer_idx + 1) % moe_layer_interval == 0)
+            and layer_idx >= min_moe_layer_start_index
+            and layer_idx <= max_moe_layer_end_index
+        ):
+            self.mlp = Ernie4_5_VLMoeMoE(
+                config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+            )
+        else:
+            self.mlp = Ernie4_5_VLMoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                use_bias=getattr(config, "use_bias", False),
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        visual_token_mask: torch.Tensor | None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+
+        if isinstance(self.mlp, Ernie4_5_VLMoeMoE):
+            hidden_states = self.mlp(hidden_states, visual_token_mask, **kwargs)
+        else:
+            hidden_states = self.mlp(hidden_states)
+
+        return hidden_states, residual
+
+
+# Since Ernie VL distinguishes between text experts and vision experts,
+# enabling torch.compile will cause errors.
+# @support_torch_compile(
+#     dynamic_arg_dims={
+#         "input_ids": 0,
+#         "positions": -1,
+#         "intermediate_tensors": 0,
+#         "inputs_embeds": 0,
+#         "visual_token_mask": 0,
+#     })
+class Ernie4_5_VLMoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.config = config
+
+        self.im_patch_id = config.im_patch_id
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Ernie4_5_VLMoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        visual_token_mask: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions, hidden_states, residual, visual_token_mask, **kwargs
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        return hidden_states
+
+
+# only used as text backbone for ernie4.5-vl
+class Ernie4_5_VLMoeForCausalLM(nn.Module, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Ernie4_5_VLMoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=max(self.config.moe_num_experts),
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.config.tie_word_embeddings and name.endswith("lm_head.weight"):
+                loaded_params.add("lm_head.weight")
+                continue
+            # MTP will be supported soon.
+            if "mtp" in name or "vision_model" in name or "resampler_model" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Distinguish between vision experts and text experts
+                if "mlp.experts" in name:
+                    moe_offset = int(name.split(".")[-3])
+                    vision_expert_start_idx = self.config.moe_num_experts[0]
+                    is_text_expert = moe_offset <= vision_expert_start_idx - 1
+                    if is_text_expert:
+                        name = name.replace(".experts.", ".text_experts.")
+                    else:
+                        name = name.replace(
+                            f".experts.{moe_offset}",
+                            f".vision_experts.{moe_offset - vision_expert_start_idx}",
+                        )
+
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+
+                    if weight_name not in name:
+                        continue
+
+                    # Distinguish between vision experts and text experts
+                    moe_offset = int(name.split(".")[-3])
+                    is_text_expert = moe_offset <= self.config.moe_num_experts[0] - 1
+
+                    name = name.replace(weight_name, param_name)
+                    if is_text_expert:
+                        name = name.replace(".experts.", ".text_experts.")
+                    else:
+                        name = name.replace(".experts.", ".vision_experts.")
+
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Distinguish between vision expert gate
+                    # and text expert gate
+                    if name.endswith("mlp.gate.weight"):
+                        name = name.replace("gate.weight", "text_experts_gate.weight")
+                        loaded_weight = loaded_weight.T
+                    elif name.endswith("mlp.gate.weight_1"):
+                        name = name.replace(
+                            "gate.weight_1", "vision_experts_gate.weight"
+                        )
+                        loaded_weight = loaded_weight.T
+
+                    if "e_score_correction_bias" in name:
+                        name = name.replace(".moe_statics.", ".")
+
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/ernie_mtp.py b/model_executor/models/ernie_mtp.py
new file mode 100644
index 0000000..1b9abc3
--- /dev/null
+++ b/model_executor/models/ernie_mtp.py
@@ -0,0 +1,279 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Baidu team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Ernie-MTP model."""
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .llama import LlamaDecoderLayer
+from .utils import is_pp_missing_parameter, maybe_prefix
+
+
+class ErnieMultiTokenPredictorLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str,
+    ) -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+
+        self.mtp_emb_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.mtp_hidden_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.mtp_linear_proj = nn.Linear(
+            config.hidden_size * 2, config.hidden_size, bias=False
+        )
+        self.mtp_block = LlamaDecoderLayer(vllm_config, prefix)
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        # masking inputs at position 0, as not needed by MTP
+        inputs_embeds[positions == 0] = 0
+
+        inputs_embeds = self.mtp_emb_norm(inputs_embeds)
+        previous_hidden_states = self.mtp_hidden_norm(previous_hidden_states)
+
+        hidden_states = self.mtp_linear_proj(
+            torch.cat([inputs_embeds, previous_hidden_states], dim=-1)
+        )
+
+        hidden_states, residual = self.mtp_block(
+            positions=positions, hidden_states=hidden_states, residual=None
+        )
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class ErnieMultiTokenPredictor(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+        # to map the exact layer index from weights
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): ErnieMultiTokenPredictorLayer(
+                    vllm_config,
+                    f"{prefix}.layers.{idx}",
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        return self.layers[str(self.mtp_start_layer_idx + spec_step_idx)](
+            inputs_embeds,
+            positions,
+            previous_hidden_states,
+            spec_step_idx,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        lm_head: ParallelLMHead,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        self.layers[str(self.mtp_start_layer_idx + spec_step_idx)]
+        logits = self.logits_processor(lm_head, hidden_states)
+        return logits
+
+
+class ErnieMTP(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        self.config = vllm_config.model_config.hf_config
+        self.model = ErnieMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        assert spec_step_idx == 0, "ernie_mtp only support predict one token"
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, inputs_embeds, spec_step_idx
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, self.lm_head, spec_step_idx)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.config.tie_word_embeddings and name.endswith("lm_head.weight"):
+                continue
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "mtp" in name:
+                name = self._rewrite_spec_layer_name(self.config, name)
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                if "mtp" not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                # According to DeepSeek-V3 Technical Report, MTP modules
+                # shares embedding layer. We only load the first weights.
+                if "mtp_" not in name and (
+                    "embed_tokens" not in name and "lm_head" not in name
+                ):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _rewrite_spec_layer_name(self, config: PretrainedConfig, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "mtp_emb_norm",
+            "mtp_hidden_norm",
+            "mtp_linear_proj",
+        ]
+        layer_idx = config.num_hidden_layers
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                name = name.replace(
+                    f"model.{weight_name}.0.",
+                    f"model.layers.{layer_idx}.{weight_name}.",
+                )
+                return name
+        name = name.replace(
+            "model.mtp_block.0.", f"model.layers.{layer_idx}.mtp_block."
+        )
+        return name
diff --git a/model_executor/models/exaone.py b/model_executor/models/exaone.py
new file mode 100644
index 0000000..6c56bfc
--- /dev/null
+++ b/model_executor/models/exaone.py
@@ -0,0 +1,545 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct/blob/main/modeling_exaone.py
+# Copyright 2024 The LG U+ CTO AI Tech Lab.
+# Copyright 2021 The LG AI Research EXAONE Lab
+# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Exaone model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class ExaoneGatedMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.c_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.c_proj(x)
+        return x
+
+
+class ExaoneAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.out_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        is_neox_style = True
+        if quant_config is not None and quant_config.get_name() == "gguf":
+            is_neox_style = False
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class ExaoneBlockAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.attention = ExaoneAttention(
+            config=config,
+            hidden_size=hidden_size,
+            num_heads=num_heads,
+            num_kv_heads=num_kv_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attention",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+
+class ExaoneDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        self.attn = ExaoneBlockAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.mlp = ExaoneGatedMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.activation_function,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.ln_1 = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        self.ln_2 = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.ln_1(hidden_states)
+        else:
+            hidden_states, residual = self.ln_1(hidden_states, residual)
+        hidden_states = self.attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.ln_2(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class ExaoneModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+        self.wte = config.vocab_size
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.wte = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.wte = PPMissingLayer()
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: ExaoneDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.h",
+        )
+        if get_pp_group().is_last_rank:
+            self.ln_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        else:
+            self.ln_f = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.ln_f(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".c_fc_0", 0),
+            (".gate_up_proj", ".c_fc_1", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "c_fc_0",
+            "c_fc_1",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "wte": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+
+        self.transformer = ExaoneModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.transformer.wte.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            # With tie_word_embeddings, we can skip lm_head.weight
+            # The weight might appear unnecessarily in the files if the model is
+            # processed with quantization, LoRA, fine-tuning, etc.
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/exaone4.py b/model_executor/models/exaone4.py
new file mode 100644
index 0000000..b89e168
--- /dev/null
+++ b/model_executor/models/exaone4.py
@@ -0,0 +1,531 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: E501
+
+# Adapted from
+# https://github.com/lgai-exaone/transformers/blob/add-exaone4/src/transformers/models/exaone4/modeling_exaone4.py
+# Copyright 2025 The LG CNS Gen AI Solution Delivery Team.
+# Copyright 2025 The LG AI Research and HuggingFace Inc. team. All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Exaone model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Exaone4Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Exaone4GatedMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Exaone4Attention(nn.Module):
+    def __init__(
+        self,
+        config: Exaone4Config,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 1000000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+        is_neox_style = True
+        if quant_config is not None and quant_config.get_name() == "gguf":
+            is_neox_style = False
+
+        layer_idx = extract_layer_index(prefix)
+        is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        self.sliding_window = config.sliding_window if is_sliding else None
+
+        # apply rotary embeddings to every layer in full attention models
+        self.apply_rope_all_layers = "sliding_attention" not in config.layer_types
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=self.sliding_window,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q = q.unflatten(-1, (self.num_heads, self.head_dim))
+        q = self.q_norm(q)
+        q = q.flatten(-2, -1)
+        k = k.unflatten(-1, (self.num_kv_heads, self.head_dim))
+        k = self.k_norm(k)
+        k = k.flatten(-2, -1)
+
+        if self.sliding_window or self.apply_rope_all_layers:
+            q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Exaone4DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Exaone4Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+
+        self.self_attn = Exaone4Attention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = Exaone4GatedMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_feedforward_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        residual = hidden_states
+
+        # Self Attention
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Use post-LN
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+
+        # Fully Connected
+        hidden_states = self.mlp(hidden_states)
+
+        # Use post-LN
+        hidden_states = self.post_feedforward_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Exaone4Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Exaone4DecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Exaone4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.model = Exaone4Model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            # With tie_word_embeddings, we can skip lm_head.weight
+            # The weight might appear unnecessarily in the files if the model is
+            # processed with quantization, LoRA, fine-tuning, etc.
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/fairseq2_llama.py b/model_executor/models/fairseq2_llama.py
new file mode 100644
index 0000000..ca0e7e6
--- /dev/null
+++ b/model_executor/models/fairseq2_llama.py
@@ -0,0 +1,154 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+# Copyright 2024 Meta Platforms, Inc. and affiliates. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Llama model for fairseq2 weights."""
+
+from collections.abc import Iterable
+
+import torch
+from torch.nn import Parameter
+
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.linear import set_weight_attrs
+from vllm.model_executor.models.llama import LlamaForCausalLM
+
+from .utils import AutoWeightsLoader, WeightsMapper
+
+
+class Fairseq2LlamaForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        # For the model loader to read only the relevant checkpoint files
+        self.allow_patterns_overrides = [
+            # either the full checkpoint
+            "model.pt",
+            # or the tp-sharded checkpoint of the current rank
+            f"model.{self.tp_rank}.pt",
+        ]
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        # fairseq2's serialization adds a wrapper to usual .pt state_dict's:
+        # { "model_key": my_model_name, "my_model_name": state_dict }
+        # which we first need to unpack
+        weights_wrapped = dict(weights)
+        weights = weights_wrapped[weights_wrapped["model_key"]].items()  # type: ignore
+
+        # remap keys
+        fs2_to_vllm_mapper = WeightsMapper(
+            orig_to_new_prefix={
+                "decoder_frontend.embed.": "model.embed_tokens.",
+                "decoder.": "model.",
+                "final_proj.": "lm_head.",
+            },
+            orig_to_new_substr={
+                ".self_attn_layer_norm.": ".input_layernorm.",
+                ".ffn_layer_norm.": ".post_attention_layernorm.",
+                ".self_attn.output_proj.": ".self_attn.o_proj.",
+                ".ffn.gate_proj.": ".mlp.gate_proj.",
+                ".ffn.inner_proj.": ".mlp.up_proj.",
+                ".ffn.output_proj.": ".mlp.down_proj.",
+                ".layer_norm.": ".norm.",
+            },
+        )
+        weights = fs2_to_vllm_mapper.apply(weights)
+
+        params = dict(self.named_parameters())
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(
+            (
+                self.reshape_fairseq2_weights(name, loaded_weight, params)
+                for name, loaded_weight in weights
+            )
+        )
+
+    def flag_sharded_weights(self, params: dict[str, Parameter]):
+        """Sets the `is_sharded_weight` flag to True for all sharded weights"""
+        for name, param in params.items():
+            modules = name.split(".")
+            if "norm" in name and len(param.size()) < 2:
+                # layer norms are not sharded
+                continue
+            elif any(emb in modules for emb in ["embed_tokens", "lm_head"]):
+                # for now we repeat embedding layers for compatibility
+                continue
+            else:
+                # all other layers are sharded
+                set_weight_attrs(param, {"is_sharded_weight": True})
+
+    def reshape_fairseq2_weights(
+        self,
+        name: str,
+        loaded_weight: torch.Tensor,
+        params: dict[str, Parameter],
+    ) -> tuple[str, torch.Tensor]:
+        """Reshape fairseq2's weights."""
+
+        def permute(w: torch.Tensor, n_heads: int) -> torch.Tensor:
+            attn_in = self.config.head_dim * n_heads
+            # check for a sharded weight on dim 0
+            if attn_in // self.tp_size == w.size()[0]:
+                attn_in //= self.tp_size
+                n_heads //= self.tp_size
+            attn_out = self.config.hidden_size
+            return (
+                w.view(n_heads, attn_in // n_heads // 2, 2, attn_out)
+                .transpose(1, 2)
+                .reshape(attn_in, attn_out)
+            )
+
+        modules = name.split(".")
+
+        # rotary embeds should be sliced
+        if "k_proj" in modules:
+            loaded_weight = permute(loaded_weight, self.config.num_key_value_heads)
+
+        elif "q_proj" in modules:
+            loaded_weight = permute(loaded_weight, self.config.num_attention_heads)
+
+        # We make the loaded weights compatible with both
+        # full checkpoints and tp sharded checkpoints.
+        # Embeddings are repeated to fit the vocab size.
+        # Other weights are flagged for the weight_loader calls.
+        if any(emb in modules for emb in ["embed_tokens", "lm_head"]):
+            # Embeddings are sharded on dim 0
+            dim = 0
+            # In fairseq2, vocab size has to be divisible by tp_size
+            # so we don't worry about padding
+            if self.tp_size > 1 and loaded_weight.shape[dim] < self.config.vocab_size:
+                assert (
+                    loaded_weight.shape[dim] * self.tp_size == self.config.vocab_size
+                ), "vocab_size should be divisible by tp_size."
+                repeats = [1] * len(loaded_weight.size())
+                repeats[dim] = self.tp_size
+                # repeat to match vocab size and to be easily 'narrow'able
+                loaded_weight = loaded_weight.repeat(repeats)
+                set_weight_attrs(params[name], {"is_sharded_weight": False})
+                # if embeddings are sharded, the rest is too
+                if "embed_tokens" in modules:
+                    self.flag_sharded_weights(params)
+
+        return name, loaded_weight
diff --git a/model_executor/models/falcon.py b/model_executor/models/falcon.py
new file mode 100644
index 0000000..85acdff
--- /dev/null
+++ b/model_executor/models/falcon.py
@@ -0,0 +1,545 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/a5cc30d72ae2dc19af534e4b35c986cc28db1275/src/transformers/models/falcon/modeling_falcon.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 the Falcon authors and HuggingFace Inc. team.  All rights
+# reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch Falcon model."""
+
+import math
+from collections.abc import Iterable
+from itertools import islice
+from typing import TypeAlias
+
+import torch
+from torch import nn
+from torch.nn import LayerNorm
+from transformers import FalconConfig as HF_FalconConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import RWConfig
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+FalconConfig: TypeAlias = HF_FalconConfig | RWConfig
+
+
+def _get_alibi_slopes(total_num_heads: int) -> torch.Tensor:
+    closest_power_of_2 = 2 ** math.floor(math.log2(total_num_heads))
+    base = torch.tensor(
+        2 ** (-(2 ** -(math.log2(closest_power_of_2) - 3))), dtype=torch.float32
+    )
+    powers = torch.arange(1, 1 + closest_power_of_2, dtype=torch.int32)
+    slopes = torch.pow(base, powers)
+
+    if closest_power_of_2 != total_num_heads:
+        extra_base = torch.tensor(
+            2 ** (-(2 ** -(math.log2(2 * closest_power_of_2) - 3))), dtype=torch.float32
+        )
+        num_remaining_heads = min(
+            closest_power_of_2, total_num_heads - closest_power_of_2
+        )
+        extra_powers = torch.arange(
+            1, 1 + 2 * num_remaining_heads, 2, dtype=torch.int32
+        )
+        slopes = torch.cat([slopes, torch.pow(extra_base, extra_powers)], dim=0)
+
+    return slopes
+
+
+class FalconAttention(nn.Module):
+    def __init__(
+        self,
+        config: FalconConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+        assert self.head_dim * self.total_num_heads == self.hidden_size
+
+        self.new_decoder_architecture = config.new_decoder_architecture
+        self.multi_query = config.multi_query
+
+        if self.new_decoder_architecture:
+            self.total_num_kv_heads = config.num_kv_heads
+        elif self.multi_query:
+            self.total_num_kv_heads = 1
+        else:
+            self.total_num_kv_heads = self.total_num_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.bias,
+            skip_bias_add=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+
+        # Layer-wise attention scaling
+        self.inv_norm_factor = 1.0 / math.sqrt(self.head_dim)
+        self.reduce_row_parallel_results = not (
+            config.new_decoder_architecture or config.parallel_attn
+        )
+        self.dense = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=config.bias,
+            skip_bias_add=True,
+            quant_config=quant_config,
+            reduce_results=self.reduce_row_parallel_results,
+            prefix=f"{prefix}.dense",
+        )
+
+        self.use_rotary = config.rotary
+        self.use_alibi = config.alibi
+        assert not (self.use_rotary and self.use_alibi), (
+            "Rotary and alibi are mutually exclusive."
+        )
+
+        if self.use_rotary:
+            rope_theta = getattr(config, "rope_theta", 10000)
+            max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=max_position_embeddings,
+                base=rope_theta,
+            )
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                self.inv_norm_factor,
+                num_kv_heads=self.num_kv_heads,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+            )
+        elif self.use_alibi:
+            tp_rank = get_tensor_model_parallel_rank()
+            head_start = tp_rank * self.num_heads
+            head_end = (tp_rank + 1) * self.num_heads
+            alibi_slopes = (
+                _get_alibi_slopes(self.total_num_heads) * self.inv_norm_factor
+            )
+            alibi_slopes = alibi_slopes[head_start:head_end].tolist()
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                self.inv_norm_factor,
+                num_kv_heads=self.num_kv_heads,
+                alibi_slopes=alibi_slopes,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+            )
+        else:
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                scale=self.inv_norm_factor,
+                num_kv_heads=self.num_kv_heads,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, bias = self.query_key_value(hidden_states)
+        if bias is not None:
+            qkv += bias
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        if self.use_rotary:
+            q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        attn_output, bias = self.dense(attn_output)
+        return attn_output, bias
+
+
+class FalconMLP(nn.Module):
+    def __init__(
+        self,
+        config: FalconConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+
+        self.dense_h_to_4h = ColumnParallelLinear(
+            hidden_size,
+            4 * hidden_size,
+            bias=config.bias,
+            skip_bias_add=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
+        )
+        self.act = get_act_fn("gelu")
+        self.reduce_row_parallel_results = not (
+            config.new_decoder_architecture or config.parallel_attn
+        )
+        self.dense_4h_to_h = RowParallelLinear(
+            4 * hidden_size,
+            hidden_size,
+            bias=config.bias,
+            skip_bias_add=True,
+            reduce_results=self.reduce_row_parallel_results,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        # NOTE(zhuohan): Following huggingface, we do not fuse bias add here.
+        x, bias = self.dense_h_to_4h(x)
+        if bias is not None:
+            x += bias
+        x = self.act(x)
+        x, bias = self.dense_4h_to_h(x)
+        return x, bias
+
+
+class FalconDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: FalconConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.self_attention = FalconAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attention"
+        )
+        self.mlp = FalconMLP(config, quant_config, prefix=f"{prefix}.mlp")
+        self.config = config
+
+        if not hasattr(config, "num_ln_in_parallel_attn"):
+            config.num_ln_in_parallel_attn = None
+
+        if config.num_ln_in_parallel_attn is None and config.new_decoder_architecture:
+            config.num_ln_in_parallel_attn = 2
+
+        if not config.parallel_attn:
+            self.post_attention_layernorm = LayerNorm(
+                hidden_size, eps=config.layer_norm_epsilon
+            )
+            self.input_layernorm = LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        else:
+            if config.num_ln_in_parallel_attn == 2:
+                # The layer norm before self-attention
+                self.ln_attn = LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+                # The layer norm before the MLP
+                self.ln_mlp = LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+            else:
+                self.input_layernorm = LayerNorm(
+                    hidden_size, eps=config.layer_norm_epsilon
+                )
+
+        self.reduce_row_parallel_results = not (
+            config.new_decoder_architecture or config.parallel_attn
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        if self.config.num_ln_in_parallel_attn == 2:
+            attention_layernorm_out = self.ln_attn(hidden_states)
+            mlp_layernorm_out = self.ln_mlp(hidden_states)
+        else:
+            attention_layernorm_out = self.input_layernorm(hidden_states)
+
+        # Self attention.
+        attention_output, attention_bias = self.self_attention(
+            positions=positions,
+            hidden_states=attention_layernorm_out,
+        )
+        if self.reduce_row_parallel_results and attention_bias is not None:
+            attention_output += attention_bias
+
+        if not self.config.new_decoder_architecture:
+            if self.config.parallel_attn:
+                mlp_layernorm_out = attention_layernorm_out
+            else:
+                residual += attention_output
+                mlp_layernorm_out = self.post_attention_layernorm(residual)
+
+        if (
+            self.config.new_decoder_architecture
+            and self.config.parallel_attn
+            and self.config.num_ln_in_parallel_attn == 1
+        ):
+            mlp_layernorm_out = attention_layernorm_out
+
+        # MLP.
+        mlp_output, mlp_bias = self.mlp(mlp_layernorm_out)
+        if self.reduce_row_parallel_results and mlp_bias is not None:
+            mlp_output += mlp_bias
+
+        if not self.reduce_row_parallel_results:
+            # When MLP and Attention layers are parallel, we can use
+            # only one all-reduce operator to reduce the results from
+            # both MLP and Attention layers.
+            mlp_output += attention_output
+            mlp_output = tensor_model_parallel_all_reduce(mlp_output)
+            if attention_bias is not None:
+                mlp_output += attention_bias
+            if mlp_bias is not None:
+                mlp_output += mlp_bias
+
+        output = mlp_output + residual
+        return output
+
+
+@support_torch_compile
+class FalconModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.use_alibi = config.alibi
+
+        # Embedding + LN Embedding
+        self.word_embeddings = VocabParallelEmbedding(
+            config.vocab_size,
+            self.embed_dim,
+        )
+
+        # Transformer blocks
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: FalconDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.h",
+        )
+
+        # Final Layer Norm
+        self.ln_f = LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.word_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        total_num_heads = self.config.num_attention_heads
+        if self.config.new_decoder_architecture:
+            total_num_kv_heads = self.config.num_kv_heads
+        elif self.config.multi_query:
+            total_num_kv_heads = 1
+        else:
+            total_num_kv_heads = total_num_heads
+        num_query_heads_per_kv_head = total_num_heads // total_num_kv_heads
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # Skip loading extra bias for GPTQ models.
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+            if "query_key_value" in name:
+                output_dim = getattr(param, "output_dim", None)
+                loaded_weight_shape = loaded_weight.shape
+                if output_dim is not None:
+                    loaded_weight = loaded_weight.view(
+                        loaded_weight_shape[:output_dim]
+                        + (total_num_kv_heads, num_query_heads_per_kv_head + 2, -1)
+                        + loaded_weight_shape[output_dim + 1 :]
+                    )
+                    wq = loaded_weight.narrow(
+                        output_dim + 1, 0, num_query_heads_per_kv_head
+                    ).reshape(
+                        *loaded_weight_shape[:output_dim],
+                        -1,
+                        *loaded_weight_shape[output_dim + 1 :],
+                    )
+                    wk = loaded_weight.narrow(
+                        output_dim + 1, num_query_heads_per_kv_head, 1
+                    ).reshape(
+                        *loaded_weight_shape[:output_dim],
+                        -1,
+                        *loaded_weight_shape[output_dim + 1 :],
+                    )
+                    wv = loaded_weight.narrow(
+                        output_dim + 1, num_query_heads_per_kv_head + 1, 1
+                    ).reshape(
+                        *loaded_weight_shape[:output_dim],
+                        -1,
+                        *loaded_weight_shape[output_dim + 1 :],
+                    )
+                    loaded_weight = torch.cat([wq, wk, wv], dim=output_dim)
+
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class FalconForCausalLM(nn.Module, SupportsPP):
+    packed_modules_mapping = {
+        "query_key_value": ["query_key_value"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.transformer = FalconModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        # only Falcon-11B doesn't share lm_head weight with word embeddings
+        # and previous Falcon model doesn't have tie_word_embeddings config
+        # so we set tie_word_embeddings to True by default
+        self.tie_word_embeddings = (
+            config.tie_word_embeddings
+            if config.tie_word_embeddings is not None
+            else True
+        )
+        if self.tie_word_embeddings:
+            self.lm_head = self.transformer.word_embeddings
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.LongTensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/falcon_h1.py b/model_executor/models/falcon_h1.py
new file mode 100644
index 0000000..3653425
--- /dev/null
+++ b/model_executor/models/falcon_h1.py
@@ -0,0 +1,685 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only FalconH1 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import FalconH1Config
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+)
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class FalconH1MLP(nn.Module):
+    def __init__(
+        self,
+        config: FalconH1Config,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=config.hidden_size,
+            output_sizes=[config.intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=config.intermediate_size,
+            output_size=config.hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.intermediate_size = config.intermediate_size
+        self.gate_multiplier, self.down_multiplier = config.mlp_multipliers
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        x, _ = self.gate_up_proj(x)
+        x[:, : self.intermediate_size // self.tp_size] *= self.gate_multiplier
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        x = x * self.down_multiplier
+        return x
+
+
+class FalconH1SSMDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: FalconH1Config,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        self.d_ssm = (
+            int(config.mamba_expand * config.hidden_size)
+            if config.mamba_d_ssm is None
+            else config.mamba_d_ssm
+        )
+
+        self.mamba = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.mamba_d_state,
+            conv_kernel_size=config.mamba_d_conv,
+            intermediate_size=self.d_ssm,
+            use_conv_bias=config.mamba_conv_bias,
+            use_bias=config.mamba_proj_bias,
+            n_groups=config.mamba_n_groups,
+            num_heads=config.mamba_n_heads,
+            head_dim=config.mamba_d_head,
+            rms_norm_eps=config.rms_norm_eps,
+            activation=config.hidden_act,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            use_rms_norm=config.mamba_rms_norm,
+            prefix=f"{prefix}.mixer",
+        )
+        # n_groups is overridden later by `MambaMixer2`
+        self.groups_time_state_size = self.mamba.n_groups * config.mamba_d_state
+        self.zxbcdt_multipliers = config.ssm_multipliers
+        self._init_mup_vector()
+
+    def _init_mup_vector(self):
+        """
+        Non learnable per-block scaling vector composed of element-wise
+        multipliersapplied to each separate contiguous block of the output
+        of the linear projection (in_proj) before further processing
+        (gating, convolution, SSM):
+
+            - Z block:  [0 : d_ssm]                      → zxbcdt_multipliers[0]
+            - X block:  [d_ssm : 2 * d_ssm]              → zxbcdt_multipliers[1]
+            - B block:  [2 * d_ssm : 2 * d_ssm + G * S]  → zxbcdt_multipliers[2]
+            - C block:  [2 * d_ssm + G * S : 2 * d_ssm + 2 * G * S]
+                        → zxbcdt_multipliers[3]
+            - dt block: [2 * d_ssm + 2 * G * S : end]    → zxbcdt_multipliers[4]
+
+        where:
+            - d_ssm:     Dimension of state-space model latent
+            - G:         Number of groups (n_groups)
+            - S:         SSM state size per group
+            - All indices are divided by tp_size to support tensor parallelism
+        """
+        vector_shape = (
+            2 * self.d_ssm + 2 * self.groups_time_state_size + self.config.mamba_n_heads
+        ) // self.tp_size
+        mup_vector = torch.ones(1, vector_shape)
+        # Z vector 0 -> d_ssm
+        mup_vector[:, : self.d_ssm // self.tp_size] *= self.zxbcdt_multipliers[0]
+        # X vector d_ssm -> 2 * d_ssm
+        mup_vector[
+            :, (self.d_ssm // self.tp_size) : (2 * self.d_ssm // self.tp_size)
+        ] *= self.zxbcdt_multipliers[1]
+        # B vector 2 * d_ssm -> 2 * d_ssm + (n_group * d_state)
+        mup_vector[
+            :,
+            (2 * self.d_ssm) // self.tp_size : (
+                2 * self.d_ssm + self.groups_time_state_size
+            )
+            // self.tp_size,
+        ] *= self.zxbcdt_multipliers[2]
+        # C vector 2 * d_ssm + (n_group * d_state)
+        # -> 2 * d_ssm + 2 * (n_group * d_state)
+        mup_vector[
+            :,
+            (2 * self.d_ssm + self.groups_time_state_size) // self.tp_size : (
+                2 * self.d_ssm + 2 * self.groups_time_state_size
+            )
+            // self.tp_size,
+        ] *= self.zxbcdt_multipliers[3]
+        # dt vector 2 * d_ssm + 2 * (n_group * d_state)
+        # -> 2 * d_ssm + 2 * (n_group * d_state) + n_heads
+        mup_vector[
+            :,
+            (2 * self.d_ssm + 2 * self.groups_time_state_size) // self.tp_size :,
+        ] *= self.zxbcdt_multipliers[4]
+
+        self.register_buffer("mup_vector", mup_vector, persistent=False)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        output = torch.empty_like(hidden_states)
+        self.mamba(
+            hidden_states,
+            output,
+            mup_vector=self.mup_vector,
+        )
+        return output, residual
+
+
+class FalconH1AttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: FalconH1Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        rope_theta = getattr(config, "rope_theta", 1e11)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = (
+            config.hidden_size // self.total_num_heads
+            if getattr(config, "head_dim", None) is None
+            else config.head_dim
+        )
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        if hasattr(config, "partial_rotary_factor"):
+            rotary_dim = self.head_dim * config.partial_rotary_factor
+        elif hasattr(config, "attn_rotary_emb"):
+            rotary_dim = config.attn_rotary_emb  # for backward compatibility
+        else:
+            rotary_dim = self.head_dim  # default
+
+        self.rotary_emb = get_rope(
+            head_size=self.head_dim,
+            rotary_dim=rotary_dim,
+            max_position=max_position_embeddings,
+            rope_scaling=rope_scaling,
+            base=rope_theta,
+            is_neox_style=True,
+            dtype=None,  # see impl of get_rope
+        )
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.key_multiplier = config.key_multiplier
+
+    def self_attention(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        k = k * self.key_multiplier
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        hidden_states = self.self_attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        return hidden_states, residual
+
+
+class FalconH1ParallelHybrid(nn.Module):
+    """
+    A hybrid decoder layer for FalconH1 where the input is processed
+    in parallel through both the self-attention branch and the SSM (Mamba)
+    branch. Their outputs are then summed to produce the final hidden state.
+
+    This layer uses:
+      - FalconH1AttentionDecoderLayer for the multi-head self-attention branch.
+      - FalconH1SSMDecoderLayer for the state-space (Mamba) branch.
+    """
+
+    def __init__(
+        self,
+        config: FalconH1Config,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        # Instantiate the attention branch
+        self.self_attn = FalconH1AttentionDecoderLayer(
+            config=config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+        # In V1 all attention/ssm layers must have
+        # different index in prefix
+        ssm_layer_idx = config.num_hidden_layers + layer_idx
+        ssm_prefix = prefix.split(".")[0] + f".{ssm_layer_idx}"
+
+        # Instantiate the SSM branch
+        self.mamba = FalconH1SSMDecoderLayer(
+            config=config,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=ssm_prefix,
+        )
+        self.ssm_out_multiplier = config.ssm_out_multiplier
+        self.ssm_in_multiplier = config.ssm_in_multiplier
+
+        self.attention_in_multiplier = config.attention_in_multiplier
+        self.attn_out_multiplier = config.attention_out_multiplier
+
+        self.feed_forward = FalconH1MLP(config, prefix=f"{prefix}.feed_forward")
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ):
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        # Process input through the attention branch.
+        # FalconH1AttentionDecoderLayer expects positions, hidden_states,
+        # kv_cache, attn_metadata, and residual.
+        attn_hidden, _ = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states * self.attention_in_multiplier,
+            residual=residual,
+            **kwargs,
+        )
+
+        # Process input through the SSM branch.
+        # FalconH1SSMDecoderLayer expects hidden_states, attn_metadata,
+        # residual, and sequence_idx.
+        ssm_hidden, _ = self.mamba(
+            hidden_states=hidden_states * self.ssm_in_multiplier,
+            residual=residual,
+            **kwargs,
+        )
+        # Sum the outputs from both branches.
+        # We assume both branches produce outputs of the same
+        # dimensionality (config.hidden_size).
+        hidden_states = (attn_hidden * self.attn_out_multiplier) + (
+            ssm_hidden * self.ssm_out_multiplier
+        )
+        hidden_states = hidden_states + residual
+
+        # feed-forward
+        residual = hidden_states
+        hidden_states = self.pre_ff_layernorm(hidden_states)
+        hidden_states = self.feed_forward(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+@support_torch_compile
+class FalconH1Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: FalconH1Config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+            )
+            self.embedding_multiplier = config.embedding_multiplier
+        else:
+            self.embed_tokens = PPMissingLayer()
+            self.embedding_multiplier = 1.0
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = FalconH1ParallelHybrid
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        if get_pp_group().is_last_rank:
+            self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.final_layernorm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds * self.embedding_multiplier
+            else:
+                hidden_states = (
+                    self.embed_input_ids(input_ids) * self.embedding_multiplier
+                )
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                }
+            )
+        hidden_states = self.final_layernorm(hidden_states)
+        return hidden_states
+
+
+class FalconH1ForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsMambaPrefixCaching,
+):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+
+        intermediate_size = (
+            int(hf_config.mamba_expand * hf_config.hidden_size)
+            if hf_config.mamba_d_ssm is None
+            else hf_config.mamba_d_ssm
+        )
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.mamba_n_groups,
+            num_heads=hf_config.mamba_n_heads,
+            head_dim=hf_config.mamba_d_head,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+
+        scheduler_config = vllm_config.scheduler_config
+
+        self.quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = FalconH1Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.tie_word_embeddings = config.tie_word_embeddings
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            self.lm_head_multiplier = config.lm_head_multiplier
+            if self.tie_word_embeddings:
+                self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+            # Used to track and store by the Mamba cache between steps.
+
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size,
+                config.vocab_size,
+                scale=config.lm_head_multiplier,
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            if "A_log" in name:
+                name = name.replace("A_log", "A")
+
+            if "mamba" in name:
+                name = name.replace("mamba", "mamba.mamba")
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if self.tie_word_embeddings and "lm_head" in name:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        if self.tie_word_embeddings:
+            loaded_params.add("lm_head.weight")
+        return loaded_params
diff --git a/model_executor/models/flex_olmo.py b/model_executor/models/flex_olmo.py
new file mode 100644
index 0000000..11d0949
--- /dev/null
+++ b/model_executor/models/flex_olmo.py
@@ -0,0 +1,155 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only FlexOlmo model compatible with HuggingFace weights."""
+
+import torch
+from torch import nn
+
+from vllm.config import VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.models.olmoe import OlmoeAttention, OlmoeForCausalLM
+from vllm.transformers_utils.configs import FlexOlmoConfig
+
+logger = init_logger(__name__)
+
+
+class FlexOlmoAttention(OlmoeAttention):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        hf_config = vllm_config.model_config.hf_config
+        assert isinstance(hf_config, FlexOlmoConfig)
+
+        self.k_norm = RMSNorm(
+            self.total_num_kv_heads * self.head_dim, eps=hf_config.rms_norm_eps
+        )
+        self.q_norm = RMSNorm(
+            self.total_num_heads * self.head_dim, eps=hf_config.rms_norm_eps
+        )
+
+
+class FlexOlmoMoE(nn.Module):
+    """A tensor-parallel MoE implementation for FlexOlmo that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        hf_config = vllm_config.model_config.hf_config
+        assert isinstance(hf_config, FlexOlmoConfig)
+
+        tp_size = get_tensor_model_parallel_world_size()
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hf_config.hidden_size,
+            hf_config.num_experts,
+            bias=False,
+            return_bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        # Gate always runs at half / full precision for now.
+        self.experts = FusedMoE(
+            num_experts=hf_config.num_experts,
+            top_k=hf_config.num_experts_per_tok,
+            hidden_size=hf_config.hidden_size,
+            intermediate_size=hf_config.intermediate_size,
+            reduce_results=True,
+            renormalize=False,
+            quant_config=None,
+            tp_size=tp_size,
+            prefix=f"{prefix}.experts",
+        )
+
+        self.top_k = hf_config.num_experts_per_tok
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.gate(hidden_states)
+        # Warning: The experts mutate the hidden state input! This messes up
+        # basic things like the residual stream.
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states.detach().clone(),
+            router_logits=router_logits.float(),
+        )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class FlexOlmoDecoderLayer(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        hf_config = vllm_config.model_config.hf_config
+        assert isinstance(hf_config, FlexOlmoConfig)
+
+        self.self_attn = FlexOlmoAttention(
+            vllm_config=vllm_config, prefix=f"{prefix}.self_attn"
+        )
+        self.post_attention_layernorm = RMSNorm(
+            hf_config.hidden_size, eps=hf_config.rms_norm_eps
+        )
+        self.post_feedforward_layernorm = RMSNorm(
+            hf_config.hidden_size, eps=hf_config.rms_norm_eps
+        )
+
+        self.mlp = FlexOlmoMoE(vllm_config=vllm_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        # Attention block.
+        residual = hidden_states
+        hidden_states = self.self_attn(positions, hidden_states)
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = hidden_states + residual
+
+        # MLP block.
+        residual = hidden_states
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_feedforward_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states, None
+
+
+class FlexOlmoForCausalLM(OlmoeForCausalLM):
+    fall_back_to_pt_during_load = False
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = FlexOlmoDecoderLayer,
+    ):
+        super().__init__(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
diff --git a/model_executor/models/fuyu.py b/model_executor/models/fuyu.py
new file mode 100644
index 0000000..269c36a
--- /dev/null
+++ b/model_executor/models/fuyu.py
@@ -0,0 +1,373 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.39.3/src/transformers/models/fuyu/modeling_fuyu.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch Fuyu model."""
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, FuyuConfig, FuyuImageProcessor, FuyuProcessor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.linear import ColumnParallelLinear
+from vllm.model_executor.models.persimmon import PersimmonForCausalLM
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import AutoWeightsLoader, WeightsMapper, flatten_bn, maybe_prefix
+
+# Cannot find the following 2 numbers from hf config.
+_IMAGE_TOKEN_ID = 71011
+_NEWLINE_TOKEN_ID = 71019
+
+
+class FuyuImagePatchInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - bnp: Batch size * number of images * number of patches
+        - fn: patch_size_x * patch_size_y * num_channels
+    """
+
+    type: Literal["image_patches"] = "image_patches"
+
+    image_patches_flat: Annotated[torch.Tensor, TensorShape("bnp", "fn")]
+
+    patches_per_image: Annotated[list[int], TensorShape("bn")]
+    """
+    The number of total patches for each image in the batch.
+    
+    This is used to split the embeddings which has the first two dimensions
+    flattened just like `image_patches_flat`.
+    """
+
+
+class FuyuProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(FuyuConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(FuyuProcessor, **kwargs)
+
+    def get_image_processor(self, **kwargs: object) -> FuyuImageProcessor:
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_image_feature_grid_size(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> tuple[int, int]:
+        image_processor = self.get_image_processor()
+        target_width = image_processor.size["width"]
+        target_height = image_processor.size["height"]
+        patch_width = image_processor.patch_size["width"]
+        patch_height = image_processor.patch_size["height"]
+
+        if not (image_width <= target_width and image_height <= target_height):
+            height_scale_factor = target_height / image_height
+            width_scale_factor = target_width / image_width
+            optimal_scale_factor = min(height_scale_factor, width_scale_factor)
+
+            image_height = int(image_height * optimal_scale_factor)
+            image_width = int(image_width * optimal_scale_factor)
+
+        ncols = math.ceil(image_width / patch_width)
+        nrows = math.ceil(image_height / patch_height)
+        return ncols, nrows
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        ncols, nrows = self.get_image_feature_grid_size(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+        return ncols * nrows
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_processor = self.get_image_processor()
+        return ImageSize(
+            width=image_processor.size["width"], height=image_processor.size["height"]
+        )
+
+
+class FuyuDummyInputsBuilder(BaseDummyInputsBuilder[FuyuProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class FuyuMultiModalProcessor(BaseMultiModalProcessor[FuyuProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            # Avoid warning from HF logger for text-only input
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        image_patches = processed_outputs["image_patches"]
+        processed_outputs["image_patches"] = flatten_bn(image_patches)
+        processed_outputs["patches_per_image"] = torch.tensor(
+            [len(p) for p in image_patches]
+        )
+
+        return processed_outputs
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        # HF processor adds boa_token_id
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        boa_token_id = vocab["<0x04>"]
+        if prompt_tokens[-1] != boa_token_id:
+            prompt_tokens.append(boa_token_id)
+
+        return prompt_tokens
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        patches_per_image = hf_inputs.get("patches_per_image", torch.empty(0))
+
+        return dict(
+            image_patches=MultiModalFieldConfig.flat_from_sizes(
+                "image", patches_per_image
+            ),
+            patches_per_image=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        bos_token_id = hf_config.bos_token_id
+        assert isinstance(bos_token_id, int)
+
+        tokenizer = self.info.get_tokenizer()
+        eot_token_id = tokenizer.bos_token_id
+        assert isinstance(eot_token_id, int)
+
+        def get_replacement_fuyu(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            ncols, nrows = self.info.get_image_feature_grid_size(
+                image_width=image_size.width,
+                image_height=image_size.height,
+            )
+            image_tokens = ([_IMAGE_TOKEN_ID] * ncols + [_NEWLINE_TOKEN_ID]) * nrows
+
+            return PromptUpdateDetails.select_token_id(
+                image_tokens + [bos_token_id],
+                embed_token_id=_IMAGE_TOKEN_ID,
+            )
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[eot_token_id],
+                replacement=get_replacement_fuyu,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    FuyuMultiModalProcessor,
+    info=FuyuProcessingInfo,
+    dummy_inputs=FuyuDummyInputsBuilder,
+)
+class FuyuForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.vision_embed_tokens.": "vision_embed_tokens.",
+            "model.language_model.": "language_model.model.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.vocab_size = config.text_config.vocab_size
+        self.image_token_id = _IMAGE_TOKEN_ID
+        self.image_feature_size = config.patch_size**2 * config.num_channels
+
+        self.vision_embed_tokens = ColumnParallelLinear(
+            self.image_feature_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            gather_output=True,
+        )
+        self.language_model = PersimmonForCausalLM(
+            vllm_config=vllm_config.with_hf_config(config.text_config),
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> FuyuImagePatchInputs | None:
+        image_patches = kwargs.pop("image_patches", None)
+        patches_per_image = kwargs.pop("patches_per_image", None)
+
+        if image_patches is None:
+            return None
+
+        return FuyuImagePatchInputs(
+            type="image_patches",
+            image_patches_flat=image_patches,
+            patches_per_image=patches_per_image,
+            resolve_bindings={"fn": self.image_feature_size},
+        )
+
+    def _process_image_input(
+        self, image_input: FuyuImagePatchInputs
+    ) -> MultiModalEmbeddings:
+        image_patches_flat = image_input["image_patches_flat"]
+        patches_per_image = image_input["patches_per_image"]
+
+        assert self.vision_embed_tokens is not None
+        vision_embeddings_flat, _ = self.vision_embed_tokens(image_patches_flat)
+
+        return vision_embeddings_flat.split(patches_per_image.tolist(), dim=0)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.language_model.logits_processor(
+            self.language_model.lm_head, hidden_states
+        )
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gemma.py b/model_executor/models/gemma.py
new file mode 100644
index 0000000..7aaae7c
--- /dev/null
+++ b/model_executor/models/gemma.py
@@ -0,0 +1,426 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 The vLLM team.
+# Copyright (c) Google Inc.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Gemma model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from functools import cache
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import GemmaConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import GeluAndMul
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+@cache
+def _get_gemma_act_fn(
+    hidden_act: str | None,
+    hidden_activation: str | None,
+) -> nn.Module:
+    if hidden_activation is None:
+        if hidden_act is not None:
+            logger.warning(
+                "Gemma's activation function was incorrectly set to exact GeLU "
+                "in the config JSON file when it was initially released. "
+                "Changing the activation function to approximate GeLU "
+                "(`gelu_pytorch_tanh`). If you want to use the legacy "
+                "`%s`, edit the config JSON to set "
+                "`hidden_activation=%s` instead of `hidden_act`. "
+                "See https://github.com/huggingface/transformers/pull/29402 "
+                "for more details.",
+                hidden_act,
+                hidden_act,
+            )
+        return GeluAndMul(approximate="tanh")
+    elif hidden_activation == "gelu_pytorch_tanh":
+        return GeluAndMul(approximate="tanh")
+    elif hidden_activation == "gelu":
+        return GeluAndMul(approximate="none")
+    else:
+        raise ValueError(
+            f"Activation function {hidden_act} is not supported for Gemma models."
+        )
+
+
+class GemmaMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str | None = None,
+        hidden_activation: str | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = _get_gemma_act_fn(hidden_act, hidden_activation)
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class GemmaAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        max_position_embeddings: int = 8192,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=self.rope_theta,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class GemmaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GemmaConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = GemmaAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+            max_position_embeddings=config.max_position_embeddings,
+            rope_theta=config.rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = GemmaMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            hidden_activation=getattr(config, "hidden_activation", None),
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class GemmaModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GemmaDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        # Normalize the embedding by sqrt(hidden_size)
+        # The normalizer's data type should be downcasted to the model's
+        # data type such as bfloat16, not float32.
+        # See https://github.com/huggingface/transformers/pull/29402
+        normalizer = self.config.hidden_size**0.5
+        self.register_buffer("normalizer", torch.tensor(normalizer), persistent=False)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            hidden_states *= self.normalizer
+            residual = None
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, shard_name, shard_id in stacked_params_mapping:
+                if shard_name not in name:
+                    continue
+                name = name.replace(shard_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class GemmaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        # currently all existing Gemma models have `tie_word_embeddings` enabled
+        assert config.tie_word_embeddings
+
+        self.quant_config = quant_config
+        self.model = GemmaModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.model.embed_tokens, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gemma2.py b/model_executor/models/gemma2.py
new file mode 100644
index 0000000..4d5d6cb
--- /dev/null
+++ b/model_executor/models/gemma2.py
@@ -0,0 +1,439 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+# Copyright 2024 Google Inc. HuggingFace Inc. team. All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import Gemma2Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import GeluAndMul
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Gemma2MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        hidden_activation: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if not (hidden_act == hidden_activation == "gelu_pytorch_tanh"):
+            raise ValueError(
+                "Gemma2 uses `gelu_pytorch_tanh` as the hidden activation "
+                "function. Please set `hidden_act` and `hidden_activation` to "
+                "`gelu_pytorch_tanh`."
+            )
+        self.act_fn = GeluAndMul(approximate="tanh")
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Gemma2Attention(nn.Module):
+    def __init__(
+        self,
+        config: Gemma2Config,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        max_position_embeddings: int,
+        rope_theta: float,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        attn_logits_soft_cap: float | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = config.query_pre_attn_scalar**-0.5
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=self.rope_theta,
+            is_neox_style=True,
+        )
+
+        layer_idx = extract_layer_index(prefix)
+        is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        sliding_window = config.sliding_window if is_sliding else None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            logits_soft_cap=attn_logits_soft_cap,
+            per_layer_sliding_window=sliding_window,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Gemma2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Gemma2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = Gemma2Attention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+            max_position_embeddings=config.max_position_embeddings,
+            rope_theta=config.rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_logits_soft_cap=config.attn_logit_softcapping,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.hidden_size = config.hidden_size
+        self.mlp = Gemma2MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            hidden_activation=config.hidden_activation,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.pre_feedforward_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_feedforward_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = self.post_attention_layernorm(hidden_states)
+
+        hidden_states, residual = self.pre_feedforward_layernorm(
+            hidden_states, residual
+        )
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_feedforward_layernorm(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Gemma2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Gemma2DecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        # Normalize the embedding by sqrt(hidden_size)
+        # The normalizer's data type should be downcasted to the model's
+        # data type such as bfloat16, not float32.
+        # See https://github.com/huggingface/transformers/pull/29402
+        normalizer = self.config.hidden_size**0.5
+        self.register_buffer("normalizer", torch.tensor(normalizer), persistent=False)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            hidden_states *= self.normalizer
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache scales for compressed-tensors quantization
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = loaded_weight[0]
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, shard_name, shard_id in stacked_params_mapping:
+                if shard_name not in name:
+                    continue
+                name = name.replace(shard_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class Gemma2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        # currently all existing Gemma models have `tie_word_embeddings` enabled
+        assert config.tie_word_embeddings
+        self.quant_config = quant_config
+        self.model = Gemma2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, soft_cap=config.final_logit_softcapping
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.model.embed_tokens, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gemma3.py b/model_executor/models/gemma3.py
new file mode 100644
index 0000000..357e61a
--- /dev/null
+++ b/model_executor/models/gemma3.py
@@ -0,0 +1,571 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 The vLLM team.
+# Copyright 2025 Google Inc. HuggingFace Inc. team. All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers import Gemma3TextConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import GeluAndMul
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from ...attention.layers.encoder_only_attention import EncoderOnlyAttention
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Gemma3MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_activation: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_activation != "gelu_pytorch_tanh":
+            raise ValueError(
+                "Gemma3 uses `gelu_pytorch_tanh` as the hidden activation "
+                "function. Please set `hidden_act` and `hidden_activation` to "
+                "`gelu_pytorch_tanh`."
+            )
+        self.act_fn = GeluAndMul(approximate="tanh")
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Gemma3Attention(nn.Module):
+    def __init__(
+        self,
+        config: Gemma3TextConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        max_position_embeddings: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        attn_logits_soft_cap: float | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = config.query_pre_attn_scalar**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.q_norm = GemmaRMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = GemmaRMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+        layer_idx = extract_layer_index(prefix)
+        self.is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        sliding_window = config.sliding_window if self.is_sliding else None
+
+        # Initialize the rotary embedding.
+        if self.is_sliding:
+            # Local attention. Override the values in config.json.
+            self.rope_theta = config.rope_local_base_freq
+            self.rope_scaling = {"rope_type": "default"}
+        else:
+            # Global attention. Use the values in config.json.
+            self.rope_theta = config.rope_theta
+            self.rope_scaling = config.rope_scaling
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=self.rope_theta,
+            is_neox_style=True,
+            rope_scaling=self.rope_scaling,
+        )
+
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        attn_cls = (
+            EncoderOnlyAttention
+            if attn_type == AttentionType.ENCODER_ONLY
+            else Attention
+        )
+
+        self.attn = attn_cls(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_type=attn_type,
+            logits_soft_cap=attn_logits_soft_cap,
+            per_layer_sliding_window=sliding_window,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q = q.unflatten(-1, (self.num_heads, self.head_dim))
+        q = self.q_norm(q)
+        q = q.flatten(-2, -1)
+        k = k.unflatten(-1, (self.num_kv_heads, self.head_dim))
+        k = self.k_norm(k)
+        k = k.flatten(-2, -1)
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+
+        if not kwargs.get("has_images", False):
+            # Fast path for text-only inputs. The performance for the text-only
+            # inputs are not affected by the naive attention below.
+            output, _ = self.o_proj(attn_output)
+            return output
+
+        # NOTE(woosuk): Gemma3 uses bidirectional attention between image tokens
+        # that correspond to the same image while using causal attention
+        # otherwise. Current attention backends cannot handle this pattern, so
+        # we temporarily use a naive attention implementation with mask tensors.
+
+        # We intentionally keep the attention backend as-is and only override
+        # `attn_output` with the naive implementation's output. This minimizes
+        # changes to existing model runners and attention backends. The call to
+        # `self.attn(q, k, v)` is only used to populate the KV cache - its
+        # output is discarded and overwritten below. While this duplicates
+        # computation, it maintains compatibility.
+        # TODO(woosuk): Optimize by implementing custom attention kernels.
+        attn_output = self.naive_attn_with_masks(q, k, v, out=attn_output, **kwargs)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def naive_attn_with_masks(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        out: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        # NOTE(woosuk): As described in the comment above, this code is not
+        # meant to be performant. It is only meant to be correct.
+        q = q.view(-1, self.num_heads, self.head_dim)
+        # Expand the key and value to handle GQA.
+        num_queries_per_kv = self.num_heads // self.num_kv_heads
+        k = k.view(-1, self.num_kv_heads, self.head_dim)
+        k = k.repeat_interleave(num_queries_per_kv, dim=-2)
+        v = v.view(-1, self.num_kv_heads, self.head_dim)
+        v = v.repeat_interleave(num_queries_per_kv, dim=-2)
+
+        if self.is_sliding:
+            attn_masks = kwargs["local_attn_masks"]
+        else:
+            attn_masks = kwargs["global_attn_masks"]
+
+        seq_lens = kwargs["seq_lens"]
+        start_idx = 0
+        for seq_len, attn_mask in zip(seq_lens, attn_masks):
+            end_idx = start_idx + seq_len
+            query = q[start_idx:end_idx].unsqueeze(0)
+            key = k[start_idx:end_idx].unsqueeze(0)
+            value = v[start_idx:end_idx].unsqueeze(0)
+
+            # Transpose.
+            query = query.transpose(1, 2)
+            key = key.transpose(1, 2)
+            value = value.transpose(1, 2)
+
+            output = F.scaled_dot_product_attention(
+                query,
+                key,
+                value,
+                attn_mask,
+                self.scaling,
+            )
+            output = output.transpose(1, 2).flatten(-2, -1)
+            out[start_idx:end_idx] = output
+            start_idx = end_idx
+        return out
+
+
+class Gemma3DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Gemma3TextConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = Gemma3Attention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+            max_position_embeddings=config.max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_logits_soft_cap=None,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.hidden_size = config.hidden_size
+        self.mlp = Gemma3MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_activation=config.hidden_activation,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.pre_feedforward_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_feedforward_layernorm = GemmaRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+            **kwargs,
+        )
+        hidden_states = self.post_attention_layernorm(hidden_states)
+
+        hidden_states, residual = self.pre_feedforward_layernorm(
+            hidden_states, residual
+        )
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_feedforward_layernorm(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Gemma3Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Gemma3DecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        # Normalize the embedding by sqrt(hidden_size)
+        # The normalizer's data type should be downcasted to the model's
+        # data type such as bfloat16, not float32.
+        # See https://github.com/huggingface/transformers/pull/29402
+        normalizer = self.config.hidden_size**0.5
+        self.register_buffer("normalizer", torch.tensor(normalizer), persistent=False)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        # NOTE(woosuk): Only apply the normalizer to the output of
+        # vocab embedding. Don't apply it to the vision embedding.
+        return self.embed_tokens(input_ids) * self.normalizer
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+                **kwargs,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # Revert +1 during llama.cpp conversion
+            # see: https://github.com/ggml-org/llama.cpp/blob/be7c3034108473beda214fd1d7c98fd6a7a3bdf5/convert_hf_to_gguf.py#L3397-L3400
+            if (
+                self.quant_config
+                and self.quant_config.get_name() == "gguf"
+                and name.endswith("norm.weight")
+            ):
+                loaded_weight -= 1
+
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache scales for compressed-tensors quantization
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = loaded_weight[0]
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            # Check if this is a scale parameter that needs remapping first
+            if name.endswith((".k_scale", ".v_scale", ".q_scale", ".prob_scale")):
+                # Try to remap the scale name first
+                remapped_name = maybe_remap_kv_scale_name(name, params_dict)
+                if remapped_name is not None and remapped_name in params_dict:
+                    # Successfully remapped, use the remapped name
+                    param = params_dict[remapped_name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+                    loaded_params.add(remapped_name)
+                    continue
+                # If remapping failed, continue with normal processing
+
+            for param_name, shard_name, shard_id in stacked_params_mapping:
+                if shard_name not in name:
+                    continue
+                name = name.replace(shard_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class Gemma3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        # currently all existing Gemma models have `tie_word_embeddings` enabled
+        assert config.tie_word_embeddings
+        self.quant_config = quant_config
+        self.model = Gemma3Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, soft_cap=config.final_logit_softcapping
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.model.embed_tokens, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gemma3_mm.py b/model_executor/models/gemma3_mm.py
new file mode 100644
index 0000000..8e2bbe8
--- /dev/null
+++ b/model_executor/models/gemma3_mm.py
@@ -0,0 +1,741 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import torch
+from torch import nn
+from transformers import BatchFeature, Gemma3Config, Gemma3Processor
+from transformers.models.gemma3.processing_gemma3 import Gemma3ProcessorKwargs
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalPromptUpdates,
+    MultiModalPromptUpdatesApplyResult,
+    PlaceholderFeaturesInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+    replace_token_matches,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Gemma3ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - p: Number of patches total (over each image over each prompt in the
+          batch)
+        - c: Number of channels (3)
+        - h: Height of each patch
+        - w: Width of each patch
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values: Annotated[torch.Tensor, TensorShape("p", 3, "h", "w")]
+
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class Gemma3ImageEmbeddingInputs(TensorSchema):
+    type: Literal["image_embeds"] = "image_embeds"
+    image_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("ni", "nf", "hs"),
+    ]
+
+
+Gemma3ImageInputs: TypeAlias = Gemma3ImagePixelInputs | Gemma3ImageEmbeddingInputs
+
+
+class Gemma3ProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Gemma3Config)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(Gemma3Processor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def _resolve_image_kwargs(
+        self,
+        processor: Gemma3Processor,
+        keys: set[str],
+    ) -> dict[str, Any]:
+        image_processor = processor.image_processor
+        kwargs = processor._merge_kwargs(
+            Gemma3ProcessorKwargs,
+            tokenizer_init_kwargs=processor.tokenizer.init_kwargs,
+        )
+
+        images_kwargs = kwargs["images_kwargs"]
+
+        def _resolve_kw(key: str):
+            val = getattr(image_processor, key)
+            if val is None:
+                val = images_kwargs[key]
+
+            return val
+
+        return {k: _resolve_kw(k) for k in keys}
+
+    def get_num_crops(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Gemma3Processor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        images_kwargs = self._resolve_image_kwargs(
+            processor,
+            {
+                "do_pan_and_scan",
+                "pan_and_scan_min_crop_size",
+                "pan_and_scan_max_num_crops",
+                "pan_and_scan_min_ratio_to_activate",
+            },
+        )
+
+        do_pan_and_scan = images_kwargs["do_pan_and_scan"]
+        pan_and_scan_min_crop_size = images_kwargs["pan_and_scan_min_crop_size"]
+        pan_and_scan_max_num_crops = images_kwargs["pan_and_scan_max_num_crops"]
+        pan_and_scan_min_ratio_to_activate = images_kwargs[
+            "pan_and_scan_min_ratio_to_activate"
+        ]
+
+        if not do_pan_and_scan:
+            return 0
+
+        logger.warning_once(
+            "`do_pan_and_scan=True` has suboptimal results on V1 "
+            "because of the simplified attention pattern being used."
+        )
+
+        # Based on Gemma3ImageProcessor.pan_and_scan
+        if image_width >= image_height:
+            if image_width / image_height < pan_and_scan_min_ratio_to_activate:
+                return 0
+
+            num_crops_w = min(
+                int(math.floor(image_width / pan_and_scan_min_crop_size)),
+                int(math.floor(image_width / image_height + 0.5)),
+            )
+
+            num_crops_w = max(2, num_crops_w)
+            num_crops_w = min(pan_and_scan_max_num_crops, num_crops_w)
+            num_crops_h = 1
+        else:
+            if image_height / image_width < pan_and_scan_min_ratio_to_activate:
+                return 0
+
+            num_crops_h = min(
+                int(math.floor(image_height / pan_and_scan_min_crop_size)),
+                int(math.floor(image_height / image_width + 0.5)),
+            )
+
+            num_crops_h = max(2, num_crops_h)
+            num_crops_h = min(pan_and_scan_max_num_crops, num_crops_h)
+            num_crops_w = 1
+
+        crop_size_w = int(math.ceil(image_width / num_crops_w))
+        crop_size_h = int(math.ceil(image_height / num_crops_h))
+
+        if min(crop_size_w, crop_size_h) < pan_and_scan_min_crop_size:
+            return 0
+
+        return num_crops_w * num_crops_h
+
+    def get_image_repl(
+        self,
+        *,
+        image_width: int | None,
+        image_height: int | None,
+        num_crops: int | None = None,
+        processor: Gemma3Processor | None,
+    ) -> PromptUpdateDetails[str]:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        boi_token = processor.boi_token
+
+        if num_crops is None:
+            assert image_width is not None and image_height is not None
+            num_crops = self.get_num_crops(
+                image_width=image_width,
+                image_height=image_height,
+                processor=processor,
+            )
+
+        if num_crops == 0:
+            image_text = boi_token
+        else:
+            crops_image_tokens = " ".join(boi_token for _ in range(num_crops))
+            image_text = (
+                f"Here is the original image {boi_token} and here are some "
+                f"crops to help you see better {crops_image_tokens}"
+            )
+
+        repl_full = image_text.replace(boi_token, processor.full_image_sequence)
+
+        tokenizer = processor.tokenizer
+        vocab = tokenizer.get_vocab()
+        image_token_id = vocab[tokenizer.image_token]
+
+        return PromptUpdateDetails.select_token_id(repl_full, image_token_id)
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Gemma3Processor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        num_crops = self.get_num_crops(
+            image_width=image_width,
+            image_height=image_height,
+            processor=processor,
+        )
+        image_seq_len = processor.image_seq_length
+
+        return (num_crops + 1) * image_seq_len
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        images_kwargs = self._resolve_image_kwargs(
+            processor, {"pan_and_scan_max_num_crops"}
+        )
+        max_num_crops = images_kwargs["pan_and_scan_max_num_crops"]
+
+        # Result in the max possible feature size (h:w = max_num_crops:1)
+        return ImageSize(height=50 * max_num_crops, width=50)
+
+
+class Gemma3DummyInputsBuilder(BaseDummyInputsBuilder[Gemma3ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.boi_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt,
+            mm_data,
+            mm_kwargs,
+            tok_kwargs,
+        )
+
+        # HF processor pops the `num_crops` kwarg, which is needed by vLLM
+        if (images := mm_data.get("images")) is not None:
+            parsed_images = (
+                self._get_data_parser()
+                .parse_mm_data({"image": images})
+                .get_items("image", ImageProcessorItems)
+            )
+            image_sizes = [
+                parsed_images.get_image_size(i) for i in range(len(parsed_images))
+            ]
+            hf_processor = self.info.get_hf_processor(**mm_kwargs)
+
+            num_crops = [
+                self.info.get_num_crops(
+                    image_width=size.width,
+                    image_height=size.height,
+                    processor=hf_processor,
+                )
+                for size in image_sizes
+            ]
+            processed_outputs["num_patches"] = torch.tensor(num_crops) + 1
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
+            num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_token = hf_processor.boi_token
+
+        def get_replacement_gemma3(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                # For image embedding inputs, only support no crops cases
+                # since it's not supported in hf processor anyway
+                return self.info.get_image_repl(
+                    image_width=None,
+                    image_height=None,
+                    num_crops=0,
+                    processor=hf_processor,
+                )
+
+            image_size = images.get_image_size(item_idx)
+            return self.info.get_image_repl(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                processor=hf_processor,
+            )
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=get_replacement_gemma3,
+            )
+        ]
+
+    def _apply_token_matches(
+        self,
+        prompt: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[list[int], MultiModalPromptUpdatesApplyResult]:
+        token_ids, res = super()._apply_token_matches(prompt, mm_prompt_updates)
+
+        # "\n\n\n" and "\n\n\n\n" are single tokens
+        # Since our replacement can insert "\n\n" next to "\n"
+        # tokens, we have to combine them to be consistent with
+        # the output of the tokenizer
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+        newline_1 = vocab["\n"]
+        newline_2 = vocab["\n\n"]
+        newline_3 = vocab["\n\n\n"]
+        newline_4 = vocab["\n\n\n\n"]
+
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_1, newline_2],
+            [newline_3],
+        )
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_2, newline_1],
+            [newline_3],
+        )
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_2, newline_2],
+            [newline_4],
+        )
+
+        return token_ids, res
+
+    def _find_mm_placeholders(
+        self,
+        new_token_ids: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> Mapping[str, list[PlaceholderFeaturesInfo]]:
+        # We need to detect "\n\n" inside "\n\n\n" and "\n\n\n\n"
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+        newline_1 = vocab["\n"]
+        newline_2 = vocab["\n\n"]
+        newline_3 = vocab["\n\n\n"]
+        newline_4 = vocab["\n\n\n\n"]
+
+        def get_repl_toks(tok: int) -> list[int]:
+            if tok == newline_3:
+                return [newline_1, newline_2]
+            if tok == newline_4:
+                return [newline_2, newline_2]
+
+            return [tok]
+
+        repl_token_ids = list[int]()
+        repl_orig_idxs = list[int]()
+        for orig_idx, orig_tok in enumerate(new_token_ids):
+            repl_toks = get_repl_toks(orig_tok)
+            repl_token_ids.extend(repl_toks)
+            repl_orig_idxs.extend(orig_idx for _ in range(len(repl_toks)))
+
+        repls = super()._find_mm_placeholders(repl_token_ids, mm_prompt_updates)
+
+        return {
+            modality: [
+                PlaceholderFeaturesInfo(
+                    modality=p.modality,
+                    item_idx=p.item_idx,
+                    start_idx=repl_orig_idxs[p.start_idx],
+                    tokens=p.tokens,
+                    is_embed=p.is_embed,
+                )
+                for p in placeholders
+            ]
+            for modality, placeholders in repls.items()
+        }
+
+
+class Gemma3MultiModalProjector(nn.Module):
+    def __init__(self, config: Gemma3Config):
+        super().__init__()
+
+        self.mm_input_projection_weight = nn.Parameter(
+            torch.zeros(
+                config.vision_config.hidden_size, config.text_config.hidden_size
+            )
+        )
+
+        self.mm_soft_emb_norm = GemmaRMSNorm(
+            config.vision_config.hidden_size, eps=config.vision_config.layer_norm_eps
+        )
+
+        self.patches_per_image = int(
+            config.vision_config.image_size // config.vision_config.patch_size
+        )
+        self.tokens_per_side = int(config.mm_tokens_per_image**0.5)
+        self.kernel_size = self.patches_per_image // self.tokens_per_side
+        self.avg_pool = nn.AvgPool2d(
+            kernel_size=self.kernel_size, stride=self.kernel_size
+        )
+
+    def forward(self, vision_outputs: torch.Tensor):
+        batch_size, _, seq_length = vision_outputs.shape
+
+        reshaped_vision_outputs = vision_outputs.transpose(1, 2)
+        reshaped_vision_outputs = reshaped_vision_outputs.reshape(
+            batch_size, seq_length, self.patches_per_image, self.patches_per_image
+        )
+        reshaped_vision_outputs = reshaped_vision_outputs.contiguous()
+
+        pooled_vision_outputs = self.avg_pool(reshaped_vision_outputs)
+        pooled_vision_outputs = pooled_vision_outputs.flatten(2)
+        pooled_vision_outputs = pooled_vision_outputs.transpose(1, 2)
+
+        normed_vision_outputs = self.mm_soft_emb_norm(pooled_vision_outputs)
+
+        projected_vision_outputs = torch.matmul(
+            normed_vision_outputs, self.mm_input_projection_weight
+        )
+        return projected_vision_outputs.type_as(vision_outputs)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Gemma3MultiModalProcessor,
+    info=Gemma3ProcessingInfo,
+    dummy_inputs=Gemma3DummyInputsBuilder,
+)
+class Gemma3ForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<start_of_image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.quant_config = quant_config
+        self.multimodal_config = multimodal_config
+
+        self.vision_tower = SiglipVisionModel(
+            config.vision_config,
+            quant_config,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.multi_modal_projector = Gemma3MultiModalProjector(config)
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Gemma3ForCausalLM"],
+        )
+        logit_scale = getattr(config, "logit_scale", 1.0)
+
+        if hasattr(self.language_model, "logits_processor"):
+            # The logits processor can be unset if we're using
+            # automatic conversion to pooling model.
+            self.language_model.logits_processor.scale *= logit_scale
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Gemma3ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        num_patches = kwargs.pop("num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is not None:
+            image_size = self.config.vision_config.image_size
+            return Gemma3ImagePixelInputs(
+                pixel_values=pixel_values,
+                num_patches=num_patches,
+                resolve_bindings={"h": image_size, "w": image_size},
+            )
+        elif image_embeds is not None:
+            return Gemma3ImageEmbeddingInputs(
+                image_embeds=image_embeds,
+                type="image_embeds",
+            )
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        return vision_tower(pixel_values)
+
+    def _process_image_input(
+        self,
+        image_input: Gemma3ImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            return image_input["image_embeds"]
+        assert self.vision_tower is not None
+
+        pixel_values = image_input["pixel_values"]
+        num_patches = image_input["num_patches"]
+
+        image_features = self._image_pixels_to_features(
+            self.vision_tower,
+            pixel_values,
+        )
+        image_embeds = self.multi_modal_projector(image_features)
+
+        return [e.flatten(0, 1) for e in image_embeds.split(num_patches.tolist())]
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **kwargs,
+        )
+
+        return hidden_states
+
+    def prepare_attn_masks(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        mask_dtype: torch.dtype,
+        **kwargs,
+    ):
+        kwargs["has_images"] = True
+        # NOTE(woosuk): Here, we distinguish the sequences by the position id 0.
+        # This is a HACK. Fix this.
+        start_indices = (positions == 0).cpu().nonzero()
+        num_seqs = len(start_indices)
+        seq_lens = []
+        for i in range(num_seqs):
+            start_idx = start_indices[i].item()
+            if i < num_seqs - 1:
+                end_idx = start_indices[i + 1].item()
+            else:
+                end_idx = len(input_ids)
+            seq_lens.append(end_idx - start_idx)
+        kwargs["seq_lens"] = seq_lens
+
+        global_attn_masks = []
+        local_attn_masks = []
+        start_idx = 0
+        for seq_len in seq_lens:
+            end_idx = start_idx + seq_len
+            input_token_ids = input_ids[start_idx:end_idx]
+            start_idx = end_idx
+            # Create a global causal mask.
+            global_attn_mask = torch.empty(
+                1,
+                1,
+                seq_len,
+                seq_len,
+                dtype=mask_dtype,
+                device=input_ids.device,
+            )
+            global_attn_mask.fill_(float("-inf"))
+            # Fill the lower triangle with 0.
+            global_attn_mask = global_attn_mask.triu(diagonal=1)
+
+            # Consider the bidirectional attention between image tokens.
+            img_mask = torch.zeros_like(global_attn_mask)
+            img_pos = input_token_ids == self.config.image_token_index
+            img_mask[:, :, :, img_pos] += 1
+            img_mask[:, :, img_pos, :] += 1
+            global_attn_mask = torch.where(img_mask == 2, 0, global_attn_mask)
+            global_attn_masks.append(global_attn_mask)
+
+            sliding_window = self.config.text_config.sliding_window
+            if sliding_window is not None:
+                # Create a local causal mask with sliding window (1024).
+                local_attn_mask = torch.ones_like(global_attn_mask)
+                local_attn_mask = torch.tril(local_attn_mask, diagonal=-sliding_window)
+                local_attn_mask = torch.where(
+                    local_attn_mask == 0, global_attn_mask, float("-inf")
+                )
+                local_attn_masks.append(local_attn_mask)
+        kwargs["global_attn_masks"] = global_attn_masks
+        kwargs["local_attn_masks"] = local_attn_masks
+        return kwargs
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector",
+            tower_model="vision_tower",
+        )
diff --git a/model_executor/models/gemma3n.py b/model_executor/models/gemma3n.py
new file mode 100644
index 0000000..48928a7
--- /dev/null
+++ b/model_executor/models/gemma3n.py
@@ -0,0 +1,1166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 The vLLM team.
+# Copyright 2025 Google Inc. HuggingFace Inc. team. All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers.models.gemma3n.configuration_gemma3n import Gemma3nTextConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.forward_context import get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import (
+    _ACTIVATION_REGISTRY,
+    GeluAndMul,
+    GeluAndMulSparse,
+)
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.v1.attention.backends.utils import KVSharingFastPrefillMetadata
+
+from .interfaces import SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+EPS = torch.tensor(torch.finfo().min)
+
+
+class Gemma3nAltUp(nn.Module):
+    """Alternating updates (Altup)
+    The AltUp module wraps transformer layers. The `predict` step modifies the
+    input to the transformer layer, and the `correct` step propagates the output
+    of the transformer layer to the sparsely updated dimensions.
+    See more in the research paper:
+    https://proceedings.neurips.cc/paper_files/paper/2023/file/f2059277ac6ce66e7e5543001afa8bb5-Paper-Conference.pdf
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        rms_norm_eps: float,
+        altup_num_inputs: int,
+        altup_coef_clip: float,
+        altup_active_idx: int,
+        quant_config: QuantizationConfig,
+        prefix: str,
+    ):
+        super().__init__()
+
+        self.altup_num_inputs = altup_num_inputs
+        self.altup_active_idx = altup_active_idx
+        self.altup_coef_clip = altup_coef_clip
+
+        self.correction_coefs = ReplicatedLinear(
+            altup_num_inputs,
+            altup_num_inputs,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.correction_coefs",
+            return_bias=False,
+        )
+        self.prediction_coefs = ReplicatedLinear(
+            altup_num_inputs,
+            altup_num_inputs**2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.prediction_coefs",
+            return_bias=False,
+        )
+        self.modality_router = ReplicatedLinear(
+            hidden_size,
+            altup_num_inputs,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.modality_router",
+            return_bias=False,
+        )
+        self.router_norm = RMSNorm(
+            hidden_size=hidden_size,
+            eps=rms_norm_eps,
+        )
+        self.router_input_scale = torch.tensor(
+            hidden_size**-1.0, dtype=self.modality_router.weight.dtype
+        )
+        self.correct_output_scale = nn.Parameter(
+            torch.zeros(hidden_size, dtype=torch.float32)
+        )
+
+    def _compute_router_modalities(self, x: torch.Tensor) -> torch.Tensor:
+        router_inputs = self.router_norm(x) * self.router_input_scale
+        routed = self.modality_router(router_inputs)
+        return torch.tanh(routed.float()).type_as(x)
+
+    def scale_corrected_output(self, corrected: torch.Tensor) -> torch.Tensor:
+        return (
+            corrected.type_as(self.correct_output_scale) * self.correct_output_scale
+        ).type_as(corrected)
+
+    def predict(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # hidden:       [altup_num_inputs, num_tokens, hidden_size]
+        # modalities:   [num_tokens, num_altup_inputs]
+        # all_coefs:    [num_tokens, num_altup_inputs ** 2]
+        modalities = self._compute_router_modalities(
+            hidden_states[self.altup_active_idx]
+        )
+        all_coefs = self.prediction_coefs(modalities)
+
+        # Reshape and transpose the 2D matrix for the matmul.
+        # all_coefs_T:  [num_tokens, num_altup_inputs, num_altup_inputs]
+        all_coefs_T = all_coefs.reshape(
+            -1,
+            self.altup_num_inputs,
+            self.altup_num_inputs,
+        ).permute(0, 2, 1)
+
+        # hidden_states to [num_tokens, hidden_size, altup_num_inputs]
+        predictions = torch.matmul(hidden_states.permute(1, 2, 0), all_coefs_T)
+        # [altup_num_inputs, num_tokens, hidden_size]
+        predictions = predictions.permute(2, 0, 1)
+        predictions += hidden_states
+        return predictions.contiguous()
+
+    def correct(
+        self, predictions: torch.Tensor, activated: torch.Tensor
+    ) -> torch.Tensor:
+        # predictions:  [altup_num_inputs, num_tokens, hidden_size]
+        # activated:    [num_tokens, hidden_size]
+        # modalities:   [num_tokens, altup_num_inputs]
+        modalities = self._compute_router_modalities(activated)
+        # innovation:   [num_tokens, altup_num_inputs]
+        innovation = activated - predictions[self.altup_active_idx]
+        # innovation:   [altup_num_inputs, num_tokens, hidden_size]
+        innovation = innovation.repeat(self.altup_num_inputs, 1, 1)
+
+        # Permute to [altup_num_inputs, num_tokens] as the last dim
+        # is a scalar applied to each altup input and expand on
+        # num_tokens dim for broadcastability over hidden_size.
+        # all_coefs:    [num_tokens, altup_num_inputs]
+        all_coefs = self.correction_coefs(modalities) + 1.0
+        # all_coefs:    [altup_num_inputs, num_tokens, 1]
+        all_coefs = all_coefs.T.unsqueeze(-1)
+
+        # Elementwise (broadcast over hidden_size).
+        corrected = torch.mul(innovation, all_coefs)
+        corrected += predictions
+
+        return corrected.contiguous()
+
+
+class Gemma3nLaurelBlock(nn.Module):
+    """Learned Augmented Residual Layer"""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        laurel_rank: int,
+        rms_norm_eps: float,
+        *,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str,
+    ) -> None:
+        super().__init__()
+
+        self.linear_left = ColumnParallelLinear(
+            hidden_size,
+            laurel_rank,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_left",
+            return_bias=False,
+        )
+        self.linear_right = RowParallelLinear(
+            laurel_rank,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_right",
+            return_bias=False,
+        )
+        self.post_laurel_norm = RMSNorm(
+            hidden_size=hidden_size,
+            eps=rms_norm_eps,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        laurel_x = self.linear_left(x)
+        laurel_x = self.linear_right(laurel_x)
+        normed_laurel_x = self.post_laurel_norm(laurel_x)
+        return x + normed_laurel_x
+
+
+class Gemma3nMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_activation: str,
+        activation_sparsity: float = 0.0,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_activation != "gelu_pytorch_tanh":
+            raise ValueError(
+                "Gemma3 uses `gelu_pytorch_tanh` as the hidden activation "
+                "function. Please set `hidden_act` and `hidden_activation` to "
+                "`gelu_pytorch_tanh`."
+            )
+
+        self.act_fn = (
+            GeluAndMulSparse(
+                activation_sparsity=activation_sparsity, approximate="tanh"
+            )
+            if activation_sparsity > 0.0
+            else GeluAndMul(approximate="tanh")
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Gemma3nAttention(nn.Module):
+    def __init__(
+        self,
+        config: Gemma3nTextConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        max_position_embeddings: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.q_norm = RMSNorm(hidden_size=self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(hidden_size=self.head_dim, eps=config.rms_norm_eps)
+        self.v_norm = RMSNorm(
+            hidden_size=self.head_dim, eps=config.rms_norm_eps, has_weight=False
+        )
+
+        layer_idx = extract_layer_index(prefix)
+        is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        self.sliding_window = config.sliding_window if is_sliding else None
+
+        # Initialize the rotary embedding.
+        if is_sliding:
+            # Local attention. Override the values in config.json.
+            rope_theta = config.rope_local_base_freq
+            rope_scaling = {"rope_type": "default"}
+        else:
+            # Global attention. Use the values in config.json.
+            rope_theta = config.rope_theta
+            rope_scaling = config.rope_scaling
+
+        first_kv_shared_layer_idx = (
+            config.num_hidden_layers - config.num_kv_shared_layers
+        )
+        self.is_kv_shared = layer_idx >= first_kv_shared_layer_idx
+
+        kv_sharing_target_layer_name = None
+        if self.is_kv_shared:
+            # Last full attention layer is 1 before sharing
+            # Last sliding attention layer is 2 before sharing
+            offset = 2 if self.sliding_window is not None else 1
+            kv_shared_layer_index = first_kv_shared_layer_idx - offset
+            if kv_shared_layer_index >= 0:
+                # Different model wrappers expose layer parameters under
+                # different parent attributes.
+                # For example:
+                #   - Gemma3nForCausalLM → parameters live under "model.layers"
+                #   - Gemma3nForConditionalGeneration →
+                #     under "language_model.model.layers"
+                # This logic extracts the portion of the parameter name
+                # *before* ".layers."
+                # so downstream code can consistently reference the correct
+                # model root regardless of which wrapper class was used.
+                if ".layers." in prefix:
+                    param_name_before_layers = prefix.split(".layers.")[0]
+                else:
+                    raise ValueError(
+                        "Unexpected prefix format for Gemma3nAttention: "
+                        f"'{prefix}'. The prefix is expected to contain "
+                        "'.layers.' to correctly determine the KV sharing "
+                        "target layer."
+                    )
+                # Only the greater layer is required to specify sharing.
+                kv_sharing_target_layer_name = f"{param_name_before_layers}.layers.{kv_shared_layer_index}.self_attn.attn"  # noqa: E501
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            is_neox_style=True,
+            rope_scaling=rope_scaling,
+        )
+
+        self.attn = Attention(
+            num_heads=self.num_heads,
+            head_size=self.head_dim,
+            scale=1.0,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=self.sliding_window,
+            kv_sharing_target_layer_name=kv_sharing_target_layer_name,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        
+        q, k, v = q.contiguous(), k.contiguous(), v.contiguous()
+        q = q.unflatten(-1, (self.num_heads, self.head_dim))
+        q = self.q_norm(q)
+        q = q.flatten(-2, -1)
+        k = k.unflatten(-1, (self.num_kv_heads, self.head_dim))
+        k = self.k_norm(k)
+        k = k.flatten(-2, -1)
+        v = v.unflatten(-1, (self.num_kv_heads, self.head_dim))
+        v = self.v_norm(v)
+        v = v.flatten(-2, -1)
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Gemma3nDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Gemma3nTextConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        assert isinstance(config, Gemma3nTextConfig)
+        self.altup_active_idx = config.altup_active_idx
+        assert config.altup_correct_scale
+
+        self.altup = Gemma3nAltUp(
+            hidden_size=config.hidden_size,
+            rms_norm_eps=config.rms_norm_eps,
+            altup_num_inputs=config.altup_num_inputs,
+            altup_coef_clip=config.altup_coef_clip,
+            altup_active_idx=config.altup_active_idx,
+            quant_config=quant_config,
+            prefix=f"{prefix}.altup",
+        )
+        self.self_attn = Gemma3nAttention(
+            config=config,
+            hidden_size=config.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+            max_position_embeddings=config.max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = Gemma3nMLP(
+            hidden_size=config.hidden_size,
+            # NOTE: Matformer https://github.com/huggingface/transformers/blob/a52478253bbe522a420e88ea3940d4d98a935300/src/transformers/models/gemma3n/modular_gemma3n.py#L258 # noqa: E501
+            intermediate_size=config.intermediate_size[extract_layer_index(prefix)],
+            hidden_activation=config.hidden_activation,
+            quant_config=quant_config,
+            activation_sparsity=config.activation_sparsity_pattern[
+                extract_layer_index(prefix)
+            ],
+            prefix=f"{prefix}.mlp",
+        )
+        self.laurel = Gemma3nLaurelBlock(
+            hidden_size=config.hidden_size,
+            laurel_rank=config.laurel_rank,
+            rms_norm_eps=config.rms_norm_eps,
+            quant_config=quant_config,
+            prefix=f"{prefix}.laurel",
+        )
+
+        # NOTE(rob): should be ColumnParallelLinear and RowParallelLinear
+        # But, we need to add per_layer_input_gate(x) to per_layer_input.
+        # per_layer_input cannot be sharded, so we replicate for now.
+        self.per_layer_input_gate = ReplicatedLinear(
+            config.hidden_size,
+            config.hidden_size_per_layer_input,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.per_layer_input_gate",
+            return_bias=False,
+        )
+        self.per_layer_projection = ReplicatedLinear(
+            config.hidden_size_per_layer_input,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.per_layer_projection",
+            return_bias=False,
+        )
+
+        # LayerNorms.
+        self.input_layernorm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+        self.pre_feedforward_layernorm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+        self.post_feedforward_layernorm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+        self.post_per_layer_input_norm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+
+        self.act_fn = _ACTIVATION_REGISTRY[config.hidden_activation]
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        per_layer_input: torch.Tensor,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # ActUp (predict).
+        predictions = self.altup.predict(hidden_states)
+        active_prediction = predictions[self.altup_active_idx]
+        active_prediction_normed = self.input_layernorm(active_prediction)
+        laurel_output = self.laurel(active_prediction_normed)
+
+        # Attention.
+        attn = self.self_attn(
+            positions=positions,
+            hidden_states=active_prediction_normed,
+            **kwargs,
+        )
+        attn = self.post_attention_layernorm(attn)
+        attn_gated = attn + active_prediction
+        attn_laurel = (attn_gated + laurel_output) / torch.sqrt(torch.tensor(2.0))
+
+        # MLP.
+        attn_norm = self.pre_feedforward_layernorm(attn_laurel)
+        attn_ffw = self.mlp(attn_norm)
+        attn_ffw_norm = self.post_feedforward_layernorm(attn_ffw)
+        attn_ffw_laurel_gated = attn_laurel + attn_ffw_norm
+
+        # ActUp (connect).
+        corrected_predictions = self.altup.correct(predictions, attn_ffw_laurel_gated)
+        first_prediction = corrected_predictions[self.altup_active_idx]
+        first_prediction = self.altup.scale_corrected_output(first_prediction)
+
+        # per_layer_input_gate adapted from jax.numpy.einsum("btd,dp->btp", ...)
+        first_prediction = self.per_layer_input_gate(first_prediction)
+        first_prediction = self.act_fn(first_prediction)
+        first_prediction = torch.mul(first_prediction, per_layer_input)
+
+        # per_layer_projection adapted from jax.numpy.einsum("btp,pd->btd", ...)
+        first_prediction = self.per_layer_projection(first_prediction)
+        first_prediction = self.post_per_layer_input_norm(first_prediction)
+        corrected_predictions[1:] += first_prediction
+
+        return corrected_predictions
+
+
+# This enables torch.compile if --kv-sharing-fast-prefill passed
+@support_torch_compile(
+    enable_if=lambda vllm_config: vllm_config.cache_config.kv_sharing_fast_prefill
+)
+class Gemma3nSelfDecoder(nn.Module):
+    """
+    Includes altup embedding and self decoder layers
+    """
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layers: list[Gemma3nDecoderLayer],
+        layer_idx_start: int,
+    ):
+        super().__init__()
+        self.decoder_layers = decoder_layers
+        self.layer_idx_start = layer_idx_start
+
+        config = vllm_config.model_config.hf_config
+        self.config = config
+        quant_config = vllm_config.quant_config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.embed_scale = torch.tensor(
+            config.hidden_size**0.5,
+            dtype=self.embed_tokens.weight.dtype,
+        )
+        # Additional per-layer embeddings (PLE)
+        self.embed_tokens_per_layer = VocabParallelEmbedding(
+            config.vocab_size_per_layer_input,
+            config.num_hidden_layers * config.hidden_size_per_layer_input,
+            quant_config=quant_config,
+            prefix=f"{prefix}.per_layer_embed_tokens",
+        )
+        self.embed_scale_per_layer = torch.tensor(
+            config.hidden_size_per_layer_input**0.5,
+            dtype=self.embed_tokens.weight.dtype,
+        )
+        self.per_layer_model_projection = ColumnParallelLinear(
+            config.hidden_size,
+            config.num_hidden_layers * config.hidden_size_per_layer_input,
+            bias=False,
+            gather_output=True,
+            return_bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.per_layer_model_projection",
+        )
+        self.per_layer_projection_norm = RMSNorm(
+            hidden_size=config.hidden_size_per_layer_input,
+            eps=config.rms_norm_eps,
+        )
+        self.per_layer_input_scale = torch.rsqrt(torch.tensor(2.0)).to(
+            self.embed_tokens.weight.dtype
+        )
+        self.per_layer_projection_scale = torch.tensor(
+            config.hidden_size**0.5,
+            dtype=self.embed_tokens.weight.dtype,
+        )
+        self.altup_projections = nn.ModuleList(
+            [
+                ColumnParallelLinear(
+                    config.hidden_size,
+                    config.hidden_size,
+                    bias=False,
+                    gather_output=True,
+                    return_bias=False,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.altup_projections.{idx - 1}",
+                )
+                for idx in range(1, self.config.altup_num_inputs)
+            ]
+        )
+
+    def get_per_layer_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        # Deal with the fact that vocab_size_per_layer_input < vocab_size
+        # which causes us to have some out of vocab tokens by setting
+        # those token ids to 0. This matches the HF implementation.
+        per_layer_inputs_mask = torch.logical_and(
+            input_ids >= 0, input_ids < self.config.vocab_size_per_layer_input
+        )
+        per_layer_inputs_tokens = torch.where(
+            per_layer_inputs_mask, input_ids, torch.zeros_like(input_ids)
+        )
+        return (
+            self.embed_tokens_per_layer(per_layer_inputs_tokens)
+            * self.embed_scale_per_layer
+        )
+
+    def get_per_layer_inputs(
+        self,
+        hidden_states_0: torch.Tensor,
+        per_layer_inputs: torch.Tensor | None,
+    ) -> torch.Tensor:
+        per_layer_projection = self.per_layer_model_projection(hidden_states_0)
+        per_layer_projection = per_layer_projection.reshape(
+            *hidden_states_0.shape[:-1],
+            self.config.num_hidden_layers,
+            self.config.hidden_size_per_layer_input,
+        )
+        per_layer_projection = self.per_layer_projection_norm(per_layer_projection)
+        if per_layer_inputs is not None:
+            # Profiling run does not compute per_layer_inputs
+            per_layer_inputs = per_layer_projection + per_layer_inputs
+            per_layer_inputs *= self.per_layer_input_scale
+        else:
+            per_layer_inputs = per_layer_projection
+        return per_layer_inputs
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids) * self.embed_scale
+
+    def altup_embed(self, hidden_states_0: torch.Tensor) -> torch.Tensor:
+        # Altup embed.
+        hidden_states = [hidden_states_0] * self.config.altup_num_inputs
+        target_magnitude = torch.mean(hidden_states_0**2, dim=-1, keepdim=True) ** 0.5
+        for i in range(1, self.config.altup_num_inputs):
+            hidden_states[i] = self.altup_projections[i - 1](hidden_states[i])
+            new_magnitude = (
+                torch.mean(hidden_states[i] ** 2, dim=-1, keepdim=True) ** 0.5
+            )
+            hidden_states[i] *= target_magnitude / torch.maximum(new_magnitude, EPS)
+        hidden_states = torch.stack(hidden_states, dim=-1)
+        return hidden_states
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        per_layer_inputs: torch.Tensor | None = None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if inputs_embeds is not None:
+            hidden_states_0 = inputs_embeds
+        else:
+            hidden_states_0 = self.embed_input_ids(input_ids)
+
+        adjusted_per_layer_inputs = self.get_per_layer_inputs(
+            hidden_states_0, per_layer_inputs
+        )
+        hidden_states = self.altup_embed(hidden_states_0)
+
+        # [altnum_inputs, num_tokens, hidden_size]
+        hidden_states = hidden_states.permute(2, 0, 1)
+
+        for idx, layer in enumerate(self.decoder_layers):
+            layer_idx = idx + self.layer_idx_start
+            # [altup_num_inputs, num_tokens, hidden_size]
+            hidden_states = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                per_layer_input=adjusted_per_layer_inputs[:, layer_idx, :],
+                **kwargs,
+            )
+
+        # [num_tokens, hidden_size, altnum_inputs]
+        hidden_states = hidden_states.permute(1, 2, 0)
+
+        return hidden_states, adjusted_per_layer_inputs
+
+
+# This enables torch.compile if --kv-sharing-fast-prefill passed
+@support_torch_compile(
+    enable_if=lambda vllm_config: vllm_config.cache_config.kv_sharing_fast_prefill
+)
+class Gemma3nCrossDecoder(nn.Module):
+    """
+    Cross-decoder layers
+    """
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layers: list[Gemma3nDecoderLayer],
+        layer_idx_start: int,
+    ):
+        super().__init__()
+        self.decoder_layers = decoder_layers
+        self.layer_idx_start = layer_idx_start
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        per_layer_inputs: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        # [altnum_inputs, num_tokens, hidden_size]
+        hidden_states = hidden_states.permute(2, 0, 1)
+        for idx, layer in enumerate(self.decoder_layers):
+            layer_idx = idx + self.layer_idx_start
+            # [altup_num_inputs, num_tokens, hidden_size]
+            hidden_states = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                per_layer_input=per_layer_inputs[:, layer_idx, :],
+                **kwargs,
+            )
+        # [num_tokens, hidden_size, altnum_inputs]
+        hidden_states = hidden_states.permute(1, 2, 0)
+        return hidden_states
+
+
+# This disables torch.compile if --kv-sharing-fast-prefill passed
+@support_torch_compile(
+    enable_if=lambda vllm_config: not vllm_config.cache_config.kv_sharing_fast_prefill
+)
+class Gemma3nTextModel(nn.Module, SupportsQuant):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.altup_unembed_projections = nn.ModuleList(
+            [
+                ColumnParallelLinear(
+                    config.hidden_size,
+                    config.hidden_size,
+                    bias=False,
+                    gather_output=True,
+                    return_bias=False,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.altup_unembed_projections.{idx - 1}",
+                )
+                for idx in range(1, self.config.altup_num_inputs)
+            ]
+        )
+
+        # Allocate config.num_kv_shared_layers layers for self-decoder
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Gemma3nDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        first_kv_shared_layer_idx = (
+            config.num_hidden_layers - config.num_kv_shared_layers
+        )
+
+        # NOTE(sarckk): importing this top level seems to cause issues
+        # during running of tests.
+        from vllm.compilation.backends import set_model_tag
+
+        # Layer idx 0-19 are self-decoder layers in You Only Cache Once (YOCO)
+        with set_model_tag("self_decoder"):
+            self.self_decoder = Gemma3nSelfDecoder(
+                vllm_config=vllm_config,
+                prefix=f"{prefix}.self_decoder",
+                decoder_layers=self.layers[:first_kv_shared_layer_idx],
+                layer_idx_start=0,
+            )
+        # Layer idx 20-30 are cross-decoder layers in YOCO
+        with set_model_tag("cross_decoder"):
+            self.cross_decoder = Gemma3nCrossDecoder(
+                vllm_config=vllm_config,
+                prefix=f"{prefix}.cross_decoder",
+                decoder_layers=self.layers[first_kv_shared_layer_idx:],
+                layer_idx_start=first_kv_shared_layer_idx,
+            )
+
+        self.norm = RMSNorm(
+            config.hidden_size,
+            eps=config.rms_norm_eps,
+        )
+
+        self.fast_prefill_enabled = cache_config.kv_sharing_fast_prefill
+
+        if self.fast_prefill_enabled:
+            # Allocate static buffers for CUDAGraph
+            # TODO(sarckk): Extract this functionality to interface
+            max_num_tokens = vllm_config.scheduler_config.max_num_batched_tokens
+            device = next(self.parameters()).device
+            self.positions = torch.zeros(
+                max_num_tokens, dtype=torch.int64, device=device
+            )
+            self.hidden_states = torch.zeros(
+                (max_num_tokens, config.hidden_size, self.config.altup_num_inputs),
+                dtype=self.embed_tokens.weight.dtype,
+                device=device,
+            )
+            self.per_layer_inputs = torch.zeros(
+                (
+                    max_num_tokens,
+                    self.config.num_hidden_layers,
+                    self.config.hidden_size_per_layer_input,
+                ),
+                dtype=self.embed_tokens.weight.dtype,
+                device=device,
+            )
+
+    @property
+    def embed_tokens(self):
+        return self.self_decoder.embed_tokens
+
+    def get_per_layer_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.self_decoder.get_per_layer_input_embeddings(input_ids)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.self_decoder.embed_input_ids(input_ids)
+
+    def fast_prefill_forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        per_layer_inputs: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        logits_indices_padded, num_logits_indices = None, None
+        attn_metadata = get_forward_context().attn_metadata
+
+        # attn_metadata is None during dummy runs
+        if self.fast_prefill_enabled and attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            # Last layer is a KV sharing layer
+            layer_attn_metadata = attn_metadata[
+                self.layers[-1].self_attn.attn.layer_name
+            ]
+            if isinstance(layer_attn_metadata, KVSharingFastPrefillMetadata):
+                logits_indices_padded = layer_attn_metadata.logits_indices_padded
+                num_logits_indices = layer_attn_metadata.num_logits_indices
+
+        # Copy inputs for cudagraph
+        batch_size = positions.size(0)
+        self.positions[:batch_size].copy_(positions)
+        self_decoder_hidden_states, per_layer_inputs_adjusted = self.self_decoder(
+            input_ids=input_ids,
+            positions=self.positions[:batch_size],
+            inputs_embeds=inputs_embeds,
+            per_layer_inputs=per_layer_inputs,
+            **kwargs,
+        )
+
+        if logits_indices_padded is None:
+            logits_indices_padded = torch.arange(
+                positions.size(0),
+                dtype=positions.dtype,
+                device=positions.device,
+            )
+
+        # NOTE(sarckk): There is currently a bug caused by
+        # vLLM converting output of last piecewise CUDA graph
+        # to weakref, causing memory to be prematurely freed
+        # when there are multiple compilation units
+        # Keep .clone() until fix in
+        # https://github.com/vllm-project/vllm/pull/22282
+        hidden_states = self_decoder_hidden_states.clone()
+
+        # Copy inputs for cudagraph
+        num_padded_logits_indices = logits_indices_padded.size(0)
+        self.positions[:num_padded_logits_indices].copy_(
+            positions[logits_indices_padded]
+        )
+        self.hidden_states[:num_padded_logits_indices].copy_(
+            self_decoder_hidden_states[logits_indices_padded]
+        )
+        self.per_layer_inputs[:num_padded_logits_indices].copy_(
+            per_layer_inputs_adjusted[logits_indices_padded]
+        )
+        cross_decoder_hidden_states = self.cross_decoder(
+            positions=self.positions[:num_padded_logits_indices],
+            hidden_states=self.hidden_states[:num_padded_logits_indices],
+            per_layer_inputs=self.per_layer_inputs[:num_padded_logits_indices],
+            **kwargs,
+        )
+
+        if num_logits_indices is not None:
+            assert num_logits_indices > 0
+            # Merge cross-decoder and self-decoder hidden states
+            hidden_states[logits_indices_padded[:num_logits_indices]] = (
+                cross_decoder_hidden_states[:num_logits_indices]
+            )
+        else:
+            hidden_states = cross_decoder_hidden_states
+
+        return hidden_states
+
+    def normal_forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        per_layer_inputs: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        hidden_states, per_layer_inputs = self.self_decoder(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            per_layer_inputs=per_layer_inputs,
+            **kwargs,
+        )
+        hidden_states = self.cross_decoder(
+            positions=positions,
+            hidden_states=hidden_states,
+            per_layer_inputs=per_layer_inputs,
+            **kwargs,
+        )
+        return hidden_states
+
+    def altup_unembed(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Altup unembed.
+        target_magnitude = (
+            torch.mean(hidden_states[..., 0] ** 2, dim=-1, keepdim=True) ** 0.5
+        )
+        for i in range(1, self.config.altup_num_inputs):
+            hidden_states[..., i] = self.altup_unembed_projections[i - 1](
+                hidden_states[..., i]
+            )
+            new_magnitude = (
+                torch.mean(hidden_states[..., i] ** 2, dim=-1, keepdim=True) ** 0.5
+            )
+            hidden_states[..., i] *= target_magnitude / torch.maximum(
+                new_magnitude, EPS
+            )
+        # [num_tokens,hidden_size, altup_num_inputs] -> [num_tokens,hidden_size]
+        hidden_states = torch.mean(hidden_states, dim=-1)
+        return hidden_states
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        per_layer_inputs: torch.Tensor | None = None,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        if self.fast_prefill_enabled:
+            hidden_states = self.fast_prefill_forward(
+                input_ids,
+                positions,
+                inputs_embeds,
+                per_layer_inputs,
+                **kwargs,
+            )
+        else:
+            hidden_states = self.normal_forward(
+                input_ids,
+                positions,
+                inputs_embeds,
+                per_layer_inputs,
+                **kwargs,
+            )
+        hidden_states = self.altup_unembed(hidden_states)
+        return self.norm(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # decoder layer weights, altup_unembed_projections and rmsnorm
+            # are initialized in text model, others are in self decoder
+            if (
+                not name.startswith("layers")
+                and not name.startswith("altup_unembed_projections")
+                and not name.startswith("norm")
+            ):
+                name = f"self_decoder.{name}"
+
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache scales for compressed-tensors quantization
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = loaded_weight[0]
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, shard_name, shard_id in stacked_params_mapping:
+                if shard_name not in name:
+                    continue
+                # Avoid spurious match with ".up_proj".
+                if "altup_projections" in name:
+                    continue
+                name = name.replace(shard_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class Gemma3nForCausalLM(nn.Module):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+
+        super().__init__()
+        self.config = config
+        self.cache_config = vllm_config.cache_config
+        self.model = Gemma3nTextModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, soft_cap=config.final_logit_softcapping
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        *,
+        per_layer_inputs: torch.Tensor | None = None,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            per_layer_inputs=per_layer_inputs,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **kwargs,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.model.embed_tokens, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_substrs=(
+                ["embed_audio.", "embed_vision.", "audio_tower.", "vision_tower."]
+            ),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gemma3n_mm.py b/model_executor/models/gemma3n_mm.py
new file mode 100644
index 0000000..6ae7697
--- /dev/null
+++ b/model_executor/models/gemma3n_mm.py
@@ -0,0 +1,811 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, Optional, Union, cast
+
+import numpy as np
+import torch
+
+from torch import nn
+from transformers import AutoModel, BatchFeature
+from transformers.models.gemma3n import (
+    Gemma3nAudioConfig,
+    Gemma3nAudioFeatureExtractor,
+    Gemma3nConfig,
+    Gemma3nProcessor,
+    Gemma3nTextConfig,
+    Gemma3nVisionConfig,
+)
+from transformers.models.siglip import SiglipImageProcessorFast
+
+from vllm.config import ModelConfig, SpeechToTextConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import RowParallelLinear
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.models.gemma3n import Gemma3nForCausalLM
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.whisper import ISO639_1_SUPPORTED_LANGS
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageProcessorItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalPromptUpdates,
+    MultiModalPromptUpdatesApplyResult,
+    PlaceholderFeaturesInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+    replace_token_matches,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsTranscription
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+# This should be based on model config but we hardcode them for now.
+TOKENS_PER_IMAGE = 256
+TOKENS_PER_AUDIO = 188
+
+
+class Gemma3nImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each patch
+        - w: Width of each patch
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class Gemma3nAudioInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of audios
+        - s: seq_length
+        - f: num_features
+    """
+
+    type: Literal["audio"] = "audio"
+    input_features_padded: Annotated[torch.Tensor, TensorShape("bn", "s", "f")]
+    input_features_mask: Annotated[torch.Tensor, TensorShape("bn", "s")]
+
+
+Gemma3nImageInputs = Gemma3nImagePixelInputs
+
+
+class Gemma3nProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Gemma3nConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(Gemma3nProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
+        return {"image": None, "audio": None}
+
+    def get_max_tokens_per_item(
+        self, seq_len: int, mm_counts: Mapping[str, int]
+    ) -> Optional[Mapping[str, int]]:
+        return {"image": TOKENS_PER_IMAGE, "audio": TOKENS_PER_AUDIO}
+
+    def get_image_repl(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Optional[Gemma3nProcessor],
+    ) -> str:
+        """
+        Get the replacement text for image tokens.
+
+        For Gemma3n, this should return the full_image_sequence which includes
+        BOI token, repeated image tokens, and EOI token.
+        """
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return PromptUpdateDetails.select_token_id(
+            processor.full_image_sequence, processor.image_token_id
+        )
+
+    def get_audio_repl(
+        self,
+        *,
+        processor: Optional[Gemma3nProcessor],
+    ) -> str:
+        """
+        Get the replacement text for audio tokens.
+
+        For Gemma3n, this should return the full_audio_sequence which includes
+        BOA token, repeated audio tokens, and EOA token.
+        """
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        # Return the full audio sequence as defined by the processor
+        return PromptUpdateDetails.select_token_id(
+            processor.full_audio_sequence, processor.audio_token_id
+        )
+
+
+class Gemma3nDummyInputsBuilder(BaseDummyInputsBuilder[Gemma3nProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_audios = mm_counts.get("audio", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+        audio_token = processor.audio_token
+
+        return image_token * num_images + audio_token * num_audios
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Optional[Mapping[str, BaseDummyOptions]] = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_audios = mm_counts.get("audio", 0)
+        processor = self.info.get_hf_processor()
+        audio_feature_extractor: Gemma3nAudioFeatureExtractor = (
+            processor.feature_extractor
+        )
+        audio_len = audio_feature_extractor.fft_length
+        image_processor: SiglipImageProcessorFast = processor.image_processor
+        img_width = image_processor.size.get("width", 224)
+        img_height = image_processor.size.get("height", 224)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=img_width,
+                height=img_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "audio": self._get_dummy_audios(
+                length=audio_len, num_audios=num_audios, overrides=audio_overrides
+            ),
+        }
+
+
+class Gemma3nMultiModalProcessor(BaseMultiModalProcessor[Gemma3nProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_hf_processor().feature_extractor
+        return MultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # HF Transformers audio processor no longer accepts `audios` key.
+        # We pop `audios` and replace it with `audio` key to suppress
+        # the warning.
+        if "audios" in mm_data:
+            mm_data["audio"] = mm_data.pop("audios")
+        processed_outputs = super()._call_hf_processor(
+            prompt,
+            mm_data,
+            mm_kwargs,
+            tok_kwargs,
+        )
+
+        if "input_features" in processed_outputs:
+            # Padding enables audio_tower to run in batched mode
+            processed_outputs["input_features_padded"] = processed_outputs[
+                "input_features"
+            ]
+
+            # Unpad features here since we need the output of each item to be
+            # independent of other items for the cache to work correctly
+            unpadded_features = [
+                f[mask]
+                for f, mask in zip(
+                    processed_outputs["input_features"],
+                    processed_outputs["input_features_mask"],
+                )
+            ]
+            processed_outputs["input_features"] = unpadded_features
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            input_features_padded=MultiModalFieldConfig.batched("audio"),
+            input_features_mask=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        prompt_updates = []
+
+        # Handle image tokens
+        if "image" in mm_items:
+            image_token = hf_processor.image_token
+
+            def get_replacement_image(item_idx: int):
+                images = mm_items.get_items("image", ImageProcessorItems)
+                image_size = images.get_image_size(item_idx)
+                return self.info.get_image_repl(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            prompt_updates.append(
+                PromptReplacement(
+                    modality="image",
+                    target=image_token,
+                    replacement=get_replacement_image,
+                )
+            )
+
+        # Handle audio tokens
+        if "audio" in mm_items:
+            audio_token = hf_processor.audio_token
+
+            def get_replacement_audio(item_idx: int):
+                return self.info.get_audio_repl(
+                    processor=hf_processor,
+                )
+
+            prompt_updates.append(
+                PromptReplacement(
+                    modality="audio",
+                    target=audio_token,
+                    replacement=get_replacement_audio,
+                )
+            )
+
+        return prompt_updates
+
+    def _apply_token_matches(
+        self,
+        prompt: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[list[int], MultiModalPromptUpdatesApplyResult]:
+        token_ids, res = super()._apply_token_matches(prompt, mm_prompt_updates)
+
+        # "\n\n\n" and "\n\n\n\n" are single tokens
+        # Since our replacement can insert "\n\n" next to "\n"
+        # tokens, we have to combine them to be consistent with
+        # the output of the tokenizer
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+        newline_1 = vocab["\n"]
+        newline_2 = vocab["\n\n"]
+        newline_3 = vocab["\n\n\n"]
+        newline_4 = vocab["\n\n\n\n"]
+
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_1, newline_2],
+            [newline_3],
+        )
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_2, newline_1],
+            [newline_3],
+        )
+        token_ids = replace_token_matches(
+            token_ids,
+            [newline_2, newline_2],
+            [newline_4],
+        )
+
+        return token_ids, res
+
+    def _find_mm_placeholders(
+        self,
+        new_token_ids: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> Mapping[str, list[PlaceholderFeaturesInfo]]:
+        # We need to detect "\n\n" inside "\n\n\n" and "\n\n\n\n"
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+        newline_1 = vocab["\n"]
+        newline_2 = vocab["\n\n"]
+        newline_3 = vocab["\n\n\n"]
+        newline_4 = vocab["\n\n\n\n"]
+
+        def get_repl_toks(tok: int) -> list[int]:
+            if tok == newline_3:
+                return [newline_1, newline_2]
+            if tok == newline_4:
+                return [newline_2, newline_2]
+
+            return [tok]
+
+        repl_token_ids = list[int]()
+        repl_orig_idxs = list[int]()
+        for orig_idx, orig_tok in enumerate(new_token_ids):
+            repl_toks = get_repl_toks(orig_tok)
+            repl_token_ids.extend(repl_toks)
+            repl_orig_idxs.extend(orig_idx for _ in range(len(repl_toks)))
+
+        repls = super()._find_mm_placeholders(repl_token_ids, mm_prompt_updates)
+
+        return {
+            modality: [
+                PlaceholderFeaturesInfo(
+                    modality=p.modality,
+                    item_idx=p.item_idx,
+                    start_idx=repl_orig_idxs[p.start_idx],
+                    tokens=p.tokens,
+                    is_embed=p.is_embed,
+                )
+                for p in placeholders
+            ]
+            for modality, placeholders in repls.items()
+        }
+
+
+class Gemma3nMultimodalEmbedder(nn.Module):
+    """Embeds token ids or soft tokens for multimodal content into language
+    model space."""
+
+    def __init__(
+        self,
+        multimodal_config: Union[Gemma3nAudioConfig, Gemma3nVisionConfig],
+        text_config: Gemma3nTextConfig,
+    ):
+        super().__init__()
+
+        self.multimodal_hidden_size = multimodal_config.hidden_size
+        self.eps = multimodal_config.rms_norm_eps
+        self.vocab_offset = multimodal_config.vocab_offset
+        self.vocab_size = multimodal_config.vocab_size
+        self.text_hidden_size = text_config.hidden_size
+
+        self.embedding = VocabParallelEmbedding(
+            self.vocab_size,
+            self.multimodal_hidden_size,
+        )
+
+        self.hard_embedding_norm = RMSNorm(
+            self.multimodal_hidden_size,
+            eps=self.eps,
+        )
+
+        self.soft_embedding_norm = RMSNorm(
+            self.multimodal_hidden_size,
+            eps=self.eps,
+        )
+
+        self.embedding_projection = RowParallelLinear(
+            self.multimodal_hidden_size,
+            self.text_hidden_size,
+            bias=False,
+        )
+
+        self.embedding_post_projection_norm = RMSNorm(
+            self.text_hidden_size,
+            eps=self.eps,
+            has_weight=False,
+        )
+
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """Embeds token ids or soft tokens for multimodal content into language model space.
+
+        Args:
+            input_ids: A torch.LongTensor containing the token ids to embed. Values should be in the range
+                `[vocab_offset, vocab_offset + vocab_size)`.
+            inputs_embeds: A torch.Tensor containing the soft tokens to embed.
+
+        Returns:
+            A torch.Tensor of embeddings with  shape `[batch_size, seq_len, self.config.text_config.hidden_size]`.
+        """  # noqa: E501
+        if (input_ids is None) ^ (inputs_embeds is not None):
+            raise ValueError(
+                "You must specify exactly one of input_ids or inputs_embeds"
+            )
+
+        if inputs_embeds is not None:
+            emb_norm = self.soft_embedding_norm(inputs_embeds)
+        else:
+            hard_emb = self.embedding(input_ids - self.vocab_offset)
+            emb_norm = self.hard_embedding_norm(hard_emb)
+
+        emb_norm_proj, _ = self.embedding_projection(emb_norm)
+        return self.embedding_post_projection_norm(emb_norm_proj)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Gemma3nMultiModalProcessor,
+    info=Gemma3nProcessingInfo,
+    dummy_inputs=Gemma3nDummyInputsBuilder,
+)
+class Gemma3nForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsTranscription
+):
+    merge_by_field_config = True
+    supported_languages = ISO639_1_SUPPORTED_LANGS
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.embed_audio.": "embed_audio.",
+            "model.embed_vision.": "embed_vision.",
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.audio_tower.": "audio_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+            "model": "language_model.model",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.quant_config = quant_config
+        self.multimodal_config = multimodal_config
+        self.vocab_size = config.text_config.vocab_size
+
+        self.vision_tower = AutoModel.from_config(config=config.vision_config)
+        self.audio_tower = AutoModel.from_config(config=config.audio_config)
+        self.embed_vision = Gemma3nMultimodalEmbedder(
+            config.vision_config, config.text_config
+        )
+        self.embed_audio = Gemma3nMultimodalEmbedder(
+            config.audio_config, config.text_config
+        )
+
+        self.language_model: nn.Module = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Gemma3nForCausalLM"],
+        )
+        self.language_model = cast(Gemma3nForCausalLM, self.language_model)
+        # NOTE (NickLucche) In order to be compatible with cudagraph, the
+        # buffer needs to be consistent, so we pre-allocate here.
+        self.per_layer_embeddings = torch.zeros(
+            vllm_config.scheduler_config.max_num_batched_tokens,
+            self.config.text_config.num_hidden_layers,
+            self.config.text_config.hidden_size_per_layer_input,
+            device=self.language_model.model.embed_tokens.weight.device,
+            dtype=self.language_model.model.embed_tokens.weight.dtype,
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Optional[Gemma3nImageInputs]:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        # TODO is this the case?
+        assert image_embeds is None, "Gemma3n does not support image_embeds."
+        if pixel_values is None:
+            return None
+
+        return Gemma3nImagePixelInputs(pixel_values=pixel_values)
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> Optional[Gemma3nAudioInputs]:
+        input_features_padded = kwargs.pop("input_features_padded", None)
+        if input_features_padded is None:
+            return None
+
+        input_features_mask = kwargs.pop("input_features_mask", None)
+        if input_features_mask is None:
+            return None
+
+        return Gemma3nAudioInputs(
+            input_features_padded=input_features_padded,
+            input_features_mask=input_features_mask,
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key == "input_features_padded"
+                and "audio" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["audio"] = self._parse_and_validate_audio_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def _process_image_input(
+        self,
+        image_input: Gemma3nImageInputs,
+    ) -> list[torch.Tensor]:
+        assert self.vision_tower is not None
+
+        pixel_values = image_input["pixel_values"]
+        vision_outputs = self.vision_tower(
+            pixel_values=pixel_values, do_pooling=False, return_dict=True
+        ).last_hidden_state
+        # TODO try to avoid copy here
+        # (batch, channels, height, width) to (batch, height * width, channels)
+        vision_outputs = (
+            vision_outputs.reshape(
+                vision_outputs.shape[0],
+                self.config.vision_config.hidden_size,
+                self.config.vision_soft_tokens_per_image,
+            )
+            .permute(0, 2, 1)
+            .contiguous()
+        )
+        # Normalize and embed the soft tokens into language model space.
+        vision_outputs *= self.config.vision_config.hidden_size**0.5
+        # Return a list of embeddings instead of a batched tensor
+        return self.embed_vision(inputs_embeds=vision_outputs).unbind(0)
+
+    def _process_audio_input(
+        self,
+        audio_input: Gemma3nAudioInputs,
+    ) -> list[torch.Tensor]:
+        assert self.audio_tower is not None
+        # Run on padded features to enable batching
+        input_features = audio_input["input_features_padded"].squeeze(1)
+        input_features_mask = audio_input["input_features_mask"].squeeze(1)
+        audio_outputs, audio_mask = self.audio_tower(
+            input_features, ~input_features_mask
+        )
+        audio_features = self.embed_audio(inputs_embeds=audio_outputs)
+
+        # ruff: noqa
+        # The Gemma3nProcessor expects all audio will be 30s in length and inserts 188 audio soft tokens into the
+        # text to account for this. However, the audio preprocessing and encoder do not guarantee they will
+        # produce 188 soft tokens; they will produce at most that many tokens, but they may produce fewer tokens
+        # depending on the length of the longest audio input in the batch. When we encounter this situation, we pad
+        # the audio feature out to 188 soft tokens with the embedding of the last token in the embed_audio vocab.
+        # TODO precompute and cache padding
+        audio_padding_toks = torch.tensor(
+            [[self.vocab_size - 1]], dtype=torch.long, device=audio_features.device
+        )
+        audio_padding_embs = self.embed_audio(input_ids=audio_padding_toks)
+        audio_features = torch.where(
+            audio_mask.unsqueeze(-1), audio_padding_embs, audio_features
+        )
+
+        audio_batch_size, audio_seq_len, audio_embed_dim = audio_features.shape
+        extra_padding_tokens = self.config.audio_soft_tokens_per_image - audio_seq_len  # noqa: E501
+        extra_padding_features = audio_padding_embs.expand(
+            audio_batch_size, extra_padding_tokens, audio_embed_dim
+        )
+
+        audio_features = torch.cat((audio_features, extra_padding_features), dim=1)
+        # Return a list of embeddings instead of a batched tensor
+        return audio_features.unbind(0)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if mm_input_by_modality is None:
+            return []
+
+        multimodal_embeddings: list[torch.Tensor] = []
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                vision_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings.extend(vision_embeddings)
+            if modality == "audio":
+                audio_embeddings = self._process_audio_input(multimodal_input)
+                multimodal_embeddings.extend(audio_embeddings)
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
+        *,
+        is_multimodal: Optional[torch.Tensor] = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        # NOTE (NickLucche) Each pass needs tokens to compute PLE so we cache
+        # them here, as the model  forward has only access to the input_embeds.
+        if input_ids is not None:
+            per_layer_inputs = self.language_model.model.get_per_layer_input_embeddings(
+                input_ids
+            )
+            per_layer_inputs = per_layer_inputs.reshape(
+                -1,
+                self.config.text_config.num_hidden_layers,
+                self.config.text_config.hidden_size_per_layer_input,
+            )
+            self.per_layer_embeddings[: per_layer_inputs.shape[0]].copy_(
+                per_layer_inputs
+            )
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        # NOTE (NickLucche) During profiling, `embed_input_ids` is not
+        # called, hence we don't have input_ids to compute PLEs. We simply
+        # select a chunk of pre-allocated PLEs. During normal execution,
+        # `embed_input_ids` is called before forward, hence this slice
+        # will contain PLEs computed from the actual input_ids.
+        per_layer_inputs = self.per_layer_embeddings[: inputs_embeds.shape[0]]
+
+        hidden_states = self.language_model.model(
+            input_ids,
+            positions,
+            per_layer_inputs=per_layer_inputs,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **kwargs,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> Optional[torch.Tensor]:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector",
+            tower_model="vision_tower",
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> Optional[str]:
+        if modality == "image":
+            return "<image_soft_token>"
+        elif modality == "audio":
+            return "<audio_soft_token>"
+        else:
+            raise ValueError(f"Unsupported modality: {modality}")
+
+    @classmethod
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+        language: Optional[str],
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: Optional[str],
+    ) -> PromptType:
+        """
+        Gemma3n supports "free-form" transcription.
+        We fix its prompt here to standardize transcriptions/translations
+        requests.
+        """
+        # Transcribe this audio [into <>] | for transcription
+        # Translate this audio [from <> into <>] | for translation
+        prompt = "<start_of_turn>user\n"
+        prompt += "Transcribe" if task_type == "transcribe" else "Translate"
+        prompt += " this audio"
+
+        # We assume the language is a valid ISO 639-1 code.
+        full_lang_name = cls.supported_languages.get(language, "")
+        # Translation only for now
+        full_lang_name_to = cls.supported_languages.get(to_language, "")
+
+        if task_type == "transcribe" and full_lang_name:
+            prompt += f" into {full_lang_name}"
+        elif task_type == "translate":
+            if full_lang_name:
+                prompt += f" from {full_lang_name}"
+            if full_lang_name_to:
+                prompt += f" into {full_lang_name_to}"
+
+        prompt += ": <audio_soft_token><end_of_turn>\n<start_of_turn>model\n"
+
+        audio = (audio, stt_config.sample_rate)
+        prompts_dict = {"multi_modal_data": {"audio": audio}, "prompt": prompt}
+        return cast(PromptType, prompts_dict)
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: str
+    ) -> SpeechToTextConfig:
+        return SpeechToTextConfig(
+            # Let's set this to 30 as suggested in the docs for now, although
+            # the model is only limited by its context length.
+            max_audio_clip_s=30,
+            sample_rate=16000,
+            # TODO enable chunking after more thorough testing.
+            min_energy_split_window_size=None,
+        )
diff --git a/model_executor/models/glm.py b/model_executor/models/glm.py
new file mode 100644
index 0000000..a6991f8
--- /dev/null
+++ b/model_executor/models/glm.py
@@ -0,0 +1,23 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only HF format GLM-4 model compatible with THUDM weights."""
+
+from vllm.config import VllmConfig
+from vllm.model_executor.models.llama import LlamaForCausalLM
+
+from .utils import PPMissingLayer
+
+
+class GlmForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        vllm_config.model_config.hf_config.partial_rotary_factor = 0.5
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        # Hack Llama model to fit HF format GLM implementation
+        # Attention difference between GLM and Llama:
+        # 1. Half partial rotary_dim and no Neox style.
+        # 2. There is no bias for o_proj in attention
+        for layer in self.model.layers:
+            if not isinstance(layer, PPMissingLayer):
+                layer.self_attn.rotary_emb.is_neox_style = False
+                layer.self_attn.o_proj.bias = None
+                layer.self_attn.o_proj.skip_bias_add = True
diff --git a/model_executor/models/glm4.py b/model_executor/models/glm4.py
new file mode 100644
index 0000000..faa0674
--- /dev/null
+++ b/model_executor/models/glm4.py
@@ -0,0 +1,305 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Zhipu AI team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GLM-4-0414 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import Glm4Config
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .llama import LlamaMLP as Glm4MLP
+from .llama import LlamaModel
+from .utils import AutoWeightsLoader, PPMissingLayer, maybe_prefix
+
+
+class Glm4Attention(nn.Module):
+    def __init__(
+        self,
+        config: Glm4Config,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        head_dim: int | None = None,
+        qkv_bias: bool = False,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        partial_rotary_factor = getattr(config, "partial_rotary_factor", 0.5)
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or hidden_size // self.total_num_heads
+        self.rotary_dim = self.head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.rotary_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            partial_rotary_factor=partial_rotary_factor,
+            is_neox_style=False,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            attn_type=attn_type,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Glm4DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        config: Glm4Config | None = None,
+    ) -> None:
+        super().__init__()
+
+        config = config or vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+
+        self.self_attn = Glm4Attention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            qkv_bias=getattr(config, "attention_bias", False),
+            head_dim=getattr(config, "head_dim", None),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=AttentionType.DECODER,
+        )
+        self.mlp = Glm4MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_self_attn_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_mlp_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states = self.post_self_attn_layernorm(hidden_states)
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_mlp_layernorm(hidden_states)
+
+        return hidden_states, residual
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": Glm4DecoderLayer,
+}
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class Glm4Model(LlamaModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, layer_type=Glm4DecoderLayer
+        )
+
+
+class Glm4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = Glm4Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/glm4_1v.py b/model_executor/models/glm4_1v.py
new file mode 100644
index 0000000..6953b80
--- /dev/null
+++ b/model_executor/models/glm4_1v.py
@@ -0,0 +1,1821 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/main/src/transformers/models/Glm4v/modeling_Glm4v.py
+# Copyright 2025 The vLLM team.
+# Copyright 2025 The ZhipuAI Team.
+# Copyright 2025 The HuggingFace Inc. team.
+# All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GLM-4V model compatible with HuggingFace weights."""
+
+import itertools
+import math
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+from transformers import BatchFeature
+from transformers.models.glm4v.configuration_glm4v import Glm4vVisionConfig
+from transformers.models.glm4v.image_processing_glm4v import (
+    Glm4vImageProcessor,
+    smart_resize,
+)
+from transformers.models.glm4v.video_processing_glm4v import Glm4vVideoProcessor
+from transformers.video_utils import VideoMetadata
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size, parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.logger import init_logger
+from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems, MultiModalDataParser
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from ..layers.activation import SiluAndMul
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .qwen2_vl import _create_qwen2vl_field_factory, apply_rotary_pos_emb_vision
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import (
+    get_vit_attn_backend,
+    run_dp_sharded_mrope_vision_model,
+)
+
+logger = init_logger(__name__)
+
+# For profile run
+_MAX_FRAMES_PER_VIDEO = 600
+
+# === Vision Inputs === #
+
+
+class Glm4vImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: Number of patches
+        - cpp: Number of channels * patch_size * patch_size
+        - ni: Number of images
+        - g: Grid dimensions (3 for grid_t, grid_h, grid_w)
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values: Annotated[torch.Tensor, TensorShape("np", "cpp")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+class Glm4vImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - f: Number of image features (varies based on image resolution)
+        - h: Hidden size (must match language model backbone)
+        - n: Number of images
+        - g: Grid dimensions (3 for grid_t, grid_h, grid_w)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+
+    image_embeds: Annotated[torch.Tensor, TensorShape("f", "h")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("n", 3)]
+
+
+Glm4vImageInputs: TypeAlias = Glm4vImagePixelInputs | Glm4vImageEmbeddingInputs
+
+
+class Glm4vVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: Number of patches
+        - ctpp: Number of channels * temporal_patch_size *
+            patch_size * patch_size
+        - f: Number of frames
+        - g: Grid dimensions (3 for grid_t which is usually 1 for processed
+          video, grid_h, grid_w)
+    """
+
+    type: Literal["pixel_values_videos"] = "pixel_values_videos"
+
+    pixel_values_videos: Annotated[torch.Tensor, TensorShape("np", "ctpp")]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("f", 3)]
+
+
+class Glm4vVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - p: Number of video patches across all frames
+        - h: Hidden size (must match language model backbone)
+        - f: Number of frames
+        - g: Grid dimensions (3 for grid_t which is usually 1 for processed
+          video, grid_h, grid_w)
+    """
+
+    type: Literal["video_embeds"] = "video_embeds"
+
+    video_embeds: Annotated[torch.Tensor, TensorShape("p", "h")]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("f", 3)]
+
+
+Glm4vVideoInputs: TypeAlias = Glm4vVideoPixelInputs | Glm4vVideoEmbeddingInputs
+
+# ==== Vision Encoder ==== #
+
+
+class Glm4vVisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        bias: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=in_features,
+            output_sizes=[hidden_features] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.down_proj = RowParallelLinear(
+            hidden_features,
+            in_features,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor):
+        x, _ = self.gate_up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+def all_gather_interleave(local_tensor, hidden_size: int, tp_size: int):
+    """All-gather the input tensor interleavely across model parallel group."""
+    import torch.distributed as dist
+
+    gathered_tensors = [torch.zeros_like(local_tensor) for _ in range(tp_size)]
+    dist.all_gather(
+        gathered_tensors,
+        local_tensor,
+        group=parallel_state.get_tp_group().device_group,
+    )
+
+    gathered_tensors_split = [
+        torch.split(tensor, hidden_size // tp_size, -1) for tensor in gathered_tensors
+    ]
+    ordered_tensors = [
+        tensor for pair in zip(*gathered_tensors_split) for tensor in pair
+    ]
+    result_tensor = torch.cat(ordered_tensors, dim=-1)
+    return result_tensor
+
+
+class Glm4vVisionAttention(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        # Per attention head and per partition values.
+        self.tp_size = (
+            1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        )
+        self.tp_rank = (
+            0 if use_data_parallel else parallel_state.get_tensor_model_parallel_rank()
+        )
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            total_num_kv_heads=num_heads,
+            bias=False,
+            quant_config=quant_config,
+            # Change qkv prefix to align with GLM-4.5V-FP8 quantization cfg
+            prefix=f"{prefix}.qkv_proj" if quant_config else f"{prefix}.qkv",
+            disable_tp=use_data_parallel,
+        )
+        self.proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            bias=False,
+            disable_tp=use_data_parallel,
+        )
+
+        # Detect attention implementation.
+        self.attn_backend = get_vit_attn_backend(
+            head_size=self.hidden_size_per_attention_head,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"GLM-4V does not support {self.attn_backend} backend now."
+            )
+
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        # [s, b, 3 * head * head_dim]
+        seq_len, bs, _ = qkv.shape
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
+        q, k, v = qkv.chunk(3, dim=2)
+
+        # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
+        new_shape = (
+            seq_len,
+            bs,
+            self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        )
+        q, k, v = (x.view(*new_shape) for x in (q, k, v))
+        return q, k, v
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        # [s, b, c] --> [s, b, head * 3 * head_dim]
+        x, _ = self.qkv(x)
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head, head_dim]
+        q, k, v = self.split_qkv(x)
+        batch_size = q.shape[1]
+
+        q, k, v = (rearrange(x, "s b ... -> b s ...").contiguous() for x in (q, k, v))
+        if rotary_pos_emb is not None:
+            # [2 * b, s, heads, head_dim]
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
+
+            output = self.flash_attn_varlen_func(
+                q,
+                k,
+                v,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+                dropout_p=0.0,
+                causal=False,
+            )
+
+            context_layer = rearrange(
+                output, "(b s) h d -> s b (h d)", b=batch_size
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            # Execute attention entry by entry for speed & less VRAM.
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                start_idx = cu_seqlens[i - 1]
+                end_idx = cu_seqlens[i]
+                q_i = q[:, start_idx:end_idx]
+                k_i = k[:, start_idx:end_idx]
+                v_i = v[:, start_idx:end_idx]
+                q_i, k_i, v_i = (
+                    rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
+                )
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                output_i = rearrange(output_i, "b h s d -> b s h d ")
+                outputs.append(output_i)
+            context_layer = torch.cat(outputs, dim=1)
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            from xformers import ops as xops
+            from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+            attn_bias = BlockDiagonalMask.from_seqlens(
+                q_seqlen=seqlens, kv_seqlen=None, device=q.device
+            )
+
+            context_layer = xops.memory_efficient_attention_forward(
+                q, k, v, attn_bias=attn_bias, p=0, scale=None
+            )
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+
+        output, _ = self.proj(context_layer)
+        return output
+
+
+class Glm4vVisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_hidden_dim: int,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        self.attn = Glm4vVisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.mlp = Glm4vVisionMLP(
+            dim,
+            mlp_hidden_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        x_attn = self.attn(
+            self.norm1(x),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+        x_fused_norm, residual = self.norm2(x, residual=x_attn)
+        x = residual + self.mlp(x_fused_norm)
+
+        return x
+
+
+class Glm4vVisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        temporal_patch_size: int = 1,
+        in_channels: int = 3,
+        hidden_size: int = 1536,
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.temporal_patch_size = temporal_patch_size
+        self.hidden_size = hidden_size
+
+        kernel_size = (temporal_patch_size, patch_size, patch_size)
+        self.proj = Conv3dLayer(
+            in_channels,
+            hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
+            bias=True,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
+        return x
+
+
+class Glm4vPatchMerger(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        context_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = d_model
+        self.proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=bias,
+            gather_output=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            disable_tp=use_data_parallel,
+        )
+        self.post_projection_norm = nn.LayerNorm(self.hidden_size)
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=self.hidden_size,
+            output_sizes=[context_dim] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.down_proj = RowParallelLinear(
+            context_dim,
+            self.hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = SiluAndMul()
+        self.extra_activation_func = nn.GELU()
+
+    def forward(self, x: torch.Tensor):
+        x, _ = self.proj(x)
+        x = self.extra_activation_func(self.post_projection_norm(x))
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Glm4vVisionEmbeddings(nn.Module):
+    def __init__(self, config: Glm4vVisionConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions).expand((1, -1)),
+            persistent=False,
+        )
+
+    def forward(
+        self, embeddings, lengths, image_shapes, h_coords, w_coords
+    ) -> torch.Tensor:
+        pos_embed_weight = self.position_embedding.weight
+        hidden_size = pos_embed_weight.shape[1]
+        total_seq = h_coords.shape[0]
+        device = pos_embed_weight.device
+
+        # Move coordinates to correct device
+        h_coords, w_coords = h_coords.to(device), w_coords.to(device)
+
+        # Handle empty sequence case
+        if total_seq == 0:
+            adapted_pos_embed = torch.empty(
+                0, hidden_size, device=device, dtype=pos_embed_weight.dtype
+            )
+        else:
+            # Convert inputs to tensors if needed
+            if isinstance(lengths, list):
+                lengths = torch.tensor(lengths, device=device, dtype=torch.long)
+            if not isinstance(image_shapes, torch.Tensor):
+                image_shapes = torch.tensor(
+                    image_shapes, device=device, dtype=torch.long
+                )
+
+            # Prepare 2D position embedding
+            orig_size_sq = pos_embed_weight.shape[0]
+            orig_size = int(orig_size_sq**0.5)
+            pos_embed_2d = (
+                pos_embed_weight.view(orig_size, orig_size, hidden_size)
+                .permute(2, 0, 1)
+                .unsqueeze(0)
+                .to(device=device, dtype=torch.float32)
+            )
+
+            # Calculate target dimensions for each patch
+            # Add bounds checking for data parallel mode
+            if len(lengths) > image_shapes.shape[0]:
+                # In data parallel mode, some GPUs might not have all
+                # image shapes
+                # Use available image shapes, cycling if necessary
+                target_h_list = []
+                target_w_list = []
+                for i in range(len(lengths)):
+                    # Cycle through available shapes
+                    shape_idx = i % image_shapes.shape[0]
+                    target_h_list.append(image_shapes[shape_idx, 1].repeat(lengths[i]))
+                    target_w_list.append(image_shapes[shape_idx, 2].repeat(lengths[i]))
+                target_h = torch.cat(target_h_list).to(
+                    device=device, dtype=torch.float32
+                )
+                target_w = torch.cat(target_w_list).to(
+                    device=device, dtype=torch.float32
+                )
+            else:
+                target_h = torch.cat(
+                    [image_shapes[i, 1].repeat(lengths[i]) for i in range(len(lengths))]
+                ).to(device=device, dtype=torch.float32)
+                target_w = torch.cat(
+                    [image_shapes[i, 2].repeat(lengths[i]) for i in range(len(lengths))]
+                ).to(device=device, dtype=torch.float32)
+
+            # Normalize coordinates to [-1, 1] range for grid_sample
+            h_coords = h_coords.to(device=device, dtype=torch.float32)
+            w_coords = w_coords.to(device=device, dtype=torch.float32)
+            norm_w = ((w_coords + 0.5) / target_w) * 2 - 1
+            norm_h = ((h_coords + 0.5) / target_h) * 2 - 1
+
+            # Create sampling grid
+            grid = torch.stack((norm_w, norm_h), dim=-1).unsqueeze(0).unsqueeze(2)
+
+            # Perform bicubic interpolation
+            interpolated_embed_fp32 = F.grid_sample(
+                pos_embed_2d,
+                grid,
+                mode="bicubic",
+                align_corners=False,
+                padding_mode="border",
+            )
+
+            # Reshape and convert back to original dtype
+            adapted_pos_embed_fp32 = (
+                interpolated_embed_fp32.squeeze(0).squeeze(-1).permute(1, 0)
+            )
+            adapted_pos_embed = adapted_pos_embed_fp32.to(pos_embed_weight.dtype).to(
+                embeddings.device
+            )
+
+        # Add adapted position encoding to embeddings
+        embeddings = embeddings + adapted_pos_embed
+        return embeddings
+
+
+class Glm4vVisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+        self._seq_len_cached = 0
+        self._freqs_cached = None
+
+    def update_freqs_cache(self, seqlen: int) -> None:
+        if seqlen > self._seq_len_cached:
+            seqlen *= 2
+            self._seq_len_cached = seqlen
+            self.inv_freq = 1.0 / (
+                self.theta
+                ** (
+                    torch.arange(
+                        0,
+                        self.dim,
+                        2,
+                        dtype=torch.float,
+                        device=self.inv_freq.device,
+                    )
+                    / self.dim
+                )
+            )
+            seq = torch.arange(
+                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+            )
+            freqs = torch.outer(seq, self.inv_freq)
+            self._freqs_cached = freqs
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        self.update_freqs_cache(seqlen)
+        return self._freqs_cached[:seqlen]
+
+
+class Glm4vVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config: Glm4vVisionConfig,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+
+        patch_size = vision_config.patch_size
+        temporal_patch_size = vision_config.temporal_patch_size
+        in_channels = vision_config.in_channels
+        depth = vision_config.depth
+        self.hidden_size = vision_config.hidden_size
+        self.num_heads = vision_config.num_heads
+        self.use_data_parallel = use_data_parallel
+
+        self.patch_size = vision_config.patch_size
+        self.spatial_merge_size = vision_config.spatial_merge_size
+        self.out_hidden_size = vision_config.out_hidden_size
+
+        self.patch_embed = Glm4vVisionPatchEmbed(
+            patch_size=patch_size,
+            temporal_patch_size=temporal_patch_size,
+            in_channels=in_channels,
+            hidden_size=self.hidden_size,
+        )
+
+        norm_layer = partial(RMSNorm, eps=norm_eps)
+        head_dim = self.hidden_size // self.num_heads
+        self.rotary_pos_emb = Glm4vVisionRotaryEmbedding(head_dim // 2)
+        self.blocks = nn.ModuleList(
+            [
+                Glm4vVisionBlock(
+                    dim=self.hidden_size,
+                    num_heads=self.num_heads,
+                    mlp_hidden_dim=vision_config.out_hidden_size,
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                    use_data_parallel=self.use_data_parallel,
+                    attn_backend_override=attn_backend_override,
+                )
+                for layer_idx in range(depth)
+            ]
+        )
+        self.merger = Glm4vPatchMerger(
+            d_model=vision_config.out_hidden_size,
+            context_dim=vision_config.intermediate_size,
+            quant_config=quant_config,
+            bias=False,
+            prefix=f"{prefix}.merger",
+            use_data_parallel=self.use_data_parallel,
+        )
+        self.embeddings = Glm4vVisionEmbeddings(vision_config)
+
+        self.post_conv_layernorm = RMSNorm(
+            vision_config.hidden_size, eps=vision_config.rms_norm_eps
+        )
+        self.downsample = nn.Conv2d(
+            in_channels=vision_config.hidden_size,
+            out_channels=vision_config.out_hidden_size,
+            kernel_size=vision_config.spatial_merge_size,
+            stride=vision_config.spatial_merge_size,
+        )
+        self.post_layernorm = RMSNorm(
+            vision_config.hidden_size, eps=vision_config.rms_norm_eps
+        )
+
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    def rot_pos_emb(self, grid_thw: torch.Tensor) -> torch.Tensor:
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            hpos_ids = (
+                hpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            wpos_ids = (
+                wpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        pos_ids = torch.cat(pos_ids, dim=0)
+        max_grid_size = grid_thw[:, 1:].max()
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb, pos_ids
+
+    def compute_attn_mask_seqlen(
+        self,
+        cu_seqlens: torch.Tensor,
+    ) -> tuple[int | None, list[int] | None]:
+        max_seqlen, seqlens = None, None
+        seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        if (
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
+        ):
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        return max_seqlen, seqlens
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        grid_thw: list[list[int]],
+    ) -> torch.Tensor:
+        # Convert grid_thw to tensor (always expecting list format now)
+        grid_thw = torch.tensor(grid_thw, device=x.device, dtype=torch.long)
+
+        # patchify
+        x = x.to(device=self.device, dtype=self.dtype)
+        x = self.patch_embed(x)
+        x = self.post_conv_layernorm(x)
+
+        # compute position embedding
+        rotary_pos_emb, image_type_ids = self.rot_pos_emb(grid_thw)
+        # compute cu_seqlens
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(dim=0, dtype=torch.int32)
+        cu_seqlens = F.pad(cu_seqlens, (1, 0), "constant", 0)
+
+        # pre-compute seqlens for attn mask to reduce cuMemcpy operations
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+        x = self.embeddings(
+            x, seqlens, grid_thw, image_type_ids[:, 0], image_type_ids[:, 1]
+        )
+
+        # transformers
+        x = x.unsqueeze(1)
+        for blk in self.blocks:
+            x = blk(
+                x,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+
+        # adapter
+        x = self.post_layernorm(x)
+
+        x = x.view(-1, self.spatial_merge_size, self.spatial_merge_size, x.shape[-1])
+        x = x.permute(0, 3, 1, 2)
+        x = self.downsample(x).view(-1, self.out_hidden_size)
+        x = self.merger(x)
+
+        return x
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("attn.qkv.", "attn.q.", "q"),
+            ("attn.qkv.", "attn.k.", "k"),
+            ("attn.qkv.", "attn.v.", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Glm4vProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_tokenizer(self):
+        return self.ctx.tokenizer
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": 1}
+
+    def get_image_processor(self, **kwargs: object) -> Glm4vImageProcessor:
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_video_processor(self, **kwargs: object) -> Glm4vVideoProcessor:
+        return self.get_hf_processor(**kwargs).video_processor
+
+    def _get_vision_info(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 16,
+        do_resize: bool = True,
+        max_image_pixels: int = 28 * 28 * 2 * 30000,
+    ) -> tuple[ImageSize, int]:
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+        temporal_patch_size = vision_config.temporal_patch_size
+        if do_resize:
+            resized_height, resized_width = smart_resize(
+                num_frames=num_frames
+                if num_frames > temporal_patch_size
+                else temporal_patch_size,
+                height=image_height,
+                width=image_width,
+                factor=patch_size * merge_size,
+                max_pixels=max_image_pixels,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        # NOTE: Frames are padded to be divisible by `temporal_patch_size`
+        # https://github.com/huggingface/transformers/blob/v4.48.3/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py#L294
+        padded_num_frames = num_frames + num_frames % temporal_patch_size
+
+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches // (merge_size**2)
+
+        return preprocessed_size, num_vision_tokens
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        max_image_size, _ = self._get_vision_info(
+            image_width=9999999, image_height=9999999
+        )
+        return max_image_size
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        _, num_image_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            max_image_pixels=28 * 28 * 2 * 6144,
+        )
+        return num_image_tokens
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+    ) -> int:
+        _, num_video_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            num_frames=num_frames,
+            max_image_pixels=28 * 28 * 2 * 30000,
+        )
+        return num_video_tokens
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = 0
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+            )
+            if next_max_tokens > max_tokens or next_max_tokens == 0:
+                break
+
+            num_frames = next_num_frames
+
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len - max_image_tokens)
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1), _MAX_FRAMES_PER_VIDEO
+        )
+
+        return max(max_frames_per_video, 1)
+
+    def _get_video_second_idx(
+        self, metadata: dict[str, Any], total_frames: int
+    ) -> list[int]:
+        video_processor = self.get_video_processor()
+
+        video_fps = metadata.get("fps", video_processor.fps)
+        meta_frames = metadata.get("total_num_frames", total_frames)
+        max_frame_idx = meta_frames - 1
+        duration = metadata.get("duration", round(max_frame_idx / video_fps) + 1)
+        do_sample_frames = metadata["do_sample_frames"]
+        if not do_sample_frames:
+            frame_indices = metadata["frames_indices"]
+        else:
+            if duration <= video_processor.max_duration:
+                n = int(math.floor(duration * video_processor.fps))
+                frame_indices = [
+                    min(
+                        max_frame_idx,
+                        int(math.ceil(i * video_fps / video_processor.fps)),
+                    )
+                    for i in range(n)
+                ]
+            else:
+                num_samples = int(video_processor.max_duration * video_processor.fps)
+                if num_samples >= meta_frames:
+                    frame_indices = list(range(meta_frames))
+                else:
+                    target_seconds = np.linspace(
+                        0, duration, num_samples, endpoint=True
+                    )
+                    frame_indices = [
+                        min(max_frame_idx, int(math.ceil(t * video_fps)))
+                        for t in target_seconds
+                    ]
+
+        seen, uniq = set(), []
+        for idx in frame_indices:
+            if idx not in seen:
+                seen.add(idx)
+                uniq.append(idx)
+        if len(uniq) & 1:
+            uniq.append(uniq[-1])
+        frame_indices = uniq
+
+        full_second_idxs = [int(idx / video_fps) for idx in frame_indices]
+        timestamps_list = full_second_idxs[::2]
+        selected_timestamps = []
+        for idx in range(0, len(timestamps_list)):
+            selected_timestamps.append(timestamps_list[idx])
+        return selected_timestamps
+
+    def _construct_video_placeholder(
+        self,
+        video_array: np.ndarray,
+        metadata: dict[str, Any],
+        grid_thw: torch.Tensor,
+    ) -> str:
+        hf_processor = self.get_hf_processor()
+        tokenizer = self.get_tokenizer()
+        image_processor = hf_processor.image_processor
+
+        hf_config = self.get_hf_config()
+        boi_token_id = hf_config.image_start_token_id
+        eoi_token_id = hf_config.image_end_token_id
+        bov_token_id = hf_config.video_start_token_id
+        eov_token_id = hf_config.video_end_token_id
+        merge_length = image_processor.merge_size**2
+
+        assert isinstance(grid_thw, torch.Tensor)
+        timestamps = self._get_video_second_idx(metadata, len(video_array))
+        frames_idx_token = [
+            tokenizer.encode(str(i), add_special_tokens=False) for i in timestamps
+        ]
+        T, H, W = grid_thw
+        num_tokens_per_frame = int(H * W) // merge_length
+        placeholder = []
+        placeholder.append(bov_token_id)
+        for frame_idx in frames_idx_token:
+            placeholder.append(boi_token_id)
+            placeholder.extend([hf_processor.video_token_id] * num_tokens_per_frame)
+            placeholder.append(eoi_token_id)
+            placeholder.extend(frame_idx)
+        placeholder.append(eov_token_id)
+
+        return placeholder
+
+
+class Glm4vDummyInputsBuilder(BaseDummyInputsBuilder[Glm4vProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        hf_config = self.info.get_hf_config()
+        hf_processor = self.info.get_hf_processor()
+        tokenizer = self.info.get_tokenizer()
+
+        image_token: str = hf_processor.image_token
+        video_token_ids = [
+            hf_config.video_start_token_id,
+            hf_processor.video_token_id,
+            hf_config.video_end_token_id,
+        ]
+        video_token = tokenizer.decode(video_token_ids)
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+    def _get_dummy_videos(
+        self,
+        *,
+        width: int,
+        height: int,
+        num_frames: int,
+        num_videos: int,
+        overrides: VideoDummyOptions | None = None,
+    ) -> list[VideoItem]:
+        if overrides:
+            if overrides.num_frames:
+                if overrides.num_frames > num_frames:
+                    logger.warning(
+                        "video.num_frames override (%d) exceeds model's "
+                        "maximum number of frames (%d), will be ignored",
+                        overrides.num_frames,
+                        num_frames,
+                    )
+                num_frames = min(num_frames, overrides.num_frames)
+            if overrides.width:
+                if overrides.width > width:
+                    logger.warning(
+                        "video.width override (%d) exceeds model's "
+                        "maximum width (%d), will be ignored",
+                        overrides.width,
+                        width,
+                    )
+                width = min(width, overrides.width)
+            if overrides.height:
+                if overrides.height > height:
+                    logger.warning(
+                        "video.height override (%d) exceeds model's "
+                        "maximum height (%d), will be ignored",
+                        overrides.height,
+                        height,
+                    )
+                height = min(height, overrides.height)
+
+        video = np.full((num_frames, width, height, 3), 255, dtype=np.uint8)
+        video_items = []
+        for i in range(num_videos):
+            video_metadata = {
+                "fps": 2.0,
+                "duration": num_frames / 2.0,
+                "total_num_frames": num_frames,
+                "frames_indices": [i for i in range(num_frames)],
+                "video_backend": "opencv",
+                "do_sample_frames": False,
+            }
+            video_item = (video.copy(), video_metadata)
+            video_items.append(video_item)
+
+        return video_items
+
+
+class Glm4vMultiModalProcessor(BaseMultiModalProcessor[Glm4vProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return MultiModalDataParser(video_needs_metadata=True)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        processor = self.info.get_hf_processor(**mm_kwargs)
+
+        # GLM-4.1V use `image_token_id` as video placeholder, we need to
+        # replace it with `video_token_id` for video processing. So we
+        # separate video processing from image processing.
+        if (
+            "videos" in mm_data
+            and isinstance(mm_data["videos"], list)
+            and len(mm_data["videos"]) > 0
+        ):
+            video_grid_thw_lst = []
+            pixel_values_videos_lst = []
+            for item in mm_data.pop("videos", []):
+                video_array, metadata = item
+
+                # don't update mm_kwargs inplace
+                video_mm_kwargs = dict(**mm_kwargs)
+                video_mm_kwargs["do_sample_frames"] = metadata.get(
+                    "do_sample_frames", True
+                )
+
+                video_mm_data = dict()
+                video_mm_data["videos"] = [[video_array]]
+
+                unuse_metadata = ["do_sample_frames"]
+                video_mm_data["video_metadata"] = [
+                    [
+                        VideoMetadata(
+                            **{
+                                k: metadata[k]
+                                for k in metadata
+                                if k not in unuse_metadata
+                            }
+                        )
+                    ]
+                ]
+
+                video_outputs = super()._call_hf_processor(
+                    prompt="<|begin_of_video|><|video|><|end_of_video|>",
+                    mm_data=video_mm_data,
+                    mm_kwargs=video_mm_kwargs,
+                    tok_kwargs=tok_kwargs,
+                )
+                input_ids = video_outputs.pop("input_ids")
+                input_ids[input_ids == processor.image_token_id] = (
+                    processor.video_token_id
+                )
+                video_placeholder = processor.tokenizer.batch_decode(input_ids)[0]
+                prompt = prompt.replace(
+                    "<|begin_of_video|><|video|><|end_of_video|>",
+                    video_placeholder,
+                    1,
+                )
+
+                video_grid_thw_lst.append(video_outputs["video_grid_thw"])
+                pixel_values_videos_lst.append(video_outputs["pixel_values_videos"])
+            video_outputs = dict(
+                pixel_values_videos=torch.cat(pixel_values_videos_lst),
+                video_grid_thw=torch.cat(video_grid_thw_lst),
+            )
+        else:
+            video_outputs = dict()
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+        combined_outputs = dict(
+            processed_outputs,
+            **video_outputs,
+        )
+        return BatchFeature(combined_outputs)
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _create_qwen2vl_field_factory(
+            self.info.get_hf_config().vision_config.spatial_merge_size
+        )(hf_inputs)
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+
+        merge_length = image_processor.merge_size**2
+
+        def get_image_replacement_glm4v(item_idx: int):
+            out_item = out_mm_kwargs["image"][item_idx]
+            grid_thw = out_item["image_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            num_tokens = int(grid_thw.prod()) // merge_length
+            return [hf_processor.image_token_id] * num_tokens
+
+        def get_video_replacement_glm4v(item_idx: int):
+            out_item = out_mm_kwargs["video"][item_idx]
+            grid_thw = out_item["video_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            video, metadata = mm_items["video"][item_idx]
+            placeholder = self.info._construct_video_placeholder(
+                video, metadata, grid_thw
+            )
+            return PromptUpdateDetails.select_token_id(
+                placeholder,
+                embed_token_id=hf_processor.video_token_id,
+            )
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=hf_processor.image_token,
+                replacement=get_image_replacement_glm4v,
+            ),
+            PromptReplacement(
+                modality="video",
+                target="<|begin_of_video|><|video|><|end_of_video|>",
+                replacement=get_video_replacement_glm4v,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Glm4vMultiModalProcessor,
+    info=Glm4vProcessingInfo,
+    dummy_inputs=Glm4vDummyInputsBuilder,
+)
+class Glm4vForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": ["gate_up_proj"],
+    }
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "lm_head.": "language_model.lm_head.",
+            "model.language_model.": "language_model.model.",
+            "model.visual.": "visual.",
+        }
+    )
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|begin_of_image|><|image|><|end_of_image|>"
+        if modality.startswith("video"):
+            return "<|begin_of_video|><|video|><|end_of_video|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.visual = Glm4vVisionTransformer(
+            config.vision_config,
+            norm_eps=getattr(config, "rms_norm_eps", 1e-5),
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "visual"),
+            use_data_parallel=self.use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+
+        if config.model_type == "glm4v":
+            architectures = ["Glm4ForCausalLM"]
+        elif config.model_type == "glm4v_moe":
+            architectures = ["Glm4MoeForCausalLM"]
+        else:
+            architectures = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=architectures,
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Glm4vImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Glm4vImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return Glm4vImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Glm4vVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Glm4vVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+            )
+
+        if video_embeds is not None:
+            return Glm4vVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: Glm4vImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values = image_input["pixel_values"].type(self.visual.dtype)
+            if self.use_data_parallel:
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual, pixel_values, grid_thw.tolist(), rope_type="rope_3d"
+                )
+            else:
+                image_embeds = self.visual(pixel_values, grid_thw=grid_thw.tolist())
+        merge_size = self.visual.spatial_merge_size
+        sizes = (
+            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
+            // (merge_size * merge_size)
+        ).tolist()
+        return image_embeds.split(sizes)
+
+    def _process_video_input(
+        self, video_input: Glm4vVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+
+        if video_input["type"] == "video_embeds":
+            video_embeds = video_input["video_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values_videos = video_input["pixel_values_videos"].type(
+                self.visual.dtype
+            )
+            if self.use_data_parallel:
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual,
+                    pixel_values_videos,
+                    grid_thw.tolist(),
+                    rope_type="rope_3d",
+                )
+            else:
+                video_embeds = self.visual(
+                    pixel_values_videos, grid_thw=grid_thw.tolist()
+                )
+        # Split concatenated embeddings for each video item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (
+            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
+            // (merge_size * merge_size)
+        ).tolist()
+        return video_embeds.split(sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return None
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_input(multimodal_input)
+                multimodal_embeddings += tuple(video_embeddings)
+        return multimodal_embeddings
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_start_token_id = hf_config.video_start_token_id
+        video_end_token_id = hf_config.video_end_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        llm_pos_ids_list: list = []
+
+        if image_grid_thw or video_grid_thw:
+            input_token_type: list[str] = []
+            video_check_flg = False
+            for token in input_tokens:
+                if token == video_start_token_id:
+                    video_check_flg = True
+                elif token == video_end_token_id:
+                    video_check_flg = False
+
+                if (token == image_token_id) and (video_check_flg is False):
+                    input_token_type.append("image")
+                elif (token == image_token_id) and (video_check_flg is True):
+                    input_token_type.append("video")
+                else:
+                    input_token_type.append("text")
+
+            input_type_group: list[tuple[str, int, int]] = []
+            for key, group_iter in itertools.groupby(
+                enumerate(input_token_type), lambda x: x[1]
+            ):
+                group_list = list(group_iter)
+                start_index = group_list[0][0]
+                end_index = group_list[-1][0] + 1
+                input_type_group.append((key, start_index, end_index))
+
+            video_frame_num = 1
+            mm_data_idx = 0
+            for modality_type, start_idx, end_idx in input_type_group:
+                st_idx = (
+                    llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+                )
+                if modality_type == "image":
+                    t, h, w = image_grid_thw[mm_data_idx]
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    t_index = (
+                        torch.arange(llm_grid_t)
+                        .view(-1, 1)
+                        .expand(-1, llm_grid_h * llm_grid_w)
+                        .flatten()
+                    )
+                    h_index = (
+                        torch.arange(llm_grid_h)
+                        .view(1, -1, 1)
+                        .expand(llm_grid_t, -1, llm_grid_w)
+                        .flatten()
+                    )
+                    w_index = (
+                        torch.arange(llm_grid_w)
+                        .view(1, 1, -1)
+                        .expand(llm_grid_t, llm_grid_h, -1)
+                        .flatten()
+                    )
+                    llm_pos_ids_list.append(
+                        torch.stack([t_index, h_index, w_index]) + st_idx
+                    )
+                    mm_data_idx += 1
+
+                elif modality_type == "video":
+                    t, h, w = (
+                        video_frame_num,
+                        *image_grid_thw[mm_data_idx][1:],
+                    )
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    for t_idx in range(llm_grid_t):
+                        t_index = (
+                            torch.tensor(t_idx)
+                            .view(-1, 1)
+                            .expand(-1, llm_grid_h * llm_grid_w)
+                            .flatten()
+                        )
+                        h_index = (
+                            torch.arange(llm_grid_h)
+                            .view(1, -1, 1)
+                            .expand(1, -1, llm_grid_w)
+                            .flatten()
+                        )
+                        w_index = (
+                            torch.arange(llm_grid_w)
+                            .view(1, 1, -1)
+                            .expand(1, llm_grid_h, -1)
+                            .flatten()
+                        )
+                        llm_pos_ids_list.append(
+                            torch.stack([t_index, h_index, w_index]) + st_idx
+                        )
+
+                    mm_data_idx += 1
+                    video_frame_num += 1
+
+                else:
+                    text_len = end_idx - start_idx
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                    )
+                    video_frame_num = 1
+
+        else:
+            text_len = len(input_tokens)
+            llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        return llm_positions, mrope_position_delta
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for GLM-4V.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Flattened (concatenated) position ids corresponding to a
+                batch.
+                **NOTE**: If mrope is enabled (default setting for GLM-4V
+                opensource models), the shape will be `(3, seq_len)`,
+                otherwise it will be `(seq_len,).
+            intermediate_tensors: Optional intermediate tensors for pipeline
+                parallelism.
+            inputs_embeds: Optional pre-computed input embeddings.
+            **kwargs: Additional keyword arguments.
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model.model",
+            connector="visual.merger.",
+            tower_model="visual.",
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Glm4vMultiModalProcessor,
+    info=Glm4vProcessingInfo,
+    dummy_inputs=Glm4vDummyInputsBuilder,
+)
+class Glm4vMoeForConditionalGeneration(Glm4vForConditionalGeneration):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
diff --git a/model_executor/models/glm4_moe.py b/model_executor/models/glm4_moe.py
new file mode 100644
index 0000000..2333e58
--- /dev/null
+++ b/model_executor/models/glm4_moe.py
@@ -0,0 +1,754 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The ZhipuAI Team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GLM-4.5, GLM-4.6 model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers.models.glm4_moe import Glm4MoeConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Glm4MoeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        if x.shape[-1] != self.down_proj.weight.shape[0]:
+            padding = self.down_proj.weight.shape[0] - x.shape[-1]
+            x_align = torch.nn.functional.pad(x, (0, padding), mode='constant', value=0)
+        else:
+            x_align = x
+        x, _ = self.down_proj(x_align)
+        return x
+
+
+class Glm4MoE(nn.Module):
+    def __init__(
+        self,
+        config: Glm4MoeConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.n_routed_experts
+        self.n_shared_experts: int = config.n_shared_experts
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+        # NOTE In the transformers implementation, the gate isn't an nn.Linear,
+        # so we cannot use ReplicatedLinear here.
+        # See: https://github.com/huggingface/transformers/blob/v4.55.1/src/transformers/models/glm4_moe/modeling_glm4_moe.py#L260
+        self.gate = nn.Linear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            dtype=torch.bfloat16,
+        )
+        self.gate.e_score_correction_bias = nn.Parameter(
+            torch.empty(config.n_routed_experts, dtype=torch.bfloat16))
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        if config.n_shared_experts is not None:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+            self.shared_experts = Glm4MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func="sigmoid",
+            # we do scaling outside, set factor to 1.0 to avoid double mul
+            routed_scaling_factor=1.0,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.gate(hidden_states.to(dtype=torch.bfloat16))
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.shared_experts is not None:
+            shared_output, final_hidden_states = fused_moe_out
+            assert shared_output is not None
+            final_hidden_states = (
+                final_hidden_states * self.routed_scaling_factor + shared_output
+            )
+        else:
+            final_hidden_states = fused_moe_out * self.routed_scaling_factor
+
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class Glm4MoeAttention(nn.Module):
+    def __init__(
+        self,
+        config: Glm4MoeConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 131072,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-05,
+        qkv_bias: bool = False,
+        use_qk_norm: bool = False,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.use_qk_norm = use_qk_norm
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        partial_rotary_factor = getattr(config, "partial_rotary_factor", 0.5)
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            partial_rotary_factor=partial_rotary_factor,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        if self.use_qk_norm:
+            self.q_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+            self.k_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = q.contiguous()
+        k = k.contiguous()
+        v = v.contiguous()
+        if self.use_qk_norm:
+            q = self.q_norm(q.reshape(-1, self.num_heads, self.head_dim)).reshape(
+                q.shape
+            )
+            k = self.k_norm(k.reshape(-1, self.num_kv_heads, self.head_dim)).reshape(
+                k.shape
+            )
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Glm4MoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Glm4MoeConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
+        # DecoderLayers are created with `make_layers` which passes the prefix
+        # with the layer's index.
+        layer_idx = int(prefix.split(sep=".")[-1])
+        self.layer_idx = layer_idx
+
+        self.self_attn = Glm4MoeAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            head_dim=config.head_dim,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=config.attention_bias,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            use_qk_norm=config.use_qk_norm,
+        )
+
+        if (
+            config.n_routed_experts is not None
+            and layer_idx >= config.first_k_dense_replace
+        ):
+            self.mlp = Glm4MoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+                enable_eplb=enable_eplb,
+            )
+        else:
+            self.mlp = Glm4MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.routed_scaling_factor = config.routed_scaling_factor
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class Glm4MoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        enable_eplb = vllm_config.parallel_config.enable_eplb
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size, config.hidden_size, prefix=f"{prefix}.embed_tokens"
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Glm4MoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+                "residual": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is not None:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class Glm4MixtureOfExperts(MixtureOfExperts):
+    def extract_moe_parameters(self, example_moe: Glm4MoE | None) -> None:
+        if example_moe is None:
+            raise RuntimeError("No Glm4MoE layer found in model.layers.")
+        else:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for moe in self.moe_mlp_layers:
+            moe.n_local_physical_experts = num_local_physical_experts
+            moe.n_physical_experts = num_physical_experts
+            moe.n_redundant_experts = self.num_redundant_experts
+            moe.experts.update_expert_map()
+
+
+class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, Glm4MixtureOfExperts):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Glm4MoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
+        self.num_expert_groups = config.n_group
+
+        self.moe_layers = []
+        self.moe_mlp_layers: list[Glm4MoE] = []
+
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, Glm4MoeDecoderLayer)
+            if isinstance(layer.mlp, Glm4MoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
+                self.moe_layers.append(layer.mlp.experts)
+
+        self.extract_moe_parameters(example_moe)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+def get_spec_layer_idx_from_weight_name(
+    config: Glm4MoeConfig, weight_name: str
+) -> int | None:
+    if hasattr(config, "num_nextn_predict_layers") and (
+        config.num_nextn_predict_layers > 0
+    ):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_nextn_predict_layers):
+            if f"layers.{layer_idx + i}." in weight_name:
+                return layer_idx + i
+    return None
diff --git a/model_executor/models/glm4_moe_mtp.py b/model_executor/models/glm4_moe_mtp.py
new file mode 100644
index 0000000..e34ae6c
--- /dev/null
+++ b/model_executor/models/glm4_moe_mtp.py
@@ -0,0 +1,359 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The ZhipuAI Team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GLM-4.5 MTP model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .glm4_moe import (
+    Glm4MixtureOfExperts,
+    Glm4MoE,
+    Glm4MoeDecoderLayer,
+    get_spec_layer_idx_from_weight_name,
+)
+from .interfaces import SupportsPP
+from .utils import maybe_prefix
+
+
+class SharedHead(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "head"),
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        return self.norm(hidden_states)
+
+
+class Glm4MoeMultiTokenPredictorLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.eh_proj = nn.Linear(config.hidden_size * 2, config.hidden_size, bias=False)
+        self.shared_head = SharedHead(
+            config=config, prefix=prefix, quant_config=quant_config
+        )
+        self.enable_eplb = parallel_config.enable_eplb
+        self.mtp_block = Glm4MoeDecoderLayer(
+            config=config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            enable_eplb=self.enable_eplb,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        # masking inputs at position 0, as not needed by MTP
+        inputs_embeds[positions == 0] = 0
+        inputs_embeds = self.enorm(inputs_embeds)
+        previous_hidden_states = self.hnorm(previous_hidden_states)
+
+        hidden_states = self.eh_proj(
+            torch.cat([inputs_embeds, previous_hidden_states], dim=-1)
+        )
+
+        hidden_states, residual = self.mtp_block(
+            positions=positions, hidden_states=hidden_states, residual=None
+        )
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+class Glm4MoeMultiTokenPredictor(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+        # to map the exact layer index from weights
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): Glm4MoeMultiTokenPredictorLayer(
+                    config,
+                    f"{prefix}.layers.{idx}",
+                    cache_config=vllm_config.cache_config,
+                    quant_config=vllm_config.quant_config,
+                    parallel_config=vllm_config.parallel_config,
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        return self.layers[str(self.mtp_start_layer_idx + current_step_idx)](
+            input_ids,
+            positions,
+            previous_hidden_states,
+            inputs_embeds,
+            current_step_idx,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        mtp_layer = self.layers[str(self.mtp_start_layer_idx + current_step_idx)]
+        logits = self.logits_processor(
+            mtp_layer.shared_head.head, mtp_layer.shared_head(hidden_states)
+        )
+        return logits
+
+
+class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = Glm4MoeMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = self.config.num_nextn_predict_layers
+        self.num_expert_groups = self.config.n_group
+
+        self.moe_layers: list[FusedMoE] = []
+        self.moe_mlp_layers: list[Glm4MoE] = []
+        example_moe = None
+        for layer in self.model.layers.values():
+            assert isinstance(layer, Glm4MoeMultiTokenPredictorLayer)
+            layer = layer.mtp_block
+            assert isinstance(layer, Glm4MoeDecoderLayer)
+            if isinstance(layer.mlp, Glm4MoE):
+                example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
+                self.moe_layers.append(layer.mlp.experts)
+        self.extract_moe_parameters(example_moe)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, inputs_embeds, spec_step_idx
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, spec_step_idx)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if name == "lm_head.weight":
+                spec_layer = self.model.mtp_start_layer_idx
+                name = f"model.layers.{spec_layer}.shared_head.head.weight"
+            elif name == "model.embed_tokens.weight":
+                spec_layer = self.model.mtp_start_layer_idx
+            else:
+                spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+                if spec_layer is None:
+                    continue
+                name = self._rewrite_spec_layer_name(spec_layer, name)
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # According to DeepSeek-V3 Technical Report, MTP modules
+                    # shares embedding layer. We only load the first weights.
+                    if (
+                        spec_layer != self.model.mtp_start_layer_idx
+                        and ".layers" not in name
+                    ):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        and rename shared layer weights to be top level.
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        shared_weight_names = ["embed_tokens"]
+        spec_layer_weight = False
+        shared_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                if weight_name in shared_weight_names:
+                    shared_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                f"model.layers.{spec_layer}.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        elif shared_weight:
+            # treat shared weights as top level weights
+            name = name.replace(f"model.layers.{spec_layer}.", "model.")
+        return name
diff --git a/model_executor/models/glm4v.py b/model_executor/models/glm4v.py
new file mode 100644
index 0000000..1c18ea0
--- /dev/null
+++ b/model_executor/models/glm4v.py
@@ -0,0 +1,784 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/zai-org/CogAgent
+"""Inference-only CogAgent model compatible with THUDM weights."""
+
+import itertools
+from argparse import Namespace
+from collections.abc import Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+from torch import nn
+from torch.nn import LayerNorm
+from torchvision import transforms
+from torchvision.transforms import InterpolationMode
+from transformers import BatchFeature, PreTrainedTokenizer, TensorType
+from transformers.image_utils import ImageInput
+from transformers.tokenization_utils_base import TextInput
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul, get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import ChatGLMConfig
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .chatglm import ChatGLMBaseModel, ChatGLMModel
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+
+
+class GLMVImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - c: Number of channels (3)
+        - h: Height of image
+        - w: Width of image
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    data: Annotated[torch.Tensor, TensorShape("b", 3, "h", "w")]
+
+
+class EVA2CLIPPatchEmbedding(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.proj = nn.Conv2d(
+            config.in_channels,
+            config.hidden_size,
+            kernel_size=config.patch_size,
+            stride=config.patch_size,
+        )
+        self.cls_embedding = nn.Parameter(torch.zeros(1, config.hidden_size))
+        self.position_embedding = nn.Embedding(config.num_positions, config.hidden_size)
+
+    def forward(self, images: torch.Tensor) -> torch.Tensor:
+        """
+        Parameters:
+        images : torch.Tensor
+            Input image tensor with shape (B, C, H, W)
+
+        Returns:
+        torch.Tensor
+            Transformed tensor with shape (B, L, D)
+        """
+        images = images.to(device=self.proj.weight.device, dtype=self.proj.weight.dtype)
+        x = self.proj(images)
+        x = x.flatten(2).transpose(1, 2)
+        cls_token = self.cls_embedding.expand(x.shape[0], -1, -1)
+        x = torch.cat((cls_token, x), dim=1)
+        x += self.position_embedding.weight.unsqueeze(0)
+        return x
+
+
+class EVA2CLIPAttention(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_heads_per_rank = config.num_heads // self.tp_size
+        self.head_dim = config.hidden_size // config.num_heads
+        self.scale = self.head_dim**-0.5
+
+        self.query_key_value = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            config.num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.dense = RowParallelLinear(
+            config.hidden_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+        self.attn = MultiHeadAttention(
+            self.num_heads_per_rank, self.head_dim, self.scale
+        )
+        self.output_dropout = torch.nn.Dropout(config.dropout_prob)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        qkv, _ = self.query_key_value(x)  # B, L, 3 * H * D
+        q, k, v = qkv.chunk(3, dim=-1)
+
+        out = self.attn(q, k, v)
+        output, _ = self.dense(out)
+        output = self.output_dropout(output)
+        return output
+
+
+class EVA2CLIPMLP(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.fc1(x)
+        x = self.activation_fn(x)
+        x, _ = self.fc2(x)
+        return x
+
+
+class EVA2CLIPTransformerLayer(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.input_layernorm = LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.attention = EVA2CLIPAttention(
+            config, quant_config=quant_config, prefix=f"{prefix}.attention"
+        )
+        self.mlp = EVA2CLIPMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+        self.post_attention_layernorm = LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+
+    def forward(self, hidden_states):
+        attention_input = hidden_states
+        attention_output = self.input_layernorm(self.attention(attention_input))
+        hidden_states = attention_input + attention_output
+        mlp_input = hidden_states
+        mlp_output = self.post_attention_layernorm(self.mlp(mlp_input))
+        output = mlp_input + mlp_output
+        return output
+
+
+class EVA2CLIPTransformer(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.layers = nn.ModuleList(
+            [
+                EVA2CLIPTransformerLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(self, hidden_states):
+        for layer_module in self.layers:
+            hidden_states = layer_module(hidden_states)
+        return hidden_states
+
+
+class EVA2CLIPGLU(nn.Module):
+    def __init__(
+        self,
+        config,
+        in_features,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        """
+        The original implementation is the same as:
+        ```python
+        self.dense_h_to_4h = ColumnParallelLinear(
+            config.hidden_size,
+            config.ffn_hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+        self.gate_proj = ColumnParallelLinear(
+            config.hidden_size,
+            config.ffn_hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+        ```
+        ```
+        gate_proj_output, _ = self.gate_proj(x)
+        dense_h_to_4h_output, _ = self.dense_h_to_4h(x)
+        x = torch.cat([gate_proj_output, dense_h_to_4h_output], dim=-1)
+        ```
+
+        We merge two ColumnParallelLinear into one MergedColumnParallelLinear:
+        ```
+        self.merged_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [config.ffn_hidden_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+        )
+        ```
+        ```
+        x, _ = self.merged_proj(x)
+        ```
+        """
+        super().__init__()
+        self.linear_proj = ReplicatedLinear(
+            in_features,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_proj",
+        )
+        self.norm1 = nn.LayerNorm(config.hidden_size)
+        self.act1 = nn.GELU()
+        self.act2 = SiluAndMul()
+
+        self.merged_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [config.ffn_hidden_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.merged_proj",
+        )
+
+        self.dense_4h_to_h = RowParallelLinear(
+            config.ffn_hidden_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+
+    def forward(self, x):
+        x, _ = self.linear_proj(x)
+        x = self.act1(self.norm1(x))
+        x, _ = self.merged_proj(x)
+        x = self.act2(x)
+        x, _ = self.dense_4h_to_h(x)
+        return x
+
+
+class EVA2CLIPModel(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        vision_config = Namespace(**config.vision_config)
+        self.patch_embedding = EVA2CLIPPatchEmbedding(vision_config)
+        self.transformer = EVA2CLIPTransformer(
+            vision_config, quant_config=quant_config, prefix=f"{prefix}.transformer"
+        )
+        self.linear_proj = EVA2CLIPGLU(
+            config,
+            in_features=config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_proj",
+        )
+        self.conv = nn.Conv2d(
+            in_channels=vision_config.hidden_size,
+            out_channels=config.hidden_size,
+            kernel_size=2,
+            stride=2,
+        )
+        self.boi = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+        self.eoi = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+        self.scaling_factor = vision_config.scaling_factor
+
+    def forward(self, images: torch.Tensor) -> torch.Tensor:
+        """
+        Parameters:
+        images : torch.Tensor
+            Input image tensor with shape (B, C, H, W)
+
+        Returns:
+        torch.Tensor
+            Transformed tensor with shape (B, L, D)
+        """
+        x = self.patch_embedding(images)
+        x = self.transformer(x)
+        x = x[:, 1:]
+
+        b, s, h = x.shape
+        grid_size = int(s**0.5)
+        x = x.view(b, grid_size, grid_size, h).permute(0, 3, 1, 2)
+        x = self.conv(x)
+
+        x = x.flatten(2).transpose(1, 2)
+        x = self.linear_proj(x)
+        boi = self.boi.expand(x.shape[0], -1, -1)
+        eoi = self.eoi.expand(x.shape[0], -1, -1)
+        x = torch.cat((boi, x, eoi), dim=1)
+        x = x / self.scaling_factor
+        return x
+
+
+class GLM4VModel(ChatGLMModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        quant_config = vllm_config.quant_config
+
+        self.vision = EVA2CLIPModel(
+            self.config, quant_config, prefix=f"{prefix}.vision"
+        )
+
+
+class GLM4VProcessor:
+    """
+    This model doesn't define its own HF processor,
+    so we implement our own one here.
+    """
+
+    def __init__(
+        self,
+        config: ChatGLMConfig,
+        tokenizer: PreTrainedTokenizer,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        vision_config = config.vision_config
+        image_size = vision_config["image_size"]
+
+        self.image_transform = transforms.Compose(
+            [
+                transforms.Resize(
+                    (image_size, image_size),
+                    interpolation=InterpolationMode.BICUBIC,
+                ),
+                transforms.ToTensor(),
+                transforms.Normalize(
+                    mean=(0.48145466, 0.4578275, 0.40821073),
+                    std=(0.26862954, 0.26130258, 0.27577711),
+                ),
+            ]
+        )
+
+    def __call__(
+        self,
+        text: TextInput | list[TextInput] | None = None,
+        images: ImageInput | list[ImageInput] | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        text_inputs = self.tokenizer(text)
+
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values = [self.image_transform(image) for image in images]
+            image_inputs = {"pixel_values": torch.stack(pixel_values)}
+
+        return BatchFeature(
+            {
+                **text_inputs,
+                **image_inputs,
+            },
+            tensor_type=return_tensors,
+        )
+
+
+class GLM4VProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(ChatGLMConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> GLM4VProcessor:
+        return self.ctx.init_processor(
+            GLM4VProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(self) -> int:
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+
+        image_size = vision_config["image_size"]
+        patch_size = vision_config["patch_size"]
+        grid_length = image_size // patch_size // 2
+        return grid_length * grid_length
+
+    def get_num_image_feature_tokens(self) -> int:
+        # EVA2CLIPModel has embeddings for boi and eoi tokens as well
+        return self.get_num_image_tokens() + 2
+
+
+class GLM4VDummyInputsBuilder(BaseDummyInputsBuilder[GLM4VProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        base_text = "<|begin_of_image|><|endoftext|><|end_of_image|>"
+
+        return base_text * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        hf_config = self.info.get_hf_config()
+        vision_config = hf_config.vision_config
+
+        target_width = target_height = vision_config["image_size"]
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class GLM4VMultiModalProcessor(BaseMultiModalProcessor[GLM4VProcessingInfo]):
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+
+        boi_token_id = hf_config.boi_token_id
+        image_token_id = hf_config.pad_token_id
+        eoi_token_id = hf_config.eoi_token_id
+
+        def get_replacement(item_idx: int):
+            num_image_tokens = self.info.get_num_image_tokens()
+            image_tokens = [image_token_id] * num_image_tokens
+
+            return [boi_token_id] + image_tokens + [eoi_token_id]
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[boi_token_id, image_token_id, eoi_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    GLM4VMultiModalProcessor,
+    info=GLM4VProcessingInfo,
+    dummy_inputs=GLM4VDummyInputsBuilder,
+)
+class GLM4VForCausalLM(
+    ChatGLMBaseModel, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "query_key_value": ["query_key_value"],
+        "dense_h_to_4h": ["dense_h_to_4h"],
+        "merged_proj": ["gate_proj", "dense_h_to_4h"],
+    }
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="transformer.encoder",
+            connector="transformer.vision.linear_proj",
+            tower_model="transformer.vision.transformer",
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|begin_of_image|><|endoftext|><|end_of_image|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        transformer_type: type[GLM4VModel] = GLM4VModel,
+    ) -> None:
+        super().__init__(
+            vllm_config=vllm_config,
+            prefix=prefix,
+            transformer_type=transformer_type,
+        )
+
+        self.transformer: GLM4VModel
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> GLMVImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+
+        if pixel_values is not None:
+            expected_h = expected_w = self.config.vision_config["image_size"]
+            return GLMVImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                resolve_bindings={"h": expected_h, "w": expected_w},
+            )
+
+        return None
+
+    def _process_image_input(self, image_input: GLMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = image_input["data"].to(dtype=self.config.dtype)
+
+        return self.transformer.vision(pixel_values)
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_start_token_id = hf_config.video_start_token_id
+        video_end_token_id = hf_config.video_end_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        llm_pos_ids_list: list = []
+
+        if image_grid_thw or video_grid_thw:
+            input_token_type: list[str] = []
+            video_check_flg = False
+            for token in input_tokens:
+                if token == video_start_token_id:
+                    video_check_flg = True
+                elif token == video_end_token_id:
+                    video_check_flg = False
+
+                if (token == image_token_id) and (video_check_flg is False):
+                    input_token_type.append("image")
+                elif (token == image_token_id) and (video_check_flg is True):
+                    input_token_type.append("video")
+                else:
+                    input_token_type.append("text")
+
+            input_type_group: list[tuple[str, int, int]] = []
+            for key, group_iter in itertools.groupby(
+                enumerate(input_token_type), lambda x: x[1]
+            ):
+                group_list = list(group_iter)
+                start_index = group_list[0][0]
+                end_index = group_list[-1][0] + 1
+                input_type_group.append((key, start_index, end_index))
+
+            video_frame_num = 1
+            mm_data_idx = 0
+            for modality_type, start_idx, end_idx in input_type_group:
+                st_idx = (
+                    llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+                )
+                if modality_type == "image":
+                    t, h, w = image_grid_thw[mm_data_idx]
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    t_index = (
+                        torch.arange(llm_grid_t)
+                        .view(-1, 1)
+                        .expand(-1, llm_grid_h * llm_grid_w)
+                        .flatten()
+                    )
+                    h_index = (
+                        torch.arange(llm_grid_h)
+                        .view(1, -1, 1)
+                        .expand(llm_grid_t, -1, llm_grid_w)
+                        .flatten()
+                    )
+                    w_index = (
+                        torch.arange(llm_grid_w)
+                        .view(1, 1, -1)
+                        .expand(llm_grid_t, llm_grid_h, -1)
+                        .flatten()
+                    )
+                    llm_pos_ids_list.append(
+                        torch.stack([t_index, h_index, w_index]) + st_idx
+                    )
+                    mm_data_idx += 1
+
+                elif modality_type == "video":
+                    t, h, w = (
+                        video_frame_num,
+                        *image_grid_thw[mm_data_idx][1:],
+                    )
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    for t_idx in range(llm_grid_t):
+                        t_index = (
+                            torch.tensor(t_idx)
+                            .view(-1, 1)
+                            .expand(-1, llm_grid_h * llm_grid_w)
+                            .flatten()
+                        )
+                        h_index = (
+                            torch.arange(llm_grid_h)
+                            .view(1, -1, 1)
+                            .expand(1, -1, llm_grid_w)
+                            .flatten()
+                        )
+                        w_index = (
+                            torch.arange(llm_grid_w)
+                            .view(1, 1, -1)
+                            .expand(1, llm_grid_h, -1)
+                            .flatten()
+                        )
+                        llm_pos_ids_list.append(
+                            torch.stack([t_index, h_index, w_index]) + st_idx
+                        )
+
+                    mm_data_idx += 1
+                    video_frame_num += 1
+
+                else:
+                    text_len = end_idx - start_idx
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                    )
+                    video_frame_num = 1
+
+        else:
+            text_len = len(input_tokens)
+            llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        return llm_positions, mrope_position_delta
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.transformer
+
+    embed_input_ids = SupportsMultiModal.embed_input_ids
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
diff --git a/model_executor/models/gpt2.py b/model_executor/models/gpt2.py
new file mode 100644
index 0000000..a5e8131
--- /dev/null
+++ b/model_executor/models/gpt2.py
@@ -0,0 +1,397 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/gpt2/modeling_gpt2.py
+# Copyright 2023 The vLLM team.
+# Copyright 2018 The OpenAI Team Authors and HuggingFace Inc. team.
+# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GPT-2 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import GPT2Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed.parallel_state import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from ..layers.pooler import DispatchPooler, Pooler
+from .interfaces import SupportsCrossEncoding, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GPT2Attention(nn.Module):
+    def __init__(
+        self,
+        config: GPT2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        total_num_heads = config.num_attention_heads
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        assert total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = self.hidden_size // total_num_heads
+        self.scale = self.head_dim**-0.5
+
+        self.c_attn = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
+        )
+        self.c_proj = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scale,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.c_attn(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        attn_output = self.attn(q, k, v)
+        attn_output, _ = self.c_proj(attn_output)
+        return attn_output
+
+
+class GPT2MLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: GPT2Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        self.c_fc = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_fc",
+        )
+        self.c_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.act = get_act_fn(config.activation_function)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.c_fc(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.c_proj(hidden_states)
+        return hidden_states
+
+
+class GPT2Block(nn.Module):
+    def __init__(
+        self,
+        config: GPT2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        inner_dim = config.n_inner if config.n_inner is not None else 4 * hidden_size
+
+        self.ln_1 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.attn = GPT2Attention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.mlp = GPT2MLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        attn_output = self.attn(hidden_states=hidden_states)
+        # residual connection
+        hidden_states = attn_output + residual
+
+        residual = hidden_states
+        hidden_states = self.ln_2(hidden_states)
+        feed_forward_hidden_states = self.mlp(hidden_states)
+        # residual connection
+        hidden_states = residual + feed_forward_hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class GPT2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        assert not config.add_cross_attention
+        assert not config.scale_attn_by_inverse_layer_idx
+        assert not config.reorder_and_upcast_attn
+        self.embed_dim = config.hidden_size
+        self.wte = VocabParallelEmbedding(
+            config.vocab_size,
+            self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wte",
+        )
+        self.wpe = nn.Embedding(config.max_position_embeddings, self.embed_dim)
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GPT2Block(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.h",
+        )
+        self.ln_f = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.n_embd
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                inputs_embeds = self.embed_input_ids(input_ids)
+            position_embeds = self.wpe(position_ids)
+            hidden_states = inputs_embeds + position_embeds
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if ".attn.bias" in name or ".attn.masked_bias" in name:
+                # Skip attention mask.
+                # NOTE: "c_attn.bias" should not be skipped.
+                continue
+
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            # The HF's GPT-2 implementation uses Conv1D instead of Linear.
+            # Because of this, we need to transpose the weights.
+            # Note(zhuohan): the logic below might break quantized models.
+            for conv1d_weight_name in ["c_attn", "c_proj", "c_fc"]:
+                if conv1d_weight_name not in name:
+                    continue
+                if not name.endswith(".weight"):
+                    continue
+                loaded_weight = loaded_weight.t()
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class GPT2LMHeadModel(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.transformer = GPT2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.lm_head",
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.transformer.wte)
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        weights = _add_transformer_prefix(weights)
+        return loader.load_weights(weights)
+
+
+class GPT2ForSequenceClassification(nn.Module, SupportsCrossEncoding):
+    """GPT2 Model for sequence classification.
+
+    This class expands GPT2Model with pooling and score functions - last token
+    is being used for classification.
+
+    Attributes:
+        transformer: An instance of GPT2Model used for forward operations.
+        score: A layer for calculating logits.
+        _pooler: An instance of Pooler used for pooling operations.
+    """
+
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.transformer = GPT2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "gpt2")
+        )
+        self.score = nn.Linear(
+            config.n_embd,
+            config.num_labels,
+            bias=False,
+            dtype=vllm_config.model_config.head_dtype,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.score
+                ),
+                "classify": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="classify"
+                ),
+                "score": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="score"
+                ),
+            }
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.transformer(
+            input_ids=input_ids,
+            position_ids=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+        return hidden_states
+
+
+def _add_transformer_prefix(
+    weights: Iterable[tuple[str, torch.Tensor]],
+) -> Iterable[tuple[str, torch.Tensor]]:
+    for name, tensor in weights:
+        if not name.startswith("transformer.") and not name.startswith("lm_head"):
+            name = "transformer." + name
+        yield name, tensor
diff --git a/model_executor/models/gpt_bigcode.py b/model_executor/models/gpt_bigcode.py
new file mode 100644
index 0000000..cdf038b
--- /dev/null
+++ b/model_executor/models/gpt_bigcode.py
@@ -0,0 +1,339 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/gpt2/modeling_gpt2.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 CTranslate2, and Michael Feil
+# Copyright 2018 The OpenAI Team Authors and HuggingFace Inc. team.
+# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GPTBigCode model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import GPTBigCodeConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GPTBigCodeAttention(nn.Module):
+    def __init__(
+        self,
+        config: GPTBigCodeConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        total_num_heads = config.num_attention_heads
+        self.tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        assert total_num_heads % self.tensor_model_parallel_world_size == 0
+        self.num_heads = total_num_heads // self.tensor_model_parallel_world_size
+        self.head_dim = self.hidden_size // total_num_heads
+        self.scale = self.head_dim**-0.5
+
+        self.multi_query = config.multi_query
+        if self.multi_query:
+            total_num_kv_heads = 1
+            self.num_kv_heads = 1
+        else:
+            total_num_kv_heads = total_num_heads
+            self.num_kv_heads = self.num_heads
+        self.kv_dim = self.head_dim * self.num_kv_heads
+        self.c_attn = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            total_num_heads,
+            total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
+        )
+
+        self.c_proj = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scale,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.c_attn(hidden_states)
+        q, k, v = qkv.split(
+            [
+                self.hidden_size // self.tensor_model_parallel_world_size,
+                self.kv_dim,
+                self.kv_dim,
+            ],
+            dim=-1,
+        )
+        attn_output = self.attn(q, k, v)
+        attn_output, _ = self.c_proj(attn_output)
+        return attn_output
+
+
+class GPTBigMLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: GPTBigCodeConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        self.c_fc = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_fc",
+        )
+        self.c_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.act = get_act_fn(config.activation_function)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.c_fc(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.c_proj(hidden_states)
+        return hidden_states
+
+
+class GPTBigCodeBlock(nn.Module):
+    def __init__(
+        self,
+        config: GPTBigCodeConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        inner_dim = config.n_inner if config.n_inner is not None else 4 * hidden_size
+
+        self.ln_1 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.attn = GPTBigCodeAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.mlp = GPTBigMLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        attn_output = self.attn(
+            hidden_states=hidden_states,
+        )
+        # residual connection
+        hidden_states = attn_output + residual
+
+        residual = hidden_states
+        hidden_states = self.ln_2(hidden_states)
+        feed_forward_hidden_states = self.mlp(hidden_states)
+        # residual connection
+        hidden_states = residual + feed_forward_hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class GPTBigCodeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        assert not config.add_cross_attention
+
+        self.embed_dim = config.hidden_size
+
+        self.vocab_size = config.vocab_size
+        self.wte = VocabParallelEmbedding(
+            self.vocab_size, self.embed_dim, org_num_embeddings=config.vocab_size
+        )
+        self.wpe = nn.Embedding(config.max_position_embeddings, self.embed_dim)
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GPTBigCodeBlock(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.h",
+        )
+        self.ln_f = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.n_embd
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                inputs_embeds = self.embed_input_ids(input_ids)
+            hidden_states = inputs_embeds + self.wpe(position_ids)
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if ".attn.bias" in name:
+                # Skip attention mask.
+                # NOTE: "c_attn.bias" should not be skipped.
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            # TODO (@robertgshaw2-neuralmagic): move to fp8 linear method
+            if "c_attn.input_scale" in name:
+                weight_loader(param, loaded_weight, "q")
+                weight_loader(param, loaded_weight, "k")
+                weight_loader(param, loaded_weight, "v")
+            else:
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class GPTBigCodeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {"c_attn": ["c_attn"]}
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.transformer = GPTBigCodeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.transformer.wte
+        else:
+            self.lm_head = ParallelLMHead(
+                self.transformer.vocab_size,
+                self.transformer.embed_dim,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = None
+        if self.config.tie_word_embeddings:
+            skip_prefixes = ["lm_head."]
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=skip_prefixes,
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gpt_j.py b/model_executor/models/gpt_j.py
new file mode 100644
index 0000000..e416ecd
--- /dev/null
+++ b/model_executor/models/gpt_j.py
@@ -0,0 +1,346 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/gptj/modeling_gptj.py
+# Copyright 2023 The vLLM team.
+# Copyright 2021 The EleutherAI and HuggingFace Teams. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GPT-J model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import GPTJConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GPTJAttention(nn.Module):
+    def __init__(
+        self,
+        config: GPTJConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.total_num_heads = config.num_attention_heads
+        self.hidden_size = config.hidden_size
+        self.head_size = self.hidden_size // self.total_num_heads
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_size,
+            self.total_num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            config.hidden_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        tp_world_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tp_world_size == 0
+        self.num_heads = self.total_num_heads // tp_world_size
+
+        scaling = self.head_size**-0.5
+        assert getattr(config, "rotary", True)
+        assert config.rotary_dim % 2 == 0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.rotary_emb = get_rope(
+            self.head_size,
+            rotary_dim=config.rotary_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            is_neox_style=False,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_size,
+            scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v)
+        attn_output, _ = self.out_proj(attn_output)
+        return attn_output
+
+
+class GPTJMLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: GPTJConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.n_embd
+        self.fc_in = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc_in",
+        )
+        self.fc_out = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc_out",
+        )
+        self.act = get_act_fn(config.activation_function)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc_in(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.fc_out(hidden_states)
+        return hidden_states
+
+
+class GPTJBlock(nn.Module):
+    def __init__(
+        self,
+        config: GPTJConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        inner_dim = 4 * config.n_embd if config.n_inner is None else config.n_inner
+        self.ln_1 = nn.LayerNorm(config.n_embd, eps=config.layer_norm_epsilon)
+        self.attn = GPTJAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.mlp = GPTJMLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        attn_output = self.attn(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+        )
+        mlp_output = self.mlp(hidden_states)
+        hidden_states = attn_output + mlp_output + residual
+        return hidden_states
+
+
+@support_torch_compile
+class GPTJModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.embed_dim = config.n_embd
+        self.wte = VocabParallelEmbedding(
+            config.vocab_size,
+            self.embed_dim,
+        )
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.n_layer,
+            lambda prefix: GPTJBlock(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.h",
+        )
+        self.ln_f = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.n_embd
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(position_ids, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "attn.bias" in name or "attn.masked_bias" in name:
+                continue
+
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class GPTJForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        assert not config.tie_word_embeddings
+        self.transformer = GPTJModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.n_embd,
+            bias=True,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states, self.lm_head.bias)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gpt_neox.py b/model_executor/models/gpt_neox.py
new file mode 100644
index 0000000..af0c920
--- /dev/null
+++ b/model_executor/models/gpt_neox.py
@@ -0,0 +1,344 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/gpt_neox/modeling_gpt_neox.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GPT-NeoX model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import GPTNeoXConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GPTNeoXAttention(nn.Module):
+    def __init__(
+        self,
+        config: GPTNeoXConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.total_num_heads = config.num_attention_heads
+        self.hidden_size = config.hidden_size
+        self.head_size = self.hidden_size // self.total_num_heads
+        self.bias = getattr(config, "attention_bias", True)
+
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+
+        self.query_key_value = QKVParallelLinear(
+            config.hidden_size,
+            self.head_size,
+            self.total_num_heads,
+            bias=self.bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.dense = RowParallelLinear(
+            config.hidden_size,
+            config.hidden_size,
+            bias=self.bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+        scaling = self.head_size**-0.5
+        rotary_dim = int(self.head_size * config.rotary_pct)
+        assert rotary_dim % 2 == 0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.rotary_emb = get_rope(
+            self.head_size,
+            rotary_dim=rotary_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_size,
+            scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.dense(attn_output)
+        return output
+
+
+class GPTNeoXMLP(nn.Module):
+    def __init__(
+        self,
+        config: GPTNeoXConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.dense_h_to_4h = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
+        )
+        self.dense_4h_to_h = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+        self.act = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states):
+        hidden_states, _ = self.dense_h_to_4h(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.dense_4h_to_h(hidden_states)
+        return hidden_states
+
+
+class GPTNeoXLayer(nn.Module):
+    def __init__(
+        self,
+        config: GPTNeoXConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.use_parallel_residual = config.use_parallel_residual
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.attention = GPTNeoXAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attention"
+        )
+        self.mlp = GPTNeoXMLP(config, quant_config)
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        attn_input = self.input_layernorm(hidden_states)
+        attn_output = self.attention(
+            position_ids=position_ids,
+            hidden_states=attn_input,
+        )
+
+        if self.use_parallel_residual:
+            # pseudocode:
+            # x = x + attn(ln1(x)) + mlp(ln2(x))
+            mlp_input = self.post_attention_layernorm(hidden_states)
+            mlp_output = self.mlp(mlp_input)
+            hidden_states = mlp_output + attn_output + hidden_states
+        else:
+            # pseudocode:
+            # x = x + attn(ln1(x))
+            # x = x + mlp(ln2(x))
+            attn_output = attn_output + hidden_states
+            mlp_input = self.post_attention_layernorm(attn_output)
+            mlp_output = self.mlp(mlp_input)
+            hidden_states = mlp_output + attn_output
+        return hidden_states
+
+
+@support_torch_compile
+class GPTNeoXModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.embed_in = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GPTNeoXLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.final_layer_norm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_in(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(position_ids, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.final_layer_norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if (
+                "attention.bias" in name
+                or "attention.masked_bias" in name
+                or "rotary_emb.inv_freq" in name
+            ):
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using OpenRLHF may include
+                # these tensors in the checkpoint. Skip them.
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+
+            if "query_key_value" in name:
+                # NOTE: GPT-NeoX's fused QKV's output_dim has the shape of
+                # (num_heads * 3 * head_size), while the
+                # required shape is (3 * num_heads * head_size).
+                # Thus, we need weight conversion.
+                output_dim = getattr(param, "output_dim", None)
+                num_heads = self.config.num_attention_heads
+                if output_dim is not None:
+                    loaded_weight_shape = loaded_weight.shape
+                    loaded_weight = loaded_weight.view(
+                        loaded_weight_shape[:output_dim]
+                        + (num_heads, 3, -1)
+                        + loaded_weight_shape[output_dim + 1 :]
+                    )
+                    loaded_weight = loaded_weight.transpose(output_dim, output_dim + 1)
+                    loaded_weight = loaded_weight.reshape(loaded_weight_shape)
+
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class GPTNeoXForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.gpt_neox = GPTNeoXModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "gpt_neox")
+        )
+        self.embed_out = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "embed_out"),
+        )
+        if self.config.tie_word_embeddings:
+            self.embed_out.weight = self.gpt_neox.embed_in.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.gpt_neox.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.gpt_neox.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.gpt_neox(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.embed_out, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gpt_oss.py b/model_executor/models/gpt_oss.py
new file mode 100644
index 0000000..a439ae1
--- /dev/null
+++ b/model_executor/models/gpt_oss.py
@@ -0,0 +1,725 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+
+import torch
+import torch.distributed as dist
+from torch import nn
+from transformers import GptOssConfig
+
+import vllm.envs as envs
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_dp_group,
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.fused_moe.config import FusedMoEParallelConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.utils import rocm_unquantized_gemm
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.math_utils import cdiv
+from vllm.model_executor.model_loader import padding_weight_loader
+
+from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OAIAttention(nn.Module):
+    def __init__(
+        self,
+        config: GptOssConfig,
+        quant_config: QuantizationConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.layer_idx = extract_layer_index(prefix)
+        self.head_dim = config.head_dim
+        self.num_attention_heads = config.num_attention_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.hidden_size = config.hidden_size
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=config.max_position_embeddings,
+            base=config.rope_theta,
+            dtype=torch.float32,
+            rope_scaling={
+                "rope_type": "yarn",
+                "factor": config.rope_scaling["factor"],
+                "original_max_position_embeddings": config.rope_scaling[
+                    "original_max_position_embeddings"
+                ],
+                "beta_fast": config.rope_scaling["beta_fast"],
+                "beta_slow": config.rope_scaling["beta_slow"],
+            },
+            is_neox_style=True,
+        )
+
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.sinks = torch.nn.Parameter(
+            torch.empty(config.num_attention_heads // tp_size, requires_grad=False)
+        )
+
+        self.q_size = self.num_attention_heads * self.head_dim // tp_size
+        self.kv_size = self.num_key_value_heads * self.head_dim // tp_size
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = config.rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.num_attention_heads,
+            total_num_kv_heads=self.num_key_value_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            input_size=self.num_attention_heads * self.head_dim,
+            output_size=self.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.num_local_attention_heads = config.num_attention_heads // tp_size
+        self.num_local_key_value_heads = config.num_key_value_heads // tp_size
+
+        # Only apply sliding window to every other layer
+        sliding_window = config.sliding_window if self.layer_idx % 2 == 0 else None
+        self.attn = Attention(
+            self.num_local_attention_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_local_key_value_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
+            attn_type=AttentionType.DECODER,
+            prefix=f"{prefix}.attn",
+            sinks=self.sinks,
+        )
+
+    def forward(
+        self, hidden_states: torch.Tensor, positions: torch.Tensor
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        v = v.contiguous()
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class MLPBlock(torch.nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        layer_idx: int,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+
+        self.layer_idx = layer_idx
+        self.num_experts = config.num_local_experts
+        self.hidden_size = config.hidden_size
+        self.experts_per_token = config.num_experts_per_tok
+        self.world_size = dist.get_world_size() if dist.is_initialized() else 1
+        self.router = torch.nn.Linear(config.hidden_size, config.num_local_experts)
+        assert config.intermediate_size % self.world_size == 0
+        self.experts = FusedMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            apply_router_weight_on_input=False,
+            has_bias=True,
+            activation="swigluoai",
+            is_sequence_parallel=self.is_sequence_parallel,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        num_tokens = x.shape[0]
+        if self.is_sequence_parallel:
+            x = sequence_parallel_chunk(x)
+
+        if current_platform.is_rocm():
+            g = rocm_unquantized_gemm(
+                self, x[:, : self.hidden_size], self.router.weight, self.router.bias
+            )
+        else:
+            g = self.router(x)
+        x = self.experts(hidden_states=x, router_logits=g)
+
+        if self.is_sequence_parallel:
+            x = tensor_model_parallel_all_gather(x.contiguous(), 0)
+            x = x[:num_tokens]
+        return x
+
+
+class TransformerBlock(torch.nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        quant_config: QuantizationConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+
+        self.layer_idx = extract_layer_index(prefix)
+        self.attn = OAIAttention(
+            config,
+            prefix=f"{prefix}.attn",
+            quant_config=quant_config,
+            cache_config=cache_config,
+        )
+        self.mlp = MLPBlock(vllm_config, self.layer_idx, prefix=f"{prefix}.mlp")
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=1e-5)
+        self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=1e-5)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.attn(hidden_states, positions)
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        output = self.mlp(hidden_states)
+        return output, residual
+
+
+@support_torch_compile
+class GptOssModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.quant_config = vllm_config.quant_config
+        self.parallel_config = vllm_config.parallel_config
+        self.config.hidden_size = self.config.hidden_size
+        self.embedding = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            self.config.num_hidden_layers,
+            lambda prefix: TransformerBlock(
+                vllm_config,
+                prefix=prefix,
+                quant_config=self.quant_config,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(self.config.hidden_size, eps=1e-5)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], self.config.hidden_size
+        )
+        self.aux_hidden_state_layers = tuple[int, ...]()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embedding(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                x = inputs_embeds
+            else:
+                x = self.embed_input_ids(input_ids)
+
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            x = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for i in range(self.start_layer, self.end_layer):
+            layer = self.layers[i]
+            if i in self.aux_hidden_state_layers:
+                aux_hidden_states.append(x if residual is None else x + residual)
+            x, residual = layer(x, positions, residual)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": x, "residual": residual})
+        x, _ = self.norm(x, residual)
+
+        if len(aux_hidden_states) > 0:
+            return x, aux_hidden_states
+        return x
+
+    def _load_weights_mxfp4(
+        self,
+        ep_rank_end: int,
+        ep_rank_start: int,
+        heads_per_rank: int,
+        head_start: int,
+        weights: Iterable[tuple[str, torch.Tensor]],
+        stacked_params_mapping: list[tuple[str, ...]],
+    ) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        mxfp4_block = 32
+        use_ep = self.parallel_config.enable_expert_parallel
+        num_experts = self.config.num_local_experts
+
+        # In MoE, we need to flatten the tensor parallel size across the data
+        # parallel size when EP is disabled.
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
+            tp_size=get_tensor_model_parallel_world_size(),
+            dp_size=get_dp_group().world_size,
+            dp_rank=get_dp_group().rank_in_group,
+        )
+
+        intermediate_size = self.config.intermediate_size
+        intermediate_size_block = intermediate_size // mxfp4_block
+        per_rank_intermediate_size_block = cdiv(intermediate_size_block, tp_size)
+        per_rank_intermediate_size = per_rank_intermediate_size_block * mxfp4_block
+
+        # Calculate common slicing bounds for current rank
+        tp_rank_start = tp_rank * per_rank_intermediate_size
+        tp_rank_end = min((tp_rank + 1) * per_rank_intermediate_size, intermediate_size)
+
+        for name, weight in weights:
+            # Skip layers on other devices.
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            if ".w13_weight_scale" in name:
+                # Handle MLP gate and up projection weights scale
+                if use_ep:
+                    narrow_weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end, ...]
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(name)
+                continue
+            elif ".w2_weight_scale" in name:
+                # Handle MLP down projection weights
+                if use_ep:
+                    narrow_weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    narrow_weight = weight[
+                        ..., tp_rank_start // mxfp4_block : tp_rank_end // mxfp4_block
+                    ]
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(name)
+                continue
+            elif ".w13_weight" in name:
+                # Handle MLP gate and up projection weights
+                # flat weight from (E, 2 * N, block_size, entry_per_block)
+                # to (E, 2 * N, -1), shouldn't trigger copy for contiguous
+                weight = weight.view(
+                    num_experts, 2 * intermediate_size, -1
+                ).contiguous()
+
+                # Extract gate and up projection parts
+                # since the weight is shuffled, we can slice directly
+                if use_ep:
+                    narrow_weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end, ...]
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(name)
+                continue
+            elif ".w2_weight" in name:
+                # Handle MLP down projection weights
+                # same flatten here, but since 2 mx4 value are packed in 1
+                # uint8, divide by 2
+                weight = weight.view(
+                    num_experts, -1, intermediate_size // 2
+                ).contiguous()
+                if use_ep:
+                    narrow_weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    narrow_weight = weight[..., tp_rank_start // 2 : tp_rank_end // 2]
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(name)
+                continue
+            elif ".w13_bias" in name:
+                # Handle MLP gate and up projection biases
+                # Extract gate and up projection bias parts
+                if use_ep:
+                    narrow_weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end]
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(name)
+                continue
+            elif ".w2_bias" in name:
+                # Handle MLP down projection bias
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if use_ep:
+                    weight = weight[ep_rank_start:ep_rank_end, ...]
+                else:
+                    # (only load on rank 0 to avoid duplication)
+                    if tp_rank != 0:
+                        weight.zero_()
+                weight_loader(
+                    param, weight, weight_name=name, shard_id=None, expert_id=None
+                )
+                loaded_params.add(name)
+                continue
+            elif "sinks" in name:
+                # Handle attention sinks (distributed across ranks)
+                param = params_dict[name]
+                narrow_weight = weight.narrow(0, head_start, heads_per_rank)
+                param.data.copy_(narrow_weight)
+                loaded_params.add(name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, weight)
+                else:
+                    weight_loader(param, weight, shard_id)
+                break
+            else:
+                # Handle all other weights with potential renaming
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _load_weights_other(
+        self,
+        ep_rank_end: int,
+        ep_rank_start: int,
+        heads_per_rank: int,
+        head_start: int,
+        weights: Iterable[tuple[str, torch.Tensor]],
+        stacked_params_mapping: list[tuple[str, ...]],
+    ) -> set[str]:
+
+        def handle_weight(name, weight, param_name, permute_dims=None, slice_dims=None, contiguous=True):
+            """Helper function to handle weight loading with optional slicing and permutation."""
+            param = params_dict[param_name]
+            if slice_dims:
+                weight = weight[slice_dims]
+            if permute_dims:
+                weight = weight.permute(*permute_dims)
+            if contiguous:
+                weight = weight.contiguous()
+            padding_weight_loader(param, weight)
+            loaded_params.add(param_name)
+
+        use_ep = self.parallel_config.enable_expert_parallel
+
+        # Flatten tensor parallel size across data parallel size when EP is disabled
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
+            tp_size=get_tensor_model_parallel_world_size(),
+            dp_size=get_dp_group().world_size,
+            dp_rank=get_dp_group().rank_in_group,
+        )
+
+        intermediate_size = self.config.intermediate_size
+        per_rank_intermediate_size = cdiv(intermediate_size, tp_size)
+        tp_rank_start = tp_rank * per_rank_intermediate_size
+        tp_rank_end = min((tp_rank + 1) * per_rank_intermediate_size, intermediate_size)
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        pack_factor = 2 if envs.VLLM_W8A8_MOE_USE_W4A8 else 1
+        w4a8_flag = envs.VLLM_W8A8_MOE_USE_W4A8
+
+        for name, weight in weights:
+            # Skip layers on other devices.
+            if is_pp_missing_parameter(name, self):
+                continue
+            if ".experts.w13_weight" in name and "scale" not in name and "bias" not in name:
+                slice_dims = (slice(ep_rank_start, ep_rank_end), ...) if use_ep else (slice(None), slice(None), slice(2 * tp_rank_start, 2 * tp_rank_end))
+                handle_weight(name, weight, name, permute_dims=(0, 2, 1), slice_dims=slice_dims)
+            elif ".experts.w2_weight" in name and "scale" not in name and "bias" not in name:
+                slice_dims = (slice(ep_rank_start, ep_rank_end), ...) if use_ep else (slice(None), slice(tp_rank_start // pack_factor, tp_rank_end // pack_factor), slice(None))
+                handle_weight(name, weight, name, permute_dims=(0, 2, 1), slice_dims=slice_dims)
+            elif ".experts.gate_up_proj_scale" in name:
+                new_name = name.replace("gate_up_proj_scale", "w13_weight_scale")
+                slice_dims = (slice(ep_rank_start, ep_rank_end), ...) if use_ep else (slice(None), slice(None), slice(2 * tp_rank_start, 2 * tp_rank_end))
+                permute_dims = None if w4a8_flag else (0, 2, 1)
+                handle_weight(name, weight, new_name, permute_dims=permute_dims, slice_dims=slice_dims, contiguous=w4a8_flag)
+            elif ".experts.down_proj_scale" in name:
+                new_name = name.replace("down_proj_scale", "w2_weight_scale")
+                slice_dims = (slice(ep_rank_start, ep_rank_end), ...) if use_ep else None
+                permute_dims = None if w4a8_flag else (0, 2, 1)
+                handle_weight(name, weight, new_name, permute_dims=permute_dims, slice_dims=slice_dims, contiguous=w4a8_flag)
+            elif ".experts.w13_bias" in name:
+                slice_dims = (slice(ep_rank_start, ep_rank_end), ...) if use_ep else (slice(None), slice(2 * tp_rank_start, 2 * tp_rank_end))
+                handle_weight(name, weight, name, slice_dims=slice_dims, contiguous=False)
+            elif ".experts.w2_bias" in name:
+                param = params_dict[name]
+                if use_ep:
+                    weight = weight[ep_rank_start:ep_rank_end, ...]
+                elif tp_rank != 0:
+                    weight.zero_()
+                param.data.copy_(weight)
+                loaded_params.add(name)
+            elif "sinks" in name:
+                name = name.replace("self_attn", "attn")
+                param = params_dict[name]
+                narrow_weight = weight.narrow(0, head_start, heads_per_rank)
+                param.data.copy_(narrow_weight)
+                loaded_params.add(name)
+            elif ("q_proj" in name or "k_proj" in name or "v_proj" in name):
+                shard_id = ("q" if "q_proj" in name else "k" if "k_proj" in name else "v")
+                name = name.replace("self_attn", "attn")
+                param_name = name.replace(f"{shard_id}_proj", "qkv_proj")
+                param = params_dict[param_name]
+                weight_loader = param.weight_loader
+                weight_loader(param, weight, loaded_shard_id=shard_id)
+                loaded_params.add(param_name)
+            else:
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, weight)
+                loaded_params.add(name)
+
+        return loaded_params
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+
+        tp_rank = get_tensor_model_parallel_rank()
+        tp_size = get_tensor_model_parallel_world_size()
+
+        # Attention heads per rank
+        heads_per_rank = self.config.num_attention_heads // tp_size
+        head_start = tp_rank * heads_per_rank
+
+        ep_size = get_ep_group().world_size
+        ep_rank = get_ep_group().rank
+        num_experts = self.config.num_local_experts
+        experts_per_rank = num_experts // ep_size
+        ep_rank_start = ep_rank * experts_per_rank
+        ep_rank_end = (ep_rank + 1) * experts_per_rank
+
+        quant_method = (
+            self.config.quantization_config["quant_method"]
+            if hasattr(self.config, "quantization_config")
+            else None
+        )
+        if quant_method == "mxfp4":
+            return self._load_weights_mxfp4(
+                ep_rank_end,
+                ep_rank_start,
+                heads_per_rank,
+                head_start,
+                weights,
+                stacked_params_mapping,
+            )
+        else:
+            return self._load_weights_other(
+                ep_rank_start,
+                ep_rank_end,
+                heads_per_rank,
+                head_start,
+                weights,
+                stacked_params_mapping,
+            )
+
+
+class GptOssForCausalLM(nn.Module, SupportsPP, SupportsEagle3, SupportsLoRA):
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            ".self_attn.": ".attn.",
+        },
+        orig_to_new_suffix={
+            ".embed_tokens.weight": ".embedding.weight",
+            # MoE MXFP4 weights
+            ".gate_up_proj_blocks": ".w13_weight",
+            ".down_proj_blocks": ".w2_weight",
+            ".gate_up_proj_scales": ".w13_weight_scale",
+            ".down_proj_scales": ".w2_weight_scale",
+            # MoE other weights
+            ".gate_up_proj": ".w13_weight",
+            ".down_proj": ".w2_weight",
+            # MoE Bias
+            ".gate_up_proj_bias": ".w13_bias",
+            ".down_proj_bias": ".w2_bias",
+        },
+    )
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.vllm_config = vllm_config
+        self.config = vllm_config.model_config.hf_config
+
+        self.model = GptOssModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(self.config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.model(input_ids, positions, intermediate_tensors, inputs_embeds)
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, weight scales, activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_local_experts,
+            num_redundant_experts=0,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/granite.py b/model_executor/models/granite.py
new file mode 100644
index 0000000..c44b402
--- /dev/null
+++ b/model_executor/models/granite.py
@@ -0,0 +1,516 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only IBM Granite model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import GraniteConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    DEFAULT_VOCAB_PADDING_SIZE,
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GraniteMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class GraniteAttention(nn.Module):
+    def __init__(
+        self,
+        config: GraniteConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = config.attention_multiplier
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class GraniteDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GraniteConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.residual_multiplier = config.residual_multiplier
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        self.self_attn = GraniteAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.mlp = GraniteMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+        return hidden_states
+
+
+@support_torch_compile
+class GraniteModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        self.quant_config = quant_config
+        lora_vocab = (
+            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
+            if lora_config
+            else 0
+        )
+        self.vocab_size = config.vocab_size + lora_vocab
+        self.org_vocab_size = config.vocab_size
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                org_num_embeddings=config.vocab_size,
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE
+                # We need bigger padding if using lora for kernel
+                # compatibility
+                if not lora_config
+                else lora_config.lora_vocab_padding_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GraniteDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+
+            hidden_states *= self.config.embedding_multiplier
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                }
+            )
+
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class GraniteForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        self.lora_config = lora_config
+        self.quant_config = quant_config
+
+        self.model = GraniteModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.unpadded_vocab_size = config.vocab_size
+            if lora_config:
+                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+            self.lm_head = ParallelLMHead(
+                self.unpadded_vocab_size,
+                config.hidden_size,
+                org_num_embeddings=config.vocab_size,
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE
+                # We need bigger padding if using lora for kernel
+                # compatibility
+                if not lora_config
+                else lora_config.lora_vocab_padding_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            if hasattr(config, "logits_scaling"):
+                logit_scale /= config.logits_scaling
+
+            self.logits_processor = LogitsProcessor(
+                self.unpadded_vocab_size, config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        # With tie_word_embeddings, we can skip lm_head.weight
+        # The weight might appear unnecessarily in the files if the model is
+        # processed with quantization, LoRA, fine-tuning, etc.
+        skip_prefixes = ["lm_head."] if self.config.tie_word_embeddings else None
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=skip_prefixes,
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/granite_speech.py b/model_executor/models/granite_speech.py
new file mode 100644
index 0000000..1797ada
--- /dev/null
+++ b/model_executor/models/granite_speech.py
@@ -0,0 +1,913 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2025 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only IBM Granite speech model."""
+
+import math
+from collections.abc import Iterable, Mapping
+from typing import Annotated, Literal, cast
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers import BatchFeature, PretrainedConfig
+
+from vllm.config import CacheConfig, ModelConfig, SpeechToTextConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.inputs.data import PromptType
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processor import cached_get_processor
+from vllm.transformers_utils.tokenizer import cached_get_tokenizer
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .blip2 import Blip2QFormerModel
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsTranscription,
+)
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+# NOTE lang support is based on what is written here:
+# https://huggingface.co/ibm-granite/granite-speech-3.3-2b
+# Though this may vary from model to model, and also many langs
+# work pretty well with zero shot.
+ISO639_1_SUPPORTED_LANGS = {
+    "en": "English",
+    "fr": "French",
+    "de": "German",
+    "pt": "Portuguese",
+    "es": "Spanish",
+}
+
+
+### Audio Input
+class GraniteSpeechAudioInputs(TensorSchema):
+    """
+    Audio input features for Granite Speech model.
+
+    Dimensions:
+        - b: Batch size
+        - fi: Number of input features from the Mel spectrogram.
+        - fo: Number of output features, i.e. the embedding size.
+        - 160: Fixed feature dimension for Mel spectrogram features
+    """
+
+    input_features: Annotated[torch.Tensor, TensorShape("b", "fi", 160)]
+    """Audio input features."""
+
+    input_features_mask: Annotated[torch.Tensor, TensorShape("b", "fo")]
+    """Mask for variable length audio features."""
+
+    audio_embed_sizes: Annotated[list[int], TensorShape("b")]
+    """List of audio embedding sizes for each item in batch."""
+
+
+class GraniteSpeechMultiModalProcessingInfo(BaseProcessingInfo):
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": 1}
+
+    # There is no limit to the maximum number of audio tokens that can be
+    # encoded as features; we pick ~5000 as a number that is probably higher
+    # than we would expect to encounter. The sequence of length
+    # get_max_audio_len() produces get_max_audio_tokens().
+    def get_max_audio_tokens(self):
+        return 5001
+
+    def get_max_audio_len(self):
+        return 8000000
+
+
+### Input Processing  & Multimodal utils
+class GraniteSpeechMultiModalProcessor(
+    BaseMultiModalProcessor[GraniteSpeechMultiModalProcessingInfo]
+):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_hf_processor().audio_processor
+        sampling_rate = feature_extractor.melspec_kwargs["sample_rate"]
+        return MultiModalDataParser(target_sr=sampling_rate)
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            input_features=MultiModalFieldConfig.batched("audio"),
+            audio_embed_sizes=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> list[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        feature_extractor = processor.audio_processor
+        vocab = tokenizer.get_vocab()
+
+        # Use getattr with default to be compatible with transformers<4.48
+        audio_token = getattr(processor, "audio_token", "<|audio|>")
+        audio_token_id = vocab[audio_token]
+
+        def get_replacement(item_idx: int):
+            audios = mm_items.get_items("audio", AudioProcessorItems)
+            audio = audios.get(item_idx)
+            audio_length = audio.shape[-1]
+            num_projector_features = feature_extractor._get_num_audio_features(
+                [audio_length]
+            )[0]
+            return [audio_token_id] * num_projector_features
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=[audio_token_id],
+                replacement=get_replacement,
+            )
+        ]
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        audios = mm_data.pop("audios", [])
+
+        if audios:
+            # GraniteSpeechFeatureExtractor accepts "audio"
+            mm_data["audio"] = audios
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        if "audio" in mm_data:
+            # Calculate the number of audio tokens per entry in the batch;
+            # This is used to split the batch back out after padding.
+            audio_token_index = self.info.get_hf_config().audio_token_index
+            processed_outputs["audio_embed_sizes"] = (
+                processed_outputs["input_ids"] == audio_token_index
+            ).sum(-1)
+
+        return processed_outputs
+
+
+class GraniteSpeechDummyInputsBuilder(
+    BaseDummyInputsBuilder[GraniteSpeechMultiModalProcessingInfo]
+):
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=self.info.get_max_audio_len(),
+                num_audios=num_audios,
+                overrides=audio_overrides,
+            )
+        }
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+        hf_processor = self.info.get_hf_processor()
+        audio_token = getattr(hf_processor, "audio_token", "<|audio|>")
+        return audio_token * num_audios
+
+
+### QFormer Projector
+class GraniteSpeechEncoderProjector(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.projector_config.hidden_size
+        self.downsample_rate = config.downsample_rate
+        self.window_size = config.window_size
+        self.num_queries = config.window_size // config.downsample_rate
+
+        self.query = nn.Parameter(
+            torch.zeros(1, self.num_queries, config.projector_config.hidden_size)
+        )
+
+        # NOTE - this is implemented generically in transformers,
+        # but for now we create the QFormer model directly since
+        # all existing models use this for the projector.
+        self.qformer = Blip2QFormerModel(
+            config.projector_config,
+            quant_config=quant_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.qformer",
+        )
+        self.linear = nn.Linear(
+            config.projector_config.hidden_size, config.text_config.hidden_size
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        batch_size, seq_len, dim = hidden_states.size()
+        nblocks = math.ceil(seq_len / self.window_size)
+        pad = nblocks * self.window_size - seq_len
+        hidden_states = nn.functional.pad(hidden_states, (0, 0, 0, pad), "constant", 0)
+        hidden_states = hidden_states.view(batch_size * nblocks, self.window_size, dim)
+
+        last_hidden_state = self.qformer(
+            query_embeds=self.query.data,
+            encoder_hidden_states=hidden_states,
+        )
+
+        query_proj = self.linear(
+            last_hidden_state.view(
+                batch_size,
+                nblocks * self.window_size // self.downsample_rate,
+                -1,
+            )
+        )
+        return query_proj
+
+
+# Encoder - conformer is adapted from: https://github.com/lucidrains/conformer.git
+# NOTE - it would be nice to see if we can align this with other models using
+# conformer in vLLM, e.g., phi4mm audio.
+class GraniteSpeechConformerFeedForward(nn.Module):
+    """Feedforward module for conformer encoder blocks."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.pre_norm = nn.LayerNorm(config.hidden_dim)
+
+        self.up_proj = ColumnParallelLinear(
+            input_size=config.hidden_dim,
+            output_size=config.hidden_dim * config.feedforward_mult,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.silu = nn.SiLU()
+
+        self.down_proj = RowParallelLinear(
+            input_size=config.hidden_dim * config.feedforward_mult,
+            output_size=config.hidden_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.pre_norm(hidden_states)
+        hidden_states, _ = self.up_proj(hidden_states)
+        hidden_states = self.silu(hidden_states)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class GraniteSpeechConformerAttention(nn.Module):
+    """Attention for conformer blocks using Shaw's relative positional
+    embeddings. See the following [paper](https://arxiv.org/pdf/1803.02155)
+    for more details.
+    """
+
+    def __init__(self, config: PretrainedConfig, prefix: str = ""):
+        super().__init__()
+
+        inner_dim = config.dim_head * config.num_heads
+        self.max_pos_emb = config.max_pos_emb
+        self.context_size = config.context_size
+        self.num_heads = config.num_heads
+        self.dim_head = config.dim_head
+        self.scale = self.dim_head**-0.5
+        self.pre_norm = nn.LayerNorm(config.hidden_dim)
+        self.to_q = nn.Linear(config.hidden_dim, inner_dim, bias=False)
+        self.to_kv = nn.Linear(config.hidden_dim, inner_dim * 2, bias=False)
+        self.to_out = nn.Linear(inner_dim, config.hidden_dim)
+        self.rel_pos_emb = nn.Embedding(2 * self.max_pos_emb + 1, self.dim_head)
+
+        if self.context_size <= 0 or self.context_size > self.max_pos_emb:
+            raise ValueError(
+                "Context size is either less than 0 or exceeds the max_pos_emb"
+            )
+
+    def forward(
+        self, hidden_states: torch.Tensor, attention_dists: torch.Tensor
+    ) -> torch.Tensor:
+        hidden_states = self.pre_norm(hidden_states)
+        bsz, num_features, _ = hidden_states.shape
+
+        num_blocks = math.ceil(num_features / self.context_size)
+        remainder = num_features % self.context_size
+        if remainder > 0:
+            # right padding to reach block size
+            hidden_states = torch.nn.functional.pad(
+                hidden_states, (0, 0, 0, self.context_size - remainder)
+            )
+
+        # NOTE: would be nice to try to use qkvparallellinear
+        # here for this block attention implementation if possible
+        query_states = self.to_q(hidden_states)
+        key_states, value_states = self.to_kv(hidden_states).chunk(2, dim=-1)
+
+        query_states = query_states.reshape(
+            bsz, num_blocks, self.context_size, self.num_heads, -1
+        ).transpose(2, 3)
+        key_states = key_states.reshape(
+            bsz, num_blocks, self.context_size, self.num_heads, -1
+        ).transpose(2, 3)
+        value_states = value_states.reshape(
+            bsz, num_blocks, self.context_size, self.num_heads, -1
+        ).transpose(2, 3)
+
+        # shaw's relative positional embedding
+        dist = attention_dists.to(hidden_states.device)
+        rel_pos_emb = self.rel_pos_emb(dist)
+        rel_pos_emb_expanded = rel_pos_emb.view([1, 1, 1] + list(rel_pos_emb.shape))
+        pos_attn = (
+            torch.sum(query_states.unsqueeze(-2) * rel_pos_emb_expanded, dim=-1)
+            * self.scale
+        )
+
+        if remainder > 0:
+            # masked attention in the extended block
+            mask = torch.ones(
+                self.context_size,
+                self.context_size,
+                dtype=bool,
+                device=hidden_states.device,
+            )
+            mask[:remainder, :remainder] = 0
+            mask_value = -torch.finfo(pos_attn.dtype).max
+            pos_attn[:, -1, :].masked_fill_(mask, mask_value)
+
+        with torch.nn.attention.sdpa_kernel(torch.nn.attention.SDPBackend.MATH):
+            out = F.scaled_dot_product_attention(
+                query_states,
+                key_states,
+                value_states,
+                attn_mask=pos_attn,
+                scale=self.scale,
+            )
+        out = out.transpose(2, 3).reshape(bsz, hidden_states.shape[1], -1)
+        return self.to_out(out[:, :num_features, :])
+
+
+class GraniteSpeechConformerDepthWiseConv1d(nn.Module):
+    """Wrapper for padded 1D pointwise convolution."""
+
+    def __init__(self, chan_in: int, chan_out: int, kernel_size: int, prefix: str = ""):
+        super().__init__()
+        # Padding for the 1D conv is symmetric or close (i.e., offset by one).
+        pad = kernel_size // 2
+        pad_offset = (kernel_size + 1) % 2
+        self.padding = (pad, pad - pad_offset)
+
+        self.conv = nn.Conv1d(
+            chan_in, chan_out, kernel_size, groups=chan_in, bias=False
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = F.pad(hidden_states, self.padding)
+        return self.conv(hidden_states)
+
+
+class GraniteSpeechConformerConvModule(nn.Module):
+    """Conformer conv module consisting of several 1D/depthwise 1D
+    convolutional layers.
+    """
+
+    def __init__(self, config: PretrainedConfig, prefix: str = ""):
+        super().__init__()
+        inner_dim = config.hidden_dim * config.conv_expansion_factor
+
+        self.norm = nn.LayerNorm(config.hidden_dim)
+        self.up_conv = nn.Conv1d(config.hidden_dim, inner_dim * 2, 1)
+        self.glu = nn.GLU(dim=1)
+        self.depth_conv = GraniteSpeechConformerDepthWiseConv1d(
+            inner_dim,
+            inner_dim,
+            kernel_size=config.conv_kernel_size,
+            prefix=f"{prefix}.depth_conv",
+        )
+        self.silu = nn.SiLU()
+        self.batch_norm = nn.BatchNorm1d(inner_dim)
+        self.down_conv = nn.Conv1d(inner_dim, config.hidden_dim, 1)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.norm(hidden_states)
+        hidden_states = self.up_conv(hidden_states.permute(0, 2, 1))
+        hidden_states = self.glu(hidden_states)
+        hidden_states = self.depth_conv(hidden_states)
+        hidden_states = self.silu(self.batch_norm(hidden_states))
+        hidden_states = self.down_conv(hidden_states).permute(0, 2, 1)
+        return hidden_states
+
+
+class GraniteSpeechConformerBlock(nn.Module):
+    """Conformer block, consisting largely of linear layers,
+    attention, and convolutional layers."""
+
+    def __init__(self, config: PretrainedConfig, prefix: str = ""):
+        super().__init__()
+        self.ff1 = GraniteSpeechConformerFeedForward(config, prefix=f"{prefix}.ff1")
+        self.attn = GraniteSpeechConformerAttention(config, prefix=f"{prefix}.attn")
+        self.conv = GraniteSpeechConformerConvModule(config, prefix=f"{prefix}.conv")
+        self.ff2 = GraniteSpeechConformerFeedForward(config, prefix=f"{prefix}.ff2")
+        self.post_norm = nn.LayerNorm(config.hidden_dim)
+
+    def forward(
+        self, hidden_states: torch.Tensor, attention_dists: torch.Tensor
+    ) -> torch.Tensor:
+        hidden_states = 0.5 * self.ff1(hidden_states) + hidden_states
+        hidden_states = (
+            self.attn(hidden_states, attention_dists=attention_dists) + hidden_states
+        )
+        hidden_states = self.conv(hidden_states) + hidden_states
+        hidden_states = 0.5 * self.ff2(hidden_states) + hidden_states
+        hidden_states = self.post_norm(hidden_states)
+        return hidden_states
+
+
+class GraniteSpeechCTCEncoder(nn.Module):
+    """CTC Encoder comprising conformer blocks and additional linear layers."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.config = config
+
+        # Precompute clamped relative positional encoding distances
+        seq = torch.arange(config.context_size)
+        relpos_dist = seq.view(-1, 1) - seq.view(1, -1)
+        self.attention_dists = (
+            torch.clamp(relpos_dist, -config.context_size, config.context_size)
+            + config.max_pos_emb
+        )
+
+        self.input_linear = nn.Linear(config.input_dim, config.hidden_dim, bias=True)
+        self.layers = nn.ModuleList(
+            [
+                GraniteSpeechConformerBlock(
+                    config,
+                    prefix=f"{prefix}.layers.{idx}",
+                )
+                for idx in range(config.num_layers)
+            ]
+        )
+
+        self.out = ColumnParallelLinear(
+            input_size=config.hidden_dim,
+            output_size=config.output_dim,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out",
+        )
+
+        self.out_mid = RowParallelLinear(
+            input_size=config.output_dim,
+            output_size=config.hidden_dim,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_mid",
+        )
+        self.softmax = nn.Softmax(dim=-1)
+        self.num_layers = config.num_layers
+
+    def forward(self, hidden_states: torch.Tensor):
+        hidden_states = self.input_linear(hidden_states)
+        for idx, layer in enumerate(self.layers, start=1):
+            hidden_states = layer(hidden_states, attention_dists=self.attention_dists)
+
+            if idx == self.num_layers // 2:
+                hidden_states_mid = hidden_states.clone()
+                hidden_states_mid, _ = self.out(hidden_states_mid)
+                hidden_states_mid = self.softmax(hidden_states_mid)
+                hidden_states_mid, _ = self.out_mid(hidden_states_mid)
+                hidden_states += hidden_states_mid
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    GraniteSpeechMultiModalProcessor,
+    info=GraniteSpeechMultiModalProcessingInfo,
+    dummy_inputs=GraniteSpeechDummyInputsBuilder,
+)
+class GraniteSpeechForConditionalGeneration(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsLoRA,
+    SupportsTranscription,
+):
+    merge_by_field_config = True
+    supported_languages = ISO639_1_SUPPORTED_LANGS
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("audio"):
+            return "<|audio|>"
+
+        raise ValueError("Only audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        cache_config = vllm_config.cache_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.cache_config = cache_config
+
+        # The language model is typically a Granite LLM
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        # Conformer encoder
+        self.encoder = GraniteSpeechCTCEncoder(
+            config=config.encoder_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+        )
+
+        # Blip2 QFormer
+        self.projector = GraniteSpeechEncoderProjector(
+            config=config,
+            quant_config=quant_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.projector",
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_audio_input(
+        self,
+        **kwargs: object,
+    ) -> GraniteSpeechAudioInputs | None:
+        input_features = kwargs.pop("input_features", None)
+        input_features_mask = kwargs.pop("input_features_mask", None)
+        audio_embed_sizes = kwargs.pop("audio_embed_sizes", None)
+
+        if input_features is None:
+            return None
+
+        # If we have a batch of variable feature length audio clips, we need
+        # to mask the features; usually we would get an input_features_mask
+        # from the processor, but we handle rebuilding it here since
+        # vLLM generally processes everything independently + batches.
+        if input_features_mask is None:
+            input_features_mask = self._build_input_features_mask(audio_embed_sizes)
+
+        if not isinstance(input_features, (torch.Tensor, list)):
+            raise ValueError(
+                "Incorrect type of audio input features. "
+                f"Got type: {type(input_features)}"
+            )
+
+        if input_features_mask is not None and not isinstance(
+            input_features_mask, torch.Tensor
+        ):
+            raise ValueError(
+                "Incorrect type of audio input features mask. "
+                f"Got type: {type(input_features_mask)}"
+            )
+
+        if isinstance(input_features, torch.Tensor):
+            # Granite speech currently only allows one audio token per instance
+            # and features are already unsqueezed in the processor, so one
+            # instance will have shape [1, {num_features}, 160]. As such,
+            # input features will usually be of shape
+            # [bsz, 1, num_features, 160], which we squeeze to be 3D here.
+            if len(input_features.shape) == 4:
+                input_features = input_features.squeeze(1)
+            if len(input_features.shape) != 3:
+                raise ValueError(
+                    "Squeezed input features should be 3D but are of shape "
+                    f"{input_features.shape}"
+                )
+            input_features = input_features.to(self.encoder.input_linear.weight.dtype)
+
+        else:
+            # Otherwise we have a list of tensors, which are almost certainly
+            # differing in their respective numbers of audio features;
+            # stack them into a 3D tensor of size [bsz, most_num_features, 160].
+            input_features = self._pad_and_stack_input_features(
+                input_features,
+            ).to(self.encoder.input_linear.weight.dtype)
+
+        return GraniteSpeechAudioInputs(
+            input_features=input_features,
+            input_features_mask=input_features_mask,
+            audio_embed_sizes=audio_embed_sizes.flatten().tolist(),
+        )
+
+    def _build_input_features_mask(
+        self,
+        audio_embed_sizes: torch.Tensor,
+    ) -> torch.Tensor:
+        """Calculate the input features mask, which will generally be used
+        to mask the padded features for all entries in the batch except
+        for those with the most audio features.
+
+        Args:
+            audio_embed_sizes: torch.Tensor
+                Tensor of num features in each seq in the batch.
+        Returns:
+            torch.Tensor: Mask of shape (bsz, num_features) to be applied to
+            the audio features prior to splitting the audio embeddings.
+        """
+        most_audio_features = torch.max(audio_embed_sizes).item()
+        mask_indices = torch.arange(
+            most_audio_features,
+            device=audio_embed_sizes.device,
+        ).view(1, -1)
+        input_features_mask = mask_indices < audio_embed_sizes.view(-1, 1)
+        return input_features_mask
+
+    def _pad_and_stack_input_features(
+        self,
+        input_features: list[torch.Tensor],
+    ) -> torch.Tensor:
+        """Given a list of input features of varying length, pad them to the
+        same length and stack them into a torch.Tensor.
+
+        NOTE: Usually, padding is done in the input processor/feature extractor
+        and zero padded prior to the computation of the Mel features; the
+        resulting values are only constant within a batch and generally nonzero
+        (i.e., slightly negative nums); we should validate that this is okay
+        since we don't use a feature attention mask, but the more important
+        thing is that we apply the input_features_mask with variable len
+        batches.
+
+        Args:
+            input_features: list[torch.Tensor]
+                Input features to be coerced into a tensor.
+        Returns:
+            torch.Tensor: Tensor of shape [bsz, num_features, 160], where
+            num_features is the max number of features of any entry in the
+            batch.
+        """
+        # Input features are of shape [bsz, num_features, 160]
+        feat_lens = [feats.shape[1] for feats in input_features]
+        padding = [max(feat_lens) - length for length in feat_lens]
+        # TODO (Alex) - Validate that it's okay to zero pad like this;
+        # in transformers we zero pad prior to calculating the speech features,
+        # so the value is not zero and is dependent on the batched features.
+        padded = [
+            torch.nn.functional.pad(feats, (0, 0, 0, pad, 0, 0))
+            for feats, pad in zip(input_features, padding)
+        ]
+        stacked_features = torch.cat(padded, dim=0).to(input_features[0])
+        return stacked_features
+
+    def _process_audio_input(
+        self,
+        audio_input: GraniteSpeechAudioInputs,
+    ) -> tuple[torch.Tensor]:
+        """Compute the audio features to be merged into the LLM embeddings.
+
+        Args:
+            audio_input: GraniteSpeechAudioInputs
+                Audio inputs object containing Mel features, an input features
+                mask, and the (flattened) number of audio tokens per instance.
+        Returns:
+            tuple[torch.Tensor]: List of length bsz.
+        """
+        # TODO (Alex) - support embedding inputs
+        encoder_embeds = self.encoder(audio_input["input_features"])
+        # [bsz, <max feature size>, 4096]
+        projected_embeds = self.projector(encoder_embeds)
+        # Apply mask on variable length audio features
+        masked_embeds = projected_embeds[audio_input["input_features_mask"]]
+        # Split variable length features into a tuple
+        return torch.split(masked_embeds, audio_input["audio_embed_sizes"])
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(
+        self,
+        **kwargs: object,
+    ) -> MultiModalEmbeddings:
+        """Compute the audio embeddings if audio inputs are present."""
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        if audio_input is None:
+            return []
+
+        audio_features = self._process_audio_input(audio_input)
+        return audio_features
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        # Multi-modal token ID may exceed vocab size
+        handle_oov_mm_token: bool = True,
+    ) -> torch.Tensor:
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        model_output = self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """Get the module prefix in multimodal models."""
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="projector",
+            tower_model="encoder",
+        )
+
+    ### Support for speech-to-text Transcription
+    @classmethod
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        model_config: ModelConfig,
+        stt_config: SpeechToTextConfig,
+        language: str | None,
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: str | None,
+    ) -> PromptType:
+        """Get the generation prompt to be used for transcription requests."""
+        # Audio placeholders don't use an index, so value doesn't matter
+        audio_tok = cls.get_placeholder_str("audio", 0)
+
+        if task_type == "translate":
+            full_lang_name_to = cls.supported_languages.get(to_language, to_language)
+            user_prompt = f"{audio_tok}translate the speech to {full_lang_name_to}"  # noqa: E501
+        elif task_type == "transcribe":
+            user_prompt = (
+                f"{audio_tok}can you transcribe the speech into a written format?"  # noqa: E501
+            )
+        else:
+            raise ValueError(f"Unsupported task type {task_type}")
+
+        tokenizer = cached_get_tokenizer(model_config.model)
+        chat = [dict(role="user", content=user_prompt)]
+        prompt = tokenizer.apply_chat_template(
+            chat,
+            tokenize=False,
+            add_generation_prompt=True,
+        )
+
+        prompt_token_ids = tokenizer.encode(prompt)
+        prompt = {
+            "prompt_token_ids": prompt_token_ids,
+            "multi_modal_data": {"audio": audio},
+        }
+        return cast(PromptType, prompt)
+
+    # Adapted from https://github.com/huggingface/transformers/blob/v4.56.0/src/transformers/models/granite_speech/feature_extraction_granite_speech.py#L122 # noqa: E501
+    @classmethod
+    def get_num_audio_tokens(
+        cls,
+        audio_duration_s: float,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+    ) -> int | None:
+        """Get the number of audio tokens for an audio duration in sec."""
+        processor = cached_get_processor(model_config.model)
+        hop_length = processor.audio_processor.melspec_kwargs["hop_length"]
+        proj_win_size = processor.audio_processor.projector_window_size
+        ds_rate = processor.audio_processor.projector_downsample_rate
+        effective_window_size = proj_win_size // ds_rate
+
+        raw_length = audio_duration_s * stt_config.sample_rate
+
+        # mel sequence length computation
+        mel_length = raw_length // hop_length + 1
+        # encoder frame takes two mel features
+        encoder_length = mel_length // 2
+        nblocks = math.ceil(encoder_length / proj_win_size)
+        # projector output length
+        return nblocks * effective_window_size
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: str
+    ) -> SpeechToTextConfig:
+        """Get the stt config for this model."""
+        # Default settings are reasonable for this model and we don't currently
+        # expose this information in the model configs, but this may change in
+        # the future
+        return SpeechToTextConfig()
diff --git a/model_executor/models/granitemoe.py b/model_executor/models/granitemoe.py
new file mode 100644
index 0000000..5c6759d
--- /dev/null
+++ b/model_executor/models/granitemoe.py
@@ -0,0 +1,569 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only GraniteMoe model."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import AutoWeightsLoader, is_pp_missing_parameter, make_layers, maybe_prefix
+
+
+class GraniteMoeMoE(nn.Module):
+    """A tensor-parallel MoE implementation for GraniteMoe that shards each
+    expert across all ranks.
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        is_sequence_parallel=False,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.is_sequence_parallel = is_sequence_parallel
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            prefix=f"{prefix}.experts",
+            is_sequence_parallel=self.is_sequence_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            num_tokens = orig_shape[0]
+            final_hidden_states = final_hidden_states[:num_tokens]
+
+        return final_hidden_states.view(orig_shape)
+
+
+class GraniteMoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        attention_multiplier: float | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = (
+            attention_multiplier
+            if attention_multiplier is not None
+            else self.head_dim**-1
+        )
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class GraniteMoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        self.self_attn = GraniteMoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attention_multiplier=config.attention_multiplier,
+        )
+        self.block_sparse_moe = GraniteMoeMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            is_sequence_parallel=parallel_config.use_sequence_parallel_moe,
+            prefix=f"{prefix}.block_sparse_moe",
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.residual_multiplier = config.residual_multiplier
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.block_sparse_moe(hidden_states)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states
+
+
+@support_torch_compile
+class GraniteMoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config  # Required by MixtralModel
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.embedding_multiplier = config.embedding_multiplier
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GraniteMoeDecoderLayer(vllm_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            hidden_states *= self.embedding_multiplier
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                }
+            )
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def _load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        """
+        This function is copied from `MixtralModel.load_weights`, mainly to
+        decouple from mixtral, avoiding impact on support like BNB
+        quantization.
+        """
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="w1",
+            ckpt_down_proj_name="w2",
+            ckpt_up_proj_name="w3",
+            num_experts=self.config.num_local_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        new_weights = {}
+        for n, p in weights:
+            if n.endswith(".block_sparse_moe.input_linear.weight"):
+                for e in range(p.size(0)):
+                    w1_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w1.weight",
+                    )
+                    w3_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w3.weight",
+                    )
+                    w1_param, w3_param = p[e].chunk(2, dim=0)
+                    assert w1_name not in new_weights
+                    assert w3_name not in new_weights
+                    new_weights[w1_name] = w1_param
+                    new_weights[w3_name] = w3_param
+            elif n.endswith(".block_sparse_moe.output_linear.weight"):
+                for e in range(p.size(0)):
+                    w2_name = n.replace(
+                        ".block_sparse_moe.output_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w2.weight",
+                    )
+                    w2_param = p[e]
+                    assert w2_name not in new_weights
+                    new_weights[w2_name] = w2_param
+            elif n.endswith(".block_sparse_moe.router.layer.weight"):
+                gate_name = n.replace(
+                    ".block_sparse_moe.router.layer.weight",
+                    ".block_sparse_moe.gate.weight",
+                )
+                assert gate_name not in new_weights
+                new_weights[gate_name] = p
+            else:
+                new_weights[n] = p
+        return self._load_weights(new_weights.items())
+
+
+class GraniteMoeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    fall_back_to_pt_during_load = False
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.model = GraniteMoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size,
+            scale=1 / self.config.logits_scaling,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/granitemoehybrid.py b/model_executor/models/granitemoehybrid.py
new file mode 100644
index 0000000..05177f1
--- /dev/null
+++ b/model_executor/models/granitemoehybrid.py
@@ -0,0 +1,709 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only GraniteMoeHybrid model."""
+
+# Added by the IBM Team, 2025
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import GraniteMoeHybridConfig
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .granitemoe import GraniteMoeMoE
+from .granitemoeshared import GraniteMoeSharedMLP
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class GraniteMoeHybridMambaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GraniteMoeHybridConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.residual_multiplier = config.residual_multiplier
+
+        self.mamba = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.mamba_d_state,
+            conv_kernel_size=config.mamba_d_conv,
+            intermediate_size=config.mamba_expand * config.hidden_size,
+            use_conv_bias=config.mamba_conv_bias,
+            use_bias=config.mamba_proj_bias,
+            n_groups=config.mamba_n_groups,
+            num_heads=config.mamba_n_heads,
+            head_dim=config.mamba_d_head,
+            rms_norm_eps=config.rms_norm_eps,
+            activation=config.hidden_act,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.block_sparse_moe = None
+        if getattr(config, "num_local_experts", 0) > 0:
+            self.block_sparse_moe = GraniteMoeMoE(
+                num_experts=config.num_local_experts,
+                top_k=config.num_experts_per_tok,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.block_sparse_moe",
+            )
+
+        self.shared_mlp = (
+            None
+            if getattr(config, "shared_intermediate_size", 0) == 0
+            else GraniteMoeSharedMLP(
+                config, quant_config=quant_config, prefix=f"{prefix}.shared_mlp"
+            )
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        output = torch.empty_like(hidden_states)
+        self.mamba(hidden_states, output)
+        hidden_states = residual + output * self.residual_multiplier
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        if self.shared_mlp is None:
+            if self.block_sparse_moe is not None:
+                hidden_states = self.block_sparse_moe(hidden_states)
+            # else: skip
+        else:
+            # create a copy since block_sparse_moe modifies in-place
+            if self.block_sparse_moe is not None:
+                moe_hidden_states = hidden_states.clone()
+                moe_hidden_states = self.block_sparse_moe(moe_hidden_states)
+                hidden_states = moe_hidden_states + self.shared_mlp(hidden_states)
+                del moe_hidden_states
+            else:
+                hidden_states = self.shared_mlp(hidden_states)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states, residual
+
+
+class GraniteMoeHybridAttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GraniteMoeHybridConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.residual_multiplier = config.residual_multiplier
+
+        self.self_attn = GraniteMoeHybridAttention(
+            config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.block_sparse_moe = None
+        if getattr(config, "num_local_experts", 0) > 0:
+            self.block_sparse_moe = GraniteMoeMoE(
+                num_experts=config.num_local_experts,
+                top_k=config.num_experts_per_tok,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.block_sparse_moe",
+            )
+
+        self.shared_mlp = (
+            None
+            if getattr(config, "shared_intermediate_size", 0) == 0
+            else GraniteMoeSharedMLP(
+                config, quant_config=quant_config, prefix=f"{prefix}.shared_mlp"
+            )
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        if self.shared_mlp is None:
+            if self.block_sparse_moe is not None:
+                hidden_states = self.block_sparse_moe(hidden_states)
+            # else: skip
+        else:
+            # create a copy since block_sparse_moe modifies in-place
+            if self.block_sparse_moe is not None:
+                moe_hidden_states = hidden_states.clone()
+                moe_hidden_states = self.block_sparse_moe(moe_hidden_states)
+                hidden_states = moe_hidden_states + self.shared_mlp(hidden_states)
+                del moe_hidden_states
+            else:
+                hidden_states = self.shared_mlp(hidden_states)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states, residual
+
+
+class GraniteMoeHybridAttention(nn.Module):
+    def __init__(
+        self,
+        config: GraniteMoeHybridConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.causal = True
+        self.hidden_size = config.hidden_size
+        self.attention_bias = config.attention_bias
+        self.attention_multiplier = config.attention_multiplier
+        self.total_num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.total_num_kv_heads = config.num_key_value_heads
+
+        # TensorParallel logic
+        tp_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_key_value_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=self.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=self.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        if config.position_embedding_type == "rope":
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=config.max_position_embeddings,
+                base=int(config.rope_theta),
+                rope_scaling=config.rope_scaling
+                if hasattr(config, "rope_scaling") and config.rope_scaling is not None
+                else None,
+                is_neox_style=True,
+            )
+        else:
+            self.rotary_emb = None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.attention_multiplier,
+            num_kv_heads=self.num_key_value_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        query, key, value = qkv.split(
+            [
+                self.num_heads * self.head_dim,
+                self.num_key_value_heads * self.head_dim,
+                self.num_key_value_heads * self.head_dim,
+            ],
+            dim=-1,
+        )
+
+        if self.rotary_emb is not None:
+            query, key = self.rotary_emb(positions, query, key)
+
+        hidden_states = self.attn(query, key, value)
+        del query, key, value
+
+        hidden_states = self.o_proj(hidden_states)[0]
+        return hidden_states
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": GraniteMoeHybridAttentionDecoderLayer,
+    "mamba": GraniteMoeHybridMambaDecoderLayer,
+}
+
+
+@support_torch_compile
+class GraniteMoeHybridModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.embedding_multiplier = config.embedding_multiplier
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = ALL_DECODER_LAYER_TYPES[config.layer_types[layer_idx]]
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+                hidden_states = hidden_states * self.embedding_multiplier
+            residual = None
+        else:
+            if intermediate_tensors is None:
+                raise RuntimeError("Intermediate tensors may not be None!")
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        num_attn = 0
+        for i, layer in enumerate(self.layers):
+            if isinstance(layer, GraniteMoeHybridAttentionDecoderLayer):
+                num_attn += 1
+            hidden_states, residual = layer(
+                positions=positions, hidden_states=hidden_states, residual=residual
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        # layers.0.block_sparse_moe.expert_0.input_linear.input_scale
+        ckpt_gate_proj_name = "gate_proj"
+        ckpt_down_proj_name = "down_proj"
+        ckpt_up_proj_name = "up_proj"
+        num_experts = self.config.num_local_experts
+
+        return [
+            # (param_name, weight_name, expert_id, shard_id)
+            (
+                "block_sparse_moe.experts.w13_"
+                if weight_name in [ckpt_gate_proj_name, ckpt_up_proj_name]
+                else "block_sparse_moe.experts.w2_",
+                f"block_sparse_moe.experts.{expert_id}.{weight_name}.",
+                expert_id,
+                shard_id,
+            )
+            for expert_id in range(num_experts)
+            for shard_id, weight_name in [
+                ("w1", ckpt_gate_proj_name),
+                ("w2", ckpt_down_proj_name),
+                ("w3", ckpt_up_proj_name),
+            ]
+        ]
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+
+        def _load(n, p):
+            param = params_dict[n]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, p)
+            loaded_params.add(n)
+
+        def _load_shard(n, p, shard_id):
+            # Skip layers on other devices.
+            if not is_pp_missing_parameter(n, self):
+                param = params_dict[n]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, p, shard_id)
+                loaded_params.add(n)
+
+        def _load_expert(n, p, name, shard_id, expert_id):
+            param = params_dict[n]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, p, name, shard_id=shard_id, expert_id=expert_id)
+            loaded_params.add(n)
+
+        def _load_quant_expert(name, loaded_weight):
+            for mapping in expert_params_mapping:
+                param_name, weight_name, expert_id, shard_id = mapping
+
+                if weight_name not in name:
+                    continue
+
+                name_mapped = name.replace(weight_name, param_name)
+
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name_mapped, self):
+                    continue
+
+                param = params_dict[name_mapped]
+                weight_loader = param.weight_loader
+                success = False
+
+                if weight_loader is not None:
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+
+                if success:
+                    return name_mapped
+            return None
+
+        for n, p in weights:
+            if "A_log" in n:
+                n = n.replace("A_log", "A")
+
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(n)
+            ):
+                # Loading kv cache quantization scales
+                loaded_weight = p
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                _load(scale_name, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            if _load_quant_expert(n, p):
+                continue
+
+            # Logic analogous to: https://github.com/vllm-project/vllm/blob/f49e5aff11c986ed4d45202b1716c5d74786efa9/vllm/model_executor/models/granitemoeshared.py#L215
+            # Mapping different experts' layout:
+            #  from HF (input_linear, output_linear, router)
+            #  to vLLM (experts_w13({e}.w1, {e}.w2), experts_w3({e}.w3), gate)
+            # The renaming and parameter loading logic is the same for weight
+            # and weight_scale tensors so we can reuse them without issues.
+            if n.endswith(".block_sparse_moe.input_linear.weight") or n.endswith(
+                ".block_sparse_moe.input_linear.weight_scale"
+            ):
+                for e in range(p.size(0)):
+                    w1_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w1.weight",
+                    )
+                    w3_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w3.weight",
+                    )
+                    w1_param, w3_param = p[e].chunk(2, dim=0)
+                    _load_expert(
+                        n.replace(".input_linear.", ".experts.w13_"),
+                        w1_param,
+                        w1_name,
+                        shard_id="w1",
+                        expert_id=e,
+                    )
+                    _load_expert(
+                        n.replace(".input_linear.", ".experts.w13_"),
+                        w3_param,
+                        w3_name,
+                        shard_id="w3",
+                        expert_id=e,
+                    )
+            elif n.endswith(".block_sparse_moe.output_linear.weight") or n.endswith(
+                ".block_sparse_moe.output_linear.weight_scale"
+            ):
+                for e in range(p.size(0)):
+                    w2_name = n.replace(
+                        ".block_sparse_moe.output_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w2.weight",
+                    )
+                    w2_param = p[e]
+                    _load_expert(
+                        n.replace(".output_linear.", ".experts.w2_"),
+                        w2_param,
+                        w2_name,
+                        shard_id="w2",
+                        expert_id=e,
+                    )
+            elif n.endswith(".block_sparse_moe.router.layer.weight"):
+                gate_name = n.replace(
+                    ".block_sparse_moe.router.layer.weight",
+                    ".block_sparse_moe.gate.weight",
+                )
+                _load(gate_name, p)
+            else:
+                loaded = False
+                for param_name, weight_name, shard_id in stacked_params_mapping:
+                    if weight_name in n:
+                        _load_shard(
+                            n.replace(weight_name, param_name), p, shard_id=shard_id
+                        )
+                        loaded = True
+                if not loaded:
+                    _load(n, p)
+
+        return loaded_params
+
+
+class GraniteMoeHybridForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsQuant,
+    SupportsMambaPrefixCaching,
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "conv1d": ["conv1d"],
+        "in_proj": ["in_proj"],
+        "input_linear": ["input_linear"],
+    }
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.mamba_expand * hf_config.hidden_size
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.mamba_n_groups,
+            num_heads=hf_config.mamba_n_heads,
+            head_dim=hf_config.mamba_d_head,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+
+        scheduler_config = vllm_config.scheduler_config
+        self.quant_config = vllm_config.quant_config
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = GraniteMoeHybridModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size,
+            config.vocab_size,
+            scale=1 / self.config.logits_scaling,
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/granitemoeshared.py b/model_executor/models/granitemoeshared.py
new file mode 100644
index 0000000..926c539
--- /dev/null
+++ b/model_executor/models/granitemoeshared.py
@@ -0,0 +1,333 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only GraniteMoeShared model.
+
+The architecture is the same as granitemoe but with the addition of shared
+experts.
+"""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers.models.granitemoeshared import GraniteMoeSharedConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.sequence import IntermediateTensors
+
+from .granitemoe import GraniteMoeAttention, GraniteMoeModel, GraniteMoeMoE
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import AutoWeightsLoader, make_layers, maybe_prefix
+
+
+class GraniteMoeSharedMLP(nn.Module):
+    def __init__(
+        self,
+        config: GraniteMoeSharedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.input_size = config.hidden_size
+        self.hidden_size = config.shared_intermediate_size
+        self.input_linear = MergedColumnParallelLinear(
+            input_size=self.input_size,
+            output_sizes=[self.hidden_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.input_linear",
+        )
+        self.output_linear = RowParallelLinear(
+            self.hidden_size,
+            self.input_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.output_linear",
+        )
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.input_linear(hidden_states)
+        hidden_states = self.act_fn(hidden_states)
+        hidden_states, _ = self.output_linear(hidden_states)
+        return hidden_states
+
+
+class GraniteMoeSharedDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GraniteMoeSharedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        self.self_attn = GraniteMoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attention_multiplier=config.attention_multiplier,
+        )
+        self.block_sparse_moe = GraniteMoeMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe",
+        )
+        self.shared_mlp = (
+            None
+            if getattr(config, "shared_intermediate_size", 0) == 0
+            else GraniteMoeSharedMLP(
+                config, quant_config=quant_config, prefix=f"{prefix}.shared_mlp"
+            )
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.residual_multiplier = config.residual_multiplier
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        if self.shared_mlp is None:
+            hidden_states = self.block_sparse_moe(hidden_states)
+        else:
+            # create a copy since block_sparse_moe modifies in-place
+            moe_hidden_states = hidden_states.clone()
+            moe_hidden_states = self.block_sparse_moe(moe_hidden_states)
+            hidden_states = moe_hidden_states + self.shared_mlp(hidden_states)
+            del moe_hidden_states
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states
+
+
+@support_torch_compile
+class GraniteMoeSharedModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config  # Required by MixtralModel
+        self.padding_idx = config.pad_token_id
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+        )
+        self.embedding_multiplier = config.embedding_multiplier
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: GraniteMoeSharedDecoderLayer(
+                config, cache_config, quant_config=quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            hidden_states *= self.embedding_multiplier
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                }
+            )
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        new_weights = {}
+        for n, p in weights:
+            if n.endswith(".block_sparse_moe.input_linear.weight"):
+                for e in range(p.size(0)):
+                    w1_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w1.weight",
+                    )
+                    w3_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w3.weight",
+                    )
+                    w1_param, w3_param = p[e].chunk(2, dim=0)
+                    assert w1_name not in new_weights
+                    assert w3_name not in new_weights
+                    new_weights[w1_name] = w1_param
+                    new_weights[w3_name] = w3_param
+            elif n.endswith(".block_sparse_moe.output_linear.weight"):
+                for e in range(p.size(0)):
+                    w2_name = n.replace(
+                        ".block_sparse_moe.output_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w2.weight",
+                    )
+                    w2_param = p[e]
+                    assert w2_name not in new_weights
+                    new_weights[w2_name] = w2_param
+            elif n.endswith(".block_sparse_moe.router.layer.weight"):
+                gate_name = n.replace(
+                    ".block_sparse_moe.router.layer.weight",
+                    ".block_sparse_moe.gate.weight",
+                )
+                assert gate_name not in new_weights
+                new_weights[gate_name] = p
+            else:
+                new_weights[n] = p
+        return GraniteMoeModel._load_weights(self, new_weights.items())
+
+
+class GraniteMoeSharedForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    fall_back_to_pt_during_load = False
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.model = GraniteMoeSharedModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size,
+            config.vocab_size,
+            scale=1 / self.config.logits_scaling,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/gritlm.py b/model_executor/models/gritlm.py
new file mode 100644
index 0000000..181c4ed
--- /dev/null
+++ b/model_executor/models/gritlm.py
@@ -0,0 +1,245 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Set
+
+import numpy as np
+import torch
+import torch.nn as nn
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.pooler import (
+    DispatchPooler,
+    Pooler,
+    PoolerHead,
+    PoolerNormalize,
+    PoolingParamsUpdate,
+    get_prompt_lens,
+    get_prompt_token_ids,
+)
+from vllm.model_executor.models.llama import LlamaForCausalLM
+from vllm.tasks import PoolingTask
+from vllm.transformers_utils.tokenizer import cached_tokenizer_from_config
+from vllm.v1.outputs import PoolerOutput
+from vllm.v1.pool.metadata import PoolingMetadata
+
+from .interfaces_base import default_pooling_type
+
+logger = init_logger(__name__)
+
+
+class GritLMMeanPool(nn.Module):
+    """As `MeanPool`, but only includes non-instruction tokens."""
+
+    def __init__(self, model_config: ModelConfig):
+        super().__init__()
+
+        self.model_config = model_config
+
+        tokenizer = cached_tokenizer_from_config(self.model_config)
+
+        # Collect the tokens needed for pattern matching.
+        # "▁<" is different from "_<". The former uses "▁" to indicate that
+        # the next token is the start of a word.
+        # "<0x0A>" is the newline token (i.e. "\n")."
+        self.token_ids = {
+            tok: tokenizer.convert_tokens_to_ids([tok])[0]
+            for tok in ["<s>", "▁<", "<", "|", "embed", ">", "<0x0A>", "user"]
+        }
+
+        def tokens_to_ids(tokens: list[str]) -> np.ndarray:
+            return np.array([self.token_ids[token] for token in tokens])
+
+        self.user_pattern_ids = tokens_to_ids(["▁<", "|", "user", "|", ">", "<0x0A>"])
+        self.embed_newline_pattern_ids = tokens_to_ids(
+            ["<0x0A>", "<", "|", "embed", "|", ">", "<0x0A>"]
+        )
+        self.embed_pattern_ids = tokens_to_ids(["▁<", "|", "embed", "|", ">", "<0x0A>"])
+
+    def _find_array(
+        self,
+        arr: np.ndarray,
+        target: np.ndarray,
+        start_idx: int = 0,
+        end_idx: int | None = None,
+    ) -> int:
+        """
+        Find the first occurrence of `target` in `arr` starting from
+        `start_idx`.
+
+        Args:
+            arr: The array to search within.
+            target: The consecutive subsequence to find.
+            start_idx: The starting index to search from (inclusive).
+            end_idx: The ending index to search from (exclusive).
+
+        Returns:
+            The index of the first occurrence of `target` in `arr`.
+        """
+        if start_idx < 0:
+            raise ValueError("`start_idx` must be non-negative")
+        if len(arr) == 0 or len(target) == 0:
+            raise ValueError("Empty `arr` or `target` not allowed")
+
+        arr_len = len(arr)
+        target_len = len(target)
+
+        if end_idx is None:
+            end_idx = arr_len
+
+        for i in range(start_idx, min(end_idx, arr_len - target_len + 1)):
+            if (arr[i : i + target_len] == target).all():
+                return i
+
+        return -1
+
+    def _get_instruction_len(self, prompt_token_ids: np.ndarray) -> int:
+        """
+        Get the length of the instruction in the prompt.
+
+        We do a pattern matching to find the instruction in the prompt,
+        and then return the length of the instruction.
+
+        The pattern matching is done using integers instead of strings
+        because the prompt is given as a list of token IDs.
+        """
+        instruction_len = 0
+
+        # Return no instruction in case of missing BOS token.
+        if prompt_token_ids[0] != self.token_ids["<s>"]:
+            logger.warning(
+                "BOS token not found in prompt, "
+                "thus using empty string for instruction. "
+                "GritLM requires BOS token in prompt."
+            )
+            return instruction_len
+
+        # If user pattern is found in the prompt, that means there should be
+        # a newline token before the embed pattern.
+        embed_pattern_ids = self.embed_pattern_ids
+        if (
+            self._find_array(
+                prompt_token_ids, self.user_pattern_ids, start_idx=1, end_idx=2
+            )
+            == 1
+        ):
+            embed_pattern_ids = self.embed_newline_pattern_ids
+
+        # Find the embed pattern in the prompt.
+        found_embed_pattern_idx = self._find_array(
+            prompt_token_ids, embed_pattern_ids, start_idx=1
+        )
+
+        if found_embed_pattern_idx != -1:
+            instruction_len = found_embed_pattern_idx + len(embed_pattern_ids)
+        else:
+            logger.warning(
+                "Query instruction not found in prompt, "
+                "thus using BOS token as instruction instead. "
+                "GritLM requires query instruction in prompt."
+            )
+            instruction_len = 1
+
+        return instruction_len
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return {"encode", "embed"}
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return PoolingParamsUpdate(requires_token_ids=True)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> list[torch.Tensor] | torch.Tensor:
+        prompt_lens = get_prompt_lens(hidden_states, pooling_metadata)
+        instr_lens = torch.tensor(
+            [
+                self._get_instruction_len(token_ids.cpu().numpy())
+                for token_ids in get_prompt_token_ids(pooling_metadata)
+            ],
+            device="cpu",
+        )
+
+        offset = 0
+        pooled_data = list[torch.Tensor]()
+        for prompt_len, instr_len in zip(prompt_lens, instr_lens):
+            pooled_data.append(
+                hidden_states[offset + instr_len : offset + prompt_len].mean(
+                    dim=0, dtype=torch.float32
+                )
+            )
+            offset += prompt_len
+
+        return pooled_data
+
+
+class GritLMPooler(Pooler):
+    def __init__(self, model_config: ModelConfig):
+        super().__init__()
+
+        self.pooling = GritLMMeanPool(model_config)
+        self.head = PoolerHead(PoolerNormalize())
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return self.pooling.get_supported_tasks()
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return self.pooling.get_pooling_updates(task)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        pooling_metadata: PoolingMetadata,
+    ) -> PoolerOutput:
+        pooled_data = self.pooling(hidden_states, pooling_metadata)
+        pooled_data = self.head(pooled_data, pooling_metadata)
+        return pooled_data
+
+
+@default_pooling_type("MEAN")
+class GritLM(LlamaForCausalLM):
+    """This class implements the embedding model for parasail-ai/GritLM-7B-vllm.
+
+    The class inherits from LlamaForCausalLM and provides a custom pooling
+    layer.
+
+    The main difference between the pooling layer in GritLM and the one in
+    LlamaForCausalLM is that GritLM ignores the query instruction in the prompt
+    when pooling the hidden states.
+
+    Embedding prompts should be in the following format:
+    - With instruction: "<|user|>\nINSTRUCTION\n<|embed|>\nPROMPT".
+    - Without instruction: "<|embed|>\nPROMPT".
+
+    Generation prompts should be in the following format:
+    - "<|user|>\nPROMPT\n<|assistant|>\n"
+    """
+
+    is_pooling_model = True
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        if vllm_config.model_config.runner_type == "pooling":
+            hf_config = vllm_config.model_config.hf_config
+            hf_config.is_causal = False
+
+            vllm_config.cache_config.sliding_window = None
+
+            hf_config.sliding_window = None
+
+        super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
+
+        pooler_config = vllm_config.model_config.pooler_config
+        if pooler_config is not None:
+            self.pooler = DispatchPooler(
+                {
+                    "token_embed": Pooler.for_token_embed(pooler_config),
+                    "embed": GritLMPooler(vllm_config.model_config),
+                }
+            )
diff --git a/model_executor/models/grok1.py b/model_executor/models/grok1.py
new file mode 100644
index 0000000..9dc2318
--- /dev/null
+++ b/model_executor/models/grok1.py
@@ -0,0 +1,558 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from
+# https://github.com/ROCm/vllm/blob/cea7419f151cc50293a05b7fac8547f8f887c9f6/vllm/model_executor/models/grok1.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Grok1 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+# Default Grok1-specific constants, overridden by config values if present
+DEFAULT_ATTN_OUTPUT_MULTIPLIER = 0.08838834764831845
+DEFAULT_OUTPUT_MULTIPLIER_SCALE = 0.5773502691896257
+DEFAULT_EMBEDDING_MULTIPLIER_SCALE = 78.38367176906169
+
+
+class Grok1MoE(nn.Module):
+    """A tensor-parallel MoE implementation for Grok1 that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            activation="gelu",
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        router_logits = 30.0 * F.tanh(router_logits / 30.0)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+        return final_hidden_states.view(orig_shape)
+
+
+class Grok1Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        config=None,  # Added config parameter
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.config = config  # Store config reference
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+
+        attn_logits_soft_cap = max(getattr(config, "attn_logit_softcapping", 30.0), 0.0)
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            logits_soft_cap=attn_logits_soft_cap,
+            prefix=f"{prefix}.attn",
+        )
+        self.attn_multiplier = (
+            getattr(self.config, "attn_output_multiplier", 1.0) if self.config else 1.0
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        output *= self.attn_multiplier
+        return output
+
+
+class Grok1DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Check for fp8 quantization
+        self.use_fp8 = False
+        if quant_config is not None:
+            self.use_fp8 = getattr(quant_config, "is_fp8_w8a8", lambda: False)()
+            if not self.use_fp8 and hasattr(quant_config, "is_fp8"):
+                self.use_fp8 = quant_config.is_fp8
+
+        # Requires transformers > 4.32.0
+        # Default rope_theta value if not in config
+        rope_theta = 10000
+        self.attn = Grok1Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            config=config,
+        )  # Pass config to Grok1Attention
+
+        # Grok1 uses "num_experts" in its config
+        num_experts = getattr(config, "num_experts", 8)
+        num_experts_per_tok = getattr(config, "num_experts_per_tok", 2)
+
+        self.moe_block = Grok1MoE(
+            num_experts=num_experts,
+            top_k=num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.moe_block",
+        )
+
+        self.pre_attn_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attn_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_moe_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_moe_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.pre_attn_norm(hidden_states)
+        else:
+            hidden_states, residual = self.pre_attn_norm(hidden_states, residual)
+
+        hidden_states = self.attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Post attention normalization
+        hidden_states = self.post_attn_norm(hidden_states)
+
+        # MoE block with normalization
+        hidden_states, residual = self.pre_moe_norm(hidden_states, residual)
+        hidden_states = self.moe_block(hidden_states)
+        hidden_states = self.post_moe_norm(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Grok1Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.padding_idx = config.pad_token_id
+
+        self.vocab_size = config.vocab_size
+
+        self.embedding_multiplier_scale = getattr(
+            config, "embedding_multiplier_scale", DEFAULT_EMBEDDING_MULTIPLIER_SCALE
+        )
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+        )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Grok1DecoderLayer(
+                config, cache_config, quant_config=quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.embed_tokens(input_ids)
+        hidden_states = hidden_states * self.embedding_multiplier_scale
+        return hidden_states
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Map Grok1's unique expert parameter names to standard names
+        # Grok1 uses "num_experts" in its config
+        num_experts = getattr(self.config, "num_experts", 8)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="linear",  # Grok1 specific
+            ckpt_down_proj_name="linear_1",  # Grok1 specific
+            ckpt_up_proj_name="linear_v",  # Grok1 specific
+            num_experts=num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    # Handle Grok1-specific norm.scale naming
+                    if "norm.scale" in name:
+                        name = name.replace("scale", "weight")
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    fall_back_to_pt_during_load = False
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+
+        self.model = Grok1Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+        self.output_multiplier_scale = getattr(
+            config, "output_multiplier_scale", DEFAULT_OUTPUT_MULTIPLIER_SCALE
+        )
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, scale=self.output_multiplier_scale
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        # Skip lm_head when tie_word_embeddings is True
+        skip_prefixes = ["lm_head"] if self.config.tie_word_embeddings else None
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=skip_prefixes,
+        )
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/h2ovl.py b/model_executor/models/h2ovl.py
new file mode 100644
index 0000000..81c6b34
--- /dev/null
+++ b/model_executor/models/h2ovl.py
@@ -0,0 +1,554 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/h2oai/h2ovl-mississippi-2b/blob/main/modeling_h2ovl_chat.py
+# https://huggingface.co/h2oai/h2ovl-mississippi-2b/blob/main/image_process.py
+# --------------------------------------------------------
+# H2OVL-Mississippi
+# Copyright (c) 2024 H2O.AI
+# Licensed under Apache 2.0 License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Mapping, Sequence
+
+import torch
+from PIL import Image
+from transformers import PretrainedConfig
+
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalKwargsItems, MultiModalUUIDDict
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    MultiModalProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+from .intern_vit import InternVisionModel
+from .internvl import (
+    IMG_CONTEXT,
+    IMG_END,
+    IMG_START,
+    BaseInternVLDummyInputsBuilder,
+    BaseInternVLMultiModalProcessor,
+    BaseInternVLProcessingInfo,
+    BaseInternVLProcessor,
+    InternVLChatModel,
+    build_transform,
+    find_closest_aspect_ratio,
+    get_internvl_target_ratios,
+)
+
+
+def resolve_h2ovl_min_max_num(
+    *,
+    min_dynamic_patch: int,
+    max_dynamic_patch: int,
+    dynamic_image_size: bool,
+    use_thumbnail: bool,
+) -> tuple[int, int]:
+    min_dynamic_patch = min_dynamic_patch if dynamic_image_size else 1
+    max_dynamic_patch = max_dynamic_patch if dynamic_image_size else 1
+
+    if use_thumbnail and max_dynamic_patch != 1:
+        max_dynamic_patch += 1
+
+    return min_dynamic_patch, max_dynamic_patch
+
+
+def get_h2ovl_target_ratios(
+    min_num: int,
+    max_num: int,
+    *,
+    prior_aspect_ratio: tuple[int, int] | None,
+) -> list[tuple[int, int]]:
+    target_ratios = get_internvl_target_ratios(min_num, max_num)
+
+    # if prior_aspect_ratio is provided, filter the target ratios
+    if prior_aspect_ratio is not None:
+        target_ratios = [
+            ratio
+            for ratio in target_ratios
+            if prior_aspect_ratio[0] % ratio[0] != 0
+            and prior_aspect_ratio[1] % ratio[1] != 0
+        ]
+
+    return target_ratios
+
+
+# modified to include blocks generated in second pass
+def calculate_h2ovl_targets(
+    *,
+    orig_width: int,
+    orig_height: int,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> tuple[int, int, int, tuple[int, int]]:
+    aspect_ratio = orig_width / orig_height
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio,
+        target_ratios,
+        width=orig_width,
+        height=orig_height,
+        image_size=image_size,
+    )
+
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+
+    # add thumbnail image if num_blocks != 1
+    if use_thumbnail and blocks != 1:
+        blocks += 1
+
+    return blocks, target_width, target_height, target_aspect_ratio
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+# refactored to handle prior_aspect_ratio
+def dynamic_preprocess_h2ovl(
+    image: Image.Image,
+    *,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> tuple[list[Image.Image], tuple[int, int]]:
+    orig_width, orig_height = image.size
+
+    # calculate the number of blocks without thumbnail
+    (
+        blocks,
+        target_width,
+        target_height,
+        target_aspect_ratio,
+    ) = calculate_h2ovl_targets(
+        orig_width=orig_width,
+        orig_height=orig_height,
+        target_ratios=target_ratios,
+        image_size=image_size,
+        use_thumbnail=False,
+    )
+
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+
+    assert len(processed_images) == blocks
+
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+
+    return processed_images, target_aspect_ratio
+
+
+def _preprocess_image(
+    image: Image.Image,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+    prior_aspect_ratio: tuple[int, int] | None,
+) -> tuple[torch.Tensor, tuple[int, int]]:
+    target_ratios = get_h2ovl_target_ratios(
+        min_num,
+        max_num,
+        prior_aspect_ratio=prior_aspect_ratio,
+    )
+
+    transform = build_transform(input_size=input_size)
+    images, target_aspect_ratio = dynamic_preprocess_h2ovl(
+        image,
+        image_size=input_size,
+        use_thumbnail=use_thumbnail,
+        target_ratios=target_ratios,
+    )
+
+    pixel_values = torch.stack([transform(image) for image in images])
+    return pixel_values, target_aspect_ratio
+
+
+# refactored to use the _preprocess_image function
+def image_to_pixel_values_h2ovl(
+    image: Image.Image,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+    use_msac: bool,
+) -> torch.Tensor:
+    # when MSAC is turned on, we need to process the image twice
+    if use_msac:
+        # first pass
+        pixel_values1, aspect_ratio1 = _preprocess_image(
+            image,
+            input_size=input_size,
+            min_num=1,
+            max_num=max_num,
+            use_thumbnail=True,
+            prior_aspect_ratio=None,
+        )
+        # second pass
+        pixel_values2, _ = _preprocess_image(
+            image,
+            input_size=input_size,
+            min_num=3,
+            max_num=max_num,
+            use_thumbnail=True,
+            prior_aspect_ratio=aspect_ratio1,
+        )
+        # combine pixel values
+        pixel_values = torch.cat(
+            [pixel_values2[:-1], pixel_values1[:-1], pixel_values2[-1:]], 0
+        )
+
+    else:
+        pixel_values, _ = _preprocess_image(
+            image,
+            input_size=input_size,
+            min_num=min_num,
+            max_num=max_num,
+            use_thumbnail=use_thumbnail,
+            prior_aspect_ratio=None,
+        )
+
+    return pixel_values
+
+
+class H2OVLProcessor(BaseInternVLProcessor):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_msac: bool | None = None,
+    ) -> None:
+        super().__init__(
+            config,
+            tokenizer,
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+        )
+
+        if use_msac is None:
+            use_msac = config.use_msac
+        assert isinstance(use_msac, bool)
+
+        self.use_msac = use_msac
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[IMG_CONTEXT]
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = IMG_CONTEXT * feature_size
+        repl_full = IMG_START + repl_features + IMG_END
+
+        return PromptUpdateDetails.select_text(repl_full, IMG_CONTEXT)
+
+    def resolve_min_max_num(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+    ) -> tuple[int, int]:
+        min_dynamic_patch = (
+            self.min_dynamic_patch if min_dynamic_patch is None else min_dynamic_patch
+        )
+        max_dynamic_patch = (
+            self.max_dynamic_patch if max_dynamic_patch is None else max_dynamic_patch
+        )
+        dynamic_image_size = (
+            self.dynamic_image_size
+            if dynamic_image_size is None
+            else dynamic_image_size
+        )
+        use_thumbnail = self.use_thumbnail if use_thumbnail is None else use_thumbnail
+
+        return resolve_h2ovl_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+    def resolve_target_ratios(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+        prior_aspect_ratio: tuple[int, int] | None = None,
+        override_min_num: int | None = None,
+    ) -> list[tuple[int, int]]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+        if override_min_num is not None:
+            min_num = override_min_num
+
+        return get_h2ovl_target_ratios(
+            min_num,
+            max_num,
+            prior_aspect_ratio=prior_aspect_ratio,
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        use_msac: bool | None = None,
+    ) -> int:
+        use_msac = self.use_msac if use_msac is None else use_msac
+
+        use_thumbnail = self.use_thumbnail
+
+        if use_msac:
+            target_ratios_1 = self.resolve_target_ratios(
+                use_thumbnail=False,  # Applied in calculate_targets
+                override_min_num=1,
+            )
+            num_patches_1, _, _, aspect_ratio_1 = calculate_h2ovl_targets(
+                orig_width=image_width,
+                orig_height=image_height,
+                image_size=self.image_size,
+                target_ratios=target_ratios_1,
+                use_thumbnail=True,
+            )
+
+            target_ratios_2 = self.resolve_target_ratios(
+                use_thumbnail=False,  # Applied in calculate_targets
+                prior_aspect_ratio=aspect_ratio_1,
+                override_min_num=3,
+            )
+            num_patches_2, _, _, _ = calculate_h2ovl_targets(
+                orig_width=image_width,
+                orig_height=image_height,
+                image_size=self.image_size,
+                target_ratios=target_ratios_2,
+                use_thumbnail=True,
+            )
+
+            num_patches = num_patches_1 + num_patches_2 - 1
+        else:
+            target_ratios = self.resolve_target_ratios(
+                use_thumbnail=False,  # Applied in calculate_targets
+            )
+            num_patches, _, _, _ = calculate_h2ovl_targets(
+                orig_width=image_width,
+                orig_height=image_height,
+                image_size=self.image_size,
+                target_ratios=target_ratios,
+                use_thumbnail=use_thumbnail,
+            )
+
+        return num_patches * self.num_image_token
+
+    def _images_to_pixel_values_lst(
+        self,
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        use_msac = self.use_msac if len(images) == 1 else False
+
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=False,  # Applied in image_to_pixel_values
+        )
+
+        return [
+            image_to_pixel_values_h2ovl(
+                image,
+                input_size=self.image_size,
+                min_num=min_num,
+                max_num=max_num,
+                use_thumbnail=self.use_thumbnail,
+                use_msac=use_msac,
+            )
+            for image in images
+        ]
+
+
+class H2OVLProcessingInfo(BaseInternVLProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> H2OVLProcessor:
+        return self.ctx.init_processor(
+            H2OVLProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: H2OVLProcessor | None,
+        use_msac: bool | None = None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return processor.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+            use_msac=use_msac,
+        )
+
+
+class H2OVLMultiModalProcessor(BaseInternVLMultiModalProcessor[H2OVLProcessingInfo]):
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "image_num_patches" in out_mm_data:
+            image_num_patches = out_mm_data["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        elif "image_embeds" in out_mm_data:
+            # TODO: Use image size information in dictionary embedding inputs
+            # to compute num_patches (similar to Qwen2-VL)
+            image_num_patches = [None] * len(out_mm_data["image_embeds"])
+        else:
+            image_num_patches = []
+
+        num_images = len(image_num_patches)
+
+        def get_replacement_internvl(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                feature_size = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                    use_msac=None if num_images == 1 else False,
+                )
+
+            num_patches = image_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            return hf_processor.get_image_repl(feature_size, num_patches)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target="<image>",
+                replacement=get_replacement_internvl,
+            )
+        ]
+
+    def _cached_apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        # The processor logic is different for len(images) <= 1 vs > 1
+        # Since the processing cache assumes that the processor output is
+        # invariant of how many images are passed per prompt, we only
+        # perform caching for the most common case
+        if mm_data_items.get_count("image", strict=False) > 1:
+            return self._apply_hf_processor(
+                prompt=prompt,
+                mm_data_items=mm_data_items,
+                hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+
+        return super()._cached_apply_hf_processor(
+            prompt=prompt,
+            mm_data_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    H2OVLMultiModalProcessor,
+    info=H2OVLProcessingInfo,
+    dummy_inputs=BaseInternVLDummyInputsBuilder,
+)
+class H2OVLChatModel(InternVLChatModel):
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        is_mono: bool,
+        prefix: str,
+    ):
+        if not is_mono:
+            vision_feature_layer = config.select_layer
+            if vision_feature_layer < 0:
+                num_hidden_layers = (
+                    config.vision_config.num_hidden_layers + vision_feature_layer + 1
+                )
+            else:
+                num_hidden_layers = vision_feature_layer + 1
+
+            return InternVisionModel(
+                config.vision_config,
+                quant_config=quant_config,
+                num_hidden_layers_override=num_hidden_layers,
+                prefix=prefix,
+            )
+        else:
+            msg = "Monolith mode is not applicable to H2OVL"
+            raise NotImplementedError(msg)
diff --git a/model_executor/models/hunyuan_v1.py b/model_executor/models/hunyuan_v1.py
new file mode 100644
index 0000000..1eadcbe
--- /dev/null
+++ b/model_executor/models/hunyuan_v1.py
@@ -0,0 +1,1053 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# coding=utf-8
+# Copyright 2024 The HunYuan team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only HunYuan model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import regex as re
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_layers,
+    maybe_prefix,
+)
+
+
+def _is_moe(config: PretrainedConfig) -> bool:
+    num_experts = getattr(config, "num_experts", None)
+    if isinstance(num_experts, int):
+        return num_experts > 1
+    if isinstance(num_experts, list) and num_experts:
+        # Ensure all elements are integers before calling max.
+        if all(isinstance(e, int) for e in num_experts):
+            return max(num_experts) > 1
+        else:
+            return False
+    return False
+
+
+def _get_cla_factor(config: PretrainedConfig) -> int:
+    if not getattr(config, "use_cla", False):
+        return 1
+    return getattr(config, "cla_share_factor", 1)
+
+
+class HunYuanMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+        reduce_results: bool = True,
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+            reduce_results=reduce_results,
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class HunYuanAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        layer_id: int = -1,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        if hasattr(config, "head_dim") and config.head_dim:
+            self.head_dim = config.head_dim
+        elif hasattr(config, "attention_head_dim"):
+            self.head_dim = config.attention_head_dim
+        else:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.use_qk_norm = getattr(config, "use_qk_norm", False)
+        self.layer_id = layer_id
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        if self.use_qk_norm:
+            self.query_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+            self.key_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        kv_states: tuple[torch.Tensor] | None = None,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        ori_k = k
+        if self.use_qk_norm:
+            q = self.query_layernorm(
+                q.view(-1, self.num_heads, self.head_dim).contiguous()
+            )
+            k = self.key_layernorm(
+                k.view(-1, self.num_kv_heads, self.head_dim).contiguous()
+            )
+
+        attn_output = self.attn(q, k, v)
+        # For o_proj
+        attn_output = attn_output.view(q.shape[0], -1)
+        output, _ = self.o_proj(attn_output)
+        return output, (ori_k, v)
+
+
+class HunYuanCrossAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        layer_id: int = -1,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        if hasattr(config, "head_dim"):
+            self.head_dim = config.head_dim
+        elif hasattr(config, "attention_head_dim"):
+            self.head_dim = config.attention_head_dim
+        else:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.use_qk_norm = getattr(config, "use_qk_norm", False)
+        self.layer_id = layer_id
+
+        self.q_proj = ColumnParallelLinear(
+            hidden_size,
+            hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            attn_type=AttentionType.ENCODER_DECODER,
+        )
+
+        if self.use_qk_norm:
+            self.query_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+            self.key_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        kv_states: tuple[torch.Tensor] | None = None,
+    ) -> torch.Tensor:
+        assert kv_states is not None
+        ori_k, v = kv_states  # use last layer kv,
+        k = ori_k
+        q, _ = self.q_proj(hidden_states)
+        k_tmp = torch.empty_like(k)  # Todo: reduant rotary embedding
+        q, _ = self.rotary_emb(positions, q, k_tmp)
+        if self.use_qk_norm:
+            q = self.query_layernorm(
+                q.view(-1, self.num_heads, self.head_dim).contiguous()
+            )
+            k = self.key_layernorm(
+                k.view(-1, self.num_kv_heads, self.head_dim).contiguous()
+            )
+
+        attn_output = self.attn(q, k, v)
+        # For o_proj
+        attn_output = attn_output.view(q.shape[0], -1)
+        output, _ = self.o_proj(attn_output)
+        return output, (ori_k, v)
+
+
+class HunYuanSparseMoeBlock(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        layer_id: int = -1,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts = config.num_experts
+
+        if self.tp_size > config.num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_experts}."
+            )
+
+        # Get layer_id topk if config.moe_topk is a list
+        if isinstance(config.moe_topk, list):
+            assert layer_id >= 0
+            assert len(config.moe_topk) > layer_id
+            top_k = config.moe_topk[layer_id]
+        else:
+            top_k = config.moe_topk
+
+        # If it is moe, moe_intermediate_size is preferred
+        intermediate_size = config.intermediate_size
+        if config.moe_intermediate_size is not None:
+            intermediate_size = (
+                config.moe_intermediate_size
+                if isinstance(config.moe_intermediate_size, int)
+                else config.moe_intermediate_size[layer_id]
+            )
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_logical_experts = self.n_routed_experts
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        if config.use_mixed_mlp_moe > 0:
+            # Get layer_id num_shared_expert if config.num_shared_expert is
+            # a list.
+            if isinstance(config.num_shared_expert, list):
+                assert layer_id >= 0
+                assert len(config.num_shared_expert) > layer_id
+                num_shared_expert = config.num_shared_expert[layer_id]
+            else:
+                num_shared_expert = config.num_shared_expert
+
+            self.shared_mlp = HunYuanMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size * num_shared_expert,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+            )
+        else:
+            self.shared_mlp = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_mlp,
+            num_experts=self.n_routed_experts,
+            top_k=top_k,
+            hidden_size=config.hidden_size,
+            intermediate_size=intermediate_size,
+            reduce_results=False,
+            renormalize=top_k > 1,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+        if self.shared_mlp is not None:
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(orig_shape)
+
+
+class HunYuanDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        layer_id: int = -1,
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        assert layer_id >= 0
+        self.layer_id = layer_id
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = (
+            config.intermediate_size
+            if isinstance(config.intermediate_size, int)
+            else config.intermediate_size[layer_id]
+        )
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        cla_factor = _get_cla_factor(config)
+        attention_type = (
+            AttentionType.ENCODER_DECODER
+            if layer_id >= 0 and layer_id % cla_factor != 0
+            else AttentionType.DECODER
+        )
+        if attention_type == AttentionType.DECODER:
+            self.self_attn = HunYuanAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                num_kv_heads=getattr(
+                    config, "num_key_value_heads", config.num_attention_heads
+                ),
+                rope_theta=rope_theta,
+                rope_scaling=rope_scaling,
+                max_position_embeddings=max_position_embeddings,
+                quant_config=quant_config,
+                bias=attention_bias,
+                cache_config=cache_config,
+                prefix=f"{prefix}.self_attn",
+                layer_id=layer_id,
+            )
+        elif attention_type == AttentionType.ENCODER_DECODER:
+            self.self_attn = HunYuanCrossAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                num_kv_heads=getattr(
+                    config, "num_key_value_heads", config.num_attention_heads
+                ),
+                rope_theta=rope_theta,
+                rope_scaling=rope_scaling,
+                max_position_embeddings=max_position_embeddings,
+                quant_config=quant_config,
+                bias=attention_bias,
+                cache_config=cache_config,
+                prefix=f"{prefix}.self_attn",
+                layer_id=layer_id,
+            )
+        else:
+            raise RuntimeError(f"Unsupported attention type: {attention_type}")
+
+        if _is_moe(config):
+            self.mlp = HunYuanSparseMoeBlock(
+                config=config,
+                quant_config=quant_config,
+                layer_id=layer_id,
+                prefix=f"{prefix}.mlp",
+                enable_eplb=enable_eplb,
+            )
+        else:
+            self.mlp = HunYuanMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=self.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                bias=getattr(config, "mlp_bias", False),
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        kv_states: tuple[torch.Tensor] | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states, ori_kv_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+            kv_states=kv_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual, ori_kv_states
+
+
+@support_torch_compile
+class HunYuanModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        eplb_config = vllm_config.parallel_config.eplb_config
+        enable_eplb = vllm_config.parallel_config.enable_eplb
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.config = config
+        self.quant_config = quant_config
+        self.padding_idx = config.pad_token_id
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: HunYuanDecoderLayer(
+                config=config,
+                layer_id=int(prefix.split(".")[-1]),
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        cla_factor = _get_cla_factor(self.config)
+        prev_kv_states = None
+        for i, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            hidden_states, residual, kv_states = layer(
+                positions,
+                hidden_states,
+                residual,
+                prev_kv_states,
+            )
+
+            if getattr(self.config, "use_cla", False) and i % cla_factor == 0:
+                prev_kv_states = kv_states
+            else:
+                prev_kv_states = None
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def _split_qkv_weight(self, qkv: torch.Tensor):
+        num_attention_heads = self.config.num_attention_heads
+        num_kv_heads = getattr(
+            self.config, "num_key_value_heads", self.config.num_attention_heads
+        )
+        num_key_value_groups = num_attention_heads // num_kv_heads
+        hidden_size = self.config.hidden_size
+
+        if hasattr(self.config, "head_dim"):
+            attention_head_dim = self.config.head_dim
+        elif hasattr(self.config, "attention_head_dim"):
+            attention_head_dim = self.config.attention_head_dim
+        else:
+            attention_head_dim = self.config.hidden_size // num_attention_heads
+
+        qkv = qkv.reshape(
+            num_kv_heads, num_key_value_groups + 2, attention_head_dim, hidden_size
+        )
+        q, k, v = torch.split(qkv, (num_key_value_groups, 1, 1), dim=1)
+        q = q.reshape(-1, hidden_size)
+        k = k.reshape(-1, hidden_size)
+        v = v.reshape(-1, hidden_size)
+        return torch.concat((q, k, v))
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        if _is_moe(self.config):
+            # Params for weights, fp8 weight scales, fp8 activation scales
+            # (param_name, weight_name, expert_id, shard_id)
+            return SharedFusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=self.config.num_experts,
+                num_redundant_experts=self.num_redundant_experts,
+            )
+        else:
+            return []
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        cla_factor = _get_cla_factor(self.config)
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+
+        num_attention_heads = self.config.num_attention_heads
+        num_kv_heads = getattr(
+            self.config, "num_key_value_heads", self.config.num_attention_heads
+        )
+        split_params_mapping = [
+            (".gate_up_proj", ".gate_and_up_proj", 2, [(1, 1), (0, 1)], None),
+            (
+                ".qkv_proj",
+                ".qkv_proj",
+                num_attention_heads + num_kv_heads * 2,
+                [("q", num_attention_heads), ("k", num_kv_heads), ("v", num_kv_heads)],
+                self._split_qkv_weight,
+            ),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "gate_proj_bias" in name:
+                name = name.replace("gate_proj_bias", "gate_proj.bias")
+            if "up_proj_bias" in name:
+                name = name.replace("up_proj_bias", "up_proj.bias")
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            # With tie_word_embeddings, we can skip lm_head.weight
+            # The weight might appear unnecessarily in the files if the model is
+            # processed with quantization, LoRA, fine-tuning, etc.
+            if self.config.tie_word_embeddings and "lm_head.weight" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache scales for compressed-tensors quantization
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = loaded_weight[0]
+                weight_loader(param, loaded_weight)
+                continue
+
+            is_found = False
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "mlp.experts" in name:
+                    continue
+                # cross layer only have q_proj, skip qkv pack
+                if weight_name == ".q_proj":
+                    match = re.search(r"layers\.\d+", name)
+                    if match:
+                        layer_id = int(match.group(0).split(".")[-1])
+                        if cla_factor > 1 and layer_id % cla_factor != 0:
+                            continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
+                is_found = True
+                break
+            if is_found:
+                continue
+
+            for (
+                param_name,
+                weight_name,
+                den,
+                split_param,
+                func,
+            ) in split_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                assert loaded_weight.shape[0] % den == 0
+                units = loaded_weight.shape[0] // den
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                offset = 0
+                for shard_id, num in split_param:
+                    new_offset = offset + num * units
+                    if func:
+                        weight_loader(
+                            param, func(loaded_weight)[offset:new_offset], shard_id
+                        )
+                    else:
+                        weight_loader(param, loaded_weight[offset:new_offset], shard_id)
+                    offset = new_offset
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    # this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    if "mlp.gate.wg." in name:
+                        name = name.replace("wg.", "")
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class HunyuanV1ModelBase(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.model = HunYuanModel(vllm_config=vllm_config, prefix="model")
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+                "residual": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+
+class HunYuanMoEV1Base(HunyuanV1ModelBase, MixtureOfExperts):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        # Set MoE hyperparameters
+        self.expert_weights = []
+        self.num_expert_groups = 1
+        self.moe_layers = []
+        example_layer = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, HunYuanDecoderLayer)
+            if isinstance(layer.mlp, HunYuanSparseMoeBlock):
+                example_layer = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_layer is None:
+            raise RuntimeError("No HunYuanMoE layer found in model.layers.")
+
+        self.num_moe_layers = len(self.moe_layers)
+        self.num_logical_experts = example_layer.n_logical_experts
+        self.num_physical_experts = example_layer.n_physical_experts
+        self.num_local_physical_experts = example_layer.n_local_physical_experts
+        self.num_routed_experts = example_layer.n_routed_experts
+        self.num_redundant_experts = example_layer.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, HunYuanSparseMoeBlock):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+class HunYuanDenseV1Base(HunyuanV1ModelBase):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+
+class HunYuanDenseV1ForCausalLM(HunYuanDenseV1Base):
+    pass
+
+
+class HunYuanMoEV1ForCausalLM(HunYuanMoEV1Base):
+    pass
diff --git a/model_executor/models/hyperclovax_vision.py b/model_executor/models/hyperclovax_vision.py
new file mode 100644
index 0000000..db46353
--- /dev/null
+++ b/model_executor/models/hyperclovax_vision.py
@@ -0,0 +1,1166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# copied from : https://github.com/huggingface/transformers
+import ast
+from collections import defaultdict
+from collections.abc import Iterable, Mapping, Sequence
+from functools import partial
+from itertools import accumulate
+from typing import Annotated, Any, Literal
+
+import numpy as np
+import torch
+import torch.nn as nn
+from einops import rearrange
+from timm.layers import LayerNorm, LayerNorm2d
+from timm.models.regnet import RegStage
+from transformers import BatchFeature, CLIPVisionConfig, SiglipVisionConfig
+from transformers.modeling_utils import no_init_weights
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    flatten_bn,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_vision_encoder_info
+
+EOT = "<|endofturn|>"
+IMAGE_TOKEN: str = "<|dummy3|>"
+VIDEO_TOKEN: str = "<|_unuse_missing_100270|>"
+
+
+# Based on combine_frames_into_images in
+# https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B/blob/main/processing_hyperclovax.py
+def get_num_combined_frames(
+    num_frames: int,
+    max_grid_shape: tuple[int, int] = (3, 3),
+) -> int:
+    max_num_grids = max_grid_shape[0] * max_grid_shape[1]
+
+    # Calculate the number of canvases needed.
+    num_canvases = num_frames // max_num_grids
+    leftover_frames = num_frames % max_num_grids
+
+    return num_canvases + (leftover_frames > 0)
+
+
+class HCXVisionImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of images
+        - g: Number of grids
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values_images: Annotated[
+        list[torch.Tensor], TensorShape("n", "g", 3, "h", "w", dynamic_dims={"g"})
+    ]
+    image_sizes_images: Annotated[torch.Tensor, TensorShape("n", 2)]
+
+
+HCXVisionImageInputs = HCXVisionImagePixelInputs
+
+
+class HCXVisionVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of videos
+        - f: Number of frames
+        - g: Number of grids
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values_videos"] = "pixel_values_videos"
+    pixel_values_videos: Annotated[
+        list[list[torch.Tensor]],
+        TensorShape("n", "f", "g", 3, "h", "w", dynamic_dims={"f", "g"}),
+    ]
+
+
+HCXVisionVideoInputs = HCXVisionVideoPixelInputs
+
+
+class HCXVisionProcessingInfo(BaseProcessingInfo):
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        vision_query_length: int | list[int],
+    ) -> int:
+        if isinstance(vision_query_length, int):
+            return vision_query_length
+        else:
+            return sum(vision_query_length)
+
+    def get_num_video_tokens(
+        self,
+        *,
+        vision_query_length: int | list[int],
+    ) -> int:
+        if isinstance(vision_query_length, int):
+            return vision_query_length
+        else:
+            return sum(vision_query_length)
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+
+class HCXVisionDummyInputsBuilder(BaseDummyInputsBuilder[HCXVisionProcessingInfo]):
+    def get_dummy_text(
+        self,
+        mm_counts: Mapping[str, int],
+    ) -> str:
+        dummy_text = IMAGE_TOKEN * mm_counts.get(
+            "image", 0
+        ) + VIDEO_TOKEN * mm_counts.get("video", 0)
+        return dummy_text
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = 32
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width - 1,
+                height=target_height - 1,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+
+class HCXVisionMultiModalProcessor(BaseMultiModalProcessor[HCXVisionProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        for video_idx, video_arr in enumerate(mm_data.get("videos", [])):
+            if video_arr.dtype != np.uint8:
+                mm_data["videos"][video_idx] = video_arr.astype(np.uint8)
+
+        processed_outputs = self.info.ctx.call_hf_processor(
+            hf_processor=self.info.get_hf_processor(**mm_kwargs),
+            data=dict(
+                text=prompt,
+                images=None,
+                videos=None,
+            ),
+        )  # text-only
+
+        if len(mm_data) > 0:
+            images = mm_data.get("images")
+            videos = mm_data.get("videos")
+
+            # batchify input as a single item
+            _processed_outputs = self.info.ctx.call_hf_processor(
+                hf_processor=self.info.get_hf_processor(**mm_kwargs),
+                data=dict(
+                    text=None,
+                    images=None if images is None else [images],
+                    videos=None if videos is None else [videos],
+                ),
+            )  # mm-only
+
+            for k, v in _processed_outputs.items():
+                if isinstance(v, list) and len(v) > 0:
+                    assert len(v) == 1
+                    _processed_outputs[k] = v[0]
+
+            if images:
+                _processed_outputs["image_sizes_images"] = torch.tensor(
+                    _processed_outputs["image_sizes_images"]
+                )
+                _processed_outputs["vision_query_lengths_images"] = torch.tensor(
+                    _processed_outputs["vision_query_lengths_images"]
+                )
+
+            if videos:
+                _idx_per_video = [
+                    0,
+                    *accumulate(
+                        get_num_combined_frames(len(video)) for video in videos
+                    ),
+                ]
+                _processed_outputs["pixel_values_videos"] = [
+                    _processed_outputs["pixel_values_videos"][
+                        _idx_per_video[i] : _idx_per_video[i + 1]
+                    ]
+                    for i in range(len(videos))
+                ]
+                _processed_outputs["vision_query_lengths_videos"] = [
+                    torch.tensor(
+                        _processed_outputs["vision_query_lengths_videos"][
+                            _idx_per_video[i] : _idx_per_video[i + 1]
+                        ]
+                    )
+                    for i in range(len(videos))
+                ]
+
+            processed_outputs.update(_processed_outputs)
+
+        return processed_outputs
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        placeholder = {
+            "image": hf_config.image_token_id,
+            "video": hf_config.video_token_id,
+        }
+
+        def get_replacement_hyperclovax(
+            item_idx: int,
+            modality: str,
+            out_mm_kwargs: MultiModalKwargsItems,
+        ):
+            out_item = out_mm_kwargs[modality][item_idx]
+
+            if modality == "image":
+                lens = out_item["vision_query_lengths_images"].data.tolist()
+                num_tokens = self.info.get_num_image_tokens(vision_query_length=lens)
+            elif modality == "video":
+                lens = out_item["vision_query_lengths_videos"].data.tolist()
+                num_tokens = self.info.get_num_video_tokens(vision_query_length=lens)
+            else:
+                raise NotImplementedError(modality)
+
+            return [placeholder[modality]] * num_tokens
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=[
+                    placeholder[modality],
+                ],
+                replacement=partial(
+                    get_replacement_hyperclovax,
+                    modality=modality,
+                    out_mm_kwargs=out_mm_kwargs,
+                ),
+            )
+            for modality in ("image", "video")
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values_images=MultiModalFieldConfig.batched("image"),
+            image_sizes_images=MultiModalFieldConfig.batched("image"),
+            vision_query_lengths_images=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.batched("video"),
+            vision_query_lengths_videos=MultiModalFieldConfig.batched("video"),
+        )
+
+
+def _build_hcxvision_hf_info(
+    ctx: InputProcessingContext,
+) -> HCXVisionProcessingInfo:
+    return HCXVisionProcessingInfo(ctx)
+
+
+def _build_hcxvision_hf_processor(
+    info: HCXVisionProcessingInfo,
+    dummy_inputs: BaseDummyInputsBuilder[HCXVisionProcessingInfo],
+    *,
+    cache: BaseMultiModalProcessorCache | None = None,
+) -> BaseMultiModalProcessor:
+    if isinstance(info, HCXVisionProcessingInfo):
+        return HCXVisionMultiModalProcessor(
+            info,
+            dummy_inputs,  # type: ignore
+            cache=cache,
+        )
+
+    raise NotImplementedError(type(info))
+
+
+def init_vision_tower_for_hcxvision(
+    vision_config,
+    quant_config: QuantizationConfig | None,
+    *,
+    use_nth_layer: int | None = None,
+    require_post_norm: bool | None = None,
+    prefix: str = "",
+) -> CLIPVisionModel | SiglipVisionModel:
+    num_hidden_layers = vision_config.num_hidden_layers
+    if not isinstance(use_nth_layer, int):
+        pass
+    elif use_nth_layer >= 0:
+        num_hidden_layers = use_nth_layer + 1
+    else:
+        num_hidden_layers = num_hidden_layers + use_nth_layer + 1
+
+    if isinstance(vision_config, CLIPVisionConfig):
+        return CLIPVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+    elif isinstance(vision_config, SiglipVisionConfig):
+        return SiglipVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+
+    msg = f"Unsupported vision config: {type(vision_config)}"
+    raise NotImplementedError(msg)
+
+
+class HCXVisionMlp(nn.Module):
+    def __init__(
+        self,
+        mm_projector_type,
+        in_features,
+        hidden_features=None,
+        out_features=None,
+        act_layer=nn.GELU,
+    ):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+        self.mm_projector_type = mm_projector_type
+        if self.mm_projector_type == "mlp":
+            self.fc1 = nn.Linear(in_features, hidden_features)
+            self.act = act_layer()
+            self.fc2 = nn.Linear(hidden_features, out_features)
+        elif self.mm_projector_type == "inverted_mlp":
+            self.fc1 = nn.Linear(in_features, 2 * hidden_features)
+            self.act = act_layer()
+            self.fc2 = nn.Linear(2 * hidden_features, out_features)
+        else:
+            raise NotImplementedError(
+                "{} is not implemented".format(self.mm_projector_type)
+            )
+
+    def forward(self, x):
+        x = self.fc1(x)
+        x = self.act(x)
+        x = self.fc2(x)
+        return x
+
+
+class HCXVisionCAbstractor(nn.Module):
+    """
+    This module is based on C-Abstractor, whose license is under apache-2.0.
+    You can check the original code at
+    https://github.com/khanrc/honeybee/blob/main/honeybee/projectors/projectors.py
+    and we made necessary modifications.
+    """
+
+    def __init__(
+        self,
+        num_queries: int,
+        num_input_tokens: int,
+        encoder_hidden_size: int,
+        hidden_size: int,
+        output_hidden_size: int,
+        pos_emb: bool = True,
+        prenorm: bool = False,
+    ):
+        super().__init__()
+        self.num_input_tokens = num_input_tokens
+        self.output_hidden_size = output_hidden_size
+
+        # Positional embedding
+        if pos_emb:
+            self.pos_emb = torch.nn.Parameter(
+                torch.zeros(1, num_input_tokens, encoder_hidden_size)
+            )
+            self.pos_emb.data.normal_(mean=0.0, std=0.02)
+        else:
+            self.pos_emb = None
+
+        # (Optional) Pre-normalization layer
+        if prenorm:
+            self.prenorm = LayerNorm(encoder_hidden_size)
+        else:
+            self.prenorm = None
+
+        self.build_net(
+            num_queries, encoder_hidden_size, hidden_size, output_hidden_size
+        )
+        self.dtype = next(self.parameters()).dtype
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        num_queries_vis_abstractors: list[list[int]] | None = None,
+        num_grids: list[int] | None = None,
+    ) -> torch.Tensor:
+        if self.prenorm is not None:
+            x = self.prenorm(x)
+
+        if self.pos_emb is not None:
+            x = x + self.pos_emb
+
+        x = self._forward(
+            x,
+            num_queries_vis_abstractors=num_queries_vis_abstractors,
+            num_grids=num_grids,
+        )  # (B, L, output_hidden_size)
+
+        return x
+
+    def _forward(
+        self,
+        x: torch.Tensor,
+        num_queries_vis_abstractors: list[list[int]] | None = None,
+        num_grids: list[int] | None = None,
+    ) -> torch.Tensor:
+        # x: [B, L, dim]
+        B, L, dim = x.shape
+        hw = int(L**0.5)
+        x = rearrange(x, "b (h w) d -> b d h w", h=hw, w=hw)
+
+        if num_queries_vis_abstractors is not None:
+            assert num_grids is not None
+            return self._forward_adaptive_num_query(
+                x, num_queries_vis_abstractors, num_grids
+            )
+
+        x = self.net(x)
+        x = rearrange(x, "b d h w -> b (h w) d")
+        x = self.readout(x)
+        return x
+
+    def _forward_adaptive_num_query(
+        self,
+        x: torch.Tensor,
+        num_queries_vis_abstractors: list[list[int]] | None = None,
+        num_grids: list[int] | None = None,
+    ) -> list[torch.Tensor]:
+        # self.net is consisted by 3 layers (s1, sampler, s2)
+        assert len(self.net) == 3
+
+        x = self.net[0](x)  # s1
+        new_x = []
+        for i, num_queries in enumerate(num_queries_vis_abstractors):
+            hw = int(num_queries**0.5)
+            sampler = nn.AdaptiveAvgPool2d((hw, hw))
+            out = sampler(x[num_grids[i] : num_grids[i + 1], :])
+            out = self.net[2](out)  # s2
+
+            out = rearrange(out, "b d h w -> b (h w) d")
+            out = self.readout(out)
+
+            new_x.append(out)
+        return new_x
+
+    def build_net(
+        self,
+        n_queries: int,
+        encoder_hidden_size: int,
+        hidden_size: int,
+        output_hidden_size: int,
+        depth: int = 3,
+        mlp_depth: int = 2,
+    ):
+        assert (n_queries**0.5).is_integer(), (
+            f"n_queries must be square number. n_queries: {n_queries}"
+        )
+        hw = int(n_queries**0.5)
+
+        # RegBlock = ResBlock + SE
+        RegBlock = partial(
+            RegStage,
+            stride=1,
+            dilation=1,
+            act_layer=nn.SiLU,
+            norm_layer=LayerNorm2d,
+        )
+
+        s1 = RegBlock(
+            depth,
+            encoder_hidden_size,
+            hidden_size,
+        )
+        sampler = nn.AdaptiveAvgPool2d((hw, hw))
+        s2 = RegBlock(
+            depth,
+            hidden_size,
+            hidden_size,
+        )
+
+        self.net = nn.Sequential(s1, sampler, s2)
+        self.readout = self.build_mlp(mlp_depth, hidden_size, output_hidden_size)
+
+    def build_mlp(
+        self,
+        depth: int,
+        hidden_size: int,
+        output_hidden_size: int,
+    ):
+        layers = [nn.Linear(hidden_size, output_hidden_size)]
+        for _ in range(1, depth):
+            layers.append(nn.SiLU())
+            layers.append(nn.Linear(output_hidden_size, output_hidden_size))
+        return nn.Sequential(*layers)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    _build_hcxvision_hf_processor,
+    info=_build_hcxvision_hf_info,
+    dummy_inputs=HCXVisionDummyInputsBuilder,
+)
+class HCXVisionForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        **kwargs: Any | None,
+    ) -> None:
+        super().__init__()
+
+        # init configs
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        # text_config
+        text_config = config.text_config
+        if text_config.model_type in ["gpt2", "hyperclovax", "llama"]:
+            text_config._attn_implementation = "sdpa"
+        if text_config.model_type != "hyperclovax":
+            text_config.logits_scaling = 1.0
+        # vision_config
+        vision_config = config.vision_config
+        vision_config.auto_map = {}
+        vision_config.anyres = config.anyres
+        vision_config.max_num_grids = config.max_num_grids
+        self.dtype = vllm_config.model_config.dtype
+
+        ## possible_resolution should be matched with preprocessor_config.json
+        config.possible_resolutions = self._init_possible_resolutions(
+            config, vision_config
+        )
+
+        # init models & parameters
+        with no_init_weights():  # weight will be loaded in from_pretrained
+            self.vision_model = init_vision_tower_for_hcxvision(
+                vision_config,
+                quant_config,
+                use_nth_layer=getattr(config, "use_nth_layer", -1),
+                require_post_norm=False,
+                prefix=maybe_prefix(prefix, "vision_model"),
+            )
+        self.mm_projector = self._init_mm_projector(config, text_config, vision_config)
+
+        self.lm_head_vocab_size = getattr(
+            text_config, "padded_vocab_size", text_config.vocab_size
+        )
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        if config.anyres:
+            self.image_newline = nn.Parameter(
+                torch.empty(text_config.hidden_size, dtype=self.dtype)
+            )
+
+        self.config = config
+        self.vision_config = vision_config
+        self.text_config = text_config
+
+        # use_sum_loss = bool(kwargs.pop("use_sum_loss", False))
+        # self.reduction = self._init_reduction_type(use_sum_loss)
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return IMAGE_TOKEN
+        if modality.startswith("video"):
+            return VIDEO_TOKEN
+
+        raise ValueError("Only image or video modality is supported")
+
+    def _parse_and_validate_image_input(
+        self,
+        **kwargs: object,
+    ) -> HCXVisionImageInputs | None:
+        pixel_values_images = kwargs.pop("pixel_values_images", None)
+
+        if pixel_values_images is None:
+            return None
+
+        image_sizes_images = kwargs.pop("image_sizes_images")
+
+        return HCXVisionImagePixelInputs(
+            pixel_values_images=pixel_values_images,
+            image_sizes_images=image_sizes_images,
+        )
+
+    def _parse_and_validate_video_input(
+        self,
+        **kwargs: object,
+    ) -> HCXVisionVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+
+        if pixel_values_videos is None:
+            return None
+
+        return HCXVisionVideoPixelInputs(
+            pixel_values_videos=pixel_values_videos,
+        )
+
+    def _process_image_input(
+        self,
+        image_input: HCXVisionImageInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        return self.forward_images(
+            pixel_values_images=image_input["pixel_values_images"],
+            image_sizes_images=image_input["image_sizes_images"],
+        )
+
+    def _process_video_input(
+        self,
+        video_input: HCXVisionVideoInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        return self.forward_videos(
+            pixel_values_videos=video_input["pixel_values_videos"],
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if input_key == "pixel_values_images" and "images" not in modalities:
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if input_key == "pixel_values_videos" and "videos" not in modalities:
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(
+        self,
+        **kwargs: object,
+    ) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_video_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def forward_images(
+        self,
+        pixel_values_images: list[torch.Tensor],
+        image_sizes_images: torch.Tensor,
+    ) -> tuple[torch.Tensor, ...]:
+        pixel_values_image_flat = flatten_bn(pixel_values_images, concat=True)
+
+        visual_token_idx = 0 if "siglip" in self.vision_config.model_type else 1
+        image_forward_outs = self.vision_model(pixel_values_image_flat)[
+            :, visual_token_idx:
+        ]
+
+        image_forward_outs = image_forward_outs.to(dtype=self.mm_projector.dtype)
+        image_forward_outs = self.mm_projector(image_forward_outs)  # b (h w) d
+
+        split_sizes = [len(item) for item in pixel_values_images]
+        image_forward_outs = torch.split(image_forward_outs, split_sizes, dim=0)
+
+        # newline for anyres postprocessing
+        image_features = anyres_postprocessing(
+            image_forward_outs=image_forward_outs,
+            image_sizes=image_sizes_images.tolist(),
+            num_queries_vis_abstractor=self.config.num_queries_vis_abstractor_image,
+            unpad=self.config.unpad,
+            patch_size=self.vision_config.patch_size,
+            grid_size=self.vision_config.image_size,
+            image_newline=self.image_newline,
+            possible_resolutions=self.config.possible_resolutions,
+        )
+
+        return tuple(image_features)
+
+    def forward_videos(
+        self,
+        pixel_values_videos: list[list[torch.Tensor]],
+    ) -> tuple[torch.Tensor, ...]:
+        pixel_values_videos_flat = flatten_bn(
+            [frame for frames in pixel_values_videos for frame in frames],
+            concat=True,
+        )
+
+        visual_token_idx = 0 if "siglip" in self.vision_config.model_type else 1
+        video_forward_outs = self.vision_model(pixel_values_videos_flat)[
+            :, visual_token_idx:
+        ]
+
+        video_forward_outs = video_forward_outs.to(dtype=self.mm_projector.dtype)
+
+        # Run MM-Projector
+        # len(num_grids) == len(num_queries_vis_abstractors) + 1
+        grid_idx = 0
+        # e.g. [0, 9, 18, 19, 27, 28, 36, 37, 45, 46, 54, 55, 56]
+        num_grids = [grid_idx]
+        # e.g. [81, 81, 81, 9, 81, 9, 81, 9, 81, 9, 81, 9]
+        num_queries_vis_abstractors = []
+        len_total_frames = video_forward_outs.shape[0]
+
+        if self.config.first_last_frames_slow:
+            # slowfast (first_last_frames_slow)
+            assert len_total_frames != 0
+            if len_total_frames <= 2:
+                num_queries_vis_abstractors.append(
+                    self.config.num_queries_vis_abstractor_video_slow
+                )
+                grid_idx += len_total_frames
+                num_grids.append(grid_idx)
+            else:
+                num_queries_vis_abstractors.append(
+                    self.config.num_queries_vis_abstractor_video_slow
+                )
+                grid_idx += 1
+                num_grids.append(grid_idx)
+
+                num_queries_vis_abstractors.append(
+                    self.config.num_queries_vis_abstractor_video_fast
+                )
+                grid_idx += len_total_frames - 2
+                num_grids.append(grid_idx)
+
+                num_queries_vis_abstractors.append(
+                    self.config.num_queries_vis_abstractor_video_slow
+                )
+                grid_idx += 1
+                num_grids.append(grid_idx)
+        else:
+            # slowfast
+            for pixel_values_frames in pixel_values_videos:
+                for pixel_values_frame in pixel_values_frames:
+                    if len(pixel_values_frame) > 0:
+                        num_queries_vis_abstractors.append(
+                            self.config.num_queries_vis_abstractor_video_slow
+                        )
+                        grid_idx += 1
+                        num_grids.append(grid_idx)
+                        num_queries_vis_abstractors.append(
+                            self.config.num_queries_vis_abstractor_video_fast
+                        )
+                        grid_idx = grid_idx + len(pixel_values_frame) - 1
+                        num_grids.append(grid_idx)
+
+        video_forward_outs = self.mm_projector(
+            video_forward_outs, num_queries_vis_abstractors, num_grids
+        )
+
+        video_features = []  # what we want to return
+        target_features = []
+        target_group_size = 0
+        group_counter = 0
+        video_groups = [
+            len(frame) for frames in pixel_values_videos for frame in frames
+        ]  # for concat video features after projector
+
+        for forward_out in video_forward_outs:
+            target_group_size += len(forward_out)
+            target_features.append(forward_out.flatten(0, 1))
+
+            video_group_size = video_groups[group_counter]
+            if video_group_size == target_group_size:
+                video_features.append(torch.cat(target_features, dim=0))
+                target_features = []
+                group_counter += 1
+                target_group_size = 0
+
+            elif video_group_size < target_group_size:
+                raise RuntimeError(f"{video_group_size=} < {target_group_size=}")
+
+        assert len(target_features) == 0, (
+            f"target_features is not empty!! {target_features}"
+        )
+        assert len(video_groups) == len(video_features)
+
+        feats_per_video = [len(video) for video in pixel_values_videos]
+        idxs_per_video = [0, *accumulate(feats_per_video)]
+        return tuple(
+            torch.cat(video_features[idxs_per_video[i] : idxs_per_video[i + 1]])
+            for i in range(len(feats_per_video))
+        )
+
+    def _prepare_multimodal_kwargs(self, **kwargs: object):
+        output = defaultdict(list)
+        for k, v in kwargs.items():
+            if len(v) < 1 or len(v[0]) < 1:
+                continue  # if empty batch of empty sample
+
+            new_k, is_video = k, False
+            if not k.endswith("_images") and not k.endswith("_videos"):
+                pass
+            else:
+                new_k, is_video = k.split("_")[:-1], k.split("_")[-1]
+                new_k = "_".join(new_k)
+                is_video = is_video == "videos"
+
+            for _sample_idx, _v in enumerate(v):  # batch -> sample
+                if new_k not in ["pixel_values"]:
+                    if len(output[new_k]) < _sample_idx + 1:
+                        output[new_k].append(list())
+                    _v = _v.detach().cpu().numpy().tolist()
+                    output[new_k][_sample_idx] += _v
+                elif isinstance(_v, torch.Tensor):
+                    if len(output[new_k]) < _sample_idx + 1:
+                        output[new_k].append(list())
+                        output["is_videos"].append(list())
+                    _v = list(torch.unbind(_v, dim=0))
+                    output[new_k][_sample_idx] += _v
+                    output["is_videos"][_sample_idx] += [
+                        is_video,
+                    ] * len(_v)
+        return dict(output)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def _init_possible_resolutions(
+        self,
+        config,
+        vision_config,
+    ):
+        if not getattr(config, "possible_resolutions", []):
+            possible_resolutions = []
+            if config.anyres:
+                assert config.max_num_grids > 0
+                for i in range(1, config.max_num_grids + 1):
+                    for j in range(1, config.max_num_grids + 1):
+                        if i == 1 and j == 1 and not config.use_1x1_grid:
+                            continue
+                        if i * j <= config.max_num_grids:
+                            possible_resolutions.append([i, j])
+
+                possible_resolutions = [
+                    [ys * vision_config.image_size, xs * vision_config.image_size]
+                    for ys, xs in possible_resolutions
+                ]
+            return possible_resolutions
+        else:
+            return config.possible_resolutions
+
+    def _init_mm_projector(
+        self,
+        config,
+        text_config,
+        vision_config,
+    ):
+        input_hidden_size = vision_config.hidden_size
+        if config.mm_projector_type == "linear":
+            mm_projector = nn.Linear(input_hidden_size, text_config.hidden_size)
+            mm_projector.dtype = next(mm_projector.parameters()).dtype
+        elif config.mm_projector_type == "cabstractor":
+            mm_projector = HCXVisionCAbstractor(
+                num_queries=config.num_queries_vis_abstractor_image,
+                num_input_tokens=(vision_config.image_size // vision_config.patch_size)
+                ** 2,
+                encoder_hidden_size=input_hidden_size,
+                hidden_size=input_hidden_size,
+                output_hidden_size=text_config.hidden_size,
+                pos_emb=config.proj_pos_emb,
+                prenorm=config.proj_prenorm,
+            )
+        else:
+            mm_projector = HCXVisionMlp(
+                config.mm_projector_type,
+                input_hidden_size,
+                hidden_features=input_hidden_size,
+                out_features=self.text_config.hidden_size,
+            )
+        return mm_projector
+
+
+def unpad_image(tensor: torch.Tensor, original_size: tuple[int, int]) -> torch.Tensor:
+    original_width, original_height = original_size
+    current_height, current_width = tensor.shape[1:]
+
+    original_aspect_ratio = original_width / original_height
+    current_aspect_ratio = current_width / current_height
+
+    if original_aspect_ratio > current_aspect_ratio:
+        scale_factor = current_width / original_width
+        new_height = int(original_height * scale_factor)
+        padding = (current_height - new_height) // 2
+        unpadded_tensor = tensor[:, padding : current_height - padding, :]
+    else:
+        scale_factor = current_height / original_height
+        new_width = int(original_width * scale_factor)
+        padding = (current_width - new_width) // 2
+        unpadded_tensor = tensor[:, :, padding : current_width - padding]
+
+    return unpadded_tensor
+
+
+def select_best_resolution(original_size: tuple, possible_resolutions: list) -> tuple:
+    original_height, original_width = original_size
+    best_fit = None
+    max_effective_resolution = 0
+    min_wasted_resolution = float("inf")
+
+    for height, width in possible_resolutions:
+        scale = min(width / original_width, height / original_height)
+        downscaled_width, downscaled_height = (
+            int(original_width * scale),
+            int(original_height * scale),
+        )
+        effective_resolution = min(
+            downscaled_width * downscaled_height, original_width * original_height
+        )
+        wasted_resolution = (width * height) - effective_resolution
+
+        if effective_resolution > max_effective_resolution or (
+            effective_resolution == max_effective_resolution
+            and wasted_resolution < min_wasted_resolution
+        ):
+            max_effective_resolution = effective_resolution
+            min_wasted_resolution = wasted_resolution
+            best_fit = (height, width)
+
+    return best_fit
+
+
+def get_anyres_image_grid_shape(
+    image_size: tuple[int, int],
+    grid_pinpoints: str | list[tuple[int, int]],
+    patch_size: int,
+) -> tuple[int, int]:
+    possible_resolutions = (
+        grid_pinpoints
+        if isinstance(grid_pinpoints, list)
+        else ast.literal_eval(grid_pinpoints)
+    )
+
+    original_width, original_height = image_size
+    height, width = select_best_resolution(
+        (original_height, original_width), possible_resolutions
+    )
+    return width // patch_size, height // patch_size
+
+
+def reshape_and_unpad_image_features(
+    image_feature: torch.Tensor,
+    height: int,
+    width: int,
+    image_size: tuple[int, int],
+    possible_resolutions: list[tuple[int, int]],
+    grid_size: int,
+    unpad: bool,
+    image_newline: torch.Tensor,
+) -> torch.Tensor:
+    base_image_feature = image_feature[0]
+    image_feature = image_feature[1:]
+
+    assert height * width == base_image_feature.shape[0], (
+        f"{height=} * {width=} != {base_image_feature.shape[0]=}"
+    )
+
+    num_patch_width, num_patch_height = get_anyres_image_grid_shape(
+        image_size, possible_resolutions, grid_size
+    )
+    image_feature = image_feature.view(
+        num_patch_height, num_patch_width, height, width, -1
+    )
+
+    if unpad:
+        image_feature = image_feature.permute(4, 0, 2, 1, 3).contiguous()
+        image_feature = image_feature.flatten(1, 2).flatten(2, 3)
+        image_feature = unpad_image(image_feature, image_size)
+        image_feature = torch.cat(
+            (
+                image_feature,
+                image_newline[:, None, None]
+                .expand(*image_feature.shape[:-1], 1)
+                .to(image_feature.device),
+            ),
+            dim=-1,
+        )
+        image_feature = image_feature.flatten(1, 2).transpose(0, 1)
+    else:
+        image_feature = image_feature.permute(0, 2, 1, 3, 4).contiguous()
+        image_feature = image_feature.flatten(0, 3)
+    image_feature = torch.cat((base_image_feature, image_feature), dim=0)
+
+    return image_feature
+
+
+def anyres_postprocessing(
+    image_forward_outs: list[torch.Tensor],
+    image_sizes: list[list[int]],
+    possible_resolutions: list[tuple[int, int]],
+    patch_size: int,
+    grid_size: int,
+    image_newline: torch.Tensor,
+    num_queries_vis_abstractor: int = -1,
+    unpad: bool = False,
+) -> list[torch.Tensor]:
+    height = width = grid_size // patch_size
+
+    if num_queries_vis_abstractor > 0:
+        assert (num_queries_vis_abstractor**0.5).is_integer(), (
+            "n_queries must be square number"
+        )
+        height = width = int(num_queries_vis_abstractor**0.5)
+
+    # post-processing (unpad, add newline)
+    new_image_features = []
+    for image_idx, image_feature in enumerate(image_forward_outs):
+        if image_feature.shape[0] > 1:
+            image_feature = reshape_and_unpad_image_features(
+                image_feature=image_feature,
+                height=height,
+                width=width,
+                image_size=image_sizes[image_idx],
+                possible_resolutions=possible_resolutions,
+                grid_size=grid_size,  # Pass grid info if needed by helper
+                unpad=unpad,
+                image_newline=image_newline,
+            )
+        else:
+            image_feature = image_feature[0]
+            image_feature = torch.cat(
+                (image_feature, image_newline[None].to(image_feature.device)), dim=0
+            )
+        new_image_features.append(image_feature)
+
+    return new_image_features
diff --git a/model_executor/models/idefics2_vision_model.py b/model_executor/models/idefics2_vision_model.py
new file mode 100644
index 0000000..727c8ec
--- /dev/null
+++ b/model_executor/models/idefics2_vision_model.py
@@ -0,0 +1,426 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.43.2/src/transformers/models/idefics2/modeling_idefics2.py
+# Copyright 2024 The vLLM team.
+# Copyright 2024 the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch Idefics2 model."""
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers.models.idefics2.configuration_idefics2 import (
+    Idefics2Config,
+    Idefics2VisionConfig,
+)
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .vision import run_dp_sharded_vision_model
+
+
+class Idefics2VisionEmbeddings(nn.Module):
+    """
+    This is a modified version of `siglip.modelign_siglip.SiglipVisionEmbeddings
+    ` to enable images of variable
+    resolution.
+
+    The modifications are adapted from [Patch n' Pack: NaViT, a Vision
+    Transformer for any Aspect Ratio and Resolution](https://arxiv.org/abs/2307.06304)
+    which allows treating images in their native aspect ratio and without the
+    need to resize them to the same fixed size. In particular, we start from the
+    original pre-trained SigLIP model(which uses images of fixed-size square
+    images) and adapt it by training on images of variable resolutions.
+    """
+
+    def __init__(self, config: Idefics2VisionConfig):
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            padding="valid",
+        )
+        self.num_patches_per_side = self.image_size // self.patch_size
+        self.num_patches = self.num_patches_per_side**2
+        self.num_positions = self.num_patches
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        patch_attention_mask: torch.BoolTensor,
+        tgt_sizes: torch.IntTensor | None = None,
+    ) -> torch.Tensor:
+        batch_size, _, max_im_h, max_im_w = pixel_values.shape
+        target_dtype = self.patch_embedding.weight.dtype
+        patch_embeds = self.patch_embedding(pixel_values.to(target_dtype))
+        embeddings = patch_embeds.flatten(2).transpose(1, 2)
+        max_nb_patches_h, max_nb_patches_w = (
+            max_im_h // self.patch_size,
+            max_im_w // self.patch_size,
+        )
+        boundaries = torch.arange(
+            1 / self.num_patches_per_side, 1.0, 1 / self.num_patches_per_side
+        )
+        position_ids = torch.full(
+            size=(batch_size, max_nb_patches_h * max_nb_patches_w), fill_value=0
+        )
+
+        for batch_idx, p_attn_mask in enumerate(patch_attention_mask):
+            if tgt_sizes is not None:
+                nb_patches_h = tgt_sizes[batch_idx][0]
+                nb_patches_w = tgt_sizes[batch_idx][1]
+            else:
+                nb_patches_h = p_attn_mask[:, 0].sum()
+                nb_patches_w = p_attn_mask[0].sum()
+            fractional_coords_h = torch.arange(0, 1 - 1e-6, 1 / nb_patches_h)
+            fractional_coords_w = torch.arange(0, 1 - 1e-6, 1 / nb_patches_w)
+            bucket_coords_h = torch.bucketize(
+                fractional_coords_h, boundaries, right=True
+            )
+            bucket_coords_w = torch.bucketize(
+                fractional_coords_w, boundaries, right=True
+            )
+            pos_ids = (
+                bucket_coords_h[:, None] * self.num_patches_per_side + bucket_coords_w
+            ).flatten()
+            position_ids[batch_idx][p_attn_mask.view(-1).cpu()] = pos_ids
+        position_ids = position_ids.to(self.position_embedding.weight.device)
+        embeddings += self.position_embedding(position_ids)
+        return embeddings
+
+
+class Idefics2VisionAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config: Idefics2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads (got `embed_dim`: {self.embed_dim} and `num_heads`:"  # noqa: E501
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+        self.dropout = config.attention_dropout
+
+        tp_size = 1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        assert self.num_heads % tp_size == 0
+        self.num_heads_per_partition = self.num_heads // tp_size
+
+        self.qkv_proj = QKVParallelLinear(
+            self.embed_dim,
+            self.head_dim,
+            self.num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.out_proj = RowParallelLinear(
+            self.embed_dim,
+            self.embed_dim,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+            disable_tp=use_data_parallel,
+        )
+        # Use unified MultiHeadAttention with Flash Attention support
+        self.attn = MultiHeadAttention(
+            self.num_heads_per_partition, self.head_dim, self.scale
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(
+            hidden_states
+        )  # batch_size, q_len, 3 * num_heads_per_partition * head_dim
+        query_states, key_states, value_states = qkv.chunk(3, dim=-1)
+
+        # Use unified MultiHeadAttention implementation
+        out = self.attn(query_states, key_states, value_states)
+        attn_output, _ = self.out_proj(out)
+        return attn_output
+
+
+class Idefics2VisionMLP(nn.Module):
+    def __init__(
+        self,
+        config: Idefics2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class Idefics2EncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Idefics2Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.self_attn = Idefics2VisionAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            use_data_parallel=use_data_parallel,
+        )
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = Idefics2VisionMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`):
+                Input to the layer of shape `(batch, seq_len, embed_dim)`.
+
+        """
+        residual = hidden_states
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states = self.self_attn(hidden_states)
+        hidden_states += residual
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states += residual
+        return hidden_states
+
+
+class Idefics2Encoder(nn.Module):
+    """
+    Transformer encoder consisting of `config.num_hidden_layers` self attention
+    layers. Each layer is a
+    [`Idefics2EncoderLayer`].
+
+    Args:
+        config: Idefics2Config
+    """
+
+    def __init__(
+        self,
+        config: Idefics2Config,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layers = nn.ModuleList(
+            [
+                Idefics2EncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+    ) -> torch.Tensor:
+        r"""
+        Args:
+            inputs_embeds (torch.Tensor):
+                Optionally, instead of passing `input_ids` you can choose to
+                directly pass an embedded representation.
+                This is useful if you want more control over how to convert
+                `input_ids` indices into associated vectorsthan the model's
+                internal embedding lookup matrix.
+        """
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            layer_outputs = encoder_layer(hidden_states)
+            hidden_states = layer_outputs
+        return hidden_states
+
+
+class Idefics2VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: Idefics2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool = True,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        embed_dim = config.hidden_size
+        self.config = config
+        self.use_data_parallel = use_data_parallel
+        self.embeddings = Idefics2VisionEmbeddings(config)
+        self.encoder = Idefics2Encoder(
+            config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.encoder",
+            use_data_parallel=use_data_parallel,
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.encoder.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.encoder.layers)} layers."
+            )
+
+        self.require_post_norm = require_post_norm
+        self.post_layernorm = (
+            nn.LayerNorm(
+                embed_dim,
+                eps=config.layer_norm_eps,
+            )
+            if require_post_norm
+            else nn.Identity()
+        )
+
+    def get_input_embeddings(self):
+        return self.embeddings
+
+    def forward(
+        self,
+        pixel_values,
+        patch_attention_mask: torch.BoolTensor | None = None,
+        tgt_sizes: torch.IntTensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            pixel_values=pixel_values,
+            patch_attention_mask=patch_attention_mask,
+            tgt_sizes=tgt_sizes,
+        )
+        if self.use_data_parallel:
+            encoder_outputs = run_dp_sharded_vision_model(hidden_states, self.encoder)
+        else:
+            encoder_outputs = self.encoder(hidden_states)
+        last_hidden_state = self.post_layernorm(encoder_outputs)
+        return last_hidden_state
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.encoder.layers)
+
+        for name, loaded_weight in weights:
+            # skip pooling header
+            if name.startswith("head."):
+                continue
+
+            # post_layernorm is optional
+            if name.startswith("post_layernorm.") and not self.require_post_norm:
+                continue
+
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("encoder.layers."):
+                layer_idx = int(name.split(".")[2])
+                if layer_idx >= layer_count:
+                    continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name or self.use_data_parallel:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/idefics3.py b/model_executor/models/idefics3.py
new file mode 100644
index 0000000..9c5f938
--- /dev/null
+++ b/model_executor/models/idefics3.py
@@ -0,0 +1,717 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Idefics3 model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+from torch import nn
+from transformers import (
+    BatchFeature,
+    Idefics3Config,
+    Idefics3ImageProcessor,
+    Idefics3Processor,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalDataItems,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .idefics2_vision_model import (
+    Idefics2VisionTransformer as Idefics3VisionTransformer,
+)
+from .interfaces import MultiModalEmbeddings, SupportsLoRA, SupportsMultiModal
+from .llama import LlamaModel
+from .utils import AutoWeightsLoader, maybe_prefix
+
+
+class Idefics3ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - bnp: Batch size * number of images * number of patches
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values"]
+    pixel_values: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w")]
+    pixel_attention_mask: Annotated[torch.Tensor, TensorShape("bnp", "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class Idefics3ImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - f: Image feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    data: Annotated[torch.Tensor, TensorShape("bn", "f", "h")]
+
+
+ImageInputs: TypeAlias = Idefics3ImagePixelInputs | Idefics3ImageEmbeddingInputs
+
+
+class Idefics3ProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> Idefics3Processor:
+        return self.ctx.get_hf_processor(Idefics3Processor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def _resize_output_size(
+        self,
+        *,
+        height: int,
+        width: int,
+        max_len: int | None = None,
+        min_len: int = 1,
+        max_size: int | None = None,
+    ) -> tuple[int, int]:
+        # Set default value for max_len if not provided
+        max_len = max(height, width) if max_len is None else max_len
+        aspect_ratio = width / height
+
+        # Handle the maximum size constraint
+        if max_size is not None:
+            max_len = min(max_len, max_size)
+
+        # Adjust dimensions according to the aspect ratio
+        if width >= height:
+            width = max_len
+            height = int(width / aspect_ratio)
+        else:
+            height = max_len
+            width = int(height * aspect_ratio)
+
+        # Ensure both width and height are even (if needed)
+        height += height % 2
+        width += width % 2
+
+        # Ensure dimensions are not smaller than the minimum length
+        height = max(height, min_len)
+        width = max(width, min_len)
+
+        return height, width
+
+    def _get_resize_output_image_size(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        resolution_max_side: int,
+    ) -> tuple[int, int]:
+        hf_processor = self.get_hf_processor()
+        image_processor: Idefics3ImageProcessor = hf_processor.image_processor
+        max_image_size = image_processor.size["longest_edge"]
+        if resolution_max_side > max_image_size:
+            raise ValueError(
+                "`resolution_max_side` cannot be larger than `max_image_size`"
+            )
+
+        height, width = image_height, image_width
+
+        # Find the output size, when rescaling the longest edge to max_len and
+        # preserving the aspect ratio
+        height, width = self._resize_output_size(
+            height=height, width=width, max_len=resolution_max_side
+        )
+        return height, width
+
+    def _get_image_feature_grid_size(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Idefics3Processor | None,
+    ) -> tuple[int, int]:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        image_processor: Idefics3ImageProcessor = processor.image_processor
+
+        max_image_size = image_processor.max_image_size["longest_edge"]
+        size = image_processor.size["longest_edge"]
+        assert size % max_image_size == 0, (
+            "`longest_edge` in image_processor's `size` must be divisible by "
+            "`longest_edge` in `max_image_size`, this may be caused by "
+            "incorrect mm_kwargs override."
+        )
+
+        resized_height, resized_width = self._get_resize_output_image_size(
+            image_width=image_width,
+            image_height=image_height,
+            resolution_max_side=size,
+        )
+        if resized_height > max_image_size or resized_width > max_image_size:
+            grid_h = math.ceil(resized_height / max_image_size)
+            grid_w = math.ceil(resized_width / max_image_size)
+        else:
+            grid_h = grid_w = 0
+        return grid_w, grid_h
+
+    def get_num_patches(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Idefics3Processor | None,
+    ) -> int:
+        grid_w, grid_h = self._get_image_feature_grid_size(
+            image_width=image_width,
+            image_height=image_height,
+            processor=processor,
+        )
+
+        return grid_w * grid_h + 1
+
+    def _get_image_token(
+        self, processor: Idefics3Processor | None
+    ) -> tuple[str, str, str]:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        image_token = processor.image_token
+        fake_image_token = processor.fake_image_token
+        global_image_token = processor.global_image_tag
+        return image_token, fake_image_token, global_image_token
+
+    def get_image_repl(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Idefics3Processor | None,
+    ) -> str:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        image_token, fake_image_token, global_img_token = self._get_image_token(
+            processor
+        )
+        image_seq_len = processor.image_seq_len
+        grid_placeholder = "<row_{n_h}_col_{n_w}>"
+
+        p_img = image_token * image_seq_len
+        global_img_placeholder = fake_image_token + global_img_token + p_img
+        tile_img_placeholder = fake_image_token + grid_placeholder + p_img
+
+        grid_w, grid_h = self._get_image_feature_grid_size(
+            image_width=image_width,
+            image_height=image_height,
+            processor=processor,
+        )
+        if grid_w == 0 and grid_h == 0:
+            return global_img_placeholder + fake_image_token
+
+        tiles_placeholder = list[str]()
+        for i in range(grid_h):
+            for j in range(grid_w):
+                placeholder_per_tile = tile_img_placeholder.format(n_h=i + 1, n_w=j + 1)
+                tiles_placeholder.append(placeholder_per_tile)
+                # Add line break if it is the last tile in the row
+                if j == grid_w - 1:
+                    tiles_placeholder.append("\n")
+
+        return "".join(
+            [
+                *tiles_placeholder,
+                "\n",
+                global_img_placeholder,
+                fake_image_token,
+            ]
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Idefics3Processor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        num_patches = self.get_num_patches(
+            image_width=image_width,
+            image_height=image_height,
+            processor=processor,
+        )
+
+        return num_patches * processor.image_seq_len
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+        image_processor: Idefics3ImageProcessor = processor.image_processor
+
+        return ImageSize(
+            width=image_processor.size["longest_edge"],
+            height=image_processor.size["longest_edge"],
+        )
+
+
+class Idefics3DummyInputsBuilder(BaseDummyInputsBuilder[Idefics3ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token, _, _ = self.info._get_image_token(processor)
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        hf_processor = self.info.get_hf_processor()
+        image_processor: Idefics3ImageProcessor = hf_processor.image_processor
+        longest_edge = image_processor.max_image_size["longest_edge"]
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=longest_edge,
+                height=longest_edge,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Idefics3MultiModalProcessor(BaseMultiModalProcessor[Idefics3ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # Text-only input not supported in composite processor
+        if not (images := mm_data.get("images", [])):
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt,
+            mm_data,
+            mm_kwargs,
+            tok_kwargs,
+        )
+
+        parsed_images = (
+            self._get_data_parser()
+            .parse_mm_data({"image": images})
+            .get_items("image", ImageProcessorItems)
+        )
+        image_sizes = [
+            parsed_images.get_image_size(i) for i in range(len(parsed_images))
+        ]
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+
+        num_patches = [
+            self.info.get_num_patches(
+                image_width=size.width,
+                image_height=size.height,
+                processor=hf_processor,
+            )
+            for size in image_sizes
+        ]
+        processed_outputs["num_patches"] = torch.tensor(num_patches)
+
+        # Remove the extra batch dimension
+        processed_outputs["pixel_values"].squeeze_(0)
+        processed_outputs["pixel_attention_mask"].squeeze_(0)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
+            pixel_attention_mask=MultiModalFieldConfig.flat_from_sizes(
+                "image", num_patches
+            ),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+            num_patches=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_token, _, _ = self.info._get_image_token(hf_processor)
+
+        def get_replacement_idefics3(item_idx: int) -> PromptUpdateDetails:
+            images = mm_items.get_items("image", ImageProcessorItems)
+
+            image_size = images.get_image_size(item_idx)
+
+            image_repl = self.info.get_image_repl(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                processor=hf_processor,
+            )
+
+            return PromptUpdateDetails.select_text(
+                image_repl,
+                embed_text=image_token,
+            )
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=get_replacement_idefics3,
+            )
+        ]
+
+
+class Idefics3SimpleMLP(nn.Module):
+    def __init__(
+        self,
+        config: Idefics3Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        input_size = config.vision_config.hidden_size * (config.scale_factor**2)
+        output_size = config.text_config.hidden_size
+        self.proj = ReplicatedLinear(
+            input_size,
+            output_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "proj"),
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        out, _ = self.proj(x)
+        return out
+
+
+class Idefics3Connector(nn.Module):
+    def __init__(
+        self,
+        config: Idefics3Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.scale_factor = config.scale_factor
+        self.modality_projection = Idefics3SimpleMLP(
+            config,
+            quant_config,
+            prefix=maybe_prefix(prefix, "modality_projection"),
+        )
+
+    def pixel_shuffle(self, x: torch.Tensor, scale_factor: int = 2) -> torch.Tensor:
+        bsz, seq, embed_dim = x.size()
+        height = width = int(seq**0.5)
+        x = x.view(bsz, height, width, embed_dim)
+        x = x.view(bsz, height, int(width / scale_factor), embed_dim * scale_factor)
+        x = x.permute(0, 2, 1, 3)
+        x = x.reshape(
+            bsz,
+            int(width / scale_factor),
+            int(height / scale_factor),
+            embed_dim * (scale_factor**2),
+        )
+        x = x.permute(0, 2, 1, 3)
+        x = x.reshape(bsz, int(seq / (scale_factor**2)), embed_dim * (scale_factor**2))
+        return x
+
+    def forward(self, image_hidden_states: torch.Tensor) -> torch.Tensor:
+        image_hidden_states = self.pixel_shuffle(image_hidden_states, self.scale_factor)
+        image_hidden_states = self.modality_projection(image_hidden_states)
+        return image_hidden_states
+
+
+class Idefics3Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: Idefics3Config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = self.config.text_config.vocab_size
+        self.vision_model = Idefics3VisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+        self.connector = Idefics3Connector(
+            config,
+            quant_config,
+            prefix=maybe_prefix(prefix, "connector"),
+        )
+        self.text_model = LlamaModel(
+            vllm_config=vllm_config.with_hf_config(config.text_config),
+            prefix=maybe_prefix(prefix, "text_model"),
+        )
+
+        self.image_seq_len = int(
+            ((config.vision_config.image_size // config.vision_config.patch_size) ** 2)
+            / (config.scale_factor**2)
+        )
+        self.image_token_id = self.config.image_token_id
+
+    def image_pixels_to_features(
+        self,
+        pixel_values: torch.Tensor,
+        pixel_attention_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        pixel_values = pixel_values.to(
+            dtype=self.vision_model.embeddings.patch_embedding.weight.dtype
+        )  # fp16 compatibility
+
+        # Remove padding images - padding images are full 0.
+        nb_values_per_image = pixel_values.shape[1:].numel()
+        real_images_inds = (pixel_values == 0.0).sum(
+            dim=(-1, -2, -3)
+        ) != nb_values_per_image
+        pixel_values = pixel_values[real_images_inds].contiguous()
+
+        # Handle the vision attention mask
+        # Remove padding images from the mask
+        pixel_attention_mask = pixel_attention_mask[real_images_inds].contiguous()
+
+        patch_size = self.config.vision_config.patch_size
+        patches_subgrid = pixel_attention_mask.unfold(
+            dimension=1, size=patch_size, step=patch_size
+        )
+        patches_subgrid = patches_subgrid.unfold(
+            dimension=2, size=patch_size, step=patch_size
+        )
+        patch_attention_mask = (patches_subgrid.sum(dim=(-1, -2)) > 0).bool()
+
+        # Get sequence from the vision encoder
+        image_hidden_states = self.vision_model(
+            pixel_values=pixel_values,
+            patch_attention_mask=patch_attention_mask,
+        )
+
+        return image_hidden_states
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.text_model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.text_model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Idefics3MultiModalProcessor,
+    info=Idefics3ProcessingInfo,
+    dummy_inputs=Idefics3DummyInputsBuilder,
+)
+class Idefics3ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsLoRA):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.model = Idefics3Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.image_token_id = self.config.image_token_id
+
+        self.lm_head = ParallelLMHead(
+            config.text_config.vocab_size,
+            config.text_config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.text_config.tie_word_embeddings:
+            self.lm_head.weight = self.model.text_model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.text_config.vocab_size)
+
+    def _parse_and_validate_image_input(self, **kwargs: object) -> ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return Idefics3ImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        if pixel_values is not None:
+            pixel_attention_mask = kwargs.pop("pixel_attention_mask")
+            num_patches = kwargs.pop("num_patches")
+            expected_h = expected_w = self.config.vision_config.image_size
+
+            return Idefics3ImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                pixel_attention_mask=pixel_attention_mask,
+                num_patches=num_patches,
+                resolve_bindings={"h": expected_h, "w": expected_w},
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_pixels(self, inputs: Idefics3ImagePixelInputs) -> torch.Tensor:
+        pixel_values = inputs["pixel_values"]
+        pixel_attention_mask = inputs["pixel_attention_mask"]
+
+        return self.model.image_pixels_to_features(
+            pixel_values,
+            pixel_attention_mask=pixel_attention_mask,
+        )
+
+    def _process_image_input(
+        self,
+        image_input: ImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        image_features = self._process_image_pixels(image_input)
+        image_features = self.model.connector(image_features)
+
+        num_patches = image_input["num_patches"]
+        return [e.flatten(0, 1) for e in image_features.split(num_patches.tolist())]
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.model.text_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="model.text_model",
+            connector="model.connector",
+            tower_model="model.vision_model",
+        )
diff --git a/model_executor/models/interfaces.py b/model_executor/models/interfaces.py
new file mode 100644
index 0000000..dc4caf2
--- /dev/null
+++ b/model_executor/models/interfaces.py
@@ -0,0 +1,1092 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable, Iterable, Mapping, MutableSequence, Set
+from typing import (
+    TYPE_CHECKING,
+    ClassVar,
+    Literal,
+    Protocol,
+    TypeAlias,
+    overload,
+    runtime_checkable,
+)
+
+import numpy as np
+import torch
+import torch.nn as nn
+from torch import Tensor
+from transformers.models.whisper.tokenization_whisper import LANGUAGES
+from typing_extensions import Self, TypeIs
+
+from vllm.config import ModelConfig, SpeechToTextConfig
+from vllm.inputs import TokensPrompt
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.utils.func_utils import supports_kw
+
+from .interfaces_base import VllmModel, is_pooling_model
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.model_executor.models.utils import WeightsMapper
+    from vllm.multimodal.inputs import MultiModalFeatureSpec
+    from vllm.sequence import IntermediateTensors
+else:
+    VllmConfig = object
+    WeightsMapper = object
+    MultiModalFeatureSpec = object
+    IntermediateTensors = object
+
+logger = init_logger(__name__)
+
+MultiModalEmbeddings: TypeAlias = list[Tensor] | Tensor | tuple[Tensor, ...]
+"""
+The output embeddings must be one of the following formats:
+
+- A list or tuple of 2D tensors, where each tensor corresponds to
+    each input multimodal data item (e.g, image).
+- A single 3D tensor, with the batch dimension grouping the 2D tensors.
+"""
+
+
+@runtime_checkable
+class SupportsMultiModal(Protocol):
+    """The interface required for all multi-modal models."""
+
+    supports_multimodal: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports multi-modal inputs.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    supports_multimodal_raw_input_only: ClassVar[bool] = False
+    """
+    A flag that indicates this model supports multi-modal inputs and processes
+    them in their raw form and not embeddings.
+    """
+
+    supports_encoder_tp_data: ClassVar[bool] = False
+    """
+    A flag that indicates whether this model supports
+    `multimodal_config.mm_encoder_tp_mode="data"`.
+    """
+
+    merge_by_field_config: ClassVar[bool] = False
+    """
+    A flag that indicates which implementation of
+    `vllm.multimodal.utils.group_mm_kwargs_by_modality` to use.
+    """
+
+    multimodal_cpu_fields: ClassVar[Set[str]] = frozenset()
+    """
+    A set indicating CPU-only multimodal fields.
+    """
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        """
+        Get the placeholder text for the `i`th `modality` item in the prompt.
+        """
+        ...
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        """
+        Returns multimodal embeddings generated from multimodal kwargs
+        to be merged with text embeddings.
+
+        Note:
+            The returned multimodal embeddings must be in the same order as
+            the appearances of their corresponding multimodal data item in the
+            input prompt.
+        """
+        if hasattr(self, "get_multimodal_embeddings"):
+            logger.warning_once(
+                "`get_multimodal_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_multimodal`."
+            )
+            return self.get_multimodal_embeddings(**kwargs)
+
+    def get_language_model(self) -> VllmModel:
+        """
+        Returns the underlying language model used for text generation.
+
+        This is typically the `torch.nn.Module` instance responsible for
+        processing the merged multimodal embeddings and producing hidden states
+
+        Returns:
+            torch.nn.Module: The core language model component.
+        """
+        ...
+
+    @overload
+    def embed_input_ids(self, input_ids: Tensor) -> Tensor: ...
+
+    @overload
+    def embed_input_ids(
+        self,
+        input_ids: Tensor,
+        multimodal_embeddings: MultiModalEmbeddings,
+        *,
+        is_multimodal: torch.Tensor,
+        handle_oov_mm_token: bool = False,
+    ) -> Tensor: ...
+
+    def _embed_text_input_ids(
+        self,
+        input_ids: Tensor,
+        embed_input_ids: Callable[[Tensor], Tensor],
+        *,
+        is_multimodal: Tensor | None,
+        handle_oov_mm_token: bool,
+    ) -> Tensor:
+        if handle_oov_mm_token and is_multimodal is not None:
+            is_text = ~is_multimodal
+            text_embeds = embed_input_ids(input_ids[is_text])
+
+            return torch.empty(
+                (input_ids.shape[0], text_embeds.shape[1]),
+                dtype=text_embeds.dtype,
+                device=text_embeds.device,
+            ).masked_scatter_(is_text.unsqueeze_(-1), text_embeds)
+
+        return embed_input_ids(input_ids)
+
+    def embed_input_ids(
+        self,
+        input_ids: Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> Tensor:
+        """
+        Apply token embeddings to `input_ids`.
+
+        If `multimodal_embeddings` is passed, scatter them into
+        `input_ids` according to the mask `is_multimodal`.
+
+        In case the multi-modal token IDs exceed the vocabulary size of
+        the language model, you can set `handle_oov_mm_token=False`
+        to avoid calling the language model's `embed_input_ids` method
+        on those tokens. Note however that doing so increases memory usage
+        as an additional buffer is needed to hold the input embeddings.
+        """
+        from .utils import _merge_multimodal_embeddings
+
+        inputs_embeds = self._embed_text_input_ids(
+            input_ids,
+            self.get_language_model().embed_input_ids,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
+            return inputs_embeds
+
+        if is_multimodal is None:
+            raise ValueError(
+                "`embed_input_ids` now requires `is_multimodal` arg, "
+                "please update your model runner according to "
+                "https://github.com/vllm-project/vllm/pull/16229."
+            )
+
+        return _merge_multimodal_embeddings(
+            inputs_embeds=inputs_embeds,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+        )
+
+
+@runtime_checkable
+class SupportsMultiModalPruning(Protocol):
+    """The interface required for models that support returning both input
+    embeddings and positions. Model may require custom positions for dynamic
+    pruning of multimodal embeddings.
+    """
+
+    supports_multimodal_pruning: ClassVar[Literal[True]] = True
+
+    def recompute_mrope_positions(
+        self,
+        input_ids: list[int],
+        multimodal_embeddings: MultiModalEmbeddings,
+        mrope_positions: torch.LongTensor,
+        num_computed_tokens: int,
+    ) -> tuple[MultiModalEmbeddings, Tensor, int]:
+        """
+        Update part of input mrope positions (starting with
+        num_computed_tokens index). Original mrope_positions are computed
+        for unpruned sequence and becomes incorrect once pruning occurs,
+        so once we prune media tokens we should reflect this in the
+        mrope_positions before we feed it to LLM.
+
+        Args:
+            input_ids: (N,) All input tokens of the prompt containing
+                entire sequence.
+            multimodal_embeddings: Tuple of multimodal embeddings that
+                fits into the prefill chunk that is being processed.
+            mrope_positions: Existing mrope positions (3, N) for entire
+                sequence
+            num_computed_tokens: A number of computed tokens so far.
+
+        Returns:
+            Tuple of (multimodal_embeddings, mrope_positions,
+                mrope_position_delta).
+        """
+        ...
+
+
+@overload
+def supports_multimodal(model: type[object]) -> TypeIs[type[SupportsMultiModal]]: ...
+
+
+@overload
+def supports_multimodal(model: object) -> TypeIs[SupportsMultiModal]: ...
+
+
+def supports_multimodal(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsMultiModal]] | TypeIs[SupportsMultiModal]:
+    return getattr(model, "supports_multimodal", False)
+
+
+def supports_multimodal_raw_input_only(model: type[object] | object) -> bool:
+    return getattr(model, "supports_multimodal_raw_input_only", False)
+
+
+def supports_multimodal_encoder_tp_data(model: type[object] | object) -> bool:
+    return getattr(model, "supports_encoder_tp_data", False)
+
+
+@overload
+def supports_multimodal_pruning(
+    model: type[object],
+) -> TypeIs[type[SupportsMultiModalPruning]]: ...
+
+
+@overload
+def supports_multimodal_pruning(model: object) -> TypeIs[SupportsMultiModalPruning]: ...
+
+
+def supports_multimodal_pruning(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsMultiModalPruning]] | TypeIs[SupportsMultiModalPruning]:
+    return getattr(model, "supports_multimodal_pruning", False)
+
+
+@runtime_checkable
+class SupportsScoreTemplate(Protocol):
+    """The interface required for all models that support score template."""
+
+    supports_score_template: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports score template.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    @classmethod
+    def get_score_template(cls, query: str, document: str) -> str | None:
+        """
+        Generate a full prompt by populating the score template with query and document content.
+        """  # noqa: E501
+        ...
+
+    @classmethod
+    def post_process_tokens(cls, prompt: TokensPrompt) -> None:
+        """
+        Perform architecture-specific manipulations on the input tokens.
+        """
+        ...
+
+
+@overload
+def supports_score_template(
+    model: type[object],
+) -> TypeIs[type[SupportsScoreTemplate]]: ...
+
+
+@overload
+def supports_score_template(model: object) -> TypeIs[SupportsScoreTemplate]: ...
+
+
+def supports_score_template(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsScoreTemplate]] | TypeIs[SupportsScoreTemplate]:
+    return getattr(model, "supports_score_template", False)
+
+
+@runtime_checkable
+class SupportsLoRA(Protocol):
+    """The interface required for all models that support LoRA."""
+
+    supports_lora: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports LoRA.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+    # The `embedding_module` and `embedding_padding_modules`
+    # are empty by default.
+    embedding_modules: ClassVar[dict[str, str]] = {}
+    embedding_padding_modules: ClassVar[list[str]] = []
+    packed_modules_mapping: dict[str, list[str]] = {}
+
+
+# We can't use runtime_checkable with ClassVar for issubclass checks
+# so we need to treat the class as an instance and use isinstance instead
+@runtime_checkable
+class _SupportsLoRAType(Protocol):
+    supports_lora: Literal[True]
+
+    packed_modules_mapping: dict[str, list[str]]
+    embedding_modules: dict[str, str]
+    embedding_padding_modules: list[str]
+
+
+@overload
+def supports_lora(model: type[object]) -> TypeIs[type[SupportsLoRA]]: ...
+
+
+@overload
+def supports_lora(model: object) -> TypeIs[SupportsLoRA]: ...
+
+
+def supports_lora(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsLoRA]] | TypeIs[SupportsLoRA]:
+    result = _supports_lora(model)
+
+    if not result:
+        lora_attrs = (
+            "packed_modules_mapping",
+            "embedding_modules",
+            "embedding_padding_modules",
+        )
+        missing_attrs = tuple(attr for attr in lora_attrs if not hasattr(model, attr))
+
+        if getattr(model, "supports_lora", False):
+            if missing_attrs:
+                logger.warning(
+                    "The model (%s) sets `supports_lora=True`, "
+                    "but is missing LoRA-specific attributes: %s",
+                    model,
+                    missing_attrs,
+                )
+        else:
+            if not missing_attrs:
+                logger.warning(
+                    "The model (%s) contains all LoRA-specific attributes, "
+                    "but does not set `supports_lora=True`.",
+                    model,
+                )
+
+    return result
+
+
+def _supports_lora(model: type[object] | object) -> bool:
+    if isinstance(model, type):
+        return isinstance(model, _SupportsLoRAType)
+
+    return isinstance(model, SupportsLoRA)
+
+
+@runtime_checkable
+class SupportsPP(Protocol):
+    """The interface required for all models that support pipeline parallel."""
+
+    supports_pp: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports pipeline parallel.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    def make_empty_intermediate_tensors(
+        self,
+        batch_size: int,
+        dtype: torch.dtype,
+        device: torch.device,
+    ) -> IntermediateTensors:
+        """Called when PP rank > 0 for profiling purposes."""
+        ...
+
+    def forward(
+        self,
+        *,
+        intermediate_tensors: IntermediateTensors | None,
+    ) -> IntermediateTensors | None:
+        """
+        Accept [`IntermediateTensors`][vllm.sequence.IntermediateTensors] when
+        PP rank > 0.
+
+        Return [`IntermediateTensors`][vllm.sequence.IntermediateTensors] only
+        for the last PP rank.
+        """
+        ...
+
+
+# We can't use runtime_checkable with ClassVar for issubclass checks
+# so we need to treat the class as an instance and use isinstance instead
+@runtime_checkable
+class _SupportsPPType(Protocol):
+    supports_pp: Literal[True]
+
+    def make_empty_intermediate_tensors(
+        self,
+        batch_size: int,
+        dtype: torch.dtype,
+        device: torch.device,
+    ) -> IntermediateTensors: ...
+
+    def forward(
+        self,
+        *,
+        intermediate_tensors: IntermediateTensors | None,
+    ) -> Tensor | IntermediateTensors: ...
+
+
+@overload
+def supports_pp(model: type[object]) -> TypeIs[type[SupportsPP]]: ...
+
+
+@overload
+def supports_pp(model: object) -> TypeIs[SupportsPP]: ...
+
+
+def supports_pp(
+    model: type[object] | object,
+) -> bool | TypeIs[type[SupportsPP]] | TypeIs[SupportsPP]:
+    supports_attributes = _supports_pp_attributes(model)
+    supports_inspect = _supports_pp_inspect(model)
+
+    if supports_attributes and not supports_inspect:
+        logger.warning(
+            "The model (%s) sets `supports_pp=True`, but does not accept "
+            "`intermediate_tensors` in its `forward` method",
+            model,
+        )
+
+    if not supports_attributes:
+        pp_attrs = ("make_empty_intermediate_tensors",)
+        missing_attrs = tuple(attr for attr in pp_attrs if not hasattr(model, attr))
+
+        if getattr(model, "supports_pp", False):
+            if missing_attrs:
+                logger.warning(
+                    "The model (%s) sets `supports_pp=True`, "
+                    "but is missing PP-specific attributes: %s",
+                    model,
+                    missing_attrs,
+                )
+        else:
+            if not missing_attrs:
+                logger.warning(
+                    "The model (%s) contains all PP-specific attributes, "
+                    "but does not set `supports_pp=True`.",
+                    model,
+                )
+
+    return supports_attributes and supports_inspect
+
+
+def _supports_pp_attributes(model: type[object] | object) -> bool:
+    if isinstance(model, type):
+        return isinstance(model, _SupportsPPType)
+
+    return isinstance(model, SupportsPP)
+
+
+def _supports_pp_inspect(model: type[object] | object) -> bool:
+    model_forward = getattr(model, "forward", None)
+    if not callable(model_forward):
+        return False
+
+    return supports_kw(model_forward, "intermediate_tensors")
+
+
+@runtime_checkable
+class HasInnerState(Protocol):
+    """The interface required for all models that has inner state."""
+
+    has_inner_state: ClassVar[Literal[True]] = True
+    """
+        A flag that indicates this model has inner state.
+        Models that has inner state usually need access to the scheduler_config
+        for max_num_seqs, etc. True for e.g. both Mamba and Jamba.
+    """
+
+
+@overload
+def has_inner_state(model: object) -> TypeIs[HasInnerState]: ...
+
+
+@overload
+def has_inner_state(model: type[object]) -> TypeIs[type[HasInnerState]]: ...
+
+
+def has_inner_state(
+    model: type[object] | object,
+) -> TypeIs[type[HasInnerState]] | TypeIs[HasInnerState]:
+    return getattr(model, "has_inner_state", False)
+
+
+@runtime_checkable
+class IsAttentionFree(Protocol):
+    """The interface required for all models like Mamba that lack attention,
+    but do have state whose size is constant wrt the number of tokens."""
+
+    is_attention_free: ClassVar[Literal[True]] = True
+    """
+        A flag that indicates this model has no attention.
+        Used for block manager and attention backend selection.
+        True for Mamba but not Jamba.
+    """
+
+
+@overload
+def is_attention_free(model: object) -> TypeIs[IsAttentionFree]: ...
+
+
+@overload
+def is_attention_free(model: type[object]) -> TypeIs[type[IsAttentionFree]]: ...
+
+
+def is_attention_free(
+    model: type[object] | object,
+) -> TypeIs[type[IsAttentionFree]] | TypeIs[IsAttentionFree]:
+    return getattr(model, "is_attention_free", False)
+
+
+@runtime_checkable
+class IsHybrid(Protocol):
+    """The interface required for all models like Jamba that have both
+    attention and mamba blocks, indicates that
+    hf_config has 'layers_block_type'"""
+
+    is_hybrid: ClassVar[Literal[True]] = True
+    """
+        A flag that indicates this model has both mamba and attention blocks
+        , also indicates that the model's hf_config has 
+        'layers_block_type' """
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: VllmConfig,
+        use_v1: bool = True,
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+            use_v1: Get shapes for V1 (or V0)
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        ...
+
+
+@overload
+def is_hybrid(model: object) -> TypeIs[IsHybrid]: ...
+
+
+@overload
+def is_hybrid(model: type[object]) -> TypeIs[type[IsHybrid]]: ...
+
+
+def is_hybrid(
+    model: type[object] | object,
+) -> TypeIs[type[IsHybrid]] | TypeIs[IsHybrid]:
+    return getattr(model, "is_hybrid", False)
+
+
+@runtime_checkable
+class MixtureOfExperts(Protocol):
+    """
+    Check if the model is a mixture of experts (MoE) model.
+    """
+
+    expert_weights: MutableSequence[Iterable[Tensor]]
+    """
+    Expert weights saved in this rank.
+
+    The first dimension is the layer, and the second dimension is different
+    parameters in the layer, e.g. up/down projection weights.
+    """
+
+    num_moe_layers: int
+    """Number of MoE layers in this model."""
+
+    num_expert_groups: int
+    """Number of expert groups in this model."""
+
+    num_logical_experts: int
+    """Number of logical experts in this model."""
+
+    num_physical_experts: int
+    """Number of physical experts in this model."""
+
+    num_local_physical_experts: int
+    """Number of local physical experts in this model."""
+
+    num_routed_experts: int
+    """Number of routed experts in this model."""
+
+    num_shared_experts: int
+    """Number of shared experts in this model."""
+
+    num_redundant_experts: int
+    """Number of redundant experts in this model."""
+
+    moe_layers: Iterable[nn.Module]
+    """List of MoE layers in this model."""
+
+    def set_eplb_state(
+        self,
+        expert_load_view: Tensor,
+        logical_to_physical_map: Tensor,
+        logical_replica_count: Tensor,
+    ) -> None:
+        """
+        Register the EPLB state in the MoE model.
+
+        Since these are views of the actual EPLB state, any changes made by
+        the EPLB algorithm are automatically reflected in the model's behavior
+        without requiring additional method calls to set new states.
+
+        You should also collect model's `expert_weights` here instead of in
+        the weight loader, since after initial weight loading, further
+        processing like quantization may be applied to the weights.
+
+        Args:
+            expert_load_view: A view of the expert load metrics tensor.
+            logical_to_physical_map: Mapping from logical to physical experts.
+            logical_replica_count: Count of replicas for each logical expert.
+        """
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None: ...
+
+
+def is_mixture_of_experts(model: object) -> TypeIs[MixtureOfExperts]:
+    return (
+        isinstance(model, MixtureOfExperts) and getattr(model, "num_moe_layers", 0) > 0
+    )
+
+
+@runtime_checkable
+class HasNoOps(Protocol):
+    has_noops: ClassVar[Literal[True]] = True
+
+
+@overload
+def has_noops(model: object) -> TypeIs[HasNoOps]: ...
+
+
+@overload
+def has_noops(model: type[object]) -> TypeIs[type[HasNoOps]]: ...
+
+
+def has_noops(
+    model: type[object] | object,
+) -> TypeIs[type[HasNoOps]] | TypeIs[HasNoOps]:
+    return getattr(model, "has_noops", False)
+
+
+@runtime_checkable
+class SupportsMambaPrefixCaching(Protocol):
+    """The interface for models whose mamba layers support prefix caching.
+
+    This is currently experimental.
+    """
+
+    supports_mamba_prefix_caching: ClassVar[Literal[True]] = True
+
+
+@overload
+def supports_mamba_prefix_caching(
+    model: object,
+) -> TypeIs[SupportsMambaPrefixCaching]: ...
+
+
+@overload
+def supports_mamba_prefix_caching(
+    model: type[object],
+) -> TypeIs[type[SupportsMambaPrefixCaching]]: ...
+
+
+def supports_mamba_prefix_caching(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsMambaPrefixCaching]] | TypeIs[SupportsMambaPrefixCaching]:
+    return getattr(model, "supports_mamba_prefix_caching", False)
+
+
+@runtime_checkable
+class SupportsCrossEncoding(Protocol):
+    """The interface required for all models that support cross encoding."""
+
+    supports_cross_encoding: ClassVar[Literal[True]] = True
+
+
+@overload
+def supports_cross_encoding(
+    model: type[object],
+) -> TypeIs[type[SupportsCrossEncoding]]: ...
+
+
+@overload
+def supports_cross_encoding(model: object) -> TypeIs[SupportsCrossEncoding]: ...
+
+
+def _supports_cross_encoding(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsCrossEncoding]] | TypeIs[SupportsCrossEncoding]:
+    return getattr(model, "supports_cross_encoding", False)
+
+
+def supports_cross_encoding(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsCrossEncoding]] | TypeIs[SupportsCrossEncoding]:
+    return is_pooling_model(model) and _supports_cross_encoding(model)
+
+
+class SupportsQuant:
+    """The interface required for all models that support quantization."""
+
+    hf_to_vllm_mapper: ClassVar[WeightsMapper | None] = None
+    packed_modules_mapping: ClassVar[dict[str, list[str]] | None] = None
+    quant_config: QuantizationConfig | None = None
+
+    def __new__(cls, *args, **kwargs) -> Self:
+        instance = super().__new__(cls)
+
+        # find config passed in arguments
+        quant_config = cls._find_quant_config(*args, **kwargs)
+        if quant_config is not None:
+            # attach config to model for general use
+            instance.quant_config = quant_config
+
+            # apply model mappings to config for proper config-model matching
+            if (hf_to_vllm_mapper := instance.hf_to_vllm_mapper) is not None:
+                instance.quant_config.apply_vllm_mapper(hf_to_vllm_mapper)
+            if instance.packed_modules_mapping is not None:
+                instance.quant_config.packed_modules_mapping.update(
+                    instance.packed_modules_mapping
+                )
+
+        return instance
+
+    @staticmethod
+    def _find_quant_config(*args, **kwargs) -> QuantizationConfig | None:
+        """Find quant config passed through model constructor args"""
+        from vllm.config import VllmConfig  # avoid circular import
+
+        args_values = list(args) + list(kwargs.values())
+        for arg in args_values:
+            if isinstance(arg, VllmConfig):
+                return arg.quant_config
+
+            if isinstance(arg, QuantizationConfig):
+                return arg
+
+        return None
+
+
+@runtime_checkable
+class SupportsTranscription(Protocol):
+    """The interface required for all models that support transcription."""
+
+    # Mapping from ISO639_1 language codes: language names
+    supported_languages: ClassVar[Mapping[str, str]]
+
+    supports_transcription: ClassVar[Literal[True]] = True
+
+    supports_transcription_only: ClassVar[bool] = False
+    """
+    Transcription models can opt out of text generation by setting this to
+    `True`.
+    """
+
+    def __init_subclass__(cls, **kwargs):
+        super().__init_subclass__(**kwargs)
+        # language codes in supported_languages
+        # that don't exist in the full language map
+        invalid = set(cls.supported_languages) - set(LANGUAGES.keys())
+        if invalid:
+            raise ValueError(
+                f"{cls.__name__}.supported_languages contains invalid "
+                f"language codes: {sorted(invalid)}\n. "
+                f"Valid choices are: {sorted(LANGUAGES.keys())}"
+            )
+
+    @classmethod
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+        language: str | None,
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: str | None,
+    ) -> PromptType:
+        """Get the prompt for the ASR model.
+        The model has control over the construction, as long as it
+        returns a valid PromptType."""
+        ...
+
+    @classmethod
+    def get_other_languages(cls) -> Mapping[str, str]:
+        # other possible language codes from the whisper map
+        return {k: v for k, v in LANGUAGES.items() if k not in cls.supported_languages}
+
+    @classmethod
+    def validate_language(cls, language: str | None) -> str | None:
+        """
+        Ensure the language specified in the transcription request
+        is a valid ISO 639-1 language code. If the request language is
+        valid, but not natively supported by the model, trigger a
+        warning (but not an exception).
+        """
+        if language is None or language in cls.supported_languages:
+            return language
+        elif language in cls.get_other_languages():
+            logger.warning(
+                "Language %r is not natively supported by %s; "
+                "results may be less accurate. Supported languages: %r",
+                language,
+                cls.__name__,
+                list(cls.supported_languages.keys()),
+            )
+            return language
+        else:
+            raise ValueError(
+                f"Unsupported language: {language!r}.  Must be one of "
+                f"{list(cls.supported_languages.keys())}."
+            )
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: Literal["transcribe", "translate"]
+    ) -> SpeechToTextConfig:
+        """Get the speech to text config for the ASR model."""
+        ...
+
+    @classmethod
+    def get_num_audio_tokens(
+        cls,
+        audio_duration_s: float,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+    ) -> int | None:
+        """
+        Map from audio duration to number of audio tokens produced by the ASR
+        model, without running a forward pass.
+        This is used for estimating the amount of processing for this audio.
+        """
+        return None
+
+
+@overload
+def supports_transcription(
+    model: type[object],
+) -> TypeIs[type[SupportsTranscription]]: ...
+
+
+@overload
+def supports_transcription(model: object) -> TypeIs[SupportsTranscription]: ...
+
+
+def supports_transcription(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsTranscription]] | TypeIs[SupportsTranscription]:
+    return getattr(model, "supports_transcription", False)
+
+
+@runtime_checkable
+class SupportsEagleBase(Protocol):
+    """Base interface for models that support EAGLE-based speculative decoding."""
+
+    has_own_lm_head: bool = False
+    """
+    A flag that indicates this model has trained its own lm_head.
+    """
+
+    has_own_embed_tokens: bool = False
+    """
+    A flag that indicates this model has trained its own input embeddings.
+    """
+
+
+@overload
+def supports_any_eagle(model: type[object]) -> TypeIs[type[SupportsEagleBase]]: ...
+
+
+@overload
+def supports_any_eagle(model: object) -> TypeIs[SupportsEagleBase]: ...
+
+
+def supports_any_eagle(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsEagleBase]] | TypeIs[SupportsEagleBase]:
+    """Check if model supports any EAGLE variant (1, 2, or 3)."""
+    return supports_eagle(model) or supports_eagle3(model)
+
+
+@runtime_checkable
+class SupportsEagle(SupportsEagleBase, Protocol):
+    """The interface required for models that support
+    EAGLE-1 and EAGLE-2 speculative decoding."""
+
+    supports_eagle: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports EAGLE-1 and EAGLE-2 
+    speculative decoding.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+
+@overload
+def supports_eagle(model: type[object]) -> TypeIs[type[SupportsEagle]]: ...
+
+
+@overload
+def supports_eagle(model: object) -> TypeIs[SupportsEagle]: ...
+
+
+def supports_eagle(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsEagle]] | TypeIs[SupportsEagle]:
+    return isinstance(model, SupportsEagle)
+
+
+@runtime_checkable
+class SupportsEagle3(SupportsEagleBase, Protocol):
+    """The interface required for models that support
+    EAGLE-3 speculative decoding."""
+
+    supports_eagle3: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports EAGLE-3 
+    speculative decoding.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        """
+        Set which layers should output auxiliary
+        hidden states for EAGLE-3.
+
+        Args:
+            layers: Tuple of layer indices that should output auxiliary
+                hidden states.
+        """
+        ...
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        """
+        Get the layer indices that should output auxiliary hidden states
+        for EAGLE-3.
+
+        Returns:
+            Tuple of layer indices for auxiliary hidden state outputs.
+        """
+        ...
+
+
+@overload
+def supports_eagle3(model: type[object]) -> TypeIs[type[SupportsEagle3]]: ...
+
+
+@overload
+def supports_eagle3(model: object) -> TypeIs[SupportsEagle3]: ...
+
+
+def supports_eagle3(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsEagle3]] | TypeIs[SupportsEagle3]:
+    return isinstance(model, SupportsEagle3)
+
+
+@runtime_checkable
+class SupportsMRoPE(Protocol):
+    """The interface required for all models that support M-RoPE."""
+
+    supports_mrope: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports M-RoPE.
+    
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list["MultiModalFeatureSpec"],
+    ) -> tuple[torch.Tensor, int]:
+        """
+        Get M-RoPE input positions and delta value for this specific model.
+
+        This method should be implemented by each model that supports M-RoPE
+        to provide model-specific logic for computing input positions.
+
+        Args:
+            input_tokens: List of input token IDs
+            mm_features: Information about each multi-modal data item
+
+        Returns:
+            Tuple of `(llm_positions, mrope_position_delta)`
+            - llm_positions: Tensor of shape `[3, num_tokens]` with T/H/W positions
+            - mrope_position_delta: Delta for position calculations
+        """
+        ...
+
+
+@overload
+def supports_mrope(model: type[object]) -> TypeIs[type[SupportsMRoPE]]: ...
+
+
+@overload
+def supports_mrope(model: object) -> TypeIs[SupportsMRoPE]: ...
+
+
+def supports_mrope(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsMRoPE]] | TypeIs[SupportsMRoPE]:
+    return isinstance(model, SupportsMRoPE)
diff --git a/model_executor/models/interfaces_base.py b/model_executor/models/interfaces_base.py
new file mode 100644
index 0000000..4267b6c
--- /dev/null
+++ b/model_executor/models/interfaces_base.py
@@ -0,0 +1,214 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    ClassVar,
+    Literal,
+    Protocol,
+    overload,
+    runtime_checkable,
+)
+
+import torch
+import torch.nn as nn
+from typing_extensions import TypeIs, TypeVar
+
+from vllm.logger import init_logger
+from vllm.utils.func_utils import supports_kw
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.model_executor.layers.pooler import Pooler
+else:
+    VllmConfig = Any
+    Pooler = Any
+
+logger = init_logger(__name__)
+
+# The type of hidden states
+# Currently, T = torch.Tensor for all models except for Medusa
+# which has T = list[torch.Tensor]
+T = TypeVar("T", default=torch.Tensor)
+T_co = TypeVar("T_co", default=torch.Tensor, covariant=True)
+
+# NOTE: Unlike those in `interfaces.py`, we don't define `ClassVar` tags
+# for the base interfaces to avoid breaking OOT registration for existing models
+# that don't inherit from the base interface classes
+
+
+@runtime_checkable
+class VllmModel(Protocol[T_co]):
+    """The interface required for all models in vLLM."""
+
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None: ...
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        """Apply token embeddings to `input_ids`."""
+        if hasattr(self, "get_input_embeddings"):
+            logger.warning_once(
+                "`get_input_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_input_ids`."
+            )
+            return self.get_input_embeddings(input_ids)
+
+    def forward(self, input_ids: torch.Tensor, positions: torch.Tensor) -> T_co: ...
+
+
+def _check_vllm_model_init(model: type[object] | object) -> bool:
+    model_init = model.__init__
+    return supports_kw(model_init, "vllm_config")
+
+
+def _check_vllm_model_embed_input_ids(model: type[object] | object) -> bool:
+    model_embed_input_ids = getattr(model, "embed_input_ids", None)
+    if not callable(model_embed_input_ids):
+        model_get_input_embeddings = getattr(model, "get_input_embeddings", None)
+        if callable(model_get_input_embeddings):
+            logger.warning(
+                "`get_input_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_input_ids`."
+            )
+            model.embed_input_ids = model_get_input_embeddings
+        logger.warning(
+            "The model (%s) is missing the `embed_input_ids` method.",
+            model,
+        )
+        return False
+
+    return True
+
+
+def _check_vllm_model_forward(model: type[object] | object) -> bool:
+    model_forward = getattr(model, "forward", None)
+    if not callable(model_forward):
+        return False
+
+    vllm_kws = ("input_ids", "positions")
+    missing_kws = tuple(kw for kw in vllm_kws if not supports_kw(model_forward, kw))
+
+    if missing_kws and (isinstance(model, type) and issubclass(model, nn.Module)):
+        logger.warning(
+            "The model (%s) is missing "
+            "vLLM-specific keywords from its `forward` method: %s",
+            model,
+            missing_kws,
+        )
+
+    return len(missing_kws) == 0
+
+
+@overload
+def is_vllm_model(model: type[object]) -> TypeIs[type[VllmModel]]: ...
+
+
+@overload
+def is_vllm_model(model: object) -> TypeIs[VllmModel]: ...
+
+
+def is_vllm_model(
+    model: type[object] | object,
+) -> TypeIs[type[VllmModel]] | TypeIs[VllmModel]:
+    return (
+        _check_vllm_model_init(model)
+        and _check_vllm_model_embed_input_ids(model)
+        and _check_vllm_model_forward(model)
+    )
+
+
+@runtime_checkable
+class VllmModelForTextGeneration(VllmModel[T], Protocol[T]):
+    """The interface required for all generative models in vLLM."""
+
+    def compute_logits(
+        self,
+        hidden_states: T,
+    ) -> T | None:
+        """Return `None` if TP rank > 0."""
+        ...
+
+
+@overload
+def is_text_generation_model(
+    model: type[object],
+) -> TypeIs[type[VllmModelForTextGeneration]]: ...
+
+
+@overload
+def is_text_generation_model(model: object) -> TypeIs[VllmModelForTextGeneration]: ...
+
+
+def is_text_generation_model(
+    model: type[object] | object,
+) -> TypeIs[type[VllmModelForTextGeneration]] | TypeIs[VllmModelForTextGeneration]:
+    if not is_vllm_model(model):
+        return False
+
+    if isinstance(model, type):
+        return isinstance(model, VllmModelForTextGeneration)
+
+    return isinstance(model, VllmModelForTextGeneration)
+
+
+@runtime_checkable
+class VllmModelForPooling(VllmModel[T_co], Protocol[T_co]):
+    """The interface required for all pooling models in vLLM."""
+
+    is_pooling_model: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports pooling.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+    default_pooling_type: ClassVar[str] = "LAST"
+    """
+    Indicates the
+    [vllm.model_executor.layers.pooler.PoolerConfig.pooling_type][]
+    to use by default.
+
+    You can use the
+    [vllm.model_executor.models.interfaces_base.default_pooling_type][]
+    decorator to conveniently set this field.
+    """
+
+    pooler: Pooler
+    """The pooler is only called on TP rank 0."""
+
+
+@overload
+def is_pooling_model(model: type[object]) -> TypeIs[type[VllmModelForPooling]]: ...
+
+
+@overload
+def is_pooling_model(model: object) -> TypeIs[VllmModelForPooling]: ...
+
+
+def is_pooling_model(
+    model: type[object] | object,
+) -> TypeIs[type[VllmModelForPooling]] | TypeIs[VllmModelForPooling]:
+    if not is_vllm_model(model):
+        return False
+
+    return getattr(model, "is_pooling_model", False)
+
+
+_T = TypeVar("_T", bound=type[nn.Module])
+
+
+def default_pooling_type(pooling_type: str):
+    """Decorator to set `VllmModelForPooling.default_pooling_type`."""
+
+    def func(model: _T) -> _T:
+        model.default_pooling_type = pooling_type  # type: ignore
+        return model
+
+    return func
+
+
+def get_default_pooling_type(model: type[object] | object) -> str:
+    return getattr(model, "default_pooling_type", "LAST")
diff --git a/model_executor/models/intern_vit.py b/model_executor/models/intern_vit.py
new file mode 100644
index 0000000..0391812
--- /dev/null
+++ b/model_executor/models/intern_vit.py
@@ -0,0 +1,453 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-4B/blob/main/modeling_intern_vit.py
+# --------------------------------------------------------
+# InternVL
+# Copyright (c) 2023 OpenGVLab
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Iterable
+from functools import partial
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import PretrainedConfig
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .vision import run_dp_sharded_vision_model
+
+NORM2FN = {
+    "rms_norm": RMSNorm,
+    "layer_norm": nn.LayerNorm,
+}
+
+
+class InternVisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.class_embedding = nn.Parameter(torch.randn(1, 1, self.embed_dim))
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=3,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches + 1
+
+        self.position_embedding = nn.Parameter(
+            torch.randn(1, self.num_positions, self.embed_dim)
+        )
+
+    def _get_pos_embed(self, pos_embed: torch.Tensor, H: int, W: int):
+        target_dtype = pos_embed.dtype
+        pos_embed = (
+            pos_embed.float()
+            .reshape(
+                1,
+                self.image_size // self.patch_size,
+                self.image_size // self.patch_size,
+                -1,
+            )
+            .permute(0, 3, 1, 2)
+        )
+        pos_embed = F.interpolate(
+            pos_embed, size=(H, W), mode="bicubic", align_corners=False
+        )
+        return pos_embed.reshape(1, -1, H * W).permute(0, 2, 1).to(target_dtype)
+
+    def _get_position_embedding(self, H: int, W: int) -> torch.Tensor:
+        position_embedding = self.position_embedding
+        if self.num_patches == H * W:
+            return position_embedding
+
+        return torch.cat(
+            [
+                position_embedding[:, :1, :],
+                self._get_pos_embed(position_embedding[:, 1:, :], H, W),
+            ],
+            dim=1,
+        )
+
+    def forward(self, pixel_values: torch.FloatTensor) -> torch.Tensor:
+        target_dtype = self.patch_embedding.weight.dtype
+        patch_embeds = self.patch_embedding(
+            pixel_values.to(target_dtype)
+        )  # shape = [*, channel, width, height]
+        batch_size, _, height, width = patch_embeds.shape
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1).to(target_dtype)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+        position_embedding = self._get_position_embedding(height, width)
+        embeddings = embeddings + position_embedding.to(target_dtype)
+        return embeddings
+
+
+class InternVisionPatchModel(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embeddings = InternVisionEmbeddings(config)
+
+    def get_input_embeddings(self):
+        return self.embeddings
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor | None = None,
+        pixel_embeds: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        if pixel_values is None and pixel_embeds is None:
+            raise ValueError("You have to specify pixel_values or pixel_embeds")
+
+        if pixel_embeds is not None:
+            hidden_states = pixel_embeds
+        elif pixel_values is not None:
+            if pixel_values.ndim == 4:
+                hidden_states = self.embeddings(pixel_values)
+            else:
+                raise ValueError(f"wrong pixel_values size: {pixel_values.shape}")
+
+        return hidden_states
+
+
+class InternParallelAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+
+        self.tp_size = (
+            1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        )
+        self.tp_rank = 0 if use_data_parallel else get_tensor_model_parallel_rank()
+
+        # Additional dummy heads are used to enable TP for common GPU counts.
+        self.dummy_dim = (num_dummy_heads + self.num_heads) * self.head_dim
+        self.num_heads_per_partition = divide(
+            num_dummy_heads + self.num_heads, self.tp_size
+        )
+
+        self.scale = self.head_dim**-0.5
+        self.qkv = QKVParallelLinear(
+            self.embed_dim,
+            self.head_dim,
+            num_dummy_heads + self.num_heads,
+            bias=config.qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+            disable_tp=use_data_parallel,
+        )
+
+        self.qk_normalization = config.qk_normalization
+
+        if self.qk_normalization:
+            self.q_norm = RMSNorm(
+                self.dummy_dim,
+                eps=config.layer_norm_eps,
+                var_hidden_size=self.embed_dim,
+            )
+            self.k_norm = RMSNorm(
+                self.dummy_dim,
+                eps=config.layer_norm_eps,
+                var_hidden_size=self.embed_dim,
+            )
+
+        self.proj = RowParallelLinear(
+            self.dummy_dim,
+            self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            disable_tp=use_data_parallel,
+        )
+
+        self.attn = MultiHeadAttention(
+            self.num_heads_per_partition, self.head_dim, self.scale
+        )
+
+    def _apply_qk_norm(self, q: torch.Tensor, k: torch.Tensor):
+        if self.tp_size > 1:
+            q = tensor_model_parallel_all_gather(q.contiguous())
+            k = tensor_model_parallel_all_gather(k.contiguous())
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+        return q, k
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        B, N, _ = x.shape
+        qkv, _ = self.qkv(x)
+        q, k, v = qkv.chunk(3, dim=-1)
+
+        if self.qk_normalization:
+            q, k = self._apply_qk_norm(q, k)
+
+        out = self.attn(q, k, v)
+        out, _ = self.proj(out)
+        return out
+
+
+class InternMLP(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+
+        return hidden_states
+
+
+class InternVisionEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.embed_dim = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.norm_type = config.norm_type
+
+        self.attn = self._init_attn(
+            config,
+            quant_config,
+            num_dummy_heads=num_dummy_heads,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+        )
+
+        self.mlp = InternMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+        self.norm1 = NORM2FN[self.norm_type](self.embed_dim, eps=config.layer_norm_eps)
+        self.norm2 = NORM2FN[self.norm_type](self.embed_dim, eps=config.layer_norm_eps)
+
+        self.ls1 = nn.Parameter(config.initializer_factor * torch.ones(self.embed_dim))
+        self.ls2 = nn.Parameter(config.initializer_factor * torch.ones(self.embed_dim))
+
+    def _init_attn(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        num_dummy_heads: int,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        # fallback to sdpa attention if tp unavailable
+        tp_size = 1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        num_heads = config.num_attention_heads
+
+        # if the number of heads is not divisible by tp_size,
+        # we also disable Attention's TP
+        use_data_parallel = (
+            use_data_parallel or (num_heads + num_dummy_heads) % tp_size != 0
+        )
+        return InternParallelAttention(
+            config,
+            quant_config=quant_config,
+            num_dummy_heads=num_dummy_heads,
+            prefix=prefix,
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        hidden_states = hidden_states + self.attn(self.norm1(hidden_states)) * self.ls1
+
+        hidden_states = hidden_states + self.mlp(self.norm2(hidden_states)) * self.ls2
+
+        return hidden_states
+
+
+class InternVisionEncoder(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layers = nn.ModuleList(
+            [
+                InternVisionEncoderLayer(
+                    config,
+                    quant_config,
+                    num_dummy_heads=num_dummy_heads,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(self, inputs_embeds: torch.Tensor):
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(hidden_states)
+
+        return hidden_states
+
+
+class InternVisionModel(nn.Module):
+    packed_modules_mapping = {
+        "qkv": ["qkv"],
+    }
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.use_data_parallel = use_data_parallel
+
+        self.embeddings = InternVisionEmbeddings(config)
+        self.encoder = InternVisionEncoder(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            num_dummy_heads=num_dummy_heads,
+            prefix=f"{prefix}.encoder",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def get_input_embeddings(self):
+        return self.embeddings
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor | None = None,
+        pixel_embeds: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        if pixel_values is None and pixel_embeds is None:
+            raise ValueError("You have to specify pixel_values or pixel_embeds")
+
+        if pixel_embeds is not None:
+            hidden_states = pixel_embeds
+        elif pixel_values is not None:
+            if pixel_values.ndim == 4:
+                hidden_states = self.embeddings(pixel_values)
+            else:
+                raise ValueError(f"wrong pixel_values size: {pixel_values.shape}")
+
+        if self.use_data_parallel:
+            encoder_outputs = run_dp_sharded_vision_model(hidden_states, self.encoder)
+        else:
+            encoder_outputs = self.encoder(inputs_embeds=hidden_states)
+
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/internlm2.py b/model_executor/models/internlm2.py
new file mode 100644
index 0000000..60fbeb8
--- /dev/null
+++ b/model_executor/models/internlm2.py
@@ -0,0 +1,460 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+from functools import partial
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .interfaces_base import default_pooling_type
+from .utils import (
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class InternLM2MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.w2 = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w2",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.w2(x)
+        return x
+
+
+class InternLM2Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % self.tp_size == 0
+        self.num_heads = self.total_num_heads // self.tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= self.tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % self.tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // self.tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.key_value_groups = int(self.num_heads / self.num_kv_heads)
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.wqkv = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wqkv",
+        )
+        self.wo = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wo",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def split_qkv(self, qkv: torch.Tensor):
+        seq_len = qkv.shape[0]
+        if self.tp_size > 1:
+            qkv_map = [self.q_size, self.kv_size, self.kv_size] * self.tp_size
+            qkv = tensor_model_parallel_all_gather(qkv)
+            qkv = torch.split(qkv, qkv_map, dim=-1)
+            qkv = qkv[::3] + qkv[1::3] + qkv[2::3]
+            qkv = torch.cat(qkv, dim=-1)
+
+        qkv = qkv.view(
+            seq_len, self.total_num_kv_heads, self.key_value_groups + 2, self.head_dim
+        )
+        q, k, v = torch.split(qkv, [self.key_value_groups, 1, 1], dim=-2)
+        q = q.reshape(seq_len, self.q_size * self.tp_size)
+        k = k.reshape(seq_len, self.kv_size * self.tp_size)
+        v = v.reshape(seq_len, self.kv_size * self.tp_size)
+
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+            v = splitter(v)[self.tp_rank]
+        return q, k, v
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.wqkv(hidden_states)
+        q, k, v = self.split_qkv(qkv)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.wo(attn_output)
+        return output
+
+
+class InternLMDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.attention = InternLM2Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attention",
+        )
+        self.feed_forward = InternLM2MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
+        )
+        self.attention_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.attention_norm(hidden_states)
+        else:
+            hidden_states, residual = self.attention_norm(hidden_states, residual)
+        hidden_states = self.attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.ffn_norm(hidden_states, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class InternLM2Model(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[InternLMDecoderLayer] = InternLMDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+        self.tok_embeddings = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: layer_type(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.tok_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class InternLM2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "wqkv": ["wqkv"],
+        "gate_up_proj": ["w1", "w3"],
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        model_type: type[InternLM2Model] = InternLM2Model,
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.model = model_type(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.output = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "output"),
+        )
+        if self.config.tie_word_embeddings:
+            self.output.weight = self.model.tok_embeddings.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.output, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "w1", 0),
+            ("gate_up_proj", "w3", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@default_pooling_type("ALL")
+class InternLM2ForRewardModel(InternLM2ForCausalLM):
+    is_pooling_model = True
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        model_type: type[InternLM2Model] = InternLM2Model,
+    ):
+        super().__init__(vllm_config=vllm_config, prefix=prefix, model_type=model_type)
+
+        for attr in ("output", "logits_processor"):
+            delattr(self, attr)
+
+        config = vllm_config.model_config.hf_config
+        self.head_dtype = vllm_config.model_config.head_dtype
+
+        self.v_head = RowParallelLinear(
+            config.hidden_size,
+            1,
+            bias=False,
+            input_is_parallel=False,
+            params_dtype=self.head_dtype,
+            prefix=maybe_prefix(prefix, "v_head"),
+            return_bias=False,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {"token_classify": Pooler.for_token_classify(pooler_config)}
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        hidden_states = hidden_states.to(self.head_dtype)
+        logits = self.v_head(hidden_states)
+        return logits
diff --git a/model_executor/models/internlm2_ve.py b/model_executor/models/internlm2_ve.py
new file mode 100644
index 0000000..6dc081e
--- /dev/null
+++ b/model_executor/models/internlm2_ve.py
@@ -0,0 +1,142 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.internlm2 import (
+    InternLM2Attention,
+    InternLM2ForCausalLM,
+    InternLM2MLP,
+    InternLM2Model,
+)
+from vllm.sequence import IntermediateTensors
+
+
+class InternLM2VEDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.attention = InternLM2Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attention",
+        )
+        self.feed_forward = InternLM2MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
+        )
+        self.feed_forward_ve = InternLM2MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward_ve",
+        )
+        self.attention_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        visual_token_mask: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.attention_norm(hidden_states)
+        else:
+            hidden_states, residual = self.attention_norm(hidden_states, residual)
+        hidden_states = self.attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.ffn_norm(hidden_states, residual)
+        if visual_token_mask is not None and visual_token_mask.any():
+            visual_token_mask = visual_token_mask.repeat(1, self.hidden_size).bool()
+            text_token_mask = ~visual_token_mask
+            hidden_states[visual_token_mask] = self.feed_forward_ve(
+                hidden_states[visual_token_mask].reshape(-1, self.hidden_size)
+            ).flatten()
+            if text_token_mask.any():
+                hidden_states[text_token_mask] = self.feed_forward(
+                    hidden_states[text_token_mask].reshape(-1, self.hidden_size)
+                ).flatten()
+        else:
+            hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+class InternLM2VEModel(InternLM2Model):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, layer_type=InternLM2VEDecoderLayer
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        visual_token_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.tok_embeddings(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+                visual_token_mask=visual_token_mask,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class InternLM2VEForCausalLM(InternLM2ForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, model_type=InternLM2VEModel
+        )
diff --git a/model_executor/models/interns1.py b/model_executor/models/interns1.py
new file mode 100644
index 0000000..c2195fd
--- /dev/null
+++ b/model_executor/models/interns1.py
@@ -0,0 +1,830 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# --------------------------------------------------------
+# InternS1
+# Copyright (c) 2025 Shanghai AI Lab
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import regex as re
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, InternVLProcessor, PretrainedConfig
+from transformers.activations import ACT2FN
+from transformers.models.got_ocr2.image_processing_got_ocr2_fast import (
+    GotOcr2ImageProcessorFast,
+)
+from transformers.models.internvl.video_processing_internvl import (
+    InternVLVideoProcessor,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.interns1_vit import InternS1VisionModel
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processor import cached_video_processor_from_config
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+
+class InternS1MultiModalProjector(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.layer_norm = nn.LayerNorm(
+            config.vision_config.hidden_size * int(1 / config.downsample_ratio) ** 2
+        )
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size * int(1 / config.downsample_ratio) ** 2,
+            config.text_config.hidden_size,
+        )
+        self.act = ACT2FN[config.projector_hidden_act]
+        self.linear_2 = nn.Linear(
+            config.text_config.hidden_size, config.text_config.hidden_size
+        )
+
+    def forward(self, image_features):
+        hidden_states = self.layer_norm(image_features)
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class InternS1ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of images * (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class InternS1ImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - ni: Number of images
+        - tifs: Total image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("ni", "tifs", "hs")]
+
+
+InternS1ImageInputs: TypeAlias = InternS1ImagePixelInputs | InternS1ImageEmbeddingInputs
+
+
+class InternS1VideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnv: Batch size * number of videos * number of frames
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values_videos"] = "pixel_values_videos"
+    pixel_values: Annotated[torch.Tensor, TensorShape("bnv", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class InternS1VideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nv: Number of videos
+        - tvfs: Total video feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["video_embeds"] = "video_embeds"
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("nv", "tvfs", "hs")]
+
+
+InternS1VideoInputs: TypeAlias = InternS1VideoPixelInputs | InternS1VideoEmbeddingInputs
+
+
+def resolve_interns1_min_max_num(
+    min_dynamic_patch: int,
+    max_dynamic_patch: int,
+    dynamic_image_size: bool,
+    use_thumbnail: bool,
+) -> tuple[int, int]:
+    min_dynamic_patch = min_dynamic_patch if dynamic_image_size else 1
+    max_dynamic_patch = max_dynamic_patch if dynamic_image_size else 1
+
+    if use_thumbnail and max_dynamic_patch != 1:
+        max_dynamic_patch += 1
+
+    return min_dynamic_patch, max_dynamic_patch
+
+
+def get_interns1_target_ratios(
+    min_num: int,
+    max_num: int,
+) -> list[tuple[int, int]]:
+    target_ratios = {
+        (i, j)
+        for n in range(min_num, max_num + 1)
+        for i in range(1, n + 1)
+        for j in range(1, n + 1)
+        if min_num <= i * j <= max_num
+    }
+    return sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+
+class InternS1ProcessingInfo(BaseProcessingInfo):
+    """ProcessingInfo for InternS1-style models."""
+
+    def get_hf_processor(self, **kwargs: object) -> InternVLProcessor:
+        hf_processor = self.ctx.get_hf_processor(InternVLProcessor, **kwargs)
+        hf_processor.video_processor = cached_video_processor_from_config(
+            self.ctx.model_config,
+            processor_cls=InternVLVideoProcessor,
+            size=hf_processor.image_processor.size,
+            **kwargs,
+        )
+        return hf_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: GotOcr2ImageProcessorFast | None = None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor().image_processor
+
+        if not isinstance(processor, GotOcr2ImageProcessorFast):
+            raise ValueError(
+                f"GotOcr2ImageProcessorFast is expected but got {type(processor)}"
+            )
+        num_image_patches = processor.get_number_of_image_patches(
+            image_height, image_width, images_kwargs=dict()
+        )
+        num_image_tokens = self.get_hf_processor().image_seq_length * num_image_patches
+        return num_image_tokens
+
+    def resolve_target_ratios(self, use_thumbnail: bool | None = None):
+        image_processor = self.get_hf_processor().image_processor
+        min_dynamic_patch = image_processor.min_patches
+        max_dynamic_patch = image_processor.max_patches
+        # HF format's InternVL processor uses `crop_to_patches` which is
+        # equivalent to `use_thumbnail` in original format.
+        use_thumbnail = image_processor.crop_to_patches
+        dynamic_image_size = True
+        min_num, max_num = resolve_interns1_min_max_num(
+            min_dynamic_patch,
+            max_dynamic_patch,
+            dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+        return get_interns1_target_ratios(min_num, max_num)
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        hf_config = self.ctx.get_hf_config()
+        base_height, base_width = hf_config.vision_config.image_size
+        target_ratios = self.resolve_target_ratios()
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for wr, hr in target_ratios:
+            width, height = base_width * wr, base_height * hr
+
+            feat_size = self.get_num_image_tokens(
+                image_width=width,
+                image_height=height,
+                processor=processor.image_processor,
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        assert not (largest_feature_size == 0 or largest_feature_pinpoint is None), (
+            "Cannot have a largest feature size of 0!"
+        )
+
+        return largest_feature_pinpoint
+
+    def get_max_image_tokens(self) -> int:
+        processor = self.get_hf_processor()
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            processor=processor.image_processor,
+        )
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        processor = self.get_hf_processor()
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = (seq_len - max_image_tokens) // processor.image_seq_length
+        max_frames_per_video = max_total_frames // max(max_videos, 1)
+
+        return max(max_frames_per_video, 1)
+
+
+class InternS1DummyInputsBuilder(BaseDummyInputsBuilder[InternS1ProcessingInfo]):
+    """DummyInputsBuilder for InternS1-style models."""
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+        image_token = self.info.get_hf_processor().image_token
+        video_token = self.info.get_hf_processor().video_token
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        config = self.info.get_hf_config()
+        image_size_h, image_size_w = config.vision_config.image_size
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=image_size_w,
+                height=image_size_h,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+
+class InternS1MultiModalProcessor(BaseMultiModalProcessor[InternS1ProcessingInfo]):
+    """Basic image-only MultiModalProcessor for InternS1-style models."""
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        videos = mm_data.pop("videos", [])
+        images = mm_data.pop("images", [])
+        assert isinstance(videos, list)
+        assert isinstance(images, list)
+
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+        tokenizer = hf_processor.tokenizer
+        video_token_id = tokenizer.encode(
+            hf_processor.video_token, add_special_tokens=False
+        )
+        assert len(video_token_id) == 1
+        video_token_id = video_token_id[0]
+
+        prompt = re.sub(hf_processor.image_token, "<image_placeholder>", prompt)
+        prompt = re.sub(hf_processor.video_token, "<video_placeholder>", prompt)
+
+        image_outputs = {}
+        if images:
+            image_pixel_values = []
+            for image in images:
+                processed_outputs = super()._call_hf_processor(
+                    prompt=hf_processor.image_token,
+                    mm_data={"images": image},
+                    mm_kwargs=mm_kwargs,
+                    tok_kwargs=tok_kwargs,
+                )
+                image_pixel_values.append(processed_outputs.pop("pixel_values"))
+
+                input_ids = processed_outputs.pop("input_ids")
+                image_placeholder = tokenizer.batch_decode(input_ids)[0]
+                prompt = prompt.replace("<image_placeholder>", image_placeholder, 1)
+
+            num_patches = [len(item) for item in image_pixel_values]
+            image_outputs = {
+                "pixel_values": torch.concat(image_pixel_values),
+                "image_num_patches": torch.tensor(num_patches),
+                "image_token_id": torch.tensor(hf_processor.image_token_id),
+            }
+
+        video_outputs = {}
+        if videos:
+            video_pixel_values = []
+            for video in videos:
+                processed_outputs = super()._call_hf_processor(
+                    prompt=hf_processor.video_token,
+                    mm_data={"videos": video},
+                    mm_kwargs=mm_kwargs,
+                    tok_kwargs=tok_kwargs,
+                )
+                video_pixel_values.append(processed_outputs.pop("pixel_values"))
+
+                input_ids = processed_outputs.pop("input_ids")
+                input_ids[input_ids == hf_processor.image_token_id] = video_token_id
+
+                video_placeholder = tokenizer.batch_decode(input_ids)[0]
+                prompt = prompt.replace("<video_placeholder>", video_placeholder, 1)
+
+            num_frames = [len(item) for item in video_pixel_values]
+            video_outputs = {
+                "pixel_values_videos": torch.concat(video_pixel_values),
+                "video_num_patches": torch.tensor(num_frames),
+                "video_token_id": torch.tensor(video_token_id),
+            }
+
+        prompt = re.sub("<image_placeholder>", hf_processor.image_token, prompt)
+        prompt = re.sub("<video_placeholder>", hf_processor.video_token, prompt)
+        text_outputs = tokenizer(prompt, **tok_kwargs, return_tensors="pt")
+
+        return BatchFeature({**text_outputs, **image_outputs, **video_outputs})
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_num_patches = hf_inputs.get("image_num_patches", torch.empty(0))
+        video_num_patches = hf_inputs.get("video_num_patches", torch.empty(0))
+        num_images = len(image_num_patches)
+        num_videos = len(video_num_patches)
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_num_patches
+            ),
+            image_num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+            image_token_id=MultiModalFieldConfig.shared("image", num_images),
+            pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_num_patches
+            ),
+            video_num_patches=MultiModalFieldConfig.batched("video"),
+            video_token_id=MultiModalFieldConfig.shared("video", num_videos),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        img_context_token = hf_processor.image_token
+        start_image_token = hf_processor.start_image_token
+        end_image_token = hf_processor.end_image_token
+        video_token = hf_processor.video_token
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "video_num_patches" in out_mm_data:
+            video_num_patches = out_mm_data["video_num_patches"]
+            assert isinstance(video_num_patches, torch.Tensor)
+            video_num_patches = video_num_patches.tolist()
+        else:
+            video_num_patches = []
+
+        if "image_num_patches" in out_mm_data:
+            image_num_patches = out_mm_data["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        else:
+            image_num_patches = []
+
+        def get_replacement_interns1_image(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                num_patches = image_num_patches[item_idx]
+                feature_size = num_patches * hf_processor.image_seq_length
+
+            repl_features = img_context_token * feature_size
+            repl_full = start_image_token + repl_features + end_image_token
+            return PromptUpdateDetails.select_text(repl_full, img_context_token)
+
+        def get_replacement_interns1_video(item_idx: int):
+            num_patches = video_num_patches[item_idx]
+            repl_features = video_token * hf_processor.image_seq_length
+            repl_features_with_sep = start_image_token + repl_features + end_image_token
+            # num_patches is equal to num_frames
+            repl_full = "\n".join(
+                [f"Frame{i + 1}: {repl_features_with_sep}" for i in range(num_patches)]
+            )
+
+            return PromptUpdateDetails.select_text(repl_full, video_token)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=img_context_token,
+                replacement=get_replacement_interns1_image,
+            ),
+            PromptReplacement(
+                modality="video",
+                target=video_token,
+                replacement=get_replacement_interns1_video,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    InternS1MultiModalProcessor,
+    info=InternS1ProcessingInfo,
+    dummy_inputs=InternS1DummyInputsBuilder,
+)
+class InternS1ForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA
+):
+    merge_by_field_config = True
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "lm_head.": "language_model.lm_head.",
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        # transformers InternVLProcessor uses <IMG_CONTEXT> as the separator
+        # refer to https://github.com/huggingface/transformers/blob/f90de364c2484c7c325bbe05befdcf487bd75b63/src/transformers/models/internvl/processing_internvl.py#L116
+        if modality.startswith("image"):
+            return "<IMG_CONTEXT>"
+        if modality.startswith("video"):
+            return "<video>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        image_size = config.vision_config.image_size[0]
+        patch_size = config.vision_config.patch_size[0]
+        self.patch_size = patch_size
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+
+        self.llm_arch_name = config.text_config.architectures[0]
+        self.vision_tower = self._init_vision_model(
+            config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.multi_modal_projector = self._init_mlp1(config)
+
+        self.img_context_token_id = None
+        self.video_context_token_id = None
+
+        self.visual_token_mask = None
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        prefix: str,
+    ):
+        num_hidden_layers = config.vision_config.num_hidden_layers
+        return InternS1VisionModel(
+            config.vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            prefix=prefix,
+        )
+
+    def _init_mlp1(self, config: PretrainedConfig) -> nn.Module:
+        return InternS1MultiModalProjector(config)
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(n, w, int(h * scale_factor), int(c / scale_factor))
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        vit_embeds = self.vision_tower(pixel_values=pixel_values)
+        vit_embeds = vit_embeds[:, 1:, :]
+
+        h = w = int(vit_embeds.shape[1] ** 0.5)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+        vit_embeds = self.pixel_shuffle(vit_embeds, scale_factor=self.downsample_ratio)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], -1, vit_embeds.shape[-1])
+
+        vit_embeds = self.multi_modal_projector(vit_embeds)
+        return vit_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> InternS1ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_num_patches = kwargs.pop("image_num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return InternS1ImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        image_token_id = kwargs["image_token_id"]
+        if isinstance(image_token_id, torch.Tensor):
+            image_token_id = image_token_id.flatten().unique().item()
+
+        assert isinstance(image_token_id, int)
+        self.img_context_token_id = image_token_id
+
+        if pixel_values is not None:
+            h, w = self.config.vision_config.image_size
+            return InternS1ImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                num_patches=image_num_patches,
+                resolve_bindings={
+                    "h": h,
+                    "w": w,
+                },
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> InternS1VideoInputs | None:
+        pixel_values_flat_video = kwargs.pop("pixel_values_videos", None)
+        video_num_patches = kwargs.pop("video_num_patches", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+
+        if pixel_values_flat_video is None and video_embeds is None:
+            return None
+
+        if video_embeds is not None:
+            return InternS1VideoEmbeddingInputs(
+                type="video_embeds",
+                data=video_embeds,
+            )
+
+        video_token_id = kwargs["video_token_id"]
+        if isinstance(video_token_id, torch.Tensor):
+            video_token_id = video_token_id.flatten().unique().item()
+
+        assert isinstance(video_token_id, int)
+        self.video_context_token_id = video_token_id
+
+        if pixel_values_flat_video is not None:
+            h, w = self.config.vision_config.image_size
+            return InternS1VideoPixelInputs(
+                type="pixel_values_videos",
+                num_patches=video_num_patches,
+                pixel_values=pixel_values_flat_video,
+                resolve_bindings={
+                    "h": h,
+                    "w": w,
+                },
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_vision_input(
+        self,
+        image_input: InternS1ImageInputs | InternS1VideoInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        if (
+            image_input["type"] == "image_embeds"
+            or image_input["type"] == "video_embeds"
+        ):
+            return image_input["data"]
+
+        assert self.vision_tower is not None
+
+        image_embeds = self.extract_feature(image_input["pixel_values"])
+
+        num_patches = image_input["num_patches"]
+
+        # Only one image in the current batch
+        if len(num_patches) == 1:
+            return (image_embeds.view(-1, self.config.text_config.hidden_size),)
+
+        # NOTE: Image embeddings are split into separate tensors for each image
+        # by the size of each embedding.
+        feature_size = image_embeds.shape[1]
+        image_embeds = image_embeds.view(-1, self.config.text_config.hidden_size)
+        image_feature_sizes = [
+            num_patches * feature_size for num_patches in num_patches
+        ]
+        return image_embeds.split(image_feature_sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if input_key in ("pixel_values_videos",) and "videos" not in modalities:
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
+        self.visual_token_mask = None
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_vision_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_vision_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        if multimodal_embeddings is not None and len(multimodal_embeddings) > 0:
+            self._set_visual_token_mask(input_ids)
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            input_ids = None
+            inputs_embeds = None
+
+        forward_kwargs = {
+            "input_ids": input_ids,
+            "positions": positions,
+            "intermediate_tensors": intermediate_tensors,
+            "inputs_embeds": inputs_embeds,
+        }
+
+        hidden_states = self.language_model.model(**forward_kwargs)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector",
+            tower_model="vision_tower",
+        )
diff --git a/model_executor/models/interns1_vit.py b/model_executor/models/interns1_vit.py
new file mode 100644
index 0000000..507503d
--- /dev/null
+++ b/model_executor/models/interns1_vit.py
@@ -0,0 +1,432 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-4B/blob/main/modeling_intern_vit.py
+# --------------------------------------------------------
+# InternVL
+# Copyright (c) 2023 OpenGVLab
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+from transformers.utils import torch_int
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+NORM2FN = {
+    "rms_norm": RMSNorm,
+    "layer_norm": nn.LayerNorm,
+}
+
+
+class InternS1VisionPatchEmbeddings(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        image_size, patch_size = config.image_size, config.patch_size
+        num_channels, hidden_size = config.num_channels, config.hidden_size
+
+        num_patches = (image_size[1] // patch_size[1]) * (
+            image_size[0] // patch_size[0]
+        )
+        patch_shape = (image_size[0] // patch_size[0], image_size[1] // patch_size[1])
+        self.image_size = image_size
+        self.patch_size = patch_size
+        self.num_channels = num_channels
+        self.num_patches = num_patches
+        self.patch_shape = patch_shape
+
+        self.projection = nn.Conv2d(
+            num_channels, hidden_size, kernel_size=patch_size, stride=patch_size
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        batch_size, num_channels, height, width = pixel_values.shape
+        if num_channels != self.num_channels:
+            raise ValueError(
+                "Make sure that the channel dimension of the pixel values "
+                "match with the one set in the configuration."
+            )
+
+        embeddings = self.projection(pixel_values.to(self.projection.weight.dtype))
+        patch_height, patch_width = embeddings.shape[2], embeddings.shape[3]
+        embeddings = embeddings.flatten(2).transpose(1, 2)
+
+        return embeddings, (patch_height, patch_width)
+
+
+class InternS1VisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.cls_token = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+        if config.use_mask_token:
+            self.mask_token = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+        else:
+            self.mask_token = None
+        self.patch_embeddings = InternS1VisionPatchEmbeddings(config)
+        self.patch_size = config.patch_size
+        self.image_size = (
+            config.image_size
+            if isinstance(config.image_size, Iterable)
+            else (config.image_size, config.image_size)
+        )
+        num_patches = self.patch_embeddings.num_patches
+        if config.use_absolute_position_embeddings:
+            self.position_embeddings = nn.Parameter(
+                torch.zeros(1, num_patches + 1, config.hidden_size)
+            )
+        else:
+            self.position_embeddings = None
+
+    def interpolate_pos_encoding(
+        self, embeddings: torch.Tensor, height: int, width: int
+    ) -> torch.Tensor:
+        """
+        This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
+        images. This method is also adapted to support torch.jit tracing.
+
+        Adapted from:
+        - https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
+        - https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
+        """  # noqa: E501
+
+        num_patches = embeddings.shape[1] - 1
+        num_positions = self.position_embeddings.shape[1] - 1
+
+        # always interpolate when tracing to ensure the exported model
+        # works for dynamic input shapes
+        if (
+            not torch.jit.is_tracing()
+            and num_patches == num_positions
+            and height == width
+        ):
+            return self.position_embeddings
+
+        class_pos_embed = self.position_embeddings[:, :1]
+        patch_pos_embed = self.position_embeddings[:, 1:]
+
+        dim = embeddings.shape[-1]
+
+        new_height = height // self.patch_size[0]
+        new_width = width // self.patch_size[1]
+
+        sqrt_num_positions = torch_int(num_positions**0.5)
+        patch_pos_embed = patch_pos_embed.reshape(
+            1, sqrt_num_positions, sqrt_num_positions, dim
+        )
+        patch_pos_embed = patch_pos_embed.permute(0, 3, 1, 2)
+
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed,
+            size=(new_height, new_width),
+            mode="bicubic",
+            align_corners=False,
+        )
+
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+
+        return torch.cat((class_pos_embed, patch_pos_embed), dim=1)
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        bool_masked_pos: torch.BoolTensor | None = None,
+    ) -> torch.Tensor:
+        _, _, height, width = pixel_values.shape
+        embeddings, (patch_height, patch_width) = self.patch_embeddings(pixel_values)
+        batch_size, seq_len, _ = embeddings.size()
+
+        if bool_masked_pos is not None:
+            mask_tokens = self.mask_token.expand(batch_size, seq_len, -1)
+            # replace the masked visual tokens by mask_tokens
+            w = bool_masked_pos.unsqueeze(-1).type_as(mask_tokens)
+            embeddings = embeddings * (1 - w) + mask_tokens * w
+
+        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
+        embeddings = torch.cat((cls_tokens, embeddings), dim=1)
+
+        if self.position_embeddings is not None:
+            embeddings = embeddings + self.interpolate_pos_encoding(
+                embeddings, height, width
+            )
+
+        return embeddings, (patch_height, patch_width)
+
+
+class InternSdpaAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        *,
+        num_dummy_heads: int = 0,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+
+        # Additional dummy heads are used to enable TP for common GPU counts.
+        self.dummy_dim = (num_dummy_heads + self.num_heads) * self.head_dim
+
+        self.scale = self.head_dim**-0.5
+
+        self.q_proj = nn.Linear(
+            self.embed_dim, self.num_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.k_proj = nn.Linear(
+            self.embed_dim, self.num_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.v_proj = nn.Linear(
+            self.embed_dim, self.num_heads * self.head_dim, bias=config.attention_bias
+        )
+
+        self.qk_normalization = config.use_qk_norm
+        if self.qk_normalization:
+            self.q_norm = RMSNorm(
+                self.dummy_dim,
+                eps=config.layer_norm_eps,
+                var_hidden_size=self.embed_dim,
+            )
+            self.k_norm = RMSNorm(
+                self.dummy_dim,
+                eps=config.layer_norm_eps,
+                var_hidden_size=self.embed_dim,
+            )
+
+        self.projection_layer = nn.Linear(self.dummy_dim, self.embed_dim)
+
+        # Use unified MultiHeadAttention with automatic backend selection
+        self.attn = MultiHeadAttention(self.num_heads, self.head_dim, self.scale)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """x shape: (B, N, C)"""
+
+        q = self.q_proj(x)
+        k = self.k_proj(x)
+        v = self.v_proj(x)
+
+        if self.qk_normalization:
+            q = self.q_norm(q)
+            k = self.k_norm(k)
+
+        # Use unified MultiHeadAttention with automatic backend selection
+        x = self.attn(q, k, v)
+
+        x = self.projection_layer(x)
+        return x
+
+
+class InternS1VisionMLP(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+
+        return hidden_states
+
+
+class InternS1VisionLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.attention = self._init_attn(
+            config,
+            quant_config,
+            num_dummy_heads=num_dummy_heads,
+            prefix=f"{prefix}.attention",
+        )
+
+        self.mlp = InternS1VisionMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+        self.layernorm_before = NORM2FN[config.norm_type](
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.layernorm_after = NORM2FN[config.norm_type](
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+
+        init_values = config.layer_scale_init_value
+        self.lambda_1 = nn.Parameter(
+            init_values * torch.ones(config.hidden_size), requires_grad=True
+        )
+        self.lambda_2 = nn.Parameter(
+            init_values * torch.ones(config.hidden_size), requires_grad=True
+        )
+
+    def _init_attn(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        num_dummy_heads: int,
+        prefix: str = "",
+    ):
+        return InternSdpaAttention(config, num_dummy_heads=num_dummy_heads)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        hidden_states = (
+            hidden_states
+            + self.attention(self.layernorm_before(hidden_states)) * self.lambda_1
+        )
+
+        hidden_states = (
+            hidden_states
+            + self.mlp(self.layernorm_after(hidden_states)) * self.lambda_2
+        )
+
+        return hidden_states
+
+
+class InternS1VisionEncoder(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layer = nn.ModuleList(
+            [
+                InternS1VisionLayer(
+                    config,
+                    quant_config,
+                    num_dummy_heads=num_dummy_heads,
+                    prefix=f"{prefix}.layer.{layer_idx}",
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(self, inputs_embeds: torch.Tensor):
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layer:
+            hidden_states = encoder_layer(hidden_states)
+
+        return hidden_states
+
+
+class InternS1VisionModel(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        self.embeddings = InternS1VisionEmbeddings(config)
+        self.encoder = InternS1VisionEncoder(
+            config=config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            num_dummy_heads=num_dummy_heads,
+            prefix=f"{prefix}.encoder",
+        )
+        self.layernorm = (
+            nn.Identity()
+            if config.use_mean_pooling
+            else nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        )
+
+    def get_input_embeddings(self):
+        return self.embeddings.patch_embeddings
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor | None = None,
+        pixel_embeds: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        if pixel_values is None and pixel_embeds is None:
+            raise ValueError("You have to specify pixel_values or pixel_embeds")
+
+        if pixel_embeds is not None:
+            hidden_states = pixel_embeds
+        elif pixel_values is not None:
+            if pixel_values.ndim == 4:
+                hidden_states, _ = self.embeddings(pixel_values)
+            else:
+                raise ValueError(f"wrong pixel_values size: {pixel_values.shape}")
+
+        encoder_outputs = self.encoder(inputs_embeds=hidden_states)
+        encoder_outputs = self.layernorm(encoder_outputs)
+
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/internvl.py b/model_executor/models/internvl.py
new file mode 100644
index 0000000..ccbde11
--- /dev/null
+++ b/model_executor/models/internvl.py
@@ -0,0 +1,1452 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-4B/blob/main/modeling_internvl_chat.py
+# --------------------------------------------------------
+# InternVL
+# Copyright (c) 2023 OpenGVLab
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+import os
+from abc import ABC, abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias, TypeVar
+
+import numpy.typing as npt
+import torch
+import torch.nn as nn
+import torchvision.transforms as T
+from PIL import Image
+from transformers import BatchFeature, PretrainedConfig, TensorType
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.awq import AWQConfig
+from vllm.model_executor.models.intern_vit import (
+    InternVisionModel,
+    InternVisionPatchModel,
+)
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.image import convert_image_mode
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+from vllm.utils.torch_utils import set_default_torch_num_threads
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+IMG_START = "<img>"
+IMG_END = "</img>"
+IMG_CONTEXT = "<IMG_CONTEXT>"
+
+IMAGENET_MEAN = (0.485, 0.456, 0.406)
+IMAGENET_STD = (0.229, 0.224, 0.225)
+
+
+class InternVLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - bnp: Batch size * number of images * (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height of each image patch
+        - w: Width of each image patch
+    """
+
+    type: Literal["pixel_values"]
+    pixel_values_flat: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class InternVLImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of images
+        - f: Total image feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("n", "f", "h")]
+
+
+InternVLImageInputs: TypeAlias = InternVLImagePixelInputs | InternVLImageEmbeddingInputs
+
+
+class InternVLVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bvf: Batch size * number of videos * num_frames
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each video frame
+        - w: Width of each video frame
+    """
+
+    type: Literal["pixel_values_videos"]
+    pixel_values_flat: Annotated[torch.Tensor, TensorShape("bvf", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class InternVLVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of videos
+        - f: Total video feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["video_embeds"]
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("n", "f", "h")]
+
+
+InternVLVideoInputs: TypeAlias = InternVLVideoPixelInputs | InternVLVideoEmbeddingInputs
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+def build_transform(input_size: int):
+    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
+    transform = T.Compose(
+        [
+            T.Lambda(lambda img: convert_image_mode(img, "RGB")),
+            T.Resize(
+                (input_size, input_size), interpolation=T.InterpolationMode.BICUBIC
+            ),
+            T.ToTensor(),
+            T.Normalize(mean=MEAN, std=STD),
+        ]
+    )
+    # Image transformation operations (which include tensor computations
+    # on the CPU) can occupy a substantial number of CPU cores, introducing
+    # overhead due to CPU contention. This issue becomes particularly
+    # noticeable when deploying multiple vLLM instances on a single machine.
+    # Therefore, it is necessary to limit the number of threads allocated to
+    # image transformation tasks.
+    num_threads = int(os.environ.get("OMP_NUM_THREADS", "1"))
+
+    def apply(img):
+        with set_default_torch_num_threads(num_threads):
+            return transform(img)
+
+    return apply
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+def find_closest_aspect_ratio(
+    aspect_ratio: float,
+    target_ratios: list[tuple[int, int]],
+    *,
+    width: int,
+    height: int,
+    image_size: int,
+) -> tuple[int, int]:
+    best_ratio_diff = float("inf")
+    best_ratio = (1, 1)
+    area = width * height
+    for ratio in target_ratios:
+        target_aspect_ratio = ratio[0] / ratio[1]
+        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
+        if ratio_diff < best_ratio_diff:
+            best_ratio_diff = ratio_diff
+            best_ratio = ratio
+        elif ratio_diff == best_ratio_diff:
+            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
+                best_ratio = ratio
+    return best_ratio
+
+
+def resolve_internvl_min_max_num(
+    *,
+    min_dynamic_patch: int,
+    max_dynamic_patch: int,
+    dynamic_image_size: bool,
+    use_thumbnail: bool,
+) -> tuple[int, int]:
+    min_dynamic_patch = min_dynamic_patch if dynamic_image_size else 1
+    max_dynamic_patch = max_dynamic_patch if dynamic_image_size else 1
+
+    if use_thumbnail and max_dynamic_patch != 1:
+        max_dynamic_patch += 1
+
+    return min_dynamic_patch, max_dynamic_patch
+
+
+def get_internvl_target_ratios(
+    min_num: int,
+    max_num: int,
+) -> list[tuple[int, int]]:
+    target_ratios = {
+        (i, j)
+        for n in range(min_num, max_num + 1)
+        for i in range(1, n + 1)
+        for j in range(1, n + 1)
+        if min_num <= i * j <= max_num
+    }
+    return sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+
+def calculate_internvl_targets(
+    *,
+    orig_width: int,
+    orig_height: int,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> tuple[int, int, int]:
+    aspect_ratio = orig_width / orig_height
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio,
+        target_ratios,
+        width=orig_width,
+        height=orig_height,
+        image_size=image_size,
+    )
+
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+
+    # add thumbnail image if num_blocks != 1
+    if use_thumbnail and blocks != 1:
+        blocks += 1
+
+    return blocks, target_width, target_height
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+def dynamic_preprocess_internvl(
+    image: Image.Image,
+    *,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> list[Image.Image]:
+    orig_width, orig_height = image.size
+
+    # calculate the number of blocks without thumbnail
+    blocks, target_width, target_height = calculate_internvl_targets(
+        orig_width=orig_width,
+        orig_height=orig_height,
+        target_ratios=target_ratios,
+        image_size=image_size,
+        use_thumbnail=False,
+    )
+
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+
+    assert len(processed_images) == blocks
+
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+
+    return processed_images
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+def image_to_pixel_values_internvl(
+    image: Image.Image,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+) -> torch.Tensor:
+    target_ratios = get_internvl_target_ratios(min_num, max_num)
+
+    transform = build_transform(input_size=input_size)
+    images = dynamic_preprocess_internvl(
+        image,
+        target_ratios=target_ratios,
+        image_size=input_size,
+        use_thumbnail=use_thumbnail,
+    )
+
+    pixel_values = torch.stack([transform(image) for image in images])
+    return pixel_values
+
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-1B
+def video_to_pixel_values_internvl(
+    video: npt.NDArray,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+) -> torch.Tensor:
+    target_ratios = get_internvl_target_ratios(min_num, max_num)
+
+    transform = build_transform(input_size=input_size)
+    frames_list = list[Image.Image]()
+    for frame in video:
+        pil_frame = dynamic_preprocess_internvl(
+            Image.fromarray(frame, mode="RGB"),
+            target_ratios=target_ratios,
+            image_size=input_size,
+            use_thumbnail=use_thumbnail,
+        )
+        assert len(pil_frame) == 1
+        frames_list.extend(pil_frame)
+
+    pixel_values = torch.stack([transform(image) for image in frames_list])
+    return pixel_values
+
+
+class BaseInternVLProcessor(ABC):
+    """
+    This model doesn't define its own HF processor,
+    so we implement our own one here.
+
+    The code to insert image tokens is based on:
+    https://huggingface.co/OpenGVLab/InternVL2-1B/blob/main/modeling_internvl_chat.py#L252
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        image_size: int = config.vision_config.image_size
+        patch_size: int = config.vision_config.patch_size
+
+        if min_dynamic_patch is None:
+            min_dynamic_patch = config.min_dynamic_patch
+        assert isinstance(min_dynamic_patch, int)
+
+        if max_dynamic_patch is None:
+            max_dynamic_patch = config.max_dynamic_patch
+        assert isinstance(max_dynamic_patch, int)
+
+        if dynamic_image_size is None:
+            dynamic_image_size = config.dynamic_image_size
+        assert isinstance(dynamic_image_size, bool)
+
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.image_size = image_size
+        self.min_dynamic_patch = min_dynamic_patch
+        self.max_dynamic_patch = max_dynamic_patch
+        self.dynamic_image_size = dynamic_image_size
+        self.use_thumbnail: bool = config.use_thumbnail
+
+    @property
+    @abstractmethod
+    def image_token_id(self) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        raise NotImplementedError
+
+    def resolve_min_max_num(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+    ) -> tuple[int, int]:
+        min_dynamic_patch = (
+            self.min_dynamic_patch if min_dynamic_patch is None else min_dynamic_patch
+        )
+        max_dynamic_patch = (
+            self.max_dynamic_patch if max_dynamic_patch is None else max_dynamic_patch
+        )
+        dynamic_image_size = (
+            self.dynamic_image_size
+            if dynamic_image_size is None
+            else dynamic_image_size
+        )
+        use_thumbnail = self.use_thumbnail if use_thumbnail is None else use_thumbnail
+
+        return resolve_internvl_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+    def resolve_target_ratios(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+    ) -> list[tuple[int, int]]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+        return get_internvl_target_ratios(min_num, max_num)
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        target_ratios = self.resolve_target_ratios(
+            use_thumbnail=False,  # Applied in calculate_targets
+        )
+
+        num_patches, _, _ = calculate_internvl_targets(
+            orig_width=image_width,
+            orig_height=image_height,
+            image_size=self.image_size,
+            target_ratios=target_ratios,
+            use_thumbnail=self.use_thumbnail,
+        )
+
+        return num_patches * self.num_image_token
+
+    def _images_to_pixel_values_lst(
+        self,
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=False,  # Applied in image_to_pixel_values
+        )
+
+        return [
+            image_to_pixel_values_internvl(
+                image,
+                input_size=self.image_size,
+                min_num=min_num,
+                max_num=max_num,
+                use_thumbnail=self.use_thumbnail,
+            )
+            for image in images
+        ]
+
+    def _preprocess_image(
+        self,
+        text: list[str],
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> tuple[list[str], dict[str, torch.Tensor]]:
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values_lst = self._images_to_pixel_values_lst(
+                images,
+                min_dynamic_patch=min_dynamic_patch,
+                max_dynamic_patch=max_dynamic_patch,
+                dynamic_image_size=dynamic_image_size,
+            )
+            image_inputs = {
+                "pixel_values_flat": torch.cat(pixel_values_lst),
+                "image_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst]
+                ),
+            }
+
+            for pixel_values in pixel_values_lst:
+                num_patches = pixel_values.shape[0]
+                feature_size = num_patches * self.num_image_token
+
+                image_repl = self.get_image_repl(feature_size, num_patches)
+                text = [t.replace("<image>", image_repl.full, 1) for t in text]
+        return text, image_inputs
+
+    def _make_batch_input(self, input_item: Any | list[Any] | None = None):
+        if input_item is None:
+            input_item = []
+        if not isinstance(input_item, list):
+            input_item = [input_item]
+        return input_item
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        text, images = [self._make_batch_input(x) for x in (text, images)]
+
+        text, image_inputs = self._preprocess_image(
+            text=text,
+            images=images,
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+        )
+
+        text_inputs = self.tokenizer(text)
+
+        combined_outputs = {**text_inputs, **image_inputs}
+
+        return BatchFeature(combined_outputs, tensor_type=return_tensors)
+
+
+class InternVLProcessor(BaseInternVLProcessor):
+    """
+    HF Processor for InternVLChatModel with extended video processing logic.
+
+    Code for video processing is adapted from video example:
+    https://huggingface.co/OpenGVLab/InternVL3-1B#inference-with-transformers
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        video_token: str | None = None,
+    ) -> None:
+        super().__init__(
+            config=config,
+            tokenizer=tokenizer,
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+        )
+        # add extra video token for video processing
+        self.video_token = video_token
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[IMG_CONTEXT]
+
+    @property
+    def video_token_id(self) -> int | None:
+        if self.video_token is None:
+            return None
+        return self.tokenizer.get_vocab().get(self.video_token, None)
+
+    @property
+    def supports_video(self) -> bool:
+        return self.video_token_id is not None
+
+    def _videos_to_pixel_values_lst(
+        self,
+        videos: list[npt.NDArray],
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=1,
+            max_dynamic_patch=1,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=False,  # Applied in image_to_pixel_values
+        )
+
+        return [
+            video_to_pixel_values_internvl(
+                video,
+                input_size=self.image_size,
+                min_num=min_num,
+                max_num=max_num,
+                use_thumbnail=False,
+            )
+            for video in videos
+        ]
+
+    def _preprocess_video(
+        self,
+        text: list[str],
+        videos: list[npt.NDArray],
+        dynamic_image_size: bool | None = None,
+    ):
+        if len(videos) == 0 or not self.supports_video:
+            video_inputs = {}
+        else:
+            pixel_values_lst_video = self._videos_to_pixel_values_lst(
+                videos,
+                dynamic_image_size=dynamic_image_size,
+            )
+            video_inputs = {
+                "pixel_values_flat_video": torch.cat(pixel_values_lst_video),
+                "video_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst_video]
+                ),
+            }
+
+            for pixel_values in pixel_values_lst_video:
+                num_patches = pixel_values.shape[0]
+
+                video_repl = self.get_video_repl(
+                    self.num_image_token, num_patches, self.video_token
+                )
+                text = [t.replace("<video>", video_repl.full, 1) for t in text]
+        return text, video_inputs
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        videos: npt.NDArray | list[npt.NDArray] | None = None,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        text, images, videos = [
+            self._make_batch_input(x) for x in (text, images, videos)
+        ]
+
+        text, image_inputs = self._preprocess_image(
+            text=text,
+            images=images,
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+        )
+
+        text, video_inputs = self._preprocess_video(
+            text=text,
+            videos=videos,
+            dynamic_image_size=dynamic_image_size,
+        )
+
+        text_inputs = self.tokenizer(text)
+
+        combined_outputs = {**text_inputs, **image_inputs, **video_inputs}
+
+        return BatchFeature(combined_outputs, tensor_type=return_tensors)
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = IMG_CONTEXT * feature_size
+        repl_full = IMG_START + repl_features + IMG_END
+
+        return PromptUpdateDetails.select_text(repl_full, IMG_CONTEXT)
+
+    def get_video_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None = None,
+        video_context_token: str = IMG_CONTEXT,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = video_context_token * self.num_image_token
+        repl_features_with_sep = IMG_START + repl_features + IMG_END
+        # num_patches is equal to num_frames
+        repl_full = "".join(
+            [f"Frame{i + 1}: {repl_features_with_sep}" for i in range(num_patches)]
+        )
+
+        return PromptUpdateDetails.select_text(repl_full, video_context_token)
+
+
+class BaseInternVLProcessingInfo(BaseProcessingInfo):
+    """Basic image-only ProcessingInfo for InternVL-style models."""
+
+    @abstractmethod
+    def get_hf_processor(self, **kwargs: object) -> BaseInternVLProcessor:
+        raise NotImplementedError
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: BaseInternVLProcessor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return processor.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        base_size = processor.image_size
+        target_ratios = processor.resolve_target_ratios()
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for wr, hr in target_ratios:
+            width, height = base_size * wr, base_size * hr
+
+            feat_size = self.get_num_image_tokens(
+                image_width=width,
+                image_height=height,
+                processor=processor,
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        if largest_feature_size == 0 or largest_feature_pinpoint is None:
+            raise ValueError("Cannot have a largest feature size of 0!")
+
+        return largest_feature_pinpoint
+
+    def get_max_image_tokens(self) -> int:
+        processor = self.get_hf_processor()
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            processor=processor,
+        )
+
+
+_I = TypeVar("_I", bound=BaseInternVLProcessingInfo)
+
+
+class BaseInternVLDummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    """Basic image-only DummyInputsBuilder for InternVL-style models."""
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        return "<image>" * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class BaseInternVLMultiModalProcessor(BaseMultiModalProcessor[_I]):
+    """Basic image-only MultiModalProcessor for InternVL-style models."""
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+        image_token_id = hf_processor.image_token_id
+
+        # Since there may be extra tokens in the feature placeholders,
+        # we need to pass the image token ID to the model to select the
+        # tokens to merge from the vision encoder outputs
+        processed_outputs["image_token_id"] = torch.tensor(image_token_id)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_num_patches = hf_inputs.get("image_num_patches", torch.empty(0))
+        num_images = len(image_num_patches)
+
+        return dict(
+            pixel_values_flat=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_num_patches
+            ),
+            image_num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+            image_token_id=MultiModalFieldConfig.shared("image", num_images),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "image_num_patches" in out_mm_data:
+            image_num_patches = out_mm_data["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        elif "image_embeds" in out_mm_data:
+            # TODO: Use image size information in dictionary embedding inputs
+            # to compute num_patches (similar to Qwen2-VL)
+            image_num_patches = [None] * len(out_mm_data["image_embeds"])
+        else:
+            image_num_patches = []
+
+        def get_replacement_internvl(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                feature_size = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            num_patches = image_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            return hf_processor.get_image_repl(feature_size, num_patches)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target="<image>",
+                replacement=get_replacement_internvl,
+            )
+        ]
+
+
+class InternVLProcessingInfo(BaseInternVLProcessingInfo):
+    """InternVL ProcessingInfo extended for video processing"""
+
+    @property
+    def supports_video(self):
+        return self.get_hf_processor().supports_video
+
+    def get_supported_mm_limits(self):
+        video_limit = {"video": None} if self.supports_video else {}
+        return {**super().get_supported_mm_limits(), **video_limit}
+
+    def get_video_token(self) -> str | None:
+        text_model_type = self.get_hf_config().get_text_config().model_type
+        video_token_map = {
+            "qwen2": "<|video_pad|>",
+            "qwen3": "<|video_pad|>",
+            "qwen3_moe": "<|video_pad|>",
+            "gpt_oss": "<|reserved_200000|>",
+        }
+        return video_token_map.get(text_model_type)
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        processor = self.get_hf_processor()
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = (seq_len - max_image_tokens) // processor.num_image_token
+        max_frames_per_video = max_total_frames // max(max_videos, 1)
+
+        return max(max_frames_per_video, 1)
+
+    def get_hf_processor(self, **kwargs: object) -> InternVLProcessor:
+        return self.ctx.init_processor(
+            InternVLProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            video_token=self.get_video_token(),
+            **kwargs,
+        )
+
+
+class InternVLDummyInputsBuilder(
+    BaseInternVLDummyInputsBuilder[InternVLProcessingInfo]
+):
+    """InternVL DummyInputsBuilder extended for video support"""
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_videos = mm_counts.get("video", 0)
+
+        return super().get_dummy_text(mm_counts) + "<video>" * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        dummy_image = super().get_dummy_mm_data(
+            seq_len=seq_len, mm_counts=mm_counts, mm_options=mm_options
+        )
+        if self.info.supports_video:
+            config = self.info.get_hf_config()
+            image_size: int = config.vision_config.image_size
+            target_num_frames = self.info.get_num_frames_with_most_features(
+                seq_len, mm_counts
+            )
+            num_videos = mm_counts.get("video", 0)
+            video_overrides = mm_options.get("video") if mm_options else None
+            dummy_video = {
+                "video": self._get_dummy_videos(
+                    width=image_size,
+                    height=image_size,
+                    num_frames=target_num_frames,
+                    num_videos=num_videos,
+                    overrides=video_overrides,
+                )
+            }
+        else:
+            dummy_video = {}
+        return {**dummy_image, **dummy_video}
+
+
+class InternVLMultiModalProcessor(
+    BaseInternVLMultiModalProcessor[InternVLProcessingInfo]
+):
+    """InternVL MultiModalProcessor extended for video support"""
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt, mm_data, mm_kwargs, tok_kwargs
+        )
+
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+        if (
+            self.info.supports_video
+            and (video_token_id := hf_processor.video_token_id) is not None
+        ):
+            processed_outputs["video_token_id"] = torch.tensor(video_token_id)
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_fields = super()._get_mm_fields_config(hf_inputs, hf_processor_mm_kwargs)
+        if self.info.supports_video:
+            video_num_patches = hf_inputs.get("video_num_patches", torch.empty(0))
+            num_videos = len(video_num_patches)
+            video_fields = dict(
+                pixel_values_flat_video=MultiModalFieldConfig.flat_from_sizes(
+                    "video", video_num_patches
+                ),
+                video_num_patches=MultiModalFieldConfig.batched("video"),
+                video_token_id=MultiModalFieldConfig.shared("video", num_videos),
+            )
+        else:
+            video_fields = {}
+
+        return image_fields | video_fields
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        prompt_repl = super()._get_prompt_updates(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            out_mm_kwargs=out_mm_kwargs,
+        )
+
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "video_num_patches" in out_mm_data:
+            video_num_patches = out_mm_data["video_num_patches"]
+            assert isinstance(video_num_patches, torch.Tensor)
+            video_num_patches = video_num_patches.tolist()
+        else:
+            video_num_patches = []
+
+        def get_video_replacement_internvl(item_idx: int):
+            feature_size = hf_processor.num_image_token
+            num_patches = video_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            return hf_processor.get_video_repl(
+                feature_size, num_patches, video_context_token=hf_processor.video_token
+            )
+
+        if self.info.supports_video:
+            prompt_repl = [
+                *prompt_repl,
+                PromptReplacement(
+                    modality="video",
+                    target="<video>",
+                    replacement=get_video_replacement_internvl,
+                ),
+            ]
+
+        return prompt_repl
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    InternVLMultiModalProcessor,
+    info=InternVLProcessingInfo,
+    dummy_inputs=InternVLDummyInputsBuilder,
+)
+class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
+    merge_by_field_config = True
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+        if modality.startswith("video"):
+            return "<video>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        self._patch_quant_config(config, quant_config)
+
+        image_size = config.force_image_size or config.vision_config.image_size
+        patch_size = config.vision_config.patch_size
+        self.patch_size = patch_size
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+        self.ps_version = config.ps_version
+
+        self.llm_arch_name = config.text_config.architectures[0]
+        self.is_mono = self.llm_arch_name == "InternLM2VEForCausalLM"
+        self.vision_model = self._init_vision_model(
+            config,
+            quant_config=quant_config,
+            is_mono=self.is_mono,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.mlp1 = self._init_mlp1(config)
+
+        self.img_context_token_id = None
+        self.video_context_token_id = None
+
+        self.visual_token_mask = None
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _patch_quant_config(
+        self, config: PretrainedConfig, quant_config: QuantizationConfig
+    ):
+        # the awq models from OpenGVLab missing `modules_to_not_convert`
+        # patch the quant_config to add `modules_to_not_convert` back
+        if isinstance(quant_config, AWQConfig):
+            text_config = config.text_config
+            llm_quant_config = getattr(text_config, "quantization_config", None)
+            if (not quant_config.modules_to_not_convert) and (
+                llm_quant_config is not None
+            ):
+                quant_config.modules_to_not_convert.append("vision_model")
+
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        is_mono: bool,
+        prefix: str,
+    ):
+        if not is_mono:
+            vision_feature_layer = config.select_layer
+            if vision_feature_layer < 0:
+                num_hidden_layers = (
+                    config.vision_config.num_hidden_layers + vision_feature_layer + 1
+                )
+            else:
+                num_hidden_layers = vision_feature_layer + 1
+
+            return InternVisionModel(
+                config.vision_config,
+                quant_config=quant_config,
+                num_hidden_layers_override=num_hidden_layers,
+                prefix=prefix,
+                use_data_parallel=self.use_data_parallel,
+            )
+        else:
+            return InternVisionPatchModel(config.vision_config)
+
+    def _init_mlp1(self, config: PretrainedConfig) -> nn.Module:
+        vit_hidden_size = config.vision_config.hidden_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        return nn.Sequential(
+            nn.LayerNorm(vit_hidden_size * int(1 / self.downsample_ratio) ** 2),
+            nn.Linear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2, llm_hidden_size
+            ),
+            nn.GELU(),
+            nn.Linear(llm_hidden_size, llm_hidden_size),
+        )
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(n, w, int(h * scale_factor), int(c / scale_factor))
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        if self.ps_version == "v1":
+            pass
+        else:
+            x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        vit_embeds = self.vision_model(pixel_values=pixel_values)
+        vit_embeds = vit_embeds[:, 1:, :]
+
+        h = w = int(vit_embeds.shape[1] ** 0.5)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+        vit_embeds = self.pixel_shuffle(vit_embeds, scale_factor=self.downsample_ratio)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], -1, vit_embeds.shape[-1])
+        vit_embeds = self.mlp1(vit_embeds)
+        return vit_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> InternVLImageInputs | None:
+        pixel_values_flat = kwargs.pop("pixel_values_flat", None)
+        image_num_patches = kwargs.pop("image_num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values_flat is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return InternVLImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        image_token_id = kwargs["image_token_id"]
+        if isinstance(image_token_id, torch.Tensor):
+            image_token_id = image_token_id.flatten().unique().item()
+
+        assert isinstance(image_token_id, int)
+        self.img_context_token_id = image_token_id
+
+        if pixel_values_flat is not None:
+            expected_h = expected_w = self.config.vision_config.image_size
+            resolve_bindings = {"h": expected_h, "w": expected_w}
+
+            return InternVLImagePixelInputs(
+                type="pixel_values",
+                pixel_values_flat=pixel_values_flat,
+                num_patches=image_num_patches,
+                resolve_bindings=resolve_bindings,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> InternVLVideoPixelInputs | None:
+        pixel_values_flat_video = kwargs.pop("pixel_values_flat_video", None)
+        video_num_patches = kwargs.pop("video_num_patches", None)
+        video_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values_flat_video is None and video_embeds is None:
+            return None
+
+        if video_embeds is not None:
+            return InternVLVideoEmbeddingInputs(
+                type="video_embeds",
+                data=video_embeds,
+            )
+
+        video_token_id = kwargs["video_token_id"]
+        if isinstance(video_token_id, torch.Tensor):
+            video_token_id = video_token_id.flatten().unique().item()
+
+        assert isinstance(video_token_id, int)
+        self.video_context_token_id = video_token_id
+
+        if pixel_values_flat_video is not None:
+            expected_h = expected_w = self.config.vision_config.image_size
+            resolve_bindings = {"h": expected_h, "w": expected_w}
+
+            return InternVLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_flat=pixel_values_flat_video,
+                num_patches=video_num_patches,
+                resolve_bindings=resolve_bindings,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_vision_input(
+        self,
+        image_input: InternVLImageInputs | InternVLVideoInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        if (
+            image_input["type"] == "image_embeds"
+            or image_input["type"] == "video_embeds"
+        ):
+            return image_input["data"]
+
+        assert self.vision_model is not None
+
+        image_embeds = self.extract_feature(image_input["pixel_values_flat"])
+
+        num_patches = image_input["num_patches"]
+
+        # Only one image in the current batch
+        if len(num_patches) == 1:
+            return (image_embeds.view(-1, self.config.text_config.hidden_size),)
+
+        # NOTE: Image embeddings are split into separate tensors for each image
+        # by the size of each embedding.
+        feature_size = image_embeds.shape[1]
+        image_embeds = image_embeds.view(-1, self.config.text_config.hidden_size)
+        image_feature_sizes = [
+            num_patches * feature_size for num_patches in num_patches
+        ]
+        return image_embeds.split(image_feature_sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values_flat", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if input_key in ("pixel_values_flat_video",) and "videos" not in modalities:
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
+        if self.is_mono:
+            assert self.img_context_token_id is not None
+            self.visual_token_mask = (input_ids == self.img_context_token_id).reshape(
+                -1, 1
+            )
+        else:
+            self.visual_token_mask = None
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_vision_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_vision_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        if multimodal_embeddings is not None and len(multimodal_embeddings) > 0:
+            self._set_visual_token_mask(input_ids)
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            input_ids = None
+            inputs_embeds = None
+
+        forward_kwargs = {
+            "input_ids": input_ids,
+            "positions": positions,
+            "intermediate_tensors": intermediate_tensors,
+            "inputs_embeds": inputs_embeds,
+        }
+
+        # Only required if the model is mono-architecture
+        if self.visual_token_mask is not None:
+            forward_kwargs.update({"visual_token_mask": self.visual_token_mask})
+            self.visual_token_mask = None
+
+        hidden_states = self.language_model.model(**forward_kwargs)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        # unused modules appear in OpenGVLab/InternVideo2_5_Chat_8B
+        skip_prefixes = [
+            "action_embed",
+            "temporal_embed",
+            "track_embed",
+            "track_embed_decoder",
+            "box_token",
+            "cg_criterion",
+            "cg_model",
+            "loc_encoder",
+            "loc_decoder",
+            "sam",
+            "temporal_token",
+            "track_token",
+        ]
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="mlp1",
+            tower_model="vision_model",
+        )
diff --git a/model_executor/models/jais.py b/model_executor/models/jais.py
new file mode 100644
index 0000000..5549a1f
--- /dev/null
+++ b/model_executor/models/jais.py
@@ -0,0 +1,397 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/inceptionai/jais-30b-chat-v3/blob/main/modeling_jais.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 the Jais authors and HuggingFace Inc. team.  All rights
+# reserved.
+# Copyright 2023 Cerebras Systems.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Jais model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import JAISConfig
+
+from .interfaces import SupportsPP
+from .utils import (
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class SwiGLUActivation(nn.Module):
+    def forward(self, x1: torch.Tensor, x2: torch.Tensor) -> torch.Tensor:
+        return x1 * nn.functional.silu(x2)
+
+
+def _get_alibi_slopes(n):
+    def get_slopes_power_of_2(n):
+        start = 2 ** (-(2 ** -(math.log2(n) - 3)))
+        ratio = start
+        return [start * ratio**i for i in range(n)]
+
+    if math.log2(n).is_integer():
+        return get_slopes_power_of_2(n)
+    else:
+        closest_power_of_2 = 2 ** math.floor(math.log2(n))
+        return (
+            get_slopes_power_of_2(closest_power_of_2)
+            + _get_alibi_slopes(2 * closest_power_of_2)[0::2][: n - closest_power_of_2]
+        )
+
+
+class JAISAttention(nn.Module):
+    def __init__(
+        self,
+        config: JAISConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        total_num_heads = config.num_attention_heads
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        assert total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = self.hidden_size // total_num_heads
+        if hasattr(config, "scale_qk_dot_by_d"):
+            config.mup_scale_qk_dot_by_d = config.scale_qk_dot_by_d
+        self.attn_scale_power = 1.0 if config.mup_scale_qk_dot_by_d else 0.5
+        self.scale = self.head_dim**-self.attn_scale_power
+
+        self.c_attn = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
+        )
+        self.c_proj = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+
+        tp_rank = get_tensor_model_parallel_rank()
+        head_start = tp_rank * self.num_heads
+        head_end = (tp_rank + 1) * self.num_heads
+        alibi_slopes = _get_alibi_slopes(total_num_heads)
+        alibi_slopes = alibi_slopes[head_start:head_end]
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scale,
+            alibi_slopes=alibi_slopes,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.c_attn(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        attn_output = self.attn(q, k, v)
+        attn_output, _ = self.c_proj(attn_output)
+        return attn_output
+
+
+class JAISMLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: JAISConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        self.swiglu = config.activation_function == "swiglu"
+        self.c_fc = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_fc",
+        )
+        self.c_fc2 = (
+            ColumnParallelLinear(
+                hidden_size,
+                intermediate_size,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.c_fc2",
+            )
+            if self.swiglu
+            else None
+        )
+        self.c_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+
+        self.act = SwiGLUActivation()
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        if self.swiglu:
+            hidden_states2, _ = self.c_fc2(hidden_states)
+        hidden_states, _ = self.c_fc(hidden_states)
+        hidden_states = (
+            self.act(hidden_states, hidden_states2)
+            if self.swiglu
+            else self.act(hidden_states)
+        )
+        hidden_states, _ = self.c_proj(hidden_states)
+        return hidden_states
+
+
+class JAISBlock(nn.Module):
+    def __init__(
+        self,
+        config: JAISConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        inner_dim = config.n_inner if config.n_inner is not None else 4 * hidden_size
+
+        self.ln_1 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.attn = JAISAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.mlp = JAISMLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        attn_output = self.attn(
+            hidden_states=hidden_states,
+        )
+        # residual connection
+        hidden_states = attn_output + residual
+
+        residual = hidden_states
+        hidden_states = self.ln_2(hidden_states)
+        feed_forward_hidden_states = self.mlp(hidden_states)
+        # residual connection
+        hidden_states = residual + feed_forward_hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class JAISModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        assert not config.add_cross_attention
+        assert not config.scale_attn_by_inverse_layer_idx
+        assert not config.reorder_and_upcast_attn
+        self.embed_dim = config.hidden_size
+        self.wte = VocabParallelEmbedding(config.vocab_size, self.embed_dim)
+        self.wpe = (
+            nn.Embedding(config.max_position_embeddings, self.embed_dim)
+            if config.position_embedding_type != "alibi"
+            else None
+        )
+        if hasattr(config, "embeddings_scale"):
+            self.embeddings_scale = config.embeddings_scale
+        else:
+            self.embeddings_scale = config.mup_embeddings_scale
+
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: JAISBlock(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.h",
+        )
+
+        self.ln_f = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.n_embd
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> IntermediateTensors | torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                inputs_embeds = self.embed_input_ids(input_ids)
+            if self.wpe is not None:
+                position_embeds = self.wpe(position_ids)
+                hidden_states = inputs_embeds + position_embeds
+            else:
+                hidden_states = inputs_embeds
+            hidden_states *= torch.tensor(
+                float(self.embeddings_scale), dtype=hidden_states.dtype
+            )
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states = layer(hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        hidden_states = self.ln_f(hidden_states)
+        return hidden_states
+
+
+class JAISLMHeadModel(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.transformer = JAISModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.transformer.wte
+        else:
+            self.lm_head = ParallelLMHead(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        if hasattr(config, "width_scale"):
+            self.output_logits_scale = config.width_scale
+        else:
+            self.output_logits_scale = config.mup_output_alpha * config.mup_width_scale
+        self.logits_processor = LogitsProcessor(
+            vocab_size=config.vocab_size, scale=self.output_logits_scale
+        )
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> IntermediateTensors | torch.Tensor:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "lm_head.weight" in name:
+                # GPT-2 ties the weights of the embedding layer and the final
+                # linear layer.
+                continue
+            if ".attn.bias" in name or ".attn.masked_bias" in name:
+                # Skip attention mask.
+                # NOTE: "c_attn.bias" should not be skipped.
+                continue
+            if "relative_pe" in name:
+                continue
+            if not name.startswith("transformer."):
+                name = "transformer." + name
+
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            # The HF's GPT-2 implementation uses Conv1D instead of Linear.
+            # Because of this, we need to transpose the weights.
+            # Note(zhuohan): the logic below might break quantized models.
+            for conv1d_weight_name in ["c_attn", "c_proj", "c_fc"]:
+                if conv1d_weight_name not in name:
+                    continue
+                if not name.endswith(".weight"):
+                    continue
+                loaded_weight = loaded_weight.t()
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/jamba.py b/model_executor/models/jamba.py
new file mode 100644
index 0000000..3a2c98c
--- /dev/null
+++ b/model_executor/models/jamba.py
@@ -0,0 +1,610 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Jamba model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import JambaConfig
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer import MambaMixer
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.llama import LlamaMLP as JambaMLP
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class JambaMoE(nn.Module):
+    def __init__(
+        self,
+        config: JambaConfig,
+        num_experts: int | None = None,
+        top_k: int | None = None,
+        params_dtype: torch.dtype | None = None,
+        tp_size: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.num_total_experts = num_experts or config.num_experts
+        self.top_k = top_k or config.num_experts_per_tok
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+
+        if self.num_total_experts > 1:
+            self.router = ReplicatedLinear(
+                self.hidden_size,
+                self.num_total_experts,
+                bias=False,
+                quant_config=None,
+                params_dtype=params_dtype,
+            )
+
+        self.experts = FusedMoE(
+            self.num_total_experts,
+            self.top_k,
+            self.hidden_size,
+            self.intermediate_size,
+            tp_size=tp_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=False,
+            use_grouped_topk=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (batch * sequence_length, n_experts)
+        if self.num_total_experts > 1:
+            router_logits, _ = self.router(hidden_states)
+        else:
+            router_logits = torch.ones(
+                (hidden_states.shape[0], 1),
+                device=hidden_states.device,
+                dtype=hidden_states.dtype,
+            )
+        hidden_states = self.experts(hidden_states, router_logits)
+        return hidden_states.view(orig_shape)
+
+
+class JambaMambaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: JambaConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        is_lora_enabled: bool | None = False,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.is_lora_enabled = is_lora_enabled
+        self.mamba = MambaMixer(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.mamba_d_state,
+            conv_kernel_size=config.mamba_d_conv,
+            intermediate_size=config.mamba_expand * config.hidden_size,
+            time_step_rank=config.mamba_dt_rank,
+            use_conv_bias=config.mamba_conv_bias,
+            use_bias=config.mamba_proj_bias,
+            use_rms_norm=True,
+            rms_norm_eps=config.rms_norm_eps,
+            activation=config.hidden_act,
+            is_lora_enabled=self.is_lora_enabled,
+            model_config=model_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        num_experts = config.layers_num_experts[layer_idx]
+        if num_experts > 1:
+            self.feed_forward = JambaMoE(
+                config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        else:
+            self.feed_forward = JambaMLP(
+                config.hidden_size,
+                config.intermediate_size,
+                config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        output = torch.empty_like(hidden_states)
+        self.mamba(hidden_states, output)
+        # Fully Connected
+        hidden_states, residual = self.pre_ff_layernorm(output, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+class JambaAttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: JambaConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        num_experts = config.layers_num_experts[layer_idx]
+        if num_experts > 1:
+            self.feed_forward = JambaMoE(
+                config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        else:
+            self.feed_forward = JambaMLP(
+                config.hidden_size,
+                config.intermediate_size,
+                config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def self_attention(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attention(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        # Fully Connected
+        hidden_states, residual = self.pre_ff_layernorm(hidden_states, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": JambaAttentionDecoderLayer,
+    "mamba": JambaMambaDecoderLayer,
+}
+
+
+@support_torch_compile
+class JambaModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        extra_kwargs = {"is_lora_enabled": bool(vllm_config.lora_config)}
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = ALL_DECODER_LAYER_TYPES[config.layers_block_type[layer_idx]]
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                **extra_kwargs,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions, hidden_states=hidden_states, residual=residual
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.final_layernorm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for (
+                    param_name,
+                    weight_name,
+                    expert_id,
+                    shard_id,
+                ) in expert_params_mapping:
+                    if weight_name not in name:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class JambaForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsMambaPrefixCaching,
+):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={".self_attn.": ".", ".A_log": ".A"},
+    )
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+        "in_proj": ["in_proj"],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+
+        scheduler_config = vllm_config.scheduler_config
+
+        super().__init__()
+        self.config = config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.scheduler_config = scheduler_config
+        self.model = JambaModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.mamba_cache.copy_inputs_before_cuda_graphs(input_buffers, **kwargs)
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba1_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int]]:
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        hidden_size = hf_config.hidden_size
+
+        return MambaStateShapeCalculator.mamba1_state_shape(
+            tp_world_size=parallel_config.tensor_parallel_size,
+            intermediate_size=hf_config.mamba_expand * hidden_size,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+class JambaForSequenceClassification(JambaForCausalLM):
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        config = vllm_config.model_config.hf_config
+        num_labels: int = config.num_labels
+        score_bias: bool = getattr(config, "score_bias", False)
+
+        # TODO: The original reward weights have float32 accuracy data, we
+        # would like to load them in fp32 to get that extra precision.
+        # Currently weight_loader passes the weight which is already in bf16
+        self.score = nn.Linear(
+            config.hidden_size,
+            num_labels,
+            bias=score_bias,
+            dtype=vllm_config.model_config.head_dtype,
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.score
+                ),
+                "classify": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="classify"
+                ),
+                "score": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="score"
+                ),
+            }
+        )
diff --git a/model_executor/models/jina_vl.py b/model_executor/models/jina_vl.py
new file mode 100644
index 0000000..05a4083
--- /dev/null
+++ b/model_executor/models/jina_vl.py
@@ -0,0 +1,147 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.inputs import TokensPrompt
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsCrossEncoding, SupportsMultiModal, SupportsScoreTemplate
+from .qwen2_vl import (
+    Qwen2VLDummyInputsBuilder,
+    Qwen2VLForConditionalGeneration,
+    Qwen2VLMultiModalProcessor,
+    Qwen2VLProcessingInfo,
+)
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+
+logger = init_logger(__name__)
+
+
+class JinaVLScorer(nn.Module):
+    def __init__(self, model_config: "ModelConfig"):
+        super().__init__()
+        config = model_config.hf_config
+        head_dtype = model_config.head_dtype
+        self.dense = ColumnParallelLinear(
+            config.hidden_size, config.hidden_size, params_dtype=head_dtype, bias=True
+        )
+        self.out_proj = RowParallelLinear(
+            config.hidden_size, config.num_labels, params_dtype=head_dtype, bias=True
+        )
+
+    def forward(self, x, **kwargs):
+        x, _ = self.dense(x)
+        x = torch.relu(x)
+        x, _ = self.out_proj(x)
+        return x
+
+
+class JinaVLMultiModalProcessor(Qwen2VLMultiModalProcessor):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # NOTE: We should reverse the order of the mm_data because the
+        # query prompt is placed after the document prompt in the score
+        # template for JinaVLForRanking model, but in mm_data they are
+        # stored in the opposite order (query first, then document).
+        for _, value in mm_data.items():
+            value.reverse()
+        return super()._call_hf_processor(prompt, mm_data, mm_kwargs, tok_kwargs)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    JinaVLMultiModalProcessor,
+    info=Qwen2VLProcessingInfo,
+    dummy_inputs=Qwen2VLDummyInputsBuilder,
+)
+class JinaVLForSequenceClassification(
+    Qwen2VLForConditionalGeneration,
+    SupportsCrossEncoding,
+    SupportsMultiModal,
+    SupportsScoreTemplate,
+):
+    is_pooling_model = True
+    weight_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "score.0.": "score.dense.",
+            "score.2.": "score.out_proj.",
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "visual.": "visual.",
+            # mapping for original checkpoint
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "qwen2_vl")
+        )
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.score = JinaVLScorer(vllm_config.model_config)
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.score
+                ),
+                "classify": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="classify"
+                ),
+                "score": Pooler.for_classify(
+                    pooler_config, classifier=self.score, act_fn="score"
+                ),
+            }
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+
+        raise ValueError("Only image modality is supported")
+
+    @classmethod
+    def get_score_template(cls, query: str, document: str) -> str | None:
+        return f"**Document**:\n{document}\n**Query**:\n{query}"
+
+    @classmethod
+    def post_process_tokens(cls, prompt: TokensPrompt) -> None:
+        # add score target token at the end of prompt tokens
+        prompt["prompt_token_ids"].append(100)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        hidden_states = super().forward(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **kwargs,
+        )
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.weight_mapper)
diff --git a/model_executor/models/keye.py b/model_executor/models/keye.py
new file mode 100644
index 0000000..32c01b6
--- /dev/null
+++ b/model_executor/models/keye.py
@@ -0,0 +1,1761 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from abc import abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Any, Literal, TypeAlias, TypeVar
+
+import numpy as np
+import torch
+import torch.nn as nn
+from einops import rearrange
+from transformers import PretrainedConfig
+from transformers.activations import GELUActivation
+from transformers.feature_extraction_utils import BatchFeature
+from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPooling
+from transformers.utils import torch_int
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    ImageItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import (
+    DictEmbeddingItems,
+    ImageSize,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .siglip import SiglipMLP
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    is_pp_missing_parameter,
+    maybe_prefix,
+)
+from .vision import get_vit_attn_backend
+
+logger = init_logger(__name__)
+
+
+def smart_resize(
+    height: int,
+    width: int,
+    factor: int,
+    min_pixels: int,
+    max_pixels: int,
+):
+    if height < factor:
+        logger.warning(
+            "smart_resize: height=%s < factor=%s, reset height=factor",
+            height,
+            factor,
+        )
+        width = round((width * factor) / height)
+        height = factor
+
+    if width < factor:
+        logger.warning(
+            "smart_resize: width=%s < factor=%s, reset width=factor",
+            width,
+            factor,
+        )
+        height = round((height * factor) / width)
+        width = factor
+
+    if max(height, width) / min(height, width) > 200:
+        raise ValueError(
+            "absolute aspect ratio must be smaller than 200, got "
+            "{max(height, width) / min(height, width)}"
+        )
+    h_bar = round(height / factor) * factor
+    w_bar = round(width / factor) * factor
+    if h_bar * w_bar > max_pixels:
+        beta = math.sqrt((height * width) / max_pixels)
+        h_bar = math.floor(height / beta / factor) * factor
+        w_bar = math.floor(width / beta / factor) * factor
+    elif h_bar * w_bar < min_pixels:
+        beta = math.sqrt(min_pixels / (height * width))
+        h_bar = math.ceil(height * beta / factor) * factor
+        w_bar = math.ceil(width * beta / factor) * factor
+    return h_bar, w_bar
+
+
+class KeyeImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * Number of patches
+        - c: Number of channels
+        - ps: Patch size
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["pixel_values"]
+    pixel_values: Annotated[
+        torch.Tensor, TensorShape("bnp", 3, "ps", "ps", dynamic_dims={"bnp"})
+    ]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+class KeyeImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of image features
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["image_embeds"]
+    image_embeds: Annotated[torch.Tensor, TensorShape("nf", "hs")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+KeyeImageInputs: TypeAlias = KeyeImagePixelInputs | KeyeImageEmbeddingInputs
+
+
+class KeyeVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * Number of patches
+        - c: Number of channels
+        - ps: Patch size
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["pixel_values_videos"]
+    pixel_values_videos: Annotated[
+        torch.Tensor, TensorShape("bnp", 3, "ps", "ps", dynamic_dims={"bnp"})
+    ]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("nv", 3)]
+
+
+class KeyeVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of video features
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+        - nv: Number of videos
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["video_embeds"]
+    video_embeds: Annotated[torch.Tensor, TensorShape("nf", "hs")]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("nv", 3)]
+
+
+KeyeVideoInputs: TypeAlias = KeyeVideoPixelInputs | KeyeVideoEmbeddingInputs
+
+
+class KeyeVisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            padding="valid",
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.cache_position_embedding = dict()
+        self.cache_position_count = dict()
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.packing_position_embedding = nn.Embedding(32768, self.embed_dim)
+
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions).expand((1, -1)),
+            persistent=False,
+        )
+
+    def interpolate_pos_encoding(
+        self,
+        embeddings: torch.Tensor,
+        height: int,
+        width: int,
+        is_after_patchify: bool = False,
+    ) -> torch.Tensor:
+        num_positions = self.position_embedding.weight.shape[0]
+
+        patch_pos_embed = self.position_embedding.weight.unsqueeze(0)
+
+        dim = embeddings.shape[-1]
+
+        if is_after_patchify:
+            new_height = height
+            new_width = width
+        else:
+            new_height = height // self.patch_size
+            new_width = width // self.patch_size
+
+        sqrt_num_positions = torch_int(num_positions**0.5)
+        patch_pos_embed = patch_pos_embed.reshape(
+            1, sqrt_num_positions, sqrt_num_positions, dim
+        )
+        patch_pos_embed = patch_pos_embed.permute(0, 3, 1, 2)
+
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed,
+            size=(new_height, new_width),
+            mode="bilinear",
+            align_corners=False,
+        )
+
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+        return patch_pos_embed
+
+    def fetch_position_embedding_lfu_cache(self, embeddings, h, w, max_cache: int = 20):
+        grid = (h, w)
+        if grid in self.cache_position_embedding:
+            self.cache_position_count[grid] += 1
+            return self.cache_position_embedding[grid]
+
+        if len(self.cache_position_embedding) >= max_cache:
+            min_hit_grid = min(
+                self.cache_position_count,
+                key=self.cache_position_count.get,
+            )
+            self.cache_position_count.pop(min_hit_grid)
+            self.cache_position_embedding.pop(min_hit_grid)
+
+        position_embedding = self.interpolate_pos_encoding(embeddings, h, w, True)
+        self.cache_position_count[grid] = 1
+        self.cache_position_embedding[grid] = position_embedding
+        return position_embedding
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        position_ids: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        interpolate_pos_encoding=False,
+    ) -> torch.Tensor:
+        if pixel_values.dim() == 4:
+            pixel_values = pixel_values.unsqueeze(0)
+        if pixel_values.dim() == 5:
+            if position_ids is None:
+                raise ValueError(
+                    "position_ids cannot be None when pixel_values.dim() is 5."
+                )
+            (
+                batch_size,
+                squence_len,
+                channel,
+                height,
+                width,
+            ) = pixel_values.shape
+            target_dtype = self.patch_embedding.weight.dtype
+            pixel_values = rearrange(pixel_values, "b l c h w -> (b l) c h w")
+            patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
+            embeddings = patch_embeds.flatten(-2).squeeze(-1)
+
+            if interpolate_pos_encoding and image_grid_thw is not None:
+                start = 0
+                tmp_embeddings = list()
+                for image_grid in image_grid_thw:
+                    t, h, w = image_grid
+                    end = start + t * h * w
+                    image_embeddings = embeddings[start:end, :]
+                    position_embedding = (
+                        self.interpolate_pos_encoding(image_embeddings, h, w, True)
+                        .squeeze(0)
+                        .repeat(t, 1)
+                    )
+                    image_embeddings = image_embeddings + position_embedding
+                    tmp_embeddings.append(image_embeddings)
+                    start = end
+                embeddings = torch.concat(tmp_embeddings, dim=0).unsqueeze(0)
+            else:
+                embeddings = embeddings + self.packing_position_embedding(position_ids)
+            return embeddings
+        else:
+            raise ValueError(
+                "Unsupported pixel_values dimension:"
+                f" {pixel_values.dim()}. Expected 4 or 5."
+            )
+
+
+def apply_rotary_pos_emb_flashatt(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    cos = cos.chunk(2, dim=-1)[0].contiguous()
+    sin = sin.chunk(2, dim=-1)[0].contiguous()
+
+    # if current_platform.is_cuda():
+    #     from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+    if current_platform.is_rocm():
+        from flash_attn.ops.triton.rotary import apply_rotary as apply_rotary_emb
+    else:
+        # For other platforms, use PyTorch fallback
+        from vllm.model_executor.layers.rotary_embedding.common import (
+            apply_rotary_emb_torch,
+        )
+
+        apply_rotary_emb = partial(apply_rotary_emb_torch, is_neox_style=True)
+
+    q_embed = apply_rotary_emb(q.float(), cos.float(), sin.float()).type_as(q)
+    k_embed = apply_rotary_emb(k.float(), cos.float(), sin.float()).type_as(k)
+    return q_embed, k_embed
+
+
+class KeyeSiglipAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You
+    Need' paper."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+
+        hidden_size = config.hidden_size
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_attention_heads
+        if self.total_num_kv_heads >= tp_size:
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scale = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=hidden_size,
+            output_size=hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        # Detect attention implementation.
+        self.attn_backend = get_vit_attn_backend(
+            head_size=self.head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                use_upstream_fa=False,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Keye-VL does not support {self.attn_backend} backend now."
+            )
+
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor | None = None,
+        output_attentions: bool | None = False,
+        cu_seqlens: list[torch.Tensor] | None = None,
+        rope_emb: tuple[torch.Tensor, torch.Tensor] | None = None,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split(
+            [self.q_size, self.kv_size, self.kv_size],
+            dim=-1,
+        )
+
+        max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        batch_size = q.shape[0]
+
+        if rope_emb is None:
+            q = q.view(*q.shape[:-1], self.num_heads, self.head_dim)
+            k = k.view(
+                *k.shape[:-1],
+                self.num_kv_heads,
+                self.head_dim,
+            )
+            v = v.view(
+                *v.shape[:-1],
+                self.num_kv_heads,
+                self.head_dim,
+            )
+        else:
+            if cu_seqlens is None:
+                raise ValueError("cu_seqlens cannot be None when rope_emb is not None.")
+            cos, sin = rope_emb
+            q = q.view(*q.shape[:-1], self.num_heads, self.head_dim)
+            k = k.view(
+                *k.shape[:-1],
+                self.num_kv_heads,
+                self.head_dim,
+            )
+            q, k = apply_rotary_pos_emb_flashatt(q, k, cos, sin)
+            v = v.view(
+                *v.shape[:-1],
+                self.num_kv_heads,
+                self.head_dim,
+            )
+
+        if self.is_flash_attn_backend:
+            q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
+
+            output = self.flash_attn_varlen_func(
+                q,
+                k,
+                v,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+                causal=False,
+                softmax_scale=self.scale,
+            )
+            context_layer = rearrange(output, "(b s) ... -> b s ...", b=batch_size)
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            from xformers import ops as xops
+            from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+            attn_bias = BlockDiagonalMask.from_seqlens(
+                q_seqlen=seqlens, kv_seqlen=None, device=q.device
+            )
+
+            context_layer = xops.memory_efficient_attention_forward(
+                q, k, v, attn_bias=attn_bias, p=0, scale=None
+            )
+
+        context_layer = rearrange(context_layer, "b s h d -> b s (h d)").contiguous()
+
+        output, _ = self.out_proj(context_layer)
+        return output
+
+
+class SigLIPRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        self.rope_init()
+
+    def rope_init(self):
+        inv_freq = 1.0 / (
+            self.theta ** (torch.arange(0, self.dim, 2, dtype=torch.float) / self.dim)
+        )
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen,
+            device=self.inv_freq.device,
+            dtype=self.inv_freq.dtype,
+        )
+        freqs = torch.outer(seq, self.inv_freq)
+        return freqs
+
+
+class KeyeSiglipEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.self_attn = KeyeSiglipAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attn_backend_override=attn_backend_override,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = SiglipMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+        output_attentions: bool | None = False,
+        cu_seqlens: list[torch.Tensor] | None = None,
+        rope_emb: tuple[torch.Tensor, torch.Tensor] | None = None,
+    ) -> tuple[torch.FloatTensor]:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            output_attentions=output_attentions,
+            cu_seqlens=cu_seqlens,
+            rope_emb=rope_emb,
+        )
+
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class KeyeSiglipEncoder(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+        num_heads = config.num_attention_heads
+        head_dim = embed_dim // num_heads
+        self.layers = nn.ModuleList(
+            [
+                KeyeSiglipEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_backend_override=attn_backend_override,
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+        self.rotary_pos_emb = SigLIPRotaryEmbedding(head_dim // 2)
+
+    @staticmethod
+    def flatten_list(image_grid_thw):
+        tmp_image_grid_thw = list()
+        for image_grid in image_grid_thw:
+            if isinstance(image_grid, list):
+                tmp_image_grid_thw.extend(image_grid)
+            else:
+                tmp_image_grid_thw.append(image_grid)
+        return tmp_image_grid_thw
+
+    def forward(
+        self,
+        inputs_embeds,
+        attention_mask: torch.Tensor | None = None,
+        output_attentions: bool | None = None,
+        output_hidden_states: bool | None = None,
+        cu_seqlens: list[torch.Tensor] | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+        use_rope: bool | None = False,
+        window_size: bool | None = -1,
+        vision_or_text: str = "vision",
+    ) -> BaseModelOutput:
+        device = inputs_embeds.device
+        hidden_states = inputs_embeds
+        if use_rope is True:
+            flatten_image_grid_thw = self.flatten_list(image_grid_thw)
+
+            if width_position_ids is None or height_position_ids is None:
+                split_hids = list()
+                split_wids = list()
+                for t, h, w in flatten_image_grid_thw:
+                    image_pids = torch.arange(t * h * w, device=device) % (h * w)
+                    sample_hids = image_pids // w
+                    sample_wids = image_pids % w
+                    split_hids.append(sample_hids)
+                    split_wids.append(sample_wids)
+                width_position_ids = torch.concat(split_wids, dim=0)
+                height_position_ids = torch.concat(split_hids, dim=0)
+
+            pids = torch.stack(
+                [height_position_ids, width_position_ids],
+                dim=-1,
+            )
+            max_grid_size = pids.max() + 1
+            rope_emb_max_grid = self.rotary_pos_emb(max_grid_size)
+            rope_emb = rope_emb_max_grid[pids].flatten(1)
+            rope_emb = rope_emb.repeat(1, 2)
+            rope_emb = (rope_emb.cos(), rope_emb.sin())
+        else:
+            rope_emb = None
+
+        attn_cu_seqlens = cu_seqlens
+        hidden_states = inputs_embeds
+        assert attention_mask is None
+
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(
+                hidden_states,
+                attention_mask,
+                output_attentions=output_attentions,
+                cu_seqlens=attn_cu_seqlens,
+                rope_emb=rope_emb,
+            )
+        return hidden_states
+
+
+class KeyeSiglipVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = KeyeVisionEmbeddings(config)
+        self.encoder = KeyeSiglipEncoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            attn_backend_override=attn_backend_override,
+        )
+        self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        pixel_values,
+        output_attentions: bool | None = None,
+        output_hidden_states: bool | None = None,
+        interpolate_pos_encoding: bool | None = False,
+        attention_mask: torch.Tensor | None = None,
+        sample_indices: torch.Tensor | None = None,
+        image_indices: torch.Tensor | None = None,
+        position_ids: torch.Tensor | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+        cu_seqlens: list[torch.Tensor] | None = None,
+        padding_mask: torch.Tensor | None = None,
+        vision_return_embed_list: bool | None = False,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        return_pooler_output: bool | None = True,
+        use_rope: bool | None = False,
+        window_size: bool | None = -1,
+    ) -> BaseModelOutputWithPooling:
+        hidden_states = self.embeddings(
+            pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            image_grid_thw=image_grid_thw,
+        )
+
+        last_hidden_state = self.encoder(
+            inputs_embeds=hidden_states,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            attention_mask=attention_mask,
+            cu_seqlens=cu_seqlens,
+            image_grid_thw=image_grid_thw,
+            use_rope=use_rope,
+            height_position_ids=height_position_ids,
+            width_position_ids=width_position_ids,
+            window_size=window_size,
+            vision_or_text="vision",
+        )
+
+        last_hidden_state = self.post_layernorm(last_hidden_state)
+
+        sample_hidden_state = list()
+        if cu_seqlens is None:
+            raise ValueError(
+                "cu_seqlens cannot be None for "
+                "SiglipVisionTransformer output processing."
+            )
+        for i in range(cu_seqlens.shape[0] - 1):
+            start = cu_seqlens[i]
+            end = cu_seqlens[i + 1]
+            tensor = last_hidden_state[:, start:end, :].squeeze(0)
+            sample_hidden_state.append(tensor)
+
+        return sample_hidden_state
+
+
+class KeyeSiglipVisionModel(nn.Module):
+    config_class = PretrainedConfig
+    main_input_name = "pixel_values"
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+
+        self.vision_model = KeyeSiglipVisionTransformer(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vision_model",
+            attn_backend_override=attn_backend_override,
+        )
+        self.quant_config = quant_config
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.vision_model.embeddings.patch_embedding.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.vision_model.embeddings.patch_embedding.weight.device
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.vision_model.embeddings.patch_embedding
+
+    def forward(
+        self,
+        pixel_values,
+        sample_indices: torch.Tensor | None = None,
+        output_attentions: bool | None = None,
+        output_hidden_states: bool | None = None,
+        interpolate_pos_encoding: bool = False,
+        position_ids: torch.Tensor | None = None,
+        vision_return_embed_list: bool | None = False,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        cu_seqlens: list[torch.Tensor] | None = None,
+        return_pooler_output: bool | None = True,
+        use_rope: bool | None = False,
+        window_size: bool | None = -1,
+    ) -> BaseModelOutputWithPooling:
+        return self.vision_model(
+            pixel_values=pixel_values,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            vision_return_embed_list=vision_return_embed_list,
+            image_grid_thw=image_grid_thw,
+            sample_indices=sample_indices,
+            cu_seqlens=cu_seqlens,
+            return_pooler_output=return_pooler_output,
+            use_rope=use_rope,
+            window_size=window_size,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "head.attention" in name or "head.layernorm" in name:
+                continue
+            if "head.mlp" in name or "head.probe" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                param = params_dict[scale_name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for (
+                param_name,
+                weight_name,
+                shard_id,
+            ) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Projector(nn.Module):
+    def __init__(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.text_config = text_config
+        self.vision_config = vision_config
+        self.merge_kernel_size = (2, 2)
+
+        self.hidden_size = (
+            self.vision_config.hidden_size
+            * self.merge_kernel_size[0]
+            * self.merge_kernel_size[1]
+        )
+
+        self.pre_norm = torch.nn.LayerNorm(self.vision_config.hidden_size, eps=1e-05)
+        self.act = GELUActivation()
+
+        self.linear_1 = ColumnParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.linear_2 = RowParallelLinear(
+            self.hidden_size,
+            self.text_config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(
+        self,
+        image_features: torch.Tensor | list[torch.Tensor],
+        image_grid_thw: list[tuple[int, int, int]],
+    ) -> torch.Tensor | list[torch.Tensor]:
+        m1, m2 = self.merge_kernel_size
+        if isinstance(image_features, (list, tuple)):
+            processed_features = list()
+            for image_feature, image_grid in zip(image_features, image_grid_thw):
+                image_feature = self.pre_norm(image_feature)
+                t, h, w = image_grid
+
+                image_feature = rearrange(
+                    image_feature,
+                    "(t h p1 w p2) d -> (t h w) (p1 p2 d)",
+                    t=t,
+                    h=h // m1,
+                    p1=m1,
+                    w=w // m2,
+                    p2=m2,
+                )
+                hidden_states, _ = self.linear_1(image_feature)
+                hidden_states = self.act(hidden_states)
+                hidden_states, _ = self.linear_2(hidden_states)
+                processed_features.append(hidden_states)
+
+            return processed_features
+
+        dims = image_features.shape[:-1]
+        dim = image_features.shape[-1]
+        image_features = image_features.view(np.prod(dims), dim)
+        hidden_states = self.pre_norm(image_features).view(-1, self.hidden_size)
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states.view(*dims, -1)
+
+
+def _keye_field_config(
+    hf_inputs: Mapping[str, torch.Tensor],
+):
+    image_grid_thw = hf_inputs.get("image_grid_thw", torch.empty((0, 3)))
+    image_grid_sizes = image_grid_thw.prod(-1)
+
+    video_grid_thw = hf_inputs.get("video_grid_thw", torch.empty((0, 3)))
+    video_grid_sizes = video_grid_thw.prod(-1)
+
+    return dict(
+        pixel_values=MultiModalFieldConfig.flat_from_sizes("image", image_grid_sizes),
+        image_embeds=MultiModalFieldConfig.flat_from_sizes("image", image_grid_sizes),
+        image_grid_thw=MultiModalFieldConfig.batched("image"),
+        pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+            "video", video_grid_sizes
+        ),
+        video_embeds=MultiModalFieldConfig.flat_from_sizes("video", video_grid_sizes),
+        video_grid_thw=MultiModalFieldConfig.batched("video"),
+    )
+
+
+class KeyeMultiModalDataParser(MultiModalDataParser):
+    def _parse_image_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any]:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="image",
+                required_fields={
+                    "image_embeds",
+                    "image_grid_thw",
+                },
+                fields_factory=_keye_field_config,
+            )
+
+        return super()._parse_image_data(data)
+
+    def _parse_video_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[VideoItem],
+    ) -> ModalityDataItems[Any, Any]:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="video",
+                required_fields={
+                    "video_embeds",
+                    "video_grid_thw",
+                },
+                fields_factory=_keye_field_config,
+            )
+
+        return super()._parse_video_data(data)
+
+
+class KeyeProcessingInfo(BaseProcessingInfo):
+    def get_max_image_size(self) -> int:
+        return 9999999  # _MAX_IMAGE_SIZE
+
+    def get_max_frame_per_video(self) -> int:
+        return 16  # _MAX_FRAMES_PER_VIDEO
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(
+        self,
+    ) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        return {
+            "image": self.get_max_image_tokens(),
+            "video": self.get_max_video_tokens(seq_len),
+        }
+
+    def _get_vision_info(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 1,
+        do_resize: bool = True,
+        image_processor,
+    ) -> tuple[ImageSize, int]:
+        if image_processor is None:
+            image_processor = self.get_image_processor()
+
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+        temporal_patch_size = 1
+
+        if do_resize:
+            resized_height, resized_width = smart_resize(
+                height=image_height,
+                width=image_width,
+                factor=patch_size * merge_size,
+                min_pixels=image_processor.min_pixels,
+                max_pixels=image_processor.max_pixels,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        padded_num_frames = num_frames + num_frames % temporal_patch_size
+
+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches // (merge_size**2)
+
+        return preprocessed_size, num_vision_tokens
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        image_processor,
+    ) -> int:
+        _, num_image_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            image_processor=image_processor,
+        )
+        return num_image_tokens
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+        image_processor,
+    ) -> int:
+        _, num_video_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            num_frames=num_frames,
+            image_processor=image_processor,
+        )
+        return num_video_tokens
+
+    def get_image_size_with_most_features(
+        self,
+    ) -> ImageSize:
+        max_image_size, _ = self._get_vision_info(
+            image_width=self.get_max_image_size(),
+            image_height=self.get_max_image_size(),
+            image_processor=None,
+        )
+        return max_image_size
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            image_processor=None,
+        )
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = 0
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+                image_processor=None,
+            )
+
+            if next_max_tokens > max_tokens:
+                break
+
+            num_frames = next_num_frames
+
+        return num_frames
+
+    def get_num_frames_with_most_features(self, seq_len: int) -> int:
+        mm_config = self.ctx.get_mm_config()
+        max_images = mm_config.get_limit_per_prompt("image")
+        max_videos = mm_config.get_limit_per_prompt("video")
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len - max_image_tokens)
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1),
+            self.get_max_frame_per_video(),
+        )
+
+        return max(max_frames_per_video, 1)
+
+    def get_max_video_tokens(self, seq_len: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len),
+            image_processor=None,
+        )
+
+
+_I = TypeVar("_I", bound=KeyeProcessingInfo)
+
+
+class KeyeBaseDummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        image_token: str = hf_processor.image_token
+        video_token: str = hf_processor.video_token
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(seq_len)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        mm_data = {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+        return mm_data
+
+
+class KeyeDummyInputsBuilder(KeyeBaseDummyInputsBuilder[KeyeProcessingInfo]): ...
+
+
+class KeyeMultiModalProcessor(BaseMultiModalProcessor[KeyeProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return KeyeMultiModalDataParser()
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        placeholder = {
+            "image": vocab[hf_processor.image_token],
+            "video": vocab[hf_processor.video_token],
+        }
+
+        merge_length = image_processor.merge_size**2
+
+        def get_replacement_keye(item_idx: int, modality: str):
+            out_item = out_mm_kwargs[modality][item_idx]
+            grid_thw = out_item[f"{modality}_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            num_tokens = int(grid_thw.prod()) // merge_length
+            return [placeholder[modality]] * num_tokens
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=[placeholder[modality]],
+                replacement=partial(get_replacement_keye, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _keye_field_config(hf_inputs)
+
+
+class BaseKeyeModule(nn.Module):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|video_pad|><|vision_end|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: PretrainedConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.visual = KeyeSiglipVisionModel(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "visual"),
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.mlp_AR = self._build_projector(
+            config,
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "mlp_AR"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Qwen3ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    @abstractmethod
+    def _build_projector(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        raise ValueError("Need projector")
+
+    def _process_image_input(self, image_input: Any) -> tuple[torch.Tensor, ...]:
+        siglip_position_ids = list()
+        image_grid_hws = list()
+        sample_indices = list()
+        cu_seqlens = [0]
+
+        image_grid_thw = image_input["image_grid_thw"]
+        assert image_grid_thw.ndim == 2
+
+        for idx, thaw in enumerate(image_grid_thw):
+            thw_tuple = tuple(thaw.detach().cpu().numpy().tolist())
+            numel = np.prod(thw_tuple)
+            image_grid_hws.append(thw_tuple)
+            image_position_ids = torch.arange(numel) % np.prod(thw_tuple[1:])
+            siglip_position_ids.append(image_position_ids)
+            sample_indices.append(torch.full((numel,), idx, dtype=torch.int64))
+            cu_seqlens.append(cu_seqlens[-1] + numel)
+
+        if image_input["type"] == "image_embeds":
+            raise ValueError(
+                "Image embeddings are not supported for this processing path."
+            )
+        else:
+            pixel_values = image_input["pixel_values"].type(self.visual.dtype)
+            siglip_position_ids = torch.concat(siglip_position_ids, dim=0).to(
+                pixel_values.device
+            )
+            cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32).to(
+                pixel_values.device
+            )
+            sample_indices = torch.concat(sample_indices, dim=0).to(pixel_values.device)
+
+            image_embeds = self.visual(
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_hws,
+                position_ids=siglip_position_ids,
+                vision_return_embed_list=False,
+                interpolate_pos_encoding=True,
+                sample_indices=sample_indices,
+                cu_seqlens=cu_seqlens,
+                use_rope=True,
+                window_size=-1,
+            )
+            image_embeds = tuple(self.mlp_AR(image_embeds, image_grid_thw))
+            return image_embeds
+
+    def _process_video_embeds(
+        self,
+        video_type: Literal["video_embeds", "pixel_values_videos"],
+        video_grid_thw: list[torch.Tensor],
+        pixel_values_videos: torch.Tensor | None = None,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        siglip_position_ids = list()
+        video_grid_hws = list()
+        sample_indices = list()
+        cu_seqlens = [0]
+
+        assert video_grid_thw.ndim == 2
+        for idx, sub_thw in enumerate(video_grid_thw):
+            thw_tuple = tuple(sub_thw.detach().cpu().numpy().tolist())
+            numel = np.prod(thw_tuple)
+
+            video_grid_hws.append(thw_tuple)
+            video_position_ids = torch.arange(numel) % np.prod(thw_tuple[1:])
+            siglip_position_ids.append(video_position_ids)
+            sample_indices.append(torch.full((numel,), idx, dtype=torch.int64))
+            cu_seqlens.append(cu_seqlens[-1] + numel)
+
+        if video_type == "video_embeds":
+            raise ValueError(
+                "Video embeddings are not supported for this processing path."
+            )
+        else:
+            pixel_values_videos = pixel_values_videos.type(self.visual.dtype)
+            siglip_position_ids = torch.concat(siglip_position_ids, dim=0).to(
+                pixel_values_videos.device
+            )
+            cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32).to(
+                pixel_values_videos.device
+            )
+            sample_indices = torch.concat(sample_indices, dim=0).to(
+                pixel_values_videos.device
+            )
+
+            video_embeds = self.visual(
+                pixel_values=pixel_values_videos,
+                image_grid_thw=video_grid_hws,
+                position_ids=siglip_position_ids,
+                vision_return_embed_list=True,
+                interpolate_pos_encoding=True,
+                sample_indices=sample_indices,
+                cu_seqlens=cu_seqlens,
+                use_rope=True,
+                window_size=-1,
+            )
+            video_embeds = self.mlp_AR(video_embeds, video_grid_thw)
+            return video_embeds
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "videos" not in modalities
+            ):
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return None
+
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_video_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Keye-VL.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Flattened (concatenated) position ids corresponding to a
+                batch.
+                **NOTE**: If mrope is enabled (default setting for Qwen2-VL
+                opensource models), the shape will be `(3, seq_len)`,
+                otherwise it will be `(seq_len,)`.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """Get the module prefix in multimodal models."""
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="mlp_AR.",
+            tower_model="visual.",
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    KeyeMultiModalProcessor,
+    info=KeyeProcessingInfo,
+    dummy_inputs=KeyeDummyInputsBuilder,
+)
+class KeyeForConditionalGeneration(
+    BaseKeyeModule, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    def _build_projector(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        return Projector(text_config, vision_config, quant_config, prefix)
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> KeyeImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return KeyeImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return KeyeImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> KeyeVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return KeyeVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+            )
+
+        if video_embeds is not None:
+            return KeyeVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_video_input(
+        self, video_input: KeyeVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        video_type = video_input["type"]
+        video_grid_thw = video_input["video_grid_thw"]
+        pixel_values_videos = video_input.get("pixel_values_videos", None)
+
+        return tuple(
+            self._process_video_embeds(video_type, video_grid_thw, pixel_values_videos)
+        )
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
+        if isinstance(video_grid_thw, list) and len(video_grid_thw) > 0:
+            video_grid_thw = video_grid_thw[0]
+
+        def split_thw(grid_thw: torch.Tensor | list[int]) -> list[list[int]]:
+            """
+            Split grid_thw along the t dimension.
+
+            Args:
+                grid_thw: shape [N, 3] tensor or nested list of [t, h, w].
+
+            Returns:
+                List of [1, h, w] rows, repeated t times for each original row.
+            """
+
+            if isinstance(grid_thw, list):
+                grid_thw = torch.tensor(grid_thw, dtype=torch.long)
+
+            if grid_thw.numel() == 0:
+                return []
+
+            t, hw = grid_thw[:, 0], grid_thw[:, 1:]
+            ones = torch.ones_like(hw[:, :1])  # [N,1]
+            out = torch.cat([ones, hw], dim=1).repeat_interleave(t, dim=0)
+            return out.tolist()
+
+        video_grid_thw = split_thw(video_grid_thw)
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+
+        image_nums = len(image_grid_thw)
+        frame_nums = len(video_grid_thw)
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_frames = image_nums, frame_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + frame_nums):
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_frames > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+
+            if ed_image < ed_video:
+                t, h, w = image_grid_thw[image_index]
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = video_grid_thw[video_index]
+                video_index += 1
+                remain_frames -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+
+        return llm_positions, mrope_position_delta
diff --git a/model_executor/models/keye_vl1_5.py b/model_executor/models/keye_vl1_5.py
new file mode 100644
index 0000000..124e9c2
--- /dev/null
+++ b/model_executor/models/keye_vl1_5.py
@@ -0,0 +1,726 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import itertools
+from collections.abc import Mapping, Sequence
+from functools import partial
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.nn as nn
+from einops import rearrange
+from transformers import PretrainedConfig
+from transformers.activations import GELUActivation
+from transformers.feature_extraction_utils import BatchFeature
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    ImageItem,
+    ModalityData,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import (
+    DictEmbeddingItems,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import SupportsLoRA, SupportsMRoPE, SupportsMultiModal, SupportsPP
+from .keye import (
+    BaseKeyeModule,
+    BaseMultiModalProcessor,
+    KeyeBaseDummyInputsBuilder,
+    KeyeProcessingInfo,
+)
+
+logger = init_logger(__name__)
+
+
+def split_thw(grid_thw: torch.Tensor) -> torch.Tensor:
+    """
+    Split grid_thw in t dimension.
+
+    Args:
+        grid_thw: [N, 3] tensor of [t, h, w]
+
+    Returns:
+        [Σt, 3] tensor where each row is [1, h, w]
+
+    Example:
+    >>> grid_thw = torch.tensor([[2, 3, 4], [1, 5, 6]])
+    >>> split_thw(grid_thw)
+    tensor([[1, 3, 4],
+           [1, 3, 4],
+           [1, 5, 6]])
+    """
+    t = grid_thw[:, 0]
+    h_w = grid_thw[:, 1:]
+    ones = torch.ones_like(h_w[:, :1])
+    return torch.cat([ones, h_w], dim=1).repeat_interleave(t, dim=0)
+
+
+def get_num_patches(
+    grid_thw: torch.Tensor, num_frames: list[int] | torch.Tensor
+) -> list[int]:
+    """
+    Return num_patches per video.
+
+    Args:
+        grid_thw: Tensor with shape [N, 3] containing temporal, height, width
+            dimensions
+        num_frames: List or tensor indicating the number of frames per video
+
+    Returns:
+        List of ints representing the number of patches for each video
+
+    Examples:
+        >>> # Suppose there are 2 videos with a total of 3 grids
+        >>> grid_thw = torch.tensor(
+        ...     [
+        ...         [2, 2, 2],  # grid 0: 2*2*2=8 patches
+        ...         [2, 2, 2],  # grid 1: 2*2*2=8 patches
+        ...         [1, 1, 1],
+        ...     ]
+        ... )  # grid 2: 1*1*1=1 patches
+        >>> num_frames = [2, 1]  # The first video contains 2 grids,
+                                   the second contains 1 grid.
+        >>> get_num_patches(grid_thw, num_frames)
+        tensor([16, 1])  # Total patches for first video: 8+8=16,
+                           second video: 1.
+    """
+
+    assert len(grid_thw.shape) == 2
+    if isinstance(num_frames, torch.Tensor):
+        num_frames = num_frames.clone().tolist()
+
+    num_grids_per_frame = grid_thw.prod(dim=1)
+    start_idx_per_video = [0, *itertools.accumulate(num_frames)]
+    num_patches = [
+        num_grids_per_frame[start_idx_per_video[i] : start_idx_per_video[i + 1]].sum()
+        for i in range(len(num_frames))
+    ]
+    return (
+        torch.stack(num_patches)
+        if num_patches
+        else torch.zeros(0, dtype=grid_thw.dtype, device=grid_thw.device)
+    )
+
+
+class KeyeVL1_5ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * Number of patches
+        - c: Number of channels
+        - ps: Patch size
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor, TensorShape("bnp", 3, "ps", "ps", dynamic_dims={"bnp"})
+    ]
+
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+class KeyeVL1_5ImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of image features
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["image_embeds"]
+    image_embeds: Annotated[torch.Tensor, TensorShape("nf", "hs")]
+    image_grid_thw: Annotated[torch.Tensor, TensorShape("ni", 3)]
+
+
+KeyeVL1_5ImageInputs: TypeAlias = (
+    KeyeVL1_5ImagePixelInputs | KeyeVL1_5ImageEmbeddingInputs
+)
+
+
+class KeyeVL1_5VideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * Number of patches
+        - c: Number of channels
+        - ps: Patch size
+        - ni: Number of images
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["pixel_values_videos"]
+    pixel_values_videos: Annotated[
+        torch.Tensor, TensorShape("bnp", 3, "ps", "ps", dynamic_dims={"bnp"})
+    ]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("nv", 3)]
+
+    num_frames: torch.Tensor
+
+
+class KeyeVL1_5VideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of video features
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+        - nv: Number of videos
+        - g: Grid dimensions (3 for t, h, w)
+    """
+
+    type: Literal["video_embeds"]
+    video_embeds: Annotated[torch.Tensor, TensorShape("nf", "hs")]
+    video_grid_thw: Annotated[torch.Tensor, TensorShape("nv", 3)]
+    num_frames: torch.Tensor
+
+
+KeyeVL1_5VideoInputs: TypeAlias = (
+    KeyeVL1_5VideoPixelInputs | KeyeVL1_5VideoEmbeddingInputs
+)
+
+
+class KeyeVL1_5Projector(nn.Module):
+    def __init__(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.text_config = text_config
+        self.vision_config = vision_config
+        self.merge_kernel_size = (2, 2)
+
+        self.hidden_size = (
+            self.vision_config.hidden_size
+            * self.merge_kernel_size[0]
+            * self.merge_kernel_size[1]
+        )
+
+        self.pre_norm = torch.nn.LayerNorm(self.hidden_size, eps=1e-05)
+        self.act = GELUActivation()
+
+        self.linear_1 = ColumnParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.linear_2 = RowParallelLinear(
+            self.hidden_size,
+            self.text_config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(
+        self,
+        image_features: torch.Tensor | tuple[torch.Tensor] | list[torch.Tensor],
+        image_grid_thw: list[tuple[int, int, int]],
+    ) -> torch.Tensor | list[torch.Tensor]:
+        m1, m2 = self.merge_kernel_size
+        if isinstance(image_features, (list, tuple)):
+            processed_features = list()
+            for image_feature, image_grid in zip(image_features, image_grid_thw):
+                t, h, w = image_grid
+                image_feature = rearrange(
+                    image_feature,
+                    "(t h p1 w p2) d -> (t h w) (p1 p2 d)",
+                    t=t,
+                    h=h // m1,
+                    p1=m1,
+                    w=w // m2,
+                    p2=m2,
+                )
+                image_feature = self.pre_norm(image_feature)
+                hidden_states, _ = self.linear_1(image_feature)
+                hidden_states = self.act(hidden_states)
+                hidden_states, _ = self.linear_2(hidden_states)
+                processed_features.append(hidden_states)
+
+            return processed_features
+
+        dims = image_features.shape[:-1]
+        dim = image_features.shape[-1]
+        image_features = image_features.view(np.prod(dims), dim)
+        hidden_states = self.pre_norm(image_features.view(-1, self.hidden_size))
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states.view(*dims, -1)
+
+
+class KeyeVL1_5ProcessingInfo(KeyeProcessingInfo):
+    def get_max_frame_per_video(self) -> int:
+        return 2048
+
+    def get_supported_mm_limits(
+        self,
+    ) -> Mapping[str, int | None]:
+        return {"image": None, "video": 1}
+
+
+def _keye_field_config(
+    hf_inputs: Mapping[str, torch.Tensor],
+):
+    image_grid_thw = hf_inputs.get(
+        "image_grid_thw", torch.empty((0, 3), dtype=torch.int64)
+    )
+    image_grid_sizes = image_grid_thw.prod(-1)
+
+    video_grid_thw = hf_inputs.get(
+        "video_grid_thw", torch.empty((0, 3), dtype=torch.int64)
+    )
+    video_grid_thw = split_thw(video_grid_thw)
+    num_frames = hf_inputs.get("num_frames", video_grid_thw[:, 0]).clone().tolist()
+
+    video_num_patches = get_num_patches(video_grid_thw, num_frames)
+
+    video_num_grids = []
+    if len(num_frames) > 0:
+        i = 0
+        j = 1
+        cur_frames = num_frames[i]
+        for t, _, _ in video_grid_thw.tolist():
+            cur_frames -= t
+            if cur_frames == 0:
+                video_num_grids.append(j)
+                i += 1
+                if i < len(num_frames):
+                    cur_frames = num_frames[i]
+                j = 1
+            else:
+                j += 1
+    video_num_grids = torch.tensor(video_num_grids)
+    return dict(
+        pixel_values=MultiModalFieldConfig.flat_from_sizes("image", image_grid_sizes),
+        image_embeds=MultiModalFieldConfig.flat_from_sizes("image", image_grid_sizes),
+        image_grid_thw=MultiModalFieldConfig.batched("image"),
+        pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+            "video", video_num_patches
+        ),
+        video_embeds=MultiModalFieldConfig.flat_from_sizes("video", video_num_patches),
+        video_grid_thw=MultiModalFieldConfig.flat_from_sizes("video", video_num_grids),
+        num_frames=MultiModalFieldConfig.batched("video"),
+    )
+
+
+class KeyeVL1_5MultiModalDataParser(MultiModalDataParser):
+    def _parse_image_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any]:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="image",
+                required_fields={
+                    "image_embeds",
+                    "image_grid_thw",
+                },
+                fields_factory=_keye_field_config,
+            )
+
+        return super()._parse_image_data(data)
+
+    def _parse_video_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[VideoItem],
+    ) -> ModalityDataItems[Any, Any]:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="video",
+                required_fields={
+                    "video_embeds",
+                    "video_grid_thw",
+                },
+                fields_factory=_keye_field_config,
+            )
+
+        return super()._parse_video_data(data)
+
+
+class KeyeVL1_5MultiModalProcessor(BaseMultiModalProcessor[KeyeVL1_5ProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return KeyeVL1_5MultiModalDataParser()
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+        image_token_id = vocab[hf_processor.image_token]
+        video_token_id = vocab[hf_processor.video_token]
+        placeholder = {"image": image_token_id, "video": video_token_id}
+        merge_length = image_processor.merge_size**2
+
+        out_mm_kwargs_data = out_mm_kwargs.get_data()
+        frame_types: list[torch.Tensor] = hf_processor_mm_kwargs.get(
+            "frame_types", None
+        )
+        timestamps: list[torch.Tensor] = hf_processor_mm_kwargs.get("timestamps", None)
+        num_videos = mm_items.get_count("video", strict=False)
+
+        if frame_types is None:
+            frame_types = [None] * num_videos
+        assert len(frame_types) == num_videos, (
+            f"Number of frame_types={len(frame_types)} "
+            f"doesn't equal to number of videos={num_videos}"
+        )
+        if timestamps is None:
+            timestamps = [None] * num_videos
+        assert len(timestamps) == num_videos, (
+            f"Number of timestamps={len(timestamps)} "
+            f"doesn't equal to number of videos={num_videos}"
+        )
+
+        video_grid_thw = out_mm_kwargs_data.get(
+            "video_grid_thw", torch.empty((0, 3), dtype=torch.int64)
+        )
+        num_frames = out_mm_kwargs_data.get(
+            "num_frames", torch.tensor([], dtype=torch.int64)
+        )
+
+        assert len(num_frames) == num_videos, (
+            f"Size of num_frames={len(num_frames)} "
+            f"doesn't equal to number of videos={num_videos}"
+        )
+
+        video_grid_hws = split_thw(video_grid_thw)
+        assert int(num_frames.sum().tolist()) == video_grid_hws.shape[0], (
+            f"The first dimension of `video_grid_hws`={video_grid_hws.shape[0]}"
+            f"doesn't equal to num of frames."
+        )
+
+        cu_seqlens = torch.cumsum(torch.tensor([0] + num_frames.tolist()), dim=-1)
+
+        def get_replacement_keye(item_idx: int, modality: str):
+            """
+            Args:
+                item_idx(int): The item index of modality to replace
+                modality(str): The modality
+            """
+            if modality == "image":
+                out_item = out_mm_kwargs[modality][item_idx]
+                grid_thw = out_item[f"{modality}_grid_thw"].data
+                assert isinstance(grid_thw, torch.Tensor)
+
+                num_tokens = int(grid_thw.prod()) // merge_length
+                return [image_token_id] * num_tokens
+            elif modality == "video":
+                placeholders = []
+                video_timestamps = timestamps[item_idx]
+                video_frame_types = frame_types[item_idx]
+                grid_thw = video_grid_hws[
+                    cu_seqlens[item_idx] : cu_seqlens[item_idx + 1]
+                ]
+
+                nframes = grid_thw.shape[0]
+
+                if video_timestamps is None:
+                    video_timestamps = [""] * nframes
+                else:
+                    video_timestamps = [format(ts, ".1f") for ts in video_timestamps]
+
+                if video_frame_types is None:
+                    video_frame_types = [0] * nframes
+                for i, sub_thw in enumerate(grid_thw):
+                    s = f"{hf_processor.frame_token}{video_timestamps[i]}"
+                    if video_frame_types[i] == 1:
+                        s += hf_processor.fast_start
+                    placeholders.extend(tokenizer.encode(s))
+                    num_frame_tokens = int(sub_thw.prod()) // merge_length
+                    placeholders.extend([video_token_id] * num_frame_tokens)
+                    if video_frame_types[i] == 1:
+                        placeholders.append(vocab[hf_processor.fast_end])
+
+                return PromptUpdateDetails.select_token_id(
+                    placeholders, embed_token_id=video_token_id
+                )
+            else:
+                raise ValueError(f"Unsupported modality {modality}")
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=[placeholder[modality]],
+                replacement=partial(get_replacement_keye, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _keye_field_config(hf_inputs)
+
+
+class KeyeVL1_5DummyInputsBuilder(
+    KeyeBaseDummyInputsBuilder[KeyeVL1_5ProcessingInfo]
+): ...
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    KeyeVL1_5MultiModalProcessor,
+    info=KeyeVL1_5ProcessingInfo,
+    dummy_inputs=KeyeVL1_5DummyInputsBuilder,
+)
+class KeyeVL1_5ForConditionalGeneration(
+    BaseKeyeModule, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    def _build_projector(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        return KeyeVL1_5Projector(text_config, vision_config, quant_config, prefix)
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config: PretrainedConfig = vllm_config.model_config.hf_config
+        self.merge_size = config.vision_config.spatial_merge_size
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> KeyeVL1_5ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return KeyeVL1_5ImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return KeyeVL1_5ImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> KeyeVL1_5VideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+        num_frames = kwargs.pop("num_frames", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return KeyeVL1_5VideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+                num_frames=num_frames,
+            )
+
+        if video_embeds is not None:
+            return KeyeVL1_5VideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+                num_frames=num_frames,
+            )
+
+    def _process_video_input(
+        self, video_input: KeyeVL1_5VideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        video_type = video_input["type"]
+        video_grid_thw = split_thw(video_input["video_grid_thw"])
+        pixel_values_videos = video_input.get("pixel_values_videos", None)
+
+        video_embeds = self._process_video_embeds(
+            video_type, video_grid_thw, pixel_values_videos
+        )
+        video_embeds = torch.concat(video_embeds, dim=0)
+
+        num_frames = video_input["num_frames"].clone().tolist()
+
+        num_patches = get_num_patches(video_grid_thw, num_frames).tolist()
+
+        patch_cu_seqlens = torch.cumsum(
+            torch.tensor([0] + num_patches).detach().clone(), dim=-1
+        )
+        patch_cu_seqlens = torch.div(
+            patch_cu_seqlens, self.merge_size**2, rounding_mode="floor"
+        )
+
+        new_video_embeds = []
+        for idx in range(patch_cu_seqlens.shape[0] - 1):
+            start = patch_cu_seqlens[idx]
+            end = patch_cu_seqlens[idx + 1]
+            new_video_embeds.append(video_embeds[start:end])
+        return tuple(new_video_embeds)
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
+        if isinstance(video_grid_thw, list) and len(video_grid_thw) > 0:
+            video_grid_thw = video_grid_thw[0]
+
+        def split_thw(grid_thw: torch.Tensor | list[int]) -> list[list[int]]:
+            """
+            Split grid_thw along the t dimension.
+
+            Args:
+                grid_thw: shape [N, 3] tensor or nested list of [t, h, w].
+
+            Returns:
+                List of [1, h, w] rows, repeated t times for each original row.
+            """
+
+            if isinstance(grid_thw, list):
+                grid_thw = torch.tensor(grid_thw, dtype=torch.long)
+
+            if grid_thw.numel() == 0:
+                return []
+
+            t, hw = grid_thw[:, 0], grid_thw[:, 1:]
+            ones = torch.ones_like(hw[:, :1])  # [N,1]
+            out = torch.cat([ones, hw], dim=1).repeat_interleave(t, dim=0)
+            return out.tolist()
+
+        video_grid_thw = split_thw(video_grid_thw)
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+
+        image_nums = len(image_grid_thw)
+        frame_nums = len(video_grid_thw)
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_frames = image_nums, frame_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + frame_nums):
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_frames > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+
+            if ed_image < ed_video:
+                t, h, w = image_grid_thw[image_index]
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = video_grid_thw[video_index]
+                video_index += 1
+                remain_frames -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+
+        return llm_positions, mrope_position_delta
diff --git a/model_executor/models/kimi_linear.py b/model_executor/models/kimi_linear.py
new file mode 100644
index 0000000..f367507
--- /dev/null
+++ b/model_executor/models/kimi_linear.py
@@ -0,0 +1,663 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, ParallelConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.kda import KimiDeltaAttention
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.kimi_linear import KimiLinearConfig
+
+from .interfaces import HasInnerState, IsHybrid, MixtureOfExperts, SupportsPP
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class KimiMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class KimiMoE(nn.Module):
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        layer_idx: int = 0,
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        intermediate_size = config.intermediate_size
+        moe_intermediate_size = config.moe_intermediate_size
+        num_experts = config.num_experts
+        moe_renormalize = config.moe_renormalize
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.num_shared_experts = config.num_shared_experts
+        self.layer_idx = layer_idx
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.gate.e_score_correction_bias = nn.Parameter(torch.empty(num_experts))
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=config.num_experts_per_token,
+            hidden_size=hidden_size,
+            intermediate_size=moe_intermediate_size,
+            reduce_results=False,
+            renormalize=moe_renormalize,
+            quant_config=quant_config,
+            use_grouped_topk=config.use_grouped_topk,
+            num_expert_group=config.num_expert_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func=config.moe_router_activation_func,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+        )
+
+        if self.num_shared_experts is not None:
+            intermediate_size = moe_intermediate_size * self.num_shared_experts
+            self.shared_experts = KimiMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_size)
+        if self.num_shared_experts is not None:
+            shared_output = self.shared_experts(hidden_states)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = (
+            self.experts(hidden_states=hidden_states, router_logits=router_logits)
+            * self.routed_scaling_factor
+        )
+        if shared_output is not None:
+            final_hidden_states = final_hidden_states + shared_output
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+        return final_hidden_states.view(num_tokens, hidden_size)
+
+
+class KimiMLAAttention(nn.Module):
+    """
+    Main reference: DeepseekV2 vllm Implementation
+    """
+
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        use_nope: bool = False,
+        rope_scaling: dict[str, Any] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.num_heads = num_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        self.num_local_heads = num_heads // tp_size
+        self.scaling = self.qk_head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.use_nope = use_nope
+        assert self.use_nope is True
+        assert self.q_lora_rank is None
+        assert rope_scaling is None
+        assert num_heads % tp_size == 0
+        self.kv_a_proj_with_mqa = ReplicatedLinear(
+            self.hidden_size,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa",
+        )
+        self.q_proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.num_heads * self.qk_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+        self.kv_a_layernorm = RMSNorm(
+            self.kv_lora_rank,
+            eps=config.rms_norm_eps,
+        )
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        mla_modules = MLAModules(
+            kv_a_layernorm=self.kv_a_layernorm,
+            kv_b_proj=self.kv_b_proj,
+            rotary_emb=None,
+            o_proj=self.o_proj,
+            fused_qkv_a_proj=None,
+            kv_a_proj_with_mqa=self.kv_a_proj_with_mqa,
+            q_a_layernorm=None,
+            q_b_proj=None,
+            q_proj=self.q_proj,
+            indexer=None,
+            is_sparse=False,
+            topk_indices_buffer=None,
+        )
+        self.mla_attn = MultiHeadLatentAttentionWrapper(
+            self.hidden_size,
+            self.num_local_heads,
+            self.scaling,
+            self.qk_nope_head_dim,
+            self.qk_rope_head_dim,
+            self.v_head_dim,
+            self.q_lora_rank,
+            self.kv_lora_rank,
+            mla_modules,
+            cache_config,
+            quant_config,
+            prefix,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        output[:] = self.mla_attn(positions, hidden_states)
+
+
+class KimiDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        layer_idx: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        model_config: ModelConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+
+        self.is_moe = config.is_moe
+
+        if config.is_kda_layer(layer_idx):
+            self.self_attn = KimiDeltaAttention(
+                layer_idx=layer_idx,
+                hidden_size=config.hidden_size,
+                quant_config=quant_config,
+                cache_config=cache_config,
+                model_config=config,
+                prefix=f"{prefix}.self_attn",
+            )
+        else:
+            self.self_attn = KimiMLAAttention(
+                layer_idx=layer_idx,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                quant_config=quant_config,
+                cache_config=cache_config,
+                model_config=model_config,
+                prefix=f"{prefix}.self_attn",
+                config=config,
+                qk_nope_head_dim=config.qk_nope_head_dim,
+                qk_rope_head_dim=config.qk_rope_head_dim,
+                v_head_dim=config.v_head_dim,
+                q_lora_rank=config.q_lora_rank,
+                kv_lora_rank=config.kv_lora_rank,
+                use_nope=config.mla_use_nope,
+            )
+
+        if (
+            self.is_moe
+            and config.num_experts is not None
+            and layer_idx >= config.first_k_dense_replace
+            and layer_idx % config.moe_layer_freq == 0
+        ):
+            self.block_sparse_moe = KimiMoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.block_sparse_moe",
+            )
+            self.mlp = self.block_sparse_moe
+        else:
+            self.mlp = KimiMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        attn_output = torch.empty_like(hidden_states)
+        self.self_attn(
+            hidden_states=hidden_states,
+            positions=positions,
+            output=attn_output,
+        )
+        hidden_states = attn_output
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class KimiLinearModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_text_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+        self.config = config
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        extra_kwargs = {}
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            return KimiDecoderLayer(
+                config,
+                layer_idx,
+                cache_config,
+                quant_config,
+                parallel_config,
+                model_config,
+                prefix,
+                **extra_kwargs,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            get_layer,
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        world_size = get_tensor_model_parallel_world_size()
+        assert config.num_attention_heads % world_size == 0, (
+            "num_attention_heads must be divisible by world_size"
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for _, layer in enumerate(self.layers[self.start_layer : self.end_layer]):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class KimiLinearForCausalLM(
+    nn.Module, HasInnerState, SupportsPP, MixtureOfExperts, IsHybrid
+):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.model_config = vllm_config.model_config
+        self.vllm_config = vllm_config
+        self.config = self.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.quant_config = quant_config
+        self.model = KimiLinearModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            self.config.vocab_size, scale=logit_scale
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+        return hidden_states
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype, torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.kda_state_dtype(
+            vllm_config.model_config.dtype, vllm_config.cache_config.mamba_cache_dtype
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls, vllm_config: "VllmConfig"
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        tp_size = parallel_config.tensor_parallel_size
+        num_spec = (
+            vllm_config.speculative_config.num_speculative_tokens
+            if vllm_config.speculative_config
+            else 0
+        )
+        return MambaStateShapeCalculator.kda_state_shape(
+            tp_size,
+            hf_config.linear_attn_config["num_heads"],
+            hf_config.linear_attn_config["head_dim"],
+            conv_kernel_size=hf_config.linear_attn_config["short_conv_kernel_size"],
+            num_spec=num_spec,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.logits_processor(self.lm_head, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        if self.config.is_moe:
+            # Params for weights, fp8 weight scales, fp8 activation scales
+            # (param_name, weight_name, expert_id, shard_id)
+            expert_params_mapping = FusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="w1",
+                ckpt_down_proj_name="w2",
+                ckpt_up_proj_name="w3",
+                num_experts=self.config.num_experts,
+            )
+        else:
+            expert_params_mapping = []
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for args in weights:
+            name, loaded_weight = args[:2]
+            kwargs = args[2] if len(args) > 2 else {}
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is not None:
+                continue  # skip spec decode layers for main model
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for idx, (param_name, weight_name, expert_id, shard_id) in enumerate(
+                    expert_params_mapping
+                ):
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        expert_id=expert_id,
+                        shard_id=shard_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias")
+                        and name not in params_dict
+                        and not self.config.is_linear_attn
+                    ):  # noqa: E501
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight, **kwargs)
+            loaded_params.add(name)
+
+
+def get_spec_layer_idx_from_weight_name(
+    config: KimiLinearConfig, weight_name: str
+) -> int | None:
+    if hasattr(config, "num_nextn_predict_layers") and (
+        config.num_nextn_predict_layers > 0
+    ):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_nextn_predict_layers):
+            if weight_name.startswith(f"model.layers.{layer_idx + i}."):
+                return layer_idx + i
+    return None
diff --git a/model_executor/models/kimi_vl.py b/model_executor/models/kimi_vl.py
new file mode 100644
index 0000000..8167b82
--- /dev/null
+++ b/model_executor/models/kimi_vl.py
@@ -0,0 +1,578 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: E501
+# Adapted from https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/blob/main/modeling_kimi_vl.py
+# Copyright 2025 The Moonshot AI Team, DeepSeek-AI, and HuggingFace Inc. team. All rights reserved.
+#
+# The code is based on llava (llava/modeling_llava.py) and DeepSeek-V3 (DeepSeek-V3/modeling_deepseek.py), but modified for KimiVL.
+#
+# Licensing Information:
+# - Code derived from llava (llava/modeling_llava.py) and DeepSeek-V3 (DeepSeek-V3/modeling_deepseek.py) is licensed under the Apache License, Version 2.0.
+# - Other parts of the code are licensed under the MIT License.
+#
+# Apache License, Version 2.0:
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# MIT License:
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+import copy
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from dataclasses import dataclass
+from typing import Annotated, Any, Literal
+
+import torch
+from torch import nn
+from transformers import BatchFeature, DeepseekV2Config
+from transformers.activations import GELUActivation
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.deepseek_v2 import DeepseekV2Model
+from vllm.model_executor.models.interfaces import SupportsMultiModal, SupportsPP
+from vllm.model_executor.models.moonvit import MoonVitPretrainedModel
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import KimiVLConfig, MoonViTConfig
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .utils import PPMissingLayer, is_pp_missing_parameter, maybe_prefix
+from .vision import run_dp_sharded_mrope_vision_model
+
+
+# For dummy input only
+@dataclass
+class MaxImageTokenMeta:
+    width: int = 1024
+    height: int = 1024
+
+
+class KimiVLMultiModalProjector(nn.Module):
+    def __init__(
+        self, config: KimiVLConfig, use_data_parallel: bool = False, prefix: str = ""
+    ):
+        super().__init__()
+        self.use_data_parallel = use_data_parallel
+
+        self.hidden_size = (
+            config.vision_config.hidden_size
+            * config.vision_config.merge_kernel_size[0]
+            * config.vision_config.merge_kernel_size[1]
+        )
+
+        self.pre_norm = torch.nn.LayerNorm(config.vision_config.hidden_size, eps=1e-5)
+        self.linear_1 = ReplicatedLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            prefix=maybe_prefix(prefix, "linear_1"),
+        )
+        self.linear_2 = ReplicatedLinear(
+            self.hidden_size,
+            config.text_config.hidden_size,
+            bias=True,
+            prefix=maybe_prefix(prefix, "linear_2"),
+        )
+        self.act = GELUActivation()
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.pre_norm(image_features).view(-1, self.hidden_size)
+        hidden_states, _ = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class KimiVLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - nc: Number of channels
+        - np: Number of patches
+        - ps: Patch size
+        - ni: Number of images
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("np", 3, "ps", "ps"),
+    ]
+
+    image_grid_hws: Annotated[torch.Tensor, TensorShape("ni", 2)]
+
+
+# TODO: support embeds too
+# We only support pixel input for kimi-vl now
+KimiVLImageInputs = KimiVLImagePixelInputs
+
+
+class KimiVLProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(KimiVLConfig)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_processor = self.get_hf_processor()
+        patch_size = hf_processor.image_processor.patch_size
+        kernel_size = hf_processor.image_processor.merge_kernel_size
+        in_token_limit = hf_processor.image_processor.in_token_limit
+        height = image_height
+        width = image_width
+        assert isinstance(height, int), f"height must be int, current height {height}"
+        assert isinstance(width, int), f"width must be int, current width {width}"
+        assert kernel_size is not None, "kernel_size must be specified"
+
+        if (width // patch_size) * (height // patch_size) > in_token_limit:
+            scale = math.sqrt(
+                in_token_limit / ((width // patch_size) * (height // patch_size))
+            )
+            new_w, new_h = int(width * scale), int(height * scale)
+            width, height = new_w, new_h
+
+        kernel_height, kernel_width = kernel_size
+
+        pad_height = (
+            kernel_height * patch_size - height % (kernel_height * patch_size)
+        ) % (kernel_height * patch_size)
+        pad_width = (
+            kernel_width * patch_size - width % (kernel_width * patch_size)
+        ) % (kernel_width * patch_size)
+
+        # Calculate new dimensions after padding and patching
+        token_height = (height + pad_height) // (kernel_size[0] * patch_size)
+        token_width = (width + pad_width) // (kernel_size[1] * patch_size)
+        return int(token_height * token_width)
+
+    @property
+    def image_token_id(self) -> int:
+        return self.get_hf_config().media_placeholder_token_id
+
+
+class KimiVLDummyInputsBuilder(BaseDummyInputsBuilder[KimiVLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=MaxImageTokenMeta.width,
+                height=MaxImageTokenMeta.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class KimiVLMultiModalProcessor(BaseMultiModalProcessor[KimiVLProcessingInfo]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_grid_hws = hf_inputs.get("image_grid_hws", torch.empty((0, 2)))
+        image_grid_sizes = image_grid_hws.prod(-1)
+
+        # pixel_values is merged as a single large tensor
+        # image_grid_hws is shapes for each subtensor in pixel_values
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_grid_sizes
+            ),
+            image_grid_hws=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        image_token_id = self.info.image_token_id
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                )
+
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    KimiVLMultiModalProcessor,
+    info=KimiVLProcessingInfo,
+    dummy_inputs=KimiVLDummyInputsBuilder,
+)
+class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|media_start|>image<|media_content|><|media_pad|><|media_end|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        model_config = vllm_config.model_config
+        config: KimiVLConfig = model_config.hf_config
+        self.config = config
+        quant_config = vllm_config.quant_config
+
+        assert isinstance(config.vision_config, MoonViTConfig)
+        self.use_data_parallel = (
+            model_config.multimodal_config.mm_encoder_tp_mode == "data"
+        )
+        self.hidden_size = config.text_config.hidden_size
+        self.vision_tower = MoonVitPretrainedModel(
+            config.vision_config,
+            self.use_data_parallel,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+
+        self.multi_modal_projector = KimiVLMultiModalProjector(
+            config=config,
+            use_data_parallel=self.use_data_parallel,
+            prefix=maybe_prefix(prefix, "multi_modal_projector"),
+        )
+
+        self.quant_config = quant_config
+        sub_vllm_config = copy.deepcopy(vllm_config)
+        sub_vllm_config.model_config.hf_config = (
+            sub_vllm_config.model_config.hf_config.text_config
+        )
+        self.language_model = DeepseekV2Model(
+            vllm_config=sub_vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.text_config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
+        self.media_placeholder: int = self.config.media_placeholder_token_id
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> KimiVLImageInputs | None:
+        # image input type must be pixel values now
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_grid_hws = kwargs.pop("image_grid_hws", None)
+
+        if pixel_values is None:
+            return None
+
+        return KimiVLImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            image_grid_hws=image_grid_hws,
+        )
+
+    # perform vt on processored pixel_values
+    @torch.inference_mode()
+    def _process_image_pixels(self, inputs: KimiVLImagePixelInputs) -> torch.Tensor:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+        image_grid_hws = inputs["image_grid_hws"]
+        if self.use_data_parallel:
+            return run_dp_sharded_mrope_vision_model(
+                self.vision_tower,
+                pixel_values,
+                image_grid_hws.tolist(),
+                rope_type="rope_2d",
+            )
+        else:
+            return self.vision_tower(pixel_values, image_grid_hws)
+
+    def _process_image_input(self, image_input: KimiVLImageInputs) -> torch.Tensor:
+        assert image_input["type"] == "pixel_values"
+        image_features = self._process_image_pixels(image_input)
+        assert isinstance(image_features, (list, tuple))
+        lengths = [x.shape[0] for x in image_features]
+        return self.multi_modal_projector(torch.cat(image_features)).split(lengths)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> NestedTensors | None:
+        # Validate the multimodal input keyword arguments
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return None
+
+        # Run multimodal inputs through encoder and projector
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor, **kwargs) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states, **kwargs)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        config = self.config.text_config
+        _KEYS_TO_MODIFY_MAPPING = {
+            "language_model.lm_head": "lm_head",
+            "language_model.model": "language_model",
+        }
+        # only doing this for language model part for now.
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        use_mha = (
+            config.model_type == "deepseek"
+            or config.qk_nope_head_dim + config.qk_rope_head_dim == 0
+        )
+        if use_mha:
+            stacked_params_mapping += [
+                (".qkv_proj", ".q_proj", "q"),
+                (".qkv_proj", ".k_proj", "k"),
+                (".qkv_proj", ".v_proj", "v"),
+            ]
+        if getattr(config, "n_routed_experts", None):
+            # Params for weights, fp8 weight scales, fp8 activation scales
+            # (param_name, weight_name, expert_id, shard_id)
+            expert_params_mapping = FusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=config.n_routed_experts,
+            )
+        else:
+            expert_params_mapping = []
+
+        params_dict = dict(self.named_parameters())
+
+        for args in weights:
+            name, loaded_weight = args[:2]
+            kwargs = args[2] if len(args) > 2 else {}
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            spec_layer = get_spec_layer_idx_from_weight_name(config, name)
+            if spec_layer is not None:
+                continue  # skip spec decode layers for main model
+
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            for key_to_modify, new_key in _KEYS_TO_MODIFY_MAPPING.items():
+                if key_to_modify in name:
+                    name = name.replace(key_to_modify, new_key)
+            use_default_weight_loading = False
+            if "vision" in name:
+                if self.vision_tower is not None:
+                    # We only do sharding for language model and
+                    # not vision model for now.
+                    use_default_weight_loading = True
+            else:
+                for param_name, weight_name, shard_id in stacked_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    # We have mlp.experts[0].gate_proj in the checkpoint.
+                    # Since we handle the experts below in expert_params_mapping,
+                    # we need to skip here BEFORE we update the name, otherwise
+                    # name will be updated to mlp.experts[0].gate_up_proj, which
+                    # will then be updated below in expert_params_mapping
+                    # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                    if ("mlp.experts." in name) and name not in params_dict:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(param, loaded_weight, shard_id, **kwargs)
+                    break
+                else:
+                    for idx, (
+                        param_name,
+                        weight_name,
+                        expert_id,
+                        shard_id,
+                    ) in enumerate(expert_params_mapping):
+                        if weight_name not in name:
+                            continue
+                        name = name.replace(weight_name, param_name)
+
+                        if is_pp_missing_parameter(name, self):
+                            continue
+
+                        param = params_dict[name]
+                        weight_loader = param.weight_loader
+                        weight_loader(
+                            param,
+                            loaded_weight,
+                            name,
+                            expert_id=expert_id,
+                            shard_id=shard_id,
+                            **kwargs,
+                        )
+                        break
+                    else:
+                        use_default_weight_loading = True
+            if use_default_weight_loading:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight, **kwargs)
+
+
+def get_spec_layer_idx_from_weight_name(
+    config: DeepseekV2Config, weight_name: str
+) -> int | None:
+    if hasattr(config, "num_nextn_predict_layers") and (
+        config.num_nextn_predict_layers > 0
+    ):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_nextn_predict_layers):
+            if weight_name.startswith(f"model.layers.{layer_idx + i}."):
+                return layer_idx + i
+    return None
diff --git a/model_executor/models/lfm2.py b/model_executor/models/lfm2.py
new file mode 100644
index 0000000..aeb2560
--- /dev/null
+++ b/model_executor/models/lfm2.py
@@ -0,0 +1,532 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+import torch.nn as nn
+from transformers import Lfm2Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.short_conv import ShortConv
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import HasInnerState, IsHybrid, SupportsLoRA, SupportsPP, SupportsQuant
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Lfm2MLP(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        ff_dim: int,
+        multiple_of: int,
+        auto_adjust_ff_dim: bool,
+        ffn_dim_multiplier: float | None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        if auto_adjust_ff_dim:
+            ff_dim = int(2 * ff_dim / 3)
+            # custom dim factor multiplier
+            if ffn_dim_multiplier is not None:
+                ff_dim = int(ffn_dim_multiplier * ff_dim)
+            ff_dim = multiple_of * ((ff_dim + multiple_of - 1) // multiple_of)
+
+        self.w1 = MergedColumnParallelLinear(
+            input_size=dim,
+            output_sizes=[ff_dim] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w1",
+        )
+        self.w2 = RowParallelLinear(
+            input_size=ff_dim,
+            output_size=dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w2",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.w1(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.w2(x)
+        return x
+
+
+class Lfm2Attention(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2Config,
+        layer_idx: int,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        self.num_kv_heads = num_kv_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.q_layernorm = RMSNorm(self.head_dim, eps=config.norm_eps)
+        self.k_layernorm = RMSNorm(self.head_dim, eps=config.norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        n_tokens, _ = hidden_states.shape
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = q.view(n_tokens, self.num_heads, self.head_dim).contiguous()
+        k = k.view(n_tokens, self.num_kv_heads, self.head_dim).contiguous()
+        q = self.q_layernorm(q)
+        k = self.k_layernorm(k)
+        q, k = self.rotary_emb(positions, q, k)
+        q = q.view(n_tokens, self.num_heads * self.head_dim)
+        k = k.view(n_tokens, self.num_kv_heads * self.head_dim)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class Lfm2AttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2Config,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.prefix = prefix
+        self.config = config
+        self.layer_idx = layer_idx
+
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+
+        self.self_attn = Lfm2Attention(
+            config=config,
+            layer_idx=layer_idx,
+            hidden_size=config.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.feed_forward = Lfm2MLP(
+            dim=config.block_dim,
+            ff_dim=config.block_ff_dim,
+            multiple_of=config.block_multiple_of,
+            auto_adjust_ff_dim=config.block_auto_adjust_ff_dim,
+            ffn_dim_multiplier=config.block_ffn_dim_multiplier,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
+        )
+        self.operator_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.operator_norm(hidden_states)
+        else:
+            hidden_states, residual = self.operator_norm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+        hidden_states, residual = self.ffn_norm(hidden_states, residual)
+        return self.feed_forward(hidden_states), residual
+
+
+class Lfm2ShortConvDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2Config,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.conv = ShortConv(
+            config=config,
+            dim=config.conv_dim,
+            layer_idx=layer_idx,
+            model_config=model_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.conv",
+        )
+
+        self.feed_forward = Lfm2MLP(
+            dim=config.block_dim,
+            ff_dim=config.block_ff_dim,
+            multiple_of=config.block_multiple_of,
+            auto_adjust_ff_dim=config.block_auto_adjust_ff_dim,
+            ffn_dim_multiplier=config.block_ffn_dim_multiplier,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
+        )
+        self.operator_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.operator_norm(hidden_states)
+        else:
+            hidden_states, residual = self.operator_norm(hidden_states, residual)
+        output = torch.empty_like(hidden_states)
+        self.conv(
+            hidden_states,
+            output,
+        )
+        hidden_states, residual = self.ffn_norm(output, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Lfm2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size, config.hidden_size, org_num_embeddings=config.vocab_size
+        )
+
+        def get_layer(prefix: str):
+            layer_idx = extract_layer_index(prefix)
+            is_attn = self.config.layer_types[layer_idx] == "full_attention"
+            layer_class = (
+                Lfm2AttentionDecoderLayer if is_attn else Lfm2ShortConvDecoderLayer
+            )
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        if get_pp_group().is_last_rank:
+            self.embedding_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        else:
+            self.embedding_norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.embedding_norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".w1", ".w1", 0),
+            (".w1", ".w3", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Lfm2ForCausalLM(
+    nn.Module, HasInnerState, SupportsLoRA, SupportsPP, IsHybrid, SupportsQuant
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "w1": [
+            "w1",
+            "w3",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, ...]:
+        return MambaStateDtypeCalculator.short_conv_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int]]:
+        """Calculate shapes for LFM2's convolutional cache.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+
+        return MambaStateShapeCalculator.short_conv_state_shape(
+            tp_world_size=parallel_config.tensor_parallel_size,
+            intermediate_size=hf_config.conv_dim,
+            conv_kernel=hf_config.conv_L_cache,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        cache_config = vllm_config.cache_config
+
+        assert not cache_config.enable_prefix_caching, (
+            "Lfm2 currently does not support prefix caching"
+        )
+
+        super().__init__()
+        self.config = config
+        self.model = Lfm2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/lfm2_moe.py b/model_executor/models/lfm2_moe.py
new file mode 100644
index 0000000..6b7b556
--- /dev/null
+++ b/model_executor/models/lfm2_moe.py
@@ -0,0 +1,762 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+import torch.nn as nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.short_conv import ShortConv
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import Lfm2MoeConfig
+
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    MixtureOfExperts,
+    SupportsLoRA,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Lfm2MoeMlp(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        ff_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.w1 = MergedColumnParallelLinear(
+            input_size=dim,
+            output_sizes=[ff_dim] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w1",
+        )
+        self.w2 = RowParallelLinear(
+            input_size=ff_dim,
+            output_size=dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w2",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.w1(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.w2(x)
+        return x
+
+
+class Lfm2MoeSparseMoeBlock(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2MoeConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts = config.num_experts
+
+        if self.tp_size > self.n_routed_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {self.n_routed_experts}."
+            )
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_logical_experts = self.n_routed_experts
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate",
+        )
+        if config.use_expert_bias:
+            self.gate.e_score_correction_bias = nn.Parameter(
+                torch.empty(self.n_routed_experts, dtype=torch.float32)
+            )
+        else:
+            self.gate.e_score_correction_bias = None
+
+        self.experts = FusedMoE(
+            num_experts=self.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,  # needed for softmax score func
+            num_expert_group=1,
+            topk_group=1,
+            prefix=f"{prefix}.experts",
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            scoring_func="sigmoid",
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = (
+            self.experts(hidden_states=hidden_states, router_logits=router_logits)
+            * self.routed_scaling_factor
+        )
+
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(  # noqa E501
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Lfm2MoeAttention(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2MoeConfig,
+        layer_idx: int,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        self.num_kv_heads = num_kv_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.q_layernorm = RMSNorm(self.head_dim, eps=config.norm_eps)
+        self.k_layernorm = RMSNorm(self.head_dim, eps=config.norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        n_tokens, _ = hidden_states.shape
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = q.view(n_tokens, self.num_heads, self.head_dim).contiguous()
+        k = k.view(n_tokens, self.num_kv_heads, self.head_dim).contiguous()
+        q = self.q_layernorm(q)
+        k = self.k_layernorm(k)
+        q, k = self.rotary_emb(positions, q, k)
+        q = q.view(n_tokens, self.num_heads * self.head_dim)
+        k = k.view(n_tokens, self.num_kv_heads * self.head_dim)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class Lfm2MoeAttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2MoeConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.prefix = prefix
+        self.config = config
+        self.layer_idx = layer_idx
+
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+
+        self.self_attn = Lfm2MoeAttention(
+            config=config,
+            layer_idx=layer_idx,
+            hidden_size=config.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        if layer_idx < config.num_dense_layers:
+            self.feed_forward = Lfm2MoeMlp(
+                dim=config.hidden_size,
+                ff_dim=config.intermediate_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        else:
+            self.feed_forward = Lfm2MoeSparseMoeBlock(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+                enable_eplb=enable_eplb,
+            )
+
+        self.operator_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.operator_norm(hidden_states)
+        else:
+            hidden_states, residual = self.operator_norm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+        hidden_states, residual = self.ffn_norm(hidden_states, residual)
+        return self.feed_forward(hidden_states), residual
+
+
+class Lfm2MoeShortConvDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Lfm2MoeConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.conv = ShortConv(
+            config=config,
+            dim=config.hidden_size,
+            layer_idx=layer_idx,
+            model_config=model_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.conv",
+        )
+
+        if layer_idx < config.num_dense_layers:
+            self.feed_forward = Lfm2MoeMlp(
+                dim=config.hidden_size,
+                ff_dim=config.intermediate_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        else:
+            self.feed_forward = Lfm2MoeSparseMoeBlock(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.feed_forward",
+                enable_eplb=enable_eplb,
+            )
+
+        self.operator_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.operator_norm(hidden_states)
+        else:
+            hidden_states, residual = self.operator_norm(hidden_states, residual)
+        output = torch.empty_like(hidden_states)
+        self.conv(
+            hidden_states,
+            output,
+        )
+        hidden_states, residual = self.ffn_norm(output, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Lfm2MoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        parallel_config = vllm_config.parallel_config
+        enable_eplb = parallel_config.enable_eplb
+        eplb_config = parallel_config.eplb_config
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size, config.hidden_size, org_num_embeddings=config.vocab_size
+        )
+
+        def get_layer(prefix: str):
+            layer_idx = extract_layer_index(prefix)
+            is_attn = self.config.layer_types[layer_idx] == "full_attention"
+            layer_class = (
+                Lfm2MoeAttentionDecoderLayer
+                if is_attn
+                else Lfm2MoeShortConvDecoderLayer
+            )
+            return layer_class(
+                config,
+                layer_idx,
+                model_config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        if get_pp_group().is_last_rank:
+            self.embedding_norm = RMSNorm(config.hidden_size, eps=config.norm_eps)
+        else:
+            self.embedding_norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.embedding_norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="w1",
+            ckpt_down_proj_name="w2",
+            ckpt_up_proj_name="w3",
+            num_experts=self.config.num_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".w1", ".w1", 0),
+            (".w1", ".w3", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if "expert_bias" in name:
+                name = name.replace("expert_bias", "gate.e_score_correction_bias")
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+
+                if ("feed_forward.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+
+                    if weight_name not in name:
+                        continue
+
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Lfm2MoeForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsQuant,
+    MixtureOfExperts,
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "w1": [
+            "w1",
+            "w3",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, ...]:
+        return MambaStateDtypeCalculator.short_conv_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int]]:
+        """Calculate shapes for LFM2's convolutional cache.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+
+        return MambaStateShapeCalculator.short_conv_state_shape(
+            tp_world_size=parallel_config.tensor_parallel_size,
+            intermediate_size=hf_config.hidden_size,
+            conv_kernel=hf_config.conv_L_cache,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        cache_config = vllm_config.cache_config
+
+        assert not cache_config.enable_prefix_caching, (
+            "Lfm2Moe currently does not support prefix caching"
+        )
+
+        super().__init__()
+        self.config = config
+        self.model = Lfm2MoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        # Set MoE hyperparameters
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_layer = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(
+                layer, (Lfm2MoeAttentionDecoderLayer, Lfm2MoeShortConvDecoderLayer)
+            )
+            if isinstance(layer.feed_forward, Lfm2MoeSparseMoeBlock):
+                example_layer = layer.feed_forward
+                self.moe_layers.append(layer.feed_forward.experts)
+
+        if example_layer is None:
+            raise RuntimeError(
+                "No Lfm2MoeSparseMoeBlock layer found in the model.layers."
+            )
+
+        self.num_moe_layers = len(self.moe_layers)
+        self.num_expert_groups = 1
+        self.num_shared_experts = 0
+        self.num_logical_experts = example_layer.n_logical_experts
+        self.num_physical_experts = example_layer.n_physical_experts
+        self.num_local_physical_experts = example_layer.n_local_physical_experts
+        self.num_routed_experts = example_layer.n_routed_experts
+        self.num_redundant_experts = example_layer.n_redundant_experts
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.feed_forward, Lfm2MoeSparseMoeBlock):
+                moe = layer.feed_forward
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/lightonocr.py b/model_executor/models/lightonocr.py
new file mode 100644
index 0000000..9839e4f
--- /dev/null
+++ b/model_executor/models/lightonocr.py
@@ -0,0 +1,195 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping, Sequence
+from typing import TypeVar
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    PixtralVisionConfig,
+)
+
+from vllm.config import VllmConfig
+from vllm.model_executor.models.mistral3 import (
+    Mistral3DummyInputsBuilder,
+    Mistral3ForConditionalGeneration,
+    Mistral3MultiModalProjector,
+    Mistral3ProcessingInfo,
+    _build_mistral3_info,
+    init_vision_tower_for_llava,
+)
+from vllm.model_executor.models.pixtral import PixtralHFEncoderInfo
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import MultiModalFieldConfig, MultiModalKwargs
+from vllm.multimodal.parse import ImageProcessorItems, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+
+_I = TypeVar("_I", bound=Mistral3ProcessingInfo)
+
+
+class LightOnOCRMultiModalProcessor(BaseMultiModalProcessor[Mistral3ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        # NOTE: LightOnOCR does not use break/end tokens, so we remove them here.
+        input_ids = processed_outputs.get("input_ids")
+        if input_ids is not None:
+            processor = self.info.get_hf_processor()
+            tokenizer = self.info.get_tokenizer()
+            vocab = tokenizer.get_vocab()
+
+            break_id = vocab.get(processor.image_break_token)
+            end_id = vocab.get(processor.image_end_token)
+
+            # create mask to remove break/end tokens
+            keep_mask = ~torch.isin(
+                input_ids,
+                torch.tensor([break_id, end_id]),
+            )
+
+            processed_outputs["input_ids"] = input_ids[keep_mask].unsqueeze(0)
+            if "attention_mask" in processed_outputs:
+                processed_outputs["attention_mask"] = processed_outputs[
+                    "attention_mask"
+                ][keep_mask].unsqueeze(0)
+
+        # un-pad pixel_values per-image so caches remain independent.
+        pixel_values = processed_outputs.get("pixel_values")
+        if pixel_values is not None:
+            image_sizes = processed_outputs["image_sizes"]
+            assert len(pixel_values) == len(image_sizes)
+            processed_outputs["pixel_values"] = [
+                p[:, :h, :w] for p, (h, w) in zip(pixel_values, image_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+        encoder_info = PixtralHFEncoderInfo(hf_config)
+
+        def replace(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            size = images.get_image_size(item_idx)
+            ncols, nrows = encoder_info.get_patch_grid_size(
+                image_width=size.width, image_height=size.height
+            )
+            # break/end tokens are not used in LightOnOCR
+            tokens = [image_token_id] * (ncols * nrows)
+            return PromptUpdateDetails.select_token_id(tokens, image_token_id)
+
+        return [
+            PromptReplacement(
+                modality="image", target=[image_token_id], replacement=replace
+            )
+        ]
+
+
+def _build_LightOnOCR_processor(
+    info: _I,
+    dummy_inputs: BaseDummyInputsBuilder[_I],
+    *,
+    cache: BaseMultiModalProcessorCache | None = None,
+):
+    assert isinstance(info, Mistral3ProcessingInfo)
+    return LightOnOCRMultiModalProcessor(info, dummy_inputs, cache=cache)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    _build_LightOnOCR_processor,
+    info=_build_mistral3_info,
+    dummy_inputs=Mistral3DummyInputsBuilder,
+)
+class LightOnOCRForConditionalGeneration(Mistral3ForConditionalGeneration):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.vision_encoder.": "vision_tower.",
+            "model.vision_projection.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+            "model.language_model.": "language_model.model.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        nn.Module.__init__(self)
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.vision_tower = init_vision_tower_for_llava(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+
+        self.multi_modal_projector = Mistral3MultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            spatial_merge_size=config.spatial_merge_size,
+            patch_size=config.vision_config.patch_size,
+            multimodal_projector_bias=config.multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "multi_modal_projector"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/llama.py b/model_executor/models/llama.py
new file mode 100644
index 0000000..0a3f37c
--- /dev/null
+++ b/model_executor/models/llama.py
@@ -0,0 +1,732 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only LLaMA model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import LlamaConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    DEFAULT_VOCAB_PADDING_SIZE,
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsEagle, SupportsEagle3, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class LlamaMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+        reduce_results: bool = True,
+        disable_tp: bool = False,
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            disable_tp=disable_tp,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            disable_tp=disable_tp,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        x, _ = self.gate_up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class LlamaAttention(nn.Module):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix)
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = self.hidden_size // self.total_num_heads
+        self.head_dim = head_dim
+        # Phi models introduced a partial_rotary_factor parameter in the config
+        self.partial_rotary_factor = getattr(config, "partial_rotary_factor", 1)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        llama_4_scaling_config = getattr(config, "llama_4_scaling", None)
+        self.do_llama_4_scaling = llama_4_scaling_config is not None
+        if self.do_llama_4_scaling:
+            self.llama_4_scaling_original_max_position_embeddings = (
+                llama_4_scaling_config["original_max_position_embeddings"]
+            )
+            self.llama_4_scaling_beta = llama_4_scaling_config["beta"]
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias_o_proj,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self._init_rotary_emb(
+            config, rope_scaling=rope_scaling, quant_config=quant_config
+        )
+
+        sliding_window = None
+        if layer_types := getattr(config, "layer_types", None):
+            # Fix for Eagle3 compatibility:
+            # for draft models, subtract target layer count
+            # to get draft-relative layer index starting from 0
+            if hasattr(config, "target_layer_count"):
+                # This is a draft model,
+                # adjust layer_idx to be relative to draft layers
+                effective_layer_idx = layer_idx - config.target_layer_count
+            else:
+                # This is a target model, use layer_idx directly
+                effective_layer_idx = layer_idx
+            assert effective_layer_idx < len(layer_types), (
+                f"effective_layer_idx: {effective_layer_idx} \
+                is out of bounds for layer_types: {layer_types}"
+            )
+
+            is_sliding = layer_types[effective_layer_idx] == "sliding_attention"
+            if is_sliding:
+                sliding_window = config.sliding_window
+
+        attn_cls = (
+            EncoderOnlyAttention
+            if attn_type == AttentionType.ENCODER_ONLY
+            else Attention
+        )
+
+        self.attn = attn_cls(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+        )
+
+    def _get_llama_4_attn_scale(self, positions: torch.Tensor) -> torch.Tensor:
+        # Llama4 scaling
+        scaling = 1 + self.llama_4_scaling_beta * torch.log(
+            1
+            + torch.floor(
+                positions / self.llama_4_scaling_original_max_position_embeddings
+            )
+        )
+        # Broadcast over head_dim
+        return scaling.unsqueeze(-1)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        if self.do_llama_4_scaling:
+            attn_scale = self._get_llama_4_attn_scale(positions)
+            q = (q * attn_scale).to(q.dtype)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def _init_rotary_emb(
+        self,
+        config: LlamaConfig,
+        rope_scaling: dict[str, Any] | None,
+        quant_config: QuantizationConfig | None,
+    ) -> None:
+        is_neox_style = True
+        is_gguf = quant_config and quant_config.get_name() == "gguf"
+        if is_gguf and config.model_type == "llama":
+            is_neox_style = False
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+
+
+class LlamaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        config: LlamaConfig | None = None,
+    ) -> None:
+        super().__init__()
+
+        config = config or vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = self.get_quant_config(vllm_config)
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        bias_o_proj = attention_bias
+        # support internlm/internlm3-8b with qkv_bias
+        if hasattr(config, "qkv_bias"):
+            attention_bias = config.qkv_bias
+
+        # By default, Llama uses causal attention as it is a decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        # (e.g. parasail-ai/GritLM-7B-vllm)
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = LlamaAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            bias_o_proj=bias_o_proj,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+        )
+        self.mlp = LlamaMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+    def get_quant_config(self, vllm_config: VllmConfig) -> QuantizationConfig | None:
+        """Get quantization config for this layer. Override in subclasses."""
+        return vllm_config.quant_config
+
+
+@support_torch_compile
+class LlamaModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = LlamaDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        self.quant_config = quant_config
+        lora_vocab = (
+            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
+            if lora_config
+            else 0
+        )
+        self.vocab_size = config.vocab_size + lora_vocab
+        self.org_vocab_size = config.vocab_size
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                org_num_embeddings=config.vocab_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: layer_type(vllm_config=vllm_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.aux_hidden_state_layers = tuple[int, ...]()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            if idx in self.aux_hidden_state_layers:
+                aux_hidden_states.append(hidden_states + residual)
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            if "scale" in name:
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class LlamaForCausalLM(
+    nn.Module, SupportsLoRA, SupportsPP, SupportsEagle, SupportsEagle3
+):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    # Mistral/Llama models can also be loaded with --load-format mistral
+    # from consolidated.safetensors checkpoints
+    mistral_mapping = {
+        "layers": "model.layers",
+        "attention": "self_attn",
+        "qscale_act": "input_scale",
+        "qscale_weight": "weight_scale",
+        "kv_fake_quantizer.qscale_act": "kv_scale",
+        "q_fake_quantizer.qscale_act": "attn.q_scale",
+        "k_fake_quantizer.qscale_act": "k_scale",
+        "v_fake_quantizer.qscale_act": "v_scale",
+        "wq": "q_proj",
+        "wk": "k_proj",
+        "wv": "v_proj",
+        "wo": "o_proj",
+        "attention_norm": "input_layernorm",
+        "feed_forward": "mlp",
+        "w1": "gate_proj",
+        "w2": "down_proj",
+        "w3": "up_proj",
+        "ffn_norm": "post_attention_layernorm",
+        "tok_embeddings": "model.embed_tokens",
+        "output": "lm_head",
+        "norm": "model.norm",
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = LlamaDecoderLayer,
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        self.config = config
+        self.lora_config = lora_config
+
+        self.model = self._init_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+            layer_type=layer_type,
+        )
+
+        if get_pp_group().is_last_rank:
+            self.unpadded_vocab_size = config.vocab_size
+            if lora_config:
+                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+            self.lm_head = ParallelLMHead(
+                self.unpadded_vocab_size,
+                config.hidden_size,
+                org_num_embeddings=config.vocab_size,
+                padding_size=(
+                    DEFAULT_VOCAB_PADDING_SIZE
+                    # We need bigger padding if using lora for kernel
+                    # compatibility
+                    if not lora_config
+                    else lora_config.lora_vocab_padding_size
+                ),
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                self.unpadded_vocab_size, config.vocab_size, logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        """Override to return default layers for Llama
+
+        Note: The GPU model runner will override this with layers from
+        the speculative config if available, providing dynamic configuration.
+        """
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def _init_model(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = LlamaDecoderLayer,
+    ):
+        return LlamaModel(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(
+            self.maybe_remap_mistral(name, loaded_weight)
+            for name, loaded_weight in weights
+        )
+
+    # This function is used to remap the mistral format as
+    # used by Mistral and Llama <=2
+    def maybe_remap_mistral(
+        self,
+        name: str,
+        loaded_weight: torch.Tensor,
+    ) -> tuple[str, torch.Tensor]:
+        def permute(w: torch.Tensor, n_heads: int, attn_out: int):
+            attn_in = self.config.head_dim * n_heads
+
+            return (
+                w.view(n_heads, attn_in // n_heads // 2, 2, attn_out)
+                .transpose(1, 2)
+                .reshape(attn_in, attn_out)
+            )
+
+        mapping = self.mistral_mapping
+        modules = name.split(".")
+
+        # rotary embeds should be sliced
+        # If using quantized model in mistral format,
+        # quantization scales (qscale_weight) also need to be sliced
+        if "wk" in modules and modules[-1] == "weight":
+            loaded_weight = permute(
+                loaded_weight, self.config.num_key_value_heads, self.config.hidden_size
+            )
+        elif (
+            "wk" in modules
+            and modules[-1] == "qscale_weight"
+            and loaded_weight.numel() > 1
+        ):
+            loaded_weight = permute(loaded_weight, self.config.num_key_value_heads, 1)
+        elif "wq" in modules and modules[-1] == "weight":
+            loaded_weight = permute(
+                loaded_weight, self.config.num_attention_heads, self.config.hidden_size
+            )
+        elif (
+            "wq" in modules
+            and modules[-1] == "qscale_weight"
+            and loaded_weight.numel() > 1
+        ):
+            loaded_weight = permute(loaded_weight, self.config.num_attention_heads, 1)
+
+        num_modules = len(modules)
+        for i in range(num_modules):
+            item = modules[i]
+            next_item = modules[i + 1] if i < num_modules - 1 else None
+
+            combined_item = f"{item}.{next_item}" if next_item is not None else None
+
+            if combined_item in mapping:
+                name = name.replace(combined_item, mapping[combined_item])
+            elif item in mapping and mapping[item] not in name:
+                name = name.replace(item, mapping[item])
+
+        return name, loaded_weight
diff --git a/model_executor/models/llama4.py b/model_executor/models/llama4.py
new file mode 100644
index 0000000..a7e0732
--- /dev/null
+++ b/model_executor/models/llama4.py
@@ -0,0 +1,859 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+#
+# Copyright 2025 the LLAMA4, Meta Inc., vLLM, and HuggingFace Inc. team.
+# All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only LLaMA model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Llama4TextConfig
+
+from vllm.attention import Attention
+from vllm.attention.layers.chunked_local_attention import ChunkedLocalAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_ep_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import MixtureOfExperts
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+
+from .llama import LlamaForCausalLM, LlamaMLP, LlamaModel
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    fast_topk,
+    is_pp_missing_parameter,
+)
+
+logger = init_logger(__name__)
+
+
+class Llama4MoE(nn.Module):
+    @staticmethod
+    def custom_routing_function(
+        hidden_states: torch.Tensor,
+        gating_output: torch.Tensor,
+        topk: int,
+        renormalize: bool,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        router_scores, router_indices = fast_topk(gating_output, topk, dim=-1)
+        # pseudo-standard is that the router scores are floats
+        router_scores = torch.sigmoid(router_scores.float())
+        return (router_scores, router_indices.to(torch.int32))
+
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        parallel_config = vllm_config.parallel_config
+        quant_config = vllm_config.quant_config
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.top_k = config.num_experts_per_tok
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+
+        intermediate_size_moe = config.intermediate_size
+        self.router = ReplicatedLinear(
+            config.hidden_size,
+            config.num_local_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.router",
+        )
+
+        self.shared_expert = LlamaMLP(
+            hidden_size=config.hidden_size,
+            intermediate_size=intermediate_size_moe,
+            hidden_act="silu",
+            quant_config=quant_config,
+            bias=False,
+            prefix=f"{prefix}.shared_expert",
+            reduce_results=False,
+            disable_tp=self.is_sequence_parallel,
+        )
+
+        # Load balancing settings.
+        eplb_config = parallel_config.eplb_config if parallel_config else None
+        self.enable_eplb = parallel_config.enable_eplb if parallel_config else False
+        self.n_redundant_experts = (
+            eplb_config.num_redundant_experts if eplb_config else 0
+        )
+
+        self.n_routed_experts: int = config.num_local_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_shared_experts: int = 1
+        self.n_local_experts: int = config.num_local_experts
+        self.n_physical_experts = self.n_local_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_expert,
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            custom_routing_function=Llama4MoE.custom_routing_function,
+            intermediate_size=intermediate_size_moe,
+            apply_router_weight_on_input=True,
+            reduce_results=False,
+            renormalize=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            is_sequence_parallel=self.is_sequence_parallel,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states):
+        num_tokens = hidden_states.shape[0]
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        router_logits, _ = self.router(hidden_states)
+
+        shared_out, routed_out = self.experts(
+            hidden_states=hidden_states,
+            router_logits=router_logits,
+        )
+        experts_out = routed_out + shared_out
+
+        if self.is_sequence_parallel:
+            experts_out = tensor_model_parallel_all_gather(experts_out, 0)
+            experts_out = experts_out[:num_tokens]
+        elif self.tp_size > 1:
+            experts_out = self.experts.maybe_all_reduce_tensor_model_parallel(
+                experts_out
+            )
+
+        return experts_out
+
+
+class Llama4Attention(nn.Module):
+    def __init__(
+        self,
+        config: Llama4TextConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = extract_layer_index(prefix)
+        self.hidden_size = hidden_size
+        self.no_rope_layers = config.no_rope_layers
+        self.nope = self.no_rope_layers[self.layer_idx] == 0
+        self.use_qk_norm = config.use_qk_norm and not self.nope
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.attn_temperature_tuning = self.nope and config.attn_temperature_tuning
+
+        self.floor_scale = getattr(config, "floor_scale", 8192.0)
+        self.attn_scale = getattr(config, "attn_scale", 0.1)
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.n_rep = self.num_heads // self.num_kv_heads
+        self.qk_norm = (
+            RMSNorm(
+                hidden_size=self.head_dim,
+                eps=config.rms_norm_eps,
+                has_weight=False,
+                dtype=torch.float32,
+            )
+            if self.use_qk_norm
+            else None
+        )
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias_o_proj,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        is_neox_style = True
+        is_gguf = quant_config and quant_config.get_name() == "gguf"
+        if is_gguf and config.model_type == "llama":
+            is_neox_style = False
+
+        self.rotary_emb = (
+            get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=max_position_embeddings,
+                base=int(rope_theta),
+                rope_scaling=rope_scaling if rope_scaling != "default" else None,
+                is_neox_style=is_neox_style,
+            )
+            if not self.nope
+            else None
+        )
+
+        use_chunked_local_attn = not self.nope and config.attention_chunk_size
+        attn_cls = ChunkedLocalAttention if use_chunked_local_attn else Attention
+        self.attn = attn_cls(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            **(
+                {"attention_chunk_size": config.attention_chunk_size}
+                if use_chunked_local_attn
+                else {}
+            ),
+        )
+
+    def _get_attn_scale(self, positions: torch.Tensor) -> torch.Tensor:
+        floor = torch.floor((positions + 1.0) / self.floor_scale)
+        attn_scale = torch.log(floor + 1.0) * self.attn_scale + 1.0
+
+        return attn_scale.unsqueeze(-1)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        if self.rotary_emb is not None:
+            q, k = self.rotary_emb(positions, q, k)
+
+        if self.qk_norm is not None:
+            # Normalization is applied on the head_dim dimension. The rest of
+            # the dimensions are collapsed into a single dimension to support
+            # custom rms_norm cuda kernel.
+            q = q.reshape(-1, self.head_dim)
+            q = self.qk_norm(q.float()).reshape(-1, self.q_size).to(q.dtype)
+            k = k.reshape(-1, self.head_dim)
+            k = self.qk_norm(k.float()).reshape(-1, self.kv_size).to(k.dtype)
+
+        # We are applying temperature tuning (https://arxiv.org/abs/2501.19399)
+        # to NoPE layers, where the inference-time temperature tuning function
+        # is customized to not affect short context
+        # while working at very long context
+        # https://arxiv.org/abs/2501.19399
+        #
+        # We should apply temperature tuning between (after) rotary / QK norm
+        # and (before) attention.
+        if self.attn_temperature_tuning and self.nope:
+            attn_scale = self._get_attn_scale(positions)
+            q = (q * attn_scale).to(q.dtype)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Llama4DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        config: Llama4TextConfig | None = None,
+    ) -> None:
+        super().__init__()
+
+        config = config or vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.layer_idx = extract_layer_index(prefix)
+        self.global_layer = config.no_rope_layers[self.layer_idx] == 0
+        self.hidden_size = config.hidden_size
+        rope_theta = config.rope_theta
+        rope_scaling = config.rope_scaling
+        max_position_embeddings = config.max_position_embeddings
+
+        self.self_attn = Llama4Attention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=False,
+            bias_o_proj=False,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        is_moe_layer = (
+            config.interleave_moe_layer_step > 0
+            and (self.layer_idx + 1) % config.interleave_moe_layer_step == 0
+        )
+        if is_moe_layer:
+            self.feed_forward = Llama4MoE(
+                vllm_config=vllm_config,
+                prefix=f"{prefix}.feed_forward",
+            )
+        else:
+            self.feed_forward = LlamaMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size_mlp,
+                hidden_act="silu",
+                quant_config=quant_config,
+                bias=False,
+                prefix=f"{prefix}.feed_forward",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(positions=positions, hidden_states=hidden_states)
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.feed_forward(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Llama4Model(LlamaModel):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[Llama4DecoderLayer] = Llama4DecoderLayer,
+    ):
+        self.num_experts = vllm_config.model_config.hf_config.num_local_experts
+        self.n_redundant_experts = (
+            vllm_config.parallel_config.eplb_config.num_redundant_experts
+        )
+        super().__init__(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
+
+    def load_moe_expert_weights(
+        self,
+        name: str,
+        loaded_weight: torch.Tensor,
+        params_dict: dict[str, nn.Parameter],
+        loaded_params: set[str],
+        expert_params_mapping: list[tuple[str, str, int, str]],
+        fused: bool = True,
+    ) -> bool:
+        """
+        Load MoE expert weights.
+
+        Args:
+            name: The name of the weight to load.
+            loaded_weight: The weight to load.
+            params_dict: The dictionary of module parameters.
+            loaded_params: The set of already loaded parameters.
+            expert_params_mapping: The mapping of expert parameters. Must be
+                generated by SharedFusedMoE.make_expert_params_mapping().
+            fused: Whether the expert weights are fused into a single weight
+                tensor or are separate weight tensors for each expert.
+                When fused is True, loaded_weight should have shape of:
+                [num_experts, hidden_in, hidden_out] for gate/up/down proj and
+                [hidden_out, hidden_in] for the others like router.
+                When fused is False, loaded_weight should have shape of:
+                [hidden_out, hidden_in].
+
+        Returns:
+            True if loaded_weight is one of MoE weights and the MoE expert
+            weights are loaded successfully, False otherwise.
+        """
+
+        # Whether the MoE expert weights are loaded successfully.
+        expert_param_loaded = False
+
+        # If fused is True, the loaded weight is in the layout of:
+        # [num_experts, hidden_in, hidden_out], so we must transpose the last
+        # two dimensions to match the expected layout of the parameters.
+        if fused and loaded_weight.ndim == 3:
+            loaded_weight = loaded_weight.transpose(-1, -2)
+
+            # If the gate_proj and up_proj weights are fused into a single
+            # weight tensor, we need to split the weight tensor into a tuple
+            # of two weight tensors along the hidden_out dimension.
+            if "experts.gate_up_proj" in name:
+                loaded_weight = loaded_weight.chunk(2, dim=-2)
+
+        # Iterate over all the expert parameters and load the weights if we find
+        # a match in weight name.
+        for param_name, weight_name, expert_id, shard_id in expert_params_mapping:
+            # Get a view of the loaded_weight to avoid modifying the original
+            # one across iterations.
+            new_loaded_weight = loaded_weight
+
+            # If expert weights are fused into a single weight tensor, remove
+            # the expert index from the expected weight name.
+            if fused:
+                # The string between e_str and proj_str is the expert index.
+                e_str, _, proj_str, _ = weight_name.split(".")
+                weight_name = f"{e_str}.{proj_str}"
+                param_name = f"{param_name}weight"
+
+            # Skip if the current weight is not one of the MoE weights.
+            if weight_name not in name:
+                continue
+
+            # Replace the weight name with the parameter name.
+            full_param_name = name.replace(weight_name, param_name)
+
+            # Skip if the current weight corresponds to a parameter that
+            # does not exist on the current PP (pipeline parallel) rank.
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            # Skip if the current weight is for the bias.
+            if (
+                name.endswith(".bias") or name.endswith("_bias")
+            ) and name not in params_dict:
+                continue
+
+            param = params_dict[full_param_name]
+            weight_loader = param.weight_loader
+
+            if fused:
+                # If the parameter is for w13 together, the corresponding weight
+                # will be a tuple, so we must select the correct weight
+                # depending on the shard id, which is either "w1" or "w3".
+                if "w13" in full_param_name:
+                    assert shard_id in ["w1", "w3"]
+                    shard_idx = 0 if shard_id == "w1" else 1
+                    new_loaded_weight = new_loaded_weight[shard_idx]
+
+                # If EP (expert parallel) is enabled, update expert_id to the
+                # starting expert index for the current EP rank and extract the
+                # corresponding expert weights.
+                layer_idx = extract_layer_index(name)
+                expert_map = self.layers[layer_idx].feed_forward.experts.expert_map
+                if expert_map is not None:
+                    local_expert_indices = (
+                        (expert_map != -1)
+                        .nonzero()
+                        .flatten()
+                        .to(new_loaded_weight.device)
+                    )
+                    new_loaded_weight = new_loaded_weight[local_expert_indices]
+                    expert_id = local_expert_indices[0].item()
+            else:
+                # TODO: add EP support for non fused weights
+                pass
+
+            # Load the weight into the module parameter with corresponding
+            # shard id and expert id.
+            weight_loader(
+                param,
+                new_loaded_weight,
+                full_param_name,
+                shard_id=shard_id,
+                expert_id=expert_id,
+            )
+            loaded_params.add(full_param_name)
+            expert_param_loaded = True
+
+        return expert_param_loaded
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        # Name mapping from the parameter name to the shard name and
+        # corresponding shard id.
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        # Indicate whether the expert weights are fused into a single weight
+        # tensor.
+        fused_experts_params = False
+        # Expert parameter mapping for the case where the expert weights are
+        # not fused into a single weight tensor.
+        expert_params_mapping = SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.num_experts,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+        # Expert parameter mapping for the case where the expert weights are
+        # fused into a single weight tensor.
+        expert_params_mapping_fused = SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_up_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="gate_up_proj",
+            num_experts=1,
+        )
+        # All the module parameters.
+        params_dict = dict(self.named_parameters())
+        # The module parameters that have been loaded.
+        loaded_params: set[str] = set()
+
+        # Iterate over all the weights and load them into module parameters.
+        for name, loaded_weight in weights:
+            # If the name contains "experts.gate_up_proj" or "experts.down_proj"
+            # without the expert indices, it means the expert weights are fused
+            # into a single weight tensor across all experts.
+            if "experts.gate_up_proj" in name or "experts.down_proj" in name:
+                fused_experts_params = True
+                expert_params_mapping = expert_params_mapping_fused
+
+            # If kv cache quantization scales exist and the weight name
+            # corresponds to one of the kv cache quantization scales, load
+            # them.
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            # Iterate over stacked_params_mapping to check if the current weight
+            # is one of the stacked parameters. If so, load the weight with the
+            # corresponding shard id. Note that MoE weights are handled
+            # separately in the else block.
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip if the current weight is not one of the stacked
+                # parameters or if the current weight is a MoE weight.
+                if weight_name not in name or "experts" in name:
+                    continue
+
+                # For ModelOpt checkpoints, we need to rename the self_attn
+                # weight/weight_scale names except for kv cache scales.
+                if not (
+                    name.endswith((".k_scale", ".v_scale")) and "self_attn" in name
+                ):
+                    name = name.replace(weight_name, param_name)
+
+                # Skip if the current weight corresponds to a parameter that
+                # does not exist on the current PP (pipeline parallel) rank.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                # Remap kv cache scale names for ModelOpt checkpoints.
+                # TODO: ModelOpt should implement get_cache_scale() such that
+                #       kv cache scale name remapping can be done there.
+                if name.endswith("scale"):
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                # Load the weight into the module parameter with corresponding
+                # shard id and exit the for loop and the else block.
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+
+                loaded_params.add(name)
+                break
+
+            # Handle normal (non-stacked) weights and MoE weights.
+            else:
+                # First, try to load MoE weights using load_moe_expert_weights.
+                # If successful, move on to next loaded weight.
+                if self.load_moe_expert_weights(
+                    name,
+                    loaded_weight,
+                    params_dict,
+                    loaded_params,
+                    expert_params_mapping,
+                    fused=fused_experts_params,
+                ):
+                    continue
+
+                # Skip if the current weight corresponds to a parameter that
+                # does not exist on the current PP (pipeline parallel) rank.
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                # Handle flat expert scale parameters that don't match
+                # per-expert patterns, i.e. one weight scale tensor for all
+                # experts.
+                scale_names = [
+                    "w13_input_scale",
+                    "w13_weight_scale",
+                    "w2_input_scale",
+                    "w2_weight_scale",
+                ]
+                if "experts." in name and any(
+                    scale_name in name for scale_name in scale_names
+                ):
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+
+                    # If weight loader supports special moe loading, use it to
+                    # avoid expensive runtime reflection
+                    if getattr(weight_loader, "supports_moe_loading", False):
+                        # Map the weight name to the corresponding shard id.
+                        shard_id = "w2" if "w2_" in name else "w1"
+
+                        # Transpose if weight scales are FP8 block scales with
+                        # three dimensions:
+                        # [num_experts, hidden_in, hidden_out].
+                        if (
+                            name.endswith("weight_scale")
+                            and loaded_weight.dtype == torch.float8_e4m3fn
+                            and loaded_weight.ndim == 3
+                        ):
+                            loaded_weight = loaded_weight.transpose(-1, -2)
+
+                        # Load the weight into the module parameter with
+                        # corresponding shard id and expert id.
+                        weight_loader(
+                            param, loaded_weight, name, shard_id=shard_id, expert_id=0
+                        )
+
+                    else:
+                        # Regular weight loader (handles both
+                        # param.weight_loader and default_weight_loader)
+                        weight_loader(param, loaded_weight)
+
+                    loaded_params.add(name)
+                    continue
+
+                # Handle normal (non-stacked, non-MoE) weights.
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+
+        # Finally, return the set of loaded parameters.
+        return loaded_params
+
+
+class Llama4ForCausalLM(LlamaForCausalLM, MixtureOfExperts):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        # update temperature tuning config from generation config
+        gen_config = vllm_config.model_config.try_get_generation_config()
+        gen_config.update(vllm_config.model_config.override_generation_config)
+        # enable temperature tuning by default when max_model_len > 32K
+        default_attn_temperature_tuning = vllm_config.model_config.max_model_len > 32768
+        vllm_config.model_config.hf_config.attn_temperature_tuning = gen_config.get(
+            "attn_temperature_tuning", default_attn_temperature_tuning
+        )
+
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, layer_type=Llama4DecoderLayer
+        )
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_moe = None
+        for layer in self.model.layers:
+            assert isinstance(layer, Llama4DecoderLayer)
+            if isinstance(layer.feed_forward, Llama4MoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.feed_forward
+                self.moe_layers.append(layer.feed_forward.experts)
+
+        if example_moe is None:
+            self.num_moe_layers = 0
+            self.num_expert_groups = 0
+            self.num_logical_experts = 0
+            self.num_physical_experts = 0
+            self.num_local_physical_experts = 0
+            self.num_routed_experts = 0
+            self.num_shared_experts = 0
+            self.num_redundant_experts = 0
+            logger.warning("No Llama4MoE layer found in model.layers.")
+        else:
+            self.num_moe_layers = len(self.moe_layers)
+            self.num_expert_groups = 1
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.feed_forward, Llama4MoE):
+                moe = layer.feed_forward
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def _init_model(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[Llama4DecoderLayer] = Llama4DecoderLayer,
+    ):
+        return Llama4Model(
+            vllm_config=vllm_config, prefix=prefix, layer_type=layer_type
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        weights = [
+            self.permute_qk_weight_for_rotary(name, loaded_weight)
+            for name, loaded_weight in weights
+        ]
+        return loader.load_weights(weights)
+
+    def permute_qk_weight_for_rotary(
+        self,
+        name: str,
+        loaded_weight: torch.Tensor,
+    ) -> tuple[str, torch.Tensor]:
+        # Helper function to permute the weight's channels
+        def permute(w: torch.Tensor, n_heads: int, is_weight_scale: bool):
+            # Calculate the expected shape of the weight.
+            # Do not rely on w's shape, as it may be in another layout.
+            attn_in = self.config.head_dim * n_heads
+            attn_out = self.config.hidden_size
+
+            # If the weight is FP4 packed as uint8, we need to divide attn_out
+            # by 2.
+            if w.dtype == torch.uint8 and w.shape[1] * 2 == attn_out:
+                attn_out = attn_out // 2
+
+            # If the weight is a weight scale, we need to divide attn_out by
+            # block size, which is currently 16.
+            elif (
+                w.dtype == torch.float8_e4m3fn
+                and is_weight_scale
+                and w.shape[1] * 16 == attn_out
+            ):
+                attn_out = attn_out // 16
+
+            return (
+                w.view(n_heads, attn_in // n_heads // 2, 2, attn_out)
+                .transpose(1, 2)
+                .reshape(attn_in, attn_out)
+            )
+
+        modules = name.split(".")
+
+        # Permute Q/K weights and weight block scales for rotary embedding
+        is_weight = modules[-1] == "weight"
+        is_nvfp4_weight_scale = (
+            modules[-1] == "weight_scale" and loaded_weight.dtype == torch.float8_e4m3fn
+        )
+
+        if is_weight or is_nvfp4_weight_scale:
+            if "wk" in modules or "k_proj" in modules:
+                loaded_weight = permute(
+                    loaded_weight,
+                    self.config.num_key_value_heads,
+                    is_nvfp4_weight_scale,
+                )
+            elif "wq" in modules or "q_proj" in modules:
+                loaded_weight = permute(
+                    loaded_weight,
+                    self.config.num_attention_heads,
+                    is_nvfp4_weight_scale,
+                )
+
+        return name, loaded_weight
diff --git a/model_executor/models/llama4_eagle.py b/model_executor/models/llama4_eagle.py
new file mode 100644
index 0000000..660c8f1
--- /dev/null
+++ b/model_executor/models/llama4_eagle.py
@@ -0,0 +1,223 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 the LLAMA4, Meta Inc., vLLM, and HuggingFace Inc. team.
+# All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.torchao import TorchAOConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.llama4 import Llama4DecoderLayer, Llama4ForCausalLM
+from vllm.model_executor.models.utils import extract_layer_index
+
+from .interfaces import SupportsMultiModal
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
+
+logger = init_logger(__name__)
+
+
+@support_torch_compile
+class LlamaModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        start_layer_id: int = 0,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.validate_and_update_config(start_layer_id, quant_config)
+        self.vocab_size = self.config.vocab_size
+        self.embed_tokens = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "embed_tokens"),
+        )
+
+        # Temporarily modify vllm_config.quant_config for draft model layers
+        original_quant_config = vllm_config.quant_config
+        vllm_config.quant_config = quant_config
+        try:
+            self.layers = nn.ModuleList(
+                [
+                    Llama4DecoderLayer(
+                        vllm_config=vllm_config,
+                        prefix=maybe_prefix(prefix, f"layers.{i + start_layer_id}"),
+                        config=self.config,
+                    )
+                    for i in range(self.config.num_hidden_layers)
+                ]
+            )
+        finally:
+            # Restore original quant_config
+            vllm_config.quant_config = original_quant_config
+        self.fc = torch.nn.Linear(
+            self.config.hidden_size * 2, self.config.hidden_size, bias=False
+        )
+        self.norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_input_ids(input_ids)
+        hidden_states = self.fc(torch.cat((inputs_embeds, hidden_states), dim=-1))
+        residual = None
+        for layer in self.layers:
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states, hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            name = name.removeprefix("model.")
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # if PP disabled then draft will share embed with target
+                if get_pp_group().world_size == 1 and "embed_tokens." in name:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        for name in params_dict:
+            # if PP disabled then draft will share embed with target
+            if get_pp_group().world_size == 1 and "embed_tokens." in name:
+                continue
+            assert name in loaded_params, f"{name} is not loaded!"
+        return loaded_params
+
+    def validate_and_update_config(
+        self, start_layer_id: int, quant_config: QuantizationConfig | None = None
+    ) -> None:
+        # yoco and moe is not supported by draft model yet
+        assert self.config.yoco_global_kv_layer is None
+        assert self.config.yoco_local_kv_layer is None
+        assert len(self.config.moe_layers) == 0
+        # draft model layer index is increased by start_layer_id,
+        # so we need to pad relevant configs accordingly
+        self.config.no_rope_layers = [0] * start_layer_id + self.config.no_rope_layers
+        # currently only TorchAO quantization is supported
+        if isinstance(quant_config, TorchAOConfig):
+
+            def pad_layer_name(layer: str) -> str:
+                layer_index = extract_layer_index(layer)
+                return layer.replace(
+                    str(layer_index), str(layer_index + start_layer_id)
+                )
+
+            torchao_config = quant_config.torchao_config
+            torchao_config.module_fqn_to_config = {
+                pad_layer_name(layer): quantization
+                for layer, quantization in torchao_config.module_fqn_to_config.items()
+            }
+
+
+class EagleLlama4ForCausalLM(Llama4ForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        target_layer_num = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+        # draft model quantization config may differ from target model
+        quant_config = VllmConfig.get_quantization_config(
+            vllm_config.speculative_config.draft_model_config, vllm_config.load_config
+        )
+        self.model = LlamaModel(
+            vllm_config=vllm_config,
+            prefix="model",
+            start_layer_id=target_layer_num,
+            quant_config=quant_config,
+        )
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            self.config.vocab_size, scale=logit_scale
+        )
+
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model
+
+    embed_input_ids = SupportsMultiModal.embed_input_ids  # type: ignore
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return self.model(input_ids, positions, hidden_states, inputs_embeds)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> None:
+        def transform(inputs):
+            name, loaded_weight = inputs
+            name, weight = self.permute_qk_weight_for_rotary(name, loaded_weight)
+            if "lm_head" not in name:
+                name = "model." + name
+            process_eagle_weight(self, name)
+            return name, weight
+
+        loader = AutoWeightsLoader(
+            self,
+            # lm_head is tied with target model (Llama4ForCausalLM)
+            skip_prefixes=(["lm_head."]),
+        )
+        loader.load_weights(map(transform, weights))
diff --git a/model_executor/models/llama_eagle.py b/model_executor/models/llama_eagle.py
new file mode 100644
index 0000000..90ab5c5
--- /dev/null
+++ b/model_executor/models/llama_eagle.py
@@ -0,0 +1,218 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import LlamaConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
+
+from .utils import (
+    AutoWeightsLoader,
+    get_draft_quant_config,
+    maybe_prefix,
+    process_eagle_weight,
+)
+
+logger = init_logger(__name__)
+
+
+class LlamaDecoderLayer(LlamaDecoderLayer):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        disable_input_layernorm: bool,
+        prefix: str = "",
+        config: LlamaConfig | None = None,
+    ) -> None:
+        super().__init__(vllm_config, prefix=prefix, config=config)
+
+        # Skip the input_layernorm
+        # https://github.com/SafeAILab/EAGLE/blob/35c78f6cdc19a73e05cf5c330b4c358dad970c6a/eagle/model/cnets.py#L427
+        if disable_input_layernorm:
+            del self.input_layernorm
+            self.input_layernorm = nn.Identity()
+
+    def get_quant_config(self, vllm_config: VllmConfig) -> QuantizationConfig | None:
+        """Use drafter's quantization config instead of verifier's."""
+        return get_draft_quant_config(vllm_config)
+
+
+@support_torch_compile
+class LlamaModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        start_layer_id: int = 0,
+    ) -> None:
+        super().__init__()
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.vocab_size = self.config.vocab_size
+
+        # Get drafter's quantization config
+        self.quant_config = get_draft_quant_config(vllm_config)
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "embed_tokens"),
+        )
+
+        self.layers = nn.ModuleList(
+            [
+                LlamaDecoderLayer(
+                    vllm_config,
+                    i == 0,
+                    prefix=maybe_prefix(prefix, f"layers.{i + start_layer_id}"),
+                    config=self.config,
+                )
+                for i in range(self.config.num_hidden_layers)
+            ]
+        )
+        self.fc = ReplicatedLinear(
+            input_size=self.config.hidden_size * 2,
+            output_size=self.config.hidden_size,
+            bias=False,
+            params_dtype=vllm_config.model_config.dtype,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "fc"),
+            return_bias=False,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        input_embeds = self.embed_tokens(input_ids)
+        hidden_states = self.fc(torch.cat((input_embeds, hidden_states), dim=-1))
+        residual = None
+        for layer in self.layers:
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        hidden_states = hidden_states + residual
+        return hidden_states, hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # Handle kv cache quantization scales
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            # Remapping the name FP8 kv-scale
+            if "scale" in name:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # if PP disabled then draft will share embed with target
+                if get_pp_group().world_size == 1 and "embed_tokens." in name:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class EagleLlamaForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        # Ensure draft_vocab_size is set
+        # default to the base vocab size when absent
+        if getattr(self.config, "draft_vocab_size", None) is None:
+            base_vocab_size = getattr(self.config, "vocab_size", None)
+            self.config.draft_vocab_size = base_vocab_size
+        target_layer_num = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+        self.model = LlamaModel(
+            vllm_config=vllm_config, prefix="model", start_layer_id=target_layer_num
+        )
+
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            self.config.vocab_size, scale=logit_scale
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if inputs_embeds is not None:
+            raise NotImplementedError(
+                f"{type(self).__name__} does not support multimodal inputs yet."
+            )
+        return self.model(input_ids, positions, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        def transform(inputs):
+            name, loaded_weight = inputs
+            if "lm_head" not in name:
+                name = "model." + name
+            process_eagle_weight(self, name)
+            return name, loaded_weight
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=None,
+        )
+        loader.load_weights(map(transform, weights))
diff --git a/model_executor/models/llama_eagle3.py b/model_executor/models/llama_eagle3.py
new file mode 100644
index 0000000..75c6713
--- /dev/null
+++ b/model_executor/models/llama_eagle3.py
@@ -0,0 +1,367 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import LlamaConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import QKVParallelLinear, ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import NestedTensors
+
+from .utils import (
+    AutoWeightsLoader,
+    get_draft_quant_config,
+    maybe_prefix,
+    process_eagle_weight,
+)
+
+logger = init_logger(__name__)
+
+
+class LlamaDecoderLayer(LlamaDecoderLayer):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        config: LlamaConfig | None = None,
+        layer_idx: int = 0,
+    ) -> None:
+        super().__init__(vllm_config, prefix=prefix, config=config)
+
+        config = config or vllm_config.model_config.hf_config
+        quant_config = self.get_quant_config(vllm_config)
+
+        # First layer uses 2*hidden_size (embeds + hidden_states concatenated)
+        # Subsequent layers use hidden_size (only hidden_states, no embeds)
+        qkv_input_size = 2 * self.hidden_size if layer_idx == 0 else self.hidden_size
+
+        # override qkv
+        self.self_attn.qkv_proj = QKVParallelLinear(
+            qkv_input_size,
+            self.self_attn.head_dim,
+            self.self_attn.total_num_heads,
+            self.self_attn.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "qkv_proj"),
+        )
+
+        self.hidden_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.layer_idx = layer_idx
+
+        if getattr(config, "norm_before_residual", False):
+            self._residual_norm = self._norm_before_residual
+        else:
+            self._residual_norm = self._norm_after_residual
+
+    def get_quant_config(self, vllm_config: VllmConfig) -> QuantizationConfig | None:
+        """Use drafter's quantization config instead of verifier's."""
+        return get_draft_quant_config(vllm_config)
+
+    def _norm_before_residual(
+        self, hidden_states: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        hidden_states = self.hidden_norm(hidden_states)
+        residual = hidden_states
+        return hidden_states, residual
+
+    def _norm_after_residual(
+        self, hidden_states: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        residual = hidden_states
+        hidden_states = self.hidden_norm(hidden_states)
+        return hidden_states, residual
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        embeds: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.layer_idx == 0:
+            # First layer: concatenate embeds with hidden_states
+            embeds = self.input_layernorm(embeds)
+            hidden_states, residual = self._residual_norm(hidden_states=hidden_states)
+            hidden_states = torch.cat([embeds, hidden_states], dim=-1)
+        else:
+            # Subsequent layers: process hidden_states and residuals only
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        # Self Attention
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+
+        # Fully Connected
+        hidden_states = self.mlp(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    # torch.compile is disabled for multimodal EAGLE3 models due to constraint
+    # violations with dynamic shapes during tensor concatenation operations.
+    # See: https://github.com/vllm-project/vllm/pull/22872/files#r2362028132
+    # Non-multimodal EAGLE3 models can still use torch.compile safely.
+    enable_if=lambda vllm_config: not MULTIMODAL_REGISTRY.supports_multimodal_inputs(
+        vllm_config.model_config
+    ),
+)
+class LlamaModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        start_layer_id: int = 0,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.vocab_size = self.config.vocab_size
+
+        # Get drafter's quantization config
+        self.quant_config = get_draft_quant_config(vllm_config)
+
+        current_vllm_config = get_current_vllm_config()
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "embed_tokens"),
+        )
+
+        self.layers = nn.ModuleList(
+            [
+                LlamaDecoderLayer(
+                    current_vllm_config,
+                    prefix=maybe_prefix(prefix, f"layers.{layer_idx + start_layer_id}"),
+                    config=self.config,
+                    layer_idx=layer_idx,
+                )
+                for layer_idx in range(self.config.num_hidden_layers)
+            ]
+        )
+        if hasattr(self.config, "target_hidden_size"):
+            fc_input_size = self.config.target_hidden_size * 3
+        else:
+            fc_input_size = self.config.hidden_size * 3
+        self.fc = ReplicatedLinear(
+            input_size=fc_input_size,
+            output_size=self.config.hidden_size,
+            bias=False,
+            params_dtype=vllm_config.model_config.dtype,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "fc"),
+            return_bias=False,
+        )
+
+        self.norm = RMSNorm(
+            self.config.hidden_size,
+            eps=self.config.rms_norm_eps,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        input_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if input_embeds is None:
+            input_embeds = self.embed_input_ids(input_ids)
+        assert hidden_states.shape[-1] == input_embeds.shape[-1]
+
+        residual = None
+        for layer in self.layers:
+            hidden_states, residual = layer(
+                positions=positions,
+                embeds=input_embeds,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+        hidden_states, hidden_prenorm = self.norm(hidden_states, residual)
+        return hidden_states, hidden_prenorm
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "midlayer." in name:
+                name = name.replace("midlayer.", "layers.0.")
+            # Handle kv cache quantization scales
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            # Remapping the name FP8 kv-scale
+            if "scale" in name:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Eagle3LlamaForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        self.config = vllm_config.speculative_config.draft_model_config.hf_config
+        # Ensure draft_vocab_size is set
+        # default to the base vocab size when absent
+        if getattr(self.config, "draft_vocab_size", None) is None:
+            base_vocab_size = getattr(self.config, "vocab_size", None)
+            self.config.draft_vocab_size = base_vocab_size
+        target_layer_num = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+
+        # Store target layer count in draft config for
+        # proper layer_types indexing in draft models
+        self.config.target_layer_count = target_layer_num
+        self.model = LlamaModel(
+            vllm_config=vllm_config, prefix="model", start_layer_id=target_layer_num
+        )
+
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.lm_head = ParallelLMHead(
+            self.config.draft_vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(
+            self.config.draft_vocab_size, scale=logit_scale
+        )
+        self.draft_id_to_target_id = nn.Parameter(
+            torch.zeros(self.config.draft_vocab_size, dtype=torch.long),
+            requires_grad=False,
+        )
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: NestedTensors | None = None,
+        is_multimodal: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return self.model(input_ids, positions, hidden_states, inputs_embeds)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        if self.draft_id_to_target_id is None:
+            assert logits.shape[1] == self.config.vocab_size, (
+                "Expected logits to have shape "
+                f"(*, {self.config.vocab_size}), but got {logits.shape}"
+            )
+            return logits
+
+        base = torch.arange(self.config.draft_vocab_size, device=logits.device)
+        targets = base + self.draft_id_to_target_id
+        logits_new = logits.new_full(
+            (
+                logits.shape[0],
+                self.config.vocab_size,
+            ),
+            float("-inf"),
+        )
+        logits_new[:, targets] = logits
+        return logits_new
+
+    def combine_hidden_states(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # combine multiple auxiliary hidden states returned by eagle3
+        return self.model.fc(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        model_weights = {}
+        includes_draft_id_mapping = False
+        includes_embed_tokens = False
+        for name, loaded_weight in weights:
+            if "t2d" in name:
+                continue
+            if "d2t" in name:
+                name = name.replace("d2t", "draft_id_to_target_id")
+                includes_draft_id_mapping = True
+            elif "lm_head" not in name:
+                name = "model." + name
+            if "embed_tokens" in name:
+                includes_embed_tokens = True
+            model_weights[name] = loaded_weight
+            process_eagle_weight(self, name)
+
+        skip_substrs = []
+        if not includes_draft_id_mapping:
+            skip_substrs.append("draft_id_to_target_id")
+        if not includes_embed_tokens:
+            skip_substrs.append("embed_tokens")
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=None,
+            skip_substrs=skip_substrs,
+        )
+        loader.load_weights(model_weights.items())
diff --git a/model_executor/models/llava.py b/model_executor/models/llava.py
new file mode 100644
index 0000000..c1fb2d4
--- /dev/null
+++ b/model_executor/models/llava.py
@@ -0,0 +1,842 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Final, Literal, Protocol, TypeAlias, TypeVar
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    CLIPVisionConfig,
+    LlavaConfig,
+    PixtralVisionConfig,
+    PretrainedConfig,
+    SiglipVisionConfig,
+)
+from transformers.models.llava import LlavaProcessor
+from transformers.models.pixtral import PixtralProcessor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .pixtral import PixtralHFEncoderInfo, PixtralHFVisionModel
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_num_selected_vision_tokens, get_vision_encoder_info
+
+
+class LlavaImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+    Note that `height` or `width` may be different per batch and image,
+    in which case the data is passed as a list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class PixtralHFImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels
+        - h: Height
+        - w: Width
+
+    Note that `height` or `width` may be different per batch and image,
+    in which case the data is passed as a list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values_pixtral"] = "pixel_values_pixtral"
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "c", "h", "w", dynamic_dims={"h", "w"}),
+    ]
+
+
+class LlavaImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]
+
+
+LlavaImageInputs: TypeAlias = (
+    LlavaImagePixelInputs | PixtralHFImagePixelInputs | LlavaImageEmbeddingInputs
+)
+
+
+class LlavaMultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        vision_hidden_size: int,
+        text_hidden_size: int,
+        projector_hidden_act: str,
+        multimodal_projector_bias: bool,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.linear_1 = ColumnParallelLinear(
+            vision_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = RowParallelLinear(
+            text_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class LlavaLikeConfig(Protocol):
+    vision_config: Final[PretrainedConfig]
+    image_token_index: Final[int]
+    vision_feature_select_strategy: Final[str]
+    vision_feature_layer: Final[int | list[int]]
+
+
+class LlavaLikeProcessor(Protocol):
+    image_token: Final[str]
+
+
+class BaseLlavaProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> LlavaLikeConfig:
+        return self.ctx.get_hf_config(LlavaConfig)
+
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    @abstractmethod
+    def get_hf_processor(self, **kwargs: object) -> LlavaLikeProcessor:
+        raise NotImplementedError
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        return get_num_selected_vision_tokens(
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+            hf_config.vision_feature_select_strategy,
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+
+_I = TypeVar("_I", bound=BaseLlavaProcessingInfo)
+
+
+class LlavaDummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class LlavaProcessingInfo(BaseLlavaProcessingInfo):
+    def get_hf_processor(self, **kwargs: object):
+        hf_processor = self.ctx.get_hf_processor(LlavaProcessor, **kwargs)
+        # In case patch_size is omitted from `processor_config.json`
+        # e.g. for E5-V: https://huggingface.co/royokong/e5-v
+        if hf_processor.patch_size is None:
+            patch_size = self.get_vision_encoder_info().get_patch_size()
+            hf_processor.patch_size = patch_size
+        return hf_processor
+
+
+class BaseLlavaMultiModalProcessor(BaseMultiModalProcessor[_I]):
+    # Copied from BaseMultiModalProcessor
+    @abstractmethod
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        raise NotImplementedError
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                )
+
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+class LlavaMultiModalProcessor(BaseLlavaMultiModalProcessor[LlavaProcessingInfo]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+
+class PixtralHFProcessingInfo(BaseLlavaProcessingInfo):
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(PixtralProcessor, **kwargs)
+
+
+class PixtralHFMultiModalProcessor(BaseMultiModalProcessor[PixtralHFProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        pixel_values = processed_outputs.get("pixel_values")
+        if pixel_values is not None:
+            # Avoid padding since we need the output for each image to be
+            # independent of other images for the cache to work correctly
+            image_sizes = processed_outputs["image_sizes"]
+            assert len(pixel_values) == len(image_sizes)
+
+            processed_outputs["pixel_values"] = [
+                p[:, :h, :w] for p, (h, w) in zip(pixel_values, image_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        hf_config = self.info.get_hf_config()
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        image_break_id = vocab[processor.image_break_token]
+        image_token_id = hf_config.image_token_index
+        image_end_id = vocab[processor.image_end_token]
+
+        assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+        encoder_info = PixtralHFEncoderInfo(hf_config)
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            ncols, nrows = encoder_info.get_patch_grid_size(
+                image_width=image_size.width,
+                image_height=image_size.height,
+            )
+
+            tokens = ([image_token_id] * ncols + [image_break_id]) * nrows
+            tokens[-1] = image_end_id
+
+            return PromptUpdateDetails.select_token_id(tokens, image_token_id)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+def _build_llava_or_pixtral_hf_info(
+    ctx: InputProcessingContext,
+) -> BaseLlavaProcessingInfo:
+    hf_config = ctx.get_hf_config(LlavaConfig)
+
+    if isinstance(hf_config.vision_config, PixtralVisionConfig):
+        return PixtralHFProcessingInfo(ctx)
+
+    return LlavaProcessingInfo(ctx)
+
+
+def _build_llava_or_pixtral_hf_processor(
+    info: _I,
+    dummy_inputs: BaseDummyInputsBuilder[_I],
+    *,
+    cache: BaseMultiModalProcessorCache | None = None,
+) -> BaseMultiModalProcessor:
+    if isinstance(info, PixtralHFProcessingInfo):
+        return PixtralHFMultiModalProcessor(
+            info,
+            dummy_inputs,  # type: ignore
+            cache=cache,
+        )
+
+    if isinstance(info, LlavaProcessingInfo):
+        return LlavaMultiModalProcessor(
+            info,
+            dummy_inputs,  # type: ignore
+            cache=cache,
+        )
+
+    raise NotImplementedError(type(info))
+
+
+def _get_num_hidden_layers(hf_config: LlavaLikeConfig) -> int:
+    """Determine the number of hidden layers to initialize up to in the
+    visual encoder.
+
+    Args:
+        hf_config: Model config with vision feature layer(s).
+    """
+    feature_layers = hf_config.vision_feature_layer
+    num_hidden_layers = hf_config.vision_config.num_hidden_layers
+    # If we have one feature layer, initialize up to that layer
+    if isinstance(feature_layers, int):
+        return _get_layer_index(feature_layers, num_hidden_layers)
+    # If we have multiple feature layers, initialize up to the deepest one
+    elif isinstance(feature_layers, (list, tuple)):
+        return max(_get_layer_index(idx, num_hidden_layers) for idx in feature_layers)
+    raise TypeError(
+        f"vision_layer_feature type: {type(feature_layers)} is not supported"
+    )
+
+
+def _get_layer_index(feature_layer_index: int, num_hidden_layers: int) -> int:
+    """Given a signed vision feature layer, get the number of hidden layers
+    needed to leverage it.
+
+    Args:
+        feature_layer_index: Index of a required layer in the visual encoder.
+        num_hidden_layers: The total number of hidden layers in the visual
+            encoder.
+    """
+    if feature_layer_index < 0:
+        return num_hidden_layers + feature_layer_index + 1
+    return feature_layer_index
+
+
+def init_vision_tower_for_llava(
+    hf_config: LlavaLikeConfig,
+    quant_config: QuantizationConfig | None,
+    *,
+    require_post_norm: bool | None = None,
+    prefix: str = "",
+) -> CLIPVisionModel | SiglipVisionModel | PixtralHFVisionModel:
+    vision_config = hf_config.vision_config
+
+    # Initialize the vision tower only up to the deepest required feature layer
+    num_hidden_layers = _get_num_hidden_layers(hf_config)
+
+    if isinstance(vision_config, CLIPVisionConfig):
+        return CLIPVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+    elif isinstance(vision_config, SiglipVisionConfig):
+        return SiglipVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+    elif isinstance(vision_config, PixtralVisionConfig):
+        return PixtralHFVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+
+    msg = f"Unsupported vision config: {type(vision_config)}"
+    raise NotImplementedError(msg)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    _build_llava_or_pixtral_hf_processor,
+    info=_build_llava_or_pixtral_hf_info,
+    dummy_inputs=LlavaDummyInputsBuilder,
+)
+class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # NOTE: These are special cases for Pixtral-12B in the HF-format
+        # https://huggingface.co/mistral-community/pixtral-12b/blob/main/config.json  # noqa
+        if (
+            config.text_config.architectures is None
+            and config.text_config.model_type == "mistral"
+        ):
+            config.text_config.architectures = ["MistralForCausalLM"]
+        if (
+            config.projector_hidden_act is None
+            and config.vision_config.hidden_act == "gelu"
+        ):
+            config.projector_hidden_act = "gelu"
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        if multimodal_config.get_limit_per_prompt("image"):
+            self.vision_tower = init_vision_tower_for_llava(
+                config,
+                quant_config,
+                require_post_norm=False,
+                prefix=maybe_prefix(prefix, "vision_tower"),
+            )
+            self.multi_modal_projector = LlavaMultiModalProjector(
+                vision_hidden_size=config.vision_config.hidden_size,
+                text_hidden_size=config.text_config.hidden_size,
+                projector_hidden_act=config.projector_hidden_act,
+                multimodal_projector_bias=config.multimodal_projector_bias,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "multi_modal_projector"),
+            )
+        else:
+            self.vision_tower = None
+            self.multi_modal_projector = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> LlavaImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            if self.config.vision_config.model_type == "pixtral":
+                return PixtralHFImagePixelInputs(
+                    type="pixel_values_pixtral",
+                    pixel_values=pixel_values,
+                )
+
+            expected_h = expected_w = self.config.vision_config.image_size
+            return LlavaImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                resolve_bindings={"h": expected_h, "w": expected_w},
+            )
+
+        if image_embeds is not None:
+            if self.config.vision_config.model_type == "pixtral":
+                raise ValueError("Pixtral-HF does not support image_embeds.")
+
+            return LlavaImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel | PixtralHFVisionModel,
+        pixel_values: torch.Tensor | list[torch.Tensor],
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        return vision_tower(
+            pixel_values,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+
+    def _process_image_pixels(
+        self,
+        inputs: LlavaImagePixelInputs | PixtralHFImagePixelInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+
+        return self._image_pixels_to_features(self.vision_tower, pixel_values)
+
+    def _process_image_input(
+        self,
+        image_input: LlavaImageInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_tower is not None
+        image_features = self._process_image_pixels(image_input)
+
+        if isinstance(image_features, torch.Tensor):
+            return self.multi_modal_projector(image_features)
+
+        feature_sizes = [image_feature.shape[0] for image_feature in image_features]
+
+        image_embeds = self.multi_modal_projector(torch.cat(image_features))
+        image_embeds = torch.split(image_embeds, feature_sizes)
+        return image_embeds
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for LLaVA-1.5.
+
+        One key thing to understand is the `input_ids` already accounts for the
+        positions of the to-be-inserted image embeddings.
+
+        Concretely, consider a text prompt:
+        `"USER: <image>\\nWhat's the content of the image?\\nASSISTANT:"`.
+
+        Tokenizer outputs:
+        `[1, 3148, 1001, 29901, 29871, 32000, 29871, 13, 5618, 29915, 29879,
+        278, 2793, 310, 278, 1967, 29973, 13, 22933, 9047, 13566, 29901]`.
+
+        To reserve space in KV cache, we have to insert placeholder tokens
+        before they are inputted to the model, so the input processor prepends
+        additional image tokens (denoted as `32000`), resulting in:
+        `[1, 3148, 1001, 29901, 29871, 32000, ..., 32000, 29871, 13, 5618,
+        29915, 29879, 278, 2793, 310, 278, 1967, 29973, 13, 22933, 9047, 13566,
+        29901]`.
+
+        We insert 575 tokens so that including the original image token in the
+        input, there are a total of 576 (24 * 24) image tokens, which
+        corresponds to the number of image tokens inputted to the language
+        model, i.e. the number of image tokens outputted by the visual encoder.
+
+        This way, the `positions` and `attn_metadata` are consistent
+        with the `input_ids`.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Position indices for the input tokens.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+
+        Info:
+            [`LlavaImageInputs`][vllm.model_executor.models.llava.LlavaImageInputs]
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.vision_tower is None and self.multi_modal_projector is None:
+            skip_prefixes.extend(["vision_tower.", "multi_modal_projector."])
+
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+
+class MantisProcessingInfo(LlavaProcessingInfo):
+    def get_hf_processor(self, **kwargs: object):
+        hf_config = self.get_hf_config()
+        vision_info = self.get_vision_encoder_info()
+
+        kwargs.setdefault("patch_size", vision_info.get_patch_size())
+        kwargs.setdefault(
+            "vision_feature_select_strategy",
+            hf_config.vision_feature_select_strategy,
+        )
+
+        return self.ctx.get_hf_processor(LlavaProcessor, **kwargs)
+
+
+class MantisMultiModalProcessor(LlavaMultiModalProcessor):
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        # Assume that it doesn't depend on the image size
+        num_image_tokens = self.info.get_num_image_tokens(
+            image_width=-1,
+            image_height=-1,
+        )
+
+        result = super().apply(
+            prompt,
+            mm_data,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        mm_items = self._to_mm_items(mm_data)
+        mm_item_counts = mm_items.get_all_counts()
+        mm_kwargs = result["mm_kwargs"]
+        mm_hashes = result["mm_hashes"]
+
+        # We reimplement the functionality of MLlavaProcessor from
+        # https://github.com/TIGER-AI-Lab/Mantis.git
+        def get_replacement_mantis(item_idx: int):
+            return "".join(
+                [
+                    f"(image {item_idx + 1}: <Image>",  # 7 tokens
+                    "<image>" * num_image_tokens,
+                    "</Image>)",  # 3 tokens
+                ]
+            )
+
+        mantis_mm_repls = self._bind_and_group_updates(
+            [
+                PromptReplacement(
+                    modality="image",
+                    target=[image_token_id] * num_image_tokens,
+                    replacement=get_replacement_mantis,
+                )
+            ],
+            mm_item_counts,
+        )
+
+        prompt_ids, _ = self._apply_prompt_updates(
+            result["prompt_token_ids"],
+            mantis_mm_repls,
+        )
+
+        orig_repls = self._get_mm_prompt_updates(
+            mm_items,
+            hf_processor_mm_kwargs,
+            mm_kwargs,
+        )
+        mm_placeholders = self._find_mm_placeholders(prompt_ids, orig_repls)
+        self._validate_mm_placeholders(mm_placeholders, mm_item_counts)
+
+        mm_placeholder_ranges = {
+            modality: [item.to_range() for item in placeholders]
+            for modality, placeholders in mm_placeholders.items()
+        }
+
+        return MultiModalInputs(
+            type="multimodal",
+            prompt_token_ids=prompt_ids,
+            mm_kwargs=mm_kwargs,
+            mm_hashes=mm_hashes,
+            mm_placeholders=mm_placeholder_ranges,
+        )
+
+
+# To use this model, please use
+# `--hf_overrides '{"architectures": ["MantisForConditionalGeneration"]}'`
+@MULTIMODAL_REGISTRY.register_processor(
+    MantisMultiModalProcessor,
+    info=MantisProcessingInfo,
+    dummy_inputs=LlavaDummyInputsBuilder,
+)
+class MantisForConditionalGeneration(LlavaForConditionalGeneration):
+    pass
diff --git a/model_executor/models/llava_next.py b/model_executor/models/llava_next.py
new file mode 100644
index 0000000..98b1b46
--- /dev/null
+++ b/model_executor/models/llava_next.py
@@ -0,0 +1,583 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Iterable, Mapping
+from typing import Annotated, Final, Literal, Protocol, TypeAlias, TypeVar
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, LlavaNextConfig, LlavaNextProcessor
+from transformers.models.llava_next.modeling_llava_next import (
+    get_anyres_image_grid_shape,
+    unpad_image,
+)
+
+from vllm.config import VllmConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalFieldConfig
+from vllm.multimodal.parse import ImageSize
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .llava import (
+    BaseLlavaMultiModalProcessor,
+    BaseLlavaProcessingInfo,
+    LlavaDummyInputsBuilder,
+    LlavaLikeConfig,
+    LlavaMultiModalProjector,
+    init_vision_tower_for_llava,
+)
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_num_selected_vision_tokens
+
+
+class LlavaNextImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - np: Number of patches + 1
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+    Note that `num_patches` may be different per batch and image,
+    in which case the data is passed as a list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "np", 3, "h", "w", dynamic_dims={"np"}),
+    ]
+
+    image_sizes: Annotated[torch.Tensor | None, TensorShape("bn", 2)]
+    # This should be in `(height, width)` format.
+
+
+class LlavaNextImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]
+
+
+LlavaNextImageInputs: TypeAlias = (
+    LlavaNextImagePixelInputs | LlavaNextImageEmbeddingInputs
+)
+
+
+class LlavaNextLikeConfig(LlavaLikeConfig, Protocol):
+    image_grid_pinpoints: Final[list[list[int]]]
+
+
+class LlavaNextProcessingInfo(BaseLlavaProcessingInfo):
+    def get_hf_config(self) -> LlavaNextLikeConfig:
+        return self.ctx.get_hf_config(LlavaNextConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        hf_processor = self.ctx.get_hf_processor(LlavaNextProcessor, **kwargs)
+
+        # In case patch_size is omitted from `processor_config.json`
+        # e.g. for E5-V: https://huggingface.co/royokong/e5-v
+        if hf_processor.patch_size is None:
+            patch_size = self.get_vision_encoder_info().get_patch_size()
+            hf_processor.patch_size = patch_size
+
+        return hf_processor
+
+    # Based on: https://github.com/huggingface/text-generation-inference/blob/v3.0.1/server/text_generation_server/models/vlm_causal_lm.py#L113
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        base_feature_size = get_num_selected_vision_tokens(
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+            hf_config.vision_feature_select_strategy,
+        )
+
+        num_patch_height, num_patch_width = get_anyres_image_grid_shape(
+            image_size=(image_height, image_width),
+            grid_pinpoints=hf_config.image_grid_pinpoints,
+            patch_size=vision_encoder_info.get_image_size(),
+        )
+
+        (
+            unpadded_feature_size,
+            newline_feature_size,
+        ) = self._get_num_unpadded_features(
+            original_height=image_height,
+            original_width=image_width,
+            npatches=vision_encoder_info.get_patch_grid_length(),
+            num_patch_height=num_patch_height,
+            num_patch_width=num_patch_width,
+        )
+
+        return unpadded_feature_size + newline_feature_size + base_feature_size
+
+    # Based on: https://github.com/huggingface/text-generation-inference/blob/v3.0.1/server/text_generation_server/models/vlm_causal_lm.py#L86
+    def _get_num_unpadded_features(
+        self,
+        *,
+        original_height: int,
+        original_width: int,
+        npatches: int,
+        num_patch_height: int,
+        num_patch_width: int,
+    ) -> tuple[int, int]:
+        current_height = npatches * num_patch_height
+        current_width = npatches * num_patch_width
+
+        aspect_ratio = original_width / original_height
+        current_aspect_ratio = current_width / current_height
+
+        if aspect_ratio > current_aspect_ratio:
+            new_height = int(
+                round(original_height * (current_width / original_width), 7)
+            )
+            padding = (current_height - new_height) // 2
+            current_height = current_height - (2 * padding)
+        else:
+            new_width = int(
+                round(original_width * (current_height / original_height), 7)
+            )
+            padding = (current_width - new_width) // 2
+            current_width = current_width - (2 * padding)
+
+        unpadded_features = current_height * current_width
+        newline_features = current_height
+
+        return (unpadded_features, newline_features)
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        hf_config = self.get_hf_config()
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for height, width in hf_config.image_grid_pinpoints:
+            feat_size = self.get_num_image_tokens(
+                image_width=width, image_height=height
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        if largest_feature_size == 0 or largest_feature_pinpoint is None:
+            raise ValueError("Cannot have a largest feature size of 0!")
+
+        return largest_feature_pinpoint
+
+
+_I = TypeVar("_I", bound=LlavaNextProcessingInfo)
+
+
+class BaseLlavaNextMultiModalProcessor(BaseLlavaMultiModalProcessor[_I]):
+    # Copied from BaseMultiModalProcessor
+    @abstractmethod
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        raise NotImplementedError
+
+
+class LlavaNextMultiModalProcessor(
+    BaseLlavaNextMultiModalProcessor[LlavaNextProcessingInfo]
+):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_sizes=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    LlavaNextMultiModalProcessor,
+    info=LlavaNextProcessingInfo,
+    dummy_inputs=LlavaDummyInputsBuilder,
+)
+class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.image_newline": "image_newline",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        vision_feature_layer = config.vision_feature_layer
+        # Determine the layer up to which we will initialize the vision tower
+        if isinstance(vision_feature_layer, int):
+            vision_hidden_size = config.vision_config.hidden_size
+            self.select_layers = None
+        # Used for multimodal granite models to control encoder outputs
+        elif isinstance(vision_feature_layer, (list, tuple)):
+            vision_hidden_size = config.vision_config.hidden_size * len(
+                vision_feature_layer
+            )
+            self.select_layers = vision_feature_layer
+        else:
+            raise TypeError(
+                f"vision_layer_feature type: {type(vision_feature_layer)}"
+                " is not supported"
+            )
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        self.vision_tower = init_vision_tower_for_llava(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.image_newline = nn.Parameter(torch.empty(config.text_config.hidden_size))
+        self.multi_modal_projector = LlavaMultiModalProjector(
+            vision_hidden_size=vision_hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            multimodal_projector_bias=config.multimodal_projector_bias,
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> LlavaNextImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_sizes = kwargs.pop("image_sizes", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            expected_h = expected_w = self.config.vision_config.image_size
+            return LlavaNextImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_sizes=image_sizes,
+                resolve_bindings={
+                    "h": expected_h,
+                    "w": expected_w,
+                },
+            )
+
+        if image_embeds is not None:
+            return LlavaNextImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        return vision_tower(
+            pixel_values,
+            select_layers=self.select_layers,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+
+    # Based on: https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py
+    def _merge_image_patch_embeddings(
+        self, image_size: torch.Tensor, patch_embeddings: torch.Tensor, *, strategy: str
+    ) -> torch.Tensor:
+        if strategy == "flat":
+            return patch_embeddings.flatten(0, 1)
+
+        if strategy.startswith("spatial"):
+            height = width = (
+                self.config.vision_config.image_size
+                // self.config.vision_config.patch_size
+            )
+
+            base_patch_embeds = patch_embeddings[0]
+            if height * width != base_patch_embeds.shape[0]:
+                raise ValueError(
+                    "The number of patches is not consistent with the image size."
+                )
+
+            if patch_embeddings.shape[0] > 1:
+                other_patch_embeds = patch_embeddings[1:]
+
+                # Move to CPU to avoid floating-point errors
+                orig_height, orig_width = image_size.tolist()
+
+                # image_aspect_ratio == "anyres"
+                num_patch_height, num_patch_width = get_anyres_image_grid_shape(
+                    (orig_height, orig_width),
+                    self.config.image_grid_pinpoints,
+                    self.config.vision_config.image_size,
+                )
+                num_patches = num_patch_height * num_patch_width
+
+                # Image patches might be padded for batch processing
+                other_patch_embeds = other_patch_embeds[:num_patches].view(
+                    num_patch_height, num_patch_width, height, width, -1
+                )
+
+                if "unpad" in strategy:
+                    other_patch_embeds = (
+                        other_patch_embeds.permute(4, 0, 2, 1, 3)
+                        .contiguous()
+                        .flatten(1, 2)
+                        .flatten(2, 3)
+                    )
+                    other_patch_embeds = unpad_image(
+                        other_patch_embeds, (orig_height, orig_width)
+                    )
+                    other_patch_embeds = torch.cat(
+                        (
+                            other_patch_embeds,
+                            self.image_newline[:, None, None]
+                            .expand(*other_patch_embeds.shape[:-1], 1)
+                            .to(other_patch_embeds.device),
+                        ),
+                        dim=-1,
+                    )
+                    other_patch_embeds = other_patch_embeds.flatten(1, 2).transpose(
+                        0, 1
+                    )
+                else:
+                    other_patch_embeds = (
+                        other_patch_embeds.permute(0, 2, 1, 3, 4)
+                        .contiguous()
+                        .flatten(0, 3)
+                    )
+
+                merged_patch_embeddings = torch.cat(
+                    (base_patch_embeds, other_patch_embeds), dim=0
+                )
+            else:
+                if "unpad" in strategy:
+                    merged_patch_embeddings = torch.cat(
+                        (
+                            base_patch_embeds,
+                            self.image_newline[None].to(base_patch_embeds.device),
+                        ),
+                        dim=0,
+                    )
+                else:
+                    merged_patch_embeddings = base_patch_embeds
+
+            return merged_patch_embeddings
+
+        raise ValueError(f"Unexpected patch merge strategy: {strategy}")
+
+    def _process_image_pixels(
+        self,
+        inputs: LlavaNextImagePixelInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+
+        if isinstance(pixel_values, torch.Tensor):
+            b, num_patches, c, h, w = pixel_values.shape
+            stacked_pixel_values = pixel_values.view(b * num_patches, c, h, w)
+            stacked_image_features = self._image_pixels_to_features(
+                self.vision_tower, stacked_pixel_values
+            )
+            stacked_patch_embeddings = self.multi_modal_projector(
+                stacked_image_features
+            )
+
+            return stacked_patch_embeddings.view(
+                b, num_patches, *stacked_patch_embeddings.shape[1:]
+            )
+
+        num_patches_per_batch = [v.shape[0] for v in pixel_values]
+        stacked_pixel_values = torch.cat(pixel_values)
+        stacked_image_features = self._image_pixels_to_features(
+            self.vision_tower, stacked_pixel_values
+        )
+
+        return torch.split(
+            self.multi_modal_projector(stacked_image_features), num_patches_per_batch
+        )
+
+    def _process_image_input(
+        self,
+        image_input: LlavaNextImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            return [image_input["data"]]
+
+        patch_embeddings = self._process_image_pixels(image_input)
+
+        image_sizes = image_input.get("image_sizes")
+        if image_sizes is None:
+            batch_size = len(image_input["data"])
+            vision_config = self.config.vision_config
+            default_height = default_width = vision_config.image_size
+            image_sizes = torch.as_tensor(
+                [[default_height, default_width] for _ in range(batch_size)]
+            )
+
+        return [
+            self._merge_image_patch_embeddings(
+                image_sizes[i], patch_features_batch, strategy="spatial_unpad"
+            )
+            for i, patch_features_batch in enumerate(patch_embeddings)
+        ]
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        # Multi-modal token ID may exceed vocab size
+        handle_oov_mm_token: bool = True,
+    ) -> torch.Tensor:
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for LlaVA-NeXT.
+
+        One key thing to understand is the `input_ids` already accounts for the
+        positions of the to-be-inserted image embeddings.
+
+        Concretely, consider a text prompt:
+        `"A chat between a curious human and an artificial intelligence
+        assistant. The assistant gives helpful, detailed, and polite answers to
+        the human's questions.
+        USER: <image>\\nWhat is shown in this image? ASSISTANT:"`.
+
+        Tokenizer outputs:
+        `[1, 319, 13563, 1546, 263, 12758, 5199, 322, 385, 23116, 21082, 20255,
+        29889, 450, 20255, 4076, 8444, 29892, 13173, 29892, 322, 1248, 568,
+        6089, 304, 278, 5199, 29915, 29879, 5155, 29889, 3148, 1001, 29901,
+        29871, 32000, 13, 5618, 338, 4318, 297, 445, 1967, 29973, 319, 1799,
+        9047, 13566, 29901]`.
+
+        To reserve space in KV cache, we have to insert placeholder tokens
+        before they are inputted to the model, so the input processor prepends
+        additional image tokens (denoted as `32000`), resulting in:
+        `[1, 319, 13563, 1546, 263, 12758, 5199, 322, 385, 23116, 21082, 20255,
+        29889, 450, 20255, 4076, 8444, 29892, 13173, 29892, 322, 1248, 568,
+        6089, 304, 278, 5199, 29915, 29879, 5155, 29889, 3148, 1001, 29901,
+        29871, 32000, ..., 32000, 13, 5618, 338, 4318, 297, 445, 1967, 29973,
+        319, 1799, 9047, 13566, 29901]`.
+
+        Unlike in LLaVA-1.5, the number of image tokens inputted to the language
+        model depends on the original size of the input image. Including the
+        original image token in the input, the required number of image tokens
+        is given by [`LlavaNextProcessingInfo.get_num_image_tokens`][vllm.\
+model_executor.models.llava_next.LlavaNextProcessingInfo.get_num_image_tokens].
+
+        This way, the `positions` and `attn_metadata` are consistent
+        with the `input_ids`.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Position indices for the input tokens.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+
+        Info:
+            [`LlavaNextImageInputs`][vllm.model_executor.models.llava_next.LlavaNextImageInputs]
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/llava_next_video.py b/model_executor/models/llava_next_video.py
new file mode 100644
index 0000000..902c598
--- /dev/null
+++ b/model_executor/models/llava_next_video.py
@@ -0,0 +1,467 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, LlavaNextVideoConfig, LlavaNextVideoProcessor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.models.clip import CLIPVisionModel
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageSize,
+    MultiModalDataItems,
+    VideoEmbeddingItems,
+    VideoProcessorItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.collection_utils import is_list_of
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .llava import init_vision_tower_for_llava
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_vision_encoder_info
+
+
+class LlavaNextVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of videos
+        - f: Number of frames
+        - c: Number of channels (3)
+        - h: Height of each frame
+        - w: Width of each frame
+
+    Note that `f` may be different for each batch, in which case
+    the data is passed as a list instead of a batched tensor.
+
+    Note that it only supports one video input for one batch.
+    """
+
+    type: Literal["pixel_values_videos"] = "pixel_values_videos"
+
+    pixel_values_videos: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "f", 3, "h", "w", dynamic_dims={"f"}),
+    ]
+
+
+class LlavaNextVideoProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(LlavaNextVideoConfig)
+
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(LlavaNextVideoProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"video": 1}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def _get_num_frame_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        spatial_pool_stride = hf_config.spatial_pool_stride
+
+        vision_encoder_info = self.get_vision_encoder_info()
+        patch_grid_length = vision_encoder_info.get_patch_grid_length()
+        pooled_grid_length = math.ceil(patch_grid_length / spatial_pool_stride)
+
+        return pooled_grid_length * pooled_grid_length
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+    ) -> int:
+        num_frame_tokens = self._get_num_frame_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+        return num_frame_tokens * num_frames
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = 0
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+            )
+
+            if next_max_tokens > max_tokens:
+                break
+
+            num_frames = next_num_frames
+
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_videos = mm_counts.get("video", 0)
+
+        max_total_frames = self._get_max_video_frames(seq_len)
+
+        return max(max_total_frames // max(max_videos, 1), 1)
+
+
+class LlavaNextVideoDummyInputsBuilder(
+    BaseDummyInputsBuilder[LlavaNextVideoProcessingInfo]
+):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_videos = mm_counts.get("video", 0)
+
+        processor = self.info.get_hf_processor()
+        video_token = processor.video_token
+
+        return video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            )
+        }
+
+
+class LlavaNextVideoMultiModalProcessor(
+    BaseMultiModalProcessor[LlavaNextVideoProcessingInfo]
+):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values_videos=MultiModalFieldConfig.batched("video"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        video_token_id = hf_config.video_token_index
+
+        def get_replacement(item_idx: int):
+            videos = mm_items.get_items(
+                "video", (VideoEmbeddingItems, VideoProcessorItems)
+            )
+
+            if isinstance(videos, VideoEmbeddingItems):
+                num_video_tokens = videos.get_feature_size(item_idx)
+            else:
+                image_size = videos.get_frame_size(item_idx)
+                num_video_tokens = self.info.get_num_video_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    num_frames=videos.get_num_frames(item_idx),
+                )
+
+            return [video_token_id] * num_video_tokens
+
+        return [
+            PromptReplacement(
+                modality="video",
+                target=[video_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+# adopted from transformers modeling_llava_next_video.py
+class LlavaNextVideoPooler(nn.Module):
+    def __init__(self, config: LlavaNextVideoConfig):
+        super().__init__()
+
+        mode = config.spatial_pool_mode
+        stride = config.spatial_pool_stride
+        image_size = config.vision_config.image_size
+        patch_size = config.vision_config.patch_size
+        self.image_size = image_size // patch_size**2
+
+        if mode == "average":
+            self.pool = nn.AvgPool2d(kernel_size=stride, stride=stride)
+        elif mode == "max":
+            self.pool = nn.MaxPool2d(kernel_size=stride, stride=stride)
+        else:
+            # TODO: Support Conv2d pooling layer, need to load weights
+            raise ValueError(
+                f"Unknown pooling mode: {mode}. Expected [`average`, `max`]"
+            )
+
+    def forward(self, image_features: torch.Tensor):
+        ori_width = int(
+            math.sqrt(image_features.shape[1] * self.image_size // self.image_size)
+        )
+        ori_height = int(ori_width * self.image_size // self.image_size)
+
+        batch_size, _, dim = image_features.shape
+        image_features_spatial = image_features.view(
+            batch_size, ori_height, ori_height, dim
+        ).permute(0, 3, 1, 2)
+        image_features_spatial = self.pool(image_features_spatial)
+
+        return image_features_spatial.flatten(2).transpose(1, 2).contiguous()
+
+
+class LlavaNextMultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        vision_hidden_size: int,
+        text_hidden_size: int,
+        projector_hidden_act: str,
+        multimodal_projector_bias: bool,
+    ):
+        super().__init__()
+
+        self.linear_1 = nn.Linear(
+            vision_hidden_size, text_hidden_size, bias=multimodal_projector_bias
+        )
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = nn.Linear(
+            text_hidden_size, text_hidden_size, bias=multimodal_projector_bias
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    LlavaNextVideoMultiModalProcessor,
+    info=LlavaNextVideoProcessingInfo,
+    dummy_inputs=LlavaNextVideoDummyInputsBuilder,
+)
+class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.image_newline": "image_newline",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+        if modality.startswith("video"):
+            return "<video>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # Initialize the vision tower only up to the required feature layer
+        self.vision_tower = init_vision_tower_for_llava(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.vision_resampler = LlavaNextVideoPooler(config)
+        self.multi_modal_projector = LlavaNextMultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            multimodal_projector_bias=config.multimodal_projector_bias,
+        )
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> LlavaNextVideoPixelInputs | None:
+        """
+        A legal video input should have the following dimensions:
+        {
+            "pixel_values_videos" :
+                list[b, Tensor(nb_frames, nb_channels, height, width)]
+        }
+        """
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+
+        if pixel_values_videos is None:
+            return None
+
+        expected_h = expected_w = self.config.vision_config.image_size
+        return LlavaNextVideoPixelInputs(
+            type="pixel_values_videos",
+            pixel_values_videos=pixel_values_videos,
+            resolve_bindings={
+                "h": expected_h,
+                "w": expected_w,
+            },
+        )
+
+    def _video_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        image_features = vision_tower(
+            pixel_values,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+        image_features = self.vision_resampler(image_features)
+        image_features = self.multi_modal_projector(image_features)
+        return image_features
+
+    def _process_video_pixels(self, inputs: LlavaNextVideoPixelInputs):
+        assert self.vision_tower is not None
+
+        video_pixels = inputs["pixel_values_videos"]
+
+        if isinstance(video_pixels, torch.Tensor):
+            bn, f, c, h, w = video_pixels.shape
+            stacked_pixels = video_pixels.view(bn * f, c, h, w)
+            stacked_embeddings = self._video_pixels_to_features(
+                self.vision_tower, stacked_pixels
+            )
+            embeds = stacked_embeddings.view(bn, f, *stacked_embeddings.shape[1:])
+
+        elif is_list_of(video_pixels, torch.Tensor):
+            frames_per_videos = [v.shape[0] for v in video_pixels]
+            stacked_pixels = torch.cat(video_pixels, dim=0)
+            stacked_embeddings = self._video_pixels_to_features(
+                self.vision_tower, stacked_pixels
+            )
+            embeds = torch.split(stacked_embeddings, frames_per_videos, dim=0)
+        else:
+            raise ValueError(f"Unsupported type of video input {type(video_pixels)}")
+
+        return [e.flatten(0, 1) for e in embeds]
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        video_input = self._parse_and_validate_video_input(**kwargs)
+        if video_input is None:
+            return []
+        vision_embeddings = self._process_video_pixels(video_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for LlaVA-NeXT-Video.
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            pixel_values_videos: Pixels in each frames for each input videos.
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            # This model doesn't support images for now
+            ignore_unexpected_prefixes=["image_newline"],
+        )
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/llava_onevision.py b/model_executor/models/llava_onevision.py
new file mode 100644
index 0000000..322bde9
--- /dev/null
+++ b/model_executor/models/llava_onevision.py
@@ -0,0 +1,923 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Final, Literal, Protocol, TypeAlias
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, LlavaOnevisionConfig, LlavaOnevisionProcessor
+from transformers.models.llava_onevision.modeling_llava_onevision import (
+    get_anyres_image_grid_shape,
+    unpad_image,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageSize,
+    MultiModalDataItems,
+    VideoEmbeddingItems,
+    VideoProcessorItems,
+)
+from vllm.multimodal.processing import PromptReplacement, PromptUpdate
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .llava import LlavaDummyInputsBuilder, init_vision_tower_for_llava
+from .llava_next import (
+    BaseLlavaNextMultiModalProcessor,
+    LlavaNextLikeConfig,
+    LlavaNextProcessingInfo,
+)
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+# For profile run
+_MAX_FRAMES_PER_VIDEO = 16
+
+
+class LlavaOnevisionVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of videos
+        - f: Number of frames
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+        Note that `f` may be different for each batch, and 'num_frames'
+        may be different for each video, in which case the data is passed as a
+        list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values_videos"] = "pixel_values_videos"
+
+    pixel_values_videos: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "f", 3, "h", "w", dynamic_dims={"f"}),
+    ]
+
+
+class LlavaOnevisionImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - np: Number of patches (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+        Note that `num_patches` may be different per batch and image,
+        in which case the data is passed as a list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "np", 3, "h", "w", dynamic_dims={"np"}),
+    ]
+
+    image_sizes: Annotated[torch.Tensor | None, TensorShape("bn", 2)]
+
+
+class LlavaOnevisionImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+
+    data: Annotated[
+        torch.Tensor,
+        TensorShape("bn", "ifs", "hs"),
+    ]
+
+
+LlavaOnevisionImageInputs: TypeAlias = (
+    LlavaOnevisionImagePixelInputs | LlavaOnevisionImageEmbeddingInputs
+)
+
+LlavaOnevisionMultiInputs: TypeAlias = (
+    LlavaOnevisionImageInputs | LlavaOnevisionVideoPixelInputs
+)
+
+
+class LlavaOnevisionLikeConfig(LlavaNextLikeConfig, Protocol):
+    video_token_index: Final[int]
+
+
+class LlavaOnevisionProcessingInfo(LlavaNextProcessingInfo):
+    def get_hf_config(self) -> LlavaOnevisionLikeConfig:
+        return self.ctx.get_hf_config(LlavaOnevisionConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(LlavaOnevisionProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    # Based on: https://github.com/huggingface/text-generation-inference/blob/v3.0.1/server/text_generation_server/models/vlm_causal_lm.py#L86
+    # with additional logic afterwards taken from LlavaOnevisionProcessor
+    def _get_num_unpadded_features(
+        self,
+        *,
+        original_height: int,
+        original_width: int,
+        npatches: int,
+        num_patch_height: int,
+        num_patch_width: int,
+    ) -> tuple[int, int]:
+        current_height = npatches * num_patch_height
+        current_width = npatches * num_patch_width
+
+        aspect_ratio = original_width / original_height
+        current_aspect_ratio = current_width / current_height
+
+        if aspect_ratio > current_aspect_ratio:
+            new_height = int(
+                round(original_height * (current_width / original_width), 7)
+            )
+            padding = (current_height - new_height) // 2
+            current_height = current_height - (2 * padding)
+        else:
+            new_width = int(
+                round(original_width * (current_height / original_height), 7)
+            )
+            padding = (current_width - new_width) // 2
+            current_width = current_width - (2 * padding)
+
+        unpadded_features = current_height * current_width
+        newline_features = current_height
+
+        ratio = math.sqrt(current_height * current_width / (9 * npatches**2))
+        if ratio > 1.1:
+            height_factor = int(current_height // ratio)
+            width_factor = int(current_width // ratio)
+            unpadded_features = height_factor * width_factor
+            newline_features = height_factor
+
+        return (unpadded_features, newline_features)
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        # NOTE: This hardcoded value is found via processor tests
+        return ImageSize(width=1153, height=944)
+
+    def _get_num_frame_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        spatial_pool_stride = getattr(hf_config, "spatial_pool_stride", 2)
+
+        vision_encoder_info = self.get_vision_encoder_info()
+        patch_grid_length = vision_encoder_info.get_patch_grid_length()
+        pooled_grid_length = math.ceil(patch_grid_length / spatial_pool_stride)
+
+        return pooled_grid_length * pooled_grid_length
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+    ) -> int:
+        num_frame_tokens = self._get_num_frame_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+        return num_frame_tokens * num_frames + 1  # Newline token
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = 0
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+            )
+
+            if next_max_tokens > max_tokens:
+                break
+
+            num_frames = next_num_frames
+
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_videos = mm_counts.get("video", 0)
+
+        max_total_frames = self._get_max_video_frames(seq_len)
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1), _MAX_FRAMES_PER_VIDEO
+        )
+
+        return max(max_frames_per_video, 1)
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len, mm_counts),
+        )
+
+
+class LlavaOnevisionDummyInputsBuilder(
+    LlavaDummyInputsBuilder[LlavaOnevisionProcessingInfo]
+):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+        video_token = processor.video_token
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+
+class LlavaOnevisionMultiModalProcessor(
+    BaseLlavaNextMultiModalProcessor[LlavaOnevisionProcessingInfo]
+):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_sizes=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.batched("video"),
+        )
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        videos = mm_data.pop("videos", [])
+        assert isinstance(videos, list)
+
+        if not videos:
+            return super()._call_hf_processor(
+                prompt=prompt,
+                mm_data=mm_data,
+                mm_kwargs=mm_kwargs,
+                tok_kwargs=tok_kwargs,
+            )
+
+        # LLaVA-OneVision processor doesn't support multiple videos
+        # with different sizes when converting back to tensors
+        # So, we process each component separately
+        # NOTE: No prompt replacement is applied in this case
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+        video_token = processor.video_token
+
+        text_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data={},
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        images = mm_data.pop("images", [])
+        assert isinstance(images, list)
+        if images:
+            processor_outputs = super()._call_hf_processor(
+                prompt=image_token * len(images),
+                mm_data={"images": images},
+                mm_kwargs=mm_kwargs,
+                tok_kwargs=tok_kwargs,
+            )
+            image_outputs = {
+                k: v
+                for k, v in processor_outputs.items()
+                if k in ("pixel_values", "image_sizes")
+            }
+        else:
+            image_outputs = {}
+
+        pixel_values_videos = []
+        for video in videos:
+            item_outputs = super()._call_hf_processor(
+                prompt=video_token,
+                mm_data={"videos": video},
+                mm_kwargs=mm_kwargs,
+                tok_kwargs=tok_kwargs,
+            )
+
+            pixel_values_videos.append(item_outputs["pixel_values_videos"][0])
+
+        video_outputs = {"pixel_values_videos": pixel_values_videos}
+
+        combined_outputs = dict(
+            text_outputs,
+            **image_outputs,
+            **video_outputs,
+        )
+        return BatchFeature(combined_outputs)
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        base_result = super()._hf_processor_applies_updates(
+            prompt_text=prompt_text,
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return base_result and mm_items.get_count("video", strict=False) == 0
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        image_repls = super()._get_prompt_updates(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            out_mm_kwargs=out_mm_kwargs,
+        )
+
+        hf_config = self.info.get_hf_config()
+        video_token_id = hf_config.video_token_index
+
+        def get_video_replacement(item_idx: int):
+            videos = mm_items.get_items(
+                "video", (VideoEmbeddingItems, VideoProcessorItems)
+            )
+
+            if isinstance(videos, VideoEmbeddingItems):
+                num_video_tokens = videos.get_feature_size(item_idx)
+            else:
+                image_size = videos.get_frame_size(item_idx)
+                num_video_tokens = self.info.get_num_video_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    num_frames=videos.get_num_frames(item_idx),
+                )
+
+            return [video_token_id] * num_video_tokens
+
+        return [
+            *image_repls,
+            PromptReplacement(
+                modality="video",
+                target=[video_token_id],
+                replacement=get_video_replacement,
+            ),
+        ]
+
+
+class LlavaOnevisionMultiModalProjector(nn.Module):
+    def __init__(self, config: LlavaOnevisionConfig):
+        super().__init__()
+
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size,
+            config.text_config.hidden_size,
+            bias=config.multimodal_projector_bias,
+        )
+        self.act = get_act_fn(config.projector_hidden_act)
+        self.linear_2 = nn.Linear(
+            config.text_config.hidden_size,
+            config.text_config.hidden_size,
+            bias=config.multimodal_projector_bias,
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    LlavaOnevisionMultiModalProcessor,
+    info=LlavaOnevisionProcessingInfo,
+    dummy_inputs=LlavaOnevisionDummyInputsBuilder,
+)
+class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.image_newline": "image_newline",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+        if modality.startswith("video"):
+            return "<video>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # Initialize the vision tower only up to the required feature layer
+        self.vision_tower = init_vision_tower_for_llava(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.multi_modal_projector = LlavaOnevisionMultiModalProjector(config)
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.image_newline = nn.Parameter(torch.empty(config.text_config.hidden_size))
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> LlavaOnevisionImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_sizes = kwargs.pop("image_sizes", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return LlavaOnevisionImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_sizes=image_sizes,
+                resolve_bindings={
+                    "h": self.config.vision_config.image_size,
+                    "w": self.config.vision_config.image_size,
+                },
+            )
+
+        if image_embeds is not None:
+            return LlavaOnevisionImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> LlavaOnevisionVideoPixelInputs | None:
+        """
+        A legal video input should have the following dimensions:
+        {
+            "pixel_values_videos" :
+                list[b, Tensor(nb_frames, nb_channels, height, width)]
+        }
+        """
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        if pixel_values_videos is None:
+            return None
+
+        return LlavaOnevisionVideoPixelInputs(
+            type="pixel_values_videos",
+            pixel_values_videos=pixel_values_videos,
+            resolve_bindings={
+                "h": self.config.vision_config.image_size,
+                "w": self.config.vision_config.image_size,
+            },
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+
+        return mm_input_by_modality
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        return vision_tower(
+            pixel_values,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+
+    # Based on: https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py
+    def _merge_image_patch_embeddings(
+        self,
+        image_size: torch.Tensor,
+        patch_embeddings: torch.Tensor,
+        *,
+        image_newline=None,
+        vision_aspect_ratio="anyres_max_9",
+        strategy: str,
+    ) -> torch.Tensor:
+        if strategy == "flat":
+            return patch_embeddings.flatten(0, 1)
+
+        if strategy.startswith("spatial"):
+            height = width = (
+                self.config.vision_config.image_size
+                // self.config.vision_config.patch_size
+            )
+
+            base_patch_embeds = patch_embeddings[0]
+            if height * width != base_patch_embeds.shape[0]:
+                raise ValueError(
+                    "The number of patches is not consistent with the image size."
+                )
+
+            if patch_embeddings.shape[0] > 1:
+                other_patch_embeds = patch_embeddings[1:]
+
+                # Move to CPU to avoid floating-point errors
+                orig_height, orig_width = image_size.tolist()
+
+                # image_aspect_ratio == "anyres"
+                num_patch_height, num_patch_width = get_anyres_image_grid_shape(
+                    (orig_height, orig_width),
+                    self.config.image_grid_pinpoints,
+                    self.config.vision_config.image_size,
+                )
+                num_patches = num_patch_height * num_patch_width
+
+                # Image patches might be padded for batch processing
+                other_patch_embeds = other_patch_embeds[:num_patches].view(
+                    num_patch_height, num_patch_width, height, width, -1
+                )
+
+                if "unpad" in strategy:
+                    other_patch_embeds = (
+                        other_patch_embeds.permute(4, 0, 2, 1, 3)
+                        .contiguous()
+                        .flatten(1, 2)
+                        .flatten(2, 3)
+                    )
+                    other_patch_embeds = unpad_image(
+                        other_patch_embeds, (orig_height, orig_width)
+                    )
+                    max_num_patches = int(
+                        vision_aspect_ratio.removeprefix("anyres_max_")
+                    )
+                    channels, curr_height, curr_width = other_patch_embeds.shape
+                    ratio = math.sqrt(
+                        curr_height * curr_width / (max_num_patches * height**2)
+                    )
+                    if ratio > 1.1:
+                        other_patch_embeds = other_patch_embeds[None]
+                        other_patch_embeds = nn.functional.interpolate(
+                            other_patch_embeds,
+                            [int(curr_height // ratio), int(curr_width // ratio)],
+                            mode="bilinear",
+                        )[0]
+                    if image_newline is not None:
+                        other_patch_embeds = torch.cat(
+                            (
+                                other_patch_embeds,
+                                image_newline[:, None, None]
+                                .expand(*other_patch_embeds.shape[:-1], 1)
+                                .to(other_patch_embeds.device),
+                            ),
+                            dim=-1,
+                        )
+                    other_patch_embeds = other_patch_embeds.flatten(1, 2).transpose(
+                        0, 1
+                    )
+                else:
+                    other_patch_embeds = (
+                        other_patch_embeds.permute(0, 2, 1, 3, 4)
+                        .contiguous()
+                        .flatten(0, 3)
+                    )
+
+                merged_patch_embeddings = torch.cat(
+                    (base_patch_embeds, other_patch_embeds), dim=0
+                )
+            else:
+                if "unpad" in strategy:
+                    merged_patch_embeddings = torch.cat(
+                        (
+                            base_patch_embeds,
+                            self.image_newline[None].to(base_patch_embeds.device),
+                        ),
+                        dim=0,
+                    )
+                else:
+                    merged_patch_embeddings = base_patch_embeds
+
+            return merged_patch_embeddings
+
+        raise ValueError(f"Unexpected patch merge strategy: {strategy}")
+
+    def _process_image_pixels(
+        self,
+        inputs: LlavaOnevisionImagePixelInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+
+        if isinstance(pixel_values, torch.Tensor):
+            b, num_patches, c, h, w = pixel_values.shape
+            stacked_pixel_values = pixel_values.view(b * num_patches, c, h, w)
+            stacked_image_features = self._image_pixels_to_features(
+                self.vision_tower, stacked_pixel_values
+            )
+            stacked_patch_embeddings = self.multi_modal_projector(
+                stacked_image_features
+            )
+
+            return stacked_patch_embeddings.view(
+                b, num_patches, *stacked_patch_embeddings.shape[1:]
+            )
+
+        num_patches_per_batch = [v.shape[0] for v in pixel_values]
+        stacked_pixel_values = torch.cat(pixel_values)
+        stacked_image_features = self._image_pixels_to_features(
+            self.vision_tower, stacked_pixel_values
+        )
+
+        return [
+            self.multi_modal_projector(image_features)
+            for image_features in torch.split(
+                stacked_image_features, num_patches_per_batch
+            )
+        ]
+
+    def _process_image_input(
+        self,
+        image_input: LlavaOnevisionImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            return [image_input["data"]]
+
+        patch_embeddings = self._process_image_pixels(image_input)
+
+        image_sizes = image_input.get("image_sizes")
+        if image_sizes is None:
+            batch_size = len(image_input["pixel_values"])
+            vision_config = self.config.vision_config
+            default_height = default_width = vision_config.image_size
+            image_sizes = torch.as_tensor(
+                [[default_height, default_width] for _ in range(batch_size)]
+            )
+
+        return [
+            self._merge_image_patch_embeddings(
+                image_sizes[i],
+                patch_features_batch,
+                image_newline=self.image_newline,
+                strategy="spatial_unpad",
+            )
+            for i, patch_features_batch in enumerate(patch_embeddings)
+        ]
+
+    def _video_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        video_features = vision_tower(
+            pixel_values,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+        video_features = self.multi_modal_projector(video_features)
+        video_features = self.apply_pooling(video_features)
+        return video_features
+
+    def _process_video_pixels(self, inputs: LlavaOnevisionVideoPixelInputs):
+        assert self.vision_tower is not None
+
+        video_pixels = inputs["pixel_values_videos"]
+
+        if isinstance(video_pixels, torch.Tensor):
+            total_videos, frames, c, h, w = video_pixels.shape
+            video_pixels_flat = video_pixels.view(total_videos * frames, c, h, w)
+
+            embeddings_flat = self._video_pixels_to_features(
+                self.vision_tower, video_pixels_flat
+            )
+
+            embeddings_flat = embeddings_flat.reshape(
+                total_videos, frames * embeddings_flat.shape[1], -1
+            )
+
+            image_newline = self.image_newline[None, None, :].expand(
+                total_videos, -1, -1
+            )
+            return torch.cat((embeddings_flat, image_newline), dim=1)
+
+        frames_per_video = [len(video) for video in video_pixels]
+        video_pixels_flat = torch.cat(video_pixels)
+
+        embeddings_flat = self._video_pixels_to_features(
+            self.vision_tower, video_pixels_flat
+        )
+
+        image_newline = self.image_newline[None, None, :]
+
+        return [
+            torch.cat(
+                (
+                    embeds.reshape(1, num_frame * embeddings_flat.shape[1], -1),
+                    image_newline,
+                ),
+                dim=1,
+            )
+            for num_frame, embeds in zip(
+                frames_per_video,
+                torch.split(embeddings_flat, frames_per_video),
+            )
+        ]
+
+    def apply_pooling(self, image_features: torch.Tensor, stride: int = 2):
+        vision_config = self.config.vision_config
+        height = width = vision_config.image_size // vision_config.patch_size
+        batch_frames, _, dim = image_features.shape
+        image_features = image_features.view(batch_frames, height, width, -1)
+        image_features = image_features.permute(0, 3, 1, 2)
+
+        # TODO support other pooling types config
+        height, width = image_features.shape[2:]
+        scaled_shape = [math.ceil(height / stride), math.ceil(width / stride)]
+        image_feature = nn.functional.interpolate(
+            image_features, size=scaled_shape, mode="bilinear"
+        )
+        image_feature = image_feature.permute(0, 2, 3, 1)
+        image_feature = image_feature.view(batch_frames, -1, dim)
+        return image_feature
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return []
+            return None
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_pixels(multimodal_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for LlaVA-Onevision.
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            pixel_values_videos: Pixels in each frames for each input videos.
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/longcat_flash.py b/model_executor/models/longcat_flash.py
new file mode 100644
index 0000000..5de10e7
--- /dev/null
+++ b/model_executor/models/longcat_flash.py
@@ -0,0 +1,749 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Apache License, Version 2.0:
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# MIT License:
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+"""Inference-only Flash model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.utils.int8_utils import block_dequant
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.deepseek_v2 import DeepseekV2MLAAttention
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class FlashConfig(PretrainedConfig):
+    """Flash model configuration."""
+
+    model_type = "longcat_flash"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=131072,
+        hidden_size=4096,
+        intermediate_size=8192,
+        num_layers=28,
+        num_hidden_layers=None,
+        num_attention_heads=96,
+        num_key_value_heads=128,
+        ep_size=1,
+        kv_lora_rank=512,
+        q_lora_rank=1536,
+        qk_rope_head_dim=64,
+        v_head_dim=128,
+        qk_nope_head_dim=128,
+        num_experts_per_tok=None,
+        norm_topk_prob=False,
+        max_position_embeddings=8192,
+        initializer_range=0.02,
+        rms_norm_eps=1e-05,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=100000,
+        eos_token_id=100001,
+        pretraining_tp=1,
+        tie_word_embeddings=False,
+        rope_theta=1000000.0,
+        rope_scaling=None,
+        attention_bias=False,
+        attention_dropout=0.0,
+        mla_scale_q_lora=False,
+        mla_scale_kv_lora=False,
+        dtype="bfloat16",
+        params_dtype="bfloat16",
+        router_dtype="float32",
+        router_bias=False,
+        topk_method=None,
+        routed_scaling_factor=None,
+        zero_expert_num=0,
+        zero_expert_type=None,
+        nextn_use_scmoe=False,
+        **kwargs,
+    ):
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            dtype=dtype,
+            params_dtype=params_dtype,
+            router_dtype=router_dtype,
+            topk_method=topk_method,
+            router_bias=router_bias,
+            nextn_use_scmoe=nextn_use_scmoe,
+            **kwargs,
+        )
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = (
+            num_hidden_layers if num_hidden_layers is not None else num_layers
+        )
+        self.num_attention_heads = num_attention_heads
+        self.ep_size = ep_size
+        self.kv_lora_rank = kv_lora_rank
+        self.q_lora_rank = q_lora_rank
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.num_experts_per_tok = num_experts_per_tok
+        self.norm_topk_prob = norm_topk_prob
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.pretraining_tp = pretraining_tp
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.mla_scale_q_lora = mla_scale_q_lora
+        self.mla_scale_kv_lora = mla_scale_kv_lora
+        self.zero_expert_num = zero_expert_num
+        self.zero_expert_type = zero_expert_type
+        self.routed_scaling_factor = routed_scaling_factor
+        self.hidden_act = "silu"
+        self.intermediate_size = (
+            self.ffn_hidden_size
+            if hasattr(self, "ffn_hidden_size")
+            else self.intermediate_size
+        )
+        if hasattr(self, "moe_intermediate_size"):
+            self.moe_intermediate_size = self.moe_intermediate_size
+        elif hasattr(self, "expert_ffn_hidden_size"):
+            self.moe_intermediate_size = self.expert_ffn_hidden_size
+        else:
+            self.moe_intermediate_size = self.intermediate_size
+
+
+class FlashMLP(nn.Module):
+    """Flash MLP layer."""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        if x.numel() == 0:
+            return x
+
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class LongcatRouter(nn.Module):
+    def __init__(
+        self,
+        config,
+        zero_expert_num=0,
+        rounter_params_dtype=torch.bfloat16,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.n_routed_experts = (
+            config.n_routed_experts
+            if hasattr(config, "n_routed_experts")
+            else config.num_experts[0]
+        )
+        self.n_routed_experts = self.n_routed_experts + zero_expert_num
+        self.classifier = ReplicatedLinear(
+            config.hidden_size,
+            self.n_routed_experts,
+            bias=config.router_bias,
+            params_dtype=rounter_params_dtype,
+            quant_config=None,
+            prefix=f"{prefix}.classifier",
+        )
+        self.e_score_correction_bias = nn.Parameter(
+            torch.zeros((self.n_routed_experts), dtype=rounter_params_dtype)
+        )
+
+    def forward(self, hidden_states):
+        logits, _ = self.classifier(hidden_states)
+        return logits
+
+
+class LongcatMoe(nn.Module):
+    def __init__(
+        self,
+        config: FlashConfig,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.zero_expert_num = config.zero_expert_num
+        self.zero_expert_type = config.zero_expert_type
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.enable_eplb = enable_eplb
+        # Gate always runs at half / full precision for now.
+        self.rounter_params_dtype = params_dtype
+        if config.router_dtype == "float32":
+            self.rounter_params_dtype = torch.float32
+
+        self.router = LongcatRouter(
+            config=config,
+            zero_expert_num=self.zero_expert_num,
+            rounter_params_dtype=self.rounter_params_dtype,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            reduce_results=True,
+            params_dtype=params_dtype,
+            e_score_correction_bias=self.router.e_score_correction_bias,
+            renormalize=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            zero_expert_num=self.zero_expert_num,
+            zero_expert_type=self.zero_expert_type,
+            enable_eplb=self.enable_eplb,
+            routed_scaling_factor=config.routed_scaling_factor,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits = self.router(hidden_states.to(self.rounter_params_dtype))
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class FlashDecoderLayer(nn.Module):
+    """Flash decoder layer with dual attention and MLP structure."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: FlashConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.layer_idx = int(prefix.split(sep=".")[-1])
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+
+        # Dual attention structure
+        self.self_attn = nn.ModuleList(
+            [
+                DeepseekV2MLAAttention(
+                    vllm_config=vllm_config,
+                    config=config,
+                    hidden_size=self.hidden_size,
+                    num_heads=config.num_attention_heads,
+                    qk_nope_head_dim=config.qk_nope_head_dim,
+                    qk_rope_head_dim=config.qk_rope_head_dim,
+                    v_head_dim=config.v_head_dim,
+                    q_lora_rank=(
+                        config.q_lora_rank if hasattr(config, "q_lora_rank") else None
+                    ),
+                    kv_lora_rank=config.kv_lora_rank,
+                    rope_theta=rope_theta,
+                    rope_scaling=rope_scaling,
+                    max_position_embeddings=max_position_embeddings,
+                    cache_config=cache_config,
+                    quant_config=None
+                    if "self_attn" in getattr(config, "disable_quant_module", [])
+                    else quant_config,
+                    prefix=f"{prefix}.self_attn.{i}",
+                )
+                for i in range(2)
+            ]
+        )
+        self.input_layernorm = nn.ModuleList(
+            [RMSNorm(config.hidden_size, eps=config.rms_norm_eps) for i in range(2)]
+        )
+        self.post_attention_layernorm = nn.ModuleList(
+            [RMSNorm(config.hidden_size, eps=config.rms_norm_eps) for i in range(2)]
+        )
+
+        # Dual MLP structure
+        self.mlps = nn.ModuleList(
+            [
+                FlashMLP(
+                    hidden_size=self.hidden_size,
+                    intermediate_size=config.intermediate_size,
+                    hidden_act=config.hidden_act,
+                    quant_config=None
+                    if "mlps" in getattr(config, "disable_quant_module", [])
+                    else quant_config,
+                    prefix=f"{prefix}.mlps.{i}",
+                )
+                for i in range(2)
+            ]
+        )
+
+        self.mlp = LongcatMoe(
+            config=config,
+            num_experts=config.n_routed_experts
+            if hasattr(config, "n_routed_experts")
+            else config.num_experts[self.layer_idx],
+            top_k=config.moe_topk
+            if hasattr(config, "moe_topk")
+            else config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            quant_config=quant_config,
+            prefix=(f"{prefix}.mlp"),
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm[0](hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm[0](hidden_states, residual)
+
+        hidden_states = self.self_attn[0](
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states, residual = self.post_attention_layernorm[0](
+            hidden_states, residual
+        )
+
+        # moe
+        hidden_states_copy = hidden_states.clone()
+        moe_hidden_states = self.mlp(hidden_states_copy)
+
+        # first mlp
+        hidden_states = self.mlps[0](hidden_states)
+
+        hidden_states, residual = self.input_layernorm[1](hidden_states, residual)
+
+        # second_attn
+        hidden_states = self.self_attn[1](
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states, residual = self.post_attention_layernorm[1](
+            hidden_states, residual
+        )
+
+        # second_mlp
+        hidden_states = self.mlps[1](hidden_states)
+
+        hidden_states = hidden_states + moe_hidden_states
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class FlashModel(nn.Module):
+    """Flash model."""
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = FlashConfig(**vllm_config.model_config.hf_config.__dict__)
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        self.padding_idx = getattr(config, "pad_token_id", None)
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=maybe_prefix(prefix, "embed_tokens"),
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: FlashDecoderLayer(
+                vllm_config,
+                config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class LongcatFlashForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    """Flash model for causal language modeling."""
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = FlashConfig(**vllm_config.model_config.hf_config.__dict__)
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        config.intermediate_size = (
+            config.ffn_hidden_size
+            if hasattr(config, "ffn_hidden_size")
+            else config.intermediate_size
+        )
+
+        self.quant_config = quant_config
+
+        self.model = FlashModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts
+            if hasattr(self.config, "n_routed_experts")
+            else self.config.num_experts[0],
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+
+        expert_params_mapping = self.get_expert_mapping()
+        loaded_params: set[str] = set()
+
+        params_dict = dict(self.named_parameters())
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "mlp" in name and "mlps" not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip mtp
+                if ".mtp." in name:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    is_expert_weight = True
+                    name_mapped = name.replace(weight_name, param_name)
+                    # Skip mtp
+                    if ".mtp." in name_mapped:
+                        continue
+                    if (
+                        name_mapped.endswith(".bias") or name_mapped.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name_mapped]
+                    weight_loader = param.weight_loader
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    # Skip loading kv_scale from ckpts towards new design.
+                    if name.endswith(".kv_scale") and name not in params_dict:
+                        continue
+                    # Skip mtp
+                    if ".mtp." in name:
+                        continue
+                    if name is None:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        for layer_id in range(self.config.num_hidden_layers):
+            for i in range(2):
+                if isinstance(self.model.layers[layer_id], PPMissingLayer):
+                    continue
+                self_attn = self.model.layers[layer_id].self_attn[i]
+                if hasattr(
+                    self.quant_config, "weight_block_size"
+                ) and self_attn.kv_b_proj.weight.dtype in (
+                    torch.float8_e4m3fn,
+                    torch.float8_e4m3fnuz,
+                ):
+                    weight_block_size = self.quant_config.weight_block_size
+                    if weight_block_size is not None:
+                        assert hasattr(self_attn.kv_b_proj, "weight_scale_inv")
+                        dtype = torch.get_default_dtype()
+                        w = block_dequant(
+                            self_attn.kv_b_proj.weight,
+                            self_attn.kv_b_proj.weight_scale_inv,
+                            weight_block_size,
+                        ).to(dtype)
+                else:
+                    w = self_attn.kv_b_proj.weight
+
+                w_kc, w_vc = w.unflatten(
+                    0, (-1, self_attn.qk_nope_head_dim + self_attn.v_head_dim)
+                ).split([self_attn.qk_nope_head_dim, self_attn.v_head_dim], dim=1)
+                self_attn.w_kc = w_kc.transpose(1, 2).contiguous().transpose(1, 2)
+                self_attn.w_vc = w_vc.contiguous().transpose(1, 2)
+                if self.config.mla_scale_q_lora:
+                    self_attn.q_a_layernorm.weight.data *= (
+                        self.config.hidden_size / self.config.q_lora_rank
+                    ) ** 0.5
+                if self.config.mla_scale_kv_lora:
+                    self_attn.kv_a_layernorm.weight.data *= (
+                        self.config.hidden_size / self.config.kv_lora_rank
+                    ) ** 0.5
+        return loaded_params
diff --git a/model_executor/models/longcat_flash_mtp.py b/model_executor/models/longcat_flash_mtp.py
new file mode 100644
index 0000000..e554d1e
--- /dev/null
+++ b/model_executor/models/longcat_flash_mtp.py
@@ -0,0 +1,349 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/v0.7.3/vllm/model_executor/models/deepseek_mtp.py
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.utils.int8_utils import block_dequant
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.longcat_flash import FlashConfig
+from vllm.sequence import IntermediateTensors
+
+from .deepseek_v2 import DeepseekV2DecoderLayer
+from .interfaces import SupportsPP
+from .utils import maybe_prefix
+
+
+class LongCatMultiTokenPredictorLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        vllm_config: VllmConfig,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.eh_proj = ReplicatedLinear(
+            2 * config.hidden_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix="eh_proj",
+        )
+        self.mtp_block = DeepseekV2DecoderLayer(vllm_config, prefix)
+        self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        inputs_embeds = self.enorm(inputs_embeds)
+        previous_hidden_states = self.hnorm(previous_hidden_states)
+
+        hidden_states, _ = self.eh_proj(
+            torch.cat([inputs_embeds, previous_hidden_states], dim=-1)
+        )
+
+        hidden_states, residual = self.mtp_block(
+            positions=positions, hidden_states=hidden_states, residual=None
+        )
+        hidden_states, _ = self.final_layernorm(hidden_states, residual)
+        return hidden_states
+
+
+class LongCatMultiTokenPredictor(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = FlashConfig(**vllm_config.model_config.hf_config.__dict__)
+        vllm_config.model_config.hf_config.intermediate_size = config.intermediate_size
+        self.mtp_start_layer_idx = config.num_hidden_layers * 2
+        self.num_mtp_layers = 1
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): LongCatMultiTokenPredictorLayer(
+                    config,
+                    prefix=f"{prefix}.layers.{idx}",
+                    vllm_config=vllm_config,
+                    quant_config=quant_config,
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        return self.layers[str(self.mtp_start_layer_idx + current_step_idx)](
+            input_ids,
+            positions,
+            previous_hidden_states,
+            inputs_embeds,
+            current_step_idx,
+        )
+
+
+class LongCatFlashMTP(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        # LongCat MTP without MoE layers
+        vllm_config.model_config.hf_config.n_routed_experts = None
+        self.config = FlashConfig(**vllm_config.model_config.hf_config.__dict__)
+        self.quant_config = (
+            None
+            if "mtp" in getattr(self.config, "disable_quant_module", [])
+            else vllm_config.quant_config
+        )
+
+        self.model = LongCatMultiTokenPredictor(
+            vllm_config=vllm_config,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "model"),
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(self.config.vocab_size)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, inputs_embeds, spec_step_idx
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        ]
+
+        new_to_old_names_mapping = {
+            "model.mtp.embed_tokens.weight": "model.layers.0.embed_tokens.weight",
+            "model.mtp.layers.0.eh_proj.weight": "eh_proj.weight",
+            "model.mtp.layers.0.eh_proj.weight_scale_inv": "eh_proj.weight_scale_inv",
+            "model.mtp.layers.0.enorm.m.weight": "enorm.weight",
+            "model.mtp.layers.0.hnorm.m.weight": "hnorm.weight",
+            "model.mtp.layers.0.input_layernorm.weight": "model.layers.0.input_layernorm.weight",  # noqa: E501
+            "model.mtp.layers.0.post_attention_layernorm.weight": "model.layers.0.post_attention_layernorm.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.kv_a_layernorm.weight": "model.layers.0.self_attn.kv_a_layernorm.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.kv_a_proj_with_mqa.weight": "model.layers.0.self_attn.kv_a_proj_with_mqa.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.kv_a_proj_with_mqa.weight_scale_inv": "model.layers.0.self_attn.kv_a_proj_with_mqa.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.self_attn.kv_b_proj.weight": "model.layers.0.self_attn.kv_b_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.kv_b_proj.weight_scale_inv": "model.layers.0.self_attn.kv_b_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.self_attn.o_proj.weight": "model.layers.0.self_attn.o_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.o_proj.weight_scale_inv": "model.layers.0.self_attn.o_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.self_attn.q_a_layernorm.weight": "model.layers.0.self_attn.q_a_layernorm.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.q_a_proj.weight": "model.layers.0.self_attn.q_a_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.q_a_proj.weight_scale_inv": "model.layers.0.self_attn.q_a_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.self_attn.q_b_proj.weight": "model.layers.0.self_attn.q_b_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.self_attn.q_b_proj.weight_scale_inv": "model.layers.0.self_attn.q_b_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.down_proj.weight": "model.layers.0.mlp.down_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.down_proj.weight_scale_inv": "model.layers.0.mlp.down_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.gate_proj.weight": "model.layers.0.mlp.gate_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.gate_proj.weight_scale_inv": "model.layers.0.mlp.gate_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.up_proj.weight": "model.layers.0.mlp.up_proj.weight",  # noqa: E501
+            "model.mtp.layers.0.transformer_layer.mlp.up_proj.weight_scale_inv": "model.layers.0.mlp.up_proj.weight_scale_inv",  # noqa: E501
+            "model.mtp.norm.weight": "final_layernorm.weight",
+        }
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            spec_layer = self.get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is None:
+                continue
+            name = self._rewrite_spec_layer_name(
+                spec_layer, name, new_to_old_names_mapping
+            )
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                # QKV fusion is optional, fall back to normal
+                # weight loading if it's not enabled
+                if (param_name == "fused_qkv_a_proj") and name not in params_dict:
+                    continue
+
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                # According to DeepSeek-V3 Technical Report, MTP modules
+                # shares embedding layer. We only load the first weights.
+                if (
+                    spec_layer != self.model.mtp_start_layer_idx
+                    and ".layers" not in name
+                ):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        spec_layer_id = self.config.num_hidden_layers * 2
+        self_attn = self.model.layers[str(spec_layer_id)].mtp_block.self_attn
+        if hasattr(
+            self.quant_config, "weight_block_size"
+        ) and self_attn.kv_b_proj.weight.dtype in (
+            torch.float8_e4m3fn,
+            torch.float8_e4m3fnuz,
+        ):
+            weight_block_size = self.quant_config.weight_block_size
+            if weight_block_size is not None:
+                dtype = torch.get_default_dtype()
+                w = block_dequant(
+                    self_attn.kv_b_proj.weight,
+                    self_attn.kv_b_proj.weight_scale_inv,
+                    weight_block_size,
+                ).to(dtype)
+            else:
+                w = self_attn.kv_b_proj.weight
+        else:
+            w = self_attn.kv_b_proj.weight
+        w_kc, w_vc = w.unflatten(
+            0, (-1, self_attn.qk_nope_head_dim + self_attn.v_head_dim)
+        ).split([self_attn.qk_nope_head_dim, self_attn.v_head_dim], dim=1)
+        self_attn.w_kc = w_kc.transpose(1, 2).contiguous().transpose(1, 2)
+        self_attn.w_vc = w_vc.contiguous().transpose(1, 2)
+        if self.config.mla_scale_q_lora:
+            self_attn.q_a_layernorm.weight.data *= (
+                self.config.hidden_size / self.config.q_lora_rank
+            ) ** 0.5
+        if self.config.mla_scale_kv_lora:
+            self_attn.kv_a_layernorm.weight.data *= (
+                self.config.hidden_size / self.config.kv_lora_rank
+            ) ** 0.5
+        return loaded_params
+
+    def _rewrite_spec_layer_name(
+        self, spec_layer: int, name: str, new_to_old_names_mapping: dict
+    ) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        and rename shared layer weights to be top level.
+        """
+        if name in new_to_old_names_mapping:
+            name = new_to_old_names_mapping[name]
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        if (
+            name.startswith("enorm")
+            or name.startswith("hnorm")
+            or name.startswith("eh_proj")
+            or name.startswith("final_layernorm")
+        ):
+            name = "model.layers." + str(spec_layer) + "." + name
+        shared_weight_names = ["embed_tokens"]
+        spec_layer_weight = False
+        shared_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                if weight_name in shared_weight_names:
+                    shared_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                "model.layers.0.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        elif shared_weight:
+            # treat shared weights as top level weights
+            name = name.replace("model.layers.0.", "model.")
+        return name
+
+    def get_spec_layer_idx_from_weight_name(
+        self, config: PretrainedConfig, weight_name: str
+    ) -> int | None:
+        if "model.mtp" in weight_name:
+            return config.num_hidden_layers * 2
+        return None
diff --git a/model_executor/models/mamba.py b/model_executor/models/mamba.py
new file mode 100644
index 0000000..aa16640
--- /dev/null
+++ b/model_executor/models/mamba.py
@@ -0,0 +1,276 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""PyTorch MAMBA model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import MambaConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer import MambaMixer
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import (
+    HasInnerState,
+    IsAttentionFree,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+)
+from vllm.sequence import IntermediateTensors
+
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+KVCache = tuple[torch.Tensor, torch.Tensor]
+
+
+class MambaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: MambaConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        is_lora_enabled: bool | None = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.is_falcon_mamba = config.model_type == "falcon_mamba"
+        self.is_lora_enabled = is_lora_enabled
+        mixer_rms_eps = config.mixer_rms_eps if self.is_falcon_mamba else None
+        self.mixer = MambaMixer(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.state_size,
+            conv_kernel_size=config.conv_kernel,
+            intermediate_size=config.intermediate_size,
+            time_step_rank=config.time_step_rank,
+            use_conv_bias=config.use_conv_bias,
+            use_bias=config.use_bias,
+            use_rms_norm=self.is_falcon_mamba,
+            rms_norm_has_weight=not self.is_falcon_mamba,
+            rms_norm_eps=mixer_rms_eps,
+            activation=config.hidden_act,
+            is_lora_enabled=self.is_lora_enabled,
+            model_config=model_config,
+            cache_config=cache_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        output = torch.empty_like(hidden_states)
+        self.mixer(hidden_states, output)
+        return output, residual
+
+
+@support_torch_compile
+class MambaModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        is_lora_enabled = bool(lora_config)
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embeddings = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: MambaDecoderLayer(
+                config,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                is_lora_enabled=is_lora_enabled,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions, hidden_states=hidden_states, residual=residual
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm_f(hidden_states, residual)
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "A_log" in name:
+                name = name.replace("A_log", "A")
+            # Skip loading extra bias for GPTQ models.
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MambaForCausalLM(
+    nn.Module, HasInnerState, IsAttentionFree, SupportsPP, SupportsMambaPrefixCaching
+):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+
+        self.scheduler_config = vllm_config.scheduler_config
+
+        super().__init__()
+        self.config = config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.backbone = MambaModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "backbone")
+        )
+
+        if config.tie_word_embeddings:
+            self.lm_head = self.backbone.embeddings
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.backbone.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.backbone.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.backbone(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba1_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int]]:
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+
+        return MambaStateShapeCalculator.mamba1_state_shape(
+            tp_world_size=parallel_config.tensor_parallel_size,
+            intermediate_size=hf_config.intermediate_size,
+            state_size=hf_config.state_size,
+            conv_kernel=hf_config.conv_kernel,
+        )
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.mamba_cache.copy_inputs_before_cuda_graphs(input_buffers, **kwargs)
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/mamba2.py b/model_executor/models/mamba2.py
new file mode 100644
index 0000000..fc17f98
--- /dev/null
+++ b/model_executor/models/mamba2.py
@@ -0,0 +1,289 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""PyTorch MAMBA2 model."""
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import MambaConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import (
+    HasInnerState,
+    IsAttentionFree,
+    SupportsMambaPrefixCaching,
+)
+from vllm.sequence import IntermediateTensors
+
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+KVCache = tuple[torch.Tensor, torch.Tensor]
+
+
+class Mamba2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: MambaConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.mixer = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.state_size,
+            conv_kernel_size=config.conv_kernel,
+            intermediate_size=getattr(
+                config, "intermediate_size", config.expand * config.hidden_size
+            ),
+            use_conv_bias=config.use_conv_bias,
+            use_bias=config.use_bias,
+            n_groups=config.n_groups,
+            num_heads=config.num_heads,
+            head_dim=config.head_dim,
+            rms_norm_eps=config.layer_norm_epsilon,
+            activation=config.hidden_act,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        output = torch.empty_like(hidden_states)
+        self.mixer(hidden_states, output)
+        return output, residual
+
+
+@support_torch_compile
+class Mamba2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        is_lora_enabled = bool(lora_config)
+        assert not is_lora_enabled
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embeddings = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Mamba2DecoderLayer(
+                config,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for i, layer in enumerate(self.layers):
+            hidden_states, residual = layer(
+                positions=positions, hidden_states=hidden_states, residual=residual
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm_f(hidden_states, residual)
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "A_log" in name:
+                name = name.replace("A_log", "A")
+
+            # Skip loading extra bias for GPTQ models.
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Mamba2ForCausalLM(
+    nn.Module, HasInnerState, IsAttentionFree, SupportsMambaPrefixCaching
+):
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.expand * hf_config.hidden_size
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.n_groups,
+            num_heads=hf_config.num_heads,
+            head_dim=hf_config.head_dim,
+            state_size=hf_config.state_size,
+            conv_kernel=hf_config.conv_kernel,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+
+        scheduler_config = vllm_config.scheduler_config
+
+        super().__init__()
+        self.config = config
+        self.vllm_config = vllm_config
+        self.scheduler_config = scheduler_config
+        self.model_config = vllm_config.model_config
+        self.backbone = Mamba2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "backbone")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.backbone.embeddings)
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.backbone.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.backbone.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.backbone(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.mamba_cache.copy_inputs_before_cuda_graphs(input_buffers, **kwargs)
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/medusa.py b/model_executor/models/medusa.py
new file mode 100644
index 0000000..fd7fc2c
--- /dev/null
+++ b/model_executor/models/medusa.py
@@ -0,0 +1,179 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .utils import maybe_prefix
+
+
+class ResidualBlock(nn.Module):
+    def __init__(self, config: VllmConfig, hidden_size: int, num_layers: int) -> None:
+        super().__init__()
+
+        self.layers = nn.ModuleList(
+            [
+                nn.Linear(
+                    hidden_size,
+                    hidden_size,
+                    bias=getattr(config, "medusa_fc_bias", False),
+                )
+                for _ in range(num_layers)
+            ]
+        )
+        self.act = nn.SiLU()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        for layer in self.layers:
+            x = x + self.act(layer(x))
+        return x
+
+
+class Medusa(nn.Module):
+    """This class implements the Medusa draft model from the paper: https://arxiv.org/abs/2401.10774
+    Reference implementation: https://github.com/FasterDecoding/Medusa
+
+    Differences from reference implementation:
+    1. Currently this only supports generating proposals from top-1 tokens.
+    2. We have an optional token_map which reduces draft vocab to most
+       frequently used tokens to give some additional speed-up by reducing
+       sampling overhead. This is disabled unless the checkpoint file has
+       explicit token_map tensor and config has an optional attribute
+       truncated_vocab_size < vocab_size. To use this technique, one has to find
+       the top-k most frequent tokens in target dataset and add that as a tensor
+       in the draft checkpoint (using key token_map). Also, the draft config
+       needs to have truncated_vocab_size (=k) as an attribute."""
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        super().__init__()
+        self.config = config
+        self.blocks = nn.ModuleList(
+            [
+                ResidualBlock(
+                    config=config,
+                    hidden_size=self.config.hidden_size,
+                    num_layers=self.config.num_hidden_layers,
+                )
+                for _ in range(self.config.num_heads)
+            ]
+        )
+        self.orig_vocab_size = config.vocab_size
+        self.truncated_vocab_size = config.truncated_vocab_size
+
+        if getattr(config, "original_lm_head", False):
+            self.lm_head = ParallelLMHead(
+                self.truncated_vocab_size,
+                config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            self.lm_heads = [self.lm_head for _ in range(self.config.num_heads)]
+        else:
+            self.lm_heads = nn.ModuleList(
+                [
+                    ParallelLMHead(
+                        config.vocab_size,
+                        config.hidden_size,
+                        prefix=maybe_prefix(prefix, f"lm_heads.{i}"),
+                    )
+                    for i in range(self.config.num_heads)
+                ]
+            )
+
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, self.truncated_vocab_size, logit_scale
+        )
+
+        # Token map is a idx to token mapping to reduce the vocab size for
+        # the draft model. Using smaller vocab size for draft, containing
+        # only most frequent tokens reduces the speculation overhead. This
+        # doesn't affect the acceptance rate much and thus gives more speed
+        # -up. By default, this is disabled and is only used if the EAGLE
+        # checkpoint file has token_map tensor.
+        self.token_map = None
+
+    def forward(self, hidden_states: torch.Tensor) -> list[torch.Tensor]:
+        return [block(hidden_states) for block in self.blocks]
+
+    def compute_logits(
+        self,
+        hidden_states: list[torch.Tensor],
+    ) -> list[torch.Tensor]:
+        logits_lst: list[torch.Tensor] = []
+
+        for hs, lm_head in zip(hidden_states, self.lm_heads):
+            _logits = self.logits_processor(lm_head, hs)
+
+            if _logits is None:
+                # _logits should only be None on rank > 0, in which case
+                # it should remain true for every lm_head
+                assert len(logits_lst) == 0
+                continue
+
+            if self.token_map is None:
+                logits_lst.append(_logits)
+            else:
+                logits_lst.append(
+                    -torch.inf
+                    * torch.ones(
+                        size=(*_logits.shape[:-1], self.orig_vocab_size),
+                        device=_logits.device,
+                        dtype=_logits.dtype,
+                    )
+                )
+
+                logits_lst[-1][..., self.token_map] = _logits
+
+        return logits_lst
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        weights_map = {}
+
+        for name, loaded_weight in weights:
+            name = name.replace("medusa_heads.", "")
+
+            if name == "token_map":
+                if self.truncated_vocab_size < self.orig_vocab_size:
+                    self.token_map = nn.Parameter(loaded_weight, requires_grad=False)
+            elif name in params_dict:
+                weights_map[name] = loaded_weight
+            elif (
+                getattr(self.config, "original_lm_head", False)
+                and name == "lm_heads.0.weight"
+            ):
+                weights_map["lm_head.weight"] = loaded_weight
+
+        for name, loaded_weight in weights_map.items():
+            if (
+                "lm_head" in name
+                and self.token_map is not None
+                and loaded_weight.shape[0] > self.token_map.shape[0]
+            ):
+                loaded_weight = loaded_weight[self.token_map]
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        if self.token_map is not None:
+            self.token_map.to(device=self.lm_heads[0].weight.device)
+
+        assert (self.truncated_vocab_size == self.orig_vocab_size) or (
+            self.token_map is not None
+        )
+
+        return loaded_params
diff --git a/model_executor/models/midashenglm.py b/model_executor/models/midashenglm.py
new file mode 100644
index 0000000..a84c990
--- /dev/null
+++ b/model_executor/models/midashenglm.py
@@ -0,0 +1,827 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 Horizon team, Xiaomi MiLM Plus.
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiDashengLM model compatible with HuggingFace weights."""
+
+import collections
+import collections.abc
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from typing import Annotated, Any, TypeAlias, cast
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torchaudio.functional as F
+from torch.nn.functional import scaled_dot_product_attention
+from transformers import BatchFeature
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems, MultiModalDataParser
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.midashenglm import DashengConfig
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+_Tuple2: TypeAlias = int | tuple[int, int] | Sequence[int]
+
+
+def _resolve_tuple2(x: _Tuple2) -> tuple[int, int]:
+    if isinstance(x, collections.abc.Sequence):
+        assert len(x) == 2, (
+            f"Expected a sequence of length 2, got {x} with length {len(x)}"
+        )
+        return cast(tuple[int, int], tuple(x))
+    return (x, x)
+
+
+def calculate_mel_frames_dasheng(
+    audio_length_samples: int,
+    n_fft: int = 512,
+    hop_size: int = 160,
+    dasheng_subsampling: int = 4,
+    center=True,
+    model_subsampling: int = 5,
+) -> int:
+    """Calculate the number of Mel-spectrogram frames."""
+    if center:
+        audio_length_samples = audio_length_samples + n_fft
+
+    return (
+        int(1 + ((audio_length_samples - n_fft) / hop_size))
+        // dasheng_subsampling
+        // model_subsampling
+    )
+
+
+class AudioPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        input_size: _Tuple2 = 64,
+        patch_size: _Tuple2 = 16,
+        patch_stride: _Tuple2 = 16,
+        in_chans: int = 1,
+        embed_dim: int = 768,
+        norm_layer: Callable | None = None,
+        flatten: bool = False,
+    ):
+        super().__init__()
+        self.input_size = _resolve_tuple2(input_size)
+        self.patch_size = _resolve_tuple2(patch_size)
+        self.patch_stride = _resolve_tuple2(patch_stride)
+        self.grid_size = (
+            self.input_size[0] // self.patch_stride[0],
+            self.input_size[1] // self.patch_stride[1],
+        )
+        self.num_patches = self.grid_size[0] * self.grid_size[1]
+        self.flatten = flatten
+
+        self.proj = nn.Conv2d(
+            in_chans,
+            embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_stride,
+        )
+        self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.proj(x)
+        if self.flatten:
+            x = torch.permute(
+                torch.flatten(x, 2, 3), (0, 2, 1)
+            )  # rearrange(x, "b c f t -> b (f t) c")
+        x = self.norm(x)
+        return x
+
+
+class LayerScale(nn.Module):
+    def __init__(self, dim, init_values=1e-5, inplace=False):
+        super().__init__()
+        self.inplace = inplace
+        self.gamma = nn.Parameter(init_values * torch.ones(dim))
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return x.mul_(self.gamma) if self.inplace else x * self.gamma
+
+
+class DashengMlp(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int | None = None,
+        out_features: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+        self.fc1 = ColumnParallelLinear(
+            input_size=in_features,
+            output_size=hidden_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.act = get_act_fn("gelu")
+        self.fc2 = RowParallelLinear(
+            input_size=hidden_features,
+            output_size=out_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.fc1(x)
+        x = self.act(x)
+        x, _ = self.fc2(x)
+        return x
+
+
+class DashengAttention(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int = 8,
+        qkv_bias: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        assert dim % num_heads == 0, "dim should be divisible by num_heads"
+        self.embed_dim = dim
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        if self.total_num_heads >= tp_size:
+            # Number of heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_heads % tp_size == 0
+        else:
+            # Number of heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_heads == 0
+        self.num_kv_heads = max(1, self.total_num_heads // tp_size)
+        self.head_dim = self.embed_dim // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scale = self.head_dim**-0.5
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+        )
+        self.proj = RowParallelLinear(
+            input_size=dim,
+            output_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+        )
+
+    def forward(self, x: torch.Tensor, mask: torch.Tensor | None = None):
+        B, N, C = x.shape
+
+        qkv, _ = self.qkv(x)
+        qkv = qkv.reshape(B, N, 3, self.num_heads, C // self.num_heads)
+        qkv = qkv.permute(2, 0, 3, 1, 4)
+        q, k, v = qkv.unbind(0)
+
+        x = scaled_dot_product_attention(
+            q,
+            k,
+            v,
+            attn_mask=mask[:, None, None, :] if mask is not None else None,
+        )
+
+        x = x.transpose(1, 2).reshape(B, N, C)
+        x, _ = self.proj(x)
+        return x
+
+
+class DashengBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = False,
+        init_values: float | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.norm1 = nn.LayerNorm(dim, eps=1e-6)
+        self.attn = DashengAttention(
+            dim,
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.ls1 = (
+            LayerScale(dim, init_values=init_values) if init_values else nn.Identity()
+        )
+
+        self.norm2 = nn.LayerNorm(dim, eps=1e-6)
+        self.mlp = DashengMlp(
+            in_features=dim,
+            hidden_features=int(dim * mlp_ratio),
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.ls2 = (
+            LayerScale(dim, init_values=init_values) if init_values else nn.Identity()
+        )
+
+    # Kwargs usually has a mask parameter that is passed to Attention
+    def forward(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        x = x + self.ls1(self.attn(self.norm1(x), mask))
+        x = x + self.ls2(self.mlp(self.norm2(x)))
+        return x
+
+
+class DashengFrontend(nn.Module):
+    def __init__(self, config: DashengConfig):
+        super().__init__()
+        self.config = config
+
+        spectrogram_window = torch.hann_window(self.config.win_length)
+        self.register_buffer(
+            "spectrogram_window",
+            spectrogram_window,
+            persistent=False,
+        )
+        self.spectrogram_window: torch.Tensor
+
+        melscale_fbanks = F.melscale_fbanks(
+            n_freqs=self.config.n_fft // 2 + 1,
+            f_min=self.config.f_min,
+            f_max=self.config.f_max,
+            n_mels=self.config.n_mels,
+            sample_rate=self.config.sample_rate,
+        )
+        self.register_buffer("melscale_fbanks", melscale_fbanks, persistent=False)
+        self.melscale_fbanks: torch.Tensor
+
+    def forward(self, waveform: torch.Tensor) -> torch.Tensor:
+        spectrogram = F.spectrogram(
+            waveform=waveform.to(torch.float32),
+            pad=0,
+            window=self.spectrogram_window,
+            n_fft=self.config.n_fft,
+            hop_length=self.config.hop_length,
+            win_length=self.config.win_length,
+            power=2,
+            normalized=False,
+            center=self.config.center,
+        )
+        mel_spectrogram = (spectrogram.mT @ self.melscale_fbanks.to(torch.float32)).mT
+        # x has shape [batch, freq, time].
+        # F.amplitude_to_DB accepts inputs shaped as:
+        #   - [freq, time]
+        #   - [channel, freq, time]
+        #   - [..., channel, freq, time]
+        # Here we insert a channel dimension of size 1 before calling it,
+        # then remove that extra dimension afterward.
+        log_mel_spectrogram = F.amplitude_to_DB(
+            mel_spectrogram.unsqueeze(1),
+            multiplier=10,
+            amin=1e-10,
+            db_multiplier=0,
+            top_db=120,
+        ).squeeze(1)
+        return log_mel_spectrogram.to(waveform.dtype)
+
+
+class DashengAudioTransformer(nn.Module):
+    def __init__(
+        self,
+        config: DashengConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.target_length = config.target_length
+        self.hop_length = config.hop_length
+
+        self.front_end = DashengFrontend(config)
+
+        self.init_bn = nn.BatchNorm2d(config.n_mels, momentum=0.01)
+
+        self.patch_embed = AudioPatchEmbed(
+            input_size=(config.n_mels, config.target_length),
+            embed_dim=config.embed_dim,
+            in_chans=config.input_channels,
+            patch_size=config.patch_size,
+            flatten=False,
+            patch_stride=config.patch_stride,
+        )
+
+        self.time_pos_embed = nn.Parameter(
+            torch.empty(1, config.embed_dim, 1, self.patch_embed.grid_size[1])
+        )
+        self.freq_pos_embed = nn.Parameter(
+            torch.empty(1, config.embed_dim, self.patch_embed.grid_size[0], 1)
+        )
+        self.blocks = nn.ModuleList(
+            DashengBlock(
+                dim=config.embed_dim,
+                num_heads=config.num_heads,
+                mlp_ratio=config.mlp_ratio,
+                qkv_bias=config.qkv_bias,
+                init_values=config.init_values,
+                quant_config=quant_config,
+                prefix=f"{prefix}.blocks.{i}",
+            )
+            for i in range(config.depth)
+        )
+        self.norm = nn.LayerNorm(config.embed_dim, eps=1e-6)
+
+    def forward_features(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        t = x.shape[-1]
+        x = x + self.time_pos_embed[:, :, :, :t]
+        x = (
+            x + self.freq_pos_embed[:, :, :, :]
+        )  # Just to support __getitem__ in posembed
+        x = torch.permute(
+            torch.flatten(x, 2, 3), (0, 2, 1)
+        )  # rearrange(x, "b c f t -> b (f t) c")
+        for block in self.blocks:
+            x = block(x, mask)
+        x = self.norm(x)
+        return x
+
+    def _to_mask(self, lengths: torch.Tensor, max_length: int) -> torch.Tensor:
+        batch_size = len(lengths)
+        idx = torch.arange(max_length, device=lengths.device)
+        idx = idx.repeat(batch_size).view(batch_size, max_length)
+        mask = (idx < lengths.unsqueeze(-1)).bool()
+        return mask
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        x_length: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        x = self.front_end(x)
+        x = x.to(self.time_pos_embed.dtype)
+        target_length_in_patches = self.target_length // 4
+        x = x.unsqueeze(1)
+        x = torch.permute(x, (0, 2, 1, 3))
+        x = self.init_bn(x)
+        x = torch.permute(x, (0, 2, 1, 3))
+
+        x = self.patch_embed(x)
+        t = x.shape[-1]
+
+        input_splits = x.split(target_length_in_patches, dim=-1)
+
+        if x_length is not None:
+            assert len(x_length) == len(x), (
+                "batchsizes of input x and x_length need to be same"
+            )
+            assert x_length.ndim == 1, "Lengths are of size (B,)"
+            scaled_lengths = (x_length / (self.hop_length * 4)).long()
+            mask = self._to_mask(max_length=t, lengths=scaled_lengths)
+            split_masks = mask.split(target_length_in_patches, dim=-1)
+        else:
+            mask = None
+            split_masks = [None] * len(input_splits)
+
+        outputs = []
+
+        for split_x, split_mask in zip(input_splits, split_masks):
+            forward_kwargs = {}
+            forward_kwargs["mask"] = split_mask
+            split_x = self.forward_features(split_x, **forward_kwargs)
+            outputs.append(split_x)
+        x = torch.cat(outputs, dim=1)
+        return x, mask
+
+
+class AudioProjectorSubsample(nn.Module):
+    def __init__(
+        self,
+        in_dim: int,
+        out_dim: int,
+        downsample_rate=5,
+        dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.k = downsample_rate
+        self.net = nn.Sequential(
+            ColumnParallelLinear(
+                input_size=in_dim * self.k,
+                output_size=out_dim,
+                quant_config=quant_config,
+                prefix=f"{prefix}.net.0",
+                return_bias=False,
+            ),
+            get_act_fn("gelu"),
+            RowParallelLinear(
+                input_size=out_dim,
+                output_size=out_dim,
+                quant_config=quant_config,
+                prefix=f"{prefix}.net.2",
+                return_bias=False,
+            ),
+        )
+
+    def forward(self, x, mask=None):
+        batch_size, seq_len, dim = x.shape
+        num_frames_to_discard = seq_len % self.k
+        if num_frames_to_discard > 0:
+            x = x[:, :-num_frames_to_discard, :]
+            if mask is not None:
+                mask = mask[:, :-num_frames_to_discard]
+        if mask is None:
+            mask = torch.ones(x.shape[:-1], dtype=torch.long, device=x.device)
+        x = x.reshape(
+            batch_size, -1, self.k * dim
+        )  # rearrange(x, "b (s k) d -> b s (k d)", k=self.k)
+        for layer in self.net:
+            x = layer(x)
+        mask = mask.reshape(
+            batch_size, -1, self.k
+        )  # rearrange(mask, "b (s k) -> b s k", k=self.k)
+        mask = mask.any(dim=-1).long()
+        return x, mask
+
+
+# === Audio Inputs === #
+class MiDashengLMAudioInputs(TensorSchema):
+    """
+
+    Dimensions:
+        - bn: Batch size * number of audios
+        - p: Number of sampling points
+    """
+
+    input_values: Annotated[torch.Tensor, TensorShape("n", "p")]
+    audio_length: Annotated[torch.Tensor, TensorShape("n")]
+
+
+class MiDashengLMProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_feature_extractor(self):
+        hf_processor = self.get_hf_processor()
+        feature_extractor = hf_processor.feature_extractor
+        return feature_extractor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None}
+
+    def get_min_audio_len(self):
+        return 3200
+
+    def get_max_audio_len(self):
+        return 160000
+
+
+class MiDashengLMDummyInputsBuilder(BaseDummyInputsBuilder[MiDashengLMProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        audio_token = hf_processor.audio_token
+        audio_bos_token = hf_processor.audio_bos_token
+        audio_eos_token = hf_processor.audio_eos_token
+
+        single_audio_text = f"{audio_bos_token}{audio_token}{audio_eos_token}"
+        return single_audio_text * num_audios
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=self.info.get_max_audio_len(),
+                num_audios=num_audios,
+                overrides=audio_overrides,
+            )
+        }
+
+
+class MiDashengLMMultiModalProcessor(
+    BaseMultiModalProcessor[MiDashengLMProcessingInfo]
+):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return MultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, Any],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        audios = mm_data.pop("audios", [])
+
+        # + Padding
+        min_audio_len = self.info.get_min_audio_len()
+        processed_audios = [
+            np.pad(
+                audio,
+                (0, min_audio_len - audio.shape[-1]),
+                mode="constant",
+                constant_values=0,
+            )
+            if isinstance(audio, np.ndarray) and audio.shape[-1] < min_audio_len
+            else audio
+            for audio in audios
+        ]
+
+        if processed_audios:
+            mm_data["audio"] = processed_audios
+
+        if not mm_data.get("audio", []):
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        mm_kwargs = dict(
+            **mm_kwargs,
+        )
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            input_values=MultiModalFieldConfig.batched("audio"),
+            audio_length=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        audio_token = getattr(processor, "audio_token", "<|AUDIO|>")
+        audio_token_id = vocab[audio_token]
+
+        out_mm_data = out_mm_kwargs.get_data()
+        audio_length = out_mm_data.get("audio_length")
+        if audio_length is None:
+            audio_output_lengths = []
+        else:
+            audio_length_np = (
+                audio_length.cpu().numpy()
+                if isinstance(audio_length, torch.Tensor)
+                else audio_length
+            )
+            audio_output_lengths = [
+                max(1, calculate_mel_frames_dasheng(int(length)))  # at least one frame
+                for length in audio_length_np
+            ]
+
+        def get_replacement_midashenglm(item_idx: int):
+            num_features = audio_output_lengths[item_idx]
+            audio_tokens = [audio_token_id] * num_features
+
+            return PromptUpdateDetails.select_token_id(
+                audio_tokens,
+                embed_token_id=audio_token_id,
+            )
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=audio_token,
+                replacement=get_replacement_midashenglm,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MiDashengLMMultiModalProcessor,
+    info=MiDashengLMProcessingInfo,
+    dummy_inputs=MiDashengLMDummyInputsBuilder,
+)
+class MiDashengLMModel(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("audio"):
+            return "<|audio_bos|><|AUDIO|><|audio_eos|>"
+
+        raise ValueError("Only audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        # Initialize audio components
+        self.audio_encoder = DashengAudioTransformer(
+            config.audio_encoder_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "audio_encoder"),
+        )
+        self.audio_projector = AudioProjectorSubsample(
+            in_dim=config.audio_encoder_config.embed_dim,
+            out_dim=config.text_config.hidden_size,
+            downsample_rate=config.subsample_factor,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "audio_projector"),
+        )
+
+        # Initialize language model (decoder)
+        self.decoder = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "decoder"),
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.quant_config = quant_config
+        self.make_empty_intermediate_tensors = (
+            self.decoder.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> MiDashengLMAudioInputs | None:
+        input_values = kwargs.pop("input_values", None)
+        audio_length = kwargs.pop("audio_length", None)
+
+        if input_values is None:
+            return None
+
+        if isinstance(input_values, list):
+            input_values = torch.nn.utils.rnn.pad_sequence(
+                input_values,
+                batch_first=True,
+            )
+
+        return MiDashengLMAudioInputs(
+            input_values=input_values,
+            audio_length=audio_length,
+        )
+
+    def _process_audio_input(
+        self,
+        audio_input: MiDashengLMAudioInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        # Process audio through encoder and projector
+        input_values = audio_input["input_values"]
+        audio_length = audio_input["audio_length"]
+
+        encoder_out, encoder_atts = self.audio_encoder(input_values, audio_length)
+        audio_embeddings, _ = self.audio_projector(encoder_out, encoder_atts)
+        audio_embeddings = audio_embeddings.to(audio_input["input_values"].dtype)
+        batch_size, max_audio_tokens, embed_dim = audio_embeddings.shape
+
+        audio_output_lengths = [
+            max(1, calculate_mel_frames_dasheng(int(length)))  # at least one frame
+            for length in audio_length.tolist()
+        ]
+        audio_output_lengths = torch.tensor(
+            audio_output_lengths,
+            device=audio_embeddings.device,
+        )
+
+        audio_feature_mask = torch.arange(
+            max_audio_tokens, device=audio_embeddings.device
+        ).unsqueeze(0).expand(
+            batch_size, max_audio_tokens
+        ) < audio_output_lengths.unsqueeze(1)
+
+        masked_audio_features = audio_embeddings[audio_feature_mask].view(-1, embed_dim)
+
+        return torch.split(masked_audio_features, audio_output_lengths.tolist())
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.decoder
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+
+        if audio_input is None:
+            return []
+        return self._process_audio_input(audio_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        return self.decoder.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.decoder.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/mimo.py b/model_executor/models/mimo.py
new file mode 100644
index 0000000..cd0a619
--- /dev/null
+++ b/model_executor/models/mimo.py
@@ -0,0 +1,188 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2/modeling_qwen2.py
+# Copyright 2025 Xiaomi Corporation.
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiMo model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM, Qwen2Model
+from vllm.sequence import IntermediateTensors
+
+from .utils import PPMissingLayer, is_pp_missing_parameter, maybe_prefix
+
+logger = init_logger(__name__)
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class MiMoModel(Qwen2Model):
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states = hidden_states + residual
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "mtp_layers" in name:
+                continue
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MiMoForCausalLM(Qwen2ForCausalLM, nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+
+        self.model = MiMoModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        hidden_states = self.model.norm(hidden_states)
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
diff --git a/model_executor/models/mimo_mtp.py b/model_executor/models/mimo_mtp.py
new file mode 100644
index 0000000..9905f65
--- /dev/null
+++ b/model_executor/models/mimo_mtp.py
@@ -0,0 +1,294 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/v0.7.3/vllm/model_executor/models/deepseek_mtp.py
+# Copyright 2025 Xiaomi Corporation.
+# Copyright 2023 The vLLM team.
+# Copyright 2024 DeepSeek-AI team.
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiMo-MTP model."""
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.qwen2 import Qwen2DecoderLayer
+from vllm.sequence import IntermediateTensors
+
+from .utils import maybe_prefix
+
+
+class MiMoMultiTokenPredictorLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        model_config: ModelConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.token_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hidden_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.input_proj = nn.Linear(
+            config.hidden_size * 2, config.hidden_size, bias=False
+        )
+        self.mtp_block = Qwen2DecoderLayer(
+            config=config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+        self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        # masking inputs at position 0, as not needed by MTP
+        inputs_embeds[positions == 0] = 0
+        inputs_embeds = self.token_layernorm(inputs_embeds)
+        previous_hidden_states = self.hidden_layernorm(previous_hidden_states)
+
+        hidden_states = self.input_proj(
+            torch.cat([previous_hidden_states, inputs_embeds], dim=-1)
+        )
+
+        hidden_states, residual = self.mtp_block(
+            positions=positions, hidden_states=hidden_states, residual=None
+        )
+        hidden_states = residual + hidden_states
+        return self.final_layernorm(hidden_states)
+
+
+class MiMoMultiTokenPredictor(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+
+        self.mtp_layers = torch.nn.ModuleDict(
+            {
+                str(idx): MiMoMultiTokenPredictorLayer(
+                    config,
+                    f"{prefix}.layers.{idx}",
+                    model_config=vllm_config.model_config,
+                    cache_config=vllm_config.cache_config,
+                    quant_config=vllm_config.quant_config,
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        return self.mtp_layers[str(self.mtp_start_layer_idx + spec_step_idx)](
+            inputs_embeds,
+            positions,
+            previous_hidden_states,
+            spec_step_idx,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        lm_head: ParallelLMHead,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        self.mtp_layers[str(self.mtp_start_layer_idx + spec_step_idx)]
+        logits = self.logits_processor(lm_head, hidden_states)
+        return logits
+
+
+class MiMoMTP(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = MiMoMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        assert spec_step_idx == 0, "mimo_mtp only support predict one token now"
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, inputs_embeds, spec_step_idx
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, self.lm_head, spec_step_idx)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            name = self.map_model_name_to_mtp_param_name(name)
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                if "mtp_layers" not in name:
+                    break
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if "mtp_layers" not in name and (
+                    "embed_tokens" not in name and "lm_head" not in name
+                ):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def map_model_name_to_mtp_param_name(self, name: str) -> str:
+        import regex as re
+
+        # append mtp_start_layer_idx
+        pattern = r"(model\.mtp_layers\.)(\d+)(\.)"
+        match = re.match(pattern, name)
+        if match:
+            original_num = int(match.group(2))
+            new_num = original_num + self.config.num_hidden_layers
+            name = name.replace(match.group(), f"{match.group(1)}{new_num}.")
+        # check for early turn
+        name_without_prefix = [
+            "token_layernorm",
+            "hidden_layernorm",
+            "input_proj",
+            "final_layernorm",
+        ]
+        for sub_name in name_without_prefix:
+            if sub_name in name:
+                return name
+        # add mtp_block
+        pattern = r"(model\.mtp_layers\.\d+\.)"
+        match = re.match(pattern, name)
+        if match:
+            name = name.replace(match.group(), match.group() + "mtp_block.")
+        return name
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        spec_layer_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                f"model.layers.{spec_layer}.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        return name
diff --git a/model_executor/models/minicpm.py b/model_executor/models/minicpm.py
new file mode 100644
index 0000000..11daf5c
--- /dev/null
+++ b/model_executor/models/minicpm.py
@@ -0,0 +1,664 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiniCPM model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.activation import FatreluAndMul, SiluAndMul
+from vllm.model_executor.layers.fused_moe import fused_experts, fused_topk
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class MiniCPMMoE(nn.Module):
+    """A tensor-parallel MoE implementation that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        tp_size: int | None = None,
+    ):
+        super().__init__()
+        self.tp_size = tp_size or get_tensor_model_parallel_world_size()
+        self.num_total_experts = num_experts
+        self.top_k = top_k
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size // self.tp_size
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        self.gate = ReplicatedLinear(
+            self.hidden_size,
+            self.num_total_experts,
+            bias=False,
+            params_dtype=self.params_dtype,
+            quant_config=None,
+        )
+
+        self.ws = nn.Parameter(
+            torch.empty(
+                self.num_total_experts,
+                2 * self.intermediate_size,
+                self.hidden_size,
+                device=current_platform.device_type,
+                dtype=self.params_dtype,
+            )
+        )
+        self.w2s = nn.Parameter(
+            torch.empty(
+                self.num_total_experts,
+                self.hidden_size,
+                self.intermediate_size,
+                device=current_platform.device_type,
+                dtype=self.params_dtype,
+            )
+        )
+
+        set_weight_attrs(
+            self.ws,
+            {
+                "weight_loader": self.weight_loader,
+            },
+        )
+        set_weight_attrs(
+            self.w2s,
+            {
+                "weight_loader": self.weight_loader,
+            },
+        )
+
+    def weight_loader(
+        self,
+        param: nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        expert_id: int,
+    ):
+        tp_rank = get_tensor_model_parallel_rank()
+        param_data = param.data
+        shard_size = self.intermediate_size
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        if weight_name.endswith("w1.weight"):
+            param_data[expert_id, 0:shard_size, :] = loaded_weight[shard, :]
+        if weight_name.endswith("w3.weight"):
+            param_data[expert_id, shard_size : 2 * shard_size, :] = loaded_weight[
+                shard, :
+            ]
+        if weight_name.endswith("w2.weight"):
+            param_data[expert_id, :, :] = loaded_weight[:, shard]
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+
+        topk_weights, topk_ids, _ = fused_topk(
+            hidden_states, router_logits, self.top_k, renormalize=True
+        )
+
+        final_hidden_states = fused_experts(
+            hidden_states, self.ws, self.w2s, topk_weights, topk_ids, inplace=True
+        )
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(num_tokens, hidden_size)
+
+
+class MiniCPMMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        hidden_act_param: float,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act == "silu":
+            self.act_fn = SiluAndMul()
+        elif hidden_act == "fatrelu":
+            self.act_fn = FatreluAndMul(threshold=hidden_act_param)
+        else:
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Only silu and fatrelu are supported for now."
+            )
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class MiniCPMAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        orig_dtype = q.dtype
+        q, k = q.float(), k.float()
+        q, k = self.rotary_emb(positions, q, k)
+        q, k = q.to(orig_dtype), k.to(orig_dtype)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class MiniCPMDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+        self.hidden_size = config.hidden_size
+        self.rope_theta = getattr(config, "rope_theta", 10000)
+        self.rope_scaling = getattr(config, "rope_scaling", None)
+        self.max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.prefix = prefix
+        self._init_attn_block()
+        self._init_ffn_block()
+
+    def _init_attn_block(self):
+        self.input_layernorm = RMSNorm(
+            self.config.hidden_size, eps=self.config.rms_norm_eps
+        )
+        self.self_attn = MiniCPMAttention(
+            hidden_size=self.hidden_size,
+            num_heads=self.config.num_attention_heads,
+            num_kv_heads=self.config.num_key_value_heads,
+            rope_theta=self.rope_theta,
+            rope_scaling=self.rope_scaling,
+            max_position_embeddings=self.max_position_embeddings,
+            cache_config=self.cache_config,
+            quant_config=self.quant_config,
+            prefix=f"{self.prefix}.self_attn",
+        )
+
+    def _init_ffn_block(self):
+        self.post_attention_layernorm = RMSNorm(
+            self.config.hidden_size, eps=self.config.rms_norm_eps
+        )
+        self.num_experts = getattr(self.config, "num_experts", 0)
+        if self.num_experts == 0:
+            self.mlp = MiniCPMMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=self.config.intermediate_size,
+                hidden_act=self.config.hidden_act,
+                hidden_act_param=getattr(self.config, "hidden_act_param", 0.0),
+                quant_config=self.quant_config,
+            )
+        else:
+            self.mlp = MiniCPMMoE(
+                num_experts=self.config.num_experts,
+                top_k=self.config.num_experts_per_tok,
+                hidden_size=self.config.hidden_size,
+                intermediate_size=self.config.intermediate_size,
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * (
+            self.config.scale_depth / math.sqrt(self.config.num_hidden_layers)
+        )
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states * (
+            self.config.scale_depth / math.sqrt(self.config.num_hidden_layers)
+        )
+
+        return hidden_states, None
+
+
+@support_torch_compile
+class MiniCPMModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.num_experts = getattr(self.config, "num_experts", 0)
+        self._init_layers(prefix, config, cache_config, quant_config)
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.aux_hidden_state_layers = tuple[int, ...]()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], self.config.hidden_size
+        )
+
+    def _init_layers(
+        self,
+        prefix: str,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None,
+        quant_config: QuantizationConfig | None,
+    ):
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: MiniCPMDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        embedding = self.embed_tokens(input_ids)
+        return embedding * self.config.scale_emb
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            if idx in self.aux_hidden_state_layers:
+                aux_hidden_states.append(
+                    hidden_states + residual if residual is not None else hidden_states
+                )
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states = self.norm(hidden_states)
+
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        expert_params_mapping = [
+            # (param_name, weight_name, expert_id)
+            (
+                "ws" if weight_name in ["w1", "w3"] else "w2s",
+                f"experts.{expert_id}.{weight_name}.weight",
+                expert_id,
+            )
+            for expert_id in range(self.num_experts)
+            for weight_name in ["w1", "w2", "w3"]
+        ]
+        params_dict = dict(self.named_parameters())
+
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for param_name, weight_name, expert_id in expert_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param, loaded_weight, weight_name, expert_id=expert_id
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        parallel_config = vllm_config.parallel_config
+
+        self.prefix = prefix
+        self.vllm_config = vllm_config
+        self.config = config
+
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+
+        self.model = self._init_model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+        self.scale_width = self.config.hidden_size / self.config.dim_model_base
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        if parallel_config.enable_eplb and getattr(config, "num_experts", 0) > 0:
+            raise NotImplementedError("EPLB is not supported for MiniCPM yet.")
+
+    def _init_model(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        return MiniCPMModel(vllm_config=vllm_config, prefix=prefix)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        if isinstance(model_output, tuple) and len(model_output) == 2:
+            # Aux hidden states are present.
+            hidden_states, aux_hidden_states = model_output
+            hidden_states = hidden_states / self.scale_width
+            return hidden_states, aux_hidden_states
+        else:
+            # Only hidden states or IntermediateTensors
+            if isinstance(model_output, IntermediateTensors):
+                return model_output
+            else:
+                hidden_states = model_output / self.scale_width
+                return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
\ No newline at end of file
diff --git a/model_executor/models/minicpm3.py b/model_executor/models/minicpm3.py
new file mode 100644
index 0000000..d3b6966
--- /dev/null
+++ b/model_executor/models/minicpm3.py
@@ -0,0 +1,242 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2024 The ModelBest team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiniCPM3 model compatible with HuggingFace weights."""
+
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.models.minicpm import (
+    MiniCPMDecoderLayer,
+    MiniCPMForCausalLM,
+    MiniCPMModel,
+)
+
+from .utils import make_layers
+
+
+class MiniCPM3Attention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.num_heads = num_heads
+
+        tp_size = get_tensor_model_parallel_world_size()
+        assert self.num_heads % tp_size == 0
+        self.num_local_heads = num_heads // tp_size
+
+        self.scaling = self.qk_head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.q_a_proj = ReplicatedLinear(
+            self.hidden_size, self.q_lora_rank, bias=False, quant_config=quant_config
+        )
+        self.q_a_layernorm = RMSNorm(self.q_lora_rank, eps=config.rms_norm_eps)
+        self.q_b_proj = ColumnParallelLinear(
+            q_lora_rank,
+            self.num_heads * self.qk_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_b_proj",
+        )
+
+        self.kv_a_proj_with_mqa = ReplicatedLinear(
+            self.hidden_size,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa",
+        )
+        self.kv_a_layernorm = RMSNorm(self.kv_lora_rank, eps=config.rms_norm_eps)
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+        # O projection.
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.qk_rope_head_dim,
+            rotary_dim=self.qk_rope_head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_local_heads,
+            self.qk_head_dim,
+            self.scaling,
+            num_kv_heads=self.num_local_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        q, _ = self.q_a_proj(hidden_states)
+        q = self.q_a_layernorm(q)
+        q, _ = self.q_b_proj(q)
+        q = q.view(-1, self.num_local_heads, self.qk_head_dim)
+        _, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+        latent_cache, _ = self.kv_a_proj_with_mqa(hidden_states)
+        kv_a, _ = latent_cache.split([self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
+        latent_cache = latent_cache.unsqueeze(1)
+        kv_a = self.kv_a_layernorm(kv_a.contiguous())
+        kv, _ = self.kv_b_proj(kv_a)
+        kv = kv.view(-1, self.num_local_heads, self.qk_nope_head_dim + self.v_head_dim)
+        k_nope, v = kv.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+        k_pe = latent_cache[:, :, self.kv_lora_rank :]
+
+        q_pe, k_pe = self.rotary_emb(
+            positions,
+            q_pe.reshape(-1, self.num_local_heads * self.qk_rope_head_dim),
+            k_pe.reshape(-1, self.qk_rope_head_dim),
+        )
+        q_pe = q_pe.view(-1, self.num_local_heads, self.qk_rope_head_dim)
+        k_pe = k_pe.view(-1, 1, self.qk_rope_head_dim)
+
+        q[..., self.qk_nope_head_dim :] = q_pe
+
+        k = torch.empty_like(q)
+
+        k[..., : self.qk_nope_head_dim] = k_nope
+        k[..., self.qk_nope_head_dim :] = k_pe
+
+        q = q.reshape(-1, self.num_local_heads * self.qk_head_dim)
+        k = k.view(-1, self.num_local_heads * self.qk_head_dim)
+        v = torch.nn.functional.pad(
+            v, [0, self.qk_head_dim - self.v_head_dim], value=0
+        ).view(-1, self.num_local_heads * self.qk_head_dim)
+
+        attn_output = self.attn(q, k, v)
+        attn_output = attn_output.view(-1, self.num_local_heads, self.qk_head_dim)[
+            ..., : self.v_head_dim
+        ].reshape(-1, self.num_local_heads * self.v_head_dim)
+
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class MiniCPM3DecoderLayer(MiniCPMDecoderLayer):
+    def _init_attn_block(self):
+        self.input_layernorm = RMSNorm(
+            self.config.hidden_size, eps=self.config.rms_norm_eps
+        )
+        self.self_attn = MiniCPM3Attention(
+            config=self.config,
+            hidden_size=self.hidden_size,
+            num_heads=self.config.num_attention_heads,
+            qk_nope_head_dim=self.config.qk_nope_head_dim,
+            qk_rope_head_dim=self.config.qk_rope_head_dim,
+            v_head_dim=self.config.v_head_dim,
+            q_lora_rank=self.config.q_lora_rank,
+            kv_lora_rank=self.config.kv_lora_rank,
+            rope_theta=self.rope_theta,
+            rope_scaling=self.rope_scaling,
+            max_position_embeddings=self.max_position_embeddings,
+            cache_config=self.cache_config,
+            quant_config=self.quant_config,
+            prefix=f"{self.prefix}.self_attn",
+        )
+
+
+class MiniCPM3Model(MiniCPMModel):
+    def _init_layers(
+        self,
+        prefix: str,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None,
+        quant_config: QuantizationConfig | None,
+    ):
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: MiniCPM3DecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+
+class MiniCPM3ForCausalLM(MiniCPMForCausalLM):
+    packed_modules_mapping = {
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def _init_model(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        return MiniCPM3Model(vllm_config=vllm_config, prefix=prefix)
diff --git a/model_executor/models/minicpm_eagle.py b/model_executor/models/minicpm_eagle.py
new file mode 100644
index 0000000..d0cdb70
--- /dev/null
+++ b/model_executor/models/minicpm_eagle.py
@@ -0,0 +1,389 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only EagleMiniCPM model compatible with HuggingFace weights."""
+
+import math
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsEagle, SupportsLoRA, SupportsPP
+from .minicpm import MiniCPMAttention as EagleMiniCPMAttention
+from .minicpm import MiniCPMMLP as EagleMiniCPMMLP
+from .minicpm import MiniCPMMoE as EagleMiniCPMMoE
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    maybe_prefix,
+    process_eagle_weight,
+)
+
+
+class EagleMiniCPMDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+        self.hidden_size = config.hidden_size
+        self.rope_theta = getattr(config, "rope_theta", 10000)
+        self.rope_scaling = getattr(config, "rope_scaling", None)
+        self.max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.prefix = prefix
+        self._init_attn_block()
+        self._init_ffn_block()
+
+    def _init_attn_block(self):
+        self.input_layernorm = RMSNorm(
+            self.config.hidden_size, eps=self.config.rms_norm_eps
+        )
+        self.self_attn = EagleMiniCPMAttention(
+            hidden_size=self.hidden_size,
+            num_heads=self.config.num_attention_heads,
+            num_kv_heads=self.config.num_key_value_heads,
+            rope_theta=self.rope_theta,
+            rope_scaling=self.rope_scaling,
+            max_position_embeddings=self.max_position_embeddings,
+            cache_config=self.cache_config,
+            quant_config=self.quant_config,
+            prefix=f"{self.prefix}.self_attn",
+        )
+
+    def _init_ffn_block(self):
+        self.post_attention_layernorm = RMSNorm(
+            self.config.hidden_size, eps=self.config.rms_norm_eps
+        )
+        self.num_experts = getattr(self.config, "num_experts", 0)
+        if self.num_experts == 0:
+            self.mlp = EagleMiniCPMMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=self.config.intermediate_size,
+                hidden_act=self.config.hidden_act,
+                hidden_act_param=getattr(self.config, "hidden_act_param", 0.0),
+                quant_config=self.quant_config,
+            )
+        else:
+            self.mlp = EagleMiniCPMMoE(
+                num_experts=self.config.num_experts,
+                top_k=self.config.num_experts_per_tok,
+                hidden_size=self.config.hidden_size,
+                intermediate_size=self.config.intermediate_size,
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * (
+            self.config.scale_depth / math.sqrt(self.config.mup_denominator)
+        )
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states * (
+            self.config.scale_depth / math.sqrt(self.config.mup_denominator)
+        )
+
+        return hidden_states, None
+
+
+@support_torch_compile
+class EagleMiniCPMModel(nn.Module):
+    def __init__(
+        self, *, vllm_config: VllmConfig, prefix: str = "", start_layer: int = 0
+    ):
+        super().__init__()
+
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        self.fc = torch.nn.Linear(
+            self.config.hidden_size * 2, self.config.hidden_size, bias=False
+        )
+        self.input_norm1 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.input_norm2 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.num_experts = getattr(self.config, "num_experts", 0)
+        self._init_layers(prefix, config, cache_config, quant_config, start_layer)
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], self.config.hidden_size
+        )
+
+    def _init_layers(
+        self,
+        prefix: str,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None,
+        quant_config: QuantizationConfig | None,
+        start_layer: int,
+    ):
+        self.eagle_layers = nn.ModuleList(
+            [
+                EagleMiniCPMDecoderLayer(
+                    config,
+                    cache_config,
+                    quant_config,
+                    f"{prefix}.eagle_layers.{i + start_layer}",
+                )
+                for i in range(self.config.num_hidden_layers)
+            ]
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        embedding = self.embed_tokens(input_ids)
+        return embedding * self.config.scale_emb
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | IntermediateTensors:
+        input_embeds = self.embed_input_ids(input_ids)
+        input_embeds = self.input_norm1(input_embeds)
+        hidden_states = self.input_norm2(hidden_states)
+
+        hidden_states = self.fc(torch.cat((input_embeds, hidden_states), dim=-1))
+        residual = None
+        for layer in self.eagle_layers:
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        return hidden_states, hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        expert_params_mapping = [
+            # (param_name, weight_name, expert_id)
+            (
+                "ws" if weight_name in ["w1", "w3"] else "w2s",
+                f"experts.{expert_id}.{weight_name}.weight",
+                expert_id,
+            )
+            for expert_id in range(self.num_experts)
+            for weight_name in ["w1", "w2", "w3"]
+        ]
+        params_dict = dict(self.named_parameters())
+
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for param_name, weight_name, expert_id in expert_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param, loaded_weight, weight_name, expert_id=expert_id
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.prefix = prefix
+        self.vllm_config = vllm_config
+        self.config = config
+
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+
+        target_layer_num = vllm_config.model_config.get_num_layers(
+            vllm_config.parallel_config
+        )
+
+        self.model = self._init_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+            start_layer=target_layer_num,
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+        self.scale_width = self.config.hidden_size / self.config.dim_model_base
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def _init_model(
+        self, *, vllm_config: VllmConfig, prefix: str = "", start_layer: int = 0
+    ):
+        return EagleMiniCPMModel(
+            vllm_config=vllm_config, prefix=prefix, start_layer=start_layer
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        hidden_states, hidden_states2 = self.model(input_ids, positions, hidden_states)
+        hidden_states = hidden_states / self.scale_width
+        hidden_states2 = hidden_states2 / self.scale_width
+        return hidden_states, hidden_states2
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        def transform(inputs):
+            name, loaded_weight = inputs
+            process_eagle_weight(self, name)
+            return name, loaded_weight
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(map(transform, weights))
diff --git a/model_executor/models/minicpmo.py b/model_executor/models/minicpmo.py
new file mode 100644
index 0000000..fa2feb0
--- /dev/null
+++ b/model_executor/models/minicpmo.py
@@ -0,0 +1,768 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiniCPM-O model compatible with HuggingFace weights."""
+
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import torch
+from torch import nn
+from transformers import BatchFeature
+from transformers.modeling_outputs import BaseModelOutputWithPast
+from transformers.models.whisper.modeling_whisper import (
+    ACT2FN,
+    WhisperAttention,
+    WhisperConfig,
+    WhisperEncoder,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalKwargsItems
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    AudioItem,
+    AudioProcessorItems,
+    DictEmbeddingItems,
+    ModalityData,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .minicpmv import (
+    _MAX_FRAMES_PER_VIDEO,
+    MiniCPMV2_6,
+    MiniCPMVDummyInputsBuilder,
+    MiniCPMVMultiModalDataParser,
+    MiniCPMVMultiModalProcessor,
+    MiniCPMVProcessingInfo,
+    _minicpmv_field_config,
+)
+from .utils import AutoWeightsLoader, cast_overflow_tensors, maybe_prefix
+
+CPU_DEVICE = torch.device("cpu")
+
+
+class MiniCPMOAudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+        - bns: Batch size * number of audios * number of slices
+        - bn: Batch size * number of audios
+        - c: Number of channels
+        - l: Length
+        - s: Number of slices
+    """
+
+    type: Literal["audio_features"] = "audio_features"
+
+    audio_features: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bns", "c", "l", dynamic_dims={"l"}),
+    ]
+    """
+    Slice here means chunk. Audio that is too long will be split into slices,
+    which is the same as image. Padding is used therefore `audio_features` is 
+    `torch.Tensor`.
+    """
+
+    audio_feature_lens: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "s"),
+    ]
+    """
+    This should be feature length of each audio slice, 
+    which equals to `audio_features.shape[-1]`
+    """
+
+
+class MiniCPMOAudioEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of audios
+        - s: Number of slices
+        - h: Hidden size (must match language model backbone)
+
+    Length of each slice may vary, so pass it as a list.
+    """
+
+    type: Literal["audio_embeds"] = "audio_embeds"
+
+    audio_embeds: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "s", "h", dynamic_dims={"s"}),
+    ]
+
+
+MiniCPMOAudioInputs: TypeAlias = (
+    MiniCPMOAudioFeatureInputs | MiniCPMOAudioEmbeddingInputs
+)
+
+
+def _minicpmo_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+    return dict(
+        **_minicpmv_field_config(hf_inputs),
+        audio_features=MultiModalFieldConfig.batched("audio"),
+        audio_feature_lens=MultiModalFieldConfig.batched("audio"),
+        audio_embeds=MultiModalFieldConfig.batched("audio"),
+    )
+
+
+class MiniCPMOAudioEmbeddingItems(DictEmbeddingItems):
+    def __init__(
+        self,
+        data: Mapping[str, torch.Tensor],
+        fields_factory: Callable[
+            [Mapping[str, torch.Tensor]],
+            Mapping[str, MultiModalFieldConfig],
+        ],
+    ) -> None:
+        super().__init__(
+            data,
+            modality="image",
+            required_fields={"audio_embeds"},
+            fields_factory=fields_factory,
+        )
+
+
+class MiniCPMOMultiModalDataParser(MiniCPMVMultiModalDataParser):
+    def _parse_audio_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[AudioItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return MiniCPMOAudioEmbeddingItems(
+                data,
+                fields_factory=_minicpmo_field_config,
+            )
+
+        return super()._parse_audio_data(data)
+
+
+class MiniCPMOProcessingInfo(MiniCPMVProcessingInfo):
+    audio_pattern = "(<audio>./</audio>)"
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {**super().get_supported_mm_limits(), "audio": None}
+
+    def get_audio_placeholder(
+        self,
+        audio_lens: int,
+        chunk_input: bool = True,
+        chunk_length: int = 1,
+    ) -> str:
+        hf_processor = self.get_hf_processor()
+
+        return hf_processor.get_audio_placeholder(
+            audio_lens,
+            chunk_input=chunk_input,
+            chunk_length=chunk_length,
+        )
+
+    def get_default_audio_pool_step(self) -> int:
+        return 2
+
+    def get_default_audio_sampling_rate(self) -> int:
+        return 16000
+
+    def get_chunk_length(self) -> int:
+        return self.get_hf_config().audio_chunk_length
+
+    def get_max_audio_tokens_per_chunk(self) -> int:
+        pool_step = self.get_default_audio_pool_step()
+        fbank_feat_in_chunk = 100
+        cnn_feat_in_chunk = (fbank_feat_in_chunk - 1) // 2 + 1
+        return (cnn_feat_in_chunk - pool_step) // pool_step + 1
+
+    def get_max_audio_chunks_with_most_features(self) -> int:
+        return 30
+
+    def get_max_audio_tokens(self) -> int:
+        num_chunks = self.get_max_audio_chunks_with_most_features()
+        return self.get_max_audio_tokens_per_chunk() * num_chunks
+
+    def get_audio_len_by_num_chunks(self, num_chunks: int) -> int:
+        sampling_rate = self.get_default_audio_sampling_rate()
+        num_tokens_per_chunk = self.get_max_audio_tokens_per_chunk()
+        return int(num_chunks * sampling_rate / num_tokens_per_chunk) + 1
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+        max_audios = mm_counts.get("audio", 0)
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_audio_tokens = self.get_max_audio_tokens() * max_audios
+        max_total_frames = self.get_max_video_frames(
+            seq_len - max_image_tokens - max_audio_tokens
+        )
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1), _MAX_FRAMES_PER_VIDEO
+        )
+
+        return max(max_frames_per_video, 1)
+
+
+class MiniCPMODummyInputsBuilder(MiniCPMVDummyInputsBuilder[MiniCPMOProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+
+        audio_prompt_texts = self.info.audio_pattern * num_audios
+
+        return super().get_dummy_text(mm_counts) + audio_prompt_texts
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+        audio_len = (
+            self.info.get_max_audio_chunks_with_most_features()
+            * self.info.get_default_audio_sampling_rate()
+        )
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        audio_mm_data = {
+            "audio": self._get_dummy_audios(
+                length=audio_len, num_audios=num_audios, overrides=audio_overrides
+            )
+        }
+
+        return {
+            **super().get_dummy_mm_data(seq_len, mm_counts, mm_options),
+            **audio_mm_data,
+        }
+
+
+class MiniCPMOMultiModalProcessor(MiniCPMVMultiModalProcessor[MiniCPMOProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return MiniCPMOMultiModalDataParser(
+            target_sr=self.info.get_default_audio_sampling_rate()
+        )
+
+    def get_audio_prompt_texts(
+        self,
+        audio_lens: int,
+        chunk_input: bool = True,
+        chunk_length: int = 1,
+    ) -> str:
+        return self.info.get_audio_placeholder(
+            audio_lens,
+            chunk_input=chunk_input,
+            chunk_length=chunk_length,
+        )
+
+    def process_audios(
+        self,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> Mapping[str, NestedTensors]:
+        if (audios := mm_data.get("audios")) is None:
+            return {}
+
+        parsed_audios = (
+            self._get_data_parser()
+            .parse_mm_data({"audio": audios})
+            .get_items("audio", (MiniCPMOAudioEmbeddingItems, AudioProcessorItems))
+        )
+
+        if isinstance(parsed_audios, MiniCPMOAudioEmbeddingItems):
+            audio_inputs = {}
+        else:
+            audio_inputs = self._base_call_hf_processor(
+                prompts=[self.info.audio_pattern] * len(parsed_audios),
+                mm_data={"audios": [[audio] for audio in parsed_audios]},
+                mm_kwargs={**mm_kwargs, "chunk_input": True},
+                tok_kwargs=tok_kwargs,
+                out_keys={"audio_features", "audio_feature_lens"},
+            )
+
+            # Avoid padding since we need the output for each audio to be
+            # independent of other audios for the cache to work correctly
+            unpadded_audio_features = [
+                feat[:, :feature_len]
+                for feat, feature_len in zip(
+                    audio_inputs["audio_features"],
+                    audio_inputs["audio_feature_lens"],
+                )
+            ]
+            audio_inputs["audio_features"] = unpadded_audio_features
+
+        return audio_inputs
+
+    def process_mm_inputs(
+        self,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> Mapping[str, NestedTensors]:
+        return {
+            **super().process_mm_inputs(mm_data, mm_kwargs, tok_kwargs),
+            **self.process_audios(mm_data, mm_kwargs, tok_kwargs),
+        }
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        base_updates = super()._get_prompt_updates(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            out_mm_kwargs=out_mm_kwargs,
+        )
+
+        audio_placeholder = self.info.audio_pattern
+
+        def get_audio_replacement(item_idx: int):
+            audios = mm_items.get_items(
+                "audio", (MiniCPMOAudioEmbeddingItems, AudioProcessorItems)
+            )
+
+            if isinstance(audios, MiniCPMOAudioEmbeddingItems):
+                single_audio_embeds = audios.get(item_idx)["audio_embeds"]
+                audio_len = self.info.get_audio_len_by_num_chunks(
+                    sum(map(len, single_audio_embeds))
+                )
+            else:
+                audio_len = audios.get_audio_length(item_idx)
+
+            return PromptUpdateDetails.select_text(
+                self.get_audio_prompt_texts(audio_len),
+                "<unk>",
+            )
+
+        return [
+            *base_updates,
+            PromptReplacement(
+                modality="audio",
+                target=audio_placeholder,
+                replacement=get_audio_replacement,
+            ),
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _minicpmo_field_config(hf_inputs)
+
+
+class MultiModalProjector(nn.Module):
+    def __init__(self, in_dim: int, out_dim: int):
+        super().__init__()
+        self.linear1 = nn.Linear(in_features=in_dim, out_features=out_dim, bias=True)
+        self.relu = nn.ReLU()
+        self.linear2 = nn.Linear(in_features=out_dim, out_features=out_dim, bias=True)
+
+    def forward(self, audio_features: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.relu(self.linear1(audio_features))
+        hidden_states = self.linear2(hidden_states)
+        return hidden_states
+
+
+class MiniCPMWhisperEncoderLayer(nn.Module):
+    def __init__(self, config: WhisperConfig, layer_idx: int):
+        super().__init__()
+        self.embed_dim = config.d_model
+        self.self_attn = WhisperAttention(
+            embed_dim=self.embed_dim,
+            num_heads=config.encoder_attention_heads,
+            dropout=config.attention_dropout,
+            config=config,
+            layer_idx=layer_idx,
+        )
+        self.self_attn_layer_norm = nn.LayerNorm(self.embed_dim)
+        self.dropout = config.dropout
+        self.activation_fn = ACT2FN[config.activation_function]
+        self.activation_dropout = config.activation_dropout
+        self.fc1 = nn.Linear(self.embed_dim, config.encoder_ffn_dim)
+        self.fc2 = nn.Linear(config.encoder_ffn_dim, self.embed_dim)
+        self.final_layer_norm = nn.LayerNorm(self.embed_dim)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.self_attn_layer_norm(hidden_states)
+        hidden_states, _ = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+        )
+        hidden_states = nn.functional.dropout(
+            hidden_states, p=self.dropout, training=self.training
+        )
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.final_layer_norm(hidden_states)
+        hidden_states = self.activation_fn(self.fc1(hidden_states))
+        hidden_states = nn.functional.dropout(
+            hidden_states, p=self.activation_dropout, training=self.training
+        )
+        hidden_states = self.fc2(hidden_states)
+        hidden_states = nn.functional.dropout(
+            hidden_states, p=self.dropout, training=self.training
+        )
+        hidden_states = residual + hidden_states
+
+        if hidden_states.dtype == torch.float16:
+            hidden_states = cast_overflow_tensors(hidden_states)
+
+        outputs = (hidden_states,)
+
+        return outputs
+
+
+class MiniCPMWhisperEncoder(WhisperEncoder):
+    def __init__(self, config: WhisperConfig):
+        super().__init__(config)
+        self.layers = nn.ModuleList(
+            [
+                MiniCPMWhisperEncoderLayer(config, layer_idx=i)
+                for i in range(config.encoder_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        input_features: torch.Tensor,
+        attention_mask: torch.Tensor | None = None,
+    ) -> BaseModelOutputWithPast:
+        # Ignore copy
+        input_features = input_features.to(
+            dtype=self.conv1.weight.dtype, device=self.conv1.weight.device
+        )
+
+        inputs_embeds = nn.functional.gelu(self.conv1(input_features))
+        inputs_embeds = nn.functional.gelu(self.conv2(inputs_embeds))
+
+        inputs_embeds = inputs_embeds.permute(0, 2, 1)
+
+        embed_pos = self.embed_positions.weight
+
+        embed_pos = embed_pos[: inputs_embeds.shape[1], :]
+
+        hidden_states = inputs_embeds + embed_pos
+        hidden_states = nn.functional.dropout(
+            hidden_states, p=self.dropout, training=self.training
+        )
+
+        encoder_states = ()
+
+        for idx, encoder_layer in enumerate(self.layers):
+            encoder_states = encoder_states + (hidden_states,)
+            to_drop = False
+            if self.training:
+                dropout_probability = torch.rand([])
+                if dropout_probability < self.layerdrop:  # skip the layer
+                    to_drop = True
+
+            # Ignore copy
+            if to_drop:
+                layer_outputs = (None, None)
+            else:
+                layer_outputs = encoder_layer(
+                    hidden_states,
+                    attention_mask,
+                )
+
+                hidden_states = layer_outputs[0]
+
+        hidden_states = self.layer_norm(hidden_states)
+        encoder_states = encoder_states + (hidden_states,)
+
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            hidden_states=encoder_states,
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MiniCPMOMultiModalProcessor,
+    info=MiniCPMOProcessingInfo,
+    dummy_inputs=MiniCPMODummyInputsBuilder,
+)
+class MiniCPMO(MiniCPMV2_6):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "(<image>./</image>)"
+        if modality.startswith("video"):
+            return "(<video>./</video>)"
+        if modality.startswith("audio"):
+            return "(<audio>./</audio>)"
+
+        raise ValueError("Only image, video or audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        self.apm = self.init_audio_module(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "apm")
+        )
+
+    def init_audio_module(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        # Do not use parameters temporarily
+        audio_config = self.config.audio_config
+        model = MiniCPMWhisperEncoder(audio_config)
+        audio_output_dim = int(audio_config.encoder_ffn_dim // 4)
+        self.audio_avg_pooler = nn.AvgPool1d(
+            self.config.audio_pool_step, stride=self.config.audio_pool_step
+        )
+        self.audio_projection_layer = MultiModalProjector(
+            in_dim=audio_output_dim, out_dim=self.embed_dim
+        )
+        self.audio_encoder_layer = -1
+        return model
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["tts"])
+        return loader.load_weights(weights)
+
+    def subsequent_chunk_mask(
+        self,
+        size: int,
+        chunk_size: int,
+        num_left_chunks: int = -1,
+        device: torch.device = CPU_DEVICE,
+        num_lookhead: int = 0,
+    ) -> torch.Tensor:
+        ret = torch.zeros(size, size, device=device, dtype=torch.bool)
+        # Vectorized computation of row indices and chunk boundaries
+        row_indices = torch.arange(size, device=device)
+        chunk_indices = row_indices // chunk_size
+        if num_left_chunks < 0:
+            # If num_left_chunks < 0, start is always 0 for all rows
+            start_indices = torch.zeros_like(row_indices)
+        else:
+            # Compute start indices vectorially
+            start_chunk_indices = torch.clamp(chunk_indices - num_left_chunks, min=0)
+            start_indices = start_chunk_indices * chunk_size
+        # Compute ending indices vectorially
+        end_chunk_indices = chunk_indices + 1
+        end_indices = torch.clamp(
+            end_chunk_indices * chunk_size + num_lookhead, max=size
+        )
+        # Create column indices for broadcasting
+        col_indices = torch.arange(size, device=device).unsqueeze(0)
+        start_indices = start_indices.unsqueeze(1)
+        end_indices = end_indices.unsqueeze(1)
+        # Vectorized mask creation
+        ret = (col_indices >= start_indices) & (col_indices < end_indices)
+        return ret
+
+    def _get_feat_extract_output_lengths(self, input_lengths: torch.LongTensor):
+        input_lengths_after_cnn = (input_lengths - 1) // 2 + 1
+        input_lengths_after_pooling = (
+            input_lengths_after_cnn - self.config.audio_pool_step
+        ) // self.config.audio_pool_step + 1
+        input_lengths_after_pooling = input_lengths_after_pooling.to(dtype=torch.int32)
+
+        return input_lengths_after_cnn, input_lengths_after_pooling
+
+    def get_audio_hidden_states(
+        self, data: MiniCPMOAudioFeatureInputs
+    ) -> list[torch.Tensor]:
+        chunk_length = self.config.audio_chunk_length
+
+        # (bs, 80, frames) or [], multi audios need filled in advance
+        wavforms_raw = data["audio_features"]
+        if isinstance(wavforms_raw, list):
+            B = len(wavforms_raw)
+            C = wavforms_raw[0].shape[-2]
+            L = max(item.shape[-1] for item in wavforms_raw)
+            device = wavforms_raw[0].device
+            dtype = wavforms_raw[0].dtype
+
+            wavforms = torch.zeros((B, C, L), dtype=dtype, device=device)
+            for i, wavforms_item in enumerate(wavforms_raw):
+                L_item = wavforms_item.shape[-1]
+                wavforms[i, ..., :L_item] = wavforms_item
+        else:
+            wavforms = wavforms_raw
+
+        # list, [[x1, x2], [y1], [z1]]
+        audio_feature_lens_raw = data["audio_feature_lens"]
+        if isinstance(audio_feature_lens_raw, torch.Tensor):
+            audio_feature_lens_raw = audio_feature_lens_raw.unbind(0)
+
+        audio_feature_lens = torch.hstack(audio_feature_lens_raw)
+        batch_size, _, max_mel_seq_len = wavforms.shape
+        max_seq_len = (max_mel_seq_len - 1) // 2 + 1
+
+        # Create a sequence tensor of shape (batch_size, max_seq_len)
+        seq_range = (
+            torch.arange(
+                0,
+                max_seq_len,
+                dtype=audio_feature_lens.dtype,
+                device=audio_feature_lens.device,
+            )
+            .unsqueeze(0)
+            .expand(batch_size, max_seq_len)
+        )
+        lengths_expand = audio_feature_lens.unsqueeze(1).expand(batch_size, max_seq_len)
+        # Create mask
+        padding_mask = seq_range >= lengths_expand  # 1 for padded values
+
+        audio_attention_mask_ = padding_mask.view(batch_size, 1, 1, max_seq_len).expand(
+            batch_size, 1, max_seq_len, max_seq_len
+        )
+        audio_attention_mask = audio_attention_mask_.to(
+            dtype=self.apm.conv1.weight.dtype, device=self.apm.conv1.weight.device
+        )
+
+        if chunk_length > 0:
+            chunk_num_frame = int(chunk_length * 50)
+            chunk_mask = self.subsequent_chunk_mask(
+                size=max_seq_len,
+                chunk_size=chunk_num_frame,
+                num_left_chunks=-1,
+                device=audio_attention_mask_.device,
+            )
+            audio_attention_mask_ = torch.logical_or(
+                audio_attention_mask_, torch.logical_not(chunk_mask)
+            )
+
+        audio_attention_mask[audio_attention_mask_] = float("-inf")
+        audio_states = self.apm(
+            wavforms, attention_mask=audio_attention_mask
+        ).hidden_states[self.audio_encoder_layer]
+        audio_embeds = self.audio_projection_layer(audio_states)
+
+        audio_embeds = audio_embeds.transpose(1, 2)
+        audio_embeds = self.audio_avg_pooler(audio_embeds)
+        audio_embeds = audio_embeds.transpose(1, 2)
+
+        _, feature_lens_after_pooling = self._get_feat_extract_output_lengths(
+            audio_feature_lens
+        )
+
+        num_audio_tokens = feature_lens_after_pooling
+
+        final_audio_embeds = list[torch.Tensor]()
+        idx = 0
+        for i in range(len(audio_feature_lens_raw)):
+            target_audio_embeds_lst = list[torch.Tensor]()
+            for _ in range(len(audio_feature_lens_raw[i])):
+                target_audio_embeds_lst.append(
+                    audio_embeds[idx, : num_audio_tokens[idx], :]
+                )
+                idx += 1
+
+            final_audio_embeds.append(torch.cat(target_audio_embeds_lst))
+
+        return final_audio_embeds
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> MiniCPMOAudioInputs | None:
+        audio_features = kwargs.pop("audio_features", None)
+        audio_embeds = kwargs.pop("audio_embeds", None)
+
+        if audio_features is None and audio_embeds is None:
+            return None
+
+        if audio_embeds is not None:
+            return MiniCPMOAudioEmbeddingInputs(
+                type="audio_embeds",
+                audio_embeds=audio_embeds,
+            )
+
+        audio_feature_lens = kwargs.pop("audio_feature_lens")
+
+        return MiniCPMOAudioFeatureInputs(
+            type="audio_features",
+            audio_features=audio_features,
+            audio_feature_lens=audio_feature_lens,
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = super()._parse_and_validate_multimodal_inputs(**kwargs)
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("audio_features", "audio_embeds")
+                and "audios" not in modalities
+            ):
+                modalities["audios"] = self._parse_and_validate_audio_input(**kwargs)
+
+        return modalities
+
+    def _process_audio_input(
+        self,
+        audio_input: MiniCPMOAudioInputs,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if audio_input["type"] == "audio_embeds":
+            return audio_input["audio_embeds"]
+
+        return self.get_audio_hidden_states(audio_input)
+
+    def _process_multimodal_inputs(self, modalities: dict):
+        multimodal_embeddings = super()._process_multimodal_inputs(modalities)
+
+        for modality in modalities:
+            if modality == "audios":
+                audio_input = modalities["audios"]
+                audio_embeddings = self._process_audio_input(audio_input)
+                multimodal_embeddings += tuple(audio_embeddings)
+
+        return multimodal_embeddings
diff --git a/model_executor/models/minicpmv.py b/model_executor/models/minicpmv.py
new file mode 100644
index 0000000..2ac9776
--- /dev/null
+++ b/model_executor/models/minicpmv.py
@@ -0,0 +1,1745 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiniCPM-V model compatible with HuggingFace weights."""
+
+import math
+from collections import defaultdict
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import partial
+from itertools import chain
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.types
+from torch import nn
+from torch.nn.init import trunc_normal_
+from transformers import BatchFeature, PretrainedConfig
+from typing_extensions import TypeVar
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.resampler import (
+    BaseResampler,
+    Resampler2,
+    get_2d_sincos_pos_embed,
+)
+from vllm.model_executor.models.llama import LlamaForCausalLM
+from vllm.model_executor.models.minicpm import MiniCPMForCausalLM
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM
+from vllm.model_executor.models.qwen3 import Qwen3ForCausalLM
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    DictEmbeddingItems,
+    ImageItem,
+    ImageProcessorItems,
+    ImageSize,
+    ModalityData,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+    VideoItem,
+    VideoProcessorItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+    ResolvedPromptUpdate,
+    _seq2text,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.collection_utils import flatten_2d_lists
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+from .idefics2_vision_model import Idefics2VisionTransformer
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import AutoWeightsLoader, flatten_bn, maybe_prefix
+
+# For profile run
+_MAX_FRAMES_PER_VIDEO = 16
+
+
+class MiniCPMVImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bns: Batch size * number of images * number of slices
+        - bn: Batch size * number of images
+        - c: Number of channels
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    # Note that the patch size may vary, so we pass it as a list instead of a
+    # batched tensor.
+    pixel_values: Annotated[
+        list[torch.Tensor],
+        TensorShape("bns", "c", "h", "w", dynamic_dims={"h", "w"}),
+    ]
+    tgt_sizes: Annotated[
+        torch.Tensor,
+        TensorShape("bns", 2),  # This should be in `(height, width)` format.
+    ]
+    num_slices: Annotated[
+        torch.Tensor,
+        TensorShape("bn"),
+    ]
+
+
+class MiniCPMVImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ns: Number of slices
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    image_embeds: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "ns", "hs"),
+    ]
+
+
+MiniCPMVImageInputs: TypeAlias = MiniCPMVImagePixelInputs | MiniCPMVImageEmbeddingInputs
+
+DEFAULT_LN = partial(nn.LayerNorm, eps=1e-6)
+
+
+class Resampler2_5(BaseResampler):
+    def __init__(
+        self,
+        num_queries: int,
+        embed_dim: int,
+        num_heads: int,
+        kv_dim: int | None = None,
+        norm_layer: Callable[[int], nn.LayerNorm] = DEFAULT_LN,
+        max_size: tuple[int, int] = (70, 70),
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__(
+            num_queries,
+            embed_dim,
+            num_heads,
+            kv_dim,
+            norm_layer,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+        self.max_size = max_size
+        self._set_2d_pos_cache(self.max_size)
+
+    def _set_2d_pos_cache(
+        self, max_size: tuple[int, int], device: torch.types.Device = "cpu"
+    ) -> None:
+        pos_embed_arr = get_2d_sincos_pos_embed(
+            self.embed_dim, max_size, version=(2, 5)
+        )
+        pos_embed = torch.from_numpy(pos_embed_arr).float().to(device)
+        self.register_buffer("pos_embed", pos_embed, persistent=False)
+
+    def _adjust_pos_cache(
+        self, tgt_sizes: torch.Tensor, device: torch.types.Device
+    ) -> None:
+        max_h = tgt_sizes[:, 0].max().item()
+        max_w = tgt_sizes[:, 1].max().item()
+        assert isinstance(max_h, int) and isinstance(max_w, int)
+
+        if max_h > self.max_size[0] or max_w > self.max_size[1]:
+            self.max_size = (
+                max(max_h, self.max_size[0]),
+                max(max_w, self.max_size[1]),
+            )
+            self._set_2d_pos_cache(self.max_size, device)
+
+    def forward(self, x: torch.Tensor, tgt_sizes: torch.Tensor) -> torch.Tensor:
+        assert x.shape[0] == tgt_sizes.shape[0]
+        bs = x.shape[0]
+
+        device = x.device
+        dtype = x.dtype
+
+        patch_len = tgt_sizes[:, 0] * tgt_sizes[:, 1]
+
+        self._adjust_pos_cache(tgt_sizes, device=device)
+
+        max_patch_len = patch_len.max().item()
+        assert isinstance(max_patch_len, int)
+
+        key_padding_mask = torch.zeros(
+            (bs, max_patch_len), dtype=torch.bool, device=device
+        )
+
+        pos_embed = []
+        for i in range(bs):
+            tgt_h, tgt_w = tgt_sizes[i].tolist()
+            pos_embed.append(
+                self.pos_embed[:tgt_h, :tgt_w, :].reshape((tgt_h * tgt_w, -1)).to(dtype)
+            )  # patches * D
+            key_padding_mask[i, patch_len[i] :] = True
+        pos_embed = torch.nn.utils.rnn.pad_sequence(
+            pos_embed, batch_first=True, padding_value=0.0
+        ).permute(1, 0, 2)  # BLD => L * B * D
+        x, _ = self.kv_proj(x)  # B * L * D
+        x = self.ln_kv(x).permute(1, 0, 2)  # L * B * D
+
+        q = self.ln_q(self.query)  # Q * D
+
+        out = self.attn(
+            self._repeat(q, bs),  # Q * B * D
+            x + pos_embed,  # L * B * D +  L * B * D
+            x,
+            key_padding_mask=key_padding_mask,
+        )[0]
+        #  out: Q * B * D
+        x = out.permute(1, 0, 2)  # B * Q * D
+
+        x = self.ln_post(x)
+        x = x @ self.proj
+        return x
+
+
+class Resampler4_5(Resampler2_5):
+    def __init__(
+        self,
+        num_queries: int,
+        embed_dim: int,
+        num_heads: int,
+        kv_dim: int | None = None,
+        norm_layer: Callable[[int], nn.LayerNorm] = DEFAULT_LN,
+        max_size: tuple[int, int] = (70, 70),
+        max_temporal_size: int = 36000,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__(
+            num_queries,
+            embed_dim,
+            num_heads,
+            kv_dim,
+            norm_layer,
+            max_size,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+        trunc_normal_(self.query, std=0.02)
+        self.max_temporal_size = max_temporal_size
+        self._set_temporal_pos_cache(self.max_temporal_size)
+        self.apply(self._init_weights)
+
+    def get_1d_sincos_pos_embed_from_temporal_size(
+        self, embed_dim: int, pos: np.ndarray
+    ):
+        """
+        embed_dim: output dimension for each position
+        pos: a list of positions to be encoded: size (M,)
+        out: (M, D)
+        """
+        assert embed_dim % 2 == 0
+        omega = np.arange(embed_dim // 2, dtype=np.float32)
+        omega /= embed_dim / 2.0
+        omega = 1.0 / 10000**omega  # (D/2,)
+
+        pos = pos.reshape(-1)  # (M,)
+        out = np.einsum("m,d->md", pos, omega)  # (M, D/2), outer product
+
+        emb_sin = np.sin(out)  # (M, D/2)
+        emb_cos = np.cos(out)  # (M, D/2)
+
+        emb = np.concatenate([emb_sin, emb_cos], axis=1)  # (M, D)
+        return emb
+
+    def _set_temporal_pos_cache(
+        self, max_temporal_size: int, device: torch.types.Device = "cpu"
+    ) -> None:
+        temporal_size = np.arange(max_temporal_size, dtype=np.float32)
+        pos_embed = (
+            torch.from_numpy(
+                self.get_1d_sincos_pos_embed_from_temporal_size(
+                    self.embed_dim, temporal_size
+                )
+            )
+            .float()
+            .to(device)
+        )
+        self.register_buffer("temporal_pos_embed", pos_embed, persistent=False)
+
+    def _adjust_temporal_pos_cache(
+        self, max_temporal_size: int, device: torch.types.Device = "cpu"
+    ):
+        if max_temporal_size > self.max_temporal_size:
+            self.max_temporal_size = max_temporal_size
+            self._set_temporal_pos_cache(self.max_temporal_size, device)
+
+    def _init_weights(self, m: nn.Linear | nn.LayerNorm):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=0.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+        elif isinstance(m, nn.LayerNorm):
+            nn.init.constant_(m.bias, 0)
+            nn.init.constant_(m.weight, 1.0)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        tgt_sizes: torch.Tensor,
+        # temporal_ids for high refresh rate videos
+        temporal_ids=None,
+    ) -> torch.Tensor:
+        assert x.shape[0] == tgt_sizes.shape[0]
+        bs = x.shape[0]
+
+        device = x.device
+        dtype = x.dtype
+
+        patch_len = tgt_sizes[:, 0] * tgt_sizes[:, 1]
+
+        self._adjust_pos_cache(tgt_sizes, device=device)
+
+        temporal_pos_emb = False
+        temporal_ids_flatten = None
+        if temporal_ids is not None:
+            # example: [[-1], [-1], [2, 6, 9]]
+            temporal_ids_flatten = list(chain.from_iterable(temporal_ids))
+            max_temporal_size = max(temporal_ids_flatten, default=0)
+            if max_temporal_size > -1:
+                temporal_pos_emb = True
+            if max_temporal_size > self.max_temporal_size:
+                self._adjust_temporal_pos_cache(max_temporal_size, device)
+
+        max_patch_len = patch_len.max().item()
+        assert isinstance(max_patch_len, int)
+
+        key_padding_mask = torch.zeros(
+            (bs, max_patch_len), dtype=torch.bool, device=device
+        )
+
+        x, _ = self.kv_proj(x)  # B * L * D
+        x = self.ln_kv(x).permute(1, 0, 2)  # L * B * D
+        q = self.ln_q(self.query)  # Q * D
+
+        pos_embed_2d = []
+        pos_embed_temporal = []
+        for i in range(bs):
+            tgt_h, tgt_w = tgt_sizes[i]
+            if temporal_pos_emb:
+                if temporal_ids_flatten[i] == -1:
+                    pos_embed_temporal.append(
+                        torch.zeros(self.embed_dim, dtype=dtype, device=device)
+                    )
+                else:
+                    pos_embed_temporal.append(
+                        self.temporal_pos_embed[temporal_ids_flatten[i]].to(dtype)
+                    )  # D
+
+            pos_embed_2d.append(
+                self.pos_embed[:tgt_h, :tgt_w, :].reshape((tgt_h * tgt_w, -1)).to(dtype)
+            )  # patches * D
+            key_padding_mask[i, patch_len[i] :] = True
+
+        pos_embed_2d = torch.nn.utils.rnn.pad_sequence(
+            pos_embed_2d, batch_first=True, padding_value=0.0
+        ).permute(1, 0, 2)  # BLD => L * B * D
+
+        k = x
+        v = x + pos_embed_2d
+        if pos_embed_temporal:
+            k += torch.stack(pos_embed_temporal, dim=0)
+            bs = len(temporal_ids)
+            merge_k = []
+            merge_v = []
+            merge_key_padding_mask = []
+
+            start = 0
+            for tp in temporal_ids:
+                end = start + len(tp)
+                # L * (end-start) * D -> (end-start) * L * D
+                # -> 1 * L*(end-start) * D
+                merge_k.append(
+                    k[:, start:end, :].permute(1, 0, 2).reshape(-1, self.embed_dim)
+                )
+                merge_v.append(
+                    v[:, start:end, :].permute(1, 0, 2).reshape(-1, self.embed_dim)
+                )
+                merge_key_padding_mask.append(
+                    key_padding_mask[start:end, :].reshape(-1, 1)
+                )
+
+                start = end
+
+            k = torch.nn.utils.rnn.pad_sequence(
+                merge_k, batch_first=True, padding_value=0.0
+            ).permute(1, 0, 2)  # L*(end-start)
+            v = torch.nn.utils.rnn.pad_sequence(
+                merge_v, batch_first=True, padding_value=0.0
+            ).permute(1, 0, 2)  # L*(end-start)
+            key_padding_mask = torch.nn.utils.rnn.pad_sequence(
+                merge_key_padding_mask, batch_first=True, padding_value=True
+            ).squeeze(-1)
+
+        out = self.attn(
+            self._repeat(q, bs),  # Q * B * D
+            k,  # L * B * D +  L * B * D
+            v,
+            key_padding_mask=key_padding_mask,
+        )[0]
+        #  out: Q * B * D
+        x = out.permute(1, 0, 2)  # B * Q * D
+
+        x = self.ln_post(x)
+        x = x @ self.proj
+        return x
+
+
+def get_version_by_config(config: PretrainedConfig) -> tuple[int, ...]:
+    version_float = getattr(config, "version", None)
+
+    # The old configs do not include version number
+    # TODO: Remove this after the HF repos are updated
+    if version_float is None:
+        if config.hidden_size == 2304 and config.query_num == 64:
+            return (2, 0)
+        return (2, 5)
+    version_str = str(version_float)
+    return tuple(int(x) for x in version_str.split("."))
+
+
+def _minicpmv_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+    return dict(
+        pixel_values=MultiModalFieldConfig.batched("image"),
+        image_sizes=MultiModalFieldConfig.batched("image"),
+        tgt_sizes=MultiModalFieldConfig.batched("image"),
+        image_embeds=MultiModalFieldConfig.batched("image"),
+        video_pixel_values=MultiModalFieldConfig.batched("video"),
+        video_image_sizes=MultiModalFieldConfig.batched("video"),
+        video_tgt_sizes=MultiModalFieldConfig.batched("video"),
+        video_embeds=MultiModalFieldConfig.batched("video"),
+    )
+
+
+class MiniCPMVImageEmbeddingItems(DictEmbeddingItems):
+    def __init__(
+        self,
+        data: Mapping[str, torch.Tensor],
+        fields_factory: Callable[
+            [Mapping[str, torch.Tensor]],
+            Mapping[str, MultiModalFieldConfig],
+        ],
+    ) -> None:
+        super().__init__(
+            data,
+            modality="image",
+            required_fields={"image_embeds", "image_sizes"},
+            fields_factory=fields_factory,
+        )
+
+    def get_image_size(self, index: int) -> ImageSize:
+        image_size = self.get(index)["image_sizes"].tolist()
+        return ImageSize(width=image_size[0], height=image_size[1])
+
+
+class MiniCPMVVideoEmbeddingItems(DictEmbeddingItems):
+    def __init__(
+        self,
+        data: Mapping[str, torch.Tensor],
+        fields_factory: Callable[
+            [Mapping[str, torch.Tensor]],
+            Mapping[str, MultiModalFieldConfig],
+        ],
+    ) -> None:
+        super().__init__(
+            data,
+            modality="video",
+            required_fields={"video_embeds", "video_image_sizes"},
+            fields_factory=fields_factory,
+        )
+
+    def get_frame_size(self, index: int) -> ImageSize:
+        frame_size = self.get(index)["video_image_sizes"].tolist()
+        return ImageSize(width=frame_size[0], height=frame_size[1])
+
+    def get_num_frames(self, index: int) -> int:
+        return len(self.get(index)["video_image_sizes"])
+
+
+class MiniCPMVMultiModalDataParser(MultiModalDataParser):
+    def _parse_image_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return MiniCPMVImageEmbeddingItems(
+                data,
+                fields_factory=_minicpmv_field_config,
+            )
+
+        return super()._parse_image_data(data)
+
+    def _parse_video_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[VideoItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return MiniCPMVVideoEmbeddingItems(
+                data,
+                fields_factory=_minicpmv_field_config,
+            )
+
+        return super()._parse_video_data(data)
+
+
+class MiniCPMVProcessingInfo(BaseProcessingInfo):
+    image_pattern = "(<image>./</image>)"
+    video_pattern = "(<video>./</video>)"
+
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object):
+        hf_processor = self.ctx.get_hf_processor(**kwargs)
+
+        # NumPy arrays are considered as Iterable but not Sequence in
+        # https://github.com/huggingface/transformers/blob/main/src/transformers/image_transforms.py#L428
+        image_processor = hf_processor.image_processor  # type: ignore
+        for attr in ("mean", "std"):
+            val = getattr(image_processor, attr)
+            if isinstance(val, np.ndarray):
+                setattr(image_processor, attr, val.tolist())
+
+        return hf_processor
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_model_version(self):
+        return get_version_by_config(self.get_hf_config())
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        mm_limits = {"image": None}
+        if self.get_model_version() in {(2, 6), (4, 0), (4, 5)}:
+            mm_limits["video"] = None
+
+        return mm_limits
+
+    def get_slice_image_placeholder(
+        self,
+        image_size: ImageSize,
+        # For MiniCPM V/O 2.6
+        image_idx: int = 0,
+        max_slice_nums: int | None = None,
+        use_image_id: bool = True,
+    ) -> str:
+        image_processor = self.get_image_processor()
+        version = self.get_model_version()
+
+        if version == (2, 0) or version == (2, 5):
+            return image_processor.get_slice_image_placeholder(image_size)
+
+        return image_processor.get_slice_image_placeholder(
+            image_size,
+            image_idx=image_idx,
+            max_slice_nums=max_slice_nums,
+            use_image_id=use_image_id,
+        )
+
+    def get_sliced_grid(
+        self,
+        image_size: ImageSize,
+        # For MiniCPM V/O 2.6
+        max_slice_nums: int | None = None,
+    ) -> tuple[int, int] | None:
+        image_processor = self.get_image_processor()
+        version = self.get_model_version()
+
+        if version == (2, 0) or version == (2, 5):
+            return image_processor.get_sliced_grid(image_size)
+
+        if max_slice_nums is None:
+            max_slice_nums = image_processor.max_slice_nums
+
+        return image_processor.get_sliced_grid(
+            image_size,
+            max_slice_nums=max_slice_nums,
+        )
+
+    def get_num_image_tokens(
+        self,
+        image_size: ImageSize,
+        max_slice_nums: int | None = None,
+    ) -> int:
+        image_processor = self.get_image_processor()
+
+        grid = self.get_sliced_grid(
+            image_size,
+            max_slice_nums=max_slice_nums,
+        )
+        if grid is None:
+            ncols = nrows = 0
+        else:
+            ncols, nrows = grid
+
+        return (ncols * nrows + 1) * image_processor.image_feature_size
+
+    def get_max_image_tokens(self) -> int:
+        image_size = self.get_image_size_with_most_features()
+        return self.get_num_image_tokens(image_size)
+
+    def get_image_max_slice_num(self) -> int:
+        return getattr(self.get_hf_config(), "max_slice_num", 9)
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_size = getattr(self.get_hf_config(), "image_size", 448)
+        max_slice_num = self.get_image_max_slice_num()
+        return ImageSize(width=image_size, height=image_size * max_slice_num)
+
+    def get_max_video_frame_tokens(self) -> int:
+        frame_size = self.get_video_frame_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            frame_size,
+            max_slice_nums=self.get_video_max_slice_num(),
+        )
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        num_frames = self.get_num_frames_with_most_features(seq_len, mm_counts)
+        num_video_tokens_total = self.get_max_video_frame_tokens() * num_frames
+        return num_video_tokens_total
+
+    def get_video_max_slice_num(self) -> int:
+        return 1
+
+    def get_video_frame_size_with_most_features(self) -> ImageSize:
+        image_size = getattr(self.get_hf_config(), "image_size", 448)
+        max_slice_num = self.get_video_max_slice_num()
+        return ImageSize(width=image_size, height=image_size * max_slice_num)
+
+    def get_max_video_frames(self, max_tokens: int) -> int:
+        num_frame_tokens = self.get_max_video_frame_tokens()
+        num_frames = max_tokens // num_frame_tokens
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self.get_max_video_frames(seq_len - max_image_tokens)
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1), _MAX_FRAMES_PER_VIDEO
+        )
+
+        return max(max_frames_per_video, 1)
+
+
+_I = TypeVar("_I", bound=MiniCPMVProcessingInfo, default=MiniCPMVProcessingInfo)
+
+
+class MiniCPMVDummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        image_prompt_texts = self.info.image_pattern * num_images
+        video_prompt_texts = self.info.video_pattern * num_videos
+
+        return image_prompt_texts + video_prompt_texts
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        image_width, image_height = self.info.get_image_size_with_most_features()
+        video_width, video_height = self.info.get_video_frame_size_with_most_features()
+        num_video_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=image_width,
+                height=image_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": [
+                self._get_dummy_images(
+                    width=video_width,
+                    height=video_height,
+                    num_images=num_video_frames,
+                    overrides=video_overrides,
+                )
+            ]
+            * num_videos,
+        }
+
+
+class MiniCPMVMultiModalProcessor(BaseMultiModalProcessor[_I]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return MiniCPMVMultiModalDataParser()
+
+    def get_image_prompt_texts(self, image_size: ImageSize, image_idx: int = 0) -> str:
+        return self.info.get_slice_image_placeholder(
+            image_size,
+            image_idx=image_idx,
+        )
+
+    def get_video_prompt_texts(self, image_size: ImageSize, num_frames: int) -> str:
+        return (
+            self.info.get_slice_image_placeholder(
+                image_size=image_size,
+                image_idx=0,
+                max_slice_nums=self.info.get_video_max_slice_num(),
+                use_image_id=False,
+            )
+            * num_frames
+        )
+
+    def process_images(
+        self,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> Mapping[str, NestedTensors]:
+        if (images := mm_data.get("images")) is None:
+            return {}
+
+        parsed_images = (
+            self._get_data_parser()
+            .parse_mm_data({"image": images})
+            .get_items("image", (MiniCPMVImageEmbeddingItems, ImageProcessorItems))
+        )
+
+        if isinstance(parsed_images, MiniCPMVImageEmbeddingItems):
+            image_inputs = {}
+        else:
+            image_inputs = self._base_call_hf_processor(
+                prompts=[self.info.image_pattern] * len(parsed_images),
+                mm_data={"images": [[image] for image in parsed_images]},
+                mm_kwargs=mm_kwargs,
+                tok_kwargs=tok_kwargs,
+                out_keys={"pixel_values", "image_sizes", "tgt_sizes"},
+            )
+
+        return image_inputs
+
+    def process_videos(
+        self,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> Mapping[str, NestedTensors]:
+        if (videos := mm_data.get("videos")) is None:
+            return {}
+
+        parsed_videos = (
+            self._get_data_parser()
+            .parse_mm_data({"video": videos})
+            .get_items("video", (MiniCPMVVideoEmbeddingItems, VideoProcessorItems))
+        )
+
+        if isinstance(parsed_videos, MiniCPMVVideoEmbeddingItems):
+            video_inputs = {}
+        else:
+            video_inputs = self._base_call_hf_processor(
+                prompts=[
+                    self.info.image_pattern * len(video) for video in parsed_videos
+                ],
+                mm_data={"images": list(parsed_videos)},
+                mm_kwargs={
+                    **mm_kwargs,
+                    "max_slice_nums": self.info.get_video_max_slice_num(),
+                },
+                tok_kwargs=tok_kwargs,
+                out_keys={"pixel_values", "image_sizes", "tgt_sizes"},
+            )
+
+        video_inputs = {f"video_{k}": v for k, v in video_inputs.items()}
+
+        return video_inputs
+
+    def process_mm_inputs(
+        self,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> Mapping[str, NestedTensors]:
+        return {
+            **self.process_images(mm_data, mm_kwargs, tok_kwargs),
+            **self.process_videos(mm_data, mm_kwargs, tok_kwargs),
+        }
+
+    def _base_call_hf_processor(
+        self,
+        prompts: list[str],
+        mm_data: Mapping[str, Sequence[object]],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+        *,
+        out_keys: set[str],
+    ) -> dict[str, NestedTensors]:
+        # This processor supports zipping prompt and mm_data together
+        if self.info.get_model_version() in {(2, 6), (4, 0), (4, 5)}:
+            inputs = super()._call_hf_processor(
+                prompt=prompts,  # type: ignore
+                mm_data=mm_data,
+                mm_kwargs=mm_kwargs,
+                tok_kwargs=tok_kwargs,
+            )
+        else:
+            inputs = defaultdict[str, list[torch.Tensor]](list)
+
+            for i, prompt in enumerate(prompts):
+                inputs_one = super()._call_hf_processor(
+                    prompt=prompt,
+                    mm_data={k: v[i] for k, v in mm_data.items()},
+                    mm_kwargs=mm_kwargs,
+                    tok_kwargs=tok_kwargs,
+                )
+
+                for k, v in inputs_one.items():
+                    assert len(v) == 1, (k, len(v))
+                    inputs[k].append(v[0])
+
+        return {k: inputs[k] for k in out_keys}
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        tokenizer = self.info.get_tokenizer()
+
+        input_ids = torch.tensor([tokenizer.encode(prompt, **tok_kwargs)])
+        mm_inputs = self.process_mm_inputs(mm_data, mm_kwargs, tok_kwargs)
+
+        return BatchFeature(
+            {
+                "input_ids": input_ids,
+                **mm_inputs,
+            }
+        )
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        placeholders = [
+            ("image", self.info.image_pattern),
+            ("video", self.info.video_pattern),
+        ]
+
+        # hard code for inconsistency of encode-decode image_pattern
+        additional_placeholders = []
+        tokenizer = self.info.get_tokenizer()
+        for modality, pattern in placeholders:
+            sub_pattern = tokenizer.decode(
+                tokenizer.encode(pattern, add_special_tokens=False)
+            )
+            if sub_pattern != pattern:
+                additional_placeholders.append((modality, sub_pattern))
+        placeholders += additional_placeholders
+
+        def get_image_replacement(item_idx: int):
+            images = mm_items.get_items(
+                "image", (MiniCPMVImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            image_size = images.get_image_size(item_idx)
+
+            return PromptUpdateDetails.select_text(
+                self.get_image_prompt_texts(image_size, item_idx),
+                "<unk>",
+            )
+
+        def get_video_replacement(item_idx: int):
+            videos = mm_items.get_items(
+                "video", (MiniCPMVVideoEmbeddingItems, VideoProcessorItems)
+            )
+
+            frame_size = videos.get_frame_size(item_idx)
+            num_frames = videos.get_num_frames(item_idx)
+
+            return PromptUpdateDetails.select_text(
+                self.get_video_prompt_texts(frame_size, num_frames),
+                "<unk>",
+            )
+
+        get_replacement = {
+            "image": get_image_replacement,
+            "video": get_video_replacement,
+        }
+
+        return [
+            PromptReplacement(
+                modality=modality, target=pattern, replacement=get_replacement[modality]
+            )
+            for modality, pattern in placeholders
+        ]
+
+    def _recompute_cached_prompt_update(
+        self,
+        cached_update: ResolvedPromptUpdate,
+        new_item_idx: int,
+    ) -> ResolvedPromptUpdate:
+        new_update = super()._recompute_cached_prompt_update(
+            cached_update,
+            new_item_idx,
+        )
+
+        if cached_update.modality == "image":
+            tokenizer = self.info.get_tokenizer()
+            image_processor = self.info.get_image_processor()
+            version = self.info.get_model_version()
+
+            text = _seq2text(tokenizer, cached_update.content.full)
+            prev_item_idx = cached_update.item_idx
+
+            if version == (2, 0) or version == (2, 5):
+                im_start = image_processor.im_start_token
+                im_end = image_processor.im_end_token
+            else:
+                im_start = image_processor.im_id_start
+                im_end = image_processor.im_id_end
+
+            new_update = new_update.with_content(
+                PromptUpdateDetails.select_text(
+                    text.replace(
+                        f"{im_start}{prev_item_idx}{im_end}",
+                        f"{im_start}{new_item_idx}{im_end}",
+                        1,
+                    ),
+                    "<unk>",
+                )
+            )
+
+        return new_update
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _minicpmv_field_config(hf_inputs)
+
+
+class MiniCPMVBaseModel(nn.Module, SupportsMultiModal, SupportsPP):
+    """
+    The abstract class of MiniCPMV can only be inherited, but cannot be
+    instantiated.
+    """
+
+    merge_by_field_config = True
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "(<image>./</image>)"
+        if modality.startswith("video"):
+            return "(<video>./</video>)"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        quant_config = vllm_config.quant_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        super().__init__()
+        # All MiniCPM-V models disable `tie_word_embeddings` but
+        # `PretrainedConfig.tie_word_embeddings` defaults to True; we cannot
+        # check `tie_word_embeddings` until vLLM integrate MiniCPM-V model
+        # and config class
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.version = get_version_by_config(self.config)
+        self.llm = self.init_llm(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "llm")
+        )
+        self.vpm = self.init_vision_module(
+            config, quant_config, prefix=maybe_prefix(prefix, "vpm")
+        )
+        self.vision_dim = (
+            self.vpm.embed_dim
+            if self.version == (2, 0)
+            else self.vpm.embeddings.embed_dim
+        )
+        self.embed_dim = self.config.hidden_size
+
+        self.resampler = self.init_resampler(
+            self.embed_dim,
+            self.vision_dim,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "resampler"),
+        )
+
+        self.make_empty_intermediate_tensors = self.llm.make_empty_intermediate_tensors
+
+    def _parse_and_validate_vision_input(
+        self,
+        modality: str,
+        **kwargs: object,
+    ) -> MiniCPMVImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return MiniCPMVImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+            )
+
+        tgt_sizes = kwargs.pop("tgt_sizes")
+
+        num_slices_flat = torch.tensor([len(ps) for ps in pixel_values])
+        pixel_values_flat = flatten_bn(pixel_values)
+        tgt_sizes_flat = flatten_bn(tgt_sizes, concat=True)
+
+        return MiniCPMVImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values_flat,
+            tgt_sizes=tgt_sizes_flat,
+            num_slices=num_slices_flat,
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_vision_input(
+                    "images", **kwargs
+                )
+            if (
+                input_key in ("video_pixel_values", "video_embeds")
+                and "videos" not in modalities
+            ):
+                modalities["videos"] = self._parse_and_validate_vision_input(
+                    "videos", **{k.removeprefix("video_"): v for k, v in kwargs.items()}
+                )
+
+        return modalities
+
+    def _process_vision_input(
+        self,
+        image_input: MiniCPMVImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor] | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["image_embeds"]
+
+        image_features_flat = self.get_vision_hidden_states(image_input)
+
+        num_slices = image_input["num_slices"]
+        return [e.flatten(0, 1) for e in image_features_flat.split(num_slices.tolist())]
+
+    def _process_multimodal_inputs(self, modalities: dict):
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_vision_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_vision_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.llm
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        return self._process_multimodal_inputs(modalities)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: Any,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.llm.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.llm.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="llm", connector="resampler", tower_model="vpm"
+        )
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        raise NotImplementedError
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> nn.Module:
+        raise NotImplementedError
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        raise NotImplementedError
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        raise NotImplementedError
+
+
+class MiniCPMV2_0(MiniCPMVBaseModel):
+    supports_encoder_tp_data = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        assert self.version == (2, 0)
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        return MiniCPMForCausalLM(vllm_config=vllm_config, prefix=prefix)
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> nn.Module:
+        # TODO: refactor vision model through timm wrapper from transformers
+        try:
+            import timm
+        except ImportError:
+            raise ImportError("Please install timm==0.9.10") from ImportError
+
+        with set_default_torch_dtype(torch.float16):
+            model = timm.create_model(
+                "vit_so400m_patch14_siglip_384.webli",
+                pretrained=False,
+                num_classes=0,
+                dynamic_img_size=True,
+                dynamic_img_pad=True,
+            )
+
+        model = model.to(dtype=torch.get_default_dtype())
+
+        if (
+            isinstance(model, timm.models.VisionTransformer)
+            and model.attn_pool is not None
+        ):
+            model.attn_pool = torch.nn.Identity()
+
+        if self.config.drop_vision_last_layer:
+            model.blocks = model.blocks[:-1]
+
+        return model
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        with set_default_torch_dtype(torch.float16):
+            resampler = Resampler2(
+                embed_dim=embed_dim,
+                num_heads=embed_dim // 128,
+                grid_size=int(math.sqrt(self.config.query_num)),
+                kv_dim=vision_dim,
+                adaptive=False,
+                do_post_projection=True,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        return resampler.to(
+            device=current_platform.device_type, dtype=torch.get_default_dtype()
+        )
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = data["pixel_values"]
+
+        P_h, P_w = self.vpm.patch_embed.patch_size
+        dtype: torch.dtype = self.vpm.pos_embed.data.dtype
+        num_prefix_tokens = getattr(self.vpm, "num_prefix_tokens", 0)
+
+        res = list[torch.Tensor]()
+        for pixel_value in pixel_values:
+            H, W = pixel_value[0].shape[-2:]
+            tgt_size = (math.ceil(H / P_h), math.ceil(W / P_w))
+            vision_embedding = self.vpm.forward_features(
+                pixel_value.unsqueeze(0).type(dtype)
+            )
+
+            if num_prefix_tokens > 0:
+                vision_embedding = vision_embedding[:, num_prefix_tokens:]
+            res.append(self.resampler(vision_embedding, tgt_size))
+
+        return torch.vstack(res)
+
+
+class MiniCPMV2_5(MiniCPMVBaseModel, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        assert self.version == (2, 5)
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        return LlamaForCausalLM(vllm_config=vllm_config, prefix=prefix)
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> nn.Module:
+        model = Idefics2VisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            use_data_parallel=self.use_data_parallel,
+        )
+        if self.config.drop_vision_last_layer:
+            model.encoder.layers = model.encoder.layers[:-1]
+        return model
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        with set_default_torch_dtype(torch.float16):
+            resampler = Resampler2_5(
+                num_queries=self.config.query_num,
+                embed_dim=embed_dim,
+                num_heads=embed_dim // 128,
+                kv_dim=vision_dim,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        return resampler.to(
+            device=current_platform.device_type, dtype=torch.get_default_dtype()
+        )
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = data["pixel_values"]
+        tgt_sizes = data["tgt_sizes"]
+
+        B = len(pixel_values)
+        P = pixel_values[0].shape[-2]
+        L = max(item.shape[-1] for item in pixel_values)
+        device = pixel_values[0].device
+        dtype = pixel_values[0].dtype
+
+        all_pixel_values = torch.zeros((B, 3, P, L), dtype=dtype, device=device)
+        for i, pixel_values_item in enumerate(pixel_values):
+            L_item = pixel_values_item.shape[-1]
+            all_pixel_values[i, ..., :L_item] = pixel_values_item
+
+        num_patches = tgt_sizes.prod(-1)
+        max_patches = num_patches.max().item()
+        assert isinstance(max_patches, int)
+
+        patch_attn_mask = torch.zeros((B, max_patches), dtype=torch.bool, device=device)
+        for i, num_patches_item in enumerate(num_patches):
+            patch_attn_mask[i, :num_patches_item] = True
+
+        vision_embedding = self.vpm(
+            all_pixel_values,
+            patch_attention_mask=patch_attn_mask.unsqueeze(1),
+            tgt_sizes=None,
+        )
+
+        return self.resampler(vision_embedding, tgt_sizes)
+
+
+class MiniCPMV2_6(MiniCPMVBaseModel, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        assert self.version == (2, 6)
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        return Qwen2ForCausalLM(vllm_config=vllm_config, prefix=prefix)
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        model = Idefics2VisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            use_data_parallel=self.use_data_parallel,
+        )
+        if self.config.drop_vision_last_layer:
+            model.encoder.layers = model.encoder.layers[:-1]
+        return model
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        with set_default_torch_dtype(torch.float16):
+            # The resampler in 2.6 remains consistent with the one in 2.5.
+            resampler = Resampler2_5(
+                num_queries=self.config.query_num,
+                embed_dim=embed_dim,
+                num_heads=embed_dim // 128,
+                kv_dim=vision_dim,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        return resampler.to(
+            device=current_platform.device_type, dtype=torch.get_default_dtype()
+        )
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = data["pixel_values"]
+        tgt_sizes = data["tgt_sizes"]
+
+        B = len(pixel_values)
+        P = pixel_values[0].shape[-2]
+        L = max(item.shape[-1] for item in pixel_values)
+        device = pixel_values[0].device
+        dtype = pixel_values[0].dtype
+
+        all_pixel_values = torch.zeros((B, 3, P, L), dtype=dtype, device=device)
+        for i, pixel_values_item in enumerate(pixel_values):
+            L_item = pixel_values_item.shape[-1]
+            all_pixel_values[i, ..., :L_item] = pixel_values_item
+
+        num_patches = tgt_sizes.prod(-1)
+        max_patches = num_patches.max().item()
+        assert isinstance(max_patches, int)
+
+        patch_attn_mask = torch.zeros((B, max_patches), dtype=torch.bool, device=device)
+        for i, num_patches_item in enumerate(num_patches):
+            patch_attn_mask[i, :num_patches_item] = True
+
+        vision_embedding = self.vpm(
+            all_pixel_values,
+            patch_attention_mask=patch_attn_mask.unsqueeze(1),
+            tgt_sizes=tgt_sizes,
+        )
+
+        return self.resampler(vision_embedding, tgt_sizes)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["apm.", "audio", "tts"])
+        return loader.load_weights(weights)
+
+
+class MiniCPMV4_0(MiniCPMVBaseModel, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        assert self.version == (4, 0)
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        return LlamaForCausalLM(vllm_config=vllm_config, prefix=prefix)
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        model = Idefics2VisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            use_data_parallel=self.use_data_parallel,
+        )
+        if self.config.drop_vision_last_layer:
+            model.encoder.layers = model.encoder.layers[:-1]
+        return model
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        with set_default_torch_dtype(torch.float16):
+            # The resampler in 4.0 remains consistent with the one in 2.5/2.6.
+            resampler = Resampler2_5(
+                num_queries=self.config.query_num,
+                embed_dim=embed_dim,
+                num_heads=embed_dim // 128,
+                kv_dim=vision_dim,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        return resampler.to(
+            device=current_platform.device_type, dtype=torch.get_default_dtype()
+        )
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = data["pixel_values"]
+        tgt_sizes = data["tgt_sizes"]
+
+        B = len(pixel_values)
+        P = pixel_values[0].shape[-2]
+        L = max(item.shape[-1] for item in pixel_values)
+        device = pixel_values[0].device
+        dtype = pixel_values[0].dtype
+
+        all_pixel_values = torch.zeros((B, 3, P, L), dtype=dtype, device=device)
+        for i, pixel_values_item in enumerate(pixel_values):
+            L_item = pixel_values_item.shape[-1]
+            all_pixel_values[i, ..., :L_item] = pixel_values_item
+
+        num_patches = tgt_sizes.prod(-1)
+        max_patches = num_patches.max().item()
+        assert isinstance(max_patches, int)
+
+        patch_attn_mask = torch.zeros((B, max_patches), dtype=torch.bool, device=device)
+        for i, num_patches_item in enumerate(num_patches):
+            patch_attn_mask[i, :num_patches_item] = True
+
+        vision_embedding = self.vpm(
+            all_pixel_values,
+            patch_attention_mask=patch_attn_mask.unsqueeze(1),
+            tgt_sizes=tgt_sizes,
+        )
+
+        return self.resampler(vision_embedding, tgt_sizes)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["apm.", "audio", "tts"])
+        return loader.load_weights(weights)
+
+
+class MiniCPMV4_5(MiniCPMVBaseModel, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        assert self.version == (4, 5)
+
+    def init_llm(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        return Qwen3ForCausalLM(vllm_config=vllm_config, prefix=prefix)
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        model = Idefics2VisionTransformer(
+            config.vision_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            use_data_parallel=self.use_data_parallel,
+        )
+        if self.config.drop_vision_last_layer:
+            model.encoder.layers = model.encoder.layers[:-1]
+        return model
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        with set_default_torch_dtype(torch.float16):
+            # The resampler in 4.0 remains consistent with the one in 2.5/2.6.
+            resampler = Resampler4_5(
+                num_queries=self.config.query_num,
+                embed_dim=embed_dim,
+                num_heads=embed_dim // 128,
+                kv_dim=vision_dim,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        return resampler.to(
+            device=current_platform.device_type, dtype=torch.get_default_dtype()
+        )
+
+    def get_vision_hidden_states(self, data: MiniCPMVImagePixelInputs) -> torch.Tensor:
+        pixel_values = data["pixel_values"]
+        tgt_sizes = data["tgt_sizes"]
+        temporal_ids = data.get("temporal_ids", None)
+
+        B = len(pixel_values)
+        P = pixel_values[0].shape[-2]
+        L = max(item.shape[-1] for item in pixel_values)
+        device = pixel_values[0].device
+        dtype = pixel_values[0].dtype
+
+        all_pixel_values = torch.zeros((B, 3, P, L), dtype=dtype, device=device)
+        all_temporal_ids = (
+            None if temporal_ids is None else flatten_2d_lists(temporal_ids)
+        )
+        for i, pixel_values_item in enumerate(pixel_values):
+            L_item = pixel_values_item.shape[-1]
+            all_pixel_values[i, ..., :L_item] = pixel_values_item
+
+        num_patches = tgt_sizes.prod(-1)
+        max_patches = num_patches.max().item()
+        assert isinstance(max_patches, int)
+
+        patch_attn_mask = torch.zeros((B, max_patches), dtype=torch.bool, device=device)
+        for i, num_patches_item in enumerate(num_patches):
+            patch_attn_mask[i, :num_patches_item] = True
+
+        vision_embedding = self.vpm(
+            all_pixel_values,
+            patch_attention_mask=patch_attn_mask.unsqueeze(1),
+            tgt_sizes=tgt_sizes,
+        )
+
+        return self.resampler(vision_embedding, tgt_sizes, all_temporal_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["apm.", "audio", "tts"])
+        return loader.load_weights(weights)
+
+
+_SUPPORT_VERSION = {
+    (2, 0): MiniCPMV2_0,
+    (2, 5): MiniCPMV2_5,
+    (2, 6): MiniCPMV2_6,
+    (4, 0): MiniCPMV4_0,
+    (4, 5): MiniCPMV4_5,
+}
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MiniCPMVMultiModalProcessor,
+    info=MiniCPMVProcessingInfo,
+    dummy_inputs=MiniCPMVDummyInputsBuilder,
+)
+class MiniCPMV(MiniCPMVBaseModel, SupportsMultiModal, SupportsLoRA):
+    """
+    Different versions of MiniCPMV use different visual encoders and LLMs,
+    which is not conducive to the current integration logic of LoRA and
+    bitsandbytes in vLLM. Therefore, it is necessary to separate them.
+    """
+
+    def __new__(cls, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        if not hasattr(config, "version"):
+            if config.hidden_size == 2304 and config.query_num == 64:
+                version = (2, 0)
+            else:
+                version = (2, 5)
+        else:
+            version = str(config.version).split(".")
+            version = tuple([int(x) for x in version])
+        # Dispatch class based on version
+        instance_cls = _SUPPORT_VERSION.get(version)
+        if instance_cls is None:
+            supported_versions = ", ".join(
+                [f"{v[0]}.{v[1]}" for v in sorted(_SUPPORT_VERSION.keys())]
+            )
+            raise ValueError(
+                f"Currently, MiniCPMV only supports versions "
+                f"{supported_versions}. Got version: {version}"
+            )
+
+        # quant_config references base class members,
+        # so update values before init is called
+        cls.packed_modules_mapping.update(instance_cls.packed_modules_mapping)
+        cls.embedding_modules.update(instance_cls.embedding_modules)
+        cls.embedding_padding_modules += instance_cls.embedding_padding_modules
+        return instance_cls(vllm_config=vllm_config, prefix=prefix)
diff --git a/model_executor/models/minimax_m2.py b/model_executor/models/minimax_m2.py
new file mode 100644
index 0000000..66b5a9c
--- /dev/null
+++ b/model_executor/models/minimax_m2.py
@@ -0,0 +1,552 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The MiniMax AI team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiniMaxM2 model."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.linear_attn import MiniMaxText01RMSNormTP
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class MiniMaxM2MoE(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        if self.tp_size > config.num_local_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_local_experts}."
+            )
+        self.use_routing_bias = getattr(config, "use_routing_bias", False)
+        if self.use_routing_bias:
+            self.e_score_correction_bias = nn.Parameter(
+                torch.empty(config.num_local_experts, dtype=torch.get_default_dtype())
+            )
+            self.e_score_correction_bias.weight_loader = (
+                MiniMaxM2MoE.ebias_weight_loader
+            )
+        else:
+            self.e_score_correction_bias = None
+
+        self.experts = FusedMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            scoring_func=config.scoring_func,
+            use_grouped_topk=True,
+            num_expert_group=1,
+            topk_group=1,
+            e_score_correction_bias=self.e_score_correction_bias,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            reduce_results=False,
+            renormalize=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_local_experts,
+            bias=False,
+            params_dtype=torch.float32,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+    @staticmethod
+    def ebias_weight_loader(param: nn.Parameter, loaded_weight: torch.Tensor) -> None:
+        assert param.size() == loaded_weight.size()
+        param.data.copy_(loaded_weight)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states.to(torch.float32))
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits.to(hidden_states.dtype)
+        )
+        final_hidden_states = final_hidden_states
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class MiniMaxM2Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rotary_dim: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        attn_window_size: int | None = None,
+        max_position_embeddings: int = 8192,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-06,
+        qkv_bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=rotary_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            per_layer_sliding_window=attn_window_size,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        self.q_norm = MiniMaxText01RMSNormTP(
+            self.head_dim * self.total_num_heads, eps=rms_norm_eps
+        )
+        self.k_norm = MiniMaxText01RMSNormTP(
+            self.head_dim * self.total_num_kv_heads, eps=rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class MiniMaxM2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        model_config: ModelConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        if hasattr(config, "max_model_len") and isinstance(config.max_model_len, int):
+            max_position_embeddings = max(
+                config.max_position_embeddings, config.max_model_len
+            )
+        # DecoderLayers are created with `make_layers` which passes the prefix
+        # with the layer's index.
+        layer_idx = int(prefix.split(sep=".")[-1])
+
+        self.layer_idx = layer_idx
+        self.self_attn = MiniMaxM2Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rotary_dim=config.rotary_dim,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=getattr(config, "attention_bias", False),
+            head_dim=getattr(config, "head_dim", None),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.block_sparse_moe = MiniMaxM2MoE(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+
+        hidden_states = self.block_sparse_moe(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class MiniMaxM2Model(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=None,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: MiniMaxM2DecoderLayer(
+                config,
+                prefix,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in self.layers[self.start_layer : self.end_layer]:
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="w1",
+            ckpt_down_proj_name="w2",
+            ckpt_up_proj_name="w3",
+            num_experts=self.config.num_local_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = self.get_expert_mapping()
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is not None:
+                continue  # skip spec decode layers for main model
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MiniMaxM2ForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        if hasattr(vllm_config.model_config, "max_model_len"):
+            self.config.max_model_len = vllm_config.model_config.max_model_len
+        self.model = MiniMaxM2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size, config.hidden_size, quant_config=None
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+def get_spec_layer_idx_from_weight_name(
+    config: PretrainedConfig, weight_name: str
+) -> int | None:
+    if hasattr(config, "num_mtp_modules") and (config.num_mtp_modules > 0):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_mtp_modules):
+            if weight_name.startswith(f"model.layers.{layer_idx + i}."):
+                return layer_idx + i
+    return None
diff --git a/model_executor/models/minimax_text_01.py b/model_executor/models/minimax_text_01.py
new file mode 100644
index 0000000..bf1ecc8
--- /dev/null
+++ b/model_executor/models/minimax_text_01.py
@@ -0,0 +1,1012 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only MiniMaxText01 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    pass
+
+import regex as re
+import torch
+from torch import nn
+from transformers import MiniMaxConfig
+
+from vllm.attention import Attention, AttentionMetadata
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed.parallel_state import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import get_forward_context
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.linear_attn import MiniMaxText01LinearAttention
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.utils import maybe_prefix
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import HasInnerState, IsHybrid
+from .utils import PPMissingLayer, is_pp_missing_parameter, make_layers
+
+
+def replace_weight_name(
+    name: str, key: str = None, to: str = None, count: int = None, prefix: str = None
+) -> str:
+    name = name.replace(key, to) if count is None else name.replace(key, to, count)
+    return name
+
+
+def weight_loader_with_alias(alias: str):
+    def wrapper(func: callable):
+        def inner_func(
+            param: torch.Tensor,
+            loaded_weight: torch.Tensor,
+            *args,
+            prefix: str = None,
+            **kwargs,
+        ):
+            value = func(param, loaded_weight, *args, **kwargs)
+            return value
+
+        return inner_func
+
+    return wrapper
+
+
+class MiniMaxText01MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        quant_config: QuantizationConfig | None = None,
+        layer_idx: int = None,
+        prefix: str = "mlp",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = SiluAndMul()
+        return
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class MiniMaxText01MoE(nn.Module):
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        layer_idx: int = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "moe",
+    ) -> None:
+        super().__init__()
+
+        self.layer_idx = layer_idx
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_total_experts = num_experts
+        self.top_k = top_k
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size // self.tp_size
+        self.quant_config = quant_config
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+        self.params_dtype = params_dtype
+
+        self.gate = ReplicatedLinear(
+            self.hidden_size,
+            self.num_total_experts,
+            bias=False,
+            params_dtype=torch.float32,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        self.gate.weight.weight_loader = MiniMaxText01MoE.gate_weight_loader
+
+        self.experts = FusedMoE(
+            num_experts=self.num_total_experts,
+            top_k=self.top_k,
+            hidden_size=self.hidden_size,
+            intermediate_size=self.intermediate_size * self.tp_size,
+            params_dtype=self.params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=self.quant_config,
+            tp_size=self.tp_size,
+            prefix=f"{prefix}.experts",
+        )
+        return
+
+    @staticmethod
+    def gate_weight_loader(param: nn.Parameter, loaded_weight: torch.Tensor) -> None:
+        assert param.size() == loaded_weight.size()
+        param.data.copy_(loaded_weight.to(torch.float32))
+        return
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        router_logits_fp32, _ = self.gate(hidden_states.to(torch.float32))
+        final_hidden_states = self.experts(
+            hidden_states, router_logits_fp32.to(hidden_states.dtype)
+        )
+        final_hidden = final_hidden_states.view(num_tokens, hidden_size)
+        return final_hidden
+
+
+class MiniMaxText01Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        head_dim: int,
+        num_kv_heads: int,
+        rotary_dim: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        sliding_window: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+        layer_idx: int = None,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "mha",
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.sliding_window = sliding_window
+        self.prefix = prefix
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.rotary_emb = get_rope(
+            head_size=self.head_dim,
+            rotary_dim=rotary_dim,
+            max_position=max_position,
+            base=int(rope_theta),
+            is_neox_style=True,
+            dtype=torch.float32,
+        )
+        return
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        positions: torch.Tensor,
+        **kwargs,
+    ) -> None:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output[:], _ = self.o_proj(attn_output)
+
+
+class MiniMaxText01DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: MiniMaxConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        expert_num: int = 1,
+        layer_id: int = None,
+        linear_layer_id: int | None = None,
+        prefix: str = "decoder",
+    ) -> None:
+        self._ilayer = layer_id
+        self._irank = get_tensor_model_parallel_rank()
+        self.prefix = prefix
+        super().__init__()
+
+        self.hidden_size = config.hidden_size
+        self.expert_num = expert_num
+
+        rope_theta = getattr(config, "rope_theta", 10000)
+
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = config.hidden_size // config.num_attention_heads
+        if hasattr(config, "max_model_len") and isinstance(config.max_model_len, int):
+            max_position_embeddings = min(
+                config.max_position_embeddings, config.max_model_len
+            )
+        if config.attention_type == 0:
+            use_headxdim = True
+            hidden_inner = (
+                head_dim * config.num_attention_heads
+                if use_headxdim
+                else config.hidden_size
+            )
+            self.self_attn = MiniMaxText01LinearAttention(
+                hidden_size=self.hidden_size,
+                hidden_inner_size=hidden_inner,
+                num_heads=config.num_attention_heads,
+                head_dim=head_dim,
+                max_position=max_position_embeddings,
+                block_size=config.block if hasattr(config, "block") else 256,
+                num_hidden_layer=config.num_hidden_layers,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                layer_idx=self._ilayer,
+                linear_layer_idx=linear_layer_id,
+                prefix=prefix,
+            )
+        elif config.attention_type == 1:
+            self.self_attn = MiniMaxText01Attention(
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                head_dim=head_dim,
+                rotary_dim=config.rotary_dim
+                if hasattr(config, "rotary_dim")
+                else head_dim,
+                num_kv_heads=config.num_key_value_heads,
+                max_position=max_position_embeddings,
+                rope_theta=rope_theta,
+                sliding_window=config.sliding_window,
+                quant_config=quant_config,
+                layer_idx=self._ilayer,
+                cache_config=cache_config,
+                prefix=prefix,
+            )
+        else:
+            raise ValueError(
+                f"Unsupported attention type: {self.config.attention_type}"
+            )
+
+        if expert_num == 1:
+            self.mlp = MiniMaxText01MLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size,
+                quant_config=quant_config,
+                layer_idx=self._ilayer,
+                prefix=prefix,
+            )
+        else:
+            self.block_sparse_moe = MiniMaxText01MoE(
+                num_experts=expert_num,
+                top_k=config.num_experts_per_tok,
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                layer_idx=self._ilayer,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        if config.attention_type == 0:
+            self.layernorm_attention_alpha = getattr(
+                config,
+                "layernorm_linear_attention_alpha",
+                getattr(config, "linear_attn_alpha_factor", 1),
+            )
+            self.layernorm_attention_beta = getattr(
+                config,
+                "layernorm_linear_attention_beta",
+                getattr(config, "linear_attn_beta_factor", 1),
+            )
+        else:
+            self.layernorm_attention_alpha = getattr(
+                config,
+                "layernorm_full_attention_alpha",
+                getattr(config, "full_attn_alpha_factor", 1),
+            )
+            self.layernorm_attention_beta = getattr(
+                config,
+                "layernorm_full_attention_beta",
+                getattr(config, "full_attn_beta_factor", 1),
+            )
+        self.layernorm_mlp_alpha = getattr(
+            config, "layernorm_mlp_alpha", getattr(config, "mlp_alpha_factor", 1)
+        )
+        self.layernorm_mlp_beta = getattr(
+            config, "layernorm_mlp_beta", getattr(config, "mlp_beta_factor", 1)
+        )
+        self.postnorm = getattr(config, "postnorm", False)
+        self.shared_moe = False
+
+        shared_intermediate = getattr(config, "shared_intermediate_size", 0)
+        if isinstance(shared_intermediate, list):
+            shared_intermediate = (
+                shared_intermediate[layer_id]
+                if layer_id < len(shared_intermediate)
+                else 0
+            )
+        if shared_intermediate > 0:
+            self.shared_moe = True
+            self.shared_mlp = MiniMaxText01MLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=shared_intermediate,
+                quant_config=quant_config,
+                layer_idx=self._ilayer,
+                prefix=prefix,
+            )
+            self.coefficient = ReplicatedLinear(
+                self.hidden_size,
+                1,
+                bias=False,
+                quant_config=quant_config,
+                params_dtype=torch.float32,
+            )
+            self.coefficient.weight.weight_loader = self.shared_moe_coefficient_loader
+            self.shared_moe_mode = getattr(config, "shared_moe_mode", "softmax")
+        return
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+        attn_metadata: AttentionMetadata,
+        residual: torch.Tensor | None,
+        is_warmup: bool = False,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        layernorm_input = hidden_states
+        layernorm_output = self.input_layernorm(layernorm_input)
+        residual = layernorm_output if self.postnorm else layernorm_input
+        self_attention_output = torch.empty_like(layernorm_output)
+        self.self_attn(
+            hidden_states=layernorm_output,
+            output=self_attention_output,
+            positions=positions,
+        )
+
+        residual = residual * self.layernorm_attention_alpha
+        self_attention_output = self_attention_output * self.layernorm_attention_beta
+
+        layernorm_input = residual + self_attention_output
+        layernorm_output = self.post_attention_layernorm(layernorm_input)
+        residual = layernorm_output if self.postnorm else layernorm_input
+
+        if self.expert_num == 1:
+            hidden_states = self.mlp(layernorm_output)
+        else:
+            moe_layernorm_output = layernorm_output.clone()
+            moe_hidden_states = self.block_sparse_moe(moe_layernorm_output)
+            if self.shared_moe:
+                before_moe_dtype = layernorm_output.dtype
+                moe_hidden_fp32 = moe_hidden_states.to(torch.float32)
+                output_mlp = self.shared_mlp(layernorm_output).to(torch.float32)
+
+                coef, _ = self.coefficient(layernorm_output.to(torch.float32))
+
+                if self.shared_moe_mode == "softmax":
+                    coef = torch.nn.functional.softmax(coef, dim=-1)
+                    hidden_states = moe_hidden_fp32 * (1 - coef) + output_mlp * coef
+                elif self.shared_moe_mode == "sigmoid":
+                    coef = torch.nn.functional.sigmoid(coef)
+                    hidden_states = moe_hidden_fp32 * (1 - coef) + output_mlp * coef
+
+                hidden_states = hidden_states.to(before_moe_dtype)
+            else:
+                hidden_states = moe_hidden_states
+
+        residual = residual * self.layernorm_mlp_alpha
+        hidden_states = hidden_states * self.layernorm_mlp_beta
+
+        hidden_states = residual + hidden_states
+
+        return hidden_states, None
+
+    @staticmethod
+    def shared_moe_coefficient_loader(
+        param: torch.Tensor, loaded_weight: torch.Tensor
+    ) -> None:
+        assert param.size() == loaded_weight.size()
+
+        param.data.copy_(loaded_weight.to(torch.float32))
+        return
+
+
+@support_torch_compile
+class MiniMaxText01Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: MiniMaxConfig = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        quant_config = vllm_config.quant_config
+        cache_config = vllm_config.cache_config
+        scheduler_config = vllm_config.scheduler_config
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.decoder_attention_types = getattr(
+            config, "attn_type_list", False
+        ) or getattr(config, "decoder_attention_types", False)
+        # The HF format uses "layer_types" instead of "attn_type_list"
+        # where "linear_attention" is 0 and "full_attention" is 1
+        if not self.decoder_attention_types and hasattr(config, "layer_types"):
+            self.decoder_attention_types = []
+            for layer_type in config.layer_types:
+                if layer_type == "linear_attention":
+                    self.decoder_attention_types.append(0)
+                elif layer_type == "full_attention":
+                    self.decoder_attention_types.append(1)
+                else:
+                    raise ValueError(f"Unsupported layer type: {layer_type}")
+        # Default to full attention
+        if not self.decoder_attention_types:
+            self.decoder_attention_types = [1] * config.num_hidden_layers
+        self.num_layers = config.num_hidden_layers
+
+        self._layer_barrier = False
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                org_num_embeddings=self.vocab_size,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        def layer_fn(prefix):
+            layer_idx = int(prefix.split(".")[-1])
+            layer_config = config
+            layer_config.attention_type = self.decoder_attention_types[layer_idx]
+            layer_config.layer_idx = layer_idx
+
+            decoder_kwargs = {
+                "quant_config": quant_config,
+                "layer_id": layer_idx,
+                "model_config": model_config,
+                "cache_config": cache_config,
+            }
+
+            if layer_config.attention_type == 0:
+                decoder_kwargs["linear_layer_id"] = sum(
+                    1 for i in range(layer_idx) if self.decoder_attention_types[i] == 0
+                )
+            else:
+                decoder_kwargs["linear_layer_id"] = None
+
+            if hasattr(config, "num_local_experts") and isinstance(
+                config.num_local_experts, list
+            ):
+                decoder_kwargs["expert_num"] = config.num_local_experts[layer_idx]
+            elif hasattr(config, "num_local_experts") and isinstance(
+                config.num_local_experts, int
+            ):
+                decoder_kwargs["expert_num"] = config.num_local_experts
+            else:
+                decoder_kwargs["expert_num"] = 1
+
+            return MiniMaxText01DecoderLayer(
+                layer_config, **decoder_kwargs, prefix=prefix
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, layer_fn, prefix=f"{prefix}.layers"
+        )
+
+        linear_layer_nums = sum(
+            1
+            for i in range(config.num_hidden_layers)
+            if self.decoder_attention_types[i] == 0
+        )
+        max_slots_number = scheduler_config.max_num_seqs
+        self.cache_shape = (
+            linear_layer_nums,
+            max_slots_number,
+            config.num_attention_heads // get_tensor_model_parallel_world_size(),
+            config.head_dim,
+            config.head_dim,
+        )
+        _dummy = torch.zeros(1)
+        self._dtype = _dummy.dtype
+        del _dummy
+
+        norm_kwargs = {}
+        if hasattr(config, "rms_norm_eps"):
+            norm_kwargs["eps"] = config.rms_norm_eps
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, **norm_kwargs)
+        else:
+            self.norm = PPMissingLayer()
+        self.embed_scale = 1.0
+        return
+
+    def _clear_prefill_cache(
+        self, attn_metadata, minimax_cache_tensors: torch.Tensor, **kwargs
+    ):
+        seq_to_slot_maps = {}
+        seq_id_map = sum(list(kwargs["request_ids_to_seq_ids"].values()), [])
+        for _, seq_to_slot_map in self.minimax_cache.cache_indices_mapping.items():
+            seq_to_slot_maps.update(seq_to_slot_map)
+
+        slots_to_clear = []
+        for _prefill_id in range(getattr(attn_metadata, "num_prefills", 0)):
+            if _prefill_id >= len(seq_id_map):
+                break
+            seq_id = seq_id_map[_prefill_id]
+            if (
+                attn_metadata.context_lens_tensor[_prefill_id] == 0
+                and seq_id in seq_to_slot_maps
+            ):
+                slots_to_clear.append(seq_to_slot_maps[seq_id])
+
+        if slots_to_clear:
+            slots_tensor = torch.tensor(
+                slots_to_clear, device=minimax_cache_tensors.device, dtype=torch.long
+            )
+            minimax_cache_tensors[:, slots_tensor, ...] = 0
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        forward_context = get_forward_context()
+        attn_metadata = forward_context.attn_metadata
+
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                hidden_states = self.embed_scale * self.embed_tokens(input_ids)
+            else:
+                hidden_states = inputs_embeds
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                hidden_states=hidden_states,
+                positions=positions,
+                attn_metadata=attn_metadata,
+                residual=residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        if residual is not None:
+            hidden_states, _ = self.norm(hidden_states, residual)
+        else:
+            hidden_states = self.norm(hidden_states)
+
+        return hidden_states
+
+
+class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+
+        self.config = config
+
+        if not hasattr(config, "sliding_window"):
+            config.sliding_window = None
+
+        self.CONCAT_FFN = True
+
+        if hasattr(vllm_config.model_config, "max_model_len"):
+            self.config.max_model_len = vllm_config.model_config.max_model_len
+        self.model = MiniMaxText01Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                self.config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, self.config.vocab_size
+            )
+
+        else:
+            self.lm_head = PPMissingLayer()
+        self.lm_head.float()
+        flash_layer_count = sum(
+            1 for attn_type in self.model.decoder_attention_types if attn_type == 1
+        )
+        self.kv_cache = [torch.tensor([]) for _ in range(flash_layer_count)]
+        return
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.model.minimax_cache.copy_inputs_before_cuda_graphs(
+            input_buffers, **kwargs
+        )
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.model.minimax_cache.get_seqlen_agnostic_capture_inputs(batch_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states.float())
+
+        return logits
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+                "residual": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        def which_layer(name: str) -> int:
+            if "layers" in name:
+                after_layer = name.split("layers")[-1]
+                return int(after_layer.split(".")[1])
+            return None
+
+        def is_linear_attn_layer(layer_idx: int) -> bool:
+            if layer_idx is None or layer_idx >= len(
+                self.model.decoder_attention_types
+            ):
+                return False
+            return self.model.decoder_attention_types[layer_idx] == 0
+
+        def is_moe_weight(name: str) -> bool:
+            return "block_sparse_moe" in name and not name.endswith(".bias")
+
+        def get_expert_id(param_name):
+            pattern = r"model\.layers\.\d+\.block_sparse_moe\.experts\.(\d+)\."
+            match = re.search(pattern, param_name)
+            if match:
+                return match.group(1)
+            return None
+
+        def load_sparse_moe_weight(
+            name: str, loaded_weight: torch.Tensor, self
+        ) -> None:
+            if isinstance(self.config.num_local_experts, list):
+                expert_params_mapping = [
+                    (
+                        "w13_weight" if weight_name in ["w1", "w3"] else "w2_weight",
+                        f"experts.{expert_id}.{weight_name}.weight",
+                        expert_id,
+                    )
+                    for expert_id in range(max(self.config.num_local_experts))
+                    for weight_name in ["w1", "w2", "w3"]
+                ]
+            else:
+                expert_params_mapping = [
+                    (
+                        "w13_scale" if weight_name in ["w1", "w3"] else "w2_scale",
+                        f"{expert_id}.{weight_name}.weight_scale",
+                        expert_id,
+                        weight_name,
+                    )
+                    for expert_id in range(self.config.num_local_experts)
+                    for weight_name in ["w1", "w2", "w3"]
+                ] + [
+                    (
+                        "w13_weight" if weight_name in ["w1", "w3"] else "w2_weight",
+                        f"{expert_id}.{weight_name}.weight",
+                        expert_id,
+                        weight_name,
+                    )
+                    for expert_id in range(self.config.num_local_experts)
+                    for weight_name in ["w1", "w2", "w3"]
+                ]
+            for param_name, weight_name, expert_id, shard_id in expert_params_mapping:
+                name_expert_id = get_expert_id(name)
+                if name_expert_id is not None and int(name_expert_id) != int(expert_id):
+                    continue
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    return
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader = weight_loader_with_alias(name)(weight_loader)
+                weight_loader(
+                    param,
+                    loaded_weight,
+                    weight_name,
+                    expert_id=expert_id,
+                    shard_id=shard_id,
+                )
+                loaded_params.add(name)
+                break
+            else:
+                if is_pp_missing_parameter(name, self):
+                    return
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader = weight_loader_with_alias(name)(weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+            return
+
+        def is_shared_mlp_weight(name: str) -> bool:
+            return "shared_mlp" in name and not name.endswith(".bias")
+
+        def load_shared_mlp_weight(
+            name: str, loaded_weight: torch.Tensor, self
+        ) -> None:
+            if not self.CONCAT_FFN:
+                if "gate_proj" in name:
+                    name = name.replace("gate_proj", "w1", 1)
+                elif "up_proj" in name:
+                    name = name.replace("up_proj", "w3", 1)
+                elif "down_proj" in name:
+                    name = name.replace("down_proj", "w2", 1)
+            else:
+                if "gate_proj" in name:
+                    name = name.replace("gate_proj", "gate_up_proj", 1)
+                    loaded_shard_id = 0
+                elif "up_proj" in name:
+                    name = name.replace("up_proj", "gate_up_proj", 1)
+                    loaded_shard_id = 1
+            if is_pp_missing_parameter(name, self):
+                return
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader = weight_loader_with_alias(name)(weight_loader)
+            if not self.CONCAT_FFN:
+                weight_loader(param, loaded_weight)
+            else:
+                if "gate_up_proj" in name:
+                    weight_loader(param, loaded_weight, loaded_shard_id)
+                elif "down_proj" in name:
+                    weight_loader(param, loaded_weight)
+                else:
+                    raise AssertionError("MLP weight not in [gate_up_proj, down_proj]")
+            loaded_params.add(name)
+            return
+
+        def is_mha_weight(name: str) -> bool:
+            return "self_attn" in name and not name.endswith(".bias")
+
+        def load_linear_attn_weight(
+            name: str, loaded_weight: torch.Tensor, self
+        ) -> None:
+            if is_pp_missing_parameter(name, self):
+                return
+            param = params_dict[name]
+
+            weight_loader = getattr(
+                param, "weight_loader", MiniMaxText01LinearAttention.weight_direct_load
+            )
+            weight_loader = weight_loader_with_alias(name)(weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+            return
+
+        def load_flash_attn_weight(
+            name: str, loaded_weight: torch.Tensor, self
+        ) -> None:
+            flash_mha_params_mapping = [
+                ("qkv_proj", "q_proj", "q"),
+                ("qkv_proj", "k_proj", "k"),
+                ("qkv_proj", "v_proj", "v"),
+                ("gate_up_proj", "gate_proj", 0),
+                ("gate_up_proj", "up_proj", 1),
+            ]
+            for param_name, weight_name, shard_id in flash_mha_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    return
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader = weight_loader_with_alias(name)(weight_loader)
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
+                break
+            else:
+                if is_pp_missing_parameter(name, self):
+                    return
+                param = params_dict[name]
+
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader = weight_loader_with_alias(name)(weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+            return
+
+        def is_layer_norm_weight(name: str) -> bool:
+            return "norm" in name and not name.endswith(".bias") and name in params_dict
+
+        def load_layer_norm_weight(
+            name: str, loaded_weight: torch.Tensor, self
+        ) -> None:
+            if is_pp_missing_parameter(name, self):
+                return
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader = weight_loader_with_alias(name)(weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+            return
+
+        def load_basic_weight(name: str, loaded_weight: torch.Tensor, self) -> None:
+            if is_pp_missing_parameter(name, self):
+                return
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader = weight_loader_with_alias(name)(weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+            return
+
+        for name, loaded_weight in weights:
+            weight_at_layer = which_layer(name)
+            if weight_at_layer and weight_at_layer >= len(
+                self.model.decoder_attention_types
+            ):
+                continue
+
+            if is_layer_norm_weight(name):
+                load_layer_norm_weight(name, loaded_weight, self)
+                continue
+            if is_mha_weight(name):
+                if is_linear_attn_layer(weight_at_layer):
+                    load_linear_attn_weight(name, loaded_weight, self)
+                else:
+                    load_flash_attn_weight(name, loaded_weight, self)
+                continue
+            if is_moe_weight(name):
+                load_sparse_moe_weight(name, loaded_weight, self)
+                continue
+            if is_shared_mlp_weight(name):
+                load_shared_mlp_weight(name, loaded_weight, self)
+                continue
+
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            load_basic_weight(name, loaded_weight, self)
+        return loaded_params
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.linear_attention_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, ...], ...]:
+        """Calculate shape for MiniMaxText01LinearAttention cache.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - state_shape: Shape of the cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+
+        return MambaStateShapeCalculator.linear_attention_state_shape(
+            num_heads=hf_config.num_attention_heads,
+            tp_size=parallel_config.tensor_parallel_size,
+            head_dim=hf_config.head_dim,
+        )
diff --git a/model_executor/models/minimax_vl_01.py b/model_executor/models/minimax_vl_01.py
new file mode 100644
index 0000000..0939a72
--- /dev/null
+++ b/model_executor/models/minimax_vl_01.py
@@ -0,0 +1,396 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, PretrainedConfig
+from transformers.models.llava_next.modeling_llava_next import (
+    get_anyres_image_grid_shape,
+    unpad_image,
+)
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalFieldConfig
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .llava import (
+    BaseLlavaMultiModalProcessor,
+    LlavaDummyInputsBuilder,
+    init_vision_tower_for_llava,
+)
+from .llava_next import LlavaNextProcessingInfo
+from .pixtral import PixtralHFVisionModel
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+
+class MiniMaxVL01ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - np: Number of patches + 1
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+    Note that `num_patches` may be different per batch and image,
+    in which case the data is passed as a list instead of a batched tensor.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "np", 3, "h", "w", dynamic_dims={"np", "h", "w"}),
+    ]
+
+    image_sizes: Annotated[torch.Tensor | None, TensorShape("bn", 2)]
+    # This should be in `(height, width)` format.
+
+
+class MiniMaxVL01ImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]
+
+
+MiniMaxVL01ImageInputs: TypeAlias = (
+    MiniMaxVL01ImagePixelInputs | MiniMaxVL01ImageEmbeddingInputs
+)
+
+
+class MiniMaxVL01MultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        vision_hidden_size: int,
+        text_hidden_size: int,
+        projector_hidden_act: str,
+        multimodal_projector_bias: bool,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.linear_1 = ColumnParallelLinear(
+            vision_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = RowParallelLinear(
+            text_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class MiniMaxVL01DummyInputsBuilder(LlavaDummyInputsBuilder):
+    pass
+
+
+class MiniMaxVL01ProcessingInfo(LlavaNextProcessingInfo):
+    def get_hf_config(self):  # Need to override the config type
+        return self.ctx.get_hf_config(PretrainedConfig)
+
+    def get_hf_processor(self, **kwargs: object):
+        hf_processor = self.ctx.get_hf_processor(**kwargs)
+        image_processor = hf_processor.image_processor
+        image_processor.anyres_preprocess = image_processor.anyres_for_vllm_preprocess
+
+        return hf_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+
+class MiniMaxVL01MultiModalProcessor(
+    BaseLlavaMultiModalProcessor[MiniMaxVL01ProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        pixel_values = processed_outputs.get("pixel_values")
+        if pixel_values is not None:
+            # Avoid padding since we need the output for each image to be
+            # independent of other images for the cache to work correctly
+            image_sizes = processed_outputs["image_sizes"]
+            assert len(pixel_values) == len(image_sizes)
+
+            processed_outputs["pixel_values"] = [
+                p[:, :h, :w] for p, (h, w) in zip(pixel_values, image_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return {
+            "pixel_values": MultiModalFieldConfig.batched("image"),
+            "image_sizes": MultiModalFieldConfig.batched("image"),
+            "image_embeds": MultiModalFieldConfig.batched("image"),
+        }
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MiniMaxVL01MultiModalProcessor,
+    info=MiniMaxVL01ProcessingInfo,
+    dummy_inputs=MiniMaxVL01DummyInputsBuilder,
+)
+class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        self.vision_tower = init_vision_tower_for_llava(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.multi_modal_projector = MiniMaxVL01MultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            multimodal_projector_bias=True,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "multi_modal_projector"),
+        )
+        self.image_newline = nn.Parameter(torch.empty(config.text_config.hidden_size))
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.vision_feature_layer = config.vision_feature_layer
+        self.vocab_size = config.text_config.vocab_size
+        self.pad_token_id = -1
+        if self.config.pad_token_id is not None:
+            self.pad_token_id = self.config.pad_token_id
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel | PixtralHFVisionModel,
+        pixel_values: torch.Tensor | list[torch.Tensor],
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        feature_select_strategy = self.config.vision_feature_select_strategy
+        return tuple(
+            vision_tower(p, feature_select_strategy=feature_select_strategy)
+            for p in pixel_values
+        )
+
+    # adapted from https://huggingface.co/MiniMaxAI/MiniMax-VL-01/blob/main/modeling_minimax_vl_01.py#L616-L631
+    def pack_image_features(
+        self, image_features: list[torch.Tensor], image_sizes: torch.Tensor
+    ):
+        new_image_features = []
+        for image_idx, image_feature in enumerate(image_features):
+            if image_feature.shape[0] > 1:
+                base_image_feature = image_feature[0]
+                image_feature = image_feature[1:]
+                height = width = (
+                    self.config.vision_config.image_size
+                    // self.config.vision_config.patch_size
+                )
+                if height * width != base_image_feature.shape[0]:
+                    raise ValueError(
+                        "The number of patches is not consistent with the image size."
+                    )
+                num_patch_height, num_patch_width = get_anyres_image_grid_shape(
+                    image_sizes[image_idx],
+                    self.config.image_grid_pinpoints,
+                    self.config.vision_config.image_size,
+                )
+
+                image_feature = image_feature.view(
+                    num_patch_height, num_patch_width, height, width, -1
+                )
+                image_feature = image_feature.permute(4, 0, 2, 1, 3).contiguous()
+                image_feature = image_feature.flatten(1, 2).flatten(2, 3)
+                image_feature = unpad_image(image_feature, image_sizes[image_idx])
+
+                image_feature = torch.cat(
+                    (
+                        image_feature,
+                        self.image_newline[:, None, None]
+                        .expand(*image_feature.shape[:-1], 1)
+                        .to(image_feature.dtype),
+                    ),
+                    dim=-1,
+                )
+                image_feature = image_feature.flatten(1, 2).transpose(0, 1)
+                image_feature = torch.cat((base_image_feature, image_feature), dim=0)
+            else:
+                image_feature = image_feature[0]
+                image_feature = torch.cat(
+                    (image_feature, self.image_newline[None].to(image_feature)), dim=0
+                )
+            new_image_features.append(image_feature)
+        return new_image_features
+
+    def _process_image_pixels(
+        self,
+        inputs: MiniMaxVL01ImagePixelInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+        return self._image_pixels_to_features(self.vision_tower, pixel_values)
+
+    def _process_image_input(
+        self,
+        image_input: MiniMaxVL01ImageInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_tower is not None
+        image_features = self._process_image_pixels(image_input)
+
+        if isinstance(image_features, torch.Tensor):
+            return self.multi_modal_projector(image_features)
+
+        feature_sizes = [image_feature.shape[0] for image_feature in image_features]
+
+        image_embeds = self.multi_modal_projector(torch.cat(image_features))
+        image_embeds = torch.split(image_embeds, feature_sizes)
+        image_sizes = image_input.get("image_sizes")
+        return self.pack_image_features(image_embeds, image_sizes)
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> MiniMaxVL01ImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_sizes = kwargs.pop("image_sizes", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None and image_sizes is not None:
+            return MiniMaxVL01ImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_sizes=image_sizes,
+            )
+
+        if image_embeds is not None:
+            return MiniMaxVL01ImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+        elif inputs_embeds is None:
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=input_ids == self.config.image_token_index,
+            )
+            input_ids = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/mistral3.py b/model_executor/models/mistral3.py
new file mode 100644
index 0000000..1ddb470
--- /dev/null
+++ b/model_executor/models/mistral3.py
@@ -0,0 +1,637 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Final, Literal, Protocol, TypeVar
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    Mistral3Config,
+    PixtralVisionConfig,
+    PretrainedConfig,
+)
+from transformers.models.pixtral import PixtralProcessor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .pixtral import PixtralHFEncoderInfo, PixtralHFVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_vision_encoder_info
+
+
+class Mistral3ImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values_pixtral"] = "pixel_values_pixtral"
+
+    # Note that `height` or `width` may be different per batch and image,
+    # in which case the data is passed as a list instead of a batched tensor.
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", 3, "h", "w", dynamic_dims={"h", "w"}),
+    ]
+
+
+class Mistral3PatchMerger(nn.Module):
+    """
+    Learned merging of spatial_merge_size ** 2 patches
+    """
+
+    def __init__(
+        self, vision_hidden_size: int, spatial_merge_size: int, patch_size: int
+    ):
+        super().__init__()
+
+        self.vision_hidden_size = vision_hidden_size
+        self.spatial_merge_size = spatial_merge_size
+        self.patch_size = patch_size
+        self.merging_layer = nn.Linear(
+            vision_hidden_size * self.spatial_merge_size**2,
+            vision_hidden_size,
+            bias=False,
+        )
+
+    def forward(
+        self, image_features: torch.Tensor, image_sizes: torch.Tensor
+    ) -> torch.Tensor:
+        image_sizes = [
+            (image_size[0] // self.patch_size, image_size[1] // self.patch_size)
+            for image_size in image_sizes
+        ]
+
+        tokens_per_image = [h * w for h, w in image_sizes]
+        d = image_features.shape[-1]
+
+        permuted_tensor = []
+        for image_index, image_tokens in enumerate(
+            image_features.split(tokens_per_image)
+        ):
+            # Reshape image_tokens into a 2D grid
+            h, w = image_sizes[image_index]
+            image_grid = image_tokens.view(h, w, d).permute(2, 0, 1).unsqueeze(0)
+            grid = torch.nn.functional.unfold(
+                image_grid,
+                kernel_size=self.spatial_merge_size,
+                stride=self.spatial_merge_size,
+            )
+            grid = grid.view(d * self.spatial_merge_size**2, -1).t()
+            permuted_tensor.append(grid)
+
+        image_features = torch.cat(permuted_tensor, dim=0)
+        image_features = self.merging_layer(image_features)
+        return image_features
+
+
+class Mistral3MultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        vision_hidden_size: int,
+        text_hidden_size: int,
+        spatial_merge_size: int,
+        patch_size: int,
+        projector_hidden_act: str,
+        multimodal_projector_bias: bool,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.norm = RMSNorm(vision_hidden_size, eps=1e-5)
+        self.patch_merger = Mistral3PatchMerger(
+            vision_hidden_size=vision_hidden_size,
+            spatial_merge_size=spatial_merge_size,
+            patch_size=patch_size,
+        )
+
+        self.linear_1 = ColumnParallelLinear(
+            vision_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = RowParallelLinear(
+            text_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(
+        self, image_features: torch.Tensor, image_sizes: torch.Tensor
+    ) -> torch.Tensor:
+        image_features = self.norm(image_features)
+        image_features = self.patch_merger(image_features, image_sizes)
+        hidden_states, _ = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class LlavaLikeConfig(Protocol):
+    vision_config: Final[PretrainedConfig]
+    image_token_index: Final[int]
+    vision_feature_select_strategy: Final[str]
+    vision_feature_layer: Final[int | list[int]]
+
+
+class LlavaLikeProcessor(Protocol):
+    image_token: Final[str]
+
+
+class BaseLlavaProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> LlavaLikeConfig:
+        return self.ctx.get_hf_config(Mistral3Config)
+
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    @abstractmethod
+    def get_hf_processor(self, **kwargs: object) -> LlavaLikeProcessor:
+        raise NotImplementedError
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        vision_encoder_info = self.get_vision_encoder_info()
+        return vision_encoder_info.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+
+_I = TypeVar("_I", bound=BaseLlavaProcessingInfo)
+
+
+class Mistral3DummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Mistral3ProcessingInfo(BaseLlavaProcessingInfo):
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(PixtralProcessor, **kwargs)
+
+
+class Mistral3MultiModalProcessor(BaseMultiModalProcessor[Mistral3ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        pixel_values = processed_outputs.get("pixel_values")
+        if pixel_values is not None:
+            # Avoid padding since we need the output for each image to be
+            # independent of other images for the cache to work correctly
+            image_sizes = processed_outputs["image_sizes"]
+            assert len(pixel_values) == len(image_sizes)
+
+            processed_outputs["pixel_values"] = [
+                p[:, :h, :w] for p, (h, w) in zip(pixel_values, image_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        hf_config = self.info.get_hf_config()
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        image_break_id = vocab[processor.image_break_token]
+        image_token_id = hf_config.image_token_index
+        image_end_id = vocab[processor.image_end_token]
+
+        assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+        encoder_info = PixtralHFEncoderInfo(hf_config)
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            ncols, nrows = encoder_info.get_patch_grid_size(
+                image_width=image_size.width,
+                image_height=image_size.height,
+            )
+
+            tokens = ([image_token_id] * ncols + [image_break_id]) * nrows
+            tokens[-1] = image_end_id
+
+            return PromptUpdateDetails.select_token_id(tokens, image_token_id)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+def _build_mistral3_info(
+    ctx: InputProcessingContext,
+) -> BaseLlavaProcessingInfo:
+    hf_config = ctx.get_hf_config(Mistral3Config)
+    assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+    return Mistral3ProcessingInfo(ctx)
+
+
+def _build_mistral3_processor(
+    info: _I,
+    dummy_inputs: BaseDummyInputsBuilder[_I],
+    *,
+    cache: BaseMultiModalProcessorCache | None = None,
+) -> BaseMultiModalProcessor:
+    assert isinstance(info, Mistral3ProcessingInfo)
+    return Mistral3MultiModalProcessor(
+        info,
+        dummy_inputs,  # type: ignore
+        cache=cache,
+    )
+
+
+def _get_num_hidden_layers(hf_config: LlavaLikeConfig) -> int:
+    """Determine the number of hidden layers to initialize up to in the
+    visual encoder.
+
+    Args:
+        hf_config: Model config with vision feature layer(s).
+    """
+    feature_layers = hf_config.vision_feature_layer
+    num_hidden_layers = hf_config.vision_config.num_hidden_layers
+    # If we have one feature layer, initialize up to that layer
+    if isinstance(feature_layers, int):
+        return _get_layer_index(feature_layers, num_hidden_layers)
+    # If we have multiple feature layers, initialize up to the deepest one
+    elif isinstance(feature_layers, (list, tuple)):
+        return max(_get_layer_index(idx, num_hidden_layers) for idx in feature_layers)
+    raise TypeError(
+        f"vision_layer_feature type: {type(feature_layers)} is not supported"
+    )
+
+
+def _get_layer_index(feature_layer_index: int, num_hidden_layers: int) -> int:
+    """Given a signed vision feature layer, get the number of hidden layers
+    needed to leverage it.
+
+    Args:
+        feature_layer_index: Index of a required layer in the visual encoder.
+        num_hidden_layers: The total number of hidden layers in the visual
+            encoder.
+    """
+    if feature_layer_index < 0:
+        return num_hidden_layers + feature_layer_index + 1
+    return feature_layer_index
+
+
+def init_vision_tower_for_llava(
+    hf_config: LlavaLikeConfig,
+    quant_config: QuantizationConfig | None,
+    *,
+    require_post_norm: bool | None = None,
+    prefix: str = "",
+) -> PixtralHFVisionModel:
+    vision_config = hf_config.vision_config
+
+    # Initialize the vision tower only up to the deepest required feature layer
+    num_hidden_layers = _get_num_hidden_layers(hf_config)
+
+    assert isinstance(vision_config, PixtralVisionConfig)
+
+    return PixtralHFVisionModel(
+        vision_config,
+        quant_config=quant_config,
+        num_hidden_layers_override=num_hidden_layers,
+        require_post_norm=require_post_norm,
+        prefix=prefix,
+    )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    _build_mistral3_processor,
+    info=_build_mistral3_info,
+    dummy_inputs=Mistral3DummyInputsBuilder,
+)
+class Mistral3ForConditionalGeneration(
+    nn.Module, SupportsLoRA, SupportsMultiModal, SupportsPP
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # NOTE: These are special cases for Pixtral-12B in the HF-format
+        # https://huggingface.co/mistral-community/pixtral-12b/blob/main/config.json  # noqa
+        if (
+            config.text_config.architectures is None
+            and config.text_config.model_type == "mistral"
+        ):
+            config.text_config.architectures = ["MistralForCausalLM"]
+        if (
+            config.projector_hidden_act is None
+            and config.vision_config.hidden_act == "gelu"
+        ):
+            config.projector_hidden_act = "gelu"
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        if multimodal_config.get_limit_per_prompt("image"):
+            self.vision_tower = init_vision_tower_for_llava(
+                config,
+                quant_config,
+                require_post_norm=False,
+                prefix=maybe_prefix(prefix, "vision_tower"),
+            )
+            self.multi_modal_projector = Mistral3MultiModalProjector(
+                vision_hidden_size=config.vision_config.hidden_size,
+                text_hidden_size=config.text_config.hidden_size,
+                projector_hidden_act=config.projector_hidden_act,
+                spatial_merge_size=config.spatial_merge_size,
+                patch_size=config.vision_config.patch_size,
+                multimodal_projector_bias=config.multimodal_projector_bias,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "multi_modal_projector"),
+            )
+        else:
+            self.vision_tower = None
+            self.multi_modal_projector = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Mistral3ImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        return Mistral3ImagePixelInputs(
+            type="pixel_values_pixtral",
+            pixel_values=pixel_values,
+        )
+
+    def _process_image_input(
+        self,
+        image_input: Mistral3ImagePixelInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        image_sizes = [
+            (img.shape[-2], img.shape[-1]) for img in image_input["pixel_values"]
+        ]
+
+        image_features = self.vision_tower(image_input["pixel_values"])
+
+        if isinstance(image_features, torch.Tensor):
+            return self.multi_modal_projector(image_features, image_sizes)
+
+        feature_sizes = [
+            image_feature.shape[0] // self.config.spatial_merge_size**2
+            for image_feature in image_features
+        ]
+
+        image_embeds = self.multi_modal_projector(
+            torch.cat(image_features), image_sizes
+        )
+        if len(feature_sizes) > 1:
+            image_embeds = torch.split(image_embeds, feature_sizes)
+        else:
+            image_embeds = (image_embeds,)
+        return image_embeds
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        vision_embeddings = self._process_image_input(image_input)
+
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Mistral3.
+
+        One key thing to understand is the `input_ids` already accounts for the
+        positions of the to-be-inserted image embeddings.
+
+        Concretely, consider a text prompt:
+        `"USER: <image>\\nWhat's the content of the image?\\nASSISTANT:"`.
+
+        Tokenizer outputs:
+        `[1, 3148, 1001, 29901, 29871, 32000, 29871, 13, 5618, 29915, 29879,
+        278, 2793, 310, 278, 1967, 29973, 13, 22933, 9047, 13566, 29901]`.
+
+        To reserve space in KV cache, we have to insert placeholder tokens
+        before they are inputted to the model, so the input processor prepends
+        additional image tokens (denoted as `32000`), resulting in:
+        `[1, 3148, 1001, 29901, 29871, 32000, ..., 32000, 29871, 13, 5618,
+        29915, 29879, 278, 2793, 310, 278, 1967, 29973, 13, 22933, 9047, 13566,
+        29901]`.
+
+        We insert 575 tokens so that including the original image token in the
+        input, there are a total of 576 (24 * 24) image tokens, which
+        corresponds to the number of image tokens inputted to the language
+        model, i.e. the number of image tokens outputted by the visual encoder.
+
+        This way, the `positions` and `attn_metadata` are consistent
+        with the `input_ids`.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Position indices for the input tokens.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+
+        Info:
+            [`Mistral3ImagePixelInputs`][vllm.model_executor.models.mistral3.Mistral3ImagePixelInputs]
+        """
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.vision_tower is None and self.multi_modal_projector is None:
+            skip_prefixes = ["vision_tower.", "multi_modal_projector."]
+
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector",
+            tower_model="vision_tower",
+        )
diff --git a/model_executor/models/mixtral.py b/model_executor/models/mixtral.py
new file mode 100644
index 0000000..d7a1cb8
--- /dev/null
+++ b/model_executor/models/mixtral.py
@@ -0,0 +1,621 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Mixtral model."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import MixtralConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    DEFAULT_VOCAB_PADDING_SIZE,
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class MixtralMoE(nn.Module):
+    """A tensor-parallel MoE implementation for Mixtral that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        dp_size: int | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+
+        # Expert Parallelism Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        parallel_config = vllm_config.parallel_config
+        self.enable_eplb = enable_eplb
+
+        self.n_routed_experts = num_experts
+        self.n_logical_experts = num_experts
+        self.n_redundant_experts = parallel_config.eplb_config.num_redundant_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        # Gate always runs at half / full precision for now.
+
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            dp_size=dp_size,
+            prefix=f"{prefix}.experts",
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+        return final_hidden_states.view(orig_shape)
+
+
+class MixtralAttention(nn.Module):
+    def __init__(
+        self,
+        config: MixtralConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MixtralConfig has an optional head_dim argument
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class MixtralDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: MixtralConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        self.self_attn = MixtralAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.block_sparse_moe = MixtralMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe",
+            enable_eplb=enable_eplb,
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.block_sparse_moe(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class MixtralModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        parallel_config = vllm_config.parallel_config
+
+        self.config = config
+        self.quant_config = quant_config
+        lora_vocab = (
+            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
+            if lora_config
+            else 0
+        )
+        self.vocab_size = config.vocab_size + lora_vocab
+        self.org_vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+            org_num_embeddings=config.vocab_size,
+        )
+
+        self.enable_eplb = parallel_config.enable_eplb
+        self.num_redundant_experts = parallel_config.eplb_config.num_redundant_experts
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: MixtralDecoderLayer(
+                config,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=self.enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="w1",
+            ckpt_down_proj_name="w2",
+            ckpt_up_proj_name="w3",
+            num_experts=self.config.num_local_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+
+                    if weight_name not in name:
+                        continue
+
+                    is_expert_weight = True
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    if (
+                        name_mapped.endswith(".bias") or name_mapped.endswith("_bias")
+                    ) and name_mapped not in params_dict:
+                        continue
+
+                    param = params_dict[name_mapped]
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP, MixtureOfExperts):
+    fall_back_to_pt_during_load = False
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        self.config = config
+        self.lora_config = lora_config
+        self.quant_config = quant_config
+
+        self.model = MixtralModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.unpadded_vocab_size = config.vocab_size
+        if lora_config:
+            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+        self.lm_head = ParallelLMHead(
+            self.unpadded_vocab_size,
+            config.hidden_size,
+            org_num_embeddings=config.vocab_size,
+            padding_size=DEFAULT_VOCAB_PADDING_SIZE
+            # We need bigger padding if using lora for kernel
+            # compatibility
+            if not lora_config
+            else lora_config.lora_vocab_padding_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(
+            self.unpadded_vocab_size, config.vocab_size
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        self.expert_weights = []
+        self.moe_layers = []
+        example_moe = None
+
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+            assert isinstance(layer, MixtralDecoderLayer)
+            if hasattr(layer, "block_sparse_moe") and isinstance(
+                layer.block_sparse_moe, MixtralMoE
+            ):
+                example_moe = layer.block_sparse_moe
+                self.moe_layers.append(layer.block_sparse_moe.experts)
+
+        self.num_moe_layers = len(self.moe_layers)
+
+        if example_moe is None:
+            raise RuntimeError("No MixtralMoE layer found  in model.layers.")
+
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.num_routed_experts = example_moe.n_routed_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+        self.num_expert_groups = 1
+        self.num_shared_experts = 0
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if hasattr(layer, "block_sparse_moe") and isinstance(
+                layer.block_sparse_moe, MixtralMoE
+            ):
+                moe = layer.block_sparse_moe
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/mllama4.py b/model_executor/models/mllama4.py
new file mode 100644
index 0000000..e25a104
--- /dev/null
+++ b/model_executor/models/mllama4.py
@@ -0,0 +1,1147 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+#
+# Copyright 2025 the LLAMA4, Meta Inc., vLLM, and HuggingFace Inc. team.
+# All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import math
+from collections.abc import Iterable, Mapping
+from itertools import tee
+from typing import Annotated, Literal
+
+import torch
+from torch import nn
+from transformers import BatchFeature, Llama4Config, Llama4VisionConfig
+from transformers.image_utils import SizeDict
+from transformers.models.llama4 import Llama4Processor
+from transformers.models.llama4.image_processing_llama4_fast import (
+    find_supported_resolutions,
+    get_best_fit,
+)
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.model_loader.utils import initialize_model
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MixtureOfExperts,
+    MultiModalEmbeddings,
+    SupportsEagle3,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .llama4 import Llama4ForCausalLM
+from .utils import (
+    AutoWeightsLoader,
+    maybe_prefix,
+)
+from .vision import run_dp_sharded_vision_model
+
+
+class Llama4ImagePatchInputs(TensorSchema):
+    """
+    Dimensions:
+        - batch_size: Batch size
+        - total_num_chunks: Batch size * number of chunks
+        - num_channels: Number of channels
+        - image_size: Size of each image
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("total_num_chunks", "num_channels", "image_size", "image_size"),
+    ]
+
+    patches_per_image: Annotated[torch.Tensor, TensorShape("batch_size")]
+    """
+    The number of total patches for each image in the batch.
+    
+    This is used to split the embeddings which has the first two dimensions
+    flattened just like `pixel_values`.
+    """
+
+    aspect_ratios: Annotated[torch.Tensor, TensorShape("batch_size", 2)]
+    """
+    A list of aspect ratios corresponding to the number of tiles
+    in each dimension that each image in the batch corresponds to.
+    Each aspect ratio is a pair (ratio_h, ratio_w).
+    """
+
+
+class Llama4VisionMLP(nn.Module):
+    def __init__(
+        self,
+        input_size: int,
+        intermediate_size: int,
+        output_size: int,
+        bias: bool,
+        output_activation: bool,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.fc1 = ColumnParallelLinear(
+            input_size=input_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.fc2 = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=output_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+        self.activation_fn = nn.GELU()
+        self.output_activation = output_activation
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        if self.output_activation:
+            return self.activation_fn(hidden_states)
+        return hidden_states
+
+
+class Llama4MultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.linear_1 = ColumnParallelLinear(
+            input_size=config.vision_config.vision_output_dim,
+            output_size=config.text_config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            gather_output=True,
+            prefix=f"{prefix}.linear_1",
+        )
+
+    def forward(self, image_features):
+        hidden_states, _ = self.linear_1(image_features)
+        return hidden_states
+
+
+def pixel_shuffle(input_tensor, shuffle_ratio):
+    # input_tensor: [batch_size, num_patches, channels]
+    batch_size, num_patches, channels = input_tensor.shape
+    patch_size = int(math.sqrt(num_patches))
+
+    input_tensor = input_tensor.view(batch_size, patch_size, patch_size, -1)
+    batch_size, height, width, channels = input_tensor.size()
+
+    reshaped_tensor = input_tensor.view(
+        batch_size, height, int(width * shuffle_ratio), int(channels / shuffle_ratio)
+    )
+    reshaped_tensor = reshaped_tensor.permute(0, 2, 1, 3).contiguous()
+
+    reshaped_tensor = reshaped_tensor.view(
+        batch_size,
+        int(height * shuffle_ratio),
+        int(width * shuffle_ratio),
+        int(channels / (shuffle_ratio**2)),
+    )
+    reshaped_tensor = reshaped_tensor.permute(0, 2, 1, 3).contiguous()
+
+    output_tensor = reshaped_tensor.view(batch_size, -1, reshaped_tensor.shape[-1])
+    return output_tensor
+
+
+class Llama4VisionPixelShuffleMLP(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.pixel_shuffle_ratio = config.pixel_shuffle_ratio
+        self.inner_dim = int(
+            config.projector_input_dim // (self.pixel_shuffle_ratio**2)
+        )
+        self.output_dim = config.projector_output_dim
+        self.mlp = Llama4VisionMLP(
+            input_size=config.intermediate_size,
+            intermediate_size=config.projector_input_dim,
+            output_size=config.projector_output_dim,
+            bias=config.multi_modal_projector_bias,
+            output_activation=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(self, encoded_patches: torch.Tensor) -> torch.Tensor:
+        encoded_patches = pixel_shuffle(encoded_patches, self.pixel_shuffle_ratio)
+        return self.mlp(encoded_patches)
+
+
+class Llama4VisionAttention(nn.Module):
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.tp_size = (
+            1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        )
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = config.hidden_size // self.num_heads
+        assert self.num_heads % self.tp_size == 0
+        self.num_local_heads = self.num_heads // self.tp_size
+        self.q_size = self.num_local_heads * self.head_dim
+        self.kv_size = self.num_local_heads * self.head_dim
+        self.attention_dropout = config.attention_dropout
+        self.scaling = self.head_dim**-0.5
+
+        self.attn = MultiHeadAttention(
+            self.num_local_heads, self.head_dim, self.scaling
+        )
+
+        if use_data_parallel:
+            self.qkv_proj = ReplicatedLinear(
+                self.embed_dim,
+                self.q_size + 2 * self.kv_size,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.qkv_proj",
+            )
+            self.o_proj = ReplicatedLinear(
+                self.num_heads * self.head_dim,
+                self.embed_dim,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.o_proj",
+            )
+        else:
+            self.qkv_proj = QKVParallelLinear(
+                self.embed_dim,
+                self.head_dim,
+                self.num_heads,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.qkv_proj",
+            )
+            self.o_proj = RowParallelLinear(
+                self.num_heads * self.head_dim,
+                self.embed_dim,
+                bias=True,
+                input_is_parallel=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.o_proj",
+            )
+
+        self.rotary_emb = get_rope(
+            head_size=self.head_dim,
+            rotary_dim=config.hidden_size // config.num_attention_heads // 2,
+            # number of image patches
+            max_position=(config.image_size // config.patch_size) ** 2,
+            base=config.rope_theta,
+            rope_scaling={"rope_type": "mllama4"},
+            is_neox_style=False,
+            dtype=torch.complex64,  # important
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        input_shape = hidden_states.shape[:-1]
+
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q = q.view(q.shape[0], q.shape[1], self.num_local_heads, self.head_dim)
+        k = k.view(k.shape[0], k.shape[1], self.num_local_heads, self.head_dim)
+        q, k = self.rotary_emb(q, k)
+
+        q = q.view(q.shape[0], q.shape[1], -1)
+        k = k.view(k.shape[0], k.shape[1], -1)
+
+        attn_output = self.attn(q, k, v)
+        attn_output = attn_output.reshape(*input_shape, -1).contiguous()
+        attn_output, _ = self.o_proj(attn_output)
+
+        return attn_output
+
+
+class Llama4VisionEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.num_attention_heads = config.num_attention_heads
+        self.intermediate_size = config.intermediate_size
+
+        self.self_attn = Llama4VisionAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            use_data_parallel=use_data_parallel,
+        )
+        self.mlp = Llama4VisionMLP(
+            input_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            output_size=config.hidden_size,
+            bias=True,
+            output_activation=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+        self.input_layernorm = nn.LayerNorm(config.hidden_size)
+        self.post_attention_layernorm = nn.LayerNorm(config.hidden_size)
+
+    def forward(
+        self,
+        hidden_state: torch.Tensor,
+    ):
+        # Self Attention
+        residual = hidden_state
+        hidden_state = self.input_layernorm(hidden_state)
+        hidden_state = self.self_attn(hidden_state)
+        hidden_state = residual + hidden_state
+
+        # Feed forward
+        residual = hidden_state
+        hidden_state = self.post_attention_layernorm(hidden_state)
+        hidden_state = self.mlp(hidden_state)
+        hidden_state = residual + hidden_state
+
+        outputs = (hidden_state,)
+        return outputs
+
+
+class Llama4VisionEncoder(nn.Module):
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.layers = nn.ModuleList(
+            [
+                Llama4VisionEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        r"""
+        Args:
+            hidden_states: Input tensor of shape
+                (batch_size, sequence_length, hidden_size).
+                Hidden states from the model embeddings, representing
+                the input tokens.
+                associated vectors than the model's internal embedding
+                lookup matrix.
+        """
+
+        for encoder_layer in self.layers:
+            layer_outputs = encoder_layer(hidden_states)
+            hidden_states = layer_outputs[0]
+
+        return hidden_states
+
+
+class Llama4UnfoldConvolution(nn.Module):
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        kernel_size = config.patch_size
+        if isinstance(kernel_size, int):
+            kernel_size = (kernel_size, kernel_size)
+        self.unfold = torch.nn.Unfold(kernel_size=kernel_size, stride=config.patch_size)
+        self.linear = ColumnParallelLinear(
+            input_size=config.num_channels * kernel_size[0] * kernel_size[1],
+            output_size=config.hidden_size,
+            bias=False,
+            gather_output=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.unfold(hidden_states)
+        hidden_states = hidden_states.permute(0, 2, 1)
+        hidden_states, _ = self.linear(hidden_states)
+        return hidden_states
+
+
+class Llama4VisionModel(nn.Module):
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+        self.hidden_size = config.hidden_size
+        self.num_channels = config.num_channels
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2 + 1
+        self.scale = config.hidden_size**-0.5
+
+        self.patch_embedding = Llama4UnfoldConvolution(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.patch_embedding",
+            use_data_parallel=use_data_parallel,
+        )
+
+        self.class_embedding = nn.Parameter(self.scale * torch.randn(self.hidden_size))
+        self.positional_embedding_vlm = nn.Parameter(
+            self.scale * torch.randn(self.num_patches, self.hidden_size)
+        )
+
+        # layer norms
+        self.layernorm_pre = nn.LayerNorm(self.hidden_size, eps=1e-5)
+        self.layernorm_post = nn.LayerNorm(self.hidden_size, eps=1e-5)
+
+        # encoders
+        self.model = Llama4VisionEncoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.model",
+            use_data_parallel=use_data_parallel,
+        )
+        self.vision_adapter = Llama4VisionPixelShuffleMLP(
+            config,
+            quant_config,
+            prefix=f"{prefix}.vision_adapter",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        images_flattened: torch.Tensor,
+    ) -> torch.Tensor:
+        # Patch embedding
+        hidden_state = self.patch_embedding(images_flattened)
+        num_tiles, num_patches, hidden_dim = hidden_state.shape
+
+        # Add cls token
+        class_embedding = self.class_embedding.expand(
+            hidden_state.shape[0], 1, hidden_state.shape[-1]
+        )
+        hidden_state = torch.cat([hidden_state, class_embedding], dim=1)
+        num_patches += 1
+
+        # Position embeddings
+        hidden_state = hidden_state.reshape(
+            num_tiles,
+            1,
+            num_patches,
+            hidden_dim,
+        )
+        positional_embedding = self.positional_embedding_vlm.to(
+            dtype=hidden_state.dtype, device=hidden_state.device
+        )
+        hidden_state = hidden_state + positional_embedding
+        hidden_state = self.layernorm_pre(hidden_state)
+        hidden_state = hidden_state.view(num_tiles, -1, hidden_dim)
+
+        # Apply encoder
+        hidden_state = self.model(hidden_state)
+        hidden_state = self.layernorm_post(hidden_state)
+
+        # Remove CLS token output
+        hidden_state = hidden_state[:, :-1, :]
+
+        # now, we use Llama4VisionPixelShuffle + mlp to project embeddings
+        hidden_state = self.vision_adapter(hidden_state)
+
+        return hidden_state
+
+
+class Mllama4ProcessingInfo(BaseProcessingInfo):
+    def __init__(self, ctx: InputProcessingContext) -> None:
+        super().__init__(ctx)
+
+    def get_hf_config(self) -> Llama4Config:
+        return self.ctx.get_hf_config(Llama4Config)
+
+    def get_hf_processor(self, **kwargs: object) -> Llama4Processor:
+        return self.ctx.get_hf_processor(
+            Llama4Processor, use_fast=kwargs.pop("use_fast", True), **kwargs
+        )
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        # Although vLLM can support more images from an infra capability
+        # perspective, we do not recommend using >10 images in practice.
+        return {"image": None}
+
+    @staticmethod
+    def get_patch_per_chunk(vision_config: Llama4VisionConfig) -> int:
+        image_size = vision_config.image_size
+        patch_size = vision_config.patch_size
+
+        assert image_size % patch_size == 0, (
+            f"chunk size {image_size} should be multiple of "
+        )
+        f"patch_size {patch_size}"
+
+        ds_ratio = int(round(1.0 / (vision_config.pixel_shuffle_ratio**2)))
+        return (image_size // patch_size) ** 2 // ds_ratio
+
+    def get_max_num_tiles(self) -> int:
+        image_processor = self.get_hf_processor().image_processor
+        return image_processor.max_patches
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_config = self.get_hf_config().vision_config
+        image_size = vision_config.image_size
+        # Result in the max possible feature size (h:w = 16:1)
+        return ImageSize(height=self.get_max_num_tiles() * image_size, width=image_size)
+
+
+class Mllama4MultiModalProcessor(BaseMultiModalProcessor[Mllama4ProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        tokenizer = self.info.get_tokenizer()
+
+        if mm_data is None:
+            return tokenizer(prompt, add_special_tokens=False)  # exclude bos
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        processor = self.info.get_hf_processor(**mm_kwargs)
+        image_processor = processor.image_processor
+        vision_config = self.info.get_hf_config().vision_config
+
+        if processed_outputs.get("pixel_values") is not None:
+            assert "images" in mm_data, (
+                "images expected to be in mm_data when pixel_values is present"
+            )
+
+            images = mm_data["images"]
+            parsed_images = (
+                self._get_data_parser()
+                .parse_mm_data({"image": images})
+                .get_items("image", ImageProcessorItems)
+            )
+
+            tile_size = vision_config.image_size
+            possible_resolutions = find_supported_resolutions(
+                max_num_chunks=self.info.get_max_num_tiles(),
+                patch_size=SizeDict(height=tile_size, width=tile_size),
+            )
+            best_fit_sizes = [
+                get_best_fit(
+                    (image.size[1], image.size[0]),
+                    torch.tensor(possible_resolutions),
+                    resize_to_max_canvas=image_processor.resize_to_max_canvas,
+                )
+                for image in parsed_images
+            ]
+            # TODO tile height/width do not necessarily need to match
+            aspect_ratios = [
+                (image_size[0] // tile_size, image_size[1] // tile_size)
+                for image_size in best_fit_sizes
+            ]
+            patches_per_image = [
+                1 if r_h * r_w == 1 else 1 + r_h * r_w for (r_h, r_w) in aspect_ratios
+            ]
+
+            processed_outputs["aspect_ratios"] = torch.tensor(aspect_ratios)
+            processed_outputs["patches_per_image"] = torch.tensor(patches_per_image)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        patches_per_image = hf_inputs.get("patches_per_image", torch.empty(0))
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", patches_per_image
+            ),
+            patches_per_image=MultiModalFieldConfig.batched("image"),
+            aspect_ratios=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> list[PromptUpdate]:
+        config = self.info.get_hf_config()
+        vision_config = config.vision_config
+
+        num_patches_per_chunk = self.info.get_patch_per_chunk(vision_config)
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_token = hf_processor.image_token
+        img_patch_token = hf_processor.img_patch_token
+
+        def get_replacement(item_idx: int):
+            out_item = out_mm_kwargs["image"][item_idx]
+            aspect_ratio = out_item["aspect_ratios"].data
+
+            repl = hf_processor._prompt_split_image(
+                aspect_ratio=aspect_ratio,
+                num_patches_per_chunk=num_patches_per_chunk,
+            )
+
+            return PromptUpdateDetails.select_text(repl, img_patch_token)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=get_replacement,
+            )
+        ]
+
+
+class Mllama4DummyInputsBuilder(BaseDummyInputsBuilder[Mllama4ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.fake_image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        (target_width, target_height) = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Mllama4MultiModalProcessor,
+    info=Mllama4ProcessingInfo,
+    dummy_inputs=Mllama4DummyInputsBuilder,
+)
+class Llama4ForConditionalGeneration(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    MixtureOfExperts,
+    SupportsEagle3,
+    SupportsLoRA,
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|image|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+
+        self.config = config
+        self.quant_config = quant_config
+        self.multimodal_config = multimodal_config
+        if multimodal_config.get_limit_per_prompt("image"):
+            self.vision_model = Llama4VisionModel(
+                config.vision_config,
+                None,
+                prefix=maybe_prefix(prefix, "vision_model"),
+                use_data_parallel=self.use_data_parallel,
+            )
+            self.multi_modal_projector = Llama4MultiModalProjector(
+                self.config, None, prefix=maybe_prefix(prefix, "multi_modal_projector")
+            )
+        else:
+            self.vision_model = None
+            self.multi_modal_projector = None
+        self.language_model = initialize_model(
+            vllm_config=vllm_config.with_hf_config(
+                config.text_config, ["LlamaForCausalLM"]
+            ),
+            prefix=maybe_prefix(prefix, "language_model"),
+            model_class=Llama4ForCausalLM,
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+        # Set MoE hyperparameters
+        self.num_expert_groups = 1
+        self.num_logical_experts = self.language_model.num_logical_experts
+        self.num_physical_experts = self.language_model.num_physical_experts
+        self.num_local_physical_experts = self.language_model.num_local_physical_experts
+        self.num_routed_experts = self.language_model.num_routed_experts
+        self.num_shared_experts = self.language_model.num_shared_experts
+        self.num_redundant_experts = self.language_model.num_redundant_experts
+        self.moe_layers = self.language_model.moe_layers
+        self.num_moe_layers = len(self.moe_layers)
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        """Set which layers should output auxiliary hidden states for EAGLE3."""
+        # Delegate to underlying language model (Llama4ForCausalLM)
+        assert hasattr(self.language_model, "set_aux_hidden_state_layers")
+        self.language_model.set_aux_hidden_state_layers(layers)
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        """Get the layer indices for auxiliary hidden state outputs.
+
+        Note: The GPU model runner will override this with layers from
+        the speculative config if available, providing dynamic configuration.
+        """
+        # Delegate to underlying language model (Llama4ForCausalLM)
+        assert hasattr(self.language_model, "get_eagle3_aux_hidden_state_layers")
+        return self.language_model.get_eagle3_aux_hidden_state_layers()
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ):
+        self.language_model.set_eplb_state(
+            expert_load_view, logical_to_physical_map, logical_replica_count
+        )
+        self.expert_weights = self.language_model.expert_weights
+
+    def update_physical_experts_metadata(
+        self, num_physical_experts: int, num_local_physical_experts: int
+    ):
+        self.language_model.update_physical_experts_metadata(
+            num_physical_experts, num_local_physical_experts
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Llama4ImagePatchInputs | None:
+        # num_images, 1, num_chunks, channel, image_size, image_size
+        pixel_values = kwargs.pop("pixel_values", None)
+        if pixel_values is None:
+            return None
+
+        patches_per_image = kwargs.pop("patches_per_image")
+        aspect_ratios = kwargs.pop("aspect_ratios")
+
+        return Llama4ImagePatchInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            patches_per_image=patches_per_image,
+            aspect_ratios=aspect_ratios,
+        )
+
+    def _process_image_input(
+        self, image_input: Llama4ImagePatchInputs
+    ) -> MultiModalEmbeddings:
+        assert self.vision_model and self.multi_modal_projector
+        pixel_values = image_input["pixel_values"]
+        patches_per_image = image_input["patches_per_image"].tolist()
+
+        # shard image input
+        if self.use_data_parallel:
+            vision_embeddings_flat = run_dp_sharded_vision_model(
+                pixel_values, self.vision_model
+            )
+        else:
+            vision_embeddings_flat = self.vision_model(pixel_values)
+
+        vision_embeddings_flat = self.multi_modal_projector(vision_embeddings_flat)
+
+        return [
+            img.flatten(0, 1)
+            for img in vision_embeddings_flat.split(patches_per_image, dim=0)
+        ]
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        return self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def separate_weights(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+        prefix: str,
+    ) -> tuple[Iterable[tuple[str, torch.Tensor]], Iterable[tuple[str, torch.Tensor]]]:
+        weights1, weights2 = tee(weights, 2)
+
+        def get_prefix_weights() -> Iterable[tuple[str, torch.Tensor]]:
+            for name, data in weights1:
+                if name.startswith(prefix):
+                    yield (name, data)
+
+        def get_other_weights() -> Iterable[tuple[str, torch.Tensor]]:
+            for name, data in weights2:
+                if not name.startswith(prefix):
+                    yield (name, data)
+
+        return get_prefix_weights(), get_other_weights()
+
+    def _consolidate_qkv_weights(
+        self, weights: Iterable[tuple[str, torch.Tensor]]
+    ) -> Iterable[tuple[str, torch.Tensor]]:
+        qkv_idx_mappings = {
+            ".self_attn.q_proj": 0,
+            ".self_attn.k_proj": 1,
+            ".self_attn.v_proj": 2,
+        }
+        qkv_weights = {}
+        for name, loaded_weight in weights:
+            for weight_name, idx in qkv_idx_mappings.items():
+                if weight_name not in name:
+                    continue
+                new_name = name.replace(weight_name, ".self_attn.qkv_proj")
+                if new_name not in qkv_weights:
+                    qkv_weights[new_name] = [None] * 3
+                qkv_weights[new_name][idx] = loaded_weight
+                break
+            else:
+                yield name, loaded_weight
+        for key, weight in qkv_weights.items():
+            qkv_weight = torch.cat(weight, dim=0)
+            yield key, qkv_weight
+
+    def _rename_weight_for_modelopt_checkpoint(self, name: str) -> str:
+        """Rename weights from ModelOpt llama4 fp8 checkpoints to vLLM
+        format."""
+        if name.startswith("model.") or name.startswith("language_model.model."):
+            renamed = (
+                name.replace("model.", "language_model.model.", 1)
+                if name.startswith("model.")
+                else name
+            )
+            # Handle expert scale parameters with flat naming
+            if "feed_forward.experts." in name and (
+                "_input_scale" in name or "_weight_scale" in name
+            ):
+                # Map checkpoint naming to vLLM's expected naming
+                if "down_proj_input_scale" in renamed:
+                    return renamed.replace("down_proj_input_scale", "w2_input_scale")
+                elif "down_proj_weight_scale" in renamed:
+                    return renamed.replace("down_proj_weight_scale", "w2_weight_scale")
+                elif "gate_up_proj_input_scale" in renamed:
+                    return renamed.replace(
+                        "gate_up_proj_input_scale", "w13_input_scale"
+                    )
+                elif "gate_up_proj_weight_scale" in renamed:
+                    return renamed.replace(
+                        "gate_up_proj_weight_scale", "w13_weight_scale"
+                    )
+                return renamed
+
+            # Handle attention scale parameters
+            elif "self_attn." in name and (".k_scale" in name or ".v_scale" in name):
+                if ".k_proj.k_scale" in renamed:
+                    return renamed.replace(".k_proj.k_scale", ".attn.k_scale")
+                elif ".v_proj.v_scale" in renamed:
+                    return renamed.replace(".v_proj.v_scale", ".attn.v_scale")
+                return renamed
+
+            # Standard model.* to language_model.model.* renaming
+            return renamed
+
+        elif name.startswith("lm_head.weight"):
+            return name.replace("lm_head.weight", "language_model.lm_head.weight")
+
+        return name
+
+    def _separate_and_rename_weights(
+        self, weights: Iterable[tuple[str, torch.Tensor]]
+    ) -> tuple[list[tuple[str, torch.Tensor]], list[tuple[str, torch.Tensor]]]:
+        """Rename weights and separate them into language_model and other
+        weights."""
+        language_model_weights = []
+        other_weights = []
+
+        for name, weight in weights:
+            renamed = self._rename_weight_for_modelopt_checkpoint(name)
+
+            if renamed.startswith("language_model."):
+                language_model_weights.append((renamed, weight))
+            else:
+                other_weights.append((renamed, weight))
+
+        return language_model_weights, other_weights
+
+    def _handle_expert_scale_broadcasting(
+        self, weights: list[tuple[str, torch.Tensor]], params_dict: dict
+    ) -> tuple[list[tuple[str, torch.Tensor]], set[str]]:
+        """Handle expert scale parameters that need broadcasting.
+
+        ModelOpt checkpoints use a single value tensor scalar for BMM style
+        experts, vLLM expects the scale to be broadcasted across all experts.
+        """
+        regular_weights = []
+        expert_scale_weights = []
+        updated_params = set()
+
+        for name, weight in weights:
+            # Check if this is an expert scale parameter that needs broadcasting
+            if (
+                "feed_forward.experts." in name
+                and "scale" in name
+                and ".shared_expert" not in name
+            ):
+                if name in params_dict:
+                    param = params_dict[name]
+                    if (
+                        hasattr(param, "data")
+                        and param.data.numel() > 1
+                        and weight.numel() == 1
+                    ):
+                        # Broadcast single value to all experts
+                        param.data.fill_(weight.item())
+                        updated_params.add(name)
+                        continue
+
+                expert_scale_weights.append((name, weight))
+            else:
+                regular_weights.append((name, weight))
+
+        return regular_weights, expert_scale_weights, updated_params
+
+    def _load_other_weights(
+        self,
+        other_weights: Iterable[tuple[str, torch.Tensor]],
+        params_dict: dict,
+        stacked_params_mapping: list,
+    ) -> set[str]:
+        """Load non-language-model weights with stacking support."""
+        updated_params = set()
+
+        if self.use_data_parallel:
+            other_weights = self._consolidate_qkv_weights(other_weights)
+
+        for name, loaded_weight in other_weights:
+            # Try stacked parameter mapping first
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name or self.use_data_parallel:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                updated_params.add(name)
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Use regular weight loading
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+                updated_params.add(name)
+
+        return updated_params
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.text_config.num_local_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".self_attn.qkv_proj", ".self_attn.q_proj", "q"),
+            (".self_attn.qkv_proj", ".self_attn.k_proj", "k"),
+            (".self_attn.qkv_proj", ".self_attn.v_proj", "v"),
+            # Shared expert gate_up_proj stacking
+            (".shared_expert.gate_up_proj", ".shared_expert.gate_proj", 0),
+            (".shared_expert.gate_up_proj", ".shared_expert.up_proj", 1),
+            # Feed forward gate_up_proj stacking (for non-MoE layers if any)
+            (".feed_forward.gate_up_proj", ".feed_forward.gate_proj", 0),
+            (".feed_forward.gate_up_proj", ".feed_forward.up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        updated_params: set[str] = set()
+
+        # Separate and rename weights
+        language_model_weights, other_weights = self._separate_and_rename_weights(
+            weights
+        )
+
+        # Skip loading vision model and projector if they're not initialized.
+        if self.vision_model is None and self.multi_modal_projector is None:
+            other_weights = []
+
+        # Handle expert scale parameters
+        regular_weights, expert_scale_weights, updated_params_from_experts = (
+            self._handle_expert_scale_broadcasting(language_model_weights, params_dict)
+        )
+        updated_params.update(updated_params_from_experts)
+
+        loader = AutoWeightsLoader(self)
+        loaded_language_model_params = loader.load_weights(regular_weights)
+        assert loaded_language_model_params is not None
+        updated_params.update(loaded_language_model_params)
+
+        if expert_scale_weights:
+            loaded_expert_scale_params = loader.load_weights(expert_scale_weights)
+            if loaded_expert_scale_params:
+                updated_params.update(loaded_expert_scale_params)
+
+        updated_params.update(
+            self._load_other_weights(other_weights, params_dict, stacked_params_mapping)
+        )
+
+        return updated_params
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector.",
+            tower_model="vision_model.",
+        )
diff --git a/model_executor/models/mlp_speculator.py b/model_executor/models/mlp_speculator.py
new file mode 100644
index 0000000..48604d8
--- /dev/null
+++ b/model_executor/models/mlp_speculator.py
@@ -0,0 +1,235 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+from .utils import maybe_prefix
+
+SQRT2 = 2**0.5
+
+
+class MLPSpeculatorLayerNorm(nn.Module):
+    """
+    A L2 normalization implementation
+    ...
+    Args
+    ----
+    normalized_shape : int
+        Dimensionality of input data (size of final tensor axis)
+    eps : float
+        Safety term to prevent division by zero. Make sure the chosen value
+         fits in the range of your encoding scheme
+         (i.e. fp16 requires eps >= 6e-8).
+    elementwise_scale_and_shift : bool
+        Include a learned scaling and shift term after normalization.
+    """
+
+    def __init__(
+        self,
+        normalized_shape,
+        eps=1e-06,
+        elementwise_scale_and_shift=True,
+    ):
+        super().__init__()
+        self.elementwise_scale_and_shift = elementwise_scale_and_shift
+        if self.elementwise_scale_and_shift:
+            self.weight = nn.Parameter(torch.empty(normalized_shape))
+            self.bias = nn.Parameter(torch.empty(normalized_shape))
+        self.eps = eps
+
+    def forward(self, x):
+        xf = x
+        xf = xf * torch.rsqrt(xf.pow(2).mean(-1, keepdim=True) + self.eps)
+        x = xf.type_as(x)
+        if self.elementwise_scale_and_shift:
+            x = self.weight * x
+            x = x + self.bias
+        return x
+
+
+class MLPSpeculator(nn.Module):
+    """
+    An implementation of the speculative models introduced in
+    "Accelerating Production LLMs with Combined Token/Embedding
+    Speculators"
+    https://arxiv.org/pdf/2404.19124
+
+    Trained speculators of this type are available on HF hub at:
+    https://huggingface.co/ibm-ai-platform and https://huggingface.co/ibm-granite
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.n_predict = config.n_predict
+        self.vocab_size = config.vocab_size
+        self.emb_dim = config.emb_dim
+        self.inner_dim = config.inner_dim if config.inner_dim != 0 else config.emb_dim
+
+        self.max_speculative_tokens = config.num_lookahead_tokens
+
+        self.tie_weights = config.tie_weights
+        self.scale_input = config.scale_input
+
+        if self.tie_weights:
+            assert self.n_predict > 1, (
+                "You cannot tie weights between stages when only 1 exists"
+            )
+            embedding = VocabParallelEmbedding(
+                config.vocab_size, self.inner_dim, org_num_embeddings=config.vocab_size
+            )
+            self.emb = nn.ModuleList([embedding] * self.max_speculative_tokens)
+
+            # the initial projection from the base model may
+            # have a different size, so that stays separate.
+            proj_first = nn.Linear(self.emb_dim, self.inner_dim, bias=False)
+            proj_tied = nn.Linear(self.inner_dim, self.inner_dim, bias=False)
+            self.proj = nn.ModuleList(
+                [proj_first] + [proj_tied] * (self.max_speculative_tokens - 1)
+            )
+
+            self.head = nn.ModuleList(
+                [
+                    ParallelLMHead(
+                        self.vocab_size,
+                        self.inner_dim,
+                        bias=False,
+                        prefix=maybe_prefix(prefix, f"head.{i}"),
+                    )
+                    for i in range(self.max_speculative_tokens)
+                ]
+            )
+
+            ln = MLPSpeculatorLayerNorm(
+                self.inner_dim, elementwise_scale_and_shift=True
+            )
+            self.ln = nn.ModuleList([ln] * self.max_speculative_tokens)
+
+        else:
+            self.emb = nn.ModuleList(
+                [
+                    VocabParallelEmbedding(
+                        config.vocab_size,
+                        self.inner_dim,
+                    )
+                    for _ in range(self.max_speculative_tokens)
+                ]
+            )
+
+            self.proj = nn.ModuleList(
+                [
+                    nn.Linear(
+                        (self.emb_dim if i == 0 else self.inner_dim),
+                        self.inner_dim,
+                        bias=False,
+                    )
+                    for i in range(self.max_speculative_tokens)
+                ]
+            )
+
+            self.head = nn.ModuleList(
+                [
+                    ParallelLMHead(
+                        self.vocab_size,
+                        self.inner_dim,
+                        bias=False,
+                        prefix=maybe_prefix(prefix, f"head.{i}"),
+                    )
+                    for i in range(self.max_speculative_tokens)
+                ]
+            )
+            self.ln = nn.ModuleList(
+                [
+                    MLPSpeculatorLayerNorm(
+                        self.inner_dim, elementwise_scale_and_shift=True
+                    )
+                    for _ in range(self.max_speculative_tokens)
+                ]
+            )
+        if self.scale_input:
+            self.ln0 = MLPSpeculatorLayerNorm(
+                self.emb_dim, elementwise_scale_and_shift=False
+            )
+
+        self.state_weight = 0.5 ** (0.5 / config.n_predict)
+        self.emb_weight = math.sqrt((1 - self.state_weight**2) * (self.inner_dim / 2))
+        self.activation = nn.GELU()
+        self.config = config
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, config.vocab_size, 1.0
+        )
+
+    # NOTE(woosuk): This method is commented out because it is old code
+    # using V0. We should either port it to V1 or remove it.
+
+    # def generate_proposals(
+    #     self,
+    #     input_ids: torch.Tensor,
+    #     previous_hidden_states: torch.Tensor,
+    #     num_predict_tokens: int,
+    #     sampling_metadata: SamplingMetadata,
+    # ) -> list[SamplerOutput]:
+    #     if num_predict_tokens > self.max_speculative_tokens:
+    #         raise ValueError(f"Max speculative tokens for model is "
+    #                          f"{self.max_speculative_tokens}, but "
+    #                          f"{num_predict_tokens} were requested")
+
+    #     # b x 1 x d
+    #     previous_hidden_states = previous_hidden_states.unsqueeze(1)
+
+    #     if self.scale_input:
+    #         previous_hidden_states = self.ln0(previous_hidden_states) / SQRT2
+
+    #     # b x 1
+    #     last_tokens = input_ids.unsqueeze(1)
+
+    #     next_tokens = []
+
+    #     for head_index in range(num_predict_tokens):
+
+    #         # Project and predict
+    #         z = self.emb[head_index](last_tokens)  # b k d
+    #         states = self.proj[head_index](previous_hidden_states)
+
+    #         # Weighted add of state_weight*state and emb_weight*z
+    #         # Let subsequent LN take care of denominator
+    #         # state_weight is close to 1, so shouldn't be any precision issues
+    #         states.add_(z, alpha=self.emb_weight / self.state_weight)
+
+    #         states = self.activation(self.ln[head_index](states))  # b k d
+    #         previous_hidden_states = states
+    #         # TODO: not yet supporting top_k_tokens_per_head
+    #         states = states.flatten(0, 1)
+
+    #         logits = self.logits_processor(self.head[head_index], states,
+    #                                        sampling_metadata)
+
+    #         output = self.sampler(logits, sampling_metadata)
+    #         last_tokens = output.sampled_token_ids
+    #         next_tokens.append(output)
+
+    #     return next_tokens
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            name = name.replace("speculator.", "")
+            param = params_dict.get(name)
+            if param is not None:
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/modernbert.py b/model_executor/models/modernbert.py
new file mode 100644
index 0000000..3a8a6c7
--- /dev/null
+++ b/model_executor/models/modernbert.py
@@ -0,0 +1,450 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Set
+
+import torch
+from torch import nn
+from transformers import ModernBertConfig
+from transformers.activations import ACT2FN
+
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.pooler import (
+    ClassifierPooler,
+    DispatchPooler,
+    Pooler,
+    PoolingMethod,
+    PoolingParamsUpdate,
+    PoolingType,
+)
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+from vllm.tasks import PoolingTask
+from vllm.v1.pool.metadata import PoolingMetadata
+
+from .interfaces import SupportsCrossEncoding
+from .interfaces_base import default_pooling_type
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+
+
+class ModernBertEmbeddings(nn.Module):
+    def __init__(self, config: ModernBertConfig):
+        super().__init__()
+        self.config = config
+        self.tok_embeddings = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        eps = (
+            getattr(config, "norm_eps", None)
+            or getattr(config, "layer_norm_eps", None)
+            or 1e-5
+        )
+        self.norm = nn.LayerNorm(config.hidden_size, eps=eps, bias=config.norm_bias)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.tok_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is not None:
+            return self.norm(inputs_embeds)
+        else:
+            inputs_embeds = self.tok_embeddings(input_ids)
+            embeddings = self.norm(inputs_embeds)
+            return embeddings
+
+
+class ModernBertRotaryEmbedding(RotaryEmbedding):
+    def __init__(self, config: ModernBertConfig, head_size: int, dim: int, base: float):
+        super().__init__(
+            head_size=head_size,
+            rotary_dim=dim,
+            max_position_embeddings=config.max_position_embeddings,
+            base=base,
+            is_neox_style=True,
+            dtype=torch.float16,
+        )
+        self.config = config
+
+
+class ModernBertAttention(nn.Module):
+    def __init__(self, config: ModernBertConfig, layer_id: int | None = None):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.layer_id = layer_id
+        self.deterministic_flash_attn = config.deterministic_flash_attn
+        self.num_heads = config.num_attention_heads
+        assert self.num_heads % tp_size == 0
+        self.head_dim = config.hidden_size // config.num_attention_heads
+        self.all_head_size = self.head_dim * self.num_heads
+        self.scaling = self.head_dim**-0.5
+        self.Wqkv = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.num_heads,
+            bias=config.attention_bias,
+        )
+
+        sliding_window = None
+        if layer_id % config.global_attn_every_n_layers != 0:
+            sliding_window = config.local_attention // 2
+            rope_theta = (
+                config.local_rope_theta
+                if config.local_rope_theta is not None
+                else config.global_rope_theta
+            )
+        else:
+            rope_theta = config.global_rope_theta
+
+        self.rotary_emb = ModernBertRotaryEmbedding(
+            config=config, head_size=self.head_dim, dim=self.head_dim, base=rope_theta
+        )
+        self.attn = EncoderOnlyAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            prefix=f"{layer_id}.attn",
+            per_layer_sliding_window=sliding_window,
+        )
+        self.Wo = RowParallelLinear(
+            config.hidden_size, config.hidden_size, bias=config.attention_bias
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.Wqkv(hidden_states)
+        q, k, v = qkv.split([self.all_head_size] * 3, dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_outputs = self.attn(q, k, v)
+        hidden_states = attn_outputs
+        hidden_states, _ = self.Wo(hidden_states)
+        return hidden_states
+
+
+class ModernBertMLP(nn.Module):
+    def __init__(self, config: ModernBertConfig):
+        super().__init__()
+        self.config = config
+        self.Wi = nn.Linear(
+            config.hidden_size, int(config.intermediate_size) * 2, bias=config.mlp_bias
+        )
+        self.act = nn.GELU()
+        self.Wo = RowParallelLinear(
+            config.intermediate_size, config.hidden_size, bias=config.mlp_bias
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        input, gate = self.Wi(hidden_states).chunk(2, dim=-1)
+        return self.Wo(self.act(input) * gate)[0]
+
+
+class ModernBertLayer(nn.Module):
+    def __init__(
+        self, config: ModernBertConfig, prefix: str = "", layer_id: int | None = None
+    ):
+        super().__init__()
+        self.config = config
+        if layer_id == 0:
+            self.attn_norm = nn.Identity()
+        else:
+            self.attn_norm = nn.LayerNorm(
+                config.hidden_size, eps=config.norm_eps, bias=config.norm_bias
+            )
+        self.attn = ModernBertAttention(config=config, layer_id=layer_id)
+        self.mlp_norm = nn.LayerNorm(
+            config.hidden_size, eps=config.norm_eps, bias=config.norm_bias
+        )
+        self.mlp = ModernBertMLP(config)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        attn_outputs = self.attn(
+            hidden_states=self.attn_norm(hidden_states), position_ids=position_ids
+        )
+        hidden_states = hidden_states + attn_outputs
+        mlp_output = self.mlp(self.mlp_norm(hidden_states))
+        hidden_states = hidden_states + mlp_output
+        return hidden_states
+
+
+class ModernBertEncoderLayer(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.layers = nn.ModuleList(
+            [
+                ModernBertLayer(config=config, layer_id=layer_id)
+                for layer_id in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        for i, layer in enumerate(self.layers):
+            hidden_states = layer(hidden_states, position_ids)
+        return hidden_states
+
+
+@support_torch_compile
+@default_pooling_type("CLS")
+class ModernBertModel(nn.Module):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={"layers.": "encoder_layer.layers."}
+    )
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.config = config
+        self.embeddings = ModernBertEmbeddings(config)
+        self.encoder_layer = ModernBertEncoderLayer(vllm_config)
+        self.final_norm = nn.LayerNorm(
+            config.hidden_size, eps=config.norm_eps, bias=config.norm_bias
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        weights = self.hf_to_vllm_mapper.apply(weights)
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.embeddings(
+                input_ids=input_ids, inputs_embeds=inputs_embeds
+            )
+
+        outputs = self.encoder_layer(
+            hidden_states=hidden_states,
+            position_ids=positions,
+        )
+        norm_outputs = self.final_norm(outputs)
+        return norm_outputs
+
+
+class ModernBertPooler(Pooler):
+    def __init__(self, config: ModernBertConfig):
+        super().__init__()
+
+        pooling_type = PoolingType[config.classifier_pooling.upper()]
+        self.pooling = PoolingMethod.from_pooling_type(pooling_type)
+        self.dense = nn.Linear(
+            config.hidden_size, config.hidden_size, config.classifier_bias
+        )
+        self.act = nn.GELU()
+        self.norm = nn.LayerNorm(
+            config.hidden_size, eps=config.norm_eps, bias=config.norm_bias
+        )
+
+    def get_supported_tasks(self) -> Set[PoolingTask]:
+        return self.pooling.get_supported_tasks()
+
+    def get_pooling_updates(self, task: PoolingTask) -> PoolingParamsUpdate:
+        return self.pooling.get_pooling_updates(task)
+
+    def _head(self, pooled_output: torch.Tensor):
+        pooled_output = pooled_output.to(self.dense.weight.dtype)
+        return self.norm(self.act(self.dense(pooled_output)))
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor | list[torch.Tensor],
+        pooling_metadata: PoolingMetadata,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        pooled_output = self.pooling(hidden_states, pooling_metadata)
+
+        if isinstance(pooled_output, list):
+            pooled_output = [self._head(output) for output in pooled_output]
+        else:
+            pooled_output = self._head(pooled_output)
+
+        return pooled_output
+
+
+@default_pooling_type("CLS")
+class ModernBertForSequenceClassification(nn.Module, SupportsCrossEncoding):
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.config = config
+        self.model = ModernBertModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "modernbert")
+        )
+        self.classifier = nn.Linear(
+            config.hidden_size,
+            config.num_labels,
+            dtype=vllm_config.model_config.head_dtype,
+        )
+        self.pooling = ModernBertPooler(config)
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.classifier
+                ),
+                "classify": ClassifierPooler(
+                    pooling=self.pooling, classifier=self.classifier, act_fn="classify"
+                ),
+                "score": ClassifierPooler(
+                    pooling=self.pooling, classifier=self.classifier, act_fn="score"
+                ),
+            }
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        self_weights = []
+
+        def weight_filter():
+            for name, weight in weights:
+                if name.startswith("model."):
+                    yield name[len("model.") :], weight
+                else:
+                    self_weights.append((name, weight))
+
+        self.model.load_weights(weight_filter())
+
+        params_dict = dict(self.named_parameters())
+
+        for name, loaded_weight in self_weights:
+            if name.startswith("classifier"):
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            if name.startswith("head"):
+                param = params_dict["pooling." + name[len("head") + 1 :]]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+
+    def forward(
+        self,
+        input_ids: torch.LongTensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return self.model(
+            input_ids=input_ids,
+            inputs_embeds=inputs_embeds,
+            positions=positions,
+        )
+
+
+class ModernBertPredictionHead(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.dense = nn.Linear(
+            config.hidden_size, config.hidden_size, bias=config.classifier_bias
+        )
+        self.act = ACT2FN[config.classifier_activation]
+        self.norm = nn.LayerNorm(
+            config.hidden_size,
+            eps=getattr(config, "norm_eps", 1e-5),
+            bias=getattr(config, "norm_bias", True),
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        return self.norm(self.act(self.dense(hidden_states)))
+
+
+@default_pooling_type("ALL")
+class ModernBertForTokenClassification(nn.Module):
+    is_pooling_model = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.head_dtype = vllm_config.model_config.head_dtype
+        self.num_labels = config.num_labels
+        self.model = ModernBertModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "modernbert")
+        )
+        self.head = ModernBertPredictionHead(config)
+        self.classifier = nn.Linear(
+            config.hidden_size, config.num_labels, dtype=self.head_dtype
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config=pooler_config
+                ),
+            }
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self, skip_prefixes=["drop"])
+        loaded_params = loader.load_weights(weights)
+        return loaded_params
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+        hidden_states = self.head(hidden_states)
+        hidden_states = hidden_states.to(self.head_dtype)
+        return self.classifier(hidden_states)
diff --git a/model_executor/models/module_mapping.py b/model_executor/models/module_mapping.py
new file mode 100644
index 0000000..9e7d997
--- /dev/null
+++ b/model_executor/models/module_mapping.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+#  https://github.com/modelscope/ms-swift/blob/v2.4.2/swift/utils/module_mapping.py
+
+from dataclasses import dataclass, field
+
+
+@dataclass
+class ModelKeys:
+    model_type: str = None
+
+    module_list: str = None
+
+    embedding: str = None
+
+    mlp: str = None
+
+    down_proj: str = None
+
+    attention: str = None
+
+    o_proj: str = None
+
+    q_proj: str = None
+
+    k_proj: str = None
+
+    v_proj: str = None
+
+    qkv_proj: str = None
+
+    qk_proj: str = None
+
+    qa_proj: str = None
+
+    qb_proj: str = None
+
+    kva_proj: str = None
+
+    kvb_proj: str = None
+
+    output: str = None
+
+
+@dataclass
+class MultiModelKeys(ModelKeys):
+    language_model: list[str] = field(default_factory=list)
+    connector: list[str] = field(default_factory=list)
+    # vision tower and audio tower
+    tower_model: list[str] = field(default_factory=list)
+    generator: list[str] = field(default_factory=list)
+
+    @staticmethod
+    def from_string_field(
+        language_model: str | list[str] = None,
+        connector: str | list[str] = None,
+        tower_model: str | list[str] = None,
+        generator: str | list[str] = None,
+        **kwargs,
+    ) -> "MultiModelKeys":
+        def to_list(value):
+            if value is None:
+                return []
+            return [value] if isinstance(value, str) else list(value)
+
+        return MultiModelKeys(
+            language_model=to_list(language_model),
+            connector=to_list(connector),
+            tower_model=to_list(tower_model),
+            generator=to_list(generator),
+            **kwargs,
+        )
diff --git a/model_executor/models/molmo.py b/model_executor/models/molmo.py
new file mode 100644
index 0000000..ab83a27
--- /dev/null
+++ b/model_executor/models/molmo.py
@@ -0,0 +1,1555 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from dataclasses import dataclass
+from functools import cached_property, partial
+from itertools import islice
+from typing import Annotated
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+from transformers import BatchFeature, PretrainedConfig, ProcessorMixin, TensorType
+from transformers.image_utils import ImageInput
+from transformers.tokenization_utils_base import TextInput
+
+from vllm.attention import Attention
+from vllm.attention.layer import MultiHeadAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.activation import MulAndSilu, QuickGELU, SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptIndexTargets,
+    PromptInsertion,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+# TODO: hard-coded for now. Consider making it configurable.
+VIT_LAYERS = [-2, -9]
+NUM_PREFIX_TOKENS = 1
+ADDITIONAL_VOCAB_SIZE = 128
+IMAGE_PATCH_TOKEN = "<im_patch>"
+IM_COL_TOKEN = "<im_col>"
+IM_START_TOKEN = "<im_start>"
+IM_END_TOKEN = "<im_end>"
+POOLING_SIZE = 2
+
+
+class MolmoImageInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - bnc: Batch size * number of images * number of crops (dynamic)
+        - np: Number of patches
+        - tp: Token sequence positions
+        - pd: Patch dimension
+    """
+
+    images: Annotated[torch.Tensor, TensorShape("bnc", "np", "pd")]
+
+    image_masks: Annotated[torch.Tensor | None, TensorShape("bnc", "np")]
+
+    image_input_idx: Annotated[torch.Tensor, TensorShape("bnc", "tp")]
+    """An index tensor that maps image features to their corresponding patch tokens."""
+
+    num_crops: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+@dataclass
+class VisionBackboneConfig:
+    image_default_input_size: tuple[int, int] = (336, 336)
+    image_patch_size: int = 14
+    image_pos_patch_size: int = 14
+    image_emb_dim: int = 1024
+    image_num_heads: int = 16
+    image_num_key_value_heads: int = 16
+    image_num_layers: int = 23
+    image_mlp_dim: int = 4096
+    image_mlp_activations: str = "quick_gelu"
+    image_num_pos: int = 577
+    image_norm_eps: float = 1e-5
+
+    def __post_init__(self):
+        self.image_default_input_size = tuple(self.image_default_input_size)  # type: ignore[assignment]
+
+    @property
+    def image_num_patch(self):
+        h, w = self.image_default_input_size
+        return h // self.image_patch_size, w // self.image_patch_size
+
+
+class ViTMLP(nn.Module):
+    """MLP used in Vision Transformer."""
+
+    def __init__(
+        self,
+        config: VisionBackboneConfig,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.w1 = ColumnParallelLinear(
+            config.image_emb_dim,
+            config.image_mlp_dim,
+            bias=True,
+            quant_config=quant_config,
+        )
+        # Activation function.
+        assert config.image_mlp_activations == "quick_gelu"
+        self.act = QuickGELU()
+        self.w2 = RowParallelLinear(
+            config.image_mlp_dim,
+            config.image_emb_dim,
+            bias=True,
+            quant_config=quant_config,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.w1(x)
+        x = self.act(x)
+        x, _ = self.w2(x)
+        return x
+
+
+class MultiHeadDotProductAttention(nn.Module):
+    """Multi-head attention used in Vision Transformer."""
+
+    def __init__(
+        self,
+        config: VisionBackboneConfig,
+        use_bias: bool = True,
+        nlayers: int = 1,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+
+        self.hidden_size = config.image_emb_dim
+        self.total_num_heads = config.image_num_heads
+        tp_size = get_tensor_model_parallel_world_size()
+
+        assert self.hidden_size % self.total_num_heads == 0
+        assert self.total_num_heads % tp_size == 0
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+
+        self.total_num_kv_heads = config.image_num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            assert tp_size % self.total_num_kv_heads == 0
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.wq = ColumnParallelLinear(
+            nlayers * self.hidden_size,
+            self.total_num_heads * self.head_dim,
+            bias=use_bias,
+            quant_config=quant_config,
+        )
+        self.wk = ColumnParallelLinear(
+            nlayers * self.hidden_size,
+            self.total_num_kv_heads * self.head_dim,
+            bias=use_bias,
+            quant_config=quant_config,
+        )
+        self.wv = ColumnParallelLinear(
+            nlayers * self.hidden_size,
+            self.total_num_kv_heads * self.head_dim,
+            bias=use_bias,
+            quant_config=quant_config,
+        )
+        self.wo = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=use_bias,
+            quant_config=quant_config,
+        )
+
+        self.scale = self.head_dim**-0.5
+        self.attn = MultiHeadAttention(
+            self.num_heads, self.head_dim, self.scale, num_kv_heads=self.num_kv_heads
+        )
+
+    def forward(
+        self, inputs_q: torch.Tensor, inputs_kv: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        if inputs_kv is not None:
+            inputs_k = inputs_kv
+            inputs_v = inputs_kv
+        else:
+            inputs_k = inputs_q
+            inputs_v = inputs_q
+
+        xq, _ = self.wq(inputs_q)
+        xk, _ = self.wk(inputs_k)
+        xv, _ = self.wv(inputs_v)
+
+        output = self.attn(xq, xk, xv)
+        output, _ = self.wo(output)
+
+        return output
+
+
+class ResidualAttentionBlock(nn.Module):
+    """Residual attention block used in Vision Transformer."""
+
+    def __init__(
+        self,
+        config: VisionBackboneConfig,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.attention = MultiHeadDotProductAttention(config, quant_config=quant_config)
+        self.feed_forward = ViTMLP(config, quant_config)
+        self.attention_norm = nn.LayerNorm(
+            config.image_emb_dim,
+            eps=config.image_norm_eps,
+        )
+        self.ffn_norm = nn.LayerNorm(
+            config.image_emb_dim,
+            eps=config.image_norm_eps,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = x + self.attention(self.attention_norm(x))
+        x = x + self.feed_forward(self.ffn_norm(x))
+        return x
+
+
+class BlockCollection(nn.Module):
+    """Collection of residual attention blocks used in Vision Transformer."""
+
+    def __init__(
+        self,
+        config: VisionBackboneConfig,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.resblocks = nn.ModuleList(
+            [
+                ResidualAttentionBlock(config, quant_config)
+                for _ in range(config.image_num_layers)
+            ]
+        )
+
+    def forward(self, x: torch.Tensor) -> list[torch.Tensor]:
+        hidden_states = []
+        for r in self.resblocks:
+            x = r(x)
+            hidden_states.append(x)
+        return hidden_states
+
+
+def _expand_token(token: torch.Tensor, batch_size: int) -> torch.Tensor:
+    return token.view(1, 1, -1).expand(batch_size, -1, -1)
+
+
+class VisionTransformer(nn.Module):
+    """Vision Transformer used in Vision Backbone."""
+
+    def __init__(
+        self,
+        config: VisionBackboneConfig,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        scale = config.image_emb_dim**-0.5
+        self.patch_num = config.image_num_patch
+        self.class_embedding = nn.Parameter(torch.randn(config.image_emb_dim) * scale)
+        self.num_prefix_tokens: int = NUM_PREFIX_TOKENS
+        self.positional_embedding = nn.Parameter(
+            torch.randn(config.image_num_pos, config.image_emb_dim) * scale
+        )
+        image_patch_size = config.image_patch_size
+        self.patch_embedding = nn.Linear(
+            image_patch_size * image_patch_size * 3,
+            config.image_emb_dim,
+            bias=False,
+        )
+        self.pre_ln = nn.LayerNorm(config.image_emb_dim, eps=config.image_norm_eps)
+        self.transformer = BlockCollection(config, quant_config)
+
+    def add_pos_emb(self, x: torch.Tensor, patch_num: int) -> torch.Tensor:
+        cls_emb = self.positional_embedding[0:1]
+        pos_emb = self.positional_embedding[1:]
+
+        pos_emb = pos_emb.reshape(
+            (
+                int(math.sqrt(pos_emb.shape[0])),
+                int(math.sqrt(pos_emb.shape[0])),
+                pos_emb.shape[1],
+            )
+        )
+
+        (patch_num_0, patch_num_1) = patch_num
+
+        if pos_emb.shape[0] != patch_num_0 or pos_emb.shape[1] != patch_num_1:
+            # from https://github.com/facebookresearch/mae/blob/main/util/pos_embed.py
+            pos_emb = pos_emb.unsqueeze(0).permute(0, 3, 1, 2)
+            pos_emb = F.interpolate(
+                pos_emb,
+                size=(patch_num_0, patch_num_1),
+                mode="bicubic",
+                align_corners=False,
+                antialias=True,
+            )
+            pos_emb = pos_emb.permute(0, 2, 3, 1).squeeze(0)
+
+        pos_emb = pos_emb.reshape(-1, pos_emb.shape[-1])
+        x = x + torch.cat([cls_emb[None, :, :], pos_emb[None, :, :]], dim=1).to(x.dtype)
+        return x
+
+    def forward(
+        self, x: torch.Tensor, patch_num: int | None = None
+    ) -> list[torch.Tensor]:
+        """
+        : param x: (batch_size, num_patch, n_pixels)
+        """
+        if patch_num is None:
+            patch_num = self.patch_num
+        B, N, D = x.shape
+
+        x = self.patch_embedding(x)
+
+        # class embeddings and positional embeddings
+        x = torch.cat(
+            [_expand_token(self.class_embedding, x.shape[0]).to(x.dtype), x], dim=1
+        )
+        x = self.add_pos_emb(x, patch_num)
+
+        x = self.pre_ln(x)
+
+        hidden_states = self.transformer(x)
+        return hidden_states
+
+
+class MolmoAttention(nn.Module):
+    """Molmo's LLM attention."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+
+        assert self.hidden_size % self.total_num_heads == 0
+        assert self.total_num_heads % self.tp_size == 0
+
+        self.num_heads = self.total_num_heads // self.tp_size
+        self.total_num_kv_heads = config.num_key_value_heads or self.total_num_heads
+        if self.total_num_kv_heads >= self.tp_size:
+            assert self.total_num_kv_heads % self.tp_size == 0
+        else:
+            assert self.tp_size % self.total_num_kv_heads == 0
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // self.tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+
+        # Attention input projection. Projects x -> (q, k, v)
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=config.qkv_bias,
+            quant_config=quant_config,
+        )
+
+        self.tp_rank: int | None = None
+        self.k_norm: nn.Module | None = None
+        self.q_norm: nn.Module | None = None
+        if config.attention_layer_norm:
+            self.tp_rank = get_tensor_model_parallel_rank()
+            self.k_norm = RMSNorm(
+                self.total_num_kv_heads * self.head_dim, eps=config.layer_norm_eps
+            )
+            self.q_norm = RMSNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+        # Rotary embeddings.
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+        )
+        self.scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        # Attention output projection.
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+    def _apply_qk_norm(
+        self, q: torch.Tensor, k: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.tp_size > 1:
+            q = tensor_model_parallel_all_gather(q.contiguous())
+            k = tensor_model_parallel_all_gather(k.contiguous())
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+        return q, k
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        if self.q_norm is not None and self.k_norm is not None:
+            q, k = self._apply_qk_norm(q, k)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class LanguageModelMLP(nn.Module):
+    """Molmo's LLM mlp."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        input_dim: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size // 2
+
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_dim or self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+        )
+        # Activation function.
+        self.act_fn = MulAndSilu()
+        # Feed-forward output projection.
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class ImageProjectorMLP(nn.Module):
+    """Molmo's image_projector mlp."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        input_dim: int | None = None,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size // 2
+
+        self.merged_linear = MergedColumnParallelLinear(
+            input_dim or self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+        )
+        # Activation function.
+        self.act_fn = SiluAndMul()
+
+        # Feed-forward output projection.
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        gate_up, _ = self.merged_linear(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class MolmoDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        # Attention block.
+        self.self_attn = MolmoAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attn"
+        )
+
+        # MLP block.
+        self.mlp = LanguageModelMLP(config, quant_config=quant_config)
+
+        # LayerNorm
+        assert config.layer_norm_type == "rms"
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, tuple[torch.Tensor, torch.Tensor] | None]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+class MolmoDecoderNormAfterLayer(MolmoDecoderLayer):
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, tuple[torch.Tensor, torch.Tensor] | None]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = hidden_states + residual
+        residual = hidden_states
+
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = hidden_states + residual
+        residual = None
+        return hidden_states, residual
+
+
+class MolmoVisionBackbone(nn.Module, SupportsQuant):
+    packed_modules_mapping = {"merged_linear": ["gate_proj", "up_proj"]}
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        vision_config: VisionBackboneConfig,
+        quant_config: QuantizationConfig | None = None,
+    ) -> None:
+        super().__init__()
+        self.vit_layers = VIT_LAYERS
+        self.image_num_patch = vision_config.image_num_patch
+        self.llm_patches_per_crop = (
+            (self.image_num_patch[0] + 1) // POOLING_SIZE,
+            (self.image_num_patch[1] + 1) // POOLING_SIZE,
+        )
+        self.image_vit = VisionTransformer(vision_config, quant_config=quant_config)
+        self.num_prefix_tokens = self.image_vit.num_prefix_tokens
+        assert self.num_prefix_tokens in {0, 1}, (
+            "Only 0 or 1 prefix tokens are supported"
+        )
+        self.image_pooling_2d = MultiHeadDotProductAttention(
+            vision_config, nlayers=len(self.vit_layers), quant_config=quant_config
+        )
+        self.image_projector = ImageProjectorMLP(
+            config,
+            input_dim=vision_config.image_emb_dim,
+            quant_config=quant_config,
+        )
+
+        image_dim = vision_config.image_emb_dim * len(self.vit_layers)
+        self.pad_embed = nn.Parameter(torch.zeros((2, image_dim)))
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.image_vit.patch_embedding.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.image_vit.patch_embedding.weight.device
+
+    def encode_image(self, images: torch.Tensor) -> torch.Tensor:
+        """
+        : param images: (batch_size, num_crops, num_patch, n_pixels)
+        """
+        B, T, N, D = images.shape
+
+        mask = ~torch.all(images.view(B * T, N, D) == -1, dim=(1, 2), keepdim=True)
+
+        images = images.view(B * T, N, D)
+        image_features = self.image_vit(images)
+
+        if self.vit_layers is not None:
+            features = []
+            for layer in self.vit_layers:
+                features.append(image_features[layer])
+            image_features = torch.cat(features, dim=-1)
+        else:
+            image_features = image_features[-1]
+
+        if self.num_prefix_tokens > 0:
+            image_features = image_features[:, 1:]
+
+        image_features = image_features * mask
+        image_features = image_features.view(B, T, N, -1)
+
+        return image_features
+
+    def forward(
+        self,
+        images: torch.Tensor,
+        image_masks: torch.Tensor,
+    ) -> torch.Tensor:
+        # image_features: (batch_size, num_crops(=num_image), num_patch, nximage_emb_dim) # noqa: E501
+        batch_size, num_image = images.shape[:2]
+        images = images.to(device=self.device, dtype=self.dtype)
+        image_features = self.encode_image(images)
+
+        og_dtype = image_features.dtype
+        assert image_masks is not None
+        pad_embed = self.pad_embed[:, None, None, None, :]
+        all_pad = image_masks == 0
+        partial_pad = torch.logical_and(image_masks < 1, torch.logical_not(all_pad)).to(
+            dtype=torch.float32
+        )
+        all_pad = all_pad.to(dtype=torch.float32)
+        image_features = image_features + pad_embed[0] * torch.unsqueeze(all_pad, -1)
+        image_features = image_features + pad_embed[1] * torch.unsqueeze(
+            partial_pad, -1
+        )
+
+        image_features = image_features.to(og_dtype)
+
+        image_features = image_features.reshape(
+            (batch_size, num_image) + self.image_num_patch + (-1,),
+        )
+
+        if missing_w := self.image_num_patch[0] % POOLING_SIZE:
+            # Padding for image pooling (see below)
+            image_features = F.pad(
+                image_features,
+                (0, 0, 0, missing_w, 0, missing_w, 0, 0, 0, 0),
+            )
+
+        # image pooling
+        image_features = rearrange(
+            image_features,
+            "b n (h dh) (w dw) c -> (b n h w) (dh dw) c",
+            dh=POOLING_SIZE,
+            dw=POOLING_SIZE,
+        )
+
+        query = image_features.mean(-2, keepdim=True)
+        image_features = self.image_pooling_2d(query, image_features)
+
+        h, w = self.llm_patches_per_crop
+        image_features = image_features.view(batch_size, num_image, h * w, -1)
+
+        image_features = self.image_projector(image_features)
+
+        # image_features: (batch_size, num_image, num_patch, d_model)
+        return image_features
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("merged_linear", "gate_proj", 0),
+            ("merged_linear", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@support_torch_compile
+class MolmoModel(nn.Module, SupportsQuant):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.embedding_size = config.embedding_size or config.vocab_size
+        self.embedding_size += ADDITIONAL_VOCAB_SIZE
+        self.embed_tokens = VocabParallelEmbedding(
+            self.embedding_size,
+            config.hidden_size,
+            quant_config=quant_config,
+        )
+
+        decoder_layer = (
+            MolmoDecoderNormAfterLayer if config.norm_after else MolmoDecoderLayer
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        assert config.layer_norm_type == "rms"
+        self.norm = RMSNorm(config.hidden_size, config.layer_norm_eps)
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_tokens(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        # Apply blocks one-by-one.
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        if residual is not None:
+            hidden_states, _ = self.norm(hidden_states, residual)
+        else:
+            hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+def _lowest_multiple(x: int, k: int) -> int:
+    return (x // k) * k
+
+
+def get_num_patches(
+    num_tiles: int,
+    *,
+    crop_patches: int,
+    left_margin: int,
+    right_margin: int,
+    pooling_size: int,
+) -> int:
+    if num_tiles == 1:
+        return _lowest_multiple(crop_patches + pooling_size - 1, pooling_size)
+
+    crop_window_patches = crop_patches - (left_margin + right_margin)
+
+    left_num = _lowest_multiple(
+        crop_window_patches + left_margin + pooling_size - 1,
+        pooling_size,
+    )
+    middle_num = _lowest_multiple(
+        crop_window_patches + pooling_size - 1,
+        pooling_size,
+    )
+    right_num = _lowest_multiple(
+        crop_window_patches + right_margin + pooling_size - 1,
+        pooling_size,
+    )
+
+    return left_num + (num_tiles - 2) * middle_num + right_num
+
+
+def get_patches_grid_size(
+    *,
+    tiling_h: int,
+    tiling_w: int,
+    crop_patches: int,
+    left_margin: int,
+    right_margin: int,
+    pooling_size: int,
+) -> tuple[int, int]:
+    nrows = get_num_patches(
+        tiling_h,
+        crop_patches=crop_patches,
+        left_margin=left_margin,
+        right_margin=right_margin,
+        pooling_size=pooling_size,
+    )
+    ncols = get_num_patches(
+        tiling_w,
+        crop_patches=crop_patches,
+        left_margin=left_margin,
+        right_margin=right_margin,
+        pooling_size=pooling_size,
+    )
+
+    return nrows, ncols
+
+
+def get_candidate_tilings(max_num: int) -> list[tuple[int, int]]:
+    tilings = [
+        (i, j)
+        for i in range(1, max_num + 1)
+        for j in range(1, max_num + 1)
+        if i * j <= max_num
+    ]
+    return sorted(tilings, key=lambda x: x[0] * x[1])
+
+
+def select_tiling(
+    *,
+    height: int,
+    width: int,
+    patch_size: int,
+    max_num_patches: int,
+):
+    tilings = get_candidate_tilings(max_num_patches)
+    candidate_tilings = np.array(tilings, dtype=np.int32)
+    candidate_resolutions = candidate_tilings * patch_size
+
+    original_size = np.array([height, width], dtype=np.float32)
+    required_scale_d = candidate_resolutions.astype(np.float32) / original_size
+    required_scale = required_scale_d.min(axis=-1, keepdims=True)
+
+    if (required_scale < 1).all():
+        ix = required_scale.argmax()
+    else:
+        ix = np.where(required_scale < 1.0, 10e9, required_scale).argmin()
+
+    return candidate_tilings[ix]
+
+
+class MolmoProcessorWrapper:
+    """
+    Wraps `MolmoProcessor` so that it can be called directly.
+
+    The original definition can be found here:
+    https://huggingface.co/allenai/Molmo-7B-D-0924/blob/main/preprocessing_molmo.py
+    """
+
+    def __init__(self, processor: ProcessorMixin):
+        super().__init__()
+
+        self.processor = processor
+
+    @cached_property
+    def vocab(self) -> dict[str, int]:
+        return self.processor.tokenizer.vocab  # type: ignore
+
+    @cached_property
+    def max_crops(self) -> int:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        max_crops = image_processor.max_crops
+        assert isinstance(max_crops, int)
+
+        return max_crops
+
+    @cached_property
+    def base_image_input_size(self) -> tuple[int, int]:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        base_image_input_size = image_processor.base_image_input_size
+        if isinstance(base_image_input_size, int):
+            return base_image_input_size, base_image_input_size
+
+        return tuple(base_image_input_size)
+
+    @cached_property
+    def image_patch_size(self) -> int:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        image_patch_size = image_processor.image_patch_size
+        assert isinstance(image_patch_size, int)
+
+        return image_patch_size
+
+    @cached_property
+    def overlap_margins(self) -> tuple[int, int]:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        left_margin, right_margin = image_processor.overlap_margins
+        assert isinstance(left_margin, int)
+        assert isinstance(right_margin, int)
+
+        return left_margin, right_margin
+
+    @cached_property
+    def image_token_length_w(self) -> int:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        image_token_length_w = image_processor.image_token_length_w
+        assert isinstance(image_token_length_w, int)
+
+        return image_token_length_w
+
+    @cached_property
+    def image_token_length_h(self) -> int:
+        image_processor = self.processor.image_processor  # type: ignore
+
+        image_token_length_h = image_processor.image_token_length_h
+        assert isinstance(image_token_length_h, int)
+
+        return image_token_length_h
+
+    @property
+    def message_format(self) -> str | None:
+        return "role"
+
+    @property
+    def always_start_with_space(self) -> bool:
+        return True
+
+    @cached_property
+    def image_patch_id(self) -> int:
+        return self.vocab[IMAGE_PATCH_TOKEN]
+
+    @cached_property
+    def im_col_id(self) -> int:
+        return self.vocab[IM_COL_TOKEN]
+
+    @cached_property
+    def im_start_id(self) -> int:
+        return self.vocab[IM_START_TOKEN]
+
+    @cached_property
+    def im_end_id(self) -> int:
+        return self.vocab[IM_END_TOKEN]
+
+    @property
+    def pooling_size(self) -> int:
+        return POOLING_SIZE
+
+    def select_tiling(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> tuple[int, int]:
+        max_crops = self.max_crops
+        left_margin, right_margin = self.overlap_margins
+        base_image_input_size = self.base_image_input_size
+        base_image_input_d = self.image_patch_size
+
+        total_margin_pixels = base_image_input_d * (right_margin + left_margin)
+        crop_patches = base_image_input_size[0] // base_image_input_d
+        crop_window_patches = crop_patches - (right_margin + left_margin)
+        crop_window_size = crop_window_patches * base_image_input_d
+        tiling_h, tiling_w = select_tiling(
+            height=image_height - total_margin_pixels,
+            width=image_width - total_margin_pixels,
+            patch_size=crop_window_size,
+            max_num_patches=max_crops,
+        )
+
+        return tiling_w, tiling_h
+
+    def get_patches_grid_size(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> tuple[int, int]:
+        left_margin, right_margin = self.overlap_margins
+        base_image_input_size = self.base_image_input_size
+        base_image_input_d = self.image_patch_size
+        pooling_size = self.pooling_size
+
+        crop_patches = base_image_input_size[0] // base_image_input_d
+        tiling_w, tiling_h = self.select_tiling(
+            image_height=image_height,
+            image_width=image_width,
+        )
+
+        nrows, ncols = get_patches_grid_size(
+            tiling_h=tiling_h,
+            tiling_w=tiling_w,
+            crop_patches=crop_patches,
+            left_margin=left_margin,
+            right_margin=right_margin,
+            pooling_size=pooling_size,
+        )
+
+        return ncols, nrows
+
+    def __call__(
+        self,
+        text: TextInput | list[TextInput] | None = None,
+        images: ImageInput | list[ImageInput] | None = None,
+        return_tensors: str | TensorType | None = None,
+        **kwargs,
+    ) -> BatchFeature:
+        outputs = self.processor.process(  # type: ignore
+            text, images, **kwargs
+        )
+
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        input_ids: torch.Tensor = outputs.pop("input_ids")
+        outputs["input_ids"] = input_ids.unsqueeze(0)
+
+        image_input_idx = outputs.pop("image_input_idx", None)
+        if image_input_idx is not None:
+            feat_is_patch = image_input_idx >= 0
+
+            tilings = [
+                self.select_tiling(
+                    image_width=image.size[0],
+                    image_height=image.size[1],
+                )
+                for image in images
+            ]
+            # For each image: tiling_h * tiling_w + extra
+            num_crops = torch.tensor(tilings).prod(-1) + 1
+            assert num_crops.sum() == len(feat_is_patch)
+
+            outputs["image_input_idx"] = image_input_idx
+            outputs["num_crops"] = num_crops
+            outputs["img_patch_id"] = self.image_patch_id
+
+        return BatchFeature(outputs)
+
+
+class MolmoProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> MolmoProcessorWrapper:
+        processor = self.ctx.get_hf_processor(**kwargs)
+        return MolmoProcessorWrapper(processor)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: MolmoProcessorWrapper | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        ncols, nrows = processor.get_patches_grid_size(
+            image_width=image_width,
+            image_height=image_height,
+        )
+        pooling_size = processor.pooling_size
+
+        image_token_length_w = processor.image_token_length_w
+        image_token_length_h = processor.image_token_length_h
+
+        # Calculate total tokens: 2 for start/end + (w+1)*h for column separators
+        extra = 2 + (image_token_length_w + 1) * image_token_length_h
+        joint = 2 + ((ncols + 1) // pooling_size + 1) * ((nrows + 1) // pooling_size)
+
+        return extra + joint
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        tilings = get_candidate_tilings(processor.max_crops)
+        base_h, base_w = processor.base_image_input_size
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for wr, hr in tilings:
+            width, height = base_w * wr, base_h * hr
+
+            feat_size = self.get_num_image_tokens(
+                image_width=width,
+                image_height=height,
+                processor=processor,
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        if largest_feature_size == 0 or largest_feature_pinpoint is None:
+            raise ValueError("Cannot have a largest feature size of 0!")
+
+        return largest_feature_pinpoint
+
+
+class MolmoDummyInputsBuilder(BaseDummyInputsBuilder[MolmoProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class MolmoMultiModalProcessor(BaseMultiModalProcessor[MolmoProcessingInfo]):
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        processor = self.info.get_hf_processor()
+
+        # The chat template is already applied to the prompt tokens
+        # Use message_format="none" to avoid applying it again
+        # Prepend an empty space if `always_start_with_space` is True
+        tokens = processor.processor.get_tokens_input(  # type: ignore
+            self.info.get_tokenizer().decode(prompt_tokens),
+            message_format="none",
+            always_start_with_space=processor.always_start_with_space,
+        )
+
+        # Prepend a BOS token id to the tokens
+        processed_data = self.info.ctx.call_hf_processor(
+            processor,  # type: ignore
+            dict(tokens=tokens),
+        )
+        (prompt_ids,) = processed_data.pop("input_ids").tolist()
+
+        return prompt_ids
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_crops = hf_inputs.get("num_crops", torch.empty(0))
+        num_images = len(num_crops)
+
+        return dict(
+            images=MultiModalFieldConfig.flat_from_sizes("image", num_crops),
+            image_masks=MultiModalFieldConfig.flat_from_sizes("image", num_crops),
+            image_input_idx=MultiModalFieldConfig.flat_from_sizes("image", num_crops),
+            num_crops=MultiModalFieldConfig.batched("image"),
+            img_patch_id=MultiModalFieldConfig.shared("image", num_images),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        image_token_length_w = processor.image_token_length_w
+        image_token_length_h = processor.image_token_length_h
+        pooling_size = processor.pooling_size
+
+        img_patch_id = processor.image_patch_id
+        img_col_id = processor.im_col_id
+        img_start_id = processor.im_start_id
+        img_end_id = processor.im_end_id
+
+        extra_row = [img_patch_id] * image_token_length_w + [img_col_id]
+        extra_joint = [img_start_id] + extra_row * image_token_length_h + [img_end_id]
+
+        def get_insertion_molmo(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            ncols, nrows = processor.get_patches_grid_size(
+                image_width=image_size.width,
+                image_height=image_size.height,
+            )
+
+            joint_row = [img_patch_id] * ((ncols + 1) // pooling_size) + [img_col_id]
+            joint = (
+                [img_start_id]
+                + joint_row * ((nrows + 1) // pooling_size)
+                + [img_end_id]
+            )
+
+            return PromptUpdateDetails.select_token_id(
+                extra_joint + joint,
+                embed_token_id=img_patch_id,
+            )
+
+        return [
+            PromptInsertion(
+                modality="image",
+                target=PromptIndexTargets.prefix("<|endoftext|>"),
+                insertion=get_insertion_molmo,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MolmoMultiModalProcessor,
+    info=MolmoProcessingInfo,
+    dummy_inputs=MolmoDummyInputsBuilder,
+)
+class MolmoForCausalLM(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA, SupportsQuant
+):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            # vision backbone mapping
+            "image_projector.w1.": "image_projector.gate_proj.",
+            "image_projector.w3.": "image_projector.up_proj.",
+            "image_projector.w2.": "image_projector.down_proj.",
+            # language backbone mapping
+            "att_proj": "self_attn.qkv_proj",
+            "attn_out": "self_attn.o_proj",
+            "q_norm": "self_attn.q_norm",
+            "k_norm": "self_attn.k_norm",
+            "ff_proj": "mlp.gate_up_proj",
+            "ff_out": "mlp.down_proj",
+            "attn_norm": "input_layernorm",
+            "ff_norm": "post_attention_layernorm",
+        },
+        orig_to_new_prefix={
+            # vision backbone mapping
+            "model.vision_backbone.": "vision_backbone.",
+            # language backbone mapping
+            "model.transformer.blocks.": "model.layers.",
+            "model.transformer.ln_f.": "model.norm.",
+            # lm_head is renamed to model.transformer.mlp.down_proj firstly,
+            # we need to run a second renaming for it
+            "model.transformer.mlp.down_proj.": "lm_head.",
+        },
+    )
+
+    packed_modules_mapping = {
+        "qkv_proj": ["qkv_proj"],
+        "gate_up_proj": ["gate_up_proj"],  # language model
+        "merged_linear": ["gate_proj", "up_proj"],  # image_projector
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        vision_config = VisionBackboneConfig()
+        self.vision_backbone = MolmoVisionBackbone(config, vision_config, quant_config)
+        self.model = MolmoModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.img_patch_id = None
+
+        if self.config.weight_tying:
+            self.lm_head = self.model.transformer.wte
+        else:
+            self.lm_head = ParallelLMHead(
+                config.embedding_size or config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(
+            config.embedding_size or config.vocab_size
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self,
+        **kwargs: object,
+    ) -> MolmoImageInputs | None:
+        images = kwargs.pop("images", None)
+        image_masks = kwargs.pop("image_masks", None)
+        image_input_idx = kwargs.pop("image_input_idx", None)
+        num_crops = kwargs.pop("num_crops", None)
+
+        if images is None:
+            return None
+
+        img_patch_id = kwargs.pop("img_patch_id", None)
+        if isinstance(img_patch_id, torch.Tensor):
+            img_patch_id = img_patch_id.item()
+
+        assert isinstance(img_patch_id, int)
+        self.img_patch_id = img_patch_id
+
+        return MolmoImageInputs(
+            images=images,
+            image_masks=image_masks,
+            image_input_idx=image_input_idx,
+            num_crops=num_crops,
+        )
+
+    def _process_image_input(
+        self,
+        image_input: MolmoImageInputs,
+    ) -> list[torch.Tensor]:
+        images = image_input["images"]
+        image_masks = image_input["image_masks"]
+        image_input_idx = image_input["image_input_idx"]
+        num_crops = image_input["num_crops"]
+
+        # Call the vision backbone on the whole batch at once
+        image_features = self.vision_backbone(
+            images=images.unsqueeze(0),
+            image_masks=None if image_masks is None else image_masks.unsqueeze(0),
+        ).squeeze(0)
+
+        # Only the features corresponding to patch tokens are relevant
+        # Re-order the features using the image_input_idx tensor
+        results = []
+        num_crops_list = num_crops.tolist()
+        for feats, img_idx in zip(
+            image_features.split(num_crops_list),
+            image_input_idx.split(num_crops_list),
+        ):
+            is_valid = img_idx >= 0
+            valid_img_idx = img_idx[is_valid]
+            order = torch.argsort(valid_img_idx)
+            results.append(feats[is_valid][order])
+        return results
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.LongTensor,
+        positions: torch.LongTensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        weights = _get_weights_with_merged_embedding(weights)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="model",
+            connector="vision_backbone.image_projector",
+            tower_model="vision_backbone",
+        )
+
+
+def _get_weights_with_merged_embedding(
+    weights: Iterable[tuple[str, torch.Tensor]],
+) -> Iterable[tuple[str, torch.Tensor]]:
+    embedding_weights = {}
+    for name, weight in weights:
+        if "wte.embedding" in name:
+            embedding_weights["embedding"] = weight
+        elif "wte.new_embedding" in name:
+            embedding_weights["new_embedding"] = weight
+        else:
+            yield (name, weight)
+    # this is compatible with most of quantization,
+    # because they won't quantize embed_tokens
+    embedding_weights = torch.cat(
+        [embedding_weights["embedding"], embedding_weights["new_embedding"]],
+        dim=0,
+    )
+    yield ("model.embed_tokens.weight", embedding_weights)
diff --git a/model_executor/models/moonvit.py b/model_executor/models/moonvit.py
new file mode 100644
index 0000000..8017c94
--- /dev/null
+++ b/model_executor/models/moonvit.py
@@ -0,0 +1,677 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# ruff: noqa: E501
+# Adapted from https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/blob/main/modeling_kimi_vl.py
+# This file is meant to be used in kimi_vl.py only
+# Copyright 2025 The Moonshot AI Team, DeepSeek-AI, and HuggingFace Inc. team. All rights reserved.
+#
+# The code is based on llava (llava/modeling_llava.py) and DeepSeek-V3 (DeepSeek-V3/modeling_deepseek.py), but modified for KimiVL.
+#
+# Licensing Information:
+# - Code derived from llava (llava/modeling_llava.py) and DeepSeek-V3 (DeepSeek-V3/modeling_deepseek.py) is licensed under the Apache License, Version 2.0.
+# - Other parts of the code are licensed under the MIT License.
+#
+# Apache License, Version 2.0:
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# MIT License:
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+from collections.abc import Sequence
+from copy import deepcopy
+from functools import cached_property
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers.activations import ACT2FN
+from transformers.modeling_utils import PreTrainedModel
+from transformers.utils import is_flash_attn_2_available
+
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.models.utils import maybe_prefix
+from vllm.transformers_utils.configs.moonvit import MoonViTConfig
+
+if is_flash_attn_2_available():
+    from flash_attn import flash_attn_varlen_func
+else:
+    flash_attn_varlen_func = None
+
+
+def multihead_attention(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    q_cu_seqlens: torch.Tensor | None = None,
+    k_cu_seqlens: torch.Tensor | None = None,
+) -> torch.Tensor:
+    """Multi-head attention using flash attention 2.
+
+    Args:
+        q: Query tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        k: Key tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        v: Value tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        q_cu_seqlens (torch.Tensor): cumulative sequence lengths of q.
+            The first element should be 0 and the last element should be q.shape[0].
+        k_cu_seqlens (torch.Tensor): cumulative sequence lengths of k.
+            The first element should be 0 and the last element should be k.shape[0].
+
+    Returns:
+        output: shape (batch_size, seqlen, dim) or (tot_seqlens, dim) if packing,
+            where dim = num_heads * head_dim
+    """
+    # Unified format legal check
+    assert q.dim() == k.dim() == v.dim() == 3, "q, k, v must have 3 dims"
+    assert q_cu_seqlens[-1] == q.shape[0], "q_cu_seqlens must sum to q.shape[0]"
+    assert k_cu_seqlens[-1] == k.shape[0] == v.shape[0], (
+        "k_cu_seqlens must sum to k.shape[0]"
+    )
+    assert q.dtype in [
+        torch.bfloat16,
+        torch.float16,
+    ], f"unsupported dtype {q.dtype} for multihead attn"
+
+    max_seqlen_q = (q_cu_seqlens[1:] - q_cu_seqlens[:-1]).max().item()
+    max_seqlen_k = (k_cu_seqlens[1:] - k_cu_seqlens[:-1]).max().item()
+    attn_out = flash_attn_varlen_func(
+        q,
+        k,
+        v,
+        q_cu_seqlens,
+        k_cu_seqlens,
+        max_seqlen_q,
+        max_seqlen_k,
+        causal=False,
+    )
+    attn_out = attn_out.flatten(start_dim=-2)
+
+    return attn_out
+
+
+def sdpa_attention(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    q_cu_seqlens: torch.Tensor | None = None,
+    k_cu_seqlens: torch.Tensor | None = None,
+) -> torch.Tensor:
+    """SDPA attention.
+
+    Args:
+        q: Query tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        k: Key tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        v: Value tensor of shape (batch_size, seqlen, num_heads, head_dim),
+            or (tot_seqlens, num_heads, head_dim) if packing.
+        q_cu_seqlens: Optional cumulative sequence lengths of q.
+        k_cu_seqlens: Optional cumulative sequence lengths of k.
+    """
+    seq_length = q.shape[0]
+    attention_mask = torch.zeros(
+        [1, seq_length, seq_length], device=q.device, dtype=torch.bool
+    )
+    for i in range(1, len(q_cu_seqlens)):
+        attention_mask[
+            ...,
+            q_cu_seqlens[i - 1] : q_cu_seqlens[i],
+            q_cu_seqlens[i - 1] : q_cu_seqlens[i],
+        ] = True
+    q = q.transpose(0, 1)
+    k = k.transpose(0, 1)
+    v = v.transpose(0, 1)
+    attn_output = F.scaled_dot_product_attention(q, k, v, attention_mask, dropout_p=0.0)
+    attn_output = attn_output.transpose(0, 1)
+    attn_output = attn_output.reshape(seq_length, -1)
+    return attn_output
+
+
+VL_VISION_ATTENTION_FUNCTIONS = {
+    "flash_attention_2": multihead_attention,
+    "sdpa": sdpa_attention,
+}
+
+
+def _apply_rope_input_validation(x, freqs_cis):
+    assert x.ndim == freqs_cis.ndim + 1, (x.shape, freqs_cis.shape)
+    assert x.shape[:-2] == freqs_cis.shape[:-1], (x.shape, freqs_cis.shape)
+    assert x.shape[-1] == 2 * freqs_cis.shape[-1], (x.shape, freqs_cis.shape)
+    assert freqs_cis.dtype == torch.complex64, freqs_cis.dtype
+
+
+def apply_rope(
+    xq: torch.Tensor, xk: torch.Tensor, freqs_cis: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Args: (The leading dimensions of all inputs should be the same)
+        xq: query, tensor of shape (..., num_heads, head_dim)
+        xk: key, tensor of shape (..., num_heads, head_dim)
+        freqs_cis: tensor of shape (..., head_dim/2), dtype=torch.complex64. It contains the precomputed cis(freqs) for each position in the 2D grid.
+    Returns:
+        xq_out, xk_out: tensors of shape (..., num_heads, head_dim)
+    """
+    _apply_rope_input_validation(xq, freqs_cis)
+    _apply_rope_input_validation(xk, freqs_cis)
+
+    freqs_cis = freqs_cis.unsqueeze(-2)  # ..., 1, head_dim/2
+    # ..., num_heads, head_dim/2
+    xq_ = torch.view_as_complex(xq.float().view(*xq.shape[:-1], -1, 2))
+    xk_ = torch.view_as_complex(xk.float().view(*xq.shape[:-1], -1, 2))
+    xq_out = torch.view_as_real(xq_ * freqs_cis).flatten(-2)  # ..., num_heads, head_dim
+    xk_out = torch.view_as_real(xk_ * freqs_cis).flatten(-2)  # ..., num_heads, head_dim
+    return xq_out.type_as(xq), xk_out.type_as(xk)
+
+
+class Learnable2DInterpPosEmb(nn.Module):
+    def __init__(
+        self, height: int, width: int, dim: int, interpolation_mode: str = "bicubic"
+    ) -> None:
+        super().__init__()
+        self.height = height
+        self.width = width
+        self.interpolation_mode = interpolation_mode
+        self.weight = nn.Parameter(torch.empty(height, width, dim))
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        nn.init.normal_(self.weight)
+
+    def forward(self, x: torch.Tensor, grid_hws: torch.Tensor) -> torch.Tensor:
+        pos_embs = []
+        for shape in grid_hws.tolist():
+            if shape == self.weight.shape[:-1]:
+                pos_embs.append(self.weight.flatten(end_dim=1))
+            else:
+                pos_embs.append(
+                    F.interpolate(
+                        self.weight.permute((2, 0, 1)).unsqueeze(0),
+                        size=shape,
+                        mode=self.interpolation_mode,
+                    )
+                    .squeeze(0)
+                    .permute((1, 2, 0))
+                    .flatten(end_dim=1)
+                )
+        out = x + torch.cat(pos_embs)
+        return out
+
+
+class MoonVisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        out_dim: int,
+        in_dim: int = 3,
+        patch_size: int | tuple[int, int] = (14, 14),
+        pos_emb_height: int = 14,
+        pos_emb_width: int = 14,
+    ):
+        super().__init__()
+        assert isinstance(patch_size, (int, Sequence)), (
+            f"Invalid patch_size type: {type(patch_size)}"
+        )
+        if isinstance(patch_size, int):
+            patch_size = (patch_size, patch_size)
+        assert len(patch_size) == 2, (
+            f"Expected patch_size to be a tuple of 2, got {patch_size}"
+        )
+        self.patch_size = patch_size
+
+        self.proj = nn.Conv2d(
+            in_dim, out_dim, kernel_size=patch_size, stride=patch_size
+        )
+
+        self.pos_emb = Learnable2DInterpPosEmb(
+            height=pos_emb_height, width=pos_emb_width, dim=out_dim
+        )
+
+    def forward(self, x: torch.Tensor, grid_hw: torch.Tensor) -> torch.Tensor:
+        """
+        Args:
+            x (L, Channels): input tensor
+            grid_hw (N, 2): grid height and width
+
+        Returns:
+            (L, Cout) tensor
+        """
+        x = self.proj(x).view(x.size(0), -1)
+        # apply positional embedding
+        x = self.pos_emb(x, grid_hw)
+        return x
+
+
+class Rope2DPosEmb(nn.Module):
+    """2D rotary position embedding with multi-resolution support.
+
+    This class is intended to be used in the following way:
+    1. Before training, create an instance of Rope2DPosEmb. This instance will hold the precomputed cis.
+    2. Before each forward pass, call `get_freqs_cis_by_*` to get the `freqs_cis` tensor for this iteration.
+    3. During the forward pass, pass the `freqs_cis` tensor to each attention layer, and call `apply` just before each attention operation.
+        The rope is shared across all attention layers and all heads.
+
+    Refs:
+    - RoFormer: https://arxiv.org/abs/2104.09864
+    - VisionLLaMA: https://arxiv.org/abs/2403.00522
+    - https://github.com/Meituan-AutoML/VisionLLaMA/blob/main/dit/models.py
+
+    Args:
+        dim (int): usually the multi-head attention dimension, should be divisible by 4 (TODO: relax this constraint if needed)
+        max_height (int): the maximum height of the 2D grid
+        max_width (int): the maximum width of the 2D grid
+        theta_base (float): the base of the theta
+        device (str): the device to store the precomputed cis
+    """
+
+    def __init__(
+        self, dim: int, max_height: int, max_width: int, theta_base=10000, device="cuda"
+    ):
+        super().__init__()
+        self.dim = dim
+        assert self.dim % 4 == 0, "dim must be divisible by 4"
+        self.max_height = max_height
+        self.max_width = max_width
+        self.theta_base = theta_base
+        self.device = device
+
+    def extra_repr(self):
+        return f"dim={self.dim}, max_height={self.max_height}, max_width={self.max_width}, theta_base={self.theta_base}"
+
+    @cached_property
+    def precomputed_freqs_cis(self) -> torch.Tensor:
+        """Calculate the cis(freqs) for each position in the 2D grid.
+
+        Return: complex tensor of shape (max_height, max_width, dim//2) and value:
+            height axis: ret[h, w, 2*i] = cis(h * theta_base**(-4*i/dim))
+            weight axis: ret[h, w, 2*i+1] = cis(w * theta_base**(-4*i/dim))   with (i in [0, dim//4))
+            note: `cis` is a mathematical notation defined by cis x = cos x + i sin x,
+        """
+        N = self.max_height * self.max_width
+        flat_pos = torch.arange(0, N).float().to(self.device)
+        x_pos = flat_pos % self.max_width
+        y_pos = flat_pos // self.max_width
+        dim_range = (
+            torch.arange(0, self.dim, 4)[: (self.dim // 4)].float().to(self.device)
+        )  # C/4
+        freqs = 1.0 / (self.theta_base ** (dim_range / self.dim))
+        x_freqs = torch.outer(x_pos, freqs).float()  # N, C/4
+        y_freqs = torch.outer(y_pos, freqs).float()  # N, C/4
+        x_cis = torch.polar(torch.ones_like(x_freqs), x_freqs)  # N, C/4
+        y_cis = torch.polar(torch.ones_like(y_freqs), y_freqs)  # N, C/4
+        # N, C/4, 2
+        freqs_cis = torch.cat(
+            [x_cis.unsqueeze(dim=-1), y_cis.unsqueeze(dim=-1)], dim=-1
+        )
+        # max_height, max_width, C/2
+        freqs_cis = freqs_cis.reshape(self.max_height, self.max_width, -1)
+        return freqs_cis
+
+    def get_freqs_cis_by_seqlens(self, grid_hws: torch.Tensor) -> torch.Tensor:
+        """
+        Args:
+            grid_hws (torch.Tensor): containing list of (height, width) or (t, height, width) tuples.
+        Returns:
+            freqs_cis: tensor of shape (sum(t * height * width), dim//2)
+        """
+        shapes = grid_hws.tolist()
+        assert all(
+            1 <= h <= self.max_height and 1 <= w <= self.max_width for h, w in shapes
+        ), (
+            shapes,
+            self.max_height,
+            self.max_width,
+        )
+        freqs_cis = torch.cat(
+            [
+                self.precomputed_freqs_cis[:h, :w].reshape(-1, self.dim // 2)
+                for h, w in shapes
+            ],
+            dim=0,
+        )
+        return freqs_cis
+
+    def get_freqs_cis_by_idx(
+        self, pos_idx: torch.Tensor, pos_idx_mask: torch.Tensor
+    ) -> torch.Tensor:
+        """
+        Args:
+            pos_idx: tensor of shape (..., 2), It contains the (h, w) position indices of each 2D token.
+            pos_idx_mask: a mask of shape (...), the leading dimensions should be the same as pos_idx.
+                Rope will only be applied to the tokens with True mask. `freqs_cis` for the tokens with False mask with be ones.
+        Return:
+            freqs_cis: tensor of shape (..., dim//2)
+        """
+        assert (
+            pos_idx.shape[:-1] == pos_idx_mask.shape
+            and pos_idx.shape[-1] == 2
+            and pos_idx.ndim == pos_idx_mask.ndim + 1
+        ), (pos_idx.shape, pos_idx_mask.shape)
+        assert pos_idx_mask.dtype == torch.bool, pos_idx_mask.dtype
+
+        shp = pos_idx_mask.shape + (self.dim // 2,)  # ..., head_dim/2
+        freqs_cis = torch.ones(
+            shp, dtype=torch.complex64, device=self.device
+        )  # ..., head_dim/2
+        freqs_cis[pos_idx_mask] = self.precomputed_freqs_cis[
+            pos_idx[..., 0][pos_idx_mask], pos_idx[..., 1][pos_idx_mask]
+        ]
+        return freqs_cis
+
+
+class MLP2(nn.Module):
+    """
+    Args:
+        dims: [in_dim, hidden_dim, out_dim]
+        bias: whether to use bias in linear layer.
+    """
+
+    def __init__(
+        self,
+        dims: list[int],
+        activation,
+        bias: bool = True,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        assert len(dims) == 3
+        self.use_data_parallel = use_data_parallel
+        self.fc0 = ReplicatedLinear(
+            dims[0], dims[1], bias=bias, prefix=maybe_prefix(prefix, "fc0")
+        )
+        self.fc1 = ReplicatedLinear(
+            dims[1], dims[2], bias=bias, prefix=maybe_prefix(prefix, "fc1")
+        )
+        self.activation = activation
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.fc0(x)
+        x = self.activation(x)
+        x, _ = self.fc1(x)
+        return x
+
+
+class MoonVitEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        num_heads: int,
+        hidden_dim: int,
+        mlp_dim: int,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        *,
+        attn_implementation: str = "sdpa",
+        activation=F.gelu,
+        attn_bias: bool = False,
+    ):
+        super().__init__()
+        self.num_heads = num_heads
+        self.hidden_dim = hidden_dim
+        self.hidden_size_per_attention_head = self.hidden_dim // self.num_heads
+        self.attn_implementation = attn_implementation
+        # use fa2 in vllm by default
+        if is_flash_attn_2_available():
+            self.attn_implementation = "flash_attention_2"
+
+        self.norm0 = nn.LayerNorm(hidden_dim)
+        self.norm1 = nn.LayerNorm(hidden_dim)
+        self.use_data_parallel = use_data_parallel
+        self.mlp = MLP2(
+            [hidden_dim, mlp_dim, hidden_dim],
+            activation,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+        self.wqkv = ReplicatedLinear(
+            hidden_dim, hidden_dim * 3, bias=attn_bias, prefix=f"{prefix}.wqkv"
+        )
+        self.wo = ReplicatedLinear(
+            hidden_dim, hidden_dim, bias=attn_bias, prefix=f"{prefix}.wo"
+        )
+
+    def attention_qkvpacked(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rope_freqs_cis: torch.Tensor | None = None,
+    ):
+        """
+        Args:
+            x (torch.Tensor): (batch_size, seqlen, hidden_dim)
+            cu_seqlens (torch.Tensor):
+        """
+        xqkv, _ = self.wqkv(x)
+
+        qkv_shape = xqkv.size()[:-1] + (
+            3,
+            self.num_heads,
+            self.hidden_size_per_attention_head,
+        )
+        # xqkv: (batch_size, seqlen, 3, nheads, headdim)
+        xqkv = xqkv.view(*qkv_shape)
+        xq, xk, xv = torch.unbind(xqkv, dim=-3)
+
+        xq, xk = apply_rope(xq, xk, rope_freqs_cis)
+
+        attn_func = VL_VISION_ATTENTION_FUNCTIONS[self.attn_implementation]
+        attn_out = attn_func(
+            xq, xk, xv, q_cu_seqlens=cu_seqlens, k_cu_seqlens=cu_seqlens
+        )
+        attn_out, _ = self.wo(attn_out)
+        return attn_out
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rope_freqs_cis: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """
+        Args:
+            hidden_states: non-packed (B, N, D) or packed (L, D). if non-packed, seqlens should be None, if packed, seqlens should be set
+
+        Returns:
+            output: same shape of input, non-packed (B, N, D) for non-packed input, (L, D) for packed input
+        """
+        residual = hidden_states
+        hidden_states = self.norm0(hidden_states)
+        attn_out = self.attention_qkvpacked(
+            hidden_states, cu_seqlens, rope_freqs_cis=rope_freqs_cis
+        )
+        hidden_states = residual + attn_out
+
+        residual = hidden_states
+        hidden_states = self.mlp(self.norm1(hidden_states))
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+class MoonVitEncoder(nn.Module):
+    def __init__(
+        self,
+        hidden_dim: int,
+        num_layers: int,
+        block_cfg: dict,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.rope_2d = Rope2DPosEmb(
+            block_cfg["hidden_dim"] // block_cfg["num_heads"], 512, 512
+        )
+        self.blocks = nn.ModuleList(
+            [
+                MoonVitEncoderLayer(
+                    use_data_parallel=use_data_parallel,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                    **block_cfg,
+                )
+                for layer_idx in range(num_layers)
+            ]
+        )
+        self.final_layernorm = nn.LayerNorm(hidden_dim)
+
+    def forward(
+        self, hidden_states: torch.Tensor, grid_hw: torch.Tensor
+    ) -> torch.Tensor:
+        rope_freqs_cis = self.rope_2d.get_freqs_cis_by_seqlens(grid_hws=grid_hw)
+
+        lengths = torch.cat(
+            (
+                torch.zeros(1, device=hidden_states.device, dtype=grid_hw.dtype),
+                (grid_hw[:, 0] * grid_hw[:, 1]).to(hidden_states.device),
+            )
+        )
+        cu_seqlens = lengths.cumsum(dim=0, dtype=torch.int32)
+
+        for _, block in enumerate(self.blocks):
+            hidden_states = block(
+                hidden_states, cu_seqlens, rope_freqs_cis=rope_freqs_cis
+            )
+
+        hidden_states = self.final_layernorm(hidden_states)
+
+        return hidden_states
+
+
+def patch_merger(
+    x: torch.Tensor,
+    grid_hw: torch.Tensor,
+    merge_kernel_size: list[int, int] = (2, 2),
+) -> list[torch.Tensor]:
+    d_model = x.size(-1)
+
+    outputs = []
+    pre_sum = 0
+    for x_shape in grid_hw.tolist():
+        height, width = x_shape[0], x_shape[1]
+        # Get the current sequence
+        seq = x[pre_sum : pre_sum + height * width]
+        # Reshape along self.merge_kernel_size and concat to the last dimension
+        kernel_height, kernel_width = merge_kernel_size
+        new_height, new_width = height // kernel_height, width // kernel_width
+        reshaped_seq = seq.view(
+            new_height, kernel_height, new_width, kernel_width, d_model
+        )
+        reshaped_seq = reshaped_seq.permute(0, 2, 1, 3, 4).contiguous()
+        padded_seq = reshaped_seq.view(
+            new_height * new_width, kernel_height * kernel_width, -1
+        )
+        outputs.append(padded_seq)
+        pre_sum += height * width
+
+    return outputs
+
+
+class MoonVitVLProjector(nn.Module):
+    def __init__(
+        self,
+        in_channels: int,
+        merge_kernel_size: list[int, int],
+        hidden_act: str = "gelu",
+        ln_eps: float = 1e-5,
+        out_dim: int = 4096,
+    ):
+        super().__init__()
+        self.hidden_size = in_channels * merge_kernel_size[0] * merge_kernel_size[1]
+
+        self.pre_norm = nn.nn.LayerNorm(in_channels, eps=ln_eps)
+        self.linear_1 = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
+        self.act = ACT2FN[hidden_act]
+        self.linear_2 = nn.Linear(self.hidden_size, out_dim, bias=True)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.pre_norm(hidden_states).view(-1, self.hidden_size)
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class MoonVitPretrainedModel(PreTrainedModel):
+    config_class = MoonViTConfig
+    model_type = "moonvit"
+    _no_split_modules = ["PackingTransformer"]
+    _supports_flash_attn_2 = True
+    _supports_sdpa = True
+
+    def __init__(
+        self,
+        config: MoonViTConfig,
+        use_data_parallel: bool = False,
+        prefix: str = "",
+        *inputs,
+        **kwargs,
+    ):
+        super().__init__(config, *inputs, **kwargs)
+        config = deepcopy(config)
+        self.use_data_parallel = use_data_parallel
+        self.merge_kernel_size = config.merge_kernel_size
+        self.hidden_size = config.hidden_size
+        self.patch_size = config.patch_size
+        self.vit_processing_type = "rope_2d"
+        self.patch_embed = MoonVisionPatchEmbed(
+            out_dim=config.hidden_size,
+            patch_size=config.patch_size,
+            pos_emb_height=config.init_pos_emb_height,
+            pos_emb_width=config.init_pos_emb_width,
+        )
+
+        self.encoder = MoonVitEncoder(
+            hidden_dim=config.hidden_size,
+            num_layers=config.num_hidden_layers,
+            block_cfg={
+                "num_heads": config.num_attention_heads,
+                "hidden_dim": config.hidden_size,
+                "mlp_dim": config.intermediate_size,
+                "activation": ACT2FN["gelu_pytorch_tanh"],
+                "attn_bias": True,
+                "attn_implementation": config._attn_implementation,
+            },
+            prefix=f"{prefix}.encoder",
+        )
+
+    def forward(
+        self, pixel_values: torch.Tensor, grid_hw: torch.Tensor
+    ) -> torch.Tensor:
+        """
+        Args:
+            pixel_values (torch.Tensor): The input pixel values.
+            grid_hw (torch.Tensor): The grid height and width.
+
+        Returns:
+            torch.Tensor: The output tokens.
+        """
+        hidden_states = self.patch_embed(pixel_values, grid_hw)
+        hidden_states = self.encoder(hidden_states, grid_hw)
+        hidden_states = patch_merger(
+            hidden_states, grid_hw, merge_kernel_size=self.merge_kernel_size
+        )
+        return hidden_states
diff --git a/model_executor/models/mpt.py b/model_executor/models/mpt.py
new file mode 100644
index 0000000..106ad97
--- /dev/null
+++ b/model_executor/models/mpt.py
@@ -0,0 +1,335 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://huggingface.co/mosaicml/mpt-7b/tree/main
+import math
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+import torch.nn as nn
+from transformers import MptConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+def _get_alibi_slopes(
+    total_num_heads: int,
+    alibi_bias_max: int,
+) -> torch.Tensor:
+    next_power_of_2 = 2 ** math.ceil(math.log2(total_num_heads))
+    m = torch.arange(1, next_power_of_2 + 1, dtype=torch.float32)
+    m = m.mul(alibi_bias_max / next_power_of_2)
+    slopes = 1.0 / torch.pow(2, m)
+    if next_power_of_2 != total_num_heads:
+        slopes = torch.concat([slopes[1::2], slopes[::2]])[:total_num_heads]
+    return slopes
+
+
+class MPTAttention(nn.Module):
+    def __init__(
+        self,
+        config: MptConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.d_model = config.d_model
+        self.total_num_heads = config.n_heads
+        self.head_dim = self.d_model // self.total_num_heads
+        self.clip_qkv = config.attn_config.clip_qkv
+        self.qk_ln = config.attn_config.qk_ln
+        self.alibi_bias_max = config.attn_config.alibi_bias_max
+        if "kv_n_heads" in config.attn_config:
+            self.total_num_kv_heads = config.attn_config.kv_n_heads
+        else:
+            self.total_num_kv_heads = self.total_num_heads
+        assert not config.attn_config.prefix_lm
+        assert config.attn_config.alibi
+
+        # pylint: disable=invalid-name
+        self.Wqkv = QKVParallelLinear(
+            self.d_model,
+            self.d_model // self.total_num_heads,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=not config.no_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.Wqkv",
+        )
+        if self.qk_ln:
+            self.q_ln = nn.LayerNorm(self.d_model)
+            self.k_ln = nn.LayerNorm(self.d_model)
+        self.out_proj = RowParallelLinear(
+            self.d_model,
+            self.d_model,
+            bias=not config.no_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        tp_world_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tp_world_size == 0
+        self.num_heads = self.total_num_heads // tp_world_size
+
+        if self.total_num_kv_heads >= tp_world_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_world_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_world_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_world_size)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        # Create the alibi slopes and slice them.
+        tp_rank = get_tensor_model_parallel_rank()
+        head_start = tp_rank * self.num_heads
+        head_end = (tp_rank + 1) * self.num_heads
+        alibi_slopes = _get_alibi_slopes(self.total_num_heads, self.alibi_bias_max)
+        alibi_slopes = alibi_slopes[head_start:head_end].tolist()
+
+        self.head_dim = self.d_model // self.total_num_heads
+        scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scaling,
+            alibi_slopes=alibi_slopes,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        del position_ids  # unused.
+        qkv, _ = self.Wqkv(hidden_states)
+        if self.clip_qkv is not None:
+            qkv.clamp_(min=-self.clip_qkv, max=self.clip_qkv)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        if self.qk_ln:
+            q = self.q_ln(q)
+            k = self.k_ln(k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class MPTMLP(nn.Module):
+    def __init__(
+        self,
+        config: MptConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.d_model
+        expansion_ratio = config.expansion_ratio
+        intermediate_size = expansion_ratio * hidden_size
+        self.up_proj = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            bias=not config.no_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.act = get_act_fn("gelu")
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=not config.no_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.up_proj(x)
+        x = self.act(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class MPTBlock(nn.Module):
+    def __init__(
+        self,
+        config: MptConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        hidden_size = config.d_model
+        self.norm_1 = nn.LayerNorm(hidden_size)
+        self.attn = MPTAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.attn"
+        )
+        self.norm_2 = nn.LayerNorm(hidden_size)
+        self.ffn = MPTMLP(config, quant_config, prefix=f"{prefix}.ffn")
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        x = self.norm_1(hidden_states)
+        x = self.attn(
+            position_ids=position_ids,
+            hidden_states=x,
+        )
+        hidden_states = hidden_states + x
+        x = self.norm_2(hidden_states)
+        x = self.ffn(x)
+        hidden_states = hidden_states + x
+        return hidden_states
+
+
+@support_torch_compile
+class MPTModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        assert config.embedding_fraction == 1.0
+        assert config.norm_type == "low_precision_layernorm"
+
+        self.wte = VocabParallelEmbedding(
+            config.vocab_size,
+            config.d_model,
+        )
+        self.start_layer, self.end_layer, self.blocks = make_layers(
+            config.n_layers,
+            lambda prefix: MPTBlock(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.blocks",
+        )
+        self.norm_f = nn.LayerNorm(config.d_model)
+        if config.no_bias:
+            for module in self.modules():
+                if hasattr(module, "bias") and isinstance(module.bias, nn.Parameter):
+                    # Remove the bias term in Linear and LayerNorm.
+                    module.register_parameter("bias", None)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.d_model
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for block in islice(self.blocks, self.start_layer, self.end_layer):
+            hidden_states = block(position_ids, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.norm_f(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            # Skip loading extra bias for GPTQ models.
+            if name.endswith(".bias") and name not in params_dict:
+                continue
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MPTForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        assert config.tie_word_embeddings
+        self.quant_config = quant_config
+
+        self.transformer = MPTModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        self.lm_head = self.transformer.wte
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/nano_nemotron_vl.py b/model_executor/models/nano_nemotron_vl.py
new file mode 100644
index 0000000..cb39c2a
--- /dev/null
+++ b/model_executor/models/nano_nemotron_vl.py
@@ -0,0 +1,1740 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# --------------------------------------------------------
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/models/internvl.py
+# under Apache-2.0 License
+#     LICENSE is in root directory.
+# --------------------------------------------------------
+
+import copy
+import warnings
+from abc import ABC, abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias, TypeVar
+
+import numpy.typing as npt
+import regex as re
+import torch
+import torch.nn as nn
+import torchvision.transforms as T
+from PIL import Image
+from transformers import BatchFeature, PretrainedConfig, TensorType
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
+from vllm.model_executor.layers.activation import ReLUSquaredActivation
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import (
+    HasInnerState,
+    IsHybrid,
+    MultiModalEmbeddings,
+    SupportsMultiModal,
+    SupportsMultiModalPruning,
+)
+from vllm.model_executor.models.internvl import (
+    calculate_internvl_targets,
+    get_internvl_target_ratios,
+)
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.nemotron_h import NemotronHForCausalLM
+from vllm.model_executor.models.radio import RadioModel
+from vllm.model_executor.models.utils import (
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.evs import (
+    compute_retained_tokens_count,
+    compute_retention_mask,
+)
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+    _seq2tokens,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.radio import RadioConfig
+from vllm.transformers_utils.tokenizer import (
+    AnyTokenizer,
+    cached_tokenizer_from_config,
+    encode_tokens,
+)
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .utils import _merge_multimodal_embeddings
+
+# Configure PIL to handle large images without warnings
+# This prevents DecompressionBombWarning for legitimate large images
+Image.MAX_IMAGE_PIXELS = None  # Disable the limit entirely
+# Alternative: Set a specific higher limit
+# Image.MAX_IMAGE_PIXELS = 300000000  # ~300M pixels
+
+IMG_START = "<img>"
+IMG_END = "</img>"
+IMG_CONTEXT = "<image>"
+
+# Profiling
+# MAX_FRAMES = 16
+DEFAULT_NUM_TILES = 12
+
+
+class NanoNemotronVLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - bnp: Batch size * number of images * (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height of each image patch
+        - w: Width of each image patch
+    """
+
+    type: Literal["pixel_values"]
+    pixel_values_flat: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class NanoNemotronVLImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of images
+        - f: Total image feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("n", "f", "h")]
+
+
+NanoNemotronVLImageInputs: TypeAlias = (
+    NanoNemotronVLImagePixelInputs | NanoNemotronVLImageEmbeddingInputs
+)
+
+
+class NanoNemotronVLVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bvf: Batch size * number of videos * num_frames
+        - bn: Batch size * number of videos
+        - f: Number of frames
+        - c: Number of channels (3)
+        - h: Height of each video frame
+        - w: Width of each video frame
+    """
+
+    type: Literal["pixel_values_videos"]
+    pixel_values_flat: Annotated[torch.Tensor, TensorShape("bvf", 3, "h", "w")]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+    frames_indices: Annotated[torch.Tensor, TensorShape("bvf")]
+    frame_duration_ms: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class NanoNemotronVLVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - n: Number of videos
+        - f: Total video feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["video_embeds"]
+    data: Annotated[torch.Tensor | list[torch.Tensor], TensorShape("n", "f", "h")]
+
+
+NanoNemotronVLVideoInputs: TypeAlias = (
+    NanoNemotronVLVideoPixelInputs | NanoNemotronVLVideoEmbeddingInputs
+)
+
+
+def dynamic_preprocess(
+    image, *, image_size=512, max_num_tiles=12, use_thumbnail=True, idx=0
+):
+    orig_width, orig_height = image.size
+
+    target_ratios = get_internvl_target_ratios(1, max_num_tiles)
+
+    blocks, target_width, target_height = calculate_internvl_targets(
+        orig_width=orig_width,
+        orig_height=orig_height,
+        target_ratios=target_ratios,
+        image_size=image_size,
+        use_thumbnail=False,
+    )
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+    assert len(processed_images) == blocks
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+
+    processed_images = [
+        img.convert("RGB") if img.mode != "RGB" else img for img in processed_images
+    ]
+    processed_images = [
+        T.Resize((image_size, image_size), interpolation=T.InterpolationMode.BICUBIC)(
+            img
+        )
+        for img in processed_images
+    ]
+    processed_images = [T.ToTensor()(img) for img in processed_images]
+    return processed_images
+
+
+def image_to_pixel_values(
+    image: Image.Image,
+    *,
+    input_size: int,
+    max_num: int,
+    use_thumbnail: bool,
+    idx: int,
+) -> torch.Tensor:
+    images = dynamic_preprocess(
+        image,
+        image_size=input_size,
+        max_num_tiles=max_num,
+        use_thumbnail=use_thumbnail,
+        idx=idx,
+    )
+
+    pixel_values = torch.stack(images)
+    return pixel_values
+
+
+def video_to_pixel_values(
+    video: npt.NDArray,
+    *,
+    input_size: int,
+    max_num_tiles: int = 1,
+    use_thumbnail: bool,
+) -> torch.Tensor:
+    assert max_num_tiles == 1, "Video modality always uses one tile"
+
+    # Convert each frame to a single resized tile tensor consistent
+    # with image path
+    frames_tensors: list[torch.Tensor] = []
+    for frame in video:
+        pil_frame = dynamic_preprocess(
+            Image.fromarray(frame, mode="RGB"),
+            image_size=input_size,
+            max_num_tiles=max_num_tiles,
+            use_thumbnail=use_thumbnail,
+            idx=0,
+        )
+        # dynamic_preprocess returns tensors already; take the single tile
+        assert len(pil_frame) >= 1
+        frames_tensors.append(pil_frame[-1])
+
+    return torch.stack(frames_tensors)
+
+
+def input_conditioner(x, norm_mean, norm_std):
+    return (x - norm_mean) / norm_std
+
+
+def calculate_timestamps(
+    indices: list[int] | torch.Tensor,
+    frame_duration_ms: int,
+):
+    if not isinstance(indices, list):
+        indices = indices.tolist()
+
+    timestamps = [int(i) * frame_duration_ms / 1000.0 for i in indices]
+    return timestamps
+
+
+class BaseNanoNemotronVLProcessor(ABC):
+    """
+    This model doesn't define its own HF processor,
+    so we implement our own one here.
+
+    The code to insert image tokens is based on:
+    https://huggingface.co/OpenGVLab/InternVL2-1B/blob/main/modeling_internvl_chat.py#L252
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *args,
+        max_num_tiles: int | None = None,
+        **kwargs,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        self.max_num_tiles = max_num_tiles or DEFAULT_NUM_TILES
+        image_size: int = config.force_image_size
+        patch_size: int = config.patch_size
+
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.image_size = image_size
+        self.use_thumbnail: bool = config.use_thumbnail
+        self.norm_mean = torch.Tensor(config.norm_mean).reshape(1, 3, 1, 1)
+        self.norm_std = torch.Tensor(config.norm_std).reshape(1, 3, 1, 1)
+
+    @property
+    @abstractmethod
+    def image_token_id(self) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        raise NotImplementedError
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        max_num_tiles: int,
+    ) -> int:
+        target_ratios = get_internvl_target_ratios(1, max_num_tiles)
+
+        num_patches, _, _ = calculate_internvl_targets(
+            orig_width=image_width,
+            orig_height=image_height,
+            target_ratios=target_ratios,
+            image_size=self.image_size,
+            use_thumbnail=self.use_thumbnail,
+        )
+
+        return num_patches * self.num_image_token
+
+    def _images_to_pixel_values_lst(
+        self,
+        images: list[Image.Image],
+        max_num_tiles: int,
+    ) -> list[torch.Tensor]:
+        return [
+            image_to_pixel_values(
+                image,
+                input_size=self.image_size,
+                max_num=max_num_tiles,
+                use_thumbnail=self.use_thumbnail,
+                idx=idx,
+            )
+            for idx, image in enumerate(images)
+        ]
+
+    def _preprocess_image(
+        self,
+        text: list[str],
+        images: list[Image.Image],
+        max_num_tiles: int,
+    ) -> tuple[list[str], dict[str, torch.Tensor]]:
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values_lst = self._images_to_pixel_values_lst(images, max_num_tiles)
+            image_inputs = {
+                "pixel_values_flat": input_conditioner(
+                    torch.cat(pixel_values_lst), self.norm_mean, self.norm_std
+                ),
+                "image_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst]
+                ),
+            }
+
+            assert len(text) == 1, (
+                "hf_processor is called on the output of get_dummy_text, "
+                "which should be a single string"
+            )
+            parts = [x for x in re.split(r"(<image>)", text[0]) if x]
+            assert parts.count("<image>") == len(pixel_values_lst), (
+                "the number of <image> tokens in the text should be the "
+                "same as the number of images"
+            )
+
+            for i, pixel_values in enumerate(pixel_values_lst):
+                num_patches = pixel_values.shape[0]
+                feature_size = num_patches * self.num_image_token
+                image_repl = self.get_image_repl(feature_size, num_patches)
+                parts[i] = parts[i].replace("<image>", image_repl.full)
+            text = ["".join(parts)]
+        return text, image_inputs
+
+    def _make_batch_input(self, input_item: Any | list[Any] | None = None):
+        if input_item is None:
+            input_item = []
+        if not isinstance(input_item, list):
+            input_item = [input_item]
+        return input_item
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        return_tensors: str | TensorType | None = None,
+        max_num_tiles: int | None = None,
+    ) -> BatchFeature:
+        # Use default if not provided
+        if max_num_tiles is None:
+            max_num_tiles = self.max_num_tiles
+
+        text, images = [self._make_batch_input(x) for x in (text, images)]
+
+        text, image_inputs = self._preprocess_image(
+            text=text,
+            images=images,
+            max_num_tiles=max_num_tiles,
+        )
+
+        text_inputs = self.tokenizer(text, add_special_tokens=False)
+
+        combined_outputs = {**text_inputs, **image_inputs}
+
+        return BatchFeature(combined_outputs, tensor_type=return_tensors)
+
+
+class NanoNemotronVLProcessor(BaseNanoNemotronVLProcessor):
+    """
+    HF Processor  with extended video processing logic.
+    Code for video processing is adapted from video example:
+    https://huggingface.co/OpenGVLab/InternVL3-1B#inference-with-transformers
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *,
+        max_num_tiles: int | None = None,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        video_token: str | None = None,
+        video_pruning_rate: float | None = None,
+    ) -> None:
+        super().__init__(
+            config=config,
+            tokenizer=tokenizer,
+            max_num_tiles=max_num_tiles,
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+        )
+        # add extra video token for video processing
+        self.video_token = video_token
+        self.video_pruning_rate = video_pruning_rate
+
+        # Pre-tokenize special tokens for video processing
+        # to avoid repeated tokenization
+        self._img_start_token_ids = encode_tokens(
+            tokenizer, IMG_START, add_special_tokens=False
+        )
+        self._img_end_token_ids = encode_tokens(
+            tokenizer, IMG_END, add_special_tokens=False
+        )
+        self._img_context_token_ids = encode_tokens(
+            tokenizer, IMG_CONTEXT, add_special_tokens=False
+        )
+
+    @property
+    def supports_video(self) -> bool:
+        return self.video_token_id is not None
+
+    @property
+    def video_token_id(self) -> int | None:
+        if self.video_token is None:
+            return None
+        return self.tokenizer.get_vocab().get(self.video_token, None)
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.convert_tokens_to_ids(IMG_CONTEXT)
+
+    def _videos_to_pixel_values_lst(
+        self,
+        videos: list[npt.NDArray],
+        max_num_tiles: int,
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        return [
+            video_to_pixel_values(
+                video,
+                input_size=self.image_size,
+                max_num_tiles=max_num_tiles,
+                use_thumbnail=self.use_thumbnail,
+            )
+            for video in videos
+        ]
+
+    def _preprocess_video(
+        self,
+        text: list[str],
+        videos: list[tuple[npt.NDArray, dict[str, Any]]],
+        max_num_tiles: int,
+        dynamic_image_size: bool | None = None,
+    ):
+        if len(videos) == 0 or not self.supports_video:
+            video_inputs = {}
+        else:
+            videos_lst = [v[0] for v in videos]
+            video_metadata_lst = [v[1] for v in videos]
+            pixel_values_lst_video = self._videos_to_pixel_values_lst(
+                videos_lst,
+                max_num_tiles=max_num_tiles,
+                dynamic_image_size=dynamic_image_size,
+            )
+
+            # We use frame duration in milliseconds (as integer) to ensure
+            # we have consistent timestamps calculation. At preprocessing
+            # fps parameter is given in fp32, while at inference it is bf16
+            # which leads to inaccurate timestamp calculation and causes
+            # timestamp values to differ.In rare cases this causes
+            # mismatching number of output tokens for tokenized  frame prefixes
+            frame_duration_ms_lst = [
+                int(1000.0 / metadata["fps"]) for metadata in video_metadata_lst
+            ]
+            frames_indices_lst = [
+                metadata["frames_indices"] for metadata in video_metadata_lst
+            ]
+
+            video_inputs = {
+                "pixel_values_flat_video": input_conditioner(
+                    torch.cat(pixel_values_lst_video), self.norm_mean, self.norm_std
+                ),
+                "video_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst_video]
+                ),
+                "frames_indices": frames_indices_lst,
+                "frame_duration_ms": torch.tensor(frame_duration_ms_lst),
+            }
+
+            image_size: int = self.config.force_image_size
+            patch_size: int = self.config.patch_size
+            downsample_ratio = self.config.downsample_ratio
+            tokens_in_single_frame = int(
+                (image_size * image_size // patch_size**2) * (downsample_ratio**2)
+            )
+
+            for pixel_values, video_metadata, frames_indices, frame_duration_ms in zip(
+                pixel_values_lst_video,
+                video_metadata_lst,
+                frames_indices_lst,
+                frame_duration_ms_lst,
+            ):
+                num_frames = pixel_values.shape[0]
+
+                if (
+                    self.video_pruning_rate is not None
+                    and self.video_pruning_rate > 0.0
+                ):
+                    # Start of EVS-specific code
+                    num_tokens = compute_retained_tokens_count(
+                        tokens_per_frame=tokens_in_single_frame,
+                        num_frames=num_frames,
+                        q=self.video_pruning_rate,
+                    )
+
+                    # Here we just need placeholders that won't actually be replaced -
+                    # we just need to make sure the total number of tokens is correct
+                    # assign all tokens to the first frame
+                    tokens_per_frame = [num_tokens] + [0] * (num_frames - 1)
+
+                    # End of EVS-specific code
+                else:
+                    tokens_per_frame = [tokens_in_single_frame] * num_frames
+
+                video_repl = self.get_video_repl(
+                    tokens_per_frame=tokens_per_frame,
+                    frames_indices=frames_indices,
+                    frame_duration_ms=frame_duration_ms,
+                    tokenizer=self.tokenizer,
+                    img_start_token_ids=self._img_start_token_ids,
+                    img_end_token_ids=self._img_end_token_ids,
+                    img_context_token_ids=self._img_context_token_ids,
+                )
+
+                # video_repl.full is a list of token IDs
+                # Convert token IDs back to text for the HF processor flow
+                video_repl_text = self.tokenizer.decode(
+                    video_repl.full, skip_special_tokens=False
+                )
+                text = [t.replace("<video>", video_repl_text, 1) for t in text]
+        return text, video_inputs
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        videos: list[tuple[npt.NDArray, dict[str, Any]]] | None = None,
+        return_tensors: str | TensorType | None = None,
+        max_num_tiles: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> BatchFeature:
+        # Use default if not provided
+        if max_num_tiles is None:
+            max_num_tiles = self.max_num_tiles
+
+        text, images, videos = [
+            self._make_batch_input(x) for x in (text, images, videos)
+        ]
+
+        text, image_inputs = self._preprocess_image(
+            text=text,
+            images=images,
+            max_num_tiles=max_num_tiles,
+        )
+
+        text, video_inputs = self._preprocess_video(
+            text=text,
+            videos=videos,
+            max_num_tiles=1,
+            dynamic_image_size=dynamic_image_size,
+        )
+
+        text_inputs = self.tokenizer(text, add_special_tokens=False)
+
+        combined_outputs = {**text_inputs, **image_inputs, **video_inputs}
+
+        return BatchFeature(combined_outputs, tensor_type=return_tensors)
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = IMG_CONTEXT * feature_size
+        repl_full = IMG_START + repl_features + IMG_END
+
+        return PromptUpdateDetails.select_text(repl_full, IMG_CONTEXT)
+
+    @classmethod
+    def get_video_repl(
+        cls,
+        *,
+        tokens_per_frame: list[int],
+        frames_indices: list[int],
+        frame_duration_ms: int,
+        tokenizer: AnyTokenizer,
+        img_start_token_ids: list[int],
+        img_end_token_ids: list[int],
+        img_context_token_ids: list[int],
+    ) -> PromptUpdateDetails[list[int]]:
+        """
+        Build prompt replacement for a video.
+        The replacement returned is not actually used to replace the placeholder
+        tokens - it's just used to make sure we allocate the correct number
+        of tokens.
+        Actual replacement is done in embed_multimodal of
+        NemotronH_Nano_VL_V2
+        (specifically in _process_video_input -> _create_final_video_embeddings).
+        There, we create the final embeddings with text embeddings for indicator tokens
+        and video embeddings for video tokens.
+        This is a single function that handles all cases - non EVS, EVS dummy, EVS real.
+        The differentiation is done via tokens_per_frame parameter.
+        - non EVS case - constant value same value across all frames
+        - EVS dummy - Doesn't matter how tokens are distributed between frames - just
+                        make sure the total number of tokens is correct.
+        - EVS real (called from get_real_video_repl_for_evs) - different value per frame
+        Args:
+            tokens_per_frame (list[int]): number of tokens per frame
+            frames_indices (list[int]): frame indices
+            frame_duration_ms (int): duration of each frame in milliseconds
+            tokenizer (AnyTokenizer): tokenizer to use for tokenizing frame separators
+            img_start_token_ids (list[int]): pre-tokenized IMG_START tokens
+            img_end_token_ids (list[int]): pre-tokenized IMG_END tokens
+            img_context_token_ids (list[int]): pre-tokenized IMG_CONTEXT tokens
+        """
+        # TODO: Add support of frame_duration_ms to be None
+        # At preprocessing step we should allow absent / metadata without
+        # frames_indices field.
+        timestamps_enabled = frame_duration_ms is not None
+
+        if timestamps_enabled:
+            timestamps = calculate_timestamps(frames_indices, frame_duration_ms)
+
+            assert len(timestamps) == len(tokens_per_frame), (
+                "timestamps and tokens_per_frame must have the same length"
+            )
+            frame_separators = [
+                f"Frame {i + 1} sampled at {timestamp:.2f} seconds: "
+                for i, timestamp in enumerate(timestamps)
+            ]
+        else:
+            frame_separators = [
+                f"Frame {i + 1}: " for i, _ in enumerate(tokens_per_frame)
+            ]
+
+        # Tokenize frame separator independently
+        frame_separators_tokenized = [
+            _seq2tokens(tokenizer, sep) for sep in frame_separators
+        ]
+
+        # Tokenize each component independently to avoid tokenizer merging tokens
+        # across boundaries. This ensures consistent tokenization regardless of
+        # num_tokens_per_frame values.
+        all_token_ids = []
+        for i, num_tokens in enumerate(tokens_per_frame):
+            frame_sep_token_ids = frame_separators_tokenized[i]
+            all_token_ids.extend(frame_sep_token_ids)
+
+            # Add pre-tokenized special tokens
+            all_token_ids.extend(img_start_token_ids)
+            all_token_ids.extend(img_context_token_ids * num_tokens)
+            all_token_ids.extend(img_end_token_ids)
+
+        return PromptUpdateDetails.from_seq(all_token_ids)
+
+
+class BaseNanoNemotronVLProcessingInfo(BaseProcessingInfo):
+    """Basic image-only ProcessingInfo for InternVL-style models."""
+
+    @abstractmethod
+    def get_hf_processor(
+        self,
+        **kwargs: object,
+    ) -> BaseNanoNemotronVLProcessor:
+        raise NotImplementedError
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        max_num_tiles: int,
+        processor: BaseNanoNemotronVLProcessor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return processor.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+            max_num_tiles=max_num_tiles,
+        )
+
+    def get_image_size_with_most_features(self, max_num_tiles: int) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        base_size = processor.image_size
+        target_ratios = get_internvl_target_ratios(1, max_num_tiles)
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for wr, hr in target_ratios:
+            width, height = base_size * wr, base_size * hr
+
+            feat_size = self.get_num_image_tokens(
+                image_width=width,
+                image_height=height,
+                max_num_tiles=max_num_tiles,
+                processor=processor,
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        if largest_feature_size == 0 or largest_feature_pinpoint is None:
+            raise ValueError("Cannot have a largest feature size of 0!")
+
+        return largest_feature_pinpoint
+
+    def get_max_image_tokens(self) -> int:
+        processor = self.get_hf_processor()
+        # Use default max_num_tiles for max tokens calculation
+        max_num_tiles = processor.max_num_tiles
+        target_width, target_height = self.get_image_size_with_most_features(
+            max_num_tiles
+        )
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            max_num_tiles=max_num_tiles,
+            processor=processor,
+        )
+
+
+_I = TypeVar("_I", bound=BaseNanoNemotronVLProcessingInfo)
+
+
+class NanoNemotronVLProcessingInfo(BaseNanoNemotronVLProcessingInfo):
+    """ProcessingInfo extended for video processing"""
+
+    @property
+    def supports_video(self):
+        return self.get_hf_processor().supports_video
+
+    def get_supported_mm_limits(self):
+        video_limit = {"video": None} if self.supports_video else {}
+        return {**super().get_supported_mm_limits(), **video_limit}
+
+    def get_video_token(self) -> str | None:
+        return IMG_CONTEXT
+
+    def get_video_pruning_rate(self) -> float | None:
+        return self.ctx.get_mm_config().video_pruning_rate
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+
+        processor = self.get_hf_processor()  # we get the CustomProcessor here
+
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = (seq_len - max_image_tokens) // processor.num_image_token
+        max_frames_per_video = max_total_frames // max(max_videos, 1)
+        return max(max_frames_per_video, 1)
+
+    def get_hf_processor(self, **kwargs: object) -> NanoNemotronVLProcessor:
+        return self.ctx.init_processor(
+            NanoNemotronVLProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            video_token=self.get_video_token(),
+            video_pruning_rate=self.get_video_pruning_rate(),
+            **kwargs,
+        )
+
+
+class NanoNemotronBaseVLMultiModalProcessor(BaseMultiModalProcessor[_I]):
+    """Basic image-only MultiModalProcessor for InternVL-style models."""
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_num_patches = hf_inputs.get("image_num_patches", torch.empty(0))
+
+        return dict(
+            pixel_values_flat=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_num_patches
+            ),
+            image_num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        if "image_num_patches" in out_mm_kwargs:
+            image_num_patches = out_mm_kwargs["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        elif "image_embeds" in out_mm_kwargs:
+            # to compute num_patches (similar to Qwen2-VL)
+            image_num_patches = [None] * len(out_mm_kwargs["image_embeds"])
+        else:
+            image_num_patches = []
+
+        def get_replacement_custom(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                # Extract max_num_tiles from kwargs, default to 12
+                max_num_tiles = hf_processor_mm_kwargs.get(
+                    "max_num_tiles", hf_processor.max_num_tiles
+                )
+                feature_size = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    max_num_tiles=max_num_tiles,
+                    processor=hf_processor,
+                )
+
+            num_patches = None
+            local_image_num_patches = image_num_patches
+            if isinstance(local_image_num_patches, torch.Tensor):
+                local_image_num_patches = local_image_num_patches.tolist()
+            if isinstance(local_image_num_patches, (list, tuple)) and item_idx < len(
+                local_image_num_patches
+            ):
+                num_patches = int(local_image_num_patches[item_idx])
+
+            return hf_processor.get_image_repl(feature_size, num_patches)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target="<image>",
+                replacement=get_replacement_custom,
+            )
+        ]
+
+
+class NanoNemotronVLMultiModalProcessor(
+    NanoNemotronBaseVLMultiModalProcessor[NanoNemotronVLProcessingInfo]
+):
+    """MultiModalProcessor extended for video support"""
+
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return MultiModalDataParser(video_needs_metadata=True)
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_fields = super()._get_mm_fields_config(hf_inputs, hf_processor_mm_kwargs)
+        if self.info.supports_video:
+            video_num_patches = hf_inputs.get("video_num_patches", torch.empty(0))
+
+            video_fields = dict(
+                pixel_values_flat_video=MultiModalFieldConfig.flat_from_sizes(
+                    "video", video_num_patches
+                ),
+                video_num_patches=MultiModalFieldConfig.batched("video"),
+                frames_indices=MultiModalFieldConfig.batched("video"),
+                frame_duration_ms=MultiModalFieldConfig.batched("video"),
+            )
+        else:
+            video_fields = {}
+
+        return image_fields | video_fields
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        prompt_repl = super()._get_prompt_updates(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            out_mm_kwargs=out_mm_kwargs,
+        )
+
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "video_num_patches" in out_mm_data:
+            video_num_patches = out_mm_data["video_num_patches"]
+            assert isinstance(video_num_patches, torch.Tensor)
+            video_num_patches = video_num_patches.tolist()
+        else:
+            video_num_patches = []
+
+        def get_video_replacement_internvl(item_idx: int):
+            feature_size = hf_processor.num_image_token
+            video, metadata = mm_items["video"][item_idx]
+            num_patches = video_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            video_pruning_rate = self.info.ctx.get_mm_config().video_pruning_rate
+            if video_pruning_rate is not None and video_pruning_rate > 0.0:
+                # Start of EVS-specific code
+                num_tokens = compute_retained_tokens_count(
+                    tokens_per_frame=feature_size,
+                    num_frames=num_patches,
+                    q=video_pruning_rate,
+                )
+                # Here we just need placeholders that won't actually be replaced -
+                # we just need to make sure the total number of tokens is correct
+                # assign all tokens to the first frame
+                tokens_per_frame = [num_tokens] + [0] * (num_patches - 1)
+
+                # End of EVS-specific code
+            else:
+                tokens_per_frame = [feature_size] * num_patches
+
+            frame_duration_ms = int(1000 / metadata["fps"])
+            return hf_processor.get_video_repl(
+                tokens_per_frame=tokens_per_frame,
+                frames_indices=metadata["frames_indices"],
+                frame_duration_ms=frame_duration_ms,
+                tokenizer=hf_processor.tokenizer,
+                img_start_token_ids=hf_processor._img_start_token_ids,
+                img_end_token_ids=hf_processor._img_end_token_ids,
+                img_context_token_ids=hf_processor._img_context_token_ids,
+            )
+
+        if self.info.supports_video:
+            prompt_repl = [
+                *prompt_repl,
+                PromptReplacement(
+                    modality="video",
+                    target="<video>",
+                    replacement=get_video_replacement_internvl,
+                ),
+            ]
+
+        return prompt_repl
+
+
+class NanoNemotronVLDummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+    """Basic image-only DummyInputsBuilder for InternVL-style models."""
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        return "<image>" * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        # Use default max_num_tiles for dummy data generation
+        max_num_tiles = 12
+        target_width, target_height = self.info.get_image_size_with_most_features(
+            max_num_tiles
+        )
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class NanoNemotronVLDummyInputsBuilder(
+    NanoNemotronVLDummyInputsBuilder[NanoNemotronVLProcessingInfo]
+):
+    """DummyInputsBuilder extended for video support"""
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_videos = mm_counts.get("video", 0)
+
+        return super().get_dummy_text(mm_counts) + "<video>" * num_videos
+
+    def _get_dummy_videos(
+        self,
+        *,
+        width: int,
+        height: int,
+        num_frames: int,
+        num_videos: int,
+        overrides: VideoDummyOptions | None = None,
+    ) -> list[VideoItem]:
+        video = super()._get_dummy_videos(
+            width=width,
+            height=height,
+            num_frames=num_frames,
+            num_videos=1,
+            overrides=overrides,
+        )[0]
+        video_items = []
+        for _ in range(num_videos):
+            video_metadata = {
+                "total_num_frames": num_frames,
+                "fps": 2,
+                "duration": num_frames / 2.0,
+                "video_backend": "opencv_dynamic",
+                "frames_indices": [i for i in range(num_frames)],
+                "do_sample_frames": False,
+            }
+            video_item = (video.copy(), video_metadata)
+            video_items.append(video_item)
+
+        return video_items
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        dummy_image = super().get_dummy_mm_data(
+            seq_len=seq_len, mm_counts=mm_counts, mm_options=mm_options
+        )
+        if self.info.supports_video:
+            config = self.info.get_hf_config()
+            image_size: int = config.force_image_size
+            target_num_frames = self.info.get_num_frames_with_most_features(
+                seq_len, mm_counts
+            )
+            num_videos = mm_counts.get("video", 0)
+            video_overrides = mm_options.get("video") if mm_options else None
+            dummy_video = {
+                "video": self._get_dummy_videos(
+                    width=image_size,
+                    height=image_size,
+                    num_frames=target_num_frames,
+                    num_videos=num_videos,
+                    overrides=video_overrides,
+                )
+            }
+        else:
+            dummy_video = {}
+        return {**dummy_image, **dummy_video}
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    NanoNemotronVLMultiModalProcessor,
+    info=NanoNemotronVLProcessingInfo,
+    dummy_inputs=NanoNemotronVLDummyInputsBuilder,
+)
+class NemotronH_Nano_VL_V2(
+    nn.Module, HasInnerState, IsHybrid, SupportsMultiModal, SupportsMultiModalPruning
+):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+        if modality.startswith("video"):
+            return "<video>"
+        return None
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        image_size = config.force_image_size
+        patch_size = config.patch_size
+        self.patch_size = patch_size
+        self.template = config.template
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+        self.ps_version = config.ps_version
+        self.image_tag_type = config.image_tag_type
+        self.video_pruning_rate = multimodal_config.video_pruning_rate
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.vision_model = self.get_vit_model_from_radio_config(config).to(
+            self.language_model.config.dtype
+        )
+
+        # Construct the vision projection.
+        vit_hidden_size = config.vit_hidden_size
+        vision_projection_hidden_size = config.projector_hidden_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        self.mlp1 = nn.Sequential(
+            RMSNorm(
+                hidden_size=vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                eps=1e-5,
+            ),
+            nn.Linear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                vision_projection_hidden_size,
+                bias=False,
+            ),
+            ReLUSquaredActivation(),
+            nn.Linear(vision_projection_hidden_size, llm_hidden_size, bias=False),
+        )
+        self.mlp1 = self.mlp1.to(self.language_model.config.dtype)
+
+        self.config = config
+        self.model_config = vllm_config.model_config
+
+        # Pre-tokenize special tokens for video processing
+        # to avoid repeated tokenization
+        tokenizer = cached_tokenizer_from_config(vllm_config.model_config)
+        self._img_start_token_ids = encode_tokens(
+            tokenizer, IMG_START, add_special_tokens=False
+        )
+        self._img_end_token_ids = encode_tokens(
+            tokenizer, IMG_END, add_special_tokens=False
+        )
+        self._img_context_token_ids = encode_tokens(
+            tokenizer, IMG_CONTEXT, add_special_tokens=False
+        )
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(
+            n,
+            w,
+            int(h * scale_factor),
+            int(c / scale_factor),
+        )
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        # N, H * scale, W, C // scale -->
+        # N, H * scale, W * scale, C // (scale ** 2)
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        if self.ps_version == "v1":
+            warnings.warn(
+                "In ps_version 'v1', the height and width have not "
+                "been swapped back, which results in a transposed image.",
+                stacklevel=2,
+            )
+        else:
+            x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values):
+        # Process images in a micro-batch of at most 128 frames per call
+        # This is done on purpose to ensure peak GPU ram usage of huge batch
+        # (namely for really long videos with EVS ON) won't cause any problems
+        # as we don't support chunked prefill for video media
+        micro_batch_size = 128
+        n = pixel_values.shape[0]
+        vit_embeds_list = []
+        for i in range(0, n, micro_batch_size):
+            vit_embeds = self.vision_model(pixel_values[i : i + micro_batch_size])
+            vit_embeds = vit_embeds.to(dtype=torch.bfloat16)
+            h = w = int(vit_embeds.shape[1] ** 0.5)
+            vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+            vit_embeds = self.pixel_shuffle(
+                vit_embeds, scale_factor=self.downsample_ratio
+            )
+            vit_embeds = vit_embeds.reshape(
+                vit_embeds.shape[0], -1, vit_embeds.shape[-1]
+            )
+            vit_embeds = self.mlp1(vit_embeds)
+            vit_embeds_list.append(vit_embeds)
+
+        vit_embeds = torch.cat(vit_embeds_list, dim=0)
+        return vit_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> NanoNemotronVLImageInputs | None:
+        pixel_values_flat = kwargs.pop("pixel_values_flat", None)
+        image_num_patches = kwargs.pop("image_num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values_flat is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return NanoNemotronVLImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        if pixel_values_flat is not None:
+            return NanoNemotronVLImagePixelInputs(
+                type="pixel_values",
+                pixel_values_flat=pixel_values_flat,
+                num_patches=image_num_patches,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+        self, image_input: NanoNemotronVLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_model is not None
+
+        image_embeds = self.extract_feature(image_input["pixel_values_flat"])
+        num_patches = image_input["num_patches"]
+
+        # Only one image in the current batch
+        if len(num_patches) == 1:
+            return (image_embeds.view(-1, self.config.text_config.hidden_size),)
+
+        # NOTE: Image embeddings are split into separate tensors for each image
+        # by the size of each embedding.
+        feature_size = image_embeds.shape[1]
+        image_embeds = image_embeds.view(-1, self.config.text_config.hidden_size)
+        image_feature_sizes = [
+            num_patches * feature_size for num_patches in num_patches
+        ]
+        return image_embeds.split(image_feature_sizes)
+
+    def _process_video_input(
+        self, video_input: NanoNemotronVLVideoPixelInputs
+    ) -> tuple[torch.Tensor, ...]:
+        """Process video input and create final embeddings with video content
+        and indicator tokens."""
+        # Get video embeddings using the same processing as images
+        video_embeddings = self._process_image_input(video_input)
+
+        final_video_embeddings: tuple[torch.Tensor, ...] = ()
+
+        image_rows = image_cols = self.config.force_image_size
+        downsample_ratio = self.config.downsample_ratio
+        patch_size = self.config.patch_size
+        rows = int(image_rows * downsample_ratio // patch_size)
+        cols = int(image_cols * downsample_ratio // patch_size)
+        video_pruning_rate = self.video_pruning_rate
+        video_num_frames = video_input["num_patches"].tolist()
+        video_frames_indices = video_input["frames_indices"].split(video_num_frames)
+        # Calculate video feature dimensions (number of frames and
+        # their feature size (AKA tokens per frame))
+        # TODO: Maybe this can be optimized to avoid the loop?
+        for i, single_video_embeddings in enumerate(video_embeddings):
+            num_frames = video_num_frames[i]
+            frames_indices = video_frames_indices[i].tolist()
+            frame_duration_ms = video_input["frame_duration_ms"][i].item()
+            assert single_video_embeddings.shape[0] % num_frames == 0
+
+            if video_pruning_rate is not None and video_pruning_rate > 0.0:
+                # Start of EVS-specific code
+                retention_mask = compute_retention_mask(
+                    single_video_embeddings,
+                    video_size_thw=(num_frames, rows, cols),
+                    spatial_merge_size=1,
+                    q=video_pruning_rate,
+                )
+
+                # apply retention mask
+                single_video_embeddings = single_video_embeddings[retention_mask]
+
+                # calculate the actual number of retained tokens per frame
+                retention_mask_thw = retention_mask.reshape(num_frames, rows, cols)
+                num_tokens_per_frame = (
+                    retention_mask_thw.sum(dim=(1, 2)).long().tolist()
+                )
+                # End of EVS-specific code
+            else:
+                feature_size = single_video_embeddings.shape[0] // num_frames
+                num_tokens_per_frame = [feature_size] * num_frames
+
+            final_video_embeddings += (
+                self._create_final_video_embeddings(
+                    single_video_embeddings,
+                    num_tokens_per_frame,
+                    frames_indices,
+                    frame_duration_ms,
+                ),
+            )
+
+        return final_video_embeddings
+
+    def _create_final_video_embeddings(
+        self,
+        video_embeddings: torch.Tensor,
+        num_tokens_per_frame: list[int],
+        frames_indices: list[int],
+        frame_duration_ms: int,
+    ) -> torch.Tensor:
+        """Create final embeddings that combine video embeddings with
+        text embeddings of indicator tokens.
+
+        These final embeddings contain:
+        - Actual video embeddings in positions corresponding to video content
+        - Text embeddings for indicator tokens (<img>, </img>, and
+          frame separation text) in their respective positions
+
+        These embeddings will replace the placeholder embeddings to create
+        input_embeds for the LLM.
+        """
+        device = video_embeddings.device
+        tokenizer = cached_tokenizer_from_config(self.model_config)
+
+        # Generate video replacement token IDs using get_video_repl
+        # This tokenizes each frame separator independently, then uses pre-tokenized
+        # special tokens to ensure consistent tokenization regardless of
+        # num_tokens_per_frame values.
+        video_repl = NanoNemotronVLProcessor.get_video_repl(
+            tokens_per_frame=num_tokens_per_frame,
+            frames_indices=frames_indices,
+            frame_duration_ms=frame_duration_ms,
+            tokenizer=tokenizer,
+            img_start_token_ids=self._img_start_token_ids,
+            img_end_token_ids=self._img_end_token_ids,
+            img_context_token_ids=self._img_context_token_ids,
+        )
+
+        # video_repl.full is a list of token IDs
+        repl_token_ids = torch.tensor(video_repl.full, device=device)
+
+        # Get embedding token IDs for image context (use pre-tokenized version)
+        embed_token_ids = torch.tensor(self._img_context_token_ids, device=device)
+
+        # Create mask for video embedding positions
+        is_video_embed = torch.isin(repl_token_ids, embed_token_ids)
+
+        # Create final video embeddings, merging text embeddings for indicator
+        # tokens with video embeddings
+        text_embeddings = self.get_language_model().embed_input_ids(repl_token_ids)
+        final_video_embeddings = _merge_multimodal_embeddings(
+            inputs_embeds=text_embeddings,
+            multimodal_embeddings=video_embeddings,
+            is_multimodal=is_video_embed,
+        )
+
+        return final_video_embeddings
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> NanoNemotronVLVideoPixelInputs | None:
+        pixel_values_flat_video = kwargs.pop("pixel_values_flat_video", None)
+        video_num_patches = kwargs.pop("video_num_patches", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        frames_indices = kwargs.pop("frames_indices", None)
+        frame_duration_ms = kwargs.pop("frame_duration_ms", None)
+
+        if pixel_values_flat_video is None and video_embeds is None:
+            return None
+
+        if video_embeds is not None:
+            return NanoNemotronVLVideoEmbeddingInputs(
+                type="video_embeds",
+                data=video_embeds,
+            )
+
+        if pixel_values_flat_video is not None:
+            if torch.is_tensor(frames_indices):
+                frames_indices = frames_indices.flatten()
+            else:
+                frames_indices = torch.cat([f.flatten() for f in frames_indices], dim=0)
+
+            frame_duration_ms = frame_duration_ms.flatten()
+            expected_h = expected_w = self.config.force_image_size
+            num_frames = video_num_patches[0].item()
+            resolve_bindings = {"h": expected_h, "w": expected_w, "f": num_frames}
+
+            return NanoNemotronVLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_flat=pixel_values_flat_video,
+                num_patches=video_num_patches,
+                frames_indices=frames_indices,
+                frame_duration_ms=frame_duration_ms,
+                resolve_bindings=resolve_bindings,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values_flat", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if input_key in ("pixel_values_flat_video",) and "videos" not in modalities:
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        # Validate the multimodal input keyword arguments
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if modalities is None:
+            return []
+
+        # # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_video_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            input_ids = None
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **kwargs,
+        )
+
+        return hidden_states
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="mlp1",
+            tower_model="vision_model",
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        adapter_dict = dict(self.mlp1.named_parameters())
+
+        def is_llm(name: str) -> bool:
+            return name.startswith("language_model")
+
+        def is_adapter_weights(weight: tuple[str, torch.Tensor]):
+            return weight[0].startswith("mlp1")
+
+        def is_vision_weights(name: str) -> bool:
+            return name.startswith("vision_model.radio_model.")
+
+        # Separate weights by component
+        llm_weights = []
+        vision_weights = []
+
+        for name, w in weights:
+            if is_llm(name):
+                # Strip 'language_model.' prefix for LLM weights
+                llm_weights.append((".".join(name.split(".")[1:]), w))
+            elif is_adapter_weights((name, w)):
+                # Load vision-language adapter weights directly
+                trimmed_name = ".".join(name.split(".")[1:])
+                param = adapter_dict[trimmed_name]
+                with torch.no_grad():
+                    default_weight_loader(param, w)
+            elif is_vision_weights(name):
+                # Convert: vision_model.radio_model.* → radio_model.*
+                hf_key = name[len("vision_model.") :]  # Remove "vision_model." prefix
+                vision_weights.append((hf_key, w))
+
+        self.language_model.load_weights(llm_weights)
+        self.vision_model.load_weights(vision_weights)
+
+    def print_architecture(self, detailed: bool = True, save_to_file: str = None):
+        """
+        Print model architecture with parameter names, shapes, and sizes.
+
+        Args:
+            detailed: If True, show detailed parameter breakdown
+            save_to_file: If provided, save output to this file path
+        """
+        import sys
+        from io import StringIO
+
+        # Capture output if saving to file
+        original_stdout = sys.stdout
+        if save_to_file:
+            sys.stdout = StringIO()
+
+        try:
+            print("=" * 100)
+            print("NemotronH_Nano_VL_V2 Model Architecture")
+            print("=" * 100)
+
+            total_params = 0
+            param_groups = {
+                "language_model": [],
+                "vision_model": [],
+                "mlp1": [],
+                "other": [],
+            }
+
+            for name, param in self.named_parameters():
+                param_size = param.numel()
+                total_params += param_size
+
+                # Group parameters by main component
+                if name.startswith("language_model"):
+                    param_groups["language_model"].append(
+                        (name, param.shape, param_size, param.dtype)
+                    )
+                elif name.startswith("vision_model"):
+                    param_groups["vision_model"].append(
+                        (name, param.shape, param_size, param.dtype)
+                    )
+                elif name.startswith("mlp1"):
+                    param_groups["mlp1"].append(
+                        (name, param.shape, param_size, param.dtype)
+                    )
+                else:
+                    param_groups["other"].append(
+                        (name, param.shape, param_size, param.dtype)
+                    )
+
+                if detailed:
+                    print(
+                        f"{name:<70} | Shape: {str(param.shape):<25} | "
+                        f"Size: {param_size:>12,} | Dtype: {param.dtype}"
+                    )
+
+            print("=" * 100)
+            print("Summary by Component:")
+            print("-" * 60)
+
+            for component, params in param_groups.items():
+                if params:  # Only show components that have parameters
+                    component_total = sum(size for _, _, size, _ in params)
+                    percentage = (
+                        (component_total / total_params) * 100
+                        if total_params > 0
+                        else 0
+                    )
+                    print(
+                        f"{component:<20} | Parameters: {len(params):>4} | "
+                        f"Total Size: {component_total:>15,} | "
+                        f"{percentage:>6.2f}%"
+                    )
+
+            print("-" * 60)
+            print(f"{'Total Parameters':<20} | {total_params:>15,}")
+
+            # Estimate memory usage (assuming bfloat16 = 2 bytes per parameter)
+            memory_mb = total_params * 2 / (1024**2)
+            memory_gb = memory_mb / 1024
+            print(f"{'Est. Memory (MB)':<20} | {memory_mb:>15.2f}")
+            print(f"{'Est. Memory (GB)':<20} | {memory_gb:>15.2f}")
+            print("=" * 100)
+
+            # Save to file if requested
+            if save_to_file:
+                output = sys.stdout.getvalue()
+                sys.stdout = original_stdout
+                with open(save_to_file, "w") as f:
+                    f.write(output)
+                print(f"Architecture saved to: {save_to_file}")
+                print(output)  # Also print to console
+
+        finally:
+            if save_to_file and sys.stdout != original_stdout:
+                sys.stdout = original_stdout
+
+    def get_model_info(self):
+        """
+        Get basic model information as a dictionary.
+        """
+        total_params = sum(p.numel() for p in self.parameters())
+
+        component_info = {}
+        for name, param in self.named_parameters():
+            component = name.split(".")[0]
+            if component not in component_info:
+                component_info[component] = {"params": 0, "size": 0}
+            component_info[component]["params"] += 1
+            component_info[component]["size"] += param.numel()
+
+        return {
+            "model_name": "NemotronH_Nano_VL_V2",
+            "total_parameters": total_params,
+            "memory_estimate_mb": total_params * 2 / (1024**2),  # bfloat16
+            "components": component_info,
+            "config": {
+                "image_size": getattr(self.config, "force_image_size", None),
+                "patch_size": getattr(self.config, "patch_size", None),
+                "num_image_token": self.num_image_token,
+                "downsample_ratio": self.downsample_ratio,
+            },
+        }
+
+    def get_vit_model_from_radio_config(self, hf_config):
+        hf_config_vision = hf_config.vision_config
+        model_name = hf_config_vision.args.get("model")
+        if model_name is None:
+            raise ValueError(f"Unsupported vit model type: {model_name}")
+
+        preferred_resolution = getattr(hf_config_vision, "preferred_resolution", None)
+        image_size = preferred_resolution[0] if preferred_resolution else 224
+        patch_size = getattr(hf_config_vision, "patch_size", 16)
+
+        radio_config = RadioConfig(
+            model_name=model_name,
+            image_size=image_size,
+            patch_size=patch_size,
+            norm_mean=hf_config.norm_mean,
+            norm_std=hf_config.norm_std,
+            reg_tokens=(
+                hf_config_vision.args.get("register_multiple")
+                if hasattr(hf_config_vision, "args")
+                and isinstance(hf_config_vision.args, dict)
+                else None
+            ),
+        )
+
+        return RadioModel(config=radio_config)
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.language_model.mamba_cache.copy_inputs_before_cuda_graphs(
+            input_buffers, **kwargs
+        )
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.language_model.mamba_cache.get_seqlen_agnostic_capture_inputs(
+            batch_size
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(cls, vllm_config: "VllmConfig"):
+        text_config = vllm_config.model_config.hf_config.text_config
+        temp_vllm_config = copy.deepcopy(vllm_config)
+        temp_vllm_config.model_config.hf_config = text_config
+        return NemotronHForCausalLM.get_mamba_state_shape_from_config(temp_vllm_config)
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(cls, vllm_config: "VllmConfig"):
+        text_config = vllm_config.model_config.hf_config.text_config
+        temp_vllm_config = copy.deepcopy(vllm_config)
+        temp_vllm_config.model_config.hf_config = text_config
+        return NemotronHForCausalLM.get_mamba_state_dtype_from_config(temp_vllm_config)
diff --git a/model_executor/models/nemotron.py b/model_executor/models/nemotron.py
new file mode 100644
index 0000000..92dcf5e
--- /dev/null
+++ b/model_executor/models/nemotron.py
@@ -0,0 +1,518 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Nemotron model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import NemotronConfig
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+# The architecture is pretty similar to Llama, with these changes:
+# - There is no gate_proj, just up_proj
+# - Normal LayerNorm (with a +1 to the weights) instead of RMSNorm
+# - Squared ReLU instead of SwiGLU
+# - Adds a partial_rotary_factor to RoPE
+
+
+def _cast_if_autocast_enabled(*args):
+    if not torch.is_autocast_enabled():
+        return args
+    else:
+        return torch.amp.autocast_mode._cast(
+            args, device_type="cuda", dtype=torch.get_autocast_gpu_dtype()
+        )
+
+
+class NemotronLayerNorm1P(nn.LayerNorm):
+    def __init__(
+        self,
+        normalized_shape: int | list[int] | torch.Size,
+        eps: float = 1e-5,
+        elementwise_affine: bool = True,
+        bias: bool = True,
+        device=None,
+        dtype=None,
+    ):
+        super().__init__(normalized_shape, eps, elementwise_affine, bias, device, dtype)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        residual: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if residual is not None:
+            x = x + residual
+            residual = x
+        args = _cast_if_autocast_enabled(
+            x, self.normalized_shape, self.weight + 1, self.bias, self.eps
+        )
+        with torch.amp.autocast("cuda", enabled=False):
+            x = torch.nn.functional.layer_norm(*args)
+            return x if residual is None else (x, residual)
+
+
+class NemotronMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.up_proj = ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = get_act_fn(hidden_act)
+
+    def forward(self, x):
+        up, _ = self.up_proj(x)
+        x = self.act_fn(up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class NemotronAttention(nn.Module):
+    def __init__(
+        self,
+        config: NemotronConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.partial_rotary_factor = config.partial_rotary_factor
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class NemotronDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: NemotronConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        self.self_attn = NemotronAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = NemotronMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = NemotronLayerNorm1P(
+            config.hidden_size, eps=config.norm_eps
+        )
+        self.post_attention_layernorm = NemotronLayerNorm1P(
+            config.hidden_size, eps=config.norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class NemotronModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: NemotronDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = NemotronLayerNorm1P(config.hidden_size, eps=config.norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        assert isinstance(config, NemotronConfig)
+
+        self.config = config
+
+        self.quant_config = quant_config
+
+        self.model = NemotronModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/nemotron_h.py b/model_executor/models/nemotron_h.py
new file mode 100644
index 0000000..f7e0caf
--- /dev/null
+++ b/model_executor/models/nemotron_h.py
@@ -0,0 +1,852 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://github.com/vllm-project/vllm/blob/94d8ec8d2bcb4ec55e33022b313c7e978edf05e1/vllm/model_executor/models/bamba.py
+# Copyright 2024 HuggingFace Inc. team. All rights reserved.
+# Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only NemotronH model."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.config.parallel import ParallelConfig
+from vllm.distributed import get_ep_group, get_tensor_model_parallel_world_size
+from vllm.distributed.communication_op import tensor_model_parallel_all_gather
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.model_executor.layers.activation import ReLUSquaredActivation
+from vllm.model_executor.layers.fused_moe import FusedMoE, SharedFusedMoE
+from vllm.model_executor.layers.fused_moe.utils import activation_without_mul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import (
+    HasInnerState,
+    IsHybrid,
+    MixtureOfExperts,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+    SupportsQuant,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+    sequence_parallel_chunk,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import NemotronHConfig
+
+
+class NemotronHMLP(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        intermediate_size: int,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        reduce_results: bool = True,
+        is_sequence_parallel: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.up_proj = ColumnParallelLinear(
+            input_size=config.hidden_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=config.hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = ReLUSquaredActivation()
+
+    def forward(self, x: torch.Tensor):
+        x, _ = self.up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class NemotronHMoE(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = self.ep_group.rank()
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.n_routed_experts
+        self.n_shared_experts: int = config.n_shared_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            params_dtype=torch.float32,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.gate.e_score_correction_bias = nn.Parameter(
+            torch.empty(config.n_routed_experts, dtype=torch.float32)
+        )
+        # Load balancing settings.
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_redundant_experts = parallel_config.eplb_config.num_redundant_experts  # noqa: E501
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        if config.n_shared_experts is None or config.n_shared_experts == 0:
+            self.shared_experts = None
+        else:
+            intermediate_size = (
+                config.moe_shared_expert_intermediate_size * config.n_shared_experts
+            )
+
+            self.shared_experts = NemotronHMLP(
+                config=config,
+                intermediate_size=intermediate_size,
+                quant_config=quant_config,
+                reduce_results=False,
+                is_sequence_parallel=self.is_sequence_parallel,
+                prefix=f"{prefix}.shared_experts",
+            )
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func="sigmoid",
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            activation=activation_without_mul(config.mlp_hidden_act),
+            is_act_and_mul=False,  # non-gated MoE
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states.to(dtype=torch.float32))
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        shared_output, final_hidden_states = fused_moe_out
+
+        # Fix FP16 overflow
+        # See DeepseekV2DecoderLayer for more details.
+        if hidden_states.dtype != torch.float16:
+            final_hidden_states *= self.routed_scaling_factor
+        elif self.shared_experts is not None:
+            assert shared_output is not None
+            shared_output *= 1.0 / self.routed_scaling_factor
+
+        if self.shared_experts is not None:
+            assert shared_output is not None
+            final_hidden_states += shared_output
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+        elif self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class NemotronHMLPDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+
+        hybrid_override_pattern = config.hybrid_override_pattern
+        mlp_index = hybrid_override_pattern[: layer_idx + 1].count("-") - 1
+        if isinstance(config.intermediate_size, list):
+            if len(config.intermediate_size) == 1:
+                intermediate_size = config.intermediate_size[0]
+            else:
+                intermediate_size = config.intermediate_size[mlp_index]
+        else:
+            intermediate_size = config.intermediate_size
+
+        self.mixer = NemotronHMLP(
+            config,
+            intermediate_size=intermediate_size,
+            quant_config=quant_config,
+            bias=config.mlp_bias,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        hidden_states = self.mixer(hidden_states)
+        return hidden_states, residual
+
+
+class NemotronHMoEDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+
+        self.mixer = NemotronHMoE(
+            config,
+            quant_config=quant_config,
+            parallel_config=parallel_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        hidden_states = self.mixer(hidden_states)
+        return hidden_states, residual
+
+
+class NemotronHMambaDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.mixer = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.ssm_state_size,
+            conv_kernel_size=config.conv_kernel,
+            intermediate_size=config.mamba_num_heads * config.mamba_head_dim,
+            use_conv_bias=config.use_conv_bias,
+            use_bias=config.use_bias,
+            n_groups=config.n_groups,
+            num_heads=config.mamba_num_heads,
+            head_dim=config.mamba_head_dim,
+            rms_norm_eps=config.layer_norm_epsilon,
+            activation=config.mamba_hidden_act,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        output = torch.empty_like(hidden_states)
+        self.mixer(hidden_states, output)
+        return output, residual
+
+
+class NemotronHAttention(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        if hasattr(config, "head_dim") and config.head_dim is not None:
+            self.head_dim = config.head_dim
+        else:
+            self.head_dim = config.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class NemotronHAttentionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: NemotronHConfig,
+        layer_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.mixer = NemotronHAttention(
+            config,
+            layer_idx,
+            model_config,
+            cache_config,
+            quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.norm(hidden_states)
+        else:
+            hidden_states, residual = self.norm(hidden_states, residual)
+
+        hidden_states = self.mixer(hidden_states=hidden_states)
+        return hidden_states, residual
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "M": NemotronHMambaDecoderLayer,
+    "-": NemotronHMLPDecoderLayer,
+    "*": NemotronHAttentionDecoderLayer,
+    "E": NemotronHMoEDecoderLayer,
+}
+
+
+@support_torch_compile
+class NemotronHModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: NemotronHConfig = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        self.has_moe = "E" in config.hybrid_override_pattern
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = ALL_DECODER_LAYER_TYPES[
+                config.hybrid_override_pattern[layer_idx]
+            ]
+            return layer_class(
+                config=config,
+                layer_idx=layer_idx,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                parallel_config=parallel_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            len(config.hybrid_override_pattern), get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        self.norm_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm_f(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        if self.has_moe:
+            # (param_name, weight_name, expert_id, shard_id)
+            expert_params_mapping = FusedMoE.make_expert_params_mapping(
+                # - FusedMoe.w1 (aka gate_proj) should be up_proj since that's
+                #   what the activation is applied to
+                # - FusedMoe.w3 (aka up_proj) should be ignored since we're
+                #   using non-gated MoE
+                ckpt_gate_proj_name="up_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="",
+                num_experts=self.config.n_routed_experts,
+                num_redundant_experts=getattr(self, "num_redundant_experts", 0),
+            )
+        else:
+            expert_params_mapping = []
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "scale" in name:
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+            # load stacked params
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+
+            # load other params
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+
+            loaded_params.add(name)
+        return loaded_params
+
+
+class NemotronHForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsQuant,
+    MixtureOfExperts,
+    SupportsMambaPrefixCaching,
+):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={"backbone": "model"},
+        orig_to_new_substr={"A_log": "A", "embeddings": "embed_tokens"},
+    )
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.mamba_num_heads * hf_config.mamba_head_dim
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.n_groups,
+            num_heads=hf_config.mamba_num_heads,
+            head_dim=hf_config.mamba_head_dim,
+            state_size=hf_config.ssm_state_size,
+            conv_kernel=hf_config.conv_kernel,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+
+        scheduler_config = vllm_config.scheduler_config
+
+        self.quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = NemotronHModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        # Set MoE hyperparameters
+        if self.model.has_moe:
+            self.expert_weights = []
+            self.num_expert_groups = config.n_group
+
+            self.moe_layers = []
+            example_moe = None
+            for layer in self.model.layers:
+                if isinstance(layer, NemotronHMoEDecoderLayer):
+                    # Pick last one layer since the first ones
+                    # may be dense layers.
+                    example_moe = layer.mixer
+                    self.moe_layers.append(layer.mixer.experts)
+
+            self.num_moe_layers = len(self.moe_layers)
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts  # noqa: E501
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer, NemotronHMoEDecoderLayer):
+                moe = layer.mixer
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/nemotron_nas.py b/model_executor/models/nemotron_nas.py
new file mode 100644
index 0000000..b839206
--- /dev/null
+++ b/model_executor/models/nemotron_nas.py
@@ -0,0 +1,491 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only deci model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import LlamaConfig
+
+from vllm.attention import AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.llama import LlamaAttention, LlamaMLP
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import HasNoOps, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+def _ffn_mult_to_intermediate_size(ffn_mult: float, n_embd: int) -> int:
+    # DeciLM-specific code
+    intermediate_size = int(2 * ffn_mult * n_embd / 3)
+    return _find_multiple(intermediate_size, 256)
+
+
+def _find_multiple(n: int, k: int) -> int:
+    # DeciLM-specific code
+    if n % k == 0:
+        return n
+    return n + k - (n % k)
+
+
+class DeciLMAttention(LlamaAttention):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__(
+            config,
+            hidden_size,
+            num_heads,
+            num_kv_heads,
+            rope_theta,
+            rope_scaling,
+            max_position_embeddings,
+            quant_config,
+            bias,
+            bias_o_proj,
+            cache_config,
+            prefix,
+            attn_type,
+        )
+
+    def _init_rotary_emb(
+        self,
+        config,
+        rope_scaling: dict[str, Any] | None,
+        quant_config: QuantizationConfig | None,
+    ) -> None:
+        # Enables YARN for Mistral and LLaMA4 derivatives.
+        is_neox_style = True
+        if hasattr(config, "position_embedding_type"):
+            is_neox_style = config.position_embedding_type not in [
+                "mistral_yarn",
+                "rope_llama4",
+            ]
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+
+
+class DeciLMDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        layer_idx: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        block_config = config.block_configs[layer_idx]
+        self._is_no_op_attention = block_config.attention.no_op
+        self._is_no_op_ffn = block_config.ffn.no_op
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        bias_o_proj = attention_bias
+        # support internlm/internlm3-8b with qkv_bias
+        if hasattr(config, "qkv_bias"):
+            attention_bias = config.qkv_bias
+
+        if not self._is_no_op_attention:
+            num_kv_heads = (
+                config.num_attention_heads // block_config.attention.n_heads_in_group
+            )
+            self.self_attn = DeciLMAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                num_kv_heads=num_kv_heads,
+                rope_theta=rope_theta,
+                rope_scaling=rope_scaling,
+                max_position_embeddings=max_position_embeddings,
+                quant_config=quant_config,
+                bias=attention_bias,
+                bias_o_proj=bias_o_proj,
+                cache_config=cache_config,
+                prefix=f"{prefix}.self_attn",
+            )
+            self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        if not self._is_no_op_ffn:
+            ffn_mult = block_config.ffn.ffn_mult
+            intermediate_size = _ffn_mult_to_intermediate_size(
+                ffn_mult, config.hidden_size
+            )
+
+            self.mlp = LlamaMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                bias=getattr(config, "mlp_bias", False),
+                prefix=f"{prefix}.mlp",
+            )
+            self.post_attention_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+
+        if self._is_no_op_attention:
+            pass
+        else:
+            if residual is None:
+                residual = hidden_states
+                hidden_states = self.input_layernorm(hidden_states)
+            else:
+                hidden_states, residual = self.input_layernorm(hidden_states, residual)
+            hidden_states = self.self_attn(
+                positions=positions,
+                hidden_states=hidden_states,
+            )
+
+        # Fully Connected
+        if not self._is_no_op_ffn:
+            hidden_states, residual = self.post_attention_layernorm(
+                hidden_states, residual
+            )
+            hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class DeciModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[DeciLMDecoderLayer] = DeciLMDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.padding_idx = config.pad_token_id
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            return layer_type(
+                config,
+                layer_idx,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            get_layer,
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        kv_cache_index = 0
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            if not layer._is_no_op_attention:
+                hidden_states, residual = layer(positions, hidden_states, residual)
+                kv_cache_index += 1
+            else:
+                hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            if "scale" in name:
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    # Mistral/Llama models can also be loaded with --load-format mistral
+    # from consolidated.safetensors checkpoints
+    mistral_mapping = {
+        "layers": "model.layers",
+        "attention": "self_attn",
+        "wq": "q_proj",
+        "wk": "k_proj",
+        "wv": "v_proj",
+        "wo": "o_proj",
+        "attention_norm": "input_layernorm",
+        "feed_forward": "mlp",
+        "w1": "gate_proj",
+        "w2": "down_proj",
+        "w3": "up_proj",
+        "ffn_norm": "post_attention_layernorm",
+        "tok_embeddings": "model.embed_tokens",
+        "output": "lm_head",
+        "norm": "model.norm",
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.model = self._init_model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def _init_model(self, vllm_config: VllmConfig, prefix: str = ""):
+        return DeciModel(vllm_config=vllm_config, prefix=prefix)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/nemotron_vl.py b/model_executor/models/nemotron_vl.py
new file mode 100644
index 0000000..5a1dda8
--- /dev/null
+++ b/model_executor/models/nemotron_vl.py
@@ -0,0 +1,653 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/OpenGVLab/InternVL2-4B/blob/main/modeling_internvl_chat.py
+# --------------------------------------------------------
+# InternVL
+# Copyright (c) 2023 OpenGVLab
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+from abc import ABC
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+import torchvision.transforms as T
+from PIL import Image
+from transformers import AutoModel, PretrainedConfig
+from transformers.image_processing_utils_fast import BaseImageProcessorFast
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.awq import AWQConfig
+from vllm.model_executor.models.internvl import (
+    BaseInternVLDummyInputsBuilder,
+    BaseInternVLMultiModalProcessor,
+    BaseInternVLProcessingInfo,
+    InternVLImageEmbeddingInputs,
+    InternVLImageInputs,
+    InternVLImagePixelInputs,
+    InternVLProcessor,
+)
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.image import convert_image_mode
+from vllm.multimodal.processing import PromptUpdateDetails
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processor import cached_image_processor_from_config
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+IMG_START = "<img>"
+IMG_END = "</img>"
+IMG_CONTEXT = "<image>"
+
+
+def build_transform(input_size: int):
+    return T.Compose(
+        [
+            T.Lambda(lambda img: convert_image_mode(img, "RGB")),
+            T.Resize(
+                (input_size, input_size), interpolation=T.InterpolationMode.BICUBIC
+            ),
+            T.ToTensor(),
+        ]
+    )
+
+
+# adapted from https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1
+def find_closest_aspect_ratio(
+    aspect_ratio: float,
+    target_ratios: list[tuple[int, int]],
+    *,
+    width: int,
+    height: int,
+    image_size: int,
+) -> tuple[int, int]:
+    best_factor = float("-inf")
+    best_ratio = (1, 1)
+    area = width * height
+
+    for rw, rh in target_ratios:
+        target_aspect_ratio = rw / rh
+        size_factor = min((rw * rh * image_size * image_size) / area, 0.6)
+        ratio_closeness = min(
+            target_aspect_ratio / aspect_ratio, aspect_ratio / target_aspect_ratio
+        )
+        factor = size_factor * ratio_closeness
+
+        if factor > best_factor:
+            best_factor = factor
+            best_ratio = (rw, rh)
+
+    return best_ratio
+
+
+def calculate_nemotron_vl_targets(
+    *,
+    orig_width: int,
+    orig_height: int,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> tuple[int, int, int]:
+    aspect_ratio = orig_width / orig_height
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio,
+        target_ratios,
+        width=orig_width,
+        height=orig_height,
+        image_size=image_size,
+    )
+
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+
+    # add thumbnail image if num_blocks != 1
+    if use_thumbnail and blocks != 1:
+        blocks += 1
+
+    return blocks, target_width, target_height
+
+
+def dynamic_preprocess_nemotron_vl(
+    image: Image.Image,
+    *,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> list[Image.Image]:
+    orig_width, orig_height = image.size
+
+    # calculate the number of blocks without thumbnail
+    blocks, target_width, target_height = calculate_nemotron_vl_targets(
+        orig_width=orig_width,
+        orig_height=orig_height,
+        target_ratios=target_ratios,
+        image_size=image_size,
+        use_thumbnail=False,
+    )
+
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+
+    assert len(processed_images) == blocks
+
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+
+    return processed_images
+
+
+def get_nemotron_vl_target_ratios(
+    min_num: int,
+    max_num: int,
+) -> list[tuple[int, int]]:
+    target_ratios = {
+        (i, j)
+        for n in range(min_num, max_num + 1)
+        for i in range(1, n + 1)
+        for j in range(1, n + 1)
+        if min_num <= i * j <= max_num
+    }
+    return sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+
+def image_to_pixel_values_nemotron_vl(
+    image: Image.Image,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+) -> torch.Tensor:
+    target_ratios = get_nemotron_vl_target_ratios(min_num, max_num)
+
+    transform = build_transform(input_size=input_size)
+
+    images = dynamic_preprocess_nemotron_vl(
+        image,
+        target_ratios=target_ratios,
+        image_size=input_size,
+        use_thumbnail=use_thumbnail,
+    )
+
+    pixel_values = torch.stack([transform(image) for image in images])
+    return pixel_values
+
+
+class NemotronVLProcessor(InternVLProcessor):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        image_processor: BaseImageProcessorFast,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> None:
+        ABC.__init__(self)
+        self.config = config
+        self.tokenizer = tokenizer
+        self.image_processor = image_processor
+        image_size: int = config.force_image_size
+        patch_size: int = config.patch_size
+
+        if min_dynamic_patch is None:
+            min_dynamic_patch = 1
+        assert isinstance(min_dynamic_patch, int)
+
+        if max_dynamic_patch is None:
+            max_dynamic_patch = self.image_processor.max_num_tiles
+        assert isinstance(max_dynamic_patch, int)
+
+        if dynamic_image_size is None:
+            dynamic_image_size = True
+        assert isinstance(dynamic_image_size, bool)
+
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.image_size = image_size
+        self.min_dynamic_patch = min_dynamic_patch
+        self.max_dynamic_patch = max_dynamic_patch
+        self.dynamic_image_size = dynamic_image_size
+        self.use_thumbnail: bool = self.image_processor.use_thumbnail
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[IMG_CONTEXT]
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        target_ratios = self.resolve_target_ratios(
+            use_thumbnail=False,  # Applied in calculate_targets
+        )
+
+        num_patches, _, _ = calculate_nemotron_vl_targets(
+            orig_width=image_width,
+            orig_height=image_height,
+            image_size=self.image_size,
+            target_ratios=target_ratios,
+            use_thumbnail=self.use_thumbnail,
+        )
+
+        return num_patches * self.num_image_token
+
+    def _images_to_pixel_values_lst(
+        self,
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=False,  # Applied in image_to_pixel_values
+        )
+
+        return [
+            image_to_pixel_values_nemotron_vl(
+                image,
+                input_size=self.image_size,
+                min_num=min_num,
+                max_num=max_num,
+                use_thumbnail=self.use_thumbnail,
+            )
+            for image in images
+        ]
+
+    def _preprocess_image(
+        self,
+        text: list[str],
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> tuple[list[str], dict[str, torch.Tensor]]:
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values_lst = self._images_to_pixel_values_lst(
+                images,
+                min_dynamic_patch=min_dynamic_patch,
+                max_dynamic_patch=max_dynamic_patch,
+                dynamic_image_size=dynamic_image_size,
+            )
+            image_inputs = {
+                "pixel_values_flat": torch.cat(pixel_values_lst),
+                "image_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst]
+                ),
+            }
+
+            for pixel_values in pixel_values_lst:
+                num_patches = pixel_values.shape[0]
+                feature_size = num_patches * self.num_image_token
+                image_repl = self.get_image_repl(feature_size, num_patches)
+                NVL_IMAGE_CONTEXT = image_repl.full.replace(
+                    "<image>", "<NVL_IMG_CONTEXT>"
+                )
+                text = [t.replace("<image>", NVL_IMAGE_CONTEXT, 1) for t in text]
+            text = [t.replace("<NVL_IMG_CONTEXT>", IMG_CONTEXT) for t in text]
+        return text, image_inputs
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = IMG_CONTEXT * feature_size
+        repl_full = IMG_START + repl_features + IMG_END
+
+        return PromptUpdateDetails.select_text(repl_full, IMG_CONTEXT)
+
+
+class NemotronVLProcessingInfo(BaseInternVLProcessingInfo):
+    """Processing info for Nemotron VL models."""
+
+    def get_hf_processor(self, **kwargs: object) -> NemotronVLProcessor:
+        return self.ctx.init_processor(
+            NemotronVLProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            image_processor=self.get_image_processor(),
+            **kwargs,
+        )
+
+    def get_image_processor(self, **kwargs: object):
+        return cached_image_processor_from_config(
+            self.ctx.model_config,
+            **kwargs,
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    BaseInternVLMultiModalProcessor[NemotronVLProcessingInfo],
+    info=NemotronVLProcessingInfo,
+    dummy_inputs=BaseInternVLDummyInputsBuilder[NemotronVLProcessingInfo],
+)
+class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self._patch_quant_config(config, quant_config)
+
+        image_size = config.force_image_size or config.vision_config.image_size
+        patch_size = config.vision_config.patch_size
+        self.patch_size = patch_size
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+        self.ps_version = config.ps_version
+
+        self.llm_arch_name = config.text_config.architectures[0]
+        self.vision_model = self._init_vision_model(
+            config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.mlp1 = self._init_mlp1(config)
+
+        self.img_context_token_id = None
+
+        self.visual_token_mask = None
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _patch_quant_config(
+        self, config: PretrainedConfig, quant_config: QuantizationConfig
+    ):
+        # the awq models from OpenGVLab missing `modules_to_not_convert`
+        # patch the quant_config to add `modules_to_not_convert` back
+        if isinstance(quant_config, AWQConfig):
+            text_config = config.text_config
+            llm_quant_config = getattr(text_config, "quantization_config", None)
+            if (not quant_config.modules_to_not_convert) and (
+                llm_quant_config is not None
+            ):
+                quant_config.modules_to_not_convert.append("vision_model")
+
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        prefix: str,
+    ):
+        return AutoModel.from_config(config.vision_config, trust_remote_code=True)
+
+    def _init_mlp1(self, config: PretrainedConfig) -> nn.Module:
+        vit_hidden_size = config.vit_hidden_size
+        vision_projection_hidden_size = config.projector_hidden_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        return nn.Sequential(
+            nn.LayerNorm(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2, bias=True
+            ),
+            nn.Linear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                vision_projection_hidden_size,
+                bias=True,
+            ),
+            nn.GELU(),
+            nn.Linear(vision_projection_hidden_size, llm_hidden_size),
+        )
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(n, w, int(h * scale_factor), int(c / scale_factor))
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        if self.ps_version == "v1":
+            pass
+        else:
+            x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        # https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1/blob/main/modeling.py#L177
+        vit_embeds = self.vision_model(x=pixel_values).features
+        vit_embeds = vit_embeds.to(dtype=torch.bfloat16)
+
+        h = w = int(vit_embeds.shape[1] ** 0.5)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+        vit_embeds = self.pixel_shuffle(vit_embeds, scale_factor=self.downsample_ratio)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], -1, vit_embeds.shape[-1])
+        vit_embeds = self.mlp1(vit_embeds)
+        return vit_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> InternVLImageInputs | None:
+        pixel_values_flat = kwargs.pop("pixel_values_flat", None)
+        image_num_patches = kwargs.pop("image_num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values_flat is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return InternVLImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        image_token_id = kwargs["image_token_id"]
+        if isinstance(image_token_id, torch.Tensor):
+            image_token_id = image_token_id.flatten().unique().item()
+
+        assert isinstance(image_token_id, int)
+        self.img_context_token_id = image_token_id
+
+        if pixel_values_flat is not None:
+            return InternVLImagePixelInputs(
+                type="pixel_values",
+                pixel_values_flat=pixel_values_flat,
+                num_patches=image_num_patches,
+                resolve_bindings={
+                    "h": self.config.force_image_size,
+                    "w": self.config.force_image_size,
+                },
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+        self,
+        image_input: InternVLImageInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_model is not None
+
+        image_embeds = self.extract_feature(image_input["pixel_values_flat"])
+
+        num_patches = image_input["num_patches"]
+
+        # Only one image in the current batch
+        if len(num_patches) == 1:
+            return (image_embeds.view(-1, self.config.text_config.hidden_size),)
+
+        # NOTE: Image embeddings are split into separate tensors for each image
+        # by the size of each embedding.
+        feature_size = image_embeds.shape[1]
+        image_embeds = image_embeds.view(-1, self.config.text_config.hidden_size)
+        image_feature_sizes = [
+            num_patches * feature_size for num_patches in num_patches
+        ]
+        return image_embeds.split(image_feature_sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values_flat", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+
+        return modalities
+
+    def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
+        self.visual_token_mask = None
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        if multimodal_embeddings is not None and len(multimodal_embeddings) > 0:
+            self._set_visual_token_mask(input_ids)
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            input_ids = None
+            inputs_embeds = None
+
+        forward_kwargs = {
+            "input_ids": input_ids,
+            "positions": positions,
+            "intermediate_tensors": intermediate_tensors,
+            "inputs_embeds": inputs_embeds,
+        }
+
+        # Only required if the model is mono-architecture
+        if self.visual_token_mask is not None:
+            forward_kwargs.update({"visual_token_mask": self.visual_token_mask})
+            self.visual_token_mask = None
+
+        hidden_states = self.language_model.model(**forward_kwargs)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        ## Ignore registered_buffers
+        ## see https://huggingface.co/nvidia/C-RADIOv2-H/blob/main/input_conditioner.py#L28 # noqa: E501
+        skip_substrs = ["norm_mean", "norm_std"]
+        loader = AutoWeightsLoader(self, skip_substrs=skip_substrs)
+        return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="mlp1",
+            tower_model="vision_model",
+        )
diff --git a/model_executor/models/nvlm_d.py b/model_executor/models/nvlm_d.py
new file mode 100644
index 0000000..73dd8df
--- /dev/null
+++ b/model_executor/models/nvlm_d.py
@@ -0,0 +1,216 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/nvidia/NVLM-D-72B/blob/main/modeling_nvlm_d.py
+# --------------------------------------------------------
+# NVLM-D
+# Copyright (c) 2024 NVIDIA
+# Licensed under Apache 2.0 License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Mapping, Sequence
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict, MultiModalKwargsItems
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+
+from .intern_vit import InternVisionModel
+from .internvl import (
+    BaseInternVLDummyInputsBuilder,
+    BaseInternVLMultiModalProcessor,
+    BaseInternVLProcessingInfo,
+    BaseInternVLProcessor,
+    InternVLChatModel,
+)
+
+IMG_PAD = "<|vision_pad|>"
+
+
+class NVLMProcessor(BaseInternVLProcessor):
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[IMG_PAD]
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        if num_patches is None:
+            raise NotImplementedError("Embedding inputs are not supported")
+
+        tile_pos_identifiers = [f"<tile_{i}>" for i in range(1, num_patches)]
+        if self.use_thumbnail:
+            tile_pos_identifiers += ["<tile_global_thumbnail>"]
+
+        context_size = feature_size // num_patches
+        features = "".join(
+            identifier + IMG_PAD * context_size for identifier in tile_pos_identifiers
+        )
+
+        # We include the start and end as well because "<Image><tile" is
+        # tokenized as ["<Image", "><", "tile"], resulting in assertion error
+        # when trying to find "<tile" as a subsequence of "<Image><tile"
+        repl = "<Image>" + features + "</Image>"
+
+        return PromptUpdateDetails.select_text(repl, IMG_PAD)
+
+
+class NVLMProcessingInfo(BaseInternVLProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> NVLMProcessor:
+        return self.ctx.init_processor(
+            NVLMProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+
+class NVLMDummyInputsBuilder(BaseInternVLDummyInputsBuilder[NVLMProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        # The newline is necessary to separate ">" of the current item
+        # and "<" of the next item
+        return "<image>\n" * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class NVLMMultiModalProcessor(BaseInternVLMultiModalProcessor[NVLMProcessingInfo]):
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "image_num_patches" in out_mm_data:
+            image_num_patches = out_mm_data["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        elif "image_embeds" in out_mm_data:
+            # TODO: Use image size information in dictionary embedding inputs
+            # to compute num_patches (similar to Qwen2-VL)
+            image_num_patches = [None] * len(out_mm_data["image_embeds"])
+        else:
+            image_num_patches = []
+
+        def get_replacement_nvlm(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                feature_size = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            num_patches = image_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            repl = hf_processor.get_image_repl(feature_size, num_patches)
+
+            return PromptUpdateDetails.select_text(repl.full + "\n", IMG_PAD)
+
+        # See note in dummy data regarding why we have the extra newline
+        return [
+            PromptReplacement(
+                modality="image",
+                target="<image>\n",
+                replacement=get_replacement_nvlm,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    NVLMMultiModalProcessor,
+    info=NVLMProcessingInfo,
+    dummy_inputs=NVLMDummyInputsBuilder,
+)
+class NVLM_D_Model(InternVLChatModel):
+    def _init_mlp1(self, config: PretrainedConfig) -> nn.Module:
+        vit_hidden_size = config.vision_config.hidden_size
+        llm_intermediate_size = config.text_config.intermediate_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        return nn.Sequential(
+            nn.LayerNorm(vit_hidden_size * int(1 / self.downsample_ratio) ** 2),
+            nn.Linear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                llm_intermediate_size,
+                bias=False,
+            ),
+            nn.GELU(),
+            nn.Linear(llm_intermediate_size, llm_hidden_size, bias=False),
+        )
+
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        is_mono: bool,
+        prefix: str,
+    ):
+        if not is_mono:
+            vision_feature_layer = config.select_layer
+            if vision_feature_layer < 0:
+                num_hidden_layers = (
+                    config.vision_config.num_hidden_layers + vision_feature_layer + 1
+                )
+            else:
+                num_hidden_layers = vision_feature_layer + 1
+
+            # We added additional dummy heads to the original num of heads to
+            # make the number of heads divisible by 8.
+            return InternVisionModel(
+                config.vision_config,
+                quant_config=quant_config,
+                num_hidden_layers_override=num_hidden_layers,
+                num_dummy_heads=7,
+                prefix=prefix,
+            )
+        else:
+            msg = "Monolith mode is not applicable to NVLM_D"
+            raise NotImplementedError(msg)
diff --git a/model_executor/models/olmo.py b/model_executor/models/olmo.py
new file mode 100644
index 0000000..487e3f6
--- /dev/null
+++ b/model_executor/models/olmo.py
@@ -0,0 +1,414 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.40.1/src/transformers/models/olmo/modeling_olmo.py
+# Copyright 2024 The vLLM team.
+# Copyright 2024 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only OLMo model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import OlmoConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OlmoAttention(nn.Module):
+    """
+    This is the attention block where the output is computed as
+    `Attention(LN(x))` in `MLP(LN(x + Attention(LN(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(
+        self,
+        config: OlmoConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+
+        assert self.hidden_size % self.total_num_heads == 0
+        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+
+        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.clip_qkv = config.clip_qkv
+
+        # Attention input projection. Projects x -> (q, k, v)
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        # Rotary embeddings.
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+        )
+        self.scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        # Attention output projection.
+        self.o_proj = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=config.attention_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        if self.clip_qkv is not None:
+            qkv.clamp_(min=-self.clip_qkv, max=self.clip_qkv)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class OlmoMLP(nn.Module):
+    """
+    This is the MLP block where the output is computed as
+    `MLP(LN(x))` in `MLP(LN(x + Attention(LN(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(
+        self,
+        config: OlmoConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+
+        # Feed-forward input projection.
+        self.gate_up_proj = MergedColumnParallelLinear(
+            self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+
+        # Activation function.
+        self.act_fn = SiluAndMul()
+
+        # Feed-forward output projection.
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class OlmoDecoderLayer(nn.Module):
+    """
+    This is a typical transformer block where the output is
+    computed as `MLP(LN(x + Attention(LN(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(
+        self,
+        config: OlmoConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        # Attention block.
+        self.self_attn = OlmoAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attn"
+        )
+
+        # MLP block.
+        self.mlp = OlmoMLP(config, quant_config, prefix=f"{prefix}.mlp")
+
+        # LayerNorm
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, elementwise_affine=False, bias=False
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, elementwise_affine=False, bias=False
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, tuple[torch.Tensor, torch.Tensor] | None]:
+        # Attention block.
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(positions, hidden_states)
+        hidden_states = hidden_states + residual
+
+        # MLP block.
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class OlmoModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: OlmoDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = nn.LayerNorm(
+            config.hidden_size, elementwise_affine=False, bias=False
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        """
+        :param input_ids: A tensor of shape `(batch_size, seq_len)`.
+        """
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        # Apply blocks one-by-one.
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            # shape: (batch_size, seq_len, d_model)
+            hidden_states = layer(positions, hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        # Apply final layer norm.
+        # shape: (batch_size, seq_len or 1, d_model)
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OlmoForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    """
+    Extremely barebones HF model wrapper.
+    """
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.model = OlmoModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(
+                ["lm_head.weight"] if self.config.tie_word_embeddings else None
+            ),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/olmo2.py b/model_executor/models/olmo2.py
new file mode 100644
index 0000000..045582c
--- /dev/null
+++ b/model_executor/models/olmo2.py
@@ -0,0 +1,454 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/main/src/transformers/models/olmo2/modeling_olmo2.py
+# Copyright 2024 The vLLM team.
+# Copyright 2024 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only OLMo2 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from functools import partial
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import Olmo2Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.distributed.communication_op import tensor_model_parallel_all_gather
+from vllm.distributed.parallel_state import get_tensor_model_parallel_rank
+from vllm.distributed.utils import split_tensor_along_last_dim
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import SupportsLoRA, SupportsPP
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import Olmo3Config
+
+
+class Olmo2Attention(nn.Module):
+    """
+    This is the attention block where the output is computed as
+    `Attention(LN(x))` in `MLP(LN(x + Attention(LN(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        assert isinstance(self.config, (Olmo2Config, Olmo3Config))
+
+        hidden_size = self.config.hidden_size
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = self.config.num_attention_heads
+
+        assert hidden_size % self.total_num_heads == 0
+        assert self.total_num_heads % self.tp_size == 0
+
+        self.num_heads = self.total_num_heads // self.tp_size
+        self.total_num_kv_heads = (
+            self.config.num_key_value_heads or self.total_num_heads
+        )
+        if self.total_num_kv_heads >= self.tp_size:
+            assert self.total_num_kv_heads % self.tp_size == 0
+        else:
+            assert self.tp_size % self.total_num_kv_heads == 0
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // self.tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.max_position_embeddings = self.config.max_position_embeddings
+        self.rope_theta = self.config.rope_theta
+
+        # Attention input projection. Projects x -> (q, k, v)
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=vllm_config.quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.k_norm = RMSNorm(
+            self.total_num_kv_heads * self.head_dim,
+            eps=self.config.rms_norm_eps,
+        )
+        self.q_norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
+
+        self.scaling = self.head_dim**-0.5
+
+        layer_idx = extract_layer_index(prefix)
+        sliding_window = None
+        if (
+            layer_types := getattr(self.config, "layer_types", None)
+        ) is not None and layer_types[layer_idx] == "sliding_attention":
+            sliding_window = self.config.sliding_window
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=vllm_config.cache_config,
+            quant_config=vllm_config.quant_config,
+            per_layer_sliding_window=sliding_window,
+            prefix=f"{prefix}.attn",
+        )
+
+        # Rotary embeddings. Rope scaling is only applied on full attention
+        # layers.
+        self.rope_scaling = self.config.rope_scaling if sliding_window is None else None
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,  # type: ignore
+            rope_scaling=self.rope_scaling,
+        )
+
+        # Attention output projection.
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=vllm_config.quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+    def _apply_qk_norm(
+        self, q: torch.Tensor, k: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.tp_size > 1:
+            q = tensor_model_parallel_all_gather(q.contiguous())
+            k = tensor_model_parallel_all_gather(k.contiguous())
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+        return q, k
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self._apply_qk_norm(q, k)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Olmo2MLP(nn.Module):
+    """
+    This is the MLP block where the output is computed as
+    `MLP(x)` in `LN(MLP(x + LN(Attention(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        assert isinstance(config, (Olmo2Config, Olmo3Config))
+        hidden_size = config.hidden_size
+        intermediate_size = config.intermediate_size
+
+        # Feed-forward input projection.
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=vllm_config.quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+
+        # Activation function.
+        self.act_fn = SiluAndMul()
+
+        # Feed-forward output projection.
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=vllm_config.quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Olmo2DecoderLayer(nn.Module):
+    """
+    This is a typical transformer block where the output is
+    computed as `MLP(LN(x + Attention(LN(x))))`
+    (plus another skip connection).
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        assert isinstance(config, (Olmo2Config, Olmo3Config))
+        # Attention block.
+        self.self_attn = Olmo2Attention(
+            vllm_config=vllm_config, prefix=f"{prefix}.self_attn"
+        )
+
+        # MLP block.
+        self.mlp = Olmo2MLP(vllm_config=vllm_config, prefix=f"{prefix}.mlp")
+
+        # LayerNorm
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.post_feedforward_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Attention block.
+        residual = hidden_states
+        hidden_states = self.self_attn(positions, hidden_states)
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = hidden_states + residual
+
+        # MLP block.
+        residual = hidden_states
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_feedforward_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class Olmo2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        assert isinstance(self.config, (Olmo2Config, Olmo3Config))
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            self.config.num_hidden_layers,
+            lambda prefix: Olmo2DecoderLayer(vllm_config=vllm_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(
+            self.config.hidden_size,
+            eps=self.config.rms_norm_eps,
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], self.config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        """
+        :param input_ids: A tensor of shape `(batch_size, seq_len)`.
+        """
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            # Get embeddings of input.
+            # shape: (batch_size, seq_len, d_model)
+            else:
+                hidden_states = self.embed_tokens(input_ids)
+
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            assert isinstance(hidden_states, torch.Tensor)
+
+        # Apply blocks one-by-one.
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            # shape: (batch_size, seq_len, d_model)
+            hidden_states = layer(positions, hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        # Apply final layer norm.
+        # shape: (batch_size, seq_len or 1, d_model)
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if is_pp_missing_parameter(name, self):
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader  # type: ignore
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Olmo2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    """
+    Extremely barebones HF model wrapper.
+    """
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        assert isinstance(config, (Olmo2Config, Olmo3Config))
+        self.config = config
+        self.model = Olmo2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=vllm_config.quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(
+                ["lm_head.weight"] if self.config.tie_word_embeddings else None
+            ),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/olmoe.py b/model_executor/models/olmoe.py
new file mode 100644
index 0000000..499eb05
--- /dev/null
+++ b/model_executor/models/olmoe.py
@@ -0,0 +1,498 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only OLMoE model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from functools import partial
+from itertools import islice
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.distributed.utils import split_tensor_along_last_dim
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class OlmoeMoE(nn.Module):
+    """A tensor-parallel MoE implementation for Olmoe that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size, num_experts, bias=False, quant_config=None
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            reduce_results=True,
+            renormalize=False,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+        return final_hidden_states.view(orig_shape)
+
+
+class OlmoeAttention(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
+
+        num_heads = config.num_attention_heads
+        num_kv_heads = config.num_key_value_heads
+
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.tp_size = tp_size
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.q_norm = RMSNorm(self.total_num_heads * self.head_dim, eps=1e-5)
+        self.k_norm = RMSNorm(self.total_num_kv_heads * self.head_dim, eps=1e-5)
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def _apply_qk_norm(
+        self, q: torch.Tensor, k: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.tp_size > 1:
+            q = tensor_model_parallel_all_gather(q.contiguous())
+            k = tensor_model_parallel_all_gather(k.contiguous())
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+        return q, k
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self._apply_qk_norm(q, k)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class OlmoeDecoderLayer(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.hidden_size = config.hidden_size
+
+        self.self_attn = OlmoeAttention(
+            vllm_config=vllm_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        self.mlp = OlmoeMoE(
+            num_experts=config.num_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=1e-5)
+        self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=1e-5)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class OlmoeModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = OlmoeDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+
+        self.vocab_size = config.vocab_size
+        self.config = config
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: layer_type(vllm_config=vllm_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=1e-5)
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        if residual is not None:
+            hidden_states, _ = self.norm(hidden_states, residual)
+        else:
+            hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    if name.endswith("kv_scale"):
+                        remapped_kv_scale_name = name.replace(
+                            ".kv_scale", ".attn.kv_scale"
+                        )
+                        if remapped_kv_scale_name not in params_dict:
+                            logger.warning_once(
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
+                            continue
+                        else:
+                            name = remapped_kv_scale_name
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OlmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ]
+    }
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = OlmoeDecoderLayer,
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = OlmoeModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+            layer_type=layer_type,
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/openpangu.py b/model_executor/models/openpangu.py
new file mode 100644
index 0000000..d13a745
--- /dev/null
+++ b/model_executor/models/openpangu.py
@@ -0,0 +1,1062 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import typing
+from collections.abc import Callable, Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    get_tp_group,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import (
+    MixtureOfExperts,
+    SupportsLoRA,
+    SupportsPP,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+    sequence_parallel_chunk,
+)
+from vllm.sequence import IntermediateTensors
+
+
+def check_ffn_act_fn(act_fn: str):
+    if act_fn != "silu":
+        raise ValueError(
+            f"Unsupported activation: {act_fn}. Only silu is supported for now."
+        )
+
+
+class OpenPanguMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        reduce_results: bool = True,
+        is_sequence_parallel=False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.down_proj",
+        )
+
+        check_ffn_act_fn(hidden_act)
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.down_proj(self.act_fn(self.gate_up_proj(x)[0]))[0]
+
+
+class OpenPanguMoE(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        parallel_config: ParallelConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tp_group().rank_in_group
+
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = self.ep_group.rank()
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.n_routed_experts
+        self.n_shared_experts: int = config.n_shared_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+        check_ffn_act_fn(config.hidden_act)
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        self.gate.e_score_correction_bias = None
+
+        # Load balancing settings.
+        eplb_config = parallel_config.eplb_config
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        if config.n_shared_experts is not None:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+            self.shared_experts = OpenPanguMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                is_sequence_parallel=self.is_sequence_parallel,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=1,
+            topk_group=1,
+            prefix=f"{prefix}.experts",
+            scoring_func="sigmoid",
+            # we do scaling outside, set factor to 1.0 to avoid double mul
+            routed_scaling_factor=1.0,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        router_logits, _ = self.gate(hidden_states)
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        shared_output, final_hidden_states = fused_moe_out
+        if self.shared_experts is None:
+            assert shared_output is None
+
+        if hidden_states.dtype != torch.float16:
+            final_hidden_states *= self.routed_scaling_factor
+        elif self.shared_experts is not None:
+            assert shared_output is not None
+            shared_output *= 1.0 / self.routed_scaling_factor
+
+        if self.shared_experts is not None:
+            assert shared_output is not None
+            final_hidden_states += shared_output
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+        elif self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class OpenPanguMLAAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.num_heads = num_heads
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.rope_theta = rope_theta
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        if num_heads % self.tp_size != 0:
+            raise ValueError(
+                f"num_heads {num_heads} is not divisible by tp_size {self.tp_size}."
+            )
+        self.num_local_heads = num_heads // self.tp_size
+
+        self.scaling = self.qk_head_dim**-0.5
+        self.max_position_embeddings = max_position_embeddings
+
+        self.prefix = prefix
+
+        if self.q_lora_rank is not None:
+            self.fused_qkv_a_proj = MergedColumnParallelLinear(
+                self.hidden_size,
+                [self.q_lora_rank, self.kv_lora_rank + self.qk_rope_head_dim],
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.fused_qkv_a_proj",
+                disable_tp=True,
+            )
+            self.q_a_layernorm = RMSNorm(self.q_lora_rank, eps=config.rms_norm_eps)
+            self.q_b_proj = ColumnParallelLinear(
+                q_lora_rank,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_b_proj",
+            )
+        else:
+            self.q_proj = ColumnParallelLinear(
+                self.hidden_size,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_proj",
+            )
+            self.kv_a_proj_with_mqa = ReplicatedLinear(
+                self.hidden_size,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.kv_a_proj_with_mqa",
+            )
+
+        self.kv_a_layernorm = RMSNorm(self.kv_lora_rank, eps=config.rms_norm_eps)
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        # TODO: remove hard coding
+        rope_scaling = {
+            "beta_fast": 32,
+            "beta_slow": 1,
+            "factor": 1,
+            "mscale": 1.0,
+            "mscale_all_dim": 1.0,
+            "original_max_position_embeddings": max_position_embeddings,
+            "type": "yarn",
+            "rope_type": "deepseek_yarn",
+        }
+        self.rotary_emb = get_rope(
+            qk_rope_head_dim,
+            rotary_dim=qk_rope_head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=False,
+        )
+
+        mla_modules = MLAModules(
+            kv_a_layernorm=self.kv_a_layernorm,
+            kv_b_proj=self.kv_b_proj,
+            rotary_emb=self.rotary_emb,
+            o_proj=self.o_proj,
+            fused_qkv_a_proj=self.fused_qkv_a_proj
+            if self.q_lora_rank is not None
+            else None,
+            kv_a_proj_with_mqa=self.kv_a_proj_with_mqa
+            if self.q_lora_rank is None
+            else None,
+            q_a_layernorm=self.q_a_layernorm if self.q_lora_rank is not None else None,
+            q_b_proj=self.q_b_proj if self.q_lora_rank is not None else None,
+            q_proj=self.q_proj if self.q_lora_rank is None else None,
+            indexer=None,
+            is_sparse=False,
+            topk_indices_buffer=None,
+        )
+
+        self.mla_attn = MultiHeadLatentAttentionWrapper(
+            self.hidden_size,
+            self.num_local_heads,
+            self.scaling,
+            self.qk_nope_head_dim,
+            self.qk_rope_head_dim,
+            self.v_head_dim,
+            self.q_lora_rank,
+            self.kv_lora_rank,
+            mla_modules,
+            cache_config,
+            quant_config,
+            prefix,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.mla_attn(positions, hidden_states)
+
+
+class OpenPanguEmbeddedAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix)
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        if self.total_num_heads % tp_size != 0:
+            raise ValueError(
+                f"total_num_heads {self.total_num_heads} "
+                f"is not divisible by tp_size {tp_size}."
+            )
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads > tp_size and self.total_num_kv_heads % tp_size != 0:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel ranks.
+            raise ValueError(
+                "Number of KV heads is greater than TP size, "
+                f"but total_num_kv_heads {self.total_num_kv_heads} "
+                f"is not divisible by tp_size {tp_size}."
+            )
+        elif (
+            self.total_num_kv_heads < tp_size and tp_size % self.total_num_kv_heads != 0
+        ):
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel ranks.
+            raise ValueError(
+                f"Number of KV heads is less than TP size, but tp_size {tp_size} "
+                f"is not divisible by total_num_kv_heads {self.total_num_kv_heads}."
+            )
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = self.hidden_size // self.total_num_heads
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias_o_proj,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self._init_rotary_emb(
+            config, rope_scaling=rope_scaling, quant_config=quant_config
+        )
+
+        if hasattr(config, "interleaved_sliding_window"):
+            interleaved_sliding_window = config.interleaved_sliding_window
+            if isinstance(interleaved_sliding_window, int):
+                sliding_window = interleaved_sliding_window
+            elif isinstance(interleaved_sliding_window, list):
+                sw_idx = layer_idx % len(interleaved_sliding_window)
+                sliding_window = interleaved_sliding_window[sw_idx]
+            else:
+                raise ValueError(
+                    f"{type(interleaved_sliding_window)} "
+                    "for interleaved_sliding_window is not supported."
+                )
+        else:
+            sliding_window = None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def _init_rotary_emb(
+        self,
+        config: PretrainedConfig,
+        rope_scaling: dict[str, Any] | None,
+        quant_config: QuantizationConfig | None,
+    ) -> None:
+        is_neox_style = True
+        is_gguf = quant_config and quant_config.get_name() == "gguf"
+        if is_gguf and config.model_type == "PanguEmbedded":
+            is_neox_style = False
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+        )
+
+
+class OpenPanguDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        vllm_config: VllmConfig,
+    ) -> None:
+        super().__init__()
+
+        if config is None:
+            config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+
+        layer_idx = int(prefix.split(sep=".")[-1])
+        self.layer_idx = layer_idx
+
+        self.use_mla = (
+            hasattr(config, "qk_nope_head_dim")
+            and hasattr(config, "qk_rope_head_dim")
+            and hasattr(config, "v_head_dim")
+            and hasattr(config, "kv_lora_rank")
+        )
+        if self.use_mla:
+            self.self_attn = OpenPanguMLAAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                qk_nope_head_dim=config.qk_nope_head_dim,
+                qk_rope_head_dim=config.qk_rope_head_dim,
+                v_head_dim=config.v_head_dim,
+                q_lora_rank=(
+                    config.q_lora_rank if hasattr(config, "q_lora_rank") else None
+                ),
+                kv_lora_rank=config.kv_lora_rank,
+                rope_theta=rope_theta,
+                max_position_embeddings=max_position_embeddings,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.self_attn",
+            )
+        else:
+            attention_bias = getattr(config, "attention_bias", False) or getattr(
+                config, "bias", False
+            )
+            bias_o_proj = attention_bias
+            if hasattr(config, "qkv_bias"):
+                attention_bias = config.qkv_bias
+            # By default, PanguEmbedded uses causal attention
+            # as it is a decoder-only model.
+            # You can override the HF config with `is_causal=False` to enable
+            # bidirectional attention, which is used in some embedding models
+            if getattr(config, "is_causal", True):
+                attn_type = AttentionType.DECODER
+            else:
+                attn_type = AttentionType.ENCODER_ONLY
+            self.self_attn = OpenPanguEmbeddedAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                num_kv_heads=getattr(
+                    config, "num_key_value_heads", config.num_attention_heads
+                ),
+                rope_theta=rope_theta,
+                rope_scaling=getattr(config, "rope_scaling", None),
+                max_position_embeddings=max_position_embeddings,
+                quant_config=quant_config,
+                bias=attention_bias,
+                bias_o_proj=bias_o_proj,
+                cache_config=cache_config,
+                prefix=f"{prefix}.self_attn",
+                attn_type=attn_type,
+            )
+
+        if (
+            getattr(config, "n_routed_experts", None) is not None
+            and layer_idx >= config.first_k_dense_replace
+        ):
+            self.mlp = OpenPanguMoE(
+                config=config,
+                parallel_config=parallel_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        else:
+            self.mlp = OpenPanguMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                bias=getattr(config, "mlp_bias", False),
+                prefix=f"{prefix}.mlp",
+            )
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", None)
+        self.num_hidden_layers = config.num_hidden_layers
+        self.first_k_dense_replace = getattr(
+            config, "first_k_dense_replace", self.num_hidden_layers
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.tp_group = get_tp_group().device_group
+        self.sandwich_norm = getattr(config, "sandwich_norm", False)
+        if self.sandwich_norm:
+            self.pre_mlp_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+            self.post_mlp_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        if residual is None:
+            residual = hidden_states.clone()
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        if (
+            self.routed_scaling_factor is not None
+            and hidden_states.dtype == torch.float16
+        ):
+            # Fix FP16 overflow
+            # We scale both hidden_states and residual before
+            # rmsnorm, and rmsnorm result would not affect by scale.
+            hidden_states *= 1.0 / self.routed_scaling_factor
+            if self.layer_idx == 0:
+                # The residual is shared by all layers, we only scale it on
+                # first layer.
+                residual *= 1.0 / self.routed_scaling_factor
+
+        if self.sandwich_norm:
+            hidden_states = self.post_attention_layernorm(hidden_states)
+            hidden_states, residual = self.pre_mlp_layernorm(hidden_states, residual)
+        else:
+            hidden_states, residual = self.post_attention_layernorm(
+                hidden_states, residual
+            )
+
+        # Fully Connected
+        hidden_states = self.mlp(hidden_states)
+
+        if (
+            self.routed_scaling_factor is not None
+            and isinstance(self.mlp, OpenPanguMLP)
+            and hidden_states.dtype == torch.float16
+        ):
+            hidden_states *= 1.0 / self.routed_scaling_factor
+
+        if self.sandwich_norm:
+            hidden_states = self.post_mlp_layernorm(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class OpenPanguModel(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.config = config
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: OpenPanguDecoderLayer(config, prefix, vllm_config),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for i in range(self.start_layer, self.end_layer):
+            layer = self.layers[i]
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_attn_mlp_weight(
+        self,
+        attn_mlp_replace_mapping: list[tuple[str, str, int]],
+        params_dict: dict[str, Any],
+        weight_name: str,
+        loaded_weight: torch.Tensor,
+        loaded_params: set[str],
+    ) -> bool:
+        for param_name, origin_name, shard_id in attn_mlp_replace_mapping:
+            if origin_name not in weight_name or (
+                ("mlp.experts." in weight_name) and weight_name not in params_dict
+            ):
+                continue
+            weight_name_mapped = weight_name.replace(origin_name, param_name)
+            if (
+                param_name == "fused_qkv_a_proj"
+                and weight_name_mapped not in params_dict
+            ):
+                continue
+            else:
+                weight_name = weight_name_mapped
+            if weight_name.endswith(".bias") and weight_name not in params_dict:
+                continue
+            if is_pp_missing_parameter(weight_name, self):
+                continue
+
+            param = params_dict[weight_name]
+            weight_loader = param.weight_loader
+            weight_loader(param, loaded_weight, shard_id)
+            loaded_params.add(weight_name)
+            return True
+        return False
+
+    def load_expert_weight(
+        self,
+        expert_merge_mapping: list[tuple[str, str, int, str]],
+        params_dict: dict[str, Any],
+        weight_name: str,
+        loaded_weight: torch.Tensor,
+        loaded_params: set[str],
+        flag_dict: dict[str, bool],
+    ) -> bool:
+        for mapping in expert_merge_mapping:
+            param_name, origin_name, expert_id, shard_id = mapping
+            if origin_name not in weight_name:
+                continue
+            flag_dict["is_expert_weight"] = True
+            weight_name_mapped = weight_name.replace(origin_name, param_name)
+            if is_pp_missing_parameter(weight_name_mapped, self):
+                continue
+            param = params_dict[weight_name_mapped]
+            weight_loader = typing.cast(Callable[..., bool], param.weight_loader)
+            success = weight_loader(
+                param,
+                loaded_weight,
+                weight_name_mapped,
+                shard_id=shard_id,
+                expert_id=expert_id,
+                return_success=True,
+            )
+            if success:
+                weight_name = weight_name_mapped
+                loaded_params.add(weight_name_mapped)
+                return True
+        return False
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        attn_mlp_replace_mapping = [
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".fused_qkv_a_proj", ".q_a_proj", 0),
+            (".fused_qkv_a_proj", ".kv_a_proj_with_mqa", 1),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        has_experts = hasattr(self.config, "n_routed_experts")
+        if has_experts:
+            expert_merge_mapping = SharedFusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=self.config.n_routed_experts,
+                num_redundant_experts=self.num_redundant_experts,
+            )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.config.tie_word_embeddings and "lm_head.weight" in name:
+                continue
+
+            if (
+                "layers" in name
+                and hasattr(self.config, "num_nextn_predict_layers")
+                and (self.config.num_nextn_predict_layers > 0)
+            ):
+                layer_idx = int(name.split("layers.")[-1].split(".")[0])
+                mtp_idx = layer_idx - self.config.num_hidden_layers
+                if mtp_idx >= 0 and mtp_idx < self.config.num_nextn_predict_layers:
+                    continue  # skip spec decode layers for main model
+
+            flag_dict = {"is_expert_weight": False}
+            if (
+                self.load_attn_mlp_weight(
+                    attn_mlp_replace_mapping,
+                    params_dict,
+                    name,
+                    loaded_weight,
+                    loaded_params,
+                )
+                or has_experts
+                and self.load_expert_weight(
+                    expert_merge_mapping,
+                    params_dict,
+                    name,
+                    loaded_weight,
+                    loaded_params,
+                    flag_dict,
+                )
+            ):
+                continue
+            else:
+                if flag_dict["is_expert_weight"]:
+                    continue
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+        return loaded_params
+
+
+class OpenPanguModelBase(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.fuse_qkv_a_proj = (
+            hasattr(config, "q_lora_rank") and config.q_lora_rank is not None
+        )
+        if self.fuse_qkv_a_proj:
+            self.packed_modules_mapping["fused_qkv_a_proj"] = [
+                "q_a_proj",
+                "kv_a_proj_with_mqa",
+            ]
+
+        self.model = OpenPanguModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+
+class OpenPanguMoEModel(OpenPanguModelBase, MixtureOfExperts):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        config = vllm_config.model_config.hf_config
+
+        # Set MoE hyperparameters
+        self.expert_weights = []
+        self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
+        self.num_expert_groups = 1
+
+        self.moe_layers = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, OpenPanguDecoderLayer)
+            if isinstance(layer.mlp, OpenPanguMoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_moe is None:
+            raise RuntimeError("No MOE layer found in model.layers.")
+
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.n_routed_experts = example_moe.n_routed_experts
+        self.n_shared_experts = example_moe.n_shared_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, OpenPanguMoE):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+
+class OpenPanguEmbeddedModel(OpenPanguModelBase):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+
+class PanguEmbeddedForCausalLM(OpenPanguEmbeddedModel):
+    pass
+
+
+class PanguUltraMoEForCausalLM(OpenPanguMoEModel):
+    pass
diff --git a/model_executor/models/openpangu_mtp.py b/model_executor/models/openpangu_mtp.py
new file mode 100644
index 0000000..436b7f9
--- /dev/null
+++ b/model_executor/models/openpangu_mtp.py
@@ -0,0 +1,265 @@
+#
+# Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved.
+# Copyright 2023 The vLLM team.
+#
+# This file is a part of the vllm-ascend project.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/v0.7.3/vllm/model_executor/models/deepseek_mtp.py
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.deepseek_mtp import (
+    DeepSeekMultiTokenPredictor,
+    DeepSeekMultiTokenPredictorLayer,
+    SharedHead,
+)
+from vllm.model_executor.models.utils import maybe_prefix
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .openpangu import OpenPanguDecoderLayer
+
+
+class OpenPanguMultiTokenPredictorLayer(DeepSeekMultiTokenPredictorLayer):
+    def __init__(self, vllm_config: VllmConfig, prefix: str) -> None:
+        nn.Module.__init__(self)
+
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.config = config
+        quant_config = vllm_config.quant_config
+
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.eh_proj = nn.Linear(config.hidden_size * 2, config.hidden_size, bias=False)
+        self.shared_head = SharedHead(
+            config=config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "shared_head"),
+        )
+        self.mtp_block = OpenPanguDecoderLayer(config, prefix, vllm_config)
+
+
+class OpenPanguMultiTokenPredictor(DeepSeekMultiTokenPredictor):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+        # to map the exact layer index from weights
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): OpenPanguMultiTokenPredictorLayer(
+                    vllm_config, f"{prefix}.layers.{idx}"
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+
+@support_torch_compile
+class OpenPanguMTP(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = OpenPanguMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            hidden_states,
+            inputs_embeds,
+            spec_step_idx,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, spec_step_idx)
+
+    def get_spec_layer(self, name):
+        if (
+            "layers" in name
+            and hasattr(self.config, "num_nextn_predict_layers")
+            and self.config.num_nextn_predict_layers > 0
+        ):
+            layer_idx = int(name.split("layers.")[-1].split(".")[0])
+            mtp_idx = layer_idx - self.config.num_hidden_layers
+            if mtp_idx >= 0 and mtp_idx < self.config.num_nextn_predict_layers:
+                return layer_idx
+        return None
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        ]
+
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            spec_layer = self.get_spec_layer(name)
+            if spec_layer is None:
+                continue
+
+            name = self._rewrite_spec_layer_name(spec_layer, name)
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name_mapped = name.replace(weight_name, param_name)
+
+                # QKV fusion is optional, fall back to normal
+                # weight loading if it's not enabled
+                if (
+                    param_name == "fused_qkv_a_proj"
+                ) and name_mapped not in params_dict:
+                    continue
+                else:
+                    name = name_mapped
+
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    if (
+                        spec_layer != self.model.mtp_start_layer_idx
+                        and ".layers" not in name
+                    ):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        and rename shared layer weights to be top level.
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        shared_weight_names = ["embed_tokens"]
+        spec_layer_weight = False
+        shared_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                if weight_name in shared_weight_names:
+                    shared_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                f"model.layers.{spec_layer}.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        elif shared_weight:
+            # treat shared weights as top level weights
+            name = name.replace(f"model.layers.{spec_layer}.", "model.")
+        return name
diff --git a/model_executor/models/opt.py b/model_executor/models/opt.py
new file mode 100644
index 0000000..5df700d
--- /dev/null
+++ b/model_executor/models/opt.py
@@ -0,0 +1,426 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/opt/modeling_opt.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 The Fairseq Authors and The HuggingFace Inc. team. All rights
+# reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only OPT model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import OPTConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OPTLearnedPositionalEmbedding(nn.Embedding):
+    def __init__(self, num_embeddings: int, embedding_dim: int):
+        # OPT is set up so that if padding_idx is specified then offset the
+        # embedding ids by 2 and adjust num_embeddings appropriately. Other
+        # models don't have this hack
+        self.offset = 2
+        super().__init__(num_embeddings + self.offset, embedding_dim)
+
+    def forward(self, positions: torch.Tensor):
+        return super().forward(positions + self.offset)
+
+
+class OPTAttention(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        bias: bool = True,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.embed_dim = embed_dim
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        total_num_heads = num_heads
+        assert num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = embed_dim // total_num_heads
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            embed_dim,
+            self.head_dim,
+            total_num_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            embed_dim,
+            embed_dim,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class OPTDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: OPTConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.self_attn = OPTAttention(
+            embed_dim=self.embed_dim,
+            num_heads=config.num_attention_heads,
+            bias=config.enable_bias,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.do_layer_norm_before = config.do_layer_norm_before
+
+        self.self_attn_layer_norm = nn.LayerNorm(
+            self.embed_dim, elementwise_affine=config.layer_norm_elementwise_affine
+        )
+        self.fc1 = ColumnParallelLinear(
+            self.embed_dim,
+            config.ffn_dim,
+            bias=config.enable_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.activation_fn = get_act_fn(config.activation_function)
+        self.fc2 = RowParallelLinear(
+            config.ffn_dim,
+            self.embed_dim,
+            bias=config.enable_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+        self.final_layer_norm = nn.LayerNorm(
+            self.embed_dim, elementwise_affine=config.layer_norm_elementwise_affine
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Self Attention
+        residual = hidden_states
+        # 125m, 1.7B, ..., 175B applies layer norm BEFORE attention
+        if self.do_layer_norm_before:
+            hidden_states = self.self_attn_layer_norm(hidden_states)
+        hidden_states = self.self_attn(hidden_states=hidden_states)
+        hidden_states = residual + hidden_states
+        # 350m applies layer norm AFTER attention
+        if not self.do_layer_norm_before:
+            hidden_states = self.self_attn_layer_norm(hidden_states)
+
+        # Fully Connected
+        residual = hidden_states
+        # 125m, 1.7B, ..., 175B applies layer norm BEFORE attention
+        if self.do_layer_norm_before:
+            hidden_states = self.final_layer_norm(hidden_states)
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        hidden_states = residual + hidden_states
+        # 350m applies layer norm AFTER attention
+        if not self.do_layer_norm_before:
+            hidden_states = self.final_layer_norm(hidden_states)
+        return hidden_states
+
+
+class OPTDecoder(nn.Module):
+    def __init__(
+        self,
+        config: OPTConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.max_target_positions = config.max_position_embeddings
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.word_embed_proj_dim,
+        )
+        # Positional embeddings are replicated (not sharded).
+        self.embed_positions = OPTLearnedPositionalEmbedding(
+            config.max_position_embeddings, config.hidden_size
+        )
+
+        # Project out & in will be replicated if they exist.
+        if config.word_embed_proj_dim != config.hidden_size:
+            self.project_out = ReplicatedLinear(
+                config.hidden_size,
+                config.word_embed_proj_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.project_out",
+            )
+        else:
+            self.project_out = None
+
+        if config.word_embed_proj_dim != config.hidden_size:
+            self.project_in = ReplicatedLinear(
+                config.word_embed_proj_dim,
+                config.hidden_size,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.project_in",
+            )
+        else:
+            self.project_in = None
+
+        # Note that the only purpose of `config._remove_final_layer_norm` is to
+        # keep backward compatibility with checkpoints that have been fine-tuned
+        # before transformers v4.20.1
+        # see https://github.com/facebookresearch/metaseq/pull/164
+        if config.do_layer_norm_before and not config._remove_final_layer_norm:
+            self.final_layer_norm = nn.LayerNorm(
+                config.hidden_size,
+                elementwise_affine=config.layer_norm_elementwise_affine,
+            )
+        else:
+            self.final_layer_norm = None
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: OPTDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                inputs_embeds = self.embed_input_ids(input_ids)
+            pos_embeds = self.embed_positions(positions)
+            if self.project_in is not None:
+                inputs_embeds, _ = self.project_in(inputs_embeds)
+            hidden_states = inputs_embeds + pos_embeds
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        if self.final_layer_norm is not None:
+            hidden_states = self.final_layer_norm(hidden_states)
+        if self.project_out is not None:
+            hidden_states, _ = self.project_out(hidden_states)
+        return hidden_states
+
+
+@support_torch_compile
+class OPTModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.decoder = OPTDecoder(
+            config, cache_config, quant_config, prefix=f"{prefix}.decoder"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.decoder.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        return self.decoder(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OPTForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "decoder.": "model.decoder.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = OPTModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.model.decoder.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.word_embed_proj_dim,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(
+                ["lm_head.weight"] if self.config.tie_word_embeddings else None
+            ),
+        )
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/orion.py b/model_executor/models/orion.py
new file mode 100644
index 0000000..859cd2c
--- /dev/null
+++ b/model_executor/models/orion.py
@@ -0,0 +1,372 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/modeling_orion.py
+# Copyright (c) OrionStar Inc.
+# LICENSE: https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/LICENSE
+"""Inference-only Orion-14B model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OrionMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class OrionAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class OrionDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.self_attn = OrionAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = OrionMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+@support_torch_compile
+class OrionModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: OrionDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = nn.LayerNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            [
+                "hidden_states",
+            ],
+            config.hidden_size,
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                }
+            )
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OrionForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = OrionModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/ouro.py b/model_executor/models/ouro.py
new file mode 100644
index 0000000..9db6c31
--- /dev/null
+++ b/model_executor/models/ouro.py
@@ -0,0 +1,516 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2025 Bytedance Ltd. and/or its affiliates
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2/modeling_qwen2.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Ouro model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OuroMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class OuroAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        # Get total_ut_steps from config, default to 4 if not specified
+        total_ut_steps = getattr(config, "total_ut_steps", 4)
+
+        # Use total number of hidden layers instead of hardcoded 24
+        total_layers = config.num_hidden_layers
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.attn = nn.ModuleList()
+        for ut_step in range(total_ut_steps):
+            base_layer_idx = extract_layer_index(prefix)
+            unique_layer_idx = ut_step * total_layers + base_layer_idx
+
+            unique_prefix = prefix.replace(
+                f"layers.{base_layer_idx}", f"layers.{unique_layer_idx}"
+            )
+
+            self.attn.append(
+                Attention(
+                    self.num_heads,
+                    self.head_dim,
+                    self.scaling,
+                    num_kv_heads=self.num_kv_heads,
+                    cache_config=cache_config,
+                    quant_config=quant_config,
+                    attn_type=attn_type,
+                    prefix=f"{unique_prefix}.attn",
+                    **{
+                        "layer_idx": unique_layer_idx,
+                        "dual_chunk_attention_config": dual_chunk_attention_config,
+                    }
+                    if dual_chunk_attention_config
+                    else {},
+                )
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        current_ut: int,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn[current_ut](q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class OuroDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = OuroAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.mlp = OuroMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.input_layernorm_2 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_attention_layernorm_2 = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        current_ut: int,
+        residual: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions, hidden_states=hidden_states, current_ut=current_ut
+        )
+        hidden_states = self.input_layernorm_2(hidden_states)
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_attention_layernorm_2(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class OuroModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layer_type: type[nn.Module] = OuroDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        # TODO (@robertgshaw2): see if this can be moved out
+        if cache_config.sliding_window is not None and hasattr(
+            config, "max_window_layers"
+        ):
+            assert config.max_window_layers == config.num_hidden_layers, (
+                "Sliding window for some but all layers is not supported. "
+                "This model uses sliding window but `max_window_layers` = {} "
+                "is less than `num_hidden_layers` = {}. Please open an issue "
+                "to discuss this feature.".format(
+                    config.max_window_layers,
+                    config.num_hidden_layers,
+                )
+            )
+
+        self.config = config
+        self.quant_config = quant_config
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+
+        # Use the provided decoder layer type or default to OuroDecoderLayer
+        decoder_layer_type = decoder_layer_type or OuroDecoderLayer
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.early_exit_gate = RowParallelLinear(config.hidden_size, 1, bias=True)
+
+        self.total_ut_steps = getattr(self.config, "total_ut_steps", 4)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.embed_input_ids(input_ids)
+
+        for current_ut in range(self.total_ut_steps):
+            residual = None
+            for layer in self.layers[self.start_layer : self.end_layer]:
+                hidden_states, residual = layer(
+                    positions, hidden_states, current_ut, residual
+                )
+            hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OuroForCausalLM(nn.Module, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = OuroModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if config.tie_word_embeddings:
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/ovis.py b/model_executor/models/ovis.py
new file mode 100644
index 0000000..a0fab82
--- /dev/null
+++ b/model_executor/models/ovis.py
@@ -0,0 +1,559 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.39.3/src/transformers/models/ovis/modeling_ovis.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch Ovis model."""
+
+import math
+from collections.abc import Iterable, Mapping
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from torch import Tensor
+from torch.nn.functional import gumbel_softmax, pad, softmax
+from transformers import BatchFeature, PretrainedConfig
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.aimv2 import AIMv2Model
+from vllm.model_executor.models.siglip import SiglipVisionModel
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    flatten_bn,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processors.ovis import OvisProcessor
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+
+# Cannot find the following number from hf config.
+IMAGE_TOKEN = "<image>"
+IMAGE_INDICATOR_IDS = [-301, -302, -303, -304, -305]
+
+IMAGE_PAD_TOKEN_MAP = {
+    "gemma2": "<unused0>",
+    "llama": "<|reserved_special_token_0|>",
+    "qwen2": "<|image_pad|>",
+}
+IMAGE_PAD_TOKEN_ID_MAP = {
+    "gemma2": 7,
+    "llama": 128002,
+    "qwen2": 151655,
+}
+
+
+def st_argmax(y_soft: torch.Tensor, dim: int):  # straight-through softmax
+    index = y_soft.argmax(dim, keepdim=True)
+    return torch.zeros_like(
+        y_soft,
+        memory_format=torch.legacy_contiguous_format,
+    ).scatter_(dim, index, 1.0)
+
+
+class VisualTokenizer(torch.nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.backbone = self._init_backbone(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.backbone",
+        )
+        # reserved tokens for IMAGE_INDICATORS
+        head_dim = config.vocab_size - len(IMAGE_INDICATOR_IDS)
+        self.head = torch.nn.Sequential(
+            ReplicatedLinear(
+                config.backbone_config.hidden_size
+                * config.hidden_stride
+                * config.hidden_stride,
+                head_dim,
+                bias=False,
+                return_bias=False,
+            ),
+            torch.nn.LayerNorm(head_dim),
+        )
+
+    def _init_backbone(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        model_type = config.backbone_config.model_type
+        if model_type == "aimv2":
+            # No post rms_norm in Ovis2's AIMv2 ViT.
+            return AIMv2Model(
+                config=config.backbone_config,
+                quant_config=quant_config,
+                require_post_norm=False,
+                prefix=prefix,
+            )
+        elif model_type == "siglip_vision_model":
+            return SiglipVisionModel(
+                config=config.backbone_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+        raise ValueError(f"Unsupported visual tokenizer model_type: {model_type}")
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return next(self.head.parameters()).dtype
+
+    @property
+    def device(self) -> torch.device:
+        return next(self.head.parameters()).device
+
+    def tokenize(self, logits: torch.Tensor) -> torch.Tensor:
+        if self.config.tokenize_function == "softmax":
+            tokens = softmax(logits, dim=-1)
+        elif self.config.tokenize_function == "gumbel_argmax":
+            tokens = gumbel_softmax(logits, tau=self.config.tau, hard=True)
+        elif self.config.tokenize_function == "st_argmax":
+            tokens = st_argmax(logits, dim=-1)
+        else:
+            raise ValueError(
+                "Invalid `max_type`, expected softmax or gumbel_argmax "
+                f"or st_argmax, but got {self.config.tokenize_function}"
+            )
+        return tokens
+
+    def encode(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        features = self.backbone(pixel_values)
+        if self.config.drop_cls_token:
+            features = features[:, 1:, :]
+
+        # merge number of `hidden_stride * hidden_stride` hidden states together
+        # to reduce token sequence length
+        # e.g., for hidden_stride=2, this leads to a token length reduction:
+        # 1024 -> 256 for aimv2
+        if self.config.hidden_stride > 1:
+            # this `d` maybe different from the above `d`
+            n, L, d = features.shape
+            sqrt_l = int(L**0.5)
+            assert sqrt_l**2 == L, (
+                "The token sequence length should be a perfect square."
+            )
+            features = features.reshape(n, sqrt_l, sqrt_l, d)
+            pl = (
+                self.config.hidden_stride - (sqrt_l % self.config.hidden_stride)
+            ) % self.config.hidden_stride
+            features = pad(features, (0, 0, 0, pl, 0, pl), "constant", 0)
+            sqrt_l += pl
+            features = features.reshape(
+                n,
+                sqrt_l // self.config.hidden_stride,
+                self.config.hidden_stride,
+                sqrt_l // self.config.hidden_stride,
+                self.config.hidden_stride,
+                d,
+            )
+            # [n, sqrt_l/hs, sqrt_l/hs, hs, hs, d]
+            features = features.permute(0, 1, 3, 2, 4, 5)
+            # [n, sqrt_l/hs, sqrt_l/hs, hs*hs*d]
+            features = features.flatten(3)
+            # [n, sqrt_l/hs*sqrt_l/hs, hs*hs*d]
+            features = features.reshape(
+                n, -1, self.config.hidden_stride * self.config.hidden_stride * d
+            )
+
+        return features
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """[BatchSize, ImageShape] -> [BatchSize, Token, VocabSize]"""
+        features = self.encode(pixel_values)
+        logits = self.head(features)
+        tokens = self.tokenize(logits)
+        # tokens' shape is [BatchSize, #Token, VocabSize-5], so padding with
+        # [BatchSize, #Token, 5], after which, tokens' shape should become
+        # [BatchSize, #Token, VocabSize]
+        tokens = torch.nn.functional.pad(
+            tokens,
+            (0, len(IMAGE_INDICATOR_IDS)),
+            mode="constant",
+            value=0,
+        )
+        return tokens
+
+
+class OvisImagePatchInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of images * number of patches
+        - h: Height of each patch
+        - w: Width of each patch
+        - patch_indicators: Batch size * (number of patches + 1)
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["image_patches"]
+    flat_data: Annotated[torch.Tensor, TensorShape("bnp", 3, "h", "w")]
+    indicator_tokens: Annotated[torch.Tensor, TensorShape("patch_indicators")]
+    patches_per_image: Annotated[list[int], TensorShape("bn")]
+    # This is used to restore the first two dimensions of `flat_data`.
+
+
+class VisualEmbedding(torch.nn.Embedding):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+    def forward(self, visual_tokens: Tensor) -> Tensor:
+        if visual_tokens.dtype in [
+            torch.int8,
+            torch.int16,
+            torch.int32,
+            torch.int64,
+            torch.long,
+        ]:
+            return super().forward(visual_tokens)
+        return torch.matmul(visual_tokens, self.weight)
+
+    @property
+    def device(self):
+        return self.weight.device
+
+    @property
+    def dtype(self):
+        return self.weight.dtype
+
+
+class OvisProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(
+            OvisProcessor,
+            image_pad_token=self.get_image_pad_token(),
+            image_segment_len=self.get_image_segment_len(),
+            **kwargs,
+        )
+
+    def get_image_segment_len(self) -> int:
+        visual_tokenizer_config = self.get_hf_config().visual_tokenizer_config
+        image_size = visual_tokenizer_config.backbone_config.image_size
+        patch_size = visual_tokenizer_config.backbone_config.patch_size
+        hidden_stride = visual_tokenizer_config.hidden_stride
+        patch_grid_length = math.ceil(image_size / patch_size)
+        assert patch_grid_length % hidden_stride == 0, (
+            f"patch_grid_length {patch_grid_length} is not divisible by "
+            f"hidden_stride {hidden_stride}"
+        )
+        # minus 1 for presented image token
+        return (patch_grid_length // hidden_stride) ** 2 - 1
+
+    def get_image_pad_token(self) -> str:
+        hf_text_config = self.get_hf_config().get_text_config()
+        text_model_type = hf_text_config.model_type
+        return IMAGE_PAD_TOKEN_MAP.get(text_model_type)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        height, width = self.get_hf_processor().get_image_size()
+        hs = self.get_hf_config().visual_tokenizer_config.hidden_stride
+        # NOTE(Isotr0py): 9 is `max_partition` hardcoded in original code
+        # https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/modeling_ovis.py#L96
+        return ImageSize(width=width * hs * 9, height=height * hs * 9)
+
+
+class OvisDummyInputsBuilder(BaseDummyInputsBuilder[OvisProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        return IMAGE_TOKEN * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        mm_data = {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+        }
+        return mm_data
+
+
+class OvisMultiModalProcessor(BaseMultiModalProcessor[OvisProcessingInfo]):
+    def image_indicators_to_visual_tokens(
+        self,
+        image_indicators: list[int],
+    ) -> list[int]:
+        """
+        Filter image indicators placeholders and convert them to corresponding
+        tokens in visual tokenizer.
+        For example, [-301, -300, -302, -300, -303, -300, -304, -300, -305]
+        should return [vocab_size-1, vocab_size-2, ..., vocab_size-5]
+        """
+        hf_config = self.info.get_hf_config()
+        vte_vocab_size = hf_config.visual_tokenizer_config.vocab_size
+        # -300 is image_atom token, filter them out
+        return [vte_vocab_size + x + 300 for x in image_indicators if x < -300]
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            # Avoid warning from HF logger for text-only input
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = tokenizer.encode(prompt, add_special_tokens=False)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        hf_processor = self.info.get_hf_processor()
+        image_indicators = [
+            hf_processor.construct_image_indicators(grid)
+            for grid in processed_outputs["grids"]
+        ]
+        indicator_tokens = [
+            self.image_indicators_to_visual_tokens(indicator)
+            for indicator in image_indicators
+        ]
+        processed_outputs["indicator_tokens"] = torch.tensor(indicator_tokens)
+        return processed_outputs
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        return prompt_tokens
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            grids=MultiModalFieldConfig.batched("image"),
+            indicator_tokens=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> list[PromptReplacement]:
+        def get_replacement_ovis(item_idx: int):
+            out_item = out_mm_kwargs["image"][item_idx]
+            grid = out_item["grids"].data
+
+            hf_processor = self.info.get_hf_processor()
+            return hf_processor.construct_image_placeholders(grid)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=IMAGE_TOKEN,
+                replacement=get_replacement_ovis,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    OvisMultiModalProcessor,
+    info=OvisProcessingInfo,
+    dummy_inputs=OvisDummyInputsBuilder,
+)
+class Ovis(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config: PretrainedConfig = config
+        self.llm = init_vllm_registered_model(
+            vllm_config=vllm_config.with_hf_config(config.get_text_config()),
+            prefix=maybe_prefix(prefix, "llm"),
+        )
+
+        self.visual_tokenizer = VisualTokenizer(
+            config=config.visual_tokenizer_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.visual_tokenizer",
+        )
+
+        self.vte = VisualEmbedding(
+            self.config.visual_tokenizer_config.vocab_size, self.config.hidden_size
+        )
+
+        text_model_type = self.config.get_text_config().model_type
+        self.image_pad_token_id = IMAGE_PAD_TOKEN_ID_MAP[text_model_type]
+
+        self.make_empty_intermediate_tensors = (
+            self.get_language_model().make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> OvisImagePatchInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        indicator_tokens = kwargs.pop("indicator_tokens", None)
+
+        if pixel_values is None and indicator_tokens is None:
+            return None
+
+        if pixel_values is not None and indicator_tokens is not None:
+            if not isinstance(pixel_values, (torch.Tensor, list)):
+                raise ValueError(
+                    f"Incorrect type of pixel values. Got type: {type(pixel_values)}"
+                )
+
+            if not isinstance(indicator_tokens, (torch.Tensor, list)):
+                raise ValueError(
+                    "Incorrect type of indicator_tokens. "
+                    f"Got type: {type(pixel_values)}"
+                )
+
+            return OvisImagePatchInputs(
+                type="image_patches",
+                flat_data=flatten_bn(pixel_values, concat=True),
+                patches_per_image=[x.shape[0] for x in pixel_values],
+                indicator_tokens=flatten_bn(indicator_tokens, concat=True),
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+        self, image_input: OvisImagePatchInputs
+    ) -> MultiModalEmbeddings:
+        image_patches_flat = image_input["flat_data"]
+        patches_per_image = image_input["patches_per_image"]
+        indicator_tokens = image_input["indicator_tokens"]
+
+        indicator_per_image = list(
+            map(lambda x: x + 1 if x > 1 else x + 2, patches_per_image)
+        )
+
+        target_dtype = self.visual_tokenizer.dtype
+        visual_tokens = self.visual_tokenizer(image_patches_flat.to(target_dtype))
+        visual_embeds = self.vte(visual_tokens)  # 1:1 numeric eq.
+
+        indicator_embeds = self.vte(indicator_tokens)
+        indicator_embeds_per_image = indicator_embeds.split(indicator_per_image)
+
+        visual_embeds_per_image = visual_embeds.split(patches_per_image, dim=0)
+        vision_embeddings = []
+        for indicator, visual in zip(
+            indicator_embeds_per_image, visual_embeds_per_image
+        ):
+            vision_embeddings_per_image = []
+            for i in range(visual.shape[0]):
+                vision_embeddings_per_image.append(
+                    torch.cat([indicator[i : i + 1], visual[i]], dim=0)
+                )
+            vision_embeddings_per_image.append(indicator[i + 1 :])
+            vision_embeddings.append(torch.cat(vision_embeddings_per_image, dim=0))
+
+        return tuple(vision_embeddings)
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        image_features = self._process_image_input(image_input)
+
+        return image_features
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        # up until here we have an inputs_embeds 100% numerical identity
+        # between the OG HF Transformers implementation and ours
+        hidden_states = self.llm(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.llm.compute_logits(hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.llm
diff --git a/model_executor/models/ovis2_5.py b/model_executor/models/ovis2_5.py
new file mode 100644
index 0000000..85f37cf
--- /dev/null
+++ b/model_executor/models/ovis2_5.py
@@ -0,0 +1,673 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""PyTorch Ovis model."""
+
+from collections.abc import Iterable, Mapping
+from functools import partial
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+from transformers import BaseImageProcessor, BatchFeature, PretrainedConfig
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.ovis import VisualEmbedding
+from vllm.model_executor.models.siglip2navit import Siglip2NavitModel
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    flatten_bn,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processors.ovis2_5 import Ovis2_5Processor
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+
+IMAGE_TOKEN = "<image>"
+VIDEO_TOKEN = "<video>"
+INDICATOR_IDS = [-301, -302, -303, -304]
+
+IMAGE_PAD_TOKEN_MAP = {
+    "gemma2": "<unused0>",
+    "llama": "<|reserved_special_token_0|>",
+    "qwen2": "<|image_pad|>",
+    "qwen3": "<|image_pad|>",
+}
+IMAGE_PAD_TOKEN_ID_MAP = {
+    "gemma2": 7,
+    "llama": 128002,
+    "qwen2": 151655,
+    "qwen3": 151655,
+}
+
+
+class Ovis2_5ImagePatchInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of images * number of patches
+        - patch_size: patch_size_x * patch_size_y * num_channels
+        - patch_indicators: Batch size * (number of patches + 1)
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["image_patches"]
+    flat_data: Annotated[torch.Tensor, TensorShape("bnp", "patch_size")]
+    indicator_tokens: Annotated[torch.Tensor, TensorShape("patch_indicators")]
+    patches_per_item: Annotated[list[int], TensorShape("bn")]
+    grids: Annotated[torch.Tensor, TensorShape("bn", 3)]
+    # This is used to restore the first two dimensions of `flat_data`.
+
+
+class Ovis2_5VideoPatchInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of videos * number of patches
+        - patch_size: patch_size_x * patch_size_y * num_channels
+        - patch_indicators: Batch size * (number of patches + 1)
+        - bn: Batch size * number of videos
+    """
+
+    type: Literal["video_patches"]
+    flat_data: Annotated[torch.Tensor, TensorShape("bnp", "patch_size")]
+    indicator_tokens: Annotated[torch.Tensor, TensorShape("patch_indicators")]
+    patches_per_item: Annotated[list[int], TensorShape("bn")]
+    grids: Annotated[torch.Tensor, TensorShape("bn", 3)]
+    # This is used to restore the first two dimensions of `flat_data`.
+
+
+class VisualTokenizer(torch.nn.Module):
+    """
+    VIT
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        visual_vocab_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        self.vit = self._init_backbone(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vit",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        # reserved tokens for INDICATOR_IDS
+        head_dim = visual_vocab_size - len(INDICATOR_IDS)
+        self.head = torch.nn.Sequential(
+            ReplicatedLinear(
+                self.config.hidden_size * self.config.hidden_stride**2,
+                head_dim,
+                bias=False,
+                return_bias=False,
+            ),
+            torch.nn.LayerNorm(head_dim),
+        )
+
+    def _init_backbone(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        model_type = config.model_type
+        if model_type == "siglip2_navit":
+            return Siglip2NavitModel(
+                config=config,
+                quant_config=quant_config,
+                prefix=prefix,
+                use_data_parallel=use_data_parallel,
+                attn_backend_override=attn_backend_override,
+            )
+        raise ValueError(f"Unsupported visual tokenizer model_type: {model_type}")
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return next(self.head.parameters()).dtype
+
+    @property
+    def device(self) -> torch.device:
+        return next(self.head.parameters()).device
+
+    def tokenize(self, logits: torch.Tensor) -> torch.Tensor:
+        tokens = torch.softmax(logits, dim=-1, dtype=torch.float32).to(logits.dtype)
+        return tokens
+
+    def encode(
+        self, pixel_values: torch.Tensor, grid_thws: torch.Tensor
+    ) -> torch.Tensor:
+        features = self.vit(pixel_values, grid_thws)
+        # refer to qwen2.5-vl patchmerger
+        seq_len, _ = features.shape
+        features = features.reshape(seq_len // (self.config.hidden_stride**2), -1)
+
+        return features
+
+    def forward(
+        self, pixel_values: torch.Tensor, grid_thws: torch.Tensor
+    ) -> torch.Tensor:
+        features = self.encode(pixel_values, grid_thws)
+        logits = self.head(features)
+        tokens = self.tokenize(logits)
+        # tokens' shape is [#Token, VocabSize-4],
+        # so padding with [#Token, 4], after which,
+        # tokens' shape should become [#Token, VocabSize];
+        tokens = torch.nn.functional.pad(
+            tokens,
+            (0, len(INDICATOR_IDS)),
+            mode="constant",
+            value=0,
+        )
+        return tokens
+
+
+class Ovis2_5ProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs):
+        vit_config = self.get_hf_config().vit_config
+        return self.ctx.get_hf_processor(
+            Ovis2_5Processor,
+            image_pad_token=self.get_image_pad_token(),
+            patch_size=vit_config.patch_size,
+            hidden_stride=vit_config.hidden_stride,
+            temporal_patch_size=vit_config.temporal_patch_size,
+        )
+
+    def get_image_pad_token(self) -> str:
+        hf_text_config = self.get_hf_config().get_text_config()
+        text_model_type = hf_text_config.model_type
+        return IMAGE_PAD_TOKEN_MAP.get(text_model_type)
+
+    def get_image_processor(self) -> BaseImageProcessor:
+        return self.get_hf_processor().image_processor  # type: ignore
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": 1}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        # NOTE(myselvess): max_pixels 1792 * 1792 hardcoded in original code
+        # TODO(myselvess): Be adjusted based on the max_pixels
+        return ImageSize(width=1792, height=1792)
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 1,
+    ) -> tuple[ImageSize, int]:
+        hf_config = self.get_hf_config()
+        vit_config = hf_config.vit_config
+        patch_size = vit_config.patch_size
+        temporal_patch_size = vit_config.temporal_patch_size
+        # NOTE: Frames are padded to be divisible by `temporal_patch_size`
+        # https://github.com/huggingface/transformers/blob/v4.48.3/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py#L294
+        padded_num_frames = num_frames + (-num_frames % temporal_patch_size)
+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
+        grid_h = image_height // patch_size
+        grid_w = image_width // patch_size
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches
+        return num_vision_tokens
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+        return self.get_num_image_tokens(
+            image_width=target_width, image_height=target_height
+        )
+
+    def _get_max_video_frames(self, max_tokens: int) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+        num_frames = 0
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+                image_processor=None,
+            )
+            if next_max_tokens > max_tokens:
+                break
+            num_frames = next_num_frames
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        max_images = mm_counts.get("image", 0)
+        max_videos = mm_counts.get("video", 0)
+        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len - max_image_tokens)
+        max_frames_per_video = max_total_frames // max(max_videos, 1)
+        return max(max_frames_per_video, 1)
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+        image_processor: BaseImageProcessor | None,
+    ) -> int:
+        num_video_tokens = self.get_num_image_tokens(
+            image_width=image_width, image_height=image_height, num_frames=num_frames
+        )
+        return num_video_tokens
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+        return self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len, mm_counts),
+            image_processor=None,
+        )
+
+
+class Ovis2_5DummyInputsBuilder(BaseDummyInputsBuilder[Ovis2_5ProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+        return IMAGE_TOKEN * num_images + VIDEO_TOKEN * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        mm_data = {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+        return mm_data
+
+
+class Ovis2_5MultiModalProcessor(BaseMultiModalProcessor[Ovis2_5ProcessingInfo]):
+    def visual_indicators_to_visual_tokens(
+        self,
+        visual_indicators: list[int],
+    ) -> list[int]:
+        """
+        Filter image indicators placeholders and convert them to corresponding
+        tokens in visual tokenizer.
+        """
+        hf_config = self.info.get_hf_config()
+        vte_vocab_size = hf_config.visual_vocab_size
+        return [
+            vte_vocab_size - len(INDICATOR_IDS) + abs(x + 300) - 1
+            for x in visual_indicators
+            if x < -300
+        ]
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            # Avoid warning from HF logger for text-only input
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = tokenizer.encode(prompt, add_special_tokens=False)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+        hf_processor = self.info.get_hf_processor()
+
+        if "videos" in mm_data:
+            visual_indicators = [
+                hf_processor.construct_visual_indicators((1, 1, 1), True)
+                for grid in processed_outputs["video_grids"]
+            ]
+            indicator_tokens = [
+                self.visual_indicators_to_visual_tokens(indicator)
+                for indicator in visual_indicators
+            ]
+            processed_outputs["video_indicator_tokens"] = torch.tensor(indicator_tokens)
+        if "images" in mm_data:
+            visual_indicators = [
+                hf_processor.construct_visual_indicators((1, 1, 1), False)
+                for grid in processed_outputs["grids"]
+            ]
+            indicator_tokens = [
+                self.visual_indicators_to_visual_tokens(indicator)
+                for indicator in visual_indicators
+            ]
+
+            processed_outputs["indicator_tokens"] = torch.tensor(indicator_tokens)
+        return processed_outputs
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        return prompt_tokens
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            grids=MultiModalFieldConfig.batched("image"),
+            indicator_tokens=MultiModalFieldConfig.batched("image"),
+            video_pixel_values=MultiModalFieldConfig.batched("video"),
+            video_indicator_tokens=MultiModalFieldConfig.batched("video"),
+            video_grids=MultiModalFieldConfig.batched("video"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> list[PromptReplacement]:
+        def get_replacement_ovis(item_idx, modality: str):
+            if modality == "image":
+                out_item = out_mm_kwargs["image"][item_idx]
+                grid = out_item["grids"].data
+            elif modality == "video":
+                out_item = out_mm_kwargs["video"][item_idx]
+                grid = out_item["video_grids"].data
+            hf_processor = self.info.get_hf_processor()
+            return hf_processor.construct_visual_placeholders(
+                grid[0],
+            )
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=IMAGE_TOKEN if modality == "image" else VIDEO_TOKEN,
+                replacement=partial(get_replacement_ovis, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Ovis2_5MultiModalProcessor,
+    info=Ovis2_5ProcessingInfo,
+    dummy_inputs=Ovis2_5DummyInputsBuilder,
+)
+class Ovis2_5(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config: PretrainedConfig = config
+        self.llm = init_vllm_registered_model(
+            vllm_config=vllm_config.with_hf_config(config.text_config),
+            prefix=maybe_prefix(prefix, "llm"),
+        )
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.visual_tokenizer = VisualTokenizer(
+            config=config.vit_config,
+            visual_vocab_size=config.visual_vocab_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.visual_tokenizer",
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.vte = VisualEmbedding(config.visual_vocab_size, config.hidden_size)
+
+        text_model_type = self.config.get_text_config().model_type
+        self.image_pad_token_id = IMAGE_PAD_TOKEN_ID_MAP[text_model_type]
+
+        self.make_empty_intermediate_tensors = (
+            self.get_language_model().make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Ovis2_5ImagePatchInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        indicator_tokens = kwargs.pop("indicator_tokens", None)
+        grids = kwargs.pop("grids", None)
+        if pixel_values is None and indicator_tokens is None:
+            return None
+
+        if pixel_values is not None and indicator_tokens is not None:
+            if not isinstance(pixel_values, (torch.Tensor, list)):
+                raise ValueError(
+                    f"Incorrect type of pixel values. Got type: {type(pixel_values)}"
+                )
+
+            if not isinstance(indicator_tokens, (torch.Tensor, list)):
+                raise ValueError(
+                    "Incorrect type of indicator_tokens. "
+                    f"Got type: {type(indicator_tokens)}"
+                )
+
+            return Ovis2_5ImagePatchInputs(
+                type="image_patches",
+                flat_data=flatten_bn(pixel_values, concat=True),
+                patches_per_item=[
+                    x.shape[0] // (self.config.vit_config.hidden_stride**2)
+                    for x in pixel_values
+                ],
+                indicator_tokens=flatten_bn(indicator_tokens, concat=True),
+                grids=flatten_bn(grids, concat=True),
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Ovis2_5VideoPatchInputs | None:
+        pixel_values = kwargs.pop("video_pixel_values", None)
+        indicator_tokens = kwargs.pop("video_indicator_tokens", None)
+        grids = kwargs.pop("video_grids", None)
+        if pixel_values is None and indicator_tokens is None:
+            return None
+
+        if pixel_values is not None and indicator_tokens is not None:
+            if not isinstance(pixel_values, (torch.Tensor, list)):
+                raise ValueError(
+                    f"Incorrect type of pixel values. Got type: {type(pixel_values)}"
+                )
+
+            if not isinstance(indicator_tokens, (torch.Tensor, list)):
+                raise ValueError(
+                    "Incorrect type of indicator_tokens. "
+                    f"Got type: {type(indicator_tokens)}"
+                )
+
+            return Ovis2_5VideoPatchInputs(
+                type="video_patches",
+                flat_data=flatten_bn(pixel_values, concat=True),
+                patches_per_item=[
+                    x.shape[0] // (self.config.vit_config.hidden_stride**2)
+                    for x in pixel_values
+                ],
+                indicator_tokens=flatten_bn(indicator_tokens, concat=True),
+                grids=flatten_bn(grids, concat=True),
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_visual_input(
+        self, visual_input: Ovis2_5ImagePatchInputs | Ovis2_5VideoPatchInputs
+    ) -> MultiModalEmbeddings:
+        image_patches_flat = visual_input["flat_data"]
+        patches_per_image = visual_input["patches_per_item"]
+        indicator_tokens = visual_input["indicator_tokens"]
+        grid_thws = visual_input["grids"]
+
+        indicator_per_image = list(
+            map(lambda x: 2 if x > 1 else x + 2, patches_per_image)
+        )
+
+        target_dtype = self.visual_tokenizer.dtype
+        visual_tokens = self.visual_tokenizer(
+            image_patches_flat.to(target_dtype), grid_thws
+        )
+
+        visual_embeds = self.vte(visual_tokens)  # 1:1 numeric eq.
+        indicator_embeds = self.vte(indicator_tokens)
+
+        visual_embeds_per_image = visual_embeds.split(patches_per_image, dim=0)
+        indicator_embeds_per_image = indicator_embeds.split(indicator_per_image)
+
+        vision_embeddings = []
+        for indicator, visual in zip(
+            indicator_embeds_per_image, visual_embeds_per_image
+        ):
+            vision_embeddings_per_image = []
+            visual = visual.unsqueeze(0)
+            for i in range(visual.shape[0]):
+                vision_embeddings_per_image.append(
+                    torch.cat([indicator[i : i + 1], visual[i]], dim=0)
+                )
+            vision_embeddings_per_image.append(indicator[i + 1 :])
+            vision_embeddings.append(torch.cat(vision_embeddings_per_image, dim=0))
+        return tuple(vision_embeddings)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "indicator_tokens", "grids")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key
+                in ("video_pixel_values", "video_indicator_tokens", "video_grids")
+                and "videos" not in modalities
+            ):
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_visual_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_visual_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        # up until here we have a inputs_embeds 100% numerical identity
+        # between the OG HF Transformers implementation and ours
+        hidden_states = self.llm(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.llm.compute_logits(hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.llm
diff --git a/model_executor/models/paddleocr_vl.py b/model_executor/models/paddleocr_vl.py
new file mode 100644
index 0000000..3ef6470
--- /dev/null
+++ b/model_executor/models/paddleocr_vl.py
@@ -0,0 +1,1407 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Literal
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers import BatchFeature, PretrainedConfig
+from transformers.activations import GELUActivation
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPooling,
+)
+from transformers.utils import torch_int
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.attention.ops.vit_attn_wrappers import (
+    vit_flash_attn_wrapper,
+    vit_xformers_attn_wrapper,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding.common import (
+    dispatch_rotary_emb_function,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+)
+from vllm.multimodal.parse import (
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .ernie45 import Ernie4_5ForCausalLM
+from .interfaces import MultiModalEmbeddings, SupportsMRoPE, SupportsMultiModal
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    maybe_prefix,
+)
+from .vision import get_vit_attn_backend
+
+
+def smart_resize(
+    height: int,
+    width: int,
+    factor: int = 28,
+    min_pixels: int = 28 * 28 * 130,
+    max_pixels: int = 28 * 28 * 1280,
+):
+    """Rescales the image so that the following conditions are met:
+
+    1. Both dimensions (height and width) are divisible by 'factor'.
+
+    2. The total number of pixels is within the range ['min_pixels', 'max_pixels'].
+
+    3. The aspect ratio of the image is maintained as closely as possible.
+
+    """
+
+    if height < factor:
+        width = round((width * factor) / height)
+        height = factor
+
+    if width < factor:
+        height = round((height * factor) / width)
+        width = factor
+
+    if max(height, width) / min(height, width) > 200:
+        raise ValueError(
+            f"absolute aspect ratio must be smaller than 200, "
+            f"got {max(height, width) / min(height, width)}"
+        )
+    h_bar = round(height / factor) * factor
+    w_bar = round(width / factor) * factor
+    if h_bar * w_bar > max_pixels:
+        beta = math.sqrt((height * width) / max_pixels)
+        h_bar = math.floor(height / beta / factor) * factor
+        w_bar = math.floor(width / beta / factor) * factor
+    elif h_bar * w_bar < min_pixels:
+        beta = math.sqrt(min_pixels / (height * width))
+        h_bar = math.ceil(height * beta / factor) * factor
+        w_bar = math.ceil(width * beta / factor) * factor
+    return h_bar, w_bar
+
+
+def rotate_half(x: torch.Tensor, interleaved: bool = False) -> torch.Tensor:
+    if not interleaved:
+        x1, x2 = x.chunk(2, dim=-1)
+        return torch.cat((-x2, x1), dim=-1)
+    x1, x2 = x[..., ::2], x[..., 1::2]
+    return rearrange(torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2)
+
+
+def apply_rotary_emb_torch(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, interleaved: bool = False
+) -> torch.Tensor:
+    """
+    x: (batch_size, seqlen, nheads, headdim)
+    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
+    """
+    ro_dim = cos.shape[-1] * 2
+    assert ro_dim <= x.shape[-1]
+    cos = repeat(
+        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    sin = repeat(
+        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    return torch.cat(
+        [
+            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
+            x[..., ro_dim:],
+        ],
+        dim=-1,
+    )
+
+
+def apply_rotary_pos_emb_vision(t: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
+    rotary_emb_function = dispatch_rotary_emb_function(default=apply_rotary_emb_torch)
+    t_ = t.float()
+    cos = freqs.cos()
+    sin = freqs.sin()
+    output = rotary_emb_function(t_, cos, sin).type_as(t)
+    return output
+
+
+class PaddleOCRVLProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(**kwargs)
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self):
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        image_processor,
+    ) -> int:
+        if image_processor is None:
+            image_processor = self.get_image_processor()
+
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+        resized_height, resized_width = smart_resize(
+            height=image_height,
+            width=image_width,
+            factor=patch_size * merge_size,
+            min_pixels=image_processor.min_pixels,
+            max_pixels=image_processor.max_pixels,
+        )
+        preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+
+        grid_t = 1
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_image_tokens = num_patches // (merge_size**2)
+
+        return num_image_tokens
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        hf_config = self.get_hf_config()
+
+        # See `smart_resize` for the calculation of the image size.
+        merge_size = hf_config.vision_config.spatial_merge_size
+        patch_size = hf_config.vision_config.patch_size
+        factor = merge_size * patch_size
+        max_num_tokens = self.get_image_processor().max_pixels // (factor**2)
+        # Find factors of max_num_tokens close to its square root
+        # to create a dummy image with a reasonable aspect ratio.
+        h_patches = int(math.sqrt(max_num_tokens))
+        max_num_tokens -= max_num_tokens % h_patches
+        w_patches = max_num_tokens // h_patches
+        return ImageSize(height=h_patches * factor, width=w_patches * factor)
+
+
+class PaddleOCRVLDummyInputsBuilder(BaseDummyInputsBuilder[PaddleOCRVLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        max_image_size = self.info.get_image_size_with_most_features()
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size.width,
+                height=max_image_size.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class PaddleOCRVLMultiModalProcessor(
+    BaseMultiModalProcessor[PaddleOCRVLProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if mm_data:
+            processed_outputs = self.info.ctx.call_hf_processor(
+                self.info.get_hf_processor(**mm_kwargs),
+                dict(text=prompt, **mm_data),
+                dict(**mm_kwargs, **tok_kwargs),
+            )
+            num_patches_per_image = processed_outputs["image_grid_thw"].prod(-1)
+            processed_outputs["pixel_values"] = processed_outputs["pixel_values"].split(
+                num_patches_per_image.tolist()
+            )
+        else:
+            tokenizer = self.info.get_tokenizer()
+            processed_outputs = tokenizer(
+                prompt, add_special_tokens=True, return_tensors="pt"
+            )
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_id
+
+        def get_replacement(item_idx: int, image_processor):
+            images = mm_items.get_items("image", ImageProcessorItems)
+
+            image_size = images.get_image_size(item_idx)
+            num_image_tokens = self.info.get_num_image_tokens(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                image_processor=image_processor,
+            )
+
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=partial(get_replacement, image_processor=image_processor),
+            ),
+        ]
+
+
+class Projector(nn.Module):
+    def __init__(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.text_config = text_config
+        self.vision_config = vision_config
+        self.merge_kernel_size = (2, 2)
+
+        self.hidden_size = (
+            self.vision_config.hidden_size
+            * self.merge_kernel_size[0]
+            * self.merge_kernel_size[1]
+        )
+
+        self.pre_norm = torch.nn.LayerNorm(self.vision_config.hidden_size, eps=1e-05)
+        self.linear_1 = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
+        self.act = GELUActivation()
+        self.linear_2 = nn.Linear(
+            self.hidden_size, self.text_config.hidden_size, bias=True
+        )
+
+    def forward(
+        self,
+        image_features: torch.Tensor,
+        image_grid_thw: torch.Tensor,
+    ) -> torch.Tensor:
+        m1, m2 = self.merge_kernel_size
+        if isinstance(image_features, (list, tuple)):
+            processed_features = list()
+            for image_feature, image_grid in zip(image_features, image_grid_thw):
+                image_feature = self.pre_norm(image_feature)
+                t, h, w = image_grid
+
+                image_feature = rearrange(
+                    image_feature,
+                    "(t h p1 w p2) d -> (t h w) (p1 p2 d)",
+                    t=t,
+                    h=h // m1,
+                    p1=m1,
+                    w=w // m2,
+                    p2=m2,
+                )
+                hidden_states = self.linear_1(image_feature)
+                hidden_states = self.act(hidden_states)
+                hidden_states = self.linear_2(hidden_states)
+                processed_features.append(hidden_states)
+
+            return processed_features
+
+        dims = image_features.shape[:-1]
+        dim = image_features.shape[-1]
+        image_features = image_features.view(np.prod(dims), dim)
+        hidden_states = self.pre_norm(image_features).view(-1, self.hidden_size)
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states.view(*dims, -1)
+
+
+class PaddleOCRImagePixelInputs(TensorSchema):
+    type: Literal["pixel_values"]
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("bn", "p", 3, "patch_size", "patch_size", dynamic_dims={"p"}),
+    ]
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 3),
+    ]
+
+
+class SiglipVisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            padding="valid",
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.cache_position_embedding = dict()
+        self.cache_position_count = dict()
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.packing_position_embedding = nn.Embedding(32768, self.embed_dim)
+
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions).expand((1, -1)),
+            persistent=False,
+        )
+
+    def interpolate_pos_encoding(
+        self,
+        embeddings: torch.Tensor,
+        height: int,
+        width: int,
+        is_after_patchify: bool = False,
+    ) -> torch.Tensor:
+        num_positions = self.position_embedding.weight.shape[0]
+
+        patch_pos_embed = self.position_embedding.weight.unsqueeze(0)
+
+        dim = embeddings.shape[-1]
+
+        if is_after_patchify:
+            new_height = height
+            new_width = width
+        else:
+            new_height = height // self.patch_size
+            new_width = width // self.patch_size
+
+        sqrt_num_positions = torch_int(num_positions**0.5)
+        patch_pos_embed = patch_pos_embed.reshape(
+            1, sqrt_num_positions, sqrt_num_positions, dim
+        )
+        patch_pos_embed = patch_pos_embed.permute(0, 3, 1, 2)
+
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed,
+            size=(new_height, new_width),
+            mode="bilinear",
+            align_corners=False,
+        )
+
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+        return patch_pos_embed
+
+    def fetch_position_embedding_lfu_cache(
+        self, embeddings: torch.Tensor, h: int, w: int, max_cache: int = 20
+    ):
+        grid = (h, w)
+        if grid in self.cache_position_embedding:
+            self.cache_position_count[grid] += 1
+            return self.cache_position_embedding[grid]
+
+        if len(self.cache_position_embedding) >= max_cache:
+            min_hit_grid = min(
+                self.cache_position_count,
+                key=self.cache_position_count.get,
+            )
+            self.cache_position_count.pop(min_hit_grid)
+            self.cache_position_embedding.pop(min_hit_grid)
+
+        position_embedding = self.interpolate_pos_encoding(embeddings, h, w, True)
+        self.cache_position_count[grid] = 1
+        self.cache_position_embedding[grid] = position_embedding
+        return position_embedding
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        position_ids: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        interpolate_pos_encoding=False,
+    ) -> torch.Tensor:
+        if pixel_values.dim() == 4:
+            pixel_values = pixel_values.unsqueeze(0)
+        if pixel_values.dim() == 5:
+            if position_ids is None:
+                raise ValueError(
+                    "position_ids cannot be None when pixel_values.dim() is 5."
+                )
+            (
+                batch_size,
+                squence_len,
+                channel,
+                height,
+                width,
+            ) = pixel_values.shape
+            target_dtype = self.patch_embedding.weight.dtype
+            pixel_values = rearrange(pixel_values, "b l c h w -> (b l) c h w")
+            patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
+            embeddings = patch_embeds.flatten(-2).squeeze(-1)
+
+            if interpolate_pos_encoding and image_grid_thw is not None:
+                start = 0
+                tmp_embeddings = list()
+                for image_grid in image_grid_thw:
+                    t, h, w = image_grid
+                    end = start + t * h * w
+                    image_embeddings = embeddings[start:end, :]
+                    position_embedding = (
+                        self.interpolate_pos_encoding(image_embeddings, h, w, True)
+                        .squeeze(0)
+                        .repeat(t, 1)
+                    )
+                    image_embeddings = image_embeddings + position_embedding
+                    tmp_embeddings.append(image_embeddings)
+                    start = end
+                embeddings = torch.concat(tmp_embeddings, dim=0).unsqueeze(0)
+            else:
+                embeddings = embeddings + self.packing_position_embedding(position_ids)
+            return embeddings
+        else:
+            raise ValueError(
+                "Unsupported pixel_values dimension:"
+                f" {pixel_values.dim()}. Expected 4 or 5."
+            )
+
+
+def all_gather_interleave(local_tensor: torch.Tensor, hidden_size: int, tp_size: int):
+    """All-gather the input tensor interleavely across model parallel group."""
+    import torch.distributed as dist
+
+    gathered_tensors = [torch.zeros_like(local_tensor) for _ in range(tp_size)]
+    dist.all_gather(
+        gathered_tensors, local_tensor, group=parallel_state.get_tp_group().device_group
+    )
+
+    gathered_tensors_split = [
+        torch.split(tensor, hidden_size // tp_size, -1) for tensor in gathered_tensors
+    ]
+    ordered_tensors = [
+        tensor for pair in zip(*gathered_tensors_split) for tensor in pair
+    ]
+    result_tensor = torch.cat(ordered_tensors, dim=-1)
+    return result_tensor
+
+
+class SiglipAttention(nn.Module):
+    """SigLIP vision attention adapted from Qwen2.5-VisionAttention."""
+
+    def __init__(
+        self,
+        *,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        attn_backend_override: AttentionBackendEnum | None = None,
+        use_upstream_fa: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.tp_size = parallel_state.get_tensor_model_parallel_world_size()
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            total_num_kv_heads=num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.attn_backend = attn_backend
+        self.use_upstream_fa = use_upstream_fa
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        seq_len, bs, _ = qkv.shape
+        if self.tp_size > 1:
+            qkv = all_gather_interleave(qkv, self.qkv_proj.hidden_size, self.tp_size)
+
+        q, k, v = qkv.chunk(3, dim=2)
+
+        if self.tp_size > 1:
+            splitter = partial(
+                dist_utils.split_tensor_along_last_dim, num_partitions=self.tp_size
+            )
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+            v = splitter(v)[self.tp_rank]
+
+        new_shape = (
+            seq_len,
+            bs,
+            self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        )
+        q, k, v = (x.view(*new_shape) for x in (q, k, v))
+        return q, k, v
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        *,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor | None,
+        max_seqlen: torch.Tensor | None,
+        seqlens: torch.Tensor | None,
+    ) -> torch.Tensor:
+        batch_size, _, _ = hidden_states.shape
+
+        x = rearrange(hidden_states, "b s d -> s b d")
+        x, _ = self.qkv_proj(x)
+        q, k, v = self.split_qkv(x)
+        q, k, v = (rearrange(t, "s b h d -> b s h d") for t in (q, k, v))
+
+        if rotary_pos_emb is not None:
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            if max_seqlen is None:
+                raise ValueError("Flash attention backend requires max_seqlen.")
+            context_layer = vit_flash_attn_wrapper(
+                q,
+                k,
+                v,
+                cu_seqlens,
+                max_seqlen,
+                batch_size,
+                self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA,
+                self.use_upstream_fa,
+            )
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                start_idx = cu_seqlens[i - 1]
+                end_idx = cu_seqlens[i]
+                q_i = q[:, start_idx:end_idx]
+                k_i = k[:, start_idx:end_idx]
+                v_i = v[:, start_idx:end_idx]
+                q_i, k_i, v_i = (
+                    rearrange(tensor, "b s h d -> b h s d")
+                    for tensor in (q_i, k_i, v_i)
+                )
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                output_i = rearrange(output_i, "b h s d -> b s h d")
+                outputs.append(output_i)
+            context_layer = torch.cat(outputs, dim=1)
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            if seqlens is None:
+                raise ValueError("xFormers attention backend requires seqlens tensor.")
+            context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
+        else:
+            raise RuntimeError(
+                f"PaddleOCR-VL does not support {self.attn_backend} backend now."
+            )
+
+        output, _ = self.out_proj(context_layer)
+        output = rearrange(output, "s b d -> b s d")
+        return output
+
+
+class SigLIPRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        self.rope_init()
+
+    def rope_init(self):
+        inv_freq = 1.0 / (
+            self.theta ** (torch.arange(0, self.dim, 2, dtype=torch.float) / self.dim)
+        )
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen,
+            device=self.inv_freq.device,
+            dtype=self.inv_freq.dtype,
+        )
+        freqs = torch.outer(seq, self.inv_freq)
+        return freqs
+
+
+class SiglipMLP(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        # Special handling for BNB and torchao quantization
+        if quant_config and quant_config.get_name() in ["bitsandbytes", "torchao"]:
+            quantizable = True
+        else:
+            # For other quantization, we require the hidden size to be a
+            # multiple of 64
+            quantizable = (
+                config.hidden_size % 64 == 0 and config.intermediate_size % 64 == 0
+            )
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class SiglipEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        attn_backend_override: AttentionBackendEnum | None = None,
+        use_upstream_fa: bool = False,
+    ):
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.self_attn = SiglipAttention(
+            embed_dim=config.hidden_size,
+            num_heads=config.num_attention_heads,
+            projection_size=config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attn_backend=attn_backend,
+            attn_backend_override=attn_backend_override,
+            use_upstream_fa=use_upstream_fa,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = SiglipMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        *,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor | None,
+        max_seqlen: torch.Tensor | None,
+        seqlens: torch.Tensor | None,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states = self.self_attn(
+            hidden_states=hidden_states,
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class SiglipEncoder(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+        num_heads = config.num_attention_heads
+        head_dim = embed_dim // num_heads
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        } and check_upstream_fa_availability(torch.get_default_dtype()):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+            self.use_upstream_fa = True
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"PaddleOCR-VL does not support {self.attn_backend} backend now."
+            )
+        self.layers = nn.ModuleList(
+            [
+                SiglipEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_backend=self.attn_backend,
+                    attn_backend_override=attn_backend_override,
+                    use_upstream_fa=self.use_upstream_fa,
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+        self.rotary_pos_emb = SigLIPRotaryEmbedding(head_dim // 2)
+
+    @staticmethod
+    def flatten_list(image_grid_thw):
+        tmp_image_grid_thw = list()
+        for image_grid in image_grid_thw:
+            if isinstance(image_grid, list):
+                tmp_image_grid_thw.extend(image_grid)
+            else:
+                tmp_image_grid_thw.append(image_grid)
+        return tmp_image_grid_thw
+
+    def forward(
+        self,
+        inputs_embeds,
+        cu_seqlens: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        device = inputs_embeds.device
+        hidden_states = inputs_embeds
+
+        flatten_image_grid_thw = self.flatten_list(image_grid_thw)
+
+        if width_position_ids is None or height_position_ids is None:
+            split_hids = list()
+            split_wids = list()
+            for t, h, w in flatten_image_grid_thw:
+                image_pids = torch.arange(t * h * w, device=device) % (h * w)
+                sample_hids = image_pids // w
+                sample_wids = image_pids % w
+                split_hids.append(sample_hids)
+                split_wids.append(sample_wids)
+            width_position_ids = torch.concat(split_wids, dim=0)
+            height_position_ids = torch.concat(split_hids, dim=0)
+
+        pids = torch.stack(
+            [height_position_ids, width_position_ids],
+            dim=-1,
+        )
+        max_grid_size = pids.max() + 1
+        rope_emb_max_grid = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rope_emb_max_grid[pids].flatten(1)
+
+        if cu_seqlens is None:
+            raise ValueError("cu_seqlens cannot be None for SiglipEncoder.")
+        if not isinstance(cu_seqlens, torch.Tensor):
+            cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32, device=device)
+        else:
+            cu_seqlens = cu_seqlens.to(device=device)
+
+        max_seqlen = None
+        seqlens = None
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
+
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+        return hidden_states
+
+
+class SiglipVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = SiglipVisionEmbeddings(config)
+        self.encoder = SiglipEncoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            attn_backend_override=attn_backend_override,
+        )
+        self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        interpolate_pos_encoding: bool | None = False,
+        position_ids: torch.Tensor | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+        cu_seqlens: torch.Tensor | None = None,
+        image_grid_thw: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            image_grid_thw=image_grid_thw,
+        )
+
+        last_hidden_state = self.encoder(
+            inputs_embeds=hidden_states,
+            cu_seqlens=cu_seqlens,
+            image_grid_thw=image_grid_thw,
+            height_position_ids=height_position_ids,
+            width_position_ids=width_position_ids,
+        )
+
+        last_hidden_state = self.post_layernorm(last_hidden_state)
+        return last_hidden_state
+
+
+class SiglipVisionModel(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+
+        self.vision_model = SiglipVisionTransformer(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vision_model",
+            attn_backend_override=attn_backend_override,
+        )
+        self.quant_config = quant_config
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.vision_model.embeddings.patch_embedding.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.vision_model.embeddings.patch_embedding.weight.device
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.vision_model.embeddings.patch_embedding
+
+    def forward(
+        self,
+        pixel_values,
+        interpolate_pos_encoding: bool = False,
+        position_ids: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        cu_seqlens: torch.Tensor | None = None,
+    ) -> BaseModelOutputWithPooling:
+        return self.vision_model(
+            pixel_values=pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            image_grid_thw=image_grid_thw,
+            cu_seqlens=cu_seqlens,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "head.attention" in name or "head.layernorm" in name:
+                continue
+            if "head.mlp" in name or "head.probe" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                param = params_dict[scale_name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for (
+                param_name,
+                weight_name,
+                shard_id,
+            ) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    PaddleOCRVLMultiModalProcessor,
+    info=PaddleOCRVLProcessingInfo,
+    dummy_inputs=PaddleOCRVLDummyInputsBuilder,
+)
+class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsMRoPE):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.": "language_model.model.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+
+        self.visual = SiglipVisionModel(
+            config=config.vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "visual"),
+            attn_backend_override=attn_backend_override,
+        )
+        self.mlp_AR = Projector(config, config.vision_config)
+
+        self.language_model = Ernie4_5ForCausalLM(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        for layer in self.language_model.model.layers:
+            if not isinstance(layer, PPMissingLayer):
+                layer.self_attn.rotary_emb.is_neox_style = True
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        vision_start_token_id = hf_config.vision_start_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(hf_config.vision_config, "tokens_per_second", 1.0)
+
+        input_tokens_tensor = torch.tensor(input_tokens)
+        vision_start_indices = torch.argwhere(
+            input_tokens_tensor == vision_start_token_id
+        ).squeeze(1)
+        vision_tokens = input_tokens_tensor[vision_start_indices + 1]
+        image_nums = (vision_tokens == image_token_id).sum()
+        video_nums = (vision_tokens == video_token_id).sum()
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_videos = image_nums, video_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + video_nums):
+            video_second_per_grid_t = 0.0
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_videos > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+            if ed_image < ed_video:
+                t, h, w = image_grid_thw[image_index]
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = video_grid_thw[video_index]
+                video_second_per_grid_t = 1.0
+                if second_per_grid_ts:
+                    video_second_per_grid_t = second_per_grid_ts[video_index]
+                video_index += 1
+                remain_videos -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                    * video_second_per_grid_t
+                    * tokens_per_second
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+
+        return llm_positions, mrope_position_delta
+
+    def get_language_model(self) -> nn.Module:
+        return self.language_model
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> PaddleOCRImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None:
+            return None
+
+        return PaddleOCRImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_thw,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        elif inputs_embeds is None:
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            is_multimodal = kwargs.pop("is_multimodal", None)
+            handle_oov_mm_token = kwargs.pop("handle_oov_mm_token", False)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=is_multimodal,
+                handle_oov_mm_token=handle_oov_mm_token,
+            )
+            input_ids = None
+
+        return self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def encode_image(
+        self, pixel_values: torch.Tensor, image_grid_thw: torch.Tensor
+    ) -> torch.Tensor:
+        pixel_values = pixel_values.type(self.visual.dtype)
+        siglip_position_ids = list()
+        image_grid_hws = list()
+        cu_seqlens = [0]
+
+        thw_tuple = tuple(image_grid_thw.tolist())
+        numel = np.prod(thw_tuple)
+        image_grid_hws.append(thw_tuple)
+        image_position_ids = torch.arange(numel) % np.prod(thw_tuple[1:])
+        siglip_position_ids.append(image_position_ids)
+        cu_seqlens.append(cu_seqlens[-1] + numel)
+
+        siglip_position_ids = torch.concat(siglip_position_ids, dim=0).to(
+            pixel_values.device
+        )
+        cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32).to(pixel_values.device)
+
+        vision_outputs = self.visual(
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_hws,
+            position_ids=siglip_position_ids,
+            interpolate_pos_encoding=True,
+            cu_seqlens=cu_seqlens,
+        )
+        return vision_outputs
+
+    def _process_image_input(
+        self, image_input: PaddleOCRImagePixelInputs
+    ) -> MultiModalEmbeddings:
+        pixel_values = image_input.pixel_values
+        image_grid_thw = image_input.image_grid_thw
+        vision_outputs = tuple(
+            self.encode_image(pixel, grid).squeeze(0)
+            for pixel, grid in zip(pixel_values, image_grid_thw)
+        )
+        image_embeds = self.mlp_AR(vision_outputs, image_grid_thw)
+        return image_embeds
+
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return ()
+
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+        image_embeds = self._process_image_input(image_input)
+        multimodal_embeddings += tuple(image_embeds)
+
+        return multimodal_embeddings
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+        return autoloaded_weights
diff --git a/model_executor/models/paligemma.py b/model_executor/models/paligemma.py
new file mode 100644
index 0000000..ec5d0fa
--- /dev/null
+++ b/model_executor/models/paligemma.py
@@ -0,0 +1,412 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+from torch import nn
+from transformers import BatchFeature, PaliGemmaConfig
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.logger import init_logger
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptIndexTargets,
+    PromptInsertion,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .siglip import SiglipVisionModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    flatten_bn,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import get_vision_encoder_info
+
+logger = init_logger(__name__)
+
+
+class PaliGemmaImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class PaliGemmaImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]
+
+
+PaliGemmaImageInputs: TypeAlias = (
+    PaliGemmaImagePixelInputs | PaliGemmaImageEmbeddingInputs
+)
+
+
+class PaliGemmaMultiModalProjector(nn.Module):
+    def __init__(self, vision_hidden_size: int, projection_dim: int):
+        super().__init__()
+
+        self.linear = nn.Linear(vision_hidden_size, projection_dim, bias=True)
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.linear(image_features)
+        return hidden_states
+
+
+class PaliGemmaProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(PaliGemmaConfig)
+
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        return vision_encoder_info.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+
+class PaliGemmaDummyInputsBuilder(BaseDummyInputsBuilder[PaliGemmaProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        hf_config = self.info.get_hf_config()
+        vision_config = hf_config.vision_config
+        max_image_size = vision_config.image_size
+
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size,
+                height=max_image_size,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class PaliGemmaMultiModalProcessor(BaseMultiModalProcessor[PaliGemmaProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        tokenizer = self.info.get_tokenizer()
+        if not mm_data:
+            prompt_ids = tokenizer.encode(prompt, add_special_tokens=False)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        tokenizer = self.info.get_tokenizer()
+
+        bos_token_id = tokenizer.bos_token_id
+        assert isinstance(bos_token_id, int)
+
+        def get_insertion(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                )
+
+            image_tokens = [image_token_id] * num_image_tokens
+
+            return PromptUpdateDetails.select_token_id(
+                image_tokens + [bos_token_id],
+                embed_token_id=image_token_id,
+            )
+
+        # Paligemma 1 and 2 have different tokenizer.add_bos_token
+        # Insert <image>*n + <bos> after <bos> for Paligemma 1
+        # Insert <image>*n + <bos> for Paligemma 2
+        return [
+            PromptInsertion(
+                modality="image",
+                target=PromptIndexTargets.prefix(
+                    [bos_token_id] if tokenizer.add_bos_token else []
+                ),
+                insertion=get_insertion,
+            )
+        ]
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        mm_inputs = super().apply(
+            prompt,
+            mm_data,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+        prompt_token_ids = mm_inputs["prompt_token_ids"]
+
+        tokenizer = self.info.get_tokenizer()
+        newline_prompt = "\n"
+        newline_token_id = tokenizer.encode(newline_prompt)[-1]  # 108
+        # Force to add newline at the end of prompt for paligemma's format
+        # This step can NOT be replacemented by current PromptUpdate methods
+        if len(prompt_token_ids) and prompt_token_ids[-1] != newline_token_id:
+            prompt_token_ids.append(newline_token_id)
+            mm_inputs["prompt_token_ids"] = prompt_token_ids
+
+        return mm_inputs
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    PaliGemmaMultiModalProcessor,
+    info=PaliGemmaProcessingInfo,
+    dummy_inputs=PaliGemmaDummyInputsBuilder,
+)
+class PaliGemmaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.vision_tower = SiglipVisionModel(
+            config.vision_config,
+            quant_config,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        self.multi_modal_projector = PaliGemmaMultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            projection_dim=config.vision_config.projection_dim,
+        )
+
+        self.quant_config = quant_config
+
+        if config.text_config.model_type == "gemma":
+            config.text_config.architectures = ["GemmaForCausalLM"]
+        else:
+            config.text_config.architectures = ["Gemma2ForCausalLM"]
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.language_model.logits_processor.scale *= logit_scale
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> PaliGemmaImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            pixel_values = flatten_bn(pixel_values, concat=True)
+
+            h = w = self.config.vision_config.image_size
+            return PaliGemmaImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                resolve_bindings={"h": h, "w": w},
+            )
+
+        if image_embeds is not None:
+            image_embeds = flatten_bn(image_embeds, concat=True)
+
+            return PaliGemmaImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: SiglipVisionModel,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        target_dtype = vision_tower.get_input_embeddings().weight.dtype
+        image_features = vision_tower(pixel_values.to(dtype=target_dtype))
+
+        return image_features
+
+    def _process_image_input(
+        self,
+        image_input: PaliGemmaImageInputs,
+    ) -> torch.Tensor:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_tower is not None
+        pixel_values = image_input["data"]
+        image_features = self._image_pixels_to_features(
+            self.vision_tower,
+            pixel_values,
+        )
+
+        return self.multi_modal_projector(image_features)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        # https://github.com/huggingface/transformers/blob/main/src/transformers/models/paligemma/modeling_paligemma.py#L294 # noqa
+        vision_embeddings = vision_embeddings * (self.config.hidden_size**-0.5)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/persimmon.py b/model_executor/models/persimmon.py
new file mode 100644
index 0000000..3bf6a1d
--- /dev/null
+++ b/model_executor/models/persimmon.py
@@ -0,0 +1,377 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.39.3/src/transformers/models/persimmon/modeling_persimmon.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only persimmon model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PersimmonConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class PersimmonMLP(nn.Module):
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.dense_h_to_4h = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
+        )
+        self.dense_4h_to_h = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
+        )
+        self.act = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states) -> torch.Tensor:
+        hidden_states, _ = self.dense_h_to_4h(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.dense_4h_to_h(hidden_states)
+        return hidden_states
+
+
+class PersimmonAttention(nn.Module):
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        tensor_parallel_world_size = get_tensor_model_parallel_world_size()
+
+        self.hidden_size = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.num_heads = self.total_num_heads // tensor_parallel_world_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.partial_rotary_factor = config.partial_rotary_factor
+        self.is_causal = True
+
+        assert (self.head_dim * self.total_num_heads) == self.hidden_size
+        assert self.total_num_heads % tensor_parallel_world_size == 0
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+        self.dense = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+        self.is_qk_layernorm = config.qk_layernorm
+
+        if self.is_qk_layernorm:
+            self.q_layernorm = nn.LayerNorm(self.head_dim)
+            self.k_layernorm = nn.LayerNorm(self.head_dim)
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+        self.scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scale=self.scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def _split_heads(self, x: torch.Tensor) -> torch.Tensor:
+        # [seq_length, hidden_size] -> [seq_length, num_heads, head_dim]
+        seq_length = x.shape[0]
+        return x.view(seq_length, self.num_heads, self.head_dim)
+
+    def _merge_heads(self, x: torch.Tensor) -> torch.Tensor:
+        # [seq_length, num_heads, head_dim] -> [seq_length, hidden_size]
+        seq_length = x.shape[0]
+        return x.view(seq_length, self.num_heads * self.head_dim)
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # [seq_length, 3 x hidden_size]
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+
+        if self.is_qk_layernorm:
+            # [seq_length, num_heads, head_dim]
+            q = self._split_heads(q)
+            k = self._split_heads(k)
+
+            q = self.q_layernorm(q)
+            k = self.k_layernorm(k)
+
+            q = self._merge_heads(q)
+            k = self._merge_heads(k)
+
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.dense(attn_output)
+        return output
+
+
+class PersimmonDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = PersimmonAttention(
+            config=config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = PersimmonMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        hidden_states = self.self_attn(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+
+        hidden_states = hidden_states + residual
+
+        outputs = hidden_states
+        return outputs
+
+
+@support_torch_compile
+class PersimmonModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.vocab_size = config.vocab_size
+        self.config = config
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: PersimmonDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.final_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.final_layernorm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if is_pp_missing_parameter(name, self):
+                continue
+            param = params_dict[name]
+
+            if "query_key_value" in name:
+                # copy from vllm/model_executor/models/bloom.py
+                # NOTE: Persimmon's fused QKV's output_dim has the shape of
+                # (num_heads * 3 * head_size), while the
+                # required shape is (3 * num_heads * head_size).
+                # Thus, we need weight conversion.
+                output_dim = getattr(param, "output_dim", None)
+                num_heads = self.config.num_attention_heads
+                if output_dim is not None:
+                    loaded_weight_shape = loaded_weight.shape
+                    loaded_weight = loaded_weight.view(
+                        loaded_weight_shape[:output_dim]
+                        + (num_heads, 3, -1)
+                        + loaded_weight_shape[output_dim + 1 :]
+                    )
+                    loaded_weight = loaded_weight.transpose(output_dim, output_dim + 1)
+                    loaded_weight = loaded_weight.reshape(loaded_weight_shape)
+
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class PersimmonForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.config = config
+        self.vocab_size = config.vocab_size
+        self.model = PersimmonModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            bias=False,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ):
+        hidden_states = self.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/phi.py b/model_executor/models/phi.py
new file mode 100644
index 0000000..8fee53c
--- /dev/null
+++ b/model_executor/models/phi.py
@@ -0,0 +1,374 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/microsoft/phi-1_5/blob/main/modeling_phi.py
+# Copyright 2023 The vLLM team.
+# Copyright (c) Microsoft Corporation.
+# Licensed under the MIT license.
+#
+# BSD 3-Clause License
+#
+# Copyright (c) 2022, Tri Dao, trid@cs.stanford.edu.
+# All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without
+# modification, are permitted provided that the following conditions are met:
+#
+# * Redistributions of source code must retain the above copyright notice, this
+#   list of conditions and the following disclaimer.
+#
+# * Redistributions in binary form must reproduce the above copyright notice,
+#   this list of conditions and the following disclaimer in the documentation
+#   and/or other materials provided with the distribution.
+#
+# * Neither the name of the copyright holder nor the names of its
+#   contributors may be used to endorse or promote products derived from
+#   this software without specific prior written permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+# AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+# DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+# DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+# SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+# CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+# OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+"""Inference-only Phi-1.5 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PhiConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class PhiAttention(nn.Module):
+    def __init__(
+        self,
+        config: PhiConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.total_num_heads = config.num_attention_heads
+        self.hidden_size = config.hidden_size
+        self.head_size = self.hidden_size // self.total_num_heads
+
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+
+        # pylint: disable=C0103
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_size,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.dense = RowParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+        scaling = self.head_size**-0.5
+        rotary_dim = int(
+            config.partial_rotary_factor
+            * (config.hidden_size // config.num_attention_heads)
+        )
+        assert rotary_dim % 2 == 0
+
+        # pylint: disable=C0301
+        # Refer to:
+        # https://huggingface.co/microsoft/phi-1_5/blob/d212a789620c380ff32ca1d1ee9943a777360987/modeling_phi.py#L518
+        rope_theta = getattr(config, "rope_theta", 10000.0)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 2048)
+        self.rotary_emb = get_rope(
+            self.head_size,
+            rotary_dim=rotary_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_size,
+            scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.dense(attn_output)
+        return output
+
+
+class PhiMLP(nn.Module):
+    def __init__(
+        self,
+        config: PhiConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        n_inner = getattr(config, "n_inner", None)
+        n_inner = n_inner if n_inner is not None else 4 * config.hidden_size
+
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            n_inner,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            n_inner,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+        self.act = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states):
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class PhiLayer(nn.Module):
+    def __init__(
+        self,
+        config: PhiConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.self_attn = PhiAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attn"
+        )
+        self.mlp = PhiMLP(config, quant_config, prefix=f"{prefix}.mlp")
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        attn_outputs = self.self_attn(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+        )
+        feed_forward_hidden_states = self.mlp(hidden_states)
+        hidden_states = attn_outputs + feed_forward_hidden_states + residual
+        return hidden_states
+
+
+@support_torch_compile
+class PhiModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: PhiLayer(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+        self.final_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        hidden_states = self.final_layernorm(hidden_states)
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # pylint: disable=E1136
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ]
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        # lm_head use bias, cannot share word embeddings
+        assert not config.tie_word_embeddings
+
+        self.quant_config = quant_config
+
+        self.model = PhiModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states, self.lm_head.bias)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/phi3.py b/model_executor/models/phi3.py
new file mode 100644
index 0000000..56c8755
--- /dev/null
+++ b/model_executor/models/phi3.py
@@ -0,0 +1,18 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from llama.py
+"""Inference-only Phi3 model code inherit from Llama.py"""
+
+from vllm.model_executor.models.llama import LlamaForCausalLM
+
+
+class Phi3ForCausalLM(LlamaForCausalLM):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "qkv_proj",
+        ],
+        "gate_up_proj": [
+            "gate_up_proj",
+        ],
+    }
diff --git a/model_executor/models/phi3v.py b/model_executor/models/phi3v.py
new file mode 100644
index 0000000..3845722
--- /dev/null
+++ b/model_executor/models/phi3v.py
@@ -0,0 +1,737 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+# Copyright 2024 Microsoft and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import regex as re
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    CLIPVisionConfig,
+    PretrainedConfig,
+    ProcessorMixin,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalPromptUpdates,
+    PlaceholderFeaturesInfo,
+    PromptReplacement,
+    PromptUpdate,
+    ResolvedPromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsQuant,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    _merge_multimodal_embeddings,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+# Cannot find the following 2 numbers from hf config.
+_IMAGE_TOKEN_ID = 32044
+
+CLIP_VIT_LARGE_PATCH14_336_CONFIG = CLIPVisionConfig(
+    dropout=0.0,
+    hidden_act="quick_gelu",
+    hidden_size=1024,
+    image_size=336,
+    intermediate_size=4096,
+    num_attention_heads=16,
+    num_channels=3,
+    num_hidden_layers=24,
+    patch_size=14,
+    projection_dim=768,
+)
+
+
+def _init_img_processor(
+    hf_config: PretrainedConfig,
+    quant_config: QuantizationConfig | None,
+    prefix: str = "",
+) -> CLIPVisionModel:
+    clip_config = CLIP_VIT_LARGE_PATCH14_336_CONFIG
+    layer_idx = hf_config.img_processor.get("layer_idx", -2)
+
+    # Initialize the CLIP only up to the required feature layer
+    if layer_idx < 0:
+        num_hidden_layers = clip_config.num_hidden_layers + layer_idx + 1
+    else:
+        num_hidden_layers = layer_idx + 1
+
+    img_processor = CLIPVisionModel(
+        clip_config,
+        quant_config,
+        num_hidden_layers_override=num_hidden_layers,
+        prefix=prefix,
+    )
+
+    return img_processor
+
+
+class Phi3VImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of images
+        - p: Number of patches
+        - h: Height of each patch
+        - w: Width of each patch
+    """
+
+    type: Literal["pixel_values", "image_embeds"] = "pixel_values"
+
+    # Supports either a stacked tensor or a list of (p, 3, h, w) tensors
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape(
+            "bn", "p", 3, "h", "w", dynamic_dims={"p"}
+        ),  # 'p' may vary across items
+    ]
+
+    # Stacked tensor with height and width for each image
+    image_sizes: Annotated[torch.Tensor | None, TensorShape("bn", 2)]
+
+
+class Phi3VImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of images
+        - f: Image feature size (e.g., number of tokens per image)
+        - h: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "f", "h"),
+    ]
+
+
+Phi3VImageInputs: TypeAlias = Phi3VImagePixelInputs | Phi3VImageEmbeddingInputs
+
+
+class Phi3ImageEmbeddingBase(nn.Module):
+    def __init__(self) -> None:
+        super().__init__()
+        self.layer_idx: int
+        self.type_feature: str
+        self.img_processor: CLIPVisionModel
+
+    def get_img_features(self, img_embeds: torch.FloatTensor) -> torch.FloatTensor:
+        TYPE_FEATURE = self.type_feature
+
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the img_processor
+        img_feature = self.img_processor(img_embeds)
+
+        if TYPE_FEATURE == "patch":
+            patch_feature = img_feature[:, 1:]
+            return patch_feature
+
+        if TYPE_FEATURE == "cls_patch":
+            return img_feature
+
+        raise NotImplementedError
+
+
+# adapted from https://huggingface.co/microsoft/Phi-3-vision-128k-instruct/blob/main/image_embedding_phi3_v.py
+class Phi3HDImageEmbedding(Phi3ImageEmbeddingBase):
+    """Phi3 Image embedding with HD transform."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        # n_embed or hidden_size
+        hidden_size = config.n_embd if hasattr(config, "n_embd") else config.hidden_size
+
+        self.img_processor = _init_img_processor(
+            config, quant_config, prefix=f"{prefix}.img_processor"
+        )
+
+        image_dim_out = config.img_processor["image_dim_out"]
+        self.num_img_tokens = config.img_processor["num_img_tokens"]
+
+        self.image_dim_out = image_dim_out
+
+        # global_gn and sub_gn for hd transform, serves as line separator
+        self.use_hd_transform = config.embd_layer.get("use_hd_transform", False)
+        self.with_learnable_separator = config.embd_layer.get(
+            "with_learnable_separator", False
+        )
+        self.hd_transform_order = config.embd_layer.get("hd_transform_order", "glb_sub")
+        # with_hd_transform and with_learnable_separator should have same value
+        assert self.use_hd_transform and self.with_learnable_separator
+
+        # 1024 * 4, merge spatial to channel dimension
+        self.glb_GN = nn.Parameter(torch.empty([1, 1, self.image_dim_out * 4]))
+        self.sub_GN = nn.Parameter(torch.empty([1, 1, 1, self.image_dim_out * 4]))
+
+        dim_projection = hidden_size
+        depth = 2
+        layers = [nn.Linear(image_dim_out * 4, dim_projection)]
+        for _ in range(1, depth):
+            layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+        self.img_projection = nn.Sequential(*layers)
+
+        self.type_feature = config.img_processor.get("type_feature", "patch")
+
+    def forward(
+        self, pixel_values: torch.FloatTensor, image_sizes: torch.Tensor
+    ) -> torch.FloatTensor:
+        """
+        process image and return vision embeddings.
+
+        pixel_values: (num_images, num_crops, c, h, w)
+        output: (num_images, num_img_tokens, hidden_size)
+        """
+        num_images, num_crops, c, h, w = pixel_values.shape
+        pixel_values = pixel_values.flatten(0, 1)
+        img_features = self.get_img_features(pixel_values)
+        img_features = img_features.reshape(
+            num_images, num_crops, -1, self.image_dim_out
+        )
+        image_features_proj = self.hd_feature_transform(img_features, image_sizes)
+        return image_features_proj
+
+    def hd_feature_transform(self, image_features, image_sizes):
+        """
+        image_features: (num_images, num_crops+1, 24*24, 1024)
+        """
+        assert self.hd_transform_order == "sub_glb", (
+            f"hd_transform_order `{self.hd_transform_order}` not implemented"
+        )
+        if isinstance(self.img_projection, nn.Sequential):
+            target_device = self.img_projection[0].bias.device
+            target_dtype = self.img_projection[0].bias.dtype
+        else:  # It's a single nn.Linear layer
+            target_device = self.img_projection.bias.device
+            target_dtype = self.img_projection.bias.dtype
+
+        global_image_features = image_features[:, 0]  # (num_images, 24*24, 1024)
+        # global feature can be viewed as a special HD case with num_crops 1x1
+        global_image_features_hd = self.reshape_hd_patches_2x2merge(
+            global_image_features, 1, 1
+        )
+        global_image_features_hd_newline = self.add_image_newline(
+            global_image_features_hd
+        )
+
+        batch_image_features_proj = []
+        # need a for loop to process each image because of different image sizes
+        # (patch arrangement is different for each image)
+        for i, img_size in enumerate(image_sizes):
+            h, w = img_size
+            h_crop = h // 336
+            w_crop = w // 336
+            num_crops = h_crop * w_crop
+
+            # NOTE: real num_crops is padded
+            # (num_crops, 24*24, 1024)
+            sub_image_features = image_features[i, 1 : 1 + num_crops]
+            sub_image_features_hd = self.reshape_hd_patches_2x2merge(
+                sub_image_features, h_crop, w_crop
+            )
+            sub_image_features_hd_newline = self.add_image_newline(
+                sub_image_features_hd
+            )
+
+            # [sub features, separator, global features]
+            image_embeddings = torch.cat(
+                [
+                    sub_image_features_hd_newline.squeeze(
+                        0
+                    ),  # (h_crop*12*(w_crop*12+1), 4096)
+                    self.glb_GN.squeeze(0),
+                    global_image_features_hd_newline[i],
+                ]
+            )
+            img_proj = self.img_projection(
+                image_embeddings.to(target_device, target_dtype)
+            )
+            batch_image_features_proj.append(img_proj)
+
+        return batch_image_features_proj
+
+    def reshape_hd_patches_2x2merge(self, image_features, h_crop, w_crop):
+        """
+        image_features: (num_images*num_crops, 24*24, 1024)
+        output: (num_images, h_crop*12, w_crop*12, 4096)
+        where h_crop*w_crop == num_crops
+        """
+        N, L, C = image_features.shape
+        assert L == 576 and C == 1024 and N % (h_crop * w_crop) == 0
+        num_images = N // (h_crop * w_crop)
+        H = int(L**0.5)
+        image_features_hd = (
+            image_features.reshape(N, H, H, C)  # N, 24, 24, 1024
+            .reshape(N, H // 2, 2, H // 2, 2, C)  # N, 12, 2, 12, 2, 1024
+            .permute(0, 1, 3, 2, 4, 5)  # N, 12, 12, 2, 2, 1024
+            .reshape(N, -1, 4 * C)  # N, 144, 4096
+            .reshape(
+                num_images, h_crop, w_crop, H // 2, H // 2, -1
+            )  # n_img, h_crop, w_crop, 12, 12, 4096
+            .permute(0, 1, 3, 2, 4, 5)  # n_img, h_crop, 12, w_crop, 12, 4096
+            .reshape(
+                num_images, h_crop * H // 2, w_crop * H // 2, 4 * C
+            )  # n_img, h_crop*12, w_crop*12, 4096
+        )
+        return image_features_hd
+
+    def add_image_newline(self, image_features_hd):
+        """
+        image_features_hd: (num_images, h_crop*12, w_crop*12, 4096)
+        output: (num_images, (h_crop*12) * (w_crop*12+1), 4096)
+        """
+        num_images, h, w, hid_dim = image_features_hd.shape
+        # add the newline token to the HD image feature patches
+        newline_embeddings = self.sub_GN.expand(
+            num_images, h, -1, -1
+        )  # (n_img, h, 1, hid_dim)
+        image_features_hd_newline = torch.cat(
+            [image_features_hd, newline_embeddings], dim=2
+        ).reshape(num_images, -1, hid_dim)
+        return image_features_hd_newline
+
+
+class Phi3VProcessingInfo(BaseProcessingInfo):
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: ProcessorMixin | None = None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return processor.calc_num_image_tokens_from_image_size(  # type: ignore
+            width=image_width,
+            height=image_height,
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        # Result in the max possible feature size (h:w = 16:1)
+        return ImageSize(height=8000, width=50)
+
+
+class Phi3VDummyInputsBuilder(BaseDummyInputsBuilder[Phi3VProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        image_tokens: list[str] = hf_processor.img_tokens  # type: ignore
+
+        return "".join(image_tokens[:num_images])
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Phi3VMultiModalProcessor(BaseMultiModalProcessor[Phi3VProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        input_ids = processed_outputs["input_ids"]
+        assert isinstance(input_ids, torch.Tensor)
+
+        # Phi3v processor has inserted -1, -2 etc as placeholder in prompt_ids,
+        # which will cause OverflowError when decoding the prompt_ids.
+        # Therefore, we need to do an early replacement here
+        input_ids.masked_fill_(input_ids < 0, _IMAGE_TOKEN_ID)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_sizes=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_tokens: list[str] = hf_processor.img_tokens  # type: ignore
+
+        def get_replacement_phi3v(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            return [_IMAGE_TOKEN_ID] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_tokens.__getitem__,
+                replacement=get_replacement_phi3v,
+            )
+        ]
+
+    def _recompute_cached_prompt_update(
+        self,
+        cached_update: ResolvedPromptUpdate,
+        new_item_idx: int,
+    ) -> ResolvedPromptUpdate:
+        new_update = super()._recompute_cached_prompt_update(
+            cached_update,
+            new_item_idx,
+        )
+
+        if cached_update.modality == "image":
+            hf_processor = self.info.get_hf_processor()
+            image_tokens: list[str] = hf_processor.img_tokens  # type: ignore
+            new_update = new_update.with_target(image_tokens[new_item_idx])
+
+        return new_update
+
+    def _apply_prompt_updates(
+        self,
+        token_ids: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[list[int], Mapping[str, list[PlaceholderFeaturesInfo]]]:
+        # align to hf behavior when there are images
+        if len(mm_prompt_updates):
+            tokenizer = self.info.get_tokenizer()
+            # to decode token_ids to the original text, we need to
+            # 1. remove the first bos token
+            # 2. remove space after each special token
+            #    introduced by the tokenizer
+            if len(token_ids) and token_ids[0] == tokenizer.bos_token_id:
+                token_ids = token_ids[1:]
+            text = tokenizer.decode(token_ids)
+            for special_tokens in tokenizer.special_tokens_map.values():
+                if isinstance(special_tokens, str):
+                    text = text.replace(f"{special_tokens} ", special_tokens)
+                elif isinstance(special_tokens, list):
+                    for special_token in special_tokens:
+                        text = text.replace(f"{special_token} ", special_token)
+            # perform hf behavior
+            # https://huggingface.co/microsoft/Phi-3.5-vision-instruct/blob/64f88b6/processing_phi3_v.py#L407
+            pattern = r"<\|image_\d+\|>"
+            prompt_chunks = [
+                tokenizer(chunk).input_ids for chunk in re.split(pattern, text)
+            ]
+            image_tags = [
+                tokenizer(chunk, add_special_tokens=False).input_ids
+                for chunk in re.findall(pattern, text)
+            ]
+            if len(prompt_chunks) > len(image_tags):
+                image_tags.append([])
+            token_ids = [
+                e
+                for sublist in zip(prompt_chunks, image_tags)
+                for ele in sublist
+                for e in ele
+            ]
+
+        token_ids, placeholders = super()._apply_prompt_updates(
+            token_ids=token_ids,
+            mm_prompt_updates=mm_prompt_updates,
+        )
+
+        # Keep the behavior in line with HF processor
+        if len(mm_prompt_updates) and (
+            token_ids[:2] == tokenizer.encode("<s> <|image|>", add_special_tokens=False)
+        ):
+            token_ids = [token_ids[0], *token_ids[2:]]
+            placeholders = {
+                modality: [
+                    PlaceholderFeaturesInfo(
+                        modality=p.modality,
+                        item_idx=p.item_idx,
+                        start_idx=p.start_idx - 1,
+                        tokens=p.tokens,
+                        is_embed=p.is_embed,
+                    )
+                    for p in ps
+                ]
+                for modality, ps in placeholders.items()
+            }
+
+        return token_ids, placeholders
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Phi3VMultiModalProcessor,
+    info=Phi3VProcessingInfo,
+    dummy_inputs=Phi3VDummyInputsBuilder,
+)
+class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.vision_embed_tokens.wte": "embed_tokens",
+            "model.vision_embed_tokens.": "vision_embed_tokens.",
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return f"<|image_{i}|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.image_token_id = _IMAGE_TOKEN_ID
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "model.embed_tokens"),
+        )
+
+        # TODO: Optionally initializes this for supporting input embeddings.
+        self.vision_embed_tokens = Phi3HDImageEmbedding(
+            config,
+            self.quant_config,
+            prefix=maybe_prefix(prefix, "model.vision_embed_tokens"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            # The prefix is empty intentionally because default prefix of
+            # LlamaForCausalLM is "model"
+            prefix="",
+            # We don't directly initialize vLLM's LlamaForCausalLM so we
+            # can automatically apply embedding wrapper if this model is
+            # initialized as an embedding model
+            architectures=["LlamaForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Phi3VImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_sizes = kwargs.pop("image_sizes", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Phi3VImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_sizes=image_sizes,
+                resolve_bindings={
+                    "h": CLIP_VIT_LARGE_PATCH14_336_CONFIG.image_size,
+                    "w": CLIP_VIT_LARGE_PATCH14_336_CONFIG.image_size,
+                },
+            )
+
+        if image_embeds is not None:
+            return Phi3VImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+        self,
+        image_input: Phi3VImageInputs,
+    ) -> torch.Tensor:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_embed_tokens is not None
+
+        image_embeds = self.vision_embed_tokens(
+            image_input["pixel_values"], image_input["image_sizes"]
+        )
+
+        return image_embeds
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        inputs_embeds = self._embed_text_input_ids(
+            input_ids,
+            self.embed_tokens,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
+            return inputs_embeds
+
+        if is_multimodal is None:
+            raise ValueError(
+                "`embed_input_ids` now requires `is_multimodal` arg, "
+                "please update your model runner according to "
+                "https://github.com/vllm-project/vllm/pull/16229."
+            )
+
+        return _merge_multimodal_embeddings(
+            inputs_embeds=inputs_embeds,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+        # The HF config doesn't specify whether these are tied,
+        # so we detect it this way
+        if "embed_tokens.weight" not in autoloaded_weights:
+            self.embed_tokens = self.language_model.model.embed_tokens
+            autoloaded_weights.add("embed_tokens.weight")
+        return autoloaded_weights
diff --git a/model_executor/models/phi4_multimodal.py b/model_executor/models/phi4_multimodal.py
new file mode 100644
index 0000000..0f1230a
--- /dev/null
+++ b/model_executor/models/phi4_multimodal.py
@@ -0,0 +1,1447 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import (
+    BatchFeature,
+    Phi4MultimodalAudioConfig,
+    Phi4MultimodalConfig,
+    Phi4MultimodalFeatureExtractor,
+    Phi4MultimodalImageProcessorFast,
+)
+from transformers import Phi4MultimodalProcessor as Phi4MMProcessor
+from transformers.models.phi4_multimodal.modeling_phi4_multimodal import (
+    Phi4MultimodalAudioConvModule,
+    Phi4MultimodalAudioNemoConvSubsampling,
+    Phi4MultimodalAudioRelativeAttentionBias,
+    adaptive_enc_mask,
+    unfold_tensor,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.layers.activation import MulAndSilu, get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .idefics2_vision_model import Idefics2VisionTransformer
+from .interfaces import MultiModalEmbeddings, SupportsLoRA, SupportsMultiModal
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+_AUDIO_MAX_SOUNDFILE_SIZE = 241_000
+
+
+def _get_padding_size(
+    orig_width: int, orig_height: int, target_height: int, target_width: int
+):
+    ratio_width = target_width / orig_width
+    ratio_height = target_height / orig_height
+
+    if ratio_width < ratio_height:
+        padding_width = 0
+        padding_height = target_height - int(orig_height * ratio_width)
+    else:
+        padding_width = target_width - int(orig_width * ratio_height)
+        padding_height = 0
+    return padding_height, padding_width
+
+
+class Phi4MMProjector(nn.Module):
+    def __init__(self, input_size: int, hidden_size: int):
+        super().__init__()
+        self.up = ColumnParallelLinear(input_size, hidden_size)
+        self.down = RowParallelLinear(hidden_size, hidden_size)
+        self.act = get_act_fn("gelu")
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x, _ = self.up(x)
+        x = self.act(x)
+        x, _ = self.down(x)
+        return x
+
+
+class Phi4MMImageEmbedding(nn.Module):
+    """Image embedding."""
+
+    def __init__(self, config: Phi4MultimodalConfig):
+        super().__init__()
+        self.config = config
+        self.layer_idx = config.vision_config.feature_layer
+        self.crop_size = config.vision_config.crop_size
+        self.image_dim_out = config.vision_config.hidden_size
+
+        n_patches = config.vision_config.image_size // config.vision_config.patch_size
+        if n_patches % 2 != 0:
+            self.img_processor_padding = nn.ReflectionPad2d((0, 1, 0, 1))
+            n_patches += 1
+        self.num_img_tokens = (n_patches // 2) ** 2
+
+        num_hidden_layers = (
+            config.vision_config.num_hidden_layers + self.layer_idx + 1
+            if self.layer_idx < 0
+            else self.layer_idx + 1
+        )
+        self.img_processor = Idefics2VisionTransformer(
+            config.vision_config,
+            require_post_norm=False,
+            num_hidden_layers_override=num_hidden_layers,
+        )
+        self.image_token_compression = nn.AvgPool2d(kernel_size=2, stride=2)
+        self.img_projection = Phi4MMProjector(self.image_dim_out, config.hidden_size)
+        self.global_img_feature_extensor = nn.Parameter(
+            torch.zeros([1, 1, self.image_dim_out])
+        )
+        self.sub_img_feature_extensor = nn.Parameter(
+            torch.zeros([1, 1, 1, self.image_dim_out])
+        )
+
+    def get_img_features(
+        self,
+        img_embeds: torch.FloatTensor,
+        attention_mask: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        img_feature = self.img_processor(
+            img_embeds, patch_attention_mask=attention_mask
+        )
+
+        patch_feature = img_feature
+        # reshape to 2D tensor
+        width = int(math.sqrt(patch_feature.size(1)))
+        patch_feature = patch_feature.view(-1, width, width, patch_feature.size(-1))
+        # convert to NCHW
+        patch_feature = patch_feature.permute(0, 3, 1, 2)
+        if getattr(self, "img_processor_padding", None) is not None:
+            patch_feature = self.img_processor_padding(patch_feature)
+        patch_feature = self.image_token_compression(patch_feature)
+        # convert to NHWC
+        patch_feature = patch_feature.permute(0, 2, 3, 1)
+        patch_feature = patch_feature.view(
+            -1, patch_feature.size(1) * patch_feature.size(2), patch_feature.size(-1)
+        )
+        return patch_feature
+
+    def forward(
+        self,
+        image_pixel_values: torch.FloatTensor,
+        image_sizes: torch.Tensor | None = None,
+        image_attention_mask: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        image_pixel_values = image_pixel_values.to(
+            self.img_processor.embeddings.patch_embedding.weight.dtype
+        )
+
+        target_device = self.img_projection.up.bias.device
+        target_dtype = self.img_projection.up.bias.dtype
+
+        batch_size = image_pixel_values.shape[0]
+
+        img_features = self.get_img_features(
+            image_pixel_values.flatten(0, 1),
+            attention_mask=image_attention_mask.flatten(0, 1).to(
+                dtype=bool, device=target_device
+            ),
+        )
+        base_feat_size = int(np.sqrt(img_features.shape[1]))
+        img_features = img_features.view(
+            batch_size, -1, base_feat_size**2, self.image_dim_out
+        )
+        image_sizes = image_sizes.view(-1, 2)
+
+        output_imgs = []
+        for idx in range(batch_size):
+            height, width = image_sizes[idx]
+            height_ratio = height // self.crop_size
+            width_ratio = width // self.crop_size
+            area_ratio = height_ratio * width_ratio
+
+            global_img = img_features[idx, :1]
+            global_img = global_img.reshape(
+                1, base_feat_size, base_feat_size, self.image_dim_out
+            ).contiguous()
+            temporary_extensor = self.sub_img_feature_extensor.repeat(
+                1, base_feat_size, 1, 1
+            )
+            global_img = torch.cat([global_img, temporary_extensor], dim=2).reshape(
+                1, -1, self.image_dim_out
+            )
+
+            sub_img = img_features[idx, 1:]
+            sub_img = sub_img[:area_ratio]
+            sub_img = (
+                sub_img.reshape(
+                    height_ratio,
+                    width_ratio,
+                    base_feat_size,
+                    base_feat_size,
+                    self.image_dim_out,
+                )
+                .transpose(1, 2)
+                .reshape(
+                    1,
+                    height_ratio * base_feat_size,
+                    width_ratio * base_feat_size,
+                    self.image_dim_out,
+                )
+                .contiguous()
+            )
+
+            if image_attention_mask is not None:
+                reshaped_image_attention_mask = (
+                    image_attention_mask[idx, 1 : area_ratio + 1, 0::2, 0::2]
+                    .reshape(height_ratio, width_ratio, base_feat_size, base_feat_size)
+                    .transpose(1, 2)
+                    .reshape(
+                        1, height_ratio * base_feat_size, width_ratio * base_feat_size
+                    )
+                )
+                useful_height = int(reshaped_image_attention_mask[0, :, 0].sum().item())
+                useful_width = int(reshaped_image_attention_mask[0, 0, :].sum().item())
+                sub_img = sub_img[:, :useful_height, :useful_width]
+                temporary_extensor = self.sub_img_feature_extensor.repeat(
+                    1, useful_height, 1, 1
+                )
+            else:
+                temporary_extensor = self.sub_img_feature_extensor.repeat(
+                    1, height_ratio * base_feat_size, 1, 1
+                )
+
+            sub_img = torch.cat([sub_img, temporary_extensor], dim=2).reshape(
+                1, -1, self.image_dim_out
+            )
+
+            # Merge global and sub
+            output_imgs.append(
+                torch.cat(
+                    [sub_img, self.global_img_feature_extensor, global_img], dim=1
+                )
+            )
+
+        img_set_tensor = []
+        for output_img in output_imgs:
+            output_img = output_img.to(device=target_device, dtype=target_dtype)
+            img_feature_proj = self.img_projection(output_img)
+            img_set_tensor.append(img_feature_proj.flatten(0, 1))
+
+        return img_set_tensor
+
+
+class Phi4MultimodalAudioMLP(nn.Module):
+    def __init__(
+        self,
+        config: Phi4MultimodalAudioConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.layer_norm = nn.LayerNorm(config.hidden_size)
+        self.act_fn = MulAndSilu()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [config.intermediate_size] * 2,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.layer_norm(hidden_states)
+        hidden_states, _ = self.gate_up_proj(hidden_states)
+        hidden_states = self.act_fn(hidden_states)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class Phi4MultimodalAudioAttention(nn.Module):
+    def __init__(
+        self,
+        config: Phi4MultimodalAudioConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.total_num_heads
+        if self.head_dim * self.total_num_heads != self.embed_dim:
+            raise ValueError(
+                "embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.embed_dim,
+            output_size=self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.num_heads = divide(self.total_num_heads, self.tp_size)
+
+    def split_attn_mask(self, attention_mask: torch.Tensor) -> torch.Tensor:
+        start_idx = self.num_heads * self.tp_rank
+        end_idx = self.num_heads * (self.tp_rank + 1)
+        return attention_mask[:, start_idx:end_idx]
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv_states, _ = self.qkv_proj(hidden_states)
+        query, key, value = qkv_states.chunk(3, dim=-1)
+
+        bsz, seq_len, _ = query.size()
+        query = query.view(bsz, seq_len, self.num_heads, self.head_dim)
+        key = key.view(bsz, seq_len, self.num_heads, self.head_dim)
+        value = value.view(bsz, seq_len, self.num_heads, self.head_dim)
+        query, key, value = (x.transpose(1, 2) for x in (query, key, value))
+
+        attention_mask = self.split_attn_mask(attention_mask)
+        out = F.scaled_dot_product_attention(
+            query,
+            key,
+            value,
+            scale=self.scale,
+            attn_mask=attention_mask,
+        )
+        out = out.transpose(1, 2).reshape(bsz, seq_len, -1)
+
+        attn_output, _ = self.o_proj(out)
+
+        return attn_output
+
+
+class Phi4MultimodalAudioConformerEncoderLayer(nn.Module):
+    def __init__(self, config: Phi4MultimodalAudioConfig):
+        super().__init__()
+
+        self.feed_forward_in = Phi4MultimodalAudioMLP(config)
+        self.self_attn = Phi4MultimodalAudioAttention(config)
+        self.conv = Phi4MultimodalAudioConvModule(config)
+        self.feed_forward_out = Phi4MultimodalAudioMLP(config)
+        self.layer_norm_att = nn.LayerNorm(config.hidden_size)
+        self.layer_norm = nn.LayerNorm(config.hidden_size)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states + 0.5 * self.feed_forward_in(hidden_states)
+        hidden_states = self.layer_norm_att(residual)
+
+        hidden_states = residual + self.self_attn(hidden_states, attention_mask)
+        hidden_states = hidden_states + self.conv(hidden_states)
+        hidden_states = hidden_states + 0.5 * self.feed_forward_out(hidden_states)
+
+        out = self.layer_norm(hidden_states)
+
+        return out
+
+
+class Phi4MMAudioMeanVarianceNormLayer(nn.Module):
+    """Mean/variance normalization layer.
+
+    Will subtract mean and multiply input by inverted standard deviation.
+    Typically used as a very first layer in a model.
+
+    Args:
+        config: [Phi4MultimodalAudioConfig](https://huggingface.co/docs/transformers/model_doc/phi4_multimodal#transformers.Phi4MultimodalAudioConfig)
+            object containing model parameters.
+    """
+
+    def __init__(self, config: Phi4MultimodalAudioConfig):
+        super().__init__()
+        self.global_mean = nn.Parameter(torch.zeros(config.input_size))
+        self.global_invstd = nn.Parameter(torch.ones(config.input_size))
+
+    def forward(self, input_: torch.Tensor) -> torch.Tensor:
+        """MeanVarianceNormLayer Forward
+
+        Args:
+            input_: torch.Tensor
+                input tensor.
+        """
+        return (input_ - self.global_mean) * self.global_invstd
+
+
+class Phi4MultimodalAudioModel(nn.Module):
+    def __init__(self, config: Phi4MultimodalAudioConfig):
+        super().__init__()
+        self.config = config
+
+        self.encoder_embedding = Phi4MMAudioMeanVarianceNormLayer(config)
+        self.embed = Phi4MultimodalAudioNemoConvSubsampling(config)
+        self.relative_attention_bias_layer = Phi4MultimodalAudioRelativeAttentionBias(
+            config
+        )
+        self.encoders = nn.ModuleList(
+            [
+                Phi4MultimodalAudioConformerEncoderLayer(config)
+                for _ in range(config.num_blocks)
+            ]
+        )
+
+    def _streaming_mask(
+        self,
+        seq_len: int,
+        batch_size: int,
+        chunk_size: int,
+        left_chunk: int,
+    ):
+        # Create mask matrix for streaming
+        # S stores start index. if chunksize is 18, s is [0,18,36,....]
+        chunk_start_idx = np.arange(0, seq_len, chunk_size)
+
+        enc_streaming_mask = (
+            adaptive_enc_mask(seq_len, chunk_start_idx, left_window=left_chunk)
+            .unsqueeze(0)
+            .expand([batch_size, -1, -1])
+        )
+        return enc_streaming_mask
+
+    def forward_embeddings(
+        self,
+        hidden_states: torch.Tensor,
+        masks: torch.Tensor,
+    ):
+        """Forwarding the inputs through the top embedding layers"""
+        seq_len = math.ceil(hidden_states.shape[1] / self.config.time_reduction)
+        if seq_len <= 0:
+            raise ValueError(
+                f"Sequence length after time reduction is invalid: {seq_len}."
+                "Your input feature is too short."
+            )
+
+        batch_size = hidden_states.shape[0]
+
+        enc_streaming_mask = self._streaming_mask(
+            seq_len, batch_size, self.config.chunk_size, self.config.left_chunk
+        )
+        enc_streaming_mask = enc_streaming_mask.to(hidden_states.device)
+
+        hidden_states, masks = self.embed(hidden_states, masks)
+
+        streaming_mask = enc_streaming_mask
+        if streaming_mask is not None and masks is not None:
+            hs_mask = masks & streaming_mask
+        elif masks is not None:
+            hs_mask = masks
+        else:
+            hs_mask = streaming_mask
+
+        return hidden_states, hs_mask, masks
+
+    def calculate_hs_mask(
+        self, hidden_states: torch.Tensor, device: torch.device, mask: torch.Tensor
+    ):
+        max_audio_length = hidden_states.shape[1]
+        batch_size = hidden_states.shape[0]
+        enc_streaming_mask = self._streaming_mask(
+            max_audio_length, batch_size, self.config.chunk_size, self.config.left_chunk
+        )
+        enc_streaming_mask = enc_streaming_mask.to(device)
+        if mask is None:
+            return enc_streaming_mask
+
+        feature_lens = mask.sum(1)
+        padding_length = feature_lens
+        pad_mask = torch.arange(0, max_audio_length, device=device).expand(
+            padding_length.size(0), -1
+        ) < padding_length.unsqueeze(1)
+        pad_mask = pad_mask.unsqueeze(1)
+        pad_mask = pad_mask & enc_streaming_mask
+        return pad_mask
+
+    def forward(self, hidden_states: torch.Tensor, mask: torch.Tensor | None = None):
+        hidden_states = self.encoder_embedding(hidden_states)
+        hidden_states, hs_mask, mask = self.forward_embeddings(hidden_states, mask)
+
+        unfolded = False
+        bs, seq_len, _ = hidden_states.shape
+        max_seq_len = 500  # maximum position for absolute positional encoding
+        if seq_len > max_seq_len:
+            # audio sequence is longer than max_seq_len,
+            # unfold it into chunks of max_seq_len
+            unfolded = True
+            # the unfold op will drop residual frames,
+            # pad it to the multiple of max_seq_len
+            if seq_len % max_seq_len > 0:
+                chunk_pad_size = max_seq_len - (seq_len % max_seq_len)
+            else:
+                chunk_pad_size = 0
+            if chunk_pad_size > 0:
+                hidden_states_pad = F.pad(
+                    hidden_states, (0, 0, 0, chunk_pad_size), "constant", 0
+                )
+                hidden_states = hidden_states_pad.to(hidden_states.device)
+
+            hidden_states = unfold_tensor(hidden_states, max_seq_len)
+            masks_unfold = None
+            if mask is not None:
+                # revise hs_mask here because the previous calculated hs_mask
+                # did not consider extra pad
+                subsampled_pad_mask = mask.squeeze(1)  # [bz, subsampled_unmask_seq_len]
+                extra_padded_subsamlped_pad_mask = F.pad(
+                    subsampled_pad_mask, (0, chunk_pad_size), "constant", False
+                )  # extra padding to the pad mask
+                extra_padded_subsamlped_pad_mask = (
+                    extra_padded_subsamlped_pad_mask.unsqueeze(-1).float()
+                )
+                masks_unfold = unfold_tensor(
+                    extra_padded_subsamlped_pad_mask, max_seq_len
+                )  # unfold the pad mask like we did to the input tensor
+                masks_unfold = masks_unfold.squeeze(
+                    -1
+                ).bool()  # unfold op does not support bool tensor
+            hs_mask = self.calculate_hs_mask(
+                hidden_states, hidden_states.device, masks_unfold
+            )  # calculate hs_mask based on the unfolded pad mask
+
+        relative_attention_bias = self.relative_attention_bias_layer(hidden_states)
+        attention_mask = hs_mask.unsqueeze(1) + relative_attention_bias
+
+        for layer in self.encoders:
+            hidden_states = layer(hidden_states, attention_mask)
+
+        if unfolded:
+            embed_dim = hidden_states.shape[-1]
+            hidden_states = hidden_states.reshape(bs, -1, embed_dim)
+            # if we ever padded before unfolding, we need to remove the padding
+            if chunk_pad_size > 0:
+                hidden_states = hidden_states[:, :-chunk_pad_size, :]
+
+        return hidden_states
+
+
+class Phi4MMAudioEmbedding(nn.Module):
+    def __init__(self, config: Phi4MultimodalConfig):
+        super().__init__()
+        self.config = config
+        self.layer_idx = config.audio_config.feature_layer
+
+        self.encoder = Phi4MultimodalAudioModel(config.audio_config)
+
+        audio_config = config.audio_config
+        proj_input_size = audio_config.hidden_size * audio_config.downsample_rate
+        self.vision_speech_projection = Phi4MMProjector(
+            proj_input_size, config.hidden_size
+        )
+        self.speech_projection = Phi4MMProjector(proj_input_size, config.hidden_size)
+
+    def get_projection(
+        self,
+        audio_projection_mode: Literal["speech", "vision"],
+    ) -> Phi4MMProjector:
+        if audio_projection_mode == "speech":
+            return self.speech_projection
+        elif audio_projection_mode == "vision":
+            return self.vision_speech_projection
+
+    def forward(
+        self,
+        audio_input_features: torch.FloatTensor,
+        audio_embed_sizes=None,
+        audio_attention_mask=None,
+        audio_projection_mode="speech",
+    ) -> torch.FloatTensor:
+        audio_projection = self.get_projection(audio_projection_mode)
+
+        target_device = audio_projection.up.bias.device
+        target_dtype = audio_projection.up.bias.dtype
+
+        audio_input_features = audio_input_features.to(
+            device=target_device, dtype=target_dtype
+        )
+
+        audio_encoder_hidden_states = self.encoder(
+            audio_input_features, audio_attention_mask
+        )
+        audio_embeds = audio_projection(audio_encoder_hidden_states)
+
+        return audio_embeds.flatten(0, 1)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Phi4MMImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - p: Number of patches (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height of each image patch
+        - w: Width of each image patch
+        - nc: Number of crops
+        - H_mask: Height of attention mask
+        - W_mask: Width of attention mask
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape(
+            "bn", "p", 3, "h", "w", dynamic_dims={"p"}
+        ),  # may be different per batch and image
+    ]
+
+    image_sizes: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 2),  # (height, width)
+    ]
+
+    num_img_tokens: Annotated[
+        list[int],
+        TensorShape("bn"),
+    ]
+
+    image_attention_mask: Annotated[
+        torch.Tensor,
+        TensorShape("bn", "nc", 32, 32),  # H_mask, W_mask
+    ]
+
+
+class Phi4MMImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - f: Image feature size
+        - h: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["image_embeds"]
+
+    data: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "f", "h"),
+    ]
+
+
+class Phi4MMAudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of audios
+        - f: Number of Mel filterbank bins (80)
+        - t: Time frames (M)
+    """
+
+    type: Literal["audio_features"]
+
+    audio_features: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "t", 80, dynamic_dims={"t"}),
+    ]
+
+
+class Phi4MMAudioEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of audios
+        - f: Audio feature size
+        - h: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["audio_embeds"]
+
+    data: Annotated[
+        NestedTensors,
+        TensorShape("b", "n", "f", "h"),
+    ]
+
+
+Phi4MMImageInput: TypeAlias = Phi4MMImagePixelInputs | Phi4MMImageEmbeddingInputs
+Phi4MMAudioInputs: TypeAlias = Phi4MMAudioFeatureInputs | Phi4MMAudioEmbeddingInputs
+
+
+def cat_with_pad(tensors, dim, padding_value=0):
+    """
+    cat along dim, while pad to max for all other dims
+    """
+    ndim = tensors[0].dim()
+    assert all(t.dim() == ndim for t in tensors[1:]), (
+        "All tensors must have the same number of dimensions"
+    )
+
+    out_size = [max(t.shape[i] for t in tensors) for i in range(ndim)]
+    out_size[dim] = sum(t.shape[dim] for t in tensors)
+    output = tensors[0].new_full(out_size, padding_value)
+
+    index = 0
+    for t in tensors:
+        # Create a slice list where every dimension except dim is full slice
+        slices = [slice(0, t.shape[d]) for d in range(ndim)]
+        # Update only the concat dimension slice
+        slices[dim] = slice(index, index + t.shape[dim])
+
+        output[slices] = t
+        index += t.shape[dim]
+
+    return output
+
+
+class Phi4MMProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> Phi4MultimodalConfig:
+        return self.ctx.get_hf_config(Phi4MultimodalConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Phi4MMProcessor:
+        return self.ctx.get_hf_processor(Phi4MMProcessor, **kwargs)
+
+    def get_feature_extractor(self, **kwargs: object) -> Phi4MultimodalFeatureExtractor:
+        return self.get_hf_processor(**kwargs).audio_processor
+
+    def get_image_processor(
+        self,
+        processor: Phi4MMProcessor | None = None,
+    ) -> Phi4MultimodalImageProcessorFast:
+        if processor is None:
+            processor = self.get_hf_processor()
+        return processor.image_processor
+
+    def get_dynamic_hd(
+        self,
+        processor: Phi4MMProcessor | None = None,
+    ) -> int:
+        return self.get_image_processor(processor).dynamic_hd
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None, "image": None}
+
+    def _find_target_aspect_ratio(
+        self,
+        orig_width: int,
+        orig_height: int,
+        image_size: int,
+        max_num: int,
+        min_num: int,
+    ):
+        w_crop_num = math.ceil(orig_width / float(image_size))
+        h_crop_num = math.ceil(orig_height / float(image_size))
+        if w_crop_num * h_crop_num > max_num:
+            aspect_ratio = orig_width / orig_height
+
+            # calculate the existing image aspect ratio
+            target_ratios = set(
+                (i, j)
+                for i in range(1, max_num + 1)
+                for j in range(1, max_num + 1)
+                if i * j <= max_num and i * j >= min_num
+            )
+            target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+            # find the closest aspect ratio to the target
+            image_processor = self.get_image_processor()
+            target_aspect_ratio = image_processor.find_closest_aspect_ratio(
+                aspect_ratio,
+                target_ratios,
+                orig_width,
+                orig_height,
+                image_size,
+            )
+
+            # calculate the target width and height
+            target_width = image_size * target_aspect_ratio[0]
+            target_height = image_size * target_aspect_ratio[1]
+        else:
+            target_width = image_size * w_crop_num
+            target_height = image_size * h_crop_num
+            target_aspect_ratio = (w_crop_num, h_crop_num)
+        return target_aspect_ratio, target_height, target_width
+
+    def _compute_num_image_tokens(
+        self,
+        orig_width: int,
+        orig_height: int,
+        dynamic_hd_size: int,
+        vit_image_size: int,
+        vit_patch_size: int,
+        token_compression_factor: int = 2,
+    ):
+        """
+        compute the number of tokens an image is expected to take up considering
+        the image encoder architecture and exclude output features containing
+        only padding pixels
+
+        for siglip, vit_image_size=448, vit_patch_size=14, so output will be
+        32x32 feature map
+        NOTE right now, Phi4MM uses hard-coded token_compression_factor=2
+        """
+        assert vit_image_size % vit_patch_size == 0, (
+            "vit_image_size must be divisible by vit_patch_size"
+        )
+        assert vit_image_size // vit_patch_size % token_compression_factor == 0, (
+            "vit_image_size // vit_patch_size must be divisible by "
+            "token_compression_factor"
+        )
+
+        target_aspect_ratio, target_height, target_width = (
+            self._find_target_aspect_ratio(
+                orig_width, orig_height, vit_image_size, dynamic_hd_size, min_num=1
+            )
+        )
+        assert target_aspect_ratio[0] * vit_image_size == target_width, (
+            f"{target_aspect_ratio[0]} * {vit_image_size} != {target_width}"
+        )
+        assert target_aspect_ratio[1] * vit_image_size == target_height, (
+            f"{target_aspect_ratio[1]} * {vit_image_size} != {target_height}"
+        )
+        assert (
+            target_height % vit_image_size == 0 and target_width % vit_image_size == 0
+        )
+
+        padding_height, padding_width = _get_padding_size(
+            orig_width, orig_height, target_height, target_width
+        )
+        assert padding_width == 0 or padding_height == 0, (
+            "padding_width or padding_height must be 0"
+        )
+
+        target_feat_width = target_width // vit_patch_size
+        target_feat_height = target_height // vit_patch_size
+        if padding_width >= vit_patch_size:
+            assert padding_height == 0, "padding_height not 0"
+            non_pad_feat_width = target_feat_width - math.floor(
+                padding_width / vit_patch_size
+            )
+            non_pad_feat_height = target_feat_height
+        elif padding_height >= vit_patch_size:
+            assert padding_width == 0, "padding_width not 0"
+            non_pad_feat_height = target_feat_height - math.floor(
+                padding_height / vit_patch_size
+            )
+            non_pad_feat_width = target_feat_width
+        else:
+            # small padding shorter than a vit patch
+            non_pad_feat_width = target_feat_width
+            non_pad_feat_height = target_feat_height
+
+        feat_width = non_pad_feat_width // token_compression_factor
+        feat_height = non_pad_feat_height // token_compression_factor
+        # NOTE it's possible that the non-padding feature is not divisible
+        if non_pad_feat_width % token_compression_factor != 0:
+            feat_width += 1
+        if non_pad_feat_height % token_compression_factor != 0:
+            feat_height += 1
+        num_hd_patch_tokens = feat_width * feat_height
+        num_hd_newline_tokens = feat_height
+        vit_feature_size = vit_image_size // vit_patch_size
+        num_global_image_tokens = (vit_feature_size // token_compression_factor) ** 2
+        num_sep_tokens = 1
+        num_global_image_newline_tokens = vit_feature_size // token_compression_factor
+
+        return (
+            num_global_image_tokens
+            + num_sep_tokens
+            + num_hd_patch_tokens
+            + num_hd_newline_tokens
+            + num_global_image_newline_tokens
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: Phi4MMProcessor | None = None,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        vit_image_size = vision_config.image_size
+        vit_patch_size = vision_config.patch_size
+
+        dynamic_hd_size = self.get_dynamic_hd(processor=processor)
+
+        # we use default `token_compression_factor=2`,
+        # since it's not in HF vision config.
+        image_num_tokens = self._compute_num_image_tokens(
+            image_width,
+            image_height,
+            dynamic_hd_size=dynamic_hd_size,
+            vit_image_size=vit_image_size,
+            vit_patch_size=vit_patch_size,
+        )
+
+        return image_num_tokens
+
+    def get_image_size_with_most_features(
+        self,
+        processor: Phi4MMProcessor | None = None,
+    ) -> ImageSize:
+        vit_image_size = self.get_hf_config().vision_config.image_size
+
+        max_side = vit_image_size * self.get_dynamic_hd(processor=processor)
+        return ImageSize(height=max_side, width=vit_image_size)
+
+    def get_audio_num_frames(self, audio_len: int, sr: float) -> int:
+        """
+        Compute the output size of the `extract_features` method.
+
+        Args:
+            audio_len (int): Length of the input waveform in samples.
+            sr (float): Sampling rate of the waveform, either 16000 or 8000.
+
+        Returns:
+            tuple (int, int): Output size as (T, D), where:
+                T: Number of time frames.
+                D: Number of Mel filterbank bins (80).
+        """
+
+        # Resample to 16000 or 8000 if needed
+        if sr > 16000:
+            audio_len //= sr // 16000
+        elif 8000 <= sr < 16000:
+            # We'll resample to 16K from 8K
+            audio_len *= 2
+        elif sr < 8000:
+            raise RuntimeError(f"Unsupported sample rate {sr}")
+
+        # Spectrogram parameters for 16 kHz
+        win_length = 400  # Frame length in samples
+        hop_length = 160  # Frame shift in samples
+
+        # Calculate number of frames (T)
+        num_frames = (audio_len - win_length) // hop_length + 1
+        if num_frames < 1:
+            raise ValueError("Waveform too short for given parameters.")
+
+        # Return time frames (T)
+        return num_frames
+
+    def _compute_audio_embed_size(self, audio_frames: int) -> int:
+        """
+        Compute the size of audio embeddings from the number of audio frames.
+        """
+        # `_compute_audio_embed_size` in audio_processor use torch for
+        # computation, therefore we re-implement it to use pythonic
+        # numeric computation to avoid extra tensor conversion.
+        audio_processor = self.get_feature_extractor()
+        audio_compression_rate = audio_processor.audio_compression_rate
+        audio_downsample_rate = audio_processor.audio_downsample_rate
+
+        integer = audio_frames // audio_compression_rate
+        remainder = audio_frames % audio_compression_rate
+        result = integer + int(remainder > 0)
+
+        integer = result // audio_downsample_rate
+        remainder = result % audio_downsample_rate
+        result = integer + int(remainder > 0)  # qformer compression
+
+        return result
+
+
+class Phi4MMDummyInputsBuilder(BaseDummyInputsBuilder[Phi4MMProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+
+        tokenizer = self.info.get_tokenizer()
+        image_tokens: str = tokenizer.image_token * num_images
+        audio_tokens: str = tokenizer.audio_token * num_audios
+
+        return image_tokens + audio_tokens
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        mm_data = {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "audio": self._get_dummy_audios(
+                length=_AUDIO_MAX_SOUNDFILE_SIZE,
+                num_audios=num_audios,
+                overrides=audio_overrides,
+            ),
+        }
+
+        return mm_data
+
+
+class Phi4MMMultiModalProcessor(BaseMultiModalProcessor[Phi4MMProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return MultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        audio_data = mm_data.pop("audios", [])
+        if audio_data:
+            mm_data["audio"] = audio_data
+
+        processed_outputs = super()._call_hf_processor(
+            prompt, mm_data, mm_kwargs, tok_kwargs
+        )
+
+        if "image_pixel_values" in processed_outputs:
+            num_img_tokens = [
+                self.info.get_num_image_tokens(
+                    image_width=img_size[0], image_height=img_size[1]
+                )
+                for img_size in processed_outputs["image_sizes"]
+            ]
+            processed_outputs["num_img_tokens"] = num_img_tokens
+
+        if audio_data:
+            audio_features = processed_outputs["audio_input_features"]
+            sr = self.info.get_feature_extractor(**mm_kwargs).sampling_rate
+            feature_sizes = [
+                self.info.get_audio_num_frames(len(audio), sr) for audio in audio_data
+            ]
+            processed_outputs["audio_input_features"] = [
+                audio_features[idx, :size] for idx, size in enumerate(feature_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            image_pixel_values=MultiModalFieldConfig.batched("image"),
+            image_attention_mask=MultiModalFieldConfig.batched("image"),
+            image_sizes=MultiModalFieldConfig.batched("image"),
+            num_img_tokens=MultiModalFieldConfig.batched("image"),
+            audio_input_features=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        tokenizer = self.info.get_tokenizer()
+        image_token_id: int = tokenizer.vocab[tokenizer.image_token]
+        audio_token_id: int = tokenizer.vocab[tokenizer.audio_token]
+
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        audio_processor = self.info.get_feature_extractor(**hf_processor_mm_kwargs)
+
+        def get_image_replacement_phi4mm(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            return [image_token_id] * num_image_tokens
+
+        def get_audio_replacement_phi4mm(item_idx: int):
+            audios = mm_items.get_items("audio", AudioProcessorItems)
+            # TODO(Isotr0py): support embedding inputs
+            audio_len = audios.get_audio_length(item_idx)
+            audio_frames = self.info.get_audio_num_frames(
+                audio_len, audio_processor.sampling_rate
+            )
+            audio_embed_size = self.info._compute_audio_embed_size(audio_frames)
+
+            return [audio_token_id] * audio_embed_size
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=[audio_token_id],
+                replacement=get_audio_replacement_phi4mm,
+            ),
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_image_replacement_phi4mm,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Phi4MMMultiModalProcessor,
+    info=Phi4MMProcessingInfo,
+    dummy_inputs=Phi4MMDummyInputsBuilder,
+)
+class Phi4MultimodalForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
+    """
+    Implements the Phi-4-multimodal-instruct model in vLLM.
+    """
+
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "qkv_proj",
+        ],
+        "gate_up_proj": [
+            "gate_up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # Multimodal embedding
+            "model.embed_tokens_extend.": "",
+            # LLM backbone
+            "model.": "language_model.model.",
+        },
+        orig_to_new_substr={
+            # projection
+            ".img_projection_": ".img_projection.",
+            ".up_proj_for_speech.": ".speech_projection.up.",
+            ".up_proj_for_vision_speech.": ".vision_speech_projection.up.",
+            ".down_proj_for_speech.": ".speech_projection.down.",
+            ".down_proj_for_vision_speech.": ".vision_speech_projection.down.",
+        },
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|image|>"
+        if modality.startswith("audio"):
+            return "<|audio|>"
+
+        raise ValueError("Only image or audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # TODO: Optionally initializes these for supporting input embeddings.
+        self.image_embed = Phi4MMImageEmbedding(
+            config,
+            # prefix=maybe_prefix(prefix, "image_embed"),
+        )
+        self.audio_embed = Phi4MMAudioEmbedding(
+            config,
+            # prefix=maybe_prefix(prefix, "audio_embed"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Phi3ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> Phi4MMAudioInputs | None:
+        """
+        Parse and validate the audio input to the model.  This handles both
+        audio features and audio embeddings, but only the former is used for
+        now.
+
+        Args:
+            kwargs (object): Keyword arguments.
+
+        Returns:
+            Optional[Phi4MMAudioInputs]: Parsed and validated audio inputs.
+        """
+        audio_features = kwargs.pop("audio_input_features", None)
+        audio_embeds = kwargs.pop("audio_embeds", None)
+
+        if audio_features is None and audio_embeds is None:
+            return None
+
+        if audio_features is not None:
+            return Phi4MMAudioFeatureInputs(
+                type="audio_features",
+                audio_features=audio_features,
+            )
+
+        if audio_embeds is not None:
+            return Phi4MMAudioEmbeddingInputs(type="audio_embeds", data=audio_embeds)
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_audio_input(
+        self, audio_input: Phi4MMAudioInputs, audio_projection_mode: str
+    ) -> NestedTensors:
+        """
+        Create the audio embeddings from the audio input, where the audio input
+        is pairs of audio features and audio embed lengths.  The audio input is
+        created by `input_mapper_for_phi4mm_audio`.
+
+        Args:
+            audio_input (Phi4MMAudioInputs): Audio input.
+
+        Returns:
+            NestedTensors: Audio embeddings
+        """
+        if audio_input["type"] == "audio_embeds":
+            return audio_input["data"]
+
+        audio_features = audio_input["audio_features"]
+        # (e.g. multiple examples) and the second dim is the multi-audio dim
+        # (e.g. multiple audios in the same example)
+
+        dtype = next(self.audio_embed.parameters()).dtype
+        audio_embeds = [
+            self.audio_embed(
+                features.unsqueeze(0).to(dtype),
+                audio_projection_mode=audio_projection_mode,
+            )
+            for features in audio_features
+        ]
+        return audio_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Phi4MMImagePixelInputs | None:
+        pixel_values = kwargs.get("image_pixel_values")
+        if pixel_values is None:
+            return None
+
+        image_sizes = kwargs.get("image_sizes")
+        image_attention_mask = kwargs.get("image_attention_mask")
+        num_img_tokens = kwargs.get("num_img_tokens")
+        assert (
+            image_sizes is not None
+            and image_attention_mask is not None
+            and num_img_tokens is not None
+        ), "Missing image inputs"
+
+        return Phi4MMImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            image_sizes=image_sizes,
+            image_attention_mask=image_attention_mask,
+            num_img_tokens=num_img_tokens,
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("image_pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key in ("audio_input_features", "audio_embeds")
+                and "audios" not in modalities
+            ):
+                modalities["audios"] = self._parse_and_validate_audio_input(**kwargs)
+
+        return modalities
+
+    def _process_image_input(
+        self, image_input: Phi4MMImagePixelInputs
+    ) -> list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"].type(self.visual.dtype)
+        else:
+            dtype = next(self.image_embed.parameters()).dtype
+            pixel_values = image_input["pixel_values"].to(dtype)
+            image_sizes = image_input["image_sizes"]
+            image_attention_mask = image_input["image_attention_mask"]
+            image_embeds = self.image_embed(
+                pixel_values, image_sizes, image_attention_mask
+            )
+        return image_embeds
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        audio_projection_mode = "speech"
+        for modality in modalities:
+            # make sure process images first
+            if modality == "images":
+                audio_projection_mode = "vision"
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "audios":
+                audio_input = modalities["audios"]
+                audio_embeddings = self._process_audio_input(
+                    audio_input, audio_projection_mode=audio_projection_mode
+                )
+                multimodal_embeddings += tuple(audio_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model.",
+            connector=[
+                "img_projection",
+                "vision_speech_projection",
+                "speech_projection",
+            ],
+            tower_model=["image_embed", "audio_embed"],
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
diff --git a/model_executor/models/phi4mm.py b/model_executor/models/phi4mm.py
new file mode 100644
index 0000000..8425549
--- /dev/null
+++ b/model_executor/models/phi4mm.py
@@ -0,0 +1,1253 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    PretrainedConfig,
+    ProcessorMixin,
+    SequenceFeatureExtractor,
+    SiglipVisionConfig,
+)
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+)
+from vllm.model_executor.models.llama import LlamaModel
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    ResolvedPromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .idefics2_vision_model import Idefics2VisionTransformer
+from .interfaces import MultiModalEmbeddings, SupportsLoRA, SupportsMultiModal
+from .phi4mm_audio import AudioEmbedding
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+
+# <|endoftext10|> (see vocab.json in hf model)
+_IMAGE_PLACEHOLDER_TOKEN_ID = 200010
+# <|endoftext11|>
+_AUDIO_PLACEHOLDER_TOKEN_ID = 200011
+
+_AUDIO_MAX_SOUNDFILE_SIZE = 241_000
+
+SIGLIP_NAME = "siglip-so400m-patch14-448"
+VISION_ENCODER_TO_PROCESSING_CONFIG = {
+    "siglip-so400m-patch14-448": {
+        "vit_image_size": 448,
+        "vit_patch_size": 14,
+        "token_compression_factor": 2,
+    },
+}
+
+
+def _get_padding_size(
+    orig_width: int, orig_height: int, target_height: int, target_width: int
+):
+    ratio_width = target_width / orig_width
+    ratio_height = target_height / orig_height
+
+    if ratio_width < ratio_height:
+        padding_width = 0
+        padding_height = target_height - int(orig_height * ratio_width)
+    else:
+        padding_width = target_width - int(orig_width * ratio_height)
+        padding_height = 0
+    return padding_height, padding_width
+
+
+def get_navit_vision_model(layer_idx: int = -1, **kwargs):
+    vision_config = {
+        "hidden_size": 1152,
+        "image_size": 448,
+        "intermediate_size": 4304,
+        "model_type": "siglip_vision_model",
+        "num_attention_heads": 16,
+        "num_hidden_layers": 27,
+        "patch_size": 14,
+    }
+
+    model_config = SiglipVisionConfig(**vision_config, **kwargs)
+    if layer_idx < 0:
+        num_hidden_layers = model_config.num_hidden_layers + layer_idx + 1
+    else:
+        num_hidden_layers = layer_idx + 1
+
+    vision_model = Idefics2VisionTransformer(
+        config=model_config,
+        require_post_norm=False,
+        num_hidden_layers_override=num_hidden_layers,
+    )
+
+    return vision_model
+
+
+class Phi4MMImageEncoder(nn.Module):
+    """Image embedding."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str = "",
+        model_dir: str = "",
+    ) -> None:
+        super().__init__()
+
+        # n_embed or hidden_size
+        hidden_size = config.n_embd if hasattr(config, "n_embd") else config.hidden_size
+
+        # layer_idx to output the img features
+        if isinstance(config.img_processor, dict):
+            self.layer_idx = config.img_processor.get("layer_idx", -2)
+            self.type_feature = config.img_processor.get("type_feature", "patch")
+        else:
+            self.layer_idx = -2
+            self.type_feature = "patch"
+
+        self.img_processor = get_navit_vision_model(layer_idx=self.layer_idx)
+
+        pe_weight = self.img_processor.embeddings.position_embedding.weight
+        L, D = pe_weight.size()
+        H = int(math.sqrt(L))
+        assert H**2 == L, f"position embedding size {L} is not square"
+        if H % 2 != 0:
+            self.img_processor_padding = nn.ReflectionPad2d((0, 1, 0, 1))
+            H += 1
+        image_dim_out = D
+        # ((448/14)//2)**2
+        self.num_img_tokens = (H // 2) ** 2
+        self.base_feat_height_target = H
+
+        self.image_dim_out = image_dim_out
+        self.img_sizes = None
+        self.image_attention_mask = None
+
+        # global_gn and sub_gn for hd transform, serves as line separator
+        self.use_hd_transform = True
+        self.with_learnable_separator = True
+        self.hd_transform_order = "sub_glb"
+        self.freeze_img_processor = False
+        self.crop_size = 448
+
+        # image token compression
+        self.image_token_compression_cls = "avg_pool_2d"
+        self.image_token_compression = nn.AvgPool2d(kernel_size=2, stride=2)
+        self.base_feat_height_reduction = 1
+        self.base_feat_height_target = self.base_feat_height_target // 2
+
+        # with_hd_transform and with_learnable_separator should have same value
+        assert self.use_hd_transform == self.with_learnable_separator, (
+            "use_hd_transform and with_learnable_separator should have same value"
+        )
+        assert self.use_hd_transform, "learnable separator is only for hd transform"
+        # 1024 * 4, merge spatial to channel dimension
+        self.glb_GN = nn.Parameter(
+            torch.zeros([1, 1, self.image_dim_out * self.base_feat_height_reduction**2])
+        )
+        self.sub_GN = nn.Parameter(
+            torch.zeros(
+                [1, 1, 1, self.image_dim_out * self.base_feat_height_reduction**2]
+            )
+        )
+
+        dim_projection = hidden_size
+        depth = 2
+        layers = [
+            nn.Linear(
+                image_dim_out * self.base_feat_height_reduction**2, dim_projection
+            )
+        ]
+        for _ in range(1, depth):
+            layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+        self.img_projection = nn.Sequential(*layers)
+
+        self.vocab_size = config.vocab_size
+        self.img_features = None
+
+        self.use_out_place_operations = False
+
+    def get_img_features(
+        self, img_embeds: torch.FloatTensor, attention_mask=None
+    ) -> torch.FloatTensor:
+        img_feature = self.img_processor(
+            img_embeds, patch_attention_mask=attention_mask
+        )
+
+        if self.type_feature == "patch":
+            patch_feature = img_feature
+
+            use_token_compression = self.image_token_compression is not None
+            use_padding = getattr(self, "img_processor_padding", None) is not None
+            if use_token_compression or use_padding:
+                # reshape to 2D tensor
+                width = int(math.sqrt(patch_feature.size(1)))
+                patch_feature = patch_feature.view(
+                    -1, width, width, patch_feature.size(-1)
+                )
+                # convert to NCHW
+                patch_feature = patch_feature.permute(0, 3, 1, 2)
+
+                if use_padding:
+                    patch_feature = self.img_processor_padding(patch_feature)
+                if use_token_compression:
+                    patch_feature = self.image_token_compression(patch_feature)
+
+                # convert to NHWC
+                patch_feature = patch_feature.permute(0, 2, 3, 1)
+                patch_feature = patch_feature.view(
+                    -1,
+                    patch_feature.size(1) * patch_feature.size(2),
+                    patch_feature.size(-1),
+                )
+
+            return patch_feature
+
+        raise NotImplementedError
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        image_sizes: torch.Tensor,
+        image_attention_mask: torch.Tensor,
+    ) -> list[torch.FloatTensor]:
+        """
+        process image and return vision embeddings.
+
+        pixel_values: (num_images, num_crops, c, h, w)
+        image_sizes: [[h1, w1], [h2, w2]]
+        image_attention_mask: num_images x num_crops x 32 x 32
+        output: (num_images, num_img_tokens, hidden_size)
+        """
+
+        # eg
+        # pixel_values: torch.Size([1, 7, 3, 448, 448])
+        # image_sizes: tensor([[ 896, 1344]], device='cuda:0')
+        # output: torch.Size([1, 1841, 3072])
+
+        if isinstance(self.img_projection, nn.Sequential):
+            target_device = self.img_projection[0].bias.device
+            target_dtype = self.img_projection[0].bias.dtype
+        else:  # It's a single nn.Linear layer
+            target_device = self.img_projection.bias.device
+            target_dtype = self.img_projection.bias.dtype
+
+        img_sizes = image_sizes
+        num_images, num_crops, c, h, w = pixel_values.shape
+        bs = num_images
+        pixel_values = pixel_values.flatten(0, 1)
+
+        img_features = self.get_img_features(
+            pixel_values,
+            image_attention_mask.type(torch.BoolTensor).flatten(0, 1).to(target_device),
+        )
+
+        base_feat_height_target = self.base_feat_height_target
+        base_resolution = self.crop_size
+        base_feat_height_reduction = self.base_feat_height_reduction
+
+        base_feat_height = base_feat_width = int(np.sqrt(img_features.shape[1]))
+        assert (
+            base_feat_height == base_feat_height_target
+            and base_feat_width == base_feat_height_target
+        ), (
+            f"base_feat_height: {base_feat_height}, "
+            f"base_feat_width: {base_feat_width}, "
+            f"expect {base_feat_height_target} features for hd transform"
+        )
+
+        # bs x max_num_crops x (24x24) x C
+        img_features = img_features.view(
+            bs, -1, base_feat_height * base_feat_width, self.image_dim_out
+        )
+        C = self.image_dim_out
+        H = base_feat_height
+
+        output_imgs = []
+        output_len = []
+        # training is tensor, inference is list
+        if isinstance(img_sizes, torch.Tensor):
+            img_sizes = img_sizes.view(-1, 2)
+        for _bs in range(bs):
+            h, w = img_sizes[_bs]
+            h = h // base_resolution
+            w = w // base_resolution
+            B_ = h * w
+
+            # 1 x (24x24) x 1024
+            global_img_feature = img_features[_bs, :1]
+
+            # 1 x 12 x 12 x 4096
+            glb_img = (
+                global_img_feature.reshape(1, H, H, C)
+                .reshape(
+                    1,
+                    H // base_feat_height_reduction,
+                    base_feat_height_reduction,
+                    H // base_feat_height_reduction,
+                    base_feat_height_reduction,
+                    C,
+                )
+                .contiguous()
+                .permute(0, 1, 3, 2, 4, 5)
+                .reshape(
+                    1,
+                    H // base_feat_height_reduction,
+                    H // base_feat_height_reduction,
+                    base_feat_height_reduction * base_feat_height_reduction * C,
+                )
+                .contiguous()
+            )
+            temp_glb_GN = self.sub_GN.repeat(1, H // base_feat_height_reduction, 1, 1)
+
+            # 1 x 156 x 4096
+            glb_img = torch.cat([glb_img, temp_glb_GN], dim=2).reshape(
+                1, -1, base_feat_height_reduction * base_feat_height_reduction * C
+            )
+
+            # (max_num_crops-1) x (12x12) x C
+            sub_img = img_features[_bs, 1:]
+            # 16x574x1024
+            # get rid of padding sub_img
+            sub_img = sub_img[:B_]
+
+            # (num_crops, 12, 2, 12, 2, 1024) ->
+            # (num_crops, 12, 12, 2, 2, 1024) -> (num_crops, 12*12, 4*1024)
+            sub_img = (
+                sub_img.reshape(B_, H, H, C)
+                .reshape(
+                    B_,
+                    H // base_feat_height_reduction,
+                    base_feat_height_reduction,
+                    H // base_feat_height_reduction,
+                    base_feat_height_reduction,
+                    C,
+                )
+                .contiguous()
+                .permute(0, 1, 3, 2, 4, 5)
+                .reshape(
+                    B_, -1, base_feat_height_reduction * base_feat_height_reduction * C
+                )
+                .contiguous()
+            )
+            sub_img = (
+                sub_img.reshape(
+                    1,
+                    h,
+                    w,
+                    base_feat_height // base_feat_height_reduction,
+                    base_feat_width // base_feat_height_reduction,
+                    -1,
+                )
+                .permute(0, 1, 3, 2, 4, 5)
+                .reshape(
+                    1,
+                    h * base_feat_height // base_feat_height_reduction,
+                    w * base_feat_width // base_feat_height_reduction,
+                    base_feat_height_reduction * base_feat_height_reduction * C,
+                )
+            )
+
+            if image_attention_mask is not None and len(image_attention_mask) > 0:
+                reshaped_image_attention_mask = (
+                    image_attention_mask[_bs, 1 : B_ + 1, 0::2, 0::2]
+                    .reshape(
+                        1,
+                        h,
+                        w,
+                        base_feat_height // base_feat_height_reduction,
+                        base_feat_width // base_feat_height_reduction,
+                    )
+                    .permute(0, 1, 3, 2, 4)
+                    .reshape(
+                        1,
+                        h * base_feat_height // base_feat_height_reduction,
+                        w * base_feat_width // base_feat_height_reduction,
+                    )
+                )
+                useful_height = int(reshaped_image_attention_mask[0, :, 0].sum().item())
+                useful_width = int(reshaped_image_attention_mask[0, 0, :].sum().item())
+                sub_img = sub_img[:, :useful_height, :useful_width]
+                temp_sub_GN = self.sub_GN.repeat(1, useful_height, 1, 1)
+                temp_len = (
+                    int(image_attention_mask[_bs, : B_ + 1, 0::2, 0::2].sum().item())
+                    + (useful_height + 1)
+                    + base_feat_height // base_feat_height_reduction
+                )
+            else:
+                temp_sub_GN = self.sub_GN.repeat(
+                    1, h * base_feat_height // base_feat_height_reduction, 1, 1
+                )
+                temp_len = int(
+                    (h * w + 1) * self.num_img_tokens
+                    + 1
+                    + (h + 1) * base_feat_height // base_feat_height_reduction
+                )
+
+            sub_img = torch.cat([sub_img, temp_sub_GN], dim=2).reshape(
+                1, -1, base_feat_height_reduction * base_feat_height_reduction * C
+            )
+            # (1, num_img_tokens, 1024*4)
+
+            # glb + sub
+            if self.hd_transform_order == "glb_sub":
+                output_imgs.append(torch.cat([glb_img, self.glb_GN, sub_img], dim=1))
+            elif self.hd_transform_order == "sub_glb":
+                output_imgs.append(torch.cat([sub_img, self.glb_GN, glb_img], dim=1))
+            else:
+                raise NotImplementedError(
+                    f'hd_transform_order = {self.hd_transform_order}, "\
+                        "not implemented'
+                )
+
+            # temp_len = int((h*w+1)*144 + 1 + (h+1)*12)
+            assert temp_len == output_imgs[-1].shape[1], (
+                f'temp_len: {temp_len}, output_imgs[-1].shape[1]: "\
+                    "{output_imgs[-1].shape[1]}'
+            )
+
+            output_len.append(temp_len)
+
+        img_set_tensor = []
+        for _output_img in output_imgs:
+            img_feature_proj = self.img_projection(
+                _output_img.to(target_device).to(target_dtype)
+            )
+            img_set_tensor.append(img_feature_proj.squeeze(0))
+
+        return img_set_tensor
+
+
+class Phi4MMImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - p: Number of patches (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height of each image patch
+        - w: Width of each image patch
+        - nc: Number of crops
+        - H_mask: Height of attention mask
+        - W_mask: Width of attention mask
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape(
+            "bn", "p", 3, "h", "w", dynamic_dims={"p"}
+        ),  # may be different per batch and image
+    ]
+
+    image_sizes: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 2),  # (height, width)
+    ]
+
+    num_img_tokens: Annotated[
+        list[int],
+        TensorShape("bn"),
+    ]
+
+    image_attention_mask: Annotated[
+        torch.Tensor,
+        TensorShape("bn", "nc", 32, 32),  # H_mask, W_mask
+    ]
+
+
+class Phi4MMAudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of audios
+        - t: Time frames (M)
+    """
+
+    type: Literal["audio_features"]
+
+    audio_features: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", "t", 80, dynamic_dims={"t"}),
+    ]
+
+
+class Phi4MMAudioEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - n: Number of audios
+        - f: Audio feature size
+        - h: Hidden size (must match language model backbone)
+    """
+
+    type: Literal["audio_embeds"]
+    data: Annotated[
+        NestedTensors,
+        TensorShape("b", "n", "f", "h"),
+    ]
+
+
+Phi4MMAudioInputs: TypeAlias = Phi4MMAudioFeatureInputs | Phi4MMAudioEmbeddingInputs
+
+
+def cat_with_pad(tensors, dim, padding_value=0):
+    """
+    cat along dim, while pad to max for all other dims
+    """
+    ndim = tensors[0].dim()
+    assert all(t.dim() == ndim for t in tensors[1:]), (
+        "All tensors must have the same number of dimensions"
+    )
+
+    out_size = [max(t.shape[i] for t in tensors) for i in range(ndim)]
+    out_size[dim] = sum(t.shape[dim] for t in tensors)
+    output = tensors[0].new_full(out_size, padding_value)
+
+    index = 0
+    for t in tensors:
+        # Create a slice list where every dimension except dim is full slice
+        slices = [slice(0, t.shape[d]) for d in range(ndim)]
+        # Update only the concat dimension slice
+        slices[dim] = slice(index, index + t.shape[dim])
+
+        output[slices] = t
+        index += t.shape[dim]
+
+    return output
+
+
+class Phi4MMProcessingInfo(BaseProcessingInfo):
+    @property
+    def image_tokens(self) -> list[str]:
+        return [f"<|image_{i + 1}|>" for i in range(100)]
+
+    @property
+    def audio_tokens(self) -> list[str]:
+        return [f"<|audio_{i + 1}|>" for i in range(100)]
+
+    def get_dynamic_hd(
+        self,
+        processor: ProcessorMixin | None = None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+        image_processor = processor.image_processor
+        return image_processor.dynamic_hd
+
+    def get_feature_extractor(self, **kwargs: object) -> SequenceFeatureExtractor:
+        return self.get_hf_processor(**kwargs).audio_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None, "image": None}
+
+    def _find_target_aspect_ratio(
+        self,
+        orig_width: int,
+        orig_height: int,
+        image_size: int,
+        max_num: int,
+        min_num: int,
+    ):
+        w_crop_num = math.ceil(orig_width / float(image_size))
+        h_crop_num = math.ceil(orig_height / float(image_size))
+        if w_crop_num * h_crop_num > max_num:
+            aspect_ratio = orig_width / orig_height
+
+            # calculate the existing image aspect ratio
+            target_ratios = set(
+                (i, j)
+                for i in range(1, max_num + 1)
+                for j in range(1, max_num + 1)
+                if i * j <= max_num and i * j >= min_num
+            )
+            target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+            # find the closest aspect ratio to the target
+            image_processor = self.get_hf_processor().image_processor
+            target_aspect_ratio = image_processor.find_closest_aspect_ratio(
+                aspect_ratio,
+                target_ratios,
+                orig_width,
+                orig_height,
+                image_size,
+            )
+
+            # calculate the target width and height
+            target_width = image_size * target_aspect_ratio[0]
+            target_height = image_size * target_aspect_ratio[1]
+        else:
+            target_width = image_size * w_crop_num
+            target_height = image_size * h_crop_num
+            target_aspect_ratio = (w_crop_num, h_crop_num)
+        return target_aspect_ratio, target_height, target_width
+
+    def _compute_num_image_tokens(
+        self,
+        orig_width: int,
+        orig_height: int,
+        dynamic_hd_size: int,
+        vit_image_size: int,
+        vit_patch_size: int,
+        token_compression_factor: int = 2,
+    ):
+        """
+        compute the number of tokens an image is expected to take up considering
+        the image encoder architecture and exclude output features containing
+        only padding pixels
+
+        for siglip, vit_image_size=448, vit_patch_size=14, so output will be
+        32x32 feature map
+        NOTE right now, Phi4MM uses hard-coded token_compression_factor=2
+        """
+        assert vit_image_size % vit_patch_size == 0, (
+            "vit_image_size must be divisible by vit_patch_size"
+        )
+        assert vit_image_size // vit_patch_size % token_compression_factor == 0, (
+            "vit_image_size // vit_patch_size must be divisible by "
+            "token_compression_factor"
+        )
+
+        target_aspect_ratio, target_height, target_width = (
+            self._find_target_aspect_ratio(
+                orig_width, orig_height, vit_image_size, dynamic_hd_size, min_num=1
+            )
+        )
+        assert target_aspect_ratio[0] * vit_image_size == target_width, (
+            f"{target_aspect_ratio[0]} * {vit_image_size} != {target_width}"
+        )
+        assert target_aspect_ratio[1] * vit_image_size == target_height, (
+            f"{target_aspect_ratio[1]} * {vit_image_size} != {target_height}"
+        )
+        assert (
+            target_height % vit_image_size == 0 and target_width % vit_image_size == 0
+        )
+
+        padding_height, padding_width = _get_padding_size(
+            orig_width, orig_height, target_height, target_width
+        )
+        assert padding_width == 0 or padding_height == 0, (
+            "padding_width or padding_height must be 0"
+        )
+
+        target_feat_width = target_width // vit_patch_size
+        target_feat_height = target_height // vit_patch_size
+        if padding_width >= vit_patch_size:
+            assert padding_height == 0, "padding_height not 0"
+            non_pad_feat_width = target_feat_width - math.floor(
+                padding_width / vit_patch_size
+            )
+            non_pad_feat_height = target_feat_height
+        elif padding_height >= vit_patch_size:
+            assert padding_width == 0, "padding_width not 0"
+            non_pad_feat_height = target_feat_height - math.floor(
+                padding_height / vit_patch_size
+            )
+            non_pad_feat_width = target_feat_width
+        else:
+            # small padding shorter than a vit patch
+            non_pad_feat_width = target_feat_width
+            non_pad_feat_height = target_feat_height
+
+        feat_width = non_pad_feat_width // token_compression_factor
+        feat_height = non_pad_feat_height // token_compression_factor
+        # NOTE it's possible that the non-padding feature is not divisible
+        if non_pad_feat_width % token_compression_factor != 0:
+            feat_width += 1
+        if non_pad_feat_height % token_compression_factor != 0:
+            feat_height += 1
+        num_hd_patch_tokens = feat_width * feat_height
+        num_hd_newline_tokens = feat_height
+        vit_feature_size = vit_image_size // vit_patch_size
+        num_global_image_tokens = (vit_feature_size // token_compression_factor) ** 2
+        num_sep_tokens = 1
+        num_global_image_newline_tokens = vit_feature_size // token_compression_factor
+
+        return (
+            num_global_image_tokens
+            + num_sep_tokens
+            + num_hd_patch_tokens
+            + num_hd_newline_tokens
+            + num_global_image_newline_tokens
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: ProcessorMixin | None = None,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_encoder_name = hf_config.img_processor
+        if vision_encoder_name is None:
+            vision_encoder_name = SIGLIP_NAME
+        prepro_config = VISION_ENCODER_TO_PROCESSING_CONFIG[vision_encoder_name]
+        vit_image_size = prepro_config["vit_image_size"]
+        vit_patch_size = prepro_config["vit_patch_size"]
+        token_compression_factor = prepro_config["token_compression_factor"]
+
+        dynamic_hd_size = self.get_dynamic_hd(processor=processor)
+
+        image_num_tokens = self._compute_num_image_tokens(
+            image_width,
+            image_height,
+            dynamic_hd_size=dynamic_hd_size,
+            vit_image_size=vit_image_size,
+            vit_patch_size=vit_patch_size,
+            token_compression_factor=token_compression_factor,
+        )
+
+        return image_num_tokens
+
+    def get_image_size_with_most_features(
+        self,
+        processor: ProcessorMixin | None = None,
+    ) -> ImageSize:
+        hf_config = self.get_hf_config()
+        vision_encoder_name = hf_config.img_processor
+        if vision_encoder_name is None:
+            vision_encoder_name = SIGLIP_NAME
+        prepro_config = VISION_ENCODER_TO_PROCESSING_CONFIG[vision_encoder_name]
+        vit_image_size = prepro_config["vit_image_size"]
+
+        max_side = vit_image_size * self.get_dynamic_hd(processor=processor)
+        return ImageSize(height=max_side, width=vit_image_size)
+
+    def get_audio_num_frames(self, audio_len: int, sr: float) -> int:
+        """
+        Compute the output size of the `extract_features` method.
+
+        Args:
+            audio_len (int): Length of the input waveform in samples.
+            sr (float): Sampling rate of the waveform, either 16000 or 8000.
+
+        Returns:
+            tuple (int, int): Output size as (T, D), where:
+                T: Number of time frames.
+                D: Number of Mel filterbank bins (80).
+        """
+
+        # Resample to 16000 or 8000 if needed
+        if sr > 16000:
+            audio_len //= sr // 16000
+        elif 8000 <= sr < 16000:
+            # We'll resample to 16K from 8K
+            audio_len *= 2
+        elif sr < 8000:
+            raise RuntimeError(f"Unsupported sample rate {sr}")
+
+        # Spectrogram parameters for 16 kHz
+        win_length = 400  # Frame length in samples
+        hop_length = 160  # Frame shift in samples
+
+        # Calculate number of frames (T)
+        num_frames = (audio_len - win_length) // hop_length + 1
+        if num_frames < 1:
+            raise ValueError("Waveform too short for given parameters.")
+
+        # Return time frames (T)
+        return num_frames
+
+    def _compute_audio_embed_size(self, audio_frames: int) -> int:
+        """
+        Compute the audio embedding size based on the audio frames and
+        compression rate.
+        """
+        hf_config = self.get_hf_config()
+        compression_rate = hf_config.embd_layer["audio_embd_layer"]["compression_rate"]
+        # NOTE: this is a hard-coded value but might be configurable
+        # in the future
+        qformer_compression_rate = 1
+        integer = audio_frames // compression_rate
+        remainder = audio_frames % compression_rate
+
+        result = integer if remainder == 0 else integer + 1
+
+        integer = result // qformer_compression_rate
+        remainder = result % qformer_compression_rate
+        # qformer compression
+        result = integer if remainder == 0 else integer + 1
+
+        return result
+
+
+class Phi4MMDummyInputsBuilder(BaseDummyInputsBuilder[Phi4MMProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+
+        image_tokens: list[str] = self.info.image_tokens[:num_images]
+        audio_tokens: list[str] = self.info.audio_tokens[:num_audios]
+
+        return "".join(image_tokens + audio_tokens)
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        mm_data = {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "audio": self._get_dummy_audios(
+                length=_AUDIO_MAX_SOUNDFILE_SIZE,
+                num_audios=num_audios,
+                overrides=audio_overrides,
+            ),
+        }
+
+        return mm_data
+
+
+class Phi4MMMultiModalProcessor(BaseMultiModalProcessor[Phi4MMProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return MultiModalDataParser(
+            target_sr=feature_extractor.sampling_rate, audio_resample_method="scipy"
+        )
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        sr = self.info.get_feature_extractor(**mm_kwargs).sampling_rate
+        if audio_data := mm_data.get("audios", []):
+            mm_data["audios"] = [(data, sr) for data in audio_data]
+
+        processed_outputs = super()._call_hf_processor(
+            prompt, mm_data, mm_kwargs, tok_kwargs
+        )
+
+        num_img_tokens = [
+            self.info.get_num_image_tokens(
+                image_width=img_size[0], image_height=img_size[1]
+            )
+            for img_size in processed_outputs["image_sizes"]
+        ]
+        processed_outputs["num_img_tokens"] = num_img_tokens
+
+        audio_features = processed_outputs["input_audio_embeds"]
+        feature_sizes = [
+            self.info.get_audio_num_frames(len(audio), sr) for audio in audio_data
+        ]
+        processed_outputs["input_audio_embeds"] = [
+            audio_features[idx, :size] for idx, size in enumerate(feature_sizes)
+        ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            input_image_embeds=MultiModalFieldConfig.batched("image"),
+            image_attention_mask=MultiModalFieldConfig.batched("image"),
+            image_sizes=MultiModalFieldConfig.batched("image"),
+            num_img_tokens=MultiModalFieldConfig.batched("image"),
+            input_audio_embeds=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        image_tokens: list[str] = self.info.image_tokens  # type: ignore
+        audio_tokens: list[str] = self.info.audio_tokens  # type: ignore
+        feature_extractor = self.info.get_feature_extractor(**hf_processor_mm_kwargs)
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        def get_image_replacement_phi4mm(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            return [_IMAGE_PLACEHOLDER_TOKEN_ID] * num_image_tokens
+
+        def get_audio_replacement_phi4mm(item_idx: int):
+            audios = mm_items.get_items("audio", AudioProcessorItems)
+            # TODO(Isotr0py): support embedding inputs
+            audio_len = audios.get_audio_length(item_idx)
+            audio_frames = self.info.get_audio_num_frames(
+                audio_len, feature_extractor.sampling_rate
+            )
+            audio_embed_size = self.info._compute_audio_embed_size(audio_frames)
+
+            return [_AUDIO_PLACEHOLDER_TOKEN_ID] * audio_embed_size
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=image_tokens.__getitem__,
+                replacement=get_image_replacement_phi4mm,
+            ),
+            PromptReplacement(
+                modality="audio",
+                target=audio_tokens.__getitem__,
+                replacement=get_audio_replacement_phi4mm,
+            ),
+        ]
+
+    def _recompute_cached_prompt_update(
+        self,
+        cached_update: ResolvedPromptUpdate,
+        new_item_idx: int,
+    ) -> ResolvedPromptUpdate:
+        new_update = super()._recompute_cached_prompt_update(
+            cached_update,
+            new_item_idx,
+        )
+
+        if cached_update.modality == "image":
+            image_tokens: list[str] = self.info.image_tokens  # type: ignore
+            new_update = new_update.with_target(image_tokens[new_item_idx])
+        elif cached_update.modality == "audio":
+            audio_tokens: list[str] = self.info.audio_tokens  # type: ignore
+            new_update = new_update.with_target(audio_tokens[new_item_idx])
+
+        return new_update
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Phi4MMMultiModalProcessor,
+    info=Phi4MMProcessingInfo,
+    dummy_inputs=Phi4MMDummyInputsBuilder,
+)
+class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
+    """
+    Implements the Phi-4-multimodal-instruct model in vLLM.
+    """
+
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "qkv_proj",
+        ],
+        "gate_up_proj": [
+            "gate_up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "base_layer.": "",
+        },
+        orig_to_new_prefix={
+            "model.embed_tokens_extend.audio_embed.audio_projection.vision.": "embed_tokens_extend.audio_projection_for_vision.",  # noqa: E501
+            "model.embed_tokens_extend.audio_embed.audio_projection.speech.": "embed_tokens_extend.audio_projection.",  # noqa: E501
+            "model.embed_tokens_extend.audio_embed.": "embed_tokens_extend.",
+            "model.embed_tokens_extend.image_embed.": "vision_encoder.",
+        },
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return f"<|image_{i}|>"
+        if modality.startswith("audio"):
+            return f"<|audio_{i}|>"
+
+        raise ValueError("Only image or audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        assert multimodal_config, "multimodal_config is required"
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.quant_config = quant_config
+
+        # Tensor/Pipeline parallel not supported for now.
+        assert get_pp_group().world_size == 1, "pipeline parallel is not supported"
+
+        self.vision_encoder = Phi4MMImageEncoder(
+            config,
+            quant_config,
+            prefix="model.vision_embed_tokens",
+            model_dir=config._name_or_path,
+        )
+
+        if isinstance(config.embd_layer["audio_embd_layer"], dict):
+            embedding_config = {
+                "embedding_cls": config.embd_layer["audio_embd_layer"]["embedding_cls"],
+                **config.embd_layer["audio_embd_layer"],
+            }
+        else:
+            embedding_config = {
+                "embedding_cls": self.config.embd_layer["embedding_cls"]
+            }
+
+        self.embed_tokens_extend = AudioEmbedding(config, **embedding_config)
+        self.model = LlamaModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> Phi4MMAudioInputs | None:
+        """
+        Parse and validate the audio input to the model.  This handles both
+        audio features and audio embeddings, but only the former is used for
+        now.
+
+        Args:
+            kwargs (object): Keyword arguments.
+
+        Returns:
+            Optional[Phi4MMAudioInputs]: Parsed and validated audio inputs.
+        """
+        audio_features = kwargs.pop("input_audio_embeds", None)
+        audio_embeds = kwargs.pop("audio_embeds", None)
+
+        if audio_features is None and audio_embeds is None:
+            return None
+
+        if audio_features is not None:
+            return Phi4MMAudioFeatureInputs(
+                type="audio_features",
+                audio_features=audio_features,
+            )
+
+        if audio_embeds is not None:
+            return Phi4MMAudioEmbeddingInputs(type="audio_embeds", data=audio_embeds)
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_audio_input(
+        self, audio_input: Phi4MMAudioInputs, audio_projection_mode: str
+    ) -> NestedTensors:
+        """
+        Create the audio embeddings from the audio input, where the audio input
+        is pairs of audio features and audio embed lengths.  The audio input is
+        created by `input_mapper_for_phi4mm_audio`.
+
+        Args:
+            audio_input (Phi4MMAudioInputs): Audio input.
+
+        Returns:
+            NestedTensors: Audio embeddings
+        """
+        if audio_input["type"] == "audio_embeds":
+            return audio_input["data"]
+
+        audio_features = audio_input["audio_features"]
+        # (e.g. multiple examples) and the second dim is the multi-audio dim
+        # (e.g. multiple audios in the same example)
+
+        dtype = next(self.embed_tokens_extend.parameters()).dtype
+        audio_embeds = [
+            self.embed_tokens_extend(
+                features.to(dtype),
+                audio_projection_mode=audio_projection_mode,
+            )
+            for features in audio_features
+        ]
+        return audio_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Phi4MMImagePixelInputs | None:
+        pixel_values = kwargs.get("input_image_embeds")
+        if pixel_values is None:
+            return None
+
+        image_sizes = kwargs.get("image_sizes")
+        image_attention_mask = kwargs.get("image_attention_mask")
+        num_img_tokens = kwargs.get("num_img_tokens")
+        assert (
+            image_sizes is not None
+            and image_attention_mask is not None
+            and num_img_tokens is not None
+        ), "Missing image inputs"
+
+        return Phi4MMImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            image_sizes=image_sizes,
+            image_attention_mask=image_attention_mask,
+            num_img_tokens=num_img_tokens,
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("input_image_embeds", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key in ("input_audio_embeds", "audio_embeds")
+                and "audios" not in modalities
+            ):
+                modalities["audios"] = self._parse_and_validate_audio_input(**kwargs)
+
+        return modalities
+
+    def _process_image_input(
+        self, image_input: Phi4MMImagePixelInputs
+    ) -> list[torch.Tensor]:
+        dtype = next(self.vision_encoder.parameters()).dtype
+        pixel_values = image_input["pixel_values"].to(dtype)
+        image_sizes = image_input["image_sizes"]
+        image_attention_mask = image_input["image_attention_mask"]
+        image_embeds = self.vision_encoder(
+            pixel_values, image_sizes, image_attention_mask
+        )
+        return image_embeds
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        audio_projection_mode = "speech"
+        for modality in modalities:
+            # make sure process images first
+            if modality == "images":
+                audio_projection_mode = "vision"
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "audios":
+                audio_input = modalities["audios"]
+                audio_embeddings = self._process_audio_input(
+                    audio_input, audio_projection_mode=audio_projection_mode
+                )
+                multimodal_embeddings += tuple(audio_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> None:
+        loader = AutoWeightsLoader(self, skip_substrs=["lora"])
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="model.",
+            connector=["audio_projection_for_vision", "audio_projection"],
+            tower_model=["vision_encoder", "embed_tokens_extend"],
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model
diff --git a/model_executor/models/phi4mm_audio.py b/model_executor/models/phi4mm_audio.py
new file mode 100644
index 0000000..493fdb4
--- /dev/null
+++ b/model_executor/models/phi4mm_audio.py
@@ -0,0 +1,1296 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) Microsoft Corporation.
+# Licensed under the MIT license.
+# Code copied from Microsoft/MoE by Jacob Platin (jacobplatin@microsoft.com)
+# but implemented by the Phi-Speech team
+#!/usr/bin/env python3
+import abc
+import math
+from typing import Any, Literal
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+from torch import Tensor, nn
+from torch.distributed.algorithms._checkpoint.checkpoint_wrapper import (
+    CheckpointWrapper,
+)
+from torch.distributed.fsdp.fully_sharded_data_parallel import FullyShardedDataParallel
+from transformers import PretrainedConfig
+
+from vllm.model_executor.models.phi4mm_utils import (
+    AbsolutePositionalEncoding,
+    ConvModule,
+    FeedForward,
+    MeanVarianceNormLayer,
+    MultiHeadedAttention,
+    MultiSequential,
+    NemoConvSubsampling,
+    T5RelativeAttentionLogitBias,
+    adaptive_enc_mask,
+    get_offset,
+    unfold_tensor,
+)
+
+_AUDIO_PLACEHOLDER_TOKEN_ID = 200011  # <|endoftext11|>
+
+
+class ConformerEncoderLayer(nn.Module):
+    """ConformerEncoder Layer module.
+    for more details see conformer paper:
+        https://arxiv.org/abs/2005.08100
+    This module implement the Conformer block layer.
+
+    Args:
+        d_model: int
+            attention dim.
+        ext_pw_out_channel: int
+            if > 0, ext_pw_out_channel is a dim channel size
+             for the last pointwise conv after swish activation.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel will be used as a
+             channel_out of the second conv1d layer.
+             otherwise, it equals to 0, the second conv1d layer is skipped.
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+             will be used to compute the hidden channels of the Conv1D.
+        n_head: int
+            the number of heads for multihead attention module.
+        d_ffn: int
+            output size of the feed_forward blocks.
+        ext_pw_kernel_size: int
+            kernel size of the conv pointwise of the conformer.
+        kernel_size: int
+            kernel size.
+        dropout_rate: float
+            dropout rate.
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation
+            in ConvModule layer of the conformer.
+            default False
+        activation: str, optional
+            activation function name,
+            one of ["relu", "swish", "sigmoid"],
+            sigmoid activation is only used with "glu_in_fnn=True",
+            default "relu".
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+            default 0.
+        chunk_size: int, optional
+            chunk_size for cnn. default 18
+        conv_activation: str, optional
+            activation function used in ConvModule part
+            of the conformer, default "relu".
+        conv_glu_type: str, optional
+            activation function used for the glu inside
+            the ConvModule part of the conformer.
+            default: "sigmoid".
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU.
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        attention_inner_dim: int, optional
+            if equal to -1, attention dim for linears k/q/v is
+            equal to d_model. otherwise attention_inner_dim is used.
+            default -1.
+        attention_glu_type: str, optional
+            activation function for glu used in the multihead attention,
+             default "swish".
+        activation_checkpointing: str, optional
+            a dictionary of {"module","interval","offload"}, where
+                "module": str
+                    accept ["transformer", "attention"] to select
+                    which module should do activation checkpointing.
+                "interval": int, default 1,
+                    interval of applying activation checkpointing,
+                    interval = 1 means that we apply checkpointing
+                    on every layer (if activation), otherwise,
+                    we apply it every x interval.
+                "offload": bool, default False,
+                    if set to True, we offload activation to cpu and
+                    reload it during backward, otherwise,
+                    we recalculate activation in backward.
+            default "".
+        export: bool, optional
+            if set to True, it removes the padding from convolutional layers
+             and allow the onnx conversion for inference.
+              default False.
+        use_pt_scaled_dot_product_attention: bool, optional
+            if set to True, use pytorch's scaled dot product attention
+            implementation in training.
+        attn_group_sizes: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attn_group_sizes < attention_heads = Grouped-Query Attention
+            attn_group_sizes = attention_heads = Multi-Query Attention
+    """
+
+    def __init__(
+        self,
+        d_model: int = 512,
+        ext_pw_out_channel: int = 0,
+        depthwise_seperable_out_channel: int = 256,
+        depthwise_multiplier: int = 1,
+        n_head: int = 4,
+        d_ffn: int = 2048,
+        ext_pw_kernel_size: int = 1,
+        kernel_size: int = 3,
+        dropout_rate: float = 0.1,
+        causal: bool = False,
+        batch_norm: bool = False,
+        activation: str = "relu",
+        chunk_se: int = 0,
+        chunk_size: int = 18,
+        conv_activation: str = "relu",
+        conv_glu_type: str = "sigmoid",
+        bias_in_glu: bool = True,
+        linear_glu_in_convm: bool = False,
+        attention_inner_dim: int = -1,
+        attention_glu_type: str = "swish",
+        activation_checkpointing: str = "",
+        export: bool = False,
+        use_pt_scaled_dot_product_attention: bool = False,
+        attn_group_sizes: int = 1,
+    ) -> None:
+        super().__init__()
+
+        self.feed_forward_in = FeedForward(
+            d_model=d_model,
+            d_inner=d_ffn,
+            dropout_rate=dropout_rate,
+            activation=activation,
+            bias_in_glu=bias_in_glu,
+        )
+
+        self.self_attn = MultiHeadedAttention(
+            n_head,
+            d_model,
+            dropout_rate,
+            attention_inner_dim,
+            attention_glu_type,
+            bias_in_glu,
+            use_pt_scaled_dot_product_attention=use_pt_scaled_dot_product_attention,
+            group_size=attn_group_sizes,
+        )
+        self.conv = ConvModule(
+            d_model,
+            ext_pw_out_channel,
+            depthwise_seperable_out_channel,
+            ext_pw_kernel_size,
+            kernel_size,
+            depthwise_multiplier,
+            dropout_rate,
+            causal,
+            batch_norm,
+            chunk_se,
+            chunk_size,
+            conv_activation,
+            conv_glu_type,
+            bias_in_glu,
+            linear_glu_in_convm,
+            export=export,
+        )
+
+        self.feed_forward_out = FeedForward(
+            d_model=d_model,
+            d_inner=d_ffn,
+            dropout_rate=dropout_rate,
+            activation=activation,
+            bias_in_glu=bias_in_glu,
+        )
+
+        self.layer_norm_att = nn.LayerNorm(d_model)
+        self.layer_norm = nn.LayerNorm(d_model)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        pos_k: torch.Tensor,
+        pos_v: torch.Tensor,
+        mask: torch.Tensor,
+        relative_attention_bias: Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        """ConformerEncoder forward.
+
+        Args:
+            x: input feature of shape (batch, max_time_in, size)
+            pos_k: positional key embedding.
+            pos_v: positional value embedding.
+            mask: mask for x (batch, max_time_in)
+            relative_attention_bias: bias added to attention logits w.r.t.
+                relative positions (1, n_head, time1, time2)
+        """
+        x = x + 0.5 * self.feed_forward_in(x)
+        norm_x = self.layer_norm_att(x)
+
+        x = x + self.self_attn(
+            norm_x,
+            norm_x,
+            norm_x,
+            pos_k,
+            pos_v,
+            mask,
+            relative_attention_bias=relative_attention_bias,
+        )
+        x = x + self.conv(x)
+        x = x + 0.5 * self.feed_forward_out(x)
+
+        out = self.layer_norm(x)
+
+        return out, pos_k, pos_v, mask
+
+
+class TransformerEncoderBase(abc.ABC, nn.Module):
+    """The Base class for Transformer based encoders
+
+    Please set causal = True in streaming model
+    Args:
+        input_size: int
+            input feature dimension.
+        chunk_size: int, list(int)
+            Number of frames for each chunk
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training
+            Some examples for the 2 cases:
+            chunk_size = 12
+            chunk_size = [6, 8, 12, 24]
+        left_chunk: int, list(int)
+            Number of chunks used for masking in streaming mode.
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training. When
+            chunk_size is a list, left_chunk must be a list with same length.
+            Some examples for the 2 cases:
+            left_chunk = 6
+            left_chunk = [12, 9, 6, 3]
+        attention_dim: int, optional
+            attention dimension. default 256.
+        attention_heads: int, optional
+            the number of heads. default 4
+        input_layer: str, optional
+            input layer type before Conformer,
+            one of ["linear", "conv2d", "custom", "vgg2l", "embed"],
+            default "conv2d"
+        cnn_out: int, optional
+            the number of CNN channels before Conformer.
+            default -1.
+        cnn_layer_norm: bool, optional
+            layer norm between Conformer and the first CNN.
+            default False.
+        time_reduction: int, optional
+            time reduction factor
+            default 4
+        dropout_rate: float, optional
+            dropout rate. default 0.1
+        padding_idx: int, optional
+            padding index for input_layer=embed
+            default -1
+        relative_attention_bias_args: dict, optional
+            use more efficient scalar bias-based relative multihead attention
+            (Q*K^T + B) implemented in cmb.basics.embedding.
+            [T5/ALiBi]RelativeAttentionLogitBias
+            usage: relative_attention_bias_args={"type": t5/alibi}
+            additional method-specific arguments can be provided (see
+            transformer_base.py)
+        positional_dropout_rate: float, optional
+            dropout rate after positional encoding. default 0.0
+        nemo_conv_settings: dict, optional
+            A dictionary of settings for NeMo Subsampling.
+            default None
+        conv2d_extra_padding: str, optional
+            Add extra padding in conv2d subsampling layers. Choices are
+            (feat, feat_time, none, True).
+            if True or feat_time, the extra padding is added into non full
+            supraframe utts in batch.
+            Default: none
+        attention_group_size: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attention_group_size < attention_heads = Grouped-Query
+            Attention
+            attention_group_size = attention_heads = Multi-Query Attention
+    """
+
+    def __init__(
+        self,
+        input_size: int,
+        chunk_size: int | list[int],
+        left_chunk: int | list[int],
+        attention_dim: int = 256,
+        attention_heads: int = 4,
+        input_layer: str = "nemo_conv",
+        cnn_out: int = -1,
+        cnn_layer_norm: bool = False,
+        time_reduction: int = 4,
+        dropout_rate: float = 0.0,
+        padding_idx: int = -1,
+        relative_attention_bias_args: dict[str, Any] | None = None,
+        positional_dropout_rate: float = 0.0,
+        nemo_conv_settings: dict[str, Any] | None = None,
+        conv2d_extra_padding: Literal["feat", "feat_time", "none", True] = "none",
+        attention_group_size: int = 1,
+        encoder_embedding_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.input_size = input_size
+        self.input_layer = input_layer
+        self.chunk_size = chunk_size
+        self.left_chunk = left_chunk
+        self.attention_dim = attention_dim
+        self.num_heads = attention_heads
+        self.attention_group_size = attention_group_size
+        self.time_reduction = time_reduction
+        self.nemo_conv_settings = nemo_conv_settings
+        self.encoder_embedding_config = encoder_embedding_config
+
+        if self.input_layer == "nemo_conv":
+            default_nemo_conv_settings = {
+                "subsampling": "dw_striding",
+                "subsampling_factor": self.time_reduction,
+                "feat_in": input_size,
+                "feat_out": attention_dim,
+                "conv_channels": 256,
+                "subsampling_conv_chunking_factor": 1,
+                "activation": nn.ReLU(),
+                "is_causal": False,
+            }
+            # Override any of the defaults with the incoming, user settings
+            if nemo_conv_settings:
+                default_nemo_conv_settings.update(nemo_conv_settings)
+                for i in ["subsampling_factor", "feat_in", "feat_out"]:
+                    assert i not in nemo_conv_settings, (
+                        "{i} should be specified outside of the NeMo dictionary"
+                    )
+
+            self.embed = NemoConvSubsampling(
+                **default_nemo_conv_settings,
+            )
+        else:
+            raise ValueError("unknown input_layer: " + input_layer)
+
+        self.pos_emb = AbsolutePositionalEncoding(
+            attention_dim, positional_dropout_rate
+        )
+
+        self.relative_attention_bias_type = (
+            relative_attention_bias_args.get("type")
+            if relative_attention_bias_args
+            else None
+        )
+        if self.relative_attention_bias_type == "t5":
+            assert self.num_heads % self.attention_group_size == 0, (
+                "attention_group_size must divide n_head"
+            )
+            self.relative_attention_bias_layer = T5RelativeAttentionLogitBias(
+                self.num_heads // self.attention_group_size,
+                max_distance=relative_attention_bias_args.get(
+                    "t5_bias_max_distance", 1000
+                ),
+                symmetric=relative_attention_bias_args.get("t5_bias_symmetric", False),
+            )
+        else:
+            raise NotImplementedError
+
+        self.encoder_embedding = MeanVarianceNormLayer(
+            self.encoder_embedding_config["input_size"]
+        )
+
+    def compute_lens_change(
+        self, feature_lens: int | torch.Tensor
+    ) -> int | torch.Tensor:
+        """feature_lens: int
+        return updated feature lens.
+
+        This used to return a different lambda function for each case that
+        computed the right thing.  That does not work within Torchscript.
+        If you really need this to be faster, create nn.Module()-s for all
+        the cases and return one of them.  Torchscript does support that.
+        """
+        if self.input_layer == "nemo_conv":
+            # Handle the special causal case
+            subsampling_causal_cond = self.nemo_conv_settings.get(
+                "subsampling", "dw_striding"
+            ) in [
+                "dw_striding",
+                "striding",
+                "striding_conv1d",
+            ]
+            is_causal = self.nemo_conv_settings.get("is_causal", False)
+            if is_causal and subsampling_causal_cond:
+                lens_change = (
+                    torch.ceil(feature_lens / self.time_reduction).long()
+                    if isinstance(feature_lens, Tensor)
+                    else math.ceil(feature_lens / self.time_reduction)
+                )
+                feature_lens_remainder = feature_lens % self.time_reduction
+                if isinstance(feature_lens, Tensor):
+                    lens_change[feature_lens_remainder != 1] += 1
+                elif feature_lens_remainder != 1:
+                    lens_change += 1
+                return lens_change
+            ceil_func = math.ceil if isinstance(feature_lens, int) else torch.ceil
+            return ceil_func(feature_lens / self.time_reduction)
+
+    @abc.abstractmethod
+    def forward(self) -> Any:
+        """Abstract forward method implementation."""
+
+    def _chunk_size_selection(
+        self,
+        chunk_size: int | list[int] | None = None,
+        left_chunk: int | list[int] | None = None,
+    ) -> tuple[int, int]:
+        """If chunk size is a list, we will randomly select a chunk size."""
+
+        if chunk_size is None:
+            chunk_size = self.chunk_size
+        if left_chunk is None:
+            left_chunk = self.left_chunk
+        if isinstance(chunk_size, list):
+            # Variable chunk size during training
+            chunk_size_index = int(
+                torch.randint(low=0, high=len(chunk_size), size=(1,))
+            )
+            chunk_size_train_eff = chunk_size[chunk_size_index]
+            if not isinstance(left_chunk, list):
+                raise ValueError(
+                    "Since chunk_size is a list, left_chunk must be a list"
+                )
+            if len(left_chunk) != len(chunk_size):
+                raise ValueError(
+                    "The length of left_chunk must be the same as length of chunk_size."
+                )
+            left_chunk_train_eff = left_chunk[chunk_size_index]
+        else:
+            chunk_size_train_eff = chunk_size
+            left_chunk_train_eff = left_chunk
+
+        return chunk_size_train_eff, left_chunk_train_eff
+
+    def _get_embed_class(self, embed: nn.Module) -> nn.Module:
+        # pylint: disable=protected-access
+        is_embed_using_act_chkpt = isinstance(embed, CheckpointWrapper)
+        is_embed_fsdp_wrapped = isinstance(embed, FullyShardedDataParallel)
+        embed_class = embed
+        if is_embed_using_act_chkpt:
+            embed_class = embed._checkpoint_wrapped_module
+        if is_embed_fsdp_wrapped:
+            embed_class = embed.module
+        return embed_class
+
+    def _forward_embeddings_core(
+        self, input_tensor: torch.Tensor, masks: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        embed_class = self._get_embed_class(self.embed)
+        assert isinstance(embed_class, NemoConvSubsampling)
+        input_tensor, masks = self.embed(input_tensor, masks)
+        return input_tensor, masks
+
+    def _position_embedding(
+        self, input_tensor: torch.Tensor
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None]:
+        pos_k = None
+        pos_v = None
+        if self.relative_attention_bias_layer is None:
+            input_tensor = self.pos_emb(
+                input_tensor
+            )  # default to add abs sinusoid embedding
+        return pos_k, pos_v
+
+    def _streaming_mask(
+        self,
+        seq_len: int,
+        batch_size: int,
+        chunk_size: int | list[int],
+        left_chunk: int | list[int],
+    ) -> torch.Tensor:
+        chunk_size_train_eff, left_chunk_train_eff = self._chunk_size_selection(
+            chunk_size, left_chunk
+        )
+
+        # Create mask matrix for streaming
+        # S stores start index. if chunksize is 18, s is [0,18,36,....]
+        chunk_start_idx = np.arange(0, seq_len, chunk_size_train_eff)
+
+        enc_streaming_mask = (
+            adaptive_enc_mask(
+                seq_len, chunk_start_idx, left_window=left_chunk_train_eff
+            )
+            .unsqueeze(0)
+            .expand([batch_size, -1, -1])
+        )
+        return enc_streaming_mask
+
+    def forward_embeddings(
+        self,
+        xs_pad: torch.Tensor,
+        masks: torch.Tensor,
+        chunk_size_nc: int | list[int] | None = None,
+        left_chunk_nc: int | list[int] | None = None,
+    ) -> (
+        tuple[
+            torch.Tensor,
+            torch.Tensor | None,
+            torch.Tensor | None,
+            torch.Tensor,
+            torch.Tensor,
+        ]
+        | tuple[
+            torch.Tensor,
+            torch.Tensor | None,
+            torch.Tensor | None,
+            torch.Tensor,
+            torch.Tensor,
+            torch.Tensor,
+        ]
+    ):
+        """Forwarding the inputs through the top embedding layers
+
+        Args:
+            xs_pad: torch.Tensor
+                input tensor
+            masks: torch.Tensor
+                input mask
+            chunk_size_nc: (optional, default is None) chunk size for
+                            non-causal layers
+            left_chunk_nc: (optional, default is None) # of left chunks for
+                            non-causal layers
+        """
+        # pylint: disable=R0915
+        # get new lens.
+        seq_len = int(self.compute_lens_change(xs_pad.shape[1]))
+        if seq_len <= 0:
+            raise ValueError(
+                f"""The sequence length after time reduction is invalid: 
+                {seq_len}. Your input feature is too short. Consider 
+                filtering out the very short sentence from data 
+                loader""",
+            )
+
+        batch_size = xs_pad.shape[0]
+
+        enc_streaming_mask = self._streaming_mask(
+            seq_len, batch_size, self.chunk_size, self.left_chunk
+        )
+
+        if xs_pad.is_cuda:
+            enc_streaming_mask = enc_streaming_mask.cuda()
+            xs_pad = xs_pad.cuda()
+
+        input_tensor = xs_pad
+        input_tensor, masks = self._forward_embeddings_core(input_tensor, masks)
+
+        streaming_mask = enc_streaming_mask
+        if streaming_mask is not None and masks is not None:
+            hs_mask = masks & streaming_mask
+        elif masks is not None:
+            hs_mask = masks
+        else:
+            hs_mask = streaming_mask
+
+        if chunk_size_nc is not None:
+            enc_streaming_mask_nc = self._streaming_mask(
+                seq_len, batch_size, chunk_size_nc, left_chunk_nc
+            )
+            if xs_pad.is_cuda:
+                enc_streaming_mask_nc = enc_streaming_mask_nc.cuda()
+            if masks is not None:
+                hs_mask_nc = masks & enc_streaming_mask_nc
+            else:
+                hs_mask_nc = enc_streaming_mask_nc
+        else:
+            hs_mask_nc = None
+
+        pos_k, pos_v = self._position_embedding(input_tensor)
+
+        if chunk_size_nc is None:
+            return input_tensor, pos_k, pos_v, hs_mask, masks
+        return input_tensor, pos_k, pos_v, hs_mask, masks, hs_mask_nc
+
+    def get_offset(self) -> int:
+        """Returns offset used when retaining inputs for decoding.
+
+        This is essentially, how many additional frames have to be added to
+        the front-end CNN input to ensure it can produce a single output.
+        So if the "padding" parameter is 0, typically offset will be > 0.
+        """
+        return get_offset(self.input_layer, self.time_reduction)
+
+
+class ConformerEncoder(TransformerEncoderBase):
+    """ConformerEncoder module.
+    see original paper for more details:
+        https://arxiv.org/abs/2005.08100
+
+    Please set causal = True in streaming model
+    Args:
+        input_size: int
+            input feature dimension.
+        chunk_size: int, list(int)
+            Number of frames for each chunk
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training
+            Some examples for the 2 cases:
+            chunk_size = 12
+            chunk_size = [6, 8, 12, 24]
+        left_chunk: int, list(int)
+            Number of chunks used for masking in streaming mode.
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training. When
+            chunk_size is a list, left_chunk must be a list with same length.
+            Some examples for the 2 cases:
+            left_chunk = 6
+            left_chunk = [12, 9, 6, 3]
+        num_lang: int
+            This parameter is used to store the number of languages in the
+            lang_dict, only used for multiseed/multilingual models.
+            default None.
+        attention_dim: int, optional
+            attention dimension. default 256.
+        attention_heads: int, optional
+            the number of heads. default 4
+        linear_units:
+            the number of units of position-wise feed forward.
+            default 2048
+        num_block:
+            number of Transformer layer. default 6
+        dropout_rate: float, optional
+            dropout rate. default 0.1
+        input_layer: str, optional
+            input layer type before Conformer,
+            one of ["linear", "conv2d", "custom", "vgg2l", "embed"],
+            default "conv2d"
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation
+            in ConvModule layer of the conformer.
+            default False
+        cnn_out: int, optional
+            the number of CNN channels before Conformer.
+            default -1.
+        cnn_layer_norm: bool, optional
+            layer norm between Conformer and the first CNN.
+            default False.
+        ext_pw_out_channel: int, optional
+            the number of channel for CNN
+            before depthwise_seperable_CNN.
+            If 0 then use linear. default 0.
+        ext_pw_kernel_size: int, optional
+            kernel size of N before depthwise_seperable_CNN.
+            only work for ext_pw_out_channel > 0.
+            default 1
+        depthwise_seperable_out_channel: int, optional
+            the number of channel for
+            depthwise_seperable_CNN.
+            default 256.
+        depthwise_multiplier: int, optional
+            the number of multiplier for
+            depthwise_seperable_CNN.
+            default 1.
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+            default 0.
+        kernel_size: int, optional
+            the number of kernels for depthwise_seperable_CNN.
+            default 3.
+        activation: str, optional
+            FeedForward block activation.
+            one of ["relu", "swish", "sigmoid"]
+            default "relu".
+        conv_activation: str, optional
+            activation function used in ConvModule part
+            of the conformer, default "relu".
+        conv_glu_type: str, optional
+            activation used use glu in depthwise_seperable_CNN,
+            default "sigmoid"
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU. default True
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        attention_glu_type: str
+            only work for glu_in_attention !=0
+            default "swish".
+        export: bool, optional
+            if set to True, it removes the padding from convolutional layers
+             and allow the onnx conversion for inference.
+              default False.
+        activation_checkpointing: str, optional
+            a dictionarry of {"module","interval","offload"}, where
+                "module": str
+                    accept ["transformer", "attention"] to select
+                    which module should do activation checkpointing.
+                "interval": int, default 1,
+                    interval of applying activation checkpointing,
+                    interval = 1 means that we apply checkpointing
+                    on every layer (if activation), otherwise,
+                    we apply it every x interval.
+                "offload": bool, default False,
+                    if set to True, we offload activation to cpu and
+                    reload it during backward, otherwise,
+                    we recalculate activation in backward.
+            default "".
+        extra_layer_output_idx: int
+            the layer index to be exposed.
+        relative_attention_bias_args: dict, optional
+            use more efficient scalar bias-based relative multihead attention
+            (Q*K^T + B) implemented in cmb.basics.embedding.
+            [T5/ALiBi]RelativeAttentionLogitBias
+            usage: relative_attention_bias_args={"type": t5/alibi}
+            additional method-specific arguments can be provided (see
+            transformer_base.py)
+        time_reduction: int optional
+            time reduction factor
+            default 4
+        use_pt_scaled_dot_product_attention: whether to use pytorch scaled
+            dot product attention in training.
+            Default: False
+        nemo_conv_settings: dict, optional
+            A dictionary of settings for NeMo Subsampling.
+            default: None
+            usage: nemo_conv_settings=
+                {
+                    "subsampling":
+                    dw_striding/striding/dw_striding_conv1d/striding_conv1d,
+                    "conv_channels": int,
+                    "subsampling_conv_chunking_factor": int,
+                    "is_causal": True/False
+                }
+        conv2d_extra_padding: str, optional
+            Add extra padding in conv2d subsampling layers. Choices are
+            (feat, feat_time, none, True)
+            Default: none
+        replication_pad_for_subsample_embedding:  For batched-streaming
+            decoding, use "replication" padding for the cache at start of
+            utterance.
+            Default: False
+        attention_group_size: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attention_group_size < attention_heads = Grouped-Query
+            Attention
+            attention_group_size = attention_heads = Multi-Query Attention
+    """
+
+    extra_multi_layer_output_idxs: list[int]
+
+    def __init__(  # pylint: disable-all
+        self,
+        input_size: int,
+        chunk_size: int | list[int],
+        left_chunk: int | list[int],
+        num_lang: int | None = None,
+        attention_dim: int = 256,
+        attention_heads: int = 4,
+        linear_units: int = 2048,
+        num_blocks: int = 6,
+        dropout_rate: float = 0.1,
+        input_layer: str = "nemo_conv",
+        causal: bool = True,
+        batch_norm: bool = False,
+        cnn_out: int = -1,
+        cnn_layer_norm: bool = False,
+        ext_pw_out_channel: int = 0,
+        ext_pw_kernel_size: int = 1,
+        depthwise_seperable_out_channel: int = 256,
+        depthwise_multiplier: int = 1,
+        chunk_se: int = 0,
+        kernel_size: int = 3,
+        activation: str = "relu",
+        conv_activation: str = "relu",
+        conv_glu_type: str = "sigmoid",
+        bias_in_glu: bool = True,
+        linear_glu_in_convm: bool = False,
+        attention_glu_type: str = "swish",
+        export: bool = False,
+        extra_layer_output_idx: int = -1,
+        extra_multi_layer_output_idxs: list[int] = [],  # noqa
+        activation_checkpointing: str = "",
+        relative_attention_bias_args: dict[str, Any] | None = None,
+        time_reduction: int = 4,
+        use_pt_scaled_dot_product_attention: bool = False,
+        nemo_conv_settings: dict[str, Any] | None = None,
+        conv2d_extra_padding: Literal["feat", "feat_time", "none", True] = "none",
+        replication_pad_for_subsample_embedding: bool = False,
+        attention_group_size: int = 1,
+        encoder_embedding_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__(
+            input_size,
+            chunk_size,
+            left_chunk,
+            attention_dim,
+            attention_heads,
+            input_layer,
+            cnn_out,
+            cnn_layer_norm,
+            time_reduction,
+            dropout_rate=dropout_rate,
+            relative_attention_bias_args=relative_attention_bias_args,
+            positional_dropout_rate=0.0,
+            nemo_conv_settings=nemo_conv_settings,
+            conv2d_extra_padding=conv2d_extra_padding,
+            attention_group_size=attention_group_size,
+            encoder_embedding_config=encoder_embedding_config,
+        )
+        self.num_blocks = num_blocks
+        self.num_lang = num_lang
+        self.kernel_size = kernel_size
+        self.replication_pad_for_subsample_embedding: bool = (
+            replication_pad_for_subsample_embedding
+        )
+        assert self.num_heads % attention_group_size == 0, (
+            "attention_group_size must divide n_head"
+        )
+        self.num_heads_k = self.num_heads // attention_group_size
+
+        self.encoders = MultiSequential(
+            *[
+                ConformerEncoderLayer(
+                    d_model=attention_dim,
+                    ext_pw_out_channel=ext_pw_out_channel,
+                    depthwise_seperable_out_channel=depthwise_seperable_out_channel,
+                    depthwise_multiplier=depthwise_multiplier,
+                    n_head=attention_heads,
+                    d_ffn=linear_units,
+                    ext_pw_kernel_size=ext_pw_kernel_size,
+                    kernel_size=kernel_size,
+                    dropout_rate=dropout_rate,
+                    causal=causal,
+                    batch_norm=batch_norm,
+                    activation=activation,
+                    chunk_se=chunk_se,
+                    chunk_size=chunk_size,
+                    conv_activation=conv_activation,
+                    conv_glu_type=conv_glu_type,
+                    bias_in_glu=bias_in_glu,
+                    linear_glu_in_convm=linear_glu_in_convm,
+                    attention_glu_type=attention_glu_type,
+                    activation_checkpointing=activation_checkpointing,
+                    export=export,
+                    use_pt_scaled_dot_product_attention=use_pt_scaled_dot_product_attention,
+                    attn_group_sizes=attention_group_size,
+                )
+                for _ in range(num_blocks)
+            ]
+        )
+        self.extra_layer_output_idx = extra_layer_output_idx
+        self.extra_multi_layer_output_idxs = extra_multi_layer_output_idxs
+        # Make a zeros scalar we can use in get_initial_state to determine
+        # the device and the needed dtype:
+        self.register_buffer("dev_type", torch.zeros(()), persistent=False)
+
+    def init_relative_attention_bias(
+        self, input_tensor: torch.Tensor
+    ) -> torch.Tensor | None:
+        if self.relative_attention_bias_layer:
+            return self.relative_attention_bias_layer(input_tensor)
+
+    def calculate_hs_mask(
+        self, xs_pad: torch.Tensor, device: torch.device, mask: torch.Tensor | None
+    ) -> torch.Tensor:
+        max_audio_length = xs_pad.shape[1]
+        batch_size = xs_pad.shape[0]
+        enc_streaming_mask = self._streaming_mask(
+            max_audio_length, batch_size, self.chunk_size, self.left_chunk
+        )
+        enc_streaming_mask = enc_streaming_mask.to(device)
+        if mask is None:
+            return enc_streaming_mask
+
+        feature_lens = mask.sum(1)
+        padding_length = feature_lens
+        pad_mask = torch.arange(0, max_audio_length, device=device).expand(
+            padding_length.size(0), -1
+        ) < padding_length.unsqueeze(1)
+        pad_mask = pad_mask.unsqueeze(1)
+        pad_mask = pad_mask & enc_streaming_mask
+        return pad_mask
+
+    @torch.jit.ignore
+    def forward(
+        self, xs_pad: torch.Tensor, masks: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """Conformer Forward function
+
+        Args:
+            xs_pad: torch.Tensor
+                input tensor
+            masks: torch.Tensor
+                post-embedding input lengths
+        """
+        xs_pad = self.encoder_embedding(xs_pad)
+        input_tensor, pos_k, pos_v, hs_mask, masks = self.forward_embeddings(
+            xs_pad, masks
+        )
+
+        unfolded = False
+        ori_bz, seq_len, D = input_tensor.shape
+        max_seq_len = 500  # maximum position for absolute positional encoding
+        if seq_len > max_seq_len:
+            # audio sequence is longer than max_seq_len, unfold it into chunks
+            # of max_seq_len
+            unfolded = True
+            # the unfold op will drop residual frames, pad it to the multiple
+            # of max_seq_len
+            if seq_len % max_seq_len > 0:
+                chunk_pad_size = max_seq_len - (seq_len % max_seq_len)
+            else:
+                chunk_pad_size = 0
+            if chunk_pad_size > 0:
+                input_tensor_pad = F.pad(
+                    input_tensor, (0, 0, 0, chunk_pad_size), "constant", 0
+                )
+                input_tensor = input_tensor_pad.to(input_tensor.device)
+            input_tensor = unfold_tensor(input_tensor, max_seq_len)
+            if masks is not None:
+                # revise hs_mask here because the previous calculated hs_mask
+                # did not consider extra pad
+                subsampled_pad_mask = masks.squeeze(
+                    1
+                )  # [bz, subsampled_unmask_seq_len]
+                extra_padded_subsamlped_pad_mask = F.pad(
+                    subsampled_pad_mask, (0, chunk_pad_size), "constant", False
+                )  # extra padding to the pad mask
+                extra_padded_subsamlped_pad_mask = (
+                    extra_padded_subsamlped_pad_mask.unsqueeze(-1).float()
+                )
+                masks_unfold = unfold_tensor(
+                    extra_padded_subsamlped_pad_mask, max_seq_len
+                )  # unfold the pad mask like we did to the input tensor
+                masks_unfold = masks_unfold.squeeze(
+                    -1
+                ).bool()  # unfold op does not support bool tensor
+            else:
+                masks_unfold = None
+            hs_mask = self.calculate_hs_mask(
+                input_tensor, input_tensor.device, masks_unfold
+            )  # calculate hs_mask based on the unfolded pad mask
+
+        # layer_emb = None
+
+        relative_attention_bias = self.init_relative_attention_bias(input_tensor)
+
+        _simplified_path = (
+            self.extra_layer_output_idx == -1 and relative_attention_bias is None
+        )
+
+        if _simplified_path:
+            input_tensor, *_ = self.encoders(input_tensor, pos_k, pos_v, hs_mask)
+        else:
+            for i, layer in enumerate(self.encoders):
+                input_tensor, _, _, _ = layer(
+                    input_tensor,
+                    pos_k,
+                    pos_v,
+                    hs_mask,
+                    relative_attention_bias=relative_attention_bias,
+                )
+
+                # if i == self.extra_layer_output_idx:
+                #     layer_emb = input_tensor
+
+        if unfolded:
+            embed_dim = input_tensor.shape[-1]
+            input_tensor = input_tensor.reshape(ori_bz, -1, embed_dim)
+            # if we ever padded before unfolding, we need to remove the padding
+            if chunk_pad_size > 0:
+                input_tensor = input_tensor[:, :-chunk_pad_size, :]
+
+        return input_tensor, masks  # , layer_emb
+
+
+class WindowQformer(nn.Module):
+    """Window-level Qformer"""
+
+    def __init__(
+        self,
+        window_size: int = 8,
+        num_queries: int = 1,
+        num_blocks: int = 2,
+        attention_dim: int = 512,
+        attention_heads: int = 8,
+        linear_units: int = 2048,
+        dropout_rate: float = 0.0,
+        normalize_before: bool = True,
+    ):
+        super().__init__()
+
+        self.decoders = nn.ModuleList(
+            [
+                nn.TransformerDecoderLayer(
+                    d_model=attention_dim,
+                    nhead=attention_heads,
+                    dim_feedforward=linear_units,
+                    dropout=dropout_rate,
+                    activation="relu",
+                    batch_first=True,
+                    norm_first=normalize_before,  # TODO need to verify
+                )
+                for _ in range(num_blocks)
+            ]
+        )
+
+        self.queries = nn.Parameter(torch.zeros(1, num_queries, attention_dim))
+        self.after_norm = (
+            nn.LayerNorm(attention_dim, eps=1e-12) if normalize_before else None
+        )
+        self.window_size = window_size
+
+    def forward(
+        self,
+        audio_embed: torch.Tensor,
+        mask: torch.Tensor | None,
+        embed_len: int | None = None,
+    ) -> tuple[torch.Tensor, int | None]:
+        """forward decoder"""
+        # audio_embed: N x T x D => N x D x T
+
+        audio_embed = audio_embed.transpose(1, 2)
+        # audio_embed: N x D x 1 x T => N x DK x T'
+        padding = audio_embed.shape[-1] % self.window_size
+        if padding > 0:
+            audio_embed = F.pad(
+                audio_embed, (0, self.window_size - padding), "constant", 0
+            )
+
+        embed_chunk = F.unfold(
+            audio_embed[..., None, :],
+            kernel_size=(1, self.window_size),
+            stride=(1, self.window_size),
+        )
+        bsz, _, slen = embed_chunk.shape
+        # N x D x K x T'
+        embed_chunk = embed_chunk.view(bsz, -1, self.window_size, slen)
+        # N x T' x K x D
+        embed_chunk = embed_chunk.transpose(1, 3).contiguous()
+        # NT' x K x D
+        embed_chunk = embed_chunk.view(bsz * slen, self.window_size, -1)
+        # NT' x 1 x D
+        q = self.queries.expand(bsz * slen, -1, -1)
+        for layer in self.decoders:
+            q = layer(tgt=q, memory=embed_chunk, tgt_mask=None, memory_mask=mask)
+
+        if self.after_norm is not None:
+            q = self.after_norm(q)
+
+        if embed_len is not None:
+            embed_len = embed_len // self.window_size
+        # N x T' x D
+        out = q.view(bsz, slen, -1)
+
+        return out, embed_len
+
+
+class AudioEmbedding(nn.Module):
+    """Image embedding."""
+
+    def __init__(self, config: PretrainedConfig, **kwargs: Any) -> None:
+        super().__init__()
+        self.config = config
+        # n_embed or hidden_size for text LM
+        hidden_size = config.n_embd if hasattr(config, "n_embd") else config.hidden_size
+
+        # self.wte = nn.Embedding(config.vocab_size, hidden_size)
+
+        audio_dim_out = (
+            None  # Set this variable according to the actual audio processor
+        )
+        self.layer_idx = -2
+
+        if (
+            isinstance(config.audio_processor, dict)
+            and config.audio_processor.get("name", None) == "cascades"
+        ):
+            encoder_config = config.audio_processor.get("config", None)
+            assert encoder_config is not None
+            self.encoder = ConformerEncoder(**encoder_config)
+
+            audio_dim_out = encoder_config["attention_dim"]
+            n_mels = encoder_config["input_size"]
+        else:
+            raise NotImplementedError("")
+
+        assert audio_dim_out is not None, "Remember to set values for audio_dim_out"
+        self.audio_dim_out = audio_dim_out
+        self.audio_dim_in = n_mels
+
+        self.freeze_audio_processor = kwargs.get("freeze_audio_processor", False)
+
+        self.downsample_rate = kwargs.get("downsample_rate", 1)
+
+        if kwargs.get("use_qformer", False):
+            qformer_config = kwargs.get("qformer_config", {})
+            qformer_config["attention_dim"] = audio_dim_out
+            self.qformer = WindowQformer(**qformer_config)
+        else:
+            self.qformer = None
+
+        if kwargs.get("use_conv_downsample", False):
+            assert self.qformer is None, (
+                "don't support use qformer and conv downsample together"
+            )
+            nemo_conv_settings = kwargs.get("nemo_conv_settings", {})
+            default_nemo_conv_settings = {
+                "subsampling": "dw_striding",
+                "subsampling_factor": self.downsample_rate,
+                "feat_in": audio_dim_out,
+                "feat_out": audio_dim_out,
+                "conv_channels": 256,
+                "subsampling_conv_chunking_factor": 1,
+                "activation": nn.ReLU(),
+                "is_causal": False,
+            }
+            # Override any of the defaults with the incoming, user settings
+            if nemo_conv_settings:
+                default_nemo_conv_settings.update(nemo_conv_settings)
+                for i in ["subsampling_factor", "feat_in", "feat_out"]:
+                    assert i not in nemo_conv_settings, (
+                        "{i} should be specified outside of the NeMo dictionary"
+                    )
+
+            self.conv_ds = NemoConvSubsampling(
+                **default_nemo_conv_settings,
+            )
+        else:
+            self.conv_ds = None
+
+        projection_cls = kwargs.get("projection_cls", "linear")
+        if projection_cls == "linear":
+            self.audio_projection = nn.Linear(audio_dim_out, hidden_size)
+        elif projection_cls == "mlp":
+            # follow llava-v1.5's implementation
+            # (do not use image_projection and image_proj_norm)
+            dim_projection = hidden_size
+            depth = 2
+            self.linear_downsample_rate = (
+                1 if (self.qformer or self.conv_ds) else self.downsample_rate
+            )
+            layers = [
+                nn.Linear(audio_dim_out * self.linear_downsample_rate, dim_projection)
+            ]
+            for _ in range(1, depth):
+                layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+            self.audio_projection = nn.Sequential(*layers)
+            # NOTE vision-speech tasks use a separate projection layer
+            layers = [
+                nn.Linear(audio_dim_out * self.linear_downsample_rate, dim_projection)
+            ]
+            for _ in range(1, depth):
+                layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+            self.audio_projection_for_vision = nn.Sequential(*layers)
+        else:
+            raise NotImplementedError(
+                f"projection_cls = {projection_cls}, not implemented"
+            )
+
+        # TODO: audio sequence compression - Qformer
+        self.vocab_size = config.vocab_size
+        self.input_embeds = None
+        self.audio_embed_sizes = None
+
+    def set_audio_embeds(self, input_embeds: torch.Tensor) -> None:
+        self.input_embeds = input_embeds
+
+    def set_audio_embed_sizes(self, audio_embed_sizes: torch.Tensor) -> None:
+        self.audio_embed_sizes = audio_embed_sizes
+
+    def get_audio_features(
+        self,
+        input_embeds: torch.Tensor,
+        audio_attention_mask: torch.Tensor | None = None,
+        audio_projection_mode: str = "speech",
+    ) -> torch.Tensor:
+        """
+        arguments:
+            input_embeds: audio features (B, T, D)  B: num audios in a sequence
+        """
+        if self.freeze_audio_processor:
+            with torch.no_grad():
+                audio_features, masks = self.encoder(input_embeds, audio_attention_mask)
+        else:
+            audio_features, masks = self.encoder(input_embeds, audio_attention_mask)
+
+        if self.qformer is not None:
+            audio_features, _ = self.qformer(audio_features, mask=None)
+
+        if self.conv_ds is not None:
+            if masks is not None:
+                masks = masks.squeeze(1)
+
+            audio_features, masks = self.conv_ds(audio_features, mask=masks)
+
+        if self.linear_downsample_rate != 1:
+            bs, seq_len, feat_dim = audio_features.size()
+            padding = seq_len % self.linear_downsample_rate
+            if padding > 0:
+                audio_features = F.pad(
+                    audio_features,
+                    (0, 0, 0, self.linear_downsample_rate - padding),
+                    "constant",
+                    0,
+                )
+
+            seq_len = audio_features.size(1)
+            audio_features = audio_features.view(
+                bs,
+                seq_len // self.linear_downsample_rate,
+                feat_dim * self.linear_downsample_rate,
+            )
+
+        if audio_projection_mode == "speech":
+            audio_set_tensor = self.audio_projection(audio_features)
+        elif audio_projection_mode == "vision":
+            audio_set_tensor = self.audio_projection_for_vision(audio_features)
+        else:
+            raise ValueError(
+                f"audio_projection_mode = {audio_projection_mode} not implemented"
+            )
+
+        return audio_set_tensor
+
+    def forward(
+        self,
+        audio_features: torch.Tensor,
+        audio_attention_mask: torch.Tensor | None = None,
+        audio_projection_mode: str = "speech",
+    ) -> torch.Tensor:
+        """
+        arguments:
+            audio_features: audio features (T, D)
+
+        returns:
+            audio_embeds: audio embeddings (num_audio_tokens, hidden_dim)
+        """
+        audio_embeds = self.get_audio_features(
+            audio_features.unsqueeze(0),
+            audio_attention_mask=audio_attention_mask,
+            audio_projection_mode=audio_projection_mode,
+        )
+        return audio_embeds.squeeze(0)
diff --git a/model_executor/models/phi4mm_utils.py b/model_executor/models/phi4mm_utils.py
new file mode 100644
index 0000000..698435e
--- /dev/null
+++ b/model_executor/models/phi4mm_utils.py
@@ -0,0 +1,1907 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) Microsoft Corporation.
+# Licensed under the MIT license.
+# Code copied from Microsoft/MoE by Jacob Platin (jacobplatin@microsoft.com)
+# but implemented by the Phi-Speech team
+#!/usr/bin/env python3
+import math
+
+import torch
+import torch.nn.functional as F
+from torch import Tensor, nn
+
+
+class BlockBase(nn.Module):
+    """Block abstract module"""
+
+    def __init__(self, input_size: int, output_size: int) -> None:
+        super().__init__()
+        self.input_size = input_size
+        self.output_size = output_size
+
+
+def get_activation(name: str = "relu") -> torch.nn.Module:
+    """Select an activation function by name
+
+    Args:
+        name: str
+            activation function name,
+            one of ["relu", "gelu", "swish", "sigmoid"],
+            default "relu".
+    """
+    name = name.lower()
+    if name == "relu":
+        return nn.ReLU(inplace=True)
+    if name == "gelu":
+        return nn.GELU()
+    if name == "swish":
+        return Swish()
+    if name == "sigmoid":
+        return torch.nn.Sigmoid()
+    return nn.Identity()
+
+
+def adaptive_enc_mask(
+    x_len: int, chunk_start_idx: list[int], left_window: int = 0, right_window: int = 0
+) -> torch.Tensor:
+    """
+    The function is very important for Transformer Transducer Streaming mode
+    Args:
+        x_len: sequence length
+        chunk_start_idx: first idx of each chunk, such as [0,18,36,48].
+        It also supports adaptive chunk size [0,10,15,45]
+        left_window: how many left chunks can be seen
+        right_window: how many right chunks can be seen. It is used for
+        chunk overlap model.
+        Returns:
+            mask (torch.Tensor): a mask tensor for streaming model
+            Torch 1.0.1
+            tensor([[1., 1., 0., 0.],
+                    [0., 1., 1., 0.],
+                    [0., 0., 1., 1.]])
+            Torch 1.4.1
+            tensor([[True., True., False., False.],
+                    [False., True., True., False.],
+                    [False., False., True., True.]])
+    """
+    chunk_start_idx = torch.Tensor(
+        chunk_start_idx
+    ).long()  # first idx of each chunk, such as [0,18,36,48].
+    start_pad = torch.nn.functional.pad(
+        chunk_start_idx, (1, 0)
+    )  # append 0 to the beginning, so it becomes [0, 0, 18, 36, 48]
+    end_pad = torch.nn.functional.pad(
+        chunk_start_idx, (0, 1), value=x_len
+    )  # append x_len to the end, so it becomes [0,18,36,48, x_len]
+    seq_range = torch.arange(0, x_len).unsqueeze(-1)  # seq_range size: [x_len, 1]
+    idx = ((seq_range < end_pad) & (seq_range >= start_pad)).nonzero()[
+        :, 1
+    ]  # idx size: [x_len]
+    # boundary = end_pad[idx]  # boundary size: [x_len]
+    seq_range_expand = (
+        torch.arange(0, x_len).unsqueeze(0).expand(x_len, -1)
+    )  # seq_range_expand size [x_len, x_len]
+    idx_left = idx - left_window
+    idx_left[idx_left < 0] = 0
+    boundary_left = start_pad[idx_left]
+    mask_left = seq_range_expand >= boundary_left.unsqueeze(-1)
+    idx_right = idx + right_window
+    idx_right[idx_right > len(chunk_start_idx)] = len(chunk_start_idx)
+    boundary_right = end_pad[idx_right]
+    mask_right = seq_range_expand < boundary_right.unsqueeze(-1)
+    return mask_left & mask_right
+
+
+class Swish(nn.Module):
+    """Implement Swish activation module.
+    From https://arxiv.org/pdf/2005.03191.pdf
+
+    """
+
+    def __init__(self) -> None:
+        super().__init__()
+        self.act_fn = nn.Sigmoid()
+
+    def forward(self, x: Tensor) -> Tensor:
+        """Apply Swish function
+
+        Args:
+            x: torch.Tensor
+                Input.
+        """
+        return x * self.act_fn(x)
+
+
+class GLU(nn.Module):
+    """Implement Gated Linear Unit (GLU) module"""
+
+    def __init__(self, dim: int = -1, act_name: str = "sigmoid") -> None:
+        super().__init__()
+        self.dim = dim
+        self.act_name = act_name.lower()
+
+        if self.act_name == "relu":
+            self.act_fn = nn.ReLU(inplace=True)
+        elif self.act_name == "gelu":
+            self.act_fn = nn.GELU()
+        elif self.act_name == "swish":
+            self.act_fn = Swish()
+        elif self.act_name == "sigmoid":
+            self.act_fn = nn.Sigmoid()
+        else:
+            self.act_fn = nn.Identity()
+
+    def forward(self, x: Tensor) -> Tensor:
+        """GLU forward
+        Apply Swish function on the first half of input matrices
+        with sigmoid of the second half.
+
+        Args:
+            x: torch.Tensor
+                Input.
+
+        """
+        half_x, gate = x.chunk(2, dim=self.dim)
+        return half_x * self.act_fn(gate)
+
+
+# TODO: Abdel, this can be improved using GLU module
+class GLUPointWiseConv(nn.Module):
+    """GLUPointWiseConv module
+    used for conformer architecture,
+    for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        output_dim: int
+            output channel size.
+        kernel_size: int
+            kernel size
+        glu_type: str, optional
+            activation function one of
+             ["sigmoid", "relu", "gelu"]
+              default "sigmoid".
+        bias_in_glu: bool, optional
+            use addtive bias in glu
+        causal: bool, optional
+            if set to True, padding is set to the half of
+             kernel size, ie, convolution can't see future frames.
+              default False.
+
+    """
+
+    def __init__(
+        self,
+        input_dim: int,
+        output_dim: int,
+        kernel_size: int,
+        glu_type: str = "sigmoid",
+        bias_in_glu: bool = True,
+        causal: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.glu_type = glu_type
+        self.output_dim = output_dim
+        self.bias_in_glu = bias_in_glu
+        if causal:
+            self.ext_pw_conv_1d = nn.Conv1d(
+                input_dim,
+                output_dim * 2,
+                kernel_size,
+                1,
+                padding=(kernel_size - 1),
+            )
+        else:
+            self.ext_pw_conv_1d = nn.Conv1d(
+                input_dim,
+                output_dim * 2,
+                kernel_size,
+                1,
+                padding=(kernel_size - 1) // 2,
+            )
+
+        if glu_type == "sigmoid":
+            self.glu_act = nn.Sigmoid()
+        elif glu_type == "relu":
+            self.glu_act = nn.ReLU()
+        elif glu_type == "gelu":
+            self.glu_act = nn.GELU()
+        elif glu_type == "swish":
+            self.glu_act = Swish()
+        else:
+            raise ValueError(f"Unsupported activation type {self.glu_act}")
+
+        if bias_in_glu:
+            self.b1 = nn.Parameter(torch.zeros(1, output_dim, 1))
+            self.b2 = nn.Parameter(torch.zeros(1, output_dim, 1))
+
+    def forward(self, x: Tensor) -> Tensor:
+        """
+        Args:
+            x: input tensor
+        """
+        # to be consistent with GLULinear, we assume the input always has the
+        # #channel (#dim) in the last dimension of the tensor, so need to
+        # switch the dimension first for 1D-Conv case
+        x = x.permute([0, 2, 1])
+        x = self.ext_pw_conv_1d(x)
+        if self.glu_type == "bilinear":
+            if self.bias_in_glu:
+                x = (x[:, 0 : self.output_dim, :] + self.b1) * (
+                    x[:, self.output_dim : self.output_dim * 2, :] + self.b2
+                )
+            else:
+                x = (
+                    (x[:, 0 : self.output_dim, :])
+                    * (x[:, self.output_dim : self.output_dim * 2, :])
+                )
+        else:
+            if self.bias_in_glu:
+                x = (x[:, 0 : self.output_dim, :] + self.b1) * self.glu_act(
+                    x[:, self.output_dim : self.output_dim * 2, :] + self.b2
+                )
+            else:
+                x = (x[:, 0 : self.output_dim, :]) * self.glu_act(
+                    x[:, self.output_dim : self.output_dim * 2, :]
+                )
+
+        x = x.permute([0, 2, 1])
+        return x
+
+
+class DepthWiseSeperableConv1d(nn.Module):
+    """DepthWiseSeperableConv1d module used in Convnet module
+    for the conformer, for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel will be used as a channel_out
+             of the second conv1d layer.
+             otherwise, it equals to 0, the second conv1d layer is skipped.
+        kernel_size: int
+            kernel_size
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+            will be used to compute the hidden channels of the Conv1D.
+        padding: int, optional
+            padding for the conv1d,
+             default: 0.
+
+    """
+
+    def __init__(
+        self,
+        input_dim: int,
+        depthwise_seperable_out_channel: int,
+        kernel_size: int,
+        depthwise_multiplier: int,
+        padding: int = 0,
+    ) -> None:
+        super().__init__()
+
+        self.dw_conv = nn.Conv1d(
+            input_dim,
+            input_dim * depthwise_multiplier,
+            kernel_size,
+            1,
+            padding=padding,
+            groups=input_dim,
+        )
+
+        if depthwise_seperable_out_channel != 0:
+            self.pw_conv = nn.Conv1d(
+                input_dim * depthwise_multiplier,
+                depthwise_seperable_out_channel,
+                1,
+                1,
+                0,
+            )
+        else:
+            self.pw_conv = nn.Identity()
+        self.depthwise_seperable_out_channel = depthwise_seperable_out_channel
+
+    def forward(self, x: Tensor) -> Tensor:
+        """
+
+        Args:
+            x: input tensor
+        """
+        x = self.dw_conv(x)
+        if self.depthwise_seperable_out_channel != 0:
+            x = self.pw_conv(x)
+        return x
+
+
+class ConvModule(nn.Module):
+    """ConvModule Module for the conformer block.
+    for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        ext_pw_out_channel: int
+            if > 0, ext_pw_out_channel is a dim channel size
+             for the last pointwise conv after swish activation.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel
+             will be used as a channel_out of the second conv1d layer.
+             otherwise, it equal to 0, the second conv1d layer is skipped.
+        ext_pw_kernel_size: int
+            kernel size of the conv pointwise of the conformer.
+        kernel_size: int
+            kernel size.
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+             will be used to compute the hidden channels of the Conv1D.
+        dropout_rate: float
+            dropout rate.
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation.
+            default False
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+        chunk_size: int, optional
+            chunk size for cnn. default 18
+        activation: str, optional
+            activation function used in ConvModule,
+            default: "relu".
+        glu_type: str, optional
+            activation function used for the glu,
+            default: "sigmoid".
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU.
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        export: bool, optional,
+            if set to True, padding is equal to 0.  This is for inference,
+             or onnx export.  Typically this is set by the export program or
+             the decoder program, and it isn't present in your config file.
+             default False
+    """
+
+    def __init__(
+        self,
+        input_dim: int,
+        ext_pw_out_channel: int,
+        depthwise_seperable_out_channel: int,
+        ext_pw_kernel_size: int,
+        kernel_size: int,
+        depthwise_multiplier: int,
+        dropout_rate: float,
+        causal: bool = False,
+        batch_norm: bool = False,
+        chunk_se: int = 0,
+        chunk_size: int = 18,
+        activation: str = "relu",
+        glu_type: str = "sigmoid",
+        bias_in_glu: bool = True,
+        linear_glu_in_convm: bool = False,
+        export: bool = False,
+    ) -> None:
+        super().__init__()
+        self.layer_norm = nn.LayerNorm(input_dim)
+        self.input_dim = input_dim
+        self.ext_pw_out_channel = ext_pw_out_channel
+        self.ext_pw_kernel_size = ext_pw_kernel_size
+        self.depthwise_seperable_out_channel = depthwise_seperable_out_channel
+        self.glu_type = glu_type
+        self.bias_in_glu = bias_in_glu
+        self.linear_glu_in_convm = linear_glu_in_convm
+        self.causal = causal
+
+        self._add_ext_pw_layer()
+
+        self.batch_norm = batch_norm
+        self.kernel_size = kernel_size
+
+        if batch_norm:
+            self.bn_layer = nn.BatchNorm1d(input_dim)
+
+        self.act = get_activation(activation)
+        self.dropout = nn.Dropout(dropout_rate)
+        self.export = export
+
+        if causal:
+            padding = 0 if export else kernel_size - 1
+        else:
+            padding = (kernel_size - 1) // 2
+
+        self.dw_sep_conv_1d = DepthWiseSeperableConv1d(
+            input_dim,
+            depthwise_seperable_out_channel,
+            kernel_size,
+            depthwise_multiplier,
+            padding=padding,
+        )
+
+        if depthwise_seperable_out_channel != 0:
+            if input_dim != depthwise_seperable_out_channel:
+                self.ln2 = nn.Linear(depthwise_seperable_out_channel, input_dim)
+        else:
+            if depthwise_multiplier != 1:
+                self.ln2 = nn.Linear(input_dim * depthwise_multiplier, input_dim)
+
+    def _add_ext_pw_layer(self) -> None:
+        """
+        This function is an extension of __init__ function
+        and dedicated to the convolution module creation
+        of the conformer.
+        """
+        self.ln1 = self.glu = self.bn_layer = self.ext_pw_conv_1d = (
+            nn.Identity()
+        )  # jit hacks.
+        self.squeeze_excitation = nn.Identity()  # jit.
+        self.apply_ln1 = self.fix_len1 = False  # jit.
+
+        if self.ext_pw_out_channel != 0:
+            if self.causal:
+                self.ext_pw_conv_1d = nn.Conv1d(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    1,
+                    padding=(self.ext_pw_kernel_size - 1),
+                )
+                if self.ext_pw_kernel_size > 1:
+                    self.fix_len1 = True
+                else:
+                    self.fix_len1 = False
+            else:
+                self.ext_pw_conv_1d = nn.Conv1d(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    1,
+                    padding=(self.ext_pw_kernel_size - 1) // 2,
+                )
+                self.fix_len1 = False
+
+            if self.linear_glu_in_convm:
+                self.glu = GLULinear(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.glu_type,
+                    self.bias_in_glu,
+                )
+            else:
+                self.glu = GLUPointWiseConv(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    self.glu_type,
+                    self.bias_in_glu,
+                    self.causal,
+                )
+
+            if self.input_dim != self.ext_pw_out_channel:
+                self.apply_ln1 = True
+                self.ln1 = nn.Linear(self.ext_pw_out_channel, self.input_dim)
+            else:
+                self.apply_ln1 = False
+        else:
+            self.pw_conv_simplify_w = torch.nn.Parameter(torch.ones(3))
+            self.pw_conv_simplify_b = torch.nn.Parameter(torch.zeros(3))
+
+    def forward(self, x: Tensor) -> Tensor:
+        """ConvModule Forward.
+
+        Args:
+            x: input tensor.
+        """
+        x = self.layer_norm(x)
+
+        if self.ext_pw_out_channel != 0:
+            x = self.glu(x)
+            if self.causal and self.ext_pw_kernel_size > 1:
+                x = x[:, : -(self.ext_pw_kernel_size - 1), :]
+            if self.apply_ln1:
+                x = self.ln1(x)
+        else:
+            x_0 = x * self.pw_conv_simplify_w[0] + self.pw_conv_simplify_b[0]
+            x_1 = x * self.pw_conv_simplify_w[1] + self.pw_conv_simplify_b[1]
+            x = x_0 + x_1
+
+        x = x.permute([0, 2, 1])
+
+        x = self.dw_sep_conv_1d(x)
+        if self.causal and self.kernel_size > 1:
+            x = x[:, :, : -(self.kernel_size - 1)]
+        if hasattr(self, "ln2"):
+            x = x.permute([0, 2, 1])
+            x = self.ln2(x)
+            x = x.permute([0, 2, 1])
+        if self.batch_norm:
+            x = self.bn_layer(x)
+        x = self.act(x)
+
+        if self.ext_pw_out_channel != 0:
+            x = self.ext_pw_conv_1d(x)
+            if self.fix_len1:
+                x = x[:, :, : -(self.ext_pw_kernel_size - 1)]
+
+            if self.apply_ln1:
+                x = x.permute([0, 2, 1])
+                x = self.ln1(x)
+                x = x.permute([0, 2, 1])
+
+            x = x.permute([0, 2, 1])
+        else:
+            x = x.unsqueeze(1).permute([0, 1, 3, 2])
+            x = x * self.pw_conv_simplify_w[2] + self.pw_conv_simplify_b[2]
+            x = x.squeeze(1)
+
+        x = self.dropout(x)
+        return x
+
+
+class GLULinear(nn.Module):
+    """Linear + GLU module
+
+    Args:
+        input_dim: int
+            input size
+        output_dim: int
+            output size.
+        glu_type:
+            activation function name used in glu module.
+            default "sigmoid" (swish function).
+        bias_in_glu: bool, optional
+            If True, the addtive bias is added. Default False.
+    """
+
+    def __init__(
+        self,
+        input_dim: int,
+        output_dim: int,
+        glu_type: str = "sigmoid",
+        bias_in_glu: bool = True,
+    ) -> None:
+        super().__init__()
+        self.linear = nn.Linear(input_dim, output_dim * 2, bias_in_glu)
+        self.glu_act = GLU(-1, glu_type)
+
+    def forward(self, x: Tensor) -> Tensor:
+        """GLULinear forward
+
+        Args:
+            x: input tensor.
+        """
+        x = self.linear(x)
+        return self.glu_act(x)
+
+
+class FeedForward(nn.Module):
+    """FeedForward Module.
+    For more details see Conformer paper:
+        https://arxiv.org/pdf/2005.08100.pdf
+
+    Args:
+        d_model: int
+            input size.
+        d_inner: int
+            output size.
+        dropout_rate: float,
+            dropout rate.
+        activation: str,
+            activation function name,
+            one of ["relu", "swish", "sigmoid"],
+            sigmoid activation is only used with "glu_in_fnn=True",
+            default "sigmoid".
+        bias_in_glu: bool, optional
+    """
+
+    def __init__(
+        self,
+        d_model: int,
+        d_inner: int,
+        dropout_rate: float,
+        activation: str = "sigmoid",
+        bias_in_glu: bool = True,
+    ) -> None:
+        super().__init__()
+        self.d_model = d_model
+        self.d_inner = d_inner
+
+        self.layer_norm = nn.LayerNorm(d_model)
+        module = GLULinear(d_model, d_inner, activation, bias_in_glu)
+        self.net = nn.Sequential(
+            module,
+            nn.Dropout(dropout_rate),
+            nn.Linear(d_inner, d_model),
+            nn.Dropout(dropout_rate),
+        )
+
+    def forward(self, x: Tensor) -> Tensor:
+        """FeedForward forward function.
+
+        Args:
+            x: input tensor.
+        """
+        out = self.net(self.layer_norm(x))
+
+        return out
+
+
+#### positional encoding starts here
+def _pre_hook(
+    state_dict: dict,
+    prefix: str,
+    local_metadata: dict,
+    strict: bool,
+    missing_keys: list[str],
+    unexpected_keys: list[str],
+    error_msgs: list[str],
+) -> None:
+    """Perform pre-hook in load_state_dict for backward compatibility.
+
+    Note:
+        We saved self.pe until v.0.5.2 but we have omitted it later.
+        Therefore, we remove the item "pe" from `state_dict` for backward
+        compatibility.
+
+    """
+    k = prefix + "pe"
+    if k in state_dict:
+        state_dict.pop(k)
+
+
+class T5RelativeAttentionLogitBias(nn.Module):
+    """
+    This module implements the relative position bias described in Section
+    2.1 of the T5 paper: https://arxiv.org/pdf/1910.10683.pdf
+
+    The Huggingface implementation is used as a reference
+    https://github.com/huggingface/transformers/blob/v4.30.0/src/
+    transformers/models/t5/modeling_t5.py#L435
+
+    Modifies attention as Q*K^T + B, where B is a learned scalar bias based
+    on relative position of the query and key. It is HxNxN, where H is the
+    number of heads, N is the sequence length.
+
+    I've made these modifications to the original T5 bias:
+    - Skipping of the bucketing step. Original T5 bias converted rel
+      position distances into logarithmically increasing buckets. This is
+      supposed to help with length generalization.
+    - I just directly use rel position index as bias values, as we don't
+      need length generalization (40s max is good enough for ASR encoder),
+      and it keeps ONNX export simple.
+    - I've also extended it so that biases can be asymmetric, the default
+      implementation treats L->R and R->L the same. Asymmetric was found to
+      yield better results in my experiments.
+
+    Args:
+        num_heads: int
+            Number of attention heads
+        num_buckets: int
+            Number of buckets to use for relative attention bias. This is the
+            size of the learnable bias parameter. Bucketing is not yet
+            supported, so this defaults to -1 which means no bucketing is
+            used (max_distance determines size of bias param).
+        max_distance: int
+            Maximum distance to use for relative attention bias. With
+            num_buckets=-1, this directly controls the max size of the bias
+            parameter. When num_buckets > 0 is supported, this will control
+            the maximum distance for logarithmic bucketing after which all
+            positions are in the same bucket.
+        symmetric: bool
+            Whether to use symmetric or asymmetric biases. symmetric=False uses
+            2x number of bias params to distinguish L->R from R->L. This was
+            found to be better for the encoder.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        num_buckets: int = -1,
+        max_distance: int = 1000,
+        symmetric: bool = False,
+    ) -> None:
+        super().__init__()
+        self.num_heads = num_heads
+        self.num_buckets = num_buckets
+        self.max_distance = max_distance
+        self.symmetric = symmetric
+        self._skip_bucketing = self.num_buckets < 0
+        if self._skip_bucketing:
+            self.num_buckets = max_distance
+        else:
+            raise NotImplementedError(
+                "T5 attention bias with bucketed positions is not yet tested"
+            )
+        if not self.symmetric:
+            self.num_buckets *= 2
+        self.bias_values = nn.Embedding(self.num_buckets, self.num_heads)
+
+    def forward(self, x: Tensor) -> Tensor:
+        # instantiate bias compatible with shape of x
+        maxpos = x.size(1)
+        context_position = torch.arange(maxpos, device=x.device, dtype=torch.long)[
+            :, None
+        ]
+        memory_position = torch.arange(maxpos, device=x.device, dtype=torch.long)[
+            None, :
+        ]
+        relative_position = memory_position - context_position
+        # clipping to a maximum distance using ops that play well with ONNX
+        # export
+        relative_position = relative_position.masked_fill(
+            relative_position < -self.max_distance, -self.max_distance
+        )
+        relative_position = relative_position.masked_fill(
+            relative_position > self.max_distance - 1, self.max_distance - 1
+        )
+
+        # mapping from relative position to index in the bias parameter
+        if self._skip_bucketing:
+            bias_idx = relative_position
+        else:
+            bias_idx = self._bucket_relative_position(relative_position)
+        if self.symmetric:
+            bias_idx = bias_idx.abs()
+        else:
+            bias_idx += self.num_buckets // 2
+
+        t5_rel_att_bias = self.bias_values(bias_idx)  # [L, L, H]
+        t5_rel_att_bias = t5_rel_att_bias.permute(2, 0, 1).unsqueeze(0)  # [1, H, L, L]
+
+        return t5_rel_att_bias
+
+    def _bucket_relative_position(self, relative_position: Tensor) -> Tensor:
+        # this is a placeholder (isn't tested, likely buggy) using HuggingFace
+        # implem as a reference this also needs to be extended to support
+        # asymmetric +/- ve positions
+        relative_buckets = 0
+        if not self.causal:
+            self.num_buckets //= 2
+            relative_buckets += (relative_position > 0).to(
+                torch.long
+            ) * self.num_buckets
+            relative_position = torch.abs(relative_position)
+        else:
+            relative_position = -torch.min(
+                relative_position, torch.zeros_like(relative_position)
+            )
+        # now relative_position is in the range [0, inf)
+
+        # half of the buckets are for exact increments in positions
+        max_exact = self.num_buckets // 2
+        is_small = relative_position < max_exact
+
+        # The other half of the buckets are for logarithmically bigger bins in
+        # positions up to max_distance
+        relative_position_if_large = max_exact + (
+            torch.log(relative_position.float() / max_exact)
+            / math.log(self.max_distance / max_exact)
+            * (self.num_buckets - max_exact)
+        ).to(torch.long)
+        relative_position_if_large = torch.min(
+            relative_position_if_large,
+            torch.full_like(relative_position_if_large, self.num_buckets - 1),
+        )
+
+        relative_buckets += torch.where(
+            is_small, relative_position, relative_position_if_large
+        )
+        return relative_buckets
+
+
+class AbsolutePositionalEncoding(nn.Module):
+    """Absolute Positional encoding module.
+    This module implement Absolute sinusoidal positional encoding
+    from: https://arxiv.org/pdf/1706.03762.pdf
+
+    Args:
+        d_model: int
+            Input embedding size.
+        dropout_rate: float
+            dropout rate
+        max_len: int, optional
+            Maximum input length sequence, Default 5000
+
+    """
+
+    def __init__(self, d_model: int, dropout_rate: float, max_len: int = 5000) -> None:
+        """Construct an PositionalEncoding object."""
+        super().__init__()
+        self.d_model = d_model
+        self.xscale = math.sqrt(self.d_model)
+        self.dropout = torch.nn.Dropout(p=dropout_rate)
+        self.pe = None
+        self.extend_pe(torch.tensor(0.0).expand(1, max_len))
+        self._register_load_state_dict_pre_hook(_pre_hook)
+
+    def extend_pe(self, x: torch.Tensor) -> None:
+        """Reset the positional encodings.
+
+        Args:
+            x: input tensor
+        """
+        if self.pe is not None and self.pe.size(1) >= x.size(1):
+            if self.pe.dtype != x.dtype or self.pe.device != x.device:
+                self.pe = self.pe.to(dtype=x.dtype, device=x.device)
+            return
+        pe = torch.zeros(x.size(1), self.d_model)
+        position = torch.arange(0, x.size(1), dtype=torch.float32).unsqueeze(1)
+        div_term = torch.exp(
+            torch.arange(0, self.d_model, 2, dtype=torch.float32)
+            * -(math.log(10000.0) / self.d_model)
+        )
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0)
+        self.pe = pe.to(device=x.device, dtype=x.dtype)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """Add positional encoding.
+
+        Args:
+            x: Input tensor. shape is (batch, time, ...)
+
+        Returns:
+            Encoded tensor. Its shape is (batch, time, ...)
+
+        """
+        self.extend_pe(x)
+        x = x * self.xscale + self.pe[:, : x.size(1)]
+        return self.dropout(x)
+
+
+#### forward embedding layers starts here
+class MeanVarianceNormLayer(nn.Module):
+    """Mean/variance normalization layer.
+
+    Will subtract mean and multiply input by inverted standard deviation.
+    Typically used as a very first layer in a model.
+
+    Args:
+        input_size: int
+            layer input size.
+    """
+
+    def __init__(self, input_size: int) -> None:
+        super().__init__()
+        self.input_size = input_size
+        self.global_mean = nn.Parameter(torch.zeros(input_size))
+        self.global_invstd = nn.Parameter(torch.ones(input_size))
+
+    def forward(self, input_: Tensor) -> Tensor:
+        """MeanVarianceNormLayer Forward
+
+        Args:
+            input_: input tensor.
+        """
+        return (input_ - self.global_mean) * self.global_invstd
+
+
+class CausalConv1D(nn.Conv1d):
+    """
+    A causal version of nn.Conv1d where each step would have limited access to
+    locations on its right or left
+    All arguments are the same as nn.Conv1d except padding.
+
+    If padding is set None, then paddings are set automatically to make it a
+    causal convolution where each location would not see any steps on its right.
+
+    If padding is set as a list (size of 2), then padding[0] would be used as
+    left padding and padding[1] as right padding.
+    It would make it possible to control the number of steps to be accessible
+    on the right and left.
+    This mode is not supported when stride > 1. padding[0]+padding[1] should
+    be equal to (kernel_size - 1).
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int = 1,
+        padding: str | int = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        device=None,
+        dtype=None,
+    ) -> None:
+        self.cache_drop_size = None
+        if padding is None:
+            self._left_padding = kernel_size - 1
+            self._right_padding = stride - 1
+        else:
+            if stride != 1 and padding != kernel_size - 1:
+                raise ValueError("No striding allowed for non-symmetric convolutions!")
+            if isinstance(padding, int):
+                self._left_padding = padding
+                self._right_padding = padding
+            elif (
+                isinstance(padding, list)
+                and len(padding) == 2
+                and padding[0] + padding[1] == kernel_size - 1
+            ):
+                self._left_padding = padding[0]
+                self._right_padding = padding[1]
+            else:
+                raise ValueError(f"Invalid padding param: {padding}!")
+
+        self._max_cache_len = self._left_padding
+
+        super().__init__(
+            in_channels=in_channels,
+            out_channels=out_channels,
+            kernel_size=kernel_size,
+            stride=stride,
+            padding=0,
+            dilation=dilation,
+            groups=groups,
+            bias=bias,
+            padding_mode=padding_mode,
+            device=device,
+            dtype=dtype,
+        )
+
+    def update_cache(
+        self, x: Tensor, cache: Tensor | None = None
+    ) -> tuple[Tensor, Tensor | None]:
+        if cache is None:
+            new_x = F.pad(x, pad=(self._left_padding, self._right_padding))
+            next_cache = cache
+        else:
+            new_x = F.pad(x, pad=(0, self._right_padding))
+            new_x = torch.cat([cache, new_x], dim=-1)
+            if self.cache_drop_size > 0:
+                next_cache = new_x[:, :, : -self.cache_drop_size]
+            else:
+                next_cache = new_x
+            next_cache = next_cache[:, :, -cache.size(-1) :]
+        return new_x, next_cache
+
+    def forward(
+        self, x: Tensor, cache: Tensor | None = None
+    ) -> Tensor | tuple[Tensor, Tensor | None]:
+        x, cache = self.update_cache(x, cache=cache)
+        x = super().forward(x)
+        if cache is None:
+            return x
+        else:
+            return x, cache
+
+
+class CausalConv2D(nn.Conv2d):
+    """
+    A causal version of nn.Conv2d where each location in the 2D matrix would
+    have no access to locations on its right or down
+    All arguments are the same as nn.Conv2d except padding which should be
+    set as None
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int = 1,
+        padding: str | int = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        device=None,
+        dtype=None,
+    ) -> None:
+        if padding is not None:
+            raise ValueError("Argument padding should be set to None for CausalConv2D.")
+        self._left_padding = kernel_size - 1
+        self._right_padding = stride - 1
+
+        padding = 0
+        super().__init__(
+            in_channels,
+            out_channels,
+            kernel_size,
+            stride,
+            padding,
+            dilation,
+            groups,
+            bias,
+            padding_mode,
+            device,
+            dtype,
+        )
+
+    def forward(
+        self,
+        x: Tensor,
+    ) -> Tensor:
+        x = F.pad(
+            x,
+            pad=(self._left_padding, self._right_padding, 0, 0),
+        )
+        x = super().forward(x)
+        return x
+
+
+class NemoConvSubsampling(torch.nn.Module):
+    """Convlutional subsampling module, taken from NeMo ASR
+    (https://github.com/NVIDIA/NeMo/blob/b367413645d5c72db3c2c96e46e95a
+    34501479cf/nemo/collections/asr/parts/submodules/subsampling.py)
+
+    Striding Subsampling: "Speech-Transformer: A No-Recurrence
+    Sequence-to-Sequence Model for Speech Recognition" by Linhao Dong
+    et al. (https://ieeexplore.ieee.org/document/8462506)
+
+
+    Compared with the EncoderConv2D (`input_layer: custom`), this is a
+    much simplified approach, and uses no LayerNorm and far fewer Conv2Ds.
+    Moreover, depthwise convolutions are used to reduce FLOPs, but the first
+      layer is kept as a regular convolution so as not to degrade accuracy.
+
+    `Striding` and `dw_striding` are the same except that the latter uses
+    depthwise convolutions after the first layer, whereas the former does not.
+
+    Args:
+        subsampling_factor (int): Time reduction factor
+        feat_in (int): size of the input features
+        feat_out (int): size of the output features
+        subsampling (str): The subsampling technique, choose from
+            {"striding", "dw-striding", "striding_conv1d",
+            "dw_striding_conv1d"}
+        conv_channels (int): Number of channels for the convolution layers,
+                            default is 256.
+        subsampling_conv_chunking_factor (int): Input chunking factor which
+            can be -1 (no chunking) 1 (auto) or a power of 2. Default is 1
+        activation (Module): activation function, default is nn.ReLU()
+        is_causal (bool): whether to use causal Conv1/2D, where each step will
+            have limited access to locations on its right or left
+    """
+
+    def __init__(
+        self,
+        feat_in: int,
+        feat_out: int,
+        subsampling_factor: int = 4,
+        subsampling: str = "dw_striding",
+        conv_channels: int = 256,
+        subsampling_conv_chunking_factor: int = 1,
+        activation: torch.nn.Module = nn.ReLU(),  # noqa: B008
+        is_causal: bool = False,
+    ) -> None:
+        super().__init__()
+        self._subsampling = subsampling
+        self._conv_channels = conv_channels
+        self._feat_in = feat_in
+        self._feat_out = feat_out
+
+        if subsampling_factor % 2 != 0:
+            raise ValueError("Sampling factor should be a multiply of 2!")
+        self._sampling_num = int(math.log(subsampling_factor, 2))
+        self.subsampling_factor = subsampling_factor
+        self.is_causal = is_causal
+        self.subsampling_causal_cond = subsampling in (
+            "dw_striding",
+            "striding",
+            "striding_conv1d",
+        )
+
+        if (
+            subsampling_conv_chunking_factor != -1
+            and subsampling_conv_chunking_factor != 1
+            and subsampling_conv_chunking_factor % 2 != 0
+        ):
+            raise ValueError(
+                "subsampling_conv_chunking_factor should be -1, 1, or a power of 2"
+            )
+        self.subsampling_conv_chunking_factor = subsampling_conv_chunking_factor
+
+        in_channels = 1
+        layers = []
+
+        if subsampling == "dw_striding":
+            self._stride = 2
+            self._kernel_size = 3
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            # Layer 1
+            if self.is_causal:
+                layers.append(
+                    CausalConv2D(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=None,
+                    )
+                )
+            else:
+                layers.append(
+                    torch.nn.Conv2d(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=self._left_padding,
+                    )
+                )
+            in_channels = conv_channels
+            layers.append(activation)
+
+            for i in range(self._sampling_num - 1):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv2D(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                            groups=in_channels,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv2d(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                            groups=in_channels,
+                        )
+                    )
+
+                layers.append(
+                    torch.nn.Conv2d(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=1,
+                        stride=1,
+                        padding=0,
+                        groups=1,
+                    )
+                )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "striding":
+            self._stride = 2
+            self._kernel_size = 3
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            for i in range(self._sampling_num):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv2D(
+                            in_channels=in_channels,
+                            out_channels=conv_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv2d(
+                            in_channels=in_channels,
+                            out_channels=conv_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                        )
+                    )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "striding_conv1d":
+            in_channels = feat_in
+
+            self._stride = 2
+            self._kernel_size = 5
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            for i in range(self._sampling_num):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv1D(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 1
+                                else conv_channels
+                            ),
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 1
+                                else conv_channels
+                            ),
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                        )
+                    )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "dw_striding_conv1d":
+            in_channels = feat_in
+
+            self._stride = 2
+            self._kernel_size = 5
+            self._ceil_mode = False
+
+            self._left_padding = (self._kernel_size - 1) // 2
+            self._right_padding = (self._kernel_size - 1) // 2
+
+            # Layer 1
+            layers.extend(
+                [
+                    torch.nn.Conv1d(
+                        in_channels=in_channels,
+                        out_channels=in_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=self._left_padding,
+                        groups=in_channels,
+                    ),
+                    torch.nn.Conv1d(
+                        in_channels=in_channels,
+                        out_channels=(
+                            feat_out if self._sampling_num == 1 else conv_channels
+                        ),
+                        kernel_size=1,
+                        stride=1,
+                        padding=0,
+                        groups=1,
+                    ),
+                ]
+            )
+            in_channels = conv_channels
+            layers.append(activation)
+
+            for i in range(self._sampling_num - 1):
+                layers.extend(
+                    [
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                            groups=in_channels,
+                        ),
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 2
+                                else conv_channels
+                            ),
+                            kernel_size=1,
+                            stride=1,
+                            padding=0,
+                            groups=1,
+                        ),
+                    ]
+                )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        else:
+            raise ValueError(f"Not valid sub-sampling: {subsampling}!")
+
+        if subsampling in ["dw_striding", "striding"]:
+            in_length = torch.tensor(feat_in, dtype=torch.float)
+            out_length = calc_length(
+                lengths=in_length,
+                all_paddings=self._left_padding + self._right_padding,
+                kernel_size=self._kernel_size,
+                stride=self._stride,
+                ceil_mode=self._ceil_mode,
+                repeat_num=self._sampling_num,
+            )
+            self.out = torch.nn.Linear(conv_channels * int(out_length), feat_out)
+            self.conv2d_subsampling = True
+        elif subsampling in ["striding_conv1d", "dw_striding_conv1d"]:
+            self.out = None
+            self.conv2d_subsampling = False
+        else:
+            raise ValueError(f"Not valid sub-sampling: {subsampling}!")
+
+        self.conv = torch.nn.Sequential(*layers)
+
+    def get_sampling_frames(self) -> list[int]:
+        return [1, self.subsampling_factor]
+
+    def get_streaming_cache_size(self) -> list[int]:
+        return [0, self.subsampling_factor + 1]
+
+    def forward(self, x: Tensor, mask: Tensor | None) -> tuple[Tensor, Tensor | None]:
+        """
+        Forward method for NeMo subsampling.
+
+        Args:
+            x: input tensor
+            mask: input mask
+
+        Returns:
+            x: Resulting tensor from subsampling (B, T //
+                time_reduction_factor, feat_out)
+            pad_mask: tensor of padded hidden state sequences (B, 1, T //
+                time_reduction_factor)
+        """
+        x = x.unsqueeze(1) if self.conv2d_subsampling else x.transpose(1, 2)
+
+        # split inputs if chunking_factor is set
+        if self.subsampling_conv_chunking_factor != -1 and self.conv2d_subsampling:
+            if self.subsampling_conv_chunking_factor == 1:
+                # if subsampling_conv_chunking_factor is 1, we split only
+                # if needed.
+                # avoiding a bug / feature limiting indexing of tensors
+                # to 2**31.
+                # see https://github.com/pytorch/pytorch/issues/80020
+                x_ceil = 2**31 / self._conv_channels * self._stride * self._stride
+                need_to_split = torch.numel(x) > x_ceil
+            else:
+                # if subsampling_conv_chunking_factor > 1 we always split
+                need_to_split = True
+
+            if need_to_split:
+                x, success = self.conv_split_by_batch(x)
+                if not success:  # if unable to split by batch, try by channel
+                    if self._subsampling == "dw_striding":
+                        x = self.conv_split_by_channel(x)
+                    else:
+                        x = self.conv(x)  # try anyway
+            else:
+                x = self.conv(x)
+        else:
+            x = self.conv(x)
+
+        # Flatten Channel and Frequency Axes
+        if self.conv2d_subsampling:
+            b, c, t, f = x.size()
+            x = self.out(x.transpose(1, 2).reshape(b, t, -1))
+        # Transpose to Channel Last mode
+        else:
+            x = x.transpose(1, 2)
+
+        if mask is None:
+            return x, None
+
+        max_audio_length = x.shape[1]
+        feature_lens = mask.sum(1)
+        padding_length = torch.ceil(feature_lens / self.subsampling_factor)
+        if self.is_causal and self.subsampling_causal_cond:
+            feature_lens_remainder = feature_lens % self.subsampling_factor
+            padding_length[feature_lens_remainder != 1] += 1
+        pad_mask = torch.arange(0, max_audio_length, device=x.device).expand(
+            padding_length.size(0), -1
+        ) < padding_length.unsqueeze(1)
+        return x, pad_mask.unsqueeze(1)
+
+    def reset_parameters(self) -> None:
+        # initialize weights
+        if self._subsampling == "dw_striding":
+            with torch.no_grad():
+                # init conv
+                scale = 1.0 / self._kernel_size
+                dw_max = (self._kernel_size**2) ** -0.5
+                pw_max = self._conv_channels**-0.5
+
+                torch.nn.init.uniform_(self.conv[0].weight, -scale, scale)
+                torch.nn.init.uniform_(self.conv[0].bias, -scale, scale)
+
+                for idx in range(2, len(self.conv), 3):
+                    torch.nn.init.uniform_(self.conv[idx].weight, -dw_max, dw_max)
+                    torch.nn.init.uniform_(self.conv[idx].bias, -dw_max, dw_max)
+                    torch.nn.init.uniform_(self.conv[idx + 1].weight, -pw_max, pw_max)
+                    torch.nn.init.uniform_(self.conv[idx + 1].bias, -pw_max, pw_max)
+
+                # init fc (80 * 64 = 5120 from https://github.com/kssteven418/
+                # Squeezeformer/blob/13c97d6cf92f2844d2cb3142b4c5bfa9ad1a8951/
+                # src/models/conformer_encoder.py#L487
+                fc_scale = (self._feat_out * self._feat_in / self._sampling_num) ** -0.5
+                torch.nn.init.uniform_(self.out.weight, -fc_scale, fc_scale)
+                torch.nn.init.uniform_(self.out.bias, -fc_scale, fc_scale)
+
+    def conv_split_by_batch(self, x: Tensor) -> tuple[Tensor, bool]:
+        """Tries to split input by batch, run conv and concat results"""
+        b, _, _, _ = x.size()
+        if b == 1:  # can't split if batch size is 1
+            return x, False
+
+        if self.subsampling_conv_chunking_factor > 1:
+            cf = self.subsampling_conv_chunking_factor
+        else:
+            # avoiding a bug / feature limiting indexing of tensors to 2**31
+            # see https://github.com/pytorch/pytorch/issues/80020
+            x_ceil = 2**31 / self._conv_channels * self._stride * self._stride
+            p = math.ceil(math.log(torch.numel(x) / x_ceil, 2))
+            cf = 2**p
+
+        new_batch_size = b // cf
+        if new_batch_size == 0:  # input is too big
+            return x, False
+
+        return (
+            torch.cat(
+                [self.conv(chunk) for chunk in torch.split(x, new_batch_size, 0)]
+            ),
+            True,
+        )
+
+    def conv_split_by_channel(self, x: Tensor) -> Tensor:
+        """For dw convs, tries to split input by time, run conv and concat
+        results"""
+        x = self.conv[0](x)  # full conv2D
+        x = self.conv[1](x)  # activation
+
+        for i in range(self._sampling_num - 1):
+            _, c, t, _ = x.size()
+
+            if self.subsampling_conv_chunking_factor > 1:
+                cf = self.subsampling_conv_chunking_factor
+            else:
+                # avoiding a bug / feature limiting indexing of tensors
+                # to 2**31
+                # see https://github.com/pytorch/pytorch/issues/80020
+                p = math.ceil(math.log(torch.numel(x) / 2**31, 2))
+                cf = 2**p
+
+            new_c = int(c // cf)
+            if new_c == 0:
+                new_c = 1
+
+            new_t = int(t // cf)
+            if new_t == 0:
+                new_t = 1
+
+            x = self.channel_chunked_conv(
+                self.conv[i * 3 + 2], new_c, x
+            )  # conv2D, depthwise
+
+            # splitting pointwise convs by time
+            x = torch.cat(
+                [self.conv[i * 3 + 3](chunk) for chunk in torch.split(x, new_t, 2)],
+                2,
+            )  # conv2D, pointwise
+            x = self.conv[i * 3 + 4](x)  # activation
+        return x
+
+    def channel_chunked_conv(
+        self, conv: torch.nn.Module, chunk_size: int, x: Tensor
+    ) -> Tensor:
+        """Performs channel chunked convolution"""
+
+        ind = 0
+        out_chunks = []
+        for chunk in torch.split(x, chunk_size, 1):
+            step = chunk.size()[1]
+
+            if self.is_causal:
+                chunk = nn.functional.pad(
+                    chunk,
+                    pad=(
+                        self._kernel_size - 1,
+                        self._stride - 1,
+                        self._kernel_size - 1,
+                        self._stride - 1,
+                    ),
+                )
+                ch_out = nn.functional.conv2d(
+                    chunk,
+                    conv.weight[ind : ind + step, :, :, :],
+                    bias=conv.bias[ind : ind + step],
+                    stride=self._stride,
+                    padding=0,
+                    groups=step,
+                )
+            else:
+                ch_out = nn.functional.conv2d(
+                    chunk,
+                    conv.weight[ind : ind + step, :, :, :],
+                    bias=conv.bias[ind : ind + step],
+                    stride=self._stride,
+                    padding=self._left_padding,
+                    groups=step,
+                )
+            out_chunks.append(ch_out)
+            ind += step
+
+        return torch.cat(out_chunks, 1)
+
+    def change_subsampling_conv_chunking_factor(
+        self, subsampling_conv_chunking_factor: int
+    ) -> None:
+        if (
+            subsampling_conv_chunking_factor != -1
+            and subsampling_conv_chunking_factor != 1
+            and subsampling_conv_chunking_factor % 2 != 0
+        ):
+            raise ValueError(
+                "subsampling_conv_chunking_factor should be -1, 1, or a power of 2"
+            )
+        self.subsampling_conv_chunking_factor = subsampling_conv_chunking_factor
+
+
+def calc_length(
+    lengths: Tensor,
+    all_paddings: int,
+    kernel_size: int,
+    stride: int,
+    ceil_mode: bool,
+    repeat_num: int = 1,
+) -> Tensor:
+    """Calculates the output length of a Tensor passed through a convolution or
+    max pooling layer"""
+    add_pad: float = all_paddings - kernel_size
+    one: float = 1.0
+    for i in range(repeat_num):
+        lengths = torch.div(lengths.to(dtype=torch.float) + add_pad, stride) + one
+        lengths = torch.ceil(lengths) if ceil_mode else torch.floor(lengths)
+    return lengths.to(dtype=torch.int)
+
+
+####  multihead attention starts here
+class AttModule(nn.Module):
+    """Attention abstraction module"""
+
+    def __init__(self) -> None:
+        super().__init__()
+        self.export_mode = False
+
+    def set_export(self, mode: bool = True) -> None:
+        """set the export mode"""
+        self.export_mode = mode
+
+    def forward(
+        self,
+        x: Tensor,
+        memory: Tensor | None = None,
+        pos_emb: Tensor | None = None,
+        att_mask: Tensor | None = None,
+    ) -> tuple[Tensor, Tensor, Tensor | None, Tensor | None]:
+        """AttModule forward
+
+        Args:
+            x: input tensor.
+            memory: memory tensor.
+            pos_emb: positional encoder embedding.
+            att_mask: attention mask tensor.
+        """
+        return x, memory, pos_emb, att_mask
+
+
+class AttBlock(BlockBase, AttModule):
+    """Attention Block module to support both Attention and Block module."""
+
+    def memory_dims(self, max_len: bool = False) -> tuple[int, int]:
+        """memory dimensions"""
+        return (1, self.input_size)
+
+
+def masked_softmax(
+    scores: Tensor,
+    mask: Tensor | None,
+) -> Tensor:
+    if mask is not None:
+        mask = mask.unsqueeze(1).eq(0)  # (batch, 1, time1, time2)
+        scores = scores.masked_fill(mask, -torch.inf)
+        attn = torch.softmax(scores, dim=-1).masked_fill(
+            mask, 0.0
+        )  # (batch, head, time1, time2)
+    else:
+        attn = torch.softmax(scores, dim=-1)  # (batch, head, time1, time2)
+    return attn
+
+
+class MultiHeadedAttention(nn.Module):
+    """Multi-Head Attention layer with optional relative position embedding
+    and GLU.
+
+    Args:
+        n_head: int
+            the number of heads.
+        n_feat: int
+            input size features.
+        dropout_rate: float
+            dropout rate.
+        attention_inner_dim: int, optional
+            the attention dimension used in the class,
+            it can be different from the input dimension n_feat.
+            default: -1 (equal to n_feat).
+        use_pt_scaled_dot_product_attention: bool, optional
+            if set True, use pytorch scaled dot product attention in training.
+            NOTE: this will NOT be used in ONNX decoding due to a lack of
+            support.  In that case, we use the original attention
+            implementation, which shows no regression.
+            default: False.
+        n_value: int, optional
+            if set to values other than -1, use a different dimension for
+            value. With the default value (i.e. -1), it is backward compatible.
+        group_size: int, optional. must divide `n_head`
+            if group_size > 1:       GQA
+            if group_size = 1:       MHA
+            if group_size = n_head:  MQA
+    """
+
+    inv_sqrt_d_k: torch.jit.Final[float]
+    h: torch.jit.Final[int]
+    h_k: torch.jit.Final[int]
+    g: torch.jit.Final[int]
+
+    def __init__(
+        self,
+        n_head: int,
+        n_feat: int,
+        dropout_rate: float,
+        attention_inner_dim: int = -1,
+        glu_type: str = "swish",
+        bias_in_glu: bool = True,
+        use_pt_scaled_dot_product_attention: bool = False,
+        n_value: int = -1,
+        group_size: int = 1,
+    ) -> None:
+        super().__init__()
+        if n_value == -1:
+            n_value = n_feat
+        if attention_inner_dim == -1:
+            attention_inner_dim = n_feat
+        assert attention_inner_dim % n_head == 0
+
+        # We assume d_v always equals d_k
+        self.d_k = attention_inner_dim // n_head
+        self.inv_sqrt_d_k = 1.0 / math.sqrt(self.d_k)
+        self.h = n_head
+        assert n_head % group_size == 0, "group_size must divide n_head"
+        self.g = group_size
+        self.h_k = n_head // group_size
+
+        self.linear_q = nn.Linear(n_feat, attention_inner_dim)
+        self.linear_k = nn.Linear(n_feat, attention_inner_dim // group_size)
+        self.linear_v = nn.Linear(n_value, attention_inner_dim // group_size)
+        self.linear_out = nn.Linear(attention_inner_dim // group_size, n_value)
+
+        self.attn = torch.jit.Attribute(None, Tensor | None)
+        self.dropout = nn.Dropout(p=dropout_rate)
+        self.dropout_rate = dropout_rate
+        self.use_pt_scaled_dot_product_attention = use_pt_scaled_dot_product_attention
+
+        if use_pt_scaled_dot_product_attention and group_size > 1:
+            raise ValueError("Cannot use PT Scaled Attention with GQA")
+
+        # Torchscript eager quantization.  Note that these functions below are
+        # NOOPs and have very little impact on performance unless quantization
+        # is enabled.
+        self.quant_q = torch.ao.quantization.QuantStub()
+        self.quant_x = torch.ao.quantization.QuantStub()
+        self.dequant = torch.ao.quantization.DeQuantStub()
+        self.ffunc = torch.ao.nn.quantized.FloatFunctional()
+
+    def forward(
+        self,
+        query: Tensor,
+        key: Tensor,
+        value: Tensor,
+        pos_k: Tensor | None,
+        pos_v: Tensor | None,
+        mask: Tensor | None,
+        relative_attention_bias: Tensor | None = None,
+    ) -> Tensor:
+        """Compute 'Scaled Dot Product Attention'.
+
+        Args:
+            query: query tensor (batch, time1, size)
+            key: key tensor (batch, time2, size)
+            value: value tensor (batch, time1, size)
+            pos_k: key tensor used for relative positional embedding.
+            pos_v: value tensor used for relative positional embedding.
+            mask: mask tensor (batch, time1, time2)
+            relative_attention_bias: bias added to attention logits w.r.t.
+                relative positions
+                (1, n_head, time1, time2)
+        """
+        n_batch = query.size(0)
+
+        q = self.linear_q(query).view(n_batch, -1, self.h, self.d_k)  # (b, t, d)
+        k = self.linear_k(key).view(n_batch, -1, self.h_k, self.d_k)  # (b, t, d)
+        v = self.linear_v(value).view(n_batch, -1, self.h_k, self.d_k)
+        q = (
+            q.transpose(1, 2)
+            if self.use_pt_scaled_dot_product_attention and not torch.jit.is_scripting()
+            else q.transpose(1, 2) * self.inv_sqrt_d_k
+        )
+        k = k.transpose(1, 2)  # (batch, head_k, time2, d_k)
+        v = v.transpose(1, 2)  # (batch, head_k, time2, d_k)
+
+        if self.use_pt_scaled_dot_product_attention and not torch.jit.is_scripting():
+            attn_mask = None
+            if mask is not None:
+                mask = mask.unsqueeze(1)
+                if relative_attention_bias is not None:
+                    attn_mask = mask + relative_attention_bias
+                else:
+                    attn_mask = mask
+                if mask.dtype != q.dtype:
+                    attn_mask = attn_mask.to(q.dtype)
+
+            with torch.nn.attention.sdpa_kernel(
+                [
+                    torch.nn.attention.SDPBackend.FLASH_ATTENTION,
+                    torch.nn.attention.SDPBackend.EFFICIENT_ATTENTION,
+                    torch.nn.attention.SDPBackend.MATH,
+                    torch.nn.attention.SDPBackend.CUDNN_ATTENTION,
+                ]
+            ):
+                x = torch.nn.functional.scaled_dot_product_attention(
+                    q,
+                    k,
+                    v,
+                    attn_mask=attn_mask,
+                    dropout_p=self.dropout_rate,
+                )
+        else:
+            if self.h != self.h_k:
+                q = q.reshape(n_batch, self.g, self.h_k, -1, self.d_k)
+                A = torch.einsum("b g h t d, b h s d -> b h t s", q, k)
+            else:
+                A = torch.matmul(q, k.transpose(-2, -1))
+            if pos_k is not None:
+                if self.h != self.h_k:
+                    B = torch.einsum("b g h t d, t s d -> b h t s", q, pos_k)
+                else:
+                    reshape_q = (
+                        q.contiguous()
+                        .view(n_batch * self.h, -1, self.d_k)
+                        .transpose(0, 1)
+                    )  # (t1,nh,dk)
+                    B = torch.matmul(
+                        reshape_q, pos_k.transpose(-2, -1)
+                    )  # pos_k: (t1,dk,t2)
+                    B = B.transpose(0, 1).view(
+                        n_batch, self.h, pos_k.size(0), pos_k.size(1)
+                    )
+                scores = A + B
+            else:
+                scores = A
+
+            if relative_attention_bias is not None:
+                scores = scores + relative_attention_bias
+
+            attn = masked_softmax(scores, mask)  # (batch, head, time1, time2)
+
+            self.attn = attn
+
+            p_attn = self.dropout(attn)
+            x = torch.matmul(p_attn.to(v.dtype), v)  # (batch, head, time1, d_k)
+            if pos_v is not None:
+                reshape_attn = (
+                    p_attn.contiguous()
+                    .view(n_batch * self.h, pos_v.size(0), pos_v.size(1))
+                    .transpose(0, 1)
+                )  # (t1, bh, t2)
+
+                attn_v = (
+                    torch.matmul(reshape_attn, pos_v)
+                    .transpose(0, 1)
+                    .contiguous()
+                    .view(n_batch, self.h, pos_v.size(0), self.d_k)
+                )
+                x = x + attn_v
+        x = (
+            x.transpose(1, 2).contiguous().view(n_batch, -1, self.h_k * self.d_k)
+        )  # (batch, time1, d_model)
+
+        return self.linear_out(x)  # (batch, time1, d_model)
+
+
+class MultiSequential(torch.nn.Sequential):
+    """Multi-input multi-output torch.nn.Sequential"""
+
+    @torch.jit.ignore
+    def forward(self, *args) -> tuple:
+        """Forward method implementation."""
+        for m in self:
+            args = m(*args)
+        return args
+
+
+def get_offset(input_layer: str, time_reduction: int) -> int:
+    """Get an offset. We will use the offset for determining #frames of a
+    subsampled feature.
+
+    Args:
+        input_layer: Type of an input layer
+        time_reduction: time reduction factor for downsampling a feature
+    Returns:
+        int: offset
+    """
+    if input_layer in ("conv2d", "nemo_conv") and time_reduction == 4:
+        return 3
+    if input_layer in ("conv2d",) and time_reduction == 6:
+        return 1
+    if input_layer in ("conv2d", "nemo_conv") and time_reduction == 8:
+        return 7
+    return 0
+
+
+def unfold_tensor(xs_pad: Tensor, max_seq_len: int) -> Tensor:
+    """
+    For a given tensor with shape of (N, T, D), if sequence length T is
+    longer than max_seq_len, this function unfold it to a
+    (NT', max_seq_len, D) where T' is T // max_seq_len.
+    Args:
+        xs_pad: input tensor with shape (N, T, D)
+        max_seq_len: maximum sequence length
+    """
+    _, _, D = xs_pad.shape
+    xs_pad = xs_pad.transpose(-1, -2)  # convert to N, D, T
+    # N x D x 1 x T => N x (D x max_seq_len) x T'
+    xs_pad = F.unfold(
+        xs_pad[..., None, :],
+        kernel_size=(1, max_seq_len),
+        stride=(1, max_seq_len),
+    )
+    new_bsz, _, slen = xs_pad.shape
+    # N x D x max_seq_len x T'
+    xs_pad = xs_pad.view(new_bsz, -1, max_seq_len, slen)
+    # N x T' x max_seq_len x D
+    xs_pad = xs_pad.permute(0, 3, 2, 1).contiguous()
+    # NT' x max_seq_len x D
+    xs_pad = xs_pad.view(-1, max_seq_len, D)
+    return xs_pad
diff --git a/model_executor/models/phimoe.py b/model_executor/models/phimoe.py
new file mode 100644
index 0000000..bff034b
--- /dev/null
+++ b/model_executor/models/phimoe.py
@@ -0,0 +1,676 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only PhiMoE model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class PhiMoEConfig(PretrainedConfig):
+    model_type = "phimoe"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32000,
+        hidden_size=4096,
+        intermediate_size=14336,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=8,
+        head_dim=None,
+        hidden_act="silu",
+        max_position_embeddings=4096 * 32,
+        initializer_range=0.02,
+        rms_norm_eps=1e-5,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=1,
+        eos_token_id=2,
+        tie_word_embeddings=False,
+        rope_theta=1e6,
+        sliding_window=None,
+        attention_dropout=0.0,
+        num_experts_per_tok=2,
+        num_local_experts=16,
+        output_router_logits=False,
+        router_aux_loss_coef=0.001,
+        router_jitter_noise=0.0,
+        attention_bias=False,
+        lm_head_bias=False,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.sliding_window = sliding_window
+        self.attention_bias = attention_bias
+        self.lm_head_bias = lm_head_bias
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+        if head_dim is None:
+            head_dim = hidden_size // num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.head_dim = head_dim
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.attention_dropout = attention_dropout
+
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_local_experts = num_local_experts
+        self.output_router_logits = output_router_logits
+        self.router_aux_loss_coef = router_aux_loss_coef
+        self.router_jitter_noise = router_jitter_noise
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+
+class mp(torch.autograd.Function):
+    @staticmethod
+    def forward(
+        ctx,
+        scores: torch.Tensor,
+        multiplier: torch.Tensor,
+        selected_experts: torch.Tensor,
+        masked_gates: torch.Tensor,
+        mask_for_one: torch.Tensor,
+    ):
+        ctx.save_for_backward(multiplier, selected_experts, masked_gates)
+        return multiplier * mask_for_one
+
+    @staticmethod
+    def backward(
+        ctx,
+        grad_at_output: torch.Tensor,
+    ):
+        multiplier, selected_experts, masked_gates = ctx.saved_tensors
+
+        grad_at_output = grad_at_output * multiplier
+
+        grad_at_scores_expanded = masked_gates * grad_at_output.mul(-1)
+        grad_at_scores_expanded.scatter_add_(
+            dim=-1,
+            index=selected_experts,
+            src=grad_at_output,
+        )
+
+        return (
+            grad_at_scores_expanded,
+            None,
+            None,
+            None,
+            None,
+        )
+
+
+def sparsemixer(scores, jitter_eps=0.01):
+    ################ first expert ################
+
+    with torch.no_grad():
+        # compute mask for sparsity
+        mask_logits_threshold, max_ind = scores.max(dim=-1, keepdim=True)
+        factor = scores.abs().clamp(min=mask_logits_threshold)
+        mask_logits_threshold = ((mask_logits_threshold - scores) / factor) > (
+            2 * jitter_eps
+        )
+
+    # apply mask
+    masked_gates = scores.masked_fill(mask_logits_threshold, float("-inf"))
+    selected_experts = max_ind
+
+    # compute scores for gradients
+    masked_gates = torch.softmax(masked_gates, dim=-1)
+    multiplier_o = masked_gates.gather(dim=-1, index=selected_experts)
+
+    multiplier = multiplier_o
+
+    # masked out first expert
+    masked_scores = torch.scatter(
+        scores,
+        -1,
+        selected_experts,
+        float("-inf"),
+    )
+    with torch.no_grad():
+        # compute mask for sparsity
+        mask_logits_threshold, max_ind = masked_scores.max(dim=-1, keepdim=True)
+        factor = scores.abs().clamp(min=mask_logits_threshold)
+        mask_logits_threshold = ((mask_logits_threshold - scores) / factor) > (
+            2 * jitter_eps
+        )
+
+    # apply mask
+    masked_gates_top2 = masked_scores.masked_fill(mask_logits_threshold, float("-inf"))
+    selected_experts_top2 = max_ind
+    # compute scores for gradients
+    masked_gates_top2 = torch.softmax(masked_gates_top2, dim=-1)
+    multiplier_top2 = masked_gates_top2.gather(dim=-1, index=selected_experts_top2)
+
+    multiplier = torch.concat((multiplier, multiplier_top2), dim=-1)
+    selected_experts = torch.concat((selected_experts, selected_experts_top2), dim=-1)
+    multiplier = multiplier.to(torch.float32)
+    selected_experts = selected_experts.to(torch.int32)
+    return (
+        multiplier,
+        selected_experts,
+    )
+
+
+def phimoe_routing_function(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+):
+    assert hidden_states.shape[0] == gating_output.shape[0], "Number of tokens mismatch"
+    assert topk == 2, "Only top-2 routing is supported"
+    assert renormalize is False, "Renormalization is not supported"
+
+    topk_weights, topk_ids = sparsemixer(gating_output)
+    return topk_weights, topk_ids
+
+
+class PhiMoE(nn.Module):
+    """A tensor-parallel MoE implementation for PhiMoE that shards each expert
+    across all ranks.
+
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype | None = None,
+        quant_config: QuantizationConfig | None = None,
+        tp_size: int | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=False,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            custom_routing_function=phimoe_routing_function,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+        return final_hidden_states.view(orig_shape)
+
+
+class PhiMoEAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int | None = None,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: dict | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        if head_dim is None:
+            head_dim = hidden_size // num_heads
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+            rope_scaling=self.rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class PhiMoEDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PhiMoEConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 10000)
+        self.self_attn = PhiMoEAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=getattr(
+                config, "head_dim", self.hidden_size // config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=config.rope_scaling,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.block_sparse_moe = PhiMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe",
+        )
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.rms_norm_eps, elementwise_affine=True
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.rms_norm_eps, elementwise_affine=True
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        # Self Attention
+        hidden_states = self.input_layernorm(hidden_states)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = hidden_states + residual
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.block_sparse_moe(hidden_states)
+
+        hidden_states = hidden_states + residual
+        return hidden_states, residual
+
+
+@support_torch_compile
+class PhiMoEModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.vocab_size = config.vocab_size
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: PhiMoEDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = nn.LayerNorm(
+            config.hidden_size, eps=config.rms_norm_eps, elementwise_affine=True
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="w1",
+            ckpt_down_proj_name="w2",
+            ckpt_up_proj_name="w3",
+            num_experts=self.config.num_local_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    fall_back_to_pt_during_load = False
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+
+        self.config = config
+
+        self.quant_config = vllm_config.quant_config
+
+        self.model = PhiMoEModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=None,
+            bias=True,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/pixtral.py b/model_executor/models/pixtral.py
new file mode 100644
index 0000000..a94bbf4
--- /dev/null
+++ b/model_executor/models/pixtral.py
@@ -0,0 +1,1355 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from dataclasses import dataclass, fields
+from functools import cached_property
+from typing import Annotated, Literal
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from mistral_common.protocol.instruct.chunk import ImageChunk, TextChunk
+from mistral_common.protocol.instruct.messages import UserMessage
+from mistral_common.protocol.instruct.request import ChatCompletionRequest
+from mistral_common.tokens.tokenizers.multimodal import ImageEncoder
+from PIL import Image
+from transformers import BatchFeature, PixtralVisionConfig, TensorType
+from transformers.image_utils import ImageInput
+from transformers.models.pixtral.image_processing_pixtral import (
+    _num_image_tokens as _get_pixtral_hf_num_image_tokens,
+)
+from transformers.models.pixtral.modeling_pixtral import (
+    PixtralRotaryEmbedding,
+    apply_rotary_pos_emb,
+    position_ids_in_meshgrid,
+)
+from transformers.tokenization_utils_base import TextInput
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_and_mul_fn
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalKwargsItems
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalUUIDDict,
+    NestedTensors,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder, ProcessorInputs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import (
+    MistralTokenizer,
+    cached_tokenizer_from_config,
+)
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import init_vllm_registered_model, maybe_prefix
+from .vision import (
+    VisionEncoderInfo,
+    VisionFeatureSelectStrategy,
+    resolve_visual_encoder_outputs,
+)
+
+import ixformer.inference.functions as ixf
+try:
+    from xformers import ops as xops
+
+    if current_platform.is_cuda():
+        # Xformers FA is not compatible with B200
+        USE_XFORMERS_OPS = True
+    else:
+        USE_XFORMERS_OPS = False
+except ImportError:
+    USE_XFORMERS_OPS = False
+
+PATCH_MERGE = "patch_merge"
+
+
+class PixtralImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+
+    The result of stacking `ImageEncoding.tokens` from each prompt.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    images: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("bn", 3, "h", "w", dynamic_dims={"h", "w"}),
+    ]
+
+
+class PixtralProcessorAdapter:
+    """
+    Provide a HF-compatible interface for
+    `mistral_common.tokens.tokenizers.multimodal.ImageEncoder`.
+    """
+
+    def __init__(self, tokenizer: MistralTokenizer) -> None:
+        super().__init__()
+
+        self.tokenizer = tokenizer
+
+    @property
+    def image_processor(self) -> ImageEncoder:
+        image_encoder = self.tokenizer.instruct.mm_encoder
+        assert isinstance(image_encoder, ImageEncoder)
+        return image_encoder
+
+    @cached_property
+    def image_break_id(self) -> int:
+        return self.image_processor.special_ids.img_break
+
+    @cached_property
+    def image_token_id(self) -> int:
+        return self.image_processor.special_ids.img
+
+    @cached_property
+    def image_end_id(self) -> int:
+        return self.image_processor.special_ids.img_end
+
+    @cached_property
+    def image_size(self) -> int:
+        return self.image_processor.mm_config.max_image_size
+
+    @cached_property
+    def patch_size(self) -> int:
+        return self.image_processor.mm_config.image_patch_size
+
+    def __call__(
+        self,
+        text: TextInput | list[TextInput] | None = None,
+        images: ImageInput | list[ImageInput] | None = None,
+        return_tensors: str | TensorType | None = None,
+        **kwargs,
+    ) -> Mapping[str, NestedTensors]:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        if not images:
+            input_ids = self.tokenizer(text).input_ids
+
+            return {"input_ids": torch.tensor(input_ids)}
+
+        # Allow dummy text, which is used for profiling as well as token inputs
+        if any(len(t) > 0 for t in text):
+            raise ValueError(
+                "You've passed text inputs instead of token inputs. "
+                "Make sure to process your input via `mistral_common`'s "
+                "tokenizer or pass a chat completion request. "
+                "For more info, see: "
+                "https://github.com/vllm-project/vllm/issues/8411."
+            )
+
+        images_processed = list[torch.Tensor]()
+        images_tokens = list[torch.Tensor]()
+
+        for image in images:
+            image_inputs = self.image_processor(ImageChunk(image=image))
+            image_processed = torch.tensor(image_inputs.image)
+            image_tokens = torch.tensor(image_inputs.tokens)
+
+            images_processed.append(image_processed)
+            images_tokens.append(image_tokens)
+
+        return BatchFeature(
+            {
+                "input_ids": torch.cat(images_tokens)[None].expand(len(text), -1),
+                "images": images_processed,
+            }
+        )
+
+
+class PixtralProcessingInfo(BaseProcessingInfo):
+    def get_tokenizer(self) -> MistralTokenizer:
+        tokenizer = cached_tokenizer_from_config(self.ctx.model_config)
+        if not isinstance(tokenizer, MistralTokenizer):
+            raise ValueError("This model requires `--tokenizer-mode mistral`")
+
+        return tokenizer
+
+    def get_hf_processor(self) -> PixtralProcessorAdapter:
+        return PixtralProcessorAdapter(self.get_tokenizer())
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_vision_config(
+        self,
+        processor: PixtralProcessorAdapter | None = None,
+    ):
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return PixtralVisionConfig(
+            image_size=processor.image_size,
+            patch_size=processor.patch_size,
+        )
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: PixtralProcessorAdapter | None = None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        ncols, nrows = processor.image_processor._image_to_num_tokens(
+            Image.new("RGB", (image_width, image_height))
+        )
+
+        return ncols * nrows
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_processor = self.get_hf_processor().image_processor
+        max_image_size = image_processor.mm_config.max_image_size
+
+        return ImageSize(width=max_image_size, height=max_image_size)
+
+
+class PixtralDummyInputsBuilder(BaseDummyInputsBuilder[PixtralProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+    def get_dummy_processor_inputs(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> ProcessorInputs:
+        tokenizer = self.info.get_tokenizer()
+
+        dummy_text = self.get_dummy_text(mm_counts)
+        dummy_mm_data = self.get_dummy_mm_data(seq_len, mm_counts, mm_options)
+        dummy_images = dummy_mm_data.get("image", [])
+        tokenization_kwargs = {"truncation": False}
+
+        request = ChatCompletionRequest(
+            messages=[
+                UserMessage(
+                    content=[
+                        TextChunk(text=dummy_text),
+                        *(ImageChunk(image=image) for image in dummy_images),
+                    ]
+                ),
+            ]
+        )
+        res = tokenizer.mistral.encode_chat_completion(request)
+        dummy_tokens = res.tokens
+
+        return ProcessorInputs(
+            prompt=dummy_tokens,
+            mm_data=dummy_mm_data,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+
+class PixtralMultiModalProcessor(BaseMultiModalProcessor[PixtralProcessingInfo]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: Mapping[str, NestedTensors],
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(images=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        image_break_id = processor.image_break_id
+        image_token_id = processor.image_token_id
+        image_end_id = processor.image_end_id
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            ncols, nrows = processor.image_processor._image_to_num_tokens(
+                Image.new("RGB", (image_size.width, image_size.height))
+            )
+
+            tokens = ([image_token_id] * ncols + [image_break_id]) * nrows
+            tokens[-1] = image_end_id
+
+            return PromptUpdateDetails.select_token_id(tokens, image_token_id)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target="",  # Never match the prompt (see below note)
+                replacement=get_replacement,
+            ),
+        ]
+
+    def _cached_apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        prompt_ids, mm_info, _ = super()._cached_apply_hf_processor(
+            prompt=prompt,
+            mm_data_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        # NOTE: The tokens are already inserted by the chat template
+        return prompt_ids, mm_info, True
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    PixtralMultiModalProcessor,
+    info=PixtralProcessingInfo,
+    dummy_inputs=PixtralDummyInputsBuilder,
+)
+class PixtralForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        dataclass_fields = {field.name for field in fields(VisionEncoderArgs)}
+        vision_args = {
+            key: value
+            for key, value in self.config.vision_config.to_dict().items()
+            if key in dataclass_fields
+        }
+
+        self.vision_args = VisionEncoderArgs(**vision_args)
+
+        # init MistralForCausalLM
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.vision_encoder = VisionTransformer(self.vision_args)
+
+        if self.vision_args.add_pre_mm_projector_layer_norm:
+            self.pre_mm_projector_norm = RMSNorm(self.vision_args.hidden_size, eps=1e-5)
+
+        if self.vision_args.mm_projector_id == PATCH_MERGE:
+            self.patch_merger = PatchMerger(
+                vision_encoder_dim=self.vision_args.hidden_size,
+                spatial_merge_size=self.vision_args.spatial_merge_size,
+                use_mlp_bias=False,
+            )
+
+        self.vision_language_adapter = VisionLanguageAdapter(
+            self.vision_args, dim=config.text_config.hidden_size
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> PixtralImagePixelInputs | None:
+        images = kwargs.pop("images", None)
+        if images is None:
+            return None
+
+        return PixtralImagePixelInputs(
+            type="pixel_values",
+            images=images,
+        )
+
+    def _process_image_input(
+        self,
+        image_input: PixtralImagePixelInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        images = image_input["images"]
+        image_features = self.vision_encoder(images)
+        feature_sizes = [image_feature.shape[0] for image_feature in image_features]
+        image_features = torch.cat(image_features)
+        if self.vision_args.add_pre_mm_projector_layer_norm:
+            image_features = self.pre_mm_projector_norm(image_features)
+        if self.vision_args.mm_projector_id == PATCH_MERGE:
+            patch_size = self.vision_args.patch_size
+            spatial_merge_size_square = self.vision_args.spatial_merge_size**2
+            img_patch_dims = [
+                (img.shape[1] // patch_size, img.shape[2] // patch_size)
+                for img in images
+            ]
+            feature_sizes = [
+                feature_size // spatial_merge_size_square
+                for feature_size in feature_sizes
+            ]
+            image_features = self.patch_merger(
+                image_features, image_sizes=img_patch_dims
+            )
+        image_embeds = self.vision_language_adapter(image_features)
+        image_embeds = torch.split(image_embeds, feature_sizes)
+        return image_embeds
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for pixtral."""
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        def is_vision_encoder_weights(weight: tuple[str, torch.Tensor]):
+            return weight[0].startswith("vision_encoder")
+
+        def is_vision_lang_adapter_weights(weight: tuple[str, torch.Tensor]):
+            return weight[0].startswith("vision_language_adapter")
+
+        def is_patch_merger(weight: tuple[str, torch.Tensor]):
+            return weight[0].startswith("patch_merger")
+
+        def is_pre_mm_projector_norm(weight: tuple[str, torch.Tensor]):
+            return weight[0].startswith("pre_mm_projector_norm")
+
+        # Get references to parameters for direct loading
+        vision_encoder_dict = dict(self.vision_encoder.named_parameters())
+        patch_merger_dict = (
+            dict(self.patch_merger.named_parameters())
+            if self.vision_args.mm_projector_id == PATCH_MERGE
+            else dict()
+        )
+        pre_mm_projector_norm_dict = (
+            dict(self.pre_mm_projector_norm.named_parameters())
+            if self.vision_args.add_pre_mm_projector_layer_norm
+            else dict()
+        )
+        vision_lang_adapter_dict = dict(self.vision_language_adapter.named_parameters())
+
+        def llm_weights_generator():
+            # Single pass over weights
+            for name, w in weights:
+                if is_vision_encoder_weights((name, w)):
+                    # Load vision encoder weights directly
+                    trimmed_name = ".".join(name.split(".")[1:])
+                    param = vision_encoder_dict[trimmed_name]
+                    with torch.no_grad():
+                        default_weight_loader(param, w)
+                elif is_patch_merger((name, w)):
+                    # Load vision patch merger weights directly
+                    trimmed_name = ".".join(name.split(".")[1:])
+                    param = patch_merger_dict[trimmed_name]
+                    with torch.no_grad():
+                        default_weight_loader(param, w)
+                elif is_pre_mm_projector_norm((name, w)):
+                    # Load vision pre_mm_projector_norm weights directly
+                    trimmed_name = ".".join(name.split(".")[1:])
+                    param = pre_mm_projector_norm_dict[trimmed_name]
+                    with torch.no_grad():
+                        default_weight_loader(param, w)
+                elif is_vision_lang_adapter_weights((name, w)):
+                    # Load vision-language adapter weights directly
+                    trimmed_name = ".".join(name.split(".")[1:])
+                    param = vision_lang_adapter_dict[trimmed_name]
+                    with torch.no_grad():
+                        default_weight_loader(param, w)
+                else:
+                    # LLM weights: yield them to be loaded
+                    # by language_model.load_weights
+                    yield (name, w)
+
+        # Now we call the language model load with the generator
+        self.language_model.load_weights(llm_weights_generator())
+
+
+# Vision encoder
+@dataclass
+class VisionEncoderArgs:
+    hidden_size: int
+    num_channels: int
+    image_size: int
+    patch_size: int
+    intermediate_size: int
+    num_hidden_layers: int
+    num_attention_heads: int
+    rope_theta: float  # for rope-2D
+    image_token_id: int
+    adapter_bias: bool = True
+    spatial_merge_size: int = 1
+    add_pre_mm_projector_layer_norm: bool = False
+    mm_projector_id: str = ""
+
+
+def _reshape_for_broadcast(freqs_cis: torch.Tensor, x: torch.Tensor) -> torch.Tensor:
+    """
+    freqs_cis: complex - (seq_len, head_dim / 2)
+    x: complex - (bsz, seq_len, head_dim / 2)
+    """
+    ndim = x.ndim
+    assert ndim > 1
+    assert freqs_cis.shape == (x.shape[1], x.shape[-1]), (
+        freqs_cis.shape,
+        (x.shape[1], x.shape[-1]),
+    )
+    shape = [d if i == 1 or i == ndim - 1 else 1 for i, d in enumerate(x.shape)]
+    return freqs_cis.view(*shape)
+
+
+def precompute_freqs_cis_2d(
+    dim: int,
+    height: int,
+    width: int,
+    theta: float,
+) -> torch.Tensor:
+    """
+    freqs_cis: 2D complex tensor of shape (height, width, dim // 2)
+        to be indexed by (height, width) position tuples
+    """
+    # (dim / 2) frequency bases
+    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2).float() / dim))
+
+    h = torch.arange(height, device=freqs.device)
+    w = torch.arange(width, device=freqs.device)
+
+    freqs_h = torch.outer(h, freqs[::2]).float()
+    freqs_w = torch.outer(w, freqs[1::2]).float()
+    freqs_2d = torch.cat(
+        [
+            freqs_h[:, None, :].repeat(1, width, 1),
+            freqs_w[None, :, :].repeat(height, 1, 1),
+        ],
+        dim=-1,
+    )
+    return torch.polar(torch.ones_like(freqs_2d), freqs_2d)
+
+
+def apply_rotary_emb_vit(
+    xq: torch.Tensor,
+    xk: torch.Tensor,
+    freqs_cis: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    xq_ = torch.view_as_complex(xq.float().reshape(*xq.shape[:-1], -1, 2))
+    xk_ = torch.view_as_complex(xk.float().reshape(*xk.shape[:-1], -1, 2))
+    assert freqs_cis.dtype == torch.complex64
+    freqs_cis = _reshape_for_broadcast(freqs_cis, xq_)
+    xq_out = torch.view_as_real(xq_ * freqs_cis).flatten(3)
+    xk_out = torch.view_as_real(xk_ * freqs_cis).flatten(3)
+    return xq_out.type_as(xq), xk_out.type_as(xk)
+
+
+class FeedForward(nn.Module):
+    def __init__(self, args: VisionEncoderArgs):
+        super().__init__()
+        assert args.intermediate_size is not None
+        self.w1 = nn.Linear(args.hidden_size, args.intermediate_size, bias=False)
+        self.w2 = nn.Linear(args.intermediate_size, args.hidden_size, bias=False)
+        self.w3 = nn.Linear(args.hidden_size, args.intermediate_size, bias=False)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.w2(F.silu(self.w1(x)) * self.w3(x))
+
+
+class Attention(nn.Module):
+    def __init__(self, args: VisionEncoderArgs):
+        super().__init__()
+        self.args = args
+        assert not args.hidden_size % args.num_attention_heads
+        self.n_heads = args.num_attention_heads
+        self.head_dim = args.hidden_size // args.num_attention_heads
+
+        self.wq = nn.Linear(args.hidden_size, args.hidden_size, bias=False)
+        self.wk = nn.Linear(args.hidden_size, args.hidden_size, bias=False)
+        self.wv = nn.Linear(args.hidden_size, args.hidden_size, bias=False)
+        self.wo = nn.Linear(args.hidden_size, args.hidden_size, bias=False)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor,
+        freqs_cis: torch.Tensor,
+    ) -> torch.Tensor:
+        batch, patches, _ = x.shape
+
+        q, k, v = self.wq(x), self.wk(x), self.wv(x)
+        q = q.reshape(batch, patches, self.n_heads, self.head_dim)
+        k = k.reshape(batch, patches, self.n_heads, self.head_dim)
+        v = v.reshape(batch, patches, self.n_heads, self.head_dim)
+
+        
+        if USE_XFORMERS_OPS:
+            v = v.reshape(batch * patches, self.n_heads, self.head_dim)
+            
+            q, k = apply_rotary_emb_vit(q, k, freqs_cis=freqs_cis)
+            q = q.view(batch * patches, self.n_heads, self.head_dim)
+            k = k.view(batch * patches, self.n_heads, self.head_dim)
+            out = ixf.ixinfer_flash_attn_unpad(q,k,v, mask.q_seqinfo.seqstart.to(q.device), mask.k_seqinfo.seqstart.to(q.device), mask.q_seqinfo.max_seqlen, mask.k_seqinfo.max_seqlen)
+            # out = memory_efficient_attention(q, k, v, attn_bias=mask)
+        else:
+            assert False, "xformers failed !"
+
+        out = out.reshape(batch, patches, self.n_heads * self.head_dim)
+        return self.wo(out)
+
+
+
+class TransformerBlock(nn.Module):
+    def __init__(self, args: VisionEncoderArgs):
+        super().__init__()
+        self.attention = Attention(args)
+        self.feed_forward = FeedForward(args)
+        self.attention_norm = RMSNorm(args.hidden_size, eps=1e-5)
+        self.ffn_norm = RMSNorm(args.hidden_size, eps=1e-5)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor,
+        freqs_cis: torch.Tensor,
+    ) -> torch.Tensor:
+        r = self.attention.forward(
+            self.attention_norm(x), mask=mask, freqs_cis=freqs_cis
+        )
+        h = x + r
+        r = self.feed_forward.forward(self.ffn_norm(h))
+        out = h + r
+        return out
+
+
+class Transformer(nn.Module):
+    def __init__(self, args: VisionEncoderArgs):
+        super().__init__()
+        self.layers = torch.nn.ModuleList()
+        for _ in range(args.num_hidden_layers):
+            self.layers.append(TransformerBlock(args))
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor,
+        freqs_cis: torch.Tensor | None,
+    ) -> torch.Tensor:
+        for layer in self.layers:
+            x = layer(x, mask=mask, freqs_cis=freqs_cis)
+        return x
+
+
+def position_meshgrid(
+    patch_embeds_list: list[torch.Tensor],
+) -> torch.Tensor:
+    positions = torch.cat(
+        [
+            torch.stack(
+                torch.meshgrid(
+                    torch.arange(p.shape[-2]),
+                    torch.arange(p.shape[-1]),
+                    indexing="ij",
+                ),
+                dim=-1,
+            ).reshape(-1, 2)
+            for p in patch_embeds_list
+        ]
+    )
+    return positions
+
+
+class VisionTransformer(nn.Module):
+    def __init__(self, args: VisionEncoderArgs):
+        super().__init__()
+        self.args = args
+        self.patch_conv = nn.Conv2d(
+            in_channels=args.num_channels,
+            out_channels=args.hidden_size,
+            kernel_size=args.patch_size,
+            stride=args.patch_size,
+            bias=False,
+        )
+        self.ln_pre = RMSNorm(args.hidden_size, eps=1e-5)
+        self.transformer = Transformer(args)
+
+        head_dim = self.args.hidden_size // self.args.num_attention_heads
+        assert head_dim % 2 == 0, "ROPE requires even head_dim"
+        self._freqs_cis: torch.Tensor | None = None
+
+    @property
+    def max_patches_per_side(self) -> int:
+        return self.args.image_size // self.args.patch_size
+
+    @property
+    def device(self) -> torch.types.Device:
+        return next(self.parameters()).device
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return next(self.parameters()).dtype
+
+    @property
+    def freqs_cis(self) -> torch.Tensor:
+        if self._freqs_cis is None:
+            self._freqs_cis = precompute_freqs_cis_2d(
+                dim=self.args.hidden_size // self.args.num_attention_heads,
+                height=self.max_patches_per_side,
+                width=self.max_patches_per_side,
+                theta=self.args.rope_theta,
+            )
+
+        if self._freqs_cis.device != self.device:
+            self._freqs_cis = self._freqs_cis.to(device=self.device)
+
+        return self._freqs_cis
+
+    def forward(
+        self,
+        images: list[torch.Tensor],
+    ) -> torch.Tensor:
+        """
+        Args:
+            images: list of N_img images of variable sizes,
+                each of shape (C, H, W)
+        Returns:
+            image_features: tensor of token features for
+                all tokens of all images of shape (N_toks, D)
+        """
+        # pass images through initial convolution independently
+        patch_embeds_list = [
+            self.patch_conv(img.unsqueeze(0).to(self.dtype)) for img in images
+        ]
+
+        patch_embeds = [p.flatten(2).permute(0, 2, 1) for p in patch_embeds_list]
+        embed_sizes = [p.shape[1] for p in patch_embeds]
+
+        # flatten to a single sequence
+        patch_embeds = torch.cat(patch_embeds, dim=1)
+        patch_embeds = self.ln_pre(patch_embeds)
+
+        # positional embeddings
+        positions = position_meshgrid(patch_embeds_list).to(self.device)
+        freqs_cis = self.freqs_cis[positions[:, 0], positions[:, 1]]
+
+        # pass through Transformer with a block diagonal mask delimiting images
+        if USE_XFORMERS_OPS:
+            mask = xops.fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+                [p.shape[-2] * p.shape[-1] for p in patch_embeds_list],
+            )
+        else:
+            from transformers.models.pixtral.modeling_pixtral import (
+                generate_block_attention_mask,
+            )
+
+            mask = generate_block_attention_mask(
+                [p.shape[-2] * p.shape[-1] for p in patch_embeds_list], patch_embeds
+            )
+        out = self.transformer(patch_embeds, mask=mask, freqs_cis=freqs_cis)
+
+        # squeeze dim 0 and split into separate tensors for each image
+        return torch.split(out.squeeze(0), embed_sizes)
+
+
+class VisionLanguageAdapter(nn.Module):
+    def __init__(self, args: VisionEncoderArgs, dim: int):
+        super().__init__()
+        assert isinstance(args, VisionEncoderArgs)
+        self.w_in = nn.Linear(
+            args.hidden_size,
+            dim,
+            bias=args.adapter_bias,
+        )
+        self.gelu = nn.GELU()
+        self.w_out = nn.Linear(dim, dim, bias=args.adapter_bias)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.w_out(self.gelu(self.w_in(x)))
+
+
+class PatchMerger(nn.Module):
+    """
+    Learned merging of spatial_merge_size ** 2 patches
+    """
+
+    def __init__(
+        self,
+        vision_encoder_dim: int,
+        spatial_merge_size: int,
+        use_mlp_bias: bool = False,
+    ) -> None:
+        super().__init__()
+
+        mlp_input_dim = vision_encoder_dim * (spatial_merge_size**2)
+
+        self.spatial_merge_size = spatial_merge_size
+        self.mlp_input_dim = mlp_input_dim
+
+        self.merging_layer = nn.Linear(
+            mlp_input_dim,
+            vision_encoder_dim,
+            bias=use_mlp_bias,
+        )
+
+    def forward(
+        self, x: torch.Tensor, image_sizes: list[tuple[int, int]]
+    ) -> torch.Tensor:
+        # image_sizes specified in tokens
+        assert sum([h * w for h, w in image_sizes]) == len(x)
+
+        # x is (N, vision_encoder_dim)
+        x = self.permute(x, image_sizes)
+
+        # x is (N / spatial_merge_size ** 2,
+        #       vision_encoder_dim * spatial_merge_size ** 2)
+        x = self.merging_layer(x)
+
+        # x is (N / spatial_merge_size ** 2, vision_encoder_dim)
+        return x
+
+    def permute(
+        self,
+        x: torch.Tensor,
+        image_sizes: list[tuple[int, int]],
+    ) -> torch.Tensor:
+        """
+        Args:
+            x: (N, D) where N is flattened and concatenated patch tokens
+                for all images
+            image_sizes: list of tuple of (height, width) in tokens for
+                each image
+        Returns:
+            image_features: reorders patch tokens so each grid of
+                (spatial_merge_size, spatial_merge_size) is contiguous.
+                now (N / spatial_merge_size ** 2, D * spatial_merge_size ** 2)
+        """
+
+        sub_grids = get_sub_grids(
+            x=x, image_sizes=image_sizes, spatial_merge_size=self.spatial_merge_size
+        )  # list of [d x sub_grid_size x sub_grid_size x n_patches]
+        permuted_tensor: list[torch.Tensor] = []
+        for grid in sub_grids:
+            n_patches = grid.shape[-1]
+            permuted_tensor.append(
+                grid.view(-1, n_patches).t()
+            )  # n_patches x d * sub_grid_size * sub_grid_size
+        return torch.cat(
+            permuted_tensor, dim=0
+        )  # (N / spatial_merge_size ** 2, d * spatial_merge_size ** 2)
+
+
+def get_sub_grids(
+    x: torch.Tensor,
+    image_sizes: list[tuple[int, int]],
+    spatial_merge_size: int,
+) -> list[torch.Tensor]:
+    # image_sizes specified in tokens
+    tokens_per_image = [h * w for h, w in image_sizes]
+    d = x.shape[-1]
+    all_img_sub_grids: list[torch.Tensor] = []
+    sub_grid_size = spatial_merge_size
+
+    for image_index, image_tokens in enumerate(x.split(tokens_per_image)):
+        # Reshape image_tokens into a 2D grid
+        h, w = image_sizes[image_index]
+        image_grid = image_tokens.view(h, w, d).permute(2, 0, 1)[
+            None, :, :, :
+        ]  # 1 x d x h x w
+        sub_grids = torch.nn.functional.unfold(
+            image_grid, kernel_size=sub_grid_size, stride=sub_grid_size
+        )
+        sub_grids = sub_grids.view(
+            1, d, sub_grid_size, sub_grid_size, -1
+        )  # 1 x d x sub_grid_size x sub_grid_size x n_patches
+
+        all_img_sub_grids.append(sub_grids[0])
+
+    return all_img_sub_grids
+
+
+#### HF Transformers version of Pixtral ####
+# Based off https://github.com/huggingface/transformers/blob/d7950bff82b18c823193d17d72188c5e46d06c83/src/transformers/models/pixtral/modeling_pixtral.py
+# This model follows the Llava family, meaning image embeddings are placed
+# instead of the `[IMG]` token placeholders.
+# The model uses [`PixtralVisionModel`] for its vision encoder,
+# and [`MistralForCausalLM`] for its language decoder.
+
+
+class PixtralHFEncoderInfo(VisionEncoderInfo[PixtralVisionConfig]):
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        ncols, nrows = self.get_patch_grid_size(
+            image_width=image_width,
+            image_height=image_height,
+        )
+        return ncols * nrows
+
+    def get_image_size(self) -> int:
+        return self.vision_config.image_size
+
+    def get_patch_size(self) -> int:
+        # spatial_merge_size is needed for Mistral3
+        spatial_merge_size = getattr(self.hf_config, "spatial_merge_size", 1)
+        return self.vision_config.patch_size * spatial_merge_size
+
+    def get_patch_grid_length(self) -> int:
+        image_size, patch_size = self.get_image_size(), self.get_patch_size()
+
+        # Since interpolation is applied, the image size need not be divisible
+        # assert image_size % patch_size == 0
+        return image_size // patch_size
+
+    # Adapted from: https://github.com/huggingface/transformers/blob/v4.49.0/src/transformers/models/pixtral/image_processing_pixtral.py#L99
+    def get_patch_grid_size(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> tuple[int, int]:
+        max_width = max_height = self.get_image_size()
+        patch_width = patch_height = self.get_patch_size()
+
+        ratio = max(image_width / max_width, image_height / max_height)
+
+        if ratio > 1:
+            image_width = int(math.floor(image_width / ratio))
+            image_height = int(math.floor(image_height / ratio))
+
+        nrows, ncols = _get_pixtral_hf_num_image_tokens(
+            (image_height, image_width),
+            (patch_height, patch_width),
+        )  # type: ignore
+
+        return ncols, nrows
+
+
+class PixtralHFMLP(nn.Module):
+    def __init__(
+        self,
+        config: PixtralVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        assert config.intermediate_size is not None
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=config.hidden_size,
+            output_sizes=[config.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=config.intermediate_size,
+            output_size=config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_and_mul = get_act_and_mul_fn(config.hidden_act)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_and_mul(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class PixtralHFAttention(nn.Module):
+    def __init__(
+        self,
+        config: PixtralVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        assert not config.hidden_size % config.num_attention_heads
+        self.total_num_heads = config.num_attention_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        self.n_heads = divide(config.num_attention_heads, tp_size)
+        self.head_dim = config.hidden_size // config.num_attention_heads
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=config.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        assert self.total_num_heads * self.head_dim == config.hidden_size
+        self.o_proj = RowParallelLinear(
+            input_size=config.hidden_size,
+            output_size=config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+        position_embeddings: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        batch, patches, _ = hidden_states.size()
+
+        qkv_states, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv_states.chunk(3, dim=-1)
+
+        # Transpose q and k to apply HF's Rotary Position Embedding
+        q = q.view(batch, patches, self.n_heads, self.head_dim).transpose(1, 2)
+        k = k.view(batch, patches, self.n_heads, self.head_dim).transpose(1, 2)
+        v = v.view(batch, patches, self.n_heads, self.head_dim)
+        cos, sin = position_embeddings
+        q, k = apply_rotary_pos_emb(q, k, cos, sin, unsqueeze_dim=0)
+
+        if USE_XFORMERS_OPS:
+            # Transpose q and k back for attention
+            q = q.transpose(1, 2).contiguous()
+            k = k.transpose(1, 2).contiguous()
+            out = xops.memory_efficient_attention(q, k, v, attn_bias=attention_mask)
+        else:
+            v = v.transpose(1, 2)
+            out = nn.functional.scaled_dot_product_attention(
+                q, k, v, attn_mask=attention_mask
+            )
+            out = out.transpose(1, 2)
+
+        out = out.reshape(batch, patches, self.n_heads * self.head_dim)
+        attn_output, _ = self.o_proj(out)
+
+        return attn_output, None
+
+
+class PixtralHFTransformerBlock(nn.Module):
+    def __init__(
+        self,
+        config: PixtralVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.attention_norm = RMSNorm(config.hidden_size, eps=1e-5)
+        self.attention = PixtralHFAttention(
+            config, quant_config=quant_config, prefix=f"{prefix}.attention"
+        )
+        self.feed_forward = PixtralHFMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.feed_forward"
+        )
+        self.ffn_norm = RMSNorm(config.hidden_size, eps=1e-5)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor,
+        position_embeddings: torch.Tensor,
+    ) -> torch.Tensor:
+        r, _ = self.attention.forward(
+            self.attention_norm(hidden_states),
+            attention_mask=attention_mask,
+            position_embeddings=position_embeddings,
+        )
+        h = hidden_states + r
+        r = self.feed_forward.forward(self.ffn_norm(h))
+        out = h + r
+        return out
+
+
+class PixtralHFTransformer(nn.Module):
+    def __init__(
+        self,
+        config: PixtralVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layers = nn.ModuleList(
+            [
+                PixtralHFTransformerBlock(
+                    config=config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        attention_mask: torch.Tensor,
+        position_embeddings: torch.Tensor,
+        return_all_hidden_states: bool,
+    ) -> torch.Tensor:
+        hidden_states_pool = [x]
+
+        for layer in self.layers:
+            x = layer(x, attention_mask, position_embeddings)
+            if return_all_hidden_states:
+                hidden_states_pool.append(x)
+        # If we have multiple feature sample layers, we return all hidden
+        # states in order and grab the ones we need by index.
+        if return_all_hidden_states:
+            return hidden_states_pool
+        return x
+
+
+class PixtralHFVisionModel(nn.Module):
+    def __init__(
+        self,
+        config: PixtralVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        self.patch_conv = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=config.hidden_size,
+            kernel_size=config.patch_size,
+            stride=config.patch_size,
+            bias=False,
+        )
+        self.ln_pre = RMSNorm(config.hidden_size, eps=1e-5)
+        self.transformer = PixtralHFTransformer(
+            config,
+            quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.transformer",
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.transformer.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.transformer.layers)} "
+                "layers."
+            )
+
+        if require_post_norm is True:
+            msg = "PixtralHFVisionModel does not have post-layernorm"
+            raise ValueError(msg)
+
+        self.dtype = next(self.parameters()).dtype
+        self.device = next(self.parameters()).device
+        self.patch_positional_embedding = PixtralRotaryEmbedding(config, self.device)
+
+    def forward(
+        self,
+        pixel_values: list[torch.Tensor],
+        *,
+        select_layers: list[int] | None = None,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> tuple[torch.Tensor, ...]:
+        """
+        Args:
+            pixel_values: Each image to be processed will be a separate tensor
+                in pixel_values. This means it will be a list of tensors
+                because multiple requests batched can have multiple images,
+                each with their own shape potentially
+            select_layers: Layer indices whose features should be
+                concatenated and used as the visual encoder output. If none
+                are provided, the last layer is used.
+
+        Returns:
+            image_features: tensor of token features for
+                all tokens of all images of shape (N_toks, D)
+        """
+        # pass images through initial convolution independently
+        patch_embeds_list = [
+            self.patch_conv(img.unsqueeze(0).to(self.dtype)) for img in pixel_values
+        ]
+
+        patch_embeds = [p.flatten(2).permute(0, 2, 1) for p in patch_embeds_list]
+        embed_sizes = [p.shape[1] for p in patch_embeds]
+
+        # flatten to a single sequence
+        patch_embeds = torch.cat(patch_embeds, dim=1)
+        patch_embeds = self.ln_pre(patch_embeds)
+
+        # positional embeddings
+        position_ids = position_ids_in_meshgrid(
+            patch_embeds_list,
+            max_width=self.config.image_size // self.config.patch_size,
+        ).to(self.device)
+        position_embedding = self.patch_positional_embedding(patch_embeds, position_ids)
+
+        if USE_XFORMERS_OPS:
+            attention_mask = xops.fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+                [p.shape[-2] * p.shape[-1] for p in patch_embeds_list],
+            )
+        else:
+            from transformers.models.pixtral.modeling_pixtral import (
+                generate_block_attention_mask,
+            )
+
+            attention_mask = generate_block_attention_mask(
+                [p.shape[-2] * p.shape[-1] for p in patch_embeds_list], patch_embeds
+            )
+
+        out = self.transformer(
+            patch_embeds,
+            attention_mask,
+            position_embedding,
+            return_all_hidden_states=select_layers is not None,
+        )
+
+        out = resolve_visual_encoder_outputs(
+            out,
+            None,
+            select_layers=select_layers,
+            max_possible_layers=self.config.num_hidden_layers,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+        # squeeze dim 0 and split into separate tensors for each image
+        return torch.split(out.squeeze(0), embed_sizes)
+
+    # (TODO) Add prefix argument for filtering out weights to be loaded
+    #        ref: https://github.com/vllm-project/vllm/pull/7186#discussion_r1734163986
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.transformer.layers)
+
+        for name, loaded_weight in weights:
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("transformer.layers"):
+                layer_idx = int(name.split(".")[2])
+                if layer_idx >= layer_count:
+                    continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/plamo2.py b/model_executor/models/plamo2.py
new file mode 100644
index 0000000..0c87f50
--- /dev/null
+++ b/model_executor/models/plamo2.py
@@ -0,0 +1,981 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only PLaMo2 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention.backends.abstract import AttentionMetadata
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
+    causal_conv1d_fn,
+    causal_conv1d_update,
+)
+from vllm.model_executor.layers.mamba.ops.mamba_ssm import selective_state_update
+from vllm.model_executor.layers.mamba.ops.ssd_combined import (
+    mamba_chunk_scan_combined_varlen,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    composed_weight_loader,
+    default_weight_loader,
+    sharded_weight_loader,
+)
+from vllm.model_executor.models.interfaces import HasInnerState, IsHybrid, SupportsPP
+from vllm.model_executor.models.utils import (
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.sequence import IntermediateTensors
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionMetadata
+
+
+# Only used for type hinting.
+class Plamo2Config(PretrainedConfig):  # type: ignore
+    model_type: str = "plamo2"
+
+    hidden_size: int
+    num_hidden_layers: int
+    rms_norm_eps: float
+    # Attention
+    num_attention_heads: int
+    hidden_size_per_head: int
+    num_key_value_heads: int
+    # Mamba
+    mamba_d_state: int
+    mamba_d_conv: int
+    mamba_num_heads: int
+    mamba_step: int
+    # MLP
+    intermediate_size: int
+    # Tokenizer
+    vocab_size: int
+
+
+def is_mamba(config: Plamo2Config, i: int) -> bool:
+    assert config.mamba_step > 1
+
+    if config.num_hidden_layers <= (config.mamba_step // 2):
+        # use attention in last layer
+        return i != config.num_hidden_layers - 1
+    return (i % config.mamba_step) != (config.mamba_step // 2)
+
+
+# Adapted from:
+# vllm.model_executor.layers.mamba.mamba_mixer2.MambaMixer2
+# transformers.models.mamba.modeling_mamba.MambaMixer
+@CustomOp.register(name="plamo2_mamba_mixer")
+class Plamo2MambaMixer(MambaBase, CustomOp):
+    def __init__(self, vllm_config: VllmConfig, *, prefix: str = "", **kwargs) -> None:
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.cache_config = vllm_config.cache_config
+        self.model_config = vllm_config.model_config
+        self.quant_config = vllm_config.quant_config
+        self.hidden_size = self.config.hidden_size
+        self.ssm_state_size = self.config.mamba_d_state
+        self.conv_kernel_size = self.config.mamba_d_conv
+        self.intermediate_size = (
+            self.config.mamba_num_heads * self.config.hidden_size_per_head
+        )
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.head_dim = self.config.hidden_size_per_head
+        self.num_heads = self.config.mamba_num_heads
+        self.time_step_rank = max(64, self.hidden_size // 16)
+        self.conv1d = ColumnParallelLinear(
+            input_size=self.conv_kernel_size,
+            output_size=self.intermediate_size,
+            bias=False,
+            prefix=f"{prefix}.conv1d",
+            return_bias=False,
+        )
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `set_weight_attrs`
+        # doesn't allow to override it
+        self.conv1d.weight.data = self.conv1d.weight.data.unsqueeze(1)
+
+        self.in_proj = MergedColumnParallelLinear(
+            self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.in_proj",
+            return_bias=False,
+        )
+        # selective projection used to make dt, B and C input dependent
+        self.bcdt_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.time_step_rank + self.ssm_state_size * 2,
+            bias=False,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.bcdt_proj",
+            return_bias=False,
+        )
+        # time step projection (discretization) -
+        # In the forward we need to apply dt_proj without the bias,
+        # as the bias is added in the selective scan kernel.
+        self.dt_proj = ColumnParallelLinear(
+            self.time_step_rank,
+            self.num_heads,
+            bias=False,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.dt_proj",
+            return_bias=False,
+        )
+
+        self.A = nn.Parameter(
+            torch.empty(
+                divide(self.num_heads, self.tp_size),
+                dtype=torch.float32,
+            )
+        )
+        self.D = nn.Parameter(torch.ones(divide(self.num_heads, self.tp_size)))
+        self.dt_bias = nn.Parameter(torch.ones(divide(self.num_heads, self.tp_size)))
+
+        set_weight_attrs(self.D, {"weight_loader": sharded_weight_loader(0)})
+        a_weight_loader = composed_weight_loader(
+            sharded_weight_loader(0), lambda x: -torch.exp(x.float())
+        )
+        set_weight_attrs(self.A, {"weight_loader": a_weight_loader})
+        set_weight_attrs(self.dt_bias, {"weight_loader": sharded_weight_loader(0)})
+
+        self.out_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            input_is_parallel=True,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.out_proj",
+            return_bias=False,
+        )
+        # The activation function is fixed to SiLU.
+        self.activation = "silu"
+
+        self.dt_norm = RMSNorm(self.time_step_rank, eps=self.config.rms_norm_eps)
+        self.B_norm = RMSNorm(self.ssm_state_size, eps=self.config.rms_norm_eps)
+        self.C_norm = RMSNorm(self.ssm_state_size, eps=self.config.rms_norm_eps)
+
+        self.chunk_size = self.config.mamba_chunk_size
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+        # The tuple is (conv_state, ssm_state)
+        self.kv_cache = (torch.tensor([]), torch.tensor([]))
+        assert self.chunk_size != -1, "chunk_size must be set for v1"
+
+        self.prefix = prefix
+
+    def _project_ssm_parameters(self, hidden_states):
+        ssm_parameters = self.bcdt_proj(hidden_states)
+        B, C, time_step = torch.split(
+            ssm_parameters,
+            [self.ssm_state_size, self.ssm_state_size, self.time_step_rank],
+            dim=-1,
+        )
+
+        # vllm._custom_ops.rms_norm requires contiguous input tensors.
+        time_step = self.dt_norm(time_step.contiguous())
+        B = self.B_norm(B.contiguous())
+        C = self.C_norm(C.contiguous())
+        dt = self.dt_proj(time_step)
+        return B, C, dt
+
+    def forward_native(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        **kwargs,
+    ):
+        pass
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        **kwargs,
+    ):
+        torch.ops.vllm.plamo2_mamba_mixer(
+            hidden_states,
+            output,
+            self.prefix,
+        )
+
+    def forward_cuda(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        **kwargs,
+    ):
+        forward_context = get_forward_context()
+        # attn_metadata contains metadata necessary for the mamba2 triton
+        # kernels to operate in continuous batching and in chunked prefill
+        # modes; they are computed at top-level model forward since they
+        # stay the same and reused for all mamba layers in the same iteration
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]
+            assert isinstance(attn_metadata, Mamba2AttentionMetadata)
+            self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+            # conv_state = (..., dim, width-1) yet contiguous along 'dim'
+            conv_state = self_kv_cache[0].transpose(-1, -2)
+            ssm_state = self_kv_cache[1]
+            state_indices_tensor = attn_metadata.state_indices_tensor
+            has_initial_states_p = attn_metadata.has_initial_states_p
+            prep_initial_states = attn_metadata.prep_initial_states
+            chunk_size = attn_metadata.chunk_size
+            seq_idx_p = attn_metadata.seq_idx_p
+            query_start_loc_p = attn_metadata.query_start_loc_p
+            cu_chunk_seqlen_p = attn_metadata.cu_chunk_seqlen_p
+            last_chunk_indices_p = attn_metadata.last_chunk_indices_p
+
+        # 1. Gated MLP's linear projection
+        projected_states = self.in_proj(hidden_states)
+        gate, hidden_states = projected_states.chunk(2, dim=-1)
+
+        # 2. Convolution sequence transformation
+        conv_weights = self.conv1d.weight.view(
+            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
+        )
+
+        if attn_metadata is None:
+            # profile run
+            hidden_states = (
+                hidden_states.transpose(0, 1).clone().transpose(0, 1)
+            ).contiguous()
+            output[:] = self.out_proj(hidden_states)
+            return
+
+        num_prefills = attn_metadata.num_prefills  # request count
+        num_decodes = attn_metadata.num_decode_tokens  # token count (=request)
+        num_prefill_tokens = attn_metadata.num_prefill_tokens  # token count
+        has_prefill = num_prefills > 0
+        has_decode = num_decodes > 0
+        num_actual_tokens = num_prefill_tokens + num_decodes
+
+        # NOTE: V0 put prefill before decode, v1 puts decode before prefill
+        # Separate prefill and decode by splitting varlen input
+        # Split along token dimension
+        hidden_states_d, hidden_states_p = torch.split(
+            hidden_states[:num_actual_tokens],
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+        gate_d, gate_p = torch.split(
+            gate[:num_actual_tokens], [num_decodes, num_prefill_tokens], dim=0
+        )
+        # Split along batch dimension
+        state_indices_tensor_d, state_indices_tensor_p = torch.split(
+            state_indices_tensor,
+            [num_decodes, num_prefills],
+            dim=0,
+        )
+
+        # Preallocate output tensor to avoid memcpy cost for merging prefill
+        # and decode outputs
+        preallocated_ssm_out = torch.empty(
+            [
+                num_prefill_tokens + num_decodes,
+                (self.num_heads // self.tp_size) * self.head_dim,
+            ],
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+        preallocated_ssm_out_d, preallocated_ssm_out_p = torch.split(
+            preallocated_ssm_out,
+            [num_decodes, num_prefill_tokens],
+            dim=0,
+        )
+
+        # Process prefill requests
+        if has_prefill:
+            # 2. Convolution sequence transformation
+            # - "cache_indices" updates the conv_state cache in positions
+            #   pointed to by "state_indices_tensor"
+            x = hidden_states_p.transpose(0, 1)  # this is the form that causal-conv see
+            hidden_states_p = causal_conv1d_fn(
+                x,
+                conv_weights,
+                self.conv1d.bias,
+                activation=self.activation,
+                conv_states=conv_state,
+                has_initial_state=has_initial_states_p,
+                cache_indices=state_indices_tensor_p,
+                metadata=attn_metadata,
+                query_start_loc=query_start_loc_p,
+            )
+            hidden_states_p = hidden_states_p.transpose(0, 1)
+            hidden_states_p = hidden_states_p[:num_prefill_tokens]
+            # In some instances, the following `bcdt_proj` op
+            # requires contiguous inputs
+            # (e.g. if the Marlin kernel is used).
+            hidden_states_p = hidden_states_p.contiguous()
+
+            B, C, dt = self._project_ssm_parameters(hidden_states_p)
+
+            # 3. State Space Model sequence transformation
+            initial_states = None
+            if has_initial_states_p is not None and prep_initial_states:
+                # making a copy of the states
+                initial_states = torch.where(
+                    has_initial_states_p[:, None, None, None],
+                    ssm_state[state_indices_tensor_p],
+                    0,
+                )
+
+            varlen_state = mamba_chunk_scan_combined_varlen(
+                hidden_states_p.view(
+                    num_prefill_tokens, self.num_heads // self.tp_size, self.head_dim
+                ),
+                dt,
+                self.A,
+                B.view(num_prefill_tokens, 1, -1),
+                C.view(num_prefill_tokens, 1, -1),
+                chunk_size=chunk_size,
+                D=self.D,
+                z=gate_p.view(
+                    num_prefill_tokens, self.num_heads // self.tp_size, self.head_dim
+                ),
+                dt_bias=self.dt_bias,
+                seq_idx=seq_idx_p,
+                cu_seqlens=query_start_loc_p,
+                cu_chunk_seqlens=cu_chunk_seqlen_p,
+                last_chunk_indices=last_chunk_indices_p,
+                initial_states=initial_states,
+                dt_softplus=True,
+                dt_limit=(0.0, float("inf")),
+                out=preallocated_ssm_out_p.view(num_prefill_tokens, -1, self.head_dim),
+                state_dtype=ssm_state.dtype,
+            )
+
+            # update ssm states
+            # - varlen state is a (batch, nheads, headdim, dstate) tensor
+            ssm_state[state_indices_tensor_p] = varlen_state
+
+        # Process decode requests
+        if has_decode:
+            # 2. Convolution sequence transformation
+            hidden_states_d = causal_conv1d_update(
+                hidden_states_d,
+                conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=state_indices_tensor_d,
+            )
+
+            B, C, dt = self._project_ssm_parameters(hidden_states_d)
+
+            # 3. State Space Model sequence transformation
+            A = self.A[:, None, ...][:, :, None].expand(
+                -1, self.head_dim, self.config.mamba_d_state
+            )
+            dt = dt[:, :, None].expand(-1, -1, self.head_dim)
+            dt_bias = self.dt_bias[:, None, ...].expand(-1, self.head_dim)
+            D = self.D[:, None, ...].expand(-1, self.head_dim)
+            B = B.unsqueeze(1)
+            C = C.unsqueeze(1)
+            hidden_states_d = hidden_states_d.view(
+                -1, self.num_heads // self.tp_size, self.head_dim
+            )
+
+            # - the hidden is reshaped into (bs, num_heads, head_dim)
+            # - ssm_state's slots will be selected
+            #   using state_indices_tensor_d
+
+            # NOTE: final output is an in-place update of out tensor
+            selective_state_update(
+                ssm_state,
+                hidden_states_d,
+                dt,
+                A,
+                B,
+                C,
+                D,
+                z=gate_d.reshape(num_decodes, -1, self.head_dim),
+                dt_bias=dt_bias,
+                dt_softplus=True,
+                state_batch_indices=state_indices_tensor_d,
+                out=preallocated_ssm_out_d.view(num_decodes, -1, self.head_dim),
+            )
+
+        # 4. Final linear projection
+        output[:num_actual_tokens] = self.out_proj(preallocated_ssm_out)
+
+    def get_state_dtype(self) -> tuple[torch.dtype, torch.dtype]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+            self.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=self.intermediate_size,
+            tp_world_size=get_tensor_model_parallel_world_size(),
+            n_groups=0,
+            num_heads=self.num_heads,
+            head_dim=self.head_dim,
+            state_size=self.ssm_state_size,
+            conv_kernel=self.conv_kernel_size,
+        )
+
+    @property
+    def mamba_type(self) -> str:
+        return "mamba2"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionBackend
+
+        return Mamba2AttentionBackend
+
+
+def plamo2_mamba_mixer(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self.forward_cuda(hidden_states=hidden_states, output=output)
+
+
+def plamo2_mamba_mixer_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="plamo2_mamba_mixer",
+    op_func=plamo2_mamba_mixer,
+    mutates_args=["output"],
+    fake_impl=plamo2_mamba_mixer_fake,
+)
+
+
+class DenseMLP(nn.Module):
+    def __init__(
+        self,
+        config: Plamo2Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_up_proj = MergedColumnParallelLinear(
+            self.hidden_size,
+            [self.intermediate_size] * 2,
+            bias=False,
+            prefix=f"{prefix}.gate_up_proj",
+            quant_config=quant_config,
+            return_bias=False,
+        )
+        self.act = SiluAndMul()
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=False,
+            prefix=f"{prefix}.down_proj",
+            quant_config=quant_config,
+            return_bias=False,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        h = self.gate_up_proj(hidden_states)
+        h = self.act(h)
+        return self.down_proj(h)
+
+
+class Plamo2AttentionMixer(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "", **kwargs) -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.hidden_size_per_head
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rope_theta = config.rope_theta if hasattr(config, "rope_theta") else 10000
+        self.rope_scaling = (
+            config.rope_scaling if hasattr(config, "rope_scaling") else None
+        )
+        max_position = config.max_position_embeddings
+        if hasattr(vllm_config.model_config, "max_model_len") and isinstance(
+            vllm_config.model_config.max_model_len, int
+        ):
+            max_position = min(max_position, vllm_config.model_config.max_model_len)
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=self.rope_scaling,
+        )
+        self.q_norm = RMSNorm(config.hidden_size_per_head, eps=config.rms_norm_eps)
+        self.q_norm.weight = torch.nn.Parameter(
+            torch.ones((self.num_heads, config.hidden_size_per_head))
+        )
+        set_weight_attrs(
+            self.q_norm.weight, {"weight_loader": sharded_weight_loader(0)}
+        )
+        self.k_norm = RMSNorm(config.hidden_size_per_head, eps=config.rms_norm_eps)
+        self.k_norm.weight = torch.nn.Parameter(
+            torch.ones((self.num_kv_heads, config.hidden_size_per_head))
+        )
+        # Tensor-parallelism shards the K norm weights to the tp ranks
+        # in a head-wise manner. This approach does not work if there is only
+        # a single KV head, as is the case for PLaMo 2-1B.
+        if self.total_num_kv_heads != 1:
+            set_weight_attrs(
+                self.k_norm.weight, {"weight_loader": sharded_weight_loader(0)}
+            )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q_shape = q.shape
+        q = q.reshape(q_shape[:-1] + self.q_norm.weight.shape)
+        q = self.q_norm.forward_native(q).reshape(q_shape)
+        k_shape = k.shape
+        k = k.reshape(k_shape[:-1] + self.k_norm.weight.shape)
+        k = self.k_norm.forward_native(k).reshape(k_shape)
+
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Plamo2DecoderLayer(nn.Module):
+    def __init__(
+        self, vllm_config: VllmConfig, layer_idx: int, prefix: str = "", **kwargs
+    ) -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.is_mamba = is_mamba(config, layer_idx)
+        if self.is_mamba:
+            self.mixer = Plamo2MambaMixer(
+                vllm_config=vllm_config, prefix=f"{prefix}.mixer"
+            )
+        else:
+            self.mixer = Plamo2AttentionMixer(
+                vllm_config=vllm_config, prefix=f"{prefix}.mixer"
+            )
+
+        self.mlp = DenseMLP(
+            config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+        self.pre_mixer_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_mixer_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_mlp_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_mlp_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.pre_mixer_norm(hidden_states)
+        else:
+            hidden_states, residual = self.pre_mixer_norm(hidden_states, residual)
+
+        if self.is_mamba:
+            # Plamo2MambaMixer writes output to this tensor
+            output = torch.empty_like(hidden_states)
+            mixer_kwargs = {
+                "output": output,
+            }
+        else:
+            mixer_kwargs = {
+                "positions": positions,
+            }
+        hidden_states = self.mixer(
+            hidden_states=hidden_states,
+            **mixer_kwargs,
+        )
+        if self.is_mamba:
+            hidden_states = output
+        hidden_states = self.post_mixer_norm(hidden_states)
+        # Fully Connected
+        hidden_states, residual = self.pre_mlp_norm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_mlp_norm(hidden_states)
+        return hidden_states, residual
+
+
+class Plamo2Decoder(torch.nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        extra_kwargs = {"is_lora_enabled": bool(vllm_config.lora_config)}
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            return Plamo2DecoderLayer(
+                vllm_config=vllm_config,
+                layer_idx=layer_idx,
+                prefix=prefix,
+                **extra_kwargs,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Plamo2Model(torch.nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+
+        self.config = config
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        self.layers = Plamo2Decoder(vllm_config=vllm_config, prefix=f"{prefix}.layers")
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        hidden_states, residual = self.layers(
+            positions=positions,
+            hidden_states=hidden_states,
+            residual=residual,
+        )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class Plamo2ForCausalLM(torch.nn.Module, HasInnerState, SupportsPP, IsHybrid):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        scheduler_config = vllm_config.scheduler_config
+
+        self.config = config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.scheduler_config = scheduler_config
+
+        # ModelConfig.get_head_size assumes head_dim is set or calculated as
+        # hidden_size // num_attention_heads. However, this is not always
+        # the case for PLaMo2, as indicated by the FIXME comment.
+        self.config.head_dim = self.config.hidden_size_per_head
+
+        self.model = Plamo2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.vocab_size = self.config.vocab_size
+        self.lm_head = ParallelLMHead(
+            self.vocab_size,
+            self.config.hidden_size,
+            prefix=f"{prefix}.lm_head",
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+
+        self.logits_processor = LogitsProcessor(
+            config.vocab_size, self.config.vocab_size
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+        Args:
+            vllm_config: vLLM config
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.mamba_num_heads * hf_config.hidden_size_per_head
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=0,
+            num_heads=hf_config.mamba_num_heads,
+            head_dim=hf_config.hidden_size_per_head,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        params_dict = dict(self.named_parameters())
+        for name, loaded_weight in weights:
+            # Both tie_word_embeddings=True and lm_head.weight in the safetensor
+            # at the same time causes dict key access error.
+            if name == "lm_head.weight" and self.config.tie_word_embeddings:
+                assert "lm_head.weight" not in params_dict
+                continue
+
+            # Update the weight names to be compatible with the vllm version
+            # of the model.
+            # Do not change the order of the replacements.
+            replacements = {
+                # Rename incompatible weight names.
+                ".A_log": ".A",
+                ".B_norm_weight": ".B_norm.weight",
+                ".C_norm_weight": ".C_norm.weight",
+                ".dt_norm_weight": ".dt_norm.weight",
+                ".q_weight": ".q_norm.weight",
+                ".k_weight": ".k_norm.weight",
+            }
+            # Apply replacements based on the defined mappings
+            for old, new in replacements.items():
+                if old in name:
+                    name = name.replace(old, new)
+
+            # Reshape the in_proj weights to match the shape expected
+            # by MergedColumnParallelLinear.
+            # This works both for unquantized weights and
+            # for quantized weights.
+            # In the quantized case, the weights are already transposed.
+            # Also, in addition to the quantized weights,
+            # the zero points and scales have to be reshaped as well.
+            # Packing should not be affected by this.
+            if (
+                ".mixer.in_proj.weight" in name
+                or "mixer.in_proj.qweight" in name
+                or "mixer.in_proj.scales" in name
+                or "mixer.in_proj.qzeros" in name
+            ):
+                if "mixer.in_proj.weight" in name:
+                    loaded_weight = loaded_weight.transpose(0, 1)
+                # for weight:
+                # loaded_weight.shape[0] == self.config.hidden_size
+                # for qweight:
+                # loaded_weight.shape[0] == self.config.hidden_size // param.pack_factor  # noqa
+                # for scales and qzeros:
+                # loaded_weight.shape[0] == self.config.hidden_size // self.vllm_config.quant_config.group_size  # noqa
+                loaded_weight = loaded_weight.reshape(
+                    loaded_weight.shape[0], self.config.mamba_num_heads, -1
+                )
+                gate_weight, hidden_states_weight = loaded_weight.chunk(2, dim=-1)
+                gate_weight = gate_weight.reshape(loaded_weight.shape[0], -1)
+                hidden_states_weight = hidden_states_weight.reshape(
+                    loaded_weight.shape[0], -1
+                )
+                loaded_weight = torch.cat([gate_weight, hidden_states_weight], dim=-1)
+                if "mixer.in_proj.weight" in name:
+                    loaded_weight = loaded_weight.transpose(0, 1)
+
+            # Offset parameter with vllm's RMSNorm haven't been supported yet.
+            if ".pre_mixer_norm" in name:
+                loaded_weight += 1.0
+            elif ".post_mixer_norm" in name:
+                loaded_weight += 1.0 / 5
+            elif ".pre_mlp_norm" in name:
+                loaded_weight += 1.0
+            elif ".post_mlp_norm" in name:
+                loaded_weight += 1.0 / (5**1.5)
+            elif "model.norm.weight" in name:
+                loaded_weight += 1.0
+
+            # Skip layers on other devices.
+            if is_pp_missing_parameter(name, self):
+                continue
+
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
diff --git a/model_executor/models/qwen.py b/model_executor/models/qwen.py
new file mode 100644
index 0000000..3b14b9a
--- /dev/null
+++ b/model_executor/models/qwen.py
@@ -0,0 +1,371 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/Qwen/Qwen-7B/blob/main/modeling_qwen.py
+# Copyright (c) Alibaba Cloud.
+# LICENSE: https://huggingface.co/Qwen/Qwen-7B/blob/main/LICENSE
+"""Inference-only QWen model compatible with HuggingFace weights."""
+
+import json
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class QWenMLP(nn.Module):
+    """MLP for the language component of the Qwen model, which contains a
+    MergedColumnParallelLinear merging 2 outputs via silu activation."""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str = "silu",
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+        )
+        self.c_proj = RowParallelLinear(
+            intermediate_size, hidden_size, bias=False, quant_config=quant_config
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.c_proj(x)
+        return x
+
+
+class QWenAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        max_position_embeddings: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+        self.head_dim = hidden_size // self.total_num_heads
+        self.c_attn = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
+        )
+        self.c_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.scaling = self.head_dim**-0.5
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.c_attn(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.c_proj(attn_output)
+        return output
+
+
+class QWenBlock(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.ln_1 = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        self.attn = QWenAttention(
+            config.hidden_size,
+            config.num_attention_heads,
+            config.max_position_embeddings,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+        self.ln_2 = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+
+        self.mlp = QWenMLP(
+            config.hidden_size, config.intermediate_size // 2, quant_config=quant_config
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.ln_1(hidden_states)
+        else:
+            hidden_states, residual = self.ln_1(hidden_states, residual)
+        hidden_states = self.attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.ln_2(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class QWenModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+
+        self.wte = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.h = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: QWenBlock(config, cache_config, quant_config, prefix=prefix),
+            prefix=f"{prefix}.h",
+        )
+        self.ln_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.wte(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.h, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.ln_f(hidden_states, residual)
+        return hidden_states
+
+
+class QWenBaseModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        transformer_type: type[QWenModel] = QWenModel,
+    ) -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.quant_config = quant_config
+        self.transformer = transformer_type(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.transformer.wte.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.transformer.make_empty_intermediate_tensors
+        )
+        
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.wte(input_ids)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("gate_up_proj", "w2", 0),
+            ("gate_up_proj", "w1", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class QWenLMHeadModel(QWenBaseModel, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "c_attn": ["c_attn"],
+        "gate_up_proj": [
+            "w2",
+            "w1",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        if hasattr(config, "visual"):
+            hf_overrides = {"architectures": ["QwenVLForConditionalGeneration"]}
+            raise RuntimeError(
+                "The configuration of this model indicates that it supports "
+                "vision inputs, but you instantiated the text-only version "
+                "of this model. Please use the vision model by setting "
+                f"`--hf-overrides '{json.dumps(hf_overrides)}'`"
+            )
+
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
diff --git a/model_executor/models/qwen2.py b/model_executor/models/qwen2.py
new file mode 100644
index 0000000..1bbb969
--- /dev/null
+++ b/model_executor/models/qwen2.py
@@ -0,0 +1,541 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2/modeling_qwen2.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Qwen2Config
+
+from vllm.attention import Attention, AttentionType
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import is_interleaved
+
+from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Qwen2MLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Qwen2Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        attn_cls = (
+            EncoderOnlyAttention
+            if attn_type == AttentionType.ENCODER_ONLY
+            else Attention
+        )
+        self.attn = attn_cls(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            }
+            if dual_chunk_attention_config
+            else {},
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Qwen2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Qwen2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+
+        # By default, Qwen2 uses causal attention as it is a decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        # (e.g. Alibaba-NLP/gte-Qwen2-7B-instruct)
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = Qwen2Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.mlp = Qwen2MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        # positions is of shape (3, seq_len) if mrope is enabled for qwen2-vl,
+        # otherwise (seq_len, ).
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class Qwen2Model(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layer_type: type[nn.Module] = Qwen2DecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config.get_text_config()
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        # TODO (@robertgshaw2): see if this can be moved out
+        if is_interleaved(vllm_config.model_config.hf_text_config):
+            assert config.max_window_layers == config.num_hidden_layers, (
+                "Sliding window for some but all layers is not supported. "
+                "This model uses sliding window but `max_window_layers` = {} "
+                "is less than `num_hidden_layers` = {}. Please open an issue "
+                "to discuss this feature.".format(
+                    config.max_window_layers,
+                    config.num_hidden_layers,
+                )
+            )
+
+        self.config = config
+        self.quant_config = quant_config
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        # Use the provided decoder layer type or default to Qwen2DecoderLayer
+        decoder_layer_type = decoder_layer_type or Qwen2DecoderLayer
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.aux_hidden_state_layers = tuple[int, ...]()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer)
+        ):
+            if idx in self.aux_hidden_state_layers:
+                aux_hidden_states.append(hidden_states + residual)
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = Qwen2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/qwen2_5_omni_thinker.py b/model_executor/models/qwen2_5_omni_thinker.py
new file mode 100644
index 0000000..262ea77
--- /dev/null
+++ b/model_executor/models/qwen2_5_omni_thinker.py
@@ -0,0 +1,1246 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2.5-Omni model (thinker part)."""
+
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from copy import copy
+from functools import partial
+from typing import Annotated, Any, Literal
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+from transformers.feature_extraction_utils import BatchFeature
+from transformers.models.qwen2_5_omni.configuration_qwen2_5_omni import (
+    Qwen2_5OmniConfig,
+    Qwen2_5OmniThinkerConfig,
+)
+from transformers.models.qwen2_5_omni.modeling_qwen2_5_omni import (
+    Qwen2_5OmniAudioEncoder,
+)
+from transformers.models.qwen2_5_omni.processing_qwen2_5_omni import (
+    Qwen2_5OmniProcessor,
+)
+from transformers.models.whisper import WhisperFeatureExtractor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.qwen2_5_vl import (
+    Qwen2_5_VisionTransformer,
+    Qwen2_5_VLImageEmbeddingInputs,
+    Qwen2_5_VLImageInputs,
+    Qwen2_5_VLImagePixelInputs,
+    Qwen2_5_VLProcessingInfo,
+    Qwen2_5_VLVideoEmbeddingInputs,
+    Qwen2_5_VLVideoInputs,
+    Qwen2_5_VLVideoPixelInputs,
+)
+from vllm.model_executor.models.qwen2_audio import (
+    Qwen2AudioProcessingInfo,
+    _get_feat_extract_output_lengths,
+)
+from vllm.model_executor.models.qwen2_vl import Qwen2VLMultiModalDataParser
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    ImageItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    DictEmbeddingItems,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    MultiModalPromptUpdates,
+    PlaceholderFeaturesInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import encode_tokens
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+    split_list_into_ranges,
+)
+from .vision import get_llm_pos_ids_for_vision
+
+try:
+    import flash_attn
+except (ImportError, ModuleNotFoundError):
+    flash_attn = None
+
+logger = init_logger(__name__)
+
+
+class Qwen2_5OmniAudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+        - na: Number of audios
+        - nmb: Number of mel bins
+        - msl: Maximum sequence length
+        - tsl: Total sequence length
+    """
+
+    type: Literal["audio_features"]
+    input_features: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("nmb", "tsl", dynamic_dims={"tsl"}),
+    ]
+
+    audio_feature_lengths: Annotated[torch.Tensor, TensorShape("na")]
+
+    feature_attention_mask: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("na", "msl", dynamic_dims={"msl"}),
+    ]
+
+
+def create_qwen2_5_omni_thinker_field_factory(
+    spatial_merge_size: int,
+) -> Callable[[Mapping[str, torch.Tensor]], Mapping[str, MultiModalFieldConfig]]:
+    def _qwen2_5_omni_thinker_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+        audio_feature_lengths = hf_inputs.get(
+            "audio_feature_lengths", torch.empty((0,))
+        )
+
+        image_grid_thw = hf_inputs.get("image_grid_thw", torch.empty((0, 3)))
+        image_pixel_grid_sizes = image_grid_thw.prod(-1)
+        image_embed_grid_sizes = (
+            image_pixel_grid_sizes // spatial_merge_size // spatial_merge_size
+        )
+
+        video_grid_thw = hf_inputs.get("video_grid_thw", torch.empty((0, 3)))
+        video_grid_sizes = video_grid_thw.prod(-1)
+        video_embed_grid_sizes = (
+            video_grid_sizes // spatial_merge_size // spatial_merge_size
+        )
+
+        num_videos = len(video_grid_sizes)
+
+        return dict(
+            input_audio_features=MultiModalFieldConfig.flat_from_sizes(
+                "audio", audio_feature_lengths, dim=1
+            ),
+            feature_attention_mask=MultiModalFieldConfig.batched("audio"),
+            audio_feature_lengths=MultiModalFieldConfig.batched("audio"),
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_pixel_grid_sizes
+            ),
+            image_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_embed_grid_sizes
+            ),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_grid_sizes
+            ),
+            video_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_embed_grid_sizes
+            ),
+            video_grid_thw=MultiModalFieldConfig.batched("video"),
+            second_per_grid_ts=MultiModalFieldConfig.batched("video"),
+            use_audio_in_video=MultiModalFieldConfig.shared("video", num_videos),
+        )
+
+    return _qwen2_5_omni_thinker_field_config
+
+
+class Qwen2_5OmniThinkerMultiModalDataParser(Qwen2VLMultiModalDataParser):
+    def __init__(self, spatial_merge_size: int, *args, **kwargs):
+        self._spatial_merge_size = spatial_merge_size
+        super().__init__(self._spatial_merge_size, *args, **kwargs)
+
+    def _parse_audio_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any]:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="audio",
+                required_fields={"input_audio_features", "audio_feature_lengths"},
+                fields_factory=create_qwen2_5_omni_thinker_field_factory(
+                    self._spatial_merge_size
+                ),
+            )
+
+        return super()._parse_audio_data(data)
+
+
+class Qwen2_5OmniThinkerProcessingInfo(
+    Qwen2AudioProcessingInfo, Qwen2_5_VLProcessingInfo
+):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen2_5OmniConfig).thinker_config
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen2_5OmniProcessor:
+        return self.ctx.get_hf_processor(
+            Qwen2_5OmniProcessor,
+            use_fast=kwargs.pop("use_fast", True),
+            **kwargs,
+        )
+
+    def get_feature_extractor(self, **kwargs: object):
+        hf_processor = self.get_hf_processor(**kwargs)
+        feature_extractor = hf_processor.feature_extractor  # type: ignore
+        assert isinstance(feature_extractor, WhisperFeatureExtractor)
+        return feature_extractor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None, "image": None, "video": None}
+
+
+class Qwen2_5OmniThinkerDummyInputsBuilder(
+    BaseDummyInputsBuilder[Qwen2_5OmniThinkerProcessingInfo]
+):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        hf_processor = self.info.get_hf_processor()
+
+        audio_token: str = hf_processor.audio_token
+        image_token: str = hf_processor.image_token
+        video_token: str = hf_processor.video_token
+
+        return (
+            audio_token * num_audios
+            + image_token * num_images
+            + video_token * num_videos
+        )
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        feature_extractor = self.info.get_feature_extractor()
+
+        target_audio_length = (
+            min(
+                feature_extractor.chunk_length,
+                30,
+            )
+            * feature_extractor.sampling_rate
+        )
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        mm_data = {
+            "audio": self._get_dummy_audios(
+                length=target_audio_length,
+                num_audios=num_audios,
+                overrides=audio_overrides,
+            ),
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+        return mm_data
+
+
+class Qwen2_5OmniThinkerMultiModalProcessor(
+    BaseMultiModalProcessor[Qwen2_5OmniThinkerProcessingInfo]
+):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return Qwen2_5OmniThinkerMultiModalDataParser(
+            spatial_merge_size=self.info.get_hf_config().vision_config.spatial_merge_size,
+            target_sr=feature_extractor.sampling_rate,
+        )
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        audios = mm_data.pop("audios", [])
+
+        # NOTE: WhisperFeatureExtractor cannot handle empty list of audios
+        if audios:
+            # NOTE: Qwen2.5-Omni processor accept "audio"
+            mm_data["audio"] = audios
+            mm_kwargs = dict(
+                **mm_kwargs,
+            )
+
+        hf_inputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        input_features = hf_inputs.pop("input_features", None)
+        feature_attention_mask = hf_inputs.get("feature_attention_mask", None)
+        if "input_audio_features" not in hf_inputs and input_features is not None:
+            if feature_attention_mask is not None:
+                input_features = input_features.permute(0, 2, 1)[
+                    feature_attention_mask.bool()
+                ].permute(1, 0)
+            hf_inputs["input_audio_features"] = input_features
+        if (
+            "audio_feature_lengths" not in hf_inputs
+            and feature_attention_mask is not None
+        ):
+            hf_inputs["audio_feature_lengths"] = feature_attention_mask.sum(-1)
+
+        video_second_per_grid = hf_inputs.get("video_second_per_grid", None)
+        if video_second_per_grid is not None:
+            hf_inputs["second_per_grid_ts"] = video_second_per_grid
+
+        use_audio_in_video = mm_kwargs.get("use_audio_in_video", False)
+        hf_inputs["use_audio_in_video"] = torch.tensor(use_audio_in_video)
+
+        return hf_inputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return create_qwen2_5_omni_thinker_field_factory(
+            self.info.get_hf_config().vision_config.spatial_merge_size
+        )(hf_inputs)
+
+    def _maybe_apply_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        prompt_ids: list[int],
+        mm_kwargs: MultiModalKwargsItems,
+        mm_prompt_updates: MultiModalPromptUpdates,
+        is_update_applied: bool,
+    ) -> tuple[list[int], Mapping[str, list[PlaceholderFeaturesInfo]]]:
+        """
+        Qwen2.5-Omni reimplements this function to handle `use_audio_in_video`.
+        """
+        mm_item_counts = mm_items.get_all_counts()
+        self._validate_mm_kwargs(mm_kwargs, mm_item_counts)
+        self._validate_mm_updates(mm_prompt_updates, mm_item_counts)
+
+        use_audio_in_video = False
+        if "video" in mm_kwargs:
+            video_items = [item for item in mm_kwargs["video"] if item is not None]
+            # only check video items (if there are any)
+            if video_items:
+                use_audio_in_video = all(
+                    item["use_audio_in_video"].data for item in video_items
+                )
+
+        if is_update_applied:
+            mm_placeholders = self._find_mm_placeholders(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(
+                mm_placeholders,
+                mm_item_counts,
+                use_audio_in_video=use_audio_in_video,
+            )
+        else:
+            prompt_ids, mm_placeholders = self._apply_prompt_updates(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(
+                mm_placeholders,
+                mm_item_counts,
+                use_audio_in_video=use_audio_in_video,
+            )
+
+        return prompt_ids, mm_placeholders
+
+    @classmethod
+    def omni_get_updates_use_audio_in_video(
+        cls,
+        thinker_config: PretrainedConfig,
+        audio_len: int,
+        video_grid_thw: list[int] | torch.Tensor,
+        video_second_per_grid_t: float,
+    ) -> list[int]:
+        """Get video prompt updates when `use_audio_in_video` is True.
+
+        In this case, audio and vision update ids will be split into
+        chunks and interleaved (details in `_omni_get_input_positions_tensor`).
+
+        <|video_bos|><|VIDEO|><|video_eos|> =>
+        <|video_bos|><|audio_bos|>(... chunks ...)<|audio_eos|><|video_eos|>
+        """
+
+        audio_token_id = thinker_config.audio_token_index
+        video_token_id = thinker_config.video_token_index
+        audio_start_token_id = thinker_config.audio_start_token_id
+        audio_end_token_id = thinker_config.audio_end_token_id
+        seconds_per_chunk = thinker_config.seconds_per_chunk
+        spatial_merge_size = thinker_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(
+            thinker_config.vision_config, "tokens_per_second", 25
+        )
+
+        grid_t = video_grid_thw[0]
+        grid_h = video_grid_thw[1]
+        grid_w = video_grid_thw[2]
+        t_ntoken_per_chunk = int(tokens_per_second * seconds_per_chunk)
+        t_index = (
+            torch.arange(grid_t) * video_second_per_grid_t * tokens_per_second
+        ).long()
+        t_index_split_chunk = split_list_into_ranges(t_index, t_ntoken_per_chunk)
+
+        updates = [audio_start_token_id]
+        added_audio_len = 0
+        for t_chunk in t_index_split_chunk:
+            vision_ntoken_per_chunk = (
+                len(t_chunk) * grid_h * grid_w // (spatial_merge_size**2)
+            )
+            updates.extend([video_token_id] * vision_ntoken_per_chunk)
+
+            audio_chunk_size = min(t_ntoken_per_chunk, audio_len - added_audio_len)
+            updates.extend(audio_chunk_size * [audio_token_id])
+            added_audio_len += audio_chunk_size
+        if added_audio_len < audio_len:
+            updates.extend((audio_len - added_audio_len) * [audio_token_id])
+        updates.extend([audio_end_token_id])
+
+        return updates
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        vocab = tokenizer.get_vocab()
+
+        audio_token = processor.audio_token
+        image_token = processor.image_token
+        video_token = processor.video_token
+        audio_token_id = vocab[audio_token]
+        image_token_id = vocab[image_token]
+        video_token_id = vocab[video_token]
+
+        out_mm_data = out_mm_kwargs.get_data()
+        audio_feature_lengths = out_mm_data.get("audio_feature_lengths")
+        feature_attention_mask = out_mm_data.get("feature_attention_mask")
+        if audio_feature_lengths is None and feature_attention_mask is None:
+            audio_output_lengths = []
+        elif audio_feature_lengths is not None:
+            _, audio_output_lens = _get_feat_extract_output_lengths(
+                audio_feature_lengths
+            )
+            audio_output_lengths = audio_output_lens.tolist()
+        elif feature_attention_mask is not None:
+            assert isinstance(feature_attention_mask, torch.Tensor)
+            _, audio_output_lens = _get_feat_extract_output_lengths(
+                feature_attention_mask.sum(-1)
+            )
+            audio_output_lengths = audio_output_lens.tolist()
+
+        # number of audios read from video.
+        audio_in_video_item_idx = 0
+
+        def get_replacement_qwen2_audio(item_idx: int):
+            item_idx += audio_in_video_item_idx
+
+            num_features = audio_output_lengths[item_idx]
+            if num_features == 0:
+                audios = mm_items.get_items("audio", AudioProcessorItems)
+                audio = audios.get(item_idx)
+                raise ValueError(
+                    f"The audio {audio} (len={len(audio)}) is too short "
+                    "to be represented inside the model"
+                )
+
+            return [audio_token_id] * num_features
+
+        def get_replacement_qwen2_vision(item_idx: int, modality: str):
+            grid_thw = out_mm_data[f"{modality}_grid_thw"][item_idx]
+            assert isinstance(grid_thw, torch.Tensor)
+            merge_length = image_processor.merge_size**2
+
+            token_id = image_token_id if modality == "image" else video_token_id
+            return [token_id] * (int(grid_thw.prod()) // merge_length)
+
+        use_audio_in_video = hf_processor_mm_kwargs.get("use_audio_in_video", False)
+        thinker_config = self.info.get_hf_config()
+
+        def get_replacement_qwen2_use_audio_in_video(item_idx: int):
+            nonlocal audio_in_video_item_idx
+
+            audio_num_features = audio_output_lengths[
+                audio_in_video_item_idx + item_idx
+            ]
+            video_grid_thw = out_mm_data["video_grid_thw"][item_idx]
+
+            audio_in_video_item_idx += 1
+
+            second_per_grid_ts = hf_processor_mm_kwargs.get("second_per_grid_ts", None)
+            if second_per_grid_ts:
+                video_second_per_grid_t = second_per_grid_ts[item_idx]
+            else:
+                video_second_per_grid_t = 1.0
+
+            return self.omni_get_updates_use_audio_in_video(
+                thinker_config=thinker_config,
+                audio_len=audio_num_features,
+                video_grid_thw=video_grid_thw,
+                video_second_per_grid_t=video_second_per_grid_t,
+            )
+
+        video_replacement_fn = (
+            get_replacement_qwen2_use_audio_in_video
+            if use_audio_in_video
+            else partial(get_replacement_qwen2_vision, modality="video")
+        )
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=audio_token,
+                replacement=get_replacement_qwen2_audio,
+            ),
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=partial(get_replacement_qwen2_vision, modality="image"),
+            ),
+            PromptReplacement(
+                modality="video",
+                target=video_token,
+                replacement=video_replacement_fn,
+            ),
+        ]
+
+    def _apply_hf_processor_main(
+        self,
+        prompt: str | list[int],
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        *,
+        enable_hf_prompt_update: bool,
+    ) -> tuple[list[int], BatchFeature, bool]:
+        """
+        Qwen2.5-Omni reimplements this function to handle text only.
+        """
+        if isinstance(prompt, str):
+            if enable_hf_prompt_update:
+                return self._apply_hf_processor_text_mm(
+                    prompt_text=prompt,
+                    mm_items=mm_items,
+                    hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+                    tokenization_kwargs=tokenization_kwargs,
+                )
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = encode_tokens(tokenizer, prompt)
+        else:
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt)
+
+        mm_processed_data = self._apply_hf_processor_mm_only(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return prompt_ids, mm_processed_data, False
+
+    def _apply_hf_processor_mm_only(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        """
+        Qwen2.5-Omni reimplements this function to handle `use_audio_in_video`.
+        """
+        mm_counts = mm_items.get_all_counts()
+
+        use_audio_in_video = hf_processor_mm_kwargs.get("use_audio_in_video", False)
+        if use_audio_in_video and "video" in mm_counts:
+            assert "audio" in mm_counts
+            mm_counts["audio"] -= mm_counts["video"]
+
+        _, mm_processed_data, _ = self._apply_hf_processor_text_mm(
+            prompt_text=self.dummy_inputs.get_dummy_text(mm_counts),
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return mm_processed_data
+
+    def _validate_mm_placeholders(
+        self,
+        mm_placeholders: Mapping[str, list[PlaceholderFeaturesInfo]],
+        mm_item_counts: Mapping[str, int],
+        use_audio_in_video: bool = False,
+    ) -> None:
+        if use_audio_in_video:
+            mm_item_counts = copy(mm_item_counts)
+            if "video" in mm_item_counts:
+                assert "audio" in mm_item_counts
+                mm_item_counts["audio"] -= mm_item_counts["video"]
+        super()._validate_mm_placeholders(mm_placeholders, mm_item_counts)
+
+
+class Qwen2_5OmniConditionalGenerationMixin:
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> Qwen2_5OmniAudioFeatureInputs | None:
+        input_audio_features = kwargs.pop("input_audio_features", None)
+        audio_feature_lengths = kwargs.pop("audio_feature_lengths", None)
+        feature_attention_mask = kwargs.pop("feature_attention_mask", None)
+        if input_audio_features is None:
+            return None
+
+        return Qwen2_5OmniAudioFeatureInputs(
+            type="audio_features",
+            input_features=input_audio_features,
+            audio_feature_lengths=audio_feature_lengths,
+            feature_attention_mask=feature_attention_mask,
+        )
+
+    def _parse_and_validate_image_input(
+        self,
+        **kwargs: dict[str, Any],
+    ) -> Qwen2_5_VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Qwen2_5_VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return Qwen2_5_VLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self,
+        **kwargs: dict[str, Any],
+    ) -> Qwen2_5_VLVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Qwen2_5_VLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+            )
+
+        if video_embeds is not None:
+            if not isinstance(video_embeds, torch.Tensor):
+                raise ValueError(
+                    "Incorrect type of video embeddings. "
+                    f"Got type: {type(video_embeds)}"
+                )
+            return Qwen2_5_VLVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_audio_input(
+        self,
+        audio_input: Qwen2_5OmniAudioFeatureInputs,
+        audio_hashes: list[str] | None = None,
+        cached_audio_features: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        input_features = audio_input["input_features"]
+        audio_feature_lengths = audio_input["audio_feature_lengths"]
+
+        audio_feat_lengths, audio_output_lengths = (
+            self.audio_tower._get_feat_extract_output_lengths(audio_feature_lengths)
+        )
+
+        audio_outputs = self.audio_tower(
+            input_features.to(self.audio_tower.dtype),
+            feature_lens=audio_feature_lengths,
+            aftercnn_lens=audio_feat_lengths,
+        )
+        return audio_outputs.last_hidden_state.split(audio_output_lengths.tolist())
+
+    def _process_image_input(
+        self, image_input: Qwen2_5_VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["image_embeds"].type(self.visual.dtype)
+
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        pixel_values = image_input["pixel_values"].type(self.visual.dtype)
+        with set_forward_context(None, self.vllm_config):
+            image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
+        # Split concatenated embeddings for each image item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = grid_thw.prod(-1) // merge_size // merge_size
+
+        return image_embeds.split(sizes.tolist())
+
+    def _process_video_input(
+        self,
+        video_input: Qwen2_5_VLVideoInputs,
+        video_hashes: list[str] = None,
+        cached_video_embeds: torch.Tensor = None,
+    ) -> torch.Tensor:
+        if video_input["type"] == "video_embeds":
+            return video_input["video_embeds"].type(self.visual.dtype)
+
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        pixel_values_videos = video_input["pixel_values_videos"].type(self.visual.dtype)
+        with set_forward_context(None, self.vllm_config):
+            video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
+        # Split concatenated embeddings for each video item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = grid_thw.prod(-1) // merge_size // merge_size
+
+        return video_embeds.split(sizes.tolist())
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen2_5OmniThinkerMultiModalProcessor,
+    info=Qwen2_5OmniThinkerProcessingInfo,
+    dummy_inputs=Qwen2_5OmniThinkerDummyInputsBuilder,
+)
+class Qwen2_5OmniThinkerForConditionalGeneration(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsLoRA,
+    SupportsMRoPE,
+    Qwen2_5OmniConditionalGenerationMixin,
+):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "thinker.lm_head.": "language_model.lm_head.",
+            "thinker.model.": "language_model.model.",
+            "thinker.": "",
+        }
+    )
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "attn.qkv": [
+            "attn.q",
+            "attn.k",
+            "attn.v",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|IMAGE|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|VIDEO|><|vision_end|>"
+        if modality.startswith("audio"):
+            return f"Audio {i}: <|audio_bos|><|AUDIO|><|audio_eos|>"
+
+        raise ValueError("Only image, video or audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.vllm_config = vllm_config
+        thinker_config: Qwen2_5OmniThinkerConfig = (
+            vllm_config.model_config.hf_config.thinker_config
+        )
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = thinker_config
+        self.multimodal_config = multimodal_config
+
+        # force "use_flash_attention_2=True" to audio tower to align
+        # the results.
+        if flash_attn is not None:
+            audio_config = thinker_config.audio_config
+            audio_config._attn_implementation_autoset = True
+            audio_config._attn_implementation = "flash_attention_2"
+        else:
+            logger.warning(
+                "flash_attn is not available, the model may not yield the "
+                "exactly same result as the transformers implementation "
+                "in the audio tower part."
+            )
+
+        if multimodal_config.get_limit_per_prompt("audio"):
+            self.audio_tower = Qwen2_5OmniAudioEncoder(thinker_config.audio_config)
+        else:
+            self.audio_tower = None
+
+        if multimodal_config.get_limit_per_prompt(
+            "image"
+        ) or multimodal_config.get_limit_per_prompt("video"):
+            self.visual = Qwen2_5_VisionTransformer(
+                vision_config=thinker_config.vision_config,
+                norm_eps=getattr(thinker_config.text_config, "rms_norm_eps", 1e-6),
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "visual"),
+            )
+        else:
+            self.visual = None
+
+        self.quant_config = quant_config
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            hf_config=thinker_config.text_config,
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("input_audio_features")
+                and "audio" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["audio"] = self._parse_and_validate_audio_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        """
+        Example:
+
+            (V_i are vision position ids, A_i are audio position ids)
+
+            |V_1 ...    V_n|A_1 ...   A_n|V_n+1 ... V_2n|A_n+1 ... A_2n|...
+            |vision chunk 1|audio chunk 1|vision chunk 2|audio chunk 2 |...
+        """
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+        audio_feature_lengths = kwargs.get("audio_feature_lengths", [])
+        use_audio_in_video = any(kwargs.get("use_audio_in_video", []))
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
+
+        # TODO(fyabc): refactor and share more code with
+        #  _vl_get_input_positions_tensor.
+
+        thinker_config = self.config
+        audio_token_id = thinker_config.audio_token_index
+        image_token_id = thinker_config.image_token_index
+        video_token_id = thinker_config.video_token_index
+        audio_start_token_id = thinker_config.audio_start_token_id
+        audio_end_token_id = thinker_config.audio_end_token_id
+        vision_start_token_id = thinker_config.vision_start_token_id
+        vision_end_token_id = thinker_config.vision_end_token_id
+        seconds_per_chunk = thinker_config.seconds_per_chunk
+        spatial_merge_size = thinker_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(
+            thinker_config.vision_config, "tokens_per_second", 25
+        )
+
+        src_item = input_tokens
+        audio_seqlens = audio_feature_lengths
+        if not second_per_grid_ts:
+            second_per_grid_ts = [1] * video_grid_thw.shape[0]
+        audio_idx = 0
+        video_idx = 0
+        image_idx = 0
+        new_src_item: list[int] = []
+        llm_pos_ids_list: list[torch.Tensor] = []
+
+        idx = 0
+        while idx < len(src_item):
+            new_src_item_len = len(new_src_item)
+            start_idx = (
+                llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            )
+            if src_item[idx] not in [audio_token_id, video_token_id, image_token_id]:
+                if use_audio_in_video and idx > 0:
+                    if (
+                        src_item[idx] == vision_end_token_id
+                        and src_item[idx - 1] == audio_end_token_id
+                    ):
+                        # processing the <|audio_eos|> before <|vision_eos|>
+                        start_idx -= 1
+                    elif (
+                        src_item[idx] == audio_start_token_id
+                        and src_item[idx - 1] == vision_start_token_id
+                    ):
+                        # processing the <|audio_bos|> after <|vision_eos|>
+                        start_idx -= 1
+                new_src_item.append(src_item[idx])
+                llm_pos_ids = torch.tensor([start_idx], dtype=torch.long).expand(3, -1)
+                llm_pos_ids_list.append(llm_pos_ids)
+            elif src_item[idx] == audio_token_id:
+                assert audio_seqlens is not None
+                audio_seqlen = audio_seqlens[audio_idx]
+                place_num = ((audio_seqlen - 1) // 2 + 1 - 2) // 2 + 1
+                new_src_item.extend([audio_token_id] * place_num)
+                llm_pos_ids = torch.arange(place_num).expand(3, -1) + start_idx
+                llm_pos_ids_list.append(llm_pos_ids)
+                audio_idx += 1
+            elif src_item[idx] == image_token_id:
+                grid_t = image_grid_thw[image_idx][0]
+                grid_hs = image_grid_thw[:, 1]
+                grid_ws = image_grid_thw[:, 2]
+                t_index = (torch.arange(grid_t) * 1 * tokens_per_second).long()
+                llm_pos_ids = get_llm_pos_ids_for_vision(
+                    start_idx, image_idx, spatial_merge_size, t_index, grid_hs, grid_ws
+                )
+                llm_pos_ids_list.append(llm_pos_ids)
+                vision_seqlen = image_grid_thw[image_idx].prod() // (
+                    spatial_merge_size**2
+                )
+                new_src_item.extend([image_token_id] * vision_seqlen)
+                image_idx += 1
+            elif src_item[idx] == video_token_id and not use_audio_in_video:
+                grid_t = video_grid_thw[video_idx][0]
+                grid_hs = video_grid_thw[:, 1]
+                grid_ws = video_grid_thw[:, 2]
+                t_index = (
+                    torch.arange(grid_t)
+                    * second_per_grid_ts[video_idx]
+                    * tokens_per_second
+                ).long()
+                llm_pos_ids = get_llm_pos_ids_for_vision(
+                    start_idx, video_idx, spatial_merge_size, t_index, grid_hs, grid_ws
+                )
+                llm_pos_ids_list.append(llm_pos_ids)
+                vision_seqlen = video_grid_thw[video_idx].prod() // (
+                    spatial_merge_size**2
+                )
+                new_src_item.extend([video_token_id] * vision_seqlen)
+                video_idx += 1
+            else:
+                # read audio from video
+                assert audio_seqlens is not None
+                audio_seqlen = audio_seqlens[audio_idx]
+                vision_seqlen = video_grid_thw[video_idx].prod() // (
+                    spatial_merge_size**2
+                )
+                grid_t = video_grid_thw[video_idx][0]
+                grid_h = video_grid_thw[video_idx][1]
+                grid_w = video_grid_thw[video_idx][2]
+                grid_hs = video_grid_thw[:, 1]
+                grid_ws = video_grid_thw[:, 2]
+                t_ntoken_per_chunk = int(tokens_per_second * seconds_per_chunk)
+                t_index = (
+                    torch.arange(grid_t)
+                    * second_per_grid_ts[video_idx]
+                    * tokens_per_second
+                ).long()
+                t_index_split_chunk = split_list_into_ranges(
+                    t_index, t_ntoken_per_chunk
+                )
+                place_num = (((audio_seqlen - 1) // 2 + 1 - 2) // 2 + 1) + 2
+                pure_audio_len = place_num - 2
+                added_audio_len = 0
+                audio_llm_pos_ids_list: list[torch.Tensor] = []
+                for t_chunk in t_index_split_chunk:
+                    vision_ntoken_per_chunk = (
+                        len(t_chunk) * grid_h * grid_w // (spatial_merge_size**2)
+                    )
+                    new_src_item.extend([video_token_id] * vision_ntoken_per_chunk)
+                    vision_llm_pos_ids_list = get_llm_pos_ids_for_vision(
+                        start_idx,
+                        video_idx,
+                        spatial_merge_size,
+                        t_chunk,
+                        grid_hs,
+                        grid_ws,
+                    ).split(1, dim=1)
+                    llm_pos_ids_list.extend(vision_llm_pos_ids_list)
+                    new_src_item.extend(
+                        min(t_ntoken_per_chunk, pure_audio_len - added_audio_len)
+                        * [audio_token_id]
+                    )
+                    audio_start_idx = (
+                        start_idx
+                        if len(audio_llm_pos_ids_list) == 0
+                        else audio_llm_pos_ids_list[-1][0].item() + 1
+                    )
+                    if min(t_ntoken_per_chunk, pure_audio_len - added_audio_len) > 0:
+                        audio_llm_pos_ids_list = (
+                            torch.arange(
+                                min(
+                                    t_ntoken_per_chunk, pure_audio_len - added_audio_len
+                                )
+                            ).expand(3, -1)
+                            + audio_start_idx
+                        ).split(1, dim=1)
+                    else:
+                        audio_llm_pos_ids_list = []
+                    added_audio_len += min(
+                        t_ntoken_per_chunk, pure_audio_len - added_audio_len
+                    )
+                    llm_pos_ids_list.extend(audio_llm_pos_ids_list)
+                if added_audio_len < pure_audio_len:
+                    new_src_item.extend(
+                        (pure_audio_len - added_audio_len) * [audio_token_id]
+                    )
+                    audio_llm_pos_ids_list = (
+                        torch.arange(pure_audio_len - added_audio_len).expand(3, -1)
+                        + llm_pos_ids_list[-1].max()
+                        + 1
+                    ).split(1, dim=1)
+                    llm_pos_ids_list.extend(audio_llm_pos_ids_list)
+                audio_idx += 1
+                video_idx += 1
+            # move to the next token
+            idx += len(new_src_item) - new_src_item_len
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1)
+        mrope_position_delta = (
+            torch.cat(llm_pos_ids_list, dim=1).max() + 1 - len(src_item)
+        )
+
+        return llm_positions, mrope_position_delta
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor corresponding to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_input(multimodal_input)
+                multimodal_embeddings += tuple(video_embeddings)
+            if modality == "audio":
+                audio_embeddings = self._process_audio_input(multimodal_input)
+                multimodal_embeddings += tuple(audio_embeddings)
+        return multimodal_embeddings
+
+    # TODO (ywang96): support overlapping modality embeddings so that
+    # `use_audio_in_video` will work on V1.
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def embed_multimodal_v0(self, **kwargs: object) -> NestedTensors | None:
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        video_input = self._parse_and_validate_video_input(**kwargs)
+
+        if audio_input is None and image_input is None and video_input is None:
+            return None
+
+        multimodal_embeddings: list[tuple[NestedTensors, str]] = []
+
+        if audio_input is not None:
+            audio_embeds = self._process_audio_input(audio_input)
+            multimodal_embeddings.append((audio_embeds, "audio"))
+        if image_input is not None:
+            image_embeds = self._process_image_input(image_input)
+            multimodal_embeddings.append((image_embeds, "image"))
+        if video_input is not None:
+            video_embeds = self._process_video_input(video_input)
+            multimodal_embeddings.append((video_embeds, "video"))
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = ["talker.", "token2wav."]
+        if self.audio_tower is None:
+            skip_prefixes.extend(["audio_tower."])
+        if self.visual is None:
+            skip_prefixes.extend(["visual."])
+
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=skip_prefixes,
+        )
+        loaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+        return loaded_weights
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="merger.",
+            tower_model=["visual.", "audio_tower."],
+        )
diff --git a/model_executor/models/qwen2_5_vl.py b/model_executor/models/qwen2_5_vl.py
new file mode 100644
index 0000000..897dd7e
--- /dev/null
+++ b/model_executor/models/qwen2_5_vl.py
@@ -0,0 +1,1613 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/main/src/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
+# Copyright 2025 The vLLM team.
+# Copyright 2025 The Qwen Team.
+# Copyright 2025 The HuggingFace Inc. team.
+# All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2.5-VL model compatible with HuggingFace weights."""
+
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import lru_cache, partial
+from typing import Annotated, Any, Literal, TypeAlias
+
+import einops
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import BatchFeature
+from transformers.models.qwen2_5_vl import Qwen2_5_VLProcessor
+from transformers.models.qwen2_5_vl.configuration_qwen2_5_vl import (
+    Qwen2_5_VLConfig,
+    Qwen2_5_VLVisionConfig,
+)
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import maybe_get_vit_flash_attn_backend
+from vllm.attention.ops.vit_attn_wrappers import (
+    vit_flash_attn_wrapper,
+    vit_torch_sdpa_wrapper,
+    vit_xformers_attn_wrapper,
+)
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import get_act_and_mul_fn
+from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.vision import should_torch_compile_mm_vit
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.evs import (
+    compute_mrope_for_media,
+    compute_retained_tokens_count,
+    compute_retention_mask,
+    recompute_mrope_positions,
+)
+from vllm.multimodal.inputs import (
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import PromptReplacement, PromptUpdate
+from vllm.sequence import IntermediateTensors
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsEagle3,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsMultiModalPruning,
+    SupportsPP,
+    SupportsQuant,
+)
+from .qwen2_vl import Qwen2VLDummyInputsBuilder as Qwen2_5_VLDummyInputsBuilder
+from .qwen2_vl import (
+    Qwen2VLMultiModalProcessor,
+    Qwen2VLProcessingInfo,
+    apply_rotary_pos_emb_vision,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    cast_overflow_tensors,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import (
+    get_vit_attn_backend,
+    run_dp_sharded_mrope_vision_model,
+)
+
+logger = init_logger(__name__)
+
+# === Vision Inputs === #
+
+
+class Qwen2_5_VLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: Number of patches
+        - ni: Number of images
+        - cps: Number of channels * patch_size * patch_size
+
+    Historical context:
+        - pixel_values shape: (num_patches, num_channels * patch_size *
+          patch_size)
+        - image_grid_thw shape: (num_images, 3) in (grid_t, grid_h, grid_w)
+          format.
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("np", "cps"),
+    ]
+
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("ni", 3),
+    ]
+
+
+class Qwen2_5_VLImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of image features
+        - hs: Hidden size
+        - ni: Number of images
+
+    Historical context:
+        - image_embeds shape: (num_image_features, hidden_size)
+        - num_image_features varies based on the number and resolution of the
+          images.
+        - hidden_size must match the hidden size of language model backbone.
+        - image_grid_thw shape: (num_images, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["image_embeds"]
+
+    image_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("nf", "hs"),
+    ]
+
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("ni", 3),
+    ]
+
+
+Qwen2_5_VLImageInputs: TypeAlias = (
+    Qwen2_5_VLImagePixelInputs | Qwen2_5_VLImageEmbeddingInputs
+)
+
+
+class Qwen2_5_VLVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: Number of patches
+        - nv: Number of videos
+        - ctps: Number of channels * temporal_patch_size * patch_size *
+          patch_size
+
+    Historical context:
+        - pixel_values_videos shape: (num_patches, num_channels *
+          temporal_patch_size * patch_size * patch_size)
+        - video_grid_thw shape: (num_videos, 3) in (grid_t, grid_h, grid_w)
+          format
+        - second_per_grid_ts: The video time interval (in seconds) for each
+          grid along the temporal dimension in the 3D position IDs. Returned
+          when `videos` is not `None`.
+    """
+
+    type: Literal["pixel_values_videos"]
+
+    pixel_values_videos: Annotated[
+        torch.Tensor,
+        TensorShape("np", "ctps"),
+    ]
+
+    video_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("nv", 3),
+    ]
+
+    second_per_grid_ts: Annotated[
+        torch.Tensor | None,
+        TensorShape("nv"),
+    ]
+
+
+class Qwen2_5_VLVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of video features
+        - hs: Hidden size
+        - nv: Number of videos
+
+    Historical context:
+        - video_embeds shape: (num_video_features, hidden_size)
+        - num_video_features varies based on the number and resolution of the
+          videos.
+        - hidden_size must match the hidden size of language model backbone.
+        - video_grid_thw shape: (num_videos, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["video_embeds"]
+
+    video_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("nf", "hs"),
+    ]
+
+    video_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("nv", 3),
+    ]
+
+
+Qwen2_5_VLVideoInputs: TypeAlias = (
+    Qwen2_5_VLVideoPixelInputs | Qwen2_5_VLVideoEmbeddingInputs
+)
+
+# === Vision Encoder === #
+
+
+class Qwen2_5_VisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        bias: bool = False,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=in_features,
+            output_sizes=[hidden_features] * 2,  # [gate_proj, up_proj]
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+            disable_tp=use_data_parallel,
+        )
+
+        self.down_proj = RowParallelLinear(
+            hidden_features,
+            in_features,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = act_fn
+
+    def forward(self, x: torch.Tensor):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x_down, _ = self.down_proj(x)
+        return x_down
+
+
+class Qwen2_5_VisionAttention(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        use_upstream_fa: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        # Per attention head and per partition values.
+        self.tp_size = (
+            1
+            if use_data_parallel
+            else parallel_state.get_tensor_model_parallel_world_size()
+        )
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            total_num_kv_heads=num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+            disable_tp=use_data_parallel,
+        )
+
+        self.proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            disable_tp=use_data_parallel,
+        )
+        self.attn_backend = attn_backend
+        self.use_upstream_fa = use_upstream_fa
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+        # On ROCm with FLASH_ATTN backend, upstream flash_attn is used
+        from vllm.platforms import current_platform
+
+        if (
+            current_platform.is_rocm()
+            and self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+        ):
+            self.use_upstream_fa = True
+        if current_platform.is_xpu():
+            self.use_upstream_fa = False
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: torch.Tensor,  # Only used for Flash Attention
+        seqlens: torch.Tensor,  # Only used for xFormers
+    ) -> torch.Tensor:
+        # [s, b, c] --> [s, b, head * 3 * head_dim]
+        x, _ = self.qkv(x)
+        seq_len, batch_size, _ = x.shape
+
+        qkv = einops.rearrange(
+            x,
+            "s b (three head head_dim) -> b s three head head_dim",
+            three=3,
+            head=self.num_attention_heads_per_partition,
+        )
+
+        if rotary_pos_emb is not None:
+            qk, v = qkv[:, :, :2], qkv[:, :, 2]
+
+            qk_reshaped = einops.rearrange(
+                qk, "b s two head head_dim -> (two b) s head head_dim", two=2
+            )
+            qk_rotated = apply_rotary_pos_emb_vision(qk_reshaped, rotary_pos_emb)
+            qk_rotated = qk_rotated.view(
+                2,
+                batch_size,
+                seq_len,
+                self.num_attention_heads_per_partition,
+                self.hidden_size_per_attention_head,
+            )
+            q, k = qk_rotated.unbind(dim=0)
+        else:
+            q, k, v = qkv.unbind(dim=2)
+
+        if self.is_flash_attn_backend:
+            context_layer = vit_flash_attn_wrapper(
+                q,
+                k,
+                v,
+                cu_seqlens,
+                max_seqlen,
+                batch_size,
+                self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA,
+                self.use_upstream_fa,
+            )
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            # Execute attention entry by entry for speed & less VRAM.
+            from vllm.platforms import current_platform
+
+            # Never remove the next contiguous logic
+            # Without it, hallucinations occur with the backend
+            if current_platform.is_rocm():
+                q = q.contiguous()
+                k = k.contiguous()
+                v = v.contiguous()
+            context_layer = vit_torch_sdpa_wrapper(
+                q,
+                k,
+                v,
+                cu_seqlens,
+            )
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
+
+        output, _ = self.proj(context_layer)
+        return output
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "x": 0,
+        "cu_seqlens": 0,
+        "rotary_pos_emb": 0,
+        "seqlens": 0,
+    },
+    mark_unbacked_dims={"seqlens": 0},
+    enable_if=should_torch_compile_mm_vit,
+)
+class Qwen2_5_VisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_hidden_dim: int,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        use_upstream_fa: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        self.attn = Qwen2_5_VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend=attn_backend,
+            use_upstream_fa=use_upstream_fa,
+            attn_backend_override=attn_backend_override,
+        )
+        self.mlp = Qwen2_5_VisionMLP(
+            dim,
+            mlp_hidden_dim,
+            act_fn=act_fn,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: torch.Tensor,  # Only used for Flash Attention
+        seqlens: torch.Tensor,  # Only used for xFormers
+    ) -> torch.Tensor:
+        x_attn = self.attn(
+            self.norm1(x),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+        x_fused_norm, residual = self.norm2(x, residual=x_attn)
+        x = residual + self.mlp(x_fused_norm)
+        return x
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "x": 0,
+    },
+    enable_if=should_torch_compile_mm_vit,
+)
+class Qwen2_5_VisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        temporal_patch_size: int = 2,
+        in_channels: int = 3,
+        hidden_size: int = 1152,
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.temporal_patch_size = temporal_patch_size
+        self.hidden_size = hidden_size
+
+        kernel_size = (temporal_patch_size, patch_size, patch_size)
+        self.proj = Conv3dLayer(
+            in_channels,
+            hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
+            bias=False,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
+        return x
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "x": 0,
+    },
+    enable_if=should_torch_compile_mm_vit,
+)
+class Qwen2_5_VisionPatchMerger(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        context_dim: int,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        spatial_merge_size: int = 2,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = context_dim * (spatial_merge_size**2)
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.ln_q = norm_layer(context_dim)
+
+        self.mlp = nn.Sequential(
+            ColumnParallelLinear(
+                self.hidden_size,
+                self.hidden_size,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp.0",
+                return_bias=False,
+                disable_tp=use_data_parallel,
+            ),
+            nn.GELU(),
+            RowParallelLinear(
+                self.hidden_size,
+                d_model,
+                bias=True,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp.2",
+                return_bias=False,
+                disable_tp=use_data_parallel,
+            ),
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.ln_q(x)
+        x = x.view(-1, self.hidden_size)
+        out = self.mlp(x)
+        return out
+
+
+class Qwen2_5_VisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        inv_freq = 1.0 / (
+            theta ** (torch.arange(0, dim, 2, dtype=torch.float, device="cpu") / dim)
+        )
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+        self._seq_len_cached = 0
+        self._freqs_cached = None
+
+    def update_freqs_cache(self, seqlen: int) -> None:
+        if seqlen > self._seq_len_cached:
+            seqlen *= 2
+            self._seq_len_cached = seqlen
+            self.inv_freq = 1.0 / (
+                self.theta
+                ** (
+                    torch.arange(
+                        0, self.dim, 2, dtype=torch.float, device=self.inv_freq.device
+                    )
+                    / self.dim
+                )
+            )
+            seq = torch.arange(
+                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+            )
+            freqs = torch.outer(seq, self.inv_freq)
+            self._freqs_cached = freqs
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        self.update_freqs_cache(seqlen)
+        return self._freqs_cached[:seqlen]
+
+
+class Qwen2_5_VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config: Qwen2_5_VLVisionConfig,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+
+        patch_size = vision_config.patch_size
+        temporal_patch_size = vision_config.temporal_patch_size
+        in_channels = vision_config.in_channels
+        depth = vision_config.depth
+        self.hidden_size = vision_config.hidden_size
+        self.num_heads = vision_config.num_heads
+        self.use_data_parallel = use_data_parallel
+        self.out_hidden_size = vision_config.out_hidden_size
+
+        # args for get_window_index_thw
+        self.window_size = vision_config.window_size
+        self.patch_size = vision_config.patch_size
+        self.spatial_merge_size = vision_config.spatial_merge_size
+        self.fullatt_block_indexes = vision_config.fullatt_block_indexes
+        self.spatial_merge_unit = self.spatial_merge_size**2
+        # TODO[@lucaskabela]: Investigate fixing this usage
+        # see https://github.com/vllm-project/vllm/issues/27044
+        # DO NOT MOVE THIS IMPORT
+        from vllm.compilation.backends import set_model_tag
+
+        with set_model_tag("Qwen2_5_VisionPatchEmbed"):
+            self.patch_embed = Qwen2_5_VisionPatchEmbed(
+                patch_size=patch_size,
+                temporal_patch_size=temporal_patch_size,
+                in_channels=in_channels,
+                hidden_size=self.hidden_size,
+            )
+
+        norm_layer = partial(RMSNorm, eps=norm_eps)
+        head_dim = self.hidden_size // self.num_heads
+        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+
+        use_upstream_fa = False
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Qwen2.5-VL does not support {self.attn_backend} backend now."
+            )
+
+        with set_model_tag("Qwen2_5_VisionBlock"):
+            self.blocks = nn.ModuleList(
+                [
+                    Qwen2_5_VisionBlock(
+                        dim=self.hidden_size,
+                        num_heads=self.num_heads,
+                        mlp_hidden_dim=vision_config.intermediate_size,
+                        act_fn=get_act_and_mul_fn(vision_config.hidden_act),
+                        norm_layer=norm_layer,
+                        quant_config=quant_config,
+                        prefix=f"{prefix}.blocks.{layer_idx}",
+                        use_data_parallel=use_data_parallel,
+                        attn_backend=self.attn_backend,
+                        use_upstream_fa=use_upstream_fa,
+                        attn_backend_override=attn_backend_override,
+                    )
+                    for layer_idx in range(depth)
+                ]
+            )
+
+        with set_model_tag("Qwen2_5_VisionPatchMerger"):
+            self.merger = Qwen2_5_VisionPatchMerger(
+                d_model=vision_config.out_hidden_size,
+                context_dim=self.hidden_size,
+                norm_layer=norm_layer,
+                spatial_merge_size=self.spatial_merge_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.merger",
+                use_data_parallel=use_data_parallel,
+            )
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    def rotary_pos_emb_thw(self, t, h, w):
+        hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+        wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+        hpos_ids = (
+            hpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            .permute(0, 2, 1, 3)
+            .flatten()
+        )
+        wpos_ids = (
+            wpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            .permute(0, 2, 1, 3)
+            .flatten()
+        )
+        pos_ids = torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1)
+        max_size = max(h, w)
+        rotary_pos_emb_full = self.rotary_pos_emb(max_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        rotary_pos_emb = rotary_pos_emb.reshape(
+            rotary_pos_emb.shape[0] // self.spatial_merge_unit,
+            self.spatial_merge_unit,
+            -1,
+        )
+
+        return rotary_pos_emb
+
+    def get_window_index_thw(self, grid_t, grid_h, grid_w):
+        vit_merger_window_size = (
+            self.window_size // self.spatial_merge_size // self.patch_size
+        )
+
+        llm_grid_h = grid_h // self.spatial_merge_size
+        llm_grid_w = grid_w // self.spatial_merge_size
+        index = torch.arange(grid_t * llm_grid_h * llm_grid_w).reshape(
+            grid_t, llm_grid_h, llm_grid_w
+        )
+        pad_h = vit_merger_window_size - llm_grid_h % vit_merger_window_size
+        pad_w = vit_merger_window_size - llm_grid_w % vit_merger_window_size
+        num_windows_h = (llm_grid_h + pad_h) // vit_merger_window_size
+        num_windows_w = (llm_grid_w + pad_w) // vit_merger_window_size
+        index_padded = F.pad(index, (0, pad_w, 0, pad_h), "constant", -100)
+        index_padded = index_padded.reshape(
+            grid_t,
+            num_windows_h,
+            vit_merger_window_size,
+            num_windows_w,
+            vit_merger_window_size,
+        )
+        index_padded = index_padded.permute(0, 1, 3, 2, 4).reshape(
+            grid_t,
+            num_windows_h * num_windows_w,
+            vit_merger_window_size,
+            vit_merger_window_size,
+        )
+        seqlens = (index_padded != -100).sum([2, 3]).reshape(-1)
+        index_padded = index_padded.reshape(-1)
+        index_new = index_padded[index_padded != -100]
+        cu_seqlens_tmp = seqlens.cumsum(0) * self.spatial_merge_unit
+        cu_seqlens_tmp = cu_seqlens_tmp.to(dtype=torch.int32)
+        cu_seqlens_tmp = torch.unique_consecutive(cu_seqlens_tmp)
+
+        return index_new, cu_seqlens_tmp
+
+    @lru_cache(maxsize=1024)  # noqa: B019
+    def get_rope_by_thw(self, t, h, w):
+        window_index_thw, cu_seqlens_window_thw = self.get_window_index_thw(t, h, w)
+        rotary_pos_emb_thw = self.rotary_pos_emb_thw(t, h, w)
+        rotary_pos_emb_thw = rotary_pos_emb_thw[window_index_thw, :, :]
+        rotary_pos_emb_thw = rotary_pos_emb_thw.flatten(start_dim=0, end_dim=1)
+        cu_seqlens_thw = torch.repeat_interleave(
+            torch.tensor([h * w], dtype=torch.int32), t
+        )
+        return (
+            rotary_pos_emb_thw,
+            window_index_thw,
+            cu_seqlens_window_thw,
+            cu_seqlens_thw,
+        )
+
+    def compute_attn_mask_seqlen(
+        self,
+        cu_seqlens: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        max_seqlen = torch.zeros([], device=cu_seqlens.device)
+        seqlens = torch.zeros(1, device=cu_seqlens.device)
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
+        return max_seqlen, seqlens
+
+    @staticmethod
+    def invert_permutation(perm: torch.Tensor) -> torch.Tensor:
+        # building the inverse permutation in O(n) time
+        inv = torch.empty_like(perm, pin_memory=is_pin_memory_available())
+        inv[perm] = torch.arange(perm.numel(), device=perm.device, dtype=perm.dtype)
+        return inv
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        grid_thw: list[list[int]],
+    ) -> torch.Tensor:
+        # patchify
+        seq_len, _ = x.size()
+        rotary_pos_emb = []
+        window_index: list = []
+        cu_window_seqlens: list = [torch.tensor([0], dtype=torch.int32)]
+        cu_seqlens: list = []
+
+        hidden_states = x.to(device=self.device, dtype=self.dtype)
+        hidden_states = self.patch_embed(hidden_states)
+
+        window_index_id = 0
+        cu_window_seqlens_last = 0
+        for t, h, w in grid_thw:
+            t, h, w = int(t), int(h), int(w)
+            llm_h = h // self.spatial_merge_size
+            llm_w = w // self.spatial_merge_size
+
+            (
+                rotary_pos_emb_thw,
+                window_index_thw,
+                cu_seqlens_window_thw,
+                cu_seqlens_thw,
+            ) = self.get_rope_by_thw(t, h, w)
+
+            window_index.append(window_index_thw + window_index_id)
+            window_index_id += t * llm_h * llm_w
+
+            cu_seqlens_window_thw = cu_seqlens_window_thw + cu_window_seqlens_last
+            cu_window_seqlens_last = cu_seqlens_window_thw[-1]
+            cu_window_seqlens.append(cu_seqlens_window_thw)
+
+            rotary_pos_emb.append(rotary_pos_emb_thw)
+
+            cu_seqlens.append(cu_seqlens_thw)
+
+        rotary_pos_emb = torch.cat(rotary_pos_emb)
+        window_index = torch.cat(window_index)
+        # compute reverse indices
+        reverse_indices = self.invert_permutation(window_index)
+        cu_window_seqlens = torch.cat(cu_window_seqlens)
+        cu_window_seqlens = torch.unique_consecutive(cu_window_seqlens)
+        cu_seqlens = torch.cat(cu_seqlens)
+        cu_seqlens = torch.cumsum(cu_seqlens, dim=0, dtype=torch.int32)
+        cu_seqlens = F.pad(cu_seqlens, (1, 0), "constant", 0)
+
+        # transformers
+        # pre-compute seqlens for window/full attn to reduce cuMemcpy operations
+        max_seqlen_full, seqlens_full = self.compute_attn_mask_seqlen(cu_seqlens)
+        max_seqlen_window, seqlens_window = self.compute_attn_mask_seqlen(
+            cu_window_seqlens
+        )
+
+        cu_seqlens = cu_seqlens.to(device=self.device, non_blocking=True)
+        cu_window_seqlens = cu_window_seqlens.to(device=self.device, non_blocking=True)
+        rotary_pos_emb = rotary_pos_emb.to(device=self.device, non_blocking=True)
+        window_index = window_index.to(device=hidden_states.device, non_blocking=True)
+        reverse_indices = reverse_indices.to(
+            device=hidden_states.device, non_blocking=True
+        )
+
+        hidden_states = hidden_states.reshape(
+            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1
+        )
+        hidden_states = hidden_states[window_index, :, :]
+        hidden_states = hidden_states.reshape(seq_len, -1)
+
+        hidden_states = hidden_states.unsqueeze(1)
+
+        for layer_num, blk in enumerate(self.blocks):
+            if layer_num in self.fullatt_block_indexes:
+                cu_seqlens_now = cu_seqlens
+                max_seqlen_now = max_seqlen_full
+                seqlens_now = seqlens_full
+            else:
+                cu_seqlens_now = cu_window_seqlens
+                max_seqlen_now = max_seqlen_window
+                seqlens_now = seqlens_window
+
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens_now,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen_now,
+                seqlens=seqlens_now,
+            )
+
+        # For Qwen2.5-VL-3B, float16 will overflow at last block
+        # for long visual tokens sequences.
+        if hidden_states.dtype == torch.float16:
+            hidden_states = cast_overflow_tensors(hidden_states)
+
+        # adapter
+        hidden_states = self.merger(hidden_states)
+        hidden_states = hidden_states[reverse_indices, :]
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("attn.qkv.", "attn.q.", "q"),
+            ("attn.qkv.", "attn.k.", "k"),
+            ("attn.qkv.", "attn.v.", "v"),
+            ("mlp.gate_up_proj.", "mlp.gate_proj.", 0),
+            ("mlp.gate_up_proj.", "mlp.up_proj.", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen2_5_VLProcessingInfo(Qwen2VLProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen2_5_VLConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen2_5_VLProcessor:
+        return self.ctx.get_hf_processor(
+            Qwen2_5_VLProcessor,
+            use_fast=kwargs.pop("use_fast", True),
+            **kwargs,
+        )
+
+
+class Qwen2_5_VLMultiModalProcessor(Qwen2VLMultiModalProcessor):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            **super()._get_mm_fields_config(hf_inputs, hf_processor_mm_kwargs),
+            second_per_grid_ts=MultiModalFieldConfig.batched("video"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        placeholder = {
+            "image": vocab[hf_processor.image_token],
+            "video": vocab[hf_processor.video_token],
+        }
+
+        merge_length = image_processor.merge_size**2
+
+        def get_replacement_qwen2vl(item_idx: int, modality: str):
+            out_item = out_mm_kwargs[modality][item_idx]
+            grid_thw = out_item[f"{modality}_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            num_tokens = int(grid_thw.prod()) // merge_length
+
+            # EVS-specific code
+            video_pruning_rate = self.info.ctx.get_mm_config().video_pruning_rate
+            if (
+                modality == "video"
+                and video_pruning_rate is not None
+                and video_pruning_rate > 0.0
+            ):
+                T, H, W = map(int, grid_thw)
+                tokens_per_frame = (H // image_processor.merge_size) * (
+                    W // image_processor.merge_size
+                )
+                num_tokens = compute_retained_tokens_count(
+                    tokens_per_frame,
+                    T,
+                    video_pruning_rate,
+                )
+            # End of EVS-specific code
+
+            return [placeholder[modality]] * num_tokens
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=[placeholder[modality]],
+                replacement=partial(get_replacement_qwen2vl, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen2_5_VLMultiModalProcessor,
+    info=Qwen2_5_VLProcessingInfo,
+    dummy_inputs=Qwen2_5_VLDummyInputsBuilder,
+)
+class Qwen2_5_VLForConditionalGeneration(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsLoRA,
+    SupportsPP,
+    SupportsQuant,
+    SupportsEagle3,
+    SupportsMultiModalPruning,
+    SupportsMRoPE,
+):
+    merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.visual.": "visual.",
+            # mapping for original checkpoint
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        }
+    )
+
+    supports_encoder_tp_data = True
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        vision_start_token_id = hf_config.vision_start_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(hf_config.vision_config, "tokens_per_second", 1.0)
+
+        input_tokens_tensor = torch.tensor(input_tokens)
+        vision_start_indices = torch.argwhere(
+            input_tokens_tensor == vision_start_token_id
+        ).squeeze(1)
+        vision_tokens = input_tokens_tensor[vision_start_indices + 1]
+        image_nums = (vision_tokens == image_token_id).sum()
+        video_nums = (vision_tokens == video_token_id).sum()
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_videos = image_nums, video_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + video_nums):
+            video_second_per_grid_t = 0.0
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_videos > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+            if ed_image < ed_video:
+                t, h, w = image_grid_thw[image_index]
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = video_grid_thw[video_index]
+                video_second_per_grid_t = 1.0
+                if second_per_grid_ts:
+                    video_second_per_grid_t = second_per_grid_ts[video_index]
+                video_index += 1
+                remain_videos -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                    * video_second_per_grid_t
+                    * tokens_per_second
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+
+        return llm_positions, mrope_position_delta
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|video_pad|><|vision_end|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: Qwen2_5_VLConfig = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        self.config = config
+        self.vllm_config = vllm_config
+        self.multimodal_config = multimodal_config
+        self.video_pruning_rate = multimodal_config.video_pruning_rate
+        self.is_multimodal_pruning_enabled = (
+            multimodal_config.is_multimodal_pruning_enabled()
+        )
+
+        if multimodal_config.get_limit_per_prompt(
+            "image"
+        ) or multimodal_config.get_limit_per_prompt("video"):
+            attn_backend_override = (
+                multimodal_config.mm_encoder_attn_backend
+                if multimodal_config is not None
+                else None
+            )
+            self.visual = Qwen2_5_VisionTransformer(
+                vision_config=config.vision_config,
+                norm_eps=getattr(config, "rms_norm_eps", 1e-6),
+                quant_config=self.quant_config,
+                prefix=maybe_prefix(prefix, "visual"),
+                use_data_parallel=self.use_data_parallel,
+                attn_backend_override=attn_backend_override,
+            )
+        else:
+            self.visual = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.language_model.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.language_model.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Qwen2_5_VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Qwen2_5_VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return Qwen2_5_VLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Qwen2_5_VLVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+        second_per_grid_ts = kwargs.pop("second_per_grid_ts", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Qwen2_5_VLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+                second_per_grid_ts=second_per_grid_ts,
+            )
+
+        if video_embeds is not None:
+            return Qwen2_5_VLVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: Qwen2_5_VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values = image_input["pixel_values"]
+            with set_forward_context(None, self.vllm_config):
+                if self.use_data_parallel:
+                    return run_dp_sharded_mrope_vision_model(
+                        self.visual, pixel_values, grid_thw_list, rope_type="rope_3d"
+                    )
+                else:
+                    image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
+
+        # Split concatenated embeddings for each image item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return image_embeds.split(sizes)
+
+    def _postprocess_image_embeds_evs(
+        self,
+        image_embeds_split: tuple[torch.Tensor, ...],
+        image_input: Qwen2_5_VLImageInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        """
+        Append mrope positions for each for images.
+        This is necessary to recover correct mrope
+        positions after video pruning
+
+        Args:
+            image_embeds_split: Tuple of image embeddings for
+                each image item.
+            image_input: Image input data.
+
+        Returns:
+            Tuple of image embeddings for each image item.
+            Resulting embeddings will have extra 4 channels for
+            computed mrope positions.
+        """
+        merge_size = self.visual.spatial_merge_size
+        grid_thw = image_input["image_grid_thw"]
+        grid_thw_list = grid_thw.tolist()
+        image_embeds_out = []
+        for emb, size in zip(image_embeds_split, grid_thw_list):
+            positions = compute_mrope_for_media(size, merge_size).to(emb.device)
+            emb = torch.cat([emb, positions], dim=1)
+            image_embeds_out.append(emb)
+        image_embeds_split = image_embeds_out
+        return tuple(image_embeds_split)
+
+    def _process_video_input(
+        self, video_input: Qwen2_5_VLVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+
+        if video_input["type"] == "video_embeds":
+            video_embeds = video_input["video_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values_videos = video_input["pixel_values_videos"]
+            with set_forward_context(None, self.vllm_config):
+                if self.use_data_parallel:
+                    return run_dp_sharded_mrope_vision_model(
+                        self.visual,
+                        pixel_values_videos,
+                        grid_thw_list,
+                        rope_type="rope_3d",
+                    )
+                else:
+                    video_embeds = self.visual(
+                        pixel_values_videos, grid_thw=grid_thw_list
+                    )
+
+        # Split concatenated embeddings for each video item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return video_embeds.split(sizes)
+
+    def _postprocess_video_embeds_evs(
+        self,
+        video_embeds_split: tuple[torch.Tensor, ...],
+        video_input: Qwen2_5_VLVideoInputs,
+    ) -> tuple[torch.Tensor, ...]:
+        """
+        Prunes video embeddings via Efficient Video Sampling (EVS)
+        and then appends mrope positions for each retained embeddings
+
+        Args:
+            video_embeds_split: Tuple of video embeddings for each video item.
+            video_input: Video input data.
+
+        Returns:
+            Tuple of video embeddings for each video item.
+            Resulting embeddings will have extra 4 channels for
+            computed mrope positions.
+        """
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
+        merge_size = self.visual.spatial_merge_size
+
+        # Cast to long to match the original code
+        # https://github.com/huggingface/transformers/blob/41980ce93e775f6c88500c51c8db7946fc6a2add/src/transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py#L491 # noqa
+        second_per_grid_ts = video_input["second_per_grid_ts"].long()
+        tokens_per_second = self.config.vision_config.tokens_per_second
+
+        video_embeds_out = []
+        for emb, size, video_second_per_grid_t in zip(
+            video_embeds_split, grid_thw_list, second_per_grid_ts
+        ):
+            # For each video, we compute retention mask using EVS
+            retention_mask = compute_retention_mask(
+                emb,
+                size,
+                spatial_merge_size=self.visual.spatial_merge_size,
+                q=self.video_pruning_rate,
+            )
+            positions = compute_mrope_for_media(
+                size,
+                merge_size,
+                tokens_per_second=tokens_per_second,
+                video_second_per_grid=video_second_per_grid_t.item(),
+            ).to(emb.device)
+
+            emb = emb[retention_mask]
+            positions = positions[retention_mask]
+            emb = torch.cat([emb, positions], dim=1)
+            video_embeds_out.append(emb)
+        return tuple(video_embeds_out)
+
+    def recompute_mrope_positions(
+        self,
+        input_ids: list[int],
+        multimodal_embeddings: tuple[torch.Tensor, ...],
+        mrope_positions: torch.LongTensor,
+        num_computed_tokens: int,
+    ) -> tuple[tuple[torch.Tensor, ...], torch.Tensor, int]:
+        """
+        Update part of input mrope positions (starting with
+        num_computed_tokens index). Original mrope_positions are computed
+        for unpruned sequence and becomes incorrect once pruning occurs,
+        so once we prune media tokens we should reflect this in the
+        mrope_positions before we feed it to LLM.
+
+        Args:
+            input_ids: (N,) All input tokens of the prompt (Containing
+                entire sequence).
+            multimodal_embeddings: Tuple of multimodal embeddings.
+            mrope_positions: Existing mrope positions (3, N) for entire
+                sequence
+            num_computed_tokens: A number of computed tokens so far.
+
+        Returns:
+            Tuple of (multimodal_embeddings, mrope_positions,
+                mrope_position_delta).
+        """
+        image_token_id = self.config.image_token_id
+        video_token_id = self.config.video_token_id
+        vision_start_token_id = self.config.vision_start_token_id
+
+        # Device
+        device = (
+            multimodal_embeddings[0].device
+            if len(multimodal_embeddings)
+            else mrope_positions.device
+        )
+
+        # Tensors
+        input_ids_t = torch.as_tensor(input_ids, device=device, dtype=torch.long)
+
+        mm_embeddings_out = [mm[:, :-4] for mm in multimodal_embeddings]
+        mm_embeddings_pos = [
+            mm[:, -4:].permute(1, 0).long() for mm in multimodal_embeddings
+        ]
+
+        positions, mrope_positions_delta = recompute_mrope_positions(
+            input_ids_t,
+            mm_embeddings_pos,
+            mrope_positions,
+            num_computed_tokens,
+            vision_start_token_id,
+            image_token_id,
+            video_token_id,
+        )
+
+        return tuple(mm_embeddings_out), positions, mrope_positions_delta
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                if self.is_multimodal_pruning_enabled:
+                    image_embeddings = self._postprocess_image_embeds_evs(
+                        image_embeddings, multimodal_input
+                    )
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_input(multimodal_input)
+                if self.is_multimodal_pruning_enabled:
+                    video_embeddings = self._postprocess_video_embeds_evs(
+                        video_embeddings, multimodal_input
+                    )
+                multimodal_embeddings += tuple(video_embeddings)
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Qwen2.5-VL.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Flattened (concatenated) position ids corresponding to a
+                batch. **NOTE**: If mrope is enabled (default setting for
+                Qwen2.5-VL opensource models), the shape will be `(3, seq_len)`,
+                otherwise it will be `(seq_len,).
+        """
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.visual is None:
+            skip_prefixes.extend(["visual."])
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="visual.merger.",
+            tower_model="visual.",
+        )
diff --git a/model_executor/models/qwen2_audio.py b/model_executor/models/qwen2_audio.py
new file mode 100644
index 0000000..7e883a3
--- /dev/null
+++ b/model_executor/models/qwen2_audio.py
@@ -0,0 +1,473 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2-Audio model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+from transformers import BatchFeature
+from transformers.models.qwen2_audio import (
+    Qwen2AudioConfig,
+    Qwen2AudioEncoder,
+    Qwen2AudioProcessor,
+)
+from transformers.models.whisper import WhisperFeatureExtractor
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    AudioItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    DictEmbeddingItems,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+
+# # === Audio Inputs === #
+class Qwen2AudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+        - na: Number of audios
+        - nmb: Number of mel bins
+    """
+
+    type: Literal["audio_features"]
+    input_features: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("na", "nmb", 3000),
+    ]
+
+    feature_attention_mask: Annotated[
+        torch.Tensor,
+        TensorShape("na", 3000),
+    ]
+
+
+class Qwen2AudioEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size
+        - naf: Number of audio features
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+    """
+
+    type: Literal["audio_embeds"] = "audio_embeds"
+
+    audio_embeds: Annotated[
+        list[torch.Tensor],
+        TensorShape("bn", "naf", "hs"),
+    ]
+
+
+Qwen2AudioInputs: TypeAlias = Qwen2AudioFeatureInputs | Qwen2AudioEmbeddingInputs
+
+# === Audio Encoder === #
+
+
+class Qwen2AudioMultiModalProjector(nn.Module):
+    def __init__(self, audio_hidden_size: int, text_hidden_size: int):
+        super().__init__()
+        self.linear = nn.Linear(audio_hidden_size, text_hidden_size, bias=True)
+
+    def forward(self, audio_features):
+        hidden_states = self.linear(audio_features)
+        return hidden_states
+
+
+# From Qwen2AudioEncoder._get_feat_extract_output_lengths
+def _get_feat_extract_output_lengths(input_lengths: torch.Tensor):
+    feat_lengths = (input_lengths - 1) // 2 + 1
+    output_lengths = (feat_lengths - 2) // 2 + 1
+    return feat_lengths, output_lengths
+
+
+class Qwen2AudioProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen2AudioConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen2AudioProcessor:
+        return self.ctx.get_hf_processor(Qwen2AudioProcessor, **kwargs)
+
+    def get_feature_extractor(self, **kwargs: object) -> WhisperFeatureExtractor:
+        hf_processor = self.get_hf_processor(**kwargs)
+        feature_extractor = hf_processor.feature_extractor  # type: ignore
+        assert isinstance(feature_extractor, WhisperFeatureExtractor)
+        return feature_extractor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None}
+
+
+class Qwen2AudioDummyInputsBuilder(BaseDummyInputsBuilder[Qwen2AudioProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        audio_token = hf_processor.audio_token
+
+        return audio_token * num_audios
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        feature_extractor = self.info.get_feature_extractor()
+
+        sampling_rate = feature_extractor.sampling_rate
+        audio_len = feature_extractor.chunk_length * sampling_rate
+        num_audios = mm_counts.get("audio", 0)
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=audio_len, num_audios=num_audios, overrides=audio_overrides
+            )
+        }
+
+
+def _qwen2audio_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+    return dict(
+        audio_embeds=MultiModalFieldConfig.batched("audio"),
+        input_features=MultiModalFieldConfig.batched("audio"),
+        feature_attention_mask=MultiModalFieldConfig.batched("audio"),
+    )
+
+
+class Qwen2AudioMultiModalDataParser(MultiModalDataParser):
+    def _parse_audio_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[AudioItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="audio",
+                required_fields={"audio_embeds"},
+                fields_factory=_qwen2audio_field_config,
+            )
+
+        return super()._parse_audio_data(data)
+
+
+class Qwen2AudioMultiModalProcessor(BaseMultiModalProcessor[Qwen2AudioProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return Qwen2AudioMultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, Any],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # NOTE - we rename audios -> audio in mm data because transformers has
+        # deprecated audios for the qwen2audio processor and will remove
+        # support for it in transformers 4.54.
+        audios = mm_data.pop("audios", [])
+        if audios:
+            mm_data["audio"] = audios
+
+        # Text-only input not supported in composite processor
+        if not mm_data.get("audio", []):
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        feature_extractor = self.info.get_feature_extractor(**mm_kwargs)
+        mm_kwargs = dict(
+            **mm_kwargs,
+            sampling_rate=feature_extractor.sampling_rate,
+        )
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _qwen2audio_field_config(hf_inputs)
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        # Use getattr with default to be compatible with transformers<4.48
+        audio_token = getattr(processor, "audio_token", "<|AUDIO|>")
+        audio_bos_token = getattr(processor, "audio_bos_token", "<|audio_bos|>")
+        audio_eos_token = getattr(processor, "audio_eos_token", "<|audio_eos|>")
+
+        audio_token_id = vocab[audio_token]
+        audio_bos_id = vocab[audio_bos_token]
+        audio_eos_id = vocab[audio_eos_token]
+
+        out_mm_data = out_mm_kwargs.get_data()
+        feature_attention_mask = out_mm_data.get("feature_attention_mask")
+        if feature_attention_mask is None:
+            audio_output_lengths = []
+        else:
+            assert isinstance(feature_attention_mask, torch.Tensor)
+            _, audio_output_lens = _get_feat_extract_output_lengths(
+                feature_attention_mask.sum(-1)
+            )
+
+            audio_output_lengths = audio_output_lens.tolist()
+
+        def get_replacement_qwen2_audio(item_idx: int):
+            if audio_output_lengths:
+                num_features = audio_output_lengths[item_idx]
+            else:
+                audio_embeds = out_mm_data["audio_embeds"][item_idx]
+                assert len(audio_embeds.shape) == 2, "audio_embeds must be a 2D tensor"
+                num_features = audio_embeds.shape[0]
+
+            if num_features == 0:
+                audios = mm_items.get_items("audio", AudioProcessorItems)
+                audio_len = audios.get_audio_length(item_idx)
+
+                raise ValueError(
+                    f"The audio (len={audio_len}) is too short "
+                    "to be represented inside the model"
+                )
+
+            audio_tokens = [audio_token_id] * num_features
+
+            return PromptUpdateDetails.select_token_id(
+                [audio_bos_id] + audio_tokens + [audio_eos_id],
+                embed_token_id=audio_token_id,
+            )
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=audio_token,
+                replacement=get_replacement_qwen2_audio,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen2AudioMultiModalProcessor,
+    info=Qwen2AudioProcessingInfo,
+    dummy_inputs=Qwen2AudioDummyInputsBuilder,
+)
+class Qwen2AudioForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("audio"):
+            return f"Audio {i}: <|audio_bos|><|AUDIO|><|audio_eos|>"
+
+        raise ValueError("Only audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        self.audio_tower = Qwen2AudioEncoder(config.audio_config)
+        self.multi_modal_projector = Qwen2AudioMultiModalProjector(
+            config.audio_config.d_model, config.text_config.hidden_size
+        )
+
+        self.quant_config = quant_config
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> Qwen2AudioInputs | None:
+        input_features = kwargs.pop("input_features", None)
+        audio_embeds = kwargs.pop("audio_embeds", None)
+        feature_attention_mask = kwargs.pop("feature_attention_mask", None)
+
+        if input_features is None and audio_embeds is None:
+            return None
+
+        if audio_embeds is not None:
+            return Qwen2AudioEmbeddingInputs(
+                type="audio_embeds", audio_embeds=audio_embeds
+            )
+
+        if input_features is not None:
+            return Qwen2AudioFeatureInputs(
+                type="audio_features",
+                input_features=input_features,
+                feature_attention_mask=feature_attention_mask,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_audio_input(
+        self, audio_input: Qwen2AudioInputs
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        if audio_input["type"] == "audio_embeds":
+            audio_embeds = audio_input["audio_embeds"]
+            return tuple(audio_embeds)
+
+        input_features = audio_input["input_features"]
+        feature_attention_mask = audio_input["feature_attention_mask"]
+
+        audio_feat_lengths, audio_output_lengths = (
+            self.audio_tower._get_feat_extract_output_lengths(
+                feature_attention_mask.sum(-1)
+            )
+        )
+
+        batch_size, _, max_mel_seq_len = input_features.shape
+        max_seq_len = (max_mel_seq_len - 2) // 2 + 1
+        # Create a sequence tensor of shape (batch_size, max_seq_len)
+        seq_range = (
+            torch.arange(
+                0,
+                max_seq_len,
+                dtype=audio_feat_lengths.dtype,
+                device=audio_feat_lengths.device,
+            )
+            .unsqueeze(0)
+            .expand(batch_size, max_seq_len)
+        )
+        lengths_expand = audio_feat_lengths.unsqueeze(-1).expand(
+            batch_size, max_seq_len
+        )
+        # Create mask
+        padding_mask = seq_range >= lengths_expand
+
+        audio_attention_mask_ = padding_mask.view(batch_size, 1, 1, max_seq_len).expand(
+            batch_size, 1, max_seq_len, max_seq_len
+        )
+        audio_attention_mask = audio_attention_mask_.to(
+            dtype=self.audio_tower.conv1.weight.dtype,
+            device=self.audio_tower.conv1.weight.device,
+        )
+        audio_attention_mask[audio_attention_mask_] = float("-inf")
+
+        audio_outputs = self.audio_tower(
+            input_features, attention_mask=audio_attention_mask
+        )
+        selected_audio_feature = audio_outputs.last_hidden_state
+        audio_features = self.multi_modal_projector(selected_audio_feature)
+        num_audios, max_audio_tokens, embed_dim = audio_features.shape
+        audio_output_lengths = audio_output_lengths.unsqueeze(1)
+        audio_features_mask = (
+            torch.arange(max_audio_tokens)
+            .expand(num_audios, max_audio_tokens)
+            .to(audio_output_lengths.device)
+            < audio_output_lengths
+        )
+        masked_audio_features = audio_features[audio_features_mask].view(-1, embed_dim)
+
+        # Split to tuple of embeddings for individual audio input.
+        return torch.split(
+            masked_audio_features, audio_output_lengths.flatten().tolist()
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        if audio_input is None:
+            return []
+        masked_audio_features = self._process_audio_input(audio_input)
+        return masked_audio_features
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/qwen2_moe.py b/model_executor/models/qwen2_moe.py
new file mode 100644
index 0000000..2ff0d19
--- /dev/null
+++ b/model_executor/models/qwen2_moe.py
@@ -0,0 +1,596 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2_moe/modeling_qwen2_moe.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2MoE model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers import Qwen2MoeConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class Qwen2MoeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        expert_gate: torch.nn.Linear | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+        self.expert_gate = expert_gate
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        out = self.act_fn(gate_up)
+        out, _ = self.down_proj(out)
+
+        if self.expert_gate is not None:
+            out = F.sigmoid(self.expert_gate(x)) * out
+
+        return out
+
+
+class Qwen2MoeSparseMoeBlock(nn.Module):
+    def __init__(
+        self,
+        config: Qwen2MoeConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        if self.tp_size > config.num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_experts}."
+            )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.shared_expert_gate = torch.nn.Linear(config.hidden_size, 1, bias=False)
+
+        if config.shared_expert_intermediate_size > 0:
+            self.shared_expert = Qwen2MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.shared_expert_intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                expert_gate=self.shared_expert_gate,
+                prefix=f"{prefix}.shared_expert",
+            )
+        else:
+            self.shared_expert = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_expert,
+            num_experts=config.num_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+        if self.shared_expert is not None:
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(  # noqa E501
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Qwen2MoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            }
+            if dual_chunk_attention_config
+            else {},
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Qwen2MoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Qwen2MoeConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        self.self_attn = Qwen2MoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+
+        # Note: Qwen/Qwen2-57B-A14B-Instruct does not have
+        # `mlp_only_layers` in the config.
+        layer_idx = extract_layer_index(prefix)
+        mlp_only_layers = (
+            [] if not hasattr(config, "mlp_only_layers") else config.mlp_only_layers
+        )
+        if (layer_idx not in mlp_only_layers) and (
+            config.num_experts > 0 and (layer_idx + 1) % config.decoder_sparse_step == 0
+        ):
+            self.mlp = Qwen2MoeSparseMoeBlock(
+                config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+            )
+        else:
+            self.mlp = Qwen2MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Qwen2MoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.vocab_size = config.vocab_size
+        self.config = config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Qwen2MoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if (
+                    name.endswith(".bias") or name.endswith("_bias")
+                ) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    if name.endswith("kv_scale"):
+                        remapped_kv_scale_name = name.replace(
+                            ".kv_scale", ".attn.kv_scale"
+                        )
+                        if remapped_kv_scale_name not in params_dict:
+                            logger.warning_once(
+                                "Found kv_scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv_scale is not loaded.",  #  noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
+                            continue
+                        else:
+                            name = remapped_kv_scale_name
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen2MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    fall_back_to_pt_during_load = False
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ]
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        # Only perform the following mapping when Qwen2MoeMLP exists
+        if (
+            getattr(config, "mlp_only_layers", [])
+            or config.shared_expert_intermediate_size > 0
+        ):
+            self.packed_modules_mapping["gate_up_proj"] = ["gate_proj", "up_proj"]
+
+        self.model = Qwen2MoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/qwen2_rm.py b/model_executor/models/qwen2_rm.py
new file mode 100644
index 0000000..eac46e0
--- /dev/null
+++ b/model_executor/models/qwen2_rm.py
@@ -0,0 +1,123 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/Qwen/Qwen2.5-Math-RM-72B/blob/main/modeling_qwen2_rm.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+"""Inference-only Qwen2-RM model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .interfaces_base import default_pooling_type
+from .qwen2 import Qwen2Model
+from .utils import AutoWeightsLoader, maybe_prefix
+
+
+class Qwen2RewardBaseModel(nn.Module, SupportsLoRA, SupportsPP):
+    is_pooling_model = True
+    pooler: Pooler
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = Qwen2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.head_dtype = vllm_config.model_config.head_dtype
+
+        self.score = nn.Sequential(
+            ColumnParallelLinear(
+                config.hidden_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                params_dtype=self.head_dtype,
+                return_bias=False,
+            ),
+            nn.ReLU(),
+            RowParallelLinear(
+                config.hidden_size,
+                config.num_labels,
+                params_dtype=self.head_dtype,
+                quant_config=quant_config,
+                return_bias=False,
+            ),
+        )
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        hidden_states = hidden_states.to(self.head_dtype)
+        logits = self.score(hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, ignore_unexpected_prefixes=["lm_head."])
+        return loader.load_weights(weights)
+
+
+@default_pooling_type("ALL")
+class Qwen2ForRewardModel(Qwen2RewardBaseModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        vllm_config.model_config.hf_config.num_labels = 1
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {"token_classify": Pooler.for_token_classify(pooler_config)}
+        )
+
+
+@default_pooling_type("STEP")
+class Qwen2ForProcessRewardModel(Qwen2RewardBaseModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        vllm_config.model_config.hf_config.num_labels = 2
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {"token_classify": Pooler.for_token_classify(pooler_config)}
+        )
diff --git a/model_executor/models/qwen2_vl.py b/model_executor/models/qwen2_vl.py
new file mode 100644
index 0000000..c103d99
--- /dev/null
+++ b/model_executor/models/qwen2_vl.py
@@ -0,0 +1,1670 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/19e6e80e10118f855137b90740936c0b11ac397f/src/transformers/models/qwen2_vl/modeling_qwen2_vl.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen2-VL model compatible with HuggingFace weights."""
+
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Any, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers import BatchFeature
+from transformers.models.qwen2_vl import Qwen2VLImageProcessor, Qwen2VLProcessor
+from transformers.models.qwen2_vl.configuration_qwen2_vl import (
+    Qwen2VLConfig,
+    Qwen2VLVisionConfig,
+)
+from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
+from transformers.models.qwen2_vl.video_processing_qwen2_vl import Qwen2VLVideoProcessor
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import QuickGELU
+from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding.common import (
+    dispatch_rotary_emb_function,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    ImageItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import (
+    DictEmbeddingItems,
+    ImageSize,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import (
+    get_vit_attn_backend,
+    run_dp_sharded_mrope_vision_model,
+)
+
+logger = init_logger(__name__)
+
+# For profile run
+_MAX_FRAMES_PER_VIDEO = 14
+
+# === Vision Inputs === #
+
+
+class Qwen2VLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each image over each prompt in
+              the batch
+        - ni: Number of images
+        - cps: Number of channels * patch_size * patch_size
+
+    Historical context:
+        - pixel_values shape: (num_patches, num_channels * patch_size *
+          patch_size)
+        - image_grid_thw shape: (num_images, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["pixel_values"]
+
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("np", "cps"),
+    ]
+
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("ni", 3),
+    ]
+
+
+class Qwen2VLImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of image features
+        - hs: Hidden size
+        - ni: Number of images
+
+    Historical context:
+        - image_embeds shape: (num_image_features, hidden_size)
+        - num_image_features varies based on the number and resolution of the
+          images.
+        - hidden_size must match the hidden size of language model backbone.
+        - image_grid_thw shape: (num_images, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["image_embeds"]
+
+    image_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("nf", "hs"),
+    ]
+
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("ni", 3),
+    ]
+
+
+Qwen2VLImageInputs: TypeAlias = Qwen2VLImagePixelInputs | Qwen2VLImageEmbeddingInputs
+
+
+class Qwen2VLVideoPixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - np: The total number of patches over each video over each prompt in
+              the batch
+        - ctps: Number of channels * temporal_patch_size * patch_size *
+          patch_size
+        - nv: Number of videos
+
+    Historical context:
+        - pixel_values_videos shape: (num_patches, num_channels *
+          temporal_patch_size * patch_size * patch_size)
+        - video_grid_thw shape: (num_videos, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["pixel_values_videos"]
+
+    pixel_values_videos: Annotated[
+        torch.Tensor,
+        TensorShape("np", "ctps"),
+    ]
+
+    video_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("nv", 3),
+    ]
+
+
+class Qwen2VLVideoEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - nf: Number of video features
+        - hs: Hidden size
+        - nv: Number of videos
+
+    Historical context:
+        - video_embeds shape: (num_video_features, hidden_size)
+        - num_video_features varies based on the number and resolution of the
+          videos.
+        - hidden_size must match the hidden size of language model backbone.
+        - video_grid_thw shape: (num_videos, 3) in (grid_t, grid_h, grid_w)
+          format
+    """
+
+    type: Literal["video_embeds"]
+
+    video_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("nf", "hs"),
+    ]
+
+    video_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("nv", 3),
+    ]
+
+
+Qwen2VLVideoInputs: TypeAlias = Qwen2VLVideoPixelInputs | Qwen2VLVideoEmbeddingInputs
+
+# === Vision Encoder === #
+
+
+class Qwen2VisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        act_layer: type[nn.Module] = QuickGELU,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.fc1 = ColumnParallelLinear(
+            in_features,
+            hidden_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.act = act_layer()
+        self.fc2 = RowParallelLinear(
+            hidden_features,
+            in_features,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x_parallel, _ = self.fc1(x)
+        x_parallel = self.act(x_parallel)
+        x, _ = self.fc2(x_parallel)
+        return x
+
+
+def rotate_half(x: torch.Tensor, interleaved: bool = False) -> torch.Tensor:
+    if not interleaved:
+        x1, x2 = x.chunk(2, dim=-1)
+        return torch.cat((-x2, x1), dim=-1)
+    else:
+        x1, x2 = x[..., ::2], x[..., 1::2]
+        return rearrange(
+            torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2
+        )
+
+
+def apply_rotary_emb_torch(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, interleaved: bool = False
+) -> torch.Tensor:
+    """
+    x: (batch_size, seqlen, nheads, headdim)
+    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
+    """
+    ro_dim = cos.shape[-1] * 2
+    assert ro_dim <= x.shape[-1]
+    cos = repeat(
+        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    sin = repeat(
+        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    return torch.cat(
+        [
+            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
+            x[..., ro_dim:],
+        ],
+        dim=-1,
+    )
+
+
+def apply_rotary_pos_emb_vision(t: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
+    rotary_emb_function = dispatch_rotary_emb_function(default=apply_rotary_emb_torch)
+    t_ = t.float()
+    cos = freqs.cos()
+    sin = freqs.sin()
+    output = rotary_emb_function(t_, cos, sin).type_as(t)
+    return output
+
+
+class Qwen2VisionAttention(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        # Per attention head and per partition values.
+        self.tp_size = (
+            1
+            if use_data_parallel
+            else parallel_state.get_tensor_model_parallel_world_size()
+        )
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv = ColumnParallelLinear(
+            input_size=embed_dim,
+            output_size=3 * projection_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+            disable_tp=use_data_parallel,
+        )
+        self.proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.proj",
+            disable_tp=use_data_parallel,
+        )
+
+        # Detect attention implementation.
+        self.attn_backend = get_vit_attn_backend(
+            head_size=self.hidden_size_per_attention_head,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Qwen2-VL does not support {self.attn_backend} backend now."
+            )
+
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        # [s, b, 3 * head * head_dim]
+        seq_len, bs, _ = qkv.shape
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
+        q, k, v = qkv.chunk(3, dim=2)
+
+        # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
+        new_shape = (
+            seq_len,
+            bs,
+            self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        )
+        q, k, v = (x.view(*new_shape) for x in (q, k, v))
+        return q, k, v
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        # [s, b, c] --> [s, b, 3 * head * head_dim]
+        x, _ = self.qkv(x)
+
+        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head, head_dim]
+        q, k, v = self.split_qkv(x)
+        batch_size = q.shape[1]
+
+        q, k, v = (rearrange(x, "s b ... -> b s ...") for x in (q, k, v))
+        if rotary_pos_emb is not None:
+            # [2 * b, s, heads, head_dim]
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
+
+            output = self.flash_attn_varlen_func(
+                q,
+                k,
+                v,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+                dropout_p=0.0,
+                causal=False,
+            )
+
+            context_layer = rearrange(
+                output, "(b s) h d -> s b (h d)", b=batch_size
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            # Execute attention entry by entry for speed & less VRAM.
+            from vllm.platforms import current_platform
+
+            if current_platform.is_rocm():
+                q = q.contiguous()
+                k = k.contiguous()
+                v = v.contiguous()
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                start_idx = cu_seqlens[i - 1]
+                end_idx = cu_seqlens[i]
+                q_i = q[:, start_idx:end_idx]
+                k_i = k[:, start_idx:end_idx]
+                v_i = v[:, start_idx:end_idx]
+                q_i, k_i, v_i = (
+                    rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
+                )
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                output_i = rearrange(output_i, "b h s d -> b s h d ")
+                outputs.append(output_i)
+            context_layer = torch.cat(outputs, dim=1)
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            from xformers import ops as xops
+            from xformers.ops.fmha.attn_bias import BlockDiagonalMask
+
+            attn_bias = BlockDiagonalMask.from_seqlens(
+                q_seqlen=seqlens, kv_seqlen=None
+            )
+
+            context_layer = xops.memory_efficient_attention_forward(
+                q, k, v, attn_bias=attn_bias, p=0, scale=None
+            )
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+
+        output, _ = self.proj(context_layer)
+        return output
+
+
+class Qwen2VisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_ratio: float,
+        act_layer: type[nn.Module] = QuickGELU,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+
+        self.attn = Qwen2VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.mlp = Qwen2VisionMLP(
+            dim,
+            mlp_hidden_dim,
+            act_layer=act_layer,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: int | None = None,  # Only used for Flash Attention
+        seqlens: list[int] | None = None,  # Only used for xFormers
+    ) -> torch.Tensor:
+        x = x + self.attn(
+            self.norm1(x),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+
+        x = x + self.mlp(self.norm2(x))
+        return x
+
+
+class Qwen2VisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        temporal_patch_size: int = 2,
+        in_channels: int = 3,
+        embed_dim: int = 1152,
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.temporal_patch_size = temporal_patch_size
+        self.embed_dim = embed_dim
+
+        kernel_size = (temporal_patch_size, patch_size, patch_size)
+        self.proj = Conv3dLayer(
+            in_channels,
+            embed_dim,
+            kernel_size=kernel_size,
+            stride=kernel_size,
+            bias=False,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.embed_dim)
+        return x
+
+
+class Qwen2VisionPatchMerger(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        context_dim: int,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        spatial_merge_size: int = 2,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = context_dim * (spatial_merge_size**2)
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.ln_q = norm_layer(context_dim)
+        self.mlp = nn.ModuleList(
+            [
+                ColumnParallelLinear(
+                    self.hidden_size,
+                    self.hidden_size,
+                    bias=True,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp.0",
+                    disable_tp=use_data_parallel,
+                ),
+                nn.GELU(),
+                RowParallelLinear(
+                    self.hidden_size,
+                    d_model,
+                    bias=True,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp.2",
+                    disable_tp=use_data_parallel,
+                ),
+            ]
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.ln_q(x)
+        x = x.view(-1, self.hidden_size)
+
+        mlp_fc1, mlp_act, mlp_fc2 = self.mlp
+        x_parallel, _ = mlp_fc1(x)
+        x_parallel = mlp_act(x_parallel)
+        out, _ = mlp_fc2(x_parallel)
+        return out
+
+
+class Qwen2VisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+        self._seq_len_cached = 0
+        self._freqs_cached = None
+
+    def update_freqs_cache(self, seqlen: int) -> None:
+        if seqlen > self._seq_len_cached:
+            seqlen *= 2
+            self._seq_len_cached = seqlen
+            self.inv_freq = 1.0 / (
+                self.theta
+                ** (
+                    torch.arange(
+                        0, self.dim, 2, dtype=torch.float, device=self.inv_freq.device
+                    )
+                    / self.dim
+                )
+            )
+            seq = torch.arange(
+                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+            )
+            freqs = torch.outer(seq, self.inv_freq)
+            self._freqs_cached = freqs
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        self.update_freqs_cache(seqlen)
+        return self._freqs_cached[:seqlen]
+
+
+class Qwen2VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config: Qwen2VLVisionConfig,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+
+        patch_size = vision_config.patch_size
+        temporal_patch_size = vision_config.temporal_patch_size
+        spatial_merge_size = vision_config.spatial_merge_size
+        in_channels = vision_config.in_channels
+        hidden_size = vision_config.hidden_size
+        embed_dim = vision_config.embed_dim
+        depth = vision_config.depth
+        num_heads = vision_config.num_heads
+        mlp_ratio = vision_config.mlp_ratio
+
+        self.use_data_parallel = use_data_parallel
+        self.out_hidden_size = vision_config.hidden_size
+
+        self.spatial_merge_size = spatial_merge_size
+        self.num_heads = num_heads
+        self.embed_dim = embed_dim
+
+        self.patch_embed = Qwen2VisionPatchEmbed(
+            patch_size=patch_size,
+            temporal_patch_size=temporal_patch_size,
+            in_channels=in_channels,
+            embed_dim=embed_dim,
+        )
+
+        norm_layer = partial(nn.LayerNorm, eps=norm_eps)
+        head_dim = embed_dim // num_heads
+        self.rotary_pos_emb = Qwen2VisionRotaryEmbedding(head_dim // 2)
+
+        self.blocks = nn.ModuleList(
+            [
+                Qwen2VisionBlock(
+                    dim=embed_dim,
+                    num_heads=num_heads,
+                    mlp_ratio=mlp_ratio,
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                    attn_backend_override=attn_backend_override,
+                )
+                for layer_idx in range(depth)
+            ]
+        )
+        self.merger = Qwen2VisionPatchMerger(
+            d_model=hidden_size,
+            context_dim=embed_dim,
+            norm_layer=norm_layer,
+            quant_config=quant_config,
+            prefix=f"{prefix}.merger",
+            use_data_parallel=use_data_parallel,
+        )
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    def rot_pos_emb(self, grid_thw: list[list[int]]) -> torch.Tensor:
+        pos_ids = []
+        max_grid_size = 0
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            hpos_ids = (
+                hpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            wpos_ids = (
+                wpos_ids.reshape(
+                    h // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                    w // self.spatial_merge_size,
+                    self.spatial_merge_size,
+                )
+                .permute(0, 2, 1, 3)
+                .flatten()
+            )
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+            max_grid_size = max(max_grid_size, h, w)
+        pos_ids = torch.cat(pos_ids, dim=0)
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def compute_attn_mask_seqlen(
+        self, cu_seqlens: torch.Tensor
+    ) -> tuple[int | None, list[int] | None]:
+        max_seqlen, seqlens = None, None
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        return max_seqlen, seqlens
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        grid_thw: torch.Tensor | list[list[int]],
+    ) -> torch.Tensor:
+        # patchify
+        x = x.to(device=self.device, dtype=self.dtype)
+        x = self.patch_embed(x)
+
+        if isinstance(grid_thw, list):
+            grid_thw_list = grid_thw
+            grid_thw = torch.tensor(grid_thw, dtype=torch.int32)
+        else:
+            grid_thw_list = grid_thw.tolist()
+
+        # compute position embedding
+        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
+
+        # compute cu_seqlens
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(dim=0, dtype=torch.int32)
+        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+        cu_seqlens = cu_seqlens.to(self.device, non_blocking=True)
+
+        # transformers
+        x = x.unsqueeze(1)
+
+        # pre-compute seqlens for attn mask to reduce cuMemcpy operations
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+        for blk in self.blocks:
+            x = blk(
+                x,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+
+        # adapter
+        x = self.merger(x)
+
+        return x
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+def _create_qwen2vl_field_factory(
+    spatial_merge_size: int,
+) -> Callable[
+    [Mapping[str, torch.Tensor]],
+    Mapping[str, MultiModalFieldConfig],
+]:
+    def _qwen2vl_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+        image_grid_thw = hf_inputs.get("image_grid_thw", torch.empty((0, 3)))
+        image_pixel_grid_sizes = image_grid_thw.prod(-1)
+        image_embed_grid_sizes = (
+            image_pixel_grid_sizes // spatial_merge_size // spatial_merge_size
+        )
+
+        video_grid_thw = hf_inputs.get("video_grid_thw", torch.empty((0, 3)))
+        video_grid_sizes = video_grid_thw.prod(-1)
+        video_embed_grid_sizes = (
+            video_grid_sizes // spatial_merge_size // spatial_merge_size
+        )
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_pixel_grid_sizes
+            ),
+            image_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_embed_grid_sizes
+            ),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_grid_sizes
+            ),
+            video_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_embed_grid_sizes
+            ),
+            video_grid_thw=MultiModalFieldConfig.batched("video"),
+        )
+
+    return _qwen2vl_field_config
+
+
+class Qwen2VLMultiModalDataParser(MultiModalDataParser):
+    def __init__(self, spatial_merge_size: int, *args, **kwargs):
+        self._spatial_merge_size = spatial_merge_size
+        super().__init__(*args, **kwargs)
+
+    def _parse_image_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="image",
+                required_fields={"image_embeds", "image_grid_thw"},
+                fields_factory=_create_qwen2vl_field_factory(self._spatial_merge_size),
+            )
+
+        return super()._parse_image_data(data)
+
+    def _parse_video_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[VideoItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            return DictEmbeddingItems(
+                data,
+                modality="video",
+                required_fields={"video_embeds", "video_grid_thw"},
+                fields_factory=_create_qwen2vl_field_factory(self._spatial_merge_size),
+            )
+
+        return super()._parse_video_data(data)
+
+
+class Qwen2VLProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen2VLConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen2VLProcessor:
+        return self.ctx.get_hf_processor(
+            Qwen2VLProcessor,
+            use_fast=kwargs.pop("use_fast", True),
+            **kwargs,
+        )
+
+    def get_image_processor(self, **kwargs: object) -> Qwen2VLImageProcessor:
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None, "video": None}
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        max_image_tokens = self.get_max_image_tokens()
+        max_video_tokens = self.get_max_video_tokens(seq_len, mm_counts)
+        return {"image": max_image_tokens, "video": max_video_tokens}
+
+    def _get_vision_info(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 1,
+        do_resize: bool = True,
+        image_processor: Qwen2VLImageProcessor | None,
+    ) -> tuple[ImageSize, int]:
+        if image_processor is None:
+            image_processor = self.get_image_processor()
+
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+        temporal_patch_size = vision_config.temporal_patch_size
+
+        if do_resize:
+            resized_height, resized_width = smart_resize(
+                height=image_height,
+                width=image_width,
+                factor=patch_size * merge_size,
+                min_pixels=image_processor.min_pixels,
+                max_pixels=image_processor.max_pixels,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        # NOTE: Frames are padded to be divisible by `temporal_patch_size`
+        # https://github.com/huggingface/transformers/blob/v4.48.3/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py#L294
+        padded_num_frames = num_frames + num_frames % temporal_patch_size
+
+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches // (merge_size**2)
+
+        return preprocessed_size, num_vision_tokens
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        image_processor: Qwen2VLImageProcessor | None,
+    ) -> int:
+        _, num_image_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            num_frames=1,
+            image_processor=image_processor,
+        )
+        return num_image_tokens
+
+    def get_num_video_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int,
+        image_processor: Qwen2VLImageProcessor | None,
+    ) -> int:
+        _, num_video_tokens = self._get_vision_info(
+            image_width=image_width,
+            image_height=image_height,
+            num_frames=num_frames,
+            image_processor=image_processor,
+        )
+        return num_video_tokens
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        max_image_size, _ = self._get_vision_info(
+            image_width=9999999,
+            image_height=9999999,
+            num_frames=1,
+            image_processor=None,
+        )
+        return max_image_size
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            image_processor=None,
+        )
+
+    def _get_max_video_frames(self, max_tokens: int, start_num_frames: int = 1) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        num_frames = start_num_frames
+
+        while True:
+            next_num_frames = num_frames + 1
+            next_max_tokens = self.get_num_video_tokens(
+                image_width=target_width,
+                image_height=target_height,
+                num_frames=next_num_frames,
+                image_processor=None,
+            )
+
+            if next_max_tokens > max_tokens:
+                break
+
+            num_frames = next_num_frames
+
+        return num_frames
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        max_frames_per_video: int = _MAX_FRAMES_PER_VIDEO,
+    ) -> int:
+        max_videos = mm_counts.get("video", 0)
+
+        max_total_frames = self._get_max_video_frames(seq_len)
+        max_frames_per_video = min(
+            max_total_frames // max(max_videos, 1), max_frames_per_video
+        )
+
+        return max(max_frames_per_video, 1)
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len, mm_counts),
+            image_processor=None,
+        )
+
+
+class Qwen2VLDummyInputsBuilder(BaseDummyInputsBuilder[Qwen2VLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        image_token: str = hf_processor.image_token
+        video_token: str = hf_processor.video_token
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=target_width,
+                height=target_height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+                overrides=video_overrides,
+            ),
+        }
+
+
+class Qwen2VLMultiModalProcessor(BaseMultiModalProcessor[Qwen2VLProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return Qwen2VLMultiModalDataParser(
+            self.info.get_hf_config().vision_config.spatial_merge_size
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        vocab = tokenizer.get_vocab()
+
+        placeholder = {
+            "image": vocab[hf_processor.image_token],
+            "video": vocab[hf_processor.video_token],
+        }
+
+        merge_length = image_processor.merge_size**2
+
+        def get_replacement_qwen2vl(item_idx: int, modality: str):
+            out_item = out_mm_kwargs[modality][item_idx]
+            grid_thw = out_item[f"{modality}_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            num_tokens = int(grid_thw.prod()) // merge_length
+            return [placeholder[modality]] * num_tokens
+
+        return [
+            PromptReplacement(
+                modality=modality,
+                target=[placeholder[modality]],
+                replacement=partial(get_replacement_qwen2vl, modality=modality),
+            )
+            for modality in ("image", "video")
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _create_qwen2vl_field_factory(
+            self.info.get_hf_config().vision_config.spatial_merge_size
+        )(hf_inputs)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen2VLMultiModalProcessor,
+    info=Qwen2VLProcessingInfo,
+    dummy_inputs=Qwen2VLDummyInputsBuilder,
+)
+class Qwen2VLForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers v4.52
+            "model.language_model.": "language_model.model.",
+            "model.visual.": "visual.",
+            # mapping for original checkpoint
+            "lm_head.": "language_model.lm_head.",
+            "model.": "language_model.model.",
+        }
+    )
+
+    supports_encoder_tp_data = True
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+
+        hf_config = self.config
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        vision_start_token_id = hf_config.vision_start_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(hf_config.vision_config, "tokens_per_second", 1.0)
+
+        input_tokens_tensor = torch.tensor(input_tokens)
+        vision_start_indices = torch.argwhere(
+            input_tokens_tensor == vision_start_token_id
+        ).squeeze(1)
+        vision_tokens = input_tokens_tensor[vision_start_indices + 1]
+        image_nums = (vision_tokens == image_token_id).sum()
+        video_nums = (vision_tokens == video_token_id).sum()
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_videos = image_nums, video_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + video_nums):
+            video_second_per_grid_t = 0.0
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_videos > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+            if ed_image < ed_video:
+                t, h, w = image_grid_thw[image_index]
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = video_grid_thw[video_index]
+                video_second_per_grid_t = 1.0
+                if second_per_grid_ts:
+                    video_second_per_grid_t = second_per_grid_ts[video_index]
+                video_index += 1
+                remain_videos -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                    * video_second_per_grid_t
+                    * tokens_per_second
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+
+        return llm_positions, mrope_position_delta
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|video_pad|><|vision_end|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: Qwen2VLConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        if multimodal_config.get_limit_per_prompt(
+            "image"
+        ) or multimodal_config.get_limit_per_prompt("video"):
+            attn_backend_override = (
+                multimodal_config.mm_encoder_attn_backend
+                if multimodal_config is not None
+                else None
+            )
+            self.visual = Qwen2VisionTransformer(
+                config.vision_config,
+                norm_eps=getattr(config, "rms_norm_eps", 1e-6),
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "visual"),
+                use_data_parallel=self.use_data_parallel,
+                attn_backend_override=attn_backend_override,
+            )
+        else:
+            self.visual = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+            architectures=["Qwen2ForCausalLM"],
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Qwen2VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Qwen2VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return Qwen2VLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Qwen2VLVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Qwen2VLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+            )
+
+        if video_embeds is not None:
+            return Qwen2VLVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: Qwen2VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"]
+        else:
+            pixel_values = image_input["pixel_values"]
+
+            if self.use_data_parallel:
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual, pixel_values, grid_thw.tolist(), rope_type="rope_3d"
+                )
+            else:
+                image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
+
+        # Split concatenated embeddings for each image item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return image_embeds.split(sizes)
+
+    def _process_video_input(
+        self, video_input: Qwen2VLVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        if video_input["type"] == "video_embeds":
+            video_embeds = video_input["video_embeds"]
+        else:
+            pixel_values_videos = video_input["pixel_values_videos"]
+            if self.use_data_parallel:
+                grid_thw_list = grid_thw.tolist()
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual, pixel_values_videos, grid_thw_list, rope_type="rope_3d"
+                )
+            else:
+                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
+
+        # Split concatenated embeddings for each video item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return video_embeds.split(sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        modalities = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "images" not in modalities
+            ):
+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "videos" not in modalities
+            ):
+                modalities["videos"] = self._parse_and_validate_video_input(**kwargs)
+
+        return modalities
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not modalities:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in modalities:
+            if modality == "images":
+                image_input = modalities["images"]
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "videos":
+                video_input = modalities["videos"]
+                video_embeddings = self._process_video_input(video_input)
+                multimodal_embeddings += tuple(video_embeddings)
+
+        return multimodal_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Qwen2-VL.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Flattened (concatenated) position ids corresponding to a
+                batch.
+                **NOTE**: If mrope is enabled (default setting for Qwen2-VL
+                opensource models), the shape will be `(3, seq_len)`,
+                otherwise it will be `(seq_len,)`.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+        """
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.visual is None:
+            skip_prefixes.extend(["visual."])
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="visual.merger.",
+            tower_model="visual.",
+        )
+
+
+class Tarsier2MultiModalProcessor(Qwen2VLMultiModalProcessor):
+    pass
+
+
+class Tarsier2ImageProcessor(Qwen2VLImageProcessor):
+    def __init__(
+        self,
+        size: dict[str, int] | None = None,
+        **kwargs,
+    ) -> None:
+        if size is not None and "min_pixels" in size and "max_pixels" in size:
+            # Remap if Tarsier2-specific format is provided
+            remapped_size = {
+                "shortest_edge": size["min_pixels"],
+                "longest_edge": size["max_pixels"],
+            }
+            super().__init__(size=remapped_size, **kwargs)
+        else:
+            super().__init__(size=size, **kwargs)
+
+
+class Tarsier2Processor(Qwen2VLProcessor):
+    def __init__(
+        self,
+        vision_config: dict,
+        tokenizer: AnyTokenizer,
+        **kwargs,
+    ):
+        self.image_processor = Tarsier2ImageProcessor(**vision_config)
+        super().__init__(
+            image_processor=self.image_processor,
+            tokenizer=tokenizer,
+            video_processor=Qwen2VLVideoProcessor(**vision_config),
+            chat_template=None,
+            **kwargs,
+        )
+
+
+class Tarsier2ProcessingInfo(Qwen2VLProcessingInfo):
+    def get_hf_config(self) -> Qwen2VLConfig:
+        model_path = self.ctx.model_config.model
+        correct_config = Qwen2VLConfig.from_pretrained(model_path)
+
+        return correct_config
+
+    def get_hf_processor(self, **kwargs: object) -> Tarsier2Processor:
+        return Tarsier2Processor(
+            vision_config=self.ctx.get_hf_image_processor_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+    def get_image_processor(self) -> Tarsier2ImageProcessor:
+        return Tarsier2ImageProcessor(**self.ctx.get_hf_image_processor_config())
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Tarsier2MultiModalProcessor,
+    info=Tarsier2ProcessingInfo,
+    dummy_inputs=Qwen2VLDummyInputsBuilder,
+)
+class Tarsier2ForConditionalGeneration(Qwen2VLForConditionalGeneration):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "vision_tower.": "visual.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        # Tarsier2 uses llava as model_type, which will create a Qwen2VLConfig
+        # as text_config, we need to reconstruct Qwen2VLConfig from LlavaConfig.
+        config = vllm_config.model_config.hf_config
+        qwen2vl_config = config.text_config
+        qwen2vl_config.architectures = config.architectures
+        vllm_config.model_config.hf_config = qwen2vl_config
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.visual is None:
+            skip_prefixes.extend(["visual."])
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/qwen3.py b/model_executor/models/qwen3.py
new file mode 100644
index 0000000..ccdf650
--- /dev/null
+++ b/model_executor/models/qwen3.py
@@ -0,0 +1,353 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen3 model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Qwen3Config
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import RMSNorm, RMSNormQK
+from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
+from .qwen2 import Qwen2MLP as Qwen3MLP
+from .qwen2 import Qwen2Model
+from .utils import AutoWeightsLoader, PPMissingLayer, extract_layer_index, maybe_prefix
+
+logger = init_logger(__name__)
+
+
+class Qwen3Attention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-06,
+        qkv_bias: bool = False,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            attn_type=attn_type,
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            }
+            if dual_chunk_attention_config
+            else {},
+        )
+        self.q_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+        self.qk_norm = RMSNormQK(self.head_dim, self.head_dim,  eps=rms_norm_eps)
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        # Add qk-norm
+        # q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim, self.head_dim)
+        # q_by_head = self.q_norm.forward_native(q_by_head) # TODO(gyf) check why
+        # q = q_by_head.view(q.shape)
+        # k_by_head = k.view(*k.shape[:-1], k.shape[-1] // self.head_dim, self.head_dim)
+        # k_by_head = self.k_norm.forward_native(k_by_head)
+        # k = k_by_head.view(k.shape)
+        q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim,
+                           self.head_dim)
+        k_by_head = k.view(*k.shape[:-1],
+                           k.shape[-1] // self.head_dim,
+                           self.head_dim)
+        
+        out_q, out_k = self.qk_norm(
+            q_by_head,
+            k_by_head,
+            self.q_norm.weight.data,
+            self.k_norm.weight.data
+        )
+
+        q = out_q.view(q.shape)
+        k = out_k.view(k.shape)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Qwen3DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Qwen3Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+
+        # By default, Qwen3 uses causal attention as it is a decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        # (e.g. Alibaba-NLP/gte-Qwen3-7B-instruct)
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = Qwen3Attention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=getattr(config, "attention_bias", False),
+            head_dim=getattr(config, "head_dim", None),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.mlp = Qwen3MLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(
+                hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(
+            hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": Qwen3DecoderLayer,
+}
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        # positions is of shape (3, seq_len) if mrope is enabled for qwen2-vl,
+        # otherwise (seq_len, ).
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class Qwen3Model(Qwen2Model):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config, prefix=prefix, decoder_layer_type=Qwen3DecoderLayer
+        )
+
+
+class Qwen3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = Qwen3Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/qwen3_moe.py b/model_executor/models/qwen3_moe.py
new file mode 100644
index 0000000..79fd0c7
--- /dev/null
+++ b/model_executor/models/qwen3_moe.py
@@ -0,0 +1,762 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen3MoE model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import MixtureOfExperts, SupportsEagle3, SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+import ixformer.inference.functions as ixf_ops
+
+class Qwen3MoeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Qwen3MoeSparseMoeBlock(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_text_config
+        parallel_config = vllm_config.parallel_config
+        quant_config = vllm_config.quant_config
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts = config.num_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+
+        if self.tp_size > config.num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_experts}."
+            )
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_logical_experts = self.n_routed_experts
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.experts = FusedMoE(
+            num_experts=self.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=True,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+            routing_method_type=RoutingMethodType.Renormalize,
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        assert hidden_states.dim() <= 2, (
+            "Qwen3MoeSparseMoeBlock only supports 1D or 2D inputs"
+        )
+        is_input_1d = hidden_states.dim() == 1
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+
+        # return to 1d if input is 1d
+        return final_hidden_states.squeeze(0) if is_input_1d else final_hidden_states
+
+
+class Qwen3MoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-06,
+        qkv_bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            }
+            if dual_chunk_attention_config
+            else {},
+        )
+
+        self.q_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        # Add qk-norm
+        q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim,
+                           self.head_dim)
+        k_by_head = k.view(*k.shape[:-1], k.shape[-1] // self.head_dim,
+                           self.head_dim)
+        out_q, out_k = ixf_ops.rms_norm_qk(q_by_head, k_by_head, self.q_norm.weight.data, self.k_norm.weight.data, self.q_norm.variance_epsilon)
+
+        q = out_q.view(q.shape)
+        k = out_k.view(k.shape)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Qwen3MoeDecoderLayer(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_text_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+        self.self_attn = Qwen3MoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            rms_norm_eps=config.rms_norm_eps,
+            qkv_bias=getattr(config, "attention_bias", False),
+            head_dim=getattr(config, "head_dim", None),
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+
+        from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors import CompressedTensorsW8A8Int8
+        if hasattr(self.self_attn.qkv_proj, "scheme") and isinstance(self.self_attn.qkv_proj.scheme, CompressedTensorsW8A8Int8):
+            self.fused_norm_quant = True
+        else:
+            self.fused_norm_quant = False
+
+        # `mlp_only_layers` in the config.
+        layer_idx = extract_layer_index(prefix)
+        mlp_only_layers = (
+            [] if not hasattr(config, "mlp_only_layers") else config.mlp_only_layers
+        )
+        if (layer_idx not in mlp_only_layers) and (
+            config.num_experts > 0 and (layer_idx + 1) % config.decoder_sparse_step == 0
+        ):
+            self.mlp = Qwen3MoeSparseMoeBlock(
+                vllm_config=vllm_config, prefix=f"{prefix}.mlp"
+            )
+        else:
+            self.mlp = Qwen3MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if self.fused_norm_quant:
+            origin_input = hidden_states
+            hidden_states_i8, residual, scale = ixf_ops.residual_rms_norm_dynamic_int8(
+                hidden_states, self.input_layernorm.weight.data, residual,
+                eps=self.input_layernorm.variance_epsilon,
+            )
+            hidden_states = (hidden_states_i8, scale, hidden_states.dtype)
+            if residual is None:
+                residual = origin_input
+        else:
+            # Self Attention
+            if residual is None:
+                residual = hidden_states
+                hidden_states = self.input_layernorm(hidden_states)
+            else:
+                hidden_states, residual = self.input_layernorm(
+                    hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Qwen3MoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_text_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+        eplb_config = parallel_config.eplb_config
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.config = config
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Qwen3MoeDecoderLayer(vllm_config=vllm_config, prefix=prefix),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        # Track layers for auxiliary hidden state outputs (EAGLE3)
+        self.aux_hidden_state_layers: tuple[int, ...] = ()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors | tuple[torch.Tensor, list[torch.Tensor]]:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        aux_hidden_states = []
+        for layer_idx, layer in enumerate(
+            islice(self.layers, self.start_layer, self.end_layer),
+            start=self.start_layer,
+        ):
+            # Collect auxiliary hidden states if specified
+            if layer_idx in self.aux_hidden_state_layers:
+                aux_hidden_state = (
+                    hidden_states + residual if residual is not None else hidden_states
+                )
+                aux_hidden_states.append(aux_hidden_state)
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+
+        # Return auxiliary hidden states if collected
+        if len(aux_hidden_states) > 0:
+            return hidden_states, aux_hidden_states
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        # Skip loading extra parameters for GPTQ/modelopt models.
+        ignore_suffixes = (
+            ".bias",
+            "_bias",
+            ".k_scale",
+            "_k_scale",
+            ".v_scale",
+            "_v_scale",
+            ".weight_scale",
+            "_weight_scale",
+            ".input_scale",
+            "_input_scale",
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                # Skip loading extra parameters for GPTQ/modelopt models.
+                if name.endswith(ignore_suffixes) and name not in params_dict:
+                    continue
+
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                if name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    # Skip loading extra parameters for GPTQ/modelopt models.
+                    if (
+                        name_mapped.endswith(ignore_suffixes)
+                        and name_mapped not in params_dict
+                    ):
+                        continue
+
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+
+                    # Skip loading extra parameters for GPTQ/modelopt models.
+                    if name.endswith(ignore_suffixes) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    if name.endswith("kv_scale"):
+                        remapped_kv_scale_name = name.replace(
+                            ".kv_scale", ".attn.kv_scale"
+                        )
+                        if remapped_kv_scale_name not in params_dict:
+                            logger.warning_once(
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
+                            continue
+                        else:
+                            name = remapped_kv_scale_name
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen3MoeForCausalLM(
+    nn.Module, SupportsPP, SupportsLoRA, SupportsEagle3, MixtureOfExperts
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ]
+    }
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_text_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        # Only perform the following mapping when Qwen3MoeMLP exists
+        if getattr(config, "mlp_only_layers", []):
+            self.packed_modules_mapping["gate_up_proj"] = ["gate_proj", "up_proj"]
+        self.model = Qwen3MoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        # Set MoE hyperparameters
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_layer = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, Qwen3MoeDecoderLayer)
+            if isinstance(layer.mlp, Qwen3MoeSparseMoeBlock):
+                example_layer = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_layer is None:
+            raise RuntimeError("No Qwen3MoE layer found in the model.layers.")
+
+        self.num_moe_layers = len(self.moe_layers)
+        self.num_expert_groups = 1
+        self.num_shared_experts = 0
+        self.num_logical_experts = example_layer.n_logical_experts
+        self.num_physical_experts = example_layer.n_physical_experts
+        self.num_local_physical_experts = example_layer.n_local_physical_experts
+        self.num_routed_experts = example_layer.n_routed_experts
+        self.num_redundant_experts = example_layer.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, Qwen3MoeSparseMoeBlock):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
+        self.model.aux_hidden_state_layers = layers
+
+    def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
+        num_layers = len(self.model.layers)
+        return (2, num_layers // 2, num_layers - 3)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/model_executor/models/qwen3_next.py b/model_executor/models/qwen3_next.py
new file mode 100644
index 0000000..ff1237f
--- /dev/null
+++ b/model_executor/models/qwen3_next.py
@@ -0,0 +1,1397 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Qwen3Next model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from einops import rearrange
+from torch import nn
+from transformers.activations import ACT2FN
+
+from vllm.attention import Attention, AttentionBackend, AttentionMetadata
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import (
+    CacheConfig,
+    ModelConfig,
+    SpeculativeConfig,
+    VllmConfig,
+    get_current_vllm_config,
+)
+from vllm.distributed import (
+    divide,
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fla.ops import (
+    chunk_gated_delta_rule,
+    fused_recurrent_gated_delta_rule,
+)
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
+from vllm.model_executor.layers.layernorm import (
+    GemmaRMSNorm as Qwen3NextRMSNorm,
+)
+from vllm.model_executor.layers.layernorm import RMSNormGated
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_mixer2 import mamba_v2_sharded_weight_loader
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
+    causal_conv1d_fn,
+    causal_conv1d_update,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    sharded_weight_loader,
+)
+from vllm.model_executor.models.qwen2_moe import Qwen2MoeMLP as Qwen3NextMLP
+from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import Qwen3NextConfig
+from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadata
+
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    MixtureOfExperts,
+    SupportsLoRA,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+KVCache = tuple[torch.Tensor, torch.Tensor]
+
+
+class Qwen3NextSparseMoeBlock(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        parallel_config = vllm_config.parallel_config
+        quant_config = vllm_config.quant_config
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts = config.num_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+
+        if self.tp_size > config.num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_experts}."
+            )
+
+        # Load balancing settings.
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_logical_experts = self.n_routed_experts
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.shared_expert_gate = torch.nn.Linear(config.hidden_size, 1, bias=False)
+
+        if config.shared_expert_intermediate_size > 0:
+            self.shared_expert = Qwen3NextMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.shared_expert_intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                expert_gate=self.shared_expert_gate,
+                prefix=f"{prefix}.shared_expert",
+            )
+        else:
+            self.shared_expert = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_expert,
+            gate=self.gate,
+            num_experts=self.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+            routing_method_type=RoutingMethodType.Renormalize,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        if self.experts.is_internal_router:
+            # In this case, the gate/router runs inside the FusedMoE class
+            final_hidden_states = self.experts(
+                hidden_states=hidden_states, router_logits=hidden_states
+            )
+        else:
+            # router_logits: (num_tokens, n_experts)
+            router_logits, _ = self.gate(hidden_states)
+            final_hidden_states = self.experts(
+                hidden_states=hidden_states, router_logits=router_logits
+            )
+
+        if self.shared_expert is not None:
+            final_hidden_states = final_hidden_states[0] + final_hidden_states[1]
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+        elif self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(  # noqa E501
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
+    @property
+    def mamba_type(self) -> str:
+        return "linear_attention"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.gdn_attn import GDNAttentionBackend
+
+        return GDNAttentionBackend
+
+    def get_state_dtype(self) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.gated_delta_net_state_dtype(
+            self.model_config.dtype, self.cache_config.mamba_cache_dtype
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.gated_delta_net_state_shape(
+            self.tp_size,
+            self.num_k_heads,
+            self.num_v_heads,
+            self.head_k_dim,
+            self.head_v_dim,
+            self.conv_kernel_size,
+            self.num_spec,
+        )
+
+    def __init__(
+        self,
+        config: Qwen3NextConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        speculative_config: SpeculativeConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.hidden_size = config.hidden_size
+        self.num_v_heads = config.linear_num_value_heads
+        self.num_k_heads = config.linear_num_key_heads
+        self.head_k_dim = config.linear_key_head_dim
+        self.head_v_dim = config.linear_value_head_dim
+        self.key_dim = self.head_k_dim * self.num_k_heads
+        self.value_dim = self.head_v_dim * self.num_v_heads
+
+        self.conv_kernel_size = config.linear_conv_kernel_dim
+        self.layer_idx = extract_layer_index(prefix)
+        self.activation = config.hidden_act
+        self.act = ACT2FN[config.hidden_act]
+        self.layer_norm_epsilon = config.rms_norm_eps
+        self.prefix = prefix
+
+        self.config = config
+        self.model_config = model_config
+        self.cache_config = cache_config
+        self.quant_config = quant_config
+        self.speculative_config = speculative_config
+        self.num_spec = (
+            self.speculative_config.num_speculative_tokens
+            if self.speculative_config
+            else 0
+        )
+
+        # QKV
+        self.conv_dim = self.key_dim * 2 + self.value_dim
+        self.conv1d = ColumnParallelLinear(
+            input_size=self.conv_kernel_size,
+            output_size=self.conv_dim,
+            bias=False,
+            prefix=f"{prefix}.conv1d",
+        )
+        self.conv1d.weight.data = self.conv1d.weight.data.unsqueeze(1)
+
+        # projection of the input hidden states
+        self.projection_size_qkvz = self.key_dim * 2 + self.value_dim * 2
+        self.projection_size_ba = self.num_v_heads * 2
+        self.in_proj_qkvz = ColumnParallelLinear(
+            input_size=self.hidden_size,
+            output_size=self.projection_size_qkvz,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.in_proj_qkvz",
+        )
+        # ba_proj doesn't support blockwise fp8 quantization.
+        self.in_proj_ba = ColumnParallelLinear(
+            input_size=self.hidden_size,
+            output_size=self.projection_size_ba,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.in_proj_ba",
+        )
+
+        query_key_settings = (self.key_dim, 0, False)
+        value_settings = (self.value_dim, 0, False)
+
+        delattr(self.conv1d.weight, "weight_loader")
+        set_weight_attrs(
+            self.conv1d.weight,
+            {
+                "weight_loader": mamba_v2_sharded_weight_loader(
+                    [
+                        query_key_settings,
+                        query_key_settings,
+                        value_settings,
+                    ],
+                    self.tp_size,
+                    self.tp_rank,
+                )
+            },
+        )
+
+        # selective projection used to make dt, B and C input dependant
+
+        # time step projection (discretization)
+        # instantiate once and copy inv_dt in init_weights of PretrainedModel
+        self.dt_bias = nn.Parameter(
+            torch.ones(self.num_v_heads // self.tp_size),
+        )
+        self.A_log = nn.Parameter(
+            torch.empty(
+                divide(self.num_v_heads, self.tp_size),
+            )
+        )
+
+        set_weight_attrs(self.A_log, {"weight_loader": sharded_weight_loader(0)})
+        set_weight_attrs(self.dt_bias, {"weight_loader": sharded_weight_loader(0)})
+
+        self.norm = RMSNormGated(
+            self.head_v_dim,
+            eps=self.layer_norm_epsilon,
+            group_size=None,
+            norm_before_gate=True,
+            device=current_platform.current_device(),
+            dtype=config.dtype,
+        )
+
+        self.out_proj = RowParallelLinear(
+            self.value_dim,
+            self.hidden_size,
+            bias=False,
+            input_is_parallel=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    def fix_query_key_value_ordering(
+        self,
+        mixed_qkvz,
+        mixed_ba,
+    ):
+        """
+        Derives `query`, `key` and `value` tensors from `mixed_qkvzba`.
+        """
+        new_tensor_shape_qkvz = mixed_qkvz.size()[:-1] + (
+            self.num_k_heads // self.tp_size,
+            (
+                self.head_k_dim
+                + self.head_k_dim
+                + (self.head_v_dim + self.head_v_dim)
+                * self.num_v_heads
+                // self.num_k_heads
+            ),
+        )
+        new_tensor_shape_ba = mixed_qkvz.size()[:-1] + (
+            self.num_k_heads // self.tp_size,
+            2 * self.num_v_heads // self.num_k_heads,
+        )
+
+        mixed_qkvz = mixed_qkvz.view(*new_tensor_shape_qkvz)
+        mixed_ba = mixed_ba.view(*new_tensor_shape_ba)
+
+        split_arg_list_qkvz = [
+            self.head_k_dim,
+            self.head_k_dim,
+            (self.num_v_heads // self.num_k_heads * self.head_v_dim),
+            (self.num_v_heads // self.num_k_heads * self.head_v_dim),
+        ]
+        split_arg_list_ba = [
+            self.num_v_heads // self.num_k_heads,
+            self.num_v_heads // self.num_k_heads,
+        ]
+
+        # [b, sq, ng, (hn + hn + np/ng * hn + np/ng + np/ng)]
+        # --> [b, sq, ng, hn], [b, sq, ng, hn], [b, sq, ng, np/ng * hn],
+        #  [b, sq, ng, np/ng * hn], [b, sq, ng, np/ng], [b, sq, ng, np/ng]
+        (query, key, value, z) = torch.split(mixed_qkvz, split_arg_list_qkvz, dim=2)
+        (b, a) = torch.split(mixed_ba, split_arg_list_ba, dim=2)
+
+        # [b, sq, ng, np/ng * hn] -> [b, sq, np, hn]
+        value = value.reshape(value.size(0), -1, self.head_v_dim)
+        z = z.reshape(z.size(0), -1, self.head_v_dim)
+        b = b.reshape(b.size(0), self.num_v_heads // self.tp_size)
+        a = a.reshape(a.size(0), self.num_v_heads // self.tp_size)
+
+        return query, key, value, z, b, a
+
+    def rearrange_mixed_qkv(self, mixed_qkv):
+        if mixed_qkv is None:
+            return None, None, None
+        query, key, value = torch.split(
+            mixed_qkv,
+            [
+                self.key_dim // self.tp_size,
+                self.key_dim // self.tp_size,
+                self.value_dim // self.tp_size,
+            ],
+            dim=-1,
+        )
+        query, key = map(
+            lambda x: rearrange(x, "l (h d) -> 1 l h d", d=self.head_k_dim),
+            (query, key),
+        )
+        value = rearrange(value, "l (h d) -> 1 l h d", d=self.head_v_dim)
+        return query.contiguous(), key.contiguous(), value.contiguous()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ):
+        """
+        Forward pass with three parts:
+        1. Input projection
+        2. Core attention (custom op)
+        3. Output projection
+        """
+        num_tokens = hidden_states.size(0)
+
+        # ============================================================
+        # Part 1: Input Projection
+        # ============================================================
+        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states)
+        projected_states_ba, _ = self.in_proj_ba(hidden_states)
+        query, key, value, z, b, a = self.fix_query_key_value_ordering(
+            projected_states_qkvz, projected_states_ba
+        )
+        query, key, value = map(
+            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
+        )
+        mixed_qkv = torch.cat((query, key, value), dim=-1)
+
+        # ============================================================
+        # Part 2: Core Attention (Custom Op)
+        # ============================================================
+        # Note: we should not use torch.empty here like other attention backends,
+        # see discussions in https://github.com/vllm-project/vllm/pull/28182
+        core_attn_out = torch.zeros(
+            (num_tokens, self.num_v_heads // self.tp_size, self.head_v_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+
+        torch.ops.vllm.gdn_attention_core(
+            mixed_qkv,
+            b,
+            a,
+            core_attn_out,
+            self.prefix,
+        )
+
+        # ============================================================
+        # Part 3: Output Projection
+        # ============================================================
+        z_shape_og = z.shape
+        # Reshape input data into 2D tensor
+        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
+        z = z.reshape(-1, z.shape[-1])
+        core_attn_out = self.norm(core_attn_out, z)
+        core_attn_out = core_attn_out.reshape(z_shape_og)
+        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
+        output[:num_tokens], _ = self.out_proj(core_attn_out)
+
+    def _forward_core(
+        self,
+        mixed_qkv: torch.Tensor,
+        b: torch.Tensor,
+        a: torch.Tensor,
+        core_attn_out: torch.Tensor,
+    ):
+        """
+        Core attention computation (called by custom op).
+        """
+        forward_context = get_forward_context()
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+
+        if attn_metadata is None:
+            # V1 profile run
+            return
+
+        assert isinstance(attn_metadata, dict)
+        attn_metadata = attn_metadata[self.prefix]
+        assert isinstance(attn_metadata, GDNAttentionMetadata)
+        has_initial_state = attn_metadata.has_initial_state
+        spec_query_start_loc = attn_metadata.spec_query_start_loc
+        non_spec_query_start_loc = attn_metadata.non_spec_query_start_loc
+        spec_sequence_masks = attn_metadata.spec_sequence_masks
+        spec_token_indx = attn_metadata.spec_token_indx
+        non_spec_token_indx = attn_metadata.non_spec_token_indx
+        spec_state_indices_tensor = attn_metadata.spec_state_indices_tensor  # noqa: E501
+        non_spec_state_indices_tensor = attn_metadata.non_spec_state_indices_tensor  # noqa: E501
+        self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+        conv_state = self_kv_cache[0].transpose(-1, -2)
+        ssm_state = self_kv_cache[1]
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        num_accepted_tokens = attn_metadata.num_accepted_tokens
+
+        mixed_qkv = mixed_qkv[:num_actual_tokens]
+        b = b[:num_actual_tokens]
+        a = a[:num_actual_tokens]
+
+        # 1. Convolution sequence transformation
+        conv_weights = self.conv1d.weight.view(
+            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
+        )
+
+        if spec_sequence_masks is not None:
+            if attn_metadata.num_prefills == 0 and attn_metadata.num_decodes == 0:
+                mixed_qkv_spec = mixed_qkv
+                mixed_qkv_non_spec = None
+            else:
+                mixed_qkv_spec = mixed_qkv.index_select(0, spec_token_indx)
+                mixed_qkv_non_spec = mixed_qkv.index_select(0, non_spec_token_indx)
+        else:
+            mixed_qkv_spec = None
+            mixed_qkv_non_spec = mixed_qkv
+
+        # 1.1: Process the multi-query part
+        if spec_sequence_masks is not None:
+            mixed_qkv_spec = causal_conv1d_update(
+                mixed_qkv_spec,
+                conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=spec_state_indices_tensor[:, 0][
+                    : attn_metadata.num_spec_decodes
+                ],
+                num_accepted_tokens=num_accepted_tokens,
+                query_start_loc=spec_query_start_loc,
+                max_query_len=spec_state_indices_tensor.size(-1),
+                validate_data=False,
+            )
+
+        # 1.2: Process the remaining part
+        if attn_metadata.num_prefills > 0:
+            mixed_qkv_non_spec_T = mixed_qkv_non_spec.transpose(0, 1)
+            # - "cache_indices" updates the conv_state cache in positions
+            #   pointed to by "state_indices_tensor"
+            mixed_qkv_non_spec = causal_conv1d_fn(
+                mixed_qkv_non_spec_T,
+                conv_weights,
+                self.conv1d.bias,
+                activation=self.activation,
+                conv_states=conv_state,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+        elif attn_metadata.num_decodes > 0:
+            mixed_qkv_non_spec = causal_conv1d_update(
+                mixed_qkv_non_spec,
+                conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=non_spec_state_indices_tensor[
+                    : attn_metadata.num_actual_tokens
+                ],
+                validate_data=True,
+            )
+        else:
+            mixed_qkv_non_spec = None
+
+        query_spec, key_spec, value_spec = self.rearrange_mixed_qkv(mixed_qkv_spec)
+        query_non_spec, key_non_spec, value_non_spec = self.rearrange_mixed_qkv(
+            mixed_qkv_non_spec
+        )
+
+        g, beta = fused_gdn_gating(self.A_log, a, b, self.dt_bias)
+
+        if spec_sequence_masks is not None:
+            if attn_metadata.num_prefills == 0 and attn_metadata.num_decodes == 0:
+                g_spec = g
+                beta_spec = beta
+                g_non_spec = None
+                beta_non_spec = None
+            else:
+                g_spec = g.index_select(1, spec_token_indx)
+                beta_spec = beta.index_select(1, spec_token_indx)
+                g_non_spec = g.index_select(1, non_spec_token_indx)
+                beta_non_spec = beta.index_select(1, non_spec_token_indx)
+        else:
+            g_spec = None
+            beta_spec = None
+            g_non_spec = g
+            beta_non_spec = beta
+
+        # 2. Recurrent attention
+
+        # 2.1: Process the multi-query part
+        if spec_sequence_masks is not None:
+            core_attn_out_spec, last_recurrent_state = fused_recurrent_gated_delta_rule(
+                q=query_spec,
+                k=key_spec,
+                v=value_spec,
+                g=g_spec,
+                beta=beta_spec,
+                initial_state=ssm_state,
+                inplace_final_state=True,
+                cu_seqlens=spec_query_start_loc[: attn_metadata.num_spec_decodes + 1],
+                ssm_state_indices=spec_state_indices_tensor,
+                num_accepted_tokens=num_accepted_tokens,
+                use_qk_l2norm_in_kernel=True,
+            )
+        else:
+            core_attn_out_spec, last_recurrent_state = None, None
+
+        # 2.2: Process the remaining part
+        if attn_metadata.num_prefills > 0:
+            initial_state = ssm_state[non_spec_state_indices_tensor].contiguous()
+            initial_state[~has_initial_state, ...] = 0
+            (
+                core_attn_out_non_spec,
+                last_recurrent_state,
+            ) = chunk_gated_delta_rule(
+                q=query_non_spec,
+                k=key_non_spec,
+                v=value_non_spec,
+                g=g_non_spec,
+                beta=beta_non_spec,
+                initial_state=initial_state,
+                output_final_state=True,
+                cu_seqlens=non_spec_query_start_loc,
+                head_first=False,
+                use_qk_l2norm_in_kernel=True,
+            )
+            # Init cache
+            ssm_state[non_spec_state_indices_tensor] = last_recurrent_state.to(
+                ssm_state.dtype
+            )
+        elif attn_metadata.num_decodes > 0:
+            core_attn_out_non_spec, last_recurrent_state = (
+                fused_recurrent_gated_delta_rule(
+                    q=query_non_spec,
+                    k=key_non_spec,
+                    v=value_non_spec,
+                    g=g_non_spec,
+                    beta=beta_non_spec,
+                    initial_state=ssm_state,
+                    inplace_final_state=True,
+                    cu_seqlens=non_spec_query_start_loc[
+                        : attn_metadata.num_decodes + 1
+                    ],
+                    ssm_state_indices=non_spec_state_indices_tensor,
+                    use_qk_l2norm_in_kernel=True,
+                )
+            )
+        else:
+            core_attn_out_non_spec, last_recurrent_state = None, None
+
+        # 3. Merge core attention output
+        if spec_sequence_masks is not None and core_attn_out_non_spec is not None:
+            merged_out = torch.empty(
+                (1, num_actual_tokens, *core_attn_out_spec.shape[2:]),
+                dtype=core_attn_out_non_spec.dtype,
+                device=core_attn_out_non_spec.device,
+            )
+            merged_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
+            merged_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
+            core_attn_out[:num_actual_tokens] = merged_out.squeeze(0)
+        elif spec_sequence_masks is not None:
+            core_attn_out[:num_actual_tokens] = core_attn_out_spec.squeeze(0)
+        else:
+            core_attn_out[:num_actual_tokens] = core_attn_out_non_spec.squeeze(0)
+
+
+class Qwen3NextAttention(nn.Module):
+    def __init__(
+        self,
+        config: Qwen3NextConfig,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = config.head_dim or (self.hidden_size // self.num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+        self.attn_output_gate = getattr(config, "attn_output_gate", True)
+
+        self.qkv_proj = QKVParallelLinear(
+            config.hidden_size,
+            self.head_dim,
+            self.total_num_heads * (1 + self.attn_output_gate),
+            self.total_num_kv_heads,
+            bias=getattr(config, "qkv_bias", False),
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            head_size=self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=config.max_position_embeddings,
+            base=config.rope_theta,
+            rope_scaling=config.rope_scaling,
+            partial_rotary_factor=config.partial_rotary_factor,
+            dual_chunk_attention_config=self.dual_chunk_attention_config,
+        )
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": self.dual_chunk_attention_config,
+            }
+            if self.dual_chunk_attention_config
+            else {},
+        )
+
+        self.q_norm = Qwen3NextRMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = Qwen3NextRMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        output: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ):
+        qkv, _ = self.qkv_proj(hidden_states)
+
+        if self.attn_output_gate:
+            q_gate, k, v = qkv.split(
+                [self.q_size * 2, self.kv_size, self.kv_size], dim=-1
+            )
+            orig_shape = q_gate.shape[:-1]
+            q_gate = q_gate.view(*orig_shape, self.num_heads, -1)
+            q, gate = torch.chunk(q_gate, 2, dim=-1)
+            q = q.reshape(*orig_shape, -1)
+            gate = gate.reshape(*orig_shape, -1)
+        else:
+            q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q = self.q_norm(q.view(-1, self.num_heads, self.head_dim)).view(
+            -1, self.num_heads * self.head_dim
+        )
+        k = self.k_norm(k.view(-1, self.num_kv_heads, self.head_dim)).view(
+            -1, self.num_kv_heads * self.head_dim
+        )
+
+        q, k = self.rotary_emb(positions, q, k)
+
+        attn_output = self.attn(q, k, v)
+
+        if self.attn_output_gate:
+            gate = torch.sigmoid(gate)
+            attn_output = attn_output * gate
+
+        output[:], _ = self.o_proj(attn_output)
+
+
+class Qwen3NextDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        layer_type: str,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        speculative_config = vllm_config.speculative_config
+
+        self.layer_type = layer_type
+        self.layer_idx = extract_layer_index(prefix)
+
+        if self.layer_type == "linear_attention":
+            self.linear_attn = Qwen3NextGatedDeltaNet(
+                config,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                speculative_config=speculative_config,
+                prefix=f"{prefix}.linear_attn",
+            )
+        elif self.layer_type == "full_attention":
+            self.self_attn = Qwen3NextAttention(
+                config,
+                model_config=model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.self_attn",
+            )
+        else:
+            raise ValueError(f"Invalid layer_type {self.layer_type}")
+
+        mlp_only_layers = (
+            [] if not hasattr(config, "mlp_only_layers") else config.mlp_only_layers
+        )
+        if (self.layer_idx not in mlp_only_layers) and (
+            config.num_experts > 0
+            and (self.layer_idx + 1) % config.decoder_sparse_step == 0
+        ):
+            self.mlp = Qwen3NextSparseMoeBlock(
+                vllm_config=vllm_config,
+                prefix=f"{prefix}.mlp",
+            )
+        else:
+            self.mlp = Qwen3NextMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+            )
+
+        self.input_layernorm = Qwen3NextRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_attention_layernorm = Qwen3NextRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.layer_scale = getattr(config, "layer_scale", False)
+        if self.layer_scale:
+            self.attn_layer_scale = torch.nn.Parameter(
+                torch.zeros(
+                    1,
+                    1,
+                    config.hidden_size,
+                    dtype=config.dtype,
+                ),
+            )
+            self.ffn_layer_scale = torch.nn.Parameter(
+                torch.zeros(
+                    1,
+                    1,
+                    config.hidden_size,
+                    dtype=config.dtype,
+                ),
+            )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        positions: torch.Tensor = None,
+        **kwargs: object,
+    ):
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        self_attention_output = torch.empty_like(hidden_states)
+        if self.layer_type == "linear_attention":
+            self.linear_attn(
+                hidden_states=hidden_states,
+                output=self_attention_output,
+            )
+        elif self.layer_type == "full_attention":
+            self.self_attn(
+                hidden_states=hidden_states,
+                output=self_attention_output,
+                positions=positions,
+            )
+        else:
+            raise ValueError("Invalid layer_type")
+        hidden_states = self_attention_output
+
+        if self.layer_scale:
+            if len(hidden_states.shape) == 2:
+                hidden_states = hidden_states * (
+                    self.attn_layer_scale.to(hidden_states.dtype)[0] + 1
+                )
+            else:
+                hidden_states = hidden_states * (
+                    self.attn_layer_scale.to(hidden_states.dtype) + 1
+                )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+
+        if self.layer_scale:
+            if len(hidden_states.shape) == 2:
+                hidden_states = hidden_states * (
+                    self.ffn_layer_scale.to(hidden_states.dtype)[0] + 1
+                )
+            else:
+                assert len(hidden_states.shape) == len(self.ffn_layer_scale.shape), (
+                    f"shape must be the same {len(hidden_states.shape)}, "
+                    f"{len(self.ffn_layer_scale.shape)}"
+                )
+                hidden_states = hidden_states * (
+                    self.ffn_layer_scale.to(hidden_states.dtype) + 1
+                )
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Qwen3NextModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: Qwen3NextConfig = vllm_config.model_config.hf_config
+        parallel_config = vllm_config.parallel_config
+
+        eplb_config = parallel_config.eplb_config
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        def get_layer(prefix: str):
+            return Qwen3NextDecoderLayer(
+                vllm_config,
+                layer_type=config.layer_types[extract_layer_index(prefix)],
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers"
+        )
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = Qwen3NextRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            if name.startswith("mtp."):
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                if "mlp.experts" in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                # name = apply_attn_prefix(name, params_dict)
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class QwenNextMixtureOfExperts(MixtureOfExperts):
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, Qwen3NextSparseMoeBlock):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+            if isinstance(layer, Qwen3NextDecoderLayer) and isinstance(
+                layer.mlp, Qwen3NextSparseMoeBlock
+            ):
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+            if example_moe is None:
+                raise RuntimeError("No Qwen3Next layer found in the model.layers.")
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = len(self.moe_layers)
+        self.num_expert_groups = 1
+        self.num_shared_experts = 0
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.num_routed_experts = example_moe.n_routed_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+
+
+class Qwen3NextForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    QwenNextMixtureOfExperts,
+    IsHybrid,
+):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+
+        scheduler_config = vllm_config.scheduler_config
+        assert not cache_config.enable_prefix_caching, (
+            "Qwen3Next currently does not support prefix caching"
+        )
+        self.quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = Qwen3NextModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+        return hidden_states
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.gated_delta_net_state_dtype(
+            vllm_config.model_config.dtype, vllm_config.cache_config.mamba_cache_dtype
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls, vllm_config: "VllmConfig"
+    ) -> tuple[tuple[int, int], tuple[int, int]]:
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        tp_size = parallel_config.tensor_parallel_size
+        num_spec = (
+            vllm_config.speculative_config.num_speculative_tokens
+            if vllm_config.speculative_config
+            else 0
+        )
+        return MambaStateShapeCalculator.gated_delta_net_state_shape(
+            tp_size,
+            hf_config.linear_num_key_heads,
+            hf_config.linear_num_value_heads,
+            hf_config.linear_key_head_dim,
+            hf_config.linear_value_head_dim,
+            hf_config.linear_conv_kernel_dim,
+            num_spec,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.logits_processor(self.lm_head, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=["mtp."],
+        )
+        return loader.load_weights(weights)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
+
+
+def gdn_attention_core(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
+    layer_name: str,
+) -> None:
+    """
+    Custom op for the core attention computation.
+    Only handles the convolution + recurrent attention part.
+    Input/output projections are handled outside this op.
+    """
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self._forward_core(
+        mixed_qkv=mixed_qkv,
+        b=b,
+        a=a,
+        core_attn_out=core_attn_out,
+    )
+
+
+def gdn_attention_core_fake(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
+    layer_name: str,
+) -> None:
+    """Fake implementation for torch.compile."""
+    return
+
+
+direct_register_custom_op(
+    op_name="gdn_attention_core",
+    op_func=gdn_attention_core,
+    mutates_args=["core_attn_out"],
+    fake_impl=gdn_attention_core_fake,
+)
+
+
+@triton.jit
+def fused_gdn_gating_kernel(
+    g,
+    beta_output,
+    A_log,
+    a,
+    b,
+    dt_bias,
+    seq_len,
+    NUM_HEADS: tl.constexpr,
+    beta: tl.constexpr,
+    threshold: tl.constexpr,
+    BLK_HEADS: tl.constexpr,
+):
+    i_b, i_s, i_d = tl.program_id(0), tl.program_id(1), tl.program_id(2)
+    head_off = i_d * BLK_HEADS + tl.arange(0, BLK_HEADS)
+    off = i_b * seq_len * NUM_HEADS + i_s * NUM_HEADS + head_off
+    mask = head_off < NUM_HEADS
+    blk_A_log = tl.load(A_log + head_off, mask=mask)
+    blk_a = tl.load(a + off, mask=mask)
+    blk_b = tl.load(b + off, mask=mask)
+    blk_bias = tl.load(dt_bias + head_off, mask=mask)
+    # If the model is loaded in fp16, without the .float() here, A might be -inf
+    x = blk_a.to(tl.float32) + blk_bias.to(tl.float32)
+    softplus_x = tl.where(
+        beta * x <= threshold, (1 / beta) * tl.log(1 + tl.exp(beta * x)), x
+    )
+    blk_g = -tl.exp(blk_A_log.to(tl.float32)) * softplus_x
+    tl.store(g + off, blk_g.to(g.dtype.element_ty), mask=mask)
+    # compute beta_output = sigmoid(b)
+    blk_beta_output = tl.sigmoid(blk_b.to(tl.float32))
+    tl.store(
+        beta_output + off, blk_beta_output.to(beta_output.dtype.element_ty), mask=mask
+    )
+
+
+def fused_gdn_gating(
+    A_log: torch.Tensor,
+    a: torch.Tensor,
+    b: torch.Tensor,
+    dt_bias: torch.Tensor,
+    beta: float = 1.0,
+    threshold: float = 20.0,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Fused computation of g and beta for Gated Delta Net.
+    g = -self.A_log.float().exp() * F.softplus(a.float() + self.dt_bias)
+    beta_output = b.sigmoid()
+    TODO maybe use torch.compile to replace this triton kernel
+    """
+    batch, num_heads = a.shape
+    seq_len = 1
+    grid = (batch, seq_len, triton.cdiv(num_heads, 8))
+    g = torch.empty(1, batch, num_heads, dtype=torch.float32, device=a.device)
+    beta_output = torch.empty(1, batch, num_heads, dtype=b.dtype, device=b.device)
+    fused_gdn_gating_kernel[grid](
+        g,
+        beta_output,
+        A_log,
+        a,
+        b,
+        dt_bias,
+        seq_len,
+        num_heads,
+        beta,
+        threshold,
+        8,
+        num_warps=1,
+    )
+    return g, beta_output
diff --git a/model_executor/models/qwen3_next_mtp.py b/model_executor/models/qwen3_next_mtp.py
new file mode 100644
index 0000000..83694ca
--- /dev/null
+++ b/model_executor/models/qwen3_next_mtp.py
@@ -0,0 +1,296 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Qwen3Next MTP model."""
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.linear import ColumnParallelLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.qwen3_next import (
+    Qwen3NextDecoderLayer,
+    Qwen3NextRMSNorm,
+    QwenNextMixtureOfExperts,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import Qwen3NextConfig
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+KVCache = tuple[torch.Tensor, torch.Tensor]
+
+
+@support_torch_compile
+class Qwen3NextMultiTokenPredictor(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        model_config = vllm_config.model_config
+        quant_config = vllm_config.quant_config
+
+        config: Qwen3NextConfig = model_config.hf_config
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = getattr(config, "num_nextn_predict_layers", 1)
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        self.fc = ColumnParallelLinear(
+            self.config.hidden_size * 2,
+            self.config.hidden_size,
+            gather_output=True,
+            bias=False,
+            return_bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc",
+        )
+
+        self.layers = torch.nn.ModuleList(
+            Qwen3NextDecoderLayer(
+                vllm_config,
+                layer_type="full_attention",
+                prefix=f"{prefix}.layers.{idx}",
+            )
+            for idx in range(self.num_mtp_layers)
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+        self.norm = Qwen3NextRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.pre_fc_norm_hidden = Qwen3NextRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.pre_fc_norm_embedding = Qwen3NextRMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is None:
+                inputs_embeds = self.embed_input_ids(input_ids)
+            assert hidden_states.shape[-1] == inputs_embeds.shape[-1]
+            inputs_embeds = self.pre_fc_norm_embedding(inputs_embeds)
+            hidden_states = self.pre_fc_norm_hidden(hidden_states)
+            hidden_states = torch.cat([inputs_embeds, hidden_states], dim=-1)
+            hidden_states = self.fc(hidden_states)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        current_step_idx = spec_step_idx % self.num_mtp_layers
+        hidden_states, residual = self.layers[current_step_idx](
+            positions=positions,
+            hidden_states=hidden_states,
+            residual=residual,
+        )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                if "mlp.experts" in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@support_torch_compile
+class Qwen3NextMTP(nn.Module, SupportsPP, QwenNextMixtureOfExperts):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": ["up_proj", "down_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        cache_config = vllm_config.cache_config
+        assert not cache_config.enable_prefix_caching, (
+            "Qwen3NextMTP currently does not support prefix caching"
+        )
+
+        self.quant_config = vllm_config.quant_config
+
+        super().__init__()
+        self.config = config
+        self.model = Qwen3NextMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "mtp")
+        )
+
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        self.set_moe_parameters()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, hidden_states, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.logits_processor(self.lm_head, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        shared_weight_names = ["embed_tokens", "lm_head"]
+
+        def remap_weight_names(weights):
+            for name, weight in weights:
+                if name.startswith("mtp."):
+                    name = name.replace("mtp.", "model.")
+                elif not any(key in name for key in shared_weight_names):
+                    continue
+                yield name, weight
+
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(remap_weight_names(weights))
diff --git a/model_executor/models/qwen3_omni_moe_thinker.py b/model_executor/models/qwen3_omni_moe_thinker.py
new file mode 100644
index 0000000..40b80ce
--- /dev/null
+++ b/model_executor/models/qwen3_omni_moe_thinker.py
@@ -0,0 +1,1721 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen3-Omni-Moe model (thinker part)."""
+
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from functools import partial
+from typing import Any
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from packaging.version import Version
+from transformers import PretrainedConfig
+from transformers import __version__ as TRANSFORMERS_VERSION
+from transformers.feature_extraction_utils import BatchFeature
+from transformers.models.qwen3_omni_moe.configuration_qwen3_omni_moe import (
+    Qwen3OmniMoeConfig,
+    Qwen3OmniMoeThinkerConfig,
+)
+from transformers.models.qwen3_omni_moe.modeling_qwen3_omni_moe import (
+    Qwen3OmniMoeAudioEncoder,
+)
+from transformers.models.qwen3_omni_moe.processing_qwen3_omni_moe import (
+    Qwen3OmniMoeProcessor,
+)
+from transformers.models.whisper import WhisperFeatureExtractor
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import check_upstream_fa_availability
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
+from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.qwen2_audio import Qwen2AudioProcessingInfo
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalKwargsItems
+from vllm.multimodal.parse import AudioProcessorItems, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    MultiModalPromptUpdates,
+    PlaceholderFeaturesInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .qwen2_5_omni_thinker import (
+    Qwen2_5OmniAudioFeatureInputs,
+    Qwen2_5OmniConditionalGenerationMixin,
+    Qwen2_5OmniThinkerDummyInputsBuilder,
+    Qwen2_5OmniThinkerMultiModalProcessor,
+    Qwen2_5OmniThinkerProcessingInfo,
+)
+from .qwen2_5_vl import (
+    Qwen2_5_VisionAttention,
+    Qwen2_5_VisionRotaryEmbedding,
+    Qwen2_5_VLProcessingInfo,
+)
+from .qwen3_moe import Qwen3MoeForCausalLM, Qwen3MoeModel
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    _merge_multimodal_embeddings,
+    maybe_prefix,
+)
+from .vision import (
+    get_llm_pos_ids_for_vision,
+    get_vit_attn_backend,
+)
+
+try:
+    import flash_attn
+except (ImportError, ModuleNotFoundError):
+    flash_attn = None
+
+logger = init_logger(__name__)
+
+
+def _get_feat_extract_output_lengths(input_lengths: torch.Tensor):
+    input_lengths_leave = input_lengths % 100
+    feat_lengths = (input_lengths_leave - 1) // 2 + 1
+    output_lengths = (
+        ((feat_lengths - 1) // 2 + 1 - 1) // 2 + 1 + (input_lengths // 100) * 13
+    )
+    return feat_lengths, output_lengths
+
+
+class Qwen3_VisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        temporal_patch_size: int = 2,
+        in_channels: int = 3,
+        hidden_size: int = 1152,
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.temporal_patch_size = temporal_patch_size
+        self.hidden_size = hidden_size
+
+        kernel_size = (temporal_patch_size, patch_size, patch_size)
+        self.proj = Conv3dLayer(
+            in_channels,
+            hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
+            bias=True,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
+        return x
+
+
+class Qwen3_VisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        bias: bool = False,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.linear_fc1 = ColumnParallelLinear(
+            in_features,
+            hidden_features,
+            bias=bias,
+            quant_config=quant_config,
+            return_bias=False,
+            prefix=f"{prefix}.linear_fc1",
+        )
+        self.linear_fc2 = RowParallelLinear(
+            hidden_features,
+            in_features,
+            bias=bias,
+            quant_config=quant_config,
+            return_bias=False,
+            prefix=f"{prefix}.linear_fc2",
+        )
+        self.act_fn = act_fn
+
+    def forward(self, x: torch.Tensor):
+        mlp_output = self.linear_fc2(self.act_fn(self.linear_fc1(x)))
+        return mlp_output
+
+
+class Qwen3_VisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_hidden_dim: int,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        self.attn = Qwen2_5_VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+        self.mlp = Qwen3_VisionMLP(
+            dim,
+            mlp_hidden_dim,
+            act_fn=act_fn,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: torch.Tensor,  # Only used for Flash Attention
+        seqlens: torch.Tensor,  # Only used for xFormers
+    ) -> torch.Tensor:
+        x = x + self.attn(
+            self.norm1(x),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+
+        x = x + self.mlp(self.norm2(x))
+        return x
+
+
+class Qwen3_VisionPatchMerger(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        context_dim: int,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        spatial_merge_size: int = 2,
+        use_postshuffle_norm: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = context_dim * (spatial_merge_size**2)
+
+        self.use_postshuffle_norm = use_postshuffle_norm
+        if self.use_postshuffle_norm:
+            context_dim = self.hidden_size
+
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.use_postshuffle_norm = use_postshuffle_norm
+        self.ln_q = norm_layer(
+            self.hidden_size if use_postshuffle_norm else context_dim
+        )
+        self.mlp = nn.ModuleList(
+            [
+                ColumnParallelLinear(
+                    self.hidden_size,
+                    self.hidden_size,
+                    bias=True,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp.0",
+                ),
+                nn.GELU(),
+                RowParallelLinear(
+                    self.hidden_size,
+                    d_model,
+                    bias=True,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp.2",
+                ),
+            ]
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        if self.use_postshuffle_norm:
+            x = self.ln_q(x.view(-1, self.hidden_size))
+        else:
+            x = self.ln_q(x).view(-1, self.hidden_size)
+
+        mlp_fc1, mlp_act, mlp_fc2 = self.mlp
+        x_parallel, _ = mlp_fc1(x)
+        x_parallel = mlp_act(x_parallel)
+        out, _ = mlp_fc2(x_parallel)
+        return out
+
+
+class Qwen3Omni_VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = vision_config.hidden_size
+        self.num_heads = vision_config.num_heads
+        self.image_size = vision_config.image_size
+        self.patch_size = vision_config.patch_size
+        self.spatial_merge_size = vision_config.spatial_merge_size
+        self.spatial_merge_unit = self.spatial_merge_size**2
+        self.temporal_patch_size = vision_config.temporal_patch_size
+        self.num_grid_per_side = self.image_size // self.patch_size
+        self.apply_vit_abs_pos_embed = vision_config.apply_vit_abs_pos_embed
+        self.deepstack_visual_indexes = vision_config.deepstack_visual_indexes
+
+        self.patch_embed = Qwen3_VisionPatchEmbed(
+            patch_size=self.patch_size,
+            temporal_patch_size=self.temporal_patch_size,
+            in_channels=vision_config.in_channels,
+            hidden_size=self.hidden_size,
+        )
+
+        # vit pos embeding, TODO: spatial_patch_size vs patch_size
+        if self.apply_vit_abs_pos_embed:
+            self.pos_embed = nn.Embedding(self.num_grid_per_side**2, self.hidden_size)
+        else:
+            self.pos_embed = nn.Parameter(
+                torch.empty([1, self.num_grid_per_side**2, self.hidden_size])
+            )
+
+        norm_layer = partial(nn.LayerNorm, eps=norm_eps)
+        head_dim = self.hidden_size // self.num_heads
+        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+
+        self.blocks = nn.ModuleList(
+            [
+                Qwen3_VisionBlock(
+                    dim=self.hidden_size,
+                    num_heads=self.num_heads,
+                    mlp_hidden_dim=vision_config.intermediate_size,
+                    act_fn=_ACTIVATION_REGISTRY[vision_config.hidden_act],
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                )
+                for layer_idx in range(vision_config.depth)
+            ]
+        )
+        self.merger = Qwen3_VisionPatchMerger(
+            d_model=vision_config.out_hidden_size,
+            context_dim=self.hidden_size,
+            norm_layer=norm_layer,
+            spatial_merge_size=self.spatial_merge_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.merger",
+        )
+        if self.deepstack_visual_indexes is not None:
+            self.merger_list = nn.ModuleList(
+                [
+                    Qwen3_VisionPatchMerger(
+                        d_model=vision_config.out_hidden_size,
+                        context_dim=self.hidden_size,
+                        spatial_merge_size=self.spatial_merge_size,
+                        use_postshuffle_norm=True,
+                        norm_layer=norm_layer,
+                        quant_config=quant_config,
+                        prefix=f"{prefix}.merger_list.{layer_idx}",
+                    )
+                    for layer_idx in range(len(self.deepstack_visual_indexes))
+                ]
+            )
+
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    def rot_pos_emb(self, grid_thw):
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            hpos_ids = hpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
+            hpos_ids = hpos_ids.flatten()
+
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            wpos_ids = wpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
+            wpos_ids = wpos_ids.flatten()
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        pos_ids = torch.cat(pos_ids, dim=0)
+        max_grid_size = grid_thw[:, 1:].max()
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def fast_pos_embed_interpolate(self, grid_thw: list[list[int]]) -> torch.Tensor:
+        num_grid_per_side = self.num_grid_per_side
+        m_size = self.spatial_merge_size
+        hidden_dim = self.pos_embed.embedding_dim
+
+        outputs = []
+        for t, h, w in grid_thw:
+            h_idxs = torch.linspace(
+                0, num_grid_per_side - 1, h, dtype=torch.float32, device=self.device
+            )
+            w_idxs = torch.linspace(
+                0, num_grid_per_side - 1, w, dtype=torch.float32, device=self.device
+            )
+
+            h_floor = h_idxs.to(torch.long)
+            w_floor = w_idxs.to(torch.long)
+            h_ceil = torch.clamp(h_floor + 1, max=num_grid_per_side - 1)
+            w_ceil = torch.clamp(w_floor + 1, max=num_grid_per_side - 1)
+
+            dh = h_idxs - h_floor
+            dw = w_idxs - w_floor
+
+            # Create meshgrid view for all h, w vars
+            dh_grid, dw_grid = torch.meshgrid(dh, dw, indexing="ij")
+            h_floor_grid, w_floor_grid = torch.meshgrid(h_floor, w_floor, indexing="ij")
+            h_ceil_grid, w_ceil_grid = torch.meshgrid(h_ceil, w_ceil, indexing="ij")
+            h_floor_grid_idx = h_floor_grid * num_grid_per_side
+            h_ceil_grid_idx = h_ceil_grid * num_grid_per_side
+
+            # original computation of weights
+            # w00 = (1 - dh_grid) * (1 - dw_grid)
+            # w01 = (1 - dh_grid) * dw_grid
+            # w10 = dh_grid * (1 - dw_grid)
+            # w11 = dh_grid * dw_grid
+            # we reuse w11 here to avoid duplicate
+            # dh_grid * dw_grid computation
+            w11 = dh_grid * dw_grid
+            w10 = dh_grid - w11
+            w01 = dw_grid - w11
+            w00 = 1 - dh_grid - dw_grid + w11
+
+            idx00 = h_floor_grid_idx + w_floor_grid
+            idx01 = h_floor_grid_idx + w_ceil_grid
+            idx10 = h_ceil_grid_idx + w_floor_grid
+            idx11 = h_ceil_grid_idx + w_ceil_grid
+
+            indices = torch.stack([idx00, idx01, idx10, idx11], dim=0).reshape(4, -1)
+            weights = torch.stack([w00, w01, w10, w11], dim=0).reshape(4, -1, 1)
+            weights = weights.to(dtype=self.dtype, device=self.device)
+
+            embeds = self.pos_embed(indices)
+            weighted_embeds = embeds * weights
+            p0, p1, p2, p3 = weighted_embeds.unbind(dim=0)
+            combined = p0 + p1 + p2 + p3
+
+            combined = combined.view(h * w, hidden_dim)
+            repeated = combined.unsqueeze(0).expand(t, -1, -1).contiguous()
+            repeated = repeated.view(
+                t, h // m_size, m_size, w // m_size, m_size, hidden_dim
+            )
+            repeated = repeated.permute(0, 1, 3, 2, 4, 5).reshape(-1, hidden_dim)
+            outputs.append(repeated)
+
+        return torch.cat(outputs, dim=0)
+
+    def compute_attn_mask_seqlen(
+        self,
+        cu_seqlens: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        max_seqlen = torch.zeros([], device=cu_seqlens.device)
+        seqlens = torch.zeros(1, device=cu_seqlens.device)
+        if self.attn_backend == AttentionBackendEnum.FLASH_ATTN:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
+        return max_seqlen, seqlens
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        grid_thw: list[list[int]],
+    ) -> torch.Tensor:
+        hidden_states = x.to(device=self.device, dtype=self.dtype)
+        hidden_states = self.patch_embed(hidden_states)
+
+        if self.apply_vit_abs_pos_embed:
+            pos_embeds = self.fast_pos_embed_interpolate(grid_thw)
+            hidden_states = hidden_states + pos_embeds
+        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(
+            dim=0,
+            dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32,
+        )
+        cu_seqlens = F.pad(cu_seqlens, (1, 0), value=0)
+
+        hidden_states = hidden_states.unsqueeze(1)
+        rotary_pos_emb = rotary_pos_emb.to(hidden_states.device)
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+
+        hidden_states_list = []
+        deepstack_visual_indexes = self.deepstack_visual_indexes
+
+        for layer_num, blk in enumerate(self.blocks):
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+            if (
+                deepstack_visual_indexes is not None
+                and layer_num in deepstack_visual_indexes
+            ):
+                hidden_states_list.append(hidden_states)
+
+        hidden_states = self.merger(hidden_states)
+
+        # processing deepstack
+        if deepstack_visual_indexes is not None:
+            processed_hidden_states_list = [hidden_states]
+            for idx, x in enumerate(hidden_states_list):
+                x = self.merger_list[idx](x)
+                processed_hidden_states_list.append(x)
+            # we cat the original visual features and deepstack features
+            # along the feature dim
+            hidden_states = torch.cat(
+                processed_hidden_states_list, dim=1
+            )  # [seq_len, hidden_size * (1 + depth_of_deepstack)]
+
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("attn.qkv.", "attn.q.", "q"),
+            ("attn.qkv.", "attn.k.", "k"),
+            ("attn.qkv.", "attn.v.", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+        "deepstack_input_embeds": 0,
+    }
+)
+class Qwen3MoeLLMModel(Qwen3MoeModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        self.deepstack_multiscale_layer_start = 1
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        deepstack_input_embeds: IntermediateTensors | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer_idx, layer in enumerate(
+            self.layers[self.start_layer : self.end_layer]
+        ):
+            layer_idx = layer_idx + self.start_layer
+
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+            if deepstack_input_embeds is not None and layer_idx in range(
+                0, len(deepstack_input_embeds)
+            ):
+                hidden_states = (
+                    hidden_states
+                    + deepstack_input_embeds[f"deepstack_input_embeds_{layer_idx}"]
+                )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class Qwen3MoeLLMForCausalLM(Qwen3MoeForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super(Qwen3MoeForCausalLM, self).__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Qwen3MoeLLMModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size, config.hidden_size, quant_config=quant_config
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+
+class Qwen3OmniMoeThinkerProcessingInfo(
+    Qwen2AudioProcessingInfo, Qwen2_5_VLProcessingInfo
+):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen3OmniMoeConfig).thinker_config
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen3OmniMoeProcessor:
+        processor = self.ctx.get_hf_processor(
+            Qwen3OmniMoeProcessor,
+            use_fast=kwargs.pop("use_fast", True),
+            **kwargs,
+        )
+        if not hasattr(processor, "audio_token"):
+            processor.audio_token = "<|audio_pad|>"
+        if not hasattr(processor, "image_token"):
+            processor.image_token = "<|image_pad|>"
+        if not hasattr(processor, "video_token"):
+            processor.video_token = "<|video_pad|>"
+        return processor
+
+    def get_feature_extractor(self, **kwargs: object):
+        hf_processor = self.get_hf_processor(**kwargs)
+        feature_extractor = hf_processor.feature_extractor  # type: ignore
+        assert isinstance(feature_extractor, WhisperFeatureExtractor)
+        return feature_extractor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None, "image": None, "video": None}
+
+
+Qwen3OmniMoeThinkerDummyInputsBuilder = Qwen2_5OmniThinkerDummyInputsBuilder
+
+
+class Qwen3OmniMoeThinkerMultiModalProcessor(
+    Qwen2_5OmniThinkerMultiModalProcessor,
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        audios = mm_data.pop("audios", [])
+
+        def pad_to_hop_length(x: np.ndarray, hop_length: int) -> np.ndarray:
+            length = x.shape[-1]
+            if length % hop_length != 0:
+                pad_length = hop_length - (length % hop_length)
+                x = np.pad(x, (0, pad_length), mode="constant", constant_values=0)
+            return x
+
+        # NOTE: WhisperFeatureExtractor cannot handle empty list of audios
+        feature_extractor = self.info.get_feature_extractor()
+        hop_length = feature_extractor.hop_length
+        if audios:
+            # NOTE: Qwen3-Omni processor accept "audio"
+            # To make sure the cache works with padding=True, we pre-padded
+            # the audio to multiple of hop_length.
+            mm_data["audio"] = [
+                pad_to_hop_length(audio, hop_length)
+                if isinstance(audio, np.ndarray)
+                else (pad_to_hop_length(audio[0], hop_length), audio[1])
+                for audio in audios
+            ]
+
+            # TODO(Isotr0py): Remove this patch after upstream fix PR
+            # released and Transformers version update:
+            # https://github.com/huggingface/transformers/pull/41473
+            mm_kwargs = dict(mm_kwargs)
+            tok_kwargs = dict(tok_kwargs)
+            if Version(TRANSFORMERS_VERSION) < Version("4.58.0"):
+                # move truncation to audio_kwargs level to avoid conflict
+                # with tok_kwargs
+                mm_kwargs["audio_kwargs"] = {
+                    "truncation": mm_kwargs.pop("truncation", False)
+                }
+                mm_kwargs["text_kwargs"] = {
+                    "truncation": tok_kwargs.pop("truncation", False)
+                }
+
+        hf_inputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        if (
+            "audio_feature_lengths" in hf_inputs
+            and "feature_attention_mask" in hf_inputs
+            and (audios := mm_data.get("audio", []))
+        ):
+            audio_num_frames = []
+            for _, audio in enumerate(audios):
+                audio_length = len(audio[0]) if isinstance(audio, tuple) else len(audio)
+                num_frame = (
+                    (audio_length // hop_length)
+                    if audio_length % hop_length == 0
+                    else (audio_length // hop_length - 1)
+                )
+                if mm_kwargs.get("truncation", False):
+                    num_frame = min(
+                        num_frame, feature_extractor.n_samples // hop_length
+                    )
+                audio_num_frames.append(num_frame)
+            hf_inputs["feature_attention_mask"] = [
+                torch.ones(num_frame) for num_frame in audio_num_frames
+            ]
+            hf_inputs["audio_feature_lengths"] = torch.tensor(audio_num_frames)
+        return hf_inputs
+
+    def _maybe_apply_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        prompt_ids: list[int],
+        mm_kwargs: MultiModalKwargsItems,
+        mm_prompt_updates: MultiModalPromptUpdates,
+        is_update_applied: bool,
+    ) -> tuple[list[int], str, Mapping[str, list[PlaceholderFeaturesInfo]]]:
+        """
+        Qwen3-Omni reimplements this function to handle `use_audio_in_video`.
+        """
+        mm_item_counts = mm_items.get_all_counts()
+        self._validate_mm_kwargs(mm_kwargs, mm_item_counts)
+
+        use_audio_in_video = False
+        if "video" in mm_kwargs:
+            for item in mm_kwargs["video"]:
+                if item and item["use_audio_in_video"].data:
+                    use_audio_in_video = True
+                else:
+                    use_audio_in_video = False
+
+        if use_audio_in_video and "video" in mm_item_counts:
+            assert "audio" in mm_item_counts
+            mm_item_counts["audio"] -= mm_item_counts["video"]
+
+        # Special case with `use_audio_in_video=True`
+        if use_audio_in_video:
+            if is_update_applied:
+                prompt_ids = self._get_raw_input_ids(prompt_ids, use_audio_in_video)
+            (
+                prompt_ids,
+                mm_placeholders,
+            ) = self._apply_prompt_updates(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(mm_placeholders, mm_item_counts)
+        # normal case with `use_audio_in_video=False`
+        elif is_update_applied:
+            mm_placeholders = self._find_mm_placeholders(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(
+                mm_placeholders,
+                mm_item_counts,
+            )
+        else:
+            prompt_ids, mm_placeholders = self._apply_prompt_updates(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(
+                mm_placeholders,
+                mm_item_counts,
+            )
+
+        return prompt_ids, mm_placeholders
+
+    def get_updates_use_audio_in_video(
+        self,
+        thinker_config: PretrainedConfig,
+        audio_len: int,
+        video_grid_thw: list[int] | torch.Tensor,
+        video_second_per_grid_t: float,
+    ) -> list[int]:
+        shift = 0
+        audio_token_id = thinker_config.audio_token_id
+        video_token_id = thinker_config.video_token_id
+        audio_start_token_id = thinker_config.audio_start_token_id
+        audio_end_token_id = thinker_config.audio_end_token_id
+        spatial_merge_size = thinker_config.vision_config.spatial_merge_size
+        position_id_per_seconds = thinker_config.position_id_per_seconds
+        audio_token_indices = np.arange(next(iter([audio_len])))
+        curr_video_grid_thw = next(iter([video_grid_thw]))
+        height = curr_video_grid_thw[1] // spatial_merge_size
+        width = curr_video_grid_thw[2] // spatial_merge_size
+        video_token_indices = np.arange(curr_video_grid_thw[0]).reshape(-1, 1, 1)
+        video_token_indices = np.broadcast_to(
+            video_token_indices, (video_token_indices.shape[0], height, width)
+        ).reshape(-1)
+        video_token_indices = (
+            (video_token_indices + shift)
+            * next(iter([video_second_per_grid_t]))
+            * position_id_per_seconds
+        )
+        video_data_index, audio_data_index = 0, 0
+        updates = [audio_start_token_id]
+        while video_data_index < len(video_token_indices) and audio_data_index < len(
+            audio_token_indices
+        ):
+            if (
+                video_token_indices[video_data_index]
+                <= audio_token_indices[audio_data_index]
+            ):
+                updates += [video_token_id]
+                video_data_index += 1
+            else:
+                updates += [audio_token_id]
+                audio_data_index += 1
+        if video_data_index < len(video_token_indices):
+            updates += [video_token_id] * (len(video_token_indices) - video_data_index)
+        if audio_data_index < len(audio_token_indices):
+            updates += [audio_token_id] * (len(audio_token_indices) - audio_data_index)
+        updates += [audio_end_token_id]
+        return updates
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        vocab = tokenizer.get_vocab()
+
+        audio_token = processor.audio_token
+        image_token = processor.image_token
+        video_token = processor.video_token
+        audio_token_id = vocab[audio_token]
+        image_token_id = vocab[image_token]
+        video_token_id = vocab[video_token]
+
+        out_mm_data = out_mm_kwargs.get_data()
+        audio_feature_lengths = out_mm_data.get("audio_feature_lengths")
+        feature_attention_mask = out_mm_data.get("feature_attention_mask")
+        if audio_feature_lengths is None and feature_attention_mask is None:
+            audio_output_lengths = []
+        elif audio_feature_lengths is not None:
+            _, audio_output_lens = _get_feat_extract_output_lengths(
+                audio_feature_lengths
+            )
+            audio_output_lengths = audio_output_lens.tolist()
+        elif feature_attention_mask is not None:
+            assert isinstance(feature_attention_mask, torch.Tensor)
+            _, audio_output_lens = _get_feat_extract_output_lengths(
+                feature_attention_mask.sum(-1)
+            )
+            audio_output_lengths = audio_output_lens.tolist()
+
+        # number of audios read from video.
+        audio_in_video_item_idx = 0
+        audio_item_idx = 0
+
+        def get_replacement_qwen2_audio(item_idx: int):
+            nonlocal audio_item_idx
+            item_idx += audio_in_video_item_idx
+
+            audio_item_idx += 1
+
+            num_features = audio_output_lengths[item_idx]
+            if num_features == 0:
+                audios = mm_items.get_items("audio", AudioProcessorItems)
+                audio = audios.get(item_idx)
+                raise ValueError(
+                    f"The audio {audio} (len={len(audio)}) is too short "
+                    "to be represented inside the model"
+                )
+
+            return [audio_token_id] * num_features
+
+        def get_replacement_qwen2_vision(item_idx: int, modality: str):
+            grid_thw = out_mm_data[f"{modality}_grid_thw"][item_idx]
+            assert isinstance(grid_thw, torch.Tensor)
+            merge_length = image_processor.merge_size**2
+
+            token_id = image_token_id if modality == "image" else video_token_id
+            return [token_id] * (int(grid_thw.prod()) // merge_length)
+
+        use_audio_in_video = hf_processor_mm_kwargs.get("use_audio_in_video", False)
+        thinker_config = self.info.get_hf_config()
+
+        def get_replacement_qwen2_use_audio_in_video(item_idx: int):
+            nonlocal audio_in_video_item_idx
+            audio_num_features = audio_output_lengths[audio_item_idx + item_idx]
+            video_grid_thw = out_mm_data["video_grid_thw"][item_idx]
+
+            audio_in_video_item_idx += 1
+
+            second_per_grid_ts = hf_processor_mm_kwargs.get("second_per_grid_ts", None)
+            if second_per_grid_ts:
+                video_second_per_grid_t = second_per_grid_ts[item_idx]
+            else:
+                video_second_per_grid_t = 1.0
+
+            return self.get_updates_use_audio_in_video(
+                thinker_config=thinker_config,
+                audio_len=audio_num_features,
+                video_grid_thw=video_grid_thw,
+                video_second_per_grid_t=video_second_per_grid_t,
+            )
+
+        video_replacement_fn = (
+            get_replacement_qwen2_use_audio_in_video
+            if use_audio_in_video
+            else partial(get_replacement_qwen2_vision, modality="video")
+        )
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=audio_token,
+                replacement=get_replacement_qwen2_audio,
+            ),
+            PromptReplacement(
+                modality="image",
+                target=image_token,
+                replacement=partial(get_replacement_qwen2_vision, modality="image"),
+            ),
+            PromptReplacement(
+                modality="video",
+                target=video_token,
+                replacement=video_replacement_fn,
+            ),
+        ]
+
+    def _validate_mm_placeholders(
+        self,
+        mm_placeholders: Mapping[str, list[PlaceholderFeaturesInfo]],
+        mm_item_counts: Mapping[str, int],
+    ) -> None:
+        BaseMultiModalProcessor[
+            Qwen2_5OmniThinkerProcessingInfo
+        ]._validate_mm_placeholders(self, mm_placeholders, mm_item_counts)
+
+    def _get_raw_input_ids(
+        self,
+        token_ids: list[int],
+        use_audio_in_video: bool = False,
+    ) -> list[int]:
+        tokenizer = self.info.get_tokenizer()
+        vision_bos_token = tokenizer.encode(tokenizer.vision_bos_token)[0]
+        vision_eos_token = tokenizer.encode(tokenizer.vision_eos_token)[0]
+        audio_bos_token = tokenizer.encode(tokenizer.audio_bos_token)[0]
+        audio_eos_token = tokenizer.encode(tokenizer.audio_eos_token)[0]
+        audio_token = tokenizer.encode("<|audio_pad|>")[0]
+        image_token = tokenizer.encode("<|image_pad|>")[0]
+        video_token = tokenizer.encode("<|video_pad|>")[0]
+
+        result = token_ids[:]
+        if use_audio_in_video:
+            while True:
+                start = None
+                for i in range(len(result) - 1):
+                    if result[i : i + 2] == [vision_bos_token, audio_bos_token]:
+                        start = i
+                        break
+                if start is not None:
+                    end = None
+                    for i in range(start + 2, len(result) - 1):
+                        if result[i : i + 2] == [audio_eos_token, vision_eos_token]:
+                            end = i
+                            break
+                    if end is not None:
+                        result = (
+                            result[:start]
+                            + [vision_bos_token, video_token, vision_eos_token]
+                            + result[end + 2 :]
+                        )
+                else:
+                    break
+
+        for mm_token in [audio_token, image_token, video_token]:
+            compressed = []
+            for x in result:
+                if x != mm_token or (not compressed or compressed[-1] != mm_token):
+                    compressed.append(x)
+            result = compressed
+
+        return result
+
+
+class Qwen3OmniMoeConditionalGenerationMixin(Qwen2_5OmniConditionalGenerationMixin):
+    def _process_audio_input(
+        self,
+        audio_input: Qwen2_5OmniAudioFeatureInputs,
+        audio_hashes: list[str] | None = None,
+        cached_audio_features: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        input_features = audio_input["input_features"]
+        audio_feature_lengths = audio_input["audio_feature_lengths"]
+
+        audio_feat_lengths, audio_output_lengths = _get_feat_extract_output_lengths(
+            audio_feature_lengths
+        )
+
+        audio_outputs = self.audio_tower(
+            input_features.to(self.audio_tower.dtype),
+            feature_lens=audio_feature_lengths,
+            aftercnn_lens=audio_feat_lengths,
+        )
+        audio_features = audio_outputs.last_hidden_state
+        return audio_features.split(audio_output_lengths.tolist())
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen3OmniMoeThinkerMultiModalProcessor,
+    info=Qwen3OmniMoeThinkerProcessingInfo,
+    dummy_inputs=Qwen3OmniMoeThinkerDummyInputsBuilder,
+)
+class Qwen3OmniMoeThinkerForConditionalGeneration(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsMRoPE,
+    Qwen3OmniMoeConditionalGenerationMixin,
+):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "thinker.lm_head.": "language_model.lm_head.",
+            "thinker.model.": "language_model.model.",
+            "thinker.": "",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|video_pad|><|vision_end|>"
+        if modality.startswith("audio"):
+            return "<|audio_start|><|audio_pad|><|audio_end|>"
+
+        raise ValueError("Only image, video or audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.vllm_config = vllm_config  # needed for torch compile forward context
+        thinker_config: Qwen3OmniMoeThinkerConfig = (
+            vllm_config.model_config.hf_config.thinker_config
+        )
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = thinker_config
+        self.multimodal_config = multimodal_config
+
+        # force "use_flash_attention_2=True" to audio tower to align
+        # the results.
+        if flash_attn is not None:
+            audio_config = thinker_config.audio_config
+            audio_config._attn_implementation_autoset = True
+            audio_config._attn_implementation = "flash_attention_2"
+        else:
+            logger.warning(
+                "flash_attn is not available, the model may not yield the "
+                "exactly same result as the transformers implementation "
+                "in the audio tower part."
+            )
+
+        self.audio_tower = Qwen3OmniMoeAudioEncoder(thinker_config.audio_config)
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+        self.visual = Qwen3Omni_VisionTransformer(
+            vision_config=thinker_config.vision_config,
+            norm_eps=getattr(thinker_config.text_config, "rms_norm_eps", 1e-6),
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "visual"),
+            attn_backend_override=attn_backend_override,
+        )
+        self.quant_config = quant_config
+
+        self.language_model = Qwen3MoeLLMForCausalLM(
+            vllm_config=vllm_config.with_hf_config(
+                thinker_config.text_config, architectures=["Qwen3MoeForCausalLM"]
+            ),
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+        self.use_deepstack = hasattr(
+            thinker_config.vision_config, "deepstack_visual_indexes"
+        )
+        self.deepstack_num_level = (
+            len(thinker_config.vision_config.deepstack_visual_indexes)
+            if self.use_deepstack
+            else 0
+        )
+        # register buffer for deepstack
+        self.deepstack_input_embeds = (
+            [
+                torch.zeros(
+                    vllm_config.scheduler_config.max_num_batched_tokens,
+                    thinker_config.text_config.hidden_size,
+                )
+                for _ in range(self.deepstack_num_level)
+            ]
+            if self.use_deepstack
+            else None
+        )
+        self.visual_dim = thinker_config.vision_config.out_hidden_size
+        self.multiscale_dim = self.visual_dim * self.deepstack_num_level
+
+    def _get_deepstack_input_embeds(self, num_tokens: int) -> IntermediateTensors:
+        # get deepstack_input_embeds from buffer, and clear the buffer
+        return IntermediateTensors(
+            {
+                f"deepstack_input_embeds_{idx}": self.deepstack_input_embeds[idx][
+                    :num_tokens
+                ]
+                for idx in range(self.deepstack_num_level)
+            }
+        )
+
+    def _set_deepstack_input_embeds(self, deepstack_input_embeds: torch.Tensor) -> None:
+        # set deepstack_input_embeds to buffer
+        num_tokens = deepstack_input_embeds.size(1)
+        if num_tokens > self.deepstack_input_embeds[0].size(0):
+            self.deepstack_input_embeds = [
+                torch.zeros(
+                    num_tokens,
+                    self.config.text_config.hidden_size,
+                    device=self.deepstack_input_embeds[0].device,
+                    dtype=self.deepstack_input_embeds[0].dtype,
+                )
+                for _ in range(self.deepstack_num_level)
+            ]
+        for idx in range(self.deepstack_num_level):
+            self.deepstack_input_embeds[idx][:num_tokens].copy_(
+                deepstack_input_embeds[idx]
+            )
+
+    def _clear_deepstack_input_embeds(self, num_tokens: int) -> None:
+        # clear deepstack_input_embeds in buffer
+        if num_tokens > 0:
+            for idx in range(self.deepstack_num_level):
+                self.deepstack_input_embeds[idx][:num_tokens].zero_()
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+
+        # Preserve the order of modalities if there are multiple of them
+        # from the order of kwargs.
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("input_audio_features")
+                and "audio" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["audio"] = self._parse_and_validate_audio_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return []
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_input(multimodal_input)
+                multimodal_embeddings += tuple(video_embeddings)
+            if modality == "audio":
+                audio_embeddings = self._process_audio_input(multimodal_input)
+                multimodal_embeddings += tuple(audio_embeddings)
+        return multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        inputs_embeds = self._embed_text_input_ids(
+            input_ids,
+            self.language_model.embed_input_ids,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
+            return inputs_embeds
+
+        deepstack_input_embeds = None
+        # TODO (ywang96): support overlapping modalitiy embeddings so that
+        # `use_audio_in_video` will work on V1.
+        # split the feat dim to obtain multi-scale visual feature
+        has_vision_embeddings = [
+            embeddings.shape[-1] != self.config.text_config.hidden_size
+            for embeddings in multimodal_embeddings
+        ]
+        if self.visual.deepstack_visual_indexes is not None and any(
+            has_vision_embeddings
+        ):
+            multiscale_len = len(self.visual.deepstack_visual_indexes)
+            multimodal_embeddings_multiscale = []
+            is_vision = torch.zeros_like(is_multimodal)
+            mm_positions = torch.nonzero(is_multimodal, as_tuple=True)[0]
+            mm_position_idx = 0
+            for index, embeddings in enumerate(multimodal_embeddings):
+                num_tokens = embeddings.shape[0]
+                current_positions = mm_positions[
+                    mm_position_idx : mm_position_idx + num_tokens
+                ]
+
+                # Vision embeddings
+                if embeddings.shape[-1] != self.config.text_config.hidden_size:
+                    visual_dim = embeddings.shape[-1] // (multiscale_len + 1)
+                    multi_dim = visual_dim * multiscale_len
+                    embeddings_main, embeddings_multiscale = torch.split(
+                        embeddings, [visual_dim, multi_dim], dim=-1
+                    )
+                    multimodal_embeddings[index] = embeddings_main
+                    multimodal_embeddings_multiscale.append(embeddings_multiscale)
+                    is_vision[current_positions] = True
+
+                # Audio embeddings
+                else:
+                    is_vision[current_positions] = False
+
+                mm_position_idx += num_tokens
+
+            deepstack_input_embeds = inputs_embeds.new_zeros(
+                inputs_embeds.size(0), multiscale_len * inputs_embeds.size(1)
+            )
+            deepstack_input_embeds = _merge_multimodal_embeddings(
+                inputs_embeds=deepstack_input_embeds,
+                multimodal_embeddings=multimodal_embeddings_multiscale,
+                is_multimodal=is_vision,
+            )
+            deepstack_input_embeds = (
+                deepstack_input_embeds.view(
+                    inputs_embeds.shape[0], multiscale_len, visual_dim
+                )
+                .permute(1, 0, 2)
+                .contiguous()
+            )
+            self._set_deepstack_input_embeds(deepstack_input_embeds)
+
+        inputs_embeds = _merge_multimodal_embeddings(
+            inputs_embeds=inputs_embeds,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+        )
+
+        return inputs_embeds
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        if (
+            self.use_deepstack
+            and inputs_embeds is not None
+            and get_pp_group().is_first_rank
+        ):
+            deepstack_input_embeds = self._get_deepstack_input_embeds(
+                inputs_embeds.size(0)
+            )
+        else:
+            deepstack_input_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids,
+            positions,
+            intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            # args for deepstack
+            deepstack_input_embeds=deepstack_input_embeds,
+        )
+
+        if inputs_embeds is not None and get_pp_group().is_first_rank:
+            self._clear_deepstack_input_embeds(inputs_embeds.size(0))
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=["talker.", "code2wav."],
+        )
+        loaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+        return loaded_weights
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+        audio_feature_lengths = kwargs.get("audio_feature_lengths", [])
+        use_audio_in_video = any(kwargs.get("use_audio_in_video", []))
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
+
+        input_ids = torch.tensor(input_tokens)
+        if input_ids is None or input_ids.ndim != 1:
+            raise ValueError("_omni3_get_input_positions_tensor expects 1D input_ids")
+
+        seq_len = input_ids.shape[0]
+
+        if isinstance(audio_feature_lengths, list):
+            audio_feature_lengths = torch.tensor(
+                audio_feature_lengths, dtype=torch.long
+            )
+
+        if not len(second_per_grid_ts) and len(video_grid_thw):
+            second_per_grids = torch.ones(len(video_grid_thw), dtype=torch.float32)
+        else:
+            second_per_grids = torch.tensor(second_per_grid_ts, dtype=torch.float32)
+
+        config = self.config
+        spatial_merge_size = config.vision_config.spatial_merge_size
+        image_token_id = config.image_token_id
+        video_token_id = config.video_token_id
+        audio_token_id = config.audio_token_id
+        vision_start_token_id = config.vision_start_token_id
+        audio_start_token_id = config.audio_start_token_id
+        position_id_per_seconds = config.position_id_per_seconds
+
+        vision_start_indices = torch.argwhere(
+            input_ids == vision_start_token_id
+        ).squeeze(1)
+        if vision_start_indices.numel() > 0:
+            vision_tokens = input_ids[vision_start_indices + 1]
+        else:
+            vision_tokens = input_ids.new_empty((0,), dtype=input_ids.dtype)
+        audio_nums = torch.sum(input_ids == audio_start_token_id)
+        image_nums = (vision_tokens == image_token_id).sum()
+        video_nums = (
+            (vision_tokens == audio_start_token_id).sum()
+            if use_audio_in_video
+            else (vision_tokens == video_token_id).sum()
+        )
+
+        llm_pos_ids_list: list[torch.Tensor] = []
+        st = 0
+        image_idx = 0
+        video_idx = 0
+        audio_idx = 0
+        remain_images, remain_videos, remain_audios = image_nums, video_nums, audio_nums  # noqa: E501
+        multimodal_nums = (
+            image_nums + audio_nums
+            if use_audio_in_video
+            else image_nums + video_nums + audio_nums
+        )  # noqa: E501
+
+        for _ in range(multimodal_nums):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+            if (image_token_id in input_tokens or video_token_id in input_tokens) and (
+                remain_videos > 0 or remain_images > 0
+            ):
+                ed_vision_start = input_tokens.index(vision_start_token_id, st)
+            else:
+                ed_vision_start = len(input_tokens) + 1
+            if audio_token_id in input_tokens and remain_audios > 0:
+                ed_audio_start = input_tokens.index(audio_start_token_id, st)
+            else:
+                ed_audio_start = len(input_tokens) + 1
+            min_ed = min(ed_vision_start, ed_audio_start)
+
+            if min_ed == ed_audio_start:
+                text_len = min_ed - st
+                if text_len != 0:
+                    st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len, dtype=torch.long)
+                        .view(1, -1)
+                        .expand(3, -1)
+                        + st_idx
+                    )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                bos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(bos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                _, audio_len = _get_feat_extract_output_lengths(
+                    audio_feature_lengths[audio_idx]
+                )
+                llm_pos_ids = (
+                    torch.arange(audio_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                llm_pos_ids_list.append(llm_pos_ids)
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                eos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(eos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st += text_len + bos_len + audio_len + eos_len
+                audio_idx += 1
+                remain_audios -= 1
+            elif (
+                min_ed == ed_vision_start
+                and input_ids[ed_vision_start + 1] == image_token_id
+            ):
+                text_len = min_ed - st
+                if text_len != 0:
+                    st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len, dtype=torch.long)
+                        .view(1, -1)
+                        .expand(3, -1)
+                        + st_idx
+                    )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                bos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(bos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                grid_t = image_grid_thw[image_idx][0]
+                grid_hs = image_grid_thw[:, 1]
+                grid_ws = image_grid_thw[:, 2]
+                t_index = torch.arange(grid_t) * position_id_per_seconds
+                llm_pos_ids = get_llm_pos_ids_for_vision(
+                    st_idx, image_idx, spatial_merge_size, t_index, grid_hs, grid_ws
+                )
+                image_len = image_grid_thw[image_idx].prod() // (spatial_merge_size**2)
+                llm_pos_ids_list.append(llm_pos_ids)
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                eos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(eos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st += text_len + bos_len + image_len + eos_len
+                image_idx += 1
+                remain_images -= 1
+            elif (
+                min_ed == ed_vision_start
+                and input_ids[ed_vision_start + 1] == video_token_id
+                and not use_audio_in_video
+            ):
+                text_len = min_ed - st
+                if text_len != 0:
+                    st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len, dtype=torch.long)
+                        .view(1, -1)
+                        .expand(3, -1)
+                        + st_idx
+                    )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                bos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(bos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                grid_t = video_grid_thw[video_idx][0]
+                grid_hs = video_grid_thw[:, 1]
+                grid_ws = video_grid_thw[:, 2]
+                t_index = (
+                    torch.arange(grid_t)
+                    * float(second_per_grids[video_idx].item())
+                    * position_id_per_seconds
+                )
+                llm_pos_ids = get_llm_pos_ids_for_vision(
+                    st_idx, video_idx, spatial_merge_size, t_index, grid_hs, grid_ws
+                )
+                video_len = video_grid_thw[video_idx].prod() // (spatial_merge_size**2)
+                llm_pos_ids_list.append(llm_pos_ids)
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                eos_len = 1
+                llm_pos_ids_list.append(
+                    torch.arange(eos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                st += text_len + bos_len + video_len + eos_len
+                video_idx += 1
+                remain_videos -= 1
+            elif (
+                min_ed == ed_vision_start
+                and ed_vision_start + 1 == ed_audio_start
+                and use_audio_in_video
+            ):
+                text_len = min_ed - st
+                if text_len != 0:
+                    st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len, dtype=torch.long)
+                        .view(1, -1)
+                        .expand(3, -1)
+                        + st_idx
+                    )
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                bos_len = 1
+                bos_block = (
+                    torch.arange(bos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                llm_pos_ids_list.append(bos_block)
+                llm_pos_ids_list.append(bos_block)
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                _, audio_len = _get_feat_extract_output_lengths(
+                    audio_feature_lengths[audio_idx]
+                )
+                audio_llm_pos_ids = (
+                    torch.arange(audio_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                grid_t = video_grid_thw[video_idx][0]
+                grid_hs = video_grid_thw[:, 1]
+                grid_ws = video_grid_thw[:, 2]
+                t_index = (
+                    torch.arange(grid_t)
+                    * float(second_per_grids[video_idx].item())
+                    * position_id_per_seconds
+                )
+                video_llm_pos_ids = get_llm_pos_ids_for_vision(
+                    st_idx, video_idx, spatial_merge_size, t_index, grid_hs, grid_ws
+                )
+                video_data_index, audio_data_index = 0, 0
+                while (
+                    video_data_index < video_llm_pos_ids.shape[-1]
+                    and audio_data_index < audio_llm_pos_ids.shape[-1]
+                ):
+                    if (
+                        video_llm_pos_ids[0][video_data_index]
+                        <= audio_llm_pos_ids[0][audio_data_index]
+                    ):
+                        llm_pos_ids_list.append(
+                            video_llm_pos_ids[
+                                :, video_data_index : video_data_index + 1
+                            ]
+                        )
+                        video_data_index += 1
+                    else:
+                        llm_pos_ids_list.append(
+                            audio_llm_pos_ids[
+                                :, audio_data_index : audio_data_index + 1
+                            ]
+                        )
+                        audio_data_index += 1
+                if video_data_index < video_llm_pos_ids.shape[-1]:
+                    llm_pos_ids_list.append(
+                        video_llm_pos_ids[
+                            :, video_data_index : video_llm_pos_ids.shape[-1]
+                        ]
+                    )
+                if audio_data_index < audio_llm_pos_ids.shape[-1]:
+                    llm_pos_ids_list.append(
+                        audio_llm_pos_ids[
+                            :, audio_data_index : audio_llm_pos_ids.shape[-1]
+                        ]
+                    )
+                video_len = video_grid_thw[video_idx].prod() // (spatial_merge_size**2)
+                st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+                eos_len = 1
+                eos_block = (
+                    torch.arange(eos_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                    + st_idx
+                )
+                llm_pos_ids_list.append(eos_block)
+                llm_pos_ids_list.append(eos_block)
+                st += text_len + bos_len * 2 + audio_len + video_len + eos_len * 2  # noqa: E501
+                audio_idx += 1
+                video_idx += 1
+                remain_videos -= 1
+                remain_audios -= 1
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if llm_pos_ids_list else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len, dtype=torch.long).view(1, -1).expand(3, -1)
+                + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        if llm_positions.shape[1] != seq_len:
+            raise RuntimeError("Position ids length mismatch with input ids length")
+
+        mrope_position_delta = llm_positions.max() + 1 - seq_len
+        return llm_positions, mrope_position_delta
diff --git a/model_executor/models/qwen3_vl.py b/model_executor/models/qwen3_vl.py
new file mode 100644
index 0000000..7f0c937
--- /dev/null
+++ b/model_executor/models/qwen3_vl.py
@@ -0,0 +1,1673 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The vLLM team.
+# Copyright 2025 The Qwen Team.
+# Copyright 2025 The HuggingFace Inc. team.
+# All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen3VL model compatible with HuggingFace weights."""
+
+from collections.abc import Callable, Iterable, Iterator, Mapping, Sequence
+from functools import lru_cache, partial
+from itertools import islice
+from typing import Any
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import BatchFeature
+from transformers.models.qwen2_vl import Qwen2VLImageProcessorFast
+from transformers.models.qwen2_vl.image_processing_qwen2_vl import (
+    smart_resize as image_smart_resize,
+)
+from transformers.models.qwen3_vl import Qwen3VLProcessor, Qwen3VLVideoProcessor
+from transformers.models.qwen3_vl.configuration_qwen3_vl import (
+    Qwen3VLConfig,
+    Qwen3VLVisionConfig,
+)
+from transformers.models.qwen3_vl.video_processing_qwen3_vl import (
+    smart_resize as video_smart_resize,
+)
+from transformers.video_utils import VideoMetadata
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import check_upstream_fa_availability
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
+from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargsItem,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems, MultiModalDataParser
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.collection_utils import is_list_of
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMRoPE,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .qwen2_5_vl import (
+    Qwen2_5_VisionAttention,
+    Qwen2_5_VisionRotaryEmbedding,
+    Qwen2_5_VLImageEmbeddingInputs,
+    Qwen2_5_VLImageInputs,
+    Qwen2_5_VLImagePixelInputs,
+    Qwen2_5_VLVideoEmbeddingInputs,
+    Qwen2_5_VLVideoInputs,
+    Qwen2_5_VLVideoPixelInputs,
+)
+from .qwen2_vl import Qwen2VLProcessingInfo
+from .qwen3 import Qwen3ForCausalLM, Qwen3Model
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    _merge_multimodal_embeddings,
+    maybe_prefix,
+)
+from .vision import (
+    get_vit_attn_backend,
+    run_dp_sharded_mrope_vision_model,
+)
+
+logger = init_logger(__name__)
+
+# Official recommended max pixels is 24576 * 32 * 32
+_MAX_FRAMES_PER_VIDEO = 24576
+
+
+class Qwen3_VisionPatchEmbed(nn.Module):
+    def __init__(
+        self,
+        patch_size: int = 14,
+        temporal_patch_size: int = 2,
+        in_channels: int = 3,
+        hidden_size: int = 1152,
+    ) -> None:
+        super().__init__()
+        self.patch_size = patch_size
+        self.temporal_patch_size = temporal_patch_size
+        self.hidden_size = hidden_size
+
+        kernel_size = (temporal_patch_size, patch_size, patch_size)
+        self.proj = Conv3dLayer(
+            in_channels,
+            hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
+            bias=True,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
+        return x
+
+
+class Qwen3_VisionMLP(nn.Module):
+    def __init__(
+        self,
+        in_features: int,
+        hidden_features: int,
+        bias: bool = False,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.linear_fc1 = ColumnParallelLinear(
+            in_features,
+            hidden_features,
+            bias=bias,
+            quant_config=quant_config,
+            return_bias=False,
+            prefix=f"{prefix}.linear_fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.linear_fc2 = RowParallelLinear(
+            hidden_features,
+            in_features,
+            bias=bias,
+            quant_config=quant_config,
+            return_bias=False,
+            prefix=f"{prefix}.linear_fc2",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = act_fn
+
+    def forward(self, x: torch.Tensor):
+        mlp_output = self.linear_fc2(self.act_fn(self.linear_fc1(x)))
+        return mlp_output
+
+
+class Qwen3_VisionBlock(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        mlp_hidden_dim: int,
+        act_fn: Callable[[torch.Tensor], torch.Tensor] = F.silu,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        use_upstream_fa: bool = False,
+    ) -> None:
+        super().__init__()
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm1 = norm_layer(dim)
+        self.norm2 = norm_layer(dim)
+        self.attn = Qwen2_5_VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend=attn_backend,
+            use_upstream_fa=use_upstream_fa,
+        )
+        self.mlp = Qwen3_VisionMLP(
+            dim,
+            mlp_hidden_dim,
+            act_fn=act_fn,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor,
+        max_seqlen: torch.Tensor,  # Only used for Flash Attention
+        seqlens: torch.Tensor,  # Only used for xFormers
+    ) -> torch.Tensor:
+        x = x + self.attn(
+            self.norm1(x),
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+
+        x = x + self.mlp(self.norm2(x))
+        return x
+
+
+class Qwen3_VisionPatchMerger(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        context_dim: int,
+        norm_layer: Callable[[int], nn.Module] | None = None,
+        spatial_merge_size: int = 2,
+        use_postshuffle_norm: bool = False,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = context_dim * (spatial_merge_size**2)
+
+        self.use_postshuffle_norm = use_postshuffle_norm
+        if self.use_postshuffle_norm:
+            context_dim = self.hidden_size
+
+        if norm_layer is None:
+            norm_layer = partial(nn.LayerNorm, eps=1e-6)
+        self.norm = norm_layer(context_dim)
+        self.linear_fc1 = ColumnParallelLinear(
+            self.hidden_size,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.act_fn = nn.GELU()
+        self.linear_fc2 = RowParallelLinear(
+            self.hidden_size,
+            d_model,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_fc2",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        if self.use_postshuffle_norm:
+            x = self.norm(x.view(-1, self.hidden_size))
+        else:
+            x = self.norm(x).view(-1, self.hidden_size)
+
+        x_parallel, _ = self.linear_fc1(x)
+        x_parallel = self.act_fn(x_parallel)
+        out, _ = self.linear_fc2(x_parallel)
+        return out
+
+
+class Qwen3_VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        vision_config: Qwen3VLVisionConfig,
+        norm_eps: float = 1e-6,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = vision_config.hidden_size
+        self.num_heads = vision_config.num_heads
+        self.num_position_embeddings = vision_config.num_position_embeddings
+        self.patch_size = vision_config.patch_size
+        self.spatial_merge_size = vision_config.spatial_merge_size
+        self.spatial_merge_unit = self.spatial_merge_size**2
+        self.temporal_patch_size = vision_config.temporal_patch_size
+        self.deepstack_visual_indexes = vision_config.deepstack_visual_indexes
+        self.use_data_parallel = use_data_parallel
+        self.num_grid_per_side = int(self.num_position_embeddings**0.5)
+
+        # NOTE: This is used for creating empty tensor for all_gather for
+        # DP ViT. Here out_hidden_size is enlarged due to deepstack
+        self.out_hidden_size = vision_config.out_hidden_size * (
+            1 + len(self.deepstack_visual_indexes)
+        )
+
+        self.patch_embed = Qwen3_VisionPatchEmbed(
+            patch_size=self.patch_size,
+            temporal_patch_size=self.temporal_patch_size,
+            in_channels=vision_config.in_channels,
+            hidden_size=self.hidden_size,
+        )
+
+        self.pos_embed = nn.Embedding(self.num_position_embeddings, self.hidden_size)
+
+        norm_layer = partial(nn.LayerNorm, eps=norm_eps)
+        head_dim = self.hidden_size // self.num_heads
+        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+
+        self.merger = Qwen3_VisionPatchMerger(
+            d_model=vision_config.out_hidden_size,
+            context_dim=self.hidden_size,
+            norm_layer=norm_layer,
+            spatial_merge_size=self.spatial_merge_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.merger",
+            use_data_parallel=use_data_parallel,
+        )
+
+        self.deepstack_merger_list = nn.ModuleList(
+            [
+                Qwen3_VisionPatchMerger(
+                    d_model=vision_config.out_hidden_size,
+                    context_dim=self.hidden_size,
+                    spatial_merge_size=self.spatial_merge_size,
+                    use_postshuffle_norm=True,
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.deepstack_merger_list.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                )
+                for layer_idx in range(len(self.deepstack_visual_indexes))
+            ]
+        )
+
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        use_upstream_fa = False
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and self.attn_backend != AttentionBackendEnum.ROCM_AITER_FA
+            and check_upstream_fa_availability(torch.get_default_dtype())
+        ):
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
+            use_upstream_fa = True
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"Qwen3-VL does not support {self.attn_backend} backend now."
+            )
+        self.blocks = nn.ModuleList(
+            [
+                Qwen3_VisionBlock(
+                    dim=self.hidden_size,
+                    num_heads=self.num_heads,
+                    mlp_hidden_dim=vision_config.intermediate_size,
+                    act_fn=_ACTIVATION_REGISTRY[vision_config.hidden_act],
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                    attn_backend=self.attn_backend,
+                    use_upstream_fa=use_upstream_fa,
+                )
+                for layer_idx in range(vision_config.depth)
+            ]
+        )
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.patch_embed.proj.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.patch_embed.proj.weight.device
+
+    @staticmethod
+    @lru_cache(maxsize=1024)
+    def rot_pos_ids(h: int, w: int, spatial_merge_size: int) -> torch.Tensor:
+        hpos_ids = np.broadcast_to(np.arange(h).reshape(h, 1), (h, w))
+        h_div = h // spatial_merge_size
+        w_div = w // spatial_merge_size
+        hpos_ids = hpos_ids.reshape(
+            h_div,
+            spatial_merge_size,
+            w_div,
+            spatial_merge_size,
+        )
+        hpos_ids = hpos_ids.transpose(0, 2, 1, 3)
+        hpos_ids = hpos_ids.flatten()
+
+        wpos_ids = np.broadcast_to(np.arange(w).reshape(1, w), (h, w))
+        wpos_ids = wpos_ids.reshape(
+            h_div,
+            spatial_merge_size,
+            w_div,
+            spatial_merge_size,
+        )
+        wpos_ids = wpos_ids.transpose(0, 2, 1, 3)
+        wpos_ids = wpos_ids.flatten()
+
+        return torch.from_numpy(np.stack([hpos_ids, wpos_ids], axis=-1))
+
+    def rot_pos_emb(self, grid_thw: list[list[int]]):
+        max_grid_size = max(max(h, w) for _, h, w in grid_thw)
+        pos_ids = [
+            self.rot_pos_ids(h, w, self.spatial_merge_size)
+            if t == 1
+            else self.rot_pos_ids(h, w, self.spatial_merge_size).repeat(t, 1)
+            for t, h, w in grid_thw
+        ]
+        pos_ids = torch.cat(pos_ids, dim=0)
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def fast_pos_embed_interpolate(self, grid_thw: list[list[int]]) -> torch.Tensor:
+        num_grid_per_side = self.num_grid_per_side
+        m_size = self.spatial_merge_size
+        hidden_dim = self.pos_embed.embedding_dim
+
+        outputs = []
+        for t, h, w in grid_thw:
+            h_idxs = torch.linspace(
+                0, num_grid_per_side - 1, h, dtype=torch.float32, device=self.device
+            )
+            w_idxs = torch.linspace(
+                0, num_grid_per_side - 1, w, dtype=torch.float32, device=self.device
+            )
+
+            h_floor = h_idxs.to(torch.long)
+            w_floor = w_idxs.to(torch.long)
+            h_ceil = torch.clamp(h_floor + 1, max=num_grid_per_side - 1)
+            w_ceil = torch.clamp(w_floor + 1, max=num_grid_per_side - 1)
+
+            dh = h_idxs - h_floor
+            dw = w_idxs - w_floor
+
+            # Create meshgrid view for all h, w vars
+            dh_grid, dw_grid = torch.meshgrid(dh, dw, indexing="ij")
+            h_floor_grid, w_floor_grid = torch.meshgrid(h_floor, w_floor, indexing="ij")
+            h_ceil_grid, w_ceil_grid = torch.meshgrid(h_ceil, w_ceil, indexing="ij")
+
+            # original computation of weights
+            # w00 = (1 - dh_grid) * (1 - dw_grid)
+            # w01 = (1 - dh_grid) * dw_grid
+            # w10 = dh_grid * (1 - dw_grid)
+            # w11 = dh_grid * dw_grid
+            # we reuse w11 here to avoid duplicate
+            # dh_grid * dw_grid computation
+            w11 = dh_grid * dw_grid
+            w10 = dh_grid - w11
+            w01 = dw_grid - w11
+            w00 = 1 - dh_grid - w01
+
+            h_grid = torch.stack([h_floor_grid, h_floor_grid, h_ceil_grid, h_ceil_grid])
+            w_grid = torch.stack([w_floor_grid, w_ceil_grid, w_floor_grid, w_ceil_grid])
+            h_grid_idx = h_grid * num_grid_per_side
+
+            indices = (h_grid_idx + w_grid).reshape(4, -1)
+            weights = torch.stack([w00, w01, w10, w11], dim=0).reshape(4, -1, 1)
+            weights = weights.to(dtype=self.dtype)
+
+            embeds = self.pos_embed(indices)
+            embeds *= weights
+            combined = embeds.sum(dim=0)
+
+            combined = combined.reshape(
+                h // m_size, m_size, w // m_size, m_size, hidden_dim
+            )
+            combined = combined.permute(0, 2, 1, 3, 4).reshape(1, -1, hidden_dim)
+            repeated = combined.expand(t, -1, -1).reshape(-1, hidden_dim)
+            outputs.append(repeated)
+
+        return torch.cat(outputs, dim=0)
+
+    def compute_attn_mask_seqlen(
+        self,
+        cu_seqlens: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        max_seqlen = torch.zeros([], device=cu_seqlens.device)
+        seqlens = torch.zeros(1, device=cu_seqlens.device)
+        if (
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
+        ):
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
+            seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
+        return max_seqlen, seqlens
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        grid_thw: torch.Tensor | list[list[int]],
+    ) -> torch.Tensor:
+        hidden_states = x.to(device=self.device, dtype=self.dtype, non_blocking=True)
+        hidden_states = self.patch_embed(hidden_states)
+
+        if isinstance(grid_thw, list):
+            grid_thw_list = grid_thw
+            grid_thw = torch.tensor(grid_thw, dtype=torch.int32)
+        else:
+            grid_thw_list = grid_thw.tolist()
+
+        pos_embeds = self.fast_pos_embed_interpolate(grid_thw_list)
+        hidden_states = hidden_states + pos_embeds
+        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
+        rotary_pos_emb = rotary_pos_emb.to(hidden_states.device, non_blocking=True)
+
+        cu_seqlens = torch.repeat_interleave(
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(dim=0, dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32)
+        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+
+        hidden_states = hidden_states.unsqueeze(1)
+        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+        cu_seqlens = cu_seqlens.to(self.device, non_blocking=True)
+
+        deepstack_feature_lists = []
+        for layer_num, blk in enumerate(self.blocks):
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+            if layer_num in self.deepstack_visual_indexes:
+                deepstack_merger_idx = self.deepstack_visual_indexes.index(layer_num)
+                deepstack_feature = self.deepstack_merger_list[deepstack_merger_idx](
+                    hidden_states
+                )
+                deepstack_feature_lists.append(deepstack_feature)
+        hidden_states = self.merger(hidden_states)
+        hidden_states = torch.cat(
+            [hidden_states] + deepstack_feature_lists, dim=1
+        )  # [seq_len, hidden_size * (1 + depth_of_deepstack)]
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("attn.qkv.", "attn.q.", "q"),
+            ("attn.qkv.", "attn.k.", "k"),
+            ("attn.qkv.", "attn.v.", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen3VLProcessingInfo(Qwen2VLProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen3VLConfig)
+
+    def get_hf_processor(self, **kwargs: object) -> Qwen3VLProcessor:
+        return self.ctx.get_hf_processor(
+            Qwen3VLProcessor,
+            use_fast=kwargs.pop("use_fast", True),
+            **kwargs,
+        )
+
+    def get_tokenizer(self):
+        return self.ctx.tokenizer
+
+    def get_image_processor(self, **kwargs: object) -> Qwen2VLImageProcessorFast:
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_video_processor(self, **kwargs: object) -> Qwen3VLVideoProcessor:
+        return self.get_hf_processor(**kwargs).video_processor
+
+    def _get_vision_info(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        num_frames: int = 2,
+        do_resize: bool = True,
+        image_processor: Qwen2VLImageProcessorFast | Qwen3VLVideoProcessor | None,
+    ) -> tuple[ImageSize, int]:
+        if image_processor is None and num_frames > 1:
+            image_processor = self.get_video_processor()
+        elif image_processor is None:
+            image_processor = self.get_image_processor()
+
+        is_video = isinstance(image_processor, Qwen3VLVideoProcessor)
+
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+        temporal_patch_size = vision_config.temporal_patch_size
+
+        if do_resize:
+            if is_video:
+                smart_resize = video_smart_resize
+                extra_kwargs = {
+                    "num_frames": num_frames,
+                    "temporal_factor": temporal_patch_size,
+                }
+            else:
+                smart_resize = image_smart_resize
+                extra_kwargs = {}
+            resized_height, resized_width = smart_resize(
+                height=image_height,
+                width=image_width,
+                factor=patch_size * merge_size,
+                min_pixels=image_processor.size["shortest_edge"],
+                max_pixels=image_processor.size["longest_edge"],
+                **extra_kwargs,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        padded_num_frames = num_frames + num_frames % temporal_patch_size
+
+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_vision_tokens = num_patches // (merge_size**2)
+
+        return preprocessed_size, num_vision_tokens
+
+    def _get_max_video_frames(self, max_tokens: int, start_num_frames: int = 2) -> int:
+        return super()._get_max_video_frames(
+            max_tokens, start_num_frames=start_num_frames
+        )
+
+    def get_num_frames_with_most_features(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        return super().get_num_frames_with_most_features(
+            seq_len, mm_counts, max_frames_per_video=_MAX_FRAMES_PER_VIDEO
+        )
+
+    def get_max_video_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+        video_soft_tokens = self.get_num_video_tokens(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=self.get_num_frames_with_most_features(seq_len, mm_counts),
+            image_processor=None,
+        )
+
+        # NOTE: By default in Qwen3-VL, one video token is converted to
+        # "<{timestamp} seconds>" (on average 9.5 tokens) + vision_start_token + video_token + vision_end_token # noqa: E501
+        formatted_video_soft_tokens = video_soft_tokens * 12.5
+        return int(formatted_video_soft_tokens)
+
+    def _calculate_timestamps(
+        self, indices: list[int] | torch.Tensor, video_fps: float, merge_size: int
+    ):
+        if not isinstance(indices, list):
+            indices = indices.tolist()
+        if len(indices) % merge_size != 0:
+            # don't update metadata's frames_indices directly
+            indices = indices + [indices[-1]] * (merge_size - len(indices) % merge_size)
+        timestamps = [idx / video_fps for idx in indices]
+        timestamps = [
+            (timestamps[i] + timestamps[i + merge_size - 1]) / 2
+            for i in range(0, len(timestamps), merge_size)
+        ]
+        return timestamps
+
+    def _get_video_second_idx(
+        self,
+        metadata: dict[str, Any],
+        out_item: MultiModalKwargsItem,
+        do_sample_frames: bool | None = None,
+        sampled_fps: float | None = None,
+    ) -> list[int]:
+        video_processor = self.get_video_processor()
+        merge_size = video_processor.merge_size
+        indices = metadata["frames_indices"]
+
+        # metadata["fps"] refers to the true fps of the input video.
+        video_fps = metadata["fps"]
+        if do_sample_frames is None:
+            do_sample_frames = metadata.get("do_sample_frames", False)
+
+        # If video frames are sampled in HF processor (instead of vLLM
+        # video loader), we need to re-calculate the indices from original
+        # metadata.
+        if do_sample_frames:
+            # here video_fps is the fps of the sampled video, and
+            # metadata["fps"] refers to the fps of the original video.
+            sampled_fps = sampled_fps if sampled_fps else video_processor.fps
+            total_num_frames = metadata["total_num_frames"]
+            num_frames = int(total_num_frames / metadata["fps"] * sampled_fps)
+            num_frames = min(
+                min(
+                    max(num_frames, video_processor.min_frames),
+                    video_processor.max_frames,
+                ),
+                total_num_frames,
+            )
+            indices = (
+                np.linspace(0, total_num_frames - 1, num_frames)
+                .round()
+                .astype(int)
+                .tolist()
+            )
+        timestamps = self._calculate_timestamps(indices, video_fps, merge_size)
+        return timestamps
+
+
+class Qwen3VLDummyInputsBuilder(BaseDummyInputsBuilder[Qwen3VLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+
+        image_token = "<|vision_start|><|image_pad|><|vision_end|>"
+        video_token = "<|vision_start|><|video_pad|><|vision_end|>"
+
+        return image_token * num_images + video_token * num_videos
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+        num_videos = mm_counts.get("video", 0)
+        image_overrides = mm_options.get("image") if mm_options else None
+        video_overrides = mm_options.get("video") if mm_options else None
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        target_num_frames = self.info.get_num_frames_with_most_features(
+            seq_len, mm_counts
+        )
+
+        if video_overrides:
+            assert isinstance(video_overrides, VideoDummyOptions)
+            num_frames_override = video_overrides.num_frames
+            if num_frames_override:
+                if num_frames_override > target_num_frames:
+                    logger.warning(
+                        "video.num_frames override (%d) exceeds model's "
+                        "maximum number of frames (%d), will be ignored",
+                        num_frames_override,
+                        target_num_frames,
+                    )
+                if num_frames_override < 2:
+                    logger.warning(
+                        "video.num_frames override (%d) cannot be less "
+                        "than 2, will be ignored",
+                        num_frames_override,
+                    )
+                target_num_frames = min(target_num_frames, num_frames_override)
+        target_num_frames = max(target_num_frames, 2)
+
+        target_video_size, _ = self.info._get_vision_info(
+            image_width=target_width,
+            image_height=target_height,
+            num_frames=target_num_frames,
+            image_processor=self.info.get_video_processor(),
+        )
+        # NOTE: we need to do this check here since Qwen3-VL resizes video
+        # frames depending on how many frames there are.
+        width, height = target_video_size.width, target_video_size.height
+        if video_overrides:
+            assert isinstance(video_overrides, VideoDummyOptions)
+            width_override = video_overrides.width
+            if width_override:
+                if width_override > width:
+                    logger.warning(
+                        "video.width override (%d) exceeds model's "
+                        "maximum width (%d), will be ignored",
+                        width_override,
+                        width,
+                    )
+                width = min(width, width_override)
+            height_override = video_overrides.height
+            if height_override:
+                if height_override > height:
+                    logger.warning(
+                        "video.height override (%d) exceeds model's "
+                        "maximum height (%d), will be ignored",
+                        height_override,
+                        height,
+                    )
+                height = min(height, height_override)
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+            "video": self._get_dummy_videos(
+                width=width,
+                height=height,
+                num_frames=target_num_frames,
+                num_videos=num_videos,
+            ),
+        }
+
+    def _get_dummy_videos(
+        self,
+        *,
+        width: int,
+        height: int,
+        num_frames: int,
+        num_videos: int,
+    ) -> list[VideoItem]:
+        video = np.full((num_frames, width, height, 3), 255, dtype=np.uint8)
+        video_items = []
+        for i in range(num_videos):
+            video_metadata = {
+                "fps": 2.0,
+                "duration": num_frames / 2.0,
+                "total_num_frames": num_frames,
+                "frames_indices": [i for i in range(num_frames)],
+                "video_backend": "opencv",
+                "do_sample_frames": False,
+            }
+            video_item = (video.copy(), video_metadata)
+            video_items.append(video_item)
+        return video_items
+
+
+class Qwen3VLMultiModalProcessor(BaseMultiModalProcessor[Qwen3VLProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return MultiModalDataParser(video_needs_metadata=True)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        mm_data = dict(mm_data)
+        processor = self.info.get_hf_processor(**mm_kwargs)
+
+        # Separate video processing from image processing. Because the videos
+        # are processed into several image patches
+        if videos := mm_data.pop("videos", []):
+            video_grid_thw_lst = []
+            pixel_values_videos_lst = []
+
+            for item in videos:
+                video_array, metadata = item
+
+                # NOTE: @JJJYmmm new attr metadata.frames_indices indicates
+                # the sampled frames indices of pre-sampled videos, which is
+                # used to calculate the timestamps. Make sure that
+                # do_sample_frames in mm_kwargs is false for presampled videos.
+
+                # NOTE: a copy of is created to update do_sample_frames,
+                # otherwise mm_hash for the object will be incorrect.
+                video_mm_kwargs = dict(**mm_kwargs)
+                if "do_sample_frames" not in video_mm_kwargs:
+                    # qwen_vl_utils already has "do_sample_frames" in
+                    # mm_kwargs, don't overwrite it.
+                    video_mm_kwargs["do_sample_frames"] = metadata.get(
+                        "do_sample_frames", False
+                    )
+
+                metadata = VideoMetadata(
+                    **{k: metadata[k] for k in metadata if k != "do_sample_frames"}
+                )
+
+                video_mm_data = dict()
+                video_mm_data["videos"] = [[video_array]]
+                video_mm_data["video_metadata"] = [[metadata]]
+
+                video_outputs = super()._call_hf_processor(
+                    prompt="<|vision_start|><|video_pad|><|vision_end|>",
+                    mm_data=video_mm_data,
+                    mm_kwargs=video_mm_kwargs,
+                    tok_kwargs=tok_kwargs,
+                )
+                input_ids = video_outputs.pop("input_ids")
+                video_placeholder = processor.tokenizer.batch_decode(input_ids)[0]
+                prompt = prompt.replace(
+                    "<|vision_start|><|video_pad|><|vision_end|>",
+                    video_placeholder,
+                    1,
+                )
+
+                video_grid_thw_lst.append(video_outputs["video_grid_thw"])
+                pixel_values_videos_lst.append(video_outputs["pixel_values_videos"])
+            video_outputs = dict(
+                pixel_values_videos=torch.cat(pixel_values_videos_lst),
+                video_grid_thw=torch.cat(video_grid_thw_lst),
+            )
+        else:
+            video_outputs = dict()
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+        combined_outputs = dict(
+            processed_outputs,
+            **video_outputs,
+        )
+        return BatchFeature(combined_outputs)
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_grid_thw = hf_inputs.get("image_grid_thw", torch.empty((0, 3)))
+        image_grid_sizes = image_grid_thw.prod(-1)
+
+        video_grid_thw = hf_inputs.get("video_grid_thw", torch.empty((0, 3)))
+        video_grid_sizes = video_grid_thw.prod(-1)
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_grid_sizes
+            ),
+            image_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_grid_sizes
+            ),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+            pixel_values_videos=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_grid_sizes
+            ),
+            video_embeds=MultiModalFieldConfig.flat_from_sizes(
+                "video", video_grid_sizes
+            ),
+            video_grid_thw=MultiModalFieldConfig.batched("video"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        tokenizer = self.info.get_tokenizer()
+        hf_config = self.info.get_hf_config()
+
+        video_token_id = hf_config.video_token_id
+        vision_start_token_id = hf_config.vision_start_token_id
+        vision_end_token_id = hf_config.vision_end_token_id
+
+        merge_length = image_processor.merge_size**2
+
+        def get_image_replacement_qwen3vl(item_idx: int):
+            out_item = out_mm_kwargs["image"][item_idx]
+            grid_thw = out_item["image_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            num_tokens = int(grid_thw.prod()) // merge_length
+            return [hf_processor.image_token_id] * num_tokens
+
+        def get_video_replacement_qwen3vl(item_idx: int):
+            out_item = out_mm_kwargs["video"][item_idx]
+            grid_thw = out_item["video_grid_thw"].data
+            assert isinstance(grid_thw, torch.Tensor)
+
+            video, metadata = mm_items["video"][item_idx]
+            do_sample_frames = hf_processor_mm_kwargs.get("do_sample_frames")
+            sampled_fps = hf_processor_mm_kwargs.get("fps")
+            if is_list_of(sampled_fps, float):
+                sampled_fps = sampled_fps[item_idx]
+            timestamps = self.info._get_video_second_idx(
+                metadata, out_item, do_sample_frames, sampled_fps
+            )
+
+            assert len(timestamps) == grid_thw[0], (
+                f"The timestamps length({len(timestamps)}) should be equal "
+                f"video length ({grid_thw[0]})."
+            )
+
+            frames_idx_token = [
+                tokenizer.encode(f"<{curr_time:.1f} seconds>", add_special_tokens=False)
+                for curr_time in timestamps
+            ]
+            num_tokens_per_frame = int(grid_thw[1:].prod()) // merge_length
+            placeholder = []
+            for frame_idx in frames_idx_token:
+                placeholder.extend(frame_idx)
+                placeholder.extend(
+                    [vision_start_token_id]
+                    + [video_token_id] * num_tokens_per_frame
+                    + [vision_end_token_id]
+                )
+            return PromptUpdateDetails.select_token_id(placeholder, video_token_id)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=hf_processor.image_token,
+                replacement=get_image_replacement_qwen3vl,
+            ),
+            # NOTE: We match string on purpose since searching sequence of
+            # token ids takes more time.
+            PromptReplacement(
+                modality="video",
+                target="<|vision_start|><|video_pad|><|vision_end|>",
+                replacement=get_video_replacement_qwen3vl,
+            ),
+        ]
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        # positions is of shape (3, seq_len) if mrope is enabled for qwen2-vl,
+        # otherwise (seq_len, ).
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+        # the same shape as input_embeds
+        "deepstack_input_embeds": 0,
+    }
+)
+class Qwen3LLMModel(Qwen3Model):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        if not get_pp_group().is_first_rank:
+            assert self.start_layer >= len(
+                vllm_config.model_config.hf_config.vision_config.deepstack_visual_indexes
+            ), (
+                "start_layer should be greater than or equal to "
+                "len(deepstack_visual_indexes)"
+            )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        # args for deepstack
+        deepstack_input_embeds: IntermediateTensors | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer_idx, layer in islice(
+            enumerate(self.layers), self.start_layer, self.end_layer
+        ):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+            if deepstack_input_embeds is not None and layer_idx in range(
+                0, len(deepstack_input_embeds)
+            ):
+                hidden_states = (
+                    hidden_states
+                    + deepstack_input_embeds[f"deepstack_input_embeds_{layer_idx}"]
+                )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class Qwen3LLMForCausalLM(Qwen3ForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super(Qwen3ForCausalLM, self).__init__()
+        config = vllm_config.model_config.hf_config.text_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = Qwen3LLMModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix="lm_head",
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen3VLMultiModalProcessor,
+    info=Qwen3VLProcessingInfo,
+    dummy_inputs=Qwen3VLDummyInputsBuilder,
+)
+class Qwen3VLForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
+):
+    merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
+
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    supports_encoder_tp_data = True
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.visual.": "visual.",
+            "lm_head.": "language_model.lm_head.",
+            "model.language_model.": "language_model.model.",
+        }
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|vision_start|><|image_pad|><|vision_end|>"
+        if modality.startswith("video"):
+            return "<|vision_start|><|video_pad|><|vision_end|>"
+
+        raise ValueError("Only image or video modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "model"):
+        super().__init__()
+        config: Qwen3VLConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+        if not multimodal_config.get_limit_per_prompt(
+            "image"
+        ) and not multimodal_config.get_limit_per_prompt("video"):
+            self.visual = None
+        else:
+            attn_backend_override = (
+                multimodal_config.mm_encoder_attn_backend
+                if multimodal_config is not None
+                else None
+            )
+            self.visual = Qwen3_VisionTransformer(
+                config.vision_config,
+                norm_eps=getattr(config, "rms_norm_eps", 1e-6),
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "visual"),
+                use_data_parallel=self.use_data_parallel,
+                attn_backend_override=attn_backend_override,
+            )
+
+        self.language_model = Qwen3LLMForCausalLM(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "language_model")
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+        self.use_deepstack = hasattr(config.vision_config, "deepstack_visual_indexes")
+        self.deepstack_num_level = (
+            len(config.vision_config.deepstack_visual_indexes)
+            if self.use_deepstack
+            else 0
+        )
+        # register buffer for deepstack
+        if self.use_deepstack and self.visual is not None:
+            self.deepstack_input_embeds = [
+                torch.zeros(
+                    vllm_config.scheduler_config.max_num_batched_tokens,
+                    config.text_config.hidden_size,
+                )
+                for _ in range(self.deepstack_num_level)
+            ]
+        else:
+            self.deepstack_input_embeds = None
+        self.visual_dim = config.vision_config.out_hidden_size
+        self.multiscale_dim = self.visual_dim * self.deepstack_num_level
+
+    def _get_deepstack_input_embeds(self, num_tokens: int) -> IntermediateTensors:
+        # get deepstack_input_embeds from buffer, and clear the buffer
+        return IntermediateTensors(
+            {
+                f"deepstack_input_embeds_{idx}": self.deepstack_input_embeds[idx][
+                    :num_tokens
+                ]
+                for idx in range(self.deepstack_num_level)
+            }
+        )
+
+    def _set_deepstack_input_embeds(self, deepstack_input_embeds: torch.Tensor) -> None:
+        # set deepstack_input_embeds to buffer
+        num_tokens = deepstack_input_embeds.size(1)
+        if num_tokens > self.deepstack_input_embeds[0].size(0):
+            self.deepstack_input_embeds = [
+                torch.zeros(
+                    num_tokens,
+                    self.config.text_config.hidden_size,
+                    device=self.deepstack_input_embeds[0].device,
+                    dtype=self.deepstack_input_embeds[0].dtype,
+                )
+                for _ in range(self.deepstack_num_level)
+            ]
+        for idx in range(self.deepstack_num_level):
+            self.deepstack_input_embeds[idx][:num_tokens].copy_(
+                deepstack_input_embeds[idx]
+            )
+
+    def _clear_deepstack_input_embeds(self, num_tokens: int) -> None:
+        # clear deepstack_input_embeds in buffer
+        if num_tokens > 0:
+            for idx in range(self.deepstack_num_level):
+                self.deepstack_input_embeds[idx][:num_tokens].zero_()
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Qwen2_5_VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Qwen2_5_VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+                image_grid_thw=image_grid_thw,
+            )
+
+        if image_embeds is not None:
+            return Qwen2_5_VLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds,
+                image_grid_thw=image_grid_thw,
+            )
+
+    def _parse_and_validate_video_input(
+        self, **kwargs: object
+    ) -> Qwen2_5_VLVideoInputs | None:
+        pixel_values_videos = kwargs.pop("pixel_values_videos", None)
+        video_embeds = kwargs.pop("video_embeds", None)
+        video_grid_thw = kwargs.pop("video_grid_thw", None)
+        second_per_grid_ts = kwargs.pop("second_per_grid_ts", None)
+
+        if pixel_values_videos is None and video_embeds is None:
+            return None
+
+        if pixel_values_videos is not None:
+            return Qwen2_5_VLVideoPixelInputs(
+                type="pixel_values_videos",
+                pixel_values_videos=pixel_values_videos,
+                video_grid_thw=video_grid_thw,
+                second_per_grid_ts=second_per_grid_ts,
+            )
+
+        if video_embeds is not None:
+            return Qwen2_5_VLVideoEmbeddingInputs(
+                type="video_embeds",
+                video_embeds=video_embeds,
+                video_grid_thw=video_grid_thw,
+            )
+
+    def _process_image_input(
+        self, image_input: Qwen2_5_VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = image_input["image_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        if image_input["type"] == "image_embeds":
+            image_embeds = image_input["image_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values = image_input["pixel_values"].type(self.visual.dtype)
+            if self.use_data_parallel:
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual, pixel_values, grid_thw.tolist(), rope_type="rope_3d"
+                )
+            else:
+                image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
+
+        # Split concatenated embeddings for each image item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return image_embeds.split(sizes)
+
+    def _process_video_input(
+        self, video_input: Qwen2_5_VLVideoInputs
+    ) -> tuple[torch.Tensor, ...]:
+        grid_thw = video_input["video_grid_thw"]
+        assert grid_thw.ndim == 2
+
+        if video_input["type"] == "video_embeds":
+            video_embeds = video_input["video_embeds"].type(self.visual.dtype)
+        else:
+            pixel_values_videos = video_input["pixel_values_videos"].type(
+                self.visual.dtype
+            )
+            if self.use_data_parallel:
+                grid_thw_list = grid_thw.tolist()
+                return run_dp_sharded_mrope_vision_model(
+                    self.visual, pixel_values_videos, grid_thw_list, rope_type="rope_3d"
+                )
+            else:
+                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
+
+        # Split concatenated embeddings for each video item.
+        merge_size = self.visual.spatial_merge_size
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
+        return video_embeds.split(sizes)
+
+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
+        mm_input_by_modality = {}
+        for input_key in kwargs:
+            if (
+                input_key in ("pixel_values", "image_embeds")
+                and "image" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["image"] = self._parse_and_validate_image_input(
+                    **kwargs
+                )
+            if (
+                input_key in ("pixel_values_videos", "video_embeds")
+                and "video" not in mm_input_by_modality
+            ):
+                mm_input_by_modality["video"] = self._parse_and_validate_video_input(
+                    **kwargs
+                )
+        return mm_input_by_modality
+
+    def iter_mm_grid_hw(
+        self, input_tokens: list[int], mm_features: list[MultiModalFeatureSpec]
+    ) -> Iterator[tuple[int, int, int]]:
+        video_token_id = self.config.video_token_id
+        spatial_merge_size = self.config.vision_config.spatial_merge_size
+        for mm_feature in sorted(mm_features, key=lambda f: f.mm_position.offset):
+            offset = mm_feature.mm_position.offset
+            if mm_feature.modality == "image":
+                t, h, w = mm_feature.data["image_grid_thw"].data.tolist()
+                assert t == 1, f"Image must have 1 frame, got {t}"
+                yield offset, h // spatial_merge_size, w // spatial_merge_size
+            elif mm_feature.modality == "video":
+                t, h, w = mm_feature.data["video_grid_thw"].data.tolist()
+                llm_grid_h = h // spatial_merge_size
+                llm_grid_w = w // spatial_merge_size
+                for _ in range(t):
+                    offset = input_tokens.index(video_token_id, offset)
+                    yield offset, llm_grid_h, llm_grid_w
+                    offset += llm_grid_h * llm_grid_w
+            else:
+                raise ValueError(f"Unsupported modality: {mm_feature.modality}")
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        llm_pos_ids_list = []
+        st = 0
+        for offset, llm_grid_h, llm_grid_w in self.iter_mm_grid_hw(
+            input_tokens, mm_features
+        ):
+            text_len = offset - st
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                np.broadcast_to(np.arange(text_len), (3, text_len)) + st_idx
+            )
+
+            grid_indices = np.indices((1, llm_grid_h, llm_grid_w)).reshape(3, -1)
+            llm_pos_ids_list.append(grid_indices + text_len + st_idx)
+            st = offset + llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                np.broadcast_to(np.arange(text_len), (3, text_len)) + st_idx
+            )
+
+        llm_positions = np.concatenate(llm_pos_ids_list, axis=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        return torch.from_numpy(llm_positions), mrope_position_delta
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
+        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
+        if not mm_input_by_modality:
+            return None
+
+        # The result multimodal_embeddings is tuple of tensors, with each
+        # tensor correspoending to a multimodal data item (image or video).
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+
+        # NOTE: It is important to iterate over the keys in this dictionary
+        # to preserve the order of the modalities.
+        for modality in mm_input_by_modality:
+            multimodal_input = mm_input_by_modality[modality]
+            if modality == "image":
+                image_embeddings = self._process_image_input(multimodal_input)
+                multimodal_embeddings += tuple(image_embeddings)
+            if modality == "video":
+                video_embeddings = self._process_video_input(multimodal_input)
+                multimodal_embeddings += tuple(video_embeddings)
+        return multimodal_embeddings
+
+    def _compute_deepstack_embeds(
+        self,
+        inputs_embeds: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings,
+        is_multimodal: torch.Tensor,
+    ) -> tuple[torch.Tensor, MultiModalEmbeddings]:
+        visual_lens = [len(x) for x in multimodal_embeddings]
+        multimodal_embeddings_cat = torch.cat(multimodal_embeddings, dim=0)
+
+        (
+            multimodal_embeddings_main,
+            multimodal_embeddings_multiscale,
+        ) = torch.split(
+            multimodal_embeddings_cat,
+            [self.visual_dim, self.multiscale_dim],
+            dim=-1,
+        )
+
+        multimodal_embeddings = torch.split(
+            multimodal_embeddings_main, visual_lens, dim=0
+        )
+        multimodal_embeddings_multiscale = torch.split(
+            multimodal_embeddings_multiscale, visual_lens, dim=0
+        )
+
+        deepstack_input_embeds = inputs_embeds.new_zeros(
+            inputs_embeds.size(0), self.deepstack_num_level * inputs_embeds.size(1)
+        )
+
+        deepstack_input_embeds = _merge_multimodal_embeddings(
+            inputs_embeds=deepstack_input_embeds,
+            multimodal_embeddings=multimodal_embeddings_multiscale,
+            is_multimodal=is_multimodal,
+        )
+        deepstack_input_embeds = deepstack_input_embeds.view(
+            inputs_embeds.shape[0], self.deepstack_num_level, self.visual_dim
+        )
+        deepstack_input_embeds = deepstack_input_embeds.permute(1, 0, 2)
+
+        return deepstack_input_embeds, multimodal_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        inputs_embeds = self._embed_text_input_ids(
+            input_ids,
+            self.language_model.embed_input_ids,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+        if multimodal_embeddings is None or len(multimodal_embeddings) == 0:
+            return inputs_embeds
+
+        if is_multimodal is None:
+            raise ValueError(
+                "`embed_input_ids` now requires `is_multimodal` arg, "
+                "please update your model runner according to "
+                "https://github.com/vllm-project/vllm/pull/16229."
+            )
+
+        if self.use_deepstack:
+            (
+                deepstack_input_embeds,
+                multimodal_embeddings,
+            ) = self._compute_deepstack_embeds(
+                inputs_embeds=inputs_embeds,
+                multimodal_embeddings=multimodal_embeddings,
+                is_multimodal=is_multimodal,
+            )
+        else:
+            deepstack_input_embeds = None
+
+        inputs_embeds = _merge_multimodal_embeddings(
+            inputs_embeds=inputs_embeds,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+        )
+
+        if deepstack_input_embeds is not None:
+            self._set_deepstack_input_embeds(deepstack_input_embeds)
+
+        return inputs_embeds
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Qwen3VL.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Flattened (concatenated) position ids corresponding to a
+                batch.
+                **NOTE**: If mrope is enabled (default setting for Qwen3VL
+                opensource models), the shape will be `(3, seq_len)`,
+                otherwise it will be `(seq_len,).
+            intermediate_tensors: Intermediate tensors from previous pipeline
+                stages.
+            inputs_embeds: Pre-computed input embeddings.
+            **kwargs: Additional keyword arguments including:
+                - pixel_values: Pixel values to be fed to a model.
+                    `None` if no images are passed.
+                - image_grid_thw: Tensor `(n_images, 3)` of image 3D grid in
+                    LLM. `None` if no images are passed.
+                - pixel_values_videos: Pixel values of videos to be fed to a
+                    model. `None` if no videos are passed.
+                - video_grid_thw: Tensor `(n_videos, 3)` of video 3D grid in
+                    LLM. `None` if no videos are passed.
+        """
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        if (
+            self.use_deepstack
+            and inputs_embeds is not None
+            and get_pp_group().is_first_rank
+        ):
+            deepstack_input_embeds = self._get_deepstack_input_embeds(
+                inputs_embeds.size(0)
+            )
+        else:
+            deepstack_input_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            # args for deepstack
+            deepstack_input_embeds=deepstack_input_embeds,
+        )
+
+        if inputs_embeds is not None and get_pp_group().is_first_rank:
+            self._clear_deepstack_input_embeds(inputs_embeds.size(0))
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = []
+        if self.visual is None:
+            skip_prefixes.extend(["visual."])
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="visual.merger",
+            tower_model="visual.",
+        )
diff --git a/model_executor/models/qwen3_vl_moe.py b/model_executor/models/qwen3_vl_moe.py
new file mode 100644
index 0000000..5c3205f
--- /dev/null
+++ b/model_executor/models/qwen3_vl_moe.py
@@ -0,0 +1,415 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The vLLM team.
+# Copyright 2025 The Qwen Team.
+# Copyright 2025 The HuggingFace Inc. team.
+# All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Qwen3-VL-MoE model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+
+import torch
+from transformers.models.qwen3_vl_moe.configuration_qwen3_vl_moe import Qwen3VLMoeConfig
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.sequence import IntermediateTensors
+
+from .qwen3_moe import Qwen3MoeForCausalLM, Qwen3MoeModel
+from .qwen3_vl import (
+    Qwen3_VisionTransformer,
+    Qwen3VLDummyInputsBuilder,
+    Qwen3VLForConditionalGeneration,
+    Qwen3VLMultiModalProcessor,
+    Qwen3VLProcessingInfo,
+)
+from .utils import is_pp_missing_parameter, maybe_prefix
+
+logger = init_logger(__name__)
+
+
+class Qwen3VLMoeProcessingInfo(Qwen3VLProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(Qwen3VLMoeConfig)
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        # positions is of shape (3, seq_len) if mrope is enabled for qwen2-vl,
+        # otherwise (seq_len, ).
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+        # the same shape as input_embeds
+        "deepstack_input_embeds": 0,
+    }
+)
+class Qwen3MoeLLMModel(Qwen3MoeModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        if not get_pp_group().is_first_rank:
+            assert self.start_layer >= len(
+                vllm_config.model_config.hf_config.vision_config.deepstack_visual_indexes
+            ), (
+                "start_layer should be greater than or equal to "
+                "len(deepstack_visual_indexes)"
+            )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        deepstack_input_embeds: IntermediateTensors | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer_idx, layer in islice(
+            enumerate(self.layers), self.start_layer, self.end_layer
+        ):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+            if deepstack_input_embeds is not None and layer_idx in range(
+                0, len(deepstack_input_embeds)
+            ):
+                hidden_states = (
+                    hidden_states
+                    + deepstack_input_embeds[f"deepstack_input_embeds_{layer_idx}"]
+                )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_fused_expert_weights(
+        self,
+        name: str,
+        params_dict: dict,
+        loaded_weight: torch.Tensor,
+        shard_id: str,
+        num_experts: int,
+    ) -> bool:
+        param = params_dict[name]
+        weight_loader = typing.cast(Callable[..., bool], param.weight_loader)
+        loaded_local_expert = False
+        for expert_id in range(num_experts):
+            curr_expert_weight = loaded_weight[expert_id]
+            success = weight_loader(
+                param,
+                curr_expert_weight,
+                name,
+                shard_id,
+                expert_id,
+                return_success=True,
+            )
+            if success:
+                loaded_local_expert = True
+
+        return loaded_local_expert
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        # Skip loading extra parameters for GPTQ/modelopt models.
+        ignore_suffixes = (
+            ".bias",
+            "_bias",
+            ".k_scale",
+            "_k_scale",
+            ".v_scale",
+            "_v_scale",
+            ".weight_scale",
+            "_weight_scale",
+            ".input_scale",
+            "_input_scale",
+        )
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+        is_fused_expert = False
+        fused_expert_params_mapping = [
+            ("experts.w13_weight", "experts.gate_up_proj", 0, "w1"),
+            ("experts.w2_weight", "experts.down_proj", 0, "w2"),
+        ]
+        num_experts = self.config.num_experts
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if "experts.gate_up_proj" in name or "experts.down_proj" in name:
+                    is_fused_expert = True
+                    expert_params_mapping = fused_expert_params_mapping
+
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra parameters for GPTQ/modelopt models.
+                if name.endswith(ignore_suffixes) and name not in params_dict:
+                    continue
+                # Skip layers on other devices.
+                if is_pp_missing_parameter(name, self):
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                if name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+                    name_mapped = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+                    if is_fused_expert:
+                        loaded_weight = loaded_weight.transpose(-1, -2)  # no bias
+                        if "experts.gate_up_proj" in name:
+                            loaded_weight = loaded_weight.chunk(2, dim=-2)
+                            success_w1 = self.load_fused_expert_weights(
+                                name_mapped,
+                                params_dict,
+                                loaded_weight[0],
+                                "w1",
+                                num_experts,
+                            )
+                            success_w3 = self.load_fused_expert_weights(
+                                name_mapped,
+                                params_dict,
+                                loaded_weight[1],
+                                "w3",
+                                num_experts,
+                            )
+                            success = success_w1 and success_w3
+                        else:
+                            # down_proj
+                            success = self.load_fused_expert_weights(
+                                name_mapped,
+                                params_dict,
+                                loaded_weight,
+                                shard_id,
+                                num_experts,
+                            )
+                    else:
+                        # Skip loading extra parameters for GPTQ/modelopt models
+                        if (
+                            name_mapped.endswith(ignore_suffixes)
+                            and name_mapped not in params_dict
+                        ):
+                            continue
+                        param = params_dict[name_mapped]
+                        # We should ask the weight loader to return success or
+                        # not here since otherwise we may skip experts with
+                        # other available replicas.
+                        weight_loader = typing.cast(
+                            Callable[..., bool], param.weight_loader
+                        )
+                        success = weight_loader(
+                            param,
+                            loaded_weight,
+                            name_mapped,
+                            shard_id=shard_id,
+                            expert_id=expert_id,
+                            return_success=True,
+                        )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+                    # Skip loading extra parameters for GPTQ/modelopt models.
+                    if name.endswith(ignore_suffixes) and name not in params_dict:
+                        continue
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    if name.endswith("kv_scale"):
+                        remapped_kv_scale_name = name.replace(
+                            ".kv_scale", ".attn.kv_scale"
+                        )
+                        if remapped_kv_scale_name not in params_dict:
+                            logger.warning_once(
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
+                            continue
+                        else:
+                            name = remapped_kv_scale_name
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Qwen3MoeLLMForCausalLM(Qwen3MoeForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super(Qwen3MoeForCausalLM, self).__init__()
+        self.config = vllm_config.model_config.hf_config.text_config
+        self.quant_config = vllm_config.quant_config
+        self.model = Qwen3MoeLLMModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(self.config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Qwen3VLMultiModalProcessor,
+    info=Qwen3VLMoeProcessingInfo,
+    dummy_inputs=Qwen3VLDummyInputsBuilder,
+)
+class Qwen3VLMoeForConditionalGeneration(Qwen3VLForConditionalGeneration):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super(Qwen3VLForConditionalGeneration, self).__init__()
+        config: Qwen3VLMoeConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+
+        if not multimodal_config.get_limit_per_prompt(
+            "image"
+        ) and not multimodal_config.get_limit_per_prompt("video"):
+            self.visual = None
+        else:
+            self.visual = Qwen3_VisionTransformer(
+                config.vision_config,
+                norm_eps=getattr(config, "rms_norm_eps", 1e-6),
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "visual"),
+                use_data_parallel=self.use_data_parallel,
+            )
+
+        self.language_model = Qwen3MoeLLMForCausalLM(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "language_model")
+        )
+        # Whether to include the gate_up_proj mapping is determined by
+        # the language model.
+        self.packed_modules_mapping = (
+            self.packed_modules_mapping | self.language_model.packed_modules_mapping
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+        self.use_deepstack = hasattr(config.vision_config, "deepstack_visual_indexes")
+        self.deepstack_num_level = (
+            len(config.vision_config.deepstack_visual_indexes)
+            if self.use_deepstack
+            else 0
+        )
+        # register buffer for deepstack
+        if self.use_deepstack and self.visual is not None:
+            self.deepstack_input_embeds = [
+                torch.zeros(
+                    vllm_config.scheduler_config.max_num_batched_tokens,
+                    config.text_config.hidden_size,
+                )
+                for _ in range(self.deepstack_num_level)
+            ]
+        else:
+            self.deepstack_input_embeds = None
+        self.visual_dim = config.vision_config.out_hidden_size
+        self.multiscale_dim = self.visual_dim * self.deepstack_num_level
diff --git a/model_executor/models/qwen_vl.py b/model_executor/models/qwen_vl.py
new file mode 100644
index 0000000..f605eee
--- /dev/null
+++ b/model_executor/models/qwen_vl.py
@@ -0,0 +1,804 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/Qwen/Qwen-VL/blob/main/modeling_qwen.py
+# Copyright (c) Alibaba Cloud.
+"""Inference-only Qwen-VL model compatible with HuggingFace weights."""
+
+import copy
+import math
+import unicodedata
+from collections.abc import Callable, Collection, Mapping, Sequence, Set
+from functools import lru_cache, partial
+from typing import Annotated, Literal, TypeAlias
+
+import regex as re
+import torch
+from torch import nn
+from torchvision import transforms
+from torchvision.transforms import InterpolationMode
+from transformers import BatchFeature, PretrainedConfig, PreTrainedTokenizer, TensorType
+from transformers.image_utils import ImageInput
+from transformers.tokenization_utils_base import TextInput
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.resampler import Resampler2, get_abs_pos
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .qwen import QWenBaseModel, QWenModel
+
+
+class QwenImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+
+    Note that image_size is the value in the vision config to which we resize
+    the image to in the normalization transform. Currently multi-image support
+    can only be leveraged by passing image embeddings directly.
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class QwenImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size (256)
+        - hs: Hidden size
+
+    `hidden_size` must match the hidden size of the language model backbone
+    and is stored in the visual config of the model if we have one.
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", 256, "hs")]
+
+
+QwenImageInputs: TypeAlias = QwenImagePixelInputs | QwenImageEmbeddingInputs
+
+
+class VisualAttention(nn.Module):
+    """self-attention layer class.
+    Self-attention layer takes input with size [s, b, h]
+    and returns output of the same size.
+    """
+
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        bias: bool = True,
+        kdim: int | None = None,
+        vdim: int | None = None,
+    ):
+        super().__init__()
+        self.embed_dim = embed_dim
+        self.kdim = kdim if kdim is not None else embed_dim
+        self.vdim = vdim if vdim is not None else embed_dim
+        self._qkv_same_embed_dim = self.kdim == embed_dim and self.vdim == embed_dim
+
+        self.num_heads = num_heads
+
+        # Per attention head and per partition values.
+        assert embed_dim % num_heads == 0
+        self.hidden_size_per_attention_head = embed_dim // num_heads
+        self.num_attention_heads_per_partition = num_heads
+        self.hidden_size_per_partition = embed_dim
+
+        # Strided linear layer.
+        assert self._qkv_same_embed_dim, (
+            "Visual Attention implementation only supports self-attention"
+        )
+        self.in_proj = ReplicatedLinear(embed_dim, 3 * embed_dim)
+        self.out_proj = ReplicatedLinear(embed_dim, embed_dim)
+        self.norm_factor = math.sqrt(self.hidden_size_per_attention_head)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        attn_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # query/key/value: [sq, b, h]
+        sq, b, _ = x.size()
+        mixed_x_layer, _ = self.in_proj(x)
+
+        # [sq, b, (np * 3 * hn)] --> [sq, b, np, 3 * hn]
+        new_tensor_shape = mixed_x_layer.size()[:-1] + (
+            self.num_attention_heads_per_partition,
+            3 * self.hidden_size_per_attention_head,
+        )
+        mixed_x_layer = mixed_x_layer.view(*new_tensor_shape)
+
+        # [sq, b, np, 3 * hn] --> 3 [sq, b, np, hn]
+        query_layer, key_layer, value_layer = mixed_x_layer.split(
+            self.hidden_size_per_attention_head, dim=-1
+        )
+
+        # [sq, b, np, hn] -> [sq, b * np, hn]
+        query_layer = query_layer.view(
+            sq,
+            b * self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        ).transpose(0, 1)
+        # [sk, b, np, hn] -> [sk, b * np, hn]
+        key_layer = key_layer.view(
+            sq,
+            b * self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        ).transpose(0, 1)
+
+        q_scaled = query_layer / self.norm_factor
+        if attn_mask is not None:
+            attention_probs = torch.baddbmm(
+                attn_mask, q_scaled, key_layer.transpose(-2, -1)
+            )
+        else:
+            attention_probs = torch.bmm(q_scaled, key_layer.transpose(-2, -1))
+        attention_probs = attention_probs.softmax(dim=-1)
+
+        value_layer = value_layer.view(
+            sq,
+            b * self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        ).transpose(0, 1)
+
+        # matmul: [b * np, sq, hn]
+        context_layer = torch.bmm(attention_probs, value_layer)
+
+        # change view [b, np, sq, hn]
+        context_layer = context_layer.view(
+            b,
+            self.num_attention_heads_per_partition,
+            sq,
+            self.hidden_size_per_attention_head,
+        )
+
+        # [b, np, sq, hn] --> [sq, b, np, hn]
+        context_layer = context_layer.permute(2, 0, 1, 3).contiguous()
+
+        # [sq, b, np, hn] --> [sq, b, hp]
+        new_context_layer_shape = context_layer.size()[:-2] + (
+            self.hidden_size_per_partition,
+        )
+        context_layer = context_layer.view(*new_context_layer_shape)
+
+        output, _ = self.out_proj(context_layer)
+
+        return output
+
+
+class QwenVLMLP(nn.Module):
+    """MLP for the visual component of the Qwen model."""
+
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.c_fc = ColumnParallelLinear(
+            hidden_size, intermediate_size, bias=True, quant_config=quant_config
+        )
+        self.act_fn = get_act_fn("gelu")
+        self.c_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=True,
+            quant_config=quant_config,
+        )
+
+    def forward(self, x):
+        x, _ = self.c_fc(x)
+        x = self.act_fn(x)
+        x, _ = self.c_proj(x)
+        return x
+
+
+class VisualAttentionBlock(nn.Module):
+    def __init__(
+        self,
+        d_model: int,
+        n_head: int,
+        mlp_ratio: float = 4.0,
+        norm_layer: Callable[[int], nn.Module] = nn.LayerNorm,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+
+        self.ln_1 = norm_layer(d_model)
+        self.ln_2 = norm_layer(d_model)
+        mlp_width = int(d_model * mlp_ratio)
+        self.attn = VisualAttention(d_model, n_head)
+        self.mlp = QwenVLMLP(
+            hidden_size=d_model,
+            intermediate_size=mlp_width,
+            quant_config=quant_config,
+        )
+
+    def attention(
+        self,
+        x: torch.Tensor,
+        attn_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        attn_mask = attn_mask.to(x.dtype) if attn_mask is not None else None
+        return self.attn(x, attn_mask=attn_mask)
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        attn_mask: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        x = x + self.attention(self.ln_1(x), attn_mask=attn_mask)
+        x = x + self.mlp(self.ln_2(x))
+        return x
+
+
+class TransformerBlock(nn.Module):
+    def __init__(
+        self,
+        width: int,
+        layers: int,
+        heads: int,
+        mlp_ratio: float = 4.0,
+        norm_layer: Callable[[int], nn.Module] = nn.LayerNorm,
+        quant_config: QuantizationConfig | None = None,
+    ):
+        super().__init__()
+        self.width = width
+        self.layers = layers
+
+        self.resblocks = nn.ModuleList(
+            [
+                VisualAttentionBlock(
+                    width,
+                    heads,
+                    mlp_ratio,
+                    norm_layer=norm_layer,
+                    quant_config=quant_config,
+                )
+                for _ in range(layers)
+            ]
+        )
+
+    def get_cast_dtype(self) -> torch.dtype:
+        return self.resblocks[0].mlp.c_fc.weight.dtype
+
+    def get_cast_device(self) -> torch.device:
+        return self.resblocks[0].mlp.c_fc.weight.device
+
+    def forward(
+        self, x: torch.Tensor, attn_mask: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        for r in self.resblocks:
+            x = r(x, attn_mask=attn_mask)
+        return x
+
+
+class VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        image_size: int,
+        patch_size: int,
+        width: int,
+        layers: int,
+        heads: int,
+        mlp_ratio: float,
+        n_queries: int = 256,
+        output_dim: int = 512,
+        image_start_id: int = 151857,
+        quant_config: QuantizationConfig | None = None,
+        **kwargs,
+    ):
+        super().__init__()
+        image_height, image_width = self.image_size = (image_size, image_size)
+        patch_height, patch_width = self.patch_size = (patch_size, patch_size)
+        self.grid_size = (image_height // patch_height, image_width // patch_width)
+        self.output_dim = output_dim
+        self.conv1 = nn.Conv2d(
+            in_channels=3,
+            out_channels=width,
+            kernel_size=patch_size,
+            stride=patch_size,
+            bias=False,
+        )
+
+        # class embeddings and positional embeddings
+        scale = width**-0.5
+        self.positional_embedding = nn.Parameter(scale * torch.randn(256, width))
+
+        norm_layer = partial(nn.LayerNorm, eps=1e-6)
+
+        self.ln_pre = norm_layer(width)
+        self.transformer = TransformerBlock(
+            width,
+            layers,
+            heads,
+            mlp_ratio,
+            norm_layer=norm_layer,
+            quant_config=quant_config,
+        )
+
+        self.attn_pool = Resampler2(
+            grid_size=int(math.sqrt(n_queries)),
+            embed_dim=output_dim,
+            num_heads=output_dim // 128,
+            kv_dim=width,
+            norm_layer=norm_layer,
+            adaptive=False,
+            do_post_projection=False,
+        ).to(
+            device=self.positional_embedding.device,
+            dtype=self.positional_embedding.dtype,
+        )
+
+        self.ln_post = norm_layer(output_dim)
+        self.proj = nn.Parameter(
+            (output_dim**-0.5) * torch.randn(output_dim, output_dim)
+        )
+
+        self.image_start_id = image_start_id
+        self.image_end_id = image_start_id + 1
+        self.image_pad_id = image_start_id + 2
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = x.to(
+            dtype=self.transformer.get_cast_dtype(),
+            device=self.transformer.get_cast_device(),
+        )
+
+        # to patches
+        x = self.conv1(x)  # shape = [*, width, grid, grid]
+        x = x.reshape(x.shape[0], x.shape[1], -1)  # shape = [*, width, grid ** 2]
+        x = x.permute(0, 2, 1)  # shape = [*, grid ** 2, width]
+
+        x = x + get_abs_pos(self.positional_embedding, int(math.sqrt(x.size(1))))
+
+        x = self.ln_pre(x)
+
+        x = x.permute(1, 0, 2)  # NLD -> LND
+        x = self.transformer(x)
+        x = x.permute(1, 0, 2)  # LND -> NLD
+
+        x = self.attn_pool(x)
+        x = self.ln_post(x)
+        x = x @ self.proj
+
+        return x
+
+
+class QwenVLModel(QWenModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.visual = VisionTransformer(**config.visual, quant_config=quant_config)
+
+
+@lru_cache(maxsize=1)
+def _get_tokenizer_without_image_pad(
+    tokenizer: PreTrainedTokenizer,
+) -> PreTrainedTokenizer:
+    """
+    The logic of adding image pad tokens should only be applied in
+    [`QwenVLProcessor`][vllm.model_executor.models.qwen_vl.QwenVLProcessor],
+    so they are patched out here.
+
+    The definition of the wrapped tokenizer can be found here:
+    https://huggingface.co/Qwen/Qwen-VL/blob/main/tokenization_qwen.py
+    """
+    new_tokenizer = copy.deepcopy(tokenizer)
+
+    class TokenizerWithoutImagePad(tokenizer.__class__):  # type: ignore
+        def tokenize(
+            self,
+            text: str,
+            allowed_special: Set[str] | str = "all",
+            disallowed_special: Collection[str] | str = (),
+            **kwargs,
+        ) -> list[bytes | str]:
+            text = unicodedata.normalize("NFC", text)
+
+            return [
+                self.decoder[t]
+                for t in self.tokenizer.encode(
+                    text,
+                    allowed_special=allowed_special,
+                    disallowed_special=disallowed_special,
+                )
+            ]
+
+        def _decode(
+            self,
+            token_ids: int | list[int],
+            skip_special_tokens: bool = False,
+            errors: str | None = None,
+            **kwargs,
+        ) -> str:
+            if isinstance(token_ids, int):
+                token_ids = [token_ids]
+
+            return self.tokenizer.decode(
+                token_ids,
+                errors=errors or self.errors,
+            )
+
+    TokenizerWithoutImagePad.__name__ = f"{tokenizer.__class__.__name__}WithoutImagePad"
+
+    new_tokenizer.__class__ = TokenizerWithoutImagePad
+    return new_tokenizer
+
+
+class QwenVLProcessor:
+    """
+    This model doesn't define its own HF processor,
+    so we implement our own one here.
+
+    We call the wrapped tokenizer to automatically insert image pad tokens:
+    https://huggingface.co/Qwen/Qwen-VL/blob/main/tokenization_qwen.py#L245
+
+    The image processor is defined here:
+    https://huggingface.co/Qwen/Qwen-VL/blob/main/visual.py#L354
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: PreTrainedTokenizer,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        vision_config = config.visual
+        image_size = vision_config["image_size"]
+
+        self.image_transform = transforms.Compose(
+            [
+                transforms.Resize(
+                    (image_size, image_size),
+                    interpolation=InterpolationMode.BICUBIC,
+                ),
+                transforms.ToTensor(),
+                transforms.Normalize(
+                    mean=(0.48145466, 0.4578275, 0.40821073),
+                    std=(0.26862954, 0.26130258, 0.27577711),
+                ),
+            ]
+        )
+
+    @property
+    def image_start_tag(self) -> str:
+        return self.tokenizer.image_start_tag  # type: ignore
+
+    @property
+    def image_end_tag(self) -> str:
+        return self.tokenizer.image_end_tag  # type: ignore
+
+    @property
+    def image_pad_tag(self) -> str:
+        return self.tokenizer.image_pad_tag  # type: ignore
+
+    def __call__(
+        self,
+        text: TextInput | list[TextInput] | None = None,
+        images: ImageInput | list[ImageInput] | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        text_inputs = self.tokenizer(text)
+
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values = [self.image_transform(image) for image in images]
+            image_inputs = {"pixel_values": torch.stack(pixel_values)}
+
+        return BatchFeature(
+            {
+                **text_inputs,
+                **image_inputs,
+            },
+            tensor_type=return_tensors,
+        )
+
+
+class QwenVLProcessingInfo(BaseProcessingInfo):
+    def get_tokenizer(self) -> PreTrainedTokenizer:
+        tokenizer = self.ctx.tokenizer
+        assert isinstance(tokenizer, PreTrainedTokenizer)
+
+        return _get_tokenizer_without_image_pad(tokenizer)
+
+    def get_hf_processor(self, **kwargs: object) -> QwenVLProcessor:
+        return self.ctx.init_processor(
+            QwenVLProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(self) -> int:
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.visual
+
+        image_size = vision_config["image_size"]
+        patch_size = vision_config["patch_size"]
+        grid_length = image_size // patch_size // 2
+        return grid_length * grid_length
+
+
+class QwenVLDummyInputsBuilder(BaseDummyInputsBuilder[QwenVLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        hf_processor = self.info.get_hf_processor()
+        img_start = hf_processor.image_start_tag
+        img_end = hf_processor.image_end_tag
+
+        return "".join(
+            f"Picture {i}: {img_start}{img_end}\n" for i in range(1, num_images + 1)
+        )
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        hf_config = self.info.get_hf_config()
+        vision_config = hf_config.visual
+
+        target_width = target_height = vision_config["image_size"]
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class QwenVLMultiModalProcessor(BaseMultiModalProcessor[QwenVLProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # Drops anything between <img>/</img> tags; encoding with the tokenizer
+        # will automatically add the image pads for the context.
+        prompt, num_matched_images = re.subn(
+            r"(Picture \d*: <img>).*?(<\/img>\n)",
+            r"\1\2",
+            prompt,
+        )
+
+        image_data = mm_data.get("images")
+        if image_data is not None:
+            assert isinstance(image_data, list)
+
+            num_images = len(image_data)
+            assert num_matched_images == num_images
+
+        return super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        tokenizer = self.info.get_tokenizer()
+        special_tokens: dict[str, int] = tokenizer.special_tokens  # type: ignore
+
+        processor = self.info.get_hf_processor()
+        img_start_id = special_tokens[processor.image_start_tag]
+        img_end_id = special_tokens[processor.image_end_tag]
+        img_pad_id = special_tokens[processor.image_pad_tag]
+
+        num_image_tokens = self.info.get_num_image_tokens()
+        image_tokens = [img_pad_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[img_start_id, img_end_id],
+                replacement=PromptUpdateDetails.select_token_id(
+                    [img_start_id] + image_tokens + [img_end_id],
+                    embed_token_id=img_pad_id,
+                ),
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    QwenVLMultiModalProcessor,
+    info=QwenVLProcessingInfo,
+    dummy_inputs=QwenVLDummyInputsBuilder,
+)
+class QwenVLForConditionalGeneration(
+    QWenBaseModel, SupportsPP, SupportsLoRA, SupportsMultiModal
+):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "c_attn": ["c_attn"],
+        "gate_up_proj": [
+            "w2",
+            "w1",
+        ],
+    }
+    
+    embed_input_ids = SupportsMultiModal.embed_input_ids
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="transformer.h",
+            connector="transformer.visual.attn_pool",
+            tower_model="transformer.visual.transformer",
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return f"Picture {i}: <img></img>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        transformer_type: type[QwenVLModel] = QwenVLModel,
+    ) -> None:
+        super().__init__(
+            vllm_config=vllm_config,
+            prefix=prefix,
+            transformer_type=transformer_type,
+        )
+
+        self.transformer: QwenVLModel
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> QwenImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is not None:
+            expected_h = expected_w = self.config.visual["image_size"]
+            resolve_bindings = {"h": expected_h, "w": expected_w}
+
+            return QwenImagePixelInputs(
+                type="pixel_values",
+                data=pixel_values,
+                resolve_bindings=resolve_bindings,
+            )
+
+        if image_embeds is not None:
+            return QwenImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        return None
+
+    def _process_image_input(self, image_input: QwenImageInputs) -> torch.Tensor:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        return self.transformer.visual(image_input["data"])
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.transformer
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.transformer(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
diff --git a/model_executor/models/radio.py b/model_executor/models/radio.py
new file mode 100644
index 0000000..6a42564
--- /dev/null
+++ b/model_executor/models/radio.py
@@ -0,0 +1,555 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2023-2024, NVIDIA CORPORATION.  All rights reserved.
+#
+# NVIDIA CORPORATION and its licensors retain all intellectual property
+# and proprietary rights in and to this software, related documentation
+# and any modifications thereto.  Any use, reproduction, disclosure or
+# distribution of this software and related documentation without an express
+# license agreement from NVIDIA CORPORATION is strictly prohibited.
+
+import math
+from collections.abc import Iterable
+from itertools import repeat
+from typing import TypeAlias
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+from transformers import PretrainedConfig
+
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.intern_vit import InternVisionEncoder
+
+input_dim_t: TypeAlias = int | tuple[int, int]
+norm_t: TypeAlias = tuple[float, float, float] | torch.Tensor
+
+
+def _ntuple(n):
+    def parse(x):
+        if isinstance(x, Iterable) and not isinstance(x, str):
+            return tuple(x)
+        return tuple(repeat(x, n))
+
+    return parse
+
+
+to_1tuple = _ntuple(1)
+to_2tuple = _ntuple(2)
+to_3tuple = _ntuple(3)
+to_4tuple = _ntuple(4)
+to_ntuple = _ntuple
+
+
+class ClsToken(nn.Module):
+    def __init__(
+        self,
+        ndim: int,
+        num_tokens: int = 1,
+        enabled: bool = True,
+        register_multiple: int | None = None,
+        num_registers: int | None = None,
+    ):
+        super().__init__()
+
+        self.ndim = ndim
+        self.enabled = enabled
+        self.num_registers = 0
+        self.num_tokens = num_tokens
+        if enabled:
+            if num_registers:
+                self.num_registers = num_registers
+            elif register_multiple:
+                self.num_registers = register_multiple - (
+                    num_tokens % register_multiple
+                )
+
+            scale = ndim**-0.5
+            self.token = nn.Parameter(
+                torch.randn(num_tokens + self.num_registers, ndim) * scale
+            )
+
+        else:
+            self.token = None
+
+        self.num_patches = self.num_tokens + self.num_registers
+
+    def forward(self, x: torch.Tensor):
+        if self.token is None:
+            return x
+
+        token = self.token.unsqueeze(0).expand(x.shape[0], -1, -1)
+        x = torch.cat(
+            [
+                token,
+                x,
+            ],
+            dim=1,
+        )
+
+        return x
+
+
+class ViTPatchGenerator(nn.Module):
+    def __init__(
+        self,
+        #  config: PretrainedConfig,
+        patch_size: int,
+        embed_dim: int,
+        input_dims: input_dim_t,
+        abs_pos: bool = True,
+        normalize_patches: bool = False,
+        cls_token: bool = False,
+        max_input_dims: input_dim_t | None = None,
+        pos_dropout: float = 0.0,
+        return_pos_enc: bool = False,
+        num_cls_tokens: int = 1,
+        register_multiple: int | None = None,
+        num_registers: int | None = None,
+        patch_bias: bool = False,
+        device=None,
+        dtype=None,
+    ):
+        super().__init__()
+        if isinstance(input_dims, int):
+            input_dims = (input_dims, input_dims)
+
+        if max_input_dims is None:
+            max_input_dims = input_dims
+        if isinstance(max_input_dims, int):
+            max_input_dims = (max_input_dims, max_input_dims)
+
+        max_input_dims = tuple(
+            int(math.ceil(d / patch_size) * patch_size) for d in max_input_dims
+        )
+
+        self.cpe_mode = max_input_dims != input_dims
+        self.pos_dropout = pos_dropout
+        self.return_pos_enc = return_pos_enc
+
+        factory = dict(device=device, dtype=dtype)
+
+        self.patch_size = patch_size
+        self.abs_pos = abs_pos
+        self.embed_dim = embed_dim
+
+        self.num_rows = max_input_dims[0] // patch_size
+        self.num_cols = max_input_dims[1] // patch_size
+        self.input_dims = tuple(d // patch_size for d in input_dims)
+        self.num_patches = self.num_rows * self.num_cols
+        self.max_input_dims = max_input_dims
+
+        self.im_to_patches = Im2Patches(patch_size)
+        self.embedder = ViTPatchLinear(
+            patch_size, embed_dim, bias=patch_bias, **factory
+        )
+
+        if abs_pos:
+            scale = embed_dim**-0.5
+            self.pos_embed = nn.Parameter(
+                torch.randn(1, self.num_patches, embed_dim, **factory) * scale
+            )
+
+        self.cls_token = ClsToken(
+            embed_dim,
+            num_tokens=num_cls_tokens,
+            enabled=cls_token,
+            register_multiple=register_multiple,
+            num_registers=num_registers,
+        )
+
+        self.patch_normalizer = (
+            nn.LayerNorm(embed_dim) if normalize_patches else nn.Identity()
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        patches = self.embed_patches(x)
+        patches, pos_enc = self.apply_pos_enc(patches, input_size=x.shape[2:])
+        patches = self.cls_token(patches)
+        patches = self.patch_normalizer(patches)
+        if self.return_pos_enc:
+            return patches, pos_enc
+        return patches
+
+    @property
+    def apply_cls_token(self):
+        return self.cls_token.enabled
+
+    @property
+    def num_cls_tokens(self):
+        return self.cls_token.num_tokens
+
+    @property
+    def num_cls_patches(self):
+        return self.cls_token.num_patches
+
+    @property
+    def num_registers(self):
+        return self.cls_token.num_registers
+
+    @property
+    def num_skip(self):
+        return self.num_cls_tokens + self.num_registers
+
+    def _load_embed(self, src_embed: torch.Tensor, targ_embed: nn.Parameter):
+        if src_embed.shape != targ_embed.shape:
+            src_size = int(math.sqrt(src_embed.shape[1]))
+
+            assert src_size**2 == src_embed.shape[1], (
+                "Unable to interpolate non-square embedding"
+            )
+
+            src_embed = rearrange(
+                src_embed, "b (h w) c -> b c h w", h=src_size, w=src_size
+            )
+            src_embed = F.interpolate(
+                src_embed,
+                size=(self.num_rows, self.num_cols),
+                mode="bicubic",
+                align_corners=True,
+                antialias=False,
+            )
+            src_embed = rearrange(src_embed, "b c h w -> b (h w) c")
+        targ_embed.data.copy_(src_embed)
+
+    def _load_projection(
+        self, src_proj_weight: torch.Tensor, targ_proj_weight: torch.Tensor
+    ):
+        if src_proj_weight.shape != targ_proj_weight.shape:
+            src_patch_size = int(math.sqrt(src_proj_weight.shape[1] // 3))
+
+            assert (src_patch_size**2) * 3 == src_proj_weight.shape[1], (
+                "Unable to interpolate non-square patch size"
+            )
+
+            src_proj_weight = rearrange(
+                src_proj_weight,
+                "b (c h w) -> b c h w",
+                c=3,
+                h=src_patch_size,
+                w=src_patch_size,
+            )
+            src_proj_weight = F.interpolate(
+                src_proj_weight,
+                size=(self.patch_size, self.patch_size),
+                mode="bicubic",
+                align_corners=True,
+                antialias=False,
+            )
+            src_proj_weight = rearrange(src_proj_weight, "b c h w -> b (c h w)")
+        targ_proj_weight.data.copy_(src_proj_weight)
+
+    def embed_patches(self, x: torch.Tensor) -> torch.Tensor:
+        patches = self.im_to_patches(x)
+        patches = self.embedder(patches)
+        return patches
+
+    def apply_pos_enc(
+        self,
+        patches: torch.Tensor,
+        patch_idxs: torch.Tensor | None = None,
+        input_size: tuple[int, int] | None = None,
+    ) -> torch.Tensor:
+        if not self.abs_pos:
+            return patches
+
+        pos_enc = self.get_pos_enc(patches.shape[0], patch_idxs, input_size)
+
+        if self.training and self.pos_dropout > 0:
+            keeps = (
+                torch.rand(
+                    patches.shape[0], 1, 1, dtype=pos_enc.dtype, device=pos_enc.device
+                )
+                > self.pos_dropout
+            )
+            pos_enc_drop = torch.where(keeps, pos_enc, 0)
+        else:
+            pos_enc_drop = pos_enc
+
+        return patches + pos_enc_drop, pos_enc
+
+    def get_pos_enc(
+        self,
+        batch_size: int,
+        patch_idxs: torch.Tensor | None = None,
+        input_size: tuple[int, int] | None = None,
+    ) -> torch.Tensor:
+        if input_size is None:
+            input_dims = self.input_dims
+        else:
+            input_dims = tuple(d // self.patch_size for d in input_size)
+
+        pos_embed = self._get_pos_embeddings(batch_size, input_dims)
+
+        if patch_idxs is None:
+            return pos_embed
+
+        exp_patch_idxs = patch_idxs.unsqueeze(-1).expand(-1, -1, pos_embed.shape[-1])
+
+        pos_embed = torch.gather(
+            pos_embed.expand(patch_idxs.shape[0], -1, -1), dim=1, index=exp_patch_idxs
+        )
+        return pos_embed
+
+    def _get_pos_embeddings(self, batch_size: int, input_dims: tuple[int, int]):
+        if (self.num_rows, self.num_cols) == input_dims:
+            return self.pos_embed
+
+        pos_embed = self.pos_embed.reshape(1, self.num_rows, self.num_cols, -1).permute(
+            0, 3, 1, 2
+        )
+
+        def window_select(pos_embed):
+            if input_dims[0] < pos_embed.shape[-2]:
+                pos_embed = pos_embed[..., : input_dims[0], :]
+            if input_dims[1] < pos_embed.shape[-1]:
+                pos_embed = pos_embed[..., :, : input_dims[1]]
+            return pos_embed
+
+        if self.cpe_mode:
+            if self.training:
+                min_scale = math.sqrt(0.1)
+                scale = (
+                    torch.rand(batch_size, 1, 1, device=pos_embed.device)
+                    * (1 - min_scale)
+                    + min_scale
+                )
+                aspect_min = math.log(3 / 4)
+                aspect_max = -aspect_min
+                aspect = torch.exp(
+                    torch.rand(batch_size, 1, 1, device=pos_embed.device)
+                    * (aspect_max - aspect_min)
+                    + aspect_min
+                )
+
+                scale_x = scale * aspect
+                scale_y = scale * (1 / aspect)
+                scale_xy = torch.stack([scale_x, scale_y], dim=-1).clamp_(0, 1)
+
+                pos_xy = torch.rand(batch_size, 1, 1, 2, device=pos_embed.device) * (
+                    1 - scale_xy
+                )
+
+                lin_x = torch.linspace(
+                    0, 1, steps=input_dims[1], device=pos_embed.device
+                )[None, None].expand(batch_size, input_dims[0], -1)
+                lin_y = torch.linspace(
+                    0, 1, steps=input_dims[0], device=pos_embed.device
+                )[None, :, None].expand(batch_size, -1, input_dims[1])
+
+                lin_xy = torch.stack([lin_x, lin_y], dim=-1)
+
+                grid_xy = lin_xy * scale_xy + pos_xy
+
+                # Convert to [-1, 1] range
+                grid_xy.mul_(2).sub_(1)
+
+                pos_embed = F.grid_sample(
+                    pos_embed.float().expand(batch_size, -1, -1, -1),
+                    grid=grid_xy,
+                    mode="bilinear",
+                    padding_mode="zeros",
+                    align_corners=True,
+                ).to(pos_embed.dtype)
+            else:
+                max_dim = max(input_dims)
+                pos_embed = F.interpolate(
+                    pos_embed.float(),
+                    size=(max_dim, max_dim),
+                    align_corners=True,
+                    mode="bilinear",
+                ).to(pos_embed.dtype)
+
+                pos_embed = window_select(pos_embed)
+        else:
+            pos_embed = window_select(pos_embed)
+
+        if pos_embed.shape[-2:] != input_dims:
+            pos_embed = F.interpolate(
+                pos_embed.float(), size=input_dims, align_corners=True, mode="bilinear"
+            ).to(pos_embed.dtype)
+
+        pos_embed = pos_embed.flatten(2).permute(0, 2, 1)
+
+        return pos_embed
+
+
+class Im2Patches(nn.Module):
+    def __init__(self, patch_size: int):
+        super().__init__()
+        self.patch_size = patch_size
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        if self.patch_size == 1:
+            patches = x.flatten(2)
+            patches = patches.permute(0, 2, 1)
+            return patches
+
+        py = x.shape[-2] // self.patch_size
+        px = x.shape[-1] // self.patch_size
+        patches = rearrange(
+            x,
+            "b c (py yy) (px xx) -> b (py px) (c yy xx)",
+            py=py,
+            yy=self.patch_size,
+            px=px,
+            xx=self.patch_size,
+        )
+        return patches
+
+
+class ViTPatchLinear(nn.Linear):
+    def __init__(self, patch_size: int, embed_dim: int, bias: bool = False, **factory):
+        super().__init__(3 * (patch_size**2), embed_dim, bias=bias, **factory)
+        self.patch_size = patch_size
+
+
+class RadioInternVisionModel(nn.Module):
+    packed_modules_mapping = {
+        "qkv": ["qkv"],
+    }
+
+    def __init__(
+        self,
+        config: PretrainedConfig = None,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.img_size, self.grid_size, self.num_patches = self._init_img_size(
+            to_2tuple(config.patch_size), config.image_size
+        )
+        max_img_size = int(
+            round(config.max_img_size / config.patch_size) * config.patch_size
+        )
+        self.patch_generator = ViTPatchGenerator(
+            config.patch_size,
+            config.hidden_size,
+            input_dims=self.img_size,
+            max_input_dims=max_img_size,
+            cls_token=True,
+            register_multiple=config.reg_tokens,
+        )
+
+        self.encoder = InternVisionEncoder(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            num_dummy_heads=num_dummy_heads,
+            prefix=f"{prefix}.encoder",
+        )
+
+    def _init_img_size(self, patch_size, img_size: int | tuple[int, int]):
+        if img_size is None:
+            return None, None, None
+        img_size = to_2tuple(img_size)
+        grid_size = tuple([s // p for s, p in zip(img_size, patch_size)])
+        num_patches = grid_size[0] * grid_size[1]
+        return img_size, grid_size, num_patches
+
+    def get_input_embeddings(self):
+        return self.embeddings
+
+    def forward(self, x: torch.Tensor) -> torch.FloatTensor:
+        assert self.patch_generator is not None
+        hidden_states = self.patch_generator(x)
+        encoder_outputs = self.encoder(inputs_embeds=hidden_states)
+        return encoder_outputs
+
+
+class RadioModel(nn.Module):
+    packed_modules_mapping = {
+        "qkv": ["qkv"],
+    }
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        num_dummy_heads: int = 0,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.model = RadioInternVisionModel(
+            config=config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            num_dummy_heads=num_dummy_heads,
+            prefix=prefix,
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor | None = None,
+        pixel_embeds: torch.Tensor | None = None,
+    ) -> torch.FloatTensor:
+        y = self.model(pixel_values)
+        return self._extract_final(y)
+
+    def load_weights(self, weights) -> set[str]:
+        loaded_params: set[str] = set()
+        params_dict = dict(self.named_parameters())
+
+        if isinstance(weights, dict):
+            weights_list = list(weights.items())
+        else:
+            weights_list = list(weights)
+
+        for name, weight in weights_list:
+            if not name.startswith("radio_model."):
+                # Skip non-radio weights
+                continue
+
+            sub = name[len("radio_model.") :]  # drop "radio_model." prefix
+
+            # Skip buffers not used in vLLM
+            if sub in {"summary_idxs"}:
+                continue
+            if sub.startswith("input_conditioner."):
+                # we normalize in the input processor,
+                # based on norm and std values from the config
+                continue
+
+            vllm_key = None
+            if sub.startswith("model.patch_generator."):
+                vllm_key = f"model.patch_generator.{sub.split('.', 2)[-1]}"
+            elif sub.startswith("input_conditioner."):
+                vllm_key = f"input_conditioner.{sub.split('.', 1)[-1]}"
+            elif sub.startswith("model.blocks."):
+                # Encoder blocks: HF 'model.blocks.{i}.' ->
+                # vLLM 'model.encoder.layers.{i}.'
+                parts = sub.split(".")
+                if len(parts) >= 4:
+                    layer_idx = parts[2]
+                    suffix = ".".join(parts[3:])
+                    # Skip layer-scale entries that vLLM doesn't use
+                    if suffix in {"ls1", "ls2"} or suffix.startswith(("ls1.", "ls2.")):
+                        continue
+                    vllm_key = f"model.encoder.layers.{layer_idx}.{suffix}"
+
+            if vllm_key and vllm_key in params_dict:
+                param = params_dict[vllm_key]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, weight)
+                loaded_params.add(vllm_key)
+
+        return loaded_params
+
+    def _extract_final(self, y: torch.Tensor):
+        # Remove CLS + REGISTERS tokens
+        patch_gen = getattr(self.model, "patch_generator", None)
+        if patch_gen is not None:
+            all_feat = y[:, patch_gen.num_skip :]
+
+        return all_feat
diff --git a/model_executor/models/registry.py b/model_executor/models/registry.py
new file mode 100644
index 0000000..a2de597
--- /dev/null
+++ b/model_executor/models/registry.py
@@ -0,0 +1,1155 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Whenever you add an architecture to this page, please also update
+`tests/models/registry.py` with example HuggingFace models for it.
+"""
+
+import hashlib
+import importlib
+import json
+import os
+import pickle
+import subprocess
+import sys
+import tempfile
+from abc import ABC, abstractmethod
+from collections.abc import Callable, Set
+from dataclasses import asdict, dataclass, field
+from functools import lru_cache
+from pathlib import Path
+from typing import TypeVar
+
+import torch.nn as nn
+import transformers
+
+from vllm import envs
+from vllm.config import (
+    ModelConfig,
+    iter_architecture_defaults,
+    try_match_architecture_defaults,
+)
+from vllm.logger import init_logger
+from vllm.logging_utils import logtime
+from vllm.transformers_utils.dynamic_module import try_get_class_from_dynamic_module
+
+from .interfaces import (
+    has_inner_state,
+    has_noops,
+    is_attention_free,
+    is_hybrid,
+    supports_cross_encoding,
+    supports_mamba_prefix_caching,
+    supports_multimodal,
+    supports_multimodal_encoder_tp_data,
+    supports_multimodal_raw_input_only,
+    supports_pp,
+    supports_transcription,
+)
+from .interfaces_base import (
+    get_default_pooling_type,
+    is_pooling_model,
+    is_text_generation_model,
+)
+
+logger = init_logger(__name__)
+
+_TEXT_GENERATION_MODELS = {
+    # [Decoder-only]
+    "AfmoeForCausalLM": ("afmoe", "AfmoeForCausalLM"),
+    "ApertusForCausalLM": ("apertus", "ApertusForCausalLM"),
+    "AquilaModel": ("llama", "LlamaForCausalLM"),
+    "AquilaForCausalLM": ("llama", "LlamaForCausalLM"),  # AquilaChat2
+    "ArceeForCausalLM": ("arcee", "ArceeForCausalLM"),
+    "ArcticForCausalLM": ("arctic", "ArcticForCausalLM"),
+    # baichuan-7b, upper case 'C' in the class name
+    "BaiChuanForCausalLM": ("baichuan", "BaiChuanForCausalLM"),
+    # baichuan-13b, lower case 'c' in the class name
+    "BaichuanForCausalLM": ("baichuan", "BaichuanForCausalLM"),
+    "BailingMoeForCausalLM": ("bailing_moe", "BailingMoeForCausalLM"),
+    "BailingMoeV2ForCausalLM": ("bailing_moe", "BailingMoeV2ForCausalLM"),
+    "BambaForCausalLM": ("bamba", "BambaForCausalLM"),
+    "BloomForCausalLM": ("bloom", "BloomForCausalLM"),
+    "ChatGLMModel": ("chatglm", "ChatGLMForCausalLM"),
+    "ChatGLMForConditionalGeneration": ("chatglm", "ChatGLMForCausalLM"),
+    "CohereForCausalLM": ("commandr", "CohereForCausalLM"),
+    "Cohere2ForCausalLM": ("commandr", "CohereForCausalLM"),
+    "CwmForCausalLM": ("llama", "LlamaForCausalLM"),
+    "DbrxForCausalLM": ("dbrx", "DbrxForCausalLM"),
+    "DeciLMForCausalLM": ("nemotron_nas", "DeciLMForCausalLM"),
+    "DeepseekForCausalLM": ("deepseek_v2", "DeepseekForCausalLM"),
+    "DeepseekV2ForCausalLM": ("deepseek_v2", "DeepseekV2ForCausalLM"),
+    "DeepseekV3ForCausalLM": ("deepseek_v2", "DeepseekV3ForCausalLM"),
+    "DeepseekV32ForCausalLM": ("deepseek_v2", "DeepseekV3ForCausalLM"),
+    "Dots1ForCausalLM": ("dots1", "Dots1ForCausalLM"),
+    "Ernie4_5ForCausalLM": ("ernie45", "Ernie4_5ForCausalLM"),
+    "Ernie4_5_MoeForCausalLM": ("ernie45_moe", "Ernie4_5_MoeForCausalLM"),
+    "ExaoneForCausalLM": ("exaone", "ExaoneForCausalLM"),
+    "Exaone4ForCausalLM": ("exaone4", "Exaone4ForCausalLM"),
+    "Fairseq2LlamaForCausalLM": ("fairseq2_llama", "Fairseq2LlamaForCausalLM"),
+    "FalconForCausalLM": ("falcon", "FalconForCausalLM"),
+    "FalconMambaForCausalLM": ("mamba", "MambaForCausalLM"),
+    "FalconH1ForCausalLM": ("falcon_h1", "FalconH1ForCausalLM"),
+    "FlexOlmoForCausalLM": ("flex_olmo", "FlexOlmoForCausalLM"),
+    "GemmaForCausalLM": ("gemma", "GemmaForCausalLM"),
+    "Gemma2ForCausalLM": ("gemma2", "Gemma2ForCausalLM"),
+    "Gemma3ForCausalLM": ("gemma3", "Gemma3ForCausalLM"),
+    "Gemma3nForCausalLM": ("gemma3n", "Gemma3nForCausalLM"),
+    "Qwen3NextForCausalLM": ("qwen3_next", "Qwen3NextForCausalLM"),
+    "GlmForCausalLM": ("glm", "GlmForCausalLM"),
+    "Glm4ForCausalLM": ("glm4", "Glm4ForCausalLM"),
+    "Glm4MoeForCausalLM": ("glm4_moe", "Glm4MoeForCausalLM"),
+    "GptOssForCausalLM": ("gpt_oss", "GptOssForCausalLM"),
+    "GPT2LMHeadModel": ("gpt2", "GPT2LMHeadModel"),
+    "GPTBigCodeForCausalLM": ("gpt_bigcode", "GPTBigCodeForCausalLM"),
+    "GPTJForCausalLM": ("gpt_j", "GPTJForCausalLM"),
+    "GPTNeoXForCausalLM": ("gpt_neox", "GPTNeoXForCausalLM"),
+    "GraniteForCausalLM": ("granite", "GraniteForCausalLM"),
+    "GraniteMoeForCausalLM": ("granitemoe", "GraniteMoeForCausalLM"),
+    "GraniteMoeHybridForCausalLM": ("granitemoehybrid", "GraniteMoeHybridForCausalLM"),  # noqa: E501
+    "GraniteMoeSharedForCausalLM": ("granitemoeshared", "GraniteMoeSharedForCausalLM"),  # noqa: E501
+    "GritLM": ("gritlm", "GritLM"),
+    "Grok1ModelForCausalLM": ("grok1", "Grok1ForCausalLM"),
+    "HunYuanMoEV1ForCausalLM": ("hunyuan_v1", "HunYuanMoEV1ForCausalLM"),
+    "HunYuanDenseV1ForCausalLM": ("hunyuan_v1", "HunYuanDenseV1ForCausalLM"),
+    "HCXVisionForCausalLM": ("hyperclovax_vision", "HCXVisionForCausalLM"),
+    "InternLMForCausalLM": ("llama", "LlamaForCausalLM"),
+    "InternLM2ForCausalLM": ("internlm2", "InternLM2ForCausalLM"),
+    "InternLM2VEForCausalLM": ("internlm2_ve", "InternLM2VEForCausalLM"),
+    "InternLM3ForCausalLM": ("llama", "LlamaForCausalLM"),
+    "JAISLMHeadModel": ("jais", "JAISLMHeadModel"),
+    "JambaForCausalLM": ("jamba", "JambaForCausalLM"),
+    "KimiLinearForCausalLM": ("kimi_linear", "KimiLinearForCausalLM"),  # noqa: E501
+    "Lfm2ForCausalLM": ("lfm2", "Lfm2ForCausalLM"),
+    "Lfm2MoeForCausalLM": ("lfm2_moe", "Lfm2MoeForCausalLM"),
+    "LlamaForCausalLM": ("llama", "LlamaForCausalLM"),
+    "Llama4ForCausalLM": ("llama4", "Llama4ForCausalLM"),
+    # For decapoda-research/llama-*
+    "LLaMAForCausalLM": ("llama", "LlamaForCausalLM"),
+    "LongcatFlashForCausalLM": ("longcat_flash", "LongcatFlashForCausalLM"),
+    "MambaForCausalLM": ("mamba", "MambaForCausalLM"),
+    "Mamba2ForCausalLM": ("mamba2", "Mamba2ForCausalLM"),
+    "MiniCPMForCausalLM": ("minicpm", "MiniCPMForCausalLM"),
+    "MiniCPM3ForCausalLM": ("minicpm3", "MiniCPM3ForCausalLM"),
+    "MiniMaxForCausalLM": ("minimax_text_01", "MiniMaxText01ForCausalLM"),
+    "MiniMaxText01ForCausalLM": ("minimax_text_01", "MiniMaxText01ForCausalLM"),
+    "MiniMaxM1ForCausalLM": ("minimax_text_01", "MiniMaxText01ForCausalLM"),
+    "MiniMaxM2ForCausalLM": ("minimax_m2", "MiniMaxM2ForCausalLM"),
+    "MistralForCausalLM": ("llama", "LlamaForCausalLM"),
+    "MixtralForCausalLM": ("mixtral", "MixtralForCausalLM"),
+    # transformers's mpt class has lower case
+    "MptForCausalLM": ("mpt", "MPTForCausalLM"),
+    "MPTForCausalLM": ("mpt", "MPTForCausalLM"),
+    "MiMoForCausalLM": ("mimo", "MiMoForCausalLM"),
+    "NemotronForCausalLM": ("nemotron", "NemotronForCausalLM"),
+    "NemotronHForCausalLM": ("nemotron_h", "NemotronHForCausalLM"),
+    "OlmoForCausalLM": ("olmo", "OlmoForCausalLM"),
+    "Olmo2ForCausalLM": ("olmo2", "Olmo2ForCausalLM"),
+    "Olmo3ForCausalLM": ("olmo2", "Olmo2ForCausalLM"),
+    "OlmoeForCausalLM": ("olmoe", "OlmoeForCausalLM"),
+    "OPTForCausalLM": ("opt", "OPTForCausalLM"),
+    "OrionForCausalLM": ("orion", "OrionForCausalLM"),
+    "OuroForCausalLM": ("ouro", "OuroForCausalLM"),
+    "PanguEmbeddedForCausalLM": ("openpangu", "PanguEmbeddedForCausalLM"),
+    "PanguUltraMoEForCausalLM": ("openpangu", "PanguUltraMoEForCausalLM"),
+    "PersimmonForCausalLM": ("persimmon", "PersimmonForCausalLM"),
+    "PhiForCausalLM": ("phi", "PhiForCausalLM"),
+    "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),
+    "PhiMoEForCausalLM": ("phimoe", "PhiMoEForCausalLM"),
+    "Plamo2ForCausalLM": ("plamo2", "Plamo2ForCausalLM"),
+    "QWenLMHeadModel": ("qwen", "QWenLMHeadModel"),
+    "Qwen2ForCausalLM": ("qwen2", "Qwen2ForCausalLM"),
+    "Qwen2MoeForCausalLM": ("qwen2_moe", "Qwen2MoeForCausalLM"),
+    "Qwen3ForCausalLM": ("qwen3", "Qwen3ForCausalLM"),
+    "Qwen3MoeForCausalLM": ("qwen3_moe", "Qwen3MoeForCausalLM"),
+    "RWForCausalLM": ("falcon", "FalconForCausalLM"),
+    "SeedOssForCausalLM": ("seed_oss", "SeedOssForCausalLM"),
+    "Step3TextForCausalLM": ("step3_text", "Step3TextForCausalLM"),
+    "StableLMEpochForCausalLM": ("stablelm", "StablelmForCausalLM"),
+    "StableLmForCausalLM": ("stablelm", "StablelmForCausalLM"),
+    "Starcoder2ForCausalLM": ("starcoder2", "Starcoder2ForCausalLM"),
+    "SolarForCausalLM": ("solar", "SolarForCausalLM"),
+    "TeleChat2ForCausalLM": ("telechat2", "TeleChat2ForCausalLM"),
+    "TeleFLMForCausalLM": ("teleflm", "TeleFLMForCausalLM"),
+    "XverseForCausalLM": ("llama", "LlamaForCausalLM"),
+    "Zamba2ForCausalLM": ("zamba2", "Zamba2ForCausalLM"),
+}
+
+_EMBEDDING_MODELS = {
+    # [Text-only]
+    "BertModel": ("bert", "BertEmbeddingModel"),
+    "BertSpladeSparseEmbeddingModel": ("bert", "BertSpladeSparseEmbeddingModel"),
+    "DeciLMForCausalLM": ("nemotron_nas", "DeciLMForCausalLM"),
+    "Gemma2Model": ("gemma2", "Gemma2ForCausalLM"),
+    "Gemma3TextModel": ("gemma3", "Gemma3Model"),
+    "GlmForCausalLM": ("glm", "GlmForCausalLM"),
+    "GPT2ForSequenceClassification": ("gpt2", "GPT2ForSequenceClassification"),
+    "GritLM": ("gritlm", "GritLM"),
+    "GteModel": ("bert_with_rope", "SnowflakeGteNewModel"),
+    "GteNewModel": ("bert_with_rope", "GteNewModel"),
+    "InternLM2ForRewardModel": ("internlm2", "InternLM2ForRewardModel"),
+    "JambaForSequenceClassification": ("jamba", "JambaForSequenceClassification"),  # noqa: E501
+    "LlamaModel": ("llama", "LlamaForCausalLM"),
+    **{
+        # Multiple models share the same architecture, so we include them all
+        k: (mod, arch)
+        for k, (mod, arch) in _TEXT_GENERATION_MODELS.items()
+        if arch == "LlamaForCausalLM"
+    },
+    "MistralModel": ("llama", "LlamaForCausalLM"),
+    "ModernBertModel": ("modernbert", "ModernBertModel"),
+    "NomicBertModel": ("bert_with_rope", "NomicBertModel"),
+    "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),
+    "Qwen2Model": ("qwen2", "Qwen2ForCausalLM"),
+    "Qwen2ForCausalLM": ("qwen2", "Qwen2ForCausalLM"),
+    "Qwen2ForRewardModel": ("qwen2_rm", "Qwen2ForRewardModel"),
+    "Qwen2ForProcessRewardModel": ("qwen2_rm", "Qwen2ForProcessRewardModel"),
+    "RobertaForMaskedLM": ("roberta", "RobertaEmbeddingModel"),
+    "RobertaModel": ("roberta", "RobertaEmbeddingModel"),
+    "TeleChat2ForCausalLM": ("telechat2", "TeleChat2ForCausalLM"),
+    "XLMRobertaModel": ("roberta", "RobertaEmbeddingModel"),
+    # [Multimodal]
+    "CLIPModel": ("clip", "CLIPEmbeddingModel"),
+    "LlavaNextForConditionalGeneration": (
+        "llava_next",
+        "LlavaNextForConditionalGeneration",
+    ),
+    "Phi3VForCausalLM": ("phi3v", "Phi3VForCausalLM"),
+    "Qwen2VLForConditionalGeneration": ("qwen2_vl", "Qwen2VLForConditionalGeneration"),  # noqa: E501
+    "SiglipModel": ("siglip", "SiglipEmbeddingModel"),
+    # Technically Terratorch models work on images, both in
+    # input and output. I am adding it here because it piggy-backs on embedding
+    # models for the time being.
+    "PrithviGeoSpatialMAE": ("terratorch", "Terratorch"),
+    "Terratorch": ("terratorch", "Terratorch"),
+}
+
+_CROSS_ENCODER_MODELS = {
+    "BertForSequenceClassification": ("bert", "BertForSequenceClassification"),
+    "BertForTokenClassification": ("bert", "BertForTokenClassification"),
+    "GteNewForSequenceClassification": (
+        "bert_with_rope",
+        "GteNewForSequenceClassification",
+    ),
+    "ModernBertForSequenceClassification": (
+        "modernbert",
+        "ModernBertForSequenceClassification",
+    ),
+    "ModernBertForTokenClassification": (
+        "modernbert",
+        "ModernBertForTokenClassification",
+    ),
+    "RobertaForSequenceClassification": ("roberta", "RobertaForSequenceClassification"),
+    "XLMRobertaForSequenceClassification": (
+        "roberta",
+        "RobertaForSequenceClassification",
+    ),
+    # [Auto-converted (see adapters.py)]
+    "JinaVLForRanking": ("jina_vl", "JinaVLForSequenceClassification"),  # noqa: E501,
+}
+
+_MULTIMODAL_MODELS = {
+    # [Decoder-only]
+    "AriaForConditionalGeneration": ("aria", "AriaForConditionalGeneration"),
+    "AyaVisionForConditionalGeneration": (
+        "aya_vision",
+        "AyaVisionForConditionalGeneration",
+    ),
+    "BeeForConditionalGeneration": ("bee", "BeeForConditionalGeneration"),
+    "Blip2ForConditionalGeneration": ("blip2", "Blip2ForConditionalGeneration"),
+    "ChameleonForConditionalGeneration": (
+        "chameleon",
+        "ChameleonForConditionalGeneration",
+    ),
+    "Cohere2VisionForConditionalGeneration": (
+        "cohere2_vision",
+        "Cohere2VisionForConditionalGeneration",
+    ),
+    "DeepseekVLV2ForCausalLM": ("deepseek_vl2", "DeepseekVLV2ForCausalLM"),
+    "DeepseekOCRForCausalLM": ("deepseek_ocr", "DeepseekOCRForCausalLM"),
+    "DotsOCRForCausalLM": ("dots_ocr", "DotsOCRForCausalLM"),
+    "Ernie4_5_VLMoeForConditionalGeneration": (
+        "ernie45_vl",
+        "Ernie4_5_VLMoeForConditionalGeneration",
+    ),
+    "FuyuForCausalLM": ("fuyu", "FuyuForCausalLM"),
+    "Gemma3ForConditionalGeneration": ("gemma3_mm", "Gemma3ForConditionalGeneration"),  # noqa: E501
+    "Gemma3nForConditionalGeneration": (
+        "gemma3n_mm",
+        "Gemma3nForConditionalGeneration",
+    ),
+    "GLM4VForCausalLM": ("glm4v", "GLM4VForCausalLM"),
+    "Glm4vForConditionalGeneration": ("glm4_1v", "Glm4vForConditionalGeneration"),  # noqa: E501
+    "Glm4vMoeForConditionalGeneration": ("glm4_1v", "Glm4vMoeForConditionalGeneration"),  # noqa: E501
+    "GraniteSpeechForConditionalGeneration": (
+        "granite_speech",
+        "GraniteSpeechForConditionalGeneration",
+    ),
+    "H2OVLChatModel": ("h2ovl", "H2OVLChatModel"),
+    "InternVLChatModel": ("internvl", "InternVLChatModel"),
+    "NemotronH_Nano_VL_V2": ("nano_nemotron_vl", "NemotronH_Nano_VL_V2"),
+    "InternS1ForConditionalGeneration": (
+        "interns1",
+        "InternS1ForConditionalGeneration",
+    ),
+    "InternVLForConditionalGeneration": (
+        "interns1",
+        "InternS1ForConditionalGeneration",
+    ),
+    "Idefics3ForConditionalGeneration": (
+        "idefics3",
+        "Idefics3ForConditionalGeneration",
+    ),
+    "SmolVLMForConditionalGeneration": ("smolvlm", "SmolVLMForConditionalGeneration"),  # noqa: E501
+    "KeyeForConditionalGeneration": ("keye", "KeyeForConditionalGeneration"),
+    "KeyeVL1_5ForConditionalGeneration": (
+        "keye_vl1_5",
+        "KeyeVL1_5ForConditionalGeneration",
+    ),
+    "RForConditionalGeneration": ("rvl", "RForConditionalGeneration"),
+    "KimiVLForConditionalGeneration": ("kimi_vl", "KimiVLForConditionalGeneration"),  # noqa: E501
+    "LightOnOCRForConditionalGeneration": (
+        "lightonocr",
+        "LightOnOCRForConditionalGeneration",
+    ),
+    "Llama_Nemotron_Nano_VL": ("nemotron_vl", "LlamaNemotronVLChatModel"),
+    "Llama4ForConditionalGeneration": ("mllama4", "Llama4ForConditionalGeneration"),  # noqa: E501
+    "LlavaForConditionalGeneration": ("llava", "LlavaForConditionalGeneration"),
+    "LlavaNextForConditionalGeneration": (
+        "llava_next",
+        "LlavaNextForConditionalGeneration",
+    ),
+    "LlavaNextVideoForConditionalGeneration": (
+        "llava_next_video",
+        "LlavaNextVideoForConditionalGeneration",
+    ),
+    "LlavaOnevisionForConditionalGeneration": (
+        "llava_onevision",
+        "LlavaOnevisionForConditionalGeneration",
+    ),
+    "MantisForConditionalGeneration": ("llava", "MantisForConditionalGeneration"),  # noqa: E501
+    "MiDashengLMModel": ("midashenglm", "MiDashengLMModel"),
+    "MiniMaxVL01ForConditionalGeneration": (
+        "minimax_vl_01",
+        "MiniMaxVL01ForConditionalGeneration",
+    ),
+    "MiniCPMO": ("minicpmo", "MiniCPMO"),
+    "MiniCPMV": ("minicpmv", "MiniCPMV"),
+    "Mistral3ForConditionalGeneration": (
+        "mistral3",
+        "Mistral3ForConditionalGeneration",
+    ),
+    "MolmoForCausalLM": ("molmo", "MolmoForCausalLM"),
+    "NVLM_D": ("nvlm_d", "NVLM_D_Model"),
+    "Ovis": ("ovis", "Ovis"),
+    "Ovis2_5": ("ovis2_5", "Ovis2_5"),
+    "PaddleOCRVLForConditionalGeneration": (
+        "paddleocr_vl",
+        "PaddleOCRVLForConditionalGeneration",
+    ),
+    "PaliGemmaForConditionalGeneration": (
+        "paligemma",
+        "PaliGemmaForConditionalGeneration",
+    ),
+    "Phi3VForCausalLM": ("phi3v", "Phi3VForCausalLM"),
+    "Phi4MMForCausalLM": ("phi4mm", "Phi4MMForCausalLM"),
+    "Phi4MultimodalForCausalLM": ("phi4_multimodal", "Phi4MultimodalForCausalLM"),  # noqa: E501
+    "PixtralForConditionalGeneration": ("pixtral", "PixtralForConditionalGeneration"),  # noqa: E501
+    "QwenVLForConditionalGeneration": ("qwen_vl", "QwenVLForConditionalGeneration"),  # noqa: E501
+    "Qwen2VLForConditionalGeneration": ("qwen2_vl", "Qwen2VLForConditionalGeneration"),  # noqa: E501
+    "Qwen2_5_VLForConditionalGeneration": (
+        "qwen2_5_vl",
+        "Qwen2_5_VLForConditionalGeneration",
+    ),
+    "Qwen2AudioForConditionalGeneration": (
+        "qwen2_audio",
+        "Qwen2AudioForConditionalGeneration",
+    ),
+    "Qwen2_5OmniModel": (
+        "qwen2_5_omni_thinker",
+        "Qwen2_5OmniThinkerForConditionalGeneration",
+    ),
+    "Qwen2_5OmniForConditionalGeneration": (
+        "qwen2_5_omni_thinker",
+        "Qwen2_5OmniThinkerForConditionalGeneration",
+    ),
+    "Qwen3OmniMoeForConditionalGeneration": (
+        "qwen3_omni_moe_thinker",
+        "Qwen3OmniMoeThinkerForConditionalGeneration",
+    ),
+    "Qwen3VLForConditionalGeneration": ("qwen3_vl", "Qwen3VLForConditionalGeneration"),  # noqa: E501
+    "Qwen3VLMoeForConditionalGeneration": (
+        "qwen3_vl_moe",
+        "Qwen3VLMoeForConditionalGeneration",
+    ),
+    "SkyworkR1VChatModel": ("skyworkr1v", "SkyworkR1VChatModel"),
+    "Step3VLForConditionalGeneration": ("step3_vl", "Step3VLForConditionalGeneration"),  # noqa: E501
+    "TarsierForConditionalGeneration": ("tarsier", "TarsierForConditionalGeneration"),  # noqa: E501
+    "Tarsier2ForConditionalGeneration": (
+        "qwen2_vl",
+        "Tarsier2ForConditionalGeneration",
+    ),
+    "UltravoxModel": ("ultravox", "UltravoxModel"),
+    "VoxtralForConditionalGeneration": ("voxtral", "VoxtralForConditionalGeneration"),  # noqa: E501
+    # [Encoder-decoder]
+    "WhisperForConditionalGeneration": ("whisper", "WhisperForConditionalGeneration"),  # noqa: E501
+}
+
+_SPECULATIVE_DECODING_MODELS = {
+    "MiMoMTPModel": ("mimo_mtp", "MiMoMTP"),
+    "EagleLlamaForCausalLM": ("llama_eagle", "EagleLlamaForCausalLM"),
+    "EagleLlama4ForCausalLM": ("llama4_eagle", "EagleLlama4ForCausalLM"),
+    "EagleMiniCPMForCausalLM": ("minicpm_eagle", "EagleMiniCPMForCausalLM"),
+    "Eagle3LlamaForCausalLM": ("llama_eagle3", "Eagle3LlamaForCausalLM"),
+    "LlamaForCausalLMEagle3": ("llama_eagle3", "Eagle3LlamaForCausalLM"),
+    "Eagle3Qwen2_5vlForCausalLM": ("llama_eagle3", "Eagle3LlamaForCausalLM"),
+    "EagleDeepSeekMTPModel": ("deepseek_eagle", "EagleDeepseekV3ForCausalLM"),
+    "DeepSeekMTPModel": ("deepseek_mtp", "DeepSeekMTP"),
+    "ErnieMTPModel": ("ernie_mtp", "ErnieMTP"),
+    "LongCatFlashMTPModel": ("longcat_flash_mtp", "LongCatFlashMTP"),
+    "Glm4MoeMTPModel": ("glm4_moe_mtp", "Glm4MoeMTP"),
+    "MedusaModel": ("medusa", "Medusa"),
+    "OpenPanguMTPModel": ("openpangu_mtp", "OpenPanguMTP"),
+    "Qwen3NextMTP": ("qwen3_next_mtp", "Qwen3NextMTP"),
+    # Temporarily disabled.
+    # # TODO(woosuk): Re-enable this once the MLP Speculator is supported in V1.
+    # "MLPSpeculatorPreTrainedModel": ("mlp_speculator", "MLPSpeculator"),
+}
+
+_TRANSFORMERS_SUPPORTED_MODELS = {
+    # Text generation models
+    "SmolLM3ForCausalLM": ("transformers", "TransformersForCausalLM"),
+    # Multimodal models
+    "Emu3ForConditionalGeneration": (
+        "transformers",
+        "TransformersMultiModalForCausalLM",
+    ),
+}
+
+_TRANSFORMERS_BACKEND_MODELS = {
+    # Text generation models
+    "TransformersForCausalLM": ("transformers", "TransformersForCausalLM"),
+    "TransformersMoEForCausalLM": ("transformers", "TransformersMoEForCausalLM"),
+    # Multimodal models
+    "TransformersMultiModalForCausalLM": (
+        "transformers",
+        "TransformersMultiModalForCausalLM",
+    ),
+    "TransformersMultiModalMoEForCausalLM": (
+        "transformers",
+        "TransformersMultiModalMoEForCausalLM",
+    ),
+    # Embedding models
+    "TransformersEmbeddingModel": ("transformers", "TransformersEmbeddingModel"),
+    "TransformersMoEEmbeddingModel": ("transformers", "TransformersMoEEmbeddingModel"),
+    "TransformersMultiModalEmbeddingModel": (
+        "transformers",
+        "TransformersMultiModalEmbeddingModel",
+    ),
+    # Sequence classification models
+    "TransformersForSequenceClassification": (
+        "transformers",
+        "TransformersForSequenceClassification",
+    ),
+    "TransformersMoEForSequenceClassification": (
+        "transformers",
+        "TransformersMoEForSequenceClassification",
+    ),
+    "TransformersMultiModalForSequenceClassification": (
+        "transformers",
+        "TransformersMultiModalForSequenceClassification",
+    ),
+}
+
+_VLLM_MODELS = {
+    **_TEXT_GENERATION_MODELS,
+    **_EMBEDDING_MODELS,
+    **_CROSS_ENCODER_MODELS,
+    **_MULTIMODAL_MODELS,
+    **_SPECULATIVE_DECODING_MODELS,
+    **_TRANSFORMERS_SUPPORTED_MODELS,
+    **_TRANSFORMERS_BACKEND_MODELS,
+}
+
+# This variable is used as the args for subprocess.run(). We
+# can modify  this variable to alter the args if needed. e.g.
+# when we use par format to pack things together, sys.executable
+# might not be the target we want to run.
+_SUBPROCESS_COMMAND = [sys.executable, "-m", "vllm.model_executor.models.registry"]
+
+_PREVIOUSLY_SUPPORTED_MODELS = {
+    "MotifForCausalLM": "0.10.2",
+    "Phi3SmallForCausalLM": "0.9.2",
+    "Phi4FlashForCausalLM": "0.10.2",
+    # encoder-decoder models except whisper
+    # have been removed for V0 deprecation.
+    "BartModel": "0.10.2",
+    "BartForConditionalGeneration": "0.10.2",
+    "DonutForConditionalGeneration": "0.10.2",
+    "Florence2ForConditionalGeneration": "0.10.2",
+    "MBartForConditionalGeneration": "0.10.2",
+    "MllamaForConditionalGeneration": "0.10.2",
+}
+
+
+@dataclass(frozen=True)
+class _ModelInfo:
+    architecture: str
+    is_text_generation_model: bool
+    is_pooling_model: bool
+    default_pooling_type: str
+    supports_cross_encoding: bool
+    supports_multimodal: bool
+    supports_multimodal_raw_input_only: bool
+    supports_multimodal_encoder_tp_data: bool
+    supports_pp: bool
+    has_inner_state: bool
+    is_attention_free: bool
+    is_hybrid: bool
+    has_noops: bool
+    supports_mamba_prefix_caching: bool
+    supports_transcription: bool
+    supports_transcription_only: bool
+
+    @staticmethod
+    def from_model_cls(model: type[nn.Module]) -> "_ModelInfo":
+        return _ModelInfo(
+            architecture=model.__name__,
+            is_text_generation_model=is_text_generation_model(model),
+            is_pooling_model=is_pooling_model(model),
+            default_pooling_type=get_default_pooling_type(model),
+            supports_cross_encoding=supports_cross_encoding(model),
+            supports_multimodal=supports_multimodal(model),
+            supports_multimodal_raw_input_only=supports_multimodal_raw_input_only(
+                model
+            ),
+            supports_multimodal_encoder_tp_data=supports_multimodal_encoder_tp_data(
+                model
+            ),
+            supports_pp=supports_pp(model),
+            has_inner_state=has_inner_state(model),
+            is_attention_free=is_attention_free(model),
+            is_hybrid=is_hybrid(model),
+            supports_mamba_prefix_caching=supports_mamba_prefix_caching(model),
+            supports_transcription=supports_transcription(model),
+            supports_transcription_only=(
+                supports_transcription(model) and model.supports_transcription_only
+            ),
+            has_noops=has_noops(model),
+        )
+
+
+class _BaseRegisteredModel(ABC):
+    @abstractmethod
+    def inspect_model_cls(self) -> _ModelInfo:
+        raise NotImplementedError
+
+    @abstractmethod
+    def load_model_cls(self) -> type[nn.Module]:
+        raise NotImplementedError
+
+
+@dataclass(frozen=True)
+class _RegisteredModel(_BaseRegisteredModel):
+    """
+    Represents a model that has already been imported in the main process.
+    """
+
+    interfaces: _ModelInfo
+    model_cls: type[nn.Module]
+
+    @staticmethod
+    def from_model_cls(model_cls: type[nn.Module]):
+        return _RegisteredModel(
+            interfaces=_ModelInfo.from_model_cls(model_cls),
+            model_cls=model_cls,
+        )
+
+    def inspect_model_cls(self) -> _ModelInfo:
+        return self.interfaces
+
+    def load_model_cls(self) -> type[nn.Module]:
+        return self.model_cls
+
+
+@dataclass(frozen=True)
+class _LazyRegisteredModel(_BaseRegisteredModel):
+    """
+    Represents a model that has not been imported in the main process.
+    """
+
+    module_name: str
+    class_name: str
+
+    @staticmethod
+    def _get_cache_dir() -> Path:
+        return Path(envs.VLLM_CACHE_ROOT) / "modelinfos"
+
+    def _get_cache_filename(self) -> str:
+        cls_name = f"{self.module_name}-{self.class_name}".replace(".", "-")
+        return f"{cls_name}.json"
+
+    def _load_modelinfo_from_cache(self, module_hash: str) -> _ModelInfo | None:
+        try:
+            try:
+                modelinfo_path = self._get_cache_dir() / self._get_cache_filename()
+                with open(modelinfo_path, encoding="utf-8") as file:
+                    mi_dict = json.load(file)
+            except FileNotFoundError:
+                logger.debug(
+                    "Cached model info file for class %s.%s not found",
+                    self.module_name,
+                    self.class_name,
+                )
+                return None
+
+            if mi_dict["hash"] != module_hash:
+                logger.debug(
+                    "Cached model info file for class %s.%s is stale",
+                    self.module_name,
+                    self.class_name,
+                )
+                return None
+
+            # file not changed, use cached _ModelInfo properties
+            return _ModelInfo(**mi_dict["modelinfo"])
+        except Exception:
+            logger.debug(
+                "Cached model info for class %s.%s error. ",
+                self.module_name,
+                self.class_name,
+            )
+            return None
+
+    def _save_modelinfo_to_cache(self, mi: _ModelInfo, module_hash: str) -> None:
+        """save dictionary json file to cache"""
+        from vllm.model_executor.model_loader.weight_utils import atomic_writer
+
+        try:
+            modelinfo_dict = {
+                "hash": module_hash,
+                "modelinfo": asdict(mi),
+            }
+            cache_dir = self._get_cache_dir()
+            cache_dir.mkdir(parents=True, exist_ok=True)
+            modelinfo_path = cache_dir / self._get_cache_filename()
+            with atomic_writer(modelinfo_path, encoding="utf-8") as f:
+                json.dump(modelinfo_dict, f, indent=2)
+        except Exception:
+            logger.exception("Error saving model info cache.")
+
+    @logtime(logger=logger, msg="Registry inspect model class")
+    def inspect_model_cls(self) -> _ModelInfo:
+        model_path = Path(__file__).parent / f"{self.module_name.split('.')[-1]}.py"
+        module_hash = None
+
+        if model_path.exists():
+            with open(model_path, "rb") as f:
+                module_hash = hashlib.md5(f.read(), usedforsecurity=False).hexdigest()
+
+            mi = self._load_modelinfo_from_cache(module_hash)
+            if mi is not None:
+                logger.debug(
+                    "Loaded model info for class %s.%s from cache",
+                    self.module_name,
+                    self.class_name,
+                )
+                return mi
+            else:
+                logger.debug(
+                    "Cache model info for class %s.%s miss. Loading model instead.",
+                    self.module_name,
+                    self.class_name,
+                )
+
+        # Performed in another process to avoid initializing CUDA
+        mi = _run_in_subprocess(
+            lambda: _ModelInfo.from_model_cls(self.load_model_cls())
+        )
+        logger.debug(
+            "Loaded model info for class %s.%s", self.module_name, self.class_name
+        )
+
+        # save cache file
+        if module_hash is not None:
+            self._save_modelinfo_to_cache(mi, module_hash)
+
+        return mi
+
+    def load_model_cls(self) -> type[nn.Module]:
+        mod = importlib.import_module(self.module_name)
+        return getattr(mod, self.class_name)
+
+
+@lru_cache(maxsize=128)
+def _try_load_model_cls(
+    model_arch: str,
+    model: _BaseRegisteredModel,
+) -> type[nn.Module] | None:
+    from vllm.platforms import current_platform
+
+    current_platform.verify_model_arch(model_arch)
+    try:
+        return model.load_model_cls()
+    except Exception:
+        logger.exception("Error in loading model architecture '%s'", model_arch)
+        return None
+
+
+@lru_cache(maxsize=128)
+def _try_inspect_model_cls(
+    model_arch: str,
+    model: _BaseRegisteredModel,
+) -> _ModelInfo | None:
+    try:
+        return model.inspect_model_cls()
+    except Exception:
+        logger.exception("Error in inspecting model architecture '%s'", model_arch)
+        return None
+
+
+@dataclass
+class _ModelRegistry:
+    # Keyed by model_arch
+    models: dict[str, _BaseRegisteredModel] = field(default_factory=dict)
+
+    def get_supported_archs(self) -> Set[str]:
+        return self.models.keys()
+
+    def register_model(
+        self,
+        model_arch: str,
+        model_cls: type[nn.Module] | str,
+    ) -> None:
+        """
+        Register an external model to be used in vLLM.
+
+        `model_cls` can be either:
+
+        - A [`torch.nn.Module`][] class directly referencing the model.
+        - A string in the format `<module>:<class>` which can be used to
+          lazily import the model. This is useful to avoid initializing CUDA
+          when importing the model and thus the related error
+          `RuntimeError: Cannot re-initialize CUDA in forked subprocess`.
+        """
+        if not isinstance(model_arch, str):
+            msg = f"`model_arch` should be a string, not a {type(model_arch)}"
+            raise TypeError(msg)
+
+        if model_arch in self.models:
+            logger.warning(
+                "Model architecture %s is already registered, and will be "
+                "overwritten by the new model class %s.",
+                model_arch,
+                model_cls,
+            )
+
+        if isinstance(model_cls, str):
+            split_str = model_cls.split(":")
+            if len(split_str) != 2:
+                msg = "Expected a string in the format `<module>:<class>`"
+                raise ValueError(msg)
+
+            model = _LazyRegisteredModel(*split_str)
+        elif isinstance(model_cls, type) and issubclass(model_cls, nn.Module):
+            model = _RegisteredModel.from_model_cls(model_cls)
+        else:
+            msg = (
+                "`model_cls` should be a string or PyTorch model class, "
+                f"not a {type(model_arch)}"
+            )
+            raise TypeError(msg)
+
+        self.models[model_arch] = model
+
+    def _raise_for_unsupported(self, architectures: list[str]):
+        all_supported_archs = self.get_supported_archs()
+
+        if any(arch in all_supported_archs for arch in architectures):
+            raise ValueError(
+                f"Model architectures {architectures} failed "
+                "to be inspected. Please check the logs for more details."
+            )
+
+        for arch in architectures:
+            if arch in _PREVIOUSLY_SUPPORTED_MODELS:
+                previous_version = _PREVIOUSLY_SUPPORTED_MODELS[arch]
+
+                raise ValueError(
+                    f"Model architecture {arch} was supported in vLLM until "
+                    f"v{previous_version}, and is not supported anymore. "
+                    "Please use an older version of vLLM if you want to "
+                    "use this model architecture."
+                )
+
+        raise ValueError(
+            f"Model architectures {architectures} are not supported for now. "
+            f"Supported architectures: {all_supported_archs}"
+        )
+
+    def _try_load_model_cls(self, model_arch: str) -> type[nn.Module] | None:
+        if model_arch not in self.models:
+            return None
+
+        return _try_load_model_cls(model_arch, self.models[model_arch])
+
+    def _try_inspect_model_cls(self, model_arch: str) -> _ModelInfo | None:
+        if model_arch not in self.models:
+            return None
+
+        return _try_inspect_model_cls(model_arch, self.models[model_arch])
+
+    def _try_resolve_transformers(
+        self,
+        architecture: str,
+        model_config: ModelConfig,
+    ) -> str | None:
+        if architecture in _TRANSFORMERS_BACKEND_MODELS:
+            return architecture
+
+        auto_map: dict[str, str] = (
+            getattr(model_config.hf_config, "auto_map", None) or dict()
+        )
+
+        # Make sure that config class is always initialized before model class,
+        # otherwise the model class won't be able to access the config class,
+        # the expected auto_map should have correct order like:
+        # "auto_map": {
+        #     "AutoConfig": "<your-repo-name>--<config-name>",
+        #     "AutoModel": "<your-repo-name>--<config-name>",
+        #     "AutoModelFor<Task>": "<your-repo-name>--<config-name>",
+        # },
+        for prefix in ("AutoConfig", "AutoModel"):
+            for name, module in auto_map.items():
+                if name.startswith(prefix):
+                    try_get_class_from_dynamic_module(
+                        module,
+                        model_config.model,
+                        revision=model_config.revision,
+                        warn_on_fail=False,
+                    )
+
+        model_module = getattr(transformers, architecture, None)
+
+        if model_module is None:
+            for name, module in auto_map.items():
+                if name.startswith("AutoModel"):
+                    model_module = try_get_class_from_dynamic_module(
+                        module,
+                        model_config.model,
+                        revision=model_config.revision,
+                        warn_on_fail=True,
+                    )
+                    if model_module is not None:
+                        break
+            else:
+                if model_config.model_impl != "transformers":
+                    return None
+
+                raise ValueError(
+                    f"Cannot find model module. {architecture!r} is not a "
+                    "registered model in the Transformers library (only "
+                    "relevant if the model is meant to be in Transformers) "
+                    "and 'AutoModel' is not present in the model config's "
+                    "'auto_map' (relevant if the model is custom)."
+                )
+
+        if not model_module.is_backend_compatible():
+            if model_config.model_impl != "transformers":
+                return None
+
+            raise ValueError(
+                f"The Transformers implementation of {architecture!r} "
+                "is not compatible with vLLM."
+            )
+
+        return model_config._get_transformers_backend_cls()
+
+    def _normalize_arch(
+        self,
+        architecture: str,
+        model_config: ModelConfig,
+    ) -> str:
+        if architecture in self.models:
+            return architecture
+
+        # This may be called in order to resolve runner_type and convert_type
+        # in the first place, in which case we consider the default match
+        match = try_match_architecture_defaults(
+            architecture,
+            runner_type=getattr(model_config, "runner_type", None),
+            convert_type=getattr(model_config, "convert_type", None),
+        )
+        if match:
+            suffix, _ = match
+
+            # Get the name of the base model to convert
+            for repl_suffix, _ in iter_architecture_defaults():
+                base_arch = architecture.replace(suffix, repl_suffix)
+                if base_arch in self.models:
+                    return base_arch
+
+        return architecture
+
+    def inspect_model_cls(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> tuple[_ModelInfo, str]:
+        if isinstance(architectures, str):
+            architectures = [architectures]
+        if not architectures:
+            raise ValueError("No model architectures are specified")
+
+        # Require transformers impl
+        if model_config.model_impl == "transformers":
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_info = self._try_inspect_model_cls(arch)
+                if model_info is not None:
+                    return (model_info, arch)
+        elif model_config.model_impl == "terratorch":
+            model_info = self._try_inspect_model_cls("Terratorch")
+            return (model_info, "Terratorch")
+
+        # Fallback to transformers impl (after resolving convert_type)
+        if (
+            all(arch not in self.models for arch in architectures)
+            and model_config.model_impl == "auto"
+            and getattr(model_config, "convert_type", "none") == "none"
+        ):
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_info = self._try_inspect_model_cls(arch)
+                if model_info is not None:
+                    return (model_info, arch)
+
+        for arch in architectures:
+            normalized_arch = self._normalize_arch(arch, model_config)
+            model_info = self._try_inspect_model_cls(normalized_arch)
+            if model_info is not None:
+                return (model_info, arch)
+
+        # Fallback to transformers impl (before resolving runner_type)
+        if (
+            all(arch not in self.models for arch in architectures)
+            and model_config.model_impl == "auto"
+        ):
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_info = self._try_inspect_model_cls(arch)
+                if model_info is not None:
+                    return (model_info, arch)
+
+        return self._raise_for_unsupported(architectures)
+
+    def resolve_model_cls(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> tuple[type[nn.Module], str]:
+        if isinstance(architectures, str):
+            architectures = [architectures]
+        if not architectures:
+            raise ValueError("No model architectures are specified")
+
+        # Require transformers impl
+        if model_config.model_impl == "transformers":
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_cls = self._try_load_model_cls(arch)
+                if model_cls is not None:
+                    return (model_cls, arch)
+        elif model_config.model_impl == "terratorch":
+            arch = "Terratorch"
+            model_cls = self._try_load_model_cls(arch)
+            if model_cls is not None:
+                return (model_cls, arch)
+
+        # Fallback to transformers impl (after resolving convert_type)
+        if (
+            all(arch not in self.models for arch in architectures)
+            and model_config.model_impl == "auto"
+            and getattr(model_config, "convert_type", "none") == "none"
+        ):
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_cls = self._try_load_model_cls(arch)
+                if model_cls is not None:
+                    return (model_cls, arch)
+
+        for arch in architectures:
+            normalized_arch = self._normalize_arch(arch, model_config)
+            model_cls = self._try_load_model_cls(normalized_arch)
+            if model_cls is not None:
+                return (model_cls, arch)
+
+        # Fallback to transformers impl (before resolving runner_type)
+        if (
+            all(arch not in self.models for arch in architectures)
+            and model_config.model_impl == "auto"
+        ):
+            arch = self._try_resolve_transformers(architectures[0], model_config)
+            if arch is not None:
+                model_cls = self._try_load_model_cls(arch)
+                if model_cls is not None:
+                    return (model_cls, arch)
+
+        return self._raise_for_unsupported(architectures)
+
+    def is_text_generation_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.is_text_generation_model
+
+    def is_pooling_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.is_pooling_model
+
+    def is_cross_encoder_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_cross_encoding
+
+    def is_multimodal_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_multimodal
+
+    def is_multimodal_raw_input_only_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_multimodal_raw_input_only
+
+    def is_pp_supported_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_pp
+
+    def model_has_inner_state(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.has_inner_state
+
+    def is_attention_free_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.is_attention_free
+
+    def is_hybrid_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.is_hybrid
+
+    def is_noops_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.has_noops
+
+    def is_transcription_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_transcription
+
+    def is_transcription_only_model(
+        self,
+        architectures: str | list[str],
+        model_config: ModelConfig,
+    ) -> bool:
+        model_cls, _ = self.inspect_model_cls(architectures, model_config)
+        return model_cls.supports_transcription_only
+
+
+ModelRegistry = _ModelRegistry(
+    {
+        model_arch: _LazyRegisteredModel(
+            module_name=f"vllm.model_executor.models.{mod_relname}",
+            class_name=cls_name,
+        )
+        for model_arch, (mod_relname, cls_name) in _VLLM_MODELS.items()
+    }
+)
+
+_T = TypeVar("_T")
+
+
+def _run_in_subprocess(fn: Callable[[], _T]) -> _T:
+    # NOTE: We use a temporary directory instead of a temporary file to avoid
+    # issues like https://stackoverflow.com/questions/23212435/permission-denied-to-write-to-my-temporary-file
+    with tempfile.TemporaryDirectory() as tempdir:
+        output_filepath = os.path.join(tempdir, "registry_output.tmp")
+
+        # `cloudpickle` allows pickling lambda functions directly
+        import cloudpickle
+
+        input_bytes = cloudpickle.dumps((fn, output_filepath))
+
+        # cannot use `sys.executable __file__` here because the script
+        # contains relative imports
+        returned = subprocess.run(
+            _SUBPROCESS_COMMAND, input=input_bytes, capture_output=True
+        )
+
+        # check if the subprocess is successful
+        try:
+            returned.check_returncode()
+        except Exception as e:
+            # wrap raised exception to provide more information
+            raise RuntimeError(
+                f"Error raised in subprocess:\n{returned.stderr.decode()}"
+            ) from e
+
+        with open(output_filepath, "rb") as f:
+            return pickle.load(f)
+
+
+def _run() -> None:
+    # Setup plugins
+    from vllm.plugins import load_general_plugins
+
+    load_general_plugins()
+
+    fn, output_file = pickle.loads(sys.stdin.buffer.read())
+
+    result = fn()
+
+    with open(output_file, "wb") as f:
+        f.write(pickle.dumps(result))
+
+
+if __name__ == "__main__":
+    _run()
diff --git a/model_executor/models/roberta.py b/model_executor/models/roberta.py
new file mode 100644
index 0000000..31cc645
--- /dev/null
+++ b/model_executor/models/roberta.py
@@ -0,0 +1,259 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+from torch import nn
+from transformers import RobertaConfig
+
+from vllm.config import ModelConfig, VllmConfig
+from vllm.model_executor.layers.pooler import (
+    ClassifierPooler,
+    CLSPool,
+    DispatchPooler,
+    Pooler,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.models.bert import (
+    TOKEN_TYPE_SHIFT,
+    BertEmbeddingModel,
+    BertModel,
+    _decode_token_type_ids,
+    _encode_token_type_ids,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    maybe_prefix,
+)
+from vllm.sequence import IntermediateTensors
+
+from .bert_with_rope import BertWithRope, JinaRobertaModel
+from .interfaces import SupportsCrossEncoding
+from .interfaces_base import default_pooling_type
+
+
+class RobertaEmbedding(nn.Module):
+    def __init__(self, config: RobertaConfig):
+        super().__init__()
+        self.size = config.hidden_size
+        self.word_embeddings = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+        self.padding_idx = config.pad_token_id
+        self.position_embeddings = nn.Embedding(
+            config.max_position_embeddings,
+            config.hidden_size,
+            padding_idx=self.padding_idx,
+        )
+
+        self.token_type_embeddings = nn.Embedding(
+            config.type_vocab_size, config.hidden_size
+        )
+        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.register_buffer(
+            "position_ids",
+            torch.arange(config.max_position_embeddings).unsqueeze(0),
+        )
+
+        self.position_embedding_type = config.position_embedding_type
+        if self.position_embedding_type != "absolute":
+            raise ValueError(
+                "Only 'absolute' position_embedding_type" + " is supported"
+            )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        token_type_ids = _decode_token_type_ids(input_ids)
+
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
+
+        position_embeddings = self.position_embeddings(position_ids)
+
+        token_type_embeddings = self.token_type_embeddings(token_type_ids)
+        embeddings = inputs_embeds + token_type_embeddings + position_embeddings
+        embeddings = self.LayerNorm(embeddings)
+        return embeddings
+
+
+# Adapted from transformers
+class RobertaClassificationHead(nn.Module):
+    """Head for sentence-level classification tasks."""
+
+    def __init__(self, model_config: "ModelConfig"):
+        super().__init__()
+        config = model_config.hf_config
+        head_dtype = model_config.head_dtype
+        self.dense = nn.Linear(config.hidden_size, config.hidden_size, dtype=head_dtype)
+        self.out_proj = nn.Linear(
+            config.hidden_size, config.num_labels, dtype=head_dtype
+        )
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        # CLSPool has already been applied in `pooling`
+        x = self.dense(x)
+        x = torch.tanh(x)
+        x = self.out_proj(x)
+        return x
+
+
+@default_pooling_type("CLS")
+class RobertaEmbeddingModel(BertEmbeddingModel):
+    """A model that uses Roberta to provide embedding functionalities."""
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        self.padding_idx: int = vllm_config.model_config.hf_config.pad_token_id
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # Fix Roberta positions here outside of the CUDA graph.
+        # Because we need the to extract the sequences from
+        # input_ids the control flow is data dependent.
+        replace_roberta_positions(
+            input_ids=input_ids, position_ids=positions, padding_idx=self.padding_idx
+        )
+
+        return self.model(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+
+    def _build_model(
+        self, vllm_config: VllmConfig, prefix: str = ""
+    ) -> BertModel | BertWithRope:
+        if vllm_config.model_config.hf_config.position_embedding_type == "rotary":
+            return JinaRobertaModel(vllm_config=vllm_config, prefix=prefix)
+        else:
+            return BertModel(
+                vllm_config=vllm_config, prefix=prefix, embedding_class=RobertaEmbedding
+            )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        weights_list = list(weights)
+        has_roberta_prefix = any(
+            name.startswith("roberta.") for name, _ in weights_list
+        )
+        if has_roberta_prefix:
+            # For models with the `roberta.` prefix e.g.
+            # `FacebookAI/roberta-base`
+            mapper = WeightsMapper(orig_to_new_prefix={"roberta.": "model."})
+        else:
+            # For models without the `roberta.` prefix e.g.
+            # `sentence-transformers/stsb-roberta-base-v2`
+            mapper = WeightsMapper(orig_to_new_prefix={"": "model."})
+
+        loader = AutoWeightsLoader(self, skip_prefixes=["lm_head."])
+        return loader.load_weights(weights_list, mapper=mapper)
+
+
+@default_pooling_type("CLS")
+class RobertaForSequenceClassification(nn.Module, SupportsCrossEncoding):
+    """A model that uses Roberta to provide embedding functionalities.
+
+    This class encapsulates the BertModel and provides an interface for
+    embedding operations and customized pooling functions.
+
+    Attributes:
+        roberta: An instance of BertModel used for forward operations.
+        _pooler: An instance of Pooler used for pooling operations.
+    """
+
+    is_pooling_model = True
+    jina_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "emb_ln": "embeddings.LayerNorm",
+            "layers": "layer",
+            "mixer.Wqkv": "attention.self.qkv_proj",
+            "mixer.out_proj": "attention.output.dense",
+            "norm1": "attention.output.LayerNorm",
+            "mlp.fc1": "intermediate.dense",
+            "mlp.fc2": "output.dense",
+            "norm2": "output.LayerNorm",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.padding_idx: int = vllm_config.model_config.hf_config.pad_token_id
+
+        self.num_labels = config.num_labels
+        self.roberta = BertModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "bert"),
+            embedding_class=RobertaEmbedding,
+        )
+        self.classifier = RobertaClassificationHead(vllm_config.model_config)
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config=pooler_config, classifier=self.classifier
+                ),
+                "classify": ClassifierPooler(
+                    pooling=CLSPool(), classifier=self.classifier, act_fn="classify"
+                ),
+                "score": ClassifierPooler(
+                    pooling=CLSPool(), classifier=self.classifier, act_fn="score"
+                ),
+            }
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.jina_to_vllm_mapper)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.roberta.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        token_type_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        replace_roberta_positions(
+            input_ids=input_ids, position_ids=positions, padding_idx=self.padding_idx
+        )
+        if token_type_ids is not None:
+            assert self.roberta.config.vocab_size < (1 << TOKEN_TYPE_SHIFT)
+            assert input_ids is not None
+            _encode_token_type_ids(input_ids, token_type_ids)
+        return self.roberta(
+            input_ids=input_ids,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+            intermediate_tensors=intermediate_tensors,
+        )
+
+
+def replace_roberta_positions(
+    input_ids: torch.Tensor, position_ids: torch.Tensor, padding_idx: int
+) -> None:
+    # Replace position ids because in RoBERTa models
+    # they have to start at padding_idx + 1 and ignore
+    # existing padding tokens
+    # References:
+    # - https://github.com/huggingface/transformers/blob/a3d69a8994d673899608a7c17fbf4f953f50474e/src/transformers/models/roberta/modeling_roberta.py#L133
+    # - https://github.com/huggingface/transformers/blob/a3d69a8994d673899608a7c17fbf4f953f50474e/src/transformers/models/roberta/modeling_roberta.py#L1669
+    # vllm does not use padding tokens, let's make things simpler
+    position_ids += padding_idx + 1
diff --git a/model_executor/models/rvl.py b/model_executor/models/rvl.py
new file mode 100644
index 0000000..92352fe
--- /dev/null
+++ b/model_executor/models/rvl.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Mapping
+
+import torch
+import torch.nn as nn
+from transformers.activations import GELUActivation
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalDataDict
+
+from .llava_next import (
+    LlavaDummyInputsBuilder,
+    LlavaNextMultiModalProcessor,
+    LlavaNextProcessingInfo,
+)
+from .llava_onevision import LlavaOnevisionForConditionalGeneration
+from .utils import WeightsMapper
+
+
+class RVLProcessingInfo(LlavaNextProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(**kwargs)
+
+
+class RVLDummyInputsBuilder(LlavaDummyInputsBuilder[RVLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        image_token = "<image>"
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+        }
+
+
+class RVLMultiModalProjector(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.pre_norm = nn.LayerNorm(config.vision_config.hidden_size, eps=1e-06)
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size,
+            config.text_config.hidden_size,
+            bias=True,
+        )
+        self.act = GELUActivation()
+        self.linear_2 = nn.Linear(
+            config.text_config.hidden_size,
+            config.text_config.hidden_size,
+            bias=True,
+        )
+
+    def forward(self, image_feature: torch.Tensor) -> torch.Tensor:
+        image_feature = self.pre_norm(image_feature)
+        hidden_states = self.linear_1(image_feature)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    LlavaNextMultiModalProcessor,
+    info=RVLProcessingInfo,
+    dummy_inputs=RVLDummyInputsBuilder,
+)
+class RForConditionalGeneration(LlavaOnevisionForConditionalGeneration):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # mapping for new names in checkpoint saved after transformers
+            # v4.52
+            "model.language_model.": "language_model.model.",
+            "model.vision_tower.": "vision_tower.",
+            "model.multi_modal_projector.": "multi_modal_projector.",
+            "model.image_newline": "image_newline",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        config = vllm_config.model_config.hf_config
+        self.multi_modal_projector = RVLMultiModalProjector(config)
diff --git a/model_executor/models/seed_oss.py b/model_executor/models/seed_oss.py
new file mode 100644
index 0000000..bf211d2
--- /dev/null
+++ b/model_executor/models/seed_oss.py
@@ -0,0 +1,497 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The Seed team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only SeedOss model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig as SeedOssConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class SeedOssMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class SeedOssAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        self.head_dim = head_dim
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class SeedOssDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: SeedOssConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+
+        # By default, SeedOss uses causal attention as it is a
+        # decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = SeedOssAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+        )
+        self.mlp = SeedOssMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class SeedOssModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layer_type: type[nn.Module] = SeedOssDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        # TODO (@robertgshaw2): see if this can be moved out
+        if cache_config.sliding_window is not None and hasattr(
+            config, "max_window_layers"
+        ):
+            assert config.max_window_layers == config.num_hidden_layers, (
+                "Sliding window for some but all layers is not supported. "
+                "This model uses sliding window but `max_window_layers` = {} "
+                "is less than `num_hidden_layers` = {}. Please open an issue "
+                "to discuss this feature.".format(
+                    config.max_window_layers,
+                    config.num_hidden_layers,
+                )
+            )
+
+        self.config = config
+        self.quant_config = quant_config
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        # Use the provided decoder layer type or default to SeedDecoderLayer
+        decoder_layer_type = decoder_layer_type or SeedOssDecoderLayer
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class SeedOssForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+        self.model = SeedOssModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(
+                    config.vocab_size,
+                    config.hidden_size,
+                    quant_config=quant_config,
+                    prefix=maybe_prefix(prefix, "lm_head"),
+                )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/siglip.py b/model_executor/models/siglip.py
new file mode 100644
index 0000000..b175dd6
--- /dev/null
+++ b/model_executor/models/siglip.py
@@ -0,0 +1,1174 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Implementation of SiglipVisionModel intended to be only used
+within a vision language model."""
+
+import math
+from collections.abc import Iterable, Mapping
+from functools import cached_property
+from typing import Annotated, Literal
+
+import torch
+from torch import nn
+from transformers import (
+    BatchFeature,
+    SiglipConfig,
+    SiglipProcessor,
+    SiglipTextConfig,
+    SiglipVisionConfig,
+)
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptIndexTargets,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsQuant
+from .interfaces_base import default_pooling_type
+from .utils import AutoWeightsLoader, maybe_prefix
+from .vision import (
+    VisionEncoderInfo,
+    VisionFeatureSelectStrategy,
+    VisionFeatureSelectStrategyStr,
+    get_num_selected_vision_tokens,
+    resolve_visual_encoder_outputs,
+)
+
+
+class SiglipImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height of each image
+        - w: Width of each image
+    """
+
+    type: Literal["pixel_values"]
+    data: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+_POOLING_TYPE_TO_STRATEGY: dict[str, VisionFeatureSelectStrategyStr] = {
+    "MEAN": "full",
+    "ALL": "full",
+    "CLS": "class",
+}
+
+
+def _get_vision_feature_select_strategy(
+    pooling_type: str,
+) -> VisionFeatureSelectStrategyStr:
+    try:
+        return _POOLING_TYPE_TO_STRATEGY[pooling_type]
+    except KeyError:
+        raise ValueError(
+            f"No feature selection strategy is defined for "
+            f"pooling_type: {pooling_type!r}"
+        ) from None
+
+
+class SiglipProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(SiglipConfig)
+
+    def get_vision_encoder_info(self):
+        return SiglipEncoderInfo(self.get_hf_config())
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(SiglipProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": 1}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        pooler_config = self.ctx.model_config.pooler_config
+        assert pooler_config is not None
+
+        return get_num_selected_vision_tokens(
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+            _get_vision_feature_select_strategy(pooler_config.pooling_type),
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width, image_height=target_height
+        )
+
+
+class SiglipDummyInputsBuilder(BaseDummyInputsBuilder[SiglipProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_image_size_with_most_features()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class SiglipMultiModalProcessor(BaseMultiModalProcessor[SiglipProcessingInfo]):
+    @cached_property
+    def image_token_id(self) -> int:
+        tokenizer = self.info.get_tokenizer()
+        dummy_token_id = next(
+            token_id
+            for token_id in range(tokenizer.vocab_size)
+            if token_id not in tokenizer.all_special_ids
+        )
+
+        return dummy_token_id
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        if prompt and mm_data:
+            raise ValueError(
+                "Siglip accepts text-only or image-only inputs, not both! "
+                "Image-only inputs means passing an image with an empty text "
+                "prompt."
+            )
+
+        if mm_data:
+            # For multi-modal data, the prompt after processing should
+            # only contain the image token
+            tokenization_kwargs = {
+                **(tokenization_kwargs or {}),
+                "add_special_tokens": False,
+            }
+
+        return super().apply(
+            prompt=prompt,
+            mm_data=mm_data,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        return False
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> list[PromptUpdate]:
+        image_token_id = self.image_token_id
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items("image", ImageProcessorItems)
+            image_size = images.get_image_size(item_idx)
+
+            num_image_tokens = self.info.get_num_image_tokens(
+                image_width=image_size.width, image_height=image_size.height
+            )
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=PromptIndexTargets.start(),
+                replacement=get_replacement,
+            ),
+        ]
+
+
+class SiglipEncoderInfo(VisionEncoderInfo[SiglipVisionConfig]):
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        return self.get_patch_grid_length() ** 2
+
+    def get_image_size(self) -> int:
+        return self.vision_config.image_size
+
+    def get_patch_size(self) -> int:
+        return self.vision_config.patch_size
+
+    def get_patch_grid_length(self) -> int:
+        image_size, patch_size = self.get_image_size(), self.get_patch_size()
+        return image_size // patch_size
+
+
+# Adapted from https://github.com/huggingface/transformers/blob/v4.43.3/src/transformers/models/siglip/modeling_siglip.py#L249 # noqa
+class SiglipVisionEmbeddings(nn.Module):
+    def __init__(self, config: SiglipVisionConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            padding="valid",
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.position_embedding = VocabParallelEmbedding(
+            self.num_positions, self.embed_dim
+        )
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions, dtype=torch.int64).expand((1, -1)),
+            persistent=False,
+        )
+
+    def interpolate_pos_encoding(
+        self, embeddings: torch.Tensor, height: int, width: int
+    ) -> torch.Tensor:
+        """
+        This method is an adapted method for SigLIP (due to SigLIP not having
+        class embedding unlike other ViTs) that allows the model to interpolate
+        the pre-trained position encodings such that it can be usable on higher
+        resolution images.
+
+        Source:
+        https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174
+        """
+        position_embeddings = self.position_embedding.weight.unsqueeze(0)
+        num_patches = embeddings.shape[1]
+        num_positions = position_embeddings.shape[1]
+        if num_patches == num_positions and height == width:
+            return position_embeddings
+
+        dim = embeddings.shape[-1]
+        height = height // self.patch_size
+        width = width // self.patch_size
+        # we add a small number to avoid floating point error
+        # in the interpolation
+        # see discussion at https://github.com/facebookresearch/dino/issues/8
+        height, width = height + 0.1, width + 0.1
+
+        patch_pos_embed = position_embeddings.reshape(
+            1, int(math.sqrt(num_positions)), int(math.sqrt(num_positions)), dim
+        )
+        patch_pos_embed = patch_pos_embed.permute(0, 3, 1, 2)
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed,
+            scale_factor=(
+                height / math.sqrt(num_positions),
+                width / math.sqrt(num_positions),
+            ),
+            mode="bicubic",
+            align_corners=False,
+        )
+        if (
+            int(height) != patch_pos_embed.shape[-2]
+            or int(width) != patch_pos_embed.shape[-1]
+        ):
+            raise ValueError(
+                "Width or height does not match with "
+                "the interpolated position embeddings"
+            )
+
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+        return patch_pos_embed
+
+    def forward(
+        self, pixel_values: torch.Tensor, interpolate_pos_encoding: bool = False
+    ) -> torch.Tensor:
+        _, _, height, width = pixel_values.shape
+        target_dtype = self.patch_embedding.weight.dtype
+        patch_embeds = self.patch_embedding(
+            pixel_values.to(dtype=target_dtype)
+        )  # shape = [*, width, grid, grid]
+        embeddings = patch_embeds.flatten(2).transpose(1, 2)
+
+        if interpolate_pos_encoding:
+            embeddings += self.interpolate_pos_encoding(embeddings, height, width)
+        else:
+            embeddings += self.position_embedding(self.position_ids)
+        return embeddings
+
+
+class SiglipAttention(nn.Module):
+    def __init__(
+        self,
+        config: SiglipVisionConfig | SiglipTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads (got "
+                "`embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+
+        self.scale = self.head_dim**-0.5
+        self.dropout = config.attention_dropout
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.out_proj = RowParallelLinear(
+            input_size=self.embed_dim,
+            output_size=self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
+
+        self.attn = attn_cls(
+            self.num_heads_per_partition,
+            self.head_dim,
+            self.scale,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, None]:
+        """Input shape: Batch x Time x Channel"""
+        qkv_states, _ = self.qkv_proj(hidden_states)
+        query_states, key_states, value_states = qkv_states.chunk(3, dim=-1)
+        out = self.attn(query_states, key_states, value_states)
+        attn_output, _ = self.out_proj(out)
+
+        return attn_output, None
+
+
+class SiglipMLP(nn.Module):
+    def __init__(
+        self,
+        config: SiglipVisionConfig | SiglipTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        # Special handling for BNB and torchao quantization
+        if quant_config and quant_config.get_name() in ["bitsandbytes", "torchao"]:
+            quantizable = True
+        else:
+            # For other quantization, we require the hidden size to be a
+            # multiple of 64
+            quantizable = (
+                config.hidden_size % 64 == 0 and config.intermediate_size % 64 == 0
+            )
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class SiglipEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: SiglipVisionConfig | SiglipTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+
+        self.embed_dim = config.hidden_size
+
+        self.self_attn = SiglipAttention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attn_cls=attn_cls,
+        )
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = SiglipMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, None]:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states, _ = self.self_attn(hidden_states=hidden_states)
+        hidden_states += residual
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states += residual
+
+        return hidden_states, None
+
+
+class SiglipEncoder(nn.Module):
+    def __init__(
+        self,
+        config: SiglipVisionConfig | SiglipTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        num_hidden_layers_override: int | None = None,
+        *,
+        prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+
+        if num_hidden_layers_override is None:
+            num_hidden_layers = config.num_hidden_layers
+        else:
+            num_hidden_layers = num_hidden_layers_override
+
+        self.layers = nn.ModuleList(
+            [
+                SiglipEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_cls=attn_cls,
+                )
+                for layer_idx in range(num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        return_all_hidden_states: bool,
+    ) -> torch.Tensor | list[torch.Tensor]:
+        hidden_states_pool = [inputs_embeds]
+        hidden_states = inputs_embeds
+
+        for encoder_layer in self.layers:
+            hidden_states, _ = encoder_layer(hidden_states)
+            if return_all_hidden_states:
+                hidden_states_pool.append(hidden_states)
+        # If we have multiple feature sample layers, we return all hidden
+        # states in order and grab the ones we need by index.
+        if return_all_hidden_states:
+            return hidden_states_pool
+        return hidden_states
+
+
+class SiglipTextTransformer(nn.Module):
+    def __init__(
+        self,
+        config: SiglipTextConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = SiglipTextEmbeddings(config)
+
+        self.encoder = SiglipEncoder(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            attn_cls=EncoderOnlyAttention,
+        )
+
+        self.final_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+        self.head = nn.Linear(embed_dim, config.projection_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings.token_embedding(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(input_ids, position_ids, inputs_embeds)
+
+        last_hidden_state = self.encoder(
+            inputs_embeds=hidden_states, return_all_hidden_states=False
+        )
+
+        last_hidden_state = self.final_layer_norm(last_hidden_state)
+
+        return last_hidden_state
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class SiglipMultiheadAttentionPoolingHead(nn.Module):
+    """Multihead Attention Pooling."""
+
+    def __init__(
+        self,
+        config: SiglipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.probe = nn.Parameter(torch.randn(1, 1, config.hidden_size))
+        # TODO(ChristopherCho): Implement vLLM version of MultiheadAttention
+        self.attention = torch.nn.MultiheadAttention(
+            config.hidden_size, config.num_attention_heads, batch_first=True
+        )
+        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.mlp = SiglipMLP(
+            config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+
+    def forward(self, hidden_state: torch.Tensor) -> torch.Tensor:
+        batch_size = hidden_state.size(0)
+
+        probe = self.probe.expand(batch_size, -1, -1)
+
+        hidden_state = self.attention(probe, hidden_state, hidden_state)[0]
+
+        residual = hidden_state
+        hidden_state = self.layernorm(hidden_state)
+        hidden_state = self.mlp(hidden_state)
+        hidden_state += residual
+
+        pooled = hidden_state[:, 0]
+
+        return pooled.unsqueeze(1)
+
+
+class SiglipVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: SiglipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = SiglipVisionEmbeddings(config)
+
+        self.encoder = SiglipEncoder(
+            config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            prefix=f"{prefix}.encoder",
+            attn_cls=MultiHeadAttention,
+        )
+
+        num_hidden_layers = config.num_hidden_layers
+        if len(self.encoder.layers) > config.num_hidden_layers:
+            raise ValueError(
+                f"The original encoder only has {num_hidden_layers} "
+                f"layers, but you requested {len(self.encoder.layers)} layers."
+            )
+
+        # If possible, skip post_layernorm to conserve memory
+        if require_post_norm is None:
+            require_post_norm = len(self.encoder.layers) == num_hidden_layers
+
+        if require_post_norm:
+            self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+        else:
+            self.post_layernorm = None
+
+        self.use_head = (
+            True if not hasattr(config, "vision_use_head") else config.vision_use_head
+        )
+        if self.use_head:
+            self.head = SiglipMultiheadAttentionPoolingHead(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.head",
+            )
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    @property
+    def device(self):
+        return next(self.parameters()).device
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        *,
+        interpolate_pos_encoding: bool = False,
+        select_layers: list[int] | None = None,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+        )
+        # Produces either the last layer output or all of the hidden states,
+        # depending on if we have select_layers or not
+        encoder_outputs = self.encoder(
+            inputs_embeds=hidden_states,
+            return_all_hidden_states=select_layers is not None,
+        )
+
+        if self.post_layernorm is not None:
+            encoder_outputs = self.post_layernorm(encoder_outputs)
+
+        if self.use_head:
+            encoder_outputs = self.head(encoder_outputs)
+
+        # stacks feature layers if needed
+        encoder_outputs = resolve_visual_encoder_outputs(
+            encoder_outputs,
+            None,
+            select_layers=select_layers,
+            max_possible_layers=self.config.num_hidden_layers,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.encoder.layers)
+
+        for name, loaded_weight in weights:
+            # post_layernorm is not needed in SiglipVisionTransformer
+            if name.startswith("post_layernorm") and self.post_layernorm is None:
+                continue
+
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("encoder.layers"):
+                layer_idx = int(name.split(".")[2])
+                if layer_idx >= layer_count:
+                    continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class SiglipVisionModel(nn.Module):
+    config_class = SiglipVisionConfig
+    main_input_name = "pixel_values"
+
+    def __init__(
+        self,
+        config: SiglipVisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        *,
+        num_hidden_layers_override: int | None = None,
+        require_post_norm: bool | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.vision_model = SiglipVisionTransformer(
+            config,
+            quant_config,
+            num_hidden_layers_override=num_hidden_layers_override,
+            require_post_norm=require_post_norm,
+            prefix=f"{prefix}.vision_model",
+        )
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.vision_model.embeddings.patch_embedding
+
+    @property
+    def dtype(self):
+        return self.vision_model.dtype
+
+    @property
+    def device(self):
+        return self.vision_model.device
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        interpolate_pos_encoding: bool = False,
+        select_layers: list[int] | None = None,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        return self.vision_model(
+            pixel_values=pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            select_layers=select_layers,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        layer_count = len(self.vision_model.encoder.layers)
+
+        for name, loaded_weight in weights:
+            # post_layernorm is optional in SiglipVisionModel
+            if (
+                name.startswith("vision_model.post_layernorm")
+                and self.vision_model.post_layernorm is None
+            ):
+                continue
+
+            # omit layers when num_hidden_layers_override is set
+            if name.startswith("vision_model.encoder.layers"):
+                layer_idx = int(name.split(".")[3])
+                if layer_idx >= layer_count:
+                    continue
+
+            # Check if this is a scale parameter that needs remapping first
+            if name.endswith((".k_scale", ".v_scale", ".q_scale", ".prob_scale")):
+                # Try to remap the scale name first
+                remapped_name = maybe_remap_kv_scale_name(name, params_dict)
+                if remapped_name is not None and remapped_name in params_dict:
+                    # Successfully remapped, use the remapped name
+                    param = params_dict[remapped_name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+                    loaded_params.add(remapped_name)
+                    continue
+                # If remapping failed, continue with normal processing
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+# Adapted from: https://github.com/huggingface/transformers/blob/v4.54.1/src/transformers/models/siglip/modeling_siglip.py#L200
+class SiglipTextEmbeddings(nn.Module):
+    def __init__(self, config: SiglipTextConfig):
+        super().__init__()
+        self.config = config
+
+        self.token_embedding = VocabParallelEmbedding(
+            config.vocab_size, config.hidden_size
+        )
+
+        self.position_embedding = VocabParallelEmbedding(
+            config.max_position_embeddings, config.hidden_size
+        )
+
+        self.register_buffer(
+            "position_ids",
+            torch.arange(config.max_position_embeddings).expand((1, -1)),
+            persistent=False,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is None:
+            inputs_embeds = self.token_embedding(input_ids)
+
+        position_embeddings = self.position_embedding(position_ids)
+        embeddings = inputs_embeds + position_embeddings
+        return embeddings
+
+
+# Assume EOS token corresponds to CLS token in text model
+@default_pooling_type("CLS")
+@MULTIMODAL_REGISTRY.register_processor(
+    SiglipMultiModalProcessor,
+    info=SiglipProcessingInfo,
+    dummy_inputs=SiglipDummyInputsBuilder,
+)
+class SiglipEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
+    is_pooling_model = True
+
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config: SiglipConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        if hasattr(config, "num_labels"):
+            config.num_labels = 0
+
+        text_config = config.text_config
+        vision_config = config.vision_config
+
+        self.text_embed_dim = text_config.hidden_size
+        self.vision_embed_dim = vision_config.hidden_size
+
+        self.text_model = SiglipTextTransformer(
+            text_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "text_model"),
+        )
+        self.vision_model = SiglipVisionTransformer(
+            vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.text_projection_size = text_config.projection_size
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+        self.pooler_config = pooler_config
+
+        self.pooler = DispatchPooler(
+            {
+                "token_embed": Pooler.for_token_embed(pooler_config),
+                "embed": Pooler.for_embed(pooler_config),
+            }
+        )
+
+        self._is_text_input = True
+
+    def get_text_features(
+        self,
+        input_ids: torch.Tensor | None,
+        position_ids: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        last_hidden_state = self.text_model(
+            input_ids=input_ids,
+            position_ids=position_ids,
+            inputs_embeds=inputs_embeds,
+        )
+        text_features = self.text_model.head(last_hidden_state)
+
+        # SigLIP uses reversed position_ids;
+        # flip sequences to move EOS token to first position
+        text_features = self._flip_sequences_by_position_ids(
+            text_features, position_ids
+        )
+
+        return text_features
+
+    def _flip_sequences_by_position_ids(
+        self,
+        features: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        """Flip sequences so EOS token moves to first position for CLS pooling.
+
+        SigLIP position_ids are reversed within each sequence. This method detects
+        sequence boundaries and flips each sequence individually.
+        """
+        if len(features) == 1:
+            return features
+
+        # Detect sequence boundaries where position_ids decrease
+        position_diffs = position_ids[1:] - position_ids[:-1]
+        boundary_mask = position_diffs <= 0
+
+        boundary_indices = torch.cat(
+            [
+                torch.tensor([0], device=features.device),
+                torch.where(boundary_mask)[0] + 1,
+                torch.tensor([len(features)], device=features.device),
+            ]
+        )
+
+        # For each sequence [start, end), position i flips to: start + end - 1 - i
+        lengths = boundary_indices[1:] - boundary_indices[:-1]
+        starts = boundary_indices[:-1]
+        ends = boundary_indices[1:]
+
+        # Assign sequence ID to each element
+        sequence_ids = torch.arange(
+            len(lengths), device=features.device
+        ).repeat_interleave(lengths)
+
+        # Calculate flipped indices for all positions at once
+        current_positions = torch.arange(len(features), device=features.device)
+        flip_indices = starts[sequence_ids] + ends[sequence_ids] - 1 - current_positions
+
+        return features[flip_indices]
+
+    def get_image_features(
+        self,
+        pixel_values: torch.Tensor,
+        feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+    ) -> torch.Tensor:
+        if feature_select_strategy is None:
+            feature_select_strategy = _get_vision_feature_select_strategy(
+                self.pooler_config.pooling_type
+            )
+
+        pooled_output = self.vision_model(
+            pixel_values=pixel_values,
+            select_layers=None,
+            feature_select_strategy=feature_select_strategy,
+        )
+
+        return pooled_output
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> SiglipImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        if pixel_values is None:
+            return None
+
+        expected_h = expected_w = self.config.vision_config.image_size
+        return SiglipImagePixelInputs(
+            type="pixel_values",
+            data=pixel_values,
+            resolve_bindings={"h": expected_h, "w": expected_w},
+        )
+
+    def _process_image_inputs(self, inputs: SiglipImagePixelInputs) -> torch.Tensor:
+        pixel_values = inputs["data"]
+
+        return self.get_image_features(pixel_values)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.text_model
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        self._is_text_input = (
+            multimodal_embeddings is None or len(multimodal_embeddings) == 0
+        )
+
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        vision_embeddings = self._process_image_inputs(image_input)
+        return vision_embeddings
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor:
+        if intermediate_tensors is not None:
+            raise RuntimeError("PP is not supported for this model")
+
+        # Multimodal inputs (image embeddings)
+        if not self._is_text_input:
+            return inputs_embeds
+
+        return self.get_text_features(input_ids, positions, inputs_embeds)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        loader = AutoWeightsLoader(
+            self,
+            skip_substrs=[".position_ids"],
+            ignore_unexpected_prefixes=["logit_scale.", "logit_bias."],
+        )
+
+        return loader.load_weights(weights)
diff --git a/model_executor/models/siglip2navit.py b/model_executor/models/siglip2navit.py
new file mode 100644
index 0000000..29dd164
--- /dev/null
+++ b/model_executor/models/siglip2navit.py
@@ -0,0 +1,724 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Implementation of SiglipVisionModel intended to be only used
+within a vision language model."""
+
+from collections.abc import Iterable
+
+import torch
+from einops import rearrange, repeat
+from torch import nn
+from torch.nn import functional as F
+from transformers import Siglip2VisionConfig
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.layer import maybe_get_vit_flash_attn_backend
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    LinearBase,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.platforms import current_platform
+
+from .vision import get_vit_attn_backend
+
+
+class VisionRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
+        )
+        freqs = torch.outer(seq, self.inv_freq)
+        return freqs
+
+
+class Siglip2VisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.patch_size = config.patch_size
+        self.image_size = config.image_size
+        self.num_patches = config.num_patches
+        self.preserve_original_pe = config.preserve_original_pe
+        self.hidden_stride = config.hidden_stride
+
+        # siglip2 naflex
+        if self.num_patches > 0:
+            self.patch_embedding = ReplicatedLinear(
+                input_size=config.num_channels * self.patch_size * self.patch_size,
+                output_size=self.embed_dim,
+                return_bias=False,
+            )
+            if self.preserve_original_pe:
+                self.position_embedding_size = int(self.num_patches**0.5)
+                self.position_embedding = nn.Embedding(self.num_patches, self.embed_dim)
+
+        else:
+            self.patch_embedding = nn.Conv2d(
+                in_channels=config.num_channels,
+                out_channels=self.embed_dim,
+                kernel_size=self.patch_size,
+                stride=self.patch_size,
+                padding="valid",
+            )
+            if self.preserve_original_pe:
+                self.num_patches = (self.image_size // self.patch_size) ** 2
+                self.position_embedding_size = self.image_size // self.patch_size
+                self.position_embedding = nn.Embedding(self.num_patches, self.embed_dim)
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        grid_thws: torch.LongTensor | None = None,
+    ) -> torch.Tensor:
+        """
+        Args:
+            pixel_values (`torch.FloatTensor`):
+                Pixel values of shape (
+                    num_patches,
+                    num_channels * temporal_patch_size * patch_size * patch_size
+                )
+            grid_thws: (`torch.LongTensor`):
+                grid shape (num_patches, 3)
+        """
+
+        # Apply patch embeddings to already patchified pixel values
+        target_dtype = self.patch_embedding.weight.dtype
+        if isinstance(self.patch_embedding, LinearBase):
+            patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
+        elif isinstance(self.patch_embedding, nn.Conv2d):
+            pixel_values = pixel_values.view(
+                -1,
+                self.config.num_channels * self.config.temporal_patch_size,
+                self.patch_size,
+                self.patch_size,
+            )
+            patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
+            patch_embeds = patch_embeds.reshape(-1, self.embed_dim)
+
+        if self.preserve_original_pe:
+            assert grid_thws is not None
+            pos_embed_new = torch.zeros_like(patch_embeds)
+            positional_embeddings = (
+                self.position_embedding.weight.reshape(
+                    self.position_embedding_size, self.position_embedding_size, -1
+                )
+                .unsqueeze(0)
+                .permute(0, 3, 1, 2)
+            )
+            cnt = 0
+            for t, h, w in grid_thws:
+                volume = t * h * w
+                pe = F.interpolate(
+                    positional_embeddings,
+                    size=(h, w),
+                    mode="bicubic",
+                    align_corners=False,
+                )
+                pe = pe.permute(0, 2, 3, 1).reshape(1, h * w, -1)
+                pe = pe[0].repeat(t, 1)
+                pe = pe.reshape(
+                    t,
+                    h // self.hidden_stride,
+                    self.hidden_stride,
+                    w // self.hidden_stride,
+                    self.hidden_stride,
+                    -1,
+                )
+                pe = pe.permute(0, 1, 3, 2, 4, 5).reshape(volume, -1)
+                pos_embed_new[cnt : cnt + volume] = pe
+                cnt += volume
+            patch_embeds = patch_embeds + pos_embed_new
+
+        return patch_embeds
+
+
+# copy from flash_attn/layers/rotary.py
+def rotate_half(x, interleaved=False):
+    if not interleaved:
+        x1, x2 = x.chunk(2, dim=-1)
+        return torch.cat((-x2, x1), dim=-1)
+    else:
+        x1, x2 = x[..., ::2], x[..., 1::2]
+        return rearrange(
+            torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2
+        )
+
+
+def apply_rotary_emb_torch(x, cos, sin, interleaved=False):
+    """
+    x: (batch_size, seqlen, nheads, headdim)
+    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
+    """
+    ro_dim = cos.shape[-1] * 2
+    assert ro_dim <= x.shape[-1]
+    cos = repeat(
+        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    sin = repeat(
+        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    return torch.cat(
+        [
+            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
+            x[..., ro_dim:],
+        ],
+        dim=-1,
+    )
+
+
+def apply_rotary_pos_emb(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    is_flash_attn_backend: bool = False,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    cos = cos.chunk(2, dim=-1)[0].contiguous()
+    sin = sin.chunk(2, dim=-1)[0].contiguous()
+    if is_flash_attn_backend and not current_platform.is_xpu():
+        from flash_attn.layers.rotary import apply_rotary_emb
+
+        apply_rotary_emb_func = apply_rotary_emb
+    else:
+        apply_rotary_emb_func = apply_rotary_emb_torch
+    q_embed = apply_rotary_emb_func(q.float(), cos.float(), sin.float()).type_as(q)
+    k_embed = apply_rotary_emb_func(k.float(), cos.float(), sin.float()).type_as(k)
+    return q_embed, k_embed
+
+
+class Siglip2Attention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.num_heads
+        if self.head_dim * self.num_heads != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads "
+                f"(got `embed_dim`: {self.embed_dim} and `num_heads`:"
+                f" {self.num_heads})."
+            )
+        self.scale = self.head_dim**-0.5
+        self.dropout = config.attention_dropout
+        self.is_causal = False
+
+        # TODO(Isotr0py): Enable data parallel after we support
+        # disabling TP on parallel linear layer
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.num_heads,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=self.embed_dim,
+            output_size=self.embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.tp_size = (
+            1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        )
+        self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
+        self.use_rope = config.use_rope
+
+        # Detect attention implementation.
+        self.attn_backend = get_vit_attn_backend(
+            head_size=self.head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+
+        if self.attn_backend not in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
+            self.attn_backend = AttentionBackendEnum.TORCH_SDPA
+        self.is_flash_attn_backend = self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        position_embeddings: tuple[torch.Tensor, torch.Tensor] | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """Input shape: Batch x Time x Channel"""
+
+        seq_length, embed_dim = hidden_states.shape
+
+        qkv_states, _ = self.qkv_proj(hidden_states)
+        queries, keys, values = qkv_states.chunk(3, dim=-1)
+
+        queries = queries.view(seq_length, self.num_heads_per_partition, self.head_dim)
+        keys = keys.view(seq_length, self.num_heads_per_partition, self.head_dim)
+        values = values.view(seq_length, self.num_heads_per_partition, self.head_dim)
+
+        if self.use_rope:
+            cos, sin = position_embeddings
+            queries, keys = apply_rotary_pos_emb(
+                queries.unsqueeze(0),
+                keys.unsqueeze(0),
+                cos,
+                sin,
+                self.is_flash_attn_backend,
+            )
+            queries = queries.squeeze(0)
+            keys = keys.squeeze(0)
+
+        max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+        if self.is_flash_attn_backend:
+            attn_output = self.flash_attn_varlen_func(
+                queries,
+                keys,
+                values,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
+            ).reshape(seq_length, -1)
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
+            # Execute attention entry by entry for speed & less VRAM.
+            batch_size = cu_seqlens.shape[0] - 1
+            outputs = []
+            cu = cu_seqlens.tolist()
+            for i in range(batch_size):
+                start_idx = cu[i]
+                end_idx = cu[i + 1]
+
+                # Each sequence is processed independently.
+                q_i = queries[start_idx:end_idx].unsqueeze(0)
+                k_i = keys[start_idx:end_idx].unsqueeze(0)
+                v_i = values[start_idx:end_idx].unsqueeze(0)
+
+                # (1, seq_len, num_heads, head_dim) ->
+                # (1, num_heads, seq_len, head_dim)
+                q_i, k_i, v_i = [x.transpose(1, 2) for x in (q_i, k_i, v_i)]
+
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                # (1, num_heads, seq_len, head_dim) -> (seq_len, embed_dim)
+                output_i = output_i.transpose(1, 2).reshape(end_idx - start_idx, -1)
+                outputs.append(output_i)
+
+            attn_output = torch.cat(outputs, dim=0)
+        attn_output, _ = self.out_proj(attn_output)
+        return attn_output
+
+
+class Siglip2MLP(nn.Module):
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        # TODO(Isotr0py): Enable data parallel after we support
+        # disabling TP on parallel linear layer
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class Siglip2EncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.self_attn = Siglip2Attention(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = Siglip2MLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        position_embeddings: torch.Tensor,
+    ) -> tuple[torch.FloatTensor]:
+        """
+        Args:
+            hidden_states: Input tensor of shape (batch, seq_len, embed_dim).
+            cu_seqlens: Cumulative sequence lengths tensor.
+            position_embeddings: Position embeddings tensor.
+        """
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states = self.self_attn(
+            hidden_states=hidden_states,
+            cu_seqlens=cu_seqlens,
+            position_embeddings=position_embeddings,
+        )
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+class Siglip2Encoder(nn.Module):
+    """
+    Transformer encoder consisting of `config.num_hidden_layers`
+    self attention layers. Each layer is a [`Siglip2EncoderLayer`].
+
+    Args:
+        config: PretrainedConfig
+    """
+
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        self.layers = nn.ModuleList(
+            [
+                Siglip2EncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{idx}",
+                    use_data_parallel=use_data_parallel,
+                    attn_backend_override=attn_backend_override,
+                )
+                for idx in range(config.num_hidden_layers)
+            ]
+        )
+
+        self.rotary_pos_emb = VisionRotaryEmbedding(
+            config.hidden_size // config.num_attention_heads // 2
+        )
+        self.patch_size = config.patch_size
+        self.hidden_stride = config.hidden_stride
+        self.window_size = config.window_size
+        self.spatial_merge_unit = config.hidden_stride * config.hidden_stride
+        if config.fullatt_block_indexes is None:
+            self.fullatt_block_indexes = None
+        else:
+            self.fullatt_block_indexes = [
+                int(i) for i in config.fullatt_block_indexes.split("|")
+            ]
+
+    # copied from qwen2.5_vl
+    def rot_pos_emb(self, grid_thw):
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            hpos_ids = hpos_ids.reshape(
+                h // self.hidden_stride,
+                self.hidden_stride,
+                w // self.hidden_stride,
+                self.hidden_stride,
+            )
+            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
+            hpos_ids = hpos_ids.flatten()
+
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            wpos_ids = wpos_ids.reshape(
+                h // self.hidden_stride,
+                self.hidden_stride,
+                w // self.hidden_stride,
+                self.hidden_stride,
+            )
+            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
+            wpos_ids = wpos_ids.flatten()
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        pos_ids = torch.cat(pos_ids, dim=0)
+        max_grid_size = grid_thw[:, 1:].max()
+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        return rotary_pos_emb
+
+    def get_window_index(self, grid_thw):
+        window_index: list = []
+        cu_window_seqlens: list = [0]
+        window_index_id = 0
+        # patch (after merge) number in each window
+        vit_merger_window_size = (
+            self.window_size // self.hidden_stride // self.patch_size
+        )
+
+        for grid_t, grid_h, grid_w in grid_thw:
+            llm_grid_h, llm_grid_w = (
+                grid_h // self.hidden_stride,  # number of patch after merge
+                grid_w // self.hidden_stride,
+            )
+            index = torch.arange(grid_t * llm_grid_h * llm_grid_w).reshape(
+                grid_t, llm_grid_h, llm_grid_w
+            )
+            pad_h = vit_merger_window_size - llm_grid_h % vit_merger_window_size
+            pad_w = vit_merger_window_size - llm_grid_w % vit_merger_window_size
+            num_windows_h = (llm_grid_h + pad_h) // vit_merger_window_size
+            num_windows_w = (llm_grid_w + pad_w) // vit_merger_window_size
+            index_padded = F.pad(index, (0, pad_w, 0, pad_h), "constant", -100)
+            index_padded = index_padded.reshape(
+                grid_t,
+                num_windows_h,
+                vit_merger_window_size,
+                num_windows_w,
+                vit_merger_window_size,
+            )
+            index_padded = index_padded.permute(0, 1, 3, 2, 4).reshape(
+                grid_t,
+                num_windows_h * num_windows_w,
+                vit_merger_window_size,
+                vit_merger_window_size,
+            )
+            seqlens = (index_padded != -100).sum([2, 3]).reshape(-1)
+            index_padded = index_padded.reshape(-1)
+            index_new = index_padded[index_padded != -100]
+            window_index.append(index_new + window_index_id)
+            cu_seqlens_tmp = (
+                seqlens.cumsum(0) * self.spatial_merge_unit + cu_window_seqlens[-1]
+            )
+            cu_window_seqlens.extend(cu_seqlens_tmp.tolist())
+            window_index_id += (grid_t * llm_grid_h * llm_grid_w).item()
+        window_index = torch.cat(window_index, dim=0)
+
+        return window_index, cu_window_seqlens
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        grid_thws: torch.Tensor,
+    ) -> torch.Tensor:
+        r"""
+        Args:
+            inputs_embeds: Input tensor of shape
+                (batch_size, sequence_length, hidden_size).
+                Embedded representation of the input tokens.
+            grid_thws: Grid tensor of shape (num_patches, 3)
+                containing grid dimensions.
+                Whether or not to return a [`~utils.ModelOutput`] instead of
+                a plain tuple.
+        """
+        rotary_pos_emb = self.rot_pos_emb(grid_thws)
+        window_index, cu_window_seqlens = self.get_window_index(grid_thws)
+        cu_window_seqlens = torch.tensor(
+            cu_window_seqlens,
+            device=inputs_embeds.device,
+            dtype=grid_thws.dtype if torch.jit.is_tracing() else torch.int32,
+        )
+        cu_window_seqlens = torch.unique_consecutive(cu_window_seqlens)
+
+        seq_len, _ = inputs_embeds.size()
+        inputs_embeds = inputs_embeds.reshape(
+            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1
+        )
+        inputs_embeds = inputs_embeds[window_index, :, :]
+        inputs_embeds = inputs_embeds.reshape(seq_len, -1)
+        rotary_pos_emb = rotary_pos_emb.reshape(
+            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1
+        )
+        rotary_pos_emb = rotary_pos_emb[window_index, :, :]
+        rotary_pos_emb = rotary_pos_emb.reshape(seq_len, -1)
+        emb = torch.cat((rotary_pos_emb, rotary_pos_emb), dim=-1)
+        position_embeddings = (emb.cos(), emb.sin())
+
+        cu_seqlens = torch.repeat_interleave(
+            grid_thws[:, 1] * grid_thws[:, 2], grid_thws[:, 0]
+        ).cumsum(
+            dim=0,
+            # Select dtype based on the following factors:
+            #  - FA2 requires that cu_seqlens_q must have dtype int32
+            #  - torch.onnx.export requires that cu_seqlens_q must have
+            #    same dtype as grid_thw
+            # See https://github.com/huggingface/transformers/pull/34852
+            # for more information
+            dtype=grid_thws.dtype if torch.jit.is_tracing() else torch.int32,
+        )
+        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+
+        reverse_indices = torch.argsort(window_index)
+
+        hidden_states = inputs_embeds
+        for index, block in enumerate(self.layers):
+            if not self.fullatt_block_indexes or index in self.fullatt_block_indexes:
+                cu_seqlens_tmp = cu_seqlens
+            else:
+                cu_seqlens_tmp = cu_window_seqlens
+            hidden_states = block(hidden_states, cu_seqlens_tmp, position_embeddings)
+
+        hidden_states = hidden_states.reshape(
+            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1
+        )
+        hidden_states = hidden_states[reverse_indices, :].reshape(seq_len, -1)
+
+        return hidden_states
+
+
+class Siglip2VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = Siglip2VisionEmbeddings(config)
+        self.encoder = Siglip2Encoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+        self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        grid_thws: torch.LongTensor,
+    ) -> torch.Tensor:
+        r"""
+        spatial_shapes (`torch.LongTensor` of shape `(batch_size, 2)`):
+            Tensor containing the spatial dimensions (height, width)
+            of the input images.
+        """
+        hidden_states = self.embeddings(pixel_values, grid_thws)
+
+        last_hidden_state = self.encoder(hidden_states, grid_thws)
+        last_hidden_state = self.post_layernorm(last_hidden_state)
+
+        return last_hidden_state
+
+
+class Siglip2NavitModel(torch.nn.Module):
+    def __init__(
+        self,
+        config: Siglip2VisionConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+        attn_backend_override: AttentionBackendEnum | None = None,
+    ):
+        super().__init__()
+
+        self.vision_model = Siglip2VisionTransformer(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vision_model",
+            use_data_parallel=use_data_parallel,
+            attn_backend_override=attn_backend_override,
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        grid_thws: torch.LongTensor,
+    ) -> torch.Tensor:
+        return self.vision_model(
+            pixel_values=pixel_values,
+            grid_thws=grid_thws,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/skyworkr1v.py b/model_executor/models/skyworkr1v.py
new file mode 100644
index 0000000..d825eb3
--- /dev/null
+++ b/model_executor/models/skyworkr1v.py
@@ -0,0 +1,953 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://huggingface.co/Skywork/Skywork-R1V-38B/blob/main/modeling_skywork_chat.py
+# --------------------------------------------------------
+# SkyworkR1V
+# Copyright (c) 2025 Skywork
+# Licensed under The MIT License [see LICENSE for details]
+# --------------------------------------------------------
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Literal, TypeAlias
+
+import torch
+import torch.nn as nn
+import torchvision.transforms as T
+from PIL import Image
+from transformers import BatchFeature, PretrainedConfig, TensorType
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.awq import AWQConfig
+from vllm.model_executor.models.intern_vit import (
+    InternVisionModel,
+    InternVisionPatchModel,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.image import convert_image_mode
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+
+IMG_START = "<img>"
+IMG_END = "</img>"
+IMG_CONTEXT = "<IMG_CONTEXT>"
+
+IMAGENET_MEAN = (0.485, 0.456, 0.406)
+IMAGENET_STD = (0.229, 0.224, 0.225)
+
+
+class SkyworkR1VImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bnp: Batch size * number of images * (1 + num_patches)
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+        - bn: Batch size * number of images
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+
+    pixel_values_flat: Annotated[
+        torch.Tensor,
+        TensorShape("bnp", 3, "h", "w"),
+    ]
+
+    num_patches: Annotated[
+        torch.Tensor,
+        TensorShape("bn"),
+    ]
+
+
+class SkyworkR1VImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - ni: Number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+
+    data: Annotated[
+        torch.Tensor | list[torch.Tensor],
+        TensorShape("ni", "ifs", "hs"),
+    ]
+
+
+SkyworkR1VImageInputs: TypeAlias = (
+    SkyworkR1VImagePixelInputs | SkyworkR1VImageEmbeddingInputs
+)
+
+
+# adapted from https://huggingface.co/Skywork/Skywork-R1V-38B/
+def build_transform(input_size: int):
+    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
+    return T.Compose(
+        [
+            T.Lambda(lambda img: convert_image_mode(img, "RGB")),
+            T.Resize(
+                (input_size, input_size), interpolation=T.InterpolationMode.BICUBIC
+            ),
+            T.ToTensor(),
+            T.Normalize(mean=MEAN, std=STD),
+        ]
+    )
+
+
+# adapted from https://huggingface.co/Skywork/Skywork-R1V-38B/
+def find_closest_aspect_ratio(
+    aspect_ratio: float,
+    target_ratios: list[tuple[int, int]],
+    *,
+    width: int,
+    height: int,
+    image_size: int,
+) -> tuple[int, int]:
+    best_ratio_diff = float("inf")
+    best_ratio = (1, 1)
+    area = width * height
+    for ratio in target_ratios:
+        target_aspect_ratio = ratio[0] / ratio[1]
+        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
+        if ratio_diff < best_ratio_diff:
+            best_ratio_diff = ratio_diff
+            best_ratio = ratio
+        elif ratio_diff == best_ratio_diff:
+            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
+                best_ratio = ratio
+    return best_ratio
+
+
+def resolve_skyworkr1v_min_max_num(
+    *,
+    min_dynamic_patch: int,
+    max_dynamic_patch: int,
+    dynamic_image_size: bool,
+    use_thumbnail: bool,
+) -> tuple[int, int]:
+    min_dynamic_patch = min_dynamic_patch if dynamic_image_size else 1
+    max_dynamic_patch = max_dynamic_patch if dynamic_image_size else 1
+
+    if use_thumbnail and max_dynamic_patch != 1:
+        max_dynamic_patch += 1
+
+    return min_dynamic_patch, max_dynamic_patch
+
+
+def get_skyworkr1v_target_ratios(
+    min_num: int,
+    max_num: int,
+) -> list[tuple[int, int]]:
+    target_ratios = {
+        (i, j)
+        for n in range(min_num, max_num + 1)
+        for i in range(1, n + 1)
+        for j in range(1, n + 1)
+        if min_num <= i * j <= max_num
+    }
+    return sorted(target_ratios, key=lambda x: x[0] * x[1])
+
+
+def calculate_skyworkr1v_targets(
+    *,
+    orig_width: int,
+    orig_height: int,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> tuple[int, int, int]:
+    aspect_ratio = orig_width / orig_height
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio,
+        target_ratios,
+        width=orig_width,
+        height=orig_height,
+        image_size=image_size,
+    )
+
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+
+    # add thumbnail image if num_blocks != 1
+    if use_thumbnail and blocks != 1:
+        blocks += 1
+
+    return blocks, target_width, target_height
+
+
+def dynamic_preprocess_skyworkr1v(
+    image: Image.Image,
+    *,
+    target_ratios: list[tuple[int, int]],
+    image_size: int,
+    use_thumbnail: bool,
+) -> list[Image.Image]:
+    orig_width, orig_height = image.size
+
+    # calculate the number of blocks without thumbnail
+    blocks, target_width, target_height = calculate_skyworkr1v_targets(
+        orig_width=orig_width,
+        orig_height=orig_height,
+        target_ratios=target_ratios,
+        image_size=image_size,
+        use_thumbnail=False,
+    )
+
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+
+    assert len(processed_images) == blocks
+
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+
+    return processed_images
+
+
+# adapted from https://huggingface.co/Skywork/Skywork-R1V-38B
+def image_to_pixel_values_skyworkr1v(
+    image: Image.Image,
+    *,
+    input_size: int,
+    min_num: int,
+    max_num: int,
+    use_thumbnail: bool,
+) -> torch.Tensor:
+    target_ratios = get_skyworkr1v_target_ratios(min_num, max_num)
+
+    transform = build_transform(input_size=input_size)
+    images = dynamic_preprocess_skyworkr1v(
+        image,
+        target_ratios=target_ratios,
+        image_size=input_size,
+        use_thumbnail=use_thumbnail,
+    )
+
+    pixel_values = torch.stack([transform(image) for image in images])
+    return pixel_values
+
+
+class SkyworkR1VProcessor:
+    """
+    This model doesn't define its own HF processor,
+    so we implement our own one here.
+
+    The code to insert image tokens is based on:
+    https://huggingface.co/Skywork/Skywork-R1V-38B/blob/main/modeling_skywork_chat.py#L252
+    """
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        image_size: int = config.vision_config.image_size
+        patch_size: int = config.vision_config.patch_size
+
+        if min_dynamic_patch is None:
+            min_dynamic_patch = config.min_dynamic_patch
+        assert isinstance(min_dynamic_patch, int)
+
+        if max_dynamic_patch is None:
+            max_dynamic_patch = config.max_dynamic_patch
+        assert isinstance(max_dynamic_patch, int)
+
+        if dynamic_image_size is None:
+            dynamic_image_size = config.dynamic_image_size
+        assert isinstance(dynamic_image_size, bool)
+
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.image_size = image_size
+        self.min_dynamic_patch = min_dynamic_patch
+        self.max_dynamic_patch = max_dynamic_patch
+        self.dynamic_image_size = dynamic_image_size
+        self.use_thumbnail: bool = config.use_thumbnail
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[IMG_CONTEXT]
+
+    def get_image_repl(
+        self,
+        feature_size: int,
+        num_patches: int | None,
+    ) -> PromptUpdateDetails[str]:
+        repl_features = IMG_CONTEXT * feature_size
+        repl_full = IMG_START + repl_features + IMG_END
+
+        return PromptUpdateDetails.select_text(repl_full, IMG_CONTEXT)
+
+    def resolve_min_max_num(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+    ) -> tuple[int, int]:
+        min_dynamic_patch = (
+            self.min_dynamic_patch if min_dynamic_patch is None else min_dynamic_patch
+        )
+        max_dynamic_patch = (
+            self.max_dynamic_patch if max_dynamic_patch is None else max_dynamic_patch
+        )
+        dynamic_image_size = (
+            self.dynamic_image_size
+            if dynamic_image_size is None
+            else dynamic_image_size
+        )
+        use_thumbnail = self.use_thumbnail if use_thumbnail is None else use_thumbnail
+
+        return resolve_skyworkr1v_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+    def resolve_target_ratios(
+        self,
+        *,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        use_thumbnail: bool | None = None,
+    ) -> list[tuple[int, int]]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=use_thumbnail,
+        )
+
+        return get_skyworkr1v_target_ratios(min_num, max_num)
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        target_ratios = self.resolve_target_ratios(
+            use_thumbnail=False,  # Applied in calculate_targets
+        )
+
+        num_patches, _, _ = calculate_skyworkr1v_targets(
+            orig_width=image_width,
+            orig_height=image_height,
+            image_size=self.image_size,
+            target_ratios=target_ratios,
+            use_thumbnail=self.use_thumbnail,
+        )
+
+        return num_patches * self.num_image_token
+
+    def _images_to_pixel_values_lst(
+        self,
+        images: list[Image.Image],
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+    ) -> list[torch.Tensor]:
+        min_num, max_num = self.resolve_min_max_num(
+            min_dynamic_patch=min_dynamic_patch,
+            max_dynamic_patch=max_dynamic_patch,
+            dynamic_image_size=dynamic_image_size,
+            use_thumbnail=False,  # Applied in image_to_pixel_values
+        )
+
+        return [
+            image_to_pixel_values_skyworkr1v(
+                image,
+                input_size=self.image_size,
+                min_num=min_num,
+                max_num=max_num,
+                use_thumbnail=self.use_thumbnail,
+            )
+            for image in images
+        ]
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        min_dynamic_patch: int | None = None,
+        max_dynamic_patch: int | None = None,
+        dynamic_image_size: bool | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        if len(images) == 0:
+            image_inputs = {}
+        else:
+            pixel_values_lst = self._images_to_pixel_values_lst(
+                images,
+                min_dynamic_patch=min_dynamic_patch,
+                max_dynamic_patch=max_dynamic_patch,
+                dynamic_image_size=dynamic_image_size,
+            )
+            image_inputs = {
+                "pixel_values_flat": torch.cat(pixel_values_lst),
+                "image_num_patches": torch.tensor(
+                    [len(item) for item in pixel_values_lst]
+                ),
+            }
+
+            for pixel_values in pixel_values_lst:
+                num_patches = pixel_values.shape[0]
+                feature_size = num_patches * self.num_image_token
+
+                image_repl = self.get_image_repl(feature_size, num_patches)
+
+                text = [t.replace("<image>", image_repl.full, 1) for t in text]
+
+        text_inputs = self.tokenizer(text)
+
+        combined_outputs = {**text_inputs, **image_inputs}
+
+        return BatchFeature(combined_outputs, tensor_type=return_tensors)
+
+
+class SkyworkR1VProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> SkyworkR1VProcessor:
+        return self.ctx.init_processor(
+            SkyworkR1VProcessor,
+            config=self.get_hf_config(),
+            tokenizer=self.get_tokenizer(),
+            **kwargs,
+        )
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        processor: SkyworkR1VProcessor | None,
+    ) -> int:
+        if processor is None:
+            processor = self.get_hf_processor()
+
+        return processor.get_num_image_tokens(
+            image_width=image_width,
+            image_height=image_height,
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        processor = self.get_hf_processor()
+
+        base_size = processor.image_size
+        target_ratios = processor.resolve_target_ratios()
+
+        largest_feature_size, largest_feature_pinpoint = 0, None
+        for wr, hr in target_ratios:
+            width, height = base_size * wr, base_size * hr
+
+            feat_size = self.get_num_image_tokens(
+                image_width=width,
+                image_height=height,
+                processor=processor,
+            )
+            if feat_size > largest_feature_size:
+                largest_feature_size = feat_size
+                largest_feature_pinpoint = ImageSize(width=width, height=height)
+
+        if largest_feature_size == 0 or largest_feature_pinpoint is None:
+            raise ValueError("Cannot have a largest feature size of 0!")
+
+        return largest_feature_pinpoint
+
+
+class SkyworkR1VDummyInputsBuilder(BaseDummyInputsBuilder[SkyworkR1VProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        return "<image>" * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class SkyworkR1VMultiModalProcessor(BaseMultiModalProcessor[SkyworkR1VProcessingInfo]):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+
+        hf_processor = self.info.get_hf_processor(**mm_kwargs)
+        image_token_id = hf_processor.image_token_id
+
+        # Since there may be extra tokens in the feature placeholders,
+        # we need to pass the image token ID to the model to select the
+        # tokens to merge from the vision encoder outputs
+        processed_outputs["image_token_id"] = torch.tensor(image_token_id)
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        image_num_patches = hf_inputs.get("image_num_patches", torch.empty(0))
+        num_images = len(image_num_patches)
+
+        return dict(
+            pixel_values_flat=MultiModalFieldConfig.flat_from_sizes(
+                "image", image_num_patches
+            ),
+            image_num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+            image_token_id=MultiModalFieldConfig.shared("image", num_images),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        out_mm_data = out_mm_kwargs.get_data()
+        if "image_num_patches" in out_mm_data:
+            image_num_patches = out_mm_data["image_num_patches"]
+            assert isinstance(image_num_patches, torch.Tensor)
+            image_num_patches = image_num_patches.tolist()
+        elif "image_embeds" in out_mm_data:
+            # TODO: Use image size information in dictionary embedding inputs
+            # to compute num_patches (similar to Qwen2-VL)
+            image_num_patches = [None] * len(out_mm_data["image_embeds"])
+        else:
+            image_num_patches = []
+
+        def get_replacement_skyworkr1v(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                feature_size = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                feature_size = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                    processor=hf_processor,
+                )
+
+            num_patches = image_num_patches[item_idx]
+            if num_patches is not None:
+                assert isinstance(num_patches, int)
+
+            return hf_processor.get_image_repl(feature_size, num_patches)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target="<image>",
+                replacement=get_replacement_skyworkr1v,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    SkyworkR1VMultiModalProcessor,
+    info=SkyworkR1VProcessingInfo,
+    dummy_inputs=SkyworkR1VDummyInputsBuilder,
+)
+class SkyworkR1VChatModel(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self._patch_quant_config(config, quant_config)
+
+        image_size = config.force_image_size or config.vision_config.image_size
+        patch_size = config.vision_config.patch_size
+        self.patch_size = patch_size
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+        self.ps_version = config.ps_version
+
+        self.llm_arch_name = config.text_config.architectures[0]
+        self.is_mono = self.llm_arch_name == "SkyworkLM2VEForCausalLM"
+        self.vision_model = self._init_vision_model(
+            config,
+            quant_config=quant_config,
+            is_mono=self.is_mono,
+            prefix=maybe_prefix(prefix, "vision_model"),
+        )
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.mlp1 = self._init_mlp1(
+            config, quant_config, prefix=maybe_prefix(prefix, "mlp1")
+        )
+
+        self.img_context_token_id = None
+        self.visual_token_mask = None
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _patch_quant_config(
+        self, config: PretrainedConfig, quant_config: QuantizationConfig
+    ):
+        # the awq models from OpenGVLab missing `modules_to_not_convert`
+        # patch the quant_config to add `modules_to_not_convert` back
+        if isinstance(quant_config, AWQConfig):
+            text_config = config.text_config
+            llm_quant_config = getattr(text_config, "quantization_config", None)
+            if (not quant_config.modules_to_not_convert) and (
+                llm_quant_config is not None
+            ):
+                quant_config.modules_to_not_convert.append("vision_model")
+
+    def _init_vision_model(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        *,
+        is_mono: bool,
+        prefix: str,
+    ):
+        if not is_mono:
+            vision_feature_layer = config.select_layer
+            if vision_feature_layer < 0:
+                num_hidden_layers = (
+                    config.vision_config.num_hidden_layers + vision_feature_layer + 1
+                )
+            else:
+                num_hidden_layers = vision_feature_layer + 1
+
+            return InternVisionModel(
+                config.vision_config,
+                quant_config=quant_config,
+                num_hidden_layers_override=num_hidden_layers,
+                prefix=prefix,
+            )
+        else:
+            return InternVisionPatchModel(config.vision_config)
+
+    def _init_mlp1(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig,
+        prefix: str = "",
+    ) -> nn.Module:
+        vit_hidden_size = config.vision_config.hidden_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        return nn.Sequential(
+            nn.LayerNorm(vit_hidden_size * int(1 / self.downsample_ratio) ** 2),
+            ReplicatedLinear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                llm_hidden_size,
+                return_bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.1",
+            ),
+            nn.GELU(),
+            ReplicatedLinear(
+                llm_hidden_size,
+                llm_hidden_size,
+                return_bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.3",
+            ),
+        )
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(n, w, int(h * scale_factor), int(c / scale_factor))
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        if self.ps_version == "v1":
+            pass
+        else:
+            x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        vit_embeds = self.vision_model(pixel_values=pixel_values)
+        vit_embeds = vit_embeds[:, 1:, :]
+
+        h = w = int(vit_embeds.shape[1] ** 0.5)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+        vit_embeds = self.pixel_shuffle(vit_embeds, scale_factor=self.downsample_ratio)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], -1, vit_embeds.shape[-1])
+        vit_embeds = self.mlp1(vit_embeds)
+        return vit_embeds
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> SkyworkR1VImageInputs | None:
+        pixel_values_flat = kwargs.pop("pixel_values_flat", None)
+        image_num_patches = kwargs.pop("image_num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values_flat is None and image_embeds is None:
+            return None
+
+        if image_embeds is not None:
+            return SkyworkR1VImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        image_token_id = kwargs["image_token_id"]
+        if isinstance(image_token_id, torch.Tensor):
+            image_token_id = image_token_id.flatten().unique().item()
+
+        assert isinstance(image_token_id, int)
+        self.img_context_token_id = image_token_id
+
+        if pixel_values_flat is not None:
+            return SkyworkR1VImagePixelInputs(
+                type="pixel_values",
+                pixel_values_flat=pixel_values_flat,
+                num_patches=image_num_patches,
+                resolve_bindings={
+                    "h": self.config.vision_config.image_size,
+                    "w": self.config.vision_config.image_size,
+                },
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+        self,
+        image_input: SkyworkR1VImageInputs,
+    ) -> torch.Tensor | list[torch.Tensor] | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_model is not None
+
+        image_embeds = self.extract_feature(image_input["pixel_values_flat"])
+
+        num_patches = image_input["num_patches"]
+
+        # Only one image in the current batch
+        if len(num_patches) == 1:
+            return image_embeds.view(-1, self.config.text_config.hidden_size).unsqueeze(
+                0
+            )
+
+        # NOTE: Image embeddings are split into separate tensors for each image
+        # by the size of each embedding.
+        feature_size = image_embeds.shape[1]
+        image_embeds = image_embeds.view(-1, self.config.text_config.hidden_size)
+        image_feature_sizes = [
+            num_patches * feature_size for num_patches in num_patches
+        ]
+        return image_embeds.split(image_feature_sizes)
+
+    def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
+        if self.is_mono:
+            self.visual_token_mask = (input_ids == self.img_context_token_id).reshape(
+                -1, 1
+            )
+        else:
+            self.visual_token_mask = None
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+
+        return self._process_image_input(image_input)
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        if multimodal_embeddings is not None and len(multimodal_embeddings) > 0:
+            self._set_visual_token_mask(input_ids)
+
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> IntermediateTensors:
+        if intermediate_tensors is not None:
+            input_ids = None
+            inputs_embeds = None
+
+        forward_kwargs = {
+            "input_ids": input_ids,
+            "positions": positions,
+            "intermediate_tensors": intermediate_tensors,
+            "inputs_embeds": inputs_embeds,
+        }
+
+        # Only required if the model is mono-architecture
+        if self.visual_token_mask is not None:
+            forward_kwargs.update({"visual_token_mask": self.visual_token_mask})
+            self.visual_token_mask = None
+
+        hidden_states = self.language_model.model(**forward_kwargs)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        skip_prefixes = [
+            "action_embed",
+            "temporal_embed",
+            "track_embed",
+            "track_embed_decoder",
+            "box_token",
+            "cg_criterion",
+            "cg_model",
+            "loc_encoder",
+            "loc_decoder",
+            "sam",
+            "temporal_token",
+            "track_token",
+        ]
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/smolvlm.py b/model_executor/models/smolvlm.py
new file mode 100644
index 0000000..e8b8052
--- /dev/null
+++ b/model_executor/models/smolvlm.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from transformers import SmolVLMProcessor
+
+from vllm.config import VllmConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+
+from .idefics3 import Idefics3DummyInputsBuilder as SmolVLMDummyInputsBuilder
+from .idefics3 import Idefics3ForConditionalGeneration, Idefics3ProcessingInfo
+from .idefics3 import Idefics3MultiModalProcessor as SmolVLMMultiModalProcessor
+
+
+class SmolVLMProcessingInfo(Idefics3ProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> SmolVLMProcessor:
+        return self.ctx.get_hf_processor(SmolVLMProcessor, **kwargs)
+
+    def _get_image_token(self, processor: SmolVLMProcessor | None) -> tuple[str, str]:
+        if processor is None:
+            processor = self.get_hf_processor()
+        image_token = processor.image_token
+        fake_image_token = processor.fake_image_token
+        global_image_token = processor.global_image_token
+        return image_token, fake_image_token, global_image_token
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    SmolVLMMultiModalProcessor,
+    info=SmolVLMProcessingInfo,
+    dummy_inputs=SmolVLMDummyInputsBuilder,
+)
+class SmolVLMForConditionalGeneration(Idefics3ForConditionalGeneration):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(
+            vllm_config=vllm_config,
+            prefix=prefix,
+        )
diff --git a/model_executor/models/solar.py b/model_executor/models/solar.py
new file mode 100644
index 0000000..4ec855f
--- /dev/null
+++ b/model_executor/models/solar.py
@@ -0,0 +1,502 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Solar model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class SolarMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            input_size=hidden_size,
+            output_sizes=[intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            input_size=intermediate_size,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class SolarAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        # MistralConfig has an optional head_dim introduced by Mistral-Nemo
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class SolarDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        self.self_attn = SolarAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=getattr(
+                config, "num_key_value_heads", config.num_attention_heads
+            ),
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            bias=attention_bias,
+            cache_config=cache_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = SolarMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class SolarModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.quant_config = quant_config
+
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: SolarDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        bskcn_h_1 = None
+        bskcn_h_2 = None
+        bskcn_r_1 = None
+        bskcn_r_2 = None
+        bskcn_tv = self.config.bskcn_tv[0] if self.training else self.config.bskcn_tv[1]
+
+        for i in range(self.start_layer, self.end_layer):
+            if i in self.config.bskcn_1:
+                bskcn_h_1 = hidden_states.clone()
+                bskcn_r_1 = residual.clone()
+            if i in self.config.bskcn_2:
+                bskcn_h_2 = hidden_states.clone()
+                bskcn_r_2 = residual.clone()
+            if i in self.config.bskcn_3:
+                hidden_states = bskcn_h_1 * bskcn_tv + hidden_states * (1 - bskcn_tv)
+                residual = bskcn_r_1 * bskcn_tv + residual * (1 - bskcn_tv)
+            if i in self.config.bskcn_4:
+                hidden_states = bskcn_h_2 * bskcn_tv + hidden_states * (1 - bskcn_tv)
+                residual = bskcn_r_2 * bskcn_tv + residual * (1 - bskcn_tv)
+            layer = self.layers[i]
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    # LoRA specific attributes
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+
+        self.quant_config = quant_config
+
+        self.model = SolarModel(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "model"),
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+
+            logit_scale = getattr(config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        model_output = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return model_output
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/stablelm.py b/model_executor/models/stablelm.py
new file mode 100644
index 0000000..06eb720
--- /dev/null
+++ b/model_executor/models/stablelm.py
@@ -0,0 +1,359 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 Stability AI, EleutherAI, and The HuggingFace Inc. team.
+# All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# This code is based off the following work:
+# https://huggingface.co/stabilityai/stablelm-3b-4e1t/blob/main/modeling_stablelm_epoch.py
+# https://huggingface.co/stabilityai/stablelm-3b-4e1t/blob/main/config.json
+"""Inference-only StabeLM (https://github.com/Stability-AI/StableLM)
+model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import StableLmConfig
+
+from vllm.attention import Attention
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class StablelmMLP(nn.Module):
+    def __init__(
+        self,
+        config: StableLmConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_up_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [config.intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class StablelmAttention(nn.Module):
+    def __init__(
+        self,
+        config: StableLmConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        self.num_heads = self.total_num_heads // tp_size
+
+        self.total_num_key_value_heads = config.num_key_value_heads
+        if self.total_num_key_value_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_key_value_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_key_value_heads == 0
+        self.num_key_value_heads = max(1, self.total_num_key_value_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.partial_rotary_factor = getattr(
+            config, "rope_pct", getattr(config, "partial_rotary_factor", 1)
+        )
+        self.scaling = self.head_dim**-0.5
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_key_value_heads * self.head_dim
+        self.qkv_bias = getattr(config, "use_qkv_bias", False)
+        if (self.head_dim * self.num_heads * tp_size) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads "
+                f"(got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_key_value_heads,
+            self.qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.config.max_position_embeddings,
+            base=self.config.rope_theta,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_key_value_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class StablelmDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: StableLmConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.self_attn = StablelmAttention(
+            config, cache_config, quant_config, prefix=f"{prefix}.self_attn"
+        )
+        self.mlp = StablelmMLP(config, quant_config, prefix=f"{prefix}.mlp")
+        norm_eps = getattr(config, "norm_eps", getattr(config, "layer_norm_eps", 1e-05))
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=norm_eps)
+        self.post_attention_layernorm = nn.LayerNorm(config.hidden_size, eps=norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states, residual
+
+
+class StableLMEpochModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: StablelmDecoderLayer(
+                config, cache_config, quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        norm_eps = getattr(config, "norm_eps", getattr(config, "layer_norm_eps", 1e-05))
+        self.norm = nn.LayerNorm(config.hidden_size, eps=norm_eps)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class StablelmForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = StableLMEpochModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.lm_head",
+        )
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/starcoder2.py b/model_executor/models/starcoder2.py
new file mode 100644
index 0000000..0f2942a
--- /dev/null
+++ b/model_executor/models/starcoder2.py
@@ -0,0 +1,367 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 BigCode and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch Starcoder2 model."""
+
+from collections.abc import Iterable
+from itertools import islice
+
+import torch
+from torch import nn
+from transformers import Starcoder2Config
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class Starcoder2Attention(nn.Module):
+    def __init__(
+        self,
+        config: Starcoder2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = config.num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = config.rope_theta
+        self.max_position_embeddings = config.max_position_embeddings
+        self.use_bias = config.use_bias
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=self.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=self.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Starcoder2MLP(nn.Module):
+    def __init__(
+        self,
+        config: Starcoder2Config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.c_fc = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_fc",
+        )
+        self.c_proj = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
+        )
+        self.act = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.c_fc(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.c_proj(hidden_states)
+        return hidden_states
+
+
+class Starcoder2DecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Starcoder2Config,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = Starcoder2Attention(
+            config,
+            cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.mlp = Starcoder2MLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.mlp"
+        )
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.norm_epsilon)
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.norm_epsilon
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # Self Attention
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+@support_torch_compile
+class Starcoder2Model(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.config = config
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Starcoder2DecoderLayer(
+                config, cache_config, quant_config=quant_config, prefix=prefix
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.norm = nn.LayerNorm(config.hidden_size, eps=config.norm_epsilon)
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states = layer(positions, hidden_states)
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class Starcoder2ForCausalLM(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.model = Starcoder2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        self.vocab_size = config.vocab_size
+
+        if config.tie_word_embeddings:
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.lm_head",
+            )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            # Models trained using ColossalAI may include these tensors in
+            # the checkpoint. Skip them.
+            skip_prefixes=(
+                ["lm_head.weight"] if self.config.tie_word_embeddings else None
+            ),
+        )
+        return loader.load_weights(weights)
diff --git a/model_executor/models/step3_text.py b/model_executor/models/step3_text.py
new file mode 100644
index 0000000..3741c3d
--- /dev/null
+++ b/model_executor/models/step3_text.py
@@ -0,0 +1,559 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only Jurassic model."""
+
+from collections.abc import Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class FusedMoEBlock(nn.Module):
+    def __init__(
+        self,
+        config: ModelConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+        if self.tp_size > config.moe_num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.moe_num_experts}."
+            )
+
+        self.experts = FusedMoE(
+            num_experts=config.moe_num_experts,
+            top_k=config.moe_top_k,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_expert_weight,
+            quant_config=quant_config,
+            prefix=f"{prefix}.experts",
+        )
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.moe_num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_dim = hidden_states.shape[-1]
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits, _ = self.gate(hidden_states)
+
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(orig_shape)
+
+
+class Step3TextMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+        self.hidden_size = hidden_size
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(hidden_states)
+        intermediate_act = self.act_fn(gate_up)
+        output, _ = self.down_proj(intermediate_act)
+        return output
+
+
+class Step3TextAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        norm_eps: float,
+        rope_theta: int,
+        share_q_dim: int | None = None,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embedding: int = 8192,
+        head_dim: int = 256,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+
+        if num_kv_heads != 1:
+            raise ValueError(
+                f"Step3TextAttention num_kv_heads must be 1, but got {num_kv_heads}."
+            )
+        self.num_kv_heads = num_kv_heads
+
+        self.head_dim = head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.q_size = share_q_dim if share_q_dim else self.head_dim
+
+        self.qkv_proj = ReplicatedLinear(
+            hidden_size,
+            self.q_size + self.kv_size * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.inter_norm = RMSNorm(self.q_size, eps=norm_eps)
+        self.wq = ColumnParallelLinear(
+            self.q_size,
+            self.head_dim * self.total_num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.wq",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embedding,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        scaling = self.head_dim**-0.5
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            scaling,
+            self.num_kv_heads,
+            cache_config=cache_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self, positions: torch.Tensor, hidden_states: torch.Tensor
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = self.inter_norm(q)
+        q = self.wq(q)[0]
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        residual, _ = self.o_proj(attn_output)
+        return residual
+
+
+class Step3TextDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: ModelConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        config = config.hf_config
+        self.hidden_size = config.hidden_size
+        rope_scaling = getattr(config, "rope_scaling", None)
+
+        self.self_attn = Step3TextAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=1,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            norm_eps=config.rms_norm_eps,
+            max_position_embedding=config.max_position_embedding,
+            head_dim=config.head_dim,
+            share_q_dim=config.share_q_dim,
+            rope_theta=config.rope_theta,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        layer_idx = int(prefix.split("layers.")[1].split(".")[0])
+        moe_layers_enum = getattr(config, "moe_layers_enum", None)
+        if moe_layers_enum is not None:
+            moe_layers_idx = [int(i) for i in moe_layers_enum.strip().split(",")]
+        else:
+            # Default to 1dense.
+            moe_layers_idx = [i for i in range(1, config.num_hidden_layers)]
+
+        if layer_idx in moe_layers_idx:
+            self.moe = FusedMoEBlock(
+                config=config, quant_config=quant_config, prefix=f"{prefix}.moe"
+            )
+            self.share_expert = Step3TextMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.share_expert_dim,
+                hidden_act="silu",
+                quant_config=quant_config,
+                prefix=f"{prefix}.share_expert",
+            )
+            self.use_moe = True
+        else:
+            self.mlp = Step3TextMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act="silu",
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+            self.use_moe = False
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+
+        if self.use_moe:
+            share_output = self.share_expert(hidden_states)
+            moe_output = self.moe(hidden_states)
+            hidden_states = share_output + moe_output
+        else:
+            hidden_states = self.mlp(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class Step3TextModel(nn.Module):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        self.vocab_size = config.vocab_size
+        self.config = config
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                self.vocab_size,
+                config.hidden_size,
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: Step3TextDecoderLayer(
+                config=vllm_config.model_config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states","residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {
+                    "hidden_states": hidden_states,
+                    "residual": residual,
+                }
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class Step3TextForCausalLM(nn.Module, SupportsPP):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+
+        self.config = config
+        self.vllm_config = vllm_config
+
+        self.model = Step3TextModel(vllm_config=vllm_config, prefix=prefix)
+
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            self.logits_processor = LogitsProcessor(config.vocab_size)
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ):
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        qkv_params_mapping = [
+            # (param_name, shard_name, relative_start_idx, relative_end_idx)
+            (
+                ".qkv_proj",
+                ".q_proj",
+                0,
+                self.config.share_q_dim
+                / (self.config.share_q_dim + self.config.head_dim * 2),
+            ),
+            (
+                ".qkv_proj",
+                ".k_proj",
+                self.config.share_q_dim
+                / (self.config.share_q_dim + self.config.head_dim * 2),
+                (self.config.share_q_dim + self.config.head_dim)
+                / (self.config.share_q_dim + self.config.head_dim * 2),
+            ),
+            (
+                ".qkv_proj",
+                ".v_proj",
+                (self.config.share_q_dim + self.config.head_dim)
+                / (self.config.share_q_dim + self.config.head_dim * 2),
+                (self.config.share_q_dim + self.config.head_dim * 2)
+                / (self.config.share_q_dim + self.config.head_dim * 2),
+            ),
+        ]
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        expert_params_mapping = [
+            (".moe.experts.w13_weight", ".moe.gate_proj.weight", "w1"),
+            (".moe.experts.w13_weight", ".moe.up_proj.weight", "w3"),
+            (".moe.experts.w2_weight", ".moe.down_proj.weight", "w2"),
+        ]
+
+        disable_moe_stacked_params = [data[1] for data in expert_params_mapping]
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if any(
+                    disable_moe_stacked_param in name
+                    for disable_moe_stacked_param in disable_moe_stacked_params
+                ):
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    # Skip layers on other devices.
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias") or name.endswith("_bias")
+                    ) and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    for expert_id in range(loaded_weight.shape[0]):
+                        loaded_weight_expert = loaded_weight[expert_id]
+                        weight_loader(
+                            param,
+                            loaded_weight_expert,
+                            name,
+                            shard_id=shard_id,
+                            expert_id=expert_id,
+                        )
+                    loaded_params.add(name)
+                    break
+                else:
+                    for (
+                        param_name,
+                        weight_name,
+                        start_idx,
+                        end_idx,
+                    ) in qkv_params_mapping:
+                        if weight_name not in name:
+                            continue
+                        name = name.replace(weight_name, param_name)
+                        if is_pp_missing_parameter(name, self):
+                            continue
+                        param = params_dict[name]
+                        dim = param.shape[param.output_dim]
+                        begin_idx = int(start_idx * dim)
+                        end_idx = int(end_idx * dim)
+                        param_slice = param.narrow(
+                            param.output_dim, begin_idx, end_idx - begin_idx
+                        )
+                        param_slice.copy_(loaded_weight)
+                        loaded_params.add(name)
+                        break
+                    else:
+                        if is_pp_missing_parameter(name, self):
+                            continue
+                        param = params_dict[name]
+                        weight_loader = getattr(
+                            param, "weight_loader", default_weight_loader
+                        )
+                        weight_loader(param, loaded_weight)
+                        loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/step3_vl.py b/model_executor/models/step3_vl.py
new file mode 100644
index 0000000..5d16be1
--- /dev/null
+++ b/model_executor/models/step3_vl.py
@@ -0,0 +1,1148 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from itertools import product
+from math import ceil, sqrt
+from typing import Annotated, Any, Literal, TypeAlias
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from PIL import Image
+from torchvision import transforms
+from torchvision.transforms.functional import InterpolationMode
+from transformers import BatchFeature, PretrainedConfig, TensorType
+
+from vllm.attention.layer import MultiHeadAttention
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+    PromptUpdateDetails,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs import Step3VisionEncoderConfig
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+from .vision import run_dp_sharded_vision_model
+
+
+class Step3VLImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+        - bnp: Batch size * number of images * number of patches
+        - hp: Height of patch
+        - wp: Width of patch
+    """
+
+    type: Literal["pixel_values"]
+    pixel_values: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+    patch_pixel_values: Annotated[
+        torch.Tensor | None, TensorShape("bnp", 3, "hp", "wp")
+    ]
+    num_patches: Annotated[torch.Tensor, TensorShape("bn")]
+
+
+class Step3VLImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - f: Image feature size
+        - h: Hidden size (must match the hidden size of language model backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "f", "h")]
+
+
+Step3VLImageInputs: TypeAlias = Step3VLImagePixelInputs | Step3VLImageEmbeddingInputs
+
+ImageWithPatches = tuple[Image.Image, list[Image.Image], list[int] | None]
+
+MAX_IMAGE_SIZE: int = 3024
+
+
+class Step3VisionProcessor:
+    def __init__(self, size, interpolation_mode="bicubic", patch_size=None):
+        mean = [0.48145466, 0.4578275, 0.40821073]
+        std = [0.26862954, 0.26130258, 0.27577711]
+        patch_size = patch_size if patch_size is not None else size
+
+        self.transform = transforms.Compose(
+            [
+                transforms.ToTensor(),
+                transforms.Normalize(mean, std),
+                transforms.Resize(
+                    (size, size),
+                    interpolation=InterpolationMode.BICUBIC
+                    if interpolation_mode == "bicubic"
+                    else InterpolationMode.BILINEAR,
+                    antialias=True,
+                ),
+            ]
+        )
+
+        self.patch_transform = (
+            transforms.Compose(
+                [
+                    transforms.ToTensor(),
+                    transforms.Normalize(mean, std),
+                    transforms.Resize(
+                        (patch_size, patch_size),
+                        interpolation=InterpolationMode.BICUBIC
+                        if interpolation_mode == "bicubic"
+                        else InterpolationMode.BILINEAR,
+                        antialias=True,
+                    ),
+                ]
+            )
+            if patch_size is not None
+            else None
+        )
+
+    def __call__(self, image, is_patch=False):
+        if is_patch:
+            return {"pixel_values": self.patch_transform(image).unsqueeze(0)}
+        else:
+            return {"pixel_values": self.transform(image).unsqueeze(0)}
+
+
+class ImagePatcher:
+    def determine_window_size(self, long: int, short: int) -> int:
+        if long <= 728:
+            return short if long / short > 1.5 else 0
+        return min(short, 504) if long / short > 4 else 504
+
+    def slide_window(
+        self,
+        width: int,
+        height: int,
+        sizes: list[tuple[int, int]],
+        steps: list[tuple[int, int]],
+        img_rate_thr: float = 0.6,
+    ) -> tuple[list[tuple[int, int, int, int]], tuple[int, int]]:
+        assert 1 >= img_rate_thr >= 0, "The `in_rate_thr` should lie in 0~1"
+        windows = []
+        # Sliding windows.
+        for size, step in zip(sizes, steps):
+            size_w, size_h = size
+            step_w, step_h = step
+
+            x_num = 1 if width <= size_w else ceil((width - size_w) / step_w + 1)
+            x_start = [step_w * i for i in range(x_num)]
+            if len(x_start) > 1 and x_start[-1] + size_w > width:
+                x_start[-1] = width - size_w
+
+            y_num = 1 if height <= size_h else ceil((height - size_h) / step_h + 1)
+            y_start = [step_h * i for i in range(y_num)]
+            if len(y_start) > 1 and y_start[-1] + size_h > height:
+                y_start[-1] = height - size_h
+
+            start = np.array(list(product(y_start, x_start)), dtype=int)
+            start[:, [0, 1]] = start[:, [1, 0]]
+            windows.append(np.concatenate([start, start + size], axis=1))
+        windows = np.concatenate(windows, axis=0)
+
+        return [
+            (int(box[0]), int(box[1]), int(box[2] - box[0]), int(box[3] - box[1]))
+            for box in windows
+        ], (x_num, y_num)
+
+    def square_pad(self, img: Image.Image) -> Image.Image:
+        w, h = img.size
+        if w == h:
+            return img
+        size = max(w, h)
+        padded = Image.new(img.mode, (size, size), 0)
+        padded.paste(img, (0, 0))
+        return padded
+
+    def get_image_size_for_padding(
+        self, img_width: int, img_height: int
+    ) -> tuple[int, int]:
+        ratio = img_width / img_height
+        if min(img_height, img_width) < 32 and (ratio > 4 or ratio < 1 / 4):
+            new_size = max(img_height, img_width)
+            return new_size, new_size
+        return img_width, img_height
+
+    def get_image_size_for_preprocess(
+        self, img_width: int, img_height: int
+    ) -> tuple[int, int]:
+        if max(img_height, img_width) > MAX_IMAGE_SIZE:
+            scale_factor = MAX_IMAGE_SIZE / max(img_height, img_width)
+            img_width = int(img_width * scale_factor)
+            img_height = int(img_height * scale_factor)
+        return img_width, img_height
+
+    def get_image_size_for_crop(
+        self, img_width: int, img_height: int, window_size: int
+    ):
+        w_ratio = img_width / window_size
+        h_ratio = img_height / window_size
+
+        if w_ratio < 1:
+            width_new = img_width
+        else:
+            decimal_w = w_ratio - img_width // window_size
+            w_ratio = int(w_ratio) + 1 if decimal_w > 0.2 else int(w_ratio)
+            width_new = window_size * w_ratio
+        if h_ratio < 1:
+            height_new = img_height
+        else:
+            decimal_h = h_ratio - img_height // window_size
+            h_ratio = int(h_ratio) + 1 if decimal_h > 0.2 else int(h_ratio)
+            height_new = window_size * h_ratio
+        return int(width_new), int(height_new)
+
+    def patch_crop(self, img: Image.Image, i: int, j: int, th: int, tw: int):
+        target = img.crop((j, i, j + tw, i + th))
+        return target
+
+    def get_num_patches(self, img_width: int, img_height: int) -> tuple[int, int]:
+        img_width, img_height = self.get_image_size_for_padding(img_width, img_height)
+        img_width, img_height = self.get_image_size_for_preprocess(
+            img_width, img_height
+        )
+        window_size = self.determine_window_size(
+            max(img_height, img_width), min(img_height, img_width)
+        )
+        if window_size == 0:
+            return 0, 0
+        else:
+            img_width, img_height = self.get_image_size_for_crop(
+                img_width, img_height, window_size
+            )
+            center_list, (x_num, y_num) = self.slide_window(
+                img_width,
+                img_height,
+                [(window_size, window_size)],
+                [(window_size, window_size)],
+            )
+            full_rows = (len(center_list) - 1) // x_num + 1
+            if len(center_list) > 0 and len(center_list) % x_num == 0:
+                full_rows -= 1
+            return len(center_list), full_rows
+
+    def __call__(
+        self, img: Image.Image
+    ) -> tuple[Image.Image, list[Image.Image], list[bool] | None]:
+        img_width, img_height = img.size
+        new_img_width, new_img_height = self.get_image_size_for_padding(
+            img_width, img_height
+        )
+        if new_img_width != img_width or new_img_height != img_height:
+            img = self.square_pad(img)
+            img_width, img_height = img.size
+
+        new_img_width, new_img_height = self.get_image_size_for_preprocess(
+            img_width, img_height
+        )
+        img = img.resize((new_img_width, new_img_height), Image.Resampling.BILINEAR)
+        window_size = self.determine_window_size(
+            max(new_img_height, new_img_width), min(new_img_height, new_img_width)
+        )
+
+        if window_size == 0:
+            return img, [], None
+        else:
+            new_img_width, new_img_height = self.get_image_size_for_crop(
+                new_img_width, new_img_height, window_size
+            )
+            if (new_img_width, new_img_height) != (img_width, img_height):
+                img_for_crop = img.resize(
+                    (new_img_width, new_img_height), Image.Resampling.BILINEAR
+                )
+            else:
+                img_for_crop = img
+
+            patches = []
+            newlines = []
+            center_list, (x_num, y_num) = self.slide_window(
+                new_img_width,
+                new_img_height,
+                [(window_size, window_size)],
+                [(window_size, window_size)],
+            )
+            for patch_id, center_lf_point in enumerate(center_list):
+                x, y, patch_w, patch_h = center_lf_point
+                big_patch = self.patch_crop(img_for_crop, y, x, patch_h, patch_w)
+                patches.append(big_patch)
+                if (patch_id + 1) % x_num == 0:
+                    newlines.append(patch_id)
+
+            if newlines and newlines[-1] == len(patches) - 1:
+                newlines.pop()
+
+            return (
+                img,
+                patches,
+                [i in newlines for i in range(len(patches))]
+                if len(patches) > 0
+                else None,
+            )
+
+
+class Step3VLProcessor:
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        tokenizer: AnyTokenizer,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        self.image_size = 728
+        self.patch_size = 504
+        self.image_preprocessor = Step3VisionProcessor(
+            self.image_size, "bilinear", self.patch_size
+        )
+
+        self.num_image_feature_size = 169
+        self.num_patch_feature_size = 81
+        self.image_token = "<im_patch>"
+        self.image_feature_placeholder = self.image_token * self.num_image_feature_size
+        self.patch_feature_placeholder = self.image_token * self.num_patch_feature_size
+
+        self.patcher = ImagePatcher()
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[self.image_token]
+
+    def get_num_image_tokens(self, img_width: int, img_height: int) -> int:
+        num_patches, num_newlines = self.patcher.get_num_patches(img_width, img_height)
+
+        return (
+            num_patches * (self.num_patch_feature_size + 2)
+            + self.num_image_feature_size
+            + 2
+            + num_newlines
+        )
+
+    def _split_images(self, images: list[Image.Image]) -> list[ImageWithPatches]:
+        result = []
+        for img in images:
+            result.append(self.patcher(img))
+        return result
+
+    def _convert_images_to_pixel_values(
+        self,
+        images: list[Image.Image],
+        is_patch: bool = False,
+    ) -> list[torch.Tensor]:
+        return [
+            self.image_preprocessor(img, is_patch=is_patch)["pixel_values"]
+            for img in images
+        ]
+
+    def _get_patch_repl(
+        self,
+        num_patches: int,
+        patch_newline_mask: list[bool] | None,
+    ) -> tuple[str, list[int]]:
+        text = ""
+        token_ids = []
+        for i in range(num_patches):
+            assert len(patch_newline_mask) == num_patches
+            text += f"<patch_start>{self.patch_feature_placeholder}<patch_end>"
+            token_ids.extend(
+                [self.tokenizer.convert_tokens_to_ids("<patch_start>")]
+                + [self.image_token_id] * self.num_patch_feature_size
+                + [self.tokenizer.convert_tokens_to_ids("<patch_end>")]
+            )
+            if patch_newline_mask and patch_newline_mask[i]:
+                text += "<patch_newline>"
+                token_ids.append(
+                    self.tokenizer.convert_tokens_to_ids("<patch_newline>")
+                )
+        return text, token_ids
+
+    def _get_image_repl(
+        self,
+        num_images: int,
+    ) -> tuple[str, list[int]]:
+        text = f"<im_start>{self.image_feature_placeholder}<im_end>"
+        token_ids = (
+            [self.tokenizer.convert_tokens_to_ids("<im_start>")]
+            + [self.image_token_id] * self.num_image_feature_size
+            + [self.tokenizer.convert_tokens_to_ids("<im_end>")]
+        )
+        return text * num_images, token_ids * num_images
+
+    def _get_image_repl_features(
+        self,
+        num_images: int,
+        num_patches: int,
+        patch_new_line_idx: list[bool] | None,
+    ) -> tuple[str, list[int]]:
+        if num_patches > 0:
+            patch_repl, patch_repl_ids = self._get_patch_repl(
+                num_patches, patch_new_line_idx
+            )
+        else:
+            patch_repl = ""
+            patch_repl_ids = []
+        image_repl, image_repl_ids = self._get_image_repl(num_images)
+        return patch_repl + image_repl, patch_repl_ids + image_repl_ids
+
+    def replace_placeholder(self, text: str, placeholder: str, repls: list[str]) -> str:
+        parts = text.split(placeholder)
+
+        if len(parts) - 1 != len(repls):
+            raise ValueError(
+                "The number of placeholders does not match the number of replacements."  # noqa: E501
+            )
+
+        result = [parts[0]]
+        for i, repl in enumerate(repls):
+            result.append(repl)
+            result.append(parts[i + 1])
+
+        return "".join(result)
+
+    def __call__(
+        self,
+        text: str | list[str] | None = None,
+        images: Image.Image | list[Image.Image] | None = None,
+        return_tensors: str | TensorType | None = None,
+    ) -> BatchFeature:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        if len(images) == 0:
+            image_inputs = {}
+            text_inputs = self.tokenizer(text)
+        else:
+            splitted_images_data = self._split_images(images)
+            pixel_values_lst = []
+            patch_pixel_values_lst = []
+            patch_newline_mask_lst = []
+            image_repl_str_lst = []
+            image_repl_ids_lst = []
+            num_patches = []
+            for raw_img, img_patches, patch_newline_mask in splitted_images_data:  # noqa: E501
+                pixel_values_lst.extend(self._convert_images_to_pixel_values([raw_img]))
+
+                if len(img_patches) > 0:
+                    patch_pixel_values_lst.extend(
+                        self._convert_images_to_pixel_values(img_patches, is_patch=True)
+                    )
+                num_patches.append(len(img_patches))
+
+                image_repl_str, image_repl_ids = self._get_image_repl_features(
+                    1, len(img_patches), patch_newline_mask
+                )
+                image_repl_str_lst.append(image_repl_str)
+                image_repl_ids_lst.extend(image_repl_ids)
+
+                if patch_newline_mask is not None:
+                    patch_newline_mask_lst.extend(patch_newline_mask)
+
+            image_inputs = {
+                "pixel_values": torch.cat(pixel_values_lst),
+                "num_patches": num_patches,
+            }
+            if patch_pixel_values_lst:
+                image_inputs["patch_pixel_values"] = torch.cat(patch_pixel_values_lst)
+            if patch_newline_mask_lst:
+                image_inputs["patch_newline_mask"] = torch.tensor(
+                    patch_newline_mask_lst, dtype=torch.bool
+                )
+
+            text = [
+                self.replace_placeholder(t, self.image_token, image_repl_str_lst)
+                for t in text
+            ]
+            text_inputs = self.tokenizer(text)
+
+        return BatchFeature(
+            {
+                **text_inputs,
+                **image_inputs,
+            },
+            tensor_type=return_tensors,
+        )
+
+
+class Step3VLProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self) -> Step3VLProcessor:
+        return Step3VLProcessor(
+            self.get_hf_config(),
+            self.get_tokenizer(),
+        )
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_max_image_tokens(self) -> int:
+        hf_processor = self.get_hf_processor()
+        return hf_processor.get_num_image_tokens(
+            self.get_image_size_with_most_features().width,
+            self.get_image_size_with_most_features().height,
+        )
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        return {"image": self.get_max_image_tokens()}
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        return ImageSize(3024, 3024)
+
+    def get_num_mm_tokens(self, mm_data: MultiModalDataDict) -> int:
+        if len(mm_data) != 1 or "image" not in mm_data:
+            raise ValueError("mm_data could only contain one key 'image' for steo1o")
+
+        image_data = mm_data["image"]
+        if not isinstance(image_data, (list, tuple)):
+            image_data = [image_data]
+
+        return sum(
+            self.get_hf_processor().get_num_image_tokens(img.width, img.height)
+            for img in image_data
+        )
+
+
+class Step3VLDummyInputsBuilder(BaseDummyInputsBuilder[Step3VLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        return "<im_patch>" * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        target_width, target_height = self.info.get_image_size_with_most_features()
+        num_images = mm_counts.get("image", 0)
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class Step3VLMultiModalProcessor(BaseMultiModalProcessor[Step3VLProcessingInfo]):
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        image_placeholder_token_id = hf_processor.image_token_id
+
+        def get_replacement_step1o(item_idx: int):
+            out_item = out_mm_kwargs["image"][item_idx]
+            num_patches = int(out_item["num_patches"].data)
+            if num_patches > 0:
+                patch_newline_mask = out_item["patch_newline_mask"].data
+                image_repl_ids = hf_processor._get_image_repl_features(
+                    1, num_patches, patch_newline_mask.tolist()
+                )[1]
+            else:
+                image_repl_ids = hf_processor._get_image_repl_features(1, 0, None)[1]
+            return PromptUpdateDetails.select_token_id(
+                seq=image_repl_ids,
+                embed_token_id=image_placeholder_token_id,
+            )
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_placeholder_token_id],
+                replacement=get_replacement_step1o,
+            )
+        ]
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_patches = hf_inputs.get("num_patches", torch.empty(0))
+
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            patch_pixel_values=MultiModalFieldConfig.flat_from_sizes(
+                "image", num_patches
+            ),
+            num_patches=MultiModalFieldConfig.batched("image"),
+            patch_newline_mask=MultiModalFieldConfig.flat_from_sizes(
+                "image", num_patches
+            ),
+        )
+
+
+def get_abs_pos(abs_pos, tgt_size):
+    dim = abs_pos.size(-1)
+    abs_pos_new = abs_pos.squeeze(0)
+    cls_token, old_pos_embed = abs_pos_new[:1], abs_pos_new[1:]
+
+    src_size = int(math.sqrt(abs_pos_new.shape[0] - 1))
+    tgt_size = int(math.sqrt(tgt_size))
+    dtype = abs_pos.dtype
+
+    if src_size != tgt_size:
+        old_pos_embed = (
+            old_pos_embed.view(1, src_size, src_size, dim)
+            .permute(0, 3, 1, 2)
+            .contiguous()
+        )
+        old_pos_embed = old_pos_embed.to(torch.float32)
+        new_pos_embed = F.interpolate(
+            old_pos_embed,
+            size=(tgt_size, tgt_size),
+            mode="bicubic",
+            antialias=True,
+            align_corners=False,
+        ).to(dtype)
+        new_pos_embed = new_pos_embed.permute(0, 2, 3, 1)
+        new_pos_embed = new_pos_embed.view(tgt_size * tgt_size, dim)
+        vision_pos_embed = torch.cat([cls_token, new_pos_embed], dim=0)
+        vision_pos_embed = vision_pos_embed.view(1, tgt_size * tgt_size + 1, dim)
+        return vision_pos_embed
+    else:
+        return abs_pos
+
+
+class Step3VisionEmbeddings(nn.Module):
+    def __init__(self, config: Step3VisionEncoderConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.class_embedding = nn.Parameter(torch.randn(1, self.embed_dim))
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=True,
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.pad_tp_size = 4  # hard code for padding
+        # To load the pretrained weights, we still use P+1 as the seqlen
+        self.position_embedding = torch.nn.Embedding(
+            self.num_patches + 1, self.embed_dim
+        )
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_patches + 1).expand((1, -1)),
+            persistent=False,
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        batch_size = pixel_values.shape[0]
+        patch_embeds = self.patch_embedding(
+            pixel_values
+        )  # shape = [*, width, grid, grid]
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+
+        # pad
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+        embeddings = embeddings + get_abs_pos(
+            self.position_embedding(self.position_ids), patch_embeds.size(1)
+        )
+        embeddings = torch.cat(
+            [
+                embeddings[:, 0, :].unsqueeze(1).repeat(1, self.pad_tp_size - 1, 1),
+                embeddings,
+            ],
+            dim=1,
+        )
+        return embeddings
+
+
+class Step3VisionAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.head_dim = self.embed_dim // self.total_num_heads
+
+        self.scale = self.head_dim**-0.5
+
+        tp_size = 1 if use_data_parallel else get_tensor_model_parallel_world_size()
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+
+        self.q_size = self.num_heads * self.head_dim
+
+        self.qkv_proj = QKVParallelLinear(
+            self.embed_dim,
+            self.head_dim,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+            disable_tp=use_data_parallel,
+        )
+        self.out_proj = RowParallelLinear(
+            self.embed_dim,
+            self.embed_dim,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+            disable_tp=use_data_parallel,
+        )
+
+        # Use unified MultiHeadAttention with automatic backend selection
+        self.attn = MultiHeadAttention(self.num_heads, self.head_dim, self.scale)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        """Input shape: Batch x Time x Channel"""
+        bsz, tgt_len, _ = hidden_states.size()
+
+        # get query proj
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+
+        # Use unified MultiHeadAttention with automatic backend selection
+        attn_output = self.attn(q, k, v)
+
+        attn_output, _ = self.out_proj(attn_output)
+
+        return attn_output
+
+
+class Step3VisionMLP(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+            disable_tp=use_data_parallel,
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+            disable_tp=use_data_parallel,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class Step3VisionEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Step3VisionEncoderConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.use_data_parallel = use_data_parallel
+        self.embed_dim = config.hidden_size
+        self.self_attn = Step3VisionAttention(
+            config,
+            quant_config,
+            prefix=f"{prefix}.self_attn",
+            use_data_parallel=self.use_data_parallel,
+        )
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = Step3VisionMLP(
+            config,
+            quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=self.use_data_parallel,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.FloatTensor:
+        hidden_states = hidden_states + self.layer_norm1(self.self_attn(hidden_states))
+        hidden_states = hidden_states + self.layer_norm2(self.mlp(hidden_states))
+        return hidden_states
+
+
+class Step3VisionEncoder(nn.Module):
+    def __init__(
+        self,
+        config: Step3VisionEncoderConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.use_data_parallel = use_data_parallel
+        self.layers = nn.ModuleList(
+            [
+                Step3VisionEncoderLayer(
+                    config,
+                    quant_config,
+                    prefix=f"{prefix}.layers.{i}",
+                    use_data_parallel=self.use_data_parallel,
+                )
+                for i in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        inputs_embeds,
+    ):
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(hidden_states)
+        return hidden_states
+
+
+class Step3VisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: Step3VisionEncoderConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.use_data_parallel = use_data_parallel
+        self.image_size = config.image_size
+        self.embeddings = Step3VisionEmbeddings(config)
+        self.transformer = Step3VisionEncoder(
+            config,
+            quant_config,
+            prefix=f"{prefix}.transformer",
+            use_data_parallel=self.use_data_parallel,
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+    ):
+        hidden_states = self.embeddings(pixel_values)
+        if self.use_data_parallel:
+            hidden_states = run_dp_sharded_vision_model(hidden_states, self.transformer)
+        else:
+            hidden_states = self.transformer(inputs_embeds=hidden_states)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    Step3VLMultiModalProcessor,
+    info=Step3VLProcessingInfo,
+    dummy_inputs=Step3VLDummyInputsBuilder,
+)
+class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.": "language_model.model.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    supports_encoder_tp_data = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<im_patch>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+        self.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"
+
+        if multimodal_config.get_limit_per_prompt("image"):
+            self.vision_model = Step3VisionTransformer(
+                config.vision_config,
+                None,
+                prefix=maybe_prefix(prefix, "vision_model"),
+                use_data_parallel=self.use_data_parallel,
+            )
+            self.vit_downsampler = nn.Conv2d(
+                config.vision_config.hidden_size,
+                config.vision_config.output_hidden_size,
+                kernel_size=2,
+                stride=config.understand_projector_stride,
+            )
+            self.vit_downsampler2 = nn.Conv2d(
+                config.vision_config.output_hidden_size,
+                config.vision_config.output_hidden_size * 2,
+                kernel_size=3,
+                stride=2,
+                padding=1,
+            )
+            self.vit_large_projector = nn.Linear(
+                config.vision_config.output_hidden_size * 2,
+                config.hidden_size,
+                bias=config.projector_bias,
+            )
+        else:
+            self.vision_model = None
+            self.vit_downsampler = None
+            self.vit_downsampler2 = None
+            self.vit_large_projector = None
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    @property
+    def device(self):
+        return next(self.parameters()).device
+
+    @property
+    def dtype(self):
+        return next(self.parameters()).dtype
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> Step3VLImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        patch_pixel_values = kwargs.pop("patch_pixel_values", None)
+        num_patches = kwargs.pop("num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return Step3VLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values.to(self.dtype),
+                patch_pixel_values=patch_pixel_values.to(self.dtype)
+                if patch_pixel_values is not None
+                else None,
+                num_patches=num_patches,
+            )
+
+        if image_embeds is not None:
+            return Step3VLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds.to(self.dtype),
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_features(self, image_features: torch.Tensor) -> torch.Tensor:
+        B, P = image_features.shape[:2]
+        HW = int(sqrt(P))
+        image_features = image_features.permute(0, 2, 1).view(B, -1, HW, HW)
+        image_features = self.vit_downsampler(image_features)
+        image_features = self.vit_downsampler2(image_features)
+        n_dim = image_features.size(1)
+        image_features = image_features.view(B, n_dim, -1).permute(0, 2, 1)
+        image_features = self.vit_large_projector(image_features)
+        return image_features
+
+    def _get_vision_model_output(self, input_tensor: torch.Tensor) -> torch.Tensor:
+        return self.vision_model(input_tensor)[:, 4:]
+
+    def _process_image_input(
+        self, image_input: Step3VLImageInputs
+    ) -> tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            image_features = image_input["image_embeds"]
+        else:
+            image_features = self._get_vision_model_output(image_input["pixel_values"])
+            patch_image_features = (
+                self._get_vision_model_output(image_input["patch_pixel_values"])
+                if image_input["patch_pixel_values"] is not None
+                else None
+            )
+            num_patches = image_input["num_patches"]
+
+        image_features = self._process_image_features(image_features)
+        patch_image_features = (
+            self._process_image_features(patch_image_features)
+            if patch_image_features is not None
+            else None
+        )
+
+        merged_image_features = []
+        cur_patch_idx = 0
+        for i, num_patch in enumerate(num_patches):
+            cur_feature = []
+            if num_patch > 0:
+                patch_slice = patch_image_features[
+                    cur_patch_idx : cur_patch_idx + num_patch
+                ]
+                cur_feature.append(patch_slice.view(-1, patch_slice.shape[-1]))
+            cur_feature.append(image_features[i].view(-1, image_features.shape[-1]))
+            cur_patch_idx += num_patch
+            merged_image_features.append(
+                torch.cat(cur_feature) if len(cur_feature) > 1 else cur_feature[0]
+            )
+        return merged_image_features
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        # Multi-modal token ID may exceed vocab size
+        handle_oov_mm_token: bool = True,
+    ) -> torch.Tensor:
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+        elif inputs_embeds is None:
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=input_ids == self.config.image_token_id,
+            )
+            input_ids = None
+
+        hidden_states = self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        skip_prefixes = []
+        if self.vision_model is None and self.vit_large_projector is None:
+            skip_prefixes = [
+                "vision_model.",
+                "vit_downsampler.",
+                "vit_downsampler2.",
+                "vit_large_projector.",
+            ]
+
+        loader = AutoWeightsLoader(self, skip_prefixes=skip_prefixes)
+        loaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+        return loaded_weights
diff --git a/model_executor/models/swin.py b/model_executor/models/swin.py
new file mode 100644
index 0000000..a74fd80
--- /dev/null
+++ b/model_executor/models/swin.py
@@ -0,0 +1,514 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+from transformers import SwinConfig
+from transformers.models.swin.modeling_swin import SwinEmbeddings, SwinPatchMerging
+from transformers.models.swin.modeling_swin import SwinLayer as HFSwinLayer
+from transformers.pytorch_utils import meshgrid
+
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+
+
+class SwinSelfAttention(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        num_heads: int,
+        window_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        if dim % num_heads != 0:
+            raise ValueError(
+                f"The hidden size ({dim}) is not a multiple of the number of "
+                f"attention heads ({num_heads})"
+            )
+
+        self.num_attention_heads = num_heads
+        self.attention_head_size = int(dim / num_heads)
+        self.all_head_size = self.num_attention_heads * self.attention_head_size
+        self.window_size = (
+            window_size
+            if isinstance(window_size, Iterable)
+            else (window_size, window_size)
+        )
+        self.scale = self.attention_head_size**-0.5
+
+        self.relative_position_bias_table = nn.Parameter(
+            torch.zeros(
+                (2 * self.window_size[0] - 1) * (2 * self.window_size[1] - 1), num_heads
+            )
+        )
+
+        # get pair-wise relative position index for each token inside the window
+        coords_h = torch.arange(self.window_size[0])
+        coords_w = torch.arange(self.window_size[1])
+        coords = torch.stack(meshgrid([coords_h, coords_w], indexing="ij"))
+        coords_flatten = torch.flatten(coords, 1)
+        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]
+        relative_coords = relative_coords.permute(1, 2, 0).contiguous()
+        relative_coords[:, :, 0] += self.window_size[0] - 1
+        relative_coords[:, :, 1] += self.window_size[1] - 1
+        relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
+        relative_position_index = relative_coords.sum(-1)
+
+        self.relative_position_index = nn.Parameter(
+            relative_position_index, requires_grad=False
+        )
+
+        self.qkv = QKVParallelLinear(
+            hidden_size=dim,
+            head_size=self.attention_head_size,
+            total_num_heads=self.num_attention_heads,
+            bias=config.qkv_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv",
+        )
+
+    def transpose_for_scores(self, x):
+        new_x_shape = x.size()[:-1] + (
+            self.num_attention_heads,
+            self.attention_head_size,
+        )
+        x = x.view(new_x_shape)
+        return x.permute(0, 2, 1, 3)
+
+    def _get_rel_pos_bias(self) -> torch.Tensor:
+        relative_position_bias = self.relative_position_bias_table[
+            self.relative_position_index.view(-1)
+        ]
+        relative_position_bias = relative_position_bias.view(
+            self.window_size[0] * self.window_size[1],
+            self.window_size[0] * self.window_size[1],
+            -1,
+        )
+        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()
+        return relative_position_bias.unsqueeze(0)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.FloatTensor | None = None,
+        head_mask: torch.FloatTensor | None = None,
+        output_attentions: bool | None = False,
+    ) -> tuple[torch.Tensor, ...]:
+        batch_size, dim, num_channels = hidden_states.shape
+
+        qkv_output, _ = self.qkv(hidden_states)
+        query_layer, key_layer, value_layer = qkv_output.chunk(3, dim=-1)
+
+        key_layer = self.transpose_for_scores(key_layer)
+        value_layer = self.transpose_for_scores(value_layer)
+        query_layer = self.transpose_for_scores(query_layer)
+
+        attention_scores = self._get_rel_pos_bias()
+        if attention_mask is not None:
+            mask_shape = attention_mask.shape[0]
+            attention_mask_expanded = attention_mask.view(
+                1, mask_shape, 1, dim, dim
+            ).expand(
+                batch_size // mask_shape, mask_shape, self.num_attention_heads, dim, dim
+            )
+            attention_scores = attention_scores + attention_mask_expanded.unsqueeze(
+                1
+            ).unsqueeze(0)
+            attention_scores = attention_scores.view(
+                -1, self.num_attention_heads, dim, dim
+            )
+
+        context_layer = torch.nn.functional.scaled_dot_product_attention(
+            query_layer,
+            key_layer,
+            value_layer,
+            attn_mask=attention_scores,
+            dropout_p=0.0,
+        )
+        attention_probs = None
+
+        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+        new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,)
+        context_layer = context_layer.view(new_context_layer_shape)
+
+        outputs = (
+            (context_layer, attention_probs) if output_attentions else (context_layer,)
+        )
+
+        return outputs
+
+
+class SwinSelfOutput(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.dense = RowParallelLinear(
+            input_size=dim,
+            output_size=dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+    def forward(
+        self, hidden_states: torch.Tensor, input_tensor: torch.Tensor
+    ) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+
+        return hidden_states
+
+
+class SwinAttention(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        num_heads: int,
+        window_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.self = SwinSelfAttention(
+            config,
+            dim,
+            num_heads,
+            window_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self",
+        )
+        self.output = SwinSelfOutput(
+            config, dim, quant_config=quant_config, prefix=f"{prefix}.output"
+        )
+        self.pruned_heads = set()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.FloatTensor | None = None,
+        head_mask: torch.FloatTensor | None = None,
+        output_attentions: bool | None = False,
+    ) -> tuple[torch.Tensor]:
+        self_outputs = self.self(
+            hidden_states, attention_mask, head_mask, output_attentions
+        )
+        attention_output = self.output(self_outputs[0], hidden_states)
+        outputs = (attention_output,) + self_outputs[1:]
+        return outputs
+
+
+class SwinIntermediate(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.dense = ColumnParallelLinear(
+            dim,
+            int(config.mlp_ratio * dim),
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+        self.intermediate_act_fn = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+        hidden_states = self.intermediate_act_fn(hidden_states)
+        return hidden_states
+
+
+class SwinOutput(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.dense = RowParallelLinear(
+            int(config.mlp_ratio * dim),
+            dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.dense(hidden_states)
+        return hidden_states
+
+
+class SwinLayer(HFSwinLayer):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        input_resolution: int,
+        num_heads: int,
+        drop_path_rate: float = 0.0,
+        shift_size: int = 0,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__(
+            config=config,
+            dim=dim,
+            input_resolution=input_resolution,
+            num_heads=num_heads,
+            drop_path_rate=drop_path_rate,
+            shift_size=shift_size,
+        )
+
+        self.attention = SwinAttention(
+            config,
+            dim,
+            num_heads,
+            window_size=self.window_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attention",
+        )
+        self.intermediate = SwinIntermediate(
+            config, dim, quant_config=quant_config, prefix=f"{prefix}.intermediate"
+        )
+        self.output = SwinOutput(
+            config, dim, quant_config=quant_config, prefix=f"{prefix}.output"
+        )
+
+
+class SwinStage(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        dim: int,
+        input_resolution: int,
+        depth: int,
+        num_heads: int,
+        drop_path: list[float],
+        downsample: SwinPatchMerging | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.dim = dim
+        self.blocks = nn.ModuleList(
+            [
+                SwinLayer(
+                    config=config,
+                    dim=dim,
+                    input_resolution=input_resolution,
+                    num_heads=num_heads,
+                    drop_path_rate=drop_path[layer_idx],
+                    shift_size=0 if (layer_idx % 2 == 0) else config.window_size // 2,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.blocks.{layer_idx}",
+                )
+                for layer_idx in range(depth)
+            ]
+        )
+
+        # patch merging layer
+        if downsample is not None:
+            self.downsample = downsample(
+                input_resolution, dim=dim, norm_layer=nn.LayerNorm
+            )
+        else:
+            self.downsample = None
+
+        self.pointing = False
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        input_dimensions: tuple[int, int],
+        head_mask: torch.FloatTensor | None = None,
+        output_attentions: bool | None = False,
+        always_partition: bool | None = False,
+    ) -> tuple[torch.Tensor]:
+        height, width = input_dimensions
+        for i, layer_module in enumerate(self.blocks):
+            layer_head_mask = head_mask[i] if head_mask is not None else None
+
+            layer_outputs = layer_module(
+                hidden_states,
+                input_dimensions,
+                layer_head_mask,
+                output_attentions,
+                always_partition,
+            )
+
+            hidden_states = layer_outputs[0]
+
+        hidden_states_before_downsampling = hidden_states
+        if self.downsample is not None:
+            height_downsampled, width_downsampled = (height + 1) // 2, (width + 1) // 2
+            output_dimensions = (height, width, height_downsampled, width_downsampled)
+            hidden_states = self.downsample(
+                hidden_states_before_downsampling, input_dimensions
+            )
+        else:
+            output_dimensions = (height, width, height, width)
+
+        stage_outputs = (
+            hidden_states,
+            hidden_states_before_downsampling,
+            output_dimensions,
+        )
+
+        if output_attentions:
+            stage_outputs += layer_outputs[1:]
+        return stage_outputs
+
+
+class SwinEncoder(nn.Module):
+    def __init__(
+        self,
+        config: SwinConfig,
+        grid_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.num_layers = len(config.depths)
+        self.config = config
+        dpr = [
+            x.item()
+            for x in torch.linspace(
+                0, config.drop_path_rate, sum(config.depths), device="cpu"
+            )
+        ]
+        self.layers = nn.ModuleList(
+            [
+                SwinStage(
+                    config=config,
+                    dim=int(config.embed_dim * 2**layer_idx),
+                    input_resolution=(
+                        grid_size[0] // (2**layer_idx),
+                        grid_size[1] // (2**layer_idx),
+                    ),
+                    depth=config.depths[layer_idx],
+                    num_heads=config.num_heads[layer_idx],
+                    drop_path=dpr[
+                        sum(config.depths[:layer_idx]) : sum(
+                            config.depths[: layer_idx + 1]
+                        )
+                    ],
+                    downsample=SwinPatchMerging
+                    if (layer_idx < self.num_layers - 1)
+                    else None,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                )
+                for layer_idx in range(self.num_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        input_dimensions: tuple[int, int],
+        head_mask: torch.FloatTensor | None = None,
+        output_attentions: bool | None = False,
+        always_partition: bool | None = False,
+    ) -> tuple[torch.Tensor]:
+        for i, layer_module in enumerate(self.layers):
+            layer_head_mask = head_mask[i] if head_mask is not None else None
+
+            layer_outputs = layer_module(
+                hidden_states,
+                input_dimensions,
+                layer_head_mask,
+                output_attentions,
+                always_partition,
+            )
+
+            hidden_states = layer_outputs[0]
+            output_dimensions = layer_outputs[2]
+
+            input_dimensions = (output_dimensions[-2], output_dimensions[-1])
+
+        return hidden_states
+
+
+class SwinModel(nn.Module):
+    config_class: SwinConfig
+
+    def __init__(
+        self,
+        config: SwinConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.num_layers = len(config.depths)
+        self.num_features = int(config.embed_dim * 2 ** (self.num_layers - 1))
+
+        self.embeddings = SwinEmbeddings(config)
+        self.encoder = SwinEncoder(
+            config,
+            self.embeddings.patch_grid,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor | None = None,
+        head_mask: torch.FloatTensor | None = None,
+        output_attentions: bool | None = None,
+    ) -> tuple[torch.Tensor]:
+        embedding_output, input_dimensions = self.embeddings(pixel_values)
+
+        encoder_outputs = self.encoder(
+            embedding_output,
+            input_dimensions,
+            head_mask=head_mask,
+            output_attentions=output_attentions,
+        )
+
+        return encoder_outputs
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv", "query", "q"),
+            ("qkv", "key", "k"),
+            ("qkv", "value", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
diff --git a/model_executor/models/tarsier.py b/model_executor/models/tarsier.py
new file mode 100644
index 0000000..4d31071
--- /dev/null
+++ b/model_executor/models/tarsier.py
@@ -0,0 +1,619 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Final, Literal, Protocol, TypeAlias, TypeVar
+
+import torch
+import torch.nn as nn
+from transformers import (
+    BatchFeature,
+    CLIPVisionConfig,
+    PretrainedConfig,
+    SiglipVisionConfig,
+)
+from transformers import LlavaConfig as HfLlavaConfig
+from transformers.image_utils import ImageInput, get_image_size, to_numpy_array
+from transformers.models.llava import LlavaProcessor
+from transformers.processing_utils import ProcessingKwargs, Unpack
+from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.llava import LlavaDummyInputsBuilder
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import BaseMultiModalProcessorCache
+from vllm.multimodal.inputs import MultiModalFieldConfig, MultiModalKwargsItems
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .siglip import SiglipVisionModel
+from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
+from .vision import (
+    VisionEncoderInfo,
+    get_num_selected_vision_tokens,
+    get_vision_encoder_info,
+)
+
+
+class TarsierImagePixelInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - c: Number of channels (3)
+        - h: Height
+        - w: Width
+    """
+
+    type: Literal["pixel_values"] = "pixel_values"
+    pixel_values: Annotated[torch.Tensor, TensorShape("bn", 3, "h", "w")]
+
+
+class TarsierImageEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+        - bn: Batch size * number of images
+        - ifs: Image feature size
+        - hs: Hidden size (must match the hidden size of language model
+          backbone)
+    """
+
+    type: Literal["image_embeds"] = "image_embeds"
+    data: Annotated[torch.Tensor, TensorShape("bn", "ifs", "hs")]
+
+
+TarsierImageInputs: TypeAlias = TarsierImagePixelInputs | TarsierImageEmbeddingInputs
+
+
+class TarsierHfConfig(Protocol):  # Based on the Tarsier's LlavaConfig
+    vision_config: Final[PretrainedConfig]
+    text_config: Final[PretrainedConfig]  # Added from Tarsier's LlavaConfig
+    image_token_index: Final[int]
+    vision_feature_select_strategy: Final[str]
+    vision_feature_layer: Final[int | list[int]]
+    projector_hidden_act: Final[str]
+    image_newline_idx: Final[int]
+    image_new_idx: Final[int]
+    multimodal_projector_bias: bool = True
+
+
+class TarsierProcessorKwargs(ProcessingKwargs, total=False):
+    _defaults = {
+        "text_kwargs": {
+            "padding": False,
+        },
+        "images_kwargs": {},
+    }
+
+
+class TarsierProcessor(LlavaProcessor):
+    def __call__(
+        self,
+        images: ImageInput = None,
+        text: TextInput
+        | PreTokenizedInput
+        | list[TextInput]
+        | list[PreTokenizedInput] = None,
+        audio=None,
+        videos=None,
+        **kwargs: Unpack[TarsierProcessorKwargs],
+    ) -> BatchFeature:
+        if images is None and text is None:
+            raise ValueError("You have to specify at least one of `images` or `text`.")
+
+        output_kwargs = self._merge_kwargs(
+            TarsierProcessorKwargs,
+            tokenizer_init_kwargs=self.tokenizer.init_kwargs,
+            **kwargs,
+        )
+        if images is not None:
+            image_inputs = self.image_processor(
+                images, **output_kwargs["images_kwargs"]
+            )
+        else:
+            image_inputs = {}
+
+        if isinstance(text, str):
+            text = [text]
+        elif not isinstance(text, list) and not isinstance(text[0], str):
+            raise ValueError(
+                "Invalid input text. Please provide a string, or a list of strings"
+            )
+
+        # try to expand inputs in processing if we have the necessary parts
+        prompt_strings = text
+        if image_inputs.get("pixel_values") is not None:
+            # Replace the image token with the expanded image token sequence
+            pixel_values = image_inputs["pixel_values"]
+            height, width = get_image_size(to_numpy_array(pixel_values[0]))
+            num_image_tokens = (
+                (height // self.patch_size) * (width // self.patch_size + 1)
+                + self.num_additional_image_tokens
+                + 1
+            )
+            if self.vision_feature_select_strategy == "default":
+                num_image_tokens -= 1
+
+            prompt_strings = []
+            for sample in text:
+                sample = sample.replace(
+                    self.image_token, self.image_token * num_image_tokens
+                )
+                prompt_strings.append(sample)
+
+        return_tensors = output_kwargs["text_kwargs"].pop("return_tensors", None)
+        text_inputs = self.tokenizer(prompt_strings, **output_kwargs["text_kwargs"])
+        return BatchFeature(
+            data={**text_inputs, **image_inputs}, tensor_type=return_tensors
+        )
+
+
+class TarsierMultiModalProjector(nn.Module):
+    def __init__(
+        self,
+        vision_hidden_size: int,
+        text_hidden_size: int,
+        projector_hidden_act: str,
+        multimodal_projector_bias: bool,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.linear_1 = ColumnParallelLinear(
+            vision_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_1",
+        )
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = RowParallelLinear(
+            text_hidden_size,
+            text_hidden_size,
+            bias=multimodal_projector_bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear_2",
+        )
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class TarsierProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> TarsierHfConfig:
+        return self.ctx.get_hf_config(HfLlavaConfig)
+
+    def get_vision_encoder_info(self) -> VisionEncoderInfo:
+        return get_vision_encoder_info(self.get_hf_config())
+
+    def get_hf_processor(self, **kwargs: object) -> TarsierProcessor:
+        vision_info = self.get_vision_encoder_info()
+
+        kwargs.setdefault("patch_size", vision_info.get_patch_size())
+
+        return self.ctx.get_hf_processor(TarsierProcessor, **kwargs)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_encoder_info = self.get_vision_encoder_info()
+        num_projected_patches = get_num_selected_vision_tokens(
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+            hf_config.vision_feature_select_strategy,
+        )
+        if num_projected_patches <= 0:
+            default_size = self.get_image_size_with_most_features()
+            num_projected_patches_default = get_num_selected_vision_tokens(
+                vision_encoder_info.get_num_image_tokens(
+                    image_width=default_size.width,
+                    image_height=default_size.height,
+                ),
+                hf_config.vision_feature_select_strategy,
+            )
+            if num_projected_patches_default <= 0:
+                raise ValueError("Could not determine a valid number of image patches.")
+            num_projected_patches = num_projected_patches_default
+        num_height_patches = int(math.sqrt(num_projected_patches))
+        total_image_tokens_for_llm = num_projected_patches + num_height_patches + 1
+        return total_image_tokens_for_llm
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+    def get_image_newline_idx(self) -> int:
+        return self.get_hf_config().image_newline_idx
+
+    def get_image_new_idx(self) -> int:
+        return self.get_hf_config().image_new_idx
+
+
+_I_Tarsier = TypeVar("_I_Tarsier", bound=TarsierProcessingInfo)
+
+
+class TarsierDummyInputsBuilder(LlavaDummyInputsBuilder[_I_Tarsier]):
+    pass
+
+
+class TarsierMultiModalProcessor(BaseMultiModalProcessor[_I_Tarsier]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index  # The <IMAGE> token ID
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_projected_patches = images.get_feature_size(item_idx)
+                # This assumes num_projected_patches is a perfect square
+                num_height_patches = int(math.sqrt(num_projected_patches))
+                num_final_image_tokens = num_projected_patches + num_height_patches + 1
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_final_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                )
+
+            return [image_token_id] * num_final_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],  # Replace each single <IMAGE> token
+                replacement=get_replacement,
+            ),
+        ]
+
+
+def _build_tarsier_hf_info(ctx: InputProcessingContext) -> TarsierProcessingInfo:
+    return TarsierProcessingInfo(ctx)
+
+
+def _build_tarsier_hf_processor(
+    info: _I_Tarsier,
+    dummy_inputs: BaseDummyInputsBuilder[_I_Tarsier],
+    *,
+    cache: BaseMultiModalProcessorCache | None = None,
+) -> BaseMultiModalProcessor:
+    if isinstance(info, TarsierProcessingInfo):
+        return TarsierMultiModalProcessor(
+            info,
+            dummy_inputs,
+            cache=cache,
+        )
+    raise NotImplementedError(type(info))
+
+
+def init_vision_tower_for_tarsier(
+    hf_config: TarsierHfConfig,  # Use the Tarsier specific config protocol
+    quant_config: QuantizationConfig | None,
+    *,
+    require_post_norm: bool | None = None,
+    prefix: str = "",
+) -> CLIPVisionModel | SiglipVisionModel:
+    vision_config = hf_config.vision_config
+
+    feature_layers = hf_config.vision_feature_layer
+    base_num_hidden_layers = vision_config.num_hidden_layers
+
+    def _get_layer_index(feature_layer_index: int, num_hidden_layers_total: int) -> int:
+        if feature_layer_index < 0:
+            return num_hidden_layers_total + feature_layer_index + 1
+        return feature_layer_index
+
+    if isinstance(feature_layers, int):
+        num_hidden_layers_to_init = _get_layer_index(
+            feature_layers, base_num_hidden_layers
+        )
+    elif isinstance(feature_layers, (list, tuple)):
+        num_hidden_layers_to_init = max(
+            _get_layer_index(idx, base_num_hidden_layers) for idx in feature_layers
+        )
+    else:
+        raise TypeError(
+            f"vision_layer_feature type: {type(feature_layers)} is not supported"
+        )
+
+    if isinstance(vision_config, CLIPVisionConfig):
+        return CLIPVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_to_init,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+    elif isinstance(vision_config, SiglipVisionConfig):
+        return SiglipVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers_to_init,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+
+    msg = f"Unsupported vision config for Tarsier: {type(vision_config)}"
+    raise NotImplementedError(msg)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    _build_tarsier_hf_processor,
+    info=_build_tarsier_hf_info,
+    dummy_inputs=TarsierDummyInputsBuilder,
+)
+class TarsierForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<image>"
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+        config: TarsierHfConfig = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config  # Storing the Tarsier-specific HF config
+        self.vision_tower = init_vision_tower_for_tarsier(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"),
+        )
+        projector_bias = getattr(config, "multimodal_projector_bias", True)
+
+        self.multi_modal_projector = TarsierMultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            multimodal_projector_bias=projector_bias,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "multi_modal_projector"),
+        )
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,  # Use text_config from Tarsier's main config
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.register_buffer(
+            "image_newline_idx_tensor",
+            torch.tensor([config.image_newline_idx], dtype=torch.long),
+            persistent=False,
+        )
+        self.register_buffer(
+            "image_new_idx_tensor",
+            torch.tensor([config.image_new_idx], dtype=torch.long),
+            persistent=False,
+        )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> TarsierImageInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            return TarsierImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values,
+            )
+
+        if image_embeds is not None:
+            return TarsierImageEmbeddingInputs(
+                type="image_embeds",
+                data=image_embeds,
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: CLIPVisionModel | SiglipVisionModel,
+        pixel_values: torch.Tensor | list[torch.Tensor],
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        # From vLLM LLaVA, vision tower output handling
+        return vision_tower(
+            pixel_values,
+            feature_select_strategy=self.config.vision_feature_select_strategy,
+        )
+
+    def _add_tarsier_split_tokens(
+        self, projected_image_features: torch.Tensor
+    ) -> torch.Tensor:
+        """
+        Implements Tarsier's `add_split_tokens` logic.
+        """
+        num_images, num_projected_patches, embed_dim = projected_image_features.shape
+        num_height_patches = int(math.sqrt(num_projected_patches))
+        num_width_patches = num_projected_patches // num_height_patches
+        device = projected_image_features.device
+        embedding_layer = self.language_model.model.embed_tokens
+        image_newline_emb = embedding_layer(
+            self.image_newline_idx_tensor.to(device)
+        ).squeeze(0)
+        image_new_emb = embedding_layer(self.image_new_idx_tensor.to(device)).squeeze(0)
+        try:
+            current_image_features_grid = projected_image_features.view(
+                num_images, num_height_patches, num_width_patches, embed_dim
+            )
+        except RuntimeError as e:
+            raise RuntimeError(
+                "Cannot reshape projected_image_features"
+                f" with shape {projected_image_features.shape} "
+                f"to ({num_images}, {num_height_patches},"
+                f" {num_width_patches}, {embed_dim}). "
+                "Ensure num_projected_patches is compatible"
+                " with a grid structure. "
+                f"num_projected_patches={num_projected_patches}, "
+                f"derived num_height_patches={num_height_patches}. "
+            ) from e
+
+        image_newline_expanded = image_newline_emb.expand(
+            (num_images, num_height_patches, 1, embed_dim)
+        )
+        features_with_newlines = torch.cat(
+            [current_image_features_grid, image_newline_expanded],
+            dim=2,  # Concatenate along width dim
+        )
+        new_num_patches_after_newline = num_projected_patches + num_height_patches
+        features_with_newlines_flat = features_with_newlines.view(
+            num_images, new_num_patches_after_newline, embed_dim
+        )
+        image_new_expanded = image_new_emb.expand((num_images, 1, embed_dim))
+        final_image_features = torch.cat(
+            [features_with_newlines_flat, image_new_expanded],
+            dim=1,  # Concatenate along patch sequence dim
+        )
+        return final_image_features
+
+    def _process_image_pixels(
+        self,
+        inputs: TarsierImagePixelInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        assert self.vision_tower is not None
+        pixel_values = inputs["pixel_values"]
+        image_features_selected = self._image_pixels_to_features(
+            self.vision_tower, pixel_values
+        )  # type: ignore
+        if isinstance(image_features_selected, torch.Tensor):
+            projected_features = self.multi_modal_projector(image_features_selected)
+            final_features = self._add_tarsier_split_tokens(projected_features)
+            return final_features
+        else:
+            raise TypeError(
+                f"_image_pixels_to_features type:"
+                f" {type(image_features_selected)} is not supported"
+            )
+
+    def _process_image_input(
+        self,
+        image_input: TarsierImageInputs,
+    ) -> torch.Tensor | tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            projected_features = image_input["data"]
+            if isinstance(projected_features, torch.Tensor):
+                return self._add_tarsier_split_tokens(projected_features)
+            else:
+                raise ValueError(
+                    "Incorrect type of image_embeds. "
+                    f"Got type: {type(projected_features)}. "
+                )
+        assert self.vision_tower is not None
+        return self._process_image_pixels(image_input)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return []
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+        elif inputs_embeds is None:
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=input_ids == self.config.image_token_index,
+            )
+            input_ids = None
+        hidden_states = self.language_model.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/model_executor/models/telechat2.py b/model_executor/models/telechat2.py
new file mode 100644
index 0000000..113581d
--- /dev/null
+++ b/model_executor/models/telechat2.py
@@ -0,0 +1,153 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.llama import LlamaForCausalLM, LlamaModel
+
+from .llama import LlamaDecoderLayer
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    is_pp_missing_parameter,
+)
+
+
+class TeleChat2Model(LlamaModel):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        hf_config = vllm_config.model_config.hf_config
+
+        vllm_config.model_config.hf_config.attribute_map = {
+            "num_hidden_layers": "n_layer",
+            "num_attention_heads": "n_head",
+            "intermediate_size": "ffn_hidden_size",
+            "rms_norm_eps": "layer_norm_epsilon",
+        }
+        vllm_config.model_config.hf_config.hidden_act = "silu"
+
+        # 1. Initialize the LlamaModel with bias
+        hf_config.bias = True
+        hf_config.mlp_bias = True
+
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        # 2. Remove the bias from the qkv_proj and gate_up_proj based on config
+        # Telechat2's gate_up_proj and qkv_proj don't have bias
+        # see: https://github.com/vllm-project/vllm/pull/10311#issuecomment-2490297566
+        for layer in self.layers:
+            if not isinstance(layer, PPMissingLayer):
+                layer.self_attn.qkv_proj.bias = None
+                layer.self_attn.qkv_proj.skip_bias_add = True
+                layer.mlp.gate_up_proj.bias = None
+                layer.mlp.gate_up_proj.skip_bias_add = True
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        total_num_heads = self.config.n_head
+        head_dim = self.config.hidden_size // total_num_heads
+        for name, loaded_weight in weights:
+            if "self_attn.key_value" in name:
+                k_weight = []
+                v_weight = []
+                for i in range(total_num_heads):
+                    start = i * head_dim * 2
+                    k_weight.append(loaded_weight[start : start + head_dim, :])
+                    v_weight.append(
+                        loaded_weight[start + head_dim : start + 2 * head_dim :]
+                    )
+                k_weight = torch.cat(k_weight, dim=0)
+                v_weight = torch.cat(v_weight, dim=0)
+                name = name.replace("key_value", "qkv_proj")
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, k_weight, "k")
+                weight_loader(param, v_weight, "v")
+            elif "query" in name:
+                name = name.replace("query", "qkv_proj")
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, "q")
+            else:
+                for param_name, weight_name, shard_id in stacked_params_mapping:
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(param, loaded_weight, shard_id)
+                    break
+                else:
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class TeleChat2ForCausalLM(LlamaForCausalLM):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "transformer.": "model.",
+        },
+        orig_to_new_substr={
+            ".h.": ".layers.",
+            ".self_attention.": ".self_attn.",
+            ".word_embeddings.": ".embed_tokens.",
+            ".dense.": ".o_proj.",
+            ".ln_f.": ".norm.",
+        },
+    )
+
+    def _init_model(
+        self,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = LlamaDecoderLayer,
+    ):
+        return TeleChat2Model(vllm_config=vllm_config, prefix=prefix)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/models/teleflm.py b/model_executor/models/teleflm.py
new file mode 100644
index 0000000..f2b2068
--- /dev/null
+++ b/model_executor/models/teleflm.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.models.llama import (
+    LlamaDecoderLayer,
+    LlamaForCausalLM,
+    LlamaModel,
+)
+
+
+class TeleFLMModel(LlamaModel):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        layer_type: type[nn.Module] = LlamaDecoderLayer,
+    ):
+        super().__init__(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
+        """
+        This implementation is based on the µScaling paper presented at  
+        the ICLR 2025 Workshop:  
+        NanoLM: An Affordable LLM Study Benchmark \
+        via Accurate Loss Prediction across Scales
+        by Yiqun Yao et al.  
+        Available at: https://openreview.net/forum?id=IwaPYg1SCA  
+        arXiv preprint: https://arxiv.org/abs/2304.06875
+        """
+        self.use_mup = self.config.use_mup
+        if self.use_mup:
+            self.input_mult = self.config.input_mult
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        embedding = self.embed_tokens(input_ids)
+        if self.use_mup:
+            embedding = embedding * self.input_mult
+        return embedding
+
+
+class TeleFLMForCausalLM(LlamaForCausalLM):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        # mup
+        self.use_mup = self.config.use_mup
+        if self.use_mup and get_pp_group().is_last_rank:
+            self.mup_scale_factor = self.config.mup_scale_factor
+            self.output_mult = self.config.output_mult / self.mup_scale_factor
+            logit_scale = self.output_mult
+            self.logits_processor = LogitsProcessor(
+                self.unpadded_vocab_size, self.config.vocab_size, logit_scale
+            )
diff --git a/model_executor/models/terratorch.py b/model_executor/models/terratorch.py
new file mode 100644
index 0000000..19052c8
--- /dev/null
+++ b/model_executor/models/terratorch.py
@@ -0,0 +1,319 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2025 The vLLM team.
+# Copyright 2025 IBM.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Wrapper around `Terratorch` models"""
+
+from collections import OrderedDict
+from collections.abc import Callable, Iterable, Mapping, Sequence
+from typing import Any
+
+import torch
+import torch.nn as nn
+from terratorch.vllm import (
+    DummyDataGenerator,
+    InferenceRunner,
+    InputDefinition,
+    InputTypeEnum,
+)
+from transformers import BatchFeature
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.logger import init_logger
+from vllm.model_executor.layers.pooler import DispatchPooler, DummyPooler
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.utils import AutoWeightsLoader
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import MultiModalProcessorOnlyCache
+from vllm.multimodal.inputs import (
+    ImageItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+    PlaceholderRange,
+)
+from vllm.multimodal.parse import (
+    DictEmbeddingItems,
+    ModalityDataItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import IsAttentionFree, MultiModalEmbeddings, SupportsMultiModal
+from .interfaces_base import default_pooling_type
+
+logger = init_logger(__name__)
+
+
+def _terratorch_field_names(pretrained_cfg: dict):
+    input_definition = InputDefinition(**pretrained_cfg["input"])
+    return set(input_definition.data.keys())
+
+
+def _terratorch_field_factory(
+    pretrained_cfg: dict,
+) -> Callable[
+    [Mapping[str, torch.Tensor]],
+    Mapping[str, MultiModalFieldConfig],
+]:
+    def _terratorch_field_config(hf_inputs: Mapping[str, torch.Tensor]):
+        input_definition = InputDefinition(**pretrained_cfg["input"])
+        fields = {}
+        for input_name, input in input_definition.data.items():
+            if input.type == InputTypeEnum.tensor:
+                fields[input_name] = "image"
+
+        return {
+            field_name: MultiModalFieldConfig.batched(modality=field_modality)
+            for field_name, field_modality in fields.items()
+        }
+
+    return _terratorch_field_config
+
+
+class TerratorchProcessingInfo(BaseProcessingInfo):
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"image": None}
+
+
+class TerratorchInputBuilder(BaseDummyInputsBuilder[TerratorchProcessingInfo]):
+    def __init__(self, info: TerratorchProcessingInfo):
+        super().__init__(info)
+        self.dummy_data_generator = DummyDataGenerator(
+            self.info.get_hf_config().to_dict()["pretrained_cfg"]
+        )
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        # Dummy data is generated based on the 'input' section
+        # defined in the HF configuration file
+
+        if mm_options:
+            logger.warning(
+                "Configurable multimodal profiling "
+                "options are not supported for Terratorch. "
+                "They are ignored for now."
+            )
+
+        return self.dummy_data_generator.get_dummy_mm_data()
+
+
+class TerratorchMultiModalDataParser(MultiModalDataParser):
+    def __init__(self, pretrained_cfg: dict, *args, **kwargs):
+        self._pretrained_cfg = pretrained_cfg
+        super().__init__(*args, **kwargs)
+
+    def _parse_image_data(
+        self,
+        data: dict[str, torch.Tensor] | ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if isinstance(data, dict):
+            terratorch_fields = _terratorch_field_names(self._pretrained_cfg)
+
+            return DictEmbeddingItems(
+                data,
+                modality="image",
+                required_fields=terratorch_fields,
+                fields_factory=_terratorch_field_factory(self._pretrained_cfg),
+            )
+
+        return super()._parse_image_data(data)
+
+
+class TerratorchMultiModalProcessor(BaseMultiModalProcessor):
+    def __init__(
+        self,
+        info: TerratorchProcessingInfo,
+        dummy_inputs: "BaseDummyInputsBuilder[TerratorchProcessingInfo]",
+        *,
+        cache: MultiModalProcessorOnlyCache | None = None,
+    ) -> None:
+        self.pretrained_cfg = info.get_hf_config().to_dict()["pretrained_cfg"]
+        super().__init__(info=info, dummy_inputs=dummy_inputs, cache=cache)
+
+    def _get_data_parser(self) -> MultiModalDataParser:
+        return TerratorchMultiModalDataParser(pretrained_cfg=self.pretrained_cfg)
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return _terratorch_field_factory(self.pretrained_cfg)(hf_inputs)
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        return []
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        if "image" in mm_data:
+            image_data = mm_data["image"]
+            image_data = {k: v.unsqueeze(0) for k, v in image_data.items()}
+        else:
+            image_data = mm_data
+            image_data = {k: v.unsqueeze(0) for k, v in image_data.items()}
+
+        mm_data = {"image": image_data}
+
+        mm_items = self._to_mm_items(mm_data)
+        tokenization_kwargs = tokenization_kwargs or {}
+        mm_hashes = self._hash_mm_items(
+            mm_items, hf_processor_mm_kwargs, tokenization_kwargs, mm_uuids=mm_uuids
+        )
+        mm_placeholders = {"image": [PlaceholderRange(offset=0, length=0)]}
+
+        mm_processed_data = BatchFeature(image_data)
+
+        mm_kwargs = MultiModalKwargsItems.from_hf_inputs(
+            mm_processed_data,
+            self._get_mm_fields_config(mm_processed_data, hf_processor_mm_kwargs),
+        )
+
+        return MultiModalInputs(
+            type="multimodal",
+            prompt_token_ids=[1],
+            mm_kwargs=mm_kwargs,
+            mm_hashes=mm_hashes,
+            mm_placeholders=mm_placeholders,
+        )
+
+
+@default_pooling_type("All")
+@MULTIMODAL_REGISTRY.register_processor(
+    TerratorchMultiModalProcessor,
+    info=TerratorchProcessingInfo,
+    dummy_inputs=TerratorchInputBuilder,
+)
+class Terratorch(nn.Module, IsAttentionFree, SupportsMultiModal):
+    merge_by_field_config = True
+    supports_multimodal_raw_input_only = True
+    is_pooling_model = True
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return None
+
+        raise ValueError("Only image modality is supported")
+
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config.to_dict()["pretrained_cfg"]
+
+        self.inference_runner = InferenceRunner(config)
+        self.model = self.inference_runner.model
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler({"plugin": DummyPooler()})
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        # We do not really use any input tokens and therefore no embeddings
+        # to be calculated. However, due to the mandatory token ids in
+        # the input prompt we pass one token and the size of the dummy
+        # embedding tensors must reflect that.
+        return torch.empty((input_ids.shape[0], 0))
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ):
+        model_output = self.inference_runner.forward(**kwargs)
+
+        return model_output.output
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        params_list = []
+        model_buffers = dict(self.named_buffers())
+        loaded_buffers = []
+        for key, value in weights:
+            if isinstance(value, (dict, OrderedDict)):
+                if key == "state_dict":
+                    weights_to_parse = value
+                    for name, weight in weights_to_parse.items():
+                        name = f"inference_runner.{name}"
+
+                        if "pos_embed" in name:
+                            continue
+
+                        if "_timm_module." in name:
+                            name = name.replace("_timm_module.", "")
+
+                        # this model requires a couple of buffers to be loaded
+                        # that are not loadable with the AutoWeightsLoader
+                        if name in model_buffers:
+                            if "_timm_module." in name:
+                                name = name.replace("_timm_module.", "")
+                            buffer = model_buffers[name]
+                            weight_loader = getattr(
+                                buffer, "weight_loader", default_weight_loader
+                            )
+                            weight_loader(buffer, weight)
+                            loaded_buffers.append(name)
+                        else:
+                            params_list.append((name, weight))
+                    break
+
+            elif isinstance(value, torch.Tensor):
+                params_list.append((f"inference_runner.model.{key}", value))
+
+        # Load the remaining model parameters
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(params_list)
+
+        return autoloaded_weights.union(set(loaded_buffers))
diff --git a/model_executor/models/transformers/__init__.py b/model_executor/models/transformers/__init__.py
new file mode 100644
index 0000000..93cd8ff
--- /dev/null
+++ b/model_executor/models/transformers/__init__.py
@@ -0,0 +1,127 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Wrapper around `transformers` models"""
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.model_executor.models.transformers.base import Base
+from vllm.model_executor.models.transformers.causal import CausalMixin
+from vllm.model_executor.models.transformers.legacy import LegacyMixin
+from vllm.model_executor.models.transformers.moe import MoEMixin
+from vllm.model_executor.models.transformers.multimodal import (
+    DYNAMIC_ARG_DIMS,
+    MultiModalDummyInputsBuilder,
+    MultiModalMixin,
+    MultiModalProcessingInfo,
+    MultiModalProcessor,
+)
+from vllm.model_executor.models.transformers.pooling import (
+    EmbeddingMixin,
+    SequenceClassificationMixin,
+)
+from vllm.model_executor.models.transformers.utils import can_enable_torch_compile
+from vllm.multimodal import MULTIMODAL_REGISTRY
+
+
+# Text only models
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersForCausalLM(CausalMixin, Base): ...
+
+
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersMoEForCausalLM(MoEMixin, CausalMixin, Base): ...
+
+
+# Multimodal models
+@MULTIMODAL_REGISTRY.register_processor(
+    MultiModalProcessor,
+    info=MultiModalProcessingInfo,
+    dummy_inputs=MultiModalDummyInputsBuilder,
+)
+@support_torch_compile(
+    dynamic_arg_dims=DYNAMIC_ARG_DIMS, enable_if=can_enable_torch_compile
+)
+class TransformersMultiModalForCausalLM(MultiModalMixin, CausalMixin, Base): ...
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MultiModalProcessor,
+    info=MultiModalProcessingInfo,
+    dummy_inputs=MultiModalDummyInputsBuilder,
+)
+@support_torch_compile(
+    dynamic_arg_dims=DYNAMIC_ARG_DIMS, enable_if=can_enable_torch_compile
+)
+class TransformersMultiModalMoEForCausalLM(
+    MoEMixin, MultiModalMixin, CausalMixin, Base
+): ...
+
+
+# Embedding models
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersEmbeddingModel(EmbeddingMixin, LegacyMixin, Base): ...
+
+
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersMoEEmbeddingModel(EmbeddingMixin, MoEMixin, Base): ...
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MultiModalProcessor,
+    info=MultiModalProcessingInfo,
+    dummy_inputs=MultiModalDummyInputsBuilder,
+)
+@support_torch_compile(
+    dynamic_arg_dims=DYNAMIC_ARG_DIMS, enable_if=can_enable_torch_compile
+)
+class TransformersMultiModalEmbeddingModel(EmbeddingMixin, MultiModalMixin, Base): ...
+
+
+# Sequence classification models
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersForSequenceClassification(
+    SequenceClassificationMixin, LegacyMixin, Base
+): ...
+
+
+@support_torch_compile(enable_if=can_enable_torch_compile)
+class TransformersMoEForSequenceClassification(
+    SequenceClassificationMixin, MoEMixin, Base
+): ...
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MultiModalProcessor,
+    info=MultiModalProcessingInfo,
+    dummy_inputs=MultiModalDummyInputsBuilder,
+)
+@support_torch_compile(
+    dynamic_arg_dims=DYNAMIC_ARG_DIMS, enable_if=can_enable_torch_compile
+)
+class TransformersMultiModalForSequenceClassification(
+    SequenceClassificationMixin, MultiModalMixin, Base
+): ...
+
+
+def __getattr__(name: str):
+    """Handle imports of non-existent classes with a helpful error message."""
+    if name not in globals():
+        raise AttributeError(
+            "The Transformers modeling backend does not currently have a class to "
+            f"handle the requested model type: {name}. Please open an issue at "
+            "https://github.com/vllm-project/vllm/issues/new"
+        )
+    return globals()[name]
diff --git a/model_executor/models/transformers/__pycache__/__init__.cpython-312.pyc b/model_executor/models/transformers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8d17736c8f4e616089f084aa9eed6ce407a0ed04
GIT binary patch
literal 4347
zcmbtXU2GKB6}~e&?5@}QWBd~vZ15ON!6M!z1VVuXg0X{Lu`b0<QRX3&@yxY7Fn_r-
z11#mCs(471mq?97q^Ob~H*y|$<gt&H`a(pdTBAg&RP~{6YpttDeabm^y!INl?I2b=
zXYak|o^!r)?wNbe{-sdJ5%^fr=VrZ!kbmH$_2C?tG;gE`c}xtV5JNCTORz;n6mXof
zQnsW>d@Nb}?6i{R<9$}f&MH|xPFr1ePRa3c#_G27O5QFg1-qye?UGWmdz2o|%Ub*G
zUZvOWQ~LP4%j&lWlmR}@S#Q{b%Ai0*LPa|8ZTGqmgA~a%V&oqYqd?PCT9@M0^=%K7
zp^p2Du)joeTw>n~5(hwH@b;N)1#LgHhn8sJ+n#lZ1%9~ZJYd<sF1A(xOE2i|qs30T
zcTf$#rj35EF#z~uE9uyJOMB~A8R_Wz8z4JKdubM;^`h^GI!X+I!~u}Vb&xpxnw}g4
z-NT@}__FRDKSn#E8Ue{ew6CKdaz}~7ATbIOo%|SkO+RGNJqEh}mmf!rBlPI9XdHbc
zDdV;AiDM7OZ!yjDD3dkjhK?bB5-`p2mtAI4=6@pFu0bvTUwFI|LNwrqp69Ya4P2(L
zs=8}?rbU4vO=&*<c3;&(U$d&_ebd3|b-JSIwbnFSb!X!7zNlyVqxmb<xvT1xo7dFo
zx#~hRQVp%Zth$C~O^3E!n{&J{@TWr4GAN5myIig!8rogB!CamCzUi#YIm>R;_Y%it
z6Jk`Hv6rY}z^+)q@B;lbq>fInS{ev1o4OX5uG0cLq-%~!9c{^?FS*-S{qXwYT=kdJ
zSFWo!XRggHEZ+PG-0j-lZZ7Nb`w-LZYl1ZMFn>%aQ3SZg#F_x01{d4H{ejEk_+78g
zf0K%`s_JMqRn;h`s&Eh?AW@^ds(u=3R?PW^G||R?ZdC%?t9Yh28E9;U29x*0bLW44
z=NzqA=2FG01*@)8xocT=g&(L&?^8X5LyV_>rTx$=s%koBpsHoB#`-`zCnsRw<IDPp
zY@9yJ4z$)2dwQ_lQ%Hn%XIVe08$!YrAH>l}i@XVgmg&n=@eX7{_#_h#Ja1sW0BTGa
zSnV-t5FS%kAr`7(+CJM4+Y=)l+k<o`DgQ6vF$9d{EqMGcAdg6+hs+DV5@OKEON?T?
zGm0dUI|_Cfl6T>0W`F>Yej;UJ7|2NsW6!bezCm~`%y&GtpMiFU<QMQXw=-sDHa3mx
ziA^8c69IQ7iS-Gzj$|GO$C2=i!llH9|4ZnT*guIDk=%r5HwPAlTiZE+yu?6`wMPK*
zuk(%7`5Yz@36hWDX(d5=Ckc>~7{`fr9B~G|3Y1d_1&M)!G7^3$xRe+}We<k-xAIk>
zoJQkFZsTAa35SA9k%X73-ny<~g<$%o;A!G<J|+)Iu)}Tj26qKk3UCkq7{WvHH8I3L
zrdr+M?}V3S9uhRVKqgWTre`(Bu&8X>SXh18U6vi!nWXnkKcG$^>sXwqFW)nRRaui)
zspTz)mP{FQnQTMV(^hEt!SdoNmD>Xp7jCF^@{*?Cp-|Wj7qmDoXbc$x%~nlb)$UTz
z$xX<C3v&)709_1gBOowhMRHK{=mq(~Tv@(hQK<E@>rqG69NF~!5R?S+Y7lt-g-T@w
zfQCzD=nZ(mne>=@o9aPaefVy_;?R3=O=ngtcS*DSsCXp^n7I@NbOzm;5ZK!g9v?$3
zGpq$sx2i%_(_ovbvU9L<4>w!{@>}xvO!t@P{&4=g%*gk}k%lM~PHmhzQ@`6F!aJ85
zDY0;=nUYGm29dgQTRD>N`~3VDi@(48OghL<etzOulu=c~)uFZyV~IrQ(AMx~plndx
zWg1jUpWzutZ}J^`i)fio{c_M&%F9a-B!+(lqH<CZo%c=*b1u1%#XBs94R~}isU_Q`
z49h}vI<W-4aNwtAu`CEOtZoedo3U;r*x5w<h~r@FG#DLY<GHQ{smTf`T13&wq&ULB
zw0u@VnNlpX3k?1`#=Qz}9im=FSMVibDx@Ixhc4sQnO8<$p?IO-w>7^g`4z=4hbZL-
zjOW=4O-Yn}7lHtd*d;a%)-Xf;x8bi>BP9sJ<`E*C{3m(u2mF4(zwiGjrUmie1jvuY
z6pXS&SP*_7mCY;>2cM0d|EqA}dvf-xJM}Zq$=PO#h!;1=+0Aqtb82m<e(|aFoJ?)A
zry3x8;+fF@H{tkq!to7haHDH%WB=q<MiRx%9EffV9DDZG+*V2y#jP}f_M={UI{YW&
zIl0lyz*@5#HbP?pj0RXru1XX#8&du=_p9I3r<*C5wX1{aX1)#g?AqZc!%xBJ>^AP%
zJ#Nje%|Dsl!+td^1S)F%($mX-o_<b#-HrnpZPDElIqK21;kprH#vnIvmB%VRgPmPN
i^)oN*YCuF^F+`(lqff>=1*nnB3d3LMTLgai?ei04R4)Sn

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/base.cpython-312.pyc b/model_executor/models/transformers/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0d41d5649934a0430948ca64596d886f235a9d4f
GIT binary patch
literal 20334
zcmbt+dvIIVncuy5KS_`PL68JV@F7v)1C&Tf)Ps^OiIhx<q-069*ND9k#Cs`$0zmp+
z&=O&Aqj<Gr&{1oud5CJ9ir(?m^jMuRZDt~Ov$fiprtYLO#T6t2xuIv7SvRex{eudX
zwUg;I{l0S_fGEgGc8{oY&-;D8^ZUN@9sJC0w@_fBx^G5io}s9}M~`AEWXJlbhN7-h
z3>Bmpn$bk*m?o&9(XEYYW4fS@xOGu|&;Vh&s4-|HUsKQoUwzaZvji<9jUj4`S%X&M
zHbzY`ThK<_rl>tu7AzxfbF@6>2s&aF!3yHHL@Q&?pp&?*QCF-gSVi2ns5@32td4nt
z9^$u0Yhty*TH-E?*2TO*FL9Sg>thYU2I6)^8)LqpFV+-niZutDNmxa+CDs~jCGN`T
zrr74-=2%;>Ew&}NCFT$MW9`9q66cI|#5#kWv94fOED#LDx`W-Zt--A%&K2Dj>k0PI
z6szOx(B~@XTW_$J#JQu}V>^O7XezE@cLsYk6zgUCKA@$s4el~iW{PQMs#)WNTN(Jm
zcY-Up6&K@yv<bym_%bz52(NuYc-<4iz3g5_mo!ooQ_uFZ`&h@grUt5!!p6&(hAaBu
zes(`w#x(XrxQ04HF}^Dl)5Ka!wU=#Wn^_;*^Z}HJCiv8h&fk*spXS1GeteRPu^jJ<
zO)_jW5<llV8y>sB#u@nXtZytD=J~+qn9EO#rlADOh0jJ=aNAG6cw#Vg=$XMo$A(6a
zj6#U<c_=3`83(5(j<)&0bYgM@%LPyMf#KoMfzzi4M^6tO9}OLTZuAg3PWd&EE|Fm4
z3CJqiRp;rMDXhjd7$1WYxa0BYj2Z{wwsUMEoJeq?2s8=GK!0dzDs+yUoSu?=3E2m!
z%jDQdoQaIFJcL*y@kk;Roji9AveTmb`N^^H*%M(d9F4Nk!Pr@rVPG))TG4iDdTMHt
zOYp;!Cl81g#dqR_Xjk0NPKV<OD8&4HG#Zoos~4-W%5gTFnC93J$G$Sn@`+F)G9@;U
znkVBShJ6(p6S^2loS&Rdgw9TnkHY|p<<Ka|Fcl4tu`w7H(ItCAFg<LT3z0by-AX7I
z<3n+nL@C^_7b|esUtlBW&SRs)FnD6wi4!9co`)U{hiAZVm!n6*Q&Zq=i-j++AvQLZ
zm<dJVFrYD(iG&ku2&RRf<oM8dcq}o=&4{*Gc;+k{n&Q~;$R+5pbEqiwX(=%Tm!IHR
zSX|ItMwxyKj?JOT_;}=;Xn?gg9c4v53<?ygy}-_h`d7ozX;v(QIhB?|C>G`~h(>-a
zjH^;~79t{XJ`s+?G>*yZ8CNHzhyPaizy2$*-Y{RMQic>Y0q%_kchamWrT<24LaW53
z^a?#lnI?2fXyF?wq@*WIg>c2i&{*o5W=3;`O3^7zN;|F{pgxeJUxM7T^sHu9n>LRF
z&Awv#sx;67?8gQp<@i8u2Sbf(PEmf{=;#0M_rL%Bm`uw^7959O_`m)%SjQ+D&W#lH
zGElZzIz>+ur-XPk44fk$!1;payYzLMrmlK))QsleXfM)!?dO=|bBx9<ZcZS{n408S
z*m9b{R*}BMW1P?TyHnkX*i`paWU4C>=3wo2U7GIOz3W0B+Z~OZ?Vg%}MIP^d6&67^
z%sv|pv6t8}Sf`xi<-1AAGBN5#+7p<X5zYPQ*f@J>irb$gc|+qskIsh*YXLG`40BAN
zKMMOd%I^=T8J>q`@eN@8FY3$7RL1j+u>Hu=D+?7j>u%I7KD$KcYT6;>w>-}F>)r;s
z^dKID*zeGP%rMSr7^=iD(qtGlpTji$o)Afn<<EzKv}w7mP&T&>EYWa2!Z5IVaCUvZ
z%Uln};3WRZy?y~Q@r_`8DR+BV*mZ1q8+5zoM$O{RrJh_(079g0|E0H)_8UZV6lp>z
z!dw#d<I%}*LexcKQ&CZmdk=OgX|HIMhuUx9TCjPoXl+7kGg@tEZ9&TqmT0&D({hd%
z%{&_&$N7qLeGtwg*6}IkY0^>Ai>u;EGs`^<IR-K7>tMl5uGLZ%t&4|qt=k3obL_Z0
zlsA@TjI}F`t&1;w?=RBkx60<q?wP!Kd*xeSoBP^A<y`3U;h%e+S$^*Jp*vMD<ylw?
zx~j{A>E3z$FFeDytL|v;JO^Wv^$e@wd8;dD^$J$+!gGs<ma4MW?qyfTx+A08u@0@E
zL>)GH44sOx$&PgqHq0Ba=~yaA17OoI^f@}HWi(*x0D9;dE&S6ldiZB}TYt-_5T2kR
zO#yK*T`>W8Gc%UAX~xRf7&~hk*O8dAD`i15Q+|aCS{Mh|R;Gfrv39mh0te$7rt*p|
zSPoFe#X2UMm4+3*Och%>fs?htFiwOT<2uF-u)+mEsB)rxLlW>pZ6(7Yp9ku76ByO<
z#N4C~07xavU~1WFsTEA!6H-X|pU?)jn)JZJc%cU#08KS)Eo&-Wk~CTbPF1jVtO;Gv
zhX&|_m#t?SSrg;KF=v{t=oA7TY)Dg==wKs|+*VO{5Qvj#ge7~P4Kt#RMX(S`Oaf@)
zlX$eT(LmB9M+cHta$HBoBP<ty!<kCjq$F~}GU=-(mt*;{NsbL9E2P-sB51L4l8c;!
z3PW-BqI?uTLc9#nqjLDa{x87#4t<?Us8oLr&cuHP6fZ?bsFdbi`k&J@mB15&7^S<j
zS~xkelnrKpdbt|T5naNpM5J_pwKdAAbcvqT^Ym3`N}JLrU64|HwMIvQj|!=E%xL`D
z<iH3EM}+VEIQD|<{uluwzDV3Ra`L!uoSTdRAmtN2eu^D~u^aOxCVf#hToe)zD;~=~
z3e-%`Pa~wM2mz7-gvU>xC8HM#arMw@(HIKFxXDmRG{PALbcy4RLa^T`YR96ys6(Q~
z?S~K&Eb8ze65VKr9;;0>ha}7u3h{_UB(f$`?_mf?x^bxl9&1S);&`OgK+Zlh+2@Rc
zscCV0#?-U4^RB69#q0mx@r<b^@2b9j?AyoE11tWmKz;g-ems!%Kbt9szfD5<vw25T
zX47850e?+vdaBB|W}upS(%So`dhP&}%^d;jeOfd~U`@1=aULTGj6>?cJqMP$a5UgS
zV1q}{`e!g*WZ{5EGIK^)I1s8V5m+`VOq#&XZ!iEU<V8orVk-riCh#cOU|^xB%MO;H
zLQ{)UP2j@bV3amNZWWqAos}DsffrH~mM%R3OLU`w6l%Llw;NKZJ%<z}SVl-;Rmz1F
z9>rbwLJGBSi8>{`s2^oYSOU*-Vv1rNO4vE<ks>4jHkSC+e#?HRl3Mnwy*5McQmx~L
zN{3H$C?yrXN~?fmz!`S|003uAbSd$SR#^qFgIFS^eU;+splpN*8_Y!ah5+y~Dkujw
z9>KiY??T#;I=TtOOT;khnYx35b-F_dpV+Cm3STHyory<6)s<8To!C`yD=x@iD&-y}
zzVN+eQphCC8RAl60DQwg1vkQ8p(dVE;tF47lu0~p?hWRV_(K~a!K=hW%_=T{noxGI
z!Av04*kF|0K=_B0sFW^&bdwmR_5567L<xg~!3_OEY61r8ZIfIutCm@P;#tK9ttc_8
zDSaXDtRZE%tT{@(PCuc=r<Ae^-vp92VoH}kfy}`ML)gU<Z7G?y<i5FO{XnJ+%Bm;x
z_2Pz#z+1W}g<OfRDR~&%IqY|-cD<yeDSVZgfbmxM(+t%@ZKHVlA_xp$g#AEM^Yqp2
zm$WZZz~0$MldaF8Sitv{vY>#dk6jv{+MYc8mC1a}B+L8alW=THG85m(pB+B2-S-O0
zM<U5EN_c!TY$71)&P^p=N$LY<BVnF92ptf0F*uHasnjzG5d4T032qwXB^(=@1Th3k
zfJCbVv<OoI3CoBVg)|{Pl7wi9haw&j+t>@yOeBVw>0Bs29RneUEZX5k8)+95PJ|M6
zB|o47kPvO<j$yM*^5Gp44U((~c%%6EBnUzX6D#L612&MI2Kif#;-3V2DWODIi#@in
z@Ys3mmsGVZ2~x67$zmuuo;wRI;q0V2iiC^96GAj8A}-O+Ux-Y}V338b5iejLJ^>P?
z+Q>N&5V4_YWTn}$1i)1Z6hO)naXbj3B9|b}gnfvIW31>LolFb?Pe=q(EHlV)lbmQk
z%ob-v7vb+h$TO07GS3_!MT$dYAX*X5DSg3}&Ee98C51yMR)EL=1&<(AlDjQda3C50
zQR1s8I3sc}v386DQ5svs`KwYOiQ#l%TO;u)5Tq4Nu_XeFTap%WUaWZ(t(Vb4vM;*$
z61g}$QANwEC=ry_Ryl!^*gjaLAfw}uesdvA*7yfRXMU5YLmrqzl0zVuSRt)DDC+zq
zBaN@)v6ky`+<EQ{=0Xa`<1r&4OhrJzKuFSF3^79&G38$XmizKDwIU%)&plJ^imB`^
z>zp;?+H=pech%jLa|Z->Am`pCxOb&>SFQQF#+!R@?9J8f6zX<n>mcl&$&>fC<-FSk
z?{@Un<m<QO>URqDJJDCWA+E7K*SJS$+=Fr6N8>*8w0^G)>aedU4#27Y4yhE=NWRT4
z6>l2O@90Bk+nR<p+g4>y-gIKsS`NJUU8^_mYt8w#3BGMP-yXrYC+q9a*y>lyeTzr#
zmUpbU{gAP0&$?DyUAabSD=OD4l*63?DNlKO-r>qQx&=pf&aqQ)>|DNh&+!yAV;fYM
zGkF9Pj8WH$y<_R{eS7apdvC7&DWUx-$aLL$&6;=D=G<+9yDjJL65L(+=FPe0UZJ@+
z*E}dR4?Z;NI?B=mSC4+7rOLLiIViI|XKD~k4fjmGRg<mYZfVQ4928m(W?KfZmx$KA
zzMFe)?8(*b5$g72>-sY$&q{esrnddo=)Lm2pEYjIwDsMt|5%r897zw{vw8Eb9qGXp
z@0KN3&c9pm@4mg`PHWbCBt4RM`ZCVWjI9&wyv^~}(Yd2JTZdrlSaEF5yF58ptKe$Q
zxw-{ccfPqh-`0_9>l51ga%~5NwuAYmO}VBXp{eJgSzl54P;0c8t+_}qyn@NQaQbHO
zM)00#%R>XT^#wX__rj1bByx@2LSuKXaj($0cU`O5YDw$vn>xQZLc<sc_TJy|NUZ*I
z%K^u+P1>Jr(jV(Ks(c1SP)HRBpV0~&1&SvpFm!{NfK|NFF!Y65*bnrK2J)yVypXCC
z)5^b4#I91MxQ<dKLHQ~lP*i>itf-v1vvfk`O%f_5FWpY%r2ihpXjAm}sP7ly<a5-l
zh5=D=LdET+%P7UYOd!$SU=;MG)CnjKMIOYYbV?|&_JI6ef-#@f&l(CmNdlQ>DQ(FS
zPZ^Z{Csa&3;ghozeUwxn9@vr6Otch5$xbM#z%lAUbTFi&5}TBCDUA{fYhVD@fVD8%
zjM@vph}z3dMKSt6ekQ)J)&QmG7!cvtQZOn&WC4MeUZEvqX?!Q7EydroD?KTEx#}mB
z+gV7XxH$Ui;e?9mO0S5NA+b$Kug<!Rz(J@#4&$lvNKa_xb|rt|`-C=@=A{bRR9C5e
ztndY7y&2&$26#hUl(XhPxZcdlN}9DKb}N+>trLr~PLwaqA<&Fjeae{96Y60|=~Jc)
zu+m{n%N`%GlqIF_hk~zqL39P}V(29J7!6qszyUsSHI$yU+JEA#?ZK-Uzae?hA|L*~
z15;Dc8DHW&D_z;P@jeAX`4j}DU~Rxo@qn6<L%w`8x#@A3{#XG4U-HZe8JDT0`X<Mv
zDtRB?S^8qrQMk{Hvc5AT<UVgW!Y9t~D8s|Xq0CH5?hA8lF;~Dc$OJSc8xKuRM;Q_`
z4i~eJ6oaMs>$yp2v1qwC$we80#5kM_(IK-JJYM)>A2~M!bLY?^(9-feUM5N?RY&*<
zT@)GzXkN}B>fp{1ZYNk^3E)N>Fx}TNGeL(aff6l+E^!E|L~WFX+vx~gg+@4JOv3RC
z+y#tqCL(Z$JIOJ{xYGs+;igJT2bY+#sF6TWJSD^m<V9qTgIvGxq8-Zw2rFM<>%n`D
z^;@|sq<XwLMy3PqP2nDxPryBKk&j&77?sY^5m85AyA_}>2e;hh&KEk%$WE(NrGz~V
zl83iKJ<1w`uXG9Z8U)H>Ol6U%IQ^#($8U#?1eY=<3V_GHxqUfni(qY8eC4inOWszw
zTJC%+IhV|px8E&qU#avH9M%K^%bcT4aI_(k*(3P(<ov^ee;9y-vn+iGkcP8<#aX?e
zyJ@*$$vRsym93f9p^sZWuF5!$lSFHj22hHL^3<kn`Pznb`AVgGK5;#HEt#us7pmKH
z)!jmMceZ+4wz4N}T&eagR)13MpF5I1kWK)^db@40^}Y6Y+LxGYZSRjx{`ln|zI?y@
zP~PFqIa&lq%i_R2hd<xka;<#LNO{^HS}0q2I+caHAn28ErP2#HvjSj`)>#HPlQhIu
zm$5cOOr~-FPZD<q{>#z-cr^Re@yz}cnfhn5l_xW{lK}UsycuujLMZF%N)O~=U}ooL
zrGX)%;u9RcoMZc4$M)N<kLo|H&+R^SclW7PhiAp+oFBM;^xDxy-MjJZ=AHL#eQQ>#
zD)7)jHE#vDm$P{Vn>S|*2(|#Czmd6-oUKi;wW*#~!PdHN)HPcGmZq)qF9I;GZdjNE
z4j^q^sqiegZr0wYUHn?MVq4m<QsMqKzp(RLuYFR{l0J|xuU!b=EpJ>ruw?%0kvufU
zvpMV8l0H1Y?ad(=oyyiV8}w`8_)=K#c4xfXvaX)=z^b$Q`o3%Xa?Y--vunj6&*b93
ztw6SY&wa<<2S%!@m&m9eL50ZR5LEapzyWViZ|L68U#I3upS&fo;hXw7JwFBMbx_U*
zQwkT#IHCw0Lf%rCZ$nw=eL~7V86B4HopN#kI@D}LhjaP~6&Ds7rkwTz)LWXjv}4)`
zHKutP<iO;7MJ!pRqy@aGQBKg5_FI~(E*&+doz>22-qbU?1kzDrO38&8eF9EW$-tc?
z+)AeP<66dW#r7uLY|iOQ_lD8J9j82BG&N%y138pb<3-AEPX4!(3a<}`n#}Fvu>o{W
zJxajKMtxxrEwL=aG69Qvq#c^(I8Yaf&UC_=6XBHt_&tRrUA{B%cwm^Q&YY1Bu2+YL
zN8s3$lv@hNo1|VNsXVc~S_c%+esbj0D5%&xn*WRvswO2TY_jF?19n4I0UtTYq>FTN
z4O6_Jkv+mmUjIL^5x%2+!$epl863;wPd<fdfBEkUlbzB6#Ft?o-t-kF{7qBgt}mrc
zs8=neMA*udafi|-xR$1`nC7elsvsFexOiL;Lxi<*`)3Vv)(K?(HkgzFZV8n%#sWZx
zyFuferIdJc&U8zwh*M{E@e?U+sSBMymI*4b2wYPU`=f=r)g@hM@&umK8;sg|UEBhT
z-JH^r7OD#yq2e?R?9ERLS2iiQV+9sVh2V)MrO-JO^t>qM>MsH2QGWgCBNP$1V@Z|g
z1UQPcP=F@`Zc|+lr4V+Co>K=L8daO3W!0WWtO#{d-ls=Vhlc|Nk61V{c3xIU5$P$>
z3<9bs0S6^CQU-~@=`jgiK?4V5b{nL3g*a6^2ed>V(Npn_zJFx#l^=0GzVyROcj!C2
z@Ar+oTk$@q=isUEmvx)zo5szceuM-fGKP5VG=z&rc?bF{#4-dtOla(UB+39u;2I%b
z0(At>86*M#xClhDq85aO95Nh|X!R791(IGY0&a#)0F-z{xE!txg7S#0kNYlq@xsY(
zD{NiSLh6*TludF=^h>nh1-<MxqaqU^O^}-!r%->1i^ElQVkXLRxQ)fi$A?Wqenyb-
zBF5$MbW!lx)0Z#H_sstuLX$mz`ka6YFU14ZpniLq%6InUIu8h)2R`XMBsjLrTNZ}%
z_5OJa3Y*-^wOMcfym`f0zYx83@CQTh58ZR_`~}We);Bsow9?SLxEqjEL+|_%fMoTp
zH;>&owq#tc%X;_C53V%r$a`8B*`?FDuKhyS{yQ@dwVG!4wWENC+|9YF4xy?eSG8TJ
z+McW0Csggb9l2Na%t})qW@2)icM6+#<~AP`HXj7shuI#OsH(Qb)a{}BuEVR&`o)*-
zI=8L3>J|<!9$mKFbM0MmwJZ)TrEUlByPkQ_MRg6((p@;NmQjD1M0NiLJlqsob7(!v
zJ8<8`u&ZE+dQdHm@zP3?7SV{Lx2OfFy5B&ihx?b9lD;6)uW~pQ92U-F>N7A`PfHq3
zTnhX$ihgW!z=aIO--86d0~qa~06Vo`YtL1-3YD#C<1fqI3)^q*yRk1<*DKWZE{E^d
z_5G7@^pTIXccwFrks=&zq52QeAMN{a-%p;pS9$Eir+&D7dE0XM+x?5irHZVxW9eDJ
z8Myt_-O6KW<C?D8JVd|Cy*KmD%o>I6pR{~Iz7KjRa~(7l1e#0dJ~8e5?Rp>O9Hz-g
z{HMn1LtO^Zz_FkU8-Ikt;ZZ>_-xAnwR6I!*2&#)zDJnOC6mo-sl<L7&h*B`sEJ_ZG
z4_i6OgsK-%lt*?Fb(m6l)FZHv=MU7bOQ?rq3J%qR>dY+Yg<YZEtVmbDVXM1hnl&)`
zE7Yt}BdM{f`T&KRlpb+AAPs0|lsZI}G<*xhm%xpT0q)AxBP`)kN-w3=Fl&lCic+Ze
z?n)jwlT1(xlFSXJ)Nwj%enMJRidZNFBt1=v5A-RT6?fsAGN&xcF-tJ7b=DT4X6;3C
zA#2K}^b{mQuxn?_K+0O4Xj4ilJ%Wr$$;I`QPEktQmny@<g)tL-2=^26m5>O|mZwZb
zW2~ZarHvFtN;D)?SyNn}2q>|$4p<2eR6Yi&l_d!$Cx8-aVyhBg_(Et;!Kb)DE>@l@
z1FpmReND=A%l3iH4W;a<vVKT(^=*)d*+B=+o*Ypj?;&z8=R0#i(c3-)q8nL18<n>3
zwv>zcjy>-qSDrr5uZMdzya_G{rbIU!h;dZLM}@7)@x&P1EW*X^<7kM$Vq7A{N^L3f
zC`Oro8wD-Yj*4aw!Hk8c`Ec~KpC*zW__RP)9tbWai8n-3e>5CB%Y^qQw~-_C$+wI}
z7)H+0kAxd9<}XvXjLU}G);p)OTaF5?M;~WxkxY@MKLd_OHS*H5gsx#qWSj^|RD;j}
zO#yi;TN*m4d31b`@9l;E>$o6_&?4Z5SsEZK@RCYq84H#vSde=Uvb+z&Ms$)zIwr!!
zX^53xUX;Lq1Ap>h6%C)F(Y+7H50|*Cs@!(`!>`|Ndf&3V?FaS`zb<PiS60!0Qnlgu
zjA)dQ6z|ta$N0}6tE7A`L!qBSz&~Oh3+=c}y?ZFzcKr7AN3$Q!{^aZ6yw`gC@!7<A
zBD1*#9C&2G+~JzqV3fJL&_}_NBtr}<Z~{`nCjy_Mg~<IQ+rA&i5EZ^IQ;V-IyK~!)
z2-}Wiw+-EG8zSvaT6P4s!aq<j*qU_96RHStWhtsCNdrSDC*{QoJ{loP6^K#En;aCY
zf?53t^fhpw`YocFNH5ti10qyZf|X>mdm)u*!>9|d65Uvyi$V~=*yL49B*ByI4f}FR
z^njM8B#sOzRbB)s@Z?45lH5#40=CItD?xB<hxDojt5BOK*A&NCJ1POF4H6ybeWX33
z*q$U>I02#^lrY9FgkF{2EpbTiMBCu#q2mLCCqu_ahhG$p1B1jzB+=Xg<|LpIg}B^x
zv~FM~<M}WTE#kQUj=r)D9YUPIA;2h%hrd#Sj~6ghK<h4AS+o!gf;vlB-GM~zOr-6w
z1;SD86HI{8UX&OU2ho55b^@fmq88W}q7%XWD=h6kCN`1L1Pxb?>>6A#3M-+0Wvn_2
zammI%u)(+Dy8CxveMw}$)pa@dX2HEVZC%Ct=1qcYQ_i(daP7Oz<o2Hw_MgnUPNmJ{
zE?SD~6<obpxX(7{A#3#(p?XWMdbd!$`*v$?&#16xG+TW<ZCj~rTI|SlANkmotsPC5
zKLD2D7@fBK!hJk#{kdl-ZHEwBwIukxXKj9eA4pE?KCHXfF-XLs4T7y<A(iPGyk|SS
z;@On*^a!4wxuMU{*(G?o(nG72?(1FGx^k6WLS<Llm{+{*LS;M1jjLJ~kL6kq2(1V1
z^nH9JTXlNQlGdmB)dpY2R0o36`RRqRPb!+z2UgoUGPc&wh@{hc!@BtLJx4Ee_WH4F
z$8xR?!PT*JKyU>zJ%e{$gR33gKiK>J-dx9^&@q^CYyqChRsXJCQfavB-18ePRk7)_
zss@m*+N&N|sLg?VZ43MX!vu0{*R@ID%<}b3x%z-mA1F9{-Fg3kd~Mx=b764)HAw%k
z#=f~MV{2Tb@7kKz>Z!_>wOy2>C1YwPgke--V7~^FJyv|~;7Nu4b=*%Ngw?{UQ#t`|
z$&`Z5jHXBxxCHcOw9@l}v=*K*XaL;W-qgZz1Q*{0$rK0%wSIlr1S?8K7DMB{u<wkj
zbOX48_ksQx-YuO$WwA3pNo@*6e{9?b#05opK(o{m&PXQ)$%)xeZ$1(aM`ih<Pde@4
zrQ=MIyztDKGty%vwHR{Q1&sUHd8DK8WN%9|*5B;kqb9*kgjzlUsF98C@ilLF0N3o>
z=Tjd;28#5dwgdtJzgi5`t-1>nG&)wye4s#toIVRMSl`h+NjAvPx6})50KDHVmJgPi
z#e!t8RBS<!7Xc^;l>7;!x+bti8%$AYGKefr0J1y)B^ynOzC`nGnwm3Clx>WoO0qYQ
z5-HgRQ>y*9R9V{xFluN(Myd+MH_GX*E&$M_zDk(_MihwptRB`eUMH*X=ir*%E=%$b
z!*e;K#O<?O5NZV6g4<0rNQ=mC6CIMwN?qbS_c<oeleNa-Ruau86s0rKBE8RyMlP_T
zjtS!{J4ivw<YMT8IR;9vNWlE2!V2PUVw9d#1cx_18^K~lJxMG&q^A-^?YIKzi!{y@
zVbeMUCj;bc*q{+tz;_$VnuY=A|21TUqaxq9Dc87DXxw>wI@7rGlg7bo)_L7Ln|FGy
z_h0LOcgK7E@ANMlvMqgCXWxpi`90e^wiQo(&a*}EY{`3@ZXUgHG~e8IxB1}G_FPB5
z(9xgkI4E=+%%gJE4xwd7uBBgS=?9&xn%Z@(p~*cz^so%?rw%U;Ecx%dwy!xU-(ec`
zn`(VG8*emzQqw-K|GC4rShb|T?+855Qnej~I{I~F^tr!<W^?}=Eu1+B#c?SbRvZuV
zfba~+dZY`}*C8nBDm6ri5&3S228r96+h*>5_vCvozVqT51<oH$|M;~ZzINxd&^PoC
z=zrj)%ry({#j5+JHqs(sXNYcNgyA2d21u(3y+#q!b$AI5>lR!a%~$aj1-5_)N05!!
zV7^ffOl8T7wIu96$fZ&6tyTh8e*py$Elc1i$dEmR06;O=1wb{Zg3I&RY#^J`8^CfB
zC@XM6C*>jB5c*d*g!>>LEG5rw>4rGx=@UGCS<mj<{;X#pZO@~+V4YxvD_OV#tywso
ztM3xv&(;N+a^>EP$tw>iykd<YAIgiaQg5EQe}H<%iUmwa$za!0>sO%}PZCv?qCUJ8
z)RKq_JA<!qL8S!61GBmm{SBZU40+oR;X3ev;*lIza=gD$4SA|ky30<O50wH#VX`Tj
zOC71J^z(!gG?}xc-~lT`{T0~K6S-MKTn}MVdkkb{m7v;;5zcWPTq~lIR0+C`j~(9z
z8i{Ys7(Ee-7)TFMWTiB_=vzvR#oG(Ya15O?MpQ=j6o|fn6E=-<V^9Wg#DT*gn8npb
zrcX3a!^15ico1#Me1on8FX;?hC5dDReiI<U;Ta1g8b1N<zoN$?f&On{X)mMo1zLm+
zu|T;zJ|qJshOiTUjQS2*KCpoHs>`1H5<`EB7Op7iaoPVx7dE+w$SNuqxW1D%LP6vw
zx8KBNUkMhG5IbB&ssqlpjI%dm>jgXS@ur9J-mS}xg7-jrWYr2UR(*L-)1qJSbV7{P
zld-nuz5XRX>hz9)7J$7%QXa_Iw&Wc(8ONr)qaN&4uP^7_DnLm!S?^xhHCV8ug$plY
zbJn)Iu(Rq~|N7Y_-Qo*EUDw?3YF+E%i$Yy@dU(~-EN#m*%2Z>?yBqVhZFzTHzGf5A
z-rXhmcI7?w59|=RRz{UqJt#+)gR<HlRG4b);3{*Wt14{=GOcvgf4AJf;@rGce!D)?
zb|mY3CS!YMwP-IJFG|05@Ca$d?LkQ6EpR+4FM_3445=U<4TS0>SFsJDB|t5NmViCC
z=nrIqfkg2M&-hEeI0CRHw}?ou;HY^88o_aB@n|6i2Sj0z9!mO+Tpfm%NF>_e2{#jx
zM}#|y`D7~mdvN1B2K-5gN60S+ck)!Sf~>jX+<$`$?-b;^Og%IK3jur;=-cFKJB8ZL
zd`&$*p|5Et3dM(ow!^C9q18}nNgH5-9qwFtvryi=*tfhr*E=Ni4rR)lv*kxKCP_*r
zT4SK_B=g_!#9aEhj7O#shnY+x9xBDtm{6y%)U>HMPgA%kO;Ktns6nK(7oY^rRY0;p
zTeOPO1u9B_Vy>!``Z^8wv%1mbj<0?JgFo~UfhYdH;-53vzb~ox!Cv+yEuFrz(+S@>
zcp?K+jB7=-6{i%fA!Rh+BGL*^F5s6(h#ngxhhO=jI6YVh27uRxUn*fllUyT1a0r~I
z(t*l}P<FDC%;+ORj*kmd`kAZl?O{p9pYY-<&f0~&S!Y|?1kc~+FWt2^u2k0NE026^
zx|3X^=#zAHzPe#PvXETzFV(GS>5832N>EzL<|7BIBumtcj{1Gvzr_w(;Ki+^w-yp@
zp%C6J%NMOR>Prp4qvZEi<dh(WDnv<{dGdUhEN5;Qisk+TS`1pRp@sMdU@=f~Q47bp
zByO3-7~H)ZkR10qrZ$`=KUgA>bswfe(#zpu0}MV5nvJ3sH228nfEP9JE+{f4J=!3n
zE86Afzhi7P8VZ3>4|fU?>d9De0E<KG&oLqjBmd<UD&N$;XwB&A^EGW5&z6j?>gS$K
zAOxtW$$MK@8vy3|^G$&V6=tvHq1IYsfCLX~jryLoN@{>UO#hl1q4k!<)EfETKJ^>&
z{q>(~cIo?nouC8yzO^&-E`7_=z_N2WvfLnaKD|zX|3QMT(QjEi`(EUo$QlLC+xm~J
zA6oA)!mgw1=wI8Z)7LLm{lNRacZ~w)?M)wbe%QH=P9VhnPt*CXZ4aygef_Eg))!j^
z=jJs%1b}41RfG6_&4@k|)!4H<AT;b+Go#l+dFrpHuB8?kP|RDy0)Q-7%HQ(Nc{834
z!Q8Q4j$vnLtNs|hT2ZsGX;HiQ+<Py*^HK)hders^6}@YEjDu<{_VlSa&$^L#YbitJ
zn#QOvTkKt<;Ir)fHGbB$5dILurPWC00Dj|&@;{AlznRG~*jVLbldyTl2>J_z&yGoR
zZUAW`+&XYNm@QGyvFF%J+!9V9;Q)-d@hYa^$C1JyL^u~vgoe0@r8R~Jj#yW`oh5Mq
zK2e)aL_qk4v`j3+huA1dmBg#kN<~B_c0L*tkQ6fmve-5>2|s~Ukb80nMa2q|MS3_E
zkSaltCOSws1B#+t1Sk&6koRNKt1<V+I5{IxOeN361JYYJ4sSQaUXq*$Hq;+&QJN;b
zkwV51e>SP00V_SB+EgkhDTogc$PGU$1aF*>hv%GVxv;+WKPp$~Ea(?=$ij<VUy<RF
z*^tJ^jWt!Hg?E^e8b~dc<NJzoq^#u3^<u7iv>MPtMHA6Zvhw&VPw>M;oDU<KFhUwm
zX@1D7d(kj?b^?|jp^Y4i3I7%?CoC^+H@e_Q*C-Cr9``hQ$pS_^Dy`=paKW{eL=^XP
zosbUxD83$Spvg4-pqZk#{tv44Q_A=EROK%y+b<~Rr_`oTDc7e|^QY8P|C8$dlp6Vz
zYX3W`?^9~qr&P<Q)bn3xbhPFH1=epY6n%jHLSq0Y1=bg3it9IJ6dm}b*72#X^H;jf
zt8VY*<G(b!=Km~fZn$h%b5r$At9^SPR5|ILtG0@_o|${*t>bgY*Yx0rtqURjb3h@`
zXOj2-ni+kdUMs~}(Ff|JwbzHQ4X@eJ2WZeae|qkvwF>kB+upD+wzzvCF4S}_>x7!^
t>sZ@bC)M&)hN@mL2vp-k1Dud$>7KWC&+VR%EY>gEZcqFMPfdv&{D0a7ZuS5G

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/causal.cpython-312.pyc b/model_executor/models/transformers/__pycache__/causal.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da24ed6f767514fa8714b043329548d62e653695
GIT binary patch
literal 2697
zcmaJ@O>7%Q6rNrGd)Kkkx@pxUjq^+0q&96t(?Wlc(kA^$qM!yOETPrLJ8{-oug%Q5
z#E~oY5Q!kD0I8@#LL!_fN)J79<jw^*MYfhyfS?C%fuy41#G74j?6zq~^2|5yy_xs+
z+xMRL$51GUU})}-)nkDEU>j$6>R{^{fZIqxDWq@;uW>m(#d8e1G*`}@a$DG~d2-&A
z*TNpnm-DCm7WQg^Trd^P2`Pa?m?uFv=hMWL2&-QU<yulL9OBV9QUc3J31a`6%l4ZJ
zmwa(y>D&yFbvl<PIZS9QmshZ+>Y3QAoL<1X63eNJsvZM%EG-wQti?20&lKehwoPf`
zFLqm;Gea})PG68lFJ2hEa%pND1mTH%Mm6X($)_=;c><!AX_?5HhP8>wi&$1ba_}8Z
z%S|$;V|g-z7mabOV<H=BUXSx&KRu~Z3h_+HB}_~)CzociR3LaxU7UjBL3VsJug|HO
zwEa}}yhH5?*nbG*VwB>5V4e~D6%ebq6%TgJxmVB}r+AlJQf|es_?F!%&k9=PQr@d5
z9x#Pb>yalJ1txn&ukG0su7O)AZTTeua6v*ar8(O<u#FItGNQL`!R`z0HZtl;gbb#)
zMj71{5Gr$J{w}vxmvX3#vR=ocv1a`Z>>$z(wpM~U5_`?EaGn_ozgCaW^3d{(8n)TU
z^D?qw>~*9sh%4&o8|w=!+Zq-Q0?PvqZmdSTgUh_)a+ta6UUS>>GLm-Ue}S*v*g6Te
z9nQ^-HQUv|4g$-VgBxqMw}BnBRtFBd&9NE%j@9l_Djvn_l;d@m@yg4sv%4|vy6bcJ
z0na-YC1eabw>c3uM^-{{|5ThOj7BSYm;8{?^H7ut(^p4Ofa3c_SvQ<aXIW(m8Y^pw
zrezIhY!{p7pf)^~B;E#~Sipp^6gK^mr0QTTnSueuUBAfOYp7WIAWswt=Vq~@K!H;;
zL>JUTy|ytmy>g)d4aoEt3Q~sTiv?3usieu&kf32L5LV)5@LE1C&q`EX!lp2<Dhk%E
z4QT}}VL3opQiFHq5UZJagPI<z$(hj%HXyn}(P)ms2U6KE2w|yaMy!XW5LLa25g&--
z9@9;+HrHT}>|xdcNlHV2RFWu*E(YVqe{Uy^Tp?Ld3r7u^z~x65izBB_E{x!$rp_h{
zC1XCXCs{v9T470e5vPkrp4eNOG@9CT((b{DLW%4H2TReW29<EA?gkBYL9IWzf&TP|
z9<&_3(^v7ItR3jRGq&kMfm7Rv4+J+wBu1)2dqrrk3d#FIvIbl6P(?gc75gh<|7!Mu
zc<eVJ{OOsG&Qyi|`$GRld%PBjRwJ=WBvy?KRw9E<+o4KisMgtC?MzfU6C3+`SI6#L
zTHk+SJK*VPSvmj71h|8<;jT)!s~R4@A0DoC^?qIcvRv&NsdSChq6cnY{`_(^I$Vhk
zuSZ|oa`CY}pSf>|+kVvEv)WhfIbP{GesA)J;q`;#D_1u9hMQcoNbbF{?c)2v)6Zfz
zoas2S-afc;{^rCMaDmc0{T4RtwOW1oEP&gr*E(Gr_Raul^O?H1ywjtv^JO0XAvjh+
zJ)pIcEbbz#J(wXU4<V0O9@{BInNvsz!dimalFsKK@vvkomku_+$ftGZz@B!(bOY5|
z_f=a5Dy;*n#<%5f%J<$|ZyjCn*24Q%LSz6e;%;&nmL(C=Cq18-!8-iynqGp9BGH%j
zHcMmW*i>G}aUUyDUCv=B(V!$j3KlhnMM;9v*XkM<g@RxiM~=W`hU$5q#+oKcagOwX
zlrkRQv>uNL%#=+r_|Zc!Jy}Mz(F^~e4$shPd6O;QUwzD$e^2wCHY<ATKs;jlBuUAq
zAqKBeDnMr-j5%|Vl}O_05=m(6tAHk+D^ja=hhK8SZX1RA*GQxO?XGfUx09A@noxBE
zlQ|haX{1@1V!O@7UUHyls2a7}hSiTukM$btPl!bGCj{f`J7iN~C5ivE{W{K)*FnYT
zrLV%Y>Ebx<?;gaBagR{!5gLDprXHfVenpplcSU}2M;^Hcw!Ph4+fRFj9wS(-8~+DX
C`GrLQ

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/legacy.cpython-312.pyc b/model_executor/models/transformers/__pycache__/legacy.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fcf84f2cf46335dda96433f0be119d0b166668f0
GIT binary patch
literal 2531
zcmbVN%Wo4$7@uA5u6NgV67ql~4#c5Aw2fl7mD+?V1<IooQKCxFmwQ-kJY#3WdTnOb
zB(YqTL!>6O2yv*=1C^qlT7^T8{13gv5>?U_NK}XeH-}Jxdg?d3&V$#btK^&ce&5XJ
zncw%AKN1NY!RJWd+dsz<dcc*<Pijs!zJ$pl!YGTdfJH|ridj+M^N174Mqrd2sVHaV
z0Fxc17|linL`159O>xwsmem9#qSFXR=MYwx#n5wBpN$w=^}P$!a#_Aai-fXNv4n|Z
zyM@$*mAgn>oGRKgwwnTT${__SHyf^C=||j&A^3?4UwwMYJn`|V6KBtipC0GP7sM`1
zdhDE4E)xns#~Ifn;2ztSM=lVTl_&#P|J-qkCrWPKF66=!g%XGezKy#ud<R!2C@aAA
zMG+BxT_EA6h$C3S@=fuUvUME^N3nWSz#7(ZjL3Ou9_0lbpKHk~8qyH%#4RK`)z<XB
zW59`O6d~OD8fzQTnk#m_W<|Ka{nb{YaqoFOI8Db~A`7z_Asai7j4nU+NkHm3PO>it
z<Qt+NrKJf%J<FH)P>rUi14gTIdcwAtAy$=i!73Il4iL|R9qlD*7fi2Yx@6icQ<Ar5
zp2t`v&oLe`rD=~{2L8=l5CEzGAG8%jPG~a2vxMhh1pYUU0Q#e_h`go|p@m2dU6T>2
z2{rMSuo(ma)zH*t=5DP;XbLEJ@hc!K{vs?le=pdnzPJW<#$Lv7<bUmwws&C}&bgUr
zJAPoQWrxz7UWPlFTPJ(XzV?^*!LFdXxn&j^%D5p?o_zt$hFon4!kvZ~OcD#HtL>o<
z(ZP1kvr8^ZS9gWjCCe;TymG|@s3(L-ae`nBmC7LAr74p0($%mw)7WM?Y8P$S@=BCv
z!<IikUM?}4`!;RNsyfS+C<&5^@}n9tUuG33T3<Cy+qFH@^b_o&U2dinVZK6UJZKAk
zJb+ncf_W5BUh06xJTNy?%GZN~n%-=g_`1!^&7_W(Eexp&-31Qe$3WxPfccCe`4S^e
zew!v=GtHc1F=m>Kr&TJIy7KR58LwE*l<o4cXVC)jhG!}xhet1tkc?wbWXiMNWXa9&
z<j#aAATuOa0V+b3WxO2?FB5jPba|F`g8ypgj)F{Yk}wPwb``|4E9kD8Sculu?xnA9
z?_N>6@2JNb3epm*YHwZbT~!C_>cC@BNwhqPsG8pB4NN_CwP#gL)z#F}zB}q$4gE#5
z?~a-VG<jgjTOAy!500!39<L7`U+FzQFa6NEmh4|m4%L%GtI5%Na&%t$Q|;b>)1Yx*
zvt7sv9!y``3@!6J?Hvu*gn03e>nDP>%nULIVn&Hqp>7Upc<bX`AgK2|OnALRwr?4?
zC$zmLf~EP6Y~#>Gg(|4k1VZ14-c}!2fNHx281EIeNKLvWE;nt^1S8{*cndHjx*rDm
z1{VjoI2fWyKHtkl2M9k3PtmkRv7yj?9DKzl+7AZC?*i!p2}4tSp#h@Wu`|3)PiMiv
zPJn>uHd;`;?fTKHNAJhGe(GH9G3q_WuOHTXhU@X+`7?K0I~S%GzFphh&;JJAUF#ie
zXsE4!1IcZA1Ie0B2f&XZj*lC0UPG=`Bv3=TX+kDe96pbm=B0||gciza@OMq-dFu|^
zaWQx_{Ros*kdVF%iJP1BmGIr9JX*n3{6w=da>Q{=(-6X2b1IL87v?RCa>03G%OIZ3
zp})EhHdNHzzt)*tk4k+yTzF4vt*b9kp0vh$lohF~(T7e79|@09pL}?!*5JeK^Z)Rn
zaZ*5I$Aq=vx7TB>vVOm#dvWZ>*wTS|$DxJ{0MtTf4~H62uBoX1o!?K^_l-6*uIi|J
z?_%vnZ3)-+yxHIm8gZnzUhiAzTj?IEYeP>HfUP4C0g=J!p(#a86PI#8o&wDTdIjY<
zN;4q*6lX2{e4U3XOIJMGVIjqdU>PHqD#Xo^fJHxe|I$0(KTg(fDE#RZ_pXkGaXUgs
uLFL@CLm(OvK@isWBjJOGDD?ovAENi~q2a$HZTF-@Pn9u2e~dr`e*Ocg;Bc`3

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/moe.cpython-312.pyc b/model_executor/models/transformers/__pycache__/moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..52208a0cac420cf4fc533576b422affd7dc41fb6
GIT binary patch
literal 13223
zcmcgSTW}lKb$9W8KS&S+pMoU5K#`!Rw`9qBP!H?vhiW&B-4%pgk|6Q&E+~mC=rS3l
z1QaKxCdr7J@zipf)^g>}sO@yBOfwVr&uuylR+NqP)}F{sGoAc&U{fBa`Dl91T`T}n
zkkfWLy(G?_d+uZJ-h0lu=bU?g;&j>wq`2Xmv8&q&`8j5^L`xvEa#Tmib;6NR!ZDmK
z&LniBx`cjI&tP63H;fwS)0i-gnkdZ>HzzEk7K$6=)`V@;mavc7Y2FlfB%Gtpglp7A
z^X9la;TiQ%+!FUD8b%u^ZjCo4e4{>!+u}_L|EQnh_IPt5FdCq^Bi@o|9c=~N$+_Zf
ziT2TUhVVMU1mkhXI})9voea?t-ZS~6_EFU*=ef<OIUPAhIPVq0HSi6$^(yUlx#DP$
zYvc`+hpO!~jPpH)-t-u{pWnbW*Do8hae*s_(T)F4?`nZ}b-}!}a;-ePbDZJ3_`u`|
z?aQi9811QQPQxb8Xjt_*#=O&Z+oa}k&S6H|VMaT6pEjeTeKYz{=j>DGgh)~xO9=^H
z5QB*n$H!yI@!*9>bc#=M!9?tGEE$C2;OW@q%(TD<Q)9s+m(#qE5rciFQ%6E-8!`M#
zd|61RIM03M=_BmOQ%6Ql9zSzT(H~6CoCz_CW1P=KG8uu5Wq1LqVV>pE?6{DcPOCY-
zoP$!=(Ufp0B5)(AWQM<-Q5vx}i~?zFR3$>EmXT>OlS-UTBYt#R<T)G>qj<`LJv&w&
zDh?nKnYqBTX@MV$UB)`mX+hwV88#h{Wbpfe*22XEKAK?#emo|^IN2!epG~EIiM$Cl
z-0{>n6hoURpMcgtvOOP<Ct#psv2n$pshLf73`fK!QhZch2o+Z3_}h?Q07>S_C<D^0
z<Csx>j*Nj!U$KA;>v`j(qqd=nbB4#zjgO(5cr$0NUj}?`0p7FZ$Yo~K`Wy*a6<;ks
zXj3}7L!IcLMxY##nc#!9wIAW0aI`GZbmT^WZuqSr3xAKnFV9rU^M*Y6mVuBg6C+vO
z514N=phZZYu%PSIL}!M%Vwuxt^*}G{1wv+k>CQx<X(i!{8sWDx0o{L(xelGq8S=Kt
zN`)#iXUrNWD_vFT9HS|tEcx>Cshxxfa~XUmO`4*bEDN7T$LE|WYnrsyQdC@PGiQcT
zYV1){ZO)Rl2)2w<BWd-M)(lQ4O&V>^nl)#wlOBy;eYOA!U)xZnXc)&}*;F4PqV5Fw
zIs@&Sw6f|mYaC}dCTrFd$cr$$Fn@-uaZCrSqnnLA%Y%kU2G3_w=_&RS9~+;@i06Z2
zLMjnFKOV_|USU(yne=q#d@usK1^CAntVwFS7zb@G@j(!5f#-steUQ)Mkr`eH@)02(
z<Atz*ToJM>R+hdBnkWV_Hp>e*xr!asN&>VE7s*7FPShOHiRt7Ni#0?x5*1RSh^hxf
zbxQHYL{{Wqp5~KLP!16x5|8t7!3_NfxPpokYq7CpSy36qiAb7P>`;w`PnzI`i!cu7
zM2zG3BrAf7<3+`}>SGlH4pOm$vH>j<iNh!qN9`0T7VRs9R(z$A4pcGX$kK|9165Rh
zyFujRW1<}@Ri|zK*Ut`R66v9IEIpWs2=KXsm#25`-Ziz8ABx8=45eo>6RG6TMNm>h
zRK2tOWj;C$v#Vysp<0~<G(Mc3QJTw|541B~x3TGDG!siDXP>N<cugIIS(u?%hGoNh
z<EdyQE<PE4O#96+cJUT~U(J(}iL{4ur{w0g>#tmUCHK?=ck^p=`MITMmfh=a?kjHG
zE^XX?C$hY8*FE>Hk2;5!JGT})_e-7o7wvLjV=-_@3LIJv99}faf%alxSPBd;8b2J`
z_WFyj|K5)V{x-a5lbhR@MvEQWCHQaNakuZs;U9+I^GbV8-fKQt@SH3(pOicMik;h}
z&TV%l?u@?cefP+6=ZS0f#em$n?q;CS7%DhID==0PGQgrt!=|TLv@aC`Ko>S)p-~9I
zLovYQi;8Iq_NZ}@mH>aU(Rc*7jTKQroQGAL7y7Yb7{F}Dm(Jw?R1xt7|1nQKvN-c*
z$r4!VDp*1{d+u36a_^>`;Z@f|gVWky>Lh*pbB6aVT>>@|f(W`1bRobwS4;vG&Q*#M
zxg42k<zE1RHU_As$%@w1D1=Pbs#vWa_OK>pnXIm!lB?;xj*6?OTm5foTW3eCv?Y_S
zHG_fd?ee%mMKQBqJDyy<Wu50$TP9pKE<p9f;_=`_<RTAxCng5P*myF6hELd5QC2VT
zK@iF)*dn0EW`ba#2$7(=?!gOuGy>Z`YOrV|nM`GZm;*(T2!gWU!y$`e1lfyDDEd?y
z)E3I65~vkHG#E5nN6}?cpa_zgty>iHSUeR$#731Nn~Ws*GVj$}amsO2O;C=5=BoKL
z+g_LJ%B2Tk#>C?Q=E*}J@ie_Qlb?C*mHaD3_YTRuLw2;t4&Q4h^Cw?7zG1&%Uv_lK
zj=*bY^JiZ_^2X^Kr<Wc5vcrS<6|2!>D-omBMp-gsL&?Drv#erc;S;&(IN}bLeR(<(
zFPE5EmP<uhmWqe44ThnZ&hbexB?!2R!d|2}%R&|9K?k#MGr}-XMYJRisIrB7mw*5^
zG$K9?;8$13Cx!zL4UNYArGB^3_Mo}_diGkjWCR?vP-Ecwz_o#r8FLl_W$|nAk`;3{
z(&#VQ5pxim`?dCb`xj2gsbWUo6NK(-WbFyeZUL}L&~Wf*WvqN1K&{zx8}gXu3|T`x
zq08!VXNFyt$r`Js5bWah1dr4c9qkQS-R-haQ$cw0Iow|9)>^aeuG(yIiw0dDr<Een
z3@j6xeQ1J*f$!*6>rJM>98aWUu$Yu9MXDDSN4X*!OQhq9F&a-L`H*QXo8n|CZmnwB
ztf$IU#J!g?Z%|!Ru(F7N;5qn-`vCxhx=8Py<(?<z&&u}JqJ2QJ58N7+?7QX<%S|2g
zhp(J@V0Rbo?UKEH>7`=FW~pQIa>tfCr<Uyp3x<Pq30Ex=E)ZQL)S<PDRCi&Brgfep
zZ!>2?I+a^(d?KBhVdJqWK4hr(xgxRxewZqh9gh=yb}TZ*3#XuR1b!m28ho&WIJ`xB
zn`CcWI=yV~FBtk&PQ-}`nG|y>O=XNCxMPFUGfhnrmhMef>{MM62Pm*~Bom!rr}!DL
zP$J`E6gsISjlWjz0%^6A!s%XzFau}cjJ$r#K+ST~6&E-xk8v_MOMT~qv(~4NnK&Cb
zC1%dfTQ~=A88dKB$XhuVZ{zK}9{w!&W|R#4jp;Zylso81Jm5MxsXOBWKKCjXa0tN}
zj3pIVCdH(Be~KNoF8Yz+vk7Pr3oihucq=F<6_Gs$8R|rkNz^fG5=LM&!D2|JvTtUv
zJxy8iEilq?SA0ibtqER>;moXUdw4Vaas0*2vkfrPvM(J3TO*wkGQd^83w_YRfeGS_
zPVmtw_98gyV2KHXScKal)t10+XoXZ8sA{pyZnaj2SDTWG)iw<cMQja5nQU<sEv=HJ
zb!l%QwC}#<$$zyt@4Gs08YD~j?i24_ELg(tTb`$Er+C!OlZAbWV=u<|OG-1i$1zYE
zV3)J$i5ZdNiAY*$(hAUb1}aScbTYF_{*dLU{AB^Dl|OL7D)S0O<)q2qVe(QJAumFW
zIRka)Dl@Ou1lvVp=PHSS;{t1v)xX1N76L<F?J=nSB+fQ&!|F~O<1Pzdg{H!b2wnmJ
z<yJm94KWii_!U<o4jzYAT~y3vqe5|s;C#RbUr;>*(13J}R`(^a(4k_*K2#ODR`;P`
z&Nf$8ZFQfsP$(V-K-EKN%bl*`mLt-ZBOmk~l^k8U(@VQ$M^n+!AvrpVjseLrAa`z(
z*AL5m`{kY|N><_={G1q_u21zObc|7#)dwF|T|MnvT9Hbv`$x*6xNKTNoG#;k0s_7_
zspofRbv525lO=3Lv|vdHPKcUdiRv1jvtU9(y~=x`mPKn*eFAI176SnTSZ223p+lc~
zw&I;b%L-m?2{kG#lhxPrrY9S#wKYuJYk`sWAtMPVpd@4y#^53F0F*{`5>*+|X0{25
z;OkB&xd_Cg%47i*zY<73X3mv{<Rj|<-Ph^o0`}vbPJ=tlmpf-cBsGPB<Dw%}^uU5^
z_NQRESw)u1gRA)0v!M!K{<f+)c#(+g3Z9>hczi{7SaOF8TTb0`pDI{R72K!fu3b69
zeam{e|1ds#<?h{g4;S~Ili<Jm9FjK3jm^czp8JhGxe<BOk=)3AM<3L}=LWf_zu0p?
z>N$Y9jk3dyc52ZPk{qG;9h*M25?`;nTT=6^!f-Gk^hYSm{yQMo$vDK(zt7Ae>p^~P
zsuvE@7Jd$xx2~U5hsEkK?3{iaO+f}2cL;PEjA_m|XPPsEacEyV4nnE{p?ZE#)|fRx
zC<ry2?sl2^HJu3zI&1(92wS9n_8S$y=4l9jBt#n9D@Shzf@A4j;LBhrCkP%-oEKFR
z*n_c)5YkB{%j8NYeHcVZP&;Ix+_Iced54X013`$QKp;29g(}TL`jB3+Lf`~Lw5dtO
z%B3y=ha+m9PE!Ob=q?SzZwvgkLe2!CY6uA_7WK&vSFnpAqtY0iN<-j8>ru6gRAQxX
zmFT54%WqLhc9cm?5@Rs;;I}!{@QG?RC~gca)znhlTJ)%FSSWU?`O8)Y_Mw=-RfMRz
zfQzZLCeRuyPYRth5#=%sVX}}#4Jp{@z|c7og*j*=&|X~SHs#8~%UB{H5CMp&2+_jC
zq*|E`IMmgRX4@)q`)J{H>}DRoJo(IK^xJai{xr80{k@XEx9Hy~`FAe+cjxSKu&Wr{
zCIz<@g9oJGfnxA^DfoQB(jm9B<y`+fxDzBVcYJZ?X0PmMEjrdqj`bgT0!7bO$+K1N
zgDq%S?irMWo8<oe5A7yz!{>U7(^b-w@U9ZLo}JJUmDh?{1_L4(*QBEQ89)poFBlh0
z3+4sOf_1^RU|(=7I2T+C?gh_+ccI}r1d!{A@Eim5Iwr+rWsksDsYw&<tIkYyM}Rme
zryJLCdMy@u)tmRutFcq2o?u_Kt!fRn^QzYNyj^X*s+Nf}LoJK;4p1(T!+rCro3mz6
zY0*^gkN|9Au%WM-tMTD1!`bs*&M^hHg4W|z&#H1~&G$G~mAGn38aVe=6U-m3#F|t$
zwroKgy<R+7o7p)%=gI0X5<$;-ubPr3u7T!sTqAu?^O~1HR%?0H3gf^y+?q6rVbnG0
zs^u|t+t*Zt>}2Pow5zVndX1{Re{zFHsXpfn<9KX=P6bUgSFsgn&Zm`eFeVmVJDT#2
zc^&6SGI<A3{S~Sca+NvAJM%8wLV;HKZul;Y@U2N%!z^$()Whkg3EC32GBa5n<k~7_
zF345R5;)(Na~Ic?*`>7v573x1<;*!t&YH93>^VoynRDgbIZuw{yt#%kH|M|NxN6jq
zyb(saM{8Goa?S4qs*X`+uU3+8gd-u)dfIF=1P&})W?PR#q&Y^z=rl3`dQ3eX5W}i@
zRo2=pgloYKnZj^enw>hMG@*qKp)?+jI=L8b3m9itypNJR5XpxP3eN7zeJOryi^_gA
zot{GoNf_}eC537PmwW}k<+^(M%E0L>S_eQ`n>29*ivvyJN-=z{VRqX=juRow7=%d7
zAR38Lh}xv+m#b$fcp!ToEH^EJ*%vw=j#l~rL{oGt$kny3ymq37r;c#`ht`1Z*QYA`
z0-S_SgQt0s*Umeu!Tkuwv3LTaj;BgLed_5KVws79@%XcJq>s$XIvBzV`n2d#*Pi}?
zmu#p#{R5-Dz9m&r!q7=MW%Zg}^IX~FHmJ@qPQP#gfYPHL{#M7#!afXPMGQpp@yfZ6
z7ET4@OADK;ldL+^xURUXmc420e)in|<$P&t_*3YahW>vAq5qBzH(t2G-r@=!`|gZM
z9s3rK%5Cf3*n4AdvF(i1cILf{%WcmWe5y+hAFvO{j`u5s{RrqB971daKuwqw4$0T7
zmaqsl{t0WLCV-gf7doBy1*Sw0s;2XIq2LVd31Sn-_X1KxWHHUyaII#J*)9L`3Hk~4
z*#Q82T9e-S0&{cgTl?PJ_mChCzC*`gZsc31RcF<Ohid9EAQ+1m1l*Psvvyo(qbF<X
z9RoNaj87}3@pJ~x{}iiuDK;LTPDNsh5z42A6~j1><!WeJ4G3wX1AP)?JSx<?(DHCo
z&$iZyz&emLZFQI|GB16j9GK9}=`+wuO&E62^c@)caO{tJ`XVDltEb3WeWv0v)UzkF
z_R#97EXIfRb0$s)j)JM4qfi~wOK^rvLnW3uE2qy|E&@lqYUd1dW`-mg1Ihb^UWhK+
zwXs&8HGRPTMf<QpAI7Y$+=uR}pEKnHRnJ=Ov1&(fff(V;dEa*!*!NlhTJv6jwtNFX
zd)^Pwk#7d*<a7XC`9^^5d@DdtK2XozfD&)k0I(tN1lX8&1N7ya05)aK0R4H-ci<|)
zoIPuY__<a4noMQSg&>eAYu6MoL*PA?omZ<3_CRG1t<thaP3h29m3_5Zqi!qvs#fjQ
z+8S2B)g&s;HA!2M+8!@6lfgCBAj_F%VcnxTwqmovI_nmhSD($=>)9}z39UrY3#DE4
zdZVS-9`?Vyt9B-UmIaz4tIrzVY1X)u0q%Y^M?-5ZXQ)Cxsu(WBBH}s4xoShD(yMwp
zd3dp6*Ur`PZ2y}`aj9Dl>^$OhJR=Glk?4UVHuZ!YwrrGm#Zz_6)B<4%D>~q;2_h_I
zm+S>3*{Yr_IBdzt1vtq-zfE<uEE5rt#gPgi%0ze`z}qC$sJPH4gPTYbu{a0k`T}0f
zP;4<VmV_$+aFamMC6kKnG(F`y1?TrLAliVsc|4dPBE)YVH7AfSg+E1ryO!WZK*K;L
z@C(6lRBSa-M$HW@yXs1<m#5KO_>!77=1f|(ddzUy3eBHToA5{Y7IiM@_oxoAL&a5X
zs95okjuxm|pAPSBXs9$)%&m&suQ03{60Jr86sLL@O0%aLU;)=y7s6XOj_)D3g@8`@
z_YuQ|7ybl6#RnGt7_+$eYD5*eg)Xs(CN1vKTAE*-)YGINL#5dr|DBEL(Qy(``r@wv
zz}_qmY$*;Llm-qK2Sy}M-=b~l)JN@oxBPcnm)rL)TII%$n=Q+Y{qM})9r#DxPo017
ze1GWq2d%-y5xKK}@z{fPU5ii2!@G*Z$ED%p9}J(A0)vG>|E+^^+xkNH&U<Y;;gEmn
zsSn%Nm&|0#DdtlL3G~Rr+ls?Sq~RkU3?Gx)2ba!3^>yJp;d|>2$iq8sy5KnTiM=-s
z_k%k>40e~CWXn^`Ll5cR{TXTK_J7zlRMNxqlg^DLBRoGfk?zeUGh!C9X>ZAjn2q%9
zDA^HnV5t)^59uE&c@b+M{d-D{i1|oYxYPt#$xk5k*1h9i_l{CCmIO#JRBA!273;Ji
z){cF3Al6BS4l|{7hz7}q{?dBHHsDJ)0=9U%)I&CIUL5)E$&Y*+ZyvvO>8|s>@8|<x
zpy=zBe7!|qSn`E$iT8b5WnbX>*=uKuzJAHqe{0`;-)^9+sx?;}Ix7vGT^@SozVBJJ
z@Sd;t*0AIoc;DB%Vj=DQa-h2y7=)R>!`urD-+8IH{e-mr#Cy-&-+tzkK+jF_gTSUw
zd_6a_caIl+M?VGoY4C74Om3vMBh?9^pkl{+ikfD51=;Zr5Ev0qF8*`C6qBkF6f*=}
z@HV7kDo2x?5x5cnS0mw=6;zvIjHfQ~g7AmfdL984iLW6RLx9GJV!M<Q;v5xYswITK
z#G=1K@Yh)GU8@8|VFC+z1Y=l(>L9%0Q+0KOJ6NC>GlK9g)*HmE_Yr9g`BcICJFG*S
zI4%jOq`)zNFA@F*=_qFZTd}T4v}$^T%|XtiOdnX4%9i*~pmetN@$&o^P%f_15%Qbg
z%##QH)}p^h^7rKIAS`vlS|54Zm%duqbl~0ILjQ^P4ljG2$r)w0uiy?AEJ1*>e|^zE
zDES9-c93@2(OhU9E^IwoXgT(tZ$+=`uoWyV(6eWK!97s03;=v+A)RnDqWOVmgY4-m
z8TAn7vJj_h#cA$@+N~uIX&t!rvedFU=PDU2*1;d>-m<=FT_J!z>>|ybOH+kSPu%^T
zcc1y;SC;+9;Js}dZa#6xdUxA$+kt{5@KF<t_}0K(!*bI;2-ca1zdZ-npW3ef{<YsP
zHgA@iH{bC}&0CAjyQSvc%gs;Z9J0M}F)P_O$}L^_6SC8{<dB?Qa?85h325EgS!~%1
zgIR9b0^?EVs9*B;7yUaV|BlDU{T{+qign)!7aKN74V!Z22c1ET*|*89?Qm7eEo<4%
zbt<`MN1^A*H@$_!G_>C-Zww<nD0dANwj7hXj$sbY0>Z`q5vhOV-Ahvc86@?}8wT;Y
zPTsIheRl7`=Z2DLkM$Vy1L3WiH)l!&@gHscf<9HaLh(;8GsN1qwC#;OH}>2bf8VkL
z4mj~{)%y1>8>veXa<BEF{sH+oj9?prg9xGk6g|WagcM?iIPUVs%yc@=t73~hDI7vD
z0-(n663!tJK?VzOcLQHb9y#(E(Hp_n$(HEz?sK2hXUXO;x*oKydt>0nK*<O=EXao5
zx7y!qFPSlCA;Io9vNy6TR?M|KjROxl*O!d&go@pLD`vzx1IEsqhi^6A67P)MZM+*T
z3>}n0hor8N6#^w+Y&)$pc9jT1)z8Dxg+jsscqpdK4927dJ!I5tINOj6mli?L!^xyT
zHJcZY)WfPa3&WkkxJY%M;-PfB!zjcqprWDIDpdvMqh)LFe^~H6R(wSVEvIT0A~EWv
zMeSl?DlK3HROzZ$M?FUkt2PIiKWf0eyIxh=yBMZHpfR}AEz%=(CHN(E)vu!_pNm%0
zZjg(D3y0*VL|Q9MCy7;CpjWLJRUAz_^%_EX&geA+#iHFjr}vjsPNUqn6YA6JAi^`)
zQhzQo4rhZr&xtHtX9ul|^ULvUO5kAMz~vME3<2I{Q4awud*M^z($$l~1E7KZLc}3}
zB|XD1u>CS;nSUeQKPQflNz*S#|If(IpOM2KlPw>U-5--f6mI&M?EMAV@QL2@v7rZ;
zOV>CbC^8Ka(@<#Kw9E`V)b%p9rCloo9xHmH8!REAbdIqzhZq?yS?#^Hx1`6+16Si~
z@qD~w#0>PLUBIGQ3-S6&R*Kq)$-eO7*Irz)(`>tm*;MHV@Jcs;*YtupwG+gueLxP(
z7p7Hq^vG~=tzmt^yFqqslD+GT-mv5i%W%Uhln)hc1Cni^U=4rnG&8z~z7u+;tKeSu
KIYER@=zjqXU!5TU

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/multimodal.cpython-312.pyc b/model_executor/models/transformers/__pycache__/multimodal.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..35a8f07f57b236cf58938922910e7d3bb721e6c8
GIT binary patch
literal 17102
zcmbt+X>c1?o?ka^fB*py;01ytcoU=uiaKmvmUUayK_8OWF~<%Jv701lfS|iUN#uYt
zo-I$7O1x_+n~kKbt4w94%JkZkQSxQARg;W1ldViD`G6kU0k+HDm9sO+I+YKU$yty0
zLz3VBbvFRQlxHSsix02g@qgF<{qOdF_IO+zo|NUEBx{dw+~3fP@!0gt#xp#}-Q)yr
zoD+D#l;YE-aT8B@bIP2yj9XaVlCq9lQD#lq()MvXE3>5>Y3H~z?HYHncYCTP?H+ft
zyd&jF*N)e+yffuZ`^J4~|F}P0H(r+xj0e)e@nE`syq?v&QVr?G@y2x1coTcCNj0ZK
z<DqoRcnf=Xr^4yh@m7}iq}tN$<Lx{rTBJJ6r#2NycZ_$iI&Z2o-8J6D^1f7ex@WwH
z<^5>K3w3W>#(PcNQ=AZZgA;;c%ll?+2gdtYX+26C#8$Dd8O5c#epc6rx+XDHRTpJ-
z&8Q2BF46hEMTa-AV2QRY9=s?eX64C@lolm9lFkTXDmgn9xs;fARh$(f>EzYqYy{Pj
z^n5Ct972Nx)<VtX*k=SO%B%MCiMcuSLe_Kf#b-{&kDoqy{Osu1Q)4J`Pl?$?HY>%G
zSy76bRL_O^xw(v#mCrwydFG^AS9&G*=LtN4c|lB0O`{C}qZhB%pD$IPy^@fo<k75{
zmZLVcu3T{<kxiUPPGl<^pAr+<c}cu5Cr)fBPKqhvcxHAoIi>o_5JqR`=Cg7o%;%pU
zJ;7l5o=GJp#OX{*5T)l5vr{6L5*SS<ro?BY%!DY*8Hr6v4V1yrgtU2@)W%~8Su9tT
zI;nM3p}%4eM`tH9SZ@QBo|sRk7qmGYn@`fns0obDVk6U{kW6I7i{dN>mQn0JmdH*_
z>&wNv>vvMAw6;RL`AXoPp35dPv+`&E2T#<ZI+L{Icv6s6=UhfkvPw0WtQaGn)do>L
ztgRdu)0ad+p3u-pOHKOA#sD%mIguOZaZ^nK{{}a17EDMjf?2dqngq)mmT{Y4MTvdE
z7PYHQU)d9V6DDxqOAo=Pd$2)-0#pFdll%qlJ=2(KP0}H}$Gyj^7FkS9%G59N_b(1-
z({saf$+@8{&_&D+U7de?|Grlr7l%{HOT%*u+3C#e@MY}LFhl0JcvYO3&t@d;RUXb(
zT#Ml}As<8i*xZ8J2yk&(!(vg0r_=FNGM&uIi#s2+me?bD?8j7PH<H)6qOb8*aQWML
zN81M8xe5K&Q=YAyt-cp8wE7%3Q@J~=5vYOwOFJWV-~|UCq><B!t8unV@oWaST8^5f
z9#pG#S$r*?5@%H>)-aKopUuiLjT4DPBpON$vEFG0K<gUEb)=h|Uflh)iv>U$wW`x0
z0F@h%=<6*s?^2p~tu^n-d-vuYd!>FF)Fz3zva?&xpSS?qf&YojP44U0{}QleiC;3I
zRpl<CCq2e4EtyfT(?YFAOJ@v@Q&BkMsCdz{OO~8vhViYfbys;Ad@0E-SxsEdJVU2j
z^#~T6pee^snI`!ppR<0S{{w!>ma_>aqUnN}(j|M&eu0Zx$J83_<mBX{D678N`Sg~f
zl;~ziT}W`3>b4#>by0m(Ha!`iGpLkmp2%KR-5S<UXe7{IMsVN(qly8XV5v|1RYr5w
zP@JIA94b2KIOWiA%6cU!WT#czG$Y_3D#p0dV>HvpkuY@Ada3S8yp(C1fqd*?7$^}v
zSseO$RI9@7C(%Xz$4G!=P2ob*u+lWV)--a>vus_yTnsi9f>9+HT?-B_JB#7SJEw1-
zE`&#v@JJziTnQh~JDQ7a!-clvO55?DwT<4F@{X2baNqUOLU5lF-1m?()w_zJ$V$(x
z_I%U8x|v>MM<3GfvUA<WHFe}Wb}Nm0?mnwDKECWOdRqX1A@&x8#`H9VCJemEE$~s(
zSk&~HuMc}f3t&eobt9+IGi^6^;eB!NH{1<6{xbx?iUfP%ZDrFKi#k+CJU*L9i}ASX
zipPNo^C`-^<MG$#6Dh4m!b~`62#IP2H(&=L(fHcT=%#9OYNs3}`|u~XB6)-R+{9bk
zKezGL$JT95Yj|a1gTv2818;3(b71W!(6sb8_1wlw$W$^A(JWesaj>gl5-pQpB*a3T
zoZu9!B80syEo}5A*!A|7MLRB(NwiNo1jifJaR)>mml`f_;8!`Uv;z~6Vn`+orbbhv
zJ!Ayve<1?`#BWD{!In(#>%AEHsf0jK@XQdTs;5kn1T#p+Z%BY<YO28C)qr%Fll<Eg
zA0k^h(;{YZfy;Ug2stx|lGP9=E89eEV^SxYF+!u-ro?nQvD+X@>=LUSFv<+Vpjwg;
zUZmY<tvciJiBv+C<8kQ-y<1b6E25-2FJ+P%Q&8>bL2_Z#$_NMBchyy*Z?bfdMm>#$
zA#j-{sI^3d1d@#)nq19RUWl)rCu6<k#!nNxED~IZ`nH=d-*|cD@ztYi^|58wgJ9Fm
z(HpquF(nvV3+@DYs0mzOC^QZzjRS>7T<YD0#{Ej;{<X$~O3lGysH+efQbI$^XL0R)
zEw{!MZ(rWgw`t~DI#;5rFW)=17J72|Y|$Gss<itj4PtoJ1^SxNWHG4;1rtOFj0ae&
zVcR`qfNiE<i)|J#v)>Zi7@M?$@t7H|Y$H$z{QG+8ECjA4I}<!;ZdFgtnzI3`>>rp7
z<$^?zsHFmPq85pS9q9li&md8qnaiRiB?VDN9nmT2EG0x@R6pZ0+Nm)HAxAa#!uC$P
zqR&xl2Fa~ScyW#Mc=R`&0eLkBQyNVE3Xf6!WqiV+2oTyAV_!!iDo{#q|03oh&mei7
zTX%B}?OXAxci`RRon)c+n9_S}t@niD=vsDPPk*}i$y)>O#BRq{8$S$<+`qW&1sZvR
z*Dn_82bKE4Vnb)KvAfvPQw&Adom|6?4bIw7yKc7oT<e_O>0-F_9zPa!vI{01rR_LI
z36Uw)EN3O@IK4hgiHj1NWi|CaNoACb;ZL4M@&>nVa#;IU?RU+0FWhw~{rlHByx#*2
z$Ip70d-6E{&>6709{7XnR{Ubx!IoRQSIoEeDS_^FI~6&&`tYse;Dq_`ZY8+qZdM5%
zT&GU!F3uI+tU*p=1T^#(M&LmKJsW?8<oBvr0Z2KRfoRjoyBUPt#xx3tU=<)gZK<`h
zH>cJX?HphmE@BsgU972WS((>cTb8*=UU0qvJAsn}tMLgn7}q1#5*uPn#VvZP#`9Fd
z5nQZQt?1KpcF{lS7QA3Wb<5mUemsB+;;&Q|brmopsSaQjiP*B*P${^PqM^%So(y!h
z((4w|L3_s-710w-ut=N&WpL?YRphDUWpOr=ofab*DLIv#C3U_+wPyn}g+Du;WCnpm
zDw$m<bx*)3aQf7cF4l=cgzn3Z2qpwQl7XF{Ly;&)vY7~!1+px}T&3<8F)rg0=>(~o
z5lz+ym`e-jOaqG0%!CMX^D>G7M1zMMR2TFm4ZQ^J%5-vK8hz)$YS`eXPen=+XDl+B
zB|wRk3@BC5X#LupGm|B7mAxa$$ts8uA%kVjX0j1jB~lACP<k$_&yTH_*ii|XHr0x?
zpU+4l(V-pMN-MVkvz(Bid{5vsuw+3b6+byEvKeSAFKOo$1K<c@6rdiE+HvFOC$f>q
z0mgU_yz(v5Zim>}YN{)nP^{XH@k$9ES$V_+_OluvVx=ZynyO*ZSoS{zib-)wUO^%g
z#u1ijx?_ORaBYv`I!-M1mFem;hGG!grr{jHBTfT?+ROQZj992nTnBAeB~l_aDUFcb
zc!;($<bMTx>uaPm&XCf0lH@8O=#U`C>6{O0B7cH=%Q9g~LLz(__n)MrEaWHc*-ly`
zDb5(-4^3~jSfC6p{T6+4R>4B5a>XdLvZ_Zg8*@Z^>u=fK_FJ|$QTv?r0``E%-;(7D
z6wWcV780B|OE($nzWl1{FUfE5IkHEIG7}yRHBYk~skItUo&xueXQ!{IwU;3VWa7qq
z)T)~2GIN?xK>D-lolGUN@k!jbxTXi&FEQvs)TUwL1X^jBI7#izuZjyy%bX-TpDdF^
zO_*umW<5hW5KygN*LfGCkHpUErr!lX`7e+#hVQI<%X7_>Z|GgMeCQY|hI`&QfBSrX
z;EA>HVW^W2Nh#d0n(JMkHb$<S*Ug;A_o2VH;D1c<KX&&@{>Zay{^u0;bH&EUx|MU*
zt#fF)>EL<}6uL*1?$M$<kgxCEFq?XyVP20Zj*d+i*LSGUdtB)~e*dYp-gC>&d|fBR
zijR8_ZdV#TT!@}hqNna(S&KeRZF>|)Z_(S7cQk$Zc{2uM0`_X#u|Z%t)?_?%FW7A&
zq3w_On;gl_+H(!^=I`SU<Vq4ElO|0|W-@IE8n&2n=1CLSoO$s(B?2-!OQZ_MH5tqz
z!^qnuSUMw&X6b}cX90=SmBa$5w;+`1{VN*3Al}EQVm!MrCzAE@6$4s{`ZLB<8uy~w
z^r)^d<XU0PgLdL&XaOPv@Wj>()r9DrT3dq5>Qo=`ob0renV*_wCDJ)GE9ok)Yud4l
zvc;}P;#GO9Kc>zjNPhJ?x9Q_{jJ)@_GI;F%zO}(~ilcwIHs91=+`AvYjU$R<7nJ#Y
z`*7YnoOcW}+Bl}#G*YYD^~tLNwnNE9#%K-6fn<yMd2HB3rItzJAv<Xw&J=Xh@;ay;
z=-jqu#$1^;+F;_^Uhg1YQ1uA4Nf^YKvCEz<X%RU-TcT|S&6NE)`*zxG8QYe~1Zs$i
z731W1Xd>pE<pbW(L|($WmK;mYC6{2zIiVK=JE6^(muhm(nUeln29c{VsOpkC>o>}0
z>Wp0ZH|G{Cul7Ud);Wb>A>nYzle5j#ms=S*!I~wW#U5jwOSO;KJyHm(o|#Zp0bXaq
zUoBhm=Dag)Uo9`0C4E!el0VyFw8(ZDxm>NW665y-_cE^jQeCcgrpIVi{>{}H?Un*L
z|4d)G#>nLYGuWT%2c-kmWgItI!YZD7^N@uDX4z-R7E|>IwSq0@huPG}FewN;t<MDo
zJKOt)T!ZwZic=#qPSun1<Qhu*-&oOhXH`SI<{ZWfan=qRVTOzwRgYnFVKZo|fVkc0
zO%<azXZISQa*erWV^)whLT@!qn5RhI08L?(HMG=}CEF=`av^;-`;C(FuQ8ikXokpk
z)uZ*xHDPawp;tYG&0n{|51fXD=!WUdF-SEnOPH5n&9x-?rTU7MZ?~60!9_b%+EJ(A
zqA6s_+R2`oBYLLdC+EZsIbKnqXHi~~u#A0M3Zw1GZQ3%5kh6YJW6*@9*6dS8JHefE
z<ifeuT>S^0_d)&W(WM;oQqxiha*lWL-?=pDArjH0)~zBk(@BT{T@p1t11{6c=gyt4
zko}J`jRE?F4gjJyv>%ORM@VgmkYZIScoPExOxPx-p)!;vpeZd`^3iH~!RQI_Nc06P
zazm2Nr1|U0Qak*7HQG?jU?!F2_N!Q}>i-HiRcp6$*UyN=X=Xq=T8a1+GYCe_sx31)
zDZ}_@gCl7QmVZZ5_Yg`XibZ*80Y5Nzm0V~L?<~Z&!9ke<rE_xTg2YU86_;F6(+L?8
zr0PX>uIzo4H65fI_UdegST$2wHR}<xJ-U)|653E=c0!cCL4(@_aRMG|wI$9Jw=M1v
zwj+Qdk@-fo!UH%lty-^O&qdWqh9M2Q54F-BO6bm3_%f{U6HbY$ncQg1FsaG5%=cm=
z@Aa&p8NKMPO8byN+L(h%t=hD6QZ1J<nUrc?OwLKfk6=ZG?vF;(3G9(BDr?7)6eO~f
ztF=rLE-OPBR>-!iydT6Jqivdad>MJ^3MEWiqf=+c!Z1N~1CowCus*o-Q=#)PWFB}q
z2_02Fz6CQNWlK50f;R~#RPr9%G?QI<lO#eKAO_Y2S?#Los@S6jbY-iPnQM`0s<1am
zzeina*iPv(e{f=Ye)d((;aVC@A{wIlE2=bLQVW&a*x|_1ckv?qBP23$M&mAT|Ep=Q
zR)#5y&D%+Ctm<8Y_Fo__LjwqN?)H35Z?UsG?{0q(Xe<P}VF_D#VJ$GU>?k&lT+iNI
zxB)}*h(iC)=J%XIy6pbg+kC6{`&}P;dtonY=q%LtEA{=W4Qur~mrt$Na?zne|7oTF
zbg`+eSl?Rg+Fy+9h9xjM%EJ^Gbt#UXW!Lqwm80uH&eydvt9bW3glZ9a;O|(sbIwLs
z+FAz-;g}MRt$s_>M4(hOwch;Zjc?|=_T1x@E?BY;+{28XfS=0WT<~`({;rj$J{&r-
z=0Cb@Bj?!Y?NQQY3gO3;@MDGWX(fDmTL)P~({jznO|5TFtn~iztN*oWVEJ^hxxLUF
zQ<`I|SJ#^NEuSg68w>6>#oe~zDnv$<$jIFTh26)M-N*CoCq8nYgyz#ch;8T`<yXRm
zj?+rVX}H=tUB#v@_}K8<cK|-NP8a;+Xw}lX>@7Cz$PYcKG#pv3`OBJykGuNcJ$UEf
zYVO`Q*1AUX?g(b{j{CNIWqhq^XMW_^{Sjs4WMSltGIC~Z<ebuUetGocNYA@9cWPEg
z?|ySFay;*D-K^z?cIJ1U$e()Q!yW%%(_?R_edy+fUgVWv|Mk&Z3!62ZzoXdFz4Gks
zLxq+dO3RM5mKfgOdGhv?t0PLwP_eCV^-y8(l!AY4rwXm-l-6@=tz&;@xA^OD9Dua$
z;XHwd93ZdzxJcisE#Ef0{PfRbyMLH^FI9AR=DQwK+>b-o8+MVXKcF}UH*H+~faZKG
zx<f^`ui)-g+`TK`%0GU7%{|5xOL!jLTzzvP*rx>hitb<@dlNhQ)6>v3>-#szWx4Fc
z;rk**e`~R|uh`H||H6ZtH8wIQ+nla1H-<4OW^(zDmZSbNCL3Za#-c=KhZxJ(i;
zvoPzFHFIf3oX9e=BweC9($^(MkgVDHxfFtmP@q~;NtmaIk!z;tTFMcHlKzCMJ-WAO
zLQJLN@%MO5l_I8dL{p<)rlyn-WZ8k5Uy+?UU=2Q~>me(25LW1p{#Enp@2u7+kv(LE
z4gyh{hBjbz4z3Rbt<4Vt9qU&7R=1=g2j}u%59AvL^Zr4_xnsjgg*#l<oeVsF(aGgq
zzH(i@b?W*z6>rzd3#%9I_O5<I>Diz6?pK@#ercyxo!p@#d@;7`p(oD6LhcJ(7jEso
zk-Xtuw^9M1)WJf|vW_kDb+R%S*VeOgVYPSV8%pcQ-4jadzV#Yb;pPH8D_Ny(aGe1L
zb#R5g@KTj#MyIWrz+dSxG?$Gz?A2B?Is$U|af^wA@6;qPzaLEJcEJIEs!OQBe{R78
zDck#Y?FT+XT0_W=AE9Zy5D<bwJ<RT!fxO|3+HnUnkar{S%sCS*jbF+Ljm!|<{D|6+
zSfjUSc|;4Xe^_)2t=qQ{YiNW?H#6C{z2O=6u$JM{6iS)x^df{LwZk#s6Cwyn@(Uee
zofsfFRp>-6$a1Y>{Ub&Wl$;A)fYHDV`;D-8^r+r4<2X+tbQc$cEaD=Tg19h`fF*Lf
zi>XDQR!S0}UQ(x(T!s(>t6G-ari&iE>@}^E7Q7Kd6S(Uaw|3B4G;aaI%x*fDT?}Yd
z8VjBkuOQq{Tx`(_nUF^FNTf(2psNjuz@CCACMJZ%4z1PJCB(Ks*8x>ENhKCQ2p08O
zRaMTyLlCW93|1Ahu@-&hor$p$)m^zWs{OLIC#p@`jZ(GNIG{JKoFn4cC}J$GuU)O*
zcGZh@6(buP&`>o;qg+3N%25{eL(-S-(zcGRl~?P?^+M7s=75bBCzDsDQ6L=xwqVAg
zSG9($_qt(HYDAs%BP69560*~gjm3<=4HB=m+UK$*J09$GHDssDnP3yqOL=aAWAP@^
zzeP_57$IR2<;f~U;UUS{WHug$XO<NIax;xE)4&j(bQ9N)@wQkI#>enIW`O7h{gG+@
zzj~efxx@2j`qo7-wR<%`J(YJ1e&o2IS+69rZZMfmqI)Z~B2jIcDxjJ9b=3^z97mJH
zqPUGWk<h|(*6keRhAIq&+V+-x!psc#;5<yBwjsjGCh(;4%KV#dn2qc()%%#K9(7sT
zSoU0l3i|sFZ41e?G--huON-fZ<Qyec(Y|DZs%RRMme31okyX<hXj4@?JSzyG5~40`
zJGWV^be|gXud4iIBQ{IZ^t2r(16@g6)%X1;C|hi-qBAjlsD9dZ;tJSy2#DPS?;g5y
z==+C1^q;+R`1YP#BexQFpUodQv$prl^^WV$-soOAylhkaXFqNX-?(z)+eLT%^@V)r
zWA{7|x|&?Y(Wlw(vKtJ{7e+wSmm5y5?i?@Ey#B~@l(T)$ill^{C@n|K{4HLH16|`t
z#j1X`^S&4dNAWZvgz_;DjA_EeEFu9|q`<cj6S0kr@iHA|UCspiL_Lm@f&j^TWAuf@
zff7@e5QshVJUe`9@73B<ur%W&mN(#3o<jeB$^XFi2i%gG!uhV1>=z|Zi0KOKG|VT0
zT-3I>`D+5IOM0+o^M*%J$S|iO*~JsE93&#LIG2#%LoF%&WK4({v`34+)_TVxaHxV{
zz_YjmzR|KjP&0M|R#h*8R069T-LEjK1=?PbNMU9E#3^`*Bd<_AEiCKsmC6Vg!vJtg
zP9h9Cl7P)YGh1kMP5KtLQzCA;SR1PhosCUs8?B|rCEhrUce=P+1BD@zSYF`na@&Pf
zlB{A_pT?~V=BVZG_gCXSsq4miHEtR^l*+)TDj$xW)A{asV!K~)a{#HhjWHykCBHG6
z!gZ)EYfEZ~Ohja*aa6&-0D>wYFdZ>=Hq8?nH8Dz{`WWxQ9)jVros@}0>uxHEQPyMs
z&#Nra;FClQNFjcmd*BP+^xW_ieBFw#JKwXn&~sSnIsB3DNk)e;)!MBasJhB*a17qI
zBY;w&4$urGI#t!mreBU&)QFVo*|P7_e?rp}G#k>xA;N!dGI@^h4-qcXaVPk0=uRj<
zbpEH=wcy2TCpE!VK|63Em_gyyOG_DT?0=(`5^qwi<Uf*C{*pv(nG^aIkV;LBXA!Ym
zSG3sq>o;^CO_2yWQBODLufJJ)qqgAdRD7LlKInfdQr<VPZ2dIcvF1B<`{ec4u#@-v
zKMwy{_-8#Q|Ed4h$z^NacZyXXrs|bvKgj&7=Lw_c@D~=V^LhT(^HAjR`>>Ytwcfh8
z=IzWoI=}q9k@G*rfBD~hhgqcb_X0-;EPrZ2^5?wg=&<F_y%wZfC@rL4jUDa)^86-V
zZ=#CZF-+XCl4l%#Z`12_k7#GEXa_Ifckp)sQEIRA3y+G7v>4X{UZw5Fww7VSD{uM^
zgq25lN4BB+ISQr5*vuzjt?({c%ig8!sEQ#GNfJZ|QeCSa!A1fC;^VB_`HBR4X;s#&
z5y8sM_^N>56%lfl86q-OkHP7-^B5U*#vGTdIV*`WIv<3OiGs$rgG$;QZ1uXd2j14G
zi8bWEUof~8i7T!#)jgNIDyHI>6RCMP>!&b3Lq0Yf_>(AOQq5-skePiy```5Sh)H$A
z$|@liGnrQHFmzHTTEi@<Ql22O>!(TEliG(kvUH7rkl?1;E;2*4YMCVf&iPsSwRuro
z6s13;T08mtVIqZ{G(*;ds9h7D?o<B)B{W%PWLEu^V!i;|xU5>4FwP7by5OWy1fM3P
zm+9_eq?#U7w>VGKpce^ZMtAJ`;hFc&-2K-5?AnfVFq>7qKd5QU*R&T~I^H>O`@l-(
zZg#EZ(DFG}+Eom+lX*~U5oml6?tJIW?KAnl18d=fWK?t1zU8{+$_KhuE`I13C{nww
zV&sVx%e$^Su$eufM4q^pQX<d)bP@^7RX_JO=R<=ZJpaR&-h1go?}1{VyAX&ff#~Y9
zKMTZ){re03$Cdu$_m8gipUMY&5Hrv-@b1|=XN$p}eBZu8-w~zn$XegALf@#;H@en$
zmI4gw^1hCTF0OMotV%s~pLXoJWhE0*=;rww=U0#3m9C%vD0raQu?yBZe<$J;ddRE=
zc<%1?9?sqU<>w(3$s}F<WLM~f--5Ug_IZ(JlT~YA>oxFT%LgvRLCpBuc#Ki7EcRM^
zwu@=anWpgx%=b##%#yhrCqthaA?}$dV%1~ZrW2(YY2)rnHRZcoj;Z-w9&l=^fZ$cI
zOqFS*<q>VH6>aD<5R2r?mZ-}N8NaHYS#L%CcJ!lyegdBL{~MmwSUso;x1D!;JBpMo
zdEB?9aiv(08PfNv9>Hdeh)7}U2X;f2t5C)`f%~pW(1SZc+w6jkB+3~|svhGsNr}rL
z+8;I-$Jk*)BWaqFBoehwhT8{Ji9T7<VvF!;AL0PxiFqNJfr=YvaYt&s_O4?leGmmd
zmb`_<5_0aw-$o3{S&nCN;>*|$HhrdM2;5~}LTLRz=Wp_GVMCo*;D2Dgf)6_mGrC!t
zmmWiBR!y;;(tiLv=`WDTG(<^maUPlyXT_^?(&5EJ)#Qn!Tu4F`_rfk$$rn-<c1yj#
zO{9y&q`zgN3}^AWK5go~VY$v<A1Qi$`KCjP_t2)5^VI%jQ}35dc>3KyJ-@j7>y?<y
zEW#i4FW}?|Bk*#pyz{ziP*dtl>yCOPx=*TSDnTwy!_j9>%q~d(o+<)kne1p9Hsdrx
z%0%I$1aVIb0%PpL3T89$s`Ss$RO2qp-KKAZAYPRoP|ZywMzHvQr-J`M$$d&nGl55u
zbt~<h8r)hChmMd<$PV<vk+4VO9?g&3{L0`l%>wesreu<p8yP<VRj%tR`1dIOJ#dhG
zZnAl5H>}P&*RpLh$ho}_>A)T|wUH;|ZPegxle4&8=oaWL`c8so2Wr<jlcyFI>`>&L
z(CtvZd(YiVYt4uhf(K@6!GqA~du?y`yfgSO27mPYk6-$;m*7tTgb-W}(Cb^y@Q<u@
za3g#F)b+1jg`K0y&e4w>T5hIpq*e~CHS8=j98enIL|SWjqSz9}Klq+T&cH)u8G(mt
zXxW=@9)bkjGVmuItIw`>E1_X{ZrXR>J*u=nR%kz{v>#k+e<JS)Kk&BYBlrw(Pu{Ud
zll<w5N1Lh?4z<(3y2>xmq{J2dE)ZhEpeN#s&-kSUExgY#qS0xpe)u|JcVou2G}CsO
zBZH}0Oe&H7ickf@6(@Z_$xo=4X%=D#G)H_VC4EGtzo6t_QF5FT!fWXVl>8kfKcwU?
z687!Z5r#Sv=`1X9((w->f&NpB4&^Pq@U-PE6erl+`=I+kF|w-|-dSwyEjDyhrt5IA
zbyu<HSg~`k*gK4a?mER6!~2V&y$`$U!mdqou-TTk)UWS=W_61HoHJQ3@+&!D1%B^c
z_$B*=w}~7RLn9AsYOUc1fu@^>ZX8;Hm$G-=iUJ&eu$hY1?eym0+IPYG(6(>gNv|&Q
z8s=`~Rs?(qvrYhTqJidh59Q#A@V*tk7S1=paWeQzFO@|C)~=P4@1DMM`rW7RJiWo;
z_49!aYtQ;Ae$cx2K|_dqBI{P<F>pgD9~xHbcdpy%9gZ09^88!5Yq?t&^4^Hz?D)co
zat$Sz+Bc}$p-pEdpiFxwGN}}7)bv4fEOBW<`}Dzv-~xz%5~&HApy{XMj)528bMM%E
zHkpz&owbLRGsU&^{jX+amSZJbhs<oE5{VRQ<ZC);a2b+$wPqztkLI;+s4B$}6w9tT
z#25yVh@g4JNJP-00qU!J!89a`63GY>IeFC3R~l%6AhZQ_)QZ#&wRxLXlS%s2Um~ZC
z>S6Wx9(Z1)unEF{)m>@GVG-AwRa)OkW|da8Rq1<Mma5q|O{(w2i(^O6j~<U7eeS9F
ziP7^H*oS}8NtzZJC$&q_MY(=TdXcD(LpTxKw8Ikq9}Qr&xGmp9vTo*i{$VG_ALD<)
zb$!A`{)Th^f*bg2?!qVBfls)RFHCmc^aV$WkK@nsf6YDj33uodZs=39?-NV(7na^n
zERO@<>H-h^fnvC|Sl{rl#uhZ?Ip1bofN#sUk8E=I-Q3Z}yYgN8^9P<&x-M*Tc-uV2
lzhFXPXe7Vuj1oG#$<ga(*7BT*-<xmfUmf}-M_IOr{|k2A+s^<1

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/pooling.cpython-312.pyc b/model_executor/models/transformers/__pycache__/pooling.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6168c4feb3f7f7e4a87517a5eed0fa29ab8b83c0
GIT binary patch
literal 4751
zcmcgwUu+b|8K1em+dJQ1|ADi?M_C^Re55`@Fy%j#*oK4vp#_0B1+ACcIlN}?_L$uR
z+d32)A=M~Qpj8D?kxHXV#eypCQ+aG(+DLuz36gVHMrsxEkT+91BI2RyH~YuuxYssn
zqmFbl-+uGW%r`UNpWob{B9S11qI%y`{@#Spr|iQmyhF@=0K{!1qYRR<>``&vlks3i
zb1IkNp!KTWyf5Rkcs`ZS`!jxv=G8#HA=8i#W`g-pCX^3n!WQ4JM)J{2)S?4wEZ>-E
z#E5t(4|6rBP5I_bGe#bC0Lj5CNDh(42b`@-rp4lhfg2%F;CmhZvQaJ-9ou%CN(DWq
z(LABLkk@3QDuuJc87X^?6l5W<j3@<NfPSH<X;zmdqo+S-)1<H&IezNsfY|r?K;N5h
z964|VILUn_Lp#i7+ON@L<a~(~vZPOybY00QS;<he0!W3=5<@Z!Dk=t{DX-b+N)UP!
zRwC5&_Z>RMNHf~6=tarM4mlmX-NGcxkClo=jT(9%)pUKJkkw?+9y(f1sA}HTfr;Df
zAY=Dwg`9FWYafGM`<#!tSAqB;+#Ep}47cZzG2E6%=I+9c$v&AU-kf(F<*@9(63zI=
z(Fo4)$51L@MhEg|h|E?$%#O_DKzS2QV3RLWl2b;^&;?jp%vx*HFf2oxp~_-sWe>E>
zdf2VaeFD`_@oi*4YZrs{TcwPyhY%{`vgaXw;BYZ~54*PK3PL*^SoGnLm$))_*>e!R
ziw&5^E=I(qhNCW3Ys=gNN6STWjkSK4s>#WoyB>E;8Ho+9#3)K}M<zV91sK-$Qyw#9
zXkcj~VaI3stR@vSeR`=#C}kR&0Z~*6iXn<-*s?w65Y0%@vJ>}A*<LAI%8Y@zii@Xh
zU<`W&-X4_lnO>c!xtc1poegae#VoT_QPi1D2v9D+Jkew1i#<i9*lkD@%(i=^v~~No
zb6ZJ|s+{R5jv7N+p@&^>kF6gWAz5$%YJciI#v&K%Ve5mHq>H0;1*|aE`c=b8yPHix
zr>;Qt<z@6N5P1^qxYt_=Y?^LcbASIVhZ<g;N1le@Yyhq3thQ~ev~8@m?Wwfw8IMfI
z5>v6RsX!Oh&*GiWR<EtD-cnh;WitPGb^pwY)zuZL%8Jze?#C;(J@;{u=p5&34UT)S
zhvr~0G~s9GU6Aqw&O0cIu%nX7=&&fBFG;G?vrHyAsiYdBvmMbGEfSN{4QlPmj5z0*
zC8{cl6POAxx6aJyyR-vp%IwUl*0GLGsJ^^{rrU)nZ`)t`2L6VkzTmy`ENdPed%>FL
ztfEPG*f;FH?e*i7<;yh27G(xcA>Jd~Wa@h`Ge66N{{Z#>(}RbZK1+(c;DcKbMh4r3
zRfg;NE*fUxXh|ufx>04>5;6Gv7n1RRmVC&$ndy>Oh72jAS`>T7JIs7yNqOLW_oLHk
zgf96E=BZXG`(&>>TF2KK%f8`++gEFUfUm8RnTFr0@mxw=h<6wjuooH3IIU8);{90<
z=*Mmp3Pdt?|5kz7m?<tPmqW%{mnHk%2>31r>GdwZ*4Cc`xb-4=S8be2Jq);ecQSti
z<oICyS%){cqiU_YuS<NHuRls$?n)co3sjFw4R3U*T3hDo&-5_l>S}CurHw5v<=$}p
zv2yrf#MSk`7|qv4%h9_FxeRV|;qFJ#8ng+*(?!5&r@&V*x{0qH7~xK#i#QcKLfJ8x
z-aG&nNLW7Eigir}E$N0xNnSGu<RF<)W?yE|${&Dq0Kxe5tVYS$nLe$g%0fXigq#AP
zYOp3UC;+k=w8RDlRT?E!Pzr)EM1;ZrjG_iXRyQO-SLqa{>|VYS6<x?M$1HUzsIfqd
z=Sm<0a0Wn(4?qm}vhUwS!G*+>-lb|;N!9nHYl!WnVhnws=tEMGjEy?5O&F4NK~gD^
z<Wb=aAq7Dy7FC7FY=?tR-WW^=S&ntfK3NuIB`+A7kY|8TAR|SRHLNkkk|9_t2wHCO
z5vC!zUzDgkm|g%=uwTT|_iFgfF%V^iVh6-9@Z`FtjL-E$L~k!+8MDYU?6^9R3#ArD
z&ti~+fUpvMfPc+j!iEbQ(N!?}>kxv=SV3jaFY%8sJI^DOUBTyUT>!Y8N(yE}sh|TO
zCS!!Q0o(LD%BQ@PDQkKGVCW`)4mNaFx05Er>u^4o?Yy}izQ*4C2JXo{HW?<=;Sd<k
zm}!aMG=8%E&iNnjo=yn&n%+N9O>|ch-S?%(iH%e3yC!=d;YXgyZI$+2H~VK=6Spqj
zdgs1(s&(rmUuoSs)wtEl&ncdE!hDp4Ldw#+=@&&=%Zegp+Ea#XD2qpn@PN6zt})SG
z5F2EoEl>eMc<#ZGBlrc+MYhc%sBA#68#=)QHbG+s9OoKMai-s~GP{SDvWA!|06%Jj
zLsydSfq|4k|5UqmEf(&yfDB#9x-4ku14Ne{GI^O?P_l%wYcWGPs=1)v<Q;I&9Felv
zX!>pRq?>;51@_pnLxj(QiIiE7ty%Ddq?X74r5ZJ37S=6F6d)M9jC3<N1Rf+>LB}!(
zS_8VxHK4n&7nVGzAF5QqGO48qH=>jCfN^z(?1*aewu+P;p>1z$ddD9fn`53a*7<d8
zj?JRq0fYZvK<j)EMO$vXef8}->pqTj%p~?y69+4agVT-6ZijA#rsFHC@%5GX`f9wp
z67QZ)uB#?DSCX5n$$?68VBYUt6&*kPf<w{dY%^-@tj1rd#9#R&-aWp5CKkVW;m*j%
zv99|kK0G~fy3+mHbZ6I1@9p5N;FHFVKQ}I)^`qAGd>FN_zjtY}{JWD=-#Pq|@p$F&
zaqqR*bSQRX@729iq2x?+V%CG3_Tf2>Yl$*5i~<aAh*SfKN+5CP_|L`n#mW9^??9z@
zpxS%1(tC6&ka!aK-n`e}u<c&|uipB_Th-3pmCoJs2pFK{+8yKG8?mdgCxH$I*ppq=
z<jzWR=k&6U`|^j{gf`E4)-=!aXjS)2V$ILqnC$#*&u@A@+5qfTjJ<NhV)lAquWWuE
z3o>LMwvqjd0SxC+iFCZw*-P*D{JzkEIQPf6?||T^Yk;%V9qG3jlT|z5R|lT&u;Dp0
z44y;toK?0rvSF#^bQd%x54jRvJCwy$`WoYe7r%yVFKS|Mr?l-o>5`$Sy5$>YhsC$-
zRCM1|X)8(UY3AARKwPl)MP9MC-Y{zxJ*^bLr*cx3=#>47V{Z6bvf>#@C-!61dd54t
z+Ru3FCBybSf$aS=2x$g(*^ae`o`g@90`x;r&2kvy=ShV3eujikQTQp^`5D^q!sEl9
vIRw=gVT51DPtn1@a*a>D>*o0;9GqI-HIJa3@7fI?$*oh{4}F1vv{w5Elr>%@

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/__pycache__/utils.cpython-312.pyc b/model_executor/models/transformers/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..70b90d6f1f2f21d2aa69c703afb0480fcc4eae88
GIT binary patch
literal 8536
zcmc&(Yiu0Xb-uGZJNsTPxup1}MtrYjl9KhZ6uoRploiReEXfbi4wj>xS#s#vhwsda
zBC|y3R)tC1t@R_RRoF%uAV6riK@^}t1++ip+Gq>(&u%D}>nRNzhyyf03#?2TPSXD9
zId^84OPLme{^=!n=iWQ#-h1ZW^Z3r$e+>qG1d7JLuKuEpkY8h`T!MCE{U%4qTSO*f
zMCN3N#w8tN4i4K+&6(uKc-H1MS5g=glI}4#>$^11m<MPC&6D(wdD)m-^CkUbe%AJA
zfn;zj$l6{ll&l%6NruP5tnbrmlXYWt$;enFSwB|K5k;T@Sj(?9B)5%iV>AJ+G1)ZM
z#1RKkf=cuIz$2Ei7R4b470=Xut6yCw9CGLy|Gqsm)~2}Snr58S?j>F#_sU_p_8m^H
zQ@m4$tLIs5Iij@7^>Tx}P1!CtDs@WzteX%ef_1_tH(hg&iE=Z{eSC|#ElMZM2`2=(
z^%_6cCAYyE?cYM%vGq92-41iRWfA7?P<mj!?J(8}W4&^h+ztJn1TXhMzi-AB?VIht
zNTrmXNYkW3bupQi6-`Y|h?k}KOG-)>vxcgvhN|d;zeR?loEeIzQ-*TYNJ=SbLZL9i
zpOcKqsKX3iymanlZ1{<j!)H#9o-*BMRYReYHVPz;R0`_AgkngBL1Xv=`hGQ~8Zj+B
zf$KQTz$qn}l+HhSVHCJA-F74DH0y`cS~i(FC&6l(qMcP!ibT!uc_pK%ami3*d!+V!
zdU`VvY~p)X(~`sKR6?DAUft7KDP^d$lA)$k)~G4S$`v)P#BJeV7vqPz3;x&t6GmSp
zuL@@f2jXq8msm|XD$Pn`imx;)jn{+)vLJv^ao0R^oJ!^#3nT#w0zIdf<hTc~7_01(
zbDSXG>my{2H$arEVtC4}9Pc1Gr-59vQvK$AdyTU2zwfkYIPyl6C$jS|9dB_QSrq<w
zPNvFAZ|{bWvcdqD+X#6P_MGGATwC*+b5-%s#FH6k*Z=GO)8wl25}D?H=A7oDycB>d
z_lZy*6Kz=+ZDAL)DOsW7^rRY}v~)!mC8~%h$Eu{Mvx+QEtHz`Va>`c7fXF5lkak^6
zr$l2?5%r7`R}(4_T2ePCK9QbQuE467vxx)};)1EP!RA*l3=4c?vd`j^PUweN3%Rz|
z75m4HG>uOVTHW#J1_2VCU?MLX=_=llYjG3DgKW{bEiml1T~J5he;o`u`H|x-u&j$h
z4g@*p*tpc3;}zYgs8eoBWyx`9Ro}O%=9~|r+DftJ_?%-(U_5QAa=gr;VMc{`;F{h|
z(^zNGRpuuFs+!|}!u<vJZEN5jGw>I6jG95Jyqs03qQ@qvBu8B)Z_H#A(;wS7P16&L
z$!gq)#b`auG#y4d>NW*1xLHjx`4otW>0;!jmpx)}O*e&?rX{#sT8mS*r8PN5l?hb`
zfvQ>>?E&7YI6wb~i$g{-Gn7#?0|rb~jDf4!0|y^{>3}k%sh5W`Gsa{(HFO0m;t(_S
zG3BZf&w`*>U46)?@&-d_{Pn@ijM-G#RY_)ynT@??k24dVPQ@%Si=p(VvqsDo=E1{S
zIxcDY(ZO$9;SeydzYf*!=E*0XjvH5&jOAzUc=i<i;k>_Xt*PzCv#aexh4!JFe4%~c
zO4I&@)5V6?)rP)8L*FuAXc$;+*k5Sazc5nl-MQL(u+V#OVdVO;LZIuDzFo!ew$*TF
zA>6sNw-D}M4eu<3cP@{tg!kNaI{HJ!14r0%VPrMXQ3!P0Fn$&2E_q3yeI3{#o7@4K
zP$u<Y+sKc&SHTr5pdq)-dXBq*auCOP<${W`9sbulph87ibmX|QXfA?if`D--U~DS8
z;rB?CH+gp9?J&u@bw?tlqhG=6rMRH!o~BYJqtMx>|JcLNNJe}zW+*8=O=Dowbc1H&
zaO)e_V=s9M*4J@wxQ*iW9yrQJ3xT#zA`RD#e5Cirl|rO9ALyk!fP!{I6?M{HY=dL6
z*wxWijEgp>P2aZhA1^oGw!#SPqt`(7`+4$}!{O~Kc}Tc%A;fqajk+mng(*B~=~rDv
z{3;r0x^)YUm@Z~0O}C9sOc%hDqz+4<)=?4HY5V5c=`kY>iU0>o`;jEVR*5CDsW@Vb
z7}MxFRN2ihD9VG5+>N8oipQ->?RfBA(nnyz!#MLZsDA$+ctQ7?NQd~>m;UO~YWu-L
z`@uZl@)hrKg-Z3LyEo5^_js49u@tIto#2Xn$KG(f>0R{R@pS)t*RgzH`&uBf7H%kp
zyFLl`|4rlHHsl{Yvl2bK5`OY4Hy;d@oTU3Ww;mwg(C2+eDpTQzLl3P6hYG==e+%xu
z>vjfx#lZGrpyP``<cBBot%LbpkAEB(zUw5RM}7yI)PMB<H1&UUJfds;!+W`(J?46R
zH~HX^W6=J`-H(ys-OdkpJE8NQ%XG)n+O(>JnY9~W8#AVxrl+k@yTL}i@XEr9CSq72
zLzRSj)f52hB9wIL#tc~Dz{>~@Q9%GK&NhD&DvCLAG@Vi?8ZA?xijk$Mig!d$hH(;V
z!1{jZ0bI1b8$qCF!!Yo9c1v$E&`7W%a~n`8$CbU%+eCJ}>n!*Fgxi31D%hTlp6rx)
zm4gu$r{RL^eWfS6WP!a8Si4#8W%oO-DO92R3h=s#uFP*4)PZN^Wgqy(@O=}Z3!`;g
zj-u1MugIP(poW}N7G&=`Le6CyL%*~Oj?IU<fe2rU0~|^XS`gntS8xSlIw4*;d-lmb
zU9?n_0T+x8MC(q)xF+d3#4TGvB#Y#bI9^$J9HG!<MMOD)9c2soAP-D54v80;@!Z&j
z4I>u_>Qc(Iz3s!IGB`0PcG@D@xv@^QY#kD-WeZUz2%HE(*nO*6v(Ga*t3r4eH*IMV
z&5F;Y^lT=RrVtO^&nBV~aW(|ZT?P1w1mFS8-~_~NfF!_QXR^jcvsO*PGp6dyzvEes
z&^>Txqfx>1S?_d!xTfEl5Mv$wvMTBH2#{G?;kUFR#)g@T@WW(X1)n3O;)?0Soqf+r
zT2?tpX`0dooQm>BLs(&GVLHJSV{{lxC=%$HqMHE(73Cg10Yp)Oeg`KY4y)R~2Ek3t
zx?l#O>Z%7UIHe<O#Jd$m%lOvY*S;|iWQUFd)n)kCKY|L(Z8r&QyRN)*;f{aDTBs@C
z`kj9`al7H~&)holFQI(%b1R|e^PcDL38W#q+?kIItTjEn{Da$ke(+?zab&H&XNl$`
z53Myt^A8`p-H_jTD&P3T+P2<hN4{a_UB9qX_&Pw`zE|Q4J$LFlmmbg8_N@s0cZ0;$
zKmSy|q3>>(1X@eP6A+4#=G90~A<|Q<Z&|JHE7bQDgON91SbSlL&j-7U4Lgc84aNHA
zyFs8Wg^0iXZVk4G$0ab|XnJT;kEJlg_D`y^tfbgQ#w+FtJ{Hf1nX!BKn=zK$DFgjE
zKr}gr?0m;D=QNO>l^l_Ixf0<4Oy^&z&+$_gQ&*-VL>9`X4UB*rFVagk%-~cdx~-bw
zDbLsk@p$!~Q<d1airQPI-o%j$%pv@h%^F93;CiL2YTvC47#Pr(z|EJ}qkaSBmK8Y+
zNX}^)uWF8DzZ@u^6ntM0zYoqL3}=BT^1cETA*4vT<eD<Ife{ib)q8Z2-9+c6A-Q%5
z&H$qLaVvW5A{%DAo6r_GAJiyTrVz^9S7cxLYamtTnsZ$uZ~R#~5{}kN*Wl{Q_E!=&
zWr^&}jAe{%D{PP1=Jw*G3dtk|VgXqMRmvt6+k6d(&nfD}q#?q49e@#-B1sp=r`h1R
zWy%J`lNnvrAl}_fq-6AQ5p3l66^W{7OkyyCbd`DI7=FZbh&YsS2y7wVg6xnE@j7q<
z5jL7?O`3t$By1{))~;ed%RB8!L5Qx+M9VzjF0m>Ffdw&$*JeZ(t!H&$9WC~0$cE9B
zcm-@6aIB=_kV2!dIde}wv@sIo(Kel*oL2NypCKZOmw>G_@N-46(gP3&qCbc$8N=cP
z5@SyIPBVP}S5N%;fBkal>wmg=H0q$|;BM)8s7%57s8Ndg%*IV;Jd^z`B9YmPBa*5C
z->{>MS&1aTA5l$+l?$!hO<cjx0#f*<S%s$Y+`;V*LgFAHWi<nHgs=(@nZAuvzi9g4
zXk!)+rb|Z0Gh#&wL5liJ2arh~T?a)tYsEO;7?^61lUU63p1g|R4rdAIjAaHP-jQeu
zHZ+}(pr8n9=q0RB<G~9&h3(1#P>fzozr{feL{O@9KopE`nEq{L(_glV7AF)9|7-BC
zV>Sqke?9RxUcZ{(arl<J;v1eHF1GjIj1+?V=10D$YrfIH^u)5fQnzRROwnDJcXt%U
zovY%mg1GBu?TWZ(L0Fh8c-l*X$JM$Ptb6mt#TRe%d>j<lT6Qe;uXgS&bnd<R^h)P}
zTTQq3uCzR{aOP`3&^t<D;)%doKiT)wgFimF{KBor3Ij*(bRAu*X)V<B+(<x`_w;<x
z+PU=T@{70juCyMXA6YnD;G1j~T6$Jnb{1N8!tT?r)szGx_CPaN@U*S@>k9t1>(4@!
z=i9#Sg3a<l@xQ<D*MCV|z@jJgW@s@~a&W;N_nc0z4{(2D>udg!A71`JkHV?^UBhra
z`5@3f>~Ve&^+5YWk88Nr{bA6J?Rs(efb+xs9MrT0ufvC7ke%xA0a&uz73d5!8$M?*
zbT(yLE1m_(tRh2NhNYZ%tIt`9nAt#&en{-m#et(xgI;_OUV|7am$MTPsv<8mj+G1*
z3sox+paz5uLj^>CNf3TI0VKabGDNQPWR3T|diIsG*E^Q#mu7Ds`j|gzc~ck5qnNc2
zQR@aQkW3p2L=dvF$)VyW;Qx9KD)^NI*tf9#9Jo)&eR0&0bELSObB>q6VZuAtyG}@-
zqSmsKtGJ%2Esmp{e5DRqm~+YQIYIX11X#rjtGIKnw@J?ZHhI?psRrNZY@Z~`svghk
z%wkD~IB6Ie{m{_RWOiZ#^eh2KFc?n{&4!0I==34Dx7pJY8f87Jh*i@j!02W#!;ED0
z3Y$|&Y!X{zC_b4^>&k54oTf-R0QrmpCZ-py31-niM@1XQ+JG3$t_}PKMS2iUWA^DX
z!*V*V4<f!Bl++<5HKd`rH_ExJ3LHjpQy`NyX(Y9-X$ra8)WiUMzmZN3Sg&UJ3ko3Q
z-E2$5s+b=E8^qGKlj&*XPLcsOTL@d6NoT39Xo*3PF%&^lP_9B+PLF!%By_3D#wHW7
zEY(b5Vv;?b(6K<W8yL5S3^k*pT|_^D#loYFfPc$q7i5Z^N(@Np%Ru@|_}6ild4f5Q
z12?lbC-O(0%m+v3M~cDc=SM!N?^*0!-VZjaruD|~jeU7>Bp*CAKeFcbFP!|-@2|R>
z3-0DS?$%;$WI-r~r1?|DK=^v&b#K1;yLsOkm=~&Fc>a3)`ZIZdYo2el1l`YYv=ypQ
zj2bs3$PnEz0skR1-oh{tp7)n6e>2$v7na3&Zc|W<KP#5;)KyLg{DZ%yKoWS1M6O&3
znq~f_1B8I!yJkOP-gp?Ch;&&4cgq643`U8}BaR=pZ`V%PfIMfwTaH7BIj*E|N=!|R
zLwbG!;7kg<Gh5E~hY*IQ#qo<Y3&7)Ymcbj)9h@X17C_{YNNZYp8Xc#u8d>%O6o4YO
z$bfhe2$(2}04#J-o`Lj{8W$;OhlqFvrde>n4B!~UI50M9dRdpHo89&-$Ug_zT6QMG
z^nxH-7iZR>WZ}<u_5kz8^fcTQ*hdNv(_j78fRW91vMDa5V)k)Zi7oq_==Xv4BcwkC
z7070oL^@XM9xBv5v|6{fP`7ur?nI&P#7f=B{FyJB#iiEe6u8pn;a@eMzD?)P7X6K@
z{?>xO^~RYMfB*97f`4D0-^WA`bnH=Bax~g+x*>@UsuMGP@IA;VWVI>Eo#}>D+$8oa
zb%X<f<Dn>A6r&jnY_ObQEi)L_c?_}?H$x^S6YxO`b5N8ivzt*`M_Epk4>AC$TMvw)
zEI@)-#N6>9dX{Oj0$q%8S+r~KS*28F-vicQDFpksONz-C{80h(jPRoZdO9m%`3Syn
zU0@k4;jFbSUI~k5X%yc&Rd8^KaF~}f`OE3F#%v3_M26Sc$y?UQa~O^Qex*1{Uxz8^
zlJvt+mz*5O-R&gY&~Hf3r=;mK68$v^d`jwnLmv8+bbUrfzIO1O<1WD}K=|5E`QA_Y
z@7@)Nui^UhE8dQI0qmC}TyhL?C%EN(KR^85;V%ic*PWH&lFSirI3Iqh;5j$%D)~tL
z_TsL+C3g=eKqu1hr5{?wK<LfWi>FIYXn*bxmt6Q(Ad$f`T`*iix>A4$E%~;Af@>hZ
z>v+L+d_9Px=eTaJed+v9Fa7vZi9qw#1@^f8+&cD3qwtx>ZgiChJeD8%`N8)NvgYm1
ye~x|-UB}UqC&0B8{g5_==jV;BB^Nw_0l~ZO##V=)+rRv9iNNF5-h239r~AL$SG_X;

literal 0
HcmV?d00001

diff --git a/model_executor/models/transformers/base.py b/model_executor/models/transformers/base.py
new file mode 100644
index 0000000..f4ba475
--- /dev/null
+++ b/model_executor/models/transformers/base.py
@@ -0,0 +1,464 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend base class."""
+
+from collections.abc import Iterable
+from typing import TYPE_CHECKING
+
+import regex as re
+import torch
+import transformers
+from packaging.version import Version
+from torch import nn
+from transformers import AutoModel
+from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS
+
+from vllm.attention import Attention, AttentionType
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
+from vllm.config.utils import getattr_iter
+from vllm.distributed import get_pp_group, get_tp_group
+from vllm.distributed.utils import get_pp_indices
+from vllm.logger import init_logger
+from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.models.interfaces import (
+    SupportsLoRA,
+    SupportsPP,
+    SupportsQuant,
+)
+from vllm.model_executor.models.interfaces_base import VllmModel
+from vllm.model_executor.models.transformers.utils import (
+    get_feature_request_tip,
+    init_on_device_without_buffers,
+    log_replacement,
+    replace_linear_class,
+    replace_rms_norm_class,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    make_empty_intermediate_tensors_factory,
+    maybe_prefix,
+)
+from vllm.sequence import IntermediateTensors
+
+if TYPE_CHECKING:
+    from transformers import PreTrainedModel
+
+    from vllm.config import VllmConfig
+else:
+    PreTrainedModel = object
+
+logger = init_logger(__name__)
+
+
+def vllm_flash_attention_forward(
+    # Transformers args
+    module: torch.nn.Module,
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    attention_mask: torch.Tensor,
+    # Transformers kwargs
+    scaling: float | None = None,
+    # vLLM kwargs
+    attention_instances: dict[int, Attention] | None = None,
+    **kwargs,
+):
+    self_attn = attention_instances[module.layer_idx]
+    if scaling is not None:
+        self_attn.impl.scale = float(scaling)
+    hidden = query.shape[-2]
+    query, key, value = (x.transpose(1, 2) for x in (query, key, value))
+    query, key, value = (x.reshape(hidden, -1) for x in (query, key, value))
+    return self_attn.forward(query, key, value), None
+
+
+ALL_ATTENTION_FUNCTIONS["vllm"] = vllm_flash_attention_forward
+
+
+class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
+    embedding_padding_modules = ["lm_head"]
+    embedding_modules = ["embed_tokens"]  # TODO transformers will have a util to get it
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            # Add `model.` prefix for base model checkpoints,
+            # handling the case where it is already present
+            "": "model.",
+            "model.model.": "model.",
+            # Heads will be adjacent to `model` (pooling included because of adapters)
+            "model.lm_head.": "lm_head.",
+            "model.score.": "classifier.",
+            "model.classifier.": "classifier.",
+        }
+    )
+
+    def __init_subclass__(cls, *args, **kwargs):
+        """Merge hf_to_vllm_mapper in MRO from most specific to least specific."""
+        super().__init_subclass__(*args, **kwargs)
+        hf_to_vllm_mapper = WeightsMapper()
+        for base in cls.__mro__:
+            if base_hf_to_vllm_mapper := getattr(base, "hf_to_vllm_mapper", None):
+                hf_to_vllm_mapper |= base_hf_to_vllm_mapper
+        cls.hf_to_vllm_mapper = hf_to_vllm_mapper
+
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        super().__init__()
+        logger.info("Using Transformers modeling backend.")
+
+        self.config = vllm_config.model_config.hf_config
+        self.text_config = self.config.get_text_config()
+        self.cache_config = vllm_config.cache_config
+        self.device_config = vllm_config.device_config
+        self.model_config = vllm_config.model_config
+        self.parallel_config = vllm_config.parallel_config
+        self.quant_config = vllm_config.quant_config
+
+        self.pp_group = get_pp_group()
+        self.tp_group = get_tp_group()
+
+        # Weights to skip in `self.load_weights`
+        self.skip_prefixes: list[str] = []
+        """Skip loading weights whose qualname starts with these prefixes."""
+        self.skip_substrs: list[str] = []
+        """Skip loading weights whose qualname contains these substrings."""
+        self.ignore_unexpected_prefixes: list[str] = []
+        """Ignore unexpected weights whose qualname starts with these prefixes.
+        """
+        self.ignore_unexpected_suffixes: list[str] = []
+        """Ignore unexpected weights whose qualname ends with these suffixes."""
+
+        if self.quant_config:
+            quant_method_name = self.quant_config.get_name()
+            # Check for unsupported quantization methods.
+            if quant_method_name == "mxfp4":
+                raise NotImplementedError(
+                    "Transformers modeling backend does "
+                    "not support MXFP4 quantization yet."
+                )
+            # Skip loading extra bias for GPTQ models.
+            if "gptq" in quant_method_name:
+                self.ignore_unexpected_suffixes.append(".bias")
+
+        # Set correct attn and init on "meta" to delay allocating GPU tensors
+        self.text_config._attn_implementation = "vllm"
+        with init_on_device_without_buffers("meta"):
+            self.model: PreTrainedModel = AutoModel.from_config(
+                self.config,
+                dtype=self.model_config.dtype,
+                trust_remote_code=self.model_config.trust_remote_code,
+            )
+
+        # Remove layers not on this pipeline parallel rank
+        self.pipeline_parallel()
+        # Substitute remaining layers with vLLM's layers as needed
+        self.recursive_replace()
+        # Create attention instances for KV cache allocation
+        self.attention_instances = self.create_attention_instances()
+
+        # Input embeddings
+        input_embeddings = self.model.get_input_embeddings()
+        if not isinstance(input_embeddings, PPMissingLayer):
+            # Some models scale embeddings inside the input embedding layer
+            self.embed_scale = getattr(input_embeddings, "embed_scale", None)
+            names = ("embedding_size", "hidden_size")
+            embedding_dim = getattr_iter(self.text_config, names, None)
+            assert embedding_dim is not None
+            self.model.set_input_embeddings(
+                VocabParallelEmbedding(
+                    self.text_config.vocab_size,
+                    embedding_dim=embedding_dim,
+                    org_num_embeddings=self.text_config.vocab_size,
+                    quant_config=self.quant_config,
+                )
+            )
+
+        # Initialize any parameters that have not had their modules replaced
+        self.init_parameters(self.model)
+
+        # Pipeline parallel intermediate tensors
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states"], self.text_config.hidden_size
+        )
+
+    def pipeline_parallel(self):
+        """
+        Apply the model's pipeline parallelization plan.
+        """
+        if self.pp_group.world_size <= 1:
+            return
+
+        if not self.model.supports_pp_plan:
+            tip = get_feature_request_tip(
+                self.model_config.model, self.model_config.trust_remote_code
+            )
+            raise ValueError(
+                f"{type(self.model)} does not support pipeline parallel. {tip}"
+            )
+
+        module_lists = []
+        module_list_idx = None
+        pp_plan = list(self.model._pp_plan.keys())
+        for i, name in enumerate(pp_plan):
+            if isinstance(getattr(self.model, name), nn.ModuleList):
+                module_lists.append(name)
+                module_list_idx = i
+
+        if len(module_lists) > 1:
+            raise ValueError(
+                "Pipeline parallel of models with multiple `ModuleList`s "
+                "in the base model are not supported yet!"
+            )
+        if module_list_idx is None:
+            raise ValueError(f"Could not find `ModuleList` in {type(self.model)}")
+
+        # Layers before module list
+        for name in pp_plan[:module_list_idx]:
+            if self.pp_group.is_first_rank or (
+                self.text_config.tie_word_embeddings and self.pp_group.is_last_rank
+            ):
+                continue
+            setattr(self.model, name, PPMissingLayer())
+
+        # Module list
+        start_layer, end_layer = get_pp_indices(
+            self.text_config.num_hidden_layers,
+            self.pp_group.rank_in_group,
+            self.pp_group.world_size,
+        )
+        layers_name = pp_plan[module_list_idx]
+        layers = getattr(self.model, layers_name)
+        for i in range(len(layers)):
+            if start_layer <= i and i < end_layer:
+                continue
+            layers[i] = PPMissingLayer()
+
+        # Layers after module list
+        for name in pp_plan[module_list_idx + 1 :]:
+            # Modules that should be on last rank
+            if not self.pp_group.is_last_rank:
+                setattr(self.model, name, PPMissingLayer())
+
+    def recursive_replace(self):
+        """Recursively replace modules in the model as needed.
+
+        Currently, this replaces:
+
+        - `nn.Linear` with vLLM's tensor parallel linear classes
+        - `*RMSNorm` with vLLM's `RMSNorm`
+        """
+        tp_plan = self.model.tp_plan
+
+        if not tp_plan and self.tp_group.world_size > 1:
+            tip = get_feature_request_tip(
+                self.model_config.model, self.model_config.trust_remote_code
+            )
+            raise ValueError(
+                f"{type(self.model)} does not support tensor parallel. {tip}"
+            )
+
+        # Prefix the patterns because we always start from `self.model`
+        tp_plan = {maybe_prefix("model", k): v for k, v in tp_plan.items()}
+
+        def _recursive_replace(module: nn.Module, prefix: str):
+            for child_name, child_module in module.named_children():
+                new_module = child_module
+                qual_name = maybe_prefix(prefix, child_name)
+                if isinstance(child_module, nn.Linear):
+                    generator = (p for p in tp_plan if re.match(p, qual_name))
+                    pattern = next(generator, None)
+                    # Some weight loaders expect all linear layers to inherit
+                    # LinearBase, so we set a default style which causes any
+                    # unspecified layers to be replaced with ReplicatedLinear
+                    style = tp_plan.get(pattern, "replicate")
+                    new_module = replace_linear_class(
+                        child_module, style, self.quant_config, prefix=qual_name
+                    )
+                elif child_module.__class__.__name__.endswith("RMSNorm"):
+                    new_module = replace_rms_norm_class(
+                        child_module, self.text_config.hidden_size
+                    )
+                else:
+                    _recursive_replace(child_module, prefix=qual_name)
+
+                if new_module is not child_module:
+                    setattr(module, child_name, new_module)
+                    log_replacement(qual_name, child_module, new_module)
+
+        _recursive_replace(self.model, prefix="model")
+
+    def create_attention_instances(self) -> dict[int, Attention]:
+        """
+        Create `Attention` instances to inform KV cache allocation.
+        """
+        text_config = self.text_config
+
+        num_heads = self.model_config.get_num_attention_heads(self.parallel_config)
+        head_size = self.model_config.get_head_size()
+        num_kv_heads = self.model_config.get_num_kv_heads(self.parallel_config)
+        logits_soft_cap = getattr(text_config, "attn_logit_softcapping", None)
+
+        # In encoder models, the attention layers will have `is_causal=False`
+        is_encoder = lambda module: not getattr(module, "is_causal", True)
+        has_encoder = lambda model: any(is_encoder(m) for m in model.modules())
+        is_multimodal = lambda config: config != config.get_text_config()
+        # vLLM does not support encoder-decoder models, so if any encoder layer is
+        # found in a text only model, we assume the whole model is an encoder model
+        if has_encoder(self.model) and not is_multimodal(self.config):
+            self.check_version("5.0.0.dev0", "encoder models support")
+            attn_type = AttentionType.ENCODER_ONLY
+        else:
+            attn_type = AttentionType.DECODER
+
+        pp_rank = self.pp_group.rank_in_group
+        pp_size = self.pp_group.world_size
+        start, end = get_pp_indices(text_config.num_hidden_layers, pp_rank, pp_size)
+
+        attention_instances = {}
+        for i in range(start, end):
+            # Handle interleaved sliding window attention
+            per_layer_sliding_window = None
+            if (
+                hasattr(self.config, "layer_types")
+                and self.config.layer_types[i] == "sliding_attention"
+            ):
+                per_layer_sliding_window = self.config.sliding_window
+
+            attn_cls = (
+                EncoderOnlyAttention
+                if attn_type == AttentionType.ENCODER_ONLY
+                else Attention
+            )
+            attention_instances[i] = attn_cls(
+                num_heads=num_heads,
+                head_size=head_size,
+                # NOTE: We use Llama scale as default, if it's set by
+                # Transformers, it's updated in vllm_flash_attention_forward
+                scale=head_size**-0.5,
+                num_kv_heads=num_kv_heads,
+                cache_config=self.cache_config,
+                quant_config=self.quant_config,
+                logits_soft_cap=logits_soft_cap,
+                per_layer_sliding_window=per_layer_sliding_window,
+                prefix=f"{i}.attn",
+                attn_type=attn_type,
+            )
+        return attention_instances
+
+    def init_parameters(self, module: nn.Module, dtype: torch.dtype | None = None):
+        """
+        If a `parameter` is on the `meta` device, then its parent
+        `module` is the original module created by:
+
+        ```python
+        with torch.device("meta"):
+            self.model: "PreTrainedModel" = AutoModel.from_config(...)
+        ```
+        """
+
+        def _init_parameters(module: nn.Module, dtype: torch.dtype | None):
+            for name, param in module.named_parameters(recurse=False):
+                if param.device == torch.device("meta"):
+                    new_param = nn.Parameter(
+                        torch.empty_like(
+                            param.data,
+                            dtype=dtype or self.model_config.dtype,
+                            device=self.device_config.device,
+                        )
+                    )
+                    setattr(module, name, new_param)
+            for child in module.children():
+                _init_parameters(child, dtype)
+
+        _init_parameters(module, dtype)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        inputs_embeds = self.model.get_input_embeddings()(input_ids)
+        if self.embed_scale is not None:
+            inputs_embeds *= self.embed_scale
+        return inputs_embeds
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        if not self.pp_group.is_first_rank:
+            assert intermediate_tensors is not None
+            input_ids = None
+            inputs_embeds = intermediate_tensors["hidden_states"]
+
+        if input_ids is not None:
+            input_ids = input_ids[None, ...]
+        if inputs_embeds is not None:
+            inputs_embeds = inputs_embeds[None, ...]
+
+        # If the model scales embeddings inside the input embedding layer we must
+        # ensure they are scaled here since VocabParallelEmbedding will not do it
+        if (
+            self.embed_scale is not None
+            and input_ids is not None
+            and inputs_embeds is None
+        ):
+            inputs_embeds = self.embed_input_ids(input_ids)
+            input_ids = None
+
+        if self.model_config.uses_mrope:
+            position_ids = positions[:, None]
+        else:
+            position_ids = positions[None, ...]
+
+        hidden_states = self.model(
+            input_ids=input_ids,
+            inputs_embeds=inputs_embeds,
+            use_cache=False,
+            position_ids=position_ids,
+            attention_instances=self.attention_instances,
+            return_dict=False,
+            **kwargs,
+        )[0][0, ...]  # we remove batch dimension for now
+
+        if not self.pp_group.is_last_rank:
+            return IntermediateTensors({"hidden_states": hidden_states})
+
+        return hidden_states
+
+    def load_weights(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=self.skip_prefixes,
+            skip_substrs=self.skip_substrs,
+            ignore_unexpected_prefixes=self.ignore_unexpected_prefixes,
+            ignore_unexpected_suffixes=self.ignore_unexpected_suffixes,
+        )
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    @staticmethod
+    def check_version(min_version: str, feature: str):
+        installed = Version(transformers.__version__)
+        required = Version(min_version)
+        if installed < required:
+            raise ImportError(
+                f"Transformers modeling backend requires transformers>={required} "
+                f"for {feature}, but got {installed}"
+            )
diff --git a/model_executor/models/transformers/causal.py b/model_executor/models/transformers/causal.py
new file mode 100644
index 0000000..b2865ed
--- /dev/null
+++ b/model_executor/models/transformers/causal.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend mixin for causal language models."""
+
+from typing import TYPE_CHECKING
+
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.models.interfaces_base import VllmModelForTextGeneration
+from vllm.model_executor.models.utils import PPMissingLayer, maybe_prefix
+
+if TYPE_CHECKING:
+    import torch
+
+    from vllm.config import VllmConfig
+
+
+class CausalMixin(VllmModelForTextGeneration):
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        # Skip VllmModelForTextGeneration.__init__ and call the next class in MRO
+        super(VllmModelForTextGeneration, self).__init__(
+            vllm_config=vllm_config, prefix=prefix
+        )
+
+        # Tell `Base.load_weights` to skip
+        # `lm_head` if the model has tied word embeddings
+        if self.text_config.tie_word_embeddings:
+            self.skip_prefixes.append("lm_head.")
+
+        if self.pp_group.is_last_rank:
+            self.lm_head = ParallelLMHead(
+                self.text_config.vocab_size,
+                self.text_config.hidden_size,
+                quant_config=self.quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if self.text_config.tie_word_embeddings:
+                self.lm_head = self.lm_head.tie_weights(
+                    self.model.get_input_embeddings()
+                )
+
+            logit_scale = getattr(self.text_config, "logit_scale", 1.0)
+            self.logits_processor = LogitsProcessor(
+                self.text_config.vocab_size, scale=logit_scale
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+
+    def compute_logits(self, hidden_states: "torch.Tensor") -> "torch.Tensor | None":
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
diff --git a/model_executor/models/transformers/legacy.py b/model_executor/models/transformers/legacy.py
new file mode 100644
index 0000000..aca630b
--- /dev/null
+++ b/model_executor/models/transformers/legacy.py
@@ -0,0 +1,90 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend mixin for legacy models."""
+
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.model_executor.models.utils import WeightsMapper
+from vllm.sequence import IntermediateTensors
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+
+class LegacyMixin:
+    hf_to_vllm_mapper = WeightsMapper(
+        # These are applied in order, so the order matters!
+        orig_to_new_prefix={
+            # Handle BERT-like models
+            "roberta": "model",
+            "bert": "model",
+        },
+        orig_to_new_suffix={
+            # Replace legacy suffixes used for norms
+            ".gamma": ".weight",
+            ".beta": ".bias",
+        },
+    )
+
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        # Skip unsupported/unwanted output embeddings layers
+        self.skip_prefixes.extend(
+            [
+                "model.lm_head.",
+                "model.predictions.",
+                "model.qa_outputs.",
+                "model.embeddings_project.",
+                "model.discriminator_predictions.",
+            ]
+        )
+
+        # Some encoder models have the position_ids buffer in the checkpoint.
+        # vLLM will always pass position_ids as an argument, so we skip loading
+        # the buffer if it exists
+        self.skip_substrs.append("position_ids")
+
+        # Some encoder models have the bias of the final classifier layer
+        # in the checkpoint. vLLM does not use this bias, so we skip loading
+        # it if it exists
+        self.skip_substrs.append("score.bias")
+
+        # roberta-like models an extra padding in positions.
+        # FIXME(Isotr0py): This is quite hacky for roberta edge case,
+        # we should find a better way to handle this.
+        self.is_roberta = "roberta" in self.text_config.model_type
+        self.padding_idx = self.text_config.pad_token_id
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if self.is_roberta:
+            # RoBERTa-specific positions padding
+            positions += self.padding_idx + 1
+        return super().forward(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
diff --git a/model_executor/models/transformers/moe.py b/model_executor/models/transformers/moe.py
new file mode 100644
index 0000000..4973014
--- /dev/null
+++ b/model_executor/models/transformers/moe.py
@@ -0,0 +1,318 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend mixin for Mixture of Experts (MoE) models."""
+
+from typing import TYPE_CHECKING, Any
+
+import torch
+import torch.nn as nn
+
+from vllm.config.utils import getattr_iter
+from vllm.distributed import get_dp_group, get_ep_group
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.models.interfaces import MixtureOfExperts
+from vllm.model_executor.models.utils import maybe_prefix
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op
+
+from .utils import log_replacement
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+
+@CustomOp.register("transformers_fused_moe")
+class TransformersFusedMoE(FusedMoE):
+    """Custom FusedMoE for the Transformers modeling backend."""
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self._topk_ids: torch.Tensor = None
+
+        def custom_routing_function(hidden_states, gating_output, topk, renormalize):
+            """Return `topk_weights` from `gating_output` and the
+            `topk_ids` we stored in the layer earlier."""
+            topk_weights = gating_output
+            topk_ids = self._topk_ids
+            # Handle all gather in expert parallel
+            if topk_ids.size(0) != hidden_states.size(0):
+                dp_metadata = get_forward_context().dp_metadata
+                sizes = dp_metadata.get_chunk_sizes_across_dp_rank()
+                is_sp = self.is_sequence_parallel
+                dist_group = get_ep_group() if is_sp else get_dp_group()
+                assert sizes[dist_group.rank_in_group] == topk_ids.shape[0]
+                (topk_ids,) = dist_group.all_gatherv([topk_ids], 0, sizes)
+            return topk_weights, topk_ids
+
+        self.custom_routing_function = custom_routing_function
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        topk_ids: torch.Tensor,
+        topk_weights: torch.Tensor,
+        **kwargs: Any,
+    ) -> torch.Tensor:
+        """In Transformers `experts.forward` will have this signature.
+
+        We discard any extra kwargs because we cannot use them here."""
+        return torch.ops.vllm.transformers_moe_forward(
+            hidden_states,
+            topk_ids.to(torch.int32),
+            topk_weights.to(torch.float32),
+            self.layer_name,
+        )
+
+
+def transformers_moe_forward(
+    hidden_states: torch.Tensor,
+    topk_ids: torch.Tensor,
+    topk_weights: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    """Store the `topk_ids` in the layer and call the actual forward."""
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self._topk_ids = topk_ids
+    # Clone hidden_states because it will be mutated in-place in FusedMoE
+    return self.forward_impl(hidden_states.clone(), topk_weights)
+
+
+def transformers_moe_forward_fake(
+    hidden_states: torch.Tensor,
+    topk_ids: torch.Tensor,
+    topk_weights: torch.Tensor,
+    layer_name: str,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+direct_register_custom_op(
+    op_name="transformers_moe_forward",
+    op_func=transformers_moe_forward,
+    mutates_args=["hidden_states"],
+    fake_impl=transformers_moe_forward_fake,
+    dispatch_key=current_platform.dispatch_key,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
+
+
+class MoEMixin(MixtureOfExperts):
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        self.check_version("5.0.0.dev0", "MoE models support")
+        # Skip MixtureOfExperts.__init__ and call the next class in MRO
+        super(MixtureOfExperts, self).__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ):
+        for moe_layer_idx, mlp_layer in enumerate(self.mlp_moe_layers):
+            mlp_layer.experts.set_eplb_state(
+                moe_layer_idx=moe_layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ):
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for mlp in self.mlp_moe_layers:
+            mlp.n_local_physical_experts = num_local_physical_experts
+            mlp.n_physical_experts = num_physical_experts
+            mlp.n_redundant_experts = self.num_redundant_experts
+            mlp.experts.update_expert_map()
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        """
+        Params for weights, fp8 weight scales, fp8 activation scales
+        (param_name, weight_name, expert_id, shard_id)
+        """
+        ckpt_names = [
+            # (ckpt_gate_proj_name, ckpt_down_proj_name, ckpt_up_proj_name)
+            ("gate_proj", "down_proj", "up_proj"),  # Most common MoE style
+            ("w1", "w2", "w3"),  # Granite, Mixtral, Phi MoE style
+            ("linear", "linear_1", "linear_v"),  # Grok1 style
+        ]
+        num_experts = self.model_config.get_num_experts()
+        num_redundant_experts = self.parallel_config.eplb_config.num_redundant_experts
+        expert_mapping = []
+        for gate_proj, down_proj, up_proj in ckpt_names:
+            expert_mapping.extend(
+                FusedMoE.make_expert_params_mapping(
+                    ckpt_gate_proj_name=gate_proj,
+                    ckpt_down_proj_name=down_proj,
+                    ckpt_up_proj_name=up_proj,
+                    num_experts=num_experts,
+                    num_redundant_experts=num_redundant_experts,
+                )
+            )
+        return expert_mapping
+
+    def recursive_replace(self):
+        """Initialize the MoE layers."""
+        text_config = self.text_config
+
+        # Positional arguments
+        num_experts = self.model_config.get_num_experts()
+        top_k = getattr_iter(text_config, ["num_experts_per_tok", "top_k"], None)
+        assert top_k is not None
+        hidden_size = text_config.hidden_size
+        intermediate_size = getattr_iter(
+            text_config, ["moe_intermediate_size", "intermediate_size"], None
+        )
+        assert intermediate_size is not None
+
+        # If there are shared experts, the results are
+        # reduced after mlp.forward() not inside FusedMoE
+        num_shared_experts = getattr_iter(
+            text_config,
+            [
+                "n_shared_experts",  # DeepSeek, Docs, GLM
+                "moe_num_shared_experts",  # Aria, Ernie
+            ],
+            0,
+        )
+        reduce_results = num_shared_experts == 0
+
+        def add_all_reduce(mlp: nn.Module):
+            """Adds an all-reduce to the output of `mlp.forward()`."""
+
+            class MLPWithAllReduce(mlp.__class__):
+                def forward(self, *args, **kwargs):
+                    output = super().forward(*args, **kwargs)
+                    return self.experts.maybe_all_reduce_tensor_model_parallel(output)
+
+            mlp.__class__ = MLPWithAllReduce
+
+        # Unused kwargs since we use custom_routing_function:
+        # - `scoring_func` and `e_score_correction_bias` only used for grouped
+        #    topk routing inside vLLM and are non-trivial to infer
+        #    and hard code `use_grouped_topk=False`
+        # - `renormalize` passed anyway because it's easy to infer
+        # - `num_expert_group` and `topk_group` used for inferring expert
+        #    placement strategy in FusedMoE
+        # - `apply_router_weight_on_input` is already applied in Transformers
+        renormalize = getattr(text_config, "norm_topk_prob", top_k > 1)
+        num_expert_group = getattr(text_config, "n_group", None)
+        topk_group = getattr(text_config, "topk_group", None)
+
+        # MoE activation function
+        activation = "silu"
+        wrapped_arch = self.config.architectures[0].lower()
+        if "gptoss" in wrapped_arch:
+            activation = "swigluoai"
+        elif "grok1" in wrapped_arch:
+            activation = "gelu"
+
+        # Expert mapping for `AutoWeightsLoader`
+        expert_mapping = self.get_expert_mapping()
+
+        # Expert parallel load balancing kwargs
+        enable_eplb = self.parallel_config.enable_eplb
+        num_redundant_experts = self.parallel_config.eplb_config.num_redundant_experts
+
+        # MixtureOfExperts mixin settings
+        ep_size = get_ep_group().world_size
+
+        self.mlp_moe_layers = []  # Used for MixtureOfExperts methods
+        self.moe_layers = []
+        self.expert_weights = []
+        self.num_moe_layers = 0
+        self.num_expert_groups = 1 if num_expert_group is None else num_expert_group
+        self.num_logical_experts = num_experts
+        self.num_physical_experts = num_experts + num_redundant_experts
+        self.num_local_physical_experts = self.num_physical_experts // ep_size
+        self.num_routed_experts = num_experts
+        self.num_shared_experts = num_shared_experts
+        self.num_redundant_experts = num_redundant_experts
+
+        # Recursively fuse MoE layers
+        def _recursive_replace(module: nn.Module, prefix: str):
+            for child_name, child_module in module.named_children():
+                qual_name = maybe_prefix(prefix, child_name)
+                if child_name == "experts" and isinstance(child_module, nn.ModuleList):
+                    # Alias for readability
+                    mlp = module
+                    experts = child_module
+                    # Do the experts have biases
+                    has_bias = False
+                    for experts_param_name, _ in experts.named_parameters():
+                        if "bias" in experts_param_name:
+                            has_bias = True
+                            break
+                    # Double check there are no shared experts
+                    nonlocal reduce_results
+                    if reduce_results:
+                        for mlp_param_name, _ in mlp.named_parameters():
+                            if "shared_expert" in mlp_param_name:
+                                reduce_results = False
+                                # If the config does not specify num_shared_experts, but
+                                # the model has shared experts, we assume there is one.
+                                self.num_shared_experts = 1
+                                break
+                    # Replace experts module with FusedMoE
+                    fused_experts = TransformersFusedMoE(
+                        num_experts=num_experts,
+                        top_k=top_k,
+                        hidden_size=hidden_size,
+                        intermediate_size=intermediate_size,
+                        reduce_results=reduce_results,
+                        renormalize=renormalize,
+                        # Hard coded because topk happens in Transformers
+                        use_grouped_topk=False,
+                        num_expert_group=num_expert_group,
+                        topk_group=topk_group,
+                        quant_config=self.quant_config,
+                        prefix=qual_name,
+                        activation=activation,
+                        enable_eplb=enable_eplb,
+                        num_redundant_experts=num_redundant_experts,
+                        has_bias=has_bias,
+                        expert_mapping=expert_mapping,
+                    )
+                    mlp.experts = fused_experts
+                    log_replacement(qual_name, experts, fused_experts)
+                    # Update MixtureOfExperts mixin state
+                    self.mlp_moe_layers.append(mlp)
+                    self.moe_layers.append(fused_experts)
+                    self.expert_weights.append(fused_experts.get_expert_weights())
+                    self.num_moe_layers += 1
+                    # If results are not all-reduced in FusedMoE, ensure they
+                    # are all-reduced at the end of mlp.forward() if tensor
+                    # parallel or expert parallel is enabled
+                    if not reduce_results and (
+                        fused_experts.tp_size > 1 or fused_experts.ep_size > 1
+                    ):
+                        add_all_reduce(mlp)
+                else:
+                    _recursive_replace(child_module, prefix=qual_name)
+
+        _recursive_replace(self.model, prefix="model")
+        # Continue with the replacement of layers in Base
+        super().recursive_replace()
diff --git a/model_executor/models/transformers/multimodal.py b/model_executor/models/transformers/multimodal.py
new file mode 100644
index 0000000..ccf6053
--- /dev/null
+++ b/model_executor/models/transformers/multimodal.py
@@ -0,0 +1,411 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend mixin for multi-modal models."""
+
+from collections.abc import Mapping
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.config.utils import getattr_iter
+from vllm.model_executor.models.interfaces import SupportsMRoPE, SupportsMultiModal
+from vllm.model_executor.models.utils import WeightsMapper
+from vllm.multimodal import MultiModalKwargsItems
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalUUIDDict,
+    PlaceholderRange,
+)
+from vllm.multimodal.parse import ImageProcessorItems, MultiModalDataItems
+from vllm.multimodal.processing import BaseMultiModalProcessor, BaseProcessingInfo
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+
+if TYPE_CHECKING:
+    from transformers import BatchFeature
+
+    from vllm.config import VllmConfig
+    from vllm.config.multimodal import BaseDummyOptions
+
+DYNAMIC_ARG_DIMS = {
+    "input_ids": 0,
+    # set `positions` to last dim to support Qwen-mrope
+    "positions": -1,
+    "intermediate_tensors": 0,
+    "inputs_embeds": 0,
+}
+
+
+class MultiModalProcessingInfo(BaseProcessingInfo):
+    def get_supported_mm_limits(self):
+        return {"image": None}
+
+    def get_mm_max_tokens_per_item(self, seq_len, mm_counts):
+        return {"image": self.get_max_image_tokens()}
+
+    def get_max_image_tokens(self) -> int:
+        width, height = self.get_max_image_size()
+        processor = self.get_hf_processor()
+        multimodal_config = self.ctx.model_config.multimodal_config
+        mm_processor_kwargs = multimodal_config.mm_processor_kwargs or {}
+        mm_tokens = processor._get_num_multimodal_tokens(
+            image_sizes=([height, width],), **mm_processor_kwargs
+        )
+        image_tokens = mm_tokens["num_image_tokens"][0]
+        return image_tokens
+
+    def get_max_image_size(self):
+        return 10_000, 10_000  # hardcode for arbitrary very large size
+
+
+class MultiModalDummyInputsBuilder(BaseDummyInputsBuilder[MultiModalProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        if "gemma3" in processor.__class__.__name__.lower():
+            image_token = processor.boi_token
+        else:
+            image_token = getattr(processor, "image_token", "")
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, "BaseDummyOptions"] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = self.info.get_max_image_size()
+
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=target_width,
+                height=target_height,
+                num_images=num_images,
+                overrides=image_overrides,
+            ),
+        }
+
+
+class MultiModalProcessor(BaseMultiModalProcessor[MultiModalProcessingInfo]):
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ):
+        """
+        Given the original multi-modal items for this modality
+        and HF-processed data, output the updates to perform.
+
+        The information returned by this method is used to update token inputs
+        which bypass the HF processor. It is also used to update the output of
+        HF processor if the HF process does not apply prompt updates to text
+        inputs.
+
+        Moreover, this information is critical to determine the token positions
+        in order to construct  :class:`~vllm-multimodal.input.PlaceholderRange`
+        for each multi-modal item.
+        """
+        return None
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: "BatchFeature",
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        # HF Processors always return a mask but vLLM doesn't need it
+        hf_inputs.pop("attention_mask", None)
+        num_image_patches = hf_inputs.get("num_image_patches")
+        mm_fields = {
+            key: MultiModalFieldConfig.flat_from_sizes("image", num_image_patches)
+            for key in hf_inputs
+        }
+        mm_fields["image_embeds"] = MultiModalFieldConfig.flat_from_sizes(
+            "image", num_image_patches
+        )
+
+        # Keep these as batched, as they always have batch size as first dim
+        mm_fields["image_grid_thw"] = MultiModalFieldConfig.batched("image")
+        mm_fields["video_grid_thw"] = MultiModalFieldConfig.batched("image")
+        mm_fields["num_image_patches"] = MultiModalFieldConfig.batched("image")
+        return mm_fields
+
+    def _get_hf_mm_data(
+        self,
+        mm_items: MultiModalDataItems,
+    ) -> tuple[Mapping[str, object], Mapping[str, object]]:
+        """
+        In contrast to the base class, this method always adds
+        `return_mm_token_type_ids` to the processor data
+        """
+        processor_data, passthrough_data = super()._get_hf_mm_data(mm_items)
+        processor_data["return_mm_token_type_ids"] = True
+        return processor_data, passthrough_data
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        """
+        Process multi-modal inputs to be used in vLLM.
+
+        Apply HF Processor on prompt text and multi-modal data together,
+        outputting token IDs and processed tensors.
+        """
+        if tokenization_kwargs is None:
+            tokenization_kwargs = {}
+
+        mm_items = self._to_mm_items(mm_data)
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+        if not isinstance(prompt, str):
+            # the prompt is the tokenized ids which is not supported
+            # by the hf_processor, which is why we would need to decode the ids
+            # into string
+            prompt = hf_processor.decode(prompt)
+
+        # Bypass cached processor and always apply to the full set of mm inputs
+        # NOTE: we can't just set caching=False because base class method
+        # transforms outputs to `MultiModalKwargs` which is not going to
+        # work for Transformers. We have a lot of logic tied to
+        # `mm_tokens_per_modality` below
+        prompt_ids, processed_data, _ = self._apply_hf_processor_text_mm(
+            prompt_text=prompt,
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        # For gemma3 we check `token_type_ids` as the key
+        token_type_key = (
+            "mm_token_type_ids"
+            if "mm_token_type_ids" in processed_data
+            else "token_type_ids"
+        )
+        mm_token_type_ids = processed_data.pop(token_type_key)
+
+        # We can infer vLLM style placeholder from token type ids, if we split
+        # it for each input `mm_data`.
+        mm_positions = torch.where(mm_token_type_ids == 1)[1]
+        images = mm_items.get_items("image", ImageProcessorItems)
+        multimodal_config = self.info.ctx.model_config.multimodal_config
+        mm_processor_kwargs = multimodal_config.mm_processor_kwargs or {}
+        image_sizes = []
+        for item_idx in range(len(images)):
+            image_size = images.get_image_size(item_idx)
+            image_sizes.append((image_size.height, image_size.width))
+
+        mm_tokens_per_modality = hf_processor._get_num_multimodal_tokens(
+            image_sizes=image_sizes, **mm_processor_kwargs
+        )
+
+        mm_placeholders = {}
+        split_sizes = mm_tokens_per_modality["num_image_tokens"]
+        if split_sizes:
+            chunked_mm_positions = torch.split(mm_positions, split_sizes)
+            mm_tokens = torch.tensor(prompt_ids)[mm_token_type_ids[0].bool()]
+            chunked_mm_tokens = torch.split(mm_tokens, split_sizes)
+            ranges = [
+                PlaceholderRange(
+                    offset=positions[0].item(),
+                    length=positions.shape[0],
+                    is_embed=(mm_tokens == hf_processor.image_token_id).bool(),
+                )
+                for positions, mm_tokens in zip(chunked_mm_positions, chunked_mm_tokens)
+            ]
+            mm_placeholders = {"image": ranges}
+
+        processed_data["num_image_patches"] = torch.tensor(
+            mm_tokens_per_modality["num_image_patches"]
+        )
+        mm_kwargs = MultiModalKwargsItems.from_hf_inputs(
+            processed_data,
+            self._get_mm_fields_config(processed_data, hf_processor_mm_kwargs),
+        )
+
+        # Use overrides if provided; fallback to data-dependent hashing.
+        mm_hashes = self._hash_mm_items(
+            mm_items, hf_processor_mm_kwargs, tokenization_kwargs, mm_uuids=mm_uuids
+        )
+
+        return MultiModalInputs(
+            type="multimodal",
+            prompt_token_ids=prompt_ids,
+            mm_kwargs=mm_kwargs,
+            mm_hashes=mm_hashes,
+            mm_placeholders=mm_placeholders,
+        )
+
+
+class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
+    supports_multimodal_raw_input_only = True
+    merge_by_field_config = True
+    # Backwards compatibility for prev released models. State dicts back then
+    # had different formats and cannot be loaded with `AutoModel` mapping as is
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "language_model.model": "model.language_model",
+            "text_model.model": "model.text_model",
+            "vision_tower": "model.vision_tower",
+            "vqmodel": "model.vqmodel",
+            "visual": "model.visual",
+            "vision_model": "model.vision_model",
+            "vision_embed_tokens": "model.vision_embed_tokens",
+            "image_newline": "model.image_newline",
+            "multi_modal_projector": "model.multi_modal_projector",
+            "text_model.lm_head": "lm_head",
+            "language_model.lm_head": "lm_head",
+            # Qwen models used "model" as the name for the language model.
+            # Therefore, we must map each of submodule explicitly to avoid
+            # conflicts with newer models that use "model.language_model".
+            "model.embed_tokens": "model.language_model.embed_tokens",
+            "model.layers": "model.language_model.layers",
+            "model.norm": "model.language_model.norm",
+        }
+    )
+
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        # Skip SupportsMRoPE.__init__ and call the next class in MRO
+        super(SupportsMRoPE, self).__init__(vllm_config=vllm_config, prefix=prefix)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        # Gemma3 and PaliGemma needs `token_type_ids` to work correctly
+        # Other models will not have `token_type_ids` in kwargs
+        kwargs = {k: v for k, v in kwargs.items() if k == "token_type_ids"}
+        model_output = super().forward(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+        return model_output
+
+    def get_language_model(self) -> torch.nn.Module:
+        """Transformers modeling backend multimodal classes do not contain a separate
+        vLLM language model class. Therefore, in order to return a language model vLLM
+        class, we use a wrapper to give `self` the same interface as a text model."""
+
+        # Exclude self and object
+        bases = self.__class__.mro()[1:-1]
+        # Keep only classes defined in `vllm.model_executor.models.transformers`
+        bases = [b for b in bases if ".transformers." in b.__module__]
+        # Exclude MultiModalMixin itself
+        bases = [b for b in bases if b is not MultiModalMixin]
+
+        class LanguageModel(*bases):
+            def __init__(self, multimodal_model):
+                # Don't call super().__init__() to avoid re-initialization
+                self.__dict__.update(multimodal_model.__dict__)
+
+            model = getattr_iter(self.model, ("language_model", "text_model"), None)
+
+        return LanguageModel(self)
+
+    def embed_multimodal(self, **kwargs):
+        pixel_values: torch.Tensor | None = kwargs.pop("pixel_values", None)
+        image_embeds: torch.Tensor | None = kwargs.pop("image_embeds", None)
+        # Model might use `image_patches` instead of `pixel_values`
+        if pixel_values is None:
+            pixel_values = kwargs.pop("image_patches", None)
+
+        if image_embeds is not None:
+            return image_embeds
+
+        if pixel_values is None:
+            return None
+
+        num_image_patches = kwargs.pop("num_image_patches")
+        kwargs.pop("token_type_ids", None)  # used only in `forward`
+        if pixel_values is not None:
+            vision_embeddings = self.model.get_image_features(pixel_values, **kwargs)
+
+            if isinstance(vision_embeddings, torch.Tensor):
+                if vision_embeddings.ndim == 2:
+                    vision_embeddings = vision_embeddings.unsqueeze(0)
+
+                # Embeddings have to be 2D tensors of length `num_images`
+                # but transformers returns concat tensors if each patch
+                # is of different size. We split it back to make vLLM happy
+                vision_embeddings = torch.split(
+                    vision_embeddings, num_image_patches.flatten().tolist()
+                )
+                vision_embeddings = [
+                    embed.flatten(start_dim=0, end_dim=-2)
+                    for embed in vision_embeddings
+                ]
+
+            return vision_embeddings
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        mm_features: list[MultiModalFeatureSpec],
+    ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        if any(
+            v
+            for k, v in kwargs.items()
+            if k not in {"image_grid_thw", "video_grid_thw"}
+        ):
+            raise NotImplementedError(
+                "Transformers modeling backend only supports images."
+            )
+
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
+
+        mrope_positions, mrope_position_delta = self.model.get_rope_index(
+            input_ids=torch.tensor(input_tokens).unsqueeze(0),
+            image_grid_thw=image_grid_thw,
+            video_grid_thw=video_grid_thw,
+        )
+
+        mrope_positions = mrope_positions[:, 0]
+        mrope_position_delta = mrope_position_delta[0].item()
+
+        return mrope_positions, mrope_position_delta
diff --git a/model_executor/models/transformers/pooling.py b/model_executor/models/transformers/pooling.py
new file mode 100644
index 0000000..4c2a74b
--- /dev/null
+++ b/model_executor/models/transformers/pooling.py
@@ -0,0 +1,119 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend mixins for pooling models."""
+
+from typing import TYPE_CHECKING
+
+import torch
+from transformers import AutoModelForSequenceClassification
+
+from vllm.config.utils import getattr_iter
+from vllm.model_executor.layers.pooler import (
+    ClassifierPooler,
+    CLSPool,
+    DispatchPooler,
+    Pooler,
+)
+from vllm.model_executor.models.interfaces import SupportsCrossEncoding
+from vllm.model_executor.models.interfaces_base import VllmModelForPooling
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+
+class EmbeddingMixin(VllmModelForPooling):
+    default_pooling_type = "CLS"
+
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        # Skip VllmModelForPooling.__init__ and call the next class in MRO
+        super(VllmModelForPooling, self).__init__(
+            vllm_config=vllm_config, prefix=prefix
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        self.pooler = DispatchPooler(
+            {
+                "token_embed": Pooler.for_token_embed(pooler_config),
+                "embed": Pooler.for_embed(pooler_config),
+            }
+        )
+
+
+class SequenceClassificationMixin(SupportsCrossEncoding, VllmModelForPooling):
+    default_pooling_type = "CLS"
+
+    def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
+        # Skip VllmModelForPooling.__init__ and call the next class in MRO
+        super(VllmModelForPooling, self).__init__(
+            vllm_config=vllm_config, prefix=prefix
+        )
+
+        pooler_config = vllm_config.model_config.pooler_config
+        assert pooler_config is not None
+
+        # Certain information about the the model and classifier can only be
+        # inferred from the `ForSequenceClassification` class. Therefore, we
+        # instantiate it on the "meta" device to avoid allocating GPU memory.
+        with torch.device("meta"):
+            seq_cls_model = AutoModelForSequenceClassification.from_config(
+                self.config,
+                dtype=self.model_config.dtype,
+                trust_remote_code=self.model_config.trust_remote_code,
+            )
+
+        # When used for sequence classification, some models have their
+        # pooling layers removed. Make sure this is reflected in vLLM.
+        for module in seq_cls_model.modules():
+            if hasattr(module, "pooler") and module.pooler is None:
+                self.model.pooler = None
+                break
+
+        # Unlike `lm_head`, `classifier` is not always `nn.Linear`.
+        self.classifier = getattr_iter(seq_cls_model, ["classifier", "score"], None)
+        if self.classifier is None:
+            raise ValueError(
+                "Could not find `classifier` or `score` layer in the "
+                "`AutoModelForSequenceClassification` instance."
+            )
+        self.init_parameters(self.classifier, dtype=self.model_config.head_dtype)
+
+        class ClassifierWithReshape(self.classifier.__class__):
+            """CLSPool has already been applied in `pooling`.
+            Add dim to match expected input shape of `classifier.forward`."""
+
+            def forward(self, *args, **kwargs):
+                if len(args) > 0:
+                    args = (args[0].unsqueeze(1), *args[1:])
+                return super().forward(*args, **kwargs)
+
+        self.classifier.__class__ = ClassifierWithReshape
+
+        self.pooler = DispatchPooler(
+            {
+                "token_classify": Pooler.for_token_classify(
+                    pooler_config, classifier=self.classifier
+                ),
+                "classify": ClassifierPooler(
+                    pooling=CLSPool(), classifier=self.classifier, act_fn="classify"
+                ),
+                "score": ClassifierPooler(
+                    pooling=CLSPool(), classifier=self.classifier, act_fn="score"
+                ),
+            }
+        )
diff --git a/model_executor/models/transformers/utils.py b/model_executor/models/transformers/utils.py
new file mode 100644
index 0000000..517eb54
--- /dev/null
+++ b/model_executor/models/transformers/utils.py
@@ -0,0 +1,207 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 The vLLM team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Transformers modeling backend utilities."""
+
+from contextlib import contextmanager
+from pathlib import Path
+from typing import TYPE_CHECKING, Literal
+
+import torch
+from torch import nn
+
+from vllm.config.utils import getattr_iter
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm, RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.model_executor.layers.quantization import QuantizationConfig
+
+
+logger = init_logger(__name__)
+
+
+# Copied from `accelerate`
+@contextmanager
+def init_on_device_without_buffers(device: torch.device):
+    """
+    A context manager under which models are initialized with all
+    parameters on the specified device. However buffers are not
+    initialized on specified device.
+
+    Args:
+        device (`torch.device`):
+            Device to initialize all parameters on.
+    """
+
+    old_register_parameter = nn.Module.register_parameter
+
+    def register_empty_parameter(module, name, param):
+        old_register_parameter(module, name, param)
+        if param is not None:
+            param_cls = type(module._parameters[name])
+            kwargs = module._parameters[name].__dict__
+            kwargs["requires_grad"] = param.requires_grad
+            module._parameters[name] = param_cls(
+                module._parameters[name].to(device), **kwargs
+            )
+
+    tensor_constructors_to_patch = {}
+
+    def patch_tensor_constructor(fn):
+        def wrapper(*args, **kwargs):
+            kwargs["device"] = device
+            return fn(*args, **kwargs)
+
+        return wrapper
+
+    try:
+        nn.Module.register_parameter = register_empty_parameter
+        for torch_function_name in tensor_constructors_to_patch:
+            setattr(
+                torch,
+                torch_function_name,
+                patch_tensor_constructor(getattr(torch, torch_function_name)),
+            )
+        yield
+    finally:
+        nn.Module.register_parameter = old_register_parameter
+        for (
+            torch_function_name,
+            old_torch_function,
+        ) in tensor_constructors_to_patch.items():
+            setattr(torch, torch_function_name, old_torch_function)
+
+
+Style = Literal["colwise", "colwise_rep", "rowwise", "rowwise_rep", "replicate"]
+
+
+def replace_linear_class(
+    linear: nn.Linear,
+    style: Style = "replicate",
+    quant_config: "QuantizationConfig | None" = None,
+    *,
+    prefix: str = "",
+) -> ColumnParallelLinear | RowParallelLinear | ReplicatedLinear:
+    """
+    Replace nn.Linear with one of vLLM's tensor parallel linear classes.
+
+    Args:
+        linear: `nn.Linear` to be replaced.
+        style: Tensor parallel style of the new linear, e.g. "colwise".
+        quant_config: Quantization config for the new linear.
+    Returns:
+        The new linear.
+    """
+
+    if not isinstance(style, str):
+        raise ValueError(f"Unsupported parallel style type {type(style)}, expected str")
+
+    vllm_linear_cls, vllm_linear_kwargs = {
+        "colwise": (ColumnParallelLinear, {}),
+        "colwise_rep": (ColumnParallelLinear, {"gather_output": True}),
+        "rowwise": (RowParallelLinear, {}),
+        "rowwise_rep": (RowParallelLinear, {"input_is_parallel": False}),
+        "replicate": (ReplicatedLinear, {}),
+    }.get(style, (ReplicatedLinear, {}))
+
+    return vllm_linear_cls(
+        input_size=linear.in_features,
+        output_size=linear.out_features,
+        bias=linear.bias is not None,
+        quant_config=quant_config,
+        prefix=prefix,
+        return_bias=False,
+        **vllm_linear_kwargs,
+    )
+
+
+def replace_rms_norm_class(rms_norm: nn.Module, hidden_size: int) -> RMSNorm:
+    """Replace a Transformers RMSNorm with vLLM's RMSNorm.
+
+    This method assumes:
+    - Weight is stored as `weight`.
+    - Epsilon is stored as `eps` or `variance_epsilon`.
+    - `with_scale` indicates whether the layer has a weight (Gemma3n only).
+    - `var_hidden_size` is only ever used for Intern vision encoder in vLLM
+    and Transformers doesn't appear to have the same concept.
+    """
+    eps = getattr_iter(rms_norm, ("eps", "variance_epsilon"), 1e-6)
+    kwargs = {"hidden_size": hidden_size, "eps": eps}
+    # Update hidden size if weight is available
+    weight_meta = getattr(rms_norm, "weight", None)
+    if weight_meta is not None:
+        kwargs["hidden_size"] = weight_meta.size(0)
+    # Check if weight is all zeros, which indicates GemmaRMSNorm
+    # We must create a new instance because rms_norm is on meta
+    try:
+        with torch.device("cpu"):
+            weight_test = getattr(rms_norm.__class__(1), "weight", None)
+    except Exception:
+        logger.warning(
+            "Failed to determine if RMSNorm weight is centered on zero or one. "
+            "Defaulting to one."
+        )
+        weight_test = None
+    if weight_test is not None and torch.all(weight_test == 0):
+        return GemmaRMSNorm(**kwargs)
+    # Otherwise assume it's a regular RMSNorm
+    kwargs["has_weight"] = getattr(rms_norm, "with_scale", True)
+    if weight_meta is not None:
+        kwargs["dtype"] = weight_meta.dtype
+    else:
+        # No weight, fall back to weightless RMSNorm
+        kwargs["has_weight"] = False
+    return RMSNorm(**kwargs)
+
+
+def log_replacement(name: str, old_module: nn.Module, new_module: nn.Module):
+    logger.debug("%s: %s -> %s", name, old_module, new_module)
+
+
+def get_feature_request_tip(
+    model: str,
+    trust_remote_code: bool,
+) -> str:
+    hf_url = f"a discussion at https://huggingface.co/{model}/discussions/new"
+    gh_url = "an issue at https://github.com/huggingface/transformers/issues/new/choose"
+    url = hf_url if trust_remote_code else gh_url
+    prefix = f"Please open {url} to request support for this feature. "
+    if Path(model).exists():
+        prefix = ""
+    doc_url = "https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models"
+    tip = f"See {doc_url} for instructions on how to add support yourself."
+    return f"{prefix}{tip}"
+
+
+def can_enable_torch_compile(vllm_config: "VllmConfig") -> bool:
+    """
+    Callable to be passed to `@support_torch_compile`'s `enable_if` argument.
+
+    Defaults to `True` but is disabled in the following situations:
+
+    - The model uses dynamic rope scaling.
+    """
+    text_config = vllm_config.model_config.hf_config.get_text_config()
+    # Dynamic rope scaling is not compatible with torch.compile
+    rope_scaling: dict = getattr(text_config, "rope_scaling", None) or {}
+    return rope_scaling.get("rope_type") != "dynamic"
diff --git a/model_executor/models/ultravox.py b/model_executor/models/ultravox.py
new file mode 100644
index 0000000..bb0f6bd
--- /dev/null
+++ b/model_executor/models/ultravox.py
@@ -0,0 +1,681 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://github.com/fixie-ai/ultravox/blob/ecd58c4041030bae2ad15aa6bcf04ab43199ea02/ultravox/model/ultravox_model.py
+"""PyTorch Ultravox model."""
+
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Annotated, Any, Literal, TypeAlias
+
+import torch
+from torch import nn
+from torch.nn import functional as F
+from transformers import BatchFeature, ProcessorMixin
+from transformers.models.whisper import WhisperFeatureExtractor
+from transformers.models.whisper.modeling_whisper import WhisperEncoder
+
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.model_executor.layers.activation import MulAndSilu, get_act_fn
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.model_loader import DefaultModelLoader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+from vllm.multimodal.parse import MultiModalDataItems, MultiModalDataParser
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.ultravox import UltravoxConfig
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .interfaces import (
+    MultiModalEmbeddings,
+    SupportsLoRA,
+    SupportsMultiModal,
+    SupportsPP,
+)
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    flatten_bn,
+    init_vllm_registered_model,
+    maybe_prefix,
+)
+
+_AUDIO_PLACEHOLDER_OVERRIDE = "<|audio|>"
+_MAX_ENCODER_BATCH_SIZE = 16
+
+
+class UltravoxAudioFeatureInputs(TensorSchema):
+    """
+    Dimensions:
+    - b: batch size
+    - n: number of chunks
+    - t: Time frames (M)
+    - nmb: Number of mel bins
+    """
+
+    type: Literal["audio_features"]
+    data: Annotated[
+        torch.Tensor | list[torch.Tensor] | list[list[torch.Tensor]],
+        TensorShape("bn", "nmb", "t"),
+    ]
+    lens: Annotated[torch.Tensor, TensorShape("bn")]
+    """
+    Length of the audio frames per chunk. Used for attention mask in WhisperEncoder.
+    """
+    token_len: Annotated[torch.Tensor, TensorShape("bn")]
+    """Length of the audio tokens per chunk. Used for flattening the audio features."""
+    num_chunks: Annotated[torch.Tensor, TensorShape("n")]
+    """Number of chunks per audio. Used for flattening the audio features."""
+
+
+class UltravoxAudioEmbeddingInputs(TensorSchema):
+    """
+    Dimensions:
+    - b: batch size
+    - na: number of audios
+    - afs: audio feature size
+    - hs: hidden size
+    """
+
+    type: Literal["audio_embeds"]
+    data: Annotated[
+        torch.Tensor | list[torch.Tensor], TensorShape("b", "na", "afs", "hs")
+    ]
+
+
+UltravoxAudioInputs: TypeAlias = (
+    UltravoxAudioFeatureInputs | UltravoxAudioEmbeddingInputs
+)
+
+
+class UltravoxProcessingInfo(BaseProcessingInfo):
+    def get_hf_processor(self, **kwargs: object) -> ProcessorMixin:
+        config = self.ctx.model_config.hf_config
+        hf_processor = self.ctx.get_hf_processor(**kwargs)
+
+        # NOTE: Ultravox processing definition uses '<|eot_id|>' as the
+        # placeholder that will cause confusion with the actual end of turn
+        # token, thus we override placeholder with a reserved token.
+        hf_processor.audio_token_replacement = _AUDIO_PLACEHOLDER_OVERRIDE
+        hf_processor.audio_replacement_token_id = config.audio_token_index
+
+        return hf_processor
+
+    def get_feature_extractor(self, **kwargs: object) -> WhisperFeatureExtractor:
+        hf_processor = self.get_hf_processor(**kwargs)
+        audio_processor = hf_processor.audio_processor  # type: ignore
+        feature_extractor = audio_processor.feature_extractor  # type: ignore
+        assert isinstance(feature_extractor, WhisperFeatureExtractor)
+        return feature_extractor
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": None}
+
+
+class UltravoxDummyInputsBuilder(BaseDummyInputsBuilder[UltravoxProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+
+        return "<|audio|>" * num_audios
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        feature_extractor = self.info.get_feature_extractor()
+
+        sampling_rate = feature_extractor.sampling_rate
+        audio_len = (
+            feature_extractor.chunk_length * sampling_rate * _MAX_ENCODER_BATCH_SIZE
+        )
+        num_audios = mm_counts.get("audio", 0)
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=audio_len, num_audios=num_audios, overrides=audio_overrides
+            )
+        }
+
+
+class UltravoxMultiModalProcessor(BaseMultiModalProcessor[UltravoxProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return MultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        # Text-only input not supported in composite processor
+        if not mm_data.get("audios", []):
+            prompt_ids = self.info.get_tokenizer().encode(
+                prompt, add_special_tokens=False
+            )
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        mm_data = dict(mm_data)
+        audios = mm_data.pop("audios", [])
+        assert isinstance(audios, list)
+
+        feature_extractor = self.info.get_feature_extractor(**mm_kwargs)
+        mm_kwargs = dict(
+            **mm_kwargs,
+            sampling_rate=feature_extractor.sampling_rate,
+            include_audio_num_chunks=True,
+        )
+
+        item_processor_data = dict(**mm_data, audios=audios)
+
+        # some tokenizer kwargs are incompatible with UltravoxProcessor
+        tok_kwargs.pop("padding", None)
+        tok_kwargs.pop("truncation", None)
+
+        output = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=item_processor_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+        output["audio_features"] = output.pop("audio_values")
+
+        return output
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        num_chunks = hf_inputs.get("audio_num_chunks", torch.zeros(0))
+        return dict(
+            # to handle longer than 30s audio, each audio might be split
+            # into multiple chunks as such, their batch dimension can be
+            # higher than the number of audio samples
+            audio_features=MultiModalFieldConfig.flat_from_sizes("audio", num_chunks),
+            audio_token_len=MultiModalFieldConfig.flat_from_sizes("audio", num_chunks),
+            audio_lens=MultiModalFieldConfig.flat_from_sizes("audio", num_chunks),
+            # num_chunks can convert audio_chunked to audio batch dimension
+            audio_num_chunks=MultiModalFieldConfig.batched("audio"),
+            audio_embeds=MultiModalFieldConfig.batched("audio"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, Any],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        hf_processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        replacement_id = hf_processor.audio_replacement_token_id  # type: ignore
+
+        # Each audio can be split into multiple chunks.
+        # chunks_start_idx[i] indicates the start index of the chunks
+        # belonging to the i-th audio.
+        out_mm_data = out_mm_kwargs.get_data()
+        num_chunks = out_mm_data.get("audio_num_chunks", torch.zeros(0))
+        chunks_start_idx: torch.Tensor = torch.cumsum(
+            num_chunks, dim=0, dtype=torch.int32
+        )
+        chunks_start_idx = torch.cat(
+            [torch.tensor([0], dtype=torch.int32), chunks_start_idx]
+        )
+
+        def get_replacement_ultravox(item_idx: int):
+            start = chunks_start_idx[item_idx]
+            end = chunks_start_idx[item_idx + 1]
+            audio_token_len = out_mm_data["audio_token_len"][start:end].sum()
+            return [replacement_id] * int(audio_token_len)  # type: ignore
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target="<|audio|>",
+                replacement=get_replacement_ultravox,
+            )
+        ]
+
+
+class StackAudioFrames(nn.Module):
+    """
+    Stack the audio embedding frames to reduce the sequence length by a factor
+    of `stack_factor`.
+    """
+
+    def __init__(self, stack_factor: int = 8):
+        super().__init__()
+        self.stack_factor = stack_factor
+
+    def forward(self, audio_embeds: torch.Tensor) -> torch.Tensor:
+        B, T, C = audio_embeds.shape
+        T_pad = (T + self.stack_factor - 1) // self.stack_factor * self.stack_factor
+        audio_embeds = F.pad(audio_embeds, (0, 0, 0, T_pad - T))
+        B, T, C = audio_embeds.shape
+        audio_embeds = audio_embeds.view(
+            B, T // self.stack_factor, C * self.stack_factor
+        )
+        return audio_embeds
+
+
+class UltravoxProjector(nn.Module):
+    def __init__(self, config: UltravoxConfig):
+        super().__init__()
+        self.hidden_dim = config.hidden_size
+        self._pad_and_stack = StackAudioFrames(config.stack_factor)
+        dim_in = config.audio_config.hidden_size * config.stack_factor
+        self.ln_pre = RMSNorm(dim_in)
+        self.linear_1 = nn.Linear(dim_in, self.hidden_dim, bias=False)
+        dim_mid = self.hidden_dim
+
+        if config.projector_act == "swiglu":
+            self.act = MulAndSilu()
+            dim_mid = dim_mid // 2
+        else:
+            self.act = get_act_fn(config.projector_act)
+
+        dim_out = config.text_config.hidden_size
+        self.linear_2 = nn.Linear(dim_mid, dim_out, bias=False)
+
+        # Ultravox v0.4.1 and below use layer_norm after the second linear layer
+        # while v0.5.0 and above uses layer_norm after the first linear layer.
+        if config.projector_ln_mid:
+            self.ln_mid: nn.Module = RMSNorm(dim_mid)
+            self.ln_post = nn.Identity()
+        else:
+            self.ln_mid = nn.Identity()
+            self.ln_post = RMSNorm(dim_out)
+
+    def forward(self, audio_features: torch.Tensor) -> torch.Tensor:
+        audio_features = self._pad_and_stack(audio_features)
+        audio_features = self.ln_pre(audio_features)
+        hidden_states = self.linear_1(audio_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.ln_mid(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        hidden_states = self.ln_post(hidden_states)
+        return hidden_states
+
+
+class ModifiedWhisperEncoder(WhisperEncoder):
+    """
+    Encoder portion of OpenAI's Whisper model.
+
+    This implementation is a slightly modified version of HF Transformers'
+    Whisper Encoder, with only a few fixes:
+    1. base_model_prefix updated to allow for doing `.from_pretrained`
+       directly on the encoder
+    2. allow less than 30 second of audio padding to be passed in:
+        - relaxed ValueError check for `input_features` length to be less
+           than or equal to `expected_seq_length` instead of strictly equal
+        - embed_pos is now sliced to match the length of `inputs_embeds`
+
+    Original: https://github.com/huggingface/transformers/blob/main/src/transformers/models/whisper/modeling_whisper.py
+    See commentary: https://github.com/huggingface/transformers/issues/25744
+    """
+
+    base_model_prefix = "model.encoder"
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.config.is_decoder = False
+
+    @property
+    def max_context_length(self):
+        return (
+            self.config.max_source_positions
+            * self.conv1.stride[0]
+            * self.conv2.stride[0]
+        )
+
+    def get_attention_mask_by_audio_len(
+        self, audio_lens: torch.Tensor | None, hidden_states: torch.Tensor
+    ):
+        """
+        Create attention mask based on audio lengths to mask out padding tokens
+        For each sample in batch:
+        - Convert raw audio length to feature length after convolutions
+        - Create bool mask: True for valid positions and False for padding
+        - Convert to attention mask format expected by transformer layers
+        (1.0 for positions to attend to, large negative for positions to ignore)
+        This masking ensures consistent behavior between training and inference
+        by preventing the model from attending to padding tokens in both cases
+        """
+        if audio_lens is None:
+            return None
+
+        audio_feature_len = self._get_feat_extract_output_lengths(audio_lens)
+        max_seq_len = hidden_states.shape[1]
+        attention_mask = torch.arange(max_seq_len, device=hidden_states.device)[
+            None, :
+        ].lt(audio_feature_len.view(-1, 1))
+        attention_mask = self.get_extended_attention_mask(
+            attention_mask,
+            None,
+            dtype=hidden_states.dtype,
+        )
+        return attention_mask
+
+    def forward(
+        self,
+        input_features: torch.Tensor,
+        audio_lens: torch.Tensor | None = None,
+    ):
+        expected_seq_length = self.max_context_length
+        if input_features.shape[-1] > expected_seq_length:
+            raise ValueError(
+                f"Whisper expects the mel input features to be of length "
+                f"{expected_seq_length} or less, but found "
+                f"{input_features.shape[-1]}. Make sure to pad the input mel "
+                f"features to {expected_seq_length}."
+            )
+
+        inputs_embeds = nn.functional.gelu(self.conv1(input_features))
+        inputs_embeds = nn.functional.gelu(self.conv2(inputs_embeds))
+
+        inputs_embeds = inputs_embeds.permute(0, 2, 1)
+        embed_pos = self.embed_positions.weight[: inputs_embeds.size(-2)]
+
+        hidden_states = inputs_embeds + embed_pos
+        hidden_states = nn.functional.dropout(
+            hidden_states, p=self.dropout, training=self.training
+        )
+
+        attention_mask = self.get_attention_mask_by_audio_len(audio_lens, hidden_states)
+
+        for encoder_layer in self.layers:
+            layer_outputs = encoder_layer(
+                hidden_states,
+                attention_mask,
+                layer_head_mask=None,
+            )
+
+            hidden_states = layer_outputs[0]
+
+        hidden_states = self.layer_norm(hidden_states)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    UltravoxMultiModalProcessor,
+    info=UltravoxProcessingInfo,
+    dummy_inputs=UltravoxDummyInputsBuilder,
+)
+class UltravoxModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
+    merge_by_field_config = True
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={"audio_tower.model.encoder.": "audio_tower."}
+    )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("audio"):
+            return "<|audio|>"
+
+        raise ValueError("Only audio modality is supported")
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config: UltravoxConfig = vllm_config.model_config.hf_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+        self.config = config
+        self.multi_modal_config = multimodal_config
+        assert self.multi_modal_config
+
+        self.secondary_weights = []
+        self.audio_tower = ModifiedWhisperEncoder(config.audio_config)
+        if config.audio_model_id is not None:
+            # this prefix is not for initialization, but for loading weights
+            # note the trailing dot
+            self.secondary_weights.append(
+                DefaultModelLoader.Source(
+                    model_or_path=config.audio_model_id,
+                    revision=None,
+                    prefix="audio_tower.",
+                )
+            )
+        self.multi_modal_projector = UltravoxProjector(config)
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.wrapped_model_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        if config.text_model_id is not None:
+            # this prefix is not for initialization, but for loading weights
+            # note the trailing dot
+            self.secondary_weights.append(
+                DefaultModelLoader.Source(
+                    model_or_path=config.text_model_id,
+                    revision=None,
+                    prefix="language_model.",
+                )
+            )
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model.",
+            connector="multi_modal_projector.",
+            tower_model="audio_tower.",
+        )
+
+    def _audio_features_to_embeddings(
+        self, input_features: torch.Tensor, audio_lens: torch.Tensor
+    ) -> torch.Tensor:
+        audio_features = input_features.to(self.audio_tower.dtype)
+        batch_size = audio_features.size(0)
+        audio_embeddings = []
+
+        # Process audio features in batches to keep memory usage predictable
+        for start in range(0, batch_size, _MAX_ENCODER_BATCH_SIZE):
+            end = min(start + _MAX_ENCODER_BATCH_SIZE, batch_size)
+            # Process through audio tower
+            batch_features = self.audio_tower(
+                audio_features[start:end], audio_lens[start:end]
+            )
+            batch_features = batch_features.to(self.audio_tower.dtype)
+
+            # Process through projector
+            batch_embeddings = self.multi_modal_projector(batch_features)
+            audio_embeddings.append(batch_embeddings)
+
+        # Concatenate results
+        audio_embeddings = torch.cat(audio_embeddings, dim=0)
+        return audio_embeddings
+
+    def _parse_and_validate_audio_input(
+        self, **kwargs: object
+    ) -> UltravoxAudioInputs | None:
+        audio_features = kwargs.pop("audio_features", None)
+        audio_embeds = kwargs.pop("audio_embeds", None)
+        audio_lens = kwargs.pop("audio_lens", None)
+        audio_token_len = kwargs.pop("audio_token_len", None)
+        audio_num_chunks = kwargs.pop("audio_num_chunks", None)
+
+        if audio_features is None and audio_embeds is None:
+            return None
+
+        if audio_features is not None:
+            return UltravoxAudioFeatureInputs(
+                type="audio_features",
+                data=audio_features,
+                lens=audio_lens,
+                token_len=audio_token_len,
+                num_chunks=audio_num_chunks,
+            )
+
+        if audio_embeds is not None:
+            return UltravoxAudioEmbeddingInputs(type="audio_embeds", data=audio_embeds)
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_audio_input(
+        self,
+        audio_input: UltravoxAudioInputs,
+    ) -> NestedTensors | tuple[torch.Tensor, ...]:
+        if audio_input["type"] == "audio_embeds":
+            return audio_input["data"]
+
+        # Pad and concatenate audio features
+        # [[B1, 80, M1], [B2, 80, M2]] -> [B1+B2, 80, max(M1, M2)]
+        audio_features = pad_and_concat_to_dim3(audio_input["data"])
+
+        audio_lens = audio_input["lens"]
+        audio_token_len = audio_input["token_len"]
+
+        embeddings = self._audio_features_to_embeddings(audio_features, audio_lens)
+
+        # We should flatten and concatenate embeddings based on token lengths
+        # For example, with token_len = [4, 2, 3], flattened_embeddings will be
+        # concat(embeddings[0][:4], embeddings[1][:2], embeddings[2][:3])
+
+        # Create a mask of valid indices based on token lengths
+        max_len = embeddings.shape[1]
+        indices = torch.arange(max_len, device=embeddings.device).expand(
+            embeddings.shape[0], -1
+        )
+        mask = indices < audio_token_len[:, None]
+        # Apply mask and flatten
+        flattened_embeddings = embeddings[mask]
+
+        # Return one tensor per input audio
+        embed_lens = [
+            chunk_lens.sum().item()
+            for chunk_lens in audio_token_len.split(audio_input["num_chunks"].tolist())
+        ]
+        return flattened_embeddings.split(embed_lens)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        if audio_input is None:
+            return []
+        audio_embeddings = self._process_audio_input(audio_input)
+        return audio_embeddings
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        # Multi-modal token ID may exceed vocab size
+        handle_oov_mm_token: bool = True,
+    ) -> torch.Tensor:
+        # This is to satisfy the type checker for each overload
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: torch.Tensor | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Run forward pass for Ultravox
+
+        One key thing to understand is the `input_ids` already accounts for the
+        positions of the to-be-inserted audio embeddings. The to-be-inserted
+        audio has a size that is essentially 6.25 tokens per second of audio.
+
+        This way, the `positions` and `attn_metadata` are consistent
+        with the `input_ids`.
+
+        Args:
+            input_ids: Flattened (concatenated) input_ids corresponding to a
+                batch.
+            positions: Position indices for the input tokens.
+            intermediate_tensors: Intermediate tensors from prior forward pass.
+            inputs_embeds: Optional tensor of input embeddings.
+
+        """
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        language_model = self.language_model
+        if hasattr(language_model, "language_model"):
+            language_model = language_model.language_model
+
+        hidden_states = language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        return self.language_model.compute_logits(hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, ignore_unexpected_prefixes=["audio_tower."])
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+
+def pad_and_concat_to_dim3(
+    features: torch.Tensor | list[torch.Tensor] | list[list[torch.Tensor]],
+) -> torch.Tensor:
+    """
+    Pad and concatenate a list of tensors.
+
+    output:
+        Tensor of shape [B, C, M] where M is the maximum length of the input
+        tensors, B is the sum of the batch sizes of the input tensors.
+        C must be the same for all input tensors.
+    """
+    if isinstance(features, torch.Tensor):
+        if features.ndim > 3:
+            # Flatten [B, N, 80, M] -> [B * N, 80, M]
+            features = flatten_bn(features)
+
+        return features
+
+    features = [pad_and_concat_to_dim3(f) for f in features]
+
+    max_len = max(f.shape[-1] for f in features)
+    # Ensure all features have dim=3
+    features = [f.view(-1, *f.shape[-2:]) for f in features]
+    # Pad and concatenate:
+    # [[B1, 80, M1], [B2, 80, M2]] -> [B1+B2, 80, max(M1, M2)]
+    features = [F.pad(f, (0, max_len - f.shape[-1])) for f in features]
+    return torch.cat(features)
diff --git a/model_executor/models/utils.py b/model_executor/models/utils.py
new file mode 100644
index 0000000..dc8cb63
--- /dev/null
+++ b/model_executor/models/utils.py
@@ -0,0 +1,877 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+from collections.abc import Iterable, Mapping
+from dataclasses import dataclass, field
+from typing import Any, Literal, Protocol, overload
+
+import torch
+import torch.nn as nn
+from torch.func import functional_call
+from transformers import PretrainedConfig
+from typing_extensions import deprecated
+
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import supports_any_eagle
+from vllm.multimodal import NestedTensors
+from vllm.sequence import IntermediateTensors
+from vllm.utils.math_utils import cdiv
+from vllm.utils.platform_utils import (
+    is_pin_memory_available,
+    is_uva_available,
+)
+from vllm.utils.torch_utils import (
+    direct_register_custom_op,
+    get_cuda_view_from_cpu_tensor,
+)
+
+logger = init_logger(__name__)
+
+WeightsMapping = Mapping[str, str | None]
+"""If a key maps to a value of `None`, the corresponding weight is ignored."""
+
+
+@dataclass
+class WeightsMapper:
+    """Maps the name of each weight if they match the following patterns."""
+
+    orig_to_new_substr: WeightsMapping = field(default_factory=dict)
+    orig_to_new_prefix: WeightsMapping = field(default_factory=dict)
+    orig_to_new_suffix: WeightsMapping = field(default_factory=dict)
+
+    def __or__(self, other: "WeightsMapper") -> "WeightsMapper":
+        """Combine two `WeightsMapper`s by merging their mappings."""
+        return WeightsMapper(
+            orig_to_new_substr={**self.orig_to_new_substr, **other.orig_to_new_substr},
+            orig_to_new_prefix={**self.orig_to_new_prefix, **other.orig_to_new_prefix},
+            orig_to_new_suffix={**self.orig_to_new_suffix, **other.orig_to_new_suffix},
+        )
+
+    def _map_name(self, key: str) -> str | None:
+        for substr, new_key in self.orig_to_new_substr.items():
+            if substr in key:
+                if new_key is None:
+                    return None
+
+                key = key.replace(substr, new_key, 1)
+
+        for prefix, new_key in self.orig_to_new_prefix.items():
+            if key.startswith(prefix):
+                if new_key is None:
+                    return None
+
+                key = key.replace(prefix, new_key, 1)
+
+        for suffix, new_key in self.orig_to_new_suffix.items():
+            if key.endswith(suffix):
+                if new_key is None:
+                    return None
+
+                key = new_key.join(key.rsplit(suffix, 1))
+
+        return key
+
+    def apply(
+        self, weights: Iterable[tuple[str, torch.Tensor]]
+    ) -> Iterable[tuple[str, torch.Tensor]]:
+        return (
+            (out_name, data)
+            for name, data in weights
+            if (out_name := self._map_name(name)) is not None
+        )
+
+    def apply_list(self, values: list[str]) -> list[str]:
+        return [
+            out_name
+            for name in values
+            if (out_name := self._map_name(name)) is not None
+        ]
+
+    def apply_dict(self, values: dict[str, Any]) -> dict[str, Any]:
+        return {
+            out_name: value
+            for name, value in values.items()
+            if (out_name := self._map_name(name)) is not None
+        }
+
+
+class AutoWeightsLoader:
+    """
+    Helper class to load weights into a [`torch.nn.Module`][]. It is able
+    to automatically detect child modules and parameters while iterating over
+    the weights only once.
+
+    The weight loading logic for individual modules can be overridden
+    by defining a `load_weights` method.
+
+    Similarly, the weight loading logic for individual parameters can be
+    overridden by defining a `weight_loader` method.
+
+    Detailed weight loading information can be viewed by setting the
+    environment variable `VLLM_LOGGING_LEVEL=DEBUG`.
+    """
+
+    # Models trained using early version ColossalAI or quantized by
+    # GPTQModel may include these tensors in checkpoint. Skip them.
+    ROTARY_EMBEDS_UNUSED_WEIGHTS = [
+        "rotary_pos_emb.inv_freq",
+        "rotary_emb.inv_freq",
+        "rotary_emb.cos_cached",
+        "rotary_emb.sin_cached",
+    ]
+
+    def __init__(
+        self,
+        module: nn.Module,
+        *,
+        skip_prefixes: list[str] | None = None,
+        skip_substrs: list[str] | None = None,
+        ignore_unexpected_prefixes: list[str] | None = None,
+        ignore_unexpected_suffixes: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.module = module
+        self.skip_prefixes = skip_prefixes or []
+        self.skip_substrs = skip_substrs or []
+        self.ignore_unexpected_prefixes = ignore_unexpected_prefixes or []
+        self.ignore_unexpected_suffixes = ignore_unexpected_suffixes or []
+        # update default skip_substrs
+        self.skip_substrs += self.ROTARY_EMBEDS_UNUSED_WEIGHTS
+
+    def _groupby_prefix(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> Iterable[tuple[str, Iterable[tuple[str, torch.Tensor]]]]:
+        weights_by_parts = (
+            (weight_name.split(".", 1), weight_data)
+            for weight_name, weight_data in weights
+        )
+
+        for prefix, group in itertools.groupby(weights_by_parts, key=lambda x: x[0][0]):
+            yield (
+                prefix,
+                # Because maxsplit=1 in weight_name.split(...),
+                # the length of `parts` must either be 1 or 2
+                (
+                    ("" if len(parts) == 1 else parts[1], weights_data)
+                    for parts, weights_data in group
+                ),
+            )
+
+    def _get_qualname(self, prefix: str, rest: str) -> str:
+        if prefix == "":
+            return rest
+        if rest == "":
+            return prefix
+
+        return ".".join((prefix, rest))
+
+    def _can_skip(self, qualname: str) -> bool:
+        return any(qualname.startswith(p) for p in self.skip_prefixes) or any(
+            substr in qualname for substr in self.skip_substrs
+        )
+
+    def _can_ignore_unexpected(self, qualname: str) -> bool:
+        iup = (qualname.startswith(p) for p in self.ignore_unexpected_prefixes)
+        ius = (qualname.endswith(s) for s in self.ignore_unexpected_suffixes)
+        return any(iup) or any(ius)
+
+    def _load_param(
+        self,
+        base_prefix: str,
+        param: nn.Parameter,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> Iterable[str]:
+        for weight_name, weight_data in weights:
+            weight_qualname = self._get_qualname(base_prefix, weight_name)
+
+            if self._can_skip(weight_qualname):
+                logger.debug("Skipping weight %s", weight_qualname)
+
+                continue
+
+            if weight_name != "":
+                if self._can_ignore_unexpected(weight_qualname):
+                    logger.debug("Ignoring weight %s", weight_qualname)
+
+                    continue
+
+                raise ValueError(
+                    f"Attempted to load nested weight '{weight_qualname}' "
+                    f"into a single parameter '{base_prefix}'"
+                )
+
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, weight_data)
+
+            logger.debug("Loaded weight %s with shape %s", weight_qualname, param.shape)
+
+            yield weight_qualname
+
+    def _add_loadable_non_param_tensors(
+        self, module: nn.Module, child_params: dict[str, torch.Tensor]
+    ):
+        """
+        Add tensor names that are not in the model params that may be in the
+        safetensors, e.g., batch normalization stats.
+        """
+        if isinstance(
+            module,
+            (
+                nn.BatchNorm1d,
+                nn.BatchNorm2d,
+                nn.BatchNorm3d,
+                nn.LazyBatchNorm1d,
+                nn.LazyBatchNorm2d,
+                nn.LazyBatchNorm3d,
+                nn.SyncBatchNorm,
+            ),
+        ):
+            module_state_dict = module.state_dict()
+            for stat_name in ("running_mean", "running_var", "num_batches_tracked"):
+                child_params[stat_name] = module_state_dict[stat_name]
+
+    def _load_module(
+        self,
+        base_prefix: str,
+        module: nn.Module,
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> Iterable[str]:
+        if isinstance(module, PPMissingLayer):
+            return
+
+        # Avoid infinite recursion since this function is typically
+        # called inside load_weights of the module itself
+        if module != self.module:
+            module_load_weights = getattr(module, "load_weights", None)
+            if callable(module_load_weights):
+                loaded_params = module_load_weights(weights)
+                if loaded_params is None:
+                    logger.warning(
+                        "Unable to collect loaded parameters for module %s", module
+                    )
+                else:
+                    yield from map(
+                        lambda x: self._get_qualname(base_prefix, x),
+                        loaded_params,
+                    )
+
+        child_modules = dict(module.named_children())
+        child_params = dict(module.named_parameters(recurse=False))
+
+        # Add missing tensors the weight loader needs to be able to load
+        # that aren't registered as params, e.g., batchnorm statistics.
+        self._add_loadable_non_param_tensors(module, child_params)
+
+        for child_prefix, child_weights in self._groupby_prefix(weights):
+            prefix = self._get_qualname(base_prefix, child_prefix)
+
+            if child_prefix in child_modules:
+                if self._can_skip(prefix + "."):
+                    logger.debug("Skipping module %s", prefix)
+
+                    continue
+
+                yield from self._load_module(
+                    prefix, child_modules[child_prefix], child_weights
+                )
+            elif child_prefix in child_params:
+                if self._can_skip(prefix):
+                    logger.debug("Skipping param %s", prefix)
+
+                    continue
+
+                yield from self._load_param(
+                    prefix, child_params[child_prefix], child_weights
+                )
+            else:
+                can_skip_module = self._can_skip(prefix + ".")
+                can_skip_param = self._can_skip(prefix)
+                if can_skip_module or can_skip_param:
+                    logger.debug("Skipping missing %s", prefix)
+
+                    continue
+
+                can_ignore_module = self._can_ignore_unexpected(prefix + ".")
+                can_ignore_param = self._can_ignore_unexpected(prefix)
+                if can_ignore_module or can_ignore_param:
+                    logger.debug("Ignoring missing %s", prefix)
+
+                    continue
+
+                msg = (
+                    f"There is no module or parameter named '{prefix}' "
+                    f"in {type(self.module).__name__}"
+                )
+                raise ValueError(msg)
+
+    def load_weights(
+        self,
+        weights: Iterable[tuple[str, torch.Tensor]],
+        *,
+        mapper: WeightsMapper | None = None,
+    ) -> set[str]:
+        if mapper is not None:
+            weights = mapper.apply(weights)
+        # filter out weights with first-prefix/substr to skip in name
+        weights = (
+            (name, weight) for name, weight in weights if not self._can_skip(name)
+        )
+
+        autoloaded_weights = set(self._load_module("", self.module, weights))
+        return autoloaded_weights
+
+
+def init_vllm_registered_model(
+    vllm_config: VllmConfig,
+    *,
+    prefix: str = "",
+    hf_config: PretrainedConfig | None = None,
+    architectures: list[str] | None = None,
+) -> nn.Module:
+    """
+    Helper function to initialize an inner model registered to vLLM,
+    based on the arguments passed to the outer vLLM model.
+    """
+    from vllm.model_executor.model_loader.utils import initialize_model
+
+    if hf_config is None and architectures is not None:
+        # So that the architectures field is overridden
+        hf_config = vllm_config.model_config.hf_config
+
+    if hf_config is not None:
+        vllm_config = vllm_config.with_hf_config(hf_config, architectures=architectures)
+
+    return initialize_model(vllm_config=vllm_config, prefix=prefix)
+
+
+@overload
+def flatten_bn(x: torch.Tensor) -> torch.Tensor: ...
+
+
+@overload
+def flatten_bn(x: list[torch.Tensor]) -> list[torch.Tensor]: ...
+
+
+@overload
+def flatten_bn(
+    x: list[torch.Tensor] | torch.Tensor,
+    *,
+    concat: Literal[True],
+) -> torch.Tensor: ...
+
+
+@overload
+def flatten_bn(
+    x: list[torch.Tensor] | torch.Tensor,
+    *,
+    concat: bool = False,
+) -> list[torch.Tensor] | torch.Tensor: ...
+
+
+def flatten_bn(
+    x: list[torch.Tensor] | torch.Tensor,
+    *,
+    concat: bool = False,
+) -> list[torch.Tensor] | torch.Tensor:
+    """
+    Flatten the `B` and `N` dimensions of batched multimodal inputs.
+
+    The input tensor should have shape `(B, N, ...)`.
+    """
+    if isinstance(x, torch.Tensor):
+        return x.flatten(0, 1)
+
+    if concat:
+        return torch.cat(x)
+
+    return [x_n for x_b in x for x_n in x_b]
+
+
+def _flatten_embeddings(embeddings: NestedTensors) -> torch.Tensor:
+    """
+    Recursively flattens and concatenates NestedTensors on all but the last
+    dimension.
+    """
+
+    if isinstance(embeddings, torch.Tensor):
+        # Flatten all but the last dimension.
+        return embeddings.flatten(0, -2)
+
+    return torch.cat(tuple(_flatten_embeddings(t) for t in embeddings))
+
+
+def _embedding_count_expression(embeddings: NestedTensors) -> str:
+    """
+    Constructs a debugging representation of the number of embeddings in the
+    NestedTensors.
+    """
+
+    if isinstance(embeddings, torch.Tensor):
+        return " x ".join([str(dim) for dim in embeddings.shape[:-1]])
+
+    return " + ".join(_embedding_count_expression(inner) for inner in embeddings)
+
+
+def split_list_into_ranges(lst: torch.Tensor, interval: int) -> list[list[int]]:
+    ranges: list[list[int]] = [[] for _ in range((max(lst) // interval) + 1)]
+    for num in lst:
+        index = num // interval
+        ranges[index].append(num)
+    return ranges
+
+
+def _merge_multimodal_embeddings(
+    inputs_embeds: torch.Tensor,
+    multimodal_embeddings: NestedTensors,
+    is_multimodal: torch.Tensor,
+) -> torch.Tensor:
+    """
+    Merge `multimodal_embeddings` into `inputs_embeds` by overwriting the
+    positions in `inputs_embeds` corresponding to placeholder tokens in
+    `input_ids`.
+
+    Note:
+        This updates `inputs_embeds` in place.
+    """
+    if len(multimodal_embeddings) == 0:
+        return inputs_embeds
+
+    mm_embeds_flat = _flatten_embeddings(multimodal_embeddings)
+    input_dtype = inputs_embeds.dtype
+
+    try:
+        # For debugging
+        # inputs_embeds[is_multimodal] = mm_embeds_flat.to(dtype=input_dtype)
+
+        # NOTE: This can avoid D2H sync (#22105), but fails to
+        # raise an error if is_multimodal.sum() < len(mm_embeds_flat)
+        inputs_embeds.masked_scatter_(
+            is_multimodal.unsqueeze(-1), mm_embeds_flat.to(dtype=input_dtype)
+        )
+    except RuntimeError as e:
+        num_actual_tokens = len(mm_embeds_flat)
+        num_expected_tokens = is_multimodal.sum().item()
+
+        if num_actual_tokens != num_expected_tokens:
+            expr = _embedding_count_expression(multimodal_embeddings)
+
+            raise ValueError(
+                f"Attempted to assign {expr} = {num_actual_tokens} "
+                f"multimodal tokens to {num_expected_tokens} placeholders"
+            ) from e
+
+        raise ValueError("Error during masked scatter operation") from e
+
+    return inputs_embeds
+
+
+@deprecated(
+    "`merge_multimodal_embeddings` has been replaced with "
+    "`SupportsMultiModal.embed_input_ids` and will be "
+    "removed in v0.12."
+)
+def merge_multimodal_embeddings(
+    input_ids: torch.Tensor,
+    inputs_embeds: torch.Tensor,
+    multimodal_embeddings: NestedTensors,
+    placeholder_token_id: int | list[int],
+) -> torch.Tensor:
+    """
+    Merge `multimodal_embeddings` into `inputs_embeds` by overwriting the
+    positions in `inputs_embeds` corresponding to placeholder tokens in
+    `input_ids`.
+
+    `placeholder_token_id` can be a list of token ids (e.g, token ids
+    of img_start, img_break, and img_end tokens) when needed: This means
+    the order of these tokens in the `input_ids` MUST MATCH the order of
+    their embeddings in `multimodal_embeddings` since we need to
+    slice-merge instead of individually scattering.
+
+    For example, if input_ids is "TTTTTSIIIBIIIBIIIETTT", where
+    - T is text token
+    - S is image start token
+    - I is image embedding token
+    - B is image break token
+    - E is image end token.
+
+    Then the image embeddings (that correspond to I's) from vision encoder
+    must be padded with embeddings of S, B, and E in the same order of
+    input_ids for a correct embedding merge.
+
+    Note:
+        This updates `inputs_embeds` in place.
+    """
+    if isinstance(placeholder_token_id, list):
+        is_multimodal = isin_list(input_ids, placeholder_token_id)
+    else:
+        is_multimodal = input_ids == placeholder_token_id
+
+    return _merge_multimodal_embeddings(
+        inputs_embeds,
+        multimodal_embeddings=multimodal_embeddings,
+        is_multimodal=is_multimodal,
+    )
+
+
+def isin_list(
+    elements: torch.Tensor,
+    test_elements_list: list[int],
+) -> torch.Tensor:
+    test_elements = torch.tensor(
+        test_elements_list,
+        pin_memory=is_pin_memory_available(),
+    ).to(device=elements.device, non_blocking=True)
+
+    return torch.isin(elements, test_elements)
+
+
+class LayerFn(Protocol):
+    def __call__(self, prefix: str) -> torch.nn.Module: ...
+
+
+class PPMissingLayer(torch.nn.Identity):
+    """
+    A placeholder layer for missing layers in a pipeline parallel model.
+    """
+
+    def __init__(self, *args, **kwargs):
+        super().__init__()
+
+    def forward(self, *args, **kwargs):
+        """Return the first arg from args or the first value from kwargs."""
+        return args[0] if args else next(iter(kwargs.values()))
+
+
+_CPU_OFFLOAD_BYTES = 0
+_CPU_OFFLOAD_MAX_BYTES = 0
+
+
+def set_cpu_offload_max_bytes(max_bytes: int) -> None:
+    global _CPU_OFFLOAD_MAX_BYTES, _CPU_OFFLOAD_BYTES
+    _CPU_OFFLOAD_BYTES = 0
+    _CPU_OFFLOAD_MAX_BYTES = max_bytes
+
+
+def maybe_offload_to_cpu(module: torch.nn.Module) -> torch.nn.Module:
+    if (params := next(module.parameters(), None)) is None:
+        return module
+
+    device = params.device
+
+    if device == torch.device("cpu"):
+        return module
+
+    global _CPU_OFFLOAD_MAX_BYTES, _CPU_OFFLOAD_BYTES
+    if _CPU_OFFLOAD_BYTES >= _CPU_OFFLOAD_MAX_BYTES:
+        return module
+
+    pin_memory = is_pin_memory_available()
+    uva_available = is_uva_available()
+
+    assert uva_available, "V1 CPU offloading requires uva (pin memory) support"
+    uva_offloading = False
+
+    # offload parameters to CPU
+    # use pin_memory if possible, which helps cudagraph capture speed
+    offloaded_parameters = False
+    for p in module.parameters():
+        if _CPU_OFFLOAD_BYTES >= _CPU_OFFLOAD_MAX_BYTES:
+            # we use per-parameter offloading
+            # one module might have some parameters offloaded and some not
+            break
+
+        # `torch.empty_like` does not support `pin_memory` argument
+        cpu_data = torch.empty_strided(
+            size=p.data.size(),
+            stride=p.data.stride(),
+            dtype=p.data.dtype,
+            layout=p.data.layout,
+            device="cpu",
+            pin_memory=pin_memory,
+        )
+        cpu_data.copy_(p.data)
+        if not uva_offloading:
+            p.data = cpu_data
+        else:
+            # keep the cpu data alive
+            p._vllm_offloaded_cpu_data = cpu_data
+            p.data = get_cuda_view_from_cpu_tensor(cpu_data)
+        _CPU_OFFLOAD_BYTES += p.data.numel() * p.data.element_size()
+        offloaded_parameters = True
+
+    if offloaded_parameters and not uva_offloading:
+        original_forward = module.forward
+
+        def forward(*args, **kwargs):
+            module.forward = original_forward
+            device_state = {
+                # here we blindly call `to(device)`
+                # if the parameter is already on the device, it will be a no-op
+                k: v.to(device, non_blocking=True)
+                for k, v in module.state_dict().items()
+            }
+            output = functional_call(module, device_state, args=args, kwargs=kwargs)
+            module.forward = forward
+            return output
+
+        module.forward = forward
+
+    return module
+
+
+def make_layers(
+    num_hidden_layers: int,
+    layer_fn: LayerFn,
+    prefix: str,
+) -> tuple[int, int, torch.nn.ModuleList]:
+    """Make a list of layers with the given layer function, taking
+    pipeline parallelism into account.
+    """
+    from vllm.distributed.parallel_state import get_pp_group
+    from vllm.distributed.utils import get_pp_indices
+
+    start_layer, end_layer = get_pp_indices(
+        num_hidden_layers, get_pp_group().rank_in_group, get_pp_group().world_size
+    )
+    modules = torch.nn.ModuleList(
+        [PPMissingLayer() for _ in range(start_layer)]
+        + [
+            maybe_offload_to_cpu(layer_fn(prefix=f"{prefix}.{idx}"))
+            for idx in range(start_layer, end_layer)
+        ]
+        + [PPMissingLayer() for _ in range(end_layer, num_hidden_layers)]
+    )
+    return start_layer, end_layer, modules
+
+
+# NOTE: don't use lru_cache here because it can prevent garbage collection
+_model_to_pp_missing_layer_names: dict[int, list[str]] = {}
+
+
+def get_pp_missing_layer_names(model: torch.nn.Module) -> list[str]:
+    """Get the names of the missing layers in a pipeline parallel model."""
+    model_id = id(model)
+    if model_id in _model_to_pp_missing_layer_names:
+        return _model_to_pp_missing_layer_names[model_id]
+
+    missing_layer_names = []
+    for name, module in model.named_modules():
+        if isinstance(module, PPMissingLayer):
+            # NOTE: the trailing dot is used to match the prefix of the layer.
+            # without the dot, we could match a layer that is not missing,
+            # e.g., 'encoder.layer.1' would match 'encoder.layer.11'
+            missing_layer_names.append(name + ".")
+    _model_to_pp_missing_layer_names[model_id] = missing_layer_names
+
+    return missing_layer_names
+
+
+def is_pp_missing_parameter(name: str, model: torch.nn.Module) -> bool:
+    """Check if a parameter is missing in a pipeline parallel model."""
+    if isinstance(model, PPMissingLayer):
+        return True
+
+    return any(
+        name.startswith(missing_layer_name)
+        for missing_layer_name in get_pp_missing_layer_names(model)
+    )
+
+
+def make_empty_intermediate_tensors_factory(keys: list[str], hidden_size: int):
+    def make_empty_intermediate_tensors(
+        batch_size: int,
+        dtype: torch.dtype,
+        device: torch.device,
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                key: torch.zeros((batch_size, hidden_size), dtype=dtype, device=device)
+                for key in keys
+            }
+        )
+
+    return make_empty_intermediate_tensors
+
+
+def maybe_prefix(prefix: str, name: str) -> str:
+    """Add a prefix to a name if the prefix is non-empty.
+
+    Args:
+        prefix: The prefix to add. If empty, no prefix will be added.
+        name: The name to potentially prefix.
+
+    Returns:
+        The string "prefix.name" if prefix was non-empty, otherwise just "name".
+    """
+    return name if not prefix else f"{prefix}.{name}"
+
+
+def get_draft_quant_config(
+    vllm_config: VllmConfig,
+) -> QuantizationConfig | None:
+    """Get quantization config for Draft models.
+
+    Draft models should use their own quantization config instead of the verifier/target
+    model's config. This helper retrieves the draft model's quantization config.
+
+    Args:
+        vllm_config: The vLLM configuration object.
+
+    Returns:
+        The draft model's config if available, None otherwise.
+    """
+    draft_model_config = vllm_config.speculative_config.draft_model_config
+    draft_load_config = vllm_config.load_config
+
+    return (
+        VllmConfig.get_quantization_config(draft_model_config, draft_load_config)
+        if draft_model_config
+        else None
+    )
+
+
+def extract_layer_index(layer_name: str, num_attn_module: int = 1) -> int:
+    """
+    Extract the layer index from the module name.
+    Examples:
+    - "encoder.layers.0" -> 0
+    - "encoder.layers.1.self_attn" -> 1
+    - "2.self_attn" -> 2
+    - "model.encoder.layers.0.sub.1" -> ValueError if num_attn_module == 1
+    """
+    subnames = layer_name.split(".")
+    int_vals: list[int] = []
+    for subname in subnames:
+        try:
+            int_vals.append(int(subname))
+        except ValueError:
+            continue
+    if num_attn_module == 1 or "attn" not in layer_name:
+        assert len(int_vals) == 1, (
+            f"layer name {layer_name} should only contain one integer"
+        )
+
+        return int_vals[0]
+    else:
+        assert len(int_vals) <= 2, (
+            f"layer name {layer_name} should contain most two integers"
+        )
+        layer_index = (
+            int_vals[0] * num_attn_module + int_vals[1]
+            if len(int_vals) == 2
+            else int_vals[0]
+        )
+        return layer_index
+
+
+def cast_overflow_tensors(
+    tensors: torch.Tensor,
+    offset: float = 1000,
+) -> torch.Tensor:
+    if tensors.isinf().any() or tensors.isnan().any():
+        clamp_value = torch.finfo(tensors.dtype).max - offset
+        tensors = torch.clamp(tensors, min=-clamp_value, max=clamp_value)
+    return tensors
+
+
+def fast_topk(
+    values: torch.Tensor, topk: int, dim: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Optimized topk implementation that uses torch.max for k=1 case.
+
+    This function provides better performance for the common case of k=1
+    by using torch.max instead of the more general torch.topk.
+
+    Args:
+        values: Input tensor to find top-k values from
+        topk: Number of top values to return (k). Must be > 0.
+        dim: Dimension along which to compute topk
+
+    Returns:
+        Tuple of (values, indices) where values are the top-k values
+        and indices are their corresponding indices in the input tensor
+    """
+    if topk == 1:
+        # Use max along the specified dimension to get both value and index
+        return torch.max(values, dim=dim, keepdim=True)
+    else:
+        # Use topk for efficiency with larger k values
+        return torch.topk(values, topk, dim=dim)
+
+
+# Chunk x along the num_tokens axis for sequence parallelism
+# NOTE: This is wrapped in a torch custom op to work around the following issue:
+# The output tensor can have a sequence length 0 at small input sequence lengths
+# even though we explicitly pad to avoid this.
+def sequence_parallel_chunk(x: torch.Tensor) -> torch.Tensor:
+    return torch.ops.vllm.sequence_parallel_chunk_impl(x)
+
+
+def sequence_parallel_chunk_impl(x: torch.Tensor) -> torch.Tensor:
+    tp_size = get_tensor_model_parallel_world_size()
+    tp_rank = get_tensor_model_parallel_rank()
+
+    # all_gather needs the sequence length to be divisible by tp_size
+    seq_len = x.size(0)
+    remainder = seq_len % tp_size
+    if remainder != 0:
+        pad_len = tp_size - remainder
+        y = nn.functional.pad(x, (0, 0, 0, pad_len))
+    else:
+        y = x
+
+    chunk = y.shape[0] // tp_size
+    start = tp_rank * chunk
+    return torch.narrow(y, 0, start, chunk)
+
+
+def sequence_parallel_chunk_impl_fake(x: torch.Tensor) -> torch.Tensor:
+    tp_size = get_tensor_model_parallel_world_size()
+    seq_len = cdiv(x.size(0), tp_size)
+    shape = list(x.shape)
+    shape[0] = seq_len
+    out = torch.empty(shape, dtype=x.dtype, device=x.device)
+    return out
+
+
+direct_register_custom_op(
+    op_name="sequence_parallel_chunk_impl",
+    op_func=sequence_parallel_chunk_impl,
+    fake_impl=sequence_parallel_chunk_impl_fake,
+    tags=(torch.Tag.needs_fixed_stride_order,),
+)
+
+
+def process_eagle_weight(
+    model: nn.Module,
+    name: str,
+) -> None:
+    """
+    Update EAGLE model flags based on loaded weight name.
+    This should be called during weight loading to detect if a model
+    has its own lm_head or embed_tokens weight.
+    Args:
+        model: The model instance (must support EAGLE)
+        name: The name of the weight to process
+    """
+    if not supports_any_eagle(model):
+        return
+
+    # To prevent overriding with target model's layers
+    if "lm_head" in name:
+        model.has_own_lm_head = True
+    if "embed_tokens" in name:
+        model.has_own_embed_tokens = True
diff --git a/model_executor/models/vision.py b/model_executor/models/vision.py
new file mode 100644
index 0000000..e5d70eb
--- /dev/null
+++ b/model_executor/models/vision.py
@@ -0,0 +1,552 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+import math
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+from typing import Final, Generic, Literal, Protocol, TypeAlias, TypeVar
+
+import torch
+from transformers import PretrainedConfig
+
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_gather,
+)
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+_C = TypeVar("_C", bound=PretrainedConfig)
+
+
+class _RootConfig(Protocol[_C]):
+    vision_config: _C
+
+
+class VisionEncoderInfo(ABC, Generic[_C]):
+    def __init__(self, hf_config: _RootConfig[_C]) -> None:
+        super().__init__()
+
+        self.hf_config = hf_config
+        self.vision_config = hf_config.vision_config
+
+    @abstractmethod
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_image_size(self) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_patch_size(self) -> int:
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_patch_grid_length(self) -> int:
+        raise NotImplementedError
+
+
+class VisionLanguageConfig(Protocol):
+    vision_config: Final[PretrainedConfig]
+
+
+def get_vision_encoder_info(hf_config: VisionLanguageConfig) -> VisionEncoderInfo:
+    # Avoid circular imports
+    from .clip import CLIPEncoderInfo, CLIPVisionConfig
+    from .pixtral import PixtralHFEncoderInfo, PixtralVisionConfig
+    from .siglip import SiglipEncoderInfo, SiglipVisionConfig
+
+    if isinstance(hf_config.vision_config, CLIPVisionConfig):
+        return CLIPEncoderInfo(hf_config)
+    if isinstance(hf_config.vision_config, PixtralVisionConfig):
+        return PixtralHFEncoderInfo(hf_config)
+    if isinstance(hf_config.vision_config, SiglipVisionConfig):
+        return SiglipEncoderInfo(hf_config)
+
+    msg = f"Unsupported vision config: {type(hf_config.vision_config)}"
+    raise NotImplementedError(msg)
+
+
+def get_vit_attn_backend(
+    head_size: int,
+    dtype: torch.dtype,
+    *,
+    attn_backend_override: AttentionBackendEnum | None = None,
+) -> AttentionBackendEnum:
+    """
+    Get the available attention backend for Vision Transformer.
+    """
+    if attn_backend_override is not None:
+        return attn_backend_override
+
+    # Lazy import to avoid circular dependency
+    from vllm.attention.selector import get_env_variable_attn_backend
+
+    selected_backend: AttentionBackendEnum | None = get_env_variable_attn_backend()
+    if selected_backend is not None:
+        return selected_backend
+
+    return current_platform.get_vit_attn_backend(head_size, dtype)
+
+
+def should_torch_compile_mm_vit(vllm_config: VllmConfig) -> bool:
+    """Callable to be passed to `@support_torch_compile`'s `enable_if` argument."""
+    return vllm_config.compilation_config.compile_mm_encoder
+
+
+VisionFeatureSelectStrategyStr = Literal["class", "default", "full"]
+
+VisionFeatureSelectStrategy: TypeAlias = (
+    VisionFeatureSelectStrategyStr | Callable[[torch.Tensor], torch.Tensor]
+)
+
+
+def _get_vision_feature_selector(
+    strategy: VisionFeatureSelectStrategy | str,
+) -> Callable[[torch.Tensor], torch.Tensor]:
+    if callable(strategy):
+        return strategy
+
+    # https://github.com/huggingface/transformers/blob/cd74917ffc3e8f84e4a886052c5ab32b7ac623cc/src/transformers/models/clip/modeling_clip.py#L762
+    if strategy == "class":
+        return lambda feats: feats[:, :1, :]
+
+    # https://github.com/huggingface/transformers/blob/4a02bc7004285bdb12cc033e87ad2578ce2fa900/src/transformers/models/llava/modeling_llava.py#L196
+    if strategy == "default":
+        return lambda feats: feats[:, 1:, :]
+
+    if strategy == "full":
+        return lambda feats: feats
+
+    raise ValueError(f"Unexpected feature select strategy: {strategy!r}")
+
+
+def get_num_selected_vision_tokens(
+    num_vision_tokens: int,
+    strategy: VisionFeatureSelectStrategy | str,
+) -> int:
+    if callable(strategy):
+        dummy_features = torch.empty(1, num_vision_tokens, 64)  # [B, L, D]
+        dummy_selected_features = strategy(dummy_features)
+        return dummy_selected_features.shape[1]
+
+    if strategy == "class":
+        return 1
+
+    if strategy == "default":
+        return num_vision_tokens - 1
+
+    if strategy == "full":
+        return num_vision_tokens
+
+    raise ValueError(f"Unexpected feature select strategy: {strategy!r}")
+
+
+def resolve_visual_encoder_outputs(
+    encoder_outputs: torch.Tensor | list[torch.Tensor],
+    post_layer_norm: torch.nn.LayerNorm | None,
+    *,
+    select_layers: list[int] | None = None,
+    max_possible_layers: int | None = None,
+    feature_select_strategy: VisionFeatureSelectStrategy | None = None,
+) -> torch.Tensor:
+    """Given the outputs a visual encoder module that may correspond to the
+    output of the last layer, or a list of hidden states to be stacked,
+    handle post normalization and resolve it into a single output tensor.
+
+    Args:
+        encoder_outputs: Output of encoder's last layer or all hidden states.
+        post_layer_norm: Post norm to apply to the output of the encoder.
+        select_layers: Optional layer indices to grab from the encoder
+            outputs; if provided, encoder outputs must be a list.
+        max_possible_layers: Total layers in the fully loaded visual encoder.
+        feature_select_strategy: Defines how to select the hidden states
+            from each layer.
+    """
+    if select_layers is None:
+        if not isinstance(encoder_outputs, torch.Tensor):
+            raise ValueError(
+                "Expected only a single encoder output when "
+                "`select_layers` is not provided"
+            )
+
+        if feature_select_strategy is not None:
+            select_features = _get_vision_feature_selector(feature_select_strategy)
+            encoder_outputs = select_features(encoder_outputs)
+
+        if post_layer_norm is not None:
+            return post_layer_norm(encoder_outputs)
+
+        return encoder_outputs
+
+    if max_possible_layers is None:
+        raise ValueError(
+            "`max_possible_layers` must be provided alongside `select_layers`"
+        )
+
+    # Get the hidden states corresponding to the layer indices.
+    # Negative values are relative to the full visual encoder,
+    # so offset them depending on how many layers were loaded.
+    # NOTE: this assumes that encoder_outputs is a list containing
+    # the inputs to the visual encoder, followed by the hidden states
+    # of each layer.
+    num_loaded_layers = len(encoder_outputs) - 1
+    offset = max_possible_layers - num_loaded_layers
+    hs_pool = [
+        encoder_outputs[layer_idx]
+        if layer_idx >= 0
+        else encoder_outputs[layer_idx + offset]
+        for layer_idx in select_layers
+    ]
+
+    if feature_select_strategy is not None:
+        select_features = _get_vision_feature_selector(feature_select_strategy)
+        hs_pool = [select_features(hs) for hs in hs_pool]
+
+    # Apply post-norm on the final hidden state if we are using it
+    uses_last_layer = select_layers[-1] in (max_possible_layers - 1, -1)
+    if post_layer_norm is not None and uses_last_layer:
+        hs_pool[-1] = post_layer_norm(hs_pool[-1])
+
+    return torch.cat(hs_pool, dim=-1)
+
+
+def run_dp_sharded_vision_model(
+    image_input: torch.Tensor, vision_model: torch.nn.Module
+) -> torch.Tensor:
+    """Run a vision model with data parallelism (DP) sharding. The function
+    will shard the input image tensor on the first dimension and run the vision
+    model
+
+    Args:
+        image_input (torch.Tensor): Image input tensor.
+        vision_model (torch.nn.Module): Vision model.
+    Returns:
+        torch.Tensor: Output image embeddings
+    """
+
+    num_chunks = image_input.shape[0]
+    mp_world_size = get_tensor_model_parallel_world_size()
+    num_chunks_per_rank = (num_chunks + mp_world_size - 1) // mp_world_size
+    num_padded_chunks = num_chunks_per_rank * mp_world_size - num_chunks
+    pad = (0,) * (2 * (image_input.dim() - 1)) + (0, num_padded_chunks)
+    image_input_padded = torch.nn.functional.pad(image_input, pad)
+    rank = get_tensor_model_parallel_rank()
+    image_input_per_rank = image_input_padded[
+        rank * num_chunks_per_rank : (rank + 1) * num_chunks_per_rank, ...
+    ]
+
+    vision_embeddings = vision_model(image_input_per_rank)
+    # Ensure tensor is contiguous before all_gather
+    vision_embeddings = vision_embeddings.contiguous()
+    vision_embeddings = tensor_model_parallel_all_gather(vision_embeddings, dim=0)
+    vision_embeddings = vision_embeddings[:num_chunks, ...]
+    return vision_embeddings
+
+
+def get_load_balance_assignment(
+    sizes: list[int],
+    num_gpus: int = 2,
+) -> tuple[list[int], list[int], list[int]]:
+    """
+    Generate load balancing assignment and metadata
+    for distributing data across GPUs.
+    The load is determined by the total image sizes,
+    not the number of images.
+
+    Args:
+        sizes: The size of each image
+        num_gpus: Number of GPUs to balance across
+
+    Returns:
+        shuffle_indices:
+            Indices to reorder data for balanced loading
+        gpu_sample_counts:
+            Number of samples assigned to each GPU
+        grouped_sizes_per_gpu:
+            Total size assigned to each GPU
+
+    Example:
+        ```
+        sizes = [1000, 100, 200, 50]
+        num_gpus = 2
+        ```
+
+    """
+
+    n_samples = len(sizes)
+
+    # Handle edge cases
+    if n_samples == 0:
+        return [], [0] * num_gpus, [0] * num_gpus
+
+    # Use greedy algorithm - balance by total size, not sample count
+    gpu_assignments = [list[int]() for _ in range(num_gpus)]
+    gpu_loads = [0] * num_gpus  # This tracks total SIZE, not sample count
+
+    # Sort indices by size (largest first for better load balancing)
+    # sizes = [1000, 100, 200, 50]
+    # large_to_small_indices = [0, 2, 1, 3]
+    large_to_small_indices = sorted(
+        range(n_samples), key=lambda i: sizes[i], reverse=True
+    )
+
+    for idx in large_to_small_indices:
+        # Find GPU with minimum current load (by total size)
+        min_gpu = min(range(num_gpus), key=lambda i: gpu_loads[i])
+        gpu_assignments[min_gpu].append(idx)
+        gpu_loads[min_gpu] += sizes[idx]
+
+    # Create shuffle indices and counts
+    shuffle_indices = list[int]()
+    gpu_sample_counts = list[int]()
+    for gpu_id in range(num_gpus):
+        # GPU_0 = [1000] = [0]
+        # GPU_1 = [200, 100, 50] = [2, 1, 3]
+        # shuffle_indices = [0, 2, 1, 3]
+        shuffle_indices.extend(gpu_assignments[gpu_id])
+        # GPU_0 = [1]
+        # GPU_1 = [3]
+        # gpu_sample_counts = [1, 3]
+        gpu_sample_counts.append(len(gpu_assignments[gpu_id]))
+
+    return (shuffle_indices, gpu_sample_counts, gpu_loads)
+
+
+def run_dp_sharded_mrope_vision_model(
+    vision_model: torch.nn.Module,
+    pixel_values: torch.Tensor,
+    grid_thw_list: list[list[int]],
+    *,
+    rope_type: Literal["rope_3d", "rope_2d"],
+) -> tuple[torch.Tensor, ...]:
+    """Run a vision model with data parallelism (DP) sharding.
+    The function will shard the input image tensor on the
+    first dimension and run the vision model.
+    This function is used to run the vision model with mrope.
+
+    Args:
+        vision_model (torch.nn.Module): Vision model.
+        pixel_values (torch.Tensor): Image/Video input tensor.
+        grid_thw_list: List of grid dimensions for each image
+        rope_type: Type of rope used in the vision model.
+                   Different rope types have different dimension to do ViT.
+                   "rope_3d" for 3D rope (e.g., Qwen2.5-VL)
+                   "rope_2d" for 2D rope (e.g., Kimi-VL)
+    Returns:
+        torch.Tensor: Output image embeddings
+
+    Example:
+        ```
+        vision_model.out_hidden_size = 64
+        vision_model.spatial_merge_size = 2
+        pixel_values.shape = (1350, channel)
+        grid_thw_list = [[1, 10, 100], [1, 10, 10], [1, 10, 20], [1, 50]]
+        tp_size = 2
+        ```
+
+    """
+    tp_size = get_tensor_model_parallel_world_size()
+
+    # GPU_0 tp_rank_local = 0
+    # GPU_1 tp_rank_local = 1
+    tp_rank_local = get_tensor_model_parallel_rank()
+
+    # patches_per_image = [1000, 100, 200, 50]
+    patches_per_image = [math.prod(grid_thw) for grid_thw in grid_thw_list]
+    # patches_per_image = [0, 1000, 1100, 1300, 1350]
+    cum_patches_per_image = [0, *itertools.accumulate(patches_per_image)]
+
+    # Get load balancing assignment with all metadata
+    # image_to_tp_rank = [0, 2, 1, 3]
+    # gpu_sample_counts = [1, 3]
+    # grouped_pixel_values_len = [1000, 350]
+    (image_to_tp_rank, gpu_sample_counts, grouped_pixel_values_len) = (
+        get_load_balance_assignment(patches_per_image, tp_size)
+    )
+
+    # cu_gpu_sample_counts = [0, 1, 4]
+    cum_gpu_sample_counts = [0, *itertools.accumulate(gpu_sample_counts)]
+
+    # GPU_0 image_idxs_local = [0]
+    # GPU_1 image_idxs_local = [2, 1, 3]
+    image_idxs_local = image_to_tp_rank[
+        cum_gpu_sample_counts[tp_rank_local] : cum_gpu_sample_counts[tp_rank_local + 1]
+    ]
+
+    # Get the pixel values for the local images based on the image_idxs_local
+    if len(image_idxs_local) > 0:
+        pixel_values_local = torch.cat(
+            [
+                pixel_values[cum_patches_per_image[i] : cum_patches_per_image[i + 1]]
+                for i in image_idxs_local
+            ]
+        )
+    else:
+        # Handle case where this rank has no images
+        pixel_values_local = torch.empty(
+            (0, pixel_values.shape[1]),
+            device=pixel_values.device,
+            dtype=pixel_values.dtype,
+        )
+    # embed_dim_reduction_factor = 2 * 2
+    if rope_type == "rope_2d":
+        embed_dim_reduction_factor = (
+            vision_model.merge_kernel_size[0] * vision_model.merge_kernel_size[1]
+        )
+    else:
+        embed_dim_reduction_factor = (
+            vision_model.spatial_merge_size * vision_model.spatial_merge_size
+        )
+
+    # Find the max length across all ranks
+    # The output embedding of every DP rank has to be
+    # padded to this length for tensor_model_parallel_all_gather
+    # to work
+    max_len_per_rank = max(grouped_pixel_values_len) // embed_dim_reduction_factor
+    local_grid_thw_list = [grid_thw_list[i] for i in image_idxs_local]
+
+    # Run the vision model on the local pixel_values_local
+    if rope_type == "rope_2d":
+        if pixel_values_local.shape[0] > 0:
+            image_embeds_local = vision_model(
+                pixel_values_local, torch.tensor(local_grid_thw_list)
+            )
+            if isinstance(image_embeds_local, list):
+                image_embeds_local = torch.cat(image_embeds_local, dim=0)
+        else:
+            out_dim = getattr(vision_model.config, "hidden_size", None)
+            image_embeds_local = torch.empty(
+                (0, embed_dim_reduction_factor, out_dim),
+                device=pixel_values.device,
+                dtype=pixel_values.dtype,
+            )
+    else:
+        if pixel_values_local.shape[0] > 0:
+            image_embeds_local = vision_model(pixel_values_local, local_grid_thw_list)
+        else:
+            # Handle empty case
+            image_embeds_local = torch.empty(
+                (0, vision_model.out_hidden_size),
+                device=pixel_values.device,
+                dtype=pixel_values.dtype,
+            )
+
+    # Pad the output based on max_len_per_rank
+    # for tensor_model_parallel_all_gather to work
+    current_len = image_embeds_local.shape[0]
+    if current_len < max_len_per_rank:
+        padding_size = max_len_per_rank - current_len
+        if rope_type == "rope_2d":
+            padding = torch.empty(
+                (
+                    padding_size,
+                    image_embeds_local.shape[1],
+                    image_embeds_local.shape[2],
+                ),
+                dtype=image_embeds_local.dtype,
+                device=image_embeds_local.device,
+            )
+        else:
+            padding = torch.empty(
+                (padding_size, image_embeds_local.shape[1]),
+                dtype=image_embeds_local.dtype,
+                device=image_embeds_local.device,
+            )
+        image_embeds_local_padded = torch.cat([image_embeds_local, padding], dim=0)
+    else:
+        image_embeds_local_padded = image_embeds_local
+
+    # Do all_gather to collect embeddings from all ranks
+    gathered_embeds = tensor_model_parallel_all_gather(image_embeds_local_padded, dim=0)
+
+    # Remove padding and reconstruct per-rank embeddings
+    rank_embeddings = list[torch.Tensor]()
+    for rank in range(tp_size):
+        start_idx = rank * max_len_per_rank
+        end_idx = start_idx + (
+            grouped_pixel_values_len[rank] // embed_dim_reduction_factor
+        )
+        rank_embeddings.append(gathered_embeds[start_idx:end_idx])
+
+    patches_per_output_image = [
+        (patch_size // embed_dim_reduction_factor) for patch_size in patches_per_image
+    ]
+
+    # Reconstruct embeddings in the original order
+    original_order_embeddings = [None] * len(grid_thw_list)
+    current_idx = 0
+    for rank in range(tp_size):
+        count = gpu_sample_counts[rank]
+        if count > 0:
+            # Get images assigned to this rank in shuffled order
+            # GPU_0 = image_idxs_local  [0]
+            # GPU_1 = image_idxs_local  [2, 1, 3]
+            rank_images = image_to_tp_rank[current_idx : current_idx + count]
+
+            rank_embed = rank_embeddings[rank]
+            # Split rank embeddings back to individual images
+            embed_start = 0
+            for img_idx in rank_images:
+                img_patches = patches_per_output_image[img_idx]
+                original_order_embeddings[img_idx] = rank_embed[
+                    embed_start : embed_start + img_patches
+                ]
+                embed_start += img_patches
+            current_idx += count
+    out_embeddings = tuple(
+        embed for embed in original_order_embeddings if embed is not None
+    )
+    assert len(out_embeddings) == len(original_order_embeddings), (
+        "Found unassigned embeddings"
+    )
+    return out_embeddings
+
+
+def get_llm_pos_ids_for_vision(
+    start_idx: int,
+    vision_idx: int,
+    spatial_merge_size: int,
+    t_index: list[int],
+    grid_hs: torch.Tensor,
+    grid_ws: torch.Tensor,
+) -> torch.Tensor:
+    llm_pos_ids_list = []
+    llm_grid_h = grid_hs[vision_idx] // spatial_merge_size
+    llm_grid_w = grid_ws[vision_idx] // spatial_merge_size
+    h_index = (
+        torch.arange(llm_grid_h)
+        .view(1, -1, 1)
+        .expand(len(t_index), -1, llm_grid_w)
+        .flatten()
+    )
+    w_index = (
+        torch.arange(llm_grid_w)
+        .view(1, 1, -1)
+        .expand(len(t_index), llm_grid_h, -1)
+        .flatten()
+    )
+    t_index_tensor = (
+        torch.Tensor(t_index)
+        .to(llm_grid_h.device)
+        .view(-1, 1)
+        .expand(-1, llm_grid_h * llm_grid_w)
+        .long()
+        .flatten()
+    )
+    _llm_pos_ids = torch.stack([t_index_tensor, h_index, w_index])
+    llm_pos_ids_list.append(_llm_pos_ids + start_idx)
+    llm_pos_ids = torch.cat(llm_pos_ids_list, dim=1)
+    return llm_pos_ids
diff --git a/model_executor/models/voxtral.py b/model_executor/models/voxtral.py
new file mode 100644
index 0000000..18ad885
--- /dev/null
+++ b/model_executor/models/voxtral.py
@@ -0,0 +1,845 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from functools import cached_property
+from math import ceil
+from typing import Literal, cast
+
+import numpy as np
+import regex as re
+import torch
+import torch.nn as nn
+from mistral_common.audio import mel_filter_bank
+from mistral_common.protocol.instruct.chunk import AudioChunk, RawAudio, TextChunk
+from mistral_common.protocol.instruct.messages import UserMessage
+from mistral_common.protocol.instruct.request import ChatCompletionRequest
+from mistral_common.protocol.transcription.request import TranscriptionRequest
+from mistral_common.tokens.tokenizers.audio import Audio, AudioEncoder
+from transformers import BatchFeature, TensorType, WhisperConfig
+from transformers.tokenization_utils_base import TextInput
+
+from vllm.config import ModelConfig, SpeechToTextConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models import SupportsPP
+from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.whisper import WhisperEncoder
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    MultiModalUUIDDict,
+    NestedTensors,
+)
+from vllm.multimodal.parse import (
+    AudioProcessorItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    MultiModalProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder, ProcessorInputs
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.tokenizer import (
+    MistralTokenizer,
+    cached_tokenizer_from_config,
+)
+
+from .interfaces import SupportsLoRA, SupportsMultiModal, SupportsTranscription
+from .utils import init_vllm_registered_model, maybe_prefix
+
+logger = init_logger(__name__)
+
+ISO639_1_SUPPORTED_LANGS = {
+    "ar": "Arabic",
+    "nl": "Dutch",
+    "en": "English",
+    "fr": "French",
+    "de": "German",
+    "hi": "Hindi",
+    "it": "Italian",
+    "pt": "Portuguese",
+    "es": "Spanish",
+}
+
+
+class VoxtralProcessorAdapter:
+    """
+    Provide a HF-compatible interface for
+    :class:`mistral_common.tokens.tokenizers.multimodal.AudioEncoder`.
+    """
+
+    def __init__(self, tokenizer: MistralTokenizer) -> None:
+        super().__init__()
+        self.tokenizer = tokenizer
+
+    @cached_property
+    def _audio_processor(self) -> AudioEncoder:
+        audio_encoder = self.tokenizer.instruct.audio_encoder
+        assert isinstance(audio_encoder, AudioEncoder)
+        return audio_encoder
+
+    @cached_property
+    def audio_token_id(self) -> int:
+        return self._audio_processor.special_ids.audio
+
+    @cached_property
+    def begin_audio_token_id(self) -> int:
+        return self._audio_processor.special_ids.begin_audio
+
+    # @cached_property
+    # def begin_transcript_token_id(self) -> int:
+    #     return self._audio_processor.special_ids.begin_transcript
+
+    # @cached_property
+    # def end_transcript_token_id(self) -> int:
+    #     return self._audio_processor.special_ids.end_transcript
+
+    @cached_property
+    def sampling_rate(self) -> int:
+        return self._audio_processor.audio_config.sampling_rate
+
+    @cached_property
+    def frame_rate(self) -> float:
+        return self._audio_processor.audio_config.frame_rate
+
+    def get_num_audio_tokens(
+        self,
+        audio_length: int,
+    ) -> int:
+        pad_audio_length = self._audio_processor.next_multiple_of_chunk_frames(
+            audio_length, self.sampling_rate
+        )
+        return ceil(pad_audio_length / (self.sampling_rate // self.frame_rate))
+
+    def __call__(
+        self,
+        text: TextInput | list[TextInput] | None = None,
+        audios: np.ndarray | list[np.ndarray] | None = None,
+        return_tensors: str | TensorType | None = None,
+        **kwargs,
+    ) -> Mapping[str, NestedTensors]:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if audios is None:
+            audios = []
+        if not isinstance(audios, list):
+            audios = [audios]
+
+        if not audios:
+            input_ids = self.tokenizer(text).input_ids
+            return {"input_ids": torch.tensor(input_ids)}
+
+        # Allow dummy text, which is used for profiling as well as token inputs
+        if any(len(t) > 0 for t in text):
+            raise ValueError(
+                "You've passed text inputs instead of token inputs. "
+                "Make sure to process your input via `mistral_common`'s "
+                "tokenizer or pass a chat completion request. "
+                "For more info, see: "
+                "https://github.com/vllm-project/vllm/issues/8411."
+            )
+
+        audios_tokens = list[torch.Tensor]()
+        audios_processed = list[torch.Tensor]()
+        for audio in audios:
+            assert isinstance(audio, np.ndarray)
+            assert audio.ndim == 1
+
+            # pad if necessary
+            audio = self._audio_processor.pad(audio, self.sampling_rate)
+
+            audio_tokens = [self.begin_audio_token_id] + [
+                self.audio_token_id
+            ] * self.get_num_audio_tokens(len(audio))
+
+            audios_tokens.append(torch.tensor(audio_tokens))
+            audios_processed.append(torch.tensor(audio))
+
+        return BatchFeature(
+            {
+                "input_ids": torch.cat(audios_tokens)[None].expand(len(text), -1),
+                "audio_arrays": audios_processed,
+            }
+        )
+
+
+class VoxtralProcessingInfo(BaseProcessingInfo):
+    def get_tokenizer(self) -> MistralTokenizer:
+        tokenizer = cached_tokenizer_from_config(self.ctx.model_config)
+        if not isinstance(tokenizer, MistralTokenizer):
+            raise ValueError("This model requires `--tokenizer-mode mistral`")
+
+        return tokenizer
+
+    def get_hf_processor(self) -> VoxtralProcessorAdapter:
+        return VoxtralProcessorAdapter(self.get_tokenizer())
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": 5}  # Performance tends to degrade after 5
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int]:
+        return {"audio": self.get_max_audio_tokens()}
+
+    def get_max_audio_tokens(self) -> int:
+        return self.ctx.model_config.max_model_len
+
+    def get_max_audio_array_len(self) -> int:
+        processor = self.get_hf_processor()
+        return self.get_max_audio_tokens() * int(
+            processor.sampling_rate // processor.frame_rate
+        )
+
+
+class VoxtralDummyInputsBuilder(BaseDummyInputsBuilder[VoxtralProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        return ""
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_audios = mm_counts.get("audio", 0)
+
+        target_length = self.info.get_max_audio_array_len()
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=target_length, num_audios=num_audios, overrides=audio_overrides
+            )
+        }
+
+    def get_dummy_processor_inputs(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> ProcessorInputs:
+        tokenizer = self.info.get_tokenizer()
+
+        dummy_text = self.get_dummy_text(mm_counts)
+        dummy_mm_data = self.get_dummy_mm_data(seq_len, mm_counts, mm_options)
+        dummy_audios = dummy_mm_data.get("audio", [])
+
+        audio_chunks: list[AudioChunk] = []
+        format = "wav"
+        for audio in dummy_audios:
+            audio_item = Audio(
+                audio_array=audio,
+                sampling_rate=self.info.get_hf_processor().sampling_rate,
+                format=format,
+            )
+            chunk = AudioChunk(input_audio=RawAudio.from_audio(audio_item))
+            audio_chunks.append(chunk)
+
+        request = ChatCompletionRequest(
+            messages=[
+                UserMessage(content=[TextChunk(text=dummy_text), *audio_chunks]),
+            ]
+        )
+        res = tokenizer.mistral.encode_chat_completion(request)
+        dummy_tokens = res.tokens
+        # whixtral tokenizer adds padding to the audio
+        # so we need to update the audio arrays
+        dummy_mm_data["audio"] = [a.audio_array for a in res.audios]
+
+        return ProcessorInputs(prompt=dummy_tokens, mm_data=dummy_mm_data)
+
+
+class VoxtralMultiModalProcessor(BaseMultiModalProcessor[VoxtralProcessingInfo]):
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: Mapping[str, NestedTensors],
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(audio_arrays=MultiModalFieldConfig.batched("audio"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        processor = self.info.get_hf_processor(**hf_processor_mm_kwargs)
+
+        audio_id = processor.audio_token_id
+
+        def get_replacement(item_idx: int):
+            audios = mm_items.get_items("audio", AudioProcessorItems)
+            audio_len = audios.get_audio_length(item_idx)
+
+            nb_audio_tokens = processor.get_num_audio_tokens(audio_len)
+
+            return [audio_id] * nb_audio_tokens
+
+        return [
+            PromptReplacement(
+                modality="audio",
+                target="",  # Never match the prompt (see below note)
+                replacement=get_replacement,
+            ),
+        ]
+
+    def _cached_apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        prompt_ids, mm_info, _ = super()._cached_apply_hf_processor(
+            prompt=prompt,
+            mm_data_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        # NOTE: The tokens are already inserted by the chat template
+        return prompt_ids, mm_info, True
+
+    def _get_data_parser(self) -> MultiModalDataParser:
+        sampling_rate = self.info.get_hf_processor().sampling_rate
+        return MultiModalDataParser(target_sr=sampling_rate)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    VoxtralMultiModalProcessor,
+    info=VoxtralProcessingInfo,
+    dummy_inputs=VoxtralDummyInputsBuilder,
+)
+class VoxtralForConditionalGeneration(
+    nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA, SupportsTranscription
+):
+    merge_by_field_config = True
+
+    supported_languages = ISO639_1_SUPPORTED_LANGS
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.tokenizer = cached_tokenizer_from_config(vllm_config.model_config)
+
+        # update quant config to so that ignored module and target module names
+        # match the vLLM model names
+        if hasattr(vllm_config, "quant_config"):
+            vllm_config.quant_config = self.maybe_update_quant_config(
+                vllm_config.quant_config
+            )
+
+        config = vllm_config.model_config.hf_config
+        self.config = config
+        self.downsample_factor = self.config.audio_config.downsample_factor
+
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.whisper_encoder = VoxtralEncoderModel(
+            vllm_config.with_hf_config(config.audio_config),
+            prefix=maybe_prefix(prefix, "whisper_encoder"),
+        )
+        self.audio_language_adapter = AudioLanguageAdapter(
+            hidden_size=config.audio_config.d_model * self.downsample_factor,
+            dim=config.text_config.hidden_size,
+        )
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """Get module prefix for multimodal models to filter LoRA modules."""
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="audio_language_adapter",
+            tower_model=["whisper_encoder"],
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: object,
+    ) -> torch.Tensor | IntermediateTensors:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        hidden_states = self.language_model.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds
+        )
+
+        return hidden_states
+
+    def embed_multimodal(
+        self, **kwargs
+    ) -> list[torch.Tensor] | torch.Tensor | tuple[torch.Tensor, ...] | None:
+        audio_inputs = self._parse_and_validate_audio_arrays(**kwargs)
+        if audio_inputs is None:
+            return None
+
+        audio_embeddings = self.whisper_encoder(audio_inputs)
+
+        for i, audio_embedding in enumerate(audio_embeddings):
+            seq_len, dim = audio_embedding.shape
+            # Pad such that seq_len is divisible by downsample_factor
+            target_seq_len = self.downsample_factor * math.ceil(
+                seq_len / self.downsample_factor
+            )
+            audio_embedding = torch.nn.functional.pad(
+                audio_embedding,
+                (0, 0, 0, target_seq_len - seq_len),
+            )
+            audio_embeddings[i] = audio_embedding.reshape(
+                target_seq_len // self.downsample_factor, dim * self.downsample_factor
+            )
+
+        # Concat, project and resplit
+        audio_embeddings_packed = torch.cat(audio_embeddings, dim=0)
+        audio_embeddings_packed = self.audio_language_adapter(audio_embeddings_packed)
+        audio_embeddings = torch.split(
+            audio_embeddings_packed, [a.shape[0] for a in audio_embeddings], dim=0
+        )
+
+        return audio_embeddings
+
+    def _parse_and_validate_audio_arrays(
+        self, **kwargs: object
+    ) -> list[torch.Tensor] | None:
+        audio_arrays = kwargs.pop("audio_arrays", None)
+        if audio_arrays is None:
+            return None
+
+        if not isinstance(audio_arrays, (torch.Tensor, list)):
+            raise ValueError(
+                f"Incorrect type of audio_arrays. Got type: {type(audio_arrays)}"
+            )
+
+        if isinstance(audio_arrays, torch.Tensor):
+            audio_arrays = list(audio_arrays.unbind(0))
+        return audio_arrays
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: str
+    ) -> SpeechToTextConfig:
+        tokenizer = cached_tokenizer_from_config(model_config)
+        audio_config = tokenizer.instruct.audio_encoder.audio_config
+        max_audio_clip_s = audio_config.chunk_length_s
+        sample_rate = audio_config.sampling_rate
+        return SpeechToTextConfig(
+            max_audio_clip_s=max_audio_clip_s,
+            sample_rate=sample_rate,
+            # mistral_common and whisper encoder take care of chunking
+            min_energy_split_window_size=None,
+        )
+
+    @classmethod
+    # for speech-to-text transcription
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        model_config: ModelConfig,
+        stt_config: SpeechToTextConfig,
+        language: str | None,
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: str | None,
+    ) -> PromptType:
+        tokenizer = cached_tokenizer_from_config(model_config)
+        audio = Audio(audio, int(stt_config.sample_rate), format="wav")  # lossless
+        req = TranscriptionRequest(
+            model=model_config.model,
+            audio=RawAudio.from_audio(audio),
+            language=language,
+        )
+
+        tokenized = tokenizer.instruct.encode_transcription(req)
+        audio = (tokenized.audios[0].audio_array, stt_config.sample_rate)
+        prompts_dict = {"multi_modal_data": {"audio": audio}}
+        prompts_dict["prompt_token_ids"] = tokenized.tokens
+        return cast(PromptType, prompts_dict)
+
+    @classmethod
+    def get_num_audio_tokens(
+        cls,
+        audio_duration_s: float,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+    ) -> int | None:
+        """
+        Map from audio duration to number of audio tokens produced by the ASR
+        model, without running a forward pass.
+        This is used for estimating the amount of processing for this audio.
+        """
+        tokenizer = cached_tokenizer_from_config(model_config)
+        adapter = VoxtralProcessorAdapter(tokenizer)
+        return adapter.get_num_audio_tokens(
+            int(audio_duration_s * stt_config.sample_rate)
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        remapping_rules = [
+            (r"mm_whisper_embeddings\.(.*)", r"\1"),
+            (r"audio_language_projection\.(.*)", r"audio_language_adapter.\1"),
+            (
+                r"audio_language_adapter\.0\.weight",
+                r"audio_language_adapter.w_in.weight",
+            ),
+            (
+                r"audio_language_adapter\.2\.weight",
+                r"audio_language_adapter.w_out.weight",
+            ),
+        ]
+
+        audio_params = dict(
+            nn.ModuleDict(
+                {
+                    "audio_language_adapter": self.audio_language_adapter,
+                }
+            ).named_parameters()
+        )
+
+        loaded_weights = set()
+
+        def llm_weights_generator():
+            nonlocal loaded_weights
+            for name, w in weights:
+                is_encoder = (
+                    name.startswith("mm_whisper_embeddings")
+                    and not name.startswith("mm_whisper_embeddings.tok_embeddings")
+                    and not name.startswith(
+                        "mm_whisper_embeddings.audio_language_projection"
+                    )
+                )
+
+                for pattern, repl in remapping_rules:
+                    if re.fullmatch(pattern, name):
+                        name = re.sub(pattern, repl, name)
+
+                if is_encoder:
+                    name = self.whisper_encoder.load_weight((name, w))
+                    loaded_weights.add(f"whisper_encoder.{name}")
+                    continue
+
+                if name in audio_params:
+                    param = audio_params[name]
+                    with torch.no_grad():
+                        default_weight_loader(param, w)
+                    loaded_weights.add(name)
+                else:
+                    yield (name, w)
+
+        for name in self.language_model.load_weights(llm_weights_generator()):
+            loaded_weights.add(f"language_model.{name}")
+
+        # potentially manually add position embeddings
+        sin_key = "whisper_encoder.whisper_encoder.embed_positions.weight"
+        if sin_key not in loaded_weights:
+            # make sure we don't hit an error here
+            loaded_weights.add(sin_key)
+
+        return loaded_weights
+
+    def maybe_update_quant_config(
+        self, quant_config: QuantizationConfig
+    ) -> QuantizationConfig:
+        """
+        Update quant config to so that ignored module and target module names
+        match the vLLM model names.
+        Right now this is specific for compressed-tensors format and
+        load_format mistral.
+        """
+        remapping_rules = [
+            (r"output", r"language_model.lm_head"),
+            (
+                r"layers\.(\d+)\.attention\.wo",
+                r"language_model.model.layers.\1.self_attn.out_proj",
+            ),
+            (
+                r"layers\.(\d+)\.attention\.w(.*)",
+                r"language_model.model.layers.\1.self_attn.\2_proj",
+            ),
+            (
+                r"layers\.(\d+)\.feed_forward\.w1",
+                r"language_model.model.layers.\1.mlp.gate_proj",
+            ),
+            (
+                r"layers\.(\d+)\.feed_forward\.w2",
+                r"language_model.model.layers.\1.mlp.down_proj",
+            ),
+            (
+                r"layers\.(\d+)\.feed_forward\.w3",
+                r"language_model.model.layers.\1.mlp.up_proj",
+            ),
+            (
+                r"mm_whisper_embeddings\.whisper_encoder\.transformer\.layers\.(\d+)\.attention.w(.*)",
+                r"whisper_encoder.whisper_encoder.layers.\1.layers.self_attn.\2_proj",
+            ),
+            (
+                r"mm_whisper_embeddings\.whisper_encoder\.transformer\.layers\.(\d+)\.attention.wo",
+                r"whisper_encoder.whisper_encoder.layers.\1.layers.self_attn.out_proj",
+            ),
+            (
+                r"mm_whisper_embeddings\.whisper_encoder\.transformer\.layers\.(\d+)\.feed_forward.w(\d+)",
+                r"whisper_encoder.whisper_encoder.layers.\1.layers.mlp.fc\2",
+            ),
+            (
+                r"mm_whisper_embeddings\.whisper_encoder\.conv_layers\.0",
+                r"whisper_encoder.whisper_encoder.conv1",
+            ),
+            (
+                r"mm_whisper_embeddings\.whisper_encoder\.conv_layers\.1",
+                r"whisper_encoder.whisper_encoder.conv2",
+            ),
+            (
+                r"mm_whisper_embeddings\.audio_language_projection\.0",
+                r"audio_language_adapter.w_in",
+            ),
+            (
+                r"mm_whisper_embeddings\.audio_language_projection\.2",
+                r"audio_language_adapter.w_out",
+            ),
+        ]
+
+        # Update ignore list
+        if hasattr(quant_config, "ignore"):
+            mistral_ignore = []
+            for name in quant_config.ignore:
+                mistral_name = name
+                for pattern, repl in remapping_rules:
+                    if re.fullmatch(pattern, name):
+                        mistral_name = re.sub(pattern, repl, name)
+                mistral_ignore.append(mistral_name)
+            quant_config.ignore = mistral_ignore
+
+        # Update target list
+        if hasattr(quant_config, "config_groups"):
+            config_groups = quant_config.config_groups
+            for group_name in config_groups:
+                if "targets" in config_groups[group_name]:
+                    targets = []
+                    for name in config_groups[group_name]["targets"]:
+                        mistral_name = name
+                        for pattern, repl in remapping_rules:
+                            if re.fullmatch(pattern, name):
+                                mistral_name = re.sub(pattern, repl, name)
+                        targets.append(mistral_name)
+                config_groups[group_name]["targets"] = targets
+            quant_config.config_groups = config_groups
+
+        return quant_config
+
+
+class AudioLanguageAdapter(nn.Module):
+    def __init__(self, hidden_size: int, dim: int) -> None:
+        super().__init__()
+        self.w_in = nn.Linear(hidden_size, dim, bias=False)
+        self.gelu = nn.GELU()
+        self.w_out = nn.Linear(dim, dim, bias=False)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.w_out(self.gelu(self.w_in(x)))
+
+
+class VoxtralEncoderModel(nn.Module):
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
+
+    mistral_remapping = [
+        (
+            r"whisper_encoder\.conv_layers\.0\.(weight|bias)",
+            r"whisper_encoder.conv1.\1",
+        ),
+        (
+            r"whisper_encoder\.conv_layers\.1\.(weight|bias)",
+            r"whisper_encoder.conv2.\1",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.attention\.w([qkv])\.(weight|bias)",  # noqa: E501
+            r"whisper_encoder.layers.\1.self_attn.\2_proj.\3",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.attention\.wo\.(weight|bias)",  # noqa: E501
+            r"whisper_encoder.layers.\1.self_attn.out_proj.\2",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.attention_norm\.(weight|bias)",  # noqa: E501
+            r"whisper_encoder.layers.\1.self_attn_layer_norm.\2",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.feed_forward\.w1\.(weight|bias)",  # noqa: E501
+            r"whisper_encoder.layers.\1.mlp.fc1.\2",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.feed_forward\.w2\.(weight|bias)",  # noqa: E501
+            r"whisper_encoder.layers.\1.mlp.fc2.\2",
+        ),
+        (
+            r"whisper_encoder\.transformer\.layers\.(\d+)\.ffn_norm\.(weight|bias)",
+            r"whisper_encoder.layers.\1.final_layer_norm.\2",
+        ),
+        (
+            r"whisper_encoder\.transformer\.norm\.(weight|bias)",
+            r"whisper_encoder.layer_norm.\1",
+        ),
+    ]
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        *,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = cast(WhisperConfig, vllm_config.model_config.hf_config)
+        self.dtype: torch.dtype = vllm_config.model_config.dtype
+        self.whisper_encoder = WhisperEncoder(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "whisper_encoder"),
+            init_in_fp32=True,
+        )
+        mel_filters = mel_filter_bank(
+            num_frequency_bins=1 + self.config.window_size // 2,
+            num_mel_bins=self.config.num_mel_bins,
+            min_frequency=0.0,
+            max_frequency=8000.0,
+            sampling_rate=self.config.sampling_rate,
+        )
+        self.mel_filters = torch.tensor(mel_filters, dtype=torch.float32)
+
+    def compute_whisper_melspec(
+        self,
+        audio_waveforms: torch.Tensor,
+    ) -> torch.Tensor:
+        input_dtype = audio_waveforms.dtype
+        window = torch.hann_window(self.config.window_size).to(audio_waveforms.device)
+        stft = torch.stft(
+            audio_waveforms,
+            self.config.window_size,
+            self.config.hop_length,
+            window=window,
+            return_complex=True,
+        )
+        magnitudes = stft[..., :-1].abs() ** 2
+        mel_spec = self.mel_filters.T @ magnitudes
+        log_spec = torch.clamp(mel_spec, min=1e-10).log10()
+        log_spec = torch.maximum(log_spec, log_spec.max() - 8.0)
+        log_spec = (log_spec + 4.0) / 4.0
+        return log_spec.to(input_dtype)
+
+    @property
+    def downsample_factor(self) -> int:
+        return (
+            self.whisper_encoder.conv1.stride[0] * self.whisper_encoder.conv2.stride[0]
+        )
+
+    @property
+    def chunk_size(self) -> int:
+        return self.config.max_source_positions * self.downsample_factor
+
+    def prepare_inputs_for_conv(
+        self,
+        audio_waveforms: list[torch.Tensor],
+    ) -> tuple[torch.Tensor, list[int]]:
+        assert isinstance(audio_waveforms, list)
+        # list[num_mel_bins, seq_len]
+        input_features = [
+            self.compute_whisper_melspec(audio).to(self.dtype)
+            for audio in audio_waveforms
+        ]
+
+        chunked_features: list[torch.Tensor] = []
+        chunks_per_example: list[int] = []
+        for feature in input_features:
+            chunks = feature.split(self.chunk_size, dim=-1)
+            chunked_features += chunks
+            chunks_per_example.append(len(chunks))
+
+        # [total_num_chunks, num_mel_bins, chunk_size]
+        return torch.stack(chunked_features), chunks_per_example
+
+    def forward(
+        self, input_features: torch.Tensor | list[torch.Tensor]
+    ) -> list[torch.Tensor]:
+        if not isinstance(input_features, list):
+            input_features = [input_features]
+
+        # Split long inputs into chunks
+        input_embeds, chunks_per_example = self.prepare_inputs_for_conv(input_features)
+
+        # [total_num_chunks, ceil(chunk_size / downsample_factor), hidden_size]
+        out = self.whisper_encoder([input_embeds])
+
+        # Re-concatenate the chunks
+        chunk_idx = 0
+        results = []
+        for n_chunks in chunks_per_example:
+            result = out[chunk_idx : chunk_idx + n_chunks].flatten(0, 1)
+            results.append(result)
+            chunk_idx += n_chunks
+
+        return results
+
+    def load_weight(self, weight: tuple[str, torch.Tensor]) -> str:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+
+        name, loaded_weight = weight
+        for pattern, repl in self.mistral_remapping:
+            if re.fullmatch(pattern, name):
+                name = re.sub(pattern, repl, name)
+
+        for param_name, weight_name, shard_id in stacked_params_mapping:
+            if weight_name not in name:
+                continue
+            name = name.replace(weight_name, param_name)
+
+            param = params_dict[name]
+            weight_loader = param.weight_loader
+            weight_loader(param, loaded_weight, shard_id)
+            break
+        else:
+            param = params_dict[name]
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+
+        return name
diff --git a/model_executor/models/whisper.py b/model_executor/models/whisper.py
new file mode 100644
index 0000000..91a10b9
--- /dev/null
+++ b/model_executor/models/whisper.py
@@ -0,0 +1,959 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from contextlib import nullcontext
+from typing import Annotated, Literal, cast
+
+import numpy as np
+import torch
+from torch import nn
+from transformers import (
+    BatchFeature,
+    WhisperConfig,
+    WhisperFeatureExtractor,
+)
+from transformers.models.whisper.modeling_whisper import sinusoids
+
+from vllm.attention import Attention, AttentionType
+from vllm.attention.layer import MultiHeadAttention
+from vllm.attention.layers.cross_attention import CrossAttention
+from vllm.config import CacheConfig, ModelConfig, SpeechToTextConfig, VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.inputs.data import PromptType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+)
+from vllm.multimodal.parse import MultiModalDataItems, MultiModalDataParser
+from vllm.multimodal.processing import (
+    BaseProcessingInfo,
+    EncDecMultiModalProcessor,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.transformers_utils.processor import cached_get_processor
+from vllm.utils.jsontree import json_map_leaves
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+from vllm.utils.torch_utils import set_default_torch_dtype
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsTranscription
+from .utils import (
+    AutoWeightsLoader,
+    WeightsMapper,
+    cast_overflow_tensors,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+# From https://platform.openai.com/docs/guides/speech-to-text/supported-languages
+
+ISO639_1_SUPPORTED_LANGS = {
+    "af": "Afrikaans",
+    "ar": "Arabic",
+    "hy": "Armenian",
+    "az": "Azerbaijani",
+    "be": "Belarusian",
+    "bs": "Bosnian",
+    "bg": "Bulgarian",
+    "ca": "Catalan",
+    "zh": "Chinese",
+    "hr": "Croatian",
+    "cs": "Czech",
+    "da": "Danish",
+    "nl": "Dutch",
+    "en": "English",
+    "et": "Estonian",
+    "fi": "Finnish",
+    "fr": "French",
+    "gl": "Galician",
+    "de": "German",
+    "el": "Greek",
+    "he": "Hebrew",
+    "hi": "Hindi",
+    "hu": "Hungarian",
+    "is": "Icelandic",
+    "id": "Indonesian",
+    "it": "Italian",
+    "ja": "Japanese",
+    "kn": "Kannada",
+    "kk": "Kazakh",
+    "ko": "Korean",
+    "lv": "Latvian",
+    "lt": "Lithuanian",
+    "mk": "Macedonian",
+    "ms": "Malay",
+    "mr": "Marathi",
+    "mi": "Maori",
+    "ne": "Nepali",
+    "no": "Norwegian",
+    "fa": "Persian",
+    "pl": "Polish",
+    "pt": "Portuguese",
+    "ro": "Romanian",
+    "ru": "Russian",
+    "sr": "Serbian",
+    "sk": "Slovak",
+    "sl": "Slovenian",
+    "es": "Spanish",
+    "sw": "Swahili",
+    "sv": "Swedish",
+    "tl": "Tagalog",
+    "ta": "Tamil",
+    "th": "Thai",
+    "tr": "Turkish",
+    "uk": "Ukrainian",
+    "ur": "Urdu",
+    "vi": "Vietnamese",
+    "cy": "Welsh",
+}
+
+
+class WhisperAudioInputs(TensorSchema):
+    """
+    Dimensions:
+        - b: Batch size
+        - nmb: Number of mel bins
+        - t: Time frames (M)
+    """
+
+    input_features: Annotated[
+        list[torch.Tensor] | None,
+        TensorShape("b", "nmb", "t"),
+    ]
+
+
+class WhisperEncoderAttention(MultiHeadAttention):
+    """Multi-headed attention for Whisper encoder with 2D tensor support."""
+
+    def forward(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+    ) -> torch.Tensor:
+        """
+        Input shape: batch_size x seq_len x hidden_size
+                     or seq_len x hidden_size
+        """
+        is_2d = query.dim() == 2
+        if is_2d:
+            query = query.unsqueeze(0)
+            key = key.unsqueeze(0)
+            value = value.unsqueeze(0)
+
+        # Call the parent forward method
+        out = super().forward(query, key, value)
+
+        if is_2d:
+            out = out.squeeze(0)
+
+        return out
+
+
+class WhisperPositionalEmbedding(nn.Embedding):
+    def __init__(self, num_positions: int, embedding_dim: int):
+        super().__init__(num_positions, embedding_dim)
+
+    def forward(self, position_ids):
+        return self.weight[position_ids]
+
+
+class WhisperAttention(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        bias: bool = True,
+        attn_type: AttentionType = AttentionType.DECODER,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.embed_dim = embed_dim
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        if self.total_num_heads >= tp_size:
+            # Number of heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_heads % tp_size == 0
+        else:
+            # Number of heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_heads == 0
+        self.num_kv_heads = max(1, self.total_num_heads // tp_size)
+        self.head_dim = self.embed_dim // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.attn_type = attn_type
+
+        if (self.head_dim * num_heads) != self.embed_dim:
+            raise ValueError(
+                f"embed_dim must be divisible by num_heads (got `embed_dim`: "
+                f"{self.embed_dim} and `num_heads`: {num_heads})."
+            )
+        self.scaling = self.head_dim**-0.5
+
+        self._init_qkv(embed_dim, bias, quant_config, prefix=prefix)
+        self.out_proj = RowParallelLinear(
+            input_size=embed_dim,
+            output_size=embed_dim,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+        if attn_type == AttentionType.ENCODER:
+            self.attn = WhisperEncoderAttention(
+                self.num_heads,
+                self.head_dim,
+                self.scaling,
+                num_kv_heads=self.num_kv_heads,
+            )
+        elif self.attn_type == AttentionType.ENCODER_DECODER:
+            self.attn = CrossAttention(
+                self.num_heads,
+                self.head_dim,
+                self.scaling,
+                num_kv_heads=self.num_kv_heads,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+                attn_type=self.attn_type,
+            )
+        else:  # AttentionType.DECODER (regular decoder self-attention)
+            self.attn = Attention(
+                self.num_heads,
+                self.head_dim,
+                self.scaling,
+                num_kv_heads=self.num_kv_heads,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.attn",
+                attn_type=self.attn_type,
+            )
+
+    def _init_qkv(
+        self,
+        embed_dim: int,
+        bias: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        attn_output = self.attn(q, k, v)
+
+        output, _ = self.out_proj(attn_output)
+
+        return output
+
+
+class WhisperCrossAttention(WhisperAttention):
+    def __init__(
+        self,
+        embed_dim: int,
+        num_heads: int,
+        bias: bool = True,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__(
+            embed_dim=embed_dim,
+            num_heads=num_heads,
+            bias=bias,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+            attn_type=AttentionType.ENCODER_DECODER,
+        )
+
+    def _init_qkv(
+        self,
+        embed_dim: int,
+        bias: bool = True,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        self.q_proj = ColumnParallelLinear(
+            input_size=embed_dim,
+            output_size=embed_dim,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+        self.kv_proj = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.head_dim,
+            total_num_heads=0,
+            total_num_kv_heads=self.total_num_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_proj",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        encoder_hidden_states: torch.Tensor | None,
+    ):
+        q, _ = self.q_proj(hidden_states)
+
+        # Encoder hidden states are only computed once during prefill phase.
+        # Afterwards, the keys and values should be available in the kv-cache.
+        if encoder_hidden_states is not None:
+            kv, _ = self.kv_proj(encoder_hidden_states)
+            k, v = kv.split([self.kv_size, self.kv_size], dim=-1)
+        else:
+            k = v = None
+
+        attn_output = self.attn(q, k, v)
+
+        output, _ = self.out_proj(attn_output)
+
+        return output
+
+
+class WhisperMLP(nn.Module):
+    def __init__(
+        self,
+        embed_dim: int,
+        ffn_dim: int,
+        act_fn: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.activation_fn = get_act_fn(act_fn)
+        self.fc1 = ColumnParallelLinear(
+            input_size=embed_dim,
+            output_size=ffn_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            input_size=ffn_dim,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor):
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class WhisperEncoderLayer(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.embed_dim = config.d_model
+        self.self_attn = WhisperAttention(
+            embed_dim=self.embed_dim,
+            num_heads=config.encoder_attention_heads,
+            attn_type=AttentionType.ENCODER,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.self_attn_layer_norm = nn.LayerNorm(self.embed_dim)
+        self.mlp = WhisperMLP(
+            embed_dim=config.d_model,
+            ffn_dim=config.encoder_ffn_dim,
+            act_fn=config.activation_function,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.final_layer_norm = nn.LayerNorm(self.embed_dim)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        residual = hidden_states
+        hidden_states = self.self_attn_layer_norm(hidden_states)
+        hidden_states = self.self_attn(hidden_states=hidden_states)
+        hidden_states = residual + hidden_states
+        residual = hidden_states
+        hidden_states = self.final_layer_norm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        hidden_states = cast_overflow_tensors(hidden_states)
+
+        return hidden_states
+
+
+class WhisperDecoderLayer(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        self.self_attn = WhisperAttention(
+            embed_dim=config.d_model,
+            num_heads=config.decoder_attention_heads,
+            attn_type=AttentionType.DECODER,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+        self.self_attn_layer_norm = nn.LayerNorm(config.d_model)
+        self.encoder_attn = WhisperCrossAttention(
+            embed_dim=config.d_model,
+            num_heads=config.decoder_attention_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder_attn",
+        )
+        self.encoder_attn_layer_norm = nn.LayerNorm(config.d_model)
+        self.mlp = WhisperMLP(
+            embed_dim=config.d_model,
+            ffn_dim=config.decoder_ffn_dim,
+            act_fn=config.activation_function,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.final_layer_norm = nn.LayerNorm(config.d_model)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        encoder_hidden_states: torch.Tensor | None,
+    ):
+        residual = hidden_states
+        hidden_states = self.self_attn_layer_norm(hidden_states)
+        hidden_states = self.self_attn(hidden_states=hidden_states)
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.encoder_attn_layer_norm(hidden_states)
+        hidden_states = self.encoder_attn(
+            hidden_states=hidden_states,
+            encoder_hidden_states=encoder_hidden_states,
+        )
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.final_layer_norm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class WhisperEncoder(nn.Module):
+    def __init__(
+        self, *, vllm_config: VllmConfig, prefix: str = "", init_in_fp32: bool = False
+    ):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        embed_dim = config.d_model
+        self.num_mel_bins = config.num_mel_bins
+        self.max_source_positions = config.max_source_positions
+        self.embed_scale = math.sqrt(embed_dim) if config.scale_embedding else 1.0
+
+        self.conv1 = nn.Conv1d(self.num_mel_bins, embed_dim, kernel_size=3, padding=1)
+        self.conv2 = nn.Conv1d(embed_dim, embed_dim, kernel_size=3, stride=2, padding=1)
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.encoder_layers,
+            lambda prefix: WhisperEncoderLayer(
+                vllm_config=vllm_config, prefix=f"{prefix}.layers"
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.layer_norm = nn.LayerNorm(config.d_model)
+
+        maybe_fp32_init_ctx = (
+            set_default_torch_dtype(torch.float32) if init_in_fp32 else nullcontext()
+        )
+
+        with (
+            torch.no_grad(),
+            maybe_fp32_init_ctx,
+        ):
+            self.embed_positions = nn.Embedding(self.max_source_positions, embed_dim)
+            self.embed_positions.weight.copy_(
+                sinusoids(*self.embed_positions.weight.shape)
+            )
+
+    def forward(self, input_features: torch.Tensor | list[torch.Tensor]):
+        hidden_states = []
+        for features in input_features:
+            embeds = nn.functional.gelu(self.conv1(features))
+            embeds = nn.functional.gelu(self.conv2(embeds))
+            embeds = embeds.transpose(-1, -2)
+            embeds = (embeds + self.embed_positions.weight[: embeds.size(-2), :]).to(
+                embeds.dtype
+            )
+            hidden_states.append(embeds)
+        hidden_states = torch.cat(hidden_states)
+
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(hidden_states)
+
+        hidden_states = self.layer_norm(hidden_states)
+        return hidden_states
+
+
+class WhisperDecoder(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        self.layerdrop = config.decoder_layerdrop
+        self.padding_idx = config.pad_token_id
+        self.max_target_positions = config.max_target_positions
+        self.max_source_positions = config.max_source_positions
+        self.embed_scale = math.sqrt(config.d_model) if config.scale_embedding else 1.0
+
+        self.embed_tokens = nn.Embedding(
+            config.vocab_size, config.d_model, self.padding_idx
+        )
+        self.embed_positions = WhisperPositionalEmbedding(
+            self.max_target_positions, config.d_model
+        )
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.decoder_layers,
+            lambda prefix: WhisperDecoderLayer(
+                vllm_config=vllm_config, prefix=f"{prefix}.layers"
+            ),
+            prefix=f"{prefix}.layers",
+        )
+        self.layer_norm = nn.LayerNorm(config.d_model)
+
+    def forward(
+        self,
+        input_ids,
+        positions: torch.Tensor,
+        encoder_hidden_states: torch.Tensor | None,
+    ):
+        inputs_embeds = self.embed_input_ids(input_ids)
+        positions = self.embed_positions(positions)
+        hidden_states = inputs_embeds + positions
+
+        for decoder_layer in self.layers:
+            hidden_states = decoder_layer(
+                hidden_states,
+                encoder_hidden_states=encoder_hidden_states,
+            )
+
+        hidden_states = self.layer_norm(hidden_states)
+        return hidden_states
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+
+class WhisperModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.encoder = WhisperEncoder(
+            vllm_config=vllm_config, prefix=f"{prefix}.encoder"
+        )
+        self.decoder = WhisperDecoder(
+            vllm_config=vllm_config, prefix=f"{prefix}.decoder"
+        )
+
+    def forward(
+        self,
+        input_features: torch.Tensor | list[torch.Tensor] | None,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+    ) -> torch.Tensor:
+        encoder_outputs = self.get_encoder_outputs(input_features)
+        decoder_outputs = self.decoder(
+            input_ids=input_ids,
+            positions=positions,
+            encoder_hidden_states=encoder_outputs,
+        )
+        return decoder_outputs
+
+    def get_encoder_outputs(
+        self,
+        input_features: torch.Tensor | list[torch.Tensor] | None,
+    ) -> torch.Tensor | None:
+        if input_features is None:
+            return None
+        return self.encoder(input_features)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".self_attn.qkv_proj", ".self_attn.q_proj", "q"),
+            (".self_attn.qkv_proj", ".self_attn.k_proj", "k"),
+            (".self_attn.qkv_proj", ".self_attn.v_proj", "v"),
+            (".encoder_attn.kv_proj", ".encoder_attn.k_proj", "k"),
+            (".encoder_attn.kv_proj", ".encoder_attn.v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class WhisperProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self) -> WhisperConfig:
+        return self.ctx.get_hf_config(WhisperConfig)
+
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        return {"audio": 1}
+
+    def get_feature_extractor(self, **kwargs: object) -> WhisperFeatureExtractor:
+        hf_processor = self.get_hf_processor(**kwargs)
+        feature_extractor = hf_processor.feature_extractor  # type: ignore
+        assert isinstance(feature_extractor, WhisperFeatureExtractor)
+        return feature_extractor
+
+    def get_num_audio_tokens(self) -> int:
+        return self.get_hf_config().max_source_positions
+
+
+class WhisperDummyInputsBuilder(BaseDummyInputsBuilder[WhisperProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_audios = mm_counts.get("audio", 0)
+
+        return "<|startoftranscript|>" * num_audios
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        feature_extractor = self.info.get_feature_extractor()
+
+        sampling_rate = feature_extractor.sampling_rate
+        audio_len = feature_extractor.chunk_length * sampling_rate
+        num_audios = mm_counts.get("audio", 0)
+
+        audio_overrides = mm_options.get("audio") if mm_options else None
+
+        return {
+            "audio": self._get_dummy_audios(
+                length=audio_len, num_audios=num_audios, overrides=audio_overrides
+            )
+        }
+
+
+class WhisperMultiModalProcessor(EncDecMultiModalProcessor[WhisperProcessingInfo]):
+    def _get_data_parser(self) -> MultiModalDataParser:
+        feature_extractor = self.info.get_feature_extractor()
+        return MultiModalDataParser(target_sr=feature_extractor.sampling_rate)
+
+    @property
+    def pad_dummy_encoder_prompt(self) -> bool:
+        return True
+
+    def create_encoder_prompt(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+    ) -> str | list[int]:
+        # Strictly speaking, whisper encoder only accept audio features.
+        # We create a dummy encoder prompt here which will be padded to
+        # num_audio_tokens. So that we can create dummy data from this
+        # for encoder profiling.
+        return [0]
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if mm_data:
+            feature_extractor = self.info.get_feature_extractor(**mm_kwargs)
+            mm_data = dict(audio=mm_data.pop("audios"))
+            mm_kwargs = dict(
+                **mm_kwargs,
+                sampling_rate=feature_extractor.sampling_rate,
+            )
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+            tok_kwargs=tok_kwargs,
+        )
+        if "labels" in processed_outputs:
+            processed_outputs["input_ids"] = processed_outputs.pop("labels")
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(input_features=MultiModalFieldConfig.batched("audio"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        num_tokens = self.info.get_num_audio_tokens()
+        return [
+            PromptReplacement(
+                modality="audio",
+                target=[0],
+                replacement=[0] * num_tokens,
+            )
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    WhisperMultiModalProcessor,
+    info=WhisperProcessingInfo,
+    dummy_inputs=WhisperDummyInputsBuilder,
+)
+class WhisperForConditionalGeneration(
+    nn.Module, SupportsTranscription, SupportsMultiModal
+):
+    merge_by_field_config = True
+    packed_modules_mapping = {
+        "self_attn.qkv_proj": [
+            "self_attn.q_proj",
+            "self_attn.k_proj",
+            "self_attn.v_proj",
+        ],
+        "encoder_attn.kv_proj": ["encoder_attn.k_proj", "encoder_attn.v_proj"],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={".fc1.": ".mlp.fc1.", ".fc2.": ".mlp.fc2."}
+    )
+
+    # Whisper only supports audio-conditioned generation.
+    supports_transcription_only = True
+    supported_languages = ISO639_1_SUPPORTED_LANGS
+
+    @classmethod
+    def validate_language(cls, language: str | None) -> str | None:
+        if language is None:
+            # TODO language should be optional and can be guessed.
+            # For now we default to en. See
+            # https://github.com/huggingface/transformers/blob/main/src/transformers/models/whisper/generation_whisper.py#L1520
+            logger.warning(
+                "Defaulting to language='en'. If you wish to transcribe "
+                "audio in a different language, pass the `language` field "
+                "in the TranscriptionRequest."
+            )
+            language = "en"
+        return super().validate_language(language)
+
+    @classmethod
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        model_config: ModelConfig,  # not needed here
+        stt_config: SpeechToTextConfig,
+        language: str | None,
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: str | None,
+    ) -> PromptType:
+        if language is None:
+            raise ValueError(
+                "Language must be specified when creating the Whisper prompt"
+            )
+        prompt = {
+            "encoder_prompt": {
+                # Whisper does not support encoder prompt.
+                "prompt": "",
+                "multi_modal_data": {
+                    "audio": (audio, stt_config.sample_rate),
+                },
+            },
+            "decoder_prompt": (
+                (f"<|prev|>{request_prompt}" if request_prompt else "")
+                + f"<|startoftranscript|><|{language}|>"
+                + f"<|{task_type}|><|notimestamps|>"
+            ),
+        }
+        return cast(PromptType, prompt)
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("audio"):
+            return None
+
+        raise ValueError("Only audio modality is supported")
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: str
+    ) -> SpeechToTextConfig:
+        processor = cached_get_processor(model_config.model)
+
+        return SpeechToTextConfig(
+            max_audio_clip_s=processor.feature_extractor.chunk_length,
+            sample_rate=processor.feature_extractor.sampling_rate,
+        )
+
+    @classmethod
+    def get_num_audio_tokens(
+        cls,
+        audio_duration_s: float,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+    ) -> int | None:
+        processor = cached_get_processor(model_config.model)
+        hop_length = processor.feature_extractor.hop_length
+        assert hop_length is not None
+        # NOTE(NickLucche) user can't pass encoder
+        # prompts directly at least not to Whisper.
+        # One indicator of the encoder amount of processing
+        # is the log-mel spectogram length.
+        return math.ceil(audio_duration_s * stt_config.sample_rate / hop_length)
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.dtype = vllm_config.model_config.dtype
+
+        self.model = WhisperModel(vllm_config=vllm_config, prefix=prefix)
+
+        self.proj_out = ParallelLMHead(
+            config.vocab_size,
+            config.d_model,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "proj_out"),
+        )
+        self.proj_out = self.proj_out.tie_weights(self.model.decoder.embed_tokens)
+        logit_scale = getattr(config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        decoder_outputs = self.model(
+            input_features=audio_input["input_features"],
+            input_ids=input_ids,
+            positions=positions,
+        )
+        return decoder_outputs
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.model.decoder
+
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+        # Required as part of SupportsMultiModal interface.
+        audio_input = self._parse_and_validate_audio_input(**kwargs)
+        return [self.model.get_encoder_outputs(audio_input["input_features"])]
+
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = False,
+    ) -> torch.Tensor:
+        # This method just returns the decoder sequence embeddings since
+        # Whisper does not have encoder text tokens.
+        return self.model.decoder.embed_input_ids(input_ids)
+
+    def _parse_and_validate_audio_input(self, **kwargs: object) -> WhisperAudioInputs:
+        input_features = kwargs.pop("input_features", None)
+
+        if input_features is not None:
+            input_features = json_map_leaves(lambda x: x.to(self.dtype), input_features)
+
+        return WhisperAudioInputs(input_features=input_features)
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        logits = self.logits_processor(self.proj_out, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self, skip_prefixes=["proj_out."])
+
+        # add fake zeros bias for k_proj to state_dict
+        weights = _create_fake_bias_for_k_proj(weights)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+
+def _create_fake_bias_for_k_proj(
+    weights: Iterable[tuple[str, torch.Tensor]],
+) -> Iterable[tuple[str, torch.Tensor]]:
+    """
+    Create full zeros bias for k_proj weight in self-attn and x-attn layers.
+    So that the bias for k_proj in qkv_proj can be initialized with zeros.
+    """
+    for name, weight in weights:
+        if name.endswith(".k_proj.weight"):
+            bias = torch.zeros(weight.size(0))
+            bias_name = name.replace("weight", "bias")
+            yield from [(name, weight), (bias_name, bias)]
+        yield name, weight
diff --git a/model_executor/models/zamba2.py b/model_executor/models/zamba2.py
new file mode 100644
index 0000000..64e6979
--- /dev/null
+++ b/model_executor/models/zamba2.py
@@ -0,0 +1,986 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""PyTorch Zamba2 model implementation for vLLM.
+
+This module implements the Zamba2 architecture from
+https://arxiv.org/abs/2411.15242, which combines Mamba and Transformer
+architectures in a hybrid model optimized for efficient sequence modeling. The
+model alternates between state space model layers and attention-based layers.
+"""
+
+from collections.abc import Iterable
+from itertools import cycle
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import Zamba2Config
+
+from vllm.attention.layer import Attention
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import GeluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_mixer2 import MambaMixer2
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import HasInnerState, IsHybrid, SupportsMambaPrefixCaching
+from .utils import AutoWeightsLoader, WeightsMapper, maybe_prefix
+
+
+class Zamba2LoRA(nn.Module):
+    """LoRA layer for the Zamba2 model.
+
+    Implements a LoRA layer that is used in shared attention and gated MLP
+    blocks.
+    """
+
+    def __init__(
+        self,
+        input_dim: int,
+        rank: int,
+        output_dim: int | list[int],
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        """Initialize the attention layer.
+
+        Args:
+            input_dim: input dimension
+            rank: LoRA rank
+            output_dim: output dimension
+            quant_config: Configuration for model quantization
+        """
+        super().__init__()
+
+        self.A = ColumnParallelLinear(
+            input_dim,
+            rank,
+            bias=False,
+            quant_config=quant_config,
+            gather_output=True,
+            prefix=f"{prefix}.A",
+        )
+
+        if isinstance(output_dim, list):
+            B_class = MergedColumnParallelLinear
+        else:
+            B_class = ColumnParallelLinear
+        self.B = B_class(rank, output_dim, bias=False, quant_config=quant_config)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ):
+        lora_output, _ = self.A(hidden_states)
+        lora_output, _ = self.B(lora_output)
+        return lora_output
+
+
+class Zamba2Attention(nn.Module):
+    """Multi-head attention mechanism for the Zamba2 model.
+
+    Implements attention with parallel computation, QKV projections, optional
+    adapters and rotary position embeddings. The attention is computed across
+    distributed blocks for efficient processing.
+    """
+
+    def __init__(
+        self,
+        config: Zamba2Config,
+        bare_block_idx: int,
+        num_hybrid_layers: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Initialize the attention layer.
+
+        Args:
+            config: The Zamba2 model configuration
+            bare_block_idx: Index of the bare attention block
+            num_hybrid_layers: Total number of hybrid layers
+            cache_config: Configuration for key-value caching
+            quant_config: Configuration for model quantization
+            prefix: Optional prefix for parameter names
+        """
+        super().__init__()
+        tp_size = get_tensor_model_parallel_world_size()
+        self.config = config
+        self.num_hybrid_layers = num_hybrid_layers
+        self.rope_theta = config.rope_theta
+
+        self.attention_hidden_size = config.attention_hidden_size
+        self.total_num_attention_heads = config.num_attention_heads
+        assert self.total_num_attention_heads % tp_size == 0
+        self.num_attention_heads = config.num_attention_heads // tp_size
+        self.attention_head_dim = config.attention_head_dim
+        self.qkv_size = self.attention_hidden_size // tp_size
+        self.scale = (self.attention_head_dim / 2) ** -0.5
+
+        if (
+            self.attention_head_dim * self.total_num_attention_heads
+        ) != self.attention_hidden_size:
+            raise ValueError(
+                f"attention_hidden_size must be divisible by"
+                f" num_attention_heads"
+                f" (got `attention_hidden_size`: {self.attention_hidden_size}"
+                f" and `num_heads`: {self.num_attention_heads})."
+            )
+
+        self.qkv_proj = QKVParallelLinear(
+            self.attention_hidden_size,
+            self.attention_head_dim,
+            self.total_num_attention_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.attention_hidden_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        # Even though in Zamba2 weights are shared between attention layers, KV
+        # cache is unique for every attention layer. Hence, we need to define
+        # separate Attention objects, because in recent vLLM KV cache tensors
+        # are tied to specific Attention objects.
+
+        # Initialize attention blocks with proper indexing
+        self.dpa_list = nn.ModuleList([])
+        j = (
+            bare_block_idx
+            * (self.num_hybrid_layers + config.num_mem_blocks - 1)
+            // config.num_mem_blocks
+        )
+        for block_idx in range(self.num_hybrid_layers):
+            if block_idx % config.num_mem_blocks == bare_block_idx:
+                dpa = Attention(
+                    self.num_attention_heads,
+                    self.attention_head_dim,
+                    self.scale,
+                    cache_config=cache_config,
+                    prefix=f"{prefix}.attn.{j}",
+                )
+                j += 1
+            else:
+                dpa = nn.Identity()
+            self.dpa_list.append(dpa)
+
+        # Initialize adapter layers if enabled
+        if config.use_shared_attention_adapter:
+            self.linear_q_adapter_list = nn.ModuleList([])
+            self.linear_k_adapter_list = nn.ModuleList([])
+            self.linear_v_adapter_list = nn.ModuleList([])
+
+            for block_idx in range(self.num_hybrid_layers):
+                if block_idx % config.num_mem_blocks == bare_block_idx:
+                    linear_q_adapter = Zamba2LoRA(
+                        self.attention_hidden_size,
+                        config.adapter_rank,
+                        self.attention_hidden_size,
+                        quant_config=quant_config,
+                        prefix=f"{prefix}.linear_q_adapter",
+                    )
+                    linear_k_adapter = Zamba2LoRA(
+                        self.attention_hidden_size,
+                        config.adapter_rank,
+                        self.attention_hidden_size,
+                        quant_config=quant_config,
+                        prefix=f"{prefix}.linear_k_adapter",
+                    )
+                    linear_v_adapter = Zamba2LoRA(
+                        self.attention_hidden_size,
+                        config.adapter_rank,
+                        self.attention_hidden_size,
+                        quant_config=quant_config,
+                        prefix=f"{prefix}.linear_v_adapter",
+                    )
+                else:
+                    linear_q_adapter = nn.Identity()
+                    linear_k_adapter = nn.Identity()
+                    linear_v_adapter = nn.Identity()
+
+                self.linear_q_adapter_list.append(linear_q_adapter)
+                self.linear_k_adapter_list.append(linear_k_adapter)
+                self.linear_v_adapter_list.append(linear_v_adapter)
+
+        if config.use_mem_rope:
+            self.rotary_emb = get_rope(
+                head_size=self.attention_head_dim,
+                rotary_dim=self.attention_head_dim,
+                max_position=config.max_position_embeddings,
+                base=self.rope_theta,
+                rope_scaling=None,
+                is_neox_style=True,
+            )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        block_idx: int,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        """Forward pass through the attention layer.
+
+        Args:
+            hidden_states: Input tensor [batch_size, seq_len, hidden_size]
+            position_ids: Position IDs for positional embeddings
+            block_idx: Current shared transformer block index
+
+        Returns:
+            Output tensor [batch_size, seq_len, hidden_size]
+        """
+        qkv, _ = self.qkv_proj(hidden_states)
+        query_states, key_states, value_states = qkv.split([self.qkv_size] * 3, dim=-1)
+
+        if self.config.use_shared_attention_adapter:
+            # Apply adapter transformations to Q, K, V if enabled
+            q_adapter = self.linear_q_adapter_list[block_idx]
+            assert not isinstance(q_adapter, nn.Identity)
+            q_lora_output = q_adapter(hidden_states)
+            query_states = query_states + q_lora_output
+
+            k_adapter = self.linear_k_adapter_list[block_idx]
+            assert not isinstance(k_adapter, nn.Identity)
+            k_lora_output = k_adapter(hidden_states)
+            key_states = key_states + k_lora_output
+
+            v_adapter = self.linear_v_adapter_list[block_idx]
+            assert not isinstance(v_adapter, nn.Identity)
+            v_lora_output = v_adapter(hidden_states)
+            value_states = value_states + v_lora_output
+
+        if self.config.use_mem_rope:
+            query_states, key_states = self.rotary_emb(
+                position_ids, query_states, key_states
+            )
+
+        y = self.dpa_list[block_idx](query_states, key_states, value_states)
+        y, _ = self.o_proj(y)
+        return y
+
+
+class Zamba2MLP(nn.Module):
+    """Feed-forward MLP layer for the Zamba2 model.
+
+    Implements a gated feed-forward network that projects inputs to a larger
+    intermediate size, applies GELU activation with gating, then projects back
+    to the original size. Includes optional adapter layers for model adaptation.
+    """
+
+    def __init__(
+        self,
+        config: Zamba2Config,
+        bare_block_idx: int,
+        num_hybrid_layers: dict[int, int],
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Initialize the MLP layer.
+
+        Args:
+            config: The Zamba2 model configuration
+            bare_block_idx: Index of the bare block in the model
+            num_hybrid_layers: Total number of hybrid layers
+            quant_config: Configuration for model quantization
+        """
+        super().__init__()
+        self.config = config
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_hybrid_layers = num_hybrid_layers
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+
+        # Main projection layers with gating
+        self.gate_up_proj = MergedColumnParallelLinear(
+            self.hidden_size,
+            2 * [self.intermediate_size],  # 2x for gate and input projections
+            bias=self.config.add_bias_linear,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+
+        self.down_proj = RowParallelLinear(
+            self.intermediate_size,
+            self.hidden_size,
+            bias=self.config.add_bias_linear,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+
+        # Only allow GELU activations
+        if config.hidden_act != "gelu":
+            raise ValueError(
+                f"Only GELU activation is supported "
+                f"(got `hidden_act`: {config.hidden_act})"
+            )
+        self.act_fn = GeluAndMul()
+
+        # Initialize adapter layers
+        self.gate_up_proj_adapter_list = nn.ModuleList([])
+        for block_idx in range(self.num_hybrid_layers):
+            if block_idx % config.num_mem_blocks == bare_block_idx:
+                gate_up_proj_adapter = Zamba2LoRA(
+                    config.hidden_size,
+                    config.adapter_rank,
+                    2 * [self.intermediate_size],
+                    quant_config,
+                )
+            else:
+                gate_up_proj_adapter = nn.Identity()
+            self.gate_up_proj_adapter_list.append(gate_up_proj_adapter)
+
+    def forward(self, hidden_states: torch.Tensor, block_idx: int) -> torch.Tensor:
+        """Forward pass through the MLP layer.
+
+        Args:
+            hidden_states: Input tensor [batch_size, seq_len, hidden_size]
+            block_idx: Current shared transformer block index
+
+        Returns:
+            Output tensor [batch_size, seq_len, hidden_size] after applying
+            gated feed-forward transformation
+        """
+        # Project input to intermediate size with gating
+        gate_up_states, _ = self.gate_up_proj(hidden_states)
+
+        # Apply adapter transformation if present
+        adapter = self.gate_up_proj_adapter_list[block_idx]
+        assert not isinstance(adapter, nn.Identity)
+        lora_output = adapter(hidden_states)
+        gate_up_states = gate_up_states + lora_output
+
+        # Apply GELU activation with gating
+        hidden_states = self.act_fn(gate_up_states)
+
+        # Project back to hidden size
+        output, _ = self.down_proj(hidden_states)
+        return output
+
+
+class Zamba2AttentionDecoderLayer(nn.Module):
+    """Single decoder layer combining attention and feed-forward networks.
+
+    This layer implements a standard transformer block with:
+    - Input layer normalization
+    - Multi-head self-attention
+    - Pre-feed-forward layer normalization
+    - Feed-forward network (MLP)
+    """
+
+    def __init__(
+        self,
+        config: Zamba2Config,
+        bare_block_idx: int,
+        num_hybrid_layers: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Initialize the decoder layer.
+
+        Args:
+            config: The Zamba2 model configuration
+            bare_block_idx: Index of the bare block
+            num_hybrid_layers: Total number of hybrid layers
+            cache_config: Configuration for key-value caching
+            quant_config: Configuration for model quantization
+            prefix: Optional prefix for parameter names
+        """
+        super().__init__()
+
+        # Initialize attention sublayer
+        self.self_attn = Zamba2Attention(
+            config,
+            bare_block_idx=bare_block_idx,
+            num_hybrid_layers=num_hybrid_layers,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+        # Initialize feed-forward sublayer
+        self.feed_forward = Zamba2MLP(
+            config,
+            bare_block_idx=bare_block_idx,
+            num_hybrid_layers=num_hybrid_layers,
+            quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
+        )
+
+        # Initialize layer normalizations
+        # Input normalization operates on concatenated states
+        self.input_layernorm = RMSNorm(2 * config.hidden_size, eps=config.rms_norm_eps)
+        # Pre-FF normalization operates on attention output
+        self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        original_hidden_states: torch.Tensor,
+        block_idx: int,
+        positions: torch.Tensor,
+    ) -> torch.Tensor:
+        """Forward pass through the decoder layer.
+
+        Args:
+            hidden_states: Input tensor from previous layer
+            original_hidden_states: Original input tensor for residual
+                connection
+            block_idx: Current shared transformer block index
+            positions: IDs for positional embeddings
+
+        Returns:
+            Transformed hidden states after attention and feed-forward
+        """
+
+        # The argument original_hidden_states is concatenated with hidden_states
+        # (which is the output of the previous (mamba) layer).
+        # The concatenated tensor is then used as input of the pre-attention
+        # RMSNorm (see fig. 2 in https://arxiv.org/pdf/2405.16712).
+        hidden_states = torch.concatenate(
+            [hidden_states, original_hidden_states], dim=-1
+        )
+
+        # Layer norm before attention
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self attention
+        hidden_states = self.self_attn(
+            hidden_states,
+            position_ids=positions,
+            block_idx=block_idx,
+        )
+
+        # Layer norm before feed-forward
+        hidden_states = self.pre_ff_layernorm(hidden_states)
+
+        # Feed-forward network
+        hidden_states = self.feed_forward(hidden_states, block_idx=block_idx)
+
+        return hidden_states
+
+
+class Zamba2MambaDecoderLayer(nn.Module):
+    """Single Mamba decoder layer with normalization.
+
+    This implements a  Mamba block. It includes input normalization
+    and can process sequences using either chunked or full
+    computation depending on configuration.
+    """
+
+    def __init__(
+        self,
+        config: Zamba2Config,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Initialize the Mamba decoder layer.
+
+        Args:
+            config: The Zamba2 model configuration
+            quant_config: Configuration for model quantization
+        """
+        super().__init__()
+
+        # Initialize Mamba mixer with expanded intermediate size
+        intermediate_size = config.mamba_expand * config.hidden_size
+        self.mamba = MambaMixer2(
+            hidden_size=config.hidden_size,
+            ssm_state_size=config.mamba_d_state,
+            conv_kernel_size=config.mamba_d_conv,
+            intermediate_size=intermediate_size,
+            use_conv_bias=config.use_conv_bias,
+            use_bias=config.add_bias_linear,
+            n_groups=config.mamba_ngroups,
+            num_heads=config.n_mamba_heads,
+            head_dim=intermediate_size // config.n_mamba_heads,
+            rms_norm_eps=config.rms_norm_eps,
+            activation="silu",
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mixer",
+        )
+
+        # Input normalization
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        transformer_hidden_states: torch.Tensor | None = None,
+        positions: torch.Tensor | None = None,
+        original_hidden_states: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass through the Mamba decoder layer.
+
+        Args:
+            hidden_states: Input tensor [batch_size, seq_len, hidden_size]
+            transformer_hidden_states: Optional output from transformer path
+                Added to input if provided (used in hybrid architecture)
+            positions: Optional position IDs (unused in Mamba)
+            original_hidden_states: Optional original inputs (unused in Mamba)
+
+        Returns:
+            Transformed hidden states with residual connection applied
+        """
+        # Store input for residual connection
+        residual = hidden_states
+
+        # `transformer_hidden_states` is the output from shared
+        # transformer + linear layer (see fig. 2 in
+        # https://arxiv.org/pdf/2405.16712).
+        # `transformer_hidden_states` is then added to the input to the mamba
+        # layer below (as described in eq. (6) of
+        # https://arxiv.org/pdf/2405.16712).
+        if transformer_hidden_states is not None:
+            hidden_states = hidden_states + transformer_hidden_states
+
+        # Apply input normalization
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Process through Mamba mixer
+        output = torch.empty_like(hidden_states)
+        self.mamba(
+            hidden_states,
+            output,
+        )
+
+        # residual connection after mamba
+        hidden_states = residual + output
+
+        return hidden_states
+
+
+class Zamba2HybridLayer(nn.Module):
+    """Hybrid layer combining Transformer and Mamba architectures.
+
+    This layer implements the hybrid architecture described in the Zamba paper,
+    where a shared transformer pathway processes input in parallel with a Mamba
+    pathway. The transformer output is projected and added to the Mamba input
+    for enhanced representation learning.
+    """
+
+    def __init__(
+        self,
+        shared_transformer: Zamba2AttentionDecoderLayer,
+        config: Zamba2Config,
+        block_idx: int,
+        model_config: ModelConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Initialize the hybrid layer.
+
+        Args:
+            shared_transformer: Transformer decoder layer for attention pathway
+        """
+        super().__init__()
+        self.block_idx = block_idx
+        self.shared_transformer = shared_transformer
+        self.linear = ReplicatedLinear(
+            config.hidden_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.linear",
+        )
+        self.mamba_decoder = Zamba2MambaDecoderLayer(
+            config,
+            model_config=model_config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        original_hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+    ) -> torch.Tensor:
+        """Forward pass through the hybrid layer.
+
+        Processes input through parallel transformer and Mamba paths:
+        1. Transformer path processes input with attention
+        2. Transformer output is projected to match hidden size
+        3. Projected output is added to Mamba path input
+        4. Final output combines both paths' representations
+
+        Args:
+            hidden_states: Input tensor [batch_size, seq_len, hidden_size]
+            original_hidden_states: Original input for transformer residual
+                connection
+            positions: Position IDs for positional embeddings
+
+        Returns:
+            Output tensor combining transformer and Mamba representations
+        """
+        # Process through transformer pathway
+        transformer_hidden_states = self.shared_transformer(
+            hidden_states,
+            original_hidden_states=original_hidden_states,
+            block_idx=self.block_idx,
+            positions=positions,
+        )
+
+        # Project transformer output
+        transformer_hidden_states, _ = self.linear(transformer_hidden_states)
+
+        # Process through Mamba pathway with transformer injection
+        layer_outputs = self.mamba_decoder(
+            hidden_states,
+            transformer_hidden_states=transformer_hidden_states,
+        )
+
+        return layer_outputs
+
+
+@support_torch_compile
+class Zamba2Model(nn.Module):
+    """Core Zamba2 model combining transformer and Mamba architectures.
+
+    The model processes input through a sequence of hybrid and Mamba-only
+    layers, using token embeddings and final layer normalization.
+    """
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        """Initialize the Zamba2 model.
+
+        Args:
+            vllm_config: Configuration object containing model, cache,
+                quantization and LoRA settings
+            prefix: Optional prefix for parameter names in state dict
+        """
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+        is_lora_enabled = bool(lora_config)
+        assert not is_lora_enabled
+
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+
+        # Initialize token embeddings
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+        )
+
+        # Map hybrid layer indices to block indices
+        layer2block_map = {
+            layer_idx: block_idx
+            for block_idx, layer_idx in enumerate(config.hybrid_layer_ids)
+        }
+
+        # Create cyclic iterator of transformer blocks
+        blocks = cycle(
+            [
+                Zamba2AttentionDecoderLayer(
+                    config,
+                    bare_block_idx=idx,
+                    num_hybrid_layers=len(layer2block_map),
+                    cache_config=cache_config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}",
+                )
+                for idx in range(config.num_mem_blocks)
+            ]
+        )
+
+        # Initialize layers according to block type configuration
+        layers = []
+        for layer_idx, layer_type in enumerate(config.layers_block_type):
+            # tdoublep: avoid layers getting same index
+            # somewhat hacky but correct (I think)
+            prefix = str(len(layer2block_map) + layer_idx)
+            if layer_type == "hybrid":
+                block = next(blocks)
+                block_idx = layer2block_map[layer_idx]
+                layers.append(
+                    Zamba2HybridLayer(
+                        block,
+                        config,
+                        block_idx,
+                        model_config=model_config,
+                        cache_config=cache_config,
+                        quant_config=quant_config,
+                        prefix=prefix,
+                    )
+                )
+            else:
+                layers.append(
+                    Zamba2MambaDecoderLayer(
+                        config,
+                        model_config=model_config,
+                        cache_config=cache_config,
+                        quant_config=quant_config,
+                        prefix=prefix,
+                    )
+                )
+        self.layers = nn.ModuleList(layers)
+
+        # Final layer normalization
+        self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        """Convert input token IDs to embeddings.
+
+        Args:
+            input_ids: Tensor of input token IDs
+
+        Returns:
+            Embedded representation of the input tokens
+        """
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        """Forward pass through the model.
+
+        Args:
+            input_ids: Input token IDs
+            positions: Position IDs for embeddings
+            inputs_embeds: Optional pre-computed input embeddings
+
+        Returns:
+            Either final hidden states or intermediate tensors for pipeline
+            parallelism
+        """
+        # Handle pipeline parallelism for first rank
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_input_ids(input_ids)
+        hidden_states = inputs_embeds
+
+        # Process through layers
+        original_hidden_states = torch.clone(hidden_states)
+        for layer_idx, layer in enumerate(self.layers):
+            layer_outputs = layer(
+                hidden_states,
+                original_hidden_states=original_hidden_states,
+                positions=positions,
+            )
+            hidden_states = layer_outputs
+
+        hidden_states = self.final_layernorm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for chkpt_weight_name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in chkpt_weight_name:
+                    continue
+                chkpt_weight_name = chkpt_weight_name.replace(weight_name, param_name)
+                param = params_dict[chkpt_weight_name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if chkpt_weight_name not in params_dict:
+                    continue
+                param = params_dict[chkpt_weight_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(chkpt_weight_name)
+        return loaded_params
+
+
+class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsMambaPrefixCaching):
+    """Zamba2 model with causal language modeling head.
+
+    This class wraps the core Zamba2 model and adds:
+    - A language modeling head for next token prediction
+    - Mamba state caching functionality
+    - Support for model parallelism and quantization
+    - Sampling capabilities for text generation
+    """
+
+    # To ensure correct weight loading and mapping.
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "A_log": "A",
+            "0.weight": "A.weight",
+            "1.weight": "B.weight",
+        }
+    )
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.mamba2_state_dtype(
+            vllm_config.model_config.dtype,
+            vllm_config.cache_config.mamba_cache_dtype,
+            vllm_config.cache_config.mamba_ssm_cache_dtype,
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
+        """Calculate shapes for Mamba's convolutional and state caches.
+
+        Args:
+            vllm_config: vLLM config
+
+        Returns:
+            Tuple containing:
+            - conv_state_shape: Shape for convolutional state cache
+            - temporal_state_shape: Shape for state space model cache
+        """
+
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        intermediate_size = hf_config.mamba_expand * hf_config.hidden_size
+
+        return MambaStateShapeCalculator.mamba2_state_shape(
+            intermediate_size=intermediate_size,
+            tp_world_size=parallel_config.tensor_parallel_size,
+            n_groups=hf_config.mamba_ngroups,
+            num_heads=hf_config.n_mamba_heads,
+            head_dim=hf_config.mamba_headdim,
+            state_size=hf_config.mamba_d_state,
+            conv_kernel=hf_config.mamba_d_conv,
+        )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        """Initialize the Zamba2 model for causal language modeling.
+
+        Args:
+            vllm_config: Configuration containing model, cache, quantization,
+                        LoRA and scheduler settings
+            prefix: Optional prefix for parameter names
+
+        Raises:
+            AssertionError: If prefix caching is enabled
+                (not supported by Mamba)
+        """
+        config = vllm_config.model_config.hf_config
+
+        scheduler_config = vllm_config.scheduler_config
+
+        super().__init__()
+        self.config = config
+        self.vllm_config = vllm_config
+        self.scheduler_config = scheduler_config
+        self.model_config = vllm_config.model_config
+
+        # Initialize core model
+        self.model = Zamba2Model(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        # Initialize language modeling head
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=maybe_prefix(prefix, "lm_head"),
+        )
+        # Tie weights with input embeddings if using same dimensions
+        self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
+
+        # Initialize logits processing and sampling
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        """Convert input token IDs to embeddings.
+        Args:
+            input_ids: Tensor of input token IDs
+        Returns:
+            Embedded representation of the input tokens
+        """
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs: Any,
+    ) -> torch.Tensor:
+        """Forward pass through the model.
+
+        Args:
+            input_ids: Input token IDs
+            positions: Position IDs for embeddings
+            inputs_embeds: Optional pre-computed input embeddings
+            **kwargs: Additional arguments passed to cache manager
+
+        Returns:
+            Output hidden states
+        """
+        # Forward pass through model
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            inputs_embeds,
+        )
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        """Compute logits for next token prediction.
+
+        Args:
+            hidden_states: Hidden states from model forward pass
+
+        Returns:
+            Logits for next token prediction
+        """
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/model_executor/parameter.py b/model_executor/parameter.py
new file mode 100644
index 0000000..953564a
--- /dev/null
+++ b/model_executor/parameter.py
@@ -0,0 +1,649 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable, Hashable
+from fractions import Fraction
+from weakref import WeakValueDictionary
+
+import torch
+from torch.nn import Parameter
+
+from vllm.distributed import get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size
+from vllm.logger import init_logger
+
+__all__ = [
+    "BasevLLMParameter",
+    "PackedvLLMParameter",
+    "PerTensorScaleParameter",
+    "ModelWeightParameter",
+    "ChannelQuantScaleParameter",
+    "GroupQuantScaleParameter",
+    "PackedColumnParameter",
+    "RowvLLMParameter",
+]
+
+logger = init_logger(__name__)
+
+
+class BasevLLMParameter(Parameter):
+    """
+    Base parameter for vLLM linear layers. Extends the torch.nn.parameter
+    by taking in a linear weight loader. Will copy the loaded weight
+    into the parameter when the provided weight loader is called.
+    """
+
+    def __new__(cls, data: torch.Tensor | None, **kwargs):
+        return super().__new__(cls, data=data, requires_grad=False)
+
+    def __init__(self, data: torch.Tensor, weight_loader: Callable):
+        """
+        Initialize the BasevLLMParameter
+
+        :param data: torch tensor with the parameter data
+        :param weight_loader: weight loader callable
+
+        :returns: a torch.nn.parameter
+        """
+
+        # During weight loading, we often do something like:
+        # narrowed_tensor = param.data.narrow(0, offset, len)
+        # narrowed_tensor.copy_(real_weight)
+        # expecting narrowed_tensor and param.data to share the same storage.
+        # However, on TPUs, narrowed_tensor will lazily propagate to the base
+        # tensor, which is param.data, leading to the redundant memory usage.
+        # This sometimes causes OOM errors during model loading. To avoid this,
+        # we sync the param tensor after its weight loader is called.
+        from vllm.platforms import current_platform
+
+        if current_platform.use_sync_weight_loader():
+            weight_loader = current_platform.make_synced_weight_loader(weight_loader)
+
+        self._weight_loader = weight_loader
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.tp_size = get_tensor_model_parallel_world_size()
+
+    @property
+    def weight_loader(self) -> Callable:
+        # NOTE(@ksayers) some models such as mamba_mixer2 override the
+        # weight loader to support custom loading. In the future, model-specific
+        # weight loading should be implemented via Model.load_weights. In the
+        # meantime, support deleting and overriding `weight_loader` attribute
+        if self._weight_loader is None:
+            raise AttributeError(
+                f"{self.__class__.__name__} weight_loader attribute has been deleted"
+            )
+        return self._weight_loader
+
+    @weight_loader.setter
+    def weight_loader(self, value: Callable):
+        self._weight_loader = value
+
+    @weight_loader.deleter
+    def weight_loader(self):
+        self._weight_loader = None  # type: ignore[assignment]
+
+    def _is_1d_and_scalar(self, loaded_weight: torch.Tensor):
+        cond1 = self.data.ndim == 1 and self.data.numel() == 1
+        cond2 = loaded_weight.ndim == 0 and loaded_weight.numel() == 1
+        return cond1 and cond2
+
+    def _assert_and_load(self, loaded_weight: torch.Tensor):
+        assert self.data.shape == loaded_weight.shape or self._is_1d_and_scalar(
+            loaded_weight
+        )
+        self.data.copy_(loaded_weight)
+
+    def load_column_parallel_weight(self, loaded_weight: torch.Tensor):
+        self._assert_and_load(loaded_weight)
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        self._assert_and_load(loaded_weight)
+
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        self._assert_and_load(loaded_weight)
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        self._assert_and_load(loaded_weight)
+
+    def _shard_id_as_int(self, shard_id: str | int) -> int:
+        if isinstance(shard_id, int):
+            return shard_id
+
+        # if not int, assume shard_id for qkv
+        # map to int and return
+        qkv_idxs = {"q": 0, "k": 1, "v": 2}
+        assert isinstance(shard_id, str)
+        assert shard_id in qkv_idxs
+        return qkv_idxs[shard_id]
+
+    @classmethod
+    def __torch_function__(cls, func, types, args=(), kwargs=None):
+        if kwargs is None:
+            kwargs = {}
+        return super().__torch_function__(func, types, args, kwargs)
+
+
+class _ColumnvLLMParameter(BasevLLMParameter):
+    """
+    Private class defining weight loading functionality
+    (load_merged_column_weight, load_qkv_weight)
+    for parameters being loaded into linear layers with column
+    parallelism. This includes QKV and MLP layers which are
+    not already fused on disk. Requires an output dimension
+    to be defined. Called within the weight loader of
+    each of the column parallel linear layers.
+    """
+
+    def __init__(self, output_dim: int, **kwargs):
+        self._output_dim = output_dim
+        super().__init__(**kwargs)
+
+    @property
+    def output_dim(self):
+        return self._output_dim
+
+    def load_column_parallel_weight(self, loaded_weight: torch.Tensor):
+        shard_size = self.data.shape[self.output_dim]
+        loaded_weight = loaded_weight.narrow(
+            self.output_dim, self.tp_rank * shard_size, shard_size
+        )
+        assert self.data.shape == loaded_weight.shape
+        self.data.copy_(loaded_weight)
+
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        shard_offset = kwargs.get("shard_offset")
+        shard_size = kwargs.get("shard_size")
+
+        # TODO: move these to PackedColumnParameter and PackedvLLMParameter
+        if (
+            isinstance(self, (PackedColumnParameter, PackedvLLMParameter))
+            and self.packed_dim == self.output_dim
+        ):
+            shard_size, shard_offset = self.adjust_shard_indexes_for_packing(
+                shard_offset=shard_offset, shard_size=shard_size
+            )
+
+        param_data = self.data
+
+        param_data = param_data.narrow(self.output_dim, shard_offset, shard_size)
+        loaded_weight = loaded_weight.narrow(
+            self.output_dim, self.tp_rank * shard_size, shard_size
+        )
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        shard_offset = kwargs.get("shard_offset")
+        shard_size = kwargs.get("shard_size")
+        shard_id = kwargs.get("shard_id")
+        num_heads = kwargs.get("num_heads")
+
+        # TODO: move these to PackedColumnParameter and PackedvLLMParameter
+        if (
+            isinstance(self, (PackedColumnParameter, PackedvLLMParameter))
+            and self.output_dim == self.packed_dim
+        ):
+            shard_size, shard_offset = self.adjust_shard_indexes_for_packing(
+                shard_offset=shard_offset, shard_size=shard_size
+            )
+
+        param_data = self.data
+        shard_id = self.tp_rank if shard_id == "q" else self.tp_rank // num_heads
+        param_data = param_data.narrow(self.output_dim, shard_offset, shard_size)
+        loaded_weight = loaded_weight.narrow(
+            self.output_dim, shard_id * shard_size, shard_size
+        )
+
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+
+class RowvLLMParameter(BasevLLMParameter):
+    """
+    Parameter class defining weight_loading functionality
+    (load_row_parallel_weight) for parameters being loaded
+    into linear layers with row parallel functionality.
+    Requires an input_dim to be defined.
+    """
+
+    def __init__(self, input_dim: int, **kwargs):
+        self._input_dim = input_dim
+        super().__init__(**kwargs)
+
+    @property
+    def input_dim(self):
+        return self._input_dim
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        tp_rank = get_tensor_model_parallel_rank()
+        
+        k, n = loaded_weight.shape if self.input_dim == 0 else loaded_weight.shape[::-1]
+        assert k % self.tp_size == 0, f"Row dimension({k}) must be divisible by tp_size({self.tp_size})!"
+        
+        shard_size = int(k / self.tp_size)
+        start_idx = tp_rank * shard_size
+        loaded_weight = loaded_weight.narrow(self.input_dim, start_idx, shard_size)
+        
+        if len(loaded_weight.shape) == 0:
+            loaded_weight = loaded_weight.reshape(1)
+        
+        if self.data.shape == loaded_weight.shape:
+            self.data.copy_(loaded_weight)
+        else:
+            # Padding
+            target_slice = (
+                self.data[:shard_size, ...] if self.input_dim == 0 else self.data[..., :shard_size]
+            )
+            target_slice.copy_(loaded_weight)
+
+
+class ModelWeightParameter(_ColumnvLLMParameter, RowvLLMParameter):
+    """
+    Parameter class for linear layer weights. Uses both column and
+    row parallelism.
+    """
+
+    pass
+
+
+class GroupQuantScaleParameter(_ColumnvLLMParameter, RowvLLMParameter):
+    """
+    Parameter class for weight scales loaded for weights with
+    grouped quantization. Uses both column and row parallelism.
+    """
+
+    pass
+
+
+class ChannelQuantScaleParameter(_ColumnvLLMParameter):
+    """
+    Parameter class for weight scales loaded for weights with
+    channel-wise quantization. Equivalent to _ColumnvLLMParameter.
+    """
+
+    pass
+
+
+class PerTensorScaleParameter(BasevLLMParameter):
+    """
+    Parameter class for scales where the number of scales is
+    equivalent to the number of logical matrices in fused linear
+    layers (e.g. for QKV, there are 3 scales loaded from disk).
+    This is relevant to weights with per-tensor quantization.
+    Adds functionality to map the scalers to a shard during
+    weight loading.
+
+    Note: additional parameter manipulation may be handled
+    for each quantization config specifically, within
+    process_weights_after_loading
+    """
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+
+    # For row parallel layers, no sharding needed
+    # load weight into parameter as is
+    def load_row_parallel_weight(self, *args, **kwargs):
+        super().load_row_parallel_weight(*args, **kwargs)
+
+    def load_merged_column_weight(self, *args, **kwargs):
+        self._load_into_shard_id(*args, **kwargs)
+
+    def load_qkv_weight(self, *args, **kwargs):
+        self._load_into_shard_id(*args, **kwargs)
+
+    def load_column_parallel_weight(self, *args, **kwargs):
+        super().load_row_parallel_weight(*args, **kwargs)
+
+    def _load_into_shard_id(
+        self, loaded_weight: torch.Tensor, shard_id: str | int, **kwargs
+    ):
+        """
+        Slice the parameter data based on the shard id for
+        loading.
+        """
+
+        param_data = self.data
+        shard_id = self._shard_id_as_int(shard_id)
+
+        # AutoFP8 scales do not have a shape
+        # compressed-tensors scales do have a shape
+        if len(loaded_weight.shape) != 0:
+            assert loaded_weight.shape[0] == 1
+            loaded_weight = loaded_weight[0]
+
+        param_data = param_data[shard_id]
+        assert param_data.shape == loaded_weight.shape
+        param_data.copy_(loaded_weight)
+
+
+class PackedColumnParameter(_ColumnvLLMParameter):
+    """
+    Parameter for model parameters which are packed on disk
+    and support column parallelism only. See PackedvLLMParameter
+    for more details on the packed properties.
+    """
+
+    def __init__(
+        self,
+        packed_factor: int | Fraction,
+        packed_dim: int,
+        marlin_tile_size: int | None = None,
+        bitblas_tile_size: int | None = None,
+        **kwargs,
+    ):
+        self._packed_factor = packed_factor
+        self._packed_dim = packed_dim
+        self._marlin_tile_size = marlin_tile_size
+        self._bitblas_tile_size = bitblas_tile_size
+        super().__init__(**kwargs)
+
+    @property
+    def packed_dim(self):
+        return self._packed_dim
+
+    @property
+    def packed_factor(self):
+        return self._packed_factor
+
+    @property
+    def marlin_tile_size(self):
+        return self._marlin_tile_size
+
+    @property
+    def bitblas_tile_size(self):
+        return self._bitblas_tile_size
+
+    def adjust_shard_indexes_for_packing(self, shard_size, shard_offset):
+        return _adjust_shard_indexes_for_packing(
+            shard_size=shard_size,
+            shard_offset=shard_offset,
+            packed_factor=self.packed_factor,
+            marlin_tile_size=self.marlin_tile_size,
+            bitblas_tile_size=self.bitblas_tile_size,
+        )
+
+
+class PackedvLLMParameter(ModelWeightParameter):
+    """
+    Parameter for model weights which are packed on disk.
+    Example: GPTQ Marlin weights are int4 or int8, packed into int32.
+    Extends the ModelWeightParameter to take in the
+    packed factor, the packed dimension, and optionally, marlin
+    tile size for marlin kernels. Adjusts the shard_size and
+    shard_offset for fused linear layers model weight loading
+    by accounting for packing and optionally, marlin tile size.
+    """
+
+    def __init__(
+        self,
+        packed_factor: int | Fraction,
+        packed_dim: int,
+        marlin_tile_size: int | None = None,
+        bitblas_tile_size: int | None = None,
+        **kwargs,
+    ):
+        self._packed_factor = packed_factor
+        self._packed_dim = packed_dim
+        self._marlin_tile_size = marlin_tile_size
+        self._bitblas_tile_size = bitblas_tile_size
+        super().__init__(**kwargs)
+
+    @property
+    def packed_dim(self):
+        return self._packed_dim
+
+    @property
+    def packed_factor(self):
+        return self._packed_factor
+
+    @property
+    def marlin_tile_size(self):
+        return self._marlin_tile_size
+
+    @property
+    def bitblas_tile_size(self):
+        return self._bitblas_tile_size
+
+    def adjust_shard_indexes_for_packing(self, shard_size, shard_offset):
+        return _adjust_shard_indexes_for_packing(
+            shard_size=shard_size,
+            shard_offset=shard_offset,
+            packed_factor=self.packed_factor,
+            marlin_tile_size=self.marlin_tile_size,
+            bitblas_tile_size=self.bitblas_tile_size,
+        )
+
+
+class BlockQuantScaleParameter(_ColumnvLLMParameter, RowvLLMParameter):
+    """
+    Parameter class for weight scales loaded for weights with
+    block-wise quantization. Uses both column and row parallelism.
+    """
+
+    pass
+
+
+class SharedWeightParameter(BasevLLMParameter):
+    """
+    Parameter for weights with many shared tensors across a model
+
+    For example, when applying transforms to the "gate" and "up" partitions of
+    `MergedColumnParallelLinear`, the transform weights must stay separate
+    tensors in order to allow for tensor memory sharing between layers.
+    """
+
+    # global registry for sharing tensors based on passed `data_key`
+    # this dict holds weaksrefs to avoid memory leak after model cleanup
+    tensors_registry: WeakValueDictionary = WeakValueDictionary()
+
+    # local container for strong references to shared tensors
+    # this set compensates for the fact that torch.nn.Parameter
+    # and Parameter subclasses do not hold reliable references to tensors
+    local_tensors: set[torch.Tensor]
+
+    # dictionary mapping partition indices to associated parameters
+    partitions: dict[int, ModelWeightParameter | Parameter]
+
+    def __new__(cls, **kwargs):
+        return super().__new__(cls, data=None, **kwargs)
+
+    def __init__(self, input_dim: int = 1, output_dim: int = 0, **kwargs):
+        weight_loader: Callable = kwargs.get("weight_loader")  # type: ignore[assignment]
+        super().__init__(data=None, weight_loader=weight_loader)
+
+        self.local_tensors = set()
+        self.partitions = {}
+        self.kwargs = {
+            "input_dim": input_dim,
+            "output_dim": output_dim,
+            "weight_loader": self._fake_weight_loader,
+        }
+
+        if self.tp_size > 1:
+            raise NotImplementedError(
+                f"{self.__class__.__name__} does not "
+                "currently support tensor parallelism"
+            )
+
+    def add_partition(self, index: int, data_key: Hashable, *args, **kwargs):
+        """
+        Add a partition to the weight parameter. Partitions whose `data_key`
+        is the same will share tensor data
+
+        :param index: index of partition to add
+        :param data_key: hashable key used to key shared tensors
+        :param *args: arguments for `torch.empty`
+        :param **kwargs: keyword arguments for `torch.empty`
+        """
+        # load (shared) tensor using `data_key`
+        if data_key not in self.tensors_registry:
+            data = torch.empty(*args, **kwargs)
+            self.tensors_registry[data_key] = data
+        else:
+            data = self.tensors_registry[data_key]
+
+        # create associated model parameter
+        self.partitions[index] = ModelWeightParameter(data=data, **self.kwargs)  # type: ignore[arg-type]
+
+        # hold local reference, since ModelWeightParameter does not
+        # see https://github.com/pytorch/pytorch/issues/75932
+        self.local_tensors.add(data)
+
+    def load_column_parallel_weight(self, loaded_weight: torch.Tensor):
+        assert len(self.partitions) == 1 and 0 in self.partitions
+        partition = self.partitions[0]
+
+        ModelWeightParameter.load_column_parallel_weight(partition, loaded_weight)
+
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+        assert len(self.partitions) == 1 and 0 in self.partitions
+        partition = self.partitions[0]
+
+        ModelWeightParameter.load_row_parallel_weight(partition, loaded_weight)
+
+    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        partition_id = kwargs.pop("shard_id")
+        partition_id = self._shard_id_as_int(partition_id)
+        partition = self.partitions[partition_id]
+
+        input_dim = self.kwargs.get("input_dim")
+        shard_size = partition.data.size(input_dim) // self.tp_size
+        shard_offset = self.tp_rank * shard_size
+
+        ModelWeightParameter.load_merged_column_weight(
+            partition, loaded_weight, shard_offset=shard_offset, shard_size=shard_size
+        )
+
+    def load_qkv_weight(self, loaded_weight: torch.Tensor, **kwargs):
+        partition_id = self._shard_id_as_int(kwargs.pop("shard_id"))
+        partition = self.partitions[partition_id]
+
+        input_dim = self.kwargs.get("input_dim")
+        shard_size = partition.data.size(input_dim) // self.tp_size
+        shard_offset = self.tp_rank * shard_size
+        shard_id = "q"  # fake first partition
+        num_heads = kwargs.get("num_heads")
+
+        ModelWeightParameter.load_qkv_weight(
+            partition,
+            loaded_weight,
+            shard_offset=shard_offset,
+            shard_size=shard_size,
+            shard_id=shard_id,
+            num_heads=num_heads,
+        )
+
+    def process_weights_after_loading(self):
+        for key in self.partitions:
+            self.partitions[key] = torch.nn.Parameter(
+                data=self.partitions[key].data, requires_grad=False
+            )
+
+    @property
+    def data(self):
+        raise ValueError(
+            "Accessing `data` of a "
+            "`PartitionedModelWeightParameter` is not allowed. "
+            "Instead, use `get_partition` to get the weight of "
+            "the particular partition you want to access"
+        )
+
+    def _fake_weight_loader(
+        self,
+        param: BasevLLMParameter,
+        loaded_weight: torch.Tensor,
+        loaded_weight_shard_id: str | int | None,
+    ):
+        raise ValueError(
+            "When loading partition weights of "
+            f"{self.__class__.__name__}, use methods provided by "
+            f"{self.__class__.__name__}, not partition loader"
+        )
+
+
+def permute_param_layout_(
+    param: BasevLLMParameter, input_dim: int, output_dim: int, **kwargs
+) -> BasevLLMParameter:
+    """
+    Permute a parameter's layout to the specified input and output dimensions,
+    useful for forcing the parameter into a known layout, for example, if I need
+    a packed (quantized) weight matrix to be in the layout
+        {input_dim = 0, output_dim = 1, packed_dim = 0}
+    then I can call:
+        permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+    to ensure x is in the correct layout (permuting it to the correct layout if
+    required, asserting if it cannot get it to the correct layout)
+    """
+
+    curr_input_dim = getattr(param, "input_dim", None)
+    curr_output_dim = getattr(param, "output_dim", None)
+
+    if curr_input_dim is None or curr_output_dim is None:
+        assert param.data.dim() == 2, (
+            "permute_param_layout_ only supports 2D parameters when either "
+            "input_dim or output_dim is not set"
+        )
+
+    # if one of the dimensions is not set, set it to the opposite of the other
+    #  we can only do this since we asserted the parameter is 2D above
+    if curr_input_dim is None:
+        assert curr_output_dim is not None, "either input or output dim must be set"
+        curr_input_dim = (curr_output_dim + 1) % 2
+    if curr_output_dim is None:
+        assert curr_input_dim is not None, "either input or output dim must be set"
+        curr_output_dim = (curr_input_dim + 1) % 2
+
+    # create permutation from the current layout to the layout with
+    # self.input_dim at input_dim and self.output_dim at output_dim preserving
+    # other dimensions
+    perm = [
+        i for i in range(param.data.dim()) if i not in [curr_input_dim, curr_output_dim]
+    ]
+    perm.insert(input_dim, curr_input_dim)
+    perm.insert(output_dim, curr_output_dim)
+
+    if "packed_dim" in kwargs:
+        assert (
+            hasattr(param, "packed_dim")
+            and param.packed_dim == perm[kwargs["packed_dim"]]
+        ), "permute_param_layout_ currently doesn't support repacking"
+
+    param.data = param.data.permute(*perm)
+    if hasattr(param, "_input_dim"):
+        param._input_dim = input_dim
+    if hasattr(param, "_output_dim"):
+        param._output_dim = output_dim
+    if "packed_dim" in kwargs and hasattr(param, "_packed_dim"):
+        param._packed_dim = kwargs["packed_dim"]
+
+    return param
+
+
+def _adjust_shard_indexes_for_marlin(shard_size, shard_offset, marlin_tile_size):
+    return shard_size * marlin_tile_size, shard_offset * marlin_tile_size
+
+
+def _adjust_shard_indexes_for_bitblas(shard_size, shard_offset, bitblas_tile_size):
+    return shard_size // bitblas_tile_size, shard_offset // bitblas_tile_size
+
+
+def _adjust_shard_indexes_for_packing(
+    shard_size, shard_offset, packed_factor, marlin_tile_size, bitblas_tile_size
+):
+    shard_size = shard_size // packed_factor
+    shard_offset = shard_offset // packed_factor
+    if marlin_tile_size is not None:
+        return _adjust_shard_indexes_for_marlin(
+            shard_size=shard_size,
+            shard_offset=shard_offset,
+            marlin_tile_size=marlin_tile_size,
+        )
+    elif bitblas_tile_size is not None:
+        return _adjust_shard_indexes_for_bitblas(
+            shard_size=shard_size,
+            shard_offset=shard_offset,
+            bitblas_tile_size=bitblas_tile_size,
+        )
+
+    return shard_size, shard_offset
diff --git a/model_executor/utils.py b/model_executor/utils.py
new file mode 100644
index 0000000..759b809
--- /dev/null
+++ b/model_executor/utils.py
@@ -0,0 +1,94 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Utils for model executor."""
+
+import copy
+from typing import Any
+
+import torch
+
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+
+
+def set_random_seed(seed: int) -> None:
+    from vllm.platforms import current_platform
+
+    current_platform.seed_everything(seed)
+
+
+def set_weight_attrs(
+    weight: torch.Tensor,
+    weight_attrs: dict[str, Any] | None,
+):
+    """Set attributes on a weight tensor.
+
+    This method is used to set attributes on a weight tensor. This method
+    will not overwrite existing attributes.
+
+    Args:
+        weight: The weight tensor.
+        weight_attrs: A dictionary of attributes to set on the weight tensor.
+    """
+    if weight_attrs is None:
+        return
+    for key, value in weight_attrs.items():
+        assert not hasattr(weight, key), f"Overwriting existing tensor attribute: {key}"
+
+        # NOTE(woosuk): During weight loading, we often do something like:
+        # narrowed_tensor = param.data.narrow(0, offset, len)
+        # narrowed_tensor.copy_(real_weight)
+        # expecting narrowed_tensor and param.data to share the same storage.
+        # However, on TPUs, narrowed_tensor will lazily propagate to the base
+        # tensor, which is param.data, leading to the redundant memory usage.
+        # This sometimes causes OOM errors during model loading. To avoid this,
+        # we sync the param tensor after its weight loader is called.
+        # TODO(woosuk): Remove this hack once we have a better solution.
+        from vllm.platforms import current_platform
+
+        if current_platform.use_sync_weight_loader() and key == "weight_loader":
+            value = current_platform.make_synced_weight_loader(value)
+        setattr(weight, key, value)
+
+
+def get_packed_modules_mapping(model: torch.nn.Module) -> dict[str, list[str]]:
+    parent_map = getattr(model, "packed_modules_mapping", None)
+    parent_map = copy.deepcopy(parent_map) if parent_map is not None else {}
+
+    # don't infer mapping if the model has defined it explicitly.
+    if parent_map:
+        return parent_map
+
+    # We only check main components instead of whole model submodules
+    for child in model.children():
+        child_map = getattr(child, "packed_modules_mapping", None)
+        child_map = copy.deepcopy(child_map) if child_map is not None else {}
+
+        if any((k in parent_map and parent_map[k] != v) for k, v in child_map.items()):
+            raise ValueError(
+                f"Can't update {type(model).__name__}'s packed_modules_mapping "
+                f"safely because of conflicts from {type(child).__name__}."
+            )
+        else:
+            parent_map.update(child_map)
+    return parent_map
+
+
+def get_moe_expert_mapping(
+    model: torch.nn.Module,
+) -> list[tuple[str, str, int, str]]:
+    if parent_map := getattr(model, "get_expert_mapping", None):
+        return parent_map()
+    else:
+        # We only check main components instead of whole model submodules
+        for child in model.children():
+            child_map = getattr(child, "get_expert_mapping", None)
+            if child_map is not None:
+                return child_map()
+        return []
+
+
+def maybe_disable_graph_partition(current_backend: str) -> dict[str, bool]:
+    if current_backend == "inductor" and is_torch_equal_or_newer("2.9.0.dev"):
+        return {"graph_partition": False}
+    else:
+        return {}
diff --git a/model_executor/warmup/__init__.py b/model_executor/warmup/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/model_executor/warmup/__pycache__/__init__.cpython-312.pyc b/model_executor/warmup/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..acecb6e320df6902e749a2bb030e104c0964efb6
GIT binary patch
literal 171
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFhwr7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m%_<r=;e@r&gpUmzLxg>6a%K<(3xc
r$H!;pWtPOp>lIYq;;;d#Da}c>D`Ev2%?QNBAjU^#Mn=XWW*`dy5w<HW

literal 0
HcmV?d00001

diff --git a/model_executor/warmup/__pycache__/deep_gemm_warmup.cpython-312.pyc b/model_executor/warmup/__pycache__/deep_gemm_warmup.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6523f5b0d357c979ca5b590419c106bd6126a41
GIT binary patch
literal 14426
zcmcIqYfu|kmhP5X?-xS641Ne>9s(N-Ha32n*kA`6@G}p_DV0z+AkYK1S_ZRXf@d;o
zlw=Aq$*gh3S>tSWgUhZOvil=sCslFnuT0HWjbzB6=_R$Un(Pl(?GGh*YIb)2>^Zm9
zl5pflQZ=`#Z{OFs@AI8=&%M7jne-GmFY}h?XSEddM~ukMm<p__8H&0_ou^o;hhk|~
z;iY?M_$$2%pQ1-WOKD0U)5DN3<5l_8J!%qGc{M(5kCuehUY$?hqbFgF*Wfeu7=5N5
z6NziRW}l_ULc%(4p3mB2C1Jfc-)HNwk+8vA;4ADYBw?es$XDD`>?`Rh@vZAw2Wcj*
zlr_U=;po9#@(?nAHji7+m9B$?J}ql~gX!78=0nN-nG$kn@Sq&Z{DImIrC-RT$e|~s
z%55o0iwtXn7B~M@Tl_w~EA3OI`c(k^s$dJh*Gz2bW7r~~tNa0U#Xwi3pt$NgsR`_<
z;i{qaGxB_9{@6pVmMy_0V%O!KXSVbS>98C6)NC2FR=1|Lt<Pv}J!x&j6KdV~g!D~M
zNPohfVas8kVh@e%X6WHIwgTv%cPAnp!)^h(`X4}733LrVfUXMYwqI5_s>j~dzwF|D
zp<z4Aal_7j&gZiaalD`N2J7`lA?a9KXQ#d6#dFm`yD-3|^X%s!G9ppBJU++_U@5!H
z>&-3)VV7VZ352|?zL&Fyf*fmSL%he|Z}$aQ&THpJId@3#1pM}1t}noI11>*XuYZW!
zrprN#jBt_l!Qa@=2~HOJ#|J{g5Vw%7L1)`WhdEvdLXy=T@C}Cq&gt@c`u!a1>~ttZ
zZ96vE8E6v=<xppU4S8LBCnpR9SfG16;{+K!WE7v{Jwm|W&40Ho{Yj6XbMY^@f*f|H
zeYizRNL8v74SmBcWHOz8L9D{g`-Y^B`8dDegpoSk0l(ns4+TO&r`L5k5E4YYPZ}Te
zJ&Qc6ps4q`Mx8=ni1P<U+ApeE?vlsNiE5q`LcHIt#A!=8lmi%F9aSLOv$P=RP^=;=
ztjvUg!<aXiab-Wnsy?8{86jPtppuDMwV+9dHDQ|7jzRPew1JLQ-$~Kjp{0~@m7tYE
z6g5a>lN^)&gQm4{jD;04^`QB?x#McVDyPb*Gp-4125oX`<_{y$eL!dRUe6j>z1+v6
z)Rfk(=%?I@*FYkUYs1=U#oHhp-HLH(RH-r0RG2wRy>=DK=)x)pO+ZK=)`#h#qZGx{
zZ|kyJ(6UB(HlQR(u5m-y5LS=D42~Pa#;^`U3M#A&(_y__at!8g+{9|bCbwc#F;oh*
zs>2ligY?@Kevrv;SHTDiGb58jVUs*pP^N{UvU?Jypf#v@?HWO^HbQIWuvzNMxG8K(
zw`G2gR_qM*_D|r8Kx@V6erV)=oQ3(L$sCSQ4wLH|OrqWn?ilCic$dK0JMEWT-Vld)
z0@&aVT;g~F8^eKM(9`SX>}lAMfC!5C`+!q`7;pk$32QsU^>IAscXNB~1A;Id+}qI5
z?-2$<z4ZVC4J-gxkmH87xjYSWZ4JHNKySnDJ$*Y{IIgkT)zZYW&3!Jm+0E|h<y@{E
zdv>@R`*t@sbGv$*n;YCg-rX?h5u7PBY#87Gw}OJl9c+Lmd;x#`!0@o1bf%T>5AG!)
z>{^CL_u4yMqaI(#XZMGEy)eu`AK)Z%FT!OCJpl{Sr2f4GS6yx)<nr3P?5qdiB8ceN
z#|L}_SVuTd|A1f@AU%sv0s@Iz2=ML!fOCWfYzNTCKFkLYCp|FhSd%n|BJC3CULN_z
zonm0JoEXN$)e`WoQLv3@WO9}s0|tgL<e#M+imr#qAGaaI<HqERzzZU+-TuF48U){P
z!?0&~o8aQ11KUPJyZ5vV?dBT1p5BJx%YeQ9hD%<ruYrgGrz8dfe1kM8WC11oloINP
zFN<0?=kYpO&!w>)kR@#<XJA<H_*`D6RLtpfN_(q*zc=7^d4mV*WuiLl9rkmAO5|Ci
zt<$O*dRjN*id#0tw3}8TgK{Vz9){n;3G^r!+`~Kwd1wgnI28^h`8~ujJ_N*|9wM|o
zY(>uip2H|AJ%IO&7xsy$;$8lJPE`6leo;l%L}c6{)+H7aSw@z}nOPUH&=>Lw9!zm_
zL0DVB{SZ{9403{~4h^%wI-=6WvZ5L?1&(!Cc<dgJV94jAR|cM_g>CL0a{7XD2t<Vj
zwx2VIN%H)Nv`5sWO3DGh$c(ryaiU3DGAGFfIpYH|?AoxG3tFHF*y7oa2b7}3@@Fmy
ze*nq>@=(FUFrgDvvXoZY-#wC~;CDm%eRyOQW8Z42yp0pbS1h)7+h#W3aL-oEUYu*Z
z6?!i)$1fH%En0R!rr9<%7#UnP*T>EEbC(v)yOzx-<K~kS$G*1YzZIG|o>WsR)79=P
z-M@J8ZrgnM{Fw#o-R?#E{@dNN7eBDhb;s@d;|2Sdm;<Y7s$l)3=0A!zO&&{Fie{{D
z{!JpU<dK?Mw{gZboB#L5DD%L+Wp?D2IciE2l+PZE7u4MzU7#0sFE$*B7aWPw30uJo
zy=1GN>G{2_I#ICx+R5pYv({gBCk@oP%13$BhRw6(vpw^><CS|CPRA<`{(k+Ts20l2
zjKmA7By#;bhq4I2(NG%>)8CX)CHABediSV`GUi8X77b-FrtB}@ZllT%1l2H;|7O-5
z-L2>MLC_6zns&H1iR_<;)N7QG&I?llZeHSK*%MTBP(Puw%M2p@V@|;Kh+9h+rgD`Y
zOv`+k3ZVhpc|!Rdn!$uzUOu;Gs-niRo?N<t;`!?zMDBUajVrU}ffkUfh#M@BLz(~D
zdB~zud>^{7GBr**tOzUnlmM*s*bos2ZKDDYlE5w@esF6lU=ISY0gi*BY`++Cff6}J
z1f!kst3Bu$OMyHQ7yX_~oS#&eQCU&-4tY6A2sjL)-V^lrgMtgBDUUcN8cDrQA5oEc
zoPW_Efd$Es^Ch_~s-+H!M(OV){S&RJm_&!Y;%l)Y^*JKB91PjEB0VB1MuK9V)MBP^
z5ceR$j07*0AR)+XH~|M;PLyFzFVVrBy`Y3Ur4jKRK-3Li@Ymo?P>;-%u_)@gQMzQ<
z5@WW+3|m$Vg;Ccv|Fr+Zz>;BCjM)`4>`EAnQwJjlmkpKo4V5vbGG?euCsoA_RWU<T
zjA;V@fmS!Ajc6xY6FU9W#>mEr7ZSxK*M2<x<K^O}cyZHm@zHqk(HK+kH8ygi@aFpK
z>z9C>ff}l?;ocjSH@9Bjx@4%1G1W0cbprS~9X6UK`IxN&`UpMc*F*o;urw;*gr)!c
zxmh|lD~!__1wITiUEapL5z6OaTfYI)bFk+)vRW?IRIaICv8MhUEKBOo#fl8npJqT9
zeagXsA_Hf%kY>z5R6ibba@*g5IK>a7Q~p3Y=KIjW!2qBj%!E~aDu4s!*oo(b0~GT@
zV0cK<7Ucu)8g>^8MjCfGvpLo2@m~^cBTe5)bQt+VFrhr2_e6b$Ow<gxf-XVe`IDHF
zm&r-7zAjxE--#tG>3FIDs6)ffA%X{dJCty!B`{DzRiX;(3j!)Mfj-g%A+0<tBJ&Uv
zWK^igfeL+i;0HWNW5TP@00&?20eFB3MhO#2mJFL?%;uP3b3$*J+8Wt9aRg+((H3ot
z6#<KG1Hr4)FKaj6*KT}ZGB2Ap#Z8-%8cL;4>M0;7i<C{gkS3^GGHgu|Y`Cx8KnOO*
zO&gIw2LyT6sgcOY#BoFh_l@S8`>*d`GStMFnwX&mk%7B${^o`27nTgQF{U<VsLh2I
zn8w~{yLs~Z$t8m$#yDaIN5Wu^s-pbN&e;-(K^g%LQ7ysY8UR5&B>-~nF#x#(8R%FV
zEpz}6sS`Y?`jmiF#L2A0Z_myjOlt*lIf}}h_tP{*z{)vF=7N<VeOV!-Z31EHPKwzt
zK(EFX<H~U+%wzyS?)y*;MUB$@0XV5Ea_I%EGF4(LDUkziq|w9S2Kvd;snTGZhWc`q
zW^k^uO9P{-#!eGPJwuE!_H%rQvwPsc2Zl0_A1qTTK5PJM4;%$SyZ5qS^unVVD*Rv=
z8-W9C`tU1BXCBqHcD@{Z=?J3Z5kn=$L|M%rMh|hAZ$%F!pvd^);3%qs1Fm7tq2hZm
zO`nmi{4q?Row86TDnk$@Ocrl#AU3F!jP<!LJAtp9c&;YLGTsHHufP}lNAQ5Fv{Zh}
zqIJ(gdEB~xqT_3AestH3y-V7v6%fFemWylS#kF_4myG)p#{6aDrnqs_va#;IvF?GT
z;OmkD3w?_vZE>b>qIKfpWZeU;ZK?RcV)3E4_RzPKQs+n*O;hcW_NXgz;#(!eA3*$A
z<XE&d(lJvSH^S*4ZmjuM1v#Mfo6O(MOX^fA^;2Z(U7D!LFcQfPrj=wl1!gucV<^j|
z^1{YlBU!)823R7uEX`>IOK*KpcIhiS!*s5VEu=SRE?GIW8y2V-DAQ6hGoFm;Ce1`p
zntyB*xmZ-dvoLWogCo;EVPtqXe9Vn2vNQz6V2%<3sz1aDcwi*1FRe+SOzdhu=g1Qo
z&VMN==D&3EWT*4|**53VwzgAFG+2v8B(1Z%ZEbo+pb@?iOYtb4kr<K^no?^GQj8TY
zgXM&%uBJY3z$LUext+cpef~7}AeTv8iRzPRlIr6m!!(a<#iRZN)&s(bc_^FKw50G2
z1rc=9a?O#|Ct~piiH4SW=Xd$g2Xuc2U+^|~6V!?^Z`oLJ-&k>%S*|&9zvf5+7z_kQ
z-;DuKJ0bF*c!R`^%f)T+;<kHzi^ZLwvI67i*2T1TP)U~!)p0}h-R9-GgYmk9_YDWr
zX-jpd7wgX6H=IST#Y&fp9PuK@Qr+PtL+b;J?SZ{&*}fxg-?40OjoVu%Ucf@V%SBc3
zqN=-_miC^G)tp&0oQ*MOB{5afeyW8mm$U1f^X1kvo##(EkF*{+-bMh5KMo^WW75Xy
zB_hlZKH8-Qfo~so@@~!?bT8qqen#mF!0{+tGUijco|ITr<rZOJjMm9L$i*w5$uWJ3
zusVYVxpd~c3fUw*u6cHSVHH~79;-EnW}Q{5_L;RRAFD5oEAr?lDyu%-(~r24xaBuz
zFotNf>C1s}J&W4?Q&#UixPo|JId1U3{EU{=D5`@c9Tcm1ddc^w_Z9M*g1H0bH*o@5
z&4>f@yJD@WTvk4wtG_zzudqR`P1q!dz|5Z-Y1nW#ZSsf906m!Ex52(M3FYas8kP#1
zN~y3``opS#ngPB}ip%>16cgiMg-n(Cvs$?=xDIFl1ASVO4OV7K$)TsOL8hk5l*7<P
zRFT^XVrmps1Qx-@$$4F)W0KMW09BK9Z{?5;+%+#B7&AERKO$v0_BD~|3wga`hw$po
z4TelR!Rj=2r;xx7*pAj~(2&3ailNO&w%OhbnpA&4uoHb~%nTKiJ4a$xf9<vcZLNaK
zD>5t>bUSP!Lrf2T7_x-X#8OJ&T*di@h0FW^WQiIA?K_&lXi7qjyLdOI7v}66F=g`A
zSSRd0ibqfqm0r%zqvpytptl`7hdF~}8Dp(T5Ah&sC8I5vbQ>><dhn#PQBYLERUqGt
z`Io>Gnc-d+FY2W;5MCVwk=2Q!mi8nY$$Fxm5jl~y3@OVv|5Kp)XZV6|!)62<xJG;R
z(v?d;9bK~3#Wi&at@#0%L3TxUz14E%DC%J==AB?voxd12@0mCT2b!r@BCkxeujnmP
zb&<O0*lc4oFxU54+w%VI`2OxC{i%r~E7qcGWz%H|oh^ELrh589OuKn**Jp*FZ}@b>
zBc&o=J<$Q@B}3j?`p>&Q?OM{GfWw!T(i)dF<#A2<?92BxTUTs5=X>s1@3k-5PE2YO
z*2ekrPpUqy`j?vd(uI97%drUawZ*n<al|c-xtH!+b|fiAr%x(qQyZPmh?#4XDurq5
zsuJ>ImK~4uR6)rN6_|BP=UlfoE|zRxv^73n`N5c_W0LvWV0qU)Q}d2*Zp)IPVdCf?
zi#AT`SG2Z-DKA<Ut&N#B%#6*|&FzhC+7&bIUMOEUvrv4m;@;4`vDgb|V7Sm15UHjq
zL&Okm{kb`*ql!1d(NncynX$(i`>ge&qFY7(Q1T^HE6KvTV`sY0pK3em%$A8qy1UN3
zc<g-l`Lk=pBb<#J`Im5WXh#}TM`|q|mC-QBzXBQV?9&#W-*Jbo7Jz@%bk%&-ay9RJ
ziBD7^p90nyka?P@1yhp@gE?!<<P%8O0HkLFHtJEt$sjHX<~Pl`K`c|-INYS>I(@!r
z$p}Tc&YU7#Mec4jS*KEskQTSOPKUBu45q5|ope|Q1|4<8%u;uicT!_{(-bj9%;fG@
zE2Qssa~ZN&I;;+B`{;-z%aD{-!{wO)5zWYTkL$8(%%Nh3b<h|3u1XdtZ|1?xe)^a&
zm{!0ub%TI?YJMLxX__=oS|;=0J&X1YBixX~=@~>94R&q#gRnbJQAE))fbcUs=Z>P`
z27CkDm+RpcJ$<uIXA8Eppw0C4>9x!I5JY4LLxFJ9Ny2Tcex#9@)km7_zEDuG55RR8
zIll*8J}&DHH>KOd(~o>9n0k|e7IT+F1)?A@A~FMTQOl1&r=;7tix2_|B^=GA1Gr{H
z;@CBJuXs`*cdy$)a{rQf7Mo_wA{nzxuG4A6fO=@elws9eEOD2Xw*zclgbd=IRA0m>
z>7i?C)yh<ve^#yPXVwZ^WleoJACI}L`m&f(z^h5(BF2b;Rg6J6VwA@tFZsAO^LQkS
zIn!DbtIQ22GC+V{%H*O$eKlePU;V!3t|koty08|ueIw|2`V2dURiMl1LB~@||Fn*W
zx*wz?NZ|iY%J>Glo^G%>HMp!Fz+(zfVI%J#8(G`M4?_t_HEJd=A5bfM*1MuLs+tls
zsxfQojmB2#R>|o*Akwe#XaNDMFxk_nLh+;Mp#sHUMi1xwF|~*fV;ZgvQH$Wx8jVl<
z&(U+DN3O5OG4x~fUPo^NJ)#0#!O%~@6IGq9uQ)ri6eoR(^*n6w@oVV`aFR}>NvS_$
zhcn8Ne4@@)lCmCSr5+rl9}uK!pkS_p1>pS;C{OveYgN-#@6<#zlk{ZcqziAOhay8W
z&9mh*wR10h*1Wv0E55I5$=p4uTq!KQ_M_<^B~1Cz)|ukzlQCoYT-9f)&rP42Ku;*r
zPwGJ}vJ|YP|NP*m2batplS;@VDog)tXzt>z%k$NXC3_cb`zE!Z<gDZuMhD*6marZF
z!uq?S-xU3}<O@Aqr=O+sR`P7o<L{UzUyp5UnAgl*UZ9goI)C3I6_cl*WLAw-S;b_>
zig9bgS`htFbTDQupWQn*G&dHj*c;2+m$2qXk423MsN_VnCzfYV<dx3so9T$<RX@_H
zOy;DKGFhiiL{7}mKkxd+0+kUR#*ruOj5l!2P(Vt!hr1ZA4+6ZGbrN0Nfmv=$T}QO*
zb}-!>b)v22$no=CC!A+r>}lgsfsw2(8hA&+;<E}Bc%Y$Md2X0<32<#8aJ-iTh$eRk
zlEQ7}e};sp9PxjP-c|HaB_jH_Xh1zW1>a&p=B19)<>uk}5j-&z^|;YqIN5#V#91*f
zv&W?85d1H&Dzb$^m{EKby|gmVPeU|_J36hJW8g42X*)K2&t1shfVx(&(pO;T{U1D<
z$ftCMDNRK4mTsx=a9n#hVI=m>w_aRYcQkH1`T+HK)70+B?r7s%duQ@*7GE!(wZ2z+
z-%t@_&c`axFM@BV_&Qs;PvjR|tDdf&DSxMS;zYt^nR+$y>O?ziy!AEj9b7Kk886#8
zKNc@*jWH!F)`D1}<L=Jox)<YhFD_a;K&RJIri}@(_a2`an%jL(fIV$ePqZb$AY43C
z9k-TGbgUGwzcxNS4rbiwiP^DP-$MJpSN^W<H+4|7L=DC#Xez&W*;*5~*2Elp7IuF@
zFJa9|rbJctZu7PM)BBSY1n*Y<YU}N-f5sq*CwEc>MbXh{{cO|h=xqI>wK1Xsc5K4S
zTXK+DDr>)QX#WG;>9j`qx4Tx1yO)jo;>LXot)I7l+Wza~UmDxsrA2;|q=Bo*OQbcz
z7&jr&oaZ3$EKv-v2^Fc=gkU@YBWGHGX5KS`E@KHR;FV!MgXSi<<^%Bn`b)OqDa^>Q
zPK3K^Tn$Dc)ZvK(JyIQ}Ga?Y6zZ{`I_2y0iZ|)RbU~0^4QRociU_^~{Cln->dvZ-c
zj)V>^|2`CuPN(>gMAWnWsq1t&i?aQavO<h;1h9iB;pOcu?dmeT7I@OR^8+l7*m(*9
z0G%5)-+b-*Yd4&W*3;LW@N8y#=NGOox1ah&`HXX-BW6AQN6R|EOk2x>ZP9ihqQwQB
zytty>0#AU>EOh){d+Zw(l~?+gZ&g(O89IpS!8>`a7Un|+yfur5b~&<m^APx}EndYF
z7Y~&Dak6;hT2RKb7f^%Bd{`Hz@1%}tu!xmw7x6aT1urCSLeF`$@ba&shhX5)Kek@{
zEN0z8?;Lodj$EITlORFCtC)iTNajjjIQa&(KD~6$B^CL9f{JQzH3JX;IMPxD>#iM`
zKJf0LRXpPV!M1tQwN%v|J9YZYsxxoW(L-=6s<I?0$XkV1U8S(Jjpq_Z3zTls$F=p7
z%E?z}6f?(X2LJ?gEszt<kG?vqovWGe_!FL@ztNG^)<FgGV%u=BZEF`Bg$!Bjoe)_2
z;t8f1RB3c@YRK>;nAI}rmnr^3C;%@Ral4XHLO9JBsaK8CZqG|!g2|>8M28lflp+X#
z4W8LFtC}5KVwzT%rupWD+Ao<lNkBG=8mE&DxSdWS+9bP?4xd5R<4uMn6gQDL3r`4n
z57@dmwtm>fgNcjtI^m5D$UGdY*hESZ$Vxw+tS2{%!TR)t23g(I%|U=8R}tdQ?@0)c
z^SwbLj>X#NA|;(5j|O;z3USACQ4w@<@u}CgJTkAi=ea0hn&6dw=4uk}{>g=lSpF1x
z>0(oQ?o{`ba^#{W^}?ziG)Cz)Q~{wNQ<Irv$@oVUAENJ8!5AbJs2W2Da7YS2yxQ+1
z&#%Bx8G<L3lJe4lC6LKQrZ*7qN+3-*zaDe^B<CzVq7p4mr_1jL6DN5L4Lj+lSl|ux
z5Faudn8$6&qn(><K56r6_e)~nApftB0ehAT!r__%?U1IwRWmf|hP3G`s_?(4lCP+i
zuc)rCs5Adbz4R4z{!a=8t@x9gqW6479s9F_p%vdy;3duV^m<SglS=%Tlu7@}+K(>W
zx<JAYRJzHEE3dAqAV1kl+vv)K#&~t~%IMYCue_dALi~YBKiNFBKeB&@yqTI6=8oLD
z95ZZ>s~T5Tke}STj;>up1o6j-LLY^1h3C(Ia^d3(_jbe#?QzwyRTY#=w&c_5xyoPF
z+^+dm!|jG71<?g|6@SUvBKjOX&wVoR@xUj6j{`{x<6mr9CI4@lsBPQtw8f~BnTi?i
z=HT_g>kW%kV^Y0^uA6Q9=;W=FNeY5M?)}(Hg0WL)S25|EE}A+_AEAF8icxiQXXgt)
zDgC(gwsVm>npC&abUU5Unx>2qV^T?C4^lA|iGkS=4g=nZH>r{0S~;$h;(E%GpEO8e
zBV{dEHA&&)3Ke~vo(+98dTaEf*KfU^q%eLDp48$$nP;N)39!DlL|Uc}MF5vEUQ@S<
f|D;_3y_#vedHnkEo88yD0k0vxV0%RVWc&O-YYBt`

literal 0
HcmV?d00001

diff --git a/model_executor/warmup/__pycache__/kernel_warmup.cpython-312.pyc b/model_executor/warmup/__pycache__/kernel_warmup.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..07f83389a8cde893ad380dbbd7b9a44b67c02ce8
GIT binary patch
literal 3870
zcma)9|8En?6`!@&U)EVCCXPemg!7Udp)QFXXgMxd4mCgm^hk;z9EYXTYU7>6o9q{B
zcAdm1NT@|BcRi{6a^<A{!l|n6PF(+o@^gQ|kjl9&kq+HeD*Y)CXemGS&8#<0QjpG0
zX5PGc^XARWd++o7*LXaJ;G^@u)&3nv=sP;_KfwmEaT|zRNJRyta%w>5j6fm4Q97sx
z3qjWNMyL>CJYEkQkwS#gAw6mc1%c6FJ!Z5NS{NPCMI&B_Gdilb8f}F(4&eY1L6@K>
zj9rCYY%Zp^8_7bFLji;%xZ@7zSyV`=akb?-U+7d@RT28#)nK;m%B|QXg&38xG>?gi
zbz7>~Se4WY(ac%NuvDx|cnKFPj%Jy;*i=cgCHMoOnTjsiWn9!|w4$QxRcXc|(l5?T
z?T6*QF2$A>v7}n&en(nVOoz==#f}v#DdjRYU%S&|YIT-#<5QQ<jmalYkDYk$%;c#_
z;IwF_=E%A=JBtYn6Dr1Kc@`UnyvR;MdBqAL*mUHwt~g+q0lZGlmYbq>rChd%gH@Pm
zEh)A<qbqhvGiR92)>G#$PSCTTub3v|gfCeHPE~ANCcDxIwDh?*-VY%38~zq@7@Ib8
zz}fj(;z))=PRQrqX%N7N$J(+s>`OFzm770;&{b}kBZrpJoY0){DPP;w0L(M@^k=+&
zPTW4GqpLxu&F3x$mV<X1R)aOWe7>)j{MbqQytxjaYW8ZtcQlf6cKdv=rOT(Ay)Oyw
z8oZ7^=3gx}mu{}`DSP2Hvc0}UvnR5X@kclK8BXP|M}PS0lgK~0Z!LMtk$in~{XW&~
z)sQdAq1WuQuPN<QYFLeU->;*08ot4yYU7&~CSBg1*UFCzuwa|_@xY)jvT+)kTS%aL
zZuL&!(vN=%@Sq<dbOH4vXVW*|L?p<e%cvSyL`%WTXpzeXC*9ci+0hH9&rFVwogdEz
z+~_QJWK%J)o1C<qGe%j*280$?#|W{=SDYJ}R*Li3RBgJu^zxT^$0+B^T6xG(2&^4i
zsvH@4d;SQ{>)Ld_Ty;v8nP1R#BhRvn>}3~=<h|(4d%2?#%eivZ?UW&Mo8c)pw!1R4
zUGk`IK_0S?<z6kG1LN!=Xs)64Kv3vjO{VL~{#vsCL2}=hy|v`wd*b0258L{lB2MW3
zCfT(fg#M*XqvlubDfFqZH+Y-d8{GB;^tpZl{~PC^`ILJPaqtk!=)*l;sGdY0b^;X$
zppSyffjN-b`SBg*_uMUxL!Wf<=#vZ&Pygp2JOwvN+F?PKcLTX$H#|$MO4)WptS2d$
zv8fA4l5~yGcyxuMv)IH-WpeCFBLVxDxOp|35<jEM^U%EbCwc)lg7`%2QF`QN`0w4B
zo1rHm6z{)%_=|Txf443k{I)x@4va(Jq(}bCw)}Pf0Cz>Aut8HfK*u=Eoo8t7loZDS
z=b%{eI05RXvLQESRt(v(z(s6VpuQ~QvOev`;8n}Sn$dLZwn2_AVtI41+g>DCaj<M?
zOIU>$cZ#KK(&e$aV7u+_pFKMvU%W6TpBx)IC!ZRdm>@J2yD2uY$&@dRo}ajQ&K0Nw
zGhcHPcCm!jijIj~w9FZ8*6lQuC7Bw?_JF-SLkWFa5~U5z#%_v2go+n5u(GI>m1#}a
zoT{7L;+9Iqv7CyDUD5Mv!l1)V&|_Mb4p-GMq6Lm=%8lm?0(81z56oO1@W*mvvRW~W
zstgL?_QHz{c-*9FZGkT@R@{(xtQb8+!*J#p)Ov6X>F1tj#J5EX`6<lyz`qUk0)72w
zVI;)s(M&Cxd5QwU!G~hs1M$tLK_I^u6LoQ*CJuZF&G32zg}R=^P_$<?(OFMOwS@E_
z(RU-Xn(C>i25YIodg??ib>c?sVYKVB)a}?x^Z@9NcCJKruk;Sqdym(8kN@S+O7Hl?
zXwPTk_1=7~H@^}cej4LL-Rqqwo~(<RnwY7J!}rDERk7V49=I<acqq1QP%r&9E!ERQ
zwe(OuJ#s%ivJnE_GsMSZ&qO4&{jTMsmU|s<twfKk!=c*h(Vkkgryd=sMF&=QcdvG)
zS9kZU_DZXn{`D3l?0=5JLTo(=tJi}lK1iE`8*nq*GwmkM{|jcIq@(2=GPtYURy3b`
z1#0`b_b?=e09xj@jv-sW0>y#*1F>5Ts==@MJB@M^kTgWUO$6ULu7>*2L1c4_P=sCv
zdm!DkdpUn6zZz;_L0I`193(~^X|&<oTSMI{W1`Sdw{uKpOBN_83s^D~vnpvmUU-tM
zNOVeAvH?(}O$~!gK_h}_QUTw$rD<#yONK(`ZMF<6#nKLal47co?N|icOas*nbVYaU
zoHW%OND9GH5!OR(>JY`W%fK)lC|W@QTRBs4DojR)64<e}o^w&tbz1OBRQoixogGGa
zr@y2DuvHwXd5FRPQ$jH8Xqi$8LwRjGTG1Yq7E2l&%TTJ!jA^(TZPsKpHM7swtwl_{
zEeHi}s8^$Ys+r0L2w)8&Z$LAdjkqa_t2wCEbvxHgO$16u<c8pyiY2#|)wpo8kX)g{
zB@_h6KH3aG19%_y5*J%!(;X#=Wf21917ght5cUVqTtm-0P$>Vs&{`Mv)Py~M6EdH7
z{VBa3W1-hwi*~ah?yrgcb@82=_>LEVkVb?w#H<kePYdcBtP7cYLgtI~?et5Jd};TA
z@;^jJv%x=RNB4y8ij=&&Cp0=B-0h1{IvW~26oJzZQ=4eSWO+g{jnJ5aBVc$<b28iI
zMr2vFin8p6ooX38i_m}}BUDOYmqj6k?4{!tHuh36q0s6cU>q-<`(;YbOTD?~PYI8~
z5W{U{EBs#_wg(;^jOo3~<}wCZ<ZWsVg&8-)gcc6wynLUVEmu6epf~`(LA;Z7ze37e
zz;3~f%B)nAWkO3Gmg(7(eTB$j%3y^;^e7w&K=2qj4Ln-4*~g)QiihK#gn5pCE+TI4
zcS!sP>RLnnYv}YEI<SV0tfApY!NeMWY>gj&By`;T;DPYQweUtb&&8gpT#AdaJ^ly(
C<jdm#

literal 0
HcmV?d00001

diff --git a/model_executor/warmup/deep_gemm_warmup.py b/model_executor/warmup/deep_gemm_warmup.py
new file mode 100644
index 0000000..e0c584d
--- /dev/null
+++ b/model_executor/warmup/deep_gemm_warmup.py
@@ -0,0 +1,314 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Warmup deep_gemm kernels.
+DeepGEMM JIT's the kernels. The warmup aims to JIT all the kernels that would
+be used during model execution beforehand.
+"""
+
+import torch
+from tqdm import tqdm
+
+import vllm.envs as envs
+from vllm.distributed.parallel_state import get_dp_group
+from vllm.model_executor.layers.fused_moe.deep_gemm_moe import DeepGemmExperts
+from vllm.model_executor.layers.fused_moe.deep_gemm_utils import compute_aligned_M
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE, FusedMoEModularMethod
+from vllm.model_executor.layers.fused_moe.modular_kernel import FusedMoEModularKernel
+from vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe import (
+    TritonOrDeepGemmExperts,
+)
+from vllm.model_executor.layers.linear import LinearBase
+from vllm.model_executor.layers.quantization.fp8 import Fp8LinearMethod
+from vllm.utils.deep_gemm import (
+    fp8_gemm_nt,
+    get_mk_alignment_for_contiguous_layout,
+    m_grouped_fp8_gemm_nt_contiguous,
+)
+
+
+def _generate_optimal_warmup_m_values(
+    max_tokens: int, n: int, device: torch.device
+) -> list[int]:
+    """
+    Generate M values that cover all possible DeepGEMM kernel configurations.
+    Reference: https://github.com/deepseek-ai/DeepGEMM/blob/79f48ee15a82dd5fad5cd9beaa393c1f755e6b55/csrc/jit_kernels/heuristics/common.hpp
+
+    Args:
+        max_tokens: Maximum number of tokens to warmup for
+        n: The actual N dimension from the weight tensor
+        device: The torch device to get properties from.
+    """
+
+    def ceil_div(a: int, b: int) -> int:
+        return (a + b - 1) // b
+
+    # DeepGEMM's possible block sizes
+    block_ms = [64, 128, 256]
+    block_ns = list(range(16, min(257, n + 1), 16))
+    num_sms = torch.cuda.get_device_properties(device).multi_processor_count
+
+    m_values = set()
+
+    # Always include small cases
+    m_values.update([1, 2, 4] + [i for i in range(8, 65, 8)])
+
+    # Collect M values where different wave patterns occur
+    for block_m in block_ms:
+        for block_n in block_ns:
+            if block_n > n:
+                continue
+
+            # Add key M boundaries for this block combination
+            for wave in range(1, 11):  # Up to 10 waves
+                # M where this block config transitions to next wave
+                target_blocks = wave * num_sms
+                m = target_blocks * block_m // ceil_div(n, block_n)
+                if 1 <= m <= max_tokens:
+                    m_values.add(m)
+
+            # Add block_m boundaries
+            for multiple in range(1, max_tokens // block_m + 1):
+                m = multiple * block_m
+                if m <= max_tokens:
+                    m_values.add(m)
+
+    return sorted(m_values)
+
+
+def _extract_data_from_linear_base_module(
+    m: torch.nn.Module,
+) -> tuple[torch.Tensor, torch.Tensor, list[int]]:
+    """
+    Extract weights, weight scales and quantization block sizes from the given
+    LinearBase module.
+    """
+    assert isinstance(m, LinearBase)
+    assert isinstance(m.quant_method, Fp8LinearMethod)
+    assert m.quant_method.block_quant
+    assert m.quant_method.quant_config is not None
+
+    w = m.weight
+    ws = m.weight_scale
+    quant_block_size = m.quant_method.quant_config.weight_block_size
+
+    assert isinstance(w, torch.Tensor)
+    assert isinstance(ws, torch.Tensor)
+    assert quant_block_size is not None
+    return (w, ws, quant_block_size)
+
+
+def _extract_data_from_fused_moe_module(
+    m: torch.nn.Module,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, int]:
+    """
+    Extract weights, weight scales and num_topk from FusedMoE module.
+    """
+    assert isinstance(m, FusedMoE)
+    w13 = m.w13_weight
+    w13_s = (
+        m.w13_weight_scale_inv
+        if hasattr(m, "w13_weight_scale_inv")
+        else m.w13_weight_scale
+    )
+    w2 = m.w2_weight
+    w2_s = (
+        m.w2_weight_scale_inv
+        if hasattr(m, "w2_weight_scale_inv")
+        else m.w2_weight_scale
+    )
+    num_topk = m.top_k
+
+    assert isinstance(w13, torch.Tensor)
+    assert isinstance(w13_s, torch.Tensor)
+    assert isinstance(w2, torch.Tensor)
+    assert isinstance(w2_s, torch.Tensor)
+    return w13, w13_s, w2, w2_s, num_topk
+
+
+def _fp8_linear_may_use_deep_gemm(module: torch.nn.Module) -> bool:
+    """
+    Return True if the input module/layer could be processed with DeepGEMM.
+    """
+    block_size = get_mk_alignment_for_contiguous_layout()[0]
+    if not (
+        isinstance(module, LinearBase)
+        and isinstance(module.quant_method, Fp8LinearMethod)
+        and module.quant_method.block_quant
+    ):
+        return False
+
+    w, _, block_sizes = _extract_data_from_linear_base_module(module)
+    return (
+        block_sizes == get_mk_alignment_for_contiguous_layout()
+        and w.ndim == 2
+        and w.shape[0] % block_size == 0
+        and w.shape[1] % block_size == 0
+    )
+
+
+def _fused_moe_grouped_gemm_may_use_deep_gemm(module: torch.nn.Module) -> bool:
+    if not (envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM):
+        return False
+
+    if not isinstance(module, FusedMoE):
+        return False
+
+    moe_quant_config = module.quant_method.get_fused_moe_quant_config(module)
+
+    if (
+        moe_quant_config is None
+        or moe_quant_config.quant_dtype != torch.float8_e4m3fn
+        or moe_quant_config.block_shape != get_mk_alignment_for_contiguous_layout()
+    ):
+        return False
+
+    if not isinstance(module.quant_method, FusedMoEModularMethod):
+        # modular kernels could invoke deep_gemm_moe_fp8
+        return True
+
+    mk: FusedMoEModularKernel = module.quant_method.fused_experts
+    # Further check if the ModularKernel implementation uses the DeepGemmExperts
+    return isinstance(mk.fused_experts, (DeepGemmExperts, TritonOrDeepGemmExperts))
+
+
+FP8_GEMM_NT_WARMUP_CACHE: set[torch.Size] = set()
+
+
+def _deepgemm_fp8_gemm_nt_warmup(w: torch.Tensor, ws: torch.Tensor, max_tokens: int):
+    if w.size() in FP8_GEMM_NT_WARMUP_CACHE:
+        return
+
+    n, k = w.size()
+    block_m = get_mk_alignment_for_contiguous_layout()[0]
+
+    device = w.device
+    a1q = torch.empty((max_tokens, k), device=device, dtype=torch.float8_e4m3fn)
+    a1q_scales = torch.empty(
+        (max_tokens, k // block_m), device=device, dtype=torch.float32
+    )
+    out = torch.empty((max_tokens, n), device=device, dtype=torch.bfloat16)
+
+    # Use optimal M values only if VLLM_DEEP_GEMM_WARMUP is set to "relax".
+    # Otherwise warmup all token sizes to avoid JIT compilation in hotpath
+    if envs.VLLM_DEEP_GEMM_WARMUP == "relax":
+        m_values = _generate_optimal_warmup_m_values(max_tokens, n, device)
+        desc = f"DeepGemm(fp8_gemm_nt) warmup (W={w.size()}) [relaxed]"
+    else:
+        assert envs.VLLM_DEEP_GEMM_WARMUP == "full", (
+            "Expected "
+            'VLLM_DEEP_GEMM_WARMUP env to be set to "full" but got '
+            f"{envs.VLLM_DEEP_GEMM_WARMUP}"
+        )
+        m_values = list(range(1, max_tokens + 1))
+        desc = f"DeepGemm(fp8_gemm_nt) warmup (W={w.size()}) [all tokens]"
+
+    pbar = tqdm(total=len(m_values), desc=desc)
+
+    for num_tokens in m_values:
+        fp8_gemm_nt(
+            (a1q[:num_tokens], a1q_scales[:num_tokens]), (w, ws), out[:num_tokens]
+        )
+        pbar.update(1)
+
+    FP8_GEMM_NT_WARMUP_CACHE.add(w.size())
+
+
+GROUPED_FP8_GEMM_NT_CONTIGUOUS_WARMUP_CACHE: set[torch.Size] = set()
+
+
+def _deepgemm_grouped_fp8_gemm_nt_contiguous_warmup(
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    w1_scale: torch.Tensor,
+    w2_scale: torch.Tensor,
+    num_topk: int,
+    max_tokens: int,
+):
+    if (
+        w1.size() in GROUPED_FP8_GEMM_NT_CONTIGUOUS_WARMUP_CACHE
+        and w2.size() in GROUPED_FP8_GEMM_NT_CONTIGUOUS_WARMUP_CACHE
+    ):
+        return
+
+    assert w1.size(0) == w2.size(0), "w1 and w2 must have the same number of experts"
+
+    block_m = get_mk_alignment_for_contiguous_layout()[0]
+    num_experts = w1.size(0)
+    device = w1.device
+
+    # Assumes all ranks have the same max_num_batched_tokens
+    max_tokens_across_dp = get_dp_group().world_size * max_tokens
+    max_tokens = min(max_tokens_across_dp, envs.VLLM_FUSED_MOE_CHUNK_SIZE)
+
+    # This is the maximum GroupedGemm M size that we expect to run
+    # the grouped_gemm with.
+    MAX_M = compute_aligned_M(
+        max_tokens, num_topk, num_experts, block_m, expert_tokens_meta=None
+    )
+    # Distribute expert-ids evenly.
+    MAX_BLOCKS = MAX_M // block_m
+    expert_ids_block = torch.randint(
+        low=0, high=num_experts, size=(MAX_BLOCKS,), device=device, dtype=torch.int32
+    )
+    expert_ids = torch.repeat_interleave(expert_ids_block, block_m, dim=0)
+
+    def _warmup(w: torch.Tensor, w_scale: torch.Tensor):
+        _, n, k = w.size()
+        a1q = torch.empty((MAX_M, k), device=device, dtype=torch.float8_e4m3fn)
+        a1q_scales = torch.empty(
+            (MAX_M, k // block_m), device=device, dtype=torch.float32
+        )
+        out = torch.empty((MAX_M, n), device=device, dtype=torch.bfloat16)
+
+        # Generate M values in block_m increments (already optimized for MoE)
+        m_values = list(range(block_m, MAX_M + 1, block_m))
+
+        pbar = tqdm(
+            total=len(m_values),
+            desc=f"DeepGemm(m_grouped_fp8_gemm_nt_contiguous) warmup (W={w.size()}) "
+            f"[{len(m_values)} values, block_m={block_m}]",
+        )
+
+        for num_tokens in m_values:
+            m_grouped_fp8_gemm_nt_contiguous(
+                (a1q[:num_tokens], a1q_scales[:num_tokens]),
+                (w, w_scale),
+                out[:num_tokens],
+                expert_ids[:num_tokens],
+            )
+            pbar.update(1)
+
+    for w, ws in [(w1, w1_scale), (w2, w2_scale)]:
+        if w.size() not in GROUPED_FP8_GEMM_NT_CONTIGUOUS_WARMUP_CACHE:
+            _warmup(w, ws)
+            GROUPED_FP8_GEMM_NT_CONTIGUOUS_WARMUP_CACHE.add(w.size())
+
+
+def deepgemm_fp8_gemm_nt_warmup(model: torch.nn.Module, max_tokens: int):
+    dg_modules = [m for m in model.modules() if _fp8_linear_may_use_deep_gemm(m)]
+
+    for dgm in dg_modules:
+        w, ws, _ = _extract_data_from_linear_base_module(dgm)
+        _deepgemm_fp8_gemm_nt_warmup(w=w, ws=ws, max_tokens=max_tokens)
+
+
+def deepgemm_grouped_fp8_gemm_nt_contiguous_warmup(
+    model: torch.nn.Module, max_tokens: int
+):
+    dg_modules = [
+        m for m in model.modules() if _fused_moe_grouped_gemm_may_use_deep_gemm(m)
+    ]
+
+    for dgm in dg_modules:
+        w13, w13_scale, w2, w2_scale, num_topk = _extract_data_from_fused_moe_module(
+            dgm
+        )
+        _deepgemm_grouped_fp8_gemm_nt_contiguous_warmup(
+            w13, w2, w13_scale, w2_scale, num_topk, max_tokens
+        )
+
+
+def deep_gemm_warmup(model: torch.nn.Module, max_tokens: int):
+    deepgemm_fp8_gemm_nt_warmup(model, max_tokens)
+    deepgemm_grouped_fp8_gemm_nt_contiguous_warmup(model, max_tokens)
diff --git a/model_executor/warmup/kernel_warmup.py b/model_executor/warmup/kernel_warmup.py
new file mode 100644
index 0000000..95f5982
--- /dev/null
+++ b/model_executor/warmup/kernel_warmup.py
@@ -0,0 +1,98 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Warmup kernels used during model execution.
+This is useful specifically for JIT'ed kernels as we don't want JIT'ing to
+happen during model execution.
+"""
+
+from typing import TYPE_CHECKING
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.warmup.deep_gemm_warmup import deep_gemm_warmup
+from vllm.platforms import current_platform
+from vllm.utils.deep_gemm import is_deep_gemm_supported
+from vllm.utils.flashinfer import has_flashinfer
+
+if TYPE_CHECKING:
+    from vllm.v1.worker.gpu_model_runner import GPUModelRunner
+    from vllm.v1.worker.gpu_worker import Worker
+
+logger = init_logger(__name__)
+
+
+def kernel_warmup(worker: "Worker"):
+    # Deep GEMM warmup
+    do_deep_gemm_warmup = (
+        envs.VLLM_USE_DEEP_GEMM
+        and is_deep_gemm_supported()
+        and envs.VLLM_DEEP_GEMM_WARMUP != "skip"
+    )
+    if do_deep_gemm_warmup:
+        model = worker.get_model()
+        max_tokens = worker.scheduler_config.max_num_batched_tokens
+        deep_gemm_warmup(model, max_tokens)
+
+    # FlashInfer autotune for Hopper (SM 9.0) and Blackwell (SM 10.0) GPUs
+    if has_flashinfer() and current_platform.has_device_capability(90):
+        flashinfer_autotune(worker.model_runner)
+
+    # FlashInfer attention warmup
+    # Only warmup if the model has FlashInfer attention groups
+    # and is not a pooling model
+    def _is_flashinfer_backend(backend):
+        try:
+            return backend.get_name() == "FLASHINFER"
+        except NotImplementedError:
+            return False
+
+    # NOTE: we add check for empty attn_groups to avoid errors when
+    # deploying models such as E instances and encoder-only models.
+    # As for those models, worker.model_runner.attn_groups is empty.
+    # This change is made during EPD feature development.
+    if (
+        not worker.model_runner.is_pooling_model
+        and worker.model_runner.attn_groups
+        and all(
+            _is_flashinfer_backend(group.backend)
+            for groups in worker.model_runner.attn_groups
+            for group in groups
+        )
+    ):
+        logger.info("Warming up FlashInfer attention.")
+        # Warmup with mixed batch containing both prefill and decode tokens
+        # This is to warm up both prefill and decode attention kernels
+        worker.model_runner._dummy_run(
+            num_tokens=16,
+            skip_eplb=True,
+            is_profile=True,
+            force_attention=True,
+            create_mixed_batch=True,
+        )
+
+
+def flashinfer_autotune(runner: "GPUModelRunner") -> None:
+    """
+    Autotune FlashInfer operations.
+    FlashInfer have many implementations for the same operation,
+    autotuning runs benchmarks for each implementation and stores
+    the results. The results are cached transparently and
+    future calls to FlashInfer will use the best implementation.
+    Without autotuning, FlashInfer will rely on heuristics, which may
+    be significantly slower.
+    """
+    from vllm.utils.flashinfer import autotune
+
+    with torch.inference_mode(), autotune():
+        # We skip EPLB here since we don't want to record dummy metrics
+        # When autotuning with number of tokens m, flashinfer will autotune
+        # operations for all number of tokens up to m.
+        # So we only need to run with the max number of tokens.
+        runner._dummy_run(
+            runner.scheduler_config.max_num_batched_tokens,
+            skip_eplb=True,
+            is_profile=True,
+        )
diff --git a/multimodal/__init__.py b/multimodal/__init__.py
new file mode 100644
index 0000000..b7cbb3b
--- /dev/null
+++ b/multimodal/__init__.py
@@ -0,0 +1,40 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from .hasher import MultiModalHasher
+from .inputs import (
+    BatchedTensorInputs,
+    ModalityData,
+    MultiModalDataBuiltins,
+    MultiModalDataDict,
+    MultiModalKwargs,
+    MultiModalKwargsItems,
+    MultiModalPlaceholderDict,
+    MultiModalUUIDDict,
+    NestedTensors,
+)
+from .registry import MultiModalRegistry
+
+MULTIMODAL_REGISTRY = MultiModalRegistry()
+"""
+The global [`MultiModalRegistry`][vllm.multimodal.registry.MultiModalRegistry]
+is used by model runners to dispatch data processing according to the target
+model.
+
+Info:
+    [mm_processing](../../../design/mm_processing.md)
+"""
+
+__all__ = [
+    "BatchedTensorInputs",
+    "ModalityData",
+    "MultiModalDataBuiltins",
+    "MultiModalDataDict",
+    "MultiModalHasher",
+    "MultiModalKwargs",
+    "MultiModalKwargsItems",
+    "MultiModalPlaceholderDict",
+    "MultiModalUUIDDict",
+    "NestedTensors",
+    "MULTIMODAL_REGISTRY",
+    "MultiModalRegistry",
+]
diff --git a/multimodal/__pycache__/__init__.cpython-312.pyc b/multimodal/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5a493e0d3fbf5f3f63ee54b782ccbeb423be7960
GIT binary patch
literal 699
zcmZ{h&u`N(6vyo(&5yPj(+ZLJ1CR*P$brK^nueH)AYvV;v<G|%p|KhZJB@4y=#evj
z0C#SPKZOetH{TE^ZWGfqi4%6{)FOcoAHDbd-uKz>eGbDe(1$wji01(C-8dJ=S{bL$
zwecPlpnw!Gh#)k!MJ;9{n>ol~9n@hia+!xb<|Cg4C}3UGWj)kub8XsZAqpX|01iK`
zWYJat=AdvsKy+!@iQOMiU&K&tj~Xh;Xi?<!VJ=F{<3J4#b2%$<F~OBs@U*HMDOA7B
zA#yp)Wv-%ineh)BqE#xPcK(hJ$xLpxc=S5wbD^%Rv;IU<iJ4GW*Wo8LpW$*r3(Q-M
z4c+N99k#LX7z=svN}>O<ku=70A|zkNeXa)$c*nps@C<AN-ykqBTj4!}zJ?l%rbm->
z^mushC>!5@kUpJ^pYc%N9LL+rE!#1*63Qj*aQ@ljzw$m`J+9T{Tc)L#WjUo;_7R+F
z7yP=LNLD8`sduHG7?!(ln!P)>U+&?Ak{3z6l;xsIUQx;tX7<O-{*o*s6_HtXvtBBH
zU&k7X4|t^Y%(BHTjT0L}c;*6l?cC}@>l|pDwTJ+WzeU%-MmN5I!HMNT=jTq?v)+3A
Hvab6LV)wmQ

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/audio.cpython-312.pyc b/multimodal/__pycache__/audio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7305dcc9ed32769b69cc82928883fb13590a8d7d
GIT binary patch
literal 5231
zcmbVQYiu0V6~6P@_siamUz^}D4skb5b_?+%uO{Tx#1(N6si0Z6S~i|>vd-*-JF^LP
z9O0r!*do-<kIHVLs*6<BR!}kO5Au_ipZ(*FQ^gEHiUj=N-_i{VqEgj!?(D1|1O<An
zJ#*&Vd(Yf^&pF>Y*Z=hUJp`I2zMk3bC*)Inv75WfR6gJcnIQ^MIE^In$!lDePx2h{
zf+l3eq{w(tld_JagYlf^OuE<{cUDSzm`u{VSzpozyhCwn{%jx_;E3DO983nQTwStG
z@u;5Rt@c7zpQ>wk+v=OmH3Oq~)rjJQpZ|x>9C9gvt73A~|NqS)hY|!04Lmtcl+ab8
z)ZO5%wIv&wtR7@xHJ~<q$J!!8JnjL1H-zfU<`J%)sG+TddO5-q)u*^_fE}<UgJ;OK
znM>ql;S9O7ag@6@st!i|*&Y>(e1TK@W1Q(cJYuMN-zi|lXVb=c6g`tMRGQX+t$S8W
z531+$nxfK^d8MeSU*KnP&`DLvr29^pPAzkm=JmAc*7L=jGL+F&Q%V<=Ox|?nY35u?
zr>5IT({rkUtb?jXk>&=gtB1`HBEb)LT6qe{3^D9JGF&}55ZBrm8RN$IcR2fOPLmkl
zzra%;jG*AP@Ji8HO&3-5bhe<WF@buqvo=D<kIAz9&HjXuEhGw=!cJ>}J6|sL?%92z
zS53gC5`_`td_I@BsA<_mwx}7IY+gxg3AVR*VZ>~(KagUgRP`We7__&*Pe&7ullwm6
z3*YfZOWx@0vH9McncLnIOX7(Nbdq()-~a(ThPQ!%5aSf0kt+gj_rg(FzdR;9>_CR`
z_%^gL2uqwd3J17)P)rj@ewd~)(1dyvevKvq$1e0!5EJSI5)(|HKA0(t#P!U%Tv{_7
z)u+F9NQJyM5)(I=!j#x7T?8Fq5t-HlV@7I|tdnJ9D4uCM{PbS{87Gwhk(%x~1Jlj7
zoGmNC$kf>6*qvak6pYP3u~@fw{N_lh>%?-fZ^_lS;toykx#ixxaa8lobEPMbeehCs
zls7c~42^*DLHN}gZVy}KZ6Gs5B}p($l2^E-;6}XiDuOC1{3wi5L{(BGH2aXKIIc=b
zKsMDm9Kz}Ao9Z6M4{c~TQ*nVd_Ya)~sN(_D@s98@pBXrW;rCqC{psiqo0Zvd%1YWu
z%SK)X!s1f4;zXutLyh;dATk|U6}(@m1{1}V4We_}4K0uF6&c73#w1ArXEksclBz}V
z2wC9zK@kQg-2w!hMbuSoXjNiIq-B0rDwWA)j8tm0as5u>c1I6r(a}}LN!deM+9$+o
zft7~M6XF|QX23OG7JyNMxLRzurW)G(7hYiHWEgukv~jOd+pWUcDEcbwau{88LsR$*
zKZ3nA8Md!5jC#1{cZ9WJ^iXYLRhyl2zo#|>QI0i5diXlugk1XvVRbh#XaDG7cEoZu
z;xf5&az>YPc|+EVg+iVhsv=)Hujb?zYZ(5bJ)%JK7c+{gFubMc<;+h;qkXxHX)U9y
zRcg7@UU@VgmrvI;TT)$4Q&sM$;%A4P&M9&Si}{Xt%whSX@3~?Q5Li7%X`V7KVmQk{
z!Sp<z){0gafW3?hsUiM4*P?aM_bsoo(dGbj>c0U3UIm~XnmRCfV9DEdxBjt}(9bIZ
z9}biW?+=t6*tc(T-)!ubxBYH7wi4Pjdueg&`|<bU_XR#u8x^RZ8kiiIJ$}m%qdFcs
z>b{GFx2)9foLAnxuyA4iS7pNOI|!uiU_}t{dxAf}JQ|W5J7x%P2#;JktEN(>CzXPn
z1X&q)Un=!dF|Ad5oT-$O9|W;9q~+5FMW?52KujT5FidCv(L<D`M@&9fFkNg2Se~8E
z0<j_pql<2~$u3~@43MkjBeAFKBJCY3@!l_;4r$B1aMNtp_5EcDcsQE6rlqFsrBG)D
z`^upPDR3`XKXrNX^6XQ8-1obErC>){0wJiVZ!Ei!^AL}JDmodRer{&q`asFucHawP
zYZbVFLHO00tIAdG0`uBhJoZkIAx`11`jP@eWKNY-$1sNfhNil#3JWk=1k7|RlInpO
z9_7(99DwS8vViKo?=f0bTrk=XX#QO*30NxuT^?8sB6x6uyv!v-kY0VJkA-Hn(4q{;
zYM=^xLV!XyulyLuZ#gKO;Ayo<0N^*k<~OSEoCVM}43ZH-TcHbpSb{KDspT4u3zr}t
z=ynL9%}sYIHK?U^J(a2k(m2CtHeqzr+6C6Y8Pl`g2;}Q=a@Xabbe3FAw_Ppe0BPJ(
zLugaPEK~z#7`+P2hvDT>WuQ^3dd6z-tPm&*t9v|67I>_0d7Z+3SV1U4Bq$V54U&-z
z584ex#|d`f;lUxPvse;WQKEYK@zsvAI0?50y9+j8)$!Kxxub8MoL6oKcP+VgF~>DM
zS*(v!#z;Y3mp5zK=VzdSWuLVs1sS&0-1D&fFvi;mZa+`k=A?UJw&^&V*43Ua(|xw5
zOHl{&3YNe!^w51s*sk#yYW0@a+8vuU+O*E7YkE|eqCW<NCEZYD>Xpe?-nw|FHBo9!
zEQ-sm-OItAC0CENe-~Z^3UHxVXJX8q_+{p@k23KX)LCl{N_%0ZU6Aatco`n_X&~#&
z=w_?N6^u4~dp9W8a7q|R&4{xn<|DU*@g-N>+JM9ixNh~B-P!6t0|slJUxM#k;jaj*
zHx@hKy2%ys5mpqTN)i<A9sUNM3N#2(aky4NSTdxx&MOk!pyAJUagG?Z3SpSt+*juy
z_ljiu$1s*&8=6w915QI#{Up)3OK^uj1FPW3wVl>&GA8z$!V8C<hd6Q!<!Lr;j7mjg
zXy@*jlf@CmubR>&3KvGx1vflM`$d)h1f}SFY7U*xbX1+tVL9Ou=(h6nZXD=1TO1k!
z2x4xDcOY;}XjUocw^XDoj~;DVXU%ned6=mW02wDMk>*MFgfu}v^GB|onca5Rw`uCs
z<f+-8&K;Y7YEk`{Z~scTdFJ5tgUjKq6GtCNB+v+XIMi?_*jfs<&WX#xC+-Ayl!80v
zUsw)yFS)uOxM9e|nQwH2+v)9xwh4dVCLKyR!5I;i`(t(V33yWccLeP~!cwiofW(xH
zBHTjhc9eG_i6LQ;D(D8K2k{ksfF1^73YnZipFz%F#oj?x(^9DzN4r3(BVIghfiMC;
zMe+i6{2s{HSIJkr3leXHle%V$P)SH#^PA@NcP}qozIkjZai|nKTtQ*kAxXXWB8_DU
zo{+YK^<^h=F5(GJ=qz6!TMD+7+>ck>C=YN_Vs0zyOU!pKhTo6A7rm)2J$a<mc@*^}
z$_}U0GuJ&IemA-hT^wAB?J2eIEfWyl)F0r(%ICP)Sc~N$d?wGl$aEr3VD*QGU^)OZ
zu^2(5G^JcITNt4`koPe@UhT%?G#l}99xoahO^;`?Sgxkn3q?ONMf4hq6@!%kynSql
zRYIccTISe^9J2`m0;?#k!lxf!*%`-?!wXyWg0kN#yAIGK$j~6V6KGlBIIiL#T;LPZ
z@Cj-9gtUB0>VbYvx<4n)Wl`WdKNjoDE`dvYEJn&62iM1~cmr5VPScso*Dsg6?PUR_
zV39z$>|`vs=BBcnu^!@Zzc%pef$930==Eqx+EVc{dA*;j`?ewwR`no<YASBv9>{H6
z;7bDJ{t2#?>zVGI?Vbz&CHkl6yt>r3s}$`jg}c8Z(DQZqBu`x7e-n=D{3y^m=UxtM
zfAu(Sv-3Ytwpl%ik3wy8oy(#4t9{s$_(p#m4&<-m;l1Q<;t@aj$6o&tkMN<JL+bY*
L*&=+nnFIPimRd{0

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/base.cpython-312.pyc b/multimodal/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f6d124182b85d093287f7e21658905867f536514
GIT binary patch
literal 1308
zcma)5&1)1%6tC*<Ok$!Ll`LK+Q4fP;8iE)<7D1OK1a_l`;GsdAn(0c?*frBu*O*LB
zL30rHvU}2FjvI2><6ibJ*o()dU=h)ax6x4qPrg?@`Ot${(68P{z1P3@dsY7)J60jE
zGUvDSAB&JzXzVY4s0{9b@{}Ybp&1c0qQZ(Sinf*6!igNC+nFo8$P<3#Q(_VBC(a%%
zD@1`s7D(c5lf>hcdp!670(;IdI@0s&!5cK{mbP!){7H|qW}zf&DZ$lRC#h5I+-7PG
z!u|qpbD6fZzue3D9VWFEFSp7<rThvtClO6ZWN|y8+(|6%t~iOk?d%P6A`c=Cpr!C(
z)B~J{(Ey?z9~tKPM<SJ8P#@9$uRKZF;w|kYOfl_AuDY__0xAy{l3>F(7zgo`sDr>G
zx=WXKsje<{)S}2UE_hq<<Yy^65?XZ%o~_7HI9_16TJ6)dP>DRu(|lGjxyse-MtA<o
z<@@tI%+h9<_kgQ*_%O>vD7u+SMJHid*klE7<UL)<IxLBsJ;jU7$sy{-p>GU+F$h3x
zk=NtX&x7d!=tNfp_7^K4yM;~cuWvL}r<<Zu8?Il{Le)AeHB+XBWs0i@!8N7w;%XSK
zudg>!)@F^4Tn$-Kq^oVDq6kgatjRj6H#XLk$PUWL2|!i1<q6p2X%vPugbOI-B<y;$
z>=d}TbaAu#W&6f?98MMZ7PiRyF)}d&49HWM8LXrk&*Aoc?@%Sqxx{3ZnDDj_XIP>c
zF=(*x=7}$`plb@#Polv8FV#nN5XWsMcpU3W9K%$*8R}zk{GiLSG9vLYY1fQb;uvKW
z9X328X$rdNI|E|3tZRTsY}g3Hm;h^={O4Bt7IkNyb^8RiKPTVeHn53z()jzH(Oh?C
zr`0F0{Z%#F-*6DD;X%;)<NGN)=gLxZho#=)FHDE#|4a3Xwpp_!acX5VK9UX>TOxGr
z!7WJJtJ1?bzVWh4)4(*ENLI;i@MFo*b$K3qcvFiDAo@0?^kYEix&O)33v%|QJN9Jx
a@!c)!y*EK;p0s|Se>V5WwGRXgQ|vP}qAXkh

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/cache.cpython-312.pyc b/multimodal/__pycache__/cache.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..828da2b4341f8cad96ff86cee4f8e4ab5dac12d9
GIT binary patch
literal 29736
zcmd^od30RYdEc9T1!l0X1RnN<SO}2fBJL|liUcW<lI*dQ;c(sqIpi$xn*m86piMhU
z4BApi#dbwCN(?1w4OTh{-L#3)wC6Bs>^N;sJ7Z8C^aY8S6XlPbp3^fVkR!!8IqmPe
zZ<#m40kp(%)Ao|M@4ox)e!u%|_q%ugb6J_2gNs_f9yu1^xWA+q&AHUT$~P?>_Zs&+
zCvbu($_13CDPY38Ickns0+yIHU^P*^C2EV=1NN9B;9&38s59mYxLMd1^~AgZZ>%g(
z7Ap^w$9w@_%pdTxZ>DHPpaS{r(aKm=ph}Iaj@1NeSlAJ*jnxI}V)cRgSVN$J#W|ym
zv8F&13%jDtu?>L@v6es!dv`}$V|;**wFTN@?SXa{=ZSX2Is=`tu0R*wy+T>EJJu8E
ziS-70V|{_XSbv~DwlT0VHV_zy4F(2HoamLR(Wdg~P;59b9NQGw#Pa!~BeBuIC=2_e
zn`2u7TTGmp6Pv`R-ZCj;7T9X$#yFwkB~GY(%dEz2V{ui8tJdSTi`&HQGY*au2bjN+
z`Tfkdi#x=@33CIo(|h1)v0U6K)a=4LYV!%T;?r-}=_T!ArPrhM20d;!OV=ngz1^(G
z?O|~n5Z9u|?PYmek(U=OVwt!{+^f|4mQ`*0K5@UeQFI7x)EecRU}CL0z*^N#t)eta
zY+=g4L6)XNX*tHF6E$^-`@{p{LA4%07`eb9){<^~?-38ZrNtg*vAu}xGsGTYvHghM
zXowvX282OjNEjA2iAN{w!pKY3z%gM|*v#Io!WO(AH@rWE_h;C<lIM`p1LWL_FDG1_
z@=w?=Y{UCWR_AuqxdZLjdb_cx7vn6|(@3>b9M^ksipB0i>~2HsX+z!Pdfj_a*R%SU
zy`mef*S<Q1efav^w5jjFU(=wC_nBqO{sRZ)^3eHYN(zNjF)?*9At2guGBi0EiC>VN
zXT&c|iSe-5XOgWa65-2zHo5HVXHOpv9z1&Z;4{a@$7IKt7#F2TSazMAo)q^-BcY`1
zpx_H3Nw$VV$rSQB6IVn@iU?w#MfRRdUYHDpFP{-5L6n=%pq{Asq7+Gq(wU2~Q|B*<
z;nbN_LJD0F<%XiK&mr-Fsfh_uLZO~WJdz4V6BjPv)hxRXhQb%cWATZE>^$+@^Xv`P
zRa{CY;=yoYDvq>b=!%$>eJm;#n$#jHS%f4CQ(;k!qXNew2ZHCPQ^?^usRjR<mTI3v
zu01&wO+`*7gi!QAD20lJBM~tw$Tj)+BVs5uC5dMy#jspuh^BOhqhd_<=OdrF8j>y~
z<?7;?V=1IFl&Pen*rZ%GE+$i=a8`^b6H*cl_Mkap^k5=B5xF3{Ux-FyN*H5R{hXLg
zM6Za#X(<t#Og%p-gi<uAmH7&v6E8#n2h(8!4$axsz{*wxz6x|Ma)iJGX2BG&2xieL
zSVWs(rR6Qy1p9=2j+-zEj+eXvgszzajx$`JQ*O@Jg8IW^5)D>n3muvHb2krn_M*t6
zQ6WB+;FFksk&ncafEfN<iOi?s(P>t|xgj^py&t3ZGz(E#fTh^eti(yBI#J+LY?zcP
z!U;(dlaq<K0C=JbLwt;;b1+8p$+8dWg`o(HSa6CBSyC?+al9JGKT+N}Y603tjghVN
zB9|AIBXwZNWV<8+MB?LN6=ku}rZD}j?1A?!(`#IcMU!{aGRwVU<G8of7!x;Zn&pBj
zso=O-Gv4&Frn$SO@jk0;OHNISlI#oy*@_8DJ;*Ng!n<pgtw}LDk&lsG!C*KVN+yHB
zBw=xM;Kq-34X0w0!;_K8!4$w$ObuR}+O}i+<!$0{G;)4;avEqOK70l6Hq3^RjpA^a
zmgCUmv^0ofX1Yquq7DK>TFbT|X|fgGhc~!YH|Hw9>Bu<iA2=HyR@cv2Uv@3E49r>I
zbvCUa33t~?U5bZdVlXJXgF#d~6{WB@82rLiD5`#O1cO2%91Kb=$RiOzvlhu^YDdFj
zG#U)vHA$QBDM`zFpEN?Lx;1YjeW0d&_!9TXY_~acey45lVR?JbhG)*sHMFJMwq@$K
z=N$Cz<lN;SxDa~8!IMU{V!{aM?#HvRI@cT3lVU1FD=Ksh@WDWl))<gHi~U&Z?2H%}
zL}jV|1XdcY79jkv$e$kJLs3Z#3DXKLNb)H(-LQlQ_^TqH02a`2MJmZBBQv7DYN;%}
ztC2W=dJ}b6LGkzyOGwlFR1!31h~Wv!Ye<j6Qjuu1ptQIs3WP@z{AE#`WDQCJ_IL*8
zym%!NPDK)Nelih_gs1sX5>@{AkO*~$+}VqfBu_2Dh!CC(O=A?ObLYiyXeuf46A6h=
zCeSRb1~Hl(pmw4)QsKx5;v~&%JVm)_XiMYCUe-5(RWZ`1^d^rg7z&g60McvVF9DxE
z3V)?kR*~Z_fmtnfv!=IH));tAPsy+xu%P0mIf)i%pIsWjLs{Ft{JLOBMlJ)^3KAX;
z(oD-PJ;>0YG=!Wwx>Hs^!&-y+a!x-%xU}`9W3Q7`N<X|}?Dc*_Z?<7;reW*7)MCRf
zAhL1|ktx_=Gc|k%<u;(7ofJvlUizS;9}mz^Bk;;6LO)cDk-1=l@<J#&CCcXD3*ZB6
z=fNNe1sKYUJmgm1fR`uyqD3%)?3+c~1c?7jR*e(|?D%38Y;TwZJNS5q=wxZ^g7YQ2
zp2meV^i|32GURsax!s~i@Q7Zqj4>5TIpv~HEK|7U38&ySl<1!>>noRbqlvN=?A-)|
z$FNQi5l>*n$muKw7sONrC=g3iN>8WBG*Z(ncS#2=<W$|P>5_)AwJ1C_;5<`Us#8m%
zm+D1+CNXPYlxI;sZN#}$xt1>F*F%+BXu_(OORcTZ;`2|`R-1p*LTj|PUi*HjQ48gt
zdQH@W=6t*sLJx>sGk1ws1BOR_0iRKqX@%^LB*EIHLO}G4#wv@GCXX#n1;H@rC&-sJ
zkVlm$1e_Wn5oaV@iMYu&@QUG!vRz?=WqVxV*e%Ivu<cm&wB8dF;EpZfXi_?aj7gex
zo>!Ln7{W6f^2?m9j3L4ndV@sD^DTHcxc5CZw}l7I+aGv#ELGKJt2#4Po%3hE^Vv5)
zyI3`x_6{#A-}gQ6>|d&?du`9Fd(z&vRXgXcUGn<h_w&pCu4RAcvcDtevXzyu+MHf@
zu9B;+d$J^!>9+93;cuUK{lo)L9~HOr)tzZ?%lp2{Ti0)1zjJoc*PeE^GYoR%E|#z$
zo}aoP+pf^EmQJI+`Z6Gp*O$Sc;KjHM@{8b-j$x5RbtxSy1JrcD*1pmr(m+IeUboDe
zrOhdimL?AZ*R3fX#4q`@@A;=-N>ylY`CPM>ln(kcD0SBQmfB8mzZS?B=JA<L2Sd^D
zR1`9ez}NsjF~N5+5_w+ayM{(5c*t^mZ<oL;B4A&iTcQ;L!4#Zv2p}X|LV_UCT9ODP
zq-y$VSA<J8n6fnmp;oFxe4kAkr!>!!M*|Heny8AKfeaHhlY~QvV5?w809zW&bV~F^
zBuRb_9$4RU&fmW5t-f{Q=7~3k7do>2J2U+|-+6wq@!*QZ?03&uA2~U1#d1Uc!c&V4
zBXh@>y_J-9$$wzkUw!-eZ+Mpc)!&@X`1vJ&<0^q#4kcF4c^I(hV1c?AW@Olr(0~yv
z@)Lj|Hif<d7}D9HF)_ushWJ$MyeQFNQ_p!3LM?cTBqTS!P@-ad1kWH-71(HK7&8OT
z;|j#QB;^o8NeIkT9t6>;FhnCrV_}G2QSn+NHH|t$Dezlya64e$#EGdqhemu4TL2eG
zq*Lm{bRjxMh=vcv1s)VmlnC)Kv5yIxlc5y!4)LU+RfVD?wUf155&U8XG11T|V#Y%8
zP;`1mG?erl6YdOhsnThYUuWEi8H+QyULOM#Ng2uYnHXU9nezZ>#Ab4p&gSGtZKk6X
zc4J_dPxMX9ev+0XfUlYJx6Riq`g+pN9tJS7Cme#t1~U-6a9(z^;Rw=d(8X3lFa+@o
zk`z_JS1m?p$|IRs(+pD1adValC=p(AzHQbJ2jI*y9@fb-ilcR2g})VIs=j4@jk{^O
zWc-d;a<kk`^V>QeVi-X>g?Nk>tve`zOxKhFqs5w}M)EgqF#In&cSS?7^FnCP%y6k;
zib_*KHqS%5qKR-Qn%skclHoU~EJ7II_U0{Fek8+>+-rO1sWd<GfZxvs4h<ll5Yt7y
zP;iG;X$dWK>GR~VHc?N{@%%ZZQH)#Ft1gW<^v}PJtVtr0e~Y>EbN>2eZ_OP~#@n%6
zyMNVY@w;=J#pP!08Skr*h>?_@B9G<?Q%k}=BqeD6WP5^X-(*W9o>I`@K1yRfpGZX6
zP)bntbFytBnh2$&7Z8^AlSjRiEm*Ts2%)<it4yJ<#F;VnOh6#{eRwZ%OE!PbTx;u?
zug!6IEF64Hj};4NuVC@HO%!r-b<K}mRkrGfzK)y?PYBlj>Kw)3o4f3>2O%{R#r3o7
zWwzdQ@2(t&=l!b3^iY!^lxv|RUMkn)wz(hHH0Er0LV&MnxKsJ+(VT<c+*AvFM@o0)
z?T*{h?VgOQ@o^cVSXqzE2q|5p-hqQYb`~sjSvY}F3tb6Gkx)E^*i(pfg%fH-7)f=f
z5!ICmMCEyFQmQGuHPmW$!74hSPqrDjWGA?1muOQtW4CB$A*<*X9TY-pCv?0Xl;IKF
zhJ4;>SD#m|IuJ^VMNl5Pg5|*Q%YIc0%%4Xpo`HoTGKYlWtE8TNLPwV5C!iZskgbaL
z&H{Y_n}-O87voAo%#dEGcqUR_3|*n95bBDMC`u?gDN4{3v-VuQD1sIcK2*Pp*TnD?
zw6R29C>oW=p%M@@;g#>*eR@+L6~ppV5~VmT1Jrc7q)Uk*(lX(nQ3Am9Rcamt_lZOl
zFTmTZoO9>Su_r^ox)(_*ctPmx<FE1K6i>Jpm8+V<-aeM=^rolzBQ#3;Paoq4i`|}5
zQD+m-e<*e9)vaCrh*~~$0L7&b?%`1uQv~QeQ38h6pVJ5`uv-)p6N*n8=u;{ZQwAK$
z4E|{1s)*ScP|7Io?m0|&GDW0WElJV3(5yn8lZb-`Pk`2<f&`{Und4+aq3MW-NGjFV
zH7N<~4@gki#6l1k*o>3DMF%v@6;!(57w8-K0-Ep3;xq#f42D`SL*AHG%zP{&Nq_)B
zX+L_KxJvLh#rQ-)MB8E!v=VSf?E_q*G=d0Lgg`)qew?4?qlv_2WMrc-r6__>A4>(b
zR0NoGD#fe74ZZ+GHZ~QHgu$G$uP8-T3_D^mrjw8<a50p;s0goEkh&vkNAD{n5rUxV
zAHHG&Q+5HLSu+ScPA8Jd$a!eQ6s<JcZ(M*x@AFGf>tiH^4(cVS>x!{S(P<hRh4kfN
zk#THl`4}02W);01OiT<;Mnf8#rD)38gs=kg$}u*j1`g>-UP~R4C%G-w0Su>7d!8kt
zuB*eRWTJs2^m9%vN>f}?!ZkTEwNJ$(mahf^R@HbSb&PmXVsb^{FhNtFMH<GOND1;L
z;U#IdP?JK)89$cC32e4!dP<;SCUF)e{I66TX$?TvyEzi}+8EW5oode@;Ho_rlR7Jg
z^c=})3~GJ_0V5lhXX*`V5c69EWpJ0VC6F{9=e}Y}QEuk2zo0W{hqzmoTh_4U0wl|y
zf*|yH2-4Rr*R5-)Oe~PpR0Yec=9e3+To`GuLt+b?O=|cmi5A~lABvOe7GyC=A%HMY
z6Ah%XcBgfSre*(62&&cHqhcsy2xuL+7S((jWQ*8YVVhLcHx0~_9|`CCAy{1HquAu5
zp;YP<o<I^1g=nRa1LJIoigDR86Pc6<^+51t&_0E*bcMV;+!qSGa(N+nm}&oLpno3)
zCW*lWymxZ`s@vPYe*M=i^T&Rz{D;1wv~wu!8(MX8UA+s=dwmZ&cQM}fFFJQY%DwHl
zQ<t-FWffU(XU5w(|Kh@hcfDJeI(I$R`QN`?;lK(rvHWiHewV#a&{!AE&NLl_cq=h{
z_5^N}BsBQ0iH!@>-l{7fd^PeYJi<(Csm>b`{5|ztUFmkiO22DX)a!j^MQppY4LKw$
zc@gq1kaw9pnkKf%1$8KG=g!dkb@DEf$2Ozb?pB;$$@^{mC9lDw&8=E!m%)8k=ggJ1
z_J<W!IUAl}kSl9)4hms!%lp`c5OKmvs$6d!c<IW<JEN}-<ZK8dd3F6A%d0zb4tk^Q
zu(|U$>sMU#Hi~SI&1SWLM-);T#oE(>X2>lk^{w?HrF;As?WDG@_5IXTiV}oTi0(A4
z?Yf*cG}%@Ix9kvXqEqFvEeJ6#8)@v|tzF=)9fA{DZWlOoi|9tY+n|s3Onbm-Hy2KL
zVK-)a&w^EvfYu`5MzDs#c}x)TBpn7Lm`P<*XNXahCpFsZLTjkgh)xe)6vLMdEKM=$
z`4r^8zyHvw!)N&MQ)m18HC}^wuTMkj38NKKZ7NA4_1HfSUp8<HC8_thv(l7!j*m>R
z^~tj8Jlg=zSk0>u2sG!8KzbL|J$b@z%E~n>7>$u`gI-uJ*I8tRXm4C^Mu!R$S7HXV
z<=kvo&J1N1Xx|7r8KFLoz-v&Zg2bA`W=3EkRA0w-eo2LgPO?E*Yd~1d*Uc(fMTimA
zL+e4o`Xtr3S@<!D=Z_mE)~0yGP=6e-ID)mL)5!t;Q$q<<I6sfM(fB+@^q%DNTsi>E
zbbmZRfo&m|1iuAh_o$KEeZ;irJMz27?$zD4X8j!*f5-gTyZ(W9j%9pD(#|7)`$OLm
zwmtcC^}JQp^+#cf@ipYv6=o=qqdx{urNo7qpVcY*7!<g@Bq2e15>tI_=@?OivX-GL
zO&K+#CD$L}vhWn_X&}KD7eOL~S_rK;as{i7+Fzi*bjL!M#URU4%qAD&(4l<75gJLA
zc=`>iZM@IBHq~SVQ$+P_cBL;-XpTJEYLH$buZUj$EX9#mM)h4n0QAz%*)~74RprcO
zw)XijX`R{^1kyTb^bw(4OPOuVG{0rR^5zaoF=o0~eNXsq;|dFtPO5sTfA}%yKoMJV
z^tgA7y)hE|$czYuLQ>^n{OL~DBK-oQo-ocTW2RUZm||JUL<`i)41E%IXbqGORE{)C
z>Q^`PM-IbR55AU@M(HiJ%77O!F2N1z=V80JWhl?M8(YqdzI;%@`brvo>2_P8T^L0M
zjtqXtR0vcmLVRtKRQrm}!6u?yasJrpgN(WmIFZyDNruitRiRP_XeCHbrAl!6npd?q
zgZ!~V%AjI22H^vMe?@L(WG6le!JP#7yyyz@430u!iJvG6iVRJ<P>WLx*O)qjQKDY8
zPw{Yc3VR&t`ZL(EFg1l{r_x8f0BJ;2VmiRSN^BQFp>EVdr7=%(1;h<n@VD|!cpqhU
zf!$nU*o&Mt&)3Z<jc?*EY4+TPw6o??yV?28Jx%O`(S`=2oMxusG?;1BkdVNT1~VCh
zl_r@kGIcT2B+E6BZ?Qq7SPUx6G`1j=U1PiQe%Hz<xa?(mF0}|I7^|giLc>ehc9gP6
z)8SLM=@_Hc{xph!mVen<mbXXav(;NO)ms;<x6irWukFg#ZqC$hUh>vty&E&$jmzHN
z6`Q3FJ9V!pn{JGiE1><vZLs-jL4asKXgxy3?h2>woI}X?20ltZ2hWH!83vo#c=Ac6
zIo}(dJTYeGS@dazc3N+64}G<FI={W~^^Iv?SK8U7AQ}?t3iJuoOxDzYjR2ZjvZ0qK
zMUjK<0CkbOX1Z?qa{a8O)E+Zpb#PNslRp8LX4Z7WeH_OJX3f83{$;ZUp3qO|Ksjsr
zg*DnUYu<%YW=&_fyXNs9bsWBi{VLiYhQ685jk2;C&#fv^c0;_S5tc0gOM{tHH{w(%
z%gej8Cq|{P0oA}uk^PtqHnVBn2`QA0Ss~98qzS0&28W%8X8zkdU*Gxdy|3?G*tXcT
zIqls%_e|QeZ>g#!Th)=N>X`prwrg*uYj3)0Z`!*T)0id&(TQ~T@%ugZ8`GU97V+Y1
zf4_C-J1?eN56@X|d2V`ck7b<ANIO@~CR%45P$|v^sB^p>flo5W+N_wgB@U^T4Wo@o
zxY8`jGf2iv7@g@|cXSM*u|Tj&L>aK^^in6X&W4P$0Y;##4@ab%`1m9zq=PK2-A~e;
zSrfJrRiI^{!z$4FWF_82dYQUpkQNxjFw?VcpYjaLMe0(c(j{Njt)IF1Gg)72#@9M8
zrhTo8zJauJfOQQp_buvM8+m>3#wD^5xa%*;){woLR7PGAZ*zm<zDyp|4KQ6mp39-x
ze!}$Z7DbXrR62PF0cQE?v^oE#+6f`PnzNVZ%qCkm@jQ4C&w~dsEJ{3702K1t>K;}M
z=WKW)hI9xNf<mD0u?rzJJ;gO6{bQ8ate4Tu%3z$4$u>xw5gx=D;lUEEBDrc^OHB>q
zPj?#CS@|c)8I@9S7%Xi=e~eN8l)RA`{|B%}n#pY;i^LXVp8a5^4p$NpWs{AEQAJ!N
z`W%8mEf_VGDf<MxlELm4YRNqBluT&slD4~}?+mFnw#8dRw0Ea7Pm0m1ve(0}!$|S`
z0kWZ0Es2T6q#`tyjM*87sJqPSSNqI%3?nHrod?gRwo|n#R*x-c*1!KRFly4PSXp_t
zO!`H7WfppjBO!)UBY`)RZGXZ>B@v<l&UGH^I$@bl!((mwar0Ob;kq?AtWvhX#@-b2
zSYJh-q}QpmQS#Pisgy06Pt8)53owE!#Z;}!K56(7?9oTFPtq@;2YptB`}}3<4e2eE
z`KQ)vQ*Y#cMoZ8_<6xEGf4)vo@Y5)7eg3EJPE)pFbEaW)x{A1>bvU1c_rdv`{7G^?
z(wj6eB^jRnj~EaG%k$3(bbgIWBGCCqW^kl`K^6T=@=9|xeIL>AJYVxG)b0hX-O^nO
z5yK+=EAn>0Gn%)*O_AiqXx?=mqYOMo%RfaPgPK~vV>l5(ZsiZ*J)wQ6%4=VAt9TnU
zFm`B6952}eWY_M5=B1P+yi*_>c;%}XIvI~a15<{4)zG=*bu#6M(d_QE8p;ei5<a9a
z$IgXc@QD?IAAc3B-bz@~S0WxQ#X-Gl=xl0m-qLsiQ#7pD5DsSlf5nt2BtFh3FG3%V
zZBlk*Xf53fiLWGath|j;D$>1Rd;AsXTJmBNbT3w<EpnwqVB=vv<kBF{kn@tq@S+B_
znxMrYd4Rc;PYXeJ<JZFZr@_RU+KOI~OI0gR9L}lLLiwj)g6$^t8t%F!MFwchp$3v}
zid?E$iy-??(7O^MKTN$_v{Y|f-cm;iqoB7qf}BB8T`(tLY=b1r<lm~aw-iZC%wcs{
z-?kZaQe?Er+%!%Nji0@1k^MB=!Sn27v2sGlN~Z^9dl-k%a8TAN`(mMMLB%{$Jwg-@
z(g8IX6w4k7e4(0K_Q2*$5S25O63K{n&9e0(cttv?kP1cnY7Gi7-((0T&QUR{>8;#X
z6H-)A&OtEYk8xhqeMumXab9GDE?dR;m89J9!if_ngQpH0KYZ|P@XXm$&+Q*O96WRM
zWbnZAM~)nRE;zpb<Y9^CUT%e!BY82VD$$C16O5gg>ZyF%H^5m+Jt2;RPHs~2$hIKs
zhCRso!8GMa3iDB%tiq{l)i^-*&_Pg5mG{r6(BC7Eso^m59PI)axy1H0agNR){w9%#
z-$33E3zcw<UD?K`GL27V8~0@z_u*WXZ>hR9TRo7e9>`W7$W$L#tUg5Ax#8sv{Cq>U
zZC|Es-yiPCw4GSoaB{h#CR?#1Q-OmVb*m05RCOMlIBnXt)ZCSAKAdSj{3otV^Rr8}
zjjttMO)S-SEZ29!lD-KVy_bEta_(8v854r#4{K`ia4*%?;o(_s>{zI{*Y==s3lx98
zb?G+&H$xf3E)>}4aF+;diX0Y938ay?dd60vNvfxlaitd44E9IpTt)#xu^<n0Y&bt5
z{Rh+r4v&_S^hf0VfV@9eVuvaGHF!A5OsDJJ<OgxOFcm6f{Qx1P9+_!fXGST(AJKGf
zM}e44U;Q27+m~LybkF)bp6_}d_;5PzFFgLGh7I%9@A%&IWg3R(jxV*e&mDUC)Kb-k
zxkC?qRq8Q@CpD@xoNP#`>`$ii(J-ENO35sJ4`nD@LO+L4fwt%85i!%db|(uZfeiJQ
zmMm#ot8RVi=9jX*-i)tzp>EMPl6H=)At2}^r59cLM4i!fu2Nzaq`ef};KB%yhOpUi
za-33@K*@Sa8d&Dm5LH~-_xv-j{WVyM0TPSdEW50PrLkSNqkNrg<x|eWnrzmtk(*hY
zLA(JJ7ix!DuRm5_Tx;l#FX`mc&;qP5!9r9{BPCj|45ya3QX3;0a0%9el=-6d&?TLi
z=}|f{CbD_?^8iXeMo1@NhIDF>?gS7_)K0CvrHJ<gVTzJ-v5Ru9JqPL-lqyr3o$HQS
zht>v~rw%Sf#D%$(&KgXZJ2|Q2x--uhT+)vcYN_c~31BU!Rx<T1Z2l~+47%?8qVtUU
zylT42U9)_ayJ`YCm#F8`8{`oh{cG}O`i_JmWZX>F18lDm#4wWI?qh~^U9ht2O7{5;
zD_=*2vYP}}MdL4hA0^5@IxYsaS1^=h+I!i8tvTr$eR9EW7^Ms1HMs^VDqMXM6hgS<
zgqQ@{6->f_lkS<oc^cf(L8tYYDJib+U_2&!k)B6M>}W`zOR-Q%P{bsa?@+6zEiY_A
zCSY3}j0lQQo}~m{t!-4BY!Z{SHi_&qrzmJh7d$h#HV!KxpubCqj6^slpnLtd_TJo^
z^>k)DFt~f*8N><4TgSh4{7&1=Q?DGSmuJ5A%$<>pxA~Q49(MMA=hU00vYmS}oqOK7
zy4X3E@wUy4-TwSi&&Kb3@y##ZyO8PG1H-+!@jFLBj<Z!gnW~-z$Gzrvt}Rv_{lQSW
z>N9EYXVw(;*~Y-vJh#7qyCPok<g7kd(~?%>woK=?cO3WYeo*oIjf<Tp)OvA-^7a-w
zo{2M*^P#sp7KGnS+)ZSM#xg@=i~UD4-A8}uJBl-OS$}`V-~Yfru+%-c5PI{{y`Fd4
zzT2N2J)9XmobEn6cj(sm&G9?iaM)(4sWsa)oM{?f^4HyIp1->Ag*RuiJx^zPp2ms2
z=JL4{P-j>3^K}aqZ#Jf@Hm1EBKV0@VzVS@j*ZY{Wxtd_vSXM=6_|grB?qB%97an+@
zU8-t)W&H1Q9(?@~yA<OO1`muJZsoq$>N`?l`QA|d5wGR@b`!$i_uAkWZ08WOz-S@K
zt)GN^Xwn0gT1l3p)HYu}54P$I7m%<wY6)}sBcTEiRQ}u-a_Gn!9JytjEnI~saVV?t
zS5W|4cLwf+F)PHPlvcQOtqt1-UCW0A(|b^evc2TH>B~AdWSkowI9r#n-Bf<FJnL-6
zrr85$%SUp0`uL+vHuh}%yYa%tpJIz#;a(F{#lYU^zaZ5b%9zfzJC)bNn1J$<BnK%B
z$IQ){dE4B~qOUvc>}Je{-cV|e4k-8WvL>Jq7A<n?8W5O1>fG>pxixx;qk_b@g1#T(
zehL&B9Bk<`$d=vQ%N14*S6i89c0R{YF0<QEPlk{ccszk~8*$terCDqg$n^?U7#fER
z!}z{;(O20@r%7<E4V%G)^1&YyCyaAm%Em7d4Z2K9$L&f4!_kF&vGm`NZ)SMyxhqK}
zY&4B0kQ38b-~4Ug>%MILNTz-yTfa3^zjd*G`&`*_;|6fg@z>+omXS=$$YRUp#l|i7
zu4ft#&H4Vcu6u3_DD1WJSIh5Q&G>sBS-5)TJf|e1ROwI2BYF`g5YQZHh8f)6Mxa0}
z!MzW-F+pbowKb1*tmen@ZXL#FEds=ibyM3?U}zLqitz-yXS<-YvS17C5LK+>tnHWz
zM(8Y<A?YZ}z>!3{Rg3irADa;+5u?Gb43OP)Of5*KlaqZ8g_;(Qfb1fQ$x_IUh`<6&
zWuK(sD4?5*h?wbHdnz^3tFi@Nn#8ln1DkdnGwfZe*|6kqSgNRBuIyc`?1w~I<DPS^
zdbz4@_Nis5VuSvv%01_xPd(Ynkxb>ty&dmdNRJ*_tQ?zjEa{v0=<a`_p0<<M2T$20
z?yFgQmsq5v41F?GL)^BqY5emPx<THT$s-;?u^oSfLIlN%7J`&C5{-mJlGYQd-QS`}
z@_r5QkR&)`+s7`bc57>GPvtgo-5Vd{ZlvlvLXI8_(<}7Qx0OegZRJsATX|I95*}5z
zm3dne+g8R?-BzZMvaO7enx5id1xx$NcH2{GBtkhq;?#ZR9%Wy-N7+~I(QE2ivD<K7
zwA^p2TdHf!S?Jk6s62P<V$X-J4IkJLuZVA~%S>U@hVIH9@RyQ$pPJN3!$C7sVE#i3
zi7hk%0pQ&=PBv?}Flm}510j9+A(QH~g-Cd^q^xJYe29Y)5eVxMMp<#JqY*cPO(vvN
z(rA6f7~-U|*Y}Gk95%14NB;w1i4-|WsvWCAIonhhR5qK74YZ{HiBzow_gfGEuju5w
zby?3y#xrtn;DKlFlCS!qzd7q4&G<(b{abDvTk=$AJ^dL^|H88w&rsSrqztJJ)dl1V
z<toEAgTPwk>N+r0DJ6<vq9ab%Op=cTiIRh*rbv2O3Y{-OWva_7O-Rtd>bsAJTp0{a
zMzoQD@(Z^O%9Tv1sB8Gx6%h@EapE<)eIOJKM$cokS&x<C^!bTQh84M^aPTX%!Pmb_
zt7u0*4f`_)+~AgK+p@JInc9&Xrye@%vd;dDvwtC!al+En<l3_2ZOVFwGTxzkZ5i)o
z9Fu9>jHTpm$ht-|uF;%>gH48;^R}d|8=hntbkL2WrUDwF3#%%)(rgvE^$0(kw-RG6
zm}%Y!glD$Ds2<OxUHU>Aex4mHR^+=R4q-+GI*h7WL>vJnzZk=O(Kso9O}bUN4okJz
z#E|Ybz@dFM9}MuR9~#^@YD2Hdka=yX^dZu1p*c`MA1L3u;m+si`W6EErmVj=<L}M-
z_hkHg7XABf9D7KhKalYZ+_PmoPo=F-DT8esHY<u`c;Z(PSQFq4q!#kBeis5wL!Qje
z=BLMF;Lmg-i_3gSQe>_mtw)bFrq#7H`Lv`>oY|t-iSr@;+<La~=LYD|hBiIppv(;0
z5cW{!=oW=&MA<eWBPe&(MZ!=LB`;hRO~n(*2)}9v`gcf<8*91bNd$nF+#GbpRU0!^
z8*iL=-_t(7>t53X&+a8()%%`iHfPJejSD9heLK?59q)U(<}W|+j4t~I7ov;4ooVOJ
zWr)3>Tl9>it%?S(0J-avHj26mS4h$1(9|-w_8^wnfYmKKiwDunurIUS0s!mi+o-;j
zwe#``DM)rN>W+YMsQw-;dX|QY7%6Zrzyuw}@#$IcE*ij9>44&EJl)Cw-V1Lwz+NYA
z3?r-wdvi6U*rNw*({|jc+EfTG&%v%Jg7fAFiQoRXho(k`81bD@?p{qwO{nfk;!CY$
zi|P_<C7rwZsX-=cta09^6g4SLZZ+lLtU0K2!!Hk8L2s})Of%b_XQ!i;qY_LF#A|I;
zOwSeR0_!4-3;b}m&QuDDrQ{IELyEe>xLr4{Scs=0;Cb}}$Q&w@9a>S;w>+UP(&cE0
zW;U-g-o*!!wM-!b3xet!+=`p4?|_U!nvczyrp@=pe&@t@Pu%ax9ypshaCWij`MI%I
zPT*K(eaAyzW7^rsaN9WU=_BNrzk)<L%g9b(SkZ~%a~J=M5|c;TR(89ddhQ};b$}17
zX-GGYWNJopHoOrDD^HhqWnA5>4!pA(S>`Yb&>b=L<W>Ukp4ho}v7LLXdTzo-r~K%~
zYW3baTya})MuJXIxC_omAV2og-I#5UT$f+F1<)KCLQmb8A$I?SLb9Gb{xDMV_=AQq
zl~eiu7oC1k@9$*Y=GjHOpZLJTcxf#AP0VA_u6v1#a@XZNeljN>N*dBJY3dv3f<*n$
zR0qZ_Qhp6E(l<!2(Asz!xj!u2Ag%tWQwn^M1)Z*CE^Yt69@AY)Hp%Y*G5dcr-Pg93
zP5)X4Ao6zniXoa}T`n<0v|lj{n9=;qa2ldu-4$asQjp)Eu^UH0>)V~R;Of1#HPEfy
z20OF7a9&z;A)$FKPOj7_zJ>JUbPM}+?92?8eHHfHp!EC&^f+%|mN(Su^OQu*AdISI
zIfK*-^vY<_bqbZ#0N4qUlXsa0_XVUYWkBvB^YE?(Yo-DR$MK>H^Av(G-}2ankSdZ>
zTw{TaIGKMpD+rz{DvjVLQ1cTA-Yi%c15$WjIU#x{4z<}CvUkC#%Eqo=GG3!ZN4~uU
z=2&iq>^(sCWpY!YR;Xb3XO=$(wtq1pT?WZlPdfgXkw3JPu!81Q{nV#8`G&0~%0>5;
zGZSg1E>I1kn55K>!Imo(nJfr97W4(T^M@}hTB!nrLKK+sU*|A&MVQ<6f6QLWQqo?^
z@{eLKWi{AKSw6MBlr?WJHEV{&l*)Z$M}<s=n8S{W6^fsKix+6Oe-{tw-;wuw<o$bi
zFkfPJOl+=jK^!se>=tF|K81dtJSIr2Wr`&I0VVm5<UvW#Nq<OQJ$dEieGeX(KGK~l
z5;asSiayC;7(_xpu|oxxK}EYA1q(_ieZNc?=4E6D>4TtRxHA67WF1uhF|C7^>ibtc
zb}|rBEr0Td#R_0wmpy)nMw8;N^bt1!V*C|OdLge<H{PKrFq4T=8Z1rzfJGk0S#bq9
znFO|OPFU5I(#V%Q32M0Hhe$gRp>=$wD}UHd$2iKZ4s^u@^d_`bvOB*G0l@U4rHXQy
zBphWIhDf|>RhA#ie6Hd<R*5DR@3IuaOpzc&)c@ZQ_z>5_sK39C9itmhcb~XFcK_*g
z=lG&?98pkF-f?6+t;@BIZ)~1-EVwfKXqMlW;kPZ;Zl4=lZfeCvH7_pwbf#-pwrhW;
zYyV=?fw>cOXYbxu_hzfQGgaO5SMPZjt9GZoyZ_M-;6d`IMJN3#d9(1IIDXf&4yhV4
za0-7wqf^O7hc?;u?a_CgtqSS=BEFSAXOACY0q&<Cf>DqOX^WH_oIef&;UOGB-Z!WP
z67n(z!h!2)Dr@NK#<rXdPjCzyx^fN*(KR!F<D$?I_=KDp9K)w!E_lXp5OcvRJ)}mI
zmO9pBhGBb4^o_ZXrH~^<9Z^Lkhfz_NSIHTaZ)~gcO_is>nRxBgyn1v?jN=+y{jNiW
zNUx=pD_A1ul%r6kj@_$rCmp3?^{$~e-MzaVSCh6Yb<&0^qaAsz9#iNs{_scWYoY$G
zO=&l_P87{g3Dr~;rsIzYCUzq?)+}z%USEsH6ndKWu6urV(YGb--15+)SZ7K^j0(`R
z73DJ4gci<PTsn|zetIoMDm|45lNHrlD4iVB!<L#}n)dtz<M&%M^bJI6o>_Z>74}Ng
z<o%>47>e|dm|$8p+Rh|X)-s|`prFaO>Ml~7$|$Zg<@hN#?$2q;_aQr`y!sPNIh+0N
z`JYK|IkM;(OIyd-qDIRYRJNf&i8Zeip}sTH8HzXo57&X84@)%1?3OLr7sj2SI6sbG
z_(%@XCz@pCo~@=BoxE2y&#>_tN>0ba7jZW!t^}88&ZP=;K(=F30beC2#n6;XZt^_j
zG2(X&A-O_H6{L+J{QMDWV`qA07a3I#k;ymXw&d;X9XDa5q{w+(ii%$@qtlVFJJ)ZU
z#BV|kVWM=Sb>%0u6rPOnX~ZHb*4jhrJ?9k^<7Y)r;rCCHLrgQJY!z40w<^Oo`pvAA
zB#P`tYUSqiT1r!INP|-oWC;$VUt9~$?muRXp=?+88XJ*8QPDP2Xajjn$RtZZiHD~)
zP}SkH32UclcYeU74vKIV?ze71oMJ@RO`)CSF~YMCA=wwiO|1}ULTp0u+d%v2JE0Wi
zKDEmfic?BkY6>?#N;fFt%jEqmdAG=Wo4ns5Pb9Ah#nE<y^!Ma34JN~Qv??URU=qP}
zk){(@Q9~b$UohGu_24W1bIIQZ*yk)JlL<RXCjXyu?)SKk_qf47<F>!Y9ekHN_?Mjb
z&$#Zt;_5#zTTSLi9K64AbEeMsxJ~bIFJ!nE-s5(BV0D_zA8_#SdqnW6Icvpx*3Exq
z-SlVHfxmE7-~P;^tL29M1AB!DzgPtCgWg&S!OLyoY;8;S{zn#*ZR10G(<7VNM(45}
zO^+NFw&m`qd*rgRy+TL%T=@3xbUB}~w>|RMaPN(UGu7OVtZ)ugTFKeV=FX-Y1|Qgl
zZkRu?KVvevA92iwUYEYjS3j_I-!T7on|JQ)owE;Y?KjM;_Twf~`<;$ESLdaL(fKQ{
ze`%GYm>ja$+-Y~qyffXmH^c8syZ2?R`|lshSdUVzt@ExG&TKMci)U!_lC}QMmW;J^
zzCPU#`~UrE>;6X;^N=~swaz!NWUKB0Q~Q#&E?vJhz5T^>{fimvXI3qUTm5O%kZCa8
zv3HfjbM?GwGv2!PuX1><MuECbb!mRrD(sF-b-8O6r)hYpvNcCfa31(=DAO>;%I;oq
zP^i{nYMIBy)Og%GM1#_jt9F{UE}Vb~glX$LXJG<i+M28NnMPp(lC$8+3c-^KX`ero
z!By4{dhJ9)wW6&^vx17YuGV@@O{@<C3#m-~=JZp?()GtO*5j)dd{}MiGBu}LcC2!E
zuAVlHnD})2?o|%Y+(lEh$<M09lU0c)RoOPbC1dMZanS2fjp?X~C87XJMFAvhXaoC2
OL8q2u)kW_N&;D=1Wko*#

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/evs.cpython-312.pyc b/multimodal/__pycache__/evs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dadc130094c538e69c95869f7b670edc7e7aae7c
GIT binary patch
literal 10336
zcmd5?U2GIrmahK)wY%HyZo6%R3v93(H#UTy1d}0wBohqA2|tr)2y9byRoiX%A63;D
zP<7HH&1j4m2{Stqo!y5aPty^R)|w}FUp6a^w2}6uDvjh;2??Z$G@E_u2%h$3_MBT)
z-DT4;BkewHL08>db?>?7o^$Rw-#yp=(beUp;L6(XWPZJeqW+8(<Lc21&lfBdb)RA>
z){><zYER2W3v1=9tPOs4&c-@8Yue2^e`&vHXI-3Skx(@VX;0P-@BJI!VU2TfKneQW
zVo<x~qA1qWqS}#C+RJ)jB)5n1P;B(a=n^VE;LT6?`!PygzjR#mu-%<`V*{MG^K6h;
zHuxjGLco6y{CeRRhMxoG*m>^Ov=u3(gKPw5<hyB!_k9m_YEBJ`g(WU8B#RuMO!G{R
zQ@#08PAdwk<(lf`IkCj&Q#Nd`Uk-R;{rM@l-KQi<vfP4qWt#{p)Go=!S|sZ&P!N83
zsJ}1UC93QYTeKvHWPfPYdYq@?Rz`q^UK*}<3b|rQ<Y;k$qk*BT98VY0H1NV?@*GQR
zT+`_SPc!s<<~o<BuV+}UFiAR};lzakOT)ZMJSPARMx>WHy*JHdvxKZcgD>PrJ)PkN
zktRYQRCsQl;n^%F2skt{QshhdOn#o`8Ihaxl19h*d10EAkn7FDoTe{q;9nmSgsqLE
zv5P(1Lf86;1(C^`W=_}=+U>7t%{p*&j_Aw8)J7IIiBO~XJ?bZJRc)EPsM>POjkuFX
zCGmE=p}JK+;V7xiK<(zP3rXbJsOK_yQ(bUE7n~MN|M&Eim@7^dGsV3k!_RZ#-W#RY
zkG!$;IyaTgT%9W31Xbmyu4l8ksaz>5W^x6V$xZ?J$>L3QTS_y7q`|d5UNTiE<wZUK
zqXgk69DrMeYSL7A^ueOiyRS0)B+_3Us)cH2zl<ocsd{8zWv&s~RhfI@>t6Y^`f1%a
zDcdKXLpPWiv796aM#c(iw^kD}x45LZu&nk7MMlgp*<_9b?vwaFg;FstbU|b-{0rFe
zeX6|zMBT0_SRICqUxJopd)ZNTO4K5Xb<-u;VMSPPK~Kr4KdD7<Rhuu?@=#w<4|QJ3
z)aIUKMY=?{(YKSc?BpmHQL39RiDJPC{|cP2=18Cp>$_cNEnhhvq7>jNyIHH`#+6_8
zh#u`7MJ=M9HeIaK^xX&prZ!|0D~w_zV{3O;+K#Twm_N=^^2}RV7jU3UyzG%YixCqc
zz1Wso*=rg(`f^Lj%UW1B>;B5qlCMw1VaX-AKu@->ysa7gB_C^(`~y_E%S3m;Xy1NH
zUXwnC+V73hSH9L9x>>i>Ep@#KpQP@Nw&Lkz84q<*hJ4E1(0glH1f&4?UO)38h>v(O
z-S?v7Bu<mdi<v^6&N0Fg@wk~hxMt1Y(qz@J;1t0(k<J?(qIqf2<5$E2pIVr_0FJr9
zUx{ljtTQ!2OY<N!x?f>|DRT6c@eA}G`Xu~5rl+RpmzO5}cl2usdLhHIT%N4e_>~r=
zjSIWQ&1@k*uXAJ`=s+A8Z1qJ>(2t5-u2|riER4Zr<`+bo$+Prwh7}jEFBzfjqhDrk
znm!Ny0|F6SN)ef20OJeG0==6~6|w@&W^y1LkoHDbKYk^hEifXA>_bxwqSH(YL`r|M
zFR?$aiT@?<zftCz$ibU#)+wr*uy4{ROlgAv{wC?iuV}i`1Iu6G;?W1qO@3)nZ7{#@
z{|Yr8m+FPMjqih}>SZ}0#pThARHq;^SF;>^+8BW17S+LuH;Y_6fDx+5qia!J5Z}=<
zR69Cm)j<qQwdV7xH(kmT88cZmlqv`S8^9oPnJmL+#G9%u#fYk>kmrPCHnRl%uV=Vr
z)ddj>OjC<2s`nPh7mV*$3x#Yv$cK=5^i_N>-biS)Tu?11Rm;bOW7TUKrHjo7rfScI
zYBHS#9vlUp<#;uuML1Io#fV#6N@hSTDGuUNOKC}5h^ig$0(w<rl^9RH8(ykWQ|Q!`
zP5SW%;p1-j37<g(sZcNWP=TJ`jjVoJ@8123_bbOM*H(5kom7}!?;TTm#~N-A{Fl3i
z75A{I5MFo36nCt;v+myZ+~Wv4E3-{M6&sMZO)33TYscjyr<H@JmA+Zo9{w&Az2ASY
ze?2s+ghtmxhn3LbhC94^_TIT_@9M{jds|hiy;D0^duOe;c2XHW^ysywjp}**Ic4o}
zR!#vgk!aO>Z?1CY1r!JF&)l17c>KR9-TmzLXVCLR?QHGDA1!~}zsA%~E5mQp14k6k
zkw-s~-80`@dttLioRu?8H#IP}9-B~N6SWid*pzIKKJka{p1FNS9!RY1{5t#%``CZJ
z^4^pFLycH`jd`>mI>wx`J%W;m$*~D}U_$OqRA#@646H|XDUn_B?l=DA_;>HWc^^kk
z1F{$ytIVywso3d8WMn-up+qKXXVw$Pl*F-m;_Z6mcxCRHFShR6uK2cB`MPgs<=uua
zP&v(``qYpKH40p+kZ0A1?yE?RVDouC!*0MGh_DFm_!gEDVsO@i0SXZ|OTa#0a`;kq
zU=+nKdfnMZD2uoVH(h|ob!5>g=CF3wYDB0`(T7F+;v|S)r@h!h0PTS!t7J3p3Ko6s
zZ$`<8V~btJoA%TAR(8E&E{-kd0%!(iqobBivytpDA7`t@R-CwB!HM$~oB%JaaXR2V
z#D%67TXEtsae|Iu(<M3QTiCIqhOL0~ULh6Kaf{oncrn{r2mA*($}M?-BhZ5hy?G@s
z;1MVDPhdhM{%pV_Ilcfu0ORIM;p!?Qz}66u3I;P=FfWBuof1oHREiK5FboTTZNwCW
za6U7i$-}<u+A?e?Uz<EcXL7|X2O(L6JwPF!AnaTP@YC+e@Em=$l*z)*5qQdRY=)t)
za=1%GF0?%*r_rD@d0ODEmAHJW^Y&3+_4?Lhnm$9QVPvDnVY8*}8HEHv3<&}l;)Emg
z{QpN_<0W4-P0zKq-`YnSx38L`YGa*_4$ItE>mZQMq_K_{Uji%|7BfS!7UoOP2LWCz
zFK{69ECZYM7F=qHf#-?<2|!_>Q(`G?O?|R&`anDZ-7{G&uRuto7MOgV%eDxB|HT}G
zKwoFFB@Wqut!WaiDY*>5t;oUNpVbl%kVj}y*Cat;4S_q~qyOU(c=Ncwh<o^9c&JW>
zXY%tLzl&738%4m60B1^B)t&_$s=5#p060^fa04WwIsgu(mf}7W<~W2z4<i9@i#5?y
zUNDsb(ufElxErc#!6+>21y7560X?vRAK<A$h&}^C5J@J%zF`v#_RYT!t&{K*ju8ye
zOi(@a1B(*cSvl1R4U-ZCNG0^f%k>v-s;lSj?Csg=K;1w3v@3M`!s^ad=FTTiyLxYb
zw0ffIeQ*&VM7?X@)2`s{^KxjXylYwsP1n1Q{>9UEJA5bl)DyhjcPG{iQ4ar$DCOzC
z>%Z+^y;yhCPqD!Yv)Z$I_RjXFp1|$ss<(RLfw%6NFgkg#Q+KCMq16-ZPN!<tAMLcb
zda3T-X^a(GJ$`4KG1jRXjCH^?RshBV_~X0htA6}ozP9|xD-XT%P3Up(bY-UD3j;dR
zAb^K#f|41?KZM&^kYr0gYCuy#`$aD%Uv&MjMivHO1MVG?U^Bd^y#$(ScP7U`>Vm9Z
zQr8x%QBRozP77B22@(tDbVetzAhr@Ai`Z||C0RQKe<OGsFrw^&R0x{irpstocEk4$
zK}Ko?ci8TCZqW+5WiNyoFXnv9KFJrL%6_qx<bdRi4tQA0(m1TFcO}<W{P254+yjsc
zTH-EX(`9hpY1?glW39KKmzE|m#?M3A#0Mz^2#Z~5>v>9SC5RR~r6_zxzjF7hT0(Nd
zHqc6$lwrd!b^rgGE2NO^$kAde$<h`oYX@-9(h&i<LCNwib@@L*pCKs-|7=U(ZpoJ(
zlV*F2Ui_O<59=h~d;bPm^_pZA23dud-i47OQiOM7jik1sQg690Kdg^_NgG{<;Qg$n
z9F_XvdtmGDl8bdpeOgLQvxss`>eFo_iWX8HkOrjCVuw_c2J%UpK`8|3D%Sud#fVk8
zw1gS-9Q+kz{z(cc#JX|*T8r|KNeUg(P?BF7WWiz<F=lPLS{7`9<d_cf%iE-F(h!af
zyhGv-=0%cq(xBvSabVkW9<aj8w%`1h9r|vyrp)VRtMygh4y$N8uA;b?xem_Bi_z_8
zMHZqrT?FrlfnCcyZGs6}ApgKXf}8v<jd0I!yFegS;CU`3W^X2Fp#ab`#o<8%X5~2z
z3zBhl+yq~Qg+eLI0***$p&LNNjDV;Rq2eY!2*kkmv$JP(sB{5a=d`m8p;UxK6rh~c
zLMgulhy-9yIs=G=DHizx17McGBr?1yqO{X>WF|#MK*%f>a1>;OPy>VslOfXCqJNIL
z36daSiN-_;cFF-@;%N?#V@So2G#t5XK?#Agaf$=X=Zc~};rDPJChl9|k6vH|`XJ5S
z5P1f8CJ0U-BaHu)oZ=j4y#*dYMM4p_)sWBx9T}QEuvy{>4O5x{A;_DkhPjc+0sd|!
z`p8QH&J9EupM=a@0Rt;+E?Vap?FdeoV+(Y?AhxuhEkF_q;x*c$ws9~fh^jDl3iMv&
z;pPU*Bh)Z&rLjjiX<O31y^xMHlR|b4a=K{sBeLZJza-Eg%yc1}g*@amok9L|3)eAp
zdloc77Pz@d>!)UflPev-$Q5G1kbQ)6tYj9lv4wQfB$&1#ULiSDU@=c<2@9Dtm^C@1
z1O0-^@O%>H31@io1vt%P(jx3XUQJh@=nUj&vtZ6(BzTrbr(lzaYXkDxZ8f#Ip+Ssj
zwQ%A?*cs<0=O<xd>&qEG3&ku52~Nriw76VoEj$p-JSXUB*o|567P_0J$LA7p`Z%mp
z&H3oF0|P)EX~s{FW4;djjG?l4dz)qA*-$X(Y&HXXAvB`)j)&xsi3&Kfh|ok#WUygd
zt<&^-H-H4{)kK19jK>cq=()H?Xd_o`Y8|vcO&>QMUbY;jK3z~pn&I07I>J^+Rio-b
zP>=wHbpp&0>%)m^9kfN$CbJRdPSZ08do=^1Gb~XjMuCm!cbfhP502Z-NV}JJr6ouN
z;LzinB0@qFSxcBnmdlEauCn%iaP9&mu-%N16p;|w7=Dkbr?{0r3lFU!*(nBL?{~8Z
z(^c(YtD?4V^tMkaR7VQ7ijeCDv2$6~%3V`!u)at>oX68h)t-T43bl)zktXwnJbGu<
zWfUA*!rYlE<%Cj>M|2P$=1(FMGk80Nx6^o=#oHOY&Ef5*a8oUFs#lXU$wGTIVQOXK
z!?f(QM})Pj6&*w%YCv1Dx%QE<z=2n2*TWmEz({*Lp#fOB8Y8VcHtEBCd~(AlVrS|Y
z^vShHNM7Y2(s0R_nyXPbyoU9c%)z-)mLr}D*NfT%gSTBn5?N3K^Vz~xJPyuj+bp#&
zk5lb1ydCpVst>(<R&VRkDsa@HIt%Hvz=@FM$L=u2Bxpm8Y_cxRngqmQXu4Zm+Lk@m
z^4-Zzl=u?R_y_n27O*=={9m$ABk?~>d@=FF-L>xSSKR&8sr7*=Wnij4u>ZNuI^wL%
zK>pj)b2o51P<O{F$Df4;?hoA?s^;sVy|}aASR1S^Dxq<FKe+0v%s{r@?UQ}Obr=2M
z__wZIjUy-ib@-o$A0IjOJKO5d?_a)m`R|kKk+>3x*CAWZD3PhP{Yv=Y<KQ9r>^b?v
zb1RNUpuf6H4h+lg;qRh@>(RIpjo0?nqlYRVJi$EtxDpw!4af&i%7;$M@tJz$RAmlQ
z{qAUW_*>Wb|7yHvL%ZboF=go3`r!M@;QR8~pUH#o*9Sj>Bak0#)*(0==zs2}ddF6r
z%^<bwNW)LdBZn3LVfeVqE4z0<mct*A1LKc<@urs=d)xB0RoVTH>>qh@_~`oK8RhUy
zBRC)r9*~C)$iagk?AN<x{{dh=G%W8psRU2L5lGj_4{j>B`&k$=AhSw%7G8x$Kp`X3
z_X5yz;;lw_Tu!{Dgx`WuCwiXs^#0(mPDJG37&O{FCI@#mb{>JIF#gd-a8w>YssxWh
z)3NSn-2rGi76N{N(9RLrzrC^j(8>qUFBq%#RFiTnp#=7>S(L#36?-GPt7ZYw%W$3%
zJ+|U&gohvO{zKx6MD5xaQ%ZRMil;GoaP92cwc667ca_PvS3JMnvHHn_m>k(7_v}&J
z6F|17ziPiX^uP`$Kr7Dg`iAaH_oN3iwM=bM9zC)?dQ2HTRv&%)Yvys^$rb;z(S2)&
zmC+-Qjw_=-A=G|ey|((v>ZIbvqbbi&_4@Cn&!yV&&p%V#@N%#TM_IjN%@bB?``GU<
ze}4HNleKHgwtZkv+YYV|O)Epw^`SRqdkix!(Fxf%A=@WN-X(7R3oHn@ns4#f;Su-q
z=iotHu6DlYAm^^+4^333mYL))KodA=Bz_!E(?~iD@^=tH$s+rbBE+=?>3$Rbprw@M
zj`0#S#a*m01NWxQVzE4rQkL#NQ~sv2*D}?J#+o*Kj_uK&QwPcOnZy0u0q>iM!<Jy9
zr|*8^UZQD(^0RPkJv^$wU%ZrR=hsHogxY0g?5Gkx+H}BI5L9fa>B15$iLRyxOJ2(9
z`}L(?Tzc-q+6@auk2FSh|KNGU5@{IJnl`9C>mO`7;0aXvw>4c@a#KS)n%L4r1#8zW
zvsO!@5eTmbhLyl@(}vY&1KX=5RFX1~Xgcr>P=Yl~&d!=H@&XR!wlzJZ=%t2+n?6$X
nQ<45=7b$jQF+hqzV0`7!x^GbN4OY*~K3Z|?coD)+MAZKS#aNZ2

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/hasher.cpython-312.pyc b/multimodal/__pycache__/hasher.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..891e44e6bcee349b3390dc775bde24bd9366fcce
GIT binary patch
literal 5420
zcmb^#ZERE5^*+B3+p!ZniSq#_#mxu732{gW5D3tPBoHWM-5_g;TD%wgCD?hk)Ayc%
z1P8TSH3h9wlXYqmHEUX}QbBBLCRH21rhfdGrdFCCrnB`*C#EuK`<D`=RsFSd-}Ch|
z5W4-?lixk(oqNu?=bm%!z32MV($W$HkI4Kya=8qlukZ(Xm^`w65s(EGMqx@sBL<{K
zDEPLBmKZ%kQwEJ0VRasEgab&6)|hp~s`oLXEoL9F>o_Zx#2h0I3R#fg5S-U3W0a9n
z3p$Fz+$$(-y>7|V%BCp4?O*s~$WLjuV~Qa0qoM#fH!AWI!Y;trV=;allN^zFL<x$C
z@o_;4848Tnp8r@s56A)%5Vn29BG6$<V8RxG6*$2<ZAEAk^p7!N`W5DSUSz}uT#R7f
zkdq6uMVuwT$?5v+pu<|!<CwDf?V9^!QdA-*6JcH)<mGdMq|u4dsK!Zxl9b}1{FL=^
z!4yQpyY2yO0V#PGA(Wz&0-r*{gT^exVG^C9#;8*dN^tqPpaNG#ii#4akWPSMiUi{k
z9eR>rR>esKibiczT!b2R6U>CEg5GGQNhKI@^&?|?2uHMl5eh2IWsZ{CVKy~p55b7u
z8H-YokJgf26Gk_iIKiS@2xh{R<vfyJEQ-bdNiR-1<q0xQ)JHHA7UI^K`ag~tEo728
z5{?0Qv)-f-tSG{bgl0lB!ePs@Wd^b^y3On**vo?((>LNx(P8=k2tGz)JJD&vmpA?I
zyr7-YwWDaOsexc&HboPkKeU#15T0m&U?wCo(%-<64wFu>LPjzvCfZ4;CY)h`-erCh
zY=%p*iaGKgLO0<A_(S?BNbfUg1bblA9zr!CNF6l42u7sF%(c6LY>`!mh@=V0ZZgB9
zHuf{8;GIr?QY_(CdJ8m;(7?t%LNy_=F>GBfir3@D`feR0b`QlHjzr^$_7lv6L<T%h
zMUR+tf<*@jW<tpiyc>Da9O*ke89i=lB3Rr78oy&-ov}W~BQ}uRAPb{~^MZ_^ufh%T
zGGz_hi#@NLAQI8<6U>C+66FWv%iJ%B4=JRaBE8Ym1Tf%hoCW9VBpsf@LC`z;z1
zON0fD3G)iCStof>P!vIP<&mJoU(oy62rd&eP7&gALh{pESwf18N8-E~3@cNULeaN;
zj-M1H91zVK5A%}5PXRw`u(4+E^ueKoPZp#IFGi+$C6b8yVuErm5%!HGl5yNhz9u=~
zJHm@%BtGsN<wFxbCE=TlgeF8G;BVDRB61`yD||d8Xzb{eBFI`vOo%0<sq+!xf=0`V
zq;Wz#geOQx;)=$Oi3wiOEb&Q=)eY0EN<tTuSl!-nK@l!S#x&aiw5R!TSz`|KvY=V@
zD(P6i#w3%Gu*M7zAM2M&brD|HHA(mk*Q~@}6%i=5g3!c*N+M|3#wrOZbWY<=>ps-z
z&}34o1}O<2znX1SH?CukRuW3YmB@H9k%Zy(nXvI>Ob|6T36tp7SS2|r!i<49IVDwL
zVVD>;))@+#vPK9vqoUKS7kDWSZqyh(T%6%W2n#5Y{Wh>hlqFo%Xbkp%AzWgFJBTYS
zXC61=NWS!NYBq2|5ND8V0}a0X^X<WQB{tbU8JTQTcnMtFb}_kkU-!gbp<RrOwogt$
zu;cCLMKRVM!^IsW8ZWk=)2q9{<djxMl0(oPIlcAa5-{)}175{4UJ);$`y6ss&xMu;
z-rb+}25vdpbDo;HJ+mioJF0-X>y~3H5EhQlA78wX@ieC^{b{G)=<9p8YVp7=$M)Nv
z>V?7i!NpUrpUisvs>h%4w5BWD($2QKx{lo|Jxe{GJDPKq)eAlIJ+B{}?Z55vymtA@
z<*ch-b=7BGEvl>KYFKr3elVSLdww~*aCZJ|wraatwLM$4Q-z<q<Abh0?EBrm`?RII
zY|Vx?)h!RNoLxGbt=p;A?abD7tMIGcm#uwDt$iw8)0=kp=C*8I8C)9t&FK5lYtb8(
z*Ar^xq1pbNtKzjwS1zSp+j8|y@3p?unyufh*6*HU=FZH!@&;xrx2cue(v_XLK*#$N
z*Cw)oUNz7=*Pq_hqIz0^DO>4REB#lSSGzKm-DzjH;f~!a2bQoqa?LI8U3llhucu~@
z=e$i>Z>#EUojp;6g8l9-%gL3?OP6oD+H!Tx*}6`(t}|2DHCF;(E5W7U)o3<wNDUmy
z1iqJUJDjQO%hnC5b%UQ({l)udZ>DZ|uH;V5=4?%yTGN*EY`NRgc2&%@^xSS~Uv*|$
z4(5C<S>I08w=?7G{MyP?Rj;$w+KM$~Ew5N}BTr4<{_U&Bvt9jaSAVAKNT%{=+IiHN
zNaxD_rTw=Y+txU=qy7DT*Y;&wdvCV(&e03DdE0WuO6^i@#$BIvH{WzOe<=Uy(nps*
znOUPzX%z?%<vI7JJ9WO5GfQVyURZh|XP~()jbKiB1(@S019M8t?z@rQ^;+4LvYhkj
z&rYX*IQ;1u2(i87z73VvEI8+#i>ET~C)2Kmw5?$sau#XygfJDtR~GW%L!<%T^<Ti{
z<!MAcc#X0Amut+fqQbyJihzFf0+gQ5!}6G+^^#(PD@=-d6Rt5S`c3pJI>nH~WdQD{
zm%zF=EDM&Ou`F2g>NW;V6<?DqO5ut_q@?bYC5pGmhaOUP6xqW<iH0`1QswPob$d9X
z`EmBZfn2yqnS+K49(aRVpeO_*m7Bc;OBJ{t)joyxqE}P!?t$0-Tlxa!r-w8uAmPiL
z-!9=>k;aG-IBs@f)GpxdTH@gZXwkdEkr13c_%M(qd^M7AHRiWUxQ3PnaHDU$R0Q^3
zQHW{Oghrj0adDU5Nu|S>2`ig!cw`fN^rXRsg8WBl{)xVUy|B#K3;W+~T0D5m;lJ%|
zeEZZ}hvuzw)Ld82`$X2;p?W)3PpuBzD8JEhqhWQ&hfKyhkaZ8J?t!mqw58>4Y0V<N
zeEL>teXiEKVqdbq<(Owcx?^K$D&swzbstvUhe3K%BP<};BU|QM7N5;jG~IMI<?t%^
zt2O?s4Vjui))`QpfwfXpeuVl4c+2~AP}=^jyceeMlU_@omHLRG`Y7%rw$}<DA3Lc&
zn)|pkfbkxxk7YhSzybaVP2rZst;S8jfj2IP3YUM-h0k~gyz9S*rudHml9MwQ$f4qO
z2z>Y<{gAV553C`q@u4SGv~qwS4kfslSfYhe-DEe5c34qW40^SlLBP4ex+LR6=|&Ct
zS&0E9($l!n6O2nv!r?1u_H)9;aAaJN6+dSr*E7JQamJA<4PgOXTEgEyxL69xc$+a&
zOwTaQfjNVQ=cczjl4(V~qaZ2cJbMY<Ew6dKc9y&2*}QOK{=^$YSNdmrXJ5>1uFG!T
zsczo6TE5!**Ufw8xSYFsp>)1<aqM$<6C{RrFKn+>4fx!s&bqd$uB{o@lWE(NQa@-N
z@;fzKFc{}!LNKV61cOi;Bt?ungTWV*yqNECghXDJjj~bWpiB`$ii86w;r|6B{NIGW
z*d#B;u(PBeL30i1qZrEymn;%)D&Uo`K=TU9vF<fX58L>5^%??jb#Qg~#)!K6sJdhD
z9ww~Qh%47Q)}|>PEo0m7l)BegfRMyxo;54RY^bDSu4%DFt!Py3P510T%ZuV(pDt--
z>)+l32M1e!HFOUHo#Sf@V1||0Hor^S4?x-mjphm^L=k2RC9@phM?=Pp@fAbbiknv4
z;2hEDXO5jPN?Ql6vjRpjDB-wE&*BCzF@5sV^BBXvH&VfNz;O8?>Bm6Bt4Q7r%^FQn
z)Vd8(WnUo2m#Fb8RPhCJeu*}HiK_mA8vbtg%srQ}Kk*XxZ|*sYs=tSDtE>GF4x3lA

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/image.cpython-312.pyc b/multimodal/__pycache__/image.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc23c495ce90978f806265450db0a01b97b60bbe
GIT binary patch
literal 7508
zcmcgxT~HfWmcFg-*1wQI0vwEk9AmH?1NOui#>S3GLKqVVXJRKQlVla4Zh?$`nA?pp
ziaa4H*92-aWn9@AD>bQ#T$3t8B{QL>_Q84D&GYU9Af`<9dbV6O*{b!MGIA=j^D=wR
zZMA-|NNQj9Qabncz32Y)Ip?19o#x+ME<1q|6aF#UTu;cK@xdszVxu5&gxn+&k+>L%
zb7LHbZBxt?=f`-~=3~N`0DXK+9221yV&=GI%mQPgWR6+mwlNz=Y((-&7TI#C&e)(_
zOIFz~*<^=guRR{IN{(ydm=o4$+;I)3?2;Y$7vUd+rR6%=fpyA4$d2opB^Rvg-f_)3
z*%J{Y_cdXx-b99p<he$qdf8U{l(^exy#7{W4UE45_`Sd{Uh2^MD`^$KZ;lT%J;31r
zr&*qvQ)T7MIcN$mh1AJWXozRxp$Yi`=z?*)C`-}MnRA*L#cs`^L{oAw5(=wHs@YT;
zN+{DwMb^wzR%d7;Ts#)rUIdEIh5rO{lc=~PD`|4cWVFk5noGfq&x%}E`6_;)%xAQ=
z@e8mjs9<|Z^JyVsDy>S=CW)JRgAm#d{D$dOOi~@j!zHKDD%a`KN);=T^CVzO^}j4D
z;ZRKWtCO-{ipJ%H5=|x)e=_0^CHzc!{_#0~$RCDYHIz{Ox)i%9$|7LV_-I1a#M!8%
zPHN^!IXW?^qF7Pj6mJhjd1|%`hRg#ZwPH8E1Y^)_33)cCFJQ-}zKDYJ{8;`r(4)qu
zd#0n)U22F<$ZFS>nZ6(QPxZ+?vFLcu^qe}GO!Qoi#o|5jnV1@lC#6uVhaJ6pdQNMA
z!{8eRSx=B1tP$46i>AB<WS%^<l6v3L(9IWaypVlz-Pe`#bkCo;2VJk+eB;I&*%#Iu
zdvf)M=SQ}j_1DiXp3MZZV{4Bc&N+|F4{cdIOM~zIe9O~#(|yDJsd(Fc%e`vL`H$y3
zCl<slhiCq50rnu8XFL?1nxM&<gcJ-XV@VpWG^Uc#{Q-Dy5>PTu+E%~>4#1gBBji0!
zEt%}48b&6WU<LEG>F}85j2n2>ls45eq%`hbGN$qhpB0-D^B$iIpA}EffoXyviK*ky
zCKH!ss-oGvJp9aH(RS1%KKW;(>ZCssjm2ciUls%y6$qkR6L5mY1ATz6h4(rhQl<iC
zsFRYcn-CASp$VuyO`HxXDpbmJEUE^0-JqIbre*^(#Z$<Vf-8abP#^X?=)`y^s3wC@
z(|yp>0zYLG$UMp03F!6s;_*z=hNEpwXj^l%-2;8vZrC#WvyHb~Zndm+oy>Vo&7av4
zT<@QI_uSG@R=n-F<@l{@IkfISJb!LeII`vNtqDHbgu7W_BRqJOit#-7D_jGzlZw+!
z#T3+c{(FspdeWR^LUW*wvMHoXeu&LRquN%$0E(Upl*W%zbg~p>0aDz9ZIq2>DM~S5
z(nZ@2oeC=45NAV?p?Ig5k~(30KQf*MGEcTF&i7OArj}mYu(WQueGASlTix}R#g?VZ
z8@4^!&gEA&p7_x{cT1)>=ia+!-Fx5dyMA@?YUZ_^d;gksKa*n^7Ah6PNfrpa!22LT
znT&A~88b-@5-0PLN#Y~I0*P>vaLonrR)na+qIYQp){soK`yq~*A&!|b)_o6;6?m)=
zi+SLKJ$G2kEZKq2COIH(@5CcWPT+A!E~)NgPIA{?N%F8=_=s7mzh)kDE|4qSm<v?r
z)tqNAvKevCt~)oT2)w<cRi-CE5B3&XL3Y35AgD1}AX$U}^h+=l<9@?^=F%is@=a+l
z#UPq3E46)w1g2>C0|<b)lg`bnrC?-?gSooP<AyPAn^nR<rCELz@RwfFyfI7S*#&4&
zy~Y^mo}~HbN^fIuDh?H0J}Z)F^uEVIm?go|dFM#LJgPM^S5bCSy0>28AN(Dr)9w=4
z4XtqTGO>m6x;+KI!dpOI05io){w5%st6T*r;M9_AjkmkPQ4b=;G#55qF-^gBgdP!k
zIBX|OVG~Dw&E4cU^1%Ut%$a`2&vI~IaUFJ^(SS*_N0lfG&|#UnU;w&I-G?<UTy<}4
z0~2yWzA{Zur4CfuPj@gFO+?jTuzMhugkY(h>Mn5(!D<RP8uH)duk&QhJMvZMouB^G
zNakms?#uZ)HhlfdM^?GtpIklv`N^EG|EtdbQPAApJJijkUal!he|$z!{o}Gf<c~$6
zm85=kW*Q&}V2-E!04L-LnJUm=m;`XcgzSI)@FD+?dVAmO4miQ>&rHiyvl?fn2Vp<W
zJT(j8K+$*r2=p-a2)Mc?vb8lnCMPsL6pLy0S3|KGd5F>^rH6noAVO4;V-dCtJ%%$a
z`ne}GTQC@og%l+iEWwd^7Eov}@TD4S%CHB9lwSY=aow}J7A@=6U7OaH`z`GY!UyiW
zlQi#vh9hq!-p6hpym4@C&(YOnuHpFw%h!&^rHPN#O-K8^rrnw04-*T+08L!YOS7Mf
zo6e4V9`Dldht4dw;n@rAbyP*pJF@8+`MRMsZ{q3$1)lfT<q7YqgVj5_7KA@qpJ1+(
z`SC}50^aMwzXJhF<!T`gzyc*}1-4>gx6YL2Ajs65rQ;O3zxM26*lJSozOaHGrxsc<
z?#FqemLM<Vt#PI@Z-7r7Hn0fuihlHpIsyrU<t5{fB9MwWDC%(#ZHfg$W+N1X8$`pC
z*o*MB>Q;HdMKIJ+5e`%SYTI~}<3(KNWgzq9zQe=thwqcNkJ>gI2e!Ps7S3+D8m^Bm
zj%AK*xb|kH+sRwWJB=G1r|x+l&&*_{yB(+3J5J}kgKN&guf6-T^74f*f-AwC_vD)M
zq>e%aDWry~bdC~dI-iF|WolDP%a!^uJf=}I^k_t6Sj#9CQKV*?Qcgt9lND|hasfP&
zCM2ij1jUoVrA>w;ItWeha7^6KKwFnNGL#UV9T|h;m<gtut7Kgscoiln=&|7<0-&?s
zuz%c_J^CBKasj~RR@Zg=qWuHsmfL&R-MQ}WTo!Zg?lo(-E<Sr4bI71NH!WA?hX|{g
z5D`5x99J0xpbtwKlhuOfn9Y4&3YmsbK_vX>1pvR+%b{2llqaw7bQl)XtkZMjAw@oR
zRI`mAI|{fG3>wCmczyy56lJsx@aj@vvr@Zi$cK%*4)Y3+0|C6|_FjKy@tu#a+-*Cu
z-gacQ{a<~XZO`Z2!)w-IT_9G#@A5R{+f_D&qF~}kK;wsOstiAw1(iGiOf8lw3#wsZ
zl@>&wgGm8_*$^FqHhmsRrSahXs$o1fCLMgARMVrf!Tx`Mi3&P_lIdjnbDs7eHXC8&
zrJ-R^qBDy4EEq}BcnG2pGbV}#S&|-_P05)40uShgD?cC@vgjpO0i|6+DQ_!fEOeDm
z^OtJKGcAC`ivAL?olxszgR#$5{5l1HW&X0?t%arEDIuv#2sySDsUp?bM~)DMn*|(m
z5pWUUn64}QMKa5+m_}3Lj2h|c4_Mg!XUc<k9J(xPR*2+q6J}(Ju9BI)oIump%=#4w
znDs008VobhGEHmd@tH_OruwBo0fWzgq9=kbeTkrcpHeMV+OHZ5!%Rg60vV!{)Hf}N
zU%PxCT+DQA`F7p)9a{GtT7D(xdum|_zY2^jjx1fyq&J<1wjiiKedFnzw|(Kc?<}OQ
z`JtV7cHMRFU3c%zw&&cPcir9V?(XH;oV#z$+V`CUSQak+O>w|ZzdSnF#edZ$4j!`v
zI6W<^L!6Tc#pPg7vj;J&oPkdnLCqNq{%j@`D~|ArN*N^4?*iTcO=P~2IS~31bWj1w
z1tdWncNMWsSdPVl!4-}^4ZR8)<!K$_1dtU8dQb(8<geGrH>OsxEBjQQKy~NBw^-!|
zEaIu<#xHiS?9LNt-f8@o-Cyo5U^Cyqi#?ecKqO+1&QZW--p+|X;j-a8!FtuJ*Ty{T
z%bS5M+pbUS{o=&R34LM%*|YC2Hka6s`QqD)Z|6m51J-G7$zw01@^;sE4ruA92TzZB
zEEO~dEQNmtQk6wISng=L<{aZCUKSvy6l;A-gFI1yyv+jnr4{(BJMx)XK52tI(Y_;(
zAYne~fPAv%UNFxJ`(Z9w&itI3jyi|p<FX`06BET0kfH%q<s;}X@K<;O$hNEx5Lb29
zH%D}DYNAJho7s|qcbHwE3-MQC-^ba_*?x*rB7qsEQU|001pm?6qN@eNRmlxPo1kg3
zqoM<^3?h{Q<Np#<OR>~B%RWge!DJ#f2ap1Hft&z7zfH1eQH3&?(?<@&U9j6zgmRC(
zY8hwD!W5+y2n37zT^Zkpdlt<1z(7-rsZ7VRy6HZ;W<9FEI)>~2FE~L*U^99a$vGfZ
z0D-xL)ZW@ktiTR$<LsXz!7p1B<7sWpVaiphxmu7CzFAe^p7VrG!6Y!VI4+H<H%tz<
zsf5_fZKc}2=d>8Je~z>8TL7q`DE$MgzD@VBHS00`_!uc_A3p*kKYaXJ5f&XI76ZoB
zim;WjkX{64KrI;5=o>&ZF)<ULo}+JKe=*0vgH{OuU3O|;Z2?q;t#@%|I}j8?b20Ah
zzy0K`Cx6?Ob05Cz?pt^F-Ld4{r`N2fnN(m;^c|ytI{FsWG=yXv2`0HzLV_C7%opIl
z1CTW%CZ%B{HR1}zkV#RTm9b<JJCP{(qd*{*d~4#w-FdS~?8OiP6@-Y^mDU0_^VS_g
zMC+Hppoa)f?86WN)pG9_11kgA-<LOY;vkppy*+Si0LKQo)n~tBwQd4<hyeHC?@%Dd
zcHvW_W{M_t&tO4(3;$KngC$cDdv*S$GiQsr3L*!J$W#*}a8XqDxrO5ACHi9|{Yds9
zVIu0p77L~L)=UN~#mnS_4$V5C$MjP)1&<hhl^l>f&vD$hR>C#^iR}6_asLN#{)sgH
z7kLbV-Ko>uH@uCjhyN~IKe2cs&)WMB>UH07R^J!x@4x=;>je?`@~!0f8SWd=$~Bgz
zK>I#?V|X^}&4x2Ct~VWAzOcG)<>GqNu{`qS&BW|r3s~@}$;@?R<WHtPn#vPsu0C79
x>S4n(9M`|pm+AfF#78IAy`2vUc03$0xw%0uGn^f|efHMb_0}Wb66|2||6jMI?FIk<

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/inputs.cpython-312.pyc b/multimodal/__pycache__/inputs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c4f114388ab60525d6f75fadb4c22458fcabbc2
GIT binary patch
literal 39325
zcmeIb3s78FnkIN}zQ`A3LV|dsMCbt$N(q5pSRjGW(-N{R$!#O6P>Q@r-~{BGi7YTw
zY09oGWV>5Xu4<tvcN<l?+Gy+!qnL^*xo2WZp5Ezp&+J5GI^_aqsk&9&-k#~0n2nTB
zg-aE?8~gp|+*d*(%N;$lF&ldW&OLeVc|ZR5Ip;rSXFCNvVappm10#a)cl1Mj?22dp
z53Pc5MK~^mgpe2(`os>g&(vWO>9;9t?z41Q`m7yR_S+n`^<{Nr_1Qb@?6)QC=yP^B
znco_A^|?FT%x?>4_vLitFn?Cq)93B*_T_fu_T_ct_4zt{efb^veFYr_eakwQ^%Zs$
z_7!y$vAFhdaYqTtb%aa%$~wyW$~(&YDmp6IH)nWxpTEQ3SJ_d?e!Ide`l>prnBN^<
z*|(}=l_*GFxfJQ`;nf|h*?SFpXNRl%YC39I+??>*zI7ez;P-^Q;o83S9qUD*-(wP_
zs!%T6!23$agmT|Eb8p9LgqMf%-WQeM8>D3+pH$L&N{MQCh4Q=2#rWM(C*@0<LIpeE
zcL>rlsXpYR@TF2o^_jo0H1(l;dUsn{&J8T*WqQui=11kM)MpDzRj8$^LrqOAzpd;`
zk@lq_lrL?Q8l>$~qm;|zC@yc=6D)qQ7Jmz3XY31UGf$`W$qtsXL`k^;ZQc;F4`&Gi
z)q~#rS4R_zSE|G-G70;HP}yrjs9Y)tReZ4geG8)FQAetyS;|6Po1|RIM`_hgmWN--
zgTB{Gje2QPBbBGb-NoWo^0*jlXK2L-RqAN7(pRGNRqvZvv3j{JY+P5f-dDzm`YyDF
z)x$z=M=Q&FHP1U#EwzSf@V{2t-E9l4d(G0(#`?KcsmUG|yH=^Sla;+5Wd|0Oy;tI2
zH{k2WMPK)2Y(*X7ZjwZGUTgigKV$5A#BPxGFN%F2W9-d{y(L5JgBfFQMeJ=EVn4}R
zyd7T~)i!k;Vqs4pY=>mQIPT+prPizCFiI#7HA#o1!+d<D!yh!ObEKo4rQV6uyI5+w
z)UMAGEsrD85$P}+N4)h}LUW|!DK;i8G$t&sR^+vt<)w_8mdn#@9@?cAy@ZZuSn4))
zZeb?xLHfN?ftKnh%XJ?@_e)2$&|^dPngjnp6RyUTG`F<wPUZwpN1}4DE7~VT&klqT
zY(E~6<hGu!Xwnsux`Tt^Xb3;>A?tAP+_|3qGfDeV>7_xbze}nSla5d@8te)OBN6<_
zIv13qJ;5-%&R|#9VBcUk7?o-q$?Rj#KeeZG_x?S*pFGgM4<+{xC9@9oL?t;GPTG&0
zi}nok!{<0QbWUms_XH!{8)DV49`DEJq@^nui6*VxJ&4&}V@|r-2cplQB0aJcN@h{Y
zXM=Lm8IsP)QWuJ)wz#_o!{N>|^1$G^(?dyTPoy*46Nz>XbW;rv1&4<Y4Fp4yd|ga>
zdLsk<oqfS`ona|>UZU1m5A+4kP#fK?!D!dny;3kbC`<o9@EU>M!|0iw!vmpUcz-Z*
zR*EF8(E+*ZY|_+uOfE;9-?`cEz%i*mG9V{i`@30w2cl9R{dl$~Bn_xPS_VTs{D(u2
z<j|uy^ayTNWKVRcjXIu&QhgM}BFyha$Q3~nI>eCBVFD5sJIt6`4A4uqkVydq7AcEO
zPFu*Vh1iu43xy0>Yi!A7dONAa*1;Y$yFW6#m3rJC?C&3l25I;r{_X+U-$(s{%K4-C
z8u4Q&Fo$~jrI7#hkpKLlLx%%NYY%m6(t4gcAZZO!)7vpe?46zc!9J<8GwJN?L_ULI
z^1C}bUm6UCl`mPHouPrQ&Q5tPswc03lk{|U8Y+QL)%2+b&UIlPuJF624bi@H8_xBd
zTOSR|XQb%*3xiv?Z+mg8v?1Jcdc(OP%=`Wg=fmN?4VbUd9@c~nJ^kkfqmjV5A-R_F
zBc~7lkqvOZBmCOZa@SQj>4>{lBrGfDEai{-C2vu4*h{l2iVh1W^U}MOO>{%p@#6>D
zDC`(g*t+F`VJtV~qCE<-66Rk(P^PgqjIvc7-;kxlCS`^AJg|mreAGi(lBL@evIA|{
zLk`J--_CAJ$cf*sAxn)b>3u33?2^t7gt1bd3HG0nf*{lcryq~ui$6SoRfmb-@9D=(
z=;MAiC#YA~vu^bhv<Ns^+C3M7edoebBmec3JkWP8+UP&kg2&&A$Nzh0gHeA^1o`=+
zSYMK#O`OQiQ#=J*C=q`P=3vO*>VLT>9QL2Z(p54%b?Ou=rlrwXOIH8tf$r{z6m8mA
z>kmu)XQF4D8fsYF)}`ZaUKm%+KWXE+C2c&fcDV{elC%TXNPVXPnryNJxY6IG(0ObK
zY4~Wl&VL`y6=6i^Wx?srMK{6~>cIHrs1OBp&7aIEdx2pVJ}O@Bbu9d%(>(7hbv!Cu
z7u##B@-9S`cfv`Ud-|hEb7ZhDX#v#kyDlaz5h>gqp#*+;D@Dn{((3FV?BmUj3@<lK
z4%Y2~^axa;2&KFz%(*<5n=UoQT>d#<;gu&Qo`|_CzVPIYH(Y6&Xqxq{jQdt5e5+@D
z>*Bt33E%pJClIp-*s@Am2QW9}E@L-oox20IyCOujjvo;-cc@AfM8qMAp{^}dO??n*
zQ~mn8+cY9(j4fu4{USh<QijSX>6r-^bC6qx@Q^Sl92GKuLmFY}G*OqDedbu1^Hh5S
zlfcxz7Z?C&697LN1j0``Iy)J%2b^t2=4^7XX_CzEmm)yAol%DFF!>2=*O=t}6zw3K
z2#t|nnJl(WMCj}sE?hK8_=g*m;9GDm3U@rkldGok->bM*aoe+T&Q~<&&A;NBa7`Y2
z=fu?$F;C63^kMjV_~xFUANuG}Z2f^xJqHl!u3<_QU1^?Zo;nuu)x_L2b1v`Y=1a{n
zS0&9g%&)1on6EnKuKvPPHP!as;cJIyHvg>oMsvc`8nd^uNmk>QH=-(X9XXrGsVAq6
zoCb1sk>erf031Ms)4dYtC(G%9fw24(g>NQ@;Q^ZQa+B)(0X&f-aK0nlvt(QCsR|+6
z`|6W(mM8AIJ@l@=TeJS+{;{*;-;C$1PFU8bOlHJ#TC5wU%<}?XDYwhITb$gR66ie@
zeZbzlEGj0M-OdJvlOYj|2*Ia7QVb@=({c;^X^V#-2ZKxv7_PL%BSf`DmTA(f(?;H8
zTyT$<=7K0M6NM<1%brZjX9P<?EdvnHu&5uejI??^W?LSsUH};x>m@|B#jJjp18MbM
z^d04up&ztm8xmg=qS<P%7<-^i;}><9{ph^Y%Fa-?MP-}P$~LqzQ`uBE0&ho!8uRdp
zJ+$_T3hX*7b-n06Ek$3Jq<)5CPn=4dj;BtZAj&JCQ(ggu@=A+#($AMvB#?$i2@TRx
zoNt8lq#!a>deSEdFJP*UilZiDmyDRyVfaJwiYN+i7FdKK;ZMyki}G$Hzb?wO4#8NM
z0vnU2U}w^Fx-&vk5_As7aE={kq<-nbIk|awO(tj;*g-T<IMN)@A|{Z2-Vf)$2*153
zqy*DC=jU5@U4M4^nVG!XZvRx?)HAd0>Kj83=Lze4ySP;R@76&1Ih0UimY>H<K0!_g
zoU|6oL`^<++h!?`ljM8@PED44nEaJ+k~W3uu`(=>v=G;oGzY`sq<OgK9AMBfih3N5
z5i76(V9tM_FMk8)qVT{b*z?9KzkmG73llHg&RRj}pz`hG@4RsJg@kAAr=DFO41V~^
z^;d4z-3%r+?26fU-EsKFTfRSdWn^OHwqxa2M*ku!7r7t1omIl49!q#u+!st<=ev=6
zG+cMKHd5X{9hx`e*Suh=c48PEPPJZNKV`}(xU<K_OIt1;<}{3t@t0DFciI8Qd32%i
z+N07Q^Zf`~Oznr5$W7Ade8~ns<KQ49B)^qY`Vb^&RKH{go$m-SAz8>SIVBr$exUmu
zuUS-55%j+k^nZcQswh10(R1LivjKwHl75Cb?ugVMjrfCpkP2tQl3!oXAm71Bfjp0%
z_4gpkIeDN<ibTK>5--4rcZeQ>2F3vL2gWXfu=77#=Ldxj2GSoL@ROY4MPt@1hv-?b
z_h-(k8KZp4l+~;&*mV}a1O67jjF|{L=<gcnj|O}CDHf|EI1powMBGMnUcx`nFR`35
zc7gw#B%@7IUx39)=IgPZd>O1}gt7M)s%6rya>gL1Lg=fW?j8w3fxf=Za|4kc;+vB8
zZZ2VnBrPvWLy<JJOf!IB(fk)|2Iz22M}AR)Anb{%^M#Er7i{TY-&auQsA)uK6HbDR
z8#RxZGf|PFmJ!QE@y)yu5%B=rN3A2)5zBeduy5K&Oe2hs?A4H!TDl;NSd?!Xg44gL
zr33!1wFqzSvKSGZN&R|MU@#dlg_;7!BPz?M;ggS&(?el42&1I_P}0JrQ#P5nbD7ph
z()J?j{G`||@1@`3ixJ8NU>pyJ<k@F}#5Q#Dn8Q{2z!_$EAT84Wi7X;7!nr7Xkz4lm
z(RWwAI~rfHIaa<op1b9z(M0Z!G27qe7LT>e`SP!9nb<PcHs|rhJ<EStTt411S6DRJ
z_PwFGqKe6vt~zFms^dk~)A`fE>xCbdT`&8rXv;mTP*Rb~67otO<OtsU@x5=1#O$RE
zJhU%CelmKKk)P*KD@IZ#-5}GWJzZRu$9fEXCq?D+6k`DmdWOQt`Fs3F2q6#+Y6ErY
z6<j_L%W>!0gk|lVW$oRZ+*c3JS(@*9eXkywvuwGWTbZy_lE<2xGC8efQ<m7O9dUnC
zO2Cg>M?dj>{M>!=&YJ~W-aU%J=}{^z4X~+GcK#WBSq#_!u5@8lM(`H0>L3jOEeoK`
z&Vg8mg8?s}VQ71#aA;3h>KmS5>opB-Va2^XAcy=|wu60Gp8ymxpxU{C{t&?mK%XFo
z6N(^%mOaY_(uotN^g{T;Uz)6081p2D9Wn_3l4jI`&u*ZEh@{8eOI0V?Cti%1T1>c8
zS276k$5`KKg!@05>%Hj7%-<46I%?{FBJ)?I%E&`2sr*r5G1!wiUglg?+Kr%ACRl|~
zr<$++W*mA3D1<UH#wHRLgm6F<Mof6G1u<?Qzk74^oK>F+u?+FVN5vyvUOt4>HFi!f
zwZqTGoKrtE59C+iBrPODl}9P6S?8i5;08M3+;uwbMttUQ$$~jU(>=ghYBWlSyoX2`
zSZd;yw_n;GbCt~%SG-elwPY$9D_(c$;9Pdz<&H}ovFzn@#pUl5UoD;r#fsNnI`~EL
z`svVzJ=c3~7W};Aqmo2%+t|UBO~}c+eDc!C$+ma)U)>*bubN)<Vc>e;=Bl69d{h&w
zX^XqtKv-pOne&$1H{<;U;M}n*9TOc1um9b)>4FbSua_oPZjO03r?M;#rvm((8F_C8
z@)+=A7~yF&OC}hSk=q`o59C0pEJUdD3DPk>TJYq(dRXD91!wlF`%@+hAfQ`t6(uZ%
zDN`1H<Oy!TJHHakV|5a<jTiCScyZ81*{6Xvb$-pii7z^6BUyaNBw0d`$OBMWAZ4|Z
zOrD1ToMnY<l3j8zY78`*ff@si2Jq(MQhP{h-H4e5g&!of8pW0!a)sP)i=k}9V|f_j
z<-BI=$Qkm~c;yjPY4|T0_-bR~`H27Qz{>>WAm)=~kaJN#m*a3E?X(mgASz6OgNtBg
zkILKWv+rxeL9RX^Q87p|R<%BZ+?dg2wTxOk-_s@e&r5Oyf@Fr#wI!pmP9&%xl+WNH
zO^feZj1W<$nII7aJo!LW6??B+LMEM33Yqno-Ig&+w}|m_6SV|3*9sjJgW7DhvUSRr
zaSO`RY63s21$a_nei@t}h*zNSy9AhwQZXIrL2jn@8j&X_EDZ*UXdF2ThcieQIo*=g
z4NcvEJTzRN0Y3yf8Gh(g;^^F{67V$5egbE|y(oO{%b#5N{T(s)ayEU@6q>JWkuVwy
z!r%QAp!Kc%8vSGyBCeY{ewQNmO)qwM#aCBtKh=a*FKTkf?YrY%K37ma=k?9yEqmaw
zW;@5klvi~4-(H^*@VZ^Q^EdPcfbkZN<?!{!`iFJ3N<$z!NC1>UCrFJUr!e+>TdWa-
zwEWqWq1x|;$|@=kc15)iBN}H2mw@NvU~(<;Ni8o`U>c!CC94b)=`n~;A=MY>e-vE^
zRp{7R(sdvK;`H>>1eg2+-CB+(PC=J8*d=um{9n3OnL6K)P$4&{Jjn2UP@x_mB@9tK
zQfQAX56Cr^g(FX09id*PRD8@`r=bQ6bxKGHL4T$)4H2HD(WdDIX1+r3tcckw*%&6R
zr%A7xbV8}z*(dd3UTZuL4df#RlW_;~cM<8jf*W6lUw#8l8d8M%(9rl{f2NumW1KNm
zHOElZy^s!3=1D7Sa#}StKtmh?bU9#_E}OedXCPNSSxC&4&a8pWBG9zpd7m1JXTtPm
zu|*iQAcdyiF%U}@HJ<toi7&RH(K%5EPY+8M(}?AVra#iysBep`HdduJSQNy<Wg>l0
zwijjF@LlNDNFFs`uynQ&(+6gi2s?_liTEEizpVPKFAFu6;fLCEJuE@h%H}d-(xJla
z(;04kb)-#j9eZdiYUzodAu=YnR{mG6Cc^|>x{yrs#gNdjn&jo^tl_HNOc(9%W33PM
zbazWKF%ujxGo5&od>Jvp*^+jHp^c;&nnU>lekPsI2E&6ATZbG2`~i>4VDUI5pjpV-
zT9+Zyq=n|COp72w<Tb5SJj!A<E`f}T)ezwvt$=SLi;Kd&5@B;=Vp-#jJ=1O9kAkW@
zc=h0Cg==Q^jJaaV8t=Gr-i(Ytk?<@}xcpOfpSo7w$t#O3-#zonOn<C=Pa<z`%)R&5
zYibkT_16X`qvQEkir*@p8XU96yz9Xk&wBiEkAJFQrZML6Cp^tDd-KElE}`&=hxhG5
zZXn`96~0r}(qQ@6?Q7X?X|M4tO$UAlab*HfTs%PZKF4I2$j9Ucj5egsl>d;N1*|a9
zLyRceMXmqW`1KkHL`Dd@t%cK7DFLsU-ShNHl?k@|lqtu$;%;6+%8EA;zPYI^^4SGX
zS;|2^r{K(s<*kZ4R^NBwH*vx|Rm#tNHl+9X#t+9mD^gbcK+=NZl!JUoT6o_DpOT2e
ziiEPt`;I*8P9%!uuZerAQ&#*^Qjw2RJ#fLt@gp@UjUH8j#5~QV%=BmoHX@)vK~*Z$
zr;XVJKu*YQM@UXc3^!;_NC_3`pus*w5o5B&J3PRa;sMwKG-``-5rzd4?(R7gV0b_Z
zExisGEcWzd9P1iL6+&2?L8eKeJ{p`RX*JWiD{xnhKyM-lL6|8}8Uipgpt%Y^fx||v
zCMMo`Ux(Rl3qeAw1``1Zp*X#6(klegj;3ghEfZ!<X7hEd5NT{}FO*lwG?9l_=)GX<
z>3{(sy-D+z)Qr$IxP{{K*`jsvqIEOR-KvijtxFW`8_WKDV?)BT`G#fMGLbzQ`pjE3
zV~Kk<$LyOQe(KrGu>7QFt%X4n25T~-IyX8fou-CzPU#W_Ej`fHc_X4uQ)g1`g$T6}
zt&T^Y)6rR!hz9mNIz7!+T{$=^8W65tD+}@V@`@2LBvSlLNG_zs?j_;cg6DnZH|gS)
zJiH5{;OFa>DAD@tVH|_?H9H|;HMQDHa!5z=z4>Yi{hg@|XMoO^F8N2|pW3wV#A+;f
zv~NWVKHw)Ny-nqTjO0geNrt%Mi1~vob%{`KfPb;K%d}=>0y!WotxWO9aN;6Xs2)+~
zcfk39XjIvaqH(<lUHDuw(ZDUCvP)VcXM^V?urJReo%{nhN#I2pHh%1bLJV^5iEFpE
zEU}7=WT4JEX^Olb)5<DE{=a3Kyjb4Oj|yh;VWHAE(KuE5nXmSv0<Ob*wYW^YZcbW5
zgzb~IkVO0{TT18`^T1%VCP)4rRhDKU)0WAn$Van=OKcs3{ShcDq+u!PBy~m4nZbd<
zi2NgpK>Z6M6sA%`@}E!u33Sj4Fa>;3<=Kb|;B>-u^8FZ2B%NoI2@@Kn-f8f}*b_gX
zX2%fww;<l#g4;7T_(tQT_<Hl(z0(Chwf@X~!+mSdXB7wU<QKi2|F-l__-Z&_yl(n<
zBENoY&mEZXY<^>S^6A&V1w>U;KKb;-h1tTIcwx<SWumZlws32_aBHG)d(69iu4MU?
zc(wYSz}3LmlSr4K{)Kbfv-8ff(km}cym+UeXtLm~j#z%()T(LmTJ?K@Yk_!vogv{|
zsedZ>>b7@wUfnsjyatS9VcxhIl`bm3^2)?3Q=6x|ZWnHfc{knl<d3--mRw4-&ZJ96
zsq-F9ODrHGCMg9u-=SV3G(%(rlQU&mw=i-6Z-rbSA14>cr;`iwF8ZBUXf4p`1N=}h
zJ^47MhmT`=Dv+jy_Gp-%WKue&UtkAnQ7uAg9+FA2Y8e_bcVs~VW#bw|;Clz;Ow1|}
z_}?PAD1J9A1wjG0Lry7Ma#BdhCFKx(0NTKfFP@?7nw+Fj_zp{8P8fX7$brWr47!o(
z>rw@jMrXvAA~`5lCvhd6k)B~G@{cLRkerv7v_-;L>=6bEljcxQpH2f9WJ5-xgfN^L
z|MS?_^4LU)0kdY5wCnmmBW8_M>X>!JtmD>RH_Bh|sL(x<bx;Ut(nYY78Ot+}NPv(E
ziDZsyI8?9Ch*iy*=8TF9!F-l4CZZr=lYfX<4Ccvy4Bv3A(W07UC8X6Q`|mX2p`VWe
z1ni74ppxVnH~^D0Ji3{J4tO(@X7byVN{nPC$Cm4eWUo58jkMUG5fC_!9G0ZT$lze*
zJL|5ldv|bV&u5;-JHGPC(7SuyJ9O>PZC@R%46<|Pyv?vX$j*u3w@qkn6@Px>&rT#f
z2R=G+QzQcJ-G&dW(=YwFIbN~pGjILP6LHUhnEe1~xdW`yA20W}n!b{n%fSr%uH(DT
z@4Adq(uEY=xG3*5%)GBb(;?*weeUTq@1KmS^J%nA2GNB|d4W<9GHGTqhk}X)L1U!C
zmZrSac{~g(OEC9!a7mADTeoS<32CzJHTUZdNP`_}{neaacNwTi$CwND*;z}_k%O09
z%-YF3YKa!0aQ3j=?U_@IS`CzE20HPKFk=3ZIAWa;M=WVHWhS~&rAIT-iKY)68ck_4
zlv$?MQhzhcT!^O@J|ngdoGNFq)c9efKp-+m<x<C55qxD`ws)DCAkGE2lr@qCI|e}C
zQTvE}!u+NU_6OO3JLXaQXqLjhF+W6EZUa5bU=O2ZlQymuNuy~AoD=cJwq1~T9}{X}
zJMcRMp?}E|-!7pWY2t*066_vh>Ht=rd<}t62K+0$<Qs6(lmR|Y<942wU}Z0L2D_oU
z8E(o1m5dafPTOWkK1(nQy-DQWTwyucP))T>9gTrv+w$R#>pO0mZw5cgy6K3mYmF7Q
z#=P7<c2RdQ5})MzKQL(|KCr>4h`A1%X?2!gG8;(y+%#)ECZT~S`gv+Ok@fOTau_X3
z9q#vEG!pgokKbyIqQ66JEk|A|Mc@8c)?1diZ}n6(;j5i-edc@OudELlOZ;j<QMz3o
zp={R39q>FZA47;JBOk+uS>a*!A{HNODg^ChLOjm9{9~H=*VIf}o=P)U?D=SLCOXyd
zUgNdK>8_vb{Alo@{4SOG6F8V_G|gmU9EMkdfblmq`8O`YwA}d7PgZ@9%RQ2tk!eZt
zOf?2Z-a}y@kfZZ3Hn2L_Kmucz{q#X&VqnukES@sUlP>;?O?LGYPsu9HSwK<Z(}lH#
z%^9L`AQ0uxu3fu$r!qFk|5bD6FR2IH;ruR*2YMro2l~a=;(^x23)g}Jig|1A<}JHY
zJyAUwdgtubv(vd(!yk0bthy=QsQy{tMj#PriI=y;^IFDsrz~RjZt;UXA0E1X2--0C
z@7aXXz_c{ea{X+gWb4?I*f4QB4|6z?*M8g6K3BUn?yVVjPri6(`HBP$I-JDvJ>zbL
zpPI|xIUbJX@0>aWXXc4`{?5l^r3fVKnT~#V;rfM}M{gIl#JnwFR4!k*bYZgY_0gEU
zEmqN%u(yqkeqK>^+q3DaG#+~Y*tGaPar)S}I4OPV*%Y&HdYJHRVg$;+U+>*3+S;L$
z-bkZfN6sd4XmxS!>tB+OfC-;PZRFD#Gy<DUJho8IyMQ<Qkm8Z^A&ut$0uR{$a9w|P
z!T9k@M<&lsU6`?6`&PVSYuvpxVc9z8@m}0L=6m%}%Hpyf6dC_U9)*EpUe3WWuaSjg
z0VS2zdYy;E4~2&#ALrrV<2)QytPB6zqw#RZ5R{3B<AzbNA^@L;{|t5m9Zv9L8Lb66
zvWHwXZlhi2(X&BN(VRcyW=)UBpJ6c~-PdKFcq)Zwax&pB<HEj@TO!C$P;s933J@&@
zbK$d4gv$iBW)<f^hL&+t713_6%=zcY4M6Zac**~c{EPJ9J@knf15Kvl=fLC=!iFn#
zU}ES~BU|u*<{wS=CE0?{y<h_p-l~{q<y7>&Z(&Ayw#4jP_)O8@VwzwUq$=+if^(#U
z<iskcB<Lg8c>F$mY5Gwv2r>wkjg>Z14gVL_nuu#wYj45$)0Zxcc@!Z^PR7N{7Ajk}
z`fB}J;*^i6-sJpODqMm`H`~e0fAvVpl4aehNL99KQkAWmRAuV|smj(=p3PdMuSon*
zRwViOiiD5%GnJcpMc%=e?;6&mWDbdJ2c^kihhvq@4k6^DFSJJ0owllvNC9><fd%G@
zSiP@VRm!!)f&6$nTPO=_o4(r(-<`ZX*!7U1qtW)q1sRN+mFNy-ciYAUa2PqSxjV8$
zZdN}J<T5!SFKU!4c@Sokyi^b5pNB8GW3YVd$itM$H$nym6S%&GEzd=?9$SyK$j8V#
z>U^TwE@tmSGZ7C>%iu!{s#C?tsufa@YfAku!#I~V7yC)ANeWcH2h`7C1(72Ir^$+&
z*@<hJ^z?_M3uL4OBPJM&!;FGSg8d+4uqTanrVezo;6X%`!$TC6l+y;SaSM#Lb#)ch
zPBq(Zgnb4q#ntW2N=|(XOq7s4_N)#@u=P0#a}KR)YC9KNP8o_$-wsO&PANNB$<H<g
zq}QwsRd4j4I6)g`b$J&>rso80q0JDy8_&s;x}N;VU=-&0={fIFI=v3rFV0>4x(Qzw
z7ovWx$5&RC)(6JsKs!c;jci5%-2MgmNsb9K3*w!O+e)+8m`kDIavii9CZ(!7%);Da
zWG-m5je>X8oxJKq-ddOyJ+PX+*s)<&3<{Yfh*1(<G;`I*1`nIbM0{kP$?13n^I6+Z
zg!ya^z6<1}we_E5K9jVH=4g<N@BU|*&wTcAm&@TA{d;jRfP}3Wiwvk?(8q;!{%S1J
zrj0dz#0>hQgS0EdU>c%k$}?n<n-Q5UHUI;xw-DJ`Nf+2j7Obn7)k&HSw>CIxZb;D+
z<u-(B5Ng2}x(+i8`BI*>ejI2(hhk8H8y|c9?&~=(^{1~gwRcW1Pc=59*VokY?x?P>
z^>5XFY_0WguQ4pyrC|XUE3HVZ@UOMN)4_zgf*)sn>nUk<YdvgS>W^x<mO$<QYTg&^
z*mk2epLI-4?PJAd{q~q~S+}BJ)w1c$#=lN)$kJVXqUB_*_TLJ>@qagde=R7h<<tV$
zY^;!RFw%->T_PgEU6jqsS93Cs2f*zNU>s+rK7mh#zr=&6CaqeGG-@$vA+5<G8*@$_
z1nApJg2H481t=U685mwQ{p?NO?YySNpg5ULs+Ud}xp$IzuUv(6X+YVD00xvBKr0Yc
zOSoa-1MwfWRLey=$pI_4jN9^mC>Sl{Lgq7~!MaWpO8rQL0$gRk40~~PvDN#i4LwkM
zSQN{;wGeJu^eq4(7<NN#LUqT}4Vw~TFZAyt<`H&|6TP|Qj|eeUHPX#wfl!Ln!XnR#
zd^N#nZ!XI)&B4xFE7bQ^wKUBR#R4&=E%=T9A1(DS0P<<G?vdDuXh@2!5{?WyrL9j|
zVP6jo5#D$_w8KjKC&V|##Rez=SlLkP-()})OGCT=SrE%oO;iCPz5hQ9<F%=oF1?{v
zKS~e&b>%k%>2);4Enl~$ttx-y?7(0cyLiFG`RmrVDZ5E({im@NxO)H$7-B%G+vsPy
za@zbrvRa%1Wx;;CKKU*D;07;H+(2<F)3HNb(9FbvjA8iSD20s+js6oQpe&M3wro0k
zLKh-Qv4`Qhh5Fm1hgx7z-w&_K%v&soc7m|mU!o8QL0%9Ack!&NJnkx=%Kg-}0>-Z?
zlbE}5Ze`u<%B}I0TVqw*Qf4u?ao%k9<$(Xl&Vh)buqam0@b=oNlZldg_{N+M?836r
zx9cZI6Q%2K7X;?BEO|}{c9(4!7av%K9N&1uWd39{k-akJUOnxLyKC=w^2a--#EFwr
z2d7_}sk=THU%5E}`B2Wbd9#?k{cb@3yGR|Llz@z2`{G?S>#2$3jFjq`y|>IbEG6M-
zgN*j!{cL>aDq{DB)&dI?c4;CdG*JM;;>b4u&r%$biV7ET_x~JSrOn2F5^g9Oe35NH
z0!W5H07`!xFY%T9JhKAtlY%&%j6rDv=!`Q^_E|)5;25(VVC;#MLD*oR@c+jP2Wa7{
zk1i(V912caI*sk;=z@hp2<%@!+XHTkiCNKZw3XUyXvw2x4H+nQW8n>tLmof(e1`$C
ze3g)a#a0_iZzI{e<VPZPm;BhU@S~9imW^~TN%}wo6K%;>f$>BNSoAOn_i$Ne0Kvab
z5?m-ldQiQMjObl6?M&p=FD7}p)T0Ga+tVmrq7)gW+YArskfV6>=aP9u_<bx!Rgi|Q
zsSsgzqDcPG2DVOx(!`N{%EoyMj9msnS<|U{IPD;c^O|&li?YK<3y|B9mAb=6(KpT^
zXt*MCtJN(3Ol|jXv5m`~eJLw$FS>0nxm!>&W_i;&SL7eF{C+kQr>02_HOR69Wn97O
zgqaoQKcwv}8D;hOV*Vo-T-R9Iml&ApZrUl`H0-L?M0QO{v4)MiypLK-G&~pFQy0+=
zEu2QRWPADdThv}Z5<)qiOB-N&ulG*BaI^H*vA;a|@yT09Vn>g~JjY}9<6MON3Su%n
zX4+6|t$zximogUU)dm!ilm~qQT7Ka}QYoGE=cgu^`B;-ef=k$xJyKeQ(zrTqTy9WY
zq)FHGeO`Y~t*=C$z<y4gQE++q((tTjRot^`D)e68wZ567H&-P*bOH-&K2SQ%(Hh@E
z<-p5SEv6Fq59DJi0fyAu=qDj{IYG{6<cyF*b5Z^!IY-ISRDQ{9<utM`38#E^LU_m~
zG7YVw;AM0IIX0?19b5R@*MvDbwV(vsc&qLUc+Jxx1uP)7jeK??zu;b0gVi~Q{T*h!
z?|NZ*I^mhBp58XI=lah0iYMaUCsI~?VM>Sl6j#ZF!onhQxo2v$?h&W3bA;YA{rvq&
z{eAXZiA|qU7btqlv>f&Er3AdDQ7ycbIPj%fMT@mERsoAJyl)<5uUp4{L%&jP(fX`7
zSv4=vJ7u$4Tg1EB-jtO*sGhexmBqYvZ9mGF4hrB?l)9!1|Jp;dlb(5!#u~L8{0vd-
zQ?|ku$!ySc*q~3qNum-vITYWlhHs7@(m~j8x{MXt3U*2jbQ;iGFx`aXwd@YkSY)w0
zjhc*XgykTOho?cVE@&vcOhb{2b?=tXqI$#siBT9WII1BW#(8U8!q37MQM-gt9-GXi
z$eg}S6Ce`j7F5Uw$Sa^`SX5RU@GKqrlF6PFXX8esfDTc$xW*$O(f}nb4FUx7ufZ{r
zU?TvUy1XM3SO{r*0CgFM9)|4}3Mj#52`Ys>y+ms-ct*rCnq-6k?r;U9JrHH~(DA>1
zb`&6^pQ1Qh2jm$}cMT2p^$jte0OmUksWPy`)TV@SK(Vt0Opt`zfP73o8qlPZ8RQZf
zM(5N~;$#+1$YB8lOq3mM@~`1HilO*sbL#j2D?UN1ov;fKvQ6-<X1j|E@8mAKQaVvO
z`Se>Ack<Rui_j0iNZjWf%OXN~<*X+V_XK9LriT)q?J@gyzCy;4OWL5oQkoA6*FhUB
z1W6zycA0vx9q6Qoteqf+qFOI_M#Q&FZ^GIMn}!Tst8AzgUse#fiS-EETaK=vS}@ZV
zBXJ`CEkcJ4W~hd4&^z+4sV~+bCeE$#RDEnstlayt^`>R&*n7`idu}><?HjkO@s)cM
zo_#U<zK5T#+{@^I*Yj7|b&KWp%#6WbBhv-6iiOiEx~vS;iqNY96~tE`m6}19nYv78
zsmpTEWu_5RrVT>h<GWMMIM7X#%#CO&eZ>IK2~%a$h?z<Glw!Uu>SyU0rEl*85zwQ)
zK|#^5vS$c&VS8Imke`{`Id@ySm+`FnhE7Eh*ds-nU}rpwlnhHHZRcqNXM|7u?;#ir
zEz}b1)KnR#XQ~QB)vkao3$kxZI`u3$8lzq#TG&XC8FXNV!B*+9zonrjaBiT-Ci8FG
zEADP=_?hd5>!;a?g6139)0XkjmA<$7X0peev4UpWrP27tx27sT^;E^|M`CMQZ#CYk
zjjcM8zz<K=o#OJhLsN~3ia?@x0|>gDhxe_*vYpKO;m5v~wU)HiK^@CLRtY>yQ8()8
zPNMt|h_#R&V|{1T_8D5LcHcixOUc&ZqCmz+-@NqAn7y1W*tFW%)Y=dzVYN{P9zV6m
zFcn2iMl)N#dHNZGL}6uG$5_Sr%z6~-ShF65Ut7UA>6%ahTSpMA??;LJtOy$K2=x+1
zmv7Ov)6uxZq%F~I_49wDc9XIl6ez~jdBgcr_iazp4fnO}Q}q~EGY(XFe&YFwoEi70
zo~D?+35HfpY(;;+aD%NTZy_yKPj%7>GJ>myEiZpdKWSm`xoyYE1z;(#^N4|UnLaRr
z?EfI&ugD>gz({L_{vxQ(0NH<}ivJOQf&RK@vf@;g97guot&NlB`vP7Hy#rq=pM4Uo
z`^CxXSk;zz$=3TIZ}y8y6!L<!X%*YVdxF)vaq{<Ip}MvywyG&!-khS4Pb|No7nP9%
zsf@LPNIkqL10ImFiPq-Hm6MUF!?ERc@sdqn;(Id(`3x1AIuF#~Kzl{mM~g~(R8TQb
zP&pHg6f%P%V*6+n`o)q)6=4?*?Wp1VW|(ESw!@;s1)DAGuEke3v(4a?l9O3+<T5HK
zCj{$`w_(`<8xBXv0~-)8&UMjgqdcSahQ4$n!-I@kX@UHckxD_C<R^<L7(K<~kV|^(
zlib(=r@X6clxtR#j<en1K<O}bxdQ!_%!ail_WX999_oZOL>gux*v^2*FW?&K9sL*<
z-K<{URKhxn5tr&xHsT3GTBkaMdYGP8-<F_a1swDuX4)pImI7n)lM0xyuyYfD^cOxO
z+Nlkrwh<c+(<{OG3z@VymJyq({~68FjsHio)Y<^cwb9~w^NEox@cis}N9d2NnKqA7
zt9lC;)&<)<wc6nLy-pmxM-kZ*C3wvq3Q}7LLwWO8^gv4K0mrCw#0hNfQV1YBu(@l*
zg_^PrV*r*;XtUf1b3Z!A%dX4W3J^v=v8@fR(d-e!hKP}DwNH?%54q-yB8J{)I?f--
z=`B~9Wq7HrQ*%+@Arm`KBR5J4O!kD#BaR=MLY9#noT{Pq9jJ;*HAb{b^?kjvMm^D0
zT1t;v1I(zs=r=F==n?fsFJ~)yM}Q*qP4);g<buY~f!@eMh`o1>n!Eni$GEpf4^@5o
zOjB!vIkF#HB<^FLtW{(6u2+5fd&I7$&~%S3<y;W+X!fY;H;rb4qQa&wpaOxDRU4N$
zE`y01ndUA1R*9zJf=XDEKz-22O~Lr)y{4K%nPH=Ilrv_YA|oL5&(775{~LTsGq5N(
z6(+)rvlr%ID8wy?8LIkw`tTMx|CyZsLQagFm&jrGa2`G!)yZ}aN-x#q$`9z%Zz$Bw
z7!?JwCA|P|5&EG5M1HIr*|`J$aRYb4Agpp6rS{X$LCPwZXGI6&C?;n~@qE&y%V8r-
zR*7o{Kw>au2LTn(6X_49E^=6HH8?!HQfESS03HdX$0A4^`4sdLc&HqqsO;_C?-t!&
z+Z3;Cj+HgX3wI_8TgKdXN>{%d`C#`?&DZx&jmAqi|FkPn+8DDJ&6QTqmImUbfnStv
zy!7PQ?(t=F`Q=v*PaK}AO60E|+cW3M$LSw94s*6>ZM<mhbp4DqQM6^;ddIhHeDJNt
zDe<l5x$5=fho*e-{8e-LE2o})uk%`GJb&|S{`PqO_M26o<u|9Yg|fN_ULm*Oc0o<t
zyEfsi9kb3=1ZFE5;uQ_QsMvC;eQf`D=<}wQgunHpV>iXA+^It|xz~=wE9-9_i@D2V
z{?@s=*4euK@w)xD>ki&7c`{yi@Ou7q?sUs!-P>JLl|Sshx;<8RaO}x=30c>Fzkd7`
zzI{1Sh-(OH6Q1=m;-{XvJInlY%l6$od-DX2t2!XAo2#gq{04MC1?!>vDa?cJCpYhb
z6X$z^j(%dcYID45bE0Z%qGDU3c>CDFJ7twqYkyI;e%wA6*f|^68xQQg9oU~JIuH-+
zpU$1ko!s`r(pX^sxHVREV9r}`#XaG^U0yd^z9U|~<L2>1`R>oWZ8$x&Jdi3BmT$!Y
zOQiByANQ=EmJ*(Zn7!fQ{c@plxA^dvB~L!QpDz?26eFN+g+DLP-dAe-^PS7~`R#w<
zb?;kkXA?1vezqVUL&y#A7!fiFAYL<Az(I^a@z|p?e`FWeo|Ykz-#+}$KL&ds{}m#F
z1`{u&32S$RgMFt%!RFzOkC?>~=_P%ilbT``&1ixS7loU_pZES*FC+ILrz8OdnCv3F
zWLn<vGk}rH=y&51PGi3xBC1hjyl5?<7FASc86txFE~}m{h&SxNU4|{1#dka_W2?3#
zJX>S-t(@#+M0E?IW~PZqXu@`vL0o=bl&f{Y0|e+Iu$0L#1drsoRcH-P*@)8!TCxXQ
zw1nRWI9V`|!;ZtM_3Q8oKd$}Zid-D7d_LF{4xXlilz9Yj#f|>!)};MOX^5X?bO9N&
z!+9C2oOE?|0v0pS)v0nutoclSOEXDhd+E$JqgB1JlMT64Q$HU<La@GbF5hHB+_n5p
zUddcu>E!;&9axvuHFs)ir;mO3{PpMGKar@}9;<F7_3RE^J&PskEx7bD4&<5ImhjZZ
z?6r#-N{vE&4Mlx5LwORcnsyXDHH$qE*wZ?|1AGs1OWnRXV)<v{n+|=WBpX*nra=l1
zHPyF8VC8@Xk`=B3Dd55hb|{1&;xaaCPyEhw@<dWRiSA`{*&#t;i0ihZQquj*AQY&5
z{Fo_K5W%{iV#=SA12Sac28X0u*=@}kRl}wM<CqxZ)X|_kg`6-Z%d6fQzB>HJBbSZ<
zC`)%rS56)OMd`YUtZ{L?0T*#h?6_01I#$zs^TN&EPfVZGeNy$w)3G&25+zT?@}B~D
zE2~YJ1%EA5JdC;6!0crQX|aPYjF)lo%4krBdfJ75>izj!_+<oRIv?<8zC!=1jsZJ{
zmS)3(N2M(>vd`%wYoJKA6^9smlo(dV8|3K{DvUhjSdeB}xvEPo728^EkGj9dFrTtO
zyPHPXK~9+tv(afbP<f@8Py6uS0ZNa^2=+ke@yPaF&bsVS==9Y}JF-R{;7uGMX4}?F
zNM^y)Td*JiKS!|n8P;n=6ygCzU(JLnj!}*C(S$1qBb&DN;nfP=$WA`u5_uwC{0o+V
zjEh4Bna-)_H0Na$P~&1pigN|jX#{X-G@JQ!27~M&hmm`^<Qt_Ze@F?PT!Qlk1^kYj
z3`<6r?=X=qJM~bf$oM`Xl9numHdHy!c3L_A6%nCWEnM+#{RfuY>vzSgTVho$@xs>s
zwINZsf6V<=YigX<)LhA~TSd2=pRD-g=}&fl@=~nmX`Clex(tU46fA?PYsKpKO0Jds
zN!i4K@!ga8bNPNoan0t}#`6I!Kg-{A&n&D6+ykk_7vO_@!Al2mR&AJF(GXwJaC^lT
z7}#g${CdTfiG#=j8Z#j`fBg7l-NbWOzA^EQ*@6x6f(<j)TWezl8xjSF<KDw_E4JLH
zB=cq~8RlCZ&WH0R{ASiD|8C8?-6c*S;1=qobs16oiA<p<A0^x(i47m|zaXDT1IyS1
zM)VUNms8{rvXQ;yJVQU1mTM7}z(|FMn75HXz%M4(;@b&Ho#(f1p7T|v%y{1|teA|%
zR&I|i-ySb)yl+L2BFKU-)yCC-ChN9Id#rMEyl4x~NVdY5hsnU;OWCum>!)_71iYsA
z&pbohKjEFnUZ#AU)E<CJF&AeMhf?&4Z9VWMy*Wj}Sd~R0WA(Ph10<a6Le;g0x`dwj
zW^}<~!4_`BwCXw}5_0jw;#AchL{T^}PKAK#8ylJ|ETy)dLpVGJ0xT!gf=o6*+m?{l
z{hCcpqrN+`B@4Du72`PL9JaYBN6Nu=C68e{lt+o-mAuMj7Nk<l!5y=<P_7|f9)xar
zQZ8=T_4QWsW*XhzwZ>oEujG=ix2a=Ur~pSUo0$4?8H93$p+cz$@u>bqP*D~$6=ezV
za*0gfWB9a_mVcVijTs_oN5b;+UKj2QLMT5!@5Cv7<Vk;j0Mr+*L=0fBKdv{RJ(r5!
zaQMST$ImZd<xbI#Dg9ndc8W5)E)V8;GR|E+kL?rKV0C_DpsqfE+wvrwJx`k|{EISX
zb7oQQbO9f(`^2ptZ0m*b<mf@V55#|pUHwM#?dqCS0nRa#Fp#m$Y2>a2p$t_Yga@da
zj|AMz77-v(6~yr<C6lUeFta7gmp`p-fEkT>PowM!KrB|QEok@i1f%`P1`P5t#&y-l
zJ@qpOZjL5Ahi5&{#y!s_JkQ1K&#}cg{F6nU$@62>+JBc30{d}_jrG?U8-=K1=<p4+
zEsc(%fnkF~g!Wetj!Ly;8XDkygYpx{U-MH@l@VePSs5X%D#j5~G{vm%hD#UX14GAl
z(;!vxK`LT{q_M`co~F2`>64O}rzzn%7PB8?<CM%vzuAeOBdJU><Rb`#Ojs|lV{@!V
zdUE73?-i55VWr(+Cg{@aUKI+n!nmVOa=Ad~@iLv_i<`(WbLm--yPJn%4?>RW>(;if
zrRC~Xzw2*ft|O%6hQ^j1sse@?l6H;G%ShePaUV+WK|Wam`6Ov^HQ6){qSE>{qaA~Y
zZFbb#cp}j5qFvya_@m1+ADss!fVNmE=XGmTldWFTc&ZRPibP&<2^S|({9a84tQ3Y<
zNTc0*EA>#-r{XNskmehE#;h=Z!2yt$tQih~G+lxTn_)axs;TsMrkb7+wK{_CUii>~
zJ=*sScuxD40pDTQxb1E8ABfm-qVzcW0UYeY=MpXfG9CbF(3jhXf6EXaA-$t?CLu!z
zJ^lT#RMocBDYm$DS1bF>jBuGbxN1^E$%B5wDI?6%mtQPtFk?M-b}&L)2(_Gn&6KOC
z*v?>lq9aOh8grTfFsqJMO)W8Qufm>VUBwSX%Xcl3D3<mhtNSpq!&ghBZy(f;DPyv2
z#&KxSle&;lTRr~gpM_&MGscfqwB*^BoTed8W8p))o|MyMR^aFykuI_WLZeyUZah#X
zDMpiaj*=tleRhgT!3&5xY_Le;taG3<Di3wC6D18YH1+1Y?_+92NOhqcCzI2B<GC4e
z?4`>uUwV16daCZ~y4jL-@sf3)dDh){PB}eiHDqi*K@xcy4rKL*$xlm2J_RRf>OYsv
z>JJ5FIfy&DnG_nb3f#QhMqjPn;elY3AAv+96>f*t>c`K}^ifWy$@v~R|AHJ^jks{G
ze~6nH{fNT;gq-)t`BONsLn=ac{GiNI$~cR)nJyE@DV<DViOU!Tee-~#)2>8d2AreU
zidIi#FJeI!1<Js^Y`p(n>Amo^@NHK;n1YzQ5=KcZ^z?hZ*LrWe>hAc8W_?w0U)5B5
z!dD-2*WYm!AW`IlJyVnjpReqg*fEup@NI~>H~f0v@kHLUAAj>!<!xWptS=Dv1+W!h
z?PtEGTi+bZisd~^=gO^lck_EYuI-o^{LIsI*H<#u{)MmbZ419Qk0kE<6268pI}Y(4
zyYNQSWXq?nax#1@n{1hQV%Aq3_f=2lCVcB=eOuzbEeYSYn0wn7uABsoHk{k8=DWVq
zu_IsP6<%34vF?uBGj4z5aLR1+Iq%{ymEfflv)L8#?23C<gn(Q0m4Y8!H=9=#&#Ril
z4_3&kxNp^5VI@wwW+qs;_Nw6WE0<oG+%{c!+fx^_*FC(yLGb;a$ag91DBo+cBwbvS
z%x-Z{qZ>8B+(GnvI!abiA~zF~VV`9LySivcN5Q&D9H9c`{xloB>{0Vm?oSI~`O^Jq
zF7><qR#AdMEJKQ7C~p~x$<|}4KAew;`qQI`Wi~?0XL@wrmo1lViXaApW+qIuK%n$h
z+Xit~u!<5Pbg5uM7u%>s6Slw)VT&pFZB$4DmaTMQ1K)5!TeSITfLDRs0w*@$H#d>g
zEDX|sH8C3zIxvCGUC^T7&Th^&Ff>3qGrtnRbJrp40e*Tzx=kjtxAJr84{b4LiHP69
zHgbkA7zK>l4FP_KwT7sBBe1`Zwtz6~Q_HXsU;BQZFUv={(va!iXrnpH_6aR3b^-Ov
zJrQZC^b7|<>!;p3NSjaw<R09o6Abfmw7eFyLvK5S>opDz;b<xv1XxGuCnJ+}u@wO+
z+%d2UFD@Z<60OYEO(bdKJ<BwW^8bz0Nr(QG$XlRadbqsmbp#9>PI*_b1nZ7#1nLN?
z1Jaey>A<ffT&0sQeM%R37mOWvfZa`%@A}>ieb5wNy**aBJzmiGZyFK>yT+V<x2$q(
zFBE|9xUahZIA_8FIdB~=h60?(p7pMbdsj|9{h4<Sq))|bAW|w^f#b|8*UkDj#{C;_
z`!}&e9e(ZKG~q_N?TC<_bKA3g*0VP5Sv$RbrZ?efiMw0o{F@+YQciz(I4{7<fk|U!
z>vCH%M;TGoJcUq$hOucG62?XYh4~e5zDv6@D3m>8A}Bi%2P|s4cER(T(v@A5oN&`T
z(OSyEfLaDD7v|96f9YpQv>yW^r`jal{R91-r*W$+?R|nS%oH8KCku@#edjEZg3YZ6
z9j;x(3k4&}Er$kVuBg!dJ&hib??6=J!7HJO(A4Ug=y>S%vK?H2RElpXZ*6*cr?^(x
zq2;{T6gQxK`?pjEY1RlC!pwI0FWo!l+$HncxbTul1(zA1|G%&I%7q#${cgbFvdsD~
zf?n9tNc#*_wH7meZb$1PG?UWRT82$UD(R)`#r}#q?n&NpbFQ56(50PBp;a}tdul5b
zTI;IrRN<(?_lB+w{rHtcRefwl11Yq&WK?L?Cp>Fn_BFh(4=(I$f+tkFc@no6XF2UO
z%4GVeA`X6;J<uBv583XHh|o;JdUi<EwOH7n&TO;DjFQlvnpPIy1bH<CUDl8ZYT~`e
z&|{1+q|Q>VV&)QesxO08N*5|{i4;r2g^T7pzwGW)>b(}k$Z*-+-{ltImQIg%(t7Ee
zpBI+h@vWJ*Oh0`+Yo=i4r5i<``5F<JatL|L0CT+gtj}u1y)~sv8&48D%MB&Zk?$|a
z5oys7FV79RpCMl%g)wklNj^riO7wwXETf2%R(45D($>b$jo(1=m{|I0ib8G9Y-vfP
zF%vl+rItT~UrZv+FS)bjeQx#O{yGO{ht+0Fxh>Y`MJAsn&q4t;h0SLp9v4FA&~J3b
z!c6k$N)l`?IWEq53S&jJFgZw>=_d%jf@1!~m<{_xR-bnpciuCvwQia#T9sn&`mOAJ
z*Rkxr72&*C6MU)XNIHJEb>BTRHtNh36vs+x;{_;&em$|1z3)28?prf#<1yJ0r)XWu
zj5lfo+ke-DYu39W?p=|}qA=`;DZlT4PbrVW^0TbflMxcISEurv)_l6@53i}{m-OPx
zhcO|=`n-E89PE<L4uo;0R2!(8E)0?O(5j+mz8B8oWBf8)+{`p~kh81TH{0n-mK{h9
zIk*k}EX7aZ4(?Y?NfF|t5O%nqSFhj!W_>yQBSvLBqjJcc=u$Wx-4ZnY#-peBWz7R}
z24hg=B4^t5u|%Si{LmIz3WkP2B+_p1b3u0XGk%;ubm%Y<jFJp8D54mPI{Sz|WM%~H
zex#%qrQouI&gj64Qa|jRB1s1{+%K{Veq}!z%YK7|JPV_HIwmCPp(~a3A&KA)1<-|3
zXCxSownO{35s4O_GnqqSWaGk@WE=T>w4g{|$tkVP<l90H_-^><D>?r=EjL=yIGawr
zIx=s(Htt-Wuq>aml;2%eGFd;-!+x~g_0%RTwR4vCyB>an?)tk08xxj|>IIa!Ws|$(
zUO&5R(qy&s@~D)|lZwca#gmHP)dMSH6Ppa?8cWhZz3u7mYLmK@De;rXni4#TKA#?Q
zQY@K_Z>{<ov!V!_jRvs1Iu}lcc96K4#*+b7Hi~Re7mOWgw`6iGpwJ@A(#CFi)l~ge
zjMkbt%QoKq6tU(wWC^FcWLnPbqN$`y-*Xm`trSd1H0dz}2Pg$m(+mqFU8MeC8>TQ*
ziCs-Px(EAlo8v$@!Y*HAM7Yd<6Elg!riXAd-Wi#Mw=yw{GMlGlWh{Hi$t8#AH-33Y
zK72_l7oC)&*2!F+K_@n#@B{E7d_q%`Wx`p>((~bPUtloWgB7S(y^{rSdniKL$wEW4
zp1yMfa#V>zW?V_1;cIUMe2y$hav7CTNuOO@gT?Wh<EaCO0tfnnIL(2iu*p?8v8z7<
zQ5$SiV1dXlK&J}hs(0GZr<B7i$DKOF;Y&a3OnBflfQL*AL9RfP<(1^qS278zWIuga
zO};g7fMMx)F@wP<iAm)ea@LYV5>I(MIgR8rk;8B{L*Ym0C&Sri$Vb#E-=sQ8z7NUy
zm>fm}oF!k1oOyB>NMVSYAQgupY%-=#(4>6_ARu&o%`)L}{0R~8=K{z(QT);_h$~}4
z)!zu~@%JmC@>fFnuLS>>CZ}iuk`hh7A!oiw5Pg3mG{=SJ|19kKl@R!qu;JHc?=LO*
zTlOo<@?Tk6|K3uIgC?>I$6vmd^<&5M)`YwM;+|hy-DAgIJ$cb|x42^R<!RH0&g;&Z
z_So{)c=7IwuCeD6!fwDS(E>Z15<oZmSm8fAJidwUz?uB!babZmX9sT_jBnU^EB{u1
zyybYza{QjzRAQo(^MXk<rEF^2$>`LctFKJAet7Wu!J9d;<$L4B`*;ES)B<o{%!%nh
ztbAL%aQj8a*!G059ry8~>^$7)GH3COS4<U5y)x5w(|5D$X3>pyY+Q<0?v7b@qs$@`
zrBKSWBTYVCKXYPw)r^TY&D`7*+t?Cc+j^@#R{l)9@F>szXv*Y5)Doez9Mx-`&cAlx
z>bK%0ftmbx$>xjhv7UsmIc2i38kn*kpvNmFpP!Z<pu=fri75+rp^FtrUs*kE#=h{X
z`1<Bpb#vUmGbZGXA4mv0Qzk1?=kN%}W~y#lZmf;3Z@OiUuiqW3-W~V1DKXnvOYh|i
zCfE4N+hXCDruE`(F(r^oMHQuZz$p<#7>&d7xTToh6>&?^oF#A0;)prR;}%>gZ?^jH
znXP4}i`ipC^MVzF;5MNW&O9-1@^DJPYr2oUZdvB(S86ScLZ-T=n_{cC#VfbR1m8G@
z9bHdD=SGFTH2KA{lmLfn;)1OMenQ+yUp9%b=zybqf$v@~ePNAwU}_P?owQe(-bypb
zdvCu<kF#1Vh?Q@g7w}f1z;_P|LCa;ESRX4{KQG{|#DMSKc|(jsu_#uyVP3#ni2>i2
z4XtLe1zU#L>%l==mDoJFZEAO{W=Cx0j(BO)0|6oT4uRy%Mpw>JM;5`55NO=($3{_`
z>7wa@_i0gdPVS#NiUU<PUB@oDE%CCg4+IKLfm5=U#7Y8j%Z52yX{>DHOanf~ZQJgd
zMJov@FkdhPX3_M(eZVB<k6)NFPo0eUH^mF<9|#nZdd?zLZ<vnE?2k1ajyJT&Hnhjr
o9El0VlbHQSQYH-C1813NA0K)k;Ps%{E^d#Num6pJH^Wx{4_S+ShX4Qo

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/parse.cpython-312.pyc b/multimodal/__pycache__/parse.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7d5996919aee1e7cef9554ccf51fa112dd1c554b
GIT binary patch
literal 25551
zcmeHv3vgT4ncls4KM4>Z_@)HD35g<Qi;}FTO}*s@V_TBrAa-DgxTHV>By$1UA_F=~
z;%%wM8&mP_3R*jBda{klwOiBOq)}#fHl8%oWSVpeg!GEOQBtPs>@=Bn3!8MEq_fk0
z|GBvL0w5?m8}H6^+B4+Ax##@n-1Ge3=l;Oyv~dVA!xy8!yp!Yph8~n)%_r7|^c;7U
zJI6)12p{9(e2|apf;yg_buoS15Hzr~K4y%Yf~L4RXpUQgmbf)&W%-7fEp89m<Bp&s
z?hHEP6~T(QE9i>5gYI}`urlrmdKjEB<_%V%O=HX#^x@YOtB%(MYgm~%RvWJi*0HoD
zRv&K&HXv<{*kX<GreG6G+hbeeTZ3EU{-8hJ9Bhua1Y6>*!Pa<Nur1ymY>#&YJK~+e
z&Uja_i|2Hl;E6b1;pH&~1MJzUK5rB3qM7w&d%QcigXczFfM|$RAnti3KQR&4E0`Gy
z!5up8Bo}c%%|$8&UT_KlVcU?d4kfP`7yuXSWe^@fc!gfUDg>xh2;`xZc6KtTDnR)F
z<r_IK*Dj2O+so%udsAk#S+-Wmdv>w+RO3B0c#lQsyH%|ZDlch!H*32VZPy7q1wWew
zWqf;BSv|@cgk9?F?Pa-*$ZZm|IlY7BZb9x=w9{PF&OTP=M_F@0JNsE~3vydgqot_E
z0an(Avi5=+2idxJU=AFDLmtPgov-NR`3@dpb-GX|AQ&)51yChpJ}j7oHo-w}9Oet*
zB1T#h89I2U;1=$RY&!@j*7A0=+^xQ?f6^G(@e6u&Kqu+@j~taM!sio7F+7-z3&{&(
zkpM4Q&Lsr#SadKMFi4i8;aDtuJ|;+((@8-LC&xs|d|!BcJUTioS<VQbo)AU{g@8qJ
zp8drA$3sU?9Y1={>4B4IdUR4UpA<#~F*+!j?~PLBm}DCW$A!q*iE%V&Jv%ur^v9y%
zgq%D%5f&qonQ|Wriv#G0Bb-1_lA%%I2|>iOEt&|$qKRZ^Y>1xj4NpzpI~I-z;xFik
zA*-T)A`%^YP)LO1c!L<QNmiDFuE!<&siC5W)A8`Ipp-lmjR<4x!K&pu?i-7QW6|W~
zv2ZdhdG4EtC8I2ho@s(4pO$wbD#Rj3$3};u!-d)RJQ)^;6Vx(>sl7!PIxFcyrzOk%
zr|)GioU$U-!;*uvJW4R-6Kgpn{y9*jzy<jT7t}@gpgy7#3=zFxj2I%uA=3;u#79g|
zJA$T&K`;*KBIc(JK{L`8q%BBWBUZtJXWNh=V#BjtaEMksI|UnUDnQwhTOqjebsSF{
z6f_icBUh{KEGVf2v`1~B0xfu13sr(q@X4DJExQV8RF^4t7nIk`a2NSt?HMjmDODD(
z0h`9DNt++xL1A1J62fRQ;g4WB{85@>|InD|5BuZ!b@N9@8SEz?)7FXBj<xgHqn~^t
z7K``9X<1o~p7F4l5PHhMKH9_Dkqq=I$)dC`nM5HuA&w3V=5Y^OEK1Y=+F?Y0$Y14>
zESsXs`V{y3MquoG4$r0d6c@_l0**`R@T9gi$t~~$IE2Q;#JC_zmQW}<8cl{mVh5^=
zorq9qNC>eZEl0A3LW40JoKPr1WC1gE={E;^lkxH1@#y%DBzB{a+;MSY@4h=8-z)US
zqUU?ZCvoscducLywaMs}Cu4k4>_#(F^&8fqN9oQUlqVVy{pu2T)8f2r&RS}hE%mFl
zjWdR4tShzt8N=^8*HF$4=1C!?IiM_gnj%PGlGL&kr;x}Ibz-Q39G(Y*km5%2Bu~ku
z-{*A^U6NX5L2Csy^j|SyHyH+|Y+cIQ9hx$A`(wiBA&C#rG$w&}Xo^RHp)kcXyOJK|
z3%s}k=>&DpFZNP4phWDxP^kQ@$Yq3p6FU)MQashO$>+A+@U&+=?U~Asxsk=HZ#KQ&
zl-b$;M)eQ%-#_*P>l>fRJa{JKI-9Ya6{%9uOwlZ`4b_6gRSu(9=L#A5plqo#oVX2H
zz=l?=bZBsFVl*kTB`O$!ITXUsFo3#p%gTztsc{JxqD$P0%lqt8m!Dd4ZOvG=vhGR7
z=x9W^I9Rwo>b7q~rOkSo;+3`4`l&}h7j$fv#RK$KYSo{gYkMe!VmjRDZBx14s>MgB
zt{aiu<BOLsrj1|xY{s%><BS4Go>2o5SGh@f&K9^06GdkZq-(RKmdj3}5q8)vaq~wv
zzKrIbEnfwDnT8EM&j<LarjtU_pS&RWM<?Rv1<^k?RDjQV7I?`!FqS+`^ehf!Cq#~m
z;+R<4PjMfbo@&@QJ(wJM3!DbP8u8(mxOEffYROod<(?KU;fLsHSnHkt{3Nh$0!S8H
zp+`K1#zjJTh3h9CLdKM@Y{v$u!U>8t?0BMjY|1VoQH&c#D8D2qdtcdG$GB(tLESJn
zsC(4Qanpn^fOJcPwimDHp79v~J<Xp%%(K*!I6_liS{!gd+Mp9X0lj1t!=u9jn{+n7
zfV_JpeKc~haP*Ry<{$OTowIz=8FVX;C*BV9%qL%aYT>D+-aD5AcP+X4vw^$jT4xPc
zEmtgQ?;kodfxEJ<{*0yn*FSRgvmN(B?OsC>uDJCQ253CA*%--8j`_zyDg5}Qyi+Iq
z<Koz$kVuS)`Q<Fd8y@Pk3KXJNrrOFbZVA-KG0IKW`qn+(Ube@Ps3;63W0OkP<6{va
zwn?9>Sf4S@<OOkTV)%mG>yAx&T>|$=QNIIqVjnUjTPTD#PQ*YcBu6Op>4|VmCL0nE
zYh-K?^r4yH^x&)+`4soE$0$(oermCWBEqmD9Z8XhmPqJJBz&apE6G6Yu6Pe+S`bO5
zvGXGsxOgAse2j9Od2&A}#A2Zkh*b}A8L_&H5i7BsKq;a_mUs`*ub$@K(dmtroXuct
zPCuCA@H4-Q{VevqM^8BiZ#>7RTh}=H&6#+kKkcOlKc%<Md2>i_o%c}I)^|*t#kXqd
zO<$N3uf>)uy{krVPNy@rq<6i`;b%?HnW|Vu&Z4B!XaPlYo(&K>;}Jexl|Fy1b`20m
zc&*Od$@!y;)${jc+wRy<OKEp*cz$qk&-~-rj{O?UI(3HO7&Z@sm;yD>d{bC^7|}-N
z8jPzR3@sRJFxoo71jgBjXEV|k$k#TNy)_}%z9E+waL1%2V3oZ0D<|tnI5~KMF`!d>
zj)W6}pK)u9ab<^+NF9#kg)k70DBz#rnh3D0KkTRN&?9!CuSJKRP$K=W5vx{$E(`HH
zN+~F4GEag*dv_yO<{?W?yi8b{%Jja6juqoB1XNy=>F!OJXSVO^zAO8__*BNyB+ogK
z^dd%qdc=C`M}jd5_$>`7o<tI*hrHam^3<hflipoG18bFtWPV`s@?_eV)p(eq8C3gp
z2jDmB6S1CO0f%0WEscV71at!upTKky^H_d5>EKRvY|`NpocTCl8DEY5duy&9x^if?
zcdjzyZk;>(@+V&UM8?&dvGi`Fohm*hB6^jJDw8PoQ?E+bmypO**QOmRL5HJ&UL$Np
zQ(8G=Wp5t{I2l?L@23|$K+%H~ou!Bv6NU^Kp=4N0B$6jSM3IWe<jxU_lCf5hQWTxX
ze}XuLr@6NbcjXMcaZ7p^;himcv_z=LKgUoJ!%jO3@C3o_Bsfn2VpvC}N8XzBf<gSN
zK}82CWPLC?7^zTes);;`umBkVK?wFD6yeyAODMt_u`u*vKwT@ID<*9LyHs%;{9q&k
zMT?9rW^9n<{2u~k2p35*P6!cyIN=Zb&lAGIgP=6$PYR<T@!hOFCNC3OA;z;5B;oHG
z8x{NzKACtOkfq>{8vlrl$d+zQ#?jUm&w++>rZC^)qZF|{^AX?}F+{DE$1t9a-Iylm
z$CM5f;ga9(05XiwyzvDk$lwyaiZJcQ1OJiXE^~-&fP_eAqCBQ(E!WW!B=H5*-hj7i
zGVZ{9-)s98_GMhVGnU<K7?OpkT?kxr5rHtG0X_cLXit=oGs-Us8Xvz2VIvtt5isLO
z7qRGWqGLls7<wEbl!#6VQ(Mc7u@K;&p^3F>M3C$my}RSe9qCg`-u5L|N5;~@Mm7*|
z-5MuKMyOH;FG!}d>@a=+cKkHnR*E8rDUU@+Bq#yC&cyh-O^~GT<;Is9RW{C3f+#(N
zDEAZ~N`l-&nVs{D;p<%V67KAjj~u;__K6xC`PAC~M53Ig68b<>S&Yey7_uG{Y?YA+
zf5Zsv2`%QWYCs825GoVK>X{<uAsf?#TA&HFM@*!0XIRx4u?Y@5e?Y6i!AuL9hjgj<
z8`{vIdqXZXp}|U~uk?TcsE|CQ7cSmFQ!oAlF?R$_MaM?N;v^ww8EYqcY^=3&2?!mr
z$!=Mi(*PeACKLWaXb6PF_}FMf5s=0vlH(JQ)zMCon8(^G&>p%(sPrLRMM6WQ&rV1c
z@^5Ge7J@NxlHvY=K{}yIFeAZE>%Rr!BXwtlhsh2mylErPB^8RwU3NhA>4b`tPw5nM
z1k|7U6hERE0hJc<t4Q=ykdLNKDU;Zpv@6B8uA$(7X>&xM(t~9)q|DEAUolKul6bou
zQWgd3^Sq8r88i$sZAFi)AJ`*X%2w2)Th>tCHEoX=(IZ{Nl(Ijs+q_39E0n-At1O^D
zT!@4}7Lw3s$YG>PNol_ri!oWFJZqy;dXTazGmkcv^9t=(z&s!l6@k*w!Q_(@GCrJY
zJFDml5*NlMViD}D(PS8+2<Z#tow46P)!ywtKLG|}6ax7W^o`hcR6G`ojXeqW#ZP+@
zVD6H=b!cjfKi}+m2s-}6#Q6l&6WF41%ZCC^sU4=N(FC;maY0P<C|Fpy$ShVk8=;A0
zG?ow<JFp!iVA8f^pf^JL7Lt<fp>S+MU`jK|ncvG81gtdTlLWsN5jMFv77tw*f_|M&
z3Do>#+%bn9XT}?_w>t>5gQ8A~SWQw*u@_7A@n|A}fkG>sKRhJKg;*!7T2dcR42z#d
zEvaTh1-WOEN&c0Ec-pSS@+skx%o;Owe8WaGqw3?IL%jsq_<nVXd#{SKp5))oYvmzW
zUtG3yt+w|qCcioP`sAN~Cfj}_V`+KI-hQ*TA${z{)7MTvf6r2F*Uafv&z{B4X7-!}
zdwq)Ev$E&T#ZTt+d?f^OJ?C_<TR3l1`pk2^8AtQaYCGnVOSRoI&Xtzi7Vo>!cOu(&
zVyW*`w&fJm#c$bLZu)A|O*iVcXX~~v)$LgF^~{`D@wLx}GF2U!j^o#du74uqIXQFm
zrl&FA;%d{j83QZ`D_eW$xAE<o?i)1+vNZ?Za@4+1m5w}LzvO6Jan!9D^|dw_7aSXT
zB0@V1DV;!~goU7;UJ}Y16o{ZGM@Lat>t$K_^C*({LRr4GvCQ(Q^76M(H&KsB;U5lO
zIXGu{+4+()>+M<6q&lVyFJg>TPVXVq-b_j@FQ3v_WSP30DpWzY+9=flN*3xk?cz<C
z<LdHb{Yx5UD;p)*4^o#?*kAWuyD#h7HorUTy6uK*f7Z2s$#pPeIk<8C{sBC6d-;Bp
z@X_B!k2c|>)pyd`Y&N_38Iq-i(zR#8bmwOMC}ESoLlZ<uSXEDCEVXPV0^YK`BM|{v
zc1}==><A(gLrBmUw@^g5p+N2?#<x_^{y624wyRJ{_ylEA^e?Dj2@xp?O$I0l9c@P2
zYK3ohFunW5gVzpbsynk4T{$Cib0*GPoikI)!qo#ET&vAl>B+{`HLp0UX3wPCU+lit
zo$+;Kot+s+*NVeCdo)wmld0;-I(mUloVUHB*Vox{cB<v!Y!&Z$DRnOov0aw(ne={$
z)P=n9&|J;DcV2icwh+q%_Gg<95QBP17VkCPAZ0REwyuDceIJ>1GT%z09K^pG6b@zW
z7_y4_RzWWq7+0wy2a5>o?L!8}TN=Py8o{HQz_pT6kko%>#syly1)3!<^E6PkDolW9
z^kYC4p6MVff!@zh6-lzhKc)Cf`Up47PxG|Ia<~k&6B&+Ee1unMI1kFb0F{$5OkNKV
za8v@gpf8|UOd(7!@cRoXNMo5UswCul0AHgW1roAicg-AJsj8jbGjmKa?}Cs#`KBc=
z3B&<cgr?|aY()E!U<ZkgR!PvflWAR&pjiNKn1@wRkxmwkNJAOO4~t$XUO|+QhvjF4
zQDTxDn+q~-4ks^6wUrwqp|e7$A5udyI$m*CF;h$JlDlQbNW$IjFHU7F^3DlZOHU>7
ztzs=j+PV89dMta!zC<My{d@c;b|JzU%Rv#}m40~c@odxWi)XV<`*IvIu1DUZpPWr+
ztS8wEKa1Y?=||qf)XE_K)u8TSQl*sc;SrU4RN*<uP5N^AwA<NUhvK_nufw+l9vNor
zZDW3K7mGMDZ`6g#14TPQ-P^=FmAFD|vZKXWfQnzHh%qwq5^vnO#T`(0?vGG$&4UO#
zx7==Bu#~Q%hD^`VOW9JEUBEOIQ<TO38nJ|I0eLLoxfdU~_Q?FPMc+3YUvJEIAI>%%
zCXChfMjv6Gu6HPsmyYTeEgg-I!deR=P33rwBjgj|4<eVPbd;LZ!&O1{P&xxug=Bm(
z8c9Nla6yO;Uq}uFjHQDk9jxREg~FqwW63Z{lW+_v)g=50fJBP^8vl$W{T@zz#TV{g
zak!qoNA5Qj7xi1+a>r0oy5&9u+BE0UriE=StBf|8|I<Ge+KiF|*sXV3nf|Cd?Iy-8
z{sBcy1-StWs#+{RFxqd61vR;Ogs6K-P$+=tNvg7QN;g8b#FFqOX#WebYto?rl+(l{
z-D)Wvp^`A9%I#t!-d0sojK@c?nWy#BhG}C#zl<q^(qHtYMyaJ?dZJ^@XJx^`a6S3?
zMMo3KFgy#zR=`U}whnBI!rzHDzHW3}GLJ^cIyNb)Cm5bm7sAk1Q|A{<G7V(J;%n3j
zACmYB68~g^W>glcWWrHFB!TS)SpnEmZrO`reugHP&JFajh-kcR_st3~JpAIPu6=6R
z-hI>Cm=<0fxi*sV1~QJoO;&iGGG1+et$U$6)3kTle#c66!_~*HJbwA)O#jTMXPc?g
z19SXycV-+dZ(FKn&%J4BV0$cJD?Q$f0ujzGpg`<2|2gHA#bRHj5{iC|{|`xqtj5N<
zM2^GH{N(%eBX4<XWf1>rP;tT|$STDN<;czNLWbBP6;pwak_`Pz4B<l{hvE*X$l>p(
z_8(Kkki+wodKgh5)BO#~r0Bm>;suHrFl7}@t8&KIW>8W%tyXeR*Qs18FLSA+H5JUV
z-jejG+Eau<s5D-N2a(D9jvAkK!bj93*kJA^A5pSRkp`8X9e5@mQYS;#6+qWE$;<p%
zi_!G}TLZXA3dt}N8i^?w)FV=Y$`c$$&Zhis-choc-(~KRD({@<exD%MU9g5K_bYx2
z4F?PbEHGurIu&|3j(!n4QDzkCI<5geK{}sbUE(0uINW7f;blu_-px^7!OdyG9yC>=
zjwqZPlv2=m;}ULI97Cx%j;P3n!4Mey$3jCQycZKwE#-zp2uy?ddum9ei1u6&)20%x
zjt@n+BFs`>%*6k{M!sPAX9`qto@VqlMCFMLTc13U*=&t87!LEFh@r7!A~Sbe*4;j1
z{Kup;vJ2@36BZ*kBr1uYqv#Apc8WC4nHWy-uP9=4=nYDhr9;=LgraxxpCGj;anly=
zG=Crej@e>tUahE}{Y<u^buN;v*p@RQhZGJqvx)T4*^5_t=KAIh^Jf-Y=O13ExL%d*
zI+Sfaob?=jqbln;o}>C`3kn4*rK(`HA_7LHtOO|tI&-E?Xd3mX2>Je#(loXwib={x
zNz?uUgS$0NE7JiL7do*WKZvH0QcI-BLBJYKqbyu_I0g%Y@jRIbisl%~6&BVAvuQGr
ze8nN6e}QNIS4LcPFhSh{6W`M&_+Xhp+zfbT=0h0y<SP#3sl^;Gh|J-}4O}oN70H_k
z8HqH(EyKjje9lP+tPI{VF8@<svJsEipYWI79w7Z*nacyR?V#lL0Kq=W%p<I|Q5Z6C
zqht#17>S9&3$mM+5Jn2Vy)g4>hCAk!nRobNRnKDTOmGH7gR<iJ`xsTRHVISC5pPQr
zWsNj>q)SS1Pr!pcr4zRmdf0y$FWPB+l1Kpy@VV#7zn&~=Uoj|D>GS*~=yYDKtSq8Z
z1;3hFIbfLj3pNaz)04OGc=n$cVq>GjWHy3Zs&<tlZ}z0>r-%HH$rEwtL^zfZ9_#kY
z*D(B#?R*S=a*3o6j*uBi43i)+j0L<$m}Dj(EZd`MH*l+H)E|Xm6~-#KbF!O0{%FDv
zNm({y$?h)n%HLQOcTxXuS_%OC{ZE9W?0%HeLR5gMOE#t%WbJGU6CqiY9x#U}g*hR{
zLZo$+s=`V`<XK8xK|{&~4q3mIcf~8SRW-MmdTfEjqi7J^N(JYrO7~^$Ti<f|Zgy^y
zoiAQFu++IX<8HfIy=A3(>zpN>0#@wav9hB-(|rUQS>G{!O|P%<Kn+#t0mD<}TXlJ7
zPhEcMhO0B{>RfUKGM0eMGSF^Q0<AsUb;MC@ChID@fxNSy)eY*SU^^bIhSUg-ZknIg
zk!AQ+`|>&6Gqv#2)=z7G+APgHwRdgYRI(>!(SBk_O<C(6T!Aw(AbC+_?V`lT#s7p+
z6zdilhXsSX?C}T=YqMq0U~r*RaqM2*z3-dB*MnbwWZ8A(^+y(J=PT!r&+@aouikm(
z&LwYK*4?)F$d6pG#2xwdlIsXt_CILYWs>x`l+shgJd=peCYngBdc6Npj<#~Jrws*{
zY7Cn3KGCEJ`7pH;dO#@*?#2RBy^1P;HcT4YNEskNn5GiySyWb!M27rTuA+t05P|Hr
zMu$?iwlYjX-m*BxlX>hRqYh{fWLq_E_Gm|0{12Ep@dt>ex=xQifuja<H6RFK6ug}-
zk|`VI&{SoQ|M<mmcwPf>6ELjV9@*%fw|BF=fJr;?;t%OH3y9>~jq<gPU3i9)ZU>dI
z!~Y{n{YQ$}o+ErqL(6Nl*$p1HLvi(`==LGAD6n(Sif^O6_ADyn+<TOBf3p>a*_S6@
zn*8c#mRfgZ9R8c0`V~(@`c(QL4t-Z(C2%Oyb(pNWchRBuR^ZS(D{$y5eX|c=sUQV-
zUAleFyX<Pe>1kN;99ZmHY(ULJEh{bUb3UXxx8B^^I(Pi}&!poyqpottn%+RI7|@D?
zbNgmw!|XtyqEv73AdQ&VN6B!0Y%Eq_va(PKDOg3CEAhJoV@%S8QSnX6=%<K@$-R{N
zo)T5j3?%WSI=6HC55LP*8n?~0=ICd!js3g<r*=H$I&{XP{G54SKYwQ4lJ(z4-sVT)
zZC-2it$KVpBYwedR(NJxE<c<$rXzE=U%N1`Psg*h-C1XM&P?TCFdgewq~s1!UvNvb
z;Lhm%bf1uU)1gQXsx1Fk=y0JduP{4wm-7WZm>W2pGiJpMw#UL)7%S{eHrSw`GQ~|#
z`_mOcGwyRb1YA)kHfN+(d5QLmyPak8sXc0)ej(Wx-sh}PT8zkyl_5fRI$aT$;Kq9@
z1<y!_*1nQbdYfm)47jFlz(xB?!FP)~)k2L>E7y?6s@C?Pb{+arFSyyrZ9;=kTLNo{
zcmdVOpqg$0RRyRm49a&4C?BA<qOX4Rsaa(ytC8D+>+7v3X~R6#;<=q^KstcH>ZGdT
zQz@@^xCcwiFdKXR2pCA#7%q>DZQw;29w@_%%9l5bd&gjLla;mBk6X$6RrD)g3k@Yi
zf7eiKES&82kBu|evshri|M)0f0Ea8_L~<++8^RzkFS}t)s25n18Pn9J2zxP{L`XQ#
zS_!evgdc9nG6GfW;yQUAF%L*)+(Z?}65$iLUS(CgBl%=YUH*kaNWP>lRXssUA6yI<
zA_>ZqRZTas8^xa>3g|@AZbBVA7{vwFpHhAoBGpZoNGJ(*jFghdT4I|rlwQ--IAP*a
zUR7<dh1YeNrxvx!0=%kp1Lz2KN;2gy*BcA8RN#DInkgQi$oi^K2z5O22zpQ<p-_lI
z4OR(lkawXfwtbQ?BT<}R;p$%nXRS~!=)S#m2YA30Z`Zm}?}r}^JZ*r|+V{;E-ppSP
zWU^<GZb+T9e~ku<6j^){Y@8g*UCvcZ0HO=-dnBZkgb4pQRtN?H1wlfr_>e7npd@6d
zs%*P@x!p-az&P*=T5raj|AIPu0uxOXy1;;77>z{Zq8FL;eS|@{mJzZmQnoqq6#_x=
zrQg5_<|n@hhOX--j-eeafQ55Z&qiK2{^GsY?p?MA=wb)1%gpgt4#Sm->;pw*Y5vOI
ztK=SZTh`l_akQ<vs&1jL`!{&SW^1C(e?{R|eg!?Fpw52&nN*NTb(P9#?vtvqX+$+C
z$!$?wU@D^ZuFy)9l=8+&T|h7E&Q1g@@@g<;(ry5XuTu1{C`wR7<Xt2w0>_H6P#f09
z8e$Vao}8T8QjGkRL!p#U(3%`UTQC!|SwFUHhvkJXY8S7@gD(cJ1z+{O*0|7^Y234H
z-&?$7%8D?5gz`tlk5_%*vOxO5<}aLnI%+JaOIM>Y;^me^(;7#x041$yi>WT0(mv$$
z{LvNR30tPFy1?ZYQmu<)I8v##siYLCFW)X5Ef%!iYW6>yya8?iKvpTz27rGHv+@=1
z1IY+oHgLNK5XyF7E+I4&g@5+Y-SND$$CJ_I1rWHY&hq<W1K>2)Vr>kKDTh{g;oP#l
zb;VmdbFXa2JG%_uMz8NGx&I%3?#{Vm8E+T7oa92bZI<m_fKRv09>_Sh$ob4uVA;M6
z`Bx8IIq=+}xweeABje~Ovh<06i5LI>-GoUf3BSc|68{_ODqDl*vj~gVvaKPr5o~KH
zT*TCl%{NFH@Mo}1#2i|`1zvs|dy-`JOLpymM+!Vk;ju}CsU&CzB+*ugvo*Y|9zEY?
zEy%VR1<Q;4Bz-(WrLfuywReg30_nZrV+{q)^L$dp=SmOofg4p-2+HABS{|X}SrU>}
zO2!DWKqaAsa+DEiB08ez33t&ORrIFxh)@|^=yan8i{L(*p1D&zlvw)wCkBA1r*YK)
z9}zGaI4Gy|qd?}chczfeyY+mKP@-(>X=qT6agUxxi$<(elhT6rn=&e^$<$`1X>-ba
zNuM%JTSl8uV~Yl<q(+*Rl=ho4rOdDDmARU>qzogiTB(xKu1WCRGxrz@$&;$rQ9qcV
zhZ@e1w}Sc50@T&!F)=y}oEz{kzc=xh$S%O}|CJuo6cJI7j7;(<OY{GhfEZiwKPdHI
z2;8E`1d<7#qY_3V@Xu430?9_I9Qt$zKD%TP@a+uAHYz+RlLCB*NiAh$TU@6Gtr`HG
z5Rzk9kbOidLrkQ~6BDXG)lnW%l)^m^43XH62)Y??f3P6m^peNCw>#tLhK|AEe)jO?
z!|AqV`_`M_4U-@<j@Eg@YZVI>i^=Q#uRpomb?2(LX4USxVQ<RXo6-@Gp@JsBQaWq$
z)ktI0_NShg>tCvW_1tTZEIg9&?_YKuAQu(u6>Iu|FIUJA#${K>YW<dU_2s*7I&0E~
z7sMB*u1&qV`?Z4$2QyplSa$AvYkTif-Oh!+xxPPco9~;sJ6pGNwXSLA?zeq)FSNY4
z?b^1iuYJkaIb-{AUF*#0m8Rw!O?}y>zQs>0HQjl6VCMMj-W6B%%x6~`o3B_`8~ryL
zcV-)R-e}yHZQOUg{rfeU#(hhT56oIu9o07+O<6}%I{K!gE9c_s+txiCt~kRpyeDJn
z`SrU^T>Wj#nELOwTaWKB6cI(jIZTB6TTJiof?@NRQN>|sHy?^HBNQfb&~i&87L~aw
z#}zB*EwQgi%2BcDh>D$*_i$WN#h~RJt_rYa6WFgZ_*CYz#R?f4YV=2QzbYBQN7I}7
zTVu%b{a{!VE193;0$1StM_CBRz|#IU00Iu?#3bVshDpAGTp7C%Dii;VqH+QRArr*_
z(?LMLqUhI%itR0ua^z*tun#`+8r*m3$S<MAaz`EqSv~NOB{o0TCiz^;zGRN>4?f%M
zM9<v44&AGIfY$9?MeT<<;F-Fez$9A5oRO>Fg7fZb(axe(J&Shh(VpV7NN0ncMdD@t
zuR4n^^qhr{jC1kgESBS3n2tl`Og@$T=->Q7oJm{JJIR%U1qCy~p;YBLG#n>$Tx!2%
z?uIVTv5-_-xiz1Y^ye#Z$rd%$rlj&}V5XFo)5UzzFmXi08wuczOyG1nm73abO0_UC
z-pCBTh8qE|SQ^CJQx@>z+m-x?Ug4=e&w~>pE}|r)%qe_CQGvp>RbyEw^;#+TrE{CL
zq_y(Quz~pTGCfS_A{;KPYPislGQL{iMq7Xnq17^=x8lzcO+}gihF_6o$eOL(Nn}?v
zRns<oP9`2ljQfr~{`+GB`x4CsVeoPP<k*DhXOfOwOrVd&$@(OlrrBMv#{#_UW>>>}
zcnZ+)cc?SO&@tCt84WWf+h({}Wa9pAs=-*i&r#|OMRtnbrHE;8pQ6<JhzdD94SUNR
z9_x5Qawt;}iosRje^E^m0a>3Dw_xvN3Gah(y$1JF!u6LB{Z6<(&%^zexc;}{-ef*c
zSa!C(>YYFPO5I}k&$g_{ETGERwg0K^W!p=(SC4(&`}M)a+J%AZXS3b?8GnDa{z%q$
zbjf#o#<tS8XT~8jeOp>?Y&nqKa^U*ur7b5ee+*3D9k}Xu!`1a87xW$t8E@;&`nH^o
zuNxryVna3Ti@s{`z?BU*+|5~c^W5(Fu1w3WWq03-yYYs*H4Ex<>P`2KRd;<Jp#4pE
zSFQ$3VXmHYSLIu-X_z_1$kKJkvg>%pa{Slt-lh^J-g;tZ@fXqPbTGnnHxeLB+z5V4
z19Bmxmj>ig?UE4TU(mz)1MR+E79YL_0Jgo5@%NPe-xT44)f+ydfvXs#Xu?frCMAdo
zd_AqmuB)gii=mw88}mZF#I5@3ZuqumecM+yB;GL_+%{NWtv05Mkj(KoJFDec=C7lV
zY&Ou%(x8f?1vj(QJi4)8hEZ0^fugtNeL8Rt0C($k@IR{1G?(xsGQb%?MW*ZqzAnY?
z*=fS<MSj|JiGQX8f~r1cIEW5D(+y-P&-+yMxlw!)b$m=Dd%R+$-|q)kXQD~}9>AGB
zT_ltdFw1hG8AXy!n|k;t<I^KdLgXKp_$MSgTayTzvjnj-MFOBxmh19!TIv9jU$-Kd
zDq1yJgUA*uko5(YeA{PiZ+knIyj?Svm8yoT_g%T~k3M$!7<vA$xZG)5*41*e+Mj9N
zcfI+#H`9D*srqoneHdb*e@A+1zWLhp`~yo{do%9dS$o!XaAiwi){?ILvOVYId~G>5
z=dPV`vDFWBmbJORM^odZ=&vd2MkLwU7szA_m3&*2<d6cDJ44Hi$NnW1)KJ8bwuaJ~
zT<)iW&rwu@z8fj8og#KTNHJ1yMlAHWLJ?a%VnF02tf0mGI6Xd$sL*v@qD+b&07&9%
zi0Hnm&W!u2wOniG%Apf0?c3h9JB|A=b5(WezAFcFW_q%4{?1J2zU<chIV(NexUH=@
z2InAeQ77eX;Y^h|oyF)|@z&+^_+7Q)A|Nxvw9QStoO&shZRyK;`?A*E@4_wBw}ubg
z$rW-{CZjJsl;iL-U$@w|uyu`+Ik(f;xaz9S8S#q_*<3T?vs0I+(!1ySaHAHURo1RG
zbgwbDWfQ=@IsM$3Im@-f^T)CcJ2S4GS?g{28lA@8)r$J`zHCK%&WHzUzahPAPM^Lb
zYi*lLX06-T%#{BiUt0)@hq9oQ-?zhfg4bH5r?RlD;8VQOXrrsSnV!4o1C`DFYaDWN
z6%J!<rhRXYqu+xcd!K&U)?^D8I3nr8=Lbc?%<QX&*oOFE1T4gKM@=LIBe@E4dI;D=
zz;rU@?}!l{mrU@-fgxJ{kRsz490b7jILWdiG1(&9(PW(v|BfQIaT7>Mm2&kEJ}H3@
z@vwK3#4R<jZ$q=MOY~^n$bW8v*c+*)03sSEWRx!@{iaM9n2FaUJBG@~hNJ?KI9rjp
zW|5r)b~@OuC+!{kB8BLuR5L{_h$QXf;4(wiN}1;2*w}eEK*}d8NWe*o*l``E6g!4b
zQ0hw*r78LoioQzGHz>MJ(RV2NE=3G=u2AYFir6{pr_@f0dJ##MgTT1>_T^!bybbZk
zCH@96{D^q|eGA98Ww_R#aQ^?y^)GS#@9V6*4p)YF-5QIkIo|tY&hZm&+t0b%f5P?r
zoNInxXD1LPdZ(T<IcLs(;n7RFw~P)s@iV>qrw0GepxoN_((qTKiw#SzLzhmin|k?{
zv_Aduxd-Pxa}Qk$t#im&kMK_3ld0c6e`@i;g?q2JWV#P#>kqAS$X)mQ_|6prZfISN
zU5U+|ooAP@vh91b)qAh|zTNn(#!U6`tl`AE9&qbB_wjWEJe(e!+x_yvm!KKz%~tPR
z?7ZH3ed61xZ>2K(@5$bNZ>IX*tl_?OJ)qYw@)o{6Q@;aWpse4&&f#IbTE};#d)7Jp
ztlM<Fd)7v2_qxr+H)@c0SZ^zYtSKzT!+M`q`i_lFQKoL&{H{g){2kf4zGdU?OS*N_
zZr+#fn%kA>+J`<Su6Jd-j%HeqX6uiwb12G<^IUUa#aKDpnl)Bu3^j!<EGDyc2Qr2O
d@91^Sx(w%;Jq?#AER5}AdcO8uj$*b6{ttOgwX*;K

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/processing.cpython-312.pyc b/multimodal/__pycache__/processing.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..79b22a7aa28366ae2816962b8ed7a6d6682368a9
GIT binary patch
literal 75627
zcmdSC3wT>cb|!f7Bwi#y0(?INk|M>INWI?=OQI-IvMAY--8O7B1re7LWPp?}Kubh}
zZrO1sR9YQV=}tr^&NQ8N(sbIHRx+6{?wOrg_oOH3FEg111hxqy+6lAK?j*CBgf`vT
zbkBbK?SHE73m_=VNq2VVe&j{nx>a@Saq65?=bSqAA4*Fd0<MVp%i*t78-%~02j%j}
zftBAa5rjL!Q$k1x86rY}evJ`B)EF>EO#zdEo=p*R)Dp0;usLFlmIO+owty{a57?uQ
zfFtS*IHRtBi@mo*N~2|gvZy=Yj(P$f7H5r=M=JsqEL;-tMtuPv3)>=<(W*dIv^r27
ztqIgbYXh~>x<FmDK2RTR2sA_+1C1=5A<`6B$Li+~`0;CxG)G$kEz#CMD|_#VtdF(@
z+E~~bX^(CQY+zwmq$AoH=!|v+x}x2IZWdP>>4|O(Y>f5>df9VXq%XQDu!)7;k<HO9
zfi2OkfvtG<gvuk^qT2)8S-2vyBf2xNGrB9VE4n+dJGv*ZC%QMVH@YvdFS<XlKYAc=
zAbK!xkfrrT9*Z6d9Eu(e9F86d9EtV^`VE3uCAFdMzR1z&KwyA<uQGBhdOUEPg{vZi
z(G!6aEL<Hq8GStPI4i3raw<9$7-Het$m!^rz!`%u<`AC<4B-Db{!iflar_S%1+h(h
z@>>QzvVpUBZVA<i=ftPPr)v@UEtCA_b6Q*iqaS!itQVgR)$hY=yMSE2P{X^8N;x4z
zsOe2ZXr0&@@{8v}&0-*Apj@FArQA_lsP#4Lw|L<~;JG3ttd~n@6Q38K4z-UOsXn0%
zy0Xrplnz}f=h+uK#b@xHbEDQ!*K6j$=XG&%oA9O^Z-$M+F(K6Rnh@G3)~W5hAeOQC
zUc~o(%g8IJ)-%Z7ZNj_F%Dcct@fk75`ecOl$rj!xVu|?lC4)G^>n)D36d{&ktDJ&=
zX&Xx0F4l;j)AzUfMG>WoEbl1GyCbjkQMvR{mf{jiu~Qinv~Cy5-i?u~_?DTsByd@7
z-yXc#D;kw{tKSRD@Au*Telfi2{T2EB0lYt0<oye*haSV*L%Lp#u-L<hJ)(<^GHB};
zBVv^5|L#$>Psc(7qC*^GBi<s~8SJqq-riAj=om(DoRxYUr4EX<N=*Y-QEFM}#JeXI
zXk@7#N2*gw`D$xlWbcOX?zFB1DI|o>0Q%Y#XbnA~hMoj0wum-SqPhY8&c0?1#EPa=
z=TIKhKZSb7<vx5G-~HUGI!yrHpGS+ImdEya@v0K$F@cv*zh_XtXT{Hj0-@&^gwq^3
zANoAL^}KkQ&o<QgC00u|b4FdEVbt|nUM@=g6o<Uf=jFb&g)X3u*O5-1FX}gVYK9kd
zse?#8iPY!v(w)<#xQG;qqUAZn3ArCfkmd_T(>U4a^K`r=wonMElMH%9Wt0O`?0Hli
z5C`79q(Z~XEcUW^LOh|1{bErV31d92tQwCS3`SnSyNL2G@Cqw6D!!tF*;mD%VKqIc
z^?BemyCCxVyTlhMUia=x>bs};c<J8#Ea6nl-!Xi3TnCvy$6~J{_C?VMobf8<QRntF
zdn@5>Oq`bADfs*5q@gqZSA+zHI*mEgp~FXVWx<QFxD*_TN5%N%@ldBB=M0IX!HGyb
z6ds9pT64A|!AK-{F(T&d$HXyF3dYB!oP97ZMq^Kh#cMemf)aaQaw>TBYIy8Y&URLO
zaY7s$5j#yedngzWjzog7Sk5vU79*iti6mZ)1o6_4GantBh~n2CktT*mf+Ls3PFt?@
z+_Ptn4j(yw^vKD<p<}4!*krDReL6gna|{KeV(8q&Rn*6JMjDTgkBmoh_H&b0#Y2&B
zFqSiq1Y_}>ZTuxsii`(CXl4n$d^#xQT&RR7#fQg4yrhPP$HMX9$oQp8?6HAWAT)ec
z8Xpm3v2kg5R2q*CkBpCvhA*KdE>z^)_zU7#I3Y^8(vUbZ9ukM+6cfvpqPf~5zUmo`
z1mkgWY<Np(I1-M<V>#F8L?kkNNgAKHdT|n;_g@m@!|2=bYhq~lg=<0S((w3LWOA6Q
zE`>v445ipkoIO2sP7=kO`$}wlY&aUcIvf#$FNv|gB5I9NJf|>J;Zx(GVB~l(b{Q?P
z=PI<ge)N7n1~ONr#T^|R=@&-^$F5GGR+U=(01eL()?9tDazdY$@FZ0>Mj)WiuEoZ3
zjfII%UyX;y$AS?CH~I=b_0(WLtDxr$0mbF<NJx~P431qAJI%QYdUG^-Q4ECuS3GZ7
z!LwKU6g8G7(p8os&jclm{5$BaGm;2s508m*LlNgX9E^`#9uR}^2}#6r8NiAIz^U-{
z@EH2oiS896yl3#(a5xwfwXdqlk1zl><f`a>|3ox8$-D0GM3@?tGY+54*^xSWHI4}q
z7Hn()OQON+F@O}lToDX~hGSR7k#I1g0G6Er7y~(TT)ZBa4q@DLRy1Qm8XJ*W6M=xi
zf`6LmD^0lF5#lmCCkRO)X-FF1H7Mxttk7v3k{&~<PJ^_LeoWF~{76UWM&-w-9KYZH
z<3oM%=+(Zf;j0_t7;-Vb@%qHh-Me1cDfUIe7yGVG0%eT#y%dQ=`=SJfQ3At0c>-a?
zdaq9A%J{?%4f7cy9YfKl=o>!VZU~>039j1N+PVJJ{?iN2Gb!_#6~qhZ4R7p)@YUko
zF&qxXdZiOcm)8SUM6e#%gg|}|#3`O#NrOTxR`<yuQgj+6>cE_tX06gQClSNGr}T_8
zKxx#rabzG3A@Xzhk2T^Zw=HWc|Jt@$`&SR9cAfmhWOP}V1*63(9jE-JnE0aF0z?RE
z3(nvnuLXv<GS-4ZfFxtma8`)ZxU(xM#KAzxVYQV?>a*z6A<QX9I2Im@#e+c4_<mes
zmCjk>gi_xzazHqZLSpnizn?eMK8%`fVet1fqDSa`3vM@r`z7TwtzU~Rl+<V471NFf
z&f3||x1XBd`i(%wxhZAd#2T8{Miov8=03HJW%~9d4I#t3D!Y0Xa1B^C4GnN$Hc3yS
zMCmNu2+E|VaLa3klQ)B*Z0Q-iy+SGcxak{m-`zMHp7*|Ax!^vQvK?D;mfbkPn}LMt
z#a768TIt2@jvxvFLr4f1?Lw#|WDrduqi7D9L`%qwe+zN8;1jK{SpwEc3y56V@G&ud
ziV)A>SV+9ix;<yb%mH%9*)cqzQ{m8csUL+8jhNN1@&E&Jio7FC3epn@ydz*}%`q`D
z%17`y#7WQN7NcaC%JM+khA|yMhK3W>`8DWOUPzRQ;OK_1>=3GIS<BxsNCXa@B{>u@
z1`<3xoO28hW4=#BDC`;@esLlg;cp~@e(3;iIa7EnE?uC<&(n>7o&l5;pb*_&#D8oD
zZm-ej>gqqTTP(Fp-gV0s{4QIC^19^`3fTl-^)kIfDo5#b{AS%JPCW4<sUU($^-^a0
zN&}*_!GW;C5HN`}Bt}{wO`6baPL7h<I3!x16l3EN&{uza+#ekChiP<h_s1`bem*?C
zIX6-6C=K2)dq31^l`f(<iRyrL0~%g3JRBMy86IYB%(;h$gJWak@gNbw7-9>0;}Yeg
zTLS+vCvIO7{@lEAsj_v!+{&9sZ}Xa{O#2lAdaa3oJcDQ+HHM6@nbj4J1+ga4%HEhm
zX5E_-HN8a_Yn!xUs4H|GbB>|^7=y>WY7lr)Z_7QcQJs)6WOz-*LNrekUvUs1(xvZZ
z>RATx{_#;=H~Tv-ilgI_$f8EWQY?-k0k75B>rjh1cR3vMOJWSPCq{!5^s`a%gTcel
z<&}nnBIed)ubO#;s;$4gcvzwKU{)F40f{7#XG8UlOdz#cMS0N<jva0LBEjgzQ1C#a
zYjv0PvbOc^i;QF9#SS3A)80f0Y;xWZ-f!k(97Ggm8iR&>2+3JkDT$i3%72wg^Wes)
zj;H=!{gI5jKV|FZB@;p)Q5ga}5cXojb^(E(LyI}yisOl2A)`icLZ&!%3%f#QU0B9z
z)553$xUF=`P>cX!=xvE1wcGVWAM{hN(4@$pV*cPL78PvdFNJ9=uS()*__{WB1xQXt
zlllRr>A?mxi@+}#?g&Z1;|n`6poU4|re(^cL29xXZEe)OH)&m=P}5j<9$hji@l&R;
zribU0%5<G1Bta<NH7T4KYGvo$46e=eEqTDE%%FQh(p-nQ7dp@aW72#U;#G94nFFaz
z04+KK*o1NzbC)wkFlnp>Jw~*Kx-@5(@fc_gqx!^w0I>c38yrzz#&cpz5wMeoM1|`D
zoOm1gV&k~|J)<L@+Sx-t|8lmveyOr%df<V(cDDWP)&+O_{p#kq_IFzss(T+acFpg;
zJDO?Se|zA8w{dp#?U4m<mmHgV;^~FP&&>=xsHvYF_*LihVAkJ0mzcMw{9Eph-t+I9
z*`0C?yuThdZ6<Y^H9{nbs0o``VDG4%619u*1{e4wmaZWpQM+bCzf9?m;YRJL5SrF~
zRN}KAGu*FkT{cnRfv<7dLV-`LLQVZLd-;h?C@Y`Yb~ErpJA2b3c<N^lX58H=TQ{rc
z2+C8h&w@#B7M)InNyV{HAs*Ex6PDpWRV+#qkWIQ81oBxs1(?rreg!L!mykxfid!B}
zEfGVI=qNG{XxVBkdYAIsaJwOVul4=W@9}<>2$M?0$rMo9oC&2Qs*0EX4waRMLr-Pg
zLn+%38>^vCdm)i`0V&7BBV2OA(RPf!d4O&NPtq6YmXFG%2*uIu75vBO<!eILQod}o
zT8<iK_I@nT?}|yVR`9504-3{?dS(Wf1^mo)e@s7e5`>ob$caxIX6h;bX`cTh6nWaf
zX9RsP=X&ZY#4#c#<_dk+$K?TJ39`_&@-A)~hf&BxfpVAvR!F*SqWzLlbX=)ox$<sY
zsu(g6A51(kF<+2;xk46j$<|N_WVtpS|4}Nxu|tMSZ>=GR?yXyX>l8imTbJ%_IheZA
zoR<$VZ(F|@4~8SL#8Elm4_+Lfz(l}wVJw9oiyJ1d@{fb)V3Cbi!MHyN=Hn_Dab-SD
zu+HnvnMsf{l(U6n!y?HhI6~=1lM>ZMKKtD8+4Fg{mu3n5uhij|H%kO8(q*I%<Zc|o
zEFmDl&kg>=P&B1bI1eVGLiH03MZVmty!`+<Vx_p<5FWT&=1mLko|LVJ0Y=Wj+AvJb
z&ReFbOHtx%e+~pRWcYOM;0om`xJIqh2Ji>w*IZLZ9eD#me%GRqO|;fJ#7Pu2n6sJ0
zekm7~%P<SUB9U_)kri&5m2&U}>REP?*h7ssY2><C9d&OBnG{?aDgKmnMrHJr?<&~N
z!bmY&a$>1HE{$BynQ0xKvqD4&QDdh?YkbZvj|g$QB<YZt^x;dWRE)S99dRbEFR{7U
z$YUiaj>OrhYDiN7*gvD92wp+U?l*PM58h2=nhsB&zF*TiH#i^9)NGp`eBiCQv*-4n
z`<}`>uG_BJXEUA+N_aTq*|=gc`O20BQ)wB4A_xxHxKV}PvFPaTG$L}=bF7gZh)sOD
zP;(?o&auBtg>z0_#S`m3rDZwFz6m$RW0cs--gYeu`1w8HN&I}T?T>oC+w(&Teo`TL
zTIWr7FE6+crfdf}<d^05^Z$>b-;6dg=zko6Lg?2)xeofTP@aM-slw+?#z-pAX<~pW
z(O5}8j~h6r!xUyi%7AYMkBTHgW(*nZZGYGZ$?&@x{{EIqYsHP=uK?!u-QG86&v?7$
z$I{+?Dc3$uy>3x;zJePBa*TbW3Kan#w*o%$w-c?8P{IF-vNSL<+4mC|;fKHoKMEKj
z_=#gR7<E<@umw_>>b9S5SCm>xgue==h4c#)m!#WkbURD8*XhQX)vr>hfOWV*adi6w
z{Kx(cZX_o-z2tEH%<-(berfR3jpNgoXI*pQRQ0C2ZNK01J3XoD1L?AZ@2^jn4P?xx
zmW_6cZMllE3kJ)^nTyK;eo~D)KBixpqd*9P7h*q3Esq(prS4@D1(qOyu}}an9jzai
zP*BdnVw+eNyOM<hOW=ep6p*t}kY)J@^>|F?OsG91m?zN}r`LmHqvQD$9I|&H%J>M9
zsuz(#x>iV#tg$B~;RzW7W+vNl@B&GGpR+>j3H6UuhU7y)xEJxOlh{}Xht3{-@?5Uu
z$)jf;KXl}1Vc*}O<aBf5!!Z{EVB1P7ZwzG1s$V(A!IWO-)lr#*E5Cv_S{+xjP@)xV
zk!c@Nfh__n1+k$WLL8k?Miu5b<o8azw`z=!`rZ{P5lfN3j5AdMxBTqEvmGkaa{e50
z;Ms}iib)q3CYOEy5{Dc_W%{u~9D^wA^7u6phjISLAC%=_{%hg*Wj|Bpajgw!reb`R
zp0hD!KsY`L8pni3oTw|KhL#ExHsODTh6E%XcYeKU=rkm@o+FW)rWBHke<*K8YJ;Ki
z_+S*m>?i<63>}rEacF*|VU!%B56YZV3G{jdQVE~F;k|Nf15&P#j0EBoo8WFq*|>-%
zkB@tJ^_z?L9x<I)8Lan8bNGPt>$vGFW=6k>iSoQ!QB(^)C%sKMj^hUI6Y4h-5$BOD
z>P^<8{Rlwj!35k0=3RMAl1dUJn-MITrX86wCXEV#FiQUnCFE=*Iwn;wurT$f^i8_a
zD^A4ya^Jd#A(JC1>M$SqeCD*b;B5yQCMy%N<&}5pZ`V&-?>oIS0}Iaj4=d|uk7p{|
zrU#bXmD8oH>3I#N3C0>s$n+oEV2!&=8sjP_tMGEMN-ge+DyG3_<x8Wk`mVD`-@to`
z)|Om4bAv*!;g;8llqkOwJ!&^8klL6B6NRt)s2hpu+z_%ARd;%B_e_^iHy&GXHhfss
zID0u$wPE@gNnSQAwC-4N@4R2txmdL&UA5)z&P>(b>0?Xos%g&6<$SV`E~NirUcXcO
zS-<}*0{Ptd6(gbwE+`;{q8y2EMOkI)a%ez^T*Z1?T_s_?L@Y5bS}!I36GK~sx{fii
zAx$<e!Pi8~q}mljewscEgN4V`OwV0VaMp$M&yiNMSJP_tV$xDp(rW5^rB}&vzDF$w
zi%aO%{Xzf8_|-|idW86S{Nfd`<Q!{;A+L@E6O(?}2uR_J6LDZ!dCr71DJO{3uc2vt
zn*An)Xs$7U!mHn=FniBl{T4ma>If1pb#mruzhHR5W@Q1&lVf)i{2V}jpgfo0S)Z+}
zy>tHd`D|q)&C1%_wOMcVqIW~uyJ6mz@ovugY8HK+X<z4jN5;4H6Q|YVSQe~y2b-cp
zo!$cS%9$d@;xMM@Wqc@SL!Vv+NuHEw8cV-KH#S=st!1rZtk4v_VC}m>A!?-bZMuD)
zZiEiGtny6?(al3`A(Hzg;UlvV91n1K#m}6|nzt>vnlk35ta<a2r8H~tE*p)OmQ-!e
z$I!{P5NG0}TiG%)wIGwVOi43yrFasHrE1=^Ea2y^YlVK6%WRhFdGE4-pVa3575ZKF
zxh#%3B*Rat<G?5M%d1V59l^hP(VU`d<$2r+83x!JnVGm4&7&(|0ozcbN>gl*rdact
zf`A>Yghg~9wnSqU0?tVr%tYKAjt3cAMAjKz3_~%(&l#s;v>56=sL2$9#uYP1uLp_z
z?%_`Z5UGeTjPQq}!AoKfrXw+7$OFrti;(eSVqVzC-W|B$ALT|E`Y**;g&>~^Mu-QY
z8Lgxus|iIm^Ac9m&?3k-20H!0g?%v;%)~r$jV@fczzr8z$pwATp-y6DUhi*VwQJF)
zHz#WQTTrqtmNyKQzzg1<7JnCS^{`yyVX84Nr;~jLRpGtF$ADTFlVwsdpa$03BC4^U
za6^<XfToj624h@j)zPW7`6u5xrr{ybAvJ{m!XSZ1Y|n+Ce%tsLJ6hx~w)|9E$;WV&
zQ2wXiN__GsF@8i#2f$UEVYCOcKNSof!pw82W^vY2VJHpKzXbj&<b4_PS7fMsN?<-I
zJo#&c)M?#yLs)WqUw`@L%PCtUL!-sH@)ji3FDi=hB}#paY-K0CQLIu#hZK^jRf<^h
zX{r&eT}Z52yXf|(-Tsu#&+0VP=_*PBNeasw&&VAkhIc9M8+6kMUjb?RU3yD582t;e
zrx761w$Wny=<^1lz5A|Zp>4;F!IZltW8SfBw1MRLh>jTzmL^8t@XIM1#n9@Wy=x}2
zX0SA~S0CXOU*)h5jo=&VWs*bx6l6(W`aH?4L}?Wl`~xs~3}F_msbou1|J8AcSym7=
zU`89neu24wL}Be!Dl72e#7ZfDd`#3)sW4ei>S<KI@|u;)*2X_wBKHs+qU*cQM9^fq
zrJ;Sf185NbA!O|ksMtl=v-bGG;`&D?BoH_WI+ai!9oMb#V|=(|j$ruWIEXjv&mh#A
zN~}n+J^pK#!(b~&NdwCoe{ACF)p26%!6aNHy$$2?WsZS!2dp5OL-?oeJWgY|G)mS&
zX(K~OmUK${TUvUrjEBea-_YCVSlub4zhp*(b(4-0DU#&C!*~&WdI~GWQa=|d_IzGl
zbkvjb%A8K@k)VY#$oUKSp>yCWUm6dG{1aniA}zau(j;f%!U=9K5}J^(6jLU-4o*4n
zUK6pN8X1oQazg+L0tZT-ukIt8p;%l5IMVVE3b3CzR6NIK6u0Gtutv8=)YW+ZqX9<|
zsNkhzmQdOLZhztDiZY;DIt(yne5CPwq@p#%v1(XptOulj0XmX%>e~K~<|F<UN-WMt
z$hI6$YIH>5B+?q)1}CxTUYB;SOWD@_WO)f%ey*w*<0WMC1AWDaoA`lNE5=PUr`^qp
z-0`8@1nYv&#7%sM>PEM(=(&mQ;3mclLdV9tZ3`QA-8h*lU!O7W%I7BhGB@E@xe33@
zO|)=sf~}*=h?{8Pi(L9pac+W}i72MCPYEJyGed@bNIz-BjtkE)wltg~n{tSe4?$AG
z#2u?;_gr<tSg8WG>EBXA>6W90lBnrRLbj~@wNt!i^rm>tIP<8~Of{0sGpb}7hP*mr
zB41q%(fA0Lm64P~wb<ptivsB{Yha>Q-)<^X6*B!9HG?Ex5b~|#-MiZORAT%jleIAM
zP(h!(kL(iN{xcO;i2&K3lxEE>v#s~ceDppv%VS6BuyNs3ry*y7(ZpCNXMHIcnGj=n
zJU2CrSi~Y*4`2i;z+_vN2|`L|N=z|?1C<Ue`@*2dSkX_6jW8=f&}-}=icGQ;&t1^(
zm{CM>6LFYwU?xXM!Hwm?FptnD<rwWEc3}XskNK6AJQu9xRUAFQ6|0Z7Xrb;zPZ+N2
z1oqruX@mazWEag~R#SZ{R-b=OeQrZBH-!1%x3B!x6$Xe{V3}SJu_;JuW?zuLhacTH
za+O7km;M;Z{tqg#f|UrlovUWnnqI$a!MQtS-pvsjUa6PL$LGVhe&(?`s98tL+&C8u
zFoShwR-P*XVI}p$5Y+t_QNE^0<Lb*|v++MtI=cNW>bycrIm|`~=7zGRp4T4dQ<7ev
zLmyjVyOIEK;8DFCa%ko65GWLmX;$6Ppyg}RG=n1>8RHXvVcV7MA?v#(-$GsJ3OKMy
z&l0lnw;_ATfz6dp(Ir}I@iydwPOTIs)Ma9s=%yH$^SiN?(xav{7fs_qnsPObT$*Sm
zL#U$Z%aOhUB0C#Ib`{Xhc|$hQhp-pn%1K{mC6oImewodXL;mM3=$Qv)j(ob<`n)QK
zW(BP!i|)a6Bnv1qBm&P41{-V@Hnwp-n{iVzL&hgpF?lto`h0y$XaLGM5^hS&nEEh<
z*keCJBMN-dm=Kz4#s5kfo=!qpxTbo?tTX!2nI|hqM_QjW7gaMr+Xd4e`I}Rgq~(<|
zoq-abl@fm0aK~VPQFz>m`mhU{GR^478mCn~k2fT(Nt3omrC&I|UJ#~Abmf*@A(27B
zl`Og9DTu;j{`YUSn^A|~HeEAxntr_VS=y~9i&o|RJWQBMdq8@*h!O%-LfN!Dy>OMS
zhA;FEN%v4NY#IL<ez->J5``|)jZIM67n7@iengV_R%RhA#`rM(3Ep<vxQ3x%1X+pK
zDYu7zU*&tT_mdUEFduP(ba9#e50E~wp_sm@cXbsUfS*_rIsTHF{CET?x|qK3fwOXE
z^vxF*oL$+Prp21xbWQL4<a_P!cV=oHhq17`Cgom#ziPw0{qF8e)&6^){Y$Qj2lef9
zlXu%Q^}AEHng^8|=B=qsk9~h|vGVEZqxUOX=Z=2!^joLzKK1+Of9HIr;z-7I<Rg<%
z^*O_jVpde()x)O47DFDqQZ$3tXZ{C**J7}!L31&fOj;F;NwX&p(tB1xx)*&?a4B{Q
zfOz6P3NGbs0p#~;kS{GD3oIjZCam{6oomA}3CVIs3HyX$#SkK3%2~m;1fg+?;T5yZ
z{ZvSHDv(TDFBg$*H3;X*IiMm1-xMUq673HGXk9u#!Sk0<>Q4lotJclg=XYePwoE%8
zR94@4?)GzUSA4Vft=jp$ndY7ERlWc0V&!QCv`@Zu@*Ah_ZvXw=zq9*a?9Egh%(xB`
zc%M<hyW?<IK6n#4CRDj1;g+ZIEw+8a2l+4MD7a`NDu70}6&2}<YJdyVL90mv&#{-8
zBQD0`{%49MECQ=FruWRpN{ZE*Y?|O=V<ls>MDyCiBq!NHBXj_zLo4bLTvfm_BMZ(J
zrVH&%dpqab?{>aFneujKyicTDPq5`=d)nPT_tO02`;f=B>nzCg6zFD@$-1)vfxPa7
z*(y2+-=#}2118)G!by}v(eF}Jo_^O!LPy2qLfK-Kr^4^mr8q(@bE6E{;JK@2;&THF
zx{V3)=kZz))T)l+A+M@MMjloYYTn`yprDVu-9kkh{SAB%qxvL%nAID%lhgMBrO4|8
z7i*znF;RSc^+^V(7rIai^}?E_5f4}geQv?MF=gAx_|&1!szSCmOx0u{$#`Fp9+^C!
zsjr#bpQ_7Sa*9HYbR+2JgqMI=V&J?)p}(Np*XZ`Y)9v$g({$axO^<Z@1k@(x!;KUI
zCJ6o=s;;}NoOIqNmK?r}*_SnUFS%+m<{Bu!|Gc$hUR-G1cH>y8)SoeL%bNEumtphe
z$4;N6->~HI&78e$$95JxV0G{FV>=549kd6NC0TX}4sXi4K5cJXDP`|=$k}1^=kZcj
zX7tCiBB*3VFh46IcvdI2D#%}+J#yQ<Y@rDG>nzBNU_pHmETYbUZ4o^y&}H;2Tg{f<
z)cS3o2>9h4M%^@mfAuoSp_LW{^a}}108y|Eat@y(lhRYP=~H8bhNS<50t$!bzfc_A
zP64>2|An5|xUqQRzO+qOoT*X~14fa}wpRSE{7<-XwpVZKuFjsk4Qy(xISBy@+azX~
zgaKF5lr$%>Y{Je9l=cGEXEU*`^aO^N48APbR>pHw=-6n)zpFC1oc&E&ri^12Y@;(J
zN|C#G>4saICXJIu#-v&jmmS3D={VK#k&y{WVrza<{4*qrRb=b}<5Agqf<4N6JYmX5
z`#+%xXL~pK?oOD>kkCJTX$-qVWosF>RdYycL$iP$*?Qtnc=#p!u))9<xRVtAOS(~t
zoP+bkaHuh+j0l1fWn?@a)m_h~GAi>VA&eVH!btWfRYFDO%(Gu@x^d#Z$2&9l)v_Cd
zOC_F}L$AJ^wUsS7yfatkcBiX)=3h)#ZMx^!l&z?r4W}zMOqVP<eKXI_UQ0PQ%<sPE
z+;+dBao+yk&V`C2_gqH+^|k(+gG;W;+47r1(}T-i0jYH*{lKy5M@$v^>Y?gG4TkU5
z8F9~*jEUE%_f)PFwG@aeC2(IM6ro4naeB)x4Pn!|mi`qkYzmu+r_4IDINg>CtZWW3
zAhHzOP%&jqTCUi5`TF}*Nz!!1sgL1dfTB5RtrHYLHejz~(R8Z4B2tu0nQt92uay!d
zhK%|WHNIBc(4iAZ$?{mfq<U09WdKeD#eYHW{R{sv*zGKlPN6Hf@PttU6^e6K$iyIS
zk^D#ij#UHWzeWUn-Au&EuK_&Fz_j5d_}O5B8OE(@Q=tgoS}Dun3zm5wp-?#0;!qB@
zr%LenzSjSy_x9k;FJ|2S8^^O=-;Ku~l+#|3$q&kRPg}CS+B>IjpPsg7E2{5oyuA_7
zZS%bDzUiK|&-KhtrfPOC*!E=QsFDSnKU>{&)3sbGRP4d#HcRQxoqpx?%;0QfHk$JF
zESNVwaFW%hvn^$AW0<oz?tT^ZTmyI0t}-UV5-G&Ys!1e7pp9p?`%Eml;101J%}8V2
zM``Uam9{|mqTie5KpdG~lPR?ez8oC6YMtkr0dBz*BNKL=FofY7E5mQGA+~Q}wV0S@
zDVwQSM&->^u*evW!b_Pcnh66#b)O(zq1qv51zx)pzno}Vqo%$5{V&p}m!kl(XQ-Ij
zc4zPHy_q#sBgEXZ+6EBN<CWsIMJ%zA1s7roKNVd1<pFJiGv%z~qoXl6?)f{UWW5Kj
zu#duQj;OJ#+HH%E4@=}rDB)kL<w}ZQrna}EOhCL<@c6;u-#Kvm0R5mBWMjxrO3Y;D
zXqL?!J4*|BzykJ<&FE>W=r7QX$>mvXS>=C3aRqGM3dPaw=cztt5cra?#P~RNW5QCG
zXU2PTFk`OFmU&-~+>FegOP4ig%*`-qB!dtCtci>|@-#FhFg&d5`b5Al=SAof5H~N=
z=V-x{E00FW^A#*6hPj=8ELWZ9<4E0|5o5V>Wt@`7$qpI*7ji9Yq&`IQe5|vOMkP!H
z&O{s-0R1aGVRs?;5slB$NRsAlK(oH)yGeCvR6<jjhNo1?nKfxBMpTsdAZafP!t<!l
zRLPW0M=os2WJ8J<<P`QP2S`>4;gqDE?ynebxpjFQx;&@lJkBXsvLuO(9ZBm;*v4-V
zZgnJGSKP>4a52tIw@$`)yHTssq~%5_aug92PFco0NlWo}-0i`wmSkxXm<s|*RtLgx
zsKIHoaO(;DNAZ8dEX2J^Rg%_+^%eY!2yk3LBZ+IOENO}Rco<%Fs+5rS%Xm^TP94Rr
zIB8tiMN!HKOu0kmDNnKt?LCQ7%ai47G%DD=bgCj*dZj_mru#u`lkQOtvM*L7-B+4d
zze|=Yqk|sUk@QH0Tf0LReEHK;p8~_-ruHVwMzKMH_N@|6pQl!$UZH+mslbiI)*%D6
zGQ>O=63f9^RmQb43;=PK8Ip;pPUpk*O6!J6c%{gdR_l}g5TBBb;@;o(eZzNmet+}7
z+ry{$_wmJnbDiZmGkNlp&f$?SPua?pM7=o+`)1BA!Wfr4`-##LrTR^JXT`Qu$ocsa
z_E#vHuvxBjn5}`%jk9^J@fXtH;4RF)ne^qyl>9K=7=rn~DZ~nO0L#dd6-FI%9z|8A
zU>#=co+B|$REf$tI7T9MQ_jl6jJrW@T91h_a4^G6ZwNG25Hp;syc~=Tk3mt$))4CF
zY4=giFdU<CVvK(NO&UNvTC4AV$&EbUpdSA+0`LRj5!SWd=)YfH`8Dy)BX4_WkKZ1D
zdtzbZf$y188;_(n^rx!&)8$7q<;QNESZd$7*uFpAzW;;vgK1mKv@KQ9a=*O~BIgg<
z52al#)5m8bSva1$oOZ*&KJDI|a_`T2Y96%r-F1C{jGmSm$Lv7X*D!lI1rz)|Y47$A
zeYH!Ct&5GD(v6$4zPhZhG27I&Tp~1W{yV|kR55cDOYNG5nPhfd+t<JF#uwf&XKNeh
zs=itOR{g!&o@|YOY3IK8uB3JzpE)sSo9{@i+nV-mLzy4dBJ)RfVZ#Bs9X2eRgbj}w
zKG`JHG|gUFZ0b!n^=6tjrFWcKs2)n0eORp6T(=U7Zn9UnSJHgH!T)w+x}h)AusLO`
z&HCG5rTG`W_0#>?2LH`d(}!**W-K!=X5GHmzj*VDb8X+;_}0dI?!K(2dC}96_H@kq
ze&FfNRd!`NdQzUY{Ah5Dm2K$s28dy5mYnWXd2`CyoHEOMvxu4~m%2aY0%G&o6J_SZ
z*@~J&M`dX4vP+{SG<Qj1mxrm~l%?3-6a|y@3$I&Vw~m;?a8Y-@QpW!lS{8+bO9qY7
zY2x$*SgNlYZ&jO#`XFV<aNRIvo3bZuI<*tFHYzxmR`W9u35HBl4jtXW5)G?*d$I)U
zcVg0TG3-gS$N9>iC0)R+IUXlt)iU<$p7H<#I*_}R+L<h4cMshO4;NDu6s1EINoSnU
z9=oonG(m}h6ruyzpcI(42$h)fj&<kdCkv5+OU<uR5G?`nJL4o)V^`9tj5QXE<}2%z
zc<mQ-*8WAWevw!_U0kIhaI&W|vdTzEu6V0bCi=cYiAP=9ipA?{<pC|0`<v)-@m}F@
zaO*xOk0WMD+CoMqfw4UdG9=@S;Z|Ak)=;ZMg1*)94N5(ATouNNUknmdX;89+=-vpp
zml4yHb;@#$(LkCuO#U(e0gQ_E&p}`P61`!Z@L38m>VwR14hPSd45f12@GJC|2~6Lh
z(4Wwa(VgchM1##}3>ODKO^>9hl&a~rAGc0lA@TXI^y+VM%Ne4?Z9(KiYh})`a?(XL
zg=1P$lQIe=Igw1aa9gAz?3A^PQ<jiSm2z(7Sr#_u%H@SO5hHFV&s<#QlNJ8NiAx!$
zSt>=Uq0bO?xrYFjAr6u)J^j`C8z&yPy<a=>=K42dZ*<;1op!I!xZ7_WU+Q~ov2P&V
zH?Yum9F8S-SU>DL{?@L!&2z9zpYEUD@wFqfmam>jJDbwBrc~c?pmB@)BLV4_ZGs<I
z(|==d#+7w=zcw=4H5bfObz~eJSx@D(<w0|A)>V;pHD+Cv+1j>jeH*rSwK!1Bv^iDQ
z1O)8zq@4ACy8l$#vpelsKT|WiE8V_(ZespQ7WBrl)V$^Hu5|Oh_nt{N54@j9H$OR3
zmTlRz*s?3#vTLzrf4XJ=jC;vj{pOy<`kr)s&pmHXwqxVBOW!F?``WP5dNZ)t*q3hX
zyI0vq@$Prrh=1Vo&-oU7?Mt4TJMP==IqO_9we4uiKd|6A20BS`4^&@LpO}QoCirk%
zx8U3TpmzP-vv=K@+Q+bZE3begddohL(p{+d+%suUFX&g#=5OzRXMf7GYsUV@<I5X`
z14D+7HVK|ev|kp$oisoKr*_nWqhlG4^<}}u!0f)+{V8APg1PH~)BQE`*Pgs>o9)Or
zTjv5PXJ5+P_oJ2b26Q{K+xoY416`mBfGXu898J$FH2?D{6=8D4Jb~e86NGVUUQLLV
zgug#<m4+Yx*g^2cI5TEpEwAL5aCO!Cj&?<9b^#8S^%Uoxn1EHhJ`$OTVIL)Tr+4i#
z{ID^@5^U~LY^uT##>Or~9LsXk=ByZ;L+07WbD>ACe~^4ALXr#r%&-TiqzdcD;#mRU
z;Y7IVg$PcHgkdR8h6}~&9ee@by()#rB^U;B%M)N7nm>{sy@<_``D|#eR1qz6K^ffV
zGM|Ce_iRS;3F&1#B<3$UUXd9|2`5PiUUYhl&>?1JjnLRVzazD^|NU^L;Y`|Gd*js1
z4w6`%$~e2`2U5;0Df1S_ffpa<<0$6ShdE@pq7F1N$k(bNH%fJcG)U;pu!ot<$5%Js
zLdMN8iFUO!DAcvNLT<B8D=oDk-Fj*=SB#;_m929-Qr-LB3uk=CUpaN-==6>yXX)!Z
zZ|<Dg{^bL+J08Y`wW97TaKQdhT?TlmBF)wDQs&n!GA{-B6q^fX=r7DVKFabf)S52v
zP}s-_%7he}=vw3E;x?WRCR}ViMiz=n-l>w1aSC)5j`mPv={|TX`={0I{CDIUIi{ST
z<_^X&xstBp>*u6H$H9TJVddGJbS7Pt3!K?k*ebvDic6`Z_B&M;S0x4DGRlf^Ukc|j
z<<|9#TWy^OE%PK$Bse-x$Vi+N_=$3~wx8AHF>nU9WH~fKZuZV_YY^X2xj9{3Dv}ki
zc;PUh;!|r<5eN6nucQOLVoSP{74ZB-a}SrSTPjDdqwlU8uk$gn5{ENl8evl0P{|ZX
z@R$Mok3D9%^&K@#ybw#N8#BYLKb<sBnq~gPGG)FdFm04A*bV?;Xhx@yf>e>LrgU3S
z_#S~+5!0#vkx?XT_am#*M)=rhcP7jrzL#91O5+G{!DWH;lKJjiKg?__bX^)-Ew>mT
z^g;#R5Z){2@(SW02gtbl*Qoe!(v5L`OrrfNJ+|R?4kka0qa=P#A|TR)8aWf3P;zFH
zv4*eETb6SLq1D0(#vkHzAts6=4i64BNbWEKb`Y-dee3~3hvAEps!1=elaDg7dX`X#
zRn|eFZ{R~Yugns1N)j6;<K3J`iG-}3$G8-RG5@{drR(96iHg;|EcKuU+o@xJ4gs#8
zY*2Z~?6#we+fJspom|*<YN2u{z3tRHwt2(+_L<<D-r1*qweEH_we8f6p>*XC4CCI8
zy?bQtdb)no@6=}M_omD>OP=x@gJ2eCuH19@8JD=!wRf@WP`c~T2VF<fuJ-BUsjBvD
zb@%-7boKV><5_q0?19Dljp_Q0^OxT<Wa{_abMFD4wp7<OziXjx+l)0^=l^=|8@)3n
z_uDt$?R@WZ|MT<Tc|OyABIRkl-`bwquqV^HHw7{Lx{g%$-t@Y?Gp;3X>)ea?ydCq8
zzqjXJ&ryg%mb`E_KKFRayE(P}c*c7?yP<b+!_M@Eohje?Z1sjz_0|u&_r5py{<S|!
zem9xvK9{QLcu==F+uTWiE#295Te8iY!Q0kX!D(V;)pCW<ym4kQ>+6`W$@sS14W@lN
z@e8@d%u&cimbVM_+dtj~zVJg&<?>O3(A{tN2-`9BeBu+tC(c~?fy4i!6{k>j8s=23
zfQVPu_3t;lRn@=K`um4l5&VPtLw5Xpugy*O?Ka$tGYde=4`CMaBp5P2)jN(=@V=rV
zGBF5|3<RiuOf$k<$R`=$n1W^{F$kO|@^JwelmnV4o|r_=Mu-!Qtw&<ERB<%S4y4v^
zzdM<+AG&e)zSF(nX`8#4@pOVKN}0RZ6vsw_bND|3ZsiY<FIOU;G=jJ@BZyEhh0d+~
zA-<#6@#VYkE;RIp(<3sQ);UcI*x?_+ic^G~L|<XdEr;M!lF=DvhHZvEFW>*99X>4^
zSU$EkXZcttFP~k`U5eZecy_mw(<RX@mh!Su6LPQQ3AtVq0_CVjsaSy&UZgJ5`C{<N
zHLO%?$U=Ev;yEkf2h*+3`59`-ODIJN9@Nyw+EzthlxtOmH|3~pb*MtDK`m=gOENjH
z4GZwy=nGYbs@^n)szq<8Myx{{D`eiOH1DZatjD=w^~m2K)==-@yrKHnN&=0O_Rhv!
z6*~?C_Uf`9l_TVV>3Td7V8n@@a4-k$$%E<?+&B4i&>VGQu^>j|J)hCwB<=B>;M+Y}
zZoCeUVv8Vi_=4@ZiWe#u%O@Y=!bQ?Fr<k-Ju%%vrW!3jL_fX3T+^-{ECzQ{XlAGhp
zqjG_X^~Iaio0sZ!nkY0qv1w=9PCgS%@yV;b%<hNCo^q{G3(Oa0*~nb9P<q8GWfz+8
zXm$8SssjcDb-)U^jFa4<yb2Io%qsAU2ta9JxM9N)ZpMfZHB5onCXG{TIPoc_!_D_(
zt+^<S)oH@akSS^SRRIpg!Rql#Ti^Vu@M~rTeZ2}hV=QkiiN9e(O}Ob8*ftvL;}e%I
zVPEF}PL6@I9XhCI0%{CEj+(OL0?vCGixEh{?ia3m^3Q*{(8>0G^3|vq(KayRD3&l4
z1dmsfe&`rRUZDM><hKVSC+d9AKN$?i;J8BlAXSe}9Ab{g_V@?67y7))`QZ(S_AJw`
zQ+%17_=2;Muy>giO(oF9)kE9RHHoc*W7u|u{jijR@~v)oum9+E938{9W+2fXf1*O(
zcFpzxP{uuec=h+^^+#U4_*N=uJH9CG0BGgxDx@>18$V}>H7sYQ0u_^60!*H5KSKEw
zM0#`}eS?6MARRzjC%D|xd;eG0;8I1)^pPd<Hq-_&(4wy|?dzMild)#!+}Q<p=lzO$
zXuZo@vMp_Mm2hXcVcq?8FirW@FQ%IMmMzBe%_}Ce7p_XprDf2Ecxs_K;Hz`gRJ|z7
zV80iEwf315v%(;;OX3N2@QcAE+oVeyl?m;^8%|!AD=@&&6qjVs&|}840jR|Q@J+sI
zeg&5mVx~qJ=M+z#*!FNtRXo?fqyZr@JqE-EGoVH0;$qRgC+*&ovT;3Qp5l}GkoDu^
zpRpf-TMRdx+HyUly7<EEr&C^xiCe3BS=;6$cWOazsu_yS(I>&<hoc44lv5dbdg3$*
z^-v=cR*4a9fD%<$O!-%*fKxX%aOGN7dBAcm{TF4F4!c9;gt0s`W=3YzR}V$;YN~%t
zgSC+lR+&&)t4x@kU}IsL<@BYT4fiXWQtNhRDt4t@yOyvkMxF~fD?5LTZ|c;~3nz+O
zF|)Ch51L_Q@g12UF=r$?f|T>fK&V1%V#CAXPEGiIs=Z7kkDcH%luD+5<yxaQiX%OS
zg;<pc1POtX4p%yf20d~${sUD*rjss(PUewGE6QXQp~YzdnKY5vBJA2VUc9J*(<ne1
zrcbII3I)km$n+-cYTq{e0)f0a@j!*(Vu(fUJ2llRVy8dI?4OF%snz;SWNsIF00-Wc
zs=0?pA~D9Wby{+bc{EE-0(vYHtlh{fHPDUb9?v9i22o)`qC^Fh=`%q_h9KiH6ark>
zAQPwlr3(M_kq7SXtjn|LYD~KtmrWLrW2vq&TUB>w?Dp74C3pntbXVeBBQhPc$fjd?
zAVuK9KuSVjP3l8HU2uI%ex5SHT9&41!G)7U%r}f-Vagna0`xbaPWTPOlm%itoTG&p
ziwtPS#Oo>u4dP5h96v{{)q;91V`C)z0`pv|P%%2vvBwXliWo5BW7HzBllj`X6oL}r
z63j{<N#T1<`SwwW^oi$T=yXFYpBQTBl^ey#xU`ax%4&S-1?JPBg(EN+d8?eVM5sW*
zfywYVL3_dZ8H+fok?O1*xfm<7^v;#BQz6xY6K!iCu>55IjiBQsx*yQt(;?rzY2V(A
zZ$I#F)w;#1t?8<*)6T53D&=g-)-_C@T&meTyEj#{dA=RD>C!)USESvoGv{$j+4#Xv
zuzh6SBpJXc!%IU=;IKl>A)Vf%_su_QWasf1nZJD%XdtK6Zz_TX(jOsj9`UA9nV@eT
zfkH3inqIgVpeb@^X$SBcq0fR#0aU3S?~8c!ylJ@ND9D1xVp4DzhhjwOnu1*wF$T03
z&=O+oXbD#iPvb4KxWv{xNZ)V{Xq=G6Rp>_IIV0TfGc@rm$^jXsZeT#e3GfXr_V6He
zEG|O<&gB#n{cFHMenK`@nz%Fn<(OzjAG7Ubf6w<DHNW}P*Pnmm`2}~^lGnHBZBKjK
z7rY(Wn%b|M-!RW@TWsByZpD31x^>U2Ia9ND<`B|NA7|td*wV^<ic0Iz289YfO;G<l
zZZR7B3yK`an_m@H&qUXww@ILylLZB8zHGDFE8n*M5dJ<Zu`ABAF14=jZdJy;D`nfo
zs>UR>e?@5R9b?W8<Fa9RITd5H%i_8mbb+%~CmBrCa7w2Xq^e)UO+E0AsK2@{{YyOM
zY0gwoh#5}^;1i45Nf+CMrhp^NajeC_Ra=MV?c6pbakL+Ez)4dD*OZO?2mqT_0Gonr
zCv9)zpo@?tY#_`!1^)se4;^7Yg(L2Dt6Y21rB0Yu)OrIiO@B|?uXO02c~}MgQhe2w
zELEOy3Z$x}xzfElU#MJX6r=W9F{4SPUSMR_sF(K5Rw1rV+VwCx&oe`E#LJX=C}m0`
zNrx0nI*KW-Lfp$j2{Z0F4Z~W?3m9$bgsxqx8c8V^!Ydo4R8-{XV=@L|*OelMLm|6T
zch<UkC9U?$OsBAAD&!y~8MZ(<6*bj}@mct5m~y=Az{y*skJ_7%Zj>dBxVw`!NHnZd
zPMsl<YMhjGylUiSUo%`2uA80}u*2V*c-a9KmR)oLv;TsA!dxJ~CPYUug~-X>1)4wH
zQyS&yAh{ZRt#X&E!HH0KytlWvlha{!{Rv0j{&99LZ_Iyz(@$((;h%)FrgK0r9toaT
z!_bz4c(T)pa~{-X{MztKK}n&fW&A8!oHarxnZ$C&t8pf|NO%rKBskZCtZp1m*m25n
z;_v{@;o-g`f+MV8#i<up_RA*aXc=Yf#U9qUG)e45M_Z_`E!2rdT;ij(bdcc~=>o9D
zP{N}tm(0!m2|INVb;|xkDQ`A!;C^Wb3P^mRE#?nFoI+9<UVZ-s{V~87di|$hWB{*n
z*l7kc31$qyI{cz|Irvg|e1dzfJ)^AZ*-^n4AfKdz2Nm!0RP&LESRB4HR8)s^Ye{K_
z?W6DDhf^YG4TM}RV@rmMFf~#OQs(SOuaAgqv^bH20s@EBg2#$sdj~tiI#+^onaA)^
z2xqXe#hHN-QM{TfX9s@jp+`E1ylm@2&ha#P^Wh?$wmdFd@mUK<qT|6;Pdn01syDn&
z;-pKef=m7=zyoJ`mvR1!_zL!#GhspYJ-QJ)CY{3#2aoHIzK%&mw{Sey^%2;G#V)b0
z<Vra2Gt8W9DuBs<`P%M9WJ+|bLB&?JyNqbq9b|#VqE7JC%(@obFi&kux!ZICCXHpQ
zX<n?^o37dW-aw}2$aLw0+TB@KP1aSLZEVRlHh*Hb)H$Zhmdl##-5*vqrz_9k5aY@-
z^H8Ck`Tn+hm1m|0e)yO{ptIq~JH>2d!P$*v!D3Z!x~g~nrEh=Xoi8xI>mPd8&6Q-l
z9Vu7G16$dmtv+poM9Wy(`-xR3EuU$~xSAGS8`7=~_@Lc^eYzxv*+6E(){MI^W$XL<
zPr%A}YCjel?A^#yUO&6_ZP$Wl<A=WLtgrgc@!Q8|pSXQ8)w=zjZ##^H=j``<oew-!
zcgk*)6VS@8B^VC-8c}+A1w07B*|+1iV|MG;+&Haov3g^=dSlk-hr4ewF>cy0-~2`t
zKg&*`rgufK)>MECfK^q6;B9?-+q^5&x_z<rK)Urns^uVragQ15v-Rs{+viH>$5I>j
zFPjYI2Vsa->Va_^&iFg~)xNn{%GLGXmv^J?KaRBlw7zREJ7N|7z-m9b+4KkQLmQ9w
zn7+5qfQNr?>_Yh8_gD~SXWn);6>h&_Td?;Kd|sg&8G=eg2)JyL1d$x{H&f^wy&$s5
z6=G*8beLWoquY79v4!PH3T>s^Cb~UEw^mBb<^WMZZqvx-1py@292}<?OaQT+;^_7&
zII@@-bWPi;?S(t?#;mz>$z7i@*OP;C^2D_>)w1QDdFKlGBF7Wk*kiVoF994{Zay<>
znGMZtdE@fDX*Qa!=}DLNEL-pv%S?ysV>?1D-?EY7Ji_k%A6e>fq%QKd-h6hpayCA9
z<c-Ps*4dZSwY}-m-n+hZ>GowxLIsqr*eSHjY}q>>zkB38@7?3?yu5;~)O$a6Iq{;7
z)#wE5oXjWgzI@MoLayTpR!7T2>xj4bgtwNC@hyiI0=2~vzDjK=u7cIJ#^U(2+9HWu
z6ou$S;1wr@wv}7f%e}O0L0C>iA^P5mlS1t-%WjwvE?e-sjI(SiR!S(eUg+pr#%#50
zf}FUnK3iM&v74Tjs@5-CShQ7uAAphB9WyVa%UYI8Se#8LubDN?K0WJ%L7|!*`{Ya6
z>oVFh&x*lNII3oCX}kZEa(X2(03om#0i>uGal3S_EZ{~<JH-bbKi7t~GltBgX12t$
zyyhYo@HpBR>P-DvFaaCl==>NseGfPgrVWeO#29de?C@h{VrRqPNWFj?N9dVEC?`oZ
z$rN@>Ey`7w3YQEYRB{?sv55osphP64Vj0gZs{`}W$t5zSWuS6exNZnkVZr9fRUF20
zTqd0$SF~3$(NA&y5t1qp!3Dj1DIB8B-*ke5rV!M;fg+9(c!jj0px&HmB(9v9jcKM{
zv=XBKl})&@m96^frZFje1uGS$v0x3ckQi2T%VJM#LbSleEPTk|0BpAOAC|s=u~SxE
z6wcXkhBh@|csNF1^DAelzKoZN`qhobncKXm=ZG*7e@n|kTj|Y`w5?{rR=4D>nl^vM
z#vmncrH=A=dk!P8roc#T0}{zsv9-Hq9YBrX;%f_&&#c~0$)d3jr)X=Gmlvotgm$^3
z?&~+NFS^&mYI)J!m3DWfY}^>2c!NH>{)LkQBO48_;Qe)cdX>(W8FfOcB_;et27)9^
zYKjomp9ll=wQw}f>aTaknOAe_WCmKqSFSk}l%n8L08Z(Cxdn_!6|{h>(AKIqI6KbL
zU!r;w6zS^SmUg#g+#6E14IJN)Of0Yds_c=-<{eti7CkelnC^?o5ZOwX>1VjpM&i!S
zPF!U307kkaaK{Y?(2~R_Gc+swv{ahom*LboqKOS<HRy<+bL!mZ9D^xUyCad#pUi?a
z4L^O4bJTJNGID(a&D1MYxDudsjgi;$#xz4>w3`rO4xIMZIUVN!(2;iIZ_E4++)_5#
zz?bHsa#5H80<C)?rcmM`n1G7#@6>e_)-)56ECdZ+4@W1W+;=r?w$mMoLAGaPgeae$
zfqvi~CAkqIwfc~sdEz9U*M%WSs4k#uq3MRp<VZM*?5j%CDXmW<0m;Pt&|t|WD?a|n
z!ynZU`Dx!EslefTnHNn4+-gI@aYew-d~dV*)2XQuotjLVLpQ8KBh@tB)J(MGVKt5=
zy4Dz=B57a5I4LJ|`PMq2i-4PriGa~zlT$xp@(3vtk(oEpbS}6aDnK%7hk0vu#hO@z
zlSTClFnGA48ars8QQpJ;w^L``Y%IDnST&2Fy<|7An-{x`U=z(R?Cn*Z7LxCmeTcr*
z4ZB$~pfDu%7Xdzb8TJUE2d9D4=s%8W8Ix?FN5(jd_z>S><D<c4<2ej+Deo!Anhtj9
zC2Vn+^A;ISE~i)5gd86D7E!mBoJC_hD3E{*G9+uJ$$*OsZke(`Sz2n4)v*R-tx7pX
z^Z!dI6~wElWwB{bx@k|QX<y1#k0lVTr51f%X<t{y*E4N@P}}(C$lF_IFTc^0sqLID
z%XaQt>^z+AJp4gtf7;cCEuG`p+Lp!Io$1=0@7Xf7ho(<}A@#MUyj^g%R$l+0vSzk!
zZa7o99lJJ5>t}b}bFD|H>!<;ou%}5m-Xd25?;f(38pSv@&s-3-<zSAw1I#B4oyOol
z2i&VuwaBn*$L}z@hwT)ESb=m1pF9lhe2zpMGQ#N~_DnY7>m+QTppG8@OOHQ(3W661
zt}cmVY;UnYG!czX%E()-S_czS#rlZbgFiny^#(#>h87`#kA+D{MaSmA=?^?v%3>5^
z3*nD+9N)&CWq_7OMW{wf0jy;p9?<l&<|(L7hX~JIMy;_0LK>$tilDZ7A;!)sAi4z;
zGf=Kce+&XI)+Hl2xd<j|TzM7qcZj{0dNqroC$5QOTY9%|eERXu9)AS#E5fg+BP$~^
zjt6#>&%{+fNoRWf1HkPU#W)&3l|z?DgOH$T<*`$fWcv3ID$2VYJtJ;}zk3iyAnv>l
zP`jF&HN&MVdDdr@Ltl-FNKfOf8y#iHfcy2mP8_yIe#n@-!0JiY^$!IvrDcqwsW79~
zlP0t5a2A83`i72O9-n~6QwSr;%!#cGSnoiKsI*r($2+em?%RYlL=PNV4LPX=*yq<v
zMh)74P`wBUgO?;x<U&PVrvV;59hCDb#=u$=xDF{wPo}~AMMAA##Z6vH$mp$(=|X7}
zJrpUlPbtQ*EHxpqaSa>?ELbG@FA$<5^a(}>o85ejKkTe7DpFw*3|htLT#LU-k4(Zs
z2lMD8ECrGi!by@QC1DigHs$yw+_1r(FPTQfNMv{z9uB{VSjN0R#)T&dN=mn9sJ<Vd
zu)lvz_|QDG3}1KEsfH~$qSsP=H~vHV0mH`6wdtO1B^M~&vLFPZWh>m#&nC%3TnmM<
z-Mx<<I+m>#%hvfSI>K%1-61-{Z7W1<Rv(>|+cIB$*L!#5z5d_1a(7+2^U%iv;;2mi
zcDc%JX_~t>AG>>G{(5@Dt`z~#%Pln)-%`16*@9n47krS$&6%*>&<oT~Q4q3}&v<7>
zW@^&*I=F7JH~(LD#B=tX8VYOZ!4b4my@-RMYlS-oQUn5dPP@s^5!)*RKS#31qe(L?
zCu&ZS3DYU!@$whkOfZ|X!Z!l^C*;b20ClckhCr$>;)^<`-eg$Bq-r^jRwUf>Be(S5
z>0QBAkYAy3qucv5Za$=duWwgp#@v~8HDt^USzq^pxtq6|lI68n;b$OVEG7hjl?>Eu
zXr~1VHh5^lerN!42>YT(ZA>s?f2}M)C*wJ=vkPCQD`3O3Q}=8SLFs~WN<{~R7|xKJ
zTY1ZZ43Ai*lq$MM9k7iiSKl_V9HJ3&%Uu!jBA*ZT(DYSnsFDdps2rPE3ESx^JXeX;
zu$ZnXDA~roQ!9&7tf3m6MRy%?)QXh_Imn{g28-%Ove$;&@p@g3rci_OCe+AE_R1}=
ziR)0WCe*{fW|`|y+B&3Yh9l_~(M#orn#Fba8d=J>h^_34TqI--wIJnsR+dd{)AyD>
zEVs)XYDMaHxp%2F*(yG?UY|OYR}Q{ggT8J@&JCdr=-<_S(UF(iCUziwC(?I5V){0v
zonj60nppcBp)Qor#Y!kFU+xw3WH-`uhkBI!sH^hM9NLI?J&#b^8uWKB(r%=FQSvj`
z{j`?$i5>W2vD&*rn^0n}49%ZbjvlW2(07{w*PGZJ+5))SD)!+km8j)5l({*yUEC7d
zK`<_EK@aRi+*X#B((M9N?q;ykCT;_)aVT+w_8`@EZEoeYlD?5Y&+_|QUpuX>JJgYK
zh4!MpJAZ1W??dUkFgE#fL95Abb=K}jEB7$y=JTZu<EgzpfVX=?2iGiT_3TpS*kj1K
z4|8N&;cRAD<`CZQ4;@CY7tD3`_6Xh{2=%iWk~epYrap?)2N}!`sP&}pQhSaSK-*gN
zb%l<jl*h0S<-{6evKq7Ik2uHN`f+z-&&VM5j2vPD<HK0Dp3GGfXQPoFnUal5i7zvT
z>d?g)(^2{_7Rr#xSdClpZe+~Ay!s%vT-iVZexBAUGG|Lxz5FG~)YuLa?%gp@H>y^E
zt9>~S$Lx?su#6Dl%LyXuoQrXX5b=_<Dp5ym=%*zRQ&+|gPlO{OQF?B8@Vqof#IhgQ
zS6$X2f-UKY_OE=5TY=Qt{BWr?ti6O`g>S&>A5X-Gu?qq|rxMnF6*`HOWZ}v#q*QY$
zaj?o#c4ui(DwRcUMS($r#A3P0!mQxZeOomsQRMDUX^J|BF`sWy=-25+9fsq9h#4j&
z|1b`zfJ`9g)IBg+Mb1}D&Lk24nX4FHwfM*8Q^tJfe~9y>Bul~qAWx>xM6yNTQWfm~
z33?z#tPKSFpOgvqGF7zitC=?6vS%AQrp*g*lT=xUN5@kAy2biU*mjwz-$L;<U?AH%
zzd88U;NtqD>Gel5>yJ@%bGD`Zo1JfUF18#>w;al}9GN!%;GxG?)u9G!$)*+gvqAbz
z*1bro6P`<SLR6xAjrrHBiDpz$%Mvx2WS~s?zerNkj+Cu~ae8@@XB5n(7LQiDZx*Rt
zu6)%HCOX%u>#C#=3TjGz+f%l7R?~M3IUAZZF#&(NY?EZJ1djw>xhlQ5n1q*HUM;<g
z3aW-{)Hs?)Z2oe-9rJ-=3ogav2zHIA4qYTnACkU>v}D-G+%qU}$-G+pHr`18oNn|*
zW;0K4$rp&y1(d*59L3?18AS~LB{jVPNwN5Y0iW;n#LWb>^czy$hrWM&I+1Zdm9jmx
zddNsR%34HwLiDD1$_yqcV~}<qs|(#D<2al|n!th`XZ^BSO86Dh3amI*VQ1=JCWPXr
zK2xhMiV#k~&Ph4Ij|+a(;-9;~kN}269-fCEfwLBD6cln^C+B!}e1d5)WKj2O8^aXQ
zIXOYOh)rU!S(0VyF<AkkRujU7=Pqai(vNnYVVzN|y7Z#ASYqv@KITaUYd3vu@KN5u
z^4>@4J-GPXilHi$z)Npqh!RXDs(nW#YQ2Sc^<#n-l3N3b`EWFRhFQ(<wHs}M=O&&^
zjG_`SM6(lo7`Wu{uonI)=J<o`(-o^h*tQoZBvf+2m6y+)G(kLW#!f_%a<Gd;;%d2Y
zWezLDe)LXL2q9SM$@>w1joh@sb@~fHOp+yO4Oy7GEvxPfAN35BR}GV@`>TZQ5QLX7
z8}{c6{zOX$q?z(gRlqvQH`z%%be1fhvD)rUZ1bPRM#c*pVO$S|%*JSRBP4+v`CI0m
zCp<<_1;u!r<diH`FOUHtWvPvBzeTrObdzwCCG6ZY!S7P+>$v4g71YP&=N9%OUBfFT
z03txa#pUM}Y@Z=qK@OAIE*n#>mMI1(tJD5J1S&s|&SvT}kh8ii>AEe8bvx2^JMLb8
zzdTcSWZDfcQT&Xa#hNYY8aRu3?}<#!!RgW^XI%<sYczFFpMC&u>Zj+<XFOY{E#xYF
z;+_*CgNE6sW{<(c)iZM^QoUzV6;Dhb!7irR)Az6g!{bd=!y(nF8PkJ`2C^(lxtifH
z&?O%ctyk<2JTSPNK^J^BxFobp7u??$hf0-s;_2vKY@^S^STMGmqlg2T*#2Zum5_pb
zp+4%;)JHm{kVUhi)tt1Bs*VKVQl(L|oDCV0X3PcSubGs#zG{F1>C?XK*S?INp>=h^
z1!p~~#VwRnaz84w5pGyp=qn%~rr=h*R8i*;3C3wZiW*ahN&BIuEP_X6EwKi-gmo#c
z4vmhlLd%1scP&yHL#+i^nWfcA`~Qkm@#*XLCwhohMPYF2C$~00E8<uX`V+z{V)UX&
z$1H&MvVQSjNZ8;Il|{m6^Ec4r*n35kM<JxrTZrSjKDJ%r2}<JOB~lumnd$tbCo$I2
zX1bAq4MRoJ?^E`d@Tly`A-;t%RSc<cOHk%Q#fTTHw&A!S-lorR477et!mUf?1&bd0
zJ$w<kr%J$%VQ*{N+q&r8oc3<MyCLJ<Gi`&J=bgdZgLh8dKDFrUP5XKmef?=)f5ta}
z9XjrsMR(^tcW1V>`<n;eI`Bd3*4yqG+icr?SSpHdk1gyto@yKXf%nAyy7jP|tZ&FR
zte@R8_Y900Yx`DArg{jGP4FUO5!P>m2-)B9^_Smx`Ga+RH%~(mD6$=5t!Y>5-0^ou
z?zVmF$`4$-VF~Hq1Qy>@Gwo*7lx?`?aGOU+(Lo$x6}2rmcnnV3xJAM70iqtnSCRT2
z@ZRI+CbV2#BF2M^#Zq(~*mNEV^)e;BV#xGwXxNCm%-1_qGM)hA!Lq~@{|8Lvpv|x|
zia9iAAqtcC(g4v4k1dAWEz0S((!a*{a;4;(5m`7pt#Z;xE<CjT!2oc(iX61QfO9x(
zO$$cy*Z-<n1*51;C;%UFYIf4^JiHSXpL)c_a<!d~Sv&_7nBH7X(T5U$$Ui7z8yxrm
zm}zkD6@FeGCMJ|Qh00NW#QDWZ;(pl(9v@ItpyLu;>M;w9U?euasx;I?9{BN5wQ>5~
z{xEkwpvCz^<6vaTBA%@|WF|$fA2Z6MT?J}kGJ4e%f~UZzlc^6m_e1;i-GIjtxatdI
z@j)0!)!MQ)@s>l`%ls{9oIeCJ*hL8KC~`m;!&edN=W+0*=8)z|^6_5;Y0GsiOsS!4
zQhai)AE`+c84+MaQ_Jz$A#W!oK;>(%_i2iN*%1i)a@NVq<_PEB6yMcrFP)1d-l>}(
zT{@c<=}r1<J8pScfwUxyjrlPG`qdbA`XMb{@Iq{Q9lrD6iP*wC5f8~^8lEJRI{(KY
z?<C(SxRN;jMIq3-5}9A)OXSzM8H^CT@Zl@g5hII%bZ5;?RVvZHZM;=!M*b-)Lahif
zKeF)KcLrfF-|&76wq5oyi&WS0yv;JtZfdG)0&_<OPZWQQ+UG3nxChP~e;W}BN38ZB
zw<#%+XR+qFYc(faJ$#W|uLC0tUy{ZruBt=Yw<a+vo?(cF^%g3_mQU?_-#f6-cH-}x
zR*&N&htPh~koGi#%xqY;3#FA0{B3h%i|z2Iy6e4~_cv$Sk1qHJKCzgp%l_OyFmoJc
zBfB3nWIT_3r(}L~rs_`9?WQ@~56U~=D?wb=KkzZ7{75jt*M*IWhI1?0b!@dee)PY2
z9{UlfRCU>perQ4@b7y&b!=det_w0xIeBU+H9O|n3ZmosFO;$vIw~K}QD4d6kNx;Xz
zZasi(Eu$(f*3eG!0JsT7S9;_|y9nqhJgowLbUN!5bsdKq$d{51yf5sjnPW(6-kv@6
zd|#x1V-uDFPPH{JG)Z+=Sjb4LL2$#Bah3ZnChQEEbh*{?VR~g#L^$APcj7pO6X0kq
z;AqV_!-UZ|4Rx^HOF=7oupcHY%xg;<GjE~YTndRH>_q-g84vVan{@uUw%B>vnncKo
zys&ayqo!9)cz|!mV6zf}kVPC}r}YwDlNY0s7zLVUYtffB^={ruu32Mo*sJuw4I*1?
za!brfe`s<n7!8l8Bnq32MC|4UVkSch?&+29Ka+_VOo7Otne0YD@D!O%P_y9xD$hHx
zSUIS+7snd?J9LKhhq&d+NUn=DE4U1D#K(C|6TK#WQi@WD{9AT9xVSbSE9a^v#@JEi
zvhA5NZzV#Ld}++E!8h@k^HSdyBxEcKp>=+7<X)vPKn3`{cTHp<TWaK|e~xegAtvys
zE}^A;v3Ym8d3Uz5G26O3Tekt$UoCsE-J->jvNa(=WAkFeu5`n$tg9vK@-4cEfy}tt
zRxGAQq^O0#L+75wj)UorgCBI@6oK{NG{^35-t*pp4>q4jdp6G4Qgs{ed#h5_T^Vop
zd@$qfyYH)8^leD{HY^)0wFj}^r?z2sC{xpo^8oPoL$9N<>LZJ=<s`ZN?}YRJCc)F3
zviUiCT1sbJF?vnsjIj>QqewK78EQC#z-L)lE7KUl8WkCE6rybIRK(OKzAj-lC**}r
zaY6JS2`JbIAI7%}D08KJj6=Q`J8m#jlzT1a^lplVuAL8^16%xQA+hM|PW!quzKt*j
zbhpl(;%<T6XHvE^tjF?p?W?`xLS6OrTH9N%`IhIJMzvpznm^Y^NKJO84@Z`dflix2
z_3da+!3Cf3&VndBDm78~0P=LQM(&4LxN5m?9j4`e(nOxCxe0%XZXXu2A^ILZE0I^t
zTm{V~OeF4mf{WpqohhLhY!)4#xOADtDuQyhpdh0beGX4yYKB+}1n4<8o9LQAIkDlP
zGh9pfvjiVx_6;&`6Y82^8oFclg>-FKrnYCg?0)^aw@q(9J?DhO^Gtm&9bi$}cxU+b
z@CTLc(?_$ex<yxW+SNSQw%D>K-LfasvTwn)AEq*V&d(iPTz??F{y=8^V?S^m!V<G;
z0|-1!MA!AD*d9PWKgpXAUq0m=n5N27N}W=u91S>|qIVHkbBgMvWk^R?F)F?0Zh<0F
zun_!^Bu%t0UX!CjX$)65VfZB}jOS^SW{THPK&L4&;!yDN5m1O#i=u*k(X?VAn>{rX
z;AMOy%t&HX$MVyvSjX}oL3_D1o<%1HVSD>d5}q;OrhuBJllcL?`T(~=kg6D7wH0-3
znd<7aUnRhL8dU<#z_wN2>ytMpU!S@;wdn3myWy(8eY*ek!JC7Nu6FogO}n<v*Wz~H
z<w?6bW=65Abgl#;_S`+QJLT%0bEI9}EBQy6<(x8|q8`h68IBJpm@B<vP^6-=epE}3
z%E*~E&<a6V!KEOO{#B^N#Z+F2zg7oHHdn@GYVa9Y|AE=imZ{*0Xnjgb7hYwB{n0JM
z2at#f;`Q0!t%fa3Wjj*n|1X@ACPaDDwhkK9dN5fDW4@R}d_o^0xTK2{5Uvei*<B<r
z4l0FAjjU_6g)E&`%JXU<mZu4&*+OcX6|k_foAjh`z78l_e^89>uw^}&P&j1nNc&a;
zPD*DEuQ^gR70BkWr{CDSi6cIm<jUIBzK_hbuV0l8B#y6%@A4F%@*pVOmFDwAE$R0N
zZrkt?e!96}s&@Q&ZP$zir!$mR&rH1e@<QLCRMX)_*O3ovyMDw-_N)FD7_a9{!Ldn+
z(7!UtKBTFov3a>7ldO^4a%vdApn8ez|Daa=CN%*<b;9Wl*vg5eRkdTOw)yMp-dML#
z+XX(X+OZ;-d{|?dXrX0N+&j?(Q7#%@hI0QJfi)LQ>cOULi9#x<;tM7NP9B3AOVbzQ
zNY#>J$XPpC2(-GS7(W0{^yo;sicxZ9!ak2Q@ULFfYDCpuo0O#woma%pm!lmg=EOVd
zWIDtgGpw4+`F<=Ee4Qt=qiLuX6CVdJ0IZ;!?SrsVm%VlN$kycKh=Jjbd=!B#XE@H{
zq6kSFhY$JqU?M4sGi0V-S5bM+&SXf$?!IG|ihv=c+Y1DoS-LT1#dLN2Y7S?8M#2zT
zEg@Q2rWDC7-J@(7+?WY27u<6GMme1rUuJHM_!5g983R|LMb{|x@_{mW6M?!EV%5af
zH75Xd#bo~Mku!aV!2b=v2ctYan-;qdrn?WmZ_9KKrfnV5WpJpyRNJ^%yD43}DeG;@
z`dYG8J=tn(qZaBm!<L%)M{o)D>P1^)+SZtA>Rqt)E!DIy)^w$7y5{$0YIZKx97xw3
z$kaS`vvj&{slmV4a3I}qAY0QauZjFyQCQ<a6vkIPaDPxYdjMxqq}<q)vyXGxdUB)A
zwiBrLnzPNIoud*~Pk$gMKH9u`9;Hq}PDYY4z_Ky%-&7!cbXXoAi{O9~HRD+*bPI@?
z;$a2E3433PP5?%N)G|ikO$B=(#<8Nua+*mm#|hSZ{MWF7nv4*zCx>md(b2R5s|sYi
zG>)x$v@3<#x6!<$Z)+4v`U?VGqx4q<p<B?GdAOJ`u=HQ(R)$+4!_&AXAX0xk1Q)Lb
zij?h72^e>CV5|`UDfN5P^?Ly+_bWT*D>9Wm+19o!1DA$<0G9?FSX49Zm^n1_BKgdy
z!*ZE3$>d^?Y~2};6U$qnp(z|w6A%G*$P1$(_yEyr??2kmvz-~>Me_##6qyF(aU}lW
z2>EnT7#TMB#9fdOUdCL!mfElk7K-hO9}0zHkd*`Xkz|KN^|UdB0~9eIRGcJ67}pyg
zSDT^-55loM{z>Q$W%j7(rd=o+_^wZq#{<2=xu05^3P!8-4lvSr*uWMM+{<*Fb{u_X
zv_-wHN%%Q^QERD99<~80AL5x~9@(|&UlUmCIiz((+rYQrFsR=7nQE$K#A;5_ijlOX
zF=cDuSj`L|R4x^({XAj_GK<-gDHMB6VQX=dg(8vyn90ywz@-Xu<=QZ;$fWN{D`Cap
ziASFug#cGLL4NAkv0y7An{PPcYV48<AJ1J_ZK7KoK1ah51w2=0(crHrrY-CUZF+O8
zYnHx`UgfBl>|MD;lp%Gv*}5KAv>N#wG21T2@Ue25vyPuwt=}lhEkJ<4fcZ0V3vwm{
zfHd|LU<TYmgHYM16OJuG(%Eu2-Ex?j{&c2mIu~nprE7M*R}0TddP?7V!~opg3f#SJ
z+5m^evq3`Mngp_1HbCGkj<#iKL}9oIY}Ls^Dk1&qG^txdDeESwD`}A`!QLt*AdhmX
z?5)l?6Df;L7+B3HB~Dq#%8{y=XiZhjG4|f6d`J5wkr<eJ_1HHs_c*ROWEy4cbdYAH
z3agJsiU2Nb*WzlJQw#dXFwklt9i**z<VAO<jwyo8eZfvr5V;F$4D^1!@Mg>oROos1
zRILl~^O$(DeqJG^idrQ+iY>5kL`SwUd-DnamE`X3@=Icj85ks)Bx^K;X~p#&%Q&^d
z*{s+75Z^R_H3PGlIg4@Ull=cgwDdQ0`xrMULzo#l6D<|Y@fAwM7_W~IijgvoT1yvK
zRMZrsQ&DVNPHg%t1d4Lh(S*K<FJSfCA-Jk$M&BG+aJGEt#z8-D4Yo5~y))}?&o;JY
zyANeM_Wr-!eR*&k*Li36T$l?p1I!HWV{qRfaS$Xx@B|265-Ew4M9IsL5&=@ADN=5b
zG6fH8#+zipja?pYIjiArTt=$0<;j}ff>WvuRB^?WVkcXPYpdIUg%LtU(3Vx%zqW=P
zXc^_$+TZuR?w*4KNKR_=$4&vSU%!4=zkcs~-}_D=>J?Cev{#fun-Vs`d?13ZRPNL&
zVL(kCe}1X*)U6|YT-c>m?pi#*RC!?T2xI)CTFqz%2oy=RyTAew=sqm=SE<$Ai7C}T
zpgIR~H%1JA<i<ZAt_e$HbRP-%ze3haX2B50Dzx2@ry+nuHj+2zM1p_#w$49<b9fwa
zZE)fKb;AWbIEp4zh`KVSAPktGSfj2Bun2lVf|X2j-GgID?|>g_KdIMFj(S~Dc31<4
z@5R3kGW|55f--=(C0cw%j(U;9UC59`#z9;`8=FLJg>6#w-Afiq*<vYEWQ|^cZ#iDL
z=8UaT<arLHdpE%)HZSpws1pJJUR?kHCSqs3|I~g!9H4;(1K>PQul<kF77z_)`denb
za5ih5`J*v$%6alh9Oy{{l@>ebd4{wNV2inc8Ms8)Xn}#!LTZ{Qa)wOq>la^wfcNFg
za1X+^R2Wq~n^F5ddxjb@Wzj${B&!B!PRQkelS<50IzVL_FtU)4PZl`%I=;4`E4u_;
znG-Pmq%45IjL!dsIia*7SoLu0f~s$rSImP6cc}ud>OWG<6slVdV`pX+238U`gq>EM
zhM|B}`Jy7B2&f#y2IZ_IV#eUa3<O;9<qpG4>xR%IXSiU?Pnw=Y8;le{{BHR6@Jg^n
z3${QSuc>9ukqlP<yWMdGclB+#5_51NwgZ;1lkHm<Dzx?yxC4hIo?18X)`{idaI$B=
z+C2uht0{-n))8~wuWwI;A#Hd2AWnSOl96q2-xb*rI}9jP*{D`@ykFh-esyokDfJAg
z-TUsmaqn8(28QQ%{dfHLYq|xO^#O<sb;*uC7;&$yTWjh{oP-^|lpQx{q-i)+L@}q-
zGz4SrwRN9Ziz=&9r4p!ts3hU~MMZzAj|BSqrRMIKBX;BGfyjeWsi8IPcQ%(k@F5nr
zt&<D$mC#l#v=yy|%ixI&t%b|hs+;Cds#Tq64I+dNsk#rXA?B2-d($q8c~SlW)udOQ
zIw(_PFT(U=*<A6b55suGQk3uRX&&owz|6VOR}s<!>}WzPmK<RY;?-q?PwQsq3M})C
zAI@?eT(KWcfX-|h3@W8xM$8woJ(Y$}PMBQAbjbf1XBTdx=v&TjxpavoECSu%CqQl%
zci0rXKncoiW%(l@U51DUd_`KKPJk2-OBlIko#;h7df|pw^&-%9TmbqWfV)k5b9%4Y
zz8Ao|nEj`3VTve}3rNm6>ZEYi7xmpN&1?dO7&RIGowR<(lzoDk>f(Z^p)U&v_W|e?
z!z-w;-$R_z!qivOgs=`Ett2^RN=xC5^|*Z&ae8NfPusB>{}^d0Mqa%*Ei6pUxXJ7a
zgq@~tL}sd(zady3LLAV5l)b=P2vz}FKme4gm{b^8k?Mi)&HW?9I{X5AnWxl$q~QNh
zz)*?c)2bIU)2w0D&p1<7f)ySYVTGRnQdTaMq5k5?1zPNlX}I6cBv5Ceb4kfzBa;E_
zn3&3@Xs1bU(FAHDB0yUOvwZoDGL4}9=}k~3;z$=L@tXwh$TTm&oliO_KPCV9)pxEg
zPdpC~-4*WlC!W{(_b;?BPLN3On^$jNoj<=+)}wiQ)QRUIaN!EWL3f249t3(vR(kem
zJ$sgW_WkeTqH6a8uhhFAl45{#@hvdE3Q4i9!G$x+T?f|fHVB7x9e_wjY%E^)etFA7
zyHpZNb{%*~Pad%2BR7?XHiWApEul8(d{x&%52LPUrEWm08+fm7+pS~h(qyu^6>1ZI
zRbCylCd<h`c6o1NS}Pxj*^<HX*eE2QlT{sw_C(df$l|%hXJO%WOddp7xecOah5$5#
zBRU0$TL}FkG?XflDrx{HJ9f_<k01KEw<T3B)ekWzbA|m0&DSsa`&4J&r|E5Y`A^es
zbQ?ly=;w4TKH0Zx#_AmJILpU6-S5=<#+pO#^f(az(`E`+i^W9L*-)!ql28$IXYxjl
zY>Ew4F{C54x7<S^Q+;)oH&c3Vo9M&w9NTp`IWVae%LNAQL8$}k0a@y^&rD5Uy$qSE
zr<k(%>}!~iQ)kUOSU{KU>=<Z@vHwP1I#1?*fVaRr{_8}M((T@WkW1?;gE~Nw>wD<8
z@;?w5qS|hBS@9sq71geXgL}OJeU;|QH_dEJsM@^X_h@dD&?$}suuoMUn@vQQGgNpc
zIvC4OmqMt_TBYLjWbg~k13T)I2qETg(~S^Fyk&Ek%<`;OmS;6~A>x<WH`s+tWi5Rd
zDgu;rWOkCz=^5Htuml}H_?HnGoRr9-1MLYyh9_eU&VcYZESSWGtkyGi5e~+`YXKuh
z^=(?G`?E&v^t<{_Mq_2Y1WDceU(|j<G7c=*8Ev1L$D8Hb*&JmYWqw<4sTjLrQPfWT
zj<WyE=>~8I`F_@q{moBLW&?0#AYvu-)bs&u$@T#q4MbskWw!K+Wm1|g#h1pH&;P+2
zwa@53V*vs9xps;63aTUpj4uKXse6-rCBQL)`T+-~Y-WSlk4<H!OfRBA9Fwpf=?A={
zjE^$GOdH?$CWJzNVw1Am2bjXAv!QD^I*DJ@ZIqb}M?=vt$w=w`tRWk%@9CD=ARUH|
zoij=qSNgDNf_9(7SM$h*NW5u{UaaIS_WtFUUVVA;rQJU!Xh6-tgY!N<mn$u}>j(&O
zO>*3&&@9ig5BMbAc2PhJUikq9ti?!J#A=YXRFbyVIh_Q>1y%uX7n0IVxn*R8>3pV+
zFn+<Pg^!;5DKL=?MaJzaxd<{K5~Lfh5$YhU&xds<K)FB(E}(TBLx*2w#(i!+hQ<1!
ziID2mfRWE^g$%7KKczsTz)b;jl}SdCed^_*BKobsNCIc_#(xuK-MpNCNZ;kp(Ht<4
z&_5LefdE^5=iR2e(}{MV2R}T#RJR)z5Pw<G^!sCXL(9GU@14|o4{IGq)aD~v#nGRQ
zFI7A}SA0Lxb$9Ho&|9x8?>V6joz(iCRlA?nBF{neC~dVgKwz~NC!2=O@A-ev|6Zg|
z^VR_6IG?QTU8(KYYDo?BnWfsjbH|b`yH{HFYc2cl?f7rcEVVqPdK-V)wsoQGy|x`%
zpa}?2$67hms9=~r@ygFZf@&LC+@ZCNlhfzgF1349tKAiwNY)Li+YV@T6S0G9p|*r`
zDb%;{v=$n|b*;K#etUe+?Qxh}h>fo`wyiYo)Eaj#j^FE8YJ37ZUygXuTA()miWX>F
z3G`|KSnFR73?&0C^GMpV5*X3~Ll1E5?1lVCxa_0Wp7;ciH!#90MzxC3#pmvw`bEXD
zWNXg@di;qMw6F&aQu{FIV-5Z5L%@y_Jxie-aAH{#Q5%MqYPN$nN#6LXx>SFc>g@V7
z{j^M&(8Jv*KTT`p+cgs&$4`qZCrZ5L#)(fX5zUD=&c8*3sb7?u_cN&2lQQVa`o_a-
z97xK~Ix~#$LgqREz6;a4i{K*%ON@TT6`~)7soqS}hBuXrkcfMO0}bVL8S;McmST#M
z0*t$(p1U^l8BvJ5Q76;I?Z;03fnB(=&ZCSlwUmJAA6SJa3MP<{_%~Q6pWwn^Wz|P$
z7fC<}g(2m~^yD8X_)7}@1A>m?ESfBzYDh^=VLmw1Urd^;@;~VTuXTn_wBXr#1ZhOE
z8hy^n7YjaEfNHym?$G1x)Q@S|{}@eS*;h%$B`e+z&D)U-!n8;u$(Bb3lFjXOaOi|l
zwPN=Jm(Ar)ddrgDTKoZ>Bb0rI7J{TX65z~^WC_)_9qPzaOWvnxp1bE<ph1vZNs=BX
zFBl|~UJtr0=5@FobYITmW102sTFrJNOBkYtOw5I_d9W)Ptf9Z^?)4&D&^=d#Iw8=p
z9j?Pw|2EaRjdzm5bNnY5*NrH=%uk_}koSw4B2J7D5areZDymZ{!wfW$uuLIitzfpw
z##%W+$8VFmo0Zp?*Ou?oK8W9jD}d|?xG?|q9?otw|7FZ_@P8(4ckM>&yi!3Eo-NL-
zhD#=bDB7hEt3kR%*m>R$>5s2eAMzGL0I7AK*-Jlikv;LeA6A|#>WljCI*j)=kgbds
zInXs%wB&A)Syw60z0znguUF?xM&WXECf51uAhn9Um&H>uR9QM7(SeERt`LWTEHB8q
zpu;Lt%+M9*C$<(!kFpL@I-n@Dgb7gKaFt8Am{6(#=a8I-YSd7wS7c@huzDm2py8sJ
z30;(0x@C~U(4>-X8KeY11Eg?ANWO+8#JB@Y(lw9`qI(GP9&?1?LMVgoV9>I-zXB#@
z@FWuxQR>i}X_^W-KuO#P&{SodA|D4jGyNOlkNUCv@iJkoq-l~VWI!dn&A`S3*;?+`
z>iQRUE!FLV2OQ%5Rwq4yxm{XKH;4}_!7dHZqr4X8A(CyolFi$bl?{Mrp>Dvl5d1qk
zpz{{^Jn*TZWhJspi|k64mP6wPei@;3)36&HCxM~l0nbhYcy<&5o-G1+*7mQ|?A2=a
zCcQ||foC$%0c$!ye2RT(kdRqj#|LXpE6sbf<~>Po1H;c+0LK<QYXBT<?_Oye)!Igr
z-V*dGS+^zGx(Bee9o#T`J2>Lab1pU53^P)n7m8-XLxOdTDg4W*=G5W?Ltv5-b!KC3
zq?!}bH$IkGf}PrHAbU*DbZ<DX#DvPpeV%4iE8Y(?s(@n7eShQp5CjGnFE05HsZQZM
zF^4qtFFZDlw4z&R-O;u|ODz`%APEn1BsMg?WsF-^<}05y5DoLKYUj?y7nb}7Rp&u*
zXgi8N<cx-?-?<xI+-ScoMDG7SYN8)o?Ac&%HE>1VF~B;=CYb*Q7zTw%<3_!YYYt5J
zV22|7IPaI)DY2iKD$KwI@J96G)^U{1@F|hc!JZwB9om+$pHj$r$~Cfp#lLIh>4blI
zBpMJ3#E-TW`azb%UWjavdB4*Wdf!Mxm1v**%V?;Av@)RQaDzbOx#>G1P1?X>uuR&c
zZZH}gU^M8Zz-TBEtcgn|VL^X{3-A$UTSVPVoMCSB1yec&Jl<^}RUBf*Lqn#N5d$Np
z$&8zf7-Mw7owh~2M6~EAI(ANfdCpFg0xuw?_aZnd$vnMIV<@u~9VR7A1o`ogtt&WG
zK*2%&ffX(iEje}5hvT}Nv+KrWCfD+l(sfxc@6J(>5ZqXc@&T<$7lLe=Kjp8HFmvQH
zU{Nk<Ad669XjJr?8WG>51xhoAH6m31fw!v@BQf`U^Kzi|?P^^G!WWRql%y3bX^7ua
z$5uTCNdzp8$2++9pWDH2P`BuV8j2c0_eb@EF%Kzf1T^a9lK;Sp_rUx0gL)rp>f{M!
zFG|d8&3C=1V{0(*M)n!V|1+DH2WrBMo-fQ;PJdxlKHX88rO4Teb*Xey@DtRjv{Q_H
zuqZThv#3Z+K%(_7Xh+OAXATsz%l|ulLm7c_Ry#^L&5cL-84abEw-}Jf31wV$vO+6B
zDELXd^%&HrX+cWrp`Lt?s-d~D>g9KO<tiEOoZjdt7uF$j?!4GU*;H(4x!GT*PeLvc
z3-4)bt(_~ad$d;I5n-SpIG?ovL1>yQjz!lYLmGshO3=Ml-?dWTuhsW2*AF5`(7nz|
zDliPtxze&rYuR-lM2?GzN*LKn1{#o~)u(wIL6f-*?|ikL$v|Z?P?2nE$4RZ$H}@ot
zZ`G~8f9~$!Th8U-C$+7|w65c7>v65>spY4iU8;Hx{G^t?m6q*V%l7wLhM~)dn!b3y
zy>FrGz4qO3jt0U_XR^FOE$@Mz48()rdN7iVw8x`~{=_SZ7Z<(+LptFR@R3SNDUVw!
ziOf5}@mdLN)dE|S;nw*ZT9`xu!Xt|#T6jVY9sI;<0d1vN>L90rts}7d1IuFNeOh@R
z4xb=9#p;*5^kNn6IWH>2>t0r~JW%Pd9-mi|h&f32=^r8ZY!<}n!#W%$LmGvd-(X0a
z5Ye6?_-B~nQQH@{<15SGXv^LOh4rndmF>~7B`%I<v%XDcGV<8JV={rsP8VCF`@8Ug
z8{{JaqA8>p0LgwK9`hFF(@c+01t2Z{#~rn2MBDgmbu}_mBb==9+7+sABp-?;eI19b
znV&X9PI3#dI6w~K@dRcbm8+1fdsQeFK%^XgMGTLqtWZcSGeLgMQS(7Dp{>jC!Z6P>
zbve?0efm0pA*xm`5(8K;$>0(L$`pni`Z;)+ox1jA((E~l^9pPSWGlg(<)fi66$wC;
zW5eidM=uan1|>|3ejVRmAr7u#w~Eh7tw>;yu<B;+B3mX9YIGpHFcOzR<4m)7XiE^1
zHzDObp83Df+K-}EUi&QrE6qE!<{j@fk7(Wq*3>09>m&nK^X-ZKOQ9`u2Y%@<jcxnw
znfQxv^mV@sDmYz<BZ<+4FD+IqLM06x+L7eQ_+rhyr<3LNu}f-X^hYP|h5z`)#V1md
z?XY}UPT3vd!*bf{EQjEp6AQ{Ewd`c%aMg`B(8VTma73cZ@oM?6h<uLKV&FCZuT~4K
z6YFQJ6O+|qt`lV&!23*tL155d6vl=O1si=4D70|?u1YK%u?Q{-lNrW3_?x^sXjx!M
zWLCw?u){&(s-$57LD>t!%rqwO<?HZr$Ye)Y-@t|`HWx#ML%5iUoE>G?BD>FaBO2v6
zOdd~0cb|pVooq+Yu;n52Lm>Wul>^=c*5f&$ScEkQwsbelfEbRAsWYq*M>`Od%1F6G
zH)2Oih~EAznZ`E6=Fj#jLl`k*VGPseXf6z8JKgppc+8et2=1aUUnHhDNzv)UyvZ4_
zK<;;FO}w$mny7C1?(RFg6YUH8m#VkVJwa<?bjcr?KeFWS%`6HmhaK(7_Wt?kLf^uv
zg(JA%({jJ1JyEmNGNd+d$BNi-j2FbQ!V7}LPO`q!^#8Z3qSctu*>AhS(olBdtIzya
zp%M+*ezZZVdweJORlzk2Z<=ubn%HGBT5!2jbl2ydqLn#QH2a-r`Zh$bv*&4ck!6~!
zU)gN3cCJ+SYSq1o8;hk&)uaE6>1yHWY75hJbrAf9Gv*BZ7J}l$k2puWl<~76!q7W}
zCxG6YD-&&`h>R1nf!~0AUYMG0%gJL`+K~@~lmEkMG^0I19H&CM6VQanYR?jd&s(O<
z(|I88mt7y9^({Di{|dDV-Fb)5!r4J{Xp{mzVC<pT00KiwpIJ`K{mD>OnFYk4k!D~4
zDg9~?c;0w<s_;=^W96HT3w=y;?muB1fHVZ8DtMhErQD^;ez>J`dRLqg%^8`mOdMNw
z?&SLh&Do$f4lMlIvUB_+*w!Wb>kh4MM>0?)4g>YRx#KA(bCNnWZ)al9;<07#QPd4~
z%^rb8L!hi{%Sz|C);Vq#>%tkLZSF|i|9IIof2C29v5Ooo4}C?Rlf<0EoGffC-Q?zw
z<o-=q6xmSKO$L_&oRn-n4s%k#0b(vqA^H?#&ZEvt*(*h#S4btQSl$mDoeVz}pBda#
zH^fN`%*XHRB_T%Q`Ih%v#pi4+ywt3pAxPriLxQDvBFyNOqBh9>7n1Qe>Vkkthy_fF
zA=cCiu~r{=L>_R7=p@5GU_=|gk11GW<OWU12mY!)F1o;pWwuxsH?hqYQ~eM*vA@)a
zmvs}}l73GKv^@uv7i?7h*ujP_fu&@5*`RVbHvknuI@CyCW0CxkjMRQ#Z)6|a3pg}k
zGyv@)=yHlva$z-TVuzqjVILsFDMDL9C6$e{GvzpPcwBIc^fLz?l%O$tRmox$^}|CS
zL}K~mAW#-q)&0`-DJXE8CeSjKvG!}$9-t#|8NQSL#u=}3k7tgcddLbgOY1z;xUb{n
zMn2-`yo7U{IpU})Tjz*hTYp2m2wNJ(&}Lb;L7#yR!ejzU@((uO4%`qfQ?ku;z67&r
z!m(a~&KZ)4W+kX8Yxqc?m4-Fb2#8lEcO1Io8-YojF{rC7uZwJZu>4m8;xlKN8e`DP
z95@1~@I?9}<WrguSN2iB;x+_2#7XW`%xa~R0%G_Z63NVnVEYbvy!%Ywh#e-FWsEwo
zJQ3lvLQR77DYAy<3>%xA-cYbuSwQ16wHx6NO!tuhSf+`F1-RYKMvI%_DsKMyrC<+K
zB0P1fr#0Ewta|IgAR?}Q7i{+=y```QNBkpj^}&A!SD(0G*<Ae~s6r6`Y3o{PozPk*
zNV}@MAz4=Y=9Sx5l65UBb%R>nAXrQ&+jbBtmkvQca>tINRM*H#=N_$d&vNI!PwdtP
z_eY)kv_LE9H{Bq!6o-E}x>UCJhogzX*tIujZ_obD*A_;#vb~yjZ?cn2Q@QFMN+<*x
zQXrBnsZG{`$0pj<FExExW+@-Kr1E|8r|VV}VW;8m^c9a4Ip5h`K4uBL8@40<rxpsu
zo;;TCm+m5c<T!o!ofP{j#TF>`O^W?z3Qo{%8wDg`shp;?UW)MqIZH7j9J5mdWr|{K
zyP9ksh-pUnk^)kVq;ycgtXvjHBT%pWE(PyWrGHPcKcm=RQoz*8G^H`(0R1j0V=H9U
z_VU%Mm)Sl@Ar(NuKK>3>^A8j-OZf*>0}I3TP|Rc`E6jT4#qf{xfXS&$L?t{$$sjO{
zyYPCUnW_AH3f@F8jelt`bD@;)QX&O^hS#2M!t{j0#RnFf-3jvA(8xniiG5sN^953N
ziliJ;`9P|Oqxj(6iAng!PH`SgShw$!Vt&*L$BYjwvb`e>?}<K;{_Lc;BhuQ;v^GeI
zZy9)4?6f~8uLXiBJ4KMM6s{9F>XaJV6V}9Y36B;TOu0A>LM1Kp*R;~E6qke4y}Jq;
zH&im@wzsN{Lum=uR7KF<xK<iY*>Odkq4HD_#o&(7mv&LCv(jF%R??KR<BAM!ux2SX
z#O@v)C>*Q@rGyJ-_o9fBgi}YgtV=EF(p=pST}Y(Yf}==!9N<`pI?$4`<BIxo>Yya2
zRMC@iQOqs5OJm)dtNx(}w|YJFpxa}2uT@0mYqW~qlpQyyr!q2coj(CeX+=k>h?3Bk
zhO~=fRS|mww}@+gi<Bf<q!?OkNP8$YE*IIKme<Ow<72nqNZIKIMQiYlIjVcFoK&m(
zwXy-VWI%Hbrd|A~)MMYut>KCyZvWhuW7F}8*jJ##HUE6##6oN03tG#t>L1ozBWZMX
zYpSXQ??WFNSM;H@G9HYdk5_9YEi{GPm_h75(-GgP1=~`XN^X4Ka7}z{zAS!J3$>^G
zloXKMW$6-%wIWyxSBUx?Qm~a~CXGn;V7n;EE!DNmpGdUMe?hD5GaAE8;5J$#_FY^J
zu6PrwhGKcuP*Pqsl!RIDpSu<tyY)uAJ7H7(_>Mj4VtO(z2kli{FRrLJy9bzyRrKY2
zbLVbV(tNB+b^7hK=667x##B5mqPxa&{o~?_N7-*!L`lw^`dyTSuUwY)P^`brK8S&j
zO~waqU%c&4*>R6b=uIh>_okGT_okHOgZ<K!pJMm|kH2#XJ^3}6SM*-lUdD5SBKf`L
zw7l+eTGrC$d$F`RI&O*B``7$kDLbyHu%au4Z`6;ThniC^is5BzX-fBF++Fyd<;aUG
z@|IVniYSKRu1mWpR@P_l=E`tI22@c*F{f11mvT|eEj8~<c_>Do7avvaJplHd=9)+s
zQ|dK-O@FU_C}&i0ulJ2&d80~6d80~65bx088C91xv}#rV!no?+p}B_BCG_ZuX!N+8
z*D59G&2luaT~5nunA5Ua=KIW7&1ssSy$rZ^7(hA{J8|1ZU=d_w0VX(#q17jZT1A$c
zG}o>)U?MUF9QH#3xKqR|gD97oRzpLoe@Js}r~F6_4B5NZg5`1R?ctOialHh^GL6LB
z=9}iPK_8UFfE&lPD&yn0DBo*xiM@0!xRt;{Daz+SOiDsU*aIjA08+XZ!c6(>oPOj)
zO~Ls|wQIlDI;J*^X_ezCJJR#ppd`@-#TqN|Mzjy$ikx8pz1xRV*lXyGLYQzAa}&t*
zP|OQcN2y|pVfq`ZY@_$}Q@*{jG`d$#d3FNM`Dpq15zCpE^h9i{6w8|*l$0|)7RI&O
z9Y%HL<fLqvAytn`5K|5j-a%NyIYi8#A*Psi;K{$ivEJ}qJY}7fr)*R9DF=xkum@BN
z{PS9K)8KQ|mgVc#IpsnQH$3p#vr;{uvnB^TReB5NErM@a$D|X_eeh)IpL9*S;TO12
z|2$KE^e`awdM3R&cP@U5;;E8J5wlK}p7*jhV&8B0UktK0%Me5&0;`n=uACd6I`<?U
zd!Eel%nY_e=7chiamgVrV*~|(ga#G*YY4^f>vD&zJHn*Hovs_NvlN7RZZge*6J*3V
z2<95SFqG8|F2L0*<{6K<aQc~h^14DC0o)1GH+(YISp%^6ojLd^^XM1^uFv3-d828f
z?x24PctO%?SQsihqxVSHP@CDZ;n4IJEU*XYsd5WL!xJz^9t5q3@gnS<RAJy%Z-T`=
z^1Y$0R)CjsMp)O$>rem2{n@C@Q995O6@~mC3b)>cza!C^i1>;*A<r~#_Sq((&qwEX
z(fcF7=?f30p6~MyW^RGw)N`V|;wTEKY-pA9sIK~qK@nt~9Q|>62`1b9g?Jn360Z5b
zO@+nCF+d?=9L!S~<lbyCv8cU(aSeZ#Nez(vSkZxcg&&OZz_}ar{fK4BKX?rXt8kKa
zw_yx}4PfYIc39s!T7)m+z+Bmj?5h>V%Rfev7^kxpn+z+;5@k6~sn4LKICioCOFM22
zYH?<TKSeqBQyZnZ-vMNWFF%$>W+2JDv-k!DD9Xb72zq-4wHZ!ldp4fGtn-|k{dt-I
zUq_F40z78nJPB*`wcEAY?Te0kMN74irL4N|39Du8cbk?yz4se>Au*y>_uOlNu5%;E
zz+@|-aZvTv{W8=Eft0X2*)pIGPG~I$Q&!xq`D#c(hV%-YQpZjRx0W_*&K9^~f^lq~
zdBO{(aGGF}l5(iV#7p4mcLNb}k-GuiID0ZVG6vLd!K~>wG2=liHe~rtsek4e6yjB&
zu4qxlLK7y7^`)HvK_<|A>Q|$P640ifNf5<MBS8oPwkB<qd`(`2+ydKtJP$stJ}rCn
zsYB1FE{~Xf00C8pD0)VNa>``9oXvs6O*6n7WKThPrTqfbSG_ZW`kGr;rV!|fV^?1z
z7e^*9TWma3cLYpmqnBb434V7LsZe-3wPrR8g%$@avL2;1GE4BC2^P;$sw;0}$(tV;
za3vb!s)P$)f^9t12yXH|Bq((C2R7P}dznV}Dy@rug~ES}g%M$^Mgv;qz{14h!KKP^
z*mke1yHkD#dNWl?F9>gjT8u}kY6E4Bji8c~)fIo6=5HgFoKSVL8mDzB0JRw#*$sv=
z4$pW&<O=5#xo8U$@PuhfOrv6g7LN~;yC!I)o}_>w5R<lOxbkUU1dGIA7Nq_hq9PRR
zrg!ee$b<Tmv<Fib7pNE6Cq~@sI3&e@-WH2f@2&cWI8zx^3wl<jlYGL7=7*AO4--Ly
zX+YtW!+~>QcCEPAYo%Crt#lqJO9evq%A5kY*9%b0DOGl)K|`qo*@ki8T41RH2SzNX
zAUzQ{Fvaq4U`i^415<j|F^O)014kZ}Aof5)pd6y{r2*{tx5`xvALKY+KBo|jQs^tL
zdd^*isiAY^BW0Q;8&~~VDZP}L_Ed!+kAiOi(jNtG3W(e&d|aQqOt#3U74lP~(9Wh1
zR=8@L0)Igv2GFYO{Pip6u7Sijtq`jR28rKz4G={k4I!nJf*=JXq^yvRk3wRpN;w52
z&<saPQx~RgD65n(M+qgOf-_jrV3lz933pej=%MHJ%a>p6y?ph;g(*d;rj!Ow$@ZFl
z=K8gZm#2G8fTGlFnvZ!a;C?6y2|{PYL07A}W>HyY=tS*Ggz`2}#o?@MG!}Y>MtT;^
zdUk30>XmEC)RfXhMVsldgAL^<!v2y&?6`t}+)jBqDBuOwMKPuXGeMS#%3G)gyYR%j
zm7e!e&`$wVnMVnl!4r|B5Y<(Xm5)<w7-{-ILcHPp#S6*^<(j8wJL#DVLnlygWt5&U
zA^T;Du}7Q}6wAPeU39yf0z%0Yh7SiR#&qao6nl<>Qxv>N!37E~Q!q=xS1Gtj!M7>+
z9SYv0;CCtbLkixe;7=&HN5Q)k`~?L+qu>V={0#-apx^-oX$tK0N`49|D5#}?l_I(+
zMqXW%trYZ8FhIdJ3T7x^Qol?wCXW9-)yG6{(x?)|YldNjn2E*6=MCp5HpuIjr*<o^
zVr?QTB<!%xAaW|p>kdiweke74AT@m`J-;G7|Dn{UNqrwk;SZ$xM;4cCc_bl7b5JJ9
z!M~D_ec)p%apXhklqQ|}P@4Ea+W(<6{IS&h$l|6F2tJ|UQJI~}B7g}fTgeBueIMBN
ze_$K^*w*&3ZQ!qMeQV{lsx5?V;pP*`aP`e&Yo!%8kFGU!sJ6&Qu2AgMlB@2f<0HFw
z?qqBrZi}C|<65#e-n6WhSH(}xH{E&R_SbH@=7yJ~)}%B5tz?TQHn=QT0DQG|fetM{
zEhqieDJw<R+{GZ(AVP4mHh%4nC&d|%*WsRP`t=tcdgv+Ov!xP*YeZqcDpOxO=-N)%
z!PVi4(@pF|yeW3-*4IF(mmR3Is&3wPry7KL+@Vg_Ll0tlb(B_Sll$T|*zV-M#9_WH
zHem;p`%*re?2nI9l0R{gFHpx0zI~XU`qzC9xiWTYUBU${0*mL7#VR*Lidb%@$~`H%
zedOIDAD16U6sBNsth#yri&|CRP4C>rC8;lEvB);`u%RQ-ln5_))s9i9fZg+IktbBC
zG<JANdLm^hLY5HfTeobL_sSqDHQwn;OBC0ep=j#7EY-KGox8NUU8)p_bu3A{Xs~S9
z2^u>S1Bn*3Z=VW|S;Kzyz_VJzv#Jz~y|5%b%k{5^EOJE*gx7Tm5eyQwHYmGe18E5t
zy&c4ex<}9U$#O&Na$2IR{*<CAOmcdBSe6^(-n2wl{V_$?Pg!KSG<IWM!e!lQk((%v
z3p~y_isw$Ml^vugUpcyL-*wZ1ZCD<GIBEaybwhwi9$6S(JaMo2p7Kun;%RN*C~z2g
zWWCfPm&74LjteTmtY}`A%O6>umF3=)L?Ja_k>Z5)*D%~Au};p7FIHCm&{ZW@C;dU9
zi>IuJujz3+;`lCL0#FW`HU7D;X!h!~hi*qI<W{p3;$|ttv3vVUV@<bSNEOkYQ=h|W
z7u^k^hmS0!7)J?#J~DLMDV3DProcf6#t*^#(si|G_dToH!<56aaV>D*W-&fwWz|E^
zpbSLLm$KrzRu1AJu4pn)lPaQ^TMCw?C=ZUx;o(#<#e9;(GdB{qX|P*6Igbg_r+WG{
zdw<$bPp`;B@>Z@9SFRCPy+(@R1w3<uG0UwTYIs=n3~Tn0w2K}nvQHj>USTYF>u}17
zI2XoMFHAALu=UokS~jA3Ml}1*w2K}z`sg+MR8G7Gu4XyH+tBEM8W>bPgPMICm1#^h
zj^bMx?IF(X;i{LT7|QunUyEjMO}ps+tFl7|Us~@Y;#>w-y$r=rrg-i|tXVDZ)k?Rh
z#alG{R$z5<7oZGH%71<OrsaKtb2K{##+L2l`hC1^p>El}_ohXFH!<;^v0`W>3iXLc
z(MOjY$7DJ5K;rOai$2-AmhIhum_$YvFf;B0LkX*wAcqa#vbvE7$caPhw!>QY5v}d0
z+IUo}0%#~Va<uk<gVnq+y?FA6Gg|+CwFd?&##E^hZq#JkdcZ1o$7i5lA$PBPuNTYi
k___J*SWi3GCAwRGt@;UBcB_%?ixw@i^Am~g6hamMFFbNV-T(jq

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/profiling.cpython-312.pyc b/multimodal/__pycache__/profiling.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7bc3831ec13d06c6f399bf0089cbdc1701521ff1
GIT binary patch
literal 14921
zcmeHOYiu0Xb)MOs*%z1GC3i_J-^+(2E}weXmgLBiDAAS`S+rwGj=he%TJ8*`rS?J3
zEKQMJI%=adbn3uVn^a61APi8XG^_&ZpVkP9!U2jVMgMR`0$dLiL_u7j?k~!eV<$z?
ze&^2YgR7yV1_{s~9guhK+<Wesd+(grJ?HGdR#&??TnXV%<JlpO`vpA|F1u0Llz5K2
z!AYFNC%7aZ=98ANg{Nmr!kQGq0;^jSV$v42CGBB5dlnLoq%-VHy27qxRk$kY4!c>q
zn5YidV62$%BpqQdYqKS4lXc-bR<|d7Nq^X%tPj^G8^R6A9pN3U-H`|+8^evLJ0(}5
zDcKxuPPT+wlC9y^WLvl`*&c3ZeN~BIvLoD)><o7%yTV;OXW`^Vx%(Zgfv)gQ*=FHR
za+3QRCsn^=(OciqZ(Mj6>#ISZM|Qnq)tke+S*sVVwPme6z+5HO$(=WS1w7#pgY*Nk
zUgl+|9BKrLcLW1ZFY9eU?~Y<$;T?T5Vkqz-0fsD^b@=!RttL9AW|U|wlaw=;(o%@m
z>}R5rlkwC=KscpnCK^jbRaFzm<8nd@37Y++oRXDzOmmG!ld^PfYBC{f_H#3n@(WQ#
z6Jk*{GYTx?sbut`4EWmNDJh;FnMx*So}J9Z(<xQ+9*?T>mX=xuy|w9uxFl~G2dq``
zR6G+&q%U5Sl@DpNL!wr9W-5`1pGiy6#0aK45|3rHhEm&;so01dJC&N8%HYkVcB7@f
z)N*<{s$5i0W#pu)HI|y6OGIPxrF24)6~Y~|YCCBDWdKS#CaY>%(dww<IsFkkcq%oX
z)*AH*n1ILh52lyK7veTw$MX$N=EA(hg)Qg74`Hh;$f9hcuRIHWk?oS@FzT`cH7nIX
zBTm_MQz+73mF&it>TwH=0hDM8RZ{_FBd8gB$f0?RMWhvdn`U2i1#vwuPb#u1r!s0V
zb4d<fmS?8ZiWJ1QO(pf#G=qEj!fS~{axh6BCP^P=aI&~5gWGK0AgC@ebK#YjUm0XL
zG#kbwCo`HonT!w};`4hXc{~cFk#P`gTA9%rE{#VF)M+IGz{~6#YQ9YRvYd*~Mv35z
z#?g>Rb3`I3P;DflxgrtFY$`!@cO>%aR5W4q*dq}s9YeDfjG+mMxSG+d@l;0hL?Y2t
zDxG0S)ks9~VY?I(V45I-GL#@ai}Y+uk4?yE>A=I=+$Kuy*T;r3$;qL~_~bwa8zyH4
zu1p;`bnx;4c_<Md8=9N}`=y3x--b&2HiX5E#}lBX!O0n=1!!2&jf(m#im!6_1gq%S
zaB<b%h3*CQdgzU3SB2($b^EH&{{H@hKk={aA6*fe7EdmnSZ-K4oom^%DvZ9r=h641
zwLPa-gdK}JmV8U&OU=2)fi>Z@GEjJfIc;{L+l)3DmDzNvoUwxGy^NJX`Dx-Be7s+`
zv6dix$l#PJOTqE95-hDw^Xgwa!aiIiE~%p-yF%|%x~QNPD?6#!O+^nCAu9T*VACF?
z+MYtO7Zufm;;Y>ILeJfXrp5i&<7+~@4ohI>OMDDHziElGUAF0r2NtwR0%IF7WHXix
zaZ^~fLeo(8q0qeSs}j*g6O5j<KzYk#Ny=d9&WBlg1L595Ma3pOLTywWz`xpzqI?rT
z8Tp33RiQ86c3@37pl=94YnI3<lH6nIsg$&3cWTf}*XEm$xnC>W9}-TIMHVEhB#aC5
z+&C|Z*W6(UE6Ijka>!0y1W8ueF)m2<YeG>8x@4P^lL8W8Dqx*#WR)>eAd!dh?s13Y
zx+WIKSO2d@*I;zjH8Jdw1j+qfUaH1hYw+)py;9)~wQ}9WE`6cpB@s79d#~BTeq(ek
zM%Llq$1v2FVQ843Z&7hE3@*tJ3_B_?)B{5U!xAXNvi&^V(hgv0oae6a;ij`(s8MSu
zDpOrlAD@bos+x^3DLQOu_uv>bQ;?~0i0)`67=t3tC{r;*luM+ab?(fh4Zf5a21cX<
zjBJA_<%DX;XCY4N&8EniDJ3-;GmIRzbSp~w-y}Z!7Jq}wux2XWuw=P!Kt>k6BhO{|
zEEg$`p5fl+N1<ayb!t*pNMJLSA5lJs!Dts$IWf*2G-o8j78Hr7^s->^s={QzF+9w+
zn{Uft0pHUAQtMHCdX>B5sD8tqa|G5LO?Ul)dEpyQ#uS<p3MB?+$f#RZM|KBW9kE6E
z+Wwdi@v|dr*GOBkFToULM!u2>#>oW1zAI3nlj)QMp&rCuUnsuhg1)gd^le`AjixiF
zk}$4Fv&zzwijr1B7G)UkR8F8!Y0H8^wq&ga`Xs`>VT9f_yK|e>Zv{I;Xvj3b%H4Ny
zp3W6VhrV#TD!&>@$SKW*$)$CxEoRu40Oz>R+=A$TqT6H_N@~s6i|I@8*ronpbUY(7
zT|ib8cBMav9fFou0aipq_C_*#C7zs01}D>i8%xN+)Kqc|L(}8IGVzH`h3*HH7RL_5
ztb4rpMEh&3@A2SS`PC^o6_bNl?ZwQcEkMN&^LX$CQ31UtPS#-%lu5i0O~f-Zl|zi}
zqA{uQ_{AwDN;5TDw~P$-=&jL2sPyG&c4gP8@!)7WCHIrg)Y&g+*gz`NpkvV(nLHBc
zDme+mWDLeaX6CcdLC?Mh%UbF;xH%Y$rWkhYFx~-*j7_PTbTU3G2N^|eSzy`Jm@2<W
zhXG~~mENg52?_}bI;j$$F?v-_p{5cM5e}VfYfJQq%_fAiJ-?B14ajqZ&LG}hWyHIM
zPRST!teQgQ2AAa~h;l2gtmPe}bxr^T!B<=mQI@Q=a8jESC0??``8ivL@Utr`WW}uQ
zW)TLWS%~(V^MNi1{-5}nTmkVH2~2ZABc)=DoSq6<l~!!6(nduG3N)Og`e`c26o!E~
zO!ciKrnyRTP^;GK2FWlqDjDoVg1B@lY${P9m_t9xLF>?gadz)-B*)4jaiCXej#s&j
zHm;#*y}l<`-?QAfTEBnZwPE8LTh{}FxxnD^^t;aY9$yWN&R5@U?^`~<(zbua(fom@
zE$?g1`#bW%{rByH*R{b3P8XBPFwLCl*JMQj_o|vr7g(ALGB6UQBetr10dI{Nq|C^^
zNd6n>0r^`b{xVEw#d485%Vn*~^I7WzdMYpFDf9L$e|ZF>J2FLWJyB$U5)KKhVum%#
z7Z`}=GV~GH1=cc!E;u{p_>8jvJ3;JTab@{&zKnf^i(u7R%nA%>9aU(ev(K{a8Pqo{
zSlGf~&rT^6l&{2OSyFXbxEpsv#TdW@(;u9UClbLiIT*i~N-MGyvMJ94FFpbDLuhsg
z;1u+hW=+OZnk6-<iL<hjRzsprp9HL&rGh??ChA{{cCL&FYa=Bp)B&~?g%3b}6{yr{
z6d<`8&fTzB`}L!FU;X^4_pAJijq8n}+l`^TC$R2m&w1LHcHQ>$-0?QtsJULVVd3jP
zch}##?(fd|yYv30`%ba8?!KFAXk2VqYFzKwo9o!STEB1psXN}f8;<La#a)YytKP18
zG4HLPpI&UrdAe2{UAoaAPRFIpCCzq8j$gc#(Frq7P9U{NlO+9V-Ap8Z7nBN`v~HnE
zLHVn!U`9QlNz?X+rpawaZ$p!&&?TD0TpU<O#l_}m(w?<E6yI3Qu|ho=DrpPfSj?e|
zbF^ft3e%f#7iy)uB#=@Yw@BhmTLJ%^m=(c4R)c@+2LGI4UvZFq-iKr#9oCe4W}ns3
z>16Vd_zYlEgqrpFlgB^&Z!C=tud#FjcCuah5}uXwRJ=gN7pZuK3fc?Jnv$o%#!P)M
zNY?cS)UWfXPPjHSFdi+~D`l*wLp%(V>X6?7F7+Q#fJwa-ObX_F>&svNa^BZ+<LLFH
zOXqL<dhhs~Zj4?Z1&1~sxf|&Cp6A=1e4rKlS>FKuY;0M4a_P`tAN~H()xiD*QD^Sk
zo_1hZ_jTobT}$J)ef?!PjsnMepeGmT$p_jBSejZFUs!r+ednXOosX_IKDJ=H<E_8p
zyzX4wxwI4BqV{*KYu>}Ayw0@FxB^$2sxvy7l<5+q6O+^CF-E@tDGWvzwlKP={4y(U
z!|0~%S?fbFk;NQq$$HzuL{@X?A`?-+2}6U?P1_$*7;S@fTLo$QuHqbd%*8}8vN@Wx
zKcp~%J!^(_TVZ4hU7VvOQw?fh*F?dYRA|6GYb9YMiEt6wGDTrE;VlC(syFRLVP(tO
zAglyKSUC(~^$MfJL9&W;`g}+UQ#wi-!%St(>=_;X?@Siz=zeFi@IzuaC5nP%p_D;X
z2EN2`YOIijC8_r!dNpBuDv{8{Dfqb$7VPR02t#m@u;|iJ=k^B->2e!J2YDFrs6+k`
z*i|n~0*J@D2gT#Mr|Y(-i;1`0Ip6N(-rK%M%Ea3#p2@fVT%bQ6=q$*$wvMHy<(Jk6
zhI0eMtF6ZuT>p3EY~2m}b^Bt|()s15ZVj&l9(&jNPy2p+@J9#Nyw8{kT;&M1C)8}}
z6(%RIa*PTxuUPy+*+n&2`ka1bB9_ym6~)7o@*K4hS2B+}G$MssMn{GfB|4+LOzq@7
zXX;XssYcwW&^cPGHXLs;IgyA&-sY9#XjSp;xMR8p?r{R8f_3~0dOp3z-LtSrg;i`^
ze13z&ZE56Vx*>RB^KV!Lv2)pe%X;hVEk~~B5RN@!=ex0w=(cGs0BpFa=Hi|h=I=S{
z#Lm05{tXd#9IO1zi~E<XiwASQ?hQLNIk@_k#S<$XdskZa=KT9^oy++TZO|Z$ceQ*}
zg_?nw+V<!;n?x7GiF+kZYBI-3J;2$xSw*$uJU6ueqbi@+4Gfr{ooW~u*l<$K#rbzG
zWpcj04F=-oTs8Btw=TbNIp=KJtR{%ZXnb`W8}IdP*s10qOirq~2vZf++(k?bxP~yv
z1xy}-7-duO^q^|v2o=?IR8-SZQO!+AtEpB~M9PMF%cu8AEg+b!&%SL8-?w-bY|YL0
z@UhJz1hPn8@QOGAVgxKQV3BNPkpcMs(dyDiz(OsL8dOmvK(3Z+^ymP39oK}g$H^fY
z;Fp|ojpQotH+<?84y~5G6%mD6c=g@a#Bd$P)*~WNi->@)0>4f20K)%U;jd>=12Nq2
zTaDg<(Y1JYfQ@e0c5M&N*&)?oTq9PsW7|<%chM&KFrtY?6`FB!4wMJgpJO3NL=>K3
zjvBZ%GtqcTg~w5nnGX^^8#?|5lX4O<*-}uCb#5Cza26dW%3)B(?=XO%3rnkV6lit9
zIE5PAN5j-WbzNYQuG|_lXg*U+B`B=A7%=z`K&v}Yd<t*5gLBptLk5kV2pQBc#web2
z0mqR*WCrjcD$Myvtrgb<xhN{Gvz)#Ji#}P3d_c(3?3s`?4kI381F`k+R*k1;J56R^
z0rL^zs6%m;yX*12_4*sHuX{Rk<oWOXz0F^9>rOb`qo!Qhx(wwH@jTmZGWGINzciV5
zZ_d-Z;^_VT&AT?5NTjD_iSh~(@nk%sR!&~4CZ|oYdp2mYj4cqqF0CV9*#DuNXK2MS
zqzl%k0Z?+6Z}DXp&r|df$(eW6Ywpi}2mN%-A=G9@Uhr}YW{$f`FE>WhJ1ee<qC2kC
zvCUaQG;=%v*6aiznp*pOA*%^O$uf$VLdhi@#Ormxuv2-R>O@GoRYNQeHyh=Xm<})w
z{#*B2vlo&|C>3Fg7g(ijDE9;S%lrWN`i8G~x5?Kx1N<*wQ|C~?)OB<2`jx7de4u4L
z(3=bNt_J$&Pu;C+Sg-5K)pgC=^Ua;>%}?Z-pUAs?3ok9XHm#Nx*NP(mHSYE6{M!X5
zT;A8U?(5C@dh`D7b$@@(-=FW=zuxuvT-WFG!9DB2kz8<O!^wHOH#w1f%A(;@W+6^}
z`dS@UA|swAQDjn$q*IBR7>TdKMc<u?vp+%QYZg!-FY%<*=d5tylCZ0|3UoNay(PRQ
z#;kEJW_hKF<GuuuHz&Z^BxH*C=PgJbuv~Lw#gSrYxZu|PbIY480vEH+iF3kP;NXq=
zG`V;+52jrf{VVw(Xf}j@KmIqvD89v?hD;_w{7NTgz`tQpyjlLUW}d1-zlnhU3;qVr
zb8mJF+zj_O)@j}l*LoP1j-G5ERpur}%-S-zM-wP=s4!10O{$=GH0NOop<S6&j?5n1
zj()I0LTbb{4=2*GXhJ<QSRC1e%~vT0=F@*C?F8exspjV`JqsiEtX%Km1!3LWmGgG3
zd3V0&|8et=npeHgyx-FED;A6UN>3k;L_d+mHIeZ&l`Oc$t^psLuNElZ-pJUDp2LDL
zqvj|CK{a<djKMD#z%qJ-rH-+|mSxQDe5lnTU6WJCX=zxOi|Za(890*bI=bQr!c^@$
z!LRo|o$Gyit@rcyt88A^Jr~z^n$LN6EjSkYLGRV|-;8Y<yRj)^SMac-<{oFQt^or9
z^dlOz!P%UyUu|-zvOW1u`xCY;lDFuxrr9t>ZbI!9(zA@VGjuLvS5_!`L?D9=?h(s^
zA!32%5nC+sMyBY2f<!j)=oE3<vvxCyt8{1RD5uZB1}~FA(OKIpu+4$zCTa`)rMqN-
zcf~>8mBO6hIrA0zv&EURK#LYY5S@~qC>sw+d!;lk7J>=6l&@f<LZ<}9k3zE|z@k7F
z==K;$EGilK3tJH(rV_oP*^tv9rzDo$1%JjcjoT`{6-KV#B-G9fQuGp(zQD{Ut+vEF
zm{tUDQc0A7IQ2^>(FW4fg?H<w2a89COvuz6w1Y_XO<-nXy}ohXKaleeEML4e^Iq?&
z|IEDejz6&0ICQIV)&IG9C+Lre`DCu^X%O=V{v9iUJ*)n`^Ue<lYTvDqzaRbE(N+J6
zd1t=Lzg{(PyK3N0uxshm^7Lx(z`LPb@WhI{HSg|TclYJoeal~1KC!azM6UnDntS8}
zPy0&n;Hu})isO)O9Tf=>vm;$bq_z3aC?1xW%ZRl|mL(FHgDVcMPmq-o05K7}R9uXh
zc%9%XNU9VGghG(4q)^OEjDj)&j6g6q#eyRc1ZW#&Id+WJm`c;rK$Win5O)7Q+>}SD
zpzJ<`<rp!3iy9WGcm##!R*(u3S7bfc)HJlL6B)zyZ47xZlFW!m($oJ8a{f#rdJyyg
z5fNE3+Y!;-=I)i92Xf5^VFcVEs_9wvhvuDktNaVox2xLn?v{0TSI*tF^aW&m9=P>V
zuJ1^$`{<hc7^ouOI*@POwe*L%*8S_P$8xR5;1tX699$VXmfJa85pCWg07(EbnxTva
z(9CabdYaJ&3C^2Ep+v^%A02{$TBHlS+qeoe0E0q&%Vro9un3t!A%Y4mW|Wf^B}+l%
zNqQs>4*0AMW<@(QD{ONjqT$>GNvDd7=2jRxX9rBtja>rF+Ot+9ei%ZvXrKTq3>0A$
zIa?)BML;;pkr@ClD>GYXP}f)r0`wz<ouTF<$T5mAo8cP-V1>-l$@b4^tfNu}5=PBu
zHhh74T%{gH#43GJL;h9j=o08>>gW>KX`<PG076EyX7+4b=X%?|T-(0&wllf5GkJe=
zzM*|X<l0AhDCBn7v&|5P?)H_cUO1`-j`8dLPv-icT<br1UljZ`Kkq-8^Y<(~y*NPu
zvL~)Tu@qR|yXqUb#ozYr1)AE%#onB^JKuluBLau(5b7N+tuhI`>K}$6_4w93yK<gg
zOEW7^esRUKYt{4OisQv!ZF(?@*(^U2JCA!oSXfKpB4NfzzZaFy5|<Kxvlyr)of!QA
zw#8N0<L6nHq@Fg9onvWig@lB0mLr%fCd&tVSj4bAr%mmnw7ycNjBX0{BS9{fK<)>e
zFVWOYa7>Y-mxoxgp$>rlfiXEVEz7B(j<aOom*vM@I2=z#RAi-Rjs#ymb>`$NTgt;q
zdOE^ToAzQTRP&Jw4=nXie^7o6FP^@Hg3|X&A(qOy1mkM(v9bxByMzY%OHQVhOcbei
zNK4B^FCzsbg<3SmvNCndFgWxKd2E4HoCGC}#*v>lOM62vH&i>a-C}rBk=<5GSbIwO
zK0a=USAIY@!%tLXS|hpCV3QW(JWu409NG*r{L)jZ!L+kO+gJ+*Yd<hxj98}yZw2eL
z;Y4T9=kzV-Ph>`*=T;o&m=4GB7eA{xhub;*w9#T33<v<1Qj7>_4(tvDNoGbNovDzl
zVZK}auuQaF7Aj!kh=mI3se_cHCXA)i358^io?8ExR3m+<e2)s+FlCvFSE*1?l*a)w
z)JVm@Q3rm?#IZPl1;1Eu*u<{8zTV}1Ip5%hhzD@KtL9@n)x4aIQd7jPm5%)%ak!JC
zUT*=EUh7+Fd*s&hxweA@&{qWL+pzKCp2g`Ub@{~7m0bItO?2;pG#J{SKYZ*ST=2Ss
zA9tWC3mWJ?c{uC0^YT*<y!=g@@Y}l(FX-;MXRih}U)P3+JFvBOY)}hCnX7iew-8$h
zkWb%9P2Gj}`^CpufB|>Y_fxxhl!1Em_fu_O0b!l7Alyw6QoA`q>d_HWZIBRl?Y`%%
z7hmGp6scm0l65#}xeS<)l&!albw2`h_v{|=ypD@1rnp$gmJR#FNo~3}j7TTcuUVsG
zF@=OMi*RWk<ai|T>l*qk*&uZh9cxu&X|a58Syjl$)qj~|Lktu$Kp};vklnA)35uOW
zG!YUBKdWH@P&ca&8qjILXx8UWJ)@_KG_apDfqRkATlT9aJ$%MEhQ-P#LZ($QSUojN
zp>vgHGd!Pkcw(m?h4EMM=Np>Ka5&LC83QwBWv8P~8grfsk`g)(GWKIU{y4QUChMmf
zxd8OjjN>p)=J;{b5#{gD1|h?#KSZ%%<$3-S8^?G5l<WE#*Yh*((N*rzUvPCl<(huV
z)qf(0yagU2-tw^<FrNrE)HoEM)Cj!g9!CWNR`m-nt~%SU+VDXwRi9X#{4@LpM<uw>
zQnkSv?gy-VaAEd7hueL($RDISZuh|3)$`|88vEA7{;QVzwhI=%d-3ej?&Z$!_uc2{
Z>HbsVGZy|lkDn&heY^Q%jy<ro{ST?@?Zf~8

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/registry.cpython-312.pyc b/multimodal/__pycache__/registry.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d033165c73c5a585af01eef91e03a5c87b1ae26
GIT binary patch
literal 13943
zcmdU0Yiu0Xb)MOseR9bqxx0LckKxPIN_@$Z9b2|#TcS+Mj%CM^V`m+Az1kT{EA4}x
zSz6+jw3Sq;S8)I{2olM#gEByo(y$9CK!N&C0jIwVq(FB?1*8WuA|o}>pnqtSg_9I$
z`<;7dW_PKj<Mu~^4#7Kj?)%>JopaAQ_wKJ68~p;FwDfxFA0`ChxAb8>9y7A}fhY)9
z1VvE9w2%>FqDXN^+L3X_oGk84OBq+pm2t=18BffU@y5I?T}t~h{+OS|UFn8QAQoV8
zce*jt6l-E}Pdb=sjx}dmVlC|3n{Lg7Vj;wRia#CBL}C#ZZ%DUg+GFjRj#x*gGuFw{
z0_m>IuGp?jcdR?p6YI(J#(G6Tb!l#luQA=1kz=wbI0Usx?SB_@peHtfZ?Dp%4yyjM
zkMgwYuoEBe1>be>wAe5!-K=(0rQN~OTGS4u^}W!$PP62QLzotn@FhWss2+8M+OhL?
zv%EIswIlD2n!G5>>p))TZFzgplM}skS)*rVccE;z>aK0)T|NvUwwIOZL785A7Nhf0
zwC{IRA}Si5Cla%>sqAS)eM%yqNTw6I9+iy7lizykX#B{dM~^&y?D(|dnO3u^mP#7l
zr?gx?m&~ON&&l~&^_vOpII1=uPUz~?TqZOB<ZM2b%j!sLNM%#`csh6bw5mlNM&RM>
z{K?!oHJd7^n$ew1B+sZyJa47MXS7@<p3G%uQZ$yvBQ%bu)zc|Gug(9C$c5By>gI{L
zbUyV&PD!LOl%%TbIqe8F7Ihl!JLDU!lwlUfWRGQMaz@*+?Ce~=l6WMS&8rvkn0uQ&
z8&*U=JeNu<7<4n6;gp)p;cE(uWu_d>R#IAPhBuQ+WAa!Fj8{#g2h7e8X~kTpa&uY5
zaKw)puJ|!b{AARj5fltxGWT*qOC_@TB+<xvBr~!pBXUJhg_x)aF^3|?oQgx06sPK%
zkre5Y6m!qJqHZHnnHf#@kwh||)8_wp*)QY4NU*MR$-FKnSi<u!?yz((zVQ6Z>2zj1
zL#v*lRUe<_%Z_y%-=WeAtj!eqNMw_$Or(|bXH*&Fr6nF`*@iQjzhJmEH9x0ilO~H<
zvlWPuHfhdRgn8i|@%TFeFeK?}dPb9xs#AGc{^Nra`ONIZY-)BapU_UL`LPRgU%U67
zb6-;@(y3Duv-9~gx$Fc@V4^aC3C)Dn`0TvljmMLTbUGd{^wwRlaVvk6dL<!vQP^+`
zE#XZ>h2v2VwUA9@)Og(R$KzO`xirNC@%T$~iL{yHiN}>(G9K4jQAyiH!3YII6zrzp
z4hnj$U>FgdzAg!$IV6{NBj9v}Z#52XxbQ~z{@|7eF<zC*)j-9C1bQ~9(fUwPCBj+_
zU^*GPYY=aOrtp_v2AbQe)yE8Y!Gg@~RlXWxq!f^>^<(5;ju&kZMcCqksc0=V>}D2b
z_)^pI7Y1%0h&g4O?DtYd!r?{X11DQ=&|HfmLEA&YUJ3{sS{DT&3hI$|oH8i56aRV-
z0-LmgYf8NObV)i=8anv?o#mlJH>4w+vQ)l?vTS=s;^spLwo_JdzAY*eM1f0nar!E5
z)vY)RK&|4zcEV}yRlJwnG4H%1>NC1(q!kyY<_c(i=;HW0kW@@mvlTP~3d#6*iX^A5
z9Y6_A4dPaM%x$%nd#k7+Rj8reh4QQkw!9>jswgwK^T2G<96<vXM+StEJ#5XQzCS^n
zAa&bJK|L}Nbu<d@$G`pv0*g#-!rccyZ*aTz+-hpxaN!L$Y#&>By4*Io;h|5z&^)@L
zl!JF}P^pc8;O}2<E&GPH8u7{LNex5xyCDz@YPN>5Ze-E38ADK^>@(Q%Io(v3BGRC+
z)iXNc+rhp~y5ieO-wNmt9Jry@cvPPv5%t06L~}njexDJFn}RN<aZ;yLom1CmO7@(_
zh;v-qkM@|jWpuK6j;KsBhN!-oMQ}w}5YAe($G7z?i0_)Ii%yiVP-11{z2LM<NGM@R
zu9^}H(t_hX(NdpIU?bood&kL!&4F|fRiZ8qFBx$TPGWl_Tn*azDZZKO)D?k_qs|Dj
z^tinOg~2+@G`_9S(`ZA#2LbkkfY2O%WB&5|)zIs&6s7gP!L`20a^K{&@M_=PC2#k7
zF!aVNmtVQ6l!os4z*T%@HTX!$`v`|@!*<BBeSqYN5sb$Z*=#PKU|JP65C%{tOj?nz
zF*F~d*tV^N<d#Ok*YU4UBlw<h%ip)`DEkLjrNQ-JbY-9%99xyf)?4?k94@y`tV$D@
z1VHZdx~4_8*-&J|YvFo}WpE@@%Qg57Ac3CEbx^#5U#6b)F|`D^R3MEYo7}2r#?gtw
ziqk}=2WpGg%=a<0N-@9U#GmhN2TS*>4ZO6{z*-1Yw_vtvrp<Vj0MOou+Ku1@>a|jv
z_ivSSD@`cbqy*KV+RR4OthSi37PXbfX530E#urj#C4_g_Cn)`_)vy{d$K+7kP%3iC
z6>CSYZDz04`5nk_M_-+6RvqT7DkZ8%*rj&RSTK)H)Y!%PtIVZK4Jf<ntU+}P-7|ir
z`;sTt^S`Lui@H6i+h@`v0DAOd-txRNI$%`kx0ZHZ_&QS$9+oY=3c6k*FDog1Hj#&7
zuFGUt$R=w+2aprVWKL5kmd`Q85NeZ}=4v6^P>v_7r3r1nOx8Sw$Q2=P=jCm!@hp|u
z_T(*@DsZe=M$v*0w@c3pY<Gg>Xhdzpk<A)z=<3kn81oq6ibROdFclioGAc4TqtiG{
z@c|`}nLF{quFB43Ef97ro_Put^lk(fg_}eB{%+v!qrZsWc;KnholljAzOg!VqA2~^
z+s_!x2(TqF4I-@_b!_pAxIj~5OY%>MK>UhlDRtYUi}ParoU``ARjN!0Z#a^U6#98#
zKoAxkJJhTvq8*kHzaTC;zvEnREI5DU_`#4QEJ}-xJT@TyEJ#*4#c^&5^2xCvoq!+V
z1o{;5zvwtGM4g3yW^f|WeDp$I!=lR--Cbs~T+VSTlUo*SrO38`aW(F@D?iN)3tc{*
z%c^o}M$YEUGILtuR9dy$NNBK7$QT=yb1+i0^C?{gl*ua5?Zy&vhTF+<Zbn9jiF7JI
zFOzn!n;1@MwPWLGrdb@<XtiNiwp8X}64q!=r!ugTXH|`WmYK~PEwEzZe8)0pX*knr
z*4o=hk{e>ia3a(2XEJfK(DwZ-6o;Wjix;nyDcn&Ho41!!(TD!$2(Yb%h34+H;Mn!x
z*m|fPdqLa4T4aAYvVScybv-h*>5|&~pG2mX#P#;Uwf4Kp?RTxUPnX-LKNMHnA1gIK
zw&W}YpWSc?jZH=U@+0e!Da3uD4FT1*0zz;9a@Sk&m6xvfOco0z@4;&df<JuTh+H<G
zpN~A;FV*0l7?<JRK;$*)OOan+;Sd$adrr$20+c)IDIJ!mfZ8ISwegEC&Bx0BzLfV_
zX+>!U>h~q@f^$l+@-4h;ZFx&|7tWHT+4d+dtE4E*i}UWNr|>%)dq>Ww$#XhEm~3c{
zc71MkHmAXSuRu!XT6qO`76Y8r<`@H1YNu-IoloV@$cZfAoXd{EIg^vk)>XwGg9&*E
zzdBqZKaxo6>Zq*F%&5tH>SZ-OFKctzED88j)^3AL|FK*anKXyWI3FP^!)JSfZWH~a
zg>I56{$ufRSQw;izR&>)C0=%Xxzec!=U`j^M7$!3!VkJ6tnA-9&x<e#i66-c6DD5U
z&VleFImRaquf^qt4;;j$i%!s!<%`TvF?{!*hEwdqtahmIP#wmyNEEM-$TXbB?@#C8
zbkGlt+bw(_4eMl8{{CNu--GQ0XVCvi_vDgy!znbjtp)a!1AA8PSq&U`U;K68-jBK`
z|G=!Kzv%533(1GmX_?JJXVS^`)L4QFRI89wJ~dy3BNBePnkN}HIa)<Dc^k1#!qE{*
z>D6;#Ks4IpNli`URcoIF%`r>3*V<`qZ6J{p;zKkdlu@-Nd}$3QyfB8Fy9*5;H4)Fj
zc~mX;xRnyFYLp9NGGLyg1+;Yfhd6<{b|yh#?0-bD0=0gg$OGCmF_AcNJvgx*>bMmQ
ztp)d%gL_xL{=rl!xOX*p%+&txEBD>E+V=o-|65^sEqr%5eD`Yjo}zEdEd+v_CV@9y
zAoP~t4EVRaLStwx&|MC6Z#cx3`?j3U#wG~da3{Lpc7lT$HAWCS1#>K#E6PosBt~b8
zN&+|uCMGJom_}ZIJJ+${pCIdvN^W}=L}qtUTX+_wyuI~THu6Om+O_p8UXqn|FE}qY
zFSyRy;<1uv3CFCs;Dms6oo%S(S+NDwuO}$2x=>a;Z+MeVrmi#z!nZNXMbDyl!OK+(
zUHm~{!K08G(kux{=c0GfV+nmz-C$`@IHbZQTSQG0E0B;)Tu5c+GIDk<b4t~StC)Dw
zWo*=3n@#1_3|Bu?IG-&}o0m_)(OeOmxvUJuLe<jqBnuhGRFn`h=_*o?8{4$l8s;Ow
z$rQuOXs%^1nC5Mi+=vm9vr$dQp&S^EjHhfC>oz~B5cynFr{{8WI(N3~hKt6o!%;F!
zosmLOL6CNkTK8HAGd#Nb67`@xOX)7o!bDT(HT>bMHpqHJcYK|gLPOoePtDUXnYvWC
zyAIENg?c|hcluihz<X^~yca1RyA|$O3rEZ0=*sB(YAGCD4Nnz)H%IP$Ke{?HRrKC!
z?OkgfEw_#qJ-2p$t+e~W;-hPUfpTErMqucJI7F+jgUs8Gwcvqr@W6T?v_ARZ+T_vl
z<k1_G(>DUolqaX(j9-0jdG5ozN+(YK>fYjWOD|o1zBD;~J@5=Tx7iOl?eqWPw}EGL
zvVVU$+IZL#_~k(tLPk!TAIVa%RTmN_J1Q<;ogbZ5{8;Tpk-kh}A@50H=_}x!3Ft9K
zI<8nC<nDYO+Oj6spx$ne8Gf{<K$z#ws|w>6uGq3#P@@U6GCO73hW)6-5U-K;$w021
zMyy8uGlwG~R3mf87WbwN)=|R*RXTNH?@qw8IHs!bFR0~*5ZKBum-K%cZR^4Iwcv0$
zIJ_DhDS1b@qlAr?+)&I-WdnlvoWv;;(BwgSO?XXw&GDKOC#zx}-~3S=mH3QQbQT>&
zu}JPb=cT}+MAlPON=yJ<HU+rN2`Po8CPly`A!xw8yR_5SQb9fmfoJF24M9hQ=-{VB
zAY?jGNTugT<umYGg1j;}hM~%-IAT#`{Y-8yt;na)63*>ZrOFO_7FDV=4oyv}P!UZH
z)Epi;2u4{U4CLjMf(~cqvd|?VKvNYfER}s3=Y<NhxU@u82N3ze5_2%5vTSZjiq%VK
z^QNr^ylq#Fq0=$hnM~{4flUl*JwzAs<8S^P!H;2MT$but*LAl{Q13m5wb5wpd189@
z)MH8oPSMMf<=7O3iY;;3aap|Ve9z9SKY|73rCz`W9(5f*NseWZ3$riGJW=5?c^GGW
zY3OLmynH5s_zt+>&Kp(Z%R8)(%g6FqdpY+qOkypS&x4Al>X=o}%P^|PHS#xuL672P
zcxj_aKuBnD`t+PnXk-8|HwwzUghcMCWz4|XVi;+hi7(>e8;R$<218rb>TVX+7%gQp
zr&UyGvtF6nd;tM8HTYcDg1gJX-D|;p<>0<+QPR-%-3T7L+1z%e>4#0wvm%d)x57Q^
z;f^hztEF|TNjNYqu17l8d!p-IgIgZyKvQvQEihaT3@@k3fk`+>!#$-yH`m8R4Q7Zf
zp=vo@d)b=Yi+D^4)q48`3d40|)9uCnky;x-@E;IMy+L2k+b?Yhc>VP^zMvP2Zwv^{
z?ZqZGHe1l33KKF;yf^8jkpv8`YvAg}BAhM`0nQrROV6|@Cj^TVkaC)S3(;s}f|W5$
zLQ9^(zMh14M8$!u%+H2dmU=-=&f$!CoU>Lsmw@7<&7;d28BPfd4Tc!sF2S4Pm7c(w
zh5kBgQ(NR;(3(!p(u=~U-p4<|flPX}{l3eAqHk&6da$G9?cieg1d1eS4XlS4ldTE)
z$FUnbF1GKWAvfghdX<%eTZ_a5dq_{VSpJ0RPjng~{ak9c>V5-x05#GQ*coutS*3l^
z;7rrf1WH>Ss|u&(g=oD6snrn407KD#qc+K)1YZ0?AW~}RUjFvl@X_nTM{jl<xc2SU
zj>E-cH-p2=>1)SUgNI7qLwup=NW%tCjoMN~4%yycZgaDP9@^cuJqu2v5};N8kf&-1
zVN%ppVHRv3iM7a*wtzO7_|aaa7>Smsd)vx#u=#B7ttO+CPBu%G0;@fb@4}w1w!CDV
zZc!s7_^`eKA=0@P9w~=MRsyTxyNW)@leO?zIXt$KDwD~#-qgC*6fHNAn(A9^I$U%D
zo9s9!xf&cOc?Y;WacG1Dri|Mppry32dIKLjYK|S%IIZUoe+!)dQ`=ShT@j?H<Jzji
zI1$T>F1I}k?EDdA66#uR)ueR8x~t>vBI~ZQO_HoBoU|2>Bg~&5@3c>m@|lqJSv8rO
zNhM8vGLa>vz`R^k(JKpGw1eUJ%xVpyDUs%Nn1XIuS^jS((sSxjP0MM9i^;F;(4sRo
zl%_3<n@l#T_}2Cv%8(JT6X|N(h$*y%ssrt(t?MVXjGNQ`i>l`k)To{}Tf3J7Yx13C
z`OZ?`{?h&@N<GI{Tc0cio@Ca~m%#4UZLqr)gsnq6;!5b+(Nb{tYVaUDuAKAFp<~n6
zHJ8onNkSbxBm@WrBn3AK_B#uK1qtW0Ci5@4s_<yD?xK4q0r0M=f-QO$+;wq@Lxly8
zr7V%9Uk{s$zP#;CSnyeGE;!C%RNAh*jYS2HU+{yoUTLIDKea~;KJk)*^~djSM<_pv
zV5%p95}GT&;=+|(HG}I`@|>PHjiZJc0wC>@ReCY0-7JkT3Y8aT`b-Mi7nH0QS-R<T
ze6fOOhS@^v(F;I-9z}7=mR1vbUM`H7hYzNkqGmj!@~OEzKjM%J&6X#F%sD89;{de^
zqH>Fi4%qm1ukc%L=1Bxi(rCsEaYDiOw0KI<HQGCkriY>MYow|({&~k=#Uz9&?Ryj)
zpujfWv?r;ipC5Cu#<~BOTGh!@ZZZ&FOfA%C^QpW0k-~8MSVI7l{$tbuCv`FDyt9)4
z+hbeTT4byoA>|=*U(tUn(z6yhP>vk9_U!wq54%<)CyRdE_K5VYg(u4433wP9nu_zU
zAG$hyy<zZXtGwPiwEXPyu?;~S@449{FL%E6XQl4Z(&+sgPO;_CrqdZ}f};T5JX{g!
zDtS8@zt!*;$zjG{|B1-|TmF*sq~EaTY|x5T-o$hD_|4*JQDB_r)Lug!4)telhx#y%
z;pq~R3_}zgrCE615%Q>Da)k|fZ(Ycn4OT&3yG$b?lyjpdU>Y^dGp)Uj^txbu0~tGl
z_4Zy45Lk&x{tv(!Xk82Rl>>e2&8OF!+iy09mX7_X33d*^i3=<ha8_$@E)0!<a~Y8x
z)ekyr-ocG*iD5czqciC$)!9}@;I`e3W$-)(q5LlTq363|<?Og(8$;PPw+ibGofDe_
z>6Z}HQsG;+pq}35&V?iMG|sxnoeSY>0f;#VxKoQmYRnWUTs-Sl@|Tu{xn~QrN9&fA
z$@zsdAugXQQcMO0<y2-it!5zT`3_Mzr-A1})u5oNGCzyMiFXcCoer+C6ENrLc+_RI
z;sC~m50}qchDOBXu!OUyydl9l)8I-Qru1n9I3%{+vPRQPO4D)rVm4ZP^UmlZVTukg
z{Ww*!`ogl+Julh0_%{jCN%Rg#!@-IZ<niml@%2y`w)I-%fpX-5_aSN@FZw?UcG4L~
z<YusS>EP?HF85y#4l<`IZ1cwBB4nq}UkVOx`Gv0Dx0U6CtG(l^ofE~T^<d}K@p3R)
z@<uJ)xgXsf$Kf7Lnq8RSH#_>bU#=RZd^%3l2-JoXJ`;^R+8W#Zq*J+ET02GGB*F|Q
zXu}sdM``T(RTstB9W8bdi_V3(x=5-Azv9cxkrw(S!-C&8R4EpwfOa!2LIH^i?Ft1$
z6o3T;zTrJgF$&0+p}zp&(M3du%e(0nT_?p2cgS_$tu|Z;#+xn#w=9K9ZFiJf?kM|4
zR))&H@l6lq?CElauPtr}czqb&q}RqnA})EYAGqi9hEA8CHGwx#$-KSjqfe}N|8i(K
zx!h6i+_Q4B+_`UqibF_HPfN+Aj<T<7vyqYxu{&cy*KXDp-qmf<r@y9710@Z}uJ&7@
zv6WNh(7p{9K2Rq(w0yYSG_v8NPruMUdCgI7+rQa>&&?^(<?6&;ggxV*c|5KMSx<Ol
z;$eAts2sXugObsRU*7altP4dy_xW6dtSH{dvx-tO4XS&yfnvQVx_;NapEtCcD~fk@
zY5J_X+ex2vx3kp0zwA4(*+}1$!o>a!U!SWBIk-UAh#2daQrtpoWWz%-j9}N*{mag)
z_mo3J%lUF>uT{rdda8)yMSs_3kYbOCtX&yV-Y#OST}t8YQmkIPypG*2ee!lGHYK*Y
z_7E!Y`Y^ObFOEFITXf6_;^!S{NHF>#$9UpYk~2yJ>1oVykK<MeB@K6eo_;!_(FUQB
zL9LM<qj@RM3r|q;%y>4d9ih)Q<|yJvy;Z*@V2o!puuOjRtC99+^s^M)U*SGpRny~h
z`BYjTw~aiF@fztH#x7Qv=T}C~E3j)_T=`_|>^B|VG;DSWnDHoGr8MaFD_7w8EpEoC
zj7iyv8y_T}0T(aiUEz9xgoVH_Lg<@3g8VA@E{av81d|;1QW|6JT6Q<Q_d_P**4ZKL
zZ%{<UzkUk=6i8A0cefx8eJu3<M!0`fxc^fj@~N=@V`1<&!gC)BcYP{MeBqEp$7ce9
zFZ?diu_++<tVxhsK9)v4@r9S3TlMu`bblf>6pt+BuO9xZV{ab&;j1^Kk&EI-u0Zi*
zsdMiQ*XTvZN8aF)r_{Ia{gXGmhcCLe+<q~9_0i>L-h6UPKy<6iBTk9S-j&v$1-1l=
zZ-pDhJ<A;{13&BD5)l1N790&rLpQ|sEk~m`EnXd29(Z%_CbFg>$OT8o221`zeq0jw
Kd@fMPVE5nX5qbgu

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/utils.cpython-312.pyc b/multimodal/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d86f5a660b1d5119b59005e7c30ca15bb2d80d86
GIT binary patch
literal 20131
zcmd6PYj7Lam1Z~40P!LL5+uc!$QEA`#FzMxC{dPdiliR4M9Gr;LgIlSc2fe42h$Bo
zB2CUHwkD<$&q$u^#B{}(VJfp@x$N0drFM3`shW-DWUHoX{s5t}U^-Go-ptf){%paf
zrebHNw)Q)>(EtcRvg}M%(h_dpzK_$l?>+ZB=bn2m|FN{x!Ql!E-w4e<#&N%-2jeQw
zMAkTg<6h?^PU6FyU%&Hy9?zz*DPs1UBZ6PxDcu~lM67-*iwohBh|O<faZA`9arhl9
zZVfvlF25^M>MxCy`O8>ZN!T6n_&t$we>r=$g)1Unzn8`NaHYSBy}LT%^l!+d)%a_W
zW)Ig!>il()dVhT;y&<yEzmdfq;l@alzbPX6MfU6rZ;CYgn_1iyZi%$|TUop`+!kr~
zw<BIAxx<?yTl`yC+!OXiw)(fSczL)Z(&_Jvbosm3b49p2(&O*pIoYK+QO_IR7U}i(
zM*94Hk$!(a&qb|rslOM$KK%MkoZKuAyu<7L>EDiLtGsb4Y;<(){%&Qq)F4XnQ`5OT
zBPI_{DMmbZH|p^m>Xk`V#<PD2&+YGI3i@};yQjXAt7XKbYNNb~JHSaBE^$)LJ0?9h
zTlW#ER<4?wGwS5-Qk}e4s+S*~v`P(^1pi~wMyXM1debC{a^2KGuAC8*Hp!1l&G=Cr
zo78g2>K~R`<qcDpj1sv!D<ep4pgSV9%l&vBmB-{q<-L=pS`?$-q#$iZ{(gy<wn#j_
z_khu6$@iupZAFbfDkpWwHB(n}w2j!*pBb^-UFwt{m%8xd=SonsTNdO;8I5|`tiNCG
zoit}#;F5aq6;IeXX_vGOU)C!hMjK1@HfCtlqh8VellRI;=q-9_^kUy7i+`Na>IbcX
zqO^+kEb4AY-J`7T4%8hiT6e5?U+0(2wq+;i9h>ESL%*WV8TXkq+o8Cu1W$)$&3r<R
z`*^M5<XJ@yO2=Zc@Yn@;VkRC_kXmv^iOo!(o<&qR7L1?unYGfB&m9{Jj2s*rdE(Ic
z0nI!doz+TC&Q8lu2Ne)@9t$d}d|Xy%!g0+uqlBmF8TDO=_f3OFG#HUl&~hjeJR@t>
zPentL9F2!2L$bt@#uNqbHfd!CPo6wB5{pLViFha$)vC{gW2b}Rz}a|wIxvw<2We+0
z8j1(Pu`_36YP5SwjYR{I;B+7?2hYhWl00J<;&N04nIpj{UaS0yCNi~Zct#4vj>u9d
zc<3meON^*VtI}H&IW0?4D0(K7p}APHQ4AEGM*FiA%$j#!Fg|fsmQLb*G38KndM2)F
zl}FGWp(8OV7=Ge>P&uQb`y*OyF7;SAI3b^ng(X=T4NcI1I3vLef%7rt1zAxwQ{adu
z(1%atxSQi#nTItA)BF{{yUY=!`%Mxrn<q^Y?vfc(SODW&*w30_2{!FAENziXB&%$Z
zN@SaCVbepOE;fmubS!d{ykx)R_S+?g?2w$YQ+Ba3HrWM6bz#bu7R@O|PMOp!mErD2
zJKS&bk_T_eQ7D%^nHCT&n^b|xSN>2Xy(n2BRf3vL_R5u0Tk|_bkINppI&V4(QWe^<
z;d9ohMx7dIgH(gI*Wzt;?2WZkefPc(eNm5A)jf3S29&PPl-`)7?Ufs*hVG?)@7Upe
zjiAu@TTy5Ng(d(z^`kho@80(UlsBOdnishXyualH=WEf*80TlEWlR~@I84==U^pB*
zFH4w%6PTe9noa?l>spnOqo+x+NH7#tHMjm4iUnR^(?N6OCbZIuhA3?aG^--VXO!rK
zIny+fW)}SDc@63c_vifUTs)J>ahI+0+@B!dkQ_WW&nu>RKFWu<c`lHVg&a3;!jnOh
zn>Q<m;&y|`yxEYV3zm7yl+#Gh-3{uhJ6>v}O8mU#+t8)Hldb&{Ql{KSe(s*FU4Bn(
zbAD|}p!cJlHlyymaM5&zTM*_2q-NVYEBGwIHFSkT%v{5Om!a$vB^Gq{kT?uPBTNm3
zMFJynI;g6$B*tUnv=W<;RaLLDj)*}%dk-;a>l9y*XHoa`tQaA916^6|7Wc;#QN9q2
zOo!#p2a~}|RXHw3XCi?~1)@O}CsFqtfodn^Jh=9$t}ga<U7=W)&Pw9u7n@n_=Ajpx
zb5xs$2DU9MY(BM)T#o66M3OdQE<v0Khai@yPo&uSXgC&>^iH8NkR@@odmSl*&kJV&
zI$LCEq7+gf$zsYZ(afVa84AnlI$GH-z9%xN#3H%(&h;FMo<o;QBDx{dfG+m3OsCKk
zJT)YqJS$^}<7dS=4?YGx9F4^>Iw3XQJy#`0X4JTNS{8%37Iu&O9GXR)nU)pJ76>r$
z8c^E7iOOaQpyyz6G775ZcsdxKk(t!itRXdk@61hMUx_BDa(FVYa&CIp-mlXFnmrJh
z2!ksF0hL~+cf`ftJkk@7O!rKOrn}-`Tshu#VP<gG&KCydo^a@N&-85kY%JPyE*y^Z
zL`dK=j_jF<hr(+2^sLeWN^={I5IT+M`a?|VHa>3<nd;vm_~asYx0SP(T`o!5YHr%<
zKC*IR&*h`n_odC8z4WH7A#LUA+ZKga-5)wzZf)sIbd9ZS*`IK=-SKv&y!}aU|4r}q
zTh-!f<=E<mZHemMMDK9g%vX)@Yi9F?iZo{~uSnat%C7qq-cN-O<`;HwzAmD_Wq47z
zX=__`iV5eI)z<ceYtw4m(4z2DTk{$k&M|!}piavZn$4K=S?r_&SOe<V`F%uQ2Rcqs
zYQZ&?MaEnP#Ing)OMDqPx?lzlnTwV*7nHOtSm&*h@B;c*DU~b>C2>M<cFmW(lUYvz
zElpE2&;=I|P%z#L@nap=_)et?g*1M*W<4EL<sAcaokyeLSy6uwrC>ZLK6U)C3S^T-
zu<&$Di36VqRHCu--9AARm}Ii3(*P^YJ06Q4BAAL`PRo+c#!i}^0iB}Hru5*23ax>Z
z?euCpy+iM2fufp2@9a2~;7lfqnj`8NmEhZ$#tJD8S{bAys52taiRU&JGUU2!8CBFj
zKyZ;uJGlCmzwCOWD^=H(tn0cqalLn?Zu@2TqW$W?s_1*m{ayEU^YtfJ#KEL(<D%p0
zp*zmXCEHJ&;%dcXizBxx+Lk9)Dz+wETkp6xq}(k@cgynQ*M$}L_JnP_(vMfH;}seW
zCTIUIBH$IS7_Tgt=gk+L@hrzkd~QT@;~dY9EI2MJ&p<YF8Fh?1@z%WXAlW-*sJ;dX
z+|Th!MLa8UCDXhBiH!Ck6ux6IXfsYTtRi`}!Dks>1fN;P=k|;QqXd%-sC58mKrNmR
z0c2+44}{$AxiZ3Bs*nNR{ydmfXHGLTj!iz0h^X=1K0AX_&2@YROQeX7vJ8F|(mfQ?
z6}1vYR%79FvQ~n%7D*<hi<0e(kEjhkO92b(L~WEuEm3JkGA3Qep_CoCKZhFGDk`h5
zB48Zax+T@}ShD4@giTy^wj`V#w<;P}JxABfCU04qGnJOz1@zUt=~{mFt>?e{{7Oy#
zig#eqhN9PYraE>fJ9e*h>`8TuCGp=mcB`UcwL)C3S$3p3zN3G&|A|E3;eQ}BEk8;C
zNhHmsWtbSAnv{D}(!FVU%Zj@rVe8QOIjixZbyoZsKQAG2KYmvBf<yCbp)6g+xgQ+Y
zmg92hfJNsB>4n9qew+JFmg`>PXSrF<XC9yHCDs9gWjTg~z8H(jA{Zu)yo}U@C}+y_
zkT_S_EwY6stEMLpi9WNgMBC2B)Hp4=8C&>FIbKldOGQy1^wt0=fl8c491=fZ$Yvee
zGVhw}F9fTHsPqcnqWTeB<nFjUDOdYXT<xnEFwdr>XVbOHly4-7|DKV5qR}2%^=?Rc
zyOQ3nL`8R^d*7<JKILsqdRr3}ZE1_CeDj)FpkWs<>=v$kl!sI<-OPsjZC)##l(F~@
z&{V-3)y()7<rv<aMK+q_#O;g|Ud0pE51Dz7QO=?lY1zg2U@9xSKqGVIFi$xK4#;Ai
zkq^4rQO1gdD~5pgTWieo^X7OK>!!+bG>zE1rgt*v3ps0=Du!&<9I_SvD#`r97Jx|w
z+U7Or=I&T;WM%&ed`q!@fqXY8kaRA%)>B|Qzy_m8z7FuVbzBjVffZ$mF@$c$hXDmj
z8>!E#@+b;u0)fxmw!)br1Dj<<3^HZDQ`ZF`_o*;Vjc%Vyq0ZE-Dl9Y+S#zjRBjYMT
zx-yOorrm0GD3*cKvvFC~1UY(6)f%5ZeE3M<$k^zi;Q+`4h7TV;`b^+Bo{x`>oIIg9
z7}ByD$_SBpf&v0zLwR_T5=ePq+^Fjko9U6hM%jm;h@w!c12|?sL*a&kskbhdte@%+
z5I}h?<0>1LM!vac(RRn_z4GYgM^nzWq_b^#@}{$El_uc!q-*>2vo~Fj-l^UAmrZXp
zEk3^L-I(%jPI@=5dc3POZMVeMlsJ+UN75x+<reH6RF*A{rd^<$^0p_v?aT2MZ)d{Q
znW4Wl`4eX=o3||U!u6UJ?@+=u^jX<uk1d*SmDMbHzY$B=Hm+AeXi^enzl`771pw6(
z9Dm=*no~fg1e7nhj3qZFnJ`5(3$Cf`Vmg<RH>nj&3ui9Jh!srg>?Aevp(I1`EoK5>
zliFjHo2oEkxqEI>zl<%J7cs%VWqRHGHH(E?D1lj_$P|lL8?^xfHAXyl$20>Kx)yBn
zwnD0GS{Lb=3@~(l<~zBmI-Poc$fkW}JU-W3buf9Dw>IRzPmh20TLD1!c#~0c-fqC-
zOZ*`B>i6-xjNdW*HvEnGJg=NUNuNgtj*_4{8=VNnG!J2fG82u$G7Nn_Hmy8^V#>1=
z<dDS8iU+cIqL36+zJx$?qcVwEIb&?sDl+D6KoRWlfoT}xl`m8A0z`4>^1BG4XaZ|U
z7FRUu<P6MbvW_nf&|*4Xo}%Ynhape^@Nsj^55gI}%yrOGH)D$aAGTV~0nROVb;`Xt
z>E68J_ALqz4?ndnsoMTzZU4RSQ#SzksVn<+27?@2bzQ2;m#p&L-1^9SXH$EhOzwR$
zapIYks%IDXuhurb{z$^rv<`QwYW4EBJk86asn)?{>)?Ae@9%^{T3xodA8YwK@rzel
zT@PVtACU4B0!lGI{Ed1L9rn`jp3x!x#-sdbpYQ><74Z+Y@}mR72OUF*|EP^0-68y_
zo#H<h`O%%ik2h6Ne1NBL2Mc#nsM&+GXF)PyB41Udg%!>5HQF7^S8F6QnLmq(?c(Z8
zh%=Vlf5rbPzW`%tQKbe;_Bg$hT~owf1y>Hmu%r^^wm1y-J50tj_7Nh}ZP|i7XV%gz
zEKfNKdT(RVuMoB|1CnOOR8pR&N191m4HL}6PmLZr8rVN}a^zs(<e?*DN1r<RwppJg
zXQ-4-@2^lyrS3r^bcNTc>xwLMuC9RT^YU(@l1dU?7p-E_dvLim)x0Cwyd%{-lx!Y)
zZ}9znE6oRx4vFjb>I;!oSJkSk@>X4As%|h@HwZ!Mfssb=U?n5i9rrFzs3%{>Z|z+K
zg|bc(e%B)iiDAx{Lnk=kqd@rRv&`+xj_fcY$XO*8jm@aA$*^90z(^}0d@LL1afQqa
z`D3lTKzWlCFw_iFEP`PDD3<4qR0hDr`;Vnw;+I6_IRshw`iwy(4CzW%L3=73)aq^w
zYPAFKlo?qJugCElm4y0B!_MJK{zfT3Tp`>jvmmaSk002FWr`z2d!GTACt)zs<Frzt
zos8_1CIu)vrT-Tm)=g;(R-2{}tvK@`0Hx?EI;~9w)7oq&P$;%qp*6>YC$`y8CQfiI
zTyA~R$|-dVLe2&g&#p#t%90^$=Y^NBF}Wc8p>Uo*&s{J-$AOisa~HF$q=STb?9gG6
z^-u;XqPn3TT77}RuiKHWx^GsL<jEi`z@2Qttk(~zWV%0xB`(Z?p(u>-7!0xtMuPDi
z_^?6HEUZdCXWA9o_SDVTj57;S=+Kej17qt^NFi&KZj3Rjapmod8D@r3X{<GyKK9Tj
zc)8FBlYu8z;y&=i@;(M3^&$emQ#Az7N1UnBvASVX+D!L0U#e|avTawYZBMdo&wFRy
zS612{|A?{{ZE2g$-pSPVwxqXh)l-W_`K`w0RO9Ys<8IRY+nMIi*4m%kg^i{CW6osn
z#4`QO6U*h_etM;%_1dO{tK(m>F1L67Mx`~~+na`++zqFFxZ8ZAvTE38zTvYVeh*hO
zsQZ7Ya1Ye|o^Un*Phfy&))j9Z@cuoyoq?xy?n;(z3&4|fGcowPnE=Xp49x@CKL^Yg
zsA!hcm05b6Lr}=j8Kl-(URO1XBXwR0Cs0uR6A;sp`it;)?Z#AXZ?d-cUjDA@%c+*S
zL5Y;iPd}5>|4ki2i(c9?yoZ0MZFmEB!^00(2{+2k6tCowe4~n|_y+s%koksKHN4$?
zW4ndoLuTY^cD6scPJvs8_IE)3-y7}oZ1Cnuwjch`k^}1FI)xDX&&8I^Sk?;htQuI%
zLjSIilN-SLJz36YSkF4;vr*nqA{l}*KGiI&Dq~k&jVLJu>pJx4J$mEQhepQ=^~MZD
zU!?K`(aMVmG@CwP&>#ye<r$D>+4liymIpUQPMrrSfON&@0_nR}6koO_y~nSOraB)>
zc0QKs98GqPzW>ZWoL=dC66s%1=`=WwA@RSVY4;$p^|#kCe!sX5m~Od`5?eBNIm?a3
zaF~taXESG(#&4~H=m`80u^_F3GWv0G#?E0e4W@DlK_R1Nz*pzv2Z3*1iJio>Uk9--
z0=^H$w_jAR?jL@Hzp<Sk9ujWsuprLNs97BYE#?IL%=oPlROe&qJ9wrG%UV;>{c9e(
z02!Sc%U07|Uv^9xN-^Oi%7#~9(FLs1f)`+;h3s(39*Sp{qs(?)q06@{i9q4Pv`Syn
z6cn3lExN2JC^b%FCgPQBvD(<bvT-0`tGnaglyY|^-CfsCUvFJ;4<>AbYz2xoZb8{`
zUn{wJ&>m4Bpg97xFqy&LUqEvO0$-U4hV>kU)Ok&i;Gd{Vd9s@-WXOc&3C<+Uzd~_R
zBB_E3nb`8IS7a8`%uu{_ASR~OEb$p^y=$iEv{n+8f{GHH)hv_HeBw%sYJY_S+VxNt
zDEK1;nmIZh*Gk4mhpDvkHA-KkbPIfICeCVB-SJZS2Bno|+(;(ma5xa~@k%dJRf4|9
zm=Qo}MwA6)oL55__)jiz@XpvX%&)dV3GTG)#_po8W3_L`$EA3H#e8XEdElD)+KFqn
z@9s@BLbd3-ell6RD{Y~&R<5eWsMXS*c2b&)6I+)@-k7~MkZkHn6P0us=P3IZH^sip
zyDU5IRBTLJa7T4--BR;w9qAH!vT+XAnw??|6_!p`2=}}~^rRO;Y;B9(QkE9EHs8n2
z2210eQcv1~dtPyRa&R^EODA8OOH&y%4R0u=*nXZ>Y|d1~J+C4?<toyXUXfx4`BIDH
zj<-5(!5wuR?nULw+~v8Y{^hDSb|>8JN&Dut63T0Q*n;g`z4)<x13sC^;*O83s!3A{
zn&EI?slQym=A@^g&snk}(^T9uG$}?j7u72-UVd?DblJN+v0U@Uc*4CkY42EbQvNpf
zmdZ?B+%t74_Mp0y-)Xn(yi-=5w&2cs=SsunhF_Q9iOoQr0m%%am8#?}NA_eT2<L2?
zn8hLO5#)RxNSnvT=A`Kz;(A;FHGXcxSabr$hm2_^sAd+^-2enKwrQm@%QswL%(|iG
z+sIO)2-cfmyqUtfnN44oD}RAvegdOShyaYRd~Eo}A6`7T>hz|Zo085=%iFJYC7O4x
zICmw4U3y<AD5?pM9~(P>cCZDqRbQU#!jS1>%P2FE`4k+J$V2+a@Q~jv^ZdKH{apBg
z6hnJ-jR|JT9NwGf{)pkd(LdsJh+JDUCJ5LJGFAt}Y`_YCeqj%PJ5Z2u!+48&|4F(L
zLLq+&_<y@}WY=GW{$S>Z?@*pl&>c)iRY~HJZmb(OjWN-QWX9xsC_;Uwwj#pJ1)hfG
zxts33{9$RkKACWCT5;}42z%JDU>kw?WoCOFm6>d1@|93Mzt^+!mCtR;<?XAJ)Ge}y
zKF{UY^KE_{@{)ZnQ`^}$o0Y%9i`bVce~egh4%C&G%-6m}6>?vD%Uw_WhuhM@6?a?y
zC%3OSeF?#*f2}JL!RCv~{A1O1-%K_!_RW8a2+mURm&k%<@FLQT%jkpAtS9oqy55jX
zm$-M$2G@}$GRj>sUlFcYCWJGX^v`1z^<}(?yzH=P316s5(`%+zT>>|OXQY`=pcJ2d
zIuD)*;v|#q1AHKKPL7H}@zi}!7o6%8;T?g42`Ht?Uzq{_G3OF^@~Uu7Wju|u3vhmg
zw+V@RautT(DtvrT#U>}=lzU3t!nV$ddqYu4zJO3SwUJYBmZ*=BLRL_nkfU^pLX0Um
z;*hb`9cSL%dCtmkm4zNbelDlBWW0%IJH?Q6!G|WFKO34jD^3KX<g7ZA@mCH`Fn47n
zhH#>Sy^baUwKRVmzhqE*{!5_t{3(5^ts7n9%6|OTjw8_5Li617&|#RrBep^E{6w-~
zI?6qdjo++CBrK;GEAzMb*Lj|MwM^h%-6X)PhixPNHOOLG+hzD9<LFHsURj!{dmB78
zb+>6KKJ*DHR3zzwCa`$HYSaG6896Fnm{#`AZ6?2M3{fEeE4v?Ij%w=O?rgzJGy!(u
z)l7$nm7~J?VN?I*ql*Wx%C~Bpm$(1VTHobEiz8Pn;Z5VHxZ1x257UizYJGULH~y@t
z|5FAmFSTvv*Yy@5rWe085dnEqNj%M1GU69rq(zVaiYnmqtvdf8#$RB1SO%|bkA#Df
z(^7EnT>EEyS*G0A>BDH#{UY~X`Fp+pt@4NUKd5Ij_-&Zk!O4Kk|AcJ#dN2o2Y%N@)
zN5^D17!T+@U9M*Za!JbHpp5djRFDs-R@{l33{b5s)->hsQR)J<hSq5pxsPhl$9I}K
zQcb<drrw)P{c9E^Tzveli>qx~noIVK-mDo*2vr{rjQ!NPKRGa#6t^wguC-kI%Hp$E
z)vq5-42-Qf_a}t?pWbxtXUn*E-NT%1KO9%Bl6)>S0k@TDY#c}A2z<%4Dlika5>C$s
zaDXZ-(ZQ(6&>19W{htF9(=&Res@cIVx|_W6-_cs-hZMX|!3_l25f<=3dVC9hYlks(
zuke`}LEfJDR{esfZzc|}O0#61;gqU)MwZ@Z7b4FSO0r1SFwUJWSR(Kd=DFN?2yjyg
z5YlEKBxc!9GqbE@!Is-!n70}4U$Em8$3)(KgSDt9Q+BJrm<t6ofoy)3uH!QQ)mP>n
zQ?#HdxN<0e#d*aw0V^4hyFSxS=YnhAiGKoo1l@6(8thu+ah%F=$u{pYzAehnyS{09
zb)&#7I2KSVdJN7Mpi+1tbz@-~Jj?8m9HkRD7lL;;Lt>P|<%H&C!8KocCaVh-`*!17
zAZ1!1WlW$$y^$Hq%lx}eBfj96FDd3cG4IIYUJ97UGx=m*a4k5`>#_<o&od<Sxq@$k
zZ4S`MLfVm0>9iqaR=&V`B6~>g6wZT?|0BV<&bg<U3oes3(3oY0`38nUdSQo{e8AWS
z56Leob1&&rC;$lt!IzOm!|P7XWM4KU9yTOWPMqeoF1K-{&rSWXg&wDK9@BKLkF}MZ
zq@+VO>|CG<ht6Ex+<YDqpE;|409A(M)TcRfU!M%BSQm)o&e;`@br~;Ff>CucD^s5%
z6j&!x*%Eu5K&4YL3;{dEOsg_o>&pnn@wxwaisg`a(R-Z`#^~i!<Vi0o&>Y~Cr($S|
zLC`5WTGWXSkm02-&P>DKT^46!GYXv(lEWf7&ycU)!~|3V(hTsybiz>`>ghQHhrF57
z-4n40JIv9AQ%O^B{?ku(OwWYFJ$>7E4DRUOAKU>>I*CyZ%V&ZUvtTDIYM?ShO@|*S
zQDr#T#ab@vUm{{7P?D$NO^6m@hb1b3p~7L(DimPqIkr0}p4-;l+t)1~yI=FkXYf8>
zzUQPeBcG!0ftJF?J}RHrn}%)4P!um9{Upav`)SN@A_c&Gs#|<6Hp8?WMaHN;bgzU|
zbw*Zu`gZgV>|#Bj#=!TPBUr?3;G6SAO^TsOA+=kf$qi3SPp%z0Uu#u`DThce$qEO8
z7J_{y{z*f>pELCdPSKSfCRJg4VQxcIRTuioe?fGv>j8|Gr_f}?{(nYw<|+xXAOGRP
z4;J*5<9`Juynw{nx^|KvW9>YR2s<oDuV>dhmnW*IT)|}kp5iUOO@5h|`23~gJguzF
z<0qkakZ9FhQ5-@(4TbClupxxEBcvLTqb#9-@&=VM#bc=Ocl1oPbdT(dx^3zUbk7ay
zo^2rX$wlr~ecN*I-KxKBc)Q_d{SLTEx3s?1`rX!RlkX2Kx2`lFgg1Um)18ft*u8CO
zV%>-yq(;EmZ9i_BRX<U!xd6t@&n*VH)T-%tRX3YfY*uya=Kz%-ql)rBC?K^-Atxl|
z3IfeW_#MDHL$i@19G!bnNHbGtVBpN8W)McRut}?#!*bMDrhGs}iYO_0FJj6XQ}XN#
z&H`aIj-#bn$YPwO@h@onIi2^)KvO(L3Y~H3tL6F!@Su`Hr7P603kW{Z_2_oawlPuC
zdaJB1Z8DV}##scxt$X&sAY|LPY)O{1-LjRXZ1qW7ecEIx?Z0a-u{(ZU!C8*-|5V?+
zyervvI8}cHhj(mO+iq3XELDB;iADQ|PVrX%;HsxB<>^j(y06Wycy^^c`;wl0t4%(P
zU^&i^ai;PLyl$Xu@hGftp6Y~qQ@WDdv@IoWPm0@bii3B(j+Tm#D!5HM-w>AgrQUQo
zS5=LoHMI#8*|7a?DOa<3&19-=f<3CX?ylWZQw@V;UHwPylB)W&2Nly^u3Y?>1D$jY
z*VL10+?j0Lx#|&9p7x}t9S7pty4Nh`s_GA0yOu`LuG;QY&5mTvj`xJ?=T>U=rfLo(
zYYzOh=Fn<u*GE(i_A+s6+R4FtpR?lhTNzi=h-NkITI1|Z^dZ%pd&8UNr9<B?yXH=m
z4X)S*KN{n?hH?JWwQ98D(~lcK<x{m0L-F!H_h>8sL4`P4Yx|(D5%C{+Hjg%y{b;ZY
zafNw&xebr63~Q~kqhVpKFXIm*0_@^doRg2@*xEcFDp=-Wk)FW|I_Ol~fMk@w>=))1
znKrUsm(be+|DGXsJi|D|K|XxCXF5QcS^RVQKtc1@9oWqXvD}f}vyfo$Z)bJHLq~Ng
z<IH0BHqRVZfH2MYR%TL%^@zGiS*4&IfpHcani&11g_yG5lBC<=$r%4Lbj4a1B3R>8
za4mhWN$-`s-;@}9^5W53)veb9H><}k9$j_TrJU_aXZ!N(inBK%^y>IbE-#u}H%4U-
zeg95JMQ=;tsIb)gjY>iDA8J%|g1J#SkB(3@1jd*wP+U-`gOuA8(3mJcM^G>hRFLh0
z{BMkda*Lk&DY%G0bL*C`-;b`<+fvxIEcJd}ThRQ6>RO#(u4`YS-pKFTuOR_lOC6;A
zf`a>XEfr)NN&m9GYyTSQz9*FcZkiR!;su-+bx*{?VayYl#MJKK=?R74L?Qh_tH2bR
zm{I5mUbpUfttw=}fr}sX_Bb56RVEwhoL>Aa4lHNRQRA>ER0M_0iwfIPBPR;>_fk-%
zoBjP1eOHal9a<SWmeNW6ma*wpN{JSz^f=)BO;(Y`yE9b3g(RkLXlA(5>3eBzDrRSL
zoX)rCzO)|poIwHlI<~W?@A)}do~{lk6;#{HQuLG6^ygOMiY)5_JwHd0&(OZ$tWrs>
zV9uV^R9heut-eXfCIs6krA4yB29cCX93^LeUqGR?u+l&Qt$&qQDfmYOT2tPsoWn<l
zNAcHa0w)h19~&MGj2wMx{G>8LrEGc|=peg#b|y||`Ps&#R->Qi896#Wjzc_0kK;Vg
zfkP)w9)C{9%Kt#`d5wZu3jTtE?@{nN1<bb0RGdGf$G=CQ*`epmVR0wNu@#A<z^Y~)
z)$KLHX>#T#J%VXO%AZq=AXVShWb8+lGkrq$A*R_LfpUdC*uBcX;*o@q`h63};p8LF
zuh}@>{d2DL7o6`l*L$1Wc$=&F1=pSAx)I*yHvf{VxXso5oOAtx>-uNP8oAB2+~#_2
zbKCxzYr4(V{({?an``>e?D@4xuvkCl5I{euZ%haqRw=Am6<ZR*#t-e4SD#(6H(s=U
zScQW@l_}3a(lc-uj`OAjR{`aL_gu8T;{K{T;b~5JI+C7_n_TCI7T4m*m!H3A`mnxZ
zrM@e{)u5oMF2y$|`R3&vEBw}9n}PzrGtE)BX68&CX+7bf-O3NGI!mt%T^>rC5of!9
zxPySzzE(o98g2v52-bXTckz2yot`VZFYiv95l4~oN^F`UX5+B&N%_#kP|ZoPMl-*4
z+5DFCyH1=J<+olpuhA{-s^kyws}&t-Gez!L?2Bzz%~wxcwO#H>TI$v;l$svkn%h_L
zR$tf8+IznD!pEftcz)-q+ncD|l5|5Uqer~HwBpJWm!C+v8k4TZbO}qeaphHMJBvEF
z264IdjooP{dvtLPO-t$<JJXC9)FErxqI`8^$&3BuL}hQXtS@QlUvsmv&ziXIzK<+U
zzHilCkv8Lgr>b_TWl3Gy^4cFPOUbIOY09KdaxV5!=Ur8oo_g)YgtIwmX;~|wJn`X4
myz-^5e(7^pTI{EhSQ3^_EVnE@`$ky;Du8A4U3xd;>HiNuqspiN

literal 0
HcmV?d00001

diff --git a/multimodal/__pycache__/video.cpython-312.pyc b/multimodal/__pycache__/video.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2bb606aae853ad1ee48c3e4a990694e2737d4d1e
GIT binary patch
literal 13385
zcmd5?Yj6`+mhM)o^?q8CEx%=q4dP(~#s&f;F}8VQ2oREZU^K$r1{pm(-7>~bYsQsf
zcf>5au`>^w4O2L?vlX*pDopKTNY(5Psm)fB+O1j%kyz7fsz^<yYV%LTY-N%^yXV|i
zOSU62WPa^+`P{4f?0fFH=YHqj^Y2!xiGmQ;{zWLYilTmpKh&VhCl>Z<C~Au0D2@(O
zeM(IC(ePUn)<l>-hQ>T5tc|dJEJ<s_x`@6{Ptt7I5Ha={Nm>^+Ma+F>lBUC!J}c?d
z7BThNNuECJh&cP4By9+nMO=L@k~W6j5l^3oq)p-SNJU=-q|KZq?2T0RRg$zdTotMA
ztEMRp#e4XgH)!SS`)WBGZy(&DPO2DlcD|nX@xB2~C1i4r(zOP3ob#f#ui=rsl<_OR
zqOA+sHa@bgoA-T1TMx8dsiF2zT=_+ct9S!e0YhIC%&_7O<p<T*%r_4n&i_~xabA@J
zq=!oAp^9&MgHfs!TCaXY>*^(~YoK*4zxqq9{iN?YD6Qu!OY;wTtG4S~GfMk?pWr9-
z`f1q~JT1nBV1GQq$Ir$%$k7i4g?K0!#^kQiI4|xy3`y;gVEin^OlNcyB6eRSc!tM(
zK6+k+*c^(6;(>7N%o$#QpN^gjaXu=BV$nmvDAW`_K~aDL{UM$U1xc3{(ntQctQ!!5
z5nhzFVrYz)bpjtB7NY%mcH`GlxD}9f3-dsxD2W<`czHOfrKp4^!N8wZqEABm1e?&s
z^DL*RK`37yB#p#MI!QaAg+A2{x2Vz$T3z;pp3`u!Q4@x^S*;*Z>N0gxr|Kw*jA=}m
zB*UOpty7F86O6<TXbL@=C9|ZLjJP*0`?Qp#KSueP-s`|(E<QTM3&;V#US`F!!69DO
zM2BRSj|{~}1veDPO#k^!vXPGtM|dF^CwxQx`7MGSiUkMOF+ph{&s{no8~V=%qftIA
zLIFP#ILn95oQ=yyOpk=P_*vN|@Yn~JZzFiI6FMZbqz~D;wAccrzD41S9j)=mQ0q`=
zXni~=oZ;i^FAQ(lw)NZ=zBL>=-8wW1Vis*Z9}Y)aBg5f%C=%m>;nwpZj*qnrjmj3K
z_W;QdnxJzOUNHe=oXR$=dcEegnzXiVeE$SJv2o&Tw#Jv%R>Cjiyr*L7`N`+AM%P5&
zOy%s}l%f6BiQk-j>*Pa5Q?48DT`*9r{bP6S^uUMirb~t-oovr~tFM`^m}c5%x7{2}
zt?A5ocO|Xa8h_F@@$EZ?${b61nsYkJQkBwHF2Dy+vKbi@7=Y~(6PCy(3#CLhFF@jt
z%BD7<DN3ZoNc0%ASEVSyE-C{VUQ(uu<47b(6iRJTl8#Z=>0Uo0c%W2fLeV(ko?ov>
z0-P(9P=iIf{ED+=wFQt^N~i}S>Vf1JQdo&K%U~_~gJE7-i~!DESPuoOv355QSdl8<
zwRKn4rL`5~o#W?|!xO=Ir+ebW^trUhpK-1k-#_ngP4rA3NV`{M9IMCoeQd6n*3DGS
zzL4^5$(XmMv|EK{=t!srvV@_9%{~q#k76iCqi`fN63uDO!B+_yi8@9V*;i__bF`%4
zm@znUB|2W%>^HP;XrU|YjRD3o9Bfh2w^q`^hSc?vefY`$LJ&~m1s9MOzm{-YD2E@i
zAsmW|L&1JtSOY)(tipGkm~4s1;=!=G2d!iu1wv6S)DH^JCI%xz;lg$kae>J)D2w1#
zit~*jibe99V>49T0RQ5CAg~m!%BdZbJ7(y~r^XLv_0EZ-ck~rmyC-S=*j+w#VDi8W
zJ+tFxL%Ol;X5TyFUH5_ULs?Jt^r6|dR833T(>mUpHCKY9lLhIAE(<|bV+-GctSO48
z5O?%xc!t*+DNe`HJj-c#9mnu`-Y{5JXje$^Cf>|j6prSpj?-Rb)e}&S`>dlZ=sNQW
z)CLD*L5>$>Ef)kmf@~C=K>7=s9Dd-Lf_iwt24sqg169IHwBUynoHwrCSbQJyH^N8b
zJl7)#F~P3|y%`pTEl`E@EbGpVfUXinlmX<u!g^B}J|S=#&%m+rMc>p?%-;?TM35!m
z|3edHUy(925dOi@Dzrkj-zFOZfhe48fq-lZ1VGyj!-fjTmO$X!!@+RA#M~bailTA^
z3phiWCBqU?lG*q$Oh9I$LvdN(+ubP$!BOB#s6Q?<aCi&2aRod;u2afxT8SAQDtQ7D
z;vpaxsVwWrvab8<S{^VAyCUoI=1AP^C-HrwEh)bI;-wd-yJuW8{WIPxy(#;ev~lgH
zEYx0LD4iRL^MMwADkI?_vMx5nNBhq&kr`YO3=5}$6lI2^FH(I(Za{JjAT=yV4afrg
zvtL7c44kegJs>rDzfmqb3}4Z8f~?c7VE;Kj%Jt{*C;1XwTV(A*mV6NhG90ENbb>}i
zi#lYmpjt_NLR86wqrI2t26_;=y(~zKs=P(|vIlxHE~@}P7u9Kk8Ys5QLb1k4_|AkD
zfr|t?>l{D;(L_?H<8%`2G|Us|%LgPTp`j^BbBqG$0MxHlG!;=&pAhVzlidIkTF8MK
ziUkDzObCQ#RCatRrxH%<V{w5GMs^Jk4DbTa<@pFu;cQUM|BxLaHMwgz6prtU%1w`I
zcqBZ0CKNrv3y1_^XKO`1JRob%3$h_N6bcLp{D7=Ktt^&uIx)f1A(?@~FCRxv7$pEx
z$sb2hXKdw{*SzIRwe|v^#W5h`)IEd$zN;c>$W~O&RkWom+CHpkPwvUOJX1R-cg|GY
zb@{UnFZ`TyHK$$8Gb49ht=T%?T;1+;-R|2XnYzQ1X22b7(@fS?KJ9#E%d|KX{Ob#|
zT{j#4Zco--ldY&r?#)`9S$jp&o^w&&j$9e#@FwlbW-00$W?)EE)EP>p8c?!`I!i(>
z*m^`l6RZZHt}2IvD8b8uT87e6N`~VFiIr$oP9@!$f<=(fOZrk0tM)6Ji(r@2s6D(y
z$JKKIK<gmF&1C_;2Jz>zpte`zgyE5`OPnNyRz}Il(dW8h7qF5+GL8Y?qBKV%>`s{B
zgjdQeaYRET0LV8i0^Ll$#)?HX%<&4f_8@}ZWdWc&vlxsOdyC`oL;}Z1=3+iTdjr8G
z<?&jzMjWvg34lZjbqn*dL^s46)Ea{;)KoEsR)#!&F~<>#kgy29SS9OVlbT<Q)zwT`
z9%J1QlPwGC7pif>_89#jQd}0)_G+B4FPbkRr)43Ih?4}#qPCIjk_`}=Htx$8QG+dN
zsu%-LPys?nI6yL-Ma~!3tJo*-6l$s?fWChg+LeK9ZX{hSAq8H#B$o*KH`*zcNtW{z
zX#W~$(YB;A`JuKT#-Tgmk=#&s6YP-oFV~ekkdFuJvY^gJa!5`*?IkCCGwi{H^YU|`
z{hg8-Wlgm02TUfJU!^#`<OFK?X#r=w1hOL;B@<^X%43lOs<d*ZtGYxvj8Z;;CyH4)
zQNF0|iVcT3Uo;l?;d$>P$A=G&5;!l4nD`S^P+vHEE)4PgfVX^5%7vn5d|y=h6ccov
z@ANSA5Dky|5Jo|jFI@Q|h++|?-xdM2_H~`?P@r?sgcbUrKsIp0VDG}AB3sFK1oDT7
zY*R)lplb&g3oJp<{u*M?3NK(cmJ^6HyMjY-*}w~U{>z4th=&T#$)*#*@Gwshqk_X2
zI9g<PSLczyk)wx?1a=?oJk%5DI{a+!aoJMLJ#tKDBB7|Pjlhiw7|r2WOn{u=1z8)0
zlUHViU=%Jy&}I-2zRS9Jj1(;I`MG`F$M?#fV$Wo}y*>N(>^&}^rjnU3AC=i*u=Tde
z+A~7%v}}NT6CuQ(=fTWBAMc8VVQg#H;e&^d26pW^y6NbiUH%FI0bvpR5{3#0WEIAo
zAU*d7hg9C@ISNZ4TVg^84s^6--~j8#n(pG#1mY^MWn<pP;V#JK!_m+{Oo-%{p>VCR
z4o6&zgj`ji(gU*<8faqYWCrJf+D|qBDh{FzAmWq}oR<g$uM-G7R$BrR6!H3V(1+Ls
zYGIsOa8O3qM`fNLHqDj!(`Eil+1jK&Yje)o>e9Blt0Ob<R}-^mZVDOO6G<j(FMC<K
zBwhZ_d|6GZ_K8f{_LOD&$JKSy;<b@0BQxUMs;APcp32leovH3j8NAtws;QC5k!f+R
zzBOInnyJ{3v}8MW-G1gy$L^G?aVC7nwduXiq#<XZd>c}RnylF~P5<D@`Nrm%u~b`E
zrm;I^@ny}n3Fi;CKxS&y_Fo_WP2XF6?-^3ZPP}i+?0hcM_&ijZuU|2<G1dG;rhYs0
za^GB^YHYh>ZkzYkTzyt4sNJ6N?zpt?<EB-wf8(`pWF1Z%KA3i`O8Ixba}4fAnr$h|
z3b^H{Y@PGAr@ieN@0R4gkHKp1n%XnDXS!>yW^=k`bH?4CadaeEwC;~hJvaH>^s%|x
zj&yBD#<L~k+?v$QJ6%)WN$=IR>Cso8ob9;Teybr>wd0*#@9uqj?_KAir0%}OnxyAl
z-m9+Z7hbKKZAe$H{m`{8*_Cy=vEdJ^lDmHE^8D7}0aj0h?%3<IwZ3a7ubh1Ko0Fyq
zX5v}dRi5=VzHWKVGW+b!uDQ)U>CHVE-|mUs(;FxEW!;`>=j86m&YY8Sug|$Dn5TR7
z9sBAW#TZRlTYbv6IaS}Dqv($MY`t%~Kh>}~$I#Y}1qRAfP_K+?*qC+IXT82`ZPR?+
zikWS%#(*mg?WwJM)4shAoJO|^)~lRyluukp+3Qn=`n;j1A%<Sw+7otyfC*0`c?t<?
z8R2Opok;L}6Lul#LIUuG5_*vAMpCfjggy8Z4`D^H(ZCmwU^S5ka*_H}Yh}H;IxxpT
zh^lJ=v_3HQ(5&yi&6Q&@0blR&=JX_Kplr?@Db86all>7^o)zmV7M=!^$`|0cvJF*!
z|M>tn3KnaqA9sEss332dsmC)$3je^&qj_!K)MLTaW5LwZ@%mEWkT>F0!IFyt(-Kq9
zLQK6%Wsi3&A47C_-Z)vN)?^Fl-GF*lD2N-iyc*C-HN*eHE09}2+`7j`+<Hm(*oa%d
z2yq+Wa=3(zsG@|&K-`9sh+9{RsVb&X<Af1LFNN22rS5JDtxSL$RKyJ!qJX%~fW*mt
zTEZfkFVG^q94*4s7Nw@zi-NKMp_?V`xhjzAp(2X>Bk0?_41MQq`-HWK<`$tEt2$yg
z^|GyBa~5tFPr+#msI`E<rA0`1(bzs!IEt}kgIR!tz!!kDs67|rJj#4Ub9s{%#!1-J
zl7u}vR-B)tT{?q=12C5H+)3bqWzm-#7q$LIyixs%!If&N7^4LtIXLYNws3ptEOJ9~
z!raU9a|aZiDEpJ<UZ%`l{i;G-oOLUib(vZMh`wkUK1$La$HH(uMn8{ZVYnA@5jF6#
zu*kx&t8<Xtl8e)Ug|R}dT++hOtC&3D0Sm)cY8CUAL^<raud*a6q>8*HQ7+l@mW1Jt
zS`ywwrQ{`+gs!9|Q3?9#t1JnRWFwY@EpJKKh$Uew#Svm#RDf+^C{+q}hEcKsH7&6=
zKu<_!&K%#Sa#1R9n6q$JursQ_+NnZ2qaW-j+&d#`s%!*qPxH4~ut#8%067j<x(2w}
z8;aor$0^Lln|R@yNCHT{h2+nH>=uGR{k287FPy<L)c?X+Bq1ay5W*mmb4bEK0HVi+
zqnr@Mj2LF<#Fzlqj38i61aq|gd?;K5@dDmG3&ThdrV8hgj3B`WAz>5=+LywMNWKlk
zUtJQ1U&8XGU|f(e4`0B9?;s(t+lmKU5oFU*0RgnI35aY)NUj(?@VubB!UaUWKNjUg
znT`v~koQa2@OwxuB0-54{tSqSw;CnDwwkpFbm#BkN*u_G?#h3Leg3nCVDGa32iO}h
zuYY!9+Pe-O{an>|T)VFh&z!n>GTqdfsRyW@uHOxS&qP_=6Ve@XBRpjNsC#Pv<o@Xk
zvyE52lX16X9IeUD`I;3EbyQvB%*LzFFR+ZW?4#PIY5E}p*lXJQbMeOJH@98icJrBA
zHR<-A_n371fy~;2nN^2AaQ6bve1HuW7`E1S>Ci(P1?EI}_E@@ZL#AqD@<7&Jm8xsG
zV{e)FHKm$6GQKU7){h$+U$1_xdiI%{hFfb>M~>fZcy_`z?`wXbqgHHy;XUOaHMCB5
z!tj+f(}!-f-H5+AdVTbk^VZ4qwtbn_{h74~KJXsQHnhUXo^lwup=`nmBLk}cQ{jFh
zQ@wun{LSH8!Bo}L|DpL$!~2H2&S#2vKUL}f(6#0fI6rd7-uNfu{Ivw<|EO!)nsGPZ
zu{Wz&|L4rip^R@+s=f{I{^pW+zd2`Hg!k7Y-rt$2+nDt=J+SHt(1&~50?_~b(;y8C
z_4%h>V48?(=wDmf_djL$w{@EiXbt%0+6sBXK_H=Z089MV<z~RsSl)?*sGD7w>O%6k
z7C;g!BbkAJ5tY<M>OSkpLw|R+rv8EXkc$2>kw^a|si1$7G*J~*IZ_ii@JK_zj&<{f
z045bf0Eb82QwXMfYQY4P{{Es@9svDL0R0Srel5pv+5ugX8lXA$qP36ZbYJtOP|NAT
z2gk}8cr&y$f6Z4$Beb<~Cf@$F+G#m6v~!R%iU!Z2lCPTJyM$k32Ja-tMO~jWNnN1(
z%HYPVEPt=0y0#cX=qwWm#fs0Ey-VIP8DJzaLuMfHV|wvR<|S65{t}KX)ii*|9$KOT
zphcAc*V<G7+misk1XMt){)(#$L=B?QE(-~59L*mR2AyiE7)#m$7@`6NV`Y?5URF)u
zkunVKDfqleTz>+>PoS+bLvns$6S?xl!GnhaC-!ys91a{j+}Yg&_fVZ(2YPzDWzUk_
zqdj}}9Xo#X1-K-GTS3{P-0G1VLcy;Sj$z+R2aw&1>l7{kje!7pObrA?9W)|`)wpt0
zU4h?Y9%3%$m!?Ji_=iv=qSgHec*wO-M%yKQ+TguwsJid<CAF8W*{YQg*};0QsD*@i
zzP@p;erLLVCtSPC*KC}t=}6afq_!N$)ErD|KQJhd=)@RZ;?;oI0~c!n@y8T+$(43u
z8Z0a?RLcj6h8+Y;U&^N;g!wqzW#Q-aU(q0snqIOj;H~ges6ejCitFUpD9qggMIw%y
zfBjZ&(<+v5t9XwFZiSS%6>5XufqiW<K4<r(?Y=qt+O&Ob*5Y`;XdI?&ZNs&|l|YW9
zH*Efu`IlyrpQAKJ6HzI$DT3Z$0d#a)vLR4#37?L`IN<$34??^=s9OT8($z4nNYU@3
zG?z+o2;Q^uyiPFjf{+guHcoL&NmI(5iz~eRf~}?P*PH?Lda4#|E$yP-3frvM8>~E2
z++gZPo77ycC$>~!>xC%9#xS1}8#Io{mxMvLnkvRp;iXRPy@0W`fULE>V<xhHS_g;t
zGh-&AqDWe%*ZIvd8;*_ef`Gb&>^s@4EPhbrJ2op0FRU1cms`*SL*WoOCIrPGIwlag
zk#(m@McH_|V>1WHljFf5hHT>3utyX&S#hr*7*;kZP?p^D;wB;6R@t?G3qQxaCFGEd
zU_n9rF;p3+;K;L-&zY;!=IV^OcBbZzdHsB)FY9nmStqS?4u9GKue&vXlB#UU{ot(u
zUNKuIw`O<me|PZh!PGOy--%@$C*F?TGX1D*s%o<8%Kn+LOwFbboNc#bX~&5LM&q{K
zw>xvJ#$5&?Y%PPs*WrHoyO+Lu^}KS;dsCaKZ_n5}QihJtKh;yt=V+pW-Y#FUtH~f6
z20~$e2;KyiXawA~MA9c9@hC~>3h%b<=&7Lj%2!~9Lr-8zm1{UKs8V-S-z`Y)F{+W;
z2ya&-V1d0r(eQV<>H_luH9~{tkTt?-KO<}L{!iB8YYtgp&?RIwe*s@D(*tBdMHCiX
zII?cCkq8V<I`2HA>fAy;_z6=YK1P5Nv3g!Ub?Maf=DSwkOlQ{Rp6ZzF_~F)M_h$@c
zYk-wiI6WQD*jJ_uD?igiZp!NWLc~4$igO3^YqpaG|APHTdiH>cm_I)7*&zroE=0=+
z{|HqJyhnY4-%EJ^Ge~@&Mec+57rq^%KG`0}IwSxGOK9X$npo1@C}@-)fNx7FZ;>Pm
znp}I)ATiyAW4*XXId-w`DC&rpX!Jt+2lyVGpMofq`3ZjmnM+(<P^jAAf8jWgAJYe5
zNzsMw6kL5JXbp8qQ=D3<i51-h)X(|}Jw=09G-#<&>KDvN-n&X87@&WA>xo6k-UmU^
zv}{n`Z7gtK4BI~Mw}x!?`IK{5HtskB4{R5PgeS+=FWJ}mCW`K8*%6L`_o4V?OQCuz
z3XBiB`on+YL7l2T{yu;E*((Qcc;2kPUVqDz@jo?J^Yr`t=R_30*R+}*Yd(xGjVKmA
zg<HOm=mX?3L=1Y&gBQ(_7SK*84T`F>F8K~wI|!Ez0$yRLK;)mWDvFcL5*-T9d*T`4
z*N{=f98W9S>t7&qtm@ITY``huR)YBex^R{!+56xl*>T6*Fkii*puE<m9c#0-{)a46
zV@n<ctJGbA$}58$0FrSXPg#!Nw{;|$d0WFwW5(8;GBlGj)=z)pgYNyV<u(bPN{Tsx
zxJa>1c44XuNjH)nB)gFmpC(Wp3n*a1-y^~K$<{pP>gU7ZKmc6du0gJd+b7QjRL}yF
z1uU2c@`sBQF<u_%o$Mj{epy|P#YEn0AxRTuvi*;lB%2x5G(8Lk9&4KQ%!+Tmc>Tp&
z-M3x0`)_;S>P@xoPx}unU}4T=Ww&IjYI6+6O{+=#NVm2H7HZ|{v~1JN${YpJZ2L{u
zud07peT%!@_8xP4>s!&(#)Ij#hZe99tj*fSPmNA?)qQvj1TQ)K;#DvSu&6K>7R6-!
z48C_2;X9eGf30vGr;ayC;MH`xUvcg;4h%=Zg*XO2h$wZk222Ay_0ab|eiq!M34`Hb
zcytKf&I$8n7A|#$MwOG-LeeeyVq7noIkNAdvK_VPTP+auZN?<rz@SsUfS5*hk(}Xp
zC@i+9o?rr+9<mm9oq!j&GE20JKm=qbX6W)=5TPJ4vIeq=e=&LB4#tUJu&^0(JCMAJ
z&EPQ_ea&F({g{_TLL_17^OkJbp}0jpDcprBC^jOR(eOY=(+fI^w*41nzDL#FqiXL_
z<@YEr(BDyI_o%9Sl;`)9=N{E~kJ|8is`4IH|B=x>@qETuH?GU+EOgbh>ss}d>Kp~h
z*`Aw?H^rN)uOB8qZ!_<j-!?B`Nv@8ix4}d1i&tLEQINdlA<^x&celU2eF1ZF4n18p
za|~Zla}*?R^^@p!|GVejKDU55pSgAPiU$;uGPqXCc-N#T4+yiSVvep))Acik4DElY
zIYHCD>FNavW3aC^YjPwj2j0bM&6ICLhTiy4a~P_me47?1OkmwjIg<B~(>z75n%FYk
Sc5VBW?eLKMKNS2XBKLoHhhXgh

literal 0
HcmV?d00001

diff --git a/multimodal/audio.py b/multimodal/audio.py
new file mode 100644
index 0000000..53052dd
--- /dev/null
+++ b/multimodal/audio.py
@@ -0,0 +1,118 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import base64
+from io import BytesIO
+from pathlib import Path
+from typing import Literal
+
+import numpy as np
+import numpy.typing as npt
+
+from vllm.utils.import_utils import PlaceholderModule
+
+from .base import MediaIO
+
+try:
+    import librosa
+except ImportError:
+    librosa = PlaceholderModule("librosa")  # type: ignore[assignment]
+
+try:
+    import soundfile
+except ImportError:
+    soundfile = PlaceholderModule("soundfile")  # type: ignore[assignment]
+
+
+def resample_audio_librosa(
+    audio: npt.NDArray[np.floating],
+    *,
+    orig_sr: float,
+    target_sr: float,
+) -> npt.NDArray[np.floating]:
+    return librosa.resample(audio, orig_sr=orig_sr, target_sr=target_sr)
+
+
+def resample_audio_scipy(
+    audio: npt.NDArray[np.floating],
+    *,
+    orig_sr: float,
+    target_sr: float,
+):
+    # lazy import scipy.signal, otherwise it will crash doc build.
+    import scipy.signal
+
+    if orig_sr > target_sr:
+        return scipy.signal.resample_poly(audio, 1, orig_sr // target_sr)
+    elif orig_sr < target_sr:
+        return scipy.signal.resample_poly(audio, target_sr // orig_sr, 1)
+    return audio
+
+
+class AudioResampler:
+    """Resample audio data to a target sample rate."""
+
+    def __init__(
+        self,
+        target_sr: float | None = None,
+        method: Literal["librosa", "scipy"] = "librosa",
+    ):
+        self.target_sr = target_sr
+        self.method = method
+
+    def resample(
+        self,
+        audio: npt.NDArray[np.floating],
+        *,
+        orig_sr: float,
+    ) -> npt.NDArray[np.floating]:
+        if self.target_sr is None:
+            raise RuntimeError(
+                "Audio resampling is not supported when `target_sr` is not provided"
+            )
+        if self.method == "librosa":
+            return resample_audio_librosa(
+                audio, orig_sr=orig_sr, target_sr=self.target_sr
+            )
+        elif self.method == "scipy":
+            return resample_audio_scipy(
+                audio, orig_sr=orig_sr, target_sr=self.target_sr
+            )
+        else:
+            raise ValueError(
+                f"Invalid resampling method: {self.method}. "
+                "Supported methods are 'librosa' and 'scipy'."
+            )
+
+
+class AudioMediaIO(MediaIO[tuple[npt.NDArray, float]]):
+    def __init__(self, **kwargs) -> None:
+        super().__init__()
+
+        # `kwargs` contains custom arguments from
+        # --media-io-kwargs for this modality.
+        # They can be passed to the underlying
+        # media loaders (e.g. custom implementations)
+        # for flexible control.
+        self.kwargs = kwargs
+
+    def load_bytes(self, data: bytes) -> tuple[npt.NDArray, float]:
+        return librosa.load(BytesIO(data), sr=None)
+
+    def load_base64(
+        self,
+        media_type: str,
+        data: str,
+    ) -> tuple[npt.NDArray, float]:
+        return self.load_bytes(base64.b64decode(data))
+
+    def load_file(self, filepath: Path) -> tuple[npt.NDArray, float]:
+        return librosa.load(filepath, sr=None)
+
+    def encode_base64(self, media: tuple[npt.NDArray, int]) -> str:
+        audio, sr = media
+
+        with BytesIO() as buffer:
+            soundfile.write(buffer, audio, sr, format="WAV")
+            data = buffer.getvalue()
+
+        return base64.b64encode(data).decode("utf-8")
diff --git a/multimodal/base.py b/multimodal/base.py
new file mode 100644
index 0000000..fef118a
--- /dev/null
+++ b/multimodal/base.py
@@ -0,0 +1,26 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from pathlib import Path
+from typing import Generic, TypeVar
+
+_T = TypeVar("_T")
+
+
+class MediaIO(ABC, Generic[_T]):
+    @abstractmethod
+    def load_bytes(self, data: bytes) -> _T:
+        raise NotImplementedError
+
+    @abstractmethod
+    def load_base64(self, media_type: str, data: str) -> _T:
+        """
+        List of media types:
+        https://www.iana.org/assignments/media-types/media-types.xhtml
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def load_file(self, filepath: Path) -> _T:
+        raise NotImplementedError
diff --git a/multimodal/cache.py b/multimodal/cache.py
new file mode 100644
index 0000000..c1531cb
--- /dev/null
+++ b/multimodal/cache.py
@@ -0,0 +1,755 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import operator
+import sys
+from abc import ABC, abstractmethod
+from collections.abc import Mapping, Sequence
+from multiprocessing.synchronize import Lock as LockType
+from typing import TYPE_CHECKING, Generic, TypeAlias, TypeVar, cast
+
+import torch
+from typing_extensions import override
+
+import vllm.envs as envs
+from vllm.distributed.device_communicators.shm_object_storage import (
+    MsgpackSerde,
+    SingleWriterShmObjectStorage,
+    SingleWriterShmRingBuffer,
+)
+from vllm.logger import init_logger
+from vllm.utils.cache import CacheInfo, LRUCache
+from vllm.utils.jsontree import json_count_leaves, json_map_leaves, json_reduce_leaves
+from vllm.utils.mem_constants import GiB_bytes, MiB_bytes
+
+from .inputs import (
+    MultiModalBatchedField,
+    MultiModalFeatureSpec,
+    MultiModalFieldElem,
+    MultiModalKwargs,
+    MultiModalKwargsItem,
+    MultiModalKwargsItems,
+    NestedTensors,
+)
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig, VllmConfig
+
+    from .processing import ResolvedPromptUpdate
+    from .registry import MultiModalRegistry
+
+logger = init_logger(__name__)
+
+
+class MultiModalProcessorCacheItem:
+    """
+    The data to store inside `MultiModalProcessorOnlyCache`.
+
+    Args:
+        item: The processed tensor data corresponding to a multi-modal item.
+        prompt_updates: The prompt updates corresponding to `item`.
+    """
+
+    def __init__(
+        self,
+        item: MultiModalKwargsItem,
+        prompt_updates: Sequence["ResolvedPromptUpdate"],
+    ) -> None:
+        super().__init__()
+
+        self.item = item
+        self.prompt_updates = prompt_updates
+
+
+class MultiModalProcessorCacheItemMetadata:
+    """
+    The metadata to store inside `MultiModalProcessorSenderCache`.
+
+    Args:
+        item: The processed tensor data corresponding to a multi-modal item.
+            Since P1 already stores the tensor data, we only store its size
+            metadata in P0 to reduce memory usage. The size metadata is still
+            needed to keep the same cache eviction policy as P0.
+        prompt_updates: The prompt updates corresponding to `item`.
+            This needs to stay on P0 because for some models, they are
+            dependent on the processed tensor data (cached on P1).
+    """
+
+    def __init__(
+        self,
+        item: MultiModalKwargsItem,
+        prompt_updates: Sequence["ResolvedPromptUpdate"],
+    ) -> None:
+        super().__init__()
+
+        self.item_size = MultiModalCache.get_item_size(item)
+        self.prompt_updates = prompt_updates
+
+
+MultiModalCacheValue: TypeAlias = (
+    MultiModalProcessorCacheItem
+    | MultiModalProcessorCacheItemMetadata
+    | MultiModalKwargsItems
+    | MultiModalKwargsItem
+    | MultiModalKwargs
+    | Mapping[str, NestedTensors]
+)
+
+_V = TypeVar("_V", bound=MultiModalCacheValue)
+
+
+class MultiModalCache:
+    @classmethod
+    def get_leaf_size(cls, leaf: object) -> int:
+        if isinstance(leaf, MultiModalProcessorCacheItem):
+            return cls.get_leaf_size(leaf.item)
+        if isinstance(leaf, MultiModalProcessorCacheItemMetadata):
+            return leaf.item_size
+
+        # These are not subclasses of dict
+        if isinstance(
+            leaf,
+            (
+                MultiModalKwargs,
+                MultiModalKwargsItems,
+                MultiModalKwargsItem,
+                MultiModalFieldElem,
+            ),
+        ):
+            return cls.get_item_size(leaf.data)  # type: ignore
+
+        # sys.getsizeof doesn't work for tensors
+        if isinstance(leaf, torch.Tensor):
+            return leaf.nbytes
+
+        return sys.getsizeof(leaf)
+
+    @classmethod
+    def get_item_size(
+        cls,
+        value: MultiModalCacheValue,
+        *,
+        debug: bool = False,
+    ) -> int:
+        size = json_reduce_leaves(
+            operator.add, json_map_leaves(cls.get_leaf_size, value)
+        )
+
+        if debug:
+            leaf_count = json_count_leaves(value)
+            logger.debug(
+                "Calculated size of %s to be %.2f GiB (%d leaves)",
+                type(value),
+                size / GiB_bytes,
+                leaf_count,
+            )
+
+        return size
+
+    @classmethod
+    def get_item_complexity(cls, value: MultiModalCacheValue) -> int:
+        """
+        Get the number of leaf elements in a multi-modal cache value.
+
+        This provides a measure of structural complexity that can be useful
+        for debugging cache performance and understanding data patterns.
+
+        Args:
+            value: The multi-modal cache value to analyze.
+
+        Returns:
+            The number of leaf elements in the nested structure.
+        """
+        return json_count_leaves(value)
+
+    @classmethod
+    def get_lru_cache(
+        cls,
+        capacity_gb: float,
+        value_type: type[_V],
+        *,
+        debug: bool = False,
+    ) -> LRUCache[str, _V]:
+        return LRUCache(
+            GiB_bytes * capacity_gb,
+            getsizeof=lambda x: cls.get_item_size(x, debug=debug),
+        )
+
+
+_I = TypeVar("_I", contravariant=True)
+_O = TypeVar("_O", covariant=True)
+
+
+class BaseMultiModalCache(ABC, Generic[_I, _O]):
+    """
+    Abstract base class to read/write multi-modal items from cache.
+
+    The idea of multi-modal caching is based on having a client and server
+    where the client executes in the frontend process (=P0) and
+    the server in the core process (=P1). The data flow is as follows:
+
+    ```
+                  is_cached() x N    get_and_update()
+    P0: From API -----------------> -----------------> To P1
+
+                 get_and_update()
+    P1: From P0 -----------------> To model
+    ```
+
+    `is_cached()` can be called any number of times in P0. However,
+    `get_and_update()` must be called in P0 and P1 one after another
+    so that their cache eviction order remains the same.
+
+    This ensures that the keys in P0 and P1 caches are mirrored,
+    allowing us to determine whether a key is cached in P1 by looking
+    up the P0 cache, without having to communicate with P1.
+    """
+
+    @abstractmethod
+    def get_and_update_item(
+        self,
+        mm_item: _I,
+        mm_hash: str,
+    ) -> _O:
+        """
+        Possibly update a multi-modal item based on whether it is
+        in the underlying cache.
+
+        This update is done out-of-place and updates the cache eviction order.
+
+        Args:
+            mm_item: The multi-modal item to update.
+            mm_hash: The hash of `mm_item`.
+
+        Returns:
+            The update multi-modal item.
+        """
+        raise NotImplementedError
+
+    def get_and_update(
+        self,
+        mm_items: Sequence[_I],
+        mm_hashes: list[str],
+    ) -> list[_O]:
+        """
+        Possibly update a sequence of multi-modal items based on whether they
+        are in the underlying cache.
+
+        This update is done out-of-place and updates the cache eviction order.
+
+        Args:
+            mm_items: The multi-modal items to update.
+            mm_hashes: The hash of each item in `mm_items`.
+
+        Returns:
+            A new list of updated multi-modal items.
+        """
+        assert len(mm_items) == len(mm_hashes)
+
+        return [
+            self.get_and_update_item(mm_item, mm_hash)
+            for mm_item, mm_hash in zip(mm_items, mm_hashes)
+        ]
+
+    @abstractmethod
+    def clear_cache(self) -> None:
+        """Clear the underlying cache."""
+        raise NotImplementedError
+
+
+MultiModalProcessorCacheInItem: TypeAlias = (
+    tuple[MultiModalKwargsItem, Sequence["ResolvedPromptUpdate"]] | None
+)
+
+
+MultiModalProcessorCacheOutItem: TypeAlias = tuple[
+    MultiModalKwargsItem | None, Sequence["ResolvedPromptUpdate"]
+]
+
+
+class BaseMultiModalProcessorCache(
+    BaseMultiModalCache[MultiModalProcessorCacheInItem, MultiModalProcessorCacheOutItem]
+):
+    """The required interface for caches on P0."""
+
+    @abstractmethod
+    def is_cached_item(self, mm_hash: str) -> bool:
+        """
+        Check whether a multi-modal item is
+        in the underlying cache.
+
+        This **DOES NOT** update the cache eviction order.
+
+        Args:
+            mm_hash: The hash of the item to check.
+
+        Returns:
+            `True` if the item is cached, otherwise `False`.
+        """
+        raise NotImplementedError
+
+    def is_cached(self, mm_hashes: list[str]) -> list[bool]:
+        """
+        Check whether a sequence of multi-modal items are
+        in the underlying cache.
+
+        This **DOES NOT** update the cache eviction order.
+
+        Args:
+            mm_hashes: The hash of each item to check.
+
+        Returns:
+            For each item, `True` if the item is cached, otherwise `False`.
+        """
+        return [self.is_cached_item(mm_hash) for mm_hash in mm_hashes]
+
+    @abstractmethod
+    def make_stats(self, *, delta: bool = False) -> CacheInfo:
+        """
+        Get (and reset) the multi-modal cache stats.
+
+        Returns:
+            The current multi-modal caching stats.
+        """
+        raise NotImplementedError
+
+
+class MultiModalProcessorOnlyCache(BaseMultiModalProcessorCache):
+    """
+    The cache which is used on P0 when IPC caching is disabled.
+
+    How to update each item:
+
+    - If the item is in the cache, replace the input with the cached item.
+    - If the item is not in the cache, store that item (which includes
+      tensor data and metadata) into the cache, and return the input.
+    """
+
+    def __init__(self, model_config: "ModelConfig") -> None:
+        super().__init__()
+
+        mm_config = model_config.get_multimodal_config()
+
+        self._cache = MultiModalCache.get_lru_cache(
+            mm_config.mm_processor_cache_gb,
+            MultiModalProcessorCacheItem,
+        )
+
+    @override
+    def is_cached_item(self, mm_hash: str) -> bool:
+        return mm_hash in self._cache
+
+    @override
+    def get_and_update_item(
+        self,
+        mm_item: MultiModalProcessorCacheInItem,
+        mm_hash: str,
+    ) -> MultiModalProcessorCacheOutItem:
+        if (cached_item := self._cache.get(mm_hash)) is not None:
+            return cached_item.item, cached_item.prompt_updates
+
+        assert mm_item is not None, f"Expected a cached item for {mm_hash=}"
+
+        self._cache[mm_hash] = MultiModalProcessorCacheItem(*mm_item)
+
+        return mm_item
+
+    @override
+    def clear_cache(self) -> None:
+        self._cache.clear()
+
+    @override
+    def make_stats(self, *, delta: bool = False) -> CacheInfo:
+        return self._cache.stat(delta=delta)
+
+
+class MultiModalProcessorSenderCache(BaseMultiModalProcessorCache):
+    """
+    The cache which is used on P0 when IPC caching is enabled.
+
+    How to update each item:
+
+    - If the item is already in the cache, clear the input to avoid
+      unnecessary IPC.
+
+    - If the item is not in the cache, store the metadata of that item so
+      that the eviction policy remains the same as the cache on P1,
+      and return the input.
+      By only storing the metadata, we avoid keeping the data itself in
+      memory inside P0.
+    """
+
+    def __init__(self, model_config: "ModelConfig") -> None:
+        super().__init__()
+
+        mm_config = model_config.get_multimodal_config()
+
+        self._cache = MultiModalCache.get_lru_cache(
+            mm_config.mm_processor_cache_gb,
+            MultiModalProcessorCacheItemMetadata,
+        )
+
+    @override
+    def is_cached_item(self, mm_hash: str) -> bool:
+        return mm_hash in self._cache
+
+    @override
+    def get_and_update_item(
+        self,
+        mm_item: MultiModalProcessorCacheInItem,
+        mm_hash: str,
+    ) -> MultiModalProcessorCacheOutItem:
+        if (cached_item := self._cache.get(mm_hash)) is not None:
+            return None, cached_item.prompt_updates
+
+        assert mm_item is not None, f"Expected a cached item for {mm_hash=}"
+
+        self._cache[mm_hash] = MultiModalProcessorCacheItemMetadata(*mm_item)
+
+        return mm_item
+
+    @override
+    def clear_cache(self) -> None:
+        self._cache.clear()
+
+    @override
+    def make_stats(self, *, delta: bool = False) -> CacheInfo:
+        return self._cache.stat(delta=delta)
+
+
+class ShmObjectStoreSenderCache(BaseMultiModalProcessorCache):
+    """
+    The cache which is used on P0 when IPC caching is enabled.
+
+    How to update each item:
+
+    - If the item is already in the cache, clear the input to avoid
+      unnecessary IPC.
+
+    - If the item is not in the cache, store the data in shared memory.
+    """
+
+    def __init__(self, vllm_config: "VllmConfig") -> None:
+        super().__init__()
+
+        self.world_size = vllm_config.parallel_config.world_size
+        mm_config = vllm_config.model_config.get_multimodal_config()
+
+        ring_buffer = SingleWriterShmRingBuffer(
+            data_buffer_size=int(mm_config.mm_processor_cache_gb * GiB_bytes),
+            name=envs.VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME,
+            create=True,  # sender is the writer
+        )
+        self._shm_cache = SingleWriterShmObjectStorage(
+            max_object_size=mm_config.mm_shm_cache_max_object_size_mb * MiB_bytes,
+            n_readers=self.world_size,
+            ring_buffer=ring_buffer,
+            serde_class=MsgpackSerde,
+        )
+        # cache (prompt_updates, modality) for P0 only
+        self._p0_cache: dict[str, tuple[Sequence[ResolvedPromptUpdate], str]] = {}
+
+        self._hits = 0
+        self._total = 0
+        self._last_info = CacheInfo(hits=0, total=0)
+
+    def _stat(self, *, delta: bool = False) -> CacheInfo:
+        info = CacheInfo(hits=self._hits, total=self._total)
+
+        if delta:
+            info_delta = info - self._last_info
+            self._last_info = info
+            info = info_delta
+
+        return info
+
+    @override
+    def is_cached_item(self, mm_hash: str) -> bool:
+        return self._shm_cache.is_cached(mm_hash)
+
+    @override
+    def get_and_update_item(
+        self,
+        mm_item: MultiModalProcessorCacheInItem,
+        mm_hash: str,
+    ) -> MultiModalProcessorCacheOutItem:
+        if self._shm_cache.is_cached(mm_hash):
+            self._hits += 1
+            self._total += 1
+
+            address, monotonic_id = self._shm_cache.get_cached(mm_hash)
+            prompt_updates, modality = self._p0_cache[mm_hash]
+            return self.address_as_item(address, monotonic_id, modality), prompt_updates
+
+        assert mm_item is not None, f"Expected a cached item for {mm_hash=}"
+
+        self._total += 1
+
+        try:
+            address, monotonic_id = self._shm_cache.put(mm_hash, mm_item[0])
+            # Try to remove dangling items if p0 cache is too large.
+            if len(self._p0_cache) >= 2 * len(self._shm_cache.key_index):
+                self.remove_dangling_items()
+            self._p0_cache[mm_hash] = mm_item[1], mm_item[0].modality
+            address_item = self.address_as_item(
+                address, monotonic_id, mm_item[0].modality
+            )
+            return address_item, mm_item[1]
+        except (ValueError, MemoryError) as e:
+            # put may fail if the object is too large or
+            # the cache is full.
+            # In this case we log the error and keep the original mm_input.
+            logger.debug("Failed to cache mm_input with hash %s: %s", mm_hash, e)
+            return mm_item
+
+    @override
+    def clear_cache(self) -> None:
+        self._shm_cache.clear()
+        self._p0_cache.clear()
+
+        self._hits = 0
+        self._total = 0
+        self._last_info = CacheInfo(hits=0, total=0)
+
+    @override
+    def make_stats(self, *, delta: bool = False) -> CacheInfo:
+        return self._stat(delta=delta)
+
+    def remove_dangling_items(self) -> None:
+        """Remove items that are no longer in the shared memory cache."""
+        cached_hashes = self._shm_cache.key_index.keys()
+        dangling_hashes = set(self._p0_cache.keys()) - cached_hashes
+        for mm_hash in dangling_hashes:
+            del self._p0_cache[mm_hash]
+
+    def address_as_item(
+        self, address: int, monotonic_id: int, modality: str
+    ) -> MultiModalKwargsItem:
+        addr_elem = MultiModalFieldElem(
+            modality=modality,
+            key="address",
+            data=address,
+            field=MultiModalBatchedField(),
+        )
+        id_elem = MultiModalFieldElem(
+            modality=modality,
+            key="monotonic_id",
+            data=monotonic_id,
+            field=MultiModalBatchedField(),
+        )
+        mm_item = MultiModalKwargsItem.from_elems([addr_elem, id_elem])
+        return mm_item
+
+
+def _enable_processor_cache(
+    model_config: "ModelConfig",
+    mm_registry: "MultiModalRegistry",
+) -> bool:
+    if not mm_registry.supports_multimodal_inputs(model_config):
+        return False
+
+    mm_config = model_config.get_multimodal_config()
+    return mm_config.mm_processor_cache_gb > 0
+
+
+def _enable_ipc_cache(vllm_config: "VllmConfig") -> bool:
+    parallel_config = vllm_config.parallel_config
+    supports_ipc_cache = (
+        parallel_config._api_process_count == 1
+        and parallel_config.data_parallel_size == 1
+    ) or parallel_config.data_parallel_external_lb
+
+    return supports_ipc_cache
+
+
+def _enable_mm_input_shm_cache(vllm_config: "VllmConfig") -> bool:
+    """Whether the shared memory based cache should be enabled."""
+
+    if not _enable_ipc_cache(vllm_config):
+        return False
+
+    mm_config = vllm_config.model_config.get_multimodal_config()
+
+    return mm_config.mm_processor_cache_type == "shm"
+
+
+def processor_cache_from_config(
+    vllm_config: "VllmConfig",
+    mm_registry: "MultiModalRegistry",
+) -> BaseMultiModalProcessorCache | None:
+    """Return a `BaseMultiModalProcessorCache`, if enabled."""
+    model_config = vllm_config.model_config
+
+    if not _enable_processor_cache(model_config, mm_registry):
+        return None
+
+    if not _enable_ipc_cache(vllm_config):
+        return MultiModalProcessorOnlyCache(model_config)
+
+    if not _enable_mm_input_shm_cache(vllm_config):
+        return MultiModalProcessorSenderCache(model_config)
+    return ShmObjectStoreSenderCache(vllm_config)
+
+
+def processor_only_cache_from_config(
+    model_config: "ModelConfig",
+    mm_registry: "MultiModalRegistry",
+):
+    """Return a `MultiModalProcessorOnlyCache`, if enabled."""
+    if not _enable_processor_cache(model_config, mm_registry):
+        return None
+
+    return MultiModalProcessorOnlyCache(model_config)
+
+
+class BaseMultiModalReceiverCache(
+    BaseMultiModalCache[MultiModalKwargsItem | None, MultiModalKwargsItem]
+):
+    """The required interface for caches on P1."""
+
+    def get_and_update_features(
+        self,
+        mm_features: list["MultiModalFeatureSpec"],
+    ) -> list["MultiModalFeatureSpec"]:
+        """Update multimodal features with cached encoder outputs."""
+        for feature in mm_features:
+            feature.data = self.get_and_update_item(feature.data, feature.identifier)
+        return mm_features
+
+
+class MultiModalReceiverCache(BaseMultiModalReceiverCache):
+    """
+    The cache which is used on P1 when IPC caching is enabled.
+
+    How to update each item:
+
+    - If the item is in the cache, replace the input with the cached item.
+    - If the item is not in the cache, store that item (which includes tensor
+      data) into the cache, and return the input.
+    """
+
+    def __init__(self, model_config: "ModelConfig") -> None:
+        super().__init__()
+
+        mm_config = model_config.get_multimodal_config()
+
+        self._cache = MultiModalCache.get_lru_cache(
+            mm_config.mm_processor_cache_gb,
+            MultiModalKwargsItem,
+        )
+
+    @override
+    def get_and_update_item(
+        self,
+        mm_item: MultiModalKwargsItem | None,
+        mm_hash: str,
+    ) -> MultiModalKwargsItem:
+        if (cached_item := self._cache.get(mm_hash)) is not None:
+            return cached_item
+
+        assert mm_item is not None, f"Expected a cached item for {mm_hash=}"
+
+        self._cache[mm_hash] = mm_item
+        return mm_item
+
+    @override
+    def clear_cache(self) -> None:
+        self._cache.clear()
+
+
+class ShmObjectStoreReceiverCache(BaseMultiModalReceiverCache):
+    """
+    The cache which is used on P1 Worker Process when IPC caching is enabled.
+
+    How to update each item:
+
+    - If the item has an address, replace the input with the cached item.
+    - If not, return the input.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        shared_worker_lock: LockType,
+    ) -> None:
+        super().__init__()
+
+        self.world_size = vllm_config.parallel_config.world_size
+        mm_config = vllm_config.model_config.get_multimodal_config()
+
+        ring_buffer = SingleWriterShmRingBuffer(
+            data_buffer_size=int(mm_config.mm_processor_cache_gb * GiB_bytes),
+            name=envs.VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME,
+            create=False,  # Server is a reader
+        )
+        self._shm_cache = SingleWriterShmObjectStorage(
+            max_object_size=mm_config.mm_shm_cache_max_object_size_mb * MiB_bytes,
+            n_readers=self.world_size,
+            ring_buffer=ring_buffer,
+            serde_class=MsgpackSerde,
+            reader_lock=shared_worker_lock,
+        )
+
+    @override
+    def get_and_update_item(
+        self,
+        mm_item: MultiModalKwargsItem | None,
+        mm_hash: str,
+    ) -> MultiModalKwargsItem:
+        assert mm_item is not None, f"Expected an address item for {mm_hash=}"
+        if "address" in mm_item:
+            address = cast(int, mm_item["address"].data)
+            monotonic_id = cast(int, mm_item["monotonic_id"].data)
+            return self._shm_cache.get(address, monotonic_id)
+
+        return mm_item
+
+    @override
+    def clear_cache(self) -> None:
+        self._shm_cache.clear()
+
+
+def engine_receiver_cache_from_config(
+    vllm_config: "VllmConfig",
+    mm_registry: "MultiModalRegistry",
+) -> BaseMultiModalReceiverCache | None:
+    """
+    This is used in the engine process.
+    Return a `BaseMultiModalReceiverCache` only when IPC caching is enabled and
+    mm_processor_cache_type=="lru".
+    """
+    model_config = vllm_config.model_config
+
+    if not _enable_processor_cache(model_config, mm_registry):
+        return None
+
+    if not _enable_ipc_cache(vllm_config):
+        return None
+
+    if not _enable_mm_input_shm_cache(vllm_config):
+        return MultiModalReceiverCache(model_config)
+
+    return None
+
+
+def worker_receiver_cache_from_config(
+    vllm_config: "VllmConfig",
+    mm_registry: "MultiModalRegistry",
+    shared_worker_lock: LockType,
+) -> BaseMultiModalReceiverCache | None:
+    """
+    This is used in the worker process.
+    Return a `BaseMultiModalReceiverCache` only when IPC caching is enabled and
+    mm_processor_cache_type=="shm".
+    """
+    model_config = vllm_config.model_config
+
+    if not _enable_processor_cache(model_config, mm_registry):
+        return None
+
+    if not _enable_ipc_cache(vllm_config):
+        return None
+
+    if not _enable_mm_input_shm_cache(vllm_config):
+        return None
+
+    return ShmObjectStoreReceiverCache(vllm_config, shared_worker_lock)
diff --git a/multimodal/evs.py b/multimodal/evs.py
new file mode 100644
index 0000000..4a288d2
--- /dev/null
+++ b/multimodal/evs.py
@@ -0,0 +1,294 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# NVIDIA CORPORATION and its licensors retain all intellectual property
+# and proprietary rights in and to this software, related documentation
+# and any modifications thereto.  Any use, reproduction, disclosure or
+# distribution of this software and related documentation without an express
+# license agreement from NVIDIA CORPORATION is strictly prohibited.
+
+import typing
+
+import torch
+
+
+def compute_retained_tokens_count(
+    tokens_per_frame: int, num_frames: int, q: float
+) -> int:
+    """
+    Compute the number of retained tokens for a given video.
+    Method ensures that we retain all the tokens from the first frame
+    regardless of the pruning rate.
+
+    Args:
+        tokens_per_frame: The number of tokens per frame.
+        num_frames: The total number of frames.
+        q: The pruning rate.
+
+    Returns:
+        The number of retained tokens.
+    """
+    total_tokens = tokens_per_frame * num_frames
+    evs_num_tokens = int(total_tokens * (1 - q))
+    min_num_tokens = tokens_per_frame
+    return max(min_num_tokens, evs_num_tokens)
+
+
+def compute_retention_mask(
+    video_embeds: torch.Tensor,
+    video_size_thw: torch.LongTensor | tuple[int, int, int],
+    spatial_merge_size: int,
+    q: float,
+) -> torch.Tensor:
+    """
+    Computes the retention mask for input video embeddings.
+
+    Args:
+        video_embeds (`torch.Tensor`): The input video embeddings
+            of shape `(T * H * W // spatial_merge_size ^ 2, hidden_size)`
+        video_size_thw (`torch.LongTensor` of shape `(3)`):
+            The temporal, height and width of video.
+        spatial_merge_size: Size reduction for rows & cols dimensions.
+        q: (`float`): Pruning rate factor [0,1)
+
+    Returns:
+        `torch.Tensor`: The retention mask for the video embeddings of
+            `(T * H * W // spatial_merge_size ^ 2)` shape.
+    """
+    T, H, W = map(int, video_size_thw)
+
+    # Use reshape instead of einops to avoid graph breaks
+    video_embeds = video_embeds.reshape(
+        T,
+        H // spatial_merge_size,
+        W // spatial_merge_size,
+        video_embeds.size(-1),
+    )
+    tokens_per_frame = (H // spatial_merge_size) * (W // spatial_merge_size)
+    # Core EVS
+    similarity = torch.nn.functional.cosine_similarity(
+        video_embeds[1:, ...], video_embeds[:-1, ...], dim=-1
+    )
+    dissimilarity = 1 - similarity
+
+    # Always ensure we include all tokens from the first frame
+    dissimilarity = torch.cat(
+        [255 * torch.ones_like(video_embeds[:1, :, :, 0]), dissimilarity], dim=0
+    )
+
+    dissimilarity_flat = dissimilarity.view(-1)
+    order = torch.argsort(dissimilarity_flat, dim=-1, descending=True, stable=True)
+    retain_num_tokens = compute_retained_tokens_count(
+        tokens_per_frame=tokens_per_frame, num_frames=T, q=q
+    )
+    topk_indices = order[:retain_num_tokens]
+
+    retention_mask = torch.zeros_like(dissimilarity_flat, dtype=torch.bool)
+    retention_mask[topk_indices] = True
+    retention_mask = retention_mask.reshape(dissimilarity.size())
+
+    mask = retention_mask.view(-1)  # "T H W -> (T H W)"
+    return mask
+
+
+def compute_mrope_for_media(
+    video_size_thw: torch.LongTensor,
+    spatial_merge_size: int,
+    tokens_per_second: float = 1.0,
+    video_second_per_grid: float = 1.0,
+) -> torch.Tensor:
+    """
+    Computes the mrope for video embeddings based on the grid dimensions.
+    Computed mrope positions match original qwen 2.5 implementation,
+    but positions are built for media being the first element in sequence.
+
+    Args:
+        video_size_thw: Media size (num frames, rows, cols)
+        spatial_merge_size: Size reduction for rows & cols dimensions.
+        tokens_per_second: Number of tokens per second.
+        video_second_per_grid: Number of seconds per video.
+
+    Returns:
+        Tensor of shape `(T * H * W, 4)` where last dimension
+        represents mrope positions [0:3), while the last channel
+        contains value of llm_grid_w repeated for all positions.
+    """
+    llm_grid_t = video_size_thw[0]
+    llm_grid_h = video_size_thw[1] // spatial_merge_size
+    llm_grid_w = video_size_thw[2] // spatial_merge_size
+
+    t_index = (
+        (
+            torch.arange(llm_grid_t)
+            .view(-1, 1)
+            .expand(-1, llm_grid_h * llm_grid_w)
+            .mul(tokens_per_second * video_second_per_grid)
+        )
+        .long()
+        .flatten()
+    )
+    h_index = (
+        torch.arange(llm_grid_h)
+        .view(1, -1, 1)
+        .expand(llm_grid_t, -1, llm_grid_w)
+        .flatten()
+    )
+    w_index = (
+        torch.arange(llm_grid_w)
+        .view(1, 1, -1)
+        .expand(llm_grid_t, llm_grid_h, -1)
+        .flatten()
+    )
+    llm_grid_w = (
+        torch.tensor([llm_grid_w])
+        .view(1, 1, 1)
+        .expand(llm_grid_t, llm_grid_h, llm_grid_w)
+        .flatten()
+    )
+
+    positions = torch.stack([t_index, h_index, w_index, llm_grid_w], dim=1)
+    return positions
+
+
+def recompute_mrope_positions(
+    input_ids: torch.LongTensor,
+    multimodal_positions: list[torch.Tensor],
+    mrope_positions: torch.LongTensor,
+    num_computed_tokens: int,
+    vision_start_token_id: int,
+    image_token_id: int,
+    video_token_id: int,
+) -> tuple[torch.LongTensor, int]:
+    """
+    Update part of input mrope positions.
+    Original mrope_positions are computed incorrectly, so once we prune media
+    tokens we should reflect this in the mrope positions for the LLM.
+
+    This method supports chunked prefill approach where
+    multimodal_embeddings are passed to LLM in chunks, so input
+    multimodal_embeddings may contain zero, some or even some part of all
+    multimodal_embeddings for a given prompt.
+
+    Each multimodal_positions has 4 extra channels
+    (First 3 channels corresponds to original 3 mrope positions, last channel
+    is the maximum width of the media repeated). Provided multimodal_positions
+    do not reflect location of media position in sequence - they are computed
+    like the media is in the 0-th position in the sequence.
+
+    Method works as follows: it recomputes mrope_positions starting from the
+    `num_computed_tokens` for `total_len_of_multimodal_embeddings` and then
+    shifts all text tokens that goes after total_len_of_multimodal_embeddings.
+
+    It also handles case when multimodal_embeddings is partial
+    (e.g. one media is split into two prefill stages)
+
+    Args:
+        input_ids: (N,) All input tokens of the prompt (entire sequence).
+        multimodal_positions: List of mrope positsions for each media.
+        mrope_positions: Existing mrope positions (4, N) for entire sequence.
+        num_computed_tokens: A number of computed tokens so far.
+        vision_start_token_id: Token indicating start of vision media.
+        image_token_id: Image token id
+        video_token_id: Video token id
+
+    Returns:
+        Tuple of (mrope_positions, mrope_position_delta).
+    """
+
+    # Tensors
+    positions: torch.LongTensor = typing.cast(
+        torch.LongTensor, mrope_positions.clone()
+    )  # (3, N)
+    N = input_ids.numel()
+
+    image_mask = input_ids.eq(image_token_id)
+    video_mask = input_ids.eq(video_token_id)
+    media_mask = image_mask | video_mask
+    text_mask = ~media_mask
+
+    # Early exit: no media in this chunk
+    if len(multimodal_positions) == 0:
+        delta = int((positions.max().item() + 1) - N) if positions.numel() else -N
+        return positions, delta
+
+    total_mm_tokens = torch.count_nonzero(media_mask)
+    seen_mm_tokens = torch.count_nonzero(media_mask[:num_computed_tokens])
+
+    # Early exit: we've updated positions for all media tokens
+    # (and consequently - for all remaining text tokens)
+    if seen_mm_tokens == total_mm_tokens:
+        delta = int((positions.max().item() + 1) - N) if positions.numel() else -N
+        return positions, delta
+
+    vision_start_indices = (input_ids == vision_start_token_id).nonzero(as_tuple=True)[
+        0
+    ]
+
+    for mm_pos in multimodal_positions:
+        # Each mm_pos can be a complete embedding for single media
+        # or it can be a part of a single media (due to chunked prefill)
+
+        # Cases to cover
+        # - Current prefill chunk has no vision start indexes at all
+        # - Vision start token appeared in previous prefill round
+        # - Regular case
+        seen_vision_start_indices = vision_start_indices[
+            vision_start_indices < num_computed_tokens
+        ]
+
+        if len(seen_vision_start_indices):
+            # If we have encountered some vision start indexes,
+            # then we should check the condition:
+            # | --- prefill 1 ------| ---- prefill 2 ----- |
+            # | TTTTTTTTTSVVVVVVVVVV|VVVVVVTTTTTTTTTTTTTTTT|
+            last_vision_start_token = seen_vision_start_indices[-1]
+            seem_mm_tokens_before_last_vision_start = torch.count_nonzero(
+                media_mask[:last_vision_start_token]
+            )
+            in_the_middle_of_media = (
+                seen_mm_tokens > seem_mm_tokens_before_last_vision_start
+            )
+
+            if in_the_middle_of_media:
+                mm_embeddings_seen = (
+                    seen_mm_tokens - seem_mm_tokens_before_last_vision_start
+                )
+                global_mm_start = last_vision_start_token
+            else:
+                # We have completed previous mm_embedding part and
+                # ready to start a new one
+                next_vision_start_token = vision_start_indices[
+                    vision_start_indices >= num_computed_tokens
+                ][0]
+                mm_embeddings_seen = 0
+                global_mm_start = next_vision_start_token
+
+        else:
+            # If there were no vision start indexes so far,
+            # let's find first vision start index
+            next_vision_start_token = vision_start_indices[
+                vision_start_indices >= num_computed_tokens
+            ][0]
+
+            mm_embeddings_seen = 0
+            global_mm_start = next_vision_start_token
+
+        # Offset right after vision_start_token
+        base = positions[-1, global_mm_start] + 1
+        local_start = global_mm_start + 1 + mm_embeddings_seen
+        local_end = local_start + mm_pos.shape[1]
+        positions[:, local_start:local_end] = mm_pos[0:3] + base
+
+        # mm_pos[3, 0] is the max width of the media
+        offset = mm_pos[3, 0] + base
+
+        text_pos_sum = torch.cumsum(text_mask[local_end:].long(), dim=0)
+
+        positions[:, local_end:N] = text_pos_sum + offset - 1
+
+        # Include distance to the next vision start token
+        num_computed_tokens += mm_pos.shape[1]
+
+    mrope_positions_delta = (positions.max() + 1 - N).item()
+    return positions, mrope_positions_delta
diff --git a/multimodal/hasher.py b/multimodal/hasher.py
new file mode 100644
index 0000000..d0dcbb2
--- /dev/null
+++ b/multimodal/hasher.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pickle
+import uuid
+from collections.abc import Iterable
+
+import numpy as np
+import torch
+from blake3 import blake3
+from PIL import Image
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class MultiModalHasher:
+    @classmethod
+    def serialize_item(cls, obj: object) -> Iterable[bytes | memoryview]:
+        # Simple cases
+        if isinstance(obj, (bytes, memoryview)):
+            return (obj,)
+        if isinstance(obj, str):
+            return (obj.encode("utf-8"),)
+        if isinstance(obj, (int, float)):
+            return (np.array(obj).tobytes(),)
+
+        if isinstance(obj, Image.Image):
+            exif = obj.getexif()
+            if Image.ExifTags.Base.ImageID in exif and isinstance(
+                exif[Image.ExifTags.Base.ImageID], uuid.UUID
+            ):
+                # If the image has exif ImageID tag, use that
+                return (exif[Image.ExifTags.Base.ImageID].bytes,)
+            data = {"mode": obj.mode, "data": np.asarray(obj)}
+            if obj.palette is not None:
+                data["palette"] = obj.palette.palette
+                if obj.palette.rawmode is not None:
+                    data["palette_rawmode"] = obj.palette.rawmode
+            return cls.iter_item_to_bytes("image", data)
+        if isinstance(obj, torch.Tensor):
+            tensor_obj: torch.Tensor = obj.cpu()
+            tensor_dtype = tensor_obj.dtype
+            tensor_shape = tensor_obj.shape
+
+            # NumPy does not support bfloat16.
+            # Workaround: View the tensor as a contiguous 1D array of bytes
+            if tensor_dtype == torch.bfloat16:
+                tensor_obj = tensor_obj.contiguous()
+                tensor_obj = tensor_obj.view((tensor_obj.numel(),)).view(torch.uint8)
+
+                return cls.iter_item_to_bytes(
+                    "tensor",
+                    {
+                        "original_dtype": str(tensor_dtype),
+                        "original_shape": tuple(tensor_shape),
+                        "data": tensor_obj.numpy(),
+                    },
+                )
+            return cls.iter_item_to_bytes("tensor", tensor_obj.numpy())
+        if isinstance(obj, np.ndarray):
+            # If the array is non-contiguous, we need to copy it first
+            arr_data = (
+                obj.view(np.uint8).data if obj.flags.c_contiguous else obj.tobytes()
+            )
+            return cls.iter_item_to_bytes(
+                "ndarray",
+                {
+                    "dtype": obj.dtype.str,
+                    "shape": obj.shape,
+                    "data": arr_data,
+                },
+            )
+        logger.warning(
+            "No serialization method found for %s. Falling back to pickle.", type(obj)
+        )
+
+        return (pickle.dumps(obj),)
+
+    @classmethod
+    def iter_item_to_bytes(
+        cls,
+        key: str,
+        obj: object,
+    ) -> Iterable[bytes | memoryview]:
+        # Recursive cases
+        if isinstance(obj, (list, tuple)):
+            for i, elem in enumerate(obj):
+                yield from cls.iter_item_to_bytes(f"{key}.{i}", elem)
+        elif isinstance(obj, dict):
+            for k, v in obj.items():
+                yield from cls.iter_item_to_bytes(f"{key}.{k}", v)
+        else:
+            yield key.encode("utf-8")
+            yield from cls.serialize_item(obj)
+
+    @classmethod
+    def hash_kwargs(cls, **kwargs: object) -> str:
+        hasher = blake3()
+
+        for k, v in kwargs.items():
+            for bytes_ in cls.iter_item_to_bytes(k, v):
+                hasher.update(bytes_)
+
+        return hasher.hexdigest()
diff --git a/multimodal/image.py b/multimodal/image.py
new file mode 100644
index 0000000..21e8bef
--- /dev/null
+++ b/multimodal/image.py
@@ -0,0 +1,130 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from io import BytesIO
+from pathlib import Path
+
+import pybase64
+import torch
+from PIL import Image
+
+from .base import MediaIO
+
+
+def rescale_image_size(
+    image: Image.Image, size_factor: float, transpose: int = -1
+) -> Image.Image:
+    """Rescale the dimensions of an image by a constant factor."""
+    new_width = int(image.width * size_factor)
+    new_height = int(image.height * size_factor)
+    image = image.resize((new_width, new_height))
+    if transpose >= 0:
+        image = image.transpose(Image.Transpose(transpose))
+    return image
+
+
+def rgba_to_rgb(
+    image: Image.Image,
+    background_color: tuple[int, int, int] | list[int] = (255, 255, 255),
+) -> Image.Image:
+    """Convert an RGBA image to RGB with filled background color."""
+    assert image.mode == "RGBA"
+    converted = Image.new("RGB", image.size, background_color)
+    converted.paste(image, mask=image.split()[3])  # 3 is the alpha channel
+    return converted
+
+
+def convert_image_mode(image: Image.Image, to_mode: str):
+    if image.mode == to_mode:
+        return image
+    elif image.mode == "RGBA" and to_mode == "RGB":
+        return rgba_to_rgb(image)
+    else:
+        return image.convert(to_mode)
+
+
+class ImageMediaIO(MediaIO[Image.Image]):
+    def __init__(self, image_mode: str = "RGB", **kwargs) -> None:
+        super().__init__()
+
+        self.image_mode = image_mode
+        # `kwargs` contains custom arguments from
+        # --media-io-kwargs for this modality.
+        # They can be passed to the underlying
+        # media loaders (e.g. custom implementations)
+        # for flexible control.
+        self.kwargs = kwargs
+
+        # Extract RGBA background color from kwargs if provided
+        # Default to white background for backward compatibility
+        rgba_bg = kwargs.get("rgba_background_color", (255, 255, 255))
+        # Convert list to tuple for consistency
+        if isinstance(rgba_bg, list):
+            rgba_bg = tuple(rgba_bg)
+
+        # Validate rgba_background_color format
+        if not (
+            isinstance(rgba_bg, tuple)
+            and len(rgba_bg) == 3
+            and all(isinstance(c, int) and 0 <= c <= 255 for c in rgba_bg)
+        ):
+            raise ValueError(
+                "rgba_background_color must be a list or tuple of 3 integers "
+                "in the range [0, 255]."
+            )
+        self.rgba_background_color = rgba_bg
+
+    def _convert_image_mode(self, image: Image.Image) -> Image.Image:
+        """Convert image mode with custom background color."""
+        if image.mode == self.image_mode:
+            return image
+        elif image.mode == "RGBA" and self.image_mode == "RGB":
+            return rgba_to_rgb(image, self.rgba_background_color)
+        else:
+            return convert_image_mode(image, self.image_mode)
+
+    def load_bytes(self, data: bytes) -> Image.Image:
+        image = Image.open(BytesIO(data))
+        image.load()
+        return self._convert_image_mode(image)
+
+    def load_base64(self, media_type: str, data: str) -> Image.Image:
+        return self.load_bytes(pybase64.b64decode(data, validate=True))
+
+    def load_file(self, filepath: Path) -> Image.Image:
+        image = Image.open(filepath)
+        image.load()
+        return self._convert_image_mode(image)
+
+    def encode_base64(
+        self,
+        media: Image.Image,
+        *,
+        image_format: str = "JPEG",
+    ) -> str:
+        image = media
+
+        with BytesIO() as buffer:
+            image = self._convert_image_mode(image)
+            image.save(buffer, image_format)
+            data = buffer.getvalue()
+
+        return pybase64.b64encode(data).decode("utf-8")
+
+
+class ImageEmbeddingMediaIO(MediaIO[torch.Tensor]):
+    def __init__(self) -> None:
+        super().__init__()
+
+    def load_bytes(self, data: bytes) -> torch.Tensor:
+        buffer = BytesIO(data)
+        return torch.load(buffer, weights_only=True)
+
+    def load_base64(self, media_type: str, data: str) -> torch.Tensor:
+        return self.load_bytes(pybase64.b64decode(data, validate=True))
+
+    def load_file(self, filepath: Path) -> torch.Tensor:
+        return torch.load(filepath, weights_only=True)
+
+    def encode_base64(self, media: torch.Tensor) -> str:
+        return pybase64.b64encode(media.numpy()).decode("utf-8")
diff --git a/multimodal/inputs.py b/multimodal/inputs.py
new file mode 100644
index 0000000..7518a02
--- /dev/null
+++ b/multimodal/inputs.py
@@ -0,0 +1,1036 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections import UserDict, defaultdict
+from collections.abc import Mapping, Sequence
+from dataclasses import dataclass
+from functools import partial
+from itertools import accumulate
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Literal,
+    Optional,
+    TypeAlias,
+    TypedDict,
+    Union,
+    cast,
+    final,
+)
+
+import numpy as np
+from typing_extensions import NotRequired, TypeVar, deprecated
+
+from vllm.utils.collection_utils import full_groupby, is_list_of
+from vllm.utils.import_utils import LazyLoader
+from vllm.utils.jsontree import json_map_leaves
+
+if TYPE_CHECKING:
+    import torch
+    import torch.types
+    from PIL.Image import Image
+    from transformers.feature_extraction_utils import BatchFeature
+
+    from .processing import MultiModalHashes
+
+else:
+    torch = LazyLoader("torch", globals(), "torch")
+
+_T = TypeVar("_T")
+
+HfImageItem: TypeAlias = Union["Image", np.ndarray, "torch.Tensor"]
+"""
+A `transformers.image_utils.ImageInput` representing a single image
+item, which can be passed to a HuggingFace `ImageProcessor`.
+"""
+
+HfVideoItem: TypeAlias = Union[
+    list["Image"], np.ndarray, "torch.Tensor", list[np.ndarray], list["torch.Tensor"]
+]
+"""
+A `transformers.image_utils.VideoInput` representing a single video
+item, which can be passed to a HuggingFace `VideoProcessor`.
+"""
+
+HfAudioItem: TypeAlias = Union[list[float], np.ndarray, "torch.Tensor"]
+"""
+Represents a single audio
+item, which can be passed to a HuggingFace `AudioProcessor`.
+"""
+
+ImageItem: TypeAlias = Union[HfImageItem, "torch.Tensor"]
+"""
+A `transformers.image_utils.ImageInput` representing a single image
+item, which can be passed to a HuggingFace `ImageProcessor`.
+
+Alternatively, a 3-D tensor or batch of 2-D tensors,
+which are treated as image embeddings;
+these are directly passed to the model without HF processing.
+"""
+
+VideoItem: TypeAlias = Union[
+    HfVideoItem, "torch.Tensor", tuple[HfVideoItem, dict[str, Any]]
+]
+"""
+A `transformers.video_utils.VideoInput` representing a single video item. 
+This can be passed to a HuggingFace `VideoProcessor` 
+with `transformers.video_utils.VideoMetadata`.
+
+Alternatively, a 3-D tensor or batch of 2-D tensors,
+which are treated as video embeddings;
+these are directly passed to the model without HF processing.
+"""
+
+AudioItem: TypeAlias = Union[HfAudioItem, tuple[np.ndarray, float], "torch.Tensor"]
+"""
+Represents a single audio
+item, which can be passed to a HuggingFace `AudioProcessor`.
+
+Alternatively, a tuple `(audio, sampling_rate)`, where the sampling rate
+is different from that expected by the model;
+these are resampled to the model's sampling rate before being processed by HF.
+
+Alternatively, a 3-D tensor or batch of 2-D tensors,
+which are treated as audio embeddings;
+these are directly passed to the model without HF processing.
+"""
+
+ModalityData: TypeAlias = _T | list[_T | None] | None
+"""
+Either a single data item, or a list of data items. Can only be None if UUID
+is provided.
+
+The number of data items allowed per modality is restricted by
+`--limit-mm-per-prompt`.
+"""
+
+
+@final
+class MultiModalDataBuiltins(TypedDict, total=False):
+    """Type annotations for modality types predefined by vLLM."""
+
+    image: ModalityData[ImageItem]
+    """The input image(s)."""
+
+    video: ModalityData[VideoItem]
+    """The input video(s)."""
+
+    audio: ModalityData[AudioItem]
+    """The input audio(s)."""
+
+
+MultiModalDataDict: TypeAlias = Mapping[str, ModalityData[Any]]
+"""
+A dictionary containing an entry for each modality type to input.
+
+The built-in modalities are defined by
+[`MultiModalDataBuiltins`][vllm.multimodal.inputs.MultiModalDataBuiltins].
+"""
+
+MultiModalUUIDDict: TypeAlias = Mapping[str, list[str | None] | str]
+"""
+A dictionary containing user-provided UUIDs for items in each modality.
+If a UUID for an item is not provided, its entry will be `None` and
+MultiModalHasher will compute a hash for the item.
+
+The UUID will be used to identify the item for all caching purposes
+(input processing caching, embedding caching, prefix caching, etc).
+"""
+
+
+@dataclass(frozen=True)
+class PlaceholderRange:
+    """
+    Placeholder location information for multi-modal data.
+
+    Example:
+
+    Prompt: `AAAA BBBB What is in these images?`
+
+    Images A and B will have:
+
+    ```
+    A: PlaceholderRange(offset=0, length=4)
+    B: PlaceholderRange(offset=5, length=4)
+    ```
+    """
+
+    offset: int
+    """The start index of the placeholder in the prompt."""
+
+    length: int
+    """The length of the placeholder."""
+
+    is_embed: Optional["torch.Tensor"] = None
+    """
+    A boolean mask of shape `(length,)` indicating which positions
+    between `offset` and `offset + length` to assign embeddings to.
+    """
+
+    def get_num_embeds(self) -> int:
+        if self.is_embed is None:
+            return self.length
+
+        return int(self.is_embed.sum().item())
+
+    def __eq__(self, other: object) -> bool:
+        if not isinstance(other, self.__class__):
+            return False
+        if not (self.offset, self.length) == (other.offset, other.length):
+            return False
+
+        if self.is_embed is None:
+            return other.is_embed is None
+        if other.is_embed is None:
+            return self.is_embed is None
+
+        return nested_tensors_equal(self.is_embed, other.is_embed)
+
+
+NestedTensors: TypeAlias = Union[
+    list["NestedTensors"],
+    list["torch.Tensor"],
+    "torch.Tensor",
+    tuple["torch.Tensor", ...],
+]
+"""
+Uses a list instead of a tensor if the dimensions of each element do not match.
+"""
+
+
+def nested_tensors_equal(a: NestedTensors, b: NestedTensors) -> bool:
+    """Equality check between
+    [`NestedTensors`][vllm.multimodal.inputs.NestedTensors] objects."""
+    if isinstance(a, torch.Tensor):
+        return isinstance(b, torch.Tensor) and torch.equal(a, b)
+    elif isinstance(b, torch.Tensor):
+        return isinstance(a, torch.Tensor) and torch.equal(b, a)
+
+    if isinstance(a, list):
+        return isinstance(b, list) and all(
+            nested_tensors_equal(a_, b_) for a_, b_ in zip(a, b)
+        )
+    if isinstance(b, list):
+        return isinstance(a, list) and all(
+            nested_tensors_equal(b_, a_) for b_, a_ in zip(b, a)
+        )
+
+    # Both a and b are scalars
+    return a == b
+
+
+BatchedTensorInputs: TypeAlias = dict[str, NestedTensors]
+"""
+A dictionary containing nested tensors which have been batched via
+[`MultiModalKwargs.batch`][vllm.multimodal.inputs.MultiModalKwargs.batch].
+"""
+
+
+@dataclass
+class MultiModalFeatureSpec:
+    """
+    Represents a single multimodal input with its processed data and metadata.
+
+    Used by the V1 engine to track multimodal data through processing and
+    caching. A request containing multiple multimodal items will have one
+    MultiModalFeatureSpec per item.
+    """
+
+    data: Optional["MultiModalKwargsItem"]
+    """Multimodal data for this feature"""
+
+    modality: str
+    """Based on the input, e.g., "image", "audio", "video"."""
+
+    identifier: str
+    """mm_hash or uuid for caching encoder outputs."""
+
+    mm_position: PlaceholderRange
+    """e.g., PlaceholderRange(offset=2, length=336)"""
+
+    @staticmethod
+    def gather_kwargs(features: list["MultiModalFeatureSpec"], keys: set[str]):
+        kwargs = defaultdict[str, list[NestedTensors]](list)
+
+        for f in features:
+            item = f.data
+            if item is not None:
+                for k in keys:
+                    if k in item:
+                        kwargs[k].append(item[k].data)
+
+        return dict(kwargs)
+
+
+@dataclass
+class MultiModalFieldElem:
+    """
+    Represents a keyword argument corresponding to a multi-modal item
+    in [`MultiModalKwargs`][vllm.multimodal.inputs.MultiModalKwargs].
+    """
+
+    modality: str
+    """
+    The modality of the corresponding multi-modal item.
+    Each multi-modal item can consist of multiple keyword arguments.
+    """
+
+    key: str
+    """
+    The key of this field in
+    [`MultiModalKwargs`][vllm.multimodal.inputs.MultiModalKwargs],
+    i.e. the name of the keyword argument to be passed to the model.
+    """
+
+    data: NestedTensors
+    """
+    The tensor data of this field in
+    [`MultiModalKwargs`][vllm.multimodal.inputs.MultiModalKwargs],
+    i.e. the value of the keyword argument to be passed to the model.
+
+    It may be set to `None` if it is determined that the item is cached
+    in `EngineCore`.
+    """
+
+    field: "BaseMultiModalField"
+    """
+    Defines how to combine the tensor data of this field with others
+    in order to batch multi-modal items together for model inference.
+    """
+
+    def __eq__(self, other: object) -> bool:
+        if not isinstance(other, self.__class__):
+            return False
+
+        if self.data is None:
+            data_equal = other.data is None
+        elif other.data is None:
+            data_equal = self.data is None
+        else:
+            data_equal = nested_tensors_equal(self.data, other.data)
+
+        return (
+            (self.modality, self.key) == (other.modality, other.key)
+            and data_equal
+            and type(self.field) is type(other.field)
+        )  # noqa: E721
+
+
+@dataclass(frozen=True)
+class BaseMultiModalField(ABC):
+    """
+    Defines how to interpret tensor data belonging to a keyword argument in
+    [`MultiModalKwargs`][vllm.multimodal.inputs.MultiModalKwargs] for multiple
+    multi-modal items, and vice versa.
+    """
+
+    def _field_factory(self, *, modality: str, key: str):
+        f = partial(
+            MultiModalFieldElem,
+            modality=modality,
+            key=key,
+            field=self,
+        )
+
+        # Allow passing data as positional argument
+        def factory(data: NestedTensors) -> MultiModalFieldElem:
+            return f(data=data)
+
+        return factory
+
+    @abstractmethod
+    def build_elems(
+        self,
+        modality: str,
+        key: str,
+        data: NestedTensors,
+    ) -> Sequence[MultiModalFieldElem]:
+        """
+        Construct
+        [`MultiModalFieldElem`][vllm.multimodal.inputs.MultiModalFieldElem]
+        instances to represent the provided data.
+
+        This is the inverse of
+        [`reduce_data`][vllm.multimodal.inputs.BaseMultiModalField.reduce_data].
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def _reduce_data(
+        self,
+        batch: list[NestedTensors],
+        *,
+        pin_memory: bool,
+    ) -> NestedTensors:
+        raise NotImplementedError
+
+    def reduce_data(
+        self,
+        elems: list[MultiModalFieldElem],
+        *,
+        pin_memory: bool = False,
+    ) -> NestedTensors:
+        """
+        Merge the data from multiple instances of
+        [`MultiModalFieldElem`][vllm.multimodal.inputs.MultiModalFieldElem].
+
+        This is the inverse of
+        [`build_elems`][vllm.multimodal.inputs.BaseMultiModalField.build_elems].
+        """
+        field_types = [type(item.field) for item in elems]
+        if len(set(field_types)) > 1:
+            raise ValueError(f"Cannot merge different {field_types=}")
+
+        batch = [elem.data for elem in elems]
+        return self._reduce_data(batch, pin_memory=pin_memory)
+
+
+@dataclass(frozen=True)
+class MultiModalBatchedField(BaseMultiModalField):
+    """
+    Info:
+        [`MultiModalFieldConfig.batched`][vllm.multimodal.inputs.MultiModalFieldConfig.batched]
+    """
+
+    def build_elems(
+        self,
+        modality: str,
+        key: str,
+        data: NestedTensors,
+    ) -> Sequence[MultiModalFieldElem]:
+        field_factory = self._field_factory(modality=modality, key=key)
+        return [field_factory(item) for item in data]
+
+    def _reduce_data(
+        self,
+        batch: list[NestedTensors],
+        *,
+        pin_memory: bool,
+    ) -> NestedTensors:
+        if len(batch) > 0 and is_list_of(batch, torch.Tensor, check="all"):
+            batch = cast(list[torch.Tensor], batch)
+            if len(batch) == 1:
+                # An optimization when `batch` contains only one tensor:
+                # - produce exactly same result as `torch.stack(batch)`
+                # - will achieve zero-copy if the tensor is contiguous
+                return batch[0].unsqueeze(0).contiguous()
+            first_shape = batch[0].shape
+            if all(elem.shape == first_shape for elem in batch):
+                out = torch.empty(
+                    (len(batch), *batch[0].shape),
+                    dtype=batch[0].dtype,
+                    device=batch[0].device,
+                    pin_memory=pin_memory,
+                )
+                return torch.stack(batch, out=out)
+
+        return batch
+
+
+@dataclass(frozen=True)
+class MultiModalFlatField(BaseMultiModalField):
+    """
+    Info:
+        [`MultiModalFieldConfig.flat`][vllm.multimodal.inputs.MultiModalFieldConfig.flat]
+        [`MultiModalFieldConfig.flat_from_sizes`][vllm.multimodal.inputs.MultiModalFieldConfig.flat_from_sizes]
+    """
+
+    slices: Sequence[slice] | Sequence[Sequence[slice]]
+    dim: int = 0
+
+    def build_elems(
+        self,
+        modality: str,
+        key: str,
+        data: NestedTensors,
+    ) -> Sequence[MultiModalFieldElem]:
+        field_factory = self._field_factory(modality=modality, key=key)
+        if not is_list_of(self.slices, slice, check="all"):
+            assert isinstance(data, torch.Tensor), (
+                "torch.Tensor is required for multiple slices"
+            )
+        return [field_factory(data[cast(slice, s)]) for s in self.slices]
+
+    def _reduce_data(
+        self,
+        batch: list[NestedTensors],
+        *,
+        pin_memory: bool,
+    ) -> NestedTensors:
+        if len(batch) > 0 and is_list_of(batch, torch.Tensor, check="all"):
+            batch = cast(list[torch.Tensor], batch)
+            if len(batch) == 1:
+                # An optimization when `batch` contains only one tensor:
+                # - produce exactly same result as `torch.concat(batch)`
+                # - will achieve zero-copy if the tensor is contiguous
+                return batch[0].contiguous()
+
+            dim = self.dim + (self.dim < 0) * len(batch[0].shape)
+
+            def _shape_before_after(tensor: torch.Tensor):
+                return tensor.shape[:dim], tensor.shape[dim + 1 :]
+
+            first_shape = _shape_before_after(batch[0])
+
+            if all(_shape_before_after(elem) == first_shape for elem in batch):
+                shape_before, shape_after = first_shape
+                shape_concat = sum(item.shape[dim] for item in batch)
+                out = torch.empty(
+                    (*shape_before, shape_concat, *shape_after),
+                    dtype=batch[0].dtype,
+                    device=batch[0].device,
+                    pin_memory=pin_memory,
+                )
+                return torch.concat(batch, dim=self.dim, out=out)
+
+        assert self.dim == 0, "dim == 0 is required for nested list"
+        return [e for elem in batch for e in elem]
+
+
+@dataclass(frozen=True)
+class MultiModalSharedField(BaseMultiModalField):
+    """
+    Info:
+        [`MultiModalFieldConfig.shared`][vllm.multimodal.inputs.MultiModalFieldConfig.shared]
+    """
+
+    batch_size: int
+
+    def build_elems(
+        self,
+        modality: str,
+        key: str,
+        data: NestedTensors,
+    ) -> Sequence[MultiModalFieldElem]:
+        field_factory = self._field_factory(modality=modality, key=key)
+        return [field_factory(data)] * self.batch_size
+
+    def _reduce_data(
+        self,
+        batch: list[NestedTensors],
+        *,
+        pin_memory: bool,
+    ) -> NestedTensors:
+        return batch[0]
+
+
+class MultiModalFieldConfig:
+    @staticmethod
+    def batched(modality: str):
+        """
+        Defines a field where an element in the batch is obtained by
+        indexing into the first dimension of the underlying data.
+
+        Args:
+            modality: The modality of the multi-modal item that uses this
+                keyword argument.
+
+        Example:
+
+        ```
+        Input:
+            Data: [[AAAA]
+                [BBBB]
+                [CCCC]]
+
+        Output:
+            Element 1: [AAAA]
+            Element 2: [BBBB]
+            Element 3: [CCCC]
+        ```
+        """
+        return MultiModalFieldConfig(
+            field=MultiModalBatchedField(),
+            modality=modality,
+        )
+
+    @staticmethod
+    def flat(
+        modality: str,
+        slices: Sequence[slice] | Sequence[Sequence[slice]],
+        dim: int = 0,
+    ):
+        """
+        Defines a field where an element in the batch is obtained by
+        slicing along the first dimension of the underlying data.
+
+        Args:
+            modality: The modality of the multi-modal item that uses this
+                keyword argument.
+            slices: For each multi-modal item, a slice (dim=0) or a tuple of
+                slices (dim>0) that is used to extract the data corresponding
+                to it.
+            dim: The dimension to extract data, default to 0.
+
+        Example:
+
+        ```
+        Given:
+            slices: [slice(0, 3), slice(3, 7), slice(7, 9)]
+
+        Input:
+            Data: [AAABBBBCC]
+
+        Output:
+            Element 1: [AAA]
+            Element 2: [BBBB]
+            Element 3: [CC]
+        ```
+
+        ```
+        Given:
+            slices: [
+                (slice(None), slice(0, 3)),
+                (slice(None), slice(3, 7)),
+                (slice(None), slice(7, 9))]
+            dim: 1
+
+        Input:
+            Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
+
+        Output:
+            Element 1: [[A],[A],[A]]
+            Element 2: [[B],[B],[B],[B]]
+            Element 3: [[C],[C]]
+        ```
+        """
+        return MultiModalFieldConfig(
+            field=MultiModalFlatField(slices=slices, dim=dim),
+            modality=modality,
+        )
+
+    @staticmethod
+    def flat_from_sizes(modality: str, size_per_item: "torch.Tensor", dim: int = 0):
+        """
+        Defines a field where an element in the batch is obtained by
+        slicing along the first dimension of the underlying data.
+
+        Args:
+            modality: The modality of the multi-modal item that uses this
+                keyword argument.
+            size_per_item: For each multi-modal item, the size of the slice
+                that is used to extract the data corresponding to it.
+            dim: The dimension to slice, default to 0.
+
+        Example:
+
+        ```
+        Given:
+            size_per_item: [3, 4, 2]
+
+        Input:
+            Data: [AAABBBBCC]
+
+        Output:
+            Element 1: [AAA]
+            Element 2: [BBBB]
+            Element 3: [CC]
+        ```
+
+        ```
+        Given:
+            size_per_item: [3, 4, 2]
+            dim: 1
+
+        Input:
+            Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
+
+        Output:
+            Element 1: [[A],[A],[A]]
+            Element 2: [[B],[B],[B],[B]]
+            Element 3: [[C],[C]]
+        ```
+
+        Info:
+            [`MultiModalFieldConfig.flat`][vllm.multimodal.inputs.MultiModalFieldConfig.flat]
+        """
+
+        if size_per_item.ndim != 1:
+            raise ValueError(
+                "size_per_item should be a 1-D tensor, "
+                f"but found shape: {size_per_item.shape}"
+            )
+
+        slice_idxs = [0, *accumulate(size_per_item)]
+        slices = [
+            (slice(None, None, None),) * dim
+            + (slice(slice_idxs[i], slice_idxs[i + 1]),)
+            for i in range(len(size_per_item))
+        ]
+
+        return MultiModalFieldConfig.flat(modality, slices, dim=dim)
+
+    @staticmethod
+    def shared(modality: str, batch_size: int):
+        """
+        Defines a field where an element in the batch is obtained by
+        taking the entirety of the underlying data.
+
+        This means that the data is the same for each element in the batch.
+
+        Args:
+            modality: The modality of the multi-modal item that uses this
+                keyword argument.
+            batch_size: The number of multi-modal items which share this data.
+
+        Example:
+
+        ```
+        Given:
+            batch_size: 4
+
+        Input:
+            Data: [XYZ]
+
+        Output:
+            Element 1: [XYZ]
+            Element 2: [XYZ]
+            Element 3: [XYZ]
+            Element 4: [XYZ]
+        ```
+        """
+        return MultiModalFieldConfig(
+            field=MultiModalSharedField(batch_size),
+            modality=modality,
+        )
+
+    def __init__(self, field: BaseMultiModalField, modality: str) -> None:
+        super().__init__()
+
+        self.field = field
+        self.modality = modality
+
+    def __repr__(self) -> str:
+        return f"MultiModalFieldConfig(field={self.field}, modality={self.modality})"
+
+    def build_elems(
+        self,
+        key: str,
+        batch: NestedTensors,
+    ) -> Sequence[MultiModalFieldElem]:
+        return self.field.build_elems(self.modality, key, batch)
+
+
+class MultiModalKwargsItem(UserDict[str, MultiModalFieldElem]):
+    """
+    A collection of
+    [`MultiModalFieldElem`][vllm.multimodal.inputs.MultiModalFieldElem]
+    corresponding to a data item in
+    [`MultiModalDataItems`][vllm.multimodal.parse.MultiModalDataItems].
+    """
+
+    @staticmethod
+    def dummy(modality: str):
+        """Convenience class for testing."""
+        mm_elem = MultiModalFieldElem(
+            modality=modality,
+            key="dummy",
+            data=torch.empty(1),
+            field=MultiModalSharedField(1),
+        )
+        return MultiModalKwargsItem.from_elems([mm_elem])
+
+    @staticmethod
+    def from_elems(elems: Sequence[MultiModalFieldElem]):
+        return MultiModalKwargsItem({elem.key: elem for elem in elems})
+
+    def __init__(self, data: Mapping[str, MultiModalFieldElem] = {}) -> None:
+        super().__init__(data)
+
+        modalities = {elem.modality for elem in self.values()}
+        assert len(modalities) == 1, f"Found different modalities={modalities}"
+        self._modality = next(iter(modalities))
+
+    @property
+    def modality(self) -> str:
+        return self._modality
+
+    def get_data(self) -> dict[str, NestedTensors]:
+        return {key: elem.data for key, elem in self.items()}
+
+
+_I = TypeVar(
+    "_I",
+    MultiModalKwargsItem,
+    MultiModalKwargsItem | None,
+    default=MultiModalKwargsItem,
+)
+
+
+class MultiModalKwargsItems(UserDict[str, Sequence[_I]]):
+    """
+    A dictionary of
+    [`MultiModalKwargsItem`][vllm.multimodal.inputs.MultiModalKwargsItem]s
+    by modality.
+    """
+
+    @staticmethod
+    def from_hf_inputs(
+        hf_inputs: "BatchFeature",
+        config_by_key: Mapping[str, MultiModalFieldConfig],
+    ):
+        # NOTE: This skips fields in `hf_inputs` that are not in `config_by_key`
+        # We assume that those fields are not used in vLLM
+        elems_by_key = dict[str, Sequence[MultiModalFieldElem]]()
+        keys_by_modality = defaultdict[str, set[str]](set)
+        for key, config in config_by_key.items():
+            batch = hf_inputs.get(key)
+            if batch is not None:
+                elems = config.build_elems(key, batch)
+                if len(elems) > 0:
+                    elems_by_key[key] = elems
+                    keys_by_modality[config.modality].add(key)
+
+        items = list[MultiModalKwargsItem]()
+        for modality, keys in keys_by_modality.items():
+            elems_in_modality = {k: elems_by_key[k] for k in keys}
+            batch_sizes = {k: len(v) for k, v in elems_in_modality.items()}
+
+            if len(set(batch_sizes.values())) > 1:
+                raise ValueError(
+                    f"Cannot merge different batch sizes for {modality=}! "
+                    f"Found: {batch_sizes=}"
+                )
+
+            batch_size = next(iter(batch_sizes.values()))
+            for item_idx in range(batch_size):
+                elems = [v[item_idx] for v in elems_in_modality.values()]
+                items.append(MultiModalKwargsItem.from_elems(elems))
+
+        return MultiModalKwargsItems.from_seq(items)
+
+    @staticmethod
+    def from_seq(items: Sequence[MultiModalKwargsItem]):
+        items_by_modality = full_groupby(items, key=lambda x: x.modality)
+        return MultiModalKwargsItems(items_by_modality)
+
+    def __getitem__(self, modality: str) -> Sequence[_I]:
+        if modality not in self:
+            raise KeyError(
+                f"Modality {modality!r} not found. "
+                f"Available modalities: {set(self.keys())}"
+            )
+
+        return super().__getitem__(modality)  # type: ignore[return-value]
+
+    def require_data(self) -> "MultiModalKwargsItems[MultiModalKwargsItem]":
+        for modality, items in self.items():
+            for i, item in enumerate(items):
+                if item is None:
+                    raise RuntimeError(f"Found empty mm_items[{modality}][{i}]")
+
+        return self  # type: ignore[return-value]
+
+    def get_data(self, *, pin_memory: bool = False) -> "MultiModalKwargs":
+        elems_by_key = defaultdict[str, list[MultiModalFieldElem]](list)
+        for modality, items in self.items():
+            for i, item in enumerate(items):
+                if item is None:
+                    raise RuntimeError(
+                        f"Cannot build data from empty mm_items[{modality}][{i}]"
+                    )
+
+                for key, elem in item.items():
+                    elems_by_key[key].append(elem)
+
+        return MultiModalKwargs(
+            {
+                key: elems[0].field.reduce_data(elems, pin_memory=pin_memory)
+                for key, elems in elems_by_key.items()
+            }
+        )
+
+
+MultiModalKwargsOptionalItems: TypeAlias = (
+    MultiModalKwargsItems[MultiModalKwargsItem]
+    | MultiModalKwargsItems[MultiModalKwargsItem | None]
+)
+
+
+class MultiModalKwargs(UserDict[str, NestedTensors]):
+    """
+    A dictionary that represents the keyword arguments to
+    [`torch.nn.Module.forward`][].
+    """
+
+    @staticmethod
+    @deprecated(
+        "`MultiModalKwargs.from_hf_inputs` is deprecated and "
+        "will be removed in v0.13. "
+        "Please use `MultiModalKwargsItems.from_hf_inputs` and "
+        "access the tensor data using `.get_data()`."
+    )
+    def from_hf_inputs(
+        hf_inputs: "BatchFeature",
+        config_by_key: Mapping[str, MultiModalFieldConfig],
+    ):
+        return MultiModalKwargsItems.from_hf_inputs(hf_inputs, config_by_key).get_data()
+
+    @staticmethod
+    @deprecated(
+        "`MultiModalKwargs.from_items` is deprecated and "
+        "will be removed in v0.13. "
+        "Please use `MultiModalKwargsItems.from_seq` and "
+        "access the tensor data using `.get_data()`."
+    )
+    def from_items(
+        items: Sequence[MultiModalKwargsItem],
+        *,
+        pin_memory: bool = False,
+    ):
+        return MultiModalKwargsItems.from_seq(items).get_data(pin_memory=pin_memory)
+
+    @staticmethod
+    def _try_stack(
+        nested_tensors: NestedTensors, pin_memory: bool = False
+    ) -> NestedTensors:
+        """
+        Stack the inner dimensions that have the same shape in
+        a nested list of tensors.
+
+        Thus, a dimension represented by a list means that the inner
+        dimensions are different for each element along that dimension.
+        """
+        if isinstance(nested_tensors, torch.Tensor):
+            return nested_tensors
+
+        # TODO: Remove these once all models have been migrated
+        if isinstance(nested_tensors, np.ndarray):
+            return torch.from_numpy(nested_tensors)
+        if isinstance(nested_tensors, (int, float)):
+            return torch.tensor(nested_tensors)
+
+        stacked = [MultiModalKwargs._try_stack(t, pin_memory) for t in nested_tensors]
+        if not is_list_of(stacked, torch.Tensor, check="all"):
+            # Only tensors (not lists) can be stacked.
+            return stacked
+
+        tensors_ = cast(list[torch.Tensor], stacked)
+        if len(tensors_) == 1:
+            # An optimization when `tensors_` contains only one tensor:
+            # - produce exactly same result as `torch.stack(tensors_)`
+            # - will achieve zero-copy if the tensor is contiguous
+            return tensors_[0].unsqueeze(0).contiguous()
+
+        if any(t.shape != tensors_[0].shape for t in tensors_):
+            # The tensors have incompatible shapes and can't be stacked.
+            return tensors_
+
+        outputs = torch.empty(
+            len(tensors_),
+            *tensors_[0].shape,
+            dtype=tensors_[0].dtype,
+            device=tensors_[0].device,
+            pin_memory=pin_memory,
+        )
+        return torch.stack(tensors_, out=outputs)
+
+    @staticmethod
+    def batch(
+        inputs_list: list["MultiModalKwargs"], pin_memory: bool = False
+    ) -> BatchedTensorInputs:
+        """
+        Batch multiple inputs together into a dictionary.
+
+        The resulting dictionary has the same keys as the inputs.
+        If the corresponding value from each input is a tensor and they all
+        share the same shape, the output value is a single batched tensor;
+        otherwise, the output value is a list containing the original value
+        from each input.
+        """
+        if len(inputs_list) == 0:
+            return {}
+
+        # We need to consider the case where each item in the batch
+        # contains different modalities (i.e. different keys).
+        item_lists = defaultdict[str, list[NestedTensors]](list)
+
+        for inputs in inputs_list:
+            for k, v in inputs.items():
+                item_lists[k].append(v)
+
+        return {
+            k: MultiModalKwargs._try_stack(item_list, pin_memory)
+            for k, item_list in item_lists.items()
+        }
+
+    @staticmethod
+    def as_kwargs(
+        batched_inputs: BatchedTensorInputs,
+        *,
+        device: torch.types.Device,
+    ) -> BatchedTensorInputs:
+        return json_map_leaves(
+            lambda x: x.to(device=device, non_blocking=True),
+            batched_inputs,
+        )
+
+    def __getitem__(self, key: str):
+        if key not in self:
+            raise KeyError(
+                f"Keyword argument {key!r} not found. "
+                f"Available keys: {set(self.keys())}"
+            )
+
+        return super().__getitem__(key)
+
+    def __eq__(self, other: object) -> bool:
+        if not isinstance(other, self.__class__):
+            return False
+
+        for k in self:
+            if k not in other:
+                return False
+            if not nested_tensors_equal(self[k], other[k]):
+                return False
+
+        return True
+
+
+MultiModalPlaceholderDict: TypeAlias = Mapping[str, Sequence[PlaceholderRange]]
+"""
+A dictionary containing placeholder ranges for each modality.
+"""
+
+
+class MultiModalInputs(TypedDict):
+    """
+    Represents the outputs of
+    [`BaseMultiModalProcessor`][vllm.multimodal.processing.BaseMultiModalProcessor],
+    ready to be passed to vLLM internals.
+    """
+
+    type: Literal["multimodal"]
+    """The type of inputs."""
+
+    prompt_token_ids: list[int]
+    """The processed token IDs which includes placeholder tokens."""
+
+    mm_kwargs: MultiModalKwargsOptionalItems
+    """Keyword arguments to be directly passed to the model after batching."""
+
+    mm_hashes: "MultiModalHashes"
+    """The hashes of the multi-modal data."""
+
+    mm_placeholders: "MultiModalPlaceholderDict"
+    """
+    For each modality, information about the placeholder tokens in
+    `prompt_token_ids`.
+    """
+
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
+
+class MultiModalEncDecInputs(MultiModalInputs):
+    """
+    Represents the outputs of
+    [`EncDecMultiModalProcessor`][vllm.multimodal.processing.EncDecMultiModalProcessor]
+    ready to be passed to vLLM internals.
+    """
+
+    encoder_prompt_token_ids: list[int]
+    """The processed token IDs of the encoder prompt."""
diff --git a/multimodal/parse.py b/multimodal/parse.py
new file mode 100644
index 0000000..810f290
--- /dev/null
+++ b/multimodal/parse.py
@@ -0,0 +1,544 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections import UserDict
+from collections.abc import Callable, Iterator, Mapping, Sequence
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Generic,
+    Literal,
+    NamedTuple,
+    TypeAlias,
+    TypeGuard,
+    TypeVar,
+)
+
+import numpy as np
+import torch
+from typing_extensions import assert_never
+
+from vllm.utils.collection_utils import is_list_of
+from vllm.utils.import_utils import LazyLoader
+
+from .audio import AudioResampler
+from .inputs import (
+    AudioItem,
+    HfAudioItem,
+    HfImageItem,
+    HfVideoItem,
+    ImageItem,
+    ModalityData,
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargsItems,
+    VideoItem,
+)
+
+_T = TypeVar("_T")
+_I = TypeVar("_I")
+
+if TYPE_CHECKING:
+    import PIL.Image as PILImage
+else:
+    PILImage = LazyLoader("PILImage", globals(), "PIL.Image")
+
+
+class ModalityDataItems(ABC, Generic[_T, _I]):
+    """
+    Represents data items for a modality in
+    [`MultiModalDataItems`][vllm.multimodal.parse.MultiModalDataItems].
+    """
+
+    def __init__(self, data: _T, modality: str) -> None:
+        super().__init__()
+
+        self.data: _T = data
+        self.modality = modality
+
+    def __repr__(self) -> str:
+        return f"{type(self).__name__}(modality={self.modality!r}, len={len(self)})"
+
+    def __len__(self) -> int:
+        return self.get_count()
+
+    def __getitem__(self, index: int) -> _I:
+        return self.get(index)
+
+    if TYPE_CHECKING:
+        # Auto-generated
+        def __iter__(self) -> Iterator[_I]: ...
+
+    @abstractmethod
+    def get_count(self) -> int:
+        """Get the number of data items."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def get(self, index: int) -> _I:
+        """Get a data item by its index."""
+        raise NotImplementedError
+
+    def get_all(self) -> list[_I]:
+        """Get all data items."""
+        return [self.get(idx) for idx in range(self.get_count())]
+
+    @abstractmethod
+    def get_processor_data(self) -> Mapping[str, object]:
+        """Get the data to pass to the HF processor."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_passthrough_data(self) -> Mapping[str, object]:
+        """Get the data to pass directly to the model."""
+        raise NotImplementedError
+
+
+class ProcessorBatchItems(ModalityDataItems[Sequence[_T], _T]):
+    """Base class for data items that are arranged in a list."""
+
+    def get_count(self) -> int:
+        return len(self.data)
+
+    def get(self, index: int) -> _T:
+        return self.data[index]
+
+    def get_processor_data(self) -> Mapping[str, object]:
+        return {f"{self.modality}s": self.data}
+
+    def get_passthrough_data(self) -> Mapping[str, object]:
+        return {}
+
+
+class EmbeddingItems(
+    ModalityDataItems[torch.Tensor | list[torch.Tensor], torch.Tensor]
+):
+    """
+    Base class for data items that are expressed as a batched embedding tensor,
+    or a list of embedding tensors (one per item).
+    """
+
+    def get_count(self) -> int:
+        return len(self.data)
+
+    def get(self, index: int) -> torch.Tensor:
+        return self.data[index]
+
+    def get_processor_data(self) -> Mapping[str, object]:
+        return {}
+
+    def get_passthrough_data(self) -> Mapping[str, object]:
+        return {f"{self.modality}_embeds": self.data}
+
+    def get_feature_size(self, item_idx: int) -> int:
+        return len(self.get(item_idx))
+
+
+class DictEmbeddingItems(
+    ModalityDataItems[Mapping[str, torch.Tensor], Mapping[str, torch.Tensor]]
+):
+    """
+    Base class for data items that are expressed as a dictionary of tensors.
+
+    Usually, the dictionary keys correspond to the outputs of HF processor.
+    """
+
+    def __init__(
+        self,
+        data: Mapping[str, torch.Tensor],
+        modality: str,
+        required_fields: set[str],
+        fields_factory: Callable[
+            [Mapping[str, torch.Tensor]],
+            Mapping[str, MultiModalFieldConfig],
+        ],
+    ) -> None:
+        from transformers.feature_extraction_utils import BatchFeature
+
+        super().__init__(data, modality)
+
+        missing_required_data_keys = required_fields - data.keys()
+        if missing_required_data_keys:
+            data_keys = set(data.keys())
+            msg = (
+                f"The data should contain the fields: {required_fields}, "
+                f"but only found the following keys: {data_keys}"
+            )
+            raise ValueError(msg)
+
+        fields_config = fields_factory(data)
+        missing_required_fields = required_fields - fields_config.keys()
+        if missing_required_fields:
+            fields = set(fields_config.keys())
+            msg = f"{required_fields=} should be a subset of {fields=}"
+            raise ValueError(msg)
+
+        self.fields_config = fields_config
+        self.required_fields = required_fields
+
+        self._kwargs = MultiModalKwargsItems.from_hf_inputs(
+            BatchFeature(dict(data)),
+            fields_config,
+        )
+
+    def get_count(self) -> int:
+        return len(self._kwargs[self.modality])
+
+    def get(self, index: int) -> Mapping[str, torch.Tensor]:
+        return self._kwargs[self.modality][index].get_data()
+
+    def get_processor_data(self) -> Mapping[str, object]:
+        return {}
+
+    def get_passthrough_data(self) -> Mapping[str, object]:
+        return self.data
+
+
+class AudioProcessorItems(ProcessorBatchItems[HfAudioItem]):
+    def __init__(self, data: Sequence[HfAudioItem] | None) -> None:
+        if data is None:
+            data = [None]
+        super().__init__(data, "audio")
+
+    def get_audio_length(self, item_idx: int) -> int:
+        audio = self.get(item_idx)
+        return len(audio)
+
+
+class AudioEmbeddingItems(EmbeddingItems):
+    def __init__(self, data: torch.Tensor | list[torch.Tensor]) -> None:
+        super().__init__(data, "audio")
+
+
+class ImageSize(NamedTuple):
+    width: int
+    height: int
+
+
+class ImageProcessorItems(ProcessorBatchItems[HfImageItem]):
+    def __init__(self, data: Sequence[HfImageItem] | None) -> None:
+        if data is None:
+            data = [None]
+        super().__init__(data, "image")
+
+    def get_image_size(self, item_idx: int) -> ImageSize:
+        image = self.get(item_idx)
+
+        if isinstance(image, PILImage.Image):
+            return ImageSize(*image.size)
+        if isinstance(image, (np.ndarray, torch.Tensor)):
+            _, h, w = image.shape
+            return ImageSize(w, h)
+
+        assert_never(image)
+
+
+class ImageEmbeddingItems(EmbeddingItems):
+    def __init__(self, data: torch.Tensor | list[torch.Tensor]) -> None:
+        super().__init__(data, "image")
+
+
+class VideoProcessorItems(ProcessorBatchItems[HfVideoItem]):
+    def __init__(
+        self,
+        data: Sequence[HfVideoItem] | None,
+        metadata: dict[str, Any] | list[dict[str, Any] | None] | None = None,
+    ) -> None:
+        if data is None:
+            data = [None]
+        super().__init__(data, "video")
+        self.metadata = metadata
+
+    def get_num_frames(self, item_idx: int) -> int:
+        return len(self.get(item_idx))
+
+    def get_frame_size(self, item_idx: int) -> ImageSize:
+        image = self.get(item_idx)[0]  # Assume that the video isn't empty
+
+        if isinstance(image, PILImage.Image):
+            return ImageSize(*image.size)
+        if isinstance(image, (np.ndarray, torch.Tensor)):
+            _, h, w = image.shape
+            return ImageSize(w, h)
+
+        assert_never(image)
+
+
+class VideoEmbeddingItems(EmbeddingItems):
+    def __init__(self, data: torch.Tensor | list[torch.Tensor]) -> None:
+        super().__init__(data, "video")
+
+
+_D = TypeVar("_D", bound=ModalityDataItems[Any, Any])
+
+
+class MultiModalDataItems(UserDict[str, ModalityDataItems[Any, Any]]):
+    """
+    As [`MultiModalDataDict`][vllm.multimodal.inputs.MultiModalDataDict], but
+    normalized such that each entry corresponds to a list.
+    """
+
+    def get_count(self, modality: str, *, strict: bool = True) -> int:
+        """
+        Get the number of data items belonging to a modality.
+
+        If `strict=False`, return `0` instead of raising [`KeyError`][]
+        even if the modality is not found.
+        """
+        if modality not in self:
+            if strict:
+                available_modalities = set(self.keys())
+                raise KeyError(
+                    f"Modality {modality!r} not found. "
+                    f"Available modalities: {available_modalities}"
+                )
+
+            return 0
+
+        return self[modality].get_count()
+
+    def get_all_counts(self) -> Mapping[str, int]:
+        """Get the number of items belonging to each modality."""
+        return {m: items.get_count() for m, items in self.items()}
+
+    def get_items(
+        self,
+        modality: str,
+        typ: type[_D] | tuple[type[_D], ...],
+    ) -> _D:
+        """
+        Get the data items belonging to a modality,
+        requiring that they belong to a certain type.
+        """
+        if modality not in self:
+            available_modalities = set(self.keys())
+            raise KeyError(
+                f"Modality {modality!r} not found. "
+                f"Available modalities: {available_modalities}"
+            )
+
+        items = self[modality]
+        if not isinstance(items, typ):
+            raise TypeError(
+                f"Invalid type of data items for {modality=}. "
+                f"Expected type: {typ}, but "
+                f"found type: {type(items)}"
+            )
+
+        return items  # type: ignore[return-value]
+
+
+ModalityDataParser: TypeAlias = Callable[
+    [ModalityData[Any]], ModalityDataItems[Any, Any] | None
+]
+
+
+class MultiModalDataParser:
+    """
+    Parses [`MultiModalDataDict`][vllm.multimodal.inputs.MultiModalDataDict]
+    into [`MultiModalDataItems`][vllm.multimodal.parse.MultiModalDataItems].
+
+    Args:
+        target_sr (float, optional): Enables automatic resampling of audio
+            items to the model's expected sampling rate.
+    """
+
+    def __init__(
+        self,
+        *,
+        target_sr: float | None = None,
+        audio_resample_method: Literal["librosa", "scipy"] = "librosa",
+        video_needs_metadata: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.audio_resampler = AudioResampler(
+            target_sr=target_sr,
+            method=audio_resample_method,
+        )
+        self.video_needs_metadata = video_needs_metadata
+
+    @classmethod
+    def is_embeddings(
+        cls, data: object
+    ) -> TypeGuard[torch.Tensor | list[torch.Tensor]]:
+        if isinstance(data, torch.Tensor):
+            return data.ndim == 3
+        if is_list_of(data, torch.Tensor):
+            return data[0].ndim == 2  # type: ignore[index]
+
+        return False
+
+    def _is_empty(self, data: object) -> TypeGuard[None]:
+        if isinstance(data, list):
+            return len(data) == 0
+        if isinstance(data, (np.ndarray, torch.Tensor)):
+            return data.size == 0
+
+        return False
+
+    def _get_audio_with_sr(
+        self,
+        audio: AudioItem,
+    ) -> tuple[np.ndarray, float | None]:
+        if isinstance(audio, tuple):
+            return audio
+        if isinstance(audio, list):
+            return np.array(audio), None
+        if isinstance(audio, np.ndarray):
+            return audio, None
+        if isinstance(audio, torch.Tensor):
+            return audio.numpy(), None
+
+        assert_never(audio)
+
+    def _get_video_with_metadata(
+        self,
+        video: VideoItem,
+    ) -> tuple[np.ndarray, dict[str, Any] | None]:
+        if isinstance(video, tuple):
+            return video
+        if isinstance(video, list):
+            return np.array(video), None
+        if isinstance(video, np.ndarray):
+            return video, None
+        if isinstance(video, torch.Tensor):
+            return video.numpy(), None
+
+        assert_never(video)
+
+    def _parse_audio_data(
+        self,
+        data: ModalityData[AudioItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if data is None:
+            return AudioProcessorItems(None)
+
+        # also check single audio item with sampling rate
+        if self._is_empty(data) or (
+            isinstance(data, tuple) and self._is_empty(data[0])
+        ):
+            return None
+
+        if self.is_embeddings(data):
+            return AudioEmbeddingItems(data)
+
+        data_items: list[AudioItem]
+        if (
+            is_list_of(data, float)
+            or isinstance(data, (np.ndarray, torch.Tensor))
+            and data.ndim == 1
+            or isinstance(data, tuple)
+        ):
+            data_items = [data]
+        elif isinstance(data, (np.ndarray, torch.Tensor)):
+            data_items = [elem for elem in data]
+        else:
+            data_items = data  # type: ignore[assignment]
+
+        new_audios = list[np.ndarray]()
+        for data_item in data_items:
+            audio, orig_sr = self._get_audio_with_sr(data_item)
+            if orig_sr is None:
+                new_audio = audio
+            else:
+                new_audio = self.audio_resampler.resample(audio, orig_sr=orig_sr)
+
+            new_audios.append(new_audio)
+
+        return AudioProcessorItems(new_audios)
+
+    def _parse_image_data(
+        self,
+        data: ModalityData[ImageItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if data is None:
+            return ImageProcessorItems(None)
+
+        if self._is_empty(data):
+            return None
+
+        if self.is_embeddings(data):
+            return ImageEmbeddingItems(data)
+
+        if (
+            isinstance(data, PILImage.Image)
+            or isinstance(data, (np.ndarray, torch.Tensor))
+            and data.ndim == 3
+        ):
+            data_items = [data]
+        elif isinstance(data, (np.ndarray, torch.Tensor)):
+            data_items = [elem for elem in data]
+        else:
+            data_items = data
+
+        return ImageProcessorItems(data_items)
+
+    def _parse_video_data(
+        self,
+        data: ModalityData[VideoItem],
+    ) -> ModalityDataItems[Any, Any] | None:
+        if data is None:
+            return VideoProcessorItems(None)
+
+        if self._is_empty(data):
+            return None
+
+        if self.is_embeddings(data):
+            return VideoEmbeddingItems(data)
+
+        data_items: list[VideoItem]
+        if (
+            is_list_of(data, PILImage.Image)
+            or isinstance(data, (np.ndarray, torch.Tensor))
+            and data.ndim == 4
+        ):
+            data_items = [data]
+        elif isinstance(data, (np.ndarray, torch.Tensor)):
+            data_items = [elem for elem in data]
+        elif isinstance(data, tuple) and len(data) == 2:
+            data_items = [data]
+        else:
+            data_items = data  # type: ignore[assignment]
+
+        new_videos = list[tuple[np.ndarray, dict[str, Any] | None]]()
+        metadata_lst: list[dict[str, Any] | None] = []
+        for data_item in data_items:
+            video, metadata = self._get_video_with_metadata(data_item)
+            if self.video_needs_metadata:
+                if metadata is None:
+                    raise ValueError(
+                        "Video metadata is required but not found in mm input. "
+                        "Please check your video input in `multi_modal_data`"
+                    )
+                new_videos.append((video, metadata))
+                metadata_lst.append(metadata)
+            else:
+                new_videos.append(video)
+
+        if not self.video_needs_metadata:
+            metadata = None
+
+        return VideoProcessorItems(new_videos, metadata=metadata_lst)
+
+    def _get_subparsers(self) -> Mapping[str, ModalityDataParser]:
+        return {
+            "audio": self._parse_audio_data,
+            "image": self._parse_image_data,
+            "video": self._parse_video_data,
+        }
+
+    def parse_mm_data(self, mm_data: MultiModalDataDict) -> MultiModalDataItems:
+        subparsers = self._get_subparsers()
+
+        mm_items = MultiModalDataItems()
+        for k, v in mm_data.items():
+            if k not in subparsers:
+                raise ValueError(f"Unsupported modality: {k}")
+
+            # ignore empty embedding data
+            if (parsed_data := subparsers[k](v)) is not None:
+                mm_items[k] = parsed_data
+
+        return mm_items
diff --git a/multimodal/processing.py b/multimodal/processing.py
new file mode 100644
index 0000000..85a03ef
--- /dev/null
+++ b/multimodal/processing.py
@@ -0,0 +1,2186 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import time
+from abc import ABC, abstractmethod
+from collections import defaultdict
+from collections.abc import Callable, Generator, ItemsView, Iterable, Mapping, Sequence
+from dataclasses import dataclass, field, replace
+from enum import Enum
+from functools import lru_cache
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Generic,
+    NamedTuple,
+    Protocol,
+    TypeAlias,
+    cast,
+    overload,
+)
+
+import regex as re
+import torch
+from typing_extensions import TypeVar, assert_never
+
+from vllm.logger import init_logger
+from vllm.transformers_utils.processor import cached_processor_from_config
+from vllm.transformers_utils.tokenizer import AnyTokenizer, decode_tokens, encode_tokens
+from vllm.utils.collection_utils import flatten_2d_lists, full_groupby
+from vllm.utils.func_utils import get_allowed_kwarg_only_overrides
+from vllm.utils.jsontree import JSONTree, json_map_leaves
+
+from .hasher import MultiModalHasher
+from .inputs import (
+    MultiModalDataDict,
+    MultiModalEncDecInputs,
+    MultiModalFieldConfig,
+    MultiModalInputs,
+    MultiModalKwargsItem,
+    MultiModalKwargsItems,
+    MultiModalKwargsOptionalItems,
+    MultiModalUUIDDict,
+    PlaceholderRange,
+)
+from .parse import (
+    DictEmbeddingItems,
+    EmbeddingItems,
+    MultiModalDataItems,
+    MultiModalDataParser,
+)
+
+if TYPE_CHECKING:
+    from transformers.configuration_utils import PretrainedConfig
+    from transformers.feature_extraction_utils import BatchFeature
+    from transformers.processing_utils import ProcessorMixin
+
+    from vllm.config import ModelConfig
+
+    from .cache import BaseMultiModalProcessorCache
+    from .profiling import BaseDummyInputsBuilder
+else:
+    PretrainedConfig = object
+    BatchFeature = object
+    ProcessorMixin = object
+
+    ModelConfig = object
+
+    BaseMultiModalProcessorCache = object
+
+logger = init_logger(__name__)
+
+_S = TypeVar("_S", str, list[int])
+
+PromptSeq: TypeAlias = str | list[int]
+"""A token sequence (list of token IDs) or text."""
+
+
+@lru_cache(maxsize=2048)
+def _cached_encode(
+    tokenizer: AnyTokenizer,
+    text: str,
+    *,
+    add_special_tokens: bool | None = None,
+) -> list[int]:
+    return encode_tokens(tokenizer, text, add_special_tokens=add_special_tokens)
+
+
+@lru_cache(maxsize=2048)
+def _cached_decode(
+    tokenizer: AnyTokenizer,
+    token_ids: tuple[int, ...],
+    *,
+    skip_special_tokens: bool | None = None,
+) -> str:
+    return decode_tokens(
+        tokenizer, list(token_ids), skip_special_tokens=skip_special_tokens
+    )
+
+
+def _seq2text(tokenizer: AnyTokenizer, seq: PromptSeq) -> str:
+    if isinstance(seq, str):
+        return seq
+
+    return _cached_decode(tokenizer, tuple(seq))
+
+
+def _seq2tokens(tokenizer: AnyTokenizer, seq: PromptSeq) -> list[int]:
+    if isinstance(seq, str):
+        return _cached_encode(tokenizer, seq, add_special_tokens=False)
+
+    return seq
+
+
+class _GetMatchIndex(Protocol):
+    def __call__(
+        self,
+        tokenizer: AnyTokenizer,
+        prompt: PromptSeq,
+        start_idx: int = 0,
+    ) -> int | None: ...
+
+
+@dataclass
+class PromptIndex:
+    """Resolves to an index in the prompt."""
+
+    get_match_index: _GetMatchIndex
+
+
+class PromptIndexTargets:
+    @staticmethod
+    def start() -> PromptIndex:
+        """
+        Resolves to the start of the prompt (before the first token).
+
+        This results in a match even if the prompt is empty.
+        """
+        return PromptIndex(lambda tokenizer, prompt, start_idx=0: 0)
+
+    @staticmethod
+    def prefix(seq: PromptSeq) -> PromptIndex:
+        """
+        Resolves to a location in the prompt after the given prefix.
+        """
+
+        def get_match_index(
+            tokenizer: AnyTokenizer,
+            prompt: PromptSeq,
+            start_idx: int = 0,
+        ) -> int | None:
+            if start_idx != 0:
+                return None
+
+            prefix = seq
+
+            if isinstance(prompt, str):
+                if not isinstance(prefix, str):
+                    # Make both `str`
+                    prefix = decode_tokens(tokenizer, prefix)
+            else:
+                if isinstance(prefix, str):
+                    # Make both `list[int]`
+                    prefix = encode_tokens(tokenizer, prefix, add_special_tokens=False)
+
+            match_idx = len(prefix)
+            return match_idx if prompt[:match_idx] == prefix else None
+
+        return PromptIndex(get_match_index)
+
+    @staticmethod
+    def end() -> PromptIndex:
+        """
+        Resolves to the end of the prompt (after the last token).
+
+        This results in a match even if the prompt is empty.
+        """
+        return PromptIndex(lambda tokenizer, prompt, start_idx=0: len(prompt))
+
+
+UpdateTarget: TypeAlias = PromptSeq | PromptIndex
+"""
+The token sequence or text to update.
+"""
+
+PromptUpdateTarget: TypeAlias = Callable[[int], UpdateTarget] | UpdateTarget
+"""
+Given the index of the processed item within
+[`modality`][vllm.multimodal.processing.PromptUpdate.modality],
+output the corresponding token sequence (or text).
+
+For convenience, you can directly pass in the token sequence (or text)
+instead of a function if it does not depend on the input.
+"""
+
+
+@dataclass
+class PromptUpdateDetails(Generic[_S]):
+    """Details about the token sequence or text that are part of the update."""
+
+    full: _S
+    """The full content."""
+
+    is_embed: Callable[[AnyTokenizer, PromptSeq], torch.Tensor] | None = None
+    """
+    Given [`full`][vllm.multimodal.processing.PromptUpdateDetails.full],
+    return a boolean mask of shape `(len(full),)` indicating which positions
+    of `full` to assign embeddings to.
+
+    `None` (default) means to assign embeddings to all positions of `full`.
+
+    The embeddings are obtained by calling
+    [`SupportsMultiModal.embed_multimodal`][vllm.model_executor.models.interfaces.SupportsMultiModal.embed_multimodal].
+    """
+
+    @staticmethod
+    def from_seq(seq: _S) -> "PromptUpdateDetails[_S]":
+        return PromptUpdateDetails(full=seq)
+
+    @staticmethod
+    def select_text(
+        seq: _S,
+        embed_text: str,
+    ) -> "PromptUpdateDetails[_S]":
+        def is_embed(tokenizer: AnyTokenizer, full: PromptSeq) -> torch.Tensor:
+            embed_token_ids = encode_tokens(tokenizer, embed_text)
+            token_ids = _seq2tokens(tokenizer, full)
+
+            return torch.isin(
+                torch.tensor(token_ids),
+                torch.tensor(embed_token_ids),
+            )
+
+        return PromptUpdateDetails(full=seq, is_embed=is_embed)
+
+    @staticmethod
+    def select_token_id(
+        seq: _S,
+        embed_token_id: int,
+    ) -> "PromptUpdateDetails[_S]":
+        def is_embed(tokenizer: AnyTokenizer, full: PromptSeq) -> torch.Tensor:
+            token_ids = _seq2tokens(tokenizer, full)
+
+            return torch.tensor(token_ids) == embed_token_id
+
+        return PromptUpdateDetails(full=seq, is_embed=is_embed)
+
+
+PromptUpdateInfo: TypeAlias = PromptSeq | PromptUpdateDetails
+"""
+The token sequence or text that are part of the update.
+
+If only part of the content corresponds to feature placeholders, you can
+use [`PromptUpdateDetails`][vllm.multimodal.processing.PromptUpdateDetails] to
+specify which part.
+"""
+
+PromptUpdateContent: TypeAlias = Callable[[int], PromptUpdateInfo] | PromptUpdateInfo
+"""
+Given the index of the processed item within
+[`modality`][vllm.multimodal.processing.PromptUpdate.modality],
+output the corresponding token sequence (or text).
+
+For convenience, you can directly pass in the token sequence (or text)
+instead of a function if it does not depend on the input.
+"""
+
+
+class UpdateMode(str, Enum):
+    INSERT = "insert"
+    REPLACE = "replace"
+
+
+@dataclass
+class PromptUpdate(ABC):
+    """
+    Defines how to update a prompt with placeholder tokens.
+    """
+
+    modality: str
+    """The modality for which the update is made."""
+
+    target: PromptUpdateTarget
+    """The token sequence (or text) to update."""
+
+    @property
+    @abstractmethod
+    def content(self) -> PromptUpdateContent:
+        """The placeholder tokens that are part of the update."""
+        raise NotImplementedError
+
+    @property
+    @abstractmethod
+    def mode(self) -> UpdateMode:
+        """Defines how to update the prompt."""
+        raise NotImplementedError
+
+    def _resolve_target(self, item_idx: int) -> UpdateTarget:
+        target = self.target
+        if callable(target):
+            target = target(item_idx)
+
+        return target
+
+    def _resolve_content(self, item_idx: int) -> PromptUpdateDetails:
+        content = self.content
+        if callable(content):
+            content = content(item_idx)
+
+        if not isinstance(content, PromptUpdateDetails):
+            content = PromptUpdateDetails.from_seq(content)
+
+        return content
+
+    def resolve(self, item_idx: int) -> "ResolvedPromptUpdate":
+        """
+        Given the index of the processed item within
+        [`modality`][vllm.multimodal.processing.PromptUpdate.modality],
+        output a copy of this object with its lazy attributes resolved.
+        """
+        return ResolvedPromptUpdate(
+            modality=self.modality,
+            item_idx=item_idx,
+            mode=self.mode,
+            target=self._resolve_target(item_idx),
+            content=self._resolve_content(item_idx),
+        )
+
+
+@dataclass
+class PromptInsertion(PromptUpdate):
+    """
+    Defines how to insert placeholder tokens into a prompt.
+
+    Example:
+
+    For each image, insert a number of `<image>` feature placeholders
+    equal to the feature size of the vision encoder after the `<s>` token:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target="<s>",
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens at the start of the prompt:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.start(),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens after a prefix `Images:`:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.prefix("Images:"),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens at the end of the prompt:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.end(),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+    """
+
+    insertion: PromptUpdateContent = field(repr=False)
+    """
+    Given the index of the processed item within
+    [`modality`][vllm.multimodal.processing.PromptUpdate.modality],
+    output the token sequence (or text) to insert right after
+    [`target`][vllm.multimodal.processing.PromptUpdate.target].
+
+    For convenience, you can directly pass in the token sequence (or text)
+    instead of a function if it does not depend on the input.
+    """
+
+    @property
+    def content(self) -> PromptUpdateContent:
+        return self.insertion
+
+    @property
+    def mode(self) -> UpdateMode:
+        return UpdateMode.INSERT
+
+
+@dataclass
+class PromptReplacement(PromptUpdate):
+    """
+    Defines how to replace portions of an input prompt with placeholder tokens.
+
+    Example:
+
+    For each image, replace one `<image>` input placeholder in the prompt
+    with a number of `<image>` feature placeholders
+    equal to the feature size of the vision encoder:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target="<image>",
+        replacement="<image>" * image_feature_size,
+    )
+    ```
+
+    As above, but further pad the feature placeholders with `<image_bos>`
+    and `<image_eos>`, which are not supposed to be passed to the vision
+    encoder:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target="<image>",
+        replacement=PromptUpdateDetails(
+            full="".join(
+                [
+                    "<image_bos>",
+                    "<image>" * image_feature_size,
+                    "<image_eos>",
+                ]
+            ),
+            features="<image>" * image_feature_size,
+        ),
+    )
+    ```
+
+    To avoid unnecessary tokenization during prompt replacement,
+    we recommended passing token sequences instead of text:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target=[image_token_id],
+        replacement=PromptUpdateDetails(
+            full=(
+                [image_bos_id] + [image_token_id] * image_feature_size + [image_eos_id]
+            ),
+            features=[image_token_id] * image_feature_size,
+        ),
+    )
+    ```
+    """
+
+    replacement: PromptUpdateContent = field(repr=False)
+    """
+    Given the index of the processed item within
+    [`modality`][vllm.multimodal.processing.PromptUpdate.modality],
+    output the token sequence (or text) to replace
+    [`target`][vllm.multimodal.processing.PromptUpdate.target].
+
+    For convenience, you can directly pass in the token sequence (or text)
+    instead of a function if it does not depend on the input.
+    """
+
+    @property
+    def content(self) -> PromptUpdateContent:
+        return self.replacement
+
+    @property
+    def mode(self) -> UpdateMode:
+        return UpdateMode.REPLACE
+
+
+class _HasModalityAttr(Protocol):
+    modality: str
+
+
+class _HasModalityProp(Protocol):
+    @property
+    def modality(self) -> str: ...
+
+
+_M = TypeVar("_M", bound=_HasModalityAttr | _HasModalityProp)
+
+
+def full_groupby_modality(values: Iterable[_M]) -> ItemsView[str, list[_M]]:
+    """
+    Convenience function to apply
+    [`full_groupby`][vllm.utils.collection_utils.full_groupby]
+    based on modality.
+    """
+    return full_groupby(values, key=lambda x: x.modality)
+
+
+class PromptTargetMatch(NamedTuple):
+    start_idx: int
+    end_idx: int
+
+
+@dataclass(frozen=True)
+class ResolvedPromptUpdate:
+    """
+    A [`PromptUpdate`][vllm.multimodal.processing.PromptUpdate] with its
+    lazy attributes resolved, apart from those related to tokenization.
+    """
+
+    modality: str
+    """The modality for which the update is made."""
+
+    item_idx: int
+    """The index within `modality` of the item this update pertains to."""
+
+    mode: UpdateMode
+    """Defines how to update the prompt."""
+
+    target: UpdateTarget
+    """The token sequence (or text) to update."""
+
+    content: PromptUpdateDetails = field(repr=False)
+    """The placeholder tokens that are part of the update."""
+
+    def iter_token_matches(
+        self,
+        prompt: list[int],
+        tokenizer: AnyTokenizer,
+        *,
+        start_idx: int = 0,
+    ) -> Generator[PromptTargetMatch]:
+        """Yield each instance of `self.target` found in `prompt`."""
+        target = self.target
+
+        if isinstance(target, PromptIndex):
+            match_idx = target.get_match_index(tokenizer, prompt, start_idx)
+            if match_idx is not None:
+                yield PromptTargetMatch(match_idx, match_idx)
+
+            return
+
+        target_token_ids = _seq2tokens(tokenizer, target)
+
+        for match in iter_token_matches(prompt, target_token_ids, start_idx=start_idx):
+            yield PromptTargetMatch(match.start_idx, match.end_idx)
+
+    def iter_text_matches(
+        self,
+        prompt: str,
+        tokenizer: AnyTokenizer,
+        *,
+        start_idx: int = 0,
+    ) -> Generator[PromptTargetMatch]:
+        """Yield each instance of `self.target` found in `prompt`."""
+        target = self.target
+
+        if isinstance(target, PromptIndex):
+            match_idx = target.get_match_index(tokenizer, prompt, start_idx)
+            if match_idx is not None:
+                yield PromptTargetMatch(match_idx, match_idx)
+
+            return
+
+        target_text = _seq2text(tokenizer, target)
+
+        for match in re.finditer(re.escape(target_text), prompt, pos=start_idx):
+            yield PromptTargetMatch(match.start(), match.end())
+
+    def iter_matches(
+        self,
+        prompt: list[int] | str,
+        tokenizer: AnyTokenizer,
+        *,
+        start_idx: int = 0,
+    ) -> Generator[PromptTargetMatch]:
+        """Yield each instance of `self.target` found in `prompt`."""
+        if isinstance(prompt, str):
+            return self.iter_text_matches(prompt, tokenizer, start_idx=start_idx)
+
+        return self.iter_token_matches(prompt, tokenizer, start_idx=start_idx)
+
+    def with_target(self, target: UpdateTarget):
+        return replace(self, target=target)
+
+    def with_content(self, content: PromptUpdateInfo):
+        if not isinstance(content, PromptUpdateDetails):
+            content = PromptUpdateDetails.from_seq(content)
+
+        return replace(self, content=content)
+
+
+class _TokenMatch(NamedTuple):
+    start_idx: int
+    end_idx: int
+
+
+def iter_token_matches(
+    token_ids: list[int],
+    match_ids: list[int],
+    *,
+    start_idx: int = 0,
+) -> Generator[_TokenMatch]:
+    """
+    Yield each occurrence of `match_ids` in `token_ids`.
+
+    Note that empty matches are ignored.
+    """
+    prompt_len = len(token_ids)
+    match_len = len(match_ids)
+
+    if match_len == 0:
+        return
+
+    while start_idx < prompt_len - match_len + 1:
+        end_idx = start_idx + match_len
+
+        if token_ids[start_idx:end_idx] == match_ids:
+            yield _TokenMatch(start_idx=start_idx, end_idx=end_idx)
+
+            # Exclude overlapping matches
+            start_idx = end_idx
+        else:
+            start_idx += 1
+
+
+def replace_token_matches(
+    token_ids: list[int],
+    match_ids: list[int],
+    new_ids: list[int],
+) -> list[int]:
+    """
+    Replace each occurrence of `match_ids` in `token_ids`
+    with `new_ids`.
+
+    Note that empty matches are ignored.
+    """
+    out_seqs = list[list[int]]()
+    prev_end_idx = 0
+
+    for match in iter_token_matches(token_ids, match_ids):
+        start_idx = match.start_idx
+        end_idx = match.end_idx
+
+        out_seqs.append(token_ids[prev_end_idx:start_idx])
+        out_seqs.append(new_ids)
+        prev_end_idx = end_idx
+
+    out_seqs.append(token_ids[prev_end_idx:])
+
+    return flatten_2d_lists(out_seqs)
+
+
+@dataclass
+class PlaceholderFeaturesInfo:
+    modality: str
+    item_idx: int
+    start_idx: int
+    tokens: list[int]
+    is_embed: torch.Tensor | None
+
+    @property
+    def length(self) -> int:
+        return len(self.tokens)
+
+    def to_range(self) -> PlaceholderRange:
+        # TODO: Is it worth it to optimize this by stripping the
+        # leading and ending positions where `is_embed=False`?
+        return PlaceholderRange(
+            offset=self.start_idx,
+            length=self.length,
+            is_embed=self.is_embed,
+        )
+
+
+_MatchToApply = tuple[tuple[str, int], tuple[PromptTargetMatch, int]]
+
+
+def _find_matches(
+    prompt: _S,
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+    *,
+    prev_end_idx: int = 0,
+    current_result: "MultiModalPromptUpdatesApplyResult",
+) -> tuple[UpdateMode | None, list[_MatchToApply]]:
+    mode: UpdateMode | None = None
+    mm_matches = dict[tuple[str, int], tuple[PromptTargetMatch, int]]()
+
+    for modality, modality_updates in mm_prompt_updates.items():
+        for item_idx, item_updates in enumerate(modality_updates):
+            if current_result[modality][item_idx] is not None:
+                continue  # Updates have already been applied for this item
+
+            for update_idx, update in enumerate(item_updates):
+                if (modality, item_idx) in mm_matches:
+                    break  # Already found a match for this item
+
+                for match in update.iter_matches(
+                    prompt,
+                    tokenizer,
+                    start_idx=prev_end_idx,
+                ):
+                    # All matches should share the same mode
+                    if mode is None:
+                        mode = update.mode
+                    elif mode != update.mode:
+                        continue
+
+                    mm_matches[(modality, item_idx)] = match, update_idx
+                    break  # Get only the first valid match per item
+
+    # Prioritize earlier matches
+    matches_to_apply = sorted(mm_matches.items(), key=lambda item: item[1][0])
+
+    # To avoid conflicts, only replace one non-empty item at a time
+    if mode == UpdateMode.REPLACE:
+        matches_to_apply_ = list[_MatchToApply]()
+        has_non_empty_matches = False
+
+        for item in matches_to_apply:
+            _, (match, _) = item
+            if match.start_idx == match.end_idx:
+                matches_to_apply_.append(item)
+            elif not has_non_empty_matches:
+                has_non_empty_matches = True
+                matches_to_apply_.append(item)
+
+        matches_to_apply = matches_to_apply_
+
+    return mode, matches_to_apply
+
+
+def _apply_matches(
+    prompt: _S,
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+) -> tuple[list[_S], "MultiModalPromptUpdatesApplyResult"]:
+    prompt_len = len(prompt)
+
+    out_seqs = list[str | list[int]]()
+    out_result: MultiModalPromptUpdatesApplyResult = {
+        m: [None] * len(items) for m, items in mm_prompt_updates.items()
+    }
+
+    start_idx = prev_end_idx = 0
+    while start_idx < max(prompt_len, 1):  # Allow inserts into empty prompt
+        found = False
+
+        mode, matches_to_apply = _find_matches(
+            prompt,
+            mm_prompt_updates,
+            tokenizer,
+            prev_end_idx=prev_end_idx,
+            current_result=out_result,
+        )
+
+        if mode is not None:
+            for (modality, item_idx), (match, update_idx) in matches_to_apply:
+                found = True
+
+                matched_update = mm_prompt_updates[modality][item_idx][update_idx]
+                matched_content = matched_update.content.full
+
+                if mode == UpdateMode.INSERT:
+                    end_idx_to_insert = match.end_idx
+                elif mode == UpdateMode.REPLACE:
+                    end_idx_to_insert = match.start_idx
+                else:
+                    assert_never(mode)
+
+                out_seqs.append(prompt[prev_end_idx:end_idx_to_insert])
+                out_seqs.append(
+                    _seq2text(tokenizer, matched_content)
+                    if isinstance(prompt, str)
+                    else _seq2tokens(tokenizer, matched_content)
+                )
+                out_result[modality][item_idx] = update_idx
+
+                # Exclude overlapping matches
+                start_idx = prev_end_idx = match.end_idx
+
+        if not found:
+            start_idx += 1
+
+    out_seqs.append(prompt[prev_end_idx:])
+
+    return cast(list[_S], out_seqs), out_result
+
+
+def apply_token_matches(
+    prompt: list[int],
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+) -> tuple[list[int], "MultiModalPromptUpdatesApplyResult"]:
+    """
+    Apply the updates in `mm_prompt_updates` to `prompt`.
+
+    Matches are exclusive even when multiple modalities share
+    the same placeholder tokens. In that case, the modality that
+    appears earlier in `mm_prompt_updates` takes priority.
+    """
+    token_id_seqs, result = _apply_matches(prompt, mm_prompt_updates, tokenizer)
+
+    return flatten_2d_lists(token_id_seqs), result
+
+
+def apply_text_matches(
+    prompt: str,
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+) -> tuple[str, "MultiModalPromptUpdatesApplyResult"]:
+    """
+    Apply the updates in `mm_prompt_updates` to `prompt`.
+
+    Matches are exclusive even when multiple modalities share
+    the same placeholder tokens. In that case, the modality that
+    appears earlier in `mm_prompt_updates` takes priority.
+    """
+    texts, result = _apply_matches(prompt, mm_prompt_updates, tokenizer)
+
+    return "".join(texts), result
+
+
+def _iter_placeholders(
+    prompt: list[int],
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+) -> Iterable[PlaceholderFeaturesInfo]:
+    """
+    Yield each set of placeholder tokens found in `prompt`.
+
+    Matches are exclusive even when multiple modalities share
+    the same placeholder tokens. In that case, the modality that
+    appears earlier in `mm_prompt_updates` takes priority.
+
+    Note that empty matches are ignored.
+    """
+    prompt_len = len(prompt)
+    mm_item_counts = {m: len(items) for m, items in mm_prompt_updates.items()}
+
+    item_idx_by_modality = defaultdict[str, int](lambda: 0)
+
+    start_idx = 0
+    while start_idx < prompt_len:
+        found = False
+
+        for modality, modality_updates in mm_prompt_updates.items():
+            item_idx = item_idx_by_modality[modality]
+            if item_idx >= mm_item_counts.get(modality, 0):
+                continue
+
+            for update in modality_updates[item_idx]:
+                content = update.content
+                content_tokens_full = _seq2tokens(tokenizer, content.full)
+                content_len_full = len(content_tokens_full)
+                end_idx_full = start_idx + content_len_full
+
+                if content_len_full == 0 or end_idx_full > prompt_len:
+                    continue
+
+                if prompt[start_idx:end_idx_full] == content_tokens_full:
+                    content_is_embed = content.is_embed
+                    if content_is_embed is not None:
+                        content_is_embed = content_is_embed(tokenizer, content.full)
+
+                    yield PlaceholderFeaturesInfo(
+                        modality=modality,
+                        item_idx=item_idx,
+                        start_idx=start_idx,
+                        tokens=content_tokens_full,
+                        is_embed=content_is_embed,
+                    )
+
+                    # Exclude overlapping matches
+                    start_idx = end_idx_full
+                    item_idx_by_modality[modality] += 1
+                    found = True
+                    break
+
+            if found:
+                break  # Go back to the outer while loop
+
+        if not found:
+            start_idx += 1
+
+
+def find_mm_placeholders(
+    prompt: list[int],
+    mm_prompt_updates: "MultiModalPromptUpdates",
+    tokenizer: AnyTokenizer,
+) -> Mapping[str, list[PlaceholderFeaturesInfo]]:
+    it = _iter_placeholders(prompt, mm_prompt_updates, tokenizer)
+    return dict(full_groupby_modality(it))
+
+
+_T = TypeVar("_T")
+_C = TypeVar("_C", bound=PretrainedConfig, default=PretrainedConfig)
+_P = TypeVar("_P", bound=ProcessorMixin, default=ProcessorMixin)
+
+
+@dataclass(frozen=True)
+class InputProcessingContext:
+    """
+    Contains information about the model which may be used to
+    modify the inputs.
+    """
+
+    model_config: ModelConfig
+    """The configuration of the model."""
+
+    tokenizer: AnyTokenizer
+    """The tokenizer used to tokenize the inputs."""
+
+    @overload
+    def get_hf_config(self, /) -> PretrainedConfig: ...
+
+    @overload
+    def get_hf_config(
+        self,
+        typ: type[_C] | tuple[type[_C], ...],
+        /,
+    ) -> _C: ...
+
+    def get_hf_config(
+        self,
+        typ: type[Any] | tuple[type[Any], ...] | None = None,
+        /,
+    ) -> Any:
+        """
+        Get the HuggingFace configuration
+        (`transformers.PretrainedConfig`) of the model,
+        additionally checking its type.
+
+        Raises:
+            TypeError: If the configuration is not of the specified type.
+        """
+        if typ is None:
+            from transformers.configuration_utils import PretrainedConfig
+
+            typ = PretrainedConfig
+
+        hf_config = self.model_config.hf_config
+        if not isinstance(hf_config, typ):
+            raise TypeError(
+                "Invalid type of HuggingFace config. "
+                f"Expected type: {typ}, but "
+                f"found type: {type(hf_config)}"
+            )
+
+        return hf_config
+
+    def get_hf_image_processor_config(self) -> dict[str, Any]:
+        """
+        Get the HuggingFace image processor configuration of the model.
+        """
+        return self.model_config.hf_image_processor_config
+
+    def get_mm_config(self):
+        """
+        Get the multimodal config of the model.
+
+        Raises:
+            RuntimeError: If the model is not a multimodal model.
+        """
+        mm_config = self.model_config.multimodal_config
+        if mm_config is None:
+            raise RuntimeError("Not a multimodal model")
+
+        return mm_config
+
+    @overload
+    def get_hf_processor(self, /, **kwargs: object) -> ProcessorMixin: ...
+
+    @overload
+    def get_hf_processor(
+        self,
+        typ: type[_P] | tuple[type[_P], ...],
+        /,
+        **kwargs: object,
+    ) -> _P: ...
+
+    def get_hf_processor(
+        self,
+        typ: type[Any] | tuple[type[Any], ...] | None = None,
+        /,
+        **kwargs: object,
+    ) -> Any:
+        """
+        Get the HuggingFace processor
+        (`transformers.ProcessorMixin`) of the model,
+        additionally checking its type.
+
+        Raises:
+            TypeError: If the processor is not of the specified type.
+        """
+        if typ is None:
+            from transformers.processing_utils import ProcessorMixin
+
+            typ = ProcessorMixin
+
+        return cached_processor_from_config(
+            self.model_config,
+            processor_cls=typ,
+            tokenizer=self.tokenizer,
+            **kwargs,
+        )
+
+    def init_processor(
+        self,
+        typ: type[_T],
+        /,
+        **kwargs: object,
+    ) -> _T:
+        """
+        Initialize a HuggingFace-like processor class, merging the
+        keyword arguments with those in the model's configuration.
+        """
+        mm_config = self.model_config.get_multimodal_config()
+        base_kwargs = mm_config.mm_processor_kwargs
+        if base_kwargs is None:
+            base_kwargs = {}
+
+        merged_kwargs = {**base_kwargs, **kwargs}
+
+        return typ(**merged_kwargs)
+
+    def _postprocess_output(
+        self,
+        output: JSONTree,
+    ) -> JSONTree:
+        def _postprocess_one(x: object):
+            if isinstance(x, torch.Tensor):  # noqa: SIM102
+                # This mimics the behavior of transformers.BatchFeature
+                if x.is_floating_point():
+                    x = x.to(dtype=self.model_config.dtype)
+
+            return x
+
+        return json_map_leaves(_postprocess_one, output)
+
+    def call_hf_processor(
+        self,
+        hf_processor: ProcessorMixin,
+        data: Mapping[str, object],
+        kwargs: Mapping[str, object] = {},
+        *,
+        num_tries: int = 1,
+        max_tries: int = 5,
+    ) -> BatchFeature | JSONTree:
+        """
+        Call `hf_processor` on the prompt `data`
+        (text, image, audio...) with configurable options `kwargs`.
+        """
+        assert callable(hf_processor)
+
+        mm_config = self.model_config.get_multimodal_config()
+        merged_kwargs = mm_config.merge_mm_processor_kwargs(kwargs)
+
+        allowed_kwargs = get_allowed_kwarg_only_overrides(
+            hf_processor,
+            merged_kwargs,
+            requires_kw_only=False,
+            allow_var_kwargs=True,
+        )
+
+        try:
+            output = hf_processor(**data, **allowed_kwargs, return_tensors="pt")
+        except Exception as exc:
+            # See https://github.com/huggingface/tokenizers/issues/537
+            if (
+                isinstance(exc, RuntimeError)
+                and exc
+                and exc.args[0] == "Already borrowed"
+                and num_tries < max_tries
+            ):
+                logger.warning(
+                    "Failed to acquire tokenizer in current thread. "
+                    "Retrying (%d/%d)...",
+                    num_tries,
+                    max_tries,
+                )
+                time.sleep(0.5)
+                return self.call_hf_processor(
+                    hf_processor,
+                    data,
+                    kwargs,
+                    num_tries=num_tries + 1,
+                    max_tries=max_tries,
+                )
+
+            msg = (
+                f"Failed to apply {type(hf_processor).__name__} "
+                f"on data={data} with kwargs={allowed_kwargs}"
+            )
+
+            raise ValueError(msg) from exc
+
+        # this emulates output.to(dtype=self.model_config.dtype)
+        from transformers.feature_extraction_utils import BatchFeature
+
+        if isinstance(output, BatchFeature):
+            output_ = self._postprocess_output(output.data)
+            return BatchFeature(output_)
+
+        logger.warning_once(
+            "%s did not return `BatchFeature`. "
+            "Make sure to match the behaviour of `ProcessorMixin` when "
+            "implementing custom processors.",
+            type(hf_processor).__name__,
+        )
+
+        return self._postprocess_output(output)
+
+
+class BaseProcessingInfo:
+    """Base class to provide the information necessary for data processing."""
+
+    def __init__(self, ctx: InputProcessingContext) -> None:
+        super().__init__()
+
+        self.ctx = ctx
+
+    @property
+    def model_id(self) -> str:
+        return self.ctx.model_config.model
+
+    def get_tokenizer(self) -> AnyTokenizer:
+        return self.ctx.tokenizer
+
+    def get_hf_config(self) -> PretrainedConfig:
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object) -> ProcessorMixin:
+        """
+        Subclasses can override this method to handle
+        specific kwargs from model config or user inputs.
+        """
+        return self.ctx.get_hf_processor(**kwargs)
+
+    @abstractmethod
+    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
+        """
+        Return the maximum supported number of items for each modality.
+
+        A value of `None` means unlimited number of items.
+
+        Omitting a modality from the returned dictionary means that
+        it is not supported at all.
+        """
+        raise NotImplementedError
+
+    def get_allowed_mm_limits(self) -> Mapping[str, int]:
+        """Return the maximum allowed number of items for each modality."""
+        supported_mm_limits = self.get_supported_mm_limits()
+        mm_config = self.ctx.get_mm_config()
+
+        allowed_limits = dict[str, int]()
+        for modality, supported_limit in supported_mm_limits.items():
+            user_limit = mm_config.get_limit_per_prompt(modality)
+
+            allowed_limits[modality] = (
+                user_limit
+                if supported_limit is None
+                else min(user_limit, supported_limit)
+            )
+
+        return allowed_limits
+
+    def get_mm_max_tokens_per_item(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> Mapping[str, int] | None:
+        """
+        Return the maximum number of tokens per item of for each modality.
+
+        When `None` (the default) is returned, vLLM will generate dummy inputs
+        (images/videos) at maximum possible sizes and process them to determine
+        the maximum token count per modality.
+
+        This approach works but can be very slow for certain models (e.g.,
+        Qwen2.5-VL), leading to very long startup time. For better performance,
+        each model can override this method to return pre-computed maximum token
+        counts, avoiding the need for dummy input generation and processing.
+
+        Note:
+            The maximum number of tokens per item of each modality returned
+            from this function should respect the model's maximum sequence
+            length and the maximum number of items of each modality allowed,
+            and agree with dummy inputs (images/videos) at maximum possible
+            sizes.
+        """
+        return None
+
+
+_I = TypeVar("_I", bound=BaseProcessingInfo)
+
+MultiModalHashes = dict[str, list[str]]
+"""
+A collection of hashes with a similar structure as
+[`MultiModalKwargsItems`][vllm.multimodal.inputs.MultiModalKwargsItems].
+"""
+
+MultiModalPromptUpdates = Mapping[str, list[Sequence[ResolvedPromptUpdate]]]
+"""
+A collection of prompt updates with a similar structure as
+[`MultiModalKwargsItems`][vllm.multimodal.inputs.MultiModalKwargsItems].
+"""
+
+MultiModalPromptUpdatesApplyResult = Mapping[str, list[int | None]]
+"""
+For an item `MultiModalPromptUpdates[k][i]`,
+`MultiModalPromptUpdatesApplyResult[k][i]` represents the index of the
+`ResolvedPromptUpdate` instance that has been applied, or `None` if none of the
+`ResolvedPromptUpdate` instances have been applied.
+"""
+
+
+class MultiModalProcessingInfo(NamedTuple):
+    kwargs: MultiModalKwargsOptionalItems
+    hashes: MultiModalHashes
+    prompt_updates: MultiModalPromptUpdates
+
+
+class BaseMultiModalProcessor(ABC, Generic[_I]):
+    """
+    Abstract base class to process multi-modal inputs to be used in vLLM.
+
+    Not to be confused with `transformers.ProcessorMixin`.
+    """
+
+    def __init__(
+        self,
+        info: _I,
+        dummy_inputs: "BaseDummyInputsBuilder[_I]",
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.info = info
+        self.dummy_inputs = dummy_inputs
+        self.cache = cache
+
+        self.data_parser = self._get_data_parser()
+
+        # Avoid unnecessary recomputation
+        self._supported_mm_limits = self.info.get_supported_mm_limits()
+        self._allowed_mm_limits = self.info.get_allowed_mm_limits()
+
+    @property
+    def supported_mm_limits(self):
+        return self._supported_mm_limits
+
+    @property
+    def allowed_mm_limits(self):
+        return self._allowed_mm_limits
+
+    def __call__(
+        self,
+        prompt: str,
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        return self.apply(prompt, mm_data, hf_processor_mm_kwargs, mm_uuids=mm_uuids)
+
+    def _get_data_parser(self) -> MultiModalDataParser:
+        """
+        Construct a parser to preprocess multi-modal data items
+        before passing them to
+        [`_get_hf_mm_data`][vllm.multimodal.processing.BaseMultiModalProcessor._get_hf_mm_data].
+
+        You can support additional modalities by creating a subclass
+        of [`MultiModalDataParser`][vllm.multimodal.parse.MultiModalDataParser]
+        that has additional subparsers.
+        """
+        return MultiModalDataParser()
+
+    def validate_num_items(
+        self,
+        modality: str,
+        num_items: int,
+    ) -> None:
+        supported_limit = self.supported_mm_limits.get(modality, 0)
+        allowed_limit = self.allowed_mm_limits.get(modality, 0)
+
+        if supported_limit is None:
+            supported_limit = allowed_limit
+
+        limit = min(supported_limit, allowed_limit)
+
+        if num_items > limit:
+            msg = f"At most {limit} {modality}(s) may be provided in one prompt."
+
+            if num_items <= supported_limit:
+                msg += " Set `--limit-mm-per-prompt` to increase this limit."
+
+            raise ValueError(msg)
+
+    def _to_mm_items(
+        self,
+        mm_data: MultiModalDataDict,
+    ) -> MultiModalDataItems:
+        """
+        Normalize
+        [`MultiModalDataDict`][vllm.multimodal.inputs.MultiModalDataDict]
+        to [`MultiModalDataItems`][vllm.multimodal.parse.MultiModalDataItems]
+        before passing them to
+        [`_get_hf_mm_data`][vllm.multimodal.processing.BaseMultiModalProcessor._get_hf_mm_data].
+        """
+        mm_items = self.data_parser.parse_mm_data(mm_data)
+
+        mm_config = self.info.ctx.model_config.get_multimodal_config()
+        if not mm_config.enable_mm_embeds:
+            for modality, items in mm_items.items():
+                if isinstance(items, (EmbeddingItems, DictEmbeddingItems)):
+                    raise ValueError(
+                        f"You must set `--enable-mm-embeds` to input "
+                        f"`{modality}_embeds`"
+                    )
+
+        for modality, items in mm_items.items():
+            self.validate_num_items(modality, len(items))
+
+        return mm_items
+
+    @abstractmethod
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        """Given the HF-processed data, output the metadata of each field."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> Sequence[PromptUpdate]:
+        """
+        Given the original multi-modal items for this modality
+        and HF-processed data, output the updates to perform.
+
+        The information returned by this method is used to update token inputs
+        which bypass the HF processor. It is also used to update the output of
+        HF processor if the HF process does not apply prompt updates to text
+        inputs.
+
+        Moreover, this information is critical to determine the token positions
+        in order to construct
+        [`PlaceholderRange`][vllm.multimodal.inputs.PlaceholderRange]
+        for each multi-modal item.
+        """
+        raise NotImplementedError
+
+    def _bind_and_group_updates(
+        self,
+        prompt_updates: Sequence[PromptUpdate],
+        mm_item_counts: Mapping[str, int],
+    ) -> MultiModalPromptUpdates:
+        return {
+            modality: [
+                [update.resolve(item_idx) for update in updates]
+                for item_idx in range(mm_item_counts.get(modality, 0))
+            ]
+            for modality, updates in full_groupby_modality(prompt_updates)
+        }
+
+    def _get_mm_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargsItems,
+    ) -> MultiModalPromptUpdates:
+        unbound_prompt_updates = self._get_prompt_updates(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            out_mm_kwargs=out_mm_kwargs,
+        )
+
+        mm_prompt_updates = self._bind_and_group_updates(
+            unbound_prompt_updates,
+            mm_items.get_all_counts(),
+        )
+
+        for modality, prompt_updates in mm_prompt_updates.items():
+            for item_idx, item_prompt_updates in enumerate(prompt_updates):
+                if len(item_prompt_updates) > 1:
+                    logger.warning_once(
+                        "Detected %d prompt updates for `mm_items[%r][%s]`. "
+                        "Multiple prompt updates per item is now "
+                        "deprecated and may be removed in v0.13. "
+                        "Instead, please specify dynamic update targets "
+                        "in the same prompt update definition by passing "
+                        "a function to `PromptUpdate.target`.",
+                        len(prompt_updates),
+                        modality,
+                        item_idx,
+                    )
+
+        return mm_prompt_updates
+
+    def _find_mm_placeholders(
+        self,
+        new_token_ids: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> Mapping[str, list[PlaceholderFeaturesInfo]]:
+        tokenizer = self.info.get_tokenizer()
+
+        return find_mm_placeholders(new_token_ids, mm_prompt_updates, tokenizer)
+
+    def _get_hf_mm_data(
+        self,
+        mm_items: MultiModalDataItems,
+    ) -> tuple[Mapping[str, object], Mapping[str, object]]:
+        processor_data = dict[str, object]()
+        passthrough_data = dict[str, object]()
+
+        for items in mm_items.values():
+            processor_data.update(items.get_processor_data())
+            passthrough_data.update(items.get_passthrough_data())
+
+        return processor_data, passthrough_data
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        # Not to be confused with `mm_data` in `self.apply`.
+        # This refers to the data to be passed to HF processor.
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        """
+        Call the HF processor on the prompt text and
+        associated multi-modal data.
+        """
+        return self.info.ctx.call_hf_processor(
+            self.info.get_hf_processor(**mm_kwargs),
+            dict(text=prompt, **mm_data),
+            dict(**mm_kwargs, **tok_kwargs),
+        )
+
+    def _hf_processor_applies_updates(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> bool:
+        """
+        Return whether the HF processor applies prompt updates.
+
+        For most HF processors, this should be `True` when multi-modal
+        data items are passed, but `False` when multi-modal embeddings
+        are passed.
+        """
+        return not any(
+            isinstance(items, (EmbeddingItems, DictEmbeddingItems))
+            for items in mm_items.values()
+        )
+
+    def _apply_hf_processor_text_mm(
+        self,
+        prompt_text: str,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> tuple[list[int], BatchFeature, bool]:
+        """
+        Apply the HF processor on the prompt text and multi-modal data
+        together.
+
+        In addition, return whether prompt updates have been applied.
+        """
+        processor_data, passthrough_data = self._get_hf_mm_data(mm_items)
+
+        processed_data = self._call_hf_processor(
+            prompt=prompt_text,
+            mm_data=processor_data,
+            mm_kwargs=hf_processor_mm_kwargs,
+            tok_kwargs=tokenization_kwargs,
+        )
+        processed_data.update(passthrough_data)
+
+        (prompt_ids,) = processed_data.pop("input_ids").tolist()
+
+        is_update_applied = self._hf_processor_applies_updates(
+            prompt_text=prompt_text,
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return prompt_ids, processed_data, is_update_applied
+
+    def _apply_hf_processor_text_only(
+        self,
+        prompt_text: str,
+        tokenization_kwargs: Mapping[str, object],
+    ) -> list[int]:
+        """
+        Apply the HF processor on the prompt text only.
+
+        Since HF processor requires that text and multi-modal items
+        correspond to each other, we create dummy multi-modal items
+        to go along with the text.
+        """
+        prompt_ids, _, _ = self._apply_hf_processor_text_mm(
+            prompt_text=prompt_text,
+            mm_items=MultiModalDataItems({}),
+            hf_processor_mm_kwargs={},
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return prompt_ids
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+        """
+        Apply the HF processor on the prompt tokens only.
+
+        Most HF processors accept prompt text but not prompt tokens.
+        If the HF processor adds or removes tokens that are not related to
+        multi-modal data, you should override this method so it is consistent
+        with the output of
+        [`_apply_hf_processor_text_only`][vllm.multimodal.processing.BaseMultiModalProcessor._apply_hf_processor_text_only]
+        on the
+        corresponding text.
+        """
+        return prompt_tokens
+
+    def _apply_hf_processor_mm_only(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        """
+        Apply the HF processor on the multi-modal data only.
+
+        Since HF processor requires that text and multi-modal items
+        correspond to each other, we generate dummy text using
+        [`DummyInputsBuilder`][vllm.multimodal.profiling.BaseDummyInputsBuilder]
+        to go along with the multi-modal data.
+        """
+        mm_counts = mm_items.get_all_counts()
+
+        _, mm_processed_data, _ = self._apply_hf_processor_text_mm(
+            prompt_text=self.dummy_inputs.get_dummy_text(mm_counts),
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return mm_processed_data
+
+    def _apply_hf_processor_main(
+        self,
+        prompt: str | list[int],
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        *,
+        enable_hf_prompt_update: bool,
+    ) -> tuple[list[int], BatchFeature, bool]:
+        """
+        Apply the HF processor on the prompt text and multi-modal data.
+
+        In addition, return whether prompt updates have been applied
+        (for most HF processors, this should be `True`).
+
+        Note:
+            If `enable_hf_prompt_update=False`, we use HF processor
+            to perform prompt updates if available; HF processor requires
+            that the prompt corresponds to multi-modal items.
+        """
+        if isinstance(prompt, str):
+            if enable_hf_prompt_update:
+                return self._apply_hf_processor_text_mm(
+                    prompt_text=prompt,
+                    mm_items=mm_items,
+                    hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+                    tokenization_kwargs=tokenization_kwargs,
+                )
+
+            prompt_ids = self._apply_hf_processor_text_only(prompt, tokenization_kwargs)
+        else:
+            prompt_ids = self._apply_hf_processor_tokens_only(prompt)
+
+        mm_processed_data = self._apply_hf_processor_mm_only(
+            mm_items=mm_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+        return prompt_ids, mm_processed_data, False
+
+    def _hash_mm_items(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalHashes:
+        """Create MM hashes to be returned.
+
+
+        Note: When overrides are provided via callers of `apply`,
+        `_hash_mm_items` will be bypassed and the overrides will be used.
+        """
+        model_id = self.info.model_id
+
+        hashes: MultiModalHashes = {}
+        mm_uuids = mm_uuids or {}
+
+        for modality, items in mm_items.items():
+            if modality in mm_uuids:
+                mm_uuids_per_modality = mm_uuids[modality]
+                if isinstance(mm_uuids_per_modality, str):
+                    mm_uuids_per_modality = [mm_uuids_per_modality]
+
+                # For None entries, compute a hash; otherwise, use provided ID.
+                computed: list[str] = []
+                for i, item in enumerate(items):
+                    item_uuid = mm_uuids_per_modality[i]
+
+                    # NOTE: Even if a item_uuid is provided, we still compute a
+                    # hash if `hf_processor_mm_kwargs` or `tokenization_kwargs`
+                    # are provided. This is because the processed multimodal
+                    # inputs can be different depending on the processor kwargs.
+                    if (
+                        item_uuid is None
+                        or hf_processor_mm_kwargs
+                        or tokenization_kwargs
+                    ):
+                        # NOTE: use provided hash string to hash with kwargs
+                        # if available for better performance.
+                        item = item_uuid if item_uuid is not None else item
+                        computed.append(
+                            MultiModalHasher.hash_kwargs(
+                                model_id=model_id,
+                                **{modality: item},
+                                **hf_processor_mm_kwargs,
+                                **tokenization_kwargs,
+                            )
+                        )
+                    else:
+                        computed.append(item_uuid)
+                hashes[modality] = computed
+            else:
+                hashes[modality] = [
+                    MultiModalHasher.hash_kwargs(
+                        model_id=model_id,
+                        **{modality: item},
+                        **hf_processor_mm_kwargs,
+                        **tokenization_kwargs,
+                    )
+                    for item in items
+                ]
+
+        return hashes
+
+    def _get_cache_missing_items(
+        self,
+        cache: BaseMultiModalProcessorCache,
+        mm_data_items: MultiModalDataItems,
+        mm_hashes: MultiModalHashes,
+    ) -> MultiModalDataItems:
+        mm_is_cached = {
+            modality: cache.is_cached(hashes) for modality, hashes in mm_hashes.items()
+        }
+
+        mm_missing_idxs = {
+            modality: [
+                idx
+                for idx, item_is_cached in enumerate(items_is_cached)
+                if not item_is_cached
+            ]
+            for modality, items_is_cached in mm_is_cached.items()
+        }
+        mm_missing_data = {}
+        for modality, idxs in mm_missing_idxs.items():
+            missing_modality_data = []
+            for idx in idxs:
+                data = mm_data_items[modality][idx]
+                if data is None:
+                    raise ValueError(
+                        f"Cache miss for {modality} at index {idx} "
+                        f"but data is not provided."
+                    )
+                else:
+                    missing_modality_data.append(data)
+            mm_missing_data[modality] = missing_modality_data
+
+        return self._to_mm_items(mm_missing_data)
+
+    def _recompute_cached_prompt_update(
+        self,
+        cached_update: ResolvedPromptUpdate,
+        new_item_idx: int,
+    ) -> ResolvedPromptUpdate:
+        """
+        Override this if other attributes of `ResolvedPromptUpdate`
+        also need to be recomputed after retrieving from the cache.
+        """
+        return replace(cached_update, item_idx=new_item_idx)
+
+    def _merge_mm_kwargs(
+        self,
+        cache: BaseMultiModalProcessorCache,
+        mm_hashes: MultiModalHashes,
+        mm_missing_kwargs: MultiModalKwargsItems,
+        mm_missing_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[MultiModalKwargsOptionalItems, MultiModalPromptUpdates]:
+        # Need to calculate this at the beginning to avoid skipping cache logic
+        # for subsequently repeated items in the same modality
+        mm_is_cached = {
+            modality: cache.is_cached(hashes) for modality, hashes in mm_hashes.items()
+        }
+
+        mm_missing_next_idx = defaultdict[str, int](lambda: 0)
+
+        merged_kwargs = defaultdict[str, list[MultiModalKwargsItem | None]](list)
+        merged_prompt_updates = defaultdict[str, list[Sequence[ResolvedPromptUpdate]]](
+            list
+        )
+        for modality, hashes in mm_hashes.items():
+            missing_kwargs = mm_missing_kwargs.get(modality, [])
+            missing_prompt_updates = mm_missing_prompt_updates.get(modality, [])
+
+            for item_idx, item_hash in enumerate(hashes):
+                kwargs: MultiModalKwargsItem | None
+                if not mm_is_cached[modality][item_idx]:
+                    missing_next_idx = mm_missing_next_idx[modality]
+                    kwargs = missing_kwargs[missing_next_idx]
+                    updates = missing_prompt_updates[missing_next_idx]
+
+                    mm_missing_next_idx[modality] += 1
+
+                    item = kwargs, updates
+                else:
+                    item = None
+
+                kwargs, updates = cache.get_and_update_item(item, item_hash)
+
+                merged_kwargs[modality].append(kwargs)
+                merged_prompt_updates[modality].append(
+                    [
+                        self._recompute_cached_prompt_update(update, item_idx)
+                        for update in updates
+                    ]
+                )
+
+        mm_kwargs = MultiModalKwargsItems(merged_kwargs)
+        mm_prompt_updates = dict(merged_prompt_updates)
+
+        return mm_kwargs, mm_prompt_updates
+
+    def _apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        (
+            prompt_ids,
+            mm_processed_data,
+            is_update_applied,
+        ) = self._apply_hf_processor_main(
+            prompt=prompt,
+            mm_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            enable_hf_prompt_update=True,
+        )
+
+        mm_kwargs = MultiModalKwargsItems.from_hf_inputs(
+            mm_processed_data,
+            self._get_mm_fields_config(mm_processed_data, hf_processor_mm_kwargs),
+        )
+
+        # Use overrides if provided; fallback to data-dependent hashing.
+        mm_hashes = self._hash_mm_items(
+            mm_data_items,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        mm_prompt_updates = self._get_mm_prompt_updates(
+            mm_data_items,
+            hf_processor_mm_kwargs,
+            mm_kwargs,
+        )
+
+        mm_info = MultiModalProcessingInfo(
+            kwargs=mm_kwargs,
+            hashes=mm_hashes,
+            prompt_updates=mm_prompt_updates,
+        )
+
+        return prompt_ids, mm_info, is_update_applied
+
+    def _cached_apply_hf_processor(
+        self,
+        prompt: str | list[int],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object],
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> tuple[list[int], MultiModalProcessingInfo, bool]:
+        """
+        Apply the HF processor on the full prompt text,
+        caching the results and reusing cached results.
+        """
+        cache = self.cache
+
+        _, passthrough_data = self._get_hf_mm_data(mm_data_items)
+        if cache is None or passthrough_data:
+            return self._apply_hf_processor(
+                prompt=prompt,
+                mm_data_items=mm_data_items,
+                hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+                tokenization_kwargs=tokenization_kwargs,
+                mm_uuids=mm_uuids,
+            )
+
+        mm_hashes = self._hash_mm_items(
+            mm_data_items,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        mm_missing_data_items = self._get_cache_missing_items(
+            cache=cache,
+            mm_data_items=mm_data_items,
+            mm_hashes=mm_hashes,
+        )
+
+        # NOTE: `prompt` does not correspond to `mm_missing_data_items`,
+        # so we can't apply prompt updates until the new multimodal
+        # items are combined with the cached multimodal items
+        (
+            prompt_ids,
+            mm_missing_processed_data,
+            is_update_applied,
+        ) = self._apply_hf_processor_main(
+            prompt=prompt,
+            mm_items=mm_missing_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            enable_hf_prompt_update=False,
+        )
+
+        mm_missing_kwargs = MultiModalKwargsItems.from_hf_inputs(
+            mm_missing_processed_data,
+            self._get_mm_fields_config(
+                mm_missing_processed_data, hf_processor_mm_kwargs
+            ),
+        )
+
+        mm_missing_prompt_updates = self._get_mm_prompt_updates(
+            mm_missing_data_items,
+            hf_processor_mm_kwargs,
+            mm_missing_kwargs,
+        )
+
+        mm_kwargs, mm_prompt_updates = self._merge_mm_kwargs(
+            cache,
+            mm_hashes=mm_hashes,
+            mm_missing_kwargs=mm_missing_kwargs,
+            mm_missing_prompt_updates=mm_missing_prompt_updates,
+        )
+
+        mm_info = MultiModalProcessingInfo(
+            kwargs=mm_kwargs,
+            hashes=mm_hashes,
+            prompt_updates=mm_prompt_updates,
+        )
+
+        return prompt_ids, mm_info, is_update_applied
+
+    def _apply_token_matches(
+        self,
+        prompt: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[list[int], MultiModalPromptUpdatesApplyResult]:
+        tokenizer = self.info.get_tokenizer()
+        return apply_token_matches(prompt, mm_prompt_updates, tokenizer)
+
+    def _apply_text_matches(
+        self,
+        prompt: str,
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[str, MultiModalPromptUpdatesApplyResult]:
+        tokenizer = self.info.get_tokenizer()
+        return apply_text_matches(prompt, mm_prompt_updates, tokenizer)
+
+    def _apply_prompt_updates(
+        self,
+        token_ids: list[int],
+        mm_prompt_updates: MultiModalPromptUpdates,
+    ) -> tuple[list[int], Mapping[str, list[PlaceholderFeaturesInfo]]]:
+        tokenizer = self.info.get_tokenizer()
+
+        new_token_ids, match_result = self._apply_token_matches(
+            token_ids,
+            mm_prompt_updates,
+        )
+
+        # If the search text does not represent a special token,
+        # it may have different token IDs in the prompt, because
+        # the tokens may go across the boundaries of the search text.
+        # ----
+        # e.g. when searching for "foo" in "food", if "food" itself makes
+        # up a token, then the token ID of "foo" will not appear at all
+        # ----
+        # Since it is inefficient to search for all possible tokenizations
+        # of the search text in the prompt, we instead perform string-based
+        # updates on the decoded token IDs, then encode them back.
+        if not all(
+            all(update_idx is not None for update_idx in update_idxs)
+            for update_idxs in match_result.values()
+        ):
+            new_text, match_result = self._apply_text_matches(
+                decode_tokens(tokenizer, token_ids),
+                mm_prompt_updates,
+            )
+
+            new_token_ids = encode_tokens(
+                tokenizer,
+                new_text,
+                add_special_tokens=False,
+            )
+
+        matched_updates = defaultdict[str, list[Sequence[ResolvedPromptUpdate]]](list)
+        for modality, update_idxs in match_result.items():
+            for item_idx, update_idx in enumerate(update_idxs):
+                assert update_idx is not None, (
+                    "Failed to apply prompt replacement for "
+                    f"mm_items[{modality!r}][{item_idx}]"
+                )
+
+                matched_updates[modality].append(
+                    [mm_prompt_updates[modality][item_idx][update_idx]]
+                )
+
+        placeholders = self._find_mm_placeholders(
+            new_token_ids,
+            dict(matched_updates),
+        )
+
+        return new_token_ids, placeholders
+
+    def _validate_mm_kwargs(
+        self,
+        mm_kwargs: MultiModalKwargsOptionalItems,
+        mm_item_counts: Mapping[str, int],
+    ) -> None:
+        for modality, item_count in mm_item_counts.items():
+            items = mm_kwargs.get(modality, [])
+
+            if len(items) != item_count:
+                raise RuntimeError(
+                    f"Expected there to be {item_count} {modality} items in "
+                    f"keyword arguments corresponding to {item_count} "
+                    f"{modality} data items, but only found {len(items)}! "
+                    "There is likely a problem with your "
+                    "implementation of merged multi-modal processor for this "
+                    "model (usually arising from an inconsistency between "
+                    "`_call_hf_processor` and `_get_mm_fields_config`)."
+                )
+
+    def _validate_mm_updates(
+        self,
+        mm_updates: MultiModalPromptUpdates,
+        mm_item_counts: Mapping[str, int],
+    ) -> None:
+        for modality, item_count in mm_item_counts.items():
+            placeholders = mm_updates.get(modality, [])
+
+            if len(placeholders) != item_count:
+                raise RuntimeError(
+                    f"Expected there to be {item_count} prompt updates "
+                    f"corresponding to {item_count} {modality} items, but "
+                    f"instead found {len(placeholders)} prompt updates! "
+                    "This is likely because you forgot to include input "
+                    "placeholder tokens (e.g., `<image>`, `<|image_pad|>`) "
+                    "in the prompt. If the model has a chat template, make "
+                    "sure you have applied it before calling `LLM.generate`."
+                )
+
+    def _validate_mm_placeholders(
+        self,
+        mm_placeholders: Mapping[str, list[PlaceholderFeaturesInfo]],
+        mm_item_counts: Mapping[str, int],
+    ) -> None:
+        for modality, item_count in mm_item_counts.items():
+            placeholders = mm_placeholders.get(modality, [])
+
+            if len(placeholders) != item_count:
+                raise RuntimeError(
+                    f"Expected there to be {item_count} prompt placeholders "
+                    f"corresponding to {item_count} {modality} items, but "
+                    f"instead found {len(placeholders)} prompt placeholders! "
+                    "Make sure the implementation of `_call_hf_processor` and "
+                    "`_get_mm_fields_config` are consistent with each other."
+                )
+
+    def _maybe_apply_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        prompt_ids: list[int],
+        mm_kwargs: MultiModalKwargsOptionalItems,
+        mm_prompt_updates: MultiModalPromptUpdates,
+        is_update_applied: bool,
+    ) -> tuple[list[int], Mapping[str, list[PlaceholderFeaturesInfo]]]:
+        mm_item_counts = mm_items.get_all_counts()
+        self._validate_mm_kwargs(mm_kwargs, mm_item_counts)
+        self._validate_mm_updates(mm_prompt_updates, mm_item_counts)
+
+        if is_update_applied:
+            mm_placeholders = self._find_mm_placeholders(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(mm_placeholders, mm_item_counts)
+        else:
+            prompt_ids, mm_placeholders = self._apply_prompt_updates(
+                prompt_ids,
+                mm_prompt_updates,
+            )
+            self._validate_mm_placeholders(mm_placeholders, mm_item_counts)
+
+        return prompt_ids, mm_placeholders
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalInputs:
+        """
+        Process multi-modal inputs to be used in vLLM.
+
+        The main steps are:
+
+        1. Apply HF Processor on prompt text and multi-modal data together,
+           outputting token IDs and processed tensors.
+        2. Find and update sequences in the token IDs with placeholder tokens.
+           The number of placeholder tokens equals the feature size of the
+           multi-modal data outputted by the multi-modal encoder.
+        3. Extract information about the placeholder tokens from the
+           processed token IDs.
+        """
+        mm_items = self._to_mm_items(mm_data)
+
+        if tokenization_kwargs is None:
+            tokenization_kwargs = {}
+
+        (
+            prompt_ids,
+            mm_info,
+            is_update_applied,
+        ) = self._cached_apply_hf_processor(
+            prompt,
+            mm_items,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        # NOTE: tokenization_kwargs are not required to init processor
+        prompt_ids, mm_placeholders = self._maybe_apply_prompt_updates(
+            mm_items=mm_items,
+            prompt_ids=prompt_ids,
+            mm_kwargs=mm_info.kwargs,
+            mm_prompt_updates=mm_info.prompt_updates,
+            is_update_applied=is_update_applied,
+        )
+
+        mm_placeholder_ranges = {
+            modality: [item.to_range() for item in placeholders]
+            for modality, placeholders in mm_placeholders.items()
+        }
+
+        return MultiModalInputs(
+            type="multimodal",
+            prompt_token_ids=prompt_ids,
+            mm_kwargs=mm_info.kwargs,
+            mm_hashes=mm_info.hashes,
+            mm_placeholders=mm_placeholder_ranges,
+        )
+
+
+class EncDecMultiModalProcessor(BaseMultiModalProcessor[_I]):
+    @abstractmethod
+    def create_encoder_prompt(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+    ) -> str | list[int]:
+        """
+        Create input prompt for the encoder. HF processor will be applied on
+        this prompt during profiling and generation.
+        """
+        raise NotImplementedError
+
+    @property
+    def pad_dummy_encoder_prompt(self) -> bool:
+        return False
+
+    def create_decoder_prompt(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+    ) -> str | list[int]:
+        """Create input prompt for the decoder."""
+        return prompt
+
+    def _get_enc_dec_inputs(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        encoder_inputs: MultiModalInputs,
+    ):
+        tokenizer = self.info.get_tokenizer()
+        decoder_prompt_raw = self.create_decoder_prompt(prompt, mm_data)
+        if isinstance(decoder_prompt_raw, str):
+            decoder_prompt_ids = encode_tokens(
+                tokenizer, decoder_prompt_raw, add_special_tokens=False
+            )
+        else:
+            decoder_prompt_ids = decoder_prompt_raw
+
+        mm_inputs = MultiModalEncDecInputs(
+            encoder_prompt_token_ids=encoder_inputs["prompt_token_ids"],
+            **encoder_inputs,
+        )
+        mm_inputs["prompt_token_ids"] = decoder_prompt_ids
+        return mm_inputs
+
+    def apply(
+        self,
+        prompt: str | list[int],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        tokenization_kwargs: Mapping[str, object] | None = None,
+        *,
+        mm_uuids: MultiModalUUIDDict | None = None,
+    ) -> MultiModalEncDecInputs:
+        """
+        Process multi-modal inputs to be used in vLLM.
+        The main processing steps are modified to fit encoder-decoder model:
+        1. Create encoder prompt from input prompt text.
+        2. Apply the HF processor on encoder prompt.
+        3. Copy the input prompt text as decoder prompt inputs.
+        """
+        encoder_prompt = self.create_encoder_prompt(prompt, mm_data)
+        encoder_inputs = super().apply(
+            encoder_prompt,
+            mm_data,
+            hf_processor_mm_kwargs,
+            tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+
+        return self._get_enc_dec_inputs(
+            prompt=prompt,
+            mm_data=mm_data,
+            encoder_inputs=encoder_inputs,
+        )
diff --git a/multimodal/profiling.py b/multimodal/profiling.py
new file mode 100644
index 0000000..cb70041
--- /dev/null
+++ b/multimodal/profiling.py
@@ -0,0 +1,369 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Mapping
+from dataclasses import dataclass, field
+from typing import Generic, NamedTuple, TypeVar, cast
+
+import numpy as np
+import numpy.typing as npt
+from PIL import Image
+
+from vllm.config.multimodal import (
+    AudioDummyOptions,
+    BaseDummyOptions,
+    ImageDummyOptions,
+    VideoDummyOptions,
+)
+from vllm.logger import init_logger
+
+from .inputs import (
+    MultiModalDataDict,
+    MultiModalEncDecInputs,
+    MultiModalInputs,
+    MultiModalKwargsItems,
+    MultiModalPlaceholderDict,
+)
+from .processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    EncDecMultiModalProcessor,
+)
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class ProcessorInputs:
+    """
+    Represents the keyword arguments to
+    [`vllm.multimodal.processing.BaseMultiModalProcessor.apply`][].
+    """
+
+    prompt: str | list[int]
+    mm_data: MultiModalDataDict
+    hf_processor_mm_kwargs: Mapping[str, object] = field(default_factory=dict)
+    tokenization_kwargs: Mapping[str, object] = field(default_factory=dict)
+
+
+class DummyEncoderData(NamedTuple):
+    """Dummy data used for profiling."""
+
+    prompt_token_ids: list[int]
+
+
+class DummyDecoderData(NamedTuple):
+    """Dummy data used for profiling."""
+
+    prompt_token_ids: list[int]
+    multi_modal_data: MultiModalKwargsItems
+    multi_modal_placeholders: MultiModalPlaceholderDict
+
+
+_I = TypeVar("_I", bound=BaseProcessingInfo)
+
+
+class BaseDummyInputsBuilder(ABC, Generic[_I]):
+    """
+    Abstract base class that constructs the dummy data to profile
+    multi-modal models.
+    """
+
+    def __init__(self, info: _I) -> None:
+        super().__init__()
+
+        self.info = info
+
+    @abstractmethod
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        """
+        Build the text input corresponding to `mm_counts`.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        """
+        Build the multimodal input which, after processing, results in
+        the maximum possible number of placeholder tokens.
+
+        Args:
+            seq_len: Sequence length
+            mm_counts: Count of items per modality
+            mm_options: Configurable options per modality (optional).
+                       If None, use model defaults for backward compatibility.
+                       If provided, models can use these to customize dummy
+                       data generation.
+        """
+        raise NotImplementedError
+
+    def get_dummy_processor_inputs(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> ProcessorInputs:
+        """
+        Build the input which, after processing, results in
+        the maximum possible number of placeholder tokens.
+
+        Args:
+            seq_len: Sequence length
+            mm_counts: Count of items per modality
+            mm_options: Configurable options per modality (optional)
+        """
+        dummy_text = self.get_dummy_text(mm_counts)
+
+        # Use the unified function for both legacy and configurable cases
+        dummy_mm_data = self.get_dummy_mm_data(seq_len, mm_counts, mm_options)
+
+        tokenization_kwargs = {"truncation": False}
+
+        return ProcessorInputs(
+            prompt=dummy_text,
+            mm_data=dummy_mm_data,
+            tokenization_kwargs=tokenization_kwargs,
+        )
+
+    def _get_dummy_audios(
+        self,
+        *,
+        length: int,
+        num_audios: int,
+        overrides: AudioDummyOptions | None = None,
+    ) -> list[npt.NDArray]:
+        if num_audios == 0:
+            return []
+        if overrides and overrides.length:
+            if overrides.length > length:
+                logger.warning(
+                    "audio.length override (%d) exceeds model's "
+                    "maximum length (%d), will be ignored",
+                    overrides.length,
+                    length,
+                )
+            length = min(length, overrides.length)
+        audio = np.zeros((length,))
+        return [audio] * num_audios
+
+    def _get_dummy_images(
+        self,
+        *,
+        width: int,
+        height: int,
+        num_images: int,
+        overrides: ImageDummyOptions | None = None,
+    ) -> list[Image.Image]:
+        if num_images == 0:
+            return []
+        if overrides:
+            if overrides.width:
+                if overrides.width > width:
+                    logger.warning(
+                        "image.width override (%d) exceeds model's "
+                        "maximum width (%d), will be ignored",
+                        overrides.width,
+                        width,
+                    )
+                width = min(width, overrides.width)
+            if overrides.height:
+                if overrides.height > height:
+                    logger.warning(
+                        "image.height override (%d) exceeds model's "
+                        "maximum height (%d), will be ignored",
+                        overrides.height,
+                        height,
+                    )
+                height = min(height, overrides.height)
+        image = Image.new("RGB", (width, height), color=255)
+        return [image] * num_images
+
+    def _get_dummy_videos(
+        self,
+        *,
+        width: int,
+        height: int,
+        num_frames: int,
+        num_videos: int,
+        overrides: VideoDummyOptions | None = None,
+    ) -> list[npt.NDArray]:
+        if num_videos == 0:
+            return []
+        if overrides:
+            if overrides.num_frames:
+                if overrides.num_frames > num_frames:
+                    logger.warning(
+                        "video.num_frames override (%d) exceeds model's "
+                        "maximum number of frames (%d), will be ignored",
+                        overrides.num_frames,
+                        num_frames,
+                    )
+                num_frames = min(num_frames, overrides.num_frames)
+            if overrides.width:
+                if overrides.width > width:
+                    logger.warning(
+                        "video.width override (%d) exceeds model's "
+                        "maximum width (%d), will be ignored",
+                        overrides.width,
+                        width,
+                    )
+                width = min(width, overrides.width)
+            if overrides.height:
+                if overrides.height > height:
+                    logger.warning(
+                        "video.height override (%d) exceeds model's "
+                        "maximum height (%d), will be ignored",
+                        overrides.height,
+                        height,
+                    )
+                height = min(height, overrides.height)
+        video = np.full((num_frames, width, height, 3), 255, dtype=np.uint8)
+        return [video] * num_videos
+
+
+class MultiModalProfiler(Generic[_I]):
+    """
+    Contains code for running memory profiling for multi-modal models.
+    """
+
+    def __init__(
+        self,
+        processor: BaseMultiModalProcessor[_I],
+    ) -> None:
+        super().__init__()
+
+        self.processor = processor
+
+    @property
+    def processing_info(self) -> BaseProcessingInfo:
+        return self.processor.info
+
+    @property
+    def dummy_inputs(self) -> BaseDummyInputsBuilder[_I]:
+        return self.processor.dummy_inputs
+
+    def get_mm_limits(self) -> Mapping[str, int]:
+        return self.processor.allowed_mm_limits
+
+    def _get_dummy_mm_inputs(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalInputs:
+        if mm_counts is None:
+            mm_counts = self.get_mm_limits()
+
+        factory = self.dummy_inputs
+        processor_inputs = factory.get_dummy_processor_inputs(
+            seq_len, mm_counts, mm_options
+        )
+
+        return self.processor.apply(
+            prompt=processor_inputs.prompt,
+            mm_data=processor_inputs.mm_data,
+            hf_processor_mm_kwargs=processor_inputs.hf_processor_mm_kwargs,
+            tokenization_kwargs=processor_inputs.tokenization_kwargs,
+        )
+
+    def _get_mm_num_tokens(
+        self,
+        mm_inputs: MultiModalInputs,
+        mm_embeddings_only: bool = True,
+    ) -> Mapping[str, int]:
+        placeholders_by_modality = mm_inputs["mm_placeholders"]
+
+        return {
+            modality: sum(
+                item.get_num_embeds() if mm_embeddings_only else item.length
+                for item in placeholders
+            )
+            for modality, placeholders in placeholders_by_modality.items()
+        }
+
+    def get_encoder_dummy_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> DummyEncoderData:
+        mm_inputs = self._get_dummy_mm_inputs(seq_len, mm_counts, mm_options)
+        mm_inputs = cast(MultiModalEncDecInputs, mm_inputs)
+
+        # For encoder-decoder models, use encoder prompt token ids instead of
+        # decoder prompt to construct dummy seq_data for encoder profiling.
+        encoder_prompt_token_ids = mm_inputs["encoder_prompt_token_ids"]
+
+        total_len = len(encoder_prompt_token_ids)
+
+        processor = cast(EncDecMultiModalProcessor, self.processor)
+        if processor.pad_dummy_encoder_prompt:
+            num_tokens_to_pad = max(total_len, seq_len) - total_len
+            encoder_prompt_token_ids.extend([0] * num_tokens_to_pad)
+
+        return DummyEncoderData(encoder_prompt_token_ids)
+
+    def get_decoder_dummy_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> DummyDecoderData:
+        mm_inputs = self._get_dummy_mm_inputs(seq_len, mm_counts, mm_options)
+
+        prompt_token_ids = mm_inputs["prompt_token_ids"]
+        total_len = len(prompt_token_ids)
+
+        if total_len < seq_len:
+            prompt_token_ids.extend([0] * (seq_len - total_len))
+
+        return DummyDecoderData(
+            prompt_token_ids=prompt_token_ids,
+            multi_modal_data=mm_inputs["mm_kwargs"].require_data(),
+            multi_modal_placeholders=mm_inputs["mm_placeholders"],
+        )
+
+    def _get_mm_max_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        mm_embeddings_only: bool = True,
+    ) -> Mapping[str, int]:
+        if mm_counts is None:
+            mm_counts = self.get_mm_limits()
+
+        max_tokens_per_item = self.processing_info.get_mm_max_tokens_per_item(
+            seq_len=seq_len,
+            mm_counts=mm_counts,
+        )
+        if max_tokens_per_item is not None:
+            return {
+                modality: max_tokens
+                for modality, max_tokens in max_tokens_per_item.items()
+                if mm_counts.get(modality, 0) > 0
+            }
+
+        mm_inputs = self._get_dummy_mm_inputs(seq_len, mm_counts)
+        return self._get_mm_num_tokens(mm_inputs, mm_embeddings_only=mm_embeddings_only)
+
+    def get_mm_max_contiguous_tokens(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+    ) -> Mapping[str, int]:
+        """
+        Returns the maximum length of the multimodal (image placeholders+text)
+        tokens, including any break/text tokens in-between image embeddings.
+
+        `<im_start> [IMG] [IMG] [IMG] <row_break> [IMG] [IMG] [IMG] <im_end>`
+        Returns 9, even when the number of image embeddings is 6.
+
+        This is important to take into account when profiling and
+        initializing the encoder cache size.
+        """
+        return self._get_mm_max_tokens(seq_len, mm_counts, mm_embeddings_only=False)
diff --git a/multimodal/registry.py b/multimodal/registry.py
new file mode 100644
index 0000000..8f9276e
--- /dev/null
+++ b/multimodal/registry.py
@@ -0,0 +1,360 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Mapping
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Generic, Protocol, TypeVar
+
+import torch.nn as nn
+
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer, cached_tokenizer_from_config
+from vllm.utils.collection_utils import ClassRegistry
+
+from .cache import BaseMultiModalProcessorCache
+from .processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    InputProcessingContext,
+)
+from .profiling import (
+    BaseDummyInputsBuilder,
+    DummyDecoderData,
+    DummyEncoderData,
+    MultiModalProfiler,
+)
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+
+logger = init_logger(__name__)
+
+N = TypeVar("N", bound=type[nn.Module])
+_I = TypeVar("_I", bound=BaseProcessingInfo)
+_I_co = TypeVar("_I_co", bound=BaseProcessingInfo, covariant=True)
+
+
+class ProcessingInfoFactory(Protocol[_I_co]):
+    """
+    Constructs a
+    [`BaseMultiModalProcessor`][vllm.multimodal.processing.BaseMultiModalProcessor]
+    instance from the context.
+    """
+
+    def __call__(
+        self,
+        ctx: InputProcessingContext,
+    ) -> _I_co: ...
+
+
+class DummyInputsBuilderFactory(Protocol[_I]):  # type: ignore[misc]
+    """
+    Constructs a
+    [`BaseDummyInputsBuilder`][vllm.multimodal.profiling.BaseDummyInputsBuilder]
+    instance from the context.
+    """
+
+    def __call__(self, info: _I) -> BaseDummyInputsBuilder[_I]: ...
+
+
+class MultiModalProcessorFactory(Protocol[_I]):  # type: ignore[misc]
+    """
+    Constructs a
+    [`BaseMultiModalProcessor`][vllm.multimodal.processing.BaseMultiModalProcessor]
+    instance from the context.
+    """
+
+    def __call__(
+        self,
+        info: _I,
+        dummy_inputs: BaseDummyInputsBuilder[_I],
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> BaseMultiModalProcessor[_I]: ...
+
+
+@dataclass(frozen=True)
+class _ProcessorFactories(Generic[_I]):
+    info: ProcessingInfoFactory[_I]
+    processor: MultiModalProcessorFactory[_I]
+    dummy_inputs: DummyInputsBuilderFactory[_I]
+
+    def build_processor(
+        self,
+        ctx: InputProcessingContext,
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ):
+        info = self.info(ctx)
+        dummy_inputs_builder = self.dummy_inputs(info)
+        return self.processor(info, dummy_inputs_builder, cache=cache)
+
+
+class MultiModalRegistry:
+    """
+    A registry that dispatches data processing according to the model.
+    """
+
+    def __init__(self) -> None:
+        self._processor_factories = ClassRegistry[nn.Module, _ProcessorFactories]()
+
+    def _extract_mm_options(
+        self,
+        model_config: "ModelConfig",
+    ) -> Mapping[str, BaseDummyOptions] | None:
+        """
+        Extract multimodal dummy options from model config.
+
+        Returns None if no configurable options are found, otherwise returns
+        a mapping of modality names to their dummy options.
+        """
+        if not model_config.multimodal_config:
+            return None
+
+        mm_options = {
+            m: opt
+            for m in model_config.multimodal_config.limit_per_prompt
+            if (opt := model_config.multimodal_config.get_dummy_options(m)) is not None
+        }
+
+        return mm_options if len(mm_options) > 0 else None
+
+    def supports_multimodal_inputs(self, model_config: "ModelConfig") -> bool:
+        """
+        Checks if the model supports multimodal inputs.
+        Returns True if the model is multimodal with any non-zero supported
+        modalities, otherwise returns False, effectively running in
+        text-only mode.
+        """
+        if not model_config.is_multimodal_model:
+            return False
+
+        info = self._create_processing_info(model_config, tokenizer=None)
+        supported_modalities = info.get_supported_mm_limits()
+
+        mm_config = model_config.get_multimodal_config()
+
+        # Check if all supported modalities have limit == 0
+        if all(
+            mm_config.get_limit_per_prompt(modality) == 0
+            for modality in supported_modalities
+        ):
+            logger.info_once(
+                "All limits of multimodal modalities supported by the model "
+                "are set to 0, running in text-only mode."
+            )
+            return False
+
+        return True
+
+    def get_max_tokens_per_item_by_modality(
+        self,
+        model_config: "ModelConfig",
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+        profiler_limits: Mapping[str, int] | None = None,
+    ) -> Mapping[str, int]:
+        """
+        Get the maximum number of tokens per data item from each modality based
+        on underlying model configuration.
+        """
+        if not model_config.is_multimodal_model:
+            return {}
+
+        processor = self.create_processor(model_config, cache=cache)
+        profiler: MultiModalProfiler = MultiModalProfiler(processor)
+
+        seq_len = model_config.max_model_len
+        profiler_limits = (
+            profiler.get_mm_limits() if profiler_limits is None else profiler_limits
+        )
+
+        return profiler.get_mm_max_contiguous_tokens(
+            seq_len,
+            {modality: 1 for modality, limit in profiler_limits.items() if limit > 0},
+        )
+
+    def get_mm_limits_per_prompt(
+        self,
+        model_config: "ModelConfig",
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> Mapping[str, int]:
+        """
+        Get the maximum number of multi-modal input instances for each modality
+        that are allowed per prompt for a model class.
+        """
+        if not model_config.is_multimodal_model:
+            return {}
+
+        processor = self.create_processor(model_config, cache=cache)
+        profiler: MultiModalProfiler = MultiModalProfiler(processor)
+        return profiler.get_mm_limits()
+
+    def register_processor(
+        self,
+        processor: MultiModalProcessorFactory[_I],
+        *,
+        info: ProcessingInfoFactory[_I],
+        dummy_inputs: DummyInputsBuilderFactory[_I],
+    ):
+        """
+        Register a multi-modal processor to a model class. The processor
+        is constructed lazily, hence a factory method should be passed.
+
+        When the model receives multi-modal data, the provided function is
+        invoked to transform the data into a dictionary of model inputs.
+        """
+
+        def wrapper(model_cls: N) -> N:
+            if self._processor_factories.contains(model_cls, strict=True):
+                logger.warning(
+                    "Model class %s already has a multi-modal processor "
+                    "registered to %s. It is overwritten by the new one.",
+                    model_cls,
+                    self,
+                )
+
+            self._processor_factories[model_cls] = _ProcessorFactories(
+                info=info,
+                dummy_inputs=dummy_inputs,
+                processor=processor,
+            )
+
+            return model_cls
+
+        return wrapper
+
+    def _get_model_cls(self, model_config: "ModelConfig"):
+        # Avoid circular import
+        from vllm.model_executor.model_loader import get_model_architecture
+
+        model_cls, _ = get_model_architecture(model_config)
+        return model_cls
+
+    def _create_processing_ctx(
+        self,
+        model_config: "ModelConfig",
+        tokenizer: AnyTokenizer | None = None,
+    ) -> InputProcessingContext:
+        if tokenizer is None and not model_config.skip_tokenizer_init:
+            tokenizer = cached_tokenizer_from_config(model_config)
+        return InputProcessingContext(model_config, tokenizer)
+
+    def _create_processing_info(
+        self,
+        model_config: "ModelConfig",
+        *,
+        tokenizer: AnyTokenizer | None = None,
+    ) -> BaseProcessingInfo:
+        model_cls = self._get_model_cls(model_config)
+        factories = self._processor_factories[model_cls]
+        ctx = self._create_processing_ctx(model_config, tokenizer)
+        return factories.info(ctx)
+
+    def create_processor(
+        self,
+        model_config: "ModelConfig",
+        *,
+        tokenizer: AnyTokenizer | None = None,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> BaseMultiModalProcessor[BaseProcessingInfo]:
+        """
+        Create a multi-modal processor for a specific model and tokenizer.
+        """
+        if not model_config.is_multimodal_model:
+            raise ValueError(f"{model_config.model} is not a multimodal model")
+
+        model_cls = self._get_model_cls(model_config)
+        factories = self._processor_factories[model_cls]
+
+        ctx = self._create_processing_ctx(model_config, tokenizer)
+
+        return factories.build_processor(ctx, cache=cache)
+
+    def get_decoder_dummy_data(
+        self,
+        model_config: "ModelConfig",
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> DummyDecoderData:
+        """
+        Create dummy data for profiling the memory usage of a model.
+
+        The model is identified by `model_config`.
+        """
+        processor = self.create_processor(model_config, cache=cache)
+        profiler: MultiModalProfiler = MultiModalProfiler(processor)
+
+        # Extract configurable options from multimodal config.
+        # Only include modalities that use advanced option types so legacy
+        # count-only behavior remains unchanged.
+        mm_options = self._extract_mm_options(model_config)
+
+        dummy_data = profiler.get_decoder_dummy_data(seq_len, mm_counts, mm_options)
+
+        # Having more tokens is over-conservative but otherwise fine
+        token_ids = dummy_data.prompt_token_ids
+        if len(token_ids) < seq_len:
+            raise AssertionError(
+                f"Expected at least {seq_len} dummy tokens for profiling, "
+                f"but found {len(token_ids)} tokens instead."
+            )
+
+        return dummy_data
+
+    def get_encoder_dummy_data(
+        self,
+        model_config: "ModelConfig",
+        seq_len: int,
+        mm_counts: Mapping[str, int] | None = None,
+        *,
+        cache: BaseMultiModalProcessorCache | None = None,
+    ) -> DummyEncoderData:
+        """
+        Create dummy data for profiling the memory usage of a model.
+
+        The model is identified by `model_config`.
+        """
+        processor = self.create_processor(model_config, cache=cache)
+        profiler: MultiModalProfiler = MultiModalProfiler(processor)
+
+        # Extract configurable options from multimodal config.
+        # Only include modalities that use advanced option types so legacy
+        # count-only behavior remains unchanged.
+        mm_options = self._extract_mm_options(model_config)
+
+        dummy_data = profiler.get_encoder_dummy_data(seq_len, mm_counts, mm_options)
+
+        # Having more tokens is over-conservative but otherwise fine
+        token_ids = dummy_data.prompt_token_ids
+        if len(token_ids) < seq_len:
+            logger.warning_once(
+                "Expected at least %d dummy encoder tokens for profiling, but found %d tokens instead.",  # noqa: E501
+                seq_len,
+                len(token_ids),
+            )
+
+        return dummy_data
+
+    def get_encdec_max_encoder_len(self, model_config: "ModelConfig") -> int:
+        """
+        Get the maximum length of the encoder input for encoder-decoder models.
+        """
+        if not model_config.is_encoder_decoder:
+            return 0
+        max_tokens = self.get_max_tokens_per_item_by_modality(model_config)
+        if not max_tokens:
+            # TODO - this function assumes encoder-decoder models are
+            # multimodal. This will need to change when adding support for more
+            # than whisper.
+            return 0
+        assert len(max_tokens) == 1, (
+            "Encoder-decoder models are expected \
+            to implement the multimodal interface with at most one modality."
+        )
+
+        first_modality = next(iter(max_tokens))
+        return max_tokens[first_modality]
diff --git a/multimodal/utils.py b/multimodal/utils.py
new file mode 100644
index 0000000..3f55c46
--- /dev/null
+++ b/multimodal/utils.py
@@ -0,0 +1,512 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+import atexit
+from collections.abc import Iterable, Set
+from concurrent.futures import ThreadPoolExecutor
+from itertools import groupby
+from pathlib import Path
+from typing import TYPE_CHECKING, Any, TypeVar
+from urllib.parse import ParseResult, urlparse
+from urllib.request import url2pathname
+
+import numpy as np
+import numpy.typing as npt
+import torch
+from PIL import Image, UnidentifiedImageError
+
+import vllm.envs as envs
+from vllm.connections import HTTPConnection, global_http_connection
+from vllm.logger import init_logger
+from vllm.utils.jsontree import json_map_leaves
+from vllm.utils.registry import ExtensionManager
+
+from .audio import AudioMediaIO
+from .base import MediaIO
+from .image import ImageEmbeddingMediaIO, ImageMediaIO
+from .video import VideoMediaIO
+
+if TYPE_CHECKING:
+    from .inputs import (
+        BatchedTensorInputs,
+        MultiModalKwargsItem,
+        MultiModalPlaceholderDict,
+    )
+else:
+    BatchedTensorInputs = Any
+    MultiModalKwargsItem = Any
+    MultiModalPlaceholderDict = Any
+
+logger = init_logger(__name__)
+
+global_thread_pool = ThreadPoolExecutor(
+    max_workers=envs.VLLM_MEDIA_LOADING_THREAD_COUNT
+)
+atexit.register(global_thread_pool.shutdown)
+
+_M = TypeVar("_M")
+
+MEDIA_CONNECTOR_REGISTRY = ExtensionManager()
+
+
+@MEDIA_CONNECTOR_REGISTRY.register("http")
+class MediaConnector:
+    def __init__(
+        self,
+        media_io_kwargs: dict[str, dict[str, Any]] | None = None,
+        connection: HTTPConnection = global_http_connection,
+        *,
+        allowed_local_media_path: str = "",
+        allowed_media_domains: list[str] | None = None,
+    ) -> None:
+        """
+        Args:
+            media_io_kwargs: Additional args passed to process media
+                             inputs, keyed by modalities. For example,
+                             to set num_frames for video, set
+                             `--media-io-kwargs '{"video":{"num_frames":40}}'`
+            connection: HTTP connection client to download media contents.
+            allowed_local_media_path: A local directory to load media files
+                                      from.
+        """
+        super().__init__()
+
+        self.media_io_kwargs: dict[str, dict[str, Any]] = (
+            media_io_kwargs if media_io_kwargs else {}
+        )
+        self.connection = connection
+
+        if allowed_local_media_path:
+            allowed_local_media_path_ = Path(allowed_local_media_path)
+
+            if not allowed_local_media_path_.exists():
+                raise ValueError(
+                    "Invalid `--allowed-local-media-path`: The path "
+                    f"{allowed_local_media_path_} does not exist."
+                )
+            if not allowed_local_media_path_.is_dir():
+                raise ValueError(
+                    "Invalid `--allowed-local-media-path`: The path "
+                    f"{allowed_local_media_path_} must be a directory."
+                )
+        else:
+            allowed_local_media_path_ = None
+
+        self.allowed_local_media_path = allowed_local_media_path_
+        if allowed_media_domains is None:
+            allowed_media_domains = []
+        self.allowed_media_domains = allowed_media_domains
+
+    def _load_data_url(
+        self,
+        url_spec: ParseResult,
+        media_io: MediaIO[_M],
+    ) -> _M:  # type: ignore[type-var]
+        data_spec, data = url_spec.path.split(",", 1)
+        media_type, data_type = data_spec.split(";", 1)
+
+        if data_type != "base64":
+            msg = "Only base64 data URLs are supported for now."
+            raise NotImplementedError(msg)
+
+        return media_io.load_base64(media_type, data)
+
+    def _load_file_url(
+        self,
+        url_spec: ParseResult,
+        media_io: MediaIO[_M],
+    ) -> _M:  # type: ignore[type-var]
+        allowed_local_media_path = self.allowed_local_media_path
+        if allowed_local_media_path is None:
+            raise RuntimeError(
+                "Cannot load local files without `--allowed-local-media-path`."
+            )
+
+        filepath = Path(url2pathname(url_spec.path))
+        if allowed_local_media_path not in filepath.resolve().parents:
+            raise ValueError(
+                f"The file path {filepath} must be a subpath "
+                f"of `--allowed-local-media-path` {allowed_local_media_path}."
+            )
+
+        return media_io.load_file(filepath)
+
+    def _assert_url_in_allowed_media_domains(self, url_spec) -> None:
+        if (
+            self.allowed_media_domains
+            and url_spec.hostname not in self.allowed_media_domains
+        ):
+            raise ValueError(
+                f"The URL must be from one of the allowed domains: "
+                f"{self.allowed_media_domains}. Input URL domain: "
+                f"{url_spec.hostname}"
+            )
+
+    def load_from_url(
+        self,
+        url: str,
+        media_io: MediaIO[_M],
+        *,
+        fetch_timeout: int | None = None,
+    ) -> _M:  # type: ignore[type-var]
+        url_spec = urlparse(url)
+
+        if url_spec.scheme.startswith("http"):
+            self._assert_url_in_allowed_media_domains(url_spec)
+
+            connection = self.connection
+            data = connection.get_bytes(
+                url,
+                timeout=fetch_timeout,
+                allow_redirects=envs.VLLM_MEDIA_URL_ALLOW_REDIRECTS,
+            )
+
+            return media_io.load_bytes(data)
+
+        if url_spec.scheme == "data":
+            return self._load_data_url(url_spec, media_io)
+
+        if url_spec.scheme == "file":
+            return self._load_file_url(url_spec, media_io)
+
+        msg = "The URL must be either a HTTP, data or file URL."
+        raise ValueError(msg)
+
+    async def load_from_url_async(
+        self,
+        url: str,
+        media_io: MediaIO[_M],
+        *,
+        fetch_timeout: int | None = None,
+    ) -> _M:
+        url_spec = urlparse(url)
+        loop = asyncio.get_running_loop()
+
+        if url_spec.scheme.startswith("http"):
+            self._assert_url_in_allowed_media_domains(url_spec)
+
+            connection = self.connection
+            data = await connection.async_get_bytes(
+                url,
+                timeout=fetch_timeout,
+                allow_redirects=envs.VLLM_MEDIA_URL_ALLOW_REDIRECTS,
+            )
+            future = loop.run_in_executor(global_thread_pool, media_io.load_bytes, data)
+            return await future
+
+        if url_spec.scheme == "data":
+            future = loop.run_in_executor(
+                global_thread_pool, self._load_data_url, url_spec, media_io
+            )
+            return await future
+
+        if url_spec.scheme == "file":
+            future = loop.run_in_executor(
+                global_thread_pool, self._load_file_url, url_spec, media_io
+            )
+            return await future
+        msg = "The URL must be either a HTTP, data or file URL."
+        raise ValueError(msg)
+
+    def fetch_audio(
+        self,
+        audio_url: str,
+    ) -> tuple[np.ndarray, int | float]:
+        """
+        Load audio from a URL.
+        """
+        audio_io = AudioMediaIO(**self.media_io_kwargs.get("audio", {}))
+
+        return self.load_from_url(
+            audio_url,
+            audio_io,
+            fetch_timeout=envs.VLLM_AUDIO_FETCH_TIMEOUT,
+        )
+
+    async def fetch_audio_async(
+        self,
+        audio_url: str,
+    ) -> tuple[np.ndarray, int | float]:
+        """
+        Asynchronously fetch audio from a URL.
+        """
+        audio_io = AudioMediaIO(**self.media_io_kwargs.get("audio", {}))
+
+        return await self.load_from_url_async(
+            audio_url,
+            audio_io,
+            fetch_timeout=envs.VLLM_AUDIO_FETCH_TIMEOUT,
+        )
+
+    def fetch_image(
+        self,
+        image_url: str,
+        *,
+        image_mode: str = "RGB",
+    ) -> Image.Image:
+        """
+        Load a PIL image from an HTTP or base64 data URL.
+
+        By default, the image is converted into RGB format.
+        """
+        image_io = ImageMediaIO(
+            image_mode=image_mode, **self.media_io_kwargs.get("image", {})
+        )
+
+        try:
+            return self.load_from_url(
+                image_url,
+                image_io,
+                fetch_timeout=envs.VLLM_IMAGE_FETCH_TIMEOUT,
+            )
+        except UnidentifiedImageError as e:
+            # convert to ValueError to be properly caught upstream
+            raise ValueError(str(e)) from e
+
+    async def fetch_image_async(
+        self,
+        image_url: str,
+        *,
+        image_mode: str = "RGB",
+    ) -> Image.Image:
+        """
+        Asynchronously load a PIL image from an HTTP or base64 data URL.
+
+        By default, the image is converted into RGB format.
+        """
+        image_io = ImageMediaIO(
+            image_mode=image_mode, **self.media_io_kwargs.get("image", {})
+        )
+
+        try:
+            return await self.load_from_url_async(
+                image_url,
+                image_io,
+                fetch_timeout=envs.VLLM_IMAGE_FETCH_TIMEOUT,
+            )
+        except UnidentifiedImageError as e:
+            # convert to ValueError to be properly caught upstream
+            raise ValueError(str(e)) from e
+
+    def fetch_video(
+        self,
+        video_url: str,
+        *,
+        image_mode: str = "RGB",
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        """
+        Load video from an HTTP or base64 data URL.
+        """
+        image_io = ImageMediaIO(
+            image_mode=image_mode, **self.media_io_kwargs.get("image", {})
+        )
+        video_io = VideoMediaIO(image_io, **self.media_io_kwargs.get("video", {}))
+
+        return self.load_from_url(
+            video_url,
+            video_io,
+            fetch_timeout=envs.VLLM_VIDEO_FETCH_TIMEOUT,
+        )
+
+    async def fetch_video_async(
+        self,
+        video_url: str,
+        *,
+        image_mode: str = "RGB",
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        """
+        Asynchronously load video from an HTTP or base64 data URL.
+
+        By default, the image is converted into RGB format.
+        """
+        image_io = ImageMediaIO(
+            image_mode=image_mode, **self.media_io_kwargs.get("image", {})
+        )
+        video_io = VideoMediaIO(image_io, **self.media_io_kwargs.get("video", {}))
+
+        return await self.load_from_url_async(
+            video_url,
+            video_io,
+            fetch_timeout=envs.VLLM_VIDEO_FETCH_TIMEOUT,
+        )
+
+    def fetch_image_embedding(
+        self,
+        data: str,
+    ) -> torch.Tensor:
+        """
+        Load image embedding from a URL.
+        """
+        image_embedding_io = ImageEmbeddingMediaIO()
+
+        return image_embedding_io.load_base64("", data)
+
+
+def encode_audio_base64(
+    audio: np.ndarray,
+    sampling_rate: int,
+) -> str:
+    """Encode audio as base64."""
+    audio_io = AudioMediaIO()
+    return audio_io.encode_base64((audio, sampling_rate))
+
+
+def encode_image_base64(
+    image: Image.Image,
+    *,
+    image_mode: str = "RGB",
+    format: str = "JPEG",
+) -> str:
+    """
+    Encode a pillow image to base64 format.
+
+    By default, the image is converted into RGB format before being encoded.
+    """
+    image_io = ImageMediaIO(image_mode=image_mode)
+    return image_io.encode_base64(image, image_format=format)
+
+
+def encode_video_base64(frames: npt.NDArray) -> str:
+    image_io = ImageMediaIO()
+    video_io = VideoMediaIO(image_io)
+    return video_io.encode_base64(frames)
+
+
+def argsort_mm_positions(
+    mm_positions: MultiModalPlaceholderDict,
+) -> list[tuple[str, int]]:
+    """
+    Given a `MultiModalPlaceholderDict`, output a sequence of keys to
+    sort the dictionary by `offset` (starting index in the input sequence)
+    in ascending order.
+
+    Returns:
+        A list of `(modality, idx)`, which can be used to access an item
+        by `mm_positions[modality][idx]`.
+    """
+    flat_items = (
+        (modality, idx, item)
+        for modality, items in mm_positions.items()
+        for idx, item in enumerate(items)
+    )
+
+    sorted_flat_items = sorted(flat_items, key=lambda x: x[2].offset)
+
+    return [(modality, idx) for modality, idx, _ in sorted_flat_items]
+
+
+def group_mm_kwargs_by_modality(
+    mm_kwargs: list[MultiModalKwargsItem],
+    *,
+    device: torch.types.Device = None,
+    pin_memory: bool = False,
+    merge_by_field_config: bool | None = None,
+    multimodal_cpu_fields: Set[str] = frozenset(),
+) -> Iterable[tuple[str, int, BatchedTensorInputs]]:
+    """Group consecutive `MultiModalKwargsItem`s from `mm_kwargs` with the same
+    modality together into the same `MultiModalKwargs` instance.
+
+    Args:
+        mm_kwargs: List of `MultiModalKwargsItem`.
+        device: The device to place the grouped tensors on.
+        pin_memory: Whether to pin memory for faster host-to-device transfer.
+
+    Yields:
+        A tuple `(modality, num_items, grouped_kwargs)`.
+    """
+    if merge_by_field_config is None:
+        raise RuntimeError(
+            "`group_mm_kwargs_by_modality` now requires "
+            "`merge_by_field_config` arg, please update your model runner "
+            "according to https://github.com/vllm-project/vllm/pull/25676."
+        )
+    if merge_by_field_config is False:
+        logger.warning_once(
+            "The legacy code for batching multi-modal kwargs is deprecated and "
+            "will be removed in v0.12. Please update your model with "
+            "`merge_by_field_config=True` to use the new code defined by "
+            "`MultiModalFieldConfig`. You can refer to "
+            "https://github.com/vllm-project/vllm/issues/26149 "
+            "for some examples on how to do this."
+        )
+
+    from vllm.multimodal.inputs import MultiModalKwargs, MultiModalKwargsItems
+
+    for modality, items in groupby(mm_kwargs, key=lambda item: item.modality):
+        items_lst = list(items)
+
+        if merge_by_field_config:
+            mm_kwargs_group: BatchedTensorInputs = dict(
+                MultiModalKwargsItems.from_seq(items_lst).get_data(
+                    pin_memory=pin_memory
+                )
+            )
+
+            if device is not None:
+                mm_kwargs_group = {
+                    k: json_map_leaves(
+                        lambda x: x.to(device=device, non_blocking=True)
+                        if isinstance(x, torch.Tensor)
+                        else x,
+                        v,
+                    )
+                    if k not in multimodal_cpu_fields
+                    else v
+                    for k, v in mm_kwargs_group.items()
+                }
+        else:
+            mm_kwargs_group = MultiModalKwargs.as_kwargs(
+                MultiModalKwargs.batch(
+                    [
+                        MultiModalKwargsItems.from_seq([item]).get_data()
+                        for item in items_lst
+                    ],
+                    pin_memory=pin_memory,
+                ),
+                device=device,
+            )
+
+        yield modality, len(items_lst), mm_kwargs_group
+
+
+def fetch_audio(
+    audio_url: str,
+    audio_io_kwargs: dict[str, Any] | None = None,
+) -> tuple[np.ndarray, int | float]:
+    """
+    Args:
+        audio_url: URL of the audio file to fetch.
+        audio_io_kwargs: Additional kwargs passed to handle audio IO.
+    """
+    media_io_kwargs = None if not audio_io_kwargs else {"audio": audio_io_kwargs}
+    media_connector = MediaConnector(media_io_kwargs=media_io_kwargs)
+    return media_connector.fetch_audio(audio_url)
+
+
+def fetch_image(
+    image_url: str,
+    image_io_kwargs: dict[str, Any] | None = None,
+) -> Image.Image:
+    """
+    Args:
+        image_url: URL of the image file to fetch.
+        image_io_kwargs: Additional kwargs passed to handle image IO.
+    """
+    media_io_kwargs = None if not image_io_kwargs else {"image": image_io_kwargs}
+    media_connector = MediaConnector(media_io_kwargs=media_io_kwargs)
+    return media_connector.fetch_image(image_url)
+
+
+def fetch_video(
+    video_url: str,
+    video_io_kwargs: dict[str, Any] | None = None,
+) -> tuple[npt.NDArray, dict[str, Any]]:
+    """
+    Args:
+        video_url: URL of the video file to fetch.
+        video_io_kwargs: Additional kwargs passed to handle video IO.
+    """
+    media_io_kwargs = None if not video_io_kwargs else {"video": video_io_kwargs}
+    media_connector = MediaConnector(media_io_kwargs=media_io_kwargs)
+    return media_connector.fetch_video(video_url)
diff --git a/multimodal/video.py b/multimodal/video.py
new file mode 100644
index 0000000..369c5e6
--- /dev/null
+++ b/multimodal/video.py
@@ -0,0 +1,306 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import base64
+import math
+from abc import abstractmethod
+from functools import partial
+from io import BytesIO
+from pathlib import Path
+from typing import Any
+
+import numpy as np
+import numpy.typing as npt
+from PIL import Image
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.utils.registry import ExtensionManager
+
+from .base import MediaIO
+from .image import ImageMediaIO
+
+logger = init_logger(__name__)
+
+
+def resize_video(frames: npt.NDArray, size: tuple[int, int]) -> npt.NDArray:
+    num_frames, _, _, channels = frames.shape
+    new_height, new_width = size
+    resized_frames = np.empty(
+        (num_frames, new_height, new_width, channels), dtype=frames.dtype
+    )
+    # lazy import cv2 to avoid bothering users who only use text models
+    import cv2
+
+    for i, frame in enumerate(frames):
+        resized_frame = cv2.resize(frame, (new_width, new_height))
+        resized_frames[i] = resized_frame
+    return resized_frames
+
+
+def rescale_video_size(frames: npt.NDArray, size_factor: float) -> npt.NDArray:
+    _, height, width, _ = frames.shape
+    new_height = int(height * size_factor)
+    new_width = int(width * size_factor)
+
+    return resize_video(frames, (new_height, new_width))
+
+
+def sample_frames_from_video(frames: npt.NDArray, num_frames: int) -> npt.NDArray:
+    total_frames = frames.shape[0]
+    if num_frames == -1:
+        return frames
+
+    frame_indices = np.linspace(0, total_frames - 1, num_frames, dtype=int)
+    sampled_frames = frames[frame_indices, ...]
+    return sampled_frames
+
+
+class VideoLoader:
+    @classmethod
+    @abstractmethod
+    def load_bytes(
+        cls, data: bytes, num_frames: int = -1, **kwargs
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        raise NotImplementedError
+
+
+VIDEO_LOADER_REGISTRY = ExtensionManager()
+
+
+@VIDEO_LOADER_REGISTRY.register("opencv")
+class OpenCVVideoBackend(VideoLoader):
+    def get_cv2_video_api(self):
+        import cv2.videoio_registry as vr
+
+        api_pref = None
+        for backend in vr.getStreamBufferedBackends():
+            if not vr.hasBackend(backend):
+                continue
+            if not vr.isBackendBuiltIn(backend):
+                _, abi, api = vr.getStreamBufferedBackendPluginVersion(backend)
+                if abi < 1 or (abi == 1 and api < 2):
+                    continue
+            api_pref = backend
+            break
+        return api_pref
+
+    @classmethod
+    def load_bytes(
+        cls,
+        data: bytes,
+        num_frames: int = -1,
+        fps: int = -1,
+        **kwargs,
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        import cv2
+
+        backend = cls().get_cv2_video_api()
+        cap = cv2.VideoCapture(BytesIO(data), backend, [])
+        if not cap.isOpened():
+            raise ValueError("Could not open video stream")
+
+        total_frames_num = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+        original_fps = cap.get(cv2.CAP_PROP_FPS)
+        duration = total_frames_num / original_fps if original_fps > 0 else 0
+
+        # resample video to target num_frames and fps
+        # - the minimum of the two will be used
+        num_frames_to_sample = total_frames_num
+        if num_frames > 0:
+            num_frames_to_sample = min(num_frames, total_frames_num)
+        if fps > 0:
+            num_frames_to_sample = min(num_frames_to_sample, math.floor(duration * fps))
+        num_frames_to_sample = max(1, num_frames_to_sample)  # at least one sample
+
+        if num_frames_to_sample == total_frames_num:
+            frame_idx = list(range(0, num_frames_to_sample))
+        else:
+            uniform_sampled_frames = np.linspace(
+                0, total_frames_num - 1, num_frames_to_sample, dtype=int
+            )
+            frame_idx = uniform_sampled_frames.tolist()
+
+        width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
+        height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
+        frames = np.empty((len(frame_idx), height, width, 3), dtype=np.uint8)
+
+        i = 0
+        for idx in range(max(frame_idx) + 1):
+            ok = cap.grab()
+            if not ok:
+                break
+            if idx in frame_idx:
+                ret, frame = cap.retrieve()
+                if ret:
+                    frames[i] = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+                    i += 1
+
+        assert i == num_frames_to_sample, (
+            f"Expected reading {num_frames_to_sample} frames, "
+            f"but only loaded {i} frames from video."
+        )
+
+        # Use transformers transformers.video_utils.VideoMetadata format
+        # NOTE(Isotr0py): For models like Qwen3-VL/GLM4.5V, this metadata
+        # can cause incorrect timestamp calculation without num_frames=-1.
+        metadata = {
+            "total_num_frames": total_frames_num,
+            "fps": original_fps,
+            "duration": duration,
+            "video_backend": "opencv",
+            "frames_indices": list(frame_idx),
+            # extra field used to control hf processor's video
+            # sampling behavior
+            "do_sample_frames": num_frames_to_sample == total_frames_num,
+        }
+
+        return frames, metadata
+
+
+@VIDEO_LOADER_REGISTRY.register("opencv_dynamic")
+class OpenCVDynamicVideoBackend(OpenCVVideoBackend):
+    @classmethod
+    def load_bytes(
+        cls,
+        data: bytes,
+        num_frames: int = -1,
+        fps: int = 2,
+        max_duration: int = 300,
+        **kwargs,
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        import cv2
+
+        backend = cls().get_cv2_video_api()
+        cap = cv2.VideoCapture(BytesIO(data), backend, [])
+        if not cap.isOpened():
+            raise ValueError("Could not open video stream")
+
+        total_frames_num = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+        original_fps = cap.get(cv2.CAP_PROP_FPS)
+        duration = total_frames_num / original_fps if original_fps > 0 else 0
+
+        # resample video to target num_frames
+        max_frame_idx = total_frames_num - 1
+        duration = duration or round(max_frame_idx / original_fps) + 1
+
+        # Refer to:
+        # https://github.com/huggingface/transformers/blob/v4.55.4/src/transformers/models/glm4v/video_processing_glm4v.py#L103-L140
+        frame_indices: range | list[int]
+        if duration <= max_duration:
+            n = int(math.floor(duration * fps))
+            frame_indices = sorted(
+                {
+                    min(max_frame_idx, int(math.ceil(i * original_fps / fps)))
+                    for i in range(n)
+                }
+            )
+        else:
+            num_samples = int(max_duration * fps)
+            if num_samples >= total_frames_num:
+                frame_indices = range(total_frames_num)
+            else:
+                target_seconds = np.linspace(0, duration, num_samples, endpoint=True)
+                frame_indices = sorted(
+                    {
+                        min(max_frame_idx, int(math.ceil(t * original_fps)))
+                        for t in target_seconds
+                    }
+                )
+
+        width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
+        height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
+        frames = np.empty((len(frame_indices), height, width, 3), dtype=np.uint8)
+
+        i = 0
+        for idx in range(total_frames_num):
+            ok = cap.grab()
+            if not ok:
+                break
+            if idx in frame_indices:
+                ret, frame = cap.retrieve()
+                if ret:
+                    frames[i] = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+                    i += 1
+
+        assert i == len(frame_indices), (
+            f"Expected reading {len(frame_indices)} frames, "
+            f"but only loaded {i} frames from video."
+        )
+
+        # Use transformers transformers.video_utils.VideoMetadata format
+        metadata = {
+            "total_num_frames": total_frames_num,
+            "fps": original_fps,
+            "duration": duration,
+            "video_backend": "opencv_dynamic",
+            "frames_indices": list(frame_indices),
+            "do_sample_frames": False,
+        }
+
+        return frames, metadata
+
+
+class VideoMediaIO(MediaIO[npt.NDArray]):
+    def __init__(
+        self,
+        image_io: ImageMediaIO,
+        num_frames: int = 32,
+        **kwargs,
+    ) -> None:
+        super().__init__()
+
+        self.image_io = image_io
+        self.num_frames = num_frames
+        # `kwargs` contains custom arguments from
+        # --media-io-kwargs for this modality.
+        # They can be passed to the underlying
+        # media loaders (e.g. custom implementations)
+        # for flexible control.
+        self.kwargs = kwargs
+        video_loader_backend = envs.VLLM_VIDEO_LOADER_BACKEND
+        self.video_loader = VIDEO_LOADER_REGISTRY.load(video_loader_backend)
+
+    def load_bytes(self, data: bytes) -> tuple[npt.NDArray, dict[str, Any]]:
+        return self.video_loader.load_bytes(
+            data, num_frames=self.num_frames, **self.kwargs
+        )
+
+    def load_base64(
+        self, media_type: str, data: str
+    ) -> tuple[npt.NDArray, dict[str, Any]]:
+        if media_type.lower() == "video/jpeg":
+            load_frame = partial(
+                self.image_io.load_base64,
+                "image/jpeg",
+            )
+
+            return np.stack(
+                [np.asarray(load_frame(frame_data)) for frame_data in data.split(",")]
+            ), {}
+
+        return self.load_bytes(base64.b64decode(data))
+
+    def load_file(self, filepath: Path) -> tuple[npt.NDArray, dict[str, Any]]:
+        with filepath.open("rb") as f:
+            data = f.read()
+
+        return self.load_bytes(data)
+
+    def encode_base64(
+        self,
+        media: npt.NDArray,
+        *,
+        video_format: str = "JPEG",
+    ) -> str:
+        video = media
+
+        if video_format == "JPEG":
+            encode_frame = partial(
+                self.image_io.encode_base64,
+                image_format=video_format,
+            )
+
+            return ",".join(encode_frame(Image.fromarray(frame)) for frame in video)
+
+        msg = "Only JPEG format is supported for now."
+        raise NotImplementedError(msg)
diff --git a/outputs.py b/outputs.py
new file mode 100644
index 0000000..cdfe06f
--- /dev/null
+++ b/outputs.py
@@ -0,0 +1,345 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import MutableSequence
+from collections.abc import Sequence as GenericSequence
+from dataclasses import dataclass
+from typing import Any, Generic
+
+import torch
+from typing_extensions import TypeVar
+
+from vllm.logger import init_logger
+from vllm.logprobs import PromptLogprobs, SampleLogprobs
+from vllm.lora.request import LoRARequest
+from vllm.multimodal.inputs import MultiModalPlaceholderDict
+from vllm.sequence import RequestMetrics
+from vllm.v1.metrics.stats import RequestStateStats
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class CompletionOutput:
+    """The output data of one completion output of a request.
+
+    Args:
+        index: The index of the output in the request.
+        text: The generated output text.
+        token_ids: The token IDs of the generated output text.
+        cumulative_logprob: The cumulative log probability of the generated
+            output text.
+        logprobs: The log probabilities of the top probability words at each
+            position if the logprobs are requested.
+        finish_reason: The reason why the sequence is finished.
+        stop_reason: The stop string or token id that caused the completion
+            to stop, None if the completion finished for some other reason
+            including encountering the EOS token.
+        lora_request: The LoRA request that was used to generate the output.
+    """
+
+    index: int
+    text: str
+    token_ids: GenericSequence[int]
+    cumulative_logprob: float | None
+    logprobs: SampleLogprobs | None
+    finish_reason: str | None = None
+    stop_reason: int | str | None = None
+    lora_request: LoRARequest | None = None
+
+    def finished(self) -> bool:
+        return self.finish_reason is not None
+
+    def __repr__(self) -> str:
+        return (
+            f"CompletionOutput(index={self.index}, "
+            f"text={self.text!r}, "
+            f"token_ids={self.token_ids}, "
+            f"cumulative_logprob={self.cumulative_logprob}, "
+            f"logprobs={self.logprobs}, "
+            f"finish_reason={self.finish_reason}, "
+            f"stop_reason={self.stop_reason})"
+        )
+
+
+@dataclass
+class PoolingOutput:
+    """The output data of one pooling output of a request.
+
+    Args:
+        data: The extracted hidden states.
+    """
+
+    data: torch.Tensor
+
+    def __repr__(self) -> str:
+        return f"PoolingOutput(data={self.data})"
+
+    def __eq__(self, other: object) -> bool:
+        return isinstance(other, self.__class__) and bool(
+            (self.data == other.data).all()
+        )
+
+
+class RequestOutput:
+    """The output data of a completion request to the LLM.
+
+    Args:
+        request_id: The unique ID of the request.
+        prompt: The prompt string of the request.
+                For encoder/decoder models, this is the
+                decoder input prompt.
+        prompt_token_ids: The token IDs of the prompt.
+                          For encoder/decoder models, this is the
+                          decoder input prompt token ids.
+        prompt_logprobs: The log probabilities to return per prompt token.
+        outputs: The output sequences of the request.
+        finished: Whether the whole request is finished.
+        metrics: Metrics associated with the request.
+        lora_request: The LoRA request that was used to generate the output.
+        encoder_prompt: The encoder prompt string of the request.
+                        None if decoder-only.
+        encoder_prompt_token_ids: The token IDs of the encoder prompt.
+                                  None if decoder-only.
+        num_cached_tokens: The number of tokens with prefix cache hit.
+        kv_transfer_params: The params for remote K/V transfer.
+    """
+
+    def __init__(
+        self,
+        request_id: str,
+        prompt: str | None,
+        prompt_token_ids: list[int] | None,
+        prompt_logprobs: PromptLogprobs | None,
+        outputs: list[CompletionOutput],
+        finished: bool,
+        metrics: RequestMetrics | RequestStateStats | None = None,
+        lora_request: LoRARequest | None = None,
+        encoder_prompt: str | None = None,
+        encoder_prompt_token_ids: list[int] | None = None,
+        num_cached_tokens: int | None = None,
+        *,
+        multi_modal_placeholders: MultiModalPlaceholderDict | None = None,
+        kv_transfer_params: dict[str, Any] | None = None,
+        # Forward compatibility, code that uses args added in new release can
+        # still run with older versions of vLLM without breaking.
+        **kwargs: Any,
+    ) -> None:
+        if kwargs:
+            logger.warning_once(
+                "RequestOutput: Ignoring extra arguments: %s", str(kwargs)
+            )
+        self.request_id = request_id
+        self.prompt = prompt
+        self.prompt_token_ids = prompt_token_ids
+        self.multi_modal_placeholders = multi_modal_placeholders or {}
+        self.prompt_logprobs = prompt_logprobs
+        self.outputs = outputs
+        self.finished = finished
+        self.metrics = metrics
+        self.lora_request = lora_request
+        self.encoder_prompt = encoder_prompt
+        self.encoder_prompt_token_ids = encoder_prompt_token_ids
+        self.num_cached_tokens = num_cached_tokens
+        self.kv_transfer_params = kv_transfer_params
+
+    def add(self, next_output: "RequestOutput", aggregate: bool) -> None:
+        """Merge subsequent RequestOutput into this one"""
+
+        self.finished |= next_output.finished
+        self.kv_transfer_params = next_output.kv_transfer_params
+
+        for next_completion in next_output.outputs:
+            for i, completion in enumerate(self.outputs):
+                if completion.index == next_completion.index:
+                    if aggregate:
+                        # Merge outputs with same index
+                        completion.text += next_completion.text
+                        if not isinstance(completion.token_ids, MutableSequence):
+                            completion.token_ids = list(completion.token_ids)
+                        completion.token_ids.extend(next_completion.token_ids)
+                        if next_completion.logprobs:
+                            assert completion.logprobs is not None
+                            completion.logprobs.extend(next_completion.logprobs)
+                        completion.cumulative_logprob = (
+                            next_completion.cumulative_logprob
+                        )
+                        completion.finish_reason = next_completion.finish_reason
+                        completion.stop_reason = next_completion.stop_reason
+                    else:
+                        # Replace the output with the new one
+                        self.outputs[i] = next_completion
+                    break
+            else:
+                self.outputs.append(next_completion)
+
+    def __repr__(self) -> str:
+        return (
+            f"RequestOutput(request_id={self.request_id}, "
+            f"prompt={self.prompt!r}, "
+            f"prompt_token_ids={self.prompt_token_ids}, "
+            f"encoder_prompt={self.encoder_prompt!r}, "
+            f"encoder_prompt_token_ids={self.encoder_prompt_token_ids}, "
+            f"prompt_logprobs={self.prompt_logprobs}, "
+            f"outputs={self.outputs}, "
+            f"finished={self.finished}, "
+            f"metrics={self.metrics}, "
+            f"lora_request={self.lora_request}, "
+            f"num_cached_tokens={self.num_cached_tokens}, "
+            f"multi_modal_placeholders={self.multi_modal_placeholders})"
+        )
+
+
+_O = TypeVar("_O", default=PoolingOutput)
+
+
+class PoolingRequestOutput(Generic[_O]):
+    """
+    The output data of a pooling request to the LLM.
+
+    Args:
+        request_id (str): A unique identifier for the pooling request.
+        outputs (PoolingOutput): The pooling results for the given input.
+        prompt_token_ids (list[int]): A list of token IDs used in the prompt.
+        num_cached_tokens: The number of tokens with prefix cache hit.
+        finished (bool): A flag indicating whether the pooling is completed.
+    """
+
+    def __init__(
+        self,
+        request_id: str,
+        outputs: _O,
+        prompt_token_ids: list[int],
+        num_cached_tokens: int,
+        finished: bool,
+    ):
+        self.request_id = request_id
+        self.prompt_token_ids = prompt_token_ids
+        self.num_cached_tokens = num_cached_tokens
+        self.finished = finished
+        self.outputs = outputs
+
+    def __repr__(self):
+        return (
+            f"{type(self).__name__}(request_id={self.request_id!r}, "
+            f"outputs={self.outputs!r}, "
+            f"prompt_token_ids={self.prompt_token_ids}, "
+            f"num_cached_tokens={self.num_cached_tokens}, "
+            f"finished={self.finished})"
+        )
+
+
+@dataclass
+class EmbeddingOutput:
+    """The output data of one embedding output of a request.
+
+    Args:
+        embedding: The embedding vector, which is a list of floats.
+            Its length depends on the hidden dimension of the model.
+    """
+
+    embedding: list[float]
+
+    @staticmethod
+    def from_base(pooling_output: PoolingOutput):
+        pooled_data = pooling_output.data
+        if pooled_data.ndim != 1:
+            raise ValueError("pooled_data should be a 1-D embedding vector")
+
+        return EmbeddingOutput(pooled_data.tolist())
+
+    @property
+    def hidden_size(self) -> int:
+        return len(self.embedding)
+
+    def __repr__(self) -> str:
+        return f"EmbeddingOutput(hidden_size={self.hidden_size})"
+
+
+class EmbeddingRequestOutput(PoolingRequestOutput[EmbeddingOutput]):
+    @staticmethod
+    def from_base(request_output: PoolingRequestOutput):
+        return EmbeddingRequestOutput(
+            request_id=request_output.request_id,
+            outputs=EmbeddingOutput.from_base(request_output.outputs),
+            prompt_token_ids=request_output.prompt_token_ids,
+            num_cached_tokens=request_output.num_cached_tokens,
+            finished=request_output.finished,
+        )
+
+
+@dataclass
+class ClassificationOutput:
+    """The output data of one classification output of a request.
+
+    Args:
+        probs: The probability vector, which is a list of floats.
+            Its length depends on the number of classes.
+    """
+
+    probs: list[float]
+
+    @staticmethod
+    def from_base(pooling_output: PoolingOutput):
+        # pooling_output shape: (num_classes)
+        pooled_data = pooling_output.data
+        if pooled_data.ndim != 1:
+            raise ValueError("pooled_data should be a 1-D probability vector")
+
+        return ClassificationOutput(pooled_data.tolist())
+
+    @property
+    def num_classes(self) -> int:
+        return len(self.probs)
+
+    def __repr__(self) -> str:
+        return f"ClassificationOutput(num_classes={self.num_classes})"
+
+
+class ClassificationRequestOutput(PoolingRequestOutput[ClassificationOutput]):
+    @staticmethod
+    def from_base(request_output: PoolingRequestOutput):
+        return ClassificationRequestOutput(
+            request_id=request_output.request_id,
+            outputs=ClassificationOutput.from_base(request_output.outputs),
+            prompt_token_ids=request_output.prompt_token_ids,
+            num_cached_tokens=request_output.num_cached_tokens,
+            finished=request_output.finished,
+        )
+
+
+@dataclass
+class ScoringOutput:
+    """The output data of one scoring output of a request.
+
+    Args:
+        score: The similarity score, which is a scalar value.
+    """
+
+    score: float
+
+    @staticmethod
+    def from_base(pooling_output: PoolingOutput):
+        # pooling_output shape:
+        #   classify task: (num_classes) num_classes == 1
+        #   embed task: a scalar value
+        pooled_data = pooling_output.data.squeeze()
+        if pooled_data.ndim != 0:
+            raise ValueError("pooled_data should be a scalar score")
+
+        return ScoringOutput(pooled_data.item())
+
+    def __repr__(self) -> str:
+        return f"ScoringOutput(score={self.score})"
+
+
+class ScoringRequestOutput(PoolingRequestOutput[ScoringOutput]):
+    @staticmethod
+    def from_base(request_output: PoolingRequestOutput):
+        return ScoringRequestOutput(
+            request_id=request_output.request_id,
+            outputs=ScoringOutput.from_base(request_output.outputs),
+            prompt_token_ids=request_output.prompt_token_ids,
+            num_cached_tokens=request_output.num_cached_tokens,
+            finished=request_output.finished,
+        )
diff --git a/platforms/__init__.py b/platforms/__init__.py
new file mode 100644
index 0000000..a45ca98
--- /dev/null
+++ b/platforms/__init__.py
@@ -0,0 +1,277 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import logging
+import traceback
+from itertools import chain
+from typing import TYPE_CHECKING
+
+from vllm import envs
+from vllm.plugins import PLATFORM_PLUGINS_GROUP, load_plugins_by_group
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.torch_utils import supports_xccl
+
+from .interface import CpuArchEnum, Platform, PlatformEnum
+
+logger = logging.getLogger(__name__)
+
+
+def vllm_version_matches_substr(substr: str) -> bool:
+    """
+    Check to see if the vLLM version matches a substring.
+    """
+    from importlib.metadata import PackageNotFoundError, version
+
+    try:
+        vllm_version = version("vllm")
+    except PackageNotFoundError as e:
+        logger.warning(
+            "The vLLM package was not found, so its version could not be "
+            "inspected. This may cause platform detection to fail."
+        )
+        raise e
+    return substr in vllm_version
+
+
+def tpu_platform_plugin() -> str | None:
+    logger.debug("Checking if TPU platform is available.")
+
+    # Check for Pathways TPU proxy
+    if envs.VLLM_TPU_USING_PATHWAYS:
+        logger.debug("Confirmed TPU platform is available via Pathways proxy.")
+        return "tpu_inference.platforms.tpu_platform.TpuPlatform"
+
+    # Check for libtpu installation
+    try:
+        # While it's technically possible to install libtpu on a
+        # non-TPU machine, this is a very uncommon scenario. Therefore,
+        # we assume that libtpu is installed only if the machine
+        # has TPUs.
+
+        import libtpu  # noqa: F401
+
+        logger.debug("Confirmed TPU platform is available.")
+        return "vllm.platforms.tpu.TpuPlatform"
+    except Exception as e:
+        logger.debug("TPU platform is not available because: %s", str(e))
+        return None
+
+
+def cuda_platform_plugin() -> str | None:
+    is_cuda = False
+    logger.debug("Checking if CUDA platform is available.")
+    try:
+        from vllm.utils.import_utils import import_pynvml
+
+        pynvml = import_pynvml()
+        pynvml.nvmlInit()
+        try:
+            # NOTE: Edge case: vllm cpu build on a GPU machine.
+            # Third-party pynvml can be imported in cpu build,
+            # we need to check if vllm is built with cpu too.
+            # Otherwise, vllm will always activate cuda plugin
+            # on a GPU machine, even if in a cpu build.
+            is_cuda = (
+                pynvml.nvmlDeviceGetCount() > 0
+                and not vllm_version_matches_substr("cpu")
+            )
+            if pynvml.nvmlDeviceGetCount() <= 0:
+                logger.debug("CUDA platform is not available because no GPU is found.")
+            if vllm_version_matches_substr("cpu"):
+                logger.debug(
+                    "CUDA platform is not available because vLLM is built with CPU."
+                )
+            if is_cuda:
+                logger.debug("Confirmed CUDA platform is available.")
+        finally:
+            pynvml.nvmlShutdown()
+    except Exception as e:
+        logger.debug("Exception happens when checking CUDA platform: %s", str(e))
+        if "nvml" not in e.__class__.__name__.lower():
+            # If the error is not related to NVML, re-raise it.
+            raise e
+
+        # CUDA is supported on Jetson, but NVML may not be.
+        import os
+
+        def cuda_is_jetson() -> bool:
+            return os.path.isfile("/etc/nv_tegra_release") or os.path.exists(
+                "/sys/class/tegra-firmware"
+            )
+
+        if cuda_is_jetson():
+            logger.debug("Confirmed CUDA platform is available on Jetson.")
+            is_cuda = True
+        else:
+            logger.debug("CUDA platform is not available because: %s", str(e))
+
+    return "vllm.platforms.cuda.CudaPlatform" if is_cuda else None
+
+
+def rocm_platform_plugin() -> str | None:
+    is_rocm = False
+    logger.debug("Checking if ROCm platform is available.")
+    try:
+        import amdsmi
+
+        amdsmi.amdsmi_init()
+        try:
+            if len(amdsmi.amdsmi_get_processor_handles()) > 0:
+                is_rocm = True
+                logger.debug("Confirmed ROCm platform is available.")
+            else:
+                logger.debug("ROCm platform is not available because no GPU is found.")
+        finally:
+            amdsmi.amdsmi_shut_down()
+    except Exception as e:
+        logger.debug("ROCm platform is not available because: %s", str(e))
+
+    return "vllm.platforms.rocm.RocmPlatform" if is_rocm else None
+
+
+def xpu_platform_plugin() -> str | None:
+    is_xpu = False
+    logger.debug("Checking if XPU platform is available.")
+    try:
+        # installed IPEX if the machine has XPUs.
+        import intel_extension_for_pytorch  # noqa: F401
+        import torch
+
+        if supports_xccl():
+            dist_backend = "xccl"
+        else:
+            dist_backend = "ccl"
+            import oneccl_bindings_for_pytorch  # noqa: F401
+
+        if hasattr(torch, "xpu") and torch.xpu.is_available():
+            is_xpu = True
+            from vllm.platforms.xpu import XPUPlatform
+
+            XPUPlatform.dist_backend = dist_backend
+            logger.debug("Confirmed %s backend is available.", XPUPlatform.dist_backend)
+            logger.debug("Confirmed XPU platform is available.")
+    except Exception as e:
+        logger.debug("XPU platform is not available because: %s", str(e))
+
+    return "vllm.platforms.xpu.XPUPlatform" if is_xpu else None
+
+
+def cpu_platform_plugin() -> str | None:
+    is_cpu = False
+    logger.debug("Checking if CPU platform is available.")
+    try:
+        is_cpu = vllm_version_matches_substr("cpu")
+        if is_cpu:
+            logger.debug(
+                "Confirmed CPU platform is available because vLLM is built with CPU."
+            )
+        if not is_cpu:
+            import sys
+
+            is_cpu = sys.platform.startswith("darwin")
+            if is_cpu:
+                logger.debug(
+                    "Confirmed CPU platform is available because the machine is MacOS."
+                )
+
+    except Exception as e:
+        logger.debug("CPU platform is not available because: %s", str(e))
+
+    return "vllm.platforms.cpu.CpuPlatform" if is_cpu else None
+
+
+builtin_platform_plugins = {
+    "tpu": tpu_platform_plugin,
+    "cuda": cuda_platform_plugin,
+    "rocm": rocm_platform_plugin,
+    "xpu": xpu_platform_plugin,
+    "cpu": cpu_platform_plugin,
+}
+
+
+def resolve_current_platform_cls_qualname() -> str:
+    platform_plugins = load_plugins_by_group(PLATFORM_PLUGINS_GROUP)
+
+    activated_plugins = []
+
+    for name, func in chain(builtin_platform_plugins.items(), platform_plugins.items()):
+        try:
+            assert callable(func)
+            platform_cls_qualname = func()
+            if platform_cls_qualname is not None:
+                activated_plugins.append(name)
+        except Exception:
+            pass
+
+    activated_builtin_plugins = list(
+        set(activated_plugins) & set(builtin_platform_plugins.keys())
+    )
+    activated_oot_plugins = list(set(activated_plugins) & set(platform_plugins.keys()))
+
+    if len(activated_oot_plugins) >= 2:
+        raise RuntimeError(
+            "Only one platform plugin can be activated, but got: "
+            f"{activated_oot_plugins}"
+        )
+    elif len(activated_oot_plugins) == 1:
+        platform_cls_qualname = platform_plugins[activated_oot_plugins[0]]()
+        logger.info("Platform plugin %s is activated", activated_oot_plugins[0])
+    elif len(activated_builtin_plugins) >= 2:
+        raise RuntimeError(
+            "Only one platform plugin can be activated, but got: "
+            f"{activated_builtin_plugins}"
+        )
+    elif len(activated_builtin_plugins) == 1:
+        platform_cls_qualname = builtin_platform_plugins[activated_builtin_plugins[0]]()
+        logger.debug(
+            "Automatically detected platform %s.", activated_builtin_plugins[0]
+        )
+    else:
+        platform_cls_qualname = "vllm.platforms.interface.UnspecifiedPlatform"
+        logger.debug("No platform detected, vLLM is running on UnspecifiedPlatform")
+    return platform_cls_qualname
+
+
+_current_platform = None
+_init_trace: str = ""
+
+if TYPE_CHECKING:
+    current_platform: Platform
+
+
+def __getattr__(name: str):
+    if name == "current_platform":
+        # lazy init current_platform.
+        # 1. out-of-tree platform plugins need `from vllm.platforms import
+        #    Platform` so that they can inherit `Platform` class. Therefore,
+        #    we cannot resolve `current_platform` during the import of
+        #    `vllm.platforms`.
+        # 2. when users use out-of-tree platform plugins, they might run
+        #    `import vllm`, some vllm internal code might access
+        #    `current_platform` during the import, and we need to make sure
+        #    `current_platform` is only resolved after the plugins are loaded
+        #    (we have tests for this, if any developer violate this, they will
+        #    see the test failures).
+        global _current_platform
+        if _current_platform is None:
+            platform_cls_qualname = resolve_current_platform_cls_qualname()
+            _current_platform = resolve_obj_by_qualname(platform_cls_qualname)()
+            global _init_trace
+            _init_trace = "".join(traceback.format_stack())
+        return _current_platform
+    elif name in globals():
+        return globals()[name]
+    else:
+        raise AttributeError(f"No attribute named '{name}' exists in {__name__}.")
+
+
+def __setattr__(name: str, value):
+    if name == "current_platform":
+        global _current_platform
+        _current_platform = value
+    elif name in globals():
+        globals()[name] = value
+    else:
+        raise AttributeError(f"No attribute named '{name}' exists in {__name__}.")
+
+
+__all__ = ["Platform", "PlatformEnum", "current_platform", "CpuArchEnum", "_init_trace"]
diff --git a/platforms/__pycache__/__init__.cpython-312.pyc b/platforms/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6eeedd4b1b6bd30aa192b619df52bace0e20ec52
GIT binary patch
literal 10992
zcmbtae{2+2et)wwvp>A!{b76k8+(jxV8N^*5DbQx_$L93aj*@+qTL(sjO{i1i<wy)
z@2ztrt$HRwI-*<)G`%KmBbDl;D!M;fPHLM3qA1n%k6qTOorzI79aVMzEiqLQsnmYo
z?9S|ZS#WaqwEO1Gd*Ao_eLvqHZ+=x;T7n=1sJHz$w;=Qz{GtV8HnH{t0-<YY4DpC3
z0%$z*B*qDNHv|kpa-1Y^9vPs5^f;}isemzP8aJtFI$#c3#x22;@e=jj7_bJJaYjv>
z0;NIQxDC=~-V(3}9pjFmbKDs$8!sb}0SRaZMpYPuil4)Xa2R*-B|;@{6{;pFp7~>H
zyc*J#JP|V?G-=>VA*W_tjtz2Z*X7tDr*2)219Ixu<v1Z{lTahn3Uxxgu!%4G3wpc(
zQ$Qc(P}ay39Lra5O+uxxnRgw6kqNX&3r={e#BY3+N?Q%I&DnGfq+6yCU;Ed@c<Vgj
zuKO*X(2$!@Xx}vF4?&`I^z3lIxA&F)-s4Ayjz9(_gk~kTL8%-b>>eFBdFq6BcyR2<
z(V-FVky9tfh80&J%<<kxAUfp_N#2Qh@01vhMxbJqC`jSJtl$k#%;5YBQ7#bTf&%VD
zibf(~QI@<HeZIhN@xr=E#o8N*c8k90{!lcin1=(LJQ)^)3Ztdee4`YdkYrIYih>*!
zL%!^$;CUbl{v`a@WQeZ8!GWWKg2Vz5G%OehWP#0%8+cON$OSTv;^ZtELCq*mv>>s5
zfs(ZYh-NI%NI~E!tuBG$)SCoPFHo;jbHp6FNS;M=gxeT9T*5-=ofdrOSvkx~g24JG
zS$SGuX9ovQu(N_F`NJVL$jQEGL1H;JGar9w%A?j44bUencf~O0JI_rCLt%L!91ZdP
zq8JtxQ?|ZB%?1L&*o9H8-AIO-o#P}n6qeaZT&Ind!mMAG^j>}8Xn<GCCtz41DI)k}
zf%mYZ(|!qtG|&3Ds3fqF?9#KmAOi&+FHB{U^9MXbZdxhx2l3_w{1cv_Aagt?bD|SQ
zEtWx~7z5#{DFKE$$B7}BmYWuBxG+b-;IVtPnGk|RLpfeG_DNT}9E`L_{E?l|=9D1s
zycq2`u>X9A&<?$|N9N_}aHt(uZ`Z~swR^q(kYDzCJ&}2(F28ASc9FfAB^GO;8$3j5
z2%<~qf6R#PCeoCNc6?RUaDDdOA1yLz8)C|?o=aGp5>(UUbSYxkZxBs8R?W7b*e=`B
z2BNf&ctnzxlC&Aw9gC)K(^e>cA~~SRx6GC3&*%>Fy{Z?;U%=A`d3peF$ehh;71;0z
z&4d|zVhaLK<j$FlPqi9m^s}kuz_M0u(2^n7(mZKFJjDa>E}#u+(RsCu%}7=O8}|xa
z;$9#&sBMx<wGqbknfx3dYzPE83&6cVyiUw#pLzUa9*S*Ic?S*-=9|&svD|5dGs?}v
zA><|kf+yC|8xBqS#h}1Hn~I(FbL=oDPtS4l5*rc27w0{(U2-G}M`ltGg^*A1=m*Jz
z^R+k6Xe2tEWdoHZV=dpIKToUyAHel(<~J2{7tRPXt3E4sLQpxdlWmpUCea1UrO>=E
z5uFk-k0@2A0Ykjdgm-KN(AhiOJ^IR-?z1Dnbp8n#zGCUW=o2ECV-*rm(rpkMpq^L_
zk%ZTuWyKoYP<j4bv*0Z@K}j>FoPp>PTBS;UJov_7!g*kc>U?BGW@g#ceAm>Bd4aji
zBwRyF=94S-?zEAiE7llfseGW799%LVTCul3UbR+ygA8<qUghP_nm^(0Y*{iNUA32g
zo2H@ciBtvM{c}xs75cQw(qkb%WgB}a@-{_7x;P6p0L%QC#sI(JLC!n=aQI1{!n(r(
zf#p0LP3Rbh1w-6W4DPjZEINR~nxW2*H42_Q--pmeLIe#XclddojTp4BaSMP?qH6=z
zGUgbwSU(%qH|6TbH}1`xM{Ss~=g&No*5<FS5E2c%V+5F56{s7~Ya$cC1!Jcg09@W*
zAU9Y6i(IbJ$8}Mj0~fv|PR>+l6uIY2WiG9yW-u=l1Z_sMglLG9AmT{?%+j}L-YVB?
zq?3k4dXfO$k6EDL98p>wv3i5Cm*&=!w=JMh;|BEh=g(CIQu1~3%D(`h!ZQy@okIh$
zt@%jWJJ#3z3@FX09H5nD<hnO9ADRsY6w()o0?HQFD+*YkQ?N$>s{x`_&BGJx`i>P<
ztq7`3MEwDoo%74nZ13=xC)S#S+oxL6@zN99tpgrA%|#+YNMh%vg%AtMmG3+jBI_z+
zTvaGMI}sn|b?5?^g7C>wmB&9NuA$2a<6vQUzPP?fNOi=sYGMd42)vF@BcK5f#a!)z
z>}wCrdSzis<h-H~5I9MQ)wE0VQoAp}Nm9F7vJ*=_P_P70o2dv0IK}9fCj9|HF$x#`
zk}QFeZ3s&e){ZY_Am8ST@|@Q%d1nM!3Ws8C>boZIvNFJPC=m8>0jbNgp85ySj<gG+
z$CuDbx$9cTI~~`$-swtgK9DN!1c<M&-J1A#>X%a=hkhAaaqL(l4To)MWGJ<*K^+up
z|1O)!f|_|u9h+w~wtd~c;d52=+~Ez4u>~?058cxXktV?1c2$&$n1Pill{zZ>1Cl3u
z;MEtg8JC*z;W!HVq*8`ceZs8YCma#vUeKpyRfAL*Tre^nmHF^oNNj{!B8#h9yk2#O
zyk5oZ^<qm0Qgk3ZCy3&9Oh8S9!vVKZF~KI_F=l!+X4p-Y(c%u=8YY&ot_K=1%f6i1
zz6y0i3bsq^0IGwSd=z#X?~See(h*&7cP>!}(}o@NN#dUQz^|PR?=~(PS3pMFFWZ;Q
zHEBb+Wiu$e&Z=dHJLzzz96N4uNk{uPh;SZUt={udf2z7OQPG*EQE3IJyN=3b`?jQg
zTgtxuCU@7~zUrvF#=OHMHl1E_oLPm;7nkh2vzaRuqmM{~v+SV}IjVHRz9mQheWq-g
zX-qPWUouS(x1$#hB&<6VRL?CQqQ~hSsI*)!{#I2V%3%1q{_x7bHGjeV3iO9pSFFzK
z&iCtX)GgQSOxEmNuGy2U*^{byF=>7Aep&hAku@W-l%*-sV*8N#Zv>BrC5WkAvevCK
zWj`6bJea6Cw!|D?sjR(x<bjsc|C#i~?mM$f%+UWmPPgKYpQwla&o}k9pj$nt*N$%Q
zcR>1%y{xy1ywgPDbc<zxA@A($aSfQr&rLMEtiu&u@&8Cw{C@|X1qBQXM4XtxEfoY!
z@?iNZ>jo>(S_=r_Rio8pP)27FtNHI`4urmkh63Zz4T0Qvv~lP<gIU)ZHlWYb8L&yI
z2Gt-jY#>KXGPXX|5Z4hmr!%N>)bP6D$}1p8;h85#EroLQ)XCo9^W^AgzT|oiajfI1
z!lDTGv}E1>-6|G^MltLQdQL&4L!%`R8jW0#mx6x9nt7^rwL%7jkW!z`0h8PdW|U8m
zq_F6n=0bcxkQ7I@R02@+u17_XPZ;iSzv2PdfQ%`EWi3Ek7TIv2Zg^?N$YCG}!C(3Z
zh>8PSDSe#y+U&Y-wk?}$ljhnbbA8%ivTRwkmtEbrT)r<^zAsh2KV?5~tNX6~rIp%-
ztEL<jed*|bkPl!gE;T2a<}aDnhvq_DvZ%O}EzaN)0ln+E)cx6>PcGcqw`@L^G#~pm
zP2$2QQacR&Mnz9E`ulE6j}3j=;ehmQTUifF-eyUhZnpHg$lGm=y$<q@gNAf*==jC&
z1s$piOD-640HLv<2nNvt88U(&i&Uw=pOrH!z*lC}m_+<TFo1NXgL!4cjLukEP7Y|q
zKHju|jV^Nl9I*@Fq>Ynt+N(p;225*-)5Vl_ZA4&b>0K68%1Sh#gMP7T!e}rfV{=#y
zDtH(-XvZqoY4ma3{K}0&1rOuv#w&XOJm8rJ9;E;t>)aWyJ=2|`>fj26-Jzg(<LF`}
zItp5x73yfr8rz)Hqgp{_2A`i0;<0j+rxEA*DW2V3%w1Sk6ns<+DRgPTz&v?_a@+C{
zq|P6bg@9MMD1#;rUI;IEaKWCC!{F9cX!RjtF{RXnLjp|GJK+!Upr%Xf2u;(R#L2QK
z_F_^7@I#-UQdXes!DvJ<y@8Aez1N#vlbl-SHeuD+i^=+dOdP<`aU31N5w4oSBrIJ4
zlW@rTNTAMBuyg{b{s{ikKSBhsR9bdvK-aghqXe`n`WW#W^Y*XJ6%VY{R}Qb#HC-OO
zU&k&Ee$99uSj(=yc)fMW%6>5Rw`c$A>~ibDWb47D)|XaXHH!oHn0@!R?pZv(#I)#I
z%1gI?xP16b^6;4@<~2R@@DlSffYh#i3G0pob@<j^h#o&OA;tyD8+5PZQr6$HY(APa
zA60Sb7~m2<|2KN*o)&bw#nM|z-rm{R>m=_uX-F3bpmV<y0Li+=ljn5D%(#&bk?&?l
z(mtLB8yvhgpih`#=mnvet^>dYBgO&zE*tl^-Ya6@Ejm;%nO3rn&yDm9v#k3_o~vhI
zs93LOloUb*7{Sj{Gg@FwvECdMJd;#&CuXi5o;I>Gpko9}WX>Oob$_20@r6c^^G*9h
zaFHOfCph295l_rrIF#>>D&TDJ!2OQ~b#8MGRWfE52_~>&)(jw}M1mUvS;7v3JZ2|V
zW{0-KVOXRh%0@YqJ;l_cK>L^QmvB^^sU4WBoNYJ9QqDb##;>f-EHAD&#=y`iwP8c2
z@@uB@zN`A$xp&SjyV{bjwwte|T>BOWzOuV?v*=95EVBK6yxU#deE@xWz|ymWylrUg
z*+SmlLPHwvW=QM>rm(H3P^!{}AymXCrZ{6CBJoX`oMje-<gAw-q`1yNQ{b)7vGVh8
z$TZC&UiAJ<E7hcDANqrx2%UpI7Yqw<J0a`3LC&=&8IGYh32?KKTI~fYPQBqQZd~Np
zjzCx1DU?(E^IU2AokT7#Z&ujrUJ$gNwKa*s+Gyzo`n&c4Yw~^DHp<vJu7;fM!4v1t
z!KT_|-F?X$;>P#T&vet~O`>Q$^87Zaw++@3#f?0LtK+{mJJ9{`6`2}lHfgEclc%*>
z+Wz5N&=Hi^m+tT`I!5}LW6agdjB$so8@q9OgOOqnOhMp{TCMdX1${Jsj>T%`yS!m;
z;GWjCUeFdPe0z13xN=T2MctO6-(r@D?L8R^%!3On@AfovCk}V2Apl~QgNxKz4z63<
zz}G3WQ(?K26-%J1io&r*4fz1|@l`rFwp7JVs}*bRj>=)U(e#6V4tmO5&BEoEhKNwX
z6KgBbj<7l=PI7R~HKyM7`X~JYuk{o=G!)KN*BWforG*#`;R{^smn%}+?GW)EiP%vk
z0*WA|TJ_=jLxuP%DYRb}f`Hz5==k<dF{-{=UPW$&3V`MY_f>+dQ0IktNyHv4g*gQt
zH-Au2FTPb_pippY7goJ^pw&6FiDxZFNpb2+tY=Z!4X03((U4DZ=@ondN&gx_smayK
zjbHtkL2>1Z!eKCcGv7E!Picy++LsQ#s0f#em@@P20yqS7J&D+z{4xBce+Bq}`?adJ
zrJcR0s=fqOalg7YLAf4O)-BcVU9Rs;)_11r4<)*Wmb*riU8AY4)Bj$1=5om*waBLp
zMvHT`yzYA6PrDLK)77r8TDJYo0HjvzEeZRs6-U#uV_VX(?PkT2!}B<8MOCj6kIGO}
z>#EtBU^b=94Ih?+zPa4mlWgrtwf3c&`jh5<aM(5(6VxWS=G)ZtVR@o;U#h9&pPJPX
zj3m28Qe9)I&eO@J)2aG1399CSsU%@#Q>La5UcGDDvTCbcVR~@?wpK8GOSi6(q`f2!
zPPdXrW>iv|DBYa0G=Fg6u4UT_do023O6(r^<U(@y(Ik5;#SSLSo3OrWy=+ZXyqM@1
z{NmMQ$H^u0aJn8ba1GBss#Dw8lCo^Qx%;lAP3vx3!sf=^fw#G!yBsOIKXKqxVq`RV
zU@Xa=PO-0LJA?bn6=rv05AJNwNs!5Kq0eNx19xZBNg_v=aE&aPM^~&Y4CV2ogUC?>
zI=02BFb?S4;(Q|EPYOPzw+`40pW7@0b@b=81jGtbteFoJWD)pJaTJ~nQGj~uK3~D-
z3NzB$|3Y*PKpH?41NPCJfqLmB8B?f1hiwp!Iq{r#;hv@A;ESnZzQde5U<SibLC{*)
z#2lArCXc|_a+<D2Ig7;7r*q?~hyfv?I|_LC?B+fA5JAQZrv`YVf2NCoH{mmyAu$Lg
z;(3UkQ~*k0YtRp{DX^HKd3Ng)W-FVy>45K8ScUMoOB5$~)z|Z%%5oyM85C+J><=jx
zbu+M$s4)2BB2M;#9_c$T1~83jDiEH4+YiOot@W2dpBJDM?$Ys&iBk}*yGyrvz2FwZ
zBlLR3i%|LyQ^X+xRnlZl*qiQ}njY06W>do2vf6Sq)p8uOD?7Brb|m(nNU=jHb{JUm
zer^5xTW@Ur(7n8Qe{%Ew)aK4q?ZL(4t9CYFW>+kwKdpMVCTXc%wO779f4$=Jj}qpF
z2e$e|<DQTDKH7Jy{<G;%#=p3b*z{`3b}C^$CAPr;e7ZIVFZ%Hk;U({Qk#T}U^LR_2
zI$E%$wm9*0ejFWwHs<q=9cUnUQ^}kjg|~R!rqbC>4MSBif};x%xhWBkN1Vmc9FFo9
zTcKyUKvXDPZjcn&<^Ca5umYM&-H^yz?)&vkNpnqZ(N=03ubAGpTy1&FzR{Y&_e$94
z6S3zya|*3Eg%5~(i(<lGH-S(TF;6NMkZYn0w>nZr0vhG{2ri^>4SboH`D{b|;0Zno
zQKd>oVB*aXLH9+O(^;8!DW!TzyqP;G)mLKCrMRdLMIWAGfrB@wer~0%TE=8zajScA
zgta;Ks}A*^NW?Bx@dS>r!6T022+O3*2H*)QcCVKUfzbwPMi{>4%baHsud-r-qCmjw
z{X3){t&ESvd?*;^qXD5y{1c#ojX;taVn9ZM09iuVzebLGsO}zO{}Z|X0}b3m2k)U>
z|Ajh}sPn$1cCl*NQVVDL`u>!q<&rUNv=N(cl4%5wkEk{LNN;u#71u{T*n4Aq4M8%!
zYZuW=T=#v@cVlJ^;dFYED9g*j>Gbw$;$=dsh12PMuDl$aPQQSd#ubLeKWhX09$Jm{
zh6Jikmu(}OZc1wi9_iBra@8b|6Ye}OSr<oA$n|T|u~ONPq8if1Dq@7V>RUtjnci#4
SzTxLL707y)c*CTw)c*qp_8xx#

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/cpu.cpython-312.pyc b/platforms/__pycache__/cpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..108f0ff3434fc33aca187be6bf76ee681c988adf
GIT binary patch
literal 16371
zcmcJ0ZEPD?w%80m#INCpD9QSkX<1*iB}%g8k2qEmebBZniE<>_PSotqQk=0xnj)2%
zk!^9QU1eV$AY;>K`!#^=zFkBC0>nmA#6cI`^jH1xUbpBMK#E?FnP>|I&#$j3+Cs6t
zXm|g-o^xl0q+~kI7U<ZzpXc6t?z!jQd(OFs|Iu!@Qt(9$KM(7VQ`FyKM*ECv;>jN&
zaf{+8j*e0@N=(ntB(Iy%kyt;YC$VA1Kw{&J5n^4mY~D0uqOpxWYM!^uSV)?VT4!to
zj+tQ~Hbm|7ju{83Ge({Bt{E4k%Q#cCeBM3dp0Ajxn6I3vq$wT6yZEY4Xa%#GUA#rG
zLwj?ydcJ0+hP1atYv=1`>S!uv;OLne_^acbob_FLrk*$HsFM_Ddza#vPjpHjpQw|Z
zX&`lWsB`cYpXk*Q8kcCV>l@4jytHiLf>JOP4T>UU?9*?a@v}px{6nK7fs;^R;A5Au
z!WNE&B{mwrc##*rK~%kZ**3JWI3R@P{ISJ(*?cA%lrF@Dd705tSbmR|D+eTrk4fQp
zY%mzQ#K$-+hc2z>qS5)Gc<e&>Vo04lK@gV+QGN0sAh<<I`8r9R9tDf0O;u=;v?Zk^
zb%GQXDI+~?3zC#ZVlAGcB#Q<TAuOZilvpDpr@PcaQ9@-=|IBts%xTcjt5d7x^x9ZI
zqrHZJTrP&@c#gfuOTh~lkfKX+*>F&}5{~`RaW*C{E-b_aiRU~MQ(m)dnhT0SNfKmT
zT$J@uJ|<wlvUx!xbeXs$O8mTR2`wzLq4;7<k}CpnX=HvO%FhGEdCo5gaRErJUkGy|
z($VwBm%63-h3<v$LYEX20Fkb%i$`8Mdg%z?9SzTRFDyxO@mTj|Seb5Z9I+ev_bn{R
zP5@`;gI8H;PT+%_DAYrbyWvkf4Z#YvVRF1Dq$=7Tn%Xy<?)ML5E85c)?RWK=iq4F)
zD`oE5u#{ileQkHfQg?f9-O{$<EWe(-mi+loQs%}-jy<X70~yD`l=<Kj=#2_tpncjB
zKbeD)TNF>>PMy)61xA?B^9J6?>0qN{u8ibx+hfi|at6%tX3of4IH<p1;7sotwB?$y
z@;1)QGZ%E6rKr@tWcAu)$5{MgI24QyojE%ayAc28AK{aAVNSL$%q@vn19TU7*#aCL
zWMgrTmyMT$(M4V^6L@J+h=uYj3n&=ik1+NiByLfbBGyjQ8lx=hlDa8sFI8an7D_0C
zQ-EI9y-8u+73!+~P3j8m)dd8kzE>yf!?5-i|J4w`fcp&gralxEg}qQKTcD05NQpSO
z$Kw&|u-w2xMWSN+41HMWgKDu4f)#4Zptsa-)YRYh|CM!hWUGvF)uzlf|L3U@5|1g`
zQlG1-yEc+@)<Ef&5%PZ&aclg{=A^FMn)JV<oAk0dJ{w`Va7fy=%S`}Ahyim0VkD_Z
zexE~)`oTU|OPA^AK<M%iy5~UT_u#TVNxw6i)V(v3)W37Gu$v2{j%bXgApmh<X<h)A
z$K(ZYd3-)KXh-rC%zujV8UwIy3yZRWFqHxM$*UJUfP}CIgJuYDZDAh@O<1rG3k<@3
zOnWfMgNev&u-58gGZ8T!V>vzqT?&c%9gALEc^KM>OAxG3oA#>fZ(V!qc5BA&S=Hrg
zJRdN3n6-16n$A^wuCn3Q*v+xEU75;`Rm-N!eZzWtKGk&a{!;45sf~&~@IPD8mab@9
z6EYS1HkvxKO}*)+-uqpdrq?#=I<j?L>AJ4F;Y{7przS(CV~aA_9a{`l*|0hxG{EQq
zuR}JoY%Dm>v#e}o+4(rP7{xThvTrX2qe_i3>o#a0J6Sdui^ZiN?f{Wx3$&1J<a(Ru
z;cVk%y(kHUa55tza7ZmTAd3pU(A7PPpg^{XLT4m4Tmh6g1HqqDn-15?;Hv)5#&Wgw
zE8{l~W(@VYs_K=IRWW0z-ZZ+lbVg(C?TRf5qP2?07(LNbW#y!N%R!a7w{(oL;kNXc
zf(WbJ-(rC>EDjcezx=mLO+D#>)1>(H<Mk199x9&zDFx3#6P$S3sc0cN<y17liHCJY
zaz>WT*htPqa^@L^w{sTW!8;?Ke24i&Eu`R_v=*I{<-D6~<7|8dv@*fT%DijLpRAR<
z+d^^eoC9PP7eJJk?v-=%CeEIK1A(gms7k(ytAf8>@K>F$!QLymnxfu!6^&d0Bi9zy
zRYP4JjMkG!J)ht#oE@O+i{?-Z&<*eAFYuW<$T#x!Dr8d;WCPS#_(q^l1=0fICWR&{
zWp)?A?k2ERKrc^GsfU!Bpma}B>7IOPb5Ut?zK6X<rF-+GEk&g*`O?;+($*!rw}Z%O
znoK5i0p7BW<1dFpJlS6PjI^}C%X+x#WQGfi3qdI~$6n%>WW&X1JWk3ac2<$#<Qf2D
z&y7rt437EPasT+l<eO|@V%R?=v_Svc4thL@$U*<F2=|sgq&1!?Iy$l4j*p089w{%}
zmE!)Q+7cq&MYun|HwGnyJc7Y3$)O<@acQYS9H}UzwN&9E6Rt{CT4_Yv*;)a_obDpc
z>EUVsYT*|_*4puD)Z&Z;pYEbLmpBiKYVqRV@fFpUqL&`T*#f=)^!9%Wz46@N@satJ
z7hzBeM|vBM{~sveEeptH9Ffx#dqL<9Nl{N%%rkez7bo&oFzO2m^S%@QfoXQ|MDO8g
z5V?)w93PE7LGh*6>y#@|c1Afp2nthJ;zJ-E@&e*2o6by}_fMV~l8sUvDrNKRg=jn|
z^&XZ@BysS7tRI*hhl^`T6p(jhD_mTHBwh(ibC6z~T@d0SUKC{pw2ROsHohn=EJ}cZ
zB!m~#PM|mA<jB;}IY7-I^3e+-Vx~$5uDs^Ka(D`eiH4ztMeWG&?W_$zOA+-)5D{$7
ztgR(&YsuK!KHZ<)*Pq_kzi#W_sI0vexEc7!|MB>T<Ee@RDds@VUY@nLrR{AQd&j4v
zpH1AGShv6YxB7p_{56w(?R@&R^EsySsa`igTc4V#^7^c+J?(1GRUJ!JzWksMD$3pe
z;I6*e`p?>P71fVT`tq8mR;sq?1IHc5r^e6h_w2t~{PptZ%c*LA%H_x5$8U~*bm-&$
z5BpOUy(y-5`|#P${&Z*my1oBt4^>r%us2>!G0l%$Rks{B9UmD#wtr~<bn&z0d&?<j
zf6ClXE@se_l~Xg!Z4>K(5Xu3EC)O<rlxq;o@t75kLEzO19hg23frxur6Um4+Rdfy~
z>WgWP>{3*@gso9H1(G`}6$wdp!8!sXfkLSs%L1NQvSkjGGgb^IKp7#+DLXD*W<x<>
z4rO^|>ufX*d_q7>iz3g?M}x8%)J-UgU6QR>1Q&oHf@T96XpBXs2o-NVoGLlg{}vKp
zMxnthLe105RvP4Gp*2Y-tr3LT@m)Fsl-O0Yo%8y40gwYJT|4}sw=%&d*|b{Dph^2b
zqm$-sHO8Wvl4D2gS}%oIJ4iwHE(-{_Is%TBXdEJ<qz4G$X%#&xc|Gx%2kt#zqG5b&
zz!MfdAZ>c`n<HQAog$?3<jo$>1@)R_531TeAhKd1@u@?JK7qd&h7G)=tf?9A+kxq6
zIENG)jBE&lLMqe%wz3(S1@7xPuT9}Klv0I%g27uD`~ZU=V!&eXBMgEV%wm8%BjT)4
zTTnkmLnLPwS$`EP7L>|_XD6HPgjmK7am*F!_jQ!zH2t-$KIQ32^_|N0y`JuSecki=
z2IIaydTlgSb0qcB$V2Azmp1o?yEWA|oN@b8jQ>kp70JGyaZje0$((a<*4deMc4nQ2
z(#}H}=aH282-ySM_95~k;mNCzDB?*SO-XrPEM*x2y->f>0DPxQz!qE9OZh7#lIJ|=
zQvC`%2;2$RV-nlBu^r|>ha-Fh$E@XKc#xf4l6dhO96k~B$1aD3cnnQ5p36ZY9Gs2v
zo^xYk<1DW3=((W*Fubu-X9kA+o(^d2^}q@v$K@GN<2hdH1l|nCE_(Vrvr8V1zYtuE
zN<MFyTtoP2Q3^*z-#kAL=7|_w7BNW_E&&b#9wG9s(qjr2u#&kF6k^ab8;^x}&@J<a
z7wMqrD1ie4E*+d1GL6D9)kVja1gcn+1svkSQey8;rcuwfVxae-D{&lx73%NJhac58
zW^4P>wSB9OoUJxx+mmZ-TC2VDgVg{qPnOx8W_EAs=<-4Osa_ANql0oaff;GbNZIRe
zhto{^YGBjZ2qntVU8amznqLNCOt3RTsC*GT2zGqmZ5g1+sh>DzRril)ikCdn91kml
zayD5<%!U>P0asr$t@-i|0-)%hhA|cS+$!def9?JdptAV>5D?$Qu41|t8hwPoC|s^k
za7|hq*Dcp9S#v|$+;IEcZ_O>r-a!FC`*6l&@9cv_vCXv<Ek03OO;Pvg0N{ss%cfYI
zy(k2^do*F0V)4QOM->nA289E(cs@~AjP&+8>{>+WdWCxAth~N_ZTaUvO_`gNMYJJr
zBS)jfxOk27wxqv+I|^(`bVS9lI6}kPJ0^}!>e&3u0n$(mqoi>smpUg_Oq?#MXOT|i
zD-Ffz6Cf~i26ER`z2Gd#-&%NYMoK6g%Z8*Ol2<phk%34Ij9x<d5bB^DPNSV4S4Qx$
z6_gLoRCHs0SDS_x%)zYngU=g4pZuLJ<<*<-QevP*{$>Umlu!bejY(q!ts*-<&T?rO
zcFZ8udUjMn_MO9}%Q-8dMEeV7Wh>pfAenI1q>;_906;fCivv&{&QHO_F#ubx)dOsc
zmM+A?i|A}GqO$|~%dawL;G9u-Oj-t0>P6%u+{8ORHoq37>z7TX%Ok!W9YHo(R?4tK
zX8I%PfCe8y3-XRH0`lL^k8^S58dbS+vNn3oy=;!@xQb;njCFKp3&6m{R%@k6Gvpfc
zIa35JSv$VSt2+uH3o@$%{?T0JFY;0)*@dq?3;Rwv;4%1Y`8GW02yo-hFLGjM35;BY
zv=Vivsh`o@uJ5K8SB=w=Mzmg}Q7xsN!Wvh+pr0Dj&zROa63|kGn5!k!?=Bkcb*(ls
zsig|>pNK&nVh}4n5ziL-(o$T#HXk@m8eTA`M(pv0P)%g!2elC*=d@HI=5}))jR%)4
z+@7T6G6>5r?75kYU;Y9t_Y$a<7eKXsFQ~Tf1=WsF(wo}+BB&4S__Vd-I*=D{&;l)?
z$WFcp>IyqP4PN?@RuP%iQiZsvmMfHMsS7%w>VM|ENL}&YbNfjAZ;R-H0_ct}65de&
zS?P>c7AbMjYy7ip{nL9+TJx=KFK9il;ZTT^Hg12Oix?@c)kI=isu2G_^v-adTJL!*
z?Mb`PlC*OMv=S~mk`}?3v~XPsxKWoaNlVh9rHaNYaV~Sa3CHA5nbP-gWTAk+meMeJ
zLH|DNALOqqNnJ$H+7@CVQgj=aIu*LLao|*N0CpuLB^ISX@=1$Y3Lv#)Q5?Bklu?tV
z`;4F}x#QE;pmYniUjtvF@SnFQF#XL6lzroYfT)Iv9~P^03jz<qG1wULCK)sr%!4`?
zhG%@y6Tjd&c%ai02lWB`1i&7Fdc*=RpsPg?L~6~rfR@O4u=#L4*$`Zm;)yqg<`!d@
zc&-aa2uGuyV2tyS^wln63_^nic2<mys$hoV^I%U1qkf7;M$d^eM?ItGJfxW~F;v`w
zi}PZvJ#PoegL&YQ4xBy`<T=iBAsCIK5y2zHJ&2u8z}1p<^9zYnU|`Yo+PnjVVrl8z
z)^2{m1Md=G)0|yI9|`^{AA+6)O*!@@_7dIqa<A`7T)4ywz7UvO)g)kio)jhy4a4JM
z*C4)bcqT6MLNvJW{NZ6dRMI)$3DD=ALqL@<IA6f~;y6C_JM((<&<N`foRjGu*~kaM
zLq;}-W87j0u=5&ZJs0BPtr6CS1t%LG47ai^7L4UHP9A!VUtHwb3!u}-V~PrB1pWF-
zOl}}!oS&E+^-r?nXUC>T&P+}W!IR7Msfl55_c%N5f8z|)47|ZkpPKX!3{S~rvG^<u
zFFPm3&#(ZXRV4Nglj)$@00A&oEyuuTurRo+`0_0Jd_I}(l^drgCWlUq1cuKJL5dxM
z{zl-rM;oV^pf)@*HGq#mQ>O+d{lhF^<DZ<KVyC77nQ_@VHq4%x^p8yp49ir)1}-LH
zAmSmP7?<s%fZpKP#L(#U$hcp&Vs`q>z}YE(!h-AEiGkdJ#V26;rzb`N?BKxU<OmSr
z44A_FlL5IFYtM`gl&EUND!>SEADMWzrEx4ATf7R^wD2q-B%2_<2#JK1*x-GT6%%%~
zuxlUSyHBQ%$u2;5V2p+3fO$=g%=i;OQcZz;j4%rBsUX+|V_heKn3|gZG8zCvNbiuc
zCzXA;ZBLTTg&?pHvtT&TIM4fv%%Ikco+haH%9UyrSaiiukOQUy3oV%biG5drQH*`W
zoMTeWIbbYC*CTjB7qpIcDLAt#PON%P$W>~&a#j$-G2jJ{=tUM}W)i%O!t*?FFcR=^
z7v9DVU5$J0(q#pdScnu0nCt|bD4YR>X;@)rMpZL)11`0?uUTzhYesDuAz?eC@lm#_
zxN);_nV187>Wo)#bT^(`>JHUrSshyBf?$|fn1h)t;HwL<dyBFGsVXzd9#&Xez?VDO
z1TJrArxSWGS3dk^U|@WLot^}<96J#h^2;XG94c39yBr3?fq8Avvc(1Ps^eu_G%f_S
zLPKC8;Fs;H<x9o;6&OQ6t%x{NDfYSA{JDZVSlw>yAZ$d%)Iwekz~d<IhjkGVEd$#d
zU`}3$1l0BfRK$f-7??2_#{jQ**?`7k*~Enf^rApN3%DTAx55yKhhyZycUG>1-o&^7
zhGli(@B||kWLXbRV6q)O!4%E}-!!>t*neUG&L?sd;i)q?Fb(F+VRm|A)E}6VcOf_;
zJ&Q*#yje(b@C6jTPQ}8QK;(Xj!3P+8h{4AgtYGjjF!+}c$PVBcU`%)*1Kt7OI1AaY
z?82psvPFb<HCBknC0W_UEbd~t5q#S4T@7=%#aS^9oB+oku8=6ZpRE?r&rY-Csj+I`
zR36x%HLI+!y0+Wxo6iCI40;vcGoWp2v${E3-JP!PUS&3I)hXNFTu<NX*h8jkdqvjP
zoVGQmZ2NL;UaZ~=z)IQLWZKq#w|CvviKg_xwE)^eUr|h<R;r;rTYn^74`%Y3O{O8s
z99(A(=A89eXYabRH|MC!I@;2Xw!3ZXj-Cy76E=PIiC$j;UN~q<wNgw?*0wio+q-so
z-PWZJkaL}dS2(CHqdI(uOv|J0W7+P>boXSYdwP|5XztvsYt7ajO4l7)b#5~CS*9(`
zwB0RVXZGb>yR)w2Y1i?T>r_7dz_9Kbexzb=psV_z=W>q%_taKKY`Vu^qgN*$GDmZ^
zx~#1=ZEL-|Yu(nJ^9HcAZIhI)+geo=Q}vS%nW>!DM{0jxMp=3`2ZmN{S#w+3-1gA?
z%4TCnw(;e3<I5>?UCy>EYxAaU-mJ}+w)yUNXAcC@2LkK1z*86Ha$iqeOI-iSwV$M#
zy6;zHoQJ-sSa%-J)$O@y+N^82VcKjvlx;hiZabM`nqXaW-X4-@%P~z^=5U%hoMrmc
zO#f#6?p%vEx3?qLzW-Z`vE2PsZ-R-rDMnq#l+BmJu8yVKjwxMjI_t8|j<mBQ>+DNA
z`@S%)lNU&MhXnVi!~O5+u3N8J;Y~AbKJe5`b@lwpnduqGbPj429ci=o5x&ae-0r@y
zZaeg-v-?-ZY>z+P<InV*%ygc5Z}9r*Yo}Ay9qWu2`mk3hZ!!Ld%n4Y7BgeF^4y4To
zq2TzdTEUUD`RLO!s;=RK+B>yt$M3r{ig~`~b|7ur2cY|XO5Znr3Ksay_I+wDnPyrx
zUmDiNJp}a09UjoK2hzZu$NX9rsCNVg0pGKUYZDo!ajiPTbZoe4vaYVQt1IK`-f-35
za^7@)RG;0`m)_Htavu6tPnRFwtZH0qN>_E?f9ZiEeK7FUP1V+aV7g=az<I|BPsEOU
zj!eyw)sc;wI<54sB~x<%N&v3<PW1;3cN*5h_Zu>`udJTl=<NAy<le}J%YDmq({ziu
z$=sf~yF250>4{#~<w!B!Z^0F^E7v;spf}wLPtMI>R_w`DHm`-!mEIeH9K1y|_oZEZ
zHypYBFTJn3WxZ*=4gB8$^V-*ygT-gsfk0X2c$zs5J?^t=6mA7Z-7>=lgfrnTlkGUZ
z-f<kc8y?GWoAxU^+)NG8r|8wuEYp!@Ivz5wZVdW!E_gHVfHAVJ!)e!HlI={pI<v0P
zv}^Q<Q9ndGv=+Z*Ufr@&-hLS5*{1*$%*j*0UqJYMp8`0#VA3i$WS26cb2?5>{99Br
z`ZE39PS~6gjLNj;C<)MZz>j>T%;HH}a^>su22!nrqCPcg>KkV!Dl<F^3{%(jA>BnP
zr2ByvpYb>gn9wT=ZL}1W;<dWtgHn8i-SJ(}U#10kEV!wAZ@+<B*1@A9I!lvJYS2=g
zRl^1z#q%c2lBRB(rT{M+Vm4_{z6VAthX?WEnSdlio-s<z!vN+N`aL(nu1dvjuhyex
z=mDcU^!Ee63i>fdTDAH@TzcjjJ~Z{-ZUZH?Yw*eZQ^#_d1STitD`lz%Q?#i-qe!O)
zTZqAoH2d8UNfWLvXD0^DvF`&L=`QrIr8tK+8{iSM$|Jyk%Vw!pgGuI}KVYq$Kurr6
ztt~}71yUHUL{g!;nNZyZaAi<hmegGU52+A5QHOv>t~{GE7ngaR0pT_boT!b8AZUBK
zPJ6oeeo)&whbAWdo#=o!4exPia+VDee^p9UHlq`9^Rc(YeO>U^(V2WJ=1thtQcurY
zy`b3Iz(E`QNZ7e}{1W&cFD#10ublkcKyivFhaQE$#BS+MZ*7r?c?K(9#|j;|!Rx^n
z31mocHI|Jip^1w3EYeEwV1Rr}yqE>tn?&4JM!_uv&3Q@I2RTkI1Hlt?e4<#$y9yGs
zB*ddE2)W?TE(o7v8&H#@VM%C%wAV^RNtq$U(Y&Bspjs=A`k<LaQKh7>$`zoB#IJx5
zit0+3Q_9_1VcwZvl&haDQ-D!PAl{L*DBCZGMYNTW9{`A=6>up?kBZ>fgb(9dUpOf0
z*#w?+m)JK{<Zt!euru&_DL#MzpGd2(|Mc2VGfvOi$#v)clzD&3xgYMB8jvo1>1tn&
zX}>Fd(E@T?jdhj5in?2uZ(dF{9lHOM2gyt|h;19ahkjl6d0mdF`6!lc8%Vbe0Q3Rt
zrq%VWQFp)%66CiIYFFD6qoKk2bye#PI_E6Ez2}3LJ1uMU$IcI(_sf4>|9O3?wm<Fc
ze+-ZBj$BnMJi=RQ!K1su`qV)&74IKNRquOf+rQD=l5IYmZa#ef?M(Aa@P7XYT|N$H
z+(%N(kuTeiWa`hS+mEd6`J(sV^!@9;)X=&0m(Tt4fmAz+v8np=fPT}Szd8$|+gIg#
zRtJcr)tqLU*LpvG`NNlg%XDw)DR=Xu=8ly2<xKPOlo|SO%)0y1?!Hx1&gOo9_EzL(
zByID2H2Lw&hcow0>DHrP46e7nveDK3+04C}FHGsK*RowF(p@JWh!49)GYw<uuF<>n
zFQ(SYe|av|HM%;UY8d;vz5_1ocE^|X9XEn^2U5Mm>z%`YN#E{=(d{i;6jZ_e?P^bT
z98Ecorp!nG@c0lA;t!8^Q4Md<e|TI;HI751130k-80D`I`A!@({7qfOiKB+U@fjfe
zjmdqY-|(B=mXkWeZ@dNwx4F~ewTXXE@L_J7*MfSXLUH~pxSfKBg3hZCB=(*O$2^Kt
z#`DZxVC>QnUl3spIug(XTKt+{9TwSza7^{=V1t)~pm78DZ`XmI1N1I3FYbL{UbEx6
z<C-H?ef*)hKc_miZJR29DN{8-LUpW5^bsQ;>ear5#Te{t_6jKXU=Y=^u)BO`NX>br
z0?tR`iTBJ*+_=%Ucamt@xe>S5Uqk#gKRo}l!cz&96X&hkX>by}LR60s5gh8m7s4Sh
zxXsTKY(Yu&kl!f~Z;>L4ND&BF2MaDEi4%krMUcMyNm=MqBxca!QG77Pp`uYs6Q>@D
zQ=&iO1J=HiO3wlOr${a|KEN-Dtd#2w`g>69o-Qz58l^hb*ACniB>}9fV9VjuV?NPV
zjM4Mq-Uo!9XzN$;J+Kk}2Vh?sor?HE@NKZ#=AHN0_(EcLF&-rVZUX|s|H3{|3jA(%
z|BkV%)hV)bOS1x8V48#H_D%R4pkHjm0UUPFmqx%x5pSDt0MiFCz;_}6FEasO&t)TA
zyo>V!zHcZ7t3#L~_N&)0h0o){mk_`&6ooi!NceH10WVx)v{F0~&mqiV4DiAh-b84_
zY&;$n!kB*>0|5gGgCz`5+!y{61mGUM2rnXvNbv|u|0@Rn4TJxV!T-cy3xmfPpz|#u
zGP!{j8zmYlQ92TXFy%j|;MU7B4QZxf#h<HgSQ))hkufwBrD_^i#%}D*7#edmO-iaM
z*LWmlsM|E!w{#uGSJqnA7C-*+hd)j?AAC$f9)HT?AT?XlH2mP_TODnzx~t!!Ai6&U
zKbSLCsXqjQ6zI$Flb~JHp4M-xDvd`s>w30~5JPcg^_B@!aFJA9|M9gSZ&@%0{>}}z
zxjWV^8|E0Qs%FcMDF@}=wdKT=i>j#JD#w(Ys;b?pz*HslcDwTCu`L_}Mzh)<S3^og
z1Is!IqIP4`eLxhVF91=9R0v3IHId&g8H}xK#*di~8MxYwt@kS*W28bs3NTV8ygNU|
z-O3bob2_8r{=O{=;|I_VV-*OKThm4|K)dm!yNmayzu5cvn-2^Rewco3I(29|-F@~k
z1vM%>q_!rJv|BnIkk;^+f=I1{6p#$7XyXZb4VDDsJT@n26&-`|4f-xj5@WR%lVk$e
zw(@QtHm%IJtW+C9+1l`Ps}LEj6)wEurmZmE6JR=Tlkfl{;UNZ~pHYe&O+;w)#(*E<
zXurhfMFDSfxeOey!S*iT1t=TAC78b|tYgd5SYW{OUojagws6HYSSZ6v{MjeG5`vGW
zV*Ld*MBU9~hhM-fhXFpN3ZG&?wi>Fb${r(D{q4I*HXjFzFFYc=BK#x3!8t;SKZamS
zPt)`hGet9BQMRur%U6{1E2{h}%KAHM&+jPD-%;+bDCX~}s^3w2|A9J|rjC7Wsl4$<
z#?rJ>_O;&iJA?nf7}~&AmNL}j%BxmRKPfAt`+$daw*RfGqZ_s;2w*XEwk^y)J@$r?
OuDsFldkSN+#s4p}&VT;^

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/cuda.cpython-312.pyc b/platforms/__pycache__/cuda.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c49ba97768a022b2026f9c4870f14a7d2ab64836
GIT binary patch
literal 26113
zcmch932<9ydf0ooi2LS!ftN_|01t_}C5s{{iIPmoB4u0L^}-O|BMAuv=m$^|VK7m=
zPM6v^G1c8f+N7J%lbx8Fb-K#*Qku@JH%VvHNvFjV<punr?b40g#?$E(I(EkEWZHh;
z{|-Emplr80eG-5C$M;{~e|^{g|Fz9#rr?X}ek1a;uTa$AVnF_klIO{khN5m!3^heD
zG^2^qQ#AZ)qnbJGl$ORgT~s%xpVH46rVJ#kkCx3Dr;Kx^DH926qUI?xz!{>JIqQ^F
zinGnxr|iUE7In-yr<}xZjJoFBQ*PonMLl!gDKGfVj3rt=S20yFS2<NVS2a~dQ>>Bm
zK$+HP^<2$V4S}~sYv<~w>WJSSt)FX{YM`l@fzeFWz+WBwHE1Z-$u@qU7W+2kgRqrx
zDB&gun;54OZicY?`w}9iT39{fVp|zETfunPHnyf3Ql<@z_f4Gwvx6yTwQLjHJgvc0
zfK!F0bxg&Zx~X;zb(~@<-=vr-w(|R0sVyBOwi;q<*bXJuPhx8!woVn>$<$AEnJ5#*
zwp_X(HBa>;w+1lLFxAC&aV~&+MFk*v3vf_U7pGzUF`Dh1>ScQ`g`NeysA-|to>q#}
zLk-Z93)EXXuTs~v7pSW=q<n$;u2M3*zcKYI!*Pc7MPi8v{3K^13Ey-i%KE~gm@g5U
zW}}O~P$ID~2Qdpw$TuGiC8y)uT(^%6%mjRqx%oJkjKpTl^NX=7bJ2kBMEojyh2^?^
zk)$s%8()YrzF0g7<wuf{P&AT~$_d9~N%mSYVEzQVI_{?h<8UY%4PA_~evP0Hhr+Y0
zpuft6<`WRMO<p)V8XP_`I(%wu{J2myxj4_h7~&w8>1>D#%}va+VF*~TmS8kKGs9w<
zO>A9IY}y@KsKqV>8TLvf%m%~pg;+9}NQRPZluaZ)!CC3o3eFLdJRF)2U5rE{$wk3<
zR_e20m3^bJg*hnCJCsbav1BA3I~odKW@8M-L&fG7qtUtHcx*Z{gP~#U%m}tw&;-xI
z-#MXdA;AXcq9MU0x28~^fn$>kTr3O=U-=B+!>Rg&61M}~3aB}HNkda<ihC<fU(zYC
ziigo&?w}}cB(1rG`8RzKD{nHY6o@68k}3+k5Nj=t!4SmSOU634#?BZf5dO=QUAlE&
zyhc6L_$<5xpgr!bErnQb$=HgLu~l1RXLO{mrAsMY<CiMiuS<;{XOq5*;-vG<bCEa)
z%Zp9;u11oxzGx`5D6LFiGVTjqiANY;IKqV&q9M-5u=6le*;sfnz~L0*T;P0y1LL;|
zzAG?u10i`@2c#+z0gj!CB$C`BhwT^ibD>LdPOuE0pFBM@F%f+J^pIdb2Hq26<HttN
zslvgb$;ojNHj;FNG*6xzn>-`NI^@{k#Mz;96QhE;P>kd!MF<ut6PAZ{jlPWWqvMlf
zXU6?nt`d8KV?i32z_sG@`99m<o1B~PosZ1-BtzT`o9wx^uxH=i%X`?~Xyjt={9<x8
z9_z(E_sSbvq8B%b!2F_68H5Z$2?N0bk~u#V-VJ{V3igca)X%My{uupHnLTHz%UYUw
zOY`c*`<9LkXKU8k$2<FS=-J6TcNTkkcxMlZ>E)fh#IuWc?#kQBy!Jd*X0zwLl&ejZ
zQGr*AD$ZyzU`7LEbW+y(%?(jt6;Dyq@+Ljz)|1>=tpcWawt;^Fh@b?`bSx|#>lmiW
z;E(KAY4Cgl2$-ajdV`V=c!o|YdtAx=OQT9Jv4b(%q_Rg$8<weQAco$w%E#&wou(%!
zzkXcM!O$lJ!{w{^%OPP9hCk)ggRc?(p4<lKw`pjrl5`3Cu<4V_r-1;_P&YJbDgyh=
z_vqiERr#>YO<y731l6Lh<C(DXL4AjYSuPmFqf9X3Svv-YonS@Z#Oy+niC>MuI_QB~
zxd1v{;7IG>ItS+fC6wWDI?r;cX51!%m=jJx@f<!FjfX?g#NmJh^D^e%3(lw4sgI5J
zw;eYe4~*4$jn>rsp{IN$neptneTDbz_}J>sS{r$5;|JEJPv1JG_&-aSAoH!Vozy?8
z7&2-7dJenEm7`N=BW`<s4QVR33;YS353l;f=DN1Dk{g8Nmk{m{IMA|(dh_zY*DvHX
zdVTY^xm#CnUWGZVZ+@@&2mU*L;{7+8rx^1@OBoylEN`c*p6laWCzMb$4dgBONfeIK
zTNFzHrA<v~&Qq+m)Im9=XXq&dTgDn0%|R#&LM9T@l8|o7OhS4RGE7-WsEmY+Q&ti(
zk&t=HMnV=0v3ADFI#}nWW(aKh2)(OeY$|%!&3YI+K;!Uk`WT?Bf#P+lpvwVzFVN5x
zP)8->NWmfn2=|+Md1_8osUXTA&7(@IR;5)ynpc%p18L>Z?g~P6TiIGj2U=Sxw+_;Q
z;#R`-5Z=dBsUR9ykBMUTlinQO)D;L`I<hrR>;d$p32LiWwWb+LuYq3Hmc}DsrVjXq
zdR6T$ki*KhLJwMj(ytJ?2kZ;m24M$VCgNW0G7YNyJEYb(GIh_a*~c_7&CoJ}d!~i0
zWm@5{4gPkpWlDd_roBwNsz2?db!F2UrbAU{hZ5^o#rjEXEx>lFVmp=CE>&!o65Fkc
z?N-X|QN{L<SilSuP{jryb{i}MWUmUc7a;p!JYFp^j{V!j4{Q^^bDMaa@n&Y1s@DGh
zZ?z7pY8`-DaSdpg-KyA~O6(q0?5;(J|A62e2AV@=E{=v0te`_GM6gKQK`b=KDuE<2
z61w5@BSV6fi6rJj$?$COGP@{fkDom+*tyW6%;I3AE*1_)37|sD2wuz_d~s}I?C9yy
z;K=BUW5c5pLWRtVz>&bkqd_)yC3q#oi3g@~e8c$Rp@@G^K;Qs7WtzIAPL&3jq2*(q
z>s1}&CD;^IYKcQ$m8u-}QWfwsqXkmCbp0BoexIt0FJFUZf>Px#)dnOpwBw(gh4y@c
zo48*ul+T6|@+gE0terj?=fbms@#1te9!mD_7Rrh}I|qPY)Fs&HbOKQ-9fZ!r!aTCs
zEE8mK@Dr(~&GRL&86*nX6L^SUr#38(tfh^&w5?uzVDW$Kt-dvWbNqXw?>_&|^Z$JC
zUmg0BLmAId#yXVS0`~mP=f5}j?xA-8pg&{ne`=sy6}N0RZOgx!F*c9`R4|BhX1s`5
z#W5!HV;($3<dj10L4x#MDnb6FmAON!2**-PECWQ|dz$Y{<t}L!wZI(hHv{QUz6s!x
zlCv!EJjn9<KyX2V;RTKZzFiS!1e6S%4VvYrx#!_$+^^$~!!L(qkYG*#Ga!~D=u<2g
zPXIlp4M!6MR-l72&q0V6?hNEf)ovXorI2d?kic{MI`z~{ne1<yZ<w>jdfr%nd-{Q~
z?WvKnx!*o@<J4_>b;kp%{{}50+$1g12vdY|oGk?9$R4Xv{sztULDU^u@QlZkV{`LS
zb`HAEGNT+9=k92@7a*0J0Ef_CK55F8BkLnoRhYl29a}n767K6z+!I_WKs(x-GR7v6
z+ES1H=QWr+kL@C~9%hr<<xtg!n_|lMtQH}}H?W)w=n#tUm(YevRU4A=WGEV(W9Q=B
zVyfd=ZBax1Mp2stvofZMFEywHM?gN4A^aMYSu}+1NFq4B5REP(jUQvfFy^V2EiK#%
z^mb9>inuyR5oZ~$@LSX(CC)9FU8D`_J<AGGxF9fGF^~-=QuSNvRVRN7N=x820DG0u
zx^<keHZr+?7kqHu(3c=$^S7jdc=hN?083gB=wJz(K87a3u`))J)&!M&P)3OpVo8_Q
zah|lU6d!QCjM1ibL8XSYc7^`6Z=|)QL|rR1mnvNf<e5w2-b239Jt-w@V|2>ir)Ts_
z2KXz3KVwo6!IctmU2ldn6IroMA7fC?OgmEsC8^2@B0opI*g;4$#P&VA4#tG|T{3(Q
zl#xJ{eGZhFKp7beXdFO`u>_ipw1L~Jq0%Oqr(i5dopXWG_+@M<7+1z}c@MzUF*fyx
zC2ORPQJ3mvU*VUr%Q%5L%eF1wQB=O;OO&tZJD_|ccW9gTyGYA_`Mq<idZ*{QwyE9r
ze}Okop=200FKU^V%+N==6mPp^fmPaCz`E>X%5mhm7a(<q99Q^dDlU&e>QLHJiUUrY
zFX5KI=_5U9|C}+eEVR9JDQQbk5$`U-Mu`9XRVZp&NXAp56!l7f;A)(^%yNO5`Guh5
zeTl?;g3D7dM?emHEtrhYUq1E;12L0a1GrohIw+AM@>!q=YjKy3h7z-&F@RG!2D$@<
z-uvVT0H*dF1HuxvTHoa>pt%8cgYO~;bT0c6sBi%p@a|oN_&J7!fCyF=9S1(Sj=2wf
zPVWAJy(GIz+*>HYhb0{RoD$UakHw~0PTh#qp)ZjeGEU5gxCHc26n_T*K{jM)j)Qb-
z_IXfdAtwVu?)l(sWM(#)oaN#RGqdvxNkZI(I)L<e33OefXZQO?A_>qqA>Ob6A1NUL
zNQ(inI09vip7miFJ%uuSFrG0sn(&1<))${oM&<y+48hJk$Aac8>I=mfk_x57=YTtl
zfKE#k%&RI1_{L(sILEL+k;Z+X4JvBEG!Uu`8-~906zaek1Z)G7=qB(zJ)kcefWIDD
z4?u+fA<(wXLaCT99_#ic7Q(Zj!Gq!mN}}<rK~QI*_`lmXKOeo;4XyA&DKjC=7UWoF
zA<QPir~=>u{tCeX$cAK=hzdcWC0OU6SxU$(&g&o$!h)5|JR~;|&P--t5N9Bf&I@J0
z6G5?@V49tlfpoxRCWML?PoI9iAkGgS9U4A0IzA$JVcu^cLWSB*I*RywA|S604oL&S
zAgTZbT_iRg7c2x`Y!w&7bT<x61keB&l3U`Cuqg}t1ve8)hJs4(u^)mx3|#pP&a)t5
zLC}q#86Wjq3H2k^BNfLX>%+Z<P6BH*qrMMVb(pt;75#F91qX)03rSd+38E2nE6LD$
z7!g?Wq*tWr+^;}s3Dm`j436lE^3qCJ_TkGxn0~>9d1ySUIB_IO(52fz-onC<05JrF
zSWR2DW{|HLTz2Fto3oX@d}Z&lb;D94vXW~R_bt6S|Ec9O53D;j3IHEkDsP|8*6rl$
zc4q1h<aTr{pMGF%$-60AHE(UrIqR~{)^(@oY3H5rf9J>5zSY`n(>}gwU$$wOZyJ98
ztLxS0mQUu*R9(~Z>0Cq0@|j%Ij*PY8V}~c}=;R%p8OOkery}d=;yqn!!w)=t8#_8z
z&g6~M&Li}<M?UcO<_%P9$Ia8gvHDuGjr;k={r4{MjVD&D51V&nn-B5Lhu*K}o5xoi
z58M3Nwj+Gok<7>>-!_?XHvbpvnMc6r)_>^jUHA6iZMyH>mGk<t-Y(wTwRVyB_T3%2
z?;YIe>|U`xaJD~mR@}1Ov}EeeKXAVIk)vVtV76sH-?IPS1mAMx{h|9Uqq)u=HDu2F
z!c(or<$h$QTrGuyx%=M!LTI~ca^7=tW@pXqXtrUHZy3DizTa>lSKOYQcY*-^+(?-M
z8}%L8`U8CZfsC<c!&;lQcJbD(Oz-jg*5f&6W7avqI|uH*aNoH*=WNb8`*~;o-B+@M
z$N9nI_npUqH??_?4+Y`5>jeE&i<&7X)qgnKca-lt3ZwFYwI^RoL0Vo*x%Pl#J0bF_
zMZ65s?}Uc`*WghzsHJH3QZfOV&I5@6lpua3^P=i$(^n)<P|`}~R;XMB3@8?v8ki6n
z9#Cc!<N_9UZaxV-7BN_;<X99F%(J1(5>rSF3=)EOE_6+ffsF=qEx?Y+tQ!g&ideTQ
z<S->6g`8_45t?CB{w<8ucA)<o3q1f1$QNK1Nb-dS-q`TK=zD0iiSmX{-q^Xe`+;%b
zp~L%j>P9N-2=I=;+Ld+3?u>D_ByyN#Lk!u+1wD~J5fy6~M^pZk(fvnoxPrBkY@PrX
zO2BE9knk{C8K;~Tc%>3N7pl+;>b+9jlq$7^al*9b3QfvJiO8mp$P7!hN~g4H5?ZD3
zP=)N5JO#h(lV>J!iKV!z!u;Xt0isgQSNKgAWR-}G67@ohwWavK?c+i5Sy1nD5vYs<
zTA6~wst*0A#^;WK1KRjA=Y~%NCq~W=iPL%vlTKig@#SM@&OJYRZh~vWpoz>iJg5Y>
zM1LlNg~?%8;>aw4RYC+4zlFsSp#m`-u*nMbFcw7EesYM3XP6hOxB^BzKq$oIqd3)8
za@KDKD}%Y0cn@j=l|0P&lQbL%RuFx*@|M=s2@rkeJndP}0Ph*dSO+#N&VN$=2ld~n
ze^37d`yG3xY7cMOLjd}CPhZB`w_&kMS<gMNbmZ##vULaex&zs|QNC_;z3%w(^EpRd
z*3rv5KzUycyRFl{;cm>j1H3!1w(!6`n5*o{R_^92cW0ctH_*R}uiTXZ4Znf%c4R$L
zHKMe`46T+woXcdV{9oX?Ma@u4<_NW9DJam>`m|Bu`mIT29j2}F>>Z(AIZ07pg@b&_
zwq!R^X?v+PsLWeO+HtAmu9?=PLAC+)8Pa8GBk<bN?zrSkJ2^wznYN_uDDZx3FK|f~
zxdVmYv^{N`R^~QMy>(hgrOj!}G|1FJ1&$Iz@_{WIv0a>@mz-eD)+;N${hD#X0y0aG
zeG_q|-#~0H1QQE(RxAg5D2K8mq2dZymZ>P71xNzYj{6QK8c^pQWBjg7(^0Trz9Meh
zqEwy3b48?7jVQebF5oivCdO4^F(xu2iSDJER432QgvvBTa71EaBFBaj@fa)=dAb+u
zM+BqfUlhuuRPJ}M3fHF0!AQad@oGv>wN%_>sbI&ImXwh1Z3Sw=W%8#`?sY2fquSa*
zJe#YjTXuY0zw7QxnZsw+>(2tA@UW>f({<=4O^11F{ql*GnY_ks+m-XRXMO#=uYcXQ
zbH$cx?a#KJ;9F1Ry!AP6b<W$I^ETwXwK;Dc@w7qw6OXygopCljs-c`sxvqmNj@7dJ
zPOy#fi?%U$+wbko^pAYt9L={=&ClgKDW`v}H{;lsG4A{Hse|%1KBj1>xNTtd%zbB5
zUJHTG2v+{kKh&f7QIB=#p#Db(XmAB5=uL>2Q^p7PUFc=XRWQHvrG4Y^7+V-=?)L#g
z9OOR$Us$~k@!TNmFbD28JgQR-r5L8`R+#fTfZ6mdnc&1Lv6__CW=UJFYfe&cfac=Y
z!mu{!OC@Ly1=^anmRwn6WilWIBP-LQTAQ}CjdLX(a<dp+n*KeC(Wh;{M}1d0-`=2A
z61Ng(8e@P{OOlEbnN104q1;AtnwC7(aQ7(HM%<ac=~=QdAYr_OV!KTrV|tTH+b-2^
ziiV(E=ZNBy_q-IOGG=s_><mbgpwDoYf(x=faP4V5xQ?^|TxYrrTvyr%7_l!oRG26w
z|8v85qF83r2PJsY4sg9`JGkZFEt6XU6l#+Ud_$3fN%H1K)yPzQ*^)nZ)GBXyMyR))
zVa*H`*1Q6n2kz7ijVLZ9b-Sr~%cBFxC1+u*lX%pVFWIj6O7utW?Xm~VuBzTNzE>@m
zvE)j-#5$MUH#})K)-Hv=z^p6PPPydIpNVj)D6}A)DnJr2S~yi~7pN8bt>2W-l`xpi
zVy~}K{u+@=LK)JKZ1sqiy5#IgxhAA7MHV*sQeg9(AQsJJpO;jM5GC^3(#aF>og@4I
zeqYLU9uATjUt2;hA|TMOf2Qg76=_zG0Nx3IPZ)4cQ8XO<Y3daaeUd{Q?0jLHfRxQ2
zOgunsDJ!)CNeM8T@9KVszD2_U+^M4$wSTO=O8a#w?S9`^I9yNy{mM8PS?h?Ef$mZ~
z0)}LQCeX)y4-?CzqpV23DVPq<urc=9Ja;&?w<L9@Cg4yy6i_V8l$_thlL(coe}}eQ
zc}iPl|ES|R-rKrz{Ps)0NP25;9lUvPC9tYp9eH=`ow2o<_14{)mOXc0d*IynVaId7
zNZ|haMxc)t=%tiJp+o`erfwf0Lc#0q2BE0>pochnw<sSaTn&URM5KnI76@3oee(G)
zf)->q5bm6agDpJtPBi?MM^zLEqNRIbUZf17*e_*~=R;z@PoM*-w(+<Gwxt}HPzxYG
zL;+yR{UV<3N)7vA5*1Av+@EppeuAQCG+ewvr>Vkf1FHnhIFWgB7Xbi9n2vC(;1hXG
z$tcixFdCY>$b=53_I%lKlrsJi4kPj`Fo>C&op*=$n%#F_yI-@9(6+F$v|xwg_X_r6
zxgB>0vIu1(qr+!LM$d6CLx@mw-0z|9JD6w&1T3(G^y6N~*fho(k){E;>MZw1821B=
z(?^o*Tmm(z7Z+xNagg6~`!HS`Wn<hwMV}!-EGPs$7mCfWey>OkzKbOkI20rpwxte8
zgGC!-B-gliuvm+<I)KmT1hcpa5I=oUu!~g&LCg=<2MGwv1PT%Si(`RfN2t1D=ZK0Q
z+Psvu;fFSZoyKwb9hf9AE<dlKO#K@cZ^lxWt7^+u_3%|a%VQgLjoG?EzHV^6ZcoNo
zopbmyj_!=H8(iR0taTYnJJNjvIbUDax1aazU-umZy05u6+kA{~KBl7ks<zU7E$$Tu
zl6{R2D}1?%_Dsj#O#8k(MepC4+j%rIFbuR@`6&HFtF3gy(s#K*(&VZXg=xK+{-FoX
zqq)lVY-Jx`*|%OfkZ}$GJGXmZcJLHGcq(Tt&skkLYfaAT%vn7-t2bw@$XV+l9w^S;
zX5KgeWbNv6`6|lh%-P*<M{YzO;r_DGu_xPci0?S`pyRnGdWd*JX&v@QS{+EW%#_3Z
z$fCEoVe2t@L1yWwx$VDQyE?YUuDt{eA8gDu_GB6YYq5J%_fA8^7+saCYFt@dwXVIq
zcJglQ{i*j)=k*%fITVGNJZRS8$QrA8z^r}mJ<kst|Fki)ckHh!a*pcd=<Tl6%d4;4
zB_!?OQ?1ry1~HA*k#TgaTl{M;+_wZCy6bZ8J@>Rfbo{9!v*(0dVe?9Q^}yQeYjgMd
z0fnx^fI$zKZfkA!r*^3DZOaWy&g$cLpIL7{3+`RlYX9mB@9cVa-yiPF>^{Rcp9NkO
zDl<?uzK2%Vw_7q5z3cA2b!-3MIQKo(YirEQcEEH^#~RI7cP`s=wY%<qjjtVf{{_DG
zc*a=u5R8FI6^%J-UDn#fTbm%4$qeXo`m&A=9y$OLT4U#@Pk)t`==XtKOW$hmw;V{m
z5B$SphNfCxpc6<k{;~hKm-@F=7027nKlWOWw`zafLW5hh%>kH5h~sV#RtGd}YpGpi
zGl|AIFx6j(MZ%$=WVkE`LFX1YOHy7Et)9U+j_iY67>ZGwDiB7hxR7lasbZi%!S#hw
zB#@RnMny&*qKZDkK;Yqi3#`S(mY*Ok2gAK27rD3qV!(i`;)u`9kp_d2SRxPxO#=w<
z3sC{wo`+QtrF&D0yJLwG@eEFNm)zpFf&LfRKeS1Jv)Mq|UV>Q-6K88bv5%ymt)!no
z)NaNC#23r~$+7gw1&9MXE0jQO84#-?NSdDCTf%lko&0CmNIV2_5ZvPYTXV0IZER~(
z0j_u|-O-Fsmd2x3)XOB2@wp&KY(>3TiJi9;*bkvmPvn{5`2x-0GKdE}rMDo%6Q2*g
zw!or5Or$u1@%dEimT@cr^%u|z?mm{;3C`y)scuP6rl`imIY`u90Y$+ot)|kAt;5NO
zSL!0+pr|I3RwbEzJzHA+Ebt%W$jV4Ow6zaN{g7#ghWnsV0C4e>c|=KC&siXP3tFwp
zq=#F8CFYnq`LD4hSPGc4IXcyI3)>)n$n%r-{8#XxmD02I6vVFKYp__bi<`c}Vo96^
zh-XO?;QGlk<p*H>bY076mUOXlu%W<CZ2DwuE$P9I33%l10&Kw&38V+eL+c3-ZTPNU
z=K9{CiN!<NI1wtRnwdCUK11qvHgpB3W8jA7K;e$JNabsksY)QKOT_z9FC3MOV3D(m
z$Kb-Lw7@~H9*_B8-<IyRZ7tLnp9WIg7X@Z3>DwFV3-~U?7l3lsV=i9`E~rA7TxEr2
z>QkzTC6b`h@LgQ=0S6O}gd<6;luhDAR$?IfDq$X8g&d(7xVq{aK0Ve=Xma*i2u&#W
z`+9l^$f4O#bUNTK6D8*;G#9rtLd|{!f`T1HiEtk_fvRTM^0_~QNRVR^(Kt%QfoN24
z1f(rkiipPEQfCP*X;BrBz|%ye6^qoqk!jf`1a#&orrcKTy9M$;;{0BLVqp)pIKMrL
z_QCfp%{f%DcJrR@wR50i&DHy|^}G4{-Rt#xSIoKEhHPzsuMMo%_N^E<JoOn*Tdw)o
z%~KoA-Pz^?eDi_z=0hu|a;*pMow|1@(>%6v>f;JuUZW|m+o)^3y?^!m+JUv6Jf+!t
zjLz$I<;Q>!G$0{paJlp4lov=F%GyE}y<kdkVM)JcViKSjBdRtR#)>8eGJWmB)S{@c
zdU5HXhh%|Hfd>~TsHx~*2SJ*6-D63g)|WcDVA-gbIpoDpUI=N8RElm|a}eV3j8F9r
z$LAMC4ij!ubMZN!(gn2kP&y$^?*MY&8aVY)5qL+M8yn!~K0@a|qw}}m2<D(t&emxF
zH@HEvDfT}BMnw`4P+}Tv1Nkvd0~A8QdGDqw8h`h-O!Ll6<4(SO*Rna+x$6f#cY5xb
zvU^YPdrz!)jxC%1aZ{#zN5;M5zOh~0o=akT1WNqk*p|1Wl6Y;|f>&JTfYI4FtpAST
zv*-PQOJF#|^9vkq!&|YGxEh)d#uwCh!ptSGv<+k)vDEbpECuca);sr?zz$?A`p8_w
zNr^P=Gbn&cX*&$gE?(q7+Am8pO0`+MD6kpwAE4?lN(nrpA=Pq2icWYmgh_R7Ioh{{
z#T)E}#(?QCt}ZaO|2q6|NXd~4C*#Dl*gq&3gJeSt24VK2(al1X1-~^Id~G2V#jP?J
z<WTs)9RNqr!>yHtIf?g2mfR5pgBUoNh(ag<u=^1fS1NZHog?TR1qZb<agh7Lg@0WX
ziSy%_LiCoWG1)@&m2)iI7-q;qB_{rYHUgJrP*orbFmTJ~UO{->#dti*y^3K5on?&F
zlj|FTVT9aA5cK3k;(im;Z;9y(aJmROkQXFH>Bf&S?cbsE*XaBQba-?gpz{-Sa_IaF
z9KkRNwt;bu`#X&J@96vwbp9tg7tujNkenLa9`vCThQGusFb#j5%2}(j)_PF*Tp!I<
z)?Yuh;#t?#t9(@r*H5pstm_(bHI3KDSBBShjk!Wx^WKcE<~Bs`-O$_e8k4?pwRLsj
z-PhlFop0Xxn1V1~!nBi=d<AUud5uxuxvGEH`i?bEf%mTWG5#Qwm<BhX4X#HTTHm}D
z2JTnioY{Z!uO|8ZFMv)+ywVA9-~;YNhSL(byTjW;+!Z12m4qOrt&QCE+!-U~+-u#g
z9Glci8oG+LKi06cei#lh(sts{k7Hn?fAEo3uiuj^uetS=n_tP6xAW!gYpr~FAdk@-
zCi`PO{7M<Y2lrF4`<43sTvcsei@&Y@cTc@@iugB7jgR#ZC&7a+KS1C+^!ov+W=GCw
zT|S@j_}6x3JOSR;%NzS3Dr0L|om^{q=R(F7;Elb&hnxBzX|-m<<4VXV6^2Dj(pXvr
z)ztQ={35OI+NkNv>(K+f^j7A}h}TFt%in(e#_M?#37V<u?!1L~tyFo{?be$o^EMK+
zQ|^kqgLs{kr!wy%UN==<o%ay07Ye=Yy}3V6D#H%g9#>+D)Fc9QLPRPJm+V(zBH^!;
zj9!9%xR<OqufdqYkCX;J5J?~^X?@S_NzB)yWb2V~(R%MHN%AU5URBZv<|>tRcx?ic
zK=vZla9GLJbDJb>t;?-<uZ{lT)SXk0Dey`;!I$qKWtj9Q=?za6O1$%W3_yu+RSSb<
zBxnS4xIZ}for8H338Hlz30g?dN}27CZRnLsCb8l&GwBbgN<L6j@BxtZ6v{mSC@U0u
zATO7CKq>Tqv~&S4Yr5^w<6R>QN5mX1V6V9I$oma!IpQa4KA(IQPAGgPK)!Vi@Al~6
zy&pS6v+#lt+>O;rx0Q8;d$BU9ApcGoA(tL*5!)F(Yhn$oK_u*01Ll=VGD{By7~ZtW
z`Q%@?qYe3$I<0W4xNK`}a9evbl(7Vqy$H$xWtmDqIS7;)UPUqxxxI!p1Ei&JKU8U(
zi`5pj%vvaI%1uhK74BCnxjf6%HG0YmA{U3?9Ebb<>SLPR`VtS@B2zsiNeFFn4?HNh
zDlO3|m^Ce_-)T_OfYK-zbWuxM)m6$8Y;9UG3nO|j-I6{jPZ1bEM)RIlRs|9R5=C7P
zsy;1ET>v9|S;copH~tA`6{!mihnih@wj>gZbAE%+D6#iIO#z`iKf9O!31U<hn?)F|
zAHi$zg#_`aKF%gjfMIQvJ-RrCM*Bi@Q5vEZM03dU4lCRoAqxcSIS?>J=0q)q%=k@U
z@$Rkl3Wixy3u!KDFSk&zgv?0o*gTd2wbV~(ff-1v#8;s%py-VTQ&q01HQO}8H;uf1
zVZG@L*ls>7ug#Y4=F4|y_KdBUpIkonu(l~%JA&fg7uRb~-#EQIx-$6C)3VldxBr1>
zFk>D3^r52`mc6O!L)g#Z7^(U!fo5HA44H>))Q@bYp=#}qs%UVzzk%o?BSB?ejX(;j
zt4u0W&Kue^^_wtv(lpE#qzK_7V~n}Tr;ITzk1@!BkAbFA52Pl`aYU480h9qPNw{ll
z0GZ>0DG2f>w66{ljUjN)qVkL6DS=E>|H%R%1(_9y%x)+X)G2wp)>Qq_Q+0C>7>nJl
zxp!gRb39``E+eP<Lr)bVr}{Hus{M6`hx(SOQTzLJqqb<J;VL654cm?y-;(^NVtxu*
zVCvbrUfDoZ!x;e)LN$58X7e;dq8VNaAvnT`$ibU%@=GB;kvc>&HsyQPB*Q}BeKso5
z4xmIp+|ZP*Kf>1^dB1wS{uEdc<xm{k&4VPi=ec#qk&N+($RtXG3)#fZ69im?z!yP)
zYWw&lZ8S2<bOdE&;d5}k46Lz=R`~hzV<UH@iKQTovmxeihN3`56vwD<s4gr-m}jFA
zA>ipbDuG91Ni;rmRc2iSylWt{b9CKxY}xS8QJ!_Q^N#j4!@8q4W9;3ERzwX!E1Ea`
zlF_Q{+Nz;Y_GqY1`U*RFDbrn9dLkp=unGCxXHbk#Su_IAlS{U6c_<ES6kfaK%C}&j
zuwJQ-XH8u7J=|Wz{86ati(=mW?cG^VKkw<kyJOw6FY9@Z_o(N#;Mu&^B24j>Uc??5
znKz*AC=~&79gSqJQwioe8kNu(;WmARlN3yMs&&+o7IG*Hp@4HR00kizIYUvLTN>iH
z1OeAZ!O&BG8IeK1WmWIWr9{tQ5Nc4h(zvOK5R{)!Tq;YKsUVfpx{!lh#)Ffa1_{Vp
zV>;@sucCd5WS*nBTKrCuV%Ss24`%{AKAA-Rn|zmCvaj&Vs0>gqKuuVea)RhmXU({F
z@dGUj2k)j$6A3U#gHgB)@>tQbgWRMB@wIf58fC|^D{yn{vah2b#82~nrI=%>GvhCw
z#uSE4f;}P#etpv+cv6uG_$KjrMPfh1&4r>^*CNWR=Rl$viLq#Q0z!13l%0KTAp)kW
zOkmP)D(p+#??TsvilU`)cHry;NH`V}Le2P#&z}xLI5<3Xb|N@7J_7HgL3v~2rv$f>
zHZeIgd43{z=9FN<xPpNNSk_((v*hNO-zc6CfM1IHmsls<-$Du~L3TZXz9d-YS-77h
z#tP>7fqA0(Sx6*sP7suWBOWNPLQJY<%evfp`+PUf!ha9Y*QrNV>L`7lUU#48hbHe0
z;nLg1dv@J@;RDZ}%+Ta=S;l?-VRiHBo}W~A-56UQTE6nIxohqCPnvh#w6D-B2XY?o
z%4^>m%xi4rZ4cYJvTaBCwxhYa=3HI-!@A~d-66j2(33LVj+)!ZDc0?HuOjO|%KMMr
zuRSWXbbtW5ZkT@LqFM&QThpCyrkvhiJZ_^rFVdert)ifW+AhAf>oKK=;;S06RULd)
z2XLG9BXCPbTV3<SNcr0G7D)Y!sJef>?x<DwBkSIyF5REII*uML`}0FIxTOh#7XbrB
zw`59f1}efpwak>o4n;^`VcU>5Ty0@OZ93@2H&X}XjKk`c!G!l=sZ{5d!Q7VEIE!Q2
z0wsX{Og_!-?pt>q+V(Jm3X~7^9a#O7vt-Lu^|S;|WX=a4e*=rl5tzHns_jp~m}=Vv
zks~3jl!HyF8E&A+2Ni6$<<fSm9Ck^I3|ZKCWq7IXv4S;XsoNXR-mVxe*&cT!k-#Qj
zsoN!tj?tIAQ=+g^GC2(!pY*S=!TJrNg_z(%1+VlJQ1Hw-u*ee3XNSjvM`52B8%ez}
zLiRGy$T5*=xRr>nr-&3X>}N4?$6N%h+8i3G1$<{wBgewNc9{ib9^8}#89nZ(uWqU3
zP@$4n5lVclasf>Xi7mJ9A`2=-c;7NWOcmk!3SrIMMf=|{KIO{&2yn#V+~j@;K0yl=
z3YvIAD1$qu5iTARw7?`0J2H3)Pkfnz7>~*P!q+fA+395EFcP_mV)~8<b5r$OCcpYU
zi}N_&(SQxEUKuFhsA_idH9ObgE~PnVDZfpB^YFuCr~c~XgJUnP*S^djd+B}G?cr?Q
zKE7_>y`~T94rY$Mw0t^K`|`(5&$owfTi3m9>&_i(uKUi;hu(@?CvToa{amJH_qun_
zy@U6?$3KQUi1wQxSk;vGgKVd~`qtRZvD?vgZ`aRFdQhk7sdDjhURS=1vex`UsC}8}
z)!(f;+M?s~&`y6j_Xs=x7@a5R`~n>vI{4%sA;(lwZoFH@{XIH_>H0bPkY(U15c??p
z<~~K|RdmRRFyIqx5*rp~qtRdxtUut<Y0(nrh<Hi>B|sQ?%7hqPfY7IJQaQadr#I*H
z6^}G!`YMzJ!%smH3;`5QRia}N#Z(4}0}YnJ1)0#4srFHsQD42`t-jrIJ8`??=9$$n
z@Ac>P5DEA~u_pSAAVGU-0-sWxE3d-@ltPp0HTofX4dlo8iy~(HRRd!fijknT`aT4P
zAB2S;H7Ep$bdr>-#qtQ~5RHOq3>O1KxhTuT{%9)n-n*0cTK?oho&xXtyB_0@8XSW8
zK7f9t(LmiT*xtT-VQemG0!T!`S7@hA6h;yRx}NGFC<^OvFv2iw$|rA-PreCJ#iBaK
z1mZP42<lMKr7ei2<n4H>48&J5j1gc|Vmx>@v5=;RG<_jIJff&&46KFKOX4w6C|7t`
z(6(swoAGI**ya^kkZu*7usEm5Y4R%Rgz7YbDYyA6Wt&kDdr9QAHYp=!i--ze=tgk_
zP}<@vQlgRw$yIsNA-p6Cr$lKFHV@8OiE4ToLMeZV&XpGT%;Ku?Lmsm4RMp=~-ArXG
z_wbc_?wQsrkKV8@>z5ZEIvQ6)Yp*?U^k<CyTUkfM4Z+V5@Dx!XUm8CJTBFc^vP--K
zMXT?-lDz|{!>xm;?k8@>G3+7mNzlWO<qNBR-r-;KuRC^SjJuxEAH?PVTYrE`DEW}K
z+)vdw3+nf?B)uX$&n#Hg+^1Rw0}u3xuaYBhB7q~I%mUm`Q(d2f9d*Gd^Gr00SgNes
zGz*rkIY+H%CzmmHh)W%5{GwH&%!0sXtYONguVAeN6ov*~!b^Q^3j>6vLG$rM0^h>u
z#^)%2lfw7kWm6yDRl@otMf3N7ZwQ~9M{Aq{I~2MCOccHkA2<dVr(cIga6VjK()(A~
zhoVXKDnNj2uf(L<%5_{tjMYE}m{&%7)>y?GtALcZ?Inh}uva?E38u!y<I=wUafyNp
z)k#@68Vjc)IXJO(n{~1~p$i;3GuWKp1_=4|!>xP(k3RT;qYwA;0o?MX15XD*vZ14{
zWe`st_z{($g9t{HV1sbhiHCw84;zi%k7o`1ND$y7W#B8h<?;ywUOZvohd@2TG;z*g
zJC9BJ`-QS#kco#uv)&Ccf+HM<$3h6#n+Sw1hB=%tf@yjo7EXdfJRuSl$fF1bP=>=0
zb4cKGxQCK`QgDgUL6{w&%?9o{!682>n232Iz8At>#jyCShxpP5heWwhNgx)I5x8w4
zJ^fDt97-PGk|;iHE~b)a7=vOWiWLMCsPS2DIt2FyaChb$=n%7lI`kn0&Mlz>+yaOO
zB}++sT_ZrukvK0V5+aJs%yJA?po8S9NGlPN2)AdErrLu(Lh&Ff1v^r-L1mJ21CT73
zMrC%K+lgUok^Y9k5-y_CiB1PX7!Qgz5{J1lC>8!wi72=rji%{G1`VwPwv;yilxqDM
z)%-Kc|F@L&r&RmT4HRAdQ>x{sRR2$@!~czXj;EgcNbCHmZuF<R9sfz!y;0kk(N*PK
z<=0OV=OdGM<>hr#!*#<)di!$n>%r@q5B1jN$*;e1UGtHt;x`(v8$gY%Da&ixX?xD*
z%4^|wqq04(hhLnA=8U<4*Ec>cgD^}i2@<r=CfakmV|8GaTiwmqbml1tuU)&Rxp(xQ
zf$x3p35K6m1r4-!<=RsUf1jSVeTAmonacL36ndVfH5GJurl#{L1;6>-l)Lge+8odg
zIIkOX%2U?4>iT6nyux9ufVix&mN(XZV66YBrJr{+X7-%CZrz})S*n_+sz0D=Kh1k6
zYdNl##*ONRZ`#4iU*GumkBpmggP_1z@mZo3u>KcT_lS}DOJmuHTl<#|%}6=*mo6Ip
NZY}!D%SSr3{|A~;haCU_

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/interface.cpython-312.pyc b/platforms/__pycache__/interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..327618c46e593c3f8b1442ecb465c7a8238e7045
GIT binary patch
literal 27241
zcmeHw3vgT4ncl^dAOI310lr1)iVsnsC{VH<mSkDBOj5EQreukd96AmJ;$D)FKmfTH
zkVIJSDycIot#{VaW>e9PQ`5WYnyRy7ZJX&R)6OQFZky?(-2$d|sNN_WWs_~2K4xLb
z>F#7Y(|-TC4_ttNBxklsGhNs^_uO;-^Pks$&iP;G^1F3)ZVtb={f*dnk8s?N=tciI
zw8(?sws72aPT&MfoSRUemI(`cw@z5u(>7saPy2+OJslGcJgsr(Y|TWCh056CuG!j&
z+FAF6d)71IVQH4QccPBL*H6^rX^;D68zveooLDPu!@DEiINLPQH0z)6Gk9k_Fxx!Q
z%;Giimf6;cRu*@~+h*G*+F86d-Z9%b(K)+nVikLL$Gc`%PpoEfPkhZRKf$xOH@<eZ
zd!pOIC9Go4M7Na_8^qrC(Np?O^a*w1x+$wr|GIsm-^%Uh1mEkN&>&jQ991FA;rllA
zZ6e4Z8v)t$2*?2j=?7#$^cdwgu+(Oxw!ClEa1OGxR;0Cwg9hZrIZLqpCj>GUv?#Ud
z*sLgs@pL3;Q|iV)b#yd5{QT(fp#x+472Dp#oZ=pf0AM_mii-gE#1gS|IG&uI7Nww7
z@f?-Jsn~_%>7*no-lI}7D$4SHDVa&#uqc7O>9m+g$C8QXBGI#ALKsbCW`V<fG9I5D
zP9~;e)ATkRiOz^4<8vty2z?rkq;w#W%A{q*jfB}$nq^y*x}(WtJeHU~8j&KiGD_DU
zkIbe@Qd;)K#S5{?xVTrE&dj2Iz{;YeI3+QikrGjLY}Am*lqTT83<8j;MX;XHrcnh@
z!?ZR@9CyZUPFLgaYe_l*oT;e}bB;UC1#M$W?QAS6CFSH)TCwm!yJA0+j3pFTDjrEs
zC8b%#kx5|G6-PXIUX*Td4+!JWo*7EdriN0n)W&o~nikU=FJzwFx#R4U;!r#`Ih2}9
z&m<E==P<TIIv#l_mPm`zR3s{fQgezkmI$Ah<I-wiTZ@14Is})vd!Cm0o_E&2wf?I+
z-rMu;o~52GOC4L6J9gzeb}e=6&Utp{?7O8^04*6ijmWqMKSR!SPUL7=Pgt=SY-e0Z
zD*Nf9G~sw8g!7RQHIIaFJrbh!kr3`jLU^#0te|^s+K9f#f?mZH4%767!-_i`o=pmw
zIK{o;@MklTxRzrV0j$^~nRHUI51$y>tJsen8Gb>rjUPRs*j}Pwn1Ulm#ud+rvExTa
zhY##KFghZ2Vqn>9NL>`;^?>G5eg(nn+#OHg^42$ZUfKD^Q<p|cU)=u7y>AAu1mD<j
zY52}#zBF}S?Y$nn7X0Fd&mB^0rb_>g7%&L<8HBA8gJ(FE*(*h7G+K~ook`sk^ia@C
zK_3Fl@s91-VUN9_)Eqr>YV_FAVa0KL%g#+NDUM?Yjt`$y97o2VA3dhjoESSacI4Dp
z`NW3^69t>_PoMbeGg{wzS$H#cCHBVIOZ)G5n=g;NdEm-{Hx6AIeaK6(%;)y26HoP(
zOuW7yKKKpf6nB9W*abwpVA+jS7PC@Ju!#=AE;^^|f&+(Rjp^NqcbDnC2Jf||cNgB>
zruSOBdw|P}gVv3B9pW~`J&4!Od4qLI!-#k;78QphsmNq39!t+Dj@ihWq=ZK-L62m5
zMwBE!^+?~#5a*~zHvD^V6~T2bZJY-eEolQzKVoHPS|0)I>=(H+P82HpA+^GOIAy(P
zsR(VU41E@LALnjZ#%?$icTA2Y<a8tv6{ROpn^HfPOdr5GDAIW+3epZFN;?tUuqt+0
zj893s@FG+5d7kYXiZdLJr^DfFYxyvR)QmlVeL#3Fad&;~^L@A1Zoch%;;w&f&b#(b
zL*TmmntOiaor7;3%=!8kw|(%`ji+uozUldfCpR#X_l@LSBkGA^j2JNezdEuVG_n#A
zsPr@i&mvecR@lKSj}<b8QQ)!1YV?CcHxAuu{$}SlI&&LF^S;rXYxGxVtkyrqSc#vl
zGFFuFJdN-^3K&Q6t3V&0evCd(SECQgc;Q#C&m)i1=W6@MG%}7+pJ`#J^K9&*NTJ=8
z?Xa}HT&G<V&+^}w!HpxwOdlG^m$|Rlz(rff6iX;*HSKj4X)i!zs!H4B>LYUaoG8f<
zLBeuc%C1?l*_8sEqVmLGUE=OEwOk*#HgI*-{EPGHcd~C~=i@owhMa4|L;90INs=Ne
z_b6(;U_FbyMsf;P+RbIhLGJSw3rAt)o(k41B$Ue7vZ#w>iR>5My!IQtkdh#N@d7*e
z_^5I6@e!GiBzTeqAhz+Rce8_V&u(@Q?l~QD8z>H>`50hj8IqI0r)MH*1R~D>d2J*a
zMErbY4uCukqUpHE3$f`~I%J@cXxe^4>H$m;okQv@K}%3FJ<fD8j7C-1SJjLOf>+O=
zf|qM(ygG9I;I)IdeLV|JANqQ7uAV##bH1KCKL4B9E7|$yuKe0U;JuD_JMzW38VmZ$
zxG=?rS`}Y797!aS=?F=vayTrJG^p4oAz@0-QJY68VEffUiXEnG8^}l^IbJ$WK^Zen
zhcP>mcOfGGHi9pJ8L$8Q2U$?C+Z>~o`QZXb&xMf(>{)Qz9Q(A?eOl^1%O_2(gxBI2
zT(CXh@F+NI9E0<=k2yRT{jx?z(LUqXqQxHk5m=ZijGO~39b@D~irE-TXP<DgHwSxj
zPSmis8usRzaIv>q_U4|bWp5r0(#_ty^ft{+cto%0Xh$5F>$J2wQ(8SM<(sG%eS$9w
z5gTv~lqNO^jeu)B)2sEs^dNj-3Y%WH8(g{{&;g|R!6-Is@c`m2TD%$YRxRFwc$*e)
zMZ8^$w;|r4#oH0@6gtFJcwYs^wiEANTHY$eS8MSu#MfY<tOk@-SYv9@TBJ@3yeXv{
zDQkhTyK=9DMxkfQDfF63^oV>dC(H<aLeE1>t`qu&^}rky1Hu6QZNR@lFy(AS(Nf1$
zK-l=Y!x*hzhBrp7MsA-9hhBzEFzYm!A+cXvMZIIQxQgaTD;Gd(H<?PTf2<OlO(lY~
z#c0?ZsQ(F5-auL27E|5^Qy$IER#V;}^0vKRl;1YueMZ=ho@%2Z_)y|WQ;85Dc3@6E
zV<Isvia8<Zou)b2q|M1LadQdAr%V{10LC-IZd0i(NO>AFqT<_Q%GrvXXN;U@O*z|;
z(<p8SUF|icKFLyv)}J$_?$BCA{g77n<4k&Gn%;WxDfDpI)cW151_x>wG1c%iQmaxf
zXyhs2VKf44qo#6ujP~v`r9Q(_Y0d06r9Nxa{Jbf3uYuu!DfKxc^`I$r*hoEON*!UT
z755Uf;IIjD)F}UgDRrNbI%Z1UZ=@bEr9MwHQTm^7Ryb;cI3T=;6=@ZYVedGI8TKK5
z9PvX8ALWdjpbsPU1nA?Wa7uUyRQxIYn-E_BCA~c56+Uf(90O#P83N8%Opr&6mVd^S
zdele_n^IpiQcs&wk0CW;T4l!>)HwG3ezbK`qXd;6tU}aO@&tp__9nDTFy);@p2+qj
zTGdmgoKthYU|ezODmldwW{NhC$`moZoT9&^p>vi7K=6uJh{>r)Iyw_RE6ynpsHMnU
zSSvy){U;9}ejz+Edh)<9^y5dy#*ZC293CAz89ur9SorASy~Cr=A2~b%ZB2_-D4I;9
zrDPnHp9`OhNQx_#5HeAy$(0s4Mv{6s3bl3&&q-A`&YF-m-df~LDwUKV%#+d(O7tva
zQxtzh5MsozL=4>Wn9>xUjwdIPG%ZC^GvO4mFif#gk?lT>9z(HVEc8lDwkemy_OhQT
zw}QfBn%HwocKb1=aF-beX>^AdXw+pMYHpSh%}5fI7QC*q4nZ64z&J%`6xZZbJQ+!E
z-mcV?Mz%a5m9vr!Mg?KDf^54^0-^G(E9i|(%F|2S$6l_n<$C?K`mZ|Pt9!TZYncyT
zyYX7i_jJzn^h!RTm|7;c5Zh5rZYk=BD%lFo7Uk!lO(OnQRp73pSb3jnVsbc|5hB?J
zqbpj<HGn^8MF2TP<$T}%^m11ykN<t4oGbJTZF_&Uw!<1UTiSL?`5gjJQLqX@)J&oO
z7Y7*QzH)$_7|wJmll7U$7YWw^ymELq=DRlLeH(MGjla;A2dlOGLV3%P@DB+%L%}a{
zaA^x&LA^A%(efrD;VZwCCT^(I#CkL_nMsF}Q{l8EirH2(9hfo}ekn~Jtk&dALQaX%
z*i=juN}FuT_&pSsSL_hm@?G2VzHK?zHbx(cJH?Ev;kcM6(Sg&VWIJ6qB9A&MG~Fo-
zVK#YAR%&J=7vxwL#$2Y3k^UaFgjTk$d2WX3G7KOZdYE{_=_G8!a(1;b_!aYipU`*_
zkUqNU%~!9ynsarmq;hICYdP($Ki?j0+QBOvZc|of!?k2LABW~ZjFZAeSBxa5_?Owy
z6{2lB1nP>Mi^Sp)7^7c#`IXQOd-;xEaqFz3g@f|pNIZ5{%(fWgQj&gy#)GB@_FL@;
zh%c`m%C8>!`l{v4&*e8im+KnN`G#|@;a}P)sXF!7(a06MLn}HX$3-zk_EE7oPFddE
z-AWLDKppR89WS`Kh5+e(-hOD;m0FD{iwPxEZqUmA1h$`#R?czKr%m)?2coiHW$hh_
z$b#i8^hMI{pSOG^KLf$4dm+4Ly$A~v)$^JyU8^_hqD{|-waUVL5hRjk70Y1IAw?)=
zO=1m$ZH-CEgyN9lT#=T>kpaHU7LCi&Wdd>=BPuIRshK%B76tcNOr(Jzt)yyeT4Q8j
zv4>ZJXV)8({s_pg1FsxIaEXIPu&!a*yDslt_qFa125t=Gy<6`#G%>@}mgUZEdHmn7
z{Z{vf4ZDBb-uX_)TOA9-%e{N@_`m&`<@V8h`{=i#OYH|QAH1`6!{UMb+U+^->bw4y
zTx)R2Kaled-1D!>c~`AmJg8mWVyKhXIdTEW_QU!HZXH_IIfIkksO{2GewaTiN(nJ8
zhg2)>4U6<!C|jbbhEM<m5I-28d0#Kd_*Ya8niU!VCs$ji?&GyHVnhhjuB$j0`zv_>
z5+wrHe+F+wtfuPf66a<uuh}fzMO!6SRV5B8CNV{>P2tJ6Boxt|dP17yB8Mb#ItIPy
z9II7vj~_WU{CxQM$kDw)JL{<QCBpI#D4=%9rPL9i{r()hihwzx3qaW}gCr_t|0$sf
zAh^W+)Xmi%wA}OcEc?vduhIa!rx+yxN|&(e&z=iM$=OI15weX%&m;aKKbB00ihDAi
zjGk3TvL+*o;n{dZam~O=07ds%#Z5^N6yZ>$)UxK1FcYQmG5^>BWTKA2{i3QzH^z?F
z+QdiWP`2|pI3k+bKE&1|Q!EGF>gatLxJ^U&HoY<~>K{?;9SRmGco%_8ZK0K?{?zry
zM%X;MVJzgb5iZYOCS)3+t>PM*)OA4QVE&c&bk`#fMVd`*krxdVbUJEF!>aa~cA1r2
z!-|4sT*Hd||4eAKUciD7P?w9lSaZo5p`MlXC=voMWY{&vMLEr%pApG(0MaW=B`MAI
zhm0a5(L+kdY0saJrDu#OHCbXzrj~KoRZbTha+-%v7xPyGc!C#!0Ch}?yNbq{jr?9d
zO@4U%>GjNlGpHJ7g0SG|6AqY%7<%~i$3@YAefjiAnTte7wY!{t<z=?i_0Gwmq8nM2
zBCiAuwBz7&h+C8PAb>1SEoRmdq|>%1y+;8%Mw&F~AInnr(kR;;nrZE=m{!xYSIqw_
z)SyrMYJJ*ErkYkKo9c^*u(O|d-m>3C>(?yrYw54qF4`_x=B!0uK=^|Y7WUKqK_tgT
z+eM2i<zrhV$}9Wns&ySIXp3xlOcFy^dGSIdnvTz@Iu%_C(6)~M&*&^@VMMeK{*j<3
z8rL$~34q63Njk-YrBb#Fb0HrDE}XBcxz%fzySC@MwtuTV*R_4A>kveaJD#qbr|*ux
z?Z=+xt7pF2ciXf6j=yiQBk$jm^KQB4Tf6LApZBd_@(nDW$@_NXTsv0ooJ3NL`05cc
zi&vkwKyTKrpBCgPSaLMLr`BKU=`$)xNlE(0)OXsNb%x7l+GPn#wyoqe)dq#(M_V4y
znE_pxlk;`wTx&mRdqaAAGntrRZtoy3hNeS|RF4iH;3qROe_$je{UK_5c#{cH<t9^3
zADS!?Blt-hI-oZ+4Wn<IpA~15(ww=$u#oeUb7>JAP31<mn#PqO39Cp<QcD$xfzn13
z1?WGb1V#-ZM9dCnmGrWL<!c6uPaImL1*rCF8$glcJP$oEblcRq)2c)oOH7GSv_`?w
zK;Sal{Kx4W(+eOfi8#pMNG8AoU{Z`m!1M5O5~Mg2k%aRRNz|DanU^zB9CI=cpH*Y~
z7m_@T>d0dH>uS~W2NGIo>{_xoNK`V1V>2G-ry}vVfsObiKAqIjB$A}!7EWWD_$0(`
zDJH-HK|P9RaV#f=;!!vb_i#IP7MchW8I=0cF_6B9L=z7#{R_OC8Sj!28^Sot&49o{
zY2X@~mwn`Yuo$>qRJf9>omfT0B&H3=jOB9&iw=dA=J%p;;8?ig@p1;G%YSExX3Bmg
zrH#X<l0%^xa?ZkJnES?{AJ^Db>JE{R2&S2rA_*Zm%d76p#ZlJCYc`UAZ*!PRoK~k%
z1`-uPg2#+%Br2OYpu@=|c=S1tlT7s_cJVXmbV}YeGz4donapGebU1W4Ha(M0V3IfP
zJwQJ0WEt2P*As`puTKs=5!xEsG$cz=IKpetLsOASDHa{dq{;U)Cdxz97C6E89DZVx
z(b2J>1NQ=0$E1IWu~e*ylu9ceQ-?r5jBg=`(ruP-hDFdJeDBdj)1Fn9vy-T2C(7ek
zY2dsKIZx+ZZ_}HHt{j@T-}ZLh_12R+?wey*#^$%)_VRbVjmzGyytiv!_%m-$p@!4s
zP{pZk-6d)a+DodRCcBKz>a(h%sBVBU3b0M^hSvFSmv`Qc3D%C+tlv0Zii!KsF8yS2
zn@$$R$>b-gqz^!@_Q8&bDpN<^00N^eBT01+f``*aP26M#F&<{5OiF+zjt64|yVyhe
zWgufa-c%-`79h?Y1j=?hSfxZ>wWaaJTPnod)4i7%G;&!YRS9xi%s{6z?(l~~Y1TU-
z#2-la%RKf@fwc&_&W*{bjihEaWCmEqlGtrYcBZXbG7xGV!j=e`g09JAB-UBe+S!LT
zfEOf7BHKH8a|LFLp@xA86_X;bsu|EI5WP{K-UcK?=zwW;4y*xbbmDWxg|5nH`dau-
zIXSdqX2LomI93T^wHKzNu?oZsv^Hq7!rEA+t27=-9b`B%IxsvV;+R0CIxVaiy2l|4
zIKPqTB}HO5@kj={5EWC5reaf!iz%55A__X_%A`J{O{@uJ#?3(@otRopwMizTn2nsp
zRHY4EWp${HDZ_0dj&Xx<sF5jX7%;OqF>zN*<pBn<nDlmlD6pq9YXb2<koj;~$f&tw
z))fzlg|J)`O_uD0t<b7KZ&I9g4ahY6RUlq5&3=nM`-+>+?RYqX&Hj;;P-muulcE%x
z0wZC_=vYE!1EsSjnqk@yqF9wi$EoUA8VaP0gyArfH}WdGM2w0-D2xlIsXY~u=%_MI
zG&WHTuU;vRIRjTE3Mr2KM*g`u9GX*+OdNVeRLAhBdkkhkjtQ7cLC1@;&A?kSXVSkf
zU#X2auP{c84^)RZ+hOeAEAr?*oW42(#{4+g7E>}cWGi9E5ZQLCY15^Fi&ea1&sn5S
zvuv&T|I&F-_Ct>KEB5!%F8Y1mGH08!1?|~WM*l0&K*^4XHDR~}(6V^=JY)y?^3obb
zfpsx)x|j<rA88D28iQ?L#1l6iBk_!=3TZDRLEk-dh?lG%zc%jXnzF0PXT_X*j^<@Q
z@L<<;b6(%Fr|&~g-(ufQdHKl~^Z0+@#k)<bAg5mK&ylA4JIOyz=0;EEPM*p&y!60k
z_170TYh8W8#%(xefkdkcQ`(>ctvZ=(LjMG*kCIDtwZ<88qAmOBd9PV6S_BJBCJkxB
zuvUpTCDX(iPZ<)t7L6NnV-*O)yirmInGMT+RqHSas{{iH>SaH|AUH_XQv%sg28P$F
zbvbn+F2T@L8AAySslLm8$2rre>fXF27)XmX*)JH2WJCnh0l#jMkw2~)f_W+Kc*OOa
zmjw*FX>qo=#ptd*rps=iegQl~T9wCefSS>fn!H#VrX=Tu9oxg(w<?avtbm6-wgtE0
z?6K{1CoV!4U?Wssv87T`7@=@2?t<cwVsi9c&?~i}S7c^Ja}%P}fj4#!P8y<gH||AA
zX_*wT(k9B<Ou-WrY@uK)1=|qlYw^z!FIkIBTMkDBcKYZ?K$*6@Jo^%@M$$<zmm+`X
za#MG{se7rZce!aG-!!n)G<dn@o~J3-vNP}5dDp-C`ZL#_$$7i))CHF7*5vEfEI4l0
zty}D09@w29*nR8N?Sav1KuBNqugm+_<-F@qe7@$xx-~4VH}CJwd3%c}Yi`%AH|PAY
zcf)VKy6ofgJ|5SzzTUaKc_hENcvGw5(jP&W%u8Qi%2JETYFS~)3nnpk&dT=ZXBd+P
zO@nqcr?6XUDj00YhM^n>WC`VgA7NLbL)oJz=&}LdkAj-o<>`HqxGeUQ2IAE5!^G<d
zplY)Dgw$htHZsS{xI@hg$@3~&C`IUkHC>$x?Hk8Fy&64Koa%*kr3UH^I>5_S0}7d|
zi}hABS671g5>ZC4N*PYh+w_||pl7S|lc-m)S{k>1Y_nk(c5#7rcyfJGjn)=pIjakj
zjhr^9896cyCQ{dE8IY=K>rc?45~^<_#g(p(S5br+itJkB7^(*HyVOTbiCAwE^-7$(
zh`y?ese6s~nR=4SB(S3xx+!uQENAA5n~K`6GM$dnL~T~_gf$&kwzH%|rJ3)enbN;O
zQ&&!fUGG4-o~}sjMcq#EteUcto-R9Dv4gtx$S@V3BZfisj$FSH`l><9;8fAJlC@JJ
z-Cvo4cFV!sB6SI!?5ibH>ZiT~l0?@zc%c$z6H`$k_n*>4s$N4M!?&XO>d7}=ds|!>
z{W9)84dh${E13k;SuVI|_ZeN)mb@lD=}Vco+2nZ=sgV+e_@OFdRe?x03XiL|YgWuC
zWHe2-MCTX=(~Pdn{092;Koc*?U*z%naL8zee$>ri8<{12XNp{KnbJ|@4=0c9<*|9h
z(hvqoTShdh+3*bvKjDa|*j1tO&UDfw#FJ7ad@dP{Oolbw%mAJ3EuqsYP~V~{D|S!Y
zLXcSUV+)T6So2pXGRym+rqeV+1`(3}mn}VL+cXO`^$R}IX(=|D!Tw58uLc60OK}lq
zPcXxw2{NP^8;S*zk_^`Y7}6``gho`0q=7vtJqOT-3|<8!%(`7VcvYajLxbnSurMaN
zVcPO|#BsowTAeubL(R-H8RV`B8#4dGOFVOaE{@l}%02VwMZ&WevH^n(OsRj0mYb-$
z`SBWl@aJs!zN0%Hv*li+jZ>)|+2)l^NAjPc?b6?1)E}$Sk#7S0q3woV33?3@hV^z5
zE3j|u#6(qQqA1XhGmRH1?$YN;8wX@E{Lz`djX7oj=OBM%_$Wh8Dkg>)sl{0Y4hEqw
zAXPI-x+Ex9rji*H!bM75xeX3^E+fU6c6;*4Gw05yrc75S2^Xv3lOx-f*gkXqd}f<T
zU9tCt5ojS_IIv~YCZ--k?1^nK<eU@v1X_uQVbswkj_qL7fDpeIN(c6l1Y`6KU@}ER
z2?42f8pE!!Z2BP4mk9*eii!hNjm*JSfgZwBiA>f+=BCuUv_Q4ptqlj#N{Ru1dH{8^
z-7Sq!{Z+EA;3T$~WFUR@(yFaMMAbOaBJmuDHkS$u$tZK(P$!=DN>d-$h=MVNCn&5R
zx}yff4`!6AV`un|u()-0%T!_o<5^4N!(6(uO~zs}(*7$A4@sO5JL;KHsyk0M-0qd*
zM1xX(3LH0Db4u5jB}rvX2lR9V9Ya47IOFJeGrr42`bjO5x~?96#eP*ewd=`q3TVS>
zQInaiG~)q!Bo)xs$Lql{qX+t2g4c*<<TNZ*s118U1`I}t!l%lt8i=aUYJl3QVy1qm
zm`ze)rR<+kXC8Z_%Vvx==$#ptGHCr2e_kxw35q^sScC9c<ELY|AH*k9k<S8H>w7X~
z;QBfH>sJwyQy#WM9P;60%EUZY$hE)&L0_xzwbIrqF&*Y#ISp<<M(TDjgQRf4L`fpL
z0WT{=;m)pKf>O5_r0IvMrsGsSieOS=e(cP&gzthW4S1(7k-<6#77?EjEAtF#05cpT
zqY*3?tUA+eq4F$zCrV|jKc~{9V#9^763r*czpPs~5iv{4MHv}hz~uu0Sb@_&%0}M0
zpKD9gPRD-ayKDFqd5dC&IUNcgVqMs;qPmPUtrcnoW@;^d7H*EdqmbP^T&^PTgD9QE
ztdM?_ofiFlGUV*E#{Y$aPNfE{D<!aPO!_p?DK$72SkhnMP5Kc62-tfm?xB_NZNy}%
z8hfDXnCJ<IH7xjINRiJmr8d#%A43_q{WrF~-MnC5<~QZ}O*ea&8lSxEyyI!idAh#Z
zzqsyZ&+YE*cl{mn+ZVPh`TKL;{vX4@3Mu<e!!W*Av)sVv8~8g7{*P<ykhk4jpl#(2
zgSym-q*J7t3Y)Z;mClw+%^2<qst{dea?ujTAgI5}7})7lQ4rQFlI(ULPq+KnnZnkK
zz95P_Fuvng8wL*yvkyLMFpV0O#^Sxe@C*)Te9BL|ok51}5}}dZ&RB7q(ByDO63dGG
z)ih1pfeVbZi^F|{#FfNl8@_t5>{*-ltj&3Xclv_MeNW~4o?7aA`ttB?=)QbS%f7z6
zuP^7SpnRrrVrz;BSQA>FGxjtRTEJzbV^Llm6Wx79b*H5R*qmJ)o9xp}J|TM=?q$%n
zrivmew0eCqw09D64y?(?Sq=N?O64ilpQbXmzKVv#j6v5lFhQixIJO@Kh7U!WC6Obl
zB%;*lzRO<XPhuBP4J_0Wt$W2iP2X7z!+imc$!eT=fY;C$9bpcZY5^5BH0^jH`eTDi
z>TGOO2-P3+J1a^x2cR%8cG{v-5%aw$kpi`C7L$OM6i1n<VuDW9Yl0k<Bz$X=liDc2
zmo_=61A$B}Q@J5^Gw7iqWEX0%X~P{{li66UVUj4rsp;&XF`AD79il<i^ipkRy%a5U
z{fDMJWKfC{6Vqj=#}pVolH*GGiboofR0Y+4M|C9&PBWdxrox8kr1E>kn=q>BbOpq2
zbi<^pqK=q<<;&-!v3zv)LetC4%)wPg;Lo0e`5RSz!fsXJms+*ngjMWe-S^&P5v~F;
zOx=2XuIa^U-BNc3vYP(w^r&5LZ^=?8{MqgzRjM3I>2^Rc2R~V_#;WzITmj0|PRx@;
zo=Zf*DUt^ixbg_h!^IU@Ws+KmYo&5wwH#DYR4%*5=uc&U7fU;XH{(ZfMtO7^{JN!@
zYqfqV%GN8mhIH971<T;;E@Fdl3R<%xM)zswWinP$!Z(I+?Y*>%CT|IzI%2kim#ClV
zWL|@R59q}E653_uuGlYf(>Tq4*YXF>7<bY7Rm*STK1}5cTSe1!C11Rv2AEyxYBoVv
zV!*ifwY5rjZ>YaxxLTFUfLZ!B8mG#I4mL0FPjkSbC_-Nfm8NCIc@`E5JZ;$Dl@@(S
zN@q`|uF}SON!?eQ878p8rE|R3m}BxbsR$F=joUCVvFr&|%s!2|mg$Rme{+fZk4@_r
zn{!Ri-VA)$^z5yceABa+hwu0TZ(h7|@$Jkz7vH+LIJ&gvi4XAw!G`ARo@<`@(c2B(
zcl<4v4>C3kzTCYS6N~^&kF*hSiEdt~?BZ#SU2Lz~Qqu~o3iA>*w^wa0-5m5U`+|92
z@V0Nm9e*(A4SsC5*S6AkrofT(vQ~vkD2V2aQ8pc1*SQ#de#??g8kDN<su8&Fq+kk~
z=BFT)Xv)<vJ1`(RN3<&(FtBR-iCA>R!X`PHnSwG)JNy`%mxx`67gus+7NmoC3j)*+
z5lpvwe#+S%W1_1A&Cu8ozX1LXBhYlYb|rU=T($oumhAZzy(gUjHAL6yvwjmpMj7Rs
zSFu~FJhwvq!ECXtUz$mZ(3zxeqerIf6#7zBAt-fp)tLFtRKMn|&M3POX~{lg^hrJP
zOUi4E_rtovW(fQ>qvWkb#Apx}q`DgY>S11j)Ff9|$URSUqjE7swp}@wdMOcA_<?wg
z-Ll03qFQj_?z?zM<nf^923-<9qRvS^N}<~g+0~_=%*NHXl8<UjwFFKaqK4olX)V2U
zQ_w>JPr(TaPEqg*1z`#z6htWyC=d}S_BdG$rs$nS5%nW$E-;R;#HQy|;gKv?(kulh
zDM(U4-zJiXLzT``Fh{|w6ud^kI0c`l;0qM|Is(PRn19s^T%s>zNWVh?`y|5eQS3<y
zexHJWLIGVQmOh~1pHcA7DY!)e`GHG+Ou@G)_}3JWQ-<_!Dfo93{09n_C<sw-kAfc~
zz;!1ODE8?QX2+2J8)f__3jPZP|AT_RqTm4qKc(QWDfk%$|BHhEO@W1`z(#?C0yhOd
z3j7q{BlgH8IDDp_lkk0d%n1efB0at^OaXbTD|Yx}q@~UDzJ-GA6fiT?Dk|JX!Kd_q
zW=y^U1q6Muu64=YdZ#h4WDlqz=&pVBrNdWymh4@KcXnMGyE?pNUxmG*=ddMb@0iEi
zp+Y^^vr&7&C+E2KPPItKz4Zf>JhI?_>%fwI;9g&U&fYp7n2)~IzGUye*B8v$Tjp)^
z!dvbod+?s4u3&XI_AK-+WZrxA-B<J7Tkdmse_-RB^(?1QZ*dIG2k6UoLj`APJTz~o
z^bn<2jV}~owyW{&1mAhnRzTU#TkNBGodu`WF=CldKj7$Da5)ezqE>pMtIo!P)$8cG
zWxLPeL9J60;KS-{yl=HS>a;Y(3IUeubPU~T>nzyl*&BTC(7T6N{9f&v`wpaO@QA@j
z9N1d8wS6Bo*EyQ*b!;j)@Whw~S_?H4b3wsIA3-S8(i^5{u;8JXmuqe-)KRRSYicR@
zDAvIFTMLa8YvP*Q3x0|PfN4H(ZC8Qtqb7IV{Z_=ZCQ#aHYJ!vN=={jxa0Kr8TMG0<
ziW@VTujTL8;8laC3^pPzg0E?D?7SCfpYNHM=ht65vJlM&f&~W>wf0lY#kuS6*CM82
zptMa?ql%%q5(Xq{7$~M<Kup6xX(3?v2t(h!h?&IW=J0)bXb^~@)MG;sHK53?DmZG4
z2}2AcOL*Om-i0lTfp>QmI7Dv+?$bl79kD_i_0Vc}bT2sG^S<jXaERUn6doEBVwgi`
z<GpP=KeE+1>h3geSQPTjPZa3oUTxid(1A`^h_P9^k9zeq#I#y!9d(Oa3LG9cx8A3R
zRs&*~Z)!)4qn^eIkDK=U^w1y>WBn;uo9H{0FW=|rsbx~Mu%4B7I|7R+h=-Pk7_0o=
z=4~H=$h+?}cU*t@+RMw${rTqp#ol~#i0HlhUTr<myWVBQRC;FvgT=mbG-%8=EIK~$
z-0;wtZMfyQC4TF~t$2RNAp+l^)sGk(JOU3apx1a9Spg%<zlbTdJN!nL-^iM_sCm<R
zckPa8i;>$rKSBkYje^altntcO9tSIhhgJ%)LI)c^r=w@S@0|^AZMe@Ns%0Z)j7DHS
zU9Atz3svfKIGPvGN<1`#h-tf(6H|AuVO0TRk2!R5jhhQKEb8Jq2Me_<>ZWz+p{UUw
zz&5xYZS(R2Om$nKt;Vr#0dYJuDzQ6`SQd{{OONQKD5{N(2NT{HC^+y$ovpov8j87S
zpQ@#pn_?b{dAX*}LLJ5GId|KAA7aLsb!%e=+E`>?(5CA2Y<<ztyf+g`R+*#4-l|y(
zY^3!uLwVNvkF0f$KCKOise2+0r>4cNH*Ggh+}iRj+pQgc7|v}P$!{2?LDx4>#I!*t
zN<6-}_1y`ox)L>Z(LQ5W4-!0BZ6Bc{U5o=~2Q;x%#t(-$`#o5XNAW|gmH+An{*;bo
z!Z~M!PS}5<_}L&`B9J}<9Am+niX7e`^3)I3kaEAAao9u51O>kazEdXl2!D6N+qUfO
z&3k+CR|T2^`X7rRpkPRG!(N;gFQoCeN~B&w_yz@S6#Nkdmk=l}GRlztlJPf+6WkQJ
z<Jk$oK>=~<iUWT-BQ+;|lM<K_mEB7SsZM+nco=BBnc6U9aztTDQ>GJ@=Bc2Ez|?~3
zg$BknD~+0hn65a4m_AIZD?+N)B$Ye%QL>+blS&@#g!>NtSsIBfvPyvE$l9N$(X$#U
ztDR-h)igN-ah}~63bR+nXDZI*<Qcdzs<ZMJD53Jj%vI4&e^^3g!5Qnxm|Digu^B04
z?-bW=NIv-UBYPyeWrP1Yc@aUuX0ccvI5|tx_c+h@xZ3Y=zVC5$-{aih=T`rK+nnb%
z|A<4D_b<7gAKDszV1Mc_?W5nfulv4z@CWuMzi;3CefyR_w?BKYs|Re|4{HNgUs|eN
zeaQ)i$@277@K$(y?5?q_zPk1L&TBjI)nUu(j{`N94)xE7(0j+nfqu*2)$GR{9)CS<
adC6tz`iP_O<8uvGOY{8tp8|_&Li|6&3149V

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/rocm.cpython-312.pyc b/platforms/__pycache__/rocm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0169c7da1f2819c89f094e4f190ef00ed02b5246
GIT binary patch
literal 22319
zcmeHv3s79ymDqdz|3QEGgJ|&+jiC7mB!naoAdnD<(FjSSX|K1Z)$aj~`op|#B<LVp
zUe9LG?05%xy(^|-XYkf;St>iRoZX6*O{L1SRh~G>R?<(6x7%-JFOJ9Aok}HP(6~Id
zQ`wwz-=`aBX(nqsl}hcCxbJ?>z4yFx&pr3tbI<MnP*h~1;0bGfC-fHs6!jxa$WN&h
zdGgQI6m^%nL@^XYhbbSvRbe`!@~I+fpE{!PX=uz-hqV!%Pe<Z(SntylctgbKGm<<_
z*c37Q%p|T2TOviiB8cl4eYiMc^;sh}pDkkd*=dT^aYazq5OzeIJ|}@UhFy^oUkOb`
zRSfNOswmdXmVT8MG4z!gv42yzJW}DSh*bJ2BUQetNVTszQsb+M?DOrTDFQ)<>wNW6
ztie}5L-`unCiXxDG{ZJC#mC{zSbd%l<!fONvIp1$(<-UVM#}7r1O7P~7yK)Mf2B;>
z7mdEwU9jZ@wt}VRd=droUe_sZxNr$mfqnVBg-hrBd5uU>rjnt*suB~6w6BBHvtG92
zS~Eq(?Psaqq9Iif2d0u>SoI3!>tt0-HQP0<VrpK|d{t`KcSy<ImzUeE<ksfp_9(gT
zyxhaA%7`>?WA?N9xo830>)2kV9{w8OuMz&5;14LyGy^<W0G>|jVRSstEX6NzF)goX
zl`rX2QKu>9;42i<%G$mPe2kCp*b-e&v9%2pSL1WDWpl$~etyW9S+`7EntBm9-{<~>
zdzF5@QH<T7Z%~Ws7pWT`-IC=gEsgviw^a0$me}1bdA#r8$4q+Ef;Jck&a#3r%q{rE
zsP+aIn2&pCq3Gg^=STd*XGVs{$0kohhB*`sCH&#o%nZxjr-iEE0u%5v?DbHP^#@}M
z(S$#q2qf4r8;`$-a}S!gog&4<f%(AIP&kxW5)9|Vfy8u-iwG7uHWFQkKzpviM1qYb
zLb2#jAb5?9GMEqDnl6XKk>OZ$IyB?a3D&^~GZhJqEC$(mgcZsI5hfl9`DfUKe`bEc
zABcy7{!nx}CRFE@%yY3I;1%Qivw<iBC<<n&6hBI^Ns0LELc-6)ZbXF&DJKz|kCC>+
zq3AV#VriaDHjD;BVU}?xV(w66KE@^7(_Ad#7Av@Kgc7svMlRV{80tEFjMqP`fVDge
z43LiGV1;u3h3AIP`7cdQT{?gMxeFIZPWjJ0cWPu}>OLj7#j^8*7cPzsPE5S$-wh);
z2hW}Ik458&P&AnEpBp>W(J@#k^Gbot-U69jJy(R%y=`9cpBaU*guX5W7&aF5U$}DQ
zXh+ADi&s2GLD#W(q&v_dy*tJC)gCF`CB3Ee)uU2cdS7M4bazmu#Ho?XW5Xl<u~YuZ
z!E+=2bA#sv=b5qd{>x)iV?z@oezAN?a1CENHMl!BD6J1<UgO-yzb9S@UWN56p_JaH
z<dtNFnx+~06@x54Zqm#26y;G(21y%IpoMoW{5|;%2!5Z=Z%VF+3yzAqty-o+)H3}?
z^zYIM?3_F~m?^5BDwHpamizRiN5#3I7FPlROgBw{n~4j$Yd6SSH64v(vu^jTpZB#V
zBJ=I@q4~B1l(C7n#f2kBd#@c~+ry!&?ej~C*;uq4d9!_9nxFA@<Ua5GlAuS4Fwb(y
z2IOtOG%<p)Xo6i#c#nr;!9Y0P@0FmQhaTgw$WR~NqTV$)UoYBHsg1SYbC#?oQqHEe
z>%6n+T}$<ME&D#)Ag`at4FLQ(eJ%Bt<)GR_b4Wk<u1<JyhaiaK8upT#>w=fyEPw*n
z4JGFh(hUK0`&esQ>H6%8PgGiM?GrVnvu<H*tC+GlZ%sY{7)sD_Y+`|n?ie@?6d=8x
zd<p`>1Mn7~IcXi0)A*i4M0Y)~;!1oor`uHo$=9faQO+g2q<Y1`s83Pykjr&}r!<p-
z2IcD>CPj)oX@cPQ>2Zn%MqQ>p2?Rt|ysf%U{Q-TKrm5FW8fuC9XX+a?hy2WyLvUX$
zsJtD>BEea~aQgfu|KNq;GctpS)HNQTVWaHgJlCJBf|)xrz1X>!8(^gnm5n&6BOm@P
zk~>vAz_<3VpIS+*E^b(BA^x)`NXyR_+v)o%L5t0Fim$HwT0xtL0Sa6%KnNu$wWTEl
zL^Lp2B80MeCKw$Apvgdl71V*~(tVmcft@08Pl~u2WCXb}$i%r8Z-)T6&gyz2c{`c0
zw)58Z2fDQNNX9zMTZeC*d2B9D6J#Mwn+H;w0j>w?{6EYEgiOCWCgA#zPLfa{bmaOW
zhm3Y4bZD{AXtP))f3yer){}Xoee!1<><wVb3OX3+qun6I@!iwG4MR3}2CMHHH_{b1
z2_;vt^y7^icAG99Oq&N&n!$e<H!^OO;v_g)V3J-#%H|K-INy3UZ`jU?!v<o33|B{h
zn}8bJISdL8oL=gSn*xwoZ2jYn8}^$n9#5OcQ=0LA7&kI*)e<dxItq;3%ShWY2xRek
z<bH18?n~na3+2;?%BVEYU50jWgB8bx;G=~jbd@eXk~SYnX^xPw60|R)(kmEe*#P5@
zhmx#dx(ZAFH8F0Sc{$+c0-%Wt=15@CA7@|ohuNr591n+>P;|zBBNPRFS}4ADUEE*z
z8Pc330D4Er9}k1fj|<v3DA)0zvN!^&%3}NjSbATz+=VR`m=&l9eG|+D2`nW~p=EY1
zza0sVQOk?#95HD~+0yGZOQJ~5S+RhUr-6l8yLVx}Y1##+12}yFIP<cJ`~0$&p>eyt
zNXNA_1u27=;$DGN{x=lMedpd%Juq+VfVAZx<e1c^4<KpAnAac8n541^C{r=!yfPJI
zk;?j^OwANsg9UUEbT5)JU#ldk4oGR3VkzYTx;x}v=TPn3^+5eHs9~H#-re=cDvkwv
z0fW%8fuR<tDQeja=}$rWX|$S$vR^f=Mxo6dbp{}%P>1V<l$x;?q(=*s<>*llDKKI!
z;1|_ET*ufXnwEYHO6AeOW1r+uzl1$-G1>72LJ5}h$L8bzmsbC-g*fXcJqH)!iCDxx
zADCeoe?Z=k7m!h(1$^^Y7yBgNer`Rn+OXEV;i!YSxVmt-8~F9BFMp2@cxBfIl#lU;
z&)j3yT<hf<6&{F7A8-=jJgWEp4jv9Qq4zN3y;~UIWPHyJ0f!<bM8THsJyfkg$6iRp
zJQl$!ZuWD-iP{c#3Io)Bxe*LTF*pr@pqUMXrv<~+>2NHN=sYZF*y#1RP<44?;+(j-
zAHFno@ws#U^Mj{h=RbJy;-ugR#bK~;q@sQ{8n_B(2~QFC0ycRCgBLMCJ0tfA3{Xqv
zK8e9^Vt{%)hd2rP=O+E9N3R?eip5B0Cnh_)M6DZTqdV`BH1OJwU>hz0_3$tL9nk+^
z?fFSLrEPzPc3x~x6F!14T|9Z~^y8B9G#M8N(<NiKCf_$u2J2=~)!NH^k^50m|N7*E
zS-zovn=%yb%i2r7*!Wh<n=QP(;gNmdp7u{mzPaxk`}pR8Z8a2c+AG(t-l=_L?_M8!
z;N%;+x3!SFrK23xYaDOi|H$66?t9S1H}-7nvA{q%s@4K`_C2y6f(ni=KeuhfY!hX#
zUQ6;e&$bzoA6O_yX~y2k+dH?5u(+5iZOD`y=1UHzOL|kbquW-@wNducHP>p<meXW3
zZB<i6Roj#aF|J*Qs(|g#z2b+>eDlz@8nQQ^{vlc@29)7brg)osTaQTtWv^Phib*3T
zO?&V*W41-Xy9krTl)YwMld?5zTQLa;)~+}4w&ra+BtLLa_L7XPgST~TJF(a$<6mYm
zn)YgN1{h*|p8QAPe%v>+l#ga8pXw6Ds^{cV5r%|55cWPDt7i?2>Nw;uYM+s$G$f_<
znMg`UQhJ}6qzoiw^jS#CL{es75lLAvHA68)e@Od^Su3kYy%$<1Hhb2_SXnz`V;yt2
zZ{GDVcGfkmV;p(b=@Qlkw&`xh#p)R+u`AnI{j`QD$+H}nLaU|FB5GB;9>&f%0lF-&
z#d6jLXA%`m`PV9BHH7J5Dgi4yTPgMdHL7y$%gd#&inX!TV1tJ*z;6Qh8i35R#w(Ef
z5b~+LApZOIwy)H#h3}CuvIA^w4i;?SHs&ysZ@=FUIbgY$zO*jyOY5MdUM?Xvj)qq(
zN-y<LinLTQjd^t%Bzhw~&+Z~7B<FBnvg=XC<pAK?l!t4x(!+tg9y}zs2KsHz%WY9|
zJ$bnYmE4xRTsR*9%nNc5w0bZPvQ4SqnwRTUa@+E9+m&2zUTz1;MJl!D<#v)>JLGoc
z<#s{tQ#czSJM$n9DSdV2<#sE%hw^fJRzRuo9R@qp5y5f+%z(0~UeKVLAebeSO%&`i
zq9I4lA<Df5&8>ok3B~6FiQugN8oMN@!Quq!O<+kj_h6<b8VrUBV8VY@H2QM~VW@>t
z<yaw_;9_A|+phbs2RM%ztU)(k7Bn;SiI)ZS^n7p95sXFVIWX<BOdA{@fQ3IUn5M7J
zu#t!#$^mp{VH!3u3jyw$V3<$L2T8UzvN%28Etu!o1e|F^uVX?_3{!!aP#RyDN4q}g
zKu`~kB$BwniIOE%(2@-dcNowN;%YBH7{|XS{{n)%?TQ*sC}}wTgwxQQcoGVmi?Al5
zy@{%}W=`35$jwlSHITC`Yv&4V4W_7sU51ut7Uxo-+NzbM%V)5zqO8l%6e`@>LaIBA
zv`$n);lRZ>4SP0!e4Y(*0jSC$4nWgzAP&Y~&@^Baip7Hu*u!}j5}`2ny9gJ?fT$C0
zqWI+WM`>*1UXGm!#S`2TXT>&)L3@eJ24u}eC?dxjgJTy*F8D_WiJd_(jZO?soe{Mi
z)5Yh&Wa*zeb$$>|g4DrqT-0)2$BqdKM8U$g<7j>rRTj})=t4{5br@@+D@h0?_vbUW
zw-Cs`!Nw*b0QJQ{8QXqr==#24Y|~tkF*oz(<_&WTEXc0rjI)P#_M|L5@0uO2AAPf8
z{dl^fBUN!c>pYNgcJa=xl%;FaTA#6cd8;>N@RC(@QZN#1aMA?xx215FDOsXnqnpP|
zraWFU1OFH}bIzj7XynoVEqYnU{dk$a)wXP!GecXu9+_+6TG)1Janl04W}dU`0)u4K
z4EZ?zyB;(*7cL>KohR)cfp*&y%9eG`xvLRKGCCP&_?m(}&Ee6;u1CfnW`eTSWc17Q
z9NM{eJ^ute1(vlC8o#8>4xkTWU*LNQ_W3wh?P?B^jA;kX1zPzP;B5YqVz7{~t=@|X
z!L~Gy!iBK4<gi^T0)D`wsa=mu&$yM)#l5Q-k{^pM#krn<x&>N!HeCR>`n^5x!mVL1
z#K*$Tx&yZYtvnmIgrYgl!ED+6NOWu2o&PcEX4`>VfmS{Ox7-XXH2(G-t+(#Q@!73=
z9OAl=TMCjbQ}Y2X&bkL>`+z$XcSmChx3X-yV^KHA@`#u0jFT0Yz`i%*zQ~0VP;hQy
z&@IVdZ?epNah7$*!D%1}%dMQ>>Q2_QGBI{Xvu<K`bfXE<EzsU%x!5XME_OEB*(xD~
zU7>Jw-<X9HdpF0vyuik>A8<g}S*2QRY&6U+<~~covY)JH*E_u+u0<CGud<{~LzO&J
z$&MC=M4cwtAfbwO9rq|Mq<O?sdTGjsx)cpfhXB(8*wlz{xO5dNt`&<VYVWP@Da)<Y
z+#TQtaWQsI#u8(Z`7j%SFJze!j*D^P3LVa^(8YNxG!R!XUA!=M5ljXc*NL7Xf)SlB
z{IO_|6%4qdf(|$fP8@;o0xLGELA6oP5Fd@=(TR~OxVn!_UL1RFlKVX3^Lr2o`#?EJ
z5RUOLh_u*Y<`ByAP`NZYHaaHRM7S8%ZXi~Z%bos9QzQQK7e+?MCMLigU>Mvba=i&g
zu?@7On58d4vx>*U{Q)*&llf9nPKi<Fb;OZaQP8|1=+O)k2?qqjY#<I+@#r<dgjt~c
z!Ytv|5IU!q;Bt{?N|BDWiFN|a6_tDPgK|?qJJ}7Ag4W_z712&ADdQnfO@3%DdF*IR
zHC;$Mrc#!vADSImYi-JU0MwN7rc7BkU)H@*cKBh-cj!NB-%?X0o{a0rBiE75indHe
zFJIBSrKjxs!Cqi<r|OSn>WBFHp-0xCtg~j_{`rB&uF8z7fp;~e8c%Mx2D4S|nW{d%
zsxMPD%vTMkt430;k;kR(Y-wA{+n@0c^WNc9+o>&z9-$9q51n|>`Y^Dirb`CtCu((>
zV~bMT9bmwax*Fx{M;}>7AKOarn(vrX)rU81N3vxHGi7~zSzo4Xm@gYnmyM)sBkww@
zvkp(Hr7zPmz_$#fJSU-tL3)^mm;DsB?JS12i;BS-VyRBm9?H}X@wG#b%tMbYjyJ|{
zkEhBHZ&;3Gol~2Z%8bRsTRa<<gV~~*)c&5#{$YOq@S~z(1+;&|GC<Tg)bKLSe%{%i
zcAiXGPLj$;dCSoa%Q3m~Ie!1SM@8q9$|pB0gQW5R?;OZD&+yJOY3JFL<?Oo_TgKA!
z$kKzOgM=RB>jxiM2R|@SMNSdNBO8`pQn!<Lc4nM?yt6OuJf5-~f7ej_hWWNR<?7im
z9L}Ovi6`9|YcFr@O<Vg?hCcD=Mknr~g1{fjqij=#APam`l!A}z;;^i^IMCD*?NKHB
zOfo-Du?cqq#JSil5we&JE^r*k6u0bI;#Deu2U^Y?DwyJmGr)ZnnStB`K#%x;xW$RW
z;pQq?wnJ;r)dB}lDvo}sx2O+Hl(F~?(`{46P{SK))~3H}Xe2~=5A9K~$<f1U6*<i^
zN?Xkkvx82cc#A6dOAz_x==2*v|C_3t>IACw<XKiNtG}i=XA&18I6l`#0&^g9wUJOX
z#(6Y(l*xCK2r9mGoEaJeIFwb~zr^4n2LB3zIHHfkBA)U88KjbRJE)fDc#&(d8VTqD
zU?3ofi<-O1JIPGh5x(rmLu0yZ=(c4=yRz`uTD#6Z=-IFyO&N}gjOLu5T>`heKv>?~
zhnV;dYAPEVI9>s2F4L!|H&j8@3>8#;61HnMRXKMnS>anI&b4<`uiG`$O*KFu=aOex
zQH@VgpM>L7iN2brKpd1Hv^RA?ckMM8jX3?f#YiO-2cBikvQBpAys3v%9hw;1RM%h&
z6E{FwP0|`nbFiTY&ey))rlDRx34S)lpo)g?xT(5<{#v;2BoDZc*55QF6!T}HjToa_
zHhfJl_e>l~4L1#+GKf7eB%X66^_Y^A%G7y&f#sImp=mPVU<$Zn({6BojJpFI>z-Z+
zhnL*op%s<XswMa0OeExP?sU(_<~>RyaO8leOt|$FG^i-OhoWLM=?3>bH-U9uIel&n
zCUgQC0uzXPnz%lCVFDT0MbXc4@}ft_;oeR#vf#1F!f7ze;Vk6POu@Z{C0Z8M36D|a
z)qjmybV$(4zL+{OBG7Yak%6->DQ#4oF1bI4I&nPMMXn}~xUa_(5c0X;f+~G(vUUfj
z?**tsHpdBbi+bNe4P2npjthMM^AGJC&i1sk^TGbKvpd!Q{E9y1xbV25ZvDt#Rvf%N
zwlcVK{c+vFd#C@huKP~$D!qCv>vXNY{ChoHDt$@g<AxItr@wVA-Ed*exLMV(ewnXo
zeLz2|>U{9x!|Qy{=y&!%>KPa6n_<a4JVC#2rs{hjTG_f)O4(dL+peITQ}l;md9OaW
zO{t){@_lbv-n66|Pp2-tux8mPzw(3HhF@%Hq3GxF8bJNGU4zY<w>8y+ZJM{+j6)Ur
zw-1*Mx%7YT(n5U4+*2g}YfugS#pdAicRx9)o<Gxe&P9-5xf!F(!J8U56D9NICYTd)
z{12||#$0Myi!%t!Pa1~IYmj;BNg}k+Z-Bc7k{`7~k4C6f<gq^y^Y0Zbgw;5-ZE+~6
zfcF&nCpZd#e;a_n&LVpSbBmDPV;!>Qi9^IAS-pdWc9kAR{<#e8+@e5x*|$GabCRz)
z`K^j{&3MXC`Pkl;wzsD`hIsq%ite$i_1@*Qt9!+m1+Mr6U)8x{&YDX%D!X`d*JJ0w
zd*i&bHw6p5wS29Hw;o6t4iK4IcnDGd{N)y-o2q41A*YEcint2qFFWLXQm`aq2@vcN
zHWK5OV7<;!+aiq=I_||Kr!q;OEz6@=e*I*_)99KHHH7r7BlLZ@ta{fXv|`Cxt1{MR
z-rAfpG(U@0&`O@|41}~|hXoN1)*?kTLr>BJ%uE+@5CPVv3)zccNzpE=3t7m}DgjH0
zYEH4$%6;T4yf+QY8qNt;-~yJ~TY3g2mLDY^d6spB?6#8iP7e!-&W~bTgf(#9Wqtf0
z*u=DRrE+fWeVyj23zy8{EZy}mhObHj1C~AMpU0SI6@bN{2rd4n!A*GfT#RA4S!ja0
z20>D^1jEkxMhqr7=S2^FDf$A*NgCU@NZbz^Pb6tPC`aKCJB)2yg+M4HyKfNha09@L
z=Kc`4D5E|8yI5)=*A`IvL$N@P1Eg{}&k7r{Ksd~X<qXZ_bCV<F>>T>To@EO(IWHGX
zB7(RD6HJmv1aP>ZLoetkBdubB8PSrO6gPN?50}9pi^2C0JzSqyaHrt>>>?WkV>w(|
zaNzb(^a_waxX{v81~)Un&kF7<_!s6GSXHIYc1@zEK%K@(^bJ7a7Da5<M>osrGG*<2
zSv$<2n&wQ+F}~&)h^uU6W2Ul)uk2Z|W^39XoX8v+;o*PH2$XHs9L&`8^ELhHnv;<H
zp}A~rB2#^cuRfHjK9+52UYXdi)Nh(AGv-F#+<33_k-0tV8DDvB!_xG=jw-7Co~tQq
zt4h`PWa>}y@ZSb|rhVduD`V;4EgcW4zH2$LrKRkHH10(YKu}aG>XfDka8lTh?#er4
zAud6<q&;~B0#qe)TNqe!tT`o+0V^-qeN{UxsX5m%fZm@=EsIN-Dz{`6b|V7|sY<>n
zB+du$)lRyQ?ZcpZ1!uv=69m_C)_ovZe_*d=?CKJ+jFHVzG<L(A>?>5YF;1!i<0eAD
zx=VScHK~C<cVpb6<<S1k{UHW8b46uK5AOd_Fu2LW`bSVAs3Y;2oif^fo#jH)Oa2_4
zllyi^=RM^wAxm9^)^1Uo=8}zyPTt)48292$>&f+Ss_Rn9cKL}~g_~~`Y`zVYrF5g>
zC~rRc*wOW%k9YL1kX`lU?a8cdB5SM6+MGYpYXDM9S)?s19@Iq>I|f|QU;ZidOzu;_
zTYT^a#pi$_a@q?DcG2sOYs?L9p#?8q@)5eZDkt_Bbpq`+<S8WV8REFGM0vE6+-CqP
z85C`BgD*Vq&ObpEZ~dTUwAFoeA>k%QDzs3^#wUQ6ZK-Uc)lFP_&~#b=&@0fLg0nz@
z#{mA63*bsGIHeKHM}e5fxc>@B5@z9k3^73!iwk-<V-0b!sLVBgiv>nMNWnln?)UF>
z8vk$jk?um=lHXSh`DGA5Kg6pbMYr|5p?-a2!_bm7+g3+j>;I#MOkLljx<0g)08?zK
zX#0r|)M&RcP;DKrt8o9GayCCQc*JEMn%nUZF`$90yTlSPnd~MjML5O<yz^i*3<mtt
zr4%^{%a8XwDS1J>(*mc`;_V2UC^p1VUD9D3sKe}RX4lSQFTfIhF-j<yA=Z(-$_XM%
zu>SW1>zwHN`&eH-qPAjffUcw`H%~;3{g-Ni=<!KVIz(L_wGZOPn6E+#WpFf)WMl)^
zBo&fe5{wHLP$<d0Iy3`we*%^B?L0y`(pEAY$rTsku#P4hcW~X)z;5C|oP}1wk^#rI
zk}0T#H?-V4ykY2iEMF06;;l{V*V9(-y_b1w=bw&z^XxayX1d4u?(y%8rn{$77ccSM
zmwD^ul;QF-cn~-Jci~PK+QTN3X9yR9_XC)(VV1LuS5lNgcZm?@14o0nmt3FB&+-n#
zg`eR(7{Zy{Hqr)JU*gLu{N@5J5|eTB9_l;=5`2)UIC>wz9tM``7hwHW$<AHanfxdm
z`zgqI6>qc2CDg~|*^jssMdyyNS7`9Pe%7TZ!eGBTf71JE?ihTIpoR-8a99zH5_Myz
zr~?BNl{~nEtkO9bI4=~sFY`I1ENb17`@W<1erP?udT6cr3j_B<(q$Q%+=n{a!wmzV
zZ0-DC5Eo~`Nzu4r&g&^z{xlq3!w$XJA&6OL`Q5%deHrH=-g)T3VA^>&;~e6hLo0^I
zR!169fgo+|O&NOk^7H@KW6k|fq%I0yxDP3sMaj^%7A7nB4i#{F{ydVp97!$Sd~=-T
zy<_s=LR1=ExK~ZCLUDfwpxh7!IL;h})m0F4O9O0C1{i&rDxQkU8(6U&Dt`13BSvY*
z*|ha+%5e4>V=S5ym^}6QW6x(rGb*H4U6<Aa@O2W`gZp`w>^zs}-D1s*cDngq|8#UA
zxr^8HO1^-EXaGVGv1Kb0U4Ao_eSBr#!_IW&iA?1fUpbbtj-?D^d%qrOPuAb75P6y{
zOtyM)wgkeHXAbAat_R#ta^;HMHwTn6senOO^!pa9#JRiI&vr)+;g<?UJ2LhNdn1yB
zc$_6mcW{T2|7MONo95y-25t{*n5!Q<%QMbq-r1b8G=oUUIGf<wZOYQLmm<oX|Hpv%
ztEyjvd{;3lMm?jtnJ?#6;vE}22au^PYulhrfEJB}#d{(YnL@uhiT^Yy(7l7WxIdRR
z{;>PvSY{!}7LW#ijHJ((^!@i^vM{(GlP(b8#Funx!75F6yj%fW#W+VKz9^F<iQp>K
z_pX!RLLlpi3*PPo3GsoBa#cKK8OT=Et)EU+wys#of&dt&9sOx*f6CCmmpPz0ak?Ov
zppt!GHF>eHR^p7!2f(``=LrG#S9a|X3P5}Xuzn)z%g((BDBSsLmR8^<3YU~cuG1se
z?Uqh@kU`PF^-$8agHfbh<lT53&<NH3k}sCLRrzLR26ny`M<4D_R~*k&oZ&0Zq^xIB
zhBJG=aSxGEhisK>UW&0xR2OH^#O76uZPF&D@Q75So`}E50l$Yq>dBiSq9}THe8;mu
zzm6X#kI{*}_~TS1G8Jb6$PWM)A9-d=a*#uN>mI_&Mr85>BD+>VMRkSW7Wosz!VE3o
z{qB~uwKZjE6>(8yFcd21jQ<4^JB>qyRyX20_M31bf}gkR$!V?e34kcDo07i|OzKo2
zW06v>URK>wGpd`KXbBjE@gsIU3Z#}%qqE|d05*5i5DdX;Fl1?$H4y6Z-5Ajv>(NiX
zcOKeH)+r8Cvw`cZI{@c@k$KpDxO3;b$ue+JDUk0@K0hSgIzszHEV{$u1jl}`O^%Dk
zi@lBF$zvel4zq!H!rklb@VZ}&EpYCn7HheaGb9a2MBN~_+)6j_LnLsc)D7k=_`!j2
zC>Tm$r)&a#o@9m`YQ994y_cXyV8$Jax`!vmT8Y_=T@0X~QlGo6jewlMdsAMIUOX_5
z0xg6Rbj6X`CwE|u=iuCbLV#i@2kS^2%&{;>IATJRkCM>82MoVTHP{(|)tWdhnWfLi
zI$!|KHL&MINiyDsru~YFCobbVPe4TD?H;IaBDb#s9%yN^ePQJ8<ekY!=DMu2G~;aL
zovrsSY&bizHSSE!VZP>Yx~6y4l&#vAsq*qw-gH&Rs$tVvlX5m@>qhU4Z`QSD>W=Ys
z$I^8tR>!jq#~zM9Jdvs!TOEJ5)V-xrl~iw5H>~xoU%GefUK?2MdPnIkt)^rY{AhIO
zqoV^Kof68`3AR~F{od&hNbX!CI0qnKSR|E6wD8X^UFAZIU%nK)%cA`hsK3B=T^Nub
zZGgy*hsYpYFmR!I1`-u=^E+fCT0xUdJA~p>;Zi#g5zozNvUq^)<F5e&&W6EZ2qxhM
zg~3ml$L|+RezdkOgjtAN{CK$_jBMribGQ>1H0X{dXyG(sAwte61vT=S)emO?;9p4&
zJ-`&lEn(~b2!op#d>VsW82k<df+h@>2f<A2b`chS*o6_)A-G0y3L%iUiN7Cr7h_+?
z0G(`zV-1JYBVHvOnJL|n6f{?3u`u`Vumoogm&V{fWAHZ^pe2xd0s;K42RIPGDak4F
zlTU({%yjOjSpG8%Xrvn4dZ0L>4qGs0!vHQhQ+RV2Y}go7VbFj<69&x?2t|?|GRTI*
zem~rO-+~s2QAAXmxa-&h27inN?*K1+_}f(0Ql7EY@RpieBiXW=TjQ(Fw5BF6R=)4n
z#A<z7voBj&duwuaIIXG8DtViAy(vxQ8f5lvYb+ieCQhw8-yC~FS+qL1#iz4xschQz
zY<bm|8s80`uZ(|roWwVcHQQRqdjdZ`BSLL8V62qd-}rvX5Uo81cj{baYpy$eTVk>l
zE(C6uVTn|S0G&~h`WkK1y7nuUFI%=Kh(2&_<4b~r7&z<c?BCNCufDvYt$1Ih()Qg8
z!aUaYrTWf(=OW+tJa`mn`w+fTtfYY?m{@i8thOA#!S&$c!}@Q$xJ5zqTix6ELcj_M
z8j=KkfX?-z*EZi%Z&C1iFuaW~rG2TI4)V4f&<SGXc>u8RdI+%a5*x;Rg2uM0RNF7*
zL2Rpoe6>YeeDBZ}5WDyR-~=xT0%8*N_1X>*hmHrD4*-V_2?AoIXD}#hN9pxL+Z4W~
zLX3jNOK0Eg?0H|U(Y`=uODgYv;?5^BB?tJD1NR#E67Lqt-!v9)YY{-IiBUpp_(dbF
z=^lIvyreRSfwLhFwn}?+?G%3HQK<-G<SVggoL;+#W#e+27*$Ho(qhfCxze+8sYZKX
zt?{jcZ-RRWL=}t<NC;`P1MAQ-yp*B=sfgCP)&U`SNktGN1VHkP(Q6tk8<V@ls8ZU0
zZwd?Lv4NOU)V4;7+LSiiq#}pbac|`7<M+q6DTqqN5Zh`d<blrbksb?S<GR<7L-Yec
z&qYK%nb@EePkN4X{~hKx+)!G8-!KEY6z5Rti*gHfI6((O2owkox8p?O2}Ytx<5g<W
zGngFPdPQGl4z)U=ltAD;rnr|}0rQhMhiC8T%?$2L(}5r>3PwB!BGNj~by{pvJb@NP
zKm1mLbQq@-e=bY(g~D@w(SOB-F}&JBJf#FPcwWPWGtobqX2nw(J;BRAENCzySi~d;
zZr}c4@!+omyYXVsj#APlUK5{sVbFhJWN-@Hsqs)y&@iE3f;h`?{{z$N>wz$sJlTX`
zAU0@7lAqAx4q;1Uh}0woQy5&vfUFu_*oE#QxnoDJc8fw6tzqIQbwNxp92Zx(er_D#
z;Xf6>3mQ6j{n9j8;%U=gQ*Aue_I=9zBg*n)s{H#@{r9Q<zo7<rYT$=z+xImiKhQL7
zR@J67<v%pKR<ERu`)=vBG$y+Lrz*Wx_fweWx~)<*J@8i=$CgP=pQ8UtQwCG-fG0(j
zuQja2-}I!ZW|&g0(iCOO9_mR^?)8TC_`Tuv#V>o)RL^E{eRlW%rff0%Z+PEnYE?<i
ztPig(zUh5JnP}BkC8eoY8+z;Pn`e1-Q`Tg8qvdu>s-%TC9lSN1b(Y{x`)>c8{#0G>
z!-lkTAf+F;wFp7h>R6q9?b9j4zLigJwsovX=UE;&gxIzjY3EisrP6~`pik1P!1wru
z=^|&rH;K_9sdOk;Iz%g_6ZEPJ>rUiKCvv5|s~|d6bg$BGuUOGRdD^nD7CGB!6CB39
zaqRZ7Ej7e9t&S}%ykRceU0ZsLfqS-d%ZM?!T3)hc#+ZdFDc>r>STV+|7_(7edTzbb
zy6)l~jazoia!?lg8^>=SUu)pa`?jzzSoU<L?GlJd7(wiVm*|LwcCGgQgu?fSTVoo^
z-~>59_h&VxS0_I+nQ|U|*qPCsc%(V;3uL7JUjQy5$bbUU_i!+y>3^hwLI4@~1t2Mc
zoT3$&fp6I}n&C&9VFGiC{(1ZiFzDMh+ekC@_I}N15%qSHX0(g?cC&WWr2clBV^pht
mM~m@yinOEc>USKD(H8YPEhOHhJ?&DzbHs7ls{XfDjQ?*Pv}J4n

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/tpu.cpython-312.pyc b/platforms/__pycache__/tpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d2415b7f5e61bcfc719bd78496b525862ccddb3d
GIT binary patch
literal 12381
zcmd5iTW}lKb-Q>!36KN{icgRfACN>)v_i>}^)N+|vP=r1MbehgxN8u*Bmv=-y9>&M
zsg};Tjns51Wu~p<q?tHvI+p5m>Q8^V`RGqR3W&-8-C7g6aVC@L4=kyZOs3Q6Id^x#
zB?QI#=tnPyckkoebMHOp+;h)47e95o9So$T>D%#N_A|^cu%aciT6jFmGR$pek>MGh
zO)?Su8j@_v5HX~T5hJU#n<6G?Hzv&~OT<FkOi63X7O|!55j(A$la7=#;)Jq=w<cXF
zcf_4)h%~T_U?8I~)&@8|5f6p6C%vi0NFyyfl1-`RNHZ-vlfG0-q=lAU$<~xV;-_VI
zvMseIvIlVO5&U^8!$jHzkI=z49EVM$9XuOpf&XUs_rrf9{I?qz!6|fp1bf32>Eb<+
zZUb|c;l1xMe52t0$f)-8*l~wV$v~<n(hD>6Mtb<>NcTG1&j@{c8RCPsuEbddTA%Yi
z4Li$RX4cuO%-hDx%vCnn@@oVO2Mw}&;qu%RH~Grc<jlG7S=kheic*l3ExfQ6j|l+a
znIoB)Ac`4sE}hLuqU?Z%R90G8&k6wOjHlxgm&~lJ2;|qe6&PZhOGc&T3`xl@tu&R+
zr2yKFqb8E^sCbW+eG`%-q@{Q!eL5PuBBXg0$nknInVQU`m*Xoq<a9C<yD}fo<81D^
zOePsmugpbBG$leq!+bQA-D!cv(H@*;I;JN@lUjMa4OG3&2uy_KnTTPL5sV3&9#APq
z%)lXwU=?h<0XYaYJFOXM%@lFanwi!t5htx#Y0VaK(VCss91%CIIcd!mX`nSX)>at4
z;cwZ9NAL>PJy3_aJQT{yH?9~Wjk@+GY!{mNm-v?VOdmlRQ>0mF0?9bexAK0zP4Mx1
zgqFksrB9#p?Shr}p-l1}0M#k@`L1e9vtV8J^4;&5t61A$o*uyTf*yxb=9_unvWXAq
z*3b^nC-`2#i<nG&pAJ)pt`Eoc>-svO4@VgIy*g}N(E6-hGz;BAkI=JhKw1H|0o}L&
zj2nE9sqUedV)p^|Astj7v<~Z_`k@{a_Nu$ur-K}Tp8Yz=L5dGodq4*@1g#^&Fdq_v
z{HU;x;<51ubrAc7COG9SiA!~8>H6`Qb~^bN047og=Fl_RzxIsw@n^In-yHnmot0H7
z75aa*!XtH7I7(^n2im{5(;GPmtw*WUp=2G?^^C3if+uC?LN=!<AK55nbFx!WX<Ry*
z5~>vm6oqWOG&>=?__&yjO0iY$im)yl7v>h_1`=K8)KS=IT1jRy6j0)p6qO}60wDML
zx%qRaXHkuwo12$g)giG=S|XVwC#2W7wJ4FTnXHh0I~kQ*#W*M}fs272jl);P6*S7m
z<?M^H4OYv=)6$FiCWIiMd<A|4R3+$O5eDb7*$j~cp8G~F3hFZ-MHMRV!G+KTaC1`^
zxmPaCFL0+XEQZg_%O32~H#A3iK8~ZJ)zyizg$PoPq{A`wLZaemfgG=)$E%RtW~6Fg
z!a)0XWs*s&YJxq^z~u;vHfg*DIsSd5j$@g1rk@#OME0ryFDDlM*0t-&5GDu~G|3Jm
zqVTqqj4#PH+&NN1cAiTi38o0i5ZSo~*F}g+Wdv>#E+1noDas~n6A?!s@Vld<QYt%|
zjb}%sC|MDtk+*Y4j=p&1h%gFRN3-kFY9>9314gszy(NwU3qsj-xd9jj6M;yOw2&0@
z?K-In?e04SlZm~MZ8A?ROha4A9Vog3KkE3Id*t6;-M=w14WW{Ir05>`orw3%cg@4b
zyXG;g>=lKi5JPsVVn7<8TehzXQJxdw+LO&ZmC}YQYg{ZETNOB^?pVT$Q30{$M1f0z
zXxXEZl;#jVM(rv<g$Wr$*;s(WZDffd$)wn84wl)l5vQbCT3|nEtotUr!EQJbC;&C-
z$`OVkty1;YOgL)*pvs#z*d11X1*}<{6IN4q#)SLn88i(x&jc-sxDbTO2j{a<A_{@3
zaS@1%fpkU+RL@NylMcX%2<5vbqiO5`;spl8fJ*;rciW-}rbb{cnoLH;!0TfgKqzRH
z161gM*opxYQpbuRBCNzkiL5JJYz}86kkzD+0yu$J1lBS)F*`dkFIyC=NjAmP%Nf}Q
zlF5MrS`9kMC~SnFK#{LuHjde0%z*L?c@Z+%wi*?I_vtIL19=as3pP!TVn51{h&&1G
zBr=ABd^iV{5OuvA9F}}QFVyuQ5UYq+*e3H|?Tr0Z_H$>;XH5fz!PmB$E*4xD%g&BM
z&!JM!v0~4$`_5yZxteay+?Xk}9Vr|=_rUe)7q*6*&Ku5xFZ94RTK4ppJo}2CeI?JK
zqUX?-XS`q=e+;-8f<hS6s}+=3Dz&Gf0Llk)CDl_tiK+~1Pz(bys46T_E^N?{KjzR#
zGA~F0X;la)x;g;XDy_zHgaE4onkEQU2ZTXAo23kit&&!lL3W5hOJ#Hr+y`i)8&H)F
zr8hy7Jm0D(@6Mn(=o1kW=nDs9Z@6i{VK3P_i?+@?um8-pmz;qv*{)tCaefzJkVup;
zVJLi+R@M&6*J0E(!!;w%ZWt1%5Ngu*nC~0lFd4#m6P%7f&`9?qdr%@k)4){`Ta9Ny
zx8emFG$~tt1(3*g?4U|VW;qd2Bb61Aqr=r*;J|!`o*al<*ZBqv6$c^PWWMlsmHZ<`
z|Hzhq^oHxY{nl8yvE^3$cKSQ%Ld!tGGgz<<QX1_d404+i2G4+AV!p}VW5Yp~pdGET
z3)ik^m+aRqN6JXB<CKufkoA23GuEsJ`Z{7mod|1h=q=cKmDN=*Oz6QxSBE6JO(im%
z{~FaK$qb2xvbl6T7UiyzXf`Vltt!D)G)H^hP&$A+_n3PuWq^qIRZ=(M@^|CNch|0b
zcmG>3TEv61$!vS3o~9=*l&<)Xpzu|KwsYF*iP!Hp9du*s+&If1m;?_Dh}|@NWb-oB
znZ{H+EgMtOw>6fcrrgESW~2$gqL;c3R#-A8i20scqSOHJh-E)yz)Fwr<~ujuxih}y
z=`DE%ik^WV<vx7phwpqmzBP2TG<2dkbfVxnQLvqOK5kEwc|c1RZ~{H&V$n30%koi4
zfW?CDi3z(o_jLa%qR=?!d%oF;9Vf55f)1n;3L&=!M|}w{BCrtCE7ZEk57pA^8GuRs
zn!Hc1sj9a20pM3jlcu&b&KnfYThkeCg+%$MXxIQu6hL>!z!1vtLXD}mt1pY|L=B<v
z_u7qX-~Qu*t(z`bF(<(^$MC~0-BLXZ{{tnR4P{7yQU%L}t!FD;Gi{hi?}n*fjA64y
z!dsdq$)%OR0z*1M+AwiACryAI7hIFBnK#S{Z%rdqLBVVB4qYd;+Xf|{)|BvTrJXNt
z+PN|7W7#lssO4ya+1s@8&iCD+`t6C19T=^oae2d-=+xSFzR$H{z4cfZ3#_<GU07N7
z4t}k~TdoYl$*}TPfc0ptK=XiB-ub?3eH9{w+Pcw7PW0{cYNczI4a>XH4NGFL*0S@J
z@P?x)0khU7T`wM!nzU?K1A9=%!;u;QsPgvu^J;R%GP*fJPmkZQa8>C6Pr-qa&1+VW
zaBBkfYfakG+%@uw25U{aW&>)W`C5~%**9#7V>OLX<((>DTpKp7OY5)C7lM3o>-b_%
z;ALNv$nb_eak8cns$%C?(6nLaT=1R^JJ+M(*szeRK<}5e`p%ambU5psHLnh5V|~hS
zy&67gN-NcuxCCB|HK{(%#49ymP}O9k{s?YB8?g>f`Z^PAQXO;%4^Pq{28}_S2fZu1
zCl}95oCQl|6|28S?UcX#2Vk?j8JGs^89k~qm%|h1FK`PNCnl%33*pJBfD#FzNCK$6
z4+NrVUNhCTF9c|!OBm}7#BzKTE`jW7D1S;pjgtmw)3e;Y1A#i@#gNPpBym27HZPwM
zcKM0{5&Y;J1O?)2=qbc9cqitk7r<{oaLr*<ordK4(+CE{P(X1bmzI;6s5Evs5KoH|
z`1T=)UbiZ~Wz|(Ztp=4$(VUdY_fyMoZ7g&(Lm&VV0z;5fi!l2ev@w5lzRnUg8mxnp
zv*Y%nkE2_5ezWeDNiLm68lTT4r8w{+3eOI}k)#;78iz<p4loLmgb;6yj3^|9NY-jD
zeFZ`osTA5TIq9uXmD$e*3N7T{IzKysixtwqS%F8_I||NvdgLsSSM$MMLhp<Ujyg>M
zqCm^>WReOAEx#SW$OtY<$^@2xS5#C4J~SO1R0BlHjZS!AHW46`T}m)TZKs|!Ubh4#
zR;H1+IC4IdR*eDKgmjP_pORjJ`h=XqVGUKuq(+F`1hy$x(`E`^2v5mYRe0nkos4NS
zxhTcen&SRbv)8K1kgOCAy&zk!MhUV@wrTPu_iAEOCpwX(u?(_`Yjsn1A-V#=1B^0x
zAc6qB0=Rk9_JP0@#G3eAQXpE3Ly<lV8pzFYkxNxYgzh#ew>?W9l$b@U!se>9sB9#c
z>2i=%%D$6ATJAnGH9fI7yTF~FxWt7Q&vU0I7T}fY47YG$W-1IpRs@GfC5W0q%oapX
z%D@wn7<4Fp=@PP}%4>23t7x7Q3?k6|lXtMR0hx%AGEK>7eybmlLUaw(kY<=GWZCTt
zJ_86R5zl}bx5@m<c5>U_SMrY*{iD}ipF90`W=oxiik*iFoiBYhxbMeDKVI4zJbHch
zfvdmVHC*a?so3>W!PZ`}Fs|;Bv#;pv`yf*qJX;(*d*69hjjU7*Y~$b)qtV?^u`xr3
zmF|M88*solcTdSRQgn?JT;pYQS`HRH2TPvGqGxi;GgbC<mOQ;hPwyim>+OR;rMnqp
zHD&K>PmBh@XJN)pmJXgS9z0F)jchx+O3s0zbKq{%edqpi@CDjDxb0~#c}9w!k%DKu
z!Wit1vg^oWBYd%LW7_()4VRt%g0ugwt2BJ9I1G`Y#+&DFoL4^;v+<PUOU4*<Jh9<A
z!Z*UWvwhp%&XTvU2+OmY+zk*M=^Og6`-j~~qwZhYX1DuZEcHzn`=&pAXRB}iy6b_h
zXS;o%)IMHpAHVJ?cMO&~jubnN6l`r}XS=%i*89%Uaxi@T!UNafc5`>BdF+1kn7Z(@
z>cYn=4#wS8avi+yI#~AYE%{E|_nr6xVp()uhQ`BBjIbO4I(nku>U`iDSDAV6e&<0Q
zV@_y{nPgvKug{cR!$sHd1J|j~PEVD+9VPE@(K}r79xi$h)9Qhu_dv-zQ}oU}HXA3|
z25rR8T&F5-rfcl_@u&SL^vJ1Kj>ell%8|g<n#Aj4V1}SEobR8Drvpl4L%S$;E(tX@
zI(^TesI{wr?kQi(4~IV+Ppjb(F1i*4RS61w_u+U3(7ymi5e-c6z92H#aHFB%KmNdW
zqU?E2H#R>_H5}*~iNu$35LXSUF(fb}QZ!NmaXOLSm-?0vxUpcZR3UzkCtL>~4V6CS
z2|okyr?^MWJAXrQEG=33ZZ2C;(WXS%3w3;02i-;QOfiPnkCw1ZdAtS%owsQMZ_^AG
zJiO*AX~VE#(yTW!06v>d>)H8&*Q0+8P&=q??Ubsqb$#rA-L!5Bn)8P*M&lybMDb;a
zj>0`ngl|9qMMAO3rFRJp?bdE=<@Lrukjt`5d!olj`TT(e450?##qDWh34&fD+6<xq
zYz;%C-A9=%s?Yoom_XuD%;YZ+y(11$a8Zha<1f3bVD!brd2u3q=E8YyeroEB?06l6
zKQsa#v?!OvpTT(YZOr~0Gh8jjDO#YUTnI`K(+h#4IE~Jz%gcA_Ln5`k{|duJv<Ehs
z-*_4OG>dxHe{1c|A3bn|%HGzJcW=?V7nS16#o?Fldtd&dsk6{Ev(+?PaLrcCOydMw
zF*5E^DmM_cB!Eh`izKGJ|3Fk&l+<D)wki)n@iY&=*bwDL?A_HALrK(9Rj|GbExVM5
z8g|eC@mnvDm#B)~4&;Ub)QmbFLm?YRe56lcys0LEfYuR3%@IOjMz3w1xn~G30H3JY
zW6VI<*@!QvZTva}kuw~I(U)?|5b)vnOgck2*#Ji#w|UR3@b<5uO#T|P+nC*fj2=kJ
zR)wp6kQ)IW_b9DIFd)=Wbd46P5A<_Hh=w18@0--{{Z01`cgYqi+Cq2NKiT`hcB(vd
zurPMII5b%rnl27af4W{e`$qBX8(Tw{uG<Su{rA-{e|`SE2gv`=_`^Oge>4ZW$_cnK
z@@?RH1Qar%fgP*X7Q#U@<q`QFtd{%@X5WVlUSYF2@&hP6MRf6MG|Pb-p(FchMwE6F
z{TV?2i3l;S07Uma2hq<Kht6&do!d=pjJxU+)v|ahFd|RzRMfv1TIoC6dOF5k72+$a
z7%q+S0?GI3RY852-vZL=b<j+YHF+1>>c<yfpld-JQc3l1b%?v@4jew*<WD&?D|Ql%
z*T61|`Z=Ds@?VUMz?czgg^z$0UNsNE$BZw>1^z%FE)9v`f74eoaCmd{iIfh2c3xPH
zf=>{Dp)1mAU;yB+uEs&#r;uRim`RyTAc?Q=p}C|G6$S8y!Cj=TWuSKQCFrLv;d&-V
zcCH>eK%D`j1RzU@LTNdG@)=#r#Cf=&(gNPEQ38IsfH7n0&4tLH0$H^O1LVT)2Lr{V
z-$lCJ4+eDr{u{CML8iRrdC;h-7|iaWii>f#Kk?Y?j!F~b?JC$h6`gJ%L4Xb`ZyKy}
zUA`dOIQruhj*}f6x<cT4LD|LO4?U9jc*b$W3F8O`Qe`vzuq2lv7+8{xU<%0|4%`)Z
z&!*cH0TyGkq#d(P%rNjt0+``a$pB=sDT!9pFczILc;*&U0yz0RK^c^d@FNuEbYt94
zHZ8%A@5m$+sivi`n<R|Y*DzZ|7_*dv*KT;9!C(i8VEflG`$Np4m|=L8pl&1I!t4fS
zc%zVJ%<$$Ve+ijvRboPdY+0bcd?6oT*WY3G_n3W%8GXw*gC%_5CM{ZqdlUZwPWGQL
zWmj9t)me0PZcdf`otrbanzu}yx>8%$=IpKhEmK#yy=OCgYjVrfQ*P^4+Pceq;{{Xu
z9cUac_w84U`~PG3H7uU_p!xlCTc+2x2PX=X3x$Ejg2{i!cPIA#o-Nbjw%Pm0U^MqU
zHZqpR3YNfgfKn^dJMd+T&wO~h{b0omUvRm6{)!b#Hpbh6uT2#@)*Q^9&O7}3j*1g&
zE~cfe;>J<~)6`n=V95s~@A$rRtb+Iev%~$!4<&U<Y&$?FH<<@MFn{R!p{v3`@nhd3
z{HRb+0^F9yFAWCs&|M?=MCPH7Cm-QQg@6*Q3?W!^-^Ty}pHBb+J}Ly1U>CSe);!IA
za0vUR*=pxBTkSo0*Zfb;drri0@)PqX!l#R$B#ST3;DD1=_>&YIr)#OUwNz0w-lcOl
zR=XOj;2N=6Ahxoe3#_@}<9!tdzn{Xs@v9ERVr9voZe5$nU~ZwC#jRXom8mZ6Y~_-+
z6}S03yX|eSn6UtpHFi|2v}j{G_Eqe(=wKWTkDORkr=+djFk{)=w7K}LH{X5p&d~=z
ze}m0@ncZ$~yM6pS$17&607l;)TD8)ujp^+D!SVNxSM0Rv(5g;ab>T#AEaF6i%4{au
z<*PHB-Tdm#Y*^9FMyors(dy1@w5rU8Mg45Ft5p>O-v<)1)TiznN-96x<}Q>V_<Uk~
zgdYm=r2$IHt%xTWEMEL9<i|j<<KwOJtVe&uvz*DL;Z{+uoweE7^FyNk=PSXzWIqg*
zEnxpcRE*%=PE43lLsI=^9fT9j2&MdTOmV&x&4Y?aZB~AqL(rR&?Vtz+vJB6%1dUfk
z3FDg*c?q)y%o3QPa+4dW$D)LbLNv&z#1xxpdsg`cv*yS&;;@^TQTKx?!GFZ+UChwH
zlp7c4r#Oh!a_7R+Qx~ToUQX#F`*)Eiq&Z)r>;sGBoJO`e^*3z<Uy5jyvPNslw&TiO
zbCP@tAZQ+mXa!b`EXzV<hHd&eGx!U}^^ocK6?5nz)Bh`G<a49<p(*f7)6_%L;6u~?
zho-TIrbFAE`|iG3>^!#l>Mi>N)3I%@Z}S}dXk+u$vafCPe7U2iU}~fF&+Wcjm$vNP
zo0e_go&wYO#3C5ku3N)T;K$f(S7pv>W$h15Guusrn=|FM&Z4R1w`FS+=p@!&HaWgE
p^X^Q+JNdwL=HE=ViWwSzCnD|s`IO_dgZYW0^>n}SCw(mB{|iEZuNVLT

literal 0
HcmV?d00001

diff --git a/platforms/__pycache__/xpu.cpython-312.pyc b/platforms/__pycache__/xpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4e3b7a28b310ee8403eef5ba3306fbb33d957222
GIT binary patch
literal 12738
zcmd5iZEO@tcHQ&+J!6kQz#q5`7(9T-cx_|AW{t58cn!lIm|gHm>20Rlc+7llcMmXg
zCg)x4MUYbjBp1Qn<+5yY$$~b~ksnd^SG0=q<D}%rjLmB1`q;>;yC~Wpk!FF_N%tel
zd)3`DZF{_2bWxPDTwV3*)vH&ps$RYKYW~IRby1MwmhZ>@eiudk5-WPLYK7+ypm2}k
zDV~l~v+9?grJ-($n-b<(Gp)ibvlfD5P1t5_1ZIxg6OLI2lr6k9?o7C5T?zNBJK>r2
z(3D^ny?}3vdlSA{AHlcB{fWSAfTofbo}LZBzt2Po4x#R2TIFT7-b9_Cc*lDb?-bl0
zn>A=KONU%vVkHuy74OW&*C*NWlau4qQ;`z@aL1A{nT@9|UlznKky6O41SW*5v8XW4
zrMXM7cudYJj@RRyJeLv^ibpR^CNqggw9+sp%R*9)rIN?E=oKN!BOK_u-iXH&<Ei9a
z>~d7)M9mwt%5#$i1t(A_tXb1}nDT<dh^UrltuRrWU>6*`X#_w}bCQ~w)GV_uQnQkp
zZPra{c2aZ9dPvPlYOYx?skyNx`1k?d_nzfrZNOQ-;B!*^An)e`e4P;B>xH_7om!*e
z!v_UB@6FkPj|RYM6oPyc{5MyiFydT2zvVq^g>nOowH2uCF_6)UyodMBS@;$MA5Dah
z1AHq`_Xy4ESb)=JptuDn>KJxtYd5rQg*N2D#BVcDZ87u+K#vYXk5*{=rWt$qz?_X|
z4Ak17N9TJ~Wrpog-!5#^X0yY9*#RvcAqd>;G(edOw95eP1n4dU)$Q7fpzMxsl-<I~
zjWBIxJVF=DakpWPyU2(&R}^^bHgK`K!du7y?Iuu^>K+3$M4$nH?lnO70Cbbx1DN{^
zn0qT@^%$W002+ol&(@e<?<Vm5o51@vf#be&@vj(04ga5w+HV-OH|q@zDeeoepVyU&
zV!ocvC~ltUA2!J)gi1xurUk_exQd65Noh`w&a+p9tYSU^AfL!(S*;fVMx$|pC$pDS
zwWI`QC)u&%$EPAwGZ)#@W9O!oCaps>m6XL)oE4H+*{htW*hE3jh{;G)Q><hqY>=Z$
zeLfG_JxZ>$Etp9AnoI`WrY2oE4^p7SLDR*}Hz3EqkF|a@m8Eu2eUwCBGttyVz(dG&
z^F`_!9Wq5kL<?CI7jh|Fm*cTZibKkz)1n|rihC-NPKolQD5gZkeHB!0m`$Vvc06QK
z%+a`{SP&*54Tky6p<X$W?oG$iJu)X=7UZ7mnV~}muM7#jK(#lWmFH8*UhL4D*3`Y!
z3+oY1XBA(J3<MGvlR{j|wHOvHytWPXrql`967|AH`L-0jOu@_ir1djz&o4aNer=|F
z;i9*v;O+U1gbM$M)^77dYoA>SNJ3nQ$^x%1nTXe~;+z*ao|R%bL9y~=6Zo!NWushl
zUSQR_>ry-wy`rMnGm^k2;+*1`=Oh3nuP9DVmXj>@jFS5th+?WN=zqad!VONtjZG!!
z8!nnMQHw6#tS=o+RhM%CRR8+KTdJ5q#TvIHtT)^=wdfGtvRB9EZ93Mw^di0JUhwHH
z)$f&ViV}Mbqt#X0^b&8^>A(mzsVoF_-0D|X*5@cPwtfj$5vbp4Y{#0hYfyRF*kY^P
ztPjdN7pa9Udae5X5yiU}Z9k%ZT#@U$v_U4dR^WH!E9BOW8Lb2*L1ruaE6!z88Cfw$
zPEO>6bAl|#l9!n`PMtc<PQSs9kAWG*o*KJ&=KKsJr<mP<wVMGWiGi~*%%qa>ECV1$
zCBnoc29GVAR)J?OWf6&iovGSRjCQWVq7wv>3!O`Iq9iaC+X{OpQ?h|VDv1=rxyJLb
z$uBcAVoU~*rtHGGZ7TS9oRj7aWUB2`$*WvE#v54B+Q<xYfql%im^{yD$LTN=@+u6`
zFIW4*6}H1#A1R!XV{u8`2h1xr)tFQ)vE*Dz>r|tMC|r(7vY1s*c`%ZaL6^ma1PDan
zHH9{Fc53EKgdLlii6~Aa$EK1|L2-cYV&MjuS6s(Wjh#EGBDmh*;u(ST6#c+R$Rl>Z
zN8EuKDkZTCGqB_-aW`gg+9)vunc~7}!kq##7tv576CsRA9;h;gB%)?h8ju5+R8rSf
zEGXL?u84k<g==9TZRtNDTcW;hp`26n7mn8ZlTRGmpE`WE-M8Fj6YZU(Uzp8K*Vit}
z`5OI&yYXp#SAN&GR_f2@J!ebq)_g~Qv17E*F}my?ed?(%dfEz}wtV}*6VG5NxVsqa
zF9iFG!I466WF`1&-t%h7+n(<nEOs6(bRJ#y9yN41@&sD3%PWQ8E5+b&AvnAeJd*bu
z`MJ0KX?<I%e*fd(KXm+EM}GfUnWB%;ou$t12hOsYuG{<EY!3R$l-cWh0c`q_^?bv?
z6USi5zoY067yRL(f2iOeTJaysI}SaE3B$HfZ`-Kxy2J~WT&l;Q0GBEvl2q$bUC@0l
z9SOdRbX6mPpJU1$cIj&c$CZ)i1x6i~>}sq=GolDvjL~nnaHT^8JRhr^5~K4X>So1-
zszB}i$fRziVSsCwDcJ|&s{qI~8JE4<=`12QK?e6ANXd8GdCOUJv=tm}_uu%;u~R$@
zO^Q>qL1O$G!9bHL7z-5cfj#hujy$4tHjV<&$cEC0n@yt>t$1y@P9tMAQ7$4S)Tm2T
z*+&H$2vch~sVor=`nxUBIZDKJ4w=Ox@KJ^AH?W1~o;U$b#<__n0FZ0lWG2|<686Ab
zWr_Ngzu|WFR<`KxF8I42Ze8*B=N<j(oGSJjAfiyownJa=Wwsm|2D+`roAH{w0T;ML
zXDwN4$QDr=fi?F0xk*-2R@0MbBa^2TdcQ*V<pzk#jHg5{oX#X;QI5SPa_O`n>Qywa
zUMDSYstrKx<-IPi?*%q6SbV0Gq}V{9V918l9ji3L04!=ZnOqRM{f38-VN_jKk4vzY
zyWF<*@?P6M2i>LZkb%gV?H@TmbmsSrecHdmocLLPfr;cD?LYVLECr`lgHzwIqb{h@
zhg?nn^Fx2bv}jsDLvCHtcbdhp(~M^%Ev8@%<d`5S9yuj*aW)|&QeqaiCb=?>0zGga
zR4)XPB?<Qns1{XZ&4yiT?4R4QUTzu<BT^D5>B4JnyO+J2EjAx0G#_}JU1=V>=_&bJ
z)%}}ybgRO{q4k6dN473rV+N}g;!KO?1>D%{(m6P9s&zw53z%UaV34~_JOHJTMV<0a
zgpvyqjbsTa!F09xlI!j&#EFbo-p1>0J%)so&`N~s&Vkq2s(wA>9pR0~vNAWkCSP_e
zs}`-QR7_;46?-zpUKTn25lyBg;jz~y;R6Fg0No!22O-4^>s**MZQnu0@e)u~%8gq$
zzW?34V;f;vb+cG-$1t>oJnIQ%M%KmyrF(EUE$A(VFKk)5)<(Z!UNnh8*v?30U0Sm9
z^rDHajK!OHbKIP;+(1vm3M)@9pqa8R-LNg%YIzw;_RG|wjjh<xfE8HR6{?HYh5C(9
zRDY8FHHca2@<(rGp@t{$PTiuV76lmDt<!~`HSGTzcHX*ZXDgl)V72Kzs^53&cw6lj
z7L7lW7VQg+Ry2H;Ism@i0MLrO{mKNK0SE7Z(JK;3eguAsvHn4As=SMMP$TkAo$>-6
z(RGP;Um1ciZt!jytxu9_hX(O#lF^<fX`xpyRlmHqYWpN-HsQ)a#+%%v)k#_pY|`o@
zt-D{sg}-)h{mO)}#~OJqn#F6NsrFarp_jx3!$|!)wEE=()%o&uu=WGhHoe5Q>LvM*
zUINU@$<bjHwSeZ=x>TFy0xre6q|dH)4;C*GlCogBWvNho<jbQ_S7SLQ#Xp`(q+<|b
zfvEXuP(_M&{QSh&2`~WWv6}0`Dg$aPJ<p)3Vx;+0CJtVsz(meOCc(8tPb0TO_s6cK
zMDQQOc-3n~XnvCbXGFA`6*I)g6f@WviYbv+tl;WgODb)|lYR5dSuk1H)8|jkOuc^g
z%s6{`a^~cjiQLfZae)IL6pROk;4>U}un;(snS=n5BA$uOG2k9E*Elez!T&|XL^`b0
zL6i!jL~yCbxl9tmG-7V5OWMqX-N(#v@i_XCNCVhpAi4*}%B2kY$-;FZngN@<>e#+@
z`qUWG5|Z4dIADM*IB<=VJzxS=jQU|T_oL_+N9QxiD}V;!vbk71&TvVse4W7%5~9Gc
zAXpfc5DXs=F^WeGFR40S@!%T7HH}YPM=jK*wu`@qOUt5|>!a0$)$kRs3IqQVLRgaG
zi)MI^EG@Z(6br7X;zkou?_t656hFA5AeqX*ic4Kv^fZ-v2vNu)mz3Z})4MgRB4NR@
zNr3R+O(zO#aOJAfW{@bWOH_AU3E8+7V6%YbD2Y7I=M>Jz4)vIrN{Xm{6#F$!OoGHz
z#~DvB#Oz>w`AodZMU%#bCU{m8ykbsp*A*{hWZJMdgru@<V)FPH>^lg@USK2VPqW9y
zW+0|A!OonSo{XGRnh+hHlYm!<_CjD#PQeS46mqC0%eRrwIm|9&R#^ryhSd~gB*2Jf
z3?|KV140lignhtf(mV%pQde=U>9z^dcai2V!KPTER-3mMn|lk*y<o9bi(j~#@1H8R
z^%vUu^KHYWUEMcNJ@M@LwT*I)uC{j<+lLG7!+A$b$=zOb?=86Z=H30J-oCtN+Y`^e
zRexvEzrWz$|M+xq;CNx+__F_anKC(DB~SlzGko(<cTk?@qI-M6y*=*^mv#*ncO5S5
zI!p-cDBGykUB#BcLd)Pyf2r%Wn|_Eal-x~4cc|bF<=um&$*G&uMbDmsXU`MQu~m0V
z(LGdf59QsXCI7afKUDCC9*!;hdrG4dcl@6PMpm_N$=g=+9x8YbeKND`9ed#bM^WSS
z#Ik?5bY$WOrhBftu6*mELg4VzK+`?nU0<o;^w(xnT|ICNy*&pDo`auEE_=pGfsSHe
zq!1YS)Vds)tkm*H&n*Ye{mN5+J8~-mVUW76RUPq#-Qx9?UDU`Jee=u{&p}Pb`<L7H
zLp0;|^sQ;cKLSw`Kyy&z^hp|L*<J8-Kk<w{JqClc76aXdKzA{4pb$7fs{0CoeZ|0Z
zAu#>iY96P3dXLXMqh&AE-gk3kqkRgCzs4!2ADJRE;y6G>;zt{7&1Nms$IfRji7~zs
zQCz#rHbMFnC_YEE4ZF-A{4Mx^XM*Fk`Pixt0g79WMbR`)&#UHdm(f+(6z!jZ4N2!k
z3lA7wX=q+66LAS3wV7#-No+cn)O;<LyUM{G2uggdP&PsO8IpY$GrYLh*xhJz6TAEO
zq42wfC?M7kG}KhnYN%MvI+ig8Rm<&chIbnDuLbUkK5<+NNogRukhq;J=y_1qaN&ug
zK-U=lP`03}sRgZc0vU<BEaY|?7jQGIe?@wGA%h?kxL{fkDpYWU9`1VL=zFRMOnM6b
zo`-WQ{=vLsaN~}{6(<r#v-xEb)}^3%WbV0mijxnr!eHW+4d=u;mp-Vz;^Z)nQVE_`
zz$?gq#S<&~nS!6mJD80uRyF}%2;h8C3+uNjz(0n6Obdv;F6nI;-KiC7<SU^@-h_?<
zajbKGxI#E4ia~3Ufv}8f;+aX*O0mXM*91|qMpK!jtVLu<XnM^G*TarSDy&L{1uARf
zFB{v7z`KMOFldOTt;MELp((V|w71yQS7_>6Y3je}F8NzDVRgO&VX(&>L}T-gp^b7w
zDUhYLKmj6+_~w{9PAp4<*$~!)i>X9{M619ilZe3y)=dQxzL3s<X<Mn+Rs*eu;EAy}
z38C*c?t*VXd<xuF^wOIfr-c?jnHEN9U$$dwEw{cM^xbR>TI!J@vaaj*wD_kmVs49Z
z9u?uiHduvLsSz?mw6d$<?^^Ni&O3Ii6EV6gm3{r!&<BGG->jgB6Z$Ibe$?6Pl0Kzc
zkC=KJiKyWl)Vj2O_ruesTSuurmA*?8cgGS@EZor0esUOc_ov`+#F;TM%8UV!ndhzw
z%q5}~`VKH$6qFkm%`#V#scT8F?4^tlW-fwX5#^G^r_eEDNlAvMV0=3huBYR%XiSC|
zHc+nQRSskOZ;|)lx0ty&cbSPLnekIo;9h|DAYAA0ZRs%6(?d{>%yaR%aLA^{j2t>M
z<kX6{VP4`L%)nL0Xf=9sYG}+4rFD@&)l!VjvDy_1XBnTG*WPKHApHu-oresLu{-dC
z$$OEzk!APxQcHWWrKix+v(nP5nsX~HLpP^a^&|bDX$7L&earrRPn(#s$<%n9er~oj
z*Ow^^*jr{Q&{MWko*f$x1&p-ztbfC09ZaRUw=)7p{M08(HkHnG7<Y9Igfa|Jy`&YV
zBu3SjdU)rM;2Oh6d!-Jc>XUse$;0o=B&7~p*MOqN{fn0_In4hA1v~=~lc&FDS~Sm@
zwgTja6@pdpU7sLKMz>H9Qd{2ub+wHII2xfhQeT&NGyX6S@N6GzypVB>d}%#u$Ds9K
z#UgM)xV6lYU$B9OwdZ=rQ|T;2W-KvtVk*H@M1}rnMOd1vAC7#9I)R)g;?RGI41b9#
z8-5yMmF7A4ZH!%W{1g)?XMCx8WK*~9pJCS@WA^8meE^x_Vk-kmHUJP0Nq3Rpq(O9C
zT@VSJF70V)?VjEQ=>-sz5|F`*Qa#nw@x!<C+xy|svd}ni(^Yae7Tv7{ckBJJ`^WO`
zjt7T68vSteao^)t@;eSJyAOZ|)3UR;b#Gzo-iKok-+tWr_*<XQD_alWe66%+;HN#0
zdOmR$51uR>Jh`%G>ZbFLJM)dZ^7Xrxb-ig^o64T~8{p;t-=5L+ZOz@WW5e!%bBFt4
zJ|)Ra_c%QEgd^gIFtO^65dQ+Je+e0Ate;@{uONdT0f9~O5tKHrvUH70v+(l<!#X4V
zwX3`dk_C(_NdU6{`>Py&6kgeLc;o7V{e*`-qK5lv)zI3nI9T#CF_wibjgAe(BB1PH
z*|#%X9G?eSR&+o=5r0dgSm8%rnFO)H6f=aG6h8~00QhAEiN#5P8$eu)e2Wd3;rp$K
zL2AVvh2K(0YUoScju3MUem6#*GP|&9xs*!9MGQNV(?{NhMLb*LBxWZtJA>H_W^Z7I
zKk^gt9u?7b5#Pb=J<R?9GI)%Jiv(WuCdfOKVkH-$_=nj3N0{Bk>`yR5lS6zTvmZgG
z*k&L~k`l#72*LfY8e-@;ksyeOv2~K6M5Q7qlkZU_&ldH^1WS{p=C-BjJHZu8o1wI&
zed*Ml9V?c03^OoGkvronmX1;dTG~F4x3t^`;J~Ui@XTbkc04yzwz@Kwz<Y;M6V=)E
zRb!X+@M_EcvK78SsiC=S#}dR88gGB+)_2NIthuPIZTI>2U1c}cJXGVBvKLD}s=lf0
z$5Ma_Hka$L)BrT@H{3m3M#?aT%loVuO4{HEi_nA*i?!>4^&`)R9=Ip1U5^`{;YUM*
z5)1=8f&yy&%4)MVtOlFP_yvfo<^Dv$$vm?|Rl~=I0N{URqOAiD&G7pO>%imjXZX=D
zpaflU{#NU2^n?Cq6n?cvEW%{4zsVYU4E^Er3G|1Lh5{uJirT-ow57Fdwpx2jJ3}8$
ze>hFbtIm#RR)AGV_G%RAisYfB@$jnE_jpg4g3qTgZ}@1vpj19;BE!(uhKClMfj&nl
zX}xJ{<HMcU)TniX5^2KeuSZ|)8~n;_u^uQjw%q&n-ES8gcNZFWKipYp43`nS>hwLc
z!dIgNB~|c1sq=o<2YcV&ivx952I|y!Fj)^i7(f9X)S95A35d2{pdS+9U(f}NpbGQd
z_s=2C?h4Irt;uPve>nNm=||JgC@5;pP=Z~Af`_?1n5ZogFD&3{aLc`syCY>QR)Au|
zR#LT-s)K6l{9xq$k+PFiU3%3`svgSad*;QWHYkB^Bcpn)!v@O3YX}d+jH`5q;hbnS
zAUh0lRH+UVqF<Q+Mr=TG(nAd*zKw_^u4@C$f`MGLB2*jLNjyFh{>=bT3vjEy<Pt3i
zf!|+&k2}Xj1y!lx1*>Y->Vxt;!iYZmTP*crMs&?MmMZ#3ag3;%`c?5Cp#dFrX&N&4
zZ4pgBcTjZwFDU2d6!S~U^Y7G_{%L5&uu(J#z_&n=VxX4$n`*SPdrskI|-+46<6
a;m(B>=e8x=3tQGq58vtjn!+y`?7soL&4wZX

literal 0
HcmV?d00001

diff --git a/platforms/cpu.py b/platforms/cpu.py
new file mode 100644
index 0000000..ed65591
--- /dev/null
+++ b/platforms/cpu.py
@@ -0,0 +1,414 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import glob
+import json
+import os
+import platform
+import subprocess
+import sys
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+import regex as re
+import torch
+
+from vllm import envs
+from vllm.logger import init_logger
+
+from .interface import CpuArchEnum, Platform, PlatformEnum
+
+logger = init_logger(__name__)
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+else:
+    AttentionBackendEnum = None
+    VllmConfig = None
+
+
+def get_max_threads(pid=0):
+    if hasattr(os, "sched_getaffinity"):
+        return len(os.sched_getaffinity(pid))
+    elif platform.system() == "Darwin":
+        return os.cpu_count()
+    else:
+        raise NotImplementedError("Unsupported OS")
+
+
+@dataclass
+class LogicalCPUInfo:
+    id: int = -1
+    physical_core: int = -1
+    numa_node: int = -1
+
+    @classmethod
+    def _int(cls, value: str) -> int:
+        try:
+            int_value = int(value)
+        except Exception:
+            int_value = -1
+        return int_value
+
+    @staticmethod
+    def json_decoder(obj_dict: dict):
+        id = obj_dict.get("cpu")
+        physical_core = obj_dict.get("core")
+        numa_node = obj_dict.get("node")
+
+        if not (id is None or physical_core is None or numa_node is None):
+            return LogicalCPUInfo(
+                id=LogicalCPUInfo._int(id),
+                physical_core=LogicalCPUInfo._int(physical_core),
+                numa_node=LogicalCPUInfo._int(numa_node),
+            )
+        else:
+            return obj_dict
+
+
+class CpuPlatform(Platform):
+    _enum = PlatformEnum.CPU
+    device_name: str = "cpu"
+    device_type: str = "cpu"
+    dispatch_key: str = "CPU"
+    dist_backend: str = "gloo"
+    device_control_env_var = "CPU_VISIBLE_MEMORY_NODES"
+
+    @property
+    def supported_dtypes(self) -> list[torch.dtype]:
+        if self.get_cpu_architecture() == CpuArchEnum.POWERPC:
+            return [torch.bfloat16, torch.float32]
+        elif self.get_cpu_architecture() == CpuArchEnum.ARM and sys.platform.startswith(
+            "darwin"
+        ):
+            if (
+                subprocess.check_output(
+                    ["sysctl -n hw.optional.arm.FEAT_BF16"], shell=True
+                ).strip()
+                == b"1"
+            ):
+                return [torch.bfloat16, torch.float16, torch.float32]
+            return [torch.float16, torch.float32]
+        elif self.get_cpu_architecture() == CpuArchEnum.RISCV:
+            # Workaround for Issue #25655: RISC-V scheduler bug with float16
+            #
+            # Background:
+            # - RISC-V currently uses scalar code path
+            # - There is a latent bug in the vLLM scheduler that provides
+            # invalid
+            #   physical_block_idx values under certain conditions
+            # - This bug causes segmentation faults when using float16
+            # dtype on RISC-V
+            # - Testing shows that forcing float32 successfully bypasses
+            # this issue
+            #
+            # Technical details:
+            # - The bug manifests as out-of-bounds physical_block_idx in
+            # block_tables
+            # - Only occurs on RISC-V hardware
+            # tested on Sophgo SG2044
+            # - Does not reproduce on x86 or other architectures
+            # - Root cause is in Python-level scheduling logic,
+            # not C++ kernels
+            #
+            # This is a temporary workaround until the scheduler bug is fixed.
+            # See: https://github.com/vllm-project/vllm/issues/25655
+            return [torch.float32]
+        # x86/aarch64 CPU has supported both bf16 and fp16 natively.
+        return [torch.bfloat16, torch.float16, torch.float32]
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        return "cpu"
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: str | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        attn_type: str | None = None,
+    ) -> str:
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if selected_backend and selected_backend != AttentionBackendEnum.CPU_ATTN:
+            logger.info("Cannot use %s backend on CPU.", selected_backend)
+        if use_mla:
+            raise NotImplementedError("MLA is not supported on CPU.")
+        if use_sparse:
+            raise NotImplementedError("Sparse Attention is not supported on CPU.")
+        return AttentionBackendEnum.CPU_ATTN.get_path()
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        from vllm.utils.mem_constants import GiB_bytes
+
+        kv_cache_space = envs.VLLM_CPU_KVCACHE_SPACE
+        if kv_cache_space is None:
+            kv_cache_space = 4 * GiB_bytes  # type: ignore
+            logger.warning_once(
+                "Environment variable VLLM_CPU_KVCACHE_SPACE (GiB) "
+                "for CPU backend is not set, using 4 by default."
+            )
+        else:
+            kv_cache_space *= GiB_bytes
+
+        return kv_cache_space
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        torch.cpu.set_device(device)
+
+    @classmethod
+    def inference_mode(cls):
+        return torch.no_grad()
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
+        model_config = vllm_config.model_config
+
+        if model_config is not None:
+            model_config.disable_cascade_attn = True
+
+        cache_config = vllm_config.cache_config
+
+        if cache_config.block_size is None:
+            cache_config.block_size = 128
+
+        if cache_config.block_size % 32 != 0:
+            logger.warning(
+                "CPU backend prefers block_size is multiples of 32, "
+                "otherwise the performance is not optimized."
+            )
+
+        scheduler_config = vllm_config.scheduler_config
+        if (
+            scheduler_config.enable_chunked_prefill
+            or cache_config.enable_prefix_caching
+        ) and cache_config.cache_dtype != "auto":
+            raise RuntimeError(
+                "Chunked-prefill and prefix-cache on the CPU "
+                "backend is not compatible with FP8 KV cache."
+            )
+
+        if cache_config.cache_dtype != "auto":
+            logger.warning(
+                "CPU backend doesn't support KV cache quantization fallback to auto."
+            )
+            cache_config.cache_dtype = "auto"
+
+        cache_config.cpu_kvcache_space_bytes = CpuPlatform.get_device_total_memory()
+
+        parallel_config = vllm_config.parallel_config
+        if (
+            parallel_config.world_size > 1
+            and parallel_config.distributed_executor_backend is not None
+            and parallel_config.distributed_executor_backend != "mp"
+        ):
+            logger.warning(
+                (
+                    "%s is not supported on CPU, fallback to mp "
+                    "distributed executor backend."
+                ),
+                parallel_config.distributed_executor_backend,
+            )
+            parallel_config.distributed_executor_backend = "mp"
+        if parallel_config.worker_cls == "auto":
+            parallel_config.worker_cls = "vllm.v1.worker.cpu_worker.CPUWorker"
+        # Disable DBO
+        if parallel_config.enable_dbo:
+            logger.warning("Dual-Batch Overlap is not supported on CPU, disabled.")
+            parallel_config.enable_dbo = False
+
+        # Note: workaround for v1 gpu_model_runner
+        from vllm.config import CompilationMode
+
+        vllm_config.compilation_config.cudagraph_capture_sizes = []
+
+        compilation_config = vllm_config.compilation_config
+        if vllm_config.compilation_config.mode == CompilationMode.VLLM_COMPILE:
+            # Note: vLLM V1 is using PIECEWISE level compilation, which will
+            # take time to compile kernels just-in-time with the inductor
+            # backend. For CPU CI tests, most of them are executed fast and
+            # compilations consume too much time, even with torch compile
+            # cache. So use VLLM_CPU_CI_ENV to indicate the CI environment,
+            # and just execute model with dynamo + eager mode to save time.
+            # VLLM_CPU_CI_ENV is only used as an internal variable.
+            if os.environ.get("VLLM_CPU_CI_ENV", "0") != "0":
+                backend = "eager"
+            else:
+                backend = "inductor"
+
+            compilation_config.mode = CompilationMode.DYNAMO_TRACE_ONCE
+            compilation_config.backend = backend
+            compilation_config.inductor_compile_config.update(
+                {
+                    "dce": True,
+                    "size_asserts": False,
+                    "nan_asserts": False,
+                    "epilogue_fusion": True,
+                }
+            )
+
+        if vllm_config.lora_config is not None:
+            compilation_config.mode = CompilationMode.NONE
+
+        assert vllm_config.device_config.device_type == "cpu"
+
+        #
+        # Environment variables for CPU executor
+        #
+
+        os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+
+        # Note: to avoid the error 'nthreads cannot be larger than environment
+        # variable "NUMEXPR_MAX_THREADS" (64)'.
+        os.environ["NUMEXPR_MAX_THREADS"] = str(get_max_threads())
+
+        if envs.VLLM_CPU_OMP_THREADS_BIND != "nobind":
+            # Set default threads num for OpenMP parallel
+            os.environ["OMP_NUM_THREADS"] = str(torch.get_num_threads())
+        else:
+            # In this case, setting the OpenMP configuration via
+            # OMP_NUM_THREADS is up to the user.
+            logger.info("Disabling binding processes to CPU cores...")
+
+        # Disable torch async compiling which won't work with daemonic processes
+        os.environ["TORCHINDUCTOR_COMPILE_THREADS"] = "1"
+
+        # Disable multi-stream for shared experts as no Stream on CPU
+        os.environ["VLLM_DISABLE_SHARED_EXPERTS_STREAM"] = "1"
+
+        # Intel OpenMP setting
+        ld_preload_str = os.getenv("LD_PRELOAD", "")
+        if "libiomp5.so" in ld_preload_str:
+            # The time(milliseconds) that a thread should wait after
+            # completing the execution of a parallel region, before sleeping.
+            os.environ["KMP_BLOCKTIME"] = "1"
+            # Prevents the CPU to run into low performance state
+            os.environ["KMP_TPAUSE"] = "0"
+            # Provides fine granularity parallelism
+            os.environ["KMP_FORKJOIN_BARRIER_PATTERN"] = "dist,dist"
+            os.environ["KMP_PLAIN_BARRIER_PATTERN"] = "dist,dist"
+            os.environ["KMP_REDUCTION_BARRIER_PATTERN"] = "dist,dist"
+
+        if (
+            platform.system() == "Linux"
+            and Platform.get_cpu_architecture()
+            in (CpuArchEnum.ARM, CpuArchEnum.POWERPC)
+            and not ("libomp" in ld_preload_str or "libgomp" in ld_preload_str)
+        ):
+            # We need to LD_PRELOAD PyTorch's libgomp, otherwise only
+            # one core will be properly utilized when we thread-bind
+            # See: https://github.com/vllm-project/vllm/issues/27369
+            # TODO: Remove once:
+            # https://github.com/pytorch/pytorch/issues/166087 is fixed
+
+            # We need to find the location of PyTorch's libgomp
+            torch_pkg = os.path.dirname(torch.__file__)
+            site_root = os.path.dirname(torch_pkg)
+            torch_libs = os.path.join(site_root, "torch.libs")
+            pytorch_libgomp_so_candidates = glob.glob(
+                os.path.join(torch_libs, "libgomp-*.so*")
+            )
+            if pytorch_libgomp_so_candidates:
+                pytorch_libgomp_so = pytorch_libgomp_so_candidates[0]
+                if ld_preload_str:
+                    ld_preload_str += ":"
+                ld_preload_str += pytorch_libgomp_so
+                os.environ["LD_PRELOAD"] = ld_preload_str
+
+        # To hint IPEX uses shared memory based AllReduce
+        os.environ["LOCAL_WORLD_SIZE"] = str(
+            vllm_config.parallel_config.tensor_parallel_size
+        )
+
+        if model_config is not None and model_config.use_mla:
+            logger.info(
+                "MLA is enabled on a non-GPU platform; forcing chunked "
+                "prefill and prefix caching to be disabled."
+            )
+            vllm_config.scheduler_config.enable_chunked_prefill = False
+            vllm_config.scheduler_config.max_num_batched_tokens = max(
+                vllm_config.model_config.max_model_len,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
+            )
+
+    @classmethod
+    def get_allowed_cpu_core_node_list(cls) -> tuple[list[int], list[LogicalCPUInfo]]:
+        assert platform.system() == "Linux"
+
+        # Init LogicalCPUInfo from lscpu
+        lscpu_output = subprocess.check_output(
+            "lscpu -J -e=CPU,CORE,NODE", shell=True, text=True
+        )
+        lscpu_output = re.sub(r'"node":\s*-\s*(,|\n)', r'"node": 0\1', lscpu_output)
+        logical_cpu_list: list[LogicalCPUInfo] = json.loads(
+            lscpu_output, object_hook=LogicalCPUInfo.json_decoder
+        )["cpus"]
+
+        # Filter CPUs with invalid attributes
+        logical_cpu_list = [
+            x
+            for x in logical_cpu_list
+            if -1 not in (x.id, x.physical_core, x.numa_node)
+        ]
+
+        # Filter allowed CPUs
+        if hasattr(os, "sched_getaffinity"):
+            allowed_cpu_id_list = os.sched_getaffinity(0)
+        else:
+            raise NotImplementedError("Unsupported OS")
+        logical_cpu_list = [x for x in logical_cpu_list if x.id in allowed_cpu_id_list]
+
+        # Get allowed NUMA nodes
+        allowed_numa_nodes = set()
+        for x in logical_cpu_list:
+            allowed_numa_nodes.add(x.numa_node)  # type: ignore
+        allowed_numa_nodes_list = sorted(allowed_numa_nodes)
+
+        env_key = CpuPlatform.device_control_env_var
+        if env_key in os.environ and os.environ[env_key] != "":
+            visible_nodes = [int(s) for s in os.environ[env_key].split(",")]
+            allowed_numa_nodes_list = [
+                x for x in visible_nodes if x in allowed_cpu_id_list
+            ]
+
+        return allowed_numa_nodes_list, logical_cpu_list
+
+    @classmethod
+    def is_pin_memory_available(cls) -> bool:
+        logger.warning("Pin memory is not supported on CPU.")
+        return False
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        return "vllm.lora.punica_wrapper.punica_cpu.PunicaWrapperCPU"
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        """
+        Get device specific communicator class for distributed communication.
+        """
+        return "vllm.distributed.device_communicators.cpu_communicator.CpuCommunicator"  # noqa
+
+    @classmethod
+    def supports_structured_output(cls) -> bool:
+        return True
+
+    @classmethod
+    def opaque_attention_op(cls) -> bool:
+        return True
+
+    @classmethod
+    def support_hybrid_kv_cache(cls) -> bool:
+        return True
diff --git a/platforms/cuda.py b/platforms/cuda.py
new file mode 100644
index 0000000..43021c9
--- /dev/null
+++ b/platforms/cuda.py
@@ -0,0 +1,656 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Code inside this file can safely assume cuda platform, e.g. importing
+pynvml. However, it should not initialize cuda context.
+"""
+
+import os
+from collections.abc import Callable
+from functools import cache, wraps
+from typing import TYPE_CHECKING, TypeVar
+
+import torch
+from typing_extensions import ParamSpec
+
+# import custom ops, trigger op registration
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.utils.import_utils import import_pynvml
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+from .interface import DeviceCapability, Platform, PlatformEnum
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+    from vllm.config.cache import CacheDType
+else:
+    AttentionBackendEnum = None
+    VllmConfig = None
+    CacheDType = None
+
+logger = init_logger(__name__)
+
+_P = ParamSpec("_P")
+_R = TypeVar("_R")
+
+pynvml = import_pynvml()
+
+# pytorch 2.5 uses cudnn sdpa by default, which will cause crash on some models
+# see https://github.com/huggingface/diffusers/issues/9704 for details
+# torch.backends.cuda.enable_cudnn_sdp(False)
+
+
+@cache
+def _get_backend_priorities(
+    use_mla: bool,
+    device_capability: DeviceCapability,
+) -> list[AttentionBackendEnum]:
+    """Get backend priorities with lazy import to avoid circular dependency."""
+    from vllm.attention.backends.registry import AttentionBackendEnum
+
+    if use_mla:
+        if device_capability.major == 10:
+            return [
+                AttentionBackendEnum.CUTLASS_MLA,
+                AttentionBackendEnum.FLASHINFER_MLA,
+                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
+                AttentionBackendEnum.TRITON_MLA,
+                AttentionBackendEnum.FLASHMLA_SPARSE,
+            ]
+        else:
+            return [
+                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
+                AttentionBackendEnum.FLASHINFER_MLA,
+                AttentionBackendEnum.TRITON_MLA,
+                AttentionBackendEnum.FLASHMLA_SPARSE,
+            ]
+    else:
+        if device_capability.major == 10:
+            return [
+                AttentionBackendEnum.FLASHINFER,
+                AttentionBackendEnum.FLASH_ATTN,
+                AttentionBackendEnum.TRITON_ATTN,
+                AttentionBackendEnum.FLEX_ATTENTION,
+            ]
+        else:
+            return [
+                AttentionBackendEnum.FLASH_ATTN,
+                AttentionBackendEnum.FLASHINFER,
+                AttentionBackendEnum.TRITON_ATTN,
+                AttentionBackendEnum.FLEX_ATTENTION,
+            ]
+
+
+def with_nvml_context(fn: Callable[_P, _R]) -> Callable[_P, _R]:
+    @wraps(fn)
+    def wrapper(*args: _P.args, **kwargs: _P.kwargs) -> _R:
+        pynvml.nvmlInit()
+        try:
+            return fn(*args, **kwargs)
+        finally:
+            pynvml.nvmlShutdown()
+
+    return wrapper
+
+
+class CudaPlatformBase(Platform):
+    _enum = PlatformEnum.CUDA
+    device_name: str = "cuda"
+    device_type: str = "cuda"
+    dispatch_key: str = "CUDA"
+    ray_device_key: str = "GPU"
+    dist_backend: str = "nccl"
+    device_control_env_var: str = "CUDA_VISIBLE_DEVICES"
+
+    @property
+    def supported_dtypes(self) -> list[torch.dtype]:
+        if self.has_device_capability(80):
+            # Ampere and Hopper or later NVIDIA GPUs.
+            return [torch.bfloat16, torch.float16, torch.float32]
+        if self.has_device_capability(60):
+            # Pascal, Volta and Turing NVIDIA GPUs, BF16 is not supported
+            return [torch.float16, torch.float32]
+        # Kepler and Maxwell NVIDIA GPUs, only FP32 is supported,
+        # though vLLM doesn't support these GPUs.
+        return [torch.float32]
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        torch.cuda.set_device(device)
+        # With this trick we can force the device to be set eagerly
+        # see https://github.com/pytorch/pytorch/issues/155668
+        # for why and when it is needed
+        _ = torch.zeros(1, device=device)
+
+    @classmethod
+    def get_device_capability(cls, device_id: int = 0) -> DeviceCapability | None:
+        raise NotImplementedError
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        raise NotImplementedError
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        raise NotImplementedError
+
+    @classmethod
+    def is_fully_connected(cls, device_ids: list[int]) -> bool:
+        raise NotImplementedError
+
+    @classmethod
+    def log_warnings(cls):
+        pass
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        parallel_config = vllm_config.parallel_config
+        model_config = vllm_config.model_config
+
+        if parallel_config.worker_cls == "auto":
+            parallel_config.worker_cls = "vllm.v1.worker.gpu_worker.Worker"
+
+        cache_config = vllm_config.cache_config
+        if cache_config and cache_config.block_size is None:
+            cache_config.block_size = 16
+
+        # TODO(lucas): handle this more gracefully
+        # Note: model_config may be None during testing
+        # Note: block_size is initialized in
+        # HybridAttentionMambaModelConfig.verify_and_update_config
+        # for models with both attention and mamba,
+        # and doesn't need to be reinitialized here
+        if (
+            model_config is not None
+            and model_config.use_mla
+            and cache_config.block_size is not None
+        ):
+            use_sparse = hasattr(vllm_config.model_config.hf_config, "index_topk")
+            # If `VLLM_ATTENTION_BACKEND` is not set and we are using MLA,
+            # then we default to FlashMLA backend for non-blackwell GPUs,
+            # else we default to CutlassMLA. For each case, we force the
+            # required block_size.
+            use_flashmla = False
+            use_cutlass_mla = False
+            use_flashinfer_mla = False
+
+            if envs.VLLM_ATTENTION_BACKEND is None:
+                # Default case
+                if cls.is_device_capability(100):
+                    # Blackwell => Force CutlassMLA.
+                    use_cutlass_mla = True
+                    # TODO: This does not work, because the
+                    # global_force_attn_backend_context_manager is not set.
+                    # See vllm/attention/selector.py:_cached_get_attn_backend
+                    envs.VLLM_ATTENTION_BACKEND = "CUTLASS_MLA"
+                else:
+                    # Not Blackwell
+                    use_flashmla = True
+            else:
+                # Forced case
+                use_flashmla = envs.VLLM_ATTENTION_BACKEND == "FLASHMLA"
+                use_cutlass_mla = envs.VLLM_ATTENTION_BACKEND == "CUTLASS_MLA"
+                use_flashinfer_mla = envs.VLLM_ATTENTION_BACKEND == "FLASHINFER_MLA"
+
+            from vllm.attention.ops.flashmla import is_flashmla_dense_supported
+
+            if (
+                use_flashmla
+                and is_flashmla_dense_supported()[0]
+                and cache_config.block_size % 64 != 0
+            ):
+                cache_config.block_size = 64
+                logger.info("Forcing kv cache block size to 64 for FlashMLA backend.")
+
+            if use_cutlass_mla and cache_config.block_size % 128 != 0:
+                cache_config.block_size = 128
+                logger.info(
+                    "Forcing kv cache block size to 128 for CUTLASS_MLA backend."
+                )
+
+            if (
+                use_flashinfer_mla
+                and cache_config.block_size != 32
+                and cache_config.block_size % 64 != 0
+            ):
+                cache_config.block_size = 64
+                logger.info(
+                    "Forcing kv cache block size to 64 for FlashInferMLA backend."
+                )
+
+            # TODO(Chen): remove this hacky code
+            if use_sparse and cache_config.block_size != 64:
+                cache_config.block_size = 64
+                logger.info(
+                    "Forcing kv cache block size to 64 for FlashMLASparse backend."
+                )
+        # lazy import to avoid circular import
+        from vllm.config import CUDAGraphMode
+
+        compilation_config = vllm_config.compilation_config
+        if (
+            parallel_config.all2all_backend == "deepep_high_throughput"
+            and parallel_config.data_parallel_size > 1
+            and compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+        ):
+            # TODO: Piecewise Cuda graph might be enabled
+            # if torch compile cache key issue fixed
+            # See https://github.com/vllm-project/vllm/pull/25093
+            logger.info(
+                "WideEP: Disabling CUDA Graphs since DeepEP high-throughput "
+                "kernels are optimized for prefill and are incompatible with "
+                "CUDA Graphs. "
+                "In order to use CUDA Graphs for decode-optimized workloads, "
+                "use --all2all-backend with another option, such as "
+                "deepep_low_latency, pplx, or allgather_reducescatter."
+            )
+            compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+
+    @classmethod
+    def get_current_memory_usage(
+        cls, device: torch.types.Device | None = None
+    ) -> float:
+        torch.cuda.empty_cache()
+        torch.cuda.reset_peak_memory_stats(device)
+        return torch.cuda.max_memory_allocated(device)
+
+    @classmethod
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> "AttentionBackendEnum":
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        # For Blackwell GPUs, force TORCH_SDPA for now.
+        # See https://github.com/facebookresearch/xformers/issues/1317#issuecomment-3199392579 # noqa: E501
+        if cls.has_device_capability(100):
+            return AttentionBackendEnum.TORCH_SDPA
+
+        if dtype not in (torch.float16, torch.bfloat16):
+            return AttentionBackendEnum.XFORMERS
+
+        if cls.has_device_capability(80):
+            backend_class = AttentionBackendEnum.FLASH_ATTN.get_class()
+            if backend_class.supports_head_size(
+                head_size
+            ) and backend_class.supports_dtype(dtype):
+                return AttentionBackendEnum.FLASH_ATTN
+            else:
+                return AttentionBackendEnum.XFORMERS
+        else:
+            # Fallback for Volta/Turing GPUs or FA not supported
+            return AttentionBackendEnum.XFORMERS
+
+    @classmethod
+    def get_valid_backends(
+        cls,
+        head_size,
+        dtype,
+        kv_cache_dtype,
+        block_size,
+        use_mla,
+        has_sink,
+        use_sparse,
+        device_capability,
+        attn_type,
+    ) -> tuple[
+        list[tuple["AttentionBackendEnum", int]],
+        dict["AttentionBackendEnum", list[str]],
+    ]:
+        valid_backends_priorities = []
+        invalid_reasons = {}
+
+        backend_priorities = _get_backend_priorities(use_mla, device_capability)
+        for priority, backend in enumerate(backend_priorities):
+            try:
+                backend_class = backend.get_class()
+                invalid_reasons_i = backend_class.validate_configuration(
+                    head_size,
+                    dtype,
+                    kv_cache_dtype,
+                    block_size,
+                    use_mla,
+                    has_sink,
+                    use_sparse,
+                    device_capability,
+                    attn_type,
+                )
+            except ImportError:
+                invalid_reasons_i = ["ImportError"]
+            if invalid_reasons_i:
+                invalid_reasons[backend] = invalid_reasons_i
+            else:
+                valid_backends_priorities.append((backend, priority))
+
+        return valid_backends_priorities, invalid_reasons
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        attn_type: str | None = None,
+    ) -> str:
+        from vllm.attention import AttentionType
+
+        if attn_type is None:
+            attn_type = AttentionType.DECODER
+
+        device_capability = cls.get_device_capability()
+        assert device_capability is not None
+
+        # First try checking just the selected backend, if there is one.
+        if selected_backend is not None:
+            try:
+                backend_class = selected_backend.get_class()
+                invalid_reasons = backend_class.validate_configuration(
+                    head_size,
+                    dtype,
+                    kv_cache_dtype,
+                    None,
+                    use_mla,
+                    has_sink,
+                    use_sparse,
+                    device_capability,
+                    attn_type,
+                )
+            except ImportError:
+                invalid_reasons = ["ImportError"]
+            if invalid_reasons:
+                raise ValueError(
+                    f"Selected backend {selected_backend} is not valid for "
+                    f"this configuration. Reason: {invalid_reasons}"
+                )
+            else:
+                logger.info("Using %s backend.", selected_backend)
+                return selected_backend.get_path()
+
+        # No selected backend or the selected backend is invalid,
+        # so we try finding a valid backend.
+        valid_backends_priorities, invalid_reasons = cls.get_valid_backends(
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            None,
+            use_mla,
+            has_sink,
+            use_sparse,
+            device_capability,
+            attn_type,
+        )
+        reasons_str = (
+            "{"
+            + ", ".join(
+                f"{backend.name}: [{', '.join(reasons)}]"
+                for backend, reasons in invalid_reasons.items()
+            )
+            + "}"
+        )
+        config_str = (
+            f"head_size: {head_size}, dtype: {dtype}, "
+            f"kv_cache_dtype: {kv_cache_dtype}, block_size: {block_size}, "
+            f"use_mla: {use_mla}, has_sink: {has_sink}, use_sparse: {use_sparse}"
+        )
+        logger.debug_once(
+            f"Some attention backends are not valid for {cls.device_name} with "
+            f"{config_str}. Reasons: {reasons_str}."
+        )
+        if len(valid_backends_priorities) == 0:
+            raise ValueError(
+                f"No valid attention backend found for {cls.device_name} "
+                f"with {config_str}. Reasons: {reasons_str}."
+            )
+
+        # We have found some valid backends. Select the one with the
+        # highest priority.
+        logger.info(
+            "Valid backends: %s", [b[0].name for b in valid_backends_priorities]
+        )
+        sorted_indices = sorted(
+            range(len(valid_backends_priorities)),
+            key=lambda i: valid_backends_priorities[i][1],
+        )
+        selected_index = sorted_indices[0]
+        selected_backend = valid_backends_priorities[selected_index][0]
+        logger.info(
+            "Using %s backend.",
+            selected_backend.name,
+        )
+
+        return selected_backend.get_path()
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        return "vllm.lora.punica_wrapper.punica_gpu.PunicaWrapperGPU"
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        return (
+            "vllm.distributed.device_communicators.cuda_communicator.CudaCommunicator"  # noqa
+        )
+
+    @classmethod
+    def supports_fp8(cls) -> bool:
+        return cls.has_device_capability(89)
+
+    @classmethod
+    def use_custom_allreduce(cls) -> bool:
+        return True
+
+    @classmethod
+    def opaque_attention_op(cls) -> bool:
+        return True
+
+    @classmethod
+    def get_static_graph_wrapper_cls(cls) -> str:
+        return "vllm.compilation.cuda_graph.CUDAGraphWrapper"
+
+    @classmethod
+    def device_count(cls) -> int:
+        return cuda_device_count_stateless()
+
+    @classmethod
+    def check_if_supports_dtype(cls, dtype: torch.dtype):
+        if dtype == torch.bfloat16:  # noqa: SIM102
+            if not cls.has_device_capability(80):
+                capability = cls.get_device_capability()
+                gpu_name = cls.get_device_name()
+
+                if capability is None:
+                    compute_str = "does not have a compute capability"
+                else:
+                    version_str = capability.as_version_str()
+                    compute_str = f"has compute capability {version_str}"
+
+                raise ValueError(
+                    "Bfloat16 is only supported on GPUs "
+                    "with compute capability of at least 8.0. "
+                    f"Your {gpu_name} GPU {compute_str}. "
+                    "You can use float16 instead by explicitly setting the "
+                    "`dtype` flag in CLI, for example: --dtype=half."
+                )
+
+    @classmethod
+    def insert_blocks_to_device(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        """Copy blocks from src_cache to dst_cache on GPU."""
+        _src_cache = src_cache[:, src_block_indices]
+        dst_cache[:, dst_block_indices] = _src_cache.to(dst_cache.device)
+
+    @classmethod
+    def swap_out_blocks_to_host(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        """Copy blocks from GPU to host (CPU)."""
+        _src_cache = src_cache[:, src_block_indices]
+        dst_cache[:, dst_block_indices] = _src_cache.cpu()
+
+    @classmethod
+    def support_hybrid_kv_cache(cls) -> bool:
+        return True
+
+    @classmethod
+    def support_static_graph_mode(cls) -> bool:
+        return True
+
+
+# NVML utils
+# Note that NVML is not affected by `CUDA_VISIBLE_DEVICES`,
+# all the related functions work on real physical device ids.
+# the major benefit of using NVML is that it will not initialize CUDA
+class NvmlCudaPlatform(CudaPlatformBase):
+    @classmethod
+    @cache
+    @with_nvml_context
+    def get_device_capability(cls, device_id: int = 0) -> DeviceCapability | None:
+        try:
+            physical_device_id = cls.device_id_to_physical_device_id(device_id)
+            handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
+            major, minor = pynvml.nvmlDeviceGetCudaComputeCapability(handle)
+            return DeviceCapability(major=9, minor=0)
+        except RuntimeError:
+            return None
+
+    @classmethod
+    @with_nvml_context
+    def has_device_capability(
+        cls,
+        capability: tuple[int, int] | int,
+        device_id: int = 0,
+    ) -> bool:
+        try:
+            return super().has_device_capability(capability, device_id)
+        except RuntimeError:
+            return False
+
+    @classmethod
+    @with_nvml_context
+    def get_device_name(cls, device_id: int = 0) -> str:
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
+        return cls._get_physical_device_name(physical_device_id)
+
+    @classmethod
+    @with_nvml_context
+    def get_device_uuid(cls, device_id: int = 0) -> str:
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
+        handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
+        return pynvml.nvmlDeviceGetUUID(handle)
+
+    @classmethod
+    @with_nvml_context
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
+        handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
+        return int(pynvml.nvmlDeviceGetMemoryInfo(handle).total)
+
+    @classmethod
+    @with_nvml_context
+    def is_fully_connected(cls, physical_device_ids: list[int]) -> bool:
+        """
+        query if the set of gpus are fully connected by nvlink (1 hop)
+        """
+        handles = [pynvml.nvmlDeviceGetHandleByIndex(i) for i in physical_device_ids]
+        for i, handle in enumerate(handles):
+            for j, peer_handle in enumerate(handles):
+                if i < j:
+                    try:
+                        p2p_status = pynvml.nvmlDeviceGetP2PStatus(
+                            handle,
+                            peer_handle,
+                            pynvml.NVML_P2P_CAPS_INDEX_NVLINK,
+                        )
+                        if p2p_status != pynvml.NVML_P2P_STATUS_OK:
+                            return False
+                    except pynvml.NVMLError:
+                        logger.exception(
+                            "NVLink detection failed. This is normal if"
+                            " your machine has no NVLink equipped."
+                        )
+                        return False
+        return True
+
+    @classmethod
+    def _get_physical_device_name(cls, device_id: int = 0) -> str:
+        handle = pynvml.nvmlDeviceGetHandleByIndex(device_id)
+        return pynvml.nvmlDeviceGetName(handle)
+
+    @classmethod
+    @with_nvml_context
+    def log_warnings(cls):
+        device_ids: int = pynvml.nvmlDeviceGetCount()
+        if device_ids > 1:
+            device_names = [cls._get_physical_device_name(i) for i in range(device_ids)]
+            if (
+                len(set(device_names)) > 1
+                and os.environ.get("CUDA_DEVICE_ORDER") != "PCI_BUS_ID"
+            ):
+                logger.warning(
+                    "Detected different devices in the system: %s. Please"
+                    " make sure to set `CUDA_DEVICE_ORDER=PCI_BUS_ID` to "
+                    "avoid unexpected behavior.",
+                    ", ".join(device_names),
+                )
+
+
+class NonNvmlCudaPlatform(CudaPlatformBase):
+    @classmethod
+    @cache
+    def get_device_capability(cls, device_id: int = 0) -> DeviceCapability:
+        major, minor = torch.cuda.get_device_capability(device_id)
+        return DeviceCapability(major=9, minor=0)
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        return torch.cuda.get_device_name(device_id)
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        device_props = torch.cuda.get_device_properties(device_id)
+        return device_props.total_memory
+
+    @classmethod
+    def is_fully_connected(cls, physical_device_ids: list[int]) -> bool:
+        logger.exception(
+            "NVLink detection not possible, as context support was"
+            " not found. Assuming no NVLink available."
+        )
+        return False
+
+
+# Autodetect either NVML-enabled or non-NVML platform
+# based on whether NVML is available.
+nvml_available = False
+try:
+    try:
+        pynvml.nvmlInit()
+        nvml_available = True
+    except Exception:
+        # On Jetson, NVML is not supported.
+        nvml_available = False
+finally:
+    if nvml_available:
+        pynvml.nvmlShutdown()
+
+CudaPlatform = NvmlCudaPlatform if nvml_available else NonNvmlCudaPlatform
+
+CudaPlatform.log_warnings()
diff --git a/platforms/interface.py b/platforms/interface.py
new file mode 100644
index 0000000..d2a66e5
--- /dev/null
+++ b/platforms/interface.py
@@ -0,0 +1,641 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import enum
+import os
+import platform
+import random
+import sys
+from datetime import timedelta
+from typing import TYPE_CHECKING, Any, NamedTuple
+
+import numpy as np
+import torch
+
+from vllm.logger import init_logger
+
+if TYPE_CHECKING:
+    from torch.distributed import PrefixStore, ProcessGroup
+
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+    from vllm.config.cache import CacheDType
+    from vllm.inputs import ProcessorInputs, PromptType
+    from vllm.pooling_params import PoolingParams
+    from vllm.sampling_params import SamplingParams
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = object
+
+logger = init_logger(__name__)
+
+
+def in_wsl() -> bool:
+    # Reference: https://github.com/microsoft/WSL/issues/4071
+    return "microsoft" in " ".join(platform.uname()).lower()
+
+
+class PlatformEnum(enum.Enum):
+    CUDA = enum.auto()
+    ROCM = enum.auto()
+    TPU = enum.auto()
+    XPU = enum.auto()
+    CPU = enum.auto()
+    OOT = enum.auto()
+    UNSPECIFIED = enum.auto()
+
+
+class CpuArchEnum(enum.Enum):
+    X86 = enum.auto()
+    ARM = enum.auto()
+    POWERPC = enum.auto()
+    S390X = enum.auto()
+    RISCV = enum.auto()
+    OTHER = enum.auto()
+    UNKNOWN = enum.auto()
+
+
+class DeviceCapability(NamedTuple):
+    major: int
+    minor: int
+
+    def __lt__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) < (other.major, other.minor)
+
+    def __le__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) <= (other.major, other.minor)
+
+    def __eq__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) == (other.major, other.minor)
+
+    def __ge__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) >= (other.major, other.minor)
+
+    def __gt__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) > (other.major, other.minor)
+
+    def as_version_str(self) -> str:
+        return f"{self.major}.{self.minor}"
+
+    def to_int(self) -> int:
+        """
+        Express device capability as an integer `<major><minor>`.
+
+        It is assumed that the minor version is always a single digit.
+        """
+        assert 0 <= self.minor < 10
+        return self.major * 10 + self.minor
+
+
+class Platform:
+    _enum: PlatformEnum
+    device_name: str
+    device_type: str
+
+    # available dispatch keys:
+    # check https://github.com/pytorch/pytorch/blob/313dac6c1ca0fa0cde32477509cce32089f8532a/torchgen/model.py#L134 # noqa
+    # use "CPU" as a fallback for platforms not registered in PyTorch
+    dispatch_key: str = "CPU"
+
+    # available ray device keys:
+    # https://github.com/ray-project/ray/blob/10ba5adadcc49c60af2c358a33bb943fb491a171/python/ray/_private/ray_constants.py#L438 # noqa
+    # empty string means the device does not support ray
+    ray_device_key: str = ""
+
+    # platform-agnostic way to specify the device control environment variable,
+    # .e.g. CUDA_VISIBLE_DEVICES for CUDA.
+    # hint: search for "get_visible_accelerator_ids_env_var" in
+    # https://github.com/ray-project/ray/tree/master/python/ray/_private/accelerators # noqa
+    device_control_env_var: str = "VLLM_DEVICE_CONTROL_ENV_VAR_PLACEHOLDER"
+
+    # The torch.compile backend for compiling simple and
+    # standalone functions. The default value is "inductor" to keep
+    # the same behavior as PyTorch.
+    # NOTE: for the forward part of the model, vLLM has another separate
+    # compilation strategy.
+    simple_compile_backend: str = "inductor"
+
+    # The backend used for distributed communication.
+    dist_backend: str = ""
+
+    supported_quantization: list[str] = []
+
+    additional_env_vars: list[str] = []
+
+    _global_graph_pool: Any | None = None
+
+    @property
+    def supported_dtypes(self) -> list[torch.dtype]:
+        """Returns the supported dtypes for the current platform."""
+        # Be careful with the order of the dtypes. The first dtype will
+        # be used as the default dtype fallback for the current platform,
+        # when encountering unsupported dtypes in "auto" dtype.
+        return [torch.bfloat16, torch.float16, torch.float32]
+
+    def is_cuda(self) -> bool:
+        return self._enum == PlatformEnum.CUDA
+
+    def is_rocm(self) -> bool:
+        return self._enum == PlatformEnum.ROCM
+
+    def is_tpu(self) -> bool:
+        return self._enum == PlatformEnum.TPU
+
+    def is_xpu(self) -> bool:
+        return self._enum == PlatformEnum.XPU
+
+    def is_cpu(self) -> bool:
+        return self._enum == PlatformEnum.CPU
+
+    def is_out_of_tree(self) -> bool:
+        return self._enum == PlatformEnum.OOT
+
+    def is_unspecified(self) -> bool:
+        return self._enum == PlatformEnum.UNSPECIFIED
+
+    def get_max_output_tokens(self, prompt_len: int) -> int:
+        return sys.maxsize
+
+    def is_cuda_alike(self) -> bool:
+        """Stateless version of [torch.cuda.is_available][]."""
+        return self._enum in (PlatformEnum.CUDA, PlatformEnum.ROCM)
+
+    def is_sleep_mode_available(self) -> bool:
+        # TODO: Actually only mi3xx has the sleep mode support now
+        # for ROCm, but currently we don't have a way to detect the
+        # exact GPU model statelessly here. So we return True for
+        # all ROCm platforms for now.
+        return self._enum in (PlatformEnum.CUDA, PlatformEnum.ROCM)
+
+    @classmethod
+    def device_id_to_physical_device_id(cls, device_id: int):
+        # Treat empty device control env var as unset. This is a valid
+        # configuration in Ray setups where the engine is launched in
+        # a CPU-only placement group located on a GPU node.
+        if (
+            cls.device_control_env_var in os.environ
+            and os.environ[cls.device_control_env_var] != ""
+        ):
+            device_ids = os.environ[cls.device_control_env_var].split(",")
+            physical_device_id = device_ids[device_id]
+            return int(physical_device_id)
+        else:
+            return device_id
+
+    @classmethod
+    def import_kernels(cls) -> None:
+        """Import any platform-specific C kernels."""
+        pass
+        # try:
+        #     import vllm._C  # noqa: F401
+        # except ImportError as e:
+        #     logger.warning("Failed to import from vllm._C: %r", e)
+        # with contextlib.suppress(ImportError):
+        #     import vllm._moe_C  # noqa: F401
+
+    @classmethod
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> "AttentionBackendEnum":
+        # Import AttentionBackendEnum here to avoid circular import.
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        return AttentionBackendEnum.TORCH_SDPA
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        attn_type: str | None = None,
+    ) -> str:
+        """Get the attention backend class of a device."""
+        return ""
+
+    @classmethod
+    def get_device_capability(
+        cls,
+        device_id: int = 0,
+    ) -> DeviceCapability | None:
+        """Stateless version of [torch.cuda.get_device_capability][]."""
+        return None
+
+    @classmethod
+    def has_device_capability(
+        cls,
+        capability: tuple[int, int] | int,
+        device_id: int = 0,
+    ) -> bool:
+        """
+        Test whether this platform is compatible with a device capability.
+
+        The `capability` argument can either be:
+
+        - A tuple `(major, minor)`.
+        - An integer `<major><minor>`. (See
+        [`DeviceCapability.to_int`][vllm.platforms.interface.DeviceCapability.to_int])
+        """
+        return True
+        current_capability = cls.get_device_capability(device_id=device_id)
+        if current_capability is None:
+            return False
+
+        if isinstance(capability, tuple):
+            return current_capability >= capability
+
+        return current_capability.to_int() >= capability
+
+    @classmethod
+    def is_device_capability(
+        cls,
+        capability: tuple[int, int] | int,
+        device_id: int = 0,
+    ) -> bool:
+        """
+        Test whether this platform has exactly the specified device capability.
+
+        The `capability` argument can either be:
+
+        - A tuple `(major, minor)`.
+        - An integer `<major><minor>`. (See
+        [`DeviceCapability.to_int`][vllm.platforms.interface.DeviceCapability.to_int])
+        """
+        current_capability = cls.get_device_capability(device_id=device_id)
+        if current_capability is None:
+            return False
+
+        if isinstance(capability, tuple):
+            return current_capability == capability
+
+        return current_capability.to_int() == capability
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        """Get the name of a device."""
+        raise NotImplementedError
+
+    @classmethod
+    def get_device_uuid(cls, device_id: int = 0) -> str:
+        """Get the uuid of a device, e.g. the PCI bus ID."""
+        raise NotImplementedError
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        """Get the total memory of a device in bytes."""
+        raise NotImplementedError
+
+    @classmethod
+    def inference_mode(cls):
+        """A device-specific wrapper of `torch.inference_mode`.
+
+        This wrapper is recommended because some hardware backends such as TPU
+        do not support `torch.inference_mode`. In such a case, they will fall
+        back to `torch.no_grad` by overriding this method.
+        """
+        return torch.inference_mode(mode=True)
+
+    @classmethod
+    def seed_everything(cls, seed: int | None = None) -> None:
+        """
+        Set the seed of each random module.
+        `torch.manual_seed` will set seed on all devices.
+
+        Loosely based on: https://github.com/Lightning-AI/pytorch-lightning/blob/2.4.0/src/lightning/fabric/utilities/seed.py#L20
+        """
+        if seed is not None:
+            random.seed(seed)
+            np.random.seed(seed)
+            torch.manual_seed(seed)
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        raise NotImplementedError
+
+    @classmethod
+    def pre_register_and_update(
+        cls, parser: FlexibleArgumentParser | None = None
+    ) -> None:
+        """
+        Do some pre-registration or update action for the current platform.
+
+        This function is called before global VllmConfig is initialized or cli
+        arguments are parsed. It's used for out-of-tree platforms to register or
+        update the configuration.
+
+        For example, the out-of-tree quantization config can be imported and
+        registered here dynamically.
+        """
+        pass
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        """
+        Check and update the configuration for the current platform.
+
+        It can raise an exception if the configuration is not compatible with
+        the current platform, or it can update the configuration to make it
+        compatible with the current platform.
+
+        The config is passed by reference, so it can be modified in place.
+        """
+        pass
+
+    @classmethod
+    def verify_model_arch(cls, model_arch: str) -> None:
+        """
+        Verify whether the current platform supports the specified model
+        architecture.
+
+        - This will raise an Error or Warning based on the model support on
+        the current platform.
+        - By default all models are considered supported.
+        """
+        pass
+
+    @classmethod
+    def verify_quantization(cls, quant: str) -> None:
+        """
+        Verify whether the quantization is supported by the current platform.
+        """
+        if cls.supported_quantization and quant not in cls.supported_quantization:
+            raise ValueError(
+                f"{quant} quantization is currently not supported in {cls.device_name}."
+            )
+
+    @classmethod
+    def get_cpu_architecture(cls) -> CpuArchEnum:
+        """
+        Determine the CPU architecture of the current system.
+        Returns CpuArchEnum indicating the architecture type.
+        """
+        machine = platform.machine().lower()
+
+        if machine in ("x86_64", "amd64", "i386", "i686"):
+            return CpuArchEnum.X86
+        elif machine.startswith("arm") or machine.startswith("aarch"):
+            return CpuArchEnum.ARM
+        elif machine.startswith("ppc"):
+            return CpuArchEnum.POWERPC
+        elif machine == "s390x":
+            return CpuArchEnum.S390X
+        elif machine.startswith("riscv"):
+            return CpuArchEnum.RISCV
+
+        return CpuArchEnum.OTHER if machine else CpuArchEnum.UNKNOWN
+
+    @classmethod
+    def is_pin_memory_available(cls) -> bool:
+        """Checks whether pin memory is available on the current platform."""
+        if in_wsl():
+            # Pinning memory in WSL is not supported.
+            # https://docs.nvidia.com/cuda/wsl-user-guide/index.html#known-limitations-for-linux-cuda-applications
+            logger.warning(
+                "Using 'pin_memory=False' as WSL is detected. "
+                "This may slow down the performance."
+            )
+            return False
+        return True
+
+    @classmethod
+    def get_current_memory_usage(
+        cls, device: torch.types.Device | None = None
+    ) -> float:
+        """
+        Return the memory usage in bytes.
+        """
+        raise NotImplementedError
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        """
+        Return the punica wrapper for current platform.
+        """
+        raise NotImplementedError
+
+    @classmethod
+    def get_infinity_values(cls, dtype: torch.dtype) -> tuple[float, float]:
+        """
+        Return the platform specific values for (-inf, inf)
+        """
+        return float("-inf"), float("inf")
+
+    @classmethod
+    def can_update_inplace(cls) -> bool:
+        """
+        Checks if the platform allows inplace memory updates
+        """
+        return True
+
+    @classmethod
+    def get_lora_vocab_padding_size(cls) -> int:
+        """
+        Returns how much padding the LoRA logits need for kernels
+        """
+        return 256
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        """
+        Get device specific communicator class for distributed communication.
+        """
+        return "vllm.distributed.device_communicators.base_device_communicator.DeviceCommunicatorBase"  # noqa
+
+    @classmethod
+    def supports_mx(cls) -> bool:
+        """
+        Returns whether the current platform supports MX types.
+        """
+        return False
+
+    @classmethod
+    def supports_fp8(cls) -> bool:
+        """
+        Returns whether the current platform supports FP8 types.
+        """
+        return False
+
+    @classmethod
+    def is_fp8_fnuz(cls) -> bool:
+        """
+        Returns whether the preferred FP8 type is FNUZ on the current platform.
+
+        There are two representations of FP8, OCP FP8 and FNUZ FP8.
+        The OCP specification can be found at https://tinyurl.com/b7jvwpft.
+        The FNUZ specification can be found at https://tinyurl.com/5n6hwwu5.
+
+        AMD's MI300 and MI325 have native hardware support for FNUZ. All other
+        hardware has converged on the OCP FP8 standard.
+        """
+        return False
+
+    @classmethod
+    def fp8_dtype(cls) -> torch.dtype:
+        """
+        Returns the preferred FP8 type on the current platform.
+
+        See the documentation for is_fp8_fnuz for details.
+        """
+        return torch.float8_e4m3fn
+
+    @classmethod
+    def use_all_gather(cls) -> bool:
+        """
+        Whether to use allgather in LogitsProcessor to gather the logits.
+        """
+        return True
+
+    @classmethod
+    def use_custom_allreduce(cls) -> bool:
+        """
+        Returns if custom allreduce is supported on the current platform
+        """
+        return False
+
+    @classmethod
+    def opaque_attention_op(cls) -> bool:
+        """
+        Returns True if we register attention as one giant opaque custom op
+        on the current platform
+        """
+        return False
+
+    @classmethod
+    def validate_request(
+        cls,
+        prompt: "PromptType",
+        params: "SamplingParams | PoolingParams",
+        processed_inputs: "ProcessorInputs",
+    ) -> None:
+        """Raises if this request is unsupported on this platform"""
+
+    def __getattr__(self, key: str):
+        device = getattr(torch, self.device_type, None)
+        if device is not None and hasattr(device, key):
+            return getattr(device, key)
+        else:
+            logger.warning(
+                "Current platform %s does not have '%s' attribute.",
+                self.device_type,
+                key,
+            )
+            return None
+
+    def get_global_graph_pool(self) -> Any:
+        """
+        Return the global graph pool for this platform.
+        """
+        cls = self.__class__
+        if cls._global_graph_pool is None:
+            cls._global_graph_pool = self.graph_pool_handle()
+        return cls._global_graph_pool
+
+    @classmethod
+    def get_static_graph_wrapper_cls(cls) -> str:
+        """
+        Get static graph wrapper class for static graph.
+        """
+        return "vllm.compilation.base_static_graph.AbstractStaticGraphWrapper"
+
+    @classmethod
+    def stateless_init_device_torch_dist_pg(
+        cls,
+        backend: str,
+        prefix_store: "PrefixStore",
+        group_rank: int,
+        group_size: int,
+        timeout: timedelta,
+    ) -> "ProcessGroup":
+        """
+        Init platform-specific torch distributed process group.
+        """
+        raise NotImplementedError
+
+    @classmethod
+    def check_if_supports_dtype(cls, dtype: torch.dtype):
+        """
+        Check if the dtype is supported by the current platform.
+        """
+        raise NotImplementedError
+
+    @classmethod
+    def support_hybrid_kv_cache(cls) -> bool:
+        """
+        Returns if the hybrid kv cache is supported by the current platform.
+        """
+        return False
+
+    @classmethod
+    def support_static_graph_mode(cls) -> bool:
+        """
+        Returns if the graph mode is supported by the current platform.
+        """
+        return False
+
+    @classmethod
+    def use_sync_weight_loader(cls) -> bool:
+        """
+        Returns if the current platform needs to sync weight loader.
+        """
+        return False
+
+    @classmethod
+    def make_synced_weight_loader(cls, original_weight_loader):
+        """
+        Wrap the original weight loader to make it synced.
+        """
+        if not cls.use_sync_weight_loader():
+            return original_weight_loader
+
+        def _synced_weight_loader(param, *args, **kwargs):
+            out = original_weight_loader(param, *args, **kwargs)
+            if param.device != torch.device("cpu"):
+                torch._sync(param)
+            return out
+
+        return _synced_weight_loader
+
+    @classmethod
+    def get_nixl_supported_devices(cls) -> dict[str, tuple[str, ...]]:
+        """
+        Returns a mapping from device_type to a tuple of supported
+        kv_buffer_device for nixl.
+        """
+        return {}
+
+    @classmethod
+    def get_nixl_memory_type(cls) -> str | None:
+        """
+        Returns the nixl memory type for the current platform.
+        """
+        return None
+
+    @classmethod
+    def check_max_model_len(cls, max_model_len: int) -> int:
+        """
+        Check max_model_len for the current platform.
+        """
+        return max_model_len
+
+
+class UnspecifiedPlatform(Platform):
+    _enum = PlatformEnum.UNSPECIFIED
+    device_type = ""
diff --git a/platforms/rocm.py b/platforms/rocm.py
new file mode 100644
index 0000000..788f9d6
--- /dev/null
+++ b/platforms/rocm.py
@@ -0,0 +1,466 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from functools import cache, lru_cache, wraps
+from typing import TYPE_CHECKING
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.utils.torch_utils import cuda_device_count_stateless
+
+from .interface import DeviceCapability, Platform, PlatformEnum
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+else:
+    AttentionBackendEnum = None
+
+logger = init_logger(__name__)
+
+try:
+    from amdsmi import (
+        AmdSmiException,
+        amdsmi_get_gpu_asic_info,
+        amdsmi_get_processor_handles,
+        amdsmi_init,
+        amdsmi_shut_down,
+        amdsmi_topo_get_link_type,
+    )
+except ImportError as e:
+    logger.warning("Failed to import from amdsmi with %r", e)
+
+try:
+    import vllm._C  # noqa: F401
+except ImportError as e:
+    logger.warning("Failed to import from vllm._C with %r", e)
+
+# import custom ops, trigger op registration
+try:
+    import vllm._rocm_C  # noqa: F401
+except ImportError as e:
+    logger.warning("Failed to import from vllm._rocm_C with %r", e)
+
+# Models not supported by ROCm.
+_ROCM_UNSUPPORTED_MODELS: list[str] = []
+
+# Models partially supported by ROCm.
+# Architecture -> Reason.
+_ROCM_SWA_REASON = ()
+_ROCM_PARTIALLY_SUPPORTED_MODELS: dict[str, str] = {}
+_ROCM_DEVICE_ID_NAME_MAP: dict[str, str] = {
+    "0x74a0": "AMD_Instinct_MI300A",
+    "0x74a1": "AMD_Instinct_MI300X",
+    "0x74b5": "AMD_Instinct_MI300X",  # MI300X VF
+    "0x74a2": "AMD_Instinct_MI308X",
+    "0x74a5": "AMD_Instinct_MI325X",
+    "0x74b9": "AMD_Instinct_MI325X",  # MI325X VF
+    "0x74a9": "AMD_Instinct_MI300X_HF",
+    "0x74bd": "AMD_Instinct_MI300X_HF",
+    "0x744c": "AMD_Radeon_RX7900XTX",
+}
+
+# Prevent use of clashing `{CUDA/HIP}_VISIBLE_DEVICES`
+if "HIP_VISIBLE_DEVICES" in os.environ:
+    val = os.environ["HIP_VISIBLE_DEVICES"]
+    if cuda_val := os.environ.get("CUDA_VISIBLE_DEVICES", None):
+        assert val == cuda_val
+    else:
+        os.environ["CUDA_VISIBLE_DEVICES"] = val
+
+# AMDSMI utils
+# Note that NVML is not affected by `{CUDA/HIP}_VISIBLE_DEVICES`,
+# all the related functions work on real physical device ids.
+# the major benefit of using AMDSMI is that it will not initialize CUDA
+
+
+def with_amdsmi_context(fn):
+    @wraps(fn)
+    def wrapper(*args, **kwargs):
+        amdsmi_init()
+        try:
+            return fn(*args, **kwargs)
+        finally:
+            amdsmi_shut_down()
+
+    return wrapper
+
+
+@cache
+def on_gfx1x() -> bool:
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    return any(arch in GPU_ARCH for arch in ["gfx11", "gfx12"])
+
+
+@cache
+def on_mi3xx() -> bool:
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    return any(arch in GPU_ARCH for arch in ["gfx942", "gfx950"])
+
+
+@cache
+def on_gfx9() -> bool:
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    return any(arch in GPU_ARCH for arch in ["gfx90a", "gfx942", "gfx950"])
+
+
+@cache
+def on_gfx950() -> bool:
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    return any(arch in GPU_ARCH for arch in ["gfx950"])
+
+
+@cache
+def use_rocm_custom_paged_attention(
+    qtype: torch.dtype,
+    head_size: int,
+    block_size: int,
+    gqa_ratio: int,
+    max_seq_len: int,
+    sliding_window: int,
+    kv_cache_dtype: str,
+    alibi_slopes: torch.Tensor | None = None,
+    sinks: torch.Tensor | None = None,
+) -> bool:
+    from vllm._aiter_ops import rocm_aiter_ops
+
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    ON_GFX9 = any(arch in GPU_ARCH for arch in ["gfx90a", "gfx942", "gfx950"])
+    ON_GFX11_GFX12 = any(arch in GPU_ARCH for arch in ["gfx11", "gfx12"])
+
+    # custom paged attn always supported on V0. On V1, requires sliding window
+    # disabled due to observed numerical discrepancy.
+    if ON_GFX9:
+        return (
+            (sliding_window == 0 or sliding_window == (-1, -1))
+            and (qtype == torch.half or qtype == torch.bfloat16)
+            and (head_size == 64 or head_size == 128)
+            and (block_size == 16 or block_size == 32)
+            and (gqa_ratio >= 1 and gqa_ratio <= 16)
+            and max_seq_len <= 128 * 1024
+            and (envs.VLLM_ROCM_CUSTOM_PAGED_ATTN)
+            and not (rocm_aiter_ops.is_pa_attn_enabled())
+            and sinks is None
+        )
+
+    else:
+        return (
+            ON_GFX11_GFX12
+            and (sliding_window == 0 or sliding_window == (-1, -1))
+            and (qtype == torch.half or qtype == torch.bfloat16)
+            and head_size == 128
+            and block_size == 16
+            and (gqa_ratio >= 3 and gqa_ratio <= 16)
+            and max_seq_len <= 128 * 1024
+            and alibi_slopes is None
+            and kv_cache_dtype == "auto"
+            and envs.VLLM_ROCM_CUSTOM_PAGED_ATTN
+            and sinks is None
+        )
+
+
+class RocmPlatform(Platform):
+    _enum = PlatformEnum.ROCM
+    device_name: str = "rocm"
+    device_type: str = "cuda"
+    dispatch_key: str = "CUDA"
+    ray_device_key: str = "GPU"
+    dist_backend: str = "nccl"
+    # rocm shares the same device control env var as CUDA
+    device_control_env_var: str = "CUDA_VISIBLE_DEVICES"
+
+    supported_quantization: list[str] = [
+        "awq",
+        "gptq",
+        "fp8",
+        "compressed-tensors",
+        "fbgemm_fp8",
+        "gguf",
+        "quark",
+        "ptpc_fp8",
+        "mxfp4",
+        "petit_nvfp4",
+        "torchao",
+    ]
+
+    @classmethod
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> AttentionBackendEnum:
+        from importlib.util import find_spec
+
+        from vllm._aiter_ops import rocm_aiter_ops
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if rocm_aiter_ops.is_mha_enabled():
+            # Note: AITER FA is only supported for Qwen-VL models.
+            # TODO: Add support for other VL models in their model class.
+            return AttentionBackendEnum.ROCM_AITER_FA
+
+        if on_gfx9() and find_spec("flash_attn") is not None:
+            return AttentionBackendEnum.FLASH_ATTN
+
+        return AttentionBackendEnum.TORCH_SDPA
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend,
+        head_size,
+        dtype,
+        kv_cache_dtype,
+        block_size,
+        use_mla,
+        has_sink,
+        use_sparse,
+        attn_type: str | None = None,
+    ) -> str:
+        from vllm._aiter_ops import rocm_aiter_ops
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if use_sparse:
+            raise NotImplementedError("Sparse Attention is not supported on ROCm.")
+
+        if use_mla:
+            if selected_backend is None:
+                selected_backend = (
+                    AttentionBackendEnum.ROCM_AITER_MLA
+                    if rocm_aiter_ops.is_mla_enabled() or block_size == 1
+                    else AttentionBackendEnum.TRITON_MLA
+                )
+
+            if selected_backend == AttentionBackendEnum.TRITON_MLA:
+                if block_size != 1:
+                    logger.info_once("Using Triton MLA backend.")
+                    return AttentionBackendEnum.TRITON_MLA.get_path()
+                raise ValueError(
+                    f" The selected backend, {selected_backend.name},"
+                    f"does not support block size {block_size}."
+                )
+            if selected_backend == AttentionBackendEnum.ROCM_AITER_MLA:
+                logger.info("Using AITER MLA backend.")
+                return AttentionBackendEnum.ROCM_AITER_MLA.get_path()
+
+            raise ValueError(
+                f" The selected backend, {selected_backend.name},"
+                f"is not MLA type while requested for MLA backend."
+            )
+
+        if selected_backend == AttentionBackendEnum.FLEX_ATTENTION:
+            logger.info("Using FlexAttention backend.")
+            return "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
+        if (
+            rocm_aiter_ops.is_mha_enabled()
+        ) or selected_backend == AttentionBackendEnum.ROCM_AITER_FA:
+            logger.info("Using Aiter Flash Attention backend.")
+            return AttentionBackendEnum.ROCM_AITER_FA.get_path()
+        if (
+            rocm_aiter_ops.is_triton_unified_attn_enabled()
+        ) or selected_backend == AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN:
+            logger.info("Using Aiter Unified Attention backend.")
+            return AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN.get_path()
+        if (
+            envs.VLLM_V1_USE_PREFILL_DECODE_ATTENTION
+            or selected_backend == AttentionBackendEnum.ROCM_ATTN
+        ):
+            # rocm specific backend, with aiter and/or
+            #   triton prefix-prefill
+            logger.info("Using Rocm Attention backend.")
+            return AttentionBackendEnum.ROCM_ATTN.get_path()
+        # default case, using triton unified attention
+        logger.info("Using Triton Attention backend.")
+        return AttentionBackendEnum.TRITON_ATTN.get_path()
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        torch.cuda.set_device(device)
+
+    @classmethod
+    @lru_cache(maxsize=8)
+    def get_device_capability(cls, device_id: int = 0) -> DeviceCapability | None:
+        major, minor = torch.cuda.get_device_capability(device_id)
+        return DeviceCapability(major=major, minor=minor)
+
+    @classmethod
+    @with_amdsmi_context
+    def is_fully_connected(cls, physical_device_ids: list[int]) -> bool:
+        """
+        Query if the set of gpus are fully connected by xgmi (1 hop)
+        """
+        handles = [amdsmi_get_processor_handles()[i] for i in physical_device_ids]
+        for i, handle in enumerate(handles):
+            for j, peer_handle in enumerate(handles):
+                if i < j:
+                    try:
+                        link_type = amdsmi_topo_get_link_type(handle, peer_handle)
+                        # type is 2 for XGMI
+                        if link_type["hops"] != 1 or link_type["type"] != 2:
+                            return False
+                    except AmdSmiException as error:
+                        logger.error("AMD 1 hop XGMI detection failed.", exc_info=error)
+                        return False
+        return True
+
+    @classmethod
+    @with_amdsmi_context
+    @lru_cache(maxsize=8)
+    def get_device_name(cls, device_id: int = 0) -> str:
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
+        handle = amdsmi_get_processor_handles()[physical_device_id]
+        asic_info = amdsmi_get_gpu_asic_info(handle)
+        device_name: str = asic_info["device_id"]
+        if device_name in _ROCM_DEVICE_ID_NAME_MAP:
+            return _ROCM_DEVICE_ID_NAME_MAP[device_name]
+        return asic_info["market_name"]
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        device_props = torch.cuda.get_device_properties(device_id)
+        return device_props.total_memory
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        from vllm._aiter_ops import rocm_aiter_ops
+        from vllm.config.compilation import CUDAGraphMode
+
+        cache_config = vllm_config.cache_config
+        compilation_config = vllm_config.compilation_config
+        parallel_config = vllm_config.parallel_config
+        is_eager_execution = compilation_config == CUDAGraphMode.NONE
+
+        use_aiter_rms_norm = rocm_aiter_ops.is_rmsnorm_enabled()
+
+        if cache_config and cache_config.block_size is None:
+            cache_config.block_size = 16
+
+        if parallel_config.worker_cls == "auto":
+            parallel_config.worker_cls = "vllm.v1.worker.gpu_worker.Worker"
+        #  Aiter rms norm perform best when CUDA Graph capture is enabled.
+        if (
+            use_aiter_rms_norm
+            and not is_eager_execution
+            and "-rms_norm" not in compilation_config.custom_ops
+        ):
+            compilation_config.custom_ops.append("+rms_norm")
+
+    @classmethod
+    def verify_model_arch(cls, model_arch: str) -> None:
+        if model_arch in _ROCM_UNSUPPORTED_MODELS:
+            raise ValueError(
+                f"Model architecture '{model_arch}' is not supported by ROCm for now."
+            )
+
+        if model_arch in _ROCM_PARTIALLY_SUPPORTED_MODELS:
+            msg = _ROCM_PARTIALLY_SUPPORTED_MODELS[model_arch]
+            logger.warning(
+                "Model architecture '%s' is partially supported by ROCm: %s",
+                model_arch,
+                msg,
+            )
+
+    @classmethod
+    def verify_quantization(cls, quant: str) -> None:
+        super().verify_quantization(quant)
+        if quant == "awq" and not envs.VLLM_USE_TRITON_AWQ:
+            logger.warning(
+                "Using AWQ quantization with ROCm, but VLLM_USE_TRITON_AWQ"
+                " is not set, enabling VLLM_USE_TRITON_AWQ."
+            )
+        os.environ["VLLM_USE_TRITON_AWQ"] = "1"
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        return "vllm.lora.punica_wrapper.punica_gpu.PunicaWrapperGPU"
+
+    @classmethod
+    def get_current_memory_usage(
+        cls, device: torch.types.Device | None = None
+    ) -> float:
+        torch.cuda.reset_peak_memory_stats(device)
+        return torch.cuda.mem_get_info(device)[1] - torch.cuda.mem_get_info(device)[0]
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        return (
+            "vllm.distributed.device_communicators.cuda_communicator.CudaCommunicator"  # noqa
+        )
+
+    @classmethod
+    def supports_mx(cls) -> bool:
+        gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
+        return any(gfx in gcn_arch for gfx in ["gfx95"])
+
+    @classmethod
+    def supports_fp8(cls) -> bool:
+        gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
+        return any(gfx in gcn_arch for gfx in ["gfx94", "gfx95", "gfx12"])
+
+    @classmethod
+    def is_fp8_fnuz(cls) -> bool:
+        # only device 0 is checked, this assumes MI300 platforms are homogeneous
+        return "gfx94" in torch.cuda.get_device_properties(0).gcnArchName
+
+    @classmethod
+    def fp8_dtype(cls) -> torch.dtype:
+        if cls.is_fp8_fnuz():
+            return torch.float8_e4m3fnuz
+        else:
+            return torch.float8_e4m3fn
+
+    @classmethod
+    def use_custom_allreduce(cls) -> bool:
+        # We only enable custom allreduce for MI300 series
+        gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
+        supported_archs = ["gfx94", "gfx95"]
+        return any(gfx in gcn_arch for gfx in supported_archs)
+
+    @classmethod
+    def opaque_attention_op(cls) -> bool:
+        return True
+
+    @classmethod
+    def is_navi(cls) -> bool:
+        return "gfx1" in torch.cuda.get_device_properties(0).gcnArchName
+
+    @classmethod
+    def get_static_graph_wrapper_cls(cls) -> str:
+        return "vllm.compilation.cuda_graph.CUDAGraphWrapper"
+
+    @classmethod
+    def device_count(cls) -> int:
+        return cuda_device_count_stateless()
+
+    @classmethod
+    def check_if_supports_dtype(cls, dtype: torch.dtype):
+        if dtype == torch.bfloat16:  # noqa: SIM102
+            if not cls.has_device_capability(80):
+                capability = cls.get_device_capability()
+                gpu_name = cls.get_device_name()
+
+                if capability is None:
+                    compute_str = "does not have a compute capability"
+                else:
+                    version_str = capability.as_version_str()
+                    compute_str = f"has compute capability {version_str}"
+
+                raise ValueError(
+                    "Bfloat16 is only supported on GPUs "
+                    "with compute capability of at least 8.0. "
+                    f"Your {gpu_name} GPU {compute_str}. "
+                    "You can use float16 instead by explicitly setting the "
+                    "`dtype` flag in CLI, for example: --dtype=half."
+                )
+
+    @classmethod
+    def support_hybrid_kv_cache(cls) -> bool:
+        return True
+
+    @classmethod
+    def support_static_graph_mode(cls) -> bool:
+        return True
diff --git a/platforms/tpu.py b/platforms/tpu.py
new file mode 100644
index 0000000..944344a
--- /dev/null
+++ b/platforms/tpu.py
@@ -0,0 +1,276 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+from typing import TYPE_CHECKING, cast
+
+import torch
+from tpu_info import device
+
+from vllm.inputs import ProcessorInputs, PromptType
+from vllm.logger import init_logger
+
+from .interface import Platform, PlatformEnum
+
+if TYPE_CHECKING:
+    from typing import TypeAlias
+
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+    from vllm.config.cache import BlockSize
+    from vllm.pooling_params import PoolingParams
+    from vllm.sampling_params import SamplingParams
+
+    ParamsType: TypeAlias = SamplingParams | PoolingParams
+else:
+    BlockSize = None
+    VllmConfig = None
+    PoolingParams = None
+    AttentionBackendEnum = None
+    ParamsType = None
+
+logger = init_logger(__name__)
+
+USE_TPU_INFERENCE = False
+
+
+class TpuPlatform(Platform):
+    _enum = PlatformEnum.TPU
+    device_name: str = "tpu"
+    device_type: str = "tpu"
+    dispatch_key: str = "XLA"
+    ray_device_key: str = "TPU"
+    dist_backend: str = "gloo"
+    device_control_env_var: str = "TPU_VISIBLE_CHIPS"
+    simple_compile_backend: str = "openxla"
+
+    supported_quantization: list[str] = ["fp8", "tpu_int8", "compressed-tensors"]
+
+    additional_env_vars: list[str] = ["TPU_CHIPS_PER_HOST_BOUNDS", "TPU_HOST_BOUNDS"]
+
+    @classmethod
+    def import_kernels(cls) -> None:
+        # Do not import vllm._C
+        with contextlib.suppress(ImportError):
+            import vllm._moe_C  # noqa: F401
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: str | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink,
+        use_sparse,
+        attn_type: str | None = None,
+    ) -> str:
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if use_sparse:
+            raise NotImplementedError("Sparse Attention is not supported on TPU.")
+        if selected_backend != AttentionBackendEnum.PALLAS:
+            logger.info("Cannot use %s backend on TPU.", selected_backend)
+
+        logger.info("Using Pallas V1 backend.")
+        return AttentionBackendEnum.PALLAS.get_path()
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        torch.tpu.set_device(device)
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        chip_type, _ = device.get_local_chips()
+        return f"TPU {chip_type.name}"
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        raise NotImplementedError
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        return "vllm.lora.punica_wrapper.punica_tpu.PunicaWrapperTPU"
+
+    @classmethod
+    def get_infinity_values(cls, dtype: torch.dtype) -> tuple[float, float]:
+        return torch.finfo(dtype).min, torch.finfo(dtype).max
+
+    @classmethod
+    def can_update_inplace(cls):
+        return False
+
+    @classmethod
+    def get_lora_vocab_padding_size(cls) -> int:
+        return 1
+
+    @classmethod
+    def inference_mode(cls):
+        return torch.no_grad()
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
+        from vllm.config import CompilationMode, CUDAGraphMode
+
+        cache_config = vllm_config.cache_config
+        # For v0, the default block size is 16.
+        if cache_config and cache_config.block_size is None:
+            cache_config.block_size = cast(BlockSize, 16)
+        compilation_config = vllm_config.compilation_config
+
+        # TPU only supports DYNAMO_TRACE_ONCE compilation mode
+        if compilation_config.mode != CompilationMode.DYNAMO_TRACE_ONCE:
+            logger.info(
+                "[TPU] Forcing DYNAMO_TRACE_ONCE compilation mode, and\
+                disabling cudagraph."
+            )
+            compilation_config.mode = CompilationMode.DYNAMO_TRACE_ONCE
+
+        if (
+            compilation_config.cudagraph_mode is None
+            or compilation_config.cudagraph_mode.max_cudagraph_mode()
+            != CUDAGraphMode.NONE
+        ):
+            logger.info(
+                "[TPU] CUDA graph is not supported on TPU, disabling cudagraphs."
+            )
+            compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+
+        if compilation_config.backend == "":
+            compilation_config.backend = "openxla"
+
+        assert vllm_config.speculative_config is None, (
+            "TPU does not support speculative decoding"
+        )
+
+        model_config = vllm_config.model_config
+        if model_config is not None and model_config.dtype in (
+            torch.float16,
+            torch.float32,
+        ):
+            logger.warning(
+                "The TPU backend currently does not support %s. "
+                "Using bfloat16 instead.",
+                model_config.dtype,
+            )
+            model_config.dtype = torch.bfloat16
+
+        from vllm.v1.attention.backends.pallas import PallasAttentionBackend
+
+        cache_config.block_size = PallasAttentionBackend.get_page_size(vllm_config)  # type: ignore[assignment]
+
+        parallel_config = vllm_config.parallel_config
+        scheduler_config = vllm_config.scheduler_config
+        if parallel_config.worker_cls == "auto":
+            parallel_config.worker_cls = "vllm.v1.worker.tpu_worker.TPUWorker"
+
+        assert not vllm_config.speculative_config, (
+            "Speculative decoding is not yet supported for TPU backend"
+        )
+
+        if (
+            scheduler_config.is_multimodal_model
+            and not scheduler_config.disable_chunked_mm_input
+        ):
+            logger.warning(
+                "TPU does not support running Multimodal models"
+                " without setting `--disable_chunked_mm_input`. "
+                "Forcing --disable_chunked_mm_input."
+            )
+            scheduler_config.disable_chunked_mm_input = True
+
+        if model_config and model_config.use_mla:
+            logger.info(
+                "MLA is enabled on a non-GPU platform; forcing chunked "
+                "prefill and prefix caching to be disabled."
+            )
+            vllm_config.scheduler_config.enable_chunked_prefill = False
+            vllm_config.scheduler_config.max_num_batched_tokens = max(
+                vllm_config.model_config.max_model_len,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
+            )
+
+    @classmethod
+    def is_pin_memory_available(cls):
+        logger.warning("Pin memory is not supported on TPU.")
+        return False
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        return "vllm.distributed.device_communicators.tpu_communicator.TpuCommunicator"  # noqa
+
+    @classmethod
+    def validate_request(
+        cls,
+        prompt: PromptType,
+        params: ParamsType,
+        processed_inputs: ProcessorInputs,
+    ) -> None:
+        """Raises if this request is unsupported on this platform"""
+        from vllm.sampling_params import SamplingParams, SamplingType
+
+        if (
+            isinstance(params, SamplingParams)
+            and params.sampling_type == SamplingType.RANDOM_SEED
+        ):
+            raise ValueError("Torch XLA does not support per-request seed.")
+
+    @classmethod
+    @torch.compile(backend="openxla")
+    def insert_blocks_to_device(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        torch.ops.xla.dynamo_set_buffer_donor_(dst_cache, True)
+        dst_cache[dst_block_indices] = src_cache[src_block_indices].to(dst_cache.device)
+
+    @classmethod
+    @torch.compile(backend="openxla")
+    def swap_out_blocks_to_host(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        """tpu blocks to cpu blocks"""
+        torch.ops.xla.dynamo_set_buffer_donor_(src_cache, True)
+        dst_cache[dst_block_indices] = src_cache[src_block_indices].cpu()
+
+    @classmethod
+    def use_sync_weight_loader(cls) -> bool:
+        return True
+
+    @classmethod
+    def check_max_model_len(cls, max_model_len: int) -> int:
+        """
+        Check max_model_len for the current platform.
+        """
+        logger.warning(
+            "--max-model-len is not specified, "
+            "it's currently using model's default length %d, "
+            "which might be too large."
+            "Please input with --max-model-len based on your "
+            "request input length and output length, to avoid "
+            "unnecessary degradation.",
+            max_model_len,
+        )
+        return max_model_len
+
+
+try:
+    from tpu_inference.platforms import TpuPlatform as TpuInferencePlatform
+
+    TpuPlatform = TpuInferencePlatform  # type: ignore
+    USE_TPU_INFERENCE = True
+except ImportError:
+    logger.info("tpu_inference not found, using vLLM's TpuPlatform")
+    pass
diff --git a/platforms/xpu.py b/platforms/xpu.py
new file mode 100644
index 0000000..6551682
--- /dev/null
+++ b/platforms/xpu.py
@@ -0,0 +1,274 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import os
+from typing import TYPE_CHECKING
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+from .interface import DeviceCapability, Platform, PlatformEnum
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
+else:
+    VllmConfig = None
+    AttentionBackendEnum = None
+
+logger = init_logger(__name__)
+
+
+class XPUPlatform(Platform):
+    _enum = PlatformEnum.XPU
+    device_name: str = "xpu"
+    device_type: str = "xpu"
+    dispatch_key: str = "XPU"
+    # Intel XPU's device key is "GPU" for Ray.
+    # see https://github.com/ray-project/ray/blob/6a5eb5865eeb9ccf058a79b44f107e327e360673/python/ray/_private/accelerators/intel_gpu.py#L20 # noqa: E501
+    ray_device_key: str = "GPU"
+    dist_backend: str = "ccl"  # ccl | xccl
+    device_control_env_var: str = "ZE_AFFINITY_MASK"
+
+    @classmethod
+    def import_kernels(cls) -> None:
+        # Do not import vllm._C
+        with contextlib.suppress(ImportError):
+            import vllm._moe_C  # noqa: F401
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: str | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse,
+        attn_type: str | None = None,
+    ) -> str:
+        from vllm.v1.attention.backends.utils import set_kv_cache_layout
+
+        set_kv_cache_layout("NHD")
+        logger.info(
+            "Setting VLLM_KV_CACHE_LAYOUT to 'NHD' for XPU; "
+            "only NHD layout is supported by XPU attention kernels."
+        )
+
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        if use_sparse:
+            raise NotImplementedError("Sparse Attention is not supported on XPU.")
+        if selected_backend == AttentionBackendEnum.TRITON_ATTN:
+            logger.info_once("Using Triton backend.")
+            return AttentionBackendEnum.TRITON_ATTN.get_path()
+        elif selected_backend == AttentionBackendEnum.FLASH_ATTN:
+            logger.info_once("Using Flash Attention backend.")
+            return AttentionBackendEnum.FLASH_ATTN.get_path()
+        elif selected_backend:
+            raise ValueError(
+                f"Invalid attention backend for {cls.device_name}, "
+                f"with use_mla: {use_mla}"
+            )
+
+        logger.info("Using Flash Attention backend.")
+        return AttentionBackendEnum.FLASH_ATTN.get_path()
+
+    @classmethod
+    def set_device(cls, device: torch.device) -> None:
+        """
+        Set the device for the current platform.
+        """
+        torch.xpu.set_device(device)
+
+    @classmethod
+    def get_device_capability(
+        cls,
+        device_id: int = 0,
+    ) -> DeviceCapability | None:
+        # capacity format differs from cuda's and will cause unexpected
+        # failure, so use None directly
+        return None
+
+    @classmethod
+    def get_device_name(cls, device_id: int = 0) -> str:
+        return torch.xpu.get_device_name(device_id)
+
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        xpu_use_triton_kernel = os.getenv("XPU_USE_TRITON_KERNEL", "0") == "1"
+        if not xpu_use_triton_kernel:
+            return "vllm.lora.punica_wrapper.punica_xpu.PunicaWrapperXPU"
+        else:
+            return "vllm.lora.punica_wrapper.punica_gpu.PunicaWrapperGPU"
+
+    @classmethod
+    def get_device_total_memory(cls, device_id: int = 0) -> int:
+        device_props = torch.xpu.get_device_properties(device_id)
+        return device_props.total_memory
+
+    @classmethod
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> "AttentionBackendEnum":
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        return AttentionBackendEnum.FLASH_ATTN
+
+    @classmethod
+    def inference_mode(cls):
+        return torch.no_grad()
+
+    @classmethod
+    def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
+        cache_config = vllm_config.cache_config
+        model_config = vllm_config.model_config
+        # in V1(or with ipex chunked prefill) block_size is 64
+        if cache_config and cache_config.block_size is None:
+            cache_config.block_size = 64
+
+        # lazy import to avoid circular import
+        from vllm.config import CompilationMode, CUDAGraphMode
+
+        compilation_config = vllm_config.compilation_config
+        if compilation_config.compile_sizes is None:
+            compilation_config.compile_sizes = []
+
+        assert compilation_config.cudagraph_mode == CUDAGraphMode.NONE, (
+            "CUDA graph mode should be NONE on XPU"
+        )
+
+        if vllm_config.lora_config is not None:
+            compilation_config.mode = CompilationMode.NONE
+
+        # check and update parallel config
+        parallel_config = vllm_config.parallel_config
+        parallel_config.worker_cls = "vllm.v1.worker.xpu_worker.XPUWorker"
+        if vllm_config.kv_transfer_config is not None:
+            vllm_config.kv_transfer_config.enable_permute_local_kv = True
+
+        if parallel_config.distributed_executor_backend is None:
+            if parallel_config.world_size > 1:
+                parallel_config.distributed_executor_backend = "ray"
+            else:
+                parallel_config.distributed_executor_backend = "uni"
+        elif parallel_config.distributed_executor_backend == "mp":
+            # FIXME(kunshang):
+            # spawn needs calling `if __name__ == '__main__':`
+            # fork is not supported for xpu start new process.
+            if envs.VLLM_WORKER_MULTIPROC_METHOD != "spawn":
+                os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+                logger.warning(
+                    "Please use spawn as start method if you want to use mp."
+                )
+        elif (
+            parallel_config.distributed_executor_backend != "ray"
+            and parallel_config.distributed_executor_backend != "uni"
+            and parallel_config.distributed_executor_backend != "external_launcher"
+        ):
+            logger.warning(
+                "%s is not supported on XPU, fallback to ray distributed"
+                " executor backend.",
+                parallel_config.distributed_executor_backend,
+            )
+            parallel_config.distributed_executor_backend = "ray"
+
+        if model_config and model_config.use_mla:
+            logger.info(
+                "MLA is enabled on a non-GPU platform; forcing chunked "
+                "prefill and prefix caching to be disabled."
+            )
+            vllm_config.scheduler_config.enable_chunked_prefill = False
+            vllm_config.scheduler_config.max_num_batched_tokens = max(
+                vllm_config.model_config.max_model_len,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
+            )
+
+    @classmethod
+    def support_hybrid_kv_cache(cls) -> bool:
+        return True
+
+    @classmethod
+    def support_static_graph_mode(cls) -> bool:
+        return False
+
+    @classmethod
+    def is_pin_memory_available(cls):
+        return True
+
+    @classmethod
+    def get_current_memory_usage(
+        cls, device: torch.types.Device | None = None
+    ) -> float:
+        torch.xpu.reset_peak_memory_stats(device)
+        return torch.xpu.max_memory_allocated(device)
+
+    @classmethod
+    def fp8_dtype(cls) -> torch.dtype:
+        return torch.float8_e5m2
+
+    @classmethod
+    def is_data_center_gpu(cls) -> bool:
+        device_name = cls.get_device_name().lower()
+        return device_name.count("data center gpu") > 0
+
+    @classmethod
+    def get_device_communicator_cls(cls) -> str:
+        return "vllm.distributed.device_communicators.xpu_communicator.XpuCommunicator"  # noqa
+
+    @classmethod
+    def device_count(cls) -> int:
+        return torch.xpu.device_count()
+
+    @classmethod
+    def check_if_supports_dtype(cls, dtype: torch.dtype):
+        if dtype == torch.bfloat16:  # noqa: SIM102
+            device_name = cls.get_device_name().lower()
+            # client gpu a770
+            if device_name.count("a770") > 0:
+                raise ValueError(
+                    "Intel Arc A770 have bfloat16 accuracy known issue. "
+                    "You can use float16 instead by explicitly setting the "
+                    "`dtype` flag in CLI, for example: --dtype=half."
+                )
+
+    @classmethod
+    def opaque_attention_op(cls) -> bool:
+        return True
+
+    @classmethod
+    def insert_blocks_to_device(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        """Copy blocks from src_cache to dst_cache on XPU."""
+        _src_cache = src_cache[:, src_block_indices]
+        if _src_cache.shape[2:] != dst_cache.shape[2:]:
+            # To support TP_ratio, HOST KV might be initiated with HND
+            # while XPU device KV is with NHD
+            _src_cache = _src_cache.permute(0, 1, 3, 2, 4)
+        dst_cache[:, dst_block_indices] = _src_cache.to(dst_cache.device)
+
+    @classmethod
+    def swap_out_blocks_to_host(
+        cls,
+        src_cache: torch.Tensor,
+        dst_cache: torch.Tensor,
+        src_block_indices: torch.Tensor,
+        dst_block_indices: torch.Tensor,
+    ) -> None:
+        """Copy blocks from XPU to host (CPU)."""
+        _src_cache = src_cache[:, src_block_indices]
+        if _src_cache.shape[2:] != dst_cache.shape[2:]:
+            # XPU device KV is with NHD while HOST KV
+            # might be initiated with HND for TP_ratio support
+            _src_cache = _src_cache.permute(0, 1, 3, 2, 4)
+        dst_cache[:, dst_block_indices] = _src_cache.cpu()
diff --git a/plugins/__init__.py b/plugins/__init__.py
new file mode 100644
index 0000000..0d8988f
--- /dev/null
+++ b/plugins/__init__.py
@@ -0,0 +1,78 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import logging
+from collections.abc import Callable
+from typing import Any
+
+import vllm.envs as envs
+
+logger = logging.getLogger(__name__)
+
+# Default plugins group will be loaded in all processes(process0, engine core
+# process and worker processes)
+DEFAULT_PLUGINS_GROUP = "vllm.general_plugins"
+# IO processor plugins group will be loaded in process0 only
+IO_PROCESSOR_PLUGINS_GROUP = "vllm.io_processor_plugins"
+# Platform plugins group will be loaded in all processes when
+# `vllm.platforms.current_platform` is called and the value not initialized,
+PLATFORM_PLUGINS_GROUP = "vllm.platform_plugins"
+
+# make sure one process only loads plugins once
+plugins_loaded = False
+
+
+def load_plugins_by_group(group: str) -> dict[str, Callable[[], Any]]:
+    from importlib.metadata import entry_points
+
+    allowed_plugins = envs.VLLM_PLUGINS
+
+    discovered_plugins = entry_points(group=group)
+    if len(discovered_plugins) == 0:
+        logger.debug("No plugins for group %s found.", group)
+        return {}
+
+    # Check if the only discovered plugin is the default one
+    is_default_group = group == DEFAULT_PLUGINS_GROUP
+    # Use INFO for non-default groups and DEBUG for the default group
+    log_level = logger.debug if is_default_group else logger.info
+
+    log_level("Available plugins for group %s:", group)
+    for plugin in discovered_plugins:
+        log_level("- %s -> %s", plugin.name, plugin.value)
+
+    if allowed_plugins is None:
+        log_level(
+            "All plugins in this group will be loaded. "
+            "Set `VLLM_PLUGINS` to control which plugins to load."
+        )
+
+    plugins = dict[str, Callable[[], Any]]()
+    for plugin in discovered_plugins:
+        if allowed_plugins is None or plugin.name in allowed_plugins:
+            if allowed_plugins is not None:
+                log_level("Loading plugin %s", plugin.name)
+
+            try:
+                func = plugin.load()
+                plugins[plugin.name] = func
+            except Exception:
+                logger.exception("Failed to load plugin %s", plugin.name)
+
+    return plugins
+
+
+def load_general_plugins():
+    """WARNING: plugins can be loaded for multiple times in different
+    processes. They should be designed in a way that they can be loaded
+    multiple times without causing issues.
+    """
+    global plugins_loaded
+    if plugins_loaded:
+        return
+    plugins_loaded = True
+
+    plugins = load_plugins_by_group(group=DEFAULT_PLUGINS_GROUP)
+    # general plugins, we only need to execute the loaded functions
+    for func in plugins.values():
+        func()
diff --git a/plugins/__pycache__/__init__.cpython-312.pyc b/plugins/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0cd27697377a33d73a338b1c9a5ad67429a42339
GIT binary patch
literal 2732
zcmZ`*Z*1Gv5q}gZij-tY{wLeQ>@c<6Oj#}U57K05*3F9@&xI!&c9NlLSB4g!WZD!d
zkdz(SGN1wdkYQ<-ZUx){1Lgt)>L3G}0mGJk+JJ4J_C-#-#^Dkm!Lkqirp+l(^i%Iq
zqNJwj19<OvckkZ4<K6G^pB){31Vd$hrfdNBAM)Z3uE88!0cH!yNTyVjCbLJS@}9JZ
zB0R0qc_z&`Jf(W`Y?`Hz2Vt}vavim1%w4DIZ)sj;(tg>S4#;deDEp)inZqHO$6*}8
zo*cqV)-wR64a&&=x0!TA4!n)hoh2$B{Dink#VMOREvc%ssAAyhajmr8v#P53L=J1%
zkW{gt7ITVbt`9g;MHdT(p24Q68%<TOqbjJ9mDP>BD?Vd;bB10l*sOuAqM>CPfji-|
zKxudmu6Uf(P>>Ror#2}HS&U-=WSLk!F*ZFORHn-4ceI;`P1@pJqjFO!Q!C#@$mqA6
z&qMUf9j;YtmYFiT4iS(+Aq6d<GP0U!CmuGLGGj#Ayaemk?Nkf5=_Bo$I=|_Kn7y*M
zeXlY-fqpE2f7a2lWp=sit1Cg;^Hu3}k~tU@y8H}-%AN}6`0%+IfgJYLEfBK$n_SH0
za>)9I%eNQF^@ecM=S24d5?$HzlknHX=2=B1b-4#Dx}E*Gr`xsi%OkKj<nG*>oBMKQ
zuIzidms4PV`87DLZvhP>OK?|@AY&NL+xp7GuBJ81{L_85B6}TOzPN@i(yya6D(+7i
zq$Hpnf>^VRl336c%`&f1h8M)^Ln&QoG=%{5E;vOljGFLL)a1naq48BoaT@BWW+&JE
zW5jywRiNu{jjL+YOwj~uNiiE9*A!4KVnNj<8OsS_0b9a_^D{F)6z68nO--j3E(n$`
zWON8oSB14DC9~A@1PZb&vEDfYlcMDs8nR{o83+%{WHGU6Y2saWmy$2&hNUWti9EI>
zS+XR9pqR~IZPm1c?c3Y5iZz>6^;`}cwpYfB#hl$cF?nYE+{{@wMsaF>_S~G!C|Xvx
z8BNM#+q){MMQk&&lCf;sv<!okvq8GvW=KRfKY1~O3znj5HjiC4&O7O^hZ6?K($}!;
zVvXG;D`rMt#YUSfqL`wLvr<vD#5xl35Ui-;Rjk@<{S(^0#;3HIY*EXY1W5#Ue10lv
z<qOGzQW%3g<ghh%v3UI3CsvN*BxERAC|OIomL%YpY<NkEqM|95C?*OeyO$isjZj=H
z)q^k&!xjXX&6fcXE9gFxd=!n{i5}UF9;wVe92ni1+#7hY%0%z^{MEqVZQs!L;ak4p
zdtB(}!Jh`Jy~l18_qgxuhdVFvH5T;`?g__s`;Jwao`=Ho@3C9KUj+Y<{nN_tS1QvF
znT~2Gd82oaIsWgikxT4duJh`1+w6yd4+1;qKYH`poB!fY)@al{3Vyi0s&5DkY96ZN
zH1(LKdH-WS3U|Nv(yzJguHP<f_wDw_tKIS4(9zqW=PFZ<!~H<48hB<q`{Bw5D>uYj
z&ra-zhpOSDcOwJU*x1hMM;q5R_9Cy;7^dSjYQJxAYvbLGUv6Gy_K$q)s_%XFH-TRT
zZbe3FVG=<U1-mP$&mQ|w&*1+N1q<#)qIV*~ZbYaae&y!*zr6A1H$IL`*Jz^p+$2!>
zw_}GU`aOT|k54k*f6x@r3`m=U6cu?6G$32ZYAOt>1h<WZETVNr>&9ujRp2IA_PG|V
z*~KbAZ>W_`3XqR-Wq`*42EpaZtpD*x<MXNM)YQplOJ*dk)y)oY<e@N?f{F!8$zxN1
z?w6Hp7D`yN{G<dM7cDju!r3KU63ivNsLI5Nj7=q{K@Y<kNm!FgfE$tp1gyTakK^Zw
zeby8x+oA=AMUx<dVwy$R!!b>rHAn}<89UUdXps~#mYu3K$lYeMPXC&5k1+(V2ElWa
z;H4lK0!(&~Q}$2%J{Y5*8i&Vx9!Ld!8bn-lp9}5x4pdT)Lc@DUzq=RuUS;Y*q;D(q
zZs_BPaEZCg1>a%+N2AWe2e1YKJoyONK+JYHqpK>;5Qs1n(qhJe5Sz711<=-^gm->Q
z2y7VvSZ(vrzcY2L;zW@kktiDEs;{3aHa#oO&Ci~mTv(W$e*(Rtb2H;-&&<v@k++U&
z#xPmkO9;87>nS4VyoQWti9i5ibEopUTvYL^201zT2Qo=TLM2nw0f(sYeKc|(MgNQX
zAMmkDeRufSE+2dU#BF}0!qzx6kgTHK2ZJZ7C<bjBd!dS=Fn9G;LN#`j>fY|IA((c0
ib}~0k-2DDu>6=r#FHKYv6T9)r1EM*YqdKUt6VDez-koXy

literal 0
HcmV?d00001

diff --git a/plugins/io_processors/__init__.py b/plugins/io_processors/__init__.py
new file mode 100644
index 0000000..b3a3b54
--- /dev/null
+++ b/plugins/io_processors/__init__.py
@@ -0,0 +1,68 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import logging
+
+from vllm.config import VllmConfig
+from vllm.plugins import IO_PROCESSOR_PLUGINS_GROUP, load_plugins_by_group
+from vllm.plugins.io_processors.interface import IOProcessor
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+logger = logging.getLogger(__name__)
+
+
+def get_io_processor(
+    vllm_config: VllmConfig, plugin_from_init: str | None = None
+) -> IOProcessor | None:
+    # Input.Output processors are loaded as plugins under the
+    # 'vllm.io_processor_plugins' group. Similar to platform
+    # plugins, these plugins register a function that returns the class
+    # name for the processor to install.
+
+    if plugin_from_init:
+        model_plugin = plugin_from_init
+    else:
+        # A plugin can be specified via the model config
+        # Retrieve the model specific plugin if available
+        # This is using a custom field in the hf_config for the model
+        hf_config = vllm_config.model_config.hf_config.to_dict()
+        config_plugin = hf_config.get("io_processor_plugin")
+        model_plugin = config_plugin
+
+    if model_plugin is None:
+        logger.debug("No IOProcessor plugins requested by the model")
+        return None
+
+    logger.debug("IOProcessor plugin to be loaded %s", model_plugin)
+
+    # Load all installed plugin in the group
+    multimodal_data_processor_plugins = load_plugins_by_group(
+        IO_PROCESSOR_PLUGINS_GROUP
+    )
+
+    loadable_plugins = {}
+    for name, func in multimodal_data_processor_plugins.items():
+        try:
+            assert callable(func)
+            processor_cls_qualname = func()
+            if processor_cls_qualname is not None:
+                loadable_plugins[name] = processor_cls_qualname
+        except Exception:
+            logger.warning("Failed to load plugin %s.", name, exc_info=True)
+
+    num_available_plugins = len(loadable_plugins.keys())
+    if num_available_plugins == 0:
+        raise ValueError(
+            f"No IOProcessor plugins installed but one is required ({model_plugin})."
+        )
+
+    if model_plugin not in loadable_plugins:
+        raise ValueError(
+            f"The model requires the '{model_plugin}' IO Processor plugin "
+            "but it is not installed. "
+            f"Available plugins: {list(loadable_plugins.keys())}"
+        )
+
+    activated_plugin_cls = loadable_plugins[model_plugin]
+
+    return resolve_obj_by_qualname(activated_plugin_cls)(vllm_config)
diff --git a/plugins/io_processors/__pycache__/__init__.cpython-312.pyc b/plugins/io_processors/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..524a73b4af85b2338e2170d93930fec6c259117c
GIT binary patch
literal 2457
zcma)8OKcNI7@mFDyX!|D#CZ^d*n~W=fEcRgK?&iNfIz7e@luJXR*rWQ)~t8U>^cx@
zEdi?3pd!Jc5>yBksh6Vkz^UShs`k{&x~9Zkfr?am=q)rH5U0+pJ+TF<+L68U&;Oc#
z=KsHc_vdgp0MO9bFVtTJ0RF%WGWaU7wuFe=Kn60Uff+p08kM1EXbRJe#$?zTHshP|
zd23elXSf;8qkS5m5oQDm&_Ds{2ytASmEbZ}S<Qq5AO~c>Ld%>ImZ>}kfXpjgg_`rr
z!e_pjhD9nC{0kc-Vw4*=qiLDLhCZjx$7r|n*pxJVV(Re3$&*tjr0L1iM~@{=N=Hvj
zot}1EH6tlYSuHoO>ZUZiD9uA7mqjju$EK#Cky1?4fN0qc71Pib6v>!PW3`L9q^2h`
ziW^)&TS+NzFSn`UNScF2MpAXva{W-Ta!^mvwUYsKn}9+8wHt_g8`u<NY^p%(!!}6Q
zsSz?=Z(C)ieMDNDm#bufv6(cwqj!f)ksB?rHd~-=`bwKcG6~YbclFUN)5L-Ti{L+W
z8Jk|NMoIxIOuShQgd)BQJ{1)FwlCdGB(<5GVH|wg1;9DvufP>}0az_W$L5J2lRgfv
zQ8YlDs<0r~!d0Iw*nXQEMZ6nZSzv8kxAdo@gs#oRmUt}$?10Q&*aiS>v^EnxnYZb?
zKo;&XMDH49)3$$sg4^n}0-jdT+CuE?|F!2`aF4C?>$hnfbRkFs3*ACx*z0((0nt4P
zwgPJ%J3RnK(aqN~+D>e1v&`C@?EB8YjOz~#3Y-NuzP|)6GiSjiDi%t(Evg}9N#R$4
zk>8mx#5z2PRlJB$xtLQ-OOeIdMbSF1h#5mxw0!sbx}s%>vx<n(hO~Rl{Kg|mRYN4=
zV`kMQk_?<eaO0KBDFmQ71LBg(5B<yj2(wmF!)|7CmT2gTsG43-Dnz_(c{(<b?>I%`
zA`;UJwLgETA00|uM>z=ryHe556m<hlWQzgu-~tLcIjbq;{2z(2W;f)WnREc*{2U=U
z%aCL>Wx33}f*OHl%+D*(^~uU?ZXRO%LKZz-pK2)?)8$j>AlSJpOk7SWSxYr^m%EgN
zx~k8+jHc)=dqG(=QEy9XIb{Mu1G=oHnij-ZkA)ykJjA_)gjC5AY{aZ^r9)K{>UL#v
znx&%1lbR$at>k+tH{B+j790@ijxOspJa#Upr`)z$jifZQ)(%_sTt-Tgi&{60BvY2U
zkVKVIWl6}&457%xy7BgS+{$F*Sv9-UN<wsNJ1^&k_l#T^R^pmE8_zCU=M6oM8*aQ>
zf${okHRF=kbR}sZyXZC{d#PRw`_Oi{8<{qGvs?kMngHKXZtuSyS`C0!aV4^&7}>EB
z87fAGRw84?$XF?IU`Z%<bbTHED(v*_Ep?18h0E<dOQ9EBi^D~q@eMaa*F#S0_!EAj
z+}QGx4SYU%b<$}bd}u#m$6xzFZ0s4|y~fZnzr*&f@}Q&BVI$?X;gz<1#kPG<+xA}%
zEU`=SD(x3Ork=G#?~H#r=7hR#js4ae`{s-j>Ml3-I*q%_vHebyct28X>U*;q1nmc?
z*BiiQ(Ghp8h=WCOup|zbHjOy!#xl3*KJ^RN^{k<z+%W$5+~b6E;*=9QjY4P)tO8mH
zpdk2&6Ww0qwtGr__wD;Sk_>jg?Cx{=hgbSXi~Xae{;^W`ey8ies*esIqShD|o3qF~
z1UBvXcCr}V<FFksf+J6Y-OkqGQgGx^v=p3h*oil<dqLC2zX6306xwhzaXsNghaRzy
zt);}%(BvwE1#is_C<{NdM8~(#KW^!oV0=H(6ne&}M6A)}Fi>#KdvDf(O5H--uiOw$
z{XjMK9(p_+xjps#f%=@A1FCK*a4wlrpdY(v_f&J1sv%J(Yd}l#79NOP0oBZ81*g0u
z;c}NGh=X+*gfp*z9)LBp2Cx@%`B4O+oTiMy-DruwSIke)109p1)_6cQ{t3E&2gjd-
z(dS_A3!!tVeMRUj3Y~XGN<z;SKg!0wgVZZ#h&n=*o1?20BL2a{QxEc$#S354tq+U7
N_SZhF19u_k{{Vdzgx3H7

literal 0
HcmV?d00001

diff --git a/plugins/io_processors/__pycache__/interface.cpython-312.pyc b/plugins/io_processors/__pycache__/interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dbcaf35795daac95bd9bc43d5a79c5c22ddffd4a
GIT binary patch
literal 3760
zcmb6cTWl29_0Dr=-)nolwlQF{ae$@q8bVqy0S63uI8huFH$+{vS`9mQoh>svn>*u>
zb!`bDt3pjuh+5T1$%oVS14Jv4&;GUjsH*m7H?$2I35BYy)ch?hRYSje&YfAh3n6W<
z>@(+{d(ZQpbMD>W$Kw$K!<65uBmnyhPC7#ikoK<uStkZD1d~`oL9oPvDBxT)B}*>I
zmQqmoTryQFR0vsGL9@bzFsI38#EKT899PVk6)(g&u9^ueSx9m`WTvdXLLbL9v)>vh
z3~)Sbrmexkpg=@I!$#za;9FG4@Okv!d`KkE5+k-oj5rmjMl*D%ERMkDD{{awTu<bZ
zpW!4YdeV{Eqh3Nk>9|ZUxfXR_vkf38jyUyd=~-H(Om}VOX$$oAC0Z@foCGY@x)<VW
zm68|wdc8(Z=qx9AkrSqA9kr|F$|B4L=3Y9^>=Jbxo4rh(nq74$ZUUlJbCC;X>EpI-
zR;r6Hqj<-CY00fExt9em9?*~LOt&1^m{`!Q8t(KdUaCv_TostSzAlO{r{p{ALw>e^
zwjYDYtrJQLf<X$RAyBC-8sZw99aX}_=r?4l8VU^=(sGCpLxmWIsfH26d090=Ys!^C
zav}0RacFBwAsR>zgR~e*>(LPhxsfip2`)EGlQc#9Xv{ysFXW1X?0%{kF**RYs%6=T
zugUl9OLI91I!H6zn~qPx9Cjyxe+c+fG!Fd3K<Vq^AE`^Z0WaDWS}*zroN}?mkGUiU
zfxr*q68yLO0j!f1VTBX{^GBUr7UpvT8-yw3m+Vlp%qI@AjgSB9g(=snP1P#3Nmpl!
z)SY~DY2WnzQ~T(YSvfgXt3zT|r%?4&&0JcnRGq1cU95Ey3}#iAva(*H`C8r6ip5H`
z;ued`=`Pdr9cmg>I+ze=$o0|f=j1<X!)=(6c~1q2keyzH`3YI97@o?gyTqy`^sO_n
z`l9gPP5@XZZii0J3Ty}_kirA=wmSzoODzhf8Ba52v&%9YhE=v1!4?3Xdg?T|>o{1P
z<1iQ=vKOr}+Hr1qsN03E1=Q2_y||Mg$!tU0#zukGW2gdzw{YX*0A3&h7%P$$@@<&i
zKj6T`vREN2(oco&3k&4u(rMorIJODc%(4LPGqkVEo}!LDV|mL%%=MSYQ3eY7JNf(!
zX~jrt{G9u7a;%vg+fXk>n#n^~%K#eMp}Snw*});fi&?fo&7#e_Lyvp^?Hm~D%LP&2
z2{?~BdjzoiJc-q8$GsQx;T|WtR=A8uQP2aS4g-~k`Zs|1p>~5VO`sYcC+Fq!N=aHI
zC2=p@7~g?>`jNaYeOFP)H=zht<yB=xUQx>8yW-n@`^ej|uaT-+g4?AettzYX>ELS!
zYvgC*6)YPVtLln+jGPaZM3nn2=uoSn73f`<Mj$6Fld8gHh^wK~WK~-Y@#7D;xrhL)
zXb&ELPM$B_a{=}t+W`ExV*sGU;Tl9m3sBPY3>PmG=+&x!P!4hi39TJ8b?c;|&n)kL
zSY-YD$R9NAl5RRPfcP9wf)od1dxreB+<4{0?<zd>phr4I>z|<#XecV&GEik~7f!=|
zmGz#tCsaJS;!?|t`+I|YVtHWkQYG6oX$eFGWUdk`k`KQu`@3@_NcXK@?#~_&?$`i$
zzTfF5BV(UDw*TYU^dDl=9}I2uZ5%tNUr2xN8;#iX=grvk-9N>qn@_!ZM-oRO=i;|i
z^3_@4+UV?uFJ9Vy@tKW1@6CPq;@yu%XB*mZV|4a<lGo07GdbSaw&&`BX7agTW&kv_
z=k7YF_-ypZHsKv{B642N#(p4-r+z49W9#9G$cB)O{aBcY{3HV#ei1vO%D+-J1L}o>
zzSq;(F~q#FKcw0DMJD<|-;WMsDs*~TyrwgU76ZY{BR%ozUOJ4N_|Q5-{+ig<>1NQ9
z`5U0eB9zZ9+6o9>HE#+|L?Hhux6TE)KzKW5Xn8KMkSA2Pg`;oiX2sB5TC`bl(SP$m
z`{invcXZqPB^!@{2B!}IbTyTvG9M*(zQ5(Yv4*yjr>htDudPlKL;aocf5mqOxO(E-
z?^j#VwIRm-Gi$jgDIZ*)Lm9!%p>^FHJXX0)czsrNix!Jsq*#RByJR9BD;8g0(oKJb
zAv@cIKt_O`dlI}N8MX$dBA7t113?@CJ_~q#GQ5;L#a)8S(UaifX8UjndKX~_5Tp<!
z5gbB*7cD!CU=jf~US5w3?{N;WCpp+})<{bflpPz-w+VdUAk=hABiZe@LaLIznHp~?
z@CEYV@WqLDpKl?x6(N!Ih1V`FH#57M;a#_*Kx<3LDB@}+;GPM%XL`72?&EF)_e?9*
zt2VQ>F}AmvdEz0;N55EQT$vMYW+paXxwN;j`&i>E$C{5m-ON1GQgETm2tEZLM%z)2
zZsn#6N_JzR1wqI*CJ)`lZ{QPP5Rs>j3b!Ol$z2Bpt6<tyx0!jeg_N7&p^KBv@Q$_u
z6Yvh>ASv1FTk^P^y&2wo8&-U2w{XQj4?K$b+=wUXCrb=Vlc$B34BBc1UjKPq!lUQe
z;i+!D2Jd<Q*s<&xHhKSfnfITUJjuLqeD&qw5yk2?8?wd8+cjF%D|vXUxi%=^3F4*r
zwhI0haPm;iI?qHe#>v5r#1qjQ;G~-W%Oj|Bo^D>6uQ<U^jm{EJM@(=(g?ZNXW}>GZ
z^vh(19fy5b(9Wv>T9P0L|I~;u@hN%YQ?j#3cK(fIZ;-<`$c`IilK)Npd0<mxbn@Cj
uzClu-q(>W@r>>=UH%Q+d^?;DQ@W_SJjj^f5p4rCOY;)-7KL`+c$o~zr8l1}j

literal 0
HcmV?d00001

diff --git a/plugins/io_processors/interface.py b/plugins/io_processors/interface.py
new file mode 100644
index 0000000..e0488e4
--- /dev/null
+++ b/plugins/io_processors/interface.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from collections.abc import AsyncGenerator, Sequence
+from typing import Any, Generic, TypeVar
+
+from vllm.config import VllmConfig
+from vllm.entrypoints.openai.protocol import IOProcessorResponse
+from vllm.inputs.data import PromptType
+from vllm.outputs import PoolingRequestOutput
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+
+IOProcessorInput = TypeVar("IOProcessorInput")
+IOProcessorOutput = TypeVar("IOProcessorOutput")
+
+
+class IOProcessor(ABC, Generic[IOProcessorInput, IOProcessorOutput]):
+    def __init__(self, vllm_config: VllmConfig):
+        self.vllm_config = vllm_config
+
+    @abstractmethod
+    def pre_process(
+        self,
+        prompt: IOProcessorInput,
+        request_id: str | None = None,
+        **kwargs,
+    ) -> PromptType | Sequence[PromptType]:
+        raise NotImplementedError
+
+    async def pre_process_async(
+        self,
+        prompt: IOProcessorInput,
+        request_id: str | None = None,
+        **kwargs,
+    ) -> PromptType | Sequence[PromptType]:
+        return self.pre_process(prompt, request_id, **kwargs)
+
+    @abstractmethod
+    def post_process(
+        self,
+        model_output: Sequence[PoolingRequestOutput],
+        request_id: str | None = None,
+        **kwargs,
+    ) -> IOProcessorOutput:
+        raise NotImplementedError
+
+    async def post_process_async(
+        self,
+        model_output: AsyncGenerator[tuple[int, PoolingRequestOutput]],
+        request_id: str | None = None,
+        **kwargs,
+    ) -> IOProcessorOutput:
+        # We cannot guarantee outputs are returned in the same order they were
+        # fed to vLLM.
+        # Let's sort them by id before post_processing
+        sorted_output = sorted(
+            [(i, item) async for i, item in model_output], key=lambda output: output[0]
+        )
+        collected_output = [output[1] for output in sorted_output]
+        return self.post_process(collected_output, request_id, **kwargs)
+
+    @abstractmethod
+    def parse_request(self, request: Any) -> IOProcessorInput:
+        raise NotImplementedError
+
+    def validate_or_generate_params(
+        self, params: SamplingParams | PoolingParams | None = None
+    ) -> SamplingParams | PoolingParams:
+        return params or PoolingParams()
+
+    @abstractmethod
+    def output_to_response(
+        self, plugin_output: IOProcessorOutput
+    ) -> IOProcessorResponse:
+        raise NotImplementedError
diff --git a/plugins/lora_resolvers/__init__.py b/plugins/lora_resolvers/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/plugins/lora_resolvers/__pycache__/__init__.cpython-312.pyc b/plugins/lora_resolvers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f9c0d66a5e7fe6bc5f7861bdbceec721b55a8363
GIT binary patch
literal 172
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFz+t7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mwmXl%{9q73=5Z7bV6Qr55Msl%*CG
t>&M4u=4F<|$LkeT-r}&y%}*)KNwq6t1)9wW#Kj=SM`lJw#v*1Q3jj#iE2jVe

literal 0
HcmV?d00001

diff --git a/plugins/lora_resolvers/__pycache__/filesystem_resolver.cpython-312.pyc b/plugins/lora_resolvers/__pycache__/filesystem_resolver.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c7c833e48855dc912ca53340296e48edffa5257
GIT binary patch
literal 2738
zcmb7GU2GFa5Z?Ro*^cucJ3kO5N0K&NAvQ!nf<O^zNNH6!NTv#nD|B*v>*UPYXZFrX
z961!xJP@@~=u>zMst{D65=fPJMex{%I*=;qHC2(?O6^-DN202D=<fa4DUBL+Pq#ZW
zyE{8GH}ma%TUAv7a8uaN<U4Kvej$w0TsBes2op;{0urTws5Mei%H-)36J;nOqZKyg
zin>giQMi;l>P~s09tzOl9FW*~Ai1D>g|T!-y%IMMq7^wxaQ{I>BLZdk!fIqN0<UDD
zrVF%DX|bBBOhIJ$cXAOpA!|Cy#Vu`CkIgq*u@?_Z00LrSl$I#SBxs4AXQQmdKt^Km
z>w+$co5ed4oaDwcT#gewM*Tao0=1l`!&C&?=T<8!iiz=9d=iS1jN-I?3K<AZ94gl1
zZVBY6JP<KuwHy#A>=p807JI{LP)V4KMz-<%U!x&Cl?i3!OphKz6HxD&$@ZP>zuX5y
ziaZ|5<n&239hy><R4AilC*-siGEG6YWm+gvvQ~72!A#EZh@za9by1w%|8IYS&SWJv
zLL=Y)8rWz%e1rYov%iQrVAPDqG$^K22`XYbmV$=YJk}&R1obRRkHqcINHzfC;HUU4
zl6briC>#l$$jz4A881iXB$mySArF$=4%Q~~^oqTIj@d(}cbDDF3S~*rojrE{4~rzq
zN#Z$n53Re|#FlLOSob+L=S$M#V9upiIr3z+LzTz8%h52$;j+Vz6C(<I!bx-sUMew{
z4+4PR%5xG+_&jCu9eSOkCr|4Q4y^|q3dh@ym^0>?`>v9|?!5Z~$bn996ll~mO@T4|
zwJGrV=^17WOjBPo)0DuC%r?ZNSVo6PjH~H{JP}N4YTEE-U_ux5Tm~9!_<Us0XnHNr
zL=}mdm_8{ms0Q0(_{_AE)4C{2b`F};K7&>@gC(@VCRI6Y7L~!l84L+{Le0Q5o*-wk
ziW-v;$yI}ijpMn=m^LYR5J`JPLTjFc8p(p!j5bX%SW;p}^*{YFD(yNnfl4Fk&)W@=
zFKSfU)hLp6v+cVS;m!rbS?xRA{SN-T2DUj6Xj(e=#kr;M7vW|9`hjDs2aY|EpZm|;
z@NW957W)?Z76%pvZV79?uFa0FyWO|D?;gH=c%#<8Ufa1^+qpbeI5J#h=+5dwWjj_@
zTfaEHFuizn;cB7n=vqzhW}v08uV*a~e9*P|hH!W6_SilBOY!E&O9nKCw(#Md%coZT
zp$8|P`A=>%zgg%$v)VlPSbWy};jf*+jgCW`UETNDdt)m#&%63DyX|JX8gGWTDnRSO
zg1>vCrr~7^R#XTCUukXFr|WOG4-HUH4m1w+GEe$WVftyWYv`2wX`dU@f}4O9K^9Ro
zDntT0S%uJ*qIe}6Q|uWALp>sRWqwN3g{iLqB1K}x8xi0)I}&~E2=3;=7EQT&mbD_l
z!xk5C`8V1-wiq&odd=~L*MC!A_3qzxVWFjr=!xUE)L2ZB>?yv&-Cn3RhcOH#b+X57
zyWv@KH$(tVt)cckc9-zNIfLM)vs?3(aRXzNUB}lcog|pq%4_GSG7==o<@H*V=sZ<M
zl^i3mvmxuwg^1TDAz!|FcycfE5&Kf&r)7PTp9+URn4KBLy+}%3j0|5mA08c!h(m)z
z?+%M+-;406tfuqhkk_Ej>nb1Pr(%jM@%V;?aa~0@r=m(@LPdPJlFA2KcO%h}$fo1E
ztfprhc3C$fR2VEwPiaQ$f7ykaa3oMO>Gt8yaLF1r$*35ODOos-kczBqBlm?-hs@s)
z40O)*E6^4g`4U=5W?%OfG_;nslp|PLiH>5e-T2i=7MfVlxNkjhVl{B$+Q<*?z-CRI
zQ_Q#0Yc)OJL>^syc=6GthnF4?tR0VR*0<uUuRC32n1<>tz*JRldq9(LukCqb{|(=!
zr*+*ET=fJCp|g)KuX!Rb*a|c41s`g~$C;iRUh=;YBymEAu+XS8d4gj>Wc`>~a9Y1p
zZv81ClKF@P#tIQ}1_`7qRjT1RZI$={I*unuifY8)Erz0~A_u6-AA$Eb(EJk+eg=cv
UTnpvD)w&JvQ0%Xwe5Rtm0o<;A!2kdN

literal 0
HcmV?d00001

diff --git a/plugins/lora_resolvers/filesystem_resolver.py b/plugins/lora_resolvers/filesystem_resolver.py
new file mode 100644
index 0000000..8d94a67
--- /dev/null
+++ b/plugins/lora_resolvers/filesystem_resolver.py
@@ -0,0 +1,52 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+import os
+
+import vllm.envs as envs
+from vllm.lora.request import LoRARequest
+from vllm.lora.resolver import LoRAResolver, LoRAResolverRegistry
+
+
+class FilesystemResolver(LoRAResolver):
+    def __init__(self, lora_cache_dir: str):
+        self.lora_cache_dir = lora_cache_dir
+
+    async def resolve_lora(
+        self, base_model_name: str, lora_name: str
+    ) -> LoRARequest | None:
+        lora_path = os.path.join(self.lora_cache_dir, lora_name)
+        if os.path.exists(lora_path):
+            adapter_config_path = os.path.join(
+                self.lora_cache_dir, lora_name, "adapter_config.json"
+            )
+            if os.path.exists(adapter_config_path):
+                with open(adapter_config_path) as file:
+                    adapter_config = json.load(file)
+                if (
+                    adapter_config["peft_type"] == "LORA"
+                    and adapter_config["base_model_name_or_path"] == base_model_name
+                ):
+                    lora_request = LoRARequest(
+                        lora_name=lora_name,
+                        lora_int_id=abs(hash(lora_name)),
+                        lora_path=lora_path,
+                    )
+                    return lora_request
+        return None
+
+
+def register_filesystem_resolver():
+    """Register the filesystem LoRA Resolver with vLLM"""
+
+    lora_cache_dir = envs.VLLM_LORA_RESOLVER_CACHE_DIR
+    if lora_cache_dir:
+        if not os.path.exists(lora_cache_dir) or not os.path.isdir(lora_cache_dir):
+            raise ValueError(
+                "VLLM_LORA_RESOLVER_CACHE_DIR must be set to a valid directory \
+                for Filesystem Resolver plugin to function"
+            )
+        fs_resolver = FilesystemResolver(lora_cache_dir)
+        LoRAResolverRegistry.register_resolver("Filesystem Resolver", fs_resolver)
+
+    return
diff --git a/pooling_params.py b/pooling_params.py
new file mode 100644
index 0000000..d1aab98
--- /dev/null
+++ b/pooling_params.py
@@ -0,0 +1,228 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from copy import deepcopy
+from typing import Annotated, Any, Optional
+
+import msgspec
+
+from vllm.config import ModelConfig, PoolerConfig
+from vllm.config.pooler import get_use_activation
+from vllm.sampling_params import RequestOutputKind
+from vllm.tasks import PoolingTask
+
+
+class PoolingParams(
+    msgspec.Struct,
+    omit_defaults=True,  # type: ignore[call-arg]
+    array_like=True,
+):  # type: ignore[call-arg]
+    """API parameters for pooling models.
+
+    Attributes:
+        truncate_prompt_tokens: Controls prompt truncation.
+            Set to -1 to use the model's default truncation size.
+            Set to k to keep only the last k tokens (left truncation).
+            Set to None to disable truncation.
+        dimensions: Reduce the dimensions of embeddings
+            if model support matryoshka representation.
+        normalize: Whether to normalize the embeddings outputs.
+        softmax: softmax will be deprecated, please use use_activation instead.
+        activation: activation will be deprecated, please use use_activation instead.
+        use_activation: Whether to apply activation function to
+            the classification outputs.
+    """
+
+    # --8<-- [start:common-pooling-params]
+    truncate_prompt_tokens: Annotated[int, msgspec.Meta(ge=-1)] | None = None
+    # --8<-- [end:common-pooling-params]
+
+    ## for embeddings models
+    # --8<-- [start:embedding-pooling-params]
+    dimensions: int | None = None
+    normalize: bool | None = None
+    # --8<-- [end:embedding-pooling-params]
+
+    ## for classification, scoring and rerank
+    # --8<-- [start:classification-pooling-params]
+    softmax: bool | None = None
+    activation: bool | None = None
+    use_activation: bool | None = None
+    # --8<-- [end:classification-pooling-params]
+
+    ## for step pooling models
+    step_tag_id: int | None = None
+    returned_token_ids: list[int] | None = None
+
+    ## Internal use only
+    task: PoolingTask | None = None
+    requires_token_ids: bool = False
+    skip_reading_prefix_cache: bool | None = None
+    extra_kwargs: dict[str, Any] | None = None
+    output_kind: RequestOutputKind = RequestOutputKind.FINAL_ONLY
+
+    @property
+    def all_parameters(self) -> list[str]:
+        return ["dimensions", "normalize", "use_activation"]
+
+    @property
+    def valid_parameters(self):
+        return {
+            "embed": ["dimensions", "normalize"],
+            "classify": ["use_activation"],
+            "score": ["use_activation"],
+            "token_embed": ["dimensions", "normalize"],
+            "token_classify": ["use_activation"],
+        }
+
+    def clone(self) -> "PoolingParams":
+        """Returns a deep copy of the PoolingParams instance."""
+        return deepcopy(self)
+
+    def verify(
+        self, task: PoolingTask, model_config: Optional["ModelConfig"] = None
+    ) -> None:
+        if self.task is None:
+            self.task = task
+        elif self.task != task:
+            msg = f"You cannot overwrite {self.task=!r} with {task=!r}!"
+            raise ValueError(msg)
+
+        # raise deprecated warning for softmax and activation
+        self.use_activation = get_use_activation(self)
+
+        # plugin task uses io_processor.parse_request to verify inputs,
+        # skipping PoolingParams verify
+        if self.task == "plugin":
+            if self.skip_reading_prefix_cache is None:
+                self.skip_reading_prefix_cache = True
+            return
+
+        # NOTE: Task validation needs to done against the model instance,
+        # which is not available in model config. So, it's not included
+        # in this method
+        self._merge_default_parameters(model_config)
+        self._set_default_parameters(model_config)
+        self._verify_valid_parameters()
+
+    def _merge_default_parameters(
+        self, model_config: Optional["ModelConfig"] = None
+    ) -> None:
+        if model_config is None:
+            return
+
+        pooler_config = model_config.pooler_config
+        if pooler_config is None:
+            return
+
+        assert self.task is not None, "task must be set"
+        valid_parameters = self.valid_parameters[self.task]
+
+        for k in valid_parameters:
+            if getattr(pooler_config, k, None) is None:
+                continue
+
+            if getattr(self, k, None) is None:
+                setattr(self, k, getattr(pooler_config, k))
+
+        if self.skip_reading_prefix_cache is None:
+            # If prefix caching is enabled,
+            # the output of all pooling may less than n_prompt_tokens,
+            # we need to skip reading cache at this request.
+            if self.task in ["token_embed", "token_classify"]:
+                self.skip_reading_prefix_cache = True
+            else:
+                self.skip_reading_prefix_cache = False
+
+        self._verify_step_pooling(pooler_config, valid_parameters)
+
+    def _verify_step_pooling(
+        self, pooler_config: "PoolerConfig", valid_parameters: list[str]
+    ):
+        step_pooling_parameters = ["step_tag_id", "returned_token_ids"]
+        if pooler_config.pooling_type != "STEP":
+            invalid_parameters = []
+            for k in step_pooling_parameters:
+                if getattr(self, k, None) is not None:
+                    invalid_parameters.append(k)
+
+            if invalid_parameters:
+                raise ValueError(
+                    f"Task {self.task} only supports {valid_parameters} "
+                    f"parameters, does not support "
+                    f"{invalid_parameters} parameters"
+                )
+        else:
+            for k in step_pooling_parameters:
+                if getattr(pooler_config, k, None) is None:
+                    continue
+
+                if getattr(self, k, None) is None:
+                    setattr(self, k, getattr(pooler_config, k))
+
+    def _set_default_parameters(self, model_config: Optional["ModelConfig"]):
+        if self.task in ["embed", "token_embed"]:
+            if self.normalize is None:
+                self.normalize = True
+
+            if self.dimensions is not None and model_config is not None:
+                if not model_config.is_matryoshka:
+                    raise ValueError(
+                        f'Model "{model_config.served_model_name}" does not '
+                        f"support matryoshka representation, "
+                        f"changing output dimensions will lead to poor results."
+                    )
+
+                mds = model_config.matryoshka_dimensions
+                if mds is not None:
+                    if self.dimensions not in mds:
+                        raise ValueError(
+                            f'Model "{model_config.served_model_name}" '
+                            f"only supports {str(mds)} matryoshka dimensions, "
+                            f"use other output dimensions will "
+                            f"lead to poor results."
+                        )
+                elif self.dimensions < 1:
+                    raise ValueError("Dimensions must be greater than 0")
+
+        elif self.task in ["classify", "score", "token_classify"]:
+            if self.use_activation is None:
+                self.use_activation = True
+        else:
+            raise ValueError(f"Unknown pooling task: {self.task}")
+
+    def _verify_valid_parameters(self):
+        assert self.task is not None, "task must be set"
+        valid_parameters = self.valid_parameters[self.task]
+        invalid_parameters = []
+        for k in self.all_parameters:
+            if k in valid_parameters:
+                continue
+
+            if getattr(self, k, None) is not None:
+                invalid_parameters.append(k)
+
+        if invalid_parameters:
+            raise ValueError(
+                f"Task {self.task} only supports {valid_parameters} "
+                f"parameters, does not support "
+                f"{invalid_parameters} parameters"
+            )
+
+    def __repr__(self) -> str:
+        return (
+            f"PoolingParams("
+            f"task={self.task}, "
+            f"normalize={self.normalize}, "
+            f"dimensions={self.dimensions}, "
+            f"use_activation={self.use_activation}, "
+            f"step_tag_id={self.step_tag_id}, "
+            f"returned_token_ids={self.returned_token_ids}, "
+            f"requires_token_ids={self.requires_token_ids}, "
+            f"extra_kwargs={self.extra_kwargs})"
+        )
+
+    def __post_init__(self) -> None:
+        assert self.output_kind == RequestOutputKind.FINAL_ONLY, (
+            "For pooling output_kind has to be FINAL_ONLY"
+        )
diff --git a/profiler/__init__.py b/profiler/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/profiler/__pycache__/__init__.cpython-312.pyc b/profiler/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c73de75a82c487e71e907bb45a79d69fd2f06f9e
GIT binary patch
literal 158
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3J_%7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mwj`<)>xlq!#JN$7kkcmc+;F6;$5h
fu*uC&Da}c>D`Ewj#t6j4AjU^#Mn=XWW*`dyl-MQN

literal 0
HcmV?d00001

diff --git a/profiler/__pycache__/gpu_profiler.cpython-312.pyc b/profiler/__pycache__/gpu_profiler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f460be7fa66e12d1c0327a8045592304bb64814
GIT binary patch
literal 2114
zcmbVN&2Jk;6rb4-$FA4SwsAuWNxIHQsYBzH(n1qJNLJdUDv|{PRGQ1mcsGfIy=!LI
zIJOcLp&o+x>MegmmA?Q^<c8o9Ln2439Evy~ZdP4Hm2%*{wbyY{b77=?Z{EC*nSJl~
zW`2%D&JY+m;mhpz0wKSn;17_!(YOw5i|9nBIg+OfloE~@)Zn&h(_n$;$UM=x`$Xrr
zxz?Ic7UJTcD8#87&YD?A%UMfH2Fo-JnzUt28dpKyA_iHYI$7ZK07MfOc;Gy60k{BM
z1TF#(lxe)j?VBy?>35j5n9UjNE=v~*21{jHXY#^hbRNFOlows6Yee%DNOVpoIhyA(
z93^>v9sX(!_5NRzGKur4IfgOfqI*s&w06>1(KNH>lH2E4EVG=*z$p^G(iKp2gKhb&
zh6`=yIOhtsky~^lCzfs8MNy8Ds*^9Mg=}HcNwX!xnOrU2n3?|ghN0%NAE|}1vuv5_
zr@35S^*2zL3dMHxM4{{kHO))5RvDaqK0gUxi)FV5fNYS1*yT-OFF5>1@Y-(h+N0rD
zHiiA*OAXMG6WJ7D!OP}PFxes@vPM?W=+sz2n^R-EB~!o<<k+t|aRR>KO30rbbG?l)
z3e^}Tj)zs$j}fM<(+=;*v6ny7`8DdJk&=6W-*x&KEw^}ymdGl9kCbR!NWEXV@E#=G
zF?412gPTdkPi`ePmj-a@ieo7@8k|(Wu8iC99u|fjUD4CC9-If7KzBn~bJ5Z)Gh?`+
zTdNtP;AAb+l}c%b`0*4EIVPbCHChm0XF+7=fmAMbtDm>cIZ)eofozaECx&j*14*t)
zm#WgGnlxUO#`mO`560u0H}|BGL+N}?8mvl#yF=IarB|OG_6|HI6kI$7y6h^mKfGI$
z=Bv{DvpSEeBl`lx{`|EW@?9u7!tZeX$svAcNQ8NJK>P#dTmJzEHthkWU2-sOjTHpc
zsc{UHj^cKM2K6r=fE3@^*5&^L6|NgpzM5=8<`^oYr}pZA5F*He8|XBGluiU$h35e@
z2M9vcG+`vz5QX)j97TeKVEss50CEB&FTz4)pgTsa!bLQ<fk1zUdu!p?FX3373q;fd
zIa-rPtMX_~zEYL1?8y^{a(_)$s<N^ho8FUW>OnH0J`nch%k^F&jXZr4B+((jOyq6q
zS)%Xm*xZk_Cf}*bcMvn6dR7nkZbx<;_Wedp2FOkzlvMeh-u~nSzcVf-r^wEPh$||O
z^Qlnsjgyc<n0R;07)(4!b>8Q&hT|9{@D6a5#4Xb<GNawKO4f#MZ5E@nY?z9@Tyz}h
zI7PQgW+D}*408tzThGP~6tC^vAX=hP_q)^Aj-nfO{RVjyl)epp5&AmJWRT%@4=}?i
zGBXA56WqjRI&Wy2dq&gpmR`)^T+*~pis@Wa!+OEX>vr!*Y!JkU#EaFu2(U#M66^sR
zF>s$WI8nUXI2#ae(}o-r)hAI-j5dAHG6k<y7~hCQ^BQ89Pd1Fi!<82@h9Vxh_2X|g
p&-WI?f5VK}=m4dq^sgYHW50!>4?g@gG`tb`J1|J2j|mXZ|6js7&tU)n

literal 0
HcmV?d00001

diff --git a/profiler/__pycache__/layerwise_profile.cpython-312.pyc b/profiler/__pycache__/layerwise_profile.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8d0c3b623d899c073bf2a50195c595c49c5b2ab3
GIT binary patch
literal 19953
zcmd^nd2k!onP)f94FVuYfFyWd;C+KSDBHS4k&<OwqGU_5W5gbWVmBqy0LU~z9V{@`
zOtfRt<E*IKctuaS%JjrlrYGJVdXp_{Yf`n!WNM<R-K}8@)Bx%z8)ep2GyZESQ;y?Q
zZSDTP*JuDFK`Zg@f7_xyyna`|_r33aulv8`<=Hu00pZU^#(OyKf6$F_S(1s>MV{lX
zbEi3pllTDVqhC{i51M=?p3>%kIVku9mKFkH(BiWMb9^~LtIx{v#DFbm_t}HFzTBY0
z=U{o3KwdE4mmhTcoI#h*#qx3j1;IjJVX(+o6m<LCEYBJ!4wm>zSlSjS4VL-Jg5|z)
zc5e?<1S@@&!75)>u-aE0tnt+ZYkjprkI%!(a|3n3dS5-y+4PY&_!{LL6Za%1<z3;V
z{2!Y1`Ta0CO<!}e)QM8phSHW~X#q+LH<Y%@t#Zp`4#)Z0WQW`?741Q<$rf(3DBjSb
zBUxI4(o(tnhvs#o>0~1<Luq-s)Yo;1Z{XynMo!7)ITI(>OO796b?EXnzR11t?F-yR
z^NZXCzOCX@${c9pwOmOa9-Ih7q>-TrZmoTTfxzIIfZS%*EQ4Xn)ojvWWN;`j7!GUV
z@Q56cP-gB8UDB+_$0H+Sp}~M=J9TMX?hT9#hEZnkm(Pz3$&{rz{LhSp<jB~e^KvMn
zIsGS;vEh+`tUM=&@ldMlXGN@Xk^j)eaakD&qV8azZ!9!Ca#qVvwP6)8#=OH5p&@#(
zo?+5lMz6idK0gw<q~(n3&uO!0j#D(96Us;^A}g9prh)j+4Tk-}F=-+oYXy4FNZ214
zQ-;p@$Ht8;y@Fqn#}%zYuVqy6hk=n-{1IhvNY?U3LK1Zvj^H6@F~EWo0py<>3rMnZ
zOn-`Hd@v*phKC64#+6)DZuJf1T<2uY$4i{gbefaRvLNw9B$CM|$`*+$M;du%%EQ9u
z$kq>q)Y95yYpRCGT3LK{IT!VF7@;{N>lH3V$a%6uvSr-o<KCWe@4RGc%f(9R13#t6
z^1zrRYa&CyfQE@Em@H=LOj3@2cyI`K0XYnv8wp4#)i_OLs2NI9A4bh_G+p|?Itg%{
zi*lp*U4M-x`7SeG;wHF@d>FhM5sm!czqNrTiGQV)<4$rPm<AMjNSj%y!H-f0pqT@5
z=mTC8!g63ZOoR6P?r?V`INm)zGTs##RL;tgu8R|o?|kBw$K~$8$eHf(OObP9q3-j6
zK(ISWYf5)u@RF=t7zxY%WR`avqzK9i$b-X^rRz}YO%^ocap5fhm%01SqN|fLlW}Lg
z>a3ramYnUkozHwYwAlD@`$z5ZZHLrthhpBtx9U{yGfUQIR?&vbj^a*~T<0Pw^aEX4
z5Nn_YNZ|+COiBq_=}2ioO2>oJhNPC8!5)*9StepIMmseu0JzM3;`GeB->-PLBIfK|
zvUVyR$Xzp98WAIipCIvv5JW^k19puXYRJgIFD>&$Ug_aCBQa}6<z!OgiNi*jx?5Ws
zaTxcb`9>=JtCLilY2Z^rb(@u8Pcugb&ni?~v*^+f>;PdXk+3Dn=%+g+mnsN-r~7-A
z_2?#=8Jds=v(gL|c+oa|7~nFuV&U=%u0B2U^woixfwxEFHQg%y9NnLBd|n@)aJjGB
zui4`+kLvQw7pSg=xT{-rb^mzR$NN9pueuJdh-RCetxcOtv-<s^!JzE-Lo6rdBhn7P
z|JxIT0lh?V(XgF<|6nLI78xWl9QON_TI4D=0#I|9R$v6ukXTD;pnEg!G%L6Q^Nw6n
zh)NWigYp=_2ON7oqco+OatTn6VFln{arbk}V?ueN-Fx})^pU0FX4TOW6TEj@yKYF!
zt$mk|OiN2ejcR^VOz2A#6kR?vz5Tn#?~8d4OuTrMUo~@<{1ui2sx0}G+m*`fO6Cco
zo#j0+A*Bz81~G*Hsf%cpu2mXzc6lv}kh&%&bt%Q<wQNC3pu9^W^ijddiC}P0xpWf9
z3m*zaAUFj=t>&PG^+%xn{1ag<Z+s}iXn^H_0Ym4<hIDifwB;y|qdVmZ0y_y%@5(L!
zXz0M$U_>)R-6{Jhm)K56?Ey*=pz()^;DK6u-glo$6qd$>(nL{NOejkfxR(XD-iqpG
z#{iZ50T>`$Fbpuw#&pyrOIwcSgp!d1X-p`+=vT`f8lN!mpd3Vw(np{HV4%&i>C}}&
zRBPRwk5C=~$`6ykH|AVW5)(?+%se;$%G3J9sexusk1IP82>qKP!JJgtIx(0fGueLz
z8ZMdJL>M;g0T~*Wh=DQ90OO~PbA1|5WXr7VrqsH*9;G}2RLz)cZgET~PUIKP?o#t>
zVnR*AQ8MRN9o5T1wLVvBux5UScwB|0vB~^kf{2poL$jekd=@fEWSeZKSr40%b7xDw
zp>A%nu47GIMid+B=AqC0WN#KC@(nedsNqW1VCK$-8U-0Otkj2O^A*BmvL#o<&hm1v
zaK0j`PI6#$ZrQ5OVb}z3K=c)7$<IfAiR6^ssN=dK_)3%M0;J2NLe@)ps+S_<R>+m`
zHR>fd##04sRqLfRcBxpdk*#NW>W$6CO=BAtq>?LQ%5bZdN-;){1gqay2fIHXPp&|}
z^~rQ4(hX7-N*kqWz$U52m^sF?;hE^Y7A>0B)ykpgqs)V{mP@v_2Cej{Vb+|`jcVO?
z4?_vO!fbn3$Yjii55p)FMnWSIt=cHjt>&RIMUewcc=>~a<64P7d%nZaIT2W$S^?e3
z0W!5CFwQBf$RE~)XGZ3L<_b*&{mMir1nb)$mcJd&Ze>WA7_%}`RuM9imw{wvGnkFs
z^zWMTlo6V({1T^hAs?PiiT}(5>|y`<*%v1BF+2Dl`oxU9^jyOmjDkGBe|#()@e_vq
z{>i3Imc_fK+RGSAm@Lf8T*B&zTN_ks!?LxBrE67d?XtBlmA+%GV<JJz8yX8t1VjD{
zBU0pCcqr3yB<)W4Sv>_TW?GmMFPYds9%3Php(#_8R|-vB)RfKolyXM6DE}V+uX%>`
zELerrn#H~|gib$q)qGVLGN0v!OfR=^+)EhelzB>s3ZsSy!$6Ho5?<*CDx4_IV&&<j
ziV!tNg<;b*(;IC9HziVUkvyY^NXq_;nhb}1luX@q7e-yQE(^C&Q4+6kA6kr-#w>X5
z62{MSLwMGd`2uXnflo;weM)xc2O`sm%2P<M(}c{2SwrZwEcD>jGJxxd#z>|pHwm<o
zzXkmR2t!{O(D<mvcWJzb=?{247Ttf%wD+xh0)xRb(%`<y-J6lwIC<1b7LAaL?cEcA
zg%SwwLqcynPNOLVxXdl|EjHY+eAKCS?z>rZyR)AW8lLS)`OcRR6(EJyX4eE3cCbv0
zBk({>KMdIskwY0wubf6r9U}}kZn|Y!J69hU8<FM#voP0O8N0wN+pz!4U|5#?V<EpJ
zk4Mfy#kNvYViPFjHFU3utcqqvW6h1I1>y&2stYC7f0(G#!!F%TD%gOO$+q7ce`nBH
z_y)jb?p}E{4B7d@#rm5EZ=HE)HdWZC^B-6^M|r|gH$4z{)T#8hZT{G8$2M57wGHu_
z$JCm~79;V;kExFzTdo;+C<-3?uWJUb*=NPsaKc#_ch;)T+WETM&W8E$`>($H>WzZi
zExT4kF288D@AadJngOJ3)ektdduZou#ozbOhho+paci$??M*mbamQBGu{Ggpyj$Im
zs(IU1IdfkA=VsAn|8g}Ktr$9fYVJJPXjvmO2un<6z$MEjGt7u(2&jYW5fa1t|4?Fp
zOCBLHM3NX8GNB?R6LR&@a$MRw%#aCAqcr^snUGCVh>`^|A?J}Y!8Y*e33R4>3*b}g
z{sTc53<oK<j{t_seNCC53{hKVOrAw5Lk=h-xS!nn)g)}F<V}RYpHSzc1Ud-3LV)qP
zO$kyuL|}}-^90z87&{-JTM{A4w*fLaRUx-f2@{9_XeBA;Tr-vp>{+C<=bB2B9e=>=
z=xN~(0a7elzj*NG!9R>akE@R#U#>X;2CWB!p2)_a8C-dSxUv>pS+8^Da&hxQe$4uK
z+}fvF`!d+FIXhd{C)v_eeb8;utQ34DZ*vWUlHbl4^zV?!RO;E(Hc0vFsA|(yb5d2i
zl8k4XGDqmi?24v*2`Jw}fz+XS%48@>rqokRXS9J*<&7E{Y834*B#khOW*V0?TR-C0
zhZW3Pr!%HIXbzesGUgu&pNE=dTHrgB$NP1nGD*W>s+1w#tK^I0V~U~llC~PDKI&w$
zXEQ?js#brBCxo8`07d0Fuf8<%Qlh0J-m+h9*?&`rA9!9p@ceSi3(Jmgs4XwN_59qk
z^X506pY8kJH<wyoxb67Hs@arppEf}Q*mAGhW^A*qcdV6Pu0lA!$OCfRzc22sw*P;!
z*2-l}SovcDX>meGP?!k%E>i0kv?jSUhD2Duq>nvfNjGWt20iLUfYhR{)6ppr00l}S
z;P7nkZ1|y>D=3`}znPn;Iq{i@l2x<FR@bq1b#qaqyoTO2iy}uRl+YS0kS5G{`E?}7
z3Ix9*wf-8Re5$wZLawkb3%3TBZQ6!Z{JP6%BbnYdpM*a&puB(@@QbWLIWkCFN?P6;
z{Asxv{$88Fs%w?7$wKE5G|Vvmuu<bD3sF}XjGJNpXX-7jcwH;K!DQEF>zTFso75@k
zBLwElI~GpGyAG;d2baqF64iC_>b+|9-WyVU-}CCe=VR3`Br0p;mAlo--8cH<d!AGG
zJQu4x`5;Gd*;hCr8DORGFKo`R9|mPu383ROoS8C{{stx2xwB*pasAxOKwE~Pg0l6O
zzO$k5Z<It*E1GQ;qp2;UDKU~`^b!@bxl3?_cw^TwD*9720aq@Y92Sk$=D9as6yWfk
z<dh~n0a}|7s0l-3*b1>qvOG>Hg@O!vu+K6$J}!qORJ=xcgcV~$4aPRZR9ev|y@g}}
zA&g09j~?G7Ghy<H&6fC4uE5)9&GzRIQnz#EmD72@sA!sbdiv1p_O$i9^|rGy;VQdV
zS^Li3xAra+#VWg|kKXfiEd=7;{i=8W&Ei{*nCJBL(Pc+<!ciV~cvOdHzUq#{yOPUQ
zHm^81SM`#$ikU)d*p?8?*j8Ws^v+Ghgc5ccD2{UeR2~>I3+s)h)T+@IESyY&pb&VU
zBKA)$YPwdG&$hfqTUxczls}x=$`~7#e~SQ*R*!+?C^RKKR{0#I$cWV}Ecg@F@-qV?
zBa%YwhD|7@iEEG!(=0v7wIyjf>D_c~vqoC}k~(=B0Ajf7iJ!P*UHhhmWovt)xIA9m
zrWUuwi?^u7TmG?l+w>u3NO@I<cVQyl-KTc<#kvovj>B=sG1YPGmVC!?>VcUn*}ie%
zQd~QS2ffC<W+u*^;rzJMubHe{Z`o`p1I<%B;)K`$j--}WGDWOLe-fw12B*!_h_p)P
zD|xSjSFx;ia-U4xj2W&-GQ@@DaL{tJi39r1lx=82QT!pq)z*j}>YRlR{tgY_G;OvQ
z2SI~<2Zg`Hr3Fnir5uzancK5b{=-z1gn4yUpsmz|jLCqWve0Vg1VWWFmTVE5N41NZ
z7>#FnVsbmV4BN>mTF%Z#1{x(Z?ek5Uqh@6%B3h5Hoo6KF??tg}@aIIspF^}KDUb;R
zUuX84&jJe$K|Cd3!NsTmVV#r-Sn@o!<T(S%7N8j%Ma-mc&{3T=Vuyy85i?4Qo%FIo
zl6O%*yi&}5H2&fS5Aoz97&9Z(nT`_qrC~Zi0p%VZ45YJ-;L$BSEex6l_bzwuzsWCm
zA7tEzAhS3Tii`w|4Scrs*g#{mYBpGKuoWT@Cp21pH?fXVBwdtK1eys@j11do3^gSA
zu?GjHU>lQ~$j&ind20s9<WiWlCQ~_=FY7wzJ!DMw{$Ef3N9ZQ}4*<V~_OWuV;;XOD
zyvkxV30KJ{2-}Fu&gOfi%?qb*>|8EAG%MUKs!F)4<L+kF-5hs!sqU@?>5hB*eRo;h
z-K4sk;_gn>-MMgT*}W}M<(akJFR8p9x)xdxmP$HrmmK-AdGXN410M~<w)EZnwz}oW
z^pkg;C2#G-6A~4*iOR-%6+MZvYPE@6+scxMIhL}*Sz#rgE2xOO>Qz^L+|{PK+7=p@
zUEO;3<u&iryj?RZ-gQ;a$@4GXadkspR<!CqKcgQ}$39a5rLenG=X{cz0Tke8o6Bs`
zVE=*TunDK{6tL*Opp1=06vB8|0Qi>2b3k7NAMPgGfB!}JE9!!1;Y&ott7=FolxHY~
zUbVP4R@^sjht+<BKgvHaSJ}4QE2>*zzuvt!1=ZXC8@gHD!xh&~_uqAt&o$n0)MCoT
zwfdC*0==&hu{2`hw$*<Ec#Xf#&G4g0t-rE)+>bc!kQB)fVI;=aUD?$6CQo*(Yl_>m
zoFP`GOw;@@FY#BbQB!})n1BbL7Jg<aRU7ucX<&n(*^VAp{{z6A{4*R66F17eJiu%b
zel)4DGKXNO!?XpI&0-<RtaL!SrVQG2A4U%|rmU#Rq8nImkf#5Zzs^IFo*+s3@5~o?
zT?C3s4?1TDH<TTe>Loxj1a6JVyG412?rG`6wA3DtE+jPDp0jcYB(Ln7Jg_O1;)s#4
zYjzg<-;C}vq@vM-M!g>Z`0c+iVZjM*`>%_;X8DBEb#-cH>d#(%ul@b*ce`&pw=NET
zJp9q{kIvm}{CWFN+kf8u)9%}kJ^K*Bf&9D0U0<^3*mrx~y`_Be+={Xl-Li8l$~H=o
z$)=exF6GZDC147XBww;gYGsB62ZKDh6_~W`tRo1P58_Y|<5Uk=RS%FC`?F1RbH6NW
z^<|7E{4D?o%S5j8>aLkxSNF~Ad)pVU_Nvw1+qvFEQE8%~CEjpIZ8#KfcuH+}3ichH
zk%>E+R7caig1||meaY%swdm+u74bW5Mcmuvo;@-r#heXG)&||$Bc*9vw5*JaNwvb-
zgQ)~N%_xOEHf>^7ndyq-b+W~v_6;L~eBepXbIfD+&`}Q$9rf^xggn8KA!RHq!v~eZ
z46$oCha7sQq8E_Z+%{91XT<Cdy)l4`{1mSgfm5i*b(g^@5<dy6;v~);lJl9(Vu9TO
zs|mIcO%MBJM(>l9YkI?}JAZKZ|Cv4Fz|{l#X*)qb^s|Uu_`wq(4xAkFhr;Z<1H3=t
z8qGzNpGirYduSp!L0iY?5o9yY$0$Fb%C*SYScc7L*tlWT*EKdVxd)e_us_EA<nx<y
zVYV*QT=<A5euBPJgo&ek(buDkr{X(~t2>S_oj4WSaeAo^e_H_)r7iK&?P}@vSm}-%
z7PWNWl55}nmewU#BVr5hy!`gdvxgGyR<-k)TZdwu&#7+wwXT@CnvVOW9ZRl`q#>kh
zO0(`V5dsyO9g{uZO6o?fIO~|dg5$Db;Mde`6#x|GiY3R^`Qz^2aQJyp$ho=~A~9#r
zlC?+YmP|oT`iODMI1-t0Wsp`TSD}<HZ0PbsCbpdmf@kJ?7E(=f6e7jNh!n%nH;C}0
zzLkm`BLa+*$_O&)rU&h<84l+ANM|~jnhQ}S96C-D*<|acM6#~t|D?W1V#3dK7T$En
zd!M`A`&_K(q}u!34fkw+-0fA}-i62=ch6Gqb86AanDf+<_0*TQi%v4}`2Di&)-^1j
z!rObmCP|ss%&!TriLY6%b0ggAB0S1WEaSm+87%y|W!j=^>emGuoo>&8_n5-AWKLTX
zx+f_KX+JaVWs<8uY=Ms{OmovB&Vz{LXEM(=wI&!x7MlSAqJdTqrDVOYyGB#?Lb`zY
ztf@6L))MNsNucptzk2+`0%R^mIc&yeTHfoRA9&w{L3TZIj4q>Q`gfBtX2|ljV}yTg
zTWjqQx|z&&Bk?ATy(r8*lB|%gKp!)YK9x|W?}VB3AenO=UFr0hbTs-<`;m@D#_^G~
z&{}hl@HgltOhY5x>GsU;SKZqdht#5-OOBms%awVH>F}(6mYX=)xX5W|6AWRhZwim*
zZ3AOUOQ!RjO$rz_r_3|C*^IihXF4T>o<N;!0fbag0!mL*8WH0J^4DJm$3U5h*}_^z
zxvmuPGz31Prl@(CpF~$skfs^Oc}{tD#t~(wwz3@%p0Y$O7x~dFR2CITWe%Crw90B0
zt{)|c#+0m?nkhKO9<^la)xciV;!km3s4r4#^co??W)~fGVg00{!t6vJ`6;;0Vs8!G
z^2s%y%0bwp5~f3iUYZF<t26KPbTr2p2afjS5PtTc08&3od&mpOgefb=VvAZ0Tp|RN
zd^Y4jfxsF0U>(G=euUmwbVH$)Kp@~4Wz-R%Xh54&_x_o8Pg7S&^ec-5dI|iP0BduQ
zQvC#o!Px0Z<p8BvXB0GO%VV~Q9zeNCMXU?f@ITTm^`lusGESIK2;m2GTd4;m*X(bw
zlU|4^=uc{;Y7V0UZD)i*4$M>`a|QN_VX^!S*^|dNRYu7tr4Gr3)13bmgZL7ihWGJI
z4v^LBnHS!-ziVH1cHAp%U2y+Z#RnC!(w<o%fukk0JJs5qHyUHL`>#0?O>Oa}{c00-
zCu2>AmJ0A!2gvN1PPMc%R_dij-SOJpYVGb=?cSRfwf68e$NkdE`&DfVrxu=6tF})c
zOE|0M9jdc4QPw#BvRbx1Uba&$+c_&HT*U}5+;-K^2UOR#JFa?`QFq%_H~*~aYQE#D
zyW6~d@ld?yu-bDt*8JqGc*oW7NoCu;iVhe~iKeYod^FbFn`mr$XcH?-5OJ^ZBr5A3
z7TBr^XRQz1oVz07uDE{u+VQx%U3IrFJhANVNq8Tdb<Dl2x;pNcSHDyJb~ObuIuh>k
zxjhScYUN`$@;*143JPI?RkUDp0CF==E%Gioyc<0P;yNZ79|E~=A{v|-Q~N4;ryTsf
zC8Oz)lF^*q!pi0b8`2FXzZg1<p0h~Gw9JJ(wJ6&ldx%)qU531bWVB?{p+-5*qTv}+
zW=X)lK9^03VI&k}COon$Qf#Ckf8lg6xs`G~q9Q`BNvkBvpQS@~N!gK-TO~&O^zUd&
z5~lOk$SrO(ORHqqH7Tu7pHw|AJ?t9Ifqcpt82J}GU#Um7E~%)FG6-NuDi*S=ql~<4
zl1g)>93=KS0KBAiva5l5JWAjQ0qRQMKXGITt6s`wa_T8cu{KO%{SDpz06;6(MMTEN
z>qaRRCL@o@q@-NZgKj@Z?&PtrFP5@AvxSFH`W^a(aq`dtp_F`k1wlwxJ~GPMHkC}X
zjzmrUJEL#m{g<6;&CVPBYR!S!+(cQ$HSz0-Eb6e9dZ>EG{+9ik2m$s<Y16%urUcIB
zc{&nxU3crd7ag(sy@;4T%(avjB0O4FlPIrzSY$8DpFZ-SgmaZ3dVAe@%^7z!Lwe0$
zTy|~A5HM{EO^aoBT)T9!V&U9X)5mqs4zH-~0~++GlTG<+N|TypOOBU`CdP4Cl2od`
z1%8TBq^sDmNQAXXxhUk~D6~q-&j|Dp_*(-18GuEy;Uv<fuje<B`^X?_hJpDR_3{gV
z{{>5OThFv3QBf1G=vFJbV-;Jcoeu@xwhOYdYipvl{XtHvt@~afBB=QN#9cpsN_Drb
zh`7P3R@J>%^wzE~sLBdQ;1tg_Hd9d6lVIWOWp~qbKii;dR2_|RM~8~P&L?jPvCd<6
z90NdKaWjJE{rnMxY8z}->_PO~L3Ge@;0wxJd79_y8>!ct^}W`sj{3NxO~qe(-_8D5
z`%`xuPg5+nnXQH<Q1m%_FqgQGoHN?=dmZoltP2LgeZm%<>CszsGXeyMFrY_&NL&~f
zg)f*oi6TMKpBW*W^B1N4+{|{#_QM%lfvAx*?u^dqH)(#EAW{+2i6X>HCRKXxPB*{c
z;@|+s7L;HgC`><Qo#2=e#Uz=iOCBoJWs4(oe@Dx~OQXt&95#;N7}m{yMg6bvYc?MJ
zO`A8F{hub$(SyDqIuec|dKYf)(0tGPyWZWkROwxIbc1aT#a=ac8k|@6LEAsNdT5uT
zMQ1u*4^;7t$=Z@f!v3D7!#Ifss{A(qV+ID}j3ICHQ-oO#FQ1^XQmmClQ@E|$r*j?%
zX4{Upzw;XoKdW}GxSTc>%I4g695qDV<=BaEl}_hxG&e}?nel)1j{tN!oHAunVW#t(
zcKu2B!EqK4C@>>biHLVnv5{(pf=!=hO)551nm(~{Pn*c2VZ`s~HNQ2Sk)qe{;|a|3
z%^KU!+&|7nm4^Fp79R84YiT%3)E;9mAcrhP!^|C%%rwgk1zp7UMFo1(HAS|c{%>4*
z3{uc3nlPF!N4)zlDB~Xpkjhku4)mzD5#MK7lTU4`3fCPjf-o^oFlDFZGejS~cnqWE
z3jMVAhldw?KHl}wu2|>3TL;zp<I9c{Ye{;3U~!w;_}Jp4+IaAet1pAF&AO$qn?@f5
z$fRw}PMd1%I8``J=LU%z8*Eq6YI6J6n4q7gasaJqDs>ImQUjs)^KXA=1(e>;|0MFa
z{r_q5bC%8|`?<+Gj`kGcS1eh}8RZ)r(Ze)}*7Yv}<{?*qIWC7%w0ohSFg{EvHhZ#U
zl#>KNFUjp-rdLnX?NI{H6L^8ZO9b{1I8R`Tz@HMBAz&pi3jimMUV|ONskU=tl5&gk
zpC&-UmK|MIUZj+d05jv5Gy2zb`%MBQKNP~SuJb!6)kfgB0iH!7Oe}$S7mFKXLgU@O
zBe&$`zEev=-F(l2dEwMzr`olDsdc~Fa3Cg}y1Vz_Epd78z>-ig*FRr0FD>j<n|ChN
z?NqCF#e{*o?cIx~m)mz=K04bt`>I-qmuYw3^=`jWyzJe-Boxm^<_6T#j+n6j?v@=l
zb}Vn{T@p&?+;btdyelU3LKHQ&E(z}0p}GERqcNf7Gr=s@Kd`$*`$A-~??%z$kq^GJ
z%Hj4wBfz42ap=bO#d9Cku)LK<L9ALlxys>Z#gT(_c$LG?N}(v)=OcJcq-f#DyJ(MF
z7*v)*Jg(>Q2V$;RjUC##rg`(cZ{Dd^;NZ^I6*F@0m(<Lg=O*Td<|fsW_Jxyb$(GNk
z_9|ZcEnG1n^;v~kJk5V*ZxB5&0&>O1h3-`jKPwduaR;UG^H~*7bu2IO;xqh8)RZTd
z!b+H{VPSXN+_&XT%d>rR6|=|H{6^K*v??NZr6yObSQHljNZr!Ef-Wm=xo=5-U-6KV
zI>FKs4&i_5GBoh&0c5>~pt$kX2gxFtWY`bva1U)Fkz~&EQDBqDsS>MCWGN9T%QW6^
z_c2#PD+m}b=NaD|(9c<}5z00^iz$gWkRYKP!LNQ{hl=|iL|$4oWZU$~C?&dIcb$d8
zp??v0b^0aI;UCZ|UFp}s5DS8t;!g?iOG2AC$fKIw@Ger5@gzT>;DPMKtK$>&feEiY
zRj*e$8{U<=qt@$R0ra#Q-zNDcUQ>Fx(=(R*R7u+|&kN_|kmoFRh(euf`pDYPg^@tO
zb4K=z<MSu7<cW-Vm>699D&&T4hQ}0-am>}DzsKbD^y^<*2~#HnV<Fj_YIX{TT5_;s
zbq3pjcr)0J4{FeNOkgf)dDzbyQzU=*+~7EF?H5KO=jbf#&?}mQrS-ElVXbJ*nF`<y
zA5X!X;+hzqz*!4=wO@a6P@xE;X6`$2THnKV;x>6SSN9u8_-Qu3pMCMg?_aZ(t^9Ws
zPFAGW$sjtsbg1_pB7y%TDnZ~sEaYtYGdZfY>|R-GysT3#>s<Eki+lT2Z{JdBKm3J6
zX(g1{J<s+V{mY(S9Feq@KjbVn`-+RJ+d3`WvFh(Auh|?SLT1G5L1G;-gS?2CjX;BO
zbjhUr5_M@#FhXU;?>BaV?jw6ml>MKOF<F^yddZf5O!Fh<f%)BYx@Rt^PEX8Pzhte~
zZ8L+vQG-j_X4AM?H&Q_#DHs9)Wg}d%?gJ+&MxoC1D_Z~uc6}<;Yt#eVrA~ycVL3XO
z0TZ6q7=9u{3n)XrNUxMKg~Ptmz&_EV<*$9cS3i)QlYH4XX+&sN`Qi}!o&_v?q|W1G
zKo*vDM!AoNq%4W#HpVB&%T7P~7_Jb0cc2pC*P6$uXRd7i@rA?7*6sI7y|j;iZ01<p
z(W*LHZ}h}>pHO$7KzyLgJ}rFDkzplR*P92-3Lx@TXpt2f2#$E^R6ZmJ0-y?BA2No(
zC7t3sRFy!G##N8RZ?A9<Oa<cBg`$PX2Nj=lNIq=l#fC2|_;3WydK+Jlphj(8<=@~3
zA2b*X1Z4KfqA)uWt2r}ryn|<kn6ZF;apOZva#&$@D3O5vMGXtS8G`qlb-RNEx<ZSt
z6|xVnc>R4||KLPq?5r{<>E~0JsY51FW|gE=RrEt1jPqSorBv_5=)s$+N0hGR>!qno
z5+F(ul@!tUZ&J0r6F8L@R@_uvOn~BN3X8wfaXWVCTPtNvSWWLpkiAZ$H>;p3l>{yW
zXt__Z!b6IJm&cinc7V!`5MbujE=n<zjoC?TrC87;Wk6}xJ-Tq*r+k6Rw5(ygY0Isc
zd7gi0<#@+0xrSeIjlbfysN9xcaUCkx@z2~5l{@k)Zb0P*e#ve971#5Hki(n4-~c{%
zar|R2VELwB2&D*Zm~y``74cYf0GJ!5+!c1)$qEF%7}UTQCkyB{pB0F_bA<y)7SOGW
zD{ozD->sJIzHFa<D#q=G(L<e^`5M^Cd`+?{-8xY4(DV&~ub4Z#%F%DKkdhD2TPu0{
zT+Zhletx?m+c|3yJ_Exy-L+NBJrT1t{>ed_d(-d2w1hvc75YT(XJTGovH53i9`OGF
DjxT3X

literal 0
HcmV?d00001

diff --git a/profiler/__pycache__/utils.cpython-312.pyc b/profiler/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f68b45638fee2b108243d9fd0ba3139e482ab84
GIT binary patch
literal 8207
zcmb_hZ){UnmcP&M`M({<b_~HuAPE$3NE{$QO3I(o`~gB6T0yIwFvT){FW}%f;l39j
z8K=$8^1)0ik*Jk0f{Luv4`EtqQmN7~(te;b`=QcmB|n_jp0`=4yIbw5`zessuIQ&d
z=RQBj38phU+N=1y`|dsW&pY>=-#O>zAKY#SfsznDh<Er1`8RwqioIA_`FE(?CL$5J
z1R2DqDZ!1H22C8+`2;^A3<@LWLGy@Z&;o734KipI%|LA?a-4{k8$`5zX3}RHwA+ce
zL9|H@(Jnbfhh&nR7dgo>WZDD_l4H_Ji0FiOo9Mb>9(0Lr$qeuAAwjIVAq-ZPy?fx@
z!+1?%HPow%eGcID!n?QZ-3RYJ(GPRgz=~#A(XFq@##_Vy^!q2c(8eEdn*$+Evvo%k
ziRgud6yh~Ur1z?nRL)L}Nm^CpO*%RhPe_!tX`aYgDJhTAHzXx0MwMu+_@V4`1)x0q
zRwjYmCJM(|fuzW1#d?an+(QU$t=u;W$0Kq$ddid{DU(QoWUAskqCSsJ1U`{NJ~j$g
zIzt}t13%z4Ci!qU{D9N=gp_>1YZh6d@#IC#d@U|2mo&@h(2y)CGIBOHHvZVvu8fSe
zkHyE@lqkI@DQ(xsI}g5mxl?LS#4oguO(>T}lkHa%iIMiPqD0!qm3Tr9k4<P^n0X|k
z&mS40qe+E&VcIJA$*%*MCQDXF`oQ1(V&?6~*5H!2X6Bub>N4Z1ciY?*)w?roDR?(#
zEE(&}mb7KbS(U!}!7CZ>uZ|W1!OS~z$L3zk461=0>Ar%~JN?EA%tzLU9lwBy{VG&`
zQtT~%j@U&Iyz@^9-V9<lt%{u5U}=iRMO{D)q0(x2(W=X(b0HeLOlzQdBl4X9@@EOh
zmf4=!nDsWTlTTennmu0>3<ZlOG5D2=rC3|J4wc(PB7>kQgC>!acu5#$P*CD!6*NlG
zBv~Y@WYY}>jEe_jv5SJ_c=4Da699lP=tScOBenu{i#DKD6ZVipbDc%YdK0uyk*H>+
zqt_y_gsiz^qlxj6WQ6IX9K$0tO39K0u$$W?#idBZ=p#yra~S#7l@w>#S`WF!$4nPN
zS>6RroZ?gbupyDMF|(!*s|DbJeiA9omjb(rm<=|?ZPZevlH7(pM*r&bvtrfQ&6+t-
zUDg$Y@A6L23sXP&B{u=P;@Hlvkq6vB$VO3TG$+HIL{yd~S+fkqrGzMJLNYocX%6;=
zRhiZzFAo;3374e_IV5O;EG3569C{~rUB>SP<8Raz)fS1wlW`>ynGBSlSlDQ80&e*-
zkZH1PA+=l5!iTP<T?g{J4y(HkKfJiOt1lNkuI}oai)QxRKXCUzc2}PoJPur*LPJYh
zShNL~JieKIdH+kQ|E0XYMfJDj{H-}p+n4@@v%ige5y|c8eeCJY+Im$_@3W_7Qg?!r
z@euC&j~#~ngW||*EFZVeEMI{Ns0kS^K`t~Di*XPf_Lo%0=q04ApX(v-`gQOfE*<_V
zXUb$85=TA^2xNlLAoPOEa7V^ayCavRs0b?VEWRe<NjQ|^3+z6`Q<Ndy21MiWb8tT;
z`8)MV6ttGf+BHW|))Rsu@@^p0q+oO9Z9&x*T(s4*daY`!1u_4Ve`C74;HtiL`sV3O
z_cyM_Cp@XC)d8YhLg0OM`RP8t936+t9UHJ=F}@z8^fN+!4jfY)I4Vvl$qFR=6XQe<
z9ULk+8e1h}OtH9NN>GewgeXpZZE&Kdlwiaa!zF_>dZAx1_Lt&ilW0nEBL8`51f1A8
zJh6~@;0F}Jk9=dQQR5uwAEl%ivTAlIIX)uMC}7lPV4%3LZYX9ZeTLeaIWasgD<LyG
zNR5kY+>j=KF)ErJ;H-#cC=WQ*qFvGL@H!b>bDnGTr5*ZZ2?)4?nud&cfAr4iw>9CL
zJ?UfVD+PbeJwDTO|MZ>Hx!TtGD{Ad-)xSI4Q>d-a*S4s&E%STS+P3t`C6{-px^d1s
zcQRKU&R6eKtM@JZELVN>k4-Pl_RjD7Z!_<%dSWGkc3ln1j|sQS%;<ZN%o+y@xLff+
zi=%a%T66pr5Y{*rP@6|ZwL!EstsZh^WiZB-sf_@f75r9;N6$57F2h(Z#T&{pWf4tN
z)-vU`C>WWrV(`#<1tS(#QkIn2XdebRSYM#GXhc)iWS<f+`coF8UD;r?DG0-?44JMH
z+MpnWv$D!9@^^*dI-`B{xn><-%5s<dDK4eK7@e}F1TX>tjKKW4#rPU9g5NVEuny2x
zVAaT^a3s8Uh_=BC4I@Ea40$w1T#hGYC7O&$y2sdqo$Ktv3SnYYQ7E_>g);M?9l)ju
z3Wm<+p~PrZ(Rjc`%}mj1=w6)Mreh$&7~O|tKavATI)P~X)o4Pq0>OY%Mo-C1sboz6
zA7pZ4C2ImeeHl9Ce*^-i<k^(jno;hj?xYqytyx=Z*3<g^Uv6GLobAd-?dk6CHq@q%
zv)S*-i=M4Z!It@s1$!>ol@GqE248)&DHl97YhCgNW?~<0x;Or5ER#^ZElUl}a~*dF
z=Y?#2TRyl?4WfAlkIq`ZYiP{$-Vfgi&%?lu87mm_%#H^=cg7dQZ(XlE*;F#wa^yy_
zFq8chDv+&lQ)sGCUtfO8<AFhf2S5Z*nI-{Ir??O80$DX@NG<?F74#CUR9?YQdQm`h
zp9C<$xEP;C52xcUMbyx^!xX`t>0e0D0oDSiJq|Go>IcK!qNCJ2%BTX0P(oJCwI*gP
z_nveIuDaH1mbu}R&?~<M1iWUjF6}AQH|FcZYJE6gzhAB2|80F|`t^dVE|XGSyKbId
z=1IfL-`m{j*i2;Z%IDn+LVova>h9Nat=*5JYU^=z#|brXLajRajjf;I=>XUagijcH
zMIzwxBO{~YcmnILNaV_RG@<v<!}x`0>zch3#%Y2Wk16yJb{$2s75jxm9Q3~h-_d_i
zRD1S~4+vY4g=`dohLJ|7$Y+7vAj>9;xsNMstjnCr*Y8o`Z{yx&p0#x!|C;~$%-6QB
zj;yeT<!Zs)G$+iR%fHm6!e8SnD+F4ex~%4^r#_GQ&`PslKE>$^vbE6hYL<9XgbZ18
z=}$1!iG-wCsHBY3WaU8qO&EuPJl$Fb#3rTWh75?JHt_QtYEO#k(HUYw&tD4ajaE!_
z_2|n)yI^i6K2RInA3co(S6mxkxl7x{M3|ld2F8TgGfkdYh^=bL8JJ0Y+P&!9S@3U}
z+phX|&L2?yd$O)Q{{rupoPWnWH15v2c7Nvyq}@y~npwj8f>^nI;&(Co6rsW*Q+Tc~
zWf4?K4wX_GjF@Ou%2X+063IAshQM8hX`l~cd^19?NCj9*v%EQhw;Gy7*F_Kx>WAiF
zyNxi6b~5$|YgsF+YMtv+R4%GAJqLrM@RQL>!HPC-y?^=6WmTw~?w@fMtlp0Y^MUPZ
zVEbe1_JSvv_cW=Vrumwzr!8x1D>$o}s4B|{HUC92TGfyjNyg9vUgMSMMg7yQXGdx5
z(&@1f$G%y{qbVjiUj4)3azsI%$mkfw)bbMiWOUB(WzOnb2X7v{=g{LT)!C92TAtrN
zq8K}3JVxC9UpJMhb_x7eKS04#VMQrLNeTivD?<Xr2M`wD1;s84dWnJ;3ape&q!n&_
zOqFuZ6oH(VE9Sfm(95Elk_kb^>tPvhspT$Q?0v$oTNker)~_r4zprb4Zrz&o>&pIq
zxK^wr+q>iwlaapt@`W-PM&Mdko|6-vCM&B@^Sqp<*2b)**v=Tc>hdZ@YNA!N8D|I*
z2dB&AE}Sv)eC}GsTF5@2ap!(CwL-q~uEy=uxX`5U?W8<DHa1EXNo+(T?rNO0Foh1&
zgRq@YmF{YeK%F@iO}H>Rn$VpL!^=0IM-zre<4LVbHwn1*i%@Bd0*H){!Hp*>sb-er
zlW@;q78zbxp+6Cg;Vmf-?6etK?2Ls)Yik@bniNHnfS>FF8wA_3I;MZ|v6$)jDE?{h
z=N(@PU&gXqyVMO`1z%t$koGLu{WIP7Y8LIA3tqS?xP5T;;P3pohQq(}FC4p<oPX<^
z&Fv5UYQy22|47z%^x>7P=UCQuOdl0kv~T&pjQSn}#Cz{AdfKzLx3V3*e=mOB@rU@M
zbJ;y_<)FdSUZ|<PeRB5Xy!@MqUr*#VAAB$|-*iu&+w;lQ`3ZIN!CXyO+P(z)j@^#W
z#y<+@eLGd(&iUGfy*b~3thaOF%EL_$osafp*_Fn#r*5+O$g_WKIQ;CXg>31P(Z0U2
z`g*oFe$V@QwmJS#=j#dC)*vK;1A`b8-d~Q8dYUG3!=*?L<}DV8=}Hh}wBaQnCRCMD
zt>+8}9WE<BZ8)$_Dd{ps5CA(75<#HCC&F+k0bA`C&0;BeDL0c4Brq3%jYW}E#F_+T
z(gN9gva3rs0XuycI}mm0c_bH+yaNOSn6Yt1X4*+HX`-m3MGvWKwGH%Jeom=1ziumr
z?_dT)DGZ)~pL`X_a}MM&b0Aq~OTpv6HF0xd;qBj^`{LXq?-%Fu`}-g7@6T;IrS9)v
z;O>Rzz25|PW%u{1n@;6CuTP&SRQYcW-yBZ=Jmby0oN1XmmUV8=JHx6oJb(S6FXudz
z6%IXn%9G&hoQ&4`mBsfOw^oJl7K5qKJ4}Ttp{TANa6qLX1jZDL$T3Ag8LlgkaB!6Z
z5_+*Ludm2qqy?gh{V(LS$Pbq;c~%#xJUghLsp#JTeIa#$iyqt|s!&<>4|m+yYODl)
zf(JAYGOt&<#DhBs?gdI|PVq3K<rBc>$~+}yG+iU8jF?Tc{6<&H9()y%pjtx8i@_69
zJ^EKr(;Q<_3aJ8IHOcxt6H`sZO3emW<1CMW<Ot(6Hh`%ly#lZ6u563ZOflO)^ronT
z?<3~}Adm(->oUEI&gQJpoOL!A+`e1qZl23{Z=TP)n^kx7bYH>h&Rc6ATWjx~ncI+W
z+N(D0%{6o^L?1VF7W^9#feW37^PMLicb>?(PO6<J7Mf<bnWkAGeRbxokKdb%&U1e&
z<~HuiZfJe%Zp(I_P+ccicvFodZG&54|EAmRv+Y@L^IX&1iMg(M#MP{=9ir!3@85hs
zYuo(nshzm{i~75*;kE5H%@G@?R1Zou^LP^e%T)Q+_wV2XS?&v$^_6npDG18wDaaon
zH#Ss3?q2=(!D=gQTFrV_Z+VLfY6d0aS$+)aR-O$Ta~Atvya)TbJ#Zg(r%Y!^NEl#9
z#S~{!Xgt)`2qC-$bOX`}7M1GCf$##@bPXQ#IuLNs6rAwdfIYYlnBejzb~(ZrX$l5?
z06!Tuj9uQlJ=47fZ(ZKota_WL`~T>ux%2j1*J49>$yuKng!Bh*>i2&znK|~W_X^d4
z%!XOdjJe?QE(Uha2Xldas%u}mw-DH(hx}>B6DM&7aEfml!pl{}<(+<=Ma=N8Rjx5q
zqo=$cNZu1tOo@*s<#6;uj3O{;K0R!SbcZ2b*Z<e5V>aY~gask&pNabY5{7bRnKGtu
zbO;GEFbw2%Oh=J1OJLtl2k;dgZt))-hjfEELZ_h(lLPrbfh_YJ$F0~1=l^H2?LSDr
zO8TExSvcQQACUj?wQ;AoCj{y81&;J{Z*Wg|JGY_W@+`CGrh5I^x^E%2@b<&*g+aCT
z)khs_YaeU>&TLyT1OIZfz<DzR%LE?t3gp|Ice#q=c4f{l6L>5LEBIKpIk-M9)3HME
zxg6xV!<qM%2|O0IuHa+YW#_iw7<er3EBIKhb#dN8_2y+BpF7$YHfMLg`e<8rcb~fB
PIBSGG{FfOznJoSnaxbse

literal 0
HcmV?d00001

diff --git a/profiler/gpu_profiler.py b/profiler/gpu_profiler.py
new file mode 100644
index 0000000..58c6689
--- /dev/null
+++ b/profiler/gpu_profiler.py
@@ -0,0 +1,37 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class CudaProfilerWrapper:
+    def __init__(self) -> None:
+        self._profiler_running = False
+        # Note: lazy import to avoid dependency issues if CUDA is not available.
+        import torch.cuda.profiler as cuda_profiler
+
+        self._cuda_profiler = cuda_profiler
+
+    def start(self) -> None:
+        try:
+            self._cuda_profiler.start()
+            self._profiler_running = True
+            logger.info_once("Started CUDA profiler")
+        except Exception as e:
+            logger.warning_once("Failed to start CUDA profiler: %s", e)
+
+    def stop(self) -> None:
+        if self._profiler_running:
+            try:
+                self._cuda_profiler.stop()
+                logger.info_once("Stopped CUDA profiler")
+            except Exception as e:
+                logger.warning_once("Failed to stop CUDA profiler: %s", e)
+            finally:
+                self._profiler_running = False
+
+    def shutdown(self) -> None:
+        """Ensure profiler is stopped when shutting down."""
+        self.stop()
diff --git a/profiler/layerwise_profile.py b/profiler/layerwise_profile.py
new file mode 100644
index 0000000..829b63d
--- /dev/null
+++ b/profiler/layerwise_profile.py
@@ -0,0 +1,392 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import copy
+from collections import defaultdict
+from collections.abc import Callable
+from dataclasses import asdict, dataclass, field
+from typing import Any, Optional, TypeAlias
+
+from torch._C._autograd import DeviceType, _KinetoEvent, _ProfilerResult
+from torch._C._profiler import _EventType, _ExperimentalConfig, _ProfilerEvent
+from torch.autograd.profiler import FunctionEvent
+from torch.profiler import ProfilerActivity, profile
+
+from vllm.profiler.utils import (
+    TablePrinter,
+    event_has_module,
+    event_is_torch_op,
+    event_module_repr,
+    event_torch_op_stack_trace,
+    indent_string,
+)
+from vllm.utils.import_utils import PlaceholderModule
+
+try:
+    import pandas as pd
+except ImportError:
+    pd = PlaceholderModule("pandas")
+
+
+@dataclass
+class _ModuleTreeNode:
+    event: _ProfilerEvent
+    parent: Optional["_ModuleTreeNode"] = None
+    children: list["_ModuleTreeNode"] = field(default_factory=list)
+    trace: str = ""
+
+    @property
+    def is_leaf(self):
+        return self.event.children is None or len(self.event.children) == 0
+
+    @property
+    def is_torch_op(self):
+        return event_is_torch_op(self.event)
+
+    @property
+    def is_cuda(self):
+        return (
+            self.event.tag == _EventType.Kineto
+            and self.event.typed[1].device_type == DeviceType.CUDA
+        )
+
+
+@dataclass
+class SummaryStatsEntry:
+    name: str
+    cuda_time_us: float
+    pct_cuda_time: float
+    invocations: int
+
+
+@dataclass
+class ModelStatsEntry:
+    name: str
+    cpu_time_us: float
+    cuda_time_us: float
+    pct_cuda_time: float
+    trace: str
+
+
+StatsEntry: TypeAlias = ModelStatsEntry | SummaryStatsEntry
+
+
+@dataclass
+class _StatsTreeNode:
+    entry: StatsEntry
+    children: list[StatsEntry]
+    parent: StatsEntry | None
+
+
+@dataclass
+class LayerwiseProfileResults(profile):
+    _kineto_results: _ProfilerResult
+    _kineto_event_correlation_map: dict[int, list[_KinetoEvent]] = field(init=False)
+    _event_correlation_map: dict[int, list[FunctionEvent]] = field(init=False)
+    _module_tree: list[_ModuleTreeNode] = field(init=False)
+    _model_stats_tree: list[_StatsTreeNode] = field(init=False)
+    _summary_stats_tree: list[_StatsTreeNode] = field(init=False)
+
+    # profile metadata
+    num_running_seqs: int | None = None
+
+    def __post_init__(self):
+        self._build_correlation_map()
+        self._build_module_tree()
+        self._build_stats_trees()
+
+    def print_model_table(self, column_widths: dict[str, int] = None):
+        _column_widths = dict(
+            name=60, cpu_time_us=12, cuda_time_us=12, pct_cuda_time=12, trace=60
+        )
+        if column_widths:
+            _column_widths.update(**column_widths)
+        filtered_model_table = [
+            (depth, row)
+            for depth, row in self._flatten_stats_tree(self._model_stats_tree)
+            if row.cuda_time_us > 0 or row.cpu_time_us > 0
+        ]
+        TablePrinter(ModelStatsEntry, _column_widths).print_table(
+            self._indent_row_names_based_on_depth(
+                filtered_model_table,
+                indent_style=lambda indent: "|" + "-" * indent + " ",
+            )
+        )
+
+    def print_summary_table(self, column_widths: dict[str, int] = None):
+        _column_widths = dict(
+            name=80, cuda_time_us=12, pct_cuda_time=12, invocations=15
+        )
+        if column_widths:
+            _column_widths.update(**column_widths)
+        filtered_summary_table = [
+            (depth, row)
+            for depth, row in self._flatten_stats_tree(self._summary_stats_tree)
+            if row.cuda_time_us > 0
+        ]
+        TablePrinter(SummaryStatsEntry, _column_widths).print_table(
+            self._indent_row_names_based_on_depth(
+                filtered_summary_table,
+                indent_style=lambda indent: "|" + "-" * indent + " ",
+            )
+        )
+
+    def export_model_stats_table_csv(self, filename: str):
+        df = pd.DataFrame(
+            [asdict(row) for _, row in self._flatten_stats_tree(self._model_stats_tree)]
+        )
+        df.to_csv(filename)
+
+    def export_summary_stats_table_csv(self, filename: str):
+        df = pd.DataFrame(
+            [
+                asdict(row)
+                for _, row in self._flatten_stats_tree(self._summary_stats_tree)
+            ]
+        )
+        df.to_csv(filename)
+
+    def convert_stats_to_dict(self) -> dict[str, Any]:
+        return {
+            "metadata": {"num_running_seqs": self.num_running_seqs},
+            "summary_stats": self._convert_stats_tree_to_dict(self._summary_stats_tree),
+            "model_stats": self._convert_stats_tree_to_dict(self._model_stats_tree),
+        }
+
+    @staticmethod
+    def _indent_row_names_based_on_depth(
+        depths_rows: list[tuple[int, StatsEntry]],
+        indent_style: Callable[[int], str] | str = " ",
+    ):
+        indented_rows = []
+        for depth, row in depths_rows:
+            if row.cuda_time_us == 0:
+                continue
+            indented_row = copy.deepcopy(row)
+            indented_row.name = indent_string(indented_row.name, depth, indent_style)
+            indented_rows.append(indented_row)
+        return indented_rows
+
+    def _build_correlation_map(self):
+        self._kineto_event_correlation_map = defaultdict(list)
+        for event in self._kineto_results.events():
+            self._kineto_event_correlation_map[event.correlation_id()].append(event)
+
+    def _build_module_tree(self):
+        self._module_tree = []
+        event_tree = self._kineto_results.experimental_event_tree()
+
+        def _df_traversal(
+            event: _ProfilerEvent, curr_node: _ModuleTreeNode | None = None
+        ):
+            # For the tensor parallel case for now only look at task 1
+            if event.start_tid != 1:
+                return
+
+            if event_has_module(event):
+                node = _ModuleTreeNode(event=event, parent=curr_node)
+                if curr_node:
+                    curr_node.children.append(node)
+                else:
+                    self._module_tree.append(node)
+                curr_node = node
+
+            is_leaf = event.children is None or len(event.children) == 0
+            if is_leaf and curr_node:
+                node = _ModuleTreeNode(
+                    event=event,
+                    parent=curr_node,
+                    trace=event_torch_op_stack_trace(
+                        event, until=lambda x: event_has_module(x)
+                    ),
+                )
+                curr_node.children.append(node)
+                curr_node = node
+
+            for child in event.children:
+                _df_traversal(child, curr_node)
+
+        for root in event_tree:
+            _df_traversal(root)
+
+    def _get_kineto_gpu_event(self, node: _ModuleTreeNode):
+        if node.event.tag != _EventType.Kineto:
+            return None
+        correlated_kineto_events = self._kineto_event_correlation_map.get(
+            node.event.correlation_id, []
+        )
+        iterator = (
+            x
+            for x in correlated_kineto_events
+            if x.device_type() == DeviceType.CUDA and x.name() == node.event.name
+        )
+        return next(iterator, None)
+
+    def _cumulative_cuda_time(self, node: _ModuleTreeNode):
+        "Return cuda time in microseconds"
+
+        def _cumulative_cuda_time_recursive(node: _ModuleTreeNode):
+            if node.is_leaf and (gpu_kineto_event := self._get_kineto_gpu_event(node)):
+                return gpu_kineto_event.duration_ns() / 1000.0
+            else:
+                cumulative_cuda_time = 0
+                for child in node.children:
+                    cumulative_cuda_time += _cumulative_cuda_time_recursive(child)
+                return cumulative_cuda_time
+
+        return _cumulative_cuda_time_recursive(node)
+
+    def _total_cuda_time(self):
+        return sum([self._cumulative_cuda_time(root) for root in self._module_tree])
+
+    def _build_stats_trees(self):
+        summary_dict: dict[str, _StatsTreeNode] = {}
+        total_cuda_time = self._total_cuda_time()
+
+        def pct_cuda_time(cuda_time_us):
+            return (cuda_time_us / total_cuda_time) * 100
+
+        def build_summary_stats_tree_df(
+            node: _ModuleTreeNode,
+            parent: _StatsTreeNode | None = None,
+            summary_trace: tuple[str] = (),
+        ):
+            if event_has_module(node.event):
+                name = event_module_repr(node.event)
+                cuda_time_us = self._cumulative_cuda_time(node)
+            elif gpu_kineto_event := self._get_kineto_gpu_event(node):
+                name = gpu_kineto_event.name()
+                cuda_time_us = gpu_kineto_event.duration_ns() / 1000.0
+            else:
+                return None
+
+            summary_trace = summary_trace + (name,)
+            if summary_trace in summary_dict:
+                entry = summary_dict[summary_trace].entry
+                entry.cuda_time_us += cuda_time_us
+                entry.invocations += 1
+                entry.pct_cuda_time = pct_cuda_time(entry.cuda_time_us)
+            else:
+                new_node = _StatsTreeNode(
+                    entry=SummaryStatsEntry(
+                        name=name,
+                        cuda_time_us=cuda_time_us,
+                        pct_cuda_time=pct_cuda_time(cuda_time_us),
+                        invocations=1,
+                    ),
+                    children=[],
+                    parent=parent,
+                )
+                if parent:
+                    parent.children.append(new_node)
+                summary_dict[summary_trace] = new_node
+
+            for child in node.children:
+                build_summary_stats_tree_df(
+                    child, summary_dict[summary_trace], summary_trace
+                )
+
+            return summary_dict[summary_trace]
+
+        self._summary_stats_tree = []
+        for root in self._module_tree:
+            self._summary_stats_tree.append(build_summary_stats_tree_df(root))
+
+        def build_model_stats_tree_df(
+            node: _ModuleTreeNode, parent: _StatsTreeNode | None = None
+        ):
+            if event_has_module(
+                node.event,
+            ):
+                name = event_module_repr(node.event)
+                cuda_time_us = self._cumulative_cuda_time(node)
+                cpu_time_us = node.event.duration_time_ns / 1000
+                trace = ""
+            elif gpu_kineto_event := self._get_kineto_gpu_event(node):
+                name = gpu_kineto_event.name()
+                cuda_time_us = gpu_kineto_event.duration_ns() / 1000.0
+                cpu_time_us = 0
+                trace = node.trace
+            else:
+                return None
+
+            new_node = _StatsTreeNode(
+                entry=ModelStatsEntry(
+                    name=name,
+                    cpu_time_us=cpu_time_us,
+                    cuda_time_us=cuda_time_us,
+                    pct_cuda_time=pct_cuda_time(cuda_time_us),
+                    trace=trace,
+                ),
+                parent=parent,
+                children=[],
+            )
+            if parent:
+                parent.children.append(new_node)
+
+            for child in node.children:
+                build_model_stats_tree_df(child, new_node)
+
+            return new_node
+
+        self._model_stats_tree = []
+        for root in self._module_tree:
+            self._model_stats_tree.append(build_model_stats_tree_df(root))
+
+    def _flatten_stats_tree(
+        self, tree: list[_StatsTreeNode]
+    ) -> list[tuple[int, StatsEntry]]:
+        entries: list[tuple[int, StatsEntry]] = []
+
+        def df_traversal(node: _StatsTreeNode, depth=0):
+            entries.append((depth, node.entry))
+            for child in node.children:
+                df_traversal(child, depth=depth + 1)
+
+        for root in tree:
+            df_traversal(root)
+
+        return entries
+
+    def _convert_stats_tree_to_dict(self, tree: list[_StatsTreeNode]) -> list[dict]:
+        root_dicts: list[dict] = []
+
+        def df_traversal(node: _StatsTreeNode, curr_json_list: list[dict]):
+            curr_json_list.append({"entry": asdict(node.entry), "children": []})
+            for child in node.children:
+                df_traversal(child, curr_json_list[-1]["children"])
+
+        for root in tree:
+            df_traversal(root, root_dicts)
+
+        return root_dicts
+
+
+class layerwise_profile(profile):
+    def __init__(self, num_running_seqs: int | None = None):
+        """
+        layerwise profile constructor.
+
+        Args:
+            num_running_seqs (Optional[int], optional): When given,
+                num_running_seqs will be passed to LayerProfileResults
+                for metadata update. Defaults to None.
+        """
+        super().__init__(
+            activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
+            record_shapes=True,
+            with_stack=True,
+            with_modules=True,
+            experimental_config=_ExperimentalConfig(verbose=True),
+        )
+
+        self.num_running_seqs = num_running_seqs
+
+    def __enter__(self):
+        return super().__enter__()
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        super().__exit__(exc_type, exc_val, exc_tb)
+        self.results = LayerwiseProfileResults(
+            self.profiler.kineto_results, num_running_seqs=self.num_running_seqs
+        )
diff --git a/profiler/utils.py b/profiler/utils.py
new file mode 100644
index 0000000..c95f9f4
--- /dev/null
+++ b/profiler/utils.py
@@ -0,0 +1,151 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import dataclasses
+from collections.abc import Callable
+
+from torch._C._profiler import _EventType, _ProfilerEvent, _TensorMetadata
+
+#
+# String / Print Manipulation
+#
+
+
+def trim_string_front(string, width):
+    if len(string) > width:
+        offset = len(string) - width + 3
+        string = string[offset:]
+        if len(string) > 3:
+            string = "..." + string[3:]
+    return string
+
+
+def trim_string_back(string, width):
+    if len(string) > width:
+        offset = len(string) - width + 3
+        string = string[:-offset]
+        if len(string) > 3:
+            string = string + "..."
+    return string
+
+
+class TablePrinter:
+    def __init__(
+        self, row_cls: type[dataclasses.dataclass], column_widths: dict[str, int]
+    ):
+        self.row_cls = row_cls
+        self.fieldnames = [x.name for x in dataclasses.fields(row_cls)]
+        self.column_widths = column_widths
+        assert set(self.column_widths.keys()) == set(self.fieldnames)
+
+    def print_table(self, rows: list[dataclasses.dataclass]):
+        self._print_header()
+        self._print_line()
+        for row in rows:
+            self._print_row(row)
+
+    def _print_header(self):
+        for i, f in enumerate(self.fieldnames):
+            last = i == len(self.fieldnames) - 1
+            col_width = self.column_widths[f]
+            print(
+                trim_string_back(f, col_width).ljust(col_width),
+                end=" | " if not last else "\n",
+            )
+
+    def _print_row(self, row):
+        assert isinstance(row, self.row_cls)
+
+        for i, f in enumerate(self.fieldnames):
+            last = i == len(self.fieldnames) - 1
+            col_width = self.column_widths[f]
+            val = getattr(row, f)
+
+            val_str = ""
+            if isinstance(val, str):
+                val_str = trim_string_back(val, col_width).ljust(col_width)
+            elif type(val) in [float, int]:
+                val_str = f"{float(val):>.2f}".rjust(col_width)
+            else:
+                val_str = f"{val}".rjust(col_width)
+            print(val_str, end=" | " if not last else "\n")
+
+    def _print_line(self):
+        total_col_width = 0
+        for column_width in self.column_widths.values():
+            total_col_width += column_width
+        print("=" * (total_col_width + 3 * (len(self.column_widths) - 1)))
+
+
+def indent_string(
+    string: str, indent: int, indent_style: Callable[[int], str] | str = " "
+) -> str:
+    if indent:
+        if isinstance(indent_style, str):
+            return indent_style * indent + string
+        else:
+            return indent_style(indent) + string
+    else:
+        return string
+
+
+#
+# _ProfilerEvent utils
+#
+
+
+def event_has_module(event: _ProfilerEvent) -> bool:
+    event_type, typed_event = event.typed
+    if event_type == _EventType.PyCall:
+        return typed_event.module is not None
+    return False
+
+
+def event_is_torch_op(event: _ProfilerEvent) -> bool:
+    return event.tag == _EventType.TorchOp
+
+
+def event_arg_repr(arg) -> str:
+    if arg is None or type(arg) in [float, int, bool, str]:
+        return f"{arg}"
+    elif isinstance(arg, list):
+        return f"[{', '.join([event_arg_repr(x) for x in arg])}]"
+    elif isinstance(arg, tuple):
+        return f"({', '.join([event_arg_repr(x) for x in arg])})"
+    else:
+        assert isinstance(arg, _TensorMetadata), f"Unsupported type: {type(arg)}"
+        sizes_str = ", ".join([str(x) for x in arg.sizes])
+        return f"{str(arg.dtype).replace('torch.', '')}[{sizes_str}]"
+
+
+def event_torch_op_repr(event: _ProfilerEvent) -> str:
+    assert event.tag == _EventType.TorchOp
+    args_str = ", ".join([event_arg_repr(x) for x in event.typed[1].inputs])
+    return f"{event.name}({args_str})".replace("aten::", "")
+
+
+def event_module_repr(event: _ProfilerEvent) -> str:
+    assert event_has_module(event)
+    module = event.typed[1].module
+    if module.parameters and len(module.parameters) > 0:
+        args_str = ", ".join(
+            [f"{x[0]}={event_arg_repr(x[1])}" for x in module.parameters]
+        )
+        return f"{module.cls_name}({args_str})"
+    else:
+        return module.cls_name
+
+
+def event_torch_op_stack_trace(
+    curr_event: _ProfilerEvent, until: Callable[[_ProfilerEvent], bool]
+) -> str:
+    trace = ""
+    curr_event = curr_event.parent
+    while curr_event and not until(curr_event):
+        if event_is_torch_op(curr_event):
+            if len(trace) > 0:
+                trace += " <- "
+            trace += event_torch_op_repr(curr_event)
+        curr_event = curr_event.parent
+
+    return trace
diff --git a/py.typed b/py.typed
new file mode 100644
index 0000000..33b3ad7
--- /dev/null
+++ b/py.typed
@@ -0,0 +1,2 @@
+# Marker file for PEP 561.
+# The vllm package uses inline types.
diff --git a/ray/__init__.py b/ray/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/ray/__pycache__/__init__.cpython-312.pyc b/ray/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eb39b7592916eccf762573dc928cc73e7fbf914e
GIT binary patch
literal 153
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVS?HJK7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<mwkCR_e#cXXa&=#K-FuRNmsS$<0qG
a%}KQ@Vg(w+2*kx8#z$sGM#ds$APWGmO(VSk

literal 0
HcmV?d00001

diff --git a/ray/__pycache__/lazy_utils.cpython-312.pyc b/ray/__pycache__/lazy_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8cfb40ccecc5a5d4613daf248eebd29f8ba6eaa9
GIT binary patch
literal 881
zcma)5zi-n(6n+=msgpR^N}95u;x<TCR5hMx142j$iUdO?U@A*wVneTWV(WY%aRd^o
z*pL|M%vkXcFv85zC_}(7AThB;4MWw5cW#5K2qd0#?|kpR_ru?3f6C{xfab}s=yD3+
zhd4}(oIZ>VeAojAUcy6g2znBwDpF&D6T6H{!Zp5&ZVxhub5b5Whi9-Y;#2nS^!xzI
zz(sCimw-tGHX)Ka(3Li!Ln?Cb!p$wWv18K5=6yRdX=u_G<<$0Q&vmLlMc&5kiWE!C
zj^cAPte?4#b9b77&-glHKHDcuGz!IAna5Wx-VCgO1}ofVPh7szZLeLa?X0<$M;}>1
z#JBvG_0;p47S^>qyBF2loO)q3h~ffv!RXmeEQ3`QQGOZS3mD0YQu?YEzUzgdzR=ef
z2738GEgyZ$%^d<!N?-KZk%aqks3Cs0I0tVsi_%-N_zzZJBkKQI?Gk1Z!MvDg$|lTj
z&rDt5adPLR+9Xj%onZc|%*8*-bX?PBE-GW%iAr{Z`>e`@@F<Rw5YNOgaS^$$vv!Nq
zrdx0LE$()CtchTfQ>P9~BaVsbPNZUDh*(dQO=wSmERRuLfbO9~!qaL(_$Uo|W2nvd
zwfTW&BG>tK^4Ta3jitV^G%zYdW3_Lr4vg9d`M|g}Qlw1w=$8uG`6*dM>D|jUc%Qi;
zOCKeIexs5~WKLS|!x#~8GMsv?={s%Dz0Sm+B0jKC<fFob9A;-oX*`=FB_?9O0U9j3
A_y7O^

literal 0
HcmV?d00001

diff --git a/ray/__pycache__/ray_env.cpython-312.pyc b/ray/__pycache__/ray_env.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fcab518848911625173a2e3e0afb10284906be52
GIT binary patch
literal 3096
zcma)8T}&I<6~5Oq<9~h(m?TTIy$z6H!cVs;Az{;%SVLI4#B3dkf~9ISc&=f{c*Z+3
zU_fRIQl&&KQlYBUJZ6<jn=C8sKK7|n*q2IuF$q$f>5n#Q`_MNhAgy-$(sRc)xCx}4
zk?-7d?mgf6?z!il>p#`h_z^rR|4YRMy}vV|@;D<P?EMWR^jjn&8LKE!`r-t3WLKI?
zaG2>_DxVe-0!A)G1?t`c8}=kTl$)zB^{d;2kK(zeYE7v>cj8qY^~v0ptE5i^edrj=
zmLn{K6&^+>@T#Q;avw_6fu<gQXzt7rmUR`&$~Vy<WA;{<V5E5%!dBTh(cnYumHo0n
z>uLBD=w-a@f!6(!?4jZEh_^D5^2)xS3yJ0>+=|{pCeFGrnnD=f^{z#33S~hLOwYc`
zv<(@jF`}Ni$g5*A4=XN5&e@qNwo_<*DvL_kk-)#0aV&!EfTAgusOmE_)L15lv?OY}
zCMG4rSQ7OGYKT-@5EmrF?3pulZ8>^XQdBAvOD7pnQqperke`@}HbW$h&~(OHA||y+
zN;e1qbvr=a42S>_ae(X~T}-O;GIen6I!TrlOVKq+Ehz#rH7!Mxn9g<^)S5T6Bv-Xs
zAM}~L_Xj6ab7&EpevGVg4kA?9qZO3H$ByB{`Bph*2+i?Te#+fSM$Ez9zWn5HWpoJr
zic7j?QPTBO$o~~C$K}uhHvBox@>Z-scICKVyVe_cw8Fz2*P0;XoNE~-Xjpcw2v+43
zqPd!i)!|pJ!aCgN|6#-DgdAUDH^bP$iDT@n+6wMb=XC*ca=kgnZMxP^@nE&WZIyQb
z;{1A!g4Iw#KIE9=uLBBpkg`?1h+Db~!S@q*Mj&sjS;`VcF?20WHH#&TB2BB*WEq##
zGfV6%>sigT3@W8bTv{Sh($XP6{SL_RqLj|4l*~hJCMA=a1CF|zM49o?&?!TAkcJdM
zRi@`HDi1Hx<UGJKcg#mtH*Qkqgc1G!z&?no3R^-MVd#TlZAQ^(R5$1#V_YUYXv~y3
zGU)1)F+c{Lv!tiUf~uy8OjBSlAF~K>Q#N)uGBEZyYh!_fBU)n5v@adGDo=+a$NOP$
zhgb}6G)1I?y&{T96pc*l)@+56bFiU8$S-^DB8o+_imLt>>1jxUQi+fc{Zv(j0Wtx3
zQl%geqhnL21QB=YNL8p0f_rpQKs*oExy-X|w9)eU_~4Wn8;^<6!FYU19G@JHi^H)=
zadI$zy%K9JrOXUKVO)NT<s2)Gj9N-pRXxk3BmK3Tj>!)pl1XY<5(E(DIR%rLv--R$
zli2tKfye+Wh00wlk_<S_n6;ZE1$8;%w>hZ3HV>wz9j<c3HlTEnY++twg|+21E3w_B
z3&G|UEv4Ho-LySrFq^!_PP{rgHXLyqtcV%{YuwP-c)_j*b0-NzOBY#O?ONzm?V!nK
zvQ#4E+x}iFo$1XenQlumW~kM@INyKy(#?L_t18pInI&sh*LvBJ=!N@={n#bd1DH)P
z`QXB;crs1`@^|59K7(cz6}wOqdDPhPy9@XFR>um>?T?y!K5N_xua56~QA7AQ6Hmgu
zJK^5Pq3=BjUEB#>{NiW3p^-g-Kk0rJ8o51K2n09Ab^_$?k9T`UciKl^2*~Fzghq-2
z62e6U(~3dVb2;BVv@v<-=A&@rk7rh6|KR<%-d}sa;O*P(kMDCX!M*QBLZGC3yWnkp
z+SK;gdugYs?e>TF@n`YR6Au!f*8L)sZ))4|UfTEYVBkM682O90V_)C|chQf6r}KQv
zH!seE-)~-=M!w4?tG*9C;b@rOZaxuxBe>neLmS~@u~_7U&9iIV2*DiN$3oZxp)-vD
zlLL-i+IfRjd)q6Dnv|xZXw)&WesXN=niw6AT^$_}<KyEKcAzZ0H-2r{<};Et3l4Ne
zGaA`^H(i8^YTCS>p_+|T2D><HUezVpV7HH5_oM6Mu_2n&Wjbsax?y{=lA*yFfi$)Z
zXX75AJ(!6M_CL|~UP<fnyh`6OIzeRDz1aY5k;548xe*Tj8TtN+PW~0OKJztg+<5GJ
zbJhJ-ZNrn=)}7kc)j-jU+RlE`|8f5(S3bT{;Op|C3wxZa&6P)_=ndeGg2#6&yOzE6
z(b`A(=8L<Y{--see8cy5Yc728;nU9U`^tU!bLD~Zd%UGS?tD8RJohz+YJZTgx$xYL
z&UN0Sd2eg63AING=gt@2JoDVsgHIP4!W+rWjyn^Zy+sb>ufiwqG;ZFw%WsNB0py|^
zQf|ZAe51%_13|a%cH`QOeIH0)pDLmM8`R$56Hm*Ir{x6_fG1>AY%NysUMrLn;kg&J
zp1s%pi2qJ802977S$rP4Tca2~jGTJ6kK1<DLw~zZc=sL8_J9ZaU*e8v7x(3P4DEja
D_39py

literal 0
HcmV?d00001

diff --git a/ray/lazy_utils.py b/ray/lazy_utils.py
new file mode 100644
index 0000000..64b5f51
--- /dev/null
+++ b/ray/lazy_utils.py
@@ -0,0 +1,26 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+def is_ray_initialized():
+    """Check if Ray is initialized."""
+    try:
+        import ray
+
+        return ray.is_initialized()
+    except ImportError:
+        return False
+
+
+def is_in_ray_actor():
+    """Check if we are in a Ray actor."""
+
+    try:
+        import ray
+
+        return (
+            ray.is_initialized()
+            and ray.get_runtime_context().get_actor_id() is not None
+        )
+    except ImportError:
+        return False
diff --git a/ray/ray_env.py b/ray/ray_env.py
new file mode 100644
index 0000000..85623cf
--- /dev/null
+++ b/ray/ray_env.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+import os
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+CONFIG_HOME = envs.VLLM_CONFIG_ROOT
+
+# This file contains a list of env vars that should not be copied
+# from the driver to the Ray workers.
+RAY_NON_CARRY_OVER_ENV_VARS_FILE = os.path.join(
+    CONFIG_HOME, "ray_non_carry_over_env_vars.json"
+)
+
+try:
+    if os.path.exists(RAY_NON_CARRY_OVER_ENV_VARS_FILE):
+        with open(RAY_NON_CARRY_OVER_ENV_VARS_FILE) as f:
+            RAY_NON_CARRY_OVER_ENV_VARS = set(json.load(f))
+    else:
+        RAY_NON_CARRY_OVER_ENV_VARS = set()
+except json.JSONDecodeError:
+    logger.warning(
+        "Failed to parse %s. Using an empty set for non-carry-over env vars.",
+        RAY_NON_CARRY_OVER_ENV_VARS_FILE,
+    )
+    RAY_NON_CARRY_OVER_ENV_VARS = set()
+
+
+def get_env_vars_to_copy(
+    exclude_vars: set[str] | None = None,
+    additional_vars: set[str] | None = None,
+    destination: str | None = None,
+) -> set[str]:
+    """
+    Get the environment variables to copy to downstream Ray actors.
+
+    Example use cases:
+    - Copy environment variables from RayDistributedExecutor to Ray workers.
+    - Copy environment variables from RayDPClient to Ray DPEngineCoreActor.
+
+    Args:
+        exclude_vars: A set of vllm defined environment variables to exclude
+            from copying.
+        additional_vars: A set of additional environment variables to copy.
+            If a variable is in both exclude_vars and additional_vars, it will
+            be excluded.
+        destination: The destination of the environment variables.
+    Returns:
+        A set of environment variables to copy.
+    """
+    exclude_vars = exclude_vars or set()
+    additional_vars = additional_vars or set()
+
+    env_vars_to_copy = {
+        v
+        for v in set(envs.environment_variables).union(additional_vars)
+        if v not in exclude_vars and v not in RAY_NON_CARRY_OVER_ENV_VARS
+    }
+
+    to_destination = " to " + destination if destination is not None else ""
+
+    logger.info(
+        "RAY_NON_CARRY_OVER_ENV_VARS from config: %s", RAY_NON_CARRY_OVER_ENV_VARS
+    )
+    logger.info(
+        "Copying the following environment variables%s: %s",
+        to_destination,
+        [v for v in env_vars_to_copy if v in os.environ],
+    )
+    logger.info(
+        "If certain env vars should NOT be copied, add them to %s file",
+        RAY_NON_CARRY_OVER_ENV_VARS_FILE,
+    )
+
+    return env_vars_to_copy
diff --git a/reasoning/__init__.py b/reasoning/__init__.py
new file mode 100644
index 0000000..36e58db
--- /dev/null
+++ b/reasoning/__init__.py
@@ -0,0 +1,92 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParser, ReasoningParserManager
+
+__all__ = [
+    "ReasoningParser",
+    "ReasoningParserManager",
+]
+"""
+Register a lazy module mapping.
+
+Example:
+    ReasoningParserManager.register_lazy_module(
+        name="qwen3",
+        module_path="vllm.reasoning.qwen3_reasoning_parser",
+        class_name="Qwen3ReasoningParser",
+    )
+"""
+
+
+_REASONING_PARSERS_TO_REGISTER = {
+    "deepseek_r1": (  # name
+        "deepseek_r1_reasoning_parser",  # filename
+        "DeepSeekR1ReasoningParser",  # class_name
+    ),
+    "deepseek_v3": (
+        "deepseek_v3_reasoning_parser",
+        "DeepSeekV3ReasoningParser",
+    ),
+    "ernie45": (
+        "ernie45_reasoning_parser",
+        "Ernie45ReasoningParser",
+    ),
+    "glm45": (
+        "glm4_moe_reasoning_parser",
+        "Glm4MoeModelReasoningParser",
+    ),
+    "openai_gptoss": (
+        "gptoss_reasoning_parser",
+        "GptOssReasoningParser",
+    ),
+    "granite": (
+        "granite_reasoning_parser",
+        "GraniteReasoningParser",
+    ),
+    "hunyuan_a13b": (
+        "hunyuan_a13b_reasoning_parser",
+        "HunyuanA13BReasoningParser",
+    ),
+    "kimi_k2": (
+        "deepseek_r1_reasoning_parser",
+        "DeepSeekR1ReasoningParser",
+    ),
+    "minimax_m2": (
+        "minimax_m2_reasoning_parser",
+        "MiniMaxM2ReasoningParser",
+    ),
+    "minimax_m2_append_think": (
+        "minimax_m2_reasoning_parser",
+        "MiniMaxM2AppendThinkReasoningParser",
+    ),
+    "mistral": (
+        "mistral_reasoning_parser",
+        "MistralReasoningParser",
+    ),
+    "olmo3": (
+        "olmo3_reasoning_parser",
+        "Olmo3ReasoningParser",
+    ),
+    "qwen3": (
+        "qwen3_reasoning_parser",
+        "Qwen3ReasoningParser",
+    ),
+    "seed_oss": (
+        "seedoss_reasoning_parser",
+        "SeedOSSReasoningParser",
+    ),
+    "step3": (
+        "step3_reasoning_parser",
+        "Step3ReasoningParser",
+    ),
+}
+
+
+def register_lazy_reasoning_parsers():
+    for name, (file_name, class_name) in _REASONING_PARSERS_TO_REGISTER.items():
+        module_path = f"vllm.reasoning.{file_name}"
+        ReasoningParserManager.register_lazy_module(name, module_path, class_name)
+
+
+register_lazy_reasoning_parsers()
diff --git a/reasoning/__pycache__/__init__.cpython-312.pyc b/reasoning/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..63657b3b2b5dab37acfbb7010f957800ccc789a5
GIT binary patch
literal 1804
zcmaJ>O>7%Q6rNe{+Uq!p(<a%vKcu0wR1RuP;#O%T8WEJp^ssU8MwPHYqfKXUw%$Kx
zHz5v*R3Q$L;9ev^;t1-6BS-FBnnQmy>WvdOha8Z4VrJKNg4g0n`}F?4_h#q4d4G(I
z3;|BI{Ean}1>jGibZM+39N*`{V}JpMHgI4aI#OMN082R4km{){z%o{F8fUPIvv`PW
zIXsL<@F>pXF?<G}{UKkM@%Y!Eu1J6=PdaHKXiXF+{}NhJV)+^|1JAYG#+pe3LYdZQ
z&`sBD5K2=#p2{)k5+=kC2x%fZhiEqe^5YEWm$}#A-r8JWE?(~hx?TPs=>2jMS|HT5
z$jw_xn6?sol9=-i+qsDxk0e1CE8L}fME5YUlgM)oKlFkiiJPqWVKoSnh(d#!t`!a_
zrBz~267$C9mfPAgU1ZLcH<Gn3d>Ffz=E@%=!51CNwH$K?IrB+qLFZ20+|lO~KswIb
z$lmG&Ecrfh@%pCaHWRU|;8;OOO*>gZ(_>E(qj|RD4QTH~RoDl_fBpq=2gQFR?8*27
zpFKRVIU1ikTs4d&MhimX52|4Zdw+bM<xb7`DP_CNGMzbOiWsh2Y{cW&XIdy87?$ab
z0UJKuTb5~Bj)j`@Z0MwG?A(cr%%}?}6m4Lc&aE>gx=N-*H^fx&<B0z`Q=;E_z#G}4
zG?&CHJ>KQ)F$jB(hr-%N-EFW8KD`RSClUbrF^BsShI{aP@T0V!3Y9MGp~&7xdtfiM
zCq3z8hv3_{WzgbFWpy{dZQIT)?QVwIqRggHZDq-*uHIX%ptYr%u~IY8dX*b1_l)(G
z8dLboae`>Wun9^Ue6|Qhwz=El&lhjmgy)c5(;+PTnPn3ci9-);lfThO&c$JT3x%73
zSX9%TUN4qH$1nMoe<L($gM>GBwifQ(ZZ43LZEckNR=DZ8C2`tP@3bX^_|pjyn)O@k
z@_&!g3+gPpfZpbn#G(!sIeP?N6)P`_`e9LjUaTIf*AC>v(Q5~-?`B>WuK%3<>C2~D
z`5^a7oqC~`57qLo%fG$z`|dNfcBFurHF(T3fYoA}UG2L*b0fKjf|HHRG6<QrjSzj8
zCx}k;3!ry|yucY#-;1wik>2Gh<X`X=XYCY(@E;Yxk6}9v6z!#asjZ}P(xXgU%|f|-
zAvKY1t1%lB(x_mXV39i6lg5QK-BY8uh@BC((ezOO?_QCff~mjXmr~GxN5cS4KLc+@
GXZ#n6^G2-z

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/abs_reasoning_parsers.cpython-312.pyc b/reasoning/__pycache__/abs_reasoning_parsers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d11b432ed9832177293501f5f7c5c76c891e2fac
GIT binary patch
literal 12109
zcmcIqTW}lKd0qg!AV7cw2$G;kQSwTZL?NO;>tZRUEh)Otu`HQ(MA@?8q|g$(q(CnK
zdUq*`2$U!pr=g~OpgL(yO_~YQQKxd12X&?o>P#NwCJ&kB1qhXr-O3YXlFsz<0#TkM
zO<(%`XD<LjDsCQn1~_~6od5ji@?Xz?_9rbZ%^Z@-|4DXoC&&GgUYx|+g(v@s!Uvqp
z$sUzUSx-;OgLkj$&G}M357qfpJ}0DvoImAf@4VWS3#0<9EU3X;bE-KPN`=_FUk&G4
zQZ209q_*ZFsR%0v)M&0P)yB#}HI{2nwR<?FS!)CSX0;>Nnd;2NQ}J9^s*Ayd)J?hW
zRJVuA2b55%6aP5=UHEr<IVGa>-0@gzNNx6VpXcQ8`<&cz$7|R1vbt8(McleAvz|os
zKL}tX;W1mKG2PIljFD4}O9eUMH3KIlRh7n6#SDxp?@cTDi~_hwM#@}L<n)wQm{K%j
z7Jx11-+p~Kee&hulV?tkeBSgO&(8v|`Fx?Ejw;$^MZ;Sto6j0)wJ<TkUYoOeTFvT4
zx-gE$Xf`)h(2VrBR>-BNB;!)TXLg>vBpD|QxhYjKvW5IPnt^VZ;ZurgNUtioE=?$A
z^qitk74o{G+wDLW#_;D0?<)ChQPDEi`mH=_zdYHFt@?mdI3jGyD|=Et*{ks5UfK6P
zpAr<m%qvYwKnad}yU_*p!u$LkyK|~p3CVsXtOThIkS*i9+*H@z+R$!80xD1k6#-OG
z3CPV#RB0<VF-$SMhp6m4?eYB}W^Md-^lSk{EB+Duqe_Q8mo~Q)b4$F^Y2h4imD}sE
z#N`fW6uDFBvS6^9z_?$IV;45fh7w(7<eVbug?u(Y@w%kxidOtdvxs!uW))F$n#C#B
zE@o6o*F^)Q6ZK1lX;l{U1w$ND#A#iTMLDY}8AF{-GAyrah09qP)lyy-Ew0m@UQUl}
zUX&Frdl^s+wW24RS?AM+nAI(;MnP1rFxIV`Po|JJl)NDlOJP2Wm@CMNDi)@VscFL+
z-wYZqo7i%~XiVh@{!e1aKHy585|?HTl+AJ<dPrO%3}4#Ckl;;TSJZK>9Y7{8X%o8X
ze|LtSIw=?0w%?r@G;&jeQ`xD#1{xG&@0IDp&wuva!^)tV9UGjQh2Z4}FRN;9(B0TU
zh-KP+gK!WT^yJj68Azv@Or?vP8mN?XT6SY#os`}+ZsnQXbNtT&y-)DQnSM<%rnP*=
zRvA>s(XxH`KRJX9%jPEWY)q2`(U2U;80EB1G$p)R91k;y1*R_-GSXPWqjjN1r_n^M
zhZ+UeQ0#1+Iji17z$9JQxN3llb}UEwDv`eB$lgk1?^0y292nGk2}v-U2QkxGS<lqd
z4^7rWXx~5Jpyj;MA7gCBH$;b%mz2!AVs@PIg}b++!!k-<)<rNLag95I&34qij`aWq
zr8%9!W`aYN{6sdd=%Si^R}n8>nb4$MPSP%lU{I(`cSv_0zklep4C{7+AW9GxFu{;p
z=gx8nW9!B{*}U;3w~?lNzJ4iU!CLuK1~|u9qYnER^!QqA+BA0N58OVQ2Bnb?xevXJ
zAGB?tk4}^mZLWyID!7}H1|5oGBZD+T>_hh_gyU-*V~S7XgyL`Ar3~9j!=XEqWf9y|
zQyT8ZS{j4q|NpiBgqza3?SDE&ZLLSTu~FM?F!2$s58I^eK(=Pn+if&y8wtr%v9EF8
zHvl?8=yp-Yq%mx1L`%b(O`2t}M>35XgXx$$(HsW#*3rb}g0)MN@X9;_Tc7WpQ1Xf<
z8Q22IA<R^rn7%<4XS|@n0_FFjRgrQ4fQhg@265(+qAB8xB3_a%D@@v9Fkqo<Q{e!*
zbCWJhS>_MHo&m2S>flg93Hc^nkx{ciP&b2(SfzfGhG^0*dLll_DT7$IFdD?B!BebU
z-N5$V4?)vy;6tq&(FPX_W0Nq?SPQK8j8wC(&L*=})-RxL$aQRMOv7_~=d~$v-X!%M
ztn^C*;+ogBD(bk%dN6uRFl@B1*p2m!K;8n|Zj0w@l4&t`!e=R$1Tp4kh}ntZu(y`s
zX>%CaMO@r=&hcVEFj&{*I*<{<Rpa!QDNVVYEllfa1E6L&Gp%W$y!F-$H^Y#ua;yeO
zo(4&l+2%sKRS~<3Q;~rSxF$7<OtIdYozClq1mE0tp)B&*&KKM$xYnwY!}M%vuoq{E
zg6-V79KpOLDG#&f%9$euFECkx8%J`Jhs@+<bqx|RgX4lu&YX+RmAa((GWZEBj0rLH
zYo|P>WF*2YW(^Shy=e#`JV66;E$(%ZF`8RD4NTZheNfJhkLv^C*t8)^s%}YPHV@g%
zNyK)dGzM*i`GTJ>NxF;4p^7?-`Cu(mM0U#!wRZ<^yLAO3jk5)_?*%R4cDMPg$>OuU
z#2ZP<1}S@%GBQfqeq=gP61+#r;=j%7m@Dn>QgP3xa$*g5oW`i}WVoPZ;eAMI+K?v9
zkO7;W1~23A^=S&YSaesmAuGYnZsZ|sAok1=QEP{o2ZXU*WUql>+Dukg2E>s<9*n4i
zw&ZmxH3nHLvd__y$opI?vT<uTh1PDnTC~XGuEyQk814!oBs##GjKP~^)+*6W{&OCl
zR61=or_<1C(<+t2>GXTkl4`d!rPFdDlTK@NbksIe=0|4oayDa_K1|5;!P(M8Y9T2#
zc{0}~Pd<}|AOok753aRPMrR6BU|LQapbCMqR>}@i7NqR6l=V?YMwRi5M&}Tgi74n2
zg#Uf+u~!fR)mD#?SR8o5;ZgN-{?4k`Cp<fEESy|yUwHY(S5`T^KJhsX)n?A$QT4V8
z;oCcI>mMen9E$h&ReBJV)m9Z*DF~?Zcl$nkyUL+>@8EskKRmxmMH>>OYMeoK3gJib
z?y7(%CK2l|C!VjgJzs62_W;)%nbYUbUoS2kSnRktRF3Sd1b3|l(PrZzs3gM^0iLd&
zs(>f(pwvXA0N1&x8l+M)w`J$z=*?HFA$kjQy*n09-aJxmp|@79XZvE`%`Mdky+yg^
z_yS)E_O7<!)gFi%wg-g{%yr?^jmfHjGRBFEi#sZvyQ)p}is`m|5=6<`ecJd8{%#^-
zQF`(hAVMvI@CL#~DPNXL@d}~`6g#lu29zs7+4~}%Xl-V#Awc+@$bt>wBM2po^S56X
z-2S}muRF1~pj}W}6~BdhP0S&(LErjlLsSU|xgaNZAl_ilPNsR-*jW4_$nvn#CJS<K
zJRrBcFE}T=RLsT?c*GnqM+OnCn_as#0><d1RXhcAZFFlicddw5*z=n3I3;V3XjYg_
zTit9rF`Jk@3w~`>V>XzGoACz4@T!zYut<|aj@dj3bEruw^w9*QRhwm|t)Wv*=`ma4
z#2rSbrzlhfV>VN8`dh|^93%JCv{xLaA=g4&&Pw7%YfMG6RnA3QU+xvpO2ygV2d|>t
z?ZkQwBNB%mwh?ziFu7?Rv5`EKFRUpu=ocH7cF~T1w7GqqxPlpGqcDT0=_XHVP}>6D
zTyv}<y~SLT1r)3R$wsk)%TRe6M-fUM;^9#iTA8H7TSG$6HuR)%8dAw~2SlVa${DVk
zBzsDpZzDwe9iP+sbx*=qqc@pfIH+1yfuk?kn+)e)7I8elinH(p9J-*gVY{rzQ=PAS
z+B*7LyF_+v9f|?+WM;CeN)C?|+_W7GD|%`ZT@>M@jAu0vOv+>s)2tihoCMS9@)NB<
z6wfHL!<tsmhUoO2FE|v(48{x7aEtK=&yk}vfsk2VB=Xh#<6_KRnA5Yr8182gI@Uj#
z;I(0Ft@aW!vklQ&Nlw=>gc)!qfS|80qw3n{0l4Nc*+D^{Mz&h#*VqD?+z9y32;~K2
zFxPP|9GyR~+`hYlUugGAd)zAD?x?gU%i-jsP=uQMD)@!^>YA5W^RHUt<?cPVPu)Ir
zx3}DNbgA`NIdF_=_BDYoVk5@Re}%#aoMAH<#~D=15}1)rtPN?>Wx!g4qcR;vT!SM}
zgL6v%7aXJl9ekr)!c#nDowgW#bqeRe^A;6SIACNtAFX4^b!tLSCIr*3LzO8q92p1)
zQQqX=Rc3WYe+2E$pr$@(7hw_mnxL%nz#O_Z!2LDhAq#hn`^3*h<KN0G^ey)cR(b}P
zdk$854leZ^T8bb3LEpX1^3jpX(UIk&qm`qhOGn>W8hW!5e{(5vp&Yni(XC!txOB6^
z`M*!qd=dSwdawF|bu`_Gq9w1h&sX`HdMWWGpL1(+RWQg;W2qz<%}&{A*V_zo_E;+U
zpp-l%FH=ptgZb;8l7P87u7m@OXURjGR1!wHKF)A1E4Uq;w)LvtAYX)~NeZ$yB-w{3
zwYTKIV{@s8`#P>BuKK^?pYhCaSA1`CGoFM{eC{;6XJIVjkP-UO<`xonXen2EZ6%Q`
z@-Qc2v5zzzMf0U~3R0gQW6}9!@$gHCkpKyfdY0NF<fL31j8y+lz27oUJM|%Pr#_Mh
zSz0G(bwfPdY_W>A%`=;zEhGaTH|~y{0hw292G7q<DNHe1OdK4(l2KUT!Sq`<PG(SX
zsuE3%ubJvHL$=>fcTQ$ATLU{3m_9U^&6b8wL(`caW!+g$I}Iunce_gUbrwBvWMG~4
z{98clA0mTd^K*T>mbdS(Y~O$PU}gJfD}iU`Li4Grw=EcZ7~8xYOH^Ws+k2K`hvrT`
z>=qZ>7blmx_szZXuzkzI<o5?3v=2RuKeN)cZC+j6vH0c1T=~G8<&FzaeBQ2DmGid6
z;K%NHZtmoAcv~gB4eo8Yf2Dm(IlSe!4<nmaxh4z}jxC3KE8*Ui=;@Vc$4YebO0?~h
zpwQ9^zq%#%Kh+3;ey4B3Y`=9pcD$eas6Tk3)%Ve}-6w*+e+&vJkC=XI^W04&YhwyH
zeP@(Ry|$zi6VtDxS?l#{$z!<k?8;A<;hKHfQzwJ2;r}-G9al;rOWtd(CC}srnsvf+
zmCx@tLKvN;lGg}3WoI;vFL@c<R)bDwENuwqD|vw}R5!OeSEIzA;=c3>G>lO4>4%wg
zyVC1m<v2Js3CR5hEhT~6A;>u09kEmrpfmWAf3m}=sXej&`mu34wJ}c8C4YLB=VrZ-
z{JrOxs|)X7z4TglcG+A`k+TT7;Cilj&?2qKd`Y-4j=YhrY2bG&{4xQ(Fj5?_x-k)|
z^)<8s>skV?He!HqxhNixEcTE>kyPjgd5!ypXbrT%o0z_J@+D`$<PFHU_B<6K|5-cc
zr5z<GBC+MTfC!v6gv^ohi&P;|Hipck7&V>qiB&D{#cWcp;0&P1>%`lP!jYl#f$OUm
z`y1Bo%6bFfM;J?|3<fXCMSB)@-5Pul*$>fPiM{kA<Hs-kuyj9Pj=lkjZEuCdLhJ%u
zxT_r6y3)J-yRY4Rt-N{Q`q_sqT??UGqYqjVE4}>-N7htq-gW)#uVS0ay{|0A&XmJv
ze%T?;o%)ydO$+B2N0)aFRq)#~w9>Q1GP8I2O3!oiO%LN+p)ca){^R%imrtCpoH$=T
z{zmzkH<#iU%FzoepLw>XGJYEFe;njGw=t`$y+a%LMPzH_nq->EHASIt4DgnG<KCxP
zVd6%16ZZm?Kr=bBl<K&W*$Id3q^T*2E>ZLzu~BIj7R53Kbq@0I6^TNdwOcR?;hOtu
zhd?fUXcXI^>~?3trh<&P;>h;*W|aJa?E~vtZPp=Eab!DP(k8*V*5!E8J}@O&-*x`)
z2FPlr=E(Lh(0~n`)zGCb_z1s@+;h0<<eo7zR-=!5)ocYDJ2qPPQ@!zxfIr3<&Q<It
zt}l7JSl%`?=UWbJssuJIbo?~1)$+?W)c5~{&fny|=~<)my?=ntclCUO&i8#Sew~|i
z{V)t;r;_hFEW-D_cZe^MJY2~)itlv{vOz4>JT}s~GXJ!eaej`Q^RQ1p!dLkc55L=A
z{5zK^T*kFIb|!0FYB+e2q9cxCx-Urw!VE&+P^Rot2!z8W7n`hP5IoR!Gb}bn0FatY
zFf<g=R>kq@e1_uMjc{<vTvV)2-I;G2v&XJ7mPCq7DpJ0twsB!{5nEBGC4IOEvQGVw
zRW}id$v{2%0kS{$KJ5#Et7MQ|v+nkW`&~1h*Zs9^ubJZOewbokK3;RMH-z(D_X7$B
znV?HPm|n~ZBm&{bz1M}w=GvG}sl+p5*vaFo2IngUKeH3eqG$>L>r4rguO>~UT37X%
z0y7$>Ctnl1n$5U&&62q0G|>__k_D|e)F9LAl#xa0<clgkl2G-d$y#48HeM%-^;>+o
z(X-{d$(zZ!Gb`P_-|fBGJNL@3BHar+ZuuTWcC2)7S@7Qw9=2^>ICZP<LEEmCO}#gS
zN8No3;d$YgojvoOmHz#AUn%c8Ht$=Gij}Ci*!I(CU)9IOH^T|-=$d<l$!`K5gwSe_
zQ%3eylPSAI867+lLT%B^l3FY?g(jWcwTl;_KCK;yxN5{&-ct{W4RHTOxN^w;8%DF2
zjONZ;9S<VAU^L5HkNt?h|HcnP_pX+EUtNlgl*1#KeK=MQZCMFNmcwEtEZ+9tJN09s
z92OshM^@Uq=U%P)TZ3JHdFs|PmEL`bbO*csUjD(c%AqsArZR%u(VlXko2}jqO{vqk
zJYk=nt%-Dz+F&N`-%)@XLvE#wIDDgc)u;5>Ab?PdaNV(`PiE1wt6m&lU6lu8>v1H<
z!_E3|V08H&2gV)`S95kJUDwu`JrtjpVQ|&t+rZ%-6#3$Nu0A<!pBPDNX?ta59ACJs
zKO>4`vrPMuadf-dpP9H;(g`|QND%i@>w;4nsf=P@?f6KiQMwC<yC&A37Ly~1faxtD
zILQue0ewo%vTNADn1l;?C|r%)eC;jD-li;t3`&lfON}ZdWI8R~W!f(LsOiqt4u}?$
zPm$rLz;}?`lIVbk!(3PQ2NO3YmgBoB@m;sHznS^o%yR$XO8?<|p{4#)OY!0RQYHTK
zT&T+XgY6H)y$kQ$-t)8YA?uLFQ<Zy2d+zR+@1Oa^2S@R-pKEEa2GRUGoh0)kPxyE%
z_fe~Od>@Wy9^?t{$oYhC<ormY%hGP-4{I+_Mq1Evl#ft}InPYc36mK~r=>h>i52h0
zr5EWz?F2Q2n7?9uqo<vv>d#U31<L3YY$*<=E+*-fr|dn-u29xTSubVu@t1bW$=*jn
z|7YykH*lX7z<pK+_rj4f-^p&UIu;9+ZHLOehbmo%m-rV~2KQY%JHKOIUl?BOThteK
z!%ObkQ;7{M@%tVL(W*Bpe9m**SLNt=m%p2?JUhI~Ug-X(&1$diU`4O+mS>S)9Q|H!
zm7}r^K}9&?1l%FS7DuZb9=HS>tn59pN@W`krRo5I1-QWjEAgJk!ERySqiDx`x)R-4
z74QP>gj=SAi@uxB-$*YSmCilYCaR{d*{TGM%dF<s)euTHPO3Y^h7JiY&@%A2*T)_|
zKENL3(F?0oYj;4Y+Cv@u-0lHPVrB5a<KQl#=TU3h{HcZZ8>g=q7Wqo+j;er40Ab)J
zDh0T<PBziod?h+ir7k%02V3USmB5z80B#1qTKUYea^iFMcijJK<-~<@;zC7ys}gu?
zwFRK|;MD1L51Vd_(0&*5#N*zMReCUx$6k~yk`uKPTeVRlI;lg`CyiyS%hE`upsM)f
z1U`+Pq*}%|WKhf?b9UgX=+=#^ALl<D2{h7}8lCpdUgm?-P0s980hh3PvhLEGU8b5L
z24aPPG}4deW>zz8WK}&`8$8V_*g4Yds)Mkl+-fDQVv6eq#aGaIDVxOS&_)3mt*c&k
zsmtzrx3LbmZOZHPT>?Javj)Rt?N5}gyJb4rTIz~q(GrohVq*qgwAA5I?Hd3g<DioP
zuKGM4&yxV>Y5P|$_%XNj=Unn*Zs*Uro&Uxi_?YYanA`s`ckma!=x@Bd;D5{^`*kxX
z9DCIJOquUS%>3Hfm9CyL-@%H%2zJcBwG`ZX&Ho#}<neSo<|zNo%f3JIdfHbx${AJv
E7al`P4FCWD

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/basic_parsers.cpython-312.pyc b/reasoning/__pycache__/basic_parsers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..226e28ceca61e778b9b277e494499bbd6ea5cd51
GIT binary patch
literal 6808
zcmcgweQZ<L6~FJp-*%kXfj~&YBOibRIBk;_62MRrprIpBl2T!9wH&`^c)@-S?>$rE
znT~c$4c*qUKRS|q2&<a3AX=48l}4pX>z`A%KWxHe>xpWarb$EEAKpUMZvSlOy!Y%l
zA+T1HcBOaU{XF;FbME=wbI<QQ9w&j6V81IKSWn2Gu~JDEv#@v>3fBlvcq&1XRG6Z$
zOeg3h6K3=>lVFpUuq9~?TlG4duqEwbyI!^=97$)`sh6z@SJEAJQ$(=H4xnL!ah|Xz
zSr@LOh{Oukum`?6nj9v){W9Slg7YS0a1r)SIRmcySP4*CU36Sg<!DSz3hJ2@4=wgl
z;apmfVnTq{JY%PhAB+q>cX06e;gQ1{^Q<%lBiutmLX9336eW6EfV%gD5LHr=D4jkY
zl@&q8Auw_*bykqX4Ag0D&ET1+I+#jMCInSXNhfd#Mb+w02+CwiQUt|pi5WZ^x!0^L
zf-J}zAUJ`9DV~IBo(eMpD_D41u*PYgxy;@)hgSY!TTMT^O23`A2#z>CP2v=9z3dJ<
zd7I!8+@Lv7h~SB{AT~B!x2)Cdhdu}Nd3mQ`<z4W(;qwUf=Ipv^$y+VaLIYo)u@Mrl
z;~QYEkN3eGzu*@du@zQa19g2w<sYY!m$;R0gz;;q$ptFhG)e+%v<(NMiZFIYl+J>{
zS4ckkB1p=~LBc^?ED=={E}oJ(xuPL%Qdg0}sh|)p4TDsZ6sMxTl%P|e4+|*f{7E@=
zUgQO+rjp5&#KqH643!v7i0YJ1{UMr)8kJQpD)F2k@j5+&IIO|(LPAW6Y7I-Vl%xuh
z%5Bw0BKJb@bZ|SjM`tY*3<me~7)5AP1c4u@>8Pm(Ox{P+<ND5l<z!k>IT4Rt5?4^q
z2;4H>%uRFW#VA*?1f2`m^rRrGq5uLxjx?(*sA*Y>fq<(C%V<@Lb&y>nYPI8aDnMnn
zj=^gBz71jP3o8%rJ9vZA{39uKxWcBuAC%>k49%<}B;pD#!~JWpM@>%lOp22`K)9y`
zb;pJD&i-9zcM3fTalB`83d~pPIiE-*d#cLr8ILMrEMlrBI60-cbS5G?SD7u3IZ45q
zf$g|OM7K-ift`5U^Y%@PxYe&9i_I%!0mouBNyzm;R`x+=Y+7!FqUM0nCd*xqW4StP
zD^gjDS(83r-!39ijD~t8Au1!pEPez6ewzaQRdsuX&64l4gk-7HRF-~+de177Ec0{f
zEs7#pG66j+lj2grkd4GsH%&^fQ!v_IX<z!wZfMu<i={R!Eu%s&qvBpZ5^EC`fUN0S
zeZ2~$EQwUPfstRH<|@3_&~#K70Gg=573nqHEh=?Iy40?&sWia|RM?6%v2H~JRDVKv
z=4UmsnIZvpBooF1mP`S-7$%3>HmrYK0L)Vqfk*H`09b*U0BaIlf$5kEILW7FK-Hxt
zfVp61XN@gXK+QOh)fIRlE=sV3C~-;^eKOD27`tJFKslY@IVq)biBv4An(%9YQV$&9
z3LpU?<h6QoHw8SJMM(oDY4%7&lteWW(Y*SG4OVc&n)75dkrs6HkWsWU-XWUhJS;V?
zF#sA`UCmx1BColtMx)nGq$O2M8Wc1~B%<RetORRH(WDTG1T3;22{$8Q7Jx|6tY=@r
zzuW~)3K|vS<t5#8<yNR>Iv;1WmCXck_9u{iaf#fsd#>0D_H{Gs^Y*^n*d2S{+)2n5
zy#AuM<BqrEp0A}$Qw_a~4CAjW6UI|lc9QzWqIcsR@5Y?^i&x)y6^7(nPtN;Z%DZ1$
zXluVdF*|Wxnw93piaYiecI=&R3r(|k?Hfuh-1Q@~N3M^|j?DGFAG#5mZyCUj^(B|L
z=xQst+VZZ=bDhQR-G%Pm`R>7czP6IT>00QAp`yRL;P1}+wv`FBeK%wcyKC5C$hINM
zL?2O_OsgPWWf}TdVXOMxaS{q|(AN-GptLf*Nvo#cM#wY`&I)zeu2%d>z^9584v~uM
zQ)vNbfgV`~(MYHlzD2~xx2fj|1(#Nqd;`q)B9*1C&}X6JN7OX{x$n7HGDY5FUV)2j
z<OT^a8XbH>vsbnvcK`(i=~XnXIrf|uB;mrO9Lnr_oW4aRQoWxdaQK3I&=3+zC|D&h
zgv9aWe(_g44SC=3!k%Nd>{oZqWdGpb2IYS$h``_W`ltY-v!XFkX-c!p!g&E4P##+K
zLmGflwXE(p?vwhJJY=?i6^;)ed!5MMB~ohIP;A;-XxcjMzUTGL`;LF~+{dTx?l}gf
zdGGPO{kVPxmMI=tN69Usx*w(XEGU|%o5^`frcaYmP;{1>z*#HO>W8Ls1b8L`<9VtX
zC<NHdfD<hf)4>b6&#yyF#rulJRe($coh2BmP8hlWZ%Fs?S_{yI$StD83m2eP6}5u5
zE5{i^_6x=u5tBX|K&Iz$a$aS^At0#igX|J1+ljlr=xQmrT5`j4u{k+6QgA(0@~@d5
zUhucfoVp&Fji7ah3Ohpct@}RSRA?Q{w;s&<59Qs53`_J(!T}LeX(gh<TADkSmSyk?
zjhYj#4mE0&eM<w;Cq~w_hU(~Qlh>S5X&8xBT>xMija1k3-#{$2&PCQ*)enUhC%0v-
zyzcFTHftReAb<&4@yx79ar!)wsVU|Wb6Dv8&gwI>R_J>n%S_aAYf^_9RR>{d!3w_@
zZCQqAvbJV&(Vm6>lEd`)dHN}2V3tF5Rj6j|S%+-PI^Jb(ntL9Fi@mn?2<~xb?ixDG
zyOs)nqhwioRnA~Pt4kIo@zY1FgMF_*QcA11P8BXLIv+XfzsNT0Tqe=Stbr2!f9c^-
zGF{eQql17g^DCzgGc`z4#eDRw^w(ZoP9?c0J_pq(mo$P2##;;LJ_nD-1U%rtGZUgo
z^vP0b74A{)l{1129-V2)+%}WIUe2`7B@!<}Six|hxZxq=861x)2y*bai@}0Gb!oKx
zG>BBjqc{Tb3P+V+&1Nzjpyd6~3qJ&;fK6i(f+V*?*}y{<JV0J|xMVae-Tw->40POu
z4gHu6V742xJ(%r<%y{4EXsVOem#Mte^kxOE2Bl&q17SB*0JF+#q$;h<&M$+st4urw
zD=BXQ&cj=;jkvwj-<o%A%sqL>)md_Hn0dC~Zp-x*JDw?YJad~Z?iw!a8qT*LDY%a;
z_?t|G)}5yIzJjZ-g#H>=@N&6h1#fTJN?NyEKQ?=8Zs`4y8zb{AyRSM*Et_+hIY++b
zDJVC0=1zU!zcu#jmw);4{F6h4uAzL_p?ve<tG0Vh9i_G{A0EEd^njt)`O1WD@Rf#-
zE>(cGZ*8%mz0lB}-@L2Pu<L=9tm~XRa<^$`zJ4b>TA?y=x2Zp0-(T`H6g^zQgG_mP
zA7XK1;CgB{HOCi&p+Yb;-?s0n3z%Gm?QecCdb_dMKV0Y^o`3pCVat)<p31kp^uKN6
zfxCuL*g_*W=e+Ch&AWSz3(Rf!`-UZGHra@x#cKTmEbF(<@1X$R1vOE9)Ix)qR!74s
zeldXZ6#8GX1xotOB(aG6*an{Bs`pWr0$+s%zlDv{=&w9t-BoU~%DP_%zAv&DEf=j>
z>jg@oA<)Ufjl*VbNHJi^eDY;c1)Uh<Eog|!j0>Ul=y5FwZQ+n{jFDA?Ls5)rK|6%S
zUP;Mk4ZujIAbzBiGUGr<qb9x-i%MJyoK6`6WH1*98*x-UET&8fF)=R2xN+f36dVtE
z1=`$4v@s!v(H!tXR7GTB>FE}*8~A~KkbD?2%~yK_FtVd6I%sHA#J~*?z)&<%@wybe
zagb+B25dAu1RI$hUkNPU1d_^YkbzUSmb7&jTYC$wy|;#neM5!5p?UDR?9B^ZJ8x5W
zx(4#@wwZHx+?(?IPvl3(3j1FyGsLl`>;_-%2cavW9Jq5kO8$+x#=O5P@9tXYe4^Mn
zQ0N@E-S?Z&hoSjSfR;_u!&lGEY*}dO`0=rvI(@VR-d-~A-<Ef8)2$+~PTq`?aYiB_
zn{)ymshT?yIhT$mj3=vRi$wTT3}3NkRBuW~6VVue%OzRM7{$;ZtQwmTAvn#5lB%)e
zsZ>IK3cGe<hUeG7_k&n+Vut9fS=2N{8RZcyd(4M(Oh_c)$xInfV>CqL1tNQJ8fF;t
zP}-sAi_7Hiw8LTtiCXJQ7Jr$hE$uU-{~+*NWQes9v$`@1RlwPrA-$^)@mcC}+dm`l
zD{rMOFHm!xbIOeXASaY>vy1w_Y`0ksQ*&dtI&PdQ6D;5E`<VH#e^D=&ef^fcg{J1R
z1^xiAP_kjkPS&g|JFw&=tzEg%*`s9_*4(6}GdDQ9x9q`M9cgaQb<DPwy;!R!&b2da
z!O^nVfYtNVI?MJ_%f>Q;|L%SH11AdIC-mBaqi$NcI(8*9)0=CY9mspT3XaX6TVR~7
zY+Yz0fqHoGjmHcvdSj_XLeL}9N)TI7MVeKenuPmZMlW2(x3<P%Y%~b|zC1OV0@W%(
zi112LF$jl3O#u;Ity-r(ta>v7#o7m}8A_GWth7z~P<Tm63dGox@brwNRWYFit5F-{
zOjQqwq4({`5(Xv>d$jK{j%`SeKpP$s<p5-5hN7s??1b9*De3$p>G})l|CH?ilnnfd
mssEg2ELMnnKn6PC^6dIjQ*)ked|>?=O>NKhd`9rEukj!M3a?23

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/deepseek_r1_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/deepseek_r1_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f1f12cca12870fbea688155142f2669eda82855d
GIT binary patch
literal 2509
zcmahLU2EG`^h&ZV*^y(%Y4hPGMKnz_Gb)pHBgy))v4s@|O}3;j^FxJd-K1`0$-R<8
zVpQlLV<}@$7^BI<SoW5ZLN^%fNA$&}g?eIxK(~jzxl78*o_4MzD{1<%3qJRJ+;i@^
z=S#kyOePR4J@Qp4A4ljhCE6<*AUo#(xs5cWF*+(U1%{zGtFvXUz<D^QN6OJcltC;y
zkF>}N(xN!J#rgV$*m5k#|3!%$;|jC*S``~b47fOnbz8lFElZuJ^pOu#3tzlaG8Rh4
z{0vqt(*WcXl~|Y*ePcdM1;ow@AYX!S7!?=|6<Ccaa5$o|I6B8_+)89CI9P~<+{ivI
zPyN(l@Z;epU;)SbK|_m&SR%w&oX|RIJVJAwt7wkV#1*m7v5J<Mf;fwENw<Fz<H{_?
z3p1k!T(8|vNU%b#RPkOU&6z}MD@ik>QrXn7E+@Rh7q8$KWm46`mUPCZ5jrQ!@|nDk
zO18Ox4GT6&!-i>NiL`^~8ME<{ElUtst9>;vh+4Ek1?~wCOGVSLv0+Pd#4LLv&n3yM
z+Lfv;d$!yd!FH7xMJ5Psd!yOji2%5bmYEz|dxJi~a||r0wq)5VfeT-_Os?_4i|(L1
zj2p4AK4($m(!Vo#yIjdvN|lqKJCE&?OVzQ7@r5y**Grf4m1X;iY2+7my_^rN<~7KI
z1zAwYs1kA&KjLy_+3oQBP&~(K!|m|DkTZGTu?#q4LE_O3)QX{W{|=z&f8T%N!27YG
zz4Y}$JBx&NBIy9&Kc6H4b>pBHcsulJZ^J{qRDI9aETOI9CMyIlmdvW9&{A;4VwDic
zvri?U>TK1=GkXVVNhu}Ga=XIQAuAQAv>8)HdS!bFfOyrg2x<J5xsB|$1l{a#(AO|m
z9L8ZC&WSitC$<&y#n*X<|NI9BU8O~IU^$URhJ5o1Sqx-ffGn`HU)6~%BJ!!jU4_|p
zaDj$5`<~}-1$BL0a5xP)LKa<*gQtQ`v*E4R>($_lhCnM}x2F_x;!c9_PU0@J#rig8
z;mm&O72Zd{dvTu~?k?N*Zx%hr=l1vx5A!H8m1Es_*Z?jcw04dmS#SY1I_PqO8?~wx
zOxz>EMA+9emJRA<7{G4lzGi@uaK*6PC>5D285-#Vb1tW2gV6NlL?XgQXzP$}3Jy_l
zn1UV(Xq~zoj1s@V!2(|LT=Lv=<BC$$Rm)Noi`t>%Ggvpgwjcw*t-bS_hVTd6%br73
zt;YbK-9Wn;lsa^CzR@|_6#JWEUsLR9ibtE`U{gG@ljKv0Rj!pm$@J=UGkxe$dZ>{e
zs=s-*kv<!eo9{K!?{25MAEl&5O4^uiq)x$*7##V2dVP9x^4`>)sRsk6Z^fGfCpK!E
z@%q49fM<_yeD-tqj~9Qr^wXsWqmzx{$@=g|_3Zgu{BONO&7&i~j>v20ccWZiriHk!
z%=X*kdqhh>nVv^o#~NM7>L<n<UE_cB4sCw?uy?GU9@~wfzT=x$ANEev(-YgN%xc1G
zfA}~Fieji`tSD|mQDCT7b&89Ma;>WBfrM8S%`5_2s1Ors!d`Ycr~%Rmq4Ls8Xj8jf
z$*{c~dpU5EL8gjW*A)foYKVrHHqrZjrs!lK6wqd~z60=V1wCP-QK8j|Vx29PjrOn2
z{*7SU;o1y%r7y~^ouZ;_D9W~kk!bgJZ?+YM9YPHlPcZ=<?rX&<mOz8U8?);dS{;-U
z(ZKPI57*DOl9cL1*<%|+>w~QnrP3(TvleN@2ma{-@(BXqMa=VeD#yF2qN(e+XqQaG
zlGV#aKLir}=EyKW$#TVna9A?L%TP-)1kN@=#fy(S;2jHlP`<2MrDE_YvIzZm<=x}Y
xeL5`si7%Y-6LgN`fkz{04FYI!48uGX5HtKIn)n?}?#3pV?z(jPDT3Ye`ahA4k%RyM

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/deepseek_v3_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/deepseek_v3_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e7c0511fc9564a02867de947548bf77483350287
GIT binary patch
literal 3258
zcmb_eU2NOd6}}`zilQXbe{t-}$=GD+rX-e{I)f9Z>xRT_F<|w)*a#ZEFp7BX(56WB
zl1gns1&kp;9TeR<3`OFn8N(iI1Oxo&zWH&$UZfb<3?cziti{kb6<)AnPdkSc6~}3?
z1}Fg@o^$TK=id9BKmIM9RtP*+>?3noCgh(eM32~J_I?A*9byoJvq+gMa2)cy#g~PG
z5b%N(D~koOEES|cj#=@tT#y4^v=U{dpai^RCCjNo3i!AoTj_FFp^GCtp)ytPap7)-
zZl1hNjKnQsC{(#8w6#4;$!zK?6tbKzPt*6R)Gkrr4^J^V!-}R&jTvWw+GdTii$#}a
zdH>L*8%6JuQ?6LlGadUfE^<9TH9;+}_zrd5;v8B?nzrfbmNPd;8Hnm-T67)TwCARZ
z%nejS6O>k_DP6dH=D^@rcxpVwFAQpXrnhupyc8Zkq-tB(+Xm)CK$MaKXOIGKa0S8O
zX>68XA+wwz+)5QhBSs|}AA*^NNafj>A>E1<5};K&+BOGcaTrS)GEEr?nuhsZz$vvj
zA<=i1M@zGkk%XD5kpg`hUYw_P_UZ0$JsnP@-Jzw~E~6LL_N<UauFyM8vVDFBmMfzN
zu3h_sqQP@zRI3CSY94q(GpI%9iXL?}&(Wyq-Jnc+F0z`#0vpc(R=W;9HZ;f9u6Z|1
zdjZ^aO)J`lcFm=*C+woL$dA`@fh9lTMFCRc0gdR9fI-*neF5ZC?hf(Vp-9MWsZKtQ
z5mM*oxH|tQ?k|!_>cXG7-$Dx1h50B!B1`Z!IFsCKTVLc{o+BptAm)K9!lxel)>XVA
zM604i_&}_S?2wn}tbFDSb)t7putdD{cb%DyP5S*M@QChFNDjnm;r$|;bA36&@~v##
z7u{-wGGEs9AVG9rs5lircHMC-hNtr5dgxu21PK<zTx!j-E*y#l=A^dSWUyH%upS&w
z=z7U2x~{If2n_~{rY-;Xa^5Rf@)ff(;(-C`jVxBj&YxQtqj}4`p06x<Hyk^E)3VC>
zj&t({<faR`soxxZ;_~*%a+M|42li{nqBwgdRCCew24SA-0r_T`Jdo43<4t++?odNM
zyEb!QKD&Me$fJSbJM+JvZ@fIV)w?tB`u%~6+x$xMLEquK$v>*A>bkP|=FZ^wPTz$U
z`SWDogUs2@tBuUmcK`j%)L#dhnW>eDkAL|^=C#f9jm+ehcRw?^eY2UFMC~5z3#gcO
zrRwRX;rbGzUX|HT1uE7;eD}@)xkKt?9=->k`F6$Judj1aP)(B!ZZgZW0T}kXO?Mw+
z)HXJFb{GcOQ6Me`v8J(MR2&0RJNbMJ4;ng-2GG<p*;V^~SHE5VhkClHo?gGYqmDJ?
zF?IyTzW=+im%(gwyFR+;v0};7OOEY9aYk5KaIpP1I{_<dBhSCtw-|W^mK?lXzNzLn
z6Fcg7Lmm$<=cmdJ)H~g&df-w&&cfz1S=#R&s4SsF$ANh<ht~P1UQCmxuH6%zxRW7S
zA@nMqoBaq6k7s~<3w@gfp?2#3Bk;r?n#cfICM}6{_lNEsX{saZ*4EoQ>O@1H2r)=k
z7`<saRTm1)A~fDol`-^0ASnQkR}A^yClj$m2N}@QncY#T?In?-)G4cQ8u)t&!Mq5}
zi-K7f>an_5m+oORfad_HnP))NT@L^$L)*#5LwHZZGIk2dX(S^^a!B$(_Eoty>}Nn*
z`^gKy{$xkA>Y{ycKySwZV@-8zH#M}I8r)3{?52+HrjG2UGJENGx6&f<gc7&}x;E5v
zyI7{W?kl<uL0YwtPwD!5)uPoNiR-%Ilyse8ga#FqVa)h~X?yGt>aZgCG0OxPFok>p
z7>3=*7riR{a4`%khG;Upsh@5a{1UY+UC(k11IWcj`|~giv3oHjy*Ti9Am7{~U-N<}
zx0HnVE3R?u{9}SlYk(8at^as)bYrANfZdwd!%s`%#0%>)o5we<qWZ$t*=^yo^Eh;&
zB?;o2-0tuXT0+2_{8`96N_4HbpUm8@-5p))Umb6#Cz^>@_C%c1Qo2Ru(cza`B77mr
zfr}$2lS6~81ab;Fa$;?I^_^A{r4$+d;o7CupSIE{b&;2jtsP%I(o#|CCd$CwSTiyF
zpB@kcHv|`*%=Y?f$+0Y2!rxOjSG-;dVNOBevfWvSl__%rANU$}y&NPDTdFwV1vlqZ
zs9iL373O#jSP8%n0QZx@-0+8%VT$-&fu@te40FXl^|Uf)M2(c4+1D1@Ek0=YLuUIg
z_t|m$1z@kCS*g7-`f`JW*Tp8{%ddyg_6C~(5nb=%f|kH>++&$=C%z=F{)<dKB*!0;
ilMl(Sza(#bp6LJN-JQhIW$EA2X--*F9~1ZlHvb2@(NI$W

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/ernie45_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/ernie45_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..346cbfe3a1a887166f5c96a9f8539f757e946e93
GIT binary patch
literal 7251
zcmcf`TWlN0agXmeDT$V4S(Z+sWSNphB^Di}e#lKM$IeSmZ6$G;v@Fd#*|f-`a(7H@
z;_SFZiYhJIIv<6l{+KEXNP$zt1q!sELB9(0hbIOgb8r9^O;My@OzogWKibah@s6}A
zyLHfZA??jRW_EXGc4l_?Tfg5!pk!^|%e>c3$nUXX6ng`>a{++sgd-f2B{?R+FbG?+
zmYg+VrLZ+?%h?n5oFn0&ZClovb0u69wrAZrPr}0x3*lY7_a>uLP53P2IN=;`5zfhb
zZdx0?{!6Z?`%`R08O?Q?f33g^X&&J1FNplCn92w|H=Cd5g-nqbpG--7)S_)WdOjr|
z&F2=fyqw7krw~b!HQzL!l~d32l9W1!6ucQBBPX-@bLV&wnmZAD_IyT|&j{yE@hK@U
z0PsRelz1_%??$hKjmDin0q`AQ1WytSM-rA7fguSiXGz$2JMZAEhhUtuC7iTnr!7aq
zMO#j6@oo-Ua~971mhEPPXu@OmdRltDoR{~_Sr*A0!};FwCH$P9w{rpb55j+l5AeYq
zxLTVDwVRNO4{;quCn0kIF8r1)(Z+29oKC(SR__3ajv3!M3(}c$(3Q5sO5sIvkx6Vj
zO`=^|=P^;p@bUedxKq64VWF74>;h#PJC_&P1_moP7|Z7J9G{I*gxT}_ea6{*VWA)+
zfm}*vGZLMSYoyMmJ%`3Au_=$|kjP65c|qc*JRCm<1I;$Yfc5Xiz*$J9*n+Bs4XmUj
zr$jj^qdFD6E!4Dja|$nTjR}rJk6e7@i7Cx5@NZ;64fSr#A@XuT6w(c~Zitl-ROmZ4
zsIHSsOw>}`gQurU0dL@tbZv<h4aH;Ac|qm{IaYKY($D)Yd6&^_5}%!ukU0CdnQ=L{
zFussk7=wME<K?l7g~=~HK0nEiXESHV7cR-?^TPP+*=!E@(opAdUYB6f>`CgviY;8y
zyshUS*jm=HmN`3N7ZT_dxk~B|654SGK=N-7zI)Tbfuma<+hxdE3;|iO4J!TIVh4bl
zyD14niA)95FKx`6!6I&Rqut^*N`Z18?MB)HZKI%-!z+I03iSSnxlUwLlyBP<@_mq@
z!kl9i%TJh}IWk1C{*?Iv!w`jBK<REOl2^ucY2lcg4NBi)V7ANXZ+<U$o3H`FOrHTa
zzXm0RBu)AcMH6|tskG2^8$%C8Gi+crzb!P)vpp2et|l!5YN6>j`W}jAkAc<vw$L=p
zJ4&>@Im3XU7yRPpa?S#hFnJ1d0-I+L@=f2?6t8;ah%uY97(4kEbBRQ)GsOg67iu(h
zYk~U8<_eO`p5?*NN)pe(0N4<|X@GV8M++j!Vj(Sq9pnlkc(Y~~_{CW9lwqAsYhak}
zbiR<~SRpU7*?c-BgQY_ItsALvxL5jKBsL?^mCc*fA8ps{QelA?HCHl89c)qy((UW^
z5x1{-UP@&P{4r6?i<<p)Sm3N?1^XqU0%?I33zN)n;&$xxnRgkxP?faprcK_2fY(La
zW{%#2i3+2I?y=ZFPz&isP~ReSNSg0dL69>!eUnkUh?*dxGHN!kwUXwTe}jJA$z(bU
zQb;BxG#uz$u2KUfqIE3x-N%X=ycvQ?k`2tlU$2teF8|w3)z!7MqwI>8X4hTuwU?mU
z2zFG1k@aBYc6(3V!n94?v06I<bz=1g>K@V;xp86n!VO_rSevbm9ahH<S9+%wZ6CUJ
z)_T|*&n!Q4V`h0~E&l%0yHk~(130jwHaxmoTq&+zS-EnHt3Gy8ee7gq_yrsqtPMq1
z6Dx_;udjUl)^s)gtQvo|GV~k{4b<4dRnLlNHLwy`ldI!TsN+vm*e7vl*GB(PwSS-5
zzYlR{)c8!9J*f|PgH>;@>g_FicdrdrM-HkZ2g@TzZ@2g2K}K5+VkM)~jBb|w3nKq|
zCSQ<}GJg@Gwsb)h!4K*!@beJE>2P~<B6@5pwl;IN*%fS{7#%Zd(_#YiQE1dPTL5ac
z^@_u|i5xS(2ZSG292^af;1;*~3m||6dbhCu(Cg60TWjdu!urqIUMC`R$$B434jBEl
zVtsfYaoMR@IjiFACYN0be4G9ZR(gPMDZ-XHD`2@5_XX1`HqXJ?3=Yv5rhRYD0Q#m)
zZ1$R19-xc9d{Y6e2Y8apUd6-N=O;lTI~BL$x#u(wSgqwW-Uhy1aRXnxctRPi3@wUF
zaf?pH{hs4yL&~Rt3$3mD$Ooi%jS){PR^Z0gQb!5q{&&3mLcI855->OzZ*owG!Kt^<
zY6VZtenCl_@=<J@9UmsJ#ugC)tng@y9yD*RWqum;B+_zoxA5KccDMa|xwNccYChNo
zT;V9}&)L}D7FK|+@c-ChQ;T&Sb{Th#>TpY|Mc=LOxtp`1o>URMkq7-4mSY!XF_o78
z^;yEsiTNCxVySUubNZuNf7T)1iIl))c?kjr2rY6LdE^T+KIz^#&x;VZG)z1@+8}V4
zZ5Zw*i5Dfn*B?kvPfPSMIhT@Th<+Btd>R%6s?FILB^lAoy>HF?z9n&=5BHu#jQhSR
zad3<s28zS%xjfx_lWitLVFo-xn==}(Jahb0d?JWwd1f@m^XWgJKt{uD256eIf${0z
zaflK3!&Lah@e|OjSzZuXfW>~S2C%~5QnSrvghnjo$bwWd3wjh~7wG`H0TDfwh!Kf6
z2vyXl2R$R$F^bh*tj4g4VKokw7NpEhVvq$3@E7Su=%!j8&3b^A;Vx>Sd%`m4k#J>X
zol*4H-A-`*sCX^!R8y6T`|cA|Jpc#OEz%0G^(wi$hxmevZ&tj0rAODjgEimIr6*Kh
z??xzG4Mo&Yq=rDh8tSLOUNy9r0wZc@r0%wd0-sqO5P5}2xU23WzEIWMqk4NvLDf4B
zkKn%Ojr?+cjeB2sSE%$JUOZXr8Yo95N+-)*@x`ZWoouP^7ZbPSUtan7mCD3ZYX4K^
z{uAZSrx%acI(J<c-VsW(mCg}p_3v5jS?O8hs<Gp0?05wx`Fd-8yKh`xzKn6+v^q9j
z={r{T_0)p>rBmy{;aYcpc_97^=~waU!CCd-Y-RFAb>PMFz{}<CGuNE8U|(t9dT@x&
znt%<JyW`iKw>$c3-I0$XBTLS^c57IVDK{R8Hyd!mKzr5StNMF^`no^9(aFN@Fd`jQ
zgQIJ2s=+Csc_X$QTMJjZW3bZD-qlxEUcEI~-S@1z52MF&XyCz{+lY*;9$q<oD_ni_
zg!<@-O62Ksh^=)*O5%D)wAMRR-aT0!o-Fr1{?74Q+qP=ksM>}rw@uZyL_|iIN8AAR
z45-1OwQw~$rNUou>UOB(+Q~|2u=Lt`XwO>mS6@-bj(iZW9zCNTJ+nS`X5*gY+;xz)
za5=oY5*l9XUk{De!n;eN8XiH(98qIO*270Wc^G=1boBjva?SZ+2gvT&2R8i+i-g&=
zkq<lemwo&7AlRornRKJ6IYm8%nZ`)fD9y+fOa{$U7$f9u7vw2mT!Acw5yiX;%758<
z*{0aUZz#44h`p(79km#~;j$gD%)CGo6|iW=xY>h{iRDo2;3F|w8v-w^L#$#~9P_Xr
zh~R9BU2c8FZxJmUv@n8G91yL+87?xC1+vK&jBOR?oCVU8*3|q%crJV|>#u5^$Nyzd
z(vn}?IyH&r?tkn`PSHf9biiYnR{Y8Z$cn#masd<Lsq8CYRKK>Dy{GxL15LMOBq3RF
z=LT$&6DL3*Gf}6AF_qT#FV<Il9Qvu35f30leGF&<iMn;qas+$7j1_t>-D$X+zQReJ
z3OEfvxTsV%*>HSf6edfkiN?7a5AG+StGMSs^$kBnD&K_)Ufy@RNpEENWp&qMx0DZF
zuIzeVb#*VguT6gBZLf9p-S92@O0(6WDRpS7(scyQ_^#`@cXFla>fk|j@L;9$(Bkop
zVAs-<-+i+*xpwv^hi`rLgYE14Pk`AgMc+%CwlMabI`G_Y-Y9p!40f`s@5jMXe9@1H
zW98s**)>eBezX%aCqgR6CzF~dnFJ**WD)iyldlz0*~W-7ndI{6WK#FyR*<6>OeRwT
zq-;_sTS!Rg45t|n7lcfZlaVjc6bntMh#05RB!!4pMYCoES&smwZ~*OtW~bUBB4agw
zBhiuOv)N=4A`U7Bj8?v^=R42}h*;rM5pO5?>$k~g7Q5Y550L(`vaM?=QnBr=^^TTp
zolDk=ZM3$d|LXJCCMvf64ZFW?vDkMko&Ga{&mAjq1ZW31ARX#nn!urMbEv!S+GY=w
z2fp+<fp0zb6~_M9#`f;I9Rcvf06Hn?BHOy^ZVGzHuA$QD<>%{O+Vqj0!P3#?!*xGx
z21xfnDYCq)9;D3>@pLZPRCmvvHrk%EblUgSdiv^C{Ei%<-wk(QQMxw!c5!K<6ka}1
z4i2gA-G8yejL!&ERHBqAGZ35w)A?+cPgC*4AWqa7?}I=`knpDtUX-X*G!~QgkiM41
zOAC3BixdOt38_pB#3<*13Kb8Pmgc2%^<S|>%xq{qw8xAXV`o!RCf!K$OCmne#HVnc
zqk%*Phc9P+w=}!%I;88}l=u=1pp+#H_v%)LVLo>eX6O&(kw20bJ|>Zm$@K5s;cI6q
X?%u18yN;JE%%1YD$3G_sP=fyi1`pop

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/glm4_moe_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/glm4_moe_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0c0c0c8c8ff862a571da0b9f5a441d715ee3e52a
GIT binary patch
literal 6635
zcmcgxTTC3+89uZ3E6dFRV=iOv>%dYQ5{!jiC&qRlHcoA9H6+n!*co8)>@Jy^C1$m>
zPMWAhy@;18P(=!^BALjk#6ut4w>(zrLwAg&-He=ys;w$Zt+W-68ug|9|1&$Y3&C!z
zsvWfF{O9(abN<`;&*8VhppU>OIerxTTLU3~#De)bi^R?x5FZeM2#iGH%p}7gZIf(q
z`=p)HcF7TUPCDbRNf#|UBzN31>7le!^2U9WK8Dzc=n?&Q7z1@OU?b;=;Chz`Zqawg
zUaSo+dcxj^SO_z^=Zg4dN=!sWpzB_d#R-{@B}8E&d0kAz(xUt#uZUrre&Eb3ubxT9
z=Os~%B@>r%kfQ2=5m8e4i=v|NGl<}iC1NTkC1++t8H%CHBCjM9vBb<PysU_F)L4O$
zhKhxq&w%(LY+fXjj6f!B0yAkBY@%b@woIlO!TxSw(kVDZm*_qSJq4%enRdXY9FyK%
zwZ(R5b3>a?07eL2`1#=H7X!u70gDP+lv4}}6=^pi(-lGp##RWGFs4cj!CXkuHZz~L
z;VPzGLN)ZPS|&G`$?7X4T%#X4FU1EgCdG?ML6r7voc{rc#K*#CHL&xPCG2!kX4P4d
zEg#Ls5hLQGBPRB3WK)W$u*2$XEOGr*BoZ0!Ge}lN$tjSrf|y9EA}gCRplGUiLuKEJ
zVP`g`Dr_>P&ZpD}i?h&K*?Bp+5EB5LXBAbBMO9XT{?S<q8B_QvNu)>?ZV`iBi1BnM
zU19<|adbf-`;+H*NfEnn!+cy+MHy#{DMbcQELfDxM`1b0i4t%$nNY=q%7T7MNktUc
zsYP?kET0hAJ)5Rb({eISVd!qUtR2!u-AmbniXF9q7|jpO5cP5A_aLXAF&_}MXhMX%
z@5qp!I0(rwGfc+z3+9)u7|GZ_W`2q$%47&<;RrS;6^#t^)D9&WXM7nlN1cFKHgd(U
z2F)75ai=)vJAgV@Vb+)OxvCOvQqa?y!>l93M1mD~&Dy8JbeW?{c^Rg)lc&P;l(0;y
z4AXDc0cN#Hm-4skp}w|MHmSD*Q2&fsD&;r*Dw-+%1gAOAJIo>pyT;S*qTQrDrUs>h
z!x>&tVv5Qq)Xb^$WXT>ZjbY;{MP;W%P+SF-5ljr#)v{>A$FZQaU^l6#3WhDDWH5kI
z6}ZkwTG(akC2cP{glIA)2`rc{D<z{m7%;UXuti>0`$W)sz_pfYnmbrCuEkpG;c!rQ
zDyex<);%0Yy)vg)Q6!EcakQ%*GO7U9tgxWX3Tj720qsWjUE`&ccvhB^vhG}fB~Iz~
z8Bx`1zlP4m1igCC1hj6?99S2)oJy#%xPcpX>JCMere)L$-NDN<itf7p7R|jJ7nJ~j
z;}o=7^r<)hd8tp0&-cy8=6iulu$bN(sllP+*9XNuDK^zNzo^b86MYMk6z{Xx-8Td7
znu{kz&Z^=J2}I@>Wi-EZd%2+Yh&f_%6;5=bJb>h@o8*Bf_`X~7)UO`QdIr`f?s*0_
zu0fJNd}P^i-_x9L31i-vZ;8-+J5-YkwcQJ~J*aLh*qEyR9lO1zqCo7yih_@Hgl~`C
z8oNDyYkYGc*FUQDk8ZV(;kd*3*3R2UZXLNDxfR*0%^f|f9X-3%dJdafp3t-%sLTaA
zv_MBT(3{7ZJGD?}HWVqR|5V+K3wentTZxlY_U*v_i0+Lg;H&^?fiz@MP05K}P81yx
zy1$(%NIn3EDd3;&Jv&<B2zjHOkR@9NoFv9Nd%x@5gvd6AEZS)g%c++7VGo7*aXa*J
zIN%p{rhn%{@#A;?!bNcPQ3z64RfH%7?Piv@4oK6?O>^O=;TU4Y1yNqKAa*$bqaz+v
zDW!*fOJozGVe!#fF?yYiO_$D|m|{T~uxN<!B)AG$jN<9F4=~#e2=lV2Kzlf1jURvb
zFZd?Tg>7;jY+SB~By5*a#bg!|-9xPwC4h{Eeap>QT^Uo#v>1#z-SZ^X-P^k#FqD&!
z+$4nnIoNuuef`Dt_76kLFXcmZs{^@1$FxJo?uCwhUUw*8b#Qee*EFCt4Qy2nd|uaB
z@REbwpske$<Q72KUm;N7pb+~Co~nthfh;hxZH8O{waGAZ)+q`Di{JjE?-b8W!JdYG
z0@DBpVMqFe#nQ7zWI?^78BUbMgzl8Gv?RlExebsWB5qL(x-*s##2Zku1figQn%u7`
zMlW0uAH|dIdy)Y58E_f^m2X1=GVl;ERe!7IZ`}xQp4q&-5z+j|^EC&SN4IMlS6}^z
zTjMq+a=jy3@5olu+21f)(`dHo<!sG`Y~TWwf*u6jT8Jf63WxEY9*Cx78C1<E`5?Ab
zd4sMlb;P)l+IE%I+o}o`hnN-PQHYkU5B)GT{J#QQ%44UD%aRX64ZJzy5@`Gk(%i?y
zp%$IUo^RT=Kx76S!~SC&(E8r~BQq{&`%cC_SH9XJI*fQiM6%@0*dc;*H;^Sy2J%uo
z_~da^3+*t<tCk`fPsS^|Gu}@fcZz$y0?}c4=`pLvodwEp?4MeZ%oVb$-r_UZ&;DFO
zPJH;7d9dxB$8ssKM;uTzrMl#M?5O|1+l+4)N1reUa`gWthsW`BSACfb!fw719L3k1
zjTKQ~<VSBX^j5;dl?*J8jT`snlHY#`E;AC`xFBv6`8Y<5#<h%nYgUvY-Ygn3`)m>5
zBwIAm62w)!4pLXfj*ckwRyoZpc*?<jE(#L@YN_`*ymW$RFmF@*RMb2oZ!DI1&tA3*
zn!4DTBt<V>&8#g$4;WGEQQWZAE_Z?aWYqg{ct-GAoYCFIo?%8l2Ca}C#mueSB{3mm
zNKel|-7yW`SFXe|-b!S=riJ~6D?Wl1&tlSpNiQZ5O!^?vy%^O}*G-}6G`io2erdIW
zCJKkB`5A}lA=5isYlVopD3|o$H*xFx3><}-lr_+mo8(bD351rvzvXXPKYGvKo(~*a
zeL)K}uMgzfhPAfgyF%{NRqfQ(Z0j{GaBaJ$ZrdNq`P(&rd$#+8=09PDYa4x9XsF;K
zO<f;dTD!C{lIuCG^_<>nd|}0#Z|q!8Z+Nqf$AE5VUw`#iHJcN;=SH>XMz@ZRX&qzP
zjtkj_i!1I2b#3|PuFtz7tLGm%?e*0VdsbC%4;(KQ;4rFwCRf$1Rdr{3PH9!A9=S+;
z`^MP)y1{Ja;3E$f=I+-GWh;mB!Kz%aQww&&%7R0?*SX!?{ZVo)xgq2tBU)r+tNHAT
zA6B{F%Ja1?AGfUwxz1s&b9k%uq*i<KGjG9eYpP!H!gddJ{5RWqR8h8I*h($C;k#ec
zpAGaI2WP;z?HJ~#yJh2@D_S0pAWcuZ0EqMPQOyFQR6NEPGZ5=I;O&5!wqd+8XFdV~
zu=&AAlPt?EziWrniJqgf6VE9OuoDiT97rwU`@w#v>o=QspONOgufx8V981n6SH^XN
zQ6O9w7&s{%88_}E?Bpw+!W$Z4GI&Ju4a#`#LSy{jyC=&(U8eUKr4%sY{Avo`IbXXp
zk58Sv^ctA|8$Il<;u|MQzR+^=_$0O0|BX`z_z;;&y&#11=)tH%)4g!vRAV?x*kgFK
z<JdL?iC$f<iFh+r73#)xhBG`_5F8^fnL($52QIE1Kf{q#ea(@jd!NdEEd!*o2?@lc
zECK5dv}%FYjUFxVJhkpNE!4I#tc3=_ORY9$Yv5+t0T$YPB-hlhHT7?f<OasHfw3)!
zO+5|U9fNn7dmSgTf#%gW?*$HLPhZYnnb1yOE!c_o0Nfxj=55iyD`qr*e|{I@;ocnk
zyv9DispbY>)&^hRVlQZ(re*KS(UqC)`j(%E)(4h@`B438Z#LAG^>k5Nh9_Bg`bfZ&
zBgg4J4zBt_3SK2SJ-~5qrg*8?;^sIZ8Ra+`BTsto*BuhP1L^iyLe(8p$)qHAU{e?p
z-441SqxBny(I8T2zPgj@jC>mDVDX6}DoPT^!O7MHwF;O9IZY)a`+%egs)BMKlCRz+
zf46y@o<eP%vm)C%^d*73aLn&Ku+hGud=f4YAn!VMFe@~;ofnyniOsf8UM&!$?+$!s
z|Mk!gr3=+3oder-4FxCUAPu10NO{PC`hpiJA8G1Xzp{3*;Kx#cG`6pwSvy$>VyS{O
zw63?UH5EcwswBQ=RvntRai<E4-(%XG-TB6rf*tcC-=_Jtw_;gYnRq|F+P_}Ab|M?<
z(7c`ha6%6%1-i}gaD^U<CM8LXqOvOy2r4KS^#Hv4CKPxBkBhQGMWD0zP7{IKio7_V
z1Q{ri<UG76$088Os7XMf45$3p{j{&~{{|U@e7%C!SSPTIW+A_TEv{lWWd0|_SRB1Q
zdxj0wI3-_(CKQu`K}5mMFwB=8!gTzZeCsddl`lx!7v#tvytOOe-SRfybUkvtZezOF
L`@STYQ@nozMIn*p

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/gptoss_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/gptoss_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..051cbf9de54d65d9b875e937e468cbfe6e67285a
GIT binary patch
literal 7166
zcmb6;ZEPDycC+M?Tz;-3k`nb{Y4zbqv}`K2oOA3bc4RyLjCDRsZF0K1E@<vbqD<~G
zv&-1xQHAahpfc+AlxqviXo?bTe#o#380h^-i!0y)1sb4#mZq*^w+^b}?tbJSUFF(C
zP@sJ?Bv-UW=h_80`)1yoH?#9T=kcHXeh-2t#r}TsP8UKyC!PA^tN}YF0C$muBqoJs
z$=jA<(zaO}LtuN#o@QrR3bQFk+Bxf_up{M4bF*C9J?o}@XUdcI&Uz{AO8L_MSwDrj
zR3OdI@(i*e*)O*|V5+Omwn}cvBY7pC<WDkEK;l2P&ofdB{92{9k69`Bv2C_Z3dun!
zEQjQ9Crq1TrS=cm*><S|MuKDnaA6pYz-WgJokvpVhe+y@`3LseDv>27+WiITOhp-!
zo0i|t%1S~8xZ^68XK*~J$kL2@LspVG8J~`81l5{}V@(zl3vpdkvw9}0M{Q>K40O+^
z=}b!2ld5u!aME<scUDg6@hh^X#plUf&y1?3re*wrjG^aEDoI^Tsq^!+%U_e@nyMs~
z`Kx3FYz8zPXA^oB$5WynpEm<KP7+#KB3&)lJCTQ7D2klQpNuQ<)RLCeCi3a(YWb5U
zt1o3_lZz`$qAuUkzj96FWkt%Lyl*!h*X8-7V!9HlqRWbI+5wRZHsN<J%3?np5HN!!
zO|G^D&1}(hH6zC7bQz0tNvy#sR0*APDo)3Bm;m2uI<X8Npd@O7r3deTmWW{I2sEHt
zOdkCy`ZJqklk6aDR&so7mz;aY=55PNo|#5b*VI>?4O>m9=`?&p94`sF`X=234ghD&
zlcoilTt@?W{iF!-eFVFX0EKBMpJxL|5Wc!Hrl&JwnPlb=FrAn6L$|WWj=z56m^_wB
zULVUW=?khd_CYF@9>aBsjm>9tRntUkK%`oNW0@s0GKbZ)cs-j;=}AQ-rveR;Ant?p
z`r)TtfMx|%oG5bmQRtD=2p=m)dJ7(-W3(LXdFEo>o{A4e#y0egIV1eq9-QCnb*`ML
zM39ePxwHekklFg&da0zQC&<^;A7b591P=iqB9KrDE!*<8#hPu@3CTN;>UOzo&)X#%
zwJkeo7l|lecqFz?&7eGU7JY93p=H*Z=b-akFHC~2?yisJEe^Y!?hLUgZwKK!r!e^t
z+(DW!X}U=hf+p%P*@Oxw&PlSIp^!74$$)B`PSAgN(-Q}>u%e1{StUW_r79Yj9F+%=
z1s;UPbSd&pIz*I1BVQ?y2lo<WJIGGFnba37p%Pvijso&9p`V3j1^p|_ZwK0bl)jxd
zdJdNYM^?_4S?}tFA{$;?EVBJu>`0LvF`{QT*|&e*(!a`<Iev{Ra-Hk16uJH_ZluVK
zY(^&^50#?lf5u&?*iq}iwzq9%3JbtK0YB>@icX%LZD@WE<SC<Bkm#&UVrD^JGCOBm
zMRSZ~|Ijz<kXYF%yQmBuG6(+A3I5Uj+-MCCI2YhN5+{2lH~c*C^UA*3Y@Y@BEyyAJ
zr9cj(I|n`+<_4q|nA0lrl0zmC#ns<)RFmeMQX5dVO2PU#`1Q6bCCu^yJ`DKaD!RqY
zhCl<_&G7k*{!LAL!C&V7&O>BmjS5v06u=(|)d@mcmE=^+L+NG~<mZNktR`#1LL8@6
zg?JJHR0hWrx?tI~Q1g~TT#*EQA*t0?pzNThDyb#HMWRbevMwjU;^%=>7C`v~b&i62
z_{As#)2-Jd&2y$ol#d8_=Wn6;6Xq_`Enj+@&7(hH!9baLCU5%-=C7PdFp^K0KV-o4
z&>~=7d={G+p2R$;am*vpn)CmdZ)=!uIRwcL-0DdLT0&8FD%aBBhUbzHv2xyqc=ZLf
zVVCL9vKfeeoG8-xD4IMK8#v8cAO>qz5+F&l*E&iO&bLY+CM8YGV0kWi>*aVYJ4f)l
zq7~EeTcVN$H!bToWtq5XSWF`xMUzu=_#hml$wD;HOy`Z8^z9bKL@EwGU$p$g3iS{8
zRUppwHr3Hs{iDtTjrJXAe!YU8a{k+{A{SZjG`ORMnJ3)Qjo*d_!ok@1R_t^!c6uvz
zu^78p_Vw=AZDXEQc9R?3gZ=DKDfS*km0vxw%KnTyL>-0cPAZV2kYmBb=%3Rq4hCo#
z_y^E{yF_PT;Kc{R0$OYg9yNkxyKYH4Z|Q)<+<<S>T$dnGd{CqOA=5x<uWL&KrM-dD
z($I!EmWDQrSu5rsiG{3zt*3Pma+YYwVe)LAZ8`(?)rIo58zZn&=1%10RLc(C+E3om
zz^mDgtS_TGa^zr@2eos9JspBQIrGlEgJ9uA$=Sc~-1siUA4sh4#PbYLIvdv8<qdOS
z@Alf>4>E{BOHLNu`96!5Tv4tX9&^KAZyEx)D><FfmtIa-wGoT(i~oV=3*snd&P5$~
z8~}V28q=PV71M#^3S_3Q!9di7zd?{E2r|^vE?*d}StFA)eN|A@Ao0>oW>F)DPn<eD
z)!5sTY)rC%d+wFyhV~-e6mZfUu>TcQ?i<|dJ6-HMZE!t}@Ke6c2o9I{k&VMo_=5)b
zt`U2;1TBB?<(My>sIB9Vwe{nF^t%u3#=*BrBa_9B$;U??<9}|wv^rVlBkQf}-})qI
z>_1-WKT+Iw!r<R9PED8i>Fqw@lW}ACjnd#mv2S9{_q4OO91=bmEF}Lj_LFhr*yYmr
zJH>%_K6}47aP>d!wyw6dNs=ITu1^#@hBuCGjb1H|UVYMW^<N_Uwj=$8{zClWpb<M=
zI&h}=${8baw%k3oV`n;F{SPM+hMon1LB);QE;E%L)Do`d5RFDn+yHe2zXL#HkjY!B
z{$0Q?+m`L%5bP_qc{EMbxRD3UBu}%fFmEX^L~v#*YRANPV3ICjat(lM#;(>dB5s2*
zjRd1z(Fbb*S*(R&;?i=_=F)FMDie-GZNcG2q8rgt<mhexDzkcQZL;ibTRl|{hF33^
z`QR2mSmXz{_ya}$z{ar>KW=d2RZr@Nu<}7t&1&>IW%?3XjN#%@?Rg-x(BoCOZI_UQ
z5wcOU)uOhB_}Y~Ez*NHWHLy)`K2#v*sBhkl`Z^h<&)!6tipaIhExVi2JL<l-{-*Sv
zW$&_ELd!n*`SYG19L&3JF&eqxGs}Uzr>Qstbq+X~_cZuOYg_^^RpSDj6<gl3?8|$B
zH)rwY^WLVs`3BzJ2Hw{AbG-e)+Y9^lt=RMa6=tdNBH_#XAKL0Z7!=PwWx|cmbX(4m
z>KV8*a@ZzIu1ThcIv<VX_xL0XV<MDjOI1BDl7UO4xlEdONOOfW#J!jSBKO@ppy{Li
zn!4iigv1YO&_LlO-TEb*x3(ox%>d%+^}N<~R@s}?cS0jqTVfuKPt{9y*Y$swBh(V)
zcpB2t+~Kb`nI=<iz(U$TLbHOtY(t|HKRs(qPM0QTN(X+c$PKRs)_sNe(~;vp9WqW`
zEuHvQY2;dw+rR2x`+i}v+||3vmm@u^{<1e>c!$d2!6)Hp0k57b^F3SqaFHM0aBlKr
z<$<xE*dLwyYwsh!F>vz9z`4gmAMx7*V{3fb+irLV%HjSe;o-tHGOufk-(TeS7v?tk
zLuFy~;h9Iy2bVXl7{ZAs!s$<?kNn%h=o+lo1@j8a#_&Wr*zuI_E~uX_Z}L|R?n>31
zebuzGTEj72xLUJGSk?vKOJHh)<QmxM6nAsxA2LzfRBmBDqaT6-0NfumAuebcIgyN~
zgzFF%6ASb@KrSQXGGHCAkW>UkRSsE#p|_KmFhedDX&H(PlAtZ9*_5OV>%w)J-YjBJ
zHVRIu`bAP{B2^DrdK+UEgFmJ2^LwyQOgy+owhf9=)rZzS`j8v`KWf1$VMa1@ki7@-
z17+U_kc9G{3bMI9wS!clE=AILa$`2Vw88=PD=2b3cbHbq!3Hq{l1*mizw@@0&Rs{<
zESBgb2GFPO6sFNUf;xol>#s7nHE&<EDhhQTkSJQw46aDcd02_%OL<rnFXdrHyO;8?
zC>W%B>-*b{k`hbOX#9rmtK$~yxBU75yd?+Bs6}AlL$WjaG(E}II(GL=cW2j67b-RE
zH2MvzI_uQGam_u_tMadv@l4lstllK0PG_~MX1a;TBV|`it30{z>Bh1d@y{oO{aUVT
z&#;xJM%^a62xU~$A!XAU4G+Utn;e)WT<O#l-Va^s)=g)%@M^M21u6ujb^~#M8qsw^
zlORn$G$uzYMWjARq6BreRjX<Te+*_VL%Le6(^d<!xr5D3t2y<Lfv5HhXlVV<2R^b7
zJe<J~JniVdoBJrYIdH7h@w(CS`u5miqouzb?A;0u7lXqa?#<wla%lfn=wLB)aO2yX
zp<}x^ZZmjz7x&&~=o`B@?`H7mF77*<q2s>@wi_KIrC@Yp@=5T}(@@vl%O71fgk#3>
zOPis~Px}V{Ja;emG!ok!J8PVKw-k8~9DvZicA*kL5n+x0(uKm^)hQF3p*L&vn+Hyn
z`rcZ*u-(zO#zW#75)5A-^%v1Fx!Wu8v@D9IM-;&gXHx|BiQ@a&c&dhRiK3(?L=h7m
zqIYV14ItB=gnBi5oe1-7g1JBkK?In%JQ}Sr+@laC{>F6ZS@4uNP6o)03oB&QU%R^}
z<Wx!&qYOR{qZ%=vx2S0GC?O@y1VKP5gns=YdS-JtxJrO?j2i>Te}&*(356ZujiC+g
zezbxB{FL1xuS$${9Nn0CG<g5p6$Id?M<3h&=J*Z)E52^W6tmsYRdEmi4hBFM1vwOs
zRNNHwpndxb)Az1aytL~>Jwt^v_uj1dX*Ynn1`31s_EmV=Z9$&)b++j4*=eQy6E25m
zyS=mGfH&}O8?Lwr#32vAs;$l3&aICZLigYzvcKqlWyei$p>Bsz?&&KG-Mdt=6Zo}L
zkB5q{oui#?x9`7TvjP<!J(OrCUVw8k`GlHEks=q=P-F4y2`T~82W2xwBmV-(SfkQ2
zdr7rC2H^@XWmJ%#7OU0S#H^l7Y1Q;g*h8d3?KYl_Ww5HNuoRUj6|mW}hqfW=P(hns
zN>Vj)Od^39pd(fQ#&8cuSS1ZfaHyxiSprc#W2Iz5rv+o`9I7hOL(l?gXeF4Ns4DMC
zyaHoHf3yNL6+6Q)J5I#-K1V~pM6do5P5c|W`Z*f^91VVs4*a`2wDw-f-Miuh@%Z;`
zw+Qg=I#KQ!C|okS$I2Z7l>GgHirv}j0UK){HA181p8jWHFYkQj2z1&E6s`>T8NM)H
wLGao*`iQ-MVuyegfn$P?XFePJd(b=pjp=uH$otFo_Zdc5|K_g{dDAcWUkJJ{Hvj+t

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/granite_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/granite_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f11661f634bf680cd9e60ad4a227fdb75360b683
GIT binary patch
literal 13505
zcmd5@Yiu0Xb-uGN?ql{LE#F*{BfgiUmsCW@5=A{pTc$0Mg2~zeZFRHS8Insacj=j>
zB@)ZjO$?ZF-G)Kynnn<mNsWSr9Dr!^gFySkKl&p@3v^awvFoV~$cTY91&Xdh2aWru
zJ?GA2htyJv@<6i?XYSm`x#!+{?sp#d>L0ycH-TT$_D6|VP80GI{Lp`PEwLv;;$6ZM
zo=K8<W{P1jZAn_DtnjubZS(diJI%8t9rG1a74yz1C;hf3UGwfKH%&W|o_ThPWr&3c
zZozwpQK?V)EaVd5E8ZZyQ(*5{wOs#_CG7eseuNptIU&5dD5T=T7<|-R6@^JLmPiTw
zWcr4XN-PWF#h4_7ElSn!Y%DXJo?l1`nM6AE0=AMe3OgbsGqEdzB*kU~px{ZQ5}9Z+
zJu@SS@aca+h)L;GA~kb0CQ5=BS6NV>e(htg3;2B#W<elR3{R#kJOiV*2)1d<Dw$?@
z>l^Hpowo@N-Y!(|4#5ejiscGI^!K!-4oFQqc;_3oDHrd8d^h}g;E#p*@L(zLHBvq!
z<q%kv(zK8FLt8H&fHn@nH*MpOz_;J@eH6X}23=?g{RJWK2+gb1`onxDUj_L`Y5$mC
z4S&c_jo<;=>@>^QLV1wpnMdO}Fe)n@m5r~1+Lf#17Bf{fLBjP)^(8R|vn(8#+vUG?
zbMP~Axdl4q+;m#xMlW9Bv{n%}t%f->DjjY<%?nA1i!X|zkjf;NxJ60eTAmd|flEl-
z{1TU$O)t*OX1E109fzeJY@sA#DSlrqQIHnWDM=V?;WBAX5}^NB21sNiAdpDi04d=5
zIK38^Ud${kW~2zErMNP>z{M?^T;R(Ae<&w=S3ySJVcsPfO|}WSZOf8Bwh@wLW|*wy
z2h0y036izG&-@AQAtp<r1|8l4Uz+q2l5rtn{LRt*siyU3mdpXogTL>>UW5|l=D-h1
zY~QnGoO<>gtEWouI~pgz1xT&><L$g-2Kh2t@)f+3<{13(E+{v6<lXS)(c5QGIOvb}
zyg`7sfc{;2kB~ds#~p3ffPz;qUm{_4Y`LTB+#s%Wr<BzeJX~(Ymz&Gi(^qqF+1?fD
zJ{MlL!7IF6uaYcFso^1lwHz!pERn7>wJ>rOW>B$VLEMlC7#XhJ3HaOl3Ot@C44_Ju
zTmuPOVM>ydW%T*@bLL%;mbZ`C$P)RX^(ONHgD_}K3Mqg*OQc`%P|1x-nV6W7a2Yx7
zf5!SU^9y|oiG?R1cSguOacl9ZQzvgcCG;f|*ZUThV7H|DUP~tD`$Qf6`n0VUHFBcr
z?u;xfDXyUzAtl^e5YH}urTo^8M57c}qmiLxIvz_(XCp?Neqc(fhsVE@U%XC=#M0^h
zxc|~d!`s7ao;(}M^<Vl@!ddxdRSgsNDRyabK@b(EPEiS%Mi@mdl%PJx>af*Jizp}+
zalrpXQcxTt<C7OIUsn93;fTVFa7#J*S}d91qb8D)Ql;kYCn_lcNq9ASJ-wLXW8zX&
zNb$<ieK~Z>73+NLmJ&>+Q!}7#%yh$c#U=^KX%TmXVuOW{6vvI5^zDj9<H?vLMWYhx
zSq^@$i<OWPYv8fm{D?`eg-X&kJYYUQae8l8<eatZb+U6{WAd(ZVDm+I6y4<5bIhu3
z*V$NTeH!1~=gr6dV)?!0LZC7qXwL=OWq-$pusM?N9m(~M$URSgG%2&s{nN#N9{q>W
zJ*$OtW1|qz@rDa*xM;Vw(wyd^lXMQrXC~zKNvzRQbdY0hYDX<y_-_8fLE1X+<2o1m
z2lD-w?)F~-f}QR?Vrc^!|KjBKfOn#>6xO3E%qkV4rm-EOkXaN{V{rozp)#iNZ*LYJ
zxMk+xeegGDZlM*Hw$h3<Yn5yOyv(#^0)UvOO8FJoGb^?gd)6-5vQSFPY*{<L!`2uW
zDCFr|88H^mfQ}GAIcVkr7f+`$pp3W<BP9uOv^=C<szUJNH6gjAst;V^(P>HogoxTR
z9G@1XRA+{pk7eSs+)XfFxSIk85)Ms!xkN;W^wI`&nmF8osIDZcj*y;|o)=J%XE;!f
zLN6CfCJkOdEdqm5f(QKJxl}s!!~>jbdKM{N0O1@o=wgm}X}B&aBZddLajFlwv^orx
zE6}6Y1yzyrrI8{9Z8^EFvUVAe(=0S-k3-Njw*XWOMqZ$TaDcPSB3O7Yk1ya<$C57t
zYu9?YeV^9`xk;=9Y$ZfGBVaIMAFzN1ZI#7?i-{J)A(Mp-@HZwR%7!gsBfOM~=>*_I
zG8uM=ZSXCI@zISXPEm-`l~r8E)GGl4WHj-SP-9cN90dU7h@eVa35b`w4uOLQY7PJ`
z=_)(`W}8T5Z9dqU3wGv%eYs%Y7P}KXv+DfVUsDLytcT=ayUey1IwG5|e*Z?!*}CeI
zgRLL?n+w6vI=^;KW?KsWTDiVk_IJz9Zm|nT<XsSj*AnSPDVl+<6;?CH)Gs$!XqlLr
zK3b}XHd8dgOUe<Wwvpx6n&=sE!}fsQFiki7e?Wq6c(WFTJp5%XceLDBpzcb=igU%4
zt&oBM59Of1lC|oV&WbzLmvu>%P*eAGRFWFqYz5TSXh7Y%tn+otbL5*~wauBi)Y@dN
zP~VlcWSw_3YAf!nd(N<&N~9$(<Qo=~DW6$lvTlGJOUwr(9u7Hu#x@t`6PXNb@aszl
zY~|C2p#Sco&e-_m(}TLzuiN;18a7~t8u&3z0w_$xl3=Za7*U%Y%^cjvu(6F@WegQ}
zufD;+yjRiqG?z$886n1Fvn6ge_L`v4(}5TOTZqg=dP~5gZb*(ZnRN#}4DOk9+FY*p
zJIGy(i6u&tvw*~jR2-QV(9IBF?a)WPmB=h1l*ZHG)5OuInFaQf2vY!QLTnzmlAxgg
zI>8uVN`SQn$h}E52Kr5OhNcs77_O>SBo1exM3q``*zY`dGl7H17}R(%y|92C>Z&Y*
zDhT*pNTX(hi3hIIuL)u@rq=6#?qVqlrSpr)Oag{cB8J<an^*m8@R^K)2X#vc9RNmj
z<#JWS77nomT`$yKs;&W!C{pOu_v;x0R}LlCqcum$``eZ<OJ`#eslW{D%9GBfI*0l!
zO^fOI{bWi5(xHs&n$Xtc<wPoT4YVB%S8$^v5{{|V-~pD5;rx=MjQS5yI)JW^V5u|}
zrnM`pfPXIqn)l@qQ&^>!8%w8zYsQl6+s9moN*^bH2nwdHYlt3*vNpfH9Hfz6X^zLj
z4y7szj!aam6V*4j(nGUV<~8AqqMS!l>5>Ljt$0c4erRPiHlWvSJ*@8aG*G8*frS1B
zH3G#xK=QChH387E6Vb&JQ6Gy>;^V9McnTj_Q(+M;U=XiH!I2ZsV3v2^7$kHW^l5~*
zY8y1b8lxp@8kvd}u!#@#%pTI_dFVuX7am|QJj0OQ{(R5VIdBA$J3SLQXV<E0ZD^zB
zzJmnn3L!2Zx||DLE(AjBb70Lk`fgvj?<PmplIL@w=dmQQS+A89SyIW#!5*3IfhTP~
zk_(L#0`=>o8#lMu?If+ZdIj8vKx5wDcGuswc`g6M$lWJKz(6VZL$WiZnjJRWxBFr)
z=q*y);5;PW+!u3MWgs5Myx{~rjb_?`--Gc6)VRz4H9RZCZ*YleE~df{wc7x$K?-$q
zcOflFiR)lgQn#<9d=Pja4tEsLG!xo@7uq2LcoH-d1^vbAu$GV7d)L$HBw&fS2vIBG
zHbqqkDiwo0Ln~^GB73TbQQA-C0}|(9vfg2gkVF-RB(lt08MEuQVRmWZi5fjTA!3l{
z14ePH@d(_BVXJr)GQ}W1F2F;=r868}=!Pth9Ae={6Vg6e2jw4?)QNg9&aj5GkHO;?
zdY~cb{&;9&^X1j&^K46wZP^&evt7BNi7)q1fWFnx#6S$i3X>={!S@Fib^B5lQFgem
ztGllLa4wdQKQ`lU0%fTk9^kuwag+pt;1vhmg`xBLp^3Xg6R<0S=qLx=5GZlE=??g<
z%Km@;DzdLa<?o*8>wHlw@&7^c#SvIoP2d%uZW5|ds>5V|_@N@CDJ8m{4j29Jp-{D<
zP-&uX4Z1&T8Cvrdt;E}qXWMgZ`v#w9dp>R%`cixbnY4(P;3YQW<5_s9u|rMd>r|01
z)A@4$<Ffl_NPNG*19$gYI`S<;cUy+`?C`ZmtSInSUEnpx3tAF_4iyFaT}YV2>!rw!
zDR62a(=s?&5b-JR2pZwl6$sInbrnI0WUck&j)s019}@jpo8-+PKlF!@qz^5+LkSTj
zo4Bu(-&eY?oyFV^qD;RJ-CV`P5b7XMOF%bvAufcj5Bd%2>4&PJW@8fdla_=G7*6!i
zOW+Ly3{NyvJq5<5Nh4@BsY%N`Xq}r4O2aCK?xz<ayrdhh+;7FEHux`VcbcuqK~6i-
zqgG=nyrV^;bX&5d^2Pw((e$Fm7VOX?m>$Ik24M8)jbXJZK^!R@6RKfdu+nBSvx*DU
zk*a<a_sy7|J{ZCg2Z7@9#l!Xqnz8$Ay+iHQ9{?RG3lGo~O{BSHqj#sN??<g$bAQv9
zYq}si8wwEOsXURZJh63or}Dz8t58*!uNufz4Q#z4Uwly>eo=n%rJbs;t-8TdW2@gw
zd=hLf)HfAs+rF?{D}AuvyuSNR!d87AY~F0!w(SPb$m|)2-UdP&{MK{3{&TYP9MwQ{
z>f)$1^`EgTFN3Q5^-M6>gO)$E9N0Y;-twUltbx4+-x(wD0-+ggUwTMAfxT&Yi^<yO
zjAJRCNeB>?Jwnr4uQ;;SU!he+*1_9uyaKX=;UnX?%G9eJYFJ9>kz#oJit|yeZZl<C
zK{)FXeL?8yfxg^X*FG#dIGawXIqMb!B}~F-c($S*4))EnzQ5dD0<CMa+9>t5%P;{e
z7E_x8y_!mlme^*0pJ7MrNf4>WM?>_>N?2z=iSD(dDGG?mb?I6;Y=8uZfhd4jHU2&y
z(}F~%$cI6V2BIX@mqko21G0VQOx++cf-~uqK}++6OK}ciU!20I_nU|4l19+nl2V2~
zT^QuhH4Y8xmY@{fQWe0;dN$gr!=Zr_V_d&^kpJcVn%kCgeoe`uDC^h2!K)LF0VT6n
za~TAfI{Rh3n#o^91!y*x8ek}Mn)<KM;eJ!Er)28Y<=JC7_Si-w&mK2Sy)khdnM9Z7
znQ(>4>_g2*6`^7m@fbrqh8b7jp@%Z4KBQ_BLm5g4N3W_Y)gaaP5{5EFjC&|fsy7q-
zEybnE2qyhBv!pSVYPAf7Es=t2I=WU3sQD@3rk10|LB5V6M}O)eDcn^e%NKs_+5LMU
zBYguj3A$nt($xcIXwN>&v<EHIF1PG#gHunoO7?_u+z@EdlD35KMO};BGVuPyX8m7A
z<+cI2_Q_Rmp@v&!p-JVje6S-I?AXZUJJ04i&+Y`ztvU;pP5H{UTxHwFWWIeU*FLmU
zd1loG2d#nH_2X}?pvitD&vxh7?#(mXwcB-a&+slga_>lWv4Xg2i@q}ThPIvCF1hF8
zE<3E%YsPwY>lfbohMC^rR$^;T?zynbUexN<-S-i;W#5oK^EZ9wZ~mmFb#rdJemg8j
zMt;oi)=bEO3A7WsxB1=Ru*?pF<=_KbqJ3j_BO%xJZw+qGZ7<0uMsu~JtD{ITygj)a
zyeP95Kle8js#`an-58atBU|;k>eFDjfC*wY`9-`XU^*THfx_5W9A#Ahq5VNU0k~g=
zM?&Tc6DEs*XTT<Kn0x}m+BfAH^|N-=LDXBQKuvlB_K9fanH6X1X;Xc}uTbloN(@R=
zmsu$#m#N%#N3&H-c?L(cHfZato2EQjkH!J$&J|CV$$C&LuQ)S?N0bFS;zL`>>j>Lp
zjlT_jsh)(2^Kkl7MrA%MykF7{5UGOD-D8K-4Q(`7(&xIe<{qJ#3`Eit8IsVH@Gq&_
z%>EAy;4wTOy(c}eJIGxI*G)Sv*PXNyKOo}jJpj1O_Q+H35mUJR@tq$E{y#-Iq`Cl{
zf9n5G*N0WZUNlxsp&oal8o#~<DLpW)&7N|^SRK3)14p|6@9K&h1xirY4%+cLt;MRf
z($mwD0EfqF74=KPD`^_Sn_zwja+e1m6Xs3f`J*sk>92tZgtvQ1UF-Y9a@Wb7wo`H|
z{5vhz4y}4W2{muHzdQb+B%c`G=^K$Ry_D;FDHr;h?5w-z39Y|+*TWT>T5gYj;Uq^Y
z*GB);Cm%bW3mpH^uzd2_oq^F@VD!fqa)B#|u^c!~q2~4MPDAg9($?UeKgczlUA<gr
zh-`&&4QC+bZ&;7rg%kE>ZjCK8b!~>^uU?Xyo?RWM_}E^kJazyR_r?8ittj~Y6$L*4
zD1-<rZ(XsK1C|l;ZTq(!aqA3;Tdq|TLa({l!QpX$%YvrBf!_@{;TJ7g`*$pF*V^zT
z9qU$%kZY@8)H?x);A|U!$d$Fe-T@TMuAoK<>Owzo?hRnZTX<VNL7EctHk)<w6l5VB
zqo*uzr!8V5Z})@S$Gm+4D4K!3L=j?C0E4d5jmWG=hf@zxsiO0PuxaWsly#PCK_Qlf
zu~@S#jKvEnjUS}3;>&u=waWUYt#RNN|0W3V{FV(a4~cFF2I0Jb<AiP#Z<)4EkR=DL
zX<c!w*l&_>MeH3|tdc83?PWMz)Q)6mRL9sg2ErMq`-Y_qp?<g+q@G;ELGEund}DM}
z)+B%Ug&REHJna4rKp*IE?u0=fH#Y)_DPZ%!_|-d4YQ#kcPaRn?;=GSo7fcQKVd_0#
zIIRg&w*x)1N8I9}h&cAlPyZKwViW`}Y#kdLgFAaJA+<P9FItHlWYePoHA;$*8TPAa
ziH5Nf)Kx`%b}@BBjq)n~1K6kd=;<-9A6+U|giKp}HYO@QfW!pc;1EPaNYfn|l^|X@
z^zQ3JJw!pDL-8W|8k48Swh*}`KRhUimL96rd<qJddmjd;8pa!^t7i~EN8teg8Y0ac
zhMek~R{e##rd1!nT~p^qcDHfh3%jk}{aNF{cU)`MwaJ1%xR%M+^yX@M@A`XxW+&c2
zp>d#SC$5_N1S;;aq@`bG8w;T>ISdyG$K=rX>Xm!`Cb*ASXzk3m4(_%Nu03C<Y1{N{
z4R5`Gm|b(S(0zJ4mg_#Z?k_~neRM1r8J25%KCW%N?;>rdf950AZH12Re8>6Sj`M3{
z(DwcKW@M-1l-z!5`$De$jNE=st~vkFm^|^KJo%zL^3qPtOJKT(2mfyPBj3)@c&=-F
z-CJnu-)jD-QEnSwcNKb`l20PIpS&WU9G82p%C%jE=B^K0H&Z*^XXJC^a`X6Z?f88^
z>Ab)c>tIOty9wLy{j-H&^M+sM`sLv9t%2=Ina0!#{^l?DPQ&2ob<cMihP{q(HC}N|
z#pZ=*RB=b6aGh>3iD@<(eRVOG)JiI%Q9d1yMnyzidOK9H!a1Rc@i)azx2AX;i%>U!
zY^5?ZpedfmPa7T=s!>k#>S$n6MCVCF)hePuC|>O<YFtPrqtP%Uc0#TMYfjFqVuP2J
zM0^CW;5L-};tg`&Vz)bszIwY`ZaMXH0`KC<Dm$F>HW#h<?mkD~_gubJX>IcM^7@I5
z%J&9ke|yf=v1f-G#mFgp<Gq^tq8;9_5|FCEl#^7|7G0Qflg9RqiTAD)J^00vP}|1v
zduNJX{PL0dmW|f;8jF7X3J`box-I7l?H$3-Ta3r<-js?2UR#+xd==|i$ch&Uyteo~
zd=*2S{XBE8x~^!)1h4=dSJ0#r=<T^^a)i0e*xj@iCZJYjO|gO|RZeNrjSW0B`HCeB
z^`Vj--dc4`IY~oP(S<2Dj@5%H7W2HA@*x2~re0(sc8*RXybny@hO{~P{bkvIJm>n#
zf7_v4jm_fPgae8{o=zsUJ5Q0=^|&e#c6#kutcN-Z3zr8{5*#`MzDZP|6b^5JN8qxL
zxU`T4;gKTg1tAqnMBqARCJhv+piz-hJhZO*KW9XY#VS6UQvx9;WQrn|IJ9cW+XqDD
zvl0uOL#m*k6~6_aC}t9hZ_&yy%+H;KY5xg1`YGxEH*)n;()uas{>)Xm_O%^X)9a2e
R9534$Zaw;Qf^SOl{{Wa7cy<5)

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/hunyuan_a13b_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/hunyuan_a13b_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc73e40a204d5fffd11c10731f4090d07eb99e7c
GIT binary patch
literal 9658
zcmb_CZERcDb?@<;6eUt3Wm(@(qP{50q%Fy^CCgFlsIe8>vTP}7qr_!sz9)$`Ka~3(
zV@se0V+$}DO<Nb(5NB-xA?OboX*(4tFz=s#Z5=jXe3ApQZ^@vd0R{v6!Bh!a?9X=2
zeIKM0Sv9ge*!SbybI(2Z+;h*zrT(?D(#61+uzW8b>tvYUV@Ln2T4RSm<9&u_cs9W#
z*;$swwkctnHA8JqSd!LRD}`ASwxoU5o^;GQXy2M}CS9{G+O{PslI~eI%a|C!B~*UI
zs?=wzOw4(Px4+Bq4#EAAS%Z3(OhM;U>;zfGF)h5E5mGT>5;}ELM3^DbcuL@B(zk?E
zd|4ppqM{HqDYY*xM5UL~$;E^q#nY*4I7^fi_qdRdqL&3xjLr){p(37&OOZr+eqJEZ
z^;{F8VmcL1%}+&%D3F-Sf?9gC&dxS8{u-npFtaSr%$j%>c5f0abEZ{hj^)kox@WDt
zMX(9>dcfqZf@99Y+upUzI(I>}aTv41m<#q?!8-*v;8#M+wQOe?y`D26r8yg40hm?1
zTkvSKD~%SeV&kh|+{=4lo)`XC!~Yrs!)LVoM$0Nxt1Hb_@wG6wW|g_a&ibaA;31{q
zLMFA8iKfmTA2_#1F3|-z92W<lF~BWSiE(pj!f6vZoXK5I^FqQ!ku|t6M-{R<HnR{H
zxmY49id-B|Eh(fVk&ALfKM{QaaZ!lH=i;$wBC*8rf*7BN<EP|tX=y>&XZa8}A#p&T
z2;yQoCB|<g1j;D#42R7{Qz`}Fjzpp{2|=PnGBGJb1ip*~zyn<Iwm>*hm{(bxBk3fU
zq?<&6q%+cD1~`{M|6q+oB7GZnp)(DekR*YmLh7b33QOF}LKK$~N9Z1q#8K{L*hwm#
zItok((WFL`>jP=W((|b1AQ@mqV;A?OsV&#jE-l1Ux7vdSHHxV*-P5i%+JnG9>=R_c
zQT`<$#bu~0h%lc?L<taI1g=EH2^qvx)-<*jNje4?eOz1u4&Khh0U!1%;Z@|~JS?GJ
zRS-s+i!DS`^8%iaL5wToTa==bKv_)#3W%5X#Wd1R!VQ<;KWIh@g%?d|!&178Rx+A`
zJ59BO9%+oEL6?%5gcJvLQn>=L(-~AoNQ6iuT>B{PzTj#f;odktc&vY*k2`ttcpo<~
zeDZo3x{%^Uz;=y>HT+RknA*hQQ+?ct{=q)3|K#uxkbv3P?&F3BhKI|DX*wuyC3+ei
zT%S@<XY>!Nt1C__Q8aEb6PN-0b3g-a(#|gd`nT-+jHKC7hPh|SGT*l_OqQKzv!)N(
zU)bVI*8DT}2Q1iMHp@f|I=l&baGBMQH$xBRX+5A4(JenCRqF7YReGyb^VTeL)0kO;
z|Cr%zFoL}9`C!BjBh=^Y9{Mr!Q=8=0VK=>ct5koa@elktb?CwTeGTp$KeaqJ7sf8;
z8Q%FJO1MJj3m`5EF?Ixy3JNhK3J^Di7?K4@C57l-hXF_xg&6XfXJDP`(mK$q(R;iH
zdcIPR_s-)<`wd8S`8Y`DkUmnX0i#y$0mfmyU8(`Yn8(*ZuTCGMycsiiAB>?3qu&w}
z^iM83wQKigYT5l}O21UlJ5=7&?-;-<5UyR7WpmHi$g;I3)H@bjwg<=5h6So%(ERkD
zhZyFm8MON8_u)ze%>)HaP_|E}L7#*6r~ia)H)zq*(@7XYAwO-z;vYJ+ZqP<hm;_}=
z#|g@gpg?FhXdx(i6$znFo1q9gOKTB4sDp_pPQ!954&5*)mN=gf2&%Zk1RE5qm{}Bv
z;)q0Ouo6+c)c!=M`HG;KR;pA8SQNGI(`l6>RU1G9&qM^p9)l<;o)8q<_?4Nnmo6y{
zbD2aUl8j2Rg^0l(wC067O2a}lG53ryPdQt0UR3;h0Fk*UgkUuW8|nrSv+k=f71?VH
zAkT<eg+wAMW$ahp$jr?N;HD$!!xXpCrGv2yArMHQ7$iY)LCl~wMWq@92QCoi>269n
z^c7G<jPrt0rDMPW@E`;?wZ{>4C8Yw_)jC0|ViASJ9KqYKSfXTJRBX3y)7lw{(C{V_
z5z(fiqrdw<(_tyO7+#Do9tB@CFGxr4WKIsBx^+?rC*n84i%Zf%Iu(8=kw}J(lL#-U
zVOb=4eBege0jcp<XmN=&0r};?v!l0=u1P(BC{Dl?`O{tI6G!DeyX-jppg!jqT$|Z+
z46eThMS<&EwLEb&7g~;D-MAeX#hNR$g|Tk=thev)dmr`|JT><R^S&P0*ORLWuGg+h
z`S5u;d_EVt@Edz>Y9>E5Cr{1guFU7$3!k{FemHS&V#jJe;zAnTU$~efM=2GrKkx07
zy`4Ev*P5_Cp6?r%`^IxezV&z}=YHki&i(tuzfA0yP1>|SI2i6Y5@=F7hOll^+RtO%
zs&v!3L*WLo->kGuVcl4?F)bXn8VXG<Sl4ei_o)5Gu60+gVPMtro@cu`pu*ZZ^KB>O
zwiDQE+3xDica6ziW7rE6T3WGg)aeu&n^!F#I}Y!FL>a{yPeBYw)zwA>i0)Fm95>!<
zbh$em6z_u(zX|o;k7sYe@jxJMnj~mPgDeR__0U94Kt)bNAtE6NqK2VTym7Hi8Q``o
zA2~n+_99<Fa%k%AG6jz>?`e}gZELf#C!BMH$q2xAZ2;p8x&a$B-UrVFY_gLN8S(=3
zcX8#@Lexks4WS!cM7Wj9p#vD(2mcxpMK^z!DY_VM&8m}fq_}C&9Z>^r#f}juq<E7t
zBbtFJc+)7Se+N82OVl^ZXTSvfvg}8=OZZmISu^R&nt2u-*qb2p70ZfMGUB4FMaNW+
zjF@=SiluDay3e>ZYsp&YOw)MyD8xPAiY;sVGhErTcJfx%zMHG8^`;RIl}N%GMto9&
z>Rgfftd%#F@p~Y41=GNMbGwJ=lSL^6%~8nxnQy7-7fs>}d&g<2!*v-gJ$LDY1OhWF
zDgKU-SSn>H6LXY=Znil-Er_XZOeDakaknuuyAAO-bpVjPgoIEZoj?_en-@|70e2y~
z&_?4Yrjr7CoOw=2h(aF+Zp7dPvsO$gdGtXvY5NN2TC#_f&VolMC3*-cS7NRQGOOSS
zcZKGVTw2|R$`zzgH`MG#;7dD23Yy|`J^Ma+06FdP1Lorvw5$!O7#qAsjnp2_qzvRu
zZ(Lc#G%=cZ16aG>$L;D~AK_*Y36icjp%Q^C4cFM6<(21o`e9=FiW%-c!ooe_M<bv~
zh{GTxV-))wIA0LFVonGt(up7kSUK@_Tv{L;bb}7nGQI?DGET>dpoS_0!&0RbOK41B
zERjguh{kSd(M_pOHATd%g|dR&P%8^j1AQSVncC&P=dfnRE?)<V;vb;^TgEZ|!+Br7
z?Ca0_Mr7Z}qtPwjg;mFID}06C{*B`gkI3%s)rnkP_b1?7hrjn1Yt@^c_CgbP-wA-6
zFR<n5SZ6mq!9t)r=j95%rd&%X=L_ZBq3!zSeEli8{?uw!p}sp`AC~LG8}6<8Gpkj<
zt*9^bo_bU*_ny|tZ+lwvo*voLv+mCa$K>GH6VHo<z(8*B+ONe&gZa}}<<nQUPF~9m
zUCRZgVWrQWhn?+mc09iOZ{|F0IY*mnxhurX4gGQ|4!yO%;a&t`f#GIFc8LYUYR;O*
znd_}+gtO*S!do)ex4@2w?0Yp}VA-r0O*Z;bfHZ;$H!njbuws6%%>wE0zOz-IYngnR
zYTr}z0pNMhV`WwKYZBT7{iR}uZGc0&qnJ~fq!H9<n$i{l9}9OT9s{SBilGL;&4`rk
ze0lT$&H1yl{|Yz|FGF#c`P{~M8w<X}+cmyb`+xWvS6?c44*kUU;Ek>N;Fc%29@}{1
zah-f(Vk<OJ@YX#z{v-E~>_sc%Z-RKpTlbT|gIik-y|Sk_=jc_>rxIR%-ifC(q83x@
zQ8bOPUGSVIMb(j-5+XkO(1@qnz&1c0ZHf+v!PBPkS)fH-^berKXVrWA#zQN1fMdY3
z=UZ_A9BJ(NR-BTtO4g=3JJm&trdOE1WV1G&KC7;{v}aq#N(F6M-gT@%ZkVmey7YM~
zmDx)2pRf{|ggxI)Bh@brlxDK9pF8YLBl$1Gq1qTTMT`J|Vj52XB}|@0y#-8TN5GxC
zv<A5koEgsoW%I14`-J0d_n3&mc@`vAdNzTX#-l)KCSVx5N?m#ebsMGb;o)S;s5{H4
zr$Wz|Yo~KtdF!sZNXZCbV5aeaus>(K3GfY>%!8!M9<OkhhGdt3tNqRnqH|;Z{usIj
z@TObiAj`{uwf|WHiz`*n&k@ks@5EG@R!aC7LBDJj@BFz-fAE@SN+Y~8TU9>t+!W0R
zP&AiQ3|1_k&|@;)ajTES>KpIGxbeoTy~rk`F^H1{aus-|7Br?s(R43(%`wT?`EMxj
z#qu8e?9@l}JY&>ERc9oNv-dFw0NuwN=#JnHD>ktZbpw{69F#X&96T4J^{=xg#<!CM
zIZ&+h;R4={Fqb38u;|C)I1~>}FpMUW`WZEix~qmA^|1v3q7?Pr0V5vc(PH`a1DwcL
zf)#W~@Ph(4qR?m}4L_lXFNB^+`a|GJT!I2#2TDodYnz@UnBAY1!)G6Vdoz4#+h6}+
zCf__DHxF!#=LgTr@UQuT?7#2_hONEI7V4VTEP3v<%$<HTo*%s;!#{3HuA3@a&DAxK
z&>e2Z@gbQT+K}=mUy<P-cTujpnDbs#GtY7j!jq*M^fv(ge`?U`{$~k60%S|2d}x17
z(ai#e8|3T(`m~RRsw?OkN!s`4<GDGYA<J{nFdP8LQ2UHsd}B0%7FE;9by$L$0f?KZ
zvQs@jk5E*0RrkLOtzC-lRkaa*281_0ybH@y-;92jD1L-%{tAkN)f!@>+WNe|TlROa
zx5@q^KaXv6<ohqn{g<~wlbim@0_d$j-!>|@jXs*mpP7=+Oy#C$<TEpJ+pC+0U)^qO
z%{PYR#?Y?=8+?A~syuXctN)tZcrE9@wrA{;JalObC^uft`7dwRHRkJj<+@&Vy$f>x
z1qj>Zx`~{3f?fw|M^x#ecO(r^Oa@JAiUV)C^qD1CMY?bhj+G(3SWv+aKufVj7Z)LM
zB7+E~hf=adL4?uc>BbgX$e>3JdtXJsYgl|6i|=6ZIu^4~?0)Li1NyH#>ly>KyPkD*
zFo__&x3IW@L~B%g7f-2gwrKMdukpUCZB@j#`?vHgO|4a<*?55YTORs)YV|`{Oxyz7
z1Ikl8#Bd$?)&aS7Am?Z*w0Gs(hvoL+oTIe>aPEZ6oya+wF<Tnj@&wl2-t_e396dQt
z&$hR9jg`IatJW_pcIPGbi<%1OE9~b@Ov}lQ%vST6oTK4)70ugjZ{FQ3yPNaw4%ywY
z_UaS&kpjY+Hr-8YF4^7tvAc-^S~uOTYsUfSV|VN44#vx^S)X{iwtaPZU#INrTtBqw
z3m1aN?vFq5cNLC~W8GWmAIkSn%Kek~$3OOm3!v(?-EwXB`pM1O{z7m-!##(iy`|BS
z&Ds-%U|1VHTcUJP?!Sn=FkGANp8J+3-aw(F3+uK*pc8AZ*w1+V#UoJUJ=~^;``I++
zn<H{?WUKS^qv&Sm*mj^h9~h7W0~<Hxz>AP+Zg+L>Ps&D9XS%t%P2aIk8oP7-=YBK(
zr15IbfAzD*?v0Mzi&JV37{WBW9CxGlG5@6TV$Oe&qCR%19eTZje*B>&6-^3}h~kPw
z;PEAsz_vRQc{>wLXe0JWgipsJ5rPhhKDaBEL>zwIFvCyOiseQ+ogia4bPfu|3~ra;
zgCRJ0d@muGw-Jnn$P5;E&j?0BN~QKAK}>*ODk6}1o&u<d9`Hq~)C61;LkkQZ#s7uk
zPwz6Hn`*6&VyM&Fl4~FSl7YH7$+FgC>mBRj!(fqt<|E4vRz;iDTC+a05qS7|k%8u;
z!N=x*9NxiZv8u-k&kL<ZGuFLhwBB}Bt%~<&?kztUSo41{lJj)R&aNFRU=(Lqm-R@Y
zF|hX12WN_AY!8k;n*P;g+TM0n?pOg<Jp5hO>ff$wC|a=rhXGAHZ916R!$l`;x|rt9
zwdoHo7b|Gj%`|mTs+F``#Wb|91wLpldT7_nxDGwA$j+ueR%2f^iYS(#SMkK)4=(UM
z5dUZ)dLu?<tXS!9SELPa;I|tBKOw?jiX;Uh($iBo{Cy<^kJDsnF%8EjhSFdlqwx^D
zlu2ozNRN&ll2So&)xQ@am^mm_6k<H^5cIO-7LM37G<sxb5sVM%s%>(Ns*3dj$pQ?|
zS46X0G_x%GrGsHRf6vr>${hPIX6jQW@F~;#JE#Btceb1@cWqzTuA5o^TI-h#)|BM`
E0V6$Kk^lez

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/identity_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/identity_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..89e7d5b1b217cf2788ee703e1a6cd26488f9cdc5
GIT binary patch
literal 2671
zcma)8U2GIp6u$GfJG<SV{y|$PFtng7NNZ9ILPU*dj1M584bhFsWZ1de4$RIh_ufUi
z=|f{kgcuDkrtMo}d}yO4J{f$HcV8AXkxU@L7-M`JQi;ST&$+X^K*i`y_S|#sIrrXk
zzH`o<{XU=15*WVzk@sDikY7;f45Q6#oC9WwxWrX_Qd7!`g1qXhHLa{kUi0;uQ8sF+
za!Sg&pRSo@Q}TwNsb$Mqg{Xv@wC4*YIklWq$(zJYT_$dtX1~zdtND4el=&Tnk`kHI
z^g@FM6$<>&DMn|Q;|0{63D48OYf|=_!)Zy4wj7^x#PP6J_o?v0;52UHBFeo^ec_y-
zoIA64LXQ`C!uG@2S;{~xo~8~D12338<uFcJCGjAk#kR0<1DFpXcuLBOOUkONlr>kS
zdR4tbs*0;!&Xo;Urzx5q0ZZ4QW>trv^m68j)wUjVY0za|0K(0{FAKjOnrrXQb-8?(
zGicr|G$A$Bf?I^W1-BRW^wA>Rg`CuN=BkQbR8ww0SoU2Zmy~k<G${>4LvOh>5T2Od
z6m;{OtOcW^wO9uet1dyA$V&apoX6WMmK#!T1);DUA!w~GED<IuD`XZI%&S{rLp*kp
zz;yA6<RUPKI|R4H9JSCTMy*=tQXe<fVV}dTN*D-GSx(?u-fR#uxUlP3a!!<yr(zLQ
zR0z2<uw*fJ8)YD$DoaGP%Z-q$`U3e_CuBjHRTk9Gl&?}AS<pULK7n#xAm>1{dGH<q
zxF^F^I)(dzGEYkC$!2*5B1l~C`eM}@Tv%r*0Kz$S5gLqh6X+Nq0M)1nK+J70D8WZd
zP{0!<Ju-NsPFZBywyat^D$1+u?p0CtjN>=x8;pglWJEfrewForvytwwSsta%zc1&E
zZC8Bo#<n?vgV|pE>+MNVt54Rw`auCkR2;n2IDF*A^M~oA@132j&x^S*n7ruwwaG5-
zlU}=m?Cz4?u95mYE5OmsZW(QgccK%-5Loe}KprlVJ7)fB`ldO&Jkl}`t<Kys53QX6
za=SS2Q*r!Oar{pIXsjxIQyZE#P>6|^FT@(@-LnC^NtE#ds1@6DAx=g`g9T4i0ove$
zvVlomBJ&F5Yi6CStE>+em~;cH#<JKJn4(^fKNb}Y+~&ScM{Evdv*j+>FM(Yo_lg5-
zD~M0Hg5@V&NddD2#WzjXm6L26NNhV0{<t3l^papsMcC~QzyO;E{>_!A7?0zLCJ^*y
zxMdDYhoXF)(TiT#;I@EGQLfTp3>qwvve10ON%;OphS;<c;J&VPcd6Lk(pflJ>GlcS
zjp53WEnpyIjpZJ7;ez&Mx09xc>?C-L)9rvu3PYSq=_FBj0NagZ3<*ZZ_8{2{gyWr9
z&M=ZRZto!Ss6wI5s8fRmYfk+aj8ED0EM9{ZvPkX^lHAri1H0C;KMqW_a#K*J3AVYU
zFO%0RO0(qSQ$YYa15+#k!A~uIM;DZ;I!)M45M?Elv?SgVF6;-w(Yza1-#_ANmi~7%
zFW_<bBrcLTOL_;dz1J%4ZkfBK_wZ$a7bb9O)V8CnZ9^;#ANibZUuZafTa&hJH>}t;
z)8QQ1>yhqz@QKyDKt%f4F!b3ds<0a(4M1lYfXpS^ha5gVks%uJiDu6spKm`)73%x8
z4S64gRgT^As!S$BtRz9-c?-zH%jCXl7-n2Z8HLu^kp~3kxK}j>*Y>RO^-@fLy{>QI
z6q~9svNrSe`1-rJJaYZe4ei?_s2YjQoH2NBXj^Q+9H$6yY2-|@WjM|tmnA#)u1>F<
zh<i}Vk<mS?$5)QUd6Wud+t}*(%8s~*QZLDFUDj`AMmPFU95sxw+oQW;4d?x@$oXET
zaD`u+x!PQwS{+<D+A8k7nR(_<11w|)WQZqAg{W8weV<nF4-B7h&Q>IXQ4ZdNfLB9S
zql`=VBMaZ<320w7Uk?F)J`vVw;CK^t7K#u~kzh;gqaJCS{N-WTFHu3RbZedAW5Euh
zCe=2Rz{~duAG4&h%$JhNc$po8HOvynEXJCmC=X1c?ERHI{~I}VmyF*f`+v?1UVG<<
U%+AHsAE^V%*mC%Qz$Byn8%uKD$^ZZW

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/minimax_m2_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/minimax_m2_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2839977478901f07920b398f62324981fef18145
GIT binary patch
literal 3820
zcmbUkTWlN0arYkN@g+*K9ZRxY)3%(LiA@@|Q`xTK_*EouA;p%3pe9fp&b*b(_;_S?
zkB&$%fPfl^+!y?lTKbAm^h1UdAfGAFk9_r~KUAEc#=!<s^r!t}N*i(g)tNo=EGrJ`
zW&zI5&h89nW@l#S{+dd~2@FU3b?Kl%$Ukt=8+sS%+yLYzv58F`Ql<q;5my|gtQOR=
zR?y0NL6<buiIk&-sKhnLD8~vhiR(_hoG2tD9&wW8R3Sx)LRggb-KN366w(TLgV@n)
z#5P#sw%VokOKJ?LaTW`y1NB5U`7b<@rM_{2y<1~$k!4kX%jwIOce+xpI?O9o+-ckq
zo}WC!9M76$LRfRm@1JI(T5$yv-F*;}D7huibSiUmjKeZL%`8!IOYYn`iwjBGcFGcL
z=5oos0@UwrCr`TdnaUOBmKux~1MLIYHHCC0V11J?QlK^|C^jvqOtTfH&nmWhO}pLY
zDMUi5wvHOD>)D7uGzof6TJw_!H)!zqKs*B@q-Ls8@62q4XSzI@$%C14#b!=U9`z%f
zc{T19yB83ujQVyoscW5PmB!wg%PixeX&Dc^n-QMHJ(1x(4`qrK*JG}idmNqc&_Bm-
zkz3T)1aoEu3eP+~pZChue6>{F54>~C+dp3$KYHZKILkYwOZjTuyIgVeR~@IE52fbI
zU}@Q!H_HdjkZ1;0<*Ic*A=NOYUX8Kub4zaBsUc8BL;)<2c7*f~cK{{-)A|=TSkGMh
znYJ4f`M`KS0Al$dfWUaZ8Bjk4d|hRCeXp|NneE8^MAZ@g0uZLMhHsdrYn7R4`f<~Q
z%d9zwCr$I+n&otNqNZtAia<81yi#S{tNW_(INt&?_%H&gA&Qi`@g!mhHo;H42H+a`
zMp1O5ZIDP`8?fP}3;!lCb<`dq+!|Rrgj*wW3%LSirM#!oAPsVHbp8V1gAIuQX`sz2
zi)5BUDkKZKt+5D;qO!Kmj9JZ&T+<4%r>Nb1*o(qm9IJ*MgI^qe36|_~Cqpb1VmeFN
zeGPE$Y@eM5-afk@cm`OS^&=JjaRAoxL~ou|P?y<=JqYIq7s)&=Y`Q?QoBZA3WuB~7
z;r?WS2(vIK9y|rSeoTg{tPTpSdjpFsx~Ag*_>kTtUYL*9wI=y3Bw~}!(WdeT`bnfj
zn(80v@1OuT$vc>$8^${rGaH6YdnL9>%#f!}vdR?4l*sD7E@}`b7+kUnn!bLuQnW7l
zDx|8P45QL4*;$=qknmjqd<}A0_>n8`$vI}4MaL4tGzHp()o3AzuRXAA?0XJJ<$4P2
z1rCu1@MwYDGg8;1YsS#haLYKnGV_ITc=c@ncSkcHon1cr(bV$P>ajbcKVH<nGKOWI
z__2~(t$CoW;C&#YxZd3nAjksuHXt7;H_?%RZ5+Q+yk6NRiwZ;~y=Hj5_Yf|m=h8Ez
zSGIc;hze!usj7m44#BU3R((i+MkoY-ll&q^$osTOuPawz<M;F?-0E)<8mW^{)c5Eu
zIwjK--ZUk5z&Cm(ap@Wq*>kTSo0wxRo3HZYjW?dh$tAI_pu*+mCLFkJM;y<Ef^r~V
zV8lQACtg8o@Z8$OTb~*?jx065+Vl$G{}C8Tzf2F(tSVLVRm-jW24`0pyq7jmWt{AT
zQ|nbe5mdwejXE?A{}9blx)?(>7s%bM+y1t7@7mVAi^+TG!8?QJ{`}_W7r&f%3$Q!s
zb1mbXjE$#a0TWHe0tN+K3B5o#23_EI<%tCXBPf#zbl=40J#G~}v-|8}oHfRuNBw6o
z9st3@000K0hg!x^5W%S`II>i!3DW~6KUu7C4liu5io+A`Sph!y<RCuKsEa=ko(@Ur
zE=!LvRa{>v&<D~FCjePrfSOt_s%?rv%5__5stq{xzWO9Tn(D`D?;J$GHpS6hydMB`
zQqiuPvWl-d%;lIw*=XR~BY5s8f@27Nf&iN&j&G2B|DcHA2t2>7=fEfZ0K99=Dnmoo
zc>VvmfoBN73>7Z{SRfAuNiy9^@4S=PwPJmdc<Ju&u9d>taDMUZz4W$~vtOq3Eh8UX
zR8lrnW~Jsq#qpy&=r@b#&E5#Tiw+68=q5!U&MLB2NJn*ZJ#fn@*yN`H2;>dTANY>>
zjaPq=(I-$eb|pb0wE4!xmC>~=`&;S#En~m5E4!JGz&_uGU=#s%Bpg2#I979Cb4t)w
zt0mX-wM&(X!(YX%aRfUMpyKkX`ANhy1ej&M?$w|-=RZX})qOFF%yCRJOZh86l}%Gn
zCiqTdL$Dh+?gDreb|#8GzOwHjbROevL($LE)v;A^E87ObdHR{wk#pOi`ta(^r@L=m
zY!g5~JN&u&r=uN2+mVER;Ong;Z5?K42LX#BW{@pI?HFQlvVG6Wh2_b10#`{gI<|6p
z`L%WmSAAq;*UIkY?d>$K`bqqSC2cJ>+8My*h^puAj_zoyIKTXQ>(unx%hPi8b*yhu
z+?cuESUR+_dHGl?y=N`<;<q}SlU|pmPGtxEbg|+%tcYJQB4=GHN_YAhY>;zM26(+%
z0ndvZba$>*%0ZjwRe&XMGbUKz>x5(ozG*lnygw!>Vf2IS^>0DYTnmo%$RFKs^pYh?
z#cuyCIJ{lN-zkqkF?0odW|X1un>DZGh+Np|1QCOw<VU)CV4oRW?9*MSZ%hRJ>~TH~
zN3b>vjFPrWDSc=Vy60O>qslh~z{5D9WB194`{c}ha_sN1%{P92C-$R-$b(3Vj<j|h
Tdq7}*kjc>8YW^XCNxJvH{&nLL

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/mistral_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/mistral_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ab0f5bd81dae9661686ca2d2ee1756f8ea7e9f8c
GIT binary patch
literal 2734
zcmb_eO>Epm6dv3A<NZmtO-fN<yLJDPY@&Ke3n{1wscldTh=`_Xg|<SLvz{bQ{IiU0
zXjVZARSpOw#H~G6hyzuG#1V;0IUo*PcAH9ztX3+b9Jp;+df~*I@z3Um9*`KxGjHCT
zdGF1e?>*1YeSKL3%}9KvKT0F?8=XWg84}%jAZ{QHX`F#fuF7$g<_+Eyssf`0BVi`1
zNk%7(l$oxk8J#plGgHlQh(}n!*$pnxSk3Y1JknC@NK51Nh7fY|D`GkG2c48Tzfe<a
zi&#_Y#I9rFt^g~iTe_<l_QC=tbj1u-9oy2ag?CiqFxJo%#`Q}WFV9Tu7VddlcU+<x
zv-UE!^aduiz;4ioPN41unBPDcRXGh+d5x<I8jln6ye6zCs!5#E5;zUB<a%Nw++P)A
zZfXlRvyv{0{{GPF4u2XyW+iAbSE{o!Nb@$4!X1)nYuIq)EL%Cdh<6Ai&%us#b@sv=
z({H^e%ktGqKuRt>paX-XVas;0M4~`3O)kFX%F^tj?nFj`LDZTHTfj)XSgP5Ui!E20
zC$`B%%puA4+`8w=OqZWw##l7@E#ailDZtnL6t4URa>I*9Xq9v0bsHh&<lG2q0I`j5
z?RCxtKn86|jHuqY3c42fRsKuvo0N`Lg|E2J0hp_3i2=H|j#Aq!@I4Ew+){q~N;+Gj
zp6_U&ch3$MOe0OJNXbOf|D<zYw5vC6(V2_5V0|E>d*jD>;P3CvBWf+@4n?#kMEb6C
zE2x~9ZcI`n#kVGzp5sb$SW+!Xw;WfsYFM)8BdEo>A~&jZUx0w!yX&gsV2whKLMTRc
zkeC!mka=Fs1#oK~fsF03blZ{}GZEx_;0yDiW_yMv0g5HVuBm`!cTu;NC2*9u6>L$H
z4D7naEXST5D);$W-HDDwD3tu{71i+Y>x9^ZP{jG7qOh8x_yu+{CEiaciu}C`*i~p6
z5Zef3evX+AC;eL{imv$?@F*1JW0DH;GoIz@W?;LV@DmO;<^vlEl`J@ZYWYJtItegK
z3&Y>j71yj+>U#Y+92ML+e$6}e%FD~AaK+H)D)kk2(Y7id7=~GiV^%SP0;j|rC5WP2
zUm^XVxN-2`i;*0Kfr82T9=bJjzc6&OeDByx_X?Bu2a3%Dmp2ElH1k&;iO;r0sU=Fc
z_T5@(if6xl@veCGyGiIC76#jeBX<i&V0nk<_MYqt!eD;~34Q&YEIK&aE={yb6YbKu
zR_WZGsrJ-tYif40borCSJ@NTpipSc;N~>6D7tgecXYL&RN&Z3JEMBC-p@+FbJ6CGu
zO3mEx*GJo9r(0vEn`7th50t2x@hxTqG(N?3!F}YX2zEVU)#AbfOj>SenePrm2mdn;
z{$cPx`-qkeZiz;IN4tc|LSr<}7eJWm2GDbMmr0pW{kJ*4?@}Gt^zc99lm-7-bT2jA
zGy(1bWP^cLPDh?o;r~^F?S5_!FX)!SP=1>y^g@`xp~@wR(8MNtp=%s|%3W@O<T$Kz
zXo*=vPf{pzfqPgewhN=J!e~<*CC`E2e~8cUj`#rXpBf!<0Bn{8au9~#yg|m$oF<2W
zx$T&Pz-UC3Xh%(v<McW~x9vLQaH}xf6o=U%r^{KI>6U6@Me(zW0=e!Pl+G*4`<`lq
zlC+{|c1=-Ov0w>9C|rC2iWiGHp&s2vOlfcvwCWSu(e!fOgl-)@=95XW(?6K(Zyr9;
zMKE^8Q0kcupGcN(UiuTk&=n#^Cm&KHH&0U02opVqwIhKUs(c!XS!Uj|pn%$j6F8Nl
zxi1HgAwse1_cKnM`$2^p-_DdZcpy3OKvKxWt};PVRLvOM0S^Mpfyamm@Kiikhj&O^
z8yz_WbP%YcbXO|$gaxDwoL-Q8@zo&UuaOr(Kr_-g4qZp!IPQsvxZ&T?kq2n(0lN4A
eo&Pnn?~8XgGo`iEU#T)T(mXKv1fGLIF#Z8hvdeJ*

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/olmo3_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/olmo3_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5d6b5d6e8ac40a733500d762eb1632dbd8c571a9
GIT binary patch
literal 11043
zcmbt4ZERcDb@!2v9}+2&5@lJEDeFm=WYd<ZCRUVK_Uy@)>^hF+#8%r?NlHKQUCFfg
z<@cU!OQiz^^-yMQRvFD;32kAe9Z(teFclk62N=*|>yH5&2GTMn<t@crG=K7ssobR~
zFm&hK_d$xL)1<qQ?!E7RoO|xM=bo?2f2*sjC6E&Qx8i@;OUSSB!%Q_sW%D(TkXu9|
z5|<$394l?(HYjZgdy*gLIqb7197*T6lhwI|YurtpvJ=|*L`|}Gyq2{)5}u@Y+?%W$
zuS@#IeXPxy@FxS~0akY<>XQxQ4IHr%8lb_uur8+YMjJUvB=-#>)ll0dz_T*lwd*b8
zO)!(Y6shbdM5?{#G2t<2UVv72*QSrWYfKn#mVC5D^22|Cw$f&an{yFjmXo#?7&qyZ
z>TmGlJF2h4U^f8l;1jSztgjLJw$TO)<F;8Y-1HHyKN{vV_j!7GhNfZ^>UCpZeR(8$
z{EH*UPoEk+2@T$%)a+P#nx^7&R1Vv<ZO1Q)>hW|klb~umojQk86;<;N(}XIXp^73-
zQ7v$eDw%Xjp^DKDfIRV3T#Y8uQ&Rwk)BNYCsH9Wz)YQwOtWY^-P=gi58Ia9J_`F3Z
z;{Z5)Zrm=}#`#%$nAd`56Up=e3(9#_ROv@J@gt<~XxO2-qtTR@q|vBW8;vH@(o6#D
z-e~mljF>QbYR-)eoj*GYd(~XW&yJ3bjE>zQn~22kU+PnnnZ8UsvtJeEDXQ+jHuL<!
z7p9-5eTn!)UuIUlm`?RwNhFeevbmMMG~yJszM~now@7AI_5w(j;c+VXb%SgK>gP{w
z`2264l((7PV?Z0{q@13E1A#Ux8O%mD_drvLBwr%bPI-wt46UqY!<uBjLB<`kJP^Tk
zDka5ZRM8v?Y(v%TG$qAM`XY3s76RYwhwK)~l1orlCTKOdw!CK!?(unYhZ_ys<Q>o<
zw?cM@(|Cm@CKX&nkeeXaT+wKPrlQd~zkyA}XxIh43hsTLZ1{uUx%Sqz#je|Xm-ZI?
zU3qsGqsnO5Df?lB9Kfs|GR+=OshU3;6;r7+96PX~5{=3N_9MgS#KeVVBsR--LPf#J
ze@PyBeBXF+qsIG<FK+Ujqgx-112s<6xCzZEQ*}m8#mYAf7g8tEJJ5QIs1^aU#Ju2T
zZJgOQ4Wng8mSj1Jo3y9+ESCiVHfeti2!5Sh=dRnZ?+TH>q?+doXIBQvf^J^y>-N&f
zEO*HPcvYklMt`io+B$Op&034k+GIY<XYG@=^CWA}@>r@!3zn+Qmw03f$u2oeVKYo#
zKLxu*DmXkua<(EhoLNUJnFdx?xNiqaJE{gT>p+OrdMrH4Xd>CO4yzsUck1}ZY#gwv
zz6ZU||LHs7tewDqs_$eA9%cBI?Ze`dCw6G{eAb=Jy25TT0!&#eKspgmNrHNj3W;=T
z3WT$ezCz`Mm=UgCq%vhaAOwW;q@buW2w*`JlA;>BNEOz{<OBm$8Zi;6Wi3PUlrqR_
zxR5vqYss*H4##Sr7!=OaSQ^$aI#|y+cCE^$kIjG*K{O1Zz`hkhrWu(kG^HYHxD5mS
z41Q<QGQ00WJS9*ucF|f>U#V9}%dj2Qgglx~Q6WAlq|zo7fnJL%s>0@-7?bgm%XN@_
z^an^F$VNv&x7a~iF|naJfR^-{=8#1oB}k%OIKB%q5OP<=4C{}IdNHAKam5LJNE^Wr
zeLfwrsIdvT5Bhh*zw#A0u6go!C)w4rEdHqH-hq|NcL#phx6rZh%A(_D+kNi-Gxw#{
z?3*vn56xfBbrqe&U6UJn^U4Q-?Tg&^4=i5(-oRR*Gv{F6w_QuFW$t^m%R@gt`R>V;
zp&z~YkHOVf{-LSR_551kg`DI4j_w7=!c6Xsy!+tF$m(+|N1*c9O?<(34lG>$?!e;E
z&B4XX%bovO*PY`wJl>p`JC{438(4T{L0;q*zVxl5A2jax{&861#PTakFW$4S4Bd6E
zHTLC3pnY*@@$z@i<VN1_4lj%>KDTh>f%nf=9jh}dZ$PD3Lwr4t1D|gt6XMerefmm8
zFYz`pksbpgTgjA@n>lDI*PdunP@Xy@LvM~d*%!~WsAJs4zMM?Ex-T_Y@T|&sEp@|e
z7aQ-U9;pV6w@I5+3+9?v@_-($lf0mzOMSdl2YtTTny^o6+-k%eo0*)X^6y=T)r;}e
z^byU&$|$>$zjq(*Gn#AkX1K%}(VP=(64UQ0mAe78(JcxdInoaQn*!udQ}CB?L`4Fn
z&sQ|T=UqehUFT4%O}_^B;ev{5uyo07)=FiTL{0iX#k`O}CxBk4ZhCMk-cOc39V66T
z5@{td8|u}lF^4eiJ3S0|dQ~(eSjyV&+031QUZ}eACA1eR5{#_E1tz5H_N=`MP0%Q*
zNS}!&_NUUszJ(^Ag3(iHf_Oej6T7(+MibDxmFd$@8a28sRHvrI!@2O~=TdeW{Jqb!
zaus_1KUOZ|gIN-Gj53`7R=5i^m<nnLsx_8HFAo4k!XEi~C^UW&w1a#As=9fP=ODj;
z8PI{qXefc^V1u5+h9G2Nhun_ses-y&`b~~Y*EAPsJ(XTlwK}-hW$hkpjOv$M!FyD$
zTrzSRY<tD%p4(MToJ6(`dL2M038s8DT6f;wx3q7)b#I|{?@IsrzC(q5ht^sT=lqX6
zt&8FVPx}Wgz3VLlg_eQb@V8%l6llEVx#`J=dKaVl!2S*WbMfrG*lO4Mv&Rb09$SkX
zFNBWgLnHaXiK2tlb>vPijJ@+}(M<yF%k>ZZosXTQxohR*!|na~K>wrW&~49>XT3RG
zXb!J*{e9$4WUcvNuI`bid2#50r;RP%UufwsTYPbJ@%4OQpSkv#d&gJ#pZb2{TkAbq
z2p!FbhVp@96)U$bUVh*g^p&R`ZXd`81|E6*-x+*s@S(Z82c7{?9QE69dyD6aE_<DC
zBd`M&dB^i%uzh9U!{9*PyJZ%l^}y5rX|p^JgZ+7LKPc`%qppz*$q5IbOJpXMd*NfN
zM^VkyD&0%D4JLrY#aIm4P-eaj!q!a=<_OJ&s<MLNcD)UQnKv{~KJ+&%^xryk^U#{V
zJ@0O3h-$SGdh=1_ye)1Jssn~}19OA2<QjJgnkrM4n*)&@vz0`!M6TOPW<I(>RaFaG
zV~}2h^1A&xUopc{GWsaYO#|7O;mGn5nc=Q+atB9LGnPcMyh*;Yw(1xdM>LHXfN5V9
znxiVTYS@)Sb7h@!Z}ojw7ntA{HfCK)1N3@IJ2q=(^axZPI%h6<FN~{#!&6~@Hn>j3
z2C%tVRFQua3!OEcOgJ(_SC@@U_Az!n2H1z)OaRKDe27-3Gg{J!8*x!BXc)?d1k{5T
z^;;X!@Yx2T6*Vp<Ov73?lC)rDGmKT-uoRP;km&&lw<v*(1@@k6t9nn&?wc@E>49UM
zCy(6T?|A;ovoKe1cf9R^TOD~eR|h6^=NDFM?+>pZeyMQyrL~ST1^3Pzm-p=apnd<!
zrTbk!i@X<EYd=+Rhp;vDNH}o6KQA2p4Y74}{^IzCw|&!Y8{uj{^!gY0^?*<a2y5Ps
zj~&p~nRmCrD(zobRr5O!!Gw0<7xoQr8%!87CfxGf^sRZ@VfYXy<lQ?yt|fJyAhmQr
z%fmlD{qE^Ppzr<0-5{shI@Uvdg;3vG=$YJ^Vh;(l<=vr=cM)I5^4O2R_U_kK)t`R-
zCtojgAA4eKlQA|(e7g!g2SJ)QHUnl`06y}E034GZVSh!uhH-&r2S-Tm1bWJhADHA~
zL9vq7M1?6MkLa<Sm#|h5(0K;iFnb05l?lioptD_=KfMrK<AsfF?enK{${OFk(a<=5
zB6oa^Z-ni1KDXX+q|k9>egqC?jXzT4BaX&p?}}Ow4r~&r|K<W`a|lIupQCO0K#@SP
za`=8%Vc(I*SZBLpi^gC*E19<B=08KzH_N;V7N%^-kx5Rn-SCd{lASuJ6C+F#PhFF|
z<N*8My`|OYhdw9t)krQ{iyi~@qBjAv>foDs7G`OMh0)LONginT!at7lQNOX8->L<y
z8czd;kK$t?<@y{5@$rW9Bpj^tM)bg}_#YtkYw`M6u~tD3YYLO#Y~%G24hRrlr3pPo
zu=PUeK=humi*ZGWB}7FL;ut_qf_0?`B6$2pDA)w7WN0it8IOsH#H=7uB|ep+5?c=9
z0Sp&o*-0@OhanI{U<fFYE%+#clm^#d6=oDFFqmROP%)Sdk&ZNj0|p!{qtX%%hXh%K
zRpj1Mlc36C4B`lia8(vF89)W14;Kt4?SdetBnIn(>7ZTcg-}a8c2N*9++qaJCBOnB
z7$DJ7k|;~Um2^y;m`RB8tN?V7<5Y<-Fvn<2M1)~eU>z#GECymwJe{F{9Rz9s0X?t)
z`vTm01u+(zNdh!8YQjLpE{cFTc!g|&DCkzCFaxobgb;_g4Fyo8jlgl1_7E{B#Q>>k
zLAe@-7!jj0Aj(=#(^=sJ6(L$m%fdSQg%bcMl}_yk45^qD(lcsiM(qXuiKVCT9Rbc9
zVnZN(5jhO_n8&{dMKS}ei|Yv(Fb!6*Buvbf;fb?Lh=v(7!&n#gPzZKGY#vBm21uL)
zA}~TuvVc|DY@O)1o{qSIv|%*&BAMVckWCHh0WB<IQ{Yaplmx`Pw|qT}ud!_l0B8#6
zqr|V6gAHv5AQeGLr&CxmKfquQ*$7YRGyqzn4y!~{rir*X5l_U`*<OH>q!pZ>6lVoE
zeJKVPv$XLt6idg>I25@XgKhB?oE6)Tut$l*?Gk}*X<?Ys3~<Y|aPFD%eFAdU>FrOa
z;3~dym8Oi#7>)>Iz&A4)4B9~n+;c^g<04#o#?)oV80;MrQ$jj}0X}x~ucqZ`<n)+`
z2T+P$nrFy}cH}}C9BV7dI8YpJ8@!|>g(;fCYXe|)DsHi9(WOFBzKLr7Z@6+({4EGt
zzYWqa%S~}v+Yh<FbH*Wr{I}d+bMSHqHf+=e^H`EF;DDB~{$&Si3FcL%?|~@)0rpj~
z)1c4s0~@;QVE0;<>!m6#c$Qbupke6}YS4;g+QfhnDpZ!#db3s?v+6kAbC$ufZ~`aU
zH7Y*~0Ofwj=J>DeIXXDk7(Tk^=*x#KZa5Ozdo(;3z&7J*LQA*{92e#<qYV(Qg`m|8
zNHlz@W3PkJQm1B<DZ1dvOgup~=kVFFp_g9L{1$w8WSgSbm{w-?Cd6i$UtMF$TUq1b
z*-p`%(^pyPD@~=>GO|_^jWSgfjh14z^UOMw&*8Qz3`1Ry!Ml}?=zqfy1>LCM&65w@
zb#J)}?&igoyt{vS?18&~<;##g+R>fkAG(`2TDo%lw|!uT1R58H*BiSEja~U*cfR{z
z-aEL_&~z(uGm@|G$ag%G_dWZuovS-gw3C|cU|I^Dx967TRwDn@`LpnQ;kEW*gctg-
zY41jJXuWw)p?S~h@J~m7GWytV+g_XF-}dO<TMfIz(YU0rXy6uZM;^uh%`wP6S1{0e
zl)&IxHSW&ZuD}zE?gQ90KU2uj(rGv)5dRWo)?e7J`v4F;geVFMPX&<zfv212fw)rk
zhzjCwuDhC55vd&Z8vvs0hKxNYuKRZt{JYlu@S3=H<=~qCxg3v=jBmX4#&Toc-<@~s
zZ+~0pgB}~B4_?t*WXjwTvqOP-k;i02Tfw_;;u|z{S=3;4r2X8Uswh_(`9BB_uh%>&
z){;O&u0}scuTDZ;k7zDge`+6%A%14UI>UDvDu3d6LeNr<WbM@+6D8}^uW<@Ip-C9R
zt3J{S;8`QV8_zoM$q=L?hh>--p8>Ls=!&1I8|zXErULJ=Y6^|9w;r^_(0Wrrg(hZ8
zitrQ~NMP6@UEtRXVC+#PwOiF6vp`*ls&JKpnSoP5k4I=kx1|_aO{GBfryyWGrbU_I
zAkc(@CRHL~;ev)MJTu3Efx#L<<K_v>4WkGlZG9%gmhz(n#j48TLE)@!ATT?R>LXCq
zPEg$pmP$KC2*&XXd#e5bL&$=8Rq>mPL1<#X&H#{G%^`#*pk;!=LkbI7D)fm*IvmKJ
z(_TGmDCSoI``3GgEuXIs3i@kaMvTjhXd=i-{r%2@ji8>O8Z+LWLQkB4Nj?P3Jt_}E
z4wB=`P-qVJVyQW%<n&C&ko~d*Ju<~^w@jmK1e?lcmZZEPWa`bUXyG*1^Ql+X8u!1j
zgz_q6aAAAE8D0<WE(CY42lp3(`&SZc!9zLs`<~!NvvAwD<XiswTJwPi&4*Ui+^LPG
zowrgqQ_EjnYwCN@^!#dn?&L-=v^a(8z}w9tg$u9c{T+FChb{u@ASiq#o}N)yutM|3
zW@H(h1@@&!P#Q`j(9uB2qt#o(tR}w^(K8!jmT3Unu!P9J!^h_mBG#q9?#jC6Pk>?o
z2$iX-vZy|?aw>d77_9XvaLe~#%(TK{fDZ^9Ztgi#+L-c1_ri2T@ziihdVpUBZeSAL
zl;bHH=Jg;J3qi1W#W7gG3|&n_T~1&&j9C)16lQ76PC!;A<h0`nc7u==uv8MR$=nw{
z8{?H`w1A>g&cjN;f=#5QO%J5^7Mgok#@Cu($klCln)4n3LOZX%`|5i4V4-{PzVx%{
z_omm6yj+04?w5-`h~V5ly>xm#G*Ac)tc704ohgsv*yOL^ZqPgq2P+~v_=6rP9fKd;
zpsA$s33yVMJ6LrholeLi&WvGp1~b&9GTN+~gNYIuxkN^;V{at#W$dam?6DY4B%;wU
zC*uWUKO*{b-6}ha<1zae?05j#?{1KfZ7mM>ZwKlfwZ$Hrqi3aSMY$6$5~$wiH?b(X
z9gc>TvDIC7zFH(uz2E<H`+EmBv0C)CIyxUUwG<st!sTn&oev)@)E_Lm@Y_vl{W)b}
z?5(-Q1Ivv|gJ3ZfYI-(nu<wO!j<!eJTZ;}TVItIASaXwY&BYq5)snXE<?~BtiXQy(
zl2F(3@ufd2*5Q|rw017<T52o$@hd=Tn-=*(P3V()_|!v9xXJKN%_E7b$ZS;j`Ib#m
zHJ+wslA1r3P9zM~7!fC8jF6gBoy8wW$UMx2M<-?+BY$We_!G4VxY{WN;x$Q#1w?1S
z{Z}HEX~xc26WBP6M9gN=@B=F)0>Orq7{})$H4SU($B1`MKT8jrp#PvxM)O7Uu@*~A
z%ILf>&e5FuFpVF99k9nTt;X7&{wpoUDKj{u4>OGMvD2=I0BY{TpiAMWd`ILPFa+&2
z<zFEy+BuHfbQ7-Szli6Tr0bVN_%&(xl|ArF{>Udh&)GgEko~rnaL~2)S2c|bf3a4x
zbKd#bY2yO$qqFc*_%VSh9G%TK-|)@Qo1ulVhg|C?HV4-YoWpf*+KFvPk$nbsb4?4e
zB7tI2FP7=b$yMpj=>3yFm);xA_r6%@IlYPf#WDD0DUaYjv86b!tw=COSiT}_csyaB
OhL**nza>~Q4){MN7(9jm

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/qwen3_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/qwen3_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a13afbb7a4882af6468ca999b516014e99ccb22d
GIT binary patch
literal 2668
zcmbtW&2JM&6rWwM?RDZLd;}Hp#UM2pBVwyc6xt|F5d?avXlug76s<Piak6B+>&%Qp
z93`j+4xk>&Eoo1=QZ8_!e?p~RY&Zn1R0*jkZf-+Wsi(e~-L)Nv)I;a+_RY+jH@`RY
z-f#BTzP=s=&C$NIpQjM|U38)r50(9CP_~hUEX6?;rKnWYqN<3#>clEqQB#nLK1WvU
zKC(2TJ&6VDit&0pn|LESS=B#rW!dCcyh_y}-1gi8S*;Pq{UZg!s-DXT3rDhwKYZC_
zWMSEMS8R8wKuqSjpnPRgMrbMU9Y_Ey+r9&zZA4H}u~1R9lwyo%mP+Df6+mfELbGC`
zJ*st$CapM$TM43*)J76PP^1U?NufvIvU&=9loOVIUn}<3li8F%`1M`lPQHWAtSJcf
zU})_LT$Q+S*`t^*6D*hEif0ig*CS0A4vyj)90s1{BL2BtE;pMGRLs2<;xhPPi?|*q
zm_|o~Ia%k@*Iio}W1BPV)p)hWb6B{S+u<tp)@%!$o0xHGmpEo%Us{$fZDuYyT|T9|
zzz1HlO^H22Tw!ELKyW3WUNap=G9pB?LO7vfH=9Kv11M^i01Ct{-E{z$JeL!fW8#(^
zj}Z$m)}xTI>00>Rpv%;&NC+~L4C_Ldle(Xvgx9EBf(tm%L^AGcAhuCm$*LRY#Cgc0
z1b-$R0XHc?d=FY~BN^VoWAs?@HAb8=6VCBJU*vhEny=c`30S*C_{4hc;wK-kTqJqN
zUd&hPeA#pJYmQUNx4q_9MYb62z7b?au3GndB?3c2+6dC45M6AL^SLgIK|sJDGtsxG
zl|V;M?SqQ`Gw8GL1WjD)(2(`$+^Jv%+6y9xnf8I|r(j(ObnLM7&$Z`8xpcuCq61=m
zTHc-!WR;(!0S8<!g@gen2nk)@SsD&|8*QRHa`>RwRMr&M4|D3lanTcVRI`*#rL5k7
z-kpfXx=auE`XtPqt=MMFk`+(mpv6Qmt_GSWv@PX-?RyB~Xy0!j?k#OAzLnTatSd}V
ztg@Bd)HahMl5E`k2>{A$7YuVXsIK=j7auH^hzJ6*5i0`<S~gio1B8N;)tXI71!|Jv
z3E&Ux5&}80=<(&CL}XdQ{f0Euh5>Z6NPt=hgS8iM&2{V*f?*kWmDerGAL{I`M^~_*
zCw!;IxUA*2w~z=0wrheWfjA;IFc(WvPOjHCX4>0M;0#P<@RA371{m6v)olSQIu;@2
zbdI4Q34?Wfiv4*F9;jPiR>d1-I=6r)Z(qO%y0>RKo8gGZ1ZPDX2sff#e<Skgjks_s
zL^ekIg?<!-p8^8lw%8@B)3g{qCd6?ucdWZi1XFP4r`iGfis2{2z5Kqi4KR(c%XC;S
z_XZJ^?9q^fJJhpr_VCgT(y3!N2EN#15WqAaqV$oy-r;8N@a}B0H~)0%`P{R)Uq+gf
zH(wq9U}vOpe7un!Z|P|4{NCtfb9D0Q{NB`jb87zO=+%Zk^m_c_&&rGOnMQhSXZ1z;
zOyg3aabux*>1Hd2QYTtzaQ^+=!@1p&X75C|zXUonv4^Ldc={=Se(%}6m-t#!AAOK|
z^wFcG*C$W^IIuhQpzqbd$(@PDK&GK*B*|pczHS&Uyhn!N_ZSA8WeuJz!%rK=YRz=Q
znWSM@UI~VEconOJ^12^`%kJC|6(mH(!{NteQqWN`AbC-cnLJ)9m{<z&E5ay<`{)l<
zkL#^Ll<04%YW&pBjXx25_G8fioKrA0v@<EDhT2m@Eqy$G?$yZYR!n@)f7ZBMXr3>~
z-s@EV1NLa);l|G7?%)qIje+rI>g?M%*vYUZi0j#ekHy0SM9gWu>e*1vIS9`+?Ht6(
zy^`m21vVmW+nJSHG?`rrpC(2HZw3J#4BFRcgF~I8888t^&W1s>Vv3^t-Gh{y%5P}?
RZDK|_*BGAu3&B@H{1<qG-x~k`

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/seedoss_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/seedoss_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..89e3473f88a86ac332d47247af62495cccfdf878
GIT binary patch
literal 1277
zcmah}y>HV%6u+~R)J+>eDgq>+IWYi{s3XMCg3<~h5L-b_r!1Bmzcg0-#oZa2P7K}n
z1KNL~>Yu{G?3IZvC3Iop-Ps9Ai^Ln=J-^T2`;foZYE^<1l)m^cO+vn_j|r6vVf+w<
zW8x8y1|*~%N{K<<63;jyo(c2};}ms_VX0C6p~MEw?!Iyb?DqX=;79vA;EFgx;l0ZR
z@UHTiP!UbWEz}$nARX#qE{}FhD0v2ydxmEomCg$PPGzbs&1e^f<whmD)duk1wcD5K
zxto-bDnptYSfY`zUd&k$#KPEvz^-b?-9F6gSt>xVmcRlpq-tx+w(VAP=9|fQ0Fl5)
zXYe43B``i|ops|#LL`}l18FlHjhKKy1$Vnr=s1a$uLkva95Q9nAX%KsB$c)fX#1fb
zxE$-U*8mB2GhjPUpD<rCktRvZrC?oLMxOptA2`fp@?sFtBgyt50`4MURYXXaBT&^(
zUL&h;kSUM4ILJ9t+Z&gV9g`t#7>AG5;B+7+auI>bB(64OA1=?%@|2v?tRx`l2~~mp
z-fqe;X(oQMh6(mTt{tT7&o>6^&<y;&W-^rhIBI?jg0MNAmEJ`xgfrDR`I7Bqm@R1_
zjz)I)pxF4%WH<R)+A}^Yh(atN`%Fd^a$|LjBKdFk4=;5Ok@wHuYjcOgEzHdqk>$<v
zB^0wo3@-3aF7YznsmC1^`xkAU*HE$DurkYWA~yub$*PWnr;`RsUUr-hsT&lQ1;_E?
zE~>4B#|dyb%uFFUU&b8#x?&oiN~w`?^<U6T>BT0pBXVw7WovYkRIZH-qr7_3{z>o|
zn-j&zDx~_!Gi9o4(>eO)V0FIjhMC<{OSPvfwD(-$cZ)>|uFfs5KaVN1T6uR{{5HC%
e8xm?LBa>2kQ6=;Z{Z(0^^>6n#E(pGQKz{)KZ((x)

literal 0
HcmV?d00001

diff --git a/reasoning/__pycache__/step3_reasoning_parser.cpython-312.pyc b/reasoning/__pycache__/step3_reasoning_parser.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c613ba3653c07be1014c14e2f9aa1a11272f6b50
GIT binary patch
literal 4618
zcmbVQU2Gf25#HnR_)k$1Wm{G)>nuu+$W)XQ*-7m9r>%dL*s5#EM#DZFXx>VueB>#6
zN5>)<R0s@ILD0f4g(Vb4n4myt*aiGn7wAJC^3b9MN?Hb_9&A8G0u*^;AqNfm($4Jh
zNZL`1q6=_$c6VlOZ|0ksJ^ncy4iIRX`-AN7B7}U76Q@ZHVv_-Ji>O2uG?Eiif`GJ3
zbEQNWMa`X)QW9TtYo44p<<0q0K0cQ;e=d*;aN45<bD>m7ATB}!G<-*}wWm5<<TO#e
zH;C$^p*vz@HL~D}`@h6VT(Epo^z8!8XXqqMcARH)nx(UOs!r=yX+B$|><4Ls#$DF7
z<5$w=aXmM$Q8TOOFQAlRTA>qEGt=j&VWej%Xb5KWSyR#U*;&e98o5BzhMv#nXV0gZ
zL0QH=g585nc-#CGhM$2IC`kz_Nx4)3-rhysGp;2vBdFqyP)btW)T2u9^T5wbz0|i8
zq~N_A%HN~{)UO7MUP5L%)X)ugDxiizrh^9601W}f_ndLYg?eT@Y6LjLYA5YzXb#ZG
zj9cx3)y}6@8~d==4SQWn<hqdRo+9z6)iY(%`SEAoxcFH>hSpq_=eZ%|8J)?TU(V?&
z)sg|uHhqP*ugV338uH;W^GY^<^{8y3PoS4on%7M#o4`%;s;tk*%&{|9W76wpQl7q&
zHJr!60!wF1Lr!a&oYC_p&71ON3a6kg{b{46$6-oxg_fT`8}X2FfxVoDFh)0SUINJd
zQn*FT2J{Gd-(4a<cN0<)W`&aLW8t@+EGdb<5q^OX7fM8F>M_ApcAN7#RBKdSB{Bzk
zo^8J(zjm1(XLXK;nlrP<JB=s6vzmOMtK(@doEbs0%UM;$JB@dE4^BDP?X0)Pxos`l
zp|(DwqX|wBY~$SS(5-PXXd(`IQ{9f-d%^;VOOr*P1A(G6l1v<n7gGon4jda4=omRy
zFwm#qa>Jl1;sgQGM4lai=vTvJg^URRR0|A3v$X_)oh(k+uxujAflx*-XsQgrlQlh)
z=I{elasb-E%mOyyflZ|BiH9x8D9lr4`4ojG2E~eSEGqz8g)>?%MlEj!5=&O2mgmF|
zr@w#ptQBcKU14;VUbiCrWo;3BSu1cUtrh4=#&l*$*Wf^xEpe8bR`)adm8@!oE)?=+
zHfM9kCChD4ZHA#oEO(mC8kXnkJACvjN=5_gDT;x}#=u?t_t`NsH$OI?ogX!UiJGI=
z3$Gr0?dq#^Ov_##n_n=m==rg0nwA@D9(v5cOaMo3BtOLt`sDlqL-ZB<x5^Yr$40%t
zVtfqU*NfzlFZ{l@=IdSFS@rENPe1VOuUvv|eIUN%e(2lv#lW5qiz~&-#e4hL#!uJA
zPgh?)Q%y|#<>kK~{L{hJfs34JBNAPU#2!RqkGgl&T|(FRrYJ@`>O>58)B_~;!Y7H3
z5}zbLO5W>Pd+B8DrIV|Jr%-NSJs4RF4%UK$)nMXL_ihwTw26u&^x`I*l33w+Mz3Y{
zf}vpIu|k;wV~}6$Spc$|nYQWf79*xI@Qq=0HMyHhk%mZf!NaIoVEM^RGgH80(L-3$
zHYXuo+cQte<HV0DTpb~VMN1x)r+J9dX4V18M&mrfg1Gf=$#adcAC<&8r(`=~FoHxg
zv$U3-r@!khiK<xg_K|meB^X<|@%eH^P^F3><v0C~){?K}XWo+kuG`6KQ^3<c`<BzY
z;q;+4J>p%-Io}j{YQ1SSC}!UD4lrr}0|47eyLx=HI><9j&&g>hNZ?~RXI}&Cl7Vt(
z(s@;b3I+*>rgNBT^ny8GFy(iyP$)bO8srxn3XaGPFtk)$#0qHVmx&VwFPk%I2rmZG
zdIlZ{T3g(wAgLh+<-zpjjFU94FBAt4HQ!}aegXDgkY{zSxb;r$93ax-Xq3z5{+C!E
z7y@Y$E=K-llw%s>g*7g)1nj~P$3e10jpiAKwdJ14=2eCzlOb~A0oI4KjNKmW2C<7_
zH-z0Vbe12pCCJh1Tp?F(V8KHh+l}o;#_u%Bd|T#en!dPi%cS!hi5Eeo@dxM@$&(=x
ziY)zfH8@ay=|OO)GH}1E7JvP|xpwSQ?bxLU@k{H`9UD%%DC@Q0fsNk54<jp)ihFJ3
zaBbx9YVVPyiS^#W@}crXwKoa$cDcOs?o>19jGn6PIaS?rrn-G%>GY%Mz<OWoZ?VL(
z_lYF-*tu$B-~QI5?js%DYvG|<c&IvZs1`o-MRcGNco-e8hQ^<GNRM1eJd7Twh7Pa+
zG)%}YA2#|dFSBp28B8BeYo?RWVC5EuwzJbVmV|2pbC=+jI^&vxtIb@yh6dl(l6Md^
z(B2hMx`g2kdP<_%Oe@cq<4J*ll+-5C4CO|mbE&Xja+f4LUEDRvK^hlrynPp*&d{fE
zj}5vpT-b-*D0YZd8(N6Wc35?N10==0{~MUjgC?T{-68>xg*w-Q12w=<sTLgHhz^u{
zs?p(UXt?enJBQbL<F(#+WoRvNw3ax!+ItM~GE`2Lv(?^xOB2AeBUV0m*KjJ`>e!iD
z>`XQGMs@p}OQ*kxbl-gSgVOTb4<hn<-|m~<jp(lBSzEmg0e?0RnFmYGQ#V))V|3ys
z2GDcdPQai7d?WENzU{ItI1VxfYLI0+06VirTkJvD7KgVq)U#|VDvCn4NY=4h@2y4l
zR^rvjc-1$~kN?z}-N4Atj1c|yGs6d@&_@8Uu30!efbIW)tLk!q2k$RVe)%703~DN%
z%T8#LotF;4(o>d*I+$tXL^OPHWJ_ag!8wcSjz9<YaMDU8e((6b3zcLo_}Y4O+tLJj
z_^l6>6{Rx0HhQ8qdSbQz<R67v|3tO_&1&>)HFTC+4nEA__L)!TsG?W_MS)CE(2x!(
z%G-ss*4XhXimGQ6g`sizEzJ@kcQUlIC1&#`&(|!8yBM;TWES9Cn7xd&Tg$??u=}#E
zYwQ)|IE1U=#%(e~HBC_fI{mO}U>^7$M+?Ig&bv<BcnICsH^@I-lH{v*bV(i6!Gm8B
z80&ju(kmM~`sxyl7zcfIFH%0Tt+(z+DnR;&%Tp`o>Oq`^$gZLC@s%U>FwQzi-(Wem
z(qE6@tdj(`FS~30U7KAveM9J$_O9<5sEarzj`4BB-?3!eoPNK!JYMcuIaG}d*Zg}o
zCE%!!2-5z_P{p_%uM;5eyEk#Dd)(4Fp)!3hcKfY5LHhpwPsQIK{1>OW7x-(&JFQ4Y
z*EE{JzYvTh)M4Ac62Ig#G=mj_57oQ@AEr6V4DJm}#@lrgZj@|cUI$kgNqwH?)7d0k
z0Zbh<a*uEaSwYTg{{g}9x@dLqm1dP@_>IY4#~n|D4gGMN*yrSR)OXlM$x(I=w$Nh+
zhI(BT1mP<m5r#h}-H*w>e~|N!N$fF6{N3Mk^T(_H-HV<lo}UQ9Ibr$OSA-K>>3;!K
CZIcoJ

literal 0
HcmV?d00001

diff --git a/reasoning/abs_reasoning_parsers.py b/reasoning/abs_reasoning_parsers.py
new file mode 100644
index 0000000..d26e4ff
--- /dev/null
+++ b/reasoning/abs_reasoning_parsers.py
@@ -0,0 +1,290 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+import os
+from abc import abstractmethod
+from collections.abc import Callable, Sequence
+from functools import cached_property
+from typing import TYPE_CHECKING, Any
+
+from vllm.entrypoints.tool_server import ToolServer
+from vllm.logger import init_logger
+from vllm.utils.collection_utils import is_list_of
+from vllm.utils.import_utils import import_from_path
+
+if TYPE_CHECKING:
+    from vllm.entrypoints.openai.protocol import (
+        ChatCompletionRequest,
+        DeltaMessage,
+        ResponsesRequest,
+    )
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
+else:
+    ChatCompletionRequest = Any
+    DeltaMessage = Any
+    ResponsesRequest = Any
+    AnyTokenizer = Any
+
+logger = init_logger(__name__)
+
+
+class ReasoningParser:
+    """
+    Abstract reasoning parser class that should not be used directly.
+    Provided and methods should be used in derived classes.
+
+    It is used to extract reasoning content from the model output.
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer, *args, **kwargs):
+        self.model_tokenizer = tokenizer
+
+    @cached_property
+    def vocab(self) -> dict[str, int]:
+        # NOTE: Only PreTrainedTokenizerFast is guaranteed to have .vocab
+        # whereas all tokenizers have .get_vocab()
+        return self.model_tokenizer.get_vocab()
+
+    @abstractmethod
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        """
+        Check if the reasoning content ends in the input_ids.
+
+        It is used in structured engines like `xgrammar` to check if the
+        reasoning content ends in the model output.
+
+        Parameters:
+        input_ids: list[int]
+            The input_ids of the model output.
+
+        Returns:
+        bool
+            True if the reasoning content ends in the input_ids.
+        """
+
+    @abstractmethod
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        """
+        Extract content token ids from the input_ids.
+        Parameters:
+        input_ids: list[int]
+            The input_ids of the model output.
+        Returns:
+        list[int]
+            The extracted content from the input_ids.
+        """
+
+    @abstractmethod
+    def extract_reasoning(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest | ResponsesRequest,
+    ) -> tuple[str | None, str | None]:
+        """
+        Extract reasoning content from a complete model-generated string.
+
+        Used for non-streaming responses where we have the entire model response
+        available before sending to the client.
+
+        Parameters:
+        model_output: str
+            The model-generated string to extract reasoning content from.
+
+        request: ChatCompletionRequest
+            The request object that was used to generate the model_output.
+
+        Returns:
+        tuple[Optional[str], Optional[str]]
+            A tuple containing the reasoning content and the content.
+        """
+
+    @abstractmethod
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """
+        Instance method that should be implemented for extracting reasoning
+        from an incomplete response; for use when handling reasoning calls and
+        streaming. Has to be an instance method because  it requires state -
+        the current tokens/diffs, but also the information about what has
+        previously been parsed and extracted (see constructor)
+        """
+
+    def prepare_structured_tag(
+        self,
+        original_tag: str | None,
+        tool_server: ToolServer | None,
+    ) -> str:
+        """
+        Instance method that is implemented for preparing the structured tag
+        Otherwise, None is returned
+        """
+        return None
+
+
+class ReasoningParserManager:
+    """
+    Central registry for ReasoningParser implementations.
+
+    Supports two registration modes:
+      - Eager registration via `register_module`
+      - Lazy registration via `register_lazy_module`
+
+    Each reasoning parser must inherit from `ReasoningParser`.
+    """
+
+    reasoning_parsers: dict[str, type[ReasoningParser]] = {}
+    lazy_parsers: dict[str, tuple[str, str]] = {}  # name -> (module_path, class_name)
+
+    @classmethod
+    def get_reasoning_parser(cls, name: str) -> type[ReasoningParser]:
+        """
+        Retrieve a registered or lazily registered ReasoningParser class.
+
+        If the parser is lazily registered, it will be imported and cached
+        on first access.
+
+        Raises:
+            KeyError: if no parser is found under the given name.
+        """
+        if name in cls.reasoning_parsers:
+            return cls.reasoning_parsers[name]
+
+        if name in cls.lazy_parsers:
+            return cls._load_lazy_parser(name)
+
+        raise KeyError(f"Reasoning parser '{name}' not found.")
+
+    @classmethod
+    def list_registered(cls) -> list[str]:
+        """Return names of all eagerly and lazily registered reasoning parsers."""
+        return sorted(set(cls.reasoning_parsers.keys()) | set(cls.lazy_parsers.keys()))
+
+    @classmethod
+    def _load_lazy_parser(cls, name: str) -> type[ReasoningParser]:
+        """Import and register a lazily loaded reasoning parser."""
+        module_path, class_name = cls.lazy_parsers[name]
+        try:
+            mod = importlib.import_module(module_path)
+            parser_cls = getattr(mod, class_name)
+            if not issubclass(parser_cls, ReasoningParser):
+                raise TypeError(
+                    f"{class_name} in {module_path} is not a ReasoningParser subclass."
+                )
+
+            cls.reasoning_parsers[name] = parser_cls  # cache
+            return parser_cls
+        except Exception as e:
+            logger.exception(
+                "Failed to import lazy reasoning parser '%s' from %s: %s",
+                name,
+                module_path,
+                e,
+            )
+            raise
+
+    @classmethod
+    def _register_module(
+        cls,
+        module: type[ReasoningParser],
+        module_name: str | list[str] | None = None,
+        force: bool = True,
+    ) -> None:
+        """Register a ReasoningParser class immediately."""
+        if not issubclass(module, ReasoningParser):
+            raise TypeError(
+                f"module must be subclass of ReasoningParser, but got {type(module)}"
+            )
+
+        if module_name is None:
+            module_names = [module.__name__]
+        elif isinstance(module_name, str):
+            module_names = [module_name]
+        elif is_list_of(module_name, str):
+            module_names = module_name
+        else:
+            raise TypeError("module_name must be str, list[str], or None.")
+
+        for name in module_names:
+            if not force and name in cls.reasoning_parsers:
+                existed = cls.reasoning_parsers[name]
+                raise KeyError(f"{name} is already registered at {existed.__module__}")
+            cls.reasoning_parsers[name] = module
+
+    @classmethod
+    def register_lazy_module(cls, name: str, module_path: str, class_name: str) -> None:
+        """
+        Register a lazy module mapping for delayed import.
+
+        Example:
+            ReasoningParserManager.register_lazy_module(
+                name="qwen3",
+                module_path="vllm.reasoning.parsers.qwen3_reasoning_parser",
+                class_name="Qwen3ReasoningParser",
+            )
+        """
+        cls.lazy_parsers[name] = (module_path, class_name)
+
+    @classmethod
+    def register_module(
+        cls,
+        name: str | list[str] | None = None,
+        force: bool = True,
+        module: type[ReasoningParser] | None = None,
+    ) -> (
+        type[ReasoningParser] | Callable[[type[ReasoningParser]], type[ReasoningParser]]
+    ):
+        """
+        Register module with the given name or name list. it can be used as a
+        decoder(with module as None) or normal function(with module as not
+        None).
+        """
+        if not isinstance(force, bool):
+            raise TypeError(f"force must be a boolean, but got {type(force)}")
+
+        # Immediate registration (explicit call)
+        if module is not None:
+            cls._register_module(module=module, module_name=name, force=force)
+            return module
+
+        # Decorator usage
+        def _decorator(obj: type[ReasoningParser]) -> type[ReasoningParser]:
+            module_path = obj.__module__
+            class_name = obj.__name__
+
+            if isinstance(name, str):
+                names = [name]
+            elif is_list_of(name, str):
+                names = name
+            else:
+                names = [class_name]
+
+            for n in names:
+                cls.lazy_parsers[n] = (module_path, class_name)
+
+            return obj
+
+        return _decorator
+
+    @classmethod
+    def import_reasoning_parser(cls, plugin_path: str) -> None:
+        """
+        Import a user-defined reasoning parser by the path
+        of the reasoning parser define file.
+        """
+        module_name = os.path.splitext(os.path.basename(plugin_path))[0]
+
+        try:
+            import_from_path(module_name, plugin_path)
+        except Exception:
+            logger.exception(
+                "Failed to load module '%s' from %s.", module_name, plugin_path
+            )
+            return
diff --git a/reasoning/basic_parsers.py b/reasoning/basic_parsers.py
new file mode 100644
index 0000000..0268947
--- /dev/null
+++ b/reasoning/basic_parsers.py
@@ -0,0 +1,162 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Sequence
+from typing import TYPE_CHECKING, Any
+
+from vllm.entrypoints.openai.protocol import DeltaMessage
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParser
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+if TYPE_CHECKING:
+    from vllm.entrypoints.openai.protocol import (
+        ChatCompletionRequest,
+        ResponsesRequest,
+    )
+else:
+    ChatCompletionRequest = Any
+    ResponsesRequest = Any
+
+
+class BaseThinkingReasoningParser(ReasoningParser):
+    """
+    Base class for reasoning parsers that use thinking tokens.
+
+    This class provides common functionality for parsers that use start and end
+    tokens to delimit reasoning content (
+        e.g., <think>...</think>, <seed:think>...</seed:think>).
+
+    Subclasses must implement the start and end tokens via abstract
+    properties.
+    """
+
+    @property
+    @abstractmethod
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        raise NotImplementedError
+
+    @property
+    @abstractmethod
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        raise NotImplementedError
+
+    def __init__(self, tokenizer: AnyTokenizer, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+        if not self.start_token or not self.end_token:
+            raise ValueError("start_token and end_token must be defined in subclasses")
+
+        self.start_token_id = self.vocab.get(self.start_token)
+        self.end_token_id = self.vocab.get(self.end_token)
+        if self.start_token_id is None or self.end_token_id is None:
+            raise RuntimeError(
+                f"{self.__class__.__name__} reasoning parser could not locate "
+                "think start/end tokens in the tokenizer!"
+            )
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        end_token_id = self.end_token_id
+        return any(input_id == end_token_id for input_id in reversed(input_ids))
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        """
+        Extract the content after the end tokens
+        """
+        if self.end_token_id not in input_ids[:-1]:
+            return []
+        else:
+            return input_ids[input_ids.index(self.end_token_id) + 1 :]
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """
+        Extract reasoning content from a delta message.
+        Handles streaming output where previous + delta = current.
+        Uses token IDs for faster processing.
+        """
+        # Skip single special tokens
+        if len(delta_token_ids) == 1 and (
+            delta_token_ids[0] in [self.start_token_id, self.end_token_id]
+        ):
+            return None
+
+        # Check if start token is present in previous or delta.
+        # Keep compatibility with models that don't generate start tokens.
+        if self.start_token_id in previous_token_ids:
+            if self.end_token_id in delta_token_ids:
+                # start token in previous, end token in delta,
+                # extract reasoning content
+                end_index = delta_text.find(self.end_token)
+                reasoning = delta_text[:end_index]
+                content = delta_text[end_index + len(self.end_token) :]
+                return DeltaMessage(
+                    reasoning=reasoning, content=content if content else None
+                )
+            elif self.end_token_id in previous_token_ids:
+                # start token in previous, end token in previous,
+                # reasoning content continues
+                return DeltaMessage(content=delta_text)
+            else:
+                # start token in previous, no end token in previous or delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning=delta_text)
+        elif self.start_token_id in delta_token_ids:
+            if self.end_token_id in delta_token_ids:
+                # start token in delta, end token in delta,
+                # extract reasoning content
+                start_index = delta_text.find(self.start_token)
+                end_index = delta_text.find(self.end_token)
+                reasoning = delta_text[start_index + len(self.start_token) : end_index]
+                content = delta_text[end_index + len(self.end_token) :]
+                return DeltaMessage(
+                    reasoning=reasoning, content=content if content else None
+                )
+            else:
+                # start token in delta, no end token in delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning=delta_text)
+        else:
+            # not find thinking start token
+            return DeltaMessage(content=delta_text)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
+    ) -> tuple[str | None, str | None]:
+        """
+        Extract reasoning content from the model output.
+
+        This is the base implementation that works for most models.
+        Subclasses can override this method for specific behavior.
+        """
+        # Check if the start token is present in the model output, remove it
+        # if it is present.
+        model_output_parts = model_output.partition(self.start_token)
+        model_output = (
+            model_output_parts[2] if model_output_parts[1] else model_output_parts[0]
+        )
+
+        # For models that may not generate start token,
+        # assume the reasoning content is always at the start.
+        if self.end_token not in model_output:
+            return model_output, None
+        else:
+            reasoning, _, content = model_output.partition(self.end_token)
+            # If generation stops right after end-of-think, return null content
+            final_content = content or None
+            return reasoning, final_content
diff --git a/reasoning/deepseek_r1_reasoning_parser.py b/reasoning/deepseek_r1_reasoning_parser.py
new file mode 100644
index 0000000..a91c8ce
--- /dev/null
+++ b/reasoning/deepseek_r1_reasoning_parser.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from vllm.entrypoints.openai.protocol import DeltaMessage
+from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
+
+
+class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
+    """
+    Reasoning parser for DeepSeek R1 model.
+
+    The DeepSeek R1 model uses <think>...</think> tokens to denote reasoning
+    text. This parser extracts the reasoning content from the model output.
+    """
+
+    @property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        return "<think>"
+
+    @property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        return "</think>"
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        ret = super().extract_reasoning_streaming(
+            previous_text,
+            current_text,
+            delta_text,
+            previous_token_ids,
+            current_token_ids,
+            delta_token_ids,
+        )
+        if (
+            ret is not None
+            and self.start_token_id not in previous_token_ids
+            and self.start_token_id not in delta_token_ids
+        ):
+            if self.end_token_id in delta_token_ids:
+                # end token in delta with more tokens,
+                # extract reasoning content and content
+                end_index = delta_text.find(self.end_token)
+                reasoning = delta_text[:end_index]
+                content = delta_text[end_index + len(self.end_token) :]
+                return DeltaMessage(
+                    reasoning=reasoning,
+                    content=content if content else None,
+                )
+            elif self.end_token_id in previous_token_ids:
+                # end token in previous, thinking content ends
+                return DeltaMessage(content=delta_text)
+            else:
+                # no end token in previous or delta, reasoning content continues
+                return DeltaMessage(reasoning=delta_text)
+
+        return ret
diff --git a/reasoning/deepseek_v3_reasoning_parser.py b/reasoning/deepseek_v3_reasoning_parser.py
new file mode 100644
index 0000000..afdf732
--- /dev/null
+++ b/reasoning/deepseek_v3_reasoning_parser.py
@@ -0,0 +1,62 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+from vllm.reasoning.deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
+
+from .identity_reasoning_parser import IdentityReasoningParser
+
+logger = init_logger(__name__)
+
+
+class DeepSeekV3ReasoningParser(ReasoningParser):
+    """
+    V3 parser that delegates to either DeepSeekR1ReasoningParser or
+    IdentityReasoningParser based on `thinking` and `separate_reasoning`.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+
+        chat_kwargs = kwargs.pop("chat_template_kwargs", {}) or {}
+        thinking = bool(chat_kwargs.pop("thinking", False))
+
+        if thinking:
+            self._parser = DeepSeekR1ReasoningParser(tokenizer, *args, **kwargs)
+        else:
+            self._parser = IdentityReasoningParser(tokenizer, *args, **kwargs)
+
+    def is_reasoning_end(self, input_ids: Sequence[int]) -> bool:
+        return self._parser.is_reasoning_end(input_ids)
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        return self._parser.extract_content_ids(input_ids)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        return self._parser.extract_reasoning(model_output, request)
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        return self._parser.extract_reasoning_streaming(
+            previous_text,
+            current_text,
+            delta_text,
+            previous_token_ids,
+            current_token_ids,
+            delta_token_ids,
+        )
diff --git a/reasoning/ernie45_reasoning_parser.py b/reasoning/ernie45_reasoning_parser.py
new file mode 100644
index 0000000..3cdbf14
--- /dev/null
+++ b/reasoning/ernie45_reasoning_parser.py
@@ -0,0 +1,165 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
+
+logger = init_logger(__name__)
+
+
+class Ernie45ReasoningParser(BaseThinkingReasoningParser):
+    """
+    Reasoning parser for Ernie45 thinking model.
+    The Ernie45 thinking model ouput format is
+        abc\n</think>\n\n<response>\ndef\n</response>\n
+    or  abc\n</think>\ndef
+    """
+
+    response_start_token: str = "<response>"
+    response_end_token: str = "</response>"
+    newline_token: str = "<0x0A>"
+
+    @property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        return "<think>"
+
+    @property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        return "</think>"
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+        self.start_token_id = self.vocab.get(self.start_token)
+        self.end_token_id = self.vocab.get(self.end_token)
+        self.response_start_token_id = self.vocab.get(self.response_start_token)
+        self.response_end_token_id = self.vocab.get(self.response_end_token)
+        self.newline_token_id = self.vocab.get(self.newline_token)
+
+        self.parser_token_ids = [self.end_token_id, self.response_end_token_id]
+
+        if self.start_token_id is None or self.end_token_id is None:
+            raise RuntimeError(
+                "Ernie45 reasoning parser could not locate think start/end "
+                "tokens in the tokenizer!"
+            )
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """
+        Extract reasoning content from a delta message.
+        Handles streaming output where previous + delta = current.
+        Uses token IDs for faster processing.
+        The Ernie45 thinking model ouput format is
+            abc\n</think>\n\n<response>\ndef\n</response>\n
+        or  abc\n</think>\ndef
+        - 'abc' goes to reasoning
+        - 'def' goes to content
+        """
+        # Skip single special tokens
+        if len(delta_token_ids) == 1 and (
+            delta_token_ids[0]
+            in [
+                self.start_token_id,
+                self.end_token_id,
+                self.response_start_token_id,
+                self.response_end_token_id,
+            ]
+        ):
+            return None
+
+        # No <think> in previous or delta, also need to check for </think>.
+        # Because the model may have generated </think> without <think>
+        if self.end_token_id in delta_token_ids:
+            # </think> in delta with more tokens,
+            # extract reasoning content and content
+            think_end_index = delta_text.find(self.end_token)
+            reasoning = delta_text[:think_end_index]
+            content = delta_text[think_end_index + len(self.end_token) :]
+            content = content.lstrip("\n")
+            response_start_idx = content.find(self.response_start_token)
+            response_end_idx = content.rfind(self.response_end_token)
+            if response_start_idx != -1:
+                content = content[response_start_idx + len(self.response_start_token) :]
+            if response_end_idx != -1:
+                content = content[:response_end_idx]
+            return DeltaMessage(
+                reasoning=reasoning,
+                content=content if content else None,
+            )
+        elif self.end_token_id in previous_token_ids:
+            # </think> in previous, thinking content ends
+            content = delta_text
+            if self.response_start_token_id in delta_token_ids:
+                content = content.lstrip("\n")
+                response_start_idx = content.find(self.response_start_token)
+                content = content[response_start_idx + len(self.response_start_token) :]
+                # if have </response>, remove it
+                response_end_idx = content.rfind(self.response_end_token)
+                if response_end_idx != -1:
+                    content = content[:response_end_idx]
+            elif self.response_end_token_id in delta_token_ids:
+                response_end_idx = content.rfind(self.response_end_token)
+                content = content[:response_end_idx]
+            # remove \n after </think>  or </response>
+            if previous_token_ids[-1] in self.parser_token_ids and (
+                len(delta_token_ids) > 0 and delta_token_ids[0] == self.newline_token_id
+            ):
+                content = content.lstrip("\n")
+            # remove \n after </think>\n
+            if (
+                len(previous_token_ids) > 1
+                and previous_token_ids[-2] == self.end_token_id
+            ) and (
+                len(delta_token_ids) > 0 and delta_token_ids[0] == self.newline_token_id
+            ):
+                content = content.lstrip("\n")
+
+            return DeltaMessage(content=content if content else None)
+        else:
+            # no </think> in previous or delta, reasoning content continues
+            return DeltaMessage(reasoning=delta_text)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        """
+        Extract reasoning content from the model output.
+        The Ernie45 thinking model ouput format is
+            abc\n</think>\n\n\n<response>\ndef\n</response>\n
+        or  abc\n</think>\ndef
+        - 'abc' goes to reasoning
+        - 'def' goes to content
+        Returns:
+            tuple[Optional[str], Optional[str]]: reasoning content and content
+        """
+        reasoning, content = super().extract_reasoning(model_output, request)
+        if content:
+            start_idx = content.find(self.response_start_token)
+            end_idx = content.rfind(self.response_end_token)
+            # Simultaneously existing and in the correct order
+            if start_idx != -1 and end_idx != -1 and start_idx < end_idx:
+                content = content[start_idx + len(self.response_start_token) : end_idx]
+        final_content = content or None
+
+        return reasoning, final_content
diff --git a/reasoning/glm4_moe_reasoning_parser.py b/reasoning/glm4_moe_reasoning_parser.py
new file mode 100644
index 0000000..1871adc
--- /dev/null
+++ b/reasoning/glm4_moe_reasoning_parser.py
@@ -0,0 +1,171 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class Glm4MoeModelReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for the Glm4MoeModel model.
+
+    The Glm4MoeModel model uses <think>...</think> tokens to denote reasoning
+    text within its output. The model provides a strict switch to disable
+    reasoning output via the 'enable_thinking=False' parameter. This parser
+    extracts the reasoning content enclosed by <think> and </think> tokens
+    from the model's output.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        self.think_start_token = "<think>"
+        self.think_end_token = "</think>"
+        self.assistant_token = "<|assistant|>"
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+        self.think_start_token_id = self.vocab.get(self.think_start_token)
+        self.think_end_token_id = self.vocab.get(self.think_end_token)
+        self.assistant_token_id = self.vocab.get(self.assistant_token)
+        if (
+            self.think_start_token_id is None
+            or self.think_end_token_id is None
+            or self.assistant_token_id is None
+        ):
+            raise RuntimeError(
+                "Glm4MoeModel reasoning parser could not locate "
+                "think start/end or assistant tokens in the tokenizer!"
+            )
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        """
+        GLM's chat template has <think></think> tokens after every
+        <|assistant|> token. Thus, we need to check if </think> is
+        after the most recent <|assistant|> token (if present).
+        """
+        for token_id in input_ids[::-1]:
+            if token_id == self.think_end_token_id:
+                return True
+            elif token_id == self.assistant_token_id:
+                return False
+        return False
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        """
+        Extract the content after the end tokens
+        """
+        if self.think_end_token_id not in input_ids[:-1]:
+            return []
+        else:
+            return input_ids[input_ids.index(self.think_end_token_id) + 1 :]
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """
+        Extract reasoning content from a delta message.
+        Handles streaming output where previous + delta = current.
+        Uses token IDs for faster processing.
+        For text <think>abc</think>xyz:
+        - 'abc' goes to reasoning
+        - 'xyz' goes to content
+        """
+        # Skip single special tokens
+        if len(delta_token_ids) == 1 and (
+            delta_token_ids[0] in [self.think_start_token_id, self.think_end_token_id]
+        ):
+            return None
+
+        if self.think_start_token_id in previous_token_ids:
+            if self.think_end_token_id in delta_token_ids:
+                # <think> in previous, </think> in delta,
+                # extract reasoning content
+                end_index = delta_text.find(self.think_end_token)
+                reasoning = delta_text[:end_index]
+                content = delta_text[end_index + len(self.think_end_token) :]
+                return DeltaMessage(
+                    reasoning=reasoning,
+                    content=content if content else None,
+                )
+            elif self.think_end_token_id in previous_token_ids:
+                # <think> in previous, </think> in previous,
+                # reasoning content continues
+                return DeltaMessage(content=delta_text)
+            else:
+                # <think> in previous, no </think> in previous or delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning=delta_text)
+        elif self.think_start_token_id in delta_token_ids:
+            if self.think_end_token_id in delta_token_ids:
+                # <think> in delta, </think> in delta, extract reasoning content
+                start_index = delta_text.find(self.think_start_token)
+                end_index = delta_text.find(self.think_end_token)
+                reasoning = delta_text[
+                    start_index + len(self.think_start_token) : end_index
+                ]
+                content = delta_text[end_index + len(self.think_end_token) :]
+                return DeltaMessage(
+                    reasoning=reasoning,
+                    content=content if content else None,
+                )
+            else:
+                # <think> in delta, no </think> in delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning=delta_text)
+        else:
+            # thinking is disabled, just content
+            return DeltaMessage(content=delta_text)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        """
+        Extract reasoning content from the model output.
+
+        For text <think>abc</think>xyz:
+        - 'abc' goes to reasoning
+        - 'xyz' goes to content
+
+        Returns:
+            tuple[Optional[str], Optional[str]]: reasoning content and content
+        """
+
+        # Check if the model output contains the <think> and </think> tokens.
+        if (
+            self.think_start_token not in model_output
+            or self.think_end_token not in model_output
+        ):
+            return None, model_output
+        # Check if the <think> is present in the model output, remove it
+        # if it is present.
+        model_output_parts = model_output.partition(self.think_start_token)
+        model_output = (
+            model_output_parts[2] if model_output_parts[1] else model_output_parts[0]
+        )
+        # Check if the model output contains the </think> tokens.
+        # If the end token is not found, return the model output as is.
+        if self.think_end_token not in model_output:
+            return None, model_output
+
+        # Extract reasoning content from the model output.
+        reasoning, _, content = model_output.partition(self.think_end_token)
+
+        final_content = content or None
+        return reasoning, final_content
diff --git a/reasoning/gptoss_reasoning_parser.py b/reasoning/gptoss_reasoning_parser.py
new file mode 100644
index 0000000..0c1b54d
--- /dev/null
+++ b/reasoning/gptoss_reasoning_parser.py
@@ -0,0 +1,173 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+from collections.abc import Sequence
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.harmony_utils import parse_chat_output
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.entrypoints.tool_server import ToolServer
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+no_func_reaonsing_tag = {
+    "type": "structural_tag",
+    "format": {
+        "type": "triggered_tags",
+        "tags": [
+            {
+                "begin": "<|channel|>analysis<|message|>",
+                "content": {"type": "any_text"},
+                "end": "<|end|>",
+            }
+        ],
+        "triggers": ["<|channel|>analysis"],
+        "stop_after_first": False,
+    },
+}
+
+
+def from_builtin_tool_to_tag(tool: str) -> list[dict]:
+    tag = [
+        {
+            "begin": f"<|channel|>commentary to={tool}",
+            "content": {"type": "any_text"},
+            "end": "<|end|>",
+        },
+        {
+            "begin": f"<|channel|>analysis to={tool}",
+            "content": {"type": "any_text"},
+            "end": "<|end|>",
+        },
+    ]
+    return tag
+
+
+def tag_with_builtin_funcs(no_func_reaonsing_tag, builtin_tool_list: list[str]) -> dict:
+    import copy
+
+    new_tag = copy.deepcopy(no_func_reaonsing_tag)
+    new_tag["format"]["triggers"].append("<|channel|>commentary to=")
+
+    for tool in builtin_tool_list:
+        new_tag["format"]["tags"].extend(from_builtin_tool_to_tag(tool))
+    return new_tag
+
+
+class GptOssReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for GptOss model.
+
+    The GptOss model uses harmony to extract reasoning content and this parser
+    is only used for detecting the end of the reasoning content.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        # The model can output some special tokens between "final" and "<|message|>"
+        # So we need to look for both sequences to determine the end of reasoning.
+        self.reasoning_end_token_ids_prefix = self.model_tokenizer.encode(
+            "<|channel|>final"
+        )
+        self.reasoning_end_token_ids_suffix = self.model_tokenizer.encode("<|message|>")
+        self.reasoning_max_num_between_tokens = 20
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        end_token_ids_prefix = self.reasoning_end_token_ids_prefix
+        end_token_ids_suffix = self.reasoning_end_token_ids_suffix
+        assert len(end_token_ids_prefix) > 0, "reasoning_end_token_ids_prefix is empty"
+        assert len(end_token_ids_suffix) > 0, "reasoning_end_token_ids_suffix is empty"
+        # Check if the end sequence is present in the input_ids.
+        # We search from the end of input_ids to find the last match.
+        for i in range(len(input_ids) - len(end_token_ids_prefix), -1, -1):
+            if input_ids[i : i + len(end_token_ids_prefix)] == end_token_ids_prefix:
+                # We have found the prefix, now we look for the suffix after the prefix.
+                suffix_start = i + len(end_token_ids_prefix)
+                for j in range(
+                    suffix_start, len(input_ids) - len(end_token_ids_suffix) + 1
+                ):
+                    if j - suffix_start >= self.reasoning_max_num_between_tokens:
+                        break
+                    if (
+                        input_ids[j : j + len(end_token_ids_suffix)]
+                        == end_token_ids_suffix
+                    ):
+                        return True
+        return False
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        _, content, _ = parse_chat_output(input_ids)
+        if content is None:
+            return []
+        return self.model_tokenizer.encode(content)
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        prev_reasoning, prev_content, _ = parse_chat_output(list(previous_token_ids))
+        cur_reasoning, cur_content, _ = parse_chat_output(list(current_token_ids))
+        reasoning_delta = None
+        content_delta = None
+        if cur_reasoning is not None:
+            prev_r = prev_reasoning or ""
+            if cur_reasoning.startswith(prev_r):
+                reasoning_delta = cur_reasoning[len(prev_r) :] or None
+            else:
+                reasoning_delta = cur_reasoning
+        if cur_content is not None:
+            prev_c = prev_content or ""
+            if cur_content.startswith(prev_c):
+                content_delta = cur_content[len(prev_c) :] or None
+            else:
+                content_delta = cur_content
+        if reasoning_delta is None and content_delta is None:
+            return None
+        return DeltaMessage(reasoning=reasoning_delta, content=content_delta)
+
+    def extract_reasoning(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> tuple[str | None, str | None]:
+        raise NotImplementedError(
+            "gpt-oss has a special branch for parsing reasoning in non-streaming mode. This method shouldn't be used."  # noqa: E501
+        )
+
+    # This function prepares the structural tag to format reasoning output
+    def prepare_structured_tag(
+        self, original_tag: str | None, tool_server: ToolServer | None
+    ) -> str:
+        if original_tag is None:
+            if tool_server is None:
+                return json.dumps(no_func_reaonsing_tag)
+            else:
+                builtin_tool_list: list[str] = []
+                if tool_server.has_tool("browser"):
+                    builtin_tool_list.append("browser")
+                if tool_server.has_tool("python"):
+                    builtin_tool_list.append("python")
+                if tool_server.has_tool("container"):
+                    builtin_tool_list.append("container")
+
+                if len(builtin_tool_list) > 0:
+                    logger.info("Builtin_tool_list: %s", builtin_tool_list)
+                    func_tag = json.dumps(
+                        tag_with_builtin_funcs(no_func_reaonsing_tag, builtin_tool_list)
+                    )
+                else:
+                    logger.info("Builtin_tool_list is empty")
+                    func_tag = json.dumps(no_func_reaonsing_tag)
+
+                return func_tag
+        else:
+            # There is potential risk for appending the tag to the original tag
+            return original_tag
diff --git a/reasoning/granite_reasoning_parser.py b/reasoning/granite_reasoning_parser.py
new file mode 100644
index 0000000..484045d
--- /dev/null
+++ b/reasoning/granite_reasoning_parser.py
@@ -0,0 +1,363 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class GraniteReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for IBM Granite.
+
+    IBM granite models currently use "Here is my thought process:"
+    and "Here is my response:" to separate its thinking / response outputs.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+
+        # NOTE: There have been some observed occurrences of quantized
+        # instances of the current models using "Here's" instead of "Here is",
+        # so to be safe, we match on both.
+        self.think_start_expr = r"(?:Here's|Here is) my thought process:"
+        self.response_start_expr = r"(?:Here's|Here is) my response:"
+
+        self.reasoning_regex = re.compile(
+            rf"{self.think_start_expr}(.*?){self.response_start_expr}(.*)", re.DOTALL
+        )
+
+        self.valid_think_starts = [
+            "Here's my thought process:",
+            "Here is my thought process:",
+        ]
+        self.valid_response_starts = ["Here's my response:", "Here is my response:"]
+
+        # Substrings to match for sequence boundaries on raw text
+        self.seq_boundary_end = ":"
+        self.seq_boundary_start = "Here"
+
+        # The longest any thinking / start of response message can be
+        self.longest_think_start = max(
+            len(think_start) for think_start in self.valid_think_starts
+        )
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        """Extract the reasoning content & content sections, respectively.
+        If the sequence doesn't match what we expect, i.e., the model generates
+        something else, all content is considered non-reasoning content.
+
+        Args:
+            model_output (str): Output of the model to be parsed.
+            request (ChatCompletionRequest): Request being processed.
+
+        Returns:
+            tuple[Optional[str], Optional[str]]: Tuple pair containing the
+            reasoning content and non-reasoning content.
+        """
+        re_match = self.reasoning_regex.findall(model_output)
+        if not re_match:
+            return None, model_output
+        reasoning, response_content = re_match[0]
+        if not response_content:
+            return reasoning, None
+        return reasoning, response_content
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """Extract the reasoning content / content emitted by granite models;
+        If the sequence doesn't match what we expect, i.e., the model generates
+        something else, all content is considered non-reasoning content.
+
+        NOTE: Granite models do not use a special token to start their reasoning
+        and response sections; instead they have token sequences, e.g.,
+
+                Here is my thought process: Foo Here is my response: Bar
+
+        This increases the complexity of correctly handling streams, since we
+        need to watch for specific sequences and correctly parse them without
+        dropping content that is potentially overlapping & spanning multiple
+        delta messages.
+
+        Args:
+            previous_text (str): Previous text outside of this delta message.
+            current_text (str): Previous text + delta text.
+            delta_text (str): Text to consider and parse content from.
+            previous_token_ids (Sequence[int]): Token IDs of previous_text.
+            current_token_ids (Sequence[int]): Token IDs of current_text.
+            delta_token_ids (Sequence[int]): Token IDs of delta_text.
+
+        Returns:
+            Union[DeltaMessage, None]
+                DeltaMessage with either reasoning content or content, or None.
+        """
+        reasoning, resp_seq_len, content = self._get_content_sections(current_text)
+        # Either we haven't finished the start of the reasoning sequence,
+        # or the model is generating something unexpected.
+        if not reasoning:
+            delta_message = self._get_delta_message_with_no_reasoning_bounds(
+                current_text, delta_text
+            )
+        # We have a start of reasoning message, but have not yet finished
+        # the start of response sequence.
+        elif not content:
+            delta_message = self._get_delta_message_with_no_response_bounds(
+                current_text, reasoning, delta_text
+            )
+        # We've finished both the start of reasoning and start of response seq.
+        else:
+            # This should never happen since we matched on the response
+            assert resp_seq_len is not None
+            delta_message = self._get_delta_message_with_both_bounds(
+                delta_text, reasoning, content, current_text, resp_seq_len
+            )
+        if not delta_message.content and not delta_message.reasoning:
+            return None
+        return delta_message
+
+    #### Implementation details of stream parsing for granite models
+    def _is_reasoning_start_substr(self, text: str) -> bool:
+        """Check if a text matches one of the possible start reasoning seqs.
+
+        Args:
+            text (str): Text to check for leading substr.
+
+        Returns:
+            bool: True if any of the possible reasoning start seqs match.
+        """
+        return any(
+            think_start.startswith(text) for think_start in self.valid_think_starts
+        )
+
+    def _is_response_start_substr(self, text: str) -> bool:
+        """Check if a text matches one of the possible start response seqs.
+
+        Args:
+            text (str): Text to check for leading substr.
+
+        Returns:
+            bool: True if any of the possible response start seqs match.
+        """
+        return any(
+            response_start.startswith(text)
+            for response_start in self.valid_response_starts
+        )
+
+    def _get_delta_message_with_no_reasoning_bounds(
+        self,
+        current_text: str,
+        delta_text: str,
+    ) -> DeltaMessage:
+        """Parse the delta message when the current text has not yet completed
+        its start of reasoning sequence.
+
+        Args:
+            current_text (str): The full previous + delta text.
+            delta_text (str): Text to consider and parse content from.
+
+        Returns:
+            DeltaMessage: Message containing the parsed content.
+        """
+        prev_longest_length = len(current_text) - len(delta_text)
+        is_substr = self._is_reasoning_start_substr(current_text)
+        was_substr = self._is_reasoning_start_substr(current_text[:prev_longest_length])
+
+        # Check if we just generated something NOT in the special token seq;
+        # if so, add everything that we previously skipped with this delta
+        # message and append everything to content in the future.
+        if was_substr and not is_substr:
+            return DeltaMessage(
+                reasoning=None,
+                content=current_text,
+            )
+        if is_substr:
+            # Might still be in the special token sequence; return nothing
+            return DeltaMessage(reasoning=None, content=None)
+        # Otherwise the sequence has already been broken and we already
+        # corrected; just return the delta text as normal content.
+        return DeltaMessage(reasoning=None, content=delta_text)
+
+    def _get_delta_message_with_no_response_bounds(
+        self,
+        current_text: str,
+        reasoning: str,
+        delta_text: str,
+    ) -> DeltaMessage:
+        """Parse the delta message when the current text has both reasoning
+        content with no (response) content. NOTE that we may have overlapping
+        tokens with the start of reasoning / start of response sequences on
+        either side of the delta text.
+
+        Args:
+            current_text (str): The full previous + delta text.
+            reasoning (str): reasoning content from current_text.
+            delta_text (str): Text to consider and parse content from.
+
+        Returns:
+            DeltaMessage: Message containing the parsed content.
+        """
+        # If we have no reasoning content or explicitly end with the start of
+        # response sequence, we are in transition to the response; need to be
+        # careful here, since the final token (:) will match the reasoning
+        # content and fully parse it out; we should not pass the : back.
+        ends_with_start_response_seq = any(
+            current_text.endswith(response_start)
+            for response_start in self.valid_response_starts
+        )
+        if reasoning is None or ends_with_start_response_seq:
+            return DeltaMessage(reasoning=None, content=None)
+
+        # Consider previous / current text only within context of the reasoning
+        previous_text = reasoning[: -len(delta_text)]
+        current_text = reasoning
+
+        # We need to be careful about adding unfinished response sequences;
+        # Find the place at which we MIGHT be starting a response sequence
+        prev_idx = previous_text.rfind(self.seq_boundary_start)
+        delta_idx = delta_text.rfind(self.seq_boundary_start)
+
+        # Check the state of potential start of response substring matches.
+        prev_was_substr = (
+            self._is_response_start_substr(previous_text[prev_idx:])
+            if prev_idx >= 0
+            else False
+        )
+        delta_continues_substr = (
+            self._is_response_start_substr(current_text[prev_idx:])
+            if prev_idx >= 0
+            else False
+        )
+        delta_new_substr = (
+            self._is_response_start_substr(delta_text[delta_idx:])
+            if delta_idx >= 0
+            else False
+        )
+
+        # Delta only contains potential continued response sequence text.
+        if delta_continues_substr:
+            return DeltaMessage(reasoning=None, content=None)
+
+        if not prev_was_substr:
+            # Delta may be starting a new response seq but has other text too.
+            if delta_new_substr:
+                return DeltaMessage(reasoning=delta_text[:delta_idx], content=None)
+            # Normal case for most reasoning text (no potential special seqs).
+            return DeltaMessage(reasoning=delta_text, content=None)
+        # The substring that previously seemed to be a potential response
+        # seq wasn't one; we need to add the content to the delta message,
+        # and also slice off the potential response sequence
+        elif delta_new_substr:
+            reasoning = previous_text[prev_idx:] + delta_text[:delta_idx]
+            return DeltaMessage(reasoning=reasoning, content=None)
+        # No new substring yet, and we broke our old one; take the whole delta
+        return DeltaMessage(
+            reasoning=previous_text[prev_idx:] + delta_text,
+            content=None,
+        )
+
+    def _get_delta_message_with_both_bounds(
+        self,
+        delta_text: str,
+        reasoning: str,
+        response_content: str,
+        current_text: str,
+        response_seq_len: int,
+    ) -> DeltaMessage:
+        """Parse the delta message when the current text has both reasoning
+        content and normal (response) content.
+
+        Args:
+            delta_text: Text to consider and parse content from.
+            reasoning: reasoning content from current_text.
+            response_content: response content from current_text.
+            current_text: The full previous + delta text.
+            response_seq_len: Len of the complete response sequence used.
+
+        Returns:
+            DeltaMessage: Message containing the parsed content.
+        """
+        # Always have content; take length to the end
+        delta_content = delta_text[-len(response_content) :]
+        reasoning_end_idx = len(delta_text) - (len(response_content) + response_seq_len)
+
+        if reasoning_end_idx < 0:
+            delta_reasoning = None
+        else:
+            # Get the starting offset
+            start_reasoning_idx = (
+                len(reasoning) + response_seq_len + len(response_content) - 1
+            )
+            delta_offset = len(current_text) - len(delta_text)
+            start_offset = start_reasoning_idx - delta_offset
+            if start_offset < 0:
+                start_offset = 0
+            delta_reasoning = delta_text[start_offset:reasoning_end_idx]
+
+        return DeltaMessage(
+            reasoning=delta_reasoning,
+            content=delta_content,
+        )
+
+    def _get_content_sections(
+        self, current_text: str
+    ) -> tuple[str | None, int | None, str | None]:
+        """Parse the text to extract the reasoning content / content
+        if we have them.
+
+        Args:
+            current_text (str): The full previous + delta text.
+
+        Returns:
+            tuple[Optional[str], Optional[int], Optional[str]]: Tuple of len 3
+            containing the reasoning content, the length of the response seq
+            (if there is one) and the non-reasoning content.
+        """
+        current_chunk_start = 0
+        start_reasoning = None
+        parsed_content = False
+        delimiter_idxs = [
+            idx
+            for idx, char in enumerate(current_text)
+            if char == self.seq_boundary_end
+        ]
+
+        for current_chunk_end in delimiter_idxs:
+            current_chunk = current_text[current_chunk_start:current_chunk_end]
+            # Check to see if the start of reasoning seq if complete
+            if start_reasoning is None:
+                for think_start in self.valid_think_starts:
+                    if current_chunk == think_start[:-1]:
+                        start_reasoning = current_chunk_end + 1
+                        current_chunk_start = current_chunk_end + 1
+                        break
+
+            # Check to see if the start of response seq if complete
+            elif not parsed_content:
+                for response_start in self.valid_response_starts:
+                    if current_chunk[-len(response_start) + 1 :] == response_start[:-1]:
+                        # Mark end of reasoning and start response content
+                        # after the start of response sequence.
+                        end_reasoning = current_chunk_end - len(response_start)
+                        reasoning = current_text[start_reasoning:end_reasoning]
+                        response_content = current_text[current_chunk_end + 1 :]
+                        return reasoning, len(response_start), response_content
+
+        if start_reasoning and not parsed_content:
+            return current_text[start_reasoning:], None, None
+        return None, None, None
diff --git a/reasoning/hunyuan_a13b_reasoning_parser.py b/reasoning/hunyuan_a13b_reasoning_parser.py
new file mode 100644
index 0000000..f297454
--- /dev/null
+++ b/reasoning/hunyuan_a13b_reasoning_parser.py
@@ -0,0 +1,237 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class HunyuanA13BReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for Hunyuan A13B Model
+
+    HunyuanReasoningParser
+
+    This class implements a reasoning parser specifically designed
+    for the Hunyuan A13B Model. It is responsible for parsing and
+    extracting structured reasoning and answer segments from model
+    outputs that follow a specific pattern.
+
+    Key Features:
+        - For non-stream output , Recognizes and extracts reasoning ("think")
+         and answer ("answer") sections from text using regular expressions.
+        - For stream process, it requires a token id sequences to change the
+          reasoning state and other state so it maintains internal state to
+          manage parsing across multiple token.
+
+
+    think start: "<think>\n": [14023, 771, 397]
+    think ends: "\n</think>\n<answer>\n": [198, 524, 27963, 397, 27, 9399, 397]
+    response ends: "\n</answer>": [524, 9399, 29]
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        self.think_start_expr = r"<think>\n"
+        self.think_end_expr = r"\n</think>\n"
+
+        self.response_start_expr = r"\n</think>\n<answer>\n"
+        self.response_end_expr = r"\n</answer>"
+
+        self.full_match_reasoning_regex = re.compile(
+            rf"(?:{self.think_start_expr}(.*?){self.response_start_expr})?(.*?){self.response_end_expr}",
+            re.DOTALL,
+        )
+
+        self.half_match_reasoning_regex = re.compile(
+            rf"{self.think_start_expr}(.*?){self.response_start_expr}(.*)", re.DOTALL
+        )
+
+        self.think_start_ids = [14023, 771, 397]
+        self.think_start_ids_fast = [14023, 771, 1363]
+        self.response_start_ids = [198, 524, 27963, 397, 27, 9399, 397]
+        self.response_start_ids_fast = [524, 27963, 397, 27, 9399, 397]
+        self.response_end_ids = [198, 524, 9399, 29]
+        self.fast_think_ids = [14023, 771, 1363, 524, 27963, 397, 27, 9399, 397]
+
+        # when state change, send out all the buffered text in last state
+        self.buffered_text = []
+        self.buffered_ids = []
+
+        self.current_state = "reasoning"
+        self.all_states = ["reasoning", "response"]
+
+        self.current_state = "idle"
+        self.expected_sequence = self.think_start_ids
+        # this sequence only for the think start, it has two way to start.
+        self.expected_sequence_side = self.think_start_ids_fast
+        self.sequence_index = 0
+        self.token_buffer = []
+        self.text_buffer = ""
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        return self.current_state == "response"
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        # for hunyuan streaming reason parsing, the stream parse
+        # will call first, and the same token will be called in
+        # is_reasoning_end and extract_content_ids
+        # this id is not part of content, so just return [] here.
+        return []
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        """Extract the reasoning content & content sections, respectively.
+        If the sequence doesn't match what we expect, i.e., the model generates
+        something else, all content is considered non-reasoning content.
+
+        Args:
+            model_output (str): Output of the model to be parsed.
+            request (ChatCompletionRequest): Request being processed.
+
+        Returns:
+            tuple[Optional[str], Optional[str]]: Tuple pair containing the
+            reasoning content and non-reasoning content.
+        """
+
+        re_match = self.full_match_reasoning_regex.findall(model_output)
+        if re_match:
+            reasoning, response_content = re_match[0]
+            if len(reasoning) == 0:
+                reasoning = None
+            if len(response_content) == 0:
+                response_content = None
+            return reasoning, response_content
+
+        fallback_regex = self.half_match_reasoning_regex
+        fallback_match = fallback_regex.findall(model_output)
+        if fallback_match:
+            reasoning, response_content = fallback_match[0]
+
+            if response_content.endswith(self.response_end_expr):
+                response_content = response_content[: -len(self.response_end_expr)]
+
+            if len(reasoning) == 0:
+                reasoning = None
+            if len(response_content) == 0:
+                response_content = None
+
+            return reasoning, response_content
+
+        return None, model_output
+
+    def _is_strict_increasing_subsequence(
+        self, subsequence: Sequence[int], sequence: Sequence[int]
+    ) -> bool:
+        if not subsequence:
+            return False
+
+        sub_idx = 0
+        for num in sequence:
+            if sub_idx < len(subsequence) and num == subsequence[sub_idx]:
+                sub_idx += 1
+        return sub_idx == len(subsequence)
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """Extract content using token ID sequence state machine"""
+        # Define sequences
+        think_start_sequence = self.think_start_ids
+        response_start_sequence = self.response_start_ids
+        response_end_sequence = self.response_end_ids
+
+        assert len(delta_token_ids) == 1
+        # Process each token in the delta
+        token = delta_token_ids[0]
+
+        def check_token_with_sequence(token):
+            if self.current_state == "idle" or self.current_state == "think":
+                return (
+                    token == self.expected_sequence[self.sequence_index]
+                    or token == self.expected_sequence_side[self.sequence_index]
+                )
+            else:
+                return token == self.expected_sequence[self.sequence_index]
+
+        def check_last_token(token):
+            if self.current_state == "idle" or self.current_state == "think":
+                # only return true if it's judge using a side sequence.
+                if (
+                    self.sequence_index - 1 < len(self.expected_sequence_side)
+                    and token == self.expected_sequence_side[self.sequence_index - 1]
+                ):
+                    return self.sequence_index == len(self.expected_sequence_side)
+                else:
+                    return self.sequence_index == len(self.expected_sequence)
+            else:
+                return self.sequence_index == len(self.expected_sequence)
+
+        # Check if token matches expected sequence
+        token_in_state_seq = check_token_with_sequence(token)
+
+        if token_in_state_seq:
+            # Store matching token
+            self.token_buffer.append(token)
+            self.text_buffer += delta_text
+            self.sequence_index += 1
+            ## state change from idle->think->response->idle
+
+            # Check if sequence fully matched
+            if check_last_token(token):
+                # State transition
+                if self.current_state == "idle":
+                    self.current_state = "think"
+                    self.expected_sequence = response_start_sequence
+                    self.expected_sequence_side = self.response_start_ids_fast
+                elif self.current_state == "think":
+                    self.current_state = "response"
+                    self.expected_sequence = response_end_sequence
+                elif self.current_state == "response":
+                    self.current_state = "idle"
+                    self.expected_sequence = think_start_sequence
+                    self.expected_sequence_side = self.think_start_ids_fast
+
+                # Reset matching state
+                self.sequence_index = 0
+                self.token_buffer = []
+                self.text_buffer = ""
+                # Do not send content for state transition texts.
+        else:
+            # Sequence broken - handle buffered content
+            if self.token_buffer and len(self.token_buffer) > 0:
+                # Send buffered tokens
+                buffered_content = self.text_buffer + delta_text
+                # Reset matching state
+                self.sequence_index = 0
+                self.token_buffer = []
+                self.text_buffer = ""
+
+                # Return content based on current state
+                if self.current_state == "think":
+                    return DeltaMessage(reasoning=buffered_content, content=None)
+                else:
+                    return DeltaMessage(reasoning=None, content=buffered_content)
+            else:
+                # No buffered content, send normally
+                if self.current_state == "think":
+                    return DeltaMessage(reasoning=delta_text, content=None)
+                else:
+                    return DeltaMessage(reasoning=None, content=delta_text)
+
+        # If no content to send in this delta
+        return None
diff --git a/reasoning/identity_reasoning_parser.py b/reasoning/identity_reasoning_parser.py
new file mode 100644
index 0000000..e92f8ad
--- /dev/null
+++ b/reasoning/identity_reasoning_parser.py
@@ -0,0 +1,58 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class IdentityReasoningParser(ReasoningParser):
+    """
+    Identity reasoning parser.
+
+    This parser does not attempt to parse or strip out reasoning tokens.
+    It treats the entire model output as content and ignores reasoning.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        # Always return True, since we never treat reasoning specially
+        return True
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        # Identity: return all tokens as content
+        return input_ids
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        # Just wrap delta_text as content, ignore reasoning
+        if delta_text:
+            return DeltaMessage(content=delta_text)
+        return None
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        # No reasoning separation: return None for reasoning,
+        # and full model_output as content
+        return None, model_output
diff --git a/reasoning/minimax_m2_reasoning_parser.py b/reasoning/minimax_m2_reasoning_parser.py
new file mode 100644
index 0000000..30f5f2f
--- /dev/null
+++ b/reasoning/minimax_m2_reasoning_parser.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaMessage,
+    ResponsesRequest,
+)
+from vllm.logger import init_logger
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParser
+from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+logger = init_logger(__name__)
+
+
+class MiniMaxM2ReasoningParser(BaseThinkingReasoningParser):
+    """
+    Reasoning parser for MiniMax M2 model.
+    """
+
+    @property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        return "<think>"
+
+    @property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        return "</think>"
+
+
+class MiniMaxM2AppendThinkReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for MiniMax M2 model.
+    """
+
+    def __init__(self, tokenizer: AnyTokenizer, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        self.end_token_id = self.vocab.get("</think>")
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        end_token_id = self.end_token_id
+        return any(input_id == end_token_id for input_id in reversed(input_ids))
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        return input_ids
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        if len(previous_token_ids) == 0:
+            delta_text = "<think>" + delta_text
+        return DeltaMessage(content=delta_text)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
+    ) -> tuple[str | None, str | None]:
+        return None, "<think>" + model_output
diff --git a/reasoning/mistral_reasoning_parser.py b/reasoning/mistral_reasoning_parser.py
new file mode 100644
index 0000000..af6d179
--- /dev/null
+++ b/reasoning/mistral_reasoning_parser.py
@@ -0,0 +1,55 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from functools import cached_property
+
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+from vllm.reasoning.deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
+from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
+
+logger = init_logger(__name__)
+
+
+class MistralReasoningParser(DeepSeekR1ReasoningParser):
+    """
+    Reasoning parser for Mistral models.
+
+    The Mistral models uses [THINK]...[/THINK] tokens to denote reasoning
+    text. This parser extracts the reasoning content from the model output.
+    """
+
+    def __init__(self, tokenizer: MistralTokenizer, *args, **kwargs):
+        if not isinstance(tokenizer, MistralTokenizer):
+            raise ValueError("The tokenizer must be an instance of MistralTokenizer.")
+
+        ReasoningParser.__init__(self, tokenizer, *args, **kwargs)
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+        self.start_token_id = tokenizer.tokenizer.get_control_token(self.start_token)
+        self.end_token_id = tokenizer.tokenizer.get_control_token(self.end_token)
+
+        if self.start_token_id is None or self.end_token_id is None:
+            raise RuntimeError(
+                "Mistral reasoning parser could not locate think start/end "
+                "tokens in the tokenizer!"
+            )
+
+    @cached_property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        from mistral_common.tokens.tokenizers.base import SpecialTokens
+
+        return SpecialTokens.begin_think
+
+    @cached_property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        from mistral_common.tokens.tokenizers.base import SpecialTokens
+
+        return SpecialTokens.end_think
diff --git a/reasoning/olmo3_reasoning_parser.py b/reasoning/olmo3_reasoning_parser.py
new file mode 100644
index 0000000..7149f8c
--- /dev/null
+++ b/reasoning/olmo3_reasoning_parser.py
@@ -0,0 +1,302 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import dataclasses as dt
+import enum
+from collections.abc import Sequence
+from typing import TYPE_CHECKING
+
+import regex as re
+
+if TYPE_CHECKING:
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    DeltaMessage,
+    ResponsesRequest,
+)
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class Olmo3ReasoningState(enum.Enum):
+    REASONING = 1
+    CONTENT = 2
+
+
+@dt.dataclass(frozen=True)
+class Indices:
+    start: int
+    end: int
+
+    def __len__(self):
+        return self.end - self.start
+
+
+def string_overlap(a: str, b: str) -> tuple[Indices | None, Indices | None]:
+    """
+    Find the longest overlap where the end of string a matches the start
+    of string b.
+
+    Args:
+        a: First string
+        b: Second string
+
+    Returns:
+        Tuple of IndicesTuples representing the overlapping portions in each
+        string, or a tuple of None if no overlap exists
+    """
+
+    # swap so a is always the shorter string
+    a, b, swap = (a, b, False) if len(a) < len(b) else (b, a, True)
+
+    # first check: is a fully contained in b?
+    if a in b:
+        ind_a = Indices(0, len(a))
+        ind_b = Indices(b.index(a), b.index(a) + len(a))
+        return (ind_b, ind_a) if swap else (ind_a, ind_b)
+
+    # second check: does the end of a overlap with the
+    #               beginning of b?
+    for i in range(len(a) - 1, 0, -1):
+        if a[-i:] == b[:i]:
+            ind_a = Indices(len(a) - i, len(a))
+            ind_b = Indices(0, i)
+            return (ind_b, ind_a) if swap else (ind_a, ind_b)
+
+    # third check: does the beginning of a overlap with
+    #              the end of b?
+    for i in range(len(a) - 1, 0, -1):
+        if b[-i:] == a[:i]:
+            ind_a = Indices(0, i)
+            ind_b = Indices(len(b) - i, len(b))
+            return (ind_b, ind_a) if swap else (ind_a, ind_b)
+
+    return None, None
+
+
+@dt.dataclass
+class Olmo3ReasoningBuffer:
+    think_start: str = "<think>"
+    think_end: str = "</think>"
+    buffer: str = ""
+
+    # we start in reasoning state to support cases where we hardcode
+    # <think> as the start of the reasoning block.
+    # In those cases, the only token we will see is </think>, which
+    # is when we switch to content state.
+    state: Olmo3ReasoningState = Olmo3ReasoningState.REASONING
+
+    def process_buffer(self) -> DeltaMessage | None:
+        start_think_idx = self.buffer.find(self.think_start)
+
+        if start_think_idx >= 0:
+            self.state = Olmo3ReasoningState.REASONING
+            pretext, self.buffer = (
+                self.buffer[:start_think_idx],
+                self.buffer[start_think_idx + len(self.think_start) :],
+            )
+            if start_think_idx > 0:
+                # this covers the case there's content before
+                # the start of the reasoning block
+                return DeltaMessage(content=pretext)
+
+        end_think_idx = self.buffer.rfind(self.think_end)
+
+        if end_think_idx >= 0:
+            self.state = Olmo3ReasoningState.CONTENT
+            pretext, self.buffer = (
+                self.buffer[:end_think_idx],
+                self.buffer[end_think_idx + len(self.think_end) :],
+            )
+            if end_think_idx > 0:
+                # this covers the case there's content before
+                # the end of the reasoning block
+                return DeltaMessage(reasoning=pretext)
+
+        if self.state == Olmo3ReasoningState.REASONING:
+            # we are inside reasoning block, return and empty
+            # the text buffer
+            (
+                text_buffer,
+                self.buffer,
+            ) = self.buffer, ""
+            return DeltaMessage(reasoning=text_buffer)
+
+        if self.state == Olmo3ReasoningState.CONTENT:
+            # we are outside reasoning block, return and empty
+            # the text buffer
+            (
+                text_buffer,
+                self.buffer,
+            ) = self.buffer, ""
+            return DeltaMessage(content=text_buffer)
+
+        # nothing to return unless we are in reasoning or content state
+        return None
+
+    def __len__(self):
+        # is the length of the text buffer
+        return len(self.buffer)
+
+    def add_text(self, delta_text: str) -> DeltaMessage | None:
+        # we start by adding the delta text to the buffer
+        self.buffer += delta_text
+
+        # setting this to empty before starting
+        delta_message: DeltaMessage | None = None
+
+        # we start by computing the overlap between the delta_text
+        # and start/end of think tokens.
+        _, overlap_think_start = string_overlap(delta_text, self.think_start)
+        _, overlap_think_end = string_overlap(delta_text, self.think_end)
+
+        partial_overlap_start = overlap_think_start is not None and len(
+            overlap_think_start
+        ) < len(self.think_start)
+        partial_overlap_end = overlap_think_end is not None and len(
+            overlap_think_end
+        ) < len(self.think_end)
+
+        if (
+            partial_overlap_start
+            and self.think_start in self.buffer
+            and not partial_overlap_end
+        ):
+            # we can only process the buffer if partial overlap
+            # is the last part of think token (thus causing
+            # text_buffer to contain the start of think token)
+            # and there are no partial overlaps with end think
+            delta_message = self.process_buffer()
+
+        elif partial_overlap_end and self.think_end in self.buffer:
+            # same as before (partial overlap only allowed)
+            # if the buffer contains the end think token,
+            # but we don't have to check for partial overlap
+            # with start think token because they are handled
+            # by the previous condition
+            delta_message = self.process_buffer()
+
+        elif partial_overlap_start or partial_overlap_end:
+            # in general, if there are overlaps, we don't
+            # process the buffer because we want to wait until
+            # the think token is fully completed.
+            return None
+        else:
+            # we process the buffer as normal
+            delta_message = self.process_buffer()
+
+        return delta_message
+
+
+class Olmo3ReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for Olmo 3 model
+
+    Olmo3ReasoningParser
+
+    This class implements a reasoning parser specifically designed for the
+    Olmo 3 family of models. Olmo 3 models do not use special tokens to
+    indicate reasoning; rather, reasoning trace is wrapped in `<think>` and
+    `</think>`, which are tokenized using standard vocabulary entries.
+    Because of this, the parser operates in string space, accumulating the
+    characters in a buffer until it sees `<think>` or `</think>`. tokens
+    to switch modes.
+
+    Key Features:
+        - For non-stream output, Recognizes and extracts reasoning (text
+          bracketed by `<think>` and `</think>`) and content (everything
+          after the first `</think>`).
+        - For stream process, it uses a buffer to accumulate delta text,
+          and output progressive delta messages as soon as thinking starts
+          or ends.
+        - For reliability, some Olmo 3 models may hardcode the first
+          `<think>` token is the input text (similar to Deepseek R1,
+          or reasoning-only Qwen models). To support such variants, the
+          parser can optionally work in cases where the first `<think>`
+          token is missing from generation.
+    """
+
+    def __init__(self, tokenizer: "AnyTokenizer", *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+
+        self.think_start = r"<think>"
+        self.think_end = r"</think>"
+
+        # notice that the first think is optional; this allows template to
+        # work in cases when we hardcode a <think> at the beginning of the
+        # reasoning template.
+        reasoning_expr = (
+            rf"^(?:{self.think_start})?(?P<reasoning>.*?)"
+            + rf"{self.think_end}(?P<content>.*)$"
+        )
+        self.reasoning_regex = re.compile(reasoning_expr, re.DOTALL)
+
+        self.buffer = Olmo3ReasoningBuffer(
+            think_start=self.think_start, think_end=self.think_end
+        )
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        text = self.model_tokenizer.decode(input_ids)
+        return self.think_end in text
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        # for Olmo 3 streaming reason parsing, the stream parse
+        # will call first, and the same token will be called in
+        # is_reasoning_end and extract_content_ids
+        # this id is not part of content, so just return [] here.
+        return []
+
+    def extract_reasoning(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest | ResponsesRequest,
+    ) -> tuple[str | None, str | None]:
+        """Extract the reasoning content & content sections, respectively.
+        If the sequence doesn't match what we expect, i.e., the model generates
+        something else, all content is considered non-reasoning content.
+
+        Args:
+            model_output (str): Output of the model to be parsed.
+            request (ChatCompletionRequest | ResponsesRequest): Request being
+                processed.
+
+        Returns:
+            tuple[Optional[str], Optional[str]]: Tuple pair containing the
+            reasoning content and non-reasoning content.
+        """
+
+        re_match = self.reasoning_regex.match(model_output)
+        if re_match:
+            reasoning = re_match.group("reasoning") or None
+            content = re_match.group("content") or None
+            return reasoning, content
+
+        # no reasoning content
+        return None, model_output
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """Extract content using token ID sequence state machine"""
+
+        delta_message = self.buffer.add_text(delta_text)
+        if delta_message is None and self.buffer.think_end in self.buffer.buffer:
+            # this is a bit hacky, but, because of how the buffer is
+            # constructed, if the last delta_text contains characters that
+            # marks the end of thinking tokens, then messages in the buffer
+            # would never be processed because we get no other turn. To get
+            # around that, we check if the text buffer contains the end of
+            # thinking tokens, and, if so, we reprocess the buffer again.
+            delta_message = self.buffer.process_buffer()
+
+        return delta_message
diff --git a/reasoning/qwen3_reasoning_parser.py b/reasoning/qwen3_reasoning_parser.py
new file mode 100644
index 0000000..ef7762b
--- /dev/null
+++ b/reasoning/qwen3_reasoning_parser.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, ResponsesRequest
+from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
+
+
+class Qwen3ReasoningParser(BaseThinkingReasoningParser):
+    """
+    Reasoning parser for the Qwen3 model.
+
+    The Qwen3 model uses <think>...</think> tokens to denote reasoning text
+    within its output. The model provides a strict switch to disable reasoning
+    output via the 'enable_thinking=False' parameter. This parser extracts the
+    reasoning content enclosed by <think> and </think> tokens from the model's
+    output.
+    """
+
+    @property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        return "<think>"
+
+    @property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        return "</think>"
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
+    ) -> tuple[str | None, str | None]:
+        """
+        Extract reasoning content from the model output.
+
+        Qwen3 has stricter requirements - it needs both start and end tokens
+        to be present, unlike other models that work with just the end token.
+
+        For text <think>abc</think>xyz:
+        - 'abc' goes to reasoning
+        - 'xyz' goes to content
+
+        Returns:
+            tuple[Optional[str], Optional[str]]: reasoning content and content
+        """
+
+        # Check if the model output contains both <think> and </think> tokens.
+        if self.start_token not in model_output or self.end_token not in model_output:
+            return None, model_output
+
+        # Check if the <think> is present in the model output, remove it
+        # if it is present.
+        model_output_parts = model_output.partition(self.start_token)
+        model_output = (
+            model_output_parts[2] if model_output_parts[1] else model_output_parts[0]
+        )
+
+        # Check if the model output contains the </think> tokens.
+        # If the end token is not found, return the model output as is.
+        if self.end_token not in model_output:
+            return None, model_output
+
+        # Extract reasoning content from the model output.
+        reasoning, _, content = model_output.partition(self.end_token)
+
+        final_content = content or None
+        return reasoning, final_content
diff --git a/reasoning/seedoss_reasoning_parser.py b/reasoning/seedoss_reasoning_parser.py
new file mode 100644
index 0000000..d3d4d8e
--- /dev/null
+++ b/reasoning/seedoss_reasoning_parser.py
@@ -0,0 +1,27 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
+
+
+class SeedOSSReasoningParser(BaseThinkingReasoningParser):
+    """
+    Reasoning parser for SeedOSS model.
+
+    The SeedOSS model uses <seed:think>...</seed:think> tokens to
+    denote reasoning content text. This parser extracts
+    the reasoning content from the model output.
+    Similar to DeepSeek R1, it supports cases
+    where the model doesn't generate the start token.
+    """
+
+    @property
+    def start_token(self) -> str:
+        """The token that starts reasoning content."""
+        return "<seed:think>"
+
+    @property
+    def end_token(self) -> str:
+        """The token that ends reasoning content."""
+        return "</seed:think>"
diff --git a/reasoning/step3_reasoning_parser.py b/reasoning/step3_reasoning_parser.py
new file mode 100644
index 0000000..f635758
--- /dev/null
+++ b/reasoning/step3_reasoning_parser.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Sequence
+
+import regex as re
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser
+
+logger = init_logger(__name__)
+
+
+class Step3ReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for Step3 model.
+
+    The Step3 model uses </think> token to denote the end of reasoning
+    text. This parser extracts all content before </think> as reasoning content.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
+        self.think_end_token = "</think>"
+
+        self.reasoning_regex = re.compile(rf"(.*?){self.think_end_token}", re.DOTALL)
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction."
+            )
+
+        self.think_end_token_id = self.vocab.get(self.think_end_token)
+        if self.think_end_token_id is None:
+            raise RuntimeError(
+                "Step3 reasoning parser could not locate think end "
+                "token in the tokenizer!"
+            )
+
+    def extract_reasoning_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> DeltaMessage | None:
+        """
+        Extract reasoning content from a delta message.
+        Handles streaming output where previous + delta = current.
+        Uses token IDs for faster processing.
+        For text "abc</think>xyz":
+        - 'abc' goes to reasoning
+        - 'xyz' goes to content
+        """
+        # Skip single special token
+        if len(delta_token_ids) == 1 and delta_token_ids[0] == self.think_end_token_id:
+            return None
+
+        if self.think_end_token_id in delta_token_ids:
+            # </think> in delta, extract reasoning content and remaining content
+            end_index = delta_text.find(self.think_end_token)
+            reasoning = delta_text[:end_index]
+            content = delta_text[end_index + len(self.think_end_token) :]
+            return DeltaMessage(
+                reasoning=reasoning,
+                content=content if content else None,
+            )
+        elif self.think_end_token_id in previous_token_ids:
+            # </think> already seen in previous text, everything is content
+            return DeltaMessage(content=delta_text)
+        else:
+            # No </think> seen yet, everything is reasoning
+            return DeltaMessage(reasoning=delta_text)
+
+    def extract_reasoning(
+        self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[str | None, str | None]:
+        # Check if the model output contains the </think> token
+        if self.think_end_token not in model_output:
+            # If no </think> token, everything is reasoning content
+            return model_output, None
+        else:
+            # Find the first occurrence of </think>
+            end_index = model_output.find(self.think_end_token)
+            reasoning = model_output[:end_index]
+
+            # Content after </think> token
+            content = model_output[end_index + len(self.think_end_token) :]
+
+            if len(content) == 0:
+                content = None
+
+            return reasoning, content
+
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        return self.think_end_token_id in input_ids
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        if self.think_end_token_id not in input_ids[:-1]:
+            return []
+        else:
+            return input_ids[input_ids.index(self.think_end_token_id) + 1 :]
diff --git a/sampling_params.py b/sampling_params.py
new file mode 100644
index 0000000..e91a3b2
--- /dev/null
+++ b/sampling_params.py
@@ -0,0 +1,669 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Sampling parameters for text generation."""
+
+import copy
+import warnings
+from dataclasses import field
+from enum import Enum, IntEnum
+from functools import cached_property
+from typing import Annotated, Any
+
+import msgspec
+from pydantic.dataclasses import dataclass
+
+from vllm.logger import init_logger
+from vllm.logits_process import LogitsProcessor
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.v1.serial_utils import PydanticMsgspecMixin
+
+logger = init_logger(__name__)
+
+_SAMPLING_EPS = 1e-5
+_MAX_TEMP = 1e-2
+
+
+class SamplingType(IntEnum):
+    GREEDY = 0
+    RANDOM = 1
+    RANDOM_SEED = 2
+
+
+# maybe make msgspec?
+@dataclass
+class StructuredOutputsParams:
+    # One of these fields will be used to build a logit processor.
+    json: str | dict | None = None
+    regex: str | None = None
+    choice: list[str] | None = None
+    grammar: str | None = None
+    json_object: bool | None = None
+    # These are other options that can be set.
+    disable_fallback: bool = False
+    disable_any_whitespace: bool = False
+    disable_additional_properties: bool = False
+    whitespace_pattern: str | None = None
+    structural_tag: str | None = None
+
+    _backend: str | None = field(default=None, init=False)
+    """CAUTION: Should only be set by Processor._validate_structured_output"""
+    _backend_was_auto: bool = field(default=False, init=False)
+    """CAUTION: Should only be set by Processor._validate_structured_output"""
+
+    def __post_init__(self):
+        """Validate that some fields are mutually exclusive."""
+        count = sum(
+            [
+                self.json is not None,
+                self.regex is not None,
+                self.choice is not None,
+                self.grammar is not None,
+                self.json_object is not None,
+                self.structural_tag is not None,
+            ]
+        )
+        if count > 1:
+            raise ValueError(
+                "You can only use one kind of structured outputs constraint "
+                f"but multiple are specified: {self.__dict__}"
+            )
+
+    def all_constraints_none(self) -> bool:
+        """
+        Returns True if all structured-output constraint fields are None.
+        """
+        return all(
+            getattr(self, field) is None
+            for field in (
+                "json",
+                "regex",
+                "choice",
+                "grammar",
+                "json_object",
+                "structural_tag",
+            )
+        )
+
+    def all_non_structural_tag_constraints_none(self) -> bool:
+        """
+        Returns True if all structured-output constraint fields are None.
+        """
+        return all(
+            getattr(self, field) is None
+            for field in (
+                "json",
+                "regex",
+                "choice",
+                "grammar",
+                "json_object",
+            )
+        )
+
+
+@dataclass
+class GuidedDecodingParams(StructuredOutputsParams):
+    def __post_init__(self):
+        warnings.warn(
+            "GuidedDecodingParams is deprecated. This will be removed in "
+            "v0.12.0 or v1.0.0, which ever is soonest. Please use "
+            "StructuredOutputsParams instead.",
+            DeprecationWarning,
+            stacklevel=2,
+        )
+        return super().__post_init__()
+
+
+class RequestOutputKind(Enum):
+    # Return entire output so far in every RequestOutput
+    CUMULATIVE = 0
+    # Return only deltas in each RequestOutput
+    DELTA = 1
+    # Do not return intermediate RequestOutput
+    FINAL_ONLY = 2
+
+
+class SamplingParams(
+    PydanticMsgspecMixin,
+    msgspec.Struct,
+    omit_defaults=True,  # type: ignore[call-arg]
+    # required for @cached_property.
+    dict=True,
+):  # type: ignore[call-arg]
+    """Sampling parameters for text generation.
+
+    Overall, we follow the sampling parameters from the OpenAI text completion
+    API (https://platform.openai.com/docs/api-reference/completions/create).
+    In addition, we support beam search, which is not supported by OpenAI.
+    """
+
+    n: int = 1
+    """Number of outputs to return for the given prompt request.
+
+    NOTE:
+        `AsyncLLM` streams outputs by default. When `n > 1`, all `n` outputs
+        are generated and streamed cumulatively per request. To see all `n`
+        outputs upon completion, use `output_kind=RequestOutputKind.FINAL_ONLY`
+        in `SamplingParams`."""
+    best_of: int | None = None
+    """Number of output sequences that are generated from the prompt. From
+    these `best_of` sequences, the top `n` sequences are returned. `best_of`
+    must be greater than or equal to `n`. By default, `best_of` is set to `n`.
+    Warning, this is only supported in V0."""
+    _real_n: int | None = None
+    presence_penalty: float = 0.0
+    """Penalizes new tokens based on whether they appear in the generated text
+    so far. Values > 0 encourage the model to use new tokens, while values < 0
+    encourage the model to repeat tokens."""
+    frequency_penalty: float = 0.0
+    """Penalizes new tokens based on their frequency in the generated text so
+    far. Values > 0 encourage the model to use new tokens, while values < 0
+    encourage the model to repeat tokens."""
+    repetition_penalty: float = 1.0
+    """Penalizes new tokens based on whether they appear in the prompt and the
+    generated text so far. Values > 1 encourage the model to use new tokens,
+    while values < 1 encourage the model to repeat tokens."""
+    temperature: float = 1.0
+    """Controls the randomness of the sampling. Lower values make the model
+    more deterministic, while higher values make the model more random. Zero
+    means greedy sampling."""
+    top_p: float = 1.0
+    """Controls the cumulative probability of the top tokens to consider. Must
+    be in (0, 1]. Set to 1 to consider all tokens."""
+    top_k: int = 0
+    """Controls the number of top tokens to consider. Set to 0 (or -1) to
+    consider all tokens."""
+    min_p: float = 0.0
+    """Represents the minimum probability for a token to be considered,
+    relative to the probability of the most likely token. Must be in [0, 1].
+    Set to 0 to disable this."""
+    seed: int | None = None
+    """Random seed to use for the generation."""
+    stop: str | list[str] | None = None
+    """String(s) that stop the generation when they are generated. The returned
+    output will not contain the stop strings."""
+    stop_token_ids: list[int] | None = None
+    """Token IDs that stop the generation when they are generated. The returned
+    output will contain the stop tokens unless the stop tokens are special
+    tokens."""
+    ignore_eos: bool = False
+    """Whether to ignore the EOS token and continue generating
+    tokens after the EOS token is generated."""
+    max_tokens: int | None = 16
+    """Maximum number of tokens to generate per output sequence."""
+    min_tokens: int = 0
+    """Minimum number of tokens to generate per output sequence before EOS or
+    `stop_token_ids` can be generated"""
+    logprobs: int | None = None
+    """Number of log probabilities to return per output token. When set to
+    `None`, no probability is returned. If set to a non-`None` value, the
+    result includes the log probabilities of the specified number of most
+    likely tokens, as well as the chosen tokens. Note that the implementation
+    follows the OpenAI API: The API will always return the log probability of
+    the sampled token, so there may be up to `logprobs+1` elements in the
+    response. When set to -1, return all `vocab_size` log probabilities."""
+    prompt_logprobs: int | None = None
+    """Number of log probabilities to return per prompt token.
+    When set to -1, return all `vocab_size` log probabilities."""
+    # NOTE: This parameter is only exposed at the engine level for now.
+    # It is not exposed in the OpenAI API server, as the OpenAI API does
+    # not support returning only a list of token IDs.
+    detokenize: bool = True
+    """Whether to detokenize the output."""
+    skip_special_tokens: bool = True
+    """Whether to skip special tokens in the output."""
+    spaces_between_special_tokens: bool = True
+    """Whether to add spaces between special tokens in the output."""
+    # `list[LogitsProcessor] | None` type. We use Any here because
+    # `list[LogitsProcessor] | None` type is not supported by msgspec.
+    logits_processors: Any | None = None
+    """Functions that modify logits based on previously generated tokens, and
+    optionally prompt tokens as a first argument."""
+    include_stop_str_in_output: bool = False
+    """Whether to include the stop strings in output text."""
+    truncate_prompt_tokens: Annotated[int, msgspec.Meta(ge=-1)] | None = None
+    """If set to -1, will use the truncation size supported by the model. If
+    set to an integer k, will use only the last k tokens from the prompt
+    (i.e., left truncation). If set to `None`, truncation is disabled."""
+    output_kind: RequestOutputKind = RequestOutputKind.CUMULATIVE
+
+    # The below fields are not supposed to be used as an input.
+    # They are set in post_init.
+    output_text_buffer_length: int = 0
+    _all_stop_token_ids: set[int] = msgspec.field(default_factory=set)
+
+    # Fields used to construct logits processors
+    structured_outputs: StructuredOutputsParams | None = None
+    """Parameters for configuring structured outputs."""
+    guided_decoding: GuidedDecodingParams | None = None
+    """Deprecated alias for structured_outputs."""
+    logit_bias: dict[int, float] | None = None
+    """If provided, the engine will construct a logits processor that applies
+    these logit biases."""
+    allowed_token_ids: list[int] | None = None
+    """If provided, the engine will construct a logits processor which only
+    retains scores for the given token ids."""
+    extra_args: dict[str, Any] | None = None
+    """Arbitrary additional args, that can be used by custom sampling
+    implementations, plugins, etc. Not used by any in-tree sampling
+    implementations."""
+
+    # Fields used for bad words
+    bad_words: list[str] | None = None
+    """Words that are not allowed to be generated. More precisely, only the
+    last token of a corresponding token sequence is not allowed when the next
+    generated token can complete the sequence."""
+    _bad_words_token_ids: list[list[int]] | None = None
+
+    skip_reading_prefix_cache: bool | None = None
+
+    @staticmethod
+    def from_optional(
+        n: int | None = 1,
+        best_of: int | None = None,
+        presence_penalty: float | None = 0.0,
+        frequency_penalty: float | None = 0.0,
+        repetition_penalty: float | None = 1.0,
+        temperature: float | None = 1.0,
+        top_p: float | None = 1.0,
+        top_k: int = 0,
+        min_p: float = 0.0,
+        seed: int | None = None,
+        stop: str | list[str] | None = None,
+        stop_token_ids: list[int] | None = None,
+        bad_words: list[str] | None = None,
+        include_stop_str_in_output: bool = False,
+        ignore_eos: bool = False,
+        max_tokens: int | None = 16,
+        min_tokens: int = 0,
+        logprobs: int | None = None,
+        prompt_logprobs: int | None = None,
+        detokenize: bool = True,
+        skip_special_tokens: bool = True,
+        spaces_between_special_tokens: bool = True,
+        logits_processors: list[LogitsProcessor] | None = None,
+        truncate_prompt_tokens: Annotated[int, msgspec.Meta(ge=-1)] | None = None,
+        output_kind: RequestOutputKind = RequestOutputKind.CUMULATIVE,
+        structured_outputs: StructuredOutputsParams | None = None,
+        guided_decoding: GuidedDecodingParams | None = None,
+        logit_bias: dict[int, float] | dict[str, float] | None = None,
+        allowed_token_ids: list[int] | None = None,
+        extra_args: dict[str, Any] | None = None,
+    ) -> "SamplingParams":
+        if logit_bias is not None:
+            # Convert token_id to integer
+            # Clamp the bias between -100 and 100 per OpenAI API spec
+            logit_bias = {
+                int(token): min(100.0, max(-100.0, bias))
+                for token, bias in logit_bias.items()
+            }
+        if guided_decoding is not None:
+            warnings.warn(
+                "guided_decoding is deprecated. This will be removed in "
+                "v0.12.0 or v1.0.0, which ever is soonest. Please use "
+                "structured_outputs instead.",
+                DeprecationWarning,
+                stacklevel=2,
+            )
+            structured_outputs = guided_decoding
+            guided_decoding = None
+
+        return SamplingParams(
+            n=1 if n is None else n,
+            best_of=best_of,
+            presence_penalty=0.0 if presence_penalty is None else presence_penalty,
+            frequency_penalty=0.0 if frequency_penalty is None else frequency_penalty,
+            repetition_penalty=1.0
+            if repetition_penalty is None
+            else repetition_penalty,
+            temperature=1.0 if temperature is None else temperature,
+            top_p=1.0 if top_p is None else top_p,
+            top_k=top_k,
+            min_p=min_p,
+            seed=seed,
+            stop=stop,
+            stop_token_ids=stop_token_ids,
+            bad_words=bad_words,
+            include_stop_str_in_output=include_stop_str_in_output,
+            ignore_eos=ignore_eos,
+            max_tokens=max_tokens,
+            min_tokens=min_tokens,
+            logprobs=logprobs,
+            prompt_logprobs=prompt_logprobs,
+            detokenize=detokenize,
+            skip_special_tokens=skip_special_tokens,
+            spaces_between_special_tokens=spaces_between_special_tokens,
+            logits_processors=logits_processors,
+            truncate_prompt_tokens=truncate_prompt_tokens,
+            output_kind=output_kind,
+            structured_outputs=structured_outputs,
+            logit_bias=logit_bias,
+            allowed_token_ids=allowed_token_ids,
+            extra_args=extra_args,
+        )
+
+    def __post_init__(self) -> None:
+        # how we deal with `best_of`:
+        # if `best_of` is not set, we default to `n`;
+        # if `best_of` is set, we set `n` to `best_of`,
+        # and set `_real_n` to the original `n`.
+        # when we return the result, we will check
+        # if we need to return `n` or `_real_n` results
+        if self.best_of:
+            if self.best_of < self.n:
+                raise ValueError(
+                    f"best_of must be greater than or equal to n, "
+                    f"got n={self.n} and best_of={self.best_of}."
+                )
+            if not self._real_n:
+                self._real_n = self.n
+                self.n = self.best_of
+
+        if 0 < self.temperature < _MAX_TEMP:
+            logger.warning(
+                "temperature %s is less than %s, which may cause numerical "
+                "errors nan or inf in tensors. We have maxed it out to %s.",
+                self.temperature,
+                _MAX_TEMP,
+                _MAX_TEMP,
+            )
+            self.temperature = max(self.temperature, _MAX_TEMP)
+
+        if self.seed == -1:
+            self.seed = None
+
+        if self.stop is None:
+            self.stop = []
+        elif isinstance(self.stop, str):
+            self.stop = [self.stop]
+
+        if self.stop_token_ids is None:
+            self.stop_token_ids = []
+
+        if self.bad_words is None:
+            self.bad_words = []
+
+        if self.logprobs is True:
+            self.logprobs = 1
+
+        if self.prompt_logprobs is True:
+            self.prompt_logprobs = 1
+
+        # Number of characters to hold back for stop string evaluation
+        # until sequence is finished.
+        if self.stop and not self.include_stop_str_in_output:
+            self.output_text_buffer_length = max(len(s) for s in self.stop) - 1
+
+        self._verify_args()
+
+        if self.temperature < _SAMPLING_EPS:
+            # Zero temperature means greedy sampling.
+            self.top_p = 1.0
+            self.top_k = 0
+            self.min_p = 0.0
+            self._verify_greedy_sampling()
+
+        # eos_token_id is added to this by the engine
+        self._all_stop_token_ids.update(self.stop_token_ids)
+
+        if self.guided_decoding is not None:
+            warnings.warn(
+                "guided_decoding is deprecated. This will be removed in "
+                "v0.12.0 or v1.0.0, which ever is soonest. Please use "
+                "structured_outputs instead.",
+                DeprecationWarning,
+                stacklevel=2,
+            )
+            self.structured_outputs = self.guided_decoding
+            self.guided_decoding = None
+
+        if self.skip_reading_prefix_cache is None:
+            # If prefix caching is enabled,
+            # the output of prompt logprobs may less than n_prompt_tokens,
+            # we need to skip reading cache at this request.
+            self.skip_reading_prefix_cache = self.prompt_logprobs is not None
+
+    def _verify_args(self) -> None:
+        if not isinstance(self.n, int):
+            raise ValueError(f"n must be an int, but is of type {type(self.n)}")
+        if self.n < 1:
+            raise ValueError(f"n must be at least 1, got {self.n}.")
+        if self.best_of is not None:
+            if not isinstance(self.best_of, int):
+                raise ValueError(
+                    f"best_of must be an integer, got {type(self.best_of)}"
+                )
+            if self.best_of < 1:
+                raise ValueError(f"best_of must be at least 1, got {self.best_of}")
+            if self.best_of < self.n:
+                raise ValueError(
+                    f"best_of must be greater than or equal to n, "
+                    f"got n={self.n} and best_of={self.best_of}."
+                )
+        if not -2.0 <= self.presence_penalty <= 2.0:
+            raise ValueError(
+                f"presence_penalty must be in [-2, 2], got {self.presence_penalty}."
+            )
+        if not -2.0 <= self.frequency_penalty <= 2.0:
+            raise ValueError(
+                f"frequency_penalty must be in [-2, 2], got {self.frequency_penalty}."
+            )
+        if self.repetition_penalty <= 0.0:
+            raise ValueError(
+                "repetition_penalty must be greater than zero, got "
+                f"{self.repetition_penalty}."
+            )
+        if self.temperature < 0.0:
+            raise ValueError(
+                f"temperature must be non-negative, got {self.temperature}."
+            )
+        if not 0.0 < self.top_p <= 1.0:
+            raise ValueError(f"top_p must be in (0, 1], got {self.top_p}.")
+        # quietly accept -1 as disabled, but prefer 0
+        if self.top_k < -1:
+            raise ValueError(
+                f"top_k must be 0 (disable), or at least 1, got {self.top_k}."
+            )
+        if not isinstance(self.top_k, int):
+            raise TypeError(
+                f"top_k must be an integer, got {type(self.top_k).__name__}"
+            )
+        if not 0.0 <= self.min_p <= 1.0:
+            raise ValueError(f"min_p must be in [0, 1], got {self.min_p}.")
+        if self.max_tokens is not None and self.max_tokens < 1:
+            raise ValueError(f"max_tokens must be at least 1, got {self.max_tokens}.")
+        if self.min_tokens < 0:
+            raise ValueError(
+                f"min_tokens must be greater than or equal to 0, got {self.min_tokens}."
+            )
+        if self.max_tokens is not None and self.min_tokens > self.max_tokens:
+            raise ValueError(
+                f"min_tokens must be less than or equal to "
+                f"max_tokens={self.max_tokens}, got {self.min_tokens}."
+            )
+        if self.logprobs is not None and self.logprobs != -1 and self.logprobs < 0:
+            raise ValueError(
+                f"logprobs must be non-negative or -1, got {self.logprobs}."
+            )
+        if (
+            self.prompt_logprobs is not None
+            and self.prompt_logprobs != -1
+            and self.prompt_logprobs < 0
+        ):
+            raise ValueError(
+                f"prompt_logprobs must be non-negative or -1, got "
+                f"{self.prompt_logprobs}."
+            )
+        if self.truncate_prompt_tokens is not None and (
+            self.truncate_prompt_tokens == 0 or self.truncate_prompt_tokens < -1
+        ):
+            raise ValueError(
+                f"truncate_prompt_tokens must be an integer >= 1 or -1, "
+                f"got {self.truncate_prompt_tokens}"
+            )
+        assert isinstance(self.stop_token_ids, list)
+        if not all(isinstance(st_id, int) for st_id in self.stop_token_ids):
+            raise ValueError(
+                f"stop_token_ids must contain only integers, got {self.stop_token_ids}."
+            )
+        assert isinstance(self.stop, list)
+        if any(not stop_str for stop_str in self.stop):
+            raise ValueError("stop cannot contain an empty string.")
+        if self.stop and not self.detokenize:
+            raise ValueError(
+                "stop strings are only supported when detokenize is True. "
+                "Set detokenize=True to use stop."
+            )
+        if self.best_of != self._real_n and self.output_kind == (
+            RequestOutputKind.DELTA
+        ):
+            raise ValueError("best_of must equal n to use output_kind=DELTA")
+
+    def _verify_greedy_sampling(self) -> None:
+        if self.n > 1:
+            raise ValueError(f"n must be 1 when using greedy sampling, got {self.n}.")
+
+    def update_from_generation_config(
+        self,
+        generation_config: dict[str, Any],
+        model_eos_token_id: int | None = None,
+    ) -> None:
+        """Update if there are non-default values from generation_config"""
+
+        if model_eos_token_id is not None:
+            # Add the eos token id into the sampling_params to support
+            # min_tokens processing.
+            self._all_stop_token_ids.add(model_eos_token_id)
+
+        # Update eos_token_id for generation
+        if (eos_ids := generation_config.get("eos_token_id")) is not None:
+            # it can be either int or list of int
+            eos_ids = {eos_ids} if isinstance(eos_ids, int) else set(eos_ids)
+            if model_eos_token_id is not None:
+                # We don't need to include the primary eos_token_id in
+                # stop_token_ids since it's handled separately for stopping
+                # purposes.
+                eos_ids.discard(model_eos_token_id)
+            if eos_ids:
+                self._all_stop_token_ids.update(eos_ids)
+                if not self.ignore_eos:
+                    eos_ids.update(self.stop_token_ids)
+                    self.stop_token_ids = list(eos_ids)
+
+    def update_from_tokenizer(self, tokenizer: AnyTokenizer) -> None:
+        if not self.bad_words:
+            return
+        self._bad_words_token_ids = []
+        for bad_word in self.bad_words:
+            # To prohibit words both at the beginning
+            # and in the middle of text
+            # (related to add_prefix_space tokenizer parameter)
+            for add_prefix_space in [False, True]:
+                prefix = " " if add_prefix_space else ""
+                prompt = prefix + bad_word.lstrip()
+                prompt_token_ids = tokenizer.encode(
+                    text=prompt, add_special_tokens=False
+                )
+
+                # If no space at the beginning
+                # or if prefix space produces a new word token
+                if (not add_prefix_space) or (
+                    add_prefix_space
+                    and prompt_token_ids[0] != self._bad_words_token_ids[-1][0]
+                    and len(prompt_token_ids) == len(self._bad_words_token_ids[-1])
+                ):
+                    self._bad_words_token_ids.append(prompt_token_ids)
+
+        invalid_token_ids = [
+            token_id
+            for bad_words_token_ids in self._bad_words_token_ids
+            for token_id in bad_words_token_ids
+            if token_id < 0 or token_id > tokenizer.max_token_id
+        ]
+        if len(invalid_token_ids) > 0:
+            raise ValueError(
+                f"The model vocabulary size is {tokenizer.max_token_id + 1},"
+                f" but the following tokens"
+                f" were specified as bad: {invalid_token_ids}."
+                f" All token id values should be integers satisfying:"
+                f" 0 <= token_id <= {tokenizer.max_token_id}."
+            )
+
+    @cached_property
+    def sampling_type(self) -> SamplingType:
+        if self.temperature < _SAMPLING_EPS:
+            return SamplingType.GREEDY
+        if self.seed is not None:
+            return SamplingType.RANDOM_SEED
+        return SamplingType.RANDOM
+
+    @property
+    def all_stop_token_ids(self) -> set[int]:
+        return self._all_stop_token_ids
+
+    @property
+    def bad_words_token_ids(self) -> list[list[int]] | None:
+        # For internal use only. Backward compatibility not guaranteed
+        return self._bad_words_token_ids
+
+    def clone(self) -> "SamplingParams":
+        """Deep copy, but maybe not the LogitsProcessor objects.
+
+        LogitsProcessor objects may contain an arbitrary, nontrivial amount of
+        data that is expensive to copy. However, if not copied, the processor
+        needs to support parallel decoding for multiple sequences
+        See https://github.com/vllm-project/vllm/issues/3087
+        """
+
+        logit_processor_refs = (
+            None
+            if self.logits_processors is None
+            else {
+                id(lp): lp.clone() if hasattr(lp, "clone") else lp
+                for lp in self.logits_processors
+            }
+        )
+        return copy.deepcopy(self, memo=logit_processor_refs)
+
+    def __repr__(self) -> str:
+        return (
+            f"SamplingParams(n={self.n}, "
+            f"presence_penalty={self.presence_penalty}, "
+            f"frequency_penalty={self.frequency_penalty}, "
+            f"repetition_penalty={self.repetition_penalty}, "
+            f"temperature={self.temperature}, "
+            f"top_p={self.top_p}, "
+            f"top_k={self.top_k}, "
+            f"min_p={self.min_p}, "
+            f"seed={self.seed}, "
+            f"stop={self.stop}, "
+            f"stop_token_ids={self.stop_token_ids}, "
+            f"bad_words={self.bad_words}, "
+            f"include_stop_str_in_output={self.include_stop_str_in_output}, "
+            f"ignore_eos={self.ignore_eos}, "
+            f"max_tokens={self.max_tokens}, "
+            f"min_tokens={self.min_tokens}, "
+            f"logprobs={self.logprobs}, "
+            f"prompt_logprobs={self.prompt_logprobs}, "
+            f"skip_special_tokens={self.skip_special_tokens}, "
+            "spaces_between_special_tokens="
+            f"{self.spaces_between_special_tokens}, "
+            f"truncate_prompt_tokens={self.truncate_prompt_tokens}, "
+            f"structured_outputs={self.structured_outputs}, "
+            f"extra_args={self.extra_args})"
+        )
+
+
+class BeamSearchParams(
+    msgspec.Struct,
+    omit_defaults=True,  # type: ignore[call-arg]
+    # required for @cached_property.
+    dict=True,
+):  # type: ignore[call-arg]
+    """Beam search parameters for text generation."""
+
+    beam_width: int
+    max_tokens: int
+    ignore_eos: bool = False
+    temperature: float = 0.0
+    length_penalty: float = 1.0
+    include_stop_str_in_output: bool = False
diff --git a/scalar_type.py b/scalar_type.py
new file mode 100644
index 0000000..05760f3
--- /dev/null
+++ b/scalar_type.py
@@ -0,0 +1,355 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+import struct
+from dataclasses import dataclass
+from enum import Enum
+
+_SCALAR_TYPES_ID_MAP = {}
+
+
+# Mirrors enum in `core/scalar_type.hpp`
+class NanRepr(Enum):
+    NONE = 0  # nans are not supported
+    IEEE_754 = 1  # nans are: Exp all 1s, mantissa not all 0s
+    EXTD_RANGE_MAX_MIN = 2  # nans are: Exp all 1s, mantissa all 1s
+
+
+# This ScalarType class is a parallel implementation of the C++ ScalarType
+# class found in csrc/core/scalar_type.hpp.  These two classes should be kept
+# in sync until the inductor fully supports custom C++ classes.
+@dataclass(frozen=True)
+class ScalarType:
+    """
+    ScalarType can represent a wide range of floating point and integer
+    types, in particular it can be used to represent sub-byte data types
+    (something that torch.dtype currently does not support). It is also
+    capable of  representing types with a bias, i.e.:
+      `stored_value = value + bias`,
+    this is useful for quantized types (e.g. standard GPTQ 4bit uses a bias
+    of 8). The implementation for this class can be found in
+    csrc/core/scalar_type.hpp, these type signatures should be kept in sync
+    with that file.
+    """
+
+    exponent: int
+    """
+    Number of bits in the exponent if this is a floating point type
+    (zero if this an integer type)
+    """
+
+    mantissa: int
+    """
+    Number of bits in the mantissa if this is a floating point type,
+    or the number bits representing an integer excluding the sign bit if
+    this an integer type.
+    """
+
+    signed: bool
+    "If the type is signed (i.e. has a sign bit)"
+
+    bias: int
+    """
+    bias used to encode the values in this scalar type
+    (value = stored_value - bias, default 0) for example if we store the
+    type as an unsigned integer with a bias of 128 then the value 0 will be
+    stored as 128 and -1 will be stored as 127 and 1 will be stored as 129.
+    """
+
+    _finite_values_only: bool = False
+    """
+    Private: if infs are supported, used `has_infs()` instead.
+    """
+
+    nan_repr: NanRepr = NanRepr.IEEE_754
+    """
+    How NaNs are represent in this scalar type, returns NanRepr value.
+    (not applicable for integer types)
+    """
+
+    def _floating_point_max_int(self) -> int:
+        assert self.mantissa <= 52 and self.exponent <= 11, (
+            f"Cannot represent max/min as a double for type {self.__str__()}"
+        )
+
+        max_mantissa = (1 << self.mantissa) - 1
+        if self.nan_repr == NanRepr.EXTD_RANGE_MAX_MIN:
+            max_mantissa = max_mantissa - 1
+
+        max_exponent = (1 << self.exponent) - 2
+        if self.nan_repr == NanRepr.EXTD_RANGE_MAX_MIN or self.nan_repr == NanRepr.NONE:
+            assert self.exponent < 11, (
+                f"Cannot represent max/min as a double for type {self.__str__()}"
+            )
+            max_exponent = max_exponent + 1
+
+        # adjust the exponent to match that of a double
+        # for now we assume the exponent bias is the standard 2^(e-1) -1, (where
+        # e is the exponent bits), there is some precedent for non-standard
+        # biases, example `float8_e4m3b11fnuz` here:
+        # https://github.com/jax-ml/ml_dtypes but to avoid premature over
+        # complication we are just assuming the standard exponent bias until
+        # there is a need to support non-standard biases
+        exponent_bias = (1 << (self.exponent - 1)) - 1
+        exponent_bias_double = (1 << 10) - 1  # double e = 11
+
+        max_exponent_double = max_exponent - exponent_bias + exponent_bias_double
+
+        # shift the mantissa and exponent into the proper positions for an
+        # IEEE double and bitwise-or them together.
+        return (max_mantissa << (52 - self.mantissa)) | (max_exponent_double << 52)
+
+    def _floating_point_max(self) -> float:
+        double_raw = self._floating_point_max_int()
+        return struct.unpack("!d", struct.pack("!Q", double_raw))[0]
+
+    def _raw_max(self) -> int | float:
+        if self.is_floating_point():
+            return self._floating_point_max()
+        else:
+            assert self.size_bits < 64 or self.size_bits == 64 and self.is_signed(), (
+                "Cannot represent max as an int"
+            )
+            return (1 << self.mantissa) - 1
+
+    def _raw_min(self) -> int | float:
+        if self.is_floating_point():
+            assert self.is_signed(), (
+                "We currently assume all floating point types are signed"
+            )
+            sign_bit_double = 1 << 63
+
+            max_raw = self._floating_point_max_int()
+            min_raw = max_raw | sign_bit_double
+            return struct.unpack("!d", struct.pack("!Q", min_raw))[0]
+        else:
+            assert not self.is_signed() or self.size_bits <= 64, (
+                "Cannot represent min as a int64_t"
+            )
+
+            if self.is_signed():
+                return -(1 << (self.size_bits - 1))
+            else:
+                return 0
+
+    @functools.cached_property
+    def id(self) -> int:
+        """
+        Convert the ScalarType to an int which can be passed to pytorch custom
+        ops. This layout of the int must be kept in sync with the C++
+        ScalarType's from_id method.
+        """
+        val = 0
+        offset = 0
+
+        def or_and_advance(member, bit_width):
+            nonlocal val
+            nonlocal offset
+            bit_mask = (1 << bit_width) - 1
+            val = val | (int(member) & bit_mask) << offset
+            offset = offset + bit_width
+
+        or_and_advance(self.exponent, 8)
+        or_and_advance(self.mantissa, 8)
+        or_and_advance(self.signed, 1)
+        or_and_advance(self.bias, 32)
+        or_and_advance(self._finite_values_only, 1)
+        or_and_advance(self.nan_repr.value, 8)
+
+        assert offset <= 64, f"ScalarType fields too big {offset} to fit into an int64"
+
+        _SCALAR_TYPES_ID_MAP[val] = self
+
+        return val
+
+    @property
+    def size_bits(self) -> int:
+        return self.exponent + self.mantissa + int(self.signed)
+
+    def min(self) -> int | float:
+        """
+        Min representable value for this scalar type.
+        (accounting for bias if there is one)
+        """
+        return self._raw_min() - self.bias
+
+    def max(self) -> int | float:
+        """
+        Max representable value for this scalar type.
+        (accounting for bias if there is one)
+        """
+        return self._raw_max() - self.bias
+
+    def is_signed(self) -> bool:
+        """
+        If the type is signed (i.e. has a sign bit), same as `signed`
+        added for consistency with:
+        https://pytorch.org/docs/stable/generated/torch.Tensor.is_signed.html
+        """
+        return self.signed
+
+    def is_floating_point(self) -> bool:
+        "If the type is a floating point type"
+        return self.exponent != 0
+
+    def is_integer(self) -> bool:
+        "If the type is an integer type"
+        return self.exponent == 0
+
+    def has_bias(self) -> bool:
+        "If the type has a non-zero bias"
+        return self.bias != 0
+
+    def has_infs(self) -> bool:
+        "If the type is floating point and supports infinity"
+        return not self._finite_values_only
+
+    def has_nans(self) -> bool:
+        return self.nan_repr != NanRepr.NONE.value
+
+    def is_ieee_754(self) -> bool:
+        """
+        If the type is a floating point type that follows IEEE 754
+        conventions
+        """
+        return self.nan_repr == NanRepr.IEEE_754.value and not self._finite_values_only
+
+    def __str__(self) -> str:
+        """
+        naming generally follows: https://github.com/jax-ml/ml_dtypes
+        for floating point types (leading f) the scheme is:
+        `float<size_bits>_e<exponent_bits>m<mantissa_bits>[flags]`
+        flags:
+          - no-flags: means it follows IEEE 754 conventions
+          - f: means finite values only (no infinities)
+          - n: means nans are supported (non-standard encoding)
+        for integer types the scheme is:
+          `[u]int<size_bits>[b<bias>]`
+          - if bias is not present it means its zero
+        """
+        if self.is_floating_point():
+            ret = (
+                "float"
+                + str(self.size_bits)
+                + "_e"
+                + str(self.exponent)
+                + "m"
+                + str(self.mantissa)
+            )
+
+            if not self.is_ieee_754():
+                if self._finite_values_only:
+                    ret = ret + "f"
+                if self.nan_repr != NanRepr.NONE:
+                    ret = ret + "n"
+
+            return ret
+        else:
+            ret = ("int" if self.is_signed() else "uint") + str(self.size_bits)
+            if self.has_bias():
+                ret = ret + "b" + str(self.bias)
+            return ret
+
+    def __repr__(self) -> str:
+        return "ScalarType." + self.__str__()
+
+    # __len__ needs to be defined (and has to throw TypeError) for pytorch's
+    # opcheck to work.
+    def __len__(self) -> int:
+        raise TypeError
+
+    #
+    # Convenience Constructors
+    #
+
+    @classmethod
+    def int_(cls, size_bits: int, bias: int | None) -> "ScalarType":
+        "Create a signed integer scalar type (size_bits includes sign-bit)."
+        ret = cls(0, size_bits - 1, True, bias if bias else 0)
+        ret.id  # noqa B018: make sure the id is cached
+        return ret
+
+    @classmethod
+    def uint(cls, size_bits: int, bias: int | None) -> "ScalarType":
+        """Create an unsigned integer scalar type."""
+        ret = cls(0, size_bits, False, bias if bias else 0)
+        ret.id  # noqa B018: make sure the id is cached
+        return ret
+
+    @classmethod
+    def float_IEEE754(cls, exponent: int, mantissa: int) -> "ScalarType":
+        """
+        Create a standard floating point type
+        (i.e. follows IEEE 754 conventions).
+        """
+        assert mantissa > 0 and exponent > 0
+        ret = cls(exponent, mantissa, True, 0)
+        ret.id  # noqa B018: make sure the id is cached
+        return ret
+
+    @classmethod
+    def float_(
+        cls, exponent: int, mantissa: int, finite_values_only: bool, nan_repr: NanRepr
+    ) -> "ScalarType":
+        """
+        Create a non-standard floating point type
+        (i.e. does not follow IEEE 754 conventions).
+        """
+        assert mantissa > 0 and exponent > 0
+        assert nan_repr != NanRepr.IEEE_754, (
+            "use `float_IEEE754` constructor for floating point types that "
+            "follow IEEE 754 conventions"
+        )
+        ret = cls(exponent, mantissa, True, 0, finite_values_only, nan_repr)
+        ret.id  # noqa B018: make sure the id is cached
+        return ret
+
+    @classmethod
+    def from_id(cls, scalar_type_id: int):
+        if scalar_type_id not in _SCALAR_TYPES_ID_MAP:
+            raise ValueError(f"scalar_type_id {scalar_type_id} doesn't exists.")
+        return _SCALAR_TYPES_ID_MAP[scalar_type_id]
+
+
+# naming generally follows: https://github.com/jax-ml/ml_dtypes
+# for floating point types (leading f) the scheme is:
+#  `float<size_bits>_e<exponent_bits>m<mantissa_bits>[flags]`
+#  flags:
+#  - no-flags: means it follows IEEE 754 conventions
+#  - f: means finite values only (no infinities)
+#  - n: means nans are supported (non-standard encoding)
+# for integer types the scheme is:
+#  `[u]int<size_bits>[b<bias>]`
+#  - if bias is not present it means its zero
+
+
+class scalar_types:
+    int4 = ScalarType.int_(4, None)
+    uint4 = ScalarType.uint(4, None)
+    int8 = ScalarType.int_(8, None)
+    uint8 = ScalarType.uint(8, None)
+    float8_e4m3fn = ScalarType.float_(4, 3, True, NanRepr.EXTD_RANGE_MAX_MIN)
+    float8_e5m2 = ScalarType.float_IEEE754(5, 2)
+    float8_e8m0fnu = ScalarType(8, 0, False, 0, True, NanRepr.EXTD_RANGE_MAX_MIN)
+    float16_e8m7 = ScalarType.float_IEEE754(8, 7)
+    float16_e5m10 = ScalarType.float_IEEE754(5, 10)
+
+    # fp6, https://github.com/usyd-fsalab/fp6_llm/tree/main
+    # and https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
+    float6_e3m2f = ScalarType.float_(3, 2, True, NanRepr.NONE)
+
+    float6_e2m3f = ScalarType.float_(2, 3, True, NanRepr.NONE)
+
+    # fp4, https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
+    float4_e2m1f = ScalarType.float_(2, 1, True, NanRepr.NONE)
+
+    # "gptq" types
+    uint2b2 = ScalarType.uint(2, 2)
+    uint3b4 = ScalarType.uint(3, 4)
+    uint4b8 = ScalarType.uint(4, 8)
+    uint8b128 = ScalarType.uint(8, 128)
+
+    # colloquial names
+    bfloat16 = float16_e8m7
+    float16 = float16_e5m10
diff --git a/scripts.py b/scripts.py
new file mode 100644
index 0000000..f158860
--- /dev/null
+++ b/scripts.py
@@ -0,0 +1,17 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.entrypoints.cli.main import main as vllm_main
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+# Backwards compatibility for the move from vllm.scripts to
+# vllm.entrypoints.cli.main
+def main():
+    logger.warning(
+        "vllm.scripts.main() is deprecated. Please re-install "
+        "vllm or use vllm.entrypoints.cli.main.main() instead."
+    )
+    vllm_main()
diff --git a/sequence.py b/sequence.py
new file mode 100644
index 0000000..6d20ca9
--- /dev/null
+++ b/sequence.py
@@ -0,0 +1,98 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Sequence and its related classes."""
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+if TYPE_CHECKING:
+    from vllm.v1.worker.kv_connector_model_runner_mixin import KVConnectorOutput
+else:
+    KVConnectorOutput = Any
+
+VLLM_TOKEN_ID_ARRAY_TYPE = "l"
+
+VLLM_INVALID_TOKEN_ID = -1
+
+
+@dataclass
+class RequestMetrics:
+    """Metrics associated with a request.
+
+    Attributes:
+        arrival_time: The time when the request arrived.
+        first_scheduled_time: The time when the request was first scheduled.
+        first_token_time: The time when the first token was generated.
+        time_in_queue: The time the request spent in the queue.
+        finished_time: The time when the request was finished.
+        scheduler_time: The time spent in the scheduler when this request was
+                        being considered by the scheduler.
+        model_forward_time: The time spent in the model forward pass when this
+                            request was in the batch.
+        model_execute_time: The time spent in the model execute function. This
+                            will include model forward, block/sync across
+                            workers, cpu-gpu sync time and sampling time.
+    """
+
+    arrival_time: float
+    last_token_time: float
+    first_scheduled_time: float | None
+    first_token_time: float | None
+    time_in_queue: float | None
+    finished_time: float | None = None
+    scheduler_time: float | None = None
+    model_forward_time: float | None = None
+    model_execute_time: float | None = None
+
+
+# cannot use msgspec.Struct here because Dynamo does not support it
+@dataclass
+class IntermediateTensors:
+    """For all pipeline stages except the last, we need to return the hidden
+    states and residuals to be sent to the next stage. This data structure
+    contains the hidden states and residuals for a request.
+
+    Each stage also needs to handle its own kv_connector_output.
+    """
+
+    tensors: dict[str, torch.Tensor]
+    kv_connector_output: KVConnectorOutput | None
+
+    def __init__(
+        self,
+        tensors: dict[str, torch.Tensor],
+        kv_connector_output: KVConnectorOutput | None = None,
+    ) -> None:
+        # manually define this function, so that
+        # Dynamo knows `IntermediateTensors()` comes from this file.
+        # Otherwise, dataclass will generate this function by evaluating
+        # a string, and we will lose the information about the source file.
+        self.tensors = tensors
+        self.kv_connector_output = kv_connector_output
+
+    def __getitem__(self, key: str | slice):
+        if isinstance(key, str):
+            return self.tensors[key]
+        elif isinstance(key, slice):
+            return self.__class__({k: v[key] for k, v in self.tensors.items()})
+
+    def __setitem__(self, key: str, value: torch.Tensor):
+        self.tensors[key] = value
+
+    def items(self):
+        return self.tensors.items()
+
+    def __len__(self):
+        return len(self.tensors)
+
+    def __eq__(self, other: object):
+        if not isinstance(other, self.__class__):
+            return False
+        if self.tensors.keys() != other.tensors.keys():
+            return False
+        return all(torch.equal(self.tensors[k], other.tensors[k]) for k in self.tensors)
+
+    def __repr__(self) -> str:
+        return f"IntermediateTensors(tensors={self.tensors})"
diff --git a/tasks.py b/tasks.py
new file mode 100644
index 0000000..b02cde7
--- /dev/null
+++ b/tasks.py
@@ -0,0 +1,13 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Literal, get_args
+
+GenerationTask = Literal["generate", "transcription"]
+GENERATION_TASKS = get_args(GenerationTask)
+
+PoolingTask = Literal[
+    "embed", "classify", "score", "token_embed", "token_classify", "plugin"
+]
+POOLING_TASKS = get_args(PoolingTask)
+
+SupportedTask = Literal[GenerationTask, PoolingTask]
diff --git a/third_party/__init__.py b/third_party/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/third_party/__pycache__/__init__.cpython-312.pyc b/third_party/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ed778faadc935b262fff301063dcacac1c68d681
GIT binary patch
literal 161
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIp~+<7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#7XWEQ2w7bF&yRO-jaXXa&=#K-Fu
iRNmsS$<0qG%}KQ@Vg(w=2*kx8#z$sGM#ds$APWE_Y$qcC

literal 0
HcmV?d00001

diff --git a/third_party/__pycache__/pynvml.cpython-312.pyc b/third_party/__pycache__/pynvml.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d9d7b78b51d136e16a861b3a2cac940d2ea76f2a
GIT binary patch
literal 250620
zcmcG%31AdO_CG$EBbmv4KsdrN31<YkMC6tb5{M)rBmrbR#*mtXfn4@X0*Rog>@F&5
z@FJ`i-r#-T_pz(H9uvVOj;!~wtnO|UU2pw=-s|d_?#=}D_uub8KK;6`u6p&V>eZ{N
z?!Ts_BwFxmuwUT6;xe1%1G>?E4oMt7agN2Z(;_S)uEBDLHI682LtLZPqtdnpTch1$
zXLoyp!{dOzy&>Kc&({P`0$-gTr_bd{6c$gCaCnkIr+`icohITv=_0|CA)KB};qqjO
zM9%<`<QXWEJ=r3~Gf1R*28%S$5Z@5bP?7G*5gDFgBGWTmWO+u20iKa!pvR5$a*<vh
z(i?^JMkBp3NN+6C8;A79BfWg2cND@+K)8trcQoippeKW#f;dwVXBy%h1NZ50KNjvY
z;C>wbX2Ne4{AMG)IY@6V(wm3$=8J64@xJ3d3lOIOaTX#@A;K?0_#%WaM)<|>TLQll
z_?-a1rSL0-dl}rz;l2#+6>wh;_e#X6f?qYBu>$@p;kOEYC&GO-p65Y%PZEPXCyT+J
zQ^XL@sbZ+di*TnQof?E)gRr$oM<Bcp?saglhx=N%`w?~>+}6Xb0d9?OYr=gq?pttw
zI_?$R2XG(6eJk$UaK8cf8*$%``wpai2GZUH_swuW6YgiheGA;rhWj~iKNs#>;r=_g
z{~r1M1KhU3?L4@h54Q^tc00meh;m+pa$XExcA{)MP}i5Bt}jJhUxs?V9QAw!>Uk&X
zxeI09g>?Ribgo1?S0SCNk<K+p=UTY$hWmAJzaH*4!2L$J--PsUM*6oP{XIy3FVepi
z>EDL*Z%6ufApJX${#{7_ZshYG$kDy1&-+A<=YBEF^MDxcc~Fe-JS0YX9u{uTBO=%H
zsL1m?CPsN47o$B-h%ufg#aPc%c>dFP{xf*~v!I^?{XFOwK>rE!pFzI}`X$hR0sU9x
z@nzh<g8Nr-{~GQ?xbMdO>$u;C`~A3o1NVQ!{Q=Z-5ANT@eHiy|!T%u2_;-}?ZItmH
zl<{4Z@jZljA7MT~m=6)=BZT=FVLm~ae;~{ug!w1Je2OriA<VxJ=HCeOAB5>en9sqR
zFTk6_;LVo^_Z7nZ7va7}xNjgk-@@%XxP1?|AK>;Q;{JrVKl@yraUS#vz&POmTG_?M
zE_QZtunT$w_$IK6Q^bRIi3DJxZ~~JArIRcYfhi&hm@1NiX(9!fE>eLRoK7aElf~%_
z;B*GEdp5hHzd*>rVi<6U7zZ3G#shOY<9zr--;oa-&M`)aqd<@3l-!(BF6StZb2N%^
zH0Ns!habyN7{}p}rjOFi=XghPya^m*BF8wIOEQV$P3ACDILuTIGmXO>!(pa#X^-X7
z&fwA>$7Pr)(vbcvF#$N6)0xB1pUcmm$7#;zG>_*r(F-9Y`XL~CA|U!A;39S}V)tTp
zN1p`uC1N75L>vt~K}-TJW%p7JS;isDIfZ5XlnQ>za?W`r=e&x;S98b}9C9UxS;b{J
zQ4BzutHmIoM+^p@#3enMW1YfJIhEt04}&jyF(CReAbK(&`Z6GTGoX)s>)0248eGt;
z0sWl*I)2uAF&QomVhXU4=_bZzetHYLpUyI&uzP?p$SJfkwsATe#1N#gkz=)U9y+YZ
zo9_&t>$W&`Toh9~Kp@m6F%`I(<?T!{4fI*!7~mE$9e6g!J4YO=#e>_qR*TPNaM|jz
zaEZ`o!vFXD#6NJUw=uWRV{V_%+`E8zyPf6aLY9+@SWYe$>4@7YGJrcoCh!uG1-z6?
zbeR|k`f`yCyh2br*vUEW62n375+i_r6eEFG3ODd7kqf+9<N>b{qkz|n(ZJne4DdSU
z;q_t$=o^@CH;Usx-y~)NZx*wFw}{!mJz@@Uub2zGRm=n4#;x&oF(33D;&|YlVgc|j
zQ2@MKECk*o3W4{EMZo(+5%7Ld417RP+kH?h20kQ~03Q}5z(>Rhz(>VW;A5f`__!zo
zJ|W71Pl{#0r$hztX|WvmjHm=YE2@CcaV<YDszJXXRsjDbRs#PlRsmlWCjws*tAT$J
z9^hZaNx+xI$-q~{DZp37sleBS7Z?(!0lP&F@O7~UxQ}IQzo-TMh7iEN2_Nu)r~~$h
zdf=O4Eif$nz_-LY;6bq-_;=9&d|NaE-w{o~cSSSsJ<$SuUz`s7fTj9Fp@9BK1b`ol
zAn+5>3jBv?10E6^fd3R5fuD+Y;Af%(_%Cq=@ZVw+@IPWRuveT3{9K#`{6cI29u{W<
zzZB;HzY^yH|0}ivzZSm(ej|Pl{8sz{_?_4W{9c>~{6U-#{83y0{7GyF{wyx+v|^mN
z2pA_W23kcY(1x~V_1MJ@phH{&j2D*z6U1der??#G5?25d#ZF+7=mI8-UBDFaM_{VB
z5|}2g0;Y?rff?c&V5Ybhm?d@t2Z-x{1I6{gY;gl{khl>zSlk30B5no_6}JF$#2(-<
zu@^X8+zK2aZUc@Kw*%ec4q&dh6PPFN0*(@Q14oN{fMdkHz_H>!;5czVaJ+Z`m@gg#
z9wi<EP7n_RCyGaaM~g>+lf+}d$>MR~6!8Rbs(2DOO*{oWMm!CiE}j7%E1m_;5YGXR
z6VC%@iWh*h#Gin(#h-z5#EZbW;w9ib@fYBH@mJvS;$`3h@d~g&yb4?>UIP}25O9&`
z1{R6efyH7UaIx4ATq528mWaOrPY?%yOGOW`RJ;i+6JcPvcni2p90XQ~zXO+xw}F-7
z9blDs7g#Oc1FjJ716PU<fUCrZz!Swsz}4bophtWHJW2cmc(OPIJVpEyc&hjm=oOy<
zPZR$F)`))t*NFcBYeg?mh|hsO@ddC>90t~lFM(^tS3tk`FL0gs8n|A318flA0vpA5
zz$WoMuvz>7Y!N>KPZvJ{74b6=Eea!#)q^%A;&4T)5>{N%u7nL&v@BuA6>STBxYdK!
zg<jn1LHj~KZuOvrp(nR`(8kc0TRmuH=*_LroreO?!suc3pq-&_w|dah(7RhbXlv--
ztsb;C^zc>>+8g?Ks|PI(y}Z?fHiv%R>OreRPjB_0-J!3ydeHLF+gm+od+6`29<)C6
z_*M_vA9`skbZ#oiMV!xzIhUR6vV&bNVfs?0FJs@!xdc~m{&!L-Yq~IYC3HI0P1B}{
z(d%uJ#1o*WBkYwJ)vcbZ7_Vl$hM#aPKVdh!T*ofgv&#+q%o`bR;wRtCPe!ZsQJdTg
zZO!Vr6=fNW>utCW!S!}riIaEWnuF_|obFwm?%ka3J)GjboZ@|);{99`4{*o_Ipjke
z@?j472)jSZ?vJti<Lv$fr|=}F@D!);G}q)aTzAiM%{|BU_B_`bW&p?!<^Vv<0)UtY
z05KB)VlDv0YykK&r}+w}@G6ISjl+aEOgD#lox|)yDTg5jW(Yvc5rCK_01vQB54*g{
zE@5_gi(L+~%ir1MZFYHwUEbxi-{X?K&rkS(!+gkLKH@MRGyMtE|6uwM)BohSpK|!m
z*!^GZ{%>~qkH|-^dNHnAF`iJ3ePOjMwjlq*w-Sy(tscJ3rV0&wzm&cs+1G9I{R%O1
z;bZmu7gQcoUqiRD`o7lWE{;+i#XjG#&$pTnVtog{(d_rVe9jo$#fh;<;RjtVeuUdN
z4)+tN@l5?JW8`y;qdILqOC*NP6NhKnd{+F$MRYuy$0p-U;5ZXaaqQCfX!e~1U%M_v
zhxDDyzEe!T@yOTIPMaq|hMLBqjxmLDO5f@1d#uUVC4FbG?{OyIMCm(|eP@|`lceu#
z_MHP?JvWjg+(_1OBSprU%W>wJQp9`>+MvyoCPN+1p%$1zrAyxe_FZW5&5*u@?7PV1
z3vC!$q|K8hLltwV#imdLr0){;Eiw5Hl)fjh?^2U*w)8D!-!hZ$AUwYu&mSy9E#puX
zrcgtq?{fC7gs+~nL(zlVJUKE<6^E%dg&8J&SFrC&Q~JYkk3Y`{T=C}_iFRs(Mg#eU
zM&khHp+(y~qhu<pIF%Dk&loLzSF^9j^o%jM$Dd~`N_-No<7DWQIrJ%}(Bq}=sqE`D
z`Q}UC)7ZDh<a?C#UBkY$Cf^CtSFo?o<U3LN*0FCre2><(ze&<}E&KXSaVJaPb?m#|
z<U2+BHn4A_$#*JdST@fz@TLjZV`SK74%=c1i`gUedz<H28A{<$0aK_MGSqQ0RFFfp
znnKN#zHRKg!Q_kC8uuu(WvGoDs@)U{^EeJQSBC1~P-mDz%|j@v_xXaP>Ufr_1v17a
zj<MMk1G7HNIc%PVGSpcdYKtip=7X4r*gT75sB<{fxu#G>(swKS{?6oEEPa2^zJD<J
zVor(qi_Nn{hB}W!oo@<NB7HAl-|Z&f6Qu8j?0b>Pcd6t}sSI^7hw3zi!n~DBS}sHF
z;82&CLM;=--wNjMa&EPi7{hJQww=IgXeTz$3Yo&CoWf<M6jn;#%h~q|lkY0&yOVvp
zOui>d-(BqcN0aYr>3b#nUS;yd9GWHMBpK>z4t0$w)XCEKTK3&-@;ycRUdO)In|x1|
zzBjP%jV52O^u39FZ#Ma!CVg*V-#sSZ8tJ>2eQ!1Su93dCvG46B-&*N=2m9V>@)gqe
zF800K<O_QNx4k+U>K+btFGA@@i2BIbTdx~?*RqWGSw_~ebgYM-X~PU?0I(4{v<)*L
z(kNhAz|7U=fo%bER~u$Q(}1umU=C~JdC-Hn(md!PTxlNkFs^NaB$4_Q`tx@rz$#|*
zt&`XF^4ch`P4e0xug&t>BCn^*t0J!fc@4^ItGu?US6Z3C)3G)I?7(yJM=KP-O<c;&
zT*@<f>^uuvs10^GD)HG|;&V9f)QiwxyG*-7UN_0>W_dkRUeA)(E%JJ{yq=?8Y4rn7
zAX}adGc}tJe;%^t*{}{moIj8AbUx?l0?yNR&eMgQr;9jG7b711{Z6L+dwJa^ujk3@
z`SN;!yl$7*3+449_3G)AlJf{l&Z9_KuW{~>zK^l*<0jurr0)~#`y_nzQg^BJeTsdb
zHpRV6`aZ+H&zgKMm%h)j@AIaVuMi|zJDHnZ%*|cg$NiD<O4uQ6uv1c)t2xXy9Ohb?
z<_nzWpG;5OEq(vYzAu`5uamwnvF~5ttJe#zm%e{x-<M5sZ;-yPu<xrT-y5axYwQ~`
z`Q9XbyV>`3lkd&acOU!iH~HQoecxc;zrk0Z=RMN*0Q-VthI-#Cecxo?u*vsU>H8M@
z9)z#H-fxq>e`nvfO>u7*R4;dMz1+$4T}<E2b#xEc;Jw@??&GoQe$1q8u<s@TALLf@
z5N6Ug*mqNbkHGq2gMBw0_!ul7HqYbo>F@B<-!<j!3F-SD`@V1TeG)y_2T0>78R|n0
z^^vIrPfOpA+4mDu8qY}If3WW%lkc;Up7>c^PyC!9o?vYd_yY6cPt1ouGap`LKD@+y
z_zUylugr&+Io2y2>s9&GfAUj5H9hq;>H8V`{>$VWLaG0aCwI$G|KU)*2&L}{UYEX~
zv+ozCH1=_h_6sV<8=RxRaXAifIeKK=!yNZZQ`|SD?^o>mUz2Z`Qy^P~4YqIM(BC=b
zx0yHZ@N?f~iFl7C;(eBg4`B7OVYL(UTiCuS?#CSW6OQ{2PV*3_@K5IMr_9~Yn7jYt
zH2=+M{)f}-<upHMDf@z@>@cirHrT%DDPM7~{a@JCY_NUP6Tguq`kG7hjj2T6O5bnU
z_dApCcRcs{p7Z<z=lMs@^G}>-T2r;dR_*|jHPH@Rxf5tZp0U@W(++!s-Dl&z-R`ri
zSC3{l_@1Bm1D+VIS-Xeq24^F70<J$Igx#ar2!7)5KO1sr_rOK~7kW-)%?oi<+kjPA
z5XTC8sJ>6IdsN$iRan{AX7WwOlOI4Dux!GXXouZ?5HJm{58|3GeKQ2*EtAWx&eyHN
z!RcW<)%8Gj4=kPFmffSy%)ucJ1<ltGN}ZWoMI!s6e=+zD;##tbWcEdmWAGg;eN)*N
zeUQOdov&L(I{TtmGWZUaaWmN$5@hhrL20Qr)ET=~4B$|ZEkmf`G8AlOA{!y>o{^vi
zF$D{m7|c{Is3A<{ff~xxC{Q^}jYbVptYKR%5qp^3Ge)`&H@LzYCPr|qaiB&rHC~2v
z8$#ww*Ia`u?6Yi}vwJ3hB3qo@GZEBirj7<RhN(%Q#xgY-6xrMCo++TlGX;yd$Y*LA
zsH2!V2Gj(mrh}Tu)Ulw*f@b&305yrJ<7B=j8}c<%x=t~;&XTTE4X(4LE9`1Ie$A1!
zc?_On#mcU+ZOw(-vB<|f85ednUEKLH?r|J<rYY|6GVTHyca|Y;0es2QX7?-vHHWD}
zP;;4D1Zo~rMWE(0RV>pv-jL2>>AJw+in%UYx3t^WVRb_kY>mUSN<b~-)J_0JHZ{9v
zDX2wEm4Yf_sti;yQ{|u*GqnuV5~eETGfNE5TrOQtFt}Dq*QEy6Dx_7)X~Bvt%9vUK
zs+_5npq4SU3RDGCCxTke)M`+bOhNe-RZN`(s+y^jL6Mcr?l}e2N~TT)wTdY(s1unw
z4b*C;YCw6IS_A4NrfNZ*%#;9i3R6B%WY4mD)Y+O<cyVXNy0B4Z>e04ON2s;%tKsl|
zP-~c42db8-^`Hb(4f?v$({)&l5<afCMuR)mXC1pYfvV?Jnx!nR#hn%F&Bi>@%#ZSP
zI{emgcm?%xI!nfSPALGN2KEVpYGkSvR1;HepqiQ50IG$lji63vsvQ(rvFw<sSw(=U
zGeD8e%8vCht7v6vGpIJE&IGlAsk1<lUCNHNGOK83>TFPCg|cJ4%qq@c3iCKx3l*C<
zw_8DNX7}HLI+Lm2gF1_;KY-f8)HYCOGj$%QbC^0G)VWMu0BS2!+d=(~sS81o9m(#w
z2-F{#x){_praD2L$J7o`=QDK)s0*076x4R6E(3KTQ<sCfh^Z?;UCh)@*(N#-ZK4bQ
zJJ^30s7sjoBSN}ycc~%dm2kO?{jUObIa625kXIN&UL#$18eFeMtS*kV8`LhQt^@T)
zrmhEdB~v$mx{9eAL0!$%O`xt}>Sj>aGKF<Kv70HZ=85Z=+6(G>rfvmw15>wwx{;~d
zLEXgE9iVPz>P}F%Fm)GeD8mf>*B-9-yAftDhq(vTtxVku>NckC19dx7_k+5FsRuya
z$<%|O?qcd8P<J!+FsOT&dIZ$HOg#$fKBgW6bw5*&gL;6eCqO;O)RUkdV(KYS4>R>N
zs7IK32GpZWJqzkFrk(@!I8)DqdV;AJKt0J6N%vDs{TbBLOuY!|8KzzW^(<3=0rebH
ze+BhCQ!j&hfvHzO{fVhpLH(Jj*Fe3<R0z~dOm&0$3sbLy`YTiWK)uY=eo(J4^#-U{
znfe>3*O)p0D#TO|sBWg-1ob*oVNm;+dJEKkrVfI7gQ>rR`WsVkgF3*}JD_@)dKc82
zOuYvx%+&j!-eT$lPzRa%5Y*q9`Uuq9OnnUM9i~13^)6HY0QDYIhd{m0)IULez|^Op
zK4j`MP#-b%FHj#dg*g@NyAYqS<oyRd=wRIagYSAl9pX@*gZd{^Ux50Qsl%W?W9my#
z|6=MZQ2%D?zq0lJ$IvFfmae@9*KZK(bB^^bs4tlM4%A_$z6bRsQ$NVqUm0Tm2><`G
z|4*R4X6k29-+*#>ETFz+Dh||lOj$vF&y)?+4@}uX{m2w%Ev#|=q<e}3^AFYaXM-#B
zcZ9Xkd_rr-cqZmL>>6iqg=Wt)3x@}`0%7B4L7x|PreIm)d4dD;3!8{%H`oqD0#nf4
zd4Ax)Ji{hj>;{dUX9W%qW_cos-JqxQT)=_Zg_?&HLmr@^i&PGo4JwVPL7>u^8Vo9f
zDcBfACR0N}!3rg^AQ28)zl&;IdK#m+O$^{L!$1w>xLB=Yz28A=cC7b1Faxl$-tX|Z
zK@H(>xuAwJl?N(^sZpSYF*O?0aHht98o|_9P$QWd2g=RVcu=`a<%7y&>L^g7n3@1;
zG*c5LXT}&fb2R+Nvi~Gd<CvNZYCKa@K;<(9OEc^A4y=ROuvf_jy`DI845*150@^j}
z^$rha*{s)NCqAgj?0X!jDNI3=7E_s;1!@{ovq2rh6jr9ibf&QPknF4CSbomDPKOVF
zp80T@!T!gCI*zFYpk^{v0BROf3qj3hsu0v1rm()u8o0w#1Zp0;70aj0=cg>jQ}E|m
z0{`RLzXa3*rcMA=z|>Mu3z;efRmfBss6|YbgDPTb8K`2WDnKn}YB{JSOjUv^VX6w$
z2~1UkTFTT4P^C<*1Xae=Dp2K2od{|fQ>#H$Fy#TYoGGm2u@3F<oD8ap-LQtsI<&)c
zDyS9g<^{EqDQLN@LpwY*piX4BHK0~ARSU|)6xKVSdxo_(4-L}>otosp2kK-F1N|9c
zzB7b5g~MQ_;|Q(jR1UM2HC-EP-!_x>?eJiyC03yvo^^Oy4L@x?s5MMAfU0Gx5tLx6
z36zg1XwazJ7A;rCJ8s3KbK^V(V$^dC1=L!m0>;qBJC5t;xIx5N$1z$#t!JtYR0C63
zXJO6Tfjwt7*1T~#15`8nc7SSO3Tv~hc{`w6+gS5<VE37gHE)OKOi)1%cNVBtrnbQ9
z;=tNSJn$UYRvb9Z;RJ4l^^8t*Bm#dA>zM=V87aVRu$wuso{<JTA9gbbPIqJgw_}fz
z1G~+J124i}VFylm%m8-6;^V;X<l}&sV6U(PyOU=DFT-A82X-gV0bYUq!46pc=L5UM
z@xWc!AMC)MvI5|hVj=J<><@Op>c0qh4fYv1usfMr+ivXfbzpb$a^UsY<Lkig<SO8e
z7?T~?om>sP8GC#k*qyu*xCeWD9oScPBJfu1@pWK#vIlrO%f=np<Lkig<WqomVUMo^
zyOX`Zdmv2?>`tx$-iJND4(v{z41554d>yb}3*bZ8<LiL+x(@gV_V_wry<Q7^40A3A
zb|<d`K7l>H4(v{D06v91z7Fh8ZUR1oJ-#?gf<3+t>`p!%_&oOb;zSAd_&TtkECBqo
zl<qdvTO9W8>*sMcX$iFP+{uPrzj~_@PNP8X$g=0~y%@1hJ3KGR6x)%a4ZDMlasDEG
z&tPB3lg_q?GcD40Gy6ia48AY3RJ|g@oW)_bn8M&B3`+GHo_sd^9i9-VbC~J|buLq{
zgWAf}K2X17YCovoGxY|jKQQ$-P}`U~ASkUKPMh|`IXq$bormjNI91{B90U*W=lQ$L
z+xduP!=7bh+24lSc24gd*nl0LcVV4%U=KE>{XVDq0k@bBxy5`W)4Gt;y2w<{k2x0Y
zrE_3!Hnp=u?D9|8l^t|82Z+--K%CD3{+sbX?Ayz}pR?~5?0%SA=a=mJ75n1E4r1ZV
z4)7apuivuocPPWfaQj~7u5&AubcZQ-Kfvu0_&7X2g1VHcpE%v0k#0OJ((ypr*BZ|j
z>3CSAU7+m<eHlW>dtkZenI_KvflKjp`VZ*j*e;H(T99qx3WT>|N4H*9;yp=l>q3m=
z&Ujxkj|#icBgT8w9b`71d)lzy+ZZbqv93ZW((<n6e5CUeaTWq=s_~voS?X)}nb(?P
zlg_uBW2rm9Y&<u$VXwIHDFYGi2Bema>x~><wI17ej%vdma%1?x*q0iQz2(G#p`4!_
z=D;xK-*D7jJoc6omqwzd;;|De3788Te>`?#r2t2vf2GrmX}~e)U*oa2JOelm>k{$U
zTb>0ZU5#>elq};dT*f`7yi7o-y$Gf5e6sPJ*oJ-W#vGFlcRNC<JD_YlH@0D~yD=1L
zb$20@y4T6Zb7UL#zZ*kMMW}n3OQh%B#}w&!_cKL0-UCb>3+h3pW`KH#Dbn#CW(wy?
zxCUp*(meuK8+OebpEVn9k8ya?`W|O$E~qD%ng{AhrsgxZk4M{&$4+>vmjbSrg<LO%
zTrW6t!cSE964`jJZ4*zMo=Do>Nr=B#=Ia@xZ^Q0<W4=iHdybz>+TZg`k@oijQ%l?J
z<6puC*h6H1&5sMm9R*0P^EU}^gMW=uqqOgh3p+L_H7$YiLv-xukd=V8%pS56&=K83
z@dVg(VL9X^a1qd{-a|<Q$pk3`sRU^R=>!=BnFMZv1q53NekRBw7(g(PAe&$i!C-<R
z1VagO2!;_12lzjs(u|<n@dUI<JU>pMTsKgze?IHyvurA9iIQ<q(#qta3W|Ihfd$3(
zTTrl$^f6PWpE!HWlxZqVnnEr!4K9a%#_!NbikC}}M=*+DG{G2xu>|7?@(GS2m_RU*
z;AnzL1d|D-5KJXFhG06uu>>;+jw6^!FpFR|0gg&r4$UQ)M=+n@c!C0gg#?8JiwKGc
ziU}4IEFmZ%IDud(K`B8QK{>%Pg5?C21XTpp1S<$u609OPkzh4}hu|cFlL<~CIF-Ol
zP(!eWpq4-o_z3C<>Iv2o_zBh#tS4w7Xe4MNXeMYOIGsQt2oMAbS_#?+HV|wiXeXfa
zbBE3#*hH|I;7o$E2+k%rhu~a-tpvX#_&vcN2(}TNM{qvD1q9m(E+n{!;9`PKf*k~x
z5L`-d8NuZQR}kzZ=pxuf@JE6x39cfzn&29OYYBD}Tt{#{!3_jA65K>^Gr=tcdkFRt
z+)8j8!R-Wh5Zp;{7s1^G_YmAma38__1P>5ANbnHB!vv2IJWB8w!Q%u^5Ijln6v5L3
z&k#II@EpPO1TPT$iQvx!FA}^&@E3x=61+_C3c;%cuMva@x(Qw<*hjFR;0=Pm5gZ`s
zA$XG@Oz;-LL4v;%yiM>9!Mg<S5xh_E0l|j^9}#>^@F~G(1pgxVH^F}hdI>%!_=4at
z!IuPI5&W0nYl3eGz9smM;Cq4}2!15^3E+>51K=G77Qc-EZ!oa<9R%?N2?S087eOLH
z5<xOS3IIJ@0@A_7iOb$N#iiaQ;=<h>t`@7MmM+>4(fD^b8JC?Fp9RX4#ba%c%eRIH
zm#-`<Emb@IGJl}4CRn?+NKu-V^1ZgO)9Y=jY4mx$;Y6>uv01b>5S{Gxp59v1p!)2!
z5H~E}&7T}>Y?<8RZ#g<xqtyF?M{jIBZr058$N45>RGHk;9$eepG`X#zp>c9>tzQw|
zmKr744)><E#)e5P?Ftp2;dz_Ia@c_+w_1AaPK652?uHT(3+Q*4<UU#=Owes4@bvT8
z{T81?#9bQaix*a4g0KOd!VYu^2QX2@1CvAoFj+W(DZ&Lz6^Xz!kpxT^$-oSe0?ZVt
zz$}pl93awx14RZfTV(nMi7ek>F~D!Ti4K6nkOt)|8<;}|G|#a1!TCeNF5)#aH=MGf
z$=~D;`fD2e9X`>KUeeSCQn(A0`qoBYQ?MhYygBHuYHew0R)PpHxTGo2T36?<^~2L$
z;Zqv@fq=icDbSHs(4hEgM7z60m!6Aa7dN*yiH;0I%ql#tBgf!Wv@z&Ynra%{70nxb
zN=L>b#oy*r+>}CTbB*wca6+}e(bwD>>=;zigs@6$OVC~EJH6Ex2)auGfmUC~a4MO*
zYHf|;6K*L@oPwH%%;MIj+90y4bIT}f=9Cb@-&EIJxvZ=sX>r90w?E)+XbuEB2GEUy
zr}!0L07L+C73?^=dacjh+~QMeg8rs@cc48G^fkKI)&$&Z8k%d@Be5U?P&7oC)G@KL
zj6H=f=&J=E-8IMpvN{>=C?s*v4NkJuPwL1r@TJVx*sQd7pr+P0HE(EgbH!mlZS-dc
z32C()roMisWs@Zs@moJ0V(X6HuhYkqq1KU<n|_<(Hd(O8jenah!FbJk9W`^)4<TjC
z-fTrYt2dI~CTkUXh>o)p-SSrkZO#n|YxTK<&F&g^i$Xkf2U^$EHq-<H?&dmX3m0)x
zBvzHr=l1$G29=uHU_^8S1%X0}gG#B>YPGIeaf4YtH~3uRZwN$E$d6ajk;ibl7Z2xX
z$Vm%oE^I>|5q1@Ato5~!V1yIU)%Z4`cX4nw^KD^Uu)ReYOtEdvYt{vb(I|~VouD!Z
z(2)_z(<B-BJp>9YK)@}Q-b71s+GY8#C*>T>%sG%bu{(3(fy^o0nN#i__^@qX=G<+C
z2U7<fNFCXoI&!ydU+U;>ww?h)w%NA3deSntC33e@i-$yh#9OZG(Qw^qaiO-?MLeTK
zFjCL!NIFcvwm4;0Q0u!a!APCPPD`s@?Rw<2W2Z3}Irx8xHw5vjETeRBM_ZIkylw~b
z8LQkKkknf1YQ))K*=SpB*?_U7ykih|3oKRc4gTO-cWtxqxyOin2Un~r8<}2oDdgb|
zHhTj>g{1@6a2kyb9Jz{JF)y(Pd<}I0suxudNNf<)>op1kJAF#R(1f562CKt0yC*H{
z;*Rq=ZX9wTcV0LCr_DP!Xa3`7y%>D0<E4&$$9wk8Iq5Rjf%J*p=@a)<-{sls=}w<{
zFl*R>tjXP3lkc`alz2~Kch;Ox@|<rDrVakW5{DGCChiH|)v>puJ8RbK$+LQGaQiNh
ziASDOFtuR1<(cV&7pB>sO^pK@It~&N7N+SSsN;ym(oJ!(T&ZKJ!nj`!4S*U)zEyGK
z5_UAB<5OVjrB=d?BpmPc`c4OH()I0xT)rUA3`EE+7Ri*Z71y4$>!j|q@ge7Umi_Yl
z;R@*?3h5yV=^<ge@Ye>F0YtLW;4P}GTvq8_QC?DBQe9F|TH+~M6waY%NuQGPm2h3;
zEvQ_)qO7RA+7PXLS+%!nMMcH3%4$T@Cs@ABTTxV5R#H_}vaCEjLYH7cX=PEtqSapg
z0|)5*Db3<#E6Nvzhv{5P%Bxls7nc;4APe3q<TA{oRV0%--->0ciYg6}7gd(5EUNTU
z%B9N+79p#dx}>X1%8Hh)s1EBhQBt|wi@dKWGNe;lvaqtCay2KUW>KGs;uYnE)hMmb
zTVI00WtEjHD!?a{ym%Q#%5b(W6BsA)KxD6~Iy^+@URhLCRPC)STE3#B(o{3cz~F-F
zlJdpgs?}B1MP=bUT|8vfTUq8sv8e*QsED$H>cS;q?rtU5%8JUCRjxMhVnzAV@@1>a
zm0=_>)ITe^1Y-!22w0Qj-kXL5Zu>8iAd=Ho%bSC8E^Q0h2lUzp4o&QFy7#2@+CaVQ
z92FWryVn7-H{RmPg>wSYPSBz83wvF3lW1{`3yq)Gn?yIs7T54SNxdmVr&?TNLgVN3
zrqNBh#WglGzNj~YZZf4$7TpZ6xN`QmdIu7njp(8A1-*mlW-y0Z+&hGBhI0J5y*YF<
zOvWEhHzO>rk$X~lM-uI}xbi~d=lAB)O`gRyIy8P&?<l$%ZE;NqP4x6Qhaj&#&Y^qK
zKF^1H$e#VhM3*D$ivjVD*@si(9Qi7zh)ISKh{hA{G}g*a<H*_t#+uY%L?fVnoBC*N
zEIB9c$gwwB)DeJs@!^qvxRAT=0O@E=P!BOu`$fKut5WS45?7Lr!F@KYN-2hj`ffXu
zeYC-!6$52H3j7rb#5A>MN*Hie$$?=ry750@#=+FVp&>ILp4UBO$-dN*khA1q(tra=
zW4e>Z>~8E%njW%GSBGpwjr?eMWrjVBly~ZsvslVlFfv?I!J&FZhUuu9wa9XDT&=Yp
z1Klav2or}MIx>Vuo{Aw-V{#yF`@l_cJFMFW+bx@|2yb0vIpt!+#Eybsk``kf&B{!_
zO}2GuCMVnqy!$~@4uxH#VurLwLv|qMW_vJ0OK+29QzVtm4%)r2IX;*b@wEpBXmlNR
zfm<z`;x{?868Yn_6RVpOq8!_l;Ej|fNbKVuo@3vXpoNdKY)Xixyl$u#Dtg`IAZ2Cy
z4!fm2p%ydbT5xQGCEr=I9@Uo!)z7`y*F=gxG|w9MT0cmoc5OT9uB^nu8QOfXxy7K(
zs(zCaIf0^@+O@3cs>-|@Iw++D#WSk@MwH@7?&`G=^bIxb?x4~>(Z|xNPBQ}TT1+JB
z{0*25xuMWPn^yeD7(YY}NOLn)C-&6@{0;3g2h`81`Vf+a9*zkU=5w6?N$yDYWG{P^
znn6D@NfQuFTUQly-=z9UoNF04#^4B@tD(WY20DMM(!}#DDF2Zhc;&=VH*e(phm&-J
zK{zoQK5Plcc@13>X&WRthe_x81KQX&3uGp4tCQLWrXbdGLvU(h9Guji%i|19k{YV%
zx5;vzRTFYGL1h#~0U8evAT-9H^BIDRG87QDp+Az-ge|HDWJAq%%sRppX3|{D8WC&$
zq<UWyO+ca!xJg2W10<>6Y_S~79(f>pTzB@kJ+?hn`?9gl&@*Ugr#eyK@eSE3rmQRm
zuo`xnrlQKEJ0|{?j3m;tsSm)jzqDFYaxnZ27_{vKb#S1vm*=O3ZI}Ru6I9DgfEBi|
zP56~?BF~lsq;rSkp$(Hx?X0b7+0d*AL{NM!4K=mCZ~_`YO%STK9dj+8%2rbN!U+M@
zgM0OSXE+H)n}D<ch2u8rRP#VN3`Bvj6FNNGio%I3%qpEguBa7d2_>2amXfaDtav$0
zfGk+luIZ;%Sk4hxq<E0XcaW0+nG3;{0hX-nofCFUxN2>8=D00O59W>8y?%e*w0+r?
z-Fefxmfv0TP{Tb9PtSW}#_~%}59LkUvMiKc`PP6@+nnzX%)PPrmSxv1yL-uj>5ICj
zFM9fvQ1!}v(^rL7pS*AMDF;UTx<~s$b^g%$#(krkx(7CGOFWo4q-(<Njr%gEY)kmU
zYIhC#GSQMVva93vl09=D&VOdri>vk(tq9Fpxo_yIZD|L`9K9`VzccTkGp#eJ%d=<X
ze&?*7N%OY54mk6=oq4;Dd)+zV^C6ajqrZhFKBy`#kca}^lwCN;{<s}rXfxC<=<o0(
zfXT*i9K<atNWT1w4pir0w6C(r))G$U_FT21u&}7AiYpmovrR$Y2Zm}BsdO(5$%Siu
zwd*T=)L$s4!gnA^A@%5(DL9k1Z+hLCgK2Y@?SiI|b68JO>K0WV4LL>>HOG}mz?kDU
z%qOCHho)ob=BE*Tg$u->+4JHs=Z@M#goQ0EY0)`!keH~(pkm>7P8?#Ss5EB55nD>s
z!lKU$&y=;mn37ScbvcVM97l7;Gv#zGGG@x?pmaH--jRQ|MRKOilJzs}SOa<V8Cndr
zRujX+xxyCvf|_luqS;T@Id3fnIbS#lW>+%bmBK0(PN=D6J6bq_Dw*ta+=Groc9aSL
z^#~0Zr+nem0(1xdHLXEaiBpb&FQmmz#$LU+4C?3UN<AVBBdNI@CC1D<-r`K&pEj{O
zVdB9w%&WW8riGl-KD4JDun+3C587`Z(rZm}jQB7)t2221GMH-i51YO(^Vm@GvAt+z
za}G|M_4v4_r|+A#WPfu0p3&XOlMiN1xqCo&)(o^i*MI}goNi~%8_wb1eCe{JkDy8U
z98P1_zRcO7<k>VMpY#2fm@Gtteis;yoZT{bVY=lR%SfK34_TOEdp5-emuJ(n7ml^n
zs<ove%EQ0IgK>$PnlZ{*un)lsw71*x?O|4Fixt>sMML|tHS1t+G|c%)pX7#2>Mfc@
z9CSel#%60!djf=R6C3hK^rCvx_5sj{WMhs~s8M0m<2ipK&B&o>V9i#khP%N=M#g(G
zF~b0mL$z+q8Z2h2=dn~*!|=c@mbWr;wiO&iO)TolMXwdN>y$T=Cwy+RWDZkx>qtHk
zI%2_?p_V451!G;LYeFFT(*!!&Jt3b|4zE|8Fpi{x(4*8LfgL-B#w-Dwd1g`pqQ;EP
z=WRZaHo7})^uDyQA?H}mc{%J&Mq`H3fG4QWOCl;dH}%sk!E{QORP(KtFRWI_#KZA%
zj&W*0@-}pN5#!*U2)`3+$52;das+iglj?jEPBBs~Z?@^XZ=GIlk51h-*`r;TrVc6T
zo9waX9vXL>;-GuSZL(3PwtcqU5}j>qip)+nJ2p9BNwSvnQh9zn1g6gKYY+ji+9xFX
z1O6uH5lv7O9BbO4c8BAIj|_FpA4DL{qO~>{juR|?VcU9NyK2}YeJns7E|2YUaOX;_
z;waV4MsZX&BElTv_zFa#!6tD_K~GB7#oq1SZE-!RIIek~*k(JJKBy}m=Gyep+Z-Q`
zI(m=q{uTR2&FLJtbJ&hymyLLO;I_DJqt1`-by-q}qkl*m-nD#R;>az9x`B%1R{KR-
z<cn~j78%Rlh8n9h));D5pNdRvla1@s9-S4fiwrp012KcMu0I*_H7q(fP%WV@lcHfX
zN~=p<Pf%=*r}L|}qXf{oZEAfgw6X~E`{}qSO#~%?aI#$WK<kImo;s6oyswEW6>WsI
zXa}@OUjtXDvVr1}l`%jP&ULBkX))Skb+cNv%4UQwrmFNH4yrOG^WsytpQ@|Hp7gAp
z$vcv}s=Cv2QIAQf2a<BSlXAL(uP2S7?x(2hnB9(BlCMj?A@z;q$uu;u%NxmKd($kb
z!(hls&e&3__DLGE=!)m^FV-?=mMW^=S{}Es_!jgA%N1H~H5;eSA~%9cltD?QJMJCG
z$uKZzLU5S6K$`q$>#8EoWAkHJ;K9McQzF||rzf5%JE(+hmW^>9Co0Pk&hl13I}g^Z
zY4EB1YsG5b4@jHmVg+lEZ>+wkGeoRy)dXqnMzq#qw%g>d#q?7ez};A%YiSKqkS2F6
zsq=wJkpy)!MrzVnF2o#pHb24bo<Dy+(nKEIc-D9<wd6~Wxlv8t4QC8!ZajX<#^dTl
z-OOoqzPeeyDf2lj%?@N1dCJMj$yB0=jOXr!X9ly~kUp%sVM&hW2d%z|m`$VaiS3!M
z&fdLsjX|$FI_A+le=hRuR{Jflo0OFK?xW|cuIdxi4Dw`|bE5K)77Vpm<JS5%s+kx!
z(Ov6pB~H{fw>AixIY+X|>ld;}YDVU{&&Z2J&2!Io=h4=nyv-^{nzee8)udLBS`mwU
zbv3OGK`n7!$mBU1xwvaEXIDF7wlW|Sn2f2*C+J_@d2@vteSV(1!N1<8Rbw<$x&V|Z
z;VxU!k+<1B$_*}X>dbMNAFyE8)Y`ZP%LZ72rBG`2O6u6UM^E(!#~~b+cpGVDwV61w
zt`)1kd1C^3(xkGH#8YJxRS2dPs<DA8rcP;Y1j8f30Rl!0mLw!r3sJ52(W7b2wyqTs
zeQFL2gDZ8TtT?IjiTWcAu6|=z-QVCUtQh=k=*ZE;%|Fah(qsF`F5b~JT=X9|Ep}X?
z4i63tG7-aK^vS}$$w6j18Vc&HdOK~LW&3(`?3Q&jS2q3DMP@uv55eh(_;rzaPt-3u
z^wYCM0wMY!r#fJCSjPmub46sQ!#*Z3+Z~P@-(j7IOMZTWI+XBq!NI~7j)&<B>TcNO
zRVVaN;YiI2+t*<#g0aU<H}P1yhp?Lll&}qr*{mU`x?WC<9uev)<jL!$3JctXd}Cb6
z$l4a)lQD4T@XLm8E9lA0>MYnX8mqbka=I4n9<^`4*lk5Unc3S4v7Xy0cCOp8t~<@$
zlRcEE-B~-Dci4I|hV8cBl6YNWcg9hgM^1M(cBA$rXI@-(URl?S-G#g6?kT)`;GVhN
zLyvnSd1h~hC37U!4$=o)eCBy)9!MM8oi=t)R(IM&EDyTwaXmbC-;{#xw1TG#yVDkj
zoQu^VN*gDrB1qm?mM;New17qDnwu;aLLG?K7N!Uhnb~9wMkFDk4CWd9BT^CZhq_sX
zsYNWA(3A}F*HrR^up`h4bC7a2)nB^TE3HI4EkqqFa8^h~SB4YN{3YMcm95l)CeuPd
z*#;^=#f8?eg_Q>7A~<!7j$OOPM{J;KE<ogOV0cT-+CO02o&nvd$3Jb~ms+&V2GuS(
zyR-JHWA`WJ9!wk3HR`Is{<KkSj_ZL%X!efTm(C3(kJK&X>*pbnDxjrdt^#CB{eiiW
z%8D>A9gI7ISpt<4(et8JgDM<ERk$f)z>JH`;o?;WGVjj7vy}@8nAb@VbJg(X_3Bxw
zD%CMqx&u)=M#g4oB&BnSn-ft);%3soPTy5k;2dV=1BdP`-BEgJ`L?2i&XoPBxx1%#
zJEz}W{qV7GI15;I^IfKS6Ro$4=2{5B?<v!{1XQgGWh9&;`+-_tLxb0gy=k0d_*fRG
z5<rFIlCGpIjioGYwR~>Pa5%9#mXfxm=nEJFmc)HIG|`du^<al%VO+0;P}RUFwm}2a
z7=L&HQqt>RK1|FzP-%5mVbjrgc}>LK5vA+#a+~(}y$Rv;sCHNa_1GI^c~*#ZVXI$Y
zzJsYxO+z@X&aX6X!0@?J-9l8p*F3)r$Jcr>yeVp*nMB2oPBC}VEy4NV!r@s+eXHeN
zS6XLwSKf}CkaKvCD`i_-m-W0eLe88XS4QWIu7x}1gq$OLTtmBxcUSIOibeWfmm@v?
z>?LZdl$L=pniL<#GL?xjb=LYg6xWIkHrZ-%3#ZkVLFMNXw@vj1!^!>t+=`k=Cl#^F
zMoLo5vRzAMBe;ZWnAV)AY=gS8Lr!<E%^J-!h4G^+i!)?gYp93w`eZy(bJ*;TLg2Oi
z?RMzTvd&6<q6(&L>>&v|YHM0iQAZ;M(9I3l%80Ru2Bzp{2IVT;hSPX5fT)EO3f0Y%
zB~xwPND&EkQHjWQL?ue^9NTrwj)`0=>7A29&b(fSEm}GXZz!17gGe)ObgB>)Lx?I0
zCh%q@po0r(M<L_$6T)d~O;uE_P~{RGG!<4YV?u4KLaRvOgtq2}U`;({>n*gCub)yY
z*HeLFm2@w85L`<oCH|R9n%P;*GO1m`g^+WIK^7^#q2!S&9oDBxQBG^5GRcOP6>WgU
zHBFJSw)lKPxfKb=C=!)MRwSZG8HicDyAV<#xP^*GvvpZK6rl$d+NTmJZ0w@^YUvzk
zC{Ps@Bmfb$*VQxy6iS68w6!T1qhOrfe(UN!Dh$CLRG5*nFlnKT(YuxIjQo)EC@K=y
zj$SS)hM`Ef=U=Qj^FXLvFz?7Y^CDjx=9~S^njfP45ZsUa=w{92WO$%v=s3Iv&o%bh
zEDkmx`fMP2Yase*U_4_2qm$9)v-=!sA7Agn$2$`7FA4vW@h=7cQm?{1yFD#GJ)A|h
z!-`rzi4*p^dby8FkaiH5w3-`h{7qronpU=NQ6a-gEwz5Nyd@%>ikqs|HC4RT6!)$*
zFq9Y47Ray@vl*3gAbN@TE`G{JIx(VNr^)Ng6Fb;_>WTSI<xyhPV+4;AJVEdz!BYfJ
z6FdVbM^ICj#j?QtmbzPKQPIkh!Xj@)VTpI)iYhNQS}nvrCu~-tJx*#1;6d8dpFKj4
zAb6N0X9H@1nt|4$G1`QjLwj5}0k$oT2Oqx8?uzHGZb%or^LktZI_r3#%IaK63qdSu
zIrF+R=Y^c}d$SVL<F_oq<{9_+o{{7F{{K9~m6CdPkveu!PW%hZ<G>N51TUUbM|P{v
z!LmXKSzuWqjAuH5(aGpyOeCyNgskYL#37|5T_+{pwrLm)o+U>0S5sjZlw6<E<`Yw*
z<kToRElM7vJVz-#Pw)Z&%0hps#;A3!@G-oC*KdWdoTk=!w6};=@h?&a2wta(-zY1d
zI*FVG-I)tQ&Vp!t$E<#6jEO@{0-y<k@!C5ig+*Y5Nd!JmijUSjWyR1nXnSc6uk6z`
z{OU@#`Ql}#K;M9L3K#x4@h|Zzyx*feDL+}=lq9<Ybj3;Ba7%slHMQ;i){80&RC#JO
zz5=Sek8;dPh4Lze;+psqQ9RJbs*Vu(640r-0GXb*(rQ^EEZm{o;_ku4m_YvO3ZaM@
zRFhg8{52Io4>wc*GQz(Y+85dthU!R<i_azTqF1guzNvkqdT?N&f)#_c5p9w?yl^}Y
z7Q(e0R)l_gwXy0lHE&4t%6*sGCd58Ho2gUVN6aL!pl^r_hx$%!*uw6tg&}95K~19=
z{%UjQ^V``lRAmEpvp2Njz=Rw+cnT4=VfYB!TU-4iM(J4yxQVO#J!KPLu_9J)ZYuKu
zDl>soU*^=#l#p{o4^1aRLuYhnpuaxOP-co@sCAoG>%T%l8$rEfd0VN!Y5j_zA7@u^
z45PWJuo<&~<_6NeTVYubgk3G`gX-?6zKTsakG1X?i9in`!#pWSV~!A}Vtufh%-j9w
z>j#M~1gXT992Ab#yin%!kn>oKT%l~trREw~LZJ;TiAcavh<+p`rQQZJKfX5UkCU2u
zswxTU*%4w$usMhsqrFb?`5*-WD6;3`Y2VplmR(rB*E}x?C&2*S(A-o{fBp9z?^78G
z22dHJn)(D;_3A7#t&^_333l#_6D_Gjy2gf*bG4C|;u}gGnNF)~y81ba+Wdii=P2~;
z-FT4z4#c-R^IhQ#0|$5{Wu4~(JTC0iMor~ID#Awu#1G|TK>6O-y~95!K)?OyKgpM1
z81Z7BtZ%L9r+2D6$?7~Q<jkdJVc<<tJo6^i%o|G2KOW261_u4Vi$$i&l!XPAQzN1Q
zJyMxk&EnxCvY14KsTG=-sBBR_p(2`E|G&wNV7y)g26V1x{Y)#adhJ&PD88YDwqNKA
zpo?SXt!{W2NPR(J!}_x3rea#okkhr~+J^N7E&fHSTAhhImE<sGHG%cz%5^cybC}!+
zrcim**;!A<$lckY^zl6zV|KTN(kB@V2o%<kcf{l0VbojyjW#-l*&wiFLEw!WYB^~7
z*h>9R%9_Ou&1-5JREKaXN`YdQ`U62aKu3GrwEGyHIuHJoy>MDt!HM3&(xu)-%gPFH
z4ndV-Q%!zNB_}wJN<I#m$H~VG_wKQw^!%QT+}$%m=|}Zs3=fT*e)n13Ba1`niw&I@
z#f;5|DY5xL<^|mh3)U}(z&wi^Fc}-9S*Sv3#v)@t9mt^%V<3YGEQPwT#VxI>6o*sl
zTUv2wjyDNlYLrpi+=xX;*pf6SDZ!sn8BOK>k=zKDP`PPKD0S3Q^BmlTc00DmH5gqM
zwcBA`m~f0?O9Q4B$ynfrL-H7{FQa4(Oo;Sl>bALl`ZE1AlZ;B}%h=vBSZ%J71&jDl
z8_ye+pD5Em6VMhIB@PfCEO}B`iwNpDLzO*!`*&3_jCN=yme?pw0uQl->hBj>(&HMn
z8(rJfUh2v;gCHegV28GTaCq)7$^_2PI(+fBp@{SYQ}FU`ftTDtKAg;)VKJCPEkk7x
z_4Q#p?IFO#yS0&6SfD61?L|-#{MbU`YSCO&(des1Q}YRDvH~D0fXtH+z=VorCFRvc
zmCT|32ZRJ-B0()NkqWGz;KD>QD&!p9;~KF$KI9w+g<wa0XvB<t*~f*PGj;McYIkuc
zd4eWil$;+M!1}RP{tC@WwyK4SU)1{w*ZN!3?owG!rFGS9&`imFOqJn*%!+74QhuQO
za4!?fjF(E~CupJa50&LdxzUoSygYR`bRiVjATE)CE)TI|=s!4JAZJ;c88$}_aFOCI
z(e~$~;*!>=&SdEdr^*}20);fRzFMMMJT6MCGG<a43EHTPn)xeYr3mFry}PhGhpSX?
z{-PL$f+9Bmjyz^Wx(Qw>aA4<?tj(g@+9KM|Tu3FOaU-E&Y9VjGOlX*<63K$?X0pFb
zR($nnDn6yy-{9+OT37n*8Sp-Ni$bu83Y?Ejt3tgLcJ&@uZ`A9cE@(GndSGv-D@(K1
zB~V;L(QR7MM}vq_$8xAg)3>APJKCw(nte8^`qQ|8F(4e@$fu=Qnd@*sxg9g6ze?>_
zlN(NDB-l!2q-^PWKh-eBVv7O5NebJzP;#EuKq;D`c)wkQrQ*6|!y2r8;KT=t7QYrZ
zB|`Zl8mU4$Nq=RcDO}9KJ(tQvu${`JtsZDrHr;xTUQ8*xp)lH#@8Q|8>q;HcRYO=j
zhIfZA0T}Od0uy{Lbm9q~MAptz)ONa(_S~R=b^!{rHotmlpi6vfgL)09S4Tkl2H;zs
zpJbZB<6Hrj1Y5CI#BDa5AZIWv%g~g(+H?k{ZtOY>Qux-uTD;aECc{P(!w4=Rh80L5
zNb4NTc1YEvP4>ode4o)dhwYLXowIrBlioQd<Qz=?ILVsRo92v;iIk>+sgVZoD|&A^
zt*feOY{4rqaBw|{HzGheY-|Z91=tb1Y4ybr4{p(1s962jG%78@)l^z-O+wS+v%4^t
zA8Y8UDeP}5g+XJNmG5tE;CVZ})&Ye{QG9hitRU6;$RV84ruQ#b@bcI`y4wtLBe+4I
z@2Jv7%9|nI6xNXMUlM8RbB&Wt)wWCGoj~FZk#@33%ehrC?H}V>K#>x70~IvVgg`Cc
zbU;>nsxfG#RAVSTO52WUR&ChTMiob6YB-T5H1hBRZF=l$;bYl_3?DO%#2mzo>DV7Z
z(fGmY$c$z1XhImM`>lL@`Ou;e>?I~Hl%k&5xr9yY+I2u@J&SgBR|5C-Fkq+y`M}Q2
z+}Wph9!-m@dReDL{Sa%Tx)SLUsTVPBSmY%Yoq<nfJ**qCH!VuDUwK;t3_+2Xlq}pp
zidsOY2PUjhox;g%29W`3!Q04>S|R=MF3KbCh>32rxIMConYLA63o{PGlj4az6TF$C
zm^j-2hcKUA?Khu$)x-1ZJ_W?FXj@e%ZpTq-bLls>HyGJP|0HVgFm`<K77N--F&T#x
zoX789;tM&Cf5TbFYaRWly3}DplxBuUvjMbxWob$IQg8LL>Vnef33>0rRo=2?i;CnF
zlJciqN^lt<fIn@E1s9#*ArdN@Rbh)obbTkYb8%?I!tMcN3MD;Z5N21>Jn(gLoTDBa
zE(q1N8A`^FE%5z_5hWf|j3R9p0;KMLrCqNOCG2`l;9alMV5+hfXINCpFi1{GU?JKo
zEXOQD|7)31PC(f-aaj&p6_;#kxqWk`;NzL<p+19vjM58;u@n)>c*!go<8h3|Idgx(
zD$F<DaGuDV-Wz+dublG5!$$x0&3Pwymg<{kyQcasmb*xx4Cm--dNtSdYFX2ifT4Si
z^cDZBO0J4g$<8(8idt5x==mhY+V6kREf}hJHL;R=1YH&D^Ym+~SRY>3`1gbJ%1U}b
zGPOv2#I$d-<mVH-60@4Lb<~W`BUTe7V5lZy6a5bNqr>P&f9!4MkqYYi61)ycX~wx!
zywxedvuj!uSJ$SUct&g!9lmgCQ3wuD88l@@v$WEJgLAN9(5JBf&)Jn-#7bnhf)1<F
zTd_*8TU^U17U`qTu`_%cWtiZdSQ%Dli-rtSSVM**b`xp_u_sBIEe&=P>{u|^P1H$~
zw3iqPVziei4?u3hDUtH9jWIcLTOtDeS(1{egs~J$I(nuMd_qOnRtU7Z($r|px;ALn
zpxxP5jtn{T4Rc0{ADbQh%tO?UpU`e*hq{p?Vqxo_DYW#?3kHIUK%7y0M5%IFN2JMW
zwwBxozNE4qi<;7pcv=~?GDpj*E|NiJ^`<jQ$L}^<{(q^Rk@1jBA+(7}nnI|)Ng-Sa
z)4pjnl#TpU$>j>Zp4X>5bi7C*_&Ju?N|U~RzDQyHIDTpzr+-Oy^^-=@tsT5ef_G2U
z<3-Bt2{`vXCfa9cHeKDiUt~Iz+=jwx0hD8q9qg5Cq>wnA?vn&mZq)^c$cX4`Imclb
zt%uSQgD@O<28EALSrmc<n0x~ymsI(KLPM}O?`X1it>*=ij81G#fgL%svyAVJ*WQ$b
z=tPkcGe~`8U%~>U9-|XD0wXb1A=dIXlzON@?XLX9@Yo|VH7YB_N2Q4XZ~wO_Ed-|%
zD1dOnx|VvCpUrhOvH7X8E<jQGorJWKFF^+J?*z#|jcpM=9+`h;zV>FgqWq-94gCD2
zsh`SE?nRh;Xd}LOUxKb{rM(=qR57kECj-O^xh@@LC0nIaA~SWK?q%qOmMwVU4D9L(
z;;na0G!a&(_bC*L(qt=k-zlMLs4OHdvY>L0%uJ2dEw@uRg5kt%90fIYRiU9rg`5+#
z)egEsda;vl@UC&8ye0dF;>9;77<wy8ih3(!%Z~_b@eu`9+bV<IQ)DjUEvGOV5&IJu
zoxC~I31*Ynj*c>0+U0eu*17^!UTKvC<FmSgL@$WoJ|UJE$6zSSD_gh8sumu~v!a#s
zmaFoDvLeGKw|>o~XAz$X#uJ~HNj^uUSuQe>29P_adoXNBbM;*X_Do<4oHke*uLjYk
zCm2LKvTqG%MonEspDj#e$<R2jn(GMJwt)_VXcuE5TRRd_3$%Sn*CY3>g{Z)9AqGS{
z5MH*5(TgZ;6mA0`Mn$ku^K1&he2&&jEXh8X!Vyd-j(a7?V{_PC51KjD$mxD-U|>?T
zbD<|1YT%bfJyk^^87CE`&q^1Yxpm!&<gxDv-AX$35HcKhBg!UZD$LyrIqN!)*wegd
zzrjq5#ogZ#cL^2}cPC5kYW&LS!Y)iKX=&ZXuwC_`u}k-jC=EHw3<@2kVBnSwDbcUL
z`2+YA(QAfiV{;`IJJkLW`|YFpxINIXMsprzpP-bo-*@JK)r#Q;MV!JKGWzSr46au0
zx{RF}#$cEW)%__$qTN_2_WCvjd_@~u{A}*GxBF_8Fb+UB;k7yVLQi|xzP7nl3ELWJ
zgD_bOapIkJ2*lW_Qh*$5=E12ml<3smq^xcyRuEK!6^9GJd(v0Zq|q;3UQ^{&bJy;*
zYX;0X&S3_dAEjwvS!4>Ihld<VZ6Pxs?}QlChc(=x1jBe0faDc+05s^i7EYF@4=`E=
zVgK&4gNGTxh3<F3vWr+kP)E{1xh0ki>_QPC)PqCAjtx0ykg*D;j8SaD&=$2QlA+9z
zk#9llGV5ADn>_p3T@F>v!DF7b&c`R@l`8Cqz;-vX|Ks(yL}G1-yH?WD!Y(>SU(32h
z(%MR2pt+%yUu~Pzrn^b3!On9W(kN~Tgj3X$_ob>iy1zLd_q(w=g{$#Ug`ko6RwDVP
z?ZlO1T%@nn+_gng?K-ftjqS_oJjpP;QQ8Lf{!-^k?N7J0M4j_Nr2yM8rEu_+LYg7^
z4qg!zf;q}#SBw!W_LS*nVg*4vu|m_UBnvcU_Q=DGVGck^8A|?3f~A(czy62ZHDyW_
zENMaS%Z2C=&K&p^19zWIgz9kJZ*$v2ydpT4c(o)VHtIx4^6bdGG7rrLsiC9|y!$1o
z(KX6`hh%ALmHax=aGcems-3Dh1#}~F3i<qo(U=((tKrevP=(-P;-Gmn);5-CqcJP*
zh5Lps3OS1mqcNpmVATJ7kXwv>7p6f@xsWn{5y8a-odi1wE+M!SP_A4?q-o%~i`)oy
zq0q_|bjRjSax#=6Qr-RZ!D>^1<|WT@U`Jkr)`o3pzvwWW`VJ#n7CM($?87*$K>e7G
z-Z-gFy`$HY;!`&24G&248Y~{;saf%i1h38r(u^dWD#OWhj>;cVj=oB;_L{9IBjuCn
zSujpS=PBy@d>2<@=XNR1<&;+$rz*_8Si*D<agyLh5~jtnIcA4)W`^+AIE;Fjjo`#h
zHm;)!x^oIb&V}YX?NrX-P!4T!HuPkavY~olQ{rELTV71n1LYurl>^yh#jFOb`B6P&
z`vXyLUu0b{JV>nsUA?KzGMrr>;j7*=#xa=5#3g1n6(~H4Cxr%P7Z(*&uc$2Y@|H`y
z1iCt=UGz~(hu}`)_ISzd+}%Yy&(6c9FPeYnhDI+6Ene3>dR@r5-k@<%R0BJajLOb_
zOrj=s(n%$ww8JEtz{U(YFh)73V~Mxz7zo?Fl==Gz?k9MF;6Xrn-}R%1$S)$C%ENRU
zOZuKB4}u4XAM+(YvO|M4ohzFcop~NNzkBd}EN7DRVcs0MQ>D*fmY@U;T>3u}I%3LW
zRD#C|o&X$CbhxljQqWkec#b>>o&+nnb&wjGyBnOy?{P&%V^m?N*xx<MA9AiUhz3P9
z6gnar{VX0FK{RO7B~L|<EEHrbk0BK0$}?0JQwRPhawB+ws+#urQ~7>FRT~B`O2|;!
z|D!6VBL0Rd=0f&c#V-;I2wnjTl;`P=$1rmGpA=@eI)jSchRt;qyPEz&xgyw4)ui=M
zN314;7*f>#Nm)i5p)A<z_*-g)%hYeJyi6q~cuQa67!7YhsIabkR9(nfZzwTEHI&$<
zcFDiWsv#Gm%J9)5e^a%ukv}cNnnh%xF{9D!8DpOp_q9Aq#p+vLr6Ll%Pen8vK!$Z;
zo5*N`0ffRD$^=s=|6(1~9%MMEUDSq^QY=;XcT~HZ@<Q+_HG)(mtTqC2@>>9h=ruKd
z3l^087B|5Hf-R;DAu|7X<4(Wk1?uB4<N<kk34<Lz#w6mgqcnk)JGtqS^Sr1gSOdAD
zBhg`(k4nLFX_X|;=$?B%NZYrs$3YEVK~fLkAuTqoan*3G#5#w$A0<`@7D922oFB^Q
z#8Afvoz-cPHiy(!6XkgX{rREsq2y88c2r8wP<_8Nf7H!^4E8H>$FX<ejGSs!=a14<
zQ&3w=TaWPuF;aJF2Xd-hu8>P0;S6<SuFg~+PHn8&sP0Ez5un#a*vXm)lLmcYi55P>
zE`I<vK7636Uip;7gRI)I=iP4-^9V|bc|{0EV~VDas!Zy^JuK|ldafP5(wM24B(VFT
zt7eDCyo-&}H8Am)+BKOOw9`p)tMW>)LvF1Ha}r_5lXswNHfo#hW1dKQkIF`{ipr+8
zS)9Y^!bzmD+LcZuWoXtY3TwzOy*-qEhXo);6VX??UMq~!FrDB%T^L%~fI#70Y`02e
zOoA>ceQ~bc*`A!A5*`q>;g#Xsics4WuYck2T^ru%iH|L%*3;*)XilWgk}~;TJ-@5*
zCu1$X!eww$g@Fnc&L*4pO1~1sci^-`p!md8IGq#HF+H5x+){&&aZ&SCk4{DJ`_8sl
zV+{|9tO74KWE1U~mn7bx4nmy)@Ul=@QFXzhg6abAvWkM`D~h~KM_+<qQiDFCY9%<C
zs<j2Bq2pHAi5*HG)ssP{^z_j<b`=^mH<Uh4J$W`|W%oEZuj<Jdy}K?nc}4fw6`}N%
z9C&xlE)Snj%il92ls>H|W7KYhoTxju1$i02w0q>zP<ko786hGqlm&ydXz%Sh+;{B=
z^={=F$BtO-3^uw|k_UQ^kv5Y~@X?x5^!*r`Y|si`Vt!Is9&4iNslcB}K9rA%Glu}-
z?3S3-8|@9k*(4p286KrrNiXwLKBF}L1?Z=8qczA)D?C2Bx>rF<e7~(OKc}Y=_^B>E
z{nVwg(zJ>~O-Cy)G+}-y{diNYRdkQ62&FG4D|@8Y=wXIh`=ve!17KtYMQVo{{|j+g
z4*RgzV7)p>rwy{&i0h38XPh+Ahbr|q`h#S8=&ON*hen!>DGem8o~Mra;7F2aUa?e{
z{}PW0=p}RVJarGw5{+LNN-ylet7axJlk^=Sh5k)U(s$gtok3N2k-4CrV->z*P*7Qk
zg1Bnh>WlHl$!10F=qA%b?A>4V5><s@8!~=a)42x7H<_qcgU&@^4cW#$|Bn0`E%}Zg
zVs0eE;N?$<9Xn%jkQs&GBFdQdjx3oW{X4QKj3Gm~S2NVlc0awa>9!$pw(#vvrJ_cu
zX(TOS0Et>8x01cs`LB2FD`Lz|&Us8pu_Jp5!KG12dDk^EluK`gp@p1Wn6iv7BcRZ=
zvQT_MO#U72XU?n+nS|PVvWPaWFzA|Dq~xW|_3}`UG7lAl4e3yHpya6MuM^}Q4s&dP
zV*`$8;mAOm`Xy6RiK<A<(0{fzw$jmwHeUq}Yd7+j3(31&*^5NY6K*H*gJ2i&V;0Iq
z%F%#5Ng?NS8202fQ(m+8#D|=d@s2lnKZ>sgTOOrl;MOl0jQitOM8SZORn^0FLxY}Y
z5EZAd2{R))LXj4r_Q-P741ToZvjU1jyGQjtEMehfDDQOKQ{7gR*r0MB4t;fY)k?*(
zL*)zS@`zAXxTI*&ic)%;5jMW#6m{vc#a?{Ct+GVh0&g1D(-2o7xPh2mAeo)TYli&d
zJggmJ*+RPy4Z}v;ncAXak85CP*sRdpQ@V$p5^|nuU^=B)s|uxxzqGEZGM$<tcE7Xf
zG?qYOyEyA!=qWNN>zM>ufEdk=Cos&RSRM3Wib-$>l{`<DoD`ZEB{oc)DN?PzXt?KJ
zf7=02w1|Q|GOB2@#9+p0=&F?;shzp-;tQyMIBgTVFC2<TDg^f<^UBZEir6AUPPO{1
z!AH&75npL&7Gs&IBX-BbDGLOTQWmUq$5|k!T74F9uV&#_^uE$~5*ZYz)gUuk2dp^g
zG4X&H)y+KNT*a#Hkrb2QDXMPm{U+#T)i*eymz@=I;){8@w-Hk4T760WHzJJk=tY>8
zv&m$QftosnBMLJYB39{gsdNM{#1iJg(dLWuesc`MOpy$Qj7+(UQFP<%OSczG-$fGr
zOFIJOGKisK3u{_xSc^jkhaNKvZ_iaf+Z^di1L0&$H)*H{@JN!3iD>jL(;vX@LSkA(
zqYh^xJl+VRww>Z;1zd%jzp1ZV&Bg*vC(?y8xy2AO>Q%x=slBcCAx<w(sG^;3#WJjA
zt@al7yPh(d>WkoIsxNJ$9W8<8S9QCqLe6URvGSz7b{#J7k9;+(Dbo`SmHX=?nEETc
zp@%zR`J&L`g@q)vR8J{#6NffRX*)A2s=}#~*0yHEG!RUtvJ>=B*>fRf`WJU-h642k
z9@HKqlL(4qC{2oNoQF^BBdQR|$kdOuo+AjU$v8kElWCGzpNxSh1)mGkj!J?D+Ey0j
z8tQYSn^;nXKY)`5?aLJ5$49}T5vd{B6qhV-iW_R`1L4%QWi=ahTU%1w4EM@zO8Gj1
zsl=&ifO6$Vx;Ks8)5)9QZDORK83{#6zGKk5kwvpEX&YG7m&=lsNnI(`uA0Ag)i%1Q
z{``tM&2mG}u9bDb7u@sj*9?Sm!m>EJ1HM8#m;xbl1jwwWoR4D19s%dzSqgy#+MJxG
z^kk5oF+H~@g9?|<Z_bTK4~4Cj`QuB(%ydM<0ZBu|WB@wWD>W&MW?CWzCJAywMkQ@2
zKvzVi887%!Um6@#x~MBj^#>}ZwM2WcMDFTT4KT$o-w31LW<iY(`sGFq`T7LB<hHp5
zuL&V#Qw@bzC(w>6_3a9zQtIwp>soyEYA`4Ezsm@!t&{9bWeZ~)ERQE{6F9)_z-izg
zwONQpXR2}bPc}a79Xw;9nx{|h$)GjB^a;_o5@~NIB0FdLn5gk+<nEkM`q91Ery8j=
zdZfS0e5@o*R^#C|5Jxyl`CIFb!Y8vGIVHN>T%ST89>Mn+Q*jv6$%iprIE<MV)>igo
z*KYI;UR2A<0%BkR!9s#Uf<**H1jPi436>C)5Y!>s|LNJjrSy~r5<x!gt8a)pDQ%n9
z&k;X)%(vfYx|4omAT&xD^<bnS<|mq7g`iGlc+G*gu8-uwRld`YH?QMOoqb+qNI8#v
zmX`}gFpz}xT*wH{c1CTL|0hzbb~$+k-9rjO=?kfs%-FKz>k;Oo!IZ07DZPC8b<4l#
zRMh1lEO5v30=Hbq&~abgbE>`>mpc}EWe|5ZIK>}16c=Nw=>e)3o-1*m8cV&bK(-Zv
z@x;-5<eV5fqzl$Rykko;RBO(|LL+8}(pk%lv}1~EC^ssPf3eo(h8ou8bVclMX|9^G
zM=+TLExI&EPKKxAUVUmmQxS9kk%^kzLO^Ck-K)8DW0W!%$sJ*YT1nmn3n*9f=#D2y
z<Wws&!k35zyRXKLde_vLU)h=At<H9~TIZ<~O>_QrO<Ns+OubTgU;r=Rr+2#>N0m&~
zd69l>k#0r$5hhIycS2;GNmU(|$<ZeEXnrDbhoFcAtO9J&jW3!?XdYL_@4;X{ReQ@_
z^s0?FQia5!s)!uYBmCRU<4Hu1T!#n$566?pq60Jn^^Fk8hR;}~Xvb2HP)Vk7#59Dg
zCcb$HP9iv&;1q)Y^U=dgPvOxcmku}_u>}2$Ad`MkLaFePR|3?KXy{)Sam?M--Oj@O
zrHyzg!yC>fb#O6%dPD8mcmb@OvdrCE|6>Oii=c|07Jxj&8aw{~Nu+74Abkg8#n3oM
zGrwG*S-xC=a#712goMb}fg`@0k2VcxTL-YN71<{z4cn%Q(v2G7r242T!@8-moH$kq
zh+%)EVMBYfm7$MTInKRbtg)n)(j*YX;b|zFek>Ugavu{)pB`&ap`|9;OBHF%lt`_f
zL6O1qD7YF;7s6U+>$}IEUra_PBIO}Hlw(mlK8NP7t-$;PpKjEx|6@{;xTYik3wD64
zw3u>P!im`Sf_<|5^@wDDQ*HHH_^xek5MffnBX_a;yn12;!Rf?^36c>It=*@G=oOZl
zkZJ0&dhJcHr5~kDz$mtX1HUxCkM>B~tEjcDSLTwdf)RGq@tifOHF`WWh6=&j17#*W
zgmpKvJkzq|it3Wm5>G*O$+CW4;@OBe3PBt3AXoB0o5evGu%Gm_Zue=S^csAWHoZ1Z
zD>=ofMexY)ml_8RpMB0)pmE?6HmHAT07d;*ul3;zdks}M;Y8my!JD|$w=}~L8BUd-
zkSkNSJVozeqr$QV-a@Q?QiN~f)n$+vA5rahyOToPAh?paF%@N_rZK#$m8VIxvrB!o
zsd^o;+re8ZhIHXRx7TG)AEj}J(lBu6x66fmkA$8hLE10_3y}KW1$@<qSk#|1P!_`O
zh%{6$DXJ`^H}hbJ_p-_=Zv~bpAR#dq#M%*6A-FD<Pz(v>921(cvO9;i7LZV^jtB+C
zsf|bkh)9Pp9yi7gL8n>u)vl$%r?9yh)h@e8-V5UJHwoWHdSNU1$QO94HXhZf8hhS+
z_%2DG16^!39KdVMYO>L{f2+s$RaZ4WcpR(i+)RuixR)5C^%&Y746W6S4vi)K8}sc@
z?(|Ulv1IOz^qCafFsr0?12@azN0~*@uPWb$d-`pT3!<l2f1BdG5n9CIj$-mJ`h`_t
zy-h0jo2^#*GIPwY=xW~y!<T$D?F*mr(_+TaS7lSRw4+zJVtbwWSC3DyY2R-R4<c<u
z-N=TuB9*CBgLsP+l|7uHYAcb7ZJVmTHsefq@>jU&qrG^u8-K@LIg4Dk0Puo}czkzJ
zG~lEJzEKqsjIgz?NjU`t);`+iRzKObl_C;6MpdPLo%dkYn0;B}wv-;snYg8NzkP7e
zkfC(VKIn3Xa%b;z&DpZ>&BWwwD=%BoHFw|t$KIR3S8?6<;#bnucCYpo#3Hc@fdI3a
z#Vpna2qS^njF(su(glQtL`D)@gsZywClLH<C2|wFc59_}8xgw=eQ{fwxT%|@ZMwYn
zijgCH|7xHA{nNa@{F^=}xNX{W`G3FX%$zwhcdh^@aj@(8*oUi`xpU|I&Tl`zrFfAU
zsv4-93>FRUMZ527S<@!67LR2u9^E-n-7r?&5DjmQ2Db{Gr%eaQREE`Tmtp161QHon
z7daCS-@r^X<BF$Tzx?AfW9UQ6gb$6uH&!a4Tv63!y+?Xb5~;tj;v<eKBQ~L>r)zqf
z+nRGO37?C<@9V!2035!_rMw@&CRetdTeoI}T+6rbs~&~ZYYm-Y!r7%8C;SZ;M1M4y
zW*M-1x=-zi9B0c(V>>qJyN@82L6qI=L4t1UY2@m5961_GKLK|uo3y2LcArAu`tGg-
z;US+QG&qbC8ZwFNT0We`gSocb)p51BPP=qBKA|H}<eBiz#FP@^YJ0+Rv4WW%w(wat
z)v$KhV&O>F$qu8ti)E0IY1(F`AyGd&xert<$~gJ!XTzK+hwGfFt($O<Ca)4rFfHe$
zrIqRX6#PyHrsl3Lp%(LAV9>1_nN(4P`!NlsBdWro7F-(Gol;rlboKd1EIF-G%#CL_
zlV9ZUEC%eU(Txnr&aE?-Fu>IxwW^@2eAqAXH-(W{LAE>9yC$#^mr5IPs&8s0;tj5p
zZX&L{TtAjkJANOck!xSi=oIWSLA!*T7=~gh9R8la!Hgf5Vd#$*w$EFjK5RUc3Op`s
zyyKRQ#|O6IS?a*w;<%L^6iap2*IqQ+!oDi^>C)Ry^zmaX1I)08pZxLs1^lML;h#7&
zJ7Cw=Dr97*D`1!Rwy8J92mCFLTY2etf<;U<w;n8mgL$Z`7(CD4*KsIT+}GuE+P}u?
z=kYcMhac+GS%|P8nw5)2mqhdKc1?%(wplX}|0qhGGMGx4QVglGbJJ7;lC?RYtqtg{
zE&?8VxT6i0CDtb!ZOD7;j-rd2i13}pw%)Wl*%`)lB~#rPEAqR^$2b=TSu-v4X+j03
zF;>^GXJ1R*b~IEFZLh4lnY>c7Z(qaSeZoxh-sP)@zC;jn2q0L%svPEQ`z#rSW)4u#
z96l0Vbnn>gd!u<Z*YYbzOQWkE7^`|9ns?Bpk@7h%@MGD;abqj~NvO0-cc`-nNP)E%
zfyH=KfVZ6vYZWJPF9`Gr8{~T;j6J}z%t9N_NL$<$%kGaAYbzkXBUi7@=R4v`Dr6~w
z;PT_XhnRDp?<5KU7K<s1`qb44<GQY)uBCZbGkV!EXxobHwyx<bx~F0HF08z`sZwBr
z_J9O8`Y!vIxa=I#x$O60b*Kp4bs1jR^^SsLFaI<Y8lS&;tc-3OMt~oQ-nDmZ;ofN8
zJ_{Kh8mmGK_`}SAROShv?m`CqEsjL2g{q=mK~DJ-9bF*Odtc<t9yE&~RVjarZqXG%
z2f|{vwmlXxYT8e>3TIBDni5MvQNE!0D&EuJkVnvXc_?u|Z-tBL@ZL6SZsH&OEsl3K
zQJ6Y6n<x>`GfU$&{Hiyq;A=d`p~P=0T*o}oQAVv9@AcOr7?wdz$1y4|1Z)#e=rl<m
z%kVQZ{rbzdCqMQGUM#skX>Z^H`>&_8w!_v5Rp4mssyK0`_h@%l#j5HG*f?}kRA3XM
z0&TUp`CY+n^hj%aMfc%~LuWwp)fF)1D!R~Cw4%4W;!vcbt-I?acrN}v+-+2}^|Dcx
zcyx_{M;$i0k5{y{cEaS}P_bx5bw#E8k;>|djV&$ggW1wzA)lQ>Rngj8ao6ds*0H(D
zdDsbbz?8pxxUZ{?cqyNG=yo4kwOKrLDGu>Lmf+?T_`1%+4^<iwB>i{ciuKy=+W`T4
zZvJ<+S*R)gq2H5@BW_&Bz{1o0f%?Ex$!*C;0&U43nh$?Lva{Upq%(LIx_^Hv`N@UB
zz&SiCIdCD^4@;px>BXd<PlC6=wr}Ara0*-7-UMT=>$>t)sO!o7DQMZAatx^LJ#0ke
z^}U!&68=Azd@5kf!%tSFdb^Lac(m-{o*E0n>4Pq)kD<3U{!PJXJcY|>UxpR#p%aQ&
zIv_j)vGh}hFviZ>NVm7ws3lS^+t}HSh3MJ5%(|nJ1jtOA9}EP(mloKO)SP7IHvdV{
zYx7<VjjnnnWxQhbV9IAhp9(#lb!FaI-llIBoexHHo8QPO7_5)x%p2Z1mNO4+-!pE#
z?fbuczc7%uD@nZa$E#|V28|#mpJGrYG8#GMvlvkS`%lOv{uDzGf&5|V^<XTDpd))q
z#-HPk*_;N;i((pY7X;G6=U4yS!#B{eyzoX!AT9qbetNqskP)6pFC9xS9bSDk9Zl#<
z&gWbU=MLN_JskK^b>NZGNZ~fft+N+0j;iG5HuW5Q;L-?WK8z1U=1e4VUVzKWM!3C!
zd4XQ_jrjp%W>TP+FCdQgqzlP@yy`5jqVG1wm#i0mBI#7%bjpK)Q%P`Co&ELwgc4KA
zNUatZkVM!nI8*P@2sj#Lb%k|fMSFLor=qL7x8itfZ`;ud-XX4cb{w+rSys`2gpY_(
zfyPSmHZVf_Ib?X=FZ5J^+41I9`w{y4^z`9(T6-#DDJ>^gqVKs-K1AP^maW!1H+T1L
zMIvRpkw(<WzyMtNBf!V_V-7@;9{dmVm&h+L=4@r}QKS3RE<2^LsiQ~CDGvWP5OG)%
z4~X+tFfH?F(i?@P!$r};MI$9+g~%IS^n=OVs_zGaxH4I=_^m)n^{yne^xTtlAZg<M
zN5}4e^n2+k)h#@ADCtNN|2UF#Bal*f6gF5&HpUcw^<R6aasFI-IB;>nT`2}}!uT`3
zxsKT-{_kvz;l}lR&$;qFCsRWbz0*^VCRzB+k8kA#vI+;9r@-dl#shRwY4amD!r2IQ
zE(yNXq<)29;JUW68$MV2E_~NEW&%_3Jltn{?})hY$hM|x-&7u2yrOkDZ+C{iSLs%5
zL>o#b#fUgZu|ozwMPAF!?$-8ZnEyLF(9YC2BfPBAz1m8&IfNmWFFfP8qXoX#HYVp9
z6z@Q%E<o70z(KfK@d4;$d09=K=CGAZ(2Pq10eDQ|Q++!W2+e{2+ss@ey{h{!YTi`v
z#MHcrVCh(}6u#BTVDWJNSg<S_ES?PJs?%UU@$OarJpaE@hCyGhc2{o&;{;zmNxYj!
z!HQ+j6+%!M6L``Cd~*VrZ(cmuO24q*592oZ!>l}nAI6{ZXis`<5uot0<E1~QFu}eD
zjL7<!1Qr+f-7`4n;E8R2IbRO6C$%S+1=>@@FKxlyVf$jQ9Yq=N^Vc6^mX_ym{QbuY
zJeTk%yMo%%x;@SQWaD#dpeyYBc6-P<A2+AmUiyK=(L2rlWZw^bCvl787;^zUhXbuM
zNoSHE0*dS#AOg0X`$^6p-IwiIw`ba)?DuXBJczY87kE7I<Qe(zDJ57uZ#f-rIVA+t
zlYZIfNw)|cCDg)a*MvZo6(n^bn;@1*>lGb`D>`~BI(oV)dn-C|5dx;Q(||61M%>?Q
z5U*n?r%)*}?SaPT`o=wHLv<ULKY)F<?o&Ny^QGf&)ym~0nq}>sow2OlD8UaOHd}%9
zoXx|{)`<#v28mFO^^G+Zb=?LmdSUo2Z$7ZMsZl-RYzS}HaT?F->8{E#XuBA#9LR};
zmJ`cBz+5j(f#b1YUH#6TvE=TaSP)sKM~w@(CzggiJ~)<R>AUs{fhf7zN`75%t)y5=
zH)6i=cfjIQ;~;f|!^5O^#(_Z@$_k+4(&|s<Ue73;$e1yfF=HI{JcA{fbFb$?4f=HM
zTgf^3bxD)cW;~zuOxDPrk=E$6MWYQ@r>%fAoZggtec|GlSAKErrL|w&cxmIS$-kfZ
zyP2;o`sPk^-GkAGyUZos=E4)tY<oK=Ft2i?-<-R8IQ{LkK=I7s-cRqEESf*Qpk}<N
z7H6`tu~a^mRsMR`oVV5lGN=6jx>!Z!_X8>T1zfIN689U+qI=rSb&<CMful+HCEo}H
zs&{g%Y)by6Z9hbO0>1b|{Oq*y?+23j{^G|bir7BohuE;isUKqM+VB2r&!d3U^O^O_
z1D8tbLxDdCY^q%w_=8PZ`24lZX*m70wVCzlDPIq4s!vY&`leKz|3-2u&U_<1g`Y#2
z_0=igD9o*|O!>y#RNViK%2b}IPT}X}B@L-5Z8in-U#x><rvDuu{JHo!Xo3*0yc-8L
zLHQkV^lO~HH)x+dM#IQ+*xycqQ0-N0^)V2ak?H)6rhp*S)}Z#Ru;)Se(|HyIZm>C)
zB^>HU`+7kqT?Xk@3fwe5@oKz|x0k4ytjSV-%NC{Ac?XAcL{KS8Atpm}MrNCtcL^DK
zalW%3>6W0^GBU@rW?jvgHJLGe`2Mks+0hJ0RUc7Gim(p?l>gtT#gJeT66`&Db)SCj
z04Fyav+;bW3`g(}i^{eklCkAPEFD2PwCHi=lenS*fIkneCAVz(W$}ccCj{o=(m>!k
zw`NzGnX3kBC-bKd)P8J-*rC0+c%bfDIA>r-yn;YEDrPn4nUy1PY;Fz?tt7RhKG>Qa
z^Ty>7|4myiK<gv_6o;<$^#_hAea^m)kT$|7HccRo*eHP4h$ewmx&n;~i`u}N;hdI!
zf|f&lhtc88aun~C9p?Fk7Qg=T1iB3UdX%5o3G7k|w%l4Q3nmfR|2LpzaQF<tz7ekr
zu;+n4HJW)l1{%fY_&sLkMybX<_*~j}d7U|}-V8N3*mx~m^wgFMTcW|T_yr+|#e($X
zgN|l4MPV6uT^!zJa2Ci>wbk+^J4@sNzM^&exi;`cBX}v(7@g49-s&n9aw*ji!9fC+
zA17dRSfWZ#8@_Qffc_tTkHaq$plk68P%Vqgh8`Gb7Qn1AGiwDfpWHvV+0346hUV#z
zoIVjQ9}Aa9gXMQPEJfUDVpzgxHQpj9zK6lGLM=*vo2NPasy~G4&CG_|fDkZU9VA*j
zIB?@>3_7;yn5E&HGSy_Tj32)BCpl-Gr-<zr{03ZNicxq1X#BA-rP;U&#_!<+(4pA2
znk7Er>-r7><U`Qt{PiE0Z7dDDvTRS_m}QiM;G`CS|B2t{@aqKd7F+{OXU`d#Z)R5x
zY;}|LlLrRtE<QZG@Wq9rMK4sFq2)R<=0COZ!p3N@G#(Z2cs^U^;<GL?N3&u9VOHev
z1GDk>0G%6U|Ai3c@LL`(d7qiL)8dkw%*@RimuxVnZ8byNba37Rmz<AxN`SY4c9$OH
z4fJxb)Zvxw0VS$ZbcgL@U`s|3&L|ueXEfu^!R065<~XLzOyH7rScWeg&wB&CDp<__
zUe<y-ht384LB;jyK+&Bh%9R5Bj*1Zu(3Ub_o%dmI8uuTXh1Mkl&J-Kk-qB`@(@ZH1
z9bWzjmwPFPJPwqQqQ|XZ@>QwqjVU}I49RKhafmCHiN9M=G@|v4awc1Z_Culthp!SX
zp29nW*XI-s-hZ)UU>p6X^;&Qle8}N!F#WX`A06IjhUN~`!7~=hemd)F=FDrES>t)t
zS2L?8b4rI(E_Sg@ej3b^r?M|(59eP+V~^bY^O@K4=8SCneADNe#`0DSG`<lox_Hk(
zJv1WMLsiI{<GvNpv<5}E&*4NOOmkG8{(uv5=x{m>_k<%%Q-jnxI*tOzNny)wwZh50
zb~2&MZPqV#n5-2R9URmOOG>UaTD#hgR%I9_RxvhRUezy&Jw`jY(7^$*F)!$zk{w=E
zL=(bN#<TbZXU*Nz9{_tbIK0kfu9wSPxcc(_X5m`K6RsBVgp=@i&D~^%Bon}zY&5eg
zUR*d{wac8l+YH^WbAnP|rg}%|N_k|U`{5^}rbLe*v?BpN2b!98Wc(XR!4XLKivmfi
z_Cdmr!(S7At0nw$iY^`<*e2*>m6^HP7WkkJGc;3&Rl!r6E^LYhr%54%WmAX3<pG@1
zaoOR3y5*>NkH&W#iGD5x94Q6T-jU}@J5cx<)G$40V>39CG=QW~w_vtigsaw`X=KPU
zggRkIbhE*VAY(TqaSx+lWshElIR~+S+N;5o=mD78P|YAzIs7f5x&ap@^Vxs#IN%yC
zy|~$8KaTqTz|)c8`k}`J^YP&mzOX&!fvtj~W|M1Bw1bZMvf^;;bp^$QI+HY!3T+Sp
z^9W3mCRCr#;`KZryA(9S000%D4mbVctbmn7z-;_!aQH4k#iSR2DtnfhU2dsEcbl1O
zrR?7K^qS$4A&~JL9S8FVnx;U%pDu`YM%qQVB|!9IJcw{sfC$n}<kV>R<c3i`VZ`BW
z4Mw@;X6_t|O5HFj9op<cqXNJE6-A=&K8y-9G}_&RMt=f}F2#e$$ib{V0pvx528SPN
z(8!)?X3w@TW{sJ7_bp+JrOXIgQ0B>}@u$wP6j3E>#))!tS*%G5<Zy^eQ~MltMed8^
zTu@_XE_QWHDSq-!j*|F9qgjiEX@!N2RKNlpinwIl4;Yf>dXaUb;gg3ymGD*$$#8~P
zo`uQm!ixtj2(C9XH`oxodwBlP#utl6PQEZ}N)rS>td5@|YKbfd3rJgAyY`+yD2s((
zUy8>sn*`w!>*1Z6Zt20g=>!>vOoGhfQ@Qia+=T<%HBFLEF!HHsLt8xFgTjGbQ}C$~
zz)r_Hjcx19T;Y+*An{@5FfD8>bDI{6FoiV7uz(UDwwKJU#QPZ)nqse$uMF$yL0XST
z0}<-HQ0$d1VnN%hkN~KTK#1vBE*~yb9Ag%4%O~u&<91D#7mi3b$%6rotTsc7;EK!$
zkLNDAnz3Xur|f)+BUf)hae2kFA`bOCDvYgWK$YPn#DPp4qQB=5W|k1Zil3x73X8Vd
z!W8q*48j`O>zeB9751mvZvkZo@j3MN&cxf;D?+##qLP6yt2~NLnq(VP5k=%bsuD_j
zivCGt0^o0*CO9)_IXI;B<`0Qqo57XYgR5d?#*3GX)|<sE%$${wP=&T>RJdYb=Nox5
zhjJ{lJbu;Io1vw;a4(7mi{d>T#CbyE#+~4}ET$}zh-$0jbg+>r8)+C^_DW2Uj{9z7
z9`0H|_{FQ=>&(pc?+f)?6jD+1b}8V1mTkWXH1%MpRK1N5;mJzw38h+0_?7&B!>Gj9
zs|n+KY#bew%6Rq+GkcaL_U<(^YoyqtHokS}xEazmcCLk|Ry7CkWSxaOY~tOubY{2^
z(gyY3h=C*~0Q%dY9LW#j0R0S=2Z};*@6^yXs<<E=Ruin&?nG|saGIH04w0zCb+ehd
zMZ)#q(|yAShR&Ix1v-_#H{dFq9dYQje}7}Wu^3>02KENw2j#1;ucQ4Y&|6CAaoFS_
z<@N01!S;)f0vUDSZ8S4CN#HU4@$R7ydGw0+2Jl3dQylPiw{_I^^)$AVVM-VxzQ8(1
zWBU*<P7O&}qAB5%ja7j0Rt-aQN(N7xITa8~I*{wk%=+7={DdZh<D;`hGdO@!)HGpl
zS>(EBBmTQe=xYjtM_t4GyoWRyL{6^)j@ZMnJnW+6hu{E0Z_{<OPmn|WGY7|M1Skd^
zvA>4c%V8IO`36(I#4g78+!`~x)?%hkfZ2h;1J4~8pI>Lr^6pJ0-o)VV@wma=W}j3S
zmEM9JhqN;(NJ6&K^5tZAM~uVF;X@xWyX%TE3)Jb;XH`s}RZwCx#11a<@3*!z?W%9s
z8(&!~jN61dBDJ4&1OtZ$2nL4Behl@P?IyY?GZ>w|dMr<LP}8fY@*5q&3}iv#aq3Vu
zlXrhiDU1oW{2fCw9<v-3(=kgmUr*Tnbq_xI>?ufma*J_78IeHn(MANYp>lF=QiYFS
z2$@dqmO5fpU>6YQP>jo7wuG3si6H0DLYlr8@6SE)#b#bLbjoSV1{%i^s>sj;N0yUq
zt~ZMpn4yKb&?$2HE^R>YUp!qLw~l*OMJYMuI$7$X4l(PGvAAj+4jSt@2@fvS@EnJu
zn3!=7|6(kZIQ8Dc6S14G_)Z)|fGC`5OuH@a9#HO05hmX%E8@U9A>z~#q8v^TaT>6|
zK%8kC%xTy}EuO5{jBz|TOQ4Pl17N{{=!|N!c&Qm$rsK}ciEzbOxFQ;?n8Kug9KWIK
zgBl$J+2!Fwu}V((Qmo?vcb9}n=rk&FX@j-htwuXUs&E-uR2PJYwml)-wh?X|&Jb>F
z@&*epoPTkh<-uNSX0CJ8lhs2Hd)%|RPi?rc0l>ZE0p+$Hnyf@{0WcT1LTxQ}mUu#-
z?I6%N3=n86)DNKLmkv!E*dZ{?*^ef3+F%whG((j-f)!7MXN-ksM1wQ#c(}POTJHX}
zW5+g6Y^I36SOg|+M@8)M+I*k>O5BtXoJ|BLhfffkR@{!hN8mUT66naTU<qHTdkl;8
zZc(e0rEYtoZe<%~C|#8Y0GH><``x1QlB8E7m(WO{nR#qr{h=$2z4+qK6N2_G%RDoC
zfu*gzBP)Y!jQ`(Y7`YBS$MoGBkXd3$;@2-F2|=%i|K88paQFqh*$pe)KfGY%uo+$&
z4K9sG|M!5_Ju{x?qE3HrbKmhp5yJ{`v9gk_TCTfmkcZs7zo{0*pY(dJi4}At$+xgF
zNlTY_Y9fR%4idf`hPm?hVxb`SiWZGm?KF#;2ATvr+G1wjYw_^G552f`d`Yu8f0r5B
zt#hPl6XDro;n~sP?Dyo7h>c67kVt2Uy%Mv9-fykM-iAGmsK#|`i(o7vbQ92`@dz(+
z7$N8_D=By0`21Qkx6ax%aCYtv3?6*$<oLpRv%J9!ZPh_v_|)bL&`+jI!0Ve<c(x?K
z5qxkFpxU5v?8&~QbIJY5%oFYkIo7D7W$5v8nqFc#q+uc0u|KKeDXEAp!Umi?Tu$hu
z#38nBXDJvS+E_HUV<EV2C3g@+aHqg~$0kja_CdyR>kF|k8VW`bfr}E}kyzM1jZ@lU
zczx9^Tn-MSTn;NGssQeQp=B?pMGKY<-1o-ps!uI?x$pA9mwsm8K0z7E|9bwwpww*M
zNH4gSTW~&fJ!9H%A+i##<(5A6_=U%#8MEZ_DAf*tp;9LJ<CFM+<&m($*q<c!14LMZ
zQVWC54ub~%RD?dH_TwAclBxYd$Mkc;Y+oW$;5e72El-;5h`=5}P>LV7n^3lItT}wR
z1H1ZX;3gDBr<DMT$@*;e^}VR9PMOXXf-WzNw{RE47dv>MG6{;*^A2=9upVgbDL{9!
z&u9xpj!xeK4ry1nbEP<Zi7RF8_Y_x*+%s0ZY@qp#{BkpYj-^RCu0<@+iwj0W=G;}|
zYZ||~z+B@E>?u}S=zC_3=D7q(-HASX0hmjO>L>)V5dom=MF^p?jkN~GQ9`kU!!ZsH
zmx_aTC$Dq(iW}Y=#)_AE;Jww%+-8f4hp;Pr)||6)eD(Hk7MrWR62pPF&a#yFK8;oP
zp$YFEnOZB2CTy0Z(}XgIl)EfdqmKAJG8qu0B!UK8XkTvRmuN0|ka3)_@`I|E-E{Lt
z4qqow@5O9k0|1GAfa*j69T>EMYKB(nGQa_*uDudCg2C|dI{(*z6`u~PK<Y4!qyTbf
z>=XzI6rhm?6ePAQo_r}qP`rjwe4?V>k8t7~{)`i!gG-n=T{7A<nI_`w##-5=Khc?K
z=3QN9q}9;oW*B^9?)SU)>Wn^~<}l`&h-SXsbRx>F=XD3@OXP5VB@IXi2=CRnzS{d&
zf;dsIR&wGP5_b_uXr!&pv^v_s@x}UzBnx+bg=M9Q<!1dmG|=!V>v)R5;xIvAS$+bp
zx-8!~8P2=7Rz$>#Dvs}AKY_>+QhWmiZ&B%0s^Gd)1sN&FdFf{A`9}#h4u4IsS)PL8
z8AAuHloX9-;3?Q_7B4nKOLW@tCZ*^^q<F12rpZwXZN1>m*r4EMnyr<)dR_2Bi>KFx
zz*qmxi)DnWBk=GS*^{MRJkE<8{uUrN?&e?gw6^I|N@;Gt=3%Tpkee!GRrEN;BXBs1
zHiGMw;vD}xrN0HW=p3c-F`zX;bPm|JTc@Kh0R?aDsQYx0S`m|lt}JV(v3cvRJ-eC`
zrmb0epY^0&hmJ+sPzg*b>W+GzDmB3D4*cMr?&I<{<GYXw+9J@e$wjbM;b#eV4&No>
z@4!Vm@{!!O)68qK;zKm$ZoIf^bg5aq4iz+?+d4jPhdJ}U8!1WQrlf(o>vkbnPpaE{
zj1t^Cq!z>*kE5Tuy@1xv-4leI5AxgoArIVfw}87;tv}8$bNFY1-LgqNV0Sh{4-7u|
zV%m6RvsvL)?%eq@I;ay0JSE!nfHq~PP8HC0Q-PP1Sm0H;RA>vVtaaCMq)+C+*By<t
zJ=W8A-0S5<Z&G<a5hJ-kSaJx29p0^Zd3TzbO^$2)Hod%5srdhmdolbtR6EVxh$6Qg
z=;JP&jbIRo^q(g=KMon3-yFP$rO0W{!kg+pN(Oz^GY>y>Q0H!&r)s*sqbCu5I1p>A
z_$|_$EMx^I^>tK$zk)Qphp40t4(r|k-PzjHTU&c@YiD22QFdR1>=LGfsD>v<)T2sS
zoH7iDH(NLMwxTvZ5)axfRNSw}+Ibk}&vP|6<Zv~tP`iRzLrdYRC@dRVk8GFteb0N$
z;>wqcNBhmHjb><*rZ;4jPGrp*%bGRZKT*D7tb9c@yfPYG8SmP=!>HM<eAUa&g7lkT
zN{tnWEr$ltGE_v}`)@i}Y?5(0@EaxGboeyk&7lPFzF}`Vl$+UeESI@kHS-C~x%sAp
z*CtT-|E{t~%``#;qXpC&6yQUC`VgV;3m9k~X>#Nlp64)&*ysZt%|`MMTY9fR$L-8V
z$U_fmh12gyv=i{L4Wt6XB$2RqmKQlJ&;XWGVdl)WayT?6JOH+K2)S0S;6r!FvaYP+
zp;A=T;zI&ap(2emS!%IIsHVz!V*3HyW+KA0C^#EV_exQ*2fygShhO6KI8<|b^YJ2<
ztkA0W4<7KOkNMdBir*ab%;hEg%|nl+)J$k=eww+gGz)FU6h`9EXKa<f^Ylls=G<~}
z6&OYoGQ+bQXZQf&c>;mMN&;a8ehEOxF1y%baSRO>{xsp2%A^#5TiIk2Z?GS4plz|m
z+#vwg#Ef6TUF-Rt_MY3^k-N?C;%IPjyg8(VxYv+Wt1@+Rj89C%I}+HwqFK7LMcRNe
z%SAv4arRQ0lb2v^N{egOrnFl;!wDi{-$W7(bB-CpqfxX+BEJX-8XPtfj8d0Iim}R_
zbh2m;j2AB$X*Y|PyuAPN+Lu7t8#PfJPE6VF0k~^wC4>k1^(xRCze@Og9)mYG`wP6l
zq23>Gntu8I1)LW91i;mtIDtOiq9#|5fM8<iy-etF*y#^FEqv+y3%$86vyN!jhYlVn
zyiwcT-P3y$2>u2k$YHNP1RKoEt(M_-8xU0D6nsCS|L7$te^@|4-LHu;JNxGr8K!2}
zC=sswN2!|s$hH5G*ni}X<q=TC&XSYZ^=p7xEJx_slFZwoW4n1MOd!QWWvjeVLfcV`
zDB<A+!XZ5pmwB1PLtKmoDKs@Ms>SxG#d!2et+{l|H;P|7_4V1FIED8#GhN`q>iWpx
zR)nG525a~dVaef;KVok;GaGLov3<QeY@?Y#*VK&{WsFbd-<dLDQB*N;)k9f?NgmTT
z)BOx~pSmX8N@vq8AL2s%f<=xXOjXoX*AkC#L*1!};p;lET?_Sr50yYuP47?hEAxr%
z{B+jAx9?60JUJ~G=tu9G-a?BzXd3wwtcxt`sknKb>WeP7?gc&eTncH_DhSglts>I@
z=(LTcB1rE@#P|fYS{7VEu?|7A?m`i8Oi=&nvG(p+HBS5;OGU?#ww_p0hbRv$Y1yXc
z-y#NbI7STof}rN>cG(r-pwO7Bv~xyKaRu9fZ)Sv_?7x~Z<4u-RxfaSE&tG~qwDfxE
ztdaE3XMZkxtaR!5tTzhFhc=(jK)IIO{K1mviib}<J9~5*vJ8>iX~ko_nOAT=buzzX
z@YH9|ed^q|@)w-1xt5jx)Xob#ho_Cqd1l7zSqo76s$d~%xa1X|&q5u?+-X)>mnrn#
zpHGbKy5{R(yR2Ao%W2`D0KkmLxnO^=mpoD&qO7c>fS{AOE6(<66yU2D3kne7BTDF`
zi8>m${8s&G&Rc0zp}EjN73msP_`ZjY=N46D^r!n$MOuG`4^^bQs6zd+Miuj2JX2A{
zHq?@5u^>qo#%}|>XmlqcRdS9;j&~bp#FeJ)XFci2#ucLQ?{fGuhp%Ahq5sfEbW3ji
z9xrnEI5GVSZomeH3)8omncHpu?}6cFrT$+5!q>hdgfAJ%F{dworTFrxFU@`pc)#Pv
zi1)y7bto(R&Tvq<qsHv4ewV+VH8hyOuPGW>8nI?l&3KK=#o=>YE^B{UQ!}(kuiJFL
zC?jnEKd6gDMRq!iP;Lpka)c|gOEC~7j^06?2)C2e23L!flx!Kfv6REDUB({}DvoaE
zF>t@ms~koNvvrsr{23a|G!N+D-scvKq(8gN-I~#3+TsD~z*EJMD9I+ip<R(I&|}Ys
z);+XOHXk+qkS}@}pZxoH{V^|d_#)>~f#3DyX`Ro#hI+#bQJa+wn9}TKvHXgE?#-{@
z8NN%MB$|IJTGGn`yxT27;TN$r2Y-y%v%3kBUjT;yjENXo7kCq-;1JT5(-U2QTYyNS
z%!Y<Yc$`Lie}X>^4p#{OMqC3P<u5SvD+hL5D=rz>@v-K~>D2=}?2exrUV#>GVdG5q
zhTd`H=-!l<ZES5Q3m#^C1EBHxNd5<5#^DeAX;0f5za`pJC<*A_VeH-QpF}VXpwnY>
zcc%Qa76roG#c79G0X7<r{UzbW;hTh)wIPvLGL&J(61ek}eDeYII=MPV@rP&~+}Mdh
zr+UqBzh(cr!x5z4vfNQ$5OHUjd^UQ3XCv57Y$S?k3o7&WZUYOFC8W5kga(JdBs41V
z-j+MQ*37K4bdtgSW@v`vheTO2RryZ2Ch$ed1TlMdGSO%61hhCoEPY9*lX~*eL_ndN
z6Jw~~bq<ATrierjimS=4ICUi&&uM|3+6qv&O+%n`P_yOIH3vz$t%tHq3d-Q9O<uG$
zO7e4w_y^k98^La>Mi>};Q1-H2N>3cmF6=RyVwTYr%Rro%V4wKZdRj8lR;(Pt+N}!+
zYsVkfHFu0V{Y(|sA@!Wsx$+!d=gRlUl}B@!jG@ghmqZJfUoF`4%DyX$zVzsy-yL0Z
zzbEEBJ^)^4GY^j}apgh2F=OGA$e!Fedhm;nUV8M(!QX%McOQ*b@5C8tN%>+CO+ptI
zsde?ik3<-tDMcCvs8D%q@>{>1FbLj@0aFB3xdU^s#)uy2HM%=@cf(_QhHBNf0B$P+
zTc{$jyu+Tm46&kx-qY^Iq~vm~<s{dV!(VePACzlZP!cVzGz%8Jf}DlBv3|?ekCiQc
zwJ+MR-`sKl6fBHvJ%nd(w9K8qYOPysw0h%2b?sPnZ8TULzhX*`e%P~O8pJIt7b>h;
zYlq&|8U!_ui?ZPK20W4zYM~Y2gkCs<?U4`0N`?2)dlibH!yv6)9HA8c6+!6843C2Q
zCa-e%HUWH>1h6NH0!_xtRzz3Unq_rnsNSDn;*09Q)5MWTu|;3T_LN8}x-+JrazPNe
zl2#*ct)!b%wICMiiFEaJ8{Dsog;~`tf~ciFBhn0n%K$)(Ob#Iq^wY+s3;1Zy+AF?~
zwzsl?`bT(Yn1e_!&*rE9mtf%V_XNXSyuPj<7e`C)ie{|1mRT~K8qJvP(vbNjSKy>l
zEndM>bUJ@YLWNE6lx*!!_N!p)$Q4|-p{X^NiN`<9H=($R+Vu@;{s|5Hz}@q#SJM8G
znCRZq(qMT2E(A_lmT}T9sATnT<En9;gD3pwZ*k7vUpxzHF-mz;BFyyUacaMGV1@Dj
z;hS%BrJC^O++nuzIEzt19GdjB6_*#9)7B4cwM!vr+i6gzeF9Y`!n4N0v!X$t6ej$X
zl>R&L0WA%a9j}w{LS<=`&k$E@ZQ-?1URKAOWlP{El4Me7(D>g30_P+AkXAp1hCO?B
z?P;mmvu%G<L-Rfro7&X4x2a}d-F7sq5Z+1wMVf!^sQtg=(>VM)K{Q{0=vsQtc)|Ru
z>GRPQZFC{Ple<2evHp5a>G-sbX3nN)#-=HJe|PSlx7)1KkOZ4B&Zdn(N%tm=@g2a&
zYjOM^0**rv<v;B0Y^^AyW|fT>FB?5+7T^79>XpM^$@Zixx{JCfV#h)#k#gsPRJ2Y|
zVFVgTRf}95wy~LBZmVu1!*v6_$_oC=M6aYs&(ZGA_NjS*@jWgGhp_*GsAdf35nr(4
za+O)U@zuy{Tfc&`Wjh@?g|cO?P%9;=^#%E)pl(NNSKK-UJ0>YDAToJ4RIPDgd()E3
zD-MT)Yx=jdL22t|2{tHYCX%)g&<3Vj2&b&!_X#isbbBZA2F}KUy)208;kgu6QsI)i
z^FQ+Y917w9eyy++%vFY1-YVRu3U7KEKkX|X?|>pd?#P5DG;QtZ(iQ-U$6tV|WddE?
zRV4{M^6xM4729W&htNy)R1uQx$U#6~tchHaA8<uDlyOBGa1HXVbd_1U28AIf%hzHY
z56%=SuNL;esx3>*VzkU~6_cDX5nei$psIk<TkZ^xw<rFt`&7gbA*~2=mD}&TMa5_`
z84sLE4VSFSF4(d=A@0-k3^#oLjqv3#kMOm;Cb_d@2|p)$OSE=^?yzpC#Z$V^otv)s
z1QzNJgQ#X*AlwFFoOb0Z0axSS35fs1;E8KYh8kmVSeyVr?mAQNVF0<!+}%XErq(W`
zpB#^L^?GAn>GnO*)_OvmPei;y!j8iV!p^FKpFhvcUtlF~YgX#5`FZbP{L<tV@yiXq
zogK%~E+7@?Ws@fMt2)KWM8HcY@Hng^@Z$HYG$91o-7H*K2b|KvzM5DDsr!{8Fy$VW
zqZVkQAMY*?UzdQREa*m=Zz2y&HTt<chwX@~b{wb)01tl++P0w=eXr$JwiGc|a_Z<3
zYeRg7hfS`Nvm~5?P!Oav3Uf_3+{-oDgNxk9kY$~;yq{fW=5Bl6S8iXtoH}~UT!iAr
z8#KKvt7IZ;=2+Iu;bRlCmyOL{77Z_t2A4}iM8O}wafdO|MN`4s@?SgnZe##l9-f*@
zFmh=0NA3H}%$*MWZU?pRFi>f}eV}FoHY|;{NW0(-Q$r}95aO`MA3~ZJ|2B#L4ug=7
zp0mFPGRNNi5%C(}m8V*JLA(xOf|F`mVj;oB;X!|Jx#RBN!wBWB2ePlbx3#mOD`Ffu
zLl)O}{6ud@cNZLr(EIwp?e1RfrySZ!IO<0o@96C8IM$6CJc(gjLfCTnFkx#Ys29x~
z+F{j>(h7nA6*rm1RU(?pDeiDfg`?gdqR6ddZadMpOL%LsDAbd%Fw%MLy^uhOx1<zu
z1zF`%sHriO6*v*;YVYVeBGp!hBCtZbs4C;KaX89l+b2a;L6ups1nGjXj95q~alYW=
zW))h<Y|(|4oiF(KMER<*@>S9B>S%Cvys)Be&;M`C#-JOxPD!}-B*uB6Fx&}9IaGub
zuezVAH>IA8u8O&%x~$@$Ucec1Fu{*tf;S5AO~~T#qR|pFeAngtvGA&BaMh3WdY8~g
zfl7)|K~PTpe!JzG#J%4Fe6<hnXUyd@;;IZNW;}}Dfpayfr^LqvlR)$8n(1g=j+Ta+
zA<0^xiE{R6ZQ<<DL?<WK&uI?lsXSa6vuvi7((Fl<k^!i+<2`O`=R(WLm2k)W4Hj6k
zr0?*P2;FhqHP*Hb&ys`5AU%!e1B5z;R}!QgP7}j-<KjTzjc@_FO_+uA&Sy+!&yOxZ
z6W1*llCKxeHwzb@&$u>Y?)i-IjA`N$D^;IQp2D!5vR%tD{G5*6Y5}yJFwH~uW5`Z(
z?>E=h>{;PJ7cBiB6lfiQT3!G!`a`Y8ig<v!h3FE(lf%ad&(#8+lSK>7qD2;`*S3Na
zaQdk`!QC026}Qj4uKW0jzFv{a3HB^Ah_!S6oY^lQb{V0^;UdZXvjA;8^Ld{bUWcuY
zdhT#^c5JpFSJ!%?^-xDA>d1*U!?xcWYTWVGW8DS|`@`<)HWJhJ3PO{^r-_R@B`)R^
zUOa+aS?eD<r{Y4%U)(>s_64NZt=1)1;Zsc)nugatzv-Dx(Qs8XSoOYL8QUaw2UIn*
ziORAvm3t<D>fQKRLuhmOMMB%w73P}-3#ltqLZ!2G1$PXURa@X))fL36dS$VjHCnoY
zJ?nLt*9(}JQW45W(#&w>XwsOL>k8(nj@!{-<`Z&jIZXXdmVRKr(>?gc=kZR)dVW=?
z1^OE(wO{}*^=?TSUl$9z`NowMvTS^NGDF~XwoL)`v|T1GdDT<5tl7kQbNB)=ZWE>n
z<xR&lx2%aTdzDo-kySC4RS^x(i3aCL5Gq{<kE6dxsG+}>2!wZJ{+%0>rG3}d)?gUj
z20N^&vV^e`vF|7~0C8F7GslX>c`S|SnHCXYBM@RrCy-^gt#YcF5k6Q(mWcMs@_tV~
zL=VxiLLAZyb}tu?!*6o&tZ3ex>7unMxw5u)>;u+_ed5Xdg(Dv|^H;sH|H|4gJ<7sO
z4X(mX?xa26g-p0*{8L;=NgeL(vieAGYe#3K9cy5%TbfaVy)UWv))02J9MqE7+mv-Y
zTaSUtuUHP<DEBVHR^H9w%Upy8ED<OucY&E(X%!aMw!?f@VcnNnxC&cctDrg*l34A7
zR)V0UFXMwRGn%q)tz)BTo?*xLt1J({jbbf-Rr!ct!jyR+u+K@;b5*xJrW&5hJ2}dQ
za=YU+;<1PY5t)j@47E}gP08DLcFP>?c$$(`a1Cb_vydz&^0`T1UYa5VBu!b_M2%ce
z4qxYb?!{%Sr$$to#}Dy7BaLSEvdQeZBlnou%lR+*S>H98UBCwBH!_3aSp#)%hXSd^
zh+PX#zvjup@D(-hzCq)5mhA6^!gyA|YY!?@^+2M`QdHy6ie=KU#}>YzDUd{20#vf7
zCPI_LUl5urB{Z`u%<Q>VB@Xwloli)VUnP$BiT-YDiEeUe=xSp<8*LrrewAgFHv^b4
z?A!OCVpS*HPuM{1=+?8Xa9u2bwF0}j0vuk)3f!=^N~~a_(pf{NxqVMzq2V=*N-V^S
z4bjCL%=!1YYh+{<FoQE%ws@lKuCcPaqTv<M;EH(7>3zLI^%36{GVTYIy(;~Ff}g`*
z0sO{Z{uQTYzR!T=)}3~oIO0WRUqC%T&~W(Msqs`(YCgbIkh(Z*PT~gruEVXj1p0>v
zdJf+ujvnM+aX6|>p*zEQ<W}`iNhz`?a-y>p+b?}xz0jt)!*AO{(BcenF`<-tgj445
zj{tzZ#h+Vz@pQZj2b{Z|(31BVX}f)P^#%*maYv<7`RufF{ysa~31#i3h;M7VDdKN!
zp|B{rG;85Xarif`)D#{PEk+hg_S5i?h*$M`Biy3i@{njSGa{H<DimtvC7Cy})eJ8g
ztr-h1iw2j)6DCapVHVuNK9BH{v=f9=znA4D(ckMRzLkmhG7j_WaqL0ixz{>$at!R4
z^Pg6MYj-ZefkPeLJ??tGu?2ejnFF<ryY{M(_nUN~F+Kr);|Z=fMnG}M2H5lhzdOvl
z`>b3@Eg?V__}yt%G?}4h&1*VEEoH@%zYj}7w+OWj4}BX%*?2$Z5-^wj>$kS2oW<<h
zgJ*%E{YfMTdGvyG<>CK5e(RhFWmcOxw^}g9DGQ^5oRb2gU`+nhziA^UN@FyzV2oA(
z##1EbTt<J!u_F6v&cD4VG$RkcA~+&NBfUM)pTTyS@<34<?!S7D{tWwFP>yDsRgPwc
zeUnoN2Zc9Mt#UM#u0SBm_rIsFtBd9VD#S#3df0z;r9o$$!TrQbIa*qRFzP(jY5pA;
zB@?-R2bgV~=AZwGAvRag$bp)j`x{!CckOGbIZ)HMv!-@uLrY(0ch?dA@07E-B<p;5
zZ0=ZyWoxWrHrRp?MQofBA4VB|$FI)Eao~l)p@anWZA`;k=VOPNd7mp@$*O2`&9|Zr
z3eQZhcs~1?Y`CDORe{4!TY5hI$?QqE%8q>T_@(1x#rK>Ky-_f8sQP^R|C5ua%G{Ki
zIV+rUAJ^i`+*~iH9(~~Q{g)mx3)Y>lyOvitkvC^7Z_fCFZ4(Qc#uhYP&1-sd{-VK@
z@w_>9MV!Ldvu3@O&1yI~398`$DC+ot@Bs=fyEsM5Ec<});|PD%trNbT0%@@gQQG6=
zDrj;dsng91jBXO-C&(J|IGn(resoLEqrqVf>Gtoibhk>k{*|b1hi=^ks@#<8Q=sZc
zqTIY&pj@S`-AWBv0XVOw=84CV+vZ+oZ=43WA0W8#KfxVdc^Nfj(f)Nqyzce^H~D~@
z00J?0Jh5H2%ZpkrJ;LZBZ6_jpDsl#ghZ70xxB%l11U6P8pv8zy5wP?QiZy<qsROz{
zMNR!yNlcU2M&DE<*3XL^&LonpiAe0fxNH@G^U79t)z?HE(0Cm1epVN*t1iPwb5AsQ
zPrPuw9f2QP>@wt<cJEDS%dLv@;JA&z#NRc37H|K&{`PAwqs8;4XwXW%|G>~73uXxg
z3lbj~8n=O%nv-E_<>2SYxj4K4T)g3D6*QTd&3@MW`;T*dpn;R%^vciwB^`Oj0BJ%w
z>86(a;$9Aa2>LNT#%~I*JOz$@D7<<E5gfXMSUFZxkfxwjl@K*1aIZX^&LEmY*{(6+
zBrPb9i(PZ(Txx%+Q`JqlK4s<PRLAuz&c4yBLWKHL{Hg#6S8$r+jAdmx``vqs)qAR^
z*eu(A6U>e7PI2J7LDU?d^1XYNLl)R*v47z}PVd!Ruzqi9-wg*cB6#2=PC2F=!uA^g
z$3<o3bD8~_$7VWb?N7bj!V$-@3hRURk8&Yrwy62yIdipJtdF<+9LFi1er!SfbNVyw
zS-}<E30E|0Kv&xLIS_&?8nLNv<;iU}%2>Re=+{(L6q_!~$678X=Mub3A`vCS9d6`!
zrjaj$Dq9$0!8Y`JGqU)1h=b#uqLW%WrbIOoV5{b$stU=1Me1i_h0^^D54rOm&h8`j
zk@0m^d|G;@>Ay#OlXb{2r%&)c4*!da)l9qtg2u{LnPsSsQF?7IV%<x}gXP!C=ZOz9
zuQT9Awg7;GDxA$uywMrU%;M!{=&pe}e|Pm{!Q$xBdncCe8^eDE`_89NE~>tC<fVsS
ztsJj?$lUO-x#*E-#*Fcd1<L0YEnjI)UuEX3cD&WL&nsHGc%pRkSn1|(<!?D(^Jc+<
ziGt;01<NldjTNj+;Ih7EyR7NYt{%&)9=~hP#9ar+?mBoi@8GrNtLV?JcKNe&0|oac
zy;X1vZZWle_*DScmr*6%dOns_S{<t)4@Z;JVj$ICm{uH*Zy^p>rqw&hgm;rdO<!-f
zXoeDLmo?C3XS{aVvdl>??C7yB#0pgOcB6gHK}v6g(UZhI4k56Go(C`i;9h~1G%$UM
zIelp~SRz8aw5AhkPdvK3#;mF}Lv`Agqur7)TE1eUeC-&DyM)(8gX^Sx0YRxl$ro<K
z>&vFe3)_LA<dU--HkU@H2WPRAG_gCNiDJn6yE=MNeQ0N-UBt7a@|dW$@_AA_i65~Z
z;UGT$8c#U6m^c+6p-L(pB&0YL5mHsS21t<<?=~~nN=<X$(_2Q?n1$ZdS*w81yFPcV
z<sD{^P(Qupon4UjX-=F#xFmxz4Z%PY0pZgG0*5jJVX*@Qt?k`-aph>xEOr;GycYgx
zK|zZ;0Ti^XFdGe)b524AJdIDDefZDtB8LjkgtZWnJ8Z&Q+7KqJ@;f*Yp9v20Jcosz
z32IqFci05AkmI_}NULGT=!@{J9(!3uc)ms5qR=3N@)J_`FY+RXY7ZE+5aaRU#iNJ?
zT5E>ZY5eXEL2NDD#)iO$IVT+g{ZsL`=Xf`Vl^zIqFg+DX=Voa6od5w%QUcQxOG-@2
z4(Cgch{m#d$g`Wx|1!bAVVwsIn*1X@q?^TenV}UvU{JCO+)=3}NAX7j8D}SQtM557
zPLpi6ta8Y@ds;aifX2%8N(3PQM+ihA3q-|9fi+gl`16EF7v4@I9-I=Q(UOgy<1HMv
z5NKKfUaf|X4YXGlUMc<(gu}f*VbD3?^aC9yAP!wylb~~pO%ww_w#Z|)_GODrFO*_A
z$c4qdb~hUQ-FjO4J2C8DAnZ77^}tROsZU#dXAWF$HkZ2V7c0RE+ExeW&i{XGUB|VE
z**%e-NUsMfiCT}3a&8=Ua&B|*MwZT`r8W7s9#@Npul%Sqq@LwlzzQ!Xk9b7T!Yx5V
zDsxETg7G50Y)7PW{c($H{k6Xnum2YaBMy5!>#yfj{Iu6!D~l%9-v<~56-jDO?mE7|
z!Rc{0i0R$XP(Z7E=8FQlx=a==@cC(c(AlWQD%JgcN#~OLlc#7)kTR8P3NdollhB~R
zarbBr9X#99c0lH(xkE(jIv;E5?xMZX*Mr<Z_M$cZnS%(J6YN&#oODoFxr1yW-zL5$
zifM{k^SSydcb$3KPc%<#1LZdfX%3GPk#^!LO}Uc6ezRcyc=hIJ!Df`1U%28^ov-v=
zdBj}1V_=ssU-T$acUefQ!2G&V^a8N#H$_W$`W-@-aeWngbh<QN20&tkWX5_YG4=~{
zY#iJY&;a>c1SE$e1f<pf*_-8LQ)G1YHgoBAGt}rK&akxVAmjuJ--{1A3TxJG5}Xf7
zPK6!RSXc0Nc$aP2dP&j;4hcx|3g^e63-dF+$iIa1S5Xk&@Le&^wJCtX`W9OhEY?aF
zOzoVq)Z&*p5e|J^wndnPC2TZK13}s_^dU1e&u6vX_33MN45kl}>aH_oc`0UaT7p&h
zSZ}|_iyZnnXU!gWnJv|$`^@5%W@weqtN|u<;5iaUr_fdd4o=#>^mD{ptx~+hlx+_%
zFxhdBDRm4TT&&6jqG4^rNmM8WAnJ?=Qb#SFl*x+R*S0Uh&FiF*rU)92WkjrR8Xp41
zxy8@#6F?k(jsVg$Q`wJpGPm5!oinf<1%#g5Ke+B97$A~vovLRlms$}bK%{8n0RBio
z%2O!yAZ6=m=MuEkkb0=*xY!dp0`GUk5KvGSuE=uMH1$|W0D_6iJ;on!;t5&Y*Lju0
zMS^7s=3&u_X6!xv@JJb|FOMEILu+-IOjQs2&dBd_*T7Z1Bn9*YbS|Z8DdGyBWK{)=
z*+3R+&~yMvRfMuaItBlTaOCi5!qF<LS2%lU(}1io?k<hH(JWr%>8w}kY1*JOAthkF
zP}M|+CL$C$68GE<a+O<DBSRITpkbq<@2E_Dwpo(;jc}z37=lP2Xzl1lFdwvEp~{To
zy(MAlh7oZvmf72JJks6QdtBB*hy~kQds`)?;<A9H1<XGsFgg692297pIvJj6hG!4d
zv)I?cr~8KY4Sn>*t)uJB`D@J3-7W+jxG!FyaovRcEyD+$Xwhp*>vthLS|o|rs7jVp
z^k;ab9xjZv>ajeXBM}nDU*ML{@vXV_3{ncu9zH!f-Mm@(x_dqEqAl!g=>o17+G<3Q
z!-)C959Hwj1c1WbD8bF)SNY;|<ckyBtIW*R(xH9uVzmpf@nBUr`tih5nF2>$T{9Jy
zY8dH=4Hrfp<36|NXit6&mCu2zsBEXT8r{{kxAl0Ww!7767yXxw(*#XwEd6L}S9@n<
zh5ccr6eeLP?dpCZPXHkuORo}a99|~a?!`rmb;{PGlLe(il~A;Sqz?=pd9H8dVY7UN
z8Ct2q(cU2$$sfy_8x78rP}P-1C1IwZd@VOiQ9idzpg{V%jV#WB?Ggv33gV!0-|Ebg
z^4;}HnRm#X*_|C-k8O*fZmB5u0G28^fuMgkOSN|v$V6i)M<QL4`mqcGu9A~Z5Ud<t
zAy}<K*~CU!nRGIgcX81`on7c})zCv`s6vBjIOnPL7uKU3!5t4wcfGZy*3<E@G_DaC
zZ(#83MojWNhgUs7k|osMKS0v_O(?mnW84EB?P$D00J+dA^^`a-2-b~Qe@&Qi_=X2&
z(g!t}Rd8|pK!c4~Yla>%LvwY+%6sab3y97vx#JN_GbaEu4Y3@M8UGV-@Zi+n5I!9K
z+yftJLcD+AqwN*|J}|d55IKA-A?;l!oH&>sILVEHp9JkGzOM0lO+~Ob$MH_`&<wAe
zaeLpm1j+4}xZ;SF_AH|h&={$^x3?1o6Iy#vtlIcv{J2GkZ0`!wO`J}oFMpdr<nVtJ
zh<2lrvWw@el;&nLbC(mfdDHf;w<I%vI#6^6>wBOmv}hfK#{U9LJcRij!ivM+_`}K_
zoBv*hRh0|lthxq?@y!ode@|d>_>MoYcAA+@?+?UUm>5{MgjWARNOAa{KcpJX%pE^&
zNNG$<V`Yjke?n@j@G7Y$aE)E<k<)^^!?h#=0tAx^L0j<CN8citIQ$F2r0JuU<0z--
z;?aR^w%YI>Zbsm)`cu;;Y8E2*pS4tEvDse$h&;UM`-BdMBpAFlAI~l~v*%cq+2RT<
zd3>(!W_Fge5>iarK0nE@Fm2LsW_Tyf$@w^2-{yG^8Jx7{Y}F<^b*PLkuV{-4hs3@3
zpgSaVV!53S0ZsoCVKL6Ec6YS*B-*0=Cr*k(4kx8~0W=TtP50-N7vPUPb8$%AaT{y%
zv%RGFd3iV*jAo@Ohq2}t@b^?D`&G|y!p4t*l)Z-vj81NG-oh%4twjPrV|3ujUA-QZ
znS29y>udE+@`6ZkXB@G$MQr>BKF3mf_~pc&*&lE{I23U`_TzQoUdWnfW-S<K5c_rR
zuz<RuhhJPUn)(8o<mn+f8QBvVGsiM!j#t!9RBRus*nTx*`<vzS&ZmxN%)A!P8?ah?
z>-b2IionNz!Ur86ot1O8rj%n}i>yUG7Fu4O<1D74VS(~J_+Wvvrph<z@|B0}N9$Yl
zPW@1)j6<(#3EZFDp6vf#WdVDi*Pe^?9BG`vwdR6`$fwXdm_Ck}wt3~cv9|B<VYK<{
zI2#fEWQiZjArcFA!jm6MIo^6AmV)LkHg5bD9~nGBLUnX!A|%{(wzK(%L=6tJi5d}H
zBx)3l7p}g1z%1NoW^DqBWEBkV|Lnt`dKgue&G5W|dVw<<gF@^sY}}F6W(e*Sd!u7A
zocnaj({;l|!>uE!pAUa79GzZm<}Ec7RE<(BdJylRql#K+P0DKv{UaDG+E#p$ACYT|
zh=w2k1|VTmUHGDeS4zR(_)h{+P^IPQ4;^wA%mF<y*?~NtCmy<xkl!pJueA!(cNk@>
zFf&xCgE!~=*@@ipG3+*lE26=Qct5J5zE1-YbdWk6QQr>MfU1Q*Ynk6xq7527D~fZf
z{~-6<qEwM=qkO6KpBhE3^c$WDJ2a-JZ6Ha-ho8FYHl?(vU)N~T_j}|M=h7hWREo~I
zbo_;+8~-`<r#o|SQhc2ELt}a;#itZ2CXQZK&Jag`dOMPr{AS?G8SH9F?jVmnk=_mi
zt-#Rgs>eyas>+U)iA_tMm$$I_VqI%rPXzmy9;|dSR74#Vk$9qZ_Kbfg=KTi;A}(ak
z?~zet^>p{42iew+PHYOY(6szJzEl!kKr5BR*X-eH6SH|p*J}{;Y;agg?7o8Q;4A2`
zU2W#BMGeE8qQUzwcA#Ygy|FS{#L7DvJP7~x1J6D_+ADfBptMRT`{}H!nKQ3tW+9#9
zYG(ChPU&#U#ja?^%(p^;;+daq`c%_M%~;U_6iq6s8rb%+rpf%7!>67<_sqGm{OW-n
zZ{$q7*lB6i>fxtc`;RuODjmrmS^N1-pW76jzQW8~sc*ID+N7c@@SYFoN?<<flR5Iy
zmjVPWA`bx7#Kbp1nMj<PiWZUV1@z>BsHsBvNhD<gTY2cz=udSv1FsJ}6>3AmUt98r
z%JH;NucF=l^!^Yt?Cd+WE1B*q?WxZte=7OOIYB(-Txc)GB=PAKgo0J|%&pq#bc|h1
zjg*sP>8<VUX!PA<Yyt*VWf`fYmfNCXQTRxZZ&;A8k;X@)bNDxCT#mpuGI%Z%LoCc)
z(;kO*#h=Dkz_xp+1_|nwgQVdwzsaGVH2huMl9-022Kf`F;mLwoBk7;d{#^E0!BT98
z$r|XwTy_ZiO1diycyjN-=z|}gc<}JpgNMiW9x=lmV|$N$v-P=o!$(G1pE>sI@>f%?
zY<sQdcXxax*UWB=?maRV?uZ6E{^e@8Lv%Ozdhz_ajlnhx<p2ULRO1fSRAO##j*f>`
z8BG;ID1x)6P-cW+fD877Y+~kMmB)0?Bc^cp5HZDS+L1Tc%$sldU~l38nhfWhKl9Yj
zT=*F?TpkUU$Ez~R7<>^6psO;9nP?lrx*`J>lj7RERAzvt#N4tmsI?tPKBkIB3ak)=
z%|@it+oSgHZbX=CuhG#aS}~>@3iz=iA=&M#k@lM1je1OyreCH?S)JZ`qC+(2Ktu^T
z2psR|=|Lw!ZF$Hz1u08PF68=fXy^KD!$nYX;R3U;(uyh3l=<=Es!=rdS@}xCm1+}#
zh@tInrL%t`cg|Su95ak<=DBjEXyVz2TB)Nrqpy_Ds;KWd3aRflvvnUro0RIOn`<((
zNrN`sFK%dC$p}S+gUU{`?WAIyjb(N8I17*%lGFGE4v!I%R{H=dF+LC+U%mCUeslFc
zGqm3Up>J$Go+s_(V;-O>^!~9MKX#a$1~!<SwMIw#kx1RqjuQ+QhEuZu0?K1<TCUDm
z?jdpW_73dU8*N9=Xh4HV5$GqeZw6t;;Uk3EYFq>Mm8>vJR$1Y~8th<7ZZV6Om?2k?
zNLe&k7LRJQ?TH#Urm%0c7BEh@s~#h#p=GLrUJCAMj*+NYLbM{%VMV0$2Q`+UdW~r3
zRE#(5Bd#(I)@ybAN5Vb|JAMYI+UgTY{i%M5{k;Y9Ie~!Csi;L|s`o|m`R%@0f5>?=
z$G&mi192Q_e(%vAg0<uOhGhZK2rk9ai?rlHpco=yPN1u7RXA2C*q-<szG3n+a6MtB
z2vw-gje5eSam<;Oyea|}r2-Vo?y>q$wDhv8$|_usA=2G-meKIkdRpKxJAQ&izQyH;
zY^uZDd+YC$t(|>%8$L+c@3FAFSYsHiXSgvb|LpNso@Nv2Ih-ca|0$M?NMAL&)GS#C
zv@e`Jd<I#)V86vPhHHi%L>slT#b#MG((#2&Br_##eX3=o^Oc6^h9+}$^Z4%l(F5(~
z?nv~=V`ivxpbi#NX4aGaS2JcfhS8e^6%z#u#|jp{JbSEQEmWnv8AI6vjZ#(O!}dq-
zX*SpF8o&QQ^nr+Z|KaG-kC-7t<5F4W6Ilz!vKEY-xtxD_^TeucW2?4BE4N3(jnQD^
z6!Q5AOjPIk4rkY04GLX#M}v~gvea@SBV9Rc6QxpEp@nX3{6I%{r-&)Cbe~kKcMmd{
z5AW{o>}We<;oseEtP>cPCZ%o;utB>ymM?^_bw(fyd&Qr`FYN=4IfxV2CTkIKgTs@=
zje3b2)0U2QnbT19su(S?%=|?IJ2cm<g$U8&g}(jb!^Qa86szK`fv({Hu4qjN0}I(K
z%lX$&M`G9#qXGJk97XR<-P>lhHRBEJAYpY?aA`@FTU_X@>0-wTA&bp)b0`w_Rw`J=
zh2ZcRE`;TSvs%%_3H2qT+sxwCuSBkF{nBwWRId?B*uC@QYb?yfS)DL6xueT=rHa0z
zis;g_=J>o-EZ!4IPWc=7u6<NjAxnOYHO_nU?WOKdg`DvHO?bsDSP4J52&Ie(g=Fs;
zgr*;dwAj~uqPw&E$QgvzK&wOfZa*toNQDU!uJCk`W`&chDh+J<L|=2?@k2lbk6m02
zCB>+~5J#RXi4`1viCFQol001=E2*$ZqI~eV)Zrt~=Ab-5Xz4)Ro9Uq^JFljfIlTCK
z;hd3epKtnH(^%n(ft_#U%^b>+oY?+irYn*YzNo>>;W@+Go^N`lDVnz!trnueB~#FL
zMPkI#soOy;YlF-cCabP$ZrmW08vsEbmYU+AmI|G9p_Z>zBv6Y5^HUYyp;H!ing2V$
zU5jPm0Ywc<AP-&R*N`g>$mRR1zR2Z{;<u5j843R|&46P)#wtu1{S*ZkN$o_qerICD
zp*13`EZggOH!+99uM=}Vfy)s3F3gd^`?g%)|6IdJ<+IJB^&;y#9(UeO3lz=u$DRX&
z_Lm!7q3XAdKLdD6oiV93(y_;p%~N8JlFbP$wObDewwDIAHI8?8)pVg{KySB!5bIK*
zG-9djJ9cu7AP78e3@Hs_>Ftq|9c_%rmLFEK#jsq~gi>KWSCPY4xr$Z-M$Q5=r_yp*
z%kW`pQ!*SI?rJl%Ocw}=yH+Zr<!g!Hp5jwjXv#*4Z0xSt&5G%3=M=Rnmui}0?10`Z
zHq68fzcBdzpx;@$+p{|eviT%~xV1J<maG<GeKuub$Fl1&<1WBBhPFG#X-i!5k6!x^
zO>D;z+7>Pmhd<;J9gu`pFlz{IK{yG;Ka}5EeTBh&!)sq`7+qq{zx&nHE03A$c9^02
zv?a3x=!ZW#QGVB0xvP(y#f|VQn)h!j{?O@06X^Cv8P)|GWHv8L)i%AAS!icoYN371
zwKy9|2u6{GAvIFtUV=eDG3~JUmIgCivY3;!!s~f2hyOv4Ey7jsCIU%|`6H0f-6ym}
z1B_jZL^*5lO}dwa<z0^t34ov&g=@cEJw<2d(t)GZi-jj9(mOQ-q$kXQfHrfF^J^O?
z&cWow7djKynsadCo@gQ~C5;cW54G|05Y8l+wvcm_Y@kVJvWg}#ZR?3>Q>vb=Q=kNf
zMpMvxd_d9FYjk(ol_S(vv_)SISitVO#jUYah`30v2BtWoY9ydIyg@)M!yGLPi6^7V
z7n(0On4t|f!4n0rE)T$zkkR}z{sg1}NdZwKDNaHh`Yx@VU8VsMs$?P{!k;xsjnOSY
zV0=&q&>#tm--4wEL_o_$WzB>khyO_!uESNpFmIWecbDY}kB4QIIUkV|YjjW+siYHy
zLU@vbrq{^+Nkh|*`AhRniw{!}u4_HfdI&9Bd(X(GcN!pJAFGSx_4o^<-q)$4r5B?2
z6QUfxO^8~13kB1L7J=21eQ7aepyCZL_KiMlR<8HpX30c&=2&=UG&nQfjd%xwwcHht
zD-pMW9l2eyR0FIO0-~?rO~ARI;N<XKf^&mJ&|F5#Zx`UyDuh@fbI}XC#8$i=*mEsh
z_|)bLo1?+$@m5I?&l7^779SFDNGoCoo*`IlJdi%7(A)_qu_dFH+oXvF9U3wY5oGKT
ztfSlUji{qbA$X9p=kPXXKOfgD7AKRPq=O6&`!byxeX7in?TC4H;)6a<MT#2t*BF};
ziW*x}w%5(IXGwJK)H#VAdm_iXdn0g<$ObtpjS);78ypHGu~c}g+B!7W<rb4Mw`t__
zRO1oA?OzGERT6Gl(=YBCkO72_Mtop!-*an5il5!+3I@~S1Fc2JBeZfK1Nh_J17l)-
zmKd}$=9^AJWrRo=ITsQcAu=*t=xV#LDhZdsc$C=5Aql}0w&9UI-^^ZUML>JOT=MKD
zPwuzd6Lm+!TB}8%WCy*o5h*rw+=W}Uqo)QNr|9nKkhU9vjaEXBLk6LD4=@U}tp(I+
zWe5b0mYFjU;R>IP!`O-^!ZXIgGory6@vKde{GEcUWj;c}>K_>gLF2pNR*6B^PSA14
z)etYQWGKT@S~i)Po2~o}0lMkt4DS|Q(NkM4Y*E{EI^uDe1h2eV@VzDllw;5(B^-TO
zse-nY(13v?gO0;z>W$V8Q7S27Dao<)6Ws`og(Fb-^n>_Ya?4moSLBpLJO{Txr<&L}
zO!#mpA$+PNYEk)6fO+zP!3WIjS;MD2Y;UT<7K3<>FVoW<!j9)f$W2XdC>Uv$yt-SH
zt&Y!5gBl#N34QWfJmUR*5kmu|?vXc+5-7^@u;X7laF*L3H-%{@zs_MMVHzL*s%l7C
zphZ~VLuR?RKBAXmEk_0*t68agJb=~&vM7n*hj_M21lv{)+9^?Oqn)T<AteAM@W}`q
zQ^pZY3P?vtXe37xP<lu=uW^{i$yef%rH81(zt*hH&}^MS`Jj^`ub<p3OB_y9-_g^C
zX&S;;%842$Fu3dE7(C6P$}_q3X66RLMy8yc&O4NDz7h)yS^=Qsp)HxhdEsXkRHC%7
z1pAAA6oWeXsHo4r1m{xErDbB%o1fvOPGx{#3mJkq)ER{qPtFPk;Lm0)e`rVY@OwWS
zr8MugqDZCt>5X2~?Qh6}Df0qO*ueY%725tZ^)~AL9t=DgITbja@?hYUsDkenvs*hN
zo$Uv>yWMjsWNg3;V=0}eo<QR_mKo{l!^R~=@IAO<Y~<xk>O4Z-rt1_Obk$0S>Mvyo
z<tCPKn9pr&?}>%P*13o>jHSuXk_Z@QC?ESF{FYD1FgF_v4$Fx)&j5~;-}7E<8(s9m
z@v;0>2<6Q#z4(Zw3Q1{xy`+33<69+F7eeQg&aZtdIVE$^wKW^ZvR0lyFj#Zp!SU?b
zBWWWa`CR7f6)TW;SGxFnS+cnO1JCUpnfC055NY!A{>yj2gz8=Q=wy~Z(DZ}1!-2f%
z-w!0=i4~RSw+^nj(D*I1L`}hof4#xYt=}oG4J3apP*_`%`nBRDjBNmyIzGT$0g4|5
zb2XVRlFu~UHTsAwXEFF7(g3e<*nBI9Bt`g736YG)@tXe8rH=!Cx2qlaM>=Y{fa5Mx
zoChm3MdH5O6LFx!=<RFm>^LhzDMU6WllAS0uwq6(=y$XnXToP9t?CJ`6Ne_QlcliF
ztbDc!t_80zg6$~oGK)P`Z^9K5;e})2h0)-`c!ixDQRtnEJ&@GIf1EEuTG-mG;eCyt
z^`#`iFi{MNNx!keM6-6w#s7=*<*<+QW&0LO=vzJ)wB0xyEvYiYi=)BCaz45`gD=YY
zd?xXHlAP}LXmGChkt6T4AU136PJo*etD|8|7(XTs-819Aov&@;Yfc;3b_b4}=-VEF
zROv>c9@OpXA?CnU{V3(jG~cT&Cs)YcD{il>=p<mHTPe`Z@5u=f?gAHp!$B^<HcSf(
zFnjZrkC?M-VDn8bgi~wAcyOLTKFuRU<XdSLukyIT=1znw$HJA-U}Ze=sl^(`ujpi~
zBcHZd$<AVN>!5{*D-LIQw57A$NLrks(oEIT1+@$-wf%>j36)>vzg)z3KcFH_h|6Vs
zk}y>5YCKMJgF$*$SZ%D}sJ`Tq6<ic6fXVq5Yx{4!%HhLYpB<RL|N2~;hb}f)sES)!
zsL60CqUzq;^dxE*aa|g_5W0xna8T9m&epaFlfW9=K}#PdEfw$<?R+9CYQ@c<qAq?1
zZuk@SlM+(SAXkP%2Un(Et_+&W-)|NyhabMIdf>isD{|2(!~F;xfiuh*-liS!#m^nn
zqQ`?0(Z#5oELVU?3CKp@3s-1=PVKvC=9)r#rClf7^=?mjY!Rlo%po^rL!@h=Q|T>$
zfjqD$u1Lu~2YVsCg_@r@u=|_dqO9+(#r-MmLGddkPMEFsD<$fC+OKrwIvv1zS!Pfi
zwq1bO8~YUO55M;jHjyjs3h$)e+p$vG)sD0;B$Xv{Q%IsCmr95dp<F~snh?NP6i2f0
z*Gg^VdVAVD+xM&THVU76s&c*IUn11&DABmch5Bsl)q<oe!Kg$~7?Yu89~!FZzPGQC
zUE{wCgft?gkW4AwLno~%G`7np@TrU~KHhp729YF4EytRHq5O(NS3L|oR#evG*OUGi
zNMRg4LJIp!zy-XoWajYwLmdbg4$X<q-NMACTDe8>(2K<*KV!~uw+(qSJ!f#v6aAAj
z*O@anL^GyO&R>UdJY&waxhp2-t{t1ZR{U9hZO#IGcs*nGwamQ1norL3eBt$sIoESa
z$ER&Hb2ddYHeD~AKD=vU=87@=CnDGuta#y3gqw~B=Ze?bX@=}7ID>etXyrO{j(7Xb
zf8$LN`zI3<yS6o?$v+ifp%J@MXcdZT@%*mc;be>0D}9JvtHR!&rV+buP9yG6#NJhg
zx&V^Ai=AvmMc!$>MK-1C&(+A+_ZI~DifjY>Nk5b3G!XP9Uq9HW0H2$}Ce0yV<7uKK
zCumGTrlPWP>!HqwMy6Q_$<+7^pXs4W5~T52UJz6#T?)pqy7L)+QbvUFi~RFh3_hmc
zFYy|O3#6hi|HP>1^^9_V;sLe&cnJoip$^PTS^$Iipi4&^InMo*J;x#(z*6{S^B@%r
z(1DZ>t$IRihKS=M)ArnWCO)V;Xzby-?&YBHz>|XbJTG$iWv=`d00{ikFHB%Od(mi_
znax1%`^>w&RrbAs0zgf5D1LS4hSR&_F$mq8EP(V~yKeMZ0IO?{-zv}x3b(es!Tu{;
z1`fZ<WvIc$1j}&#z<BXpmr)FS<ExR^?lU*<HbeL8E;#Q(D1!)(#N#C$d>9{eI?#+O
z+eA{|bF5oeK$`O6>H%r=LdpZ|5S>Iduv+$!3#?Xl;R~F*&`2~hNTTi+K*k#CdVuz;
z{33^!3AE+-WdO|++hRlOO2n0Wa8u*vaAMi2GYdzNw%q~_V3dO$!QmD-&!zOII6x9g
zt!${9(yJt*ID1S}o_%uwgoG0^OEEF3^6pyW>J1>r)f+g@cHK2`1QkCt2fOcY+Uhf0
z{!qHlr6a#h)fccAo|Ojr)AiZ_XgNC#EoUJi9rfM$Wwe~N^WEGjl}e8#k@Z{(du1bW
z#aN0VmakYM_2tHPFhVDvK_vWtg7-4p!S=gDtvpFhQ^e0Y2nLT7&-UUmEhztErTjx<
zb)Al-^3NVw0f5UU=va~R=ZTdZ{yVVp#%~I&q->irw0>acb&p1hyiHc3ADu61M)@~H
zzdn2U<?4x*^<(&Nc0F3dzEQT+EL(m)7vb=^`GY0T6%Y5D)2m0j&793ngV<|%1?N*I
z^U-r=qO@wPwCY>=i_h2CU0usZ^T(zyc|EK8t&~8)k~edU&S$-ihfT8zgiK-de?S)w
zrrV$1Rk~1$;{kz$qr|o^VDQoEev{WY{5deu_#*!j&1FCc>cB}U69(`hflRn<hNqlq
zi3*%2@|@eOK*SSqf|dom&GF!%+w|d%PLR0_)(8rPSJ;X20tnY3Xpge<C4zv%w<$0z
z&$&&S!YUJa`@&d!$RaCus7uzgiLBXUS+iBO1s#@3(HZr?(s5YYr~-{s2@0R9TB)db
z*^KNT<sEU7vlWBaQ>&FHN9<Pkq_0UiEi#QYaMyLV_VipzH@*X*5u4e3plN4IeZzsq
zx`vkKnx=-9+WlL%HtcEH+xSp}mn#b~E^|oa!eH;SjZceZx3$RXUM)SW$L8px9-;o*
zTq6$O<r-}VBnJZ5bLNiE+hXS2i$s#5vhf*f&7yS!O=7{;nW6R4x_@Z66y^7_&AE5G
ziWFT7yOT=Z7YiohC$t4?Mw<lVcK|dvk%a;H&saI*%LHXYK)=eX9R5iIboQL_xtq=G
zE!Zvg09yD=BxMYjz>RXwoa1fw;SQqn1@zZEl%Zj_R=!X>tH*;n%9gFADjIUMREMs7
zX@fK>4qb2c-^ugOx^kuHmomabTL)<tG}g<c9k~|t6t|0PDzGMzJKuMxN91X`S(S$l
zzRKm{@Sj{BD^;hsVkCd)QFxB656yxG?lD6fEgAsR`lvabyYrjPr3t!$4?jLpzG|#|
zRW!Uh8eIKe5edqbZ;6Dh25?@h7iev$68l+X;P4?Yp9x~wsj10`=C2XF9MTb!V8@K+
zv8DjhOa)X0^pq$#V@~(>5_gC0>FAEf-ho2Z3qj=fA}k5+)ic{8ttfVx3J76$LqHHX
zi<p*{qvC?YLfkO?L&A_l4q<4C(}HQk`9oDeQEIww7!or*6-vD3st!e}*0fq~d;>#5
z)kJ;cR+&b-CVFqeHaJ}zi3;evW40k81vR#T0R8UHKGrv~BT&U6q_wr2ZtplA!@p<n
zZ(>&dO)dn7VlD&&+F%H07Y^23d=QLWec*~9@YxDUeP}ozX|xNUZF+gl<&u|he!b>L
z$SQbh=Y^fa3!krkraG$a)hcM?H^{KW`gk|ieH0oE<~~<%qVBjH502{NR&El8Wr`>~
z4cI%8*V@$+fme;{jd6uuR3|$=PJsb0L75AF<0kU-&$$R3W^obf#3EeJn?Jsw*37E|
zPoX?rXBMru6qgN*owDTV^pPf4GW)ggdyTgUPmcy<!JYRYB5tSX6REQn*xrYYPUeIi
z?l_|1w41m5C85b-p~hQWs(OtXs&%9uEnv5*9`^Qg({UFMz5_Y5h}_bkxUJ^|Sn~-{
zz*q+%;)IX%oFI2Tkr04a2|x}@H2~(94krywM~M`&g3V@Vivz&3=Jds$4A!ZFgzroM
zisCgI0Jk1u?vrs+#9g@r9C}$oMKH9hiKN`?1SE&m1f-QnS2}CBb?6Mz4Fx3cHA6KD
zlF{<z=5%ko^^A$|oU!nnXmHML=v&IOck}Qh<>^!PPaHm}u4!g@82B#^#}h{rQJRCw
z`nGqSu{E)$uZtC+M7%%o5$y8<IA^So(AF;|h@G&*Cg4mn<fB+j3b9Rzz<!Nj=Wq|f
zz7a1AnO3sgELnkl-Pst%5qU&3c1(5#PL!K7yuofx6*S*ni6`*r1lq-v#)p3q4$Tbr
zH#HLVcC%a`a`#XWyR~~jRlsoX<$3Gzh#f}`bsCD^-X{39aM?t-VoWQEedn`Fk$R_5
zyB;Tj0#yf&yC}ZI6L`Q1kS!;5t;#Kd{)%wtutNjtta&3f&pwEJ9f5kNKhmJl{Tg$+
z*Y_~T6YJ&+)G09V=9KRk#r6)wJEeTv`Q|lhYistb5M>S1jAM%AX@%9c8sb7?k{4<$
zq}3to&V<zdCV|c2egfOhYGI&M{&I+`=_p7&9xM?+cU!xDVoMeE@`d&X9&E|^_0e`q
z{)BdR+_@AoA(3>8YKEHXEpnpNwvNFzuL(DD5LPMr2C)RAgH+c3jU8KL?cYGupTv)8
zAxFQ#Z;1lV@!L1od5yz^#Kc#G+;MN;AVqhRr1}H5wtchW^3I9XTgUL<?5*6snX$~A
zaaS~BntT5yx@@zVv*p${aH7+zM(2!8uYNsi>8<YIC~NvV9(m_ukLlJLAR!MMNA%1t
z&E`&VoYL_TM_R<K(ne6|!$%9zYE)#~zwC-aO7aWW^RHv>@2b<3nghoh>w!ta4vc|W
zNMsZip(lP?xU|z`<R@I(CyNB=5!9>iass+T>48{JK|!|CsE!r;(DygG!d@qTT~
zJS-|3UNO{&8kbaW9Ck<bru5m(qnln`@LHCMs+OT<-C{3%s_8=0@WzQ5OUGs`joz$X
z$S7Vw*LrS(1)xQFXjq{18yyQ|fiedd91n}jig#AtZN(?tqEJFfTfY7K8|$rI3d31G
zpOw3mDpt-|1_^%?EB^1fOdQT}nYLllSf<2Yarf#VuN;L+L+i9<xs@7+@3pm1@u}Kc
zG{MEq^)S9m0R98<+~d%Gix)V2{FWf=gl!V<|BFCY<bO~yYLGo}Tt<3XIqHa67yRmV
z#jku29@{`7NFAcD-C*{A3;q|i&ZpiJ`aai)!&6+Nof7*?myB2MF-!N-+NBe##w@C}
zoLH!NwM~jbEK+pN3UkKF%iv43Isv>R(^q3D@BZ$yvMaPzu)Kz}e-Zj&Ib&=XTMj~D
z(c)?%llC78T@J&9uCFJ-u_zQk&Csgb2In!XoX*|-!KwTUv>e`XuX5=#5G}Yom}|kz
zDy;$!fWXvY>UApr-SP_vm~nH=24x58sQdMT`~hLe;d#PvwZKpzCs9^w>p<;fakW{z
zY@nIp-sBszp=pUCkxsFS>8b*cZXVE)Eu7ixN~D9%X|%RCV9di;s*=R-;~y@64<91;
zlwxXwB_3}G1LKEy?O)?-Q?r3LBV0ZDh#B4x4Q{v%r;z_rYATm)2KwxcY7QVJyxk6<
zV^kA82Nu{i4gFTx-_<Kf1GRJD>P<)w|IW4KaEU;%ihiMK+KP*f0}a}u+KcH^9q0BN
zf-9ug`HE6XmHX_+2|YwYD$lNl8Vzl2A{BH9TFE7uRb+gI8cHJm5x}Au94-@HC|XP;
z(mQ>svKj*SZ&u|-M}I8B9q14DQ~Kz5aPePkRSNU2mlqO&E`^}u@H+&Z-&Untlk?BN
za@9h+^TFq*O*C}1F}Ij;xNR&oXKkAcaxG|UiO9>WFek4k0%#fm%HgX7s3ps$&mXz}
zS;R(3M~z20SY^)e*6W)!5uP^|o)-<ylMGN<8Nfymg2c$h_@FanjR9J$4mO7MO(~1w
z=8fQE@4P<_j7J`_l;FOzb|)cca=sk?kn^>YkZGS;vqTbdXLM$@8D1I<E`6`Cb3d-M
z_0awvG^cZs7(95`Ea?;H6Cp$v0mR`?Gzv?w-$cp$PRmF=Jq0>wi9L>6bgEb(yskWa
zV}%??s&1qvs>*N6NM#*afhw+$cRiJ(Sj8=?TYPf}#0J0~;46I%AWZIBxobaqEUjEF
z1&1h?LheLQy7o>T<LaUD>B~mpMBVUe!)w*%MwBevt!bN6hCAMwGQ&@K-{u%pPTVL-
z-`GBtye%XgIZP0amVOe>ADnY>J({_a_+9GyNYS$pB3iG}Ygu_u?YOYRH;bCMCG^b~
z@j+*AQ#)e(n4eRnz;V08KgD+3s12$VKlj_zaiR*fH7y3PW%)$rQVYBEk02Md^mY+h
z;RIDU$<vhC;)@Aob}_-v;jan)2EYlfn1Y4lm5pY>4y%f((*o&{;d@?AefjYCng`5f
z2hBwfnxTg@L=JlcjdW3?T%#xP?)qBj&~|u><I+L}PNgR*y;7^;u4(0Vp0(yCbs`X*
zb#wR-l18j&pG)i4(kr#3ku;~SkvO{t5sNBES@JcGPK(L-w8(SJaZY7RChZ**x6{rk
zeu@T1>b;zVO}!Fxe}?ES;PWPB0ap@;O0U$CKs@bdfFxQ;bbGr%G&`yz{W`u6XX8L5
ze;nskfp^UNuu_smcOygW8O#OuGUjto0?k;!KNn)~OEjKFY~=85V&kh48x>P^`V!gg
zh^~`AIDr8N1|NBGO|)vGId9XeeXl)YZrKyvchC$yh}IVwVbO-@&D{L+nb$(u<M~Uk
zhL*lrGIye6(OAi%@g=**N_L+Qzfn{^)O0@6+A|oQ`C?ym>AhxU%{SJ3bEa8$AbPOX
z%sJ%j9=wTUj(p_}&RrJGSQek*p%Ve7Eg2FiRwn`t-Sz!&$7D+BrLHE9{uI9o95!j-
zsv;Ms%7#N^xDNPQPfEsL${2MJO(Q8QW7jXM$kqo%Pi0jgKqH-0r~9xt+vLB4;FJy!
zq~qy{jE-R`PEi055=)t>PREX6?YvDd`lwp-Q-uS-a;NBj41$>x{~e8Bs+=NoRtBlf
zoO?9N5&O6KvP;+*EPJe6_tkjsR2#a2#?F$I1Rwt>KlO9)qq{y{ILE=EJ8PScUBwKN
z99=x*{CqXx6Y--yF1y${QJW`aBt8y-0ubMy;9rOWhvtemUb){a-hyUevo;Pik7IX!
z-YRq68h)&ptXw+U`obB0o`0=!mH1cCrr19b0eIZT+iVug@TWxNIDew#?y-`)$Je)v
zm9!{wyjFSF`JC~L`Oa3}<L2~bX3laiC2pRWanIO{d!o4;qZu3HDUqsxeJFAC1kUJ`
zXw#8i_}QTz)&7em^c9_HSZGlxx&k{?remRR3kzvcX_X9tWV=`HmVQu_^p(x%s07$2
z6O{8!GwvaK-AE+JII$9q65AuEMHQ8mCm0Fj@|%(wNeqzD+OxU-9A<O<t?+<?1!h5|
zr3a`IiEJ%0d=%Zj9y1q-5KFC0tyc#Cqf-ZeQRrh{*Qo;fPrzR!f$Q!&yA9nTrQ?*<
z0k%c}8R+{hCs)H$`el-lLwY1LoE5dSW+Nmp(%W(b-?n_H{Cdk_>-&zB^Q1)0BV;)&
zAY|_b6yQ@@u+?0!9c@ZQGOeozZFI(Zv)B#SH?vT8%j&eGLzK`I5WN+Ts(6k4z);<v
z>aHsN|Ficl@NpgG*|=m&wl2QPmTXJD-(@?tBul>J;$*d2UE<ZQtd(Rt1QtbF+e&1~
zJ(80+gy4i*(m*kUf@!#zLW@(<*8HI#p`{Q?FMR!4x?-JLSxoB!?bplKHmzw(OE2H^
z%*>fH=j=JFH6_H~|HuB4$46)8%sKPUJMX;n&O7h;6UN$%Z@-1#ZW~n_FKy0L?oXHO
z&tp@N9?Opw4;P&-e)FtHXH6`24v%qEXUcq|`E{Q%`kb0vIu?jPU-4Pi9A}Sjg2Ce|
zH1p{T$q+^uHS{((fwqrWCm+IDOZF1b9P7iNbauVinbnc#Nw#<Ob{`J)Mv?=O-b7bC
z#w}WMf0p1DA&-TEq_$=W-w6?pW&X%SKRhJcQpZNdQs&M%)>d>u*#ozdPY4a9bvF{v
z7ELd$yU?6oy5(&5%azM9!Mwckz|@ihnX1r}a|P#^G4T&)DpooA_{()$-*tPs<hF~)
zfA!>ZCvhR$%9Mh9zhIwhxG<%lqmMW(g;vDQYHQY`#bXtQ>~nOK5|KK~m8w-*Qz9B|
zD@J>$#wEt?>A8kVtb_Yt1fPx8)$J)-*JmZ$|G=%|vt+BgHD9CEg^~D=(KnRSOSXJu
zA~MGAJ)Er^P8}PBF+k)QL>?Z<s}g%t$Fd8Ibo_0If!slM2b-9%pG`a>n)qr}&ABtr
z?0UW?&45)euigIM{hzD8bSBdn!kKIvcfI#@pX-0&woFS0hF)&Gm&cjQSUdM#fP-<9
z+2)(s<~<jW{%Z2M<O>g6IS`*Z5Kr&u!M)tBiqDYEf8NvlMgtk@sKXTIoGe#a#5{*3
zi=Q*s(sSaVvoU9~`MBH8V{3$~EGI1L2riW<B1F?d6gXT8vA#%|CUtgeF20{9u9^um
z`JOc48H>=$mX*u8R~=(*ZDYErHB%dgq2jxqR!moKeSTBAp*6ED?24Z-U762zOA?E|
zdn@W~_T5*b@r<MQN*^tCWUNcu*L_pm?ey=7PK-Z4ZC~p5{tWc!T*Ge(^F#S_`7Ke$
z4>)iSI=+sh;5=jK`0jy_nmcwu<7hWiZ?CVAI=Yw}J34}ATKtw^_1u{j7p9Z%B~uX&
zlBqt9DpMy{aSoh=dWEj-_-KoH@Wqvx4SQZFp&#AM)8F`1O<e2S#`G6!r(14)p)0eX
z-K%TcK2SF@>wTMtQw@P)h#7-_XPosqdChq*k2Z7SV>z)naz&L9jl+r2h34Z=%xgh*
z`EzmlQrBJ1Yc=oNDKH7?Ik6w7i+Qacztp_e;cB0+ndE|q_&NNm=e0iX7lxo!xz89p
zpF6KrJfAYTUd(G3%6aYEK^!@+4a%wKwPH5=4)%q>+3Z`H`c6Wg*(_GfgdG#T@djtK
z``LR4!|Xl33sSgdv@7m<adBn^By!Ewb$0<Tm#n_Jt>Mz*PuGh-woGr|D=xO?PG!@G
z99g|HPdt%pHCwOL?4PRHfBE*oshUCEx2AU??p^KWvK@Ldn_knHS<#ePu-nta@QN#S
z2d3%{q!-?qF1s^#I*ZPve|kDQ%hSc24uWV1`U&IiEZ@6%L)-Z&f5ttn@)`FWc82=I
zpQ#SI*x5H~1%x_l==u4d2YHNVY}@NZ#&HqQ@|9Y^dG&-`l$|3db}*Qzp<Wzf#Tm2w
zyZzKe7XDo-F^au3V?$>Q1<yN&zJnY`c$^&fQ}|%a^s42C@)%Bk#D=Dwm`yKRf1&Z2
z$LQ-tRY0F6@uY1ec|LM!duGRh-!4tJ4`l9wT7Se*@uuh1UYWOcYTnul+pnzOJ+*#!
zx+QX@<=|Ay!E|LbT@uZ+E^6gt4m~e0q+}j9m%Q<o-sHb)ceq#_)$5MC<kPT1UjA@#
zmmGg)&2q&>BJPqt{=om+?4=vSJ6}s<hwp;pE*+=Y-O(`g+YM>!tH36pVPH=(PdpF;
z)1y@gJNrkpg!GTJg#BI<vY4D;OY`l7LCYFE!^2P1jfrfTeHG-T-%4gC{4|;Qvx1qw
zYwvgxGSM)-!@PGVjx4x{1IjQTu?>9F^Xjh5TQ@at-GxKnn78@6E1NDQue97fh5uIG
z{bcvcD>gs7=E=Ju3YS!$8~AYlg*!8=c3-+DQ+3yq;j8mjo=;q!w{CjbiYGg-R@a`t
z^GaRAR9(X#S2vz3o?f*4gA3og@IuAK#*fc`Y0*yj=hrk{TT=IA{MwT0C%f{?%Gb~e
zRqe7Px3`9cD1u+oF7&<tqm%Fp7?LteD~%ol)7@+-!YA2M%3*Kuy3FDY*w;f5voBMw
zBDhe*+?uK0>|R8ztj@om=O>bbGT=3n9PYh6<eLJdMl*Rz=v8j1VYPu#d?H!J$V7xs
z2X%M%rkn!0`_4;it~9n!;lGvbuT^*diE5;WFPCa044~!$Re*vdTsRJpH|`|dMR4Sh
zR{=W2WWw(l3ea+H=v)BvmAW{nF6^z{!t5bdiEMY`&ux04GSk%d+o^Q)-b_1=z<I+@
z6rjQaPu|Q5P>#=_!E#EVSz+)FB1j6Zi@12rYUiIFgib=h-ogaa2wx8pV=kXbv6=l6
zoF=iM=!ei+;BatpO=iRX7jDf|wg3NAYw`0)vUL~hASjLXG0|R8lHQRGoa%9PLoRL%
zFp=<=0XmA|W)$GM_!Aw)7Uj;0^G!3m@!ObTXew5m?cWFRQ9X_@jqvwDebxzb#UX+L
zC}!xhc~p;Awa;RzrhllAG|_Jio_HIEPs1E)_`Dg@apjCNT;#XD0+!IWl^hd2jqyGv
zLdUnw&qS$=@pET-n`2;gS#qQ?-si2tFsUck&NIeT*}XdJV~8*JHN-PivE0u7i+ai|
zT+>V!nSZBVEL_vHs4~3Ls4h}y@h1h>J!DQoIi~j$KZA5w5f>~ycj)O6gv!(oGGapP
zXfpDwX>KKk)-1=C%L})Eqip-NnpGb>`QDS4H@8pKv}?PdZF67o$;ibmpNL(GW)_4z
z2Ep@tKX%85?np1JPnXr_&Tvh>(=*&L58oLaX7HV14ZPV5?m?z?ZGiXVTVYzSw0mJe
zrgg^B7C(m@XEd$*nBxr&-sGC<2N}!j7f7=@z1OmJLAl%}_2<dj9+SFY{EJNZWkMcn
zI#xAL$#pGh<G%q1v3uDO2y568z5sf;%;~jvyfB!lg&}>})%AA(FPE&jy0iJxp-+#9
zKekWr*e5RPMNjF<RNSotJfsn=p?X)QqCx0jc0Z}VQgg>t%^jETa$C@Mv>?92<+6Ii
zg5H!_u{*P%+0$WA>Xo|Isk+wm!f?7QoZDy6JM<6LlCt`HxCmHIHN2Cw%ZlL!W=Lwf
ztZ=g@OBFw79o)F5jf8q_yyVdm&*EzR4_lJqd9Hnp!P9VraNI&2?`XlfSwBs$J2g2t
zJUBUMfw79<fG!M_e@-rw3p|vjg8dw(Q;`5DUTt4QyA*D(FanB-<5oRhFmEKA5%!bK
zPUEexq0@*Z6~wF6^{_KyGHEY^f)B7U$e20K%QT6Ns^RIfO36zvFIaSLB@StRLuL)n
z)`({IU`g|Chh4B^ejXxNt@z&TeDT?T!XmR{S@((x?FV+#x)|giW?&HE93>dUUfwfH
zx{oa2#~Z^;Aasy79(H&`uAy9Afwi>VT+nkf2aKL_#qM*Zmqs%U(#^uf9SHC*7veq_
zd0|JUxg)cn)6E{(akna$J=iDgpJtD9xDy~jj8Ruh5XuTeia2|rjrFr)dwIgR=OaA~
z*<$v2u83iOtgs?t%FRX#kDok+fPMFkjADZ#=5L}`|1%rS*)?98oyUb&yM43sP8olR
zd0ti>bJ^o9(YNuAv+)T1Y`j)bNp);_Uh>t|w`Epi;HZOZ)4Tf5-JY4h7O}?XW!ATR
z?sWQ&zRceKOvQj<1~QK6^A+SfJj#!u<`{z9@vFB<jMzJDO7Zg%>CT2VXQ9)%=hG+<
z=~@XEUIbf}NOztpup~dhU0gI)X(-^j*`J^%45C_le^@m2xvQf1WIcMf(cXzkYh>)W
z?BnH<UBp(T@8#?0LKjzOZc2v1N~?>D0(<%>nT2pKndR-M29yns0@C3Tqrl~Dy_xDn
z&Ol(Sq3+1+5S#Ga0|C$SpaZ!r3l_Agp8itVDjY7Sj^}WeS$AAn-#oRxIbDf^JzMgu
zuHKJtG`qd-;0CuDJeX%~Rqtgm9qBY@VGvg_B#ongRJTqHok$Iz9!*)%@#E;#3pqGD
zD~cSUaaTIMsU6)Dd?GnI9vmfhoGn3kfGwfCmzV9zENiqEu<y#0tI(W6&~DElKt#nY
zW>>94x4x-J=Vo+DL`^y_wWUC&<-x>LV^&fUZ-Ng5+P!!{oh85^A7U7;fHqts^cus3
z*B+;YXNeO|V-*IUn~HpHcX}83^gdgjs#aoc45p%e6s4phHr)nCbvaEU63!SzT)scE
z{5IGG1ra?S^oUS`AW=I_9&`?RG)HYcSAK)1`}%ZMR7L)rd9=}0sm6+*X`Gv6`Qn%3
zcCJqAa`WADYADvDuspU{b=t~8817-xig1>++JTp=Vb;ZG=WokYZ^=|_btn{cT$gqd
zzZXTB0?wdNF^4o`_hykjnA-oE0qvZ*5RQEI(5H&iW<?q0iEo`jUFv6NE2)gw_q6H8
z9YNqx)}8PU)_t2(_m)ig9x>g7W^r2v@jNQl`q$i-H<k)j;?W{*Wq7!FqJ$z?Z);fU
zcu;APU*vPoppQX0vAMy}>NMqyds_R`+-B^5b>?uK-FY@Z6!}^G9xb|GJ01$w6mSfV
z{l2+<k10Dg%XX<3EvAMad+)?t>(8hbxJMqr$=0`-@Erj5HI+}CK6Pr`n#7(6@`<&L
zt>?6?XI}UgrV`%8w*8=J+v)1n7lzZ-+rF{1?b6&ACesaJxldy0mdw)nC(Eyj?MrH>
zgvkQ?GxJwrK6v=q$6P`}Y?*kaXm)9&_)__mhPJ7Ow&{lb^5T`*#SQJn*BbU-X=t5l
zXq~n%c)zXqmD1U}BE|C2Jd*k`e6`tyG{g8a$A3#l@N=1yLdY+|P-sY;(*_++$IG#b
zL2Qqw$rEe@!iU%hKH+iNGUX~<FK6U85*`PIN(&6S*N=!ud7acE{_Y%;qBjt3%ni-x
zuX@9uw(A7O0eG~Os<)xoYc&rR8O+)8H&qV~(1S_F<2dG6!5x!~3abfcqEjQo!pYI;
zXu|qU*Dxf7=q8pESMzObb;1R<`dQEhL(1Z1&n#E&Meast)RBwBBBYw0V^7zty;8Gz
zs%G=^HB&XaVD_$F`^@W~tgsC;_hi;IV9mcG(-h8Vef)CSDi~(wFFRk67V&EeoPLku
z^L+c5G5PiiVC+CL;;}jdly1O4fh&8I-^#YrqlEJobfK4Xg`x@~X#FR6o@a9p>Tc-u
z`0_}@C)p%~UuKi2xEafLWtKxLml{zdQ;uM5BCgl@-JdK?Z{C|(D^Bt<c56C15#FzV
z)N}a%^}7KkDGjoT5#O;@V0?G9BR!qP_+Da{DhZVn_C7qC8nhfzk)y2)9#V0G94>Va
z^iQ+;gwL`1oA45)<g{nX?P!Uaidz3M-u@*1tF@a)@rPMgEt-p*ntAJQ^m#pQ8yXKj
zPyQT+!Wdl?ESN>CAUZ`nJT!WGI5jMfx{}?M;SjAk05>7tO+pZUorF-Xe+!mAeFAG!
zoG$BdWl((fKK+JF#Y%@J`HpSVdhuCQ!K91P=Ek6<sbyHQ3~C822VKmEB8E=m7(}!g
zgF21m91(LShc;ZkXgwqLIio8HL3o9#gj@AM(qmvxs{-W9mW(h?V4#}u9uk!B6%tfM
zF~f3S|I;Ty(#lPl$}I>?L(+yb<!!Qq9e#i6eA_b*WGdF1#9esy;7zXzxXrnp;}gO<
zNEJZuJ2!6zY@~B+3MWv43>9~hA<!HugYrern(F&VWWxU>k=4Ny%eG~f?XYbME~of(
zou5s?bKD1ntNx*6DZ$R-!sK3qPqn<t;nN>_FbMA1;`B$^oiV%V9+6s>I)dUi$*~9$
zQ<Q~aVQ^@2M4qL>5x})$-!lY!fJ7vuNklt5+?r>X+lGa`neu&VjqO|?W5*T{9?l#G
zG!?%TL`7pyNnw;VB&MF#829wZG2_5{1N%hmnTpW{kRv{A!1FVQPFq%LOzidLpQln|
z!?sTBFtev2KE#F~Twz1>f>;=gmexMgi3q;xAIb}(IpBnSN2a<Sr-H4@Y?n4lZS9%2
z;>x@=Q}fnbSaoGx^VB+*;ZgG}-l1FP4@B!cIt$w?w&Fu-eCD13`+3H;;i=i`DOO7S
zbW55~X^H&ilCg!39CubL?Q!o3Y6b|>0%>1qm*`kTbi0-sI<MB3A?>+VQ5v)8hLPRq
zT0`$}0*qmyT%1n}K|Vm!T2a=$d(%HFH06UF1;p5JC$H!mV(lhqdkZ!avpZ(zVwIfl
zu(*TYS_tuF2r~|j6lS)I$VbTlgg+$%3?da9_vbD+x9*8YuP$!NEN*^s&ei!F)0+-v
z=0~5JHC?{wT<E7)UR}H^v$#>E+?|<!@TplaKVM$nl3B1PUA9MV@IL(E)P?qEPkK)D
zTYR=#jx0B|%yaK9G}@#$b#icI4Bd*hLJ=X;6oiM^GQvqGu)}?v^d|g0>8+GsL+OcT
z%DZjBcl48`7mj~ofybiiKCc$7tAASY>A@{?=rD!}<%oqPe(W@L+^!r&(R3s6s=&7d
za`ia20wLl+&*<P#>Li2^B9b&oWmqz$Mbc#F<1|T?&gcVWV&3kKJK*8Z?6$&RY5gL|
z`p+cmcGO=f)jgT=Lz<o!=3ji+6@T9}9QrckYcV4et_(_lwh*8tW$+)2tSK!BoSt7Q
zdcGtwX2T<6Fzk;FnM#aD?q4Ju68@d^QY#~iH)a-ZR`X)VrFGyO`SAYCTJOPG&c+*j
zk^bpT3uCxtGNG?*)+6bEKRl7twYNI_B91~giFbHp@`UD4>p9e3iA+H_tCxiRB@)Kz
zy&iV7o@X*)HvG8k?rYNRV5U6k@LM^C$=b|zvHQfByE>GEgw{V&k^jF6b5{|d$zY?l
z)WoDUe#V}z4zuP?rTGzhfcO>Gm{7qQZ$y&nSx!u)*FC+<nLL<Xssy?1->WX1-17mW
zvT9at3ZjL_oe_D00_Yc5ONRp9X1~N_!XgsE5HE(Vf9~jog_o9RDsJ_s#Z4n#+<Q3<
zI$<(8EPI6#Cq?*XZ-?;6k<XGagc=gYM~;{wUtSLn(QTQH-gCkIdxPeeAOGUCx3@s$
z7J&pxtR8k0&jh{165Yq6XOZ>Mhm<4kuaQiIRU}gr($I<KZ_Lc!j01S7U>lw3!<#P5
zc@`^x#`@NDrB<8FE~Q27*HPdHp@8O5qf49--tY`5g&I9Oj~Z=0<*3o61*p*s8p=p>
zjv}p}*ILIMLy^|OKA}jL7>cw|ISeL6ThIaM^kmA8W0<Q^@8B3v=rd5Q8I)4C>JeV~
zsn&Dl0Q)gCVYVVQc3i#GSH(si(e%3YUtsGKHnR1HMC)rEdrxNZKBY<bW#;!AI`;0&
z;ue*X$jtBa)v?dt|NN#)b3P4rfupvbhdJ!xD|OBacJY~O8J18(Wt0}MSHZH-G-Epj
zs@tN=6`*ea21!q7Ch2q4?fy*pfE=!0cfS6U{TKIs0(Qn`la#Nay1jcw`t;=J-L}&0
z5a^R6!3^WuZ!!<zHj>F0-v%<}hc$gJy#7+B2+CtKnmN|{a@uR5K8vZh(fg$u=n)#v
zmCyl@^z|g<m<eHkb!h3)4n2e6mq|rJh*Y!(!>yUc+muq>kty%g)C9NPn%U$%5!4wB
zA&T@*OZwMFsc!TzqAy9^+VzVd1GH<0bcJZwUnKzvoknk6Y!I+7Q{Jx$c;P7g;O@^f
zh?Bkz;pdR>$E010wGR&;xi#$U!XfvdW$2o0XFXK>4k<v0lLDKNq_l0l81iJ&6)Mr}
zf~Ibu)u&g>79iFQjc%4ZFl)VAGXVnAxyew7?)^2AgwRit>~KiptP(<Yr#J0;VQZ!$
z?1*lYGB=HI5_@a%QcY;#qW37l1Eb_jTKNAWi3qPFiIi)D*>5^C<z1@Zq-(c7-+$@W
z%q<ANc&9_H>6zka{P@*y;UntlR!S9zbqR~oL)6xCwDI31G4g8Tf5;q!`$#TZ8{e9l
zzfEc5j#p?hzY)_{z$^!gnuZT&+0i*7jBm#gVf<Dzq^+MMQB}772zf{N!FD9ut=PV8
zM6xx%Mfd(6f2$eRtF8&GR7gWs=iu1zC|y%M4j;;|SJ<twW-;PCVMs{IHAqM`mzn|{
zEW#*>v0KUmW39rlT&cB+OvN^n(Xq(1{H9;s6r3Pw2L>=ChI2xRAQ}QF9d~RQNOX)C
zZn9k_*$5LP+kQ#5nw8I-I2(7bwu?|+jF957+!u5J{LSGdCN^|y;(0`fhk)2s=oysq
z5b+9$NO*)qR4eSYYoFc9t%ID$hce}@QqT&2a=kau)|jU&S6`{zI90hZU9$0}=Rr3a
zy9XcE-P!T$K$jM4z@AkPH}7RhHp1f|+jXTF8;c$;s-55a4CY`P%^vHXgZU2TPk4o{
zV_7z4wVy^V{#;Rjot*aKh_Q{vcm2=t_VBL%!SBtzo~KDBC7^Qnur`B0w(;5V?<hZM
z%S)phdu@^5A~6Y1k_YcZZJ;7*FONm5GmF-q?GnuBI1~+><7!-2X0;6b=y2mwI4$Ji
z!yo_fA#69g>zac{yET5&LrpN>6>3L0I>4WhMuIPc#NjpOAe<u=Z5^Nv&b3Mhh-b=s
zWKTZ&;nMTRo}Hhm*lhBow#eNi<F0$a2u)(s(|xd#aUl+5dbh8tBt{UNS3Zc`!8;hf
zO;Qm)Xpm~b#>|4vUPmo4bog}Nv$0$r<FtqWUoS*m;@hDv@q0~mNgM#FnZ>EI_2<a{
zQGBg6fPR+yZuVdC?mPjg{XN9^l=vBvB=??SHr4rf!c)K@x`r2t_MtWIX~U^;Ps<(S
zv?bJ8{#>Um-9Y@&M@#&?fF3RNyL*gAT1Y$hstfIPr%t7Yd&eJ|u%=-ifpt}P!|WUm
zwU(8|xv!_khUm6?pK?+W*T)7&Msb*h+<?i-Q0K!>#<KX|xMLAMPA+^H$!cb-_Rr2=
z^7IjO-Fa0{cb<*d9=_7iSNJ197u@p<S0FZhBC7m#f4l!{w`L*(nTo?k$DUX9p6FB2
z^P4`l{X^R?JaT2r-l;8nU#PvZziVoLSGp3XwcVY|Pp_f6ExfFC7XaN=6Ih)i6O-5)
zH+T}g|Gi+*Tp=lXKicHM!O`H(|F<MN;nPOvpMOhc{w^ga9S3S|Uj&IW6&nn4I;Ln}
zIeByFi*6<kSwkmACR0N^Sp}|yD}<R)lGseju@uTJqf#HrmJFg4V-$xRDsq_l6;hS(
z|B<R{!d|&CQ@L3=Xd3H^plb6ougg@dGpV}pJ-0rElcB5g@Z!xuTDRv~>*)y|Y5=M(
z5L8uv=O<-3<1UEj0_piZ(v$E7(o>oFO;yP4z=lI=HhG5grSG}(sXNmpwKqLMm(Uig
zJA9Y*Q?b)0?bBFAk1oSBTHX!PeZEg>5nd#<lsdk!`ss(yb_%_5Po{jYp2VEr_Y5qK
zn@r|g@}2`v9q>IST?@jSgZbRSM?omeqr>AkFUdtPj6-9mPs;m2B>MqLM)*CFOwFE+
zZ6q=dfIZOoMX9|~SvOTV!)D@}k!n5T52dWc_-Sj1-L^_}TjO5-u1hym=lQ_y`=6vP
z;p?RCt#WK%x;e9SE8I{yt#*@_{-<7>&Xvm5Q<aExvHGU(z=nYgmYwd@$#Lrp<ly0v
z;mH#&z69}3rcUalAl96P#UYFElEIocWDom)hj#9;0XQEv6&)FS0G5fwsZ?qh{JBi>
zrzgRmNuN`ui?48w5JcTlQkQU*)Kw$(f=!tPTh!#ou@zJQ@tOR*=Z>ck8sz4;IJ#Yy
zL&Jlo;LV>3kB$#LK<^jn(hm}^79<Wx_op;eP%$*Ez*N(}+(7!5lm3M7kp61B#o7az
zwTRZWO2`IhQB|1Snlsg22cwNwDz{Bl;uyMZH@$H1oTLao7Mv~Qf;AUp@N8<GPx27{
zn&io~tT}!~g>a{7S);-#=E(2Ig=;xO+sj-Btl^lvJO`{9;Xn+}65HN3TkoU_JYmaw
zfSR0ru5l?tZD+;?PmT=r!1)!158<*k$2x?0hjo$@AmJ`6OhsaIDUUv~UFMe#C5Pq1
z;;_logxF{$4os`gO~~u9Y%OGy5dMKpqPA32)ufkg&s6QW+<YiqbqGhLHQzb4vf;P;
z(+888$Qz+c83AI17J;4NnTqX>*7b6oI3De;^bRooU6PNr;Q=i~R|L^qF;8<D<kpTn
z*wm+<#d(Cf6mvVi*Yn%Zq_7F7eQ->$Wzu%?E)|hk<W99qB)B6^Jw6gkNFBnzkvjGG
zST&6|hWK;+=Me?X*pOx}<?7EhD}BjRX=m4>i$~=lfI-Ln85?B{qS+^N7lS-D(dHP(
z{F#nx-edlJ5A+&FEC$9ArS-(^i`jP~Wt|*k42enXFyQuR!MtbiT0iEs9zlXKuw*MI
zQezY22z10_Q?VO&QkFHL%CZD6S9$Kb85#PQn4)TvOEueyP=r&9CzALVZADJrnyIS4
z+;}iubr77qbN|$eZC^Z{h9Tw7!}k6y)9v$h>GcRw-IBx09qAo+T-nh!wWIAThtfMb
z(j^^|t;sR=kKaV9U*8F?a!Db_Ql_Prh;XqOJ9m*+{v4Ke@c|BkgRGkEI_^=Ihx62#
zTH;F8Hn=w%F=Y)d;W_DLh??lE3^-EKxu^GtJvs+R!l`<`x!iD)EVuU}!40w$GH;$;
z6C4^j+wb&t*z6YAd7OVmP%QA5*m<fai`^q*P?f}p9zQ0|=uP3wNWo)HKtv%Re~~JY
zmXgx2Q6b0h@*!#joW*D7NMV_+JUKEZO6~4^1b?Vk;19`l3yfrNTy}wx!_9#er~!>6
z@+a+nwPZp<8JY0i$N?r?vg~|iX356q+tW*$zEO4LizP3-F0-%e@}a}&eTTu4u9GL-
ze+iYr+5S3kxq8!ukxX^N<)+pb_hg#x{#q=3@BNvI2XeTz_u}iW+;U**mIE(VUb*Yg
z)LmfN-gHT?WLbyua&sI1zTOP@U{R{*9t2#u2V2}yvyaUho|P&A&Q2kC!f;7y4zN_<
z9OCgg_sl&rx4w)AI11l1k~)6u7<w@jE3utRwAM<H1K}y1R1$u%O=kIkyrr9)W#Co}
z4PHh8T~4SVh^7|}{-131U0hK4DJE1B<`L!-*0Ui9i`fvIq`j@^T6xvEcEmKDE?<~l
zye?g~e!6_|xdY<g73UG`blr6M%JZpo*+%={SLV-MH0SY7Su6`1(!Cc2;{CF>Q;{)y
zyV28BU=hSIQcq$nPnY3mlUDpr0!%zNOPWDB_S@?JIZi&E@rvI-{*#s7!b%fXq0-ma
zAWaQdhJo%J4i4gW{mNxn1(y7vKL`)}=qr_g546+v6V_IKWIe#69PZ$K!g_qXwT*wV
zIfwAS{%O5|$2EPB=S>+KV;#cUV#y4KG^q=*QxUh179h`01S6U4Y`4slODKfSl8GZ2
z4F<5!-7Uq^tUVylH9X19b9YN|CKk>Sd~?~OWzOlHJjrXK_+9f6L`8@4c0T#hGP^d#
zMekZuf<+t2R9jrCX2K5t)048WCI2LMTXBYjz+p1JcXow1eYrbyB-zo^pX`bBwkLZM
zeWAWcB0Fbd<dM|)F&XY#bULk-W|xS^WX@!N>|iW@IA*;QZG&>f9BQu8P{lq&E~&6E
z?5vYYZ&DtX1(T_rO>?$*-2?|CvbXq29^XmEAZ%gBegYY=1$4n8%x@Pgy^Ny*7wp32
z{3Y*ifBFsQJ3iL^q3)^q^=I1=lel`rg~OkE{l{NFwX_Mbix#bVX5rZ`p~v2xDL<$T
zh}ab~$8})ScNW(^Svp<0=rRHwRc@J{x8yysr()+@UYfV=mC~ZBx>w4I<}LACFTBZ2
zi*74U$El(4=mP`Cr09LF)H;LD^{luE`YWN6oii?^dZ66d%Qhk0O1Y!vb@P`#eN?Tw
zxSgDQR$bn6`%^egIiEPX4-IX~SSK=^84<<kc=q&RmX^FF#)_oYka8oV8MK1v^3bZp
zpq17*KtVFQbt@=<ZKBB>YI$ZAcaU6!5XsdbSorF~nsX06{T5}@HVAg^NTy=7GrpU0
zTgekVZ_KFX2+3$Dm5yqs<-CvTsg*rPivGWR4!NyTx)&T}V@kzRv%i|R2u;Fg(k(ke
znNlaAwa8wREr(txFQwi%PbX1poTpRWIwKmrNQpBwW{1fPgigw{(@2*ZWBD_8;;`x^
zyS`D?`?<as>OY(OgGjoCb8+{v<*vVkx@atMp1bz~Hgh7_yX``w=H)SUZ28ES$G<S1
z-VsZe__#dW)FKRqXhVcq`$)w70FO>_koO6PKwRrK{v~t@-4j4=t?|58BF0mf1N_Q6
z0TUjv(ai+H5mqL|zeHtzA_mZkP}B766Mw3ozZj4NcZ&h5jr5EFe2&eDGmVh^@Apxm
za{Q?JD4U-DUw<ROH9YDtS<sL*gBZi3oS5jb!E`ZnoCtFVM-h)Uab{vNb&`7h_}DS!
zuZp!wY>yZmJ|px>C=QP6v>qp6SpOxClU3+)fx5&Y(wZ<rTHk_tK^|&{K`yU35oixT
zZP*;mkr7YnpPn<^41vcC`e8XOkbc5~{@iRYrPz=dJ)|PsM?w)!kx-nz3qt9DWSUF`
z1SHeM!iA>S3H)L5l%DDQ$OE;>Ig41*k-X)mjVIFaCqM>|w#ulraMv2b)5vW42f0Xg
zm?R@SM3N~t%Bo$Nsz#g@P1e$@Gk(!)rz>k<FqAU)rXZMDU-ToG=!58O=W{7#^`rXk
z$aeRTDul;K6{U_Y*pXSV)4OQs&q;psACjH_U*GCsB0~guA{$C35H>*HI@z}2cR(?z
zpT$#^rQumfk_nFJcF(w%6(YQy6<UTAWd>1}G@N2`;^`UY8`0qJ_Ot1*uHxqso{)3$
zC+lWJhj9zf{xJkWq7PSU7-LfcQ)IC*)}DR|*0vM$4B4aVBw1;~Q>^qByjNAaJ5wIB
zr?+m$EK_1aF6*Dx{C@ln)oyomLq4kNtH=hQ@?q>ZqV67=43Q>;_mCz^L{>Fqs+v@P
zH+;^q9G(-Y+wAc-34z=m=LUhW$6s?0d^Gwe29I+G)3-U`3WJRke@A%|)I-t-4#O#u
zj_?7JPKnBet1=7Ms41%Ban7|`AGfQs@m%}eYsgvdNcslh=w+3%CP$8q48bA>lF?4*
zPcq>XjJ$zVJ5H(*K4MU9{?5$&24xA+gR*cw_pyZd1su~<dmdfXcSJTejTlA_t=-Y4
z`DpRaa3cwqsKk$9>>QgUG(ElWV?^9gOWuxU(^;z2W|g1-a||asJ7#?z)XWBQEr<_C
zc*OU?89C!)y(va1$0Ffp*#t4jbn8J>-s<&XVmo{s)*i-T&gA)5*cgD4WFgcCL;`J$
zMthN#P@(XXS`@v-Ey5?+VhN-|Y*yc%sXo91PijA$xUlTmd#9GvUp$<y+5@RkQu$=;
ze8+{?T`p-98iTtV9LRVU!lx@&__`iyCF=utquHe9_~@8o9xYDlDJw&jFb0VH`8Jyv
zp^Qe;j9?p!!3e(R7dvKW*?4?uwt==}IV8J>t%IpEz2maw`cA-4@x=J(un^E?)|c4o
z^+qqllR??_se4~$tGi{DI+a1J)1iGIfJe@QS@=IZ;CeM*YP2zjU8jY|*}{ZhW(#*B
z4J};P^|f`Gx+pxIu5KV+E?GO>fHN*|af@izM5eq?jGFK2PcPY$nUCGt^^P6I964n>
zNYu@G7JmmcYmw2cMNYFiJ=5raLPc_#*x8$_8`6wfqiuLtj^&a)dY`ue-HLTki@?$3
zx4aFACxf!<26VR_B1<#8q|q?sTHW)w#9|Tt2iryM4D)H10-9sGa!tBqO|E9n&d%TU
zy8!OR&EZ)Tiehndw!SV&IoGAm_3@H>O3uu&K0qn-ETNL%tTld+e-akd;Nl~8;t*eL
z|8P_MuG324e99RFpU*Bwc(c<(lS#RZ+HvY+V({dt(NuCWX3b?`p4UB0!Vzltx&`*@
z#4Xo5*$?=;z8>JbQ?KoEg?BdBd5_OV1xx7XPA5+6#TsIdN>1Y7h!YUVvB8t6Y}x4e
z*l}K2l_)ocKqH=&*}p*R`Yy#j!tW*2;(I67;aj*AyY$?NblIBe@+Ievq{~)gN%q|G
zbXn~yb4#2RS3cva5W5$DYF07RVl~=r?wQj1IrK203<G6x#u{penw6<~4qJDjj|d}g
zw!*1<(8_ZgGw&dXTKTO!KgQ}3*0H+v_*_<Z$+>}a*~;ni>T_>Smu+HX(yd}8y87H>
z>9WnQl$Scy=CiJ9+hcan8og{suGE)^_4?8jR_P^sA1?(7=G4#4R(nV=f&Q#k>9ZAZ
zD3^qp$j+S*yw_-7G-c;Xs!Rls#2~KCwxafGZLp)KJJ}uS>+K3BvAXEXA5V~AgnAOp
zyHsC&?m@vHRq3UhK&k0+_r=!Rrk388F1!7e$~g`NS(uB0U`_G6z7qfV_k`oK&<AGM
zmoPN6VivV*YLjX4$b?=<m0l__>*GHC^QT!KLNn{b6K_q|gO%rxfdO!giSxP4>%Yw1
zCqCC%%rUhC?$C2gd%i=1-CtlGwFe9}G{D<tv8zjvAFR6}Fkwnj{XpDurkkXp7T)h>
z9SH|m$8AVbv(4sAd5ao1&)u4tzdBQ~#u+w)!gjD|{;%Y8aDAOxnyY?h?al~KHM?$-
zBipT1%CaD}o|~O5KW>ZHpmFIOt43&J)hMpKReSR2)8?UTB^9|Nk5&Xu;CWLKc(sja
z@{}OEj-gR_USLY|PS(jiI$Q6>J+~p~{mezUn>AN+zD4UYi#Dh&+TN3WTq~2)mCp8T
z2uS?{-DTsp;ld<^!OR7lRBZo-MRpez(u%yx_C-y_LhSok5r=d61>jtz@qd7cghQ;Q
zVJO+1DQ~t7B}YAc>r~AaC9I!r<@VsJ+3U~<FQ^?r0^C^b6Bxv%DGpX6$0Y;n`kA3F
zJ(c9Qu#&2l=UGd_Vb+qPkm6!vyVSYYW0Sr6>^7&K5N!HKJxcV?v$!yuP;+y!q0}04
z6+@}jbC5Ty#x~Siou((1f#>*0OPbgM2?`xLowCkIS*%1eR9A}A>~i6m!qF$u-_sNC
z?Mn_sdJ|pom~>2Y_XWi_*$N5==_?b+K0imo5?)WjDi{C78#0SGA#B=;#<O={R;LXb
zK36c1_-(S%J0g9%%Y7bNzj_`IVlzIdi8&fhA5Fn4ee8H-Y!DH$hpk@J6uO@1R(^{&
z9=7`^sY6JSI<_s@KGcIIb|*9#!aM{92lM5=n`6V7h%;jIUe~c4iir^GN)Y8;>AFB#
z5k^5P>zmN>#5gkYUvS(TLgVY7%^ug0FGqVhUJSiu7DnymQg4Yp$W2CK&zqQ(L)Tq6
zI{r}4LzbSS`>QQK&(9&enN3GuGpa4M=ixEA;g#959Cd|xT#k@4i-%c^uA0=1>e#4^
zF+d4QM`Sp|x)uv1hR`rwc<72Neo{QR4egR5Qc6TY32yPzw1B)275@Zl@0JSE_8@sb
zTRGY|Y1=rw@wz;H;1^gF;RzB_h25FIDKme|+4kvGThF#%E~yohTEj9A3E?#c=Cd)d
zuGe=0+`4S4L``aE36I^`!dJH>H5W6yl6%U;R7lSQPPY%<=S=h}aSjp|b*=u>Bg57+
zU^w_OjgI`(=@h~XvD?Ss(C3-&eHgc`EI~|)LVT!Nsm`i!u?_|G*>9S3kyIkQk5r<h
zAiLF^p92vwwfv5B*#Uaz;$L{>+H=H3>8dU1vaPP!5{nqwSX4C2)n)XQiR(D;^pFV?
zB{(*xO0@-mj?IEhaBnWd^&CO6Iro%5S#+#;c<$TE?x}dP=;7jfD#2c5*&2I-V32UY
z_IQ4d)gl3{U*Z*Mm#sLF8XTQG(LFfvfJ@EikSd1NJ-GPUVhpVKSN@FQwCLTHMaJ=+
z&+EamxadrgbvIsx;p^ROhhOF!NBKsvj~%vEqm8loC5pUqq3o<QelqVPYy7LTGl{_b
zBa_MGm)JgBMEgE8h_d;Y7i_#RJXO|w`Hn;BvgVh{q)&PMJTH5Q^?&k+9*X;u?V(mq
z1pE8D+LF;o%wZhs)BJS7Cj2Jr8N&MkB7VwU@@qx)2%qB@b@PkNiIrfT{Zq^Lr^{{)
zWF1bxA5NF86`tK^JO8DsxHN&&B#F|X!}49ijmo2Fq*r4_&>aTH)nKj_!1>3`whYuw
zK1(VRzCsEas;xQbx<g)=QU>gyf3Iq_4HrwOwytUqh<aO}LnS<md7o$H2*2m4oarnX
zTsbh4{^^c)H*T5wtT7yUR;PpJo8GNwLNnFI^4No;7>rvV5=VVzKvVd1@cb#G1^F#n
zYySf4NVvi}LaG%ht=&;3`<^yJt(&c<YljOxF}WFhUJR0;wOu3;XYKtu>g%3}evxD#
ze2ZjIK@%$%KfTWzZv+kr%}=`ybeOJm2OBY|LZ0UDI_(wiky8!{K-(T#I$SbbI#PVk
z9MgIxREL4V(bK8qgH5(ss6xgJ7#hbOqj}<5<mi6LdMl;aUjSlQ((;U+6pw1S6s0Ek
zJohQt!{s~pu*dTICDMiPSELKae^UTfr*W!V*)7xM%g)zO#L<*`w)2&Wq6I6?Z%)r!
z_jp8#I2JGhGxV$>n;;~LR^nd7A7-C0<{ieoRnPoN9c9k(eR#CgS)sxiRi#P&CL_1D
zNg<sKD}K(pl+hQ}CW^_0b}r}GAFUeBom^z6N+r<PA&!ZSAaeKM7*@r3;!kwsB*r!b
z8!NZIViQ%mtciU~U*^3R364rAcHl}sV2kNl+3=zyF{#YXv*SldUQmAtZZJAL9%Y9Y
zKRK{{l`kSt!JjycboBZqTQAmTmNcJ@;wrOb8~&|ZcVWx3cb<)2E?GXk8aFPN)LmV>
z`NAWawN3oPXMg#5tYfN$D`UHlO(y<p@5Z}+3V-<PNupDj#${g55r*cu0?P!J3#<@W
zDR7>^`C@@#{yn8ams$W_YL3vQ=AxArW>-n&BLdeg1b>QH*0@Eb@iYR#HQF7lYVi1R
zD|H-;^ZjE(J%iTB<e9ANULrNrmKx5^)A<k`CA;{+@lh-)j~Wk|x70J0b}l}$R2P63
zwVob&AT=3n^1GWjnXSpq%K#7A>fHO?L#MOLa&O1Ey)|2PpPq`~Fj9ntNDaTLI^x&J
zYeGj9V%eAQ0gB@0yltiR#Rbq6ubcYf_KST}Ww%{!dwsg>wwKD@AcRoB#=gI#(3?RG
z6g43H2YU-`0xmUh)%iE2%eGIK+y5>*Undq^R-S(#UAB!o`{chh=PSidzcm+-4xwrP
zyY2#(6Lw9Puf4E6UAA+&eEo%k>9Pivhjoa}uhcD|Q2m#+#idE1Hzt+d$PXGhQB+j?
z<5M2j&<3iv%ZmOpG-PxkdANeIM2IO#kV*7qG6kUu?PltYt(o$$Z4yP~Ipav%AkBm7
z41Z#F>MKyV-iWmpAr59k96&H&YBdMqpu`pjvQnnory&mJ4h^1q)u&S5Bt@KV;`>4Q
zyNT~3$w}Q!)`8U46~1O3nf~J-T+WO~d<CJ7?XnqUb+NkK%_^3Xz>*bSmgIx}+$i-Q
z-({8@OS~LRg|N`PX10ta{4r<C{V^qI8|i)PR_Ly=o`g-TNG&Sj)@$LBdF<S9#)vpY
z9<qP7XVUdI;Epd(l?=~TlX<Lw>g!T500j(H#|7tMdSBrhk}B<!HgNRXB=<^+m2hV;
znlo}=2W=#fJ+P5jgF_GS&+Lk!6N5NZaH8kLnF;ujjV4CNClSHxK1ldQDqu5jiSv`Q
z<zqOqS6-GO5|Bl;&w3+Nq*qn)e}`=#SX!(vc<L9x%xk60_hdHMxP=Xh|Fv~s(}l^Y
zvX;vSU>#`D)&c)*+`@u1gR~c4O{nLK$N;V`u=w1b^R4fN#1@_e1LyC1@9TucXyXN}
zvO=oYoyW2}_H!>ihrd_Rl7zpp3@`tEWpTNX<~3d`0ADz=<Hst^-95}CxGBdm!!Y>L
z&?>25Q>By|<=?Wc3HwPk!w}%iBL~ji8yK|&W$B+5=($Vhw%?2}L38OG;oUhVQ93uZ
zw7~LQauSyol}vw|GxpCSvLxV6ekc5Z#Dr$yxtjCq-dl@?a@n1kZ%BU^F6>Feb@~kW
z$_4G=B0VEu1(j-OsjJV=$!?Gzet6t^V03(NSWFg-le(PIM;=;PcFGz-^b+WyI4Nc9
z*ysq3k{&zGy1uGC_&TX2daxM!^L%YUZ{ATrHT3|MWRu{3-Lo4nHBXg=F5f+pE(^U>
zcE1?6p7Zb7qFra`*`hXt!+g;mzQ~--dV6f``FOf)hcNwOuv<`E`hd{C9#Hxh3mW<U
zcIaOyNdIQ$5Eb7-`^(I}XRgppO28pyLNh7H2w0lk9!xsLC?bTD!ztNC5bDS5G<Jz>
zrE%v~Wt4x@j3VLy_%Vw8VQP2_V3_6`sI_LC`@M{_{{=8k*X7<b>9Veu${vvufC@j0
zh>!&q+cLXWEZ`oF_a2PKLv6{P_~A$|U5JuBz47+0Xe2SyJV6kFFvRa^0Z+L2tL}VK
zj1V>H<+r5|ykTnj8`5P-Wi$DgdBvq~672OR#a=9DWS9ej<}F+l%3gZ*94LTx1`|3g
z4@$Qi%;7NW2c%QAmBKO&)^3LF9D>)Drsxwp<i7i=GF>s$G%20L@|z#i<yIwt@Alpp
zIW+4%$fl-xX|Gk>{sPu2qL=&Mk}iw>Q&CZQXqHsBzYo&osN13jgfU-<WOK~g3%k-~
zO`I{VNtZPm5-Bu`D+%^1SP&Pc+$^JqQ(EtQ$1E@l=0|dz;{3=lmy~21g6Y!hWdnmz
zX5mv_)wZ9j+g^D3`?bB__XV{6{u`~OZvV4vxYb7cA9%53sx0<B?3pfZo0Tq$kq09A
zctF&I@Cb{_nR3atH>O+>(dKrMe9(W&^=hmh83&yEQ5?p0TO<evd9FX$o-XrFS>wlG
z920|9pc+}pW+l9p#4yxI^PKWvHS)){o+NfC$k}NCAv}`DrBW{(a!c4iax5S@2v2#)
zp*IUWIdIM$e%dsX{Mg7LPAUy12dv>aoly|vIcY1(F3uTJ0!gx%Bq6+qB-x6drzZB!
zQKbXv>dmg0I<E;$njK@AAB%)XQ-hX2Rjevh&$AX;&1w^V)>G}nnerpbV0Kef+r6Js
zuDxj|X1Ok@4n9<Ezi7ga6=kOe84Z__283rlG%z+*rah7CUz4VH&#YbRkETd0Kc1RY
zE44vYu4R=8A4iq18}iVcR=ZtCU+Ws9vj^9BV#XS;W{nA-LXEAJ{EOyFmlpirQ)z1D
zVBf~&pRpn94B|MCkIC&Pa#d|%O5Ya#M6aqMvyL?sQ*6mKxnK2QV}RD8YzTf8(fY}+
zv8&*Jt)FhaxN)j%-{sIf>9Tz<mAy_*jr`}-@5k^x)0{_qKH*pSA~L9J&QqIS1=Y2|
zP+#s9vz&X?EQe3J$U7G$uz9b431BV?>*Ze~{+_;P>_#;fac5)0!fXT`wI@y3zF==k
zFz)F^VZ&LPUm<=@fK+T_D83&$y!VGNFg|yWb1y2kJh)d(+$}{H4LG_A3Ob9vB6i7o
zGQ~=Kw>KisW+o6`Ai23&1EXKnj!e}~>=doum8ovTCQ>@R8tW)(pZW9E7az;idrmc-
zx9rNiEmQNhTwHynzGJGsBVE~<E|K9UUCqKK5zRtX*K8JNf5dPxH=f`K&r|5G&lQWW
zwEDq9=806EJ<(DP$|Z|ck1BozRlHs$t5~`1;+{-p)1}6#%9eCVixdfXkN(}r2W|vm
zt*xYF{?F@4jSa)f=JR<w@bK^8^Q>(wMaU;p*V3L1590ewY8lLFu&id|*>GB&?QGBl
z`_2OUI?SkJ@M<4~0QXe6C&ges2<6;rfcXU92@Vu2=j_;55v#T95Vyb%yJVB_FnT@O
zz{{gMNfW}?$fLJ|1WH4bJbAUQB~!N-8(*il?-JWzx2j`7(skh9hD=4HxqWBh4<r5a
zE%>dL(qFp3oE#sYJb@;bZlik5ML1FV^FOVIKLW?eM$$+~ec_Pj|1|+(e@p%vXwm<t
zBtQPwqJPIlm?mz&9Dy0?_Ls`uC@AZ{3@AR2@G{HDnUgL$w>e$5!Vv0%LZ}Zaq0R?~
z@Lv711@M30Y;La(i9=KD)>Cs%!~Adv;vhTs)F2oZ?!*k;`l_~Oi*8L3u-x66&esLB
zXT4v0I!_r(Uw`9m(VdrIY&dYaV+hX6FO?0877cK85L-xRFp!IS5Wd3~1scfhn8tEP
zsbP*v2{uS6Hef;irioT?Mvz#PLJuRg5~v6qK-n&Sj=L8<kvYB^1_?LSLs%er5Dq*&
zh!UW!5^_tP@=y2}<Z9q7^H#Pf;qOR^b$GjyVWu6z*i7<L$%@=z0ArsVG=FsUHS7-V
z`u3k1_SP1TOM@pxm95)Q6VHV54%U!x-BUx;wD20#&<M%yt|5jnA*NmX?!*S6pvlvn
ztRmt2o+=vg&Cm5`D(cjLV>hC;0Rp2Q$916nERMe5wAj`tMs<W^nZ(lh1Y&)Ne|MgS
zzZdrb7G=wi;mpR#@o}6L$l>4WLK)VdP!5%I8^<6u39Fkog`YZg>uj}HacGZ(`uck#
z$+oUUs5KgC%Pw`@j>N=WE5;|PL{e*SDAs02Kh7>T?j7n6we`lci;P={s2mMt7Z`V9
z1BvWH<L{2%t~OW69g+5UZ#d#ErmHU$%Pun>iw$(Ob%l}xp`M<Es*3zDJE14+dpqo(
z`*0$=I=A$2G~VBq><D#t#X3~XX!lE0k|d=}l0-=M_8swiKX02PlV6*yG2X4}FG`S&
zAq(y!4a8lOz~Oj*tk3#KHqQo8NMEEI@vLQ|_I36~5}omATQbqv-`9p{)%i0;<A+72
z^?6F_j$ns-=twqS9tPEBo-KLG3E|5VecUJC70YfdBxAV0x3|C|@$P)o=;%o#MQL)?
z&7WkFvVTF!%4RULp@yo_%)9cDUC=nxE|74%yQd#H;%(?*k@ir3v@g3()YVLh90^DJ
z6I}z5BpWQ$maWUlf>prIuGX$TbWlln|L2h{97!b9r<r-=r`^p@TO~?IJH~sDCZq9i
zs1N%@lhMXxI27)T1SL1AWchmU(`}J~u5bjQ4_K%jUfuJCw%$;;`g-r<y^)TtL?2c>
zxzwqe&YPz%azscf^$yu|L75Vr-Kq(^Il`^|0pFM4_tp9mM^I1o=h#5BD|S$<&GN#Q
zC+6)?41wh3(WG)Wo^VqX=d!0P_=(8&RZm2Ed*i*ywrH|9(i06GRrJqI49BshHz+yW
z8&0-IyZQp2W^!AoFBFg*39Do&VO{T*RbMMST~uX;hN6RGDNmiG_;fvrI<e#^$kCw0
zYfyUQ4CzfXr0>p?E^8nUpOZDv4t;0P7_vL44-1ESl08j5_AY94x18j}(FAxZ848P@
z=4wj&=}=$1y9*<YizZC8pH=CS*^E~wqFqVs8Efl^xS5U54uql@DdkXOJR&>xHH_^_
zve;=H7|^474)&o_@hTSYQQa>vi;zB2at7u(+zT<J`e<M#3_$Vj>_*X<0yD*At{L9f
z4%yh5-JHKDjB`DL!R1I2_)6xB#YIjjhXZqlqEYKlN!2xeZ|;wE^(Dhc!*I+{t{a|$
zM24PF_+X^Z%Ll4qM2^;@JafYLQ$#wxH_|%*HgvO+S%hSOBo#y#Gb)kXceE$MQ!d;k
zn2BAj-LZV>iNjre;Z8Rl%;(iX7}>=_M!?0sb!1X*?NLE-5>TI_ktBvM$^&(?E#41(
zQ{R*)a!_1Ic_=<xR;`tTmQ<Ps;!%uNc#P#pbu`q`fzbm;cZhqE0xU*63$8Z`3b7#9
zxZ!$NZ*L^*46th4Fmm+A!f`v#N^_Vn^2jgdfjz34P$9zylO4UGo=!@H`QkZwGtsRS
zWBDgusB~WWHx%56txU^1vhdHaa481lZR{?kG82jQsW#TPp&TdWAAO<Tj!2(sL!We8
zIg!-S8NyJ};@zNPYdoIl6FQwd1I5W9^v^evvQjN=>xClIn>^gs)~)n>eaEh!y3rkO
z>$Y~$Glj>jDAK6IRT|uXHoE_8a{sy8{b#fL&ldNed)$BSb^p1~{pWtwLh7p;8$5qE
zdj4+m{Jq=rceCg37ORo<e=F-R$=4Ob>?huxjB9SN?>H=P-w{q?p6A*kG1W2bT#{?V
zrgiS=vbGSm66y)t2-^ue2)7V;o}0Cc&_HM;G!b?anh7n0J%qi4eE`)*WpC(;CHoT*
zYd`PHjw<iR;!+WjB2V5M;Cz97HWu$QMqV>ZS1i%r-rg1N0+&NkO2qpyMNFu{S(eh?
z8#&}I!TMXLtH?ZUksfq%2n&0jYkw3A4YeIrI-|VHui_WAgT>oiDP1u!7$?P%LDsD#
zz-L%dIj?QUG%XhI?G8na8|@*8tv2h=_(gJzVz!=mv@3ix>7GNx`nqD68zmEml^$>8
z><-2HLs9Efe4Ct=pj61ZC{#$uK{USiZm7F8(reYRgUZkA0C!<<OU7f0b$CNf6^tyH
z3ntrotWu6E`-Rl%33Wt3roOJ;NH?1y96}2xyD_Kf>VZghOL-~A6WLvP9(4}^@(CrM
z{of^7c_}|>n<y8Yz*uW&&t#~lE18J&;olz6RL*IHluBf`2j=bXi%Zc)B2rRAZTHJ8
zU%Uu58AV^Iq$R_hUC<Y!&QzbOo4niF8*jF!AavvGJet5~MU{GIg;|!I_Jf!DG4<m(
zEh&<fql<CBKbGj~h~Xo<AmpV+>X#ag!%iV5XhF%C@F9;B^F|(3JQHOOshZ~I;0H)u
z#7NVh2V+BTpBkKubV0uCQZ<L*9`S*cHGze1?_5X)EkZT%G_+mUe8f&{Og8u@GzBL#
z`9HBc=!xCQM*k<8gPv$fHdyuKOxdXNOflKLrJR-_n#}usoe?1=q|#!hB#y?yk}(x8
zn2D|NP%i>Xbai98CmYgCWxwr*j?{IJ=mS2__eP>!p;qMRJE}BK^ZCAbAGlO&4hh9i
zxmj96=>4kG<kngCnB6d7Dmq4>J+(nGIMk0>Y_hXyPqTkQWFV|a=zbzJ(5NQo?)$d(
zDPys;w}ulb>`WRTQyQr3EVvEfkYGS8+0pE$B<XXK`{J0Xsn_KshWpz>N=)RWL1|N3
zcurF1VSKpS1K*aK92`1<NDy-EZ&FE>wn!gLFyc(QgONy&qJwc4k{4D0)syTK*6lLX
z>2w$)!5pwqh$0l%>6<hJLd@XYx;120nJn8}`kW_1-H_%9#Wx%S4Q@)>sd7@JbY#B_
zQiP$#zK_e)wupbKls(Fpg@G*`J*ZzSC4zdfnV^pJi?{V-Eb^<$-8~(7z9rrs@=cZR
z6V=8n#+Xd(BKc%$52;HcB>Rpe<&4go&}%2i;n{gY_LEy3!O<6oQV{PrN>Lx_jX{Y}
z)<^rk9A_18=-l=&tXou-(h0p?Srnuirk}txIHFWGeJ_l8p!ao0VVLXA)(GJZj)ipu
z<`X#5;w)o`Z^d6QnZQPoz(==5jtE^!^$;3Uj1*}+Pz~%(k`rjvdpwWX1{L48fl+$w
zmT(sdGW(ZjpWV2I@=4M~SbcB=BowdsL1nox?s252df}+3&>=TT<pwXMCWt3<b5Yfl
zimXwXty!vAeaIr!86!(qyfdkr#d)bSKQ;2&Yd7FMkiO$!#I_O|dE7-P_H;hnCdfZH
z0$WY-L%onl2Vt6w^s2@-6JX^(9EnC1`OTD`Py*_X7Gc6XEXu+h9)?Ky1?B@V?sAzW
zHvs}E(hH#{h;2R*f*j7x-Wl&fekHuk?5$ClW5n0W*|V9}*R=bHPxWlF{1eHdR(a6O
zLJZhLh+59EZ<FUFN3|NaBHnxL%;$MD)X`)87vH3WgxCWlr#dh<+8xTg+ZyVFkT_}&
z@@5j|EQ|no4<;QIm}4p>7$ocI<4S`VxIu69*!H;1zBVH%cFdnyEe&Ru2+1JMycNMg
zx`rVZ<oF<7A~lsHtQ1%{gm#Rs0v%Ddn<qnGTaVIiJqi6Wq3)nAb66Lp_2@y3`=k;*
z5uqPT#Zh%RpBzms4GrC`STqdIf*dnt*=J{w+P0AAdRahzO5>iH^XzV#InSPEJI_i%
zX%73L$?=mTLp=Ox@V=2z?92qo4WcM<Nx_?JkHB~rYHQowG*b>}WO7^<wK2;`91iv1
z`8=t3R%x*$x%q53l)$6GiNSBhlZ{RLY_>Pcjbo%in_I^?o0elj2-X4EWRE5j;W#Ez
zVsMkgj3*_5SspB5s|7997XMSHds9Q>4<fiKJvYR(MCy$c)G!!`l^1kDu}~I^$0AB8
z_Dh!cFjS~9#4iuO4&}nA)|aOwte3%x0vWCh27V>UJY0~crMNG<kbeK|ql3rWQpW~Q
zk4|Ri+c(;|Jx+;ZQVPpOp$^cA+Gau#(RCl91<I(BTkK&SJ<6(TJpsDQScq@o)k`#h
z{0+PftQVliSTSC`o(V_UK5`LQ30u~o2mL=8>!)2J*$S%;{-K<*9)OL)`dyawb;1jn
zAzP0VzC>uCq3rK@^*w+RXGW>*y}>2l%I}c<T|EI7$Gf4gFfw092sW7Z?mqXJVPrv?
zC1SOV(~M%yzd5Xi24LHvn?&;T$k?QkZ0%iG@Es6VE!#LNMV^t+6N$BP$WwC^=ZQpX
zB#B`X3IOI}xyfz$lle5P;`yF-l4Tz;KFWS~)Shk`Y4(f#()4pp_PoidkABV;1V)+m
zbD)-z5=Nr^pl_o6BvhW@Cw&v`C$Xd){AAult|I%Aj+FHy4{H*X#?KLH0i;uDYOd;#
z)qc*GI`#{F6YVE`sbfFsn`l27NF9D`-b9kl)fJ>k5k4xd5&r~ykh_`eC+rR+wP(dQ
z_ClOm5m)O;VxE<ZHYnAmki3mIkhkdu^6tKYyv;X|w<UXvP>~C$n-nZTWaIK^p=8U=
z8%(y`yuoD4%^OU%+`PeL%gq~1ww%0@Y|4Bu`=R1C>AT@2TA?``?InR3%WNt*=k9`Y
zHW!?;MGd=d4)dvdFn?)nO0Kcw?Uw#|{rSs3uRnkJ=k@0=|GfVE<)7D|zkKsbvdJlh
zo5rnB@eX&j^>rr04U}Rt=V>e;Pg4PTb{CMRxqv(^%36}AUIkUZv4H9$&y3Yao*Ao;
zJTq1wd1kCW^2}KMMn8Scw7Sbx1Ua!*L^PA_#RL~;m>G;U1?h3)Q;4~=AoX^iOx_iS
zz|zcx2A3!_KT9;ax!zE34q~}E&1DCd8lh~$TuW6`FZJ#64Ut%+7gp7994pD)uz_It
zQ_h%GE+xq2+?@sj^4Ux|8fVO5&$@%(vU|odnrF<>;;wOSU9i5}jT*aV8Y-7CTL?L<
ztTyUXJxZ2P&s^N+%|JEHl|k4M)aW2y0JEH%4>+k;8G7T<DCgO><IW8zK6`E;@7^28
zyYB|_?)M!UZMRIfVgNT1xg_moih#`i<DKo%=`J~#5;?j|G?)^(d4nmDn>Uyexq0(Y
z!Y6a#YSJDzpXE`~_7<FTU%@%|XI(NZ&)ZS|g0uSbfv+AB_2&csy#9RPpVyxc{PX(r
zfq&irJ_yJ><Jb-rX-@$v$=(9;>?<J8e&r48?#^zN4K;L)lZq)knP#jRG>I8&hCDOY
z40&d(8S>0nGvt}MX3RA6NV#XmQEu;yIrhz%W52Qky4%Ve^-&*bD$J9m(N~$p?u~eV
zM<;fC2p>1B1{ajA_lWQ4ZIsp<I?TePJGJ|>Jh@Pow1=x)a2S9q2fdr(_VS%K1#Yd%
zvhPi?%`4LG?@gsg8+MNQvNin_;E}7C96k{qDJNZusf@*h&#iP=kV=T3Rf5iexdVc~
zF~>izzx4Fa>pyGs&+9*H^v~-*YxK|C;;Vc3=k=HN{(1eSy?<VRY44xcU)uZU4UqN$
znHzo0TE3ZsCy>hhQ*W~I>q<r*wb#a_%_?TrxuAi$`;E!~KWn)d8Jr4dfr#>=Q@zS~
zR=K(Pjyo({`L>8M<gSR^GGrd^CKKEL)EbP+C)Dz21Lm8~+Lo=JyKLIwCT!lJCy~$W
zK&Of73hxKE^6$#P<)hZaZYdx>LzGP6grUAqtf2_{Cfu^l$QlbBOz^WKSj4s+FwA<%
z0#$}ysU5pXZ4}muNSl4p9`~SOq>Gm&=veRK1S1DaXp5o<S4$Wfuv&<7py*O3D&}rg
zBcGWks4Tcy%EKKY&*ALs9;S@4qMRJa*SSVAGYj@)sVuIyb&<GONQ4I%mRP$w40mkl
zU}e)<xEh4Ot8faoo#CYQQt}=gwy|Bc&uzDtN!aiyeFA(F!70+U(M@vkKDA3BID=Yh
zQyHWihWcVT|M$>LlnPSz!;ct5l`nP~K1|nadlM~qMmS#vXH*+$?TjuGn<c_#AvO}K
z0t54L*_3@q<#UsUlW58I+WjmjgLXq}F^w!}bT+lvrAh}bj{9`*=1u9Y2}c5UPTw)f
zkx5$Kh>arBIZ9Dq$v63#N8q`NRbaU{%1<jcvPpM3KXI*kdU!w=<uZM_-q?#=vZUaz
z8i+QwB(Z;;>Qc7Bq>rm8xb<U)MmM-c)<E{6M0RK36Kai{#*N<on4Lek-uzf41^sj(
zr`}4-Qh9w%3f!HOWPu&ze_IMAvdw{C%MHO%^aO}~dLUwZKAbAlD_s2PqKarzxDSQl
znw-e)3of1I>S<k~Uu>dm?}v080LSJ1F4vQCJB9s}@4A<$x~PYKpL$7fHK=IQEkSNs
zEi9k^%tp16EYCggxd<15{{#F=;E^>Wjh(FcME8K>Dl&1jyA{p@s=Q!6Q~6k!AD{X5
zYwXqE;nTQ&dAWZv;oFh?a_f=JJAa|mrSz_JkDVUR7dwxu&BTBg@9%5n4j%25)E!D3
zbWhAgzOI;0HW&5y-9An@d71)ko9x8ScJ8!qC@^1Rf%%#W%(uJ1e9Z;sYbh|_o&xjj
zEim7{0`u*6YrC$lVYUZmA+7;DIAdd>8Jh~txVzAd&4p%cacuiNhv87w4d1d(`ghuH
znsU<)hGTbf54LM2qXSXLBJED^>h6Z$W_OR+GoTC8z093i?7hOs*oXYk(4)@B2j^>#
z#$lS+Z3`85M(R9R0t!<bVWA>3w|QZUTu0zT^qLEN=nnrkbskQJyL!X@U47`P_S4ZW
zcu#h9bB&@KzIc469%^zw6fSLu)=%wO2klqe-+ZVpg8J(h>AE?R*j+w++!-1}Hbs9A
z{>2PZOX56vxz$7F)+)_Rxv^6X$H&9*OluVGC+G)>@ycD*>>hu*hT5p^3*86%nSCnU
zSkQBV1?_qVFpK9^4%Z4|?JfL0f@YcumG*;RM&<LRL<NVX2(%<g5H)bQ(o~9Er*x$x
zqTJvk$6b}cbyd&A9buNBDmOMXz(rG<&}Pcp!mM)E$DwMVtG5puM%898sp1O<R=Exr
zlm*WF31wNFp)l^<Rf0LFFm6Ff7Mw595waLBFIy5FA9}zVq$}u4^eBCfzNI|RS$Uif
z;E><}MA%asz2x*%Y$YD(re9}UoP8Eo%AMXw;)%@G=UJ2#WQ;)tl^0?LTiWc1Slq6r
z!(2%{AUL0>o@}AuOe!=LV?fES6`XZ|CxMW^xK1tSEWw#o6sno(qW1V&F;-mqKX+Io
z!_kqU)YwES^6;q<>kRjj;WWxgKf*+g^mIWux?EnB>BRMIDqok{!zl+IzZ}w4Uk<{4
z>EcatJ1-}na(d^N5%L-vqcKQWi@1G4TEInn(*s_089GwSj;K?>v2EDR9Jal%b%NMU
zC3rTegEJ{}p3b8a#CDM2RQfinU=aFQF*~p>aMza{P(+G~i@<O0j9_0!oRc>01b041
z(c7E-aHzLC+0O_l5hbF$IpiBZ!8b~w1HVv4Y|@|9-YfmvG5IrIC+!5@yzZ~#2#LTo
zC`^q~iENXQnT0+^3MB$Qi`(+)NzLNbL>h)f*?qj_i_K-ZnPvC!W>$Y=|9C{kck|DN
z(W?ta5V)*kT1Z(Z+sj*;>RSka#i(?VSVtG^Ys@Y^NW9t2_VTYwXS`cCKf*$V#g=<}
zORBdx*|>klel3Sn(W=q}2fB68yya~4p;V)%e;3CE*gE7E{TUuH9<ctEFOnuE@f74O
z>knZicNIfKV2eb)3<y}zrcAv4B_P-tH$Q@%B?0|&$w4&Vi=xm}tbgP8O6eiWaeu6^
z<;hQ$0z5E}7|3KNRoohwRgzrgmBVpxUa*NAUjnm0mq!qXXDHmH3y&UC^^l%S^mfGu
zlquGeER$pmuP{z<3y+^Xb$T*|-JBD>2o5QvK2G9R>N?ii7~BdzQkXu3qblTvu#qNU
z%Z?@@YIMk(v9GruhGDrk%=Jp{9>u$4d!PvHw1!EPodx?RWegD8+$e{R+&p%APVwPW
zr&aNC&C+=kJ6q*GRD(BtQbXPFL&r`8*<?N$XcNQ6j5a&KpidT6Mlunz9npd^#Sqnt
zakAuKY_tsaCG|0yC&OIptzAwj=>L83coYKzb(DB}yXtI#Ibv#faxw@R51LEHm#TwL
zDkOTJT%o0n#A$ccXc4G1z44d`2htzY8)57?M7nX!e2K2^oX<7W@k;EW_cBg+s67SM
z#3DIlhj+f#*4Xs+MK9mj8SJ@mLvHB@Q)ha|q5Lp%03xPNoCr-~i~a*CD>VEdUMUAO
zyb_yhlc0%=FCq=zFf3uG)Ip37p|%06c`!^0gIeD3GuY8qk1lT2Q0JXPSVTBLxQ8IZ
z^Ka(W8wre`o}Dv(-~FkfNo$069wxk*x62cg*6AS<%z6uN&VvlJ%DE})asK&1!pE4g
ziW|hjO+#cg`*gfdGW9vauM$2>_&nhXOZft>vWxi`wj%P8$ip~WzR~&`bEF9wLNQ-<
zg;!Sz-zNMuKyFFvPMsXL&frLT>+hIwo$v#~zYzX|@E|u^Em85Qt??nmbx;RoR8pWz
zg&*9)IDE1vs8Lv{K&~VmflKb<b)|LpBrF`)fN;BnC;8gtqI&YB4Aw9*8XcJswOqhF
zRfHPCD#AKIwzPi?%wuijjV8h#!mWfj;UJ-%&`&r-xR-F0@CL$9bBgmuUcHxBj9+bi
zkSd!og7mP{x)m@=0du&OSque&8LSg5?E@_LeqQ|<uTJvnG~o=Pj@<VaUcHs@cEYW^
z_Y|*Q<`eJ2m3o&;6PI&gdr!2~rF=6OiiFZUe6y+97y}K%q@sfSDCH~v14eeA8H4?u
zcKLo27@5b;VV!5?KSKCL!bJiDgj=sCX?~SgpCSA@;YGq%3BODD8sYZ|e?a&;;a}M?
zrg-%tS#330E%IP$Oa#qKAX4*a3K8@WM^8l9^rW|qpT5tXE{-?W&-aLEAlX%}LXV6L
zhjD%@PimHBicYVe5qq~i?~&oJ$4^^Bsql%xvEwP(CB!q`BgZ*b0cDCfbxD_&Q-j1L
z&XvxJ(Aqi^&x7bqO^#Tplc>13on7zxW_ONu^gzfmPbsnSvG&2q!O@=ak%{p!Sv7af
zbCTVk0S%~sZ16!8J_xG%(HlA3dxNFq(-pxdq_T@#UmhAA&5BU`g02%HE7UA}Aqwjn
z9!+I;GJj5L=+r43tt*D037Lqf<2-3MD-JHn$=^Sbvaro}WGpo-)3R%P%S}8a8WW09
zK!(nTa9H<4!{ZN)NhZj7Q{v3nQ0w^k1k3^fZ|FObvQCO~z-2l9`8pr+=BxKDuTy?;
zt2OvQN`Kl`->hvT6F4IJjQC`mT;eRFoJxq65^_B!i7jT(4hq2d<m70|-Dr)@``sCW
z+s&w*`;pwH6U;9^%$?O}y}&$11Fj4DN~aA2zbcWhdE8%>+mhlWOuq{FHs<!A&-80g
zqcgd`LNsYzP*G@A>oUdc%Y;88{5jzt2>%Q)=Y$D_zGmnk1k9B|yX>J%s>WhwmXoKI
z^J*;1GU!>pd~h&<StZdKg1cnCeC=IFuzDi$S+~&USp&!#^IPW&LcNF?ts;sCXOKbt
zl{)UJ151z!vGwnyNHJenLMS6FBrGS?5>^q`5Y`bk5_S=q0m`nX%o21PQL4B*{0kH0
z8<j#sRYqGWppuCtj>e=gCgsc0G;@~SGiPa@Im_Oev+SEW%N~_QHhsQIW1$IQ&hq3_
zHJ>q`A|mrO+4kc+#7=g!+rG-apJ%^zhHQ$WqBO~rzNJZX)otXSI|<!{gM=PJA0Y)$
zA8y;$0y#x$n}OMEZkZvQ%`r1%v$<x5Y&Pf2kj>_v8M4_NBu%%0H8onjQJIti^NL1L
zhSZ!)%7AHiNg<K!AXPJEmaRL$Mm$0oBqRw#gi`<|(#RZU>^QYzgWF1C1!QP%&0he6
z@Hy<~^9Drzu#WR%P7>b4FOq8pY7=ErhD(;V5xHjIN#Qq2Us+Fr+=ZxS6`nM?xJOTy
zsC`C)Cx_U7sZ4yHq=9f7B0|EwDmb|-7G-1`VSD#^8jdhb_pJ{C!YXe}&x7_bDD7!>
zA{_VoxM2^&rLd<-|2&^mwxAAVC)>m)7glZ?8xSQZPlmp|&3hVyGhl6Y&z|P}c{4Qb
zY22&qU_Rdv?cTpXU+TWRsXB_0Psts7_vQKWP#dbYcefhud>&7<+Le>0aGxv#tzB_g
zE$sj{J~`qEW!&{i!-+gc5j80W`)Dj4N+_wDFJq*o#rAsh$)-NH*V73Mo>6s91UHvr
zJIi7RJwte$z0}JfadIGI*FwD#j3^By&PSOU`r;i3L$Bnbf0ltzFG8atlb6(HIa0tq
z5%@i(@Njp=FpReNV3mO~#P@qux)LRFebn>4DvL{^NVUN~Bl{t?V`D+3&3ZG*`F6tF
z2u~BfLQ}@OdG%hxCBkP2zfSlK!WRK**#maaFg)8Bd`_)VqwpSR!Ds|JzrY6uuHW)|
zg7d0;)_InGf$$N+CkUS+@Jv+evxF}ZPB8-1Z}I9hul|5nQ-loR3gI&0yM)!WApRAv
z{+{qX!ao!KmGA>X5$!M~gfhZ>!eYWwLJeUBVHIH|VFO_cp`LIHVK<?Lu#a$na0eko
zXd{FP9fZ3H-Gl_;5a9^nUP6*EOc*7M6Ml+tn(z?eO@zk?j}zWOc#7~Y!p{)iNB9uo
zS;9vMA0zxc;gf`4B0Nv{6~ZOLX9>SX_)Wr#gs&2QkMR41|4H~m!XFX7L3oL9m2i#l
z9l~D`{)X_Eguf^J1L2<t-zWS#VHV6^RtaG)p^~tWu$ZufP(!FCtRrk9Y$0qX>?AZ2
zS_u0Hw-N3j+(l?7bP>7<J%oP3VZuFxdkINGig1E(Kj9>ShxJ+y6CNQvN_dR$IN_~?
zvxIjN-bFY^cpu>dg!6=-BYc?fQNqUwpCDW${1V|;2%jPR8sP=PuM>Wg@MXeR3BODD
zeZtoXX~H)MR|r=Le?s^+;k$&tApAAq{}BF;@CxA{3Ew09GvWJ$9}xbXP(pieC1DX^
z31K;*j<A}rm9Uf0MA$>vPq>rNM(7}P5n_Zxgnq&i!o7qy5C#dugkywJ!Z?8^+F6r?
zvxFxIZznuOcsJo3;b#dSA$*MR^Mqd@e2VZH!e<HpgYZSdmk7T__#ML62!BBMBf>Wb
zFA=5*?<ahVaE<U?!e0{p58)NUKN9|l@O{D$2>(GSqI8{2m_sNh%p)u$EFn}AmJ@0T
zs|gzjn+aP9I|xmLy@dUQI|!|Wy9qJEAwq&MKsZ9Uhj1_9jf7#sal$BJoWR2dt<!{u
z36B!qLU@AkHo}vHrwQ*Syoc~U!UqT+B7Bta5yHm_zeu=9c%JYpgiD0a5`K;F0^#$7
z-yr-Z;md@t5`Ks9HNyWQ{2}3w2vda1ge!zB;ah}jgl`l6obbO1e@l3U@IAu!2|pnG
zCt((clTt!CVLo9YVF{s{P)k@3Q0rx*@J)*!JBHIex$?DzsXGWe33~~55O&e966V!G
zLN_5!I7H|p946dDxR;P53=vX<;{=}ZZH*Hq0ZRYx=)u;Z2p2~5=`vz6rSy9vIRV!o
z1gBQYtvewe4)^zjVqrUktdS~qe?VIi&)U-|{mxK~$5zA=2+u7tNQKFGysf=Els`vj
z_e?q9eC#em&O*$$z{?Xm3*|S+6+t7ly=PBzVAAfUz@)}KGAXClVxs_dS;659ZUSMY
zj~Z_j8L-RB&XDuLu>nRsZ;<5&q&DVFRi7R3?C!kJDry8g+miQLMU#MM_Xa-8xa-07
zWomGJnHpSQrUuuSsloMSYH)p-8eCtd2G^I7<b&(WR8?Q)_~`Uw<)|p*6&XyFKcm5p
zavE;1qwOu+kTi<RldF)j8Vf25;jElq5ctNXg34+tsI1)um9@K|vYHDjtGS@ES_&$w
zrJ%C*6jaupg38)kP+5BmDr;XsW$i1dto;R*wcjjDT2FoWzR|__`LY?@8l26=`uVaI
zRGN$VgG+O9e{ePz`{&D6(6_ldKyYcU9uS<()dlipE9l!?oglb0S1$<8=IRFdvN_*o
zJxN{cVZu8Jj}RUsJORkjvl7^RiwzKr#vhMaKh1p465dTXM|eNs1BCO0pCf#fZ~>rJ
zDQz!y8RK8<Jn8J}=v1L5WNcucJlIsCEME3l;Iqqw-fGeVHD4xdf06XblSyoUQl`c{
z+0@FV_4BOcFAzRM_%y4lwpzeo)gHphCGa5>m8E6L*(56MX0&SMW`b?ZIdvl^3pa<s
zvmPI6n;&zsaD@Ywa+u04@`I!gypgLj5{e=cC-;$J4HlkdZCJI166*d$xjU<X$AqV>
zbSp0)w{*bGn?2Fl)s7HE&X?JKQx3VzD#*B^W_G!MJK$pw;|RN+^qy*WrKK-<VNZ&B
z%Ux-OJs_)|_X$~b_a~}7$N}$=wf8)+U#y`7JR$S;$0QBqh8Tx4^M0Q9Q9%OfvR~lK
zBn|RDV$wi=rP>$}@D`H@&Lg3GRFLN%C%O3p3=zZ+c{wSl2tk#+O%U{?q)y&PC3OM{
zP$wPcrBcA7)+I`?UnYE(@Og?3d$I&KYk6uoq=fL<M#uwu!HqBTq|&2XN_3w@3hTgf
zI}x42c4^ElcemQeqD=@nZ<cEtUtk5kNcakC;W~~+9It`TQg#Nl0wM0AX7Hf#OAsf)
zTVG;f(s6kFp_DZ+IC?ro58$uzO<yDYG2vxqTV(Gb5{H;XI=ZbtVcItd*9hMs{0-r6
z39k_T3!qkV<#*W&*jSQE_5`LJvK@xS*lItc*16Rj-&3AE+Fk?<@O?NI>EjMQ)r#(i
zTSEvh5yr+FX)|#rMx)rg7{i$uI6BRC>dnp3$D={G9a$Z`=lby8)^6K5+I7DzEPVLo
zl9anlVTwuMU=Hl<kQ+>V(h(B|$$lR#Lkrv0^82RF9{W^3cfoK8@~s0J%=#BL>2<<?
z68?=)S`H{CloRF>DhUe+iwV_)WrSM7YQjdsI>Kf`Jz)o7CqQX6^23~s^W+)1rCazV
z*~f@_vw3zMi{TKf>@vWLH?z%Kpfv1O_BL~8_qRGNRqA+p3%~m**H&mb5afT2??&iC
zAK^A=Fk_-CVeKZt8VUOdEreSMcM$F*RC3jA9$`KpTXy@&@!`{>sRP#4c|}FIQ#8@P
zqp0YW*~P`h-@CiGsJQxDMH|0WRQJuIif<N`f3s-OH;d+@BiF1<7gbHy0jmWry|!dU
zx@gh#y7jzITr7}x&MqJ<6o1P!nQxi6Q*Gl0mbDJJdV1ZR>7o_lTHcX}5|LUXaH+sW
z*Vb%G7p<J$z9U_<!NB$6TH+RQy;Y#RmO0m6TZyk+A-`T=4OR$by*6!57cHMAt`k@%
zaJ|5qYs**jOV_ST7p+proa?7ou3~xedh-^3(T0ubqP3#z<tlX*o~^yMycQ+kZ7X)-
zU-ccU*QAT;T&0?CsI5yEExWd%p5>9cppidbt6htnIpxTbSBv|#0%Z-VuWiLQY?|H<
zTqh7z!!>9maaX!%<MehQ?f^Fn1T}HJ?%Jm9toKH=!5V>U1+EsjPF}0;Sq}=;O%qoe
zxCS(+M$HyauK-1sC=_&5ROWq|S~V>wbZrIbR3oUo)@YTLivN}^XF1E3pPf%w03cTi
zyta55Zm>zJ1+EsjMl}-eFS*8#sS=;D2ne3#`xjkXiB?-7pI^NOMc){##cNjw1K+z0
ztg}>9aFKzs%JNRtwM8{}^Omh==K;u`#5&_z-dQc~EETv?;41qX%u_YJ1&CB2Qh`X-
z*EQmLg+P>y`|AZRHc*zZPTY|wOV}vxR11{l<9kp7a2wuxt!g=_3A#y8T)}=TduEND
z!KTAfn{hVak@e{Ji-2brUR#CB+UeWxNEhuFxJ%$#MM2)*Chlw(xI(cJ8DQ!3a)>C1
zD>UYE#V%~#n&~y@GAmV=k=<8zT+vxoM-$H)?Nm1{x?~|}uyTzO2C}ou_sVz4>y79j
z5IGPY>!(+M7i$z1%y-FeUWIRlATdOdEK`276h*SbEMGl^S}$8Z1q!UFokE$*R`I%K
z*%Z1;-O4FYqXww1L5(R;WBrCHbZU7maTUs`MSZ6rURI)n6|U4;l&}n)6XmNsGN*Vi
zYQd+(+ozYU5MP3FKn;|$e7YK6QuXrE%~R;=B2|?mQ{}sewP2vBqPkZqiul)Z^&W9g
z)qrmRhi;uJ+W7L;=oAFo#!XY8=#E>az!$t;FTQ$}_?Bf5y{rdIlXaq)wy$f9Yni%K
z-C47a-?CEBbtS%fImB4i^2Zl|!ANT2Vu4i#E{1U7$E~Sn^@$)LaOJgiTc#itckY`i
z+CF{DUVNyk%=#T{0^%}(s}vbG?V7?UKm@CJ5MvbXD8%T<rrZc}Kr(BTcO=${`x0>n
z`By0RU~?~@7LBgHkYuGWVfli@>UulAa4Sf#X6@tb-H%f~vT=#audPPYS0S~bX{u<;
z^sYvJ5pj*c%>p;(++Qv3Y!E1)+9a;m3&b@_TP3b*r*}0>6>Z4wYPodm(~rG4dumr0
ze~JuSr+4ipQHgc<gf06?vdtiL?YB2IT&ns+5><J5?dA*CCn`|fD<vhxC15U6VHt)6
zARgjhtHfU}yvFoeabF{H;u=_2Fv|S7SWpT4I<OzURemwwtSG%r&?Xq!8n^rqc|lUN
zU4GntgXPw5Cr54FHWO|_xi^yc7W9Nw(>r#O*NE!{ZV<S|xZWzR>rpzpG~1ltvQhoJ
z7Q-0(Pd;Scbr6`V@Gsi}y%yX-?MD8!9pZ;QgjDx!6Wj-z5}6C^id-_U2i>{Q4oJ_%
zdU2mMDy*z}^kB4rYzGf+5cfBrtip1!6i^Ek%ta^+xW7)7wMmpLaih2<9XC**POk?Q
zC1NPT^-84hS$@YY=<lpsV>9U_Yxu+9cJZvlTduK$_2SM(folY=G;p<%XS2B8BCyuT
zzee1t7k6Yio5b~MfoqMNo5i(!qr6@x?yM6f$nsZ+I}+=}wM6-C603}-wuozqvP@Zy
z%75+FJEn?S1a7-_+W`)b#0>&B3S2Kx-fs}sI|a%-+r;&Dfz1Lpi*oiEcWx1PHp^6j
zYX#ODcVy}YkyDnrL!>r{JIlqj{1TZ{eP>R|=34@<UuGRQ3*0gTwnos0UnZ^=xLx4p
zY2Nw2y;{9<TgMT93xW?I34s6zf)5}7g5Wp6Pw+z|CDE2G$&xj;M|NB&apLcZolKP4
zlS*ACO-7|kO)5{SjLTFRSBWbOU4R{#zkpC4ug>qccX$A8dB!Q?=6Cz{?%nO}?d|RD
zdrOMj%CUGu={3a-#fIXl;-;eQVNdBTMf>j6vvl_H7>u~8u|x%jBo13fNvCUYRgDgj
zM$X6u7c(BQik8MT44g&OkBvW0bkgNNe*Wi2e|mJBu09^?<R=k-po(E$wxgk)izpb#
z*|05tTEjl8bk^Y`7Zv9eR}`Cy3yO<pvpDgq>LV9V=tpacRmCO6Is#EfKI|<}oKmbS
zmIrX+v<lBS-DzRBttr+NOOAhV$jK9T6<dmy(^Pt40N0eRDWdio&R-YO?d-O_tqySm
zR|cNT4JdME0OysiSq^T&+zsnE+aNO#dH^;QXHOWL&Gn)(`gskHi@1-|%QfKfmO3l&
zPK$2z1?aYpiv#rLID<hoBMO8ei2CMi9OdFGMiez0c%Rz#wogUdo2#`tv?013WgDT*
zW@i`CW6L7ee-RSZO<ZK;=@%Cs3X^Qg%9D``4@LNM8Is*_G?1g`El<kddX+FfB;(Ih
z-t59(e9SS7<)mshhh^z$;le`^rjs%r7Dgm%0(QEho&I~g(4J}>k2fEuOuQwp2>C3{
zXX1;Gx(g4b$qeD4vU%a5?2dW`1cy0;h|9J>X;N%nz}woKHKnx+Piy#4-mnj8j(yLL
zoekQ>_2cZu<FtuSN?Kn)*<JT0VUStllSv6snsq+pm)rxpT)w7Vc2iyjD^|4P%<c>f
zy0Gsae5to5mnmD_WRiFYnin3*Zr;mIKfYq(Y*1Wv4KPQFhywBC#N^{~?fPlac2-Zw
zqN)OAH|Ldbo)yjt*w9Qs@Q%Q!yJ%x?#Yq!Sphv7C3X@C7YI|;v536{+f~7B>O~ZHs
zI{_*=(pr5tnt)ZmDtB1sR97fXhMM4P^qmp$pWMFiP?!QMIOnLd-V&rxt&>H0Ua;ZP
zSq+<^Vq!`8wWwlAKszPumjc-jrA^h6_yM-bbHt@X9TAIC#zt{-a*G0{GaT9qb%3&)
z@d9|!{3*AT-B>fKFsCFRO40^aJx(L&Y6|Xf!o-v4YV{>b=9~N|9@bvI@KBln+HSAk
zRIQ_rIeHKiXN%^MYmsvAqBLd7#O78e*PK(TZTF_+hNS+;wEEjdATy(Ga6xfH(YnXF
z(lrww#w*n=ZbaXtDFc^TrKJ2+S|mTsT5Bj!<3>*)-ZrOAd|+%-xb!ZE;JZ2m=gwZ$
z;x5&&SJt33nM*Z%n7`^e-~+c0N|UA*xLhcsh4s0SKerosqST&l9Z%p?$ei+mR@G~o
z#R;V=in#%PaKe^ziZ$ieEv;A?plv_dv*m-6#@+6atlX0`5W_JLUEgaSbrVA?N8O~?
zywM$ruiSutYNBRrnDr^Ic~`nu{1sr@YrZPo@x%%+<2B!uZZ^3B%z4fG(w!Jt0p`8t
z8`7N|T>%!9KQ%^vp#2n6?5Cvs=_}-yb*xI7V-0zdJzw<JUg9lz>(#cmezJv2>SAXV
zF$``o5#l@sZTS{gl!Lnr_{Fo<{gc+4nCbRga@P6)Gu{4>Gu?h$FjZnw>5(|;QE&SJ
zXG=_Z+t{C1d}3PZ@dW9NxBVVxOU!xOzu;_%khpkW_BLM;3b=Cz$L`6_r#wJ6Zt@W9
z<E+w_Z*f&QxYD3y`K<NkN$UYcej6fxOp!lPk>6F3fe;x8k%18TXDTufB10&M41~x)
zhzx|t@2ki_i2N%R83>Wfrj(R<=fmeso_m6u3#BOxNtS0A3Ntz;+4l7Mg@@9VaPqZh
zT5OfoR?pPMXU}0FdVyjfu&CjHLma|PPBcy#Ow6A0;Af(|hgIv4+`cd=o{)60D9tE#
z%CiOMd$~)wuXKm=fl}zhr5(pjws_#)VP|X>b@r~SxbzAgN#ri#l6`_R28BtbQNiO3
z<$2AUt}@L~LO@wK<u!1&^J8&QTMpuaat0Aj70P}F$yMhm&<`&>6xbWH&}qfQv%OP=
zgjpQM62WtzFboHt6|EO3RNB@3;{p!EiBsMZ7dk%{5pbjZoGuiya9lJi6!f7&jY{@Q
zjDi9iS+i~?J}$o(Jvm62x(~TwHz>|Co;|`D2+rU$1sz(So-whwG`>8bsvBlBCLaq;
zi6uU*(LQQwD}ma|lwwJdA6OU~5Gx%fe=OpY3uv?iPM^{a%W8)RazP{PeIeR5-$AS{
z+Upt<5#9n3J_DB&7ZfeuBGwOq1j7@?6R8+Zc&-Rb%!gNlyoSd!im)AC<P~c!s9r@H
z1MUq7#|A{k7KqEm>+LrlwO1c?@wrkS#!#$1jA4^;z^vLQN^E+K_Cf?nuZhXgARbzS
zD9yI(FCUlSU#56)XP<(P!US9^$cuu09J@0(X<*TzFI)slO3x`S=}pYu$1p7R2Kz<<
zw=<7`04H-&ekWW^mL^Y2wtm5kl16JaAPD;9h%?y)=+AkyW=#&2f3t1i;MVrwIo0sK
z!wZu|$%K2OG7*->LDge`WKHVfElEqJTlZqw=dh~r{|tfZl7d>u8<uIu0~Mx+rKW&s
z+u9(i4PN+0W)dT<`x1n?VJU`bACEZobL?e;pj1FAA0jd?hWUg{hI!XG=LYg6=LQ1x
zKk|lUKu8-)^y5K|FV7_NJmyO=8lq^!+Li0-^srWS?0~9kHXAjY<x~oky-d(qU_K)2
zI4rGxW+MH}MEWU3yb^e;t-m778IfvO@X=YO4{_)!rQk-XMO_Tc$npGWp+Mol`u^fU
z)^dn&9i95JP0>~0fD~574W#lnL!UgYu(jHx&nrqL+$ZeyDhw3h>tTlyGHIyFJymuq
zul5s{0NQNre--@W&ewNo!w7S7-Yt1uzJ?Zjc~vN4U{dUjF)Dj=VLN-PqV?5#!gV={
zbdGtbUHP)k!Ah)9&}G3qeA%>8SR-^Y&#+=Q#E#zylK|t7!UzLbtDQEYCQUX`z0^5c
zG0gdBoErgEP%HMO#m1LF#c*S6u!9Zk(if~u8Jaw*Nu_&Byjbu&CUT875_Cz0KC7=^
zs=gjoU#F?*D@PIUDD=@9d)wkH=sUPgAB4Ce^-SuAD76D?440bVX1{Ysj<;XqDjkG5
zR`%OkO82l<48xpZIB25Eb-a1<CL@?4HO0kJp1PN5^7@q8AXcI;N>Z|6-j@xwn+?;G
zSiAKp`K^R4=bPptQ${yA7*@EP#J++@K|g6(4Qu0ox~{S=SHEwiC=EoaI3serEFaN<
z+v@1rRlvmh9bADst14*1BL;&>`m!8m5_lH|gX?lZDrR#6-8bAA7zhR*rULMG6flu!
zQxEv0$nEtuKfS72a8G6E3Zq5sdY&5&f!eA@(yIk44;mbXe0U9>2ZMKa)I1Zi;d~S*
z=S(n~<AI9CcoDB2wX1VnjHdfQP1!BDYEo4^AEsm2wn?X0Jzn}pNyT-gx>DunUeHG$
z%a{>4G=4&^L&%-OulE00_$HuNc_1P39P?pr3R-PV0}knG!kkkuoVHRgWaiO)RjX5Q
zBjpq{S4L>!)+8l+PAE{UP$#3x?JcD`urawUVM&c<43dEARXfwugHV+N9r&_mGGjQ~
z%HHyQT!!XD#3<^OVH(c;Luj=W1;@*ow0&#qmw0RK$G*jVd1#$H7DugMfy<;PwC={<
z35~-n^pkR5xPz3b2cB-xzK@;Z%L?dW7-rADo~ON6<b655`2m;YCbSR9;YaQvQa!%=
z2^|S8vl;IVc}Kpv+y3aY<BxvBmhT`6<28l(JCwK*Yu1Jd#vnvg1jr(IKp3xP6kwc#
zqrWHqwfhY&ISF|S1HG^+$tvpybf(T05r)LjQ_`tb9a5eXz-$vR02q>P-Wo2dypP$m
zw@pzGCZ}gKQC+)?Xpc6);`b2k!MAAJ{4}_v<64|o`lm-E%Q5%=A5Iwf-GS^eb46d+
zpgup{F7F)Yk=xH|TI>nJX9O7rThJylH8I8f6))2$&vRaF7RzX_+q~7{ri@#={zXEw
zDKJVK<2J>~5eMKApgz?ZViBG6KY-$nh1lQT5av1!<nI<v8gJpo!q{CCwJ5?-_*q;9
z`Bgb^Ur21$zn`d#(v_5*;-bVW_5;X1F0!i~;#v={gFd~16wiK#xS_b&L)>#Vwf3OL
zL7Oe5fvDX&y>+|o-Ruze6%TrNx9uIAO+ih06CcA4*4T|iSnByKs9*u#g7BXR60P`W
zBtpx<<rExzM(DY>^R&kwg7}9huYklUi#A<u=UayZnMAYf*@KVhE&`L!!RctigG6`P
zX6Hj(Y67epQ{<Tw=7y25PxM-n2=g&yc9K^pJ+nC^x>Xm*@@<=9;U@+x4>I%iD>YXm
z(C;x8OG?iuT6$V(<QUP?@(W5AJB#{ljEMXs5N&{{?c*7*9=P(4AjZ*bED2@?VKqxk
zjQ>H}Eu`E@z*DaC4<NR_8Efw%z$Ss#o3sTJOUUh5`|9g7>)SDP$Fx<PFh2l@yekk|
zHT9lNz$fHA_*Y-<0R;yjg4(^%NBE89y$1VQ=p5eS?+AzZoVKI5p}3`ZRlhWpD9MMS
g`CSq?ysH?dOu0W5%?^_YkxMJl;g>E5`rGk;0p5XdyZ`_I

literal 0
HcmV?d00001

diff --git a/third_party/pynvml.py b/third_party/pynvml.py
new file mode 100644
index 0000000..79aa4d3
--- /dev/null
+++ b/third_party/pynvml.py
@@ -0,0 +1,6140 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# copied from https://pypi.org/project/nvidia-ml-py
+# version 12.570.86
+
+#####
+# Copyright (c) 2011-2023, NVIDIA Corporation.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without
+# modification, are permitted provided that the following conditions are met:
+#
+#    * Redistributions of source code must retain the above copyright notice,
+#      this list of conditions and the following disclaimer.
+#    * Redistributions in binary form must reproduce the above copyright
+#      notice, this list of conditions and the following disclaimer in the
+#      documentation and/or other materials provided with the distribution.
+#    * Neither the name of the NVIDIA Corporation nor the names of its
+#      contributors may be used to endorse or promote products derived from
+#      this software without specific prior written permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+# AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+# ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE
+# LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
+# CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
+# SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
+# INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
+# CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
+# ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF
+# THE POSSIBILITY OF SUCH DAMAGE.
+#####
+
+##
+# Python bindings for the NVML library
+##
+from ctypes import *
+from ctypes.util import find_library
+from functools import wraps
+import sys
+import os
+import threading
+import string
+
+## C Type mappings ##
+## Enums
+_nvmlEnableState_t = c_uint
+NVML_FEATURE_DISABLED    = 0
+NVML_FEATURE_ENABLED     = 1
+
+_nvmlBrandType_t = c_uint
+NVML_BRAND_UNKNOWN             = 0
+NVML_BRAND_QUADRO              = 1
+NVML_BRAND_TESLA               = 2
+NVML_BRAND_NVS                 = 3
+NVML_BRAND_GRID                = 4   # Deprecated from API reporting. Keeping definition for backward compatibility.
+NVML_BRAND_GEFORCE             = 5
+NVML_BRAND_TITAN               = 6
+NVML_BRAND_NVIDIA_VAPPS        = 7   # NVIDIA Virtual Applications
+NVML_BRAND_NVIDIA_VPC          = 8   # NVIDIA Virtual PC
+NVML_BRAND_NVIDIA_VCS          = 9   # NVIDIA Virtual Compute Server
+NVML_BRAND_NVIDIA_VWS          = 10  # NVIDIA RTX Virtual Workstation
+NVML_BRAND_NVIDIA_CLOUD_GAMING = 11  # NVIDIA Cloud Gaming
+NVML_BRAND_NVIDIA_VGAMING      = NVML_BRAND_NVIDIA_CLOUD_GAMING # Deprecated from API reporting. Keeping definition for backward compatibility.
+NVML_BRAND_QUADRO_RTX          = 12
+NVML_BRAND_NVIDIA_RTX          = 13
+NVML_BRAND_NVIDIA              = 14
+NVML_BRAND_GEFORCE_RTX         = 15  # Unused
+NVML_BRAND_TITAN_RTX           = 16  # Unused
+NVML_BRAND_COUNT               = 17
+
+_nvmlTemperatureThresholds_t = c_uint
+NVML_TEMPERATURE_THRESHOLD_SHUTDOWN      = 0
+NVML_TEMPERATURE_THRESHOLD_SLOWDOWN      = 1
+NVML_TEMPERATURE_THRESHOLD_MEM_MAX       = 2
+NVML_TEMPERATURE_THRESHOLD_GPU_MAX       = 3
+NVML_TEMPERATURE_THRESHOLD_ACOUSTIC_MIN  = 4
+NVML_TEMPERATURE_THRESHOLD_ACOUSTIC_CURR = 5
+NVML_TEMPERATURE_THRESHOLD_ACOUSTIC_MAX  = 6
+NVML_TEMPERATURE_THRESHOLD_GPS_CURR      = 7
+NVML_TEMPERATURE_THRESHOLD_COUNT         = 8
+
+_nvmlTemperatureSensors_t = c_uint
+NVML_TEMPERATURE_GPU     = 0
+NVML_TEMPERATURE_COUNT   = 1
+
+
+_nvmlComputeMode_t = c_uint
+NVML_COMPUTEMODE_DEFAULT           = 0
+NVML_COMPUTEMODE_EXCLUSIVE_THREAD  = 1  ## Support Removed
+NVML_COMPUTEMODE_PROHIBITED        = 2
+NVML_COMPUTEMODE_EXCLUSIVE_PROCESS = 3
+NVML_COMPUTEMODE_COUNT             = 4
+
+_nvmlMemoryLocation_t = c_uint
+NVML_MEMORY_LOCATION_L1_CACHE = 0
+NVML_MEMORY_LOCATION_L2_CACHE = 1
+NVML_MEMORY_LOCATION_DEVICE_MEMORY = 2
+NVML_MEMORY_LOCATION_DRAM = 2
+NVML_MEMORY_LOCATION_REGISTER_FILE = 3
+NVML_MEMORY_LOCATION_TEXTURE_MEMORY = 4
+NVML_MEMORY_LOCATION_TEXTURE_SHM = 5
+NVML_MEMORY_LOCATION_CBU = 6
+NVML_MEMORY_LOCATION_SRAM = 7
+NVML_MEMORY_LOCATION_COUNT = 8
+
+NVML_NVLINK_MAX_LINKS = 18
+
+# For backwards compatibility, maintain the incorrectly-named "LANES" define
+NVML_NVLINK_MAX_LANES = NVML_NVLINK_MAX_LINKS
+
+_nvmlNvLinkErrorCounter_t = c_uint
+NVML_NVLINK_ERROR_DL_REPLAY = 0
+NVML_NVLINK_ERROR_DL_RECOVERY = 1
+NVML_NVLINK_ERROR_DL_CRC_FLIT = 2
+NVML_NVLINK_ERROR_DL_CRC_DATA = 3
+NVML_NVLINK_ERROR_DL_ECC_DATA = 4
+NVML_NVLINK_ERROR_COUNT = 5
+
+_nvmlNvLinkEccLaneErrorCounter_t = c_uint
+NVML_NVLINK_ERROR_DL_ECC_LANE0 = 0
+NVML_NVLINK_ERROR_DL_ECC_LANE1 = 1
+NVML_NVLINK_ERROR_DL_ECC_LANE2 = 2
+NVML_NVLINK_ERROR_DL_ECC_LANE3 = 3
+NVML_NVLINK_ERROR_DL_ECC_COUNT = 5
+
+_nvmlNvLinkCapability_t = c_uint
+NVML_NVLINK_CAP_P2P_SUPPORTED = 0
+NVML_NVLINK_CAP_SYSMEM_ACCESS = 1
+NVML_NVLINK_CAP_P2P_ATOMICS   = 2
+NVML_NVLINK_CAP_SYSMEM_ATOMICS= 3
+NVML_NVLINK_CAP_SLI_BRIDGE    = 4
+NVML_NVLINK_CAP_VALID         = 5
+NVML_NVLINK_CAP_COUNT         = 6
+
+_nvmlNvLinkUtilizationCountPktTypes_t = c_uint
+NVML_NVLINK_COUNTER_PKTFILTER_NOP        = 0x1
+NVML_NVLINK_COUNTER_PKTFILTER_READ       = 0x2
+NVML_NVLINK_COUNTER_PKTFILTER_WRITE      = 0x4
+NVML_NVLINK_COUNTER_PKTFILTER_RATOM      = 0x8
+NVML_NVLINK_COUNTER_PKTFILTER_NRATOM     = 0x10
+NVML_NVLINK_COUNTER_PKTFILTER_FLUSH      = 0x20
+NVML_NVLINK_COUNTER_PKTFILTER_RESPDATA   = 0x40
+NVML_NVLINK_COUNTER_PKTFILTER_RESPNODATA = 0x80
+NVML_NVLINK_COUNTER_PKTFILTER_ALL        = 0xFF
+
+_nvmlNvLinkUtilizationCountUnits_t = c_uint
+NVML_NVLINK_COUNTER_UNIT_CYCLES   = 0
+NVML_NVLINK_COUNTER_UNIT_PACKETS  = 1
+NVML_NVLINK_COUNTER_UNIT_BYTES    = 2
+NVML_NVLINK_COUNTER_UNIT_RESERVED = 3
+NVML_NVLINK_COUNTER_UNIT_COUNT    = 4
+
+_nvmlNvLinkDeviceType_t = c_uint
+NVML_NVLINK_DEVICE_TYPE_GPU     = 0x00
+NVML_NVLINK_DEVICE_TYPE_IBMNPU  = 0x01
+NVML_NVLINK_DEVICE_TYPE_SWITCH  = 0x02
+NVML_NVLINK_DEVICE_TYPE_UNKNOWN = 0xFF
+
+# These are deprecated, instead use _nvmlMemoryErrorType_t
+_nvmlEccBitType_t = c_uint
+NVML_SINGLE_BIT_ECC    = 0
+NVML_DOUBLE_BIT_ECC    = 1
+NVML_ECC_ERROR_TYPE_COUNT = 2
+
+_nvmlEccCounterType_t = c_uint
+NVML_VOLATILE_ECC      = 0
+NVML_AGGREGATE_ECC     = 1
+NVML_ECC_COUNTER_TYPE_COUNT = 2
+
+_nvmlMemoryErrorType_t = c_uint
+NVML_MEMORY_ERROR_TYPE_CORRECTED   = 0
+NVML_MEMORY_ERROR_TYPE_UNCORRECTED = 1
+NVML_MEMORY_ERROR_TYPE_COUNT       = 2
+
+_nvmlClockType_t = c_uint
+NVML_CLOCK_GRAPHICS  = 0
+NVML_CLOCK_SM        = 1
+NVML_CLOCK_MEM       = 2
+NVML_CLOCK_VIDEO     = 3
+NVML_CLOCK_COUNT     = 4
+
+_nvmlClockId_t = c_uint
+NVML_CLOCK_ID_CURRENT            = 0
+NVML_CLOCK_ID_APP_CLOCK_TARGET   = 1
+NVML_CLOCK_ID_APP_CLOCK_DEFAULT  = 2
+NVML_CLOCK_ID_CUSTOMER_BOOST_MAX = 3
+NVML_CLOCK_ID_COUNT              = 4
+
+_nvmlDriverModel_t = c_uint
+NVML_DRIVER_WDDM       = 0
+NVML_DRIVER_WDM        = 1
+NVML_DRIVER_MCDM       = 2
+
+NVML_MAX_GPU_PERF_PSTATES = 16
+
+_nvmlPstates_t = c_uint
+NVML_PSTATE_0               = 0
+NVML_PSTATE_1               = 1
+NVML_PSTATE_2               = 2
+NVML_PSTATE_3               = 3
+NVML_PSTATE_4               = 4
+NVML_PSTATE_5               = 5
+NVML_PSTATE_6               = 6
+NVML_PSTATE_7               = 7
+NVML_PSTATE_8               = 8
+NVML_PSTATE_9               = 9
+NVML_PSTATE_10              = 10
+NVML_PSTATE_11              = 11
+NVML_PSTATE_12              = 12
+NVML_PSTATE_13              = 13
+NVML_PSTATE_14              = 14
+NVML_PSTATE_15              = 15
+NVML_PSTATE_UNKNOWN         = 32
+
+_nvmlInforomObject_t = c_uint
+NVML_INFOROM_OEM            = 0
+NVML_INFOROM_ECC            = 1
+NVML_INFOROM_POWER          = 2
+NVML_INFOROM_DEN            = 3
+NVML_INFOROM_COUNT          = 4
+
+_nvmlReturn_t = c_uint
+NVML_SUCCESS                         = 0
+NVML_ERROR_UNINITIALIZED             = 1
+NVML_ERROR_INVALID_ARGUMENT          = 2
+NVML_ERROR_NOT_SUPPORTED             = 3
+NVML_ERROR_NO_PERMISSION             = 4
+NVML_ERROR_ALREADY_INITIALIZED       = 5
+NVML_ERROR_NOT_FOUND                 = 6
+NVML_ERROR_INSUFFICIENT_SIZE         = 7
+NVML_ERROR_INSUFFICIENT_POWER        = 8
+NVML_ERROR_DRIVER_NOT_LOADED         = 9
+NVML_ERROR_TIMEOUT                   = 10
+NVML_ERROR_IRQ_ISSUE                 = 11
+NVML_ERROR_LIBRARY_NOT_FOUND         = 12
+NVML_ERROR_FUNCTION_NOT_FOUND        = 13
+NVML_ERROR_CORRUPTED_INFOROM         = 14
+NVML_ERROR_GPU_IS_LOST               = 15
+NVML_ERROR_RESET_REQUIRED            = 16
+NVML_ERROR_OPERATING_SYSTEM          = 17
+NVML_ERROR_LIB_RM_VERSION_MISMATCH   = 18
+NVML_ERROR_IN_USE                    = 19
+NVML_ERROR_MEMORY                    = 20
+NVML_ERROR_NO_DATA                   = 21
+NVML_ERROR_VGPU_ECC_NOT_SUPPORTED    = 22
+NVML_ERROR_INSUFFICIENT_RESOURCES    = 23
+NVML_ERROR_FREQ_NOT_SUPPORTED        = 24
+NVML_ERROR_ARGUMENT_VERSION_MISMATCH = 25
+NVML_ERROR_DEPRECATED                = 26
+NVML_ERROR_NOT_READY                 = 27
+NVML_ERROR_GPU_NOT_FOUND             = 28
+NVML_ERROR_INVALID_STATE             = 29
+NVML_ERROR_UNKNOWN                   = 999
+
+_nvmlFanState_t = c_uint
+NVML_FAN_NORMAL             = 0
+NVML_FAN_FAILED             = 1
+
+_nvmlFanControlPolicy_t = c_uint
+NVML_FAN_POLICY_TEMPERATURE_CONTINOUS_SW = 0
+NVML_FAN_POLICY_MANUAL                   = 1
+
+_nvmlLedColor_t = c_uint
+NVML_LED_COLOR_GREEN        = 0
+NVML_LED_COLOR_AMBER        = 1
+
+_nvmlGpuOperationMode_t = c_uint
+NVML_GOM_ALL_ON                 = 0
+NVML_GOM_COMPUTE                = 1
+NVML_GOM_LOW_DP                 = 2
+
+_nvmlPageRetirementCause_t = c_uint
+NVML_PAGE_RETIREMENT_CAUSE_MULTIPLE_SINGLE_BIT_ECC_ERRORS = 0
+NVML_PAGE_RETIREMENT_CAUSE_DOUBLE_BIT_ECC_ERROR           = 1
+NVML_PAGE_RETIREMENT_CAUSE_COUNT                          = 2
+
+_nvmlRestrictedAPI_t = c_uint
+NVML_RESTRICTED_API_SET_APPLICATION_CLOCKS                = 0
+NVML_RESTRICTED_API_SET_AUTO_BOOSTED_CLOCKS               = 1
+NVML_RESTRICTED_API_COUNT                                 = 2
+
+_nvmlBridgeChipType_t = c_uint
+NVML_BRIDGE_CHIP_PLX = 0
+NVML_BRIDGE_CHIP_BRO4 = 1
+NVML_MAX_PHYSICAL_BRIDGE = 128
+
+_nvmlValueType_t = c_uint
+NVML_VALUE_TYPE_DOUBLE = 0
+NVML_VALUE_TYPE_UNSIGNED_INT = 1
+NVML_VALUE_TYPE_UNSIGNED_LONG = 2
+NVML_VALUE_TYPE_UNSIGNED_LONG_LONG = 3
+NVML_VALUE_TYPE_SIGNED_LONG_LONG = 4
+NVML_VALUE_TYPE_SIGNED_INT = 5
+NVML_VALUE_TYPE_UNSIGNED_SHORT = 6
+NVML_VALUE_TYPE_COUNT = 7
+
+_nvmlNvlinkVersion_t = c_uint
+NVML_NVLINK_VERSION_INVALID = 0
+NVML_NVLINK_VERSION_1_0 = 1
+NVML_NVLINK_VERSION_2_0 = 2
+NVML_NVLINK_VERSION_2_2 = 3
+NVML_NVLINK_VERSION_3_0 = 4
+NVML_NVLINK_VERSION_3_1 = 5
+NVML_NVLINK_VERSION_4_0 = 6
+NVML_NVLINK_VERSION_5_0 = 7
+
+_nvmlPerfPolicyType_t = c_uint
+NVML_PERF_POLICY_POWER = 0
+NVML_PERF_POLICY_THERMAL = 1
+NVML_PERF_POLICY_SYNC_BOOST = 2
+NVML_PERF_POLICY_BOARD_LIMIT = 3
+NVML_PERF_POLICY_LOW_UTILIZATION = 4
+NVML_PERF_POLICY_RELIABILITY = 5
+NVML_PERF_POLICY_TOTAL_APP_CLOCKS = 10
+NVML_PERF_POLICY_TOTAL_BASE_CLOCKS = 11
+NVML_PERF_POLICY_COUNT = 12
+
+_nvmlEncoderQueryType_t = c_uint
+NVML_ENCODER_QUERY_H264 = 0
+NVML_ENCODER_QUERY_HEVC = 1
+NVML_ENCODER_QUERY_AV1 = 2
+NVML_ENCODER_QUERY_UNKNOWN = 255
+
+_nvmlFBCSessionType_t = c_uint
+NVML_FBC_SESSION_TYPE_UNKNOWN = 0
+NVML_FBC_SESSION_TYPE_TOSYS = 1
+NVML_FBC_SESSION_TYPE_CUDA = 2
+NVML_FBC_SESSION_TYPE_VID = 3
+NVML_FBC_SESSION_TYPE_HWENC = 4
+
+_nvmlDetachGpuState_t = c_uint
+NVML_DETACH_GPU_KEEP = 0
+NVML_DETACH_GPU_REMOVE = 1
+
+_nvmlPcieLinkState_t = c_uint
+NVML_PCIE_LINK_KEEP = 0
+NVML_PCIE_LINK_SHUT_DOWN = 1
+
+_nvmlSamplingType_t = c_uint
+NVML_TOTAL_POWER_SAMPLES = 0
+NVML_GPU_UTILIZATION_SAMPLES = 1
+NVML_MEMORY_UTILIZATION_SAMPLES = 2
+NVML_ENC_UTILIZATION_SAMPLES = 3
+NVML_DEC_UTILIZATION_SAMPLES = 4
+NVML_PROCESSOR_CLK_SAMPLES = 5
+NVML_MEMORY_CLK_SAMPLES = 6
+NVML_MODULE_POWER_SAMPLES = 7
+NVML_JPG_UTILIZATION_SAMPLES = 8
+NVML_OFA_UTILIZATION_SAMPLES = 9
+NVML_SAMPLINGTYPE_COUNT = 10
+
+_nvmlPcieUtilCounter_t = c_uint
+NVML_PCIE_UTIL_TX_BYTES = 0
+NVML_PCIE_UTIL_RX_BYTES = 1
+NVML_PCIE_UTIL_COUNT = 2
+
+_nvmlGpuTopologyLevel_t = c_uint
+NVML_TOPOLOGY_INTERNAL = 0
+NVML_TOPOLOGY_SINGLE = 10
+NVML_TOPOLOGY_MULTIPLE = 20
+NVML_TOPOLOGY_HOSTBRIDGE = 30
+NVML_TOPOLOGY_NODE = 40
+NVML_TOPOLOGY_CPU = NVML_TOPOLOGY_NODE
+NVML_TOPOLOGY_SYSTEM = 50
+
+_nvmlGpuP2PCapsIndex_t = c_uint
+NVML_P2P_CAPS_INDEX_READ = 0,
+NVML_P2P_CAPS_INDEX_WRITE = 1
+NVML_P2P_CAPS_INDEX_NVLINK =2
+NVML_P2P_CAPS_INDEX_ATOMICS = 3
+#
+# NVML_P2P_CAPS_INDEX_PROP is deprecated.
+# Use NVML_P2P_CAPS_INDEX_PCI instead.
+#
+NVML_P2P_CAPS_INDEX_PROP = 4
+NVML_P2P_CAPS_INDEX_PCI = 4
+NVML_P2P_CAPS_INDEX_UNKNOWN = 5
+
+_nvmlGpuP2PStatus_t = c_uint
+NVML_P2P_STATUS_OK     = 0
+NVML_P2P_STATUS_CHIPSET_NOT_SUPPORED = 1
+NVML_P2P_STATUS_CHIPSET_NOT_SUPPORTED = NVML_P2P_STATUS_CHIPSET_NOT_SUPPORED
+NVML_P2P_STATUS_GPU_NOT_SUPPORTED = 2
+NVML_P2P_STATUS_IOH_TOPOLOGY_NOT_SUPPORTED =3
+NVML_P2P_STATUS_DISABLED_BY_REGKEY =4
+NVML_P2P_STATUS_NOT_SUPPORTED =5
+NVML_P2P_STATUS_UNKNOWN =6
+
+_nvmlDeviceArchitecture_t = c_uint
+NVML_DEVICE_ARCH_KEPLER   = 2
+NVML_DEVICE_ARCH_MAXWELL  = 3
+NVML_DEVICE_ARCH_PASCAL   = 4
+NVML_DEVICE_ARCH_VOLTA    = 5
+NVML_DEVICE_ARCH_TURING   = 6
+NVML_DEVICE_ARCH_AMPERE   = 7
+NVML_DEVICE_ARCH_ADA      = 8
+NVML_DEVICE_ARCH_HOPPER   = 9
+NVML_DEVICE_ARCH_BLACKWELL   = 10
+NVML_DEVICE_ARCH_T23X     = 11
+NVML_DEVICE_ARCH_UNKNOWN  = 0xffffffff
+
+# PCI bus Types
+_nvmlBusType_t = c_uint
+NVML_BUS_TYPE_UNKNOWN = 0
+NVML_BUS_TYPE_PCI     = 1
+NVML_BUS_TYPE_PCIE    = 2
+NVML_BUS_TYPE_FPCI    = 3
+NVML_BUS_TYPE_AGP     = 4
+
+_nvmlPowerSource_t = c_uint
+NVML_POWER_SOURCE_AC         = 0x00000000
+NVML_POWER_SOURCE_BATTERY    = 0x00000001
+NVML_POWER_SOURCE_UNDERSIZED = 0x00000002
+
+_nvmlAdaptiveClockInfoStatus_t = c_uint
+NVML_ADAPTIVE_CLOCKING_INFO_STATUS_DISABLED = 0x00000000
+NVML_ADAPTIVE_CLOCKING_INFO_STATUS_ENABLED = 0x00000001
+
+_nvmlClockLimitId_t = c_uint
+NVML_CLOCK_LIMIT_ID_RANGE_START = 0xffffff00
+NVML_CLOCK_LIMIT_ID_TDP         = 0xffffff01
+NVML_CLOCK_LIMIT_ID_UNLIMITED   = 0xffffff02
+
+_nvmlPcieLinkMaxSpeed_t = c_uint
+NVML_PCIE_LINK_MAX_SPEED_INVALID   = 0x00000000
+NVML_PCIE_LINK_MAX_SPEED_2500MBPS  = 0x00000001
+NVML_PCIE_LINK_MAX_SPEED_5000MBPS  = 0x00000002
+NVML_PCIE_LINK_MAX_SPEED_8000MBPS  = 0x00000003
+NVML_PCIE_LINK_MAX_SPEED_16000MBPS = 0x00000004
+NVML_PCIE_LINK_MAX_SPEED_32000MBPS = 0x00000005
+NVML_PCIE_LINK_MAX_SPEED_64000MBPS = 0x00000006
+
+_nvmlPcieAtomicsCapability_t = c_uint
+NVML_PCIE_ATOMICS_CAP_FETCHADD32  = 0x01
+NVML_PCIE_ATOMICS_CAP_FETCHADD64  = 0x02
+NVML_PCIE_ATOMICS_CAP_SWAP32      = 0x04
+NVML_PCIE_ATOMICS_CAP_SWAP64      = 0x08
+NVML_PCIE_ATOMICS_CAP_CAS32       = 0x10
+NVML_PCIE_ATOMICS_CAP_CAS64       = 0x20
+NVML_PCIE_ATOMICS_CAP_CAS128      = 0x40
+NVML_PCIE_ATOMICS_OPS_MAX         = 7
+
+_nvmlAffinityScope_t = c_uint
+NVML_AFFINITY_SCOPE_NODE   = 0
+NVML_AFFINITY_SCOPE_SOCKET = 1
+
+_nvmlDeviceGpuRecoveryAction_t = c_uint
+NVML_GPU_RECOVERY_ACTION_NONE        = 0
+NVML_GPU_RECOVERY_ACTION_GPU_RESET   = 1
+NVML_GPU_RECOVERY_ACTION_NODE_REBOOT = 2
+NVML_GPU_RECOVERY_ACTION_DRAIN_P2P   = 3
+NVML_GPU_RECOVERY_ACTION_DRAIN_AND_RESET = 4
+
+# C preprocessor defined values
+nvmlFlagDefault             = 0
+nvmlFlagForce               = 1
+NVML_INIT_FLAG_NO_GPUS      = 1
+NVML_INIT_FLAG_NO_ATTACH    = 2
+
+NVML_MAX_GPC_COUNT          = 32
+
+# buffer size
+NVML_DEVICE_INFOROM_VERSION_BUFFER_SIZE      = 16
+NVML_DEVICE_UUID_BUFFER_SIZE                 = 80
+NVML_DEVICE_UUID_V2_BUFFER_SIZE              = 96
+NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE       = 80
+NVML_SYSTEM_NVML_VERSION_BUFFER_SIZE         = 80
+NVML_DEVICE_NAME_BUFFER_SIZE                 = 64
+NVML_DEVICE_NAME_V2_BUFFER_SIZE              = 96
+NVML_DEVICE_SERIAL_BUFFER_SIZE               = 30
+NVML_DEVICE_PART_NUMBER_BUFFER_SIZE          = 80
+NVML_DEVICE_GPU_PART_NUMBER_BUFFER_SIZE      = 80
+NVML_DEVICE_VBIOS_VERSION_BUFFER_SIZE        = 32
+NVML_DEVICE_PCI_BUS_ID_BUFFER_SIZE           = 32
+NVML_DEVICE_PCI_BUS_ID_BUFFER_V2_SIZE        = 16
+NVML_GRID_LICENSE_BUFFER_SIZE                = 128
+NVML_VGPU_NAME_BUFFER_SIZE                   = 64
+NVML_GRID_LICENSE_FEATURE_MAX_COUNT          = 3
+NVML_VGPU_METADATA_OPAQUE_DATA_SIZE          = sizeof(c_uint) + 256
+NVML_VGPU_PGPU_METADATA_OPAQUE_DATA_SIZE     = 256
+NVML_DEVICE_GPU_FRU_PART_NUMBER_BUFFER_SIZE  = 0x14 # NV2080_GPU_MAX_PRODUCT_PART_NUMBER_LENGTH
+NVML_PERF_MODES_BUFFER_SIZE                  = 2048
+
+# Format strings
+NVML_DEVICE_PCI_BUS_ID_LEGACY_FMT   = "%04X:%02X:%02X.0"
+NVML_DEVICE_PCI_BUS_ID_FMT          = "%08X:%02X:%02X.0"
+
+NVML_VALUE_NOT_AVAILABLE_ulonglong = c_ulonglong(-1)
+NVML_VALUE_NOT_AVAILABLE_uint = c_uint(-1)
+
+'''
+ Field Identifiers.
+
+ All Identifiers pertain to a device. Each ID is only used once and is guaranteed never to change.
+'''
+NVML_FI_DEV_ECC_CURRENT          = 1   # Current ECC mode. 1=Active. 0=Inactive
+NVML_FI_DEV_ECC_PENDING          = 2   # Pending ECC mode. 1=Active. 0=Inactive
+
+#ECC Count Totals
+NVML_FI_DEV_ECC_SBE_VOL_TOTAL    = 3   # Total single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_TOTAL    = 4   # Total double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_TOTAL    = 5   # Total single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_TOTAL    = 6   # Total double bit aggregate (persistent) ECC errors
+#Individual ECC locations
+NVML_FI_DEV_ECC_SBE_VOL_L1       = 7   # L1 cache single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_L1       = 8   # L1 cache double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_VOL_L2       = 9   # L2 cache single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_L2       = 10  # L2 cache double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_VOL_DEV      = 11  # Device memory single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_DEV      = 12  # Device memory double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_VOL_REG      = 13  # Register file single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_REG      = 14  # Register file double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_VOL_TEX      = 15  # Texture memory single bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_TEX      = 16  # Texture memory double bit volatile ECC errors
+NVML_FI_DEV_ECC_DBE_VOL_CBU      = 17  # CBU double bit volatile ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_L1       = 18  # L1 cache single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_L1       = 19  # L1 cache double bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_L2       = 20  # L2 cache single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_L2       = 21  # L2 cache double bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_DEV      = 22  # Device memory single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_DEV      = 23  # Device memory double bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_REG      = 24  # Register File single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_REG      = 25  # Register File double bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_SBE_AGG_TEX      = 26  # Texture memory single bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_TEX      = 27  # Texture memory double bit aggregate (persistent) ECC errors
+NVML_FI_DEV_ECC_DBE_AGG_CBU      = 28  # CBU double bit aggregate ECC errors
+
+# Page Retirement
+NVML_FI_DEV_RETIRED_SBE          = 29  # Number of retired pages because of single bit errors
+NVML_FI_DEV_RETIRED_DBE          = 30  # Number of retired pages because of double bit errors
+NVML_FI_DEV_RETIRED_PENDING      = 31  # If any pages are pending retirement. 1=yes. 0=no.
+
+# NvLink Flit Error Counters
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L0   = 32 # NVLink flow control CRC  Error Counter for Lane 0
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L1   = 33 # NVLink flow control CRC  Error Counter for Lane 1
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L2   = 34 # NVLink flow control CRC  Error Counter for Lane 2
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L3   = 35 # NVLink flow control CRC  Error Counter for Lane 3
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L4   = 36 # NVLink flow control CRC  Error Counter for Lane 4
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L5   = 37 # NVLink flow control CRC  Error Counter for Lane 5
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_TOTAL = 38 # NVLink flow control CRC  Error Counter total for all Lanes
+
+# NvLink CRC Data Error Counters
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L0   = 39 # NVLink data CRC Error Counter for Lane 0
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L1   = 40 # NVLink data CRC Error Counter for Lane 1
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L2   = 41 # NVLink data CRC Error Counter for Lane 2
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L3   = 42 # NVLink data CRC Error Counter for Lane 3
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L4   = 43 # NVLink data CRC Error Counter for Lane 4
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L5   = 44 # NVLink data CRC Error Counter for Lane 5
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_TOTAL = 45 # NvLink data CRC Error Counter total for all Lanes
+
+# NvLink Replay Error Counters
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L0     = 46 # NVLink Replay Error Counter for Lane 0
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L1     = 47 # NVLink Replay Error Counter for Lane 1
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L2     = 48 # NVLink Replay Error Counter for Lane 2
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L3     = 49 # NVLink Replay Error Counter for Lane 3
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L4     = 50 # NVLink Replay Error Counter for Lane 4
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L5     = 51 # NVLink Replay Error Counter for Lane 5
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL  = 52 # NVLink Replay Error Counter total for all Lanes
+
+# NvLink Recovery Error Counters
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L0   = 53 # NVLink Recovery Error Counter for Lane 0
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L1   = 54 # NVLink Recovery Error Counter for Lane 1
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L2   = 55 # NVLink Recovery Error Counter for Lane 2
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L3   = 56 # NVLink Recovery Error Counter for Lane 3
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L4   = 57 # NVLink Recovery Error Counter for Lane 4
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L5   = 58 # NVLink Recovery Error Counter for Lane 5
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL = 59 # NVLink Recovery Error Counter total for all Lanes
+
+# NvLink Bandwidth Counters
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L0    = 60 # NVLink Bandwidth Counter for Counter Set 0, Lane 0
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L1    = 61 # NVLink Bandwidth Counter for Counter Set 0, Lane 1
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L2    = 62 # NVLink Bandwidth Counter for Counter Set 0, Lane 2
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L3    = 63 # NVLink Bandwidth Counter for Counter Set 0, Lane 3
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L4    = 64 # NVLink Bandwidth Counter for Counter Set 0, Lane 4
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L5    = 65 # NVLink Bandwidth Counter for Counter Set 0, Lane 5
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_TOTAL = 66 # NVLink Bandwidth Counter Total for Counter Set 0, All Lanes
+
+# NvLink Bandwidth Counters
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L0    = 67 # NVLink Bandwidth Counter for Counter Set 1, Lane 0
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L1    = 68 # NVLink Bandwidth Counter for Counter Set 1, Lane 1
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L2    = 69 # NVLink Bandwidth Counter for Counter Set 1, Lane 2
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L3    = 70 # NVLink Bandwidth Counter for Counter Set 1, Lane 3
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L4    = 71 # NVLink Bandwidth Counter for Counter Set 1, Lane 4
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L5    = 72 # NVLink Bandwidth Counter for Counter Set 1, Lane 5
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_TOTAL = 73 # NVLink Bandwidth Counter Total for Counter Set 1, All Lanes
+
+# Perf Policy Counters
+NVML_FI_DEV_PERF_POLICY_POWER             = 74   # Perf Policy Counter for Power Policy
+NVML_FI_DEV_PERF_POLICY_THERMAL           = 75   # Perf Policy Counter for Thermal Policy
+NVML_FI_DEV_PERF_POLICY_SYNC_BOOST        = 76   # Perf Policy Counter for Sync boost Policy
+NVML_FI_DEV_PERF_POLICY_BOARD_LIMIT       = 77   # Perf Policy Counter for Board Limit
+NVML_FI_DEV_PERF_POLICY_LOW_UTILIZATION   = 78   # Perf Policy Counter for Low GPU Utilization Policy
+NVML_FI_DEV_PERF_POLICY_RELIABILITY       = 79   # Perf Policy Counter for Reliability Policy
+NVML_FI_DEV_PERF_POLICY_TOTAL_APP_CLOCKS  = 80   # Perf Policy Counter for Total App Clock Policy
+NVML_FI_DEV_PERF_POLICY_TOTAL_BASE_CLOCKS = 81   # Perf Policy Counter for Total Base Clocks Policy
+
+# Memory temperatures
+NVML_FI_DEV_MEMORY_TEMP  = 82 # Memory temperature for the device
+
+# Energy Counter
+NVML_FI_DEV_TOTAL_ENERGY_CONSUMPTION = 83 # Total energy consumption for the GPU in mJ since the driver was last reloaded
+
+# NVLink Speed
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L0     = 84
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L1     = 85
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L2     = 86
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L3     = 87
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L4     = 88
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L5     = 89
+NVML_FI_DEV_NVLINK_SPEED_MBPS_COMMON = 90
+
+# NVLink Link Count
+NVML_FI_DEV_NVLINK_LINK_COUNT = 91
+
+# Page Retirement pending fields
+NVML_FI_DEV_RETIRED_PENDING_SBE = 92
+NVML_FI_DEV_RETIRED_PENDING_DBE = 93
+
+# PCIe replay and replay rollover counters
+NVML_FI_DEV_PCIE_REPLAY_COUNTER = 94
+NVML_FI_DEV_PCIE_REPLAY_ROLLOVER_COUNTER = 95
+
+# NvLink Flit Error Counters
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L6   = 96 # NVLink flow control CRC  Error Counter for Lane 6
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L7   = 97 # NVLink flow control CRC  Error Counter for Lane 7
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L8   = 98 # NVLink flow control CRC  Error Counter for Lane 8
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L9   = 99 # NVLink flow control CRC  Error Counter for Lane 9
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L10  = 100 # NVLink flow control CRC  Error Counter for Lane 10
+NVML_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L11  = 101 # NVLink flow control CRC  Error Counter for Lane 11
+
+# NvLink CRC Data Error Counters
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L6   = 102 # NVLink data CRC Error Counter for Lane 6
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L7   = 103 # NVLink data CRC Error Counter for Lane 7
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L8   = 104 # NVLink data CRC Error Counter for Lane 8
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L9   = 105 # NVLink data CRC Error Counter for Lane 9
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L10  = 106 # NVLink data CRC Error Counter for Lane 10
+NVML_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L11  = 107 # NVLink data CRC Error Counter for Lane 11
+
+# NvLink Replay Error Counters
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L6     = 108 # NVLink Replay Error Counter for Lane 6
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L7     = 109 # NVLink Replay Error Counter for Lane 7
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L8     = 110 # NVLink Replay Error Counter for Lane 8
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L9     = 111 # NVLink Replay Error Counter for Lane 9
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L10    = 112 # NVLink Replay Error Counter for Lane 10
+NVML_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L11    = 113 # NVLink Replay Error Counter for Lane 11
+
+# NvLink Recovery Error Counters
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L6   = 114 # NVLink Recovery Error Counter for Lane 6
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L7   = 115 # NVLink Recovery Error Counter for Lane 7
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L8   = 116 # NVLink Recovery Error Counter for Lane 8
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L9   = 117 # NVLink Recovery Error Counter for Lane 9
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L10  = 118 # NVLink Recovery Error Counter for Lane 10
+NVML_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L11  = 119 # NVLink Recovery Error Counter for Lane 11
+
+# NvLink Bandwidth Counters
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L6    = 120 # NVLink Bandwidth Counter for Counter Set 0, Lane 6
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L7    = 121 # NVLink Bandwidth Counter for Counter Set 0, Lane 7
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L8    = 122 # NVLink Bandwidth Counter for Counter Set 0, Lane 8
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L9    = 123 # NVLink Bandwidth Counter for Counter Set 0, Lane 9
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L10   = 124 # NVLink Bandwidth Counter for Counter Set 0, Lane 10
+NVML_FI_DEV_NVLINK_BANDWIDTH_C0_L11   = 125 # NVLink Bandwidth Counter for Counter Set 0, Lane 11
+
+# NvLink Bandwidth Counters
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L6    = 126 # NVLink Bandwidth Counter for Counter Set 1, Lane 6
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L7    = 127 # NVLink Bandwidth Counter for Counter Set 1, Lane 7
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L8    = 128 # NVLink Bandwidth Counter for Counter Set 1, Lane 8
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L9    = 129 # NVLink Bandwidth Counter for Counter Set 1, Lane 9
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L10   = 130 # NVLink Bandwidth Counter for Counter Set 1, Lane 10
+NVML_FI_DEV_NVLINK_BANDWIDTH_C1_L11   = 131 # NVLink Bandwidth Counter for Counter Set 1, Lane 11
+
+# NVLink Speed
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L6     = 132
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L7     = 133
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L8     = 134
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L9     = 135
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L10    = 136
+NVML_FI_DEV_NVLINK_SPEED_MBPS_L11    = 137
+
+# NVLink Throughput Counters
+NVML_FI_DEV_NVLINK_THROUGHPUT_DATA_TX = 138 # NVLink TX Data throughput in KiB
+NVML_FI_DEV_NVLINK_THROUGHPUT_DATA_RX = 139 # NVLink RX Data throughput in KiB
+NVML_FI_DEV_NVLINK_THROUGHPUT_RAW_TX  = 140 # NVLink TX Data + protocol overhead in KiB
+NVML_FI_DEV_NVLINK_THROUGHPUT_RAW_RX  = 141 # NVLink RX Data + protocol overhead in KiB
+
+# Row Remapper
+NVML_FI_DEV_REMAPPED_COR        = 142
+NVML_FI_DEV_REMAPPED_UNC        = 143
+NVML_FI_DEV_REMAPPED_PENDING    = 144
+NVML_FI_DEV_REMAPPED_FAILURE    = 145
+
+#Remote device NVLink ID
+NVML_FI_DEV_NVLINK_REMOTE_NVLINK_ID = 146
+
+# Number of NVLinks connected to NVSwitch
+NVML_FI_DEV_NVSWITCH_CONNECTED_LINK_COUNT = 147
+
+# NvLink ECC Data Error Counters
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L0    = 148 #< NVLink data ECC Error Counter for Link 0
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L1    = 149 #< NVLink data ECC Error Counter for Link 1
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L2    = 150 #< NVLink data ECC Error Counter for Link 2
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L3    = 151 #< NVLink data ECC Error Counter for Link 3
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L4    = 152 #< NVLink data ECC Error Counter for Link 4
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L5    = 153 #< NVLink data ECC Error Counter for Link 5
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L6    = 154 #< NVLink data ECC Error Counter for Link 6
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L7    = 155 #< NVLink data ECC Error Counter for Link 7
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L8    = 156 #< NVLink data ECC Error Counter for Link 8
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L9    = 157 #< NVLink data ECC Error Counter for Link 9
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L10   = 158 #< NVLink data ECC Error Counter for Link 10
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_L11   = 159 #< NVLink data ECC Error Counter for Link 11
+NVML_FI_DEV_NVLINK_ECC_DATA_ERROR_COUNT_TOTAL = 160 #< NvLink data ECC Error Counter total for all Links
+
+NVML_FI_DEV_NVLINK_ERROR_DL_REPLAY            = 161
+NVML_FI_DEV_NVLINK_ERROR_DL_RECOVERY          = 162
+NVML_FI_DEV_NVLINK_ERROR_DL_CRC               = 163
+NVML_FI_DEV_NVLINK_GET_SPEED                  = 164
+NVML_FI_DEV_NVLINK_GET_STATE                  = 165
+NVML_FI_DEV_NVLINK_GET_VERSION                = 166
+
+NVML_FI_DEV_NVLINK_GET_POWER_STATE            = 167
+NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD        = 168
+
+NVML_FI_DEV_PCIE_L0_TO_RECOVERY_COUNTER       = 169
+
+NVML_FI_DEV_C2C_LINK_COUNT                    = 170
+NVML_FI_DEV_C2C_LINK_GET_STATUS               = 171
+NVML_FI_DEV_C2C_LINK_GET_MAX_BW               = 172
+
+NVML_FI_DEV_PCIE_COUNT_CORRECTABLE_ERRORS     = 173
+NVML_FI_DEV_PCIE_COUNT_NAKS_RECEIVED          = 174
+NVML_FI_DEV_PCIE_COUNT_RECEIVER_ERROR         = 175
+NVML_FI_DEV_PCIE_COUNT_BAD_TLP                = 176
+NVML_FI_DEV_PCIE_COUNT_NAKS_SENT              = 177
+NVML_FI_DEV_PCIE_COUNT_BAD_DLLP               = 178
+NVML_FI_DEV_PCIE_COUNT_NON_FATAL_ERROR        = 179
+NVML_FI_DEV_PCIE_COUNT_FATAL_ERROR            = 180
+NVML_FI_DEV_PCIE_COUNT_UNSUPPORTED_REQ        = 181
+NVML_FI_DEV_PCIE_COUNT_LCRC_ERROR             = 182
+NVML_FI_DEV_PCIE_COUNT_LANE_ERROR             = 183
+
+NVML_FI_DEV_IS_RESETLESS_MIG_SUPPORTED        = 184
+
+NVML_FI_DEV_POWER_AVERAGE                     = 185
+NVML_FI_DEV_POWER_INSTANT                     = 186
+NVML_FI_DEV_POWER_MIN_LIMIT                   = 187
+NVML_FI_DEV_POWER_MAX_LIMIT                   = 188
+NVML_FI_DEV_POWER_DEFAULT_LIMIT               = 189
+NVML_FI_DEV_POWER_CURRENT_LIMIT               = 190
+NVML_FI_DEV_ENERGY                            = 191
+NVML_FI_DEV_POWER_REQUESTED_LIMIT             = 192
+
+NVML_FI_DEV_TEMPERATURE_SHUTDOWN_TLIMIT       = 193
+NVML_FI_DEV_TEMPERATURE_SLOWDOWN_TLIMIT       = 194
+NVML_FI_DEV_TEMPERATURE_MEM_MAX_TLIMIT        = 195
+NVML_FI_DEV_TEMPERATURE_GPU_MAX_TLIMIT        = 196
+
+NVML_FI_DEV_PCIE_COUNT_TX_BYTES               = 197
+NVML_FI_DEV_PCIE_COUNT_RX_BYTES               = 198
+
+NVML_FI_DEV_IS_MIG_MODE_INDEPENDENT_MIG_QUERY_CAPABLE   = 199
+
+NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_MAX              = 200
+
+NVML_FI_DEV_NVLINK_COUNT_XMIT_PACKETS                    = 201
+NVML_FI_DEV_NVLINK_COUNT_XMIT_BYTES                      = 202
+NVML_FI_DEV_NVLINK_COUNT_RCV_PACKETS                     = 203
+NVML_FI_DEV_NVLINK_COUNT_RCV_BYTES                       = 204
+NVML_FI_DEV_NVLINK_COUNT_VL15_DROPPED                    = 205 # Deprecated, do not use
+NVML_FI_DEV_NVLINK_COUNT_MALFORMED_PACKET_ERRORS         = 206
+NVML_FI_DEV_NVLINK_COUNT_BUFFER_OVERRUN_ERRORS           = 207
+NVML_FI_DEV_NVLINK_COUNT_RCV_ERRORS                      = 208
+NVML_FI_DEV_NVLINK_COUNT_RCV_REMOTE_ERRORS               = 209
+NVML_FI_DEV_NVLINK_COUNT_RCV_GENERAL_ERRORS              = 210
+NVML_FI_DEV_NVLINK_COUNT_LOCAL_LINK_INTEGRITY_ERRORS     = 211
+NVML_FI_DEV_NVLINK_COUNT_XMIT_DISCARDS                   = 212
+
+NVML_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_SUCCESSFUL_EVENTS = 213
+NVML_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_FAILED_EVENTS     = 214
+NVML_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_EVENTS            = 215
+
+NVML_FI_DEV_NVLINK_COUNT_RAW_BER_LANE0                   = 216  # Deprecated, do not use
+NVML_FI_DEV_NVLINK_COUNT_RAW_BER_LANE1                   = 217  # Deprecated, do not use
+NVML_FI_DEV_NVLINK_COUNT_RAW_BER                         = 218  # Deprecated, do not use
+NVML_FI_DEV_NVLINK_COUNT_EFFECTIVE_ERRORS                = 219
+NVML_FI_DEV_NVLINK_COUNT_EFFECTIVE_BER                   = 220
+NVML_FI_DEV_NVLINK_COUNT_SYMBOL_ERRORS                   = 221
+NVML_FI_DEV_NVLINK_COUNT_SYMBOL_BER                      = 222
+
+NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_MIN               = 223
+NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_UNITS             = 224 # Values are in the form NVML_NVLINK_LOW_POWER_THRESHOLD_UNIT_*
+NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_SUPPORTED         = 225
+
+NVML_FI_DEV_RESET_STATUS                                 = 226 # Deprecated use NVML_FI_DEV_GET_GPU_RECOVERY_ACTION instead 
+NVML_FI_DEV_DRAIN_AND_RESET_STATUS                       = 227 # Deprecated use NVML_FI_DEV_GET_GPU_RECOVERY_ACTION instead
+NVML_FI_DEV_PCIE_OUTBOUND_ATOMICS_MASK                   = 228
+NVML_FI_DEV_PCIE_INBOUND_ATOMICS_MASK                    = 229
+NVML_FI_DEV_GET_GPU_RECOVERY_ACTION                      = 230
+
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_0                   = 235
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_1                   = 236
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_2                   = 237
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_3                   = 238
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_4                   = 239
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_5                   = 240
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_6                   = 241
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_7                   = 242
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_8                   = 243
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_9                   = 244
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_10                  = 245
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_11                  = 246
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_12                  = 247
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_13                  = 248
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_14                  = 249
+NVML_FI_DEV_NVLINK_COUNT_FEC_HISTORY_15                  = 250
+NVML_FI_PWR_SMOOTHING_ENABLED                                   = 251 # Enablement (0/DISABLED or 1/ENABLED)
+NVML_FI_PWR_SMOOTHING_PRIV_LVL                                  = 252 # Current privilege level
+NVML_FI_PWR_SMOOTHING_IMM_RAMP_DOWN_ENABLED                     = 253 # Immediate ramp down enablement (0/DISABLED or 1/ENABLED)
+NVML_FI_PWR_SMOOTHING_APPLIED_TMP_CEIL                          = 254 # Applied TMP ceiling value
+NVML_FI_PWR_SMOOTHING_APPLIED_TMP_FLOOR                         = 255 # Applied TMP floor value
+NVML_FI_PWR_SMOOTHING_MAX_PERCENT_TMP_FLOOR_SETTING             = 256 # Max % TMP Floor value
+NVML_FI_PWR_SMOOTHING_MIN_PERCENT_TMP_FLOOR_SETTING             = 257 # Min % TMP Floor value
+NVML_FI_PWR_SMOOTHING_HW_CIRCUITRY_PERCENT_LIFETIME_REMAINING   = 258 # HW Circuitry % lifetime remaining
+NVML_FI_PWR_SMOOTHING_MAX_NUM_PRESET_PROFILES                   = 259 # Max number of preset profiles
+NVML_FI_PWR_SMOOTHING_PROFILE_PERCENT_TMP_FLOOR                 = 260 # % TMP floor for a given profile
+NVML_FI_PWR_SMOOTHING_PROFILE_RAMP_UP_RATE                      = 261 # Ramp up rate in mW/s for a given profile
+NVML_FI_PWR_SMOOTHING_PROFILE_RAMP_DOWN_RATE                    = 262 # Ramp down rate in mW/s for a given profile
+NVML_FI_PWR_SMOOTHING_PROFILE_RAMP_DOWN_HYST_VAL                = 263 # Ramp down hysteresis value in ms for a given profile
+NVML_FI_PWR_SMOOTHING_ACTIVE_PRESET_PROFILE                     = 264 # Active preset profile number
+NVML_FI_PWR_SMOOTHING_ADMIN_OVERRIDE_PERCENT_TMP_FLOOR          = 265 # % TMP floor for a given profile
+NVML_FI_PWR_SMOOTHING_ADMIN_OVERRIDE_RAMP_UP_RATE               = 266 # Ramp up rate in mW/s for a given profile
+NVML_FI_PWR_SMOOTHING_ADMIN_OVERRIDE_RAMP_DOWN_RATE             = 267 # Ramp down rate in mW/s for a given profile
+NVML_FI_PWR_SMOOTHING_ADMIN_OVERRIDE_RAMP_DOWN_HYST_VAL         = 268 # Ramp down hysteresis value in ms for a given profile
+
+NVML_FI_MAX = 269 # One greater than the largest field ID defined above
+
+# NVML_FI_DEV_NVLINK_GET_STATE state enums
+NVML_NVLINK_STATE_INACTIVE = 0x0
+NVML_NVLINK_STATE_ACTIVE   = 0x1
+NVML_NVLINK_STATE_SLEEP    = 0x2
+
+NVML_NVLINK_LOW_POWER_THRESHOLD_UNIT_100US = 0 # NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_UNITS
+NVML_NVLINK_LOW_POWER_THRESHOLD_UNIT_50US  = 1 # NVML_FI_DEV_NVLINK_GET_POWER_THRESHOLD_UNITS
+
+## Enums needed for the method nvmlDeviceGetVirtualizationMode and nvmlDeviceSetVirtualizationMode
+NVML_GPU_VIRTUALIZATION_MODE_NONE        = 0  # Represents Bare Metal GPU
+NVML_GPU_VIRTUALIZATION_MODE_PASSTHROUGH = 1  # Device is associated with GPU-Passthorugh
+NVML_GPU_VIRTUALIZATION_MODE_VGPU        = 2  # Device is associated with vGPU inside virtual machine.
+NVML_GPU_VIRTUALIZATION_MODE_HOST_VGPU   = 3  # Device is associated with VGX hypervisor in vGPU mode
+NVML_GPU_VIRTUALIZATION_MODE_HOST_VSGA   = 4  # Device is associated with VGX hypervisor in vSGA mode
+
+## Lib loading ##
+nvmlLib = None
+libLoadLock = threading.Lock()
+_nvmlLib_refcount = 0 # Incremented on each nvmlInit and decremented on nvmlShutdown
+
+## vGPU Management
+_nvmlVgpuTypeId_t   = c_uint
+_nvmlVgpuInstance_t = c_uint
+
+_nvmlVgpuVmIdType_t = c_uint
+NVML_VGPU_VM_ID_DOMAIN_ID    = 0
+NVML_VGPU_VM_ID_UUID         = 1
+
+_nvmlGridLicenseFeatureCode_t = c_uint
+NVML_GRID_LICENSE_FEATURE_CODE_UNKNOWN      = 0
+NVML_GRID_LICENSE_FEATURE_CODE_VGPU         = 1
+NVML_GRID_LICENSE_FEATURE_CODE_NVIDIA_RTX   = 2
+NVML_GRID_LICENSE_FEATURE_CODE_VWORKSTATION = 2 # deprecated, use NVML_GRID_LICENSE_FEATURE_CODE_NVIDIA_RTX.
+NVML_GRID_LICENSE_FEATURE_CODE_GAMING       = 3
+NVML_GRID_LICENSE_FEATURE_CODE_COMPUTE      = 4
+
+_nvmlGridLicenseExpiryStatus_t = c_uint8
+NVML_GRID_LICENSE_EXPIRY_NOT_AVAILABLE    = 0,   # Expiry information not available
+NVML_GRID_LICENSE_EXPIRY_INVALID          = 1,   # Invalid expiry or error fetching expiry
+NVML_GRID_LICENSE_EXPIRY_VALID            = 2,   # Valid expiry
+NVML_GRID_LICENSE_EXPIRY_NOT_APPLICABLE   = 3,   # Expiry not applicable
+NVML_GRID_LICENSE_EXPIRY_PERMANENT        = 4,   # Permanent expiry
+
+_nvmlVgpuCapability_t = c_uint
+NVML_VGPU_CAP_NVLINK_P2P                    = 0  # vGPU P2P over NVLink is supported
+NVML_VGPU_CAP_GPUDIRECT                     = 1  # GPUDirect capability is supported
+NVML_VGPU_CAP_MULTI_VGPU_EXCLUSIVE          = 2  # vGPU profile cannot be mixed with other vGPU profiles in same VM
+NVML_VGPU_CAP_EXCLUSIVE_TYPE                = 3  # vGPU profile cannot run on a GPU alongside other profiles of different type
+NVML_VGPU_CAP_EXCLUSIVE_SIZE                = 4  # vGPU profile cannot run on a GPU alongside other profiles of different size
+NVML_VGPU_CAP_COUNT                         = 5
+
+_nvmlVgpuDriverCapability_t = c_uint
+NVML_VGPU_DRIVER_CAP_HETEROGENEOUS_MULTI_VGPU   = 0  # Supports mixing of different vGPU profiles within one guest VM
+NVML_VGPU_DRIVER_CAP_WARM_UPDATE                = 1  # Supports FSR and warm update of vGPU host driver without terminating the running guest VM
+NVML_VGPU_DRIVER_CAP_COUNT                      = 2
+
+_nvmlDeviceVgpuCapability_t = c_uint
+NVML_DEVICE_VGPU_CAP_FRACTIONAL_MULTI_VGPU             = 0  # Query whether the fractional vGPU profiles on this GPU can be used in multi-vGPU configurations
+NVML_DEVICE_VGPU_CAP_HETEROGENEOUS_TIMESLICE_PROFILES  = 1  # Query whether the GPU supports concurrent execution of timesliced vGPU profiles of differing types
+NVML_DEVICE_VGPU_CAP_HETEROGENEOUS_TIMESLICE_SIZES     = 2  # Query whether the GPU supports concurrent execution of timesliced vGPU profiles of differing framebuffer sizes
+NVML_DEVICE_VGPU_CAP_READ_DEVICE_BUFFER_BW             = 3  # Query the GPU's read_device_buffer expected bandwidth capacity in megabytes per second
+NVML_DEVICE_VGPU_CAP_WRITE_DEVICE_BUFFER_BW            = 4  # Query the GPU's write_device_buffer expected bandwidth capacity in megabytes per second
+NVML_DEVICE_VGPU_CAP_DEVICE_STREAMING                  = 5  # Query whether the vGPU profiles on the GPU supports migration data streaming
+NVML_DEVICE_VGPU_CAP_MINI_QUARTER_GPU                  = 6  # Set/Get support of mini-quarter vGPU profiles
+NVML_DEVICE_VGPU_CAP_COMPUTE_MEDIA_ENGINE_GPU          = 7  # Set/Get support for compute media engine vGPU profiles
+NVML_DEVICE_VGPU_CAP_WARM_UPDATE                       = 8  # Query whether the GPU supports FSR and warm update
+NVML_DEVICE_VGPU_CAP_HOMOGENEOUS_PLACEMENTS            = 9  # Query whether the GPU supports reporting of placements of timesliced vGPU profiles with identical framebuffer sizes
+NVML_DEVICE_VGPU_CAP_COUNT                             = 10
+
+_nvmlVgpuGuestInfoState_t = c_uint
+NVML_VGPU_INSTANCE_GUEST_INFO_STATE_UNINITIALIZED = 0
+NVML_VGPU_INSTANCE_GUEST_INFO_STATE_INITIALIZED   = 1
+
+_nvmlVgpuVmCompatibility_t = c_uint
+NVML_VGPU_VM_COMPATIBILITY_NONE         = 0x0
+NVML_VGPU_VM_COMPATIBILITY_COLD         = 0x1
+NVML_VGPU_VM_COMPATIBILITY_HIBERNATE    = 0x2
+NVML_VGPU_VM_COMPATIBILITY_SLEEP        = 0x4
+NVML_VGPU_VM_COMPATIBILITY_LIVE         = 0x8
+
+_nvmlVgpuPgpuCompatibilityLimitCode_t = c_uint
+NVML_VGPU_COMPATIBILITY_LIMIT_NONE          = 0x0
+NVML_VGPU_COMPATIBILITY_LIMIT_HOST_DRIVER   = 0x1
+NVML_VGPU_COMPATIBILITY_LIMIT_GUEST_DRIVER  = 0x2
+NVML_VGPU_COMPATIBILITY_LIMIT_GPU           = 0x4
+NVML_VGPU_COMPATIBILITY_LIMIT_OTHER         = 0x80000000
+
+_nvmlHostVgpuMode_t = c_uint
+NVML_HOST_VGPU_MODE_NON_SRIOV   = 0
+NVML_HOST_VGPU_MODE_SRIOV       = 1
+
+_nvmlConfComputeGpusReadyState_t = c_uint
+NVML_CC_ACCEPTING_CLIENT_REQUESTS_FALSE = 0
+NVML_CC_ACCEPTING_CLIENT_REQUESTS_TRUE = 1
+
+_nvmlConfComputeGpuCaps_t = c_uint
+NVML_CC_SYSTEM_GPUS_CC_NOT_CAPABLE = 0
+NVML_CC_SYSTEM_GPUS_CC_CAPABLE = 1
+
+_nvmlConfComputeCpuCaps_t = c_uint
+NVML_CC_SYSTEM_CPU_CAPS_NONE = 0
+NVML_CC_SYSTEM_CPU_CAPS_AMD_SEV = 1
+NVML_CC_SYSTEM_CPU_CAPS_INTEL_TDX = 2
+NVML_CC_SYSTEM_CPU_CAPS_AMD_SEV_SNP = 3
+NVML_CC_SYSTEM_CPU_CAPS_AMD_SNP_VTOM = 4
+
+_nvmlConfComputeDevToolsMode_t = c_uint
+NVML_CC_SYSTEM_DEVTOOLS_MODE_OFF = 0
+NVML_CC_SYSTEM_DEVTOOLS_MODE_ON = 1
+
+NVML_CC_SYSTEM_MULTIGPU_NONE = 0
+NVML_CC_SYSTEM_MULTIGPU_PROTECTED_PCIE = 1
+ 
+NVML_CC_SYSTEM_ENVIRONMENT_UNAVAILABLE = 0
+NVML_CC_SYSTEM_ENVIRONMENT_SIM = 1
+NVML_CC_SYSTEM_ENVIRONMENT_PROD = 2
+ 
+_nvmlConfComputeCcFeature_t = c_uint
+NVML_CC_SYSTEM_FEATURE_DISABLED = 0
+NVML_CC_SYSTEM_FEATURE_ENABLED = 1
+
+_nvmlConfComputeCcKeyRotationThreshAttackerAdv_t = c_uint
+NVML_CC_KEY_ROTATION_THRESH_ATTACKER_ADVANTAGE_MIN = 50
+NVML_CC_KEY_ROTATION_THRESH_ATTACKER_ADVANTAGE_MAX = 65
+
+# GSP firmware
+NVML_GSP_FIRMWARE_VERSION_BUF_SIZE = 0x40
+
+class NVMLLibraryMismatchError(Exception):
+    pass
+
+## Error Checking ##
+class NVMLError(Exception):
+    _valClassMapping = dict()
+    # List of currently known error codes
+    _errcode_to_string = {
+        NVML_ERROR_UNINITIALIZED:       "Uninitialized",
+        NVML_ERROR_INVALID_ARGUMENT:    "Invalid Argument",
+        NVML_ERROR_NOT_SUPPORTED:       "Not Supported",
+        NVML_ERROR_NO_PERMISSION:       "Insufficient Permissions",
+        NVML_ERROR_ALREADY_INITIALIZED: "Already Initialized",
+        NVML_ERROR_NOT_FOUND:           "Not Found",
+        NVML_ERROR_INSUFFICIENT_SIZE:   "Insufficient Size",
+        NVML_ERROR_INSUFFICIENT_POWER:  "Insufficient External Power",
+        NVML_ERROR_DRIVER_NOT_LOADED:   "Driver Not Loaded",
+        NVML_ERROR_TIMEOUT:             "Timeout",
+        NVML_ERROR_IRQ_ISSUE:           "Interrupt Request Issue",
+        NVML_ERROR_LIBRARY_NOT_FOUND:   "NVML Shared Library Not Found",
+        NVML_ERROR_FUNCTION_NOT_FOUND:  "Function Not Found",
+        NVML_ERROR_CORRUPTED_INFOROM:   "Corrupted infoROM",
+        NVML_ERROR_GPU_IS_LOST:         "GPU is lost",
+        NVML_ERROR_RESET_REQUIRED:      "GPU requires restart",
+        NVML_ERROR_OPERATING_SYSTEM:    "The operating system has blocked the request.",
+        NVML_ERROR_LIB_RM_VERSION_MISMATCH: "RM has detected an NVML/RM version mismatch.",
+        NVML_ERROR_MEMORY:              "Insufficient Memory",
+        NVML_ERROR_UNKNOWN:             "Unknown Error",
+        }
+    def __new__(typ, value):
+        '''
+        Maps value to a proper subclass of NVMLError.
+        See _extractNVMLErrorsAsClasses function for more details
+        '''
+        if typ == NVMLError:
+            typ = NVMLError._valClassMapping.get(value, typ)
+        obj = Exception.__new__(typ)
+        obj.value = value
+        return obj
+    def __str__(self):
+        try:
+            if self.value not in NVMLError._errcode_to_string:
+                NVMLError._errcode_to_string[self.value] = str(nvmlErrorString(self.value))
+            return NVMLError._errcode_to_string[self.value]
+        except NVMLError:
+            return "NVML Error with code %d" % self.value
+    def __eq__(self, other):
+        return self.value == other.value
+
+def nvmlExceptionClass(nvmlErrorCode):
+    if nvmlErrorCode not in NVMLError._valClassMapping:
+        raise ValueError('nvmlErrorCode %s is not valid' % nvmlErrorCode)
+    return NVMLError._valClassMapping[nvmlErrorCode]
+
+def _extractNVMLErrorsAsClasses():
+    '''
+    Generates a hierarchy of classes on top of NVMLError class.
+
+    Each NVML Error gets a new NVMLError subclass. This way try,except blocks can filter appropriate
+    exceptions more easily.
+
+    NVMLError is a parent class. Each NVML_ERROR_* gets its own subclass.
+    e.g. NVML_ERROR_ALREADY_INITIALIZED will be turned into NVMLError_AlreadyInitialized
+    '''
+    this_module = sys.modules[__name__]
+    nvmlErrorsNames = [x for x in dir(this_module) if x.startswith("NVML_ERROR_")]
+    for err_name in nvmlErrorsNames:
+        # e.g. Turn NVML_ERROR_ALREADY_INITIALIZED into NVMLError_AlreadyInitialized
+        class_name = "NVMLError_" + string.capwords(err_name.replace("NVML_ERROR_", ""), "_").replace("_", "")
+        err_val = getattr(this_module, err_name)
+        def gen_new(val):
+            def new(typ):
+                obj = NVMLError.__new__(typ, val)
+                return obj
+            return new
+        new_error_class = type(class_name, (NVMLError,), {'__new__': gen_new(err_val)})
+        new_error_class.__module__ = __name__
+        setattr(this_module, class_name, new_error_class)
+        NVMLError._valClassMapping[err_val] = new_error_class
+_extractNVMLErrorsAsClasses()
+
+def _nvmlCheckReturn(ret):
+    if (ret != NVML_SUCCESS):
+        raise NVMLError(ret)
+    return ret
+
+## Function access ##
+_nvmlGetFunctionPointer_cache = dict() # function pointers are cached to prevent unnecessary libLoadLock locking
+def _nvmlGetFunctionPointer(name):
+    global nvmlLib
+
+    if name in _nvmlGetFunctionPointer_cache:
+        return _nvmlGetFunctionPointer_cache[name]
+
+    libLoadLock.acquire()
+    try:
+        # ensure library was loaded
+        if (nvmlLib == None):
+            raise NVMLError(NVML_ERROR_UNINITIALIZED)
+        try:
+            _nvmlGetFunctionPointer_cache[name] = getattr(nvmlLib, name)
+            return _nvmlGetFunctionPointer_cache[name]
+        except AttributeError:
+            raise NVMLError(NVML_ERROR_FUNCTION_NOT_FOUND)
+    finally:
+        # lock is always freed
+        libLoadLock.release()
+
+## Alternative object
+# Allows the object to be printed
+# Allows mismatched types to be assigned
+#  - like None when the Structure variant requires c_uint
+class nvmlFriendlyObject(object):
+    def __init__(self, dictionary):
+        for x in dictionary:
+            setattr(self, x, dictionary[x])
+    def __str__(self):
+        return self.__dict__.__str__()
+
+def nvmlStructToFriendlyObject(struct):
+    d = {}
+    for x in struct._fields_:
+        key = x[0]
+        value = getattr(struct, key)
+        # only need to convert from bytes if bytes, no need to check python version.
+        d[key] = value.decode() if isinstance(value, bytes) else value
+    obj = nvmlFriendlyObject(d)
+    return obj
+
+# pack the object so it can be passed to the NVML library
+def nvmlFriendlyObjectToStruct(obj, model):
+    for x in model._fields_:
+        key = x[0]
+        value = obj.__dict__[key]
+        # any c_char_p in python3 needs to be bytes, default encoding works fine.
+        if sys.version_info >= (3,):
+            setattr(model, key, value.encode())
+        else:
+            setattr(model, key, value)
+    return model
+
+## Unit structures
+class struct_c_nvmlUnit_t(Structure):
+    pass # opaque handle
+c_nvmlUnit_t = POINTER(struct_c_nvmlUnit_t)
+
+class _PrintableStructure(Structure):
+    """
+    Abstract class that produces nicer __str__ output than ctypes.Structure.
+    e.g. instead of:
+      >>> print str(obj)
+      <class_name object at 0x7fdf82fef9e0>
+    this class will print
+      class_name(field_name: formatted_value, field_name: formatted_value)
+
+    _fmt_ dictionary of <str _field_ name> -> <str format>
+    e.g. class that has _field_ 'hex_value', c_uint could be formatted with
+      _fmt_ = {"hex_value" : "%08X"}
+    to produce nicer output.
+    Default formatting string for all fields can be set with key "<default>" like:
+      _fmt_ = {"<default>" : "%d MHz"} # e.g all values are numbers in MHz.
+    If not set it's assumed to be just "%s"
+
+    Exact format of returned str from this class is subject to change in the future.
+    """
+    _fmt_ = {}
+    def __str__(self):
+        result = []
+        for x in self._fields_:
+            key = x[0]
+            value = getattr(self, key)
+            fmt = "%s"
+            if key in self._fmt_:
+                fmt = self._fmt_[key]
+            elif "<default>" in self._fmt_:
+                fmt = self._fmt_["<default>"]
+            result.append(("%s: " + fmt) % (key, value))
+        return self.__class__.__name__ + "(" +  ", ".join(result) + ")"
+
+    def __getattribute__(self, name):
+        res = super(_PrintableStructure, self).__getattribute__(name)
+        # need to convert bytes to unicode for python3 don't need to for python2
+        # Python 2 strings are of both str and bytes
+        # Python 3 strings are not of type bytes
+        # ctypes should convert everything to the correct values otherwise
+        if isinstance(res, bytes):
+            if isinstance(res, str):
+                return res
+            return res.decode()
+        return res
+
+    def __setattr__(self, name, value):
+        if isinstance(value, str):
+            # encoding a python2 string returns the same value, since python2 strings are bytes already
+            # bytes passed in python3 will be ignored.
+            value = value.encode()
+        super(_PrintableStructure, self).__setattr__(name, value)
+
+class c_nvmlUnitInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('name', c_char * 96),
+        ('id', c_char * 96),
+        ('serial', c_char * 96),
+        ('firmwareVersion', c_char * 96),
+    ]
+
+class c_nvmlC2cModeInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('isC2cEnabled', c_uint)
+    ]
+
+nvmlC2cModeInfo_v1 = 0x1000008;
+
+class c_nvmlLedState_t(_PrintableStructure):
+    _fields_ = [
+        ('cause', c_char * 256),
+        ('color', _nvmlLedColor_t),
+    ]
+
+class c_nvmlPSUInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('state', c_char * 256),
+        ('current', c_uint),
+        ('voltage', c_uint),
+        ('power', c_uint),
+    ]
+
+class c_nvmlUnitFanInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('speed', c_uint),
+        ('state', _nvmlFanState_t),
+    ]
+
+class c_nvmlUnitFanSpeeds_t(_PrintableStructure):
+    _fields_ = [
+        ('fans', c_nvmlUnitFanInfo_t * 24),
+        ('count', c_uint)
+    ]
+
+## Device structures
+class struct_c_nvmlDevice_t(Structure):
+    pass # opaque handle
+c_nvmlDevice_t = POINTER(struct_c_nvmlDevice_t)
+
+class nvmlPciInfoExt_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('domain', c_uint),
+        ('bus', c_uint),
+        ('device', c_uint),
+        ('pciDeviceId', c_uint),
+        ('pciSubSystemId', c_uint),
+        ('baseClass', c_uint),
+        ('subClass', c_uint),
+        ('busId', c_char * NVML_DEVICE_PCI_BUS_ID_BUFFER_SIZE),
+    ]
+    _fmt_ = {
+            'version'        : "0x%04X",
+            'domain'         : "0x%04X",
+            'bus'            : "0x%02X",
+            'device'         : "0x%02X",
+            'pciDeviceId'    : "0x%08X",
+            'pciSubSystemId' : "0x%08X",
+            'baseClass'      : "0x%01X",
+            'subClass'       : "0x%01X",
+            }
+
+nvmlPciInfoExt_v1 = 0x1000040
+
+# Legacy pciInfo used for _v1 and _v2
+class nvmlPciInfo_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('busId', c_char * NVML_DEVICE_PCI_BUS_ID_BUFFER_V2_SIZE),
+        ('domain', c_uint),
+        ('bus', c_uint),
+        ('device', c_uint),
+        ('pciDeviceId', c_uint),
+
+        # Added in 2.285
+        ('pciSubSystemId', c_uint),
+        ('reserved0', c_uint),
+        ('reserved1', c_uint),
+        ('reserved2', c_uint),
+        ('reserved3', c_uint),
+    ]
+    _fmt_ = {
+            'domain'         : "0x%04X",
+            'bus'            : "0x%02X",
+            'device'         : "0x%02X",
+            'pciDeviceId'    : "0x%08X",
+            'pciSubSystemId' : "0x%08X",
+            }
+
+class nvmlPciInfo_t(_PrintableStructure):
+    _fields_ = [
+        # Moved to the new busId location below
+        ('busIdLegacy', c_char * NVML_DEVICE_PCI_BUS_ID_BUFFER_V2_SIZE),
+        ('domain', c_uint),
+        ('bus', c_uint),
+        ('device', c_uint),
+        ('pciDeviceId', c_uint),
+
+        # Added in 2.285
+        ('pciSubSystemId', c_uint),
+        # New busId replaced the long deprecated and reserved fields with a
+        # field of the same size in 9.0
+        ('busId', c_char * NVML_DEVICE_PCI_BUS_ID_BUFFER_SIZE),
+    ]
+    _fmt_ = {
+            'domain'         : "0x%08X",
+            'bus'            : "0x%02X",
+            'device'         : "0x%02X",
+            'pciDeviceId'    : "0x%08X",
+            'pciSubSystemId' : "0x%08X",
+            }
+
+class c_nvmlSystemDriverBranchInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ("branch", c_char * NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE),
+    ]
+
+SystemDriverBranchInfo_v1 = 0x1000054
+
+class c_nvmlExcludedDeviceInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('pci', nvmlPciInfo_t),
+        ('uuid', c_char * NVML_DEVICE_UUID_BUFFER_SIZE)
+    ]
+
+class nvmlNvLinkUtilizationControl_t(_PrintableStructure):
+    _fields_ = [
+        ('units', _nvmlNvLinkUtilizationCountUnits_t),
+        ('pktfilter', _nvmlNvLinkUtilizationCountPktTypes_t),
+    ]
+
+class c_nvmlMemory_t(_PrintableStructure):
+    _fields_ = [
+        ('total', c_ulonglong),
+        ('free', c_ulonglong),
+        ('used', c_ulonglong),
+    ]
+    _fmt_ = {'<default>': "%d B"}
+
+class c_nvmlMemory_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('total', c_ulonglong),
+        ('reserved', c_ulonglong),
+        ('free', c_ulonglong),
+        ('used', c_ulonglong),
+    ]
+    _fmt_ = {'<default>': "%d B"}
+
+nvmlMemory_v2 = 0x02000028
+
+class c_nvmlBAR1Memory_t(_PrintableStructure):
+    _fields_ = [
+        ('bar1Total', c_ulonglong),
+        ('bar1Free', c_ulonglong),
+        ('bar1Used', c_ulonglong),
+    ]
+    _fmt_ = {'<default>': "%d B"}
+
+class nvmlClkMonFaultInfo_t(Structure):
+    _fields_ = [("clkApiDomain", c_uint),
+                ("clkDomainFaultMask", c_uint)
+    ]
+
+MAX_CLK_DOMAINS = 32
+
+class nvmlClkMonStatus_t(Structure):
+    _fields_ = [("bGlobalStatus", c_uint),
+                ("clkMonListSize", c_uint),
+                ("clkMonList", nvmlClkMonFaultInfo_t * MAX_CLK_DOMAINS)
+    ]
+
+# On Windows with the WDDM driver, usedGpuMemory is reported as None
+# Code that processes this structure should check for None, I.E.
+#
+# if (info.usedGpuMemory == None):
+#     # TODO handle the error
+#     pass
+# else:
+#    print("Using %d MiB of memory" % (info.usedGpuMemory / 1024 / 1024))
+# endif
+#
+# See NVML documentation for more information
+class c_nvmlProcessInfo_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('pid', c_uint),
+        ('usedGpuMemory', c_ulonglong),
+        ('gpuInstanceId', c_uint),
+        ('computeInstanceId', c_uint),
+    ]
+    _fmt_ = {'usedGpuMemory': "%d B"}
+
+c_nvmlProcessInfo_v3_t = c_nvmlProcessInfo_v2_t
+
+c_nvmlProcessInfo_t = c_nvmlProcessInfo_v3_t
+
+_nvmlProcessMode_t = c_uint
+NVML_PROCESS_MODE_COMPUTE  = 0
+NVML_PROCESS_MODE_GRAPHICS = 1
+NVML_PROCESS_MODE_MPS      = 2
+
+class c_nvmlProcessDetail_v1_t(Structure):
+    _fields_ = [
+        ('pid', c_uint),
+        ('usedGpuMemory', c_ulonglong),
+        ('gpuInstanceId', c_uint),
+        ('computeInstanceId', c_uint),
+        ('usedGpuCcProtectedMemory', c_ulonglong),
+    ]
+
+class c_nvmlProcessDetailList_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('mode', _nvmlProcessMode_t),
+        ('numProcArrayEntries', c_uint),
+        ('procArray', POINTER(c_nvmlProcessDetail_v1_t)),
+    ]
+    _fmt_ = {'numProcArrayEntries': "%d B"}
+
+c_nvmlProcessDetailList_t = c_nvmlProcessDetailList_v1_t
+
+nvmlProcessDetailList_v1 = 0x1000018
+
+class c_nvmlBridgeChipInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('type', _nvmlBridgeChipType_t),
+        ('fwVersion', c_uint),
+    ]
+
+class c_nvmlBridgeChipHierarchy_t(_PrintableStructure):
+    _fields_ = [
+        ('bridgeCount', c_uint),
+        ('bridgeChipInfo', c_nvmlBridgeChipInfo_t * 128),
+    ]
+
+class c_nvmlEccErrorCounts_t(_PrintableStructure):
+    _fields_ = [
+        ('l1Cache', c_ulonglong),
+        ('l2Cache', c_ulonglong),
+        ('deviceMemory', c_ulonglong),
+        ('registerFile', c_ulonglong),
+    ]
+
+class c_nvmlUtilization_t(_PrintableStructure):
+    _fields_ = [
+        ('gpu', c_uint),
+        ('memory', c_uint),
+    ]
+    _fmt_ = {'<default>': "%d %%"}
+
+# Added in 2.285
+class c_nvmlHwbcEntry_t(_PrintableStructure):
+    _fields_ = [
+        ('hwbcId', c_uint),
+        ('firmwareVersion', c_char * 32),
+    ]
+
+class c_nvmlValue_t(Union):
+    _fields_ = [
+        ('dVal', c_double),
+        ('uiVal', c_uint),
+        ('ulVal', c_ulong),
+        ('ullVal', c_ulonglong),
+        ('sllVal', c_longlong),
+        ('siVal', c_int),
+        ('usVal', c_ushort),
+    ]
+
+class c_nvmlSample_t(_PrintableStructure):
+    _fields_ = [
+        ('timeStamp', c_ulonglong),
+        ('sampleValue', c_nvmlValue_t),
+    ]
+
+class c_nvmlViolationTime_t(_PrintableStructure):
+    _fields_ = [
+        ('referenceTime', c_ulonglong),
+        ('violationTime', c_ulonglong),
+    ]
+
+class c_nvmlFieldValue_t(_PrintableStructure):
+    _fields_ = [
+        ('fieldId', c_uint32),
+        ('scopeId', c_uint32),
+        ('timestamp', c_int64),
+        ('latencyUsec', c_int64),
+        ('valueType', _nvmlValueType_t),
+        ('nvmlReturn', _nvmlReturn_t),
+        ('value', c_nvmlValue_t)
+    ]
+
+NVML_NVLINK_TOTAL_SUPPORTED_BW_MODES = 23
+
+nvmlNvlinkSupportedBwModes_v1 = 0x100001c
+class c_nvmlNvlinkSupportedBwModes_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('bwModes', c_uint8 * NVML_NVLINK_TOTAL_SUPPORTED_BW_MODES),
+        ('totalBwModes', c_uint8)
+    ]
+
+    def __init__(self):
+        super(c_nvmlNvlinkSupportedBwModes_v1_t, self).__init__(version=nvmlNvlinkSupportedBwModes_v1)
+
+nvmlNvlinkGetBwMode_v1 = 0x100000c
+class c_nvmlNvlinkGetBwMode_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('bIsBest', c_uint),
+        ('bwMode', c_uint8)
+    ]
+
+    def __init__(self):
+        super(c_nvmlNvlinkGetBwMode_v1_t, self).__init__(version=nvmlNvlinkGetBwMode_v1)
+
+nvmlNvlinkSetBwMode_v1 = 0x100000c
+class c_nvmlNvlinkSetBwMode_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('bSetBest', c_uint),
+        ('bwMode', c_uint8)
+    ]
+
+    def __init__(self):
+        super(c_nvmlNvlinkSetBwMode_v1_t, self).__init__(version=nvmlNvlinkSetBwMode_v1)
+
+class c_nvmlVgpuHeterogeneousMode_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('mode', c_uint),
+    ]
+
+VgpuHeterogeneousMode_v1 = 0x1000008
+
+class c_nvmlVgpuPlacementId_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('placementId', c_uint),
+    ]
+
+VgpuPlacementId_v1 = 0x1000008
+
+class c_nvmlVgpuPlacementList_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('count', c_uint),
+        ('placementSize', c_uint),
+        ('placementIds', POINTER(c_uint)),
+    ]
+
+VgpuPlacementList_v1 = 0x1000018
+
+NVML_VGPU_PGPU_HETEROGENEOUS_MODE   = 0
+NVML_VGPU_PGPU_HOMOGENEOUS_MODE     = 1
+
+class c_nvmlVgpuPlacementList_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('placementSize', c_uint),
+        ('count', c_uint),
+        ('placementIds', POINTER(c_uint)),
+        ('mode', c_uint),
+    ]
+
+VgpuPlacementList_v2 = 0x2000020
+
+class c_nvmlVgpuTypeBar1Info_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('bar1Size', c_ulonglong),
+    ]
+
+VgpuTypeBar1Info_v1 = 0x1000010
+
+class c_nvmlVgpuInstanceUtilizationSample_t(_PrintableStructure):
+    _fields_ = [
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('timeStamp', c_ulonglong),
+        ('smUtil', c_nvmlValue_t),
+        ('memUtil', c_nvmlValue_t),
+        ('encUtil', c_nvmlValue_t),
+        ('decUtil', c_nvmlValue_t),
+    ]
+
+class c_nvmlVgpuInstanceUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('timeStamp', c_ulonglong),
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('smUtil', c_nvmlValue_t),
+        ('memUtil', c_nvmlValue_t),
+        ('encUtil', c_nvmlValue_t),
+        ('decUtil', c_nvmlValue_t),
+        ('jpgUtil', c_nvmlValue_t),
+        ('ofaUtil', c_nvmlValue_t),
+    ]
+
+class c_nvmlVgpuInstancesUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('sampleValType', _nvmlValueType_t),
+        ('vgpuInstanceCount', c_uint),
+        ('lastSeenTimeStamp', c_ulonglong),
+        ('vgpuUtilArray', POINTER(c_nvmlVgpuInstanceUtilizationInfo_v1_t)),
+    ]
+
+VgpuInstancesUtilizationInfo_v1 = 0x01000020
+
+class c_nvmlVgpuProcessUtilizationSample_t(_PrintableStructure):
+    _fields_ = [
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('pid', c_uint),
+        ('processName', c_char * NVML_VGPU_NAME_BUFFER_SIZE),
+        ('timeStamp', c_ulonglong),
+        ('smUtil', c_uint),
+        ('memUtil', c_uint),
+        ('encUtil', c_uint),
+        ('decUtil', c_uint),
+    ]
+
+class c_nvmlVgpuProcessUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('processName', c_char * NVML_VGPU_NAME_BUFFER_SIZE),
+        ('timeStamp', c_ulonglong),
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('pid', c_uint),
+        ('smUtil', c_uint),
+        ('memUtil', c_uint),
+        ('encUtil', c_uint),
+        ('decUtil', c_uint),
+        ('jpgUtil', c_uint),
+        ('ofaUtil', c_uint),
+    ]
+
+class c_nvmlVgpuProcessesUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('vgpuProcessCount', c_uint),
+        ('lastSeenTimeStamp', c_ulonglong),
+        ('vgpuProcUtilArray', POINTER(c_nvmlVgpuProcessUtilizationInfo_v1_t)),
+    ]
+
+VgpuProcessesUtilizationInfo_v1 = 0x01000018
+
+class nvmlVgpuRuntimeState_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('size', c_ulonglong),
+    ]
+
+VgpuRuntimeState_v1 = 0x1000010
+
+class c_nvmlVgpuLicenseExpiry_t(_PrintableStructure):
+    _fields_ = [
+        ('year',    c_uint32),
+        ('month',   c_uint16),
+        ('day',     c_uint16),
+        ('hour',    c_uint16),
+        ('min',     c_uint16),
+        ('sec',     c_uint16),
+        ('status',  c_uint8),
+    ]
+
+NVML_GRID_LICENSE_STATE_UNKNOWN                 = 0
+NVML_GRID_LICENSE_STATE_UNINITIALIZED           = 1
+NVML_GRID_LICENSE_STATE_UNLICENSED_UNRESTRICTED = 2
+NVML_GRID_LICENSE_STATE_UNLICENSED_RESTRICTED   = 3
+NVML_GRID_LICENSE_STATE_UNLICENSED              = 4
+NVML_GRID_LICENSE_STATE_LICENSED                = 5
+
+class c_nvmlVgpuLicenseInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('isLicensed',      c_uint8),
+        ('licenseExpiry',   c_nvmlVgpuLicenseExpiry_t),
+        ('currentState',    c_uint),
+    ]
+
+class c_nvmlEncoderSession_t(_PrintableStructure):
+    _fields_ = [
+        ('sessionId', c_uint),
+        ('pid', c_uint),
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('codecType', c_uint),
+        ('hResolution', c_uint),
+        ('vResolution', c_uint),
+        ('averageFps', c_uint),
+        ('encodeLatency', c_uint),
+    ]
+
+class c_nvmlProcessUtilizationSample_t(_PrintableStructure):
+    _fields_ = [
+        ('pid', c_uint),
+        ('timeStamp', c_ulonglong),
+        ('smUtil', c_uint),
+        ('memUtil', c_uint),
+        ('encUtil', c_uint),
+        ('decUtil', c_uint),
+    ]
+
+class c_nvmlProcessUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('timeStamp', c_ulonglong),
+        ('pid', c_uint),
+        ('smUtil', c_uint),
+        ('memUtil', c_uint),
+        ('encUtil', c_uint),
+        ('decUtil', c_uint),
+        ('jpgUtil', c_uint),
+        ('ofaUtil', c_uint),
+    ]
+
+class c_nvmlProcessesUtilizationInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('processSamplesCount', c_uint),
+        ('lastSeenTimeStamp', c_ulonglong),
+        ('procUtilArray', POINTER(c_nvmlProcessUtilizationInfo_v1_t)),
+    ]
+
+ProcessesUtilizationInfo_v1 = 0x01000018
+
+class c_nvmlGridLicenseExpiry_t(_PrintableStructure):
+    _fields_ = [
+        ('year',    c_uint32),
+        ('month',   c_uint16),
+        ('day',     c_uint16),
+        ('hour',    c_uint16),
+        ('min',     c_uint16),
+        ('sec',     c_uint16),
+        ('status',  c_uint8),
+    ]
+
+class c_nvmlGridLicensableFeature_v4_t(_PrintableStructure):
+    _fields_ = [
+        ('featureCode',    _nvmlGridLicenseFeatureCode_t),
+        ('featureState',   c_uint),
+        ('licenseInfo',    c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+        ('productName',    c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+        ('featureEnabled', c_uint),
+        ('licenseExpiry',  c_nvmlGridLicenseExpiry_t),
+    ]
+
+class c_nvmlGridLicensableFeatures_v4_t(_PrintableStructure):
+    _fields_ = [
+        ('isGridLicenseSupported',  c_int),
+        ('licensableFeaturesCount', c_uint),
+        ('gridLicensableFeatures',  c_nvmlGridLicensableFeature_v4_t * NVML_GRID_LICENSE_FEATURE_MAX_COUNT),
+    ]
+
+class c_nvmlGridLicensableFeature_v3_t(_PrintableStructure):
+    _fields_ = [
+        ('featureCode', _nvmlGridLicenseFeatureCode_t),
+        ('featureState', c_uint),
+        ('licenseInfo', c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+        ('productName', c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+        ('featureEnabled', c_uint),
+    ]
+
+class c_nvmlGridLicensableFeatures_v3_t(_PrintableStructure):
+    _fields_ = [
+        ('isGridLicenseSupported', c_int),
+        ('licensableFeaturesCount', c_uint),
+        ('gridLicensableFeatures', c_nvmlGridLicensableFeature_v3_t * NVML_GRID_LICENSE_FEATURE_MAX_COUNT),
+    ]
+
+class c_nvmlGridLicensableFeature_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('featureCode', _nvmlGridLicenseFeatureCode_t),
+        ('featureState', c_uint),
+        ('licenseInfo', c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+        ('productName', c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+    ]
+
+class c_nvmlGridLicensableFeatures_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('isGridLicenseSupported', c_int),
+        ('licensableFeaturesCount', c_uint),
+        ('gridLicensableFeatures', c_nvmlGridLicensableFeature_v2_t * NVML_GRID_LICENSE_FEATURE_MAX_COUNT),
+    ]
+
+class c_nvmlGridLicensableFeature_t(_PrintableStructure):
+    _fields_ = [
+        ('featureCode', _nvmlGridLicenseFeatureCode_t),
+        ('featureState', c_uint),
+        ('licenseInfo', c_char * NVML_GRID_LICENSE_BUFFER_SIZE),
+    ]
+
+class c_nvmlGridLicensableFeatures_t(_PrintableStructure):
+    _fields_ = [
+        ('isGridLicenseSupported', c_int),
+        ('licensableFeaturesCount', c_uint),
+        ('gridLicensableFeatures', c_nvmlGridLicensableFeature_t * NVML_GRID_LICENSE_FEATURE_MAX_COUNT),
+    ]
+
+class c_nvmlMarginTemperature_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('marginTemperature', c_int),
+    ]
+
+nvmlMarginTemperature_v1 = 0x1000008
+
+## Event structures
+class struct_c_nvmlEventSet_t(Structure):
+    pass # opaque handle
+c_nvmlEventSet_t = POINTER(struct_c_nvmlEventSet_t)
+
+nvmlEventTypeSingleBitEccError      = 0x0000000000000001
+nvmlEventTypeDoubleBitEccError      = 0x0000000000000002
+nvmlEventTypePState                 = 0x0000000000000004
+nvmlEventTypeXidCriticalError       = 0x0000000000000008
+nvmlEventTypeClock                  = 0x0000000000000010
+nvmlEventTypePowerSourceChange      = 0x0000000000000080
+nvmlEventMigConfigChange            = 0x0000000000000100
+nvmlEventTypeSingleBitEccErrorStorm = 0x0000000000000200
+nvmlEventTypeDramRetirementEvent    = 0x0000000000000400
+nvmlEventTypeDramRetirementFailure  = 0x0000000000000800
+nvmlEventTypeNonFatalPoisonError    = 0x0000000000001000
+nvmlEventTypeFatalPoisonError       = 0x0000000000002000
+nvmlEventTypeGpuUnavailableError    = 0x0000000000004000
+nvmlEventTypeGpuRecoveryAction      = 0x0000000000008000
+nvmlEventTypeNone                   = 0x0000000000000000
+nvmlEventTypeAll                    = (
+                                        nvmlEventTypeNone
+                                        | nvmlEventTypeSingleBitEccError
+                                        | nvmlEventTypeDoubleBitEccError
+                                        | nvmlEventTypePState
+                                        | nvmlEventTypeClock
+                                        | nvmlEventTypePowerSourceChange
+                                        | nvmlEventTypeXidCriticalError
+                                        | nvmlEventMigConfigChange
+                                        | nvmlEventTypeSingleBitEccErrorStorm
+                                        | nvmlEventTypeDramRetirementEvent
+                                        | nvmlEventTypeDramRetirementFailure
+                                        | nvmlEventTypeNonFatalPoisonError
+                                        | nvmlEventTypeFatalPoisonError
+                                        | nvmlEventTypeGpuUnavailableError
+                                        | nvmlEventTypeGpuRecoveryAction
+                                        )
+
+## Clock Event Reasons defines
+nvmlClocksEventReasonGpuIdle              = 0x0000000000000001
+nvmlClocksEventReasonApplicationsClocksSetting = 0x0000000000000002
+nvmlClocksEventReasonUserDefinedClocks         = nvmlClocksEventReasonApplicationsClocksSetting # deprecated, use nvmlClocksEventReasonApplicationsClocksSetting
+nvmlClocksEventReasonSwPowerCap           = 0x0000000000000004
+nvmlClocksEventReasonHwSlowdown           = 0x0000000000000008
+nvmlClocksEventReasonSyncBoost            = 0x0000000000000010
+nvmlClocksEventReasonSwThermalSlowdown    = 0x0000000000000020
+nvmlClocksEventReasonHwThermalSlowdown    = 0x0000000000000040
+nvmlClocksEventReasonHwPowerBrakeSlowdown = 0x0000000000000080
+nvmlClocksEventReasonDisplayClockSetting  = 0x0000000000000100
+nvmlClocksEventReasonNone                 = 0x0000000000000000
+nvmlClocksEventReasonAll                  = (
+                                                  nvmlClocksEventReasonNone |
+                                                  nvmlClocksEventReasonGpuIdle |
+                                                  nvmlClocksEventReasonApplicationsClocksSetting |
+                                                  nvmlClocksEventReasonSwPowerCap |
+                                                  nvmlClocksEventReasonHwSlowdown |
+                                                  nvmlClocksEventReasonSyncBoost |
+                                                  nvmlClocksEventReasonSwThermalSlowdown |
+                                                  nvmlClocksEventReasonHwThermalSlowdown |
+                                                  nvmlClocksEventReasonHwPowerBrakeSlowdown |
+                                                  nvmlClocksEventReasonDisplayClockSetting
+                                               )
+
+## Following have been deprecated
+nvmlClocksThrottleReasonGpuIdle              = 0x0000000000000001
+nvmlClocksThrottleReasonApplicationsClocksSetting = 0x0000000000000002
+nvmlClocksThrottleReasonUserDefinedClocks         = nvmlClocksThrottleReasonApplicationsClocksSetting # deprecated, use nvmlClocksThrottleReasonApplicationsClocksSetting
+nvmlClocksThrottleReasonSwPowerCap           = 0x0000000000000004
+nvmlClocksThrottleReasonHwSlowdown           = 0x0000000000000008
+nvmlClocksThrottleReasonSyncBoost            = 0x0000000000000010
+nvmlClocksThrottleReasonSwThermalSlowdown    = 0x0000000000000020
+nvmlClocksThrottleReasonHwThermalSlowdown    = 0x0000000000000040
+nvmlClocksThrottleReasonHwPowerBrakeSlowdown = 0x0000000000000080
+nvmlClocksThrottleReasonDisplayClockSetting  = 0x0000000000000100
+nvmlClocksThrottleReasonNone                 = 0x0000000000000000
+nvmlClocksThrottleReasonAll                  = (
+                                                  nvmlClocksThrottleReasonNone |
+                                                  nvmlClocksThrottleReasonGpuIdle |
+                                                  nvmlClocksThrottleReasonApplicationsClocksSetting |
+                                                  nvmlClocksThrottleReasonSwPowerCap |
+                                                  nvmlClocksThrottleReasonHwSlowdown |
+                                                  nvmlClocksThrottleReasonSyncBoost |
+                                                  nvmlClocksThrottleReasonSwThermalSlowdown |
+                                                  nvmlClocksThrottleReasonHwThermalSlowdown |
+                                                  nvmlClocksThrottleReasonHwPowerBrakeSlowdown |
+                                                  nvmlClocksThrottleReasonDisplayClockSetting
+                                               )
+
+class c_nvmlEventData_t(_PrintableStructure):
+    _fields_ = [
+        ('device', c_nvmlDevice_t),
+        ('eventType', c_ulonglong),
+        ('eventData', c_ulonglong),
+        ('gpuInstanceId', c_uint),
+        ('computeInstanceId', c_uint)
+    ]
+    _fmt_ = {'eventType': "0x%08X"}
+
+class c_nvmlAccountingStats_t(_PrintableStructure):
+    _fields_ = [
+        ('gpuUtilization', c_uint),
+        ('memoryUtilization', c_uint),
+        ('maxMemoryUsage', c_ulonglong),
+        ('time', c_ulonglong),
+        ('startTime', c_ulonglong),
+        ('isRunning', c_uint),
+        ('reserved', c_uint * 5)
+    ]
+
+class c_nvmlVgpuVersion_t(Structure):
+    _fields_ = [("minVersion", c_uint),
+                ("maxVersion", c_uint)
+               ]
+
+class c_nvmlVgpuMetadata_t(_PrintableStructure):
+    _fields_ = [("version", c_uint),
+                ("revision", c_uint),
+                ("guestInfoState", _nvmlVgpuGuestInfoState_t),
+                ("guestDriverVersion", c_char * NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE),
+                ("hostDriverVersion", c_char * NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE),
+                ("reserved", c_uint * 6),
+                ("vgpuVirtualizationCaps", c_uint),
+                ("guestVgpuVersion", c_uint),
+                ("opaqueDataSize", c_uint),
+                ("opaqueData", c_char * NVML_VGPU_METADATA_OPAQUE_DATA_SIZE)
+               ]
+
+class c_nvmlVgpuPgpuMetadata_t(_PrintableStructure):
+    _fields_ = [("version", c_uint),
+                ("revision", c_uint),
+                ("hostDriverVersion", c_char * NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE),
+                ("pgpuVirtualizationCaps", c_uint),
+                ("reserved", c_uint * 5),
+                ("hostSupportedVgpuRange", c_nvmlVgpuVersion_t),
+                ("opaqueDataSize", c_uint),
+                ("opaqueData", c_char * NVML_VGPU_PGPU_METADATA_OPAQUE_DATA_SIZE)
+               ]
+
+class c_nvmlVgpuPgpuCompatibility_t(Structure):
+    _fields_ = [("vgpuVmCompatibility", _nvmlVgpuVmCompatibility_t),
+                ("compatibilityLimitCode", _nvmlVgpuPgpuCompatibilityLimitCode_t)
+               ]
+
+## vGPU scheduler policy defines
+NVML_VGPU_SCHEDULER_POLICY_UNKNOWN      = 0
+NVML_VGPU_SCHEDULER_POLICY_BEST_EFFORT  = 1
+NVML_VGPU_SCHEDULER_POLICY_EQUAL_SHARE  = 2
+NVML_VGPU_SCHEDULER_POLICY_FIXED_SHARE  = 3
+
+## Supported vGPU scheduler policy count
+NVML_SUPPORTED_VGPU_SCHEDULER_POLICY_COUNT  = 3
+
+NVML_SCHEDULER_SW_MAX_LOG_ENTRIES           = 200
+
+NVML_VGPU_SCHEDULER_ARR_DEFAULT   = 0
+NVML_VGPU_SCHEDULER_ARR_DISABLE   = 1
+NVML_VGPU_SCHEDULER_ARR_ENABLE    = 2
+
+class c_nvmlVgpuSchedDataWithARR_t(_PrintableStructure):
+    _fields_ = [
+        ('avgFactor',   c_uint),
+        ('timeslice',   c_uint),
+    ]
+
+class c_nvmlVgpuSchedData_t(_PrintableStructure):
+    _fields_ = [
+        ('timeslice',   c_uint),
+    ]
+
+class c_nvmlVgpuSchedulerParams_t(Union):
+    _fields_ = [
+        ('vgpuSchedDataWithARR', c_nvmlVgpuSchedDataWithARR_t),
+        ('vgpuSchedData',        c_nvmlVgpuSchedData_t),
+    ]
+
+class c_nvmlVgpuSchedulerLogEntry_t(_PrintableStructure):
+    _fields_ = [
+        ('timestamp',                   c_ulonglong),
+        ('timeRunTotal',                c_ulonglong),
+        ('timeRun',                     c_ulonglong),
+        ('swRunlistId',                 c_uint),
+        ('targetTimeSlice',             c_ulonglong),
+        ('cumulativePreemptionTime',    c_ulonglong),
+    ]
+
+class c_nvmlVgpuSchedulerLog_t(_PrintableStructure):
+    _fields_ = [
+        ('engineId',        c_uint),
+        ('schedulerPolicy', c_uint),
+        ('arrMode',         c_uint),
+        ('schedulerParams', c_nvmlVgpuSchedulerParams_t),
+        ('entriesCount',    c_uint),
+        ('logEntries',      c_nvmlVgpuSchedulerLogEntry_t * NVML_SCHEDULER_SW_MAX_LOG_ENTRIES),
+    ]
+
+class c_nvmlVgpuSchedulerGetState_t(_PrintableStructure):
+    _fields_ = [
+        ('schedulerPolicy', c_uint),
+        ('arrMode',         c_uint),
+        ('schedulerParams', c_nvmlVgpuSchedulerParams_t),
+    ]
+
+class c_nvmlVgpuSchedSetDataWithARR_t(_PrintableStructure):
+    _fields_ = [
+        ('avgFactor',   c_uint),
+        ('frequency',   c_uint),
+    ]
+
+class c_nvmlVgpuSchedSetData_t(_PrintableStructure):
+    _fields_ = [
+        ('timeslice',   c_uint),
+    ]
+
+class c_nvmlVgpuSchedulerSetParams_t(Union):
+    _fields_ = [
+        ('vgpuSchedDataWithARR', c_nvmlVgpuSchedSetDataWithARR_t),
+        ('vgpuSchedData',        c_nvmlVgpuSchedSetData_t),
+    ]
+
+class c_nvmlVgpuSchedulerSetState_t(_PrintableStructure):
+    _fields_ = [
+        ('schedulerPolicy', c_uint),
+        ('enableARRMode',   c_uint),
+        ('schedulerParams', c_nvmlVgpuSchedulerSetParams_t),
+    ]
+
+class c_nvmlVgpuSchedulerCapabilities_t(_PrintableStructure):
+    _fields_ = [
+        ('supportedSchedulers', c_uint * NVML_SUPPORTED_VGPU_SCHEDULER_POLICY_COUNT),
+        ('maxTimeslice',        c_uint),
+        ('minTimeslice',        c_uint),
+        ('isArrModeSupported',  c_uint),
+        ('maxFrequencyForARR',  c_uint),
+        ('minFrequencyForARR',  c_uint),
+        ('maxAvgFactorForARR',  c_uint),
+        ('minAvgFactorForARR',  c_uint),
+    ]
+
+class c_nvmlFBCStats_t(Structure):
+    _fields_ = [("sessionsCount", c_uint),
+                ("averageFPS", c_uint),
+                ("averageLatency", c_uint)
+               ]
+
+class c_nvmlFBCSession_t(_PrintableStructure):
+    _fields_ = [
+        ('sessionId', c_uint),
+        ('pid', c_uint),
+        ('vgpuInstance', _nvmlVgpuInstance_t),
+        ('displayOrdinal', c_uint),
+        ('sessionType', c_uint),
+        ('sessionFlags', c_uint),
+        ('hMaxResolution', c_uint),
+        ('vMaxResolution', c_uint),
+        ('hResolution', c_uint),
+        ('vResolution', c_uint),
+        ('averageFPS', c_uint),
+        ('averageLatency', c_uint),
+    ]
+
+NVML_DEVICE_MIG_DISABLE = 0x0
+NVML_DEVICE_MIG_ENABLE  = 0x1
+
+NVML_GPU_INSTANCE_PROFILE_1_SLICE      = 0x0
+NVML_GPU_INSTANCE_PROFILE_2_SLICE      = 0x1
+NVML_GPU_INSTANCE_PROFILE_3_SLICE      = 0x2
+NVML_GPU_INSTANCE_PROFILE_4_SLICE      = 0x3
+NVML_GPU_INSTANCE_PROFILE_7_SLICE      = 0x4
+NVML_GPU_INSTANCE_PROFILE_8_SLICE      = 0x5
+NVML_GPU_INSTANCE_PROFILE_6_SLICE      = 0x6
+NVML_GPU_INSTANCE_PROFILE_1_SLICE_REV1 = 0x7
+NVML_GPU_INSTANCE_PROFILE_2_SLICE_REV1 = 0x8
+NVML_GPU_INSTANCE_PROFILE_1_SLICE_REV2 = 0x9
+NVML_GPU_INSTANCE_PROFILE_1_SLICE_GFX  = 0xA
+NVML_GPU_INSTANCE_PROFILE_2_SLICE_GFX  = 0xB
+NVML_GPU_INSTANCE_PROFILE_4_SLICE_GFX  = 0xC
+NVML_GPU_INSTANCE_PROFILE_COUNT        = 0xD
+
+class c_nvmlGpuInstancePlacement_t(Structure):
+    _fields_ = [("start", c_uint),
+                ("size", c_uint)
+               ]
+
+class c_nvmlGpuInstanceProfileInfo_t(Structure):
+    _fields_ = [("id", c_uint),
+                ("isP2pSupported", c_uint),
+                ("sliceCount", c_uint),
+                ("instanceCount", c_uint),
+                ("multiprocessorCount", c_uint),
+                ("copyEngineCount", c_uint),
+                ("decoderCount", c_uint),
+                ("encoderCount", c_uint),
+                ("jpegCount", c_uint),
+                ("ofaCount", c_uint),
+                ("memorySizeMB", c_ulonglong),
+               ]
+
+nvmlGpuInstanceProfileInfo_v2 = 0x02000098
+
+class c_nvmlGpuInstanceProfileInfo_v2_t(_PrintableStructure):
+    _fields_ = [("version", c_uint),
+                ("id", c_uint),
+                ("isP2pSupported", c_uint),
+                ("sliceCount", c_uint),
+                ("instanceCount", c_uint),
+                ("multiprocessorCount", c_uint),
+                ("copyEngineCount", c_uint),
+                ("decoderCount", c_uint),
+                ("encoderCount", c_uint),
+                ("jpegCount", c_uint),
+                ("ofaCount", c_uint),
+                ("memorySizeMB", c_ulonglong),
+                ("name", c_char * NVML_DEVICE_NAME_V2_BUFFER_SIZE)
+               ]
+    
+    def __init__(self):
+        super(c_nvmlGpuInstanceProfileInfo_v2_t, self).__init__(version=nvmlGpuInstanceProfileInfo_v2)
+
+class c_nvmlGpuInstanceInfo_t(Structure):
+    _fields_ = [("device", c_nvmlDevice_t),
+                ("id", c_uint),
+                ("profileId", c_uint),
+                ("placement", c_nvmlGpuInstancePlacement_t)
+               ]
+
+class struct_c_nvmlGpuInstance_t(Structure):
+    pass # opaque handle
+c_nvmlGpuInstance_t = POINTER(struct_c_nvmlGpuInstance_t)
+
+NVML_COMPUTE_INSTANCE_PROFILE_1_SLICE      = 0x0
+NVML_COMPUTE_INSTANCE_PROFILE_2_SLICE      = 0x1
+NVML_COMPUTE_INSTANCE_PROFILE_3_SLICE      = 0x2
+NVML_COMPUTE_INSTANCE_PROFILE_4_SLICE      = 0x3
+NVML_COMPUTE_INSTANCE_PROFILE_7_SLICE      = 0x4
+NVML_COMPUTE_INSTANCE_PROFILE_8_SLICE      = 0x5
+NVML_COMPUTE_INSTANCE_PROFILE_6_SLICE      = 0x6
+NVML_COMPUTE_INSTANCE_PROFILE_1_SLICE_REV1 = 0x7
+NVML_COMPUTE_INSTANCE_PROFILE_COUNT        = 0x8
+
+NVML_COMPUTE_INSTANCE_ENGINE_PROFILE_SHARED = 0x0
+NVML_COMPUTE_INSTANCE_ENGINE_PROFILE_COUNT = 0x1
+
+class c_nvmlComputeInstancePlacement_t(Structure):
+    _fields_ = [("start", c_uint),
+                ("size", c_uint)
+               ]
+
+class c_nvmlComputeInstanceProfileInfo_t(Structure):
+    _fields_ = [("id", c_uint),
+                ("sliceCount", c_uint),
+                ("instanceCount", c_uint),
+                ("multiprocessorCount", c_uint),
+                ("sharedCopyEngineCount", c_uint),
+                ("sharedDecoderCount", c_uint),
+                ("sharedEncoderCount", c_uint),
+                ("sharedJpegCount", c_uint),
+                ("sharedOfaCount", c_uint)
+               ]
+
+nvmlComputeInstanceProfileInfo_v2 = 0x02000088
+
+class c_nvmlComputeInstanceProfileInfo_v2_t(_PrintableStructure):
+    _fields_ = [("version", c_uint),
+                ("id", c_uint),
+                ("sliceCount", c_uint),
+                ("instanceCount", c_uint),
+                ("multiprocessorCount", c_uint),
+                ("sharedCopyEngineCount", c_uint),
+                ("sharedDecoderCount", c_uint),
+                ("sharedEncoderCount", c_uint),
+                ("sharedJpegCount", c_uint),
+                ("sharedOfaCount", c_uint),
+                ("name", c_char * NVML_DEVICE_NAME_V2_BUFFER_SIZE)
+               ]
+
+    def __init__(self):
+        super(c_nvmlComputeInstanceProfileInfo_v2_t, self).__init__(version=nvmlComputeInstanceProfileInfo_v2)
+
+class c_nvmlComputeInstanceInfo_t(Structure):
+    _fields_ = [("device", c_nvmlDevice_t),
+                ("gpuInstance", c_nvmlGpuInstance_t),
+                ("id", c_uint),
+                ("profileId", c_uint),
+                ("placement", c_nvmlComputeInstancePlacement_t)
+               ]
+
+NVML_MAX_GPU_UTILIZATIONS = 8
+NVML_GPU_UTILIZATION_DOMAIN_GPU    = 0
+NVML_GPU_UTILIZATION_DOMAIN_FB     = 1
+NVML_GPU_UTILIZATION_DOMAIN_VID    = 2
+NVML_GPU_UTILIZATION_DOMAIN_BUS    = 3
+class c_nvmlGpuDynamicPstatesUtilization_t(Structure):
+    _fields_ = [("bIsPresent", c_uint, 1),
+                ("percentage", c_uint),
+                ("incThreshold", c_uint),
+                ("decThreshold", c_uint)]
+class c_nvmlGpuDynamicPstatesInfo_t(Structure):
+    _fields_ = [("flags", c_uint),
+                ("utilization", c_nvmlGpuDynamicPstatesUtilization_t * NVML_MAX_GPU_UTILIZATIONS)]
+
+NVML_MAX_THERMAL_SENSORS_PER_GPU = 3
+
+NVML_THERMAL_TARGET_NONE          = 0
+NVML_THERMAL_TARGET_GPU           = 1
+NVML_THERMAL_TARGET_MEMORY        = 2
+NVML_THERMAL_TARGET_POWER_SUPPLY  = 4
+NVML_THERMAL_TARGET_BOARD         = 8
+NVML_THERMAL_TARGET_VCD_BOARD     = 9
+NVML_THERMAL_TARGET_VCD_INLET     = 10
+NVML_THERMAL_TARGET_VCD_OUTLET    = 11
+NVML_THERMAL_TARGET_ALL           = 15
+NVML_THERMAL_TARGET_UNKNOWN       = -1
+
+NVML_THERMAL_CONTROLLER_NONE            = 0
+NVML_THERMAL_CONTROLLER_GPU_INTERNAL    = 1
+NVML_THERMAL_CONTROLLER_ADM1032         = 2
+NVML_THERMAL_CONTROLLER_ADT7461         = 3
+NVML_THERMAL_CONTROLLER_MAX6649         = 4
+NVML_THERMAL_CONTROLLER_MAX1617         = 5
+NVML_THERMAL_CONTROLLER_LM99            = 6
+NVML_THERMAL_CONTROLLER_LM89            = 7
+NVML_THERMAL_CONTROLLER_LM64            = 8
+NVML_THERMAL_CONTROLLER_G781            = 9
+NVML_THERMAL_CONTROLLER_ADT7473         = 10
+NVML_THERMAL_CONTROLLER_SBMAX6649       = 11
+NVML_THERMAL_CONTROLLER_VBIOSEVT        = 12
+NVML_THERMAL_CONTROLLER_OS              = 13
+NVML_THERMAL_CONTROLLER_NVSYSCON_CANOAS = 14
+NVML_THERMAL_CONTROLLER_NVSYSCON_E551   = 15
+NVML_THERMAL_CONTROLLER_MAX6649R        = 16
+NVML_THERMAL_CONTROLLER_ADT7473S        = 17
+NVML_THERMAL_CONTROLLER_UNKNOWN         = -1
+
+class c_nvmlGpuThermalSensor_t(Structure):
+    _fields_ = [("controller", c_int),
+                ("defaultMinTemp", c_int),
+                ("defaultMaxTemp", c_int),
+                ("currentTemp", c_int),
+                ("target", c_int)]
+class c_nvmlGpuThermalSettings_t(Structure):
+    _fields_ = [("count", c_uint),
+                ("sensor", c_nvmlGpuThermalSensor_t * NVML_MAX_THERMAL_SENSORS_PER_GPU)]
+
+_nvmlCoolerControl_t = c_uint
+NVML_THERMAL_COOLER_SIGNAL_NONE        = 0
+NVML_THERMAL_COOLER_SIGNAL_TOGGLE      = 1
+NVML_THERMAL_COOLER_SIGNAL_VARIABLE    = 2
+NVML_THERMAL_COOLER_SIGNAL_COUNT       = 3
+
+_nvmlCoolerTarget_t = c_uint
+NVML_THERMAL_COOLER_TARGET_NONE          = (1 << 0)
+NVML_THERMAL_COOLER_TARGET_GPU           = (1 << 1)
+NVML_THERMAL_COOLER_TARGET_MEMORY        = (1 << 2)
+NVML_THERMAL_COOLER_TARGET_POWER_SUPPLY  = (1 << 3)
+NVML_THERMAL_COOLER_TARGET_GPU_RELATED   = (NVML_THERMAL_COOLER_TARGET_GPU | NVML_THERMAL_COOLER_TARGET_MEMORY | NVML_THERMAL_COOLER_TARGET_POWER_SUPPLY)
+
+class c_nvmlCoolerInfo_t(_PrintableStructure):
+    _fields_ = [("version", c_uint),
+                ("index", c_uint),
+                ("coolerControlType", _nvmlCoolerControl_t),
+                ("coolerTarget", _nvmlCoolerTarget_t)
+               ]
+
+nvmlCoolerInfo_v1 = 0x1000010
+
+def nvmlDeviceGetCoolerInfo(handle):
+    c_coolerInfo = c_nvmlCoolerInfo_t()
+    c_coolerInfo.version = nvmlCoolerInfo_v1
+    c_coolerInfo.index = 0
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCoolerInfo")
+    ret = fn(handle, byref(c_coolerInfo))
+    _nvmlCheckReturn(ret)
+    return [c_coolerInfo.coolerControlType, c_coolerInfo.coolerTarget]
+
+class struct_c_nvmlComputeInstance_t(Structure):
+    pass # opaque handle
+c_nvmlComputeInstance_t = POINTER(struct_c_nvmlComputeInstance_t)
+
+class c_nvmlDeviceAttributes(Structure):
+    _fields_ = [("multiprocessorCount", c_uint),
+                ("sharedCopyEngineCount", c_uint),
+                ("sharedDecoderCount", c_uint),
+                ("sharedEncoderCount", c_uint),
+                ("sharedJpegCount", c_uint),
+                ("sharedOfaCount", c_uint),
+                ("gpuInstanceSliceCount", c_uint),
+                ("computeInstanceSliceCount", c_uint),
+                ("memorySizeMB", c_ulonglong),
+               ]
+
+class c_nvmlRowRemapperHistogramValues(Structure):
+    _fields_ = [("max", c_uint),
+                ("high", c_uint),
+                ("partial", c_uint),
+                ("low", c_uint),
+                ("none", c_uint)
+               ]
+
+NVML_GPU_CERT_CHAIN_SIZE                = 0x1000
+NVML_GPU_ATTESTATION_CERT_CHAIN_SIZE    = 0x1400
+NVML_CC_GPU_CEC_NONCE_SIZE              = 0x20
+NVML_CC_GPU_ATTESTATION_REPORT_SIZE     = 0x2000
+NVML_CC_GPU_CEC_ATTESTATION_REPORT_SIZE = 0x1000
+NVML_CC_CEC_ATTESTATION_REPORT_NOT_PRESENT = 0
+NVML_CC_CEC_ATTESTATION_REPORT_PRESENT     = 1
+
+class c_nvmlConfComputeSystemState_t(Structure):
+    _fields_ = [('environment', c_uint),
+                ('ccFeature', c_uint),
+                ('devToolsMode', c_uint),
+               ]
+
+nvmlSystemConfComputeSettings_v1 = 0x1000014
+
+class c_nvmlSystemConfComputeSettings_v1_t(Structure):
+    _fields_ = [('version', c_uint),
+                ('environment', c_uint),
+                ('ccFeature', c_uint),
+                ('devToolsMode', c_uint),
+                ('multiGpuMode', c_uint),
+               ]
+    def __init__(self):
+        super(c_nvmlSystemConfComputeSettings_v1_t, self).__init__(version=nvmlSystemConfComputeSettings_v1)
+
+class c_nvmlConfComputeSystemCaps_t(Structure):
+    _fields_ = [('cpuCaps', c_uint),
+                ('gpusCaps', c_uint),
+               ]
+
+class c_nvmlConfComputeMemSizeInfo_t(Structure):
+    _fields_ = [('protectedMemSizeKib', c_ulonglong),
+                ('unprotectedMemSizeKib', c_ulonglong),
+               ]
+
+class c_nvmlConfComputeGpuCertificate_t(Structure):
+    _fields_ = [('certChainSize', c_uint),
+                ('attestationCertChainSize', c_uint),
+                ('certChain', c_uint8 * NVML_GPU_CERT_CHAIN_SIZE),
+                ('attestationCertChain', c_uint8 * NVML_GPU_ATTESTATION_CERT_CHAIN_SIZE),
+               ]
+
+class c_nvmlConfComputeGpuAttestationReport_t(Structure):
+    _fields_ = [('isCecAttestationReportPresent', c_uint),
+                ('attestationReportSize', c_uint),
+                ('cecAttestationReportSize', c_uint),
+                ('nonce', c_uint8 * NVML_CC_GPU_CEC_NONCE_SIZE),
+                ('attestationReport', c_uint8 * NVML_CC_GPU_ATTESTATION_REPORT_SIZE),
+                ('cecAttestationReport', c_uint8 * NVML_CC_GPU_CEC_ATTESTATION_REPORT_SIZE),
+               ]
+
+class c_nvmlConfComputeSetKeyRotationThresholdInfo_t(Structure):
+    _fields_ = [('version', c_uint),
+                ('maxAttackerAdvantage', c_ulong),
+               ]
+ConfComputeSetKeyRotationThresholdInfo_v1 = 0x1000010
+
+class c_nvmlConfComputeGetKeyRotationThresholdInfo_t(Structure):
+    _fields_ = [('version', c_uint),
+                ('attackerAdvantage', c_ulong),
+               ]
+ConfComputeGetKeyRotationThresholdInfo_v1 = 0x1000010
+
+
+## string/bytes conversion for ease of use
+def convertStrBytes(func):
+    '''
+    In python 3, strings are unicode instead of bytes, and need to be converted for ctypes
+    Args from caller: (1, 'string', <__main__.c_nvmlDevice_t at 0xFFFFFFFF>)
+    Args passed to function: (1, b'string', <__main__.c_nvmlDevice_t at 0xFFFFFFFF)>
+    ----
+    Returned from function: b'returned string'
+    Returned to caller: 'returned string'
+    '''
+    @wraps(func)
+    def wrapper(*args, **kwargs):
+        # encoding a str returns bytes in python 2 and 3
+        args = [arg.encode() if isinstance(arg, str) else arg for arg in args]
+        res = func(*args, **kwargs)
+        # In python 2, str and bytes are the same
+        # In python 3, str is unicode and should be decoded.
+        # Ctypes handles most conversions, this only effects c_char and char arrays.
+        if isinstance(res, bytes):
+            if isinstance(res, str):
+                return res
+            return res.decode()
+        return res
+
+    if sys.version_info >= (3,):
+        return wrapper
+    return func
+
+def throwOnVersionMismatch(func):
+    @wraps(func)
+    def wrapper(*args, **kwargs):
+        try:
+            return func(*args, **kwargs)
+        except NVMLError_FunctionNotFound:
+            raise NVMLLibraryMismatchError("Unversioned function called and the "
+                                           "pyNVML version does not match the NVML lib version. "
+                                           "Either use matching pyNVML and NVML lib versions or "
+                                           "use a versioned function such as " + func.__name__ + "_v2")
+    return wrapper
+
+## C function wrappers ##
+def nvmlInitWithFlags(flags):
+    _LoadNvmlLibrary()
+
+    #
+    # Initialize the library
+    #
+    fn = _nvmlGetFunctionPointer("nvmlInitWithFlags")
+    ret = fn(flags)
+    _nvmlCheckReturn(ret)
+
+    # Atomically update refcount
+    global _nvmlLib_refcount
+    libLoadLock.acquire()
+    _nvmlLib_refcount += 1
+    libLoadLock.release()
+    return None
+
+def nvmlInit():
+    nvmlInitWithFlags(0)
+    return None
+
+def _LoadNvmlLibrary():
+    '''
+    Load the library if it isn't loaded already
+    '''
+    global nvmlLib
+
+    if (nvmlLib == None):
+        # lock to ensure only one caller loads the library
+        libLoadLock.acquire()
+
+        try:
+            # ensure the library still isn't loaded
+            if (nvmlLib == None):
+                try:
+                    if (sys.platform[:3] == "win"):
+                        # cdecl calling convention
+                        try:
+                            # Check for nvml.dll in System32 first for DCH drivers
+                            nvmlLib = CDLL(os.path.join(os.getenv("WINDIR", "C:/Windows"), "System32/nvml.dll"))
+                        except OSError as ose:
+                            # If nvml.dll is not found in System32, it should be in ProgramFiles
+                            # load nvml.dll from %ProgramFiles%/NVIDIA Corporation/NVSMI/nvml.dll
+                            nvmlLib = CDLL(os.path.join(os.getenv("ProgramFiles", "C:/Program Files"), "NVIDIA Corporation/NVSMI/nvml.dll"))
+                    else:
+                        # assume linux
+                        nvmlLib = CDLL("libixml.so")
+                except OSError as ose:
+                    _nvmlCheckReturn(NVML_ERROR_LIBRARY_NOT_FOUND)
+                if (nvmlLib == None):
+                    _nvmlCheckReturn(NVML_ERROR_LIBRARY_NOT_FOUND)
+        finally:
+            # lock is always freed
+            libLoadLock.release()
+
+def nvmlShutdown():
+    #
+    # Leave the library loaded, but shutdown the interface
+    #
+    fn = _nvmlGetFunctionPointer("nvmlShutdown")
+    ret = fn()
+    _nvmlCheckReturn(ret)
+
+    # Atomically update refcount
+    global _nvmlLib_refcount
+    libLoadLock.acquire()
+    if (0 < _nvmlLib_refcount):
+        _nvmlLib_refcount -= 1
+    libLoadLock.release()
+    return None
+
+# Added in 2.285
+@convertStrBytes
+def nvmlErrorString(result):
+    fn = _nvmlGetFunctionPointer("nvmlErrorString")
+    fn.restype = c_char_p # otherwise return is an int
+    ret = fn(result)
+    return ret
+
+# Added in 2.285
+@convertStrBytes
+def nvmlSystemGetNVMLVersion():
+    c_version = create_string_buffer(NVML_SYSTEM_NVML_VERSION_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetNVMLVersion")
+    ret = fn(c_version, c_uint(NVML_SYSTEM_NVML_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+def nvmlSystemGetCudaDriverVersion():
+    c_cuda_version = c_int()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetCudaDriverVersion")
+    ret = fn(byref(c_cuda_version))
+    _nvmlCheckReturn(ret)
+    return c_cuda_version.value
+
+def nvmlSystemGetCudaDriverVersion_v2():
+    c_cuda_version = c_int()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetCudaDriverVersion_v2")
+    ret = fn(byref(c_cuda_version))
+    _nvmlCheckReturn(ret)
+    return c_cuda_version.value
+
+# Added in 2.285
+@convertStrBytes
+def nvmlSystemGetProcessName(pid):
+    c_name = create_string_buffer(1024)
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetProcessName")
+    ret = fn(c_uint(pid), c_name, c_uint(1024))
+    _nvmlCheckReturn(ret)
+    return c_name.value
+
+@convertStrBytes
+def nvmlSystemGetDriverVersion():
+    c_version = create_string_buffer(NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetDriverVersion")
+    ret = fn(c_version, c_uint(NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+# Added in 2.285
+def nvmlSystemGetHicVersion():
+    c_count = c_uint(0)
+    hics = None
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetHicVersion")
+
+    # get the count
+    ret = fn(byref(c_count), None)
+
+    # this should only fail with insufficient size
+    if ((ret != NVML_SUCCESS) and
+        (ret != NVML_ERROR_INSUFFICIENT_SIZE)):
+        raise NVMLError(ret)
+
+    # If there are no hics
+    if (c_count.value == 0):
+        return []
+
+    hic_array = c_nvmlHwbcEntry_t * c_count.value
+    hics = hic_array()
+    ret = fn(byref(c_count), hics)
+    _nvmlCheckReturn(ret)
+    return hics
+
+def nvmlSystemGetDriverBranch():
+    c_branchInfo = c_nvmlSystemDriverBranchInfo_v1_t(0)
+    c_branchInfo.version = SystemDriverBranchInfo_v1
+    fn  = _nvmlGetFunctionPointer("nvmlSystemGetDriverBranch")
+    ret = fn(byref(c_branchInfo), c_uint(NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_branchInfo
+
+## Unit get functions
+def nvmlUnitGetCount():
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetCount")
+    ret = fn(byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlUnitGetHandleByIndex(index):
+    c_index = c_uint(index)
+    unit = c_nvmlUnit_t()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetHandleByIndex")
+    ret = fn(c_index, byref(unit))
+    _nvmlCheckReturn(ret)
+    return unit
+
+def nvmlUnitGetUnitInfo(unit):
+    c_info = c_nvmlUnitInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetUnitInfo")
+    ret = fn(unit, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlUnitGetLedState(unit):
+    c_state =  c_nvmlLedState_t()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetLedState")
+    ret = fn(unit, byref(c_state))
+    _nvmlCheckReturn(ret)
+    return c_state
+
+def nvmlUnitGetPsuInfo(unit):
+    c_info = c_nvmlPSUInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetPsuInfo")
+    ret = fn(unit, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlUnitGetTemperature(unit, type):
+    c_temp = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetTemperature")
+    ret = fn(unit, c_uint(type), byref(c_temp))
+    _nvmlCheckReturn(ret)
+    return c_temp.value
+
+def nvmlUnitGetFanSpeedInfo(unit):
+    c_speeds = c_nvmlUnitFanSpeeds_t()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetFanSpeedInfo")
+    ret = fn(unit, byref(c_speeds))
+    _nvmlCheckReturn(ret)
+    return c_speeds
+
+# added to API
+def nvmlUnitGetDeviceCount(unit):
+    c_count = c_uint(0)
+    # query the unit to determine device count
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetDevices")
+    ret = fn(unit, byref(c_count), None)
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        ret = NVML_SUCCESS
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlUnitGetDevices(unit):
+    c_count = c_uint(nvmlUnitGetDeviceCount(unit))
+    device_array = c_nvmlDevice_t * c_count.value
+    c_devices = device_array()
+    fn = _nvmlGetFunctionPointer("nvmlUnitGetDevices")
+    ret = fn(unit, byref(c_count), c_devices)
+    _nvmlCheckReturn(ret)
+    return c_devices
+
+## Device get functions
+def nvmlDeviceGetCount():
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCount_v2")
+    ret = fn(byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlDeviceGetHandleByIndex(index):
+    c_index = c_uint(index)
+    device = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetHandleByIndex_v2")
+    ret = fn(c_index, byref(device))
+    _nvmlCheckReturn(ret)
+    return device
+
+@convertStrBytes
+def nvmlDeviceGetHandleBySerial(serial):
+    c_serial = c_char_p(serial)
+    device = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetHandleBySerial")
+    ret = fn(c_serial, byref(device))
+    _nvmlCheckReturn(ret)
+    return device
+
+@convertStrBytes
+def nvmlDeviceGetHandleByUUID(uuid):
+    c_uuid = c_char_p(uuid)
+    device = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetHandleByUUID")
+    ret = fn(c_uuid, byref(device))
+    _nvmlCheckReturn(ret)
+    return device
+
+@convertStrBytes
+def nvmlDeviceGetHandleByPciBusId(pciBusId):
+    c_busId = c_char_p(pciBusId)
+    device = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetHandleByPciBusId_v2")
+    ret = fn(c_busId, byref(device))
+    _nvmlCheckReturn(ret)
+    return device
+
+@convertStrBytes
+def nvmlDeviceGetName(handle):
+    c_name = create_string_buffer(NVML_DEVICE_NAME_V2_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetName")
+    ret = fn(handle, c_name, c_uint(NVML_DEVICE_NAME_V2_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_name.value
+
+class c_nvmlDevicePerfModes_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('str', c_char * NVML_PERF_MODES_BUFFER_SIZE),
+    ]
+
+nvmlDevicePerfModes_v1 = 0x1000804
+
+@convertStrBytes
+def nvmlDeviceGetPerformanceModes(handle):
+    perfModes = c_nvmlDevicePerfModes_v1_t()
+    perfModes.version = nvmlDevicePerfModes_v1
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPerformanceModes")
+    ret = fn(handle, byref(perfModes))
+    _nvmlCheckReturn(ret)
+    return perfModes.str
+
+class c_nvmlDeviceCurrentClockFreqs_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('str', c_char * NVML_PERF_MODES_BUFFER_SIZE),
+    ]
+
+nvmlDeviceCurrentClockFreqs_v1 = 0x1000804
+
+@convertStrBytes
+def nvmlDeviceGetCurrentClockFreqs(handle):
+    currentClockFreqs = c_nvmlDeviceCurrentClockFreqs_v1_t()
+    currentClockFreqs.version = nvmlDeviceCurrentClockFreqs_v1
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCurrentClockFreqs")
+    ret = fn(handle, byref(currentClockFreqs))
+    _nvmlCheckReturn(ret)
+    return currentClockFreqs.str
+
+def nvmlDeviceGetBoardId(handle):
+    c_id = c_uint();
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBoardId")
+    ret = fn(handle, byref(c_id))
+    _nvmlCheckReturn(ret)
+    return c_id.value
+
+def nvmlDeviceGetMultiGpuBoard(handle):
+    c_multiGpu = c_uint();
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMultiGpuBoard")
+    ret = fn(handle, byref(c_multiGpu))
+    _nvmlCheckReturn(ret)
+    return c_multiGpu.value
+
+def nvmlDeviceGetBrand(handle):
+    c_type = _nvmlBrandType_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBrand")
+    ret = fn(handle, byref(c_type))
+    _nvmlCheckReturn(ret)
+    return c_type.value
+
+def nvmlDeviceGetC2cModeInfoV1(handle):
+    c_info = c_nvmlC2cModeInfo_v1_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetC2cModeInfoV")
+    ret = fn(handle, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlDeviceGetC2cModeInfoV(handle):
+    return nvmlDeviceGetC2cModeInfoV1(handle)
+
+@convertStrBytes
+def nvmlDeviceGetBoardPartNumber(handle):
+    c_part_number = create_string_buffer(NVML_DEVICE_PART_NUMBER_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBoardPartNumber")
+    ret = fn(handle, c_part_number, c_uint(NVML_DEVICE_PART_NUMBER_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_part_number.value
+
+@convertStrBytes
+def nvmlDeviceGetSerial(handle):
+    c_serial = create_string_buffer(NVML_DEVICE_SERIAL_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSerial")
+    ret = fn(handle, c_serial, c_uint(NVML_DEVICE_SERIAL_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_serial.value
+
+def nvmlDeviceGetModuleId(handle, moduleId=c_uint()):
+    isReference = type(moduleId) is not c_uint
+    moduleIdRef = moduleId if isReference else byref(moduleId)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetModuleId")
+    ret = fn(handle, moduleIdRef)
+    if isReference:
+        return ret
+    else:
+        _nvmlCheckReturn(ret)
+        return moduleId.value
+
+def nvmlDeviceGetMemoryAffinity(handle, nodeSetSize, scope):
+    affinity_array = c_ulonglong * nodeSetSize
+    c_affinity = affinity_array()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemoryAffinity")
+    ret = fn(handle, nodeSetSize, byref(c_affinity), _nvmlAffinityScope_t(scope))
+    _nvmlCheckReturn(ret)
+    return c_affinity
+
+def nvmlDeviceGetCpuAffinityWithinScope(handle, cpuSetSize, scope):
+    affinity_array = c_ulonglong * cpuSetSize
+    c_affinity = affinity_array()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCpuAffinityWithinScope")
+    ret = fn(handle, cpuSetSize, byref(c_affinity), _nvmlAffinityScope_t(scope))
+    _nvmlCheckReturn(ret)
+    return c_affinity
+
+def nvmlDeviceGetCpuAffinity(handle, cpuSetSize):
+    affinity_array = c_ulonglong * cpuSetSize
+    c_affinity = affinity_array()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCpuAffinity")
+    ret = fn(handle, cpuSetSize, byref(c_affinity))
+    _nvmlCheckReturn(ret)
+    return c_affinity
+
+def nvmlDeviceSetCpuAffinity(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetCpuAffinity")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceClearCpuAffinity(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceClearCpuAffinity")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetNumaNodeId(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNumaNodeId")
+    node = c_int()
+    ret = fn(handle, byref(node))
+    _nvmlCheckReturn(ret)
+    return node.value
+
+def nvmlDeviceGetMinorNumber(handle):
+    c_minor_number = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMinorNumber")
+    ret = fn(handle, byref(c_minor_number))
+    _nvmlCheckReturn(ret)
+    return c_minor_number.value
+
+@convertStrBytes
+def nvmlDeviceGetUUID(handle):
+    c_uuid = create_string_buffer(NVML_DEVICE_UUID_V2_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetUUID")
+    ret = fn(handle, c_uuid, c_uint(NVML_DEVICE_UUID_V2_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_uuid.value
+
+@convertStrBytes
+def nvmlDeviceGetInforomVersion(handle, infoRomObject):
+    c_version = create_string_buffer(NVML_DEVICE_INFOROM_VERSION_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetInforomVersion")
+    ret = fn(handle, _nvmlInforomObject_t(infoRomObject),
+                 c_version, c_uint(NVML_DEVICE_INFOROM_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+# Added in 4.304
+@convertStrBytes
+def nvmlDeviceGetInforomImageVersion(handle):
+    c_version = create_string_buffer(NVML_DEVICE_INFOROM_VERSION_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetInforomImageVersion")
+    ret = fn(handle, c_version, c_uint(NVML_DEVICE_INFOROM_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+# Added in 4.304
+def nvmlDeviceGetInforomConfigurationChecksum(handle):
+    c_checksum = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetInforomConfigurationChecksum")
+    ret = fn(handle, byref(c_checksum))
+    _nvmlCheckReturn(ret)
+    return c_checksum.value
+
+# Added in 4.304
+def nvmlDeviceValidateInforom(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceValidateInforom")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetLastBBXFlushTime(handle):
+    c_timestamp = c_ulonglong()
+    c_durationUs = c_ulong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetLastBBXFlushTime")
+    ret = fn(handle, byref(c_timestamp), byref(c_durationUs))
+    _nvmlCheckReturn(ret)
+    return [c_timestamp.value, c_durationUs.value]
+
+def nvmlDeviceGetDisplayMode(handle):
+    c_mode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDisplayMode")
+    ret = fn(handle, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+def nvmlDeviceGetDisplayActive(handle):
+    c_mode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDisplayActive")
+    ret = fn(handle, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+
+def nvmlDeviceGetPersistenceMode(handle):
+    c_state = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPersistenceMode")
+    ret = fn(handle, byref(c_state))
+    _nvmlCheckReturn(ret)
+    return c_state.value
+
+def nvmlDeviceGetPciInfoExt(handle, c_info):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPciInfoExt")
+    ret = fn(handle, c_info)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetPciInfo_v3(handle):
+    c_info = nvmlPciInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPciInfo_v3")
+    ret = fn(handle, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlDeviceGetPciInfo(handle):
+    return nvmlDeviceGetPciInfo_v3(handle)
+
+def nvmlDeviceGetClockInfo(handle, type):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetClockInfo")
+    ret = fn(handle, _nvmlClockType_t(type), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+# Added in 2.285
+def nvmlDeviceGetMaxClockInfo(handle, type):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMaxClockInfo")
+    ret = fn(handle, _nvmlClockType_t(type), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+# Added in 4.304
+def nvmlDeviceGetApplicationsClock(handle, type):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetApplicationsClock")
+    ret = fn(handle, _nvmlClockType_t(type), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+def nvmlDeviceGetMaxCustomerBoostClock(handle, type):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMaxCustomerBoostClock")
+    ret = fn(handle, _nvmlClockType_t(type), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+def nvmlDeviceGetClock(handle, type, id):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetClock")
+    ret = fn(handle, _nvmlClockType_t(type), _nvmlClockId_t(id), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+# Added in 5.319
+def nvmlDeviceGetDefaultApplicationsClock(handle, type):
+    c_clock = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDefaultApplicationsClock")
+    ret = fn(handle, _nvmlClockType_t(type), byref(c_clock))
+    _nvmlCheckReturn(ret)
+    return c_clock.value
+
+# Added in 4.304
+def nvmlDeviceGetSupportedMemoryClocks(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedMemoryClocks")
+    ret = fn(handle, byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no clocks
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        clocks_array = c_uint * c_count.value
+        c_clocks = clocks_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_count), c_clocks)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            procs.append(c_clocks[i])
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+# Added in 4.304
+def nvmlDeviceGetSupportedGraphicsClocks(handle, memoryClockMHz):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedGraphicsClocks")
+    ret = fn(handle, c_uint(memoryClockMHz), byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no clocks
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        clocks_array = c_uint * c_count.value
+        c_clocks = clocks_array()
+
+        # make the call again
+        ret = fn(handle, c_uint(memoryClockMHz), byref(c_count), c_clocks)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            procs.append(c_clocks[i])
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetFanSpeed(handle):
+    c_speed = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFanSpeed")
+    ret = fn(handle, byref(c_speed))
+    _nvmlCheckReturn(ret)
+    return c_speed.value
+
+def nvmlDeviceGetFanSpeed_v2(handle, fan):
+    c_speed = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFanSpeed_v2")
+    ret = fn(handle, fan, byref(c_speed))
+    _nvmlCheckReturn(ret)
+    return c_speed.value
+
+class c_nvmlFanSpeedInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('fan', c_uint),
+        ('speed', c_uint),
+    ]
+
+nvmlFanSpeedInfo_v1 = 0x100000C
+
+def nvmlDeviceGetFanSpeedRPM(handle):
+    c_fanSpeed = c_nvmlFanSpeedInfo_t()
+    c_fanSpeed.fan = 0
+    c_fanSpeed.version = nvmlFanSpeedInfo_v1
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFanSpeedRPM")
+    ret = fn(handle, byref(c_fanSpeed))
+    _nvmlCheckReturn(ret)
+    return c_fanSpeed.speed
+
+def nvmlDeviceGetTargetFanSpeed(handle, fan):
+    c_speed = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTargetFanSpeed")
+    ret = fn(handle, fan, byref(c_speed))
+    _nvmlCheckReturn(ret)
+    return c_speed.value
+
+def nvmlDeviceGetNumFans(device):
+    c_numFans = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNumFans")
+    ret = fn(device, byref(c_numFans))
+    _nvmlCheckReturn(ret)
+    return c_numFans.value
+
+def nvmlDeviceSetDefaultFanSpeed_v2(handle, index):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetDefaultFanSpeed_v2");
+    ret = fn(handle, index)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetMinMaxFanSpeed(handle, minSpeed=c_uint(), maxSpeed=c_uint()):
+    isReference = (type(minSpeed) is not c_uint) or (type(maxSpeed) is not c_uint)
+    minSpeedRef = minSpeed if isReference else byref(minSpeed)
+    maxSpeedRef = maxSpeed if isReference else byref(maxSpeed)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMinMaxFanSpeed")
+    ret = fn(handle, minSpeedRef, maxSpeedRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else [minSpeed.value, maxSpeed.value]
+
+def nvmlDeviceGetFanControlPolicy_v2(handle, fan, fanControlPolicy=c_uint()):
+    isReference = type(fanControlPolicy) is not c_uint
+    fanControlPolicyRef = fanControlPolicy if isReference else byref(fanControlPolicy)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFanControlPolicy_v2")
+    ret = fn(handle, fan, fanControlPolicyRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else fanControlPolicy.value
+
+def nvmlDeviceSetFanControlPolicy(handle, fan, fanControlPolicy):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetFanControlPolicy")
+    ret = fn(handle, fan, _nvmlFanControlPolicy_t(fanControlPolicy))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+class c_nvmlTemperature_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('sensorType', _nvmlTemperatureSensors_t),
+        ('temperature', c_int),
+    ]
+nvmlTemperature_v1 = 0x100000C
+
+def nvmlDeviceGetTemperatureV1(handle, sensor):
+    c_temp = c_nvmlTemperature_v1_t()
+    c_temp.version = nvmlTemperature_v1
+    c_temp.sensorType = _nvmlTemperatureSensors_t(sensor) 
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTemperatureV")
+    ret = fn(handle, byref(c_temp))
+    _nvmlCheckReturn(ret)
+    return c_temp.temperature
+
+def nvmlDeviceGetTemperatureV(handle, sensor, version=nvmlTemperature_v1):
+    if version == nvmlTemperature_v1:
+        return nvmlDeviceGetTemperatureV1(handle, sensor)
+    else:
+        raise NVMLError(NVML_ERROR_ARGUMENT_VERSION_MISMATCH)
+
+# DEPRECATED use nvmlDeviceGetTemperatureV instead
+def nvmlDeviceGetTemperature(handle, sensor):
+    c_temp = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTemperature")
+    ret = fn(handle, _nvmlTemperatureSensors_t(sensor), byref(c_temp))
+    _nvmlCheckReturn(ret)
+    return c_temp.value
+
+def nvmlDeviceGetTemperatureThreshold(handle, threshold):
+    c_temp = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTemperatureThreshold")
+    ret = fn(handle, _nvmlTemperatureThresholds_t(threshold), byref(c_temp))
+    _nvmlCheckReturn(ret)
+    return c_temp.value
+
+def nvmlDeviceSetTemperatureThreshold(handle, threshold, temp):
+    c_temp = c_uint()
+    c_temp.value = temp
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetTemperatureThreshold")
+    ret = fn(handle, _nvmlTemperatureThresholds_t(threshold), byref(c_temp))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetMarginTemperature(handle):
+    c_marginTempInfo = c_nvmlMarginTemperature_v1_t()
+    c_marginTempInfo.version = nvmlMarginTemperature_v1
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMarginTemperature")
+    ret = fn(handle, byref(c_marginTempInfo))
+    _nvmlCheckReturn(ret)
+    return c_marginTempInfo.marginTemperature
+
+# DEPRECATED use nvmlDeviceGetPerformanceState
+def nvmlDeviceGetPowerState(handle):
+    c_pstate = _nvmlPstates_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerState")
+    ret = fn(handle, byref(c_pstate))
+    _nvmlCheckReturn(ret)
+    return c_pstate.value
+
+def nvmlDeviceGetPerformanceState(handle):
+    c_pstate = _nvmlPstates_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPerformanceState")
+    ret = fn(handle, byref(c_pstate))
+    _nvmlCheckReturn(ret)
+    return c_pstate.value
+
+def nvmlDeviceGetPowerManagementMode(handle):
+    c_pcapMode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerManagementMode")
+    ret = fn(handle, byref(c_pcapMode))
+    _nvmlCheckReturn(ret)
+    return c_pcapMode.value
+
+def nvmlDeviceGetPowerManagementLimit(handle):
+    c_limit = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerManagementLimit")
+    ret = fn(handle, byref(c_limit))
+    _nvmlCheckReturn(ret)
+    return c_limit.value
+
+# Added in 4.304
+def nvmlDeviceGetPowerManagementLimitConstraints(handle):
+    c_minLimit = c_uint()
+    c_maxLimit = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerManagementLimitConstraints")
+    ret = fn(handle, byref(c_minLimit), byref(c_maxLimit))
+    _nvmlCheckReturn(ret)
+    return [c_minLimit.value, c_maxLimit.value]
+
+# Added in 4.304
+def nvmlDeviceGetPowerManagementDefaultLimit(handle):
+    c_limit = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerManagementDefaultLimit")
+    ret = fn(handle, byref(c_limit))
+    _nvmlCheckReturn(ret)
+    return c_limit.value
+
+
+# Added in 331
+def nvmlDeviceGetEnforcedPowerLimit(handle):
+    c_limit = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetEnforcedPowerLimit")
+    ret = fn(handle, byref(c_limit))
+    _nvmlCheckReturn(ret)
+    return c_limit.value
+
+def nvmlDeviceGetPowerUsage(handle):
+    c_watts = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerUsage")
+    ret = fn(handle, byref(c_watts))
+    _nvmlCheckReturn(ret)
+    return c_watts.value
+
+def nvmlDeviceGetTotalEnergyConsumption(handle):
+    c_millijoules = c_uint64()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTotalEnergyConsumption")
+    ret = fn(handle, byref(c_millijoules))
+    _nvmlCheckReturn(ret)
+    return c_millijoules.value
+
+# Added in 4.304
+def nvmlDeviceGetGpuOperationMode(handle):
+    c_currState = _nvmlGpuOperationMode_t()
+    c_pendingState = _nvmlGpuOperationMode_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuOperationMode")
+    ret = fn(handle, byref(c_currState), byref(c_pendingState))
+    _nvmlCheckReturn(ret)
+    return [c_currState.value, c_pendingState.value]
+
+# Added in 4.304
+def nvmlDeviceGetCurrentGpuOperationMode(handle):
+    return nvmlDeviceGetGpuOperationMode(handle)[0]
+
+# Added in 4.304
+def nvmlDeviceGetPendingGpuOperationMode(handle):
+    return nvmlDeviceGetGpuOperationMode(handle)[1]
+
+def nvmlDeviceGetMemoryInfo(handle, version=None):
+    if not version:
+        c_memory = c_nvmlMemory_t()
+        fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemoryInfo")
+    else:
+        c_memory = c_nvmlMemory_v2_t()
+        c_memory.version = version
+        fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemoryInfo_v2")
+    ret = fn(handle, byref(c_memory))
+    _nvmlCheckReturn(ret)
+    return c_memory
+
+def nvmlDeviceGetBAR1MemoryInfo(handle):
+    c_bar1_memory = c_nvmlBAR1Memory_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBAR1MemoryInfo")
+    ret = fn(handle, byref(c_bar1_memory))
+    _nvmlCheckReturn(ret)
+    return c_bar1_memory
+
+def nvmlDeviceGetComputeMode(handle):
+    c_mode = _nvmlComputeMode_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetComputeMode")
+    ret = fn(handle, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+def nvmlDeviceGetCudaComputeCapability(handle):
+    c_major = c_int()
+    c_minor = c_int()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCudaComputeCapability")
+    ret = fn(handle, byref(c_major), byref(c_minor))
+    _nvmlCheckReturn(ret)
+    return (c_major.value, c_minor.value)
+
+def nvmlDeviceGetEccMode(handle):
+    c_currState = _nvmlEnableState_t()
+    c_pendingState = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetEccMode")
+    ret = fn(handle, byref(c_currState), byref(c_pendingState))
+    _nvmlCheckReturn(ret)
+    return [c_currState.value, c_pendingState.value]
+
+# added to API
+def nvmlDeviceGetCurrentEccMode(handle):
+    return nvmlDeviceGetEccMode(handle)[0]
+
+# added to API
+def nvmlDeviceGetPendingEccMode(handle):
+    return nvmlDeviceGetEccMode(handle)[1]
+
+def nvmlDeviceGetDefaultEccMode(handle):
+    c_defaultState = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDefaultEccMode")
+    ret = fn(handle, byref(c_defaultState))
+    _nvmlCheckReturn(ret)
+    return [c_defaultState.value]
+
+def nvmlDeviceGetTotalEccErrors(handle, errorType, counterType):
+    c_count = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTotalEccErrors")
+    ret = fn(handle, _nvmlMemoryErrorType_t(errorType),
+                 _nvmlEccCounterType_t(counterType), byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+# This is deprecated, instead use nvmlDeviceGetMemoryErrorCounter
+def nvmlDeviceGetDetailedEccErrors(handle, errorType, counterType):
+    c_counts = c_nvmlEccErrorCounts_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDetailedEccErrors")
+    ret = fn(handle, _nvmlMemoryErrorType_t(errorType),
+                 _nvmlEccCounterType_t(counterType), byref(c_counts))
+    _nvmlCheckReturn(ret)
+    return c_counts
+
+# Added in 4.304
+def nvmlDeviceGetMemoryErrorCounter(handle, errorType, counterType, locationType):
+    c_count = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemoryErrorCounter")
+    ret = fn(handle,
+             _nvmlMemoryErrorType_t(errorType),
+             _nvmlEccCounterType_t(counterType),
+             _nvmlMemoryLocation_t(locationType),
+             byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlDeviceGetUtilizationRates(handle):
+    c_util = c_nvmlUtilization_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetUtilizationRates")
+    ret = fn(handle, byref(c_util))
+    _nvmlCheckReturn(ret)
+    return c_util
+
+def nvmlDeviceGetEncoderUtilization(handle):
+    c_util = c_uint()
+    c_samplingPeriod = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetEncoderUtilization")
+    ret = fn(handle, byref(c_util), byref(c_samplingPeriod))
+    _nvmlCheckReturn(ret)
+    return [c_util.value, c_samplingPeriod.value]
+
+def nvmlDeviceGetDecoderUtilization(handle):
+    c_util = c_uint()
+    c_samplingPeriod = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDecoderUtilization")
+    ret = fn(handle, byref(c_util), byref(c_samplingPeriod))
+    _nvmlCheckReturn(ret)
+    return [c_util.value, c_samplingPeriod.value]
+
+def nvmlDeviceGetJpgUtilization(handle):
+    c_util = c_uint()
+    c_samplingPeriod = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetJpgUtilization")
+    ret = fn(handle, byref(c_util), byref(c_samplingPeriod))
+    _nvmlCheckReturn(ret)
+    return [c_util.value, c_samplingPeriod.value]
+
+def nvmlDeviceGetOfaUtilization(handle):
+    c_util = c_uint()
+    c_samplingPeriod = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetOfaUtilization")
+    ret = fn(handle, byref(c_util), byref(c_samplingPeriod))
+    _nvmlCheckReturn(ret)
+    return [c_util.value, c_samplingPeriod.value]
+
+def nvmlDeviceGetPcieReplayCounter(handle):
+    c_replay = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPcieReplayCounter")
+    ret = fn(handle, byref(c_replay))
+    _nvmlCheckReturn(ret)
+    return c_replay.value
+
+def nvmlDeviceGetDriverModel(handle):
+    c_currModel = _nvmlDriverModel_t()
+    c_pendingModel = _nvmlDriverModel_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDriverModel")
+    ret = fn(handle, byref(c_currModel), byref(c_pendingModel))
+    _nvmlCheckReturn(ret)
+    return [c_currModel.value, c_pendingModel.value]
+
+# added to API
+def nvmlDeviceGetCurrentDriverModel(handle):
+    return nvmlDeviceGetDriverModel(handle)[0]
+
+# added to API
+def nvmlDeviceGetPendingDriverModel(handle):
+    return nvmlDeviceGetDriverModel(handle)[1]
+
+# Added in 2.285
+@convertStrBytes
+def nvmlDeviceGetVbiosVersion(handle):
+    c_version = create_string_buffer(NVML_DEVICE_VBIOS_VERSION_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVbiosVersion")
+    ret = fn(handle, c_version, c_uint(NVML_DEVICE_VBIOS_VERSION_BUFFER_SIZE))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+# Added in 2.285
+def nvmlDeviceGetComputeRunningProcesses_v2(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetComputeRunningProcesses_v2")
+    ret = fn(handle, byref(c_count), None)
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array incase more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v2_t * c_count.value
+        c_procs = proc_array()
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+# Added in 2.285
+def nvmlDeviceGetComputeRunningProcesses_v3(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetComputeRunningProcesses_v3")
+    ret = fn(handle, byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array incase more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v3_t * c_count.value
+        c_procs = proc_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+@throwOnVersionMismatch
+def nvmlDeviceGetComputeRunningProcesses(handle):
+    return nvmlDeviceGetComputeRunningProcesses_v3(handle)
+
+def nvmlDeviceGetGraphicsRunningProcesses_v2(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGraphicsRunningProcesses_v2")
+    ret = fn(handle, byref(c_count), None)
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array incase more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v2_t * c_count.value
+        c_procs = proc_array()
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetGraphicsRunningProcesses_v3(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGraphicsRunningProcesses_v3")
+    ret = fn(handle, byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array incase more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v3_t * c_count.value
+        c_procs = proc_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+@throwOnVersionMismatch
+def nvmlDeviceGetGraphicsRunningProcesses(handle):
+    return nvmlDeviceGetGraphicsRunningProcesses_v3(handle)
+
+@throwOnVersionMismatch
+def nvmlDeviceGetMPSComputeRunningProcesses(handle):
+    return nvmlDeviceGetMPSComputeRunningProcesses_v3(handle)
+
+def nvmlDeviceGetMPSComputeRunningProcesses_v2(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMPSComputeRunningProcesses_v2")
+    ret = fn(handle, byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array incase more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v2_t * c_count.value
+        c_procs = proc_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetMPSComputeRunningProcesses_v3(handle):
+    # first call to get the size
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMPSComputeRunningProcesses_v3")
+    ret = fn(handle, byref(c_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        # oversize the array in case more processes are created
+        c_count.value = c_count.value * 2 + 5
+        proc_array = c_nvmlProcessInfo_v3_t * c_count.value
+        c_procs = proc_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_count), c_procs)
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_count.value):
+            # use an alternative struct for this object
+            obj = nvmlStructToFriendlyObject(c_procs[i])
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                # special case for WDDM on Windows, see comment above
+                obj.usedGpuMemory = None
+            procs.append(obj)
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetRunningProcessDetailList(handle, version, mode):
+    c_processDetailList = c_nvmlProcessDetailList_t()
+    c_processDetailList.version = version
+    c_processDetailList.mode = mode
+
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRunningProcessDetailList")
+
+    # first call to get the size
+    ret = fn(handle, byref(c_processDetailList))
+    if (ret == NVML_SUCCESS):
+        # special case, no running processes
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        c_procs = c_nvmlProcessDetail_v1_t * c_processDetailList.numProcArrayEntries
+        c_processDetailList.procArray = cast((c_procs)(), POINTER(c_nvmlProcessDetail_v1_t))
+
+        # make the call again
+        ret = fn(handle, byref(c_processDetailList))
+        _nvmlCheckReturn(ret)
+
+        procs = []
+        for i in range(c_processDetailList.numProcArrayEntries):
+            # use an alternative struct for this object
+            obj = c_processDetailList.procArray[i]
+            if (obj.usedGpuMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                obj.usedGpuMemory = None
+            if (obj.usedGpuCcProtectedMemory == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+                obj.usedGpuCcProtectedMemory = None
+            procs.append(obj)
+
+        return procs
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetAutoBoostedClocksEnabled(handle):
+    c_isEnabled = _nvmlEnableState_t()
+    c_defaultIsEnabled = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAutoBoostedClocksEnabled")
+    ret = fn(handle, byref(c_isEnabled), byref(c_defaultIsEnabled))
+    _nvmlCheckReturn(ret)
+    return [c_isEnabled.value, c_defaultIsEnabled.value]
+    #Throws NVML_ERROR_NOT_SUPPORTED if hardware doesn't support setting auto boosted clocks
+
+## Set functions
+def nvmlUnitSetLedState(unit, color):
+    fn = _nvmlGetFunctionPointer("nvmlUnitSetLedState")
+    ret = fn(unit, _nvmlLedColor_t(color))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetPersistenceMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetPersistenceMode")
+    ret = fn(handle, _nvmlEnableState_t(mode))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetComputeMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetComputeMode")
+    ret = fn(handle, _nvmlComputeMode_t(mode))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetEccMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetEccMode")
+    ret = fn(handle, _nvmlEnableState_t(mode))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceClearEccErrorCounts(handle, counterType):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceClearEccErrorCounts")
+    ret = fn(handle, _nvmlEccCounterType_t(counterType))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetDriverModel(handle, model):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetDriverModel")
+    ret = fn(handle, _nvmlDriverModel_t(model))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetAutoBoostedClocksEnabled(handle, enabled):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetAutoBoostedClocksEnabled")
+    ret = fn(handle, _nvmlEnableState_t(enabled))
+    _nvmlCheckReturn(ret)
+    return None
+    #Throws NVML_ERROR_NOT_SUPPORTED if hardware doesn't support setting auto boosted clocks
+
+def nvmlDeviceSetDefaultAutoBoostedClocksEnabled(handle, enabled, flags):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetDefaultAutoBoostedClocksEnabled")
+    ret = fn(handle, _nvmlEnableState_t(enabled), c_uint(flags))
+    _nvmlCheckReturn(ret)
+    return None
+    #Throws NVML_ERROR_NOT_SUPPORTED if hardware doesn't support setting auto boosted clocks
+
+def nvmlDeviceSetGpuLockedClocks(handle, minGpuClockMHz, maxGpuClockMHz):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetGpuLockedClocks")
+    ret = fn(handle, c_uint(minGpuClockMHz), c_uint(maxGpuClockMHz))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceResetGpuLockedClocks(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceResetGpuLockedClocks")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetMemoryLockedClocks(handle, minMemClockMHz, maxMemClockMHz):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetMemoryLockedClocks")
+    ret = fn(handle, c_uint(minMemClockMHz), c_uint(maxMemClockMHz))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceResetMemoryLockedClocks(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceResetMemoryLockedClocks")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetClkMonStatus(handle, c_clkMonInfo=nvmlClkMonStatus_t()):
+    isReference = type(c_clkMonInfo) is not nvmlClkMonStatus_t
+    c_clkMonInfoRef = c_clkMonInfo if isReference else byref(c_clkMonInfo)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetClkMonStatus")
+    ret = fn(handle, c_clkMonInfoRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else c_clkMonInfo
+
+# Added in 4.304
+def nvmlDeviceSetApplicationsClocks(handle, maxMemClockMHz, maxGraphicsClockMHz):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetApplicationsClocks")
+    ret = fn(handle, c_uint(maxMemClockMHz), c_uint(maxGraphicsClockMHz))
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 4.304
+def nvmlDeviceResetApplicationsClocks(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceResetApplicationsClocks")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 4.304
+def nvmlDeviceSetPowerManagementLimit(handle, limit):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetPowerManagementLimit")
+    ret = fn(handle, c_uint(limit))
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 4.304
+def nvmlDeviceSetGpuOperationMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetGpuOperationMode")
+    ret = fn(handle, _nvmlGpuOperationMode_t(mode))
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 2.285
+def nvmlEventSetCreate():
+    fn = _nvmlGetFunctionPointer("nvmlEventSetCreate")
+    eventSet = c_nvmlEventSet_t()
+    ret = fn(byref(eventSet))
+    _nvmlCheckReturn(ret)
+    return eventSet
+
+# Added in 2.285
+def nvmlDeviceRegisterEvents(handle, eventTypes, eventSet):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceRegisterEvents")
+    ret = fn(handle, c_ulonglong(eventTypes), eventSet)
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 2.285
+def nvmlDeviceGetSupportedEventTypes(handle):
+    c_eventTypes = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedEventTypes")
+    ret = fn(handle, byref(c_eventTypes))
+    _nvmlCheckReturn(ret)
+    return c_eventTypes.value
+
+# raises NVML_ERROR_TIMEOUT exception on timeout
+def nvmlEventSetWait_v2(eventSet, timeoutms):
+    fn = _nvmlGetFunctionPointer("nvmlEventSetWait_v2")
+    data = c_nvmlEventData_t()
+    ret = fn(eventSet, byref(data), c_uint(timeoutms))
+    _nvmlCheckReturn(ret)
+    return data
+
+def nvmlEventSetWait(eventSet, timeoutms):
+    return nvmlEventSetWait_v2(eventSet, timeoutms)
+
+# Added in 2.285
+def nvmlEventSetFree(eventSet):
+    fn = _nvmlGetFunctionPointer("nvmlEventSetFree")
+    ret = fn(eventSet)
+    _nvmlCheckReturn(ret)
+    return None
+
+# Added in 3.295
+def nvmlDeviceOnSameBoard(handle1, handle2):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceOnSameBoard")
+    onSameBoard = c_int()
+    ret = fn(handle1, handle2, byref(onSameBoard))
+    _nvmlCheckReturn(ret)
+    return (onSameBoard.value != 0)
+
+# Added in 3.295
+def nvmlDeviceGetCurrPcieLinkGeneration(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCurrPcieLinkGeneration")
+    gen = c_uint()
+    ret = fn(handle, byref(gen))
+    _nvmlCheckReturn(ret)
+    return gen.value
+
+# Added in 3.295
+def nvmlDeviceGetMaxPcieLinkGeneration(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMaxPcieLinkGeneration")
+    gen = c_uint()
+    ret = fn(handle, byref(gen))
+    _nvmlCheckReturn(ret)
+    return gen.value
+
+# Added in 3.295
+def nvmlDeviceGetCurrPcieLinkWidth(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCurrPcieLinkWidth")
+    width = c_uint()
+    ret = fn(handle, byref(width))
+    _nvmlCheckReturn(ret)
+    return width.value
+
+# Added in 3.295
+def nvmlDeviceGetMaxPcieLinkWidth(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMaxPcieLinkWidth")
+    width = c_uint()
+    ret = fn(handle, byref(width))
+    _nvmlCheckReturn(ret)
+    return width.value
+
+def nvmlDeviceGetGpuMaxPcieLinkGeneration(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuMaxPcieLinkGeneration")
+    gen = c_uint()
+    ret = fn(handle, byref(gen))
+    _nvmlCheckReturn(ret)
+    return gen.value
+
+# Added in 4.304
+def nvmlDeviceGetSupportedClocksThrottleReasons(handle):
+    c_reasons= c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedClocksThrottleReasons")
+    ret = fn(handle, byref(c_reasons))
+    _nvmlCheckReturn(ret)
+    return c_reasons.value
+
+def nvmlDeviceGetSupportedClocksEventReasons(handle):
+    c_reasons= c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedClocksEventReasons")
+    ret = fn(handle, byref(c_reasons))
+    _nvmlCheckReturn(ret)
+    return c_reasons.value
+
+# Added in 4.304
+def nvmlDeviceGetCurrentClocksThrottleReasons(handle):
+    c_reasons= c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCurrentClocksThrottleReasons")
+    ret = fn(handle, byref(c_reasons))
+    _nvmlCheckReturn(ret)
+    return c_reasons.value
+
+def nvmlDeviceGetCurrentClocksEventReasons(handle):
+    c_reasons= c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCurrentClocksEventReasons")
+    ret = fn(handle, byref(c_reasons))
+    _nvmlCheckReturn(ret)
+    return c_reasons.value
+
+# Added in 5.319
+def nvmlDeviceGetIndex(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetIndex")
+    c_index = c_uint()
+    ret = fn(handle, byref(c_index))
+    _nvmlCheckReturn(ret)
+    return c_index.value
+
+# Added in 5.319
+def nvmlDeviceGetAccountingMode(handle):
+    c_mode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAccountingMode")
+    ret = fn(handle, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+def nvmlDeviceSetAccountingMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetAccountingMode")
+    ret = fn(handle, _nvmlEnableState_t(mode))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceClearAccountingPids(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceClearAccountingPids")
+    ret = fn(handle)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetAccountingStats(handle, pid):
+    stats = c_nvmlAccountingStats_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAccountingStats")
+    ret = fn(handle, c_uint(pid), byref(stats))
+    _nvmlCheckReturn(ret)
+    if (stats.maxMemoryUsage == NVML_VALUE_NOT_AVAILABLE_ulonglong.value):
+        # special case for WDDM on Windows, see comment above
+        stats.maxMemoryUsage = None
+    return stats
+
+def nvmlDeviceGetAccountingPids(handle):
+    count = c_uint(nvmlDeviceGetAccountingBufferSize(handle))
+    pids = (c_uint * count.value)()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAccountingPids")
+    ret = fn(handle, byref(count), pids)
+    _nvmlCheckReturn(ret)
+    return list(map(int, pids[0:count.value]))
+
+def nvmlDeviceGetAccountingBufferSize(handle):
+    bufferSize = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAccountingBufferSize")
+    ret = fn(handle, byref(bufferSize))
+    _nvmlCheckReturn(ret)
+    return int(bufferSize.value)
+
+def nvmlDeviceGetRetiredPages(device, sourceFilter):
+    c_source = _nvmlPageRetirementCause_t(sourceFilter)
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRetiredPages")
+
+    # First call will get the size
+    ret = fn(device, c_source, byref(c_count), None)
+
+    # this should only fail with insufficient size
+    if ((ret != NVML_SUCCESS) and
+        (ret != NVML_ERROR_INSUFFICIENT_SIZE)):
+        raise NVMLError(ret)
+
+    # call again with a buffer
+    # oversize the array for the rare cases where additional pages
+    # are retired between NVML calls
+    c_count.value = c_count.value * 2 + 5
+    page_array = c_ulonglong * c_count.value
+    c_pages = page_array()
+    ret = fn(device, c_source, byref(c_count), c_pages)
+    _nvmlCheckReturn(ret)
+    return list(map(int, c_pages[0:c_count.value]))
+
+def nvmlDeviceGetRetiredPages_v2(device, sourceFilter):
+    c_source = _nvmlPageRetirementCause_t(sourceFilter)
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRetiredPages_v2")
+
+    # First call will get the size
+    ret = fn(device, c_source, byref(c_count), None)
+
+    # this should only fail with insufficient size
+    if ((ret != NVML_SUCCESS) and
+        (ret != NVML_ERROR_INSUFFICIENT_SIZE)):
+        raise NVMLError(ret)
+
+    # call again with a buffer
+    # oversize the array for the rare cases where additional pages
+    # are retired between NVML calls
+    c_count.value = c_count.value * 2 + 5
+    page_array = c_ulonglong * c_count.value
+    c_pages = page_array()
+    times_array = c_ulonglong * c_count.value
+    c_times = times_array()
+    ret = fn(device, c_source, byref(c_count), c_pages, c_times)
+    _nvmlCheckReturn(ret)
+    return [ { 'address': int(c_pages[i]), 'timestamp': int(c_times[i]) } for i in range(c_count.value) ];
+
+def nvmlDeviceGetRetiredPagesPendingStatus(device):
+    c_pending = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRetiredPagesPendingStatus")
+    ret = fn(device, byref(c_pending))
+    _nvmlCheckReturn(ret)
+    return int(c_pending.value)
+
+def nvmlDeviceGetAPIRestriction(device, apiType):
+    c_permission = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAPIRestriction")
+    ret = fn(device, _nvmlRestrictedAPI_t(apiType), byref(c_permission))
+    _nvmlCheckReturn(ret)
+    return int(c_permission.value)
+
+def nvmlDeviceSetAPIRestriction(handle, apiType, isRestricted):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetAPIRestriction")
+    ret = fn(handle, _nvmlRestrictedAPI_t(apiType), _nvmlEnableState_t(isRestricted))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetBridgeChipInfo(handle):
+    bridgeHierarchy = c_nvmlBridgeChipHierarchy_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBridgeChipInfo")
+    ret = fn(handle, byref(bridgeHierarchy))
+    _nvmlCheckReturn(ret)
+    return bridgeHierarchy
+
+def nvmlDeviceGetSamples(device, sampling_type, timeStamp):
+    c_sampling_type = _nvmlSamplingType_t(sampling_type)
+    c_time_stamp = c_ulonglong(timeStamp)
+    c_sample_count = c_uint(0)
+    c_sample_value_type = _nvmlValueType_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSamples")
+
+    ## First Call gets the size
+    ret = fn(device, c_sampling_type, c_time_stamp, byref(c_sample_value_type), byref(c_sample_count), None)
+
+    # Stop if this fails
+    if (ret != NVML_SUCCESS):
+        raise NVMLError(ret)
+
+    sampleArray = c_sample_count.value * c_nvmlSample_t
+    c_samples = sampleArray()
+    ret = fn(device, c_sampling_type, c_time_stamp,  byref(c_sample_value_type), byref(c_sample_count), c_samples)
+    _nvmlCheckReturn(ret)
+    return (c_sample_value_type.value, c_samples[0:c_sample_count.value])
+
+def nvmlDeviceGetViolationStatus(device, perfPolicyType):
+    c_perfPolicy_type = _nvmlPerfPolicyType_t(perfPolicyType)
+    c_violTime = c_nvmlViolationTime_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetViolationStatus")
+
+    ## Invoke the method to get violation time
+    ret = fn(device, c_perfPolicy_type, byref(c_violTime))
+    _nvmlCheckReturn(ret)
+    return c_violTime
+
+def nvmlDeviceGetPcieThroughput(device, counter):
+    c_util = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPcieThroughput")
+    ret = fn(device, _nvmlPcieUtilCounter_t(counter), byref(c_util))
+    _nvmlCheckReturn(ret)
+    return c_util.value
+
+def nvmlSystemGetTopologyGpuSet(cpuNumber):
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetTopologyGpuSet")
+
+    # First call will get the size
+    ret = fn(cpuNumber, byref(c_count), None)
+
+    if ret != NVML_SUCCESS:
+        raise NVMLError(ret)
+    # call again with a buffer
+    device_array = c_nvmlDevice_t * c_count.value
+    c_devices = device_array()
+    ret = fn(cpuNumber, byref(c_count), c_devices)
+    _nvmlCheckReturn(ret)
+    return list(c_devices[0:c_count.value])
+
+def nvmlDeviceGetTopologyNearestGpus(device, level):
+    c_count = c_uint(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTopologyNearestGpus")
+
+    # First call will get the size
+    ret = fn(device, level, byref(c_count), None)
+
+    if ret != NVML_SUCCESS:
+        raise NVMLError(ret)
+
+    # call again with a buffer
+    device_array = c_nvmlDevice_t * c_count.value
+    c_devices = device_array()
+    ret = fn(device, level, byref(c_count), c_devices)
+    _nvmlCheckReturn(ret)
+    return list(c_devices[0:c_count.value])
+
+def nvmlDeviceGetTopologyCommonAncestor(device1, device2):
+    c_level = _nvmlGpuTopologyLevel_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetTopologyCommonAncestor")
+    ret = fn(device1, device2, byref(c_level))
+    _nvmlCheckReturn(ret)
+    return c_level.value
+
+def nvmlDeviceGetNvLinkUtilizationCounter(device, link, counter):
+    c_rxcounter = c_ulonglong()
+    c_txcounter = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkUtilizationCounter")
+    ret = fn(device, link, counter, byref(c_rxcounter), byref(c_txcounter))
+    _nvmlCheckReturn(ret)
+    return (c_rxcounter.value, c_txcounter.value)
+
+def nvmlDeviceFreezeNvLinkUtilizationCounter(device, link, counter, freeze):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceFreezeNvLinkUtilizationCounter")
+    ret = fn(device, link, counter, freeze)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceResetNvLinkUtilizationCounter(device, link, counter):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceResetNvLinkUtilizationCounter")
+    ret = fn(device, link, counter)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceSetNvLinkUtilizationControl(device, link, counter, control, reset):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetNvLinkUtilizationControl")
+    ret = fn(device, link, counter, byref(control), reset)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetNvLinkUtilizationControl(device, link, counter):
+    c_control = nvmlNvLinkUtilizationControl_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkUtilizationControl")
+    ret = fn(device, link, counter, byref(c_control))
+    _nvmlCheckReturn(ret)
+    return c_control
+
+def nvmlDeviceGetNvLinkCapability(device, link, capability):
+    c_capResult = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkCapability")
+    ret = fn(device, link, capability, byref(c_capResult))
+    _nvmlCheckReturn(ret)
+    return c_capResult.value
+
+def nvmlDeviceGetNvLinkErrorCounter(device, link, counter):
+    c_result = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkErrorCounter")
+    ret = fn(device, link, counter, byref(c_result))
+    _nvmlCheckReturn(ret)
+    return c_result.value
+
+def nvmlDeviceResetNvLinkErrorCounters(device, link):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceResetNvLinkErrorCounters")
+    ret = fn(device, link)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetNvLinkRemotePciInfo(device, link):
+    c_pci = nvmlPciInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkRemotePciInfo_v2")
+    ret = fn(device, link, byref(c_pci))
+    _nvmlCheckReturn(ret)
+    return c_pci
+
+def nvmlDeviceGetNvLinkRemoteDeviceType(handle, link):
+    c_type = _nvmlNvLinkDeviceType_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkRemoteDeviceType")
+    ret = fn(handle, link, byref(c_type))
+    _nvmlCheckReturn(ret)
+    return c_type.value
+
+def nvmlDeviceGetNvLinkState(device, link):
+    c_isActive = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkState")
+    ret = fn(device, link, byref(c_isActive))
+    _nvmlCheckReturn(ret)
+    return c_isActive.value
+
+def nvmlDeviceGetNvLinkVersion(device, link):
+    c_version = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvLinkVersion")
+    ret = fn(device, link, byref(c_version))
+    _nvmlCheckReturn(ret)
+    return c_version.value
+
+def nvmlDeviceModifyDrainState(pciInfo, newState):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceModifyDrainState")
+    ret = fn(pointer(pciInfo), newState)
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceQueryDrainState(pciInfo):
+    c_newState = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceQueryDrainState")
+    ret = fn(pointer(pciInfo), byref(c_newState))
+    _nvmlCheckReturn(ret)
+    return c_newState.value
+
+def nvmlDeviceRemoveGpu(pciInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceRemoveGpu")
+    ret = fn(pointer(pciInfo))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceDiscoverGpus(pciInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceDiscoverGpus")
+    ret = fn(pointer(pciInfo))
+    _nvmlCheckReturn(ret)
+    return None
+
+def nvmlDeviceGetFieldValues(handle, fieldIds):
+    values_arr = c_nvmlFieldValue_t * len(fieldIds)
+    values = values_arr()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFieldValues")
+
+    for i, fieldId in enumerate(fieldIds):
+        try:
+            (values[i].fieldId, values[i].scopeId) = fieldId
+        except TypeError:
+            values[i].fieldId = fieldId
+
+    ret = fn(handle, c_int32(len(fieldIds)), byref(values))
+    _nvmlCheckReturn(ret)
+    return values
+
+def nvmlDeviceClearFieldValues(handle, fieldIds):
+    values_arr = c_nvmlFieldValue_t * len(fieldIds)
+    values = values_arr()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceClearFieldValues")
+
+    for i, fieldId in enumerate(fieldIds):
+        try:
+            (values[i].fieldId, values[i].scopeId) = fieldId
+        except TypeError:
+            values[i].fieldId = fieldId
+
+    ret = fn(handle, c_int32(len(fieldIds)), byref(values))
+    _nvmlCheckReturn(ret)
+    return values
+
+def nvmlDeviceGetVirtualizationMode(handle):
+    c_virtualization_mode = c_ulonglong()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVirtualizationMode")
+    ret = fn(handle, byref(c_virtualization_mode))
+    _nvmlCheckReturn(ret)
+    return c_virtualization_mode.value
+
+def nvmlDeviceSetVirtualizationMode(handle, virtualization_mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetVirtualizationMode")
+    return fn(handle, virtualization_mode)
+
+def nvmlDeviceGetVgpuHeterogeneousMode(handle):
+    c_vgpuHeterogeneousMode = c_nvmlVgpuHeterogeneousMode_v1_t(0)
+    c_vgpuHeterogeneousMode.version = VgpuHeterogeneousMode_v1
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuHeterogeneousMode")
+    ret = fn(handle, byref(c_vgpuHeterogeneousMode))
+    _nvmlCheckReturn(ret)
+    return c_vgpuHeterogeneousMode.mode
+
+def nvmlDeviceSetVgpuHeterogeneousMode(handle, heterogeneous_mode):
+    c_vgpuHeterogeneousMode = c_nvmlVgpuHeterogeneousMode_v1_t(0)
+    c_vgpuHeterogeneousMode.version = VgpuHeterogeneousMode_v1
+    c_vgpuHeterogeneousMode.mode = heterogeneous_mode
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetVgpuHeterogeneousMode")
+    ret = fn(handle, byref(c_vgpuHeterogeneousMode))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlVgpuInstanceGetPlacementId(vgpuInstance):
+    c_placement = c_nvmlVgpuPlacementId_v1_t(0)
+    c_placement.version = VgpuPlacementId_v1
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetPlacementId")
+    ret = fn(vgpuInstance, byref(c_placement))
+    _nvmlCheckReturn(ret)
+    return c_placement.placementId
+
+def nvmlDeviceGetVgpuTypeSupportedPlacements(handle, vgpuTypeId, mode=0, version=1):
+    c_max_instances = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetMaxInstances")
+    ret = fn(handle, vgpuTypeId, byref(c_max_instances))
+    _nvmlCheckReturn(ret)
+
+    if version == 2:
+        c_vgpu_placements = c_nvmlVgpuPlacementList_v2_t()
+        c_vgpu_placements.version = VgpuPlacementList_v2
+        c_vgpu_placements.count = c_max_instances.value
+        c_vgpu_placements.mode = mode
+    elif version == 1:
+        c_vgpu_placements = c_nvmlVgpuPlacementList_v1_t()
+        c_vgpu_placements.version = VgpuPlacementList_v1
+    else:
+        raise NVMLError(NVML_ERROR_ARGUMENT_VERSION_MISMATCH)
+
+    c_placements = c_uint * c_max_instances.value
+    c_vgpu_placements.placementIds = c_placements()
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuTypeSupportedPlacements")
+    ret = fn(handle, vgpuTypeId, byref(c_vgpu_placements))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_placements
+
+def nvmlDeviceGetVgpuTypeCreatablePlacements(handle, vgpuTypeId, version=1):
+    c_max_instances = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetMaxInstances")
+    ret = fn(handle, vgpuTypeId, byref(c_max_instances))
+    _nvmlCheckReturn(ret)
+
+    if version == 2:
+        c_vgpu_placements = c_nvmlVgpuPlacementList_v2_t()
+        c_vgpu_placements.version = VgpuPlacementList_v2
+        c_vgpu_placements.count = c_max_instances.value
+    elif version == 1:
+        c_vgpu_placements = c_nvmlVgpuPlacementList_v1_t()
+        c_vgpu_placements.version = VgpuPlacementList_v1
+
+    c_placements = c_uint * c_max_instances.value
+    c_vgpu_placements.placementIds = c_placements()
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuTypeCreatablePlacements")
+    ret = fn(handle, vgpuTypeId, byref(c_vgpu_placements))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_placements
+
+def nvmlGetVgpuDriverCapabilities(capability):
+    c_capResult = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlGetVgpuDriverCapabilities")
+    ret = fn(_nvmlVgpuDriverCapability_t(capability), byref(c_capResult))
+    _nvmlCheckReturn(ret)
+    return c_capResult.value
+
+def nvmlDeviceGetVgpuCapabilities(handle, capability):
+    c_capResult = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuCapabilities")
+    ret = fn(handle, _nvmlDeviceVgpuCapability_t(capability), byref(c_capResult))
+    _nvmlCheckReturn(ret)
+    return c_capResult.value
+
+def nvmlDeviceSetVgpuCapabilities(handle, capability, state):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetVgpuCapabilities")
+    ret = fn(handle, _nvmlDeviceVgpuCapability_t(capability), state)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetSupportedVgpus(handle):
+    # first call to get the size
+    c_vgpu_count = c_uint(0)
+
+    fn =  _nvmlGetFunctionPointer("nvmlDeviceGetSupportedVgpus")
+    ret = fn(handle, byref(c_vgpu_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no supported vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        vgpu_type_ids_array = _nvmlVgpuTypeId_t * c_vgpu_count.value
+        c_vgpu_type_ids = vgpu_type_ids_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_vgpu_count), c_vgpu_type_ids)
+        _nvmlCheckReturn(ret)
+        vgpus = []
+        for i in range(c_vgpu_count.value):
+            vgpus.append(c_vgpu_type_ids[i])
+        return vgpus
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetCreatableVgpus(handle):
+    # first call to get the size
+    c_vgpu_count = c_uint(0)
+
+    fn =  _nvmlGetFunctionPointer("nvmlDeviceGetCreatableVgpus")
+    ret = fn(handle, byref(c_vgpu_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no supported vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        vgpu_type_ids_array = _nvmlVgpuTypeId_t * c_vgpu_count.value
+        c_vgpu_type_ids = vgpu_type_ids_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_vgpu_count), c_vgpu_type_ids)
+        _nvmlCheckReturn(ret)
+        vgpus = []
+        for i in range(c_vgpu_count.value):
+            vgpus.append(c_vgpu_type_ids[i])
+        return vgpus
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlVgpuTypeGetGpuInstanceProfileId(vgpuTypeId):
+    c_profile_id = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetGpuInstanceProfileId")
+    ret = fn(vgpuTypeId, byref(c_profile_id))
+    _nvmlCheckReturn(ret)
+    return (c_profile_id.value)
+
+@convertStrBytes
+def nvmlVgpuTypeGetClass(vgpuTypeId):
+    c_class = create_string_buffer(NVML_DEVICE_NAME_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_DEVICE_NAME_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetClass")
+    ret = fn(vgpuTypeId, c_class, byref(c_buffer_size))
+    _nvmlCheckReturn(ret)
+    return c_class.value
+
+@convertStrBytes
+def nvmlVgpuTypeGetName(vgpuTypeId):
+    c_name = create_string_buffer(NVML_DEVICE_NAME_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_DEVICE_NAME_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetName")
+    ret = fn(vgpuTypeId, c_name, byref(c_buffer_size))
+    _nvmlCheckReturn(ret)
+    return c_name.value
+
+def nvmlVgpuTypeGetDeviceID(vgpuTypeId):
+    c_device_id    = c_ulonglong(0)
+    c_subsystem_id = c_ulonglong(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetDeviceID")
+    ret = fn(vgpuTypeId, byref(c_device_id), byref(c_subsystem_id))
+    _nvmlCheckReturn(ret)
+    return (c_device_id.value, c_subsystem_id.value)
+
+def nvmlVgpuTypeGetFramebufferSize(vgpuTypeId):
+    c_fb_size = c_ulonglong(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetFramebufferSize")
+    ret = fn(vgpuTypeId, byref(c_fb_size))
+    _nvmlCheckReturn(ret)
+    return c_fb_size.value
+
+def nvmlVgpuTypeGetNumDisplayHeads(vgpuTypeId):
+    c_num_heads = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetNumDisplayHeads")
+    ret = fn(vgpuTypeId, byref(c_num_heads))
+    _nvmlCheckReturn(ret)
+    return c_num_heads.value
+
+def nvmlVgpuTypeGetResolution(vgpuTypeId):
+    c_xdim = c_uint(0)
+    c_ydim = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetResolution")
+    ret = fn(vgpuTypeId, 0, byref(c_xdim), byref(c_ydim))
+    _nvmlCheckReturn(ret)
+    return (c_xdim.value, c_ydim.value)
+
+@convertStrBytes
+def nvmlVgpuTypeGetLicense(vgpuTypeId):
+    c_license = create_string_buffer(NVML_GRID_LICENSE_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_GRID_LICENSE_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetLicense")
+    ret = fn(vgpuTypeId, c_license, c_buffer_size)
+    _nvmlCheckReturn(ret)
+    return c_license.value
+
+def nvmlVgpuTypeGetFrameRateLimit(vgpuTypeId):
+    c_frl_config = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetFrameRateLimit")
+    ret = fn(vgpuTypeId, byref(c_frl_config))
+    _nvmlCheckReturn(ret)
+    return c_frl_config.value
+
+def nvmlVgpuTypeGetGspHeapSize(vgpuTypeId):
+    c_gsp_heap = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetGspHeapSize")
+    ret = fn(vgpuTypeId, byref(c_gsp_heap))
+    _nvmlCheckReturn(ret)
+    return c_gsp_heap.value
+
+def nvmlVgpuTypeGetFbReservation(vgpuTypeId):
+    c_fb_reservation = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetFbReservation")
+    ret = fn(vgpuTypeId, byref(c_fb_reservation))
+    _nvmlCheckReturn(ret)
+    return c_fb_reservation.value
+
+def nvmlVgpuInstanceGetRuntimeStateSize(vgpuInstance):
+    c_runtime_state = nvmlVgpuRuntimeState_v1_t()
+    c_runtime_state.version = VgpuRuntimeState_v1
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetRuntimeStateSize")
+    ret = fn(vgpuInstance, byref(c_runtime_state))
+    _nvmlCheckReturn(ret)
+    return c_runtime_state
+
+def nvmlVgpuTypeGetMaxInstances(handle, vgpuTypeId):
+    c_max_instances = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetMaxInstances")
+    ret = fn(handle, vgpuTypeId, byref(c_max_instances))
+    _nvmlCheckReturn(ret)
+    return c_max_instances.value
+
+def nvmlVgpuTypeGetMaxInstancesPerVm(vgpuTypeId):
+    c_max_instances_per_vm = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetMaxInstancesPerVm")
+    ret = fn(vgpuTypeId, byref(c_max_instances_per_vm))
+    _nvmlCheckReturn(ret)
+    return c_max_instances_per_vm.value
+
+def nvmlVgpuTypeGetBAR1Info(vgpuTypeId):
+    c_bar1Info = c_nvmlVgpuTypeBar1Info_v1_t(0)
+    c_bar1Info.version = VgpuTypeBar1Info_v1
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetBAR1Info")
+    ret = fn(vgpuTypeId, byref(c_bar1Info))
+    _nvmlCheckReturn(ret)
+    return c_bar1Info
+
+def nvmlDeviceGetActiveVgpus(handle):
+    # first call to get the size
+    c_vgpu_count = c_uint(0)
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetActiveVgpus")
+    ret = fn(handle, byref(c_vgpu_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no active vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        vgpu_instance_array = _nvmlVgpuInstance_t * c_vgpu_count.value
+        c_vgpu_instances = vgpu_instance_array()
+
+        # make the call again
+        ret = fn(handle, byref(c_vgpu_count), c_vgpu_instances)
+        _nvmlCheckReturn(ret)
+        vgpus = []
+        for i in range(c_vgpu_count.value):
+            vgpus.append(c_vgpu_instances[i])
+        return vgpus
+    else:
+        # error case
+        raise NVMLError(ret)
+
+@convertStrBytes
+def nvmlVgpuInstanceGetVmID(vgpuInstance):
+    c_vm_id = create_string_buffer(NVML_DEVICE_UUID_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_GRID_LICENSE_BUFFER_SIZE)
+    c_vm_id_type  = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetVmID")
+    ret = fn(vgpuInstance, byref(c_vm_id), c_buffer_size, byref(c_vm_id_type))
+    _nvmlCheckReturn(ret)
+    return (c_vm_id.value, c_vm_id_type.value)
+
+@convertStrBytes
+def nvmlVgpuInstanceGetUUID(vgpuInstance):
+    c_uuid = create_string_buffer(NVML_DEVICE_UUID_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_DEVICE_UUID_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetUUID")
+    ret = fn(vgpuInstance, byref(c_uuid), c_buffer_size)
+    _nvmlCheckReturn(ret)
+    return c_uuid.value
+
+@convertStrBytes
+def nvmlVgpuInstanceGetMdevUUID(vgpuInstance):
+    c_uuid = create_string_buffer(NVML_DEVICE_UUID_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_DEVICE_UUID_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetMdevUUID")
+    ret = fn(vgpuInstance, byref(c_uuid), c_buffer_size)
+    _nvmlCheckReturn(ret)
+    return c_uuid.value
+
+@convertStrBytes
+def nvmlVgpuInstanceGetVmDriverVersion(vgpuInstance):
+    c_driver_version = create_string_buffer(NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE)
+    c_buffer_size = c_uint(NVML_SYSTEM_DRIVER_VERSION_BUFFER_SIZE)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetVmDriverVersion")
+    ret = fn(vgpuInstance, byref(c_driver_version), c_buffer_size)
+    _nvmlCheckReturn(ret)
+    return c_driver_version.value
+
+def nvmlVgpuInstanceGetLicenseStatus(vgpuInstance):
+    c_license_status = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetLicenseStatus")
+    ret = fn(vgpuInstance, byref(c_license_status))
+    _nvmlCheckReturn(ret)
+    return c_license_status.value
+
+def nvmlVgpuInstanceGetLicenseInfo_v2(vgpuInstance):
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetLicenseInfo_v2")
+    c_license_info = c_nvmlVgpuLicenseInfo_t()
+    ret = fn(vgpuInstance, byref(c_license_info))
+    _nvmlCheckReturn(ret)
+    return c_license_info
+
+def nvmlVgpuInstanceGetLicenseInfo(vgpuInstance):
+    return nvmlVgpuInstanceGetLicenseInfo_v2(vgpuInstance)
+
+def nvmlVgpuInstanceGetFrameRateLimit(vgpuInstance):
+    c_frl = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetFrameRateLimit")
+    ret = fn(vgpuInstance, byref(c_frl))
+    _nvmlCheckReturn(ret)
+    return c_frl.value
+
+def nvmlVgpuInstanceGetEccMode(vgpuInstance):
+    c_mode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetEccMode")
+    ret = fn(vgpuInstance, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+def nvmlVgpuInstanceGetType(vgpuInstance):
+    c_vgpu_type = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetType")
+    ret = fn(vgpuInstance, byref(c_vgpu_type))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_type.value
+
+def nvmlVgpuInstanceGetEncoderCapacity(vgpuInstance):
+    c_encoder_capacity = c_ulonglong(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetEncoderCapacity")
+    ret = fn(vgpuInstance, byref(c_encoder_capacity))
+    _nvmlCheckReturn(ret)
+    return c_encoder_capacity.value
+
+def nvmlVgpuInstanceSetEncoderCapacity(vgpuInstance, encoder_capacity):
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceSetEncoderCapacity")
+    return fn(vgpuInstance, encoder_capacity)
+
+def nvmlVgpuInstanceGetFbUsage(vgpuInstance):
+    c_fb_usage = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetFbUsage")
+    ret = fn(vgpuInstance, byref(c_fb_usage))
+    _nvmlCheckReturn(ret)
+    return c_fb_usage.value
+
+def nvmlVgpuTypeGetCapabilities(vgpuTypeId, capability):
+    c_cap_result = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuTypeGetCapabilities")
+    ret = fn(vgpuTypeId, _nvmlVgpuCapability_t(capability), byref(c_cap_result))
+    _nvmlCheckReturn(ret)
+    return (c_cap_result.value)
+
+def nvmlVgpuInstanceGetGpuInstanceId(vgpuInstance):
+    c_id = c_uint(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetGpuInstanceId")
+    ret = fn(vgpuInstance, byref(c_id))
+    _nvmlCheckReturn(ret)
+    return (c_id.value)
+
+@convertStrBytes
+def nvmlVgpuInstanceGetGpuPciId(vgpuInstance):
+    c_vgpuPciId = create_string_buffer(NVML_DEVICE_PCI_BUS_ID_BUFFER_SIZE)
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetGpuPciId")
+    ret = fn(vgpuInstance, c_vgpuPciId, byref(c_uint(NVML_DEVICE_PCI_BUS_ID_BUFFER_SIZE)))
+    _nvmlCheckReturn(ret)
+    return c_vgpuPciId.value
+
+def nvmlDeviceGetVgpuUtilization(handle, timeStamp):
+    # first call to get the size
+    c_vgpu_count = c_uint(0)
+    c_time_stamp = c_ulonglong(timeStamp)
+    c_sample_value_type = _nvmlValueType_t()
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuUtilization")
+    ret = fn(handle, c_time_stamp, byref(c_sample_value_type), byref(c_vgpu_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no active vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_vgpu_count.value * c_nvmlVgpuInstanceUtilizationSample_t
+        c_samples = sampleArray()
+
+        # make the call again
+        ret = fn(handle, c_time_stamp, byref(c_sample_value_type), byref(c_vgpu_count), c_samples)
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_vgpu_count.value]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetVgpuInstancesUtilizationInfo(handle, timeStamp):
+    # first call to get the size
+    c_time_stamp = c_ulonglong(timeStamp)
+    c_vgpuUtilInfo = c_nvmlVgpuInstancesUtilizationInfo_v1_t(0)
+    c_vgpuUtilInfo.version = VgpuInstancesUtilizationInfo_v1
+    c_vgpuUtilInfo.sampleValType = _nvmlValueType_t()
+    c_vgpuUtilInfo.vgpuInstanceCount = c_uint(0)
+    c_vgpuUtilInfo.lastSeenTimeStamp = c_time_stamp
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuInstancesUtilizationInfo")
+    ret = fn(handle, byref(c_vgpuUtilInfo))
+
+    if (ret == NVML_SUCCESS):
+        # special case, no active vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_vgpuUtilInfo.vgpuInstanceCount * c_nvmlVgpuInstanceUtilizationInfo_v1_t
+        c_samples = sampleArray()
+        c_vgpuUtilInfo.vgpuUtilArray = c_samples
+
+        # make the call again
+        ret = fn(handle, byref(c_vgpuUtilInfo))
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_vgpuUtilInfo.vgpuInstanceCount]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetP2PStatus(device1, device2, p2pIndex):
+    c_p2pstatus = _nvmlGpuP2PStatus_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetP2PStatus")
+    ret = fn(device1, device2,p2pIndex, byref(c_p2pstatus))
+    _nvmlCheckReturn(ret)
+    return c_p2pstatus.value
+
+def nvmlDeviceGetGridLicensableFeatures_v4(handle):
+    c_get_grid_licensable_features = c_nvmlGridLicensableFeatures_v4_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGridLicensableFeatures_v4")
+    ret = fn(handle, byref(c_get_grid_licensable_features))
+    _nvmlCheckReturn(ret)
+
+    return (c_get_grid_licensable_features)
+
+def nvmlDeviceGetGridLicensableFeatures(handle):
+    return nvmlDeviceGetGridLicensableFeatures_v4(handle)
+
+def nvmlDeviceGetGspFirmwareVersion(handle, version=None):
+    isUserDefined = version is not None
+    if not isUserDefined:
+        version = (c_char * NVML_GSP_FIRMWARE_VERSION_BUF_SIZE)()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGspFirmwareVersion")
+    ret = fn(handle, version)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isUserDefined else version.value
+
+def nvmlDeviceGetGspFirmwareMode(handle, isEnabled=c_uint(), defaultMode=c_uint()):
+    isReference = type(isEnabled) is not c_uint
+    isEnabledRef = isEnabled if isReference else byref(isEnabled)
+    defaultModeRef = defaultMode if isReference else byref(defaultMode)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGspFirmwareMode")
+    ret = fn(handle, isEnabledRef, defaultModeRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else [isEnabled.value, defaultMode.value]
+
+def nvmlDeviceGetEncoderCapacity(handle, encoderQueryType):
+    c_encoder_capacity = c_ulonglong(0)
+    c_encoderQuery_type = _nvmlEncoderQueryType_t(encoderQueryType)
+
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetEncoderCapacity")
+    ret = fn(handle, c_encoderQuery_type, byref(c_encoder_capacity))
+    _nvmlCheckReturn(ret)
+    return c_encoder_capacity.value
+
+def nvmlDeviceGetVgpuProcessUtilization(handle, timeStamp):
+    # first call to get the size
+    c_vgpu_count = c_uint(0)
+    c_time_stamp = c_ulonglong(timeStamp)
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuProcessUtilization")
+    ret = fn(handle, c_time_stamp, byref(c_vgpu_count), None)
+
+    if (ret == NVML_SUCCESS):
+        # special case, no active vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_vgpu_count.value * c_nvmlVgpuProcessUtilizationSample_t
+        c_samples = sampleArray()
+
+        # make the call again
+        ret = fn(handle, c_time_stamp, byref(c_vgpu_count), c_samples)
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_vgpu_count.value]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetVgpuProcessesUtilizationInfo(handle, timeStamp):
+    # first call to get the size
+    c_time_stamp = c_ulonglong(timeStamp)
+    c_vgpuProcUtilInfo = c_nvmlVgpuProcessesUtilizationInfo_v1_t(0)
+    c_vgpuProcUtilInfo.version = VgpuProcessesUtilizationInfo_v1
+    c_vgpuProcUtilInfo.vgpuProcessCount = c_uint(0)
+    c_vgpuProcUtilInfo.lastSeenTimeStamp = c_time_stamp
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuProcessesUtilizationInfo")
+    ret = fn(handle, byref(c_vgpuProcUtilInfo))
+
+    if (ret == NVML_SUCCESS):
+        # special case, no active vGPUs
+        return []
+    elif (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_vgpuProcUtilInfo.vgpuProcessCount * c_nvmlVgpuProcessUtilizationInfo_v1_t
+        c_samples = sampleArray()
+        c_vgpuProcUtilInfo.vgpuProcUtilArray = c_samples
+
+        # make the call again
+        ret = fn(handle, byref(c_vgpuProcUtilInfo))
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_vgpuProcUtilInfo.vgpuProcessCount]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetEncoderStats(handle):
+    c_encoderCount = c_ulonglong(0)
+    c_encodeFps = c_ulonglong(0)
+    c_encoderLatency = c_ulonglong(0)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetEncoderStats")
+    ret = fn(handle, byref(c_encoderCount), byref(c_encodeFps), byref(c_encoderLatency))
+    _nvmlCheckReturn(ret)
+    return (c_encoderCount.value, c_encodeFps.value, c_encoderLatency.value)
+
+def nvmlDeviceGetEncoderSessions(handle):
+    # first call to get the size
+    c_session_count = c_uint(0)
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetEncoderSessions")
+    ret = fn(handle, byref(c_session_count), None)
+
+    if (ret == NVML_SUCCESS):
+        if (c_session_count.value != 0):
+            # typical case
+            session_array = c_nvmlEncoderSession_t * c_session_count.value
+            c_sessions = session_array()
+
+            # make the call again
+            ret = fn(handle, byref(c_session_count), c_sessions)
+            _nvmlCheckReturn(ret)
+            sessions = []
+            for i in range(c_session_count.value):
+                sessions.append(c_sessions[i])
+            return sessions
+        else:
+            return []  # no active sessions
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetFBCStats(handle):
+    c_fbcStats = c_nvmlFBCStats_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetFBCStats")
+    ret = fn(handle, byref(c_fbcStats))
+    _nvmlCheckReturn(ret)
+    return c_fbcStats
+
+def nvmlDeviceGetFBCSessions(handle):
+    # first call to get the size
+    c_session_count = c_uint(0)
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetFBCSessions")
+    ret = fn(handle, byref(c_session_count), None)
+
+    if (ret == NVML_SUCCESS):
+        if (c_session_count.value != 0):
+            # typical case
+            session_array = c_nvmlFBCSession_t * c_session_count.value
+            c_sessions = session_array()
+
+            # make the call again
+            ret = fn(handle, byref(c_session_count), c_sessions)
+            _nvmlCheckReturn(ret)
+            sessions = []
+            for i in range(c_session_count.value):
+                sessions.append(c_sessions[i])
+            return sessions
+        else:
+            return []  # no active sessions
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlVgpuInstanceGetEncoderStats(vgpuInstance):
+    c_encoderCount    = c_ulonglong(0)
+    c_encodeFps       = c_ulonglong(0)
+    c_encoderLatency  = c_ulonglong(0)
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetEncoderStats")
+    ret = fn(vgpuInstance, byref(c_encoderCount), byref(c_encodeFps), byref(c_encoderLatency))
+    _nvmlCheckReturn(ret)
+    return (c_encoderCount.value, c_encodeFps.value, c_encoderLatency.value)
+
+def nvmlVgpuInstanceGetEncoderSessions(vgpuInstance):
+    # first call to get the size
+    c_session_count = c_uint(0)
+
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetEncoderSessions")
+    ret = fn(vgpuInstance, byref(c_session_count), None)
+
+    if (ret == NVML_SUCCESS):
+        if (c_session_count.value != 0):
+            # typical case
+            session_array = c_nvmlEncoderSession_t * c_session_count.value
+            c_sessions = session_array()
+
+            # make the call again
+            ret = fn(vgpuInstance, byref(c_session_count), c_sessions)
+            _nvmlCheckReturn(ret)
+            sessions = []
+            for i in range(c_session_count.value):
+                sessions.append(c_sessions[i])
+            return sessions
+        else:
+            return []  # no active sessions
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlVgpuInstanceGetFBCStats(vgpuInstance):
+    c_fbcStats = c_nvmlFBCStats_t()
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetFBCStats")
+    ret = fn(vgpuInstance, byref(c_fbcStats))
+    _nvmlCheckReturn(ret)
+    return c_fbcStats
+
+def nvmlVgpuInstanceGetFBCSessions(vgpuInstance):
+    # first call to get the size
+    c_session_count = c_uint(0)
+
+    fn  = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetFBCSessions")
+    ret = fn(vgpuInstance, byref(c_session_count), None)
+
+    if (ret == NVML_SUCCESS):
+        if (c_session_count.value != 0):
+            # typical case
+            session_array = c_nvmlFBCSession_t * c_session_count.value
+            c_sessions = session_array()
+
+            # make the call again
+            ret = fn(vgpuInstance, byref(c_session_count), c_sessions)
+            _nvmlCheckReturn(ret)
+            sessions = []
+            for i in range(c_session_count.value):
+                sessions.append(c_sessions[i])
+            return sessions
+        else:
+            return []  # no active sessions
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetProcessUtilization(handle, timeStamp):
+    # first call to get the size
+    c_count = c_uint(0)
+    c_time_stamp = c_ulonglong(timeStamp)
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetProcessUtilization")
+    ret = fn(handle, None, byref(c_count), c_time_stamp)
+
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_count.value * c_nvmlProcessUtilizationSample_t
+        c_samples = sampleArray()
+
+        # make the call again
+        ret = fn(handle, c_samples, byref(c_count), c_time_stamp)
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_count.value]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlDeviceGetProcessesUtilizationInfo(handle, timeStamp):
+    # first call to get the size
+    c_time_stamp = c_ulonglong(timeStamp)
+    c_processesUtilInfo = c_nvmlProcessesUtilizationInfo_v1_t(0)
+    c_processesUtilInfo.version = ProcessesUtilizationInfo_v1
+    c_processesUtilInfo.processSamplesCount = c_uint(0)
+    c_processesUtilInfo.lastSeenTimeStamp = c_time_stamp
+
+    fn  = _nvmlGetFunctionPointer("nvmlDeviceGetProcessesUtilizationInfo")
+    ret = fn(handle, byref(c_processesUtilInfo))
+
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        # typical case
+        sampleArray = c_processesUtilInfo.processSamplesCount * c_nvmlProcessUtilizationInfo_v1_t
+        c_samples = sampleArray()
+        c_processesUtilInfo.procUtilArray = c_samples
+
+        # make the call again
+        ret = fn(handle, byref(c_processesUtilInfo))
+        _nvmlCheckReturn(ret)
+
+        return c_samples[0:c_processesUtilInfo.processSamplesCount]
+    else:
+        # error case
+        raise NVMLError(ret)
+
+def nvmlVgpuInstanceGetMetadata(vgpuInstance):
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetMetadata")
+    c_vgpuMetadata = c_nvmlVgpuMetadata_t()
+    c_bufferSize = c_uint(0)
+    # Make the first NVML API call to get the c_bufferSize value.
+    # We have already allocated required buffer above.
+    ret = fn(vgpuInstance, byref(c_vgpuMetadata), byref(c_bufferSize))
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        ret = fn(vgpuInstance, byref(c_vgpuMetadata), byref(c_bufferSize))
+        _nvmlCheckReturn(ret)
+    else:
+        raise NVMLError(ret)
+    return c_vgpuMetadata
+
+def nvmlDeviceGetVgpuMetadata(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuMetadata")
+    c_vgpuPgpuMetadata = c_nvmlVgpuPgpuMetadata_t()
+    c_bufferSize = c_uint(0)
+    # Make the first NVML API call to get the c_bufferSize value.
+    # We have already allocated required buffer above.
+    ret = fn(handle, byref(c_vgpuPgpuMetadata), byref(c_bufferSize))
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        ret = fn(handle, byref(c_vgpuPgpuMetadata), byref(c_bufferSize))
+        _nvmlCheckReturn(ret)
+    else:
+        raise NVMLError(ret)
+    return c_vgpuPgpuMetadata
+
+def nvmlGetVgpuCompatibility(vgpuMetadata, pgpuMetadata):
+    fn = _nvmlGetFunctionPointer("nvmlGetVgpuCompatibility")
+    c_vgpuPgpuCompatibility = c_nvmlVgpuPgpuCompatibility_t()
+    ret = fn(byref(vgpuMetadata), byref(pgpuMetadata), byref(c_vgpuPgpuCompatibility))
+    _nvmlCheckReturn(ret)
+    return c_vgpuPgpuCompatibility
+
+@convertStrBytes
+def nvmlDeviceGetPgpuMetadataString(handle):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPgpuMetadataString")
+    c_pgpuMetadata = create_string_buffer(NVML_VGPU_PGPU_METADATA_OPAQUE_DATA_SIZE)
+    c_bufferSize = c_uint(0)
+    # Make the first NVML API call to get the c_bufferSize value.
+    # We have already allocated required buffer above.
+    ret = fn(handle, byref(c_pgpuMetadata), byref(c_bufferSize))
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        ret = fn(handle, byref(c_pgpuMetadata), byref(c_bufferSize))
+        _nvmlCheckReturn(ret)
+    else:
+        raise NVMLError(ret)
+    return (c_pgpuMetadata.value, c_bufferSize.value)
+
+def nvmlDeviceGetVgpuSchedulerLog(handle):
+    c_vgpu_sched_log = c_nvmlVgpuSchedulerLog_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuSchedulerLog")
+    ret = fn(handle, byref(c_vgpu_sched_log))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_sched_log
+
+def nvmlDeviceGetVgpuSchedulerState(handle):
+    c_vgpu_sched_state = c_nvmlVgpuSchedulerGetState_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuSchedulerState")
+    ret = fn(handle, byref(c_vgpu_sched_state))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_sched_state
+
+def nvmlDeviceGetVgpuSchedulerCapabilities(handle):
+    c_vgpu_sched_caps = c_nvmlVgpuSchedulerCapabilities_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetVgpuSchedulerCapabilities")
+    ret = fn(handle, byref(c_vgpu_sched_caps))
+    _nvmlCheckReturn(ret)
+    return c_vgpu_sched_caps
+
+def nvmlDeviceSetVgpuSchedulerState(handle, sched_state):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetVgpuSchedulerState")
+    ret = fn(handle, byref(sched_state))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlSetVgpuVersion(vgpuVersion):
+    fn = _nvmlGetFunctionPointer("nvmlSetVgpuVersion")
+    ret = fn(byref(vgpuVersion))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGetVgpuVersion(supported=None, current=None):
+    isUserDefined = (supported is not None) or (current is not None)
+    if not isUserDefined:
+        supported = c_nvmlVgpuVersion_t()
+        current = c_nvmlVgpuVersion_t()
+    fn = _nvmlGetFunctionPointer("nvmlGetVgpuVersion")
+    ret = fn(byref(supported), byref(current))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isUserDefined else [(supported.minVersion,
+                                                supported.maxVersion),
+                                               (current.minVersion,
+                                                current.maxVersion)]
+
+def nvmlVgpuInstanceGetAccountingMode(vgpuInstance):
+    c_mode = _nvmlEnableState_t()
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetAccountingMode")
+    ret = fn(vgpuInstance, byref(c_mode))
+    _nvmlCheckReturn(ret)
+    return c_mode.value
+
+def nvmlVgpuInstanceGetAccountingPids(vgpuInstance):
+    c_pidCount = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetAccountingPids")
+    ret = fn(vgpuInstance, byref(c_pidCount), None)
+    if (ret == NVML_ERROR_INSUFFICIENT_SIZE):
+        sampleArray = c_pidCount.value * c_uint
+        c_pidArray = sampleArray()
+        ret = fn(vgpuInstance, byref(c_pidCount), byref(c_pidArray))
+        _nvmlCheckReturn(ret)
+    else:
+        raise NVMLError(ret)
+    return (c_pidCount, c_pidArray)
+
+def nvmlVgpuInstanceGetAccountingStats(vgpuInstance, pid):
+    c_accountingStats = c_nvmlAccountingStats_t()
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceGetAccountingStats")
+    ret = fn(vgpuInstance, pid, byref(c_accountingStats))
+    _nvmlCheckReturn(ret)
+    return c_accountingStats
+
+def nvmlVgpuInstanceClearAccountingPids(vgpuInstance):
+    fn = _nvmlGetFunctionPointer("nvmlVgpuInstanceClearAccountingPids")
+    ret = fn(vgpuInstance)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGetExcludedDeviceCount():
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlGetExcludedDeviceCount")
+    ret = fn(byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlGetExcludedDeviceInfoByIndex(index):
+    c_index = c_uint(index)
+    info = c_nvmlExcludedDeviceInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlGetExcludedDeviceInfoByIndex")
+    ret = fn(c_index, byref(info))
+    _nvmlCheckReturn(ret)
+    return info
+
+def nvmlDeviceGetHostVgpuMode(handle):
+    c_host_vgpu_mode = _nvmlHostVgpuMode_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetHostVgpuMode")
+    ret = fn(handle, byref(c_host_vgpu_mode))
+    _nvmlCheckReturn(ret)
+    return c_host_vgpu_mode.value
+
+def nvmlDeviceSetMigMode(device, mode):
+    c_activationStatus = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetMigMode")
+    ret = fn(device, mode, byref(c_activationStatus))
+    _nvmlCheckReturn(ret)
+    return c_activationStatus.value
+
+def nvmlDeviceGetMigMode(device):
+    c_currentMode = c_uint()
+    c_pendingMode = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMigMode")
+    ret = fn(device, byref(c_currentMode), byref(c_pendingMode))
+    _nvmlCheckReturn(ret)
+    return [c_currentMode.value, c_pendingMode.value]
+
+def nvmlDeviceGetGpuInstanceProfileInfo(device, profile, version=2):
+    if version == 2:
+        c_info = c_nvmlGpuInstanceProfileInfo_v2_t()
+        fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstanceProfileInfoV")
+    elif version == 1:
+        c_info = c_nvmlGpuInstanceProfileInfo_t()
+        fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstanceProfileInfo")
+    else:
+        raise NVMLError(NVML_ERROR_FUNCTION_NOT_FOUND)
+    ret = fn(device, profile, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+# Define function alias for the API exposed by NVML
+nvmlDeviceGetGpuInstanceProfileInfoV = nvmlDeviceGetGpuInstanceProfileInfo
+
+def nvmlDeviceGetGpuInstanceRemainingCapacity(device, profileId):
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstanceRemainingCapacity")
+    ret = fn(device, profileId, byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlDeviceGetGpuInstancePossiblePlacements(device, profileId, placementsRef, countRef):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstancePossiblePlacements_v2")
+    ret = fn(device, profileId, placementsRef, countRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceCreateGpuInstance(device, profileId):
+    c_instance = c_nvmlGpuInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceCreateGpuInstance")
+    ret = fn(device, profileId, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlDeviceCreateGpuInstanceWithPlacement(device, profileId, placement):
+    c_instance = c_nvmlGpuInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceCreateGpuInstanceWithPlacement")
+    ret = fn(device, profileId, placement, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlGpuInstanceDestroy(gpuInstance):
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceDestroy")
+    ret = fn(gpuInstance)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetGpuInstances(device, profileId, gpuInstancesRef, countRef):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstances")
+    ret = fn(device, profileId, gpuInstancesRef, countRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetGpuInstanceById(device, gpuInstanceId):
+    c_instance = c_nvmlGpuInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstanceById")
+    ret = fn(device, gpuInstanceId, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlGpuInstanceGetInfo(gpuInstance):
+    c_info = c_nvmlGpuInstanceInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetInfo")
+    ret = fn(gpuInstance, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlGpuInstanceGetComputeInstanceProfileInfo(device, profile, engProfile, version=2):
+    if version == 2:
+        c_info = c_nvmlComputeInstanceProfileInfo_v2_t()
+        fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstanceProfileInfoV")
+    elif version == 1:
+        c_info = c_nvmlComputeInstanceProfileInfo_t()
+        fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstanceProfileInfo")
+    else:
+        raise NVMLError(NVML_ERROR_FUNCTION_NOT_FOUND) 
+    ret = fn(device, profile, engProfile, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+# Define function alias for the API exposed by NVML
+nvmlGpuInstanceGetComputeInstanceProfileInfoV = nvmlGpuInstanceGetComputeInstanceProfileInfo
+
+def nvmlGpuInstanceGetComputeInstanceRemainingCapacity(gpuInstance, profileId):
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstanceRemainingCapacity")
+    ret = fn(gpuInstance, profileId, byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlGpuInstanceGetComputeInstancePossiblePlacements(gpuInstance, profileId, placementsRef, countRef):
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstancePossiblePlacements")
+    ret = fn(gpuInstance, profileId, placementsRef, countRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGpuInstanceCreateComputeInstance(gpuInstance, profileId):
+    c_instance = c_nvmlComputeInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceCreateComputeInstance")
+    ret = fn(gpuInstance, profileId, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlGpuInstanceCreateComputeInstanceWithPlacement(gpuInstance, profileId, placement):
+    c_instance = c_nvmlComputeInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceCreateComputeInstanceWithPlacement")
+    ret = fn(gpuInstance, profileId, placement, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlComputeInstanceDestroy(computeInstance):
+    fn = _nvmlGetFunctionPointer("nvmlComputeInstanceDestroy")
+    ret = fn(computeInstance)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGpuInstanceGetComputeInstances(gpuInstance, profileId, computeInstancesRef, countRef):
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstances")
+    ret = fn(gpuInstance, profileId, computeInstancesRef, countRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGpuInstanceGetComputeInstanceById(gpuInstance, computeInstanceId):
+    c_instance = c_nvmlComputeInstance_t()
+    fn = _nvmlGetFunctionPointer("nvmlGpuInstanceGetComputeInstanceById")
+    ret = fn(gpuInstance, computeInstanceId, byref(c_instance))
+    _nvmlCheckReturn(ret)
+    return c_instance
+
+def nvmlComputeInstanceGetInfo_v2(computeInstance):
+    c_info = c_nvmlComputeInstanceInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlComputeInstanceGetInfo_v2")
+    ret = fn(computeInstance, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return c_info
+
+def nvmlComputeInstanceGetInfo(computeInstance):
+    return nvmlComputeInstanceGetInfo_v2(computeInstance)
+
+def nvmlDeviceIsMigDeviceHandle(device):
+    c_isMigDevice = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceIsMigDeviceHandle")
+    ret = fn(device, byref(c_isMigDevice))
+    _nvmlCheckReturn(ret)
+    return c_isMigDevice
+
+def nvmlDeviceGetGpuInstanceId(device):
+    c_gpuInstanceId = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuInstanceId")
+    ret = fn(device, byref(c_gpuInstanceId))
+    _nvmlCheckReturn(ret)
+    return c_gpuInstanceId.value
+
+def nvmlDeviceGetComputeInstanceId(device):
+    c_computeInstanceId = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetComputeInstanceId")
+    ret = fn(device, byref(c_computeInstanceId))
+    _nvmlCheckReturn(ret)
+    return c_computeInstanceId.value
+
+def nvmlDeviceGetMaxMigDeviceCount(device):
+    c_count = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMaxMigDeviceCount")
+    ret = fn(device, byref(c_count))
+    _nvmlCheckReturn(ret)
+    return c_count.value
+
+def nvmlDeviceGetMigDeviceHandleByIndex(device, index):
+    c_index = c_uint(index)
+    migDevice = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMigDeviceHandleByIndex")
+    ret = fn(device, c_index, byref(migDevice))
+    _nvmlCheckReturn(ret)
+    return migDevice
+
+def nvmlDeviceGetDeviceHandleFromMigDeviceHandle(migDevice):
+    device = c_nvmlDevice_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDeviceHandleFromMigDeviceHandle")
+    ret = fn(migDevice, byref(device))
+    _nvmlCheckReturn(ret)
+    return device
+
+def nvmlDeviceGetAttributes_v2(device):
+    c_attrs = c_nvmlDeviceAttributes()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAttributes_v2")
+    ret = fn(device, byref(c_attrs))
+    _nvmlCheckReturn(ret)
+    return c_attrs
+
+def nvmlDeviceGetAttributes(device):
+    return nvmlDeviceGetAttributes_v2(device)
+
+def nvmlDeviceGetRemappedRows(device):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRemappedRows")
+    c_corr = c_uint()
+    c_unc = c_uint()
+    c_bpending = c_uint()
+    c_bfailure = c_uint()
+    ret = fn(device, byref(c_corr), byref(c_unc), byref(c_bpending), byref(c_bfailure))
+    _nvmlCheckReturn(ret)
+    return (c_corr.value, c_unc.value, c_bpending.value, c_bfailure.value)
+
+def nvmlDeviceGetRowRemapperHistogram(device):
+    c_vals = c_nvmlRowRemapperHistogramValues()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetRowRemapperHistogram")
+    ret = fn(device, byref(c_vals))
+    _nvmlCheckReturn(ret)
+    return c_vals
+
+def nvmlDeviceGetArchitecture(device):
+    arch = _nvmlDeviceArchitecture_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetArchitecture")
+    ret = fn(device, byref(arch))
+    _nvmlCheckReturn(ret)
+    return arch.value
+
+def nvmlDeviceGetBusType(device):
+    c_busType = _nvmlBusType_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetBusType")
+    ret = fn(device, byref(c_busType))
+    _nvmlCheckReturn(ret)
+    return c_busType.value
+
+def nvmlDeviceGetIrqNum(device):
+    c_irqNum = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetIrqNum")
+    ret = fn(device, byref(c_irqNum))
+    _nvmlCheckReturn(ret)
+    return c_irqNum.value
+
+def nvmlDeviceGetNumGpuCores(device):
+    c_numCores = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNumGpuCores")
+    ret = fn(device, byref(c_numCores))
+    _nvmlCheckReturn(ret)
+    return c_numCores.value
+
+def nvmlDeviceGetPowerSource(device):
+    c_powerSource = _nvmlPowerSource_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPowerSource")
+    ret = fn(device, byref(c_powerSource))
+    _nvmlCheckReturn(ret)
+    return c_powerSource.value
+
+def nvmlDeviceGetMemoryBusWidth(device):
+    c_memBusWidth = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemoryBusWidth")
+    ret = fn(device, byref(c_memBusWidth))
+    _nvmlCheckReturn(ret)
+    return c_memBusWidth.value
+
+def nvmlDeviceGetPcieLinkMaxSpeed(device):
+    c_speed = _nvmlPcieLinkMaxSpeed_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPcieLinkMaxSpeed")
+    ret = fn(device, byref(c_speed))
+    _nvmlCheckReturn(ret)
+    return c_speed.value
+
+def nvmlDeviceGetAdaptiveClockInfoStatus(device):
+    c_adaptiveClockInfoStatus = _nvmlAdaptiveClockInfoStatus_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetAdaptiveClockInfoStatus")
+    ret = fn(device, byref(c_adaptiveClockInfoStatus))
+    _nvmlCheckReturn(ret)
+    return c_adaptiveClockInfoStatus.value
+
+def nvmlDeviceGetPcieSpeed(device):
+    c_speed = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPcieSpeed")
+    ret = fn(device, byref(c_speed))
+    _nvmlCheckReturn(ret)
+    return c_speed.value
+
+def nvmlDeviceGetDynamicPstatesInfo(device, c_dynamicpstatesinfo=c_nvmlGpuDynamicPstatesInfo_t()):
+    isReference = type(c_dynamicpstatesinfo) is not c_nvmlGpuDynamicPstatesInfo_t
+    dynamicpstatesinfoRef = c_dynamicpstatesinfo if isReference else byref(c_dynamicpstatesinfo)
+
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDynamicPstatesInfo");
+    ret = fn(device, dynamicpstatesinfoRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else c_dynamicpstatesinfo
+
+def nvmlDeviceSetFanSpeed_v2(handle, index, speed):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetFanSpeed_v2");
+    ret = fn(handle, index, speed)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetThermalSettings(device, sensorindex, c_thermalsettings=c_nvmlGpuThermalSettings_t()):
+    isReference = type(c_thermalsettings) is not c_nvmlGpuThermalSettings_t
+    thermalsettingsRef = c_thermalsettings if isReference else byref(c_thermalsettings)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetThermalSettings");
+    ret = fn(device, sensorindex, thermalsettingsRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else c_thermalsettings.sensor[:]
+
+def nvmlDeviceGetMinMaxClockOfPState(device, clockType, pstate, minClockMHz=c_uint(), maxClockMHz=c_uint()):
+    isReference = (type(minClockMHz) is not c_uint) or (type(maxClockMHz) is not c_uint)
+    minClockMHzRef = minClockMHz if isReference else byref(minClockMHz)
+    maxClockMHzRef = maxClockMHz if isReference else byref(maxClockMHz)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMinMaxClockOfPState");
+    ret = fn(device, _nvmlClockType_t(clockType), _nvmlClockType_t(pstate), minClockMHzRef, maxClockMHzRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else (minClockMHz.value, maxClockMHz.value)
+
+class c_nvmlClockOffset_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('type', _nvmlClockType_t),
+        ('pstate', _nvmlPstates_t),
+        ('clockOffsetMHz', c_int),
+        ('minClockOffsetMHz', c_int),
+        ('maxClockOffsetMHz', c_int),
+    ]
+
+nvmlClockOffset_v1 = 0x1000018
+
+def nvmlDeviceGetClockOffsets(device, info):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetClockOffsets");
+    ret = fn(device, info)
+    return NVML_SUCCESS
+
+def nvmlDeviceSetClockOffsets(device, info):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetClockOffsets");
+    ret = fn(device, info)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetSupportedPerformanceStates(device):
+    pstates = []
+    c_count = c_uint(NVML_MAX_GPU_PERF_PSTATES)
+    c_size = sizeof(c_uint)*c_count.value
+
+    # NOTE: use 'c_uint' to represent the size of the nvmlPstate_t enumeration.
+    pstates_array = _nvmlPstates_t * c_count.value
+    c_pstates = pstates_array()
+
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSupportedPerformanceStates")
+    ret = fn(device, c_pstates, c_size)
+    _nvmlCheckReturn(ret)
+
+    for value in c_pstates:
+        if value != NVML_PSTATE_UNKNOWN:
+            pstates.append(value)
+
+    return pstates
+
+def nvmlDeviceGetGpcClkVfOffset(device):
+    offset = c_int32()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpcClkVfOffset")
+    ret = fn(device, byref(offset))
+    _nvmlCheckReturn(ret)
+    return offset.value
+
+def nvmlDeviceSetGpcClkVfOffset(device, offset):
+    c_offset = c_int32(offset)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetGpcClkVfOffset")
+    ret = fn(device, c_offset)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetGpcClkMinMaxVfOffset(device, minOffset=c_int(), maxOffset=c_int()):
+    isReference = (type(minOffset) is not c_int) or (type(maxOffset) is not c_int)
+    minOffsetRef = minOffset if isReference else byref(minOffset)
+    maxOffsetRef = maxOffset if isReference else byref(maxOffset)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpcClkMinMaxVfOffset")
+    ret = fn(device, minOffsetRef, maxOffsetRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else (minOffset.value, maxOffset.value)
+
+def nvmlDeviceGetMemClkVfOffset(device):
+    offset = c_int32()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemClkVfOffset")
+    ret = fn(device, byref(offset))
+    _nvmlCheckReturn(ret)
+    return offset.value
+
+def nvmlDeviceSetMemClkVfOffset(device, offset):
+    c_offset = c_int32(offset)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetMemClkVfOffset")
+    ret = fn(device, c_offset)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetMemClkMinMaxVfOffset(device, minOffset=c_int(), maxOffset=c_int()):
+    isReference = (type(minOffset) is not c_int) or (type(maxOffset) is not c_int)
+    minOffsetRef = minOffset if isReference else byref(minOffset)
+    maxOffsetRef = maxOffset if isReference else byref(maxOffset)
+
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetMemClkMinMaxVfOffset")
+    ret = fn(device, minOffsetRef, maxOffsetRef)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS if isReference else (minOffset.value, maxOffset.value)
+
+def nvmlSystemSetConfComputeGpusReadyState(state):
+    c_state = c_uint(state)
+    fn = _nvmlGetFunctionPointer("nvmlSystemSetConfComputeGpusReadyState")
+    ret = fn(c_state)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlSystemGetConfComputeGpusReadyState():
+    c_state = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetConfComputeGpusReadyState")
+    ret = fn(byref(c_state))
+    _nvmlCheckReturn(ret)
+    return c_state.value
+
+def nvmlSystemGetConfComputeCapabilities():
+    c_ccSysCaps = c_nvmlConfComputeSystemCaps_t()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetConfComputeCapabilities")
+    ret = fn(byref(c_ccSysCaps))
+    _nvmlCheckReturn(ret)
+    return c_ccSysCaps
+
+def nvmlSystemGetConfComputeState():
+    c_state = c_nvmlConfComputeSystemState_t()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetConfComputeState")
+    ret = fn(byref(c_state))
+    _nvmlCheckReturn(ret)
+    return c_state
+
+def nvmlSystemGetConfComputeSettings(settings):
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetConfComputeSettings")
+    return fn(settings)
+
+def nvmlDeviceSetConfComputeUnprotectedMemSize(device, c_ccMemSize):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetConfComputeUnprotectedMemSize")
+    ret = fn(device, c_ccMemSize)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetConfComputeMemSizeInfo(device):
+    c_ccMemSize = c_nvmlConfComputeMemSizeInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetConfComputeMemSizeInfo")
+    ret = fn(device, byref(c_ccMemSize))
+    _nvmlCheckReturn(ret)
+    return c_ccMemSize
+
+def nvmlDeviceGetConfComputeProtectedMemoryUsage(device):
+    c_memory = c_nvmlMemory_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetConfComputeProtectedMemoryUsage")
+    ret = fn(device, byref(c_memory))
+    _nvmlCheckReturn(ret)
+    return c_memory
+
+def nvmlDeviceGetConfComputeGpuCertificate(device):
+    c_cert = c_nvmlConfComputeGpuCertificate_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetConfComputeGpuCertificate")
+    ret = fn(device, byref(c_cert))
+    _nvmlCheckReturn(ret)
+    return c_cert
+
+def nvmlDeviceGetConfComputeGpuAttestationReport(device, c_nonce):
+    c_attestReport = c_nvmlConfComputeGpuAttestationReport_t()
+    c_nonce_arr = (c_uint8 * len(c_nonce))(*(c_nonce))
+    setattr(c_attestReport, 'nonce', c_nonce_arr)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetConfComputeGpuAttestationReport")
+    ret = fn(device, byref(c_attestReport))
+    _nvmlCheckReturn(ret)
+    return c_attestReport
+
+def nvmlSystemSetConfComputeKeyRotationThresholdInfo(max_atk_adv):
+    c_keyRotationThrInfo = c_nvmlConfComputeSetKeyRotationThresholdInfo_t(0)
+    c_keyRotationThrInfo.version = ConfComputeSetKeyRotationThresholdInfo_v1
+    c_keyRotationThrInfo.maxAttackerAdvantage = max_atk_adv
+    fn = _nvmlGetFunctionPointer("nvmlSystemSetConfComputeKeyRotationThresholdInfo")
+    ret = fn(byref(c_keyRotationThrInfo))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlSystemGetConfComputeKeyRotationThresholdInfo():
+    c_keyRotationThrInfo = c_nvmlConfComputeGetKeyRotationThresholdInfo_t(0)
+    c_keyRotationThrInfo.version = ConfComputeGetKeyRotationThresholdInfo_v1
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetConfComputeKeyRotationThresholdInfo")
+    ret = fn(byref(c_keyRotationThrInfo))
+    _nvmlCheckReturn(ret)
+    return c_keyRotationThrInfo
+
+## GPM ##
+#########
+
+## Enums/defines
+
+#### GPM Metric Identifiers
+NVML_GPM_METRIC_GRAPHICS_UTIL               = 1 # Percentage of time any compute/graphics app was active on the GPU. 0.0 - 100.0
+NVML_GPM_METRIC_SM_UTIL                     = 2 # Percentage of SMs that were busy. 0.0 - 100.0
+NVML_GPM_METRIC_SM_OCCUPANCY                = 3 # Percentage of warps that were active vs theoretical maximum. 0.0 - 100.0
+NVML_GPM_METRIC_INTEGER_UTIL                = 4 # Percentage of time the GPU's SMs were doing integer operations. 0.0 - 100.0
+NVML_GPM_METRIC_ANY_TENSOR_UTIL             = 5 # Percentage of time the GPU's SMs were doing ANY tensor operations. 0.0 - 100.0
+NVML_GPM_METRIC_DFMA_TENSOR_UTIL            = 6 # Percentage of time the GPU's SMs were doing DFMA tensor operations. 0.0 - 100.0
+NVML_GPM_METRIC_HMMA_TENSOR_UTIL            = 7 # Percentage of time the GPU's SMs were doing HMMA tensor operations. 0.0 - 100.0
+NVML_GPM_METRIC_IMMA_TENSOR_UTIL            = 9 # Percentage of time the GPU's SMs were doing IMMA tensor operations. 0.0 - 100.0
+NVML_GPM_METRIC_DRAM_BW_UTIL                = 10 # Percentage of DRAM bw used vs theoretical maximum. 0.0 - 100.0
+NVML_GPM_METRIC_FP64_UTIL                   = 11 # Percentage of time the GPU's SMs were doing non-tensor FP64 math. 0.0 - 100.0
+NVML_GPM_METRIC_FP32_UTIL                   = 12 # Percentage of time the GPU's SMs were doing non-tensor FP32 math. 0.0 - 100.0
+NVML_GPM_METRIC_FP16_UTIL                   = 13 # Percentage of time the GPU's SMs were doing non-tensor FP16 math. 0.0 - 100.0
+NVML_GPM_METRIC_PCIE_TX_PER_SEC             = 20 # PCIe traffic from this GPU in MiB/sec
+NVML_GPM_METRIC_PCIE_RX_PER_SEC             = 21 # PCIe traffic to this GPU in MiB/sec
+NVML_GPM_METRIC_NVDEC_0_UTIL                = 30 # Percent utilization of NVDEC 0. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_1_UTIL                = 31 # Percent utilization of NVDEC 1. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_2_UTIL                = 32 # Percent utilization of NVDEC 2. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_3_UTIL                = 33 # Percent utilization of NVDEC 3. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_4_UTIL                = 34 # Percent utilization of NVDEC 4. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_5_UTIL                = 35 # Percent utilization of NVDEC 5. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_6_UTIL                = 36 # Percent utilization of NVDEC 6. 0.0 - 100.0
+NVML_GPM_METRIC_NVDEC_7_UTIL                = 37 # Percent utilization of NVDEC 7. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_0_UTIL                = 40 # Percent utilization of NVJPG 0. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_1_UTIL                = 41 # Percent utilization of NVJPG 1. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_2_UTIL                = 42 # Percent utilization of NVJPG 2. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_3_UTIL                = 43 # Percent utilization of NVJPG 3. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_4_UTIL                = 44 # Percent utilization of NVJPG 4. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_5_UTIL                = 45 # Percent utilization of NVJPG 5. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_6_UTIL                = 46 # Percent utilization of NVJPG 6. 0.0 - 100.0
+NVML_GPM_METRIC_NVJPG_7_UTIL                = 47 # Percent utilization of NVJPG 7. 0.0 - 100.0
+NVML_GPM_METRIC_NVOFA_0_UTIL                = 50 # Percent utilization of NVOFA 0. 0.0 - 100.0
+NVML_GPM_METRIC_NVOFA_1_UTIL                = 51 # Percent utilization of NVOFA 1. 0.0 - 100.0
+NVML_GPM_METRIC_NVLINK_TOTAL_RX_PER_SEC     = 60 # NvLink read bandwidth for all links in MiB/sec
+NVML_GPM_METRIC_NVLINK_TOTAL_TX_PER_SEC     = 61 # NvLink write bandwidth for all links in MiB/sec
+NVML_GPM_METRIC_NVLINK_L0_RX_PER_SEC        = 62 # NvLink read bandwidth for link 0 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L0_TX_PER_SEC        = 63 # NvLink write bandwidth for link 0 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L1_RX_PER_SEC        = 64 # NvLink read bandwidth for link 1 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L1_TX_PER_SEC        = 65 # NvLink write bandwidth for link 1 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L2_RX_PER_SEC        = 66 # NvLink read bandwidth for link 2 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L2_TX_PER_SEC        = 67 # NvLink write bandwidth for link 2 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L3_RX_PER_SEC        = 68 # NvLink read bandwidth for link 3 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L3_TX_PER_SEC        = 69 # NvLink write bandwidth for link 3 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L4_RX_PER_SEC        = 70 # NvLink read bandwidth for link 4 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L4_TX_PER_SEC        = 71 # NvLink write bandwidth for link 4 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L5_RX_PER_SEC        = 72 # NvLink read bandwidth for link 5 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L5_TX_PER_SEC        = 73 # NvLink write bandwidth for link 5 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L6_RX_PER_SEC        = 74 # NvLink read bandwidth for link 6 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L6_TX_PER_SEC        = 75 # NvLink write bandwidth for link 6 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L7_RX_PER_SEC        = 76 # NvLink read bandwidth for link 7 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L7_TX_PER_SEC        = 77 # NvLink write bandwidth for link 7 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L8_RX_PER_SEC        = 78 # NvLink read bandwidth for link 8 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L8_TX_PER_SEC        = 79 # NvLink write bandwidth for link 8 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L9_RX_PER_SEC        = 80 # NvLink read bandwidth for link 9 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L9_TX_PER_SEC        = 81 # NvLink write bandwidth for link 9 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L10_RX_PER_SEC       = 82 # NvLink read bandwidth for link 10 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L10_TX_PER_SEC       = 83 # NvLink write bandwidth for link 10 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L11_RX_PER_SEC       = 84 # NvLink read bandwidth for link 11 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L11_TX_PER_SEC       = 85 # NvLink write bandwidth for link 11 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L12_RX_PER_SEC       = 86 # NvLink read bandwidth for link 12 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L12_TX_PER_SEC       = 87 # NvLink write bandwidth for link 12 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L13_RX_PER_SEC       = 88 # NvLink read bandwidth for link 13 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L13_TX_PER_SEC       = 89 # NvLink write bandwidth for link 13 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L14_RX_PER_SEC       = 90 # NvLink read bandwidth for link 14 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L14_TX_PER_SEC       = 91 # NvLink write bandwidth for link 14 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L15_RX_PER_SEC       = 92 # NvLink read bandwidth for link 15 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L15_TX_PER_SEC       = 93 # NvLink write bandwidth for link 15 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L16_RX_PER_SEC       = 94 # NvLink read bandwidth for link 16 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L16_TX_PER_SEC       = 95 # NvLink write bandwidth for link 16 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L17_RX_PER_SEC       = 96 # NvLink read bandwidth for link 17 in MiB/sec
+NVML_GPM_METRIC_NVLINK_L17_TX_PER_SEC       = 97 # NvLink write bandwidth for link 17 in MiB/sec
+NVML_GPM_METRIC_MAX                         = 98
+
+## Structs
+
+class c_nvmlUnitInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('name', c_char * 96),
+        ('id', c_char * 96),
+        ('serial', c_char * 96),
+        ('firmwareVersion', c_char * 96),
+    ]
+
+class struct_c_nvmlGpmSample_t(Structure):
+    pass # opaque handle
+c_nvmlGpmSample_t = POINTER(struct_c_nvmlGpmSample_t)
+
+class c_metricInfo_t(Structure):
+    _fields_ = [
+        ("shortName", c_char_p),
+        ("longName", c_char_p),
+        ("unit", c_char_p),
+    ]
+
+class c_nvmlGpmMetric_t(_PrintableStructure):
+    _fields_ = [
+        ('metricId', c_uint),
+        ('nvmlReturn', _nvmlReturn_t),
+        ('value', c_double),
+        ('metricInfo', c_metricInfo_t)
+    ]
+
+class c_nvmlGpmMetricsGet_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('numMetrics', c_uint),
+        ('sample1', c_nvmlGpmSample_t),
+        ('sample2', c_nvmlGpmSample_t),
+        ('metrics', c_nvmlGpmMetric_t * NVML_GPM_METRIC_MAX)
+    ]
+
+NVML_GPM_METRICS_GET_VERSION = 1
+
+class c_nvmlGpmSupport_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('isSupportedDevice', c_uint),
+    ]
+
+NVML_GPM_SUPPORT_VERSION = 1
+
+## Functions
+
+def nvmlGpmMetricsGet(metricsGet):
+    fn = _nvmlGetFunctionPointer("nvmlGpmMetricsGet")
+    ret = fn(byref(metricsGet))
+    _nvmlCheckReturn(ret)
+    return metricsGet
+
+def nvmlGpmSampleFree(gpmSample):
+    fn = _nvmlGetFunctionPointer("nvmlGpmSampleFree")
+    ret = fn(gpmSample)
+    _nvmlCheckReturn(ret)
+    return
+
+def nvmlGpmSampleAlloc():
+    gpmSample = c_nvmlGpmSample_t()
+    fn = _nvmlGetFunctionPointer("nvmlGpmSampleAlloc")
+    ret = fn(byref(gpmSample))
+    _nvmlCheckReturn(ret)
+    return gpmSample
+
+def nvmlGpmSampleGet(device, gpmSample):
+    fn = _nvmlGetFunctionPointer("nvmlGpmSampleGet")
+    ret = fn(device, gpmSample)
+    _nvmlCheckReturn(ret)
+    return gpmSample
+
+def nvmlGpmMigSampleGet(device, gpuInstanceId, gpmSample):
+    fn = _nvmlGetFunctionPointer("nvmlGpmMigSampleGet")
+    ret = fn(device, gpuInstanceId, gpmSample)
+    _nvmlCheckReturn(ret)
+    return gpmSample
+
+def nvmlGpmQueryDeviceSupport(device):
+    gpmSupport = c_nvmlGpmSupport_t()
+    gpmSupport.version = NVML_GPM_SUPPORT_VERSION
+    fn = _nvmlGetFunctionPointer("nvmlGpmQueryDeviceSupport")
+    ret = fn(device, byref(gpmSupport))
+    _nvmlCheckReturn(ret)
+    return gpmSupport
+
+def nvmlGpmSetStreamingEnabled(device, state):
+    c_state = c_uint(state)
+    fn = _nvmlGetFunctionPointer("nvmlGpmSetStreamingEnabled")
+    ret = fn(device, c_state)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlGpmQueryIfStreamingEnabled(device):
+    c_state = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlGpmQueryIfStreamingEnabled")
+    ret = fn(device, byref(c_state))
+    _nvmlCheckReturn(ret)
+    return c_state.value
+
+# Low Power Structure and Function
+
+NVML_NVLINK_POWER_STATE_HIGH_SPEED    = 0x0
+NVML_NVLINK_POWER_STATE_LOW           = 0x1
+
+NVML_NVLINK_LOW_POWER_THRESHOLD_MIN     = 0x1
+NVML_NVLINK_LOW_POWER_THRESHOLD_MAX     = 0x1FFF
+NVML_NVLINK_LOW_POWER_THRESHOLD_RESET   = 0xFFFFFFFF
+NVML_NVLINK_LOW_POWER_THRESHOLD_DEFAULT = NVML_NVLINK_LOW_POWER_THRESHOLD_RESET
+
+class c_nvmlNvLinkPowerThres_t(Structure):
+    _fields_ = [
+        ("lowPwrThreshold", c_uint),
+    ]
+
+def nvmlDeviceSetNvLinkDeviceLowPowerThreshold(device, l1threshold):
+    c_info = c_nvmlNvLinkPowerThres_t()
+    c_info.lowPwrThreshold = l1threshold
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetNvLinkDeviceLowPowerThreshold")
+    ret = fn(device, byref(c_info))
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+NVML_GPU_FABRIC_UUID_LEN = 16
+
+_nvmlGpuFabricState_t = c_uint
+NVML_GPU_FABRIC_STATE_NOT_SUPPORTED = 0
+NVML_GPU_FABRIC_STATE_NOT_STARTED   = 1
+NVML_GPU_FABRIC_STATE_IN_PROGRESS   = 2
+NVML_GPU_FABRIC_STATE_COMPLETED     = 3
+
+class c_nvmlGpuFabricInfo_t(_PrintableStructure):
+    _fields_ = [
+        ("clusterUuid", c_char * NVML_DEVICE_UUID_BUFFER_SIZE),
+        ("status", _nvmlReturn_t),
+        ("cliqueId", c_uint32),
+        ("state", _nvmlGpuFabricState_t)
+    ]
+
+NVML_GPU_FABRIC_HEALTH_MASK_DEGRADED_BW_NOT_SUPPORTED = 0
+NVML_GPU_FABRIC_HEALTH_MASK_DEGRADED_BW_TRUE          = 1
+NVML_GPU_FABRIC_HEALTH_MASK_DEGRADED_BW_FALSE         = 2
+NVML_GPU_FABRIC_HEALTH_MASK_SHIFT_DEGRADED_BW         = 0
+NVML_GPU_FABRIC_HEALTH_MASK_WIDTH_DEGRADED_BW         = 0x11
+
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_RECOVERY_NOT_SUPPORTED   = 0
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_RECOVERY_TRUE            = 1
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_RECOVERY_FALSE           = 2
+NVML_GPU_FABRIC_HEALTH_MASK_SHIFT_ROUTE_RECOVERY           = 2
+NVML_GPU_FABRIC_HEALTH_MASK_WIDTH_ROUTE_RECOVERY           = 0x11
+
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_UNHEALTHY_NOT_SUPPORTED  = 0
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_UNHEALTHY_TRUE           = 1
+NVML_GPU_FABRIC_HEALTH_MASK_ROUTE_UNHEALTHY_FALSE          = 2
+NVML_GPU_FABRIC_HEALTH_MASK_SHIFT_ROUTE_UNHEALTHY          = 4
+NVML_GPU_FABRIC_HEALTH_MASK_WIDTH_ROUTE_UNHEALTHY          = 0x11
+
+NVML_GPU_FABRIC_HEALTH_MASK_ACCESS_TIMEOUT_RECOVERY_NOT_SUPPORTED = 0
+NVML_GPU_FABRIC_HEALTH_MASK_ACCESS_TIMEOUT_RECOVERY_TRUE          = 1
+NVML_GPU_FABRIC_HEALTH_MASK_ACCESS_TIMEOUT_RECOVERY_FALSE         = 2
+NVML_GPU_FABRIC_HEALTH_MASK_SHIFT_ACCESS_TIMEOUT_RECOVERY         = 6
+NVML_GPU_FABRIC_HEALTH_MASK_WIDTH_ACCESS_TIMEOUT_RECOVERY         = 0x11
+
+nvmlGpuFabricInfo_v2 = 0x02000024
+
+class c_nvmlGpuFabricInfoV_t(_PrintableStructure):
+    _fields_ = [
+        ("version", c_uint),
+        ("clusterUuid", c_char * NVML_GPU_FABRIC_UUID_LEN),
+        ("status", _nvmlReturn_t),
+        ("cliqueId", c_uint32),
+        ("state", _nvmlGpuFabricState_t),
+        ("healthMask", c_uint32)
+    ]
+
+    def __init__(self):
+        super(c_nvmlGpuFabricInfoV_t, self).__init__(version=nvmlGpuFabricInfo_v2)
+
+def nvmlDeviceGetGpuFabricInfo(device, gpuFabricInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuFabricInfo");
+    ret = fn(device, gpuFabricInfo)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetGpuFabricInfoV(device, gpuFabricInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetGpuFabricInfoV");
+    ret = fn(device, gpuFabricInfo)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+######################
+## Enums/defines
+#### NVML GPU NVLINK BW MODE
+NVML_GPU_NVLINK_BW_MODE_FULL      = 0x0
+NVML_GPU_NVLINK_BW_MODE_OFF       = 0x1
+NVML_GPU_NVLINK_BW_MODE_MIN       = 0x2
+NVML_GPU_NVLINK_BW_MODE_HALF      = 0x3
+NVML_GPU_NVLINK_BW_MODE_3QUARTER  = 0x4
+NVML_GPU_NVLINK_BW_MODE_COUNT     = 0x5
+
+def nvmlSystemSetNvlinkBwMode(mode):
+    fn = _nvmlGetFunctionPointer("nvmlSystemSetNvlinkBwMode")
+    ret = fn(mode)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlSystemGetNvlinkBwMode():
+    mode = c_uint()
+    fn = _nvmlGetFunctionPointer("nvmlSystemGetNvlinkBwMode")
+    ret = fn(byref(mode))
+    _nvmlCheckReturn(ret)
+    return mode.value
+
+_nvmlPowerScopeType_t = c_uint
+NVML_POWER_SCOPE_GPU     = 0
+NVML_POWER_SCOPE_MODULE  = 1
+NVML_POWER_SCOPE_MEMORY  = 2
+
+class c_nvmlPowerValue_v2_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('powerScope', _nvmlPowerScopeType_t),
+        ('powerValueMw', c_uint),
+    ]
+    _fmt_ = {'<default>': "%d B"}
+
+nvmlPowerValue_v2 = 0x0200000C
+
+def nvmlDeviceSetPowerManagementLimit_v2(device, powerScope, powerLimit, version=nvmlPowerValue_v2):
+    c_powerScope = _nvmlPowerScopeType_t(powerScope)
+    c_powerValue = c_nvmlPowerValue_v2_t()
+    c_powerValue.version = c_uint(version)
+    c_powerValue.powerScope = c_powerScope
+    c_powerValue.powerValueMw = c_uint(powerLimit)
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetPowerManagementLimit_v2")
+    ret = fn(device, byref(c_powerValue))
+    return NVML_SUCCESS
+
+class c_nvmlEccSramErrorStatus_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('aggregateUncParity', c_ulonglong),
+        ('aggregateUncSecDed', c_ulonglong),
+        ('aggregateCor', c_ulonglong),
+        ('volatileUncParity', c_ulonglong),
+        ('volatileUncSecDed', c_ulonglong),
+        ('volatileCor', c_ulonglong),
+        ('aggregateUncBucketL2', c_ulonglong),
+        ('aggregateUncBucketSm', c_ulonglong),
+        ('aggregateUncBucketPcie', c_ulonglong),
+        ('aggregateUncBucketMcu', c_ulonglong),
+        ('aggregateUncBucketOther', c_ulonglong),
+        ('bThresholdExceeded', c_uint)
+    ]
+
+    def __init__(self):
+        super(c_nvmlEccSramErrorStatus_v1_t, self).__init__(version=nvmlEccSramErrorStatus_v1)
+
+nvmlEccSramErrorStatus_v1 = 0x1000068
+def nvmlDeviceGetSramEccErrorStatus(device, status):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetSramEccErrorStatus")
+    ret = fn(device, status)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+NVML_DEV_CAP_EGM = (1 << 0)
+nvmlDeviceCapabilities_v1 = 0x1000008
+
+class c_nvmlDeviceCapabilities_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('capMask', c_uint),
+    ]
+
+    def __init__(self):
+        super(c_nvmlDeviceCapabilities_v1_t, self).__init__(version=nvmlDeviceCapabilities_v1)
+
+
+def nvmlDeviceGetCapabilities(device, caps):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetCapabilities")
+    return fn(device, caps)
+
+class c_nvmlPlatformInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('ibGuid', c_char * 16),
+        ('rackGuid', c_char * 16),
+        ('chassisPhysicalSlotNumber', c_char),
+        ('computeSlotIndex', c_char),
+        ('nodeIndex', c_char),
+        ('peerType', c_char),
+        ('moduleId', c_char)
+    ]
+
+    def __init__(self):
+        super(c_nvmlPlatformInfo_v1_t, self).__init__(version=nvmlPlatformInfo_v1)
+
+nvmlPlatformInfo_v1 = 0x100002c
+def nvmlDeviceGetPlatformInfo(device, platformInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetPlatformInfo")
+    ret = fn(device, platformInfo)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+class c_nvmlMask255_t(_PrintableStructure):
+    _fields_ = [
+        ('mask', c_uint * 8),
+    ]
+
+NVML_WORKLOAD_POWER_MAX_PROFILES    = 255
+NVML_POWER_PROFILE_MAX_P            = 0
+NVML_POWER_PROFILE_MAX_Q            = 1
+NVML_POWER_PROFILE_COMPUTE          = 2
+NVML_POWER_PROFILE_MEMORY_BOUND     = 3
+NVML_POWER_PROFILE_NETWORK          = 4
+NVML_POWER_PROFILE_BALANCED         = 5
+NVML_POWER_PROFILE_LLM_INFERENCE    = 6
+NVML_POWER_PROFILE_LLM_TRAINING     = 7
+NVML_POWER_PROFILE_RBM              = 8
+NVML_POWER_PROFILE_DCPCIE           = 9
+NVML_POWER_PROFILE_HMMA_SPARSE      = 10
+NVML_POWER_PROFILE_HMMA_DENSE       = 11
+NVML_POWER_PROFILE_SYNC_BALANCED    = 12
+NVML_POWER_PROFILE_HPC              = 13
+NVML_POWER_PROFILE_MIG              = 14
+NVML_POWER_PROFILE_MAX              = 15
+
+nvmlWorkloadPowerProfileInfo_v1 = 0x100002c
+class c_nvmlWorkloadPowerProfileInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('profileId', c_uint),
+        ('priority', c_uint),
+        ('conflictingmask', c_nvmlMask255_t)
+    ]
+
+    def __init__(self):
+        super(c_nvmlWorkloadPowerProfileInfo_v1_t, self).__init__(version=nvmlWorkloadPowerProfileInfo_v1)
+
+nvmlWorkloadPowerProfileProfilesInfo_v1 = 0x1002bf8
+class c_nvmlWorkloadPowerProfileProfilesInfo_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('perfProfilesMask', c_nvmlMask255_t),
+        ('perfProfile', c_nvmlWorkloadPowerProfileInfo_v1_t * NVML_WORKLOAD_POWER_MAX_PROFILES)
+    ]
+
+    def __init__(self):
+        super(c_nvmlWorkloadPowerProfileProfilesInfo_v1_t, self).__init__(version=nvmlWorkloadPowerProfileProfilesInfo_v1)
+
+nvmlWorkloadPowerProfileCurrentProfiles_v1 = 0x1000064
+class c_nvmlWorkloadPowerProfileCurrentProfiles_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('perfProfilesMask', c_nvmlMask255_t),
+        ('requestedProfilesMask', c_nvmlMask255_t),
+        ('enforcedProfilesMask', c_nvmlMask255_t)
+    ]
+
+    def __init__(self):
+        super(c_nvmlWorkloadPowerProfileCurrentProfiles_v1_t, self).__init__(version=nvmlWorkloadPowerProfileCurrentProfiles_v1)
+
+nvmlWorkloadPowerProfileRequestedProfiles_v1 = 0x1000024
+class c_nvmlWorkloadPowerProfileRequestedProfiles_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('requestedProfilesMask', c_nvmlMask255_t),
+    ]
+
+    def __init__(self):
+        super(c_nvmlWorkloadPowerProfileRequestedProfiles_v1_t, self).__init__(version=nvmlWorkloadPowerProfileRequestedProfiles_v1)
+
+def nvmlDeviceWorkloadPowerProfileGetProfilesInfo(device, profilesInfo):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceWorkloadPowerProfileGetProfilesInfo")
+    ret = fn(device, profilesInfo)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceWorkloadPowerProfileGetCurrentProfiles(device, currentProfiles):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceWorkloadPowerProfileGetCurrentProfiles")
+    ret = fn(device, currentProfiles)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceWorkloadPowerProfileSetRequestedProfiles(device, requestedProfiles):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceWorkloadPowerProfileSetRequestedProfiles")
+    ret = fn(device, requestedProfiles)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceWorkloadPowerProfileClearRequestedProfiles(device, requestedProfiles):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceWorkloadPowerProfileClearRequestedProfiles")
+    ret = fn(device, requestedProfiles)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetNvlinkSupportedBwModes(device, supportedBwModes):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvlinkSupportedBwModes")
+    ret = fn(device, supportedBwModes)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceGetNvlinkBwMode(device, getBwMode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetNvlinkBwMode")
+    ret = fn(device, getBwMode)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+def nvmlDeviceSetNvlinkBwMode(device, setBwMode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetNvlinkBwMode")
+    ret = fn(device, setBwMode)
+    _nvmlCheckReturn(ret)
+    return NVML_SUCCESS
+
+nvmlDramEncryptionInfo_v1 = 0x01000008
+
+class c_nvmlDramEncryptionInfo_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('encryptionState',  _nvmlEnableState_t),
+    ]
+
+    def __init__(self):
+        super(c_nvmlDramEncryptionInfo_t, self).__init__(version=nvmlDramEncryptionInfo_v1)
+
+def nvmlDeviceGetDramEncryptionMode(handle):
+    c_currState = c_nvmlDramEncryptionInfo_t()
+    c_pendingState = c_nvmlDramEncryptionInfo_t()
+    fn = _nvmlGetFunctionPointer("nvmlDeviceGetDramEncryptionMode")
+    ret = fn(handle, byref(c_currState), byref(c_pendingState))
+    _nvmlCheckReturn(ret)
+    return [c_currState.encryptionState, c_pendingState.encryptionState]
+
+# added to API
+def nvmlDeviceGetCurrentDramEncryptionMode(handle):
+    return nvmlDeviceGetDramEncryptionMode(handle)[0]
+
+# added to API
+def nvmlDeviceGetPendingDramEncryptionMode(handle):
+    return nvmlDeviceGetDramEncryptionMode(handle)[1]
+
+def nvmlDeviceSetDramEncryptionMode(handle, mode):
+    fn = _nvmlGetFunctionPointer("nvmlDeviceSetDramEncryptionMode")
+    c_dramEncryptionMode = c_nvmlDramEncryptionInfo_t()
+    c_dramEncryptionMode.encryptionState = mode;
+    ret = fn(handle, byref(c_dramEncryptionMode))
+    _nvmlCheckReturn(ret)
+    return None
+
+# Power Smoothing defines
+NVML_POWER_SMOOTHING_MAX_NUM_PROFILES                   = 5
+NVML_POWER_SMOOTHING_ADMIN_OVERRIDE_NOT_SET             = 0xFFFFFFFF
+NVML_POWER_SMOOTHING_PROFILE_PARAM_PERCENT_TMP_FLOOR    = 0
+NVML_POWER_SMOOTHING_PROFILE_PARAM_RAMP_UP_RATE         = 1
+NVML_POWER_SMOOTHING_PROFILE_PARAM_RAMP_DOWN_RATE       = 2
+NVML_POWER_SMOOTHING_PROFILE_PARAM_RAMP_DOWN_HYSTERESIS = 3
+
+nvmlPowerSmoothingState_v1=0x1000008
+class c_nvmlPowerSmoothingState_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('state', c_uint),
+    ]
+
+    def __init__(self):
+        super(c_nvmlPowerSmoothingState_v1_t, self).__init__(version=nvmlPowerSmoothingState_v1)
+
+nvmlPowerSmoothingProfile_v1=0x1000018
+class c_nvmlPowerSmoothingProfile_v1_t(_PrintableStructure):
+    _fields_ = [
+        ('version', c_uint),
+        ('profileId', c_uint),
+        ('paramId', c_uint),
+        ('value', c_double),
+    ]
+
+    def __init__(self):
+        super(c_nvmlPowerSmoothingProfile_v1_t, self).__init__(version=nvmlPowerSmoothingProfile_v1)
+
+def nvmlDevicePowerSmoothingActivatePresetProfile(device, profile):
+    fn = _nvmlGetFunctionPointer("nvmlDevicePowerSmoothingActivatePresetProfile")
+    ret = fn(device, profile)
+    _nvmlCheckReturn(ret)
+
+def nvmlDevicePowerSmoothingUpdatePresetProfileParam(device, profile):
+    fn = _nvmlGetFunctionPointer("nvmlDevicePowerSmoothingUpdatePresetProfileParam")
+    ret = fn(device, profile)
+    _nvmlCheckReturn(ret)
+
+def nvmlDevicePowerSmoothingSetState(device, state):
+    fn = _nvmlGetFunctionPointer("nvmlDevicePowerSmoothingSetState")
+    ret = fn(device, state)
+    _nvmlCheckReturn(ret)
+
diff --git a/tracing.py b/tracing.py
new file mode 100644
index 0000000..01bbebf
--- /dev/null
+++ b/tracing.py
@@ -0,0 +1,135 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from collections.abc import Mapping
+
+from vllm.logger import init_logger
+from vllm.utils.func_utils import run_once
+
+TRACE_HEADERS = ["traceparent", "tracestate"]
+
+logger = init_logger(__name__)
+
+_is_otel_imported = False
+otel_import_error_traceback: str | None = None
+try:
+    from opentelemetry.context.context import Context
+    from opentelemetry.sdk.environment_variables import (
+        OTEL_EXPORTER_OTLP_TRACES_PROTOCOL,
+    )
+    from opentelemetry.sdk.trace import TracerProvider
+    from opentelemetry.sdk.trace.export import BatchSpanProcessor
+    from opentelemetry.trace import SpanKind, Tracer, set_tracer_provider
+    from opentelemetry.trace.propagation.tracecontext import (
+        TraceContextTextMapPropagator,
+    )
+
+    _is_otel_imported = True
+except ImportError:
+    # Capture and format traceback to provide detailed context for the import
+    # error. Only the string representation of the error is retained to avoid
+    # memory leaks.
+    # See https://github.com/vllm-project/vllm/pull/7266#discussion_r1707395458
+    import traceback
+
+    otel_import_error_traceback = traceback.format_exc()
+
+    class Context:  # type: ignore
+        pass
+
+    class BaseSpanAttributes:  # type: ignore
+        pass
+
+    class SpanKind:  # type: ignore
+        pass
+
+    class Tracer:  # type: ignore
+        pass
+
+
+def is_otel_available() -> bool:
+    return _is_otel_imported
+
+
+def init_tracer(
+    instrumenting_module_name: str, otlp_traces_endpoint: str
+) -> Tracer | None:
+    if not is_otel_available():
+        raise ValueError(
+            "OpenTelemetry is not available. Unable to initialize "
+            "a tracer. Ensure OpenTelemetry packages are installed. "
+            f"Original error:\n{otel_import_error_traceback}"
+        )
+    trace_provider = TracerProvider()
+
+    span_exporter = get_span_exporter(otlp_traces_endpoint)
+    trace_provider.add_span_processor(BatchSpanProcessor(span_exporter))
+    set_tracer_provider(trace_provider)
+
+    tracer = trace_provider.get_tracer(instrumenting_module_name)
+    return tracer
+
+
+def get_span_exporter(endpoint):
+    protocol = os.environ.get(OTEL_EXPORTER_OTLP_TRACES_PROTOCOL, "grpc")
+    if protocol == "grpc":
+        from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import (
+            OTLPSpanExporter,
+        )
+    elif protocol == "http/protobuf":
+        from opentelemetry.exporter.otlp.proto.http.trace_exporter import (
+            OTLPSpanExporter,  # type: ignore
+        )
+    else:
+        raise ValueError(f"Unsupported OTLP protocol '{protocol}' is configured")
+
+    return OTLPSpanExporter(endpoint=endpoint)
+
+
+def extract_trace_context(headers: Mapping[str, str] | None) -> Context | None:
+    if is_otel_available():
+        headers = headers or {}
+        return TraceContextTextMapPropagator().extract(headers)
+    else:
+        return None
+
+
+def extract_trace_headers(headers: Mapping[str, str]) -> Mapping[str, str]:
+    return {h: headers[h] for h in TRACE_HEADERS if h in headers}
+
+
+class SpanAttributes:
+    # Attribute names copied from here to avoid version conflicts:
+    # https://github.com/open-telemetry/semantic-conventions/blob/main/docs/gen-ai/gen-ai-spans.md
+    GEN_AI_USAGE_COMPLETION_TOKENS = "gen_ai.usage.completion_tokens"
+    GEN_AI_USAGE_PROMPT_TOKENS = "gen_ai.usage.prompt_tokens"
+    GEN_AI_REQUEST_MAX_TOKENS = "gen_ai.request.max_tokens"
+    GEN_AI_REQUEST_TOP_P = "gen_ai.request.top_p"
+    GEN_AI_REQUEST_TEMPERATURE = "gen_ai.request.temperature"
+    GEN_AI_RESPONSE_MODEL = "gen_ai.response.model"
+    # Attribute names added until they are added to the semantic conventions:
+    GEN_AI_REQUEST_ID = "gen_ai.request.id"
+    GEN_AI_REQUEST_N = "gen_ai.request.n"
+    GEN_AI_USAGE_NUM_SEQUENCES = "gen_ai.usage.num_sequences"
+    GEN_AI_LATENCY_TIME_IN_QUEUE = "gen_ai.latency.time_in_queue"
+    GEN_AI_LATENCY_TIME_TO_FIRST_TOKEN = "gen_ai.latency.time_to_first_token"
+    GEN_AI_LATENCY_E2E = "gen_ai.latency.e2e"
+    GEN_AI_LATENCY_TIME_IN_SCHEDULER = "gen_ai.latency.time_in_scheduler"
+    # Time taken in the forward pass for this across all workers
+    GEN_AI_LATENCY_TIME_IN_MODEL_FORWARD = "gen_ai.latency.time_in_model_forward"
+    # Time taken in the model execute function. This will include model
+    # forward, block/sync across workers, cpu-gpu sync time and sampling time.
+    GEN_AI_LATENCY_TIME_IN_MODEL_EXECUTE = "gen_ai.latency.time_in_model_execute"
+    GEN_AI_LATENCY_TIME_IN_MODEL_PREFILL = "gen_ai.latency.time_in_model_prefill"
+    GEN_AI_LATENCY_TIME_IN_MODEL_DECODE = "gen_ai.latency.time_in_model_decode"
+    GEN_AI_LATENCY_TIME_IN_MODEL_INFERENCE = "gen_ai.latency.time_in_model_inference"
+
+
+def contains_trace_headers(headers: Mapping[str, str]) -> bool:
+    return any(h in headers for h in TRACE_HEADERS)
+
+
+@run_once
+def log_tracing_disabled_warning() -> None:
+    logger.warning("Received a request with trace context but tracing is disabled")
diff --git a/transformers_utils/__init__.py b/transformers_utils/__init__.py
new file mode 100644
index 0000000..649df9a
--- /dev/null
+++ b/transformers_utils/__init__.py
@@ -0,0 +1,26 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm import envs
+
+if envs.VLLM_USE_MODELSCOPE:
+    try:
+        # Patch here, before each import happens
+        import modelscope
+        from packaging import version
+
+        # patch_hub begins from modelscope>=1.18.1
+        if version.parse(modelscope.__version__) <= version.parse("1.18.0"):
+            raise ImportError(
+                "Using vLLM with ModelScope needs modelscope>=1.18.1, please "
+                "install by `pip install modelscope -U`"
+            )
+        from modelscope.utils.hf_util import patch_hub
+
+        # Patch hub to download models from modelscope to speed up.
+        patch_hub()
+    except ImportError as err:
+        raise ImportError(
+            "Please install modelscope>=1.18.1 via "
+            "`pip install modelscope>=1.18.1` to use ModelScope."
+        ) from err
diff --git a/transformers_utils/__pycache__/__init__.cpython-312.pyc b/transformers_utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9fafe2b111d5c3d7fb40c7591d1ffb43ae1089a8
GIT binary patch
literal 934
zcmZ`%&ubGw7@gVKO?I<M)CRO^6&I{vz-HSbqy<}u8j7^Bg;JsMu-SB{&9?iC*-g^)
z*pnh6f}nqZ7wM&*yxOxT+e7JsAoS#IwF*)%&c>`!q;r^g^UZtT`)1~QpGqYF9R~YY
ze}w=z3OCVUyWsd61uuXGG-v=5Rv-izu0^L2o33PD2w9AQDu}MgU`?*VLBIgattI~=
zb|FS<>HnkK@OSJqmBvPl^#SV1Qy#BzQEUrR=a?awiAtj5oY?MKK+tB|%oWNW0wi4#
zJGywJ!{QdBF%|KF*n%yvftElE=J?N{HV1tcTTS;K1@R^(u5MeKvC;hKcz$HFw&?2C
zs??mFElVxkt4n2D!^Xn0?O@5mSaT&a47g!nYO*65y)HQhR$VOVmg}j8A=TPa)zO_l
z`<_G^UaV4E!BM^Cx>9e{HkaoA)%Lhida0?ar{#+{RmroZ1}&jiZa$av*`{Hbgf;^3
zGxzD0l*NUTQl7h0nq9a(H(&A-J-4u?<#lzH-kyZL;B$^jT<nXA(tRUE@x{BQV-v4L
zh)w+do;cs|bi>WpSCkMCF4QAT$ZK#+Avl?qJ=2ltlMH(*S;gM)Mx!t>zFxqxq1R-m
z?bU5d4r`S?qFU~XO-%YPon)@8D7vM4ijsHQK7W&%HViyP`e@#;v)pHN3J`?wI}hOb
zPbhwX2KUflz+|}05ug3YUkzd)nSEGzI{9ew<-kE!{*aaT#gU!z&h*>zoASGB`!{Cx
z#F@jsO92DVO&lYXNe2L>(lnt^_!0v`-xD#o4A_f50tqB9d<86*IZS6MJ9P_E`k4fE
nIGYLLNXYyQ5IsF{`)O6ri|OJJ*d5}E1+<$JieqSZEX2P6b>#Je

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/config.cpython-312.pyc b/transformers_utils/__pycache__/config.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d062461d33e67d0143b4424f29bce112c872ce4a
GIT binary patch
literal 42255
zcmch=33wdWeJ5De_XTw0zJbO?03^{Mc;6IA0u)IAq)CX9AWN+#sz8El9IkHgfB*}U
zH4!K)5op;V6e|;C;!U8HHi0vl4JYgDQcCuVl9}vw3$W2D!xL(vT>I_pHU)Ym%k%B-
z@Bdy^bvM|Q<nP;Wi^S_!Rqv{I{NMk6{~;&GCEyBMzCC1_7lgm38~w`HB5VI>7ld2F
zV}c||Vp!<szhb}0?oItB{F=h%VN1V7q<7}9b=cN#V{uE^KJ4gs3_JUs?A{u74ZHi@
zEN%;XhI9IJhI9LKhrRt?_Dl@>`h6(F9`+6A_2&)e_va56^cS#q4m>ODFJf_LxOljv
zzht<yzjU~)ziha?zkIl&zk<DUg)4`v`m2Vk`>Tg*`fJ!Tci2B%+h5D#o^ai8eSiIM
zLw^Ii&j~jUZ|L8^;<@3b;pYAp7WalX4sYt;#Nxj2=Hb@<Ru<0-2Zr1F+gLn5yk)q(
zzkPUX|5j0uH(eUkJ1_OC*zr9D;qAja`ge%Jh>hJ<@;j-pf2T>1TjgDEi#$jFZmCG#
zBZ(8}^FfnT{F0@AuSqy2NF^@`QmMS}ZL^kcKl1IDzBeRDWm5U;qEsPOBCL|C5!T36
z2>ntm!aAuQVT06&aD&u@u$hG|(niELNt+S2N&$pz(iVj6(pH4qr0ocINIMbkl6E89
zBke`FPuh?0fOHVyA?Xo>9nxWhN2H^#i@zcEACULSd*p+1O&OXwXrfR)Bz5k`uhb<S
z8xs2;VJY?)?;d6Ej!P$oMCqi|jgZHC-Zb}ju(VWS4o`37>ZM$)UrwQ4PRngZzZ_;y
zzlNu0(w-iX56efSvu~REk7_M!%V=RAl_%#)kI~cqPU#%Rph#{Tv`CL*1iI)Rqwxgd
z$I$Oy=}BX}9(4*%LHbRpU$$Hj<VSf6rKgbp>+*5wY5W!8sY`n1C2Ri)*&&JSU+_({
z^eobZ@W;klI&Z`V@VzH#{Ixela<{yPwbms`FWKHk3+d`F)XI{zvIbE?s+3g850-aw
z&?8-V$=2T^T|`}OR@YEQYl`HPgAVBuzPDGpEZ0ayl8C+t<NlO1%z9885$(+g-kjzs
zk<%iL;{I!C_hYy}lXm|N+@DRmS8(5#b|1n0V^TDurg4mcMY@7F=d_eHxW9_~$JrR%
zqOXyz;qSV9GOcGPGD_jST_it&FW>Xvn?W<{X^-?A#_LHcm;aOI()ud1{7KZvOT{da
zJ6Uf|Jy^2zP1z#XToC0NZI0+IsTuT1&!e_}%%eBbYN7E=jbf4P)}VqznnvoUSZYd>
z8bc%XpiO!KX}*s6#!Ad6XP;J%O?vSqt1+9NmcE6uQn1G&y@Z~9Ms}=gRjLk)^smzL
z2c_SVehoREO^t;%vtE`@%6ro0vrz(SOJCa#X$EZ$(b!_G-9TCASy|s_<C@v$sh%#9
ztF`ZONv|OP09M7f-xOIMqbAIgS25oue9N2CuVa+NOMk;xQF_SQm|0Io3yuE&4b(Hp
zdgje+y^rtePX98RQAVG?meyw%vbA+xuh^tnwEQAHMX%gMuM8o69P#fUehJ@`ZTv0L
z>uBTUFPbALC2V}rcaeJdy4dpD|3V$o+ajutBcX6ObUrL2ZVN@Ep@C?NNwp4y1}@5~
zeJrFzheBbzvz!h^FSeLfbH~Va)!sc6m6cFfwf9{glh1_|yePdOM}v{jpd6J)BBM$q
zI4nm)QYacyy%z_A7st;BrO~S+;n9$!7Dtuq!RTm^Zi0i#=x~r#_m-%7!$Xm1P?5(*
zgM&k1InrWP^E*e7ymvI(H99^bbt=lJqUJt2_~`igNBjCt^ZSzS(ScAnOTv;fC@L}(
z9bI2S(HZ&5P-JLyB%@$_hVQ5>k40qp^0{qCMn?vRE~vg^@(4aQip2Vp(~2BbLPI06
z#Gjyl%IWimhC>(R;FvNxAV<&#!2wnR`m?s@)X~oFVArWL!6O}yo$crjcJ~B(I!>QH
z-g_+A+tJf`RxRL3G9IGbLMk^pdRZPBnvjhWMb&-eRBzXDo|%S69=Q_1uX|`@D2k4~
za6wjZ>*MV^9a18)ayS%`(H1X8cHnaG!iDic*2!uOMmZv9j2(5pF@Pw?)iE9&<z;>D
zM)J^bBycG*I-=Up6XVLrK>GS3)P?@m&LOxZL^YI05H6Y0lkvDD>RarTFexbclfotI
zgQ;}zrI;p#v%+;#i#gPcVqJb*$K<F#dQtX2I)358(8z_Z(17e`9p<O0<wwU1DWfC9
z@<`NwC8P||To1Td&NHm-5r6OKi0mI4WTo(&LlOVTXw)B(qnrJRherJJ@L2S^KN3|?
z#b%a!RPkecqnHK}|L92gy8r4$tcu7O>JP94eHW2+a5Nkqy&7R<M?%B0e=HQm+8ObO
zBL0iK#e>K}3&bBDI<JHjR?xsjRzy^hL(xb^<^0>wCavAkQGe*l=#b<OjiVPvqC*30
zs`_PGDG}Zh)$wRou<z8#&fZ>3anoo-wP9MJXH+YF(HKV9%04_oW99$6vn@J2);2aY
z)*1~dNZERAeAk}cmv_l+Xky#g_2|XXk+v)0@NgTJ!AN9qR2i1B;>V*y;Yb^w^ntPK
zYEF<QFIGP*TiJ}Vcj7P7h+tZ{pD*NiUps!|`0S-6PwjN)hj!0w(XEP`72mB&cnfDd
z3Ac9*35ATgrO%+XYP@+Fvr86;K<PKl2!lYmUUKxCXM}5FzvZlesh-;%nz+uV?NI=>
z0X;VrOS6p4(lJE7C#KKSsFCi5Wm5Qcryxukv-FxcWs2IU0J`4RQes}3&I0&LAhCw6
z113=zwoREuA?oGnP=a~Vq^G8~^(vIL#i6<YhDIXM(8z#{(HI|-71bT2j>BXc4hB_A
z6d+cuq23NW*xLc#+YvSY!FQ@%e`!Z?n05-lsU;$Z2UYWB`MPSo5(<yY$}Y4+bq0e2
z;ZP(J3`VG9XkAS!n-EjBA($x7?8rb`1H14(vK_%^)55B|=*{sruEuM&E^b?@*%d3^
zH7oz9aM^t@QBXS5{ZEcPF~^>dy~VRv=dDZL4Kc?Cr4<>`Dn~Flg2jQ)bp?aNqtZCQ
zPf+y)gWnhrh4~xS5KJlF&H*_b4hCC9g%El+YaijwZNt4nK_|V)LGam2!lx#iwJ9ke
zU=_0Wsx>q?JSwa14*KDf1U+^!6ul50R&$OZa;&>Yd!8$4yF&0vICy2Nns4k9-RHJy
zX*{Vk+qSCC!LWQSI2s-vRdc%#J%yN-(0zGmcqkag_7PH4-$~qbv$);{_WDX#_0X$x
z-P&W<8F`R)oX6$!s^iS#+EZ`pY0s!6hgHj^&`?Bmo#;4zR!fpQ93Bfs#^izVa0nYA
zHk$6!XN_Aek!@I(#v>us)5CtXr|#h)DHH)zp)Sem89K^ujBc^Yp$lPjVQ0s&?oK^V
zs;Y>Zm#QeDy?2br!=q6^WHq-}i)nAH)LYwBH+7Z1`C3M?O{=a`2=)BqVNCTaqu12j
z$F!LKCK8p$wqb<SoU;^5bsc{Zm9IrrFMHL8sFut1jjQs=w%`bR`8A67rd~S2gTq@f
zA!RkE8?hc^qWFT^{(GkL*zvP{XP#7DSfJX5uezx!{iaAy+R@i{=B&Q!t0fmhk>JQ^
zP?85j_@qcM1pEP;cb{5-r8)v!Vk|7vuEoH)N?naD-K^#ejnMvqc}R0rE$$A7hC@NU
zD}%iulzFaOwe_9@ig8q}3U)l!cS>)<$;Ug+96K94b*}Twnd3)0&t||@S}b&}oj{O+
ztPDAKNG91VTNvtWmaURSHglv>vKld)Y?JM>LnGl`k{!sV6Ue3$_*xh5ZH|cas#dIV
zOxC=pGS2Wl%m^9%CCREo(GW8=hwgz3ay(6GK%)i-HtClG5jXzUN&!g$zV+u>(TqzL
z<Fyf)v`Qj@k0@wxeqEw6*Ikq1pa|e?iBetc(vcC#^rm^z`UCJozK#}5*{1B1wo7^^
z>WT3yncvn>pee_sW4h=esVsV`7fh0MM4WU`>S(TB&=o;xN!?94h}xKPnuJN`C7+%q
z_4`#?J>?o{cM8!0J=dgl((#T>-=wCj(IWlLLu)WSq-X4JT6oV)xuR8iDU&Y!3#VL@
zwn^6@w#<4VTCBfs5R`@~_oOLOAvvP-dF+~W>$%Vaxsr3r6Rj}bdGvRa?iWq?!v;L%
z{-*n?cvZM&ep0w9wzzs#Uzn%^PEZ61Q)@9RlPE%&qF^He)y3vxkZra3X#h-H!^%@g
zgw1A}ek{s!_*qxNL_m?hF+QZo5&!kkao}iv`5GW@6sRar(*Z^YjB_HwPssJe-*tuX
zBT-5sgIF@w2rY5If1D$v{2?Ks{sAl&V6^-R;iuPu`i8EcAVO;WLnEw|3_LguJ=4+4
z%~V5VNRk!8Z==9x{m(wI4iEGx<MOjqWOsLuAE@p)u#^j|{AXKRS@Kqez_;8=%k)|Q
zU^sL^Z^4o7<AD}0=)O$+R&`Rvz;vP!f(XG!A3Gd8)z#H~yth*+L6@ptLKk^o1&I)4
z7^7;&Q)QUFXSCv&L42wH;Be^rc{w;f20~K~0s|h^^IyIS%r&CaQ9jo>LUcH(Xa>To
zdd`dkQ6APFRcfW+dqQJ`u4+vnj49HRqwJyKo}eIe;8h#1M0KaNSrvn9ny4P_Aw#QF
z8^2RU5Y@oUgTs*v3^^f0%eWW@qgoj`Hc^-fGXw1DI9d^T2G9iPvrpKtW2Nz6yz$^l
zV^6%XXT}!u*2W!mt7R=KWqaafdlH_!q}f*Px?5D0C~sQLuX(-go)h;;m*6eB=SJ*C
z?u>i(Ye}C_Tze~cGdTbCrJ}7fu7tZN=B`TGgu<Fzhi)E<)$dv=*c~f4de1E6Ro^YD
zN!o>+lB7rQ6fc*x#N92c6`K}L#4C2qbSH}1XTQEu)E+NtPxy*Zd2#ODvf4!Trq$y5
z*GEx#aV{z^C`0ANxi`9!zS5k^)v`UeH@x4!T=vAQZMCd^rEFWgY+ItRENQlv=ilA1
zD^b;$sB2p-Z~A`QJvSbq;*zR+If%{L?gxbYz{22C-i{et!dpJq74z1`9Ce@FuN4Zb
zKM`_sDnBZ1Nt8bNACJUNf9*eX#Y@j5ZI-eQF=-ZxD(~kC6;1P3m&)4~zZNUpdAGb`
z_Si3zRmk*tq!j)9Ue%T(mBL?CI*&Tdf6-WT)MEZiixu&=OufBtxs(GmAr4Y-h=Nxr
zpp8VeoF5$xgPt14{;gWrJf_*Ld>6r60!Kg@W__KWQb1c*<Q#&R1ayzTA<@u$&wapJ
zf7hEo+jnCkX+<2vQRz?GDdrFgisvjhHzu8Q=MqXQ=K5|<Bq>KSS8#b}qOqdJn71+R
z+;HEEhrCLv=>MnfzMuzO9I%IuFtDfX`Po*`gPS^0R%}xzu0c9YHi=Ex*qUtELWy=;
zccpj<pwjG4VLCr*APkg$&@?1y+md|}n>FA5B@;wh5Nl02M2H$D9g{YFQ<-w6HvLJb
zWRV12{DAUZfab<#Kj}(s&3Y@9uVvqw(>7dVL!2N4!aeDlbWfngQ=UoBQQ@_m0n-Ix
z!1OeblBt}@oN0y@NVc1%S6vo7$1`WprFTJ;<`}zDTc;#o%SFj_q3v1>xl--6O*&~C
zCW@6xyehQVd)1QR(6u1rn}O#Ql!wpDk_6}<;Uuf5=7Fy_mI0~N+(>wc(gd##jeyUm
z<_?a7KqFQM04;F+JpH}#s3jM;sm>A%4)YnKgI?Mqm0v@%)fxjhgHa)00auE*jq?pJ
z4ysLGLKz3NqLtr4amsEA+Nod*u^QF9k@4Z+#UV+OM}pzdb#O6Mb66fx-Ry=T1QFH3
zhyxoM1<YHSNA8x~hwci>uTvGjLBYSKfK_{wV)F=8ug3o&CMWTBl(*=qE3G=h_>3)q
zML1<k@MEGZ%hKXo!+($0k^hPSTSK8xvVF1h_U@(PqciTiO<Vuq`QLp$w(Im#)7N4i
z{I5^s<Rz^pPyT(I(9|UYRL@?!XErtEChA+*FOmS>?CcR|PR2^x<DRYm;OO}%uWo+d
zQeNAP?Y={(*)TsC3mm*-S*q@gc{*o$5&Xx!2~YW(NAH_W-J%QGYZ_OocgCxC{;2-;
z$kN`Pcy-UrsYH46!l8Ki-kFp4Y(jlt&1$a8{iv>W_5>huV_U3YXWZwH?LQUwol4ZT
z-lMlOUCW+o)Y#baPVu5;ab&5b^G<ZBp_`u9-c7;$Uwo2-)DeOo?}<5wcUY9~A*%c)
z1;0f>D+LVhzDY3({vG}vfV&N8a2Ih6?ouoTcj+z#cj@i{xQmCpN~#E~C=;ftU7L!S
z)Ee~&hHy_uA6RqxgVP;n&UT&wnP(wnM)^Z(>K`E>YKXYeLE^QAq5~R1fj4QKEKavg
zrjbHdM8z95Af+Tu3g3qi|F;c-<V7*Xot+fQP?%2KfJbGX*m6wct@6sjyCgm`c$x~Z
z(F;RY<Pi;9rAKI1V4~!)k;^0C^JhNyKRaQ1Hqc^H7Eyz80|AifKgJK|H*&luFAe+S
z6)As$BqXVb1Q1LMckPACmHXoMeXF^pv5KvW2Nv7z<j2a6F6DN{9G$D~jSC0j?mbKH
zeKE^E*7+ITMBtCQVvQ6Yh;^v545!3Nkyvt}r$Hp1kuLx);3IW(8*F#UPcTORB;Gd8
zSoJ>+<_INagQN8Vaf})FczkSZREZ+{`RlBN&5Sk}05@65R*Q=kduC6AIsi+MO7Rax
zwJJM+*Y0I$8F0v$7yf2!ye)hEeFo8yHf9(gKk?GEayqYth{b@iQiUBnc#w0=zZj_c
z!JMErH9s(9oHfoG_NxYZpXhr4@8_0Zxp6_BF?b&04!xmA(l8McgJcw%apQj^dpnxz
zIQ5m;y1KOH1p)y-L-zeg7@d}0XLI@ulf$HqAZ4TroFG10&8ZgY@8~^oZqxcV{S_k#
z_xc|j!Cw0mrod)DiR+$zNa_cuy}f?ISs#*G=fLbG>4$%kOG^&0pNHhgVBCE5Y#TRn
zdMZn)E&kSneuhy$MF=%M&maPM&pw@{KdH|krNb<Mkngz8PLsI|G1bMG^BFgO;sQK4
zvmZ7A(q_PZKKxA&j(-!cA_E=~YD&D9wI3lM0mKcF2myY9*HMxZLu3<)N#YHFa~&at
zsKMZ3VFNJuSUS=dai>sO$@I3ieY}VgQgz<o+%OGIgt*Q?6ZKXRFKZI*Ow~%_xE4$A
zM34`I4gsHSjDUFno<$e}Ea|!d?__B+glUrh>QFfBKQH@7ugJ<(Wr)y30+Pfl8IiB*
zFpGC5l@*xS_aI0c#xkQqLV%IydD_uI|Fi3t8Zz(Dp*mpk00-3^NcdSpuMR~o>d*N`
z#-6v>*?y(kxHwg{gQYM69G65kdW}jA`iAXjs%2<oa1=Xz9<M<MLj&Om-|DDeHK7XR
z9aojm7-T&Y&Dp_CU_WD8MGgk^lpc&(B#bgXn-&u8QrZaJ`&K>qul3&OO`62K{dav;
z3197fr!^<{zDMwt$I3S?w;ovb9$d|@O!#`%%%+0eq+rU)1xmB`q`2&8TF8kzcCI>d
zUvuAZCp<?Io~neW?7rRNBo=|MHs<hi6o&98Y~HkCD>PXn^eNB!`L<o0{R5OgN17xh
zCJ`9ge1CVowKmx-cnYUav0_zI@Qi9193L4_?dV}*iKuSE?rCWc$r05}k?UZP134bR
z)@)o5$nl-LZatA`%<QAW(;y?KEKVZn45Wt0oU?*OND*$5HMJJNi!|mwc#+ReStl)%
zCa}3dWL<8?x0gnZR$MYxo6#yDRv<F1skQN<@FnTZlz!5J8c+ztgBr1lwM<{gu1f}i
zr#~T4qTXf^amg|Pgk}odPVhdh-?Y9u#edUyptjzBp#?u-YmDsmH%2DP`0r*cOLQ>t
z^%^BVmQJJeFVq1OMQ1OLj)x_N#9)142}5N-YO$+UuoExHs<ZRjfILQYo${wh57`9M
z%CHbi4KmCyWMyh@M+B%MrD1%x7Mt=vA*phQf_Eu+4}oeYauAYr<vX}z$U6aTfNet5
zRTnKxHXW`je~Smu-4r53N?|s6gu=49ik}oT&e)SCm$T}_f|A#FzS5Jl3WXc)mkaK)
zSlN~(S9{FT{@MK^!B_T);BZ2&Ts*gFL42d_18>W!ulSbdrf2Sn`KycKvTrM>AX-h`
zH@XwPO$(1NhHjVKY5(^XcP@jV!HTj8IeD+0xN&0kxn<B#o{~9`MU}sP@|Vdxl>2#v
zSmm>}M$>=eJe+I&!;a#^PV0M4E8=f)UbE_CN-eataE`N`-498ekNm$PJ9}>I5QM4H
ze4yX8UIZ@-FN-gmUN+x?m^lTrQ!|#3_d$rkXG}BVj2W6xrk6ZZmNW*41#$>&elwWO
znJ>s?T(oPj9qISc(ciPAvtMo)a}KNzAsh2WCmfVx*;P1F%o(sYM2)opl>oxNv#lnh
zyz<m)KuWCY^%vGRO>bQKFIXf2#v%b;4+)2dzr~J5wDr16X=Dr_=q^tIIsjUjZkTVR
z%RY+NWxy?C1!;Zxj<Mp;3MtkLm2tyz!v=YZ1~UvM3uF_3H064!mn!vG>h}_9H>|q=
zk*uOX4523h!wmTb*frutoiS6+@W9Bx=$H)oa)u_ATFCT^&K@~+x--~u`Z!kydCSD-
z-$qoX{4WSve4L4CldmCv1S|eRc=Wt#ABr&f31f2-V1_6e<R26}6cX>K1?M0p2tIbU
zGnlGHt$G*{!SqCwWva7@0>D;5%?IOsU7M8`>4l9!mxx+;YH*N*<~@)%9FKI4kj#UC
zl8cLXz*o75?SvRdtmGJ#%+}Q;#pnwo1hfHNrg3oy;|Y(BULGIgvZ0B_b@it<;q+vk
z1cg38N!ZjrF0Y=u`u*0Jr)lQIin}fDZd-P@V}Gq`TB+O|uiU(FcDb^B&1xyk{iw2i
z_GqG@<ktS1`@ehezE#L8oIScy*bpylnD1XI-11{zd!n-a9wki*7HrZUpR;(?Td?A7
z`oP=tGhg3FCGCmA3UI?$%PW7U<&BnD!`|CRm&!Y^Uzg@1OJ4qc7hqq)S2EwcICN(m
zV2g?Z?E1wgH7ND7`wfDxW(90vZ{v!0Z``~06T#vv23Mo7_?6>HC*q$+XfPMs54Tv}
zZQOo1AiP(eOJShqh|l~NUJ>C$IRocx=Kwp7_73WD$d)2eh}C`{`8g|`;B|{tVWYqX
zzyNW|f5t1OW%4X84(b&`5?FA6dY2}|FQ<j1ugqHfX2YA2H(EXw5KU5We<uVFv*B37
zBTMd%n5Bc^5`eOqLk;~4G>a*f7+OCBN{K(jKq^&{4&WxS@JX2Yj;JqKZ2#DvuMmO@
zZJobIdWFCTb~5%+AJc=Zl~P|ku$Q@6d-$qS{t0;r(nlH)!Di+Y^85*hcW%$Zwc9js
zdA8}}m_?qVIcLmW8?)4MJdDr;L)b)=`~ZE5e$nJ+pSFrf=BMd!5wP3*g|NE-T_8>X
z#%7~9bchT%M|H6a-6l?&&}mvru;UoG3uNX7_M-1Rig?|W!oE^8NeYHjc~P1U?9%Ie
z$E*(v+q*E{GzhALdX;*Dfw4a2CwSQ6U?5CcL0tKe0-|FW)0a<8>U}0!#QdZ#RsNX*
zHc9Uy1_eom?=YZ1P{q)Q($JCuHk45Bq?bW$NdF6!K|?x>2!_-qlvK>^c>QwBQ9I*W
zvA4wSEz9;z319i#Q*mGOinl%PZC~<ki#fJY(pF#}^X|oq82b|2^eH@Y<j=PKVB502
z>8`f`$d0FE)#0A${I+ZM<U;e0TK|VOr1aRZysb7qHwY~<kO#z5$ioP3GN%Ld)J(>J
zVf%f-o#GLuG~IxP;(Pct3BoTe547E0@T8#@2HGt`Hxt^KmWh_r3N&{l*?&GXKvcaH
z0f9A)4jVc@6dr;mCGil?jGpccD5I#NSM?~gX+<EY2TTDZAx6ELj|>CA0MlNnB@aGh
z!eZoMTy`o>`9BdvXiDn1q>`k^6x^UeI)n(IcYfL2hWXaT!lnG3(<c-5{FuFZ)lojT
z546$81?6))=MOG!hwO8@J7F(~*=trEHS?YyJ6gf4)=49(D5KkrRd^2d5Uw^UfR+c2
z!G3Geks@Jgz<NM0uozJdrpvp~y!=#$gU%Mgss;Ul(E8hHR0=CmRBE*ntMqcH<ozf)
zg%M_3!;&G~f?X4}O;p@zwc2$^L7V~JQpv$+p9;yDr3M2IpknQk451b#186U;6gMlS
zR`O6kL`)|H=xXGA#S(M%R#A!9g%)ow&}o_z44vMNiYMxsb~q#A!(b3az!!*KmBCeL
zG7=t`sA%#x6NUus+rc4d#kVkCL=%;AU}7g;hUE*P0nAPIGT?s_nj8^M3NZy=QVbay
zybf(&a4wj3#&BR_^BH+892%gVP|MB=Z1O|J5_}GD7E(=Un%I~=m-WIghOQ77BP|_e
zR!xy{)e#;Yxj=a)+8(IK_%eS}WV}hMOHbbf9V<$p=CGe&L>^#*IJ>5AHqrh?<*__^
zky?%>XujM)Uo)Cd`7?^$Mu2rki$GaJp!$q91$k#=F2Z}1kb>{hBK$cb;APnJXTx!O
z-Tals%6QX(M4^AaB3{@!<4jaEE!g4}Z81k_!d)0EZT`UBOstIj9g9PYPbCGhLxiM!
zd#rv3;yZUGv2E^JGh2ws!SE-+Q82eTZr`x5bMfo(O&y7bEsMqRhTSus*{9-;T8-@y
zD?GgHIC9sX&ytc{p{#Q$w=3r8x@#|(JsG$A=Z}71Z%#A>((>ir$c>de`eVoOgtKV&
za@<)rf8hgXYr<PSzd7y=#2kT`H;`y(U7zE`j~yqWJK+j2h@Am73`&pC)CYjI!Q~@b
zX&O5yK?jDISbACKcPXDD-&-Psn&8whK*(Sq5h*%3?GBDdWY}fU7%Bf1FaC%|p#c$S
z?mh_aDxigZ*Ihmrj=49+EE^wev;{dC!f_Fi%tq@A_L>+0(VhY@APqG{0a=Vo-{jMB
zxsgj_hk)T>5O&!7#fkQ#&|M#ZL?m57imkLLY20fJKKfRFPwN@bI|0m5`d+SJl&+hZ
zj~pYHVONpr8T2A`U%F(<m3pg)=(9hiej~8M_IYRFY}b;b;uFE-+_35{p1rbC(i$&m
zT`Fl?a&P&>jHe&FtL6rm+>J@QMcb~k5B?J<GP57o@6;H4b6RhTAVgC;Id*0C-soYl
zl+aST&~Mg>j%@vg-r^<<A#h(=U+5i3eA=NX6u(masOIYZ#XGsTi|yW+aZIjGeWP!~
zX2jJ3J$YK6XF`Pk2aQuGxI=wP>NMDviz?^N#Ts`kMwg2APxmJ5MKL>>1bkdxJ0DnV
zy;HbU-W9WyB<$redmTN8zEW|^(wEKB^C&!%c_Nuon<W?~=9er}A{YSJ`t*Lo{4Hio
z0X)mLovxp`gq%(s$=1&g%umczbS=y_xOvG42~CtXNoKzRzJwdl<Oik-<Iq&Hk4c*f
z*k@By0nIS?s`((=WnM0rsI1&B<(J5)2-Mm56LgF=_+ZkBwg;c32;wXmVpJ$tkr=^M
z==fiW)ofdQY{|PX=HS9u%#0GM{1yfOHv%0{LGOmMlr=!5*zte`e@kzG8KKCeO|<S`
zZrBc3Z{7c+!ZrGV4uPj;?#hyT!w2ri;~Nj$9$Y!t7eCmybnx8L#>Zop#~*}Q2A~~7
zskZ=GE}@F`mp-afVme-&-oYTGOc2l*5GsuzGS-|vha~gmqqG9ATd)StxPX!Rf29e+
zW)4&O4$D9kFk^JB8ZO9X8YI2SU*apeutihP^5wXIm}-WOr@kgf>D5~ZGS;A)i-Arn
zUvZ;LenLIZmm}#tl&$19$Mc()@;6SOTrIAeyS#AVcEeKfp_u*9^m7PSz4_nWHv8OC
zLH&}qVg4I&Z*$DioN)U%ZSw0>?=%8~6h~aJ;E!z|U5H>P(zu$ym`k&76;aB`u1SVR
z>zxcvH~~3v;yCNz$CyH>pUV>&t&uWdgO=(L88r?~a6>7Q6NCLd!u4tyPRYu^^t_6i
zR2$bW#jWujOaP+K))^#HD7Z^~)_@3Rs{;hwa?#efeQN^pm7E(n%f;IkPsEE4Eju1b
zxbvoa9-NvE<YfJkKm^+WLVkVGmI*n>89`wB=VX{<Oh}^3b(%XOzFLs+#xO*RfO^Qr
zdj$oaqT<s^8ZykFuss{JeO5UkFcoY++EyeAul8B^2$?3fpCLV4W0!%F?a+BBO2b5M
z)K97{7nvAPz6NBQbSH?qj|3(*uv}w!pzZHi1w5m_sWH+-nduiYJ6hSQm8_>CsvSla
zlu*gR*zi^Hr|h*PpC2bOleT)*F&dUgS4~l2oN|@LGFFK4DpIk4<S3D6aED#0dfQ6%
zo_O`1pH%OQJIZGqv(2mS{MnszyMOF%;ONxu<$}!#h#7Kj=FDAtr)07CcIi^f;aK&N
zW#3Uv)(|V}xU>8HCw}ZXmvjm>`yqGp<ZF{dbuzO#GW%qT$7%`jQw>WVV!!gP$gqka
zip-6_HA1m7kqLdROhJ8838aBGW4rr8D~S|ZkxEbOv~|~%eZ(Z0rtB#hbT%2*C4(oQ
z$_{%BGoxU=`m?Nd2li>u(y))PGrJ5^N}W;%+ma>2F2gb9oOE0w0nNHACHsRtf@|8!
zcv+S~GYt7`@J!+!_Ds0}SKOB>)@8&kEF~O9e}bl+^hi!>`=m>95mhg_8Ep@>O_G-o
zwU71Sp|V>%p;}<&48)v~Bcox^evECeO>Est;3{brrI{l5Ly8O)5yE_BNi$$QLYBM{
z9TA4zF|k}EtvC|DXB5C|VQAf;KQg)*CJNBf1+mQ9Lb7*m?U}VXl<oZZP#BCHN~t#t
zvrucd)}&1BBv$2Ke-Ch*Fk8uFN<eHgRwZqP#vF&zl5XYvkd*6fh4zy66&j<^;%7Q7
zU`vxp0$L=cRD4qUE4&%{z0rh+EUUf#PLhETVSj~;ARheW3@hT40!klgeiMTLvVAtb
z5}7p0VUo9M_r_OmPA^tl&s?KKbs84hy~^{LQh-*I_~AwfL?<dQP(TzOwCTRie}01=
zF+Q;asue@vWWd^iKxk0oS3+~uPiY8FK(Q5XR2y_5pr*^DEy}m(<x3QlQ1GuPfRs+)
z+PGUDCeq=MC=$>+iA;}aV`c49YqXgL+q|q042@!p*g}HRDI*K`020`y%j8eg9iZUI
zY@Kx{Y0!>xMcdb?fvh*E8&t!BCj}$bT)jJZ<_NL!Y5t`yE)lBX7A2&ZqF^yWpBX&f
zw69V~=U@$g5qLquHgJE7;H{pMmvS4Xk9}y*U9GO0-|_v+E7gH`bzsIe^IY6fu?iv4
z`1d!hly8ogZ@%HZTV6fmU9H`+QoA=^yLYAbc)a%bbQdfx;+E>wqQ;e?9r2<ai9CNS
zula^`VU(;WY<Kg@66Kp#b1S~htSD^QC){~tMPYlPclzXP9`sMk8-J(fjha}?fu*v8
zF-!4Xds)m51=+&cp;+zin0I%~vHRyX!FpD_Tefkf>_oimM53?;oXql*;+kM8w;>No
zt#8Kf?A5rX2J(mE<^@;0Xxn0Myyyt%u+j}N%ZBOBnd5iezS)*oRa?y67PGW*9B+y`
zo;*G1Jr@aHzPj$g;K)Ea!_e5Os)4pVWUGP+oYMN0w<^2F0{yC6l>p@n6Jt#7b^@eF
z^3&0t6oLZ*hgnBu6ewIwSzu|Eh9IQ`%<EEGk<y(KW~7*}(7QD@q)Ef@Z^{ko(|sw6
zz<CnZ?SxQ4-NT8^&2AVSdSC_MP|i%|Tq?x?th-V|X0Un7QigbvD|>pdn%x<?!R2~^
z+0(NvE*I}=^mM6TFnV(@i0KF;()m;G^;qOo_OhdOdJ43?ING4!U24)}sb4AQZLCGQ
z;CQPkl{0(EzhbLBms)t)>7kUHvZt8xPI{-)l@tWYn?ik+oaiP!C!Uj<k2X6g-wQ8J
zdM9&&#)waPv)1NItIap*lkz|y$<a2w+)G>ZSn5~G*ZU;0Q7VXT)!$qqzSX)*$|uw%
zt&fT1UUx}_lRllGKre5I2J{4%i1)MZilmR&zI88gD;1@eHfdFw(rQ1DC4Dgzt7xag
z1(Yo7j6(`z768Gm{?ZZ+Q&+~}u}vDYXeuXqh}Q*#&UlJ?Ma32E(BJ6jCbfqdvikHl
zP}QiPa!U3~#Hv|$O$up<qbmg)QpT~9&KFHk;c|Y{nWn;3(yNr<>y#g&IB+N#BJhWZ
zGvk1e6R(aKDq9>$)afKmp^@ZmBcsMclGzWEL!E&C@s#$XW?kTKBIAQ5Ac!N8abTUW
zXjL?%5cHH^Mg|~Ve9LEUVEoOGc4?}gEgZu$JjD2$HH#JfeZYT;vR@^=T;NHhq)po^
z$yKPHV5XY2)_T~X!U+MCKY#^aAg3y*o+()~?R<?Q<SLzk&_AL#j*q~(#gGJyOZWfd
zKYo;&#*{_;5-fEG$SaUm_mC{@^*24o@QSIXfa^4G7{eL3S}OPBLdc+I=u4*g(4B7&
zKo^;dIz#X;Lv?BfxPIn|CZhoX*VcgltoF5`2ig*aK|gh?&X7eLM=y}yAD!scX#)~K
zGv-gLzYE`#Q6c*V==o`5N60!XW+Pw(GMp4*rnG^>rvd@urRd}I<prRlbq7EwU|WDS
z;@Gjry7mIMk8lEk_cNjTnyAcA3H;3W(AX&0O|0f_m_AdVvUki~PYC_XaCquCZJgj+
z2gHnS@T?g`5D^5tm+(el#wnzc5Rr-UBOz=AewZit31Kv*JvvJj18Po486amp1MpoW
zM<#xwhtVh6G?GTai=fIhv0QX?tThbFvoMxLdbTDmCqz#(Rt0^=v+4NHf#=qx-|K&>
z2}=7-PftBd6bm#fskbn=nX@~f7QpKX%;q?MN+Sv;3Q;zDu07!Xmz*RqmxF`DQS#w4
zF7F=RqLvuSSVucMPX~{6_VffhclT^j#rBC~ob`xGv(ynV3Ompk*@qbf6)XCz$0#>j
zbmaDg$_q@qn9*mnCS+*6Xi1yDtnil2ASR>!hcxuS78-9bF85`r8gnATRKEffm8UqC
zPHhAL(#DVROB*9CwJAbJDJR$ox1oYUdK%37Jk5U=T%wQ<4|wHDd&p&-e?`e{911aW
zBxc6Tn3)P863VwJVB95gNTm?Q#08|cDfVj!)B>`S!RRry5m=}*li(IgP3l&v4eVEZ
zD^rDoaX5EZr8-HQ9Nr2BWMwmwsvb@GoIlE=+)2va%;}Z&O4y*h7>iR5p1&Ssetuf=
zIE|ILQn*rgJrxHpshrwUswwszDm{nk-oX=CBm(y%h7lTvw4C;0vc_p7hQBcc8xchE
zaGN5mw3w#Tn=%<v_8{#R?COyP1R$kKznqlv70y2Px_iY}7x&f8Snt{k=WHL?tCOZ`
z=e7^M#mnWb3-X^l^Zvyjmp`8HH{8rw&1;x{Y<csc_nUv5cQ)Z~xta5Eu|H|D6de)Q
z%(jwz_ymI9+;*X8!~F14;r8jCM0x96>q>cRyu3Bx$N}wDVY^$tDFO1UxE}WF6$a&1
zVT)TzKzbG5^9c?wSh_3j%DB67xuG-e?p)2Uj@9nF-L<m6C%(TYwy*d7P^{+kQa+hq
zt`_ZFyt1<E(K!AW9f!3&=MT?5zfiv5i52fycI+h8ulyBv%?Iw9w1RiV-Mb8Ze^XxF
z&&?2XLp2EBd~T)nU>yI;4$YiMK#95MM$g=#h5m)^Soxl1&t7n&D>nR2+Z%1MjfZsU
z8F8p9AU|7f+KUf`wfOuss1!BZpn6oZHQ}k7?_AgolYtsn%u%7G-H>S9J!4yT)ZHy?
zS}EKVFWj_n@^;};;X%mi-Gy_mxVvr@3Xc13?u*rc^|>dpd*63Ww_G<}v5M_+-wr5T
zulW2h@Jw37vR(MbqUxW!srz$<;&M0*_@JnrC8>}5>XQ~TlDLrMzSohLf3Hw*KmjWE
zHO~!C3<PO#+0m)@+vu`m!-w|bb#Fh+^UoJA<u%XPJ_bE|W!X~wk-c=)v1Qq@^)9jB
zKfC|DiD`xVoZFHXcV5k>n0!Sy2IqFn3@+u?CM$%T^83|7LDk&TOZl4?^J1Q@zf9I5
zG4~DduDI*CU-)ak^MuFz*Dcj2?B>6*TM^Gt$RlPv;reR?3bNC;T-k2QJo&|Hd7%54
zB69|Nf1TQ$L0LoXjzkIU(sAZ=C7%?%No8IqWn_bu56l&U+b8kVP%wt><Nt=Tp!P^L
zWL2oULGLwPx{oOlp{JS#CSd@||Bn0hT6Az&cAfc$<LbKv9F_e52!BifK|uy4T+b__
z^*%Qg_ccu)PuP7c_R_e$blF~>@RmX`Bx$ibeXG^m6QxxP&fAY-2G``ykop|-?AqSh
zw(M<Ng&N+erIO7t-)1m7d|NP=J-*NGTan@uL3H{O9xPsO(u(Nk3~v3K=8hcU-5h5}
znfcvP5n;xd62qH~>HmSIW{fGZc+(XjF{abyP(DxbB6tdelK@r83Y5mK)R@p*cwsN*
z1MLm#E}h~~HbxDKJ7o;A11^Z7wR)CIb$TrIoAPWh02V#{)8_}7#auUGCRp^;m$I<-
zFB$VnPbCP(j4`EVQHmdu@`?~OsG~s(^7!FiC|@rnD{~$Wgi@`8af^wJTcG;Fey@rd
zZiDJFN~3*w-6auo-wI`XZ8T_(uP;%b@%2JGgyUCX4DcjqP10!8TnX7jvlw(jnEgjJ
zSEj^br<u!*W(n8Mz{TODl&P43Scj8L&SxJ2mP9x{kq=Dx4}^xPX2J8L#zQ|%_%%5F
zie~5A%IaXs%;^Tc#Jts!Yt{%LmAXR(hFt@(XUP1+GVzy?d}eF7UV_dpPcMWMY(oQn
z;9ulKRc{3=Q2U58{F^yjyj4Ta81Cb5rZ0w-a!1;yvp#_@P2h5@hp9<MH*sY<<Kuw6
z()aQfzGdckjRAOi6|xhWXzQYJ0m7d~fe}{Es9r+3fsv(qrJXnmnt>9a))7z!grct>
zOb~CEhsMST-((%G_cp_gN&L9?EqK(GuMI$+4qL!{2GA4|b#dnUf1=pmQ9zslrH}$z
z7YZ!}jy5vPj_@a@T$h5mss&nGBXI9WURN#TG76$j_RWlQ&KLsw@ZG9g`z~rAL*kT=
zP?~P~K$DjtVoEy_v*0fY;Qk}h0N~aMdG!lLw_D!7xa@m;`uJVDFJ>=In)02ctK}^V
zjf-V>o>(sLojG~GK`4Ux)ly;OjFTm*oG)9c-5Rgmx?H<`H79Sj<<;Q4g|LA=H}}l-
zy?*FZvyfYLBS@GHpl{m)mI$J=6c$_`d+Jv`wX2@$RXCt<T79lh1iP~oI8IIh8D_=G
zPQ2f-?CC|hzg+cJeInS<E^Yyt@SRKe$`WPe<eaGDK4}2nhdD&)FOxY)^!cZSsGe2+
zd1MDZ^*gy8&BD8mq9dEk?>1K*X*R!SFQu@i`0!rydwV^I|AnpeNWJ+l>a7&tWIeLo
zo}s;9Yy@O0MQTM;1e(&7v&f)8Ok*79q-_O|U_w5x0V4wWq}7)Oe2vW<ZPhNxU=u_3
zZZMxE>r1c!JZe}tra(Hj7q^}_Exm1Bdb<u}b><maJwo!~$R^bXyWC08)kteg`zBk)
zH`&wbbfHfBB}1yKw<_gqB5V7>`iEjVEd_Q>rsS=TFX<`6V;op>4oH<fZ^Fe5)Y5Z8
ze}=(g;H8iG=7sGkDa8_>fO9RzU<OaCo1~p1<kA9KB3zQF5tocdL9mI#&Q|XE7pA;n
zSgZnMu)@J?0eByf;U_KS9hc{TLtd67tC+M8<)#Dm4Dh4DR$9Px>0p`rdiX+sOppw!
zW*l7d+@ylU-A>ZWreOeHaB^77GT=6)eh8Fin}*(Bq(aRNySYS`m84gtcO+N0(e&On
z6KK{QFM~0um&E&7XLKPk=Tfo)Klh*$;2M_uo`x%94*CBX^Mj$B6I;0!_(S`j@@hMg
zRzn~|y^a>-HvFw^L2wd#KWT_P4N)N}-b&0riX<|5k!4c+P4Sip#TK6hQ|rGo!_}Z!
zA>R5#gI;|wefR@x{33zVe1`Qhr!;TDFHB$yEXPS%1z=dvfV1k{e*sR%uZ<}OCmM-h
z)_O;0{TRmKMzR7lo%vP%XEIBJ2DH=lQE9`hCE+cY?Yc1;tLgl}+X<{UC-1}3hF`1^
zn)hO1vH1V}*Khd3ukY2@6#stZQLM-G4_8j&!B_m`%JrX|10%a;W@I;KySYDBfAWKZ
zllbJkq7N&Zf1z}v<gSU_=caTA)qE!<`sAzig05r*lW<`i7~-q$j5#2(IbiDJUxvwW
z92F`j5U6G_U@{eoeud9$q0b~@fQ@X-b1YuJ>*mm`G<W3owmS`fw(r$GJorU~Q1cf(
z#o}xBVsWC9uY;^>3T}8*k3OGh-KtJ~fyymT#vkLj0VzsxHUIyXVz(&RLf?cVd<3=R
z!D-15R1{$#Bx;_vUODTFDI4fZm|=oAV1O?N<qVaXr#Fjm7gk!TrGzr35>UHYf(Y$|
zI-t?CS@R!kn$nN*?-Qa!>XBF=bwXKF%u;l>pk%sx71U&IL9BM`?I(V2HaUm|Qo1R&
zY5#5c&J#-|y)&M>Wc>qm_=1luu9r`~a5CmQx@_tEI5+>EiLWzQcru>}&YZOzyVo{-
zj4b+!RvjKBV6zelVAAOla`KVD=~^>8$;9toF|m#+H?LG~i&t)2Ja)V5ho_b*kH#Ej
zt0f!L8?ajG|Il-6e*a4Sj(Gi!WjJK?9DBbI?3pUCXUd4At%|`o!oMrF`}mUoM9fq5
zG56{aE8M#5*p~3O-*LvhCt{8hcimnluTOO>jY`G>FxVD9LRT3UO!?VWWtmbeK`vZV
z%sU7~lZDxJH&cFaB?}Y6!m^23MVTbq6fB!1`@a!MQ|gNpt*4;mPPPx+;d)B#R&p>)
zDQCL)ntZ?J=u?WoZ%`E!rYb@WR-N#79%YI+z^4%<=jh!XXZvu(MR&JqKGJ<wwVdti
zJgr)KIy-tNa!zZw0o&^)a+!$0kVUjuRI=!YArN^$05%W>H=Z1Ps0F<bI-db_c#16|
zBfkORsq~2QB;IC1jI(&6P_TpG!8AUAOlOLj*-E0Mex+nnykyhDsoQ6kN*<vZ>zaX4
zO*wnh5-(|4s9!1xEPNwg(oQeA#Z985YR2=QtB=Mk6^YV@mC}vz(v3@{n`v3tOJkUm
z_H7BTA6`H{c2&*i!~%z6t&iNvja8poa-EJ@PIC=bZS2vWG~?QDqMa|>Zqb;E7*k-z
zuh=F{&{eI+EXl-?Vabxhk>RqDbXD<%{DL)V8lL=$?S>6tw;tkW(IOz;ldjeJHtM7+
zn?9?~IEicrL&m_Jsq7SvtfzU$V&LVlzC)X#SOJ_ESTXF@#8(|@tz#O4dTOn8rAF%r
zqX+81uS*6Vt3QDdJWXJo(qf#k;UELsOAg7N!ix28Q%pB(8l%S0p9C|7`30D=JSn{T
zq|U@>afE&s9pWO;s9|&rVbc`PI4YKjYo*u_jGPUzyxhs#Sq-7}_oWb8|KZLveH^KM
zDBFVJJdANLc^dny=9nxU#m!bSt2n)M`iNEo<7MRmePj+ua5fFcfOUM>U`4P}m|Rao
zf4?Hi+sc>{4`oiUUd-$`CJtrn8dfI>r-?$y_GuZNMxWJUpC~ghrt@%^qN8|(olI03
zuar@G8OnHDW4wh(3`cJ~kiFVSFaRJAH=gT?uQ1++9?T5+8>eD|*TTcC+3GJ(OEF@2
zZf0`HUgaQWA2Y|E*!D$8xvmKLm9X*+SUcYn4ZIvE58>rEOjiUA7l&We>jL3nZ;2Ub
zm?~aYJ%%X^FbNH|PIFesNwjqWs5H(m(!V(kb${UWos<=ffquV8K$-Tm&p4LmIuYM+
zd_Hfceb%!KxzL8=zladZ{jJ<Q5$IPgc{z&6-++ze$OU+<$dTwQq^oqi57Z%AT%2vh
z7&OEPz@a`k9pF4vN1-OqJtZ)W%)i3Blrg4i#z9Wt38k>F+N@v0=Ptv@;9@E5PIVEd
zjKAO}@uTRMG{(^*T!Po~l{-qgiUJ;`uK5{t&9v}IgQEqChK<R5ux6&a|Gs4RjQe9x
z_55Rtm*0PM+4C6uW85=~Ii<kBD%%#GyWM$b_fkdoOt<Q-_z?c2y+Y}pd-;N=^aqyt
z$9~Vf;@=hb?^^cnNt$fV%8$#M$%x+ZCprJt3pqe}?#zibk5GAF<|KKBzVv~&c@@W!
z?7L&Vb8V^S^sGlMsQD0HrkzM~5BBw?>F8bOvZd=|yK9LJBf@3-iG;TTk}!x0$hkDR
z6B3=3iL#1U;JFmB&za%VyPjg^F2j9zzxlm=BEkWDw{aPW75NEx+5WQQ7UVC4K!q9V
zG$m?xCTy7W)cgt^BWMa+UV&btWToRa=}Z~PMxKmk>@zrN0cR}0$<L%In`4`7TMjl<
zi_Y+2`b;}-WYto7-eB>NnYiSj<2<LZ%|KJDa?+Yj4v<~f>1})|UED7KlQ0+v1K+ry
zO(|mI`lh~dK?Z>hmtROx3z-JV)Y+9yCIYi`+dGDrV~wwG`=*Ua3h<kzL*)*g2iL9-
zN<Y{Ubb&c34)AR%6R2~4a!6=M(wP@eawO0BB*$TWx?Uq)Q(NFZ?hGzblg@MCOk<5#
z15QL}gl!nlrfid*<sKwA(+0xX^1M}=V@a?>fFI(7r!Z7v;6_wGI0%~_D=DNO5x`r|
zy>t?{oDRaG_VAD8Y!GsCq3zu3T!9*1K+~WgtPHr%&s1Ysm6Y}}(C3K%fIsyrKsDkZ
zG^jOzwIoZ;EUoUbvW||1YsIm1!=bhwin23ITDP_CK3s=SU*D_jECQndt{rbwi=&9x
z#|DFbe?9W17;ZYph1H{-lcaHdg8Uh)_6YL_Xnc$ImFWeM#yIOTRKWBhHZ$DcFe8&C
zBloY|6Z)A!t)ZbdQm#3RljmB`Z4K=BRXXBJ+8h}lp!4W(l9_J!w!Xy=??nCE18EHn
zWHdCeXZQK`_TAgJ@7lHH{MLbOgM$O@c(QB9z^)y;L%X+Z+qr$q;C6Y}u60A87syIu
z2kvPHDQU}#Pk+5CC|NOYwQOZ*$U<sSWG)52z6{u~XbYKC>#%%Cz@x8dc4!8?PHO%Q
z0)EC6=INP(N=kg5vwwLPvm6i|;gGkhnAQHPqY8}2(X+%azB)=OXUrW8Of=#8G7RQ0
zYr-g&9%)}nGLqtyIGDJdhf_UR?ifvBY-ml)#h1LcG>=n15F1qIRbPdf4i3L!%XuI?
zIxYboT!y48vnc&2IRG$HGGooqp#_esW0v#Kyd*9o{Mh4D*k=PKk*i_?atyY>cPFLA
zGesVhVI(pjbLXr>0Xd+xfR;Xbkj*Wy($Q4CB`7sS?kKot3X*%$ageY)LQZrLIwfs@
z_!@(V4{e}+ACZwAtv|2(@MV3k$ts~3DGxE{Q!+GI`GmpB+3UX;jgCe3wzXY=it6}z
z%(&q;t&hfJJx0BCC>lC{fLxOf%dMkVT8ZCOuNf|Y{ol&FG}5Yn2_u(U!6&&G8X1ZV
zw*tj)P0a|LfP!O9lyTjXikal}_H{uc&vgz4FC4-!Q^O2K3t@yL2V8pu!S_sX0BgF0
z*!t^+n9Tq*WurbQk_Uff7+WoHODl;6;kQj1A0CT<&u|mP0nJNI6qx(43Bys~X^sM`
zxv-{@#&HfIpL`RKd{wow6f&Gy!k-b^=SSs0`x1rax4Lh3&+l8Q-yW~uzIbk_et)d)
zV65O!%yWpb5ztj;C3Jn_j~`=h-7+?4-KL8+8B7jlG*7-_*KZSinw`Ji%I9y!*lBAU
z9|b2ZblMIMP4vTu9hN17=<Ku|y&|kr9aPXP#5|-oS7d+IlW&wm)bU=mFx!@)x{tG6
zvy(Z<^bX^ouOXP}5je&?Q;1KZOd(L+%&>}gzH*(OfSp7G0-IDFRZ&azSdb5)q1&gH
zv+P&e1N_vXQ6+%h<mWLe(^N@{Rv=|0Flk?)I;yj^IcS_Hq<o9AQfrjwDPSdi2l-i>
zS?kmJua9s7LD@-ZDR`OYz~3PKFTim<ELyE?KXugKZE3~9e@REJ)%8<H^-mo|fA1*&
z2gk;wOLRUW&hP!dfLK2wLR9N4U2)XJ9W^VC=D4GIp?vX~Wyevn_}>Wcn=76zanF`m
zd*`yJ3sy}zyFT*fCwv9Byf?iozTI)(?%1B5ANzVq<EJ2*gFK(zZ-EajVC~knL`&cU
zG{B7LFYoV#lQjsLtuE3ZgI|}V$(*wp4AtV2q+4*7d<qe>>mCKa#CbGU*XNNIe9lX@
zj(x(nJ6aEWgm?G34?E58IYbIQ&ci#+?-i9CZa2TzZbe*mKp4+R+y|71NH)9nT?9}f
zLddUd2c*K}z)<_rc~qGm*xp80)1?%p^S1P-*{pA;(mdemrbUwYCe+Nxun0D)re2u4
zZ=^CO5rC>B0fh2X3f`c=PXW=UT&b2YcDNp3q~|L%`jm@V?lH2L7#*B;tRmVGeUkm4
zT;)~dU7|_TgZxlO$Q2x(6?@GGaJ}U%`1X~VoR96rv*XM5s?|(A&{cOM)7FGbv_w(W
zf&+(GAhvxk`%O7XdjR^PD*d#(?Cfp5!->x@DU6FsZW{X!=Z)&L6nALFj}e#%9n(%t
zsDqd2IvrVo&rJCW)Vc}w&}jn1CSve_$d6Fi5D!yl^^StQ#Zrus{RMeX$#}08(6J?k
zABf;Zz_bWPjD#DC51oiO0e<G4C0)LzGT8`C%G3dc%4^8*G4(o$KCx2Q`FjAncy0q6
zA>j}XU&-uqv4%a%-n}u$-k5jqU3W3e1vw*_b~F8=nZf$@&k!LhH|3}#+Y|>QmNe%y
z%8=R87^Q&*+$~ZGR3^KKZA+GL@0i}!QbE-LpTMtdv}sDajyq3H*K<SpFywqPL+4Sa
zMd3t+=@MZZO=(U4G3tS`BbjU|FC$Rxr_M6)&eWOJJVyC2ic;H4b<N1kBG~w>*NH6C
zbs{yq47v$gA<FCc!ZjMCZ=g;LlE-T;UG>7BXItFchLgT9@9$g9K37sOJ6)e)tULvu
z2res>cbrg?DXIZ)BvH35!A|3XkMLp~tOC87!iJTC9r1!4i-SuA2R`r|_za#~h_z9w
z7L*WUqxAD+0Sfs%LJX%Di_3&JoE_!n->dI%n%=dEh`#G|b`)FR&1dl<k>bS`JZJr8
ztT!4RV@{0WCS7wf<%5SY<R1WbX&yOE8S@}bf04}@Lpu>;YNjzw(_+O){si?-RI;JM
zhR#kCB2|yHBg-*Tq}HPlZ01JKe@n5yLVzidVyppe&VJN6`FtnWA{u*91A3MEsHRnA
z9ImbWCOXHBi5xkOY5?<GLUY@y1MWa`pmokHelc9l;F>igbFJ3GRc~3svpE*%hV+j{
z+eD*{T@kyOXf6EETR<CI;pY*O5B#>fMR?1(!~7@W4zpU7qQ*7*Y2w4{X5kt8lfkGu
zh(a=#FJF8qf1j-5(^)#}JD%+%#?%K~sz8}~m)^p+r<PV`ua)Y(rn88_9c84t@&<C%
zP>;2<9!t9H)Gctz-IAzoqjg}nP|rXl`x$yOYtOux;}d3`mFDk@mFDbfT~|;^=BJap
z#5AQX2qGim^>qE-GzBglmf<{eQ#OH=gp<AWG$hi5OKh}*oI5`aE;7>xH{cyUQoGUx
zsHBAgaa8G~8P2XNEO2#?To!841rk?TAh<e$lIWzgY$aJ?i>wVBjxDt-)=4|8f9=0*
z8UeR&%8`PnP@qcxYUiXAwFYo{np1OlVZCGs)bw`3YSO8rAJCBLgzFcp;r`mp++Vx&
zv{}}wt5@kl@8h^6&UfKzHFepz*%6(|a}?%oveHZQ=@|qQo^&mb360II9a#@kKDgR~
zLOWN1L`yhQ^J|EyHaeDJMB+2lm0I-5_o+!DPKL%&VG$fd#@nXm@RPgv)Wo^!{JHWb
zrPjIYq+_CbG7{4F(@xJXjvN)~Gd`mR<p(GV-pqx_KOqkwzpEV6J-=~&WKq8T#8Q6O
zj2)IQ;GDw^+U$ilqs#7wL~+%v%Qr92w=A4lD&8`43|Mn%4d6wY>%)@j+1mNqKWO~j
z#s%B&wZ^tRzEt=4D;={}fhofmw16Z?jDsW!O751H&*c2HxPGQ9QB-lO|7QQZZNaou
zv}va6qaFL^&dohK-yJV+zf(1Ha<w9m#;gCZ0DDboqH)tq_grb*Q->oZRy_W=$3I{B
zV^1KNCzLdR{qL)aIVykgNi8b;3|glTEK<^>deM7$v+$h_2yT}hZnC_aZ=tZ*f(P$b
zbhz>JUXzu=&CbKS&F}3J5oT;T)X5ADxr;8mB@7Ahkc1e&QUvsudPRN$>iEXCr00kH
z*6@Y|7CaW*Yu49nuh|DIL$r){a;b5)#it{cN<$jHZpeZ!(eAVE(sN)@W0OmrHauy6
z-Aso8zPcL#z=RWstys)p2BbVJ)8Yl9q%U=Hr|=ZK;TUr1R7L0or_zHX3-eOX^jNC?
z*Ia4e2rW7CoO6k^m)Bii@)f8f^%ZHZ5Dfpb_^twc*H-PjT>QJ(F@=^XJALU@^fC@D
z<aaI{Txgy+!uUx#_MNud`ibGpm`{XtYji%t(Qu<12y^|&iJXmrw45COb8}i}1s|ze
z$RR#AgQ>+m(}rT3IL<r-8wvh3wYpRrV?@9S6_i0EaEPK{5eqHu6iiWb*eQud2JIAL
z1}+NI8UYd#hke7<kHR#(T}<H2)SsAs7SlW#4Gu@SJ8ZNds@j<f)o?UIvq=Xt_~nqM
zW<3JKN=!9f`5~6cX@WVV>jjwO6N*Zvdsd6fv$(XbY5AS!-*|rE`K6jeSknL>)mwjV
zwU)U)s%oEg!c1qy>yLZ=%ig-xh9h^5FE#Y8H1x$A`hL=I4z^&kuDPS^JlQ!5&eH(d
z-}t!5?h{q*ILpHcY!pQ$D+Nzk%u;&aD-^UXjNiVtoc}1mo;!d3*h<6Rc*EXU>E1a9
z0u<nHrsgcyZ27s>QkDBr&6e3?iRQLH^1kI=X+98dKJb&~L-4sjdt%;#^7AU*?3&;H
z{cgDAzT13=JxJ7S!EX+%gOD96Tdd+=+^<42esMn^&sdlKyM0IM9Pc&lIMU+Cz#nL@
zWgv%Rxe_^LOM#pR)xPsn^duZQle1^2ydbosyL?VD04B{*!cf_zFKUhUB-c{bUZo!I
zCQ8>GF0GwA=x>@RXwvCXMt_3U74}c`!G@h1yt7%R`;+1e1PtAfUn_tZpLB{Gf1`Pl
zBDoUZ{<wULJ46qFAHeq48)y)BzD}G2ol8Ir0@cT}rL+T?MQJ9>K>0n&PeGXG<I{+M
zp;*!ov(P3O+pzPt_4c);{6{ta-Q{rMo5<Y|YuXjtusgOJvfsj)3-B3P45!_uoB;d-
zdpT-Im|^kk<sWQccEjaOGt}o2X~e97(V{x)a9Txc|A>HT`kUb_#+1!*B%LIp4-1G=
zGcvFXP#6lsk_Bgl;3McFjiPLOiVkVBnO^}y+o1ObAuyQ(f{0Bgc<SJB%|NQM>Fz^p
zY=6hl_Gf}pVaonZJC!A|SemHR(K{sE7ddX;rTifptPh-l$}2<&PfYe<^f~n4o*)SB
z5cd=_hMgD=-SVtw$u=>W$$;Us0uTxFjI(aj#g%-D1a##cqS(MdY2Uhg%a$#i^=fBU
z){Oe*43K|~hB5ptWr&S40SxkuyK$sMDljg1kpSbGJPv@ofQlempgO@I;q@{G9%~do
zp@@21ho%gaDnFpgD7cQ1jnEXw^sH`#PF>REv$_)g4S(SJT~}<=!8_I^Km1Bptrk`%
z@=Frc+d!!#%Bw-#6}e`dIMuqecBN!XykyH#$<~#U6Y-K0G53j?-3SsJ0(2lN6d&qi
z794J!$IvBP8qd;{(*Vc^o~4uVEUi#R6)4E%S#U@ZQhy#PLF-;R)L|9gwK_YtnBUDU
z>45#qCM)6@K+K^3iUGR5j6a!e7N>A4%vYEerhry9_DnVoB?oH1dOoZ&@G${&4gI)m
zxQ^nZl^Uiqe?YIo>5>^9|16Wj5Ex6G1Ipf;Gu}hnFZCYBB!iZHo(7-sItgGvh>;f=
z35~&JeAGDESamR98N^9XF-rYgl+eYD{W-ZpNX2^BYX-Mf)!2S?qECP%S`U=3{CkX%
zzBn0F#YwTl!(be7=cnv_CP-CtY5V8RB3wiHa}+U4)0gtYd#~O3^3@lvzWmJ>zBwx|
z+bao%dRE=#EAEE4yJ5w>?F09=m}Ohcz3t=5O)Hf<;*~pADv!o1k0uH$ab|CkZMp~0
zRp;FP%+d7`VE`QqIFr0%@c?2mN5?-{+CL(L`Tg^c#oYTBh7pTd_H$060XESZV?Rye
zCY@_U{MZNVZR^rNE_<KaId#CAI!FWn+MtY696|!FFYE-upM|Q`%TP9?)J8FN42>FC
z;1XERK~vXVdd`R0-9E(P)H<<?uvrFE0g$-OD1(lgY0!EXGw{xH{yKcA2AKXG=Xt3n
z<vcj}WLwQm5t;HBeLBZtJMcoakT4V^@yGNy1u6;ORE|>c5neoSs0}-^7r>Gso2+8x
zT_pZJnoC!a0qiVCHjBd5;zqD6XZOrs`;)1E`#iL@N?bGU`|t?x#Wsa=eaks@^Aeq+
z1hc}|_mNRyeLSZQu+QWB)Q%e#<IJyj^L!nf&F^lucI>e8RcBKEXZku8d=D|8OTEmY
zQg1Jou7!-Cu%;XE25XzY;ZoHR<uG+Y6XpJE1UMmPG#rMFDEPCHK<NB{LQ__C6NRD4
z(HX7}6L^x^LvK8y5KLv<Mc6!G&5?YbhCsEELJvfNw6iEQ=M>t-IY4kzi~t!w!G;Xz
zl%F9`i!P2|fH$NIgHSgoBh~;vQOidOh<xMrq$FErHm0g4UCyVF=Q+;5rVT+2q`%bp
zDdYeukRhc(bwPTnkg!MH@X$;Qt{92I&Eif`)Qu0#k*<@>s~{es3I_pc$~^oFE2+2u
z21B)w#FINv;j&YHNT*UwSvN9qXnKAw3)NIm^rJbMgG#cbS5_(TQ&3C6PZ6k`8e@m4
zDRuO;jV8eXiv1}CuTa3&67Bj5d1F(CDIng3>J0{&IWbcmhy;VoEirQ_tz4%>Z&I*G
zDLqFRTeFLy*4)R;pVQ0#kzShNDT$qZ$n9@_pI-bE1^<Nt0*dTB4R*W%JDY$x)8`)4
z-PGP0O7bcNa}<#GN{%Wqc)&1pvW;P;1x#O)i*HF1#{@%6@WAO?$7xL5?jdNr5C@j=
zr4%9*Ig0)RDxP){)tZ6?>yBPm9s4mopi6a7SwTwt7b1iafM+d=02QL=r-JjRg8OGe
z!_S23zoW49?}X;K(ERs8@uwz>Xu2mL__<3E4~w6gY={a7KFt-xUNJ88{7iW4Q<E7_
zQB=41GhzQf2t_{=>VGC2V~;`2SsW|oiVw^c|H;z$50<98#q}|v;3J&i@Whg{dfJw>
zc|_lAWUlY##F~KU{c5||G~0Jyzz=+o?CKOh5lVNNK6F7ig5Qrk6-g_8LGu<iC+!q-
z2>EqMC&gTXw<hVPm<J#*nM1K$*d`~v6!XFVL^6+J`9e`mvVdZRf~z=LM6qI_uq9bS
zu~NZPo-CtSxscb8te{w>;4V#8QLLJt)lkeY<W?tZDON{s>nYYi<uy`l1HEmcSTor{
zw@_>&PIygjqS$7NwNflVZ`%-y3BK6|bi~nEZF{_OYpi5zJb&AoP%4^|I|XarEKyS}
zNL4f&ojWpLF!$)qZ^DTv-nxX6EsKS*qMeDF?TZ&;)dv&a=7ok>ZreS(Wj``h%|+*r
zEEFybEN)x4_*QkSVOP9n_ZkiA{oI3MeXOYQzJTBRhfR&RE8louz;6=PVeYbow+`4v
zmxxko<_qTs7PiN>Jc5H=VjDW*wTIUPj616Ll_X6jtM{JS;xkQqlDQUf|NL191H}EY
z)&o@0{$%bJv2dY&O~B8+K~b>f%=CTh>1h+8;AM%D(tFMVacjbrKf85SncW$8l_$-3
za5u-7wBi>#Ony<)PBDyiQIZm)TAO3dO|gJrvg1XiKY{->^`E%wFjEuAYo-V?d-G?H
z-nf*svs*}13ugOnOeCG`79^>6w(!PY@Iu^`NtP9jvbkpJUwHD997+NSAj&tf)aaC|
z+C)VSRg>cu>sT%Lz3a_STJei!=%v#g<|D7#O?S|EPOFNtgIKV+*1Qy}E);DEcP=$0
zX{LBX6aU?|^LF76`LnxL=b9Dok^zSph}E<u1^g}^U8A35aVeJHLc>C2@yNopw*pB_
zoNn=UA5EZcF}c$!Zo+XsAW_6k3wVg1q|YYWVkJ%R$0XVoPzrvM`7WfRlJQF=<0n~e
z6Q2;-LyFK-`c3BB#k^R>rX&_>-lAoVev*YYF@K?Nv3@bK*!<QrRC50N1(ZIYlIO=-
z_E7Tt*uh>(pAQ}rhHS^4d+xpB7JPluj9=E5_{G4LRwnHfbLjo(q&t@Yhrjjnk@@B~
zo>`FMRa=vko%+%}vu)Nq+c#G~7ny6m`OLf&FWQKcbmG=cYhFt7h>7a+Hzb+^iPrW+
z&)4pGpBKe^qu=S~ZV3PkMbah?yTzf6C3A&0_a>d}7M>1D<|^X_jY&7V_rRl4M#ae-
z_8gv;s?m9|>MgOY@I!wXetqwtT_=*PYEYQA;<W;nvdbbI>J;ypy`s-(5yk5olk8dh
z_QmKAu`=)sGhycF3s0?C5l?R5*;<hl)6h)671i^FZ(!0;oM&63c=B0LUiN#Y1EOzk
zASvKy;q2n}xB6N1PT%`S-+k&6da6x%#L#6v@oVBjeNv#`#roTpA8uS@anx(F-wkZP
zXWoZe^r=hn+J^b)@0Nc;&$W^$HYpw#MOP9$==vrsp?mh+v>A{1-Q4`yvo|iyZI9>H
zB&~RmHUM;o1&>uZ6Pam#;h8lzJ*o4ECFok(HcFBWG_=iud(I*eXIEh=;g^jie$z^#
zJ2sMR=qNE2T#V&!tz2`{?M@W*i9Js&WToKO$h}5S0d6Y&_v{|Luivnc|3?*XRY1Qk
zX~qLq9e#}rNlJ$5QVpM#;@0vtCq1qvumYnC|2=CptBkLG#P8<jF@QzSkpj6JW+Jmk
zX0F``#I0p>N8?sB5bw0krBpELrdF4UWvtcsO=|?*r8i>DNl$jW#F9mcmUv0Byilya
z1MrNWdjX$#V6J}N^2SCQ^8<_KMd^nw8u9};Nt{hkAI6ww8vW`sjpF(QMf|SSHPiRP
M*Y8^qXB6iD3u0DNQ~&?~

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/config_parser_base.cpython-312.pyc b/transformers_utils/__pycache__/config_parser_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..08ca3db3db2699324098bbd2fb4cd79cf9c06c91
GIT binary patch
literal 961
zcmZ8f&ui2`6n>Lmo6WY}+O4Hx4{K?~2<;xLAc8F-UX}_y?ImP)X4}yGaxz=(o<w?3
zytJqGUy%MOUh1t32!eR<mbw+elW&r35eM?}ee)*o&G+Sfnw)e1S7>|)Y8t>dMXr`P
z2BUQZ$3TIS5F*kck=D_O;##OjM#m_y9-5KWu?T4J45)Dc)MVsTFKcuv`<7ezp@^$V
z{mJ@<obtPw;C@d;Ozb4oCDPdR#SXrwH#x&h5Hq@w#Qk8qR~9Mb)R>I65F7)84x!M|
zm|le{P@8JZVCJv_Ky_wOgBg?*%)CYxt1z2Y``Rt6(06F%z&srn?Ku0yt;*@L@21Z)
z#@GFfwWS#)l!fw!;DbzfoJEOXUJv)A&Dma%1xYL?7029|S}0?{<KC5zst3WRhR;aJ
zI0k{STyKd>+9<x!PQ>#l4Ozru!RS-Y6Yg5l$XM9tRXoep596u^pTHok-B&)}&N2&0
zvsiy#v_zD)(jZ+Cm||k(^<eGcgWWaO3WIJd-ABLU)?OG!Ewnk#`U#I1&%A*M!mQOR
zEcenvyVphWtLeTp3qG9t-<Z{6U)?5C_j&`DGf-bVv+s<M;lFOT-I}yLFZLtmdD8Jb
z^l=a>JmGmS2Yy&)xPix|juXL^UDD_#NhnP*KqsU@gP!0@Aa7v!2z*xI85QiSpxS3@
zQV!tUY~&6!m(G{&UDRxI@oRnNaO?drHxcI+EHv|qLN+w!PK=}bc~vn7=5L>D9Sw8!
zMLq>i{hc_wxqMb%{#?ELvyPi19jw_44N=)&wQjq%)ctOct3fYCR8kycG`bWr@vp_D
xhT_T#>io3~X+J7`dCZ%bP*akr6S+<Z`E3JP`U3Oc!M(H`vUr&N0(=!;{{`xX^JM@4

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/detokenizer_utils.cpython-312.pyc b/transformers_utils/__pycache__/detokenizer_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..057d0dea64fa3b3e684c863a54230e2ed35eb8b0
GIT binary patch
literal 5861
zcmai2OK{u98D0<|2|i>|5~-JE3$|og^h2^^JGPuSwc<x2Kcv)BCykp9LlK}2nF2Wg
zXiFY&MrqR-s`X5i>A{>f2OT<7XPiThxpeA#FJL5B4C;eA&BdqEBe#cM+W%iXNGo=;
zLo61%|Nj5KyWjs<{-vcQOrYer-^hR5MaVz!!z~G?vGs3g+$SOtnH-sCt}_e~eUeXN
zMfPrxkRBM#`b6#%?m8#>B}NS381{-m$uIKogd{c_7Q;Xh5F^)vAtELyWfUlRk1`~M
z+?f(D@mb0v%Zn|a_^*d4{SJ@bqs#`xR^S^65#ZWMsbU^go6FDERBV@cu>+olULGHb
zr7}6XnwS^|nbAcy+4Yoxg(Mj(I<73v<Znred{<JffR0UVGJ~UT;h@37vvnG(`$YG~
z4D!%vpC><WA>>0JAtk2dGkhO2_d+6L5QBLW=G<%L$RbJlCM}d0l9b}Sq^5N#$*RcP
zVr0v23q~=5ApGaOQGLEJT96Be^|X3J(hn~bPmZ0sby6D5$+M${Mg3-88NHp$&5!D8
zTG6t36*y|CqAusOQBk7Ia6xv@NMX_HPN`BMm(EBjC9g=SJF<Q=CCwM~MKuC4d3dw|
zsFui+_^wL!ukn4$e3>bqs6}GSXKLNO<%=sve?9TcPZC30Kt`;PC&OyV7xh9>PuWYb
zI<#AIA*B_hjGWH7ox8LG$ktM`l72^$l<mU-Rnm*9lELk8O8^>l+rNfQzE5tD5(kgp
zAagE7)4LSVk(L&q@Vo8C`=QfxkE|3ld}`u_StxN^aj6wXWJ<ijz(Kzcha56O27jBV
z%sn1jL1?{U_|^ReHy7H*06u-h2pE2sllx|f;h)33-&R~bVf>}sj8KEay?21eOC-KP
z^8p8v)UKCvd!=ry+9vwu0My%y!MXCMiOBvCMUtER0st<kxVOom)t$*Jw<XmD3&10#
z>8h;UuvksftyaK#DlLkVn7W<Mq-U-6bT0Qju%rtGNf9l7CMTs;i<`^KN;0gXuIdh~
zTCs{jWreijY)Y3Fbj^xoimECpddlrm(GOa!P0~`Jg4&IfaZfe$pkRznQSs9{oO;y)
zY?HFNNlGR!f<dbNFb7rAHlbP~^*++KdugJ!chKbGwf^Ca{_$%6xXJZB>FlW_H+qj%
zdylR4o>=RAeQE0NhtJ+)%M%;X;c9evolicRt+T}6wZ)V6{<42F5;NmN)yPmS8V4I)
znW{zxzHRNV#d<bkLKS{{#>~@~*7jUpk6o$7gpJrxH8!*!8?HqY8_~XMw6F4$$I*e!
zXx~P3pc)-mz3@1Cpq>EM&pHX;UE|v}`0gtFdXAc}y}j0RZk<2>ZE&#G+WzUn@<JuF
z*1Ff^_tqjUpPpPkxiYpE*=2IO)F>?SDVm-YE~t5ME-6{mGM-(+01i@{{v9;#6R=dz
znL>wC3`Pe>YL^HEr@OH8qOX@2zAxE_&Pa*XJsUSz7m+1ShrneQgKKc195`>TU-xXL
zF&FHOHT(vbWv5BfpZ0@d=WMKMf__sH>=g;HB0<l?595T8Rz$&eT{clucRrg1IB8*o
z5BO(6Rx+wI4**Q(1kXdKbvdt$gelQvUY9^pS{IbOE&%R5A*v)esFOq#Zd;5tB1|c{
zMXH=57iUvmX_%r&;Bd9Hy7&X)1tfkcf6D49?)c;v47IAKxVK5am2j;9wgYY0asA1O
z$%&bX@hho`$#d5(T)i+k1MTw{W~MG*n4GviJ~J^jnVPzIar(lH#pWc%V&~HfH2x$5
zw)yS>_EeA+R-`*F+lVTq#gx6FR!c#ZvhsrSsi9x7Ez~y9K3B5_0vigdhk^PHc(e>u
zV2{0|edk8ok!stK8sEMiKVx>BdBjvZ#?6j%CV#%xH(K|T_M=;bZ4WG6dd`!M&Xu{}
zjxJq(67Q-+)`zC5-Bad|udT(Wm#%)t^;NE~bHlYrVx_ct%ZwZ~xueu1oLEVX!2>qP
z$6!Z|Aqx!};CwW|Bq6}CuP_bv2J_G{nG$DkOFjrooZ*{mHZtIbrQxU<a_=An0UrR{
zclW#VUV1>GBP$TQDXe8hlyA#o5umr|U~*i&p`E5M5NtGJQgOP`6p9)^a&}Re2Y;6n
ziVAo=L6<Zeh0YvY_-PkmC{qKR+x9d39!+J0oUG{x)A^)r3)g5m;E8Ug%4hA#jun9U
z0U$KAE3_reo^OX6pA`@#>WMM?OZsh$jX>LKp$cH^N#!)%;_Xjabk7O~G;}Z&S~jwJ
zU1TBVQQ;<B9S72Bc(jX9Q9qyPTDtnT_^vX)8Q--LAFRd)S8uLfUyC0phiZ|y8R^5M
zYNEy`Hu%0O-&gtIF~7eaA&K4fD2eu%T(=FK7L0%Nh;SFJ2(0zCV;1Tmkfk1kD&sjl
z_&|f8sCpN$1}+v77hFB2JEE^hAc^52?eW|$=BOf|2;8e5+^d7558++%l~}~qlJ64v
z1tW4sFymYB-RcFQJDSrb7mv3<o_bL6F+>@Dc?xC(Z!lDfV+Ey9le-S-n1s^eI%+j&
zgl;gUkiv?7d>cL^bQdT}VOWFD2tyB<!?3)qXff!2N$TRJR$3CqF-h1~j4*@%uGh=z
zOOaR8VL)<MUWzJ%dYj7(cGTem;Uw^7;33*Mlu~3n4Gn59(nOnfHtO<k>WjF2cn(^d
z5uNL>xi{Bh(4|rXMo9GIs<PZPF`Bu1oKTBW6w=rzgiOzm7-5$O&P?*@VOU1Pb=cvq
z*>`x+4MNiPun4}~vG_0=6b@rZrQML6InHJxD}2<1?~epo6DHxZatMf_nJp?AG;!gM
z46)HM#%(T4&r<=8cWJ0W$(nj!kS<KYr+P=$K$5K6?CqeA(<sBn0$!#3%=cAH=d`?&
z9Z>nm#13A99m`(eg)xrGa>gLe&q}s`l@(|H0yt_Nua1qZVFvcmNi}F7Z$y1yAWB&Y
z@(Ik7m0|&MiW_+qE`IYGWFwTN?H+|YH|5MtDjYgw5#6%@nXHf&=(SCN^aXPgQNp|%
zl63)20k=?tlsXSiAG^Rky(DP75H?U(dI%UrPzFSg5h|9VqS@1(7LeG(*9iU0r6Eel
zBH{w2dxrvj4K_^(vYB9qoG)V9hB@1a066<0Sb0jJVkpbg1l4W=QUfQ=y`FXy+{goq
zefCb`;^_vtjB|jEH8kZrHXU|+kLo4&?9;;gHzklxcNfRu0O>v4UA(uj|9c;Qfeiw|
zrUpRL+q=uuV}`49c9-@&{V$YBbr77Ax(_Q1N=YBh?C8a;h<@gufBq9(+b|_lhp`%h
z$_mSxtY~^#$w+V|)Kx1eYpE<8yxN5{cxR)xDvJjwYWO!svc-<;CvfO>th~V35NJgK
zEq369Kx(xhQ(1)=j`pM;z*%@tqX8DPOT05$Je`BLM+_#oNUzu_LARI4OAw@+JfJ!b
z6BKx~UqPgWgy3z4#P_VWS33rmu58BpSC5<V{YzKB4aT1we-G|tkTFiL&YE3G^GDa7
zv%VAIDu1-Rb7g+@XY~MycA1gACbt)A_~Jw5E9=4J=f^6Gzklm-Fu9r7y^%OxO&qVa
z^pq#fBj@0n*m+`$_&USo@N<|ADeE5w*5RhuJ6P#kzO>ody)sh{*FcE_)%c;MtIvRE
zqL$cO4%fp3E`Gu8Z-U*cp$%cIDvYfQZ`3;bH#$#MJ5SZ3J(a@`B4+gX7VGN@mm{DJ
zBsU!=svRf3ntycl(WLqM^jgQvGXGuYIapMKz9t;29eC$?$d9w0M@f8~amOnoW;E%I
z$HQg*`3}NI%BOx=`kbv?Uh5wICOG`y-Hk(Ms)x>eEv+9q4_d~0E3Z{b4{n*QV<tbg
z+1llhn%xJ?)`Ls$Vh+Bry7SA-SBKX|&YF?4CU=(RQ%UAx(syyjg$$z5;xLy}PeYSl
zMJ#SMpU+W@srzx9l@%TSpDPw}k_}c&_UHkt7<(yS8xH)NkOmiX(pxH~ftX@x(@@u0
zhGG5{Cd^<xz%n~mXC4fE#eH$0x(`kXzU$F_%<fw2&N>V4&5o`L``K9C4{g}q-re;e
zws<l)Tn}L@Oah^;2)1Sza(KifNk|y?3_S}bnAa#1cyGqyE7PBa>V9ZDOt8h1K%{(p
zg<T$7$yAP+k=<2)|5gY`jwF~KXL8SGYsbpD<wcy_1Cs;c^1#O*YytZo1o57s+JTX0
ztv_WLI6~B!wmhxr7tCt!T*-XaQ<<r@?WqUtPM*ZO>LI%wChduO#BN7%ku7$62QJfQ
XUXQ(??J8?V2CDwS=WUddZu<WK`y%)h

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/dynamic_module.cpython-312.pyc b/transformers_utils/__pycache__/dynamic_module.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c040cb6014e291fb4f5ea1f64cdd92426dbda8f2
GIT binary patch
literal 1832
zcmb7E&2Jk;6rc6Sde`2yw}~CwaZHxFZ7^+O36M%ZgjA7Kl}OTxw1_4WTW5EiZnECB
zX4gp^EmA=o8X*<u)F5%-zy-Aj{scI43LIFCibREaK;p0=MXGw@O`MOmNJYHWzIpG>
zn>TOX@6G%u%Si-e#XdLx<`MdxDf=|EC+z$Q!d+w_gR{^q8zUCijLb&3o-Nvp&Bk`+
zs1<MWvpk0)2=h2`kLyL46-4y!&*(E^STy4B^H{`aF}uI<;kcGSu<I^Q;FKZ2-_t}a
z!5Xm<DT4E!Es0ZDd}ak`dovQOlMl4?fs_Heg5{o9W6(JAS$sC#;i~<AuoR}N94#+k
zPt&cs>uL?+G&Q4R*PEuUH65dEVQ@&9w&`h>v#@{(&GbA8ZeW6K9n*4)V2{*I8yjp1
zwlr9dHHT=ex_6U`dR@PXHNzw{-EfEwqO)RKPTimxg55T_9vBiW;;fq3rE$+$!ZsBM
zUN&9Rv8iG?dfn0*riES2v8@gj32r%>*J)uY>#(hM;47`vi49I#qi$N1hwR$K)}_OW
zBN^lr{5#(Py9>B^dnh90BcE$T{D>d*V}9J{{e&<0qMtOluS8$^hP%VfpbGLL`_Yae
z@+OD8*uK699rhxTh!L?lBl@xIr^uiu?9VT<99|$J#xn3_BYvO17w=7S=sM~oR?uqn
zI$GhX!kU#-fiAe}4Jf?rLRp)bxMR-)r?oxPa>rf@?u}Esk>=Z;YA)CgG3^DlZg*5n
zhyww4C#xcX4n>5eO+?1nbs{Wx!iq{*HA$MW3^1CUVoflkJ1xA%U%IGXYR|8!*X;Vd
zg;mc{8S?6JS7oinM#ly|b`{!8z^l4u+6`yA%9AJyB~GmBxaF}1h+%u#rTrgFPEKjp
zW+t?$%i|N1Gw)u$GC}#h&P*`e;RMw*VTB_MiT{;4QP`&Z62w_>slZx}?d`I&v4S7c
z)2W)*Y}Hz3Yt#d0?2WFrPoH^v=`^lc=6tQy@oqYHZP~J#wPz9PK~j4jr?FOtzUq;V
z_EMxs8IoX?cJBbYg~Ai1c=kc&R3McCsT#&*B^mN4uLh-RFmy7=mV&-~kShn}(O_UW
z7#!KoGmiqw<hF}ULb8~A@^}bIxxbJEkt!p<RL=cWIk$2C`@(JEVJiPX>ic4PeL7Iy
z2$bPK84Z*|P%MWjB$pl|UQTZ-NXdppSo_pvxPLlOL|>k{kc<A1<$za{(-)_KfL*O-
zXvA^ZA^)RU_fThb8)JBr0SHV}yLt~~!Y&#WwB8$|kpferu1BbF1zwv;a|zSfyyI9j
zW|+E1W9)(0t=+e12YeA>FFqB{_a3)*$m^i8%kMq`7DhRa+u;$He1zV6gbKf+%0n^R
z{qSe;m0Nr$p_8?sqz09d;CM9{t^}pwpnNnKQUmoElxDj)#$|(CA&kQKTjfL;hY>JQ
z`n&Jno!gk(%BWwzwUrqO6U;84Trm`xltcrAo8udEVTx%IO80duUAOz%`bV3_mV7jn
znK_LlrCV7)yBXU`4TTwIQc$L^JHEac9${J^%9p}^CS}=<SJ&6V9Mc9+HouwOI2-1f
aRzUsvkmVT;AwGF~{FAxIWza|!4*w6s2k`^|

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/processor.cpython-312.pyc b/transformers_utils/__pycache__/processor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3514f2cc9030629447ca751ac8f7d6496a2fc068
GIT binary patch
literal 12491
zcmds7Yit`=cD}<I4&M|-QItf95+&KPX+7w-9Vbq#*mCTRt@Uo4WJByOLvuzl6+V=i
zk!-0{Dg;JWyD@ehY+Ea}7prZ9Lax(p3KXpu?T<KJ6btkZX(=mqRzbaJ`lJ0tSt^>Q
ze|pX(XZSE}Y|x<Cb^zWvbLT$Jz4x5&Jcj?^a99ak3GVIqPY)6D&-kES4JBgpGE2yH
zA`pQ|kZ|$Ngc*1?Bn(M5%raQVCb*<AY)tZDK4}V@lIE~EX$f2CJ1${O+QPP^J#0@p
z!j7af?4<R^L_^XQc2Sy7G$!3)H>FL9rlcqAp|m;Cob-mhl(r;VlC9xZN?Q|cNnhAU
zX<MQ_*%9twh-j2};KiQsCp*KP3^5R~Rd9$N(eu9ZHmm}#a2Ks@5WS+eqBdY4&k@0O
zg$Rvex8Amg*1Dm#N$k~Yw+S9`yVxgg7n;WmZ7}AniI6da;Jw0ycZjUe0&iNyonjE*
zjd4QT749}p4Oe)V;1k;G_UD8S=-)3ef?xCqoi|ybOAHDDkr%q*&fpwEk2pa4cHzj#
zfk>%JK7?NA(JFS0IfZRk`0yaCmK6tYGjw_q9s>TLR~3JK75s(1#QAr?{JTZZ7^AQG
zH{shX?7U(O??FC<;7!9Lb^%s7W)*h9414Jc_v$O$M`y$LoX`(Dy8kyCX#hq#Ku0>D
zk94qNq(K<z5FLpTh8}q~Avlo$o=xezkPEx88^%6N$3Co&{e*=Gd-Z*(?ZXRuU=NPW
zFu{HQiU&6uWK>H+nu^4tv5R8Rs5;KSa&9DY{M5+t=TDD5r?SJT8I_AgWkofQi%KLa
zjmxSNDP?9-j9iST6gkMLp5ZAaeNv1nQ<6AxS&^bKB`v9LtUaBKj*I7{bWD_GsB>Ul
z`H?nxDK3cRI^f7#JyblMIvc+nPr)1avr$>B9ujJu`hZpK9vatl9+-Y9DnS=tES;Jb
zB_)zf3t}Q7iIeGwl8#J9m5cB;K-Zc`q%Vm=<h4t%>PR}3n2DsJiv--t(8hKadmc}x
z#^U3uA#yHgP>mPTQz=0;3F26EDxpB_OR=JQ6iY+tVY35>>qI1oc433SgjvBLa-iuf
zNP}^PgM+Z2ipm$G7ZT!$cubi+WDUSI91!3Ewj(Od1eA+WB@m0I0vE)<MQAGufeSMM
z{Va!Q50#fhIFwYZq^6Vs9!dnQ&6AW3MSrK1pp1|VnK06}RfPsNny_j27sxGUG{~wP
z@}XMBr1Y$ql0`)|#uYIs-(plw787GKP89h3R7goqh9={ag9>b{s0?17I`qWh*A9uH
zMEpW%az?qBPKBluiDU=_DJ74krKBjyktrpfkVBK2Bn?f@sOCrnXN*K<n=5x~NUQFH
z`Q%n8=E-_P)9;;L6n;GM?!=A6il=|2VIXTB*u>?H-r{kjR5U3@BC0ilA~BUf+8&9#
zJ{3)r-k2g0AsvHi7NlO<20d>PX*=AcUMzfC(FKIu1jQAyVK5lY1v_ILT<qN<a4WXQ
zrvG!nI1`tZ**zt}NWjByCK6IR&aR(1Jm5)FdDsQSby8m*w6oUkFA&KO&4UK16K<+e
znVL+9Qa8}WV=itA?o#=1kYoLDLfEtsisIpnEN=VZ^D7O3tT{k8X;i|~lLoLTZ}Jd6
zVu7qyZL*m$b{99fyVxFEsSaIUBC&)#RJCjl8qj4g08zQ@3{f;qCAUkIY=K(rL9f?#
z0vj#`6^ULGW{oP}Um%K2d&&TAYa>Z^P_DY|Gvo!>&r!7j6et;)1kIJA@sub8dDR-1
z<0)B*redPB8%CATiIQ-9X&)4-3G^VUD1dCz9(b-e0<|rIU{>CTF$&Hzk+GC?5Sn6l
z`6(#i7)*`V2H$I5HSJhF`nRL^`oFT?(6QDqkfW-yZgMWnWjjNwrrr69>if3VEZ0hR
zT(wf9lyRpYBV>OHb5-uP1}bw*hRho>4D1`83cWH!6Sp})$rI#TgM`en88%~>hBaO_
zSF|)_ShSCNdoII4dr-qUV}_{*W*MW_mLXT0IdV0`kqmPYyw5*oW<Ai4L0*FFDA+ff
zB3@RChCo&waWrYN{y2^1OMkRSr-XRA^zvzx80iTtaEqlQSUd>@fF%n6DWM#wY*c_V
zmcUOYs#BN&xQWNK(OXJ;O3iIFl}am7Gyt+{dhHUm!KxF8+82meGD;^}jX;3vqB;<X
zr4tD;rbP5P#2GnK5;kg}<Ein|#L@}qjXcY*LorW2?drKPH9wj+HD*n1`38U1?BC)^
z*Whw^rSou>YyVZ#`2|zn=FWNt@7V^|{r%a2;~zek8#uG#Kf5sctM=eEQ{L6N=IY70
zdX^4-?CRfONyn~&iFjUQ3RYrly61g4$Gr?Q*xIsOTT!6wMdJ*n8f>ftXF_7Aj+%1f
z0#OAv`vA?Zqs^*BHF$xSE?yuu6S`m(-(i_CXkswODZ0(eFnX;~0SCEwWsDgPTs6b{
z>}@<)xaRl_KVd1-m8CW-h~Tq?d=ogHGtHSR0Ku%-we~tNI2A24A{nzbe}>PP@Eof8
zx@!A^G8|CQ=Fscm-d9h6aPuI}+~~>k;HkJI@%5>=M5UOzHmWO%?oMPnDwQN4XjPjL
zIg;SX#Ni;K36LM^?6iSB9v34?#Hf;Ar%4SWiiCVf0W9`Ip>pW7Q1hsAXr?HB2QAVF
zwm`H}`J#}k78tTLhl9>ha=t*?OQ@wfDVv&CCadgg;*4sXjwYr=8P9>rds*gP5uMlK
z9MXAcbQXT{??W+93U<=yUvurvx%RHO_RpWrd;DvjLpjf(JN%00nfbGyI(IBPR-6at
zpIdJ}kT*Bv&CU6?&U~AH%VPBM^P>efY1zK!-Ieq1`lWZ^yVeDE;l*`Z^EL72`Bhub
zde6}E)Jo5Rh0(=*IeS;>#mChz?%BHv7Sb{Ztk`{;?4P{Fs%A-?2Ha1l)J8>`k`?e$
zlW9eSEfU1y#yQIefGV$Y=$}h3!OEnUvA~7uHV=g#@dkx#bD^j*%)CJ`%rTY<qhEo!
zl}OB%t)C{aU=!K04Wu^FujtA!K{Eg_SH+bf<4lJ8Bj(Te43hzG_og9Ze2@7)Gsma)
zDh{n-<*3?RlFvXufxp<8X6%#U;zXOJ!d~zhRvTOPl~qSDX4o4<;FV^b8(vez8{|iv
zM!(6RI`tC8skPfiq?S2T#vnTd4pbdI8+uhJqv=gU#`Gp5Fmt9iOqZBT<TCpTxx@rb
zvq#RPqe37W(9bgfZZG(AVqiQzEv5n#2m^S=f$4ZOaB6CN9I*OiG$sy>s$3G>gj<I4
zxzB!jG8#`nK%k@p2^<&)(uW=joF1#L3B+ZXI|d?_PL|sRz}N(4L?sZNhS4w-3B*&h
zW5x7=N*_G{4!i`h$v^<KSO&8w1;EHDz-i#sha~vud1*>~6^A@?=4=2~I|VMzI354h
z!9m)5uqg0@DDbZa#uCwSjf3N7P7lo<Je>l?kHhjHtP7;aDz~M)jG@5D<w>x5xE;{$
zNMP1I5V$a<zz##OR;mlyBsZKE1+2Ob7C2z?)P-0gD$A<%C4`$1NrHIR{`IL8z+>sj
zf&pgn1&5OX%6$WeEo&s=o%9M8sGF)qKNXb`RTD&)k)%9c56K)=UYsOC?>PKqw0!_$
zZen(2O)dGRwgq#+&};Opx9$62bfxY1f)i0E`QD4Gw*KY0pF8h`M%P=nueBb?wH^SA
zTwwV&=l#a!4I|tOJn{A9d-iQu@WD!&+BR%JefRX1lQ>%!9q+xd>NuEhJ+SEbg8et#
zq^)mB$+jL`p3b!%TsXbeL+svb@g@JNEwt`zDHs?>XTGz4F;XDRVEcM|*OKMNGg)7M
z!Dw&{Zn9j1wLmzF6(O=Y%XvQA3PJw|#A)<wn2D>qz;TUF6j<W$0H;k|i<eg1JC?te
zwGZ8QH!VE(Uj;uj{G3LDZw>Ezwwrv^Z8^@cAMJ8K`xN`pQ%0br3$U3wR03U&iaNl0
zUni9iIRQ1bSB3AOJE0SLfKYC&0Z6?NU;@3FnhOGll2?NcDFhG9gzh<%o2DR<FlPWr
zC5m1-p+l2i1<Ax|MrtX8QyKWmevm*@kJ_x@j+ecn^2*Q|tGVV_rA4cnz^J?C0>IT)
z!YLSp(o6G{=8Ou)ll02yFgt<4bj_vp0N-kR$+zMGc=?I$nuhQw=yQUH)S5AtSDrCx
z++YH9&UkePct}PH={?#w0O<~fJj`p%@Ct-#I(&1ZRGB4|3e|P4=o0~!J&%baIp|hR
z5W67+sTMgto}yVYDT<9D?GOWp2Gb6cQ3=ppflP<Wf~u?5vQMw_5ivQb%ut_PLT^;s
ziM=iH<YZb>0CX`XL9&#(kdESO4tzP8`eCYBObPO(xB|(Uk;^f05<`ffnaaFsqa2hx
zu$GF4s;I(NN{Uc7gM|mxr9+n%t8m4a=?fDw`Wc!lR*XJ+tMIGTr7HMHOVaN^w?BcO
z{5ceWYMkHL{HfQ!=G~F=?s%VDe&u$<+RkISoyS(Z!)x9%Iq#V@@41}!T;A^4WDPCW
z1=|Ksj-Fzc`qz36-|IR2i}P7?*L_>h^8UYU`RmTV=*;dqma`q(vJ%fRX5H1AZQH%#
z+Veqo&b1%9dz=Mga5&*@d)MO3jnJBJf6ljm;rVrU`<gqLa|f6ESKJ2|j(-{)xZRw!
zcdYxnmwIo!^5e+6kze|U-mzTcuEp|AE!U5}b2Qt%@8hQZ_gi<a`%Zo+ulSzdV41cv
z48%Om+Y3h083G{lY|GkvKU=qX9zbHKdA-5?_SE<61s3SfWt93iho3xtfZTn0cpKdQ
zuD21(15GDv?9Z(XlsZ<STZb}1-MYU5qB6M7KuDW`(D;3(9I;e7L7EPL{ut{8$z@&p
zf%ylP7#oKO>|5Zd(TK)8XUUi|rfCLr%LbI?hlZ;S9GSDu!JBdxDMQ8pxsVHixyfd%
z)Zw#bY%joA42iLGmO1k!a?3C(y$IYxWbC2IXrVf9L1lwVbI|^HqgoVedu5QTGOwx3
zG$dBy3DB@|^Z*qph--97mJwPtxy5@?cKhow6hVDTPgO+IRNbX3FvKt5C%*;7JlS%S
z#_f5tH{aNn_x0z!y%0Dw^7E&+T*PzegPE14;rTOQcY~py+Hcw4cdmNR-E#hfTVj^>
z-0A-Cse4DhdhPYa?st@B=loYe&>`k->4(w4Y`5_DwIRV?xA0)EZ9cHqE&Tjf3oc@B
z&vL&1+-xB&Ut?r+oB!NC+|2)t5egbaLk+#qUq`dEiH4(Ebn2NoI7%|X(VkTW)YdU}
z8Sr&)vgMcn#c|94{<r~!0Dq81oP&XaM!IjRkvh5+{t||3x7c#5NRd`Xnb%LJqjWm@
zDHc(slr>m@rvC;%`72Psaaf7{P~PlWGy8I8A8ex?w$Z=V*q3YU%lrD)e1~(s!*EKl
zrFI?~+u9eOTK4Cx!*}|ifbF&O1;QKoVvg~fFs81E2>-YTR1xn0QSCI;kE`nMB}7TA
z9wjjlC2>?~jO8RiIeh?mtdcuIjhB83G#=q;JYtwLRh)rt_%b}iBRs?->>U3FUlEUR
zvuBI(NGd?HS%I<Qr=0*~!HVB@9vPlk;aDCDQ6$`_*{wQ3$wLF{!O25!s)Cd<BfsTA
z%4pD3j4V*kXs%ZJHc}BR@T?>Zd%+gh#0ljPp|P|R5q-^44EqUC)UmTPXY+8Ex1sfC
z*yDRpV7$;$6(V%(Uh6oP>o}ITqfYp(_Z^K85%{fuOkQxzL!b`uU?mOBpaOnt*4(x=
zK<utnS6_DL6DzhOS?<VZTU}q=C*Q;{`^_Cske^wG+t|AX_ppb(>oEeYs}(c==eq<_
zvp{^=AO#R*s8A20AX?IkLKTInB2=M`LQ#f<yaqbx)jYi0Z$YCP5R-5X5Tw(r7sh@v
zYOQ8rwv{mKp`og<>>cRQ1wOQV3JAb5GqLZiz%pY!EZZ<aHMB$^TMZt~Sx<fFg<``3
z)dgZKA(_70|DQl?SOYPdurFr>9tmEL0IotE;Hnu?hpn3WD$vpm)NgxcMF%a^gu0-G
zq2*&hi@IQsg{dY~9J*O$?@Rh2jM|U#jYb<l%2f?gp1w8D!JOw{5u}<+Ak|z6Qt(g$
zsb=efWow9HRL|1s728mj8~SXk`-?-AbQPG<^#kbN7BrH+54->r`6|5A+8wP2MD$Rv
zLEkC_>M4y<GeQ;q`~h_OdNuy^eKGubGG{$`XBvtc`~eqF&ylGux}xBx#PXjmq(zut
zKMC{!(STBS>+gYhw7ZpIFEcU^k$lNf!tXYa8s;DAe3etw=zJAZ)TX-5m+3Lim$~G8
zSt_iHMT@vHW^lgD)cG>MVXkt%j+K(Z^uywp3tKfq>abN)|9>2|Fp8@STln29Xsz|N
zP^`*1S^8zA7Qj$v(6cRG#i)=%7~QxE2>U~5_-#~?(&r_2Yo(u+Zw=jR9a-Hsvf#*j
z_FOx==Gl|;?D^ltGZ~X~Zw?I;a+g?!1MFRkd$^sw+inE9eq@+|4qvv@^>AcZ<91a<
zi142X={oRGgLSoAUk~f3Bzy<@R)>rl*wqYC1$IAzUf;o!d>)8m;8+QE^#jMiU}fOA
z8Z6^oP2`BV&ft?$8g9}>DBxdHQz`h@TpIp6fyk!v@cjUCh!Te_FaukR7HIa*j1BCS
zUtXwpDN$s{U|zy?tJ^DE4Ar=nkO3_IrHTe1YHwBBDkA_~lv<+ISN&BjOHf^IgK%6k
zTGcL>TcR?;mrc4%3~t~rWBAVo3BR1Fe*6R2P~}ub9){@Oz-UONHq$n=VhDGy#AOrq
zx6yZ{8~`S(C5$wrRxI#9i+|TTgVYcfQ7m?2aS#idKxN@ubus6PSqPQ80H;Ggyhv|g
z8%$Qxtc8T`iu5)XKfnUrbn44U2m%sXO$l*9x`_qKRn6a;RP$5C^y<^nZFmbpN95lH
zDS&Js!)%%f)A%dm{DgG<6B+rKjQj^@WDJ`Gihs8g<}~vOdG-@>n3miBg`5E5*R1Ok
zZpW{U_J#9{ogZ|r8jsBz{t=(DZT;B;&#f9y%^S9OGc$N?{}zGUmX~L`k%n8r%`<Jw
z=RX*^v+YCnPB6FsL~iiJCcJ5bZ%hVT!Qfzgcg`0G+&+x`qWA8_2S{$R+Pgxajq&B(
zT?H2I_nTT4w=Z!^u_a5+w=37QYtsm|g{MhJAm7=WKXCkk?GV$P_p}sPxZk%q3r4s@
z(AnU=cH+Ae1rt7*Noz;Jf)wO!TNe%Q99|TcPAt2Ba%wrYbT-$yH`lbcfa5??wZUC*
zAmt>yd9wki4ah^bb}#u?T0&Xkfst_uolNrwdkX|^cY5!{ezx-glBFd8RXD{|FxbVk
zQwHHq8H9TUgZNZr5UIy8i0_LGB2{D%DVXfw31-7+V|co4aK~+{zf5dJXD^tLGUGBW
zNc9vseqiZlo}}!;ow5t}3U=|S$SzXgD!VsrKy3gMfnYZH^h(z=S<+G9EhT2)e&5-+
zX@q;BvphwpG)1U1MW||ukUm97pCW`)bneLRII`k@GE01qogyFF_rTW66lZ}uodxa{
zv*1&4AxK$CXU|g4yWd#m-i;KnC*A2y2T&Vls^_(mzFl=UTX^T0g1)_5xV<#T_uq=w
B2HyYx

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/runai_utils.cpython-312.pyc b/transformers_utils/__pycache__/runai_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3789f2b05bd084444ba509a4dbd75a2c5a8641de
GIT binary patch
literal 4995
zcma(VTWlLu_Re_hj9;<SI?byoL*1n{ZDJrmN)!qq3D8HJst!=Riw4ItiEYMq_Rgej
zA{XVO5{;-7`mvi-yAnZKiK6buey#es%kTa;xK+ZCN~~6V@aN*LmPPxq=iKqwPH2If
z`rI>j&N=tYx#xBJ55M0-U}(aJ8MmL1f8m2YTs5Tn6i3J^QHa86Bw@{5f@9Bof@iZM
z;eeUfgq$<s<dDXpxpFOu7KRI&m~$uG40mdtoHya+2v1bE>bnK9aU}eTOKF+q6RmFK
z7PUYwm}p}hZou~>_5vPK{A!2Ns&=X!UBELVD1j@^L{JH`)h>8$yCNjIdGZ=j_FN&#
z-dj8qP7*x}T$rdKwS9&^L}(w|-K%)&y9d-jw$Gw%hKjdNvG)-ajW1|>n_N40kz8`T
zO)heg_HR*8EW(+Bn!ljK?4MN)Ih9PMRawbUSny`@8AH|zv$HBbww=|IDK%Zt6qQaC
zlzB~Ebm{{`(deRcR)+~lf?7s5WIZ{f8fsoIP!#K#o7XgXCZnmk8KU#~WJb;v6jhUT
zgR04#N~s8n&=vruFqbsari-e^Jk6(Srbj)AqxP$I0<ubs`nw{rO%Nv$Zt)wB1mg^-
zA<e+P67DPIVH;hVp@p1On9iyxL&ANeWM0AdhDxRB1u3a%g^TzCp7Z@4CTE1gmoW^b
zBGZsGl~!#jx>2CXS=Ewe6eRq5woQ%w9Q%$Y2}tm3`0jUxEENkgmX<ZGn&s)1LaKtg
z8L($fGo}rgb)RL*9~+!v#OP=r>4#HMBR3bF%gpr|Neai?cWHj`h2!rHs!=U79i3Y+
z(uI8Vf~Mu722JMmnF59L(B*j}qv=s=1BUm{EwBS(pcmx_04$LQA>uo@eyHp{ToMjf
zVTqW2>u?KHMsw{rLnpk)bF3x+tdb(h)=v=@YU5UI&LZWmVW0#y3_JMir+=#^D^5P+
zViCb~!fC41^yu*AhJG;ve&sag=QP!9i@$O9?Buzr@i93*`uh09cs#<<Ac(b$Mq2?j
zgBe}63;<^%&(jR;faNEV>L7q6vgPgE^d8vo9w>XIP4CeS@6kVx-+5-Vd~B@j9WM#v
z6fKm3Uwyc1STzmEDp3jMD9BG7<R)Gf6o(=}hHyfLa4J5<1+z=>D=k;JM2nl?pVF#`
zK<8EgVt!GCMTi>3v+Eh<h>907k9$Fg1k62?%;)2lvqI#m+T#B#_m)yxQr9J_&QVoY
z^F}5=3sE8MV362>O1TWB1q$w%$%CgS8NZ?C<{$#-f&>Wz!m2<Q?7%S$nwg$A)F$T#
z8Y_AlY$?b92FTpaKB0nVDownN9C9QwB%Q^`w$y44YCC*DKMa`0HcjF&j!nlr)u<ON
z7)#X>FgqGNAm*PJU=?x<TSSm;rmC${*$`}kY~35}6+)WcVt(5-X81Ak&M+aD`G!wt
zS*hDeSmbTLzU*kCtnb{QF7gmhP$GAaqQjP87aNXTJ0TDQ-JFdq`u?tw-Mec69*uT;
z&5lupGcYRH$YNsNHH;p6p~%@<WHEj08n(PT&11U=;L)am;>&lFTea+PS@@anc>Kqb
zih{ilZ8yU9`|KebYs?Kwju;rvY-FFXvBum?Srm#y4%zPv%o%Jvw17K+v*ukKSs)Q1
zX0}=x)Gm+TqWdf!I|;RTSKT>Qivd=%ts<1shooQWkq(OXF?-)Ub7n#wiO0vM;_~PS
zBs+Oxa%}vJJbGq)Bxbtw%xpfXnXdTB*G|T!%odoZ#?MWdZYUMCcR@L&6?9deUXW`m
zd_iX=#uT!JOrD}Enl0(1o`#YFBGbudo_pSOfcB<K&8HySnC`TCNy*Hrx&cd<pakkj
zhlK@7eGa++)f98d_f!Z|-E;snT~^a!Iu&(#em3GX1zpu<XgBWV06okglLP5WPD2&f
zAkmA!C$mD2MFPWIvNE|S%dC%)7khT(HI@kb?UzHqq?Z6Jk!^2a)7$rjw{N@iz{ma@
z{y$y#^!-oXFLylukz+d?*$fYCga`gIS`HsC1*PrazE%Hq|5|GO+0F3r4On~OWI255
zZt!%)Nje7~h$OUcb@2M&>hSg9ZC}@ilUu(1+rGUkvE|qw2iEjI9RK*G8!wf6j+K3V
zo4&yf-(cDI!tH~%pDy`cthNXt&sFh(hxl4o2A2m{PAs2TJ95Vx-uCTTnOL3x+!x*!
zJuBX2??<oS5qr1x_FNUNiQ8i9if`FhY9IaE`MYAwszc3%7F`2>)!zg7xipupms}vO
z4M;Q(NqF_3k_@}jk%y+VpXA0MSRix{Y!z`)j7jEf^eAFc1ji6yFAP=t8JL=@w#)L?
z#jb~)G;`$B$brJ}oc(pX9{Tvmjb_`j=exde#X)?BEE6`@0K}OI_W|+&`G8v`SGlWX
z28#I=@iJfJp%>+M78i^YOsdrr0Di}>l4ZwFwLctL=BbAVSR{}<n^J^r9gZFcNzm!A
zFrLqu&KZjB^s}&P83wnMq@^V*4!n8wq8%-Z#~*2+Mx^%-YlT!&(@*p_ah?U4`T+pn
zLkr{!uAE*zeQn~)z++zqrS*L`+wTUWV6vdZO!gUxIG84uPA?)WTJ7C;t<a=lcvuYo
z0#zoF70c9rm&m_)hx@6DhXi{{VmI5z^jH}a8&1>D`gm+Uv5z-fA;m%4Vn3(QCiXxl
zW~cZrAkdF;4?7U0Ub%E<kyE%upuNl)$j3&JgK%h;YOnK9d28$7)O^H|gliq~u*?L2
z^)T#KwBur8_b{x>dSn+<m$LJMg0dT?c=S~Tt{o_vk@nYRA@>gB4M`)`l?Lc*_S7Z7
zFQzl8G`m^p67*Wwo9&dc)8@ZKOuk?=MAbDixo9lnFhw=5SRH)OYRMbjAWI1m!Sb?~
z!1VNG1S0@+%l&I*fL$^ddmrL!4PkE~S3iIyQaM0^-J5}f8-auC19t+4x4OdXsg174
z)l=JI=UVsr)Tie^Ie+u=?fhMFg85*Cw;D<-b2&^Bi$y#p)E+EJvTS-}y!FDJ8E~I0
z|8_p9)!wwovQkLNGChKtKaT(dn+1m{;Qh|JAY<NOTd{DacmZGl71ps=y+ZEuZl_q;
z7jRB;Yoir{^ZHno&DDdv^H5cEIeRK0($l;3WdGLD=zVvaGsb-#>Zmvosklhz{<YET
z3+vBrbR4d<ur-l%^{&NlxYx%vI*(Ks0|cL^^??^(TMD5rkd0r(X+OpG$jaO-Rbww_
z3V6x1nvx)*{c!Do9;1IcsjF5C;bqHK-KSV|%nr6<-9IyU(J-uwDaE*@uOWB}0p?(e
zCC9p=Vh?OtY#cDtdy=t^<L$+4nT%UVaIW!x88V~_YFQtvgDFfG3L3laSw`MzcvBp<
z4)O$@0%|O*`sV;D4vyohBH;pG5%*Wb5C6U)?f1x&_el62dG4R?&`0OX?gLA%uiN*p
z&6Yw>lt^1e5V^Owd&1;BVf6kU4|im3ph94}Dcp>I=B^@I>E^gsxpg>AoNvNu;`|?R
zh>LOG5rp4Y1_%g$tJKo_9dUxZ`!2G-uhchM?iniyom(A8H#>$mI)-omrrdF=B!sql
upWf_!Wuy0%(&!uI-Z#Gxx+`8}`$2Dm&-klv<Z<%%$De+s-SK&d1NeW!&5Qp4

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/s3_utils.cpython-312.pyc b/transformers_utils/__pycache__/s3_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..587975d7bc62cac0ccc781bf98055411b2097e90
GIT binary patch
literal 4136
zcmd5<U2GJ`9iQ2++xtF$0j3z19N0Mr>?RI{*kI}}D7bM^AS!l2?)i4lKC^dwnq6aT
z-6>9sgxw%vOKrI*t#o~=EmFySsX%>!y!OS;A>nMPLey4j-VU4x;Hm$ay*t~KG<~Vs
zIqiREXa1iv|Nn31{^a+25Hwx*An`f${z^Z}Em-QTAHfLSL@H9Tj)v%)({Yj;;*$Ij
zkLfqB3rTTE#7N_a1mA)#C0#=<jNFctJS3}<=Fz<Mpi*^JdUClJmsIyvVaWH5Tpr-^
zyFo8#u2#Joulkryzvfi~Wo;^+c7dG@?XnuYDh>shRE_FYed^2jL;oTl)V%O3`5ot}
zrMO3}0$rgg97dXZA0l3iIHZZHcnemEwjp^CUB5DkuJD6s5=Uykq=N$y&i0=hJkvMa
z^S!>F{!;@dZTSajD`BLfdIZ~5XY^=H8#8oOBX1k(gs#D$r#otDJ$gb*S++Q0SVo&I
zrlZ!FY0L1kG?FrHiD=dYNyRv7q|_jG#KW_G9>_KBCd!~*bc4Ib#kf%v<1X$%=x3Z&
z@)n_4E{;`vRnFjEbgQJI91G#*xCQR|P66by+*zQQ^(Ik-8;Dg@fRqSN8$9c$f&2pZ
zBMd2%K^J!-l*Jpy#$oowHpgY~tx^EL#5XZU*LMkM3jL0s#7lT!3EQrCDjBt6V@tfv
zwS3!lmBP0Lwj4B8MVWbiveinaThod3K`Tl|HS6G&iNkLlxpY`-)e|GF=_zZ>NVQ(p
z^<=9>qA4?OkfcV;;R!3Do2_P>(`iXh+3usGT1vZ;CY{sDa6F;IQV&OU-I#1SsvEJW
zZg#d*IJSXtvjND{f1sx`XeDss&iUo0>ytO$n|m*3<$w4fc<|2oXX^rR{8R};JT@Oq
zO)c?6h7sbXqy~uT1o2~13m>+Bi&X+^h^i^m5g=gXv4rY&ekBS%>5JO>+1`iVK!KVC
za^HL6iHO|(wc7f}biRlLQF`_SL6^C3t)WTyZ{>>lzs?onhvgvwN<wtCN_oMSl+?k<
z^xpEiCPq^R(O$BhyQ$!&?W{h1Z^!cJ&kx@`zHmJM=Hm7THLu^>@r=-2C)+8Zn6P#8
z0$Ys`s*>*D*X>@gx<IV}xgR|Jb-PEt1sZJ5Y$FnMSjyObmXpJ!Vu;aj%dG+de}EBM
zhck7XYH%}Hlq6JKF8M6V;Bi{bFEo`abC_ZVtK2lqLuFG-tYtth!+p%(D*15%-dR2?
zWW|gK@PkX>1BXl&t3rnV2#%2q{s{eA0D$o^fWZ}j!2mE~Gy(wQQJ{T4VOmOjLe~|j
zMomdYlbWf-iIG&!wkZ??lxRw&b5N<u$dtkshE7nBZ1FH1U1Zd3XFaOXY-^{oF@~;+
zWhfJ-)>4_JD%+KFV_HQ&aOlhlFuK9FWdqukE{Dg6mra`r^e4v>u`%YjNe!hTjFL<5
zFznvs6*ciA(;^q!osdDAMO}*0bOO^<8lwf?l_F$*lRdBvHg1h@EIWt-pU*{zv$ZuM
z5V}pa<b-R>T1qu16V{mRp%!VrYGy=Y8a9M&@5n^#l4cFl<+kxKLoAb~A6-C2aiB^V
z)r}DnfzemsG2=jHP*Fj$XJ-1Lzxu|7xeK{{1^=E|Zp|CKacu5buI9eCVJ%oQADf$=
z6&~(t%#&r|?%Vfwy|XIR&-Bk%&G&tFsJ-Cr`2D+!=VrC}{`q5hoZpw<_NnjH<#$)T
z9V<e|vroMp%#(XUuxp!O2b_AYlmbQDa-*qCQ*yl*vI$B7k8eJ<N?aT1Kfbw)%CnW!
z&k8E{vf{`HDz6GV(XEnhNP0mPDK=!K3>vQ#Nl78RGEzqTSSlZTSy#q2P7i|@n(7)w
zWgaLZxl}};FDqwcRi+l8eB1)cy0fz7EsJN|s(Z9@sAk<6?tPy{;gPire3!Mt91nAw
zBs2V`Iq)*$j`Nkml%X&^(IG$(mUK>G()9Uv<@o<xh%A+XY|Wtmq?S{L^-c9`O{8^=
z7W4sykxG3-fp;lv7T`f6+6FLDe-1L}i6;o4o~CO_xBw~%01v2mrz9ByR?uog#MEL2
z0O2MXFq=q?Dnv^Y&7^uZlx&e#7=kiPAzD0fMTr8~C~ATLq+Qae_n>BrgyW<&mLOXU
zMk^S|P^E%c2H7I5fNqn)r-No&kSq*YN+_IsNy}+~K(@hs)0Vm!9@)|v=Ate47%2;4
zGHt$Jo0{gDTO%&pN3^7InT88d*rJ)%6P7KE8;O)1WMF5EjB7E=9KQU9&BG;;9nb8B
z74f_PfTS7h(knLs6OyBmG|@3vNr}xv$H7H7*AU$Zr#W|yMi?WMw8LZm5ePtI3-VVz
z@HMRZ8giorU*iMcfmPpu#j^$9>oa|8{?Lu{bLZ!^Tvx7pK2h*1Gbh%nx99M}t26zN
z0-*;1Wi_BIdT*at2`Gg?&&<iSaPx0Fe$%lyefy33;m(5Z_-eQ_*E4%|zV3sem2l@w
z--_?}-+ViBhw^Xc8w<V&*l^XZxRi&XhMbnaSO~SvijQ1%E3Ul{L%VYm`BWiv2u8fy
za#CJg@$O#{_CI@4gZ$sc4&LtdbvFnRe!!;xXa)u%RfPUav?XgQ4GBUhcoK@f_I7&F
zZee%pmP9gb5X-q=6N<-nkp7*C(JPp9BssSlc1U?oG44J>3}Op(%WNLfk8P2&S@f{6
zMOHm*b(hdOj3DPcl8+|Y|EEsU3u82YOnQwd@)+ZF8R6jPsQK^c&=-8@FG6!s;BnKR
zg;3EWVkuXfi+xyMM9^JSm)n*Stb4onZq1!j>vXgjqFnoO=7$l7%UbSPnsT_#-3{Lv
zbhxU~D~)TR>b1t^$F4ejbWIM;?^>027kT)2<nb3pco!v9yCcUhyp^+7Yr;j!SCo<D
znGL@`xbCK3-$6~Utu?*&*u5V&uF17U9^OnE-Y-hiAsN-x=V}&C<%QMSeMKr&^dQMQ
z+cwY7pUZ_823NehSH(SFd12;haS$W9<_W^M>9bNE{-lpCQPXp?3YP3wLbn@z;`Vpf
K^PlX%K>rCUEdY!F

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/tokenizer.cpython-312.pyc b/transformers_utils/__pycache__/tokenizer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc89b849d972e59d36b44cde66a45fc61470e4d1
GIT binary patch
literal 10705
zcmbt4TW}lKb$79NKZyrl;A=^W5<!y?ZAsS4FTF)eq8&@JBQz-lVHXrAJea#nQDi`e
z_NXIL$yC&&shFwLGMP+A9y>GYUq1SgHtDoUegIJ^;EmKUiTjb6en2KY&Lo{q&$){Q
zK#K0v&c)!qALpEV?z!ijyFYii>;yu}`1RzW9fbTA3wm%@GHd_E5psu|Cn6EK6p3gl
z7vWgh5HYZnkMNKhQpU6?V&bq5pE9Q{5ev&3Q`WRCVoTd2_Ov77V0B!|8F4~CQ_7Wg
zN8D*o#FK7_G_W>v%A58@d@OHC`O|?&faR^J#&lDpiREpn=5$M>h2`z3)^souWO+xb
zE!`ez=ZIvZE|}k$>PUA+I$4`5)s+?^0!K1N$sXy1zhEFzlhpkl;D{m8BYC8T84Dqj
zfN`W(a!A`m_jAxDa-!!QPHd2RMX%H+ZEwXopR_~du&3yk`V&?$aNQgUK~MZOzQeQL
zO;W$uT<zB)ZLf@It=9SV`4Ubs2r~?@aek>cVHDf08zWDN?P3R;v-2IJ*d_H#7Ph7U
zGk3!*J&<Zp^j32?+9_^>*#-eelQdYxaY*cwI>qgh9cJGFvxl*qFo^w--#N{NLcc>&
zjD|SXmZFo<cr1Qdf`akYm~uJ9tFChwUOg5)a`M=bQzN4%RQ^zATD6^<o{$cuk}(-O
z9GX<J=dxF%Omaq|s{d6goujd2MiOh4&0AC+kI4$G<BZ9&M3rbpx++mzSIS(KA$24(
zNhO-fj*YSE(3qq|WhtXbnYa{HXe=WqvNSExsG=_&jb}57<QR-?IFpp2OR5S0)Oi4{
z_?76`*kmG_NTv`)$C<1srH<&MT-EM}W3r?=0n=*DyPWEmuOug;@`Mym#!}j<vTCcY
zUdcw2qD&ispsJZl$|TLi4M<)H$a6;c^YC9Ah3F2+8Q${e$asYtp{g2kT+Z-5_g-b}
zS@LPU^j$tnLWY^Yw+j#s$KtRT;!tcXla-ZZT#&vpnY<cH0qulrLO6MRhs^q2tb!gE
zr8rQcpH(0NgF-kQ4qXh}wT@dL{`_b*BV82I66}MZWQ9pt5|qo5a7kNyhb)LvA~u;)
z*bK6yD9Oy29A+gN05pO8W^LIJPn)2EHe-a8laWGz$RAGbRMHbWCz2CGN{qt(4_%ww
zyMN!6z0%H9^3u+UY2|V@v-4^ymEKv$4{~%;Nv7nTHS8v)RhPC@W!GpsEYO21Jp<7k
zDF=zQEpORg^0X8^T?J3qvMvAOYk5!Cisx+JdUn+jC_35-j<%(d7033xar+vKBEb1}
zg-&MTF(sMJsP=U1S`=tJrd(EiF;U#iC`LuPrqE6pNV_l+AgZzkB5Z;`V~y7#bB83!
ztSQI81^=8$<WL|1vzT%QC>dDE2qhzwcq|!^K_J~6a$JH-lAP)L++T9QBF33zwgaDo
zMc~*m76B|aamSO${z=TisKe+a05-@b+R`Dj#wOiRyNQmf<;qkPI7F7s&<LCZfwn<b
zb!lVueeZ+1J@A)bg9!FrAYI*aCrTD?-qKML2Ieh`&VsdL^@(z8-qKg<KQM2}H*70d
z`&J!o^ZP3-akStVTs{F&-Z)4*VA^>7X|_QH+f*N%<QwD$f5Ujgbi;hZa>IIuDAk@@
zZQTNSuhKrtEs$|tiok?=xM_rXlqj3RO%v23B{qedW~fJqHih>p<(pQ;p*Pi5ziCli
z)mrPgN6*(%eY_6uO<wWptqX9E>QapEQ~Y}UILd%cK|wLVf<Dt85Sn$X^8kN~-lvx8
z^WWq}1OD_f2gl+Bndj%pym8(%Z=SczTN4(Mzit(ga>3dRdhR{kD+sd&5ox$Zk8u<o
zo5J6a?-+81sIEc5LCtZ|D$R0m@OsJ9MCPUp9Jv4(apW6kuJISh6c;kj{9HSb)4IGI
z6zXM}FqKTD1PbCgJu#_BLK-A$av}w?R=@Ow37VaN`!gwNQeA@UTTqf|CXT0t7?p&0
zER~YPK_Ml@M3BNLu496n9LppV$#@KI1v!<S60=hoO+25woRo3aYtt|iE=`c{5J`0l
z32^fY3Anx`D#YS(Nv;TX)qXV_k6nt&pa_h{>#3x3>DoU+?YAs<h(u7Mj2I+d<RqhH
zLhUMHm^UOi(Qw_Vb5z7!X}46`d1&YB+O3<~jnHnaYqzm>6U<DY#Z=c~hjks2MS`}<
z+-B%uzK&Wdhqd!2C|jWHng<~&TCZCp?rB@d{)ZvdL>Ohnn(h&PE(NHk<QKw6kY+X2
zha$snkO_FI@f@sKA^H|~hb#bxyvvQg3s<;ml%-TcZLMx^6!xxqmB7s`qZ|<CH0kEq
z)Hw6}X96v}X*fzD8Rf(8=g6vmFz?(#plt~}eF_HAL5M;IIs}Q@zBK}@b|VhHdLXp+
znU_948rlpQfT4!T&b)KylcM?miAmr8g-H}{Lr}FOal^K>J&97a<IKpPid%Imx&g_3
zdFQ^*jieKm7ltTme|0QI_rfAG2R<9j^^;xQ0AyF*+4Z@B^wf5OiJ5vhRU3lHs%Q3o
zHfU=D>p(5}d-Ben&kd@p1}dn88vwOLQA><QXZCzHFe}4mHvlQ*ox+nq;{GuKgZC*4
z7zI)-EPyCW7|s%QVnMeGYz0K+5Hoda1MK!_luF_x*k93^eOrzER4Ev)jhq8W<OYa9
z$~^S%xEs3Lp7-y`JNGa|MnfLe8jWURX;?&s1=Cq^GKG0(H2RgvSgO)utz3K4sxbw&
zp2{aP3f&2_sytYJ6!m(FnjT|d)hH(83O#`3=P`N-qL78PX-Z`nYoEqwH%8B4v>zfF
zOnow^g^JAGEZ;-WBZ*!A7NXx@CncM=Y~XA|%jfR)e)qyUf$SPj>^@dmHdk`Pca3+?
zzH7tg;cD}6wR!)&z`giCv|{uAYV-bTv#{KYO+vLvD4RK3?~<~7<gS1D<hS4a7+QO=
zu6yY$=DR<J{IiV0bOhj3%^Dg&ZDTw;G0jL<M>Qms$^)aSJe+3L4CdpcB&(LoF*&9v
zRJDVtjRp<aVX9T0oS2}X1gQSetTK`Y^(2jUx_FGzETubeDqA!fPl2HiY;Xw5AsZvR
z+OYW=Wx#3s@~K;bH`GNzc!>qJDfC6CViD@~@^2vepE<JbBrWZCrf*L#x2`lll{W@f
zg-}u0Ul8`^jUA=l!D8==h29tQMxivgr#Se9!r&M3#!#uLtJoAOG=)~0o|=2*VW4@*
z_RZ0`Gave!7Qa?(9x5~stu*gk@ej|PUbhpgXMTEV@PTE=LsxUrB@|r3gYMnGaP4{6
z*143sd!aaVs4#SBrS0(i=}&m#e)bb{i|N^Q0?|^a7#u1DhghM!oAmVGwH5mh7Wxks
z`;Qj-kLGtA%Xb~0d*y+#eYJZSK!0HDEIHcp#<oumaWGTfwdW7A6VUwUVDpjZ`5!-T
zI%>A4#uzwaj)#n@yC#0%_(-Z3>{MBSvzyK;5_n0V%1WiHNf`}SCu)AFY)p)bNm@S?
zPZ~vIl)iz{7csg3QB|2ir4Ba(O@g)UV87N&nym~LngFMkA!SJOv*;)URSq49vsO^@
z5g8W7t7^1fL&$j5oT%01s^*b=5UgKoj^vEG;*Vwn)LF1D$16U4)K*5vc-838dl525
zMC13k_f7AiO%7q!mb1+g(TqQR4UXhMJ-pHnMCr+y$5Dse6hy0N(|c2gg7zp2qFpy{
z-sVJG&MaC{+=z~x`6@?Eq7!NySfijd$wCd+S$ob-hZMAtH?@olm8!Y~W^%Eaw(8$g
z*RhhFB??-|EY#K<#}m9Mh;AJRkwer)4^m>*k#o>)pi9FQ&>LvG64Hl_59qmCDtZ-E
z8Cej0@B4M*i&3^gqpX4=orUpXJy%P&f;Pv$AJC~j>&!X9bq20kHroJjTobyEXI+dx
zT;tEy=F)Rp%{j*9OyA>vU<O}|QEYz4kTat{MVsA56uc-{*b2rRsg5?}c(J86TEVM`
z1>jS@3Uh;k(oCywP+qEJiQZ2CJlC)#x3$-C+v%Kh{IEW<mX05*<@KCyY8@rFytjOD
zJ_%l_FT<Jm5@->#-dSJHoAZsI(0kWXecU$<-)J$CSwHLR9LLLLQ^@&sUV(F7!_BF@
ztasFLlN*)OdfoUddajm=9d$E(L9fp_^;&I5HXGZE+&BJRGq-z*QZ?zf!F@mL&Kcx>
zv9)f`t9*Tx$SyIsbqjTiZL=QbU=;$74nfZSwgLWNNY1+7bWd?pL|ZuyrhlBD_04*x
zNT_q><OxZU!3eL)X=YKQ|8y*QRmun`wNnBLVBu;qCY+oc8w11rcq}dnV0kmI^;x*K
zr7(qELLZq|&cr6<%ULC=OLM5SqKXD)>6H*aV+s$1CzKgCByubvfz={ssXSwb@}*=Z
zWKykcO;G<;8@rV8HefPeZD5uy^O?)hY$i3W`oVXQr4p-(PJlun(ab2AuHZ&ct>6ic
zqHo~%%$_5$OeU*TeZyE=hjKE*91nFh2tru()V!+TNr1b`n356-X!yG4UgdVGwzTHq
zk0n)0B|G!g5k&yk1?Yd-%vfq#bDMxF0`?jDJiu2gRJv*emchHCTox`44ORDH2tg2f
zD&2Z6;y57HBzjRmmyzNM6yX9zH%crcg40GTgnw7r2)nF+2RsFD8L1Gb(a#)*%Qu_G
zT{@?GZC;bc5dLXUwX63k<f|9$%%GSB#|u(Vx&}RQ+W|E!$0q@fi~{&2(-T<=dRBO5
zfTE8dbTDB$JIP?aCdJWTge+A>PQYi6nGcW0AYl~2TYqDhurQL?ScA*PU{OS&ZYqRi
zT2h4ARhTVy2|QA;ow!;(uWs;UfvQMjbb1g7nZa$PLgiIJxcG#6^87hE39kz<<>}LB
z5cf%$Ij&%S+%42*hBR$v2(_7uLLwC#(;+x=dL#@E|17Zn6g&^b;Vow-d7e!W+r)8U
zfjPU<$+62o*cd)yK$opNV*<PqX;5pR#F+o9jv&blxWi&%I259&%c%a>0rcqkv&W)m
zUO9T~^w}e?yn0Nn@Etq4mnScUpE$MjOE`82-!#J7ft1)zW@)8}TPD%)l!PE_FCFyD
zIL45bRU@3m%iu3Zj*(T*Wld}(Kx{-|H8|LSg8~jeS#_U09zA*faP*bq$4`%p9#eS`
z6{`Jp)bcg09St;!3Z802F{GL&z>^3j7TyG^NuEe071cTwqZ!y2SQvAv>-Z!*cu8+)
zwG`Dt)svvvbQH`3;01gVRJSwS>N!KhB3xzD=q1=On#R#Clwj2ciVic?`PyU#{hJz`
zs4c2?&}12AafzP93g5<8x@bB!p_-D4l$KQ!;|litLhabstUWQRmI^k^jtB*41RA$e
ze?iTLmj=~*1^SQ4Y{Rr2sMEUHK3I}6du;@9DMuL@Dq<y?rDK}e$&lnE)gn<EP0M4d
zTYIknu4RvsDtATYuF}5%P-JwN3tI%u0(u*v#b^Qhu7WfI11LbO&Z4F3zNPD9E3uv6
zJ~k8EDQ?|N8hp2=7N%~!x$x#v=7DGEv6=XSOX0hNzwqw;p!=Cp$5W-wfl^1`!@k|c
zz84C8FBJRE6#CBmrvJ>k%hKapbe9`Q&+wxA6F>3oD>o5q(^3;GQgV229auQ9IKJHX
zz|sHE*Pib<x8ggWcb+eG^nm+)reF=OT3VLP1$b)PHZX6_dxV0u8{qMDE@f8SLvtrS
zu(%&~_AI}!()moWb8n$@FAV!?!P@q)wF7#z4i#H>7g~4EyI~C2SecdJP%*fx5Zra|
z$VzbE550xp!5@CL5PUgrZ2rI!Tzd0f>;0|+53LQiTnnzU!QkqHajsygx#eSr*=8^M
z5c1ahmY#=!ZN<RuLSXkpr)SZ<;_SNHzs?&P?en(s3`d-eV1bn<Ibv^F+IQd9`^b8F
zHLxom=qm<x6#~2TF=gJ|XkT@CADbWrQ@yFP)Y|vhh6OwEG(L7f4kpa#6GpjKTg$_i
zzGBOsLd%{~Lnlno>R$CW!UU~un4oueskIv>fP$U)TVaA$_x#BEJ`y~_m7Kw)lWV*o
zXlKN5HZ5kpFFtTQb<bTKK3o_+TynN8od+DAwwJABU{^78tPna@44o>3PCW>nfrcLU
z2ca|H4J><?4=r+wPv6;ld+#^*-*)ChXUaTrbv-7~17L796`lPBXMa9)@PYHW4?V3*
zp$C1>J@7pL(CNE1x-be}4ev2-o#$Qdbt`EM-ECb7?3%a1lPS>blM_5JNWr`JkL%Ys
z(h&TJcx^3@tt8M_YIxx%y+4ZmczdDYWXb>HPj>z2D?fg=;2$ZQjg5ymfWX_b?k3H>
z%X`5Nzvs<2JhR%=ylDAjxff>m@3m(EI2lcfe=-e>@ch3VY#(VL|Ju{`vdjEa-ZbK}
z{ItRLvYr2F>)^{K{%0l=<W;98Pql+ZzYc?|hAiZX1^y2Buc2GD{%sB(R`G7%6cQZN
z>#rJhZBV<#%Nx|9?AjDW?j1hIRi0)Iqwo&?I`q&K0@MURD+^Q{Bpc-*sOOq!Qhin7
z2-dx3&@&|hbcw&hPKc)F!mB)pwr}>hXp*Tyl_ltI1IM_06fz({ti&mltbwAnvtUK`
zbedP2dyCD_6q=tYc{_^U;evO#6x?16?kfcM0jE06z^M)|a4O`8*<^mwIf-=U;lK7X
zh~Nu|EuXDtIWXEdG}>en<P6Mw<3)bfknuy=SSg#J>`-tv7IK`fhJ&F|G2P+W{4?wb
z^u;@2Q-Ip4d!p9#HN*R6-9Z3P>y}Z}w=)urDUxauX)K{o33{uRiEK6nx1?&KcxQ)<
zn=cg+dW9^i1N2iE9#!De8j76A#JP4)Fuq{Q;T`PEYnzJ>M~b6mBmrCvnuoHDeK=EN
z40iQs8!XemgP!m~6_LjwGe=6k&Z2Li;2W4bRkHXN$M0K&<x}_e-rshh6ciRbC0k(0
zcHh=r3U)7eKC}iF|LlRa`$I=dl_yG7cF?(?#uqI+);ID&XqdhVtI|^#;W4AL5UI8V
zd_<uDkz|T^0Kq_uL2c29B{R?is7G->DIP6~97HFv%~`KTFztY%KT5mTz1l$Sxdc63
zGNY<$L<L0C(Hu+{(e8hW54LLOr)ejZ1H#meo=@vkrMavrKOLXek$s^;QO8m>7%J1F
zpNqbQ5&Eo{tCY@T4&C{xCmLl275m@>U8%>g={PnSF9H3Sa>l-Gp?%nbwzkGZe~mdj
z+-(2ZOP%HmW*<pdp99edPWBh*51<P$2a&%6ahc~h4nzRw`z3MwlGuJpJda4%BhvCK
zGF%|Tza>q-BIgR^+#@pZpQP~->3xLx7ax)Rzvder8F&1L@#w0r5g04bJa^{Tw!q>S
zS8Sbg=GEX(e)vQoc;er{1Nz3Cb3VC3-YC0C|KLZq25v{m(^lpoUG?}Ek1R}=O^}Bx
zEZDhh{B~Ozdw_^B+twVI3zM$iQb%`b`@l!8AUDLuLb_^ql}(VsIB(;ka@$e1VaZOs
zfkpAQz3jk}lYma4eA`jRk+8nmKHvM+g*6YB4(#UImrs`oB=^3whDjMd)@bW4b@rCp
zx=LNWAGu~Yt`RU>+IIWpGLHqgEE`+O7M8Vw=ecZSS-ARri$@p6%MMm_5`WW@@%BKO
zO#ph7*|+A!md7(ZY3W|>0QYj91j=SRXD<0V$~>g2Ztt22(sIzlneSd%Cy=o1`(Hdn
BzRdst

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/tokenizer_base.cpython-312.pyc b/transformers_utils/__pycache__/tokenizer_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f13d2bcd03d36cfa68880663a41e789fb1d45963
GIT binary patch
literal 7013
zcmcIpO>7&-72f6ka7l@zB+?dT`A4#(#I$3nwOl*@aU%c5jbK=AS`#f6E6&KK&A-g9
zRFhB=BXCh00UG;c8btvb=)s0BKKht@FJv9S>LNv4G?&~cD?ovs`rhm=|4dtPVU55y
zv-94(`R2{cn>VAsg+f6AQbztVU5N<7zwyIMid$G)fWl3I2t>>XNz8p2G3!hEvQknK
z@mtEsStY4t)ubv4RADOA$r*oEOKPIv6OIW)xgrpi`tC`N&SZes`k_|4=X2|VMKKZh
z0Y7FFK3jVKgBd$)%$pW7QdX8)=ko-rLubyOI-<`UKQeRj#OyJU$`uo$y=CUSVa?>T
zg$%XQ`P@g;G>vogl);Q_%F*u7ko&RrF#x$KP$4N2A?c$Mm5E3dst$p`f{*yF$oE`P
zFHicPl9IYeX$`4>t4r=86?CNn(3jGM-_ycZyYPEmz6$OAUHG9EzSe~wcKH!#ALzpG
zYw17Oh2P)8@9DxHXz9PV3qK0h#<7R4$jKO$1A_BM#z=&!-aM520xTxV?TBU4M^zH$
zrG6SA1MrK|fK#&&B(W<>W3D#w`P>Y;pci)@HZ^f12fOe$xA5Z*CNhqA+I!;b#F<--
z47T(+<c)(&G+H@m8z>3lcIt4oIa-1w-lAm-Y9X(XA*zrqh@1?AB#va*840iJ)S;5C
zEjqTs=(c%Q1ib2kOt!a-ZX57lB|AI>G{9{-0@zSiC8I66wsSl!(!`PT_KHe&wn*<N
zh7-GBkLEAZT)ITr2Zl*)l~HSv<x--%qcFogkG^1SGmx8t)!=zk_=R{^oV_dB(b>Fp
z0{3;6<}6B%FqUUfEt@p6U}CG0|9&)OWeZb<bYZV$uyfSfduj3D8?RqHNT)LC`Kdw?
zJV$P7DU-=gfh)<G3wf5M%+wdHbjF;rJgE9SV4W-!?O`L6(ai!)rHzcv*``h}Su{r|
zDJ9y5Hu)S;bTw;8E(<@ZLS*N|@K{wFTZ0PWMJ>U4p%Ft}41BcU44d^s(H?jjL1|<?
zj031CiX;Z)C8CM6qDd38wC&kYfIYZTIC|&vrZaVVnv}M*gJ|V#-7p07IS5*LqZ@@F
zVA6tPgVJET0UC@~HmvW0LAv+dVC>nbzWr%aUocFow5fg6ZuQSLs^8#JK4r}7Cb+#)
zyuIrt=NB8*dvDgb^vo6C%6oI85JW7tm`fQLet{7P?cDnv?Dw9H1HC#w8@52<rm!qr
zfV?x!3EV3tL^ckrr~IN{*E2My>z%8>tv(EGO!TUkg_TJ3tIw}}Ue&g9Z#Zkq7I=F*
zfK)FSX$C%)kd6bv4mO8l2hqOJ+d1oeN^QaU6VAA%XHTfC4+p~c#cNpFi)0eX6c7_N
zkMQJpeofa?=x+7W=JwU*)gQxF?g2E=IDlTZ%MZYTtMdik>1G;?(*R_x2gqgN`|zl9
z4!&#{5$p}-i4qq~$H~*d{ut1({Ydx;C_~9hFE(p(%d9o$3iaVsIWrZcxm2D|J)e8Z
zGc-9#XySzn;f~qzE@BAr#o#I3;PI7ZqEf`@f>a$SrC9r7a%%Ao<t?SYc5t?qbuL>b
zgAiS?6)T_5m?_-9UP8z?{m+T@TK0i!(YK)idk2WEUi>|Tb*9;F)TmJ?WQuwU?tQvN
zAwV=NS{iK!-$f*gYTrPD6K|^)hJR)XA$sY>EbMbE{64fcv889vcq*S;q71<C9w5`<
zCY#QkE4|VV@>z0Apscw>Z3*HfJ8E7`7dl+gQ>I=gtZth6uH;}pj6EH}0btYSiXar1
zZRd(`YunKM{}>qeQf>Wi@+<-)Mzc8vERA(HTbs~lI0)C}^|r6mggkrnD7-7cPnw;b
zbq|j-i4hwdY0k(}UAKd}p3RfR43>L!{gXu_<8rhD%NJlaiwswxEoaiEWlJ!jjK|V=
ziGdl)SuBor!E=l8&~iJLMu6DzJnRd$6Tioi@Yrh?mUbigIS^YW>6FE$@%sRh*O9!1
z1f4%Sgk%QEaU>rCx$CTB?q^s4Ymwl=X8r?=dPP`KLMuwN?h}>qJ7?~X-97t6fa01Y
zs4*nrx(uIn6-u61<?x;8?Gx*Z#VV=WL+gr_Q!hnidVMWFK_s@mmYMZM)*n$N+FgsN
z>?lXqU;=ia#bb3%7@b%d+qE)0vNAfc8q$>U$Kn3#hs)6$C$8lya%JvzpcYQl6<|Pv
z*kCz!<ITDszcgXnXgz?Xps;DE-h-uHVN<+3e&fR@sEE&S-G}ut><Sk^d4EN!%vH2o
z?>6CahJyx0Dln^erYq-fZ|^Fi30p@IYCz>s>k8!17!dfeq`3&{$OmM>@YU3{p(j1?
z<>JBmK4<7-uY#tP-IJ?5epeafTv>Vljgxghel->1R}cnW*?;R~9b3R~UG*XOa@Aw~
zfTMnL-zs8yJg~VsI9(gq?_uqWp@GY(a{R_@EizUiwa9J<{d4j14P@P)xm&E`26`~p
z%|5H#%Hw78R-%%+HN_>rmU&h^)wKnTa3ZnlR{&_J|N7Xqvvmc^V1?~F>sSkXca#D6
z;-g&kL5ZJUe6OcquQw8IeoSi_AkF8^UkPa;2~V8(Bm_UjdlJK^B<d$3p0!jXK6rAH
z;0JO<A?kwG`m~q~fP{t|8iePhmPf;6Pf<+-?f!;;K26Vodt^mhJALHXiMcbU&)PEj
zQCoGqs~t>b4AbOZm*MmCY}@&PhXMZ9FrI?&UtIPr_$(+p=|byS?ba;|IE12mCGasG
z-u)V?5)%6jWb7;w46#hq+&JPi#-UQy@<!mHpY(WNVl(vXmxaf#?YsYBb<ca>XhV;*
zoi%M|W&hu`T}~(w=I0bXdhvm^y{cfWg)cX2-vEKvE}%~8Hkb>o;hrnEEZoCe5u{J0
zW$ALn!dQzZA}$Mmh8Ow2NS?$OqUEgv;R2esBP~lr!kPEvKb0*!GI?5-fh%*aYvxZC
zpRlZ42zwIEd|6Bj%f7#ge-h_}gfd$SHWt80sb?gYw?-E7i#amMP}2_xKcO{e#+D!?
zw}T%WnMKMU_3S`8TgWpD-t6p<Q*=*b+Yh3KWidOl!17tW0Pl&+NarYlOVjT_uPtMM
z$nZ*Ohnmxn%9wUv^V3~?s<Zf>x=)4hiqMcQ?P!dqu^`$6zJkuoMIi9J*DDO|eiYwV
zi|>0BKTwMwxc}M1_|dDOm7aLDXXM*~t>x04$!g+_2gB8EM;;Cwt@a-Met7)R@V?sc
zzWeWd-CvuYc{qHys>Q$Uk5`8hciwr>U)%H6!~VCgsw<I+t4og}6Sc@h#i~XQ+*ztc
z4pg-Re90wx*+~Gveu?BGB)H_+9FkK&AQoSQhf_PE>qZXdgWt_fjBQLTr=0((u-~FQ
zj~y;x=?sz>5`18ECJgt}AK_<S0`dpp@t(bxk6$I%r^`w?RhcfIzZI!QU#*3AJ(Tx8
zR{HTwIV4^;(eWJ;D>F`hf6mDtoI%%lNJM8g;E3Y+1H~TY;7WYBE<uidZ}3R~N?dFe
zc@8LqlIUUcklB(kpJKS7ov2K;iUkO;8SWn*G1<fT>N^P!$E;Y$LwIIR^7{gR`Q_IY
zXWZOfw2#}?-gef@yX+HChpX4bYj|A}MR83N#QyJuvG0V5e@T7+l#l+XUJ}Le>oY$J
RnEz)<iiroG2tYXI{{cep?C$^o

literal 0
HcmV?d00001

diff --git a/transformers_utils/__pycache__/utils.cpython-312.pyc b/transformers_utils/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d466a07512e82f61e2c59389dd7ce86890e9304d
GIT binary patch
literal 6004
zcmcIoU2s#!72f-&A79IoZOMONqaeVDA3F&Ig8_rUCj1yeVnc&dq6*zBTSk`Dd#}KD
z<<#k9T6>_yOgqI)GZQ+^gBdz0nNFu}Uy9quzQ~9ft2Z!{Ow)&S`k-Jsq~xXN?A4Wx
zQRq`wbN8OzJ$rVw`|Wqm-oH8=Wdu@;zZCt8gOI;t!A!IT3X7u*A=ijRBqm1sj5pKA
z&@$V{!kdk8Lwq04U>g@>hJ-$W%6!Z+WbLz3S%}$&?0t4BGqJKEu}`G3C00J<=yNcH
zC9*@VxCLWj>T^m~*(KTJ$_Ovn-{bqLmX*t(T)nI;LfI{q%Pv_MwGvY3<$zj`o!E&~
zFI9joCp-*ocY$Ulm5j1Yu902!FlxjmRlX<m)k;;%Y}JA6im<eum#V>P{d3yg(B2^P
zI2)LU3uf<mkH1C#6a1@H&-AnxE!RNL)lzM-UmcViM;L#@7ufrRpV5VIC_Es8U^^Mo
z2D+o?QRY#GHy4PHz)OtAqgpVQ=<k;m-7%Dq<XAAF1e2hoTNGJKDe-V&jp?K~$nja+
z57{-6CWFgcp$?Nd|3TDTktD|4vmWASPmBucw)WQ6o2)Lx5*J|(WvUiZH1%Rs8@S0R
zHt4P52;L{1t=dqsH5pBA1%-ZD+d7<T+qLt2o7@_Uo@-5xXak9O>xEcss8v%!aW#@q
zhGazzrnG2GZKZijazq!RYEa##xWHr;Jd3L#8z(ujZb59C7n`!8cR}1dFK(WBH7jn<
z@Y@%mo&29ypkIX*P(&C=sesJ*zlsw?-2&6?537nB3N@%ui5bqk^qgLXmTN>S?n#=M
zt3Ax9aDuerjx4qGkekd2KTFqy4)n|{Tri7pERm9es+Lef0F_!8rvV-ng>iCUbWJs8
z#Wi=uogeO)*_!q3%<wzuG<AVu>Z#dUpby1R3(T|hY{w8;#kqohA(_ZhnGpswc(Z=#
zEwSe}!V)nfoE>ez`CgeM-dvMc$QYAm2JI^~fD;5$XN;9B_`Ag#S`7I<D_L=j9^xY}
z!ERk-8FGd&@Vi_w%$*?@86VM1HYDqa^1>LWm78M>;=Zm(k}XZr+^xd@MQf5}jC+S0
zVT|`h<{~jH`|YD^4-UxT^WJF0s}0EBNHivUqpCOLef8B-hrD#LTMms1E&cteNUzQ+
z=f1#2I-z2YDx>vXijq*giX4)n@qWX=dbQoVUiI4)0km{0Y&Y7~Eov$fi4N<0A}Pmp
z9=quFuHmqp)S`*FZYj`)Aj#)a{eE7l!`@6pw+w(LoMlF)!+IeZaCQP8h0h0ZZgd1?
z1N3NuNBtpW<K**l*OcedvGJ~)=(@6Za_{ARIj1{kueh>$a`klWUAs5utj_aR!IN`T
zUFn<bo96F18gEqQJT=!&Up+k?`01I6LytL9(Ui9kSIu<oywjVpc^_M$CgW)Q`jL&4
zdma*2@Z7gmTq&O{&v;(Ey?(axo^AJir~B)?04-0{7MRLMm4Qv<PgQ{?ZmzN%#JMIR
z&}^OaSyA3(Kj7x(w$&bRa({LTAnR5|P9}m;Nw+ETg{X>)BWQ{9ay+~o!??IuUi=U;
z@Q@66LNdgRap=up|DhJs7@y_`QFld3vnD1P0vaWd4JcwH?$^ADq)u{02($ep%$^0*
zjR|Q%63{P67J5doY{l|b_Hrdp#w?&==>cs9o-yGf@!Lkd-BDGeAW^;1IKYe|Obr7f
z07A(`i-P9@9Es&{>Rcch?e%lI&2S@8Nr6*Bbh{#lQ;HhBAnSbZND}gMvBWtFH9xOc
zEg5VXNS$j5C8Nq_><0dzKN{DaK=nbxAYxMWTa{*Lrlu7?N>rPJemYN4D^NWZ*9VaY
z$pBx&(n!G={Hq|{G^(uZ0Oc3qQB#nOlYf^JVbf=2u1g!o59WC5kB+>1WJ12jyYn{U
zsatS2&%2v*p4B&oXSe4$;@S9!u%5C-!Q!xd$%8b}3Gf3XTPF8R@3<?zkcX(kF>(4*
zd7g#Vyg-DqJOSl=1u3r_@BYt2ClplN@!z=v4qoTc`<7<Re}YnJ#zZc&FXQ)8+z4D(
z0yQS?Omu}YMuXoH;~~>&=!$6qM)QFu5zX=vw=GFVlww*Avu6NN&ssHEZ6%M66xdEd
zmj@e;459ObDjus?A|$EG8mLjcv|5UWHJwv61zcDgR{J1R5tZh~yMjZZk#lko4FpkL
z*$b^*sMZG=xG&fq>2kx=ck?V~Uw6N{_FDVZ_UX_Ek?WCP3}maD9}A?+J=yTpBVd*K
zhlHUz?{n|>Oxvz@WUGDi<-W&us*<-r;}am9GWSHo6BX(0G86D~KUv$({?QxQAj~yj
zac(_>@&*oNzYuuYT6()HRyatl;DiWSlAd1bF-9v=$C8T&aIk6id7Ix!&cb0DL#N4=
za){<u4i>i^{#qfKZQq93jqyk`X(r9@f!52Lc?_smz$wj8Kowmg017DZ47q&Zn*f15
z3<qdJVmDY<a0mk&z%d~y7LCiQE&vpwNq8k=QH^56Z=t}@#biiPWyyd5qD1Ghi(Y2X
zOFT3r>kdVhqCi+$5Q{2?D##!vlxho5Qj?*u9Hc`S<_>}4ad^}pKn94as`;7v{=uo?
zt1a28wd2Q%2+O%W*N$C1_VeRF5-jiV<hH!{o1-_6-s)c1(lNiKBfDk)yvsjTHhny|
zsclM}K6=;H{H2w6)`C|nb0cBYX84+~9tp(V2tagr{^oM$Ie0&LEG|<poY=42fp%_o
zLtryM*TjN2x7i+Ov(9a&@(u>&HV*6Cg#-N42t*7~SM@ItfN&r;(qIvRW)18)1W_uR
zhJa`p_KIQt^H5jlRSdw=#a@MQwTQN*7K&uJe6CDOXdecbs?=*3OVc!nLGy|vLHM{l
z<Vtfr5H8}CWb}F&?)NEGHhdkp2?G&cEdegilp*$_u<;^Juqot?CBmVYH<E}!?9)<4
zt+WH=LPLgTyLTY6tdG%dT(R1{l%bZHUulnOj~2R{vuO9e1!0@_taociLGs&mUXEW-
z^}5sD-N%E+U+e7Z4!+UVdE||*gT29%f!@PLh-Z<9!2_z42o=Px&Vip*UO<VD#v=(c
znyWU>hB=~fF<d$%lzc0St%ir?!3r*+;db2y`95t&ISD#v;8EX!Y@9r*BCFOcG_=h(
zv}O3(&%`E(`zFdi7o8cGFDtGy?qv7GtwyzbU1t5xta}%PavsaQy}dcxszr|Nu#6uE
z$J@}nP`_!ue$&h=+4`3<)|bZLfehn4aZ=2<cgza2@7%MU$T=G`w#H9I*Le4{*C}+8
z6#Zlc|E3{mGu<LO+@<SODR(Qer5&!s-2%IqOj{C<Vb~a}6;Hxo@d7~=X;#|WQdl@x
z;#4eMWXv(gxHMPF8Gn-#_FGOUc-0$a_q_fE1_3nU8x>MoWb01TIa`2qQ{aa!sW>p>
zdBZ>NLgjYIbc-a1;nM<us_3Ehs+b(_*9L-#NN`BjLQ+TzLF8DFR@@ubQ05M*p@^)>
zaWw(=dW_qO9hEm>6eKD2ZO94^eX8@Gy?*-j`;ER2&R#z|v;B7E?`uA;nPq-kpKaVd
z8<=nG$k-a5a`u_^ZP})s3r+jxoA%wYW}6OYtB*|Ba?V<G=nV_@`n&e}Co1}_9|sx(
z+qt>zLSV1e^dA^bKIO*o98eg21j7F!Q6Q`mj{AA!sZh$Lw+Mbn7-JwNE4tLdBKg74
zg;a_L;oiZR?i&cSK<+?;+~}!q4ajjXrIAxTT?Uo(9DMC$7hX4em6YraC*l`mMFZxe
zhnrFqE`l0`uLL7r^uut$q|}HXov@;KU2rdj_4F%MP)Q^-zg;;DlhvzBj7oV+If~7z
z44T0^NQ?1dhk}8M%3G+xCRD@a^Mi?K90Eh68rt+!VAxRj2Zj3uy$@&!%5lnfpvU*%
zQTIUx1ced(g6O*|`aaZVj%J(N7MeTen>+3`@6S2wGq(B%{Ql2H$Cb9pwkvxk_srLA
z$=0>pF3XC$GyHDKFz~VKguh9lhXPTm^gyQDBdK^;OC(~df>2QqGrAQo0Pt0-z}4DF
z5*AXySVXtu7p@khcw?zVS~f1?3i6h23)0Xf7^G}YV<fn7!3fJf@ZeV)diTZ%2(|^U
zKMD=0FfyhNfig5bS9B?E8eg3ZO1JHS9Z1FG4rLJ3k;~MRkV7ECFpD<Alz&3(pAg3b
zvg!e;eL(6SkeYvB?)%K{o_aHDZyL8ipv=57U7aWJy5U~LSKfwIKBH<~v1-?igIKj|
zrW31n<!w&JGrjFb-Sv(<0dYoJ#8-YJS?$fO@qKBnVk&bESDu6Srxle`os)xk0c5<A
zIj7u{?bH0cxH^w&aGSG~P59nDvuMZCCV^RJ8U}Gjy1i|dyS?*fe33vg@3J$sH+(a;
zU$*24h_`!ZeY5K9#*g1##A3dVu+}_V%T(Ur@&sNp+(UdVa%O#gJI~b3_-@;7f&ma`
hd++$}sCPF00SrJfUtwkT%xudOc-`Li2wxO7{{?a>9k~Di

literal 0
HcmV?d00001

diff --git a/transformers_utils/chat_templates/__init__.py b/transformers_utils/chat_templates/__init__.py
new file mode 100644
index 0000000..2783d12
--- /dev/null
+++ b/transformers_utils/chat_templates/__init__.py
@@ -0,0 +1,5 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from .registry import get_chat_template_fallback_path
+
+__all__ = ["get_chat_template_fallback_path"]
diff --git a/transformers_utils/chat_templates/__pycache__/__init__.cpython-312.pyc b/transformers_utils/chat_templates/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..67baea10c44c1d5f4faafc9c3f219e305f0058d4
GIT binary patch
literal 280
zcmY*Tu};G<5cMS$DMeivSeYvkyit%4pTNk_<>WSQV)dL@_63oVnGfI__!gGVnUI*+
zkg6_BI0y#baQE)r)4hA0PA4LQMo(rN`};8bA^9b{lSrOLAqpU2VF4hDq=ZG%rL)lo
z#N`b7(^508D#gg!I#R50t%#OtwLz!2@@e$l&eDGDb!h_o?nmh}#Ari&5xXJo>rS$D
z(ixYt^6_T=(9W+eH*+n?ET!wXYHE2;WF>o5hjrtv_5oWq6y(4BAQ4S%81dY7{rK88
hMN9g|AI6yB>2Ms&X9@uO0|6IrM`znf{+RhJ%HI*fPj&zR

literal 0
HcmV?d00001

diff --git a/transformers_utils/chat_templates/__pycache__/registry.cpython-312.pyc b/transformers_utils/chat_templates/__pycache__/registry.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..25f617eb7443dd9ac8acbd6a51dab0879ee39159
GIT binary patch
literal 2553
zcmZ`)O>ERg6drrMwm18ipWToMNDUz=o06;wB!Lj1OG1>W5TdfJ=u*{k)|14+>)no>
zq`L}ID)m6sLy>w&4?S=U;?mwY(i>GTc0pomffUsC(A!o)J#gw9dv{4_8OihBe16aK
z=6i3Re~Ct05DcCBS_^>oJ6$wJq^|7DF$is<50Q#gMn?rE$1qf9b+!=51w1{VbA@0o
z=;@r!7lfR^AQoW(i}%2rj$8=VfmiG0gpco@b78PxaAc9e0X0|=5L#fn!GLPHC=TM7
z%8$cZ6>vlqn>L&p`jX4V|AV#w+KR(!xDrMPWaKp&t*>Ks8TTah@Gav_t&XUz--mN;
zxE)7u)Q=1zYV#rjOzpr?RaAouyqbWWJ5-A8jg(iD@Fr0XraJ$k2Tw7sIHBmeGOuIM
zxjDsJ0vXDdOE{xziV2IbW@whI7Z(>XnRQzymJ}<C3ng8#Fg15Ot>O)AXcbIkLn&an
zNaPa5d4jDKV&v=m)9p~8{_ISHvWeEw^6t0P0*1;oaz;WH>tlejl%1<+7ZUK16gOK5
z4$`<@Carp8avqiieP~%TmX()@COog0THZ%ftSe$eHP<u<wtZqcla;d<FV9`dWG`No
zCucsm%McMZH)({@%a77lp_DFZr9n#}i`W|cd}Z|XsT-p>t!wk?QrTK68tGMCFQhG^
z80JEe6fiO66-(32Gz~^>#9*cgUervBl!r=XSCZjl@@H$<@Ir1{$qSH{c_n{?w88$Z
zG?1e(ZJ?@f@QKjx2>o}~9t-KG@k92JGfw=BEuQ%!e9)FgobZUvjqHFe+Cx1hlG493
z0@EgtypC3p$*C-rKs2EKQ0uhrLby87!P!dS<j}AiI4KWTx*G?Q3s52XQepMvu+J=k
zL_ukh7zh%F$>)&JQ@BUG12<gWbm%0Q?xUWAFm0f1A!4`ELvQujCuW?18SmWZo%nfM
zJpY16ksezbb;6@IH%i*Uqp~aGx>h<~kBhdH%Km2DD#j%f;~R1@Pkf92d%3FD-76hU
z&xMupO1+B06@DJJ7(DKVAk77=<D%hmd4Sx=?hV{nbG53=tH)iAe#8|UOt_(vqHBw|
zP*7Zs)`QEN+9Lgo;LGD~pM3es<i$&J_T#yWa`uY6r)K4;%%w{gG86B+Erp_rb=iVD
z>_+#LUcPyofQTSGUO{9*p?C3B!l5Acy}D=1)bh1K%V(XrNBv<ipuh57N3<iAQHq_d
zXqRa$5{*UbGbKeQSW(N;k^;I!W0M-3O8%|D1gk^Rj3upUx-QLQskn;C8qq8Z8`6AP
zvX-!9;I-F$`^=$KfJm^d%ln<m71k7DXvSiSC5HefhhZ}5`6a1dh>Z>3P=j6<BmLl!
zrmiPo+CViCiS3V*V~#NPRE&KS`zlsrndk*(JJMN=biW7%LoKx!Iz7ca=2BY&zjDJ~
zIqu<|a^~^=2`HPpSYNKQ32<|)qed^h$y&`ktg{W2h%8!XArtjJdXrseH<&VDSK$WE
zHb@CTlX1m-qtgd`N@#oYd7(Q?4PxG+9cfS9G@Fsn$pBcNgU6(;WCOhrQF81_;;fT6
zdw=;+VrJv=Qz3pk`dH}st*g)OAAi(!_EvOTNZ7)GYP@4R++}lJ9xbV)8_ySY9p^2r
zXqZFFe4fxqT!H>Tpsx~+u6U>(NF<@hcf+*D4*5AIJViuVUeI(b%jAe>T~Y`(EU)>v
z0cf)Xe%{E9%d%n^MN9Fv0%O`%32ife*>I|sx4di<dc3>Hi_otWaU5>cijL2bVR%KE
zHb-Et1sI0;heu4`Gt~7A9rzRVJ`W{sUwahl+2EfiyT3d7?Wa$Y15R?lM(x`@hwoh5
zGPm##+53|}UblzdbNVt)PsT>Aw^NT$rp9y3=>4lT1mZ#V;p9)(cc@y6@yw|Q9W?~v
zVZxrv{=9#O>a_%d&fk05iJh*t^#aLG+jtea;Gt0`GFnaa+o>rhF;(q6YQHn>bWVG(
zMx4k<we{pK`(xFZRR0M5kBm9-vA_34rWn>neRr&_3H#lQeJta=ePIVh7`E0EVWyaB
vYey|WmF<q+T97I=9`P+Zf~WR`nQqSl<o1ELYC(|R`&*M=Tz?_J%H#E4zm%do

literal 0
HcmV?d00001

diff --git a/transformers_utils/chat_templates/registry.py b/transformers_utils/chat_templates/registry.py
new file mode 100644
index 0000000..fe84b6c
--- /dev/null
+++ b/transformers_utils/chat_templates/registry.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable
+from pathlib import Path
+from typing import TypeAlias
+
+from vllm.logger import init_logger
+
+logger = init_logger(__file__)
+
+CHAT_TEMPLATES_DIR = Path(__file__).parent
+
+ChatTemplatePath: TypeAlias = Path | Callable[[str], Path | None]
+
+
+def _get_qwen_chat_template_fallback(tokenizer_name_or_path: str) -> Path | None:
+    if tokenizer_name_or_path.endswith("-Chat"):
+        return CHAT_TEMPLATES_DIR / "template_chatml.jinja"
+
+    return CHAT_TEMPLATES_DIR / "template_basic.jinja"
+
+
+def _get_minicpmv_chat_template_fallback(tokenizer_name_or_path: str) -> Path | None:
+    # MiniCPM-V-4.5 version uses a dedicated template
+    if "4.5" in tokenizer_name_or_path or "4_5" in tokenizer_name_or_path:
+        return CHAT_TEMPLATES_DIR / "template_minicpmv45.jinja"
+
+    # Other versions use chatml template
+    return CHAT_TEMPLATES_DIR / "template_chatml.jinja"
+
+
+_MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK: dict[str, ChatTemplatePath] = {
+    "blip-2": CHAT_TEMPLATES_DIR / "template_blip2.jinja",
+    "chameleon": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "clip": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "deepseek_ocr": CHAT_TEMPLATES_DIR / "template_deepseek_ocr.jinja",
+    "deepseek_vl_v2": CHAT_TEMPLATES_DIR / "template_deepseek_vl2.jinja",
+    "fuyu": CHAT_TEMPLATES_DIR / "template_fuyu.jinja",
+    "minicpmv": _get_minicpmv_chat_template_fallback,
+    "paligemma": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "qwen": _get_qwen_chat_template_fallback,
+    "siglip": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "siglip2": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+}
+
+
+def register_chat_template_fallback_path(
+    model_type: str,
+    chat_template: ChatTemplatePath,
+) -> None:
+    if model_type in _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK:
+        logger.warning(
+            "Model type %s already has a chat template registered. "
+            "It will be overwritten by the new chat template %s.",
+            model_type,
+            chat_template,
+        )
+
+    _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK[model_type] = chat_template
+
+
+def get_chat_template_fallback_path(
+    model_type: str,
+    tokenizer_name_or_path: str,
+) -> Path | None:
+    chat_template = _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK.get(model_type)
+    if callable(chat_template):
+        chat_template = chat_template(tokenizer_name_or_path)
+
+    if chat_template is None:
+        return None
+
+    return chat_template
diff --git a/transformers_utils/chat_templates/template_basic.jinja b/transformers_utils/chat_templates/template_basic.jinja
new file mode 100644
index 0000000..3fa2ccc
--- /dev/null
+++ b/transformers_utils/chat_templates/template_basic.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] -}}
+{%- endfor -%}
diff --git a/transformers_utils/chat_templates/template_blip2.jinja b/transformers_utils/chat_templates/template_blip2.jinja
new file mode 100644
index 0000000..fd41a7f
--- /dev/null
+++ b/transformers_utils/chat_templates/template_blip2.jinja
@@ -0,0 +1,11 @@
+{%- for message in messages -%}
+    {%- if message['role'] == 'user' -%}
+        {{- 'Question: ' + message['content'] + ' ' -}}
+    {%- elif message['role'] == 'assistant' -%}
+        {{- 'Answer: ' + message['content'] + ' ' -}}
+    {%- endif -%}
+{%- endfor -%}
+
+{%- if add_generation_prompt -%}
+    {{- 'Answer:' -}}
+{% endif %}
diff --git a/transformers_utils/chat_templates/template_chatml.jinja b/transformers_utils/chat_templates/template_chatml.jinja
new file mode 100644
index 0000000..e76ab0c
--- /dev/null
+++ b/transformers_utils/chat_templates/template_chatml.jinja
@@ -0,0 +1,10 @@
+{%- for message in messages -%}
+    {{- '<|im_start|>' + message['role'] + '\n' + message['content'] -}}
+    {%- if (loop.last and add_generation_prompt) or not loop.last -%}
+        {{- '<|im_end|>' + '\n' -}}
+    {%- endif -%}
+{%- endfor -%}
+
+{%- if add_generation_prompt and messages[-1]['role'] != 'assistant' -%}
+    {{- '<|im_start|>assistant\n' -}}
+{%- endif -%}
diff --git a/transformers_utils/chat_templates/template_deepseek_ocr.jinja b/transformers_utils/chat_templates/template_deepseek_ocr.jinja
new file mode 100644
index 0000000..287abe3
--- /dev/null
+++ b/transformers_utils/chat_templates/template_deepseek_ocr.jinja
@@ -0,0 +1,14 @@
+{%- if messages[0]['role'] == 'system' -%}
+    {%- set system_message = messages[0]['content'] -%}
+    {%- set messages = messages[1:] -%}
+{%- else -%}
+    {% set system_message = '' -%}
+{%- endif -%}
+
+{{ bos_token + system_message }}
+{%- for message in messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}
+    {%- endif -%}
+    {{ message['content'] }}
+{%- endfor -%}
diff --git a/transformers_utils/chat_templates/template_deepseek_vl2.jinja b/transformers_utils/chat_templates/template_deepseek_vl2.jinja
new file mode 100644
index 0000000..6dbfb02
--- /dev/null
+++ b/transformers_utils/chat_templates/template_deepseek_vl2.jinja
@@ -0,0 +1,23 @@
+{%- if messages[0]['role'] == 'system' -%}
+    {%- set system_message = messages[0]['content'] -%}
+    {%- set messages = messages[1:] -%}
+{%- else -%}
+    {% set system_message = '' -%}
+{%- endif -%}
+
+{{ bos_token + system_message }}
+{%- for message in messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}
+    {%- endif -%}
+
+    {%- if message['role'] == 'user' -%}
+        {{ '<|User|>: ' + message['content'] + '\n\n' }}
+    {%- elif message['role'] == 'assistant' -%}
+        {{ '<|Assistant|>: ' + message['content'] + eos_token + '\n\n' }}
+    {%- endif -%}
+{%- endfor -%}
+
+{%- if add_generation_prompt -%}
+    {{ '<|Assistant|>: ' }}
+{%- endif -%}
diff --git a/transformers_utils/chat_templates/template_fuyu.jinja b/transformers_utils/chat_templates/template_fuyu.jinja
new file mode 100644
index 0000000..ec337d0
--- /dev/null
+++ b/transformers_utils/chat_templates/template_fuyu.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] + '\n' -}}
+{%- endfor -%}
diff --git a/transformers_utils/chat_templates/template_minicpmv45.jinja b/transformers_utils/chat_templates/template_minicpmv45.jinja
new file mode 100644
index 0000000..c73ae96
--- /dev/null
+++ b/transformers_utils/chat_templates/template_minicpmv45.jinja
@@ -0,0 +1,93 @@
+{%- set enable_thinking = enable_thinking | default(false) %}
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content = message.content %}
+        {%- set reasoning = '' %}
+        {%- if message.reasoning is defined and message.reasoning is not none %}
+            {%- set reasoning = message.reasoning %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
+                {%- set reasoning = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+    {%- if enable_thinking is defined and enable_thinking is true %}
+        {{- '<think>\n' }}
+    {%- endif %}
+{%- endif %}
\ No newline at end of file
diff --git a/transformers_utils/config.py b/transformers_utils/config.py
new file mode 100644
index 0000000..49250e0
--- /dev/null
+++ b/transformers_utils/config.py
@@ -0,0 +1,1203 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+import os
+import time
+from collections.abc import Callable
+from dataclasses import asdict
+from functools import cache, partial
+from pathlib import Path
+from typing import Any, Literal, TypeVar
+
+import huggingface_hub
+from huggingface_hub import (
+    get_safetensors_metadata,
+    hf_hub_download,
+    try_to_load_from_cache,
+)
+from huggingface_hub import list_repo_files as hf_list_repo_files
+from huggingface_hub.utils import (
+    EntryNotFoundError,
+    HfHubHTTPError,
+    LocalEntryNotFoundError,
+    RepositoryNotFoundError,
+    RevisionNotFoundError,
+)
+from transformers import DeepseekV3Config, GenerationConfig, PretrainedConfig
+from transformers.models.auto.image_processing_auto import get_image_processor_config
+from transformers.models.auto.modeling_auto import (
+    MODEL_FOR_CAUSAL_LM_MAPPING_NAMES,
+    MODEL_MAPPING_NAMES,
+)
+from transformers.models.auto.tokenization_auto import get_tokenizer_config
+from transformers.utils import CONFIG_NAME as HF_CONFIG_NAME
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.transformers_utils.config_parser_base import ConfigParserBase
+from vllm.transformers_utils.utils import (
+    check_gguf_file,
+    parse_safetensors_file_metadata,
+)
+
+if envs.VLLM_USE_MODELSCOPE:
+    from modelscope import AutoConfig
+else:
+    from transformers import AutoConfig
+
+MISTRAL_CONFIG_NAME = "params.json"
+
+logger = init_logger(__name__)
+
+
+def _get_hf_token() -> str | None:
+    """
+    Get the HuggingFace token from environment variable.
+
+    Returns None if the token is not set, is an empty string,
+    or contains only whitespace.
+    This follows the same pattern as huggingface_hub library which
+    treats empty string tokens as None to avoid authentication errors.
+    """
+    token = os.getenv("HF_TOKEN")
+    if token and token.strip():
+        return token
+    return None
+
+
+class LazyConfigDict(dict):
+    def __getitem__(self, key):
+        if isinstance(value := super().__getitem__(key), type):
+            return value
+
+        import vllm.transformers_utils.configs as configs
+
+        return getattr(configs, value)
+
+
+_CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = LazyConfigDict(
+    afmoe="AfmoeConfig",
+    chatglm="ChatGLMConfig",
+    deepseek_vl_v2="DeepseekVLV2Config",
+    deepseek_v32=DeepseekV3Config,
+    flex_olmo="FlexOlmoConfig",
+    kimi_linear="KimiLinearConfig",
+    kimi_vl="KimiVLConfig",
+    RefinedWeb="RWConfig",  # For tiiuae/falcon-40b(-instruct)
+    RefinedWebModel="RWConfig",  # For tiiuae/falcon-7b(-instruct)
+    jais="JAISConfig",
+    mlp_speculator="MLPSpeculatorConfig",
+    medusa="MedusaConfig",
+    midashenglm="MiDashengLMConfig",
+    eagle="EAGLEConfig",
+    speculators="SpeculatorsConfig",
+    nemotron="NemotronConfig",
+    olmo3="Olmo3Config",
+    ovis="OvisConfig",
+    ultravox="UltravoxConfig",
+    step3_vl="Step3VLConfig",
+    step3_text="Step3TextConfig",
+    qwen3_next="Qwen3NextConfig",
+    lfm2_moe="Lfm2MoeConfig",
+)
+
+_CONFIG_ATTRS_MAPPING: dict[str, str] = {
+    "llm_config": "text_config",
+}
+
+_AUTO_CONFIG_KWARGS_OVERRIDES: dict[str, dict[str, Any]] = {
+    "internvl_chat": {"has_no_defaults_at_init": True},
+    "Llama_Nemotron_Nano_VL": {"attn_implementation": "eager"},
+    "NVLM_D": {"has_no_defaults_at_init": True},
+}
+
+
+class HFConfigParser(ConfigParserBase):
+    def parse(
+        self,
+        model: str | Path,
+        trust_remote_code: bool,
+        revision: str | None = None,
+        code_revision: str | None = None,
+        **kwargs,
+    ) -> tuple[dict, PretrainedConfig]:
+        kwargs["local_files_only"] = huggingface_hub.constants.HF_HUB_OFFLINE
+        config_dict, _ = PretrainedConfig.get_config_dict(
+            model,
+            revision=revision,
+            code_revision=code_revision,
+            token=_get_hf_token(),
+            **kwargs,
+        )
+        # Use custom model class if it's in our registry
+        model_type = config_dict.get("model_type")
+        if model_type is None:
+            model_type = (
+                "speculators"
+                if config_dict.get("speculators_config") is not None
+                else model_type
+            )
+
+        if model_type in _CONFIG_REGISTRY:
+            config_class = _CONFIG_REGISTRY[model_type]
+            config = config_class.from_pretrained(
+                model,
+                revision=revision,
+                code_revision=code_revision,
+                token=_get_hf_token(),
+                **kwargs,
+            )
+        else:
+            try:
+                kwargs = _maybe_update_auto_config_kwargs(kwargs, model_type=model_type)
+                config = AutoConfig.from_pretrained(
+                    model,
+                    trust_remote_code=trust_remote_code,
+                    revision=revision,
+                    code_revision=code_revision,
+                    token=_get_hf_token(),
+                    **kwargs,
+                )
+            except ValueError as e:
+                if (
+                    not trust_remote_code
+                    and "requires you to execute the configuration file" in str(e)
+                ):
+                    err_msg = (
+                        "Failed to load the model config. If the model "
+                        "is a custom model not yet available in the "
+                        "HuggingFace transformers library, consider setting "
+                        "`trust_remote_code=True` in LLM or using the "
+                        "`--trust-remote-code` flag in the CLI."
+                    )
+                    raise RuntimeError(err_msg) from e
+                else:
+                    raise e
+        config = _maybe_remap_hf_config_attrs(config)
+        return config_dict, config
+
+
+class MistralConfigParser(ConfigParserBase):
+    def parse(
+        self,
+        model: str | Path,
+        trust_remote_code: bool,
+        revision: str | None = None,
+        code_revision: str | None = None,
+        **kwargs,
+    ) -> tuple[dict, PretrainedConfig]:
+        # This function loads a params.json config which
+        # should be used when loading models in mistral format
+        config_dict = _download_mistral_config_file(model, revision)
+        if (
+            max_position_embeddings := config_dict.get("max_position_embeddings")
+        ) is None:
+            max_position_embeddings = _maybe_retrieve_max_pos_from_hf(
+                model, revision, **kwargs
+            )
+            config_dict["max_position_embeddings"] = max_position_embeddings
+
+        from vllm.transformers_utils.configs.mistral import adapt_config_dict
+
+        config = adapt_config_dict(config_dict)
+
+        # Mistral configs may define sliding_window as list[int]. Convert it
+        # to int and add the layer_types list[str] to make it HF compatible
+        if (sliding_window := getattr(config, "sliding_window", None)) and isinstance(
+            sliding_window, list
+        ):
+            pattern_repeats = config.num_hidden_layers // len(sliding_window)
+            layer_types = sliding_window * pattern_repeats
+            config.layer_types = [
+                "full_attention" if layer_type is None else "sliding_attention"
+                for layer_type in layer_types
+            ]
+            config.sliding_window = next(filter(None, sliding_window), None)
+
+        return config_dict, config
+
+
+_CONFIG_FORMAT_TO_CONFIG_PARSER: dict[str, type[ConfigParserBase]] = {
+    "hf": HFConfigParser,
+    "mistral": MistralConfigParser,
+}
+
+ConfigFormat = Literal[
+    "auto",
+    "hf",
+    "mistral",
+]
+
+
+def get_config_parser(config_format: str) -> ConfigParserBase:
+    """Get the config parser for a given config format."""
+    if config_format not in _CONFIG_FORMAT_TO_CONFIG_PARSER:
+        raise ValueError(f"Unknown config format `{config_format}`.")
+    return _CONFIG_FORMAT_TO_CONFIG_PARSER[config_format]()
+
+
+def register_config_parser(config_format: str):
+    """Register a customized vllm config parser.
+     When a config format is not supported by vllm, you can register a customized
+    config parser to support it.
+     Args:
+         config_format (str): The config parser format name.
+     Examples:
+
+         >>> from vllm.transformers_utils.config import (get_config_parser,
+                                                         register_config_parser)
+         >>> from vllm.transformers_utils.config_parser_base import ConfigParserBase
+         >>>
+         >>> @register_config_parser("custom_config_parser")
+         ... class CustomConfigParser(ConfigParserBase):
+         ...     def parse(
+         ...         self,
+         ...         model: Union[str, Path],
+         ...         trust_remote_code: bool,
+         ...         revision: str | None = None,
+         ...         code_revision: str | None = None,
+         ...         **kwargs,
+         ...     ) -> tuple[dict, PretrainedConfig]:
+         ...         raise NotImplementedError
+         >>>
+         >>> type(get_config_parser("custom_config_parser"))
+         <class 'CustomConfigParser'>
+    """  # noqa: E501
+
+    def _wrapper(config_parser_cls):
+        if config_format in _CONFIG_FORMAT_TO_CONFIG_PARSER:
+            logger.warning(
+                "Config format `%s` is already registered, and will be "
+                "overwritten by the new parser class `%s`.",
+                config_format,
+                config_parser_cls,
+            )
+        if not issubclass(config_parser_cls, ConfigParserBase):
+            raise ValueError(
+                "The config parser must be a subclass of `ConfigParserBase`."
+            )
+        _CONFIG_FORMAT_TO_CONFIG_PARSER[config_format] = config_parser_cls
+        logger.info(
+            "Registered config parser `%s` with config format `%s`",
+            config_parser_cls,
+            config_format,
+        )
+        return config_parser_cls
+
+    return _wrapper
+
+
+_R = TypeVar("_R")
+
+
+def with_retry(
+    func: Callable[[], _R],
+    log_msg: str,
+    max_retries: int = 2,
+    retry_delay: int = 2,
+) -> _R:
+    for attempt in range(max_retries):
+        try:
+            return func()
+        except Exception as e:
+            if attempt == max_retries - 1:
+                logger.error("%s: %s", log_msg, e)
+                raise
+            logger.error(
+                "%s: %s, retrying %d of %d", log_msg, e, attempt + 1, max_retries
+            )
+            time.sleep(retry_delay)
+            retry_delay *= 2
+
+    raise AssertionError("Should not be reached")
+
+
+# @cache doesn't cache exceptions
+@cache
+def list_repo_files(
+    repo_id: str,
+    *,
+    revision: str | None = None,
+    repo_type: str | None = None,
+    token: str | bool | None = None,
+) -> list[str]:
+    def lookup_files() -> list[str]:
+        # directly list files if model is local
+        if (local_path := Path(repo_id)).exists():
+            return [
+                str(file.relative_to(local_path))
+                for file in local_path.rglob("*")
+                if file.is_file()
+            ]
+        # if model is remote, use hf_hub api to list files
+        try:
+            if envs.VLLM_USE_MODELSCOPE:
+                from vllm.transformers_utils.utils import modelscope_list_repo_files
+
+                return modelscope_list_repo_files(
+                    repo_id,
+                    revision=revision,
+                    token=os.getenv("MODELSCOPE_API_TOKEN", None),
+                )
+            return hf_list_repo_files(
+                repo_id, revision=revision, repo_type=repo_type, token=token
+            )
+        except huggingface_hub.errors.OfflineModeIsEnabled:
+            # Don't raise in offline mode,
+            # all we know is that we don't have this
+            # file cached.
+            return []
+
+    return with_retry(lookup_files, "Error retrieving file list")
+
+
+def file_exists(
+    repo_id: str,
+    file_name: str,
+    *,
+    repo_type: str | None = None,
+    revision: str | None = None,
+    token: str | bool | None = None,
+) -> bool:
+    file_list = list_repo_files(
+        repo_id, repo_type=repo_type, revision=revision, token=token
+    )
+    return file_name in file_list
+
+
+# In offline mode the result can be a false negative
+def file_or_path_exists(
+    model: str | Path, config_name: str, revision: str | None
+) -> bool:
+    if (local_path := Path(model)).exists():
+        return (local_path / config_name).is_file()
+
+    # Offline mode support: Check if config file is cached already
+    cached_filepath = try_to_load_from_cache(
+        repo_id=model, filename=config_name, revision=revision
+    )
+    if isinstance(cached_filepath, str):
+        # The config file exists in cache- we can continue trying to load
+        return True
+
+    # NB: file_exists will only check for the existence of the config file on
+    # hf_hub. This will fail in offline mode.
+
+    # Call HF to check if the file exists
+    return file_exists(
+        str(model), config_name, revision=revision, token=_get_hf_token()
+    )
+
+
+def patch_rope_scaling(config: PretrainedConfig) -> None:
+    """Provide backwards compatibility for RoPE."""
+    text_config = getattr(config, "text_config", None)
+    if text_config is not None:
+        patch_rope_scaling(text_config)
+
+    rope_scaling = getattr(config, "rope_scaling", None)
+    if rope_scaling is not None:
+        patch_rope_scaling_dict(rope_scaling)
+
+
+def patch_rope_scaling_dict(rope_scaling: dict[str, Any]) -> None:
+    if "rope_type" in rope_scaling and "type" in rope_scaling:
+        rope_type = rope_scaling["rope_type"]
+        rope_type_legacy = rope_scaling["type"]
+        if rope_type != rope_type_legacy:
+            raise ValueError(
+                f"Found conflicts between 'rope_type={rope_type}' (modern "
+                f"field) and 'type={rope_type_legacy}' (legacy field). "
+                "You should only specify one of them."
+            )
+
+    if "rope_type" not in rope_scaling and "type" in rope_scaling:
+        rope_scaling["rope_type"] = rope_scaling["type"]
+        logger.info("Replacing legacy 'type' key with 'rope_type'")
+
+    if "rope_type" not in rope_scaling:
+        raise ValueError("rope_scaling should have a 'rope_type' key")
+
+    if rope_scaling["rope_type"] == "su":
+        rope_scaling["rope_type"] = "longrope"
+        logger.warning("Replacing legacy rope_type 'su' with 'longrope'")
+    elif rope_scaling["rope_type"] == "mrope":
+        assert "mrope_section" in rope_scaling
+        rope_scaling["rope_type"] = "default"
+        logger.warning("Replacing legacy rope_type 'mrope' with 'default'")
+
+
+def _uses_mrope(config: PretrainedConfig) -> bool:
+    rope_scaling = getattr(config, "rope_scaling", None)
+    if rope_scaling is None:
+        return False
+
+    return "mrope_section" in rope_scaling
+
+
+def uses_mrope(config: PretrainedConfig) -> bool:
+    """Detect if the model with this config uses M-ROPE."""
+    return (
+        _uses_mrope(config)
+        or _uses_mrope(config.get_text_config())
+        or thinker_uses_mrope(config)
+    )
+
+
+def thinker_uses_mrope(config: PretrainedConfig) -> bool:
+    """Detect if the model contains a thinker config and it uses M-ROPE."""
+    thinker_config = getattr(config, "thinker_config", None)
+    if thinker_config is None:
+        return False
+
+    thinker_text_config = getattr(thinker_config, "text_config", None)
+    if thinker_text_config is None:
+        return False
+
+    return uses_mrope(thinker_text_config)
+
+
+def is_encoder_decoder(config: PretrainedConfig) -> bool:
+    """Detect if the model with this config is used as an encoder/decoder."""
+
+    def _is_encoder_decoder(config: PretrainedConfig) -> bool:
+        return getattr(config, "is_encoder_decoder", False)
+
+    return _is_encoder_decoder(config) or _is_encoder_decoder(config.get_text_config())
+
+
+def is_interleaved(config: PretrainedConfig) -> bool:
+    """
+    Detect if the model with this config is used with interleaved attention.
+    """
+    text_config = config.get_text_config()
+    if layer_types := getattr(text_config, "layer_types", None):
+        return len(set(layer_types)) > 1
+    return False
+
+
+def _maybe_update_auto_config_kwargs(kwargs: dict[str, Any], model_type: str):
+    """
+    Update kwargs for AutoConfig initialization based on model_type
+    """
+    if model_type in _AUTO_CONFIG_KWARGS_OVERRIDES:
+        kwargs.update(_AUTO_CONFIG_KWARGS_OVERRIDES[model_type])
+    return kwargs
+
+
+def _maybe_remap_hf_config_attrs(config: PretrainedConfig) -> PretrainedConfig:
+    """Remap config attributes to match the expected names."""
+    for old_attr, new_attr in _CONFIG_ATTRS_MAPPING.items():
+        if hasattr(config, old_attr):
+            if not hasattr(config, new_attr):
+                config.update({new_attr: getattr(config, old_attr)})
+            logger.debug("Remapped config attribute '%s' to '%s'", old_attr, new_attr)
+    return config
+
+
+def maybe_override_with_speculators(
+    model: str,
+    tokenizer: str,
+    trust_remote_code: bool,
+    revision: str | None = None,
+    vllm_speculative_config: dict[str, Any] | None = None,
+    **kwargs,
+) -> tuple[str, str, dict[str, Any] | None]:
+    """
+    Resolve model configuration when speculators are detected.
+
+    Checks if the provided model is a speculators model and if so, extracts
+    the target model configuration and builds the speculative config.
+
+    Args:
+        model: Model name or path
+        tokenizer: Tokenizer name or path
+        trust_remote_code: Whether to trust remote code
+        revision: Model revision
+        vllm_speculative_config: Existing vLLM speculative config
+
+    Returns:
+        Tuple of (resolved_model, resolved_tokenizer, speculative_config)
+    """
+    is_gguf = check_gguf_file(model)
+    if is_gguf:
+        kwargs["gguf_file"] = Path(model).name
+        gguf_model_repo = Path(model).parent
+    else:
+        gguf_model_repo = None
+    kwargs["local_files_only"] = huggingface_hub.constants.HF_HUB_OFFLINE
+    config_dict, _ = PretrainedConfig.get_config_dict(
+        model if gguf_model_repo is None else gguf_model_repo,
+        revision=revision,
+        trust_remote_code=trust_remote_code,
+        token=_get_hf_token(),
+        **kwargs,
+    )
+    speculators_config = config_dict.get("speculators_config")
+
+    if speculators_config is None:
+        # No speculators config found, return original values
+        return model, tokenizer, vllm_speculative_config
+
+    # Speculators format detected - process overrides
+    from vllm.transformers_utils.configs.speculators.base import SpeculatorsConfig
+
+    speculative_config = SpeculatorsConfig.extract_vllm_speculative_config(
+        config_dict=config_dict
+    )
+
+    # Set the draft model to the speculators model
+    speculative_config["model"] = model
+
+    # Override model and tokenizer with the verifier model from config
+    verifier_model = speculators_config["verifier"]["name_or_path"]
+    model = tokenizer = verifier_model
+
+    return model, tokenizer, speculative_config
+
+
+def get_config(
+    model: str | Path,
+    trust_remote_code: bool,
+    revision: str | None = None,
+    code_revision: str | None = None,
+    config_format: str | ConfigFormat = "auto",
+    hf_overrides_kw: dict[str, Any] | None = None,
+    hf_overrides_fn: Callable[[PretrainedConfig], PretrainedConfig] | None = None,
+    **kwargs,
+) -> PretrainedConfig:
+    # Separate model folder from file path for GGUF models
+
+    is_gguf = check_gguf_file(model)
+    if is_gguf:
+        kwargs["gguf_file"] = Path(model).name
+        model = Path(model).parent
+
+    if config_format == "auto":
+        try:
+            if is_gguf or file_or_path_exists(model, HF_CONFIG_NAME, revision=revision):
+                config_format = "hf"
+            elif file_or_path_exists(model, MISTRAL_CONFIG_NAME, revision=revision):
+                config_format = "mistral"
+            else:
+                raise ValueError(
+                    "Could not detect config format for no config file found. "
+                    "With config_format 'auto', ensure your model has either "
+                    "config.json (HF format) or params.json (Mistral format). "
+                    "Otherwise please specify your_custom_config_format "
+                    "in engine args for customized config parser."
+                )
+
+        except Exception as e:
+            error_message = (
+                "Invalid repository ID or local directory specified:"
+                " '{model}'.\nPlease verify the following requirements:\n"
+                "1. Provide a valid Hugging Face repository ID.\n"
+                "2. Specify a local directory that contains a recognized "
+                "configuration file.\n"
+                "   - For Hugging Face models: ensure the presence of a "
+                "'config.json'.\n"
+                "   - For Mistral models: ensure the presence of a "
+                "'params.json'.\n"
+                "3. For GGUF: pass the local path of the GGUF checkpoint.\n"
+                "   Loading GGUF from a remote repo directly is not yet "
+                "supported.\n"
+            ).format(model=model)
+
+            raise ValueError(error_message) from e
+
+    config_parser = get_config_parser(config_format)
+    config_dict, config = config_parser.parse(
+        model,
+        trust_remote_code=trust_remote_code,
+        revision=revision,
+        code_revision=code_revision,
+        **kwargs,
+    )
+    # Special architecture mapping check for GGUF models
+    if is_gguf:
+        if config.model_type not in MODEL_FOR_CAUSAL_LM_MAPPING_NAMES:
+            raise RuntimeError(f"Can't get gguf config for {config.model_type}.")
+        model_type = MODEL_FOR_CAUSAL_LM_MAPPING_NAMES[config.model_type]
+        config.update({"architectures": [model_type]})
+
+    # Architecture mapping for models without explicit architectures field
+    if not config.architectures:
+        if config.model_type not in MODEL_MAPPING_NAMES:
+            logger.warning(
+                "Model config does not have a top-level 'architectures' field: "
+                "expecting `hf_overrides={'architectures': ['...']}` to be passed "
+                "in engine args."
+            )
+        else:
+            model_type = MODEL_MAPPING_NAMES[config.model_type]
+            config.update({"architectures": [model_type]})
+
+    # ModelOpt 0.31.0 and after saves the quantization config in the model
+    # config file.
+    quantization_config = config_dict.get("quantization_config", None)
+
+    # ModelOpt 0.29.0 and before saves the quantization config in a separate
+    # "hf_quant_config.json" in the same directory as the model config file.
+    if quantization_config is None and file_or_path_exists(
+        model, "hf_quant_config.json", revision
+    ):
+        quantization_config = get_hf_file_to_dict(
+            "hf_quant_config.json", model, revision
+        )
+
+    if quantization_config is not None:
+        config.quantization_config = quantization_config
+        # auto-enable DeepGEMM UE8M0 if model config requests it
+        scale_fmt = quantization_config.get("scale_fmt", None)
+        if scale_fmt in ("ue8m0",):
+            if not envs.is_set("VLLM_USE_DEEP_GEMM_E8M0"):
+                os.environ["VLLM_USE_DEEP_GEMM_E8M0"] = "1"
+                logger.info_once(
+                    (
+                        "Detected quantization_config.scale_fmt=%s; "
+                        "enabling UE8M0 for DeepGEMM."
+                    ),
+                    scale_fmt,
+                )
+            elif not envs.VLLM_USE_DEEP_GEMM_E8M0:
+                logger.warning_once(
+                    (
+                        "Model config requests UE8M0 "
+                        "(quantization_config.scale_fmt=%s), but "
+                        "VLLM_USE_DEEP_GEMM_E8M0=0 is set; "
+                        "UE8M0 for DeepGEMM disabled."
+                    ),
+                    scale_fmt,
+                )
+
+    if hf_overrides_kw:
+        logger.debug("Overriding HF config with %s", hf_overrides_kw)
+        config.update(hf_overrides_kw)
+    if hf_overrides_fn:
+        logger.debug("Overriding HF config with %s", hf_overrides_fn)
+        config = hf_overrides_fn(config)
+
+    patch_rope_scaling(config)
+
+    if trust_remote_code:
+        maybe_register_config_serialize_by_value()
+
+    return config
+
+
+def try_get_local_file(
+    model: str | Path, file_name: str, revision: str | None = "main"
+) -> Path | None:
+    file_path = Path(model) / file_name
+    if file_path.is_file():
+        return file_path
+    else:
+        try:
+            cached_filepath = try_to_load_from_cache(
+                repo_id=model, filename=file_name, revision=revision
+            )
+            if isinstance(cached_filepath, str):
+                return Path(cached_filepath)
+        except ValueError:
+            ...
+    return None
+
+
+def get_hf_file_to_dict(
+    file_name: str, model: str | Path, revision: str | None = "main"
+):
+    """
+    Downloads a file from the Hugging Face Hub and returns
+    its contents as a dictionary.
+
+    Parameters:
+    - file_name (str): The name of the file to download.
+    - model (str): The name of the model on the Hugging Face Hub.
+    - revision (str): The specific version of the model.
+
+    Returns:
+    - config_dict (dict): A dictionary containing
+    the contents of the downloaded file.
+    """
+
+    file_path = try_get_local_file(model=model, file_name=file_name, revision=revision)
+
+    if file_path is None:
+        try:
+            hf_hub_file = hf_hub_download(model, file_name, revision=revision)
+        except huggingface_hub.errors.OfflineModeIsEnabled:
+            return None
+        except (
+            RepositoryNotFoundError,
+            RevisionNotFoundError,
+            EntryNotFoundError,
+            LocalEntryNotFoundError,
+        ) as e:
+            logger.debug("File or repository not found in hf_hub_download", e)
+            return None
+        except HfHubHTTPError as e:
+            logger.warning(
+                "Cannot connect to Hugging Face Hub. Skipping file download for '%s':",
+                file_name,
+                exc_info=e,
+            )
+            return None
+        file_path = Path(hf_hub_file)
+
+    if file_path is not None and file_path.is_file():
+        with open(file_path) as file:
+            return json.load(file)
+
+    return None
+
+
+@cache
+def get_pooling_config(model: str, revision: str | None = "main") -> dict | None:
+    """
+    This function gets the pooling and normalize
+    config from the model - only applies to
+    sentence-transformers models.
+
+    Args:
+        model: The name of the Hugging Face model.
+        revision: The specific version of the model to use.
+            Defaults to 'main'.
+
+    Returns:
+        A dictionary containing the pooling type and whether
+            normalization is used, or None if no pooling configuration is found.
+    """
+
+    modules_file_name = "modules.json"
+
+    modules_dict = None
+    if file_or_path_exists(
+        model=model, config_name=modules_file_name, revision=revision
+    ):
+        modules_dict = get_hf_file_to_dict(modules_file_name, model, revision)
+
+    if modules_dict is None:
+        return None
+
+    logger.info("Found sentence-transformers modules configuration.")
+
+    pooling = next(
+        (
+            item
+            for item in modules_dict
+            if item["type"] == "sentence_transformers.models.Pooling"
+        ),
+        None,
+    )
+    normalize = bool(
+        next(
+            (
+                item
+                for item in modules_dict
+                if item["type"] == "sentence_transformers.models.Normalize"
+            ),
+            False,
+        )
+    )
+
+    if pooling:
+        pooling_file_name = "{}/config.json".format(pooling["path"])
+        pooling_dict = get_hf_file_to_dict(pooling_file_name, model, revision)
+        pooling_type_name = next(
+            (item for item, val in pooling_dict.items() if val is True), None
+        )
+
+        if pooling_type_name is not None:
+            pooling_type_name = get_pooling_config_name(pooling_type_name)
+
+        logger.info("Found pooling configuration.")
+        return {"pooling_type": pooling_type_name, "normalize": normalize}
+
+    return None
+
+
+def get_pooling_config_name(pooling_name: str) -> str | None:
+    if "pooling_mode_" in pooling_name:
+        pooling_name = pooling_name.replace("pooling_mode_", "")
+
+    if "_" in pooling_name:
+        pooling_name = pooling_name.split("_")[0]
+
+    if "lasttoken" in pooling_name:
+        pooling_name = "last"
+
+    supported_pooling_types = ["LAST", "ALL", "CLS", "STEP", "MEAN"]
+    pooling_type_name = pooling_name.upper()
+
+    if pooling_type_name in supported_pooling_types:
+        return pooling_type_name
+
+    raise NotImplementedError(f"Pooling type {pooling_type_name} not supported")
+
+
+@cache
+def get_sentence_transformer_tokenizer_config(
+    model: str | Path, revision: str | None = "main"
+):
+    """
+    Returns the tokenization configuration dictionary for a
+    given Sentence Transformer BERT model.
+
+    Parameters:
+    - model (str|Path): The name of the Sentence Transformer
+    BERT model.
+    - revision (str, optional): The revision of the m
+    odel to use. Defaults to 'main'.
+
+    Returns:
+    - dict: A dictionary containing the configuration parameters
+    for the Sentence Transformer BERT model.
+    """
+    sentence_transformer_config_files = [
+        "sentence_bert_config.json",
+        "sentence_roberta_config.json",
+        "sentence_distilbert_config.json",
+        "sentence_camembert_config.json",
+        "sentence_albert_config.json",
+        "sentence_xlm-roberta_config.json",
+        "sentence_xlnet_config.json",
+    ]
+    encoder_dict = None
+
+    for config_file in sentence_transformer_config_files:
+        if (
+            try_get_local_file(model=model, file_name=config_file, revision=revision)
+            is not None
+        ):
+            encoder_dict = get_hf_file_to_dict(config_file, model, revision)
+            if encoder_dict:
+                break
+
+    if not encoder_dict and not Path(model).is_absolute():
+        try:
+            # If model is on HuggingfaceHub, get the repo files
+            repo_files = list_repo_files(
+                model, revision=revision, token=_get_hf_token()
+            )
+        except Exception:
+            repo_files = []
+
+        for config_name in sentence_transformer_config_files:
+            if config_name in repo_files:
+                encoder_dict = get_hf_file_to_dict(config_name, model, revision)
+                if encoder_dict:
+                    break
+
+    if not encoder_dict:
+        return None
+
+    logger.info("Found sentence-transformers tokenize configuration.")
+
+    if all(k in encoder_dict for k in ("max_seq_length", "do_lower_case")):
+        return encoder_dict
+    return None
+
+
+def maybe_register_config_serialize_by_value() -> None:
+    """Try to register HF model configuration class to serialize by value
+
+    If trust_remote_code is set, and the model's config file specifies an
+    `AutoConfig` class, then the config class is typically an instance of
+    a custom class imported from the HF modules cache.
+
+    Examples:
+
+    >>> from transformers import AutoConfig
+    >>> klass = AutoConfig.from_pretrained(
+    ...     "meta-llama/Meta-Llama-3-8B", trust_remote_code=True
+    ... )
+    >>> klass.__class__  # transformers.models.llama.configuration_llama.LlamaConfig
+    >>> import transformers_modules  # error, not initialized
+    >>> klass = AutoConfig.from_pretrained(
+    ...     "deepseek-ai/DeepSeek-V2.5", trust_remote_code=True
+    ... )
+    >>> import transformers_modules  # success, initialized
+    >>> klass.__class__  # transformers_modules.deepseek-ai.DeepSeek-V2.5.98b11844770b2c3ffc18b175c758a803640f4e77.configuration_deepseek.DeepseekV2Config
+
+    In the DeepSeek example, the config class is an instance of a custom
+    class that is not serializable by default. This class will not be
+    importable in spawned workers, and won't exist at all on
+    other nodes, which breaks serialization of the config.
+
+    In this function we tell the cloudpickle serialization library to pass
+    instances of these generated classes by value instead of by reference,
+    i.e. the class definition is serialized along with its data so that the
+    class module does not need to be importable on the receiving end.
+
+    See: https://github.com/cloudpipe/cloudpickle?tab=readme-ov-file#overriding-pickles-serialization-mechanism-for-importable-constructs
+    """  # noqa
+    try:
+        import transformers_modules
+
+        transformers_modules_available = True
+    except ImportError:
+        transformers_modules_available = False
+
+    try:
+        import multiprocessing
+        import pickle
+
+        import cloudpickle
+
+        from vllm.config import VllmConfig
+
+        # Register multiprocessing reducers to handle cross-process
+        # serialization of VllmConfig objects that may contain custom configs
+        # from transformers_modules
+        def _reduce_config(config: VllmConfig):
+            return (pickle.loads, (cloudpickle.dumps(config),))
+
+        multiprocessing.reducer.register(VllmConfig, _reduce_config)
+
+        # Register transformers_modules with cloudpickle if available
+        if transformers_modules_available:
+            cloudpickle.register_pickle_by_value(transformers_modules)
+
+            # ray vendors its own version of cloudpickle
+            from vllm.v1.executor.ray_utils import ray
+
+            if ray:
+                ray.cloudpickle.register_pickle_by_value(transformers_modules)
+
+    except Exception as e:
+        logger.warning(
+            "Unable to register remote classes used by"
+            " trust_remote_code with by-value serialization. This may"
+            " lead to a later error. If remote code is not needed"
+            " remove `--trust-remote-code`",
+            exc_info=e,
+        )
+
+
+def get_hf_image_processor_config(
+    model: str | Path,
+    hf_token: bool | str | None = None,
+    revision: str | None = None,
+    **kwargs,
+) -> dict[str, Any]:
+    # ModelScope does not provide an interface for image_processor
+    if envs.VLLM_USE_MODELSCOPE:
+        return dict()
+    # Separate model folder from file path for GGUF models
+    if check_gguf_file(model):
+        model = Path(model).parent
+    return get_image_processor_config(
+        model, token=hf_token, revision=revision, **kwargs
+    )
+
+
+def get_hf_text_config(config: PretrainedConfig):
+    """Get the "sub" config relevant to llm for multi modal models.
+    No op for pure text models.
+    """
+    text_config = config.get_text_config()
+
+    if text_config is not config:
+        # The code operates under the assumption that text_config should have
+        # `num_attention_heads` (among others). Assert here to fail early
+        # if transformers config doesn't align with this assumption.
+        assert hasattr(text_config, "num_attention_heads")
+
+    return text_config
+
+
+def try_get_generation_config(
+    model: str,
+    trust_remote_code: bool,
+    revision: str | None = None,
+    config_format: str | ConfigFormat = "auto",
+) -> GenerationConfig | None:
+    try:
+        return GenerationConfig.from_pretrained(
+            model,
+            revision=revision,
+        )
+    except OSError:  # Not found
+        try:
+            config = get_config(
+                model,
+                trust_remote_code=trust_remote_code,
+                revision=revision,
+                config_format=config_format,
+            )
+            return GenerationConfig.from_model_config(config)
+        except OSError:  # Not found
+            return None
+
+
+def try_get_safetensors_metadata(
+    model: str,
+    *,
+    revision: str | None = None,
+):
+    get_safetensors_metadata_partial = partial(
+        get_safetensors_metadata,
+        model,
+        revision=revision,
+        token=_get_hf_token(),
+    )
+
+    try:
+        return with_retry(
+            get_safetensors_metadata_partial, "Error retrieving safetensors"
+        )
+    except Exception:
+        return None
+
+
+def try_get_tokenizer_config(
+    pretrained_model_name_or_path: str | os.PathLike,
+    trust_remote_code: bool,
+    revision: str | None = None,
+) -> dict[str, Any] | None:
+    try:
+        return get_tokenizer_config(
+            pretrained_model_name_or_path,
+            trust_remote_code=trust_remote_code,
+            revision=revision,
+        )
+    except Exception:
+        return None
+
+
+@cache
+def try_get_dense_modules(
+    model: str | Path,
+    revision: str | None = None,
+) -> list[dict[str, Any]] | None:
+    try:
+        modules = get_hf_file_to_dict("modules.json", model, revision)
+        if not modules:
+            return None
+
+        if isinstance(modules, dict):
+            modules = modules.get("modules", [])
+
+        dense_modules = [
+            m for m in modules if m.get("type") == "sentence_transformers.models.Dense"
+        ]
+        if not dense_modules:
+            return None
+
+        layer_configs = []
+        for module in dense_modules:
+            folder = module.get("path", "")
+
+            config_path = f"{folder}/config.json" if folder else "config.json"
+            layer_config = get_hf_file_to_dict(config_path, model, revision)
+            if not layer_config:
+                continue
+            layer_config["folder"] = folder
+            layer_configs.append(layer_config)
+        return layer_configs
+    except Exception:
+        return None
+
+
+def get_safetensors_params_metadata(
+    model: str,
+    *,
+    revision: str | None = None,
+) -> dict[str, Any]:
+    """
+    Get the safetensors metadata for remote model repository.
+    """
+    full_metadata = {}
+    if (model_path := Path(model)).exists():
+        safetensors_to_check = model_path.glob("*.safetensors")
+        full_metadata = {
+            param_name: info
+            for file_path in safetensors_to_check
+            if file_path.is_file()
+            for param_name, info in parse_safetensors_file_metadata(file_path).items()
+        }
+    else:
+        repo_mt = try_get_safetensors_metadata(model, revision=revision)
+        if repo_mt and (files_mt := repo_mt.files_metadata):
+            full_metadata = {
+                param_name: asdict(info)
+                for file_mt in files_mt.values()
+                for param_name, info in file_mt.tensors.items()
+            }
+    return full_metadata
+
+
+def _download_mistral_config_file(model, revision) -> dict:
+    config_file_name = "params.json"
+    config_dict = get_hf_file_to_dict(config_file_name, model, revision)
+    if config_dict is None:
+        raise ValueError(
+            f"Failed to load mistral '{config_file_name}' config for model "
+            f"{model}. Please check if the model is a mistral-format model "
+            f"and if the config file exists."
+        )
+    assert isinstance(config_dict, dict)
+    return config_dict
+
+
+def _maybe_retrieve_max_pos_from_hf(model, revision, **kwargs) -> int:
+    max_position_embeddings = 128_000
+    try:
+        trust_remote_code_val = kwargs.get("trust_remote_code", False)
+        hf_config = get_config(
+            model=model,
+            trust_remote_code=trust_remote_code_val,
+            revision=revision,
+            config_format="hf",
+        )
+        if hf_value := hf_config.get_text_config().max_position_embeddings:
+            max_position_embeddings = hf_value
+    except Exception as e:
+        logger.warning(
+            "The params.json file is missing 'max_position_embeddings'"
+            " and could not get a value from the HF config."
+            " Defaulting to 128000",
+            exc_info=e,
+        )
+
+    return max_position_embeddings
+
+
+def get_model_path(model: str | Path, revision: str | None = None):
+    if os.path.exists(model):
+        return model
+    assert huggingface_hub.constants.HF_HUB_OFFLINE
+    common_kwargs = {
+        "local_files_only": huggingface_hub.constants.HF_HUB_OFFLINE,
+        "revision": revision,
+    }
+
+    if envs.VLLM_USE_MODELSCOPE:
+        from modelscope.hub.snapshot_download import snapshot_download
+
+        return snapshot_download(model_id=model, **common_kwargs)
+
+    from huggingface_hub import snapshot_download
+
+    return snapshot_download(repo_id=model, **common_kwargs)
+
+
+def get_hf_file_bytes(
+    file_name: str, model: str | Path, revision: str | None = "main"
+) -> bytes | None:
+    """Get file contents from HuggingFace repository as bytes."""
+    file_path = try_get_local_file(model=model, file_name=file_name, revision=revision)
+
+    if file_path is None:
+        hf_hub_file = hf_hub_download(
+            model, file_name, revision=revision, token=_get_hf_token()
+        )
+        file_path = Path(hf_hub_file)
+
+    if file_path is not None and file_path.is_file():
+        with open(file_path, "rb") as file:
+            return file.read()
+
+    return None
diff --git a/transformers_utils/config_parser_base.py b/transformers_utils/config_parser_base.py
new file mode 100644
index 0000000..79d47ff
--- /dev/null
+++ b/transformers_utils/config_parser_base.py
@@ -0,0 +1,20 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from pathlib import Path
+
+from transformers import PretrainedConfig
+
+
+class ConfigParserBase(ABC):
+    @abstractmethod
+    def parse(
+        self,
+        model: str | Path,
+        trust_remote_code: bool,
+        revision: str | None = None,
+        code_revision: str | None = None,
+        **kwargs,
+    ) -> tuple[dict, PretrainedConfig]:
+        raise NotImplementedError
diff --git a/transformers_utils/configs/__init__.py b/transformers_utils/configs/__init__.py
new file mode 100644
index 0000000..dcae05a
--- /dev/null
+++ b/transformers_utils/configs/__init__.py
@@ -0,0 +1,70 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Model configs may be defined in this directory for the following reasons:
+
+- There is no configuration file defined by HF Hub or Transformers library.
+- There is a need to override the existing config to support vLLM.
+"""
+
+from vllm.transformers_utils.configs.afmoe import AfmoeConfig
+from vllm.transformers_utils.configs.chatglm import ChatGLMConfig
+from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekVLV2Config
+from vllm.transformers_utils.configs.dotsocr import DotsOCRConfig
+from vllm.transformers_utils.configs.eagle import EAGLEConfig
+
+# RWConfig is for the original tiiuae/falcon-40b(-instruct) and
+# tiiuae/falcon-7b(-instruct) models. Newer Falcon models will use the
+# `FalconConfig` class from the official HuggingFace transformers library.
+from vllm.transformers_utils.configs.falcon import RWConfig
+from vllm.transformers_utils.configs.flex_olmo import FlexOlmoConfig
+from vllm.transformers_utils.configs.jais import JAISConfig
+from vllm.transformers_utils.configs.kimi_linear import KimiLinearConfig
+from vllm.transformers_utils.configs.kimi_vl import KimiVLConfig
+from vllm.transformers_utils.configs.lfm2_moe import Lfm2MoeConfig
+from vllm.transformers_utils.configs.medusa import MedusaConfig
+from vllm.transformers_utils.configs.midashenglm import MiDashengLMConfig
+from vllm.transformers_utils.configs.mlp_speculator import MLPSpeculatorConfig
+from vllm.transformers_utils.configs.moonvit import MoonViTConfig
+from vllm.transformers_utils.configs.nemotron import NemotronConfig
+from vllm.transformers_utils.configs.nemotron_h import NemotronHConfig
+from vllm.transformers_utils.configs.olmo3 import Olmo3Config
+from vllm.transformers_utils.configs.ovis import OvisConfig
+from vllm.transformers_utils.configs.qwen3_next import Qwen3NextConfig
+from vllm.transformers_utils.configs.radio import RadioConfig
+from vllm.transformers_utils.configs.speculators.base import SpeculatorsConfig
+from vllm.transformers_utils.configs.step3_vl import (
+    Step3TextConfig,
+    Step3VisionEncoderConfig,
+    Step3VLConfig,
+)
+from vllm.transformers_utils.configs.ultravox import UltravoxConfig
+
+__all__ = [
+    "AfmoeConfig",
+    "ChatGLMConfig",
+    "DeepseekVLV2Config",
+    "DotsOCRConfig",
+    "EAGLEConfig",
+    "FlexOlmoConfig",
+    "RWConfig",
+    "JAISConfig",
+    "Lfm2MoeConfig",
+    "MedusaConfig",
+    "MiDashengLMConfig",
+    "MLPSpeculatorConfig",
+    "MoonViTConfig",
+    "KimiLinearConfig",
+    "KimiVLConfig",
+    "NemotronConfig",
+    "NemotronHConfig",
+    "Olmo3Config",
+    "OvisConfig",
+    "RadioConfig",
+    "SpeculatorsConfig",
+    "UltravoxConfig",
+    "Step3VLConfig",
+    "Step3VisionEncoderConfig",
+    "Step3TextConfig",
+    "Qwen3NextConfig",
+]
diff --git a/transformers_utils/configs/__pycache__/__init__.cpython-312.pyc b/transformers_utils/configs/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4da3581fe3da281192b4924ce6f5d3a28dcc11be
GIT binary patch
literal 2553
zcmai0OLH4V5T2D~Th`O>H(?2mV>`BFY^oAM5-@(mA(9QYF;#QfT5Ctr;GP|^yHYG}
zocRIVx$#^02TSS1i5p2sQN@Xwmb`Wqht=WJH@!Wx-92Bo^jj{MCh7yppZMR3{h=4v
zpG2R$ePj^wGjRwdj^QN05DA(vG#`Kgk)%oFNf;DEbO`w%42u*^As>Pfk)~<n!;leK
znnj+1oXFEW@)0PAQ96n|4P#=Qjw8>&gqWn0$g?mdrs*{D9L$JWI*U9Hb7G#(BQL;$
zSfq={N8vqjhu%Rx2JZ`#n#jlD196w$MLq!^iY2;)d=l=7Wx9-f3hs*)x`KQfR>c}!
zLp}o!#5!F^J_{S7NQ<IGOJb95qHPX75?gf3Aa&x*|6<VX&cf>A55K1?(qUj$rCZ~5
z-xPMoykMroYTRXx$z3yOaNl&e$Etz!I%Z9J%EZ(+fPBT>y6G|7m#+Ufo!&6d8q8y+
z+ThCmkuA>-xOB}Lhnr(BI_BYldDyxz)oEv*?fU9i!93pte&N|(r+E7;+jN<VC6K0U
zGtc7=!wA?F_X8b3FLwRhZ#A3J3(R)8Tq&mi)EZee!pu%hNVba^s%37sVF%C4mB=u@
z$5_*6?DD*Pz7<(>dou8kcTXZiW`E~-c|TgFPQHzJ{s7q3F$fu1(qHbpIE_}LFS+1l
zRZ-iEY*}qPFGuTKxhA$Mx8lrJnA7s@$YHF)_iVqx-1@E9Co1KyPMfUS0$W{A<eRHV
z>7Mhm$dEr`LI$36BTM1hau}I1I)&|MnLciFKUx*Oe#PAFBX$);rp$@$@SB{+ZUVX9
zHV_t01J>L=i?)TcXgKG-QpLVoRqE@99p-vZZc38>1_IA+%d7qy=e+@Sqh3<OpoSq0
z!x~03q%`Q6;pH^sH54?AY8cay(U8?Ju3<vMq=qRCGa6<!ENWQLFt1@w!?c2<)sMqr
z%W`DZvch|908vySM*6i{0SCWW?R8Vp*22S}!~1c*Ri(;02+S^AkMnl=lC|2fg|&!(
zfur;+s~#3DK6GZ+fnjaK<+xyKHmHoT{NZY>vuYJfDxu+>g-db%-`U*9OAQ~yxn8P{
zvH;r*FFL*^xT6iIh;SwDd{7-~=^NGZiZ6@6{zVza$1b?jYi=b0t=X^`7ma|X<wvcL
z8jnv{sJYPQ0X9Q?!ft<PV6%j4aS>g+TMcZic#&xtY-9h$>p-eugk2gR$M<?tS+1Hn
z*t79*czTXu_lKKtN#2y)FJ9O_!+8;3N?(sb)vdizf<r}*m-vmX{tU#Cq-T!}U|GMC
zw`w=}_qY^@W~s@W8-eZBS+H@{dicqs%ZIF_eo0HsPSB8UNvBl$|ClQE$5hF(xXS~}
zDmFV|>WPp}3)nO7u{vM<xgvgD!CwQ0VZ0t1G?MS~#CX;vJ6-Y;@#(uXF`jhEUYC5@
zC5K(|d6#_AC7*T4i!M1rm)$No=#r=C&?86xB$7trHBq3q?-_5B3z@`^!`>tHuKxhO
C#XlGT

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/afmoe.cpython-312.pyc b/transformers_utils/configs/__pycache__/afmoe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d97328a51bb9890c70a93ebd0dae87159b900686
GIT binary patch
literal 3223
zcmb_eO>7&-6`mDIk>ZbjN%2<{e?(hUEYWq{IB`>1ZVEey9ic#dsV;*RcSJ3;++}B%
zw&e1l0tTv}KR|#MNpCsyQUu5?_W(HtDC{PO#hjd<3vX*UL5v=XzPGd780{el+9hV@
z``)~H``+7`H~cu0NfLOB=<oEurwI81$>fOz;OPYbZxfAZib49yo}!Q`a+7FN4~Q0F
z%6k#1w>PClddgnpB-)ORQPft%{LeXaxT>2>d(|=z^j=r$%Kmylp8gBKZ{Zb;>?s-n
zLttix{BJ*P4V;T=QD`w})6nA363}L#C815-j}xM$0Hs+>%fL9xrnNa}^DM3{KwAX7
z#1esK7Bq6umZ9aL6`&PiWeGIPpjiRF0<FqsSgZ&!1?yH}t_C`Fm}{`;!Oj^uP_*WQ
z%wF=094mXNUyyc7q^=+IEhf_>Vk(kdk-Tel)qQH~_nAl?>YBz(Nfva|VZ6^YU3Hig
z<zNN<Z}EaT?9*VWp`I{qi+L1*DVxzivV;=VahU1omPrqps@cL99<dX8S2cz#5GHVr
zYI<KJ1EXr!5&6D)Ob3>&`^#B>pJ|$I_G|%uf=o3a08Y7T_LxZXzD-Sw_bD6LVrB?l
zbk*)56HAWH=sk;T^f?1bZVec94w<9EO2l>-%$YrrLZ8|3fN>}AH6Rp3)Ul4lB5K%&
zDraCaQ1sIw3GH!f2rl?)hThj5&<kWqyK8Yq4~Aw}fD1!NGP*2M5~B}HlzN7>uNs&*
zld`*vpHOp>(OKKjF$MIVZfe#&k@7Q5os$8BtbChl4PpZGBGn%bC^OZ4gJ~jeN<T!>
zu?9yHck97%!2!=EoLBPnbA^yUD{qsLG9nab{AV-;3}ylr0X7w~7_i{X5;B?w77gd(
zz$WLOj1tF+J*AKlN~c4e8DMa5<TFYFON1;1Y$jxBV19i;$tVL1efFQxEU<LQ=7D8G
zwg7B4WKm#qAzK7CAF?H23n9w_TMSta*iy)rfn`IM2bK$20oZcLioo(AD*-EntPBiK
zw*QPOz)B%o0agxK6<8%?tH4%5Rs&X@Fz4C?z1bL%Kb&IO(3H`fu8it`RsIOo_Jp(}
zyByv98)?@$=AL89IcAz;N;zhdV*)wmjbpkvW{G2RIOc?7DmZ3<W2hV><oIzoM#nKI
zj<IkIfurXf9p>mKU&XG59d1J2z^;ki8g?!0&Os+)_7KjVNKmLlx<hHZDWWzr4*t_;
z|GnSeaZJH;-v1vRpFX;$awu0bly(i(wkfqSzS?&_r~ka&ar%SKKp$*6V1hZD$HOZx
zzjSnkbqsyKGdOV$EwgjiF!~+12~GO|stD9zI&^fy?sWZI(eC)=ers^TH{h-Jv(H@x
zTa#R3&g=y^)Xz?d_nJb=t+VLw=iKtSv*@RZf?L0YV>KLW7m=^H%@=X3!T68n8xOC(
zAz7gYi!*L%&9`xW8>MUE+R8feqFZdh^z1|{kUnl*#o0#q=E)lxmr=eNTAA?RCBYE*
z`*`DLsD0k8Ucj*&S_|TMJc%n`1s~FZ4__uSZ^j=b3Xc-E9&YYDOx*hL#wUqePa!j;
zUDL^Igp3KC44uH%&`+U|jcYJ9#!5KG<FGqEg&y{#ZVYt-e`9*T&c1*1v-^L#)_ZdJ
z#n}hXzTCcZqX#O4oPD&jJKg~>#>zLw^2skvIuW<^Uf<HSJ5rf=*Tz^x`9<h<0~sMV
zzFpBy<Eb#!KBH75DeYU@&_JA~^jAaGn9P8j8U8IHB5;?Bi0yC@J1{KO5z&3iGDK9<
z;lhm?I?Uj15t(4mc9~(okyH34NNtRHhi^g8v7q}MRt`H2p*(v)+=asF>t2GC;X}eV
zYq_nqTW`9xy4!5I8(VIn?3QZo`AxS8->Bi1s_t6btu)=Wb+-(=YRzpl-FgH2QWGt#
z)ZC31P;>o)+dSu1>TbT^mda0FRc<P=+sfl?-i!Ijn<mReFD`L{R93wiiIb$(^imS1
zQJ#@_mXxdBoW%2_TK5(tUIhH^<-hECOOj{F(z2J6c$wr1US8q?X|%ke#3fRxdu53$
zBwz7XB(9Qd!CRHMMyd_3E^&k8N?udqHIgsCbLXuiuO<08jN`n->*!Zo;tjG=^Inkn
z0>-f^@fONE5?@6BejxEBk}G;Yl=w1PE_*+c_(jrM_pV6%5-C=^mnFVRmP_w6-}>dd
z*+;pS_hTu11q1tu#M_|YU6Xi6A&WWhy8H;<PZfCYH^C=)LVOk8nQV{Uc2v}!FH&2w
zJPo<(|E=>&7RSF1{%#U+N>$u)d>uu;8QgCo@rvBt+x#`4xDjo<BD{#AC|@Utvi;Tc
b>xyz)dAQj4iulOen<DArS?4!#-^{-OLN+F;

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/arctic.cpython-312.pyc b/transformers_utils/configs/__pycache__/arctic.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3aa95411befe9e6dc4153de15f4cdccfaf1e52cb
GIT binary patch
literal 9285
zcmbtaTWlOhcI|nR!<R&nqC`?8ThwDYUU5i0Y|C0pHZ55X$D$=!Q8sj(W^=k`rmddt
zadnR<Dq}!E6of+JKnW690rKGh`{9j(ARh@}1V|9%Gx?DsC2lmdfP-}q=#PSSu||-O
zoLkl1Gec94O<L6Lx?PW3b?>eFsG5K2?d?+VSn1z0-`%AsKP4o3GGXD#-=XlCVkirW
zkuZ{0qMBStR#OY91mP(wUCk_HL^*9`s~rm+qMWfhtGR_-LP;tt_t9W9X!Fgw?<6F)
z&|_qc4l}XP%Th_@lwx$=P>kH2q^!LYc3J2PYr9a}{hiuPqGu24dRfPvR5<eHmA?F@
zYa?^K=$S>e>KM#Yi;i6~%XO}Mrei;%hWTWW)m_6ZdO^<6J-uk@uA5H;sX2QEug&K;
z^SEx>%s4Lk;#-I1l*^`FMn^IBwR08EtGP#JW-4`2QPPX7P;_SAx1HsZrC(+<Zd96<
zU8YUj^?1GL&3K%#nJNg($hj3havi%Eu3Nmq^(apc1N}^4%0dG2Nd77$u#jSDmNAmA
zqsB-rWLXEWw7@b8oh%0|OV~<BzBAY?Iq|M@VNNdP(VM6WvX;YjjX&B<NS8o#t5(rZ
z23y>U&JArzcbT@#%yPwZ=kr}br>5C@m1$bgrD<Sm-J)`jrhQ!3Em^~RXt0!Nd%-46
z({0=F1jk)X<9$?>DOry0@l8}tFFB6&W913T%734o@v60%npvCnbY5oO^ws*SuN}Vp
zDx0y)rJ34_S8?o_E0$FS<8<3CIlRiatJOWzazhTfGm^)J+6pHP7hoF-?oNQ;QNG?X
zc>Uz+@%!mPfBVSwcW!0wr$_vW-FMSNx6=>OyZQF0&&E<XiRxcU3M3&R1*2mjC*;*B
zWRe3fw@aCvuj{sFUK2bDWzz{VLH1*9$@JWy!)7{Xt`~H2r*0e2y+@=KL2s4%xvnmn
zJ-SZcy2@x%(_Hf!gS0q_mG=|aLST%*00G*Td;%ayK@~aihVLRktddL^rqXBx#!+zd
z0K~!pV&QMU=MRouKfPMKpC0pvN3Nf}b&z;DGz_k$9;AomC^SGDD`VsG7pVE&7G{z{
z8_9*Vkt!z^GCAe{`p?L%Dy4*xzLBFXVPqI>g|1SP)&p~+l+vQU<3>+xV7iTLYpYUH
zwCKFiv(U4uT!ndhUxB!Kq`0Jr^uyq2mx||N#dKBtc@@@fVN_vFRL@ae&*5x?22M%U
z)ejcsxM#^mEq+)~&v-Ok-DL*#C0jvq);*@`wxB56hek~=79CDXL5*n+ZjBYql8N5f
zL-i`NJ$IjKu##zuMra|eq0WmH(_=-i&KZctWT=(iz7j!o+4L%c0LIemmglO=re&!s
zCbK|Fb<L`2>Abz8oRjXUSSihI*Twfvyf?*Ny=v&TnLncHhM_K3&_K?qqDwx8B*MW8
zg|03!1<Cr*fUC~ZN0>c$Z&w&MJ+;K0D!94cW-opSz8Pv!x78&Uv$g2h9(OD;D@og_
zd$qdf7Ssz&2j?qHkTjg4;Gx)^&maL?gf&3QrcGu^G>@h|$II>!F&gR16{n~#i5;p=
zEy74H?o(fKYUGl1>m?y6$z6!^;DOoM*?hArb-zU2>)`YXSbmK~oNd*Kf_j3)%_J}F
zdUc6$YG;_G65~(^h~+Y~sT!OQ8N*o(Mh2BooTZg`{X~);%#^sJnTETl*5D=4Y`Ma0
zbhj*0nRRL$FSlYE2D4vmy@zIBdu82nPnghP7tDzkD#ugf=}Om9i0Of&3~s@o4fA4D
z_a8cV@VR8qzI*QJG{IsmT&Jb4z$LwaWY?{8K9*9rz;Gbb7AktN>F-o#7hx)RbIC+r
z_dLiBe9|gV-~ZPH;-OSI6sb1Tixst5Atnb^f3dk;W-Hni-Kw(}oZI1bylJ(tO>K@x
z4W}uT*{wKrn4^}BZdPj+BP*z$BG(ADJzr<oJaZAlVEan3_6Suce#WEAIUn7C$Jn@J
z)1>tfwh%U3Jqy!ls;9|@#3a<Iv#00s`&9D<2<?CRpz9`%QP0oiRR@#c%O*&lIzJbA
zj)MAY*qm+4g2lVSxF^kfm1a3j@>Po!R=iwuuy4p(>tdAVw|!FdBCJrs6k$t+Fa_Jy
zCc`nljB1(DMi<7U%5=MiI8V@q&mgur+(a0yTcPyGy9j-PMH0jc>dDBY8qCuX;mMi8
zOsgNDt=mSVrq>w%a4HJLb$->nQgC>Are>684ji0)xv>A>fkQ7BfaXcyD*OeUEJD+!
zzuYGsTI74cjK#x?&0Q95aJ}eZcVnfCSc1A(s@upg9Qzqod~wn>t@`BRceI*;zC8`D
zAih&Eu6ZT&GU1r&R5Ut~0!i>MAMHAWt+N7E{i;@TTvHeU2AgkCRPcODut-+-rGp1H
znjgkAtM#htvXAR9J505hT^3;g#6&^}wZBUFfy$s?@zx`O7F6k$zUQj0Wr`qW*|ZI3
zxoJw;qzG5yETe5i4L+-0BdrXl82YWIOc2u`GP2+YxdsbaW)O`?E}kKd*~09B4Magv
zmVt~1q0$xjjuwxDRLw5Jn;4o+p54+~sH$WfV?5GtnJ=k`0=QXZZgal8>WV=$RwKbY
zZ>sy*^z6$U%oV*&3ocQ_h|*cB7#iwC^9xf6ReF#nakSQou;aue%DSGxqs5E7&ekgg
zEDD(#(nZ=gP1_gR0OZPbE?olBXpgMLjIb1LQ`}fJ^^GPDflCc?u`A!Rt(7));LKuI
z5c|Szs*5l$NZt#ktA(0>RLrrtyqa!kBCbJ<f)%chtTtdH+J$i``i3Di;-cn|OOE@j
zA=`ts{m-N@xx`@ZC<LE&O4E^sPfCq$Qe?jj#f{Xsxu!{G8_%TWnaJ#sJ7{gj;(3~J
zQn%cvsz$66*zqD@6z)Ps)+*6bTWB?12WDb4dBB|-(=d{!zsMFrgp8-KK1{v{HK(%+
z6@I~VVnJVU&b{3-hbGa`K53zSdanMw{}g)$A0iAK#pc4%JkQ0DX>0K^ag3!I-~&0k
z=bMR*S0D8k$6dlsk#yqm)f#t}^d-}R1#LA^6zH(4;2MH`K+^vWc2m3RZ={ILKrI}N
z>^OI@`7!FW*r@xW+yg2_i7o<n<RFxQglXWS=hUWai|B?U9=qIT9BMkpITX6YUuotR
zvLh>+|8wWPKG2+xgYan1n5+6eNKs&i3_zIFrqa;7z#_eV6@*<^D>|(7V)B~Z$XZ|=
zmBvwVgoqP^SY{p$&@54dj8a6Xi;MCwOkl^39g~S^>!Fy6xYyxc=z!1C*}}dMIW8=z
z9EtkwLh>KFQQ^SCX6mbNA?8@I)}LyuPvPP8&C&{zK@%y042BIS%sr!6N*eDdamRrL
zQq7u!tlV=XH)$U2jgGd>b}Ijj`AVW9{U;R<Q{j!LA9GB0il_(%O|{LSjpAGpe%vMY
z5Cz${t#v$Z+gJ6dY>V??@?MefxH#Y2gf!Y~CK_&$&e)=dT6E+8lYhrq`JW^{QyPhe
zqD8ezqZ3$oimoV)B(U(*99RliDr(wD153wP23T|ir!@M3W#hW+^<*RSNw$&2*N*sW
z2QZqAcp5oixftsLChigFOQRbY%~?E+&A{j+SYlg%^~Tr$FggkrPh$`m9R^EmD=<2@
zl-Lk3I>40Jc3^apDY0Q-bebu#5n%CcLt_-!*0^p5u%Q^+28_-*#pCUdN{un^Kva%y
z8F;_<a`eqeno48rM~OcmNzl2bc<heGSS#+m7S-IGXegh0ICM-ldK$frzQ!ga@n`AA
zIE|1{R+M~dKA#SHTH}_Wr#0jVdRoJQU|<7>EzWE6<3U&RR4Lf@luRJ#4pSKNO+o*6
z4oZT4vY>6}7{LI2ihYL6g@e9!XDJ)4OPGVMX1+wU*2U>TPirU~<l@*g=xVzEpub5u
z^k$OQI{zdm-e&rP!HsNlFi>@vCXBdN;xfxv35MyTxaL84T+@rDx1vc49Bij5#Gux9
zYH$jpFX8S(PDR7vi|cTWoRVcR%XF*3X6jot?YL{OMG&H+H{slCFeky*s0(q~)~Z%b
zgKZ4DOc)zVNs25;)BTh<i4S^k%M#xe1Q{3S8Jw<Uh`*YaSA(?6tP-Dw3i25Ovjj-P
zIjJ^3M1T~U7YMvU;8g;2yTs{upT9)l`vmq8AZ_Lc2^=Bt0|In`!H*I+M&Ja2Hwe5*
zV2;3B1dbCp1rTH}FXJ%U4RV?$4#hRiRq>sC*)yK&T--sNLCb4frBy#Jvw&#DS5W1S
zzz%+UU0Hi8p^WZXP5=HT|9i()(+@g#`=fj5z1`n=fZpTrd)F(3tN!>tdXKJUm7a;a
z-FyAXm+$sWd>z$}>=uJXop(%8<6(bz5}*70_S(2p)Oz<}YQ58s2Ft%i_+EeNO?vO~
zXV1}l+E-`kJ?2jyqW6Tq=Lo$gA9ioOW&P;HgYNu8_3%CQ^p~##te*I{p0TgheXA!P
z^o)Je*?Y6&Ug!2TC7bK=hxdek>cPi3d|2yJHf?><jgq*A3A&{N(!^C~R%U9&*kgc;
z<P(Iy`3Drp-*~Zixe1@~DLhCcQA)r9Cdqz%lJc5fB<00EB(|HGM#@N#`0PX@^+~#=
zb^4>&o1i*;yx5DxBaC>lzYvyp!+ydVr(6763Rg9$c}`1{wy}esMmfk)cp#R~-zGfc
z)p0H;w3E}Np4eacY>+BiE<Z~jeubKWRW6Rof~@2pe-|HJTCGsqP(jZDzc$pSpfR<7
zq7Ih;prPON5B=e`d;OE2|KMK#Yk$2LU^V-2eCms#zuEd={MB1Sw-bLf{N*KlgYZjV
z4dw3*<^S@~gYMaflSl4Np8xXFS4Yp?!{6lj)sqi;Cj3oXS9^tYi?OIchg>~5|0foJ
z5G3C6xrs30Q;6+Oh<}o35lcdfYXedCdrgNQwz?BiYyc-~&`5yo$$7!fd`5D-!*iPa
zmKTXMuY8KXgIAEEt98Ln`l_lSFNsyx2HSWUj`Po`amh}BlMnj_ZkBI4_xmPRQ^c*}
z?E;wf;QPlPbf0)QIrYWB7r%Kg|N8yOqpQbn_1z<0ZCRB&AwOm+pD4;B1tEs1V7Nyr
zhUC8vFc0gAgF600l*_+0_*bX?<Jup;QGQ(c>FVEp`^~Y7^N(oJk4UplmI0LOHwts}
zqC^<~fWQub^8ft!@xPv3I`;<u4PYl_1=XGuYI$)!-?#2!Ht5haTr|<8x(F>bZ>7e9
zQMgn(f6&Y_4t5wE1nj)Hz$r3LMiIN3ey@NmsNxt>i+AHQr=7`3DLHX7=nai-ky#d;
zL_%_%7W1YwuzRT~0s8O$J;1j&l*h?;5}EF`A10M8xF`2_9l8tan4VbcR0fCr!R`LY
zgg>&w-!bm*Q2l{nU)}AGjQd-M{VhWTw*n6NJ9hd5L;ki=e`L(xG3Jkq`eTz+7~kbj
z?(%m|`uPHGj{VUIbou#F(CZ?4+5WX;CNuQ;35c=y#r8j+UsHho<M_|$^&}P5ul1!f
z1Gfin7e7CEyYi>wzfgcaCLk}KX)W{le*PieL3jM)4(4*wH%{9m$b!#s!h&Ie+L}Iv
z0ehIS$X^)nEcMya)=d2LfK#xHt9Rxh4J?-#7viPgRuB^Gp1W}T;+f;xxeIS!yfAlW
z{_PXm@%QFWo;jtV;`EtIZ)<1g&dDDuP*f=-vF;u|=zJZDf!|sj<0hJr?A#TAwNxUJ
zc)VFj?EEh!{}W~CKb50DQTBeF8(rP@Rc`cNZuIu)`?)>Wv+!`4-n)H^YpLW^@~*NQ
w?jhOzi)1RXXH5YBQ<L3m0__nM>BPvI0uWZ9^s~N7GBI#>VAszTDhM9`FT$vPga7~l

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/chatglm.cpython-312.pyc b/transformers_utils/configs/__pycache__/chatglm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a78747a7e51d89356c2924a1a878d3ca3226b124
GIT binary patch
literal 2241
zcmb7_&u<e)6vt=%D|TY%2XSJ@u^p3N#35jy1q!VY0x3wSM3tJ8FVl^8>}<2%-OTQ$
z82OL`QiJ;AR?$P%Q!f?g{uR9xmBVP%0}_?0T&kcH74=Z{y<P7DQhVrFelwqWv-9J<
z@6P_1%MBAKM&dL55wxBmge5s>94|xTA<>AY7^JH-6@|peEuzKl6D`h^NAX}>GuBJg
zlZOa(MUH>Knafq(WZF&3Z0ns?Fe<QvN67I<z@Nh8j5HOEG-I05jB7D1t|h*SH4_=~
ze}7u)fV34Yc|X%k9+10AGxZ^<56RrkZPmT?{+(bea;OE^F}iZt^t#kgdyG4Bs_Pl9
zPIo=Vd$hwX&!*t5$K(VK+SWCVnc>)sNw=A*(Ve|k>9uoV#75wM{H;RBSIR@uSNeoT
z1Nt!_@C3!DSVVE~g<&E61W+RKC4s_hkbVj%75RpMhTfobL}~D4BFX^y*~Xs!Fc9w5
zFZ~gqY(!b0Ttqpb(TGNY#v&R68jolKXd<E$Kqn%a1e%N}50sB+3TP^#X`tzd3P6R3
zia^DPW`JfQ8V8E9;a(2=AI$d27d8R)>ZD)#PWck_+avYZ#`mON;TSqOyl1u4E$Zm^
zn4GXx$h1aZ>lzs(-}jHT+mQS~4SvVS&K?ClnI<zFIf+_PU6+}zZUrK7<gmkbslm*S
zyDbY{^)9t7NB8}#yTvq3H#?3T9n7h5%eFjMPQ02W>hhIpTD(h{?dXPO$|2r$utTn>
zwr%t%XO6CUszF;8Y^dcg0;{=!aQ%^Eub2iMaA3Nns}42bbyc~{V#h8V3p?ec?;7lZ
zwmk<9_U6kH?UbYRWF^>2@FMN7Ua&TGS}M%nku%Y7>R4?T<Dr|hZNGIv7SaCO8RYn`
zr$R{Yss4$!bXShpoY6sGA!(eobqFlCJ`PST$8^(W++gY+BohuJla6OIF4Gj2(_KpI
zWtni8(e@?4QQ#bP%~8%ARm@Sm95u^PoE$aDQHmTD$WeG4^~Pt>l+i4qsi3K%!Eo?7
zG&M9Q(afV+K(h!&rglD2Iix>BY0FR@hf)V;s{MD_|7)Y+cI}3(+h<&Ombqu{dY7-f
zvvZj>41KF%_uOsEZ0s3Ew*fb>>9j!~aKTZ})eWZs!hqWt>fj1IYxnpmSn%HT8&~An
zFiIE==XWqK_sP*!GP`t;_<T&1PW#o#3kQiO>8hAr#=0ox&SG7Tc;OOqO_UaK_|sG8
z5f?>u4eMDEJ|5PEDh$g$&AxpUCz;%n^u?nTsWpNr!>P+F$TK3Gdg&_iya?+vw~<#x
z{RY;{V&yv4OQLoT>q@k>aLvKIzoc^yh90MjkJIyCU-~&ce+(xk^_fG=g--rP1Ch}8
zFA{RN4}FI<-vJ5!4H|yo=b-95-+p%R!^>Z<ZLV*wufzWk@B7Wob&fav#yWh9K!B#&
zWt7TcO1qZk8Q9KJ`0}Vm=z)G_P`76@nS=L*>sy}7XjirUWXaq>EiGmkpk#%w!t4$%
zb)BCE%kgXB8@&D<1I)|&L`;<SZ$GWn#njsKWPB>Mf9GhF<flbxPUMTCSP}VxC|AW~
zK@>`&R1u}B7|)CImqf9Q-l-DWa!phhM0HLquZsC)adKJAl<@J=+@BZUO)fkqVE9_N
z{6;-4v#+a=<2NqY9)53vk+@}<elG~dHGTyU&*I=Kb`)0><wce#tAC_!D9XZ5`NbCm
I8~&sJ00fRwD*ylh

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/deepseek_vl2.cpython-312.pyc b/transformers_utils/configs/__pycache__/deepseek_vl2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..70407a2b0354d285b64b1ff3a727f324cb6d37d1
GIT binary patch
literal 4846
zcmcIn+iw%u89!r>?eX1C;(IPmLQ<Sv2!wE1ZVLsnyDS7$cB$l-k>fc@hKw&gGYMps
zR+hR|gIcP*R0~glv}!>sRXp-Pv=7O8B}OA2BDF7hbCgt|ed_m}v5mQ{Dpfs+zxlrN
zo!gvqzTfYgzXyXp0!0)5pytAa{1c5<aW$2l>!5r?6ru<kDG7O@<j6Y&;vk<8#ql*!
zoYe81({7u0@>&sUT^+R|uXRJMr=!-jEakjg*fHm@BIhZs>Xa^ApEy@3&#H4)<SL^E
zE2w3v*fm9a4qK+0#?B>ykl(}dD9H;7$veJ;W#*k!q%OsA5*jJayqjAhw_JG-mB8ob
zmM8D!mc%V@-p4H;xBPiOw*t+U0d57k70L&>73NkXAL27axz&{q(+JGa&8?n%lv^=w
z#q(XfU!v*j=DsAiQu!V}O1kNbabKp{FV6e*qUC+hpVF_0R8-tlQY84nyC|?`1y-tr
z;THuT%%{M(N&@U8jm#!j$*iFCeI3jvR>>_PpS(tL16KESRaYzJ3*}-(p{#iv?j>Gn
z`ASf!$;NV({y4m(8nRxQJaC{SR|`gQ{@|pnt8<!Kl@A@8+<%kKXlkoNxlp28H8?EG
zr<MwH6dHa-w<7R9mXG(fD~JdcuA8c2%x@*p>DCI%l<Agho)#2+3*5x=mb9wO3Wi#-
zoTWn5^3Q3NnSv%)D;4bv%dgIrD~!t6VaoCswSun8MrDDPnFD+K%ZnwM*HYaIE$UP*
z&eP&TwW5{{OVk%s81N=l=jIJrEvtqVRH#8&33T01i&h-FGg_>as*8qNo|Ekb7K1Q$
zt6=E(;kWY-5PufFAuGZPky~D};s6V_!Y(ULuyAF(tcYMW!-<d;7g+etw$BY#D=f*1
z2P}8nCxPW@TVAlFw&erM+qV2*@vz65l>k_{R$h!&T#?(M6>?`1;zv-)O7L6ZPl7;}
z$z#X#W0DIo?9KuxLMZSUSr>|K6fqPD6nKOT$7E>~84#9BU#wDQNiyGFS<Z!F*Qqx9
zKMm?$xLIIxy5*Jaqm^YH@Qh?%E43f5jT@!vcvY?LGoU#&_T5@M`q8n4qjX$TXU40`
z#(bqbzNBfTae$t(K3icWxO_4kw5E?2IWXztN)xK&C2eAVb(!sfiN5N6N6_qVy<#u4
z(90lR)<`2uG9#<vAH!yPPv;|+2Fqv0d*R_Xn^tNFtdN-*T@`<jlJ9-?e~A9fzog)8
z&xVxTkcRFasY^pUFeAwY7#=;tGiG>68Ey=Vw#^>Y;vl}5;sG+1OX1;Qz{;}alVynb
zMGf_UEdOe;pxGXV*UNJ12D8GlTqu_-21aCAm*rO{X*nUN{);<ei8BzpZ`>5thb!wx
zF@OU1*$OrfxJWfkmLCi3XHctSFr8t0u@y!H7x>otMew}*9WmqmwTo-cy4b%NKVfSp
z%y`PyQf549Ye_R2t6f+<R2O4rS5Iwf^;})-F{9mB_uDIGEMEI;Rj-S2Gtpc7e671K
z_L@o5dbrkSYkg)SX?x+ovbE{8^K~(6CeRB#`pon|?ef}WT^ulnhS$aPU6^CIA(6}(
z!Ayg<*NowU%vi!qrC|WG7ybv$Os_exXFJp98s6+lG+gj(xJfM8@SrB4=0(j%BHax?
zY5@}MX#`OVVO<!t2!Xy))VfGK)#yg8hs4v37;16U5~wB7n?fy3QhhIQ)@=fU<yxEj
z8X32sZ|85|ew&OHM;_>yx)moUGm%rUTXAvA%_-Qec(^5T3U(`AZuvL`yA^-ahZO8q
zY(fqK1&6>2p|6t?l?Y@cF33M5$TlPe2wnjqM=G2RaJmZv-Gw>bMS$+2R@Y^%dX-gf
z(4tXkv0V@urrN5sx|Pb!vR)`vAq>znN3}&O)b?{W+^PXiTVAycv>+>LX^TLBSe~*>
zOEXm2;?(0(XcdSJZz~5$E7CDAC$uRm$f=5R8L&&S4e8LQO)Iy+_<zxg(K=0X8z|*Y
zZ<7K%Eec?RFnLa5NAV>-LU97cDHI&|KSpgB1qN)+%SKTD>E@%@ghw()Z40z(c0_Z0
z&Afd|ZFrr6KKfY@F9BYA$iP01hGr8y6a9dpfj1B}djQ+?y@{Cog6G`q2(ITCisLBo
zj<M4%Ef-~DsDFUsLlg*w_8aa)Z9fXWHRGtgYk$t5;{XbLJ9ZGo1c*)~1NJ2h1x~O3
z1q32lG+Vo9rpEzS064}0ENo0lnca!nC#%=$V#17ealo4H0Ic4=b+Koy_!|BIYz$1A
zDZr}?v_!PY4sM5|fH28S!v#-37{Ch;Y7*&+HN2?V2!mPxy+PDMB-8%_du|gDHcH^a
zUqgvj%CU17Ja41KtCXF(A$~it0-_nWK(VpH)qxd$>Zbu3m~~)|fj{WUvBO3L#ovJg
zZ?&Cub3E_?9t1faga8i$R#*E|<Wl=%B-FwA^3sGAw6kH^P6@2YD=28zI3~_p5@Zcj
zHVSi=h`Fd0Zl<YAD!mEutv?oW4x5&do2^)}P*zl>U{FXe^@;{b2e4@oP^Dek0Prn9
z2m*kCP{IojR%okuAYT*hU|kV!w6n!lJ3E}eYv!B3b{TDe;XPg06Eec~tnV4ap_29(
zZlj$)@-f`aF_4LQdCwTmjxjt2W+lAvF*w}7Ixw<$;Tbf7gKc33-MUbOXVC36tdJX+
zkG@fEU@H1XfiW<L<wb$K`vxYdZ<Jet-X*|}zH=vCbM0MN0u)d%KgWcamu1M8bJ8@s
z02V`tvcg)SJhzA+Kh0YbZ(X%3=YBB-<WpGG3)-d2R<OW|^Qr-iv<O$h3bb!urO4P2
z43!JNLRiZQiL9OW@ToX#;Cu`}BP_o`ZyC)A*{4{25yd6+`Iaih!VLfNVpp*ix4VVd
zueW8R=x@IZn@01e5xezr*V}Q_Mr;HI{Ra?$*t;R(4ZX@+zn6wKll}L7_k0gNe)98r
z^5|;tdEbGJzOzqGfk4zwZ)OJXAHR2eee~GVp?c=jx|DpLo!H1utslMsk^}o@I(vWY
z-q`xck*AJ&`owDZdFF$S%;`rJ5ZEBOnalz$1kHi{X!e>T$MHF2ru(0z$2QVq&(eoC
z(ubi*7*H^<#|%WC1^PDv{oe=9J{bM$*u$|$^3$36(AjOLBjAH3Ksx8|Txoc~vPr~g
zZ}w-nPoIN;BYPKXV362^!Ox9vIwz4=r{ppgA@N|GOWw~G=WrktdHCtS0m0c~5ZI!7
zv@VXC@x66%?`BW3_US6{0OY2FwJU4D7lY>H*>y2>_wa+*1O3st2e%#$Y-A4B#j^nV
zsbO<q#5{Ik+naIi+XM=5!4uv#-PiD-CXwvOgD)Q)dg6R^?4i6daQFo_+$JDw7Qh8f
z=iFAH^LvV4Ook9+Ut9j>eEoR0?T&jvv!s*ux5sJrOE3}ZbR@}!QxJp~0V15-bsrFh
g*VALW1fILILI$i<ZkNDw_v9X79~l28@Z@9u2O!H=*#H0l

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/dotsocr.cpython-312.pyc b/transformers_utils/configs/__pycache__/dotsocr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5f29c70d7d5bd361f275e2329d9e165ecb49371
GIT binary patch
literal 2951
zcmbVOO>7&-6`mz`$)zY#KeR<kqW*tU2DR82sU4@5n>49iq=1^FX;JVpSaXNs!23hb
zEEQAXK?fC;(Yi>17V$BMUW@`oF1ZK2_7XcSuo$F3i!=yyqahnHdg^<-<U)220XoFI
zdEeXFnaB6Le=QWo2n<L6HNTT1<O>9&VGNm*cYyhT*u>Tx;%W^|Lq6rC+;k%y@o7hQ
zjfSC-6uCxh{gBuOOaCbyzu(A2(hNwm%t)l!o>|Ks<CdDH(yw|wSSH^TED#p=nEjgX
zwfHW`@^8J%yz?<^#wW&fb_h-mf%z3E$Vfx8Nh9?$P_&U|Iy3ClWq6kR#-BZDr&-3<
zVHz+qFtadCm^qkZF!M0SS=KHv(=M`Ht8zqInmut?Xp9|^TUsOkQ&O8!ldt=M{5hB0
z_hOBeX@i9B@j#8azResO^g2xCn0uYs)aI_rx4CUIk4nDJ)D-suCR}E7D_}#B*LCS|
zk7M<ikg9|tD+rhuz(uspEL*B^6gJzI=P^gBv5plq+wlq05&*Xx>N2rAJhc=sx8n;C
zp4vDrTuD7&xRiCIGP{z|>)etmbK_l0?8@f!(BimYaO7d0OlySvLHmFNu*TzdsZZ|c
z1iZjWfBKKwZy{j%TA$F=Xh%N<Xc!)Z^wWS~e?0m+pi$_Nz5ytcJj(#eCMXNYOppl(
zLO34%9H1z)5%<Rcp|;WJ=K+l;XdF->K?Oj?1Qh{IBxnNAWP&CEO(kdwP-34RxtH3x
zM`|Ty$Zm%TWm3vL9#AS!CxNO6)Ii|H0`C)ejlk0d9xCuGQ9^PCh$?}*J<8pV!(4DX
z_|x|=S~xluB1ceRdAm$aMAt-)7E}hd%5h1XR##e%%5{7hME+GXyTY<L90U==nm0N=
z#2xo`YiE=$nbZ0|wG{KHZxzV`l0_s-NS2YD1)_44HXTb!N+tfW<^LTA|JkVrZl~Vi
zopS-i9ShFg>R!C`(v6F(?(pmNPA_QtUVYDT+&UBsPqrXpAuVV(;Et>}qrxHUn0J0t
zY;}5K4ldfCeKs|>Mm|AD$h$zE9FRxPlU(t3_P$xUZ?4|G@W5ORXIGE(-xS07%_IG9
zW+hxXkLzNxu3bR999F-D>ufl;4%;Wf)fW*ih0i{&EW_hMA|9Q#w1wNNqsxYOZeBjp
z|8B0GfNoG-jtL}!*Z`g%K%g8y58N>-e~hVgj8SxqDRzvRxcjjE#nH!4{(a@DnreZ;
z+ouY~`LEtP^XF^-+W-Cc#W~n|^_{D=aSTz<av7y+j8Z67T?hGbN^f>8Cw?L@y;NET
zLQPN#mBx<)5uB;g5JAdlIldJr{krcv0+otPuL?t-H<{y5dQTIp@JOPTuZT6=g()2o
zyg>d1$dg}^aAx`7jrY@^>B|F?%q@oVOX12!xUv?mZG_c@aIPAz0>2(Ef{PZzYCVKK
zm1;O$4yR|rrS*p!o5uD(OEUul)<K5M%nq{1nWVZj$RRg|Tpqb`vbZuRAXg;ixxoZ-
zljLk=FooPSSy&#FkUN9>&LTHM%GE&`xe6(j2eZg+lG4oA&jI(401@k>Kh*>#8KXLP
z@(PGfcP;E$ai_8~(2aCEwGU=#rJ_EgL!U7s&Nwt1nW*Drq2pv#0mJ$yuf6?LyMegh
zQH8yz579Uwnxl(R6D+7$Z%*1ko+;i?VzGGlbtvA(Hy7_9DY;R(Pv6pHN+X=$n@|#y
zLf#{y442h10{eCx7e($`(2xTE2J}B}tKuHFnV;Y|EWU?tWyK1<wT<Ko5|k<(yHZqE
z;)ud9itEWi99L1|&pc(JB<o*-%@RKkFzY8rS$}u^Q?vHr<^!`9E`A$Ra(=XazHsjT
z!qtx!9=!1SC#%3=X3j-UZYF&VPD}dYivZBHHUTpLACCaDA{w`$>)nCw)z@0sCsVPh
zd+;^1Q%kEnwYq^Hm&(XuYC>9jjCPU_q?#VtL=_{s%>`=)zUZAY2YMXLF|@@G0PQb4
zZHs4){2^?SSh>L@kZ$<*E1#PMEQd=U7Vn#vKHB`uycGTCTAJT{GevkC$WF}^Tkw{s
zBl!-Js8HxOZw8U41zs*LAh`(Sbn0J1A(HRngY!V19FlNq{@@MB)XHL5UI;g84|93r
znudbvUHf<MJ&xelb1CEH0Ra-H8Xf|ws0@5zK`)Eyk6J$6A-3XF=!&R)#{EK|mDKE0
z+oBIOxpfmiJOw&5j>JgS3c__HSh<vWIWCn~#E$@CNt0NX2Wd^y9%qPF{*r9}gS_x4
dQ`5FTEkE}N+`Ikg7uvM;^7}u2Okj!5`Y*%8*v<d|

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/eagle.cpython-312.pyc b/transformers_utils/configs/__pycache__/eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2bff1b57d278d544130196ffb2f58a69268ca50c
GIT binary patch
literal 3182
zcmbsrT}&IvdG^m<uYUmtoCAU(N5DzINg$V8dJPvH32hG1yGu$X=T0lfJAh%m_U*1o
zKubkWk!sYmF_l_~uBW3?rE-eYrcdodA5Lo3m%d;^inYoERUfLpnZQYRed;&6UhJe)
zRn;}jd^6wAeE&0l_WK0{pUnOs{U?C_Mi$P;Re`<N09Zj1k|-G^$V|&rhEC8KCc$Lb
z1WO?rjUb7+ha?uWj~JUT!Oc-I?jK|^7Gq4|N?y;tl~pFvlV)fb<D7=^%=kHH=N%R6
zYBH^0$=*rXLhO;RF81yL@O{t)qXZ?P1T9es#)HUD5+nw*n45Pa(9arK?5aW>cH7W|
ztAHjb$#u`4;IT(?V>cG2o9mCVVT+%a&;%=a?y--m1PNaO-K7%#8z|;Ay;rY{j9#s(
z&*9{xjK@qala;V+hIKWsq>?(8#Mx{rd0W)d^VoD{us)TQQf%FME`Yu8zxONf+E1tz
zq*D&opmf@SA5|f>S$Cp>rU~y$pX5y=gZc&aBWi(DXah!ro%Xy$1WU)FVf4W%gx&|~
z3$6vX;gYDC3kYe{eILMd6>ijthSq0rhRe|fs5*3iJ;rc5v8T}eJ{AEr5+NS;XQ1hT
z1J~w7@G?+25k^XfK`%BRPCMOL<8vT|GU$4KgOQk-UWC+l50|m%z7ARH*#8lAIMsC6
zkzbpK(E~n3Pofn4!7Jb|-r%QOYFG!7xJT6pYMjIw{Kx1M8g%5B>HBRg@B$wzQEvdb
zG7Gx8EM0FOu7#zm`~TDx;`<+U<qvdi0BepqHq>V6fI_7WUSTD$npgzZKzv`YCaAYM
ze3HjtK8A|?gmL75MCt7gcFAL)AA$p{TxChFQjh_M<;M5kI(&b+(~(u19WVWtY=?-|
zvfW^3Dac}PT^1w5^+FaOWzih`QZ!{*d#4VH`Nm9tQcX>zb)3@kD%MQFDt}R*%VCvd
z^n9PS5!I%$d0C1oSv`6iN5`@Xj^3HVO4M!$(X<w|`iIF~C2hoXS*wBh{{M-4z;s#c
z1M|UeDziyBEjjY%WBt(^`CKlmLPx4@YSE;M?PH@!MY5rR{?AaX!4%S3TG8~RlENk{
zrBk{}TDs|($f}~<;5e{3qnYlhq?Xim)pToECxA+NjY_T*Q>b-5m2?SH0Ew!u-AU_H
zCXW@#hJ^8?oX1yHHLIGOmIud~yeOuXv@VLKThEH*{Fq>}8kQ$&;#DsZ>6*EdR3|ml
zXZt;6-!9aQNzIxp361Fy#gv@XG*Q%uR#E3${O4#~&*b8{bgmE7n#6kF-TZ~uFV0-R
zaXEcEo|}VKt;A<#ITMF_NzuUe3|2KUucu`#Zl9#Ztw8nX=G0>#d_G)vCG<N+_yD89
z1&O{~MEfD+YcArS-Q4naJ!|dWZjG17-^It>Ff5Jkv_=b~JK<MWMwdr_I<_=ixKjAA
z91In|^(1(FomzkYN$=~wpZr|jxcTj;m&c!lT2_5)$@PY(p;HwO9XVd%QFB*;y)W!|
zgAXn(UE1)rmwQhahM)Sn0Tu4uXo^=D)No`)SQfTJ-J7BAog=Y|8~GcyfFg{1jm7V5
zdfUoPEi0FnFKsl%Dv0(6%Auh>24=DrP<!X6*B@TrZX4We8{FfVp1@z*28+WWw&&C@
zvp>&1p4>Wdx!AqR7H5|OpAVNp-zc{Y?h?Afwc^mG?>LAEgo}4K{T=^y%$o<t1YSJG
z!}SDqdDMO$4&qQavNE(hw03c;>GWgvxBlPwe>b&tW@MKbw$swSDy@ze#a)hW=&rbc
zWtT8l&)yH9ruK4U=h}(2$VTkFjnEA^u_<6#xz8g{V98zLBPG6T^|ejD>%fVf<w)D7
z!b4#@a<UXT`6P0BJ94fRIro>y;4)jJif7AB;nizD9(opTT^(NQTzmIvxM!C`N6&*(
zd|h8X?*rq%dfo_XXe1N<(AY8JXaCrHW~7ld+j9qx9=onYC7Hn@R9P+wMdAW%UR6>D
zuK?gDw?9e!y_+zsKw3eE1nA|@pe87I3DBgwTK$e$pe@>ZSyd*3snNpAh8l~}W)KQO
zw3FN_K&X8+o3U$=HJOyGsc^?4l{8}0TSuso#|<emwTGaB7F*5C`PTXpc?tP8aA=od
zSVR>c>NvNW+CFx+bnI-|7u#j%4x!vPV9h1Iwcss|Lx4l=1?|DY(!%PkQgC4X8Vno!
zz#d3IF=lMcYQeDp=_i(7MN<%opYt+?-r^I*5A#Xc#;D|Fq7vt-<mNY-w4$4g1`UlA
zHdsh{h~2GCI;)xdI}o7J^bA(x1n;kQnG}{~QH)XQ3E0)hJK#;r4=Q;CSp(^h+AIuT
z-b3Yv$l`S<&9mprr{d-IS9d*M=X!U79c!<af+yC)rC?u$gB`H5qib#W;dI4KRy=A5
z7o}z43qoD_E`?kT6`JP;cY02)zxV4~pWQ0;T&!@g0hB_^a}Pj!3=r)TBK3@;NX(_e
zOAnd8`tD}+d6k6F_JyT3d34!)R!I3bY!_ZuzXk|mqt*dKg`p^Fk4Kd7cQjH$Bm1tm
QDQa+|vFi&&087BX09OR}0ssI2

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/falcon.cpython-312.pyc b/transformers_utils/configs/__pycache__/falcon.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0e5a97ac25804bb2ce720aae6889023089d84a48
GIT binary patch
literal 2401
zcmai0O=ufO6rR=Z%91S0l5N?tCD+D|rN&lMT+$}Z540pu8q+p`B)Ux3+OfUyYNgJu
zoXFi49}HFK4-K?9g&a~SG$BxWDfHNTFLo2iGAEa$6yI!|K<KIOt$yM{OUK?f^L_JX
z=gph<-s;zAw2MH~eV=OeFd>f+w41***w4dYgQ%oPR7v&dQrT1VNW??V64kp-R3G!)
z^EP#h-nu^*SWTW$^istbg=axqtZ~KCD#i|~<RsDa4rdluG=r&cxbvmv+NSiiz`hNG
zPheX{iV|$?QKh0+^(;z7pXyb8s$UJ<@)rFe@_&D7SBR+L23e5Q;Ci$eU_n)0C-++0
z6lK7n131(m*Q8?Cd6J6=`Mrxx3q@eTJ&=f171N^2tWH-Hy~a!tG^noB85aSAE-^(F
zp=M8)S8`qvH)>_Nq^T-vshJ{ylww)TK%cm4Oc6nHd8LU;y)E0Y3%~>SLiVpognTV+
z5L>bd#TmERy;oYEZ!_4#Es=YkCi79kPON!sk0IF!SlMC;vAuvgYi%E(w(E)Q2h_fO
zVg~@B9d5IOfPx*=1xW6oFrZKe$$;GGLdFgO!jrhojsS{uP;||sqJ>dlqaC&zP<IE#
z0L40}2T)H3#R0`Th+OHMq|Jd(yvtLB@Sut(?dVz)ZH?<mn|%H@=ml)q4ypcI9=rED
z=?h6Bb&?Ct;YG9ZJX3ez9*9Op3AvE-h{$}!q*i4a?pISqgdIS4NiHe6Rw^ZBo|@V!
z6W(g2D#ER3K!&5^IQmQUx<N#Z3NKSuH8s6rh`45GmZs>aNx5PyG7+kojFyzr5)<96
z7pc5bt<)?Le;!jUisLCc29pSvYr3V;4{D6pIbMnI!+Ym7;hWbKQ$(u@S9G1}7?_4g
z8SE-mS*fDJ#tJVjX%;J4HO_?JtW_b_WlGUDN^^a}XEJ?(CvmHO6rD5i0fZ?OgD5)I
z@F9e06vHUc9zKF1gCdJ!6od#YUsd>`$??`jh|-d-m?ouWAK=k{X={I-D_G@fp{iA<
zEm+B{>1(y4uf4i_lojB#g=*besu+b8T`w1)02$^2xSMg4)+|jo3(aC>7MiI(Q?2tc
z*l0E0E&?;{Q;!2}Zh?5VMt1WgJ<;%e7TfMkZRBs{Z(hFRyWczA2s-&AcM9Je|M_ae
z_drfL0~t_?IQ_%Wg`KfkWV6l-FJqr^2FHNzb~1+%rrY%P@D$=fr`@L~5vQEYq0LO;
zoA{5H-Bo=<&~-V<6m%hHB#$~n&eUn_C$__}hvD>AIDOOlEj+$`_@&014<fn8a`bv|
zOHOUdmu~C73~$MoHs8H?U%s>thax46@OHy`fmLFE76eoua-}_Upa-^7SDw?Wz?~;|
zrMaA^85$VrcO~w+5BC`5lOTnRb(5-E`GBk2)Ok=aF_6~Cb}aEQmfebFZ_j>z{M+MO
zv6)SIh982te;AA}b`8eZ`Y(ecU>MJVLQZN%ULMBg0h<E60ufYSjdd=+NnAudtVv)`
zVqoLgjbn|EH{}u6j9gqJ54>dOG)(WHKXxz|7WbAOHGX>b_~hb;$sf-CzWUXv3mgj<
zFM#+H9=Gu$&|R220}ZN506vg4Zp`Jvm}-VnW|WF9O3M|srsFt5A(s`sJp(-Cu2rux
zk%n&*RwSw|LNQ^G(2%MNj5DLeL=@7SYx6aW(Xvu?!&}HzC?Jemb^aolz^6foXe-xB
zOxGdFC5~0nb<b({$~b--T!E=<ehK2)I&tEIYi~K@vzueDZ2Gd>Ba=?{kdqqU3;Oy3
zYv*=*NOH(Y_B%asC)VSnv(8Y)>Fsy=-2Z_gXJ`aM7@6*b6YX{SAq^&XCuaPYrQIpg
z)%`T*4&RqZpnK0F`3w7A813R{H_+lTF82hujC&)liE}xh2vVw6O5nKBgLyyG%=p&N
zlV%m*7(31LC2)lC)e6(so9;i!PXLFpV&ds{y^<vD<%yL3gPeF0I3;B^W7($!dUx&L
D`R!0%

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/flex_olmo.cpython-312.pyc b/transformers_utils/configs/__pycache__/flex_olmo.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..54f13b9413e8130badcb1e3460da11f5e80bf37e
GIT binary patch
literal 2330
zcmb7F&2Jk;6rYJdV#m%`V<+)f;(Ro%OC1Xew3SK<6gdS!s08BR%V^`BI7`;MW_Fz>
zWs!musi~ld0|*WrK;i&GLcLVtFW|x@E=U>e2?UoMkWxa`iWBdx?QMkG17rI)@AuxD
znKv_Uo`34^?<3Ik;0M~zApMS{+d>`Ta1Mmeh)PtdlRB+XN_xm5QG2$D8sPN1K-;g<
zvl%Re_K_5*J9I^GTPT{r)k~(aqSdNxuQqmuki!b_>o7Sd6{?a-k4h^6wWmfa!6^BE
zA2ql`R;U`-j#ffDWP?`1Z;(RB9VqL3<8{4mwxe*PE5Mlv3U{!fST<YZn`~Xto7}3V
zj)WKiIR?MOJCu-5DQurQsdXyC7@d<+=>;&_U~9J<X@}el5~7BkxYO?pID=~7i=dPG
zntlYw<xq#Pp02MG0oFYM;`9K6k?rOLfOQX^I6+`x-xdPa>$C7yj}v+??1Vv!(R$74
z1s3&L6qt9xsB!v$;hwza#DK+pHUzBSXT!h-e0B`jpwC8t4f!kqY}jW>V8?tm3T(t@
zW55zV8wZy38F@R~l^^!+pH^Z2kFu;2k$bd74dNv}#umam+w?w#-X*tR5!F@A=2g2X
zxaE#?Go@^bOG?vH^jBXi1l@Q;QJHP7af4~98(%i9Ba9zqBeurbRa2;p*O$4fYDUd+
zgZ5^FyHQ~_I79JUQW$kZR<pr{8(~Z{G@CKEZ{4ga%goZQad)h)Y_NuDX|`q>N2iLd
zYN`rhcwWPrVRKREs;1byqcWOx*74DmO)g+hs8Vd38{TBATv0npKkZpt+1DAURBadL
zhQ$>fq7h6eMvc31QMZ_3iaO&B%Z)ZI&Z<gvmAifIovm_P0Vmw0RfUm8%^i5S?y{y>
z?(jpdf}`2A+u`vII1AfifOxWQ3}fyn-2}Kbnl=;AgIzaknr*p>4po{Ppt3AhHTjA=
z;KgT~jWyN~=5it91}(0y2uwOLiZF&Sj(}Mr(g+y@%tV1HC~^oB2>4P2J`jQLLf~@{
zlL&c)DTHZ+8H8Dc;|N$R#R&j6ymnO)kOEQ0s=5MEG7A^WKelcCbERb08>NQUDB3WT
z+r^FM+4JYt&hnD3EteXb_Nr-=)^)vJg4$|WD{vuj&8%r_x>c%rb=E5R6>h$<De(PW
z8|$Way9myA^A5LY6`_bd*dhn#NIdi9Tq|}`p180(_uNkT<BP5M%pZ~d8@;W__yGw=
z`()~P=bJxsHwub_J~Ej6D~8el$sFGaemE#kEbIh-iOkB(9QNaK>M86e{C?(H<oSaz
ziBImv=H&D<yYb0iJ6f5Z^(N^K%AQ2$luS*7dZ26VY9~&kHS^!8{iSEmp?ykr`;I>@
zJ+v3gwqn`c*vW6+x@GU3z1)It@v<yFxmR3h6&HS3ZxzcsFYU#1t$6P9wL9@s2LUqw
zGKB$$aB8G5u8|!|_6d|ijXXifejc=99$*RbPScyB2y*S+#P^H8UHjx>?dG4izr6qB
zt%WzW+t(>s(!K&L*T98rZBM+g)E1HMWBK35I$!RL-o98a^kTIzlsd<1!C2i?n>xyI
z#@=Zvde;Jau6u>X&A=1KTE(;)JPZzH0IJOj7u=|FFD=~uPGVNMt}|Ak;uI`u;eXom
z0(L|MM&bcRV`%^nwuv0hZoMLBp5BFv3r-$HNFps0<1#%d(^;9FklDN(Ny+@IOi##U
zS{@sf$&5^<5VKQq#FNLeGM$szoJ=HTZd&H1<XHCpnHOnjk=`X<Cr)?QUMd9K{Lyru
zZzp<FC|*(Xl3(EeX**v0H)@Z@J-Cqz?Xy}C=YitpyjOS-pp@Q=5W4VpxJ>CH-Ax|9
JM?A?J{4X0$Xt@9Y

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/jais.cpython-312.pyc b/transformers_utils/configs/__pycache__/jais.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..30c62f7999587893d6133cc8f19f790f33224219
GIT binary patch
literal 9355
zcmb_iU2GItcCP-h-TuSIHuw+Yi!s>En6?cVW|<u(1cv!rEOsH2$fHqpxvSh=P~Fws
zs>VOtqcG7ZVe|KtXg9l?w<uCX6wSk|H2ao^JWLctY7a;*l{OO5PPF39h-@^9@{sS`
z+g)ANcwjb}rm3n^_ug~QIrrS}o^#s&(%ajm;A18K#Qf)3MfoKWjZa(s;pqw<eyHfm
zilWE#xD_kLSK={xPFRUzawQp4;);>HDL6F-%e&EjKPI16I^xP3ik|#P(c6sp{Y3q3
zYO_7vu{H4a#ka1roLyQo^A)bSrd@hW9nvws{~9-3u9+o6za-l6uEVnPd9#$yNhb0d
zNb7?BBgktgD>29%*JCRQJ-(9E6ZzOmo1WC$^me^NPyIBx(%z~3rvLQrd&*i&@BFB9
zr9<!fNLfkUQ#N8No!6CgkKaXlNHMkbAw}t8_}nO%4#U?i7*Q2j&e9ybx0&PG+}NXo
zy~Z@b<Gn0#zG~}+m3=?M-g1dy#W8dmZI&EYE4ilT8cbutltt>vv|P^SIt)d<Fuh>q
zl#QIZW@4zu^Od4ea-BJ*8*64sbcB%g!8}(mT_fjKxRL1+L#1Z*1!DH<O|(L_Qo-P+
z%htGEWbb8L*DL!z(@HwaX(hI52$=;hNQCuvxoru(<(ziKEmvG8!@g%|Pz|!^c23AB
zd_qi7x5pmStl1p0!;oePk3}&Al8XTsdEPlMo@hz#*g0)gb<8b;&1TJ#o1J4P>@vBX
zW}Oh$&?**GgOE!Lr<Ts8n?q^%yEMFFX?&9j9#|%lwQ2bbyG#Z(<f4}<#Z`kd^wQ0>
zHG{+Cfh5GvwQm_E>Z-X7GjXHL4F?^uOskv3Ju(6^lbuvkce1PuCqlRNf>FY7%c5nB
z`b#jjq?T>RBt4xMD!#aI>P(B?H^@1(4YOD&GRL@GF-kduSw<=E7Nqnpxw>4+qM0wa
z%(w%^!^=+k(r4Xt3mJA}vuu*cu%qFE1?>{-2D@nB8EU}9d4t`oIPiB;&WV~~*2v^D
zb8Knx6vNV!z;r*gaOUN7CZw}bT-9Hw?zyusw`hCW#O82>Pnhl|Egvm1m>D|lDMz?<
z!PIrw9UIU!obaTUwh7f=<XwxWS|(i%e5KA=@S#m6X1~F;l0(i7-mpG)IS)@-pl$R2
zm{W6I_#9Mb#K~c_qYN!qV9f@pmlP+kF|FteL^DgJuVIg6yJWOjWbb8=?A8oJKM5h%
zHLk;1U~ynamY8JWVU|U16%i6J1qVCBT&%6bN-DWV&_T<&<{g0=>RP1)0(O|qIxc?>
zJY=WxhE<u$wg`POV8t4&=4fVY1;?-eo7k}RCACZ^Dr5G&DNa1+*py?+yO;wsV7@@_
ziB?O-y6CfR=F#i@Y|{|{9j309b#9lTz?x-i&qKI{%wmi5w9jcU;Fy)Uy{fI67Ht7?
z2kcg;L|Yc{U6PsvJ{p*k93r|~<{JJwC-zO*wym)5(n5Sg5{vjj$QqTPX&-nqknkHZ
zPjs?in>6PVwoyyivZ_(WdJ3O<(UL40CztkElLiAg63+g>fdtaf44P$b$%C@K7lQS`
z;g0wK%?4KiApq5{;};99=tPb|v4&3jO*if!<e*JbhenrU*8m4~p{{1Bp;>7?0%^!Q
zf;Pf=a;kMhoESK^xtR-Nse=>3P{o?bK6G}i!hfE(EpPCO(Yh(G6QdB6HMrq`)y+Gm
z2$b;b+~)4AL|+jiq%+OcgxS>`0FmtXe-Yt#3pm+;gV;zVn@+q&wB;1+ilsBex)m;=
z9<iazZW){NcQmVFI1%Foeg;zz9}x*cbh4v3ex1+(7_#5$Ce{Q;GPIC>Y3du#)r4jD
zGGs#w_@RcgkbFQM;(Hr7B08kZF0y%v)(BuW*h_3Nf?Wt%;iYggwNl2B?~0{=u9PBb
z$X?Mb=b1GRi7M<s7KPE?NdwqStO8WX*+m3X!VMe8Uqs?r-F8m`2K7qLO-EWNu9Y%|
zyeiat-m%wQ1WYuG*z&V!8K#MZ1~W#uQAos!<_3-i1b;b`LXW2BH3By}vSa|Fx|?P4
z!xtS;mZ5QEPtTlD*Xp65W;KJFM*L|&7Px743Yf8KPG!kqvr_@5rdY*FSzR}Ex1dV%
zz8F>(GYc)yR;*k@5X&`0eV7xrlB~pRv@F0_Y+KkmzzlKDU(&1`f^gtX#EcrjgRY8g
zFt-3tt3PMcb7XuT4IvvnvyBW*jGJ)~K0qlkYop8DLeL4`u(27LH8Lz}o?yY8Z{9{C
zb*LYxGO%y1Whfk_Rg$@ts#)cN1`ECL2>QCqB>6I=<fa=%so89OPT5x1{#EvjG$+KX
zkQ-$~@I}2Pgx$WSVsohgF$!{D1iyR2!S%fnigK**5fDOuIGy8CSZ%LG7W~;$f-NH&
z74C~%MoJtxwBXnhO_>(8)4E|<O_vcnPH0TN4_7vG(deyZ_gqFh0WgwLN~lpOp>cGw
zkPP&U*Uh?$2#hX%$NX(GqE6FEGwf1@Q;v!d&n{7FRw<Wlj%*mr040%OjVXXZ*ogT}
z3`U+WOAMQ=jv`@MvTKO4ZJuSbMat?{qq|X)Fv;@V06Sno0o)eTLgqDrjP(g4LJ&3y
zL{*WLs>nyPVt~F`(u!s-FarV=kv20&E0!&U{{*-ZMy)yRg;u`ESYcOV10|GJ*g<@Q
z&;>~$>JQoPPZ2gxoky@F?ZP06fxumAPYw08kuN?VfQ^XqRV*T%rXpH{tDtGgTQvC~
zbiit%x(-1l<sZ+9q~4pMvc`9=zKK0>m8wcJ@3%N$n4!>9=8bP_CJ;!-`}&5k_<2cX
zv)S^dTd+%_?ZSl%vT_938>ubQ-6FZ1sHj{L-a99rg#eNZjXTQTYQ(jqbiMW!ara=3
z$XoVmi1lpxIUEJ9vsrOALqHuRu6o!AucU$(Id_D2FryqQXA*+XM*2l&y_iGD>ohj5
z92w~yaE-i$9-?nXz7?HdUO#yg#`pVB8FEzwJgN*K{dSq~`rV;A5WS>i-|r~Nm@u96
zyF>Wr4<mpH%0|uT!|?}E*P_@=Rty9a$KOvc>%(Odk{b(EX*=-TjsH*o7G>eTjQvol
z#;S@Mbg0Hb)eFXoQcZx0HyW!+Q1!Ag+S))RgSK{1jRLSz?Euvtw534Nyy8>s1eFS?
zE>N8T)eR~rVpn@Wk*wlV?FH2nQ2Rjj2Go8~`vPhJR9`^#f$9&aeo*@ZY7o>wKn;N!
z45$O3P(hZT>OoKk0%{o4!GIb8H5^dN&BexZ^M1en7*ndFcN2OnANyd`J>6*k!FW~q
zvx1`NiE3Z9zdEYNf10R{{Y~u8V=-k@Nhg>6z7`BfC;XmO+fhaMfgs-RF~U@D7!sVn
zQ_|ypSF_~G$;6zj&dH#hY)sxKN;>}F9#t5>J5<r|yPCBEze}93B9-?Co=vs={h^Ri
zCcgdvL2opl^gDyR&Yui5@0Bk3!`#?2L*cY`oR-WV{)%AT?`sK{{ULhMJbPuJ<M+2l
zNdAF6qaeRG5-j+mi0%-sH-ZP+_NFdUbiWO!xWWCDDw1+lO&{`;s6?%C@|?X^gpW|e
zC|zg+^KrTyqRRwb4%20lE{raL?)(UmQ*=2>mub2jqswu+%+LkDGbx<B*>Asv%3a>^
zJ5^Qu7NV*SO@Z>jSAFjO_dD}$u{>Wk%O_o`4!b8eD(AlS@~v~mJanIzC(HaD%PP)?
zPZSjyp5@F-oOI?1A2a1m{t{-}8YJ(&B#xO(!#;nE2Iqfp`SPx^dtMnob}#v-ect%-
zd&!5X5%1t3klo(!VcdFJsH1184-5K^O^c!R+te9qo%D{JqWfX5L61(M*FJB4nO@I%
zGZ*MS{pipv-ABFp{ZakBH<_XLhrH>R>3+mx3v{3Gj-99b)T4<LbRY9lJv*u6+o|IZ
zQ?p+8NUfWB6Penf`FmHtNcH}pV>>mntF(1?d85bZJ2vyA1JrIx={xYW6HiZ}zmf~^
z7z80MVer!_;4;u#xe226b2qjbbDK!LXCF7f?)!Cw=Ob<trS}|jzb=U$zjY2CG~x!x
z4dmK$#7~sJjyFdA0Zy8|q`etnd{YnnNEmC#^}%m4t}QeUXW7@DuRSy_QH_1rR*mT$
zLd$(2EmPH4i$?Je`$LwFyTJ+7ke+u`;~x%I<9g>UY-1kg)>VzSa7#qECEVal3vo+)
zI8;sO-Oq6AsV1V_HsJ;7-mO<fP(s`JU5Q5Wcg}1Csj|@!s+kNeKPK<kDz<j7Cl5?R
z+7_fgB1m)BQEM>`OUJL8S&G85GKp{G9U@t1zK%rD2!r#eruj)4=eNrtes83Y-!9Xj
zt<x<sp=KZoGGcNhv?9A<GqU%L<oqk?V!N+xoqu+;oK6ZKjBjK_7Z~a$lF4J*23wb(
zW$;WAL}qAmqVxwj8qz8-ldRGy0mgn8icR82<ecFr$)bJ&X_ViEC94>(b8d4#0jTxc
zMAg7gfKfWh=OBka5Lrl3lk$h6@9K6uAm7&0vc@6h5D<`i@OeD&H0d@S2IMHO=8^WV
z=;^!*TL7R_N>Bez_r!MhM6LUn*E8@%-{_B~cgE(n$L9WCf7o~W6X(-2JFi^be&y<e
zbIY~wUH|;t^<NAe+KtEe4?h|n-x*GC52tGfPwckE_s=~|BnS8HD#_k`yIsoRshx@W
z?TPuFiPPH?r$4^(>E#C#7i$34$)h`yi`$cnJCjS>lS>~L{xSJr^7R@JnN9DoQ`_v+
z4m-Qe&VKy+pCuo#t2IEgkgb+}<<pJN({G5`V}rw<oHr4pc@s2mLd@HHq}DU{i=o4{
z$<v?w&cmTsy#DE0|3Yo)t<SE1zI5#il3k2`sdjK~7o#)L(NndalVbFlPjU~3&U^jG
zYW<6~v+sO%`}4Dn(bL}aw`xbv)97!9Mz<;Fz8gbtz5x5CN6qj4lcJb}`z8VZV-c}k
zLesLJYWxcIs~`UreSZELe;p0tl7CY8<-MPM`Nf6&_lN%Bjep<zi`Q=4czg}4_!V@y
zas_|FA*+%cNUk(5SC*I4T@<BIzO1T#mr8}a3gR`@?@`s;70s%*bf_o><*19ufTZJ%
zQ*{?nscPo&dk6)22zSIU?r`j0#ERTpt+<9-)XL)M7w+cw)}xOc>M)3mVmt$x9NJ~S
zC7qIT2~HOZf}B6Z<;#zhC-GdYt$X+FgfcL4_igX!ncCD+EjjsUc+xw%;7!hW6UU!)
zwjF4{dv$j}85;G5M!dcOuYbVn+wb)cd54aBL&M(SLHdqQdSi#_I&jcCFh<|mlO8+f
zv9vcb?oBXn^pJP>sCRG--(N3XjJ0+B*OmD3wtZragka0*PW}$$@~H$6q|x=Xu>J=d
zG6dpuF#7|MZX!0~SYyTS!Zugw&ua|M-=r7qbwb#Hk`6g3ZB{?^ZMirX_zjR`Fo%*4
zxKu3m<hT+W{SW2Ue^ZV>>Kwl}ywf?p-8ufFHy?B!yW9Ss?Z20Z?W^rS@@s`21k3*g
DvU9Eq

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/kimi_linear.cpython-312.pyc b/transformers_utils/configs/__pycache__/kimi_linear.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8f0ae37cebee6448c1c8ebc55c217be01a9b9f0b
GIT binary patch
literal 5090
zcmb_gO>7&-6`tjv_$yK-Wl^L=QlkDS$)Y1GaqJ|rlgPGgr|h2&g?iYoxl3vz{&{w(
zNGgLUg@M|r)7C(WC_oQ7^x(ii;X?}qC{P3_&`U2QQb3D6IcR$Dp}<CJkf5i&H%qP<
z*)e+PN__ji_ukIT&b&YJZ-Ic9z*TbmLjF^jkbfZPT+TLg_!=-D5Rr&niIlljjziv7
zvX$+tc8=JHWS1NdIMaI7X(LyNXum~7hr~Uwx23KvXU6pyL59;q-=mUB1-T-LuU9Jt
zxd<|!T#;42R4o=Inl~RZ>2w<$UWOTd4(pJ}DkqXvo5-!&MO%?ub$H1C?@vs^x}BnZ
zyN3|bDY-<K)Fbv-61T;9fb&Xj(Fb=wd;(zG3-=&=Lhvz1=(D&J78ka-h{g58)8-Q=
zK{g<HOjMY<O$wYCy%kvXN<MM$7J1O#j#WS4SQicej!UkBO&q%Au&jE;VaW-y#4X2a
z@HW}xRzp7|nUo&7E|=vu-~<F}9)a##2MJ$dB0X3W6qR3>w)hR9RF{;T-e0atyj)Qw
zT9!mvP$gcGw<SG@Vk%Xtv@DcR5MzRB9SnIPugV*ODpxCfp<c=BzDm8!OPe)`s*2v<
z1$YqgYIR+z=qFIDtO-;Sk4!0!C-O=j=BO0;0t{TGdVfKtxJq7>DhjTmRub}(-is?J
z30p8^fl4>^P#u&-7@`J4sMXrK9y*%ZROnumw|U=9a6>BaRH&@${`HM66uP<2SE@CM
zUy}rp7v-{!68a5^cjHLwFP8)!r^ko%C{A0EHq{DWgV&Su;P1FhML%I~J1?l9%d?Qk
zPj&@?8+adl4u4`J<Tu<0q`@@^Zy7XffZFj#NW%^Y?98j-c-Pi&R2(4f*#;@-+A#^d
z6OhBQbOGwbJZba*a#=d}j;+!2w!7g5DMW^OH9UZDZR~1z0eLLs1H^I*N*aDZ_y+81
zgaG+1)CVYFp(LPQ3#9-BEi?isWT8<&eHKasI$@zPK#<SOt8o%g#6kmr`YjXzbkagm
zKm!&U1QfMUKcGPikvHc%{Lx+HHi%-oMt;UM!eAZiXc{p<aSO!(4OwUi(6EJu0VOPy
z0F<=QIG~h;Cf@CBOo%pI(vCUjglO+ZU_H{YRxfq9J5vqv-d)UYjX<Nf5p0|g9lv!n
zCV$8M5;FT1$+&VEo8F^T3u;-|1V%2FtFowj*F~Y@u%SY|R5IPwbm5Fc_tzjMSP=7I
z?Y~h~x{%b3!m2FsZ&fKoc=?7TiV)MvM<g?*d&^Z(D)H(TM2mN$nip=ES;n^}ixA`{
za9hFG_hdfm!x(E@w}UH;B8V)h!ZHy)t>{c><u?|witcSc2<b(Kv1L_eIgMf}C`!7Y
zmKBI(3OTH%=pKygypUgmrLqj5u1Tr@MwkuSnTn#DQS>f~PDRm|D4q~S&!89r6g{6}
zpiuOBiq1|kQYeNJMQ^9*<P?3IqDxcsWQxv2(T8-W0-25KZXVJzlu$mC(H)9ZDp1TI
zbP7oZ2^La1gJc%TDI{}9vPe!Nc@7D>H62BgMly!v43Y&T<4D-j*qYf&kKW_x6~1-h
z&)$-w*K)1DCD0=5GtcKsf}-%eg0GSKAFrMN{2;5AYuTDyJEg)vl6q>he)imp>u05G
zNxqS-ZK-S3N_L}EDrcb=sVD_FSjfeEU6o5p)=a`mwyP-4)wbvhu!8Nu<F#|Hv-Nm*
z%KMOszuqCn3P<AOw;gwbT5OEn;uE(We|JY8MN`e_?49L@GtF05TJtN0op=Iw1BQ!?
zo<W0zHZpJC(=XsX1sZ>{>6_3-pKtn;kJ{4Cs2$^>DKs9`21jAC-j22{ebk;?>sX~u
zqxG=Xxwn^i+<g2znvH77IlK>PqYHRXY90CX65>fM7~T)gwSsfa`Q=t{x#?bR2A3_P
zj&WiZjpNpw$L5~8i0bi2zTu`XqlL%!O0DpjX81zWe*q{6niDU!!snXdOHKbJpq<5h
z?hf4PX}O~Yae2Jj;CTB#b><5X2n;U?_8<CyJA}g_d8<qUz#@so@bJ$-ps12J;ePxQ
zNuAr|lpKe8tE?Vbwe^ckZxz!g^m9ya71Ss638uG-=@a^1rpK5&c8Oe_Kuc%Ktz=x!
z&Nm-%^ejBA;1;Cld7!#WR(R-9wg;YYX;VSbej5n*vx@}!_WeUG|Ipr2(?4}UoPi8G
z_*5&Hy6<QPXAkTkdW60()(Vc@Uup(VA2>k-kA@=M!X6a5LHMh8?!2=nHiOd#9u#?*
z9gYW61gDHZkH<@2g6W@rY*;3rb!@OLTrR_zdG-~2mE*5omA>WGtJ2$OkNI|ouvbd9
zg2_F#8JualXV{u_7krDU)5<s2h7Q17>SJJ@u{P+$m1`VPk9x7EI-hDe)PuI`ZF1Cf
zB^dwsC309>Ooya#82zYId+O+>edn8-Xj_M3;YVk(=V%H>qBv*9VU`)MtjHBb6)MnT
zJFt1x?Io!~k8f))I8IkLyPbTRXLT983sWd-Kr9bSxBO|?X#Wg)Snubd*zUr9e7+T*
z|HIO!p>qes*0;oIk?4M8rWKjF|3)iv?vqF}a_PX1iq9hhyN>;6wiV4j^tYm~d>UE&
zWTX{&-SG8<yaws`lkPFUAjslozB{JzIN0%B1LhgW2N{7zAR;-D!|3>y%)wf-4Rb>u
zqwBF<1&74Cow2cKq*s7fa1E(;O!{F5tyXJ$_-XrRsiBP{3Knc|Qh#XQk9&82q3O>a
z5H4_))B0k&-@iA!x3Hf+-%6kV_~ll5xfxnEoc4BHWhN;4hzt!R5UANXnLvy1I0Zs_
z9Y_v(3At1+{xtIYE1zw@f1&u^zy7%Q)n6Yjt}y4ISHb2nuD%E#LT>-%V(xNog<{K^
z%P|vEL5vGW53I1q7|G#vnW=J_K5SwtLRsQ@-OKaP4Ax7?`+5FmT_~9v*4F58=-sft
z<mDoCWD@ju(ESu7_$CVOX@|a0cigB}OS)ZAsqQS4s)9<FU{S1s>+TwMX;j^!izvH@
z<T4UGc0JJUIPwzoxI7%!Igql{agk+Bidmcy?0ysjPWJ0tMC(iJT+`AEO{mh2BxJY9
zh!!3MN7efJwOCS%4QWFOZ77ApSVHR`)J~k#`aA#O7)pjlwAs^IYD}9xqm51=KbqDi
zr?v43Es@kl#<kRl7K@`QJ*iF3;6Dh*GTKx|o1XjPyPUu|y~Y$trT11o+%_@{PLo)|
zm|^TJ8J{vvF?Noe9Nb;Fw`yb=Jl%QbIR@v+aLPEt*aearH=bwg3t(iNW$cS&aL72v
z*z+WwG+tut%OsvKUSaGa>5m#07<-ZH%=N0dz}Gl35Zhh4_onf>DOiG5DY57HaN4+J
z3gEY%w&02>Smt27-LZSujH{*qlIK8tcjex?aorTW!IAWY@f{Q7I5Ir4xA5WhFWY-^
z*-l)&U)bDE?;&yqaz=#7IOl9z1{{>Cwsy~PK#rL^oZh|sR|IaX05BKGWqR~fcLO<R
zwvKgb{_w%tNs2i|_hGX+Xa2-RF|pGeid}69^Qs9HW5qM;v-@Q;2o~v&L53+rK?}pq
maom?~!Y%%jq(AdSe*L3QJ&7IHzg?GXoVPhJ`6WSyjq_heq0)E&

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/kimi_vl.cpython-312.pyc b/transformers_utils/configs/__pycache__/kimi_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cba853e53b04eaa8a5080e9600cea480099a640a
GIT binary patch
literal 1518
zcmZux&2Jk;6rb7k+Ut)6N|iWu92D`@+N3rr5~UT1KvY5^jX_Z5V30<OXPk_@yEe1q
z5Ld2<L?j#`xS>{p1BV=fdg1@z6012_s~|-J4%}RYii%5kvuhhyVr;*8@9lfPnfHEg
z{flL#5G*J5HUH2+=r?7I7uexCU4iW`qKIM#xwwk4(ltkO^{O7~x)XDas)3P)-bFOF
zi>Sf$`+AgKjd$XO#GlG2;NY1XjJ15m8tYfyX?k_Op?n_*CWXyCMkhXNt=aU}`K`!N
zi=ZNz9vP>ffbtdGjG-!~sH#z1)stxap-HN<7&C4s5ZpGDF|gxPw!soK4!;CT)KfiF
z$JE@ls%8&u<7)CFR7eGxRqpcjo6#+TL<20c<x~P|i~GFkky=<okd|y)j*Sf8@S1`V
z?oqZK<XlF%O<Im!W1CHfGC^ds!92ogkZIX;V%6ePMXKJbI!_Ts=sSEDb@5JGf*!5=
zqx}x{=H;l*2x4Sx5}`$!n98CWhnRi*Exv=hxQobtnHr!cC%I#E?Fn@4f6*sdA-Wc#
zYh4Y{$Mb`_I#`qHx-qbTlW56vV{I?dMc=%rxT3ggaNLb6EQ~s+pjU(iVLt&QLZJpJ
z=)UJm+pDo4MtMyNbq%5F5o(}?>Yd1d2n@g7Vj?gJ@WCY^1v7~G%&A8iPX>pl1o6h_
zw%G84Bq24&_I*Np6Ob08wewG<EZtVQ#aovp#4&k!yM6WA8;z^1?C?*^t&ZGmdgU$0
zamz5&o?mYYmkFP=C3pOCG%$X7G)bjaN1O-n+cVRHRvKUSDR|_63F7e%8a|6M7Y@^l
z$N9qd@9(W0TiJWozC5y)z|qfNKUf3NTN^ACd$A)kcaokxOh0#=D?Z3A?X9Zd^!}|Q
zs|cQc?%Kh}AbP8V`IlAj+)4hD+Aj=>H`IRdchlNS^v$`xx%{JZXfFR;e_$@3!ZlFA
zs8sk5XJ==8<_ir8HDvIXKyy9YWrPGNLfj^8J4(+G@>$z<#!tY{93nfwhT=RVGGr{!
zxhKOe1lFkKHRd=#6&AA)>8r7SOJr4&nwwB4g8fYpk9X1FTyE#Rp^09<K7en2aZr49
zkY9Lc%^52v+4*~JKl{o7?PsqH4e$)(Xf}74U+T{+9mxL7Yr}+cnkbtaCY6>#FI^g@
zm6ieD-wNa*0wLzcM^_4oATv#ERK?=7s}%9v7PeG>6Cw9Py_~^CH5sMp*y!mf!!Nn;
z$G630)Ss~4r`5^f@u~-b`DWDO74bZnsyY4wh@p-#ew0GE_$yle1HJuMd>*eHo`2yH
If;~+C7XXWahX4Qo

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/lfm2_moe.cpython-312.pyc b/transformers_utils/configs/__pycache__/lfm2_moe.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fe769037a861e9997c7a94681f4813b3859a06e0
GIT binary patch
literal 7333
zcmbtYOK%*<5$+|IuO%t!L5h#1$fihIT$$V@si%#IG5wIOK$K)#dC4(mhdaI8k!E++
zJ+q=HY!C$y5E*$PhrkICAUWg`_?%yn9AqGe#heT{Iq0^66vW6WU-dlp5sIYXA!oL#
zr>CmAs`~5d{@dVSg5k2_KR16p$=FxKgjZKUJX-|u88es>vsf{9D;8rN>|JJbJY+_v
zh<)Da_q)|$bZ*6Nb?(GdT~DYf74r_?kiwO^SrW!ub}4Ue<@~<>b2VU|{T;;5phB=)
zF@r%6#26j7;!0pwAA7k!W6J0f-9|U=9^AdS`*0_4_v0SGJt%sNL!#Fh0(}_t5zt3L
zAHzKiegwbAagX92!#$3+3G_+gcT)6;#5gQA;`e(P%P&7-`IvFy;oz<QN9<ng*1(4>
zHSG;v%@<cUY~c@Ef8{7+36AS#!E`wO-Gbmb<&uijUDGb{oTWQxx4GlmQtZ;f&U2lA
zlnn%L*oLsOAE)^hm*iC(VbI5B$#M0PYwE5*@2i(LRynLts*Cgm*K;{r8fIyWdXp7S
zS>(*TiO+SpRVj*+>nw6Z<js=mgdV|%GFLENk#j3jKx?Fjdg*Or**4t*30Ha{ORre2
z!?#V#;yb3Wpo%+Y(X@2g_Mx&#cR9vNwvqiy7vEf3UwPBFBCRBf^j4aGbk+Q%VjAmL
zGEKccUMRS3*?B#aDO9$$U|L?!iFD4+?AAGzP}2Mmg<-HaZ)1#zQK=xL>GHg^i|~4T
zB4<D5ddc89y~H;~<b6ccmA0j9_q}FU+;YWr()<IVBS4``?40tnANd!n$lDU*MmCrw
zkVVx!o$$?Gms`&3Y5<g1ckP_MsX69-!56Y-$;~eE({`B>OSev|c=|DbgU_EkcjkPm
z@hN@&J^H+Yc<dlBkP-U-s=l!vc%HvaIU)SiEmew}LQ*%w%;$wf)*zqmh!VX<`~ts7
zQI^8NOJvvPPBeVdNEZwx=V+$kWO*6sk8axqfw`bt7Ufl#?JCuyu@+3j5T%0+c6Ise
z#kR4&Z6e7XnsUJ?eR(`GR=L^nQ;p1oJB2I?gC^C%v|d;_zpvJft2bV(vS<tK<<+iS
zcx|<9uveOFZwakLX2RX#URg-DF;)at3;b*8J3>19rqh{rmDi%&2pk&-GD~V++?0CB
zp=?I}7$OHyk`47`-OyAXAt(0Lyxca{8@dqy8xoP5MnmkT?HpX}N}Jd>1%O0>A@ap>
zrO=ChuD7TVFQcN}W$yq=_7d)zLfZyxYXZ|w4U*!rY1`Hw^E`V~Rz$XKFyAi-fRI$+
zZwkIG%&mgU8)BnLChfA&(ACwUDR0^OUXZe~tgdu>L~a7ZH+4sFB$;WeF+wE&z`pTL
zlg>t*iuygRY&$05R_j>zhP0K{i!h*VsH7YM&0?j<9q~y;lyZVwqO_&fCV-SnYq1a0
zMc)l~;h7N5X$@;whV@m;={bn}W_|~tmuylUE~`$#u3$k#om7$j1VJ6(@;hQDb62-2
zz+2sQfuQgRVou+xr5<PsjP$K{QfYp@WbH(;BhZq<5_eGva5K-dex;E%9W9t~msD;v
zhF8LT)I^!GYTsCkrR8(GxEf!Z7C<#LkA^6V4u*?`%QEl#Yn_h;O^Sgx(Ezmq7Rhgf
zIFTssi=qWoAZ!gMa%BN9eSa__EJPeM6^8@b)(-p4^<HDqjHCu;sx>pngfRc8m@Aeo
zK@}N)7jRt$T)$rtSfba%j6fZhZ;5(#7n?6pTjUsj9Dt2R3aYvcVdEPp(@g#zRVtAR
zzOeD$dTJ4Aw7;U2?2DzgSq`!9ucx>TE9ABb-S57?9@epG4wNdjs6zr{Zn}Q0StK);
zD8L*OGIytJ104v_bS0(Hw&=%xi=0O@N|kIXn#%9I;c>_ZvR86g5?l0QniYj!Dg$Yi
zZcI7yn=MVO3Az=8kDx*&6hK8OOY_TN<z@guO$#NpGK*u?<sT97w5TcT0LT~CuIjCm
zSv|9SF1>PQ_3Sy!_bYjh;uQErh!B<Vi++tARNQb$ix!m}?TOHsisWN$)6@^Lv|QFL
zXRoz|vPp>w<{8QMXI@iXr4(L`V0CYZKhp*|;dh2v3@7uhN+|hJEdss|SkJVt&DWxG
zMv39!{tM+>qp)!bKx2D5XjxF}>C&3|Ao@wC(-DpOZfOk<)n=jOLNccsp&+CE%FNM_
z8C1IfnfG?k*)|6?>~^peP-X|kUQ+~`^z18tk2<fVmTVG_EC_~i(7f8GWTCX8`RDt_
z&oC@G)I>JW6!j~bCL?^~GzWVMyw|WH#Qypq>)iiUGavdQcp!q-me!F|B5v641gmmW
zIB9it?eZP1EbUF`{)UxXxTN~dAi<mj>zk&9(n&N8US+7}?vznSEM%_-8^V^Nu`O+G
zqA%5=YSr`;96L^`D6-jXdB-i-J~FSZt@(RnobQD7Ja)~+vMt?cj?jt2V#vLvjyrr=
z^z|$b5nwLW20pHbrxm{cluqi0X^oSkaDRTORop_biQiSAU)!neHKj<?IRWbU9jomG
zCQ|5s7Ae}GQ7p7r(V}!cmlKXdLm(yo$1S}h!7Z))lHV7n6Ewci#a^$KFRp6925$&k
zVz*I&IM=*HW1H{wH*JHxBfy5%J*qdd>mJfOLUX=lhvyA6@4CE!=FO5f(7dnlj_tA$
z@e+-#f;akt3f}7@EKmis*Bcg_-Z8SJZ9(!IqXNk<SG+zr$zPnj0YwJz?;R!)&G_zr
z-v*vue-qMqLv6U^jqHjM-XUdZG;h8BrrDIE6TtB51<{ZD+3gr(zm0vys<A55!nds2
z0S<5ctJ(>!BjUQibw*qQTs-3X!G))=tU3U$J9;+=4#$uFRXqfbtWZ~V2wY#p9R{aP
zd8ws(1RU9_uIf>60}&SoHyClpz#WRXVQ@ncHv;Z(#2p8BB;rQF;keVks$<}eMcnx9
zR7f{|jaaqs^S~oN?sH!a-+VezWxxCZ4q7{_-PN9IZ?(_p_(Qxp{^!`QVllSEQt@lv
zAZ28<eNDwB*)Pd#N!Cg-@-HkkD#<&NoFd5=k_IiwW=W<>vQQ4wV}u^Z=`l)=F?vv}
zB{@w_&?89?oR%|rf*w=!n8w5F+!C(W<)BiRUay7&9MjdbRMLxM1<toypyVktb}{+o
zOxxS4?mOE!*>$`=O;cygn&!|52-0`I9{l%u#x0gJWwX5G;#1)+-K$)9?c$vaB4e4G
z8GjYX+_kJ?rWyS;tiYC&@$t;bggBNi@5p&5ynj3>o!(M_mku5DBfN9|g~!(qSp6bP
z&OeI(VyKpU<x%_}y<@eRRr;NZekbPC>r-pgJXae(3HDHJjN@mp-p%GNP&=>9o>#wU
znV3~QCKsq-91SxoM4hP3zfQj=!>*CW=`^)ZM(?K<iBE>_znq%;<L%$yt_>s~pICm@
z*)g4X+?#yf&H4^~+Ve&4Se<qEC2HgI!9PFqv=0sS1REN8)(`3#2Fg-nCSx&XGGwL6
zkV+=QTz<mwO43AlLTK@XsGD1Oum=y*>n3|11N*e_)uX?D{m(T?)8q+d_2nmoA99I!
z!VdMu|BkWxw{Koc4N^9i^rFx-FQH*=F)9|(1Df_pMYn=CJ(_0NIqIU;FjX~pNgy$u
zooVJ4&`<!ak=E+KHz&MKtU6wtiW#p<9UFLY%XD0?6MHEYa&Iumxty>pOof<SfPoH;
z?hQ#uAPL^ogRso`3Eq7DkUj0V9_#9_Z+5VwlMlXAn?3vZ<hjT3>3T0q@>+7bHZxzF
zPt|5-Ym+B}|G9<Q<b3T^x;8OYo0zH1&evw=Y7^7+mV=$EB|*&9PMxkz&(;<epPqRm
z)|L2jc(mR{1d`(Tc)drFy=-#2-lxa}<FoaCMGjEwpdt^k(TVzyA`cUJM3F~{Jf_HD
zHg&Q-qR8WHWTHN*$T4<uzCNzV2{t@dPbzYf9UH5kP~;SwnyF7Kk`p<j$dlA}R*`e0
zVqTH2u;f(zlp+_XZ%UD;X%w$2a*<6;)t3~RW_-S$QRFfkKT%&%<SIKp@w?gI{P0i1
zUyRKEN4euEqc`$&7?EqKxW}94cTlMWm6$)<rOG{uqKEv!CP>rdNs^$%P>8+WZ}|zg
uCch1qV(-l1QSXe!V*l=Cv9;&j-|dJc9uLnwXGGM?afZp2NdB}(N%<cjJ#~2i

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/medusa.cpython-312.pyc b/transformers_utils/configs/__pycache__/medusa.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7ece6328100f4e0836c767846a7d01b7dbb07bec
GIT binary patch
literal 2766
zcma)8O>7&-6`t82YWXLM`iuT7QF0-hNh~(85jly`{4_|>q!x?@=z(sqU^qi-#pRD@
zm#QhOVjTpON}Wb6T3AIdI`k03hoGnCSoGS97#sCs(1U@d2jA$(0fHWizPBq<v>g;#
zV&A;?=Djy>-hA_xe@`Z31Rh)amG#j8A^$?5`{+l^;Sw-62_uZ!B#)zF(~6Q;C{f6d
z2vfHS)3|b54ej%4lV<e?D6C|u9J(a9D+*SXvme%~CF@EtGz;m_k#Kkym|wywoa8AZ
zd4<uu8YTTdHq2D6!Acs_;f=sM0IvaW6kcTm@-GdxNQtu8b~3N?2#fOpZmbRWFBtM@
z%My%~G?v`fZXX%sV?53Vw@FV<fSl@+lRUXL^K>*e#I=&b(tVMVEpm<KQ}2=Nh)i7M
ztl<>G-OETNkXB@T)nbfSO~=~cGPYhT7Cs31Xthx>S9yUsG99p?on2^h;mByEaLue2
z+*L<vZmnLHqpoOFiv^c6^EgP+=t~n1G7j(I-+=s{-XtFNh}kpn6p(0F^i+_Po}__v
zbg+bYI!Ib?E&@^)B*aa2^^D#=iU#vg=<x9dwiHjPQf~mXz3iCc8S7L;n0keJ22(D8
zu{+ZB*@=4O<I`|dnngV0PxRN6k|xROD;6O`L?#QOxN5n)=r#m*WIU|%#Tw)GEs~83
zTwCB$B8mi&F0c+F0Ys`+)s=Cqro*qAHm?fYfz+KwoeOE0rd73E)6B-C=5V|8|D%Pz
zk@7DJ;tHIRX%_8*<Cvy{i)Omd)_*SM+)6!Hx9VqHu;lKUYmMcX&zF~Z&bB_t)tl~W
zt(sf6?Me>rOw}pXL<J7rY`B)~<ch)ladIJomg-G02GKXh`th~Y%^UaVtONOGi*&}x
z%&C@k*O>69zSq)jr2NSR7zX|M7g0Og6-OsP8~x|>>|W!KuLSn@r<M+;UfOx*;KHSj
zN}|cT#(XD264U#O?f7Z`)Vcjy>+Rjw+KH228p)l3wlUE*7WQ7cV=NrP%0!;1_b$I#
z!E-UIg$g%oB0#W=z-&WQi#@o3PY<mB1>q)i7>}%BtS26imMDNiK~Vf0{5RE2#XSb9
zy4C~cv19jMcj5UKdH-eb)EM=&b>h$)06^r#n5VAwfP3ukX<biGWhz4T#yr!Gd>6li
zj~@8Es)f7iU4p(9)Z<-2?})5O6*_>_gKiL@SVqD=5TH4$%M^gf41r-XtLRG2wj7{k
z-gKl|uhnI=Bx;pl4$Re}?TBeuP&@-f#``^K*}<X(U=@=%oeEr!&v0YrF{nK;y9h4M
z?|=Z{5@hbhz2d#u7uvHg_=)U8Rhf(VXU+y=+n8>}cYpRMLWak8%lF0?+vAIO#!vqv
zoo&70r$+baM;rdg)L!8?7yR5SpIyIo{qw7La&PRuyC45z^m%{m#D4m>@B7Pd{^k0g
zumAPxo#h|zzI%{4`^D(FPMi!s3o8$uXgQy3?riQ|Zl}(E`ZkaQ<E)s1#EQKx2Le6_
zm_ux6Hwk>Slof$U6loy0s2GRAL61yWjS+0d1=r<O*Q!;+4!x0itRmlHv5Zl$u3O}O
zYUt@SaDgBVOb}Z0x1#+$$Y%vo3i{Y{7_l#}QC!uo)yf5giRsqLyy|SsKb6>%Ca+=~
zY!jH-$R{7}e0X4-2oe<E2km3G66+FVi67G^KOjva@GpYM0m&*s-GT@XdS$}u1&Z&G
z)NA14;5H$t$ulkO<G~=K?0^LwpICI0kOx@J2UvgyuOq=0yOJHkmK}5#Q^ri}HVvDb
zrc9XT)keYY&V*gaZ9<R7tpptut^s!I3Wx5?r0TdrDm6zMm*6Y=6RXTc7A&Pv7d7y5
zo8ozN#1hGf!vPOMCXX6^k=r(WGN_n<+2D*`53nOJ<$&PUoG*cVvrYW;<kmYKgUn?7
zsX2dg%Aa5GC#U_<asRp8!}NrH^8VOFM~4wwE^q_L8D#XCP87KqnVIXvkxQU1iQFJb
z4R=z=4UxHp{kQ(G_BF=ooFkERM;X-5-9Pp0r$7Dd@~zA5Q|CK6C?H^L;;SfdhiccT
zlOd78hYHoxs2l7c2PuTQ*`96|byN5BOk2;O&C=&1UlAD4VEz#*LNMXpvzox(Clmdj
zHGzl<OM_P~v<@1NaUndvABZ<$0*~6k>(NmurH2Ngv44~7qsV!>bTD%AYXW27`#)3b
BmI?p>

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/midashenglm.cpython-312.pyc b/transformers_utils/configs/__pycache__/midashenglm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..616904ab26224c845368adf09e5482bb6a117999
GIT binary patch
literal 3253
zcmcgu%WoUU8K32I`I1PBZ%Q=vvPIb<WdV*GBn?zFLEE&E6I&<>wZLG-9ZFj*m-Ot?
zmJA+rFi;t73gl2kzUh#Q5upD<fu4%?5+wn;SoBb!1q$6(kc<R9_51c^x@m!)I?{ae
z`^`7A^9}cV?4L53B!Q+zeyQA?AmndI{1)}V#rFYxOk^SpD(MMZf`B-rhI-+xus}lO
zdqfUDA##KXpN8E%TM=hA3bV1X+2}#MDW2hyreI~?=gi=eqA~fqeXXnPz+B;jM@(Cz
zx9|2eWs~h2uA<{U)Ri|pa`8t1zW}=!*%D;36_SOmaDx1=e{w|*vk2H6k)tfaut&O~
z3Ow_1oS@a;oQuO+5qbi85_*co<TQ)R85l#(t_eVs(6i8U(64}Y3RdQ!7oZoRm*AY`
zBhnS*@{`P#ctrMvt;BuOtXi43C4HA^JMN{eT2GPP3AIN(M48s<%ZzVW3D(<YGL@B{
zmFN$R!O%dM97slIm+H!6W~DuBa7AX;grdP3+S!#fjj6hoF(kgj464F`#;z5W*#L%w
zHtf+|Cds;$=&1wBB}3_3;)A`1bX$>hE2U_PK_5!$kiiO>_njs1bjdI@`jSVxw5Mnm
z4${6A>oCn=+)6%DH2=WlF6{LVPw7%`pfWs-Sy7F4yM`6hXb<e{6usAt13F|1`o+5f
zA-@qmCL>`)C~BNG3IPL+$HKru0gC|hoRg4I6j&tC#en(FPDXKHu|OvR1BY<iC;?0i
zSQ1zwU@2fuFyYK74Ge8{+9(4o9k2;tnSf0KgV1x^C<|;dU^!sffL#HW3)mE}D*?*`
zn+jL~Sl(xbA2Q@=X+%E!3AneQkWujy;nxt#2jqEZ<2h-TI9`n7eK=l&qxBq(=4dNN
z6FFMO(IAd?a6F#lsT>dE1r+$gcnL)r1x6IFqNt&m24O|@;Q-u0q||XI+ALcUovGdb
zp9QhKN8tY8!jyJYN!KaW(b~p;ZioN8*EV{C_COh|xM8!hKfLq$xAyL^wyJEm2M5M(
zUu!>9)m|Ginx=RAyvMjshlZl+?T(Y(^!8Xhw+07%77lz|d?n^v{x32II{mjGzCI-O
z8mZ17MSeA5R_2_cx&XtZIlXig`BJQy^_w`>%$a2zt7f4J>ZHHe+f#19WX7yr!!>1J
z>2LM6ctdd-)}~DF7;o@*zOv>oV&-Z5R4kv0bH}fJA<kWZ#iUtK2t=AP3Bh;f_{w#d
zJ;T6ME<thT_*4_<4s>YQ_05fcxDY&K8IU7f?fUQ5H_xEPkh2p|D2H!>7XA5b9YiyU
zPNYdaMyZvgwAYu1kVmMMru4y3Qhg1~GnE<#17?L4&9I`z5b_PAC$%pbR%E;1SDn{k
zWjufAFjb}Wxxg3T6dg@p=ZhdYCI&}bMa6eO^Ys&A=30mE+9IjWn3ZYsX3K1?n)R#Z
z%&b``nU$JZtDBV>b72WVW8N%P&C-lns+q7J{%Z}hP&SL@^OaU~{;yL-I|`#6Bl(gY
zM<kL$`FQapd~*LpeAYhAH|+#YCrPP#{LabziGH&5?CxpthMmIcG^tG68AKDLT(c(;
zWl46*&LO&jPn|-PC;5t9KvX1CCA);EOp3MR&5wR&SCCb4MGet3snqQmM0Jua*jEuX
z5X~Z*Be{Y-k7xlbwHFaxLv$U{5-C>fCZc7u;s&CdB$xjRZ+lKa@N52W`bwSmQ|ZO~
zp#E=lUKX7y?p9x@*jUTGS{wuB%y*&2LbZ)UwT(H|HV)M`VddUayx9BEdtSv&jYa5&
zm6wLH()TMab)(qI>cefXTy>?6(dSmmfDaX4J>hOL`g=^Hirfjx3S0tx2b1c>??GVs
zGSIP{<|JfcU(iDWQ3xhxNZ^6iDQpk|ZX1Pp%82{S*%`(iTH@vGr~cZpGAEM}`FT*h
z{QYFS^kI<<N}mywp{GzFKWunqBkGq8UWaEi6K+Vn0hqsu0?R7@HV7*Xp9hTU9Z6NR
z9S(s@cmu^Oh-RG6A%3|Jx44Vu5jlZ}w{%nTp&Nd<^>OtZZ!XB2KL)+N2LkfuWtJ?i
zoi2Rv+3g>Ee*5kp?g7N)H)}Rlahy4ik!%eTQfBTny?XM)&(o`a&t3Z>w`9jjA_GYh
zBCNS`6!|lzxAK?bqMvC0J?T0A+l*|S;k(}0Xo|cAfVWYsqPPXZipWaG;A_b768tq3
zcR-A1m)CI;#eG!V1L0(sx|3a2Zkdf)bN;%y*gQ|=AXU`oPBx$I*-^ldE^2i<jz}cM
z>haqj{nSn%OF}w0mY*fR!X4)Xgd1*n$VM|}rN`?PhwMzOH^!%0PU_TK58Ur^+J_JG
zmKzE~=i^YL<0|*<J4w>H3ua08K+K+&_@<ko-{S88MgP_@-P>V75MHbiVfjTUB!n)L
Zw}ko6@(Y&)#>-tH53IcOg23oJ>t9-3`^5kN

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/mistral.cpython-312.pyc b/transformers_utils/configs/__pycache__/mistral.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f338a4e60796fbcc1ff168cecb17b3eeda4b0092
GIT binary patch
literal 6508
zcmb7IUu+vkdS7yv%RkFMA}N!iBuk7WOQtM|NhDjgtQhAwQG6F$cH>;G@ZEK>(ypYH
zm%H@rQvXc#bk`Oqrva>>K;s}eM27<k9a5lr=!1d26nzTN7p`bT+l3z#G)0@D5A?}>
z=soqD{X^0^xoH;Q%zQK7d^7y!`}3Rm=SU<(z$a0EDc)=&h=0X|`%zBg@Nb~;5y2C@
zM<NQI+a3>YdnIpyyiFFU+muC<lCMDDragq05NN^wxyPP;JHS&yPzVX0Id2BKc%MMd
zQ9S+U)NO|M3qhcRKnH*hH_<_$BTaM&=x7to03B<h!$7yJMsm?_@Ul6NNnVy$b6&IM
zCK5EniL$_7QRF#s-i-WcK~#$ZvPs}%L|N2WNtvG)kjcziTr4lnY9<YHOGut|{)+X7
z0#GvWJDef0Qp&_)^Qgr_5M_`1_dSFLeD+r++}?FU^EG-G{cgKa^K}XC9K>ircl<j^
z^12e-8u@v0-cu%cY7zv>H1BIr-?}f_mEzX0FRTyi`%e3+n@C;KMLxg>=e_G*EmD{0
zeS>&F&U)vGS?^Eb|F4r}5_ay#rnE$S=>349U}T+iWvH1S5PXPd7Gti2MqRFJ;uGRm
z-p`$ZUw|f#J%O+*bH$^2J%o5XSEPw6?!oqO+-XK#u662LHT?fuH|9$GKX=#Sa=G=o
zuS}s}*@yg~r+AYNC^*NstE=X71YSl<9yg+$aC;Y1ZmUr@$)Gg|E%vwA;kFtzpD5Fx
zdu<vtNZ*1J^;oC6OyrW&X83N2lQnUT(?mr!$$}!7iR<DDxV1E;petNS<)mxZ%?O8P
z7eq~%1)mjE%%UD;p;kF0n=wh^3LHDes<WIV%JXJcLE^k9a}rzNR@kDVig+bfD9i{v
z4-BeF%?KK|mOnBvYX^(0x}cOKKFbSp5NER5f{?u<tf~`P(=%j-3MEMs3kuIkW^zeX
zEy41v!V8Gy5QvUG-)Sb6?fAsP96_>q!a~!GwSo66F<DOLvs{T6l`MyZY@wu;I7wQ~
z3M;cxNfnobwG-cm$R@&nToZVAucy>p)TB#Ap3?-ggGEAtE3)%~EPyuIf~_)pQEEm}
zB$J#MG&Ae)x#P_TVl%fL;lPTvM@ZO|Ni8a(Y_=a^a{jrchRl&M>yKFy5Y9tpa1JR2
zCoDU$+Q$nsrTLs6VUIKEJIj`!jw6S}IuRWoiAh3f21S*%mo@{?v{o`{n@z>CviA4;
z>AY4b=8Ix+SOd|5HoQ_Azi|G}xR95`nS60oTTtZuk|Y)KU}&;Br=Ws>RJNpvlA3qq
z<sF@k6j#kS$8$x^-4ISOXc(3Y!%zJONFy7BLB;l|luo6#mL5}GPZGmBcdChrjkmw{
zGn;QexN-l+!|7`H%wzx1lhnE0d)3sHO{OvQW;NXN*xzfMo~#VKw#jVW*bDR>)CoP%
z*I=EhhI=3T`<|pmc0kI-CMlK9;c9r~u|IDNeE*AcmHu}sf!-&v#8aB+96$7tk?2<)
z=eDlYNFv_4b+6Jprl-&DwVX9N&OOD0&q!ZOs73^Wp<0-TTry&b2P^kiDs7|H*jOcc
zwnlm)<A)JEOkl=VB60Gg?hm`SJFD@Lz4+K}&wk4Vz2$-tIC)5V<Mi(cZ~V+bu=PRr
z{q9O8R}Bu<e1tFhj3!!IjnIh)`TO~YL)Fm0UTApd)&1bBdhpfC=v&p`)xF^K7q9OJ
zZs~zrMz|eh1w)4<)k1GveHtd>?H?~xsCO#4cdAe_17G=Do}^yh?Wm?eYyaYpJxS$v
znQCehv=TYF9~sai13OGLGPW`GH5K~hwVz+B#82<^Kc-$eVB#Cs|L1oX;g72{9O6Hn
zjZO^(&>3hxhZ*n~MgfPvhvG$;p^@=X0<uUQHNX_-YjCW4<oFAC>N##5=e1+73182Z
z>t3G1xxbN-7V%Dxe2qB%Eqryv!qcBp>qOa$d}S}>Y7(Q2GI5K@`KM7Uv=Po0X7afp
zVtb3}FWPb4?7rCu@QTb^0hyEDvf>mD&N&Jqs}&%%RRD7sFPMxbthnA~Mx5Yc3(irf
z6SI&-rD(+y)C**ew9X2R;UPQAIL@hJ^+OauLr|la+~N{6)O%2Xr}`tmT>JUj*3e^r
zx6#)1S?J@?_GGo~<@=EXo2vAVR@=rlBL~UMM-v}TRJum1$+3-V2dQqO{bD6E`6NBC
zpMFJ8zp~q3O<#DD$?a!G^~~t*^=jtzr$Jwo-k1Vg4YV4k$2RFotWOV|GO)cJ!tyUL
zum6A%!08^|%aizM;UIi3G=n<)asdRGgC7I1Pw}CJtV8o0XNE3lc!T&UDCQ@SxYx;b
z3SgOciBLTsFlFyz9o*u*+F!YDc33)wZ)FR9e$Y!1S{*VqAR5oyIStAV0Za*(y+;8X
z7*k~0r02L<O+g6b7Bh%bG&{$sn$uJzW!X${#iF#zTItA1_c<TB028cPD1oQ?IH|b6
znT*Yg*#v~~<2TrS;1Ur;N>O03p_$QwHOxX%gJe`N!`6@^8DS8!minPw<d6y}7q9B%
z-HEJgf<AyK1r?pe3zL!{!*+1MFk{vpZF2=2QZ$*S4l|%gJS%er!3@a4vei<tmaR->
zTWJ@N2p2cur*1>BK^!F7jiG6yrNfAK8tF4n89GgG+^9tfFv`IX2OqvyP4w+026wz0
zZy%iKFxopHig$tKZC=u;_F91G9@+02)w@Q&>^iFl+BXARrwt~#b#IU9G4d0C_p{&r
z?9oa!e|2+e>yjSs**?D)9)bYfeePL+2*)<>Rhf>5clVfVg}Peln|O5b(Qu{bY8413
zYlTiU4x4-~Qes1}BISQV<9So&{h!k79&Df(-}7NU0><qvdyb27O(qHoX);l`Ggu~i
zY<z7tQO7v56vVM_S>dF!0_CjZJ3calgZNyOTXv1V8|3527@anm1(D|knN<O;fmsz)
zRt7x53PsgS%B2De$c0_vq>{ic2pq4Paop+5k+@X=9yTARX#${Sz^@LUC~E=$6J7+w
zXGzb|CW&n~P+uS<vv-yp{(#In;{2|Nkh2U-%6ZYNa5NBW8;A!yBm|BqF4+K`Qbnl*
zeKAcG_$ClN1$_(#*s5@s1;hV_c;><0m3{%}Mn8syz&ot<+%3R5W)cLm%L-~1j&1`p
z`U#%lMOSbeJ6MjkeJk2<t0D&cU7AvaEi3`P22aCX?6RmWuz=t>fa?e%4`KSTqhY)l
zak_2wTbbT+J10A|<JE962S4>UP;3x2Kqx1T)*d5u#%LWdlBbPS?rFrIqBo`i^rXj(
z)R57A!AR$g-nYOh`{@eRQ)?kI1N&`5dfU*KZ6o)?o8;z?3?{nO|Nd)6SKnugA204C
zKT*Kf#^1jIUY5y&e-2*t?B}lQx$9r%Za{+A^y~3cTfJNBMtk<N!H);GZ|w|M+s|*(
zo6GOV0J9C=^uW%-iH+-j=z2JsSg!Z?(0DOO5ee6bA+sFoe0&{(@Fb4mh<0)jT<qok
z7tE<=BR*iwA<G`%jx`=n_+Z)d31p66)$<5k+;OI2>hK~wjqqcZ8NG{<IH$48f;hjR
znSr_Dc~%%JjG830Oj^~zP-nsNoRnV>0Lb%z&g(V|H^T)1u>1muTT9F;g(BQ2A)*h1
zYpDuS*E*+^65PH@@*P=Omb1-J=Cy$}W*{rNfgj~T2H2zpKSJ+e2YwSF1-aM*@7Usb
z9&$iXArLP941Q`63V<9ol6WZZ%v6)FY+N(^$$fuX_opjur>p+l&h0(__(6W`i}QNd
zyLzC*2%gvvX7pg@;Yc-@s|;V>3tm3x8ibLrqivOr@kim^KmEraS2BN8jRMGj=b&$V
zV+ta(PQCPk;EdC(Wg$b57qNx#9-POI3y%#Oz*fSOm=6bQp0Zl-gmWCS;C=OH3V0#p
z{oetaHlD`3d;qV(2XR?;DI0OP6!Y9z*rG^2;`BzHI_A_ZP91mZgi|MR&A0yTiO=y3
z4!2Vl@TCCwQlK4Q-7?b-@J#~~!fzpFj0d|>xk6DA>`N{-6EgsJf9qYt?0!$FKX4p}
zf6b(QLAD+SaQw3FzG0jb3J}$1L|HYNWl@G@?2Hnz7Q>tf-~2-hRs@viwFNWYv=;|a
zVF-b4;o^t5co%Ojw4}^(Gq$u=D~>BAG%M8KOVp`c7-36AcX5Gmq2fY=!u0d@gN7M(
z-!hym6LaagIoX0#X}9A@CPO7GYzYfXz_s1w;sxt51>hA<6xK}ujbf&-ts&<E;Ik5f
z<%W$50K!4f1z=(K;RUPGIwd4wiRYj=inV(1051Lt5B?VvmU})N(vt)G$uoNLOl9bM
z)#PPx(q#8`R8QuimFmIw<<!}Y8-H*o$R2wqXgg(OPF4CZ>Y2$$f1+ou8Et))QxkgI
z#YflmwjUVn{gr`9z5TUEirzkLq<brU7xeVRqe(q|)#w_oj9k{cUN>5^+b48LK^+4-
zA-!YN=sdmCsdt_;`d;46=zSMq+V(ZLgcvWugg5k;-ZZ-Vo@FAL(9>YTx`Ol{a|N-I
z$8;`k(twG<q!5k@X1ECwsJ4!=dQAqukc`-GHV9uZ%>ZiwSe8Y7n53-7b`oCetmhE>
zx@DnRE45mo5bOH4gtf4RcFn*fT>nava0&ed3}K+I{xuZv!r<}zH%)lb|4y9$H=_5e
zVC&W&SA$&}bdAn?65C@t<j$>~z^^aW2p}upyLpJ~8t;k0pjIQG+NBP0RqIPa*Sj?W
vsvZ6iSGA#bXj3%;s@>K@T-7Eb&;?vj?E)86wQL7W<ZA>}JK8f`S^NH9+*WYy

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/mlp_speculator.cpython-312.pyc b/transformers_utils/configs/__pycache__/mlp_speculator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5215b7dd4cfb905b4e7528781ac9d8f46af9a973
GIT binary patch
literal 2721
zcmahLO>Y}Tbk-m7N9-hRnx^?EOwv%rRT3kFQiuS7DvDasP|<S06<V!#$MH1l-R;ac
zsUug4P$g3FAvmDI4IvIi{TUpQP)a#iD-K9-$<0-$s5tT7u0LX&!q}d9Z|2SWesBC^
zHk&3e?AXWLOcC-sBJB}x0sE%`xJxWzX*Q{71x+In@)ofow}};H+WlxqSBTVNx%eI;
zIn5urESM4ocbIj~bxM5A45`BTNDJA&4!}pioRNZNkwV1M3Q;R!MY&dprAY6`%35(2
z2a$1W0DcMhB^f{yz{84dC16g$UYaGWL6#_u?2wXXWo~B+$sKZ2E2OTF+>k$d>Fvu`
zJZ4sHL%AYU%^#}Ro-RAP{$QC~7ISpTx0s(`m7;F(%Br8<a808a?xwioFoFAi%F#W+
zEN&`)Ou3%Et}Az)Ia2q4pv(-*&p5hiI2N}I#iT!|IMX*7Un?s>q-oep=Z;rZ7=g|}
z?+?On|0kHf)b5gcd^@%VUjJ6R6<1oDt{%VNg6pyMc|v65BKc6OYjvV`X(E6{Iya(#
zwPHp{JqB2;a~21z9d}Y60BoRhhLqssaMTlkB|BIWu#Wa>ti69HT_>L|KwzSr)KlMS
zpF!@_v|P;i0Ys*0Yg}-+;)V^*riMcg2~fI2`i5AOD;*5)cVn_bxubf{@LZJ{t+*Dm
zLrRJ<?ICJ~_y2AK8M7?ztWk(LM3=ix51URtJe^TM(!EaIQdherdZ9$0U!a@ZwrP<C
z2QAH(dgOGH?dfuyD(EVZz3sZ|2Bx5-C07JYyJ_CT_Rz##p*EN58o2d?9%A(CYDY+z
z?Nqtcbipqch%O1YLYZNfDGH~XW#*s)6?7j2q>ovrI;awi^%{)A&V%v+yDni-7!L5~
zPGA*YTL^_Y)Dx~%HJJpJy!C5NzwQPEQb7O>o62f&F=WMLzueV#uD-cKua>!_o*|41
zQ(zn*W>pC0D7!|hPE|6i_vXQBKRim^2$^MWTeM>q>P$_+pixk0A5^j%Rpywz9y`!K
zR%p?6?LL1(E-6t3kAQO2fSh;MYzE8}CPl0D1R23Ln5c#I(Z>WsmzT;|0~RGT980Oh
zg;Y!65(cgh$`;*yotfy*J{Cb9;I*OwiiBlYF>17IY@l8iFO?WNGN{T0DqWCa^w%&b
zQInuP#z6fmJr4BGr#OR`=+(d(L2U)}fhleM!)8xG2z2Klb^Gk-HK7~r)m(HB+vOg1
z&^>Ib-;-R%kJ`);*bW7DNP$nRz+NsgIAvk-k3kCPo$_qG7-9&|hw(fvs}O%bsl(I2
zm9FOo{g`BS>A%??U@)-0X+X2|Q@U>2hLpN4Q3b4~aBTnmUS3tayvMyo1*A+Z-mIQ|
z`K9%<EN}B--m9sy>*P0VyOM{O+>uzoOh~<|xGnQg>+q_}eDBk_<kiFp5VJLXNE=^j
z8-o_gEtsBcljge`$;|8y&iiwVyP26^hmY=#&OaQ^-FyG%;pN@r^6v0*V{&dM_Q`N#
z{25p>jfq)UhT6+>D?71YlCzEJd0ZzNbBnmnG^S4DdZNAlk<8vnJV>5+kevN$`C)Q)
zAEc99l9OA6a54gJ#|Ki3!n7*z@5%Y|xiq@pfvVSaKdtMKzEyatbw8u)H>!r+J_*uV
zS2d6MSwktoi&e$+isAWD=$w8Gd#E47It^UoXIl|5nQcR0H8BO^B)-<Ki)okzW>hd?
z_Q)?_dUBgIj?8RdYz~mr@y~0`Xk=_)`%*JQrf6e)sxdK%-xrn}(<d9#Gw^*hx*R|C
z+p+Ox99Fn=bgY>`C`n*1g-{xyL4-1d&V6(4>)O2+A3U3HW^rqXj88U)5gH-KC!0qQ
zIttKV$o3I|Nt|r!2qoZW4(5lzG6-!rhEPC>cKOLyLKnU!;ExJHgXK6(&8VhnkJCgu
T^XI^;+Ns^iGmi<Z!Nq?7iAC5p

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/moonvit.cpython-312.pyc b/transformers_utils/configs/__pycache__/moonvit.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8b4686759f12953c1ce39e19bd28066baf9ab8f
GIT binary patch
literal 1349
zcmZ8g&1)M+6o0c?Nh`^6EGxAg+p#Tw1omJH>XNij(m)S|LQSEe2VJHc?Z_IuyV}mK
zk|^k4ilGkuIJKm``Or)0pVEs{S`c$G^rV}D6B2srd%KdTJInjc`@MPdX6C)Ozn9BJ
zz~PzS$a53mZz7YC9V?f&P<aL}xXc5eH5dZ}J_6S`0XHMqZ<*AuVf0KpJ0xN=J@=^+
zv2tV}+z&fJOCB~;uN13ea`^=+Ut@3q4dz0_a9JZ$fUBQdat&ePQKoC6WKnV`c@zt!
zAkZSrmT?1PwdPKt#oXdaxsf}C$E=b64D1<Q{-o0hK9~2?tLVIs^r4J(F?8Z)n@94A
z&{Y}8n1`K+3;zLc3whX%_52m%Bk9I%T@AWEcj8zCvFrrs>9~=ukg+XYR|MR1dO}6I
zG^R=PiVR|*eBnwb7U_W%U#LUDkAw<@mzbJ`ab9Sm^p{XBe?a(=J%gB`l8mRtK75De
za+!pF;TQHjmZZ=6z>SGV-#|7l3_w4F4E@v5&mx-?7y2f$+;lC6EI(y=WY&~f$fh^!
zfo&Z83U*Ovqi!gawm46c#TD&Wv`vw>qDLrdGc`j{CYVLAOWKTt*ZRMI;+kx_>aTN0
zj~sOv=>q3X&xs<=BXZlAj^lq0>aiczLmBSI=qlpf$K5;cy?b;=)IIs29`@pPC#XO4
zJim_38APoPmPAFo8%r;$H<Lz<>f`R%3wvrF<3Cxr(mi{VchWth`v`B2;pGw(W}oJt
zTT9Qa&7W@nVQmhUw@=M)uU%~2J~jWeHU^vT(7b+8dz<F9!Nk6Di}=!DY){tzveqs!
zF4)$P5;eSsps2lva|A00@)+wW&ym~4kjk!B5p0Xf5IDZzTo*a_J8st_eTMTdyN)+m
zK|8iw+zW-yU}NfR+zmaEyjGXT*=-8X<J@NIEesq{@7+@ibP%;p0#xVdD}*;EFsLja
ze>}2a<>p{(XRx_VSlb$`tPg5CgWdfX)y3@o#r4He7Uxk8)@q|XX%^hv7!^n>lC4DA
z46Lq?%B0Q0!i~{2(&orkA#EO3YiHH7=GoHEAH1fhF91O;PA+v|XY|H@i@TSWwX2-u
zcTGyI=+{UeLK#hW)8n-DewwqpY6mI3I-<~{3}ft-1?=w2+%nrgzrOtna85S<3oHav
ATL1t6

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/nemotron.cpython-312.pyc b/transformers_utils/configs/__pycache__/nemotron.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..59124f2283a34b1e74de8db5adc907717a702426
GIT binary patch
literal 8256
zcmcIpU2GfIm7XCfilqK5DY9jWk*{Uh5@U*#EdM2~l{je<JFQi_aZ*4*FdT8N$gzhr
z%$=cR3CzM-1XvsW+lSq4_7B^KKD2Nj^3Vd==Y8x86$cP8XaNJw0-HCbZi=8!d(OS{
zLsIllu~=HZoO|cqbIv_K-#Pd4w*vzy2|h;b2l~GplcYaj$N%(r4-Z%2;ir-&txB4#
zMGUzTS&hi}95teq*lJ9cA`*?=;FSEu;+w|r$>M3XHzK_*X|WF_t%pYLMZM9)Ry@<Y
zonE08%VCyDDwakKQnbu<y;NhWqg&<|I5i`?2d*;eFjY6H_6mOwW4(q|D(PmaD9DM{
zqb)rwK>zPRaw@ILAbmuWSEE{FHKs*N@@h{~disA_{EoCPgY?POxYqNbwAy<|x+SkB
z-jp)E?w~Kd5KBEWB1tI%pX+7aCh+H!Y5SH)(NJv|w}|anjCPq|trL~gc&Fe~zk;eM
zyqhDJ9VA+_sfHAE({@zT(N%{MmH3l|A~^-MShSc1O2XMFie05eeO-s;Dl640)O74D
z(dfEv@<}j5SV3jQvhL8LQ)4v8NnH+j;Y_t-Q=7U|<_v(AS~DD*Z0d$VwsdL$D`M*v
z-B1}P)Mj8Im+BDMG|K1iVgCHfxfGu+6zll|vDR*YP@q|}OquSGb!Jt_JB3d7D7;Hl
zQzJ#yBx{tD@l^)g!PyMXOl;MvIn|nD=g9Y{3R(prG^@x}!(EWG;3T@TS+^Ld4D6_z
z@L1tXKytp|A}iT1@F(<$4XdcGDYm{%$y`A<okEs8XI0V5RpU8s1fe*v)TuLP7Zw&W
z;aXh(Hm<LM7Pmm1K%_%s!f-kAEi@(-j%U^?Ym~vvKnNtH>Fev1f$2f{H>rtJ!2m*6
zgwZOaHoOEES=&N&w5<ifQCW(v*#%MsM}}#eWop85!$8N_=d;1`vaV^=d^!c3T|9ld
zWBcFI!CP(6mcMa9FBF)o-WJY^+XNL;R-qb3$J22=b^6S?vrl4s<vUj&%@Y)^c>6Te
zEz0aCntJI}2g4QLX2jc|M@TohZ(e7rX``osT{T(+Twvjrk-h3TU_H>2QU-s1vH+*g
zKT?2z6cMD**Qr`8lkf!>4phC*Q64KNl2bIj(nUKR!dzt*20WU5lj@~1gg&hE90Ax?
z0BiJlq!$X6BX3gl?ZETU8(O_DpC{ckrLU6}%MAS;=iH=Q%7$vx=p(h+A#f}10|60!
zBp~Byl1H3fwrYTmYt+Z{Hi7j@)u0H_<aK7%st{+_Y7}DsqHkYF2JLZO=pyiiE*k~l
zL6j5d$6*@4v5of?)GE1zS`FBdxht10X0k+o3Z{!)7!X0UV-sy`=dN74m?0Jj$2N7F
zlGm?Y^s`-#e4nF?Wo}UBhzu0kzKu$;Op7<G7KA@07nM^9$FjnMOQ=&c3(phW!fiyj
zM}-E0tYJH>R`gJ@LRGVBSsd^H_xNrtrb9KN8vDp#Ds;*`L;z+v;~aU-Pa7I_RNb%%
zmk?4>+wyl{oeeNsrR?3gvg1_k7xH<P-O@L57Axhe+Is%f(!!bC;u1ht4!Rk13Zl1D
z0TQO=gsDF(a<iAIQAyl$f}j?zUI<~uiygJ-K)`|?3IwDttk+B)n2*V0g=t2O+NtTn
zz969>k~t3wq$(poSl{rHtw)s1`Q(uo@C1`*y5Y<|46LZPl&WRx90Dl>poaC&Q{dpj
z^PSj#9iv3OrB`YdV$=6()GShBP_x8q9WW+0kBFlRf)k<Ooqj;KSrT0!R47ziP_!A4
z#hC(lUc!oC-LTZh)dUN<g~g@Lq=*t?38<+|gLJR~xvnKcg2$Rg$bOn)VrgP1Eqn=p
zd7Fg6J04u%)B<lo0igUMZAq+1Orcd&>63(Br1J}Bx)>i;>jq#tugXN30S<vO>f2%q
zBI|`JgPBSZau2F%4MOj6UU!|<Xs62od?2o%H(@Zqvj>1)ki+?+#zcyR`rJWi$a7e*
z+q4t}3G5!}_!~eJ;ErHJ2!7WzwxC8Z=mr$$`v6nazd7AjJm0;*<qfx5h2+R9GpMp)
zx1FV8hdQsS+`&aHM|3Tuvu4?kqtj7xc94CU0-Etd0o0ige^jk>VL|^I7E2v0UWE$%
zal{>+Dw}Y8QQD&TNydLoHS9-PA5TF#^<6up8`zjxRjPn<IO@}QHx%g*mL1!|m|RmK
zeF19g7T+Rz+xM)iuab~sXr`(P2@QgiSq{|p$~vGSIO&sPYa!PeSyw45LcyQ{o_L1?
zz$_>k@F)cS42h_$L-oc}ep%h1M6e8{3WW;%Tv^jqjP(Dj+96ON7jt4>CCg>YqF`CV
zBaO=`PGf;Ruym`2HK11uYc<RVfXT-Cd?0Bz;We-)P<$$FcC(|up5I0wWOCpLSfXfa
z>Y8o<oVOxm#i;)O=&e>&P#auRnzd<)Ui%3F4k&Hv^O2Mf77B&xmQ%J&-dkQ?7AI)9
zTk%g7aJH^gE#?GA@hf=ukPW)xJRU4RMlSowj3<s@9x=Upo%zKxYk(kIM#n`+Ktceb
zf5N{IP!OEvGQq@syhQ5dcK{e-Pt8%R3pw#E&b7(W%JpIq@}G^{LoQ-*+vGsPwo!6H
z%*}~WJ_+>iCVV;FAvi%h;Tgj&9%{MEO2Bg;{D0`eHQGPQKb7ioT~dMx^(6GX3pPor
zN1zw+U)H10iw3<I^kPA;2YUYXo>Y(DlI>wxsvo*B;LixZHTj;$;r)0${z0T3H)Fu5
zXB#*Hm0o{lz4tbZzTaE#g;A87f9eV7C4*iHdcieey$^c0JN~KnL$5#R4MQ)Gral6_
z!QfqYIU~NDu$!?*?k3tY3obG1qwkN_M}hiKKwY|V)PD}Y?|F}~;u)Ad?7yjxK@aZx
z#HW4`dZT{N$@ouq$LrFMu1j$BSs$nm)`#i`wAjDJ>W6+V|5%o#Eh!UUar<s=D8;gB
zn$)n}ex8FMc_5a%L#;hP_Dsy}Z!Hkq{?;___P1taceG0i{iT#S=%&KUDEH7KDrUE@
z<;?63@4HTMhw*Ib%@H8uj&?b2y3rDK+=PGT7jpphThG;QDm-H#tB&#*LdL5(-DFS*
zx~VW(drGt677D`D9qXD?-EqjVklwvn$Y0lZwdoE9kj`=29S-|m3UCuXsJlHj9LJfP
zP<TD9D4D}<3{w$9UtrH*GltDUY%rqPVQeO_nZyRYgr%{07Mm$-(BB!lIYVz`2e3JU
z4Z#Mzk{!cl2Akv1xbd5taEEKVNk!pT%8FtmAIzBDKDYn!-Mmw&=Bs*j9tsVx$^5O_
zx#!Q{JV*0}zLpnhA-`c5m3(VDP-+gGPxAu9?7WX%x#||11$NtqRy>@4g<s6)e67^r
zr9BPs@%3$K@3b^|{7&qLL(SRcJF(9aGtJ2p_&we{dJ4a%g70Hzu}_+#lb?>B|7hbs
zw*Pti7xVXzoWGNJFisld*}IoM{zl{Fw|17^+KWobfgcX+rKJ8NjlL7j=`)S~BM<!b
z6EmEhPkx+0cc6KA8omab-plkH@;ba1mj*_E^2Xga{{C<7_n-Kq6d5?)92)z{_TBBq
z#L4?Z**`{M<iXI)Uayp#0(K|9fy<_wiT>Th@twr+&l0oEsVt672HOz)K2HqX?cGU?
z?@94ws(JXh_eYk#Ou_(=8X9}p2Tu<{RZ`JIT6~retr5Q;{sW8x@=G^xwBvJI-jbaV
z<-5*t0^GmnWd}Cygt*;xjgOLA<mNeWws9xGa1HWGH%b0g`u6~V{}!@Tw>dWgv=6tT
z#UR6Ya=ri8tm|o67pco1#OksZ-;mj0i>$qMxkIkV2V*Vzia0^W@nv8=^@x_Z36a`H
zDOr!SQ`(X<sqJs3{4jf40Ezf5r_hQqh4!CG!V-1m3*7ehO2_O<4UV30A*jMFC%;_5
z+kWxe%BDr&cN;^4-)joaR+Scb5m*q%1vm|t;56#S@QoW6gPDjM7dI?!ueN2X6}`Cq
zT06s8xcr9|f-+pD3hr<TiU){yX2t5+ESdGz&%P@dm4prVUfe#nkDzye;lc(aRl=_d
z$TC?J6f(UW+1!*4g%w_56sa4-O}kOJVR2KS(;9u1F^jQrVCMGl^_eJ}!`^VKk`=z`
z(Y7HWgpJVwR$?dNn@vNrJ=+OaZOg)x@SiZ*{t6mEuY}ZpV7D*5)0b}a%{2Q*J|8;#
z(ai3|$(@Olzq<a}(5YV+KbhHm;oCbeeEa^{?=-Gn`}FL!-;JdABJyyynO)e;Uf9WA
zXq;T$i^{_<$q%E^(ZM|_Ixq-ypFO&pp5IB&@1_@b(u*IT_+;jO`o%`#aC2&UcPhU#
zmEWCO+L>DV_|hlZ{i#<PfG}K!#@zFbi*N7Dz3s6%);xB)F?|LZoNJ+<k_JelfA)8y
z&o-tOe|_e&(dU~((?2VII+Xc*B;7o4xjA~GF*1v*GA*lmqyx{fEbKgUP?!EED(Mm!
zK$i-V^aX*@FBYI#S#f*#)t)XvrYgPpPe*@Td+!G?mcA_i;m&Wq{(SlR3d`YK)c<S3
zS?>JTODmq+Jb2L?!?&3vW>WA@swi$sQJ}o88Tj0<DDTx&!+X=KDDbl!PT}>pu=ymO
zYT=GU(MwPuQ26ZwQZoN-t4Miv;x=~&ybM{Sh5_kXX3qg*8}arf;TdswWY}Piwh_I)
z{!scd@|N7ww`WGAk@W31goYcjBVe^>CYsNTHz$rXC(_OIRC9Q&nTCut(Ihj?34+~`
zgUzwS%`s>XHq%G(6?CVLHV>tn6VEn>4}O(@S?)>w`BG%EXOOF!GhfLh*+t;(_P6F=
zhB|adT8DBxB{PI}HwB4Y!C%5DW6L-Y_d0w}SgQ&K7y)kLn?k$G>@svw0rny^-~qDy
w<%}dB`)?`pd+Ef3<m8=0yUEF&<m5+}?kA7mj{hmX9gzncW5>Ue@PU*3UseBQCjbBd

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/nemotron_h.cpython-312.pyc b/transformers_utils/configs/__pycache__/nemotron_h.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..37b1bab2aa1c2e28a18e9eafd376ecdfbb3febfe
GIT binary patch
literal 11584
zcmcIqTW=gkcJ3M8hWGnLBt^EU>qxwdl6QsJ5+zyEDyAYsS_h%yG@H}KnU;FGXRCWC
zkr^XGU?4KG$?gIP>`n5p4|&MKK(Gjqhx~;k50ck_8VxL<#QP%Tg^aX-b9u;js=I40
zq)2+5Z4RsZR9BsI>eQ)osp@}eZ*Ng>S@nNvo;j;1UlI^s4bj8PRXlv67|OC@B#fk$
zSWe<zXVvBFm+KQ$S8p}s8<!gsN>X8s_c~$(<vUA#mI$Hc=A?36F&aKnj7C=fSzT1y
zvXM+TZ63bG@{Y$H`-Yl#3}&er$6hnDMXr0MW51xbx6+BA>o#W|*G-!lS40EUHCawJ
zYuedNh%hYYBjDvf;Ned&2Bs`0Fb?p)TxTSg>y5f>V!6SnHyVsaqsd4a%|?sSYP1>c
zsG+|OqZ4J9(QWkLzt`wPyMFw2p%t|oFa}XOWE?VvjeZ)vF%pk-EoqFRU4wBLWgB{r
z;jh;i$5Xe_wKo4)SxXq|N6pJkEM*+|Nck*ccDebn@-VU7az{x|1f5bM;Yjt(VMS?C
zaox?Cu8N<RW7T3(GnVe6-ceo8;cS-%&YG$V9Ph74^h+e~l@F%X?|6i@=rV&)n6~Tb
zwrA=dQ*~9gj;2S?WE^fl>H-^@6EkjsWz01b{dJx#=9%reld8eiOdAbFi*Rmrp2?XW
z%Xmf3Kvoip(djkAdSH4v(H*$-qUE{j1Jkn94U<_QrMhO`v~*t6$#X*1a=NEt*u<Y4
z#MJui^jtWSY0+wtXWa|pi3GgvWb{?dH8+`hYQ?m@l}YuqQy@jut<z#eAr~0-+}XL=
zH|EpjzSRFc>R$v)8{iE{YRN~G)vF{L7EYvH%&#(zrjiT7WSDDfj6;x^k^9W1rWj5}
zx7Agqa#rBX#Y+f$bwi90+!l(StC@zoQiZ4h#Xz$MIcB4~WzmG})B)MWGnw`P6Ra_C
zWzamk5XGwFSbNA~<(h7}Y^6pRznf!_Js0eW=|2hOB`#InHdLqR(Ie4PD`>enr-->-
zWs)P32Dmb&)msiUQpmxJ7J_428<2*@)}gSf8BTVnYB}8norp{ovTBm5rEf4EDg%+q
znTEmagXzG+?6=R?4Em}G?RTLt@!W^_%2OuHnp>s^En_^-3|ejnqdGr#ZgycmvP<vW
zemza7oED8!jGm@=Z*4zUtLe95t&Id0ijgK*%=cZc+wPi!fpL}D85o*M5pS$=)6krC
z#&Ks_LH8g78%($!f4!PjP2$SL(v<i+9p0$i_i<{XR!8r`IK<?m#hMe`#VfV40c<2}
zj>l;U)hyRcPUm_Cqkx5i&NG$inVc$X%TwW2jbiD7x}@h<^?BHt3+f`o0K4nhlj;;+
zymMQ&r3oV;iMLvg>Bjz3cJ}pCCQ+#&Doj+!aQTJMi)c0_8?-+5oLSjl@TeJPeqYU+
zoB!5cx-8@<(F%UcYlp;gpKWOCx>aNc6iY3&N}mdRp($1+)<{Ca>PXuZyUHrTnE8Um
z$n~k$xl=5_=Du5Ga0H9-yusmB+xV4T_<wVksm78ZCl=Z@;Q-;Pt7tF5H=61V=tY^F
zdTQy$VtSIS;;w||R?1kbki`_#5NpjSfcD+RwCa#)e_*;yz5ecE96gk0CT|sD3xj2`
z-^x}eV8e^^6E%uJYtMG<Dflb~FAqfKx-g&WTG0joBO93;vUZ^*E3+V#Mq4%E3%;on
zb7<04feJ(=@*QMp<i7!eyNwVG{U%6BT`S8HaU9}73n2~HVA-=29<5o9zE^-WJ3U)#
zfoMW0wls7&eS@vT=T&%0k7HKh1r5!H<IpXwf~pD=Ri&iz9T{VUHR=OqW^<mJ*I}PC
ztir(xy$~ohR&Y%VTC+d%b8PC|F4`C)5TSAud4-lTWZB#dM^vkeh}KM_D2Al170%9o
zQ*DI3wjB>%B}D70Wzz)Z45#Mo{0dnd)nybzs!@zqCB$-nvF7hHRuDG9)$>eUF}#fe
zTT!ugNF&fzhSS0lm9>NPFav)_TCrcGc$XJn8z@GjlKK~q3YlLK;Q`en&GE=M&j^!W
z?M&sG#9}Au#FIqYAvku^)9UZkM2uDPSP65_Y17pVCW4kX1;6E?l66MbX(H109QYmx
zEDW7gFu!ukvDxe67j>>iqi#ueQ{Ya%;He>Ink_`?8RQX&ca5TmH?quTVM;6}H6m5T
zJ&iNMAf^+Ef<%Mp8LEJIn8M90f-)h$NmT^UB-AQQ!e3Mmb7c?IvTs2*AQq%6NJApI
zygq@Nt&s*92Xu>~FrcF3Bg}rv@?UjG@CT$&EAMIw6RQlH2b7>rIcrlc`(6=&Dx0XK
z$i5E6-3(rNOcTsD_N3)nCJkD9VA_WBU|$K6y448rPKW_%vcMphL|j2xX<3?i{h?NH
zT-bKUu1@&&&IWeLdq}oGXXcA}Se#Ins>STANZ^sWij*x3Ve-OKGlc(?%+fNI8blE$
zCH-X{<q$N3I|XEo5X%8vPmNrNy|}+vM&wY0MUnVbEW%ZN)wCdvO8*fhN^$T1U+PhI
z2&d>((j<$Tr^EmzhTF_KNcggwWxZzUSuA<OgkPoAgxtiVlsvYyVNioAb&U+GAPMs-
zNS3ESg#9^eIAC`N|LZz7T~;mZZjddd@KW@fa@{<<1ycK!j9zqgYYNtMea@)fjvx$T
zgUPa(F)5l8`H(WyqiA7Ugc>0j5SvGE*SdP;yH^)Qz>ulXUeMEo;0~5H?@Tm=Qq<<_
zAtwSawzc#O`5a2TDk2KeL?c&luuN<x<+9}uF~Dgr(RA;OCWR8%T9#6Z{d2zB<fcp~
zLa+}Z;^shE+xa~=AVks@4u~+8H7S&wp^;|nYu;)}&~#PqstIJY_qXm?MG;7bnp;bb
zJuHw`?zhEJYrEeT-DuUUA@jhB5%C0kv%zS`204kaA0Zc&yEuZ$S|%bZa-d`gL2B_E
z<U)HWlHqA!{9qPzw$^<vA?7CYE<y)sKRqlU1oa4nV%@48IuX?$9*F1;l95OGHAq_6
z8zx`j6_J+j5tN-mo-(Nlk8*0lwAUum=^Eeh4q<Y?-he4R(SQ_cv%kYYvQew+*F@Kf
zVOK~wO2xuV<8?x(WpU8ta5v8(H*c%+Ub5AdD=tiaqL?jQ3VHJ(tIpL{EhlroRx99b
z?;VuEy|<Tla=2rcnTX-k0b!0C1(;P4M+M{RuFPg~Mf?82+|2yB+AZNb(Mf<n66(>C
zSfk(ynW_sDQx*==EClV?6UE*?vS2Mv(V#}(B(;LsiZBbK1?*GR8LOm&*|j54g<J(K
zc636g<$_KeCwS#OH`i2f{&&q(x)jA!?kdWQ1)OMYF8n%svoBP1eesBj6pElh><MN6
zu<!4$|J&wYT+D9gzI^<TU;Xl}yD#WikteAk6}Pe|#P#A5ZZGOl1odP?v;X_k?a!B1
zZ(q#*)sN}=r;9-yR(N*m%IJUm`}yIEFBD)hQ)7w}q1d{Z!GWl}h>ceKzs%Js%3mfv
zQA&xDqRH2#B%tVsQ&CEFfQTP)mFfYZR|GWxBEG~`Y6KJ?v?`@0K#lTU3Q&`T1^^Kk
z;wlXSYL?ItAaRgOHKjv<h*xoWhvKJ_a!<C2>lEd)h-<u+*voJ4pHdXJ=_U?&<KxLc
zPIx2n`+KADQ~7Q{61&og<RP%tm9dqYA0<moA2yeo!F6Yhr_=%niWFX@RzTenY6H|G
zp>{yM66yfdC!tP2{SxW|G$5gFK!XzM0W>6`VL)ZM9R`GB*YGNh0g@6ZjR2BTD2)O-
zEL)BPf<i_8R6yerIs!<Q&;+0(5;_WKLPEy?9hJ~=K*uC>0?=^@odk43LZ<+olu#NF
z<}$oWrvarUbOz9A2~7ezBcUlklM<Q+G$o-KK+_VM1vDd}IY6@#ng=u&LmrEtK3*s(
zfA+5mJ_jiEmikKlrKC~+H}$2nf1CL8L_*n6(v7z^FNbF^J5Px6MPw;CeH{@8ZBa$}
zC3dJpFdm-Vg?n$CsXurh=RqHwIkx%sp4dbZ1Ec5R+k*0ejjNtqIytGHJdFZA{N&Wh
zbbZiPxxW##RqjOuZI$~3LGLcds6SQG3qecygqf4F1+7tFNP%t8T^U9ScN28)7+Em*
zn(+j^)K=!RVR90r;+Q_@sNP-(249o@2i;{HQPvxDRA<3K9Yh}_ISU%F;hM>Xq~)PW
zM7pE;6d>p*<E0()AQkVG2PsN;MIA&?v(+5*h#9Tg!40}%e}zqAv7;I^6AG~l8T61G
zs<*F#?j0$0kc!i)phE-zf@{itAgQX<GUyE7i>aWqx1d#oS7EvlG=>RA&=p|`)ew<>
z&`!ZIa#U8Ju)7M>9|oP}w<1`rtPr7N&@RRlM{+S6GI9!9%5h0B6#4fZkwegBYsemH
zUmc7x?zvRs;=r<^ra$j6h_dD=Iyg$zRZVwkB-AcKt$_e-&;|VwNs4A@ODoKwf~H93
zL5t@U?uTh@&><onQGv0o1`RHb&v=m1#0h|=rO&~iGi!~L2^PzSllkRjbvYSZPBxaS
zRFFmGWac<oH%>;4lP%+9!Z=wjP6msUo#JGkIDIh0$whGT44fPSCrix90CTdtoXjn!
z$bg@x;tdqB&cr&z&rxMtr~+Yv8$+Rb@C%g<L>?A52ot0jBcM<ndLv|BD27laB2^Un
zM+=5uBD9g}mDPb?Mm4`e#Z@Zars5hE*QvNc#doN<NyTrY2paD{z{fjo(5z|VYa&f^
zX-u^F^L4LB|NZWamoLl|%)*ohq|BRoSbXE#-@5+>o3YH*nZkybbL^RQ%gWE-qptW%
z0arsBZ@DuV9KHZ^XUcKsbYX)pftk%A`6bU4(P%o>kssl$`#*?lzIvo=SqWw2_~ZKT
zclt-qKd%2GrTQZ$=sx5hnWy`hyq|oF;A67gkcw{Y{@5f{kNENHxLZ{JDy4Mw{&3-0
z@66NQnV)yg{_N_rg_}<oZhqc*b4y7!xA<+hU)JINr1R#hMy0Fg2M<4f_-X4;?mj!d
z`1JVV7oC@*R(GOSm$zD!w(%#eC;W+XPuj+x$6Uv3#P^81=oT|Iu|Uj@`|2#+4?jON
zfiZOWQT6k<*$_lfF|-)x_%!tz^+!(9eaIi6-mNh*|8SbBhvj{IDr`P31Uc#-7LpqF
zV>H93(Y@0@b%~lCmuMp1{Nop>e!@Td9^Gf9+~fMeF?4V9hmQ#?5s$x2wSV07G&QuP
zG(xtAjz>TB>~=FMAiK`~m#uhu2^~-}QEW@kN(25W3V->}C_Yg<`3~`F6r19OyyCd{
zs`7(GCYe<-$qz0m%7=*h@5$(0Hbyo;9^6P!yv&nE(nh?sN4vVHUA^7EXS;@|U89{a
zntqi0{^fe`@nPZ)%7l1&prli`g2WQ}UhEkLiPJ%|^sGT*DyV~BMd7e?9kM7ot}R>1
zbdui!*FnN`NdT(KmkI0+qb5yczZxC<Z62vzYCD>ALY(f$=>AA~)u#-Me7f*#WbWz6
z+!y`xFT0z&TDH5CfwMnMY_%(0ea|}2JncO5cZ*Lur+;?z^UibIbxM2R78b{DZ+Z^D
z_RZk)?t$(0#`eLj4j|tqGFwV>bIX7Ir-Db95~)uY8y402bSpU!8)2fR1udEu?k(fF
zP1C-IquA(8lcpI?hMI`82{H6w1d)t5;4`yuO$;#=OtAPIFN25&h8Ty;WR8Lq{1v&>
z4ZcQTdt^E@%(CFN68!g2>ypx45@P1Wo+!wZxzA91^^vljEF>CITSlGIGxq4Fe{|sq
ztU&$vR!Zp`_D7HSeMA26xIaAVtMB=vV}5s^KYG|79P<Z9{q6z!4UhRF<Nl#Bzh}T7
z8TI=IqTk?%uO9P<(Ri5Jpd1?U2Z#K@Ls5f6<9`3J-#>)<AAk2J=l=TlpA4S%M^%4l
z)E_$R9~$+KV66?)Z*0P!oF%$rNBpjCzqijH9Qjo?QA#wlY?bPi#*Xb|OGC>`dU{1q
z{QY>O=~jLZ&y>z**+Wj*NuX95{prx$M<4u#E`Zab4SK4Y3E#kJ9R@A%C=}p9v3Zs%
z8Y4i+m(sS7zEJJdZ-rC;7BAujO@>RG6kBzPL}L4xk~sFI((?=D&0i=do;Qy?9(>k3
g^0ay6(;Gi;KK`ijRpTGkC0d>gocNVO4+87|0n%b@#sB~S

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/olmo3.cpython-312.pyc b/transformers_utils/configs/__pycache__/olmo3.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9da9b332da353aa52577387b253af8825317383b
GIT binary patch
literal 2419
zcma)7&2JM&6rc51?0D^bf7lMONkS4siCZY4PzWF*s47S+l~bg4wDC-wCF@;xcAb#0
zNI4)isI;Y0tM<?Xm3janRb2WP&|5DtqGB~C5L|Lg2&lBDzFB)WR@F+KIKO?rH}B1x
zoq6x=Z;3=Jf}w>zS8sy!Ob~B`8^X>g2;U)sh@_#iG%HCcfX*WlxQ<AWO80_wyV<}>
zC?DPwBroyy4;i(XqUw~KHS~G4RIFRovEhPtE&=}x7N=-dB4{>1q}d<|l%&~E4E^6f
z5?V*|5(!?9&4$;}6=^o|5z2>o`~$6Q9IglFVM7q!R#8j~FVYpfq-a%Y7JHj^6$LpC
z|2v}rgua#FjU~HxNn$NxLv}BbPQavIAVDFgKwd&@+><X$p!mli!Fvs@gnT>i)thWd
zVAsy_P95Fox6v0eLZsD>+p?XolO*&*$nO0~`VwxymTZJW-XeAsnD1!^fJOYdAg~sn
zg@B1Sb%z}W7V}wTEntVQMeGP@-MkPpb_+0ZF7B{nz+hJm)(R})vo>H!pS1&P^H~S5
zcAs?u>+o3@uuh+K1MBix53p{Zq08f*y!%|6v<`U8Mwk64o(>`Je5cV@eZ@ct6$2kb
z^lN=~9|^C58HudId6AaIqX@A8iRu!GeI2;j6#`4JYTCgHS^=Hp>X%VIKEo3VD=w%O
zEm~DZP2Mij?$9}domHx)qFuOH*Boxr<U?GpC<I%^BGs`<xIAZ=O^i0PE=#3&*<b|I
z@*E{Z)l254NUKe8`wUVQ@eWf{#ROI?i|UqY=sY=J)wErH7v+0-gwe9GM0rH1RH#mP
z*sNA4<57%NU9~XgtxHBxnZu^KN_k&dxq>T(sfy*AV)OWdN(k)RwdzoHi?T8$s$$WG
zO0Sl2!$wn9C^LDNQ2Beq3sfNurC*8-WoyGxDOw!XhTw_@yJ46qdWrH_)ugzn6c;FO
zWk!W!Yk^t{mtEN`f~{WS$=yhEs$%kvT~5Hzs9NAqHnDE7GNu)iC%xlaR&`=5^SHZh
zY^_w_KErP0e2Rxms?9S|_bek|K)@aWg95Swastu<_6ishAc}>F8eyU|n5YOgEMP>y
zJ^`Y^vM~W7yICH9M;4bARx-Jy@)*WNO)*W3O%Xo#A7kyW3k9oODOA+TK?{7Tb?{2{
z=&^SekJ5ss&J`*v)`FoImNczgfYz*=^KbxgJ-BMAnpr5iZQ3ljopPeG!ulcBYIjo?
zo$wMxbOVz>624wTTa!r6+#apP$DOfb8>7e9&)qupP#$&?+1rzM3bo<mwZw5p?!0xX
zCJ#TB_t)h88wXB4lBfPn_dJ@o(Nc@{Z=p!6)k*DZ{Bno4W1!e-MQuGV;zCNI%)a%|
z%{FIjYCZHQI^twT#k1epdq_M7{pawc;JK{`lCvA}QD^ALhMaxU&^qZ6cM;DiH3T&2
zX$QuIYswjXLp(Fyl201?C!XF59dCOa&(z|Xjrj1(2uf$aw;pGY)Urn&r6za6!Cdlb
zYVy{Ztsu(pzjNkp_<qNaSMMti$Bx$8hc`}MthHZsQj^=lZhiW9c>wI>kw0GqfSaO|
zKbYv9PKNS5>e{bR`3PE^ilFCh=3tJ!1uz5oscKafL2oZz?f&`v)75WIU1Fja&Zs4D
zI#&V_q4fu+XBr}~()Pl$^<Q2;pJHzUo5{C`W}qu&Dw+YtWrI{TA<GzlT2(Y}2J}>O
z>w{;Yf<^DbY6<FzLX|@^nWv2EMe1e{Pc*W(NTDI&yu>CTlqovcX;uJa;=AR7_(++b
z0KC4AoR0pr_nqOlH{ixX*{vw*PC4EEPCDzP2b_UHXCUWvrJUS|lOA+Bdz~KmrJSC$
zGqBg`N(;Gfz)A0Mg$y|Uad27+C%2Kn9f(j5IFk?ZTyrT*)Qh0X6u0ZSg~7xZyS_>B
u9b(4>h>i2;iTVLev3G%rH*)K9D=10Qt0<DDUPj)Nq~u2D&?_Va*Y$5_k96z+

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/ovis.cpython-312.pyc b/transformers_utils/configs/__pycache__/ovis.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..31cd9d7b8ef069f67552f99e87f8843a07bc6847
GIT binary patch
literal 7726
zcmd^ETWlQHc|NoE8?U<}DT+%DFCw`VCE5&SN|d9UX-SqW%8liwpyCdPJ7>8=&R#S#
zONsI-Pz)DkTBnwQ26m7ZP=NrI;Xdf4Km!zL3goSM*tIs$V4w#BDG=ywSu(Jir~dz$
zo!RAz6xy_JJ>2=v{ha@t^IyJm_-`#OAp$}1{H2_W6Y?9(*uh&%Y@3kyj7UV{6q4Z<
zIS$h<#g%a{x-*_d4@X?&B9Yu55y?Y6U%IV+i(Xdhg;HNbsgITVp)^2!PFp`K4MJ(C
zp)}wk)V<niGgObIFb#a^vhq0lKCL3u-`EOxY=IeC8@LH=v?bb~;Xnz_bf3#^BwS|b
zTtUyhk;|s!6|?;vmFlV}XQ^bBB<oBNa;TQs{tyy>4tqq&A}5hW*L$#6i*Cua=%HTf
zliaUEeQ=*YsS|e1FL~kf!RLoB0ACQk5PYywDFR;$e62JnwZYd;L#f_PlH#O}k6ISP
zo8&gP7<rc@qGtHqTUXboEmp-Jc?h|lmNg!JdYbY{wx)tA>T)j2ClyhH@*J<}IhF3w
zAeZ9BEPrE(4S6*uQDy1<V<8^GTUkvPv$_leWmkByY2aJ3o@T>IG$j@kUE^=bio$Qm
zRFR;uCTC<tRCjk`!vZgQTGV-%7}>oc=JN`j66MVL^ik-sLXYM}J(+%W=IHeF%=_bM
zUC(QCQ&Z`}$_nt25|i{;GB@?oUI}Xf=hPK#j?Ib7Nz0N%vw|kyp>zDaoS|6_H>k#j
zRm-b1uTqU>b+&t&H4gTcvpQ8XRD#{0`;GDLE&1Zx@9jTEwvZ8OTqxoORkb;Op^#ao
zDl$=Hz^Z`h*ydbU#jKXf!Nh8v6&yy?bzl<s7t&Oeb`9iI@vMr6?mQKfX}(^;CUG{#
zTHed&OQywamMXg@lC$}O&f7J0{^X3fV(-ygm<D0EL+kbIcx!w34jy$=y_(U4EUa0e
zaPa(_c}-T}oYqC9K>313CAK0Io$p+Im&b;pBHyv3oh__Ble1z$QgiuSL5G945<F86
zHj>kb&#Sp*aamSmU8W6355=oA$u|2X!yrTTmOSHx7gHcLY-gQW>fGI2TNjpP5!U$K
zG==WaFvp7$Y7Z7;4hOwipepb)$*<834RlqqwxWSS*p!zJR1>BYrP5K5hFhWvbHF&w
z>^2O!28}>@_$zedRt}r1D+SOP&~g+fWb4LKv(dEehUsO>Y=$yuO$2=-Pt9<H_L&_o
zD3jUof^L}6J>=YsV4*E?W~eS|W~eS!W~5Ps%noPoZ80!A>q~da0`_^B0eeGDpS2Ik
zmIi--4l@kj_OF2anEQ<AoL&3F)*?Z3EO9a^w)~9yD~=;Yu1JKM6C<SPf}GoKUvxtb
z+FPOMft>A*Nzn^ApHt_DoZrd$AQy0QLC6K2TmW*+-D62H1UclEg<=?T5hoXcoU^hG
zl5j12K@zQ|S1aVHY6b*B&dRzVs5qL6gQ(b7#V%?ql6E9*NYHz$9Y~@`Vn_}ENwk?B
zjVh`A$6(#rK&(3(X!jUu7Yt+u1%df8LC~-Z8m)S`_xmeTdL}=Wm-9z;^db7u+lASa
zC)Q@^lp-%r<u~+nE<3fZD48j6^tMgagn}+B+LYxowW-{?tR2g5sJ$@3omhjDJ!bF4
z2-IjdfjqxQc6btO{h_}c=qU$=K7Z}2z>slhbkkD_^caKF823Bz@N1aojlOY=4;sBA
zo1Tx`?8t6itNnUt23rjnJv_8(VbPCTwqa6|h{y!wMMeR9)&m94Pzs)*Kt1~!2_DPJ
zR{A%a|M>jhPyZG&EU3u#g$s!mJk+e1p@LwB1OfE3pkO*82saC&QmgR`f|N_bxuZ;(
zZcSIsHbDUUpR0LA=-~zxHoYk&C+enWIhRvZ<biFR*-|^HBvlka_<~dWph`m}IjaKt
zBr3`=BPdDQFM&M&GqUCC^aiTqq`Uv#<@@f(o_IAt`gmjTurWAn438LnaibT0eMbL~
zF+6IFj2Q>};kR`t?j8L4Ku^^Ran(oq2C9BcLFa*L5K|%2KUfW8Dnhz@t1XynCD5Y{
zQ|*}Qz*Hyc?yE*I6(fCv)dQI7BJrVWH>P?>w7Yr`Q@xnNS*v{{+VxEwQd<Ow+HWr_
z2?;0I3cWoKMUCijH&T?ml8d^j=MHR+#4+lo-js*oKM&wPAH#osz<)mT;CWG_e=KWo
zX4i9TGz;!kwb0;#*|sbu*OqfxDp*o&w%DduS7nJN9kT)Kpm|}YY#a<!lPLpJ!AzMC
zOj+Q6YRdGw$?@op!Ld=gI#%?oq7pX+iTko<O6SQZ!K7=2Bwg==jNA?CXd7542JJSV
zx;}36kh`9{L1s7|1E{0jVWB>=jwXbKl<OeGU)FNF%pn?F#~c=YKe*Mf3ZITb%z}=_
zjfIrUUXd2N40k1cz^*C!Y%YHaH>SUJ+w*<M?LDS5&bNy`$%7o;4HZL@cWo9lWxVKH
z9kfTT$CAgMgCqK|UA~H{-V}<V6gngyp5k3!Hmr}?4J16>T6qzjinF#NIvi&wH{c{V
z`0fU8k%WK2<cfE$(%X4JMf_5eye%PaS*Czs@%E6Uh;5sZ0uLBMl9T!*zYGX+C8zVh
z_wtAnn8{I5L{+qIi7plQ!ZItN^;}Y1X1LMp&}(8ZqzYLE%}lp0761@v_PlBWdV(*@
z1DsQjVA?0qyq?xf4^GYORfDovj^1oVga?jB6W9zYYOm>G5XPO)<y8;ngMfk1cv8hO
zWz$foehWw<qT*#yg;OKy2_z?x;Jr{igT!fR`84jfwP0o-QBCR|jlXBvO6H1&_SJXC
zF<pY*T0f}Ib8t*uFF2-}!?8V0v<o~-;A!~4{nXziE8!tybn@?&zf&H4t1>$K_`r$s
z=<I`zzfOKW_~TS*bawMX>A(r2s}H(_pAHQF?2UhjKDhLg?>`=xLN^5lc@pD8M!2^W
z9(@{(f1azna`u-arKyXR=%p%gwX_<YLS;!RQT_2!p(L!A);}n<7q{I|Q;J^N@sU_R
z^qD$SiJmp$lMlaFj?di>8PWKI?ysWbMr`;=Y^)p`dl;$2jz1lJ<;mz=d34U`8QOBY
z#=4Br<1GI4+D?FsO_xXKA6)}-|C%vy%wjJ-vFZ7Bp!Yxj<1pzusiDdH*I?&-n<wFy
z$yqo}zm`ks8S(ZC)Ig}7S-7z94DC=NpdN-u9YumF!=yp|Hl|RZm{_XEFf|3F(Zjup
zg-9-9#d#plKO*3rV&M9RjYyl(7B#y2jJeZBynm}>$a@4lQt!mW`SQV69?g^w&Q{y7
ztex~6`UY#a2oTG^;Gnzwiw!NehoGj>zu?;h^B%5`0*l~B;Pt=@-otJ7p2NHLp6<i!
zV$fXx90b0_(gAcX$(mh;DF{KG2*bBs0@CC)0NygM;RU<G)w~8-MXhNHs$bd-jLE74
zcI!>mS>3Vg#XVctHc)b{jl)*EE|U*o+`Yz<+-OUn&H=~uc_a_&=mz|K;aj+%z6lu>
zH`W5YXo|k@)lHG5%h<zoD>SQ~#(KA<`sipZz=ME@-=)UG`)|CX$9d?ry#xgG_-UYJ
zH@pnDJqh=J74A2N#y00GkpUyz_Q|QgIQ2BzbzlGNgHJzr936ge6Lh8&883n6oOu0T
z!aooH;@r<$H|L*3_;Q3V4bFTOIbQXWNH-HFSXGmV<95G9uu+~>BpLWL^cEo4Mn~e_
z<!?Mb??tXkkXoXO&Hk67dgxtwMUnG+%WAjAD*qn~t9lu>SiOSeDiG~OksEo*20AiV
z!~qtNFbI1MQ_U9bkFXHQ27L8{pV;f*S=;Ym2lPt2M8MYZ?dwp}Y^|CQF}$c!cv)pw
z*u^NkJ2&QQ=-9gp9sAADH85Wm95y|8rCTsVaPhP8aCftDt5xhm#*U2}1vAiO<KRl|
z*f<9n{~)Df9~O$7Zm*N*2xeGlLW_+^(80Zc7G1m0;+|tVXmPU0Syl}&Ft_SpS9?ad
zNw{tM2pG{p+^cxqZVJU9!-&jg-{sh&McwkccCF6!-&mce0q44G9$vD#hA|sf=W<r(
z`afBniy>eadxUYk0DFW%f5rm4OE@<c_6XzbD?`Y5!?s!?LU#5Po=<!WcP`nWxGryh
z7#>z%gE<&Dyz`zt=00-!2Ts87b$f$To5LAV-YkT37E|Ytp!ZhK12Mxoy{*^OMg0>j
zIgo*;e;KeapasBC0=UB!J<VQw%s#k)uEQ%gdzuvhGiUH2PPLwK%x>HwD98$O2L1tn
zkBh9K*(u4IxD4+S@Cqy3qVh^wPlPS!`d#D%=T&bYVeeAk!_@mo{uBxGzs!mCK~}?a
zt%K@DOdYLT3C9qAf?cld3!=jZO5s5SxT}>Tr~dhRY2th(`bG`lE>>;`rKQ!!H`Ypv
zN=dm{YFBFj_YDi+u2v@ID$!F$9Dr;&ejEU9d+%qhpSFHpth7%)jgLKvzgmvJ`e>pY
zzw(O^kozHg&8WR6g@;PvV=!~6|9IuZrC*JdX0KJE@6@JVsic)EAzAKC7d#Tl+yxip
z(%eOiF1p^vsN<@u#?3p78ysgA;kgl?c?5X-JhC(Pr2R;_{m8?&EA1zrPRu-+I9;AN
zZN&NkUmxi-hEB4$)IJ7pE8}MnTaOrr=P<6ndre-#e8LzzZPnvT)~^Et%&)+`aX}_L
zAqxu&7hc5H?9A%ohxeYnvGsdcgXClQv}-^Z1nIta85nzQ&NzPopNL{T#^Hp)j~Ive
zt&TD8@vmbe5A<^E$U~_do347H1h#i*`q6xO@WemOln2jz<A<^>0>tuyIKx6BZ2I8x
z2mg1n?u(Je$3sgo7|VWW%<w+LM$Au|0hO-E8VEdNmfdHqk?{@847_f=zMWQ=A&c-@
z`#zAWo8!3OwG*!Ux8(SaZ-yHzbq?(ih<9{um^)J9U)doL@4U?gxr<zBaBhcSVyA~?
zhfY~pc&_4N_d-udv`nI<*wNC|<qElCkZ8SZvUKcHg}k*Bnc$9>ItG77AZGmi7hPpM
APXGV_

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/qwen3_next.cpython-312.pyc b/transformers_utils/configs/__pycache__/qwen3_next.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1151025eb01fe0ca596b0f6e6137ccee85bb5660
GIT binary patch
literal 13396
zcmd^FOKcoRdhX%-A?isz_z+nlC6ObOGkl1WEL*Z=NtR_VWyw}H00p6^IbED-si%9~
z-NT1M0}5auT4XmbBv>8xu!kJhFcA2XAcq_RED!|9h1xjqps@?=B8NbS08(sVH$e{h
z{;GaV4~GvY+07wix!BcJ{r`Xc@A|9$p{J)y!Ov{@eWU+XMfqpygum9{;j1zpzOU%Y
zf}*GNCNouPT4*XYFEpp9-)y#&S{GWybBozlYF}tiDNPD*f3QCU6#wO&pQU7Pp{q%`
zq3ErjD0&-j`m8y4+pV`1QVV<5+S476hVHCzYj*M$U-ekY*15^@wzXswDvstEw)LDo
zNjLfXZ#&#`G{fThRWa@#HnlbGsNPzctIL{c=wg04<sWfuypm9oBkiVLC>T~DFX@o&
z-k|f<U*X~Rzyhu;q`-zIJ+;uRH!Za2%^<c_ZxR2=zsa`k2R#dIdV3+IcN9`fO?s!^
zRX{7B@m4-{|DbuHy;J$0{-^gmQI=Bro=-X#I-V%2sfErDmGoYJpI{?#QL;z7c2ZHg
z7=Cw)hRg8JEAk|3S>DuKytkR_*$!_o!Cqn-yO)bV&y##|_cQFKM-VG6*XeV^ay`xR
z49(+A6F4`?RLkdWM+fU^K2hS9dEQtu06=pJl@hl+cY^7B$*{yE%#g~UIr*aD@w``Y
zct*g!8DXQDTHTsf46i5<0G3uUJ(sN*rpeX}ZUPl^jgnz%PTfa>Ce35^QXTb^7pC5t
zyfXXNBq4Pwd5_(rrDfywZJKd^yy$sl_hL3%tO#XW((*i$x5YQxeVER43G7mSf%-Fh
z@c|YO0a``w7#>@4>=Hy$Zw<NoOtW;B*DSWkBf-E1JjXT#KO{TtidU|9ZiaopHOQ{W
z1xnq{3lRtl+6Kjv?LaJ06~n?~NlXXT0>%}m;9e9@q;$)6URzXM;}K`$Im7aD6YPv#
zCWF?@GeXc(IN<#B-1Mun=hE@F^!>N#`wAqr29W^>G?BDMEF#0Mk)Cj=(pIIk$Q_!X
z8%s;vfhIx69&(F@A=7{*4lg_0#UM0paV=Uo;i4aCB)+JI?&hSL(c7Y->)hJiGG?aE
zUZ`8dH3NF>V$C7>5*~|a5e#%=d|(uJN?a#P+8x%pbF(u$VV(ch?X6LQeQK~w;ZNNi
z<+W*<w;~Ay>k9xGmXO(9N3&c~7f6X)dAJZKUNNE9JP&dKo75tda%Tdj>y;%YAOgiC
zC{kFi<%=vH5X3=&cSqYpzD6OW!gonqy)bH>FV-4pY6LYPQz)uiv@7sYHRfxS$|fh*
z$Zj}xr3}rzQ{k|PD<Q++h^5COWu;$^_!&W$G+%1KW0+%PPSQcbm$P~JOM|^bo*_cP
z#^>L;lAd73E)Y%UwuV|qIl$hzl4drja8?Z9zH#SD7*aCqw~O40TnViUj%=Abo^<#n
zB6E@i%<@H^e^|C*HxySi0VRGnA!T16<}q+ZxJV&Q!FLvO9Pp)o=XwG!JVl9XR@t^q
zfg6#8_+~o>(g@8A#78klC=}d{K$c-|hn`aBo@SV?q!iwl-NRfrfuyXJxf6#C%~>^;
zGqzL6mi49V%<R-$W_ot!>|6%jG)bHx3?TYiwiidy2`R-O=n*q=voo7LnT7~9p2JeN
z@yEFl*Dxz1xjMIU7wficYZ8p$2%vyuEC=zTVxa>s7Z{b!>x{glt*T|)HH3|G7=cci
zz|Mv~J9GYAy-y`F0M95@O3dXSRp3!LGr3g|VIKk@_6E5_$tV;(#-TZpRgtJ-?}KCm
zS&NAP<EZdb1qxP6rmbxkuBI|mn~fa#3^E{Hb9Ce|%W&T{P9J%Lm4`#uRf}S#sn%d+
z<e;K{sA4Nz5RUlj7<pb3ADogafT+Ao+}nxNX+Aks?<<La_}VZbFOk2=V8{R(;wAcw
zN0NN$#bah+wwi}8B_=JxAhuJXyH17ID-ettwu4CR2-U@NAf~_!k>6Jw>6Vd~dStL!
zVXSWKy|HRi`;c%A_9#*U7l!e^Wv(Uc%HbwoMqUcv#d5H4Y$`H_s|M<MNzfQC&oj8X
zf*e&%DCkZLeOoi#Ems;Xag6de<QKvL$rOwcE>?ppc1EB?kLePd89?&1-AH^2zsytv
z(_PfyWZ`EFTMx655A565YbdBg>E@vdNU+Cq*NlA9AnL%=IP{%zHA*<KN2Bj(@gWS!
z{4k{@ou|=y{Os2IcduV0X|356rj^U)8ngHcBMvay<|U*{=`PLVtJq19*@x-`-v{14
zWKeJ@c>x-i+rj}sgI73Gqr6>0l$GG{b)}50ByES_NQ43=@rFAYb1mi=#i;9o5Cmyr
z0)lo;HcZ3x%SmBkDLL?!+;AN$<uux}fq9k1$z{zkNQ05x3T_c~F3+&5GS9ayks03`
z3;h1r1RIn7nV$4DODh?9dR)^SOALY`M8nubVof31G1Jsa+U(eU3MX)=5nTAsP^MAr
z69h#mitrgphKLno_k+zPEqAlG+G6p)McYb&pX@u5z6(+3dD)Ap%1Ay1iYhUQJV2-p
zc-2tLZdwi3Ub5kHLWL!5!+um_xsZNHU{%IgZfT3A+%3yJ6%ZAnjd&LZB$osh1f^AW
zrXjwFk6|>!{$w(!a0K5rU}yN1x|K?U(e>M{9obx~DP%H2Lxisi6+&`4L{0&ig#o?B
zgGj%uR~+a{!!=`xVucuQu(l{iS3{=%x0FUIdq94;nypj?*)};EszbnEkiJAzG+Y5(
z1^l>Fc1p!6R#eD9j_gqdBih)?OfzyXKoP{+q|r=(ZGmw$L>Z|dswLPTK-;kUhF2qE
zU6dHOOM6;@tN~LO5jen4*ZW2$NU>B(Q~CknKQipL=4d63Jt|S*a_My!?FwZ+Ya*9H
z{mIeFwkcDHaT{>bpjQwpJyXLq0&JNr1$m^%akpda?95gRbxnKaH?vT&RsVG_bh^Ph
zktaA_jfH&6aJ_rNx86@=WLsE$y<{VM--U&c&<VSYaI2_FjlbSdoVn0bZ0V+uugzEB
zaLN9di6xN7lpAEK*abB_7upv3QB9V6WQn06R#7O@jb%fRO)cJYM|K@-+G-}wYyy`f
zw)~$lnUMd#;PHyO<nWJb_`K^JVUrrm#3jQ%OlAY2bBF4}HK4R9w~UmjmdZ$<kfzn9
z!<!YMh^^Rfl1jq2dos%!iXzxjI<^N795AwBu9d90PGx51>Kw#v?&QG^4Vz$?A_W(0
zuHn@w&&E~^R#`MqNE6lcqPC2@S>TMrf9$IwQ&SfWnC;Hn#qD=dBIkvh5Ws?1B50c+
z!X{+stKC|a9h-{gv<DALkuoPi$TF8EBkCFvtRwfKDovxzqn?G0wpro#;_ymD#6(WP
zK-!|VXqc!w)Nbsln5F7QsX_LZ#5yxqzoEY!FILtKTol5?x-+;{Q!Q(-av789uxuH1
zL&xIguE;oBr#$b8PZOnj0%@BSAqBBt2Q3m?oMHvyi3Jgm1F?$Q<*sO%o~f@9CF<^?
z{0o4x<kx_RP1r>$^}mZ>rh=kmxf=??DlUCM_EVqHCv{?*dU&|*;H<6z?yW>XB*cu^
znTSot5VxXgcf9y-Kt@odQC+w=6rPadmUm`EomSq36N^25;ML~s>vGMp+)Fk`QSKWb
zy-e5F0dLm8NZ0}j(3GQ7slxGMylzo*P!^Q0f4vk)RGTOuDNFRO3ffd0obAlzdcPM-
z8vYf2H(F^;<+29RjtJ&9F*e4K;AAa)lrBMi`JqZ47ASTq+-+B(M6wW;LghZ60B_~G
zWjPNK7$SC5Tre;wFWwRVwjr;kL@MDTc@c2qBB897#))olGJ2hg6LL3+>XiuAs8HI8
zyarVjq(T&zqWXnggm|Y_RuP_PKWEx5Y9NM{H!I@g9))piVKq~;@`QngMbr&Qd^AaK
zV(kt%0(jtx>mtVRB`{`likI|eC|^!ZH!x(tktl;YPgq6tkcOCIBt~5_%PMU>)gb(j
z=V*&@4>q3MBPB8C?%l7i$KAAagKGCd@)LkVIAigh2s&NWz)jkbqbwH<d?-BEyv^S-
z?fk=p1jsRoO%Ig{Q7?6+M*^>PzB(Zf;HPMhO=csJPEJ!{6y-{hd&Tbq|D6Djx<syy
z1vxq~;-#{Od@0w!w~BEQrhye_Ryc;nIgd~X;eidWrrIee5*Kes(*<i$%S^JiUV>Cm
zqr_5#V*!ATNBIby3CPeNUV_Nwa^*FzXj@`omoHzIOhIuWJWEDN9T_|}qY=aB>2}IQ
z+`lSH{_=JLK^SE>!}A`}UoD=A)0;Jv?;wr%;!%V+@s?d;@n;gjczPQY(!#{04KldR
z_eQowEx*1LV-!mqPf(P=ekG6dqOh72n0I3Kma7t|a7~3cASOWq;;-NJ5na$yEtGcr
zePvXV;sa*aZ_nE%o!|QHj=e$;>7GY@Qe!h`GL&!A@xGP$i2U+{hC{+-Hy&Ev`YT%w
zh3U(g3=}>Sgfd_*&<zTKawwuEIiphE9)fPKSaQax1cXG;c54ugZZ|E&wk@m}<&gxe
zcrm?+_aV^a><EhADGr_JPK)0Y+;0&FPUr?#K5%O3ao67)St1HH?!$Dmzeh}@d;m9C
z{5FZ!Z=tZ5AE~)L*N*3I{QuS8Hz~@WrM|DMv&T&Z<zwarHvkpoJ15tb@3knn0jQ_e
z_ZX@5kv~uUK`N!Jr`8n}U&-Hk2YSs>uL(VT6O1*Z7v57;)?3hPi^f{fBPzsiy$!vN
zsMn5OXVmLNPuzo~H|t&K5#{2y-i_X#sMmvDPt@CsUU*4RS>K1=zG!SedeIHY^#kY~
zh{g`0cQEXEW8u@f@>#$e@ZbdI^u{9(#>40M@8j3JSHj-9@*tuze5XY4t|@;wng{pu
zP4|x~%EzPLWH@JiRBw8Oj^6wToD1<gO?r!!(p&$y>AQU``0C@)T57y(^tIB6t`G`V
zaR}cXi)Qzt*BA8;qt_qxj-WRX^^T%981;^!cRcF#p*Ixu`q3MXdIRXOs5gk-iKurR
zy+}jXhtM01#)i?uwMh9}XXu>@duv#KO7LJsNw?qf4>dRseok_GPHO4z4|b}N;rM%(
zDyA9VW%^V}pY~f_+}d&c4pp4_tE%4>-;48)ZgGU;cZbG_dkOx5O&b&c07d^`PGFda
z=v73Ey!Ydam$a3x*~j@^!G}1OBiMEKAN)PFR}B14WCZfe-|wPBAr&#q(=dsigR?UK
zaKj>0txuuCjej5}FDR1u9bwtSA>;PD#bRV$;kSzW7=8=o@s42mk$~lhQMI)S|4{J0
zwrGIM!Qz@q&C;os;P(cviCy7**AF4n+ge^7YLF=Tha2t|{ozDh*u0sO(x}^O`Q3yv
zc<JvY?;3An{N6@e3%|EfUhVIz%lFc!{1%G74jGg~mg6vL$W9zG4~MM6A!BgJ${aET
z=QK6ssGP&pkTY`9)SRJ)ypS_N4fz#knwlAEW~n(#%^Wr7s5wu~1!{2NTyZW^^BOg;
zQ*()$%hY7h_-zkYa0}S=Q-<HEs^VI*s=7o{crv}+-^c%PC+n5U*|JfdL>aWey~)+e
z`ByJIJkPVHv6z*KWOms!OWE24Qblpfbh9$&akFunlPRw`<dz;Ci*n1W^7=?<$bW-T
z_fOyse)U*+@oq}lGqBM;QXOJX-v4Pw&v)9NbsT%v@!rPdn;RYP{q5U7>3FZ&fAUGo
zclTAtE<b7cqT^(B;57X`Ry{F8e}|&Kqvxp4s^Q<@vvAtrI1Tqz`$hn5ZwNGed+H*M
zf{Y3JI}iaq#xT3*ryWC2J>dR%h`W2=m)!%;x<UEq*KJDw@Kf*0;kjqSb6@nG`>M5>
z?fpgHxj(w{b+a<|%8#ymp8E9q=XXAR?TgdrpY0#nxHSK4|9rLY+)JAG<k}Z|2EXo5
zI)|R>Uk+uS4Q0OQ$i8S(#x4;VqtRMI@=ji$_a~~SUl-$;dGb6xv1&LYdyD!L(U&2`
z;le@);osrRla_z#82tBtn*=#7r3OE49=tx>l0IQPzSE=_3NiviIRf83g|X)pub)%m
z0TaPZH$!=>D23nY{fisFc=V@l6u$SbfBC~-{@v%7@4j8Y6h(RR<2P@~CuQS};2mB+
zS0H@{VODwm7>#q2n(NeM^aNy>0wm6R^h9ZgcmmY_{Pg8d<`-|jaqCvPi$Vh~X>bY+
zs)`)EV$$;-RsE=<nZZcAs^Wq+O%X}DaFG50+?NYyp&A9a4G!lIpChh6=ed87Zu<~8
zlyg1gx!AHN-j(G$q2zu~U~zel_@$;(&RZbXrBL^#bCu`@_hdt1-2Dp8uRc*;Hr;4y
z?RfD)i*j)2@w?U0vl}CG8!f|-=ILzpR3`X0F;_h^TSYs4v6{U=?Z_)tmPY$>U~hlh
zM$3^GOc^-+^!Sg4H^yJxICinxJGyadZsX9ozaHMWaC76}yVZjyHV%yZP~A8=x3T}+
z%k~!e)qbV7zuJ4O+CNn7AFK`zRR@n(5A{{qDSC6buX^xEb?`*>P(M8njZ}{gR{M`v
z5A;@tS#@x@I&`9Xe7HJ%g1*A@_$vgV_h|L#K=t?t{W~@Y;J>_{`Y_d+eW_4O%a&ZY
zmF{tFqvNw$XA*3kf;&#qwK$Z|%HWlpD<p$GD5^#Xq{0o!5O^>FQVx(l`(5yAR9wP!
zCTE^rv;`d!jt>n%QAbrBl92OlYDjW^$Lmt1E<5+pC6T&spn1`pN~K<oD5+EbqTKzN
za`k7*>7REFJURMh=fJbhfv4~MW9O;IZC|%lnp4@0Bd5Ps=;1}VUD<PdqwDzZwhILR
E1u@YavH$=8

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/radio.cpython-312.pyc b/transformers_utils/configs/__pycache__/radio.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d32d20edecdfc107768e3349f5c4f0a2265913c0
GIT binary patch
literal 4110
zcmb7HU2Gf25#HmE#9v9)k0pxwIm>@yBkNzHBsf-N%XJk*iV@5GAzEBcyd`<n@ks9-
zWy|G*3K)okI%x_th#vYN6h+~}FM3D|6v#uLiUL6k5iwBWP!|STKlmX4UAu75r_Ssh
ze<Zj-a}tL$v$J!vJKyXMKM#ik1Rl-v6ZK`7kbj_1eVQHS`Oks*gj^>INf1R)T$+$|
zC0qjXZq1$bBs>Cf5$gFN_f?&4f77N1g3TqG6_4Uonv`b6_X|(LNBuNFgEVCSr92TZ
zOSzEJu;M=t-%23Sq68DIE^>t^p*utgQ`ZBx<E?GGCDwXdd`DK)oVcYLYEBokIfZIs
zGN-51bb-kx=$@i^Ot9LnGHNne)v0ockAtpR%caw*o{o9c9SHJi2uz<g0Z|E1&=PnV
z^MZmCm4E?iJz&;@wr$)NC~Cp(sfe~duI)sv)wQLXl981)P0Gt=GBYtNO-@c*ov7ZB
z4SGn+jWwC2539Lxrf^jI?Ui+DePwl3T3%U|E`Cp1TUxywbEl`y|9SfC!QU6tH`8DK
zF1Y$=F}?kxzdRWftwk98>3bJn%ukdS(;we_WRCv+U@`sUM^XRvUzZk>5OnS7bGYYw
zz`O^!rz9aj_FamQa4W8aM{(D4srZ$E5~N<*q=Zr-$WgP>LVZdreA=jAIR>A0&~?y&
z(g~j~;E%&tH{?Eme<?T5dFVFaP3d{1HUjp1Jk@)bqy(k+PB;<1OKu5?mTM#ywSpW4
zc3$N-AQ1r(p7o4si12S_=wVEVNli9DpA!u;$LK2zaw$=^p~XEl!fRAqG0|(mpbENB
zb;Fc(Q<Y6xo#Wt8P9}3q0eqnu1i@Vyd74yHD$IpE7qV10jS*3yDOKl&5ULGgnI$u-
zNt0%Q(a`{(y2R4P0_Sjb+)UEtEL{-SfQk?^uGEPYu&x`a9LrK>o7N`c<Y79R9vu;f
zUIoLU*r<5jS)4*m%Cb;25N$o4L#`AR7J=1gh$)uKitoM(m+y|&=BQa2kZh>8A?|gE
z7ddg5Q6r}nuwY}j5Gp4#BDbth<n{A^P2`sKi8nU4qzzRz7R2vlC~OhKe8>u9Kt#2Z
z9q~qiGL=F$HtDt@%DN(M$y$LLjgBN8c2w5X+x%=f>@c6#w#7r^=-Khg{h{N!H#C*Z
z?Yy%OM`nT^rvu9BGc<XdG9H3N^ROJ;K44T0jy?{@jcpDAZg(UUu4{NZ;0-VfD*=xw
zISF;JATEhECjxE&*Ny?=63#F2CRNiJQ_RXHQ<II`l2H|f>Jm7yL(+5lISnu)GZA#^
z7T+r|RnS3zNL8H&N%bV0)~vp|tb9vSvuP*8tMV;1TgciVut9=R<#Psv1zu=&gDO~D
z4Qt{%nx(S7Ag%&+@@KCGQFmlZhTpkzQA}oJU8kB6s|SJwvP@HQK{GixhQ~*z=O(6S
zre|kIMBr!QbCdBI&W_JbPK?K=Vhyu-5QeENh}Ym;P-Lb+d2hk-fKl6s`d<;%YJ`{Q
z;pmP=G&wsrJ2^iyjbTjAPE3tY&dhN>J`<0}Cng$0Vl*w8xlJfjI4TOTaSUq=w5kE+
z4KTx@Luj+S4DZ#akKz31_u2Y4tw0@q=?}jA?cU2j?q5j5I6Rd_%af*BK_zhatyzKk
z*<=Ok^=<{~C2aYsRcW=|*gRZTmcLdSR!jY*h<U5M2Fn_5tw0@sR;Uq0jw3{b<*Vk!
z3e>kF*<#1fDc<uz_&on5^a39XpOB(ZBvQ@5bXD1+fEU*Hp$mZVx|T@pngx+y)PBGQ
zJ@cpN0tp)oTXKU`ZL&zw0}{3l_LvtWe@$uvsn%Q-n?b@z`BU_Pgq@2m`9Xq4&XEEj
z)z)YZ*7QMBtn%hil}ouEIICen^JG<93_frgI9(_P!C!lIq`_b4YxoN__zQu*j;g<6
z7$j($?8khq%DvxOBp-Yingc;4#g<<Q9|{85CNbCAZ%C}0b%7bfHCjOj2Y91c$Miy0
zauoL2XLX=THchy5p%$eKl@-G}rs{abQ3Wq>e)h2A=&>6KHhBz_&3chUkzjAc`jHF(
z0el;F2au$e*DT~UYI!uMD~6lRL?kEB&TAC%lvzGWLIg`vtj+QmR7=_Mf1Otz_1v_1
z6Iuzw@=Fr$Yb43Qz7)@phG*wLZ;hGR{8(PipEI$=G|$~C#OLQW<8(|@H^%bYW+tbP
zZE0F|tf6->B)F6{W6bWUjWK>KjOMr52)yEUXG7mLT3y)$j2NE-`D%w$hDh}EUC+JN
z7a<ZpvDaG)jXVo_{eg0*?O~{o(;-ez+5F?)Q)pdwzIsHE!ew#%uIHhzzZ@9?v86mP
zf?~8hG>zYbRpY*46eIr}jNOlYN<UlQ|G~q-OZS#PirjnqPmzk7_`~;FUib(M_k4Q!
zv+4cU9}X<RaL>K9Kism1!<8l{+`sw4?>CoxJtg1J?(7%7q35t15^KfuVaFv&RzQ;A
zlq+b+ha~AnLDrm+W=T?VNi?yKLA>IvwzscdURzp`F1@vKRa(8gv}Uz7YObv>TW$c2
z<pwxfo{d~iv%D!S2X}1@-psy%1h?D@J6TRr_(>tf1U3d*11t0mHjY-9drq)0j3+?8
zx<j71y1l;2Bx#TAyjcm5=s>x*uN>(wpEy&FoGy!}%BRkjd&P2}SdL#Q&t5K{IQ^`D
z*n9GEXLrR5->@%TJ(XtUe8~Bc3y_ZPN)Wjai4Io6$h8od(TZFfi40VZA=gg&hbkS&
zb>iGE<c^c>-by!eJ)|?T+qLK2D;z{dN*(9+J*AH6N(6^`Nk`AFcek)d4|-lJwU694
zOYKvYC=T_3r`=OOd-Ekm`HTQz2s^&+wb(H>1A-+s;&{|Xu=A_XMm56&+iE{##^KKJ
z^tJ*}Boh8aq>N3XqRA2XY2#7Uq{-$%Z>MMhEm|cB+KHUWZ+k<MSRBXaknp_VscJ`x
zxw3rcZ46yt%OGMB4FgEUEeOKDnuu`r33>eyIrG>bz1#g)f3)O}?tbeF|LL73NXWo=
zxo@o8KT+-*f9CgIa2=4&kCff1J?~!f{?xvE|JuQsxso`45S=d_UwBTuf(x?~KOk-8
X_Sv1*7fs88aPpvi=-&hx9@KvUv&DHk

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/step3_vl.cpython-312.pyc b/transformers_utils/configs/__pycache__/step3_vl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b791d9bf9e2193c3d29c972c5d9383be58f930ff
GIT binary patch
literal 4707
zcmcIn&2JmW6`$qzr@r|ik|HTll0{3FQrnU3)K2Xhb_+XJ0>sEchiq2dm9+74NzX1F
z$)F1rbsHH?3j}Bo_2vRT#PubY0zLFU=*5B!bg}TkKvEQQTSE$L^wjre`6b!CwL|W2
z-+MbdJ0EX;@6F%i@d$yU`F^XO8YbjBRNBSg681g@;cFrjS<pyTSQZ47J({QLUG@sZ
zLw-hN?_DDM6z?Oi`_8hDTm4`S^jQ7e8U$;o#~RoSmm>^cEDN^xg1!m2fe)x+Qc2Yn
z`C?69Ro5zR!!EYILiSFB{yFqbA<KeHmOZkt><yFGf3kO*tO~N{Zg|<ZO*VvO|A(aP
zv(q1%O8vw~s-f2OOM0ayE7bj(J!0S!@fLq1D(<sNw5Jm|JE-q{3-FcjHE9Y>B6cb?
zJ)j9~wdn=T)6smOwZ}l3e$afKX93XKGf$c!&;p%jLC}I7EdpAoqlG~Ww>2}-mhQ!x
z<acuf)=nkO=mX*RuzH*1p=aqKDaY*Sx+=?xE*k1>#U503Q=wHwRwYw$O+&SYS#Ox)
zfogiA+BRs?ra}#S7)_FCD!K_XDXuG$Y}he0R@Nn5S2V+p)FrdB?zS3HtI}HQ3w^u^
zQLoXesMMie>r+z2wEae-u24H9imI-fqF9dGK10z~Db72MA;b~-5c&}Y5QY#25k?Te
zt%)7D@tH)|3_C1}6-_b>Q8e(?Vo%xn_xlTGwZ2eS>&Hx}teD3(8mG>jzHv%f(A1TM
z`lh*F(-&@OT6F<jQ#V$j&oFwiVXB(3P~mQBEVLX)o3C%uBz)rb_<wV<`S!SQIK~RV
zt1aT>NbbnC?`bG)jUUH*-kLax_d-W6Euvnuax-`zwK9|2zAyUQxBMJhvn};mD1I-v
z8%pnnCUzE|geLajE2JDz3Am9;U<y?NbH;uGR)&+u&@EL9T$SOh+L4<LwQ@sTQ?$mv
zUaWt&{g+qYzgrIAlIT)Z5k)&9iq)Fj&`^$v;?0JnwV!}p(L{3-)(|Jcj<@E%qG*~Z
zJ{0IESPk4G=V=CzqN8&_uQrYYyt+%Q!6RE&oDfOCK=W3%U}bVvE^j50)-e1N)^Nc}
zWnZS!{?ZEqK(p;e4lqU;tXTH`25^`$WY3zg?0cOx-ei$8z;k}t4_5%LAY381!f-|4
ziYfs)2KP8zeQ@=IKA;4ZkP=??;CN;4ZJ2s_5S|UeH4N7XTnQy2CzU8jsaCzT>|LGV
ztTlQ!z8vGM6$jSJ+Wp+2t}7d6i>xB9&zWGcM>-EL*XTv5VMyA0*Oq#A4DJ(q<lu%~
zqqRoe;QPpqR;3NmP;QEvqT7*MwTiUj?%Eiw8r^-GsMZwNmWK(WAI;dfvH{C(!iGbG
zS*wdT><F#ZL0(r($&PW^s7RWsuh~ibX1!*poIaH5iXzKsA28M>s<he?WwmNYUCT|b
zgpg>sH01IJ|EBnvqOPr*Ht&i{P(a{~>bxC*n9`tn1!<vOIy62Hj`)A0aU||8jU%ad
zX&i~WOXEoD9U5;&LE`}$yW0dR7ds)S83zqHke6m3Xvk=;)(;x)UsoFd4VT^320_EE
z?rKAzAy>NEFlb1hyqHJY(!B%(kq=ryWTYKLDE70QIOJOtf=!E(kD)Y=uz>Iu!jBMe
zYts`5ClTI8SVTC5fI*#}L3jrNLm4NKa+0P{?y^7U{Qvd$()bNdO~_h30ir8zxqQXx
z-OVAoyRpOSN8xSb&j85kpLkxQ^)`)9o<_nR@6da88ufIW&)Y0N^$waRtin9rbJpkt
zuzug+TGMCoX~`<Sh4(S5-B`K^wd0*o(rV=UL(zegXL(p9ISdRxhahks`p=M}**OG4
z1fnjy6bK#XD(oc2mo*QnTKrRxEYb5I(hH~)aBBu{kjv%M3^N>tyN%&SVCer0-JYQr
zF?4c<3(L@@84v3Pl=u>lp@d$_&^Z}KbcUOlp>Hr;28N!&aOoH>9m9CSFcdHt3Sqnf
z>?7li7E$6Om_Vt7Fo`gQFpYq|&t?$H2)LMR76ILjp=UGnY{otNrzoLkGxThRp3Ts+
z8G1HD&t~Y^3_Y8nXEXF{_G5r@AH_aU>;uI<Q0#*pmuO{OHI)hwmSWgmU|QS1s?{XZ
z_Q@*bMqb0D6oa+xTdCDF+iy1Nnj2^-4uIkSdV?ztgCgKl;|i<_53XZdSFFVB<B_?o
zYY=2}MQeQ8Dot6FQ`UIN$`-9m(aKL)Q)R0#ZjENF+=MlM+?t-Xijx?N(^;!D<9N=@
zMP8I;!C!iwNIQNMoB+ucoFErNBtPzixfmgZ2`9?M7*>dLv5zE2oqjG35NKhLi$f%p
zbB4J%LW(6P!NnxWj5#STrpZXk8RcSzBr;Bxi#d|Y?wq*q-8ucGe&5_p&N^e<o+smz
zPJxR>lFd8gT%5p9m$*1dhLg?|7pKYCxO0SyGbB^kG45a7+4y6@;bU|@_K-;5OA!tm
zm~$YyNe52ufuy6&$9tc^lfy|zH@T1_vR8qmf+q$Zjy})>J-S~BLb?%xbR#H-WX~$3
z18|%PLt+r-i9rMsgQy*MGtKu}X+g+M3vOvkcD!|vag$U#im8IwQnC#l&OL@H>9Sa-
zwNJt4YE%UGQf0;N>snS+$*}v})ZMJzfK!7iQ*_}9Zs>OD#M3$OFgKoVMNN?1@~Cyc
zBj{NZ-Itf9V0I2bk0AHNLVMoghZh0k&K-dtv$}73p!Kl(1|gl+JqKF%ys`DpTfB7-
zZ{5R>Z8!#A__3`sx+Wgmkhk1to=*qba`z53kkokL2fNN!dX8j}4RnrVfrHUB#`9l0
z0_RR0m!zW5CNxHWg@6u5?;`vf;Wr4#ne=mnZk!Ccagx7ts5-CNjd0l4R#@weX~_eQ
z)QM<+fZE1a02tARNNn_RwD>G{@=0#--nD1()K2_?`7}NUmfhT?Z|?wXU$e%JVj#*q
zk0u{S^UpHnCz;uMSFv*R!S$!{qhQ(1oc`u2!1mR4w0b^!8DE;Q+Gm;U^gpu4ceDIF
zlx|z!9K8HXOY~jn;&oNn7hqGoiCx_(#dUS3^fpSrK)_J)X8QakK0){rF2e-i^qJ*n
zlMBKn!Fv0QH9Kb&N>+aIMLYvsn94rRFYcxm|2ndpI_LPo1gx0M?7Y95nEgiHO&oWE
zXbX|)vJ*xrLPp1&C`vIhnscxbX8^fo5Tq9bz$F^&#!@+G2jFZ4X|fvzioIvjd3SF&
zsKhgBenO?V#oRL%cO*U{jJs~57%}b8S@$saF8u;j0WJdrm*W)#;fDYbQvW39_5)d=
i^tiCFPvE|Pc3l81IlWI%*#F2o2I|P<4+QSK;r{^28ct^b

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/__pycache__/ultravox.cpython-312.pyc b/transformers_utils/configs/__pycache__/ultravox.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8452666b4e9c5f226415a09729f8cde9fe4bb3d5
GIT binary patch
literal 4685
zcmbstNo*U}_0Mn-#a*&?Y8lD4LfRH(OR?q1Mq1U53@5E(q_zvtaYiG~r!>-VhM5^^
z0|Tgli^@n-#D~^O(Sr^>sBjOx^xk8EUPQ}<*g*=oNDs}8u52La#eMG&NiCKapkL<9
zdw+TRd;g998VdOd4AuR)Qf?&V8$_zZQvr5<0Kk1B6PZ&<mP>IQ!o13-c%ED#vg;0!
z-ISm8RuAsJAGjPi<zC_wo^KIJaJFkqTbfAk?joeMg6up6;OD@Mk`yPC6n_Jlrd-rL
z%f#G!gb?bL`HL_myHa(sJLQu-srq_y*q_`Y*HJ$W&|rpd#}nS=I(YgHnX9LP$|~%y
zKmi((gYXN%FATp34a-qjZJ?1%%PPrma^sy)D$1ZEcYLV^+9)?2E^~&LoA0<ER1`@a
zStW~Hs_Dlh(Q1cpsFoqk>x-9kEu&0Je*$~@1sK<76jOkI)(jQWY%Om{mZEDyT9r(g
z*9Ftk4SL81JtIhr#;wUJ^>N(*2C{+#B=ri_s6%Y>c2c-%A)mZSWhAO-rX^{XB3V?B
zG)AUMM9AtgRRt-X)(u(Frg1xpXXa>H$tZAMGN$ucs#)eKL8ci+W1C<HJIH8BMtVlE
zXxhpfH0ftkj^<VE^r=}`1=Y0~YABYFG4!l(Yx0^w!A^=sWoP^3ZIDhD(vl`j(W>x_
z92m<obd^cw2(0I=T;4L1!bemB9YG#hPcu0kgT9mnqnFVQkRJ@KXaHu}k&5JF#<V%g
zHlfF)ysYRVum?X1@yQz+*!tF3-qIb3!6ZuBx;=SH5Kibh#}OwIyT_5lr9AjF>rkqA
zT>$oYFj?bc(M9V`*u0d>^;$>?j<p4d7&Hq~7N(^1+?1|?cTgf6j$+J~q9TK8re%N{
zucYr-{_5o_X-4A^+Dw`MkMv8VR;D%Zny6?pT?CmG&Dtk3i%==ALa0F)51cuD`hYLc
zN)8S1Jkr2GKr5*_q+celrO}56tz_wQRC`0F!$YSJ<?7gqQL3;838|Kb>|+8r>p4h_
z+@7$2v`x>687U1_;kEjnKcMUw#xA7Af@VtDoQio{p;Xm63#L-QQIaYEXUtLE*i{}(
zodvBSU*nS*RhM36>(j}%4{&FuhQo@aD$7nz&P!^Z?wVX$qK1G>YCCp$*TfM)_d}v{
zzo#er%mrmy&G$_nA_Ndn<|{>^;$Ww?Of50XzuE}9f~cC9WtlRi>*_1QZgN~wO?pt0
zpUhB*GYB?aka9V7Nl;%@Uyv+EB1M)}TFJ6n#$wjiq`?YO*-bS$Dcq!n36X0G^Wcf(
z8CFN9sH!jQI}Z1OP!aExFqOA(_gS`An$qW4$rUEA8+khEc*1U4FhE)=i%vE>b<p-f
z*s%L;x&C5-1#aQp@d-P~z)BUf1A9uE9d?$gHNg(;D-m{ZZ(iFC&gMN?X9s4$B#?uq
zvP|vZ-mI|eYhh}KYUaVHv7@`F<GXZlPuqb#P5^#8cQ`_R#oZ?bPl1TF4FxY?u;PqD
z9bkM7^8r@rhX^Uu1Lm%+`2nl;Tci*Gtkz8x+<-y5;*5fOWw^jEawg9ag?z?a4b_!d
z=-&>G0zcb)a1I(DPUas}<YMiRTOkGhcib;I;Dp+-QE&lP)4kwY8I{St8LlP;_Zlg<
zmq_7yK?<%SMW`x;)m4S=h6>~h==WrlHi-K;vP2S|3ES^Ph_#fXwntT^tYp_MK+}|?
z#_vfYYM>GZQZ&N&h~OiN544?uW;0N0I|%WqnRvBBUfAJFA5M&4y(0c-?Ao=f6IX24
zH1r+l6$5)w!-pq4W*(T>K9N;CQA~tww@K9uTQ%xyo00q*h+%u@7NBu5?RrsUy`3nU
zC^9B-ZLIwF!$B*X8_X%W0Sk6hYhW=y^3M6W5jv<UQ-irBYev@w=T$X3xK|-DZz-xd
z=wzcgSk1;{Zpr8b9?Pva_Vu61s!qeOX#N`>->r~xH|a{Ox*z%4OT9z*?tUEW$9G$)
zGw#f{_pQ2r5iWI|K(wPIoW^%o*-N@lIx~T`&45tqIR3EX<VNG_2VckE-i}`?#xIqk
zvHOvGk@eul^j7rT6BnNdKOuag>v1&p!~^fu%a4M`%YM=`fOKM|K>KE(x762<^F5{5
zTMuIc8$+u<{8~7*EnFxH7fR92?Wj<U3hSL4OIy)*fMPFF?CpLW?F5Rw-FUL=sgKl$
z@75K4ZAD+-+PN)X-wx<X(zQ$l1oIT}onOO)Wj!Zzb8+x#TY>*+i_FU|{4)B?#SxxB
z-te;f51wjlL(bG{fYw>yWG_3}3MZRid$J~lh4IG5U8o0NKvoyHLM@Bo1EOw%1+js=
z;2X;iaZxF%<A63;1~inSL9@C=VP2*ziW6SD8v`ZzVxT0QKrxO2Jtyo@0wV?wI{<M>
zEy=PB2zifzDQdgs=#uSWm$h@I2WCyIX&AXHh5(S!50B-J7XqzD>=RfwZ^8p(ElPrs
zF9#n6de`Y@|HwarWB-f~{qgKy-g^}PX!Y{ng2zjt=w{QghoNH|&6|l)To+Dkoc;5A
zkA(M`Xa5yxy1P(}^sNtXc(x+RO<&UJ1=6+`J|Oajmaf%lm_(~F51#`7sydm4_rWn+
z^TzJVg9->9;3g70vy>e{<L|l25*)LUi5vyT5?C8vu*9AtpTfF{#Tg9YC()+uNW2({
zZ%57-Bj>jwqno}_rc5F*0Ymxi^XJduHXv{%Kw<k9JvIHCuW<bRd$!kUbH)?RSg159
zOGVN4i+DTdRfL10_-S5JD=T%P2p>hFXtV(pJ9_YQ%Z`Ymq-i?1A6p05*M$25d#+zQ
zte6mE*_>{&&rI8mpDnfvJ{Al#q3wbe-1e~U&~{^E#3~Sr4%-L!FVs|PiIq<~RH=k%
zs;UrdoWa5h4f%b?kQiYGKCmjAkb&g8pOGhgug6y&=Sb|W?T(RR$H<m@q|^{wdB4=y
zwemr!xnpIb>?4E2rGYc0<B8I-c&Sq;_4b!yJ*CdBQmnhwbsW$q?FrA($1NRe!|SfK
z^Y^rMtJrd~?14!rXE1$q&0LG$`(#}%HlHZh;k1vmcdp4_`OEc)`AJ)B?fSjtasaU)
zY3(S75DJsdo^k}CC~0XgHz3rAt49!OB2De(W`tVce7O~&HWKT3hSEH}$u)Qe%l*U~
zF7s~Bg|&~jyGDy$qyHg*?6_e1DNeK4U{*<ZY%g4l(8e><Gp8CuRht?3A1}^k0U+CV
v(FuxojduY>E1SLWD7!e0d*&xx>o?@cQ?JT#7ry*>yLqVCJoJnp#z_1RokjT}

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/afmoe.py b/transformers_utils/configs/afmoe.py
new file mode 100644
index 0000000..9b634fd
--- /dev/null
+++ b/transformers_utils/configs/afmoe.py
@@ -0,0 +1,84 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class AfmoeConfig(PretrainedConfig):
+    model_type = "afmoe"
+
+    def __init__(
+        self,
+        vocab_size: int = 200_192,
+        hidden_size: int = 2048,
+        intermediate_size: int = 6144,
+        moe_intermediate_size: int = 1408,
+        num_hidden_layers: int = 32,
+        num_dense_layers: int = 1,
+        num_attention_heads: int = 16,
+        num_key_value_heads: int | None = None,
+        head_dim: int = 128,
+        hidden_act: str = "silu",
+        max_position_embeddings: int = 131072,
+        initializer_range: float = 0.02,
+        rms_norm_eps: float = 1e-5,
+        use_cache: bool = True,
+        tie_word_embeddings: bool = False,
+        rope_theta: float = 10000.0,
+        rope_scaling: dict | None = None,
+        num_experts: int = 64,
+        num_experts_per_tok: int = 6,
+        num_shared_experts: int = 2,
+        num_expert_groups: int = 1,
+        num_limited_groups: int = 1,
+        score_func: str = "sigmoid",
+        route_norm: bool = True,
+        route_scale: float = 1.0,
+        global_attn_every_n_layers: int = 4,
+        sliding_window: int = 2048,
+        layer_types: list[str] | None = None,
+        attention_dropout: float = 0.0,
+        mup_enabled: bool = False,
+        n_group: int = 1,
+        topk_group: int = 1,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_dense_layers = num_dense_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads or num_attention_heads
+        self.head_dim = head_dim
+        self.hidden_act = hidden_act
+        self.max_position_embeddings = max_position_embeddings
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+
+        self.moe_intermediate_size = moe_intermediate_size
+        self.num_experts = num_experts
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_shared_experts = num_shared_experts
+        self.num_expert_groups = num_expert_groups
+        self.num_limited_groups = num_limited_groups
+        self.score_func = score_func
+        self.route_norm = route_norm
+        self.route_scale = route_scale
+
+        self.global_attn_every_n_layers = global_attn_every_n_layers
+        self.sliding_window = sliding_window
+        self.layer_types = layer_types
+        self.attention_dropout = attention_dropout
+
+        self.mup_enabled = mup_enabled
+        self.n_group = n_group
+        self.topk_group = topk_group
+
+        super().__init__(tie_word_embeddings=tie_word_embeddings, **kwargs)
+
+
+__all__ = ["AfmoeConfig"]
diff --git a/transformers_utils/configs/arctic.py b/transformers_utils/configs/arctic.py
new file mode 100644
index 0000000..1707e15
--- /dev/null
+++ b/transformers_utils/configs/arctic.py
@@ -0,0 +1,206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# ruff: noqa: E501
+# coding=utf-8
+# Copied from
+# https://huggingface.co/Snowflake/snowflake-arctic-instruct/blob/main/configuration_arctic.py
+"""Arctic model configuration"""
+
+from dataclasses import asdict, dataclass
+from typing import Any
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+ARCTIC_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "arctic": "https://huggingface.co/Snowflake/snowflake-arctic-instruct/tree/main/config.json",
+}
+
+
+@dataclass
+class ArcticLoRAConfig:
+    lora_r: int = 64
+    lora_alpha: float = 16
+    shard_base_weights: bool = False
+
+
+@dataclass
+class ArcticQuantizationConfig:
+    q_bits: int = 8
+    rounding: str = "nearest"
+    mantissa_bits: int = 3
+    group_size: int = 128
+
+
+class ArcticConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`ArcticModel`]. It is used to instantiate an
+    Arctic model according to the specified arguments, defining the model architecture. Instantiating a configuration
+    with the defaults will yield a similar configuration to that of the #TODO(rsamdani): add what model has the default config..
+
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 32000):
+            Vocabulary size of the Arctic model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`ArcticModel`]
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 14336):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer encoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        num_key_value_heads (`int`, *optional*, defaults to 8):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to `8`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to `4096*32`):
+            The maximum sequence length that this model might ever be used with. Arctic's sliding window attention
+            allows sequence of up to 4096*32 tokens.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        pad_token_id (`int`, *optional*):
+            The id of the padding token.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            The id of the "beginning-of-sequence" token.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            The id of the "end-of-sequence" token.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether the model's input and output word embeddings should be tied.
+        rope_theta (`float`, *optional*, defaults to 1000000.0):
+            The base period of the RoPE embeddings.
+        sliding_window (`int`, *optional*):
+            Sliding window attention window size. If not specified, will default to `4096`.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        num_experts_per_tok (`int`, *optional*, defaults to 2):
+            The number of experts to root per-token, can be also interpreted as the `top-p` routing
+            parameter
+        num_local_experts (`int`, *optional*, defaults to 8):
+            Number of experts per Sparse MLP layer.
+        router_aux_loss_coef (`float`, *optional*, defaults to 0.001):
+            The aux loss factor for the total loss.
+
+    ```python
+    >>> from transformers import ArcticModel, ArcticConfig
+
+    >>> # Initializing a Arctic 7B style configuration TODO(rsamdani): verify which model does the default configuration correspond to.
+    >>> configuration = ArcticConfig()
+
+    >>> # Initializing a model from the Arctic 7B style configuration
+    >>> model = ArcticModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "arctic"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32000,
+        hidden_size=4096,
+        intermediate_size=14336,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        max_position_embeddings=4096,
+        initializer_range=0.02,
+        rms_norm_eps=1e-5,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=1,
+        eos_token_id=2,
+        tie_word_embeddings=False,
+        rope_theta=1e6,
+        sliding_window=None,
+        attention_dropout=0.0,
+        num_experts_per_tok=1,
+        num_local_experts=8,
+        router_aux_loss_coef=0.001,
+        moe_layer_frequency=2,
+        parallel_attn_mlp_res=False,
+        moe_train_capacity_factor=1,
+        moe_eval_capacity_factor=1,
+        enable_expert_tensor_parallelism=False,
+        moe_min_capacity=0,
+        moe_token_dropping=True,
+        quantization=None,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.sliding_window = sliding_window
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.attention_dropout = attention_dropout
+
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_local_experts = num_local_experts
+        self.router_aux_loss_coef = router_aux_loss_coef
+        self.moe_layer_frequency = moe_layer_frequency
+        self.moe_train_capacity_factor = moe_train_capacity_factor
+        self.moe_eval_capacity_factor = moe_eval_capacity_factor
+        self.enable_expert_tensor_parallelism = enable_expert_tensor_parallelism
+        self.moe_min_capacity = moe_min_capacity
+        self.moe_token_dropping = moe_token_dropping
+        self.parallel_attn_mlp_res = parallel_attn_mlp_res
+        if isinstance(quantization, dict):
+            self.quantization = ArcticQuantizationConfig(**quantization)
+        else:
+            self.quantization = quantization
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    @classmethod
+    def from_dict(cls, config_dict: dict[str, Any], **kwargs) -> "ArcticConfig":
+        result = super().from_dict(config_dict, **kwargs)
+        config = result[0] if isinstance(result, tuple) else result
+        if isinstance(config.quantization, dict):
+            config.quantization = ArcticQuantizationConfig(**config.quantization)
+        return result
+
+    def to_dict(self) -> dict[str, Any]:
+        ret = super().to_dict()
+        if isinstance(ret["quantization"], ArcticQuantizationConfig):
+            ret["quantization"] = asdict(ret["quantization"])
+        return ret
diff --git a/transformers_utils/configs/chatglm.py b/transformers_utils/configs/chatglm.py
new file mode 100644
index 0000000..1d795b5
--- /dev/null
+++ b/transformers_utils/configs/chatglm.py
@@ -0,0 +1,75 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://github.com/zai-org/ChatGLM2-6B
+from transformers import PretrainedConfig
+
+
+class ChatGLMConfig(PretrainedConfig):
+    model_type = "chatglm"
+    attribute_map = {
+        "num_hidden_layers": "num_layers",
+        "n_head_kv": "multi_query_group_num",
+    }
+
+    def __init__(
+        self,
+        num_layers=28,
+        padded_vocab_size=65024,
+        hidden_size=4096,
+        ffn_hidden_size=13696,
+        kv_channels=128,
+        num_attention_heads=32,
+        seq_length=2048,
+        hidden_dropout=0.0,
+        attention_dropout=0.0,
+        layernorm_epsilon=1e-5,
+        rmsnorm=True,
+        apply_residual_connection_post_layernorm=False,
+        post_layer_norm=True,
+        add_bias_linear=False,
+        add_qkv_bias=False,
+        interleaved_qkv=False,
+        bias_dropout_fusion=True,
+        multi_query_attention=False,
+        multi_query_group_num=1,
+        apply_query_key_layer_scaling=True,
+        attention_softmax_in_fp32=True,
+        fp32_residual_connection=False,
+        quantization_bit=0,
+        pre_seq_len=None,
+        prefix_projection=False,
+        **kwargs,
+    ):
+        self.num_layers = num_layers
+        self.vocab_size = padded_vocab_size
+        self.padded_vocab_size = padded_vocab_size
+        self.hidden_size = hidden_size
+        self.ffn_hidden_size = ffn_hidden_size
+        self.kv_channels = kv_channels
+        self.num_attention_heads = num_attention_heads
+        self.seq_length = seq_length
+        # It is to be compatible with long lora.
+        self.max_position_embeddings = seq_length
+        self.hidden_dropout = hidden_dropout
+        self.attention_dropout = attention_dropout
+        self.layernorm_epsilon = layernorm_epsilon
+        self.rmsnorm = rmsnorm
+        self.apply_residual_connection_post_layernorm = (
+            apply_residual_connection_post_layernorm
+        )
+        self.post_layer_norm = post_layer_norm
+        self.add_bias_linear = add_bias_linear
+        self.add_qkv_bias = add_qkv_bias
+        self.bias_dropout_fusion = bias_dropout_fusion
+        self.multi_query_attention = multi_query_attention
+        self.multi_query_group_num = multi_query_group_num
+        self.apply_query_key_layer_scaling = apply_query_key_layer_scaling
+        self.attention_softmax_in_fp32 = attention_softmax_in_fp32
+        self.fp32_residual_connection = fp32_residual_connection
+        self.quantization_bit = quantization_bit
+        self.pre_seq_len = pre_seq_len
+        self.prefix_projection = prefix_projection
+        self.interleaved_qkv = interleaved_qkv
+        super().__init__(**kwargs)
diff --git a/transformers_utils/configs/deepseek_vl2.py b/transformers_utils/configs/deepseek_vl2.py
new file mode 100644
index 0000000..8b02a4d
--- /dev/null
+++ b/transformers_utils/configs/deepseek_vl2.py
@@ -0,0 +1,126 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# adapted from https://github.com/deepseek-ai/DeepSeek-VL2/blob/faf18023f24b962b32d9f0a2d89e402a8d383a78/deepseek_vl2/models/modeling_deepseek_vl_v2.py#L115-L268
+
+from transformers import DeepseekV2Config, PretrainedConfig
+
+
+class VisionEncoderConfig(PretrainedConfig):
+    model_type: str = "vision"
+
+    model_name: str = "vit_so400m_patch14_siglip_384.webli"
+    image_size: int = 384
+    patch_size: int = 16
+    width: int = 1024
+    layers: int = 24
+    heads: int = 16
+    mlp_ratio: int = 4
+    global_pool: str = "map"
+    ignore_head: bool = True
+    class_token: bool = False
+    num_classes: int = 0
+    use_checkpoint: bool = False
+    weight_init: str = "skip"
+    deterministic: bool = False
+    num_recomputing_layers: int = 0
+
+    def __init__(
+        self,
+        model_name: str = "vit_so400m_patch14_siglip_384.webli",
+        image_size: int = 384,
+        patch_size: int = 16,
+        width: int = 1024,
+        layers: int = 24,
+        heads: int = 16,
+        mlp_ratio: int = 4,
+        global_pool: str = "map",
+        ignore_head: bool = True,
+        class_token: bool = False,
+        num_classes: int = 0,
+        use_checkpoint: bool = False,
+        **kwargs,
+    ):
+        self.model_name = model_name
+        self.image_size = image_size
+        self.patch_size = patch_size
+        self.width = width
+        self.layers = layers
+        self.heads = heads
+        self.mlp_ratio = mlp_ratio
+        self.global_pool = global_pool
+        self.ignore_head = ignore_head
+        self.class_token = class_token
+        self.num_classes = num_classes
+        self.use_checkpoint = use_checkpoint
+
+        super().__init__(**kwargs)
+
+
+class MlpProjectorConfig(PretrainedConfig):
+    model_type = "mlp_projector"
+    projector_type: str = "downsample_mlp_gelu"
+    input_dim: int = 1152
+    n_embed: int = 2048
+    depth: int = 2
+    mlp_ratio: int = 1
+    downsample_ratio: int = 2
+    token_pooling: bool = False
+
+    def __init__(
+        self,
+        projector_type: str = "downsample_mlp_gelu",
+        input_dim: int = 1152,
+        n_embed: int = 2048,
+        depth: int = 2,
+        mlp_ratio: int = 1,
+        downsample_ratio: int = 2,
+        **kwargs,
+    ):
+        self.projector_type = projector_type
+        self.input_dim = input_dim
+        self.n_embed = n_embed
+        self.depth = depth
+        self.mlp_ratio = mlp_ratio
+        self.downsample_ratio = downsample_ratio
+
+        super().__init__(**kwargs)
+
+
+class DeepseekVLV2Config(PretrainedConfig):
+    model_type = "deepseek_vl_v2"
+    vision_config: VisionEncoderConfig
+    projector_config: MlpProjectorConfig
+
+    tile_tag: str = "2D"
+    global_view_pos: str = "head"
+    candidate_resolutions: tuple[tuple[int, int]] = ((384, 384),)
+
+    def __init__(
+        self,
+        tile_tag: str = "tile_tag",
+        global_view_pos: str = "head",
+        candidate_resolutions: tuple[tuple[int, int]] = ((384, 384),),
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+
+        vision_config = kwargs.get("vision_config", {})
+        self.vision_config = VisionEncoderConfig(**vision_config)
+
+        projector_config = kwargs.get("projector_config", {})
+        self.projector_config = MlpProjectorConfig(**projector_config)
+
+        language_config = kwargs.get("language_config", {})
+        self.text_config = DeepseekV2Config(**language_config)
+
+        self.tile_tag = tile_tag
+        self.global_view_pos = global_view_pos
+        self.candidate_resolutions = candidate_resolutions
+        self.vocab_size = self.text_config.vocab_size
+
+        # update model_type for OCR model
+        if "DeepseekOCRForCausalLM" in (
+            self.architectures or kwargs.get("architectures", [])
+        ):
+            self.model_type = "deepseek_ocr"
diff --git a/transformers_utils/configs/dotsocr.py b/transformers_utils/configs/dotsocr.py
new file mode 100644
index 0000000..1e42cb2
--- /dev/null
+++ b/transformers_utils/configs/dotsocr.py
@@ -0,0 +1,71 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.models.qwen2 import Qwen2Config
+
+
+class DotsVisionConfig(PretrainedConfig):
+    model_type: str = "dots_vit"
+
+    def __init__(
+        self,
+        embed_dim: int = 1536,  # vision encoder embed size
+        hidden_size: int = 1536,  # after merger hidden size
+        intermediate_size: int = 4224,
+        num_hidden_layers: int = 42,
+        num_attention_heads: int = 12,
+        num_channels: int = 3,
+        patch_size: int = 14,
+        spatial_merge_size: int = 2,
+        temporal_patch_size: int = 1,
+        rms_norm_eps: float = 1e-5,
+        use_bias: bool = False,
+        attn_implementation="flash_attention_2",
+        initializer_range=0.02,
+        init_merger_std=0.02,
+        is_causal=False,  # ve causal forward
+        post_norm=True,
+        gradient_checkpointing=False,
+        **kwargs: Any,
+    ):
+        super().__init__(**kwargs)
+        self.embed_dim = embed_dim
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.spatial_merge_size = spatial_merge_size
+        self.temporal_patch_size = temporal_patch_size
+        self.rms_norm_eps = rms_norm_eps
+        self.use_bias = use_bias
+        self.attn_implementation = attn_implementation
+        self.initializer_range = initializer_range
+        self.init_merger_std = init_merger_std
+        self.is_causal = is_causal
+        self.post_norm = post_norm
+        self.gradient_checkpointing = gradient_checkpointing
+
+
+class DotsOCRConfig(Qwen2Config):
+    model_type = "dots_ocr"
+
+    def __init__(
+        self,
+        image_token_id=151665,
+        video_token_id=151656,
+        vision_config: dict | None = None,
+        *args,
+        **kwargs,
+    ):
+        super().__init__(*args, **kwargs)
+        self.image_token_id = image_token_id
+        self.video_token_id = video_token_id
+        self.vision_config = DotsVisionConfig(**(vision_config or {}))
+
+    def save_pretrained(self, save_directory, **kwargs):
+        self._auto_class = None
+        super().save_pretrained(save_directory, **kwargs)
diff --git a/transformers_utils/configs/eagle.py b/transformers_utils/configs/eagle.py
new file mode 100644
index 0000000..f5dc9dd
--- /dev/null
+++ b/transformers_utils/configs/eagle.py
@@ -0,0 +1,84 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+
+from transformers import AutoConfig, DeepseekV2Config, PretrainedConfig
+
+
+class EAGLEConfig(PretrainedConfig):
+    model_type = "eagle"
+
+    def __init__(
+        self,
+        model: PretrainedConfig | dict | None = None,
+        truncated_vocab_size: int | None = None,
+        method: str | None = "eagle",
+        **kwargs,
+    ):
+        model_config: PretrainedConfig | DeepseekV2Config | None
+        if isinstance(model, dict):
+            model_config = AutoConfig.for_model(**model)
+        else:
+            model_config = model
+
+        for k, v in kwargs.items():
+            if k != "architectures" and k != "model_type" and hasattr(model_config, k):
+                setattr(model_config, k, v)
+
+        self.model = model_config
+
+        if self.model is None:
+            self.truncated_vocab_size = None
+        else:
+            self.truncated_vocab_size = (
+                self.model.vocab_size
+                if truncated_vocab_size is None
+                else truncated_vocab_size
+            )
+
+        # Eagle model name should follow naming convention of
+        # LlamaForCausalLM -> EagleLlamaForCausalLM
+        # LlamaForCausalLM -> Eagle3LlamaForCausalLM
+        # LlamaForCausalLMEagle3 -> LlamaForCausalLMEagle3
+        if method == "eagle":
+            assert self.model is not None, (
+                "model should not be None when method is eagle"
+            )
+            kwargs["architectures"] = [
+                f"Eagle{arch}" if not arch.startswith("Eagle") else arch
+                for arch in self.model.architectures
+            ]
+
+        elif method == "eagle3":
+            assert self.model is not None, (
+                "model should not be None when method is eagle3"
+            )
+            kwargs["architectures"] = [
+                arch
+                if arch.startswith("Eagle3") or arch.endswith("Eagle3")
+                else f"Eagle3{arch}"
+                for arch in self.model.architectures
+            ]
+        else:
+            raise ValueError(
+                f"Invalid method {method}. Supported methods are eagle and eagle3."
+            )
+
+        super().__init__(**kwargs)
+
+        if self.model is not None:
+            for k, v in self.model.to_dict().items():
+                if k not in kwargs:
+                    setattr(self, k, v)
+
+    @classmethod
+    def from_pretrained(
+        cls,
+        pretrained_model_name_or_path: str | os.PathLike,
+        **kwargs,
+    ) -> "EAGLEConfig":
+        config_dict, kwargs = cls.get_config_dict(
+            pretrained_model_name_or_path, **kwargs
+        )
+        return cls.from_dict(config_dict, **kwargs)
diff --git a/transformers_utils/configs/falcon.py b/transformers_utils/configs/falcon.py
new file mode 100644
index 0000000..c646d24
--- /dev/null
+++ b/transformers_utils/configs/falcon.py
@@ -0,0 +1,89 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from
+# https://huggingface.co/tiiuae/falcon-7b/blob/main/configuration_RW.py
+# Copyright 2023 The vLLM team.
+# Copyright 2022 the Big Science Workshop and HuggingFace Inc. team.
+# All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Falcon configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class RWConfig(PretrainedConfig):
+    model_type = "falcon"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "num_hidden_layers": "n_layer",
+        "num_attention_heads": "n_head",
+        "num_kv_heads": "n_head_kv",
+    }
+
+    def __init__(
+        self,
+        vocab_size=250880,
+        hidden_size=64,
+        n_layer=2,
+        n_head=8,
+        layer_norm_epsilon=1e-5,
+        initializer_range=0.02,
+        use_cache=True,
+        bos_token_id=1,
+        eos_token_id=2,
+        hidden_dropout=0.0,
+        attention_dropout=0.0,
+        multi_query=True,
+        n_head_kv=None,
+        alibi=False,
+        bias=False,
+        parallel_attn=False,
+        new_decoder_architecture=False,
+        **kwargs,
+    ) -> None:
+        self.vocab_size = vocab_size
+        # Backward compatibility with n_embed kwarg
+        n_embed = kwargs.pop("n_embed", None)
+        self.hidden_size = hidden_size if n_embed is None else n_embed
+        self.n_layer = n_layer
+        self.n_head = n_head
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.initializer_range = initializer_range
+        self.use_cache = use_cache
+        self.hidden_dropout = hidden_dropout
+        self.attention_dropout = attention_dropout
+
+        self.bos_token_id = bos_token_id
+        self.eos_token_id = eos_token_id
+        self.multi_query = multi_query
+        self.n_head_kv = 1 if n_head_kv is None else n_head_kv
+        self.alibi = alibi
+        self.bias = bias
+        self.parallel_attn = parallel_attn
+        self.new_decoder_architecture = new_decoder_architecture
+
+        if self.hidden_size == 8192:
+            # Hack for falcon-40b
+            self.new_decoder_architecture = True
+
+        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
+
+    @property
+    def head_dim(self):
+        return self.hidden_size // self.n_head
+
+    @property
+    def rotary(self):
+        return not self.alibi
diff --git a/transformers_utils/configs/flex_olmo.py b/transformers_utils/configs/flex_olmo.py
new file mode 100644
index 0000000..1f2f4d4
--- /dev/null
+++ b/transformers_utils/configs/flex_olmo.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class FlexOlmoConfig(PretrainedConfig):
+    model_type = "flex_olmo"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=100352,
+        hidden_size=4096,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        max_position_embeddings=4096,
+        initializer_range=0.02,
+        rms_norm_eps=1e-06,
+        use_cache=True,
+        pad_token_id=100277,
+        bos_token_id=None,
+        eos_token_id=100257,
+        tie_word_embeddings=False,
+        rope_theta=500000.0,
+        rope_scaling=None,
+        attention_bias=False,
+        attention_dropout=0.0,
+        num_experts_per_tok=5,
+        num_experts=7,
+        output_router_logits=False,
+        router_aux_loss_coef=0.01,
+        norm_topk_prob=False,
+        **kwargs,
+    ):
+        if "architectures" not in kwargs:
+            kwargs["architectures"] = ["FlexOlmoForCausalLM"]
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_experts = num_experts
+        self.output_router_logits = output_router_logits
+        self.router_aux_loss_coef = router_aux_loss_coef
+        self.norm_topk_prob = norm_topk_prob
+        # Validate the correctness of rotary position embeddings parameters
+        # BC: if there is a 'type' field, move it to 'rope_type'.
+        if self.rope_scaling is not None and "type" in self.rope_scaling:
+            self.rope_scaling["rope_type"] = self.rope_scaling["type"]
diff --git a/transformers_utils/configs/jais.py b/transformers_utils/configs/jais.py
new file mode 100644
index 0000000..6b581bf
--- /dev/null
+++ b/transformers_utils/configs/jais.py
@@ -0,0 +1,243 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2023 The OpenAI Team Authors and HuggingFace Inc. team.
+# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+# Copyright 2023 Cerebras Systems.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""JAIS configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+
+class JAISConfig(PretrainedConfig):
+    """
+    This is the configuration class to store the configuration of a
+    [`JAISModel`]. It is used to instantiate a JAIS model according to the
+    specified arguments, defining the model architecture.
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used
+    to control the model outputs. Read the documentation from
+    [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 50257):
+            Vocabulary size of the JAIS model. Defines the number of different
+            tokens that can be represented by the
+            `inputs_ids` passed when calling [`JAISModel`].
+        n_positions (`int`, *optional*, defaults to 1024):
+            The maximum sequence length that this model might ever be used
+            with. Typically set this to something large just in case
+            (e.g., 512 or 1024 or 2048).
+        n_embd (`int`, *optional*, defaults to 768):
+            Dimensionality of the embeddings and hidden states.
+        n_layer (`int`, *optional*, defaults to 12):
+            Number of hidden layers in the Transformer encoder.
+        n_head (`int`, *optional*, defaults to 12):
+            Number of attention heads for each attention layer in the
+            Transformer encoder.
+        n_inner (`int`, *optional*, defaults to None):
+            Dimensionality of the inner feed-forward layers. `None` will set
+            it to 4 times n_embd
+        activation_function (`str`, *optional*, defaults to `"gelu"`):
+            Activation function, to be selected in the list
+            `["relu", "silu", "gelu", "tanh", "gelu_new", "swiglu"]`.
+        resid_pdrop (`float`, *optional*, defaults to 0.1):
+            The dropout probability for all fully connected layers in
+            the embeddings, encoder, and pooler.
+        embd_pdrop (`float`, *optional*, defaults to 0.1):
+            The dropout ratio for the embeddings.
+        attn_pdrop (`float`, *optional*, defaults to 0.1):
+            The dropout ratio for the attention.
+        layer_norm_epsilon (`float`, *optional*, defaults to 1e-5):
+            The epsilon to use in the layer normalization layers.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for
+            initializing all weight matrices.
+        scale_attn_weights (`bool`, *optional*, defaults to `True`):
+            Scale attention weights by dividing by sqrt(hidden_size)..
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values
+            attentions (not used by all models).
+        scale_attn_by_inverse_layer_idx (`bool`, *optional*, default `True`):
+            Whether to additionally scale attention weights
+            by `1 / layer_idx + 1`.
+        reorder_and_upcast_attn (`bool`, *optional*, defaults to `False`):
+            Whether to scale keys (K) prior to computing attention
+            (dot-product)
+            and upcast attention dot-product/softmax to float() when training
+            with mixed precision.
+        position_embedding_type (`str`, *optional*, defaults to `"learned"`):
+            Positional embedding can be either `"alibi"` or `"learned"`.
+        mup_width_scale (`float`, *optional*, defaults to 1.0):
+            muP parameter to scale learning rate and initializers. Calculated
+            as (`d_model,0 / d_model`), where
+            `d_model` is the model's width and `d_model,0` is the proxy
+            model's width.
+        mup_embeddings_scale (`float`, *optional*, defaults to 1.0):
+            muP parameter to scale token and position embeddings.
+        mup_output_alpha (`float`, *optional*, defaults to 1.0):
+            muP parameter to scale output logits
+            (`output_logits_scale = mup_output_alpha * mup_width_scale`).
+        mup_scale_qk_dot_by_d (`bool`, *optional*, defaults to `False`):
+            Scale attention weights by dividing by hidden_size instead of
+            sqrt(hidden_size). Need to set scale_attn_weights to `True` as
+            well.
+        alibi_scaling (`dict`, *optional*):
+            Dictionary containing the scaling configuration for ALiBi
+            embeddings. Currently only supports linear
+            scaling strategy. Can specify either the scaling `factor` (must be
+            a float greater than 1) for fixed scaling
+            or `train_seq_len` for dynamic scaling on input samples with
+            sequence length > `train_seq_len`. The expected
+            formats are `{"type": strategy name, "factor": scaling factor}` or
+            `{"type": strategy name,
+            "train_seq_len": training sequence length}`.
+        architectures (`list`, *optional*, defaults to ['JAISLMHeadModel']):
+            architecture names for Jais.
+
+    Example:
+
+    ```python
+    >>> from transformers import JAISConfig, JAISModel
+
+    >>> # Initializing a JAIS configuration
+    >>> configuration = JAISConfig()
+
+    >>> # Initializing a model (with random weights) from the configuration
+    >>> model = JAISModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "jais"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "hidden_size": "n_embd",
+        "max_position_embeddings": "n_positions",
+        "num_attention_heads": "n_head",
+        "num_hidden_layers": "n_layer",
+    }
+
+    def __init__(
+        self,
+        vocab_size=50257,
+        n_positions=1024,
+        n_embd=768,
+        n_layer=12,
+        n_head=12,
+        n_inner=None,
+        activation_function="gelu_new",
+        resid_pdrop=0.1,
+        embd_pdrop=0.1,
+        attn_pdrop=0.1,
+        layer_norm_epsilon=1e-5,
+        initializer_range=0.02,
+        scale_attn_weights=True,
+        use_cache=True,
+        bos_token_id=50256,
+        eos_token_id=50256,
+        scale_attn_by_inverse_layer_idx=False,
+        reorder_and_upcast_attn=False,
+        position_embedding_type="learned",
+        mup_width_scale=1.0,
+        mup_embeddings_scale=1.0,
+        mup_output_alpha=1.0,
+        mup_scale_qk_dot_by_d=False,
+        alibi_scaling=None,
+        architectures=None,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.n_positions = n_positions
+        self.n_embd = n_embd
+        self.n_layer = n_layer
+        self.n_head = n_head
+        self.n_inner = n_inner
+        self.activation_function = activation_function
+        self.resid_pdrop = resid_pdrop
+        self.embd_pdrop = embd_pdrop
+        self.attn_pdrop = attn_pdrop
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.initializer_range = initializer_range
+        self.scale_attn_weights = scale_attn_weights
+        self.use_cache = use_cache
+        self.scale_attn_by_inverse_layer_idx = scale_attn_by_inverse_layer_idx
+        self.reorder_and_upcast_attn = reorder_and_upcast_attn
+
+        self.bos_token_id = bos_token_id
+        self.eos_token_id = eos_token_id
+
+        self.position_embedding_type = position_embedding_type
+        self.mup_width_scale = mup_width_scale
+        self.mup_embeddings_scale = mup_embeddings_scale
+        self.mup_output_alpha = mup_output_alpha
+        self.mup_scale_qk_dot_by_d = mup_scale_qk_dot_by_d
+
+        self.alibi_scaling = alibi_scaling
+        self._alibi_scaling_validation()
+        if architectures is None:
+            architectures = ["JAISLMHeadModel"]
+
+        super().__init__(
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            architectures=architectures,
+            **kwargs,
+        )
+
+    def _alibi_scaling_validation(self):
+        """
+        Validate the `alibi_scaling` configuration.
+        """
+        if self.alibi_scaling is None:
+            return
+
+        if not isinstance(self.alibi_scaling, dict) or len(self.alibi_scaling) != 2:
+            raise ValueError(
+                "`alibi_scaling` must be a dictionary with two fields, "
+                "`type` and `factor` or `type` and `train_seq_len`, "
+                f"got {self.alibi_scaling}"
+            )
+        alibi_scaling_type = self.alibi_scaling.get("type", None)
+        alibi_scaling_factor = self.alibi_scaling.get("factor", None)
+        alibi_dynamic_scaling = self.alibi_scaling.get("train_seq_len", None)
+        if alibi_scaling_type is None or alibi_scaling_type != "linear":
+            raise ValueError(
+                f"`alibi_scaling`'s type field must be 'linear', "
+                f"got {alibi_scaling_type}"
+            )
+        if (
+            alibi_scaling_factor is not None
+            and not isinstance(alibi_scaling_factor, float)
+            or (alibi_scaling_factor is not None and alibi_scaling_factor <= 1.0)
+        ):
+            raise ValueError(
+                f"`alibi_scaling`'s factor field must be a float > 1.0, "
+                f"got {alibi_scaling_factor}"
+            )
+        if (
+            alibi_dynamic_scaling is not None
+            and not isinstance(alibi_dynamic_scaling, int)
+            or (alibi_dynamic_scaling is not None and alibi_dynamic_scaling <= 1)
+        ):
+            raise ValueError(
+                f"`alibi_scaling`'s `train_seq_len` field must be an "
+                f"integer > 1, got {alibi_dynamic_scaling}"
+            )
diff --git a/transformers_utils/configs/kimi_linear.py b/transformers_utils/configs/kimi_linear.py
new file mode 100644
index 0000000..65ddf48
--- /dev/null
+++ b/transformers_utils/configs/kimi_linear.py
@@ -0,0 +1,144 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class KimiLinearConfig(PretrainedConfig):
+    model_type = "kimi_linear"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        model_type="kimi_linear",
+        vocab_size=163840,
+        hidden_size=4096,
+        head_dim=None,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        pad_token_id=0,
+        bos_token_id=1,
+        eos_token_id=2,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        tie_word_embeddings=False,
+        moe_intermediate_size: int | None = None,
+        moe_renormalize: bool = True,
+        moe_router_activation_func: str = "sigmoid",
+        num_experts: int | None = None,
+        num_experts_per_token: int | None = None,
+        num_shared_experts: int = 0,
+        routed_scaling_factor: float = 1.0,
+        first_k_dense_replace: int = 0,
+        moe_layer_freq: int = 1,
+        use_grouped_topk: bool = True,
+        num_expert_group: int = 1,
+        topk_group: int = 1,
+        q_lora_rank: int | None = None,
+        kv_lora_rank: int | None = None,
+        qk_nope_head_dim: int | None = None,
+        qk_rope_head_dim: int | None = None,
+        v_head_dim: int | None = None,
+        mla_use_nope: bool | None = False,
+        num_nextn_predict_layers: int = 0,
+        linear_attn_config: dict | None = None,
+        **kwargs,
+    ):
+        self.model_type = model_type
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.head_dim = (
+            head_dim if head_dim is not None else hidden_size // num_attention_heads
+        )
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.mla_use_nope = mla_use_nope
+        # moe config
+        self.num_experts = num_experts
+        self.num_experts_per_token = num_experts_per_token
+        self.moe_renormalize = moe_renormalize
+        self.num_shared_experts = num_shared_experts
+        self.routed_scaling_factor = routed_scaling_factor
+        self.moe_router_activation_func = moe_router_activation_func
+        assert self.moe_router_activation_func in ("softmax", "sigmoid")
+        self.moe_intermediate_size = moe_intermediate_size
+        self.first_k_dense_replace = first_k_dense_replace
+        self.moe_layer_freq = moe_layer_freq
+        self.use_grouped_topk = use_grouped_topk
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.num_nextn_predict_layers = num_nextn_predict_layers
+
+        if linear_attn_config is not None:
+            assert linear_attn_config["kda_layers"] is not None
+            assert linear_attn_config["full_attn_layers"] is not None
+        self.linear_attn_config = linear_attn_config
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    @property
+    def is_mla(self):
+        return (
+            self.q_lora_rank is not None
+            or self.kv_lora_rank is not None
+            or self.qk_nope_head_dim is not None
+            or self.qk_rope_head_dim is not None
+            or self.v_head_dim is not None
+            or self.mla_use_nope is True
+        )
+
+    @property
+    def is_moe(self):
+        return self.num_experts is not None
+
+    @property
+    def is_linear_attn(self) -> bool:
+        return not (
+            self.linear_attn_config is None
+            or (
+                isinstance(self.linear_attn_config, dict)
+                and self.linear_attn_config["kda_layers"] is not None
+                and len(self.linear_attn_config["kda_layers"]) == 0
+            )
+        )
+
+    def is_kda_layer(self, layer_idx: int):
+        return (
+            self.linear_attn_config is not None
+            and (layer_idx + 1) in self.linear_attn_config["kda_layers"]
+        )
diff --git a/transformers_utils/configs/kimi_vl.py b/transformers_utils/configs/kimi_vl.py
new file mode 100644
index 0000000..6d99246
--- /dev/null
+++ b/transformers_utils/configs/kimi_vl.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/blob/main/configuration_kimi_vl.py
+
+from transformers import DeepseekV2Config
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.transformers_utils.configs.moonvit import MoonViTConfig
+
+
+class KimiVLConfig(PretrainedConfig):
+    model_type = "kimi_vl"
+
+    def __init__(
+        self,
+        vision_config: dict | MoonViTConfig | None = None,
+        text_config: dict | DeepseekV2Config | None = None,
+        ignore_index: int = -100,
+        media_placeholder_token_id: int = 163605,
+        pad_token_id: int = 0,
+        **kwargs,
+    ):
+        if vision_config is None:
+            vision_config = MoonViTConfig()
+        elif isinstance(vision_config, dict):
+            vision_config = MoonViTConfig(**vision_config)
+        self.vision_config = vision_config
+
+        if text_config is None:
+            text_config = DeepseekV2Config()
+        elif isinstance(text_config, dict):
+            text_config = DeepseekV2Config(**text_config)
+        self.text_config = text_config
+
+        self.ignore_index = ignore_index
+        self.media_placeholder_token_id = media_placeholder_token_id
+
+        super().__init__(pad_token_id=pad_token_id, **kwargs)
diff --git a/transformers_utils/configs/lfm2_moe.py b/transformers_utils/configs/lfm2_moe.py
new file mode 100644
index 0000000..37c038e
--- /dev/null
+++ b/transformers_utils/configs/lfm2_moe.py
@@ -0,0 +1,159 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class Lfm2MoeConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`Lfm2MoeModel`]. It is used to instantiate a LFM2 Moe
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the LFM2-8B-A1B model.
+    e.g. [LiquidAI/LFM2-8B-A1B](https://huggingface.co/LiquidAI/LFM2-8B-A1B)
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 65536):
+            Vocabulary size of the LLaMA model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`Lfm2Model`]
+        hidden_size (`int`, *optional*, defaults to 2048):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 7168):
+            Dimension of the MLP representations.
+        moe_intermediate_size (`int`, *optional*, defaults to 1792):
+            Intermediate size of the routed expert.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        pad_token_id (`int`, *optional*, defaults to 0):
+            Padding token id.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            Beginning of stream token id.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            End of stream token id.
+        tie_word_embeddings (`bool`, *optional*, defaults to `True`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 1000000.0):
+            The base period of the RoPE embeddings.
+        max_position_embeddings (`int`, *optional*, defaults to 128000):
+            The maximum sequence length that this model might ever be used with.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon used by the rms normalization layers.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer decoder.
+        num_key_value_heads (`int`, *optional*, defaults to 8):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1` the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details, check out [this
+            paper](https://huggingface.co/papers/2305.13245). If it is not specified, will default to
+            `num_attention_heads`.
+        conv_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in the conv layers.
+        conv_L_cache (`int`, *optional*, defaults to 3):
+            L_cache dim in the conv layers.
+        num_dense_layers (`int`, *optional*, defaults to 2):
+            Number of dense Lfm2MoeMLP layers in shallow layers(embed->dense->dense->...->dense->moe->moe...->lm_head).
+        num_experts_per_tok (`int`, *optional*, defaults to 4):
+            Number of selected experts.
+        num_experts (`int`, *optional*, defaults to 32):
+            Number of routed experts.
+        use_expert_bias (`bool`, *optional*, defaults to `True`):
+            Whether to use the expert bias on the routing weights.
+        routed_scaling_factor (`float`, *optional*, defaults to 1.0):
+            Scaling factor for routed experts in MoE models.
+        norm_topk_prob (`bool`, *optional*, defaults to `True`):
+            Whether to normalize the topk probabilities.
+        layer_types (`Optional`, *optional*):
+            Type of each layers.
+
+    ```python
+    >>> from transformers import Lfm2MoeModel, Lfm2MoeConfig
+
+    >>> # Initializing a LFM2 Moe model
+    >>> configuration = Lfm2MoeConfig()
+
+    >>> # Initializing a model from the LFM2-8B-A1B style configuration
+    >>> model = Lfm2MoeModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""  # noqa: E501
+
+    model_type = "lfm2_moe"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size: int = 65536,
+        hidden_size: int = 2048,
+        intermediate_size: int = 7168,
+        moe_intermediate_size: int = 1792,
+        num_hidden_layers: int = 32,
+        pad_token_id: int = 0,
+        bos_token_id: int = 1,
+        eos_token_id: int = 2,
+        tie_word_embeddings: bool = True,
+        rope_theta: float = 1000000.0,
+        max_position_embeddings: int = 128_000,
+        use_cache: bool = True,
+        norm_eps: float = 0.00001,
+        num_attention_heads: int = 32,
+        num_key_value_heads: int = 8,
+        conv_bias: bool = False,
+        conv_L_cache: int = 3,
+        num_dense_layers: int = 2,
+        num_experts_per_tok: int = 4,
+        num_experts: int = 32,
+        use_expert_bias: bool = True,
+        routed_scaling_factor: float = 1.0,
+        norm_topk_prob: bool = True,
+        layer_types: list[str] | None = None,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.use_cache = use_cache
+        self.norm_eps = norm_eps
+
+        # attn operator config
+        self.num_attention_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
+
+        # custom operator config
+        self.conv_bias = conv_bias
+        self.conv_L_cache = conv_L_cache
+
+        # moe config
+        self.num_dense_layers = num_dense_layers
+        self.moe_intermediate_size = moe_intermediate_size
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_experts = num_experts
+        self.use_expert_bias = use_expert_bias
+        self.routed_scaling_factor = routed_scaling_factor
+        self.norm_topk_prob = norm_topk_prob
+        self.layer_types = layer_types
+
+        tie_word_embeddings = kwargs.get(
+            "tie_embedding", tie_word_embeddings
+        )  # to fit original config keys
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+
+__all__ = ["Lfm2MoeConfig"]
diff --git a/transformers_utils/configs/medusa.py b/transformers_utils/configs/medusa.py
new file mode 100644
index 0000000..bfa0f30
--- /dev/null
+++ b/transformers_utils/configs/medusa.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+
+from transformers import PretrainedConfig
+
+
+class MedusaConfig(PretrainedConfig):
+    model_type = "medusa"
+
+    def __init__(
+        self,
+        hidden_size: int = 4096,
+        vocab_size: int = 32001,
+        num_heads: int = 5,
+        num_hidden_layers: int = 1,
+        max_paths: int = 64,
+        topk: int = 10,
+        truncated_vocab_size: int | None = None,
+        **kwargs,
+    ):
+        self.hidden_size = hidden_size
+        self.vocab_size = vocab_size
+        self.num_heads = num_heads
+        self.num_hidden_layers = num_hidden_layers
+        self.max_paths = max_paths
+        self.topk = topk
+        self.max_seq_len = int(2**20)
+        self.truncated_vocab_size = (
+            vocab_size if truncated_vocab_size is None else truncated_vocab_size
+        )
+        if "architectures" not in kwargs:
+            kwargs["architectures"] = ["MedusaModel"]
+
+        super().__init__(**kwargs)
+
+    @classmethod
+    def from_pretrained(
+        cls,
+        pretrained_model_name_or_path: str | os.PathLike,
+        **kwargs,
+    ) -> "MedusaConfig":
+        config_dict, kwargs = cls.get_config_dict(
+            pretrained_model_name_or_path, **kwargs
+        )
+        for k in list(config_dict.keys()):
+            if "num" in k:
+                if "heads" in k:
+                    config_dict["num_heads"] = config_dict.pop(k)
+                elif "layers" in k:
+                    config_dict["num_hidden_layers"] = config_dict.pop(k)
+        return cls.from_dict(config_dict, **kwargs)
+
+    @property
+    def num_attention_heads(self):
+        return 0
+
+    @property
+    def num_lookahead_tokens(self):
+        return self.num_heads
+
+    @num_lookahead_tokens.setter
+    def num_lookahead_tokens(self, num_lookahead_tokens: int):
+        self.num_heads = num_lookahead_tokens
diff --git a/transformers_utils/configs/midashenglm.py b/transformers_utils/configs/midashenglm.py
new file mode 100644
index 0000000..e49bd26
--- /dev/null
+++ b/transformers_utils/configs/midashenglm.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 Horizon team, Xiaomi MiLM Plus.
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from transformers import PretrainedConfig
+from transformers.models.qwen2_5_omni.configuration_qwen2_5_omni import (
+    Qwen2_5OmniTextConfig,
+)
+
+
+class DashengConfig(PretrainedConfig):
+    model_type = "midashenglm_dasheng_encoder"
+
+    def __init__(
+        self,
+        embed_dim: int = 768,
+        outputdim: int = 527,
+        patch_size: int | tuple[int, int] = 16,
+        patch_stride: int | tuple[int, int] = 16,
+        input_channels: int = 1,
+        target_length: int = 1012,
+        depth: int = 12,
+        num_heads: int = 12,
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = True,
+        init_values: float | None = None,
+        drop_rate: float = 0.0,
+        attn_drop_rate: float = 0.0,
+        f_min: float = 0.0,
+        f_max: float = 8000.0,
+        center: bool = True,
+        win_length: int = 512,
+        hop_length: int = 160,
+        sample_rate: int = 16000,
+        n_fft: int = 512,
+        n_mels: int = 64,
+        **kwargs,
+    ):
+        self.embed_dim = embed_dim
+        self.outputdim = outputdim
+        self.patch_size = patch_size
+        self.patch_stride = patch_stride
+        self.input_channels = input_channels
+        self.target_length = target_length
+        self.depth = depth
+        self.num_heads = num_heads
+        self.mlp_ratio = mlp_ratio
+        self.qkv_bias = qkv_bias
+        self.init_values = init_values
+        self.drop_rate = drop_rate
+        self.attn_drop_rate = attn_drop_rate
+        self.f_min = f_min
+        self.f_max = f_max
+        self.center = center
+        self.win_length = win_length
+        self.hop_length = hop_length
+        self.sample_rate = sample_rate
+        self.n_fft = n_fft
+        self.n_mels = n_mels
+        super().__init__(**kwargs)
+
+
+class MiDashengLMConfig(PretrainedConfig):
+    model_type = "midashenglm"
+
+    def __init__(
+        self,
+        audio_encoder_config: dict | None = None,
+        subsample_factor: int = 5,
+        text_config: dict | None = None,
+        audio_token_id: int | None = None,
+        **kwargs,
+    ):
+        self.audio_encoder_config = DashengConfig(**(audio_encoder_config or {}))
+        self.subsample_factor = subsample_factor
+        self.text_config = (
+            Qwen2_5OmniTextConfig(**text_config)
+            if text_config
+            else Qwen2_5OmniTextConfig()
+        )
+        self.text_config.rope_scaling = None  # uses_mrope is false
+        self.audio_token_id = audio_token_id
+        super().__init__(**kwargs)
diff --git a/transformers_utils/configs/mistral.py b/transformers_utils/configs/mistral.py
new file mode 100644
index 0000000..c6f04fe
--- /dev/null
+++ b/transformers_utils/configs/mistral.py
@@ -0,0 +1,174 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+from transformers import PretrainedConfig, WhisperConfig
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def adapt_config_dict(config_dict: dict[str, Any], **kwargs) -> PretrainedConfig:
+    config_dict.update(kwargs)
+    config_dict = _remap_general_mistral_args(config_dict)
+
+    if bool(config_dict.get("quantization")):
+        config_dict = _remap_mistral_quantization_args(config_dict)
+
+    if bool(config_dict.get("moe")):
+        config_dict["architectures"] = ["MixtralForCausalLM"]
+    else:
+        config_dict["architectures"] = ["MistralForCausalLM"]
+
+    if bool(config_dict.get("yarn")):
+        config_dict = _remap_mistral_yarn_args(config_dict)
+
+    if bool(config_dict.get("llama_4_scaling")):
+        llama_4_scaling_config_keys = ["original_max_position_embeddings", "beta"]
+        assert all(
+            [
+                key in config_dict["llama_4_scaling"]
+                for key in llama_4_scaling_config_keys
+            ]
+        ), (
+            "llama_4_scaling config should define the keys: "
+            f"{','.join(llama_4_scaling_config_keys)}"
+        )
+
+    is_vision = (config_dict.get("multimodal") or {}).get(
+        "vision_encoder_args"
+    ) or config_dict.get("vision_encoder")
+    is_audio = bool(
+        ((config_dict.get("multimodal") or {}).get("whisper_model_args") or {}).get(
+            "encoder_args"
+        )
+    )
+
+    assert not (is_vision and is_audio), "Vision and audio are mutually exclusive"
+
+    if is_vision:
+        config_dict = _remap_mistral_vision_args(config_dict)
+    if is_audio:
+        config_dict = _remap_mistral_audio_args(config_dict)
+
+    config = PretrainedConfig.from_dict(config_dict)
+
+    logger.debug("Initialized config %s", config)
+
+    return config
+
+
+def _remap_mistral_vision_args(config: dict) -> dict:
+    if config.get("multimodal"):
+        vision_config = config.pop("multimodal")
+    else:
+        vision_config = config.pop("vision_encoder")
+
+    quant_config = config.get("quantization_config")
+    config = {
+        "model_type": "pixtral",
+        "architectures": ["PixtralForConditionalGeneration"],
+        "text_config": PretrainedConfig.from_dict(config),
+        "vision_config": PretrainedConfig.from_dict(vision_config),
+    }
+    if quant_config:
+        config["quantization_config"] = quant_config
+    return config
+
+
+def _remap_mistral_yarn_args(config: dict) -> dict:
+    yarn_config_map = {
+        "factor": "factor",
+        "original_max_position_embeddings": "original_max_position_embeddings",
+        "beta": "beta_fast",
+        "alpha": "beta_slow",
+        "apply_scale": "apply_yarn_scaling",
+    }
+    yarn_config = config.get("yarn") or {}
+    config["rope_scaling"] = {
+        "rope_type": "yarn",
+        "mscale_all_dim": 1,
+    }
+    for old_name, new_name in yarn_config_map.items():
+        if old_name in yarn_config:
+            config["rope_scaling"][new_name] = yarn_config.pop(old_name)
+
+    assert len(yarn_config) == 0, f"Unparsed yarn config: {yarn_config}"
+
+    return config
+
+
+def _remap_general_mistral_args(config: dict) -> dict:
+    # Mistral key -> HF key
+    config_mapping = {
+        "dim": "hidden_size",
+        "norm_eps": "rms_norm_eps",
+        "n_kv_heads": "num_key_value_heads",
+        "n_layers": "num_hidden_layers",
+        "n_heads": "num_attention_heads",
+        "hidden_dim": "intermediate_size",
+    }
+    # HF key -> (Mistral key, default value)
+    top_level_mapping_with_default = {
+        "model_type": ("model_type", "transformer"),
+        "hidden_act": ("activation", "silu"),
+        "tie_word_embeddings": ("tied_embeddings", False),
+        "max_seq_len": ("max_seq_len", 128_000),
+        "max_position_embeddings": ("max_position_embeddings", 128_000),
+    }
+
+    for key, new_key in config_mapping.items():
+        if key in config:
+            config[new_key] = config.pop(key)
+
+    for new_key, (key, default_value) in top_level_mapping_with_default.items():
+        config[new_key] = config.pop(key, default_value)
+
+    return config
+
+
+def _remap_mistral_quantization_args(config: dict) -> dict:
+    quantization = config.get("quantization", {})
+    if quantization.get("qformat_weight") == "fp8_e4m3":
+        # This maps to the FP8 static per-tensor quantization scheme
+        quantization_config = {"quant_method": "fp8", "activation_scheme": "static"}
+    elif quantization.get("quant_method") == "compressed-tensors":
+        # Pass through the quantization config to compressed-tensors
+        quantization_config = quantization
+    else:
+        raise ValueError(f"Found unknown quantization='{quantization}' in config")
+
+    config["quantization_config"] = quantization_config
+
+    return config
+
+
+def _remap_mistral_audio_args(config: dict) -> dict:
+    whisper_args = config["multimodal"].pop("whisper_model_args")
+    encoder_args = whisper_args["encoder_args"]
+    downsample_args = whisper_args["downsample_args"]
+
+    quant_config = config.get("quantization_config")
+    config = {
+        "model_type": "whixtral",
+        "architectures": ["VoxtralForConditionalGeneration"],
+        "text_config": PretrainedConfig.from_dict(config),
+        "audio_config": WhisperConfig(
+            num_mel_bins=encoder_args["audio_encoding_args"]["num_mel_bins"],
+            window_size=encoder_args["audio_encoding_args"]["window_size"],
+            sampling_rate=encoder_args["audio_encoding_args"]["sampling_rate"],
+            hop_length=encoder_args["audio_encoding_args"]["hop_length"],
+            downsample_factor=downsample_args["downsample_factor"],
+            d_model=encoder_args["dim"],
+            encoder_layers=encoder_args["n_layers"],
+            encoder_ffn_dim=encoder_args["hidden_dim"],
+            encoder_attention_heads=encoder_args["n_heads"],
+            vocab_size=encoder_args["vocab_size"],
+            max_source_positions=encoder_args["max_source_positions"],
+            is_encoder_decoder=False,  # Override WhisperConfig default
+        ),
+    }
+    if quant_config:
+        config["quantization_config"] = quant_config
+    return config
diff --git a/transformers_utils/configs/mlp_speculator.py b/transformers_utils/configs/mlp_speculator.py
new file mode 100644
index 0000000..75745f2
--- /dev/null
+++ b/transformers_utils/configs/mlp_speculator.py
@@ -0,0 +1,69 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from transformers import PretrainedConfig
+
+
+class MLPSpeculatorConfig(PretrainedConfig):
+    model_type = "mlp_speculator"
+
+    attribute_map = {
+        "hidden_size": "emb_dim",
+    }
+
+    def __init__(
+        self,
+        vocab_size: int = 32000,
+        emb_dim: int = 4096,
+        inner_dim: int = 0,
+        n_predict: int = 3,
+        top_k_tokens_per_head: list[int] | None = None,
+        n_candidates: int = 5,
+        tie_weights: bool = False,
+        scale_input: bool = False,
+        **kwargs,
+    ):
+        """
+        Initialize an MLPSpeculatorConfig
+
+        Args:
+            vocab_size: int
+                the model vocab size
+            emb_dim: int
+                the model embedding dimension
+            inner_dim: int
+                the inner dimension of the model. If 0, will be the emb_dim.
+            n_predict: int
+                the number of lookaheads for the speculator
+            top_k_tokens_per_head: list[int]
+                Number of tokens to consider from each head when forming the
+                candidate tree.
+                For each candidate branch in the tree, head n produces topk[n]
+                additional sub-branches.
+                NOTE: This parameter is currently unused.
+            n_candidates: int
+                number of child candidates to create per sequence
+            tie_weights: bool
+                If true, use a single set of weights for every model
+                head/stage after the first. The initial projection
+                from the base model may have a different size, so that
+                stays separate.
+            scale_input: bool
+                if True, will scale the initial hidden states from
+                the base model.
+        """
+        if top_k_tokens_per_head is None:
+            top_k_tokens_per_head = [5, 4, 3]
+        assert len(top_k_tokens_per_head) == n_predict
+        self.vocab_size = vocab_size
+        self.emb_dim = emb_dim
+        self.inner_dim = inner_dim
+        self.n_predict = n_predict
+        self.top_k_tokens_per_head = top_k_tokens_per_head
+        self.n_candidates = n_candidates
+        self.num_lookahead_tokens = n_predict
+        self.tie_weights = tie_weights
+        self.scale_input = scale_input
+
+        super().__init__(**kwargs)
diff --git a/transformers_utils/configs/moonvit.py b/transformers_utils/configs/moonvit.py
new file mode 100644
index 0000000..6e9b289
--- /dev/null
+++ b/transformers_utils/configs/moonvit.py
@@ -0,0 +1,33 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Adapted from https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/blob/main/configuration_kimi_vl.py
+from transformers.configuration_utils import PretrainedConfig
+
+
+class MoonViTConfig(PretrainedConfig):
+    model_type = "moonvit"
+
+    def __init__(
+        self,
+        patch_size: int = 14,
+        init_pos_emb_height: int = 64,
+        init_pos_emb_width: int = 64,
+        num_attention_heads: int = 16,
+        num_hidden_layers: int = 27,
+        hidden_size: int = 1152,
+        intermediate_size: int = 4304,
+        merge_kernel_size: tuple[int, int] = (2, 2),
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.patch_size = patch_size
+        # Positional embedding config
+        self.init_pos_emb_height = init_pos_emb_height
+        self.init_pos_emb_width = init_pos_emb_width
+        # Transformer config
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        # Patch merger config
+        self.merge_kernel_size = merge_kernel_size
diff --git a/transformers_utils/configs/nemotron.py b/transformers_utils/configs/nemotron.py
new file mode 100644
index 0000000..60eed54
--- /dev/null
+++ b/transformers_utils/configs/nemotron.py
@@ -0,0 +1,212 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 HuggingFace Inc. team. All rights reserved.
+# Copyright (c) 2024, NVIDIA CORPORATION. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Nemotron model configuration"""
+
+from transformers import PretrainedConfig
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+
+class NemotronConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a
+    [`NemotronModel`]. It is used to instantiate a Nemotron model
+    according to the specified arguments, defining the model architecture.
+    Instantiating a configuration with the defaults will yield a similar
+    configuration to that of the Nemotron-8B.
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be
+    used to control the model outputs. Read the documentation from
+    [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 256000):
+            Vocabulary size of the Nemotron model. Defines the number of
+            different tokens that can be represented by the
+            `inputs_ids` passed when calling [`NemotronModel`]
+        hidden_size (`int`, *optional*, defaults to 6144):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 24576):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 48):
+            Number of attention heads for each attention layer in the
+            Transformer decoder.
+        head_dim (`int`, *optional*):
+            Projection weights dimension in multi-head attention. Set to
+            hidden_size // num_attention_heads if None
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to
+            implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use
+            Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention
+            (MQA) otherwise GQA is used. When converting a multi-head
+            checkpoint to a GQA checkpoint, each group key and value
+            head should be constructed by meanpooling all the original
+            heads within that group. For more details checkout
+            [this paper](https://arxiv.org/pdf/2305.13245.pdf). If it
+            is not specified, will default to `num_attention_heads`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"relu2"`):
+            The non-linear activation function (function or string) in the
+            decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 4096):
+            The maximum sequence length that this model might ever be used
+            with.
+        initializer_range (`float`, *optional*, defaults to 0.0134):
+            The standard deviation of the truncated_normal_initializer for
+            initializing all weight matrices.
+        norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon used by the normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values
+            attentions (not used by all models). Only relevant if
+            `config.is_decoder=True`.
+        pad_token_id (`int`, *optional*):
+            Padding token id.
+        bos_token_id (`int`, *optional*, defaults to 2):
+            Beginning of stream token id.
+        eos_token_id (`int`, *optional*, defaults to 3):
+            End of stream token id.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        partial_rotary_factor (`float`, *optional*, defaults to 0.5):
+            Percentage of the query and keys which will have rotary embedding.
+        attention_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use a bias in the query, key, value and output
+            projection layers during self-attention.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        mlp_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use a bias in up_proj and down_proj layers in the MLP
+            layers.
+
+    ```python
+    >>> from transformers import NemotronModel, NemotronConfig
+    >>> # Initializing a Nemotron nemotron-15b style configuration
+    >>> configuration = NemotronConfig()
+    >>> # Initializing a model from the nemotron-15b style configuration
+    >>> model = NemotronModel(configuration)
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "nemotron"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=256000,
+        hidden_size=6144,
+        intermediate_size=24576,
+        num_hidden_layers=32,
+        num_attention_heads=48,
+        head_dim=None,
+        num_key_value_heads=None,
+        hidden_act="relu2",
+        max_position_embeddings=4096,
+        initializer_range=0.0134,
+        norm_eps=1e-5,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=2,
+        eos_token_id=3,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        partial_rotary_factor=0.5,
+        attention_bias=False,
+        attention_dropout=0.0,
+        mlp_bias=False,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        head_dim = head_dim or kwargs.get("kv_channels")
+        self.head_dim = (
+            head_dim if head_dim is not None else (hidden_size // num_attention_heads)
+        )
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.norm_eps = norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        # for backward compatibility
+        partial_rotary_factor = (
+            kwargs.get("rope_percent")
+            or kwargs.get("rope_percentage")
+            or partial_rotary_factor
+        )
+        self.partial_rotary_factor = partial_rotary_factor
+        self._rope_scaling_validation()
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.mlp_bias = mlp_bias
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with two fields, "
+                f"`type` and `factor`, got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_factor = self.rope_scaling.get("factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
+            raise ValueError(
+                "`rope_scaling`'s type field must be one of ['linear', "
+                f"'dynamic'], got {rope_scaling_type}"
+            )
+        if (
+            rope_scaling_factor is None
+            or not isinstance(rope_scaling_factor, float)
+            or rope_scaling_factor <= 1.0
+        ):
+            raise ValueError(
+                "`rope_scaling`'s factor field must be a float > 1, got "
+                f"{rope_scaling_factor}"
+            )
diff --git a/transformers_utils/configs/nemotron_h.py b/transformers_utils/configs/nemotron_h.py
new file mode 100644
index 0000000..68c4000
--- /dev/null
+++ b/transformers_utils/configs/nemotron_h.py
@@ -0,0 +1,282 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright 2024 HuggingFace Inc. team. All rights reserved.
+# Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""NemotronH model configuration"""
+
+import regex as re
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+
+class NemotronHConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a
+    [`NemotronHModel`]. It is used to instantiate a NemotronH model according
+    to the specified arguments, defining the model architecture. Instantiating
+    a configuration with the defaults will yield a similar configuration to
+    that of the NemotronH-v0.1 model.
+    Args:
+        vocab_size (`int`, *optional*, defaults to 131072):
+            Vocabulary size of the NemotronH model. Defines the number of
+            different tokens that can be represented by the `inputs_ids`
+            passed when calling [`NemotronHModel`]
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether the model's input and output word embeddings should be
+            tied. Note that this is only relevant if the model has an output
+            word embedding layer.
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 21504):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 52):
+            Number of hidden layers in the Transformer encoder.
+        hybrid_override_pattern (`str`, *optional*, defaults to
+            `"M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M-"`):
+            The pattern of the hybrid model. The pattern is a string of
+            characters where each character represents
+            M: Mamba2, *: Attention, -: MLP
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the
+            Transformer encoder.
+        attention_head_dim (`int`, *optional*, defaults to 128):
+            Dimension of each attention head.
+        num_key_value_heads (`int`, *optional*, defaults to 8):
+            This is the number of key_value heads that should be used to
+            implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use
+            Multi Head Attention (MHA), if `num_key_value_heads=1` the model
+            will use Multi Query Attention (MQA) otherwise GQA is used.
+        mlp_hidden_act (`str`, *optional*, defaults to "relu2"):
+            The non-linear activation function in the MLP layers.
+        attention_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in attention layers.
+        mlp_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in MLP layers.
+        use_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in the model.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for
+            initializing all weight matrices.
+        layer_norm_epsilon (`float`, *optional*, defaults to 1e-5):
+            The epsilon used by the layer normalization layers.
+        residual_in_fp32 (`bool`, *optional*, defaults to `False`):
+            Whether or not residuals should be in `float32`. If set to `False`
+            residuals will keep the same `dtype` as the rest of the model.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values
+            attentions (not used by all models). Only relevant if
+            `config.is_decoder=True`.
+        num_logits_to_keep (`int` or `None`, *optional*, defaults to 1):
+            Number of prompt logits to calculate during generation. If `None`,
+            all logits will be calculated. If an integer value, only last
+            `num_logits_to_keep` logits will be calculated.
+        pad_token_id (`int`, *optional*, defaults to 0):
+            The id of the padding token.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            The id of the "beginning-of-sequence" token.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            The id of the "end-of-sequence" token.
+        sliding_window (`int`, *optional*, defaults to None):
+            Sliding window attention window size.
+        max_position_embeddings (`int`, *optional*, defaults to 4096):
+            The maximum sequence length that this model might ever be used
+            with.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        hidden_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the hidden states.
+        use_mamba_kernels (`bool`, *optional*, defaults to `True`):
+            Flag indicating whether or not to use the fast mamba kernels.
+            These are available only if `mamba-ssm` and `causal-conv1d`
+            are installed, and the mamba modules are running on a CUDA device.
+        ssm_state_size (`int`, *optional*, defaults to 128):
+            The dimension of the mamba state space latents.
+        mamba_num_heads (`int`, *optional*, defaults to 128):
+            Number of heads in Mamba layers.
+        mamba_n_groups (`int`, *optional*, defaults to 8):
+            Number of groups in Mamba layers.
+        mamba_head_dim (`int`, *optional*, defaults to 64):
+            Dimension of each Mamba head.
+        mamba_d_conv (`int`, *optional*, defaults to 4):
+            The size of the mamba convolution kernel.
+        mamba_expand (`int`, *optional*, defaults to 2):
+            Expanding factor used to determine the mamba intermediate size.
+        mamba_hidden_act (`str`, *optional*, defaults to "silu"):
+            The non-linear activation function in the Mamba layers.
+        mamba_dt_min (`float`, *optional*, defaults to 0.001):
+            Minimum value for the time step in Mamba.
+        mamba_dt_max (`float`, *optional*, defaults to 0.1):
+            Maximum value for the time step in Mamba.
+        mamba_dt_limit (`tuple`, *optional*, defaults to (0.0, float("inf"))):
+            Limits for the time step in Mamba.
+        mamba_dt_init_floor (`float`, *optional*, defaults to 1e-4):
+            Floor value for time step initialization in Mamba.
+        mamba_conv_bias (`bool`, *optional*, defaults to `True`):
+            Whether to use bias in the convolution layer of the mamba mixer
+            block.
+        mamba_proj_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in the input and output projections of the
+            mamba mixer block.
+        mamba_chunk_size (`int`, *optional*, defaults to 256):
+            Size of chunks for Mamba processing.
+        rescale_prenorm_residual (`bool`, *optional*, defaults to `True`):
+            Whether to rescale the pre-normalization residual connections.
+    """
+
+    model_type = "nemotron_h"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=131072,
+        tie_word_embeddings=False,
+        hidden_size=4096,
+        intermediate_size=21504,
+        num_hidden_layers=52,
+        hybrid_override_pattern="M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M-",
+        num_attention_heads=32,
+        head_dim=128,
+        num_key_value_heads=8,  # nemo: num_query_groups
+        mlp_hidden_act="relu2",
+        attention_bias=False,
+        mlp_bias=False,
+        use_bias=False,
+        initializer_range=0.02,  # nemo: init_method_std
+        layer_norm_epsilon=1e-5,  # nemo: layernorm_epsilon
+        residual_in_fp32=False,  #  Megatron Core default value
+        use_cache=True,
+        num_logits_to_keep=1,
+        pad_token_id=0,
+        bos_token_id=1,
+        eos_token_id=2,
+        sliding_window=None,
+        max_position_embeddings=4096,
+        attention_dropout=0.0,
+        hidden_dropout=0.0,  # * ADDED
+        use_mamba_kernels=True,
+        ssm_state_size=128,  # mamba_state_size
+        mamba_num_heads=128,
+        mamba_n_groups=8,  # nemo: mamba_ssm_ngroups = num_heads
+        mamba_head_dim=64,
+        mamba_d_conv=4,
+        mamba_expand=2,
+        mamba_hidden_act="silu",
+        mamba_dt_min=0.001,
+        mamba_dt_max=0.1,
+        mamba_dt_limit=(0.0, float("inf")),
+        mamba_dt_init_floor=1e-4,
+        mamba_conv_bias=True,
+        mamba_proj_bias=False,
+        mamba_chunk_size=256,
+        rescale_prenorm_residual=True,
+        n_routed_experts=8,
+        n_shared_experts=1,
+        moe_intermediate_size=7688,
+        moe_shared_expert_intermediate_size=7688,
+        num_experts_per_tok=2,
+        routed_scaling_factor=1.0,
+        n_group=1,
+        topk_group=1,
+        norm_topk_prob=True,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.tie_word_embeddings = tie_word_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.hybrid_override_pattern = hybrid_override_pattern
+        self.num_attention_heads = num_attention_heads
+        self.head_dim = head_dim
+        self.sliding_window = sliding_window
+        self.max_position_embeddings = max_position_embeddings
+        self.attention_dropout = attention_dropout
+        self.hidden_dropout = hidden_dropout
+
+        # Validate hybrid_override_pattern
+        # M: Mamba2, *: Attention, -: MLP
+        assert len(self.hybrid_override_pattern) == self.num_hidden_layers, (
+            "hybrid_override_pattern must have same length as num_hidden_layers"
+        )
+        assert re.match(r"^[*-M]+$", self.hybrid_override_pattern), (
+            "hybrid_override_pattern must only contain characters 'M', '*', or '-'"
+        )
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.mlp_hidden_act = mlp_hidden_act
+        self.attention_bias = attention_bias
+        self.mlp_bias = mlp_bias
+        self.use_bias = use_bias
+        self.initializer_range = initializer_range
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.residual_in_fp32 = residual_in_fp32
+
+        self.use_cache = use_cache
+        self.num_logits_to_keep = num_logits_to_keep
+
+        self.use_mamba_kernels = use_mamba_kernels
+        self.n_groups = mamba_n_groups
+        self.mamba_head_dim = mamba_head_dim
+        self.ssm_state_size = ssm_state_size
+        self.mamba_num_heads = mamba_num_heads
+        self.conv_kernel = mamba_d_conv
+        self.expand = mamba_expand
+        self.mamba_hidden_act = mamba_hidden_act
+        self.time_step_min = mamba_dt_min
+        self.time_step_max = mamba_dt_max
+        self.time_step_limit = mamba_dt_limit
+        self.time_step_floor = mamba_dt_init_floor
+        self.use_conv_bias = mamba_conv_bias
+        self.mamba_proj_bias = mamba_proj_bias
+        self.chunk_size = mamba_chunk_size
+        self.rescale_prenorm_residual = rescale_prenorm_residual
+        self.n_routed_experts = n_routed_experts
+        self.n_shared_experts = n_shared_experts
+        self.moe_intermediate_size = moe_intermediate_size
+        self.moe_shared_expert_intermediate_size = moe_shared_expert_intermediate_size  # noqa: E501
+        self.num_experts_per_tok = num_experts_per_tok
+        self.routed_scaling_factor = routed_scaling_factor
+        self.n_group = n_group
+        self.topk_group = topk_group
+        self.norm_topk_prob = norm_topk_prob
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    @property
+    def layers_block_type(self):
+        return [
+            "mamba"
+            if self.hybrid_override_pattern[i] == "M"
+            else "attention"
+            if self.hybrid_override_pattern[i] == "*"
+            else "mlp"
+            if self.hybrid_override_pattern[i] == "-"
+            else "moe"
+            for i in range(self.num_hidden_layers)
+        ]
diff --git a/transformers_utils/configs/olmo3.py b/transformers_utils/configs/olmo3.py
new file mode 100644
index 0000000..f5a9a7c
--- /dev/null
+++ b/transformers_utils/configs/olmo3.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class Olmo3Config(PretrainedConfig):
+    model_type = "olmo3"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=50304,
+        hidden_size=4096,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        max_position_embeddings=2048,
+        initializer_range=0.02,
+        use_cache=True,
+        pad_token_id=1,
+        bos_token_id=None,
+        eos_token_id=50279,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        attention_bias=False,
+        attention_dropout=0.0,
+        rms_norm_eps=1e-5,
+        sliding_window=4096,
+        layer_types=None,
+        **kwargs,
+    ):
+        # This model uses Olmo3ForCausalLM in transformers but Olmo2ForCausalLM
+        # in vLLM.
+        if "architectures" not in kwargs:
+            kwargs["architectures"] = ["Olmo2ForCausalLM"]
+        elif "Olmo3ForCausalLM" in kwargs["architectures"]:
+            kwargs["architectures"].remove("Olmo3ForCausalLM")
+            kwargs["architectures"].append("Olmo2ForCausalLM")
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+
+        self.rms_norm_eps = rms_norm_eps
+
+        self.sliding_window = sliding_window
+        self.layer_types = layer_types
+        if self.layer_types is None:
+            self.layer_types = [
+                "sliding_attention" if (i + 1) % 4 != 0 else "full_attention"
+                for i in range(self.num_hidden_layers)
+            ]
diff --git a/transformers_utils/configs/ovis.py b/transformers_utils/configs/ovis.py
new file mode 100644
index 0000000..294b4c9
--- /dev/null
+++ b/transformers_utils/configs/ovis.py
@@ -0,0 +1,182 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# ruff: noqa: E501
+# adapted from https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/configuration_aimv2.py
+# and https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/configuration_ovis.py
+# Ovis Config with AimV2 config registration removed for Transformers compatibility
+from typing import Any
+
+from transformers import AutoConfig, PretrainedConfig
+
+
+class AIMv2Config(PretrainedConfig):
+    """This is the configuration class to store the configuration of an [`AIMv2Model`].
+    Instantiating a configuration with the defaults will yield a similar configuration
+    to that of the [apple/aimv2-large-patch14-224](https://huggingface.co/apple/aimv2-large-patch14-224).
+    Args:
+        hidden_size: Dimension of the hidden representations.
+        intermediate_size: Dimension of the SwiGLU representations.
+        num_hidden_layers: Number of hidden layers in the Transformer.
+        num_attention_heads: Number of attention heads for each attention layer
+            in the Transformer.
+        num_channels: Number of input channels.
+        image_size: Image size.
+        patch_size: Patch size.
+        rms_norm_eps: Epsilon value used for the RMS normalization layer.
+        attention_dropout: Dropout ratio for attention probabilities.
+        projection_dropout: Dropout ratio for the projection layer after the attention.
+        qkv_bias: Whether to add a bias to the queries, keys and values.
+        use_bias: Whether to add a bias in the feed-forward and projection layers.
+        kwargs: Keyword arguments for the [`PretrainedConfig`].
+    """
+
+    model_type: str = "aimv2"
+
+    def __init__(
+        self,
+        hidden_size: int = 1024,
+        intermediate_size: int = 2816,
+        num_hidden_layers: int = 24,
+        num_attention_heads: int = 8,
+        num_channels: int = 3,
+        image_size: int = 224,
+        patch_size: int = 14,
+        rms_norm_eps: float = 1e-5,
+        attention_dropout: float = 0.0,
+        projection_dropout: float = 0.0,
+        qkv_bias: bool = False,
+        use_bias: bool = False,
+        **kwargs: Any,
+    ):
+        super().__init__(**kwargs)
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.image_size = image_size
+        self.attention_dropout = attention_dropout
+        self.rms_norm_eps = rms_norm_eps
+
+        self.projection_dropout = projection_dropout
+        self.qkv_bias = qkv_bias
+        self.use_bias = use_bias
+
+
+# ----------------------------------------------------------------------
+#                     Visual Tokenizer Configuration
+# ----------------------------------------------------------------------
+class BaseVisualTokenizerConfig(PretrainedConfig):
+    def __init__(
+        self,
+        vocab_size=16384,
+        tokenize_function="softmax",
+        tau=1.0,
+        depths=None,
+        drop_cls_token=False,
+        backbone_config: PretrainedConfig | dict | None = None,
+        hidden_stride: int = 1,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.vocab_size = vocab_size
+        self.tokenize_function = tokenize_function
+        self.tau = tau
+        if isinstance(depths, str):
+            depths = [int(x) for x in depths.split("|")]
+        self.depths = depths
+        self.backbone_kwargs = dict[str, Any]()
+        self.drop_cls_token = drop_cls_token
+        if backbone_config is not None:
+            assert isinstance(backbone_config, (PretrainedConfig, dict)), (
+                f"expect `backbone_config` to be instance of PretrainedConfig or dict, but got {type(backbone_config)} type"
+            )
+            if not isinstance(backbone_config, PretrainedConfig):
+                model_type = backbone_config["model_type"]
+                if model_type != "aimv2":
+                    backbone_config.pop("model_type")
+                    backbone_config = AutoConfig.for_model(
+                        model_type, **backbone_config
+                    )
+                else:
+                    backbone_config = AIMv2Config(**backbone_config)
+        self.backbone_config = backbone_config
+        self.hidden_stride = hidden_stride
+
+
+class Aimv2VisualTokenizerConfig(BaseVisualTokenizerConfig):
+    model_type = "aimv2_visual_tokenizer"
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+        if self.drop_cls_token:
+            self.drop_cls_token = False
+        if self.depths:
+            assert len(self.depths) == 1
+            self.backbone_kwargs["num_hidden_layers"] = self.depths[0]
+
+
+class SiglipVisualTokenizerConfig(BaseVisualTokenizerConfig):
+    model_type = "siglip_visual_tokenizer"
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+        if self.drop_cls_token:
+            self.drop_cls_token = False
+        if self.depths:
+            assert len(self.depths) == 1
+            self.backbone_kwargs["num_hidden_layers"] = self.depths[0]
+
+
+AutoConfig.register("siglip_visual_tokenizer", SiglipVisualTokenizerConfig)
+AutoConfig.register("aimv2_visual_tokenizer", Aimv2VisualTokenizerConfig)
+
+
+# ----------------------------------------------------------------------
+#                           Ovis Configuration
+# ----------------------------------------------------------------------
+class OvisConfig(PretrainedConfig):
+    model_type = "ovis"
+
+    def __init__(
+        self,
+        llm_config: PretrainedConfig | dict | None = None,
+        visual_tokenizer_config: PretrainedConfig | dict | None = None,
+        multimodal_max_length=8192,
+        hidden_size=None,
+        conversation_formatter_class=None,
+        llm_attn_implementation=None,
+        disable_tie_weight=False,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        if llm_config is not None:
+            assert isinstance(llm_config, (PretrainedConfig, dict)), (
+                f"expect `llm_config` to be instance of PretrainedConfig or dict, but got {type(llm_config)} type"
+            )
+            if not isinstance(llm_config, PretrainedConfig):
+                model_type = llm_config["model_type"]
+                llm_config.pop("model_type")
+                llm_config = AutoConfig.for_model(model_type, **llm_config)
+
+        # map llm_config to text_config
+        self.text_config = llm_config
+        if visual_tokenizer_config is not None:
+            assert isinstance(visual_tokenizer_config, (PretrainedConfig, dict)), (
+                f"expect `visual_tokenizer_config` to be instance of PretrainedConfig or dict, but got {type(visual_tokenizer_config)} type"
+            )
+            if not isinstance(visual_tokenizer_config, PretrainedConfig):
+                model_type = visual_tokenizer_config["model_type"]
+                visual_tokenizer_config.pop("model_type")
+                visual_tokenizer_config = AutoConfig.for_model(
+                    model_type, **visual_tokenizer_config
+                )
+
+        self.visual_tokenizer_config = visual_tokenizer_config
+        self.multimodal_max_length = multimodal_max_length
+        self.hidden_size = hidden_size
+        self.conversation_formatter_class = conversation_formatter_class
+        self.llm_attn_implementation = llm_attn_implementation
+        self.disable_tie_weight = disable_tie_weight
diff --git a/transformers_utils/configs/qwen3_next.py b/transformers_utils/configs/qwen3_next.py
new file mode 100644
index 0000000..21750bd
--- /dev/null
+++ b/transformers_utils/configs/qwen3_next.py
@@ -0,0 +1,274 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright 2025 The Qwen team, Alibaba Group and the HuggingFace Inc. team.
+# All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Qwen3-Next model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig, layer_type_validation
+from transformers.modeling_rope_utils import rope_config_validation
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+
+class Qwen3NextConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`Qwen3NextModel`]. It is used to instantiate a
+    Qwen3-Next model according to the specified arguments, defining the model architecture.
+    Instantiating a configuration with the defaults will yield a similar configuration to that of
+    Qwen3-Next-80B-A3B-Instruct [Qwen/Qwen3-Next-80B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct).
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 151936):
+            Vocabulary size of the model. Defines the number of different tokens that can be represented by the
+            `inputs_ids`.
+        hidden_size (`int`, *optional*, defaults to 2048):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 5632):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 48):
+            Number of hidden layers in the Transformer encoder.
+        num_attention_heads (`int`, *optional*, defaults to 16):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        num_key_value_heads (`int`, *optional*, defaults to 2):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1` the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to `32`.
+        hidden_act (`str`, *optional*, defaults to `"silu"`):
+            The non-linear activation function in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 32768):
+            The maximum sequence length that this model might ever be used with.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-06):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether the model's input and output word embeddings should be tied.
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`Dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. NOTE: if you apply new rope type
+            and you expect the model to work on longer `max_position_embeddings`, we recommend you to update this value
+            accordingly.
+            Expected contents:
+                `rope_type` (`str`):
+                    The sub-variant of RoPE to use. Can be one of ['default', 'linear', 'dynamic', 'yarn', 'longrope',
+                    'llama3'], with 'default' being the original RoPE implementation.
+                `factor` (`float`, *optional*):
+                    Used with all rope types except 'default'. The scaling factor to apply to the RoPE embeddings. In
+                    most scaling types, a `factor` of x will enable the model to handle sequences of length x *
+                    original maximum pre-trained length.
+                `original_max_position_embeddings` (`int`, *optional*):
+                    Used with 'dynamic', 'longrope' and 'llama3'. The original max position embeddings used during
+                    pretraining.
+                `attention_factor` (`float`, *optional*):
+                    Used with 'yarn' and 'longrope'. The scaling factor to be applied on the attention
+                    computation. If unspecified, it defaults to value recommended by the implementation, using the
+                    `factor` field to infer the suggested value.
+                `beta_fast` (`float`, *optional*):
+                    Only used with 'yarn'. Parameter to set the boundary for extrapolation (only) in the linear
+                    ramp function. If unspecified, it defaults to 32.
+                `beta_slow` (`float`, *optional*):
+                    Only used with 'yarn'. Parameter to set the boundary for interpolation (only) in the linear
+                    ramp function. If unspecified, it defaults to 1.
+                `short_factor` (`List[float]`, *optional*):
+                    Only used with 'longrope'. The scaling factor to be applied to short contexts (<
+                    `original_max_position_embeddings`). Must be a list of numbers with the same length as the hidden
+                    size divided by the number of attention heads divided by 2
+                `long_factor` (`List[float]`, *optional*):
+                    Only used with 'longrope'. The scaling factor to be applied to long contexts (<
+                    `original_max_position_embeddings`). Must be a list of numbers with the same length as the hidden
+                    size divided by the number of attention heads divided by 2
+                `low_freq_factor` (`float`, *optional*):
+                    Only used with 'llama3'. Scaling factor applied to low frequency components of the RoPE
+                `high_freq_factor` (`float`, *optional*):
+                    Only used with 'llama3'. Scaling factor applied to high frequency components of the RoPE
+        partial_rotary_factor (`float`, *optional*, defaults to 0.25):
+            Percentage of the query and keys which will have rotary embedding.
+        attention_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use a bias in the query, key, value and output projection layers during self-attention.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        head_dim (`int`, *optional*, defaults to 256):
+            Projection weights dimension in multi-head attention.
+        linear_conv_kernel_dim (`int`, *optional*, defaults to 4):
+            Kernel size of the convolution used in linear attention layers.
+        linear_key_head_dim (`int`, *optional*, defaults to 128):
+            Dimension of each key head in linear attention.
+        linear_value_head_dim (`int`, *optional*, defaults to 128):
+            Dimension of each value head in linear attention.
+        linear_num_key_heads (`int`, *optional*, defaults to 16):
+            Number of key heads used in linear attention layers.
+        linear_num_value_heads (`int`, *optional*, defaults to 32):
+            Number of value heads used in linear attention layers.
+        decoder_sparse_step (`int`, *optional*, defaults to 1):
+            The frequency of the MoE layer.
+        moe_intermediate_size (`int`, *optional*, defaults to 512):
+            Intermediate size of the routed expert.
+        shared_expert_intermediate_size (`int`, *optional*, defaults to 512):
+            Intermediate size of the shared expert.
+        num_experts_per_tok (`int`, *optional*, defaults to 10):
+            Number of selected experts.
+        num_experts (`int`, *optional*, defaults to 512):
+            Number of routed experts.
+        norm_topk_prob (`bool`, *optional*, defaults to `True`):
+            Whether to normalize the topk probabilities.
+        output_router_logits (`bool`, *optional*, defaults to `False`):
+            Whether or not the router logits should be returned by the model. Enabling this will also
+            allow the model to output the auxiliary loss, including load balancing loss and router z-loss.
+        router_aux_loss_coef (`float`, *optional*, defaults to 0.001):
+            The aux loss factor for the total loss.
+        mlp_only_layers (`list[int]`, *optional*, defaults to `[]`):
+            Indicate which layers use Qwen3NextMLP rather than Qwen3NextSparseMoeBlock
+            The list contains layer index, from 0 to num_layers-1 if we have num_layers layers
+            If `mlp_only_layers` is empty, `decoder_sparse_step` is used to determine the sparsity.
+        layer_types (`list[str]`, *optional*):
+            Types of each layer (attention or linear).
+
+    ```python
+    >>> from transformers import Qwen3NextModel, Qwen3NextConfig
+
+    >>> # Initializing a Qwen3Next style configuration
+    >>> configuration =  Qwen3NextConfig()
+
+    >>> # Initializing a model from the Qwen3-Next-80B-A3B style configuration
+    >>> model = Qwen3NextModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```
+    """  # noqa: E501
+
+    model_type = "qwen3_next"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    base_model_tp_plan = {
+        "layers.*.self_attn.q_proj": "colwise",
+        "layers.*.self_attn.k_proj": "colwise",
+        "layers.*.self_attn.v_proj": "colwise",
+        "layers.*.self_attn.o_proj": "rowwise",
+        "layers.*.mlp.experts.*.gate_proj": "colwise",
+        "layers.*.mlp.experts.*.up_proj": "colwise",
+        "layers.*.mlp.experts.*.down_proj": "rowwise",
+        "layers.*.mlp.shared_experts.gate_proj": "colwise",
+        "layers.*.mlp.shared_experts.up_proj": "colwise",
+        "layers.*.mlp.shared_experts.down_proj": "rowwise",
+        "layers.*.mlp.gate_proj": "colwise",
+        "layers.*.mlp.up_proj": "colwise",
+        "layers.*.mlp.down_proj": "rowwise",
+    }
+    base_model_pp_plan = {
+        "embed_tokens": (["input_ids"], ["inputs_embeds"]),
+        "layers": (["hidden_states", "attention_mask"], ["hidden_states"]),
+        "norm": (["hidden_states"], ["hidden_states"]),
+    }
+
+    def __init__(
+        self,
+        vocab_size=151936,
+        hidden_size=2048,
+        intermediate_size=5632,
+        num_hidden_layers=48,
+        num_attention_heads=16,
+        num_key_value_heads=2,
+        hidden_act="silu",
+        max_position_embeddings=32768,
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        partial_rotary_factor=0.25,
+        attention_bias=False,
+        attention_dropout=0.0,
+        head_dim=256,
+        linear_conv_kernel_dim=4,
+        linear_key_head_dim=128,
+        linear_value_head_dim=128,
+        linear_num_key_heads=16,
+        linear_num_value_heads=32,
+        decoder_sparse_step=1,
+        moe_intermediate_size=512,
+        shared_expert_intermediate_size=512,
+        num_experts_per_tok=10,
+        num_experts=512,
+        norm_topk_prob=True,
+        output_router_logits=False,
+        router_aux_loss_coef=0.001,
+        mlp_only_layers=None,
+        layer_types=None,
+        **kwargs,
+    ):
+        if mlp_only_layers is None:
+            mlp_only_layers = []
+        super().__init__(tie_word_embeddings=tie_word_embeddings, **kwargs)
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.partial_rotary_factor = partial_rotary_factor
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.head_dim = head_dim
+        rope_config_validation(self)
+
+        self.layer_types = layer_types
+        if self.layer_types is None:
+            self.layer_types = [
+                "linear_attention" if bool((i + 1) % 4) else "full_attention"
+                for i in range(self.num_hidden_layers)
+            ]
+        layer_type_validation(self.layer_types)
+
+        # linear attention part
+        self.linear_conv_kernel_dim = linear_conv_kernel_dim
+        self.linear_key_head_dim = linear_key_head_dim
+        self.linear_value_head_dim = linear_value_head_dim
+        self.linear_num_key_heads = linear_num_key_heads
+        self.linear_num_value_heads = linear_num_value_heads
+
+        # MoE arguments
+        self.decoder_sparse_step = decoder_sparse_step
+        self.moe_intermediate_size = moe_intermediate_size
+        self.shared_expert_intermediate_size = shared_expert_intermediate_size
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_experts = num_experts
+        self.norm_topk_prob = norm_topk_prob
+        self.output_router_logits = output_router_logits
+        self.router_aux_loss_coef = router_aux_loss_coef
+        self.mlp_only_layers = mlp_only_layers
+
+
+__all__ = ["Qwen3NextConfig"]
diff --git a/transformers_utils/configs/radio.py b/transformers_utils/configs/radio.py
new file mode 100644
index 0000000..2b6544f
--- /dev/null
+++ b/transformers_utils/configs/radio.py
@@ -0,0 +1,89 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Radio vision model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+VIT_TIMM_DIM_BY_NAME: dict[str, tuple[int, int, int, int]] = {
+    "vit_small_patch16_224": (384, 12, 6, 1536),
+    "vit_base_patch16_224": (768, 12, 12, 3072),
+    "vit_large_patch16_224": (1024, 24, 16, 4096),
+    "vit_huge_patch16_224": (1280, 32, 16, 5120),
+}
+
+OPENAI_CLIP_MEAN = (0.48145466, 0.4578275, 0.40821073)
+OPENAI_CLIP_STD = (0.26862954, 0.26130258, 0.27577711)
+
+
+class RadioConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a Radio
+    vision model. It is used to instantiate a Radio model according to the
+    specified arguments, defining the model architecture.
+
+    Args:
+        model_name: Name of the vision transformer model
+            (e.g., "vit_base_patch16_224"). Used to determine architecture
+            dimensions from `VIT_TIMM_DIM_BY_NAME`.
+        image_size: The size (resolution) of each image.
+        patch_size: The size (resolution) of each patch.
+        qkv_bias: Whether to add a bias to the queries, keys and values.
+        qk_normalization: Whether to apply normalization to queries and keys.
+        norm_type: The normalization type to use.
+        layer_norm_eps: The epsilon used by the layer normalization layers.
+        initializer_factor: A factor for initializing all weight matrices.
+        hidden_act: The non-linear activation function in the encoder.
+        max_img_size: Maximum image size for position embeddings.
+        norm_mean: Mean values for image normalization (RGB channels).
+            Defaults to (0.48145466, 0.4578275, 0.40821073)).
+        norm_std: Standard deviation values for image normalization
+            (RGB channels). Defaults to (0.26862954, 0.26130258, 0.27577711)).
+        reg_tokens: Number of register tokens to use.
+    """
+
+    model_type = "radio"
+
+    def __init__(
+        self,
+        model_name: str,
+        image_size: int = 224,
+        patch_size: int = 16,
+        qkv_bias: bool = True,
+        qk_normalization: bool = False,
+        norm_type: str = "layer_norm",
+        layer_norm_eps: float = 1e-6,
+        initializer_factor: float = 1.0,
+        hidden_act: str = "gelu",
+        max_img_size: int = 2048,
+        norm_mean: tuple[float, float, float] | list = OPENAI_CLIP_MEAN,
+        norm_std: tuple[float, float, float] | list = OPENAI_CLIP_STD,
+        reg_tokens: int | None = None,
+        **kwargs,
+    ):
+        self.model_name = model_name
+        (
+            self.hidden_size,
+            self.num_hidden_layers,
+            self.num_attention_heads,
+            self.intermediate_size,
+        ) = VIT_TIMM_DIM_BY_NAME[model_name]
+        self.image_size = image_size
+        self.patch_size = patch_size
+        self.qkv_bias = qkv_bias
+        self.qk_normalization = qk_normalization
+        self.norm_type = norm_type
+        self.layer_norm_eps = layer_norm_eps
+        self.initializer_factor = initializer_factor
+        self.hidden_act = hidden_act
+        self.max_img_size = max_img_size
+        self.norm_mean = (
+            list(norm_mean) if isinstance(norm_mean, (tuple, list)) else norm_mean
+        )
+        self.norm_std = (
+            list(norm_std) if isinstance(norm_std, (tuple, list)) else norm_std
+        )
+        self.reg_tokens = reg_tokens
+        super().__init__(**kwargs)
diff --git a/transformers_utils/configs/speculators/__init__.py b/transformers_utils/configs/speculators/__init__.py
new file mode 100644
index 0000000..208f01a
--- /dev/null
+++ b/transformers_utils/configs/speculators/__init__.py
@@ -0,0 +1,2 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
diff --git a/transformers_utils/configs/speculators/__pycache__/__init__.cpython-312.pyc b/transformers_utils/configs/speculators/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..81667ccc0bb852ac9f315dff4707d2d4e2f1ad46
GIT binary patch
literal 188
zcmX@j%ge<81UW3-nb|=4F^Gc>KC=KtrZZGBXfpb(WGG?+@;-yq{EF5u$t}<?$Slw;
zNi0fFEzzwgHMg|LHc!>h$xPBOs4U6I&(kl<$;s6(DN4*MPRlRKO)V;pFD=Q;Db`QU
z&r8cpFV-(ENKG!yNi4}PD%OvW&&<m#iI3MSsJz8tlbfGXnv-f*#0s>F5r~UHjE~HW
KjEqIhKo$TH>oTzb

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/speculators/__pycache__/algos.cpython-312.pyc b/transformers_utils/configs/speculators/__pycache__/algos.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fdc18a3e9c12da1c526e50a4bbff2035de18e5e3
GIT binary patch
literal 1843
zcmah~&rcgi6rNo#_5z_$0_l%P$+SdJr{I-J8;C=rMhR7_5Q4DNq+GVc?%1BP-d)Y?
zqBx=ok&r^wOD<J<Y)@5`Lv!q(P^lMFa<KN=f53zus-F60)`qk}=?af$XWsX{AK&Bo
zw}F8^1dnHY%k(Tlf5?~alk05uXJPXQF|>kQw1rkQ9Z}8Io@nX4t5e<0z{hZVDp@zX
zWjyHsS2B&Be9r0EsY4ys41D&7VR-<o+o%FuTjtl=hE_s(eeqxB()74Ae;bzXv`1(I
zMX*bsZ?rksY#@MXi+L?MS-QEjbYr<Zf5k2>&0oH`aH)J_xn!5WSeh^8^+d1uiQ$tv
z6*36C`S)!rs)ts{!l{VxDvhS@#53n-*Jh~Yu~jQ<M76-T);+IoMV$De67V|Z!j2>6
z3Cjum3abiBgw%;W5(QjX#H$9P5H^xtmpTELhj+(0tuhf&ZXa3}=Dffmp14>zurnbf
zAv67J6SXD_&&;tOuI!lk*5K>gz58&C9z$(7D1^8&l_`9Qxs)h5euN9&4>$5w48a1V
zf9iVAaN9)3Mw`Y6@0GYLB~_13C;e$Iw#%F->6Z!H=}D61G>W;u=ty_n$AFEJ@K@MK
zMZS7b;EvT{du)KbsZK}Q>D@NEZ*Cx0e+%${&|iUoHha>E2P_R~>1M0YK5p(6D6{K_
z_ktg@<HwYUMy8R;_mVP@_F;G~g`wBL^RhTo(^$&JD$K!YO=6Ih1wKA#3H2%peG2*#
zsKTh{ilVxl!Y(J3$X*BWS8c)W(jqRwih~M{YBasY^}waxguu!QI*T_t;Iv8Y8gpIh
zci>mm3zl46meeez=^%aRTzi#515=w*!Q7a5MSQD9!7Im6fQiajn&H$8cg<whK6PZu
z9WvE4Hi_>XL=usR+8${@k2A;>FF?P`Xw(sAKJ*n8xWa?FN^_M6s<>pWRkkvOSWrv^
z243bdNE&cq904qV2%$KtveRjeC@<i0jRHcs5C?1_57wDW0So_db?P#R45tOdLWU`T
zi$u6az3{N)P=h*IqmX(8uouXHKxHnZJ0>vv$xwjFcL{f~5?4m<g2!%zPK`QiVE`dO
zQ^*vPq5sOB48N@9Vlr}+Oy%T6n)!l9>g3aaUna32-oo`{fN-bABG4uVu@d}$y1;<U
zz>tF}G5|f#UxOtbgq<le5QnZ5Qt?dlH{pIz+HAqHiQ1>o#0NhGKL*WnS9ixh+q~8s
zdUwYdYvqO?+`E6T`NsRZxyfd3wlz7^oL$(NyuRJv9C=R;u(KciY(2J`#ii!*=euWb
zN#OX7G0{3R*BtwJ^V-9~9RnY*oPU-pwu<wuV}-qpexXm2ocrCJX=jjmLCvhZ!R7c-
z(=9QiJStEwf5enQIuXq|=&RVH7rFf1kmE^w0!uriX&TJH)9*CV$>-S~ZFFx4>7x&C
j?`o&o`U$P?`>2iJ>**Qw^~;CP<=cJ+>8JPPwes)}cIp6(

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/speculators/__pycache__/base.cpython-312.pyc b/transformers_utils/configs/speculators/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7e3b106cd56f7daa633e6844d33a6c0a08b38e59
GIT binary patch
literal 4451
zcma)9U2NOd6}}WDiu$qqlT42PDJQY2B$n$WjT5&^;>C^|+p)bkSy5*ICyTVrgc7w&
z%CQW2$bvkm7%*f{j?os)fC5XA0&Cy$u!jaH1_Rpz1!sstbbx_%4|`MN78tshol8=b
zVmsXk=;~bZoO3VF{myp||58`yM{vpR-$<Q}2>pXhDwoF=wkJSXLjn>g8O@S^mrSKx
zvo4Crv`nYmvu;y%%bpZ7%Yf`zpk}=;G>Qb~F3d#tBiiyd%jT$<_g`c(8KVq(D4m19
zhG{HnI3cA);ewK$mloh&+sw7;>8UGMM~3;C>5&W9CWfv~U76vpzB@fKV>HfW#AH@Z
zXbM&>i=^e>8ol;p`%4hkkceg}0nNGuYL*t=f=l#>%#Bd3fhDhioj?m{-YvNAx*ypJ
zvn<$nL?2lB=UpvuSD<TWpv}~12X<=<UeIA{bb`Bec6jvFXxHVuF+XNtVI!bc-`nWO
zI8ozMiXh5-I*}521@oDNwrDW$G>g+om;D~(kDO@$e%rr*VGX%Z9^C+G=ar}CDGB9W
zA5*`jeh&7l^r{;)?K7;^&eM-5Yrg6s-UMRjA$Bt;=2|&3p(F&ZX4BkAVnG(Uq<P9*
zA}tVcNyHkbDcsV;#AR+?!Ks86{{+m9`UO$rEnQxalA6&aE(1=I8owmVDZb)YS`uxo
z7-P^$S;aoslfm4)mB0(C5vcV*@kYQjwr;8<tekm$|4yHl%JgNVOs@uZqSm{d9XNCP
z=788IOLKjhoVKW>`-p8H>>;g^jfz<1vzjEUeYU&4%ANq2eRBy_jAwF2{XAAueD$<e
zA~V%vykLeRzC)!6wxynh;WjFVP;2k~ea~8s6<dz!y<^3eYa8=0yca42?)`Kt-101Z
zrWii+_~>T%Vj=LnzNuIrxpy4~osDdR2ZSNB(JmN}!`%KW3~MM)-LMZ4rp_f$&e6K^
zF3o|_5{36^6><PFs6KfgGUG!B5O*kmOeGT?uLxHA)LrpR5df0I+HuwDtkTsL@@D?6
zx&dnLJe8+E^*plo1)gYt95ZQzYmUIq3oVxsR~ko_A?lhaa7tR_l=(q!WiZZ7%Oac-
zC#Kab7P*{~jl!P{sFl(ST%s1by%sV#Gu7fT$_#7FW&YuP@B%T9K?7_siH+g^SwhZ=
zBN!{#Xj@9il913u2eE(-8?i>mTvn2WR|49D>%pD1$N?gem5g9QUQqaKhB(D4S<r+q
z-cK|Lv#s>+hS>keolY=Qe+>gbjz!(Qf9U#sm)?JAGcu;LouxqJX>7O{82+lMz0`E@
z>7jG_!SiKA4N>D1{56hK+cdo|R7P}N2mtE~K4YUrHu~AP&PJcI=S`Fj6vG2wjO*cn
z&G2*~@OATX{lukW^H?GHoZbJR?eWpSu@_7AtvcI^!?26Vy%GBY9<3oCph%zy7q0>~
z1q&5)o)&2Ho;wc=Zb}|_>M=Q+vFDWFwIsoprvS?V&B3VPui)|yr8%gCm3+iPGfO21
zsDe2)P?HCNs%;J(L>f^vuPS;qcjewZeF)BUm8n^qt=Q+8J1zmOGQVPOQMb@C{Vuvi
z#e$PYQ!TD7x-l9uSji}ALgrH<(37BIk`7f>!i<`76VPq2z_QZ3Bw{02TP838)yknu
zX%nNhc(0JOs^M%BDv4+usNp?cPUJ*vgLvie<*cf4u$d)E5V=>Xy%~MgqbQdm9_B>I
zIl}akl1|_pC(T!!3PA1bxR|pt%6};>h|8Ajy9(KDinx`$ykAnKw5lc2Nzrf<Uomer
zhpY-($vv+fH6u7LVO6t(hza=`l&BJ5n0du<R%W%4SoQACtRKkl6JVl#4g+MBoApgl
zrPjlG&tS3j&BAyo9MQW^7Q=58MoVqo5Bk>!3lpV=cD<v&*l@fsRBC9uKUQprJ`5Eb
z2F$76ezMr`Mqvo@GuZR+dNFVs(oydi-fSAtgCk$px7<If_na@b4t;s@Y5m(@HMNx*
zE^pH=l9w*XOByv?qW=AD9cpa(;K;|4UjO<FM8TF!Cl@xGhBqR5aQr`In%w+eZH8Un
zi3~NOCyo1uPSH;e2Z#FUC;c9f_s-2@P(?^Jsb=P$b;VUd`YL2B<dD-=2(`6?wlf%V
zc~37M$BQTLxgDzU!sOlWqYs@`pbqU_-@FwMd0>e>*Kl&uVgSMa0lmt+!dpOccwyC>
zXKpwZ5~65dd1pnaRt!|DU}7CY=C?7%{e)BkvkU4?Dk*5<q&eu7Drpb7Y^P)v!y_fl
zk)FYM3?-$~JNX@tR~IFfvp~+-^sky-my?I8<KPwkwMEf!SJ_H+Elx^9;|4mMLldx&
zU1#TV=F7yZ`x%0MY|wE>-rFKFv%4GQtX`<{dbK=|cD7kvyXy9e+3D`^JY1!bTavc;
z|HswYAMS#K!yF7NeUl1dB9m+FfRb=$p@EfN-kbG8CJ*BXF+FuzQh|{cxM(GORaTA?
z>m7dM+^C`rawak3ZnA@eFvMtsu@2G*r?W5jzBa=Lt+v(bdGI0A2$RZX@gifj3o*9J
zhWH41%8}t18D1xY*<ds|0C7lOW#MTBsumx%!=07B-F*0iEzKwxsegh27_l2QckA7!
zpfM-}$_#3cespgAoPPAjn{8)x_Q3P{E|Z!jH=CyP;M7)g^dVJjK2ivlBE8Qd{l!SX
ze*EHQWEA?7tw2N%#LVX8?Tz-0klyf44e<qGnKk8iir#Z}GkmVp^HvE~np&TFIJVh7
z@HkX#AN|JbZuY|-LZ~zL5x>ssy`vjVn;jF-jg;7Z&)C)?+p4$qK4s%u)fOcdGFaaF
z=;94OPXeEnMV>c;JpapVLN@CxJh48`ND~U*B631i?SrHtXAGADwRsvo*e0Z#BK{G?
z1;@xhSkY|dFsVA2gc=9QK$;^f{N&rk{4OLdqWWhT?xIp-=k2jAPea+|^K@@Tk378c
z$LpV5FGf$7J#YgGhri>652S4xF^#5DIc!Qzp0-kJ=Y93Th5O6v@iGnbEni(BdGADF
z@x9I$9+=xUAeCP;Z5lnH&xFS(zMvnU{ybeqFx}Yyg8bQ<AeDPe%_BR!!~7-hFgI<!
zae-vMV$6pJ;f)Li;s)7c#={8Kz*5Deoih5#7g@aazV$^Gw-Ql}SF#R>BTm|8)oRea
zJfDzdo;L%yBeDkjmUWhA@p)JSI2x&O7@#sz)HZ`C|KCygpD6a7+eNuZG49g+UAMj8
SGD(VR(+|A%9U_AH8vh025TY*t

literal 0
HcmV?d00001

diff --git a/transformers_utils/configs/speculators/algos.py b/transformers_utils/configs/speculators/algos.py
new file mode 100644
index 0000000..88bce3d
--- /dev/null
+++ b/transformers_utils/configs/speculators/algos.py
@@ -0,0 +1,38 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+SUPPORTED_SPECULATORS_TYPES = {}
+
+
+def register_speculator(name):
+    def decorator(fn):
+        SUPPORTED_SPECULATORS_TYPES[name] = fn
+        return fn
+
+    return decorator
+
+
+@register_speculator("eagle3")
+def update_eagle3(config_dict: dict, vllm_config: dict) -> None:
+    """
+    Apply Eagle-3 specific configuration transformations.
+
+    Eagle-3 specific fields:
+    - draft_vocab_size: Size of the draft model's vocabulary
+    - target_hidden_size: Hidden size of the target model
+    - norm_before_residual: Whether to apply norm before residual connection
+    - eagle_aux_hidden_state_layer_ids: List of layer indices from the base
+        model to use as auxiliary inputs for the Eagle3 drafter. These layers
+        provide intermediate hidden states that help the drafter make better
+        predictions. This is the standard field used in Eagle3 checkpoints.
+    """
+
+    vllm_config["draft_vocab_size"] = config_dict.get("draft_vocab_size")
+    if config_dict.get("target_hidden_size") is not None:
+        vllm_config["target_hidden_size"] = config_dict["target_hidden_size"]
+    vllm_config["norm_before_residual"] = config_dict.get("norm_before_residual", True)
+    vllm_config["architectures"] = ["Eagle3LlamaForCausalLM"]
+    if config_dict.get("eagle_aux_hidden_state_layer_ids"):
+        vllm_config["eagle_aux_hidden_state_layer_ids"] = config_dict[
+            "eagle_aux_hidden_state_layer_ids"
+        ]
diff --git a/transformers_utils/configs/speculators/base.py b/transformers_utils/configs/speculators/base.py
new file mode 100644
index 0000000..bf3a5d4
--- /dev/null
+++ b/transformers_utils/configs/speculators/base.py
@@ -0,0 +1,114 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from typing import Any
+
+from transformers import PretrainedConfig
+
+from vllm.transformers_utils.configs.speculators.algos import (
+    SUPPORTED_SPECULATORS_TYPES,
+)
+
+__all__ = ["SpeculatorsConfig"]
+
+
+class SpeculatorsConfig(PretrainedConfig):
+    model_type = "speculators"
+
+    @classmethod
+    def from_pretrained(
+        cls,
+        pretrained_model_name_or_path: str | os.PathLike,
+        **kwargs,
+    ) -> "SpeculatorsConfig":
+        """Load speculators Eagle config and convert to vLLM format."""
+        config_dict, _ = cls.get_config_dict(pretrained_model_name_or_path, **kwargs)
+
+        vllm_config = cls.extract_vllm_speculative_config(config_dict)
+        return cls(**vllm_config)
+
+    @classmethod
+    def extract_vllm_speculative_config(
+        cls, config_dict: dict[str, Any]
+    ) -> dict[str, Any]:
+        speculators_model_type = config_dict.get("speculators_model_type")
+        if speculators_model_type not in SUPPORTED_SPECULATORS_TYPES:
+            raise ValueError(
+                f"Expected one of: {SUPPORTED_SPECULATORS_TYPES}. "
+                "Please ensure you're loading a speculators-format model."
+            )
+
+        # validate fields
+        # TODO: @dsikka - use speculators pydantic model to validate
+        cls.validate_speculators_config(config_dict=config_dict)
+        # Convert from speculators config -> format that can be ingested by vLLM
+        vllm_config = cls.build_vllm_speculative_config(config_dict=config_dict)
+        # Apply anything specific to the supported algorithm
+        algo_updater = SUPPORTED_SPECULATORS_TYPES[speculators_model_type]
+        algo_updater(config_dict=config_dict, vllm_config=vllm_config)
+        return vllm_config
+
+    @classmethod
+    def validate_speculators_config(cls, config_dict: dict[str, Any]) -> None:
+        try:
+            spec_config = config_dict["speculators_config"]
+            methods = spec_config["proposal_methods"]
+            first_method = methods[0]
+            _ = first_method["speculative_tokens"]
+            _ = spec_config["verifier"]["name_or_path"]
+            _ = config_dict["speculators_model_type"]
+        except (KeyError, IndexError, TypeError) as e:
+            raise ValueError("Invalid speculators config structure") from e
+
+        if "transformer_layer_config" not in config_dict:
+            raise ValueError("Must provide transformer_layer_config")
+
+        if not isinstance(config_dict["transformer_layer_config"], dict):
+            raise TypeError(
+                "'transformer_layer_config' must be a dictionary if provided"
+            )
+
+    @classmethod
+    def build_vllm_speculative_config(
+        cls, config_dict: dict[str, Any]
+    ) -> dict[str, Any]:
+        """
+        Build vLLM-compatible speculative configuration from speculators format.
+
+        This method extracts and transforms speculative configuration from the
+        speculators format into the structure expected by vLLM.
+
+        Args:
+            config_dict: Configuration dictionary in speculators format
+
+        Returns:
+            Dictionary with vLLM-compatible speculative configuration
+        """
+        # Extract speculators configuration
+        spec_config = config_dict["speculators_config"]
+
+        # Currently we only support one proposal method
+        proposal_methods = spec_config.get("proposal_methods")
+        if not proposal_methods:
+            raise ValueError("No proposal methods found in speculators config")
+
+        first_method = proposal_methods[0]
+        num_speculative_tokens = first_method.get("speculative_tokens")
+
+        if num_speculative_tokens is None:
+            raise ValueError(
+                f"Missing 'speculative_tokens' in proposal method. Got: {first_method}"
+            )
+
+        # Build base vLLM speculative configuration
+        vllm_config = {
+            "method": config_dict.get("speculators_model_type"),
+            "num_speculative_tokens": num_speculative_tokens,
+            "target_model": spec_config.get("verifier")["name_or_path"],
+        }
+
+        # Merge transformer layer configuration if present
+        transformer_config = config_dict.get("transformer_layer_config", {})
+        vllm_config.update(transformer_config)
+
+        return vllm_config
diff --git a/transformers_utils/configs/step3_vl.py b/transformers_utils/configs/step3_vl.py
new file mode 100644
index 0000000..637b82d
--- /dev/null
+++ b/transformers_utils/configs/step3_vl.py
@@ -0,0 +1,174 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class Step3VisionEncoderConfig(PretrainedConfig):
+    model_type = "step3_vision_encoder"
+
+    def __init__(
+        self,
+        hidden_size=1792,
+        intermediate_size=3072,
+        output_hidden_size=4096,
+        num_hidden_layers=63,
+        num_attention_heads=16,
+        num_channels=3,
+        image_size=728,
+        patch_size=14,
+        hidden_act="quick_gelu",
+        layer_norm_eps=1e-5,
+        **kwargs,
+    ):
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.output_hidden_size = output_hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.image_size = image_size
+        self.layer_norm_eps = layer_norm_eps
+        self.hidden_act = hidden_act
+        super().__init__(**kwargs)
+
+
+class Step3TextConfig(PretrainedConfig):
+    model_type = "step3_text"
+    architectures = ["Step3TextForCausalLM"]
+
+    def __init__(
+        self,
+        hidden_size: int = 7168,
+        intermediate_size: int = 18432,
+        num_attention_heads: int = 64,
+        num_attention_groups: int = 1,
+        num_hidden_layers: int = 61,
+        max_seq_len: int = 65536,
+        vocab_size: int = 128815,
+        rms_norm_eps: float = 1e-5,
+        moe_intermediate_size: int = 5120,
+        moe_num_experts: int = 48,
+        moe_top_k: int = 3,
+        rope_theta: float = 500000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embedding: int = 65536,
+        share_expert_dim: int = 5120,
+        share_q_dim: int = 2048,
+        head_dim: int = 256,
+        norm_expert_weight: bool = False,
+        moe_layers_enum: tuple[int, ...] = (
+            4,
+            5,
+            6,
+            7,
+            8,
+            9,
+            10,
+            11,
+            12,
+            13,
+            14,
+            15,
+            16,
+            17,
+            18,
+            19,
+            20,
+            21,
+            22,
+            23,
+            24,
+            25,
+            26,
+            27,
+            28,
+            29,
+            30,
+            31,
+            32,
+            33,
+            34,
+            35,
+            36,
+            37,
+            38,
+            39,
+            40,
+            41,
+            42,
+            43,
+            44,
+            45,
+            46,
+            47,
+            48,
+            49,
+            50,
+            51,
+            52,
+            53,
+            54,
+            55,
+            56,
+            57,
+            58,
+            59,
+        ),
+        **kwargs,
+    ) -> None:
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_attention_heads = num_attention_heads
+        self.num_attention_groups = num_attention_groups
+        self.num_hidden_layers = num_hidden_layers
+        self.max_seq_len = max_seq_len
+        self.vocab_size = vocab_size
+        self.rms_norm_eps = rms_norm_eps
+        self.moe_intermediate_size = moe_intermediate_size
+        self.moe_num_experts = moe_num_experts
+        self.moe_top_k = moe_top_k
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.max_position_embedding = max_position_embedding
+        self.share_expert_dim = share_expert_dim
+        self.share_q_dim = share_q_dim
+        self.head_dim = head_dim
+        self.norm_expert_weight = norm_expert_weight
+        self.moe_layers_enum = moe_layers_enum
+
+        super().__init__(**kwargs)
+
+
+class Step3VLConfig(PretrainedConfig):
+    model_type = "step3_vl"
+
+    def __init__(
+        self,
+        vision_config: dict | Step3VisionEncoderConfig | None = None,
+        text_config: dict | Step3TextConfig | None = None,
+        understand_projector_stride: int = 1,
+        projector_bias: bool = True,
+        image_token_id: int = 128001,
+        **kwargs,
+    ) -> None:
+        if vision_config is None:
+            vision_config = Step3VisionEncoderConfig()
+        elif isinstance(vision_config, dict):
+            vision_config = Step3VisionEncoderConfig(**vision_config)
+        self.vision_config = vision_config
+
+        if text_config is None:
+            text_config = Step3TextConfig()
+        elif isinstance(text_config, dict):
+            text_config = Step3TextConfig(**text_config)
+        self.text_config = text_config
+
+        self.understand_projector_stride = understand_projector_stride
+        self.projector_bias = projector_bias
+        self.hidden_size = text_config.hidden_size
+        self.image_token_id = image_token_id
+
+        super().__init__(**kwargs)
diff --git a/transformers_utils/configs/ultravox.py b/transformers_utils/configs/ultravox.py
new file mode 100644
index 0000000..fc0360a
--- /dev/null
+++ b/transformers_utils/configs/ultravox.py
@@ -0,0 +1,118 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Adapted from https://github.com/fixie-ai/ultravox/blob/ecd58c4041030bae2ad15aa6bcf04ab43199ea02/ultravox/model/ultravox_config.py
+from typing import Any
+
+import transformers
+
+
+class UltravoxConfig(transformers.PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a
+    [`UltravoxForConditionalGeneration`]. It is used to instantiate an
+    Ultravox model according to the specified arguments, defining the model
+    architecture.
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to
+    control the model outputs. Read the documentation from [`PretrainedConfig`]
+    for more information.
+
+    Args:
+        audio_config (`Union[AutoConfig, dict]`,  *optional*):
+            Custom audio config or dict.
+        text_config (`Union[AutoConfig, dict]`, *optional*):
+            The config object of the text backbone.
+        audio_model_id (`str`, *optional*):
+            The model ID of the audio backbone.
+        text_model_id (`str`, *optional*):
+            The model ID of the text backbone.
+        ignore_index (`int`, *optional*, defaults to -100):
+            The ignore index for the loss function.
+        audio_token_index (`int`, *optional*, defaults to 32000):
+            The audio token index to encode the audio prompt.
+        stack_factor (`int`, *optional*, defaults to 8):
+            Audio downsampling factor for the multimodal projector.
+        norm_init (`float`, *optional*, defaults to 0.4):
+            The initialization value for the layer normalization.
+        projector_act (`str`, *optional*, defaults to `"swiglu"`):
+            The activation function used by the multimodal projector.
+        projector_ln_mid (`bool`, *optional*, defaults to `False`):
+            Whether to apply layer normalization at the middle of the
+            projector or at the end. Versions v0.4.1 and below
+            use `False`, but v0.5 and above use `True`.
+    """
+
+    wrapped_model_config: transformers.PretrainedConfig
+    model_type = "ultravox"
+    audio_token = "<|audio|>"
+    is_composition = False
+
+    def __init__(
+        self,
+        audio_config: dict[str, Any] | None = None,
+        text_config: dict[str, Any] | None = None,
+        audio_model_id: str | None = None,
+        text_model_id: str | None = None,
+        ignore_index: int = -100,
+        audio_token_index: int = 32000,
+        hidden_size: int = 4096,
+        stack_factor: int = 8,
+        norm_init: float = 0.4,
+        projector_act: str = "swiglu",
+        projector_ln_mid: bool = False,
+        **kwargs,
+    ):
+        self.ignore_index = ignore_index
+        self.audio_token_index = audio_token_index
+
+        self.hidden_size = hidden_size
+        self.stack_factor = stack_factor
+        self.norm_init = norm_init
+        self.projector_act = projector_act
+        self.projector_ln_mid = projector_ln_mid
+
+        # N.B. May set the wrapped_model_config below.
+        self.text_model_id = text_model_id
+        if text_model_id is None:
+            text_config = text_config or {}
+            self.wrapped_model_config = transformers.CONFIG_MAPPING[
+                text_config.get("model_type", "llama")
+            ](**text_config)
+
+        # N.B. May set the audio_config below.
+        self.audio_model_id = audio_model_id
+        if audio_model_id is None:
+            self.audio_model_id = None
+            audio_config = audio_config or {}
+            self.audio_config = transformers.CONFIG_MAPPING[
+                audio_config.get("model_type", "whisper")
+            ](**audio_config)
+
+        super().__init__(**kwargs)
+
+    def __setattr__(self, key, value):
+        # Since --hf-overrides are applied _after_ the UltravoxConfig is
+        # instantiated, load the configs implicitly when assigning text_model_id
+        # or audio_model_id. This allows:
+        #
+        #   --hf-overrides.text_model_id=<quantized variant>
+        #
+        # to behave as intended.
+        if key == "text_model_id" and value is not None:
+            from vllm.transformers_utils.config import get_config
+
+            self.wrapped_model_config = get_config(value, trust_remote_code=False)
+        elif key == "audio_model_id" and value is not None:
+            from vllm.transformers_utils.config import get_config
+
+            self.audio_config = get_config(value, trust_remote_code=False)
+
+        return super().__setattr__(key, value)
+
+    @property
+    def text_config(self) -> transformers.PretrainedConfig:
+        # When Ultravox wraps a multi-modal model (e.g. Gemma), we instantiate
+        # the full model, but the text config is the text config of the inner
+        # model.
+        return self.wrapped_model_config.get_text_config()
diff --git a/transformers_utils/detokenizer_utils.py b/transformers_utils/detokenizer_utils.py
new file mode 100644
index 0000000..560526b
--- /dev/null
+++ b/transformers_utils/detokenizer_utils.py
@@ -0,0 +1,198 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from .tokenizer import AnyTokenizer
+
+
+def _replace_none_with_empty(tokens: list[str | None]):
+    for i, token in enumerate(tokens):
+        if token is None:
+            tokens[i] = ""
+
+
+def _convert_tokens_to_string_with_added_encoders(
+    tokenizer: AnyTokenizer,
+    output_tokens: list[str],
+    skip_special_tokens: bool,
+    spaces_between_special_tokens: bool,
+) -> str:
+    # Adapted from
+    # https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/tokenization_utils.py#L921
+    # NOTE(woosuk): The following code is slow because it runs a for loop over
+    # the output_tokens. In Python, running a for loop over a list can be slow
+    # even when the loop body is very simple.
+    # Performance improvements: avoid repeated attribute and function lookups;
+    # localize frequently used objects;
+
+    sub_texts: list[str] = []
+    current_sub_text: list[str] = []
+    convert_tokens_to_string = tokenizer.convert_tokens_to_string
+    added_vocab_set = set(tokenizer.get_added_vocab())
+    all_special_tokens = (
+        set(tokenizer.all_special_tokens) if skip_special_tokens else ()
+    )
+
+    for token in output_tokens:
+        # Use precomputed set for skip-special check
+        if token in all_special_tokens:
+            continue
+        if token in added_vocab_set:
+            if current_sub_text:
+                sub_texts.append(convert_tokens_to_string(current_sub_text))
+                current_sub_text.clear()
+            sub_texts.append(token)
+        else:
+            current_sub_text.append(token)
+    if current_sub_text:
+        sub_texts.append(convert_tokens_to_string(current_sub_text))
+    if spaces_between_special_tokens:
+        return " ".join(sub_texts)
+    return "".join(sub_texts)
+
+
+# 5 is an arbitrary value that should work for all
+# tokenizers (bigger = more conservative).
+INITIAL_INCREMENTAL_DETOKENIZATION_OFFSET = 5
+
+
+def convert_prompt_ids_to_tokens(
+    tokenizer: AnyTokenizer,
+    prompt_ids: list[int],
+    skip_special_tokens: bool = False,
+) -> tuple[list[str], int, int]:
+    """Converts the prompt ids to tokens and returns the tokens and offsets
+    for incremental detokenization.
+
+    Note that not all tokens are converted to strings. Only the tokens that
+    are necessary for incremental detokenization are converted to strings.
+    """
+    # We do not need to convert the whole prompt to tokens.
+    # Offset a little more in case we have special tokens.
+    new_tokens = tokenizer.convert_ids_to_tokens(
+        prompt_ids[-INITIAL_INCREMENTAL_DETOKENIZATION_OFFSET - 2 :],
+        skip_special_tokens=skip_special_tokens,
+    )
+    read_offset = len(new_tokens)
+    prefix_offset = max(read_offset - INITIAL_INCREMENTAL_DETOKENIZATION_OFFSET, 0)
+    # This is required to guard against out-of-vocab prompt token ids
+    _replace_none_with_empty(new_tokens)  # type: ignore[arg-type]
+    return new_tokens, prefix_offset, read_offset
+
+
+def convert_ids_list_to_tokens(
+    tokenizer: AnyTokenizer,
+    token_ids: list[int],
+) -> list[str]:
+    """Detokenize the input ids individually.
+
+    Args:
+      tokenizer: tokenizer used by model under test
+      token_ids: convert these tokens (Python list form)
+
+    Returns:
+      Python list of token string representations
+
+    """
+    token_str_lst = []
+    for token_id in token_ids:
+        # use default skip_special_tokens.
+        token_str = tokenizer.decode([token_id])
+        if token_str is None:
+            token_str = ""
+        token_str_lst.append(token_str)
+    return token_str_lst
+
+
+# Based on
+# https://github.com/huggingface/text-generation-inference/blob/v0.9.4/server/text_generation_server/models/model.py#L62C9-L62C15
+# under Apache 2.0 license
+def detokenize_incrementally(
+    tokenizer: AnyTokenizer,
+    all_input_ids: list[int],
+    prev_tokens: list[str] | None,
+    prefix_offset: int,
+    read_offset: int,
+    skip_special_tokens: bool = False,
+    spaces_between_special_tokens: bool = True,
+) -> tuple[list[str], str, int, int]:
+    """Detokenizes the input ids incrementally and returns the new tokens
+    and the new text.
+
+    If `prev_tokens` is None, this function will convert the input ids to
+    tokens and return the tokens and the new text. Otherwise, it will return the
+    new tokens and the new text.
+
+    This function will also return the new prefix offset and the new read
+    offset to be used in the next iteration.
+
+    The offsets are necessary to defeat cleanup algorithms in the decode which
+    decide to add a space or not depending on the surrounding ids.
+
+    Args:
+        tokenizer: The tokenizer to use.
+        all_input_ids: The input ids. The last id is the new token id.
+        prev_tokens: The previous tokens. If None, this function will convert
+            the input ids to tokens and return the tokens and the new text.
+        prefix_offset: The prefix offset.
+        read_offset: The read offset.
+        skip_special_tokens: Whether to skip special tokens.
+        spaces_between_special_tokens: Whether to add spaces between special
+            tokens.
+    """
+    new_token_id = all_input_ids[-1]
+    # This is the first iteration for this sequence
+    is_first_iter = prev_tokens is None
+    if is_first_iter:
+        (prev_tokens, prefix_offset, read_offset) = convert_prompt_ids_to_tokens(
+            tokenizer, all_input_ids[:-1], skip_special_tokens=skip_special_tokens
+        )
+    assert prev_tokens is not None
+
+    # If the new token id is out of bounds, return an empty string.
+    if 0 <= new_token_id < len(tokenizer):
+        # Put new_token_id in a list so skip_special_tokens is respected
+        new_tokens = tokenizer.convert_ids_to_tokens(
+            [new_token_id], skip_special_tokens=skip_special_tokens
+        )
+        if isinstance(new_tokens, str):
+            new_tokens = [new_tokens]
+    else:
+        new_tokens = [""]
+    output_tokens = prev_tokens + new_tokens
+
+    # If this is the first iteration, return all tokens.
+    if is_first_iter:
+        new_tokens = output_tokens
+
+    # The prefix text is necessary only to defeat cleanup algorithms in
+    # the decode which decide to add a space or not depending on the
+    # surrounding ids.
+    if tokenizer.is_fast or not tokenizer.get_added_vocab():
+        prefix_text = tokenizer.convert_tokens_to_string(
+            output_tokens[prefix_offset:read_offset]
+        )
+        new_text = tokenizer.convert_tokens_to_string(output_tokens[prefix_offset:])
+    else:
+        prefix_text = _convert_tokens_to_string_with_added_encoders(
+            tokenizer,
+            output_tokens[prefix_offset:read_offset],
+            skip_special_tokens=skip_special_tokens,
+            spaces_between_special_tokens=spaces_between_special_tokens,
+        )
+        new_text = _convert_tokens_to_string_with_added_encoders(
+            tokenizer,
+            output_tokens[prefix_offset:],
+            skip_special_tokens=skip_special_tokens,
+            spaces_between_special_tokens=spaces_between_special_tokens,
+        )
+
+    if len(new_text) <= len(prefix_text) or new_text.endswith("�"):
+        # utf-8 char at the end means it's a potential unfinished byte sequence
+        # from byte fallback tokenization.
+        # If it's in the middle, it's probably a real invalid id generated
+        # by the model
+        return new_tokens, "", prefix_offset, read_offset
+
+    new_text = new_text[len(prefix_text) :]
+    return new_tokens, new_text, read_offset, len(output_tokens)
diff --git a/transformers_utils/dynamic_module.py b/transformers_utils/dynamic_module.py
new file mode 100644
index 0000000..24ead83
--- /dev/null
+++ b/transformers_utils/dynamic_module.py
@@ -0,0 +1,59 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+
+from transformers.dynamic_module_utils import get_class_from_dynamic_module
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def try_get_class_from_dynamic_module(
+    class_reference: str,
+    pretrained_model_name_or_path: str,
+    cache_dir: str | os.PathLike | None = None,
+    force_download: bool = False,
+    resume_download: bool | None = None,
+    proxies: dict[str, str] | None = None,
+    token: bool | str | None = None,
+    revision: str | None = None,
+    local_files_only: bool = False,
+    repo_type: str | None = None,
+    code_revision: str | None = None,
+    warn_on_fail: bool = True,
+    **kwargs,
+) -> type | None:
+    """
+    As `transformers.dynamic_module_utils.get_class_from_dynamic_module`,
+    but ignoring any errors.
+    """
+    try:
+        return get_class_from_dynamic_module(
+            class_reference,
+            pretrained_model_name_or_path,
+            cache_dir=cache_dir,
+            force_download=force_download,
+            resume_download=resume_download,
+            proxies=proxies,
+            token=token,
+            revision=revision,
+            local_files_only=local_files_only,
+            repo_type=repo_type,
+            code_revision=code_revision,
+            **kwargs,
+        )
+    except Exception:
+        location = "ModelScope" if envs.VLLM_USE_MODELSCOPE else "HF Hub"
+
+        if warn_on_fail:
+            logger.warning(
+                "Unable to load %s from %s on %s.",
+                class_reference,
+                pretrained_model_name_or_path,
+                location,
+                exc_info=True,
+            )
+
+        return None
diff --git a/transformers_utils/processor.py b/transformers_utils/processor.py
new file mode 100644
index 0000000..b3469c1
--- /dev/null
+++ b/transformers_utils/processor.py
@@ -0,0 +1,402 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+import inspect
+from functools import lru_cache
+from typing import TYPE_CHECKING, Any, cast, get_args, get_type_hints
+
+from transformers import (
+    AutoFeatureExtractor,
+    AutoImageProcessor,
+    AutoProcessor,
+    AutoVideoProcessor,
+)
+from transformers.feature_extraction_utils import FeatureExtractionMixin
+from transformers.image_processing_utils import BaseImageProcessor
+from transformers.processing_utils import ProcessorMixin
+from transformers.video_processing_utils import BaseVideoProcessor
+from typing_extensions import TypeVar
+
+from vllm.transformers_utils.utils import convert_model_repo_to_path
+from vllm.utils.func_utils import get_allowed_kwarg_only_overrides
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+
+_P = TypeVar("_P", bound=ProcessorMixin, default=ProcessorMixin)
+_V = TypeVar("_V", bound=BaseVideoProcessor, default=BaseVideoProcessor)
+
+
+class HashableDict(dict):
+    """
+    A dictionary that can be hashed by lru_cache.
+    """
+
+    # NOTE: pythonic dict is not hashable,
+    # we override on it directly for simplicity
+    def __hash__(self) -> int:  # type: ignore[override]
+        return hash(frozenset(self.items()))
+
+
+class HashableList(list):
+    """
+    A list that can be hashed by lru_cache.
+    """
+
+    def __hash__(self) -> int:  # type: ignore[override]
+        return hash(tuple(self))
+
+
+def _get_processor_factory_fn(processor_cls: type | tuple[type, ...]):
+    if isinstance(processor_cls, tuple) or processor_cls == ProcessorMixin:
+        return AutoProcessor.from_pretrained
+    if hasattr(processor_cls, "from_pretrained"):
+        return processor_cls.from_pretrained
+
+    return processor_cls
+
+
+@lru_cache
+def _collect_dynamic_keys_from_processing_kwargs(kwargs_cls: type) -> set[str]:
+    dynamic_kwargs: set[str] = set()
+    if kwargs_cls is None:
+        return dynamic_kwargs
+    # get kwargs annotations in processor
+    # merge text_kwargs / images_kwargs / videos_kwargs / audio_kwargs
+    kwargs_type_annotations = get_type_hints(kwargs_cls)
+    for kw_type in ("text_kwargs", "images_kwargs", "videos_kwargs", "audio_kwargs"):
+        if kw_type in kwargs_type_annotations:
+            kw_annotations = get_type_hints(kwargs_type_annotations[kw_type])
+            for kw_name in kw_annotations:
+                dynamic_kwargs.add(kw_name)
+    dynamic_kwargs |= {"text_kwargs", "images_kwargs", "videos_kwargs", "audio_kwargs"}
+    return dynamic_kwargs
+
+
+def _merge_mm_kwargs(
+    model_config: "ModelConfig",
+    processor_cls: type | tuple[type, ...],
+    /,
+    **kwargs,
+):
+    mm_config = model_config.get_multimodal_config()
+    merged_kwargs = mm_config.merge_mm_processor_kwargs(kwargs)
+
+    factory = _get_processor_factory_fn(processor_cls)
+    allowed_kwargs = get_allowed_kwarg_only_overrides(
+        factory,
+        merged_kwargs,
+        requires_kw_only=False,
+        allow_var_kwargs=True,
+    )
+    # NOTE: Pythonic dict is not hashable and will raise unhashable type
+    # error when calling `cached_get_processor`, therefore we need to
+    # wrap it to a hashable dict.
+    for key, value in allowed_kwargs.items():
+        if isinstance(value, dict):
+            allowed_kwargs[key] = HashableDict(value)
+        if isinstance(value, list):
+            allowed_kwargs[key] = HashableList(value)
+
+    return allowed_kwargs
+
+
+def get_processor(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
+    **kwargs: Any,
+) -> _P:
+    """Load a processor for the given model name via HuggingFace."""
+    if revision is None:
+        revision = "main"
+    try:
+        processor_name = convert_model_repo_to_path(processor_name)
+        if isinstance(processor_cls, tuple) or processor_cls == ProcessorMixin:
+            processor = AutoProcessor.from_pretrained(
+                processor_name,
+                *args,
+                revision=revision,
+                trust_remote_code=trust_remote_code,
+                **kwargs,
+            )
+        elif issubclass(processor_cls, ProcessorMixin):
+            processor = processor_cls.from_pretrained(
+                processor_name,
+                *args,
+                revision=revision,
+                trust_remote_code=trust_remote_code,
+                **kwargs,
+            )
+        else:
+            # Processors that are standalone classes unrelated to HF
+            processor = processor_cls(*args, **kwargs)
+    except ValueError as e:
+        # If the error pertains to the processor class not existing or not
+        # currently being imported, suggest using the --trust-remote-code flag.
+        # Unlike AutoTokenizer, AutoProcessor does not separate such errors
+        if not trust_remote_code:
+            err_msg = (
+                "Failed to load the processor. If the processor is "
+                "a custom processor not yet available in the HuggingFace "
+                "transformers library, consider setting "
+                "`trust_remote_code=True` in LLM or using the "
+                "`--trust-remote-code` flag in the CLI."
+            )
+            raise RuntimeError(err_msg) from e
+        else:
+            raise e
+
+    if not isinstance(processor, processor_cls):
+        raise TypeError(
+            "Invalid type of HuggingFace processor. "
+            f"Expected type: {processor_cls}, but "
+            f"found type: {type(processor)}"
+        )
+
+    return processor
+
+
+cached_get_processor = lru_cache(get_processor)
+
+
+@lru_cache
+def get_processor_kwargs_from_processor(processor: _P) -> set[str]:
+    try:
+        # get kwargs annotations in processor
+        call_kwargs = inspect.signature(type(processor).__call__).parameters.get(
+            "kwargs"
+        )
+        call_kwargs_annotations = call_kwargs.annotation if call_kwargs else None
+        # if the processor has explicit kwargs annotation, use it
+        if call_kwargs_annotations not in (None, inspect._empty):
+            # get_type_hints will parse all type annotations at runtime,
+            # and if an annotation refers to a type or
+            # name that hasn’t been imported or defined, it will raise an error.
+            # So we use __annotations__ to get the raw annotations directly.
+            return _collect_dynamic_keys_from_processing_kwargs(
+                get_args(call_kwargs_annotations)[0]
+            )
+        # otherwise, try to get from ProcessingKwargs
+        else:
+            module_name = type(processor).__module__
+            mod = importlib.import_module(module_name)
+            # find *ProcessingKwargs in the module
+            processor_kwargs: set[str] = set()
+            for name, obj in vars(mod).items():
+                if name.endswith("ProcessingKwargs"):
+                    processor_kwargs = (
+                        processor_kwargs
+                        | _collect_dynamic_keys_from_processing_kwargs(obj)
+                    )
+            return processor_kwargs
+    except Exception:
+        return set()
+
+
+def cached_get_processor_without_dynamic_kwargs(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
+    **kwargs: Any,
+) -> _P:
+    # Step 1: use default kwargs to get a temporary processor instance
+    processor = cached_get_processor(
+        processor_name,
+        revision=revision,
+        trust_remote_code=trust_remote_code,
+        processor_cls=processor_cls,  # type: ignore[arg-type]
+    )
+
+    # Step 2: use temporary processor collect dynamic keys
+    dynamic_keys = get_processor_kwargs_from_processor(processor)
+
+    # Step 3: use dynamic_keys filter kwargs
+    filtered_kwargs = {k: v for k, v in kwargs.items() if k not in dynamic_keys}
+
+    # Step 4: use filtered kwargs to get final processor instance
+    final_processor = cached_get_processor(
+        processor_name,
+        revision=revision,
+        trust_remote_code=trust_remote_code,
+        processor_cls=processor_cls,  # type: ignore[arg-type]
+        **filtered_kwargs,
+    )
+
+    return final_processor
+
+
+def cached_processor_from_config(
+    model_config: "ModelConfig",
+    processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
+    **kwargs: Any,
+) -> _P:
+    return cached_get_processor_without_dynamic_kwargs(
+        model_config.model,
+        revision=model_config.revision,
+        trust_remote_code=model_config.trust_remote_code,
+        processor_cls=processor_cls,  # type: ignore[arg-type]
+        **_merge_mm_kwargs(model_config, processor_cls, **kwargs),
+    )
+
+
+def get_feature_extractor(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    **kwargs: Any,
+):
+    """Load an audio feature extractor for the given model name
+    via HuggingFace."""
+    try:
+        processor_name = convert_model_repo_to_path(processor_name)
+        feature_extractor = AutoFeatureExtractor.from_pretrained(
+            processor_name,
+            *args,
+            revision=revision,
+            trust_remote_code=trust_remote_code,
+            **kwargs,
+        )
+    except ValueError as e:
+        # If the error pertains to the processor class not existing or not
+        # currently being imported, suggest using the --trust-remote-code flag.
+        # Unlike AutoTokenizer, AutoImageProcessor does not separate such errors
+        if not trust_remote_code:
+            err_msg = (
+                "Failed to load the feature extractor. If the feature "
+                "extractor is a custom extractor not yet available in the "
+                "HuggingFace transformers library, consider setting "
+                "`trust_remote_code=True` in LLM or using the "
+                "`--trust-remote-code` flag in the CLI."
+            )
+            raise RuntimeError(err_msg) from e
+        else:
+            raise e
+    return cast(FeatureExtractionMixin, feature_extractor)
+
+
+cached_get_feature_extractor = lru_cache(get_feature_extractor)
+
+
+def cached_feature_extractor_from_config(
+    model_config: "ModelConfig",
+    **kwargs: Any,
+):
+    return cached_get_feature_extractor(
+        model_config.model,
+        revision=model_config.revision,
+        trust_remote_code=model_config.trust_remote_code,
+        **_merge_mm_kwargs(model_config, AutoFeatureExtractor, **kwargs),
+    )
+
+
+def get_image_processor(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    **kwargs: Any,
+):
+    """Load an image processor for the given model name via HuggingFace."""
+    try:
+        processor_name = convert_model_repo_to_path(processor_name)
+        processor = AutoImageProcessor.from_pretrained(
+            processor_name,
+            *args,
+            revision=revision,
+            trust_remote_code=trust_remote_code,
+            **kwargs,
+        )
+    except ValueError as e:
+        # If the error pertains to the processor class not existing or not
+        # currently being imported, suggest using the --trust-remote-code flag.
+        # Unlike AutoTokenizer, AutoImageProcessor does not separate such errors
+        if not trust_remote_code:
+            err_msg = (
+                "Failed to load the image processor. If the image processor is "
+                "a custom processor not yet available in the HuggingFace "
+                "transformers library, consider setting "
+                "`trust_remote_code=True` in LLM or using the "
+                "`--trust-remote-code` flag in the CLI."
+            )
+            raise RuntimeError(err_msg) from e
+        else:
+            raise e
+
+    return cast(BaseImageProcessor, processor)
+
+
+cached_get_image_processor = lru_cache(get_image_processor)
+
+
+def cached_image_processor_from_config(
+    model_config: "ModelConfig",
+    **kwargs: Any,
+):
+    return cached_get_image_processor(
+        model_config.model,
+        revision=model_config.revision,
+        trust_remote_code=model_config.trust_remote_code,
+        **_merge_mm_kwargs(model_config, AutoImageProcessor, **kwargs),
+    )
+
+
+def get_video_processor(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    processor_cls_overrides: type[_V] | None = None,
+    **kwargs: Any,
+):
+    """Load a video processor for the given model name via HuggingFace."""
+    try:
+        processor_name = convert_model_repo_to_path(processor_name)
+        processor_cls = processor_cls_overrides or AutoVideoProcessor
+        processor = processor_cls.from_pretrained(
+            processor_name,
+            *args,
+            revision=revision,
+            trust_remote_code=trust_remote_code,
+            **kwargs,
+        )
+    except ValueError as e:
+        # If the error pertains to the processor class not existing or not
+        # currently being imported, suggest using the --trust-remote-code flag.
+        # Unlike AutoTokenizer, AutoVideoProcessor does not separate such errors
+        if not trust_remote_code:
+            err_msg = (
+                "Failed to load the video processor. If the video processor is "
+                "a custom processor not yet available in the HuggingFace "
+                "transformers library, consider setting "
+                "`trust_remote_code=True` in LLM or using the "
+                "`--trust-remote-code` flag in the CLI."
+            )
+            raise RuntimeError(err_msg) from e
+        else:
+            raise e
+
+    return cast(BaseVideoProcessor, processor)
+
+
+cached_get_video_processor = lru_cache(get_video_processor)
+
+
+def cached_video_processor_from_config(
+    model_config: "ModelConfig",
+    processor_cls: type[_V] | None = None,
+    **kwargs: Any,
+):
+    return cached_get_video_processor(
+        model_config.model,
+        revision=model_config.revision,
+        trust_remote_code=model_config.trust_remote_code,
+        processor_cls_overrides=processor_cls,  # type: ignore[arg-type]
+        **_merge_mm_kwargs(model_config, AutoVideoProcessor, **kwargs),
+    )
diff --git a/transformers_utils/processors/__init__.py b/transformers_utils/processors/__init__.py
new file mode 100644
index 0000000..76b6d3d
--- /dev/null
+++ b/transformers_utils/processors/__init__.py
@@ -0,0 +1,15 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Multi-modal processors may be defined in this directory for the following
+reasons:
+
+- There is no processing file defined by HF Hub or Transformers library.
+- There is a need to override the existing processor to support vLLM.
+"""
+
+from vllm.transformers_utils.processors.deepseek_vl2 import DeepseekVLV2Processor
+from vllm.transformers_utils.processors.ovis import OvisProcessor
+from vllm.transformers_utils.processors.ovis2_5 import Ovis2_5Processor
+
+__all__ = ["DeepseekVLV2Processor", "OvisProcessor", "Ovis2_5Processor"]
diff --git a/transformers_utils/processors/__pycache__/__init__.cpython-312.pyc b/transformers_utils/processors/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7527f9288ca9dc60cae6bfaf1addefa094c5414e
GIT binary patch
literal 727
zcma)4Pm9zr6i=p|&QcuNizhF+$q3WJpsb1rf~<3xRaurj^b$IgH#1?=rX*?I3VZPE
z2k`FA&*C>I>_xqJQx-3td@at-fR}xcm*nN;_b24ba2OH{<$sVDJwm><n@!-pi>n7X
zeI$Y;L{QOFH0vcj+O9q2Wq#s!YhU%VAPFd05z+rdlR+Jf2JgOyN2PLdoN19NRv5hi
zYqhZ~OKUa<CSWOZ5KQLGt)*o`8dx}OYPQq{OMtUd`mM}Yp@G!u+&&4zF*{j<0frZH
zy+Oqmwv=j%Ij`CDkWI@uL#Pvz<`ywCKyoGLCN*`m3zV`PP>9n^S73}3(9y%Ww62A|
z*50<*vM981teVY^qVPxiOe5Odc>z#ZfV0!t>EzAED;^AASJLhl_S?dQKit+l;~|Lg
z+tkPOYP8o3I2U@sc@tMkWs%#lz)L5Ujjl!6Nc`jGm6~)|&Al7k(x{^&ZSLQ&8&!7#
zTXm^YoPQ=)sF(aXj$Ky7g)GJ{H7juA^YY;Fqq75u@wwxoc59t?M&kdC#9JdV=Q5X$
y^Qfqsy{GtbN(Il%ZKR+$>|IPhJxb}XAfW#5eL|1vC3${HUVaUy?+4}<p8o|1W9jq&

literal 0
HcmV?d00001

diff --git a/transformers_utils/processors/__pycache__/deepseek_ocr.cpython-312.pyc b/transformers_utils/processors/__pycache__/deepseek_ocr.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1405add4e044281305c9c2393c1b21bfd0f4b228
GIT binary patch
literal 16200
zcmcJ0Yj7M#df3dqAG0s)1CIr;izl%l2tLIpL=hApB0&O@2<dE4%xZ}lfC~b<;Os&q
zp}`5hW0jV+&H`<p1p0L5GNnXdNvXqCQa0tf<akM{d?}~OJ6xVInxo5fj#UYNq_Q-a
zy1P`WobT&->;hawm$=;I_VnZH?ytY@{`&jA{_vMBmxF>ZY5KinX+K5%0yA15HIP{~
z(G>MD#ZoLiNsTC9dW0r<!<2CZsv&KdG*4MZEK}AIE6E!tZBzCU`;=qEG36X_k}}gI
zGvyj_LE1dxW-TKg);i*4Z6iL`K2pOvu2Ca?&d1e^8CWM5U>W$ixF8qe0$gCsP!Fi!
zZ_L8FubD?`5t6mAo-q^ay+)7JRpfn;uQyP~DYoVs#ri)tC{r3~AY}n43v#Z{jcRGw
zKymhoy-Kb!2B@&smZq-KvCtE&9*h}e^NFd%I49f4XJ|STGs>?1nQZ!1K0V51GHG6B
z4kxms7mjg>><rJzHK!&MQ;Fg9MJ|<`<@jTXOg2W#ZXNt|@=7w5q)Zg`WFD{`eu5}J
zu|PCx#xd1^X+(SV-$C>-m4$^-0!x3crsvG8Va_5L1mi3~&shcf2zBl#q-=tXH6j7w
zYr^lW6H4t_l?+f$3HDi7biF5s;1J9g0TbRVIOfcPZO-yRCn@Wqs0{r<k6>lZf(ge_
zV|4^lqKyKz7mpD5BczApCQ7iJp<<Rn*_cd?#SBjnbKZ>+&YGnDD<mL1dI@PgHknRj
zWn<!eCgzlxL}r>B&BpmeHkp=P*#tk%skw}7zMN#U7i7x?E;)W7D?5_7O7RSkT=tyj
zGAdl0O^%Jpj&gx)O7L7lHY<Jl)jrn@<REpVWd`U*Ma$uTy}30zHNAB@IlV<`x#h~t
zo_%{S?%}phCeLr3zM8#|PHlZ>a&l^GmQSQIV`+Yh<1_J@Y;rQQbz0jonXN3xO=mdn
zVmv*{_fB7x>&KEQHa<F;&LHZQ=<v;eLL>Y#Hz1m)9)`k;NB?kgen|4w&YzT=-i6)Q
z56&O?xvx2AmYUo0{WmWx1(z<}sS}&G7i{5&!Mer9Le~MY{y;I<mvczY;G*ZgbCcBE
zl^c@ko3EdgT(yfY6<ytu$G<STcv1{?E;Wduoy*+a{vTctLkI5#?_K&yoftY%^qi2I
zT5mW?KB^{Cs-c)r!4zBtq$t@sl}yD`GgFXATp<Yy&%tR(jp8zE!3GJkr6(ZqKJ`9b
zxvg__jsk8#U$d3B>2>Nl%^GF_T05IZsL$2j^sQ^i!nRX_U|@~cs4q+!^qf&J!uB%{
zj_Rie0Il%b3BT2kAo{LhfTH1i3Dmhma7O5gb4Cfk_|^`7t_NTYUjtJIFh=cEUN>EA
zz>Tiw%@^N-JUO*vhL7lvX`1?=!9;z~3%|oAU_JlJc$tnF$k7-C#sNDuHO|E>vY~gI
zOs8ZzDbo{t3!u(NA<7`*zzsS-&o@C*w)c&5DelTNe{i;YG%-0kGnvS8Yj#wow{J2H
zRhfgmI_y^LiiPM`|Bd?9JXNABy_Uc8_2l{=`a%nr7F!k*H#<IxJeQT6OzzV47Z#4+
zcZTzHzW=s)srG(!Tggs2oVorFEF}w7(^9fhcF!YUv}A_wSH7NK6P&-@Z|S$wWSVPM
z2RDcxeyc!6vMwx5I2l|!gp<KypP}v;2g?lP4h3YQuViqIqY4pheZYgyvx$SVv9G6r
z3c4GbXS@*2Q+F@j^L?4Um-s3D6ZX&F<s(oCLl`e|SAqE(GhCMMfFjuf%s<PqF%ww{
zWla!uIiOU;*Kn+i398<HJF22sy8&YSE&zjVMrB@v=-2bqGYhr3_Zcq8V_1vJdFxWk
zZRZ1D&#D=URw>J7%lzqQZmO|0zeRlE<b&`)!Bi(XBL!20AbxBVcZe2n?~@~V3=+8O
z1)AIqmhzs)ovI%oYxyt=7Qu?}g6VVhz~MauYeB;;Nw6lYDrT1*X+Aj~SNOA&q!lJz
zL8cH4FS}+kTs(VWX6k$@k(}gfpo~ZQ@nMKEc8G9elb|fCb2L4Z%Ep12av2_E7z%%x
zK8Rq;dZ|Ej-YNPw&z}O41$&l`FMp#LcoB$Wp~AZ)TVP=-Ke8OYJF#jsge?VAZOKM4
zK&ECwrZso3PNe{_FQgJOto7k7sGBpx{c9F1goc&0q6LFaLt6!dvI;hY2MTL6v<pVT
zuIzDgi#teO-|KTutrouJQU-8BEY}6Nv7KWEoi)0~sX2ER2}y#$Xf+@w3<LHa!2>Of
zvoMoc*d>Y_QBelv&y@k3!jhk>0qDw_G1Ht^a82M1x-JM_4UajW;GS@;tA?!L(;$F5
zzG<Se9t}otYc&FM5oHs@N$Oj$C;1)KU|7S&J+PnJH=q_=4;9p^*#MUsZA6+9+=6|~
zaE9XXfW~aH3FVFQ-k0IlBPE1Am`3^Zv}{RCPje|&HcoP>m|r#%Ic42R;P*jyJYY)k
zD4VW32{NPd5#>Z_a*!(cSk418znGDo%Ft{)IW;bORZ)Y(EXYL}9!N#W#`EbbvOP0B
znamO}mwxy#o58cEp0~=6a`tN2tEt3Pax^~8b87GWNoX(xzf1~vFC0M&6=}aUadSd6
zh38K$I3<76|J#9dz!5G)cP{sf(cPkd_xvdd@-4fTUlUvQh=D!xrzKZ3?-N~Zh0c9<
zTg1*j(bYG942JdBecW@SC(kTR6(W7bniuB>q}uv|De%x$v#|U3&*kVxF84xDzFVy6
z5nWrB8${-S1SNg>{i1)1=;~eW7MVWD?a@lyy~{14Yv=N;$n<0Jsr*SX&?~yPE^ilI
zyY4zf=5Wbw_Be9JlA8)fR|4%~pgn)47>MQUlC5sV77=Zcy!~gk?vkH!ho1!~##8V_
ziq2^M*nMYr!PH%Fc7J6JeBv)OZ7J5nX!q-PN_9=Qn43&~V!6A}@nW&=V9r(U%k{w4
zD>=i3rfmi1wt{J!!nA<)dO+z4!|K}*eN1r_>TM$iJB9yP8%uLW&V>KQh-$zZ*5!?y
z8T2g^=vx-n%vmQ;N?#X1KC@gijo7YQfy=vzLNu(2xw2`BOQhg-%(AjQ1#)j<63)gb
zUV2)<i-=r4G9-Yl(gGFN>L|E&sJJes0TZO+z)+Ns)mhzyHcPDvzM4chPS2SHBi|vI
zsxh64KA4KeY7%hK8Fu-&SG1`@4Y&wZd;wP-ud5V~l0?kTpN0=Vh!LI<nI4vH!|7oz
z1;PRU5|-EpH8RQ8m(x?zApFaAU2lk)fxU2(W9$3z>kx6!L%7Lg3batXO~{#5<)3&Q
zbj)l#K3ltXm3p;`%g`VLcK{w+h6>i_Odr@Ke+WJ{slF9H?#Gent=XHi-xC&7phx_j
zGaxaM6{b^UIzPSi*}J#jUEX!qU)=QK1Lol4`i5KeH|q;+yNmUEa;ERN$>x-;)5%HX
zD{FKBTz|3$kRg$)RbO)`P=iobaSZ~pTS8Hqe*@}cM*dCs@V|{wFGLya4(6`U90aS$
zsxwzAa@Zya(L5zF-VX<_4=(O0GHp3p@_2JLg8E?0c*n@&ol_Bk*iH?@zPH8WzzDf`
zTz16cQ)zZ)64OjPerYB#sn(dYGt-kCkJ6-UI-gEY^1p?hA*TFUjJ9BeawWl<KZPlb
z-hp2R=XVXcY0m+vd!N+M{M7C-?|tO<FC1NbA>UC5Y!cmFB{P%(43xgG*pUww{GFm}
zQ^|^@HY!lJifu}*2D2}3{>*vX`HX_3G9(T(3O_xdV2xq*cVRK!uV5Z5Jz``H<MfD0
zVI%8fwiVcjnKg32IN%3tgR|j3mBm=r<*l5ZwQ&yC4nGH^o$zJg>*6e9b)f#yVD52^
zI5~#(T+@&Bhzs)Gio6^0zKXnuZDVVoCqMKQ;OxM}g22SQYzWLm7MvPe%Q?VwR0pi9
zhV#QH^#I)fwSfuTh3f)o5hndKLO(&y&o+JXo40AcW*G^oOt+nleC<do)@&3;bg(UG
z?#fYDz{mxPYlj>-q8bW@UVdG-Ac3L8z1GOYBZCCqp&6ZI$26Lx6my7|O<zuB5>v1v
zRa1&;EFlcrP6UKFux*7+Ih8!=O14iY*tnAPC0I6&_LyX1QY~_1#<FoVae&FjIhDv<
z1la)CSXQ<t$KeLx;z@S2Qn*7Vh2r4q|AuY$UDW<{(pU2StbS)eDIOUTSiCLDH73ZZ
zA~cALX2{{~LIQ}_R9wF?SiDzs?wmy#M}ab-ApV6>vkd|i7{t^%97`8mSr}^~q}7$b
zas3{tUOxef|N1cBv;i#Y?&|^=+-ymm6N2zr6^jY953LImE$a#(D_ARTE1y=6DqS2E
zFA_jGq2l_A33kYp>E(c2K!<cf4w)zk0;nT#okH2ITKRRiKz-+J7@HoWla%24l>U7h
ztgC1ce1g3339ctF^mR9-X_6bu@)xnLUUr-~-GBUO{LG1wqdX2F+Yk4jQS!3=d;&B`
zB5{vF6@LMvBu04S^5YmGvy(mQrq+ZNp2JcGb~l?$jYAJCN5+$Dp4;VMX?zE)CFf-$
z7$0SK#p!_U&7)$-PhvEMQ3|6pM6x+EGtKdY?Z-UIjfG?K1W$t4I%G*tIOnR}SuS1%
z>t{x`$H7RL$YkR23|>!g?Nx+%<ubvmX11vs<Irz^G$m&KJ49gXc^0L@9dO}$9xC^~
z)X<1IsiB>G)I#+WZONG)*qR<kwn)BkzJ59R%xH)@u&fboorX3P9Hh>koasaNb@u~X
z8|v8J4-Z~HxZ-RRooxl@X7$cpVYZ0OmZf*^o+$Jld%zq=-J$JP>Sk)Cd574%W2Jew
z*t~oB-D300*m+nAcjC8Bl})6U9hhy_kX&2)*yg%!6#<wDJ~bNcjz{jmsu{lI_FH3Y
zLfHd3%qj{J8!7q|x*Q5XYS3g7gSwN>r!xvugiUdWChJ{kkFsEWlAR4#T@|JBKS0;3
zcogTUM;`x&-@N|K6;HS5=`Ps1{|OQ2DiG(t1*5M)8*4X2TdDjDXv1H_2*sIy8tUq|
z5FWYbki^;zkyI-Gat)HQDa&1fR|cTFY=l{?QBsg4ku8yf#D-f!zm@<<4PY&%ztEKk
zP(=*97g#p-w=Rr>y<!&1h`Qnx@OsfNuQKR3t-_c<5-<)Pi_!d5s0C{yVO|z4HJS#t
z^=&BQ-^U8G!e)LC3qHW;I}piqcAav-e+b1J>_nx{zXE{FF^F^td4*{anU;L}-4_Z>
zOOff%(O)^;k}vpi_(piam8V5-ORgV_yuO9ukI&vXyKtHml|^cP0s7-xAzGsj;1%wK
z-zpmMKBf#C*xITcLG@BG;H9$eI9gZ^X``tMWaw|g0BckQ{tuvJ13D<}SFj0QuRsS+
zdoHV-$#&7xo_|gBY+vexs9@VpHok08WgiQ<A%Ih(^#}EXwK_1$7-W0>5hPFt{vFV8
z=B+2;#r1P2!2sqg)MTj%<WB1XY!(9x{{$mQE=W8GZ&?*X<eYWRHfNu6%sI<O+X~Yo
znjO*nXcrvtLZWUs*8GJ<H&ikL16$3SNCU%jIJAqUAMTy~dJapKnMS)ZSw6Nun!Uh9
z6(JC8;cDH1HSh{WqFtwwne5pUXpb7cI?bI^+fG7hG(8qopw_n3X&CK7EecvB$D+gh
z4A+ChrlMF+5Fm{Yl#za&ygseNJ3W(~p2=pSU57zz(52}iQmP`OfFL?JEtshC#M`rG
zK1hQt(PRob1I7dWWz+oVh2B%?)VQMFLuY3Pqnni}MTz{JIaj3%)vouC>SH>2g`14O
zlbD?0bWD!nD{2{)RGer7T&5?wvnTpWPxKqrkRc?5`9!;tsjNy4$f=|twaQegOaz|(
z6hotO2?8Qyt)U}rl>y>B$Ls5?5=HN7cAL7X5-C>Q3DKz;*cj)zD7+G|(L|Q42&ge!
zG@G2_dWXS2!i=U<@4)*iz7MB(JW&;l&xV_08pJzzJG1MH1wvm1!DL0-$;1&>l@c@Y
z40kDx>Wu7H_9Uo1FaoGO1j@U9va(@13o4n3O=J_YGfNCS@ht3ccq|HNDj7V7WG^T*
z%J6vj06saIjky%2{fCG<nZS23MTE(lnEGRkzK78#7=0h3KY>W5<6vL`Q!G4ZXIxN#
zn^F&oEyStr-*`I3%|@$=9u*KWbdvc9BCrVcP~K3%(~=)6bnY!t2D?LI4#KmE-BIwM
zbs^N4bCd#<%eTUGh)jo6-zNF%C2s)#2b)Vy%GC)EQ!d9-pADM^B?e@%T8RmR2}xoa
zCC2rvhVn-q`hrqJo75DO8aGMNty23Qsb%{!m$k+Xk2&>C&-@O*BWEpzC~s{}u_?hF
zi1g8=4CJKx6{5><)%YgZ_kd^8nzjcn4rbtW2C($-YiSQd{7dLHW~sU`c#H7=0wVq0
zRW&>jv(AQ6w_<tn17evNG$yZA{@RtAR<WiPNeBN!5qKx{x2;kpGHIqfY5rpzbP=L8
zPkH#PLvE74h6@yLlB)LwRqg8hT%}OO?VvvzRXnQDRiBvtuRYFL#wq3BnCUGO+)L`6
z1P@V8_%ZNvRXj++Gq`s99HABr=dQtR2A9vA8=j`9YF1pq%_?FR&Kv?hF$vyTH~@1l
z0iMyu>54h&&rJBRMquoMv+8q`r<%1}qY@1>f`_WAFp8TEt32}8ZUAE@CM5;N%)-BM
z!(2@&ESULVwycSJvbr8#zLN<xd;o3I+5ug3EnJ}i#wrFe!JOFySk#tlv{dzW)k`ZL
z#XMO=o`h=l40tT0CK@$}^0#{Fm?4Ww0tu}38VY++HCyqSKq+xuc;4^h3!8qH{erdX
zs!|gz>$-ug;Mdkw`+{YqhR``M7Ze;-dkP4_as7k<e1J6*M<=roR8ssV!3U43fcacV
zuvP7&IyNB<3+)RJp6&49*`Z-R(W#}%-|DLdrCnthErpM}P}8mD%U^u7)<&JH{n`<$
zuk!!@h;@KfPZ=961<Fw!aVp!O7L_6eVy<4O->46A+Uu*VQ_Dszgjykh<FaNPfjq@G
zK>rO;9whuj<019Haq4xBV_(B@>NR?j7RZ(C0#j`_RB$Q1jn<Y1PWZw5CU~_2Tw#sY
z2f@NR2uJxxaYE?b$cJDAyf)VbSOXVQVa|md6<h@|ZHGtp5X_yL*tQNFvZ}JG@?ZtN
zVva6tZWU#At&H3_QP6;#6}5Vc?@=sMQLeXwa@Y6GpR1^Riv}JY7F=)!4+5@@LSyxH
zChh<=Lb%$R2#p#>cm_9sp(b`bKl_Syhv4kOPEmrO&!VDCpTVf%iUH@&yDMtLT3>`J
zy(yZefHIX3dY?c6Pqmg%?yV@-$Afa;_pN1$Wna+noY<|U%HJ~Xb4_0ZspCA?Tmgxm
z4C{hm&+gKSCiZKo^7o4xO&WmRR+Z91v(UsEFCtGvOL`UlfpnV%jTj9I0D+%%0a~hk
z5SS+AGy!ateN9$DaWQFP{j8&bnrjl8)l@S`97>tJg5J8F9q`1}ov)w??9KIoHL?L1
zyE=ERQaYx;I?qMErsrS<wGXWym!c}D?f9CW6dbF_9e{b2(h3}-sc%>GefW7Sz_Hl)
zMMz)w$~jfrL5|;iPJ)fE`<k)AiMe9zXlhFZ{KjilWyW7m2cc===<~B@joNvKebppH
zgecl);624TW(EDEb~ZY!zUf8LW*J2-GTKMf(u2`#Vm#A(44m(DYoFp2iJAd%tOQ*K
zpG<Uh3CBm~v=e@-NL}6c6-3WU-&f-K3XmFds-J40?4SDNAD}t<r-EZQXumv4Davy^
zoJ~qoicsp9?W?MJR#S|tIHnGv&V>Ge#4oiFJ|*rLSbFV~m-BS~<=fU<nEf^Jto&A8
z1C8#oqv^>sKm6n$Ak6NlHb``ACN&CXE0wPBsF~$AWuoAoH4e0$?T#ih(NsDc<?uZp
zz*KXDZWSoQ%5?8+?MD3sdde1}O?vNPC?yVARl1w?_C!IOFAv^}^I_4FF!%)Z9UwCj
zmq!~SQl3pt#oBPj;1sF6L>+<}czQwyFWESooF=wj;%veruOkjyd=^u<FL?AY<v~jW
z&oHo)^Y38xZH&-6guKduS5E@G>`kK_IB1Sx={QCLM&HH=EzjzU7qNoLj<Oj{wkXCB
zK7l~L3z2LFcR8@Sn<l|l28d=8qZeiSOe%9}hT~?rSc{@`6NUGWuu*wuqyCH5l`B~=
z$H4r+<4vU`8W3f#nn4py981df5}6@&@yvz9G<d@O33lXKvuv_W=@%T^`q$TTWxEjR
zn@?Pp9cl{yEWtTGnLZD;p?8wpW!ZzaA>yW|IH}6SSfqIBsU<FKJFPk9$xdtmv*(js
zMuAo{aeUj9J!L$}BxE~r-H!9=%W?p1RM1fw1ZE8+!i^2?KP-2JM-!6lD4Q9}=A;a&
zM!LOdqlEIH_|E}!Huf8z;x;_8zXa|9W{v>mZCvrRh+s=<UuoSTw(cl;cK(~p-QEBC
z-TR)y1>50*=dcuNT?uuGp{}LCN^GAP+gA+j&p974Zb|zOzIH>jL$nR#oP}UV{=LH9
z0dQKXYsfKDxTydSeUNlLjI`ztEL&D0d#(@VURmIz#^|kqn*&R>W$s>ZaiG|EJa<}R
z>KD(6OgE;&dGq4sFZ@gAim?M?<N&w?=7t_Ibt_CnWFp`*<GAg3z-)fh9EHD=@B}`b
zy*|6xa(ymuyzgmSGXKDF$FaQqj_a=fepjE=9Lf6@-@M`Y%2)re_mC8*|8xT0MYq<7
z-pvc1+YMkbi-6za;+qQ&eA#>N`g{4d`<{+F7c`GQ_OtZu^m6vk-uvNug^uIJx>pv=
zj~iNV_1x@{yg__sX}-~%4}8{qySd=q27dq|hEFZGuk1J`?l`uxW8nUdfnxYnF?8yg
z)f9H;21*Xf1=DC2ndZgpN@S-P*||JWj2wEv^gr6RA6{K^L*R9&dvh&$3j0nJHl2LH
z3_S8Q=Y97*t%c6rcYXIe_y4?O*TQKj(7qDbECx0&9a-r)B=#J-*Hr8o`dQ%Bl9B3s
z0iCNOw_-PAh-TzQB!A?yq1!{EZ|8D$WzQ)Q{(DcM!!_UqpwaeQS8ra`X0+?Gmu|l#
z`gSa{E4v3o`0pJ6(5Sn>G{PKeLMy&@(brz^b`-kyir&3<kF4|!iG4$b1FwqSS0!)s
zso4-|$qm8Nv8yp}T8ZuyqdN<cT_Up!mu&4+q^6dYrfnj)Pd08}K6~#a@rBn5Z@ekK
z@TS=KjRm{pjpX+&I|~N~#chLP+mPrTTJYdziHl5+vRO=v?|flg8Y*`6iIG0=7KI_0
z#ucVbWZFJ`dC603-}~3hz7j`M(Y>V$G-dCW>Kbo3Z#we>%ZA%ScZ2tiE;@^KC()-f
zxY#7xIx$tdcyw{kr)QR$iXD5z@E*~&C+B%&>%y0`rj}c0Z=PK|y>wb^+y^K`+84){
zJYw^n+z?hb#+HVEaQ4nwt-5*3a&Xy7svmo57G5lRTA<%Zv18wT&%P1`uiujU(0}yb
zJ6G&KQ#dqSqUbm1y$|;uxI0wbd#bSK^iN+a8EMz6^eR4>7odrQinbPPjXw`}<pv~A
z!y>!VydD0e=)PyW<ZWN^Zic<RH1IR;-bZ@w$PWhZ4F1e}0RH-;F$RB;;PNiGicIsT
zZTWPub@v12%#Yd%2VXDlKLg2<(PDSN!g)GB9bMW|?A%-E04(YKEe~7TAz5tMUx*%n
zg1)YYU7HEj3!7dnym-1~Hn@i9RV%cXm@_a)ut9acJy#6u%-J78KG-1!I|`lqi@^gq
z$HRsQo}>JGKjMBo@#VyWh7&mtoJW@r9sghl+x-hC^7M_<`Q-Ahm7T{#_}_U<^dA>(
zuK;@OU7sDeeIRFFh%F{=Y!PiyDD&1Y)&L(cp;O&`&*p+{bHTG&3N$T_F7gY5;Qt$p
z<c;~7g*g1NRYPp4ZD~iLp*QDw>~!beEjq)Cm+m{G55v)02W}o%qL;QWu|G)NN!?|C
zocc0V*mSxW9?YG3*t+Sn&9^r%js588k57Ji@<HqI0u#ZRY`(cUe`%=&mOg$b4sFt3
zrVE{e#fG8l1CNz1^Y7lJAB6WSee~S!DQrFbpF94l`#*I*Xng}Z`N|V{*xYvO;?0YN
z?)~@Z2hE3XI3FtofJ$OH@Mn=9M((x$#nzu}Ep)$LY(BH#d=zL}0guDLrX{)<=+4>k
zxP_jx=+~7zHm{>Zfx(}=hsK=zCAc<t9;3IkXn5AD3a>M0`0V>1|Mrvr^3m^r>;W;P
z4<3_ktm^PKocshtxR_!1Sj;#)JRGa%&tWhB45K(i<*SibTw-KLBAext=V!8T$%6t&
z@u=!5@{AW#D21SZvf`B^+u-d3Ty(NmD+C#oQHab05(>%?e}GNwFTXzYYW(!jk)w(O
zCq54-UYvL_$}ZI<XOu&?QxLh|gHqx}aY(s7M-d*Q?_k9*;CB4gHA)H{gg@b{X<BHS
zKM7|o+$2R?r0s{KZ7+eprxb3N>U*TtP2k@G*O*k_^fbK9?0DqwD4F34D-f(JSutg!
z!p$W+rW|k-7Qqj6$y{jI0?z6sCzdi)pnfr!H|J*x^*!M0UUFfn8~j5{9!z<uP<_dV
zsTwL!Tk>NnKs827K}>~koLWrPQK5!XJ*FA}?tdaSC6=Zv?xzOYym{3KsS>6Dwcn`h
zsl{UUE$)QBGXwur;70IS&cd6K*;n$?<{gWs#WOeUaQ@9ZmW`|U0i46_PwjimwU501
zk{P}*lrOmO26`KSuR+O*MT+AqrUV+`|K90V-~uHprfh3k*s%!y<e+YqfOUZvv=jgj
zqo${>R}DaIpo|$4>jxrbHp*R7vXi6(lTMOkD1YrQNo#Tl$g0Ph_&>!Ra2FyuM1<sb
zk{Nig?A0B)Ga#dBu4x(mH3T%idg7F_-H3e7==Jd2$)gTO9uXD4&!)=CUiC>2{o2T%
zo$@w>p23Jn{$FAD_R}W@<G8QSK(hb0lqC84E#=fm2>v!kyD&mq4Sy1&QyAf9mTf#Y
z4rc_M+_qpD8upcEM_Zrb6@8HZ1(d;dr!xN@BDh~@deuhJ%r7YBZ>ZM4r6PYzy&_Vt
z{0+4icAv{PZ<k!&dEo2bdBSAeP{6q6?SF4^(V<c+6=+)e?Waa39R;uw`EKea-$!P9
zu4BQtaAv`FeXD40STzF>G(a{Llsq+3P3@|yhK|6qW}qpby!-M`XI72v^!8s4(gE7{
rl!EA4@0f{pEFOGD;kWd<ouX^!T`N>bq(X(-ErqQw|BO09=J<aAc0YgA

literal 0
HcmV?d00001

diff --git a/transformers_utils/processors/__pycache__/deepseek_vl2.cpython-312.pyc b/transformers_utils/processors/__pycache__/deepseek_vl2.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c02655b101dc2d8b4b24387af16463f7531498c2
GIT binary patch
literal 14878
zcmdUWdu$t5dhZP1kKsci^&llt)LWEg$(9{I6*+QjC$?;9H&)WEyaq3=8Of9>Ql1(4
zp$s?P!a(UZ?aDyArn|c^-J2pZ;)@8_qHu8cVqKs>??nq-PUu~-Qy0~?2HN~pdgY>z
zf7<UmLyjnh-lWJDXpihO=X~d!@4UbBeZO<~XAXyr0v9v<X0+}wMg1*C%Fb8{Y(9j*
z9g3w`I!4XlR~Mrfbu&6zrRit%B+amBoG}raK4xCD%vct!GgcBe#B7W98T%qL!z?;x
z9E4_!ITu|sE}GI&Z&0l1CdHaR(y2AhxCzYyG%M%&NMEAX=_t;=&|PX(#RqcLmCMr9
zbvk7G3{xjVw4xu6Uk~XN<H^OyJf~R5XKG0Z=@rNLvY7Z9pP1zYA;Bxm(TF&E@dOtU
zmw8U9KOKuKMy3;&xOjAh<4;5c5tuo(>}R6aqVd^^CQz1AWb=PO;10!6Gc-%h=&Tg}
zu@;u*^qc|z=JY<u!Ro5wdd@g!VhuN82w5X%UT~K9Rea`jFieIS%XM?esyInkruj%*
zm`m`BieZt9#1*|DvWhhhgh&h;K5M8bZh|ll<)#AO9ZI4lDy$_-I*8HbsHBHjX)-8E
zG?(cM<zAKv@cpP1o~M%rNzeC4h6Q^?aw%BBgZX?av_)5*z>i9;peyUGF&dJgoD<rr
zwd*?dfSwFld8~wYpoc{jdRnneC#JbLPPHkrw8X_>oF>cTq?lh%EG{JkPO*yR5e*p?
zgTTe+s#$ro9O0$t5*LfcVFBS*38MSgcZS8qrC~_fDMt8tPTYBIdH=x!m-chRvFL^2
zrR(CwM11&4EVekT@!@zOyevjz!thdgISRup$1MpQcPV@&HZrtyU9p72(Rfr0hgX`m
z&-_q1p$FO^OoMlWDl$}qFJ*Y&TJSW&$5QZh!pHfnJ$P^B?#lP1bUbTm`I+5YVA}Ic
zugvs*aQVY`@4vgg_mL;p_v#a7?3vGh&v)0C?b?^~?N1qg%ee`BDaE`LjfJC&^RwF8
z04lC2vab3e0PBic(AE(UN=~B7vz63Iy0aAThJ+B!H{wUnH^GN*1y7-`3CIkFlE;05
z{hp1)Vm14%ChUW3LIZd=r~>2u&g8Ah^!^;vm7)tScgn)IK+0rD|3LqD5CFGvgztcl
z>IES*4Z8_yiANT>a9FX0!;1-aIfh{-9KO69iIq}};__0AQ;c)5L_|~!7ZQmW??+C!
z$@q5g9#Et<(r_L(0r9#aAiM+KO{!?31`iho4i@}@=T?{Tz=qSadOZC~rYGy|lb!uV
zBhVlZP+v*+WE!%bUfI!CG$YkQd7C$}OtDjEtjicbwBNVCpdhGLiM7qbf6ZaH(QU55
zZ2WqKL}F<W*SdLn#-PfkN}ufoxnyJwoC*HSoOw=%b3o)3$RrkMtQk@)_*ar+ma4dw
zv$8hM#@gXO17Qbzo$z%5H-CznqgnS&$Bdn=yGhM3oP({usY#F-C&WD!aTmnB6>&G)
z$2I`JM&Q@PSwUVlgS@O`eOx_fCav^ywmAda0#ecgQn#ONh1_kB>RrIaS>;HH0Pt$(
z8s;o)5O_7RdbZ>HG^ypwmg~G}nrSM@`4HRng*BF1&vru(Y-|tI+MJ@U(KEiYRA@kH
zI9A&D@0@;TL_2Tb2y<>fl6Vw(Ag;<s)U?tt8;P?~HX?Fio)Z!=5GjecpxBo1U<(Uy
z94Kx!aWyVP7GWKS`3R&dwkRHqVRCp_)i4|(s?fBnaZ-h1U5c<_HCPv6*|4z0%|;`!
z63HgaiD5j4U}xADBf_OHh_b~cQL#qn;WXmHQFgXchNHa1CA+DE&HlSINDVxHwE2;A
zEKO#I_%A=1BqOAuxFAk4K@2ye8Z$$ztin)|0b+Op5+}OKA>d$=%nx;CB?EG4X9+nW
zt>v67oQVtd<=ECYOcW@LOY{PYvnqF^t#-Ku>|m8+4U#pgNlF@JX^k2eQ0i2<g|;dJ
zL?w$Rb6t|_MyF(fGuq7>C3log*1d#xjaEr@Wj?>W7Qr}cb1)C;-|v6rma%5mGOzo}
z{j)&J@N6PZvO-MLW+WTL>a;XF#I)Iw7>IeaGzY}I<(Rmm9J*C6QNQ&KTq$#Ol#-ku
z(7#QC!b*j#lRO@&a1vH2E`}I4C-QqBP4U6Di{hS!UAJxb2_fT(c~s)LIcaRgGAa$L
zAt14wSR$z*$EY;VCze4>#OKw7w*`)e5G0HXLR1hVaVQaL;&)<=CE<XggC7C{zYD$H
z=;3DOhtb2~QCuZaQC6P#L8LMuGq5TUJ}jqpqW*KTLr{!Y60?yDiXOBj#aSV9KxptI
zSjArSUO^AfdVW86icwfz;&^fZhdiqOfOV3FtBobCt7<V}hof1Or|HsF(Aflj94l~c
zA7jO{JsxJGvmo9;JBdXEAsiNP@<D5<ayL|E0C((4pr&Zo^tU6BN4N#2^*@6G*Gcsr
zP8pt9It%{cbz1h1tnZfnuYeNgD)_rAKdNR|Qt%4FU0A5?S^LgHT}#Hd9(|$L1#L)c
z1--)Gg<4>tcQ9r6j`NoDiKPpOOheutknMr2y|<)3<(Zu_vvcj;M<=sGC!R2GV9CI}
zz}-OJw^R1*%=>oBzTN9Pa=x*YvtajS?Hz?cD1AOPS?C&j?96sfWtsMEtg=JnPne^H
zK<B;q-FQAQA_qqDfqimd-}<|`!0Xt$mY-WF|F6=(ul>-Y$!uT(^wWZc!B*xiA=whj
z4!rurG6pSa>B%IrzI|VmbEBmf`8Jmareg%7f%4#OPkm-_+%n6MnQ3^g*IR8HPVc4>
zzC^X!rt4}pR5Q#I+ECwwZJX33!2nJgSUPDGfv!4MSC*PdIF}YGHRe)|W7PRMiXt4$
zNsG93R+%N;3T!LMBI)s4wv3Y2Eh`GnOX~`hDA!SuqTim9v?py9yls*l%RzZPDPL+=
zl99}kg`_YmaH1t0AkmDMj=_>-NC@;Nfqws2C5L3X1Z5x`mYAebazO8(<eV;Pc>kgS
z&RNi6^r|#d^wIcS$iVkPe^r5^UyOo{8jXt~r@CbUa)6zd;G^?V6l+(btawpzY4M9(
zbpE2KST1k^s25RDX<m$63v+XG+^iVAQmN-C4Zu2l73_45tx$gyqsr1$;$#%SW+>}H
z7-UOz))CD}rIhk|Yt~cuxjF=th1<8iYPvLn`3MaSlh$vkWGjQU<v{J+-v;JF4!j%G
z#=u_L(wB0kT?J25%2Md+&RT*`gFPAUe==E1+eTYQzHR@Lw*9xxq>iudd+KdU8#7M1
zd1&4As9oOmX3l#ub^MvzvpSi1TlNm*+&i8^WGchS-W@sjV9`jm@5(Z*FDz7dU%?&B
zcI}njd)MQS-;?*fv#Hm0JF`p>HehGpTI2mdcF!Af@Qp0fw&Ci^_Ktn(8Y{TFv;D8-
z+^-e9J=y+ObKX}sb{xsN`wRUCv+kZkYe!~Z`p9idv5N{EDE3nB=9Ej_U)qj=PGT7K
zxlKH7h%E`<YFBG7l`TqL>EyYP5LDF^4v_~mS!@C_FIkl)OpmfFt+l5@P5lAn-^3Fh
zhTi4*&bMxTEAJYRT?1Lmz<*-Pxr&zaGf?}sc4O+x+pVVFheG@}(L*C}_CIBOHERG5
z>Cd$iQ(xXnHT4g+wNf#N+%-|r!^kUo=*BkW3Uzw2DpC-5>8jA|0LWBw63x<}+m~gW
zLDKPVkj2Qa%FWY~VFhRe!*Zjwu%KBBTUqDnQXW;xod5u13{pYH5q-zR#b*<s>6`-^
zkJe1csEWB+B(Ugl;3>4Y1sJLN!90*(wis2W4<Ltd0z3`n$TJ->(~;?Z^h%cL$T8z7
z`e$}$p|0Uh%k7p`M~0T&9jWoZ0Ft|Ib^6Y^+vir#5YmPQi|`k*H71?|%rn02oP!fW
zwa-Q&a0eh-7!L?lyIMQ3q}%FHx2@WhCYHnTDdRm@JO4U(+YlfA5>Q??7Ak`uVwnJV
zFcz-vl&EgaZrRnH`MT`dz19m}*0P%{f5lX?L`_7q6hOm_&v85qDp<WZS=fMWs|_ta
zRBAVG!aBh-{@Z|9-7ud5%=RN7qx&^lg0mjRq;hYmNfcO=IzSQhqP89Z+brc{4VU~B
z_0aecjxV@x!Z&G3!s(y1CT;Un(k_`mD}Xfx=P_6mwN~mSP=EP)$-bbWvMMk1C8k^x
zO}*d!k~~yR6t~nuDEFFys%X2Z%&~%|*_E@pYr0FI8Su`ERC~DurU*lEnx<gvOcgma
zp5Ft|zk;rn1iGbyuGI&0>krIZvmoL;5x0PLQ<amndXkPW$f?zwbXMfVgT2a07E!bJ
z7c@I@E7L=pCT+lytTob-Q*y9&)S*C^sy)LnZYwamxc4B3W@B#E0wqg4NFF`k1#t#V
zcgU~Vom=_IOz2MGx^=KL%lJ{hbCyC*32r9{t#ZuG<ynNb;tZdy7?&C-2kT&+P<QiI
zo#jw%>YRq&CtY8_*;O&(uzRXq#fV$uqZPbbt8>EWm|6Qnw>CqSHP@PJ>zA)tax5SM
zT;<rUb>$E{%86oEIRx|Q0xjPv*&f!FWdd9O(4)1`ExAFT_C|gP%f)6ZE1Bb9q#n{@
zNL6KAuwM}Q(4nAskqfF|9B9L(w8Pu-tFkcI9|M#B+)0E0r>`$@=SyXg8cfUu)m&92
zw@J@nKf>TpEIJpQ=9jratUDg$xy8g4j<f@;V=)K^dXQj;+j$KPs0R0;;J5~D1TS&d
zuO@gl2$uNrA{Q5hp{<U;MNX=!z9*K&rDahF_8*N1oQ9ZA5o)PJY8LDg4h;;Jdg(W~
zZA@?+cLt+zU<S$y@DmgK?8TweiTJ#FaRkiHO$K+U!=m;_IA4Q>dhzqscq~P)ak21~
zNNkzYT5<v}9=4hi4-;gU69$8O27_-727jeiW5^srTY~*)cByLvVx^%VscKhhbR@pK
z2)8|m50lA*hLH6FjLItoa$MkeZLO3BMPoI&va7T*0h%r?r{Ll;tcVL-a9M!G84<~p
z045E~CA!EBO@D^k8mI_c>XK!aPb@6~j<nK5+5vDB;Ljr8Cj?_$d|td5T=5QWO<bQw
z^#c`}FN6i|au`wRiW06tSYcc+o`BVfmppL2Yh*>(1O$lt?BBqBhG*huc#Ma1ya*qD
z3Bz!y%tjaCdeEw^6+pTw=BtE;ZB?sy$S48<W(+}d?2zKF9$rPaBm&TH00=*#*hO+#
z8OA1s>J@Lf=U}gj7u8t-O&R)6&?+9$rxGwmmaSsjTDOWx<;C}5rVHqya;g{s)=LOH
zvB3>7Smpq#iILe$igh_ITwdllNJk|DS_D{Es7}>oV_1F>y*PTPJ`rqAag>`#CPz_k
z4}>r-8U8xvLfx5v7d*v_lL3=hRf0s}nv><O@mDdQZEGv>*N|Xd;<+W5HvwT-+_2l6
zYIfU8`#YS7b1NOS4ZMmhe*~O_cVN*0>b8q=H)dTOnYnE5fg+`|+6v4Vn7&q9)`d54
zjjbtL(MdV#@=TA+^c0xJv?+6Jjs4Nt$BqB{-2WYyUp-UQQ;yzEO6RaWcbKreufQ}F
zm=?HcEikRXBiNa>wEksFe`=!O@~7E+V7DCD{i$m=n9q6l4%xk9ZQ>{H0~=cG*vFF(
zCV%2ST(nZHp%+lOd)1L+0v~i`61mQOPnfem>dKD2l{<76f<?X2Y6BD9)%(Hh+Rj|>
zfo#vg?7=gCKAU}OE;l)!J#(>0(NVhZY2U!wkzC*5Z13o!siK~CoS`?(P_)3DeE~Pe
z{=Bza_I78^=e&DT)~66}=#d+Gvb~3L4Tn><r~dYPgLelr@BN7T@xmtyPy8oSF6fw}
z4zFIJ|5nfH$qaq_OeVU%H^1kE4F7sh$euT3%bU=)?*0!C-#?tPu7=W)+dE}T@Mm`4
zhNm_C*6mj_$3C36Kk=z&ILi!YJ;R0Oj!ai(B<)O{Ecm)IuV>y$x2H}O0z21c*Z6E;
zBsKNS?o7R#v$v!#e`*gtZ3*5xeE0Agy|#Oe{W$R;@kspfd!M|Q?VHNAd@XhQX=mSu
zJMQmToBPr6AD{Z<)RWFPWTyR@S|;=EBl=0pAvM$B{lV<;(Le9`{{#PT;7RA(fMsrY
z+wyQf>+M^kbKZfJ^;v!3X<b9X-&JS}6@tTs?)`<1-7oB>dM7LnU)zg1tH+iy7rm6b
zDdi+a2-u0ZSu|4|Wr}8E4MBt$wIvlCqME~p5t9BPUA~?Iqr(UafiCjq7bpa1P5-x5
z2mZSq_^Na-D-54Irq$&Cx~DW8w%dg|EZ6VA5)7Ft(2FXG|J#r*AVQ)FU=_tc4fy4^
z9O`QgH>`3Y1R06A^)%({JLURL05l68U!f&bG*h0gP0B!a5VN&|6lOLNzXC61@YXuc
zUj_!Vl>m(s2)L^@O>knN(O%OuuL;9{RN8kHAh~9+R~SxoO@sRva!i`$Df|QD-jX!K
zmzemXcBKqg&l)&&j9S&5|Mk*!0F!iB(UjB7Tj*KINemck2x?((!6luNU2?9#Qzrlq
zz>u4#EBfIq_YHx4lE(skjeI-sh7#2dj2IlpDp%$~E-G9}cf1)&*D!r+Q<Ltb%Swr;
zpAc8eJSB$km*zO96Y;qaajgC(j#CY@v(_c~G3}{Ixla!b+Bnup=9-u2RIQ8ptt;^|
zCmNplePJ(Ml6zb0jlZ<k*Nd9@$(ketIctn(xvu~*U4r%E*;dB&g=MCojQ2k@O7#mJ
z<(b<0N?yqW|7*4oRYXXAY1$TSP#*X47l5m;8>sge4KNR2RM+MJhvv)1W(CrcjmZYd
zT5}aNNR9KFR3LNRRqj!(7pb-D2WoG*)Ycbkh7<r<svWufD@mtobh0UlJ8z&m7exVh
z-9)bLnprcBAcm7Z$@j9{L=yahbg5D0M|d_!&G_BoTq<pse45mOhb0wK$5);cET>8x
z$yRGrYn3UNr9mFP{~KgBYs*0sYem58D@#K?-w5M`_<fawQMKb}ChaIy;c^ti7Rdnl
z;pxW$s%=%SbUjd#!)pGDK5Af41x<rC$w|`=KxyS=tyThnPkXIW-=ltD*n&f$U2qkP
zaMB!ViOfoHy7W9ONc2H89fPAp9T^LXU>Fab0LxZ0v^Dh<y9HB6?ScQB2f&+vi#b$L
z&jS{jq_^(4;eLfIw(_KXm%c;8M)Vrs5%&MmU!@=DKKnN)J_$E)r{McQr|5=u@rc|D
zu;@W|P%Sp==sXwat}XFnE3ekJ*UE-srS&^B8iRKuF=1>-D?SOEWfL#G{vIDuWLr+l
zBNJ<1|NiS4I`jH{^F56I%ccR+f34Y1qs2d)hyln`+G0TeCH0&C9pJ=&7ri^+Rd$xY
z3xu!O&3B-|{O=+6@1ci7N$`njUO?s}wMHvAw;Z1Z_@}fWssWTxFe+?;A&~8*$VsRf
zhiy47s&8{{K#hPKEXCk<UcVAu;^(n7zk*Z)c{qgd0*|Xn(Zj_b--A&^t<{%Ks23<k
zcs2yD^9=+RF~A$bixB3bv5I#*<5=PxdI(*F{HkVp8wo@+)fO>P4G}%LCIZ|7trGa(
zz+BrA2>uq(6pNaRTT+Z<Q*47UfNCQ*_v#A*I|-Mb2H59gi3@<^T#0g56&qQGYM72H
z^n&6-WQP<B!?SKqP@x{RY>7f&ROqXUYil}GBf$^NQZ?#YzN%%v2YFTozWhGf1*=8)
zGf)>n<F2RNt$A063>ZguzH>zG9Lc%%{Gsq@-w)sY)O9p#Ihu7HEi`uK8~f$P{xxqt
zbWjc*%rzcL*$bm%k9CiaW_u5=h9TC{mWB5+&Hj|*X?thp@VY7AzW>%#>djTIz;qN^
zgZC!xPOMqhxyKFZiCpU&sWX6tq|eLD0ESvJ#`M*Pp0)G2&|$g#u*@7zO>HoH{=(H%
z7#PYA9G3@<Kj!{);g1(`17DZjeXF*+6B`3V9}hnmezf<;M?N`{o>;YQFrlaZP6Q$f
z?gqT|Y`@)}>Hcu|{&3bk^0cu<ZaKZ)ogX<NkDSPlOnf>rk!v}fYdrnJY-n+&CW<!7
z(VS-jG80IP`Sv|>`=0fQT>EQJm~mw6>$ul?x0Nt%NuSHQL%)!r-<dk~!bUZ=q<5z;
zt?m8z$b%z4Z8*G2KlKIDmooz@8u3%#*y?z}+n)FK%HG~Wb8EhNP;MS9wD#Vcx;s_q
z=*)~~E~|y*zC(}39~=JE^~WxGbSfMC8bDBOfla-^=l@5&siE<?p7I|7prvsXFb2o&
z4L9IO_Y!v#vU_L2-I5mXy?6IL**ydgIs!wfDTHQ%>MQ>>SN7n^Y~QIT%)|!M`PAEd
z=j82^<*_^V;ne*pxo*$8nBRX|hJWtUP;Y}1a4?56HNHwCc-5V6ACcQfvVlG85jn8`
z(e6i=KY2wCjN|;ZWDNP>9yz!t+rC$3_7V~>&)0R!b=~*`#M70D$ezCEdb%#O;pv3C
zT2Jp<o$MKSZq(HcKGz$do+<e0g2SH<%gms<QVi)U5A|zPx&BePeN<*fQ&WJW<(V#-
z>H6UHHCL|tz)zWj#p^T`JW!NCF&luPy=T8`&rGcA?oT~xczir<&o!S)ISQ7BbenAH
z#ZXiFczXW_XV=<tJ^SUB{jz0$%C%wX$IJ4zj(g|so=cxuJ0rIqgeJ6ir{~vP(AU%y
zCbx#xrawOS;9NO5uyeg(-At07x$0M6&AB>&Z+oui;HR#GDun2K?N2<9&*#R^W?!4m
zPA6Yb)O++%U6G<**S)3N#MoJkeT$yPkK=7!32{7#i`2gjKD3+Mwju?%qKYb6`5?#w
z;!VQ~Q1xJ6Mrd^OAO6qx|K_{j27wDcgvU-O7Pj=Td^-Al0JlTBX?VUc9nw!vPlGt^
zL`JC6^4;KV2_{~B->BFkqR2-tEQ_2#UY@IR91nH%c~>8nf?pr0FEUm6Zvm7Q@O1I|
zmf%*=XFMVl0|AD?4k`VB0_|A>JCL7J@F?XJN9lRxEQh}U0ayYbK#=z^uc@*Sm0=z|
zJY|GVI0^sxCRJ!0yD?R$Z(D7<ajNL1M#kyFt|Rc1i$Y6x!8cgw?1NW;AfgJsw&!iH
z(MH>br>AJd0Kk*Mp3K{8d)D=92kwXE_E(B#Lbp&2%|$B-+NhR5(N2O0m8Rim8f(U^
zf2ZsnDmn<+NqK$ghKw<@ob?ULo}EP(A-mxR9K|{ktfv}%MGpyjDQ{D;fdm_=)?l%T
z1e>uw9|`)YMt`w|1Y05RKav*z{Fu&fY%U(4OwQ*z+PGs=51}H4pbKA$_S|GK)}{9p
zDfncj$!A^M#8}Zw8%NTH^x3;sK#Pqd>-tUn0JItGes28+ZEV_bdx}O3KxK6et8e4m
z5_nlsG!vQyAkZSo2kY0<xM?TUZ|R`;&+P$H$W>o7W5}|txD`n@EKRa8SlEHIH);4a
zQ^5;wIoqB)W^uw`_>35+ZUCWKC}(}qN`f{F+DQ=DHT@GQP4*61H1Kfv4`AKE{m6B^
zUgF6T{5Db=$tB8_r~qKokoH3@_%X#+n8$sl=)ZRIwE6=eqT(=GIzUxC0#xJ%Mg6fx
zTV>)<=?Vg$N0T3a@dyj4zZ${?typ+&9<EN{jWb$?YNOHMQ7ohC50u9EKY=J5?vyYI
z9^m*iy}6g7nZKeM|CR#3^RKD)zoy=lsW<<MI`B^>FJ1SX0`JApH;l9`J^6ydZ}Eza
ZqML3w@>HWtHD;TJvb&D|ggQa$`*#WQWYYiu

literal 0
HcmV?d00001

diff --git a/transformers_utils/processors/__pycache__/ovis.cpython-312.pyc b/transformers_utils/processors/__pycache__/ovis.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..02273eb615df3f9b8f730ca1df399a5c9471a97e
GIT binary patch
literal 20039
zcmcJ1d2k%pnP1O|nZaOY01QrIfCdPV7?1#Oilit~pa@E&NQeg{OVBYGq8s3VgBh^9
zA(HUGqIbC~(B@h|TsFZ(YYkQ27%FKi*ezErRdFSh<0{L$PVKY+8sj!oX0py7N~J2`
z;bgt3#QA-%r{@5MIufTzyng-q>vw+N_rB}R-<6fQI9yTdHzWV)S&sV$dN3|~CiCFu
z$Xw$DPB2BeQB%LkM0s=6+;3)gOTPtoOVm1Q>$i>C`|a$#HCi(2=y$NZE$SR~^}9w(
z`%6dN{ccufkCu&k`aPrGelL42iTXy%`^%Ac44e8Z1ZRJxnR}WOT$eeaRCEdM56a%R
z>OJcBvo{{RafqewTQa3pW=^z?Y|QjJ?*^!<_sx2NiMwbHdOxLyph@!%h6m4xLTF5i
zkBO3Uu{UVe%DTsu_;D#dD9UnN(%c8a%HWwpVptiMM10~pJQ^Mr568yFm7qoQWdI|w
z;b+f>rD0j~WIsI?xe$qI_UB_`;lZ=0xcs;z_QlVNvB-odunIJ1pLjvh>oRE-gYnqw
z=tU?(Erdqnf~b`}_j*Lm));yF_rL%BVBW~M>>9PA^cp8}{U(9Kx|jrW#3Wb*t6&rC
zLdn}!!SS}a-*V9zbZM0Zb!NI<G8PsDjN;IzPSiB~?|)9$f8F1wna7l%RVy0}UkHtb
zB_*On;xXzfdJ6E6az+y6Gx4aPd5rEW@sKopTJuOErYsgx#2DsL#sriq7;WgRK2K$A
zlyc^=7i~B~p;&lS423jTh(<pirMx>7IyWAUX5KhMf;bc&k1Fze+yk13f9l<&jE-#@
zi;Q(Dn14~}yfFUQ?p<de6E{U8r#FpVRL;a>n_iDbM>i=_I3^FprBP9mL*q&$DsLJy
zmRa5u$3%CHU6j12lqK!R$dp{>mhD_w_4N3%#a!!Jc5sbN>6W&1V+;P@bK2@%_nfYB
z`_~UkjmD>kfG0L3u7slni$ya_*MrR_j(f9Uxj;f@!7^;_w+?fH^<7iHO|bRb1$%#q
zlQaGa^;6uCNhrDO?01Mx!Eu>;U$2krcM*)RMsSLyf=hIZWfLVFCwfG89UwCKG9wRi
z@`^rs65L|>kV7cDYy-i00AHCY^^bI9s?NI&Sq1N9Yk#%iyUg|12<1p?g$kr~LM76A
z!7r{E*_HP}CR?m*$ShQ$u7FUDFB^p#q)kFCQeJEp>hea`GR0jm^{+j}1skL?R2cp#
z2-(HsdMX~16={4>k@;|pC!FT9%gLWV6B#_ipO?a8xwj1A@?gR-fe-U1&Wo|Fypo|y
ziI2pTIErN;cT~(lcd<5K9w?xlfmiwX&=Amx4@aZCaz^Bb#$$s-A>k+pMU?THe|dm4
z@xoEYII^^iZ>a;Bw+3I34uxf9;MFevlqgb#nO476&}>&IG>8U6p==#1-V5R&m<Qeh
z+xgMBBw|#A_+jdrK9X+msy(cBnoFJI<fgCvk)7Vicf`l^5q1P~6;LI882`#S#-fCI
zNjx_mkwgK#0N2#prw?+IZnU>z8a}77-1nc^%;1@@0xmQ<77Z&R-#!4W87Qoo@8*w0
zVk2Qb3zfm22$uD<$dAkDJkTP;;rM7o2G(J1N3lnMSIgOnq+vy37&A3$;8Lca;nP4U
zG!D$t=RotWn0L*Y9TN7IvVx9hfx|+GL22ds*RnV~D#nyhR0Ln9z3VV-A6Y!p_p?3&
zzXy#SgNW0Hzf$}?=tJ@y6ZUvhf(s$9UkNLoz^XD&Haul^QI1ox^;{`QaDP_LaS2nx
zoUnXgHuhuev|P~AJ5jQi^>bg)B+(`nv}vV!$Jr>PHk3*0kZ3k}9Gft01Cdxn359|V
z%_@u0A*qEx)>1+h<b7e!>?KYRL^LeRp^)qV1T6xtOHvbolRz+0y^?_RCXV2pyamZW
zUgDN3xQ4bV>!PDJ-PA?*hII2*x;Nf&lwB!N9ksJfbHQ6rq#U)k9VZyGAIwe;svz!e
z!QX=sB-gkENB5Q22tlm43@(l@G6GIM0CD6=6K&|Z?L1+^cJ7!oC(PiB&fdr_hy{_w
z|BYmUl20g6DM?ZC_eg>ci8#9E(x*PG#7B)~kg;znnp=M{CW%9l3!1(;hX&)(kSvZF
zk5c?RdvxlsVocC7SqKk73tJ-1i9I;<dVDZ^nk^KHJE`G{O#KG-h9ZLIhd3aGL-Lq7
z7zsyptd?b(A*`Ohczf_L(Neg0#lCtGaPl)qE^&7Q&F{Q+{k5gQ4mGf2A@JBu>(Z{H
zD*gwKr5yEl*EFT;8`DS|_;jF|{?`T4bsO%LJ9$^i(Xj02e61<RTDHELo%LGQtR%Te
zU8rBP>tfAd{z782)#=EA1-!<YAF=pKmU^&_gVKsE_ehqmP-o_fm=c!no4#e5v_`l|
zTf+49@nLS#j=vK8ITS;z00k;8;~PWXmCOlK41dF>gWRjffl5x+JGTLsy9*w{oN%Ho
zt6(9dqZVJmC?{Q$rIYT2eS{>V6<5Obeue~0T%x2XL}?y`qbP(s2XXbJl}p$qTcRXk
z6RdmDTEaYS`g(8P7|pB4C|eTdVH3!K8v!3$c_qw7{gY*Ys9gCTVvsEh;lYf01^c8g
zQHJ^Y8;rg@;YpOg&PhqZny}&icEYDr8Ff%EX|9a#&tiq8ONsK48UrGCH^_Xl0&P?(
z^clMn6~@<S5%~TJ>X`ITRwb$up0kiYr6!}51QXgOs}q$YYmBdR_e8Z(57xpbluSTe
zn)F@m0CcgHtI9!N-D~BPfKk&3iLooLM5WST6pipkE_eUHVc^?jd8|}fYrGMhMk{}0
zN_dO*quhWnaaTXY>U*W?yuJ{_UvVY8#ut+{v9>(eBK;obzHq;5l=VhKf-6xIF@2E5
z+{xO6O>(_qPt*!-!pS!r$dxhdtUbl$zDwA0-+(cD!@tAk>Y}ZPu4Cay3<3l65hhE3
z(?Xwu#0U|MBu7&BqI^6i@+go+s8``A?&rqE7&Os#ImpCC#*gsO1!)UHPo_H50i{Zi
zSw#cHs|K>ol8`x|?~?;OG^BA7762L7CEu)IK!WFb8S?1Yn7CR{o-c4lhIqXN9_`2C
z3O~?`P7hFp=qUz~ZJ9<zeL-L25Ty0tQXxcj$f3G4C~rikA2kvk5aPg4Tt?^hkx1cT
zddM3|w#A}?cHW>?%HS)<RoGs^_;OM!t!1I~OeJ*bn*}7y<A;xS9VRJEPa$m%#KyW}
zLRgZ*7wJifOM_>+`j}=+&m>U3yyB}@voCVr=F0MGcy(ZfB(8TSUm^!iohCa539XrK
zV!<HVX4XaM;(K5U$;j`6P^j=O%%e+s(MG;^eDwH5OglzE7<&9-AB`b9^+uC)*ERkw
z{y<zgLxONDCPwAXp@<|aY!S0Xkl7R>04OHV6F>}*0LS8zA_|4mtyg+M$qMiKgh7_h
zO$eJpD*4RWFbIl<kev{tkWmH3t>dvVCB|DmJ1e>jPgR7ODnOH}mlY}k#+<Zcl9{ke
zhMx>1DEROYqgSJTeFmU|y&e$&7M54m%@@=Y+{j;ykMpDBm_k`piY~-JM22()RTLxy
ztIYX0c*GNZ(m2Sq9m^k$3@NM&;nCBP;qi!akv|{7l7)**O>p&!P(R}`)+C3YkHqa9
zNN&acA5b{cbWs#$?{bT^{ot2J-HrO%#zYyYm|cc#2l*ih1}gavjM;^DvJ8$>55S9=
znJU95`Yw(^r!Ul8i!M753mCBxiwX5ruRTMPOlb}C%#b%Y9t}(Sh=3SpyZG+GL2*oB
zTI%cJ=s2twAjv`%-@xcjeqg;aw0>X@f07ybc%79UipI}_xeaweQHEL(QwI3>=@Aho
zn$_4tRZ%r#N?tV?uCjtbetspfvAjxjPL+?9pI^a9_(EO{N4j6+2S#!@`-oxaW6v|A
z7}N9ez=1rY@xZHl_--s_VVO>9v>gt`qnI~X1^A(e7!``t*U5KuFxv^VCb^@7@9gA{
zV#gr9!}to1V%mVgyM}a2MOc?7x-#p7!t-auSkaw(_0mvtVFg^A>^z~-uza?#%}7j$
zKqldt;x=@Vdam0`SZ7dvCO#e&*bYLq5I3XFU1YpQmvh>wJ4KLpAVUm=&1ZNPNCMJF
zM@!+$mJX6cAX^QPv7n394}J$r6Ei1g1c#MkOR=_@AX9|V(R_?WE{M^PP8a%Y9H$aK
zLn&Wq^7V~(piposKK=R4g>-ILq*bhc0Vn*N#n)lKQ2VT_p<yWkW7C=QE0&)m8y?({
zUem-MJ$h^vqJ4?6vTi-1E%xs7+WHdXl3^K*!QUfFnFd#olir>V1$(jx**r2TvXQPD
z;^#E0RT+D}q#Lv{#wr_|8mShFMAj-24G)UsM1d)p*=Z!Q6nsjm^?UFn2nsm=ME|jf
z3_%G(+G$ZaFM^thdFb=ZM1h>>0704F#l}ZZV+6nwm_CgLNaB-0+O%*4L=rm8IE-Gv
zM&P-y3SlLzx${v_v(Z}15-Ev6zg8B44+SnNeMGv;gmgZbl*n?I8K?_lKHCNcMa@d$
zndT#DQ+K)OPA<(J9vdS&(i+|R0|6;SB1pysCSM#q9gk{WGAXgi)Co|tkge0M#95_I
z5#xlmq==dwW1-sMdx2~U2qs{o@px=lbDtasLmL%)BnfUk8}_Hcvl3ZAgLTYAB|VP3
zL|UD0=qZbjE5t-Hqw(k@F{C>JWf}`}5yE?@uYp#hL*&i19HJgdWS5ejq~vKzx{+vB
znozCUKoKFtq)}AH)+5uHK4!p`W8P>9(UzcBs#zk!1(@^jm>H!b`>G@+o+m)f6ww^n
zI=p!uV{hxTl|r-1&Od8Hv+IMG$x31DYOC(dL`U{o-5asm$f}nQqYk+b7!4ci3ns2^
z!>o0wwnMG$xZ`fRXR+3~?zXJ^LD!A0rIx*F%id)hO5kwwR^2N>ZmMkA!__xTdD5lj
zsnS5YsX66tNUv*8x!0!s)l)qW?Obcu+|Un&#kG%LufDbJR_!Nsho^1n-Mu&cOS^m3
z-M#lX^PY-yeG|NQxUbzj-=wbXzDEzLZ|Af-)wp@S744NbFZtH1zV&nNMc<CJZ~c<5
zOZ9c7Hgzxh4y1im*W5Gi*}mJpmgO?8{)p*b1?S__kM&M_Qcc@b-*!~s_Nk?7?o<Y5
zh3_9+tPG}W8>U~Mw%%<EF17WjZ9TVyg|=r??iN@amjYYVz?S*Wg}{?jy=lHB<qo7P
zDyN?MRpa()*Ij>0azyoSPS<Xn_o%h|?$*@5eJa_Q+I&!L?pX*N`lRO2-L;)dYqzUw
zw=b;SIqSIF(mGp$Y1p`9{>5Kx*mwQe+3wj3>8AB_`#x#fo!<Ins{46$>kH}D^%(QE
zmZTS5ZEpX8=Z0tQjYWQcnqQkdcf)bRa+hDv3NPH|cP*E58}~n~=GJZa!7DdjnP2~t
zs-M<>RKM7E^t$UejUDNR3lA*jrut>hTvrcwXnD($uU+-E&(+_?L_E$l?YOs(^EKb;
z-1@Ixe(&Yf?jsAG&#JzT-{AR`_g=Z#@{^vQ9{K3VV&`)yUkCbK-E!C8lxlt)>r-9v
z&|<CjOdY!C;e3th;O=Sr^w(71x^&BW<j&7{?^f1L9m6-ihGgTScXP_IS+~<ViE0?J
z4HD-xE^-D~@b};+V5QeM*xg_Wg_Ug{mN84hGC~Y?#RUstehrzo?`I$na&K7&&BNTF
z`BnH9CgC3$Ar7+Qf(6wCKS-vYViw&Q^VMc6Y`K$g_fFdLteZJYWQhXfk$xqzrRe+q
zjD^sF*6kzY5?yg6tVVBP2XrJ#1j_`h!ep70O;`Cx*l~+mPK9huxf-u_!$xNwDP~c$
z=Ry57EQ(o6>xh3v7x9=dD-}lRNVSp6-9NAy^LGlfZNlHA^*k4}_mXeD0<j7!+y>GC
ze5>!BPazj{gTs^Ns~6GcB=t~of|65|kk3o%r37YiPI{h_7by7(lAu%H6Qam#UdEd<
zI}rFP+axsG;F<B**-TIa%gY)69pkP}>`EaNW0M&|B{Es*vm8`+ZajygiD02~Bg=<Z
z?}Pt^s!1cc#HGOzy}$AYrVfId8(ZG#zurG*U25N@w(nXD?0#UgtnvKE!0zduWeZnc
zb<H#5nH|4bHSJmO?O*a8Uho}G2X-&pxU$-14v-+>x;0aW@6@iDeRiR?9l3_K<k?>|
zY@KmTo2J1F>y~`H>f@7Di@x>gO8@l5<d&Jqh04~nKd|I)RsF5WzNNO^YTNFcoeOQx
z-1Z+{F5v>(P;FVmlDkE9w<LGpc6Tn<a8->DYdK%lTZt=)+2?+^<8Su-)t*J~zLaC%
z@9x*2BQnv_U$j0IuopPih=Lgve+!vMI@XF%ExFASCfMvt;V?7NR(1hi0;2qcc?hmE
z_&exrg<xTK51^RmgSdoXCionzlBM$;Rs4}DXzSI=pzgqAB`YCO7={dTMvM%fQ8e56
zh@hOA*!EO7wq7BPTQ<DoGNc^n-SJUfc%$GWJ=Tc)%R`ajF8It^&^WxGfYe+skTTAs
zmY`L~%8Pg_U7+MV5*bb>hFbc5>>+7M7e(m%iH1T1D}4J;^u2@xIOVNe@~&0AYnQz3
zs<(a0nl7!M71UDNv67qAz}A#|>r~J5p=CGcLom$LBzen9IZyShUo8tH*U$Cc*p&9y
z&eqHvo9and)y=lgyf$?R_?d-%XyGaYsldsFic=}~DcysbzigCe3(X_*sD)0jg**kp
zxECH}@(%{hx{J{QQAega4Cf)y^+aIx@O6=hX>K+!c9|GeX8bhrxk}aBnR0Zl?jZU3
zSO?8$hIO#W4kDNgK8W3+*!!$M>JjfP#`nV(hKbC>1dOy1Mos_^1>4z!So`lO)E9Q)
zZGj&O`^29S_7*^}?~S?v0p5o_#9VX-`<$K|wP1&_8a)$idHc+!FI8`L=g8H2^*Ht!
z(4{`Eg1Td0s_qh_PU8+g(_3s0%Tly4i`bQlkK18<Yuqtz-SsYQ#m5pw5J=l7A@tL?
zqV1I1LCH=eAZfxz&4w7XVUcY+L7Ps@uMtc)y);RhX^=5Nwo&NhT+eK26z7y7YG!?b
z17DIS+6!^}(U1tk<mCT}HsBt2`<C3i>gJPy1^1?O_NigP-IaT4TySq*F0nSkC0@Vm
zf^0i&y7Jg`-)!^DSJcvm*>j(i@^`B0XSXL!*B|@tYtyDXb&a!1vith^?=?<$r~T`e
z{GF=5b52<5I-qtPxV3ko>-eJoM7pL{|0H?h`s3ezBVF6ERJ%p3-7??0wDpj>_0X+1
z7PfxncI}JUKkD1DfB37WmD%o@^U3m=uYP;~>T35dbe+2G?}JEQ-3m3qxn{}HtU8*L
ztxGLC)s~&}UtMT<YSD2p?QKpunpcxEApj$1+F2h(&WS8JGY4~)<nT%6$`L%a3$9p%
zhma+CCh*x3W{}@5ke@waD@uM@!3&6HPguwe4B@RF(8PjPTnXzi1rw04yW%2dkwe+5
zdw}*fI3_K<I>tT*aA4sd<EG0%Od4Wx5e4J~OI9LirM|6D^hj13(yB9RuO2^|E3c!7
zQi`q3*&g(lGU?|CgOzD44AV0VTWeT}!Fk`x6CIz8?fI~EgztZf>cQ4Y-`cAN_TKDU
z2ppgYkj9p!#;t1O*7>~)jZdZ=Ywk9;Ej8~@n|I8gU1$bGBlfJe^}v{4RjtQP=5AYZ
zZ&ckIQ=LyOx`9jnRPBZZ?}oH5xa8Zc`ZlMlHl+L;=ai*QJu3eDdwy#%msbFVtJ`U-
z45l3I4E3ZZ(Vv3wt8B#32Vfg-a&Ma7w7hA1v;55p3dB+XtzX3yl44~;<|!K@M9qTv
zvU}1lSQM*KgOUv@QL<R_*|{OMozRAZ`mC3&->495m$`40PnAzqOj)MPhy}G@c1)He
ztdcuVQ9*R7A+}GNu5iWFlWZ7-BjFGn)B^5Kx}OC;N~KCxwGgtwB?unKz_Rd_5`>yL
zv+cOd+?5KHxUwasiBc$P?u?>_-5ud8rlO%C+0YXxWK~ee$|l`8wIxwz(2n3_8*W9S
zY$O}{VazSIV+VKyF@9VoPN~sz95+HHz7-dRmAvK2^b88#qzB<Rc7&K@$Ag}fSxMdT
z2o8i3Wa^#tVm6BfePrio(wEnAHdrIqd@gJP0W7&b7K6;zIb_KyU+(jU8s>o-=I(|4
zX>@p%vQ3iI10H?;j`>mY8w+nCAsoSiEW8B)O%ThileXAKRz{+YKY@}w;RVnWn5~30
zpQGW6O2FCj;7})nvlYNubHaPVmau-1U9Cy`mC|DB`A9aTDsTR<PFGyH@Wza)kf)}P
z6bq_C06uWjG;Bq9lqXl4kwdA^$mi}K*o`2{Nht6mSw%SqA(RMQy&ftABLa<z&1EG5
zryMwp!TpJObvmR6R5?yz7XUoXb0hj@C9w_RLRhs)XYub7PW-b@p!q)m<+H#Ss>PIG
zBHyFFWnbC!uk_yJz70BX)PiX*OpihSB5Ie&5TF}L4<Pp`ZMJxYo+9o}5MPJa=~E(z
zpo@V62V)A%)saC(SD0Km`!dt#HQR(J#bs83MA{>a0%yWwV$dyplb)bp;f#gpyk<J1
zImu|sbT-XJ*^C<JpgieOtXoj_a2P=nGmaq5MQR+Z`+|5u?>ogh%7h1*eGRuudK{`&
z3PsPbeot&G+{<!rbRn;6Zxj)fQF&ii-bY($Q;Q?{M@Vs%)z@~-?7DJrs(b2O+UuL{
z{>JO+U}wtLIqkfDBwb!Hed3>0A;fXoc_+Xp%abQ=RL#|?&07}&+h$ydkeqhiX=qBC
zlHE6Kb1s$Ny3nu<pfzifd*)wStl2;H3?d|#)@)MOY+72gM_scg?W>$^pWg?2Lc`+^
zICF#NuBYLi&D_v9b@ZW&3$(oR?Dc1<)ouuEeJNkd+{UGjy=uqaTdyqjyr}lP_|Rew
zc&3ig&bno(b*I|8bN<}Clxp3hx|^qt%sSKFy4jaL@vcj6+%;YH&%^JQzuW!px!Dob
z7hJC8{IL1*FdtMj%tk&bUyoxK$(Pi|u6bBdnZcANGe@KTRdQnf$gMhc`;pZ8BdNwC
zs_$9E_39Ora!qTK{c7W;`EEpplBG5GVe-g){ml_|%QLCgXa2T1)d+*-Q4&C@WqtR4
z0*hLl->t)vd@i>mRfcJ<jLx8T;hC8j*t3n90kg8D0c-3(kQSjOOqS$vy3E&k5YGYv
zdn#xWQXiva#w{mZD9b<#W~QP+nnYNrIYzv~O!S%grWDkl>16?=1&}2fNWD%92Q8*P
zITNl#X~I2}C%;}jX63F9K=QOhXNTlT^vg6Ps6>qBFHr$Wp20Fkl@e2kzDuRokZ3Ln
zJI+v}lOmFJB6a3YBUu2US?~&;9&re!7eo;uklZHeh8Q^4;a4L|X^tq7)72|i?o`vn
z)-O(!#z`pnGdTIjs2YN10ZG=uc9Pt3efWCA)RA;;-E3d7`TAF`yQdD{t*wWJt)@XQ
z`R>=IEqB)NNq;hYqvm`2rk_f$X-w8#-#>jY4f^a*8#Ye&q?=pktaB&cE17S8uk@4V
zZP&YRuDxaYaQ&^9;NAF)*Zu15=kPjfq!Z?P=6Bp|OSL_D+uwb!lxye!-PEpI_Hq6I
zoGQA0l)tK!XFGZf8DKa9Yzco5f(&eCIlF@K>lgMEyCJRQ;b~s!q#a)xJC6%ek1e;S
zLlc4oKy?uIp5mlQ)QTfx7Mwdn5{W?>`3n?D|B{j)P%=l!cPPo?%4&_mgBbSANj0$T
z@Wjq9yu=0H4bd`#z-XC$RkPL^_f$7!Y%^t3-FGUhr_aqce|z`agUROPiGLB9I)}I5
z$=kniA?>f4HO=(Q9-KKkZGv?S2@I&`W_C;+U9FE|ZuR-D2a$Zo`Y4{F^ATu#0AG1!
zcnaol5^joo1CU_8;?-%`SS4^3STFMBtfDXotHsJd#-NqC;yqiBsW4r2!+nD1l^4Mc
zWwl+HT6j?Zb}PAFSipM1f>uwXMhB#JgkvXifx}KEtJ@}=kdj>)DH*%zB+2;hVJ_i%
z7qZlh=`Zcy;vgq`n4FxIR&^P164Jk5VZAgT;h;Gb=TweFX?{NwrB^&85n*J<A#oKO
z*@`c&3UF~`<-|nR%p{nYWaZD(ib|kCaXE*EzJ7X&@L|Zc`jx<WzemGmoFFbp-z9lm
zbXfm(dH*VtIiuXocujbe-)8nn-+wSxl(2j$v^~(?JNSsX`Vo9!x*!vYXSk(fZxpeD
zLU`ZAGhdjH$l!dM%;V(o&IvX~O@B(H)ruxAaW~6vZu!uEGyGxAtu41se6;;z(?^e~
zyN`T);^T8a>-)Gz-F1@D3>-j~v*N{q0b5Z)kpY)xho%qE7^prSgwQl#GKd_YF@x;%
zflKqq<qcf=Ydrtq#{A7yW47HqcdPtE<yQBH=RYq0c+1cHABTTdqwYVhKBk{E3ffm}
zmYPK#A7$Pw&5q->h*J#u^zD;aqUL~h79x&EN1PF^g^&)BEr86tQJQH)bJ7t)7S^G;
zhU0M|^P26x?@}G6F*?(m;hu=Eh{UD8M7i`HC4Ne1#%0o9@;BB?xH6uIP{G=N3Fcey
z9f`d1VI+`y(>3+iF3em=nr6P5JoSSYZ@f4czVWhJvw7;7yN&$Rb7Yg;GCMjKhLrb<
zs?EAx@?5fWzFBSA_KUjhuuZ}Qxn*WNS+-EqnXX;GRNJN2cFmjSx6HkMyLRV28&|&r
zyJGbg7(K};mPT^qSGDV>t-owomz3uYE;MYJcK*g+^WpA=+MW-0&xfx!rs}rLl~ZzX
zv2M%F-D+*mg8$IRwW|LF$)!z@d283rRen;lG3DEss@a(Hr?t*`Qq7Mo`gWx&n^Ubj
z7b<tA{f$fhHr3yjROVhwt=oIs{{(#Tb?pyvDyedM&o|#lmVe@H`Atm#qH)*B#hO#8
zzUS4N7qH8~xnElWk9>Ir<nh|Z*@)VCVzK6A>QtXv^L*-suc$RIrhG5{?tXx)J7ki{
z9`s{#`9X(Evz&bTKu#!|XfN~+wFff+q!jBP>(sR$9FCo!qwp3XG8*)17DS0_w!;(^
zCLKk^Fz=0zMMY^Ed5Lr(>8q5Gps860ane46wg?WwX?I;wvkZn6=?a0pfFxL{TOOaJ
z0zxt!-N^Q$t66_exqpKM3LR89S(gK{s4M-5y`r{c=_dsHG$q}XWKo#8eFpde{Le$*
zC!b`vD;)#uMB`^Oxeh|iok;!{B3pbd&gQpIz4Oxbm);3o5B+xzkIT=PJkG%P`#xy<
zq2-6Cezf*Sa%%Gdwc{zZ?cf6rZ|?IY&bt3m(cpZ^bZ;-`uD|17mmHrH7yR3&dhYuC
zOTM+LZ|#DwZOWD|^-Y&w*)=^rdt&CoC#6kyDjHIOrxz-oNx7eaMRNMYl?zkWUwQ+x
zVzO_++kw2ladtc@EciD}Ie*!{Wx==gJ!f*ubk()`nflr8?*!(YQ?`_E>zz{1)c7~|
z%$mNjFYPXW>*$rEv*oiri|!T(sMjveT>MB}Xg>OpcvHBsVNRGoc)MlyEm3VgnmT!E
zv8Hdz&1|dt)WE)*%0l2EY^!&?e&*agy5J3_Hazj8@qe56F!Axhh5aW|-V-UuiQnBX
z<;u7H?!KLCIc8#d@{c=ed)(H4_n5Dz+)=>MX$vM(;DbF#9(|^+m?1P_ia=PU^K0Pk
zrimZBjP)&gW`>S#N7(s;FK{;IIDW!G!a*KU=rc~#cInXp#+mCb{&-Xj%eiAPI8jMq
zgmD&aC&UMh(*qR!UvTi{5ht~&^Y5AU!<Fv*w%*Get+e7SjLc%z3eQgd9iec2AqwYz
z|L26hJb-|`F3z`MN_p#RSH8C7?NGfPa|cu2$L9~J-p5mp$8|{+(Anz`w>Urg|GYRW
zmj&!hUyf|M6a@Kyxh$|vt;L*>ZHi7lNk7L!;TrrsN+$e;YoG&vzi{^3jM;Bhy{$<h
z<=rtiq<VLx96MI)2{ij;D|oOE$)mJ{Vty#n?gjG)7Q?y-^00=lpd;DII3Aak&P+f8
zLs&fykVTqfp7h{t;Icjj2EmSaWh+>HGHO_ivFJ=8l!+<C35Wcn9|*3O3eHCrIn30D
zwu|*-z^Hs6`^yV-GA;`Y`VueTcrhL0&_lH8j6eMz2|Kexwm^QMT_+0K)HdSagnr_V
zj?)h-XM(wdbOsZl-nOp*+ZY_k#c>xs7BE1Opf7{=U&Wyb>Y+Y^=oX!j%T8b4At=3-
z^4ZAPiufk@#=ur$q46;zLWupC1E3HVDocM0OaL}^;--}wlaihB{HO@6X$)&@1f67j
z$}D^iCxqxe(OHPDp9B6r;c*b{f{Q>(@#lC*8exrmYdY8kUzl&h1J3GmEpt|<Yc)F|
zafBf>>GY38Xp+uXT$7JFMO_TmoKrA!&aaWI`jx91hHYjRqoL7d+$kDJz)5P7WI#IR
zUaewvJUJwF#uLg{9YkO@Y9=8`GpIpxkntFbjGPJUDGV6To?p<`WE`wUm{9)V2F*`D
zj3bAb9XcCGR2UH?EupoErovTS)w_R9>v#%~FfQ}06bib;KdJI?kOtE0I+oV$QP=HR
zT6a`kcNC}N?=-Ew<MzFE?8>oJ{if8`V`}}e1$Qr^LiIEBi1}$vt$!Q>tm@sHa_nU*
zj#w#NpZ*?AVCs5<tr9u?B$yL8i9B0cNhkz9Oh5mF10GW3^f-d5G&jO@a0nq2gk80A
zD%j6HXkO+|CL_K6I}q$QA0)yk79b=Meo3^@5}8=^B_P#Zk6b5qDxF0Fol22(dDL|j
zA>)0FQ%Dr1r;D)1Dfh>eFj4g*%KexUk`^V}ZzW>*(jpSgf#rZ1Qn|?HA2IWK-v&kc
z<rai4Z2}NeF*6cp8GT8~PI}RT<@m?T+&y!t&9Pk1RkkKyPL*%DbVRE>dg<uhhRrE!
zUAnsM(sLBNhv?zzbag!<j??vl-<G*;Cr!%@oW1Iv*==imU_ow~a?3nI1p(g{yjRw3
zwr#oVt6#QJ1{#XDHtkw-&tmd6+;w@TE?(IL<G!~ZFG{^BFR!|q@0D1*Ez2bg+{0DY
zrRp}S6`jjoR^a1Y)ep*9_K?+M+dtoTbM0Tfw9FxUYsb=4r_`rTLEyFRzt1~uf&0}a
zTi1QN*Vb~s#cK;Lx12Mf!*{(EZ(Y1{@vS$myz#)sO70I?Y_`4kJvQ6U`yP+Yh3?xu
z_sn+N6Eq~xL(1uhRiioC@9xCoQCVMgwldFS9yNFVuRcjunqyjTtv0{BOGhhq*p4BK
z7ASa~AuJqp(tkHfB1@G-u5^jeNNX*C&LE@CpIMy<?uV+waF4K1tD@hd>Ket*SVcgG
z;i%p|)0Kz{*l+u2&cjdlK6kPwboii-ri2=rLlTFvk%$tr&#>X^y0&94YQisO?UVi+
z;D9`w97eKiF_}!i-O8EP{R8Lv73cmnxBWkGn|{rmRJoJC=8pYmZu{NR`jl(Ur4q#c
zTyj3NmzwOU`i}Xw-*U)3Y&dE+Ju%(;kfZzZYi`a|bE#~Jt5&({={M%eZgV?X7yb|G
CB~MiV

literal 0
HcmV?d00001

diff --git a/transformers_utils/processors/__pycache__/ovis2_5.cpython-312.pyc b/transformers_utils/processors/__pycache__/ovis2_5.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b12fa79bd8c6a7ab412f65da2c8e7338121bee36
GIT binary patch
literal 19896
zcmch9eQ+DcmFM7-00<BO34-7Uz~Prfh+m>iiMC`(maH$z5+%#BlcS=55NAk&0s(pk
zlq@c2D_gD$wd;$?+Pf8b$(`vtSD7xmE_7AuqWh>?r#4l|)%}Ap<q$W~R<yOQtMY$P
zq}1)+AD8>R9t;4IkR9J2Hxhe#db(e~e*Iqed#~T%zq?!x4p-d#m$CkH9QP0OpkLN}
z=J5k$?s5Vr7~<Rr-Hma>v~k2}(8^3BX7<i9Vqtgdh!uBJykgomVw<*)*jYVu+%a7_
zQpxg`xO3Vy;+n1+shW0=xLKJs?wR(Ec&DpJs_|SgVHl|qY$HCwK2j?<M*KqMNS%>8
z%?Zx8Il(2mgsM;6ADcA{M*{4P2X89Gs*g?i(t0B&+NK8bqbRwdR{h6Dt-!$DGK9Tf
z(Zg`qpt{GRW0Rr~nURt+qLjK7Hma^;v#I1oDLE#}a#B*A$D^sS$x~u9H7ki|;TW2Z
zPKZN^nb}m>q<ZodV~L5EZbqdES*<EGJs*1`mQby)CT5~z*8$jjQ4%jFuZxM;oG35=
zs{OL~MoP<iF5HO8`y%@b&F3nfk5N}gkhu{P#N?3}=P_|Hj_c>fN=C;O=B*p0cR7(8
zF$mm<Q7{O`m_aa!CebXIe_|@hS$<*~vD~tTD^&mXUh|`<n28Dk26gH(23a+hOxyr<
zBB^9Vnz*Jqrelf7OzaIYE+Zd(BcDgj$`r;Exvo*d#n6`vk8BY7<8auj+9HuebXtr=
zR7WH-ofKx{ly^oVug^x~`kV7Z!;y<a-#vNm71eS6*mw23JtBzX(b;%P{)l@_)cD^o
z_ob$1`etG?Jt<6tnCf|BcJR4puMdiS@z}M#nOmvJWTNjzJU-o*lA;NDJSk0!k{p>$
z#o}_`j6UCTUs9Wg-kDoc72vX@78!XzlDD~>m2>$QXLBZFz>%|Y&28C+cKm--VQz5b
zoLiqC)l_+{KNymNI-FBrAWJHlipIChAoWAn<0f$F54X(Wh)FOCrU@ft&Ma7Pw+JL}
z6(bdPuJoVKzQBze1pC|e5u0ci9B*?UYcRPHhgMJM5Gut=!6`bY8uG77Zeo>KS&!$r
z3XbH>EqW-2Qny};yhqOqRiam{rYFHI){Hv@&)XKrt`~J`^QHc&-V*Tn?6_H|e%m|}
z5NgDFv0>aK_{2t`7Jq*H)!{E7HUe5bpfw2%Z*wC-VVBS-hQ^IT6Uv$kPeDBKf(`#d
z1W9Nfw_<cHQzv%zS*{Ft{>gO<W41Bc@ZYv=d3rNg8pIYcBxt!j1%y_yRx25I3T+r^
z+XDB7VWj;PF1%ZEVuaD(flnMft{0ODIVH`GrDQ&u;7OSI0xR=3Cu3ui{7or3Q+&&0
zvRH=!i6#U-%D;S5Ozh)R`2|YiV~JD}#WGfbxL9n_%bHvnrM?Pl)#z0|IX(_?;-m36
zpPCf;@!7;!Dwa${<FQmsl<_*>j&<|eIkt+HwkIU6jIy`-A}O7U%Bj(-T92=YA_IJ7
z^vx|@_eLUP=rj@m4jPPY?*(xzDTt$2S^toFemW_M7#%GDQ9@CJe+-NFK~{(8%E&~!
zg0>6roq5!DBHqpKNzP~^-4iYXARw1Phi&xcF+ovY5?`N<NumHOu#IT_Q-dP$_5QYz
z;u|_Ew*T60#wMd!%f;!Lcr+#QoulBO(XEjAWBl1zVk*iPYUOz;7LONbL>ONa`B@nQ
z0juOU2|gZ^!Hvmrei|Dn_AeQu#F(j5##39`qX&)QqSwG=Km^>T(L;4_n*-He7@q3d
zGK50asDLdB8?0JQd-zrs)AsetI(rX~*-DlQ3-Xotd;B9L|H^QeOBG(Gxrjl3NaYm}
zjzg(QFBJ@UD!#GciQus-ZN-zmL38N}JYiYYu9Qd5-La>+f6)P`hO{wl`oyTKG*DK!
zuxWVC^?W){jHr-45;jO}Xc=~>l|$!`ojw`4eBq^&!)m2gMI%7vYeOeaUeMpLomV4`
z)Q+aAV}_KPhzw0cbxp<uK}<x5_=2d`(3B^oXgpF<$0E-{J)#XemWZVy5%g`A#rU|?
z0%%ezC4>?KE|D4{^-w}PfNIUF19k{%JSxkPh)g;taSyw0OChSe7s*^biFT<H1nJg#
zJc`%y86^LBn|tEtnszUk@7n?o8h5dKwz-$?O%EH|7tHUtv%x*|*pO{IKzIIu&2^_j
zu?3c!*TSD2&e#H9*j{Fv@>pSN0ojf}n$*WrNbX{a>AwA%DolIvjlR>OMS%^9Z)yLS
zH;^_am}n0duzRNsg6$`^d1Km$HQhcOd-jii{9|m8lKcM$$p$5#Q=(9kK@zq}VE~f4
zkf@cQ5>%u}G?kpz=Us-@lTz&(6Nm|cDnV()w6b#Tfy(n$px}i~Z0b}yw57<6<XH3?
zn?MxzQ!mv8p3_(-5))J(^gAgUk!QrQ7!Y90Cd)(<%%wJwhw(7iv1203HGBnC*`(g)
z9tK<9`~J%JH-r0?;Qo!^;63x^v*#5251!B18Xh(_XAA%9gOo>F-}T6A=N%baQ_jbE
z+B3E`HmRzWAug*{P2*I}q?JnhXiQc~gdU$5E1f42NGALX5Zk+)@hLN(!k(*L(6b=&
z<>q>-AnJNuj*A)6<_`=%GR#|I+`KhKT*fY)Yv#cXKX_|`o44W5jz33=uwhr)kfQyb
zUAhG$8PkRY{w543xT_bzTa^rBU5C`G<1W+)#&jk6w+JTULc-#En5%i`ylcKHZJY9z
zRL*D9&X4mlVc^pCvNc>KH5_GYR26HybIHu5ZIUHzPg@1^^XMgQOIHXMmUAFyWjQ0G
zfE%OtY@>j&ECr09fU!UU@7GYEBJE`qux+D2H7MXNi+w2tJY{QC7sr?W(<tBu1w5dD
zosHIwaXShWsAM_QqTvU(N@m`)bKJ5iZJIF5o4|WDWoFK#V>Mrc8f3C;yM)5X=6z48
zQJCBLTFirAsG6_CUm#rrUi%W9Q=j&w>u*3CmFi%%o6}a7_kvgIQgwQFG}A<F9iQuv
zocV@yZAnXTL!o70OH2EXmW}BK*_dvW{wiHRMK8Bq1vzR0#=&$GF#Qht3#CJ8-}O!`
znZa~$s&QK*JnC4c>q>j1kqGWN7a-KV(*YQ@-vEQ*n+|M)5y-;`ymK18my@%QP8|dH
z&ObAADY6mSHAUOuwksV>HR(lDyq+uGKk?|R17^ryw!iw4{{AOq(l7Z-`lKy<+m-g~
zE#{jO9VK<k;5Whj$@n#=o5B5F#`6`gaK-g7ZT+MmSJ)MO(J4%VL(>s>{(KZ#<g^GQ
zo++C%k~kBE8c+H>nH%sPh;crd5P1~HBD@vRIPR~{iV0}&opQJUh-?J5KcKJ|Dmpaf
zJXpYj<3f-bz){*WMyc|sroW8x@G8tsi;0w6fCa60r@^vYh8^?f&hk=2B{t4$9TY$T
zjYKlVj}BuDqohs)ag2%KLZ|@MB#ba^)HGtK0I*#&3qtNLz)3xIKw1N+Q{zb)gV9DN
zMJMP%9~n9>Kq_mfl?-mXDO57P0t_1G)_%8)vuOFyG;g)Q^oiH@a#$%BhtBm5kwZ*N
zVX=%RW_lAsRFa~%=qZ(y#wL3&iwU^xMvD~D0nvSwjFT(dAYG-#>_rhC$_j(n381v6
ztE1bjKD~O;`U6W|BYm5UqWo|$!7!cj^C@hlgAU*%T$6eGaSX;i>PLB?t`&9j!?V*D
zZ(-^%dSd#Ew=UE8%VM2kH0kA!CsUJTh$Rwm-Sv#eBss+xp-=?<JVi1E!??)hIzDtK
znS(6=10f}rL7O<WU{Go_g;`M~FrzY+d@a><xuszh2&Wf9JQ?jY`6z<}p~*<6x8MuZ
z)9gzE8)arHO^8-jezcvKAg1Dy$2MORi^kA66H6UFEP7A{z5-G=;YleEi-um(AHM~5
zxSPL~oaLuyQAZY2WhZeoCPVLrI|U*PN9@fcma4;-rCBT&oghg(HlAW=MW?UDCT3%)
zTl~#fsyshL%aAp^lL<BT8S`0`i=A@z|4(%C=xh@mZLZn7vScev{=kW+hzy(@v}AN^
ze31}kuy$Ec`V>BMf*+UQxR(D!i7E>$FJ<2(QJTF1Zw;X+=Vgm9#U8_4*ZBqS@~s*8
zxVCz6%JvK91&4KmIpC?&pyvs|oHkJ&`)VpSHXDyh+9<(j*LU&;N!hWnF>xlvJU2I@
z@mY9!AP8GsU{sB+9)5IpYJB(TLH-gmz<6z$J{3>i#KJw^3+E9G)kJEPPhOi6;m$1I
zBY~Mom4L~wdfOKNZw8W>DFLFbq@`T`%>bsNZ<Ihdd+fXX=v0ZAln0=Vy~NF^5r@ZQ
zmYy<=UOmVk+fl~EnMwF~G7h@IQ^t?S#JErfUJt)#5A!X;W|#Nu;d^=t>m6IqcogT?
z(Q(at7u8g#a%9)AMzx!hVj{1%kRP+Cuk36^2t-rhTJnrWrla!ptyshoLJW!-&m0Nk
zw`eSyhf(t=l;K=?GC3O;*e*zLX{Du=;1;8Zrv7yjf@PYHYHSX7Nhw14wG*NQEoD#Z
z)|ah&%D};xp@fc-<ExkTh?N-rTXu+*SE)$hVVdJs0+m@@i9+lQEuzVeMxTpxs>bJ~
zNn7c@^#o}u#^_cI%1==#0ugO}ErSPk$t`QIhEW*;=}eRt@&e0ft^Xv981j(`xFRE|
z$(!4lhO|E(t1rE#sW^A;d~czzGWci=`z`3f5PeGT?A^ET{acJ(#z{p2XVIdRM`4@j
zY8Ys>aLyyb^odQ2j2b(qmoE?|FSp--h+3;_I+Esc)yy902+Tsshos;Sj7P`B$z)u>
zagXXO<sj8U6C<k@)|Esa2(_B!BRFa(Hqy(8*Yn)3dn*}$qNh_LpW9dDkopJ*r$P#w
z9Q>C|=+F@kQ_VsY{!Oxt!_}%Qf)m{dF@NB!o!*jR3l}MQt@8sS-@NL8^~83ZF;O+s
zzOMR68Q0ExBGWimjuB+l8l9OTr)iVs>VzH`A*~9s!W^*jt?6sYxauYcDkGmZ9Mu%Z
zA%r!RWRR^;iU|e|exabFnC<20Hkp`EE!g%D9l$e}t43^cbxSW$!d#ZF<ZOyonY<g_
zo$q>Fi%5W%Q+uy^^4KGqLF0I}P7|h5+D8Z@=@gN`!rn?JsiPBAU?$?1g3&le4QTf*
zbEv^NO>N03uljZ75h6@u2NJXls#O{a8f^f*N@It@vlm1s)&S0e%z*0t>6q|_YS(I0
z)<N&{l=DnRWo?Xk2eiscN<ho1tpKkgA>JhDs;$s#L!nog!G)P+ILJJPqi@SkyE8{O
zorY*9k7bW7v{%;vO^(6mdYj7~H*)n|%jV6%9wo5nfwT3I$z1Pv*t+Y(-uHVqTc1~2
zpU+uPf&c?|Ey4-v9Sbf56f_1G+z-6LzX~l_vz6XVWiZ>^l5sX=cXei*ZCRgx;pCTX
zJ!|7X6YjSiTJe9j>$AY;^+Su6>~ojy`8J=sq&#=&5obJDoo(b1vVePg|9YR&e*6(V
zD4qk0&P-_UdOJGxwrqNKE1unJ&ikJIS<miGPp{(X&Ga3+?>V0J)ZTS2IhQYg;c3me
zxQ4TaN7bB%&pvx$(VgK36g24Azi?{th~jL`hT4!DymR4UDZ0DE8E5;qK)0b;L$_`3
zdb84Y>>JVT-1PJ*p1#c9<M%x;mO<CU(7jkdx9iZtsZ7mo#o3u{4+G!Bin9eoaC(%=
z#s@XQW#NMp_iMu0K-1!lMRT?zyxDO|={WUSYNO*^24f7iYzF(4VE=m0M(~A&;T_L>
zYsMMO2I?1vSn}J@z@p=!uXS}Q<J<dt&RBcFkPURNyEB2Kzc<m-!$8XiFRr;WIPmB^
zztKLd1cq}Jm=Z8RZQHkQ^~k~b+Lhgd51YfA&3l#Ry&KK@7SCiu{Nm}yR<5IG*_Lf=
zTYdBM#{Jo*w)cithO;~<cS7M$eil>si%(3(U<kwr?ppJ%46h7jgB@$3&x3=1Qssvl
z#I<L?Xd1}Xqq8SXT<h)+o8E6)oA|G<{>{jL8oA$cX7Oy+19t0FJe_L|Uw8&`#|&Ka
z{zu0RoTueM&%U2t`RGdKxw9KRFDafqU*h?DAARp$>n~6K>g+Gh-tW1P@$AXAK95N|
zq&S-&*3>VY|I*#K+I-*LpRx68M?iL3eb{<3Mq7w}6^{7+BTDaba2Vqt<pj5AxC%${
zya~@{IL1p41@kQh!^ip3d7ST-tzj(Gu%=DrjtSAO^w=p6xzMU2RX7<=SLmg1X8(%g
zz6WgQZS!^<$Y3eiegUp+ds)%>KJQ37PH^v5ju|JoG2_){K&nKG!Vy!kWx7%@ePY%f
z$y0@cr(%sI<2x;8IzFldrCcTW77iAG?{j&4tI&^Y%3W-&=hBt>=-_OxN)?>r#iJ*|
zGKV8#IyR6E?}P!R+;NAs2<4qaaA=#$_Ek90Kwq|!z6uoH($~)crCeW@lD_^M`ZAWS
zWiHlQG`!OVr+(oOX3DRRzIaa?Q>0h1Ybv1UiuX^f`dqw%nKR&TzVap)t{9fOP>Cr?
z6i-%-NWE<bveHXb;T)2%OTu9YHhbndVhvThn1CN!LhOg8Xth%1VM<0Q`7R}|QgVfo
z?@@9UN!YFFC^wK--E5c7>pa+8nZA;b(4fs$qO)@;MpeDqzO1>fNGxU5Fr~WkrQ!s+
z)K#yhCzMvQj7`oauIEDvSsuZavQ}T;_YE<b7;M`<t(`-^h8J@^JI<jC+kF{D&H@>i
zFCn?jWgD8X@A`rZC$fPCtm5Ce;J1J1c;B%$u-SD;={mH*KachQ%l4j3@6q41zo2;d
zMZ@A@?7f@qgGxI)+&-f`duF43DC22)WaV0)d2BH?SO0y>zGX|!#MRc{9bOt<-GA@Z
z#o-O#i<`dl8@}_|mVG%3=WWVysENqK*7n7!2Yh&~>o@#?r8A4i7H6}*)=ghn@rBnq
z?)&y;>jFP{X8F%H8oSn_N@L$fU0*h^YctTJ1bWsIUjz<ge`y&69B;#>hX;nMq5Gb_
z*&5%!lrxRp8+ASF2BoflqozOW3vOaJ@wKmh{|nzhu953FX2^v&SJS4m72EylbH8!+
z<hr=p(35V?Q~PfEPI~#m&-VZP;HL-gyN_gSNB-&eK_D#C$@njxZ9nO^eMRcJYMm5g
z6O$>`ax*5RpcRit$Dkiev>Hg&NXAN!(rJC8mG7|wDMB+0X%kx=EEF$8Iq6ucuxjIQ
z-tc1tEvJo0ab)^q?%$NG6%=E`TKH0hwKQ!?8|JVgrj2v34s<ET-e8(HB*ZQCjI5qv
zOFdvSZ%n+LBFlnZ)Q2v+C97mfDM1m;*P(Yy`%5sld|Mb8TVdb93P)ojm^gsd#sd5;
z$TNKBjU^)i&V++LRy+ZFgeMefg3*_$QGtl23aXp7u%50I5Ade2W^ca;BdvBRta)2W
zt1|lxTG^<6Sqw@-D9Y_o;E1QUW!R4+=%z3VGvkHtl;Bft6ri9sj;D^IO!x&G1yQOT
z9ZN@1t}Tt?X>ALm2wS62oVZJ(3~K}4G&&b#3n?!r@qmCkDk-`P$-RJZO!!)v+ZpGc
z2Oav_*`If23vekU=x7nnW=%xd5fPKpFl#2n=tz&^_27Nmt;y}~q61<dovPyClA@e>
z>@?Tlr+^2EISSxFlbIhA&Kp7vf!Gsb0R=+k%I;!t`R;ChcQL$tcRmo5YCWU%5heFw
z3Q#a6>Z3S*bTf?;;}rhjg^J4jSUd^89nQ<(I7!M3{UXY971~G-&N;}n&c=Fhu1PzO
z!MPiJ;S=O-!O0n~jrZVJzXq$%4MeZW$@nayD7T=(&T-IAo<?M<-f-XEz1{o-&UnK%
z)iQ%XN34BPau$vO69$O{9}Adq@HUCiy4MlPWf_kr@%@2$OpL|Dc5Uzd=jc@WAteix
z6c$U>G6}m|!eYv9=4)aqDwDEH#A26bvO0kg;`k+zBLC)sJ2uDC*F0^8f5SGzTodQ4
zUOe>|N0-Ib@qe9o;Phsz>z8*e2UZ)_POc4R_6`5~#;+$cp6|eNa8<!_@c5T4fAQvn
zKyZ0{^~Oqa-J*o{Zv+m&EUj-|vVK_~TE4MnS$T8asx%+is2^OkW&@!m%a<<CqJOz|
z!`1vj+v@n5xY0VGxCYkc&s_)6WzJ}*se4e@uzX;3|3+Q-lNZ;m_beOTN0hoF8UN9o
z$>2R^cw#c4e_Ou)Y<<)6>`LR3^<kiKd3?pWX!+7pyEwjlV=1}e*|p|}y|`d`fFf~u
zd?~Tv=~%PE;$5(0D?N+*?;Kt}_<3c=gPOX#&n-QNam=nH)*VXl;6}}%g%b~afxBmy
z&SDtmmHD+BO7s2=-+_C6#dmb!r2cMpHMNpn8&{eKHhlZ<Sry-rg_Ai4_Q*wXA)T=`
z=ImTm&El(ft}c&!?%J()G_rPJ{p3eSN;?`_8bbf6m1zJAl>noT=$*JKti;z|Q$o*d
z_y*Q*D89oBC$nx}z8fvj5qo6eqCDG8d1Rgz=$JN8NDBfn4ERn)qM*L8QHu*S!H*&n
z3_aqHG|V{`e7+@gbDLA_0`U_m*HEt9HJk2E#of79qquuAwjRxBv*Co3sfA;OT?p05
zDq`5a4FJH_D78Js0xQ~R6e5M%+b^N8SI(Ogtxu^_45NA)l!BfQYw>Ay3KqkJ5f-CC
zuo5+Kub?}v>_P?GKTnnHxcOT8o(x-R|F%6j-@c?qD{54vEmMHF{d&sy3Yh6o5P;Nf
z=H3~ET~i)TVZ6{VEZ_*+u=FfClVIs_(g8{aDFLz^bJ#NT15u=!<-yi?W>6r8wV&#U
zl&m08D_L}^rjnCgl6S^w{z!wQ8pdQ&{j?=4&u(fXJ1nG+9&|S>J553`tR&BM?^x5m
zrZ%bi^53F^+uZ-CtjRWnHXC}ChTgULjfTSuFTwe<8R%95-D_7i0?*wUdib^P7ls~&
z!leHnRl1IT=Gy2Q&IB(YbTwP)UNqbpT)e#8vh*FLvT6DC&nx){wGGPytA>@qzyAKB
z;Q^Mz)atR7oBuYncr5GNwdw0od_8NzX76#O_xNXrH+o<G!guMBiEHSDZQyUm`etw3
zw6!R<meufmTX)volCiaDVqPjZ#1c$!p4SAYyhxNNr7W_r6aoOyRVp@Ms&X}oLPN~X
zqW^HW=*+GQ05Sf&m4f2Sxk3c%9A<kC7G1thsR^K=l79>LLq*yI0qI3u8zM^0EK1Lx
zu9zys*XA4GmbOe7(pKubgylo13l($wl`e<}#9}W*0x@bZxv}=WgsNJ?82unU(kjTx
zzM@>%Dy>oh@qIA>UbCvnpw@TsBLCOqo%y9MdbLKgg~89$1p{04YlZpG@`~kdXjpk)
zI5m*fda6QSG!{=>wAwhAVGi(edO>i9kd!o+=X$?cs7mWoRK5I53>YhYsC6@RL<t?a
zcjL1+HbNJ%?LDNTeM)HG`r(bxF)C>3*lgLawCrEMzR_|#V+%phmS11ly?SEJ`~GRA
zp=(W8@Be5*Y1qHu&f4mhPi!{zDowqxPn-G`TYsT&KxrCKYy%5!C?FlXAril>?PMEa
zCeZb{yDRGnZ+iABuyJd<GQRG$x3D4q!DRH3E$!W-y~^~T{=#zx9&Ud)SH*e48Cxfl
ztIMi!CMBJwdG#PstMVtx+JS^TMthWg5mPa->qIF&qcyMqZ(q^MLr^zy3%hhHQC_Ej
zZdhxdq>Vp#PcY6`l+-sCzdI=xV6MZEW*`=Zq9p?_RT*1G3kBB&0U~sXM5q{SJXOXT
zDH~7<3x&kHoF}XV--3rLKVaPSzV$o&nue*m;(I-pw(B(@ikHn?BD94jJ7_3XrH!Cq
zWs1;Zmr&Tb{@jo%gaD^4KQN{(2}?0#HEl+T86}0#R-LBU;o%>C*Pi#D?gFjsX_Lgm
z6U*m2DY*%j>w{nsFW$D56z8)-VQEPi(suY#JK;+;(CD=}nQGtJhIxJ+@T69z9SGWY
zVuq^-qpSEp2`#y)-8<V*UA*Zm^M;$+v$K@hndY<w{zlp|aIs$TkwA*R;$c_XnRb0r
zQJ{(&@Uir6zouw=-*zGJ-!0favFqP72@aYbZN&4QbXD1z_ms^14fs*>c!AsKNOaqk
zE_`k<?@fE3&hx-|U|Ul>&S8@gOl;l~<!k)E!6Xm%e02%tq$q8>(q4gmbXy`Xq*!gc
zh+gSx_~xBD4d-i0;L=94?Mi#oH52&U2rcqb@>I&W2s%Co`1W)I<oR0gMOjXpqqqLF
z>ucWDp-(a^wq5v4pzJ*1!vjCwl;dCYRsK!+-qUsEYZK1p-;{^*abDG6w53D)Z5KZG
zsuJ9SNAL>Of(swx__nktKXyNp#yXbLM;hfg7Sd22Bi5??e4tH%7XoN~Y#Xw81m*qd
zx(O3bpFjz^=Ic{0YB@;W2|ZW5rvtj2roX9X9`;1RMjJO3PBrW})u<glb(yJCb9+uA
zzyeMartlypQPP5s_+kK<9%|dGnl7C_4nt$BGX%O?!B3(Z6Epbf1vB|Oq>q6)i+A`6
zU)ueVqDP`{#AHo>qaFJz(l@^{Q$icM^zSG~OV3wigoN89Y?Yk!3MKymiCU2lK9_z>
zPZoJHitrQ@LbO%O5QQqK_Hii*hYKRK5lAAl=oQN>96!%8b4Yc(Mp2U|B?*4-9}!gg
zE?**ngd+&S|7r!)GWy{K>8JGKuPN!KgqCH5zQo2->;p`E&RK|EQ7x>${HK>FMwkc?
z6>ri|)k**y!@*Aie`*EXKn!I&`#}V_#YE{N0)K@PI`;`TXa*aL0Xj{kr2Q1#P8vm5
zsO)V@1WJBL2~7ZLNkn%cl6UpH^k?Q^lde%68%1ZZ?@(=d4HxLLFHc4MxCAM;h;@ca
zOW4v_WDrFQU{|dauM$b+?>ItW&o@=~c$@|EX&<nPvh?rKkxaDJ?Z};X?a1gd>Xi9(
zu}IxwWY8_rasLurgTRhz&R4%+)1osdc3}Ji;eJh5wt-&`ELpRz>WnLtt!rF3^QF6f
zx#NTC4;$WZxbN=H);BI%$@ZIl@6T5LY^{Ig&EM4bE*^W()coGi%Ft$0pVHK~Zds3h
zYWunSQ}-{8zq0+pwy}3;qv`D8$*iy8?)jzjs~unXIv-iMhQ23OuDWUY<Oc)yy`9<m
z5PWRaO_|`(M)lc@^X!A#0Dhq&)3Eo>*`G}nb2xJHI~E*|oLmEse6{26>zfxXuroWJ
zS)cv++^2J&z54m!*@ctup1*T`x#PZ*&s=;}alQ%{9?qfcZk$6^JK)c%Z-%mNf3Iq#
z>W*u{vT!5Y*}HC8b}dw88-w`N_P4c-P{O<SZgwA5x({bPegtQL8h77XdTY(M89t=o
zf8C*MV+a1{D!HB`k2z~kmEsI93@@L5QpE+DR*&2Z-mg2oa0bmb>$;S>uFbjwO5Fhf
zT0XOW88&fX@G)l$R6VR}dSo#MLJvdDbZ=QW1J&LY+;p}n&bHMvU*Mdok@Gh_32`;G
zcRQClGmTvv)!hpf*~;p755wQ*MeN72uo*g_;D6<Tdo7<=9>RB~oAv!leSg+dch|M#
zT8`3D*}!JoAqD?EhY*<3P_=Lt^slSG8(WI4R;(G{ul(frPtSgIR^bQlHT=5ezW?09
z=?DJ6-NaI2bz<#irepA4^uGUvh12k&-tAfHSv4rttw6&YxEovwF2AmLTUIY`b{tml
z-+LHwKi=lmfe(+qe^l}Aqo>en`-gq+_bJ}~1?xkA=v(T`I;*oz&!)3oL6nWN29Jxv
zroU6ce?+*@n~>rRA@lBqI~TtG?c*9pjbouA=jUn~Hmlo|>bBKmtFN!Mti8N$Snpqt
z-t*o&wo!cq_%^h>*SA7lFTQr?!t%J*HTB!8;J>qX-S_k6Pn#9z3!e@A>gX?yD$Yw_
zvqlFDGzWesWi#}G5_%!)s#$z(`85Owtxi5R8JqDnZ{ripTJ^i<?wnh0-f)Jq&SrRj
z+2euL18WB|4f`_n&ulmcausHeBgdKTj(_@n(g0>;XN-T_(KYNg!(_+x6<e-o8E1<;
zKBXUqGxJoqL-JD@*&GrbysH(Fh>#qkAELp^A;qr2qmS4|gyCX=$;aK*=9ee^Cn2<t
z*;O~QscCo73fOn-6743;XDZQ_!gdSk9_85PK^CG!rkO+<gcher+l(}eL^UBmk1fHf
z;~XLcFSBSt={0&!TLar9R1<a)Z9^bugKEB(Ova^Edd*hw|4h06LJ2Kt2#nN_8x!e=
zGT_dA2Bk7qFzy9y;iEG+_RAt<PRM`2n}2+pdt`K5Y`IphrhWBF#@m1UY}VJ7={S(7
z8N7Y&Vbk7>xjyUfxP1XKhHtT}{aJqlJZ9ON+N{4W+Z6nRx7u>akn7~EwU3NWOZ#IJ
zayiQ7crMhM-8+DW9pOjrsL`_Tp{F5dp$trSZ_QoDl4JSu>K-N7qj-9973_tLa|g1H
z#z!WDyXm2$YT?$MJ_xzH0WB)s88@#uS{_xH+^sn~tM1`y>NE9yO7-5HmlafV4*%mC
zmOW(&SdOj>_n!GQmgA89?BwQ&%gTw%kLe+I1d^QpO&?c}rRkxkCTGE&PBm(B6_kU&
zz?ZXA&cW3Na+Q=roL1m5)&KqX4F*f^BdgoedawO4hufo8pCx?n#A6P(++Oau;glhJ
z=xBD=9<3JympyWS*I;p=r@Qtg`(5{vd$oO4{_xiOw?2I9{kN3XLB%t8uU+vR$yul#
zVd7hSkzD_GFDzY9-0iE<hjZ`GDenID6N>xUTm`E|)3Tgesm$5gqlPNW60SKH%T{qX
zBN0{{|BGS3d>!FN>0NLElo$F57x0zL*jcq;GsbTsk>(>Y{vtI&b(a2^l0>?bM69d^
zO3QmS*<s(SFo{ruTVCfQSMe2q_H#@UQ@=>*ViKaZZ>gP^IQH8uT74XPL3d#iMY2WW
z%zhF^A{$sDlc6X&nz#|et2RlTKsc-@u>fK=c<q?X_B_-t{2J8}=_}MDIgv>;amHjY
zAb`%`{5!7WAGqq@a*p3}&fjqZf5-Lxj=Q9Amwv~ce^?pJI6}88vQ>4rE49SszwOAn
z0=FGctZsuf6YN=k^$#3!Pui!f2FK!?PdK{gMqHes?zU@_^DCS`Qy0#39r}WMo}u-B
E0bnmx$p8QV

literal 0
HcmV?d00001

diff --git a/transformers_utils/processors/deepseek_ocr.py b/transformers_utils/processors/deepseek_ocr.py
new file mode 100644
index 0000000..bb7aa0c
--- /dev/null
+++ b/transformers_utils/processors/deepseek_ocr.py
@@ -0,0 +1,438 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# adapted from https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek-OCR-master/DeepSeek-OCR-vllm/process/image_process.py
+import math
+
+import torch
+import torchvision.transforms as T
+from PIL import Image, ImageOps
+from transformers import AutoProcessor, BatchFeature, LlamaTokenizerFast
+from transformers.processing_utils import ProcessorMixin
+
+# TODO(Isotr0py): change modes for variants
+# see: https://github.com/deepseek-ai/DeepSeek-OCR/blob/8cf003d38821fa1b19c73da3bd1b0dc262ea8136/DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py#L1-L6
+# Tiny: base_size = 512, image_size = 512, crop_mode = False
+# Small: base_size = 640, image_size = 640, crop_mode = False
+# Base: base_size = 1024, image_size = 1024, crop_mode = False
+# Large: base_size = 1280, image_size = 1280, crop_mode = False
+# Gundam: base_size = 1024, image_size = 640, crop_mode = True
+BASE_SIZE = 1024
+IMAGE_SIZE = 640
+CROP_MODE = True
+
+# TODO(Isotr0py): Expose as mm_kwargs
+MIN_CROPS = 2
+MAX_CROPS = 6  # max:9; If your GPU memory is small, it is recommended to set it to 6.
+
+
+def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
+    best_ratio_diff = float("inf")
+    best_ratio = (1, 1)
+    area = width * height
+    for ratio in target_ratios:
+        target_aspect_ratio = ratio[0] / ratio[1]
+        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
+        if ratio_diff < best_ratio_diff:
+            best_ratio_diff = ratio_diff
+            best_ratio = ratio
+        elif ratio_diff == best_ratio_diff:
+            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
+                best_ratio = ratio
+    return best_ratio
+
+
+def calculate_aspect_ratios(
+    min_num: int = MIN_CROPS, max_num: int = MAX_CROPS
+) -> list[tuple[int, int]]:
+    target_ratios: set[tuple[int, int]] = set(
+        (i, j)
+        for n in range(min_num, max_num + 1)
+        for i in range(1, n + 1)
+        for j in range(1, n + 1)
+        if i * j <= max_num and i * j >= min_num
+    )
+    sorted_target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])
+    return sorted_target_ratios
+
+
+def count_tiles(
+    orig_width,
+    orig_height,
+    min_num=MIN_CROPS,
+    max_num=MAX_CROPS,
+    image_size=640,
+    use_thumbnail=False,
+):
+    aspect_ratio = orig_width / orig_height
+
+    # calculate the existing image aspect ratio
+    target_ratios = calculate_aspect_ratios(min_num, max_num)
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio, target_ratios, orig_width, orig_height, image_size
+    )
+
+    return target_aspect_ratio
+
+
+def dynamic_preprocess(
+    image, min_num=MIN_CROPS, max_num=MAX_CROPS, image_size=640, use_thumbnail=False
+):
+    orig_width, orig_height = image.size
+    aspect_ratio = orig_width / orig_height
+
+    # calculate the existing image aspect ratio
+    target_ratios = calculate_aspect_ratios(min_num, max_num)
+
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio, target_ratios, orig_width, orig_height, image_size
+    )
+
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size,
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+    assert len(processed_images) == blocks
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+    return processed_images, target_aspect_ratio
+
+
+class ImageTransform:
+    def __init__(
+        self,
+        mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        std: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        normalize: bool = True,
+    ):
+        self.mean = mean
+        self.std = std
+        self.normalize = normalize
+
+        transform_pipelines = [T.ToTensor()]
+
+        if normalize:
+            transform_pipelines.append(T.Normalize(mean, std))
+
+        self.transform = T.Compose(transform_pipelines)
+
+    def __call__(self, pil_img: Image.Image):
+        x = self.transform(pil_img)
+        return x
+
+
+class DeepseekOCRProcessor(ProcessorMixin):
+    tokenizer_class = ("LlamaTokenizer", "LlamaTokenizerFast")
+    attributes = ["tokenizer"]
+
+    def __init__(
+        self,
+        tokenizer: LlamaTokenizerFast,
+        patch_size: int = 16,
+        downsample_ratio: int = 4,
+        image_mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        image_std: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        normalize: bool = True,
+        image_token: str = "<image>",
+        pad_token: str = "<｜▁pad▁｜>",
+        add_special_token: bool = False,
+        sft_format: str = "deepseek",
+        mask_prompt: bool = True,
+        ignore_id: int = -100,
+        **kwargs,
+    ):
+        self.image_size = IMAGE_SIZE
+        self.base_size = BASE_SIZE
+        self.patch_size = 16
+        self.image_mean = image_mean
+        self.image_std = image_std
+        self.normalize = normalize
+        self.downsample_ratio = 4
+
+        self.image_transform = ImageTransform(
+            mean=image_mean, std=image_std, normalize=normalize
+        )
+
+        self.tokenizer = tokenizer
+        self.tokenizer.padding_side = "left"  # must set this，padding side with make a difference in batch inference # noqa: E501
+
+        # add the pad_token as special token to use 'tokenizer.pad_token'
+        # and 'tokenizer.pad_token_id'
+        if self.tokenizer.pad_token is None:
+            self.tokenizer.add_special_tokens({"pad_token": pad_token})
+
+        # add image token
+        self.image_token_id = self.tokenizer.vocab.get(image_token)
+        self.image_token = image_token
+        self.pad_token = pad_token
+        self.add_special_token = add_special_token
+        self.sft_format = sft_format
+        self.mask_prompt = mask_prompt
+        self.ignore_id = ignore_id
+
+        super().__init__(
+            tokenizer,
+            **kwargs,
+        )
+
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+
+    @property
+    def pad_id(self):
+        return self.tokenizer.pad_token_id
+
+    def encode(self, text: str, bos: bool = True, eos: bool = False):
+        t = self.tokenizer.encode(text, add_special_tokens=False)
+        if bos:
+            t = [self.bos_id] + t
+        if eos:
+            t = t + [self.eos_id]
+        return t
+
+    def decode(self, t: list[int], **kwargs) -> str:
+        return self.tokenizer.decode(t, **kwargs)
+
+    def process_one(
+        self,
+        prompt: str,
+        images: list[Image.Image],
+        crop_mode: bool = CROP_MODE,
+    ):
+        """
+
+        Args:
+            prompt (str): the formatted prompt;
+            images (List[ImageType]): the list of images;
+            crop_mode (bool): if True, then crop the image;
+
+        Returns:
+            outputs (BaseProcessorOutput): the output of the processor,
+                - input_ids (torch.LongTensor): [N + image tokens]
+                - target_ids (torch.LongTensor): [N + image tokens]
+                - pixel_values (torch.FloatTensor): [n_patches, 3, H, W]
+                - image_id (int): the id of the image token
+                - num_image_tokens (List[int]): the number of image tokens
+        """
+
+        assert prompt is not None and images is not None, (
+            "prompt and images must be used at the same time."
+        )
+
+        sft_format = prompt
+
+        (
+            input_ids,
+            pixel_values,
+            images_crop,
+            images_seq_mask,
+            images_spatial_crop,
+            num_image_tokens,
+            _,
+        ) = self.tokenize_with_images(
+            conversation=sft_format,
+            images=images,
+            bos=True,
+            eos=True,
+            cropping=crop_mode,
+        )
+
+        prepare = BatchFeature(
+            data=dict(
+                input_ids=input_ids,
+                pixel_values=pixel_values,
+                images_crop=images_crop,
+                images_seq_mask=images_seq_mask,
+                images_spatial_crop=images_spatial_crop,
+                num_image_tokens=num_image_tokens,
+            ),
+            tensor_type="pt",
+        )
+        return prepare
+
+    def __call__(
+        self,
+        *,
+        prompt: str,
+        images: list[Image.Image],
+        crop_mode: bool = CROP_MODE,
+        **kwargs,
+    ):
+        prepare = self.process_one(
+            prompt=prompt,
+            images=images,
+            crop_mode=crop_mode,
+        )
+
+        return prepare
+
+    def tokenize_with_images(
+        self,
+        conversation: str,
+        images: list[Image.Image],
+        bos: bool = True,
+        eos: bool = True,
+        cropping: bool = True,
+    ):
+        """Tokenize text with <image> tags."""
+
+        assert conversation.count(self.image_token) == len(images)
+        text_splits = conversation.split(self.image_token)
+        images_list, images_crop_list, images_seq_mask, images_spatial_crop = (
+            [],
+            [],
+            [],
+            [],
+        )
+        image_shapes = []
+        num_image_tokens = []
+        tokenized_str = []
+        for text_sep, image in zip(text_splits, images):
+            tokenized_sep = self.encode(text_sep, bos=False, eos=False)
+            tokenized_str += tokenized_sep
+            images_seq_mask += [False] * len(tokenized_sep)
+
+            image_shapes.append(image.size)
+
+            images_crop_raw = []
+            if image.size[0] <= 640 and image.size[1] <= 640:
+                crop_ratio = [1, 1]
+            elif cropping:
+                images_crop_raw, crop_ratio = dynamic_preprocess(
+                    image, image_size=IMAGE_SIZE
+                )
+            else:
+                crop_ratio = [1, 1]
+
+            if self.image_size <= 640 and not cropping:
+                image = image.resize((self.image_size, self.image_size))
+
+            global_view = ImageOps.pad(
+                image,
+                (self.base_size, self.base_size),
+                color=tuple(int(x * 255) for x in self.image_transform.mean),
+            )
+            images_list.append(self.image_transform(global_view))
+
+            num_width_tiles, num_height_tiles = crop_ratio
+            images_spatial_crop.append([num_width_tiles, num_height_tiles])
+
+            if num_width_tiles > 1 or num_height_tiles > 1:
+                for cropped_image in images_crop_raw:
+                    images_crop_list.append(self.image_transform(cropped_image))
+
+            num_queries = math.ceil(
+                (self.image_size // self.patch_size) / self.downsample_ratio
+            )
+            num_queries_base = math.ceil(
+                (self.base_size // self.patch_size) / self.downsample_ratio
+            )
+
+            tokenized_image = (
+                [self.image_token_id] * num_queries_base + [self.image_token_id]
+            ) * num_queries_base
+            tokenized_image += [self.image_token_id]
+            if num_width_tiles > 1 or num_height_tiles > 1:
+                local_row = [self.image_token_id] * (num_queries * num_width_tiles + 1)
+                tokenized_image += local_row * (num_queries * num_height_tiles)
+            tokenized_str += tokenized_image
+            images_seq_mask += [True] * len(tokenized_image)
+            num_image_tokens.append(len(tokenized_image))
+
+        """process the last text split"""
+        tokenized_sep = self.encode(text_splits[-1], bos=False, eos=False)
+        tokenized_str += tokenized_sep
+        images_seq_mask += [False] * len(tokenized_sep)
+
+        """add the bos and eos tokens"""
+        if bos:
+            tokenized_str = [self.bos_id] + tokenized_str
+            images_seq_mask = [False] + images_seq_mask
+        if eos:
+            tokenized_str = tokenized_str + [self.eos_id]
+            images_seq_mask = images_seq_mask + [False]
+
+        assert len(tokenized_str) == len(images_seq_mask), (
+            f"tokenize_with_images func: tokenized_str's length {len(tokenized_str)} "
+            f"is not equal to images_seq_mask's length {len(images_seq_mask)}."
+        )
+
+        masked_tokenized_str = []
+        for token_index in tokenized_str:
+            if token_index != self.image_token_id:
+                masked_tokenized_str.append(token_index)
+            else:
+                masked_tokenized_str.append(self.ignore_id)
+
+        assert (
+            len(tokenized_str) == len(images_seq_mask) == len(masked_tokenized_str)
+        ), (
+            f"tokenized_str's length {len(tokenized_str)}, "
+            f"input_ids' length {len(masked_tokenized_str)}, "
+            f"images_seq_mask's length {len(images_seq_mask)}, are not equal."
+        )
+
+        input_ids = torch.LongTensor(tokenized_str)
+        target_ids = torch.LongTensor(masked_tokenized_str)
+        images_seq_mask = torch.tensor(images_seq_mask, dtype=torch.bool)
+
+        # set input_ids < 0 | input_ids == self.image_token_id as ignore_id
+        target_ids[(input_ids < 0) | (input_ids == self.image_token_id)] = (
+            self.ignore_id
+        )
+        input_ids[input_ids < 0] = self.pad_id
+
+        # Remove the ending eos token
+        assert input_ids[-1] == self.eos_id
+        input_ids = input_ids[:-1]
+        target_ids = target_ids[:-1]
+        images_seq_mask = images_seq_mask[:-1]
+
+        if len(images_list) == 0:
+            pixel_values = torch.zeros((0, 3, self.base_size, self.base_size))
+            images_spatial_crop = torch.zeros((0, 2), dtype=torch.long)
+            images_crop = torch.zeros((0, 3, self.image_size, self.image_size))
+        else:
+            pixel_values = torch.stack(images_list, dim=0)
+            images_spatial_crop = torch.tensor(images_spatial_crop, dtype=torch.long)
+            if images_crop_list:
+                images_crop = torch.stack(images_crop_list, dim=0)
+            else:
+                images_crop = torch.zeros((0, 3, self.image_size, self.image_size))
+
+        input_ids = input_ids.unsqueeze(0)
+
+        return (
+            input_ids,
+            pixel_values,
+            images_crop,
+            images_seq_mask,
+            images_spatial_crop,
+            num_image_tokens,
+            image_shapes,
+        )
+
+
+AutoProcessor.register("DeepseekOCRProcessor", DeepseekOCRProcessor)
diff --git a/transformers_utils/processors/deepseek_vl2.py b/transformers_utils/processors/deepseek_vl2.py
new file mode 100644
index 0000000..5ef258b
--- /dev/null
+++ b/transformers_utils/processors/deepseek_vl2.py
@@ -0,0 +1,406 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# ruff: noqa: E501
+# coding=utf-8
+# adapted from https://github.com/deepseek-ai/DeepSeek-VL2/blob/ff23960c5cf9e6874b44be38af930cfb0ccbb620/deepseek_vl2/models/processing_deepseek_vl_v2.py
+# Copyright (c) 2023-2024 DeepSeek.
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy of
+# this software and associated documentation files (the "Software"), to deal in
+# the Software without restriction, including without limitation the rights to
+# use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of
+# the Software, and to permit persons to whom the Software is furnished to do so,
+# subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
+# FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR
+# COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER
+# IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
+# CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
+
+import math
+from typing import Any
+
+import torch
+import torchvision.transforms as T
+from PIL import Image, ImageOps
+from transformers import AutoProcessor, BatchFeature, LlamaTokenizerFast
+from transformers.processing_utils import ProcessorMixin
+
+
+class ImageTransform:
+    def __init__(
+        self,
+        mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        std: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        normalize: bool = True,
+    ):
+        self.mean = mean
+        self.std = std
+        self.normalize = normalize
+
+        transform_pipelines = [T.ToTensor()]
+
+        if normalize:
+            transform_pipelines.append(T.Normalize(mean, std))
+
+        self.transform = T.Compose(transform_pipelines)
+
+    def __call__(self, pil_img: Image.Image):
+        x = self.transform(pil_img)
+        return x
+
+
+class DeepseekVLV2Processor(ProcessorMixin):
+    tokenizer_class = ("LlamaTokenizer", "LlamaTokenizerFast")
+    attributes = ["tokenizer"]
+
+    def __init__(
+        self,
+        tokenizer: LlamaTokenizerFast,
+        candidate_resolutions: tuple[tuple[int, int]],
+        patch_size: int,
+        downsample_ratio: int,
+        image_mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        image_std: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        normalize: bool = True,
+        image_token: str = "<image>",
+        pad_token: str = "<｜▁pad▁｜>",
+        add_special_token: bool = False,
+        sft_format: str = "deepseek",
+        mask_prompt: bool = True,
+        ignore_id: int = -100,
+        **kwargs,
+    ):
+        self.candidate_resolutions = candidate_resolutions
+        self.image_size = candidate_resolutions[0][0]
+        self.patch_size = patch_size
+        self.image_mean = image_mean
+        self.image_std = image_std
+        self.normalize = normalize
+        self.downsample_ratio = downsample_ratio
+
+        self.image_transform = ImageTransform(
+            mean=image_mean, std=image_std, normalize=normalize
+        )
+        self.tokenizer = tokenizer
+        self.tokenizer.padding_side = "left"  # must set this，padding side with make a difference in batch inference
+
+        # add the pad_token as special token to use 'tokenizer.pad_token' and 'tokenizer.pad_token_id'
+        if tokenizer.pad_token is None:
+            self.tokenizer.add_special_tokens({"pad_token": pad_token})
+
+        # add image token
+        image_token_id = self.tokenizer.vocab.get(image_token)
+        if image_token_id is None:
+            special_tokens = [image_token]
+            special_tokens_dict = {"additional_special_tokens": special_tokens}
+            self.tokenizer.add_special_tokens(special_tokens_dict)
+        self.image_token_id = self.tokenizer.vocab.get(image_token)
+
+        # add five special tokens for grounding-related tasks
+        # <|ref|>, <|/ref|>, <|det|>, <|/det|>, <|grounding|>
+        special_tokens = ["<|ref|>", "<|/ref|>", "<|det|>", "<|/det|>", "<|grounding|>"]
+        special_tokens_dict = {"additional_special_tokens": special_tokens}
+        self.tokenizer.add_special_tokens(special_tokens_dict)
+
+        # add special tokens for SFT data
+        special_tokens = ["<|User|>", "<|Assistant|>"]
+        special_tokens_dict = {"additional_special_tokens": special_tokens}
+        self.tokenizer.add_special_tokens(special_tokens_dict)
+
+        self.image_token = image_token
+        self.pad_token = pad_token
+        self.add_special_token = add_special_token
+        self.sft_format = sft_format
+        self.mask_prompt = mask_prompt
+        self.ignore_id = ignore_id
+
+        super().__init__(
+            tokenizer,
+            **kwargs,
+        )
+
+    def select_best_resolution(self, image_size):
+        # used for cropping
+        original_width, original_height = image_size
+        best_fit = None
+        max_effective_resolution = 0
+        min_wasted_resolution = float("inf")
+
+        for width, height in self.candidate_resolutions:
+            scale = min(width / original_width, height / original_height)
+            downscaled_width, downscaled_height = (
+                int(original_width * scale),
+                int(original_height * scale),
+            )
+            effective_resolution = min(
+                downscaled_width * downscaled_height, original_width * original_height
+            )
+            wasted_resolution = (width * height) - effective_resolution
+
+            if effective_resolution > max_effective_resolution or (
+                effective_resolution == max_effective_resolution
+                and wasted_resolution < min_wasted_resolution
+            ):
+                max_effective_resolution = effective_resolution
+                min_wasted_resolution = wasted_resolution
+                best_fit = (width, height)
+
+        return best_fit
+
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+
+    @property
+    def pad_id(self):
+        return self.tokenizer.pad_token_id
+
+    def encode(self, text: str, bos: bool = True, eos: bool = False):
+        t = self.tokenizer.encode(text, add_special_tokens=False)
+
+        if bos:
+            t = [self.bos_id] + t
+        if eos:
+            t = t + [self.eos_id]
+
+        return t
+
+    def decode(self, t: list[int], **kwargs) -> str:
+        return self.tokenizer.decode(t, **kwargs)
+
+    def process_one(
+        self,
+        prompt: str,
+        images: list[Image.Image],
+        inference_mode: bool = True,
+        **kwargs: Any,
+    ):
+        """
+
+        Args:
+            prompt (str): the formatted prompt;
+            images (list[ImageType]): the list of images;
+            inference_mode (bool): if True, then remove the last eos token;
+            **kwargs: Additional keyword arguments.
+
+        Returns:
+            outputs (BaseProcessorOutput): the output of the processor,
+                - input_ids (torch.LongTensor): [N + image tokens]
+                - target_ids (torch.LongTensor): [N + image tokens]
+                - pixel_values (torch.FloatTensor): [n_patches, 3, H, W]
+                - image_id (int): the id of the image token
+                - num_image_tokens (list[int]): the number of image tokens
+        """
+
+        assert prompt is not None and images is not None, (
+            "prompt and images must be used at the same time."
+        )
+
+        sft_format = prompt
+        (
+            tokenized_str,
+            images_list,
+            images_seq_mask,
+            images_spatial_crop,
+            num_image_tokens,
+        ) = self.tokenize_with_images(
+            sft_format, images, bos=True, eos=True, cropping=len(images) <= 2
+        )
+        masked_tokenized_str = []
+        for token_index in tokenized_str:
+            if token_index != self.image_token_id:
+                masked_tokenized_str.append(token_index)
+            else:
+                masked_tokenized_str.append(self.ignore_id)
+
+        assert (
+            len(tokenized_str) == len(images_seq_mask) == len(masked_tokenized_str)
+        ), (
+            f"tokenized_str's length {len(tokenized_str)}, input_ids' length {len(masked_tokenized_str)}, "
+            f"imags_seq_mask's length {len(images_seq_mask)}, are not equal"
+        )
+
+        input_ids = torch.LongTensor(tokenized_str)
+        target_ids = torch.LongTensor(masked_tokenized_str)
+        images_seq_mask = torch.tensor(images_seq_mask, dtype=torch.bool)
+
+        # set input_ids < 0 | input_ids == self.image_token_id as ignore_id
+        target_ids[(input_ids < 0) | (input_ids == self.image_token_id)] = (
+            self.ignore_id
+        )
+        input_ids[input_ids < 0] = self.pad_id
+
+        if inference_mode:
+            # Remove the ending eos token
+            assert input_ids[-1] == self.eos_id
+            input_ids = input_ids[:-1]
+            target_ids = target_ids[:-1]
+            images_seq_mask = images_seq_mask[:-1]
+
+        if len(images_list) == 0:
+            pixel_values = torch.zeros((1, 3, self.image_size, self.image_size))
+            images_spatial_crop = torch.zeros((1, 2), dtype=torch.long)
+        else:
+            pixel_values = torch.stack(images_list, dim=0)
+            images_spatial_crop = torch.tensor(images_spatial_crop, dtype=torch.long)
+
+        input_ids = input_ids.unsqueeze(0)
+
+        prepare = BatchFeature(
+            data=dict(
+                input_ids=input_ids,
+                pixel_values=pixel_values,
+                images_seq_mask=images_seq_mask,
+                images_spatial_crop=images_spatial_crop,
+                num_image_tokens=num_image_tokens,
+            ),
+            tensor_type="pt",
+        )
+        return prepare
+
+    def __call__(
+        self,
+        *,
+        text: str,
+        images: list[Image.Image],
+        inference_mode: bool = True,
+        **kwargs: Any,
+    ):
+        """
+
+        Args:
+            text (str): the formatted prompt;
+            images (list[ImageType]): the list of images;
+            inference_mode (bool): if True, then remove the last eos token;
+            **kwargs:
+
+        Returns:
+            outputs (BaseProcessorOutput): the output of the processor,
+                - input_ids (torch.LongTensor): [N + image tokens]
+                - images (torch.FloatTensor): [n_images, 3, H, W]
+                - image_id (int): the id of the image token
+                - num_image_tokens (list[int]): the number of image tokens
+        """
+
+        prepare = self.process_one(
+            prompt=text,
+            images=images,
+            inference_mode=inference_mode,
+        )
+
+        return prepare
+
+    def tokenize_with_images(
+        self,
+        conversation: str,
+        images: list[Image.Image],
+        bos: bool = True,
+        eos: bool = True,
+        cropping: bool = True,
+    ):
+        """Tokenize text with <image> tags."""
+        assert conversation.count(self.image_token) == len(images)
+        text_splits = conversation.split(self.image_token)
+        images_list, images_seq_mask, images_spatial_crop = [], [], []
+        num_image_tokens = []
+        tokenized_str = []
+        for text_sep, image in zip(text_splits, images):
+            """encode text_sep"""
+            tokenized_sep = self.encode(text_sep, bos=False, eos=False)
+            tokenized_str += tokenized_sep
+            images_seq_mask += [False] * len(tokenized_sep)
+
+            """select best resolution for anyres"""
+            if cropping:
+                best_width, best_height = self.select_best_resolution(image.size)
+            else:
+                best_width, best_height = self.image_size, self.image_size
+
+            """process the global view"""
+            global_view = ImageOps.pad(
+                image,
+                (self.image_size, self.image_size),
+                color=tuple(int(x * 255) for x in self.image_transform.mean),
+            )
+            images_list.append(self.image_transform(global_view))
+
+            """process the local views"""
+            local_view = ImageOps.pad(
+                image,
+                (best_width, best_height),
+                color=tuple(int(x * 255) for x in self.image_transform.mean),
+            )
+            for i in range(0, best_height, self.image_size):
+                for j in range(0, best_width, self.image_size):
+                    images_list.append(
+                        self.image_transform(
+                            local_view.crop(
+                                (j, i, j + self.image_size, i + self.image_size)
+                            )
+                        )
+                    )
+
+            """record height / width crop num"""
+            num_width_tiles, num_height_tiles = (
+                best_width // self.image_size,
+                best_height // self.image_size,
+            )
+            images_spatial_crop.append([num_width_tiles, num_height_tiles])
+
+            """add image tokens"""
+            h = w = math.ceil(
+                (self.image_size // self.patch_size) / self.downsample_ratio
+            )
+            # global views tokens h * (w + 1), 1 is for line separator
+            tokenized_image = [self.image_token_id] * h * (w + 1)
+            # add a separator between global and local views
+            tokenized_image += [self.image_token_id]
+            # local views tokens, (num_height_tiles * h) * (num_width_tiles * w + 1)
+            tokenized_image += (
+                [self.image_token_id]
+                * (num_height_tiles * h)
+                * (num_width_tiles * w + 1)
+            )
+
+            tokenized_str += tokenized_image
+            images_seq_mask += [True] * len(tokenized_image)
+            num_image_tokens.append(len(tokenized_image))
+
+        """process the last text split"""
+        tokenized_sep = self.encode(text_splits[-1], bos=False, eos=False)
+        tokenized_str += tokenized_sep
+        images_seq_mask += [False] * len(tokenized_sep)
+
+        """add the bos and eos tokens"""
+        if bos:
+            tokenized_str = [self.bos_id] + tokenized_str
+            images_seq_mask = [False] + images_seq_mask
+        if eos:
+            tokenized_str = tokenized_str + [self.eos_id]
+            images_seq_mask = images_seq_mask + [False]
+
+        assert len(tokenized_str) == len(images_seq_mask), (
+            f"tokenize_with_images func: tokenized_str's length {len(tokenized_str)} is not equal to imags_seq_mask's length {len(images_seq_mask)}"
+        )
+
+        return (
+            tokenized_str,
+            images_list,
+            images_seq_mask,
+            images_spatial_crop,
+            num_image_tokens,
+        )
+
+
+AutoProcessor.register("DeepseekVLV2Processor", DeepseekVLV2Processor)
diff --git a/transformers_utils/processors/ovis.py b/transformers_utils/processors/ovis.py
new file mode 100644
index 0000000..252f833
--- /dev/null
+++ b/transformers_utils/processors/ovis.py
@@ -0,0 +1,453 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# ruff: noqa: E501
+# coding=utf-8
+# adapted from https://github.com/AIDC-AI/Ovis/blob/35ab51a1a1e3542fa6db260a1084cefbc8f164bb/ovis/vllm/processing_ovis.py
+# Copyright 2025 The Qwen Team and The HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from functools import cached_property
+
+import PIL
+import torch
+from transformers import AutoProcessor, BatchFeature
+from transformers.image_utils import ImageInput
+from transformers.processing_utils import ProcessingKwargs, ProcessorMixin, Unpack
+from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
+
+from vllm.multimodal.image import convert_image_mode
+
+__all__ = ["OvisProcessor"]
+IGNORE_ID = -100
+
+
+class OvisProcessorKwargs(ProcessingKwargs, total=False):  # type: ignore[call-arg]
+    _defaults = {
+        "text_kwargs": {
+            "padding": False,
+        },
+        "images_kwargs": {
+            "max_partition": 9,
+            "covering_threshold": 0.9,
+            "convert_to_rgb": True,
+            "return_tensors": "pt",
+        },
+    }
+
+
+class OvisProcessor(ProcessorMixin):
+    r"""
+    Constructs an Ovis processor which wraps an Ovis image processor and a Qwen2 tokenizer into a single processor.
+    [`OvisProcessor`] offers all the functionalities of [`Qwen2VLImageProcessor`] and [`Qwen2TokenizerFast`]. See the
+    [`~OvisProcessor.__call__`] and [`~OvisProcessor.decode`] for more information.
+    Args:
+        image_processor ([`Qwen2VLImageProcessor`], *optional*):
+            The image processor is a required input.
+        tokenizer ([`Qwen2TokenizerFast`], *optional*):
+            The tokenizer is a required input.
+        chat_template (`str`, *optional*): A Jinja template which will be used to convert lists of messages
+            in a chat into a tokenizable string.
+    """
+
+    attributes = ["image_processor", "tokenizer"]
+    valid_kwargs = ["chat_template", "image_pad_token", "image_segment_len"]
+
+    image_processor_class = "AutoImageProcessor"
+    tokenizer_class = "AutoTokenizer"
+
+    def __init__(
+        self,
+        image_processor=None,
+        tokenizer=None,
+        chat_template=None,
+        image_pad_token=None,
+        image_segment_len=255,
+        **kwargs,
+    ):
+        self.image_token = "<image>"
+        self.image_pad_token = image_pad_token
+        self.image_segment_len = image_segment_len
+        super().__init__(image_processor, tokenizer, chat_template=chat_template)
+
+    @cached_property
+    def extra_special_tokens(self):
+        image_pad_token_id = self.tokenizer.get_vocab()[self.image_pad_token]
+        extra_special_tokens = {
+            "image_token": -200,
+            "image_atom": -300,
+            "image_start": -301,
+            "image_prefix": -302,
+            "image_col_sep": -303,
+            "image_row_sep": -304,
+            "image_end": -305,
+            "image_pad": image_pad_token_id,
+        }
+        return extra_special_tokens
+
+    def __call__(
+        self,
+        images: ImageInput = None,
+        text: TextInput
+        | PreTokenizedInput
+        | list[TextInput]
+        | list[PreTokenizedInput] = None,
+        **kwargs: Unpack[OvisProcessorKwargs],
+    ) -> BatchFeature:
+        """
+        Main method to prepare for the model one or several sequences(s) and image(s). This method forwards the `text`
+        and `kwargs` arguments to Qwen2TokenizerFast's [`~Qwen2TokenizerFast.__call__`] if `text` is not `None` to encode
+        the text. To prepare the vision inputs, this method forwards the `vision_infos` and `kwrags` arguments to
+        Qwen2VLImageProcessor's [`~Qwen2VLImageProcessor.__call__`] if `vision_infos` is not `None`.
+            Args:
+                images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`, `list[PIL.Image.Image]`, `list[np.ndarray]`, `list[torch.Tensor]`):
+                    The image or batch of images to be prepared. Each image can be a PIL image, NumPy array or PyTorch
+                    tensor. Both channels-first and channels-last formats are supported.
+                text (`str`, `list[str]`, `list[list[str]]`):
+                    The sequence or batch of sequences to be encoded. Each sequence can be a string or a list of strings
+                    (pretokenized string). If the sequences are provided as list of strings (pretokenized), you must set
+                    `is_split_into_words=True` (to lift the ambiguity with a batch of sequences).
+                videos (`np.ndarray`, `torch.Tensor`, `list[np.ndarray]`, `list[torch.Tensor]`):
+                    The image or batch of videos to be prepared. Each video can be a 4D NumPy array or PyTorch
+                    tensor, or a nested list of 3D frames. Both channels-first and channels-last formats are supported.
+                return_tensors (`str` or [`~utils.TensorType`], *optional*):
+                    If set, will return tensors of a particular framework. Acceptable values are:
+                    - `'tf'`: Return TensorFlow `tf.constant` objects.
+                    - `'pt'`: Return PyTorch `torch.Tensor` objects.
+                    - `'np'`: Return NumPy `np.ndarray` objects.
+                    - `'jax'`: Return JAX `jnp.ndarray` objects.
+            Returns:
+                [`BatchFeature`]: A [`BatchFeature`] with the following fields:
+                - **input_ids** -- List of token ids to be fed to a model. Returned when `text` is not `None`.
+                - **attention_mask** -- List of indices specifying which tokens should be attended to by the model (when
+                  `return_attention_mask=True` or if *"attention_mask"* is in `self.model_input_names` and if `text` is not
+                  `None`).
+                - **pixel_values** -- Pixel values to be fed to a model. Returned when `images` is not `None`.
+                - **pixel_values_videos** -- Pixel values of videos to be fed to a model. Returned when `videos` is not `None`.
+                - **image_grid_thw** -- List of image 3D grid in LLM. Returned when `images` is not `None`.
+                - **video_grid_thw** -- List of video 3D grid in LLM. Returned when `videos` is not `None`.
+                - **second_per_grid_ts** -- List of video seconds per time grid. Returned when `videos` is not `None`.
+        """
+        output_kwargs = self._merge_kwargs(
+            OvisProcessorKwargs,
+            tokenizer_init_kwargs=self.tokenizer.init_kwargs,
+            **kwargs,
+        )
+
+        # Process all images first
+        image_features = {}
+        if images is not None:
+            processed_images = []
+            image_placeholders_list = []
+            grids = []
+
+            # Process each image
+            for image in images if isinstance(images, list) else [images]:
+                pixel_values, image_placeholders, grid = self.preprocess_image(
+                    image=image, **output_kwargs["images_kwargs"]
+                )
+                processed_images.append(pixel_values)
+                image_placeholders_list.append(image_placeholders)
+                grids.append(grid)
+
+            # assign all processed images
+            if processed_images:
+                image_features["image_placeholders"] = image_placeholders_list
+
+        # Process text input
+        if text is not None:
+            if not isinstance(text, list):
+                text = [text]
+
+            tokenized_batched_text = self._tokenize_with_image_symbol(text)
+            image_token_id = self.get_token_value("image_token")
+            replaced_ids_list = []
+            idx = 0
+            for ids_tensor in tokenized_batched_text:
+                if (
+                    image_token_id in ids_tensor
+                    and "image_placeholders" in image_features
+                ):
+                    if idx < len(image_features["image_placeholders"]):
+                        # Converts in list for ease of use
+                        ids_list = ids_tensor.tolist()
+
+                        new_ids = []
+
+                        # replace placeholders
+                        for i, token_id in enumerate(ids_list):
+                            if token_id == image_token_id:
+                                placeholder_ids = image_features["image_placeholders"][
+                                    idx
+                                ]
+                                new_ids.extend(placeholder_ids)
+                                idx += 1
+                            else:
+                                new_ids.append(token_id)
+
+                        # Converts back to tensors
+                        ids_tensor = torch.tensor(new_ids, dtype=torch.long)
+                    else:
+                        raise RuntimeError(
+                            "Mismatch between the images you provided and the number of placeholder present in the text"
+                        )
+
+                replaced_ids_list.append(ids_tensor)
+
+            if replaced_ids_list:
+                replaced_and_tokenized_ids = torch.stack(replaced_ids_list)
+            else:
+                replaced_and_tokenized_ids = torch.tensor([], dtype=torch.long)
+
+            # Create the output with text features
+            output = BatchFeature(
+                data={
+                    "input_ids": replaced_and_tokenized_ids,
+                }
+            )
+
+            # Add image features if present
+            if image_features:
+                output["pixel_values"] = processed_images
+                output["grids"] = grids
+
+            return output
+
+        # If only images were provided
+        return BatchFeature(data=image_features)
+
+    def _tokenize_with_image_symbol(self, text_list: list[str]) -> torch.LongTensor:
+        batch_token_ids = []
+        for text in text_list:
+            text_chunks = [
+                self.tokenizer(chunk, add_special_tokens=False).input_ids
+                for chunk in text.split(self.image_token)
+            ]
+            token_ids = []
+            num_chuck = len(text_chunks)
+            for i, chunk in enumerate(text_chunks):
+                token_ids.extend(chunk)
+                if i < num_chuck - 1:
+                    token_ids.append(self.get_token_value("image_token"))
+            batch_token_ids.append(token_ids)
+        return torch.tensor(batch_token_ids, dtype=torch.long)
+
+    def get_image_size(self):
+        size = self.image_processor.size
+        if "shortest_edge" in size:
+            width = height = size["shortest_edge"]
+        elif "height" in size and "width" in size:
+            width = size["width"]
+            height = size["height"]
+        else:
+            raise ValueError("Can't parse image size from image_processor config.")
+        return height, width
+
+    def get_token_value(self, tok):
+        return self.extra_special_tokens[tok]
+
+    def construct_image_indicators(self, grid):
+        image_placeholders = [
+            self.get_token_value("image_start"),
+            self.get_token_value("image_atom"),
+            self.get_token_value("image_prefix"),
+        ]
+        if grid[0] * grid[1] > 1:
+            for r in range(grid[0]):
+                for c in range(grid[1]):
+                    image_placeholders.append(self.get_token_value("image_atom"))
+                    if c < grid[1] - 1:
+                        image_placeholders.append(self.get_token_value("image_col_sep"))
+                if r < grid[0] - 1:
+                    image_placeholders.append(self.get_token_value("image_row_sep"))
+        image_placeholders.append(self.get_token_value("image_end"))
+        return image_placeholders
+
+    def construct_image_placeholders(self, grid):
+        image_placeholders = self.construct_image_indicators(grid)
+
+        image_atom_token_id = self.get_token_value("image_atom")
+        # Extract the padding token ID from tokenizer
+        image_padding_token_id = self.get_token_value("image_pad")
+
+        # Create a new list with padding tokens inserted
+        padded_placeholder_tokens = []
+        for token in image_placeholders:
+            padded_placeholder_tokens.append(image_padding_token_id)
+            if token == image_atom_token_id:
+                padded_placeholder_tokens.extend(
+                    [image_padding_token_id] * self.image_segment_len
+                )
+        return padded_placeholder_tokens
+
+    def preprocess_image(
+        self,
+        image: PIL.Image.Image,
+        max_partition,
+        covering_threshold,
+        convert_to_rgb,
+        return_tensors,
+    ):
+        def _preprocess(img: PIL.Image.Image, side):
+            # first resize and preprocess
+            w, h = img.size
+            if w == h:
+                new_width = new_height = side
+            elif w > h:
+                new_width = side
+                new_height = int(h / w * new_width)
+            else:
+                new_height = side
+                new_width = int(w / h * new_height)
+            new_size = dict(height=new_height, width=new_width)
+            pixel_values = self.image_processor.preprocess(
+                img, size=new_size, return_tensors=return_tensors
+            )["pixel_values"]
+
+            # then pad to square
+            square_values = torch.zeros(
+                [1, 3, side, side], dtype=pixel_values.dtype, device=pixel_values.device
+            )
+            new_height, new_width = pixel_values.shape[2:]
+            if new_height == new_width:
+                square_values[:, :, :, :] = pixel_values
+            elif new_height > new_width:
+                from_index = (side - new_width) // 2
+                square_values[:, :, :, from_index : from_index + new_width] = (
+                    pixel_values
+                )
+            else:
+                from_index = (side - new_height) // 2
+                square_values[:, :, from_index : from_index + new_height, :] = (
+                    pixel_values
+                )
+
+            return square_values
+
+        def _partition(img, grid) -> list[tuple[int, int, int, int]]:
+            w, h = img.size
+            row_height = h // grid[0]
+            col_width = w // grid[1]
+
+            partition = []
+            for row in range(grid[0]):
+                for col in range(grid[1]):
+                    left = col * col_width
+                    upper = row * row_height
+                    right = w if col == grid[1] - 1 else (col + 1) * col_width
+                    lower = h if row == grid[0] - 1 else (row + 1) * row_height
+                    partition.append((left, upper, right, lower))
+
+            return partition
+
+        def _covering_area(left, upper, right, lower, side):
+            w = right - left
+            h = lower - upper
+            w, h = max(w, h), min(w, h)
+            if w > side:
+                h = h / w * side
+                w = side
+            return w * h
+
+        def _get_best_grid(img, side):
+            img_area = img.size[0] * img.size[1]
+
+            candidate_grids = []
+            for i in range(1, max_partition + 1):
+                for j in range(1, max_partition + 1):
+                    if i * j <= max_partition:
+                        candidate_grids.append((i, j))
+
+            all_grids = []
+            good_grids = []
+            for grid in candidate_grids:
+                partition = _partition(img, grid)
+                covering_ratio = (
+                    sum([_covering_area(*p, side) for p in partition]) / img_area
+                )
+                assert covering_ratio <= 1.0
+                all_grids.append((grid, covering_ratio))
+                if covering_ratio > covering_threshold:
+                    good_grids.append((grid, covering_ratio))
+
+            if len(good_grids) > 0:
+                # pick the good partition with minimum #sub_images and break the tie using covering_ratio
+                return sorted(good_grids, key=lambda x: (x[0][0] * x[0][1], -x[1]))[0][
+                    0
+                ]
+            else:
+                # pick the partition with maximum covering_ratio and break the tie using #sub_images
+                return sorted(all_grids, key=lambda x: (-x[1], x[0][0] * x[0][1]))[0][0]
+
+        if convert_to_rgb:
+            image = convert_image_mode(image, "RGB")
+
+        sides = self.get_image_size()
+        if sides[0] != sides[1]:
+            raise ValueError("get_image_size() returns non-square size")
+        side = sides[0]
+        grid = _get_best_grid(image, side)
+        partition = _partition(image, grid)
+        crops = [image.crop(p) for p in partition]
+        if len(crops) > 1:
+            crops.insert(0, image)
+        pixel_values = torch.cat([_preprocess(crop, side) for crop in crops], dim=0)
+        image_placeholders = self.construct_image_placeholders(grid)
+        return torch.tensor(pixel_values), image_placeholders, torch.tensor(grid)
+
+    def batch_decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to Qwen2TokenizerFast's [`~PreTrainedTokenizer.batch_decode`]. Please
+        refer to the docstring of this method for more information.
+        """
+        return self.tokenizer.batch_decode(*args, **kwargs)
+
+    def decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to Qwen2TokenizerFast's [`~PreTrainedTokenizer.decode`]. Please refer to
+        the docstring of this method for more information.
+        """
+        return self.tokenizer.decode(*args, **kwargs)
+
+    def post_process_image_text_to_text(self, generated_outputs):
+        """
+        Post-process the output of the model to decode the text.
+        Args:
+            generated_outputs (`torch.Tensor` or `np.ndarray`):
+                The output of the model `generate` function. The output is expected to be a tensor of shape `(batch_size, sequence_length)`
+                or `(sequence_length,)`.
+        Returns:
+            `list[str]`: The decoded text.
+        """
+        return self.tokenizer.batch_decode(
+            generated_outputs,
+            skip_special_tokens=True,
+            clean_up_tokenization_spaces=False,
+        )
+
+    @property
+    def model_input_names(self):
+        tokenizer_input_names = self.tokenizer.model_input_names
+        image_processor_input_names = self.image_processor.model_input_names
+        names_from_processor = list(
+            dict.fromkeys(tokenizer_input_names + image_processor_input_names)
+        )
+        return names_from_processor + ["second_per_grid_ts"]
+
+
+AutoProcessor.register("OvisProcessor", OvisProcessor)
diff --git a/transformers_utils/processors/ovis2_5.py b/transformers_utils/processors/ovis2_5.py
new file mode 100644
index 0000000..4c084fd
--- /dev/null
+++ b/transformers_utils/processors/ovis2_5.py
@@ -0,0 +1,468 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import math
+from functools import cached_property
+
+import numpy as np
+import PIL
+import torch
+from transformers import AutoProcessor, BatchFeature
+from transformers.image_utils import ImageInput
+from transformers.processing_utils import ProcessingKwargs, ProcessorMixin, Unpack
+from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
+
+__all__ = ["Ovis2_5Processor"]
+IMAGE_TOKEN = "<image>"
+VIDEO_TOKEN = "<video>"
+MIN_PIXELS = 448 * 448
+MAX_PIXELS = 1792 * 1792
+
+
+class Ovis2_5ProcessorKwargs(ProcessingKwargs, total=False):  # type: ignore[call-arg]
+    _defaults = {
+        "text_kwargs": {
+            "padding": False,
+        },
+        "images_kwargs": {
+            "convert_to_rgb": True,
+            "min_pixels": MIN_PIXELS,
+            "max_pixels": MAX_PIXELS,
+        },
+        "videos_kwargs": {
+            "convert_to_rgb": True,
+            "min_pixels": MIN_PIXELS,
+            "max_pixels": MAX_PIXELS,
+        },
+    }
+
+
+class Ovis2_5Processor(ProcessorMixin):
+    r"""
+    Constructs an Ovis processor which wraps an Ovis image processor
+    and a Qwen2 tokenizer into a single processor.
+    [`OvisProcessor`] offers all the functionalities of
+    [`Qwen2VLImageProcessor`] and [`Qwen2TokenizerFast`].
+    See the [`~OvisProcessor.__call__`] and [`~OvisProcessor.decode`]
+    for more information.
+    Args:
+        image_processor ([`Qwen2VLImageProcessor`], *optional*):
+            The image processor is a required input.
+        tokenizer ([`Qwen2TokenizerFast`], *optional*):
+            The tokenizer is a required input.
+        chat_template (`str`, *optional*): A Jinja template which will
+            be used to convert lists of messages in a chat into
+            a tokenizable string.
+    """
+
+    attributes = ["image_processor", "tokenizer"]
+    valid_kwargs = ["chat_template", "image_pad_token"]
+
+    image_processor_class = "AutoImageProcessor"
+    tokenizer_class = "AutoTokenizer"
+
+    def __init__(
+        self,
+        image_processor=None,
+        tokenizer=None,
+        chat_template=None,
+        image_pad_token=None,
+        patch_size=16,
+        hidden_stride=2,
+        temporal_patch_size=1,
+        **kwargs,
+    ):
+        self.image_token = IMAGE_TOKEN
+        self.video_token = VIDEO_TOKEN
+        self.image_pad_token = "<|image_pad|>"
+
+        self.patch_size = patch_size
+        self.hidden_stride = hidden_stride
+        self.temporal_patch_size = temporal_patch_size
+        super().__init__(image_processor, tokenizer, chat_template=chat_template)
+
+    @cached_property
+    def extra_special_tokens(self):
+        image_pad_token_id = self.tokenizer.get_vocab()[self.image_pad_token]
+        extra_special_tokens = {
+            "image_token": -200,
+            "video_token": -201,
+            "visual_atom": -300,
+            "image_start": -301,
+            "image_end": -302,
+            "video_start": -303,
+            "video_end": -304,
+            "image_pad": image_pad_token_id,
+        }
+        return extra_special_tokens
+
+    def __call__(
+        self,
+        images: ImageInput = None,
+        videos: np.ndarray | list[ImageInput] = None,
+        text: TextInput
+        | PreTokenizedInput
+        | list[TextInput]
+        | list[PreTokenizedInput] = None,
+        **kwargs: Unpack[Ovis2_5ProcessorKwargs],
+    ) -> BatchFeature:
+        """
+        Main method to prepare for the model one or several sequences(s)
+        and image(s). This method forwards the `text`and `kwargs` arguments
+        to Qwen2TokenizerFast's [`~Qwen2TokenizerFast.__call__`] if `text`
+        is not `None` to encode the text. To prepare the vision inputs,
+        this method forwards the `vision_infos` and `kwrags` arguments to
+        Qwen2VLImageProcessor's [`~Qwen2VLImageProcessor.__call__`]
+        if `vision_infos` is not `None`.
+            Args:
+                images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`,
+                    `list[PIL.Image.Image]`, `list[np.ndarray]`,
+                    `list[torch.Tensor]`):
+                    The image or batch of images to be prepared.
+                    Each image can be a PIL image, NumPy array or PyTorch
+                    tensor. Both channels-first and channels-last formats
+                    are supported.
+                text (`str`, `list[str]`, `list[list[str]]`):
+                    The sequence or batch of sequences to be encoded.
+                    Each sequence can be a string or a list of strings
+                    (pretokenized string). If the sequences are provided as
+                    list of strings (pretokenized), you must set
+                    `is_split_into_words=True` (to lift the ambiguity with
+                    a batch of sequences).
+                videos (`np.ndarray`, `torch.Tensor`, `list[np.ndarray]`,
+                    `list[torch.Tensor]`):
+                    The image or batch of videos to be prepared. Each video
+                    can be a 4D NumPy array or PyTorch tensor, or a nested
+                    list of 3D frames. Both channels-first and channels-last
+                    formats are supported.
+                return_tensors (`str` or [`~utils.TensorType`], *optional*):
+                    If set, will return tensors of a particular framework.
+                    Acceptable values are:
+                    - `'tf'`: Return TensorFlow `tf.constant` objects.
+                    - `'pt'`: Return PyTorch `torch.Tensor` objects.
+                    - `'np'`: Return NumPy `np.ndarray` objects.
+                    - `'jax'`: Return JAX `jnp.ndarray` objects.
+            Returns:
+                [`BatchFeature`]: A [`BatchFeature`] with the following fields:
+                - **input_ids** -- list of token ids to be fed to a model.
+                  Returned when `text` is not `None`.
+                - **attention_mask** -- list of indices specifying which tokens
+                  should be attended to by the model (when
+                  `return_attention_mask=True` or if *"attention_mask"*
+                  is in `self.model_input_names` and if `text` is not `None`).
+                - **pixel_values** -- Pixel values to be fed to a model.
+                  Returned when `images` is not `None`.
+                - **pixel_values_videos** -- Pixel values of videos to be fed to
+                  a model. Returned when `videos` is not `None`.
+                - **image_grid_thw** -- list of image 3D grid in LLM. Returned
+                  when `images` is not `None`.
+                - **video_grid_thw** -- list of video 3D grid in LLM. Returned
+                  when `videos` is not `None`.
+                - **second_per_grid_ts** -- list of video seconds per time grid.
+                  Returned when `videos` is not `None`.
+        """
+        output_kwargs = self._merge_kwargs(
+            Ovis2_5ProcessorKwargs,
+            tokenizer_init_kwargs=self.tokenizer.init_kwargs,
+            **kwargs,
+        )
+        # Process all images first
+        visual_features = {}
+        output = BatchFeature()
+        if images is not None:
+            processed_images = []
+            image_placeholders_list = []
+            grids = []
+            # Process each image
+            for image in images if isinstance(images, list) else [images]:
+                pixel_values, image_placeholders, grid = self.preprocess_multidata(
+                    images=image, **output_kwargs["images_kwargs"]
+                )
+                processed_images.append(pixel_values)
+                image_placeholders_list.append(image_placeholders)
+                grids.append(grid)
+
+            # assign all processed images
+            if processed_images:
+                visual_features["image_placeholders"] = image_placeholders_list
+            output["pixel_values"] = processed_images
+            output["grids"] = grids
+
+        if videos is not None:
+            processed_videos = []
+            videos_placeholders_list = []
+            grids = []
+            # Process each video
+            for video in videos if isinstance(videos, list) else [videos]:
+                pixel_values, video_placeholders, grid = self.preprocess_multidata(
+                    video=video, **output_kwargs["videos_kwargs"]
+                )
+                processed_videos.append(pixel_values)
+                videos_placeholders_list.append(video_placeholders)
+                grids.append(grid)
+            # assign all processed videos
+            if processed_videos:
+                visual_features["video_placeholders"] = videos_placeholders_list
+            output["video_pixel_values"] = processed_videos
+            output["video_grids"] = grids
+
+        # Process text input
+        if text is not None:
+            if not isinstance(text, list):
+                text = [text]
+            tokenized_batched_text = self._tokenize_with_visual_symbol(text)
+            image_token_id = self.get_token_value("image_token")
+            video_token_id = self.get_token_value("video_token")
+            replaced_ids_list = []
+            image_idx = 0
+            video_idx = 0
+            for ids_tensor in tokenized_batched_text:
+                has_image_tokens = (
+                    image_token_id in ids_tensor
+                    and "image_placeholders" in visual_features
+                    and image_idx < len(visual_features["image_placeholders"])
+                )
+                has_video_tokens = (
+                    video_token_id in ids_tensor
+                    and "video_placeholders" in visual_features
+                    and video_idx < len(visual_features["video_placeholders"])
+                )
+                if has_image_tokens or has_video_tokens:
+                    # Convert to list for easier manipulation
+                    ids_list = ids_tensor.tolist()
+                    new_ids = []
+
+                    # Replace placeholders
+                    for token_id in ids_list:
+                        if token_id == image_token_id:
+                            new_ids.extend(
+                                visual_features["image_placeholders"][image_idx]
+                            )
+                            image_idx += 1
+                        elif token_id == video_token_id:
+                            new_ids.extend(
+                                visual_features["video_placeholders"][video_idx]
+                            )
+                            video_idx += 1
+                        else:
+                            new_ids.append(token_id)
+                    # Convert back to tensor
+                    ids_tensor = torch.tensor(new_ids, dtype=torch.long)
+                replaced_ids_list.append(ids_tensor)
+            if replaced_ids_list:
+                replaced_and_tokenized_ids = torch.stack(replaced_ids_list)
+            else:
+                replaced_and_tokenized_ids = torch.tensor([], dtype=torch.long)
+            output["input_ids"] = replaced_and_tokenized_ids
+
+            return output
+        # If only images were provided
+        return BatchFeature(data=visual_features)
+
+    def _tokenize_with_visual_symbol(self, text_list: list[str]) -> torch.LongTensor:
+        batch_token_ids = []
+        for text in text_list:
+            token_ids = []
+            video_token_id = self.get_token_value("video_token")
+            image_token_id = self.get_token_value("image_token")
+            video_split_texts = text.split(self.video_token)
+
+            for j, video_segment in enumerate(video_split_texts):
+                image_split_texts = video_segment.split(self.image_token)
+                text_chunks = [
+                    self.tokenizer(chunk, add_special_tokens=False).input_ids
+                    for chunk in image_split_texts
+                ]
+                segment_tokens = []
+                for i, chunk in enumerate(text_chunks):
+                    segment_tokens.extend(chunk)
+                    if i < len(text_chunks) - 1:
+                        segment_tokens.append(image_token_id)
+                token_ids.extend(segment_tokens)
+                if j < len(video_split_texts) - 1:
+                    token_ids.append(video_token_id)
+
+            batch_token_ids.append(token_ids)
+        return torch.tensor(batch_token_ids, dtype=torch.long)
+
+    # Copied from qwen2_vl
+    def smart_resize(
+        self,
+        height: int,
+        width: int,
+        factor: int = 28,
+        min_pixels: int = MIN_PIXELS,
+        max_pixels: int = MAX_PIXELS,
+    ):
+        """Rescales the image so that the following conditions are met:
+        1. Both dimensions (height and width) are divisible by 'factor'.
+        2. The total number of pixels is within the range
+            ['min_pixels', 'max_pixels'].
+        3. The aspect ratio of the image is maintained as closely as possible.
+        """
+        if height < factor or width < factor:
+            print(
+                f"height:{height} or width:{width} must be larger than factor:{factor}"
+            )
+            if height < width:
+                width = round(factor / height * width)
+                height = factor
+            else:
+                height = round(factor / width * height)
+                width = factor
+
+        elif max(height, width) / min(height, width) > 200:
+            print(
+                f"absolute aspect ratio must be smaller than 200, "
+                f"got {max(height, width) / min(height, width)}"
+            )
+            if height > width:
+                height = 200 * width
+            else:
+                width = 200 * height
+
+        h_bar = round(height / factor) * factor
+        w_bar = round(width / factor) * factor
+        if h_bar * w_bar > max_pixels:
+            beta = math.sqrt((height * width) / max_pixels)
+            h_bar = math.floor(height / beta / factor) * factor
+            w_bar = math.floor(width / beta / factor) * factor
+        elif h_bar * w_bar < min_pixels:
+            beta = math.sqrt(min_pixels / (height * width))
+            h_bar = math.ceil(height * beta / factor) * factor
+            w_bar = math.ceil(width * beta / factor) * factor
+        return h_bar, w_bar
+
+    def get_token_value(self, tok):
+        return self.extra_special_tokens[tok]
+
+    def construct_visual_indicators(self, grid, is_video: bool = False):
+        if is_video:
+            start_token = self.get_token_value("video_start")
+            end_token = self.get_token_value("video_end")
+        else:
+            start_token = self.get_token_value("image_start")
+            end_token = self.get_token_value("image_end")
+
+        image_placeholders = [start_token, self.get_token_value("visual_atom")]
+        if grid[0] * grid[1] > 1:
+            for r in range(grid[0]):
+                for c in range(grid[1]):
+                    image_placeholders.append(self.get_token_value("visual_atom"))
+
+        image_placeholders.append(end_token)
+        return image_placeholders
+
+    def construct_visual_placeholders(self, grid, is_video: bool = False):
+        visual_placeholders = self.construct_visual_indicators((1, 1), is_video)
+
+        image_atom_token_id = self.get_token_value("visual_atom")
+        # Extract the padding token ID from tokenizer
+        image_padding_token_id = self.get_token_value("image_pad")
+
+        num_image_atoms = grid[0] * grid[1] * grid[2]
+        num_image_atoms //= self.hidden_stride**2
+        num_image_atoms //= self.temporal_patch_size
+
+        # Create a new list with padding tokens inserted
+        padded_placeholder_tokens = []
+        for token in visual_placeholders:
+            if token == image_atom_token_id:
+                padded_placeholder_tokens.extend(
+                    [image_padding_token_id] * num_image_atoms
+                )
+            else:
+                padded_placeholder_tokens.append(image_padding_token_id)
+        return padded_placeholder_tokens
+
+    def preprocess_multidata(
+        self,
+        images: PIL.Image.Image | list[PIL.Image.Image] | None = None,
+        video: list[PIL.Image.Image] | np.ndarray | None = None,
+        convert_to_rgb: bool | None = True,
+        min_pixels: int = MIN_PIXELS,
+        max_pixels: int = MAX_PIXELS,
+        return_tensors: str | None = "pt",
+    ):
+        is_video = False
+        if images is not None:
+            if not isinstance(images, list):
+                images = [images]
+        elif video is not None:
+            is_video = True
+            # type of vidoe in dummy_mm_data is np.ndarray
+            if isinstance(video, np.ndarray):
+                images = []
+                for i in range(video.shape[0]):
+                    image = PIL.Image.fromarray(video[i].astype(np.uint8))
+                    images.append(image)
+            elif isinstance(video, list):
+                images = video
+        else:
+            raise ValueError("Either images or video should be provided.")
+        min_pixels = min(
+            max_pixels if max_pixels is not None else MAX_PIXELS,
+            min_pixels if min_pixels is not None else MIN_PIXELS,
+        )
+        images = [
+            image.convert("RGB") if convert_to_rgb and image.mode != "RGB" else image
+            for image in images
+        ]
+
+        width, height = images[0].size
+        resized_height, resized_width = height, width
+        processed_images = []
+        for image in images:
+            resized_height, resized_width = self.smart_resize(
+                height,
+                width,
+                factor=self.patch_size * self.hidden_stride,
+                min_pixels=min_pixels,
+                max_pixels=max_pixels,
+            )
+            new_size = dict(height=resized_height, width=resized_width)
+            image_pt = self.image_processor.preprocess(
+                image, size=new_size, return_tensors="np"
+            )["pixel_values"][0]
+
+            processed_images.append(image_pt)
+
+        patches = np.array(processed_images)
+        if patches.shape[0] % self.temporal_patch_size != 0:
+            num_to_pad = self.temporal_patch_size - (
+                patches.shape[0] % self.temporal_patch_size
+            )
+            repeats = np.repeat(patches[-1][np.newaxis], num_to_pad, axis=0)
+            patches = np.concatenate([patches, repeats], axis=0)
+        channel = patches.shape[1]
+        grid_t = patches.shape[0] // self.temporal_patch_size
+        grid_h = resized_height // self.patch_size
+        grid_w = resized_width // self.patch_size
+
+        patches = patches.reshape(
+            grid_t,
+            self.temporal_patch_size,
+            channel,
+            grid_h // self.hidden_stride,
+            self.hidden_stride,
+            self.patch_size,
+            grid_w // self.hidden_stride,
+            self.hidden_stride,
+            self.patch_size,
+        )
+        patches = patches.transpose(0, 3, 6, 4, 7, 2, 1, 5, 8)
+        flatten_patches = patches.reshape(
+            grid_t * grid_h * grid_w,
+            channel * self.temporal_patch_size * self.patch_size * self.patch_size,
+        )
+
+        visual_placeholders = self.construct_visual_placeholders(
+            [grid_t, grid_h, grid_w], is_video
+        )
+        return (
+            torch.tensor(flatten_patches),
+            visual_placeholders,
+            torch.tensor([[grid_t, grid_h, grid_w]]),
+        )
+
+
+AutoProcessor.register("Ovis2_5Processor", Ovis2_5Processor)
diff --git a/transformers_utils/runai_utils.py b/transformers_utils/runai_utils.py
new file mode 100644
index 0000000..eac4294
--- /dev/null
+++ b/transformers_utils/runai_utils.py
@@ -0,0 +1,104 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import hashlib
+import os
+import shutil
+import signal
+
+from vllm import envs
+from vllm.assets.base import get_cache_dir
+from vllm.logger import init_logger
+from vllm.utils.import_utils import PlaceholderModule
+
+logger = init_logger(__name__)
+
+SUPPORTED_SCHEMES = ["s3://", "gs://"]
+
+try:
+    from runai_model_streamer import list_safetensors as runai_list_safetensors
+    from runai_model_streamer import pull_files as runai_pull_files
+except (ImportError, OSError):
+    # see https://github.com/run-ai/runai-model-streamer/issues/26
+    # OSError will be raised on arm64 platform
+    runai_model_streamer = PlaceholderModule("runai_model_streamer")  # type: ignore[assignment]
+    runai_pull_files = runai_model_streamer.placeholder_attr("pull_files")
+    runai_list_safetensors = runai_model_streamer.placeholder_attr("list_safetensors")
+
+
+def list_safetensors(path: str = "") -> list[str]:
+    """
+    List full file names from object path and filter by allow pattern.
+
+    Args:
+        path: The object storage path to list from.
+
+    Returns:
+        list[str]: List of full object storage paths allowed by the pattern
+    """
+    return runai_list_safetensors(path)
+
+
+def is_runai_obj_uri(model_or_path: str) -> bool:
+    return model_or_path.lower().startswith(tuple(SUPPORTED_SCHEMES))
+
+
+class ObjectStorageModel:
+    """
+    A class representing an ObjectStorage model mirrored into a
+    temporary directory.
+
+    Attributes:
+        dir: The temporary created directory.
+
+    Methods:
+        pull_files(): Pull model from object storage to the temporary directory.
+    """
+
+    def __init__(self, url: str) -> None:
+        if envs.VLLM_ASSETS_CACHE_MODEL_CLEAN:
+            for sig in (signal.SIGINT, signal.SIGTERM):
+                existing_handler = signal.getsignal(sig)
+                signal.signal(sig, self._close_by_signal(existing_handler))
+
+        dir_name = os.path.join(
+            get_cache_dir(),
+            "model_streamer",
+            hashlib.sha256(str(url).encode()).hexdigest()[:8],
+        )
+        if os.path.exists(dir_name):
+            shutil.rmtree(dir_name)
+        os.makedirs(dir_name)
+        self.dir = dir_name
+        logger.debug("Init object storage, model cache path is: %s", dir_name)
+
+    def _close(self) -> None:
+        if os.path.exists(self.dir):
+            shutil.rmtree(self.dir)
+
+    def _close_by_signal(self, existing_handler=None):
+        def new_handler(signum, frame):
+            self._close()
+            if existing_handler:
+                existing_handler(signum, frame)
+
+        return new_handler
+
+    def pull_files(
+        self,
+        model_path: str = "",
+        allow_pattern: list[str] | None = None,
+        ignore_pattern: list[str] | None = None,
+    ) -> None:
+        """
+        Pull files from object storage into the temporary directory.
+
+        Args:
+            model_path: The object storage path of the model.
+            allow_pattern: A list of patterns of which files to pull.
+            ignore_pattern: A list of patterns of which files not to pull.
+
+        """
+        if not model_path.endswith("/"):
+            model_path = model_path + "/"
+        runai_pull_files(model_path, self.dir, allow_pattern, ignore_pattern)
diff --git a/transformers_utils/s3_utils.py b/transformers_utils/s3_utils.py
new file mode 100644
index 0000000..a5a3af6
--- /dev/null
+++ b/transformers_utils/s3_utils.py
@@ -0,0 +1,95 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import fnmatch
+from typing import TYPE_CHECKING, Optional
+
+from vllm.utils.import_utils import PlaceholderModule
+
+if TYPE_CHECKING:
+    from botocore.client import BaseClient
+
+try:
+    import boto3
+except ImportError:
+    boto3 = PlaceholderModule("boto3")  # type: ignore[assignment]
+
+
+def _filter_allow(paths: list[str], patterns: list[str]) -> list[str]:
+    return [
+        path
+        for path in paths
+        if any(fnmatch.fnmatch(path, pattern) for pattern in patterns)
+    ]
+
+
+def _filter_ignore(paths: list[str], patterns: list[str]) -> list[str]:
+    return [
+        path
+        for path in paths
+        if not any(fnmatch.fnmatch(path, pattern) for pattern in patterns)
+    ]
+
+
+def glob(
+    s3: Optional["BaseClient"] = None,
+    path: str = "",
+    allow_pattern: list[str] | None = None,
+) -> list[str]:
+    """
+    List full file names from S3 path and filter by allow pattern.
+
+    Args:
+        s3: S3 client to use.
+        path: The S3 path to list from.
+        allow_pattern: A list of patterns of which files to pull.
+
+    Returns:
+        list[str]: List of full S3 paths allowed by the pattern
+    """
+    if s3 is None:
+        s3 = boto3.client("s3")
+    if not path.endswith("/"):
+        path = path + "/"
+    bucket_name, _, paths = list_files(s3, path=path, allow_pattern=allow_pattern)
+    return [f"s3://{bucket_name}/{path}" for path in paths]
+
+
+def list_files(
+    s3: "BaseClient",
+    path: str,
+    allow_pattern: list[str] | None = None,
+    ignore_pattern: list[str] | None = None,
+) -> tuple[str, str, list[str]]:
+    """
+    List files from S3 path and filter by pattern.
+
+    Args:
+        s3: S3 client to use.
+        path: The S3 path to list from.
+        allow_pattern: A list of patterns of which files to pull.
+        ignore_pattern: A list of patterns of which files not to pull.
+
+    Returns:
+        tuple[str, str, list[str]]: A tuple where:
+            - The first element is the bucket name
+            - The second element is string represent the bucket
+              and the prefix as a dir like string
+            - The third element is a list of files allowed or
+              disallowed by pattern
+    """
+    parts = path.removeprefix("s3://").split("/")
+    prefix = "/".join(parts[1:])
+    bucket_name = parts[0]
+
+    objects = s3.list_objects_v2(Bucket=bucket_name, Prefix=prefix)
+    paths = [obj["Key"] for obj in objects.get("Contents", [])]
+
+    paths = _filter_ignore(paths, ["*/"])
+    if allow_pattern is not None:
+        paths = _filter_allow(paths, allow_pattern)
+
+    if ignore_pattern is not None:
+        paths = _filter_ignore(paths, ignore_pattern)
+
+    return bucket_name, prefix, paths
diff --git a/transformers_utils/tokenizer.py b/transformers_utils/tokenizer.py
new file mode 100644
index 0000000..a393568
--- /dev/null
+++ b/transformers_utils/tokenizer.py
@@ -0,0 +1,293 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import copy
+import os
+import warnings
+from functools import lru_cache
+from pathlib import Path
+from typing import TYPE_CHECKING, Any, TypeAlias
+
+import huggingface_hub
+from transformers import AutoTokenizer, PreTrainedTokenizer, PreTrainedTokenizerFast
+from typing_extensions import assert_never
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.transformers_utils.config import get_sentence_transformer_tokenizer_config
+from vllm.transformers_utils.tokenizers import MistralTokenizer
+from vllm.transformers_utils.utils import check_gguf_file
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+    from vllm.transformers_utils.tokenizer_base import TokenizerBase
+else:
+    ModelConfig = Any
+    TokenizerBase = Any
+
+logger = init_logger(__name__)
+
+AnyTokenizer: TypeAlias = PreTrainedTokenizer | PreTrainedTokenizerFast | TokenizerBase
+
+
+def decode_tokens(
+    tokenizer: AnyTokenizer,
+    token_ids: list[int],
+    *,
+    skip_special_tokens: bool | None = None,
+) -> str:
+    """
+    Backend-agnostic equivalent of HF's
+    `tokenizer.decode(token_ids, ...)`.
+
+    `skip_special_tokens=None` means to use the backend's default
+    settings.
+    """
+    if skip_special_tokens is not None:
+        return tokenizer.decode(token_ids, skip_special_tokens=skip_special_tokens)
+
+    return tokenizer.decode(token_ids)
+
+
+def encode_tokens(
+    tokenizer: AnyTokenizer,
+    text: str,
+    *,
+    truncation: bool | None = None,
+    max_length: int | None = None,
+    add_special_tokens: bool | None = None,
+) -> list[int]:
+    """
+    Backend-agnostic equivalent of HF's
+    `tokenizer.encode(text, ...)`.
+
+    `add_special_tokens=None` means to use the backend's default
+    settings.
+    """
+
+    kw_args: dict[str, Any] = {}
+    if max_length is not None:
+        kw_args["max_length"] = max_length
+
+    if truncation is not None:
+        kw_args["truncation"] = truncation
+
+    if add_special_tokens is not None:
+        kw_args["add_special_tokens"] = add_special_tokens
+
+    return tokenizer.encode(text, **kw_args)
+
+
+def get_cached_tokenizer(tokenizer: AnyTokenizer) -> AnyTokenizer:
+    """
+    By default, transformers will recompute multiple tokenizer properties
+    each time they are called, leading to a significant slowdown.
+    This proxy caches these properties for faster access.
+    """
+    cached_tokenizer = copy.copy(tokenizer)
+
+    tokenizer_all_special_ids = tokenizer.all_special_ids
+    tokenizer_all_special_tokens = tokenizer.all_special_tokens
+    tokenizer_all_special_tokens_extended = tokenizer.all_special_tokens_extended
+    tokenizer_vocab = tokenizer.get_vocab()
+    tokenizer_len = len(tokenizer)
+
+    max_token_id = max(tokenizer_vocab.values())
+    # Some tokenizers (e.g., QwenTokenizer) have special tokens that
+    # are added and included in the implementation of the vocab_size
+    # property, but not in get_vocab(); if there is an implementation
+    # of vocab size, we should take the greater value.
+    if hasattr(tokenizer, "vocab_size"):
+        with contextlib.suppress(NotImplementedError):
+            max_token_id = max(max_token_id, tokenizer.vocab_size)
+
+    class CachedTokenizer(tokenizer.__class__):  # type: ignore
+        @property
+        def all_special_ids(self) -> list[int]:
+            return tokenizer_all_special_ids
+
+        @property
+        def all_special_tokens(self) -> list[str]:
+            return tokenizer_all_special_tokens
+
+        @property
+        def all_special_tokens_extended(self) -> list[str]:
+            return tokenizer_all_special_tokens_extended
+
+        @property
+        def max_token_id(self) -> int:
+            return max_token_id
+
+        def get_vocab(self) -> dict[str, int]:
+            return tokenizer_vocab
+
+        def __len__(self) -> int:
+            return tokenizer_len
+
+        def __reduce__(self):
+            return get_cached_tokenizer, (tokenizer,)
+
+    CachedTokenizer.__name__ = f"Cached{tokenizer.__class__.__name__}"
+
+    cached_tokenizer.__class__ = CachedTokenizer
+    return cached_tokenizer
+
+
+def get_tokenizer(
+    tokenizer_name: str | Path,
+    *args,
+    tokenizer_mode: str = "auto",
+    trust_remote_code: bool = False,
+    revision: str | None = None,
+    download_dir: str | None = None,
+    **kwargs,
+) -> AnyTokenizer:
+    """Gets a tokenizer for the given model name via HuggingFace or ModelScope."""
+    if envs.VLLM_USE_MODELSCOPE:
+        # download model from ModelScope hub,
+        # lazy import so that modelscope is not required for normal use.
+        # pylint: disable=C.
+        from modelscope.hub.snapshot_download import snapshot_download
+
+        # avoid circuit import
+        from vllm.model_executor.model_loader.weight_utils import get_lock
+
+        # Only set the tokenizer here, model will be downloaded on the workers.
+        if not os.path.exists(tokenizer_name):
+            # Use file lock to prevent multiple processes from
+            # downloading the same file at the same time.
+            with get_lock(tokenizer_name, download_dir):
+                tokenizer_path = snapshot_download(
+                    model_id=tokenizer_name,
+                    cache_dir=download_dir,
+                    revision=revision,
+                    local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+                    # Ignore weights - we only need the tokenizer.
+                    ignore_file_pattern=[".*.pt", ".*.safetensors", ".*.bin"],
+                )
+                tokenizer_name = tokenizer_path
+
+    if tokenizer_mode == "slow":
+        if kwargs.get("use_fast", False):
+            raise ValueError("Cannot use the fast tokenizer in slow tokenizer mode.")
+        kwargs["use_fast"] = False
+
+    if "truncation_side" not in kwargs:
+        kwargs["truncation_side"] = "left"
+
+    # Separate model folder from file path for GGUF models
+    is_gguf = check_gguf_file(tokenizer_name)
+    if is_gguf:
+        kwargs["gguf_file"] = Path(tokenizer_name).name
+        tokenizer_name = Path(tokenizer_name).parent
+
+    # if tokenizer is from official mistral org
+    is_from_mistral_org = str(tokenizer_name).split("/")[0] == "mistralai"
+    if is_from_mistral_org and tokenizer_mode != "mistral":
+        warnings.warn(
+            "It is strongly recommended to run mistral models with "
+            '`--tokenizer-mode "mistral"` to ensure correct '
+            "encoding and decoding.",
+            FutureWarning,
+            stacklevel=2,
+        )
+
+    tokenizer: AnyTokenizer
+    if tokenizer_mode == "mistral":
+        tokenizer = MistralTokenizer.from_pretrained(
+            str(tokenizer_name), revision=revision
+        )
+    elif tokenizer_mode == "custom":
+        from vllm.transformers_utils.tokenizer_base import TokenizerRegistry
+
+        tokenizer = TokenizerRegistry.get_tokenizer(
+            str(tokenizer_name),
+            *args,
+            revision=revision,
+            download_dir=download_dir,
+            **kwargs,
+        )
+    else:
+        try:
+            tokenizer = AutoTokenizer.from_pretrained(
+                tokenizer_name,
+                *args,
+                trust_remote_code=trust_remote_code,
+                revision=revision,
+                **kwargs,
+            )
+        except ValueError as e:
+            # If the error pertains to the tokenizer class not existing or not
+            # currently being imported,
+            # suggest using the --trust-remote-code flag.
+            if not trust_remote_code and (
+                "does not exist or is not currently imported." in str(e)
+                or "requires you to execute the tokenizer file" in str(e)
+            ):
+                err_msg = (
+                    "Failed to load the tokenizer. If the tokenizer "
+                    "is a custom tokenizer not yet available in the "
+                    "HuggingFace transformers library, consider "
+                    "setting `trust_remote_code=True` in LLM or using "
+                    "the `--trust-remote-code` flag in the CLI."
+                )
+                raise RuntimeError(err_msg) from e
+            else:
+                raise e
+
+        # The special_tokens in tokenizer should also be
+        # controlled by do_lower_case in encoder_config
+        encoder_config = get_sentence_transformer_tokenizer_config(
+            tokenizer_name, revision
+        )
+        if isinstance(encoder_config, dict) and encoder_config.get(
+            "do_lower_case", False
+        ):
+            special_tokens_map = {
+                k: v.lower() for k, v in tokenizer.special_tokens_map.items()
+            }
+            tokenizer.add_special_tokens(special_tokens_map)
+
+        if not isinstance(tokenizer, PreTrainedTokenizerFast):
+            logger.warning(
+                "Using a slow tokenizer. This might cause a significant "
+                "slowdown. Consider using a fast tokenizer instead."
+            )
+        tokenizer = get_cached_tokenizer(tokenizer)
+
+    return tokenizer
+
+
+cached_get_tokenizer = lru_cache(get_tokenizer)
+
+
+def cached_tokenizer_from_config(
+    model_config: ModelConfig,
+    **kwargs: Any,
+):
+    return cached_get_tokenizer(
+        model_config.tokenizer,
+        tokenizer_mode=model_config.tokenizer_mode,
+        revision=model_config.tokenizer_revision,
+        trust_remote_code=model_config.trust_remote_code,
+        **kwargs,
+    )
+
+
+def init_tokenizer_from_configs(model_config: ModelConfig):
+    runner_type = model_config.runner_type
+    if runner_type == "generate" or runner_type == "draft":
+        truncation_side = "left"
+    elif runner_type == "pooling":
+        truncation_side = "right"
+    else:
+        assert_never(runner_type)
+
+    return get_tokenizer(
+        model_config.tokenizer,
+        tokenizer_mode=model_config.tokenizer_mode,
+        trust_remote_code=model_config.trust_remote_code,
+        revision=model_config.tokenizer_revision,
+        truncation_side=truncation_side,
+    )
diff --git a/transformers_utils/tokenizer_base.py b/transformers_utils/tokenizer_base.py
new file mode 100644
index 0000000..7421eb5
--- /dev/null
+++ b/transformers_utils/tokenizer_base.py
@@ -0,0 +1,155 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+if TYPE_CHECKING:
+    from vllm.entrypoints.chat_utils import ChatCompletionMessageParam
+
+
+class TokenizerBase(ABC):
+    @property
+    @abstractmethod
+    def all_special_tokens_extended(self) -> list[str]:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def all_special_tokens(self) -> list[str]:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def all_special_ids(self) -> list[int]:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def bos_token_id(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def eos_token_id(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def sep_token(self) -> str:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def pad_token(self) -> str:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def is_fast(self) -> bool:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def vocab_size(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def max_token_id(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    @abstractmethod
+    def truncation_side(self) -> str:
+        raise NotImplementedError()
+
+    def __len__(self) -> int:
+        return self.vocab_size
+
+    @abstractmethod
+    def __call__(
+        self,
+        text: str | list[str] | list[int],
+        text_pair: str | None = None,
+        add_special_tokens: bool = False,
+        truncation: bool = False,
+        max_length: int | None = None,
+    ):
+        raise NotImplementedError()
+
+    @abstractmethod
+    def get_vocab(self) -> dict[str, int]:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def get_added_vocab(self) -> dict[str, int]:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def encode_one(
+        self,
+        text: str,
+        truncation: bool = False,
+        max_length: int | None = None,
+    ) -> list[int]:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def encode(
+        self,
+        text: str,
+        truncation: bool | None = None,
+        max_length: int | None = None,
+        add_special_tokens: bool | None = None,
+    ) -> list[int]:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def apply_chat_template(
+        self,
+        messages: list["ChatCompletionMessageParam"],
+        tools: list[dict[str, Any]] | None = None,
+        **kwargs,
+    ) -> list[int]:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def convert_tokens_to_string(self, tokens: list[str]) -> str:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def decode(self, ids: list[int] | int, skip_special_tokens: bool = True) -> str:
+        raise NotImplementedError()
+
+    @abstractmethod
+    def convert_ids_to_tokens(
+        self,
+        ids: list[int],
+        skip_special_tokens: bool = True,
+    ) -> list[str]:
+        raise NotImplementedError()
+
+
+class TokenizerRegistry:
+    # Tokenizer name -> (tokenizer module, tokenizer class)
+    REGISTRY: dict[str, tuple[str, str]] = {}
+
+    @staticmethod
+    def register(name: str, module: str, class_name: str) -> None:
+        TokenizerRegistry.REGISTRY[name] = (module, class_name)
+
+    @staticmethod
+    def get_tokenizer(
+        tokenizer_name: str,
+        *args,
+        **kwargs,
+    ) -> TokenizerBase:
+        tokenizer_cls = TokenizerRegistry.REGISTRY.get(tokenizer_name)
+        if tokenizer_cls is None:
+            raise ValueError(f"Tokenizer {tokenizer_name} not found.")
+
+        tokenizer_module = importlib.import_module(tokenizer_cls[0])
+        class_ = getattr(tokenizer_module, tokenizer_cls[1])
+        return class_.from_pretrained(*args, **kwargs)
diff --git a/transformers_utils/tokenizers/__init__.py b/transformers_utils/tokenizers/__init__.py
new file mode 100644
index 0000000..b63cb26
--- /dev/null
+++ b/transformers_utils/tokenizers/__init__.py
@@ -0,0 +1,16 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from .mistral import (
+    MistralTokenizer,
+    maybe_serialize_tool_calls,
+    truncate_tool_call_ids,
+    validate_request_params,
+)
+
+__all__ = [
+    "MistralTokenizer",
+    "maybe_serialize_tool_calls",
+    "truncate_tool_call_ids",
+    "validate_request_params",
+]
diff --git a/transformers_utils/tokenizers/__pycache__/__init__.cpython-312.pyc b/transformers_utils/tokenizers/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d9214ea0e77c34eca5b08363421ae5da7b5a5dc9
GIT binary patch
literal 365
zcmYk2zfJ=&491iD)2o0YrXn%3bSN1M65<VDK%H)}(q1T0le@#oRa`e_9)O*VXW<R9
zGO-~#ATi++RKmkg_9x4q?bpFzhf$d1QLi~;Z(XsC=r7qEQ}V<LR&c{C&$*5A$i{hW
zlRV*ULHaY#(>5B#?=*vrl5lXTokwY=)l!vutuP!}+0GO=g<2X?z*m)lxirRwp~t42
zOaD&<UAS<#qSm6*QQbAld8j2y>#jz<kl9}cjL8v`4rzxTA!GnF7~q9%sAS*Q!rNNZ
zx*mIp3+2c6&E)KKIZ?vsnW$TTTa{vEj1{zW>24~t3LP|F8z=ns1}6Y?sXf3+-G=_T
kt%}B|3)~}%?rt|Ee8imduYSs-4I_N+r@PTZhTWHc0L;W|Gynhq

literal 0
HcmV?d00001

diff --git a/transformers_utils/tokenizers/__pycache__/mistral.cpython-312.pyc b/transformers_utils/tokenizers/__pycache__/mistral.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c05e12f5b49b3ce8be8eaebed616c295ab0066e2
GIT binary patch
literal 21236
zcmcJ1dvqJuncocFF9IL|zF**5peRzbC{b@kmSpNlOQ!5&%dugKGm=1&AUyyjlM6aZ
z;<nUAT~SH5q8g{BdeSwu_BM1+dX{Okjg)N8Cf$E9f*c@Ir7L&6=WKd<P9ae~iPO`j
zzwZtP071}JHrp%l&Yk=C?l<@Gz3zAM*F{A(4q?RbwcztdIPP!hMGNk9V!4y&xa*w2
z3H%5*%Aev#b*FTr`crzI@^mAHQR68iOY28Wqvlg)o)dYg4rPWB%c%8~jg=Wk?4yoT
z4wg2J6pcDhxmemf;vOwNRm{?ckrLFm@|=znjiTp0^h@ECSEv*$Zy8RN;%UXR%*xR}
zp-Qle<$|LUb%Y|ZT&xf)Mco-4y|X;qlo=&Xu}W~^&n;GKwb!bvwmoALir+Gxsu8M%
z67*Ipcm%Id3fOfFo?EOxV-m_x;?r?`oKXH2Csc^$_w<A-ux*&M`D=bjNxxnxI{DJ^
z1A%=959~W~sJ~Cq?+r~VhM~c5#Lp}CU?>;~jEtQ<D@u4RIyrV;3<ak|>FL3+h>X&G
z=LRGD#zx0S#7J-~^qlzmgcy$8;uYIT@qD@}-pY;z!x3q41T{y;LKz?cP_+`kF)<t-
zJS!d_lm<tK(ql_#awhx{_RAe?rX!iMC^xL53M+#)FZ;PyPI259QDd5))<t#0#+CKx
zP2jcKg6{k}jtlcws@JHg7YxIgul(>{I^(@GCe!+}+_Zt_KVsGDM)g`R)5fS_*skSg
zpHZV$gXgZ)8MsNViHkV2@@7uLYJQ0e87^{f=wIS4@=-(KZ;$e9W$AaK>6J@<W4~gM
z#zsWNIv5UP8U{lV#TFSG8wm^zj*NtFaelL66+;uFqBIy070akP1z|;hR*Wc?Kp+?q
zr9eP2gv2)@ifM3sTnq_H(LiKu{18e8Y2N)N#Vo0Fukb;|oQ9!zv;71v42}ea!N{1T
zc+*Ky2xQ9@Yc@@j?PK9LC%Ph|<6Yyy@ePqd2?%X?W1@H4*7Ln$*GTYm*Z5@Q+*qjV
z!pO*I7uHuOd}d6-cZ35Ik>E(UE26E|aM!5106WJgm8#Lf$<tyWEJ{J3G$rOBAvK`q
z3jBq?h3FFZxRWdQ&6^Xxjk0g!&&s+l+h+Kg-lV<c>W<4hW-r9;b@S`v_6^CV_IG#O
z+_4Z{dhQ1=fA8i0^h&(xNX+3&HnmV(QkK#gimUGXnqw{7;=b*(hmziP32&F|?OL?n
z^KMU>IZydRD_8#1uOGX)ik3$lUtINbZ)Hl4=WkLbuKNH#)0c46$c~!16SAXz-f`El
zAzT6s@08Z;?a|%ou|CZi@9g0buh=xS_}Hd-^t*1FzxiD^jTBsK%bex1+ajvRhTMbA
zXozICQPdz9Xu)cWUof8E&o*Ic#DZ)V3T+p`q_xzZf?2RsaT<~1xt00!#<s*>0~ggl
z!Pfce8efzp7uE|zEUpW-sE(!Hj_L#(eao~l=le3-TKzJq{&T*|9yLadtG*?j1L9%)
zOx$hk8$Sa1u=pKQTTV(7p&{(+u#dKvkG8z;(EhLw8^xC<%57of_-OkEC2>>?MZ%qu
z3m+j7ca@3}DY~HWOIl1*4QY76(AgCLxBFVC2gJc&{r0!N?cYt5P%%)Sii2%zNeoYn
zM8fGe!XpqAR>5O52?berev{-OJiHW@5>)+&7*b3sPg2Ym2c;0OLA5HXQB6?|MTEFi
zPf;79aF(V>KD;Ysk@U!9w?Fy~OY2d%iyBm5&s^d@F022X{eKtxztZ<k^^NNJFD^b6
zuiP?o_`lY+&06n!%4R3$z1O}J_p~iE#69cpd#kSZU+Yg+>_}EL%s1a~r5_8r1%0fd
z<FVOLT9&eLZ5tO2H^&xFFAl|8K`Z8juRoh|adqobC0zH8)pX!Nk@xD$mtUSMix>G~
z%{%WF?M%9A=gaT9)+Os(=iij;x6C>|1}f3Gr+NPMyPkEqXf!7)n&+RJABa`>weFiY
zF6tKbv8JBcqsc8#&zci%pX~O{7t8LZ`To1^O%FGLP%UGCxPEm`ijY){G{<43Y-lVL
z35F)bz?ooZa3rAdfzm-i2%Hr|X?779mmo5LnMh(}LJAET2wXZ4gJv{qj?t{BUMh;}
zBzu<OXW8{v_()oy;kZZ!MucXXh3r04g{CM(K}KmbHf;cO59orPF-!w7{}nxDcJ5br
z;E-FhH?O8iqh6@VfyQCA(oQW%x6DG8BATw0fg15rf0W<PT{REs&T>P#SFrJ>%~4P@
zhL<%hlsJ%MrJQTJD<uZhn>M4TF4VO|EyFYoc|ovgSY0v(xu`{8v|)|9cCGH0`77%M
z2Ws0HCFur!!0?Q206p@o*NdFLsDJ9%zQIsvEaD4`5#Q;t$T{C@1t<A6-(X1ay;gW(
zyhbzwBt`7}C8)-4vt(y#CI|XjfYWV#7te_yU*w$V8-dX3ORqU!5JV2kj1^=gpHAPt
zu~0ZDh>~w2Ohjx=#Dbx4L>v@4r@okr$>)5=+NjV-6+lO^O5$L6j3^kW<>WZzuQMRn
zBvUE2agu^X$XH>;E{NeFDLBpwNMf_SFgP+H9+0FlNun*I7=++ZMA1XcmS`&|`th-G
zMlbzVb)RlPuGC2pmJFvjXt1;m$|$D72c#A%-;5|s<X)A*5UV7!3;R|CQepr?;K*cP
z2(o`5B0~5FgJEPe9Kd92K*JI^J@+yJb2D1{(7{=1<%Zt-&We<dFWR`Q*Sl;fPH(k6
zwsGEyw+(L(e7kAx#T(8A%VNnbN8Gdd($R-Dw3)A2I3qV~UaG#^u%9*76>VA88>q3t
zYNIN3^BoHp<i;&a>+d!mNW<Trg}?0PyfriC2M*8GBbSfN+2>Ej9qpI-lo8nvot&lU
zBY)?zURP=RxxaJXyV$&V;e(Fb?eV9M&g`G9iaTl+N*`0{%t1(F?ux6?%h9=`ahE^l
z>Q4IC&syecWOr-QRn7{I#a->P>#1aW2MTKMy4zAkXqs|!4)5&qGkao&s!tykBPUFv
z{he(^`^<(Pn$3t;h;BsK7#Tc_#C2@JVLbE0B}ZXV;LG+%M$gG5my?`d*FUvo#k|oz
zVcU3Oe0)rbh(fMtfbE%9;=-MzDXwU#cvrjz&Vv=74NKdArJrZqIE-oM(u=2D6Z!*b
zMIpeJcUanoI)8+}Fmc{XT+-}Jm}_KnP0YM*p)b*KQ0_Pw>o|!yja8nAJD-bLo=fSu
z4bSsZ2kMj7kj79VGl9ZKhSJm>ZycB5CRZ3Y5qKB_U?7+VCCd&G=$lTHQN!-TT#oFP
zkxDfc4?HI`v{63GVKVKDqkKWCpHcrpe3YLi`7@*1F-%!RN+VP2oY_1r6=hs%3a<mC
z7;2^u4vOLPkahLLBqrqrA=7JGZX_uxFI<4A1Z)bFM2*C4hIB8X$4HshY?w0hf&fmc
zjR0`rhDjF73o0B<d4*ak(L_m1tTawU&TQB^wdI+?;0RVA2s;Sv1yPEq3otEQ289lY
zsh~DPM7b{p!E<&_gwF5wJC(Myeis;G7KTo?D#Gf6%oRv7dxW}3Y(da|(u9XZsRu|X
z#?zA!krk5|8X6Nsr3Bh=AUrM(K|usv!vYH{RiJca(NN!?3JQVHSh|X0IU-InQmmK+
zkwK`<YmP;a&k2ix3u8lrrzJmqc{}xN!UsU^g!sCj@(xhM7P2`KP?0i*&jrs!AYlbS
z+gFLPo)u^TIRKMR0?Ie=7hXbiiTj1&>5uKDv%&eQd-jf)Vb}Y@;<oq3;)Y!@d&kFZ
z-HQ$1eg0nCj+w!$=PsX{y?D=Af4lfnU(!*UaIBLZ>n<Hg>8wUy(&e3<OqB1C%XcjG
z$>sZH*Z!Dg|F7@cJ&!muirwYco!6Xm7vt`>8DrA!o;{TC?vU}{z9Z?WNqDx)p6yGU
zWzXKbj=lFS&a2ML&ZJ}i?Xw`PRvVGk%7m+4cGcgt)Tdkk_?s~4;dea6dt10WExr5n
z`XAOcBL0z%M?8eGOwcycauq1%bx!0?@d9^BCv*yWSitn6LC^_?w|T)R8U+*nbj(JE
zI<S$M-!f@i`;<xGMYG6+t}{Aj&9e$tEr*q{4ROXG*Z|ii+H>-Bg8eN+29hJM%#l-8
zlrGcyDat8xvN8*Lcjn}}GP$mtTsO-#qOLn9w>XnqoReF^ay_UEYheaUZw9U>C$}_{
z>&?k6%fKzo$t@SkL<>g2gE1+`m{cH5*jFH3sail`1MLzjVJkI@Z1iaCwJ~M$P?edH
zYSAOq;I9@i*&M;jSqCd;73(|Q9?<J^FsMe4HGqy@i7uhkhrVl9<u)L<j#*?k5;iOQ
zL2Yf`EkYxDtXFXtx-)gvHIu<iAY9YyDAU#^G@-2zU;LENESiND!boUEIbqn4WA)8%
zX%gDdvQgM1tka;07B)J5^uvortkibYXcE?=oQ)&PH3%K}u4eR@(^62|XyauPHlSt8
zq|V=?xYH{C$qdun2o(EQuuL+{Fv;T{<Ve`mb66(Q`VrXGr(uai+CX;oX#)s8l%7CF
z?E(WV#J;#d#+(BNkzrrxEggo*qLmi_m#85Ng_+bEePzu{h5O2|GYvY&4HLo13yf{*
z3bC{EstQ=EH4u!N0tFF)%nmF7=K^Cf>`NEtJcb){UeZYo;<PE!qLoHX!(`9M3qnQ#
z70k5iw3ZmZ%t%Lw>#$H5tEfR^;b=vc78X9YRfh4SRc2Jt1F^Tf5Z-`%65H}ZxFJG1
z2@8TH(ygTn<EeeyH@R==v^2(iQ%);l>Ulx1PGKd%td=<iQ5EhW1e{kOu0Y}DhB2r4
zA!<I$3%2*|+Smxpx*j!uLwBV{Rl@PzWN>03vLllsBN7XMyH!hPpTnda<pqs03y!zA
z_lvY1wQtPr2Qc^MHO8yf9yJ@Z(g=wZETGNPS~~m8f!?I$qUIqjoqc|8`^*|$(dXeT
z1TB@*XRDS6=!JGlzgC`o;_EUy0Ik-XYt(~5M-7v?#tWw^dg5Hl2`!oqC7^B}gWyLe
zRRb`9LJSm-2gM;VODCC_I+Z4$S+&SFIsuczY0(#i1p+5uzEObb^c@>KFZ#k0l1QQ~
z8Ax8E{9SD;yMs&`j<mg|8V!bE2!QDfW>pw6R`t`V@E4?~@GVp2&xgVpRgKA}B;RiL
z{gQO8XYd7{@cH0)p7^;!wIs2dbcJP-n@F`(m-GNBhtey^lZX)GY>s~;SAnza92p!v
zEe!6STA$BFI&nxu=Y)aIog<KMN5Z?2P%HlwpqMS;68DqWV<(>bFA=7<0lNOYIO+E*
z?W5|+j3&9mG#D8h8XM^(30;~PigczGM;JO@0x+dBuYoF`=ZgB_^c0TM6iQ@(koqVh
zPC|CyoO7bg05b6#2UjXGN{QCHD(=$|D;6zJX;e)g&^6NMo*A7sgR5c;(3HcdgE?k8
zu|%XnF_RiV)*U0NPKb&=h~qe8czh%nkq%M?YcQM^=@k=_;qg($dJ={q)zqVEEBJ!5
zqGDsZL?8_0l+v`mL?&!f0@OiK?5e&IAls0%oxq#IOvzV_IMo}4!4_6oC>FV@4uMcg
z3gqdrkkMdOWt^l%6whivVa2twau~H%w8rP5sYyjrDGH1ZzM*1H8j(dYgvF6Fs$N7h
zug)Z!L<1XJZ$MiL=|Lq8iJbt1Nz~A+SCWrDoDMSC8l9><rcUxnO$f>?-*-_l{0TM^
zbSBHOPjt{sJ~46DKK?;#*Nowwr72nNOO&_E<?S<uD~@DE%{z`8jzmSTT+xe+qGV<5
zJGD1z6O|j~%8kfyK5%)+B$RONmR-9OF4CE13`x6dc6Y+lDtlV*+FS3J)TDH};ue^*
zJWiOiiky!foUduV=iS{mcPE;*$xYi5O?%{~J@NW4#4I)UYwBaZo`i3^?AyMyDel{I
zTPOSW#cKffisR$TruqHv_TTJZJRGmwLkQe2^UZtTt-Dzl>+Xw}9YmHr>GocCe%(3W
z{O<aHv;KZbb*yglcZH>%AMF0#?)a9&vCT(fHAmwm$6}6SFv^ux&-J{s=f<9e6LNJY
z&IO*nSK7O5)YsTPD(#)+VTUOyPB>a+N9zJVAHHpjIa=e6XKuePI}ZJ%TXq~xmi9iR
z+B9|*09WJtwrM_+XzP{RdJ}EC<hEV$wmo-Vz2`d_uYR6Yf+E<|mT251H|~lz;uG#!
z>hHJu7n&38d*$}M@z$r+X{c{X)c4Buy-S9~)@S9d&&KPIQ$fxBrdEQ#LvGs<Z`w&&
zK0qw5z8<<3N|dda%ht0YsBL&Ba3iqrx?GEC`p^P{Ts^R4y7iB{>kqXUK%Okn*kLBX
zPIZkBM$QGsBy93=re6OuER&4LOk~%LKPEDdBatIAt75V$GLx9By97lP_8;A}Q3tw<
zKf`cFC`QwCfH-Z0J%?6$UU=WAoo;F@6ja-kwxqm>%90(CVi+9^hWt8-5S89S1oMJG
zX+}WT<x)V6ZZaO2*-xq!MIr{FxX5fxmR~drhD1RcVE`5V&`4OCA*iey2D;{C4sp%j
zW{LyblMEqjSo19z(iMQ3(l}psZ|3#>A!>!6L3D}x#KKwodA3Va7Ot^9*3f<J!r~h<
zj-R_ql8&u0$GU`LtL)gCbk{F*EWMi8bzI(c9Oi~1CpMc~wH-5Nw1PX58pG!DH<;O+
zx#XG3qs}F)hY&mp%pANSXaZP34I00^kYj1Af~AqpSy?DtTbpG~u%pwZLQo5-QxI?U
zL%MS$-eP^i;t1!JO7!)0-4&|=C-Bqy2)(iZ(Vx~a!T^0)0YywY@ws2dYXWQdAM?w+
zDqguUyax(m9x2yq3C1TK*_BE}`h-i56E1C6odQf|q=XmEVCei*#q*)_p|Oh)_cZq5
zqjQ_>K7WxUQr(sEhV(k+9i(VKMT~)a0(AVnk`+o4ior3#$RlvqNpo;ja(DwpexvkN
z0>Ho%X<)WO#jZgC*A5$z&A1+8dD0YKr`qzjVdrX2O)UTKP&xeH5Mg8GFh0BM>h3?>
zecw|%C%hB75n33&=h+r>Jp28g+lIe#-f_lvJR5gB8}n>Sc0To;(5+CS^Z4D)<MFB!
za_8}d;<@g*7rwbI)_Hv9NUZ7voLk&wv*+Wk#+aoMN7~Mkt1tiI%NfwI&i(g12T~mN
z=U+w`m%4_HsyoO#mnkoXG80!_|4!$P&P3H#xoYdok;gC_W*|P+bDr8*eed@TODBKu
z>i1raZ#^38Jr=9&kC!|Pj6Z$k;;NtH8QHnh;Mlj-pty2p0Yi|X=@^A9O@9k7Idp*b
zKAqKKZ?Uu5cDA>;VFNW<849_IMfGPv{|nKM_cMw#&UZVQYN^khxzdU>sB|8@sboME
z*cg>OJ~k2@nnbQwTMBGt2FBHVqtc>DNo(51Ps5o{x(?*kHA*^{VmNZ(z;VApU37m;
zWvoIqQepa5T4(AqdlPR{%}=n*!oQ-%q*;=Db@ZWyD{Fx?;f6HPoR%i8_FwK#I2vR}
z!+iIAQ*38{V&{Oob0Fqu_|S1OS=tP7f+#nR3_pFuA<0nrTGy_Xhi62~7!8MB&orE2
zJoCc<cZ=_*!OUF+Z0N$bc=p-3+E4ZBS^@aO!4*yvraD%A{AbkWf!#8xx|cY}hY44!
z>}ri!T32(TC;STOZNS2T+n4Z={xzZ;w54z1eX8jR(1Uj@7tX<|Np>~GEKR>RR)0_k
zD_TwkSbgrGVLQUfmXqeGeFvfyOgb|(ohVuBbhMCP=m4h<mrm99OsB`fAb$D7rZ^~H
z-9~Uys$DgHxy405W|=r9o6oCnUVby-YL;EiF-!CRN5sW75U2dlKs>h?4$YkOCk4ls
zOayELkwNb|mvz3$3L<PAZ^7KqKNdMedN6s8iGr%8<}E|T8WzV@w5F<74Q8gSltz-|
zC%9cX8{*E-S%ClWxj%zG6zljP`JduQFMs-_MU)pnG}E9Gh=xfpNpE4C_qQipJ+iAO
zX6acy>8PlVrU8lT+$0Y}%SmQr$?sV)L*+jM$Be0pRl}4nsinS&(X+l+cZOoMv)^xc
zqzS;uM~`JrRj)!VYlvtlI5L}M*XEdI^JgIY*@RjnabGEblj6v=8Wh;8xy3DnUJjLO
zkX;QiOT%i!o^%69v?20`NpYop3!y#2JR^t&XkA_nKM<4t9l;`6r&zQtyh0?&AXSGt
zpn9YXAeA33K#12yY#N171exTxgmjo-X#PCj05dS<9CL#fPPMF>-a^$j&`6RM5gr?^
z^0}Tw^%l8$OU$(;X4$fOI8pgY7_x?Sp|z)&0|7XG1_A}PM!IAp;Y2zY;pDmcrORK6
zS?bgQg&7Xc>sE^4cM_Dq_2H4YLSPERD_(U8C8gg+%Le_Ojhq`Il~4;ARX?-6=-cuF
zW=01WV?)&VKK~x=RRm^Ug%JN2NK5~jq90Ino1#02z`=<uK~rawwN|x!wVCW%%$YV&
z(5|HxZK8o$59pUT_#wHy3Gz^CPZpOZ%j%Q$-O2I>{7>0A_xfedMDmr%YWuw>@yqmO
z`HaBGNX3+PALOK_Lv^zJeT1hvfn+-SgUf#qvsC@wh+Hg$h?VS~Dl)4%Ql_kr5K`#{
zR+Q?X5VO>O21>M6u5&?c3l^sGF6saa5Emd+6jqx(@@gC=L}=|1)i0j0su&oMp#|!g
zvFtA(v8G5wHS$7~7ua%rU-w=b9+s-U{~5nNe}(GU3Y886fTkF*WqKPKYz?ne3>2H{
zP7@dli3ONOwy>W*F1<XRndO;qb<6OtbGYZ9U!3~MFpQ0E_#NwLdBQHM4nTTuu`i-D
z8-On&@w*KGT!8rr3<HKBJwQ13)lr^gj_SWm?)Y%9sv_fvF+DgsMGqlR(L<mDecewZ
zz{Vwa``)J9I~37YSIp`c3;A1^HJmD6MRwKdFVWx}L3`|7CoYOy@4VKTC~1>R+AuV+
zvUQ8bSlQ;K%@`ifIt-7;He-f0%uzP?yliirpNh5ZN_wj1cFY})dD>!*wg;Z7nSM5S
zS?_I$TtkO)mxdh~^tW7x-Z7T?VLbB#c?M`EpJ_ON4d+5gR~Ga+b;zh$s1E#dGH^_5
z)PdJdrVi$$Ae_t@__QV0Ne{FbH?FkBow*Cf4d>GJG`_=h&X*S$HOKXfs3~fOTQr==
z-?zM%u7}lN?Pm_P&q%}(6f=ZG0mpb*!hX_kRUGQ^Oqf|&*>J11RX$IrOEMZ~+bB-e
zGae^FAspDi|2O?k2RUFO<eAN!dzp(Z+m?!_fKx7ff4@pqNmgauDyFoTCY`r49P)ZD
z;P)&240Q`A_yzh4(qjEnRL5d<a1Cwm+HTrn>z}@TAnrRHv(zS$Q+2Z{*0KM#7;iWV
z?wl;CxZZxPeeR_NW4xqu#+)pzzJBW3sd>kO7%%Oav1Q)lr5k2!A6Fep!i!dn)ozMy
zJ`Cefwe7NN#xmQ26|ZqM^{^#b*^n$LPd05!mR2Uc)hdTeR@WyhYEvH0y=R%T5h1aq
z2?>tjaP=bq#8+$sqKC9#mro<gRfFL9NrDs$+Om}NQT{AHO+p#9%L@f<L7=-35YmvC
zfFQk!b|9|IU^s@fN^<)tSFg@xl5z>vFrntttT0ri01;9B5&sFzOD}3%;_kx}aOmw#
z_w4ma+zM%#*~g3!ss^JHTvx1RYawc@n3z<$hMDX(u*o%(jq1`~Li!Q?sDZqMn8%QD
z)HDrS19mX6)x2<ypEhCmG9D}0V(CtVgiRJugVu9i!0pNOKr-`lxmH}bwr1{rFI^3W
z_1p^>P<!bDM%09BT~0g;`UYL#C0*1EV_gNz>HM@gLbfp$1mj!GNT@;AdXtW<=%s>s
ziPUPX3S$~IYu|;Qs?d{#d8!l`f#G@$QuZ0Oz}V=^zH2EB=Cn0x9pD7haFbS&eMU1E
z-PBs2I|CX2p?}y6;LfZKe|Euy{xBP_VAoAMq7Iq`jGRsCjoOD>viNDK!sAwOG;mRG
zxK(SHeQKkj%@fZNE^GAW$kw{@T+~(&que?IF3{Md&1*m_xR!rE+}D`R%mp8HHnW#`
zvMIkg?HQwE#$H_V&9O6wrOZ*t3R@h>U7PT?Oibwr$1~ZBU4Y`VcB4WB^I!7UdE9iy
z1*l2x&-530Rr}Maw2!RBw{(iGb0a(FSfRICchXg|H^!yiQ#)5lO)96wy%bU{m@foQ
z9l?-uTvN2x^F$S~3Aw-Letn6Hm2CZ>Y+>)e*giM-?b3v&?SryUnLPWIsv2I}idufJ
zbOR674*m;Di4?H|nLbL{C}P(R3mp1Lmr$zc2Sbz0JzFArE&VIXGYpRfLlWVkm=5*z
zKl|JP93_2~iWQ2kQ^dMsJy9o01zbE-%ATjgst)8ys$*6w2qa6KofsLE(nF#+(glGL
z_(9OkJsK#wJ_cTr4a~N$RID|eQ~oC&`F~Es{1Ku{+^=-7+<#)p`c*V{Cz^N4%{yaF
zyJ8j}TqB<BwCSOVtMV-y4Q0-cD(h$WCcUMx%5K@)y?A0tNbG(=#{bPPJTh{{CCSSA
zl#wg)z_p@`Tr1ojndUiOvh|*8>qmXZ;${7JF5GUoSKhwR^PSzdb}w~*SibA_g;{;9
ztUu?xsY|Zv!mY^7eTmIS<;_RqRmWz{si%3)T|VPX?cu6x-)XziHsAWqE@ba!xsQ7}
zZ=HH*_5>$e7S6wZra#%bZsusRtYW6`Z}C~iq^BZQ(<6I&eqP>!i<*gw^>W4fWR35g
z{u}*?nr^wKJL&6;ZG1Yh@sPan5X7O{y2pA$WmU??wRg-plU`rK+a`P47K|TyJ0Ex(
z6JEdU^)Ix1=-rqq#{fR8;@ovfcTK|Ggxj4-Zv|aXO;_rSZ9kgWJ|J%&h<i`s(7d>W
z94RWVpS^Z=ZX^yrioOS~vKi;6k6z+2u%AA1bLG$SVbb02G*<VO8Gcw=+gEK^Ax&jW
zCkrb@1wBLsRXk8d1riT*VLxM)rt~Qrm?RSoX!YlXLN_0y8C3vGv!0!$nb^s8q4t?G
z_$*-fWfTxXG{O%t#r(O<Fe8pg7uH}<WLwV*QcKia=zh(UL(p(!9twqo1hTZ|h2OE)
z0uXX~B{9m9o;94()7{jl8DbROG0KQKSp=dMt!-ErwP3cYA>vrk$_hCDNV7j}g9CL&
zI1&sH&TRWL&aztnQUn<KvY2Tp>D&rjUSTVd#MDNuM)nDjuoWeRR#_pzg_PaT5Jy65
z!SZK&)KXCs&XqqC8pbw&vBg+KZJBdr(?!iO){;qO^N`Bi)4GqI=#cqP+AT9<x_hB}
z(+YV2n_HC!nvuxJ18|m^#*LdOe}PN$eH-{bPki66o1ixT>j!_)ubRvL25-3xU-}3c
zQ`^>LIMCg|+tTc<0H6PRVnC&Uq4IfW`^_zLgEJFz{FSMjThdJ4>E`{VdHh}RkFNAh
zRavFxGDWw_G?!56e*(OErfA32Fkr)+PnBY_<E?P%Pz400-v!Y|u|IvF?@)i><iSJz
zM<5;uf?_?;zh8Zq{v$#C?-VhKVwxJbRrqu{Oznh85lo)&+w)Y!9N~c>xI_S|Lv$>$
z+DVwaK$!O=JY6xO=f&{|lR(0Dw8{zw=~Mp;$ee0@vN`z)O~7|m3BblA0M0tVf8=WX
z`Jtn6&#|9+mR_9QuQH!b+1t7B#)samKk>*O@<IgLDJoXo0y<<z$HFU#4F}{62jFLz
z((Br6IHQIah@)&)xITJq6hE+X&%T|E|I?SJ6RvgiD+uoO33r$5?piebdC><&DzCif
zKAfr4de_yus#2f4vG1PyAh{@1LeB8QMWJGrPrBSO{BDb@YcZ1OJudeihePwd-T??2
zMb2bt1q2OiF$4{-4R?wU^2hmj@$oxvENz`_R*iNYa!JR+iyxM3x&6kBDOP;^W4lwP
z#Ta+C-?O(bM85OppT7C9jBD^OTa9H-^xfc}JqV!Qn)#kY({366J-eZq7njmiyYyFC
z7^6NRZ$EL*{oI4n%ImLQdo@woE|<1199-BQ>phg{?U#G|<E76&H0p|v^BB(tf6B^4
zBJ={AqPuLS=+j3Bc+T6;fBL8l=zsdi$(5YIO9^T)3Hgs3`#8goHrDkS4S(rv?6Vnu
zT(!5c&t-tAVm}sw^hXqJMAQ#Am1mym_v`Sd@9*zVAL*R*x6(;P2>03XQ$n@?IY&>7
zP}&g)ygo5FqLxVi6d)A)5bmajar6D$n83WInQx$CAbC|{Mv*D%?oFy|fxq}TE{aY{
z?@->iC?fX)>EBXxi=scHh>mm>!)g3Vh4k;~ogFd#2TJ`pMQo#epHe@f=*JXor|7RJ
z`YA<!P0?YB3>5v0A|}ND4@%K?P^ni3rF;~<phbUzMEDyZa&K|Vx(;J^>We&QDt@qQ
z?<0MY(Uz=hNU`U}O^d<@HkN*1t$t)g*|HuLQ#zzlb#7zRf?;9cmUWp!GSzG{+7^43
z^dD@)d5zI_+k1QHP9@H7P}R$soVa0cY+E?F*mUb9{GgDrjUcI+SOIFPd4B(b=jI_Q
zZq5`pXNueAz4JpiE7xk>GB-p;@LW!VYss|yjH2ebO>6bHSuNU}0k}B>&^za)R^CjJ
zH&e7_ZXXrl_W;spY{?Wgsu(tAiW)OT&GWdnn)lhfv3Fr0h1}l7lgso-nRsLUoQKl&
zWX^0!Hmyrm`;rYU4~v{e+XH9u?EX2=wL_Q3<_+@$H?6YMpE9BVy?D##yw~u{PV{Es
zY8z5kO4+#5%9Nc_4z9FfuKC*GWdfA)rBSb*jm+)4Hc6OOXOONYG<<VC^ZNOLdCQI6
zgbuu#b;c5!pM_2H=Wf=)@NX=^R<3Cv<g8YPT*`<ia6zADN?Fo<rl=ga*qk#%mn)a;
z^i~76Ycx%^cRmDu)%Y~}5_FB$b3NCN(3e!_K%h4pzH7ec#u56WYJ5=|9=@nL)yj1~
z_0U`eJW9%9<(uS^o|F-9famtopv?`<Rb1<bkI}q<lgJd+%)tn654U0=&o$45Z}{hj
zZgi<j+`t~O;{)n4cW*P6FGLpi-I`2sNG>58k5rWBTKo^qoyM{UMa8pCmtRU5kw({b
zjVa2-XQ-$?w&G1a3!$xwbDSzXl$tbC+gIqP?dW9enRHDFLJj9{gk5xUoJ{^C#i+!=
zNO0`*vt*s>?-WTU%4uaex$f8M50zyliU4!PBTY$JmnVFzz8I7KAq9qp^na=ItQq2K
z^h)X&Bh5-R>lq$8(&RX-4fu&C_S+5YXVN6n{T1J;8lbD8!C<G>uk<T|Mxv+GK+$@N
z{x?O8Q0}1A|3L(c!UWub)RT#QlzWIGMz>E=ijhTfm{Nz{hm>O3sWOD!k_lo0{&V3+
zi0~6=JpU^T$9Krw`oH6ve!+d=BfT5`sYVknW*GO8_cxLj&e+HQ!tl&TR`2YKackWr
z)3T|NKfo^^=BxRAeCi84*WO8+x3TS^bt7M$be6<CU9xjyN{_b(xR7C(9hhsHees%8
zw%5-$%l6ik5hYkN*t%v)S#WtFMQyQ6P4=0dn7c!^Z@}u?zvNjOTB`V<U+&s>TaddB
z$Lxn?<B?@M>Moz*b^HLIvblNR{LU1I$Kt-FmJg1w<n4VR<h<{3>v1DrHaq<ZM^82;
F{|_4Z!C3$R

literal 0
HcmV?d00001

diff --git a/transformers_utils/tokenizers/mistral.py b/transformers_utils/tokenizers/mistral.py
new file mode 100644
index 0000000..39198a1
--- /dev/null
+++ b/transformers_utils/tokenizers/mistral.py
@@ -0,0 +1,502 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import TYPE_CHECKING, Any, cast
+
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer_base import TokenizerBase
+
+if TYPE_CHECKING:
+    from mistral_common.protocol.instruct.request import (
+        ChatCompletionRequest as MistralChatCompletionRequest,
+    )
+    from mistral_common.tokens.tokenizers.tekken import Tekkenizer
+    from transformers.tokenization_mistral_common import (
+        MistralCommonTokenizer as TransformersMistralTokenizer,
+    )
+
+    from vllm.entrypoints.chat_utils import ChatCompletionMessageParam
+    from vllm.entrypoints.openai.protocol import ChatCompletionRequest
+
+logger = init_logger(__name__)
+
+
+def maybe_serialize_tool_calls(request: "MistralChatCompletionRequest"):
+    # SEE: https://github.com/vllm-project/vllm/pull/9951
+    # Credits go to: @gcalmettes
+    # NOTE: There is currently a bug in pydantic where attributes
+    # declared as iterables are replaced in in the instances by
+    # pydantic-core ValidatorIterator instance. In particular, this
+    # affects tool_calls defined in ChatCompletionAssistantMessageParam
+    # model:
+    # see:
+    #   - https://github.com/pydantic/pydantic/issues/9467
+    # As a result, tool_calls from assistant messages are never
+    # deserialized in the request object if the tool_calls iterator is
+    # not consumed. This affect messages passed to the MistralTokenizer
+    # since no chat template is applied and therefore the tools_calls
+    # iterator is not directly consumed.
+    # Issue is tracked on Pydantic side, with resolution planned for
+    # v2.11 release. In the meantime, the official workaround is to
+    # consume the iterator so the tool_calls are correctly deserialized
+    # in the OpenAI ChatCompletionAssistantMessageParam object
+    # https://github.com/pydantic/pydantic/issues/9467#issuecomment-2442097291 # noqa: E501
+    # Official Pydantic Issues:
+    #   - https://github.com/pydantic/pydantic/issues/9541
+    # TODO: remove when pydantic v2.11 is released
+    for i, message in enumerate(request.messages):
+        if message.get("role") == "assistant":
+            tool_calls_validator = message.get("tool_calls", ().__iter__())
+            validated_tool_calls = []
+            while True:
+                try:
+                    tool_call = next(tool_calls_validator)  # type: ignore
+                    validated_tool_calls.append(tool_call)
+                except StopIteration:
+                    break
+
+            request.messages[i]["tool_calls"] = validated_tool_calls
+
+
+def truncate_tool_call_ids(request: "MistralChatCompletionRequest"):
+    """Truncates tool call IDs for Mistral's ID requirements."""
+    for i, message in enumerate(request.messages):
+        if message.get("role") == "assistant":
+            tool_calls = message.get("tool_calls", [])
+            for tool_call in tool_calls:
+                if len(tool_call["id"]) > 9:
+                    logger.warning(
+                        "Truncating tool call ID: %s to %s",
+                        tool_call["id"],
+                        tool_call["id"][-9:],
+                    )
+                    tool_call["id"] = tool_call["id"][-9:]
+
+            request.messages[i]["tool_calls"] = tool_calls
+
+        elif message.get("role") in {"tool_results", "tool"}:
+            if "tool_call_id" in message:
+                tool_call_id = message["tool_call_id"]
+
+                if len(tool_call_id) > 9:
+                    logger.warning(
+                        "Truncating tool_call_id: %s to %s",
+                        tool_call_id,
+                        tool_call_id[-9:],
+                    )
+                    tool_call_id = tool_call_id[-9:]
+                request.messages[i]["tool_call_id"] = tool_call_id
+
+
+def _prepare_apply_chat_template_tools_and_messages(
+    messages: list["ChatCompletionMessageParam"],
+    tools: list[dict[str, Any]] | None = None,
+    continue_final_message: bool = False,
+    add_generation_prompt: bool = False,
+) -> tuple[list["ChatCompletionMessageParam"], list[dict[str, Any]] | None]:
+    if add_generation_prompt and continue_final_message:
+        raise ValueError(
+            "Cannot set both `add_generation_prompt` and "
+            "`continue_final_message` to True."
+        )
+
+    last_message = cast(dict[str, Any], messages[-1])
+    # add_generation_prompt is directly handled by the tokenizer but we
+    # check if the user is trying to use it with a final assistant message
+    # which is probably not what they want.
+    # If add_generation_prompt is False, we don't need to check anything.
+    if add_generation_prompt and last_message["role"] == "assistant":
+        raise ValueError(
+            "Cannot set `add_generation_prompt` to True when "
+            "the last message is from the assistant. Consider "
+            "using `continue_final_message` instead."
+        )
+    if continue_final_message and last_message["role"] != "assistant":
+        raise ValueError(
+            "Cannot set `continue_final_message` to True when "
+            "the last message is not from the assistant."
+        )
+
+    # mistral-common requires AssistantMessage content to be string [1].
+    #
+    # [1]: https://github.com/mistralai/mistral-common/blob/f4a06998b75ed78bbf5aaf569590b772ea26c9f6/src/mistral_common/protocol/instruct/messages.py#L80
+    for message in messages:
+        # Remove reasoning as unsupported by Mistral
+        _ = message.pop("reasoning", None)  # type: ignore
+
+    # The Mistral client, in comparison to the OpenAI client, requires the
+    # "parameters" dict and the "description" string to be present
+    # even if they are empty.
+    if tools:
+        for function in [
+            tool["function"] for tool in tools if tool["type"] == "function"
+        ]:
+            if function.get("parameters") is None:
+                function["parameters"] = {}
+            if function.get("description") is None:
+                function["description"] = ""
+
+    return messages, tools
+
+
+def validate_request_params(request: "ChatCompletionRequest"):
+    if request.chat_template is not None or request.chat_template_kwargs is not None:
+        raise ValueError("chat_template is not supported for Mistral tokenizers.")
+
+
+def _tekken_token_to_id(tokenizer: "Tekkenizer", t: str | bytes) -> int:
+    from mistral_common.tokens.tokenizers.tekken import Tekkenizer
+
+    assert isinstance(tokenizer, Tekkenizer), type(tokenizer)
+
+    t_bytes = t.encode("utf-8") if not isinstance(t, bytes) else t
+    shift = tokenizer.num_special_tokens
+    try:
+        return shift + tokenizer._tekken_token2id_nospecial[t_bytes]
+    except KeyError:
+        t_str = t_bytes.decode("utf-8")
+        if t_str in tokenizer._special_tokens_reverse_vocab:
+            return tokenizer._special_tokens_reverse_vocab[t_str]
+        logger.warning(
+            "Failed to convert token %s to id, replacing with <unk>", t_bytes
+        )
+        return tokenizer.unk_id
+
+
+class MistralTokenizer(TokenizerBase):
+    def __init__(self, tokenizer: "TransformersMistralTokenizer") -> None:
+        from mistral_common.protocol.instruct.validator import ValidationMode
+        from mistral_common.tokens.tokenizers.sentencepiece import (
+            SentencePieceTokenizer,
+        )
+        from mistral_common.tokens.tokenizers.tekken import Tekkenizer
+
+        self.transformers_tokenizer = tokenizer
+        self.mistral = tokenizer.tokenizer
+        self.instruct = self.mistral.instruct_tokenizer
+        self.tokenizer = self.instruct.tokenizer
+
+        mode = self.mistral._chat_completion_request_validator._mode
+        if mode != ValidationMode.test:
+            raise ValueError(
+                "Mistral tokenizer must be in test mode. Make sure to "
+                "set `mode='ValidationMode.test'` when creating the "
+                "Mistral tokenizer."
+            )
+
+        _mistral_version_str = str(self.tokenizer.version.value)
+        self.version: int = int(_mistral_version_str.split("v")[-1])
+
+        self.is_tekken = isinstance(self.tokenizer, Tekkenizer)
+        self.is_spm = isinstance(self.tokenizer, SentencePieceTokenizer)
+        if not (self.is_tekken or self.is_spm):
+            raise TypeError(f"Unsupported tokenizer: {type(self.tokenizer)}")
+
+        # Reverse order to ensure that the lowest token id is kept.
+        self._vocab_dict = {
+            self.convert_ids_to_tokens([i], skip_special_tokens=False)[0]: i
+            for i in range(self.vocab_size - 1, -1, -1)
+        }
+        # Sort the dict for convenience
+        self._vocab_dict = dict(sorted(self._vocab_dict.items(), key=lambda x: x[1]))
+
+        # Cache special tokens for faster access.
+        self._special_token_ids = self._get_special_token_ids()
+        self._special_token_ids_set = set(self._special_token_ids)
+        self._special_tokens = self._get_special_tokens(self._special_token_ids)
+        self._special_tokens_set = set(self._special_tokens)
+
+        # Vocab sorted by token id.
+        self._vocab = self.tokenizer._vocab
+        self._max_token_id = self.vocab_size - 1
+
+    @classmethod
+    def from_pretrained(
+        cls, path_or_repo_id: str, *, revision: str | None = None
+    ) -> "MistralTokenizer":
+        from mistral_common.protocol.instruct.validator import ValidationMode
+        from transformers.tokenization_mistral_common import (
+            MistralCommonTokenizer as TransformersMistralTokenizer,
+        )
+
+        str_revision = "main" if revision is None else revision
+        return cls(
+            TransformersMistralTokenizer.from_pretrained(
+                path_or_repo_id, revision=str_revision, mode=ValidationMode.test
+            )
+        )
+
+    def _get_special_token_ids(self) -> list[int]:
+        from mistral_common.tokens.tokenizers.sentencepiece import (
+            SentencePieceTokenizer,
+        )
+        from mistral_common.tokens.tokenizers.tekken import Tekkenizer
+
+        if self.is_tekken:
+            assert isinstance(self.tokenizer, Tekkenizer), type(self.tokenizer)
+            special_ids = {t["rank"] for t in self.tokenizer._all_special_tokens}
+        elif self.is_spm:
+            assert isinstance(self.tokenizer, SentencePieceTokenizer), type(
+                self.tokenizer
+            )
+            special_ids = self.tokenizer._control_tokens
+        else:
+            raise ValueError(f"Unknown tokenizer type: {type(self.tokenizer)}")
+        return sorted(special_ids)
+
+    def _get_special_tokens(self, all_special_ids: list[int]) -> list[str]:
+        from mistral_common.tokens.tokenizers.base import SpecialTokenPolicy
+
+        return [
+            self.tokenizer.decode([i], special_token_policy=SpecialTokenPolicy.KEEP)
+            for i in all_special_ids
+        ]
+
+    # the following attributes are set to fit vLLM's design and are used
+    # by the structured output backends.
+    @property
+    def all_special_tokens_extended(self) -> list[str]:
+        return self.all_special_tokens
+
+    @property
+    def all_special_tokens(self) -> list[str]:
+        return self._special_tokens
+
+    @property
+    def all_special_ids(self) -> list[int]:
+        return self._special_token_ids
+
+    @property
+    def bos_token_id(self) -> int:
+        return self.tokenizer.bos_id
+
+    @property
+    def eos_token_id(self) -> int:
+        return self.tokenizer.eos_id
+
+    @property
+    def sep_token(self) -> str:
+        raise NotImplementedError()
+
+    @property
+    def pad_token(self) -> str:
+        return self.transformers_tokenizer.pad_token
+
+    @property
+    def is_fast(self) -> bool:
+        return True
+
+    @property
+    def vocab_size(self) -> int:
+        return self.transformers_tokenizer.vocab_size
+
+    @property
+    def max_token_id(self) -> int:
+        return self._max_token_id
+
+    @property
+    def truncation_side(self) -> str:
+        raise NotImplementedError()
+
+    def _is_special_token_id(self, token_id: int) -> bool:
+        return token_id in self._special_token_ids_set
+
+    def __len__(self) -> int:
+        return self.vocab_size
+
+    def __call__(
+        self,
+        text: str | list[str] | list[int],
+        text_pair: str | None = None,
+        add_special_tokens: bool = False,
+        truncation: bool = False,
+        max_length: int | None = None,
+    ):
+        return self.transformers_tokenizer(
+            text=text,
+            text_pair=text_pair,
+            add_special_tokens=add_special_tokens,
+            truncation=truncation,
+            max_length=max_length,
+        )
+
+    @property
+    def vocab(self) -> list[str]:
+        return self._vocab
+
+    def get_vocab(self) -> dict[str, int]:
+        return self._vocab_dict
+
+    def get_added_vocab(self) -> dict[str, int]:
+        # Mistral tokenizers have no added vocabulary
+        return {}
+
+    def encode_one(
+        self,
+        text: str,
+        truncation: bool = False,
+        max_length: int | None = None,
+    ) -> list[int]:
+        # Mistral Tokenizers should not add special tokens
+        return self.transformers_tokenizer.encode(
+            text, add_special_tokens=False, truncation=truncation, max_length=max_length
+        )
+
+    def encode(
+        self,
+        text: str,
+        truncation: bool | None = None,
+        max_length: int | None = None,
+        add_special_tokens: bool | None = None,
+    ) -> list[int]:
+        encoded = self.tokenizer.encode(
+            text, bos=add_special_tokens is not False, eos=False
+        )
+
+        if truncation is not False and max_length is not None:
+            return encoded[:max_length]
+        else:
+            return encoded
+
+    def apply_chat_template(
+        self,
+        messages: list["ChatCompletionMessageParam"],
+        tools: list[dict[str, Any]] | None = None,
+        **kwargs,
+    ) -> list[int]:
+        add_generation_prompt = kwargs.pop("add_generation_prompt", False)
+        continue_final_message = kwargs.get("continue_final_message", False)
+        padding = kwargs.get("padding", False)
+        truncation = kwargs.get("truncation", False)
+        max_length = kwargs.get("max_length")
+
+        messages, tools = _prepare_apply_chat_template_tools_and_messages(
+            messages, tools, continue_final_message, add_generation_prompt
+        )
+
+        return self.transformers_tokenizer.apply_chat_template(
+            conversation=messages,
+            tools=tools,
+            continue_final_message=continue_final_message,
+            tokenize=True,
+            padding=padding,
+            truncation=truncation,
+            max_length=max_length,
+            return_tensors=None,
+            return_dict=False,
+        )
+
+    def decode(self, ids: list[int] | int, skip_special_tokens: bool = True) -> str:
+        if isinstance(ids, int):
+            ids = [ids]
+
+        return self.transformers_tokenizer.decode(
+            ids, skip_special_tokens=skip_special_tokens
+        )
+
+    def convert_tokens_to_string(self, tokens: list[str]) -> str:
+        from mistral_common.tokens.tokenizers.base import (
+            SpecialTokenPolicy,
+            SpecialTokens,
+        )
+        from mistral_common.tokens.tokenizers.sentencepiece import (
+            SentencePieceTokenizer,
+        )
+        from mistral_common.tokens.tokenizers.tekken import Tekkenizer
+
+        to_decode_special_tokens = {SpecialTokens.tool_calls}
+        if self.is_tekken:
+            assert isinstance(self.tokenizer, Tekkenizer), type(self.tokenizer)
+            tokens = [
+                t
+                for t in tokens
+                if (t in to_decode_special_tokens or t not in self._special_tokens_set)
+            ]
+
+            if any(isinstance(t, bytes) for t in tokens):
+                # we need to encode and decode all tokens again
+                ids = [_tekken_token_to_id(self.tokenizer, t) for t in tokens]
+                # We filtered unwanted special tokens before
+                # so we can decode the rest.
+                decoded = self.tokenizer.decode(ids, SpecialTokenPolicy.KEEP)
+            else:
+                decoded = "".join(tokens)
+        else:
+            # make sure certain special tokens like Tool calls are
+            # not decoded
+            assert isinstance(self.tokenizer, SentencePieceTokenizer), type(
+                self.tokenizer
+            )
+
+            regular_tokens: list[str] = []
+            decoded_list: list[str] = []
+            decoded = ""
+
+            for token in tokens:
+                if token in to_decode_special_tokens:
+                    if regular_tokens:
+                        decoded_list.append(
+                            self.tokenizer.decode(
+                                regular_tokens, SpecialTokenPolicy.IGNORE
+                            )
+                        )
+                        regular_tokens = []
+                    decoded_list.append(token)
+                else:
+                    regular_tokens.append(token)
+
+            if regular_tokens:
+                decoded_list.append(
+                    self.tokenizer.decode(regular_tokens, SpecialTokenPolicy.IGNORE)
+                )
+            decoded = "".join(decoded_list)
+
+        return decoded
+
+    def convert_ids_to_tokens(
+        self,
+        ids: list[int],
+        skip_special_tokens: bool = True,
+    ) -> list[str]:
+        from mistral_common.tokens.tokenizers.base import (
+            SpecialTokenPolicy,
+            SpecialTokens,
+        )
+        from mistral_common.tokens.tokenizers.instruct import InstructTokenizerV13
+
+        if not skip_special_tokens:
+            return [self.tokenizer.id_to_piece(token_id) for token_id in ids]
+
+        non_skip_special_tokens_ids = {
+            self.tokenizer.get_control_token(SpecialTokens.tool_calls),
+        }
+        if isinstance(self.instruct, InstructTokenizerV13):
+            if self.instruct.BEGIN_THINK:
+                non_skip_special_tokens_ids.add(self.instruct.BEGIN_THINK)
+            if self.instruct.END_THINK:
+                non_skip_special_tokens_ids.add(self.instruct.END_THINK)
+
+        ids_kept = [
+            i
+            for i in ids
+            if i in non_skip_special_tokens_ids or not self._is_special_token_id(i)
+        ]
+
+        # We filtered unwanted special tokens so we can decode the rest.
+        tokens = [self.tokenizer.id_to_piece(token_id) for token_id in ids_kept]
+
+        if any("�" in t for t in tokens) and self.is_tekken:
+            # if a decoded token contains the replacement character, then the
+            # token has an incomplete UTF-8 character so we must use bytes
+            # See: https://github.com/vllm-project/vllm/pull/8640
+            #      https://github.com/vllm-project/vllm/pull/9625
+            # if underlying tokenizer is sentencepiece, we just add "�".
+            # We filtered unwanted special tokens so we can decode the rest.
+            tokens = [
+                self.tokenizer.id_to_byte_piece(token_id, SpecialTokenPolicy.KEEP)
+                if token_id not in self._special_token_ids_set
+                else self.tokenizer.decode([token_id], SpecialTokenPolicy.KEEP)
+                for token_id in ids_kept
+            ]
+
+        return tokens
diff --git a/transformers_utils/utils.py b/transformers_utils/utils.py
new file mode 100644
index 0000000..1ae42ba
--- /dev/null
+++ b/transformers_utils/utils.py
@@ -0,0 +1,130 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+import os
+import struct
+from functools import cache
+from os import PathLike
+from pathlib import Path
+from typing import Any
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def is_s3(model_or_path: str) -> bool:
+    return model_or_path.lower().startswith("s3://")
+
+
+def is_gcs(model_or_path: str) -> bool:
+    return model_or_path.lower().startswith("gs://")
+
+
+def is_cloud_storage(model_or_path: str) -> bool:
+    return is_s3(model_or_path) or is_gcs(model_or_path)
+
+
+def check_gguf_file(model: str | PathLike) -> bool:
+    """Check if the file is a GGUF model."""
+    model = Path(model)
+    if not model.is_file():
+        return False
+    elif model.suffix == ".gguf":
+        return True
+
+    try:
+        with model.open("rb") as f:
+            header = f.read(4)
+
+        return header == b"GGUF"
+    except Exception as e:
+        logger.debug("Error reading file %s: %s", model, e)
+        return False
+
+
+def modelscope_list_repo_files(
+    repo_id: str,
+    revision: str | None = None,
+    token: str | bool | None = None,
+) -> list[str]:
+    """List files in a modelscope repo."""
+    from modelscope.hub.api import HubApi
+
+    api = HubApi()
+    api.login(token)
+    # same as huggingface_hub.list_repo_files
+    files = [
+        file["Path"]
+        for file in api.get_model_files(
+            model_id=repo_id, revision=revision, recursive=True
+        )
+        if file["Type"] == "blob"
+    ]
+    return files
+
+
+def _maybe_json_dict(path: str | PathLike) -> dict[str, str]:
+    with open(path) as f:
+        try:
+            return json.loads(f.read())
+        except Exception:
+            return dict[str, str]()
+
+
+def _maybe_space_split_dict(path: str | PathLike) -> dict[str, str]:
+    parsed_dict = dict[str, str]()
+    with open(path) as f:
+        for line in f.readlines():
+            try:
+                model_name, redirect_name = line.strip().split()
+                parsed_dict[model_name] = redirect_name
+            except Exception:
+                pass
+    return parsed_dict
+
+
+@cache
+def maybe_model_redirect(model: str) -> str:
+    """
+    Use model_redirect to redirect the model name to a local folder.
+
+    :param model: hf model name
+    :return: maybe redirect to a local folder
+    """
+
+    model_redirect_path = envs.VLLM_MODEL_REDIRECT_PATH
+
+    if not model_redirect_path:
+        return model
+
+    if not Path(model_redirect_path).exists():
+        return model
+
+    redirect_dict = _maybe_json_dict(model_redirect_path) or _maybe_space_split_dict(
+        model_redirect_path
+    )
+    if redirect_model := redirect_dict.get(model):
+        logger.info("model redirect: [ %s ] -> [ %s ]", model, redirect_model)
+        return redirect_model
+
+    return model
+
+
+def parse_safetensors_file_metadata(path: str | PathLike) -> dict[str, Any]:
+    with open(path, "rb") as f:
+        length_of_metadata = struct.unpack("<Q", f.read(8))[0]
+        metadata = json.loads(f.read(length_of_metadata).decode("utf-8"))
+        return metadata
+
+
+def convert_model_repo_to_path(model_repo: str) -> str:
+    """When VLLM_USE_MODELSCOPE is True convert a model
+    repository string to a Path str."""
+    if not envs.VLLM_USE_MODELSCOPE or Path(model_repo).exists():
+        return model_repo
+    from modelscope.utils.file_utils import get_model_cache_root
+
+    return os.path.join(get_model_cache_root(), model_repo)
diff --git a/triton_utils/__init__.py b/triton_utils/__init__.py
new file mode 100644
index 0000000..a475d0f
--- /dev/null
+++ b/triton_utils/__init__.py
@@ -0,0 +1,19 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.triton_utils.importing import (
+    HAS_TRITON,
+    TritonLanguagePlaceholder,
+    TritonPlaceholder,
+)
+
+if HAS_TRITON:
+    import triton
+    import triton.language as tl
+    import triton.language.extra.libdevice as tldevice
+else:
+    triton = TritonPlaceholder()
+    tl = TritonLanguagePlaceholder()
+    tldevice = TritonLanguagePlaceholder()
+
+__all__ = ["HAS_TRITON", "triton", "tl", "tldevice"]
diff --git a/triton_utils/__pycache__/__init__.cpython-312.pyc b/triton_utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0618a3f6f438bda5fba28b461bc8eb3d518b5d7d
GIT binary patch
literal 575
zcmZ8b&r2LJ6izbPo!QmtvWOHBRHTP)!I_Kr18iYE6bquI-P2scbSI3#WM+t2*#!^l
z*+0O0Z>4`qkK2nWBG!|)77v1_CbKHq2YD~w``-7x_rv$=zy!x9tbzczvfv>MF5~9N
zlv9v^1acr?1O<waa3Ti+3gt`FM;u4EtQAp>Txe$z_e8aeAP}`O*P{stvS|dU^Znj9
z!Umy7<UT_aDM*~JFq#~o7QVKMmZR%i?a!q1=|g9CN6&O5Q+c)>XK61^=|>)S>0Ztg
zDs^*AJ!$Q<uyl-vuBuX{k>c7@X8MqIY0KBMhn$OGOp=~r{2*YW$faUgS}G+ra#^vd
zYK<D>*?`~g*WSZVx|W~+j}K^H$vEKb%Xp`*lnq^b>`2e*TtZ^b3Hb(Y3<P)WP>CWe
zSh1vHnNqdX@2#${?XS|%2*YBa_VO&W$A?dk4+&uzQ-lP?Kzkb^PkNlblT*eKns@Nl
zq(2UX@Ycf+{RK8n0{r3^Zl2?X3%v3ZuUz_bBY$D|{;ak*s=XR+o;6;N8gGVMzw67#
Iu522Ie{de4ivR!s

literal 0
HcmV?d00001

diff --git a/triton_utils/__pycache__/importing.cpython-312.pyc b/triton_utils/__pycache__/importing.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b88a454b95a36f3b6b2eac1d69b635c2af538a7d
GIT binary patch
literal 4223
zcmbUjTWl29_0G=D?(BMZ?X?|ycMWD@4DkZqwE+Vm6!9|PKum(oYg;-Q&y4M{XJ<Bd
zX8l;1h)R}X8W2Qkg^?;j{*3rZRH@Bpsg(AkKQ>EcGfgC-svr3?*lB6{({pEb);2Lp
z)sg1h*LmIZy5}$9a1g<#dOuc}2tt1+3-|MtCQFSpLbs8GBuYgYXQVO|tUanHOJ`_`
z?9r+>%VZb|d63M=z6X>;o$<q(mb~s-qVm)jWdv<JT4Gl3XIPoV3jxB-rv|dYjDr;%
zs&iFZ86T9U$IwkAdIsRXya%BxXaWtzR<PWeL0zv}|757a#aS6$-axf|eX379*Y|lr
z<`tBQ$Y`i>h1Q)7z3$FdM#=BqHWQVjjwNv1wnViY9eQI0)1A4RxO5U4Zb2whE7#(U
zVApCnvi1a5%l@J5F7?VNu`V8kv^V5hW6Mj_f#JOf;RH~(u28u%DYzE<fyX%kzgG~S
z8PQkJm9-;xJb|RjNhDRt)DU>;<?jK+82K_AY|JQNR{sd*#&JsYP_`FF(PkvqHzQm}
zA<(7W;k6n{p%n`dtuLYLm*qH6G-k-H*P{r_iM2Pq1R0P?{4{aB;EbcxC>o<Lp;0PX
z^DPn9ousTlzoJRJk&{JOR4AHa@~S>CAY;pCV#U<8LUnH3)Ui0&>a1JGa(O^y`vh@V
z)+EEKJ$mlgVg7tqPuG#to&2%R^Ib<fdkR9YP0jV|c}?QlI6*X(5t)-PKx}Y|#z~3+
z9Q*R7EOD|nqF`Oi%9@$tdIuFiFgSS(v?8Zc9xK`a&?u%Ns7gUF6<texOH#HlT#`db
zG{Y2B6$pSSw?$ejv&Bf3lxZn5ZcnDTV~Qd4sf2%tlc{q#ERTRH9L{T|l9f3bV;vi*
z<At7er0uZ9y$^Q*Yo%PXyw8bxUX?gaH@QBUQ?fZ7!(DzTFIBjBSmW|qSt(l>r;B19
zW4O!cprXp0I4Fz5tCU=8&i&jLV?EA4E2&GASh0?dZLLH-n*&Sssq$N#C}UFqpPYF2
zTq~AUfmppiuYu2W&EQ5ARdp{Sj0lPf29s0b>Ub@s7+PwE-H)LB%7~QQjAsh<QxY}F
zW@yPXi89_PG)85Z9+af5sH5GxsvydPx+=+7ELCBfGs!UWFCp0dHFX=A_BH|6s0nm~
zK@i`ovcxlicvlTlSN&!5@<gIte8Ba(+poYazX5;?vYhV~xaD^NaNT$4RXUX48o({<
zXhvNLZViRgfV(%2lKyT?lqfK}QoB=a7Coex7AxdU-GtDwf`c;Th+!(CVfl{gTE8-o
z3|fql&p{%yJa6YUZ&mO-$v$u@&s$Zzl+R|zc}W&^EI^9m5D36w0^n^$xDtRBcbs%u
z&<66tfV|3C7OR#v?|Uq-A*=mXfagV3FbtkIh$pzK-ycbv*<3oO<XTMu56EWgSbp!D
z`-b<*X;tY<LuDD%we*OpX46jo@Oe{FjkJ?45bvqnI3}hkBz_PqDfe2Z;M^Dj@Zu`^
ziVa`$&#|%T*kiV7p`mHY`<RU_)YQ+{w9M7C%)C~tNl$sNvkS2e^Rd>sSnJGCG4>|x
zgclNx^NI9aBK=vYnD`0oR4&vd=Igf4)oq_SS*+`Tor<qw?Zw!xDesN&5=etePGIRH
zk!wdQF(Pyy)Fis%neafMd%D+T3JJSS@GtGO5hoC?G0R~;0fcebcf%Aj?oJQ1FO!Jm
zO*bZT*Q5%euYrGw#NKTPJiw#6?*p)?euJEHn6S0j1FDeilZ1nX6YJRXrFcjkP<2sI
zjf1Ijh^%b6j4lFOgWTyVy7L}Rz=S*wKxP+-Bt!=I9fERrl#EVTl#~gS*%mtfFKx~d
z*~FGt(UZ!W->~;;?+KsQKaM3A>KmpHe=>S2@}#D5Hq>aVg-O?wq;WkAmRA$9GHxdH
z#AzJosDz0T3r#<+OfR7%`EeCJ_t1e&i$PQspJii?0emFohy=*8AkSxYDX)@wi041Z
z3#xNshqW!x3YXGGlvS1I?^Bqxgtprb*>1z6>9xVz<bY)8i%GQX@iV*sS?y!u&ix3|
znn-iQbBWx1{hDl7V=oC(TuaEyfd~s?81gUu3c&wRe<AEv>aRprgxdb>m3PgmTv6?_
za?P|?<*I0}*fn&kYoe#SP-!~Pu3L(dL0kp+wsEb12(On34=c79$sEtg7Ncn9p56Aa
zYbSI#vS#Smq5;LCq3yA}0Cr;1zn2P_V}H8>mBM13N?5K$KPQA;09I9^+4#1{?DmED
zMyMc>h1cRR1Ya8J5~R97m4bnFhuRnvnt&5f4BkpEMLKQ_4YhMUoFubt09J<zaii_a
z%jBRGD*y5XnD`<B;Dic6N;X;^-LM#97sHA;6&H$fid0}sTxV5~!klv2K}_6dt6}*{
z4Px-*;U2#CY*+7@Zp-z9+x}qUQOh?XsCnS-bJ{*DpcuT<xmXcr<Vy{q<uA2>77ee2
zRV(Htfge!}(w@KzHKK^XhE`<_9yM@z&Z-7ht2#&?$ic~SUml#OX#KiX(Pg(>ouqZM
z{7`)~cuuT9=a?wxNLyo3@NB+gr)Dphz{xS&Fi<qdY?HRRMbpXPgSZ<mMN-809N;2N
zQPdKPsNmmF=xfyc548E4K<%xI#X#d#-!mU#B2$A!Z~e46>)reuQOvF<{;JvNmZE>_
zj5O=txyT@@;u(v)kws4%)9^LBV=;s_rKSh(>UZ?Vjp-%YlL$U(OixEYYybVe-|qVZ
z^=I}WJAdfx+@Z67J=8mO_~yxvPtG=`pAo#N2oQ5kcMEq4cR#%I;cV(yaZ~3kyWwew
zoAJ(uc03AQ_`GJeqieq7%v{HrV#j;M_Or9+FU+-HSfo*);aL!c8b959Pb)Tcd=Y)r
zw13fu!ZkNfUpu|%p`!c0qv>!2RIP5lPtSB0Ti*KOgGVigo`$M#p1O95V4SADsj9iv
zU98%??DvKvPz@8Crrv(mjM(Z0Z}6j2zaUtF9m_P$_?AOeRD7D5kG0IjT9y$kmbV6}
z_&sKxYn$WRzC*D1_w#o=aH|)Kdr+wUIr1|NpirRlX5<<eiwbkVC=gs^QC-6?g9{b4
zHpWvn;+}7L8VZ9VfD#0h8^Ql9RsxIfjRWAi-^Dwt(8J1TXNC9S>j?r6L;(IVc!Y+7
bFDn=Vt76AP^q1Sb1g2__`{_UV8JPbU)WrUt

literal 0
HcmV?d00001

diff --git a/triton_utils/importing.py b/triton_utils/importing.py
new file mode 100644
index 0000000..f05bc55
--- /dev/null
+++ b/triton_utils/importing.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+import types
+from importlib.util import find_spec
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+HAS_TRITON = (
+    find_spec("triton") is not None
+    or find_spec("pytorch-triton-xpu") is not None  # Not compatible
+)
+if HAS_TRITON:
+    try:
+        from triton.backends import backends
+
+        # It's generally expected that x.driver exists and has
+        # an is_active method.
+        # The `x.driver and` check adds a small layer of safety.
+        active_drivers = [
+            x.driver for x in backends.values() if x.driver and x.driver.is_active()
+        ]
+
+        # Check if we're in a distributed environment where CUDA_VISIBLE_DEVICES
+        # might be temporarily empty (e.g., Ray sets it to "" during actor init)
+        cuda_visible_devices = os.environ.get("CUDA_VISIBLE_DEVICES")
+        is_distributed_env = (
+            cuda_visible_devices is not None and len(cuda_visible_devices.strip()) == 0
+        )
+
+        # Apply lenient driver check for distributed environments
+        if is_distributed_env and len(active_drivers) == 0:
+            # Allow 0 drivers in distributed environments - they may become
+            # active later when CUDA context is properly initialized
+            logger.debug(
+                "Triton found 0 active drivers in distributed environment. "
+                "This is expected during initialization."
+            )
+        elif not is_distributed_env and len(active_drivers) != 1:
+            # Strict check for non-distributed environments
+            logger.info(
+                "Triton is installed but %d active driver(s) found "
+                "(expected 1). Disabling Triton to prevent runtime errors.",
+                len(active_drivers),
+            )
+            HAS_TRITON = False
+    except ImportError:
+        # This can occur if Triton is partially installed or triton.backends
+        # is missing.
+        logger.warning(
+            "Triton is installed, but `triton.backends` could not be imported. "
+            "Disabling Triton."
+        )
+        HAS_TRITON = False
+    except Exception as e:
+        # Catch any other unexpected errors during the check.
+        logger.warning(
+            "An unexpected error occurred while checking Triton active drivers:"
+            " %s. Disabling Triton.",
+            e,
+        )
+        HAS_TRITON = False
+
+if not HAS_TRITON:
+    logger.info(
+        "Triton not installed or not compatible; certain GPU-related"
+        " functions will not be available."
+    )
+
+
+class TritonPlaceholder(types.ModuleType):
+    def __init__(self):
+        super().__init__("triton")
+        self.__version__ = "3.4.0"
+        self.jit = self._dummy_decorator("jit")
+        self.autotune = self._dummy_decorator("autotune")
+        self.heuristics = self._dummy_decorator("heuristics")
+        self.Config = self._dummy_decorator("Config")
+        self.language = TritonLanguagePlaceholder()
+
+    def _dummy_decorator(self, name):
+        def decorator(*args, **kwargs):
+            if args and callable(args[0]):
+                return args[0]
+            return lambda f: f
+
+        return decorator
+
+
+class TritonLanguagePlaceholder(types.ModuleType):
+    def __init__(self):
+        super().__init__("triton.language")
+        self.constexpr = None
+        self.dtype = None
+        self.int64 = None
+        self.int32 = None
+        self.tensor = None
+        self.exp = None
+        self.log = None
+        self.log2 = None
diff --git a/usage/__init__.py b/usage/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/usage/__pycache__/__init__.cpython-312.pyc b/usage/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..19f639ea42cf0e41fec43e6941625ddf503a4437
GIT binary patch
literal 155
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVS?QPL7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6eC#I+B$H!;pWtPOp>lIYq;;_lh
cPbtkwwJTx;8pR02#URE<W=2NFB4!{900)R9hyVZp

literal 0
HcmV?d00001

diff --git a/usage/__pycache__/usage_lib.cpython-312.pyc b/usage/__pycache__/usage_lib.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a11b32e66e63fd511ba576d95a0451481fe0b7c8
GIT binary patch
literal 12486
zcmbU{Yj7LKd3(SCI1m8AH$f33!Iwlxe298j536z@lA<V+piEK^qe(6h?nnZ{gSk6O
zB1?9Z)YFj~c_dFV6*cjU=uA4M$C*ZHr=3h+W9LsglcpsCIzY};t4`b>{YQ)Lr1h_U
z-yZG&P_)u?N$m66Z})b;{a(92bGgb0ggE=H=wc@!zs7<dtoh9LK@%Ylh(H7;PC{DB
zgcw>jg-kRxhs-o(Lo7`#Aq%9YxHVx5*%<6&j&lin$WHTYye#1eIcVMzcP3mR7tLGa
z<q3DlP4i5=B2+<fRfZ~QS{16IX?3WYrZtJ$P%VYE#p@FFp?aF<;+{l9sDb9~@jZ#g
zP$SKk#l4B9P!r8N;?0SckdGlIA~uMv?=#w$hT6p1*jfGa3u&lBG{?>t%6cv~rsoQ&
z*daLIhxNh`+V?y4a~b`*1Saf<xlCzzisR4$m~*$-1Ao1XHbTTcjHgWv0Q7zyFm!N+
z2<6{nLj8hU>=7zTVTDS8nYId5Z?K_5LiHOYbXceqd#6o84b&Wgd=KPnA%E0FhKW%3
z1`+B3gYA7*LmzsH)_b77!I<$enAI_3{NoFZf6sp+c+k(N>`-z(f$4>?G7G77YE}}%
z0_4nr<N_p?`T3}D1Tu9q@zm9DoS#*cIX;p~CdG&nO(mhl5lu!FKAxJH5hW<@iOdUO
zenwPyLA)M~i2R(CniC}@D$3B>NL%wQk<@%r;bkSPh;dQIW(Ut-7bO`G^Za7Pyd0hp
zX}jDTlT%66DWv#hO5qhL9J%JVs@0c9N5}Y!lSBO2_~6j!<iPlaA+?TH2BxNlf>R^o
zLH<l&;MJkvpxS5vpB)WMo*N0C9h%@L17jCPhbGi|+IZmtKN@%)sxJg4rbe)L(GXJ;
zBU6AbaQQX0nL-Z*17}8u_)Go#*u~MQkqZ;!14EOOBf(+Sd`(<XE!V^Gc~P}WqB1Wf
zBYDE38)b$Vf7^8sJs?YrLaQ-aBBvmRO)@PGOp1z6TXr8^3ZD>G!aij-toUw3<8j|r
z(I<;ZEGV-+5f*MC4>v1@CFQCZR(f%hYxv>O@iT!@e&Qmm$k-4+7?=w9O;QaEB-KJB
z<J^3{&tL9S5_5fX(YYQaEWr-;+?+pl;`p^=VqZLZwQp`gnN218uE*nvJ~|yO=Ao^3
zZb7Y+Vap}h&}c&BwVlK1N_znJK^(*d(Jk`S*SW!ZR;qu&Hf=)%iD0A$V_p6lY95fn
zs@w`H#`?wb#IAS3beR;j>&&qTV3|=ky%?ixRWE623@5iEDCK&E&V-gtOXMaaTN&6f
zNKKHMoFrT{&q?BE!b`xj21P}b649jSyD=*&v!dinNj@N5-wn|h2`6#ig#2b9{mVWj
z1sjX|DZxJWmiZt|K^cx!G~$cOzOd|@PQ~M?8}doo*yB61;1k5@@O)h9_C*z+Je!)2
z3rG`UGJG{I3L26gKqHA*c|9tnk_n`j>tQL1ATphb5S6h2I5f;SbdQfx_~1An9G~K+
zCg2GDUOydIYyH9o+ATN^XEHE6#7|BIrY7?pdwc=kbQH%)(l4D&B}AVPm4J_=fN*h9
z3N!IVr}3M_n^9TGf3P-i$GP#bp}t;VK-19~jTVb}0-d6t1ClSA0Iwa?L6wC?kk!iP
zJ}rO9OQ)@xQnJd<0bf+D+C0?e60F5*01RX5oZl=V8L8#TRQ>?atyL?FXUO9k$Vlk$
zK@y4vwJs_b!}Iz5llDR5QTWM0h;EV3JcRSE+uAql8?*I2>H41A&dr9VY(sy#q5pRI
zrnmXg@WbIp!H2<(10xyl`E{=0X~)4|bX<NMglPTj<@J^;>zsGf(X!6ANR5E9<mg$T
z0%x`TeTd-b<>f9ZK3K*P1dx1)VZR;W#YZt_9K=Gm_w%F09ECbPr%Nt@S%k54NH}Pw
z;0(fuKmU0EM1eV)R8$T)j))9MH78RyR1UL?sU#HVm56G`B5X-w?ma>mKwJI>Dy$;&
zk_2aiH(>arEFs@Q<w8CV(Jiv+D8G9%>-MGHzO1_=?e6&gm2Brr>CTt3ohQ?sCo}Gs
zv+kj^dnn@`{>S#Tdo1G!uCu`xto2vnyB`qH2$=6N%b=49W`Pwfg7s~7nOP!(<SSnV
z)@CZ~#ga+?{$=x$IfnbSBj~FoGk046Vwc^~A!4AL><oI_GP}gY>^oZvS`5t0O~{vl
z9+oZ3)+Ngld!4|DjwNdZm?Hir2}|yNjU|Fj;G)d3ZOQgq@O9<!am!Z4V9+t=^K*#7
z$UDOlr>_glVy`v}oWX+KUl#OR7F+w|1-UO056g0&kcjq0g+9<qg!zb~s~d|=&x2fz
zretVO3Mpx^`T1rYLoy6R*8Y5ZWEO^lqYW`gMkPG6=zSgt=9M1;G_K2&swEJ*I5DJ}
zhX*dG=JA0MKdV~9i7*iHVr?QCky3JMTJc3v(p*XkqXMQ{XHuz|xTrdyA`%xP@zlJa
zIziN57$4*Z2l$ae)vA?L+r{9k!STyMKPRCKRc$akWJjtUl|Eh(Zz`$<M2sk@mZ%~o
zWT};c<z<Iz2A#lfSDo6LXq-%~q$BcC0ZvbJIttpG>L>z`+7N{khe5Sb0VuVs0IYJb
zjMt$oskJZ+ucUYlpHXeYYLHkm(jy818uFYIbW8;V$c{b|o>^p?^4~#pi#%hkHP&0B
zTUDgmlWXnDRn_O}y`S1G4c2wGcDtN-I&M2Q-PQMB&A5HH*_^|D@6?@BZ=TLIwmdrh
z@N}l}K(?_z-PoULJbZgJ*L5P>^-8+ym0xxR(iI)|%T~_is+(55zo_oXHMW0e{8J0@
zpJBG_fOM;d*y~rgEwiZ!25Q){lIFwNrsL_R<G*Y=ndTa9+wOZd9j<#P@0`4M`p)T<
zeIGg6a@CE0GQMRY%`b0p#98}1@6h@3b_aag10oW%_Q29(z{)d$g=YrqjtyA_OUNcz
zL)?N5q@nX7D$)bE`mn?9JQeT*<H4z+D^sc+mFNM`i6_;vz=aWha%kcbsKk|^Oa}ua
zd{I?(zUoY1YTz8IlR<zh9|{hS1c!8VL7)(h=kZkVyjsTd2{>r5`Mm1n`LEB1<64V^
z2AYJMB#mQq0i)M2n!u<JBNS3}qoq;I(Fig!lGGa{SGVuhc&?)H)<~|h>DKw2=K$<x
zZcpDjTc4}#{D#JNX{QoFr?a(f6|n4Bz)FDy<BGKtp-Qlbz=%bwU=wYkMdUOyPB5cM
zhm3lf6Sy}lA^R7=X%Ke6RwkH42bgVTkay<u4#>M+*wYCR<$?=LK(|m{G6TfS3T|kx
z*tMksS}GUJ{_6a;kAY<cyT3Rv0O}*072jMutW2k*1Sn#dP%h#NgE~reQqa2cswmar
zeVTTfS4$<dSAr3p2B82<Hm^6dQCU`yRf-{<bg82A=q17%nuGub4{t!y5@Mu*mJA6-
zONMGsONIoaB}1>EC4HO0zX2l{5`~r=B_kLzhPD}o04*6N04*7khn6ZzuvC_ms!B@L
zdTD{Y#{~T~s##Vf31_deXkSain6-f^&PV3vRSqIvS(p>m2Fy)|6Vdnr9wRXh#;`ay
z7fsHnP9>#)Ii3&`pgpV3uoRgEmK_08Qv{xx-(uBC&F#EZrrKu!9W}aD4zqNOTFhx^
zc(Bv+R=euVvt6DV-c{P@C8Ide64d3VYNN~@*b4_H3)P}jtDKsbA|hCztSrW-Wh9%t
z$_osFdJXu+TFRU9MB1xY{~>_Ne+m((y&S3aylwfe?c1Zb*}Hb&qMd%oxN`0LAaUk8
zx@hU>iQDW3w>Q_-jcJ3C=9~3u+P7Tq)PEF#+jL;S-FFykTJ)OyAcaBO_TFaSbZDGu
z26xRxkBKJQ;Op(cVWlvC?YbN>=or9ouaU~PuR>I;T`!TCaTcH{AC{OU(~?;;F{5PK
zEHFPXy`MiNpqsHT((4$qK>X(5l;5mcH8Wmi!J3y<s}KfaNrIJvX9`RtNdzTA$(tTG
zQqnb)`*7YR#cz?~03+cSN=b}T*o9GK>{=v%oy9m78%p-FxaqslO+E|}?5C5ss&m!#
z+3N0eb$70+V>R*k^}pahXj`uwg6hv~tgGxcvsFgyW%q1%Y;W2%8CblUI0?F%DCfa_
zLSn@n3F<ItYpAapnCj$3`ZBJX^g49&o7Ae(l}RNdqUzD>kj$gW`P6*gX7jVVEtQPZ
z#dXre7dkQ)TT50)$ET5xw)$%TCbvU$i)=ZG-Ie89(p<~B@6hA14^C`wV>!;5<vP<`
z=SSQ=ZB>fD8;7K;@&RNX5D;PvczH>JS!NQZWpq|BFVgveOB!nokOq$gWci@;aey@V
z@RDgaeY^;=z?IF=&)~`nY&%iV0YyUxk<1Kvoh(>xkelY$$qmMD4N7=0U^_Sk7!=AX
za7HT8xU9PJ6(SgH5pn9Q-ytEtkd`o7hDddx`;oHK+31`sMX=6^b=VWRo+MyZ4OZoS
zk+WA5;K@ov6-h)icurOO(9MWAN8OxeZI_K9N-g+CeK$*Hrk$+Cu3h(i7swyMnDP~f
zVEavWd&9puk3Mbc%r+fPHyzG29lbqxH<<HwWWD`qZ-2&n7|LTge{a@5koFH`{6n_~
zH=KKOzCKKw;3WO`rrYz3F!qLDReQF~kbW+sSo&t5JWxqKth5K3%pZCgh<BIg<y4+i
zDk5<L_9(L(r+N`5g8fE%qyc&xl%UrU@_(i>CT2+DqTYrCE~+zRZJ|!5MuB?bVO9lg
z0BO>obV`#Rz26tpr0Tf3pop?YF5p#2f$ZgP#=}5~F6ob<ziQJZZW$cxxWLQNMNy+d
zGwi!`3t%(~WWkaH^9wp_@?CW!N#><7)z1uSl)eeQz-vnxGmet?+G>_iy+MKcZ1U9C
zu{-sZLj66WyABajp2ObovD5psX>YcvH{H~mZ90)|I+1C5S);$sM`I7ivfh`{-j_1o
z;~EVf`eE~X%~^jS?GI%AuciI3W&D%5il$G^rv2rVDnWj>cK=qoJQ_GoK0Ize!<v6$
zW*{z+ptxt0yOja=hZ`@Qx3R$2UMLTxE(N784LT*jt{c2gG4>yDn)O=~^lboCfzJ`%
zzyjkL+MbTN;2V)z6hr%q862(v7egI-M}UzGEflb$-LoU;GnbBn9BbOq2t~bJ?u7Q1
z7qr(ZKD{;8uICD=!0K8$LzGUvUdImeG|rde*IQ%z^;{t>>S26uQID<yq@FA4VXT^h
zW*`kQbj9rmdXLzl9Su-~nc~F*4azY+7ehbZj-X>%wk%m<FYjoCBKYHoP8EQ)S%>%n
zXfPOyppBgnxL82%SxA)uJ^uyR>;-K4zWmlcW&e*pj_3Q#nDr6itJ{ouns&Q|1&9tE
zLP4dB2B_U@<iVfG@6$^P8u~QECiGk(Ri^a(Ah`z~#VB|bzXEgzo<^&3S#MKNQqr(w
z)mQx6rn|K)KrdU1=H8>jDPPfZ`kup_3<@jYi+xRpE2IF~ua^|$$uuk({%G)Unx#tc
za-zz-BP<y!Nwv`Ej%Fw>+4T8Rh-)u~SfCzO{K^}|@678-j9Q_)uyyMXbSD;_EfNp-
z7F*AT!3QUxbsx!l0;VopEOr8@7R@%aUzNZez)Rs9D(L*(s#UW<RSPu&RZh1-{V%EI
zXan}@1Ip4p7)f=3TantG;dm5m3J26t;U^&vr*e<#Sk(Q9aH@rhP}P>d`c+x1)l@Jm
z;6jo4N7(gE#BSAYn$gnAD`(W*M{Q^+j1aa&7>wbhD1D8>&&jAZ!c?P@0`4c>WQIY(
zfTn8$#_QZX)i9}&h(<S+y?A1!FJpw1qq4D7G%1C!41Rg->QutrRGsun37lq=aAhpb
zVk6Q4^uSwdi!h&<lhr->+oPf2CH_)iVv?U42cOyK=+MBFY6Gz!R=_EM>_wW!2pOIf
zLoC{bRsKS2{NlvGkc1SXvgj36t@Cqu>!FtOHze=?pa+%ublp7qbFip6Z@}rhi%qBP
z7)w8Qgd)XDTN!mVG+!`iCd>lVEVk^bOlT$ynn^zcAo&?6j<?8vl@t4sr;f&~!=HBe
zHyj5xn~rCiPNEXAd3+*QQMq1yVB2guQJ!|9W;?cWWTWvY=m}15*3q7Jv~M^%H+`M&
zy54bReTUM%Lz?!0_}bErwhc!|uEvwCIg+k9vQhIA%^ytH9Nefm^hrfsw!)XL@U6EF
zZd43ydU`XSgXkjIMBTYN?d{HZd#R6L)8or}{ArIr<2j%Kv>D2E)_WrDr7nerPuz7`
zH(ckmXWX6O9j<SDaPzI3tG2b8Og-QM4}{12h<nJbHm+UGc>1X`!r%Qv&wHLvDyr`f
zJ~;Q*xs@xcQl@5qrsBY+QFVFsYNp1Ysn}nr3awRTYPvHOJzHP{mv5V``^#{id%<t*
z>CD#ePuK6q@ix8S@jw?x+Y#!k_{>V0S|6Q%c>c+$OBv_o^r=ga>u+EF&dl4w>Tss6
zJMHRTKXobXybP<|L=iT8Rz?~QWjx^OfK{p6lLeqUaGTt9d;(7J!EY_zW`E_V$vG?T
zy?W=>75j#>?I{|bjcKlNWpIOQrDmu%&3RX*KH}Q`=UD@BU4dJ1*!!Oz^PDGKi9LZj
z8~(Qc2_m#g3m(GV><NJ>;e>{k2A%Wad2LQGy=|iQiCu>&q=mbr61;|&uK>AJI<mXa
zqUVYs?h1bM;!h^12PJ=xuRXx%Kj?#N|9P+vddteR1B5sEaDzW9#^+>!E#|=Byn{<{
zeAO`ryak>CfJfFh4<;wvji;u4*TFNdVFzp_$foC$^!*LJHxI|<6h*JOa8tlXePH8K
z?=GB5UqV!*XhinW2E<)J7QF(BE?5=64<AXn4O|zn2m+p<xG2tP4U`xC5JAv9k{)C9
zBZzc!<S!v#Y>r5aP_fv#E4SF`K(PS3kS_r|b$Ym~H-YZX-#LF@zB~RDPL}<lebak1
z<30AN#asi{1YC=_Dv>ZZJlz}4o~O==tg|KUY*}SDoSi_kS*I`U^sUx_Exc7t+|`<^
z4kuXh0tX4}cOc960UQIo05R=m@+t*Gf%yTWt0U-C0yl?Y`0o1h#8CXT5ikbR(*x?a
zL4vW0LYtlwjH_VkI3b4P#0*b<r1t=9vArPii=LZMY6B%8FBR+(PEWHt<%MJfuF|4-
zN5{^kWJRqmdGV0H7~&-H>+^7tE~{mR43^c339Z)fnW#3D)aa|W2;$ZG8E`yO0fc*@
zR+T&_qeGUsR492ZdP^y&RG`%%;amh{XtY}F0cNxHShjUI-8!6U9a(oa=bX)1XM5V&
zzR_{)$HKa^{Uhf9_(bZn?zXhME$cp<b{~F5OwjQYXZ5|YJ7ep6Uiqc-OIsGK`dr4<
z|K@>S^5=&F?dA{L7>G+K2zQ)P(0Q0gu}gP1wx$5E7Iu5Rw3}P5Ks7q!qE28qtr&nh
zP_3fjdC1*fGtu5KQw+tlRp?zXevjg#gGvn+oHT|xtJi4G)dH2nnZRdcJ3_H3Dd00x
z!;I3-ML#?lxB+g-*I_<blXv`Cz;(^29DQ=br>?0?SY^t<#n%exRW1>}Cc>j3S-V!Y
zK^8S!wXTFt&riZTJ$#X)U2}t`Hy@c*S$Kw+q$fjVQ6p0=RADM1OJ=&13X#(-HkMLh
ziJH}nM2NZ`ybj^Y?m6x_zH{cm@LR(V#@`y>=s20FdHDn3Bkt8r&bi@g&u|@CZhxBF
z|9Ehn+rPn`*mPBHRCTSjZ@79Nw<6;kxifNKSP5((^}6m2-x<CSs?l#Oq`WWd>P@?P
zKbMhReAv}>rosG^2FsZ?8?azBu!EZOx=Naaf`kT?ghxZQ@w||V@Vu13DyqAVVm&KF
zBZ`DHEZx8e2~=gTrc&{Osx6_;M_D;NjT+nU!#Z?OXlfyvV-iMx06!Ud`5WX{?ASKj
zXxX=Qh9TVtKean7RZqPwTNX$`!Gn8o8|FAt<5@AUOs;Tmon9SGS9fh8Ao%^u%C{Yu
z+henI(SDHT`(duQ-<BO~v@V#dDzh}KO>GlMwmeSA*K89=w!FtJ?GzQHc~qDyMTIpQ
zD#$%k7&m-Do7ECvRtMLr*CK14cY<34%a4_9nr>BCEPGauteMv)*SL31ZxJXy7Cys7
zTOnK*{|O1*Bb4r>f503PGBs4Bzk(b-N}Eqe$VpTizBYsBlp5LE75Wwz7^rq(V+F@G
z7U-r?d2K^Xe}>WbF#21Jz6+6Rr)C-4;K|gWP%CH|ByaxJuB<VA2d&oZDG8M)wSm@9
zH@jig@w7;dH?^*)UGsZtjmV7PT?iV3c_U6jLY3Aqq9pkUAu6by1n&;cjtuh?<Kt8C
zCIDsyPx*L!4oDBR^e*=KDMlR_p|dOhJh%8wpC*f>zd?|H#)#6kA9MeL5mi)BY|{s*
z^evrcQlWc7drE-Yqu<}b!!W!h-|_B1<xXj@7fwt63cx_!MDBzb-02Ln%@L;JW8(Oj
zlz&X@9}_p^pOD%o#PfuBpO8BE|1~zbXp{3lu>SB9(*A^e=?OXggdF*Id(HhT8GG|B
z>r;2N_Mq&RGuP1gsQzL7Bkx1+YJC03*-XRmI;qRGw!d5dPW`*ycf4!y9|tq7udb73
zFh$l$O%4_KL+QFh>!kW={h|BH%D`&%s{9Tdgmi2FI@}i2AIj7p0mx^pt=Y6r_H5Od
zn7ym!Edt5fz~lD!Mt;nuyHC;b2XJDb`dL{O<J;QLFyqYX;cbHH7T3zuu9~+AB%hsQ
ktjyl~hgaCo2xNX!HEUw_d`f71$wDfdzFqze7d-?23!<7jWB>pF

literal 0
HcmV?d00001

diff --git a/usage/usage_lib.py b/usage/usage_lib.py
new file mode 100644
index 0000000..6922676
--- /dev/null
+++ b/usage/usage_lib.py
@@ -0,0 +1,294 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import datetime
+import json
+import logging
+import os
+import platform
+import time
+from enum import Enum
+from pathlib import Path
+from threading import Thread
+from typing import Any
+from uuid import uuid4
+
+import cpuinfo
+import psutil
+import requests
+import torch
+
+import vllm.envs as envs
+from vllm.connections import global_http_connection
+from vllm.logger import init_logger
+from vllm.utils.platform_utils import cuda_get_device_properties
+from vllm.utils.torch_utils import cuda_device_count_stateless
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger(__name__)
+
+_config_home = envs.VLLM_CONFIG_ROOT
+_USAGE_STATS_JSON_PATH = os.path.join(_config_home, "usage_stats.json")
+_USAGE_STATS_DO_NOT_TRACK_PATH = os.path.join(_config_home, "do_not_track")
+_USAGE_STATS_ENABLED = None
+_USAGE_STATS_SERVER = envs.VLLM_USAGE_STATS_SERVER
+
+_GLOBAL_RUNTIME_DATA = dict[str, str | int | bool]()
+
+_USAGE_ENV_VARS_TO_COLLECT = [
+    "VLLM_USE_MODELSCOPE",
+    "VLLM_ATTENTION_BACKEND",
+    "VLLM_USE_FLASHINFER_SAMPLER",
+    "VLLM_PP_LAYER_PARTITION",
+    "VLLM_USE_TRITON_AWQ",
+    "VLLM_ENABLE_V1_MULTIPROCESSING",
+]
+
+
+def set_runtime_usage_data(key: str, value: str | int | bool) -> None:
+    """Set global usage data that will be sent with every usage heartbeat."""
+    _GLOBAL_RUNTIME_DATA[key] = value
+
+
+def is_usage_stats_enabled():
+    """Determine whether or not we can send usage stats to the server.
+    The logic is as follows:
+    - By default, it should be enabled.
+    - Three environment variables can disable it:
+        - VLLM_DO_NOT_TRACK=1
+        - DO_NOT_TRACK=1
+        - VLLM_NO_USAGE_STATS=1
+    - A file in the home directory can disable it if it exists:
+        - $HOME/.config/vllm/do_not_track
+    """
+    global _USAGE_STATS_ENABLED
+    if _USAGE_STATS_ENABLED is None:
+        do_not_track = envs.VLLM_DO_NOT_TRACK
+        no_usage_stats = envs.VLLM_NO_USAGE_STATS
+        do_not_track_file = os.path.exists(_USAGE_STATS_DO_NOT_TRACK_PATH)
+
+        _USAGE_STATS_ENABLED = not (do_not_track or no_usage_stats or do_not_track_file)
+    return _USAGE_STATS_ENABLED
+
+
+def _get_current_timestamp_ns() -> int:
+    return int(datetime.datetime.now(datetime.timezone.utc).timestamp() * 1e9)
+
+
+def _detect_cloud_provider() -> str:
+    # Try detecting through vendor file
+    vendor_files = [
+        "/sys/class/dmi/id/product_version",
+        "/sys/class/dmi/id/bios_vendor",
+        "/sys/class/dmi/id/product_name",
+        "/sys/class/dmi/id/chassis_asset_tag",
+        "/sys/class/dmi/id/sys_vendor",
+    ]
+    # Mapping of identifiable strings to cloud providers
+    cloud_identifiers = {
+        "amazon": "AWS",
+        "microsoft corporation": "AZURE",
+        "google": "GCP",
+        "oraclecloud": "OCI",
+    }
+
+    for vendor_file in vendor_files:
+        path = Path(vendor_file)
+        if path.is_file():
+            file_content = path.read_text().lower()
+            for identifier, provider in cloud_identifiers.items():
+                if identifier in file_content:
+                    return provider
+
+    # Try detecting through environment variables
+    env_to_cloud_provider = {
+        "RUNPOD_DC_ID": "RUNPOD",
+    }
+    for env_var, provider in env_to_cloud_provider.items():
+        if os.environ.get(env_var):
+            return provider
+
+    return "UNKNOWN"
+
+
+class UsageContext(str, Enum):
+    UNKNOWN_CONTEXT = "UNKNOWN_CONTEXT"
+    LLM_CLASS = "LLM_CLASS"
+    API_SERVER = "API_SERVER"
+    OPENAI_API_SERVER = "OPENAI_API_SERVER"
+    OPENAI_BATCH_RUNNER = "OPENAI_BATCH_RUNNER"
+    ENGINE_CONTEXT = "ENGINE_CONTEXT"
+
+
+class UsageMessage:
+    """Collect platform information and send it to the usage stats server."""
+
+    def __init__(self) -> None:
+        # NOTE: vLLM's server _only_ support flat KV pair.
+        # Do not use nested fields.
+
+        self.uuid = str(uuid4())
+
+        # Environment Information
+        self.provider: str | None = None
+        self.num_cpu: int | None = None
+        self.cpu_type: str | None = None
+        self.cpu_family_model_stepping: str | None = None
+        self.total_memory: int | None = None
+        self.architecture: str | None = None
+        self.platform: str | None = None
+        self.cuda_runtime: str | None = None
+        self.gpu_count: int | None = None
+        self.gpu_type: str | None = None
+        self.gpu_memory_per_device: int | None = None
+        self.env_var_json: str | None = None
+
+        # vLLM Information
+        self.model_architecture: str | None = None
+        self.vllm_version: str | None = None
+        self.context: str | None = None
+
+        # Metadata
+        self.log_time: int | None = None
+        self.source: str | None = None
+
+    def report_usage(
+        self,
+        model_architecture: str,
+        usage_context: UsageContext,
+        extra_kvs: dict[str, Any] | None = None,
+    ) -> None:
+        t = Thread(
+            target=self._report_usage_worker,
+            args=(model_architecture, usage_context, extra_kvs or {}),
+            daemon=True,
+        )
+        t.start()
+
+    def _report_usage_worker(
+        self,
+        model_architecture: str,
+        usage_context: UsageContext,
+        extra_kvs: dict[str, Any],
+    ) -> None:
+        self._report_usage_once(model_architecture, usage_context, extra_kvs)
+        self._report_continuous_usage()
+
+    def _report_tpu_inference_usage(self) -> bool:
+        try:
+            from tpu_inference import tpu_info, utils
+
+            self.gpu_count = tpu_info.get_num_chips()
+            self.gpu_type = tpu_info.get_tpu_type()
+            self.gpu_memory_per_device = utils.get_device_hbm_limit()
+            self.cuda_runtime = "tpu_inference"
+            return True
+        except Exception:
+            return False
+
+    def _report_torch_xla_usage(self) -> bool:
+        try:
+            import torch_xla
+
+            self.gpu_count = torch_xla.runtime.world_size()
+            self.gpu_type = torch_xla.tpu.get_tpu_type()
+            self.gpu_memory_per_device = torch_xla.core.xla_model.get_memory_info()[
+                "bytes_limit"
+            ]
+            self.cuda_runtime = "torch_xla"
+            return True
+        except Exception:
+            return False
+
+    def _report_usage_once(
+        self,
+        model_architecture: str,
+        usage_context: UsageContext,
+        extra_kvs: dict[str, Any],
+    ) -> None:
+        # Platform information
+        from vllm.platforms import current_platform
+
+        if current_platform.is_cuda_alike():
+            self.gpu_count = cuda_device_count_stateless()
+            self.gpu_type, self.gpu_memory_per_device = cuda_get_device_properties(
+                0, ("name", "total_memory")
+            )
+        if current_platform.is_cuda():
+            self.cuda_runtime = torch.version.cuda
+        if current_platform.is_tpu():  # noqa: SIM102
+            if (not self._report_tpu_inference_usage()) and (
+                not self._report_torch_xla_usage()
+            ):
+                logger.exception("Failed to collect TPU information")
+        self.provider = _detect_cloud_provider()
+        self.architecture = platform.machine()
+        self.platform = platform.platform()
+        self.total_memory = psutil.virtual_memory().total
+
+        info = cpuinfo.get_cpu_info()
+        self.num_cpu = info.get("count", None)
+        self.cpu_type = info.get("brand_raw", "")
+        self.cpu_family_model_stepping = ",".join(
+            [
+                str(info.get("family", "")),
+                str(info.get("model", "")),
+                str(info.get("stepping", "")),
+            ]
+        )
+
+        # vLLM information
+        self.context = usage_context.value
+        self.vllm_version = VLLM_VERSION
+        self.model_architecture = model_architecture
+
+        # Environment variables
+        self.env_var_json = json.dumps(
+            {env_var: getattr(envs, env_var) for env_var in _USAGE_ENV_VARS_TO_COLLECT}
+        )
+
+        # Metadata
+        self.log_time = _get_current_timestamp_ns()
+        self.source = envs.VLLM_USAGE_SOURCE
+
+        data = vars(self)
+        if extra_kvs:
+            data.update(extra_kvs)
+
+        self._write_to_file(data)
+        self._send_to_server(data)
+
+    def _report_continuous_usage(self):
+        """Report usage every 10 minutes.
+
+        This helps us to collect more data points for uptime of vLLM usages.
+        This function can also help send over performance metrics over time.
+        """
+        while True:
+            time.sleep(600)
+            data = {
+                "uuid": self.uuid,
+                "log_time": _get_current_timestamp_ns(),
+            }
+            data.update(_GLOBAL_RUNTIME_DATA)
+
+            self._write_to_file(data)
+            self._send_to_server(data)
+
+    def _send_to_server(self, data: dict[str, Any]) -> None:
+        try:
+            global_http_client = global_http_connection.get_sync_client()
+            global_http_client.post(_USAGE_STATS_SERVER, json=data)
+        except requests.exceptions.RequestException:
+            # silently ignore unless we are using debug log
+            logging.debug("Failed to send usage data to server")
+
+    def _write_to_file(self, data: dict[str, Any]) -> None:
+        os.makedirs(os.path.dirname(_USAGE_STATS_JSON_PATH), exist_ok=True)
+        Path(_USAGE_STATS_JSON_PATH).touch(exist_ok=True)
+        with open(_USAGE_STATS_JSON_PATH, "a") as f:
+            json.dump(data, f)
+            f.write("\n")
+
+
+usage_message = UsageMessage()
diff --git a/utils/__init__.py b/utils/__init__.py
new file mode 100644
index 0000000..3ef44e7
--- /dev/null
+++ b/utils/__init__.py
@@ -0,0 +1,82 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import uuid
+import warnings
+from typing import Any
+
+import torch
+
+from vllm.logger import init_logger
+
+_DEPRECATED_MAPPINGS = {
+    "cprofile": "profiling",
+    "cprofile_context": "profiling",
+    # Used by lm-eval
+    "get_open_port": "network_utils",
+}
+
+
+def __getattr__(name: str) -> Any:  # noqa: D401 - short deprecation docstring
+    """Module-level getattr to handle deprecated utilities."""
+    if name in _DEPRECATED_MAPPINGS:
+        submodule_name = _DEPRECATED_MAPPINGS[name]
+        warnings.warn(
+            f"vllm.utils.{name} is deprecated and will be removed in a future version. "
+            f"Use vllm.utils.{submodule_name}.{name} instead.",
+            DeprecationWarning,
+            stacklevel=2,
+        )
+        module = __import__(f"vllm.utils.{submodule_name}", fromlist=[submodule_name])
+        return getattr(module, name)
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+def __dir__() -> list[str]:
+    # expose deprecated names in dir() for better UX/tab-completion
+    return sorted(list(globals().keys()) + list(_DEPRECATED_MAPPINGS.keys()))
+
+
+logger = init_logger(__name__)
+
+# Constants related to forcing the attention backend selection
+
+# String name of register which may be set in order to
+# force auto-selection of attention backend by Attention
+# wrapper
+STR_BACKEND_ENV_VAR: str = "VLLM_ATTENTION_BACKEND"
+
+# Possible string values of STR_BACKEND_ENV_VAR
+# register, corresponding to possible backends
+STR_FLASHINFER_ATTN_VAL: str = "FLASHINFER"
+STR_XFORMERS_ATTN_VAL: str = "XFORMERS"
+STR_FLASH_ATTN_VAL: str = "FLASH_ATTN"
+STR_INVALID_VAL: str = "INVALID"
+
+
+def random_uuid() -> str:
+    return str(uuid.uuid4().hex)
+
+
+def length_from_prompt_token_ids_or_embeds(
+    prompt_token_ids: list[int] | None,
+    prompt_embeds: torch.Tensor | None,
+) -> int:
+    """Calculate the request length (in number of tokens) give either
+    prompt_token_ids or prompt_embeds.
+    """
+    prompt_token_len = None if prompt_token_ids is None else len(prompt_token_ids)
+    prompt_embeds_len = None if prompt_embeds is None else len(prompt_embeds)
+
+    if prompt_token_len is None:
+        if prompt_embeds_len is None:
+            raise ValueError("Neither prompt_token_ids nor prompt_embeds were defined.")
+        return prompt_embeds_len
+    else:
+        if prompt_embeds_len is not None and prompt_embeds_len != prompt_token_len:
+            raise ValueError(
+                "Prompt token ids and prompt embeds had different lengths"
+                f" prompt_token_ids={prompt_token_len}"
+                f" prompt_embeds={prompt_embeds_len}"
+            )
+        return prompt_token_len
diff --git a/utils/__pycache__/__init__.cpython-312.pyc b/utils/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1bb9e16786939aa6399800a0195dec7bd30acb33
GIT binary patch
literal 3068
zcma(TOKcm*b(Xs%m!wEa)IXK2aV38UTa;V>Q#-9<(Wz{SaYWfMcv(=~p|sX=mz`b8
z7C{GUkOB!3AaZNKDiQ-Z<lw+Q^w>iVzPE=}DImmD1q>uT<i<emrKi5x<yy9rLx<Qm
z?>qD6y*F?8w|G2?VCd4v+TQ{DmJ|L6b&y>oAaoyHLn=}Q9TmJ;C<s6Y^gu-{h=RwH
z3KH-{Jy;19Lco*Y7gR%^i-oWnCbB9Mu`H>P52Qi_@F<aoVT*D=jRGeYKqN%E9>HFG
z6yj>EkRUQis$J)SR^x?kmrA%)ve4sF-7eKrNV!zXrFsj!F4gB!GLd12e%PT;9e_Ri
z`JSp!4+9(|(#>Ohx0gppDwF<lNF4&p!8IX0{5@C7r3EHV8EY`bG()o$-CSBCltrr4
zENi-EEU~yj>{}*XQEIlPTWOKWB~M6Lw~r|$)3C{Ho5h!it(a9}C{>f%OfrfU!a|hT
zHENVPp>Umx02JZd-3D+UHIVJHIaoz>c8_Wxe!x3|&9&WeQ}VIBSrr=SGe}=U04Tb+
z^dM~eDMxDXap+NJ1p(Q7cXxmtSUdo`CE;=SQNZKg3D~iY0%`;r$mi#g9ryXFY$tsD
zvw#|bJp&IUKi%&O>1h4roT=7yGNF@IqGO0m(Y7hJO}tz*RGnazR4FMHZK7fxTg}#p
zm8r*8b-j{tgPp0rg*EF%Jut+#G+oDw1XEHmSHV^@a1obl5MqK?3AHrS$lz-h5PJ(T
zAybclre%|&n)#le6H*?v>|$xfbq^@HOwEd}S#~{KaUI9?6u4?(!^GTkZLww(oR(Ri
zGM&9TpS?J>keycMrmkL{$-R|l@~t8@pkOQ}ag3#=JI4cm-t|N*swi58SB9dna3>%v
zG376wrPQQMRuo<~ijo#7zs)RR)fPRETmcJtgvIlTG5+uClXj&#S=Fi&c9FuW6Sr$;
z&YfL3Lnd`?ak9E*FPp|B55}Y$)k$!Im%5UvuCbV+bo@{hIsyy!!Dsyez&d&wj%_E$
zw!&jO!xInHt>F_NCU)fRPvalOTZ!S#@y&rY67c@k{$tL*iHGkzv>%rLGSe1?_^-d~
z+TR)+`cEVni9YK>sgcc<hZ!e*&KY_AiQ#0gZTDRNFtn2#*jU}Po5^uU9^Z)$ZJzn^
z>=(zJ%x|9bJ&~Q^nP&8|BVFDFM^K3af51KWF3ukTxsUAUmul~V*g;?UQ3tuntzH?v
z%rDs&>}6l||FNrsvcE<ieI?}5K^C$g$3$fkFDJ;fZY~yeD2x@dX3-un_zKZ|Fwvg@
zU|~g3H45=R2-FyS)+B&+^j)my-uS&+e_Ff$-re__gNK``BacsRAD{l__{`Svndb2;
z&7-qhso7?1&XMNa_1M7m+1WW|YGEOpTbOw}r@T3J@k%x~&3f|-^FE<ubJvyYQ}Zl(
zX?80A+nL;@>^vLf3VSqPA_q#dOuljH?fJRve4h1l6`$Hu@K$kYmU_O*o;*C0gLP)6
zS&|Do1Yi24wDO+D>v{JofS*q5PxU=Ni8r5jIxz2yy`<1lV5KD{S~g`;t){6g$l*yQ
zE|c4I9HcL#BSxXim=%R<&{H5g2cN~e@H*OwB|fn~t$$SixbaPLbSpX9jA2K@Uhuo&
zU8q!T#Wq*q0nk*7#XB5QStP1e>a<r_2_f#Vd*FM3@CRT$pbAEGub!dpc53?$wC5j5
zh38VS5m-+)#P!%-1*-vH`o7Q*^Qa;IexLz*D`()OJum114;~DuA;Kf@Li26}@+cjw
z-@I7VOEn!jG`5#{!~I>2ST@#)v1BjfBhYw_8k~$`vkYw=4sE6JlD0}P(LkR@p*i7K
zV}ecU^Sr2JT(w;NY|gXtrO%@X{r43Ue2YM@S4mkjh?=QizUs!^a{)u#F@Gk!jj^{0
z^l=rdTDc5{hJOO<M_XN}Cw-o0cOe~MBAk~+uNU<iaT|16qNgEe6k>_k%Q@$oJul^4
z0hYy!o5#Yt?uWeiDg3!nUJZ|8QpMYvUH~ipSswscN9_c{$DPqLckQq9&eS{23-gZD
z*TNGHKJ{nm>l1&y)BF|mf&QoAK_@)gij6q2@txF&v+vzz>W0&Gqm{&tjGuD;5oh8J
z=gs+lOw5BqJ0SENY#lu1jGu0$4mdwQ;T$;G4hDKo?}}1yqK%|@q8&xuU_9zpd3uQc
z68xbl04!v$RpH5_ypUPYHfd>@dGELPKZ^2`yA6;2f@A!Fp$9nNt&R=>V4;rcVNN6!
zrDzx?{8NBe(}I?m=6XjtnBagnM)yuKQ8R27T7c-9)D6|E*H}L9J(F+HEEw^tWNib0
z2TBm0$w=t>CrbVc4Sb8b{*A`kA=ER{8X9}rKmJ1`I23SDU%R_YxFT$n+KA7arCoP!
z?+*w$VWV%Oba!|car}oUiuP~ZXh!z0hag8ICmqzgk#C|CZ5iQX4jSC-ZK9*CeTN;?
zzhO1e;nr)19F*F)*hGg~gLpl;0dm|93BrMmJp4Bo4z%Td0k;NT+dOes`(k`+;80rx
d#?#)R`{(bT2S)Fqb`Tigb13pG449jk{{eq?C++|M

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/argparse_utils.cpython-312.pyc b/utils/__pycache__/argparse_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6458cfe1cf8c80de3dc747425d6b212bd20d01a8
GIT binary patch
literal 21336
zcmdUX32+<Nm0&k6;vxYO011Lu^Coye;-UM9Xi~Bci?S`p2V)t6&@BlRc(@xRB^Yoy
zj%EkUYR2H$iJ;gML5XV(tvwZZXLdqowld1Bcgs^dwF3xr0C%`mN=>$Ey|q<KTT0pS
z?AGjiztI3lLAJA1vsL>g{{H>@{rmrSfBdJ)N<9U^ulkq1j-wRy5BMSnO+In=FClT2
zVyQ`rrCEiao}|fBF{vO=<)jjxO22AaJ*l47OlqbpCM%}3liF$Bq;6V2sh>7X8fYx5
z@*AfsCo4%>?XQ|PO`1qr;WtlKle%gqYv8HzTc)j(R+>^!oRzb^O-ntQtW{7CQ*6a$
ziq&!&PXD$lpI=Avb&#*;D&AJ+bM2QDPD8L`ls`8=&CLXuIS()RX3jD50iWL&@Noij
zc9v%r9(m-r>tif3;j9ofquzjTc1CQHOO119J@fv6aG3MY9h&8*J%Iqni&gUHN1;x5
zua@7RxHQKd<oQ`%)J=G%IbqJ@<-~@^J&WU<;N^XDSox-^+;Z86`Pun7CoLLSsZG}B
z4Zy2%bmkJ~`eu9qw}1BBIga;ABa~uA{^f2DB>oT<ilbnGC|n#^7{z63QWc@j!UA2^
zPO2l+MS4<ml5(m<%gI?jz_A;86C5p*$pp@O0*nCA0^`X~rof!J1o@ngXJ*Nu7$LyJ
z<O(ite)>tTbP(hFT_Y^vRVt8QNQ#=0driQkh^6I)4lBO`Qc-|Zg_Kk3l1lPPRvDt-
z&bJY!OKOuhbxDzsssvUYz&?`@Qjb%wXuOJZlvi=ePElb^z#xB{GRmpqGo%SA<TjTT
zR~#xR7uKAk<h+ycPLsSvnE&Aa&@=fk=weR72IXeFuqTB%*qn^V%g+h|<M+)#)_KnY
zm!E9hz<!RI;TEM&JU2bNz_G4ET|+Jg_N3<=@0mLf%QeF?+(oF-3w0I>d3Y}0jBh3|
z%Lp8t3{QZQS}RsH>|zdjyyr<a;}e)gsB?~E87KlP4>fRJ-&r4IEc)2Md8S8t%${Z7
zgiQNpJbq`fu3$~iH}<wZJL7zIrso^vDf9+)&(6Fs)E|CU=oM)O4xfVO#0u~1^qkMn
ziArJqjHo8Ff$3>c8{jSmun(dNV}Mr)od2w-!hBIpS{JLN33BJhDppU!;q}e=IXOoV
z)nw*G6?s&^^5s|IivwE%({o$qd~*W<*ydbd;Ntv_T{|!A;I{aEXSU2;3Y?#v*|OmG
zPj5jCB5VO5m^guRlULW=CDG_6{dJS7gG`yT<SK<|fyRYdh+d-ZRZ)({>yB%VRL8DN
z{q9KBT4VF|qt}kcLz%{rl(s%+YRZ~g)27yVdpwXa^+!}|=9;V8Wo@dyH!+?u4@T5$
zrkeM*Wh|rbZA*^4cKGV?<>T>=g!)6PYh_#7GJ0z$V>*=59{SyF%cy{d;1`We57An0
z={ZDnN>1wmNPLejJ+C1^`Io783i}(*RH5XOB1HWWoEkVq`SVRvmnf%l!dp1*P#>l(
z@ORe%(N!u$O~G?>I7!{4Cji-1Nl3+=M=Fp*UlgzghQ~=0wR`=Z=`*Zne{i_mBzsua
zUBFbXz5ZFR$1m)Mgj8q%st}Owy+kGH?A8Ofw;s3)Zxl46yue*@Dn$)qJC23@H$MmH
zy>df^P9+c6fD$V_gjNWm&h7U4J%ZqN3pjlY^AhPL-v=+j*01bfKY$5M5Pkj<wN_(~
z)up=*tk#T1D%P}>OBHEtQ|#P_+Ah8uAYjvL-R>EnEN-``ce|%&*?HL8ZrFM5=jT2C
z{Fe&1o1OK#-8=(jNH@gFd>_4>-|u$cq<Jz4IHd=q&Q>8PMvd?%)I#+6W$Gi<u}@V7
z^~3aM4u!gVoq~w;g8+H~rVwPjdbbVgETux<1j0Y51VXNQI}bdm=2V=f9^SYLR<ReJ
zta4Jz>EKO8-qe$NPRFW)a5y1PgL#C4RR9GuaK<UzL7M`ry#V`>uV?EBr0%kAvWlei
zP{u^q0|T%JM$TMd531Qppp7*IstTYiI!Z^eb*u?k4juMR>H%x!Y*Om1L`SPHS5DTl
zHBhz`)*_cWt75H}Rg-qs24g7At%clrLVq1Vf9+!JAwPG~cgD|+=4mS6ZQvz>`!>Ey
z)Ys$p&n^PdodrZYKf`jo;GG35j`*GR2<I8!41;SgxI}}S<>q+K3kaR{gkdqBI?v4j
z?;{Z2=jh236U^8nM~Z~JpCI$Iv)BM~M*;_A9*}t9{6LChxaa463m!jEsoh9w1_q{t
z*_i==VY**vgEKSOwwq}KfO&4Pt)Ic1A;=-0h6|sD+QQ-Pjm2G9mXQjU)QZ_d7!6C`
zhV=STmIbD57RZYKQa{inA;55c4jDUv@p@*MGaMNtkR#s=>s#=#a2))Xn0YenzVf{u
zfv$Z^>h>^poAhI(klNOEs$73Z`lL<`Z|d+!-@b0ChJNzc)~(kAZorvx0}YxGO>Tkn
z@ZR%o7}(-0&u+kv$i$f7@2(#rM7}H?QY_HCE&%UR2mwonhasexLOio6unJZwvl=1F
zT|mzPq;VuHDFIQN5mEb~jyLH)rU{}}LC=5_mRMT}lZi&ecyiC5aH`3H7nO6fbNn8t
zi|>U9Q4wKE-A<K+5mm4u1W|Kg5uXx<L7D;^CXW&K!CSDU{Kj|5wH*K;0bBX}CF+i$
zF@7j*=w0jC6FHQ!bfk@)cN*IWWqdIi$TaSas8+T0c|>WCb)>Y;cvnX2l(41ZW1Odt
zD<RszmLjskFLyiOeBfM%=x^7<eA5dQZ!6As`B^R!xd0B1ge5i1EHo2>HIvuiSy+Lv
z0tls6hMGc}vnh;Ir;Y)fGJu^VA*2A777_8LaFGtH<hlj=N@Ji}27nTUFHp8d&M!VM
z?0_kyuWbK{u_=r7(A1UVD%d3<`m6%Qg^6J8zyRwLJb<tUKnfY)0VQxkKnT7dV+y9b
zJVZA#k42<JkQUF)`9U;7-Vrbw6y#>^tGV07JaHcRPM_b8$2-sKBCcE5>KYt!ZFL13
zij8*)n;LTJMU5mciALCwGl1RPv%q6Zo7XJyZWm@|7iW-J5cq8{U;K86#ESDC0R%l>
zRIxBbu>zPu@>-FX%$yps-}(IrtRsk*2znZcBj6v#nh1f#od(;#Z~zX%d$9Wf2VirL
zU}I216e2hXIg=%2YDsnMy`@TbjNj8x)pc2Od)nN-u29%|?<rN)HTU#XOUJcy>E`Xp
zz{)e3=7*O~M2<uQYmTj1$KF-P-l*m`)`r-T#KKQrxcNe=dv`qWp>@xiy(O+ojAZOv
zlZSpf@$N*%{?Ko%j;ysiZS79=9J~cEkE|Q0hJEWs%GwlTqu)pw+sNrEkG-xycgcxT
zOd)fzDWHrm?_t>U1uRC+51f-CW(tE~$F~Gzwt|`}oT6ftQ-)$%PQeb&w@XtY74VbF
z2~l6%e1~poctoMn9w1mw-a#enuLSG|fXL;MHRiv8sR@j5P0BCrqwpoz{(z+|Wgt%h
zpfCmzE^B=Ya{ci~lAW3Qospw!HplW)X`3@KlCteiZcp2GM-F{ts$VmAWz9or^HA2j
zJ#F5eTv#>l&spjt$EB5kx(Y$Y`*)imtCSHVj1CQqj*>7TFgH%c7XuIIuX}SoQBM5-
zvE=-57&(6eqsJj4(oX3aBn!2B^8h98%T<2huG016uu^&bn%b{VUYkr9lU$~0Z&bfl
z-+ZkuT|bZrr0Vx47t;0nqneK_O>5TPtaW?Zx;<;%own{?*}iIhC|B1Mt(54Lns;Gu
zw_vmtBkUqSgwZfWMDmf?bg{O42l*!ejzw6cBfz<TrchTluTv0_Cio{IyZrK<hc8z_
z(^g(03sL8QF8+xAGmXqMgn^4Fr@kqth6yQ4PNVW9#kWIaAU|Pm#45LhF5Tx)@dbPX
zsuyP1JTp-|c%oVY$g>iRBm&lyE{Rk{(D{Hxy&n{rECGlj1xL`jB|4t9Zb@6WBvmQv
zp=98;_0Y;f+IlE*FlRJpjV)<oOV-$xHg?75SB(QXi#_tl{TQ&oQ}jaWd-NY_A0*>`
zyQ)NV)=8rC+t3pXCvg=D{F;=9vHU$u!}l_n@FM+PZIu4@$4lCBI8iP=Rp2p-HJ4)K
z?`oH{tnxw+Y`Yd{rwk7Qd}X2auNXxcE(Ca;pCL~K{HwLt133l!iMjljFB{X67W)fj
zT_Jj^POhu?EMH^EuB4|>*4q@IR2d<2Ln##4Hw7q#NOx1%P^xv)M|hQ22k2G#zLZ^w
z4Yih0fXcO^%JC$nqRs)232Rz@RREchRVmYZSTn#wVO0Q6E(sAWD3eu}wIS71hn!b@
zju*xw_Yl^m4Y<<oB8;3WrPWtPRMeG&z;P;hPx+N()l1sfDOU5Rr8tG2Dz^?BA^xAw
zIh^9ME6G-n5okA!;7eAI)Z~=stN4VKL<wwDfLzoiZ3>W!)MZnU)gWK8>%Qs)lsRpz
zPF{7e>*&KE6+K|b0h|4x9rs{75C#Q%xpR4u7GRe{dleydNW&UlSA{BIrx^cK83c?M
zR$ti(`>O1Ugw)0U0>uB_PBCwqT6o=1>zA&tvvNYD-6B08DnVbdfkGp_L-K$3A&9<5
zAERiZH$7DgW1>OnN|)oX<#WG4eV@KcgA`|1fim{bl#8@Pduh;r&n|L2C^;3bt)dbX
zt)MjDpqAL6#1wUV&v7$gL*VxZw>^NoO3DNGc`%WcC|l)XQRuyZGyC~}Lyi}ehz+$L
zjXt^39;-^U|HOII`F7u`eOr3;$=?Y$;_o!J&_U~H!OjF~3GaDSOm&NNcaWKwWe7LG
zfay-=+y$lx6nwhdrT?bDp-hP#>PB;gz=5i4!Q=Czj471|9TzXd?1Pyv!hx_^gawfd
z)M{YR5M05^vDulkzH<y=g$0ocs+he)BO<K_WuCze<_aRe@q#2<7)oXZSRD`{-328J
zzY_+^dms`k@{%x*%!sJr!1ghFj(-|o)B#@r3?Y>Qm?Hw9I+84tT4ZL3$ph?!1)HLz
z<b`ICmCEx~f@lDCs!&krnYqLx#^#^F+I3jZyx=*<iE8PgEtGS(r{@Dif9B>cdi|h7
zTj26sno}>SdUVCXOk#B=vIHFH-6f?s5tPJAFPXA@S$+mve;y+iqXCEn)QJ%89HIkx
zHPIC01>3%Qw_#Pn--5*RJJb}JvWAAVp&@1HUbEPjccd*{8B0&f*mK8fm*m-u)fv&P
zYp9m?Z1YgMc_?KZicF*p-?-D%mu(tMHw|W*hO<q3(oK6-#%@_MO$Q?rcT7!j+ig=<
zuDR{{%(a=Q>NUe!UE}g%x~?}<*Pk-?Lv@bkY<>S~eScI9tl`x?ukML&duz{)J=yk=
zbo)rAefx?l(|$N-ZOU5v($>Dj!Jizvd2H3XljL-zt-w`gyLYC$cdlA@l|W_t52X7K
ztXfA&o-=KAu3GzwWdd)#c;m%Y>-JnjN48;Wx?yXkVd%DXXx&6P2G*@qOKapruD+?z
zv1T0dYV%O^&~NG-cku}3Mjy_OK6!ie$-7E;`z@ug*TPupd$M*{+U`m$d}!bPiGgYv
zUROempHxximYlghYwk{)yHmaUS6)o*pZLI&>Unh4{8-^b!nA7MN!~is=FU}fH%Ygp
z&290KxAx!IziJ-J)iK$+{&Zb`rp}czyP(O++N`lTZEVif3?=uch8_Y0F-9Mt;Zc2n
z2E|5Y)w&*34_Ql3+R~G;^rnoxP)b*m)i$KH4Y6@l1}0QLsk~X43}kmancnf_s`jZo
zgd?qW#743Wed&h2RV^+SmTO6CTjHiw?be*#5vk1C>a(_<Ra+0R`xblF(tX<k{kG?<
z^;eHAAA?LsOV-hscJ$qL3?}%<v7E6!u8y;@P~uo(--;py8^*Y2={P7!YMr1Y!3IdP
z`&PBioVGfvZ2}X{s<vfAm#*)*wr5q_4S6uBrjE3!BV+1H<*huD=yMb{_Xe#ca^6b#
zySom?HjpqHP;dE?r9`JE%l-f)2jK512hfWU%`bovPeBYD5|2NlqXGrm1RNbz)D#y@
zdH3^kptmW=0OdGyb^}cfDM^bOB2`p@eiVE~g3vk4MI8@Yfp1~;Og(<X+_F-NR;H+=
z45=Zk1|z@f9MD0~+$tT^k6?@;HIDX2beLv!M4MX;97sV=3YF(WaeM%&4-~lKa&if4
z2mr;E0vLCUmsQ{hV3BjCP)W2Yu$6`0Rs<U4kHuPWlro(TYs=4ils*M`mFSRlVSPwn
zj?ZPQ<aYS|0D+d#O@TFmQ$>DPux2v5U&7-A+T`Ny!i<Ep<v4e?T5cIQj3*z^yBZmW
zpJGiRJ?PdCe049$hz((5sA8%d->V53So$4{%)N#U<@*;h0RLwS8DFPLdF?B2Kd@H)
z*Q-??5sW(hfKgjz7=Bww&stIQ&ToZO1<pQeBkw(hcM~}mYIv{3ojaq#FXY5lmLC~g
z7pjC&6&zq_DoS6egHl#flPjc?&R3vMUd!TMzW_UdZ-P^jhao+(!@5`=&{n-X7ShVm
z@=ziD2B=diigg4Wa_bv+J=;)xhjUesR*JcSf~<0u;HtA4wh>NT72EW6pxNfH1!V}J
zmW_mB%QzcnHIW98Zd)!JzuOQP%!5z?kbtFtFolzA3ZTV+gkmjUr+sN;MM!!6!se1T
z3pi&(o7E-QqJR^}VGo=Fty3Ob)P!^)6RawI#Tcq7i#Hg#MUb_cSzD-P0W~P?aAF|E
zJD}88;1beOP1r)p(tOjE(U7)uSA{Jh(-d;Fn}Q4@w-3^1&D5?<K=8`8$`JfesD`Cj
zGtjV_02&2Jm_i-?rclJRAxqi*x5;&GenM}{kGSA@_#7QJgsng?i#<Tw&!!Nv$Tf$J
zpiiv|Swlt{`-W`_YN;V)4jFJgL$*SGZKyg_3yx-WUd4HIGy~cmt|R!%7OF%1^(Tre
z2I5Lq7X+<YxcWgeE4NL~s!ml(%}aL5E4o+gUL|p9GZuD?o$MGI_JAQ|2iLVK6&2Qo
zbzys`n(zDyYTwRwOdZ@b5jesEg^))IYi*uF%h;wMpC`~X?aue8KJ0h^t|`Gt<snK|
zsLUP-IpkTApMc5t!dxAeJGImZ8rknb|FuO+?n$bh3KX=V9Tcyksb{FD>dNpUby4{Y
zwMfHv=(`lA4#=tEbLydDT24Vd8kiGH*a&seSL)@u@=k(vi;}ybGHeg)z+td+;$s?$
z@<`3WFNxz9xboV9#{r<AD}ZxM&MJ-C7M3Eq(rVD6U{#w!(fyJKhseD4pcS+S3e+Ar
zm0wg041m88=l?>RPwYciEj<xW1+?RWV*d<OD$+hsW`IQ%nN^VLB>y4~UV<YJkm)4L
zCzdIrK=_YPQb5~CUVor!t@(A^;5AK*jt%GP95LVRy6(jAPxjy3ztX$fckrH?vekan
zHYlkRUheFsgUP4R%6uAq_dpi_Gk3b5ximY^2<K<#{VX%b&w{@Qaj|5`2pJE!PBL?|
zLf+$~plLv*0hpgXj3n1GXTehuGK2u<VbN)3!RI0FG^g`3bUN=Hi<WGT*_`_z%l5E~
ze+h>BF)lU#ZHREjr4~gsk+Ve&&jsfBnfrDC@}+mjAtKg?FJ0yG-VH?`614gUcRVf`
z>V*=oBeclFbfVu8IH$sNpf_k<{Li}qyT~@>(bCC32a!|312;?YXm)YZ{2#)j)SXX-
zN|4}|-(z!Nf&Y%Rp!yete-ylz_r#umb${04Ok13Z_JokJ45y64#8MNi1ozW@0|U-)
zJ@>5ZRBsTrGAf7miS)jY{|Q1+BV~M{02ok_d1vQm0zt*V36Xa32cU_dcHo2y_r|{c
zDtHy?ts*@r(nBIW43$ZrL>2h;fPX1*{@LJIi3fqK3^EcZwS^T$m*h}ETL>5ss5t29
zl_7->V6JG<0|VB94*q<M=fI;2w<UN4gKHOq-r?vD#b091^0U+Mf%rthCd6J4Ckv0{
zr{vP>Wd#d955XShE_$ZHDYl<EO@Q}-7nBFxp3Y$8Z98?Els`>I!t7%PPfJ_XOFBV(
zsR}ioegTT2tJfJ4dm$bShr_2gv<Y*n<+%k=qj6~8dkv<62P8|025B^I91Y(CIYbAD
zmFKN|Qj_4li-RU$!F|8SKDoa*+&G{FG)90b(nv9#kz;FhEpgTNUyLeqEp72*sphTA
z22gs~yY5(;Q%1>rDr#qW-#PSY7B%y8EUd(a^+kD@tnbgD@{NwOMJw3`J`T0F1=$-)
z=R*lCOy)7S5^OIO^7oLcNR4H>%8!?Pr^-p>MJsHX(w)GURD{6pLimz`9}(#86|w_-
zfiKa7lpt5pA<YK9L__!z#g)mDey9S#T}YwO&w-NfU)9h1OIKkZFDfn)sUW06&AwOZ
zCGMkFuEL3-fOAF4hCXzgLUH^+Z&g?ivIbZFjdZ$7obnaHrN=q%JX{l5;LvxFtTdjv
zlEX%DpJxUfF*&{@zv$|YoA+^oov|diQzBtt=g|oto$SehBR48Q3(qm&z0WW5KDbpf
zv#|>P73iZ=3%>7M03vWkQu_kjv>@tz;L-?07d)B3KMBr_s08IQ`m+PjW26xO19<SS
zLj=Ara?659Ul8d9v06S$B_CMP1}>x0z{w$V=f{pa8wUg-ubaIIIl%+J#}O=Bu>()x
z-$GSj5kTMfrZ-Mrv%l_$9L?FAuN$u!e^|Awiqg@+HA_>>^QLvx()G^n<oTca-}T=b
z{PWrO1FL<HeAKgV<@~MZ-@EX^V5aAI%G#N;Hm7$S&a@qYIN2Ka#7`#ZL~FwGqur?;
zhtrU4J+cfAHZ5`b%@I)dy)(I@{cGcU##@j5mFe%Ss{<1`Yh&!OSC7R9)7FmHj@_xV
z#||%tbN06DRoANG&#&5@xwiJ`;n-t;a%|l~)pvuI)d~or>35%+sP?0@<W%ph8nbH&
z$rI^5k?s%H9RgAU*jk=!Y5hBeprW5~cEQ2|#Xz^o1yKc7mVl_^X5h9GUdQ0aaQ!Os
zo@=5}a(@HY-m|`oV&%!e?A#Fm@{sFFweGoj@askf%8k^(EpZDxs=h?^aWtXuKZG=o
zdL9197`==Un&F8ZLUMj0W{GDo53!l31b<)t2EH0F`cskzS4Ma}zT#FBwP0Z&yq~B-
zZ&6Xr&QF6Y2iTZAtRRBFoEK;&FPhNrc$~aQx1&^3v%VSrI@Z&R_2`QnptGsO@#-jk
z)Dfo4?PD*>$$;maSj7WPfExm69Dz^#cM-H=j$F{15vzcygX=UvZzSiw?_g7xF+wUM
z5g!%S%U{EC8sKZe%p>aXKuIOu#Qe$))rdMm5%F3Ap<$vHW}KWCv5KVRRTlUJmZm+T
zR<00EB34Z*;PDVi<`3jw$nh#4$rh2H16Z*2D^J~D0hsW=fkXKnP&YkgG)MNXS!%ED
zT;3TQjXf0I8yWvZ1G&-hSoQM5vBlfgu5|@dX<KV#KB0iE{!Lq7V*Jf5ch!)-OR1V_
zqB?LYtggFSwOqBXP}&ZHK3-j2vtC76?J?c*H{!nAmMuA^BmPXX`o^g=GaNmV>vUmy
zdEyRc-!NsFy=i9e%4CK)T=*EBST|F)MlfcqtJU@zP=ePwVy&?wDO=Zi1!ib5!xh_-
zvh}X(AS0?;uc3^!F>Bh;l(W=jEv~f1l?Y@kBa!iSl|nc2hT^*Rnifn3x{)_ef_XzX
z0{ynwuJ$hXrkVyaHLgenxJ){l-|$|mf4u>2*VF>ZzdE~gC^8xma;BPBUR-)H=36!O
z<aX`->-zWVZw-GyXLcR^U?{z7BD?E}^sXl|yPjM%cdeSY=giGnGnzNz=RY)W$yHmg
zHZM2FRjbvVIZJJ<eR+4Twd1Y&8}*6dB%Ns;T0R;bi`jCH*6V%O`r>S2Ectw_FXPx1
z9m`qUvR1U~Bu*v{CaaU%l3-Zb4KA5?z7)6}ZuFG4nrKg2|8?I=`-<niu3KY28-U4c
z?}~eFbS1`qG!PYHgR!CI#pKDA>Xn-0Q&Cl+`w4B*n$)DacKp)3^N!gP4g85AXSK!X
z<%4gG#Z|8#xs3?b9;=Q$cFneYEY-dvZQTJYRo#*wz3-Rit#=A@;r*q#cYPaG*R{S=
zr)zohiFev>JhM(g@-GDP_;-Q#$NtW8>+pLo-o@PY+8SN+TCL-a;Ww4Boy#-pN_hW`
z)&7R%4R6f8Jh85ZcUZBi>ennwPye<8-+HJT+iNG6?XNl_nl)?7n@Viu9U;+k<GB<w
zoVJeq#S<Cp?uc&92GuM-{pw^yzs5Kdt}L@FZES>v4(Ckf=%J+-z_@eA)R;AOr%l}n
z<%g#Jq-CY@_8?e)YGVUwF#c@Wo89tIddov(7i>A2w)RJl$9I9K86Qa3ZMkD-?l7*z
z^U1-R^J!)q>}spy>e1z+vFGE1*XCEPop&sZEQG9DT)B?HWP5Tb)v-N#e2wXNOMgTE
z&PY=CQ`5VqTguGV@l4;r409-Y<W5s>wrOj+X=@TJkK3a9s4~jJnXB%C!%6(zFJ&4B
zqX$3HQ;n_!n>?6l*d5h=)Ve)+>6Yc)7jIq6v_2ZG%9$PSK9^}8fA_g04L8MXaZiGd
z3qJ@YpG!B7r_JM0ea>8aRllr{4Sv6JeHYcb``%v4Ih1s*_KdF9e>2@PdP5bb<Ab*z
z`{3-~xPQ=^>KTnxrR%@>k-@fRta)W(X(H7yl4O7Cd)IeMpV@wF)%XbPiB8vBCvKeh
zWyiL(k%=6RPUVb_tg$t1Y>oG<8v6=wZ+5)Zd!sionQ7bkp>fx`n(EwsPfM9?ON)4~
z&6RX!OnXz>y`SInDJg5~rxaaj6V29jB|QJ}-Z*gNjaNg<p={l7x^5W0R(ItZJ6}Br
z->bX+*QZ9R<skjLyKu;#q=oH(27f#{@c0huKku=ftWf-YZ`H{GZK}n1a!8ZvS3!Jx
zhwh|GnNiXhSG1h$RcD+u#2eUpz@w7EEe46Ja670(Xe-=x0|OE;^Il*~FE{|Ho4|n%
zo<d!zX-!r(y-d>^Om4;e5KWX!DDjg3${}(!8U)3Hm;eeX;F>V7)XNH4UF1|x1nVA!
z>uSvOJlu&ngO`FpC=YOOPuNGn5PbjiPe41`H-Mbs0*f463mV)yG(tqZ?c25uZv*|!
zUqbDo{z<&ZLkKkw0x3FdqLoV`n#yTmqh?3cd(U&;3+_4S!vjfF5o8iMKNhM33Z+o#
zhS#ihG4-oQBL{(ARoh}}z_MU*H+QYow5K|bWNMD4j7LEntL`q%xMQ+LjGx~#QD(=d
zfbEBKHGPpW0EmxeYI+hZ81~oIko|=K+EnUg!yxspeN?C9Bk)#!g;7a{g87####pk(
zLd8+Iu_lXZFN4{!tSY6rLqPRbvWkU#RuKe7ikNK-MbU^YIIv^QptMs2q1Py!5eGgT
z(56rnZ@@T8vucDbCkC<_dH;aHhd_oD4hm~0?GQsOtCe!lV2sXZQf;h`^zu99M{!}C
zf?MUh4TP(_f%(f@H-fphc-@87Uk0J9jG0*zQVW$KjZiu_26+T9H)_6B?jO1+OQ!8}
z#54@zAsH20@pVTCHOOUPwZ7i0{61xzM$dmxQq*w{E)kO()X1+F)QWiPTfR)4*Qb>z
z81+m(klWg*Y=b+}({S}~0Ph)NB?2gVcpo}9mFRj<;|Sl#ZyyjfT}hP%%_B&X9Nu&V
zyg@KRp)G7iE=@E`B{k=@M@2o*>C>k#d8Yk^!q{I#2cQZX8Xg+nkPm_`T&^8J$11;{
z^A8BVAh(+tDZoHorD^Hfbs?u?H$$|zFAz0uzZZU)pdW9HBl8|++RnnAqBFCz7q);~
z+rZ$^Lv8ZZk*BOg&1-L6*k@)SFvkp))=%aWG-8E3EZbJ5y|(_1Aon%C@jE!ANh{FZ
z&vZ*E(u3~JV1YS=7$P?%Nxx4O+JWK!Gj<P`44Wp4c3-y!%B>uNkK6}(-w1FR#ZllA
z7l!nxpYwpb9w<~e=KSm;Q6}eiDj6!?J}vB0&sh+82?)5`$;Y6mHwlpIVjl9#6ridH
z;SO~#bG#3<cjN~@;5ON`2aXZ^;oUR584DX7n#WeKxk9&yJPOC+5<{+l_mupW0sk)m
zx$t3#f*r^47A|OWW|&zxilry4aH3m-r@?8l{3o)!4~+6tLue=3D|mUtg@Z30?!2}g
z747^VKs3R>2=NBn0N@_Um$VBK1?vzH6GZfqT_|tyF@VK~CKewBu|iDTMD6_<C`QC*
z0a=s{Hk}9Qg37BT%Gh_}$Pv^+wZy)YYCZbig`^N~Pt<?dHuT<wycx$-O$SfGJWBSN
z;^Z><Ns@9d<-c=apn%2yeatv6X9fSq&<Rkp!Tsus{J+H!|2<}yQJIm~sJPMMBk4}i
z?+VHg&S*aZe~7?31aN~E;=E{()|_Y)L}OluF#{KDec&w#ng>7Jp3PS)poTZU4<vKh
zpF>9Qfw!~DYJ1M&JiZSRa8~0qWwyQ&Tnff|Gp5c&^=(scO8a=K|M3jOrrtYdE0F?r
zXUts@b<SXZZ7imG^+=pvK7QNKx>nP;uAr+A(|46hOVv81BrbTi`j{<VeXV}^L_~L|
z){(94OV{=#j$~@LM+_j(gI0lF+L1Lhfs7vWt{U1veIB=h0HTgJfwT_7Cb!~w*O$DI
z8hj{ic?bme5$GZm9j2;kqOD6$#VT%BwyZTY#{#eKia&pC-|dFOP{{LcU3PFRJver2
zEHijGHE=lc$Xau28aGL%^=PK~XynANEiE@qYqbpY**1=SuB(AQSJ!~3WNyqW7nYv_
zIjycCHoCkR^?jnGZOon8)=$(5TN?mC{$T8z(dkbrl(r6#pW%HQ$a1@4ds4OCpXgM!
z9%Mjm>kg^II;y@2q~eO`rTCt79gfViqE0rY>-OKW-r_#+{K9wZLTdE!blu~iw*UbL
z2MIRGdepf@cg0>vTY3{uBwLdQ6Q|Oa-78Pr>inSf7tULKseKb^%S2@Sj>!@+NVm4K
zunRUYthi6`EZ>cMO@@^)j%fQ;!d-Gx@x~>q3MoLBuP*vWy-edB5g&NvmHGu1y@$3T
z+g7kdOlhGPn?li>KCEIj_)pgTqu#xoAD+xagXQbZyuG6WJmOIMNJ2;(Kounka$USV
zqy<lfdbm?kCx0tGS#5|gvTwsVzyS7r*M|D=ypm9;Zx^X=^y}6a(n4<=0dwlgmniW=
zDcpuA=}j}-b6G53^8UV;hbw8J;Mq~q!oLE$2Hdr4rv|~ux(GKTo`G3_dH9=xuL6i2
zQUEct3A`B#)|PVC6JVkXK7_E2nwR1Cxx$(kHH&mX1l4(v*gS$dU&g}_wu)HB@#iTd
zL$yGNHrPHSlO!|e@$mo){|glNtRGdkNSBErQ?j$<e_{u+F5vGw;E!+36iWPav7PxY
z7x`Pn%o`NJ!fw*ZZ-FBC6xc^M@`?xz%pT#Uc9-X-@*rh7Dkw5i<oyt`$T<<C5Pt<0
zeqIMJf=(zHL=GbUY4AhRy(0f6<97Gn#5Fah{wG8YrnAwL7QD2|;7?)@gYbdNVA
zz_1Hq2@x&G9S3Ro0!*jiV#ZLs$H_kr{09%_oB&vm1pbe(7gdr8fzV0SEL`8@*C1Qe
z37)eY{8*WX6?F$MdO7kFVUj^Z&Ee0ZNvi)i!m5B__mevbl40V9Sg&-;fJgiXCXtIc
zQDE%m|2@8IB)VFluh>^n0VKNzzUDRi#8igc9Oq985?%cz<UQ~L{$@h|9#Yg{iK03v
zNBi}bYb^;&2Cny>N!JfXbUA}Hb|P))1A>{W*}bxBrSH}=Df0>Ns7JD?AY`+%J5qJ0
z+ZoZUE3`V>TD2|ed#xpYY^}cOdh@mBgdtNu64iXBq-t70$KB9+z5iPO4_!+~BV$q9
znyEh43C1r|muLZhbXi^8k+j_G{m{B?t-2w05KLLsJ@<cJwQl<r(-~9c>|I&=K-xa=
zjyKuyw(mpx&QFw7Ygefvmrb0!F|}$QENF(`^d>rgJoTY@aJ`Oda3a-fPHCGy8-OlG
zTmJDkCi|z98b$*8z(<xI$(bj>$^V`jc?2z}+#`qoaoqr)zYx%o^Un<94b)2QxJmho
zDlH`6H>t<%74KUsFx{X#NGsp(u#fLmzQ0!uX{Tah!r8F-F7zO-D%zgNZ!_>n{ot2W
z+@2W_8Hn`@es_u7o{=nEI}vgpM(-e`5uFZT>j19>H&zZ}{-YS79)(;(=D&rhDU5!M
z5mGq*=NP3iLOzVgO;h$dwq!Qj2A{E)!ml9u{14z)lOFzcOWW)7FCB|oqE9Y2WK<pN
zDvj<a4QzzEDk9vav}z5kc6;|rC!!}~Bg>N+Ro6Y0M%@d1l-7`~s7qJW#ky}-wEk9O
z*0ta3Q0pA`sx-Rh_;dFtczkMB>gw<557Y3IOiwGQwys=P?<W<f6zY9<fR!3v^2IvR
zRn6;a%z>4LpKS=FE$zQ05TCxN(yMLj_Qz<oH8GM@-rTiLVS2^7;(f3FE=jMSRk+m6
ziS~609?6cR@UHVSOiDZnj@DVvlVw?fG?`}}`FCOtBZ3oIC0>PJQGH3Yh|<g=+dw8C
zk1r?y^0$TXsEQiEQE=0XSQ|w(4;svi#DXc|6axzWF6jq7c%)d;Mj68tI_F7iv5Ki~
zjL?M@ekcq$ZTN|-{rvxgSL6u<TyIbs(=?dE=)QlT48NlEzoJZ^DYUfWGYX<lF#2r`
zMR)ucs`ekKnqN_d|4Oz0T4#+uozXSFq`9Z5p}SL#9jRSU+@m0QuXjO1H^-j)Ern0g
G`2PV_&7+zC

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/async_utils.cpython-312.pyc b/utils/__pycache__/async_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a5607aa2e1c789e78084fc9d2db3fcee145016f5
GIT binary patch
literal 15951
zcmdUWYj7Lam1Z}(8}A1}0(_HdzC=NMStKRO)XTI;$&@AfAv(6{NgxQ_lt6+2-3^)&
z4J3-~8dC|^g5r!tO(qfT$&{&)Q<iI{YLuF(UBC2jwzd{9<q&Es70s@9Yg4r~1)18h
z<;_&>Ik(XONKv*mvp;sP#M`%TpZh-dobR4{@E>h9GX){Y{y4C)iK6~1zG#7bftRHb
znxalo0yRVlw4e*pLo|8nhIH^`g7g?O#Eh{+>=-x1jp>K<G}5s_!<cc%IA$6$jhTnc
zB##SP#;iluG24)hyz7JZF~^XDqz%D>G3Stzq>aJCv7(_Ok~RfhW9}h0P3b7nEtt<i
zUoZ?6!@E<kWZz44)NV?!zC;PObGi&osbClN!#ct75<668qJ%1;Ks1ZRV#%<s3`hj0
zXccr*21pf>e3Mv$`RdnUy-@TLH&iaTL{@N%=3!PShI%T55_m5ZE8)Eq-m8Q%(I}P(
zx=fvg@K!CZ$+nTn2kLU5=7owC)HRtlS)mfX*B;e*s;5Nr&TuH=3xs6;uoxT{C7GAR
zpf4f{d?d{K<f9?~VJRF6PsqGKEQqaU^Wfot%)@^<Fct{<Bt8&=FCo7;9>Efk!y<ox
z6bpn8@MB?NA_#^4fU`8<VHL-&{>S$ZdUrmu@6o+|gMGb<v*(~3k$nD0-*aLpvNs$a
zSM<9kA`_CRu!BB%)WazD9_+<#F(gX9NLW%#J(Ipb#CI?#D#o3@U=ULtonq`eBKjwg
zpm6Z8B>IF$!{MNo=b;tDxKD}%d_hbO9vv6I<C7q1d(ap0AMOjm-~ypTkYRe%C;7(q
zkBfeVepI0c{n&LaWcl<<$T>xc6!0g7yg9^}C|Grupo0}-L{4A@4pvnUtEv|aFHu7V
z!3eQYFo~uSmsVZwDVRlzz{0oET%MK^Euu}di;iIiIR@SeM3$r+Djy(M5nj>@7FbuO
zU|qc)!6p_0Z`gsR=x#I_4t4?e+JI;6&?gIwqY%otfk$C49OXQ2rIakmzJOl}AH?|^
z43CPTz?3LW{de+3W0{DS&rb#-hxsuq&_YVUWCJhp5FVWf24#L+4B-OsBCdqkCW!a|
zR(y6slp``fEQQB-9}jO6BJT?cJgG#Kk>AEhH522=ev&9m_(eYaoG2Xz7HH*rfKNk*
zf?`XA@C1J+YalOA$f7`MkyQ>Bks0|Qa3e2Ad`EFl$m8LV9C!|x89S}m$9zY;q!V5l
z2Clf&G;*dl5*QQ16A`bh=p_+YIW*vBwZ()dllfcv1td;UQ94R_v!A0nc*_VLii$Gu
zmJu-&6@i6T!-!E!<(}s<NhrZ-xd95^^xE4Ye9P7maccPj{g&=rrcIzQY57Mf4>Rxw
z`~dsHf&-omOQRqnJZ8m|U0Mm*S#m?97&04QDL5oXywXG{1at4jX;e7%VepbAloh)=
zd7|Wvz%G|13zj!|#mpWCQNhY$a9AqG%CjxVIFC60Uu|oPjE%RA2gX|>J_%ZDIWp08
z|K`yyu`L)l*fxGNayT4ndoCCpYnzA!f^r+_nU|zn$B!yTuQw2arSeYI+>Mo6H4+}$
zlplfU7?rkC<#p5Sj6GG|Jk4G;R;21T<Fn>7cjcnHCFyQiaJRvCbJ|GR9BBh(vdvf_
z-PA&;Z|SM><_q-IvhHd2-`SU-O3I&IU3kHD`!W12{S!nFQ#5i1H3I3CVFY<-MbOqi
z20Sy8<$xTKKu2|&x{9$tljVdQ&FZa1*=#v3%8g|CBd;9P9c6|Yjf-9c75+T*@ipBk
z=1(~eMiOOK=Iy7ts2Mx_>3_vc(jMJ_qE|QnSx%~gsui0bq<BR14y)?Gtg?=GR6MGf
zy~tpMl@w-tBI40YHCRMH4sv2VqUc8_fh%Oi2K#m*7}2U=uq>x?Anpp}B%YUQu_$na
zAC$>AaD+;-5emqMAo?HFm&d3SU;n20b@L*>ImvHc;Jc@7DSP3G@bU2M;d%Xny=|IF
z6}V10PCDjTq?_NlP;lQgm$Da~2pkX07S9#WS0zfj7VMiBjhhq3%_(>7qN6rptW7hN
z>HaTMj@qx}dT8r~9=>NI{a!8Ivw?lD&V=b^x~GGEuZ6>O2MzHuZo<7nxaogF;{P*l
zVurI4X(iu$OI}hnh|~yU*SJHKS>AvkOD&KswPMtU(R~ofD>y>xfXt~icNGt616#4A
z2+{uqRw$d>mndytuy-sPI}*l@WsK07&j@RJI_dXn=$`x7_i9a;ZlZhI+4q_`Ot;ez
zD=bP~GB|&}tU$Sd?@J*N>-QpEKz3v_1jrZW*r`ZX!i;3~3)Gtlnk+g3x@|T271iOq
zK}`Ui5V{Du(RHv474S|#j=+v~!FQBWt4SLsUm}GXv$b$oi)`OR33@H>XOv+0IivOG
z1?-PS>t*g4%}TBq2Nc%a7cDj7&{DZ)lpe|I(7aqun<?#y9J`<L7^g;eivW@VA!l$+
z2G0zKC6apx;6;cJ0|@s;0^tx3(yEy!LJ*OWj}M8HW>sYIcOW6C0rV&z7zQd)5QSC=
z6^pbMBgB*n7lwu<m8nag2#toqllg5$01<cd3f<~4N!3WtfP|GQNXf?#bt#1zxT6Yb
zRh?^j>Rupu(i$wI_l+Z>Q!E)7j-AVFLkXp4Zrdp)zb~X#t+4*E6ux60t_S+5y1VYf
zoGR!ALiz6@0!3}6obFTBlh(xoK3Txe6)hArfXuZNOmDlsuI+8xS=%{B!rC?6dt&eL
zy|YD0Yt<Z=aumil9Di=M^kYX&s&dU7eR|j2p=4!C+>|P*SS)ExmbA`KoDVFNJaCe|
zQBpp;;pB63r5~4g5(SSWTKeAgU#WR-_}!<jJeFvBWC5~DJbA?yN;byXl(k^dx+ZB|
zvuItLw62|tEH-u}8@n#B3ys^ZTDPYhu4$`;qMpbjX$Pd1ZC(U@FT&r_cG!F`XGFRQ
z03@E8R|bvcL44Brs`yV}`^T6V3yjVjqGS3f3$Y=}L2NuujpW0TOqHvF39WW0vC8(J
zf|4;)B)fH^dTlEJy>^Dm>+mSFD!mak-Fy2}P+QC#HG=>Fq$ts$ADF0!O{;puuBCF%
zub-``S%W&+d1F)vlQ(brRkwXsgur$;u1b*=3_ziiol(Q8RID~vG<A<NNYA_h+@O;#
ztX587Mqz(Qe;q-jP6Et!v6jv~qhQ5=V*~q3`V~56xyy>6%w7?I60!P<5VhQGK4aDh
zqC66!Ms3W!)OWu_QGWvb5VOVXQTqr=lNCYZJ&B$viCRYx_^k*UMK5*2aiYM_1OR4#
z*OIB%5i5u~q6JYK4&qhajE$vY&KTy}N9tBo1h0_>EidZSdZ|5WYUU}H3I(J3s9{()
zO$~!B>LpXG@ZUUZg<mskh-gTN8lzT?4(1K=$-LQPMc-oHRvl}!C~ssQmWu0U+PW~V
zgqWUrv5tylRpUsZ){oq?o|0IadKzi_CaELL)6^sl0RIcWjs{5<D~LHJ5%ddC4=8Fi
zK$(u1D{6!hfav=cYwm*4HEE@D&!{V}?`v7;g+Rw#-*?UU)#oIw^@todxT)3$(Q*Oi
zD}Q(_XL-<6GngDeD~rR!0e=8A-qF?pRiUCTU52tz$Q8lg(l|taMxUZ0Sz#On(VSbL
z6S@<OpE-oA2$hhf(#04Zb(~#I=tgzJG;Bi#x8X_MOgW1a$i#H}p*)#PNKaB{=>f2O
zF;jtYa!~egVC5nwAQj;%^thrMog`-?837xjhhv%Z&eouB?4aP=KDF)cs#P^=<Z1lY
zt-&yyf#mIwP>Vkg)ymr;f|JnoZ4bO#a%Jt+ZI9hzbo=PyYug@sr|*2vd1=-@%bu~H
zw$DAAENz>AaG|s<vF))XLUVhGLQ-<FKUvkT_Y_O_Lv892kVR99YFl7}Vn{Uv5Kv+y
zmKIneX&X>0)<M<g(kDrfg-l8&L~(!-0#5o_yMn|cwMh(3K)rCdR9GP#5*02G5yxc3
zETh?i92q549TG@Ppzb?@)=fZUiVX=w?bYKZGn>=aQZp9Hoh|yXxJ5mSdV>KuqS%)m
zNM*$+fR!p3fG!v^RwKo+Y|@8Aia{+SD|A3%;4rMvqYC{T^xPNm;ZV?0<^?(i=oDI%
zQNSO-m0lUh!b@A=^HkG4toajAKz<5D@|Wa{bHiSkYVZ0x&pV#KX<BUFmb7}Ncg1(j
z?n{+a#Sc&KPF2**uA6>1Royh}ogM%PbZYA4)Ttkw{J}!Wy7|t<rrsp{FX^3r=(9q1
z{Lrh-bFRgj&SXvJ$Az7#^4ht<H-}yydei&5ccEcZvV2qAkSZ#l_5EaP%2k%unVjX<
zyL%S9_awXbq)MyKm`<C1W|?~u7->uK7nE*eaniK`y0U9-Us_MOD^Cra9GKg5)wMq5
zs$Fz>k}l7D%T?FrYZdjW(z?ac^~uup^P8@gw%;nDii-35vQXHWuCB1P+|*O9s$Uk(
zJ^7cF=jo4YHe6rZGB3OxIvcuhD7p60E5#7SA4%1(dvnk0dlu`rC+oMTN-L4i=N-_e
z2JF+C;`r`cMyjrPe&DyYTTbg|>Di9dn%Xl*P9ORCRBH2%|6u#I?H?Rh>mK^G;~n-q
zeSX7S&)l=~&etQa@4n!e?M>D_1W@$M!0Cavwq0;7G;RN+a>q>rRksxY?tNVsp1(!u
zYKr6iFx&>uoxL!v=taZ2dHV&!Z|fg8ZJcFh_viYdHZkAvNo8A_qZ)eXn@`e|qbSw9
z?RL5t=Jl&vcB*vEVo6i7r0H{tc9tu!91J|aN*BNozgn_V_5F0(3hCQG>Z<yjVr(s+
zR(Rq&Qx(-`HlN=7^X^n>#bT)^S?Zau`J}Y@e{odh`v09~fb5U*-vWod=-yLB&(aTd
zvZs4GAo;$n@u6<&{Z9I!F82M6+aUcxdnx39XzeNJucj_m()}*>VpRjAFEK?J7Z>yw
z8!xTxal*^xF1o*xy}WrXq_3>O&sW+RD1D`ihMKN)7xg=tk8GIpQ2~u<CrP_#p!}%V
zfN`~HPdW2ZqkE5=`Dj}a#J?%vfc`gb4)T9fj`YhE0m@f`&gTGOtLBz_#^#87Kq*9Z
zfW}#Z&+#}4xhuohVR9&OH%zY2Lxx$L3G{cv<gWm-x##u?CO1S4Sxi3qZ^YyVO^M!t
z$+h`nS4GlUlLg>yZdHmr%zlqEL(jYdtGoK#WD$05)qrv}tWB+U-?J)?X3qgvVOTi_
zF=HN%<^V}&xFrt}n&5<F`bH#e8d(KN!+9tJX8`L0A~Yek1KSM5PXUs9|63qJ1`*-R
zDGhx=sb`>6tvVWtBKXe|<udrs^o>1r0Yw&*Yqh{tN%npgdaB_+%l9oaPXqpg=L-DC
z+=2h@xN=$z|9OgX=tSy=)(JR~_F#(KQXn{y9>xf9iL@7^eHif=;R#8xstP`1phSov
z;q8L-7)Fm{v>zgmH4j{LVlJ916+5|iK^rCk6cQ?D364yZ^dv@4WAqG02QczMBqJKi
zhXN`LKm*)2!+<=)&X2IJp8z*xQ9w)k+fSc;`rI>%jhmC!`sx07ELGh&`wVFPZ>9W0
z3xy5y?BcpD$#q*kF5L2s+TQ@$f8*B0jeW_Deap4~Ce*a|f%b2X_s_;q_t$0gz2~Z{
zbGi1vRfNhuzwL#>E$MQLt>uPh$L~(^-6>Zofe*cJ4!l0FSid7#zvJC%P^UG8&{RcX
z+yHkuHT81?=Xd{>-+J<)_|Dm)d`(BduKY=9(@l=5*>-aSD$~Zzx6>}@=IvYN<;wJ0
zR+*Zi>f5)h_pCr)fwg(Tz1vQoqWjv|*`78?zHe;o>!jXqqx;&~_wVyS`h&7k$p4^Y
z`z{Cd;Rbq_js38FEu=4&6=B@W!q<!KG*DjbEZSveE*W%?bIC+w+RR|uMg!#~hiSKk
zxm4=jt!FN^7D0TO=HTmPJqP)hEl8>8!2FCzc$ozYbtKBMrQbq?SDyk+48QbIT~xQ4
z6-!`*+~pJK#Z_rIL9a<Y(3-2$7&JKsb}v@e3&toT=mpa-yPt|=BrC`eYJ`Q3tq6iy
zFlo{k>}A{!4N?6ML1IPqr0;57tYE>qj#@o7-(P_UHfuZXadHF9gY`BnjroFbS1h1m
zmls6YF9i<b$unp1ZQ|9#Lgs25>u3RY3PJG7;E({$3tqDQ<pbUP^Mlfa*tQGKVqz@Y
z7!XI`#N#LS<GT@Io&CehDDe)QRK>45fcLy`);bh9d;qft;C$q1&bEMEQZKb-7!wWz
z&&fVMYs6J8)9Nib65pjY>^-^2U#&eJMenl{Ft%mw9?0G~w}NAd81&|KwfWwA^#~fo
zCj+v0*Rr8-M72z7gUWWN?}%?~JSfWD*&G~aFY#LF=GWD#a<jJCv+R2xIjiwtYY)I7
zI=?IrWz>^gZ8Lx8dN=b2!I{OITia$nH+C<0z=*-+Ex}?25BmJ0*q3a*wd4w*Hb+Tr
z13WZ&D1~=6JE)j*P3}_6xi-ng!hlk+avc;?Hpin=Zy(?y2mA<#+Efg1so;x5B-L7B
zP&J$g1nQv~uT-VO7zHpIg-A9)MA#^EQ7d^M<Lj;i$n`GX62FDTk3$640c$C%Jzn~w
z?Wv;b8&!2@hE5M9)@{8YEL81G7|T=cic>=;hvuyF;)1(#+MIn~aJNjG|ItyFDym3S
zwViigU=u}K6V|PtxhiIR@lcj%-u^DT;Od(;r7Z4*rE1QTsO`G2=Zfd!t@|^DT<4!p
z6g`-*K6t~y6XU)=1E`>5>Wx2&pQWEd^fI&DdIYX*lqPtN&_80N&H1(^L6`qEMoa6!
zw2gJG2<I~Ia>+CU21@27V@wB>D2i8v+#MfH9nJjnumj{qhuCBM`30~kV)#OEf`+f-
zG+;Qe3dT^5<_|JcO6v&VGZzchOFQ8Mc$VlvcKCsTbqb5uL<&bdLS)3Tnz72NlBm8S
zQ=9H?yzrt}@aC*k`Q=dO$cVzhQuS$NO}rO%{KF?7{<D2I8LFz5EDkVg5GWK=K=%5B
zVQ>plT;$GQ4u?Zt)rUy-4T~OD<=u@yEJ+wW3lTA50kb}!n%E3pwL4S%H+A?wW8oo)
zplhEMSIr8E`p)yhLh+V_ZOil%5M3|h=Uj7>=h=m_jS1(*xC^2TM7ip!zopmNYSHDy
zxoB-jS{vqqpIAH64$9pCJ_LoEAhK^&ho}1k53L;f<Jp@Z?>l&4ho=Pn9zwn`(dz}L
z3a{#~2WhJpyeoXc%oiL;*bmuEAQVx!;b7Pok?No#X#++b7!lx$+7s4q0z{+KjcEp)
z`@m8a@JA$MIJlMuE10yNBvGUhYm|gol<aG10#auw(pMFxB8N#Bq2X0dK=cxIQ^#?}
zw2N9(lUmz!(^SZ90mxTYnKod`NUf<)lRPtJwl7&A@ALH>SNFLcqI7|SbEjMti>{WW
zt0m3gTj%}cdBaq2qUv~6d}4P0T>ZR0Q3dyXZRZ;<uow3K+Vt+G#OD5F`<`UUo}}sF
zB@W7^Ydg4>`9p7yogGV4ki5b!;Uhgl^IHBA1<7<TUBlJP?oU(jn6D>~^Bb4&ZD|*6
z;X2j9l5wI5d6{^?`NVy;6oCk@>!nR!zqjOuWoTxVO|I=isAm-`frg_r0if<tmK;zN
zOU9T=9J-9?fkT`O!q7KRBG`Euw|&N;rZ{i!<?S5lPl4ojNQ+kh$Ea%tOT70~|H=NJ
zK78F+1j&6T_r3ZE*a4q;{h3dU8-RD+{ILj`B!wLYY@--8Cou^(^D-L@Dho1SxFuhv
zUIwWo&^UK$Sk00m=<>efe6I)s6Uoj~#HfA5yQ5+KG!1t?I=J((f=C6^yoa0mlqmc`
z-zcCP{va63M-ky+ztMmUx*dEMVH){Bgohh`@SXLAcx^o31b}|48SqE^Y_)>?xI}ys
ziNoWa^{W1n+2#P)kZ$<UaW)X<bMA~PE*k_F1ma%_?MKj^H`@$44?r7X{-BuY4Ugh3
z<Mha)Q<bW!$<%AJflp*LysT62L3H_=Y_)0E*f6Hcd6FE5OXw)|2K_5N+<egF0umuV
zF6xSK9E@XcW$#vC;&pHjB25F8^fE*solzVqcH~hqc$HJ}Buq}@;EI69S#>BV!@+Y5
zoWw%@Tpd|AgkzZt6T6p8r*~39-v()_b_^C-&CBVV<uv~UHOpHd0<nJGQM~AANIDu8
z9F5cLb!X`;$ndr~_G4$;ygun{o7SfsMT?HQq@!;BsSCRjj=BX0fRml7+~%YL>~F5q
zINg#HBG6bkWVPdX4wP{N95|5Kg@D<#UP>q6!+${v9Pw>HMWqbaOaF!M%<$>qG==HE
zrT@<Oj!{kj!*@RH`SsKPO!C3nY%Nc)WvZ+q6K2$SX4wYB4TS5p6oM$92cp!u3?z{B
zI#}JP?iC7!42U7@?~0&thwK8{RS#uR8hAyAyrR~l!3jn&z;zFiOEOd{;pT=Z!Y)g3
zjBpCc6oH;rRm@A6jnO~jr%s4qwG8&@$V;(n#)5eLj~pqR^ThX#fA6ZTDrKyhW*3b$
zNn_32x`eTPe(<WX9rbIqDxu6dZd+ZDKMK{K0yA0;$$j1Kh*EgO+)shQ3}==EFqkoD
zQahTx&;;(^1!E){xDsd->*Et4yiOvwVIZ1ch0HwBEd2!DN%SxH0Z-|`3_6B$6DDm;
zIvN)op827qqbp(T`trJ^1Z@7C`<lZAHh<3j6|pG2P+UfxHZ{NnWdj3nDWW>(%YLXV
z8%&Tg0FGNSLhn_Rcy8P|j>s4Rilg8MhJv-7>YxOMIIU!yFJkaxkSIN@`xW~dm^c7H
zI&*4nwIjR6KOkMQ(j(U%xCJmL*o<31ZRRc(Tw*}hV2@XXh(*f)ud@sfYftdcW`}j)
zL{JY-1RT26fKix}Ud-zq%A6GejM0u2S@5d$If6T#gtxM$4>0;Jn-6k(tOvIpJwWc=
z0J)7&Cqjr7A?H{TGeOUc*?L&jsU=27O{6Xyy$MVj_dEj#-C!2fwPDEG^s_hz;4T1t
zDp}DXc-6)UJ%2ni_h!-uLyV2!@{_Qd5j=v-O@cQ68$pId&0lBQhVSf1jaDxA)OwMf
zkqoE74}lo`mjgmGgK$`3h{?Ne6QnZt?`(`A&J35qp#4{{KV4eg+WwsRPkAQqmO5$!
zY{5ymyMG$`3>^Fe)jgsPuO_~Jmc0Lu%o6P3*9hNqfwEs^o}Rd4jNeno$Wq!&WLz))
zWuFK>`}`QVW(VM?u>5C6Sy2M$2!Dc<`2hzYCRN1b!=o_~{QL#}FrX@^24D}^p=6Pt
z1jCNV%i%FGTM94^IQ+|p0oZ`S3VtDi#vfV5HBTNE2_QQf5QBo;jMz*~LgVBt!><cq
zt~ln&R2@Le7&aFO3E~kxJd7`9G*f83gbZJ{8bS%h)#ivlCh;a2z~5D<)-*5lIplGw
zHwjruE)4)zN$6dnaK4auB%-kB_n@#~-jF3!oZ$Wrzpg0U9|@0>LuNmjC4ia|Y8u51
zKh26jIrve8Vw5Mw0Y=K;7XKj3Qr4?MLI4jQo8-Lfu}H7sD~rQb)h3=x6&<vy_hI9*
zdKjR+3N0w?xGx|n^stOV633qj>H*jdP8NqU7|E;6j4Yi6TJRI1<bMwlxlOoLNEt2D
z_rLi4S?9-w@*CxKb3K3F`~^ju%H#E^!lL+Kym4k9Slq2ei<Y{irEbB}aIE*U2l}sg
zu0Ak$)%Ha4fx&ks&Odvhc3N1pS10Y&e=#xl_|J|m*gf+-^U{1*(%znUVDQ+kr0t2c
z&dJqYv%9WW)}7gVdhdMk+ZAUk&Q*Q*$koch#p1!^yQh2OHJ`f6;xsrkpzp$5&8x9E
zo7U-_WvQClGhJXesN_%f#e3pXs(U-Q8+0yKG$kvV-s(GFd#-<>VpG!9l`5~89h`0a
z>Atj$DlY$=qa5yZIaN_}rulU9FItc9neI708K>jz*PRuM&ibUY{+HkV#MzN5aGo-r
zH2&0_DlR=0I2m|#bg`f&QBd;*M-_G^oE>1MsPLqlU{-F=Hs3JXZ!Z}s`*&zK{FXdH
ze+ehw%DUU&Yf!o#ujtFJxk~YhzU-^CopRQGsZ|1Z?*F=uBr_dZbao`29bb{o{89cr
ztmO-?hjjF7Y+tSJ&*{E3`kyh7`b87uy=Q9dtJlAGAA{-6)?F6r{aU(jJ^OxL6{J6)
zxxQB22YR}%S^t5d1=F1@=HK5A^dC0W_wC>=I_SP_#)}0krd<}uzqp2m>MzzBF}<D!
z`isppl)cz$>g(n%cIhzZej3x=45qiySat`u%V@g98lcoAOULdV%%$!1yEm9F*V4Ni
zte5LJOs_LR{^bqa?rz)VO(eYod#)HY*1ZGLy$GXU0xgySH-{)ts49F>eQq`Qf(Ew?
zbO7RP$TzsnRDdEW-UQHiKc)U4W@^*Ua4;zPBRm*$iTKfe2M4D{JlXMwwBJN(q7tnu
ztsqs%<s(4CzlNrWAdudG)H2wsRQlE0z4+U@%(*37p@hcM^|(h{A)(&*S?$OAt`%3q
zw&W_Ng_O~D!g|~qAN<5vj<B%e%lP3NmV#q@Z_B8rU*H<)m)UyVkLg<d3{$T=QPfDk
zLD%bk$u!c^P9X5qNmKApQ7iruj)*e}VJ<NhNqFj39GOmnK$Ba22mKPlISG&95<)el
z5Py0)AxZFay;k*iLb7DWuPBcc6FH-RnMo!tVTv9t@1aAI4L{by&rU-!C<72ua%<*l
zfn1!ZKNADXzbq0rFvY2s1JAFB2tNXZzDNk*)H4|#!ia^6ST@KZi<~B;AL0iBwPToi
z9wQWe(lLy1f~6NQs>cXmDEtO#t7?GTF8vL>BE!h=i)9L?m!@y(S(*hu8`|+H<@`O>
zyFm5+p4yS5cKn{&@;j>PcU1X*qqhH!YWzpmHtm0L;23?4wM_4Paqltu3;lx(-FcJ3
zIK4-&qub|P;B-f~gJ7s>xXC%`@{}1|-{Zb`=keAw1MfHN#j~#C;WT~&@uIg+`{HHb
z@Lo9`PIA>t2FzZ^(jAH7#x#iXj`N$B@R7E&v^!Di!94f8fO+n;y^gL;6;#hYJ6AtD
znJj2bGmvqED~k8c*3CXUyY}S1xz2>EG0Cl4;^0eqFU`@;^VRRt?{>axNN#v2O~Lz>
Q!NlYHKYH>Orpbi;AC&V&hX4Qo

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/cache.cpython-312.pyc b/utils/__pycache__/cache.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b84d3ac15d52dd5f13a3e824adc1bbbae72b44f3
GIT binary patch
literal 10893
zcmcIqYj9Ine!o|`SH6~HOP1vqPua$Rc-RTy5r`Ld0|^0VO-dl$)if2d?lp+$;hZZG
ztTnrALS|(`Hl*7PVm56=rZY7|I^%SvQ?~t3cBV7UOutwd#$Gj@CA0gX`%Q^SlkTVf
z{^wp@Nk$}Tr#)kzdmjJu`oI6@=wDk}oB~o@dLy>CTM&Lrl}c(d3rpRiAY2htK^5ad
zLJWx_m2Gib!XC0Gq>z-5Lvq3qawM8UO}x(@R}#&kW?q)!&V(!EO1MMrL`$e8(Hd&y
z?Q+}`^4J8;tvWR6gQgocW3`Z%w<$NUCZ$jtuQywDpG`O@sLl(5>axbP1E&3kF+d3U
zIfNS!Et;r#wYG6v5BhG{4S-Mw?{7uFM{`-NoxIhH);7&^deEG#=F?!Nu1PuQ`#r$~
z#gcMd*VutrG#!*n%Kk_^9vO>kCFPlje#$5vN^2~VPO*|QqD|^A#I#pRP2Y`7OvI8W
zG2CkwpJS=BlgB0}w4hXSjz$uidMq=6iJGYGg$OH2(TJWdDXB9Wi>D&$Xvr2H!FYKr
zl}W0oynz2>(VC45CMty`H(IX<nh+9IA!M5rgSJw0_<1dvjwQADXwY6#!r>&A42Mh3
za5#}tGjS@r!{L`Rk+{)wU09;I|FCN)otPM!h)rxwN7zX%z4dHn*Y3w(+NBM}V`D=T
zlj&2b<j|RTJTa6>$Kv`>G!i|f4Ngq5c8unk2L+wT{<^@xdq!j3#vN#-v~&X5PinTV
zike-MG})l6YNMKJH)`WjP8b(e>4H1tP-U%2lZg7`Hq~)K3Mpu5wpyCd;>-zW#gOZH
zA*hr(!zK}qFjZswX~&#Qk{U@zO70Z3YHIi;kZ&|<vJ>VO1S-@2(l%s27q19ue2p}1
zpAz1b1z}38u&^jh*`|cB$?$?ODO?u``Ldpw(7+wxa4Z>1hr?_&W&jsRx)vX2t5D%B
zAXzvXkLY?htV?JN1On$79g+1S%dTyFhQZ3LodD7a-Cv#;K2}<$n~F+z-hW3~v$$$w
zPP(h~a9WfcOiO22GFsss45*%R3o1CH)i))awoXHUMyj0md4a7(3z$ucK?L|Au8XV>
zZ8}X6;JfGNMt3;;RY%|eD`+IK5l-M~zkFc9KTz}!%zM_)DeL*}|4(<#NDuN&vkkOx
z&6XwNgzU<PV4OOMgw|HO^3p<gu-F}(_iUO|Hu0?n-ONw(cTh&OVG3oflzA!ZrHllD
zZKRBEW)n)K7LyI4T09;O1EKwB<-7Z~!44}4o-&$SKZxwh3qsjulY{v`E*zcl6<)X+
zE(@sMJb3HLkEC1A6o<e2In~RGC~wGbENr{FWl2D>>=5P6mrv!{+wm_@-)u-L%^bzQ
zl}G?6EqxnVRm~h1xO9rcXyqjvFUhK1b3iJk3zDU|o75&%CMlhCKpLC503J$?r%KYP
zSXwX1=~OxrXX`Lg9fgVaxbz+43xgZ+U7l3&B_NQAlVW3TZ9FRL5`^c4>$Xuwiv(@#
z5q#JXWy_hN8G8&v!N*eBc5CN@R^tH1=tQFP!abMgtv%Cw@@*IQEw=mbdD`EaoSw{Y
ze{av#Jw?yJoHAfAaji%}ffz?Ti^A87-jvu#AhWRbI3_8LWeM;NS_%FGv0`PRA#J1A
zZN}jV4M962Gg;GM<3e4MQ|VJ0<ElMi3U?EfRb~vb-Bv}7*+j}jCybIbcQ3YeT<Lkc
zCx86C(A7|}ZNs9k^U9{TH{~<${ov{kioQ+vWxLl|7VOPVj-*kLWG8Kcb`oq}CQBuI
zESWBO!r@3V3DyB=lF*tZWrC%kY15M>c^oD*%^sr}c2U+v88=2;qw@1nMpCGg*u5?+
zI$K^lwCHMm?eIOhrEHVr_4ys23HU781xG7yxbK!^V}E>Kby7m&O=&3(`qtUB4P?h4
z6|ie3Vc$&KCT1b>mQ8CRo2EM671buKNmVpOZH5(eaEs@>&>Cvy?aiuaj&Q*WIyD!d
z+^~eEy@b@cYoxBF(vMNxQ$l}BO@Axz$9~k-npXHun3Y;RHLYINtF~cxKEAWIaY=2z
z;0XDuyHfp-?{>{^v}m$wo=@$lnWY2$otmt5(%CDJMs3`ocGW_v8)_i=T=nqg{0_DI
zf*hiG32%fmN$shbr_1cAt_m1y#TB)XSdr$aLK>@D@Yaeev0@j8U4?TJO&scKoW9%G
z1JOubgL+R*eJ$!MtTE=yd}IJUD}mi!V7HI3%g6TvyQ|cV>N@nUR)f?7iVR@oHE3Or
z*0tQf2|#)`m6T_X9_R8mT2i8siAXdC8EA&{rpK~cYP`;+A$`D=>Yt(TFqdY^R?!Zk
zkR~0)Q@Y}}3Eb~CTjBCpI!1*O4qNcNW{pXcU&xaxs^SOM3K&t59k@(EyP=ZV4uC@N
z1Nd-TS+eU|n%mEk8?JQ{{u;cF1guAx8xcp?up%VY@N(furQvUlr-Bk!UTiN-w2v}U
z){Q)@wh9(4pK3cnl2xnqsk#fh?<iY;w`%QQ*{&Y^#i5*ZN9noO(V3GjITt&-@Ns>-
zqJO4sw)f78?K$a94_7<Ku8SpCW&-}E#&=b+!;4^KyA88fu?gga5Op|(eu%;{3Q5bI
z&U5xD8{0GmU$>E_2hX;^sM@MdDTlOZf(6WELDI@RP1(6+_&se2NDSapa)ra-D#AP5
z*!^f>2dGyzQ2Y!v(3wi|nMgdN8JH$^fG=BdW=BxX`fE^aP53SJ=tOqHwzuQ$rlPmM
zuz%jWF(-fG>Rfbt-#UEpaK3l?$eV|$GIDVw|7g*@>dldR9)HgLpl!7{{U0zV;c*Jw
zc}6$~C;c=XYFV19<H~dPbcH6uG-17YnX6CkMgu&a5m*~~0KGib2MVkmP;f$)C+yK)
zmAy#{BJ872v!?+UbTC4mMF~}lo0NDG%_T=TlZ0S^_fyF*(-H_IYY9_oVVPvLi#<zI
z^&``l5$Fio>Ih`5Lz~e56d4G#*u65J&bx9gi(dbNH&FBj3hlE4bKbzb_wk%;1|Tc*
z`|l_L*woAG7JU6h{JHw?5$UE!^7cFKRljz16D5yKAIa}8bli1sDBA_M5vbHTf)*v|
zpx?ktYUm49unMjgvwM#6Fem_rCIDYTW64N75T(E{pd!?VLlI$<=n3%HFtCwn5p`=S
z8J`Re!aX7v8PPLWx#2JmB4rNvfb%HxIkT-6zw`QYgh+Bd&I|V)f_FWTu;5-@bg$-2
zK7Dwp-WjUH1<5D<Fa1x0HJtj<MyEDTSaa&S!`c|Ja>*O6oFE)-cv5y8U^VCDK;J`~
zPEm?+&Okw02<#{ZcFcQr&M7+$iLI4HD)X~ZBnWwJ=<rv<PO;RKh@2%0w;bzS*JrEh
zykZhxr0ux*cE~xOnx2|dRzA23l6$_3|F5uv(QN`8+z>u6*crweouVXX^vFrA2B*9p
z!61DdG9%s?o*vFWdfT<i3^>kBpUbD;o4Ptx^lY9}jEL@Ox<!Hz<35Lk*WxC^wuFCv
z)+rSJw~|$jC7@eH)=k$SjdUZ$9b~Uy@o7z-rtBDFBTJM07blqsN(bS&aM6rr5}7#s
z`!iY~nMsUkERY%xkhu>;l4{^(n3$M`^2tansi!d_rW-;$=(OfKG#)s?5C5%WETf&+
z0-@H^kmdlnN3@8p1$2rb^mHt$Tf_8NGOF=CkSBpz<8jm?=|Ci|rvekWrqR^8i3hEr
zhU+33LDYVnk{e0(6iO9mgy?`<6AFQyl!y5aD^7_STS>I7Y)eJ(2B~@q1NA+~AW^M?
zw<oW@clzq-S?TXxAG+>%hI7&<F7IN`>Vovwo@<_B&rt60;+nqPflEgg+gIlffa`Ov
zuP~HG5Ze3@!8>gc4eOh!)~HPi{X&`;il=n~^U;NHV<Dd6*9PB*d3!}TYyZCRifG&=
z*%|4Kl8dYt9J;WEt53RCeTuOZLy+2sUPgXKT@;E7giQ2Qjim58oyNpf*=BDZ<XX13
z=<Z!`Z!NmF&P4CJw|)7sr|UC8L}zeo?!bbZx(ogD?)7Cm8vnqx#j7jV2!GkV+kR8r
zZI6<2p#MtZ!b69?g0t{57_sI!n(Fpw2ft<A7BNvH_l_H1Sko;-oGhg#RU40F;%V-(
ze}i?d+p8#Hr)fgk5JbqhDvF^}zvz!^79HMa@B$5~tYs;LpQ5qiGO-}2Na|u)TJAD&
z=dv<W4XkQ6-B4?eB!nKS;9+iS1>TyAJEM~62(iPM8)le$L;F$Y0(RYW^tl&GsNgP6
zy-cwO5pn^LI!!|Q6pqUD6N~=t1^>FDe_i4ES#8e0Zr(qfdy3o^)BXJE;d}m-Xi?m6
zxh}dczl@94H(iU3eNfD6=+|$=A`_{J8fu|-nKnoM8Cayxygnjo)h4PhHJCn*_IhrZ
zKui7nKO-1({@ue>Za_0nG%cT>OqIzEBI64Cn{ve0X$_(*8^!c6h@7D0f3hU9Wu$v>
z_wNu8-4Yq3Q>St5wjwuruaQT(sJIuDZn_h1zoV?KQj0T5;{bUhX68<a#kFWK6Wnww
zfE6o}4?Bwh31O<?me<K9x!ZNrDA^}6wF&{X_Xx&^4Aib}H?Q4Q);*}SiE5lQCs43R
z<EdWWBl;G9f%m+>u-`Bb@ajXZNKeyT%Tk?Uw+E%HYT38vU_k?s00LNYkjaBK9Ont9
zo#AgzCj+r`V4S5AfiVq_VAeqG3|woNO>-1<q2XRvO=s4-pI_+(5XjI1dji?k0Iv9G
z2w!B79#ot!P;|*n0(%nsF4-fh${y6Xn5357W6AdctW!{bUMM>Sx92ig=40QgxwS*H
z_L<D==-lf4^S%Rf?gJeCJw>HwL0Mf?R_CL4mA(f_K<MWrAcM>~1>fcA>-e8u>#|`B
zN5?6KYlvQWAgNb?PC{-v1=Lz&z8<f1oyswV=N~ey4<L(CNRstf=E;a9Z=jLCDRF!?
zw=5_IP69;*;ojZKg*M@!HgTMg>R4tIGia)l0rp2|$+lNlwIbKQB~Vi_DMoCM8<ZAf
z_hFz2_do1M0IKt5ErL*_TJO!?FlE4cE+EHb`NlD7if*P%SQ2dOK8mb0p1SODEm>-U
zY9<*6R{PM*H&SQpD;rJ4RZUN4JFOF%2Qb?I4rBE-$Z+4`YR#qJ*qs+I?p<{I$h5ep
z-Gy)E+;^2n4aTcgLN<)yNWO%^!x#_eBe-Shr32XSX7n|Xc_KF@JY+VEyuM;a@zN%`
ztEf0}e}Y+z8@Jb}v;kS|`&x&2KM@8V!m;siQqxpT&91S~)Uf{_X_iNjK|Qwm-bzd-
z;Qc19CT_QG=C0kEqI=C9cK~+?2=1)jyRAkP#633*=E;GaBk(^_pv(FxQQuiro&4He
zyr4`sMBxFUf~cyuTe)1IV5Zud5m+#dt8OEy7Gu3CR@X{fS4E9it1x5bd(H+pS7pxX
zH;s!vBc)p_rK*jxMpO8O%Y6h~_UzuHTp93K%6Jy$+Wf>uXx=RWeuWo2fmkQT0&$I^
zAf`p3;Nz2l45FVwOY~?t!scW6=Z}Ox7e~NE#F#H4`acIlG;Je~Y<W5(>f$Bel=zN#
zMHGcgT@qO6Z|s#=K;$Y5`rbD92>1E9u$c<vyz#i)JbY41YG)_d-fX|cJ*IRH4#!i7
z+w{GI7SKOq2Rc1kfB7GDi8bdPx#rBb&qQzf7j_>m?mm2b@bI6vUvvJKt^nq>_BG;_
zrZu=M`VN9Wl6UB3rjc!e_Spi1M6XXk3Tf1UA<~A~vuxrZo;xM%FU_w<O6}iy_Sx`r
zhek)AIuL&TsnKJHMxT1N<UX3g4>b~|JzI~38M!))E-LtacO_^fbysSNvkd)Eq3Yb8
zu)O_O0g&}BN5em%RZk(qfj{xA`d#OWfAfwYKy<$EocE4=?Cr;GQ&(&5U|A8oU3XS&
zEqb<o+}XG2e{RWc>+<0txy^T95xQ2syPXDIbIz~aJm0w`cMunUSCqGvcm3~<6*kQG
zY?}9O&dH13u6)OwXYHJ__Cd8JVG~^H-bdk~>X{T&FH{XdE=#KI1IwAg!-S<0r-TZB
zL%q{@@lr2;e6SQCuURuzWsW~ZNEPX=eY}9`myM^0V~lja5!E}`kE#3`W&0_^YQ`fa
zkMAGQbaE7u!)hW^UZ2At{SY!J{?@k3>)wdvdoLy|B{p+xjx^b}`_N=QqxX$O*&*=P
zg|B#IFn^B0)?wz+p!jsKciFosdxCZ=QRbzrmom~8C21^`ir4tx<k1+vSa^X-$0^%O
z8Qq~7HydMAI!PI69v)e-HY#!MJwv4|WzSJYhTg#1>r^66Wp7conX)a&YJcHCF9D1)
z(kS{EsEA)Ud}?cwcN99x0zR{k-#mKrz^#FsBgMy_`DlCbu_K>TbJ-_6vF|gKI`WL*
zI%c=?&#i6L-BI=_@<!^xr=WgLpR%97?aH$A@+)~(*p@%@_K!XjP+c+}eNig6auA!m
zi-T;>pDlK6{0zUR*k!_?1lge{Vo_d|AHa2jyvpoC33M}FkGEXT&~x$@vkRrNTNv2%
znb0cx^T*2cnTajYryP*v!8}9{pMtbRAAmYq7p0-gY)%>~_zLQ^p4-w8p9-ybuwIn*
z71+#^*It>E_7Tv&*=;v%AMUy>?K6S)eJVNS4g+S^f9;250oBVu20piZx5j?e_0jfU
zty!XKxtlLGK=Tab$8Jjl<{Sfjp<!wtE<8EoyLJ$TS=;Q<51VdF!zR%1rxI{YGvi}G
z&8XK#dG+Slt!=+N`H}R?<dQ)UQN}7|U~Hh!$3HWE`f18Q+0i8T8*}vMRRZoW`(!-H
z0}7u4pztZTigHVSj0U#M_-54WJ-j%Zra4-G`JGP?%D2s^gv)I=(T>lO+a~vZs(9o;
z;n<RZ&li0Tc?VZloautyC08^Rk8AuLKxd>jN}igQ!N^$DkRo!Tj34okmFEJ3U$fu`
zeY$aN?m!tXJ9APm8Er$WlfaamJfKNK?sP7LhDdS=YA47yD5IAKL)^Gb)c=g3qzoIs
z<=e~N0UW7A{US2lU5Vo74ngewjWBXo82NXh?>EBEd12>og|<&*ckWoe`;Odq-u7!M
zzxHBH;R_7vC<^{h9YR;&XD`hO?e`tc;^zGK3S%>Uh4JF*t@j1g?{|Ad=Vj-80iXNp
fqBe0yF1z6AD|-40+X}3(v*_9MIbIz_1F8QFe1q3M

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/collection_utils.cpython-312.pyc b/utils/__pycache__/collection_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..60657da5ddb5ca912385f92071dca6c010d01b4b
GIT binary patch
literal 7211
zcmcIoZ)_V!cAwc@lFL65B~h^~*_Kz5C5Jg%vK70sWhYn1itYGcF0qsNXt?x>yOL-x
zNo95^nFM`N5~D}OE==LlGX)qp1;_`gzM?96A6%dx^1Ub^Sx!&42yh85K-+IjWT1Eb
z)c0mdit_1tpE@Al&Yw3kZ{EE5y*Kl(4Glg5$&l{G|E-ab-(jJe{FTf)5eRueG!h{i
z)dYhkgouz3BO=AJXh;cH#FcPI+zC&_laM2F!W;4OHp%cM{1Ja55D6q2A`QIGWi%#&
zkzk@J(nMiky+Lz7qRvc_W?uHx$}PMs>z-eFAAt;*A|YPqtMRl7<TTOzcZe3y1^orR
zxgEIl)-eIUk3{SPy|!_#2H<Mcy?UG8?6m8ChyRgO;oGhSb=j%Yn)G%jHzsM#cce&%
z)}l98TeBWQfTO|-93kM?p|xr+Jfzw-eW%t|lVw*mr)_s;<$c@rfYyOB!YIM&OjsV1
zwH<fdkxp%AwN~4u?*=Y+wamHPS|`k?XuCm%iWHU6Hl$X7qf6_8_Ez53t-JKrajJ(L
zIY8<j;OK^R_2{9h&a^#xNb7}vlhy~a>;;ZJnZEFgS;KcSm9*4&(o`mNV^U|PVoj))
zqB31kCnt@#t|?YZiKPrfk6H0l((L#7E>FZw1%75c5jRw(#FM~~jOmjW@>&zRa=os@
zbtRF~(uUse`!C#(uwcvYm^vGY$1K~g>0@fzurw%yUABBuH4Jss&~5K&J*hL*N-<kL
zqnZ=EQhvjNI&Ah_0O8`v@vvxnIA=U&d(OwP*|0sAGn4weDubEan0>>v1F8vATG6CF
zr8Apew&^>z5Iq;Bwrez%PHIqiH-^$x6IcRI>pz0e1EP}%g|i}PG$Lw(F6l0=dr^0T
zz9rD62Wn+a)V)x4LD{FdH4j(~*2=n<x41Pg*nmId3;XSclLm<Nwmu#=EtbiC<WnG>
zP*|m+vI#NERE+pd*a`(T1nO5=Mj1_8im9tCHldr!Sc)krP&rd#IHGRykzhw~8!o*4
zrV=0H*%XV9$CIkzu;K0{Qx^1w#rN|rws=#|*lwm<X_kytPA1m@o;Uoj&j5Kqa`Z;!
zY(ue@9#wK9<XRUYw}qULBRA?tskBcKliq9Dx-G}gcTAw<5|N1Ist%r`Rb=>xF4Bvz
z>0*MVY)Mls)t1lcnb#RhF{qYI-56urpr0+q4AVrZL9hSw+JKdq9GHwx?zdDnu3P(W
zrH76lxjCc{81d18$&59TN)AjJMq(gs#SL>{!+N8<qJJ`D`=e3l2_}|^Mzigkwy(dg
zX(vo+9sx2#)<WAJ49yMw{Am8<TCk;{J&4c6p9FWWwe5J2naeDM=6>>|skiJRt-GGd
zB-mCk?<SVz9qZ7SY_0!2&;t4=Tj_s8N0$gg;{@B5;Z*Xoy(q9<P{lQ4;-)AH+YKK(
z5RF!OU{xK@uWF;M2e{2<Ah4`p=>F~5+r>+(!LDVwi@|o2Q!twwEE$ZH^+CBNKUxaz
zBe$PVAoEjLfmO4g9JOjTQuPKV&Cr~{8gq1(+^AqUbgZQ*unwzwK1rU8!6~~VgH?KK
zEVayrRaSFVOS(kD;>A<3nk3K#WqcX_>%&0)mYyS&Yx`OY*fRxbgd0%*e3~LZrw=G4
z_gW>AA%8DU(~9=l4qyeF6#5UaPRQ~ds95BTqkZr3aX`6SlkC-Oc(dxOitj&eq++UJ
zzS>`7-4A1#IQH-Vll*>$EVmq8%#_5!%f&sv2+xO~hI$q=e=t#PA8+450aJZ(6VTmK
z0iSKj0yyM?*`k`vunu4giyOAV_m0bWy<#B@H$J;<Yw2*O&7(j-j<164#h!=O)8L-9
z(DrZq&0zeFM9ZO`<v`E3!IssQqb2hnrWdDwnStzT@aVF9lpD{*aKM(M(WIKtqfy%z
zjXM4U@?f6tr&XiU;)zDJR4f{0`(R2IL=r-x0I}Vv(Hr2QY-u!=GFUIxqv(r-Pr>!g
zUcg!;h!7?s`yKL~AiCtT&*j=#v=&axPnQW~OM~n9DK}DA_kz1j;8QxZj-Rrd3?2WT
zcwEE9Q)T>=EdKdIdWI!uGMpj?|5|caa_eJ|*~**f?s1}fDjuAp;FzF^;74Q)e2wOU
zHc4|s*~`nGP5hE3bC2V_Ln4072Q-lJqfXDO*$leb?1voTU!PKqv}%FVsB<O=Xr_`%
z8X0AJLg#KH<9PpAOb34g-hp>Mp{bJ=1OsC%l^9kgENjvn9vA?-irq|sPaQK-)BUkj
zVn7`@G&Fc{aOlY3z~KW&28RwD;oWV|m>L6bo~a=NssztIp1O4f2zr(ri9*gvaX`9g
z?R;h`s0PtPv@(?Kit@Oj0&YXlZ4<bGO~sRO3xKV;stG`9r;0N-K@Y&Q?Yr~Ry@s`(
z-n{fTK4%BfKv)})P2!@cT-+tdIO1*z36u@vQnqw|l=-)IYytv%4Gdv|O3G10^D2A+
zPqm@$o1@2}^rzaef7L0748e`zp=Ic**d8GDTH~iF+ghivn%6sqtQUZQ&isww&u+}!
zSn(_1+u)?{pWnX{-22tG&Z7CV#Bx*5TIYeH_KU=PqI7bl^T2B7V1DHO+1axNbM{Si
zAlcb$v1j&!Wx10p+;*XD>M_)AHPy7;4K<)`3@EB?bzf)gRr8>HX`3+Z6=1I5ZpG_?
zD>rMdynd;*+Sjm8#XNR(=cW4%vkisV6S;#+`$t}b8wH}$Cf~N@c5e6|$4>~hgkdWe
zdyzU$0*$^RD%vnKKX1dl>U9*-@yTBWLxqtC7v?Uk2D_K#?*9iVMMF<IX2W$;CnCTy
zw1I?8bw<N$&eRLoQaJSBmAO~yf`*IX2G$QOYyimtBnN>&TnCtCix5sQ3>_S#N8{tR
z$$p5rlSob>IfSGO2}U&RFRBE`Gp_+bjF$l81A?n>L0Y&}dU0uR>HVd{iv!EOM^}_#
zxC*=a%CgI~yJ#Z%?_PKx(SJ9he-Bo{r*vfLwa0Yn^~E2e7wGxk4P+gNqiH^=?MtYc
zQ9Wv4M9-n4hFu^8I%IAocu+T6$sb2R3``wj9OUOIM>eb`OtXhirjh`;mV%an*CD)h
z;k5gdbkYFOhK9YSq8dzBH2`zo)*lww4`4J~Le4N{Z$QDU-$vDRWIqoL_~${!4EeUb
zXW{Ixq^IqN^TW&1xqmtIg>UuPImmIP+ambgP3NJuQXJ#Yt<-F)iv@{=eR-<If?|%0
z(@Owt8vur@U}#!Q1_CQVNP2!H{7k(G4R2v1ng@g^p5{W&r{+`7j?afnv0oi|+H-uZ
zDU?s=0{~|;XPx!9#^Mb1W4qvb6}!n0J!}!;rhbM)ffj$nYv7_<^9`uQ+Oi)*;ivS^
zE}RFsnsD<)G~7CmP}^!v#I{@14AT05nP?*7`7Euf2$Ume5+A3vE-a=H7P}xUCL=Z9
zv0+43EmY14)mjSSYuJ796ki`hN5n1x*|fKK9AAe2I-at+2pN#_Hm%!9h?T42RifjT
z=c8lXMS$rrd~7<!-iB`lq-UIi{1Vh;cf}o}jHbr62!&(V3AIrTg%2;LOI@E17uAK(
zuS30y=}I8HtsMekZvE^Wa5Dr>zBmTYV<-h~G8cjGu_MRz3Iap?%+Cdgz}^Es{F_&R
zK+yXvKmywe`oqgl{oQN9)~`K*g6D~+?JKzL9lo0_zBT*7li;z>Un;$`ba3&?lDXP_
zY*{|G=4~wWe$oj{t1Tcfkk#PfW%=;8Qd8lDFQvB1xiU=4_QfXB$(vC#p4Dr{1~U_k
zCwt(({w@&bp0c5Rjc$b;a6hcz3Ea>F{DzJ$RmjmSjL}iO#Wcb`33!VMi`jiYj_Zb|
zm}wpf#;0^;LmVdy&kqm|Dj;e<x0s9Y<l<s#a$M&+2F;?P*pGqOG``shSJuYi5@C7*
z{wBHuey#bop`~!}(^#?RXA=v)e{c9fo~|`E7rF{+@uj)sa%1nR-20tK8uvLn{Lx-K
zusD>t$zD-Uxa#%41cEo`5ptj27h>W#1a{Z_&b<!w0f!e~Eat>}Zi(D$kVs6tE!+m&
z!M6w}KMhEe4WBYp%YrD`!BizR#<3ON%u-MV_pEUMV-%yGyCqovU%|w-$4rl6EqC>a
z&1z^GbB2r#YTV3BHVR#m@He}G%#d%C-lzWI&s>G~{%LP%&nF{Gd-Ed;t|xu~<KaK7
z`iJ>l@2{IW+_sy?P$s|S*VKU6gvXYv;qM?*k4zh`X9IdIR2olsvYac)Mr#!<KwY5B
zYY;--7IOl`t~4iB+pynOm+=h_xGr}}V174X3!YDpDiv@+r`fAMc)n5IN%BXqtJe|L
zEx6yA{o^c^o*d0wzjpQ7K7|*+;lZ0FK5C7!)J@o<(G2gLOeOc@bviztPNm`M18+vo
zgICzi5VTn{5{?TY$k}dqS=8Z0&;^qv%&^2_*p3$h+wDxm;ex9jg>$a*fw8n<L@QD;
zZp+ZaJPQP1!bck0AGSQa{CW5MmEz8ohQ80O)rNgDr+(MmmUpemjk6}=#fseVYq@Jh
z?po;mQhu>4l9ugo-3+wcKR$c>?yJjEyMqi8ywe@Dkq%zm6fomz_%<&=2Ce=7ekX#B
z+nS^15^hU5@k4hG_;LcqElGU0!x^4S;DBoGh?1NHeI)3^FD3AnvvnU@-zP)ELUz}s
zX?0R@j93}ft!W+aqtht`mTLARwuo>SvBk;MB)~a(eHKT8w*p(3Itc$k6Kx&0rLr$g
zCXC6iiP6gGm;{Cy_?wq`=4)@@e%owYq4n;rnb+1f6+GUVpRBcR%ZvGuPrP5t{`;O;
zPeCeZPvsqJf2!?Ec?aL6aIX`~`Zt~uO@^xDHfIOxs{7T^m=oyY$z%Ak#UmSrPTF=u
z=mEIGd{~Xgg#maIyV<FZ>bC%nOnjGT4cLed%?X&nCs%A6&Dwc0;SV5Zu*kz?ZuA(Y
zF^rVhAQ0PSr6&!YdpcW;CoP89%rS{uH9L(()Zuf1w=Exco^4)b)6j~rV-|syMM~*+
zZi!0&9U!#-x8(en<os{Rz7?|XKgi%Wl0Sd)<MT80H`UBHu0Z~Bar;wO_l)ox%zu1s
zMtJ6Kqr-(W#mfs_^Y1N;7O$?fhMy6rdv>UucIT%HX7NN}YW9N#Pl<l!dq$wLd_<t<
zX;EHip7)mt=1WrPtwj$+`;agDL>eqK7p@f5xvO)#%LIxGS4!$<SJyFHZY6#DzxOuM
z?Q8z#vIyU=y$yL4%;a#fwW!XwE%d-K4)v{g`^qk8Ez2YjD!jVl?=EAfvX8g}`H@2N
z?CB4q>wc{17HMB$q}V)n8t3XOh4^Qw{qdnM=sypw96X8h_Q4&69xI-4Bw5*c5CuQB
zq&+_PkK-u!v9ixcJBr&Ey61P631myR9=AM}9*;hjR|Zb3V@<ikPj?pg6xqUHacX{F
UnLx2L%0G_<=VLv?N^Yh93uUiGA^-pY

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/counter.cpython-312.pyc b/utils/__pycache__/counter.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d777a0f84efbbcde661f770ea10366ea53d34f66
GIT binary patch
literal 2586
zcmcIl&2JM&6rb4-d*j#%ZVLH;B#WRFs{|KO3Wy4UTB)swa><E3uyS@bVPU;?XV)Y)
zsgy&cI-ybEP$fr>MEnE&A9`uj9?}&Dr1rwi!9qct`rhoW8`E%T)sE%gn|<@~zTf<m
z%Vh`*S9##9DTMrvAIX4kG1{L1*&vKC>Jo!U<V(V&Wy0jAQnbOKf~Npa?eL^JEu>!H
zhAAuB7NHt{w6DVCJGj>-24%#MSej8=W)hQUl_r^`Oj*tu3X^PkR$}V1VyH}GDWIt)
zS)fLGniP7%^yihD7uY;h{h-8yFvabl#=R*kR!s<#0rB7d7~luGK?1=>SdkXV8mRO%
z=1{Uo7m3+9T_;;~svyJlwJJ!_Ow;k4z%;|O6$yql#kbvAj&_ATrfIn)-#1Mk1?u|J
zo6E(ZTrF0e>I5h_X9p7twTqW8-MwfRU1z3Ptp~R&Uh$smmW#E(as6U^@7ZddV`v(O
zVhhhEqSL_j4+FejBG0tkN_txx`c)fwK6tFDtYzD<KrD(FkB;?U0b_$Kk~_)DKKd<K
zy+99IVYHEh8zr-|dy#_crKuMvWQ+1%AO(qMfrQlY(RI4c`|uOo<=G41uKiX-9Ng}Y
z0W6W7?4k9^mB}XE(X#8=)$AtS)`r)zJN<{68t;cKUFP8ZBAD;N1hNvt1+!?>Q8A8N
zI4*;BLJn#gtE6(<w}VD5@v8XD!@A!C0Llywp&Nx<IF46=aVa2E1x*-KD%%kMjA@oD
ztmfi8YntEGO0E~J$c`6?(DC=-6dwc#b8%i+w(FWE+zT!xKB{$1c#31K2|!8yhXAja
z$*v@;qnlQX0C{rq6_Qp)R`Z)D+Az=WWvDtV6cr~eIMf-PD!UD=t}3I3%ra0_3X_=<
zSDFfyrrIec+X~bg)L2puMw<1qH135Jg=x#Gp>=V3fYT%DF#}1F4RhCnO4+eu?>5G+
zdwNN5&gj8yZkO1EUz)Y`ILX5_R+Ce5BL^Q`v@>AAKP%b*OGJ!2S~B~KCbmJ|BwixW
ztE9%KUq{L~4O=hio;@F{o@lEF6@AXRXM1|AwSKSU*6gW5iev7Gn1?A-FvFh6T*sRW
zmC1^AH&jg*NI@1E$&cd!kp!5_&?lla5EXx<%ZHu1AA*hk2>_`3KlauAk<q5|eebiw
zV;i>~-TLM52avv*zn2Z>8j5O<0KBUUOcRa{D^QMd_z?h+q)F`v(;5Ta`U&PZZpB(#
zBG3B=*6**}|5+OmT7<G!D|bZ}Q(UOhgvq;9xj>*5V@tvcd}}NwEeVYh1De_a`z(o3
z{3UM^CDY^tIR`e)OO)IM2^1o~Am1eO82@XLT_xA8Lxe4Emu)YAwC$v;K2z7h7`@~%
zJ$h%vDrQQQ30o3B1^Ni@!5sa;3jkeB5&DDG$anh?Sm^QgX#ntGF28O(Ft9J)SiP}%
zemgt1c4KE?aO29OD|;&G8(KG3jW=yfy0zn%<R8`RH2t4@82T18{r}Iy%>FkX<{yF4
z{0u<1PvN$=eF`k}JwJ<3M8FDy+{SKS=;g!6!fN100m8ItvWjJz{1~#Z5JRoXEAZ+E
zb&hf26A0%JMiKDw+TX%;WFp|(>>B{k!hcgv?<%T#>apA+K%RW@3Q4Pvr21MCRgXUO
zUlJf~IbrOk6m|Te-y%RBpKl}C&F*LIAuH<oC=43PNg&Y!f{ZN^Ek+OUXVD{dm0y4*
g45oN<TQa4zogy^9m&(%NT>`K-Hblo?5&&`jPg{}^C;$Ke

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/deep_gemm.cpython-312.pyc b/utils/__pycache__/deep_gemm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9c6aaf81ce1d321ede4219d2246cee7d575ac588
GIT binary patch
literal 15767
zcmdTrTTmQVcHQ%y=^5Tg2=r(qAs7S$0)!BH0zwZPkSt_-m$lPsrW+WT2kP#TfF0G2
zwzOrj-imOgD#D2?W)mliVplD$e602(Wq)lsm5-g-Q5CbjxT4BBRdMBKEL{1>Pjb%f
z?s>o<ZzWEu(p7W&_C5D`?s?sF&-|mu<D%dRTHX#gx+v=R_+dO{dS>%iR*HH=y-Eqx
z7$wkxDM*je<ZT)=k+*rw3~zJL60(k2X{=)j+Cug*JIPyvj*xTA8FG!e$hRrTj4`C0
zJLDPjkTP4aBvd+9O7iw#S*U!hoa7zBicsZPCCNL3RiWy!YML@pmngw?pAs0+{-If$
z<=8Hfp7t42&%Fh=STkV~Johah>V;!_URbjvuV$@KDmsNS__;;bgiR>FZyBo-O#EKa
zDpZKh3DX|vQ!p*qDN5WYRGubZ{QjcQDjj;DD70FKvPGf0bZC81=x!Z)uqd=fhaM^l
z-J?Sf7lqd9(1xPWIs&~Q>;<eG0Sq+)p7%k%X-E8e#YV&!)Z3qj<!0f4$V|VcZ%^I}
z`Yc*LVG&pur$wm0PmQ$-2O;$dhahbe4nx{5G!$<q91)KdhZHZ>_qVY)RA}0v+`B{h
zPOEVX&9Isd;ph(STEs@76@ELlcL+Xc-zl{1(7t_#@}1VT(>!*-ozSsE|D7+GbD7Wu
zbMD${=Yc|w1N=C^8-;GtPb2W(2`K9pdW4=y)7S|U1>?@<k&B)cPKxEz()RL?dOtL2
zrQ!+U6pXMF)wPH^oeHPL8o>Gv>n^@(jb<hs!kPQlti<Wvajfngda(#+VXdc}lrSiq
zgF18D*CU)S-d5;?SreHA80)`p9Xm5g2?KvgkDZ-2c`q)61|p$ZUI~l`f&pcoy(96n
zv!cXKL?rftD9&CQ93E!-u3cgMQ+#+*lzlGOtFkD`Y-EDHJv21T%2SbOP+<As9e!SB
z1EJZ7q_EA+k#KOnxtUd_L|HUCg~ngvyhpsW>KNdIL4G_aLf$eMj)uG@)!Y}JR~;jf
z>!K2s!T_)ZBa@S&1i3PQRFcH7!p#PG1?ColGS3t*a{|nfn-oK#$Iy>o2;BDPV@6j7
z)Mhi3KB7bl6cvR^3KW!S%p#b_tfEb@36?zZW1qKr?P@hyJoNiYln*PTem*E(9KInT
z#e7L)g1K#D;dq-XkUXLktVJGU+vPGvCpe0lwiwXddz4Z@acIx9!^q{{0{x-hr<C6l
zQP{a!n1h~jBe@G<8r*9d`BH!^taMi(4~v}G6Kdz8vM5L%0IT+kLs$E5baqHMAGL~9
zy&dq2oS&cNHIh-SuMYMMx2qL;Rc>JL$`D7&9#fk*+<%;EQ$n+Cvw_)Gg_kBprFAZP
z;$+Xv39&607;l@MSEeH2w%fsAs4c1lf^u7SQ+>1ZDl;KPLR>`R{Xub|zUa32@~Rwy
z0p$yj#HlYz8=jUnZd5j{SGFfB+Y|2guWeKryI$IrEbUqweOh|*Ycu6JxbALDx*IcQ
zi_-=0ipKTwlgaXv89RJSHPF!rkfu!{G)a)+b*K)G3-ck7<5U;Ng(5;Uh<P{1-HP%-
z4I))SQ)w3_)sU!eSphEdheTMcAk|{|ZcK0l3AG^Un<Q8yH$ifrdR9^zzm&02wRH*0
zu8f27l*9+0S<9cB>{i#NnX*-Ug*mMg+%TyQlHz3fD}dya<#d)r0H8kxsm{?-3!O*8
z#mF^Bj&rmOR#=YUi`F(7#Cw-gY{q!S$Q;Hlf!-LSPTrhMG!+Bl_L>*&X)=Pnc|(ed
zH`%~MPFMwGR*uf17!n0G5=Ifk>e7QXq=(PN!ZV=Bl;C^|)C<nDmm@^<@nM1O5Ayz*
zJ7O@%Ub^<G%<__$>r`v}<rqv*Du={t)40P9+~JQ3yi^5+sznUnmeq>aKt^(}jt+7c
z1_!TkC`~0NwxQK>sGglD$4mYx8QGg9#IS`cv-PASPzB9e8SSGu^|g!I<6W<5Pu8@j
zYC4`%<~_CzN6osUHR)(w9ZxxqJ*Q}A_Xbn9&a@|)_O;3sb39|Eth>H;Q0}sI=3tUJ
z_#0;EgS&tA19&A)4J9l?gqn)ekPT*-PeaDu$h#C2edH;+`&rRNQ}d>rm^0eLerE+<
zJio6Z!c8z6ltlW<inr+!V+Ogm^i6$P^7^vot)bYsw!FF~uYDoBjRuKA1p4zw!V`hX
zs00M4L|BlfIqEz}DDNOjOjbs%f+Wftqz6hjOL?vSATP^Ee;UCpoF%dk^)YEJ1Z32o
zLT|3~a74+GsYd(A4fC=hhI|(nI(O=To0#n(N|XZ)3o1OwVowv1XjoWiE^H)*$)MQz
zHm16<&|X;Cm|}iy12-THBVnJ{K`2^6#izOiaXdQ7MZ$g&<Z6&#nCAlFfTEUfo1f|o
zgeM}TrgR9K?%vL49Aas!jIDsm5+=RylcymeJmfz3lsUBFC|P&xNjmnV-9ulSO->ic
z-LmR0EG74czOdIM>@2BJlXTQ1_KZArTuql&ePL(T?T3D2*V<~J!KaRk>C(zCEUtA+
zRnk(GsJ`^nayiYE5x!DsPBn4dHufroscfR)&u6cki2Wh$H7&GW1F0lVMS_BEphd&{
zZ9YKEs2mZDgX9v!f^Xqob~E%M7Ki~iHrEK~EfQ4(9z>;&y%rRCAk{z^G!+OwfJJ8!
zL?q}<!7#LLB2DvbSiA$XxDBQt>?0Owl)+xS*2B(-QdkViK9F+m>(Q_h2#JG|6p_3p
zsTGze5dntkht;K>g9`;@IS`(djzQ@t{A5&`pu%0dGA7#jGQDXwGqwz6w%Q09eNr>P
zRS!2QMWVB!K&V!&%6^7;c_vqi<Q=-jb6`#e6j`fVONeTgpM+{#VTXVjz|`Cd1KrI7
zLU^r%22v>$=0f~*MB<bX&+);)WElEW#IOuS$VqC8R&7QDhR}uu`;`MWP(VaPqB0Qr
zJZyqiyOC2QJ}je!%gGZ!{z`<C#9Pq-$ddeu1@r^%7|IO4&Fg?updZL;PrNy22gVO8
zmTdX{oC=QD<cZ!2B`f&iZY3*P<2EHLT<_8Iw1R4nJca<5p;Rz|YDeB8&opYmEzdMs
zJX@X^xQC2`n0zj;Ju<_VXBw@WEswI-D45=F<Z^FN7P^^}*K?7X#VB-MDD_6m>4Qct
z_s%JvyR_0^l*hoi1uH=O!^2Yr5NjT!u#GJbVk&53&x4o?AdWnUr2yj0gIEh7t~^L(
z0R&ub*;(5PAnrVfeV+Du7CNqI=en#AV9`jDL^%??4VKY-Xgm^xBVm}G2uQMm8qYVP
zmR-2Sy>#UUH_$h58SI}c*Hve>Jy`WQm7}tuEaT=C=kbWTm#}cQ79RLeS7~gnmJ~9$
zT7}<R*;n27LZ(&^AovCBtR5j1zLAmD`fp@mZxs<=QU_3s)QL$KCdV=9#-s<6lbE2f
zsG1_OY6p8VAVtEe8K$9H;K)9uTBaj`u%-Y@i2~G6ef{dy8=xV{mcao_^=MiBprYEL
z171-i=>+r*XPdoQ(=>0p21j1wM*4;aRWm0{%6YO{^5V2GnSh_%2^Jx!&??GVn{YI2
zFf|G0@CI`r!5lTxh6HnLgYhMp-VNqNf*IIgIugv;XO5CDn3|uQOFK$H%^vPfSlA85
z^RRcZ_u<*avx(a7CzhwonT^ilzc}&niC>)l`1A&tt8O;wW>=1GnoV7<pO_xH7F~(T
zwxpvSj9I2?-Bq7-)vp{)xqR_~FKP~~m{;ChyO63mnXpuERMjmHB<cq~y^*SVDL%YW
zcW|XM(RA@MOR8=-VX4u-d!8Il)t$rd`li*&gzv(qLaP4dgk}Fm^RcvpNqAaT1sMCN
zEn#VdlVWQZDfF#bps*DRy-?V7iWDASQ*f40h-c2WZc^C3b{GoVY)Q+}?KU<FXClNU
z$mAOVhKL0lSr;<J-3P$5cz%Ef#BkP;5TmA%gtk0JpGFHfQ<+926oFo=w!uS?mxdux
z&7g!-25BF>G@Klgy|i=<0C}es2{krJ{tN*~9C2y`4W|uPWx>8|FeMM<hd)^SL8_EZ
zG4%;c{dP<sv1#fIGCN>G7wRyMOF{KV9%EJD{>Wm=D7y<M#~3wf8l@i7BVMz%NWx}l
zaiBLTq;obW2NuNq#a)035+*C~Bj<9kOUUBvoeBG?jndt3FC-j$Hmc62s`}%@Y4@Jx
zGYQ5E^q^aObAEkepuM&<vOGlb|8#jVDsKzvh3?mjxbGTemPoFhEfoVFC=iGR_L!Dl
zhkPCuRMLk(65P?;k?=tL7+bNBWKq<Tuy<uq1Sin)6w{fobZ*~v+(u#r{}3|Yh!-Ze
z?J+7q#pn;{Kc+{)mWa`}L280lrqQW#*Mzw<RM?eci7ZK&a%2Klh$&`rQvqnN_2e~=
zkb{C+p`T*7DDjQ?d0FvVH2Ogsl;Dfh^qN%*xVL20Hgku(ouCJ`Rx)llcpNlG&lzln
z$;a@MzXOTEE!r`oboX*qqO@scSF*Gz;b=<R53F=2?cQ`%ZKAF-S=IHxnRZtsDvu`J
zEnieMr>a^WI5(KR%R+*=`sC!=U3h(FOEOmzmaE&bjII}gWdSn(T`U*ijoyygd^|n|
z!SV)-W#EkHJmfiov&SasP0arhBn4XLES6&O_Xrt)B#Wb}gnchiQ~{1a@uZ!ejM?P2
zZ5%nBI&wB~@GSXC_h0@BOEZ*7KRWoKuk7=Gjt+^3u?<`h)t|+MG!CEwB%Ff+36ozT
zqyPzZ2{?3aL&Aaohe#l1&I^z*h)BTX*V~ZbOW3=&BcbCDMS@D-QcW|rRr?(=Fgc~j
zs@ossWbsx|40AJuU!otylkuQ-MULLQ0m(Nq(Kl!)&`Wg86f?&xAL?U(Hm3Q11r>)^
zGf_Bz<C%K+l|EKGzmmHdp2g!bxQ}4IQ4u^Q?41C3mZJ*$@@p)Zz5s-)8W1^bABd!0
zlEbfCz3eMdQJQD9Gb&!=$W#2R$bN6Qg}vOuUU<{T4uFUwuB&V-Y<W|OfREBQ5sdIk
z4<~koIw!(6+3|T6yjVd|(wtOSapra}dm}mvbGz9zgQx5kc7`LqF4=pNy)z|(Gxa6`
z++^Vj#~6PE2Pdm27*<f`VRpp_$3qD8r1f3c*_&)rL@Ma$doaMUH@##8c6+a#9XE4J
z&<UcK)iYbr^k&O9b&yX;z3eDldnn*o5#Z)TW}5<Ge=sTsZi`;BmAAodAh0j9c<lyz
z341dekpt)+YbjWOu}|62!7%IW$W1zLOtF_81l(jt6z9Ix5y`YP?`Ixq4H553QNkL@
z&N+W0vnV(04{{1ZQ2<t`2rmhb7}6vrQ<wxGk&#J|%yeaX9s!u7;U}X;hT}*(Wi18c
z)2>TN%|2retk5eRD|go1Pl721?E05A`^=5L7;#SFfbV71H6D!kfu_I+RPDOO>qllc
z9vq)AKN`W`4)Yu5aKiZSfw9;h4ZxkM?4J_hY6)1GHC#`GV93cfPaqU!^!!BuKN62r
z9vSy%cZ5*UDOQ}A5d8`eC3>$B9W0<@Qkg0sK_t;}Uhz+{Vo*e1R*w2|XzK+L)avJ9
z@+>I?Nwt7(MQ{>=V-o0J^iBF&*zPWGuC<QnUUnoJ8izqZER7Dsy^G=A^s&b}JILa-
zOBzkIZ6m>c&G*?V&x-!QM8IzlBP>adhCrr)xVl-)Ie<>h>`HaKgGh}?Gc50yBH)LI
z>1fk6h?N}F39*``86X8Ih)D>NLTj%di!u3k1Ra3{2z0+rpv?(;N6tF-t;U{=eYQKr
zyppiIq7kR{7D`anJ#!nbTmhxpmxgQwUGcJ7Zp@c6s00o({2U(l#UK*3KYJR4!O_7-
z$QO;WZ-;zQcg3tRaA|#H`cS{e!CN}sZrM?Xf&2rq)+pH^m!fn`*1x0D>Tdx@G_Y>?
z+f!aSJomEK&;^_$XQ1I(q%Z+B@=@*jM)TfkT7^jHEE%DU`W_NC*)6$6;|3yGKofzs
zJKB|HLR~CIff;*l`q&%5J8=7>6!g^v)T@C0KqhP=eYSw2@Uk)}X5C3ol=Dqi0Gj}!
z7PJed9Ft|W+IDHcHs|oTbyB3$tgOaW{jbOtj5ra2#9u66G@36a&{|j|dJWgvCFsH}
z#LvpadIDRe0H>sSR!_n$#_ZI*9DrKdW<fxUc7d!BD&fE!KDY5*FRMu;UC`jEn>5V7
zU@&;}=Ba{-V8{i?AQldriWC?}tFNf^LG%|ecP~54&jmu!P|gz61UGtNNtZ<Y;w`vt
zK7x@5R;A8t+eGM2TD(7xL<%Ng;5xe;ot6v9<_6vcK?DaM)^A}9F-n}CM2y;{2#6#J
zL%1}ZPo(NC{6wFaBts&jC_@~;qaCLE5QGT>dQ(Oh7Kqo=x_GTm*u6RN+K_g5(vGUM
zqm-nO*^_our>pmTUGBsaqSH7bLQmNTy=O#T{wZYg<z=z>34wlb6hs~rPo7(zKg?J6
zp*}m~VuSeZ&_=@Nyw|E)iJ`8VXCrqYBuWefRSWEVhic}>W$C+6Dc`MA!eI>#u9=8?
zLy7^s2QhgRGH~Q(${wCvJh?RbUc>v%?>2w%>d(f0I<`jt!uqlG@9e3Do>cA06w{lq
z^lI9Qp7+DCCHsK**Ko%|CLecr<}v0UqZh!W8l|LHp^}8^39bpz`y}0kB>z0D+O$hF
z=?4Hfjgzc^3{J9iiC#MPcJDF`u4Bs{GM6vo0J{P1ZM!fJ5jg?BYS*tpFG?JM3T!&0
zDzeFGnEoSh6i(-p008kZ{6+#j1Hn16=_TriG}O#ruvU?J1Iq52?^<Fs$yx8(a^9-x
zA{(zDk&y>fsntMCUa2K!GfF2+FeYMY%LAp^`??$m6f&+0p1XEHx?P}R<{z0Lwfx95
zVM1<+*{9JTwB-?C9snudQVgF$He@1ZTYz=K%y66Gx$B5IrYp64ern)t8n1M>JXzT8
zEdclwtb*+$yRq(Rbmwh(1c$*4cbze(;9Ou}7Ot2{VwCJnVa#RJ3DYqbKplcB=E9mt
zcGLT|bP1oid(vVzibijDnHV!&zrA(LZqz8mHBNu}(DwQU24b#a`v4d%wg-$c#t!i8
zRe*uL32=OS-6IliHSmO$oPSlDAYw4zm;VWmgg3mvdHDJgX$E=6ECfQTeFm=nAv4)J
zu=n5oxx4n9E^K1w^-Sg*iHr1BNDrW$Y9(fnbcf^@M6jL-!%Fv|K>87uT5bnKkWHwV
zr0<hzL|K6Q6f}!!g}|54ERjU2Nr|W)0yJC>svR41Je<_f4AJh;y>3ln5EC4^TctxP
z9R`*shdEe-mI<qlIZ(-hAPTB&jw926HyPF>Pau?7b%Kn%M6`^aXi-_!V0&pM23U!*
zf?^Y_bLlUj@&%MfBap-?h|_a>9v)vj{`QF_{>P^imfa6dry2Ld6N@MAU5NL^Z>4wF
zLtse!(u3DGN~<1zfARYpPLyCLQqH>fUR&u~xs%%0mT<H`p+B+z(*7C!YsWu0ARwj8
z7QYO4Wi@-^mmgezz(2UYRIyaQRPo?7=qv51e)#6%o68-`cUB!g_dNEj@u{YsCzp~<
z1E0R0@(jl>rahGp#}>!leq-HpAn7@f^3<<;jwC%tR=b~cB|Jw`p7ZOTi%HMLPnDEs
z2&%)38W#7*`+s|&=_mV_O;4S5tK;$hblI-uLo23to04UR)=L|crHvn1*PBiyn@*)l
zPsbt3rE;CAOEPuKms3o`%J|BymGRYstH)Lku1qAE)^(;Q$@GB2c+&sLrC(lxyT6Cb
zBD2)@cFD5sedb+erSH#6;D+oBdTR?@w)rv^X%l~&Ymj`Ctd7wylH_-3?OF&W0XX4^
zB3gi6r?LMnkHM#RA$l0q7m*$>s7LxV5s3t`#xe5($ZT>biUEyiRu{{&lflS17@I->
zPTvsU>=*H*FTueTt>GvHKfwuBRxs)s=`b76qX*dFje9m;tgXMJz1;}Pf@nr@ZVH0B
z6^!@+9>=31o*Y{BgFER@#GsrOaNudDG2L*(5z&1J(PyHhaQ<LKh7e1zO(!7M$j7o*
zAV5guA+~Y?g2F}r4Aj+ngJ2*SR&xxrfa?s-37Y?sha8;u#8z3EN0((F1VKv@hMPyA
z4T&$h17S^Yh#_tY(wi1wK%&WS9%Eav5gd%ztB50Q`EW9a5H#LDk5T6m^dv)15aKi?
z2JwjG=fmu{Ncxh*5P${EawjrSmv$flBT>MNY6kZJc;&NZhsp?II1&nkc`&8`8VJd#
z<!}=;N#KMtf}g{ElRf~zcai(ifC28WLhkQb?0LI)>DHsUcjo?NA$}{~m#(Z@y7kWS
z<zvgY-aY=#ne~c>WJN=&qA~t*+QmG$wRCJT`fz4(=Iv0@Rku8oba~?gATu7wiznhE
zx}Qoj+&Nu#Yo|H2LXQp23*s&?ZIE>cyWli|T}*Ie3X|2I98t$i5O>>$@wK^-p<<Do
zX!>Z;!N6KYOd0Lk4gPNcFwIbc+7KPQLv1sv#r)d9B9;-NPNX=1w0*K@L4ri1IL3)O
zIMyxw7~pV<_-m~8H<<hkk^<k0dQkg!0tU2`e+rPe5e&aV9}qa!L|&5q7Fq>x`^F&y
z+vlPjwF!Iu#=g$fzT*i;?K4L$#ML?*)9#x02HzifcO>a<er|?>XYPuJLyJSp<%?IB
z{YiKI$}36tk>^%`fRqMlyA76cTJ;l#w}em)xdbG)T;!IAxG~9DhWLw!S|PV&+VV$n
zjW}C!(@JinL0_YxGeT@<?>W`ZaYDooq3F(uXxOhrASy>1!WI`HQA^?aHi%9>@P_&L
zaleFgfq}}=kYvHE4Semu%@T-1O2W<6l(-W^^L-f4EFHpX4EcsL1^hQdi`*<BB}R0$
zti?m`CWR!T-={~QkPj`Ur8*B9f?yU-gMnS9MZ$v_fc`GkG7hWI5P;UccHP>H(<tRQ
zJ`B>0M3TxJw{tkn32c~)sqy0HbxaVYa5};>_XW(_G|z~J;4@f*+(Y6O9JzvmvlU)!
zXdBg!rG1#-p^4ZyYQ=@Yi+!&S-QfC%t`5A+jb0fWRP87R10ZB}ff#|-5Z6S$IsH7M
z?K85cW+LGh<4(f03M^_jme*i{tfD$jYkxO5D}4f=$jI_<VH-1Mnx>!I%(P|GMbYKI
zqso3qIX|Zke@<2Z6UF|Xa{mie^EtKubL!~l)UnU0BVXGpY1i_FuPJzCS|}6q)`5Em
zGA0K-Os`m;Q~2IAQ>JpQD6=bDqna+q3h>h5kju1NY1>j|hJx4f0C}xk-o&p=8P(pE
zpvsqemIqcUmoFzP8&)mJ%9a$>nLgSU_dJ+eHZPAZJCddKD;MClJ4LmnJGv88)zZ|m
zyfUynm)zB~+LheZmZG|M2K1axP_@gKS4LM4t$ZiB*SA)c+<QDlolf@+CMYOc^{;iV
zP9+;oJUN_fIGdsd(*u_hRKv>Lnt5$>&5>+8`Q$>f@qCK9lzwR>LA9(-t;tUY*5;DF
z^PhGleV0<yNP6%}f@)l?Sv#~QuQesTr=AE&Z-0uqvS~X8%bcRk^ueXkO$uHacNSSz
zx_QmAHu|yiIUu81M;PQXWmdXt)%tVyV>e=}>q+$|dw;nXG1m3G%t>FPpV!!E+w%$|
z$yC(QLv-5iek*n_mNDbUGl%Da_%OH_TpoOX=-r`2NmJ6{%~%lx(x;^I;Twx@WbEYA
zK~>f~YI&z6<0PLh<C7tuZpy~I^~Sw7Ha+C?bOn8#PFL(E4b0@Dr7fdnde3N?XI2+!
zVMTDJxtX>>bo0a0i>EVY$UoB?TOpq}75vK01ix|<!7n#ev+q&tomj?$UnNx4?o27>
z%8dDy<JTCF`KcxGQShDMCI#7ygQjaA_%o2NUD965euUJ*V7qIVJD0{1R0ZTsrSa;w
z_TAgJq$C=SuQv=O8-||J!_QjJB}TvVmAM?2U|<*X^$jcjpYF+!@}X<w4U2wo92dD<
z{r=u}_a>Nzq!pw+)W&@sp))4PW|};7<x=&dz3=SJP>@||_*u(OTQ)J9IYKoa{mSl!
q-T^^J-#MBwL;jh&9Q8!T3VA@*o_)*8yUZrmdcMDuG2OEh*8eX;-DREt

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/flashinfer.cpython-312.pyc b/utils/__pycache__/flashinfer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4c6b09a39e675fb4e60cc111d32ab07ec5717f3f
GIT binary patch
literal 18119
zcmdUWTW}OtmSAR8)-y}0(xdc3pajIDXgxq+5Flg(NIV+JfP~#G+g&bIrlgYUAu_Wh
zR2B~C@hqs_v&gYKgP2EHbbA*Oc%#{wA13C7=Vv-%BQ~le&8o;|V(lGo#PU}l_inG}
zWA~h!nN_J$Nwj+=dSf$G_j&H?oO91P_uQ-hR8-`o;0rS!g+6VgsDH$a{#9y;mH%m{
zs5=x-^;0~}o5FNIO=45OiNxl9Gl>~3w)9&_-r8@4*c`S+?EQ8c+cIHC#M$qRu>CB_
zo5HSs7lAG6FCuYq#NF>Eb(XLvQqo^S($;Wkq^!S;q;28yh_~NMQzl9%5h@<i>MZ*!
z1<S}@ed@V*WPdKLr+7Q>cxX~{{WXGV<e*-Yi+QI|J80tB51EHrVgKe0AzcQ@EqsyS
z<cs0w6xcy4@BWbKuj4%e2YDxNO4ulBkl{<9bgNJ|NRygUs4Wxhe7WEpG*!cx(9Zjz
zrGFc&a~og5S7v9tT`Q@|megw{)!C9Aq@;%5lr7n*mDFZSc4;M>vn9Jp$riqj=RTx9
z+xpO~F1_Ek;mWreR=#IL$n6Hm?`#NJZ-8vr5ORkBvT;Mmod(FJ4Iy_KAe+~L+%43q
zltfO+($r^Yxz|u*;`acx_wnBmTKER|A$M8%Mkw3wpd1w6o2_Yr+GhCeh2K8li58(~
zWH`r{dWzo<qaJ|YYw*L~D)@uIEw2Fux9A)@LyP|zT8H&Exp*X&OY15A&=AG9es)-=
zI)4P(j_I|zm_NEsdD}YW$JQxtU#I+aC@-|)<7EF7oYSC(?=WEgF!WGp)$!aa^b~(c
zmmvS2t@ngsy-1Nl>n%j(lfPvu|0dKd=1&<`hkR9Nb%m&T^0!9K-)vo-hIJj|yI^I7
zcG&54%FnD*es-PmbL*6U7s|i=4m%IhsvTri-?yH3_d4_FS*Lux`Mt3YJkh8i1q)(x
zu$aF9lJWI*<hZKmFB<4_9Cpa1pV0jslP2HgMC@cNG8T|S1EFw8p5!LPz}T1|a)U9E
z>k0>?;j_^}$aY*f%LRu6(IG)<ayl<df+%sZL2mr~`EE`cj>W?~7YI)TCM7Nu8H<TB
zw`Wf*8lK#<hm(f|Nzl86#?MhQ_4sJTelida2L{4|&!m_;qLYffCw57Y<6;yl*-$hj
z`@^xJAwh&}<#;$8@rNY;KtK)-`$N(3fEWryWvKE5<Dw`;W&c<>Aj7O9N^RHqj@~n8
zd%8L=`A=Rxaki(|f2s4r8@*@y-njJr#9PC%JSH7!ZWj0<p(!p#nxf+&J``vQ#v;uD
zQ4S3Tf^tlpY?dY(M+Gq|ghPk{AsU3#fEW-b8^_`U;ZU$~NQep|#Nk*l5N=kiBAI+p
zm%JFGfq}o383^uBGKA_kqM2uU9%GT7q-91g8L{fATs-2)rS%kV(nZ1zY){NxtQ#rP
zA#yQq)?sOClJQv*hg5`f@AZjs;XN)i$PFUR$%-3;@qtj38w&(S149BAlDNQlAVetE
z)TelIfPMm)*qJNIYdR5-xM)lUo{C5LE}u<dgy^`WRKE$_<3H2U>(3{c;!wE=5UwzB
zITThLgP|zzm&SykVpX|9aq_}Ie8?XI!aSf>aFO4%HOrB)=CRONqZ|;21iA5Q{Ltan
z(L+Kr^wc~yDG$e@&B#j4*s0W<n{m_Fq*6W{ko>tKby*^w5_ZB*Itsyc>T4@ycP-m?
zEZBCW-DS^go|_-s_+Z&qm$KC*xt2xS{-o`7tYDnWj5o!2lNIet%<E~^BYL5IVdh9f
z&8wJW!~#HhA5ZJ#yj~$^*=1uU0m7SQR_{o+q@?f2S#}vI)@ySy&-~gWS#(GoY0~Pm
zC0aLPGL<NWxlD29sF7&t%1NVmG|P&d6aogwwqMO^3KJa<1{1v-HboF_RXZ*a<q5;a
zq4ObbOcWaV*hDlO3-AKZ5pI|Ie0I?d2ogOQlweSbK^X?fGm2FjCai0j7!C!8#d54b
z9uO<Aws<wOiJPHtAN-_uAOJRVQudM@Yt6Y9ZH-CWYtQV(%l7J&y*gRbvt)lG?Jfs?
zba6}U)=vlThwp_S9bDXbB)RiM7A|9=i(0-mn;p)Ko$`3oteeb1q5X=<?_a}?xT2LR
z2!I{6gC_+CTb-moq<yAD^M!CAC=AEKyrw3M)G%Or00f5+<(m@IYYS1DphU=$v5C77
z76PCsLQzQuy?|;XOH?_=2~pG(MvbJ(X6Xp0%k!a-JRBb&Vtg<s!~!A1E(dktx)hJf
zp@`5aiZRh=61TuNil*k;XQpfI(gd`-sxD85AVKvh4I`x&aB4aW+4z8FP)|#Oh
zi&e!Z8;SApu;7mdB0?~WIcUPbk7$7JLE;V^g>rZ;qywfX9oN0ob}FY0a@%{*R8NU!
zn)*I9Nl#E$&EKackSZs71A{_%QdhqLPKpnxb0XZV>LxBEH*lcXdty<*^k5zddVCCF
zX{AV&zJ9g6!k#56onTBU>n02BiOF3k%~dqg;&xb_gzMH2SnLP!>(9<X+znOT2(uT0
z>r{p@TgsogtCrn6Q|_H}?=QOdC++)x^~_bdRNatd8(&hirTnS8EMtcF8_5NYepp^f
z-EsTO^R&;bI0CXP5@ajvAg~Mantw3b6hu_(AEpWF&qLxSb(6kny2-ps&fcPLQQ#M$
zKeX$z@kh)p=9US{Odr~>nWxOXl+T=a?W8CKWPuBC;Xopbb))eF6aZ}%8Vm)w!FV(%
zhhi{2eQFq^Ku2k@atVUpHyL-FKD0znQZg=qeA8J?e~p@=#3DJX5~iqWny2)GZ7;a8
zdZ`C=kIziR3PHYN1A-vd0DER2tmuP2RkGm#-1X}!=Q{}DfC0jZU4C4fUt<PsZB1>&
z+>zRwvVd<xd#M3}U%~!xZ(efOrOPUx71z$by;$tKWq!JM|BokTq}j7`@}j#TX+QS3
z9D=p#5Lbg6aRt3qhz}DrZPqby%`|1YZif<PiV9Iv^r!T{rh5Tm%4E!ojnI@xTAxK>
zzyy#K>*xfD8C;Tx+$ZjVK*G^DF1u`-w!FlSjTfzf4PY0|5Wte3x~o2V{}uzH^;X-{
zvMqB=vaEUDnks8fx|)H7XZn)v`q?*A?)s#?o~#<|T?b)_SS&0lmS7+_Ech&h7AjS6
zg5ql!;C#tc-+S*p?zl>!@<KBdTLJP-gx&?gKM@6Db>H;g@PBP$EbS|1%IeKv>X$CY
zvLoZ7TxHjL$ZWnT&q>Rs!MG&wu<r$>MiynXxd+Eu{R2SqQNILMu0ZPQ40Ui;@XJC}
ziirk*l3-j05e(Lp-k*pbKgBgTcEEon4u*RuAt<%cam*Wg4@G4`1Vu1zoWN=jm|Vg*
z<v?7H$#Jm66}z5Xwarkh6Sam|HEyy(;#X(4UW%|1P|6vM!JMwjXo|AYcsQ)(L3Ol1
zha$RPSF4V;a3C_k2iiqc8#k~TO{?qFXU^r_?Wx`EOS_M&Y(NuETs2wTiuhYWE5JBe
zePUN>aVt&9xG3_Cpnl2wM!@}=|K)TzZ;HdtK@qmbEHmh7I1EKNO@FMi{J(J<*ae|_
z9x$qu$+L#??47dJ_KqK$if3S&zY9MJ)dR7uT{VmBrUmw`PaXG*?-eg|ttqZGdHCES
z_uXXgTS@M%B=c5b$w9D&UX(&u135~=q1W^i8YSl`>Rpba-T@q5qpz8A@^va}=b)Hh
zC11@`Cf$iF(m&?Fw51s^Z+%RG6O;jqk!W;03<u+I3z{^m@Yv;JfQ7nX!iudMj@)2t
zfEM@WA-9S2ps?N8QMV9*bE(htO<g{ewjW^-IR=4ZSK(uDv=&kMDemrAXNOh`2l`ka
zs0Kv7rW$}Ys2UzHN~tJZiHAfG0=m+Y41x(Io`f6+l2cRk6?t@p;c>AdDz%Rg{1gN#
zY3r6)4lLG}R!faF$yBTqQ`=ul*|*$cXTERH7VgqN-Zi&<Zu0MI_B}1D%Gdx1Ojp-N
z=cnJoW;w9YW&z|D+$-W?SbL9n8p3?@zcdeRAl1Y^fSZG#gjx(xW~UsLi}ot8g&b$;
zXD;vUp6Q-tSAEJ=pWJbD(be|kRMK@OV=-$s=qf>i>h1s4mN>c*u1;R=1Mf^P*hHXd
zIK*6mZGm_b+aLh`Ma3Z=Go;(qG=X^?(#Xq*I>O818<@HPK^~uSc?e&tp-_81z=k=F
z-Lk~i{Y!FemMU#vDi;z|=mLTx0#c5Ag~WUAD8QROGwWgr1>1;SZ<mXCW)y_$HF}B`
zD_`LpGMwC}Kt&j!QMBiMytVLn`g~|G(#R3Uqc?<O3kTvh=b$Rot1TyJ@rc9QubDnD
zO*+(gB6r|%CQ@s-tmn<Mr_Ofl0zXyGi$}OC7!=?z2j@p{U83ab8wQ>OqboQHQ7jr2
zz&amC=O-LA@!Y8%E#WAt`TaP}@n`IqbVN?}ID{@WiQ8276`=1RD2Q?ZylAQ~O*^wf
zf1?7|cc~A(r(I{dJDSvKJxBh4GpY>_sIj>G{O6EQaO%2@gRfpyqNM<YNSu+d#RkD=
z2N9gA<v1>v7mjc{_{4X*)N)v|h5}su+KvEN>gn=1RG)?&7b-}yq?qA2A)-4{Vb!id
zqk}^r>jP0-V0T9W1;jz8I6AKeg)uw?!TAGvk;Y<CNl=`DENv88kdW_JYZlcv>o-tT
zL^=1@@RNQY0uYlP%3ix<+YC;(3{!0JepR;VPTR+AOI+KNz*5<nTlTbf^Rm~M^7`g`
zQ{KI|oKIQrGgs-dYjeuAIl1NdlB)yEVNXrcUj4O$Dk@uc)umi@Y0s&&r)t?#pYqgy
zZ7~-Wqx%G5e)Wtke@U4vUgBcel(KJ1)}H<Oz9oD2Gk5tvWh_whjf75x-|H}Sv{0XW
zwqn@gII+q6`O%6K73ROKus|9Yk^OMl_*?0RU_G(0u~5i)fx$v_f`yp10d>of*nBf8
zqp6$+Dj)pjKoVppDL#gNd*BrC3lQgv=1#}T-tK*S_coBWYdK^!Gd2)+198(gX5I9t
z9f=1SeLkuyhgW&N>p2f=2FC-=S48=xl!Kd}7sf+D!5<8a1=M>9LiKzlTCGi5^6LhW
zz9Ml5dxD>Y$6R2NV#;2(WJB`<9cH!5?A{c+_fgp*``Q9~Y3ay?#Uq!J%q3!4Dh}{Y
z`^N*}_&S~(JfGeHaeJdehLrk^ApP<_o(6A@W~qZXgflr<c>7M`agSgahT+ICL~0Oc
z_~qVCzbY5}9esVBJ$+~2=t=Bcw~7!>ka6ekkU&@B?gQUB7<gpY`Dk$%N{oJ)O@6o{
z0nCE-U5m6)0RA7?U@HXRqyblVNzztJIK3)muS!;TJUI-Uo@UFFO!-<nJj=%ipuLfg
zH$JaCM86SyfFC;XSA@%S*^Z7XaxJkT3XrQLK~@=56?}#p4NcCj;&y@r9`QCHaA=9F
zZrc?IOX|3<Y>Z=L2P!**DS}88@x-UyZxkYFJ|ov`K$IwSm4TmxzGL8IIJ)opR9@cI
zncCI4$aW=}E|qIt(RjpvCFUO%0=%S<+~~NP3ucdt&;_Q6usH(>Baw7L!P9Z|Dk{s;
zdJQ^ZK)k?Przz0x3Al0KO=w*Z(Q@o0DpXy1XqR%RTLwczaS<*ULC)y=Ro8u4nlyEZ
zI4@vfTrSzYfXW!A#~@IgXuYYMe6^CO3I?KunOTB%{~LaqHT{)s>!NM@Ts&oK03q<K
zWY1zr!}W7%*1N#A&9==qq&6LVyfwAyXp(7D@##c-$}w<ZO9~qaT=h%B6@OTWD#d(o
z%s&wm!*CykZj53;Gx6d0d3kb7P;6JUgcAfA+#L*t;6&!Y1%N|&R8s6D3BJK#))azi
zX7|n|Ktv(3Tysu2Z<wc?c$S@F0P&{)ITePTg~mhPx9Yx+UaJ$Nswt=FeMKMHs~<e|
zW(jW@Jp|+bI_<6c{wD1m(8eYi=Z!{0-pAVvZR}Il+=bPMD-RU1I(s53uEI#6o*k=t
zw!aeIxeDHSy>rSYZke+1EHSIuDfX54bLD!NVtc`3$rp{*P!wz=3v8rs(^K*4o(yy=
zv{H8tdeZLmB=+b+HG9`vNVpMM*7Y1kaw6DAe1IGu6V&S(ZU2I~i`VpM-=6R7BnlsH
zcmq%@#l!Mi@KYx*G(hDz*uvNbq;Aefl6be!EQmzUS|lJjWHj0J8~z4vATDzossvC6
zIL<yIRuWfVJqAc%br5h&!L_$4ui%9Pn7iU6S>mWL$r0iDErw4VxlFDQ*Nnegvx11~
z$BTkEm|LN7cmXDW9SvCWHT5ML)@!Uz3NWJkQh8rf;^2DFs}3hwk&73nqmr)){N&(4
zO*F4+t%)rz2fZ7i8hJs6!;%2QJ*R+05>2aGk-5X2h;D^(`Hd3otKbcQzZNllKAWl^
z$SLCoz@kJ`h$EP?LjZnta90yC>~rPRhlqBX7{_27g9!|-Vlat80)zJ<fJY5^#*yO8
z8A{|93XhNar@7;E5dQ3f#NUDLXuy!v0|9958mg*gv2s6{O=wkBC2iYN4Q-%^Fjp~4
zFW9QH=Lx*BZOdKRqP@CfiQV~>-9(Npcsc=)5(H6?C0^{Ld?uW-ZJP@$*mmVZUZiuN
zU)tPvonPTCvTD#>Ub4T5CnxB^y;QnwxwIiw+OSyKv|wv8n0=?0>}LS#g&hn+L-EBW
z`z0v;!d98I)qTl&zo_0de=t?O@7B4e?&@crie=CClxKUg{_>LNP5q1o4!xTCIVn}W
zXQBG^{0C1eQq8CH;ro_6m(%WQJds%`3%kser<n4j_wo|+rhb8)ATNTB9Lae?{SmyZ
zIG`}WI3EDVy(<!jBd;LA*%7XRT-u2OHMFGA9SVIyv300d7K-hJo*2>+7EP6Fci6$~
zX$r`SS{t?XN)rU|Y#g7AQxW=_4WDdJ*-%5mt(19+0oiVzvVO)qMAn24%p^;XYUj|3
zRh{m0bdTUQgLVr728H;0q)2sq-Nv+Cya|zb3xjD4euTkC82lImY@n2`L4{w!fmd^D
z$r>o}-vCfAvg!^<T&I3nOF7!UbZ<?&if&z**)@A;?)3cS$KuZqeQh>*oEggG0FwbA
zSK$O7pAei(LBeRg6uM*q#}NZyc^^-sr*DcbSVta=Pg$U4_L)nrIXJ<z{s6;_ied2@
z)ITs0{3uqH_~72Qz{{@SuwoG+WAdb8k%j|sfAt3d3X<j3IF^tNG<>R?zhVtK{euDU
z^86714k1o8S8f%&y}14U^!u~>J~?#v(A>VeN9L~FpSU+Mf8}1{vG>W9zq|VR)g||Z
zr2PWHZK4PtDIGa7K$xU8Xk0X^dV=abkT9^Hm9QUp<#hJr!MJ#+F)mu@S=O^@-RjQO
zKY@<cS$~eb>{=uL8YGC=o&<4RG5S7$i)tvx{x98?v-Iq~*`c|KN0vwO<F^*wok@GA
z%09+5;Vj9TW+Cy<VxPjSrLs?9)-n^egKOo2ti?Rk%<A0cC9L%vk1Ha2pu{^6_^bul
zCyPD_SF3W4$~Z0^orGQPLG8an<e|?Sv_*x+F0co0pPoKF(=mN+mj1+c*EUDrb<TC%
zKYj1?e8;_WkAx>3e|P5dGkH5xp#us%pcEM|Rs*ZE1BxXO9vcoQ4sbK73Uk$d&NA6I
zFe~(Rpo-1^c$!$;ZrHQ=RghO}CDS?ThaeBvhY;OU=Jji}_EbUtO7=YjZzeM-hnXN7
z<$XEdm<pHevyc>0*<k}#!I88ctg3TeY=`w}8_hVhtjT?Ni|I6$t7+XjheNgbpV8W!
zd$@;Nf24p@T|Xb8R@$&0G#2P9qtLMSh;uOA=l=&j!uN_zyEp;g646t3cw@(hBJkQx
z7DM0w{zCv)nDLM>A>w9MEOEHgZzW1bp=A&=KY>#5rx<*S!N0@c-(zqe1MG8+gi)#t
zVwOBZfa^(kIRH1vj{yD;aOeCtNPx?#l!7gDaQfiP#UC97VSDiI!MTfn2#5NeNp@$N
zty*R`r`XMNB@67fxogY24ySe<etdCZS9_9aPqOW4)^)pex^?EnM{TqF7TDUklKWNn
zs^+)-wDwWS!q%1~(~@Lc5a`hKp_zTtM`lYtsk~b`S8}&zf!&^DwkO%`U)YLgd<(Ws
z>8c&eReMrZdp>*ZXGb3#U938EtEf=fS8Q$C?ts7B=4tasmbBdqf4AM!?nQfb+Fq2l
zm!v(FU%Txtcx-0ZADh|Krx*c6OTZ)9flxqNr6!Q~h)8`C!heAsOcm1Pye?Q#8s>dG
z*-3`oVk-26Rp(9BktCJ@hZgW-tcJ?&U!w}qM&EeP5h<}5cFAwlGCOVoA4K6tvt+z#
z81GxP(8e*nVwPw*=6%}w%)eR7?6}`*wqiBV>|3=^$C2^v8~H%Hph21U<$PCwzm4mO
zwar@|YE&Jm%<BrWFvhw(3jG(VBfPEq@2^>>EH^+pPFe7@2stYl1e$atf|1zu;)hTv
zegFX+KapuwacBWoq7YVXbs`jt2H`ES-0Bw&MD`Cxi2<rGs`HT4>~A6Vl;Vg-B{=H~
za47f>*r`!^{zvToPca~Z^UolqSV5bQ#pPd9fVQFl{R?RKXDC45g#ZMoXF~zHk?2da
zrMHhwAN%O_*}wu@H+TAe_r30)zVYbFLVatJX-%@Nn&kYq!g7T#RpDD;ee;2z4Lun8
zOYidG^Qpt<7n;r|ne$2Zye5aSx7jWf)mQFcy?6EgwR_hdTMfdR4EM*KpLE~t#=eGr
z7I_f)%lO}1`}1pto=R`GPq#0#TT<+nxt$B_?)kTV_JapMSZ+L?YCQg=YoYO6k~x=T
z&wW)?jzXB7W@kD+DqfXzr|s}plC~GG6xoWc|Erj?u{Zcz`*bZZbLGy&#}l(xK29uJ
zw`JULU<EB?cO`9=>5|IX`j0o?vZmRR>)oo^3+T>%fN@nuZ-WGwz1fOF{0RI;CtB3o
zBhAsKUO(gi*?`+<4BlG9|Ky;nOn^JK@sJpcM&N!Ato$PASW$104F73y>TGYviSwQQ
zi~ft3JK(0NzXNZZ@~<Yg8dNVIlJFI_|BC*Gk9f(%zlQEp$U-QQz<LFTg=d*Pm|_nm
znS*52zEbi;Oxa=ROuMox^uDmx0Ji3xhEi#$HNGbl+hKSSUxbLqG3dkK3<j4lz~>$6
zE#eTS@OprFX~^`69YOYj&(zhWzWoCSf#1)^f_}ev0)g?`PkkR<tUif_R{>4rg}*5#
ziJPESaR+1JFuo>$%k8GXKu|;ttXN@ZgGWzfumjX?;@cPyN#MYPUK9R1j7lYz<kkOh
z5mBBgdq@dhpoaazRd5u-5w<BDn1uhpYRda>C~}Fa6q5$JuT)YUV|G7zEe&fScZ4>L
zK}38yMXvG1LpT^S0B=&sRloYC4;fQ2gK4Keu4zT+zrnIS1|k?JS?D#W_yk*hjzJ!U
za>OCD%A?RIw!rHk#SA8-O0XYe+3#SPO?#7}ID&CWjz#>jF~!<P9-^woW|1fig(P@R
znmduJC)In{2ilE<-h})}X?U~-*eS<y)Hdod&EBTIfovE53zXr0l}3Ro@GPCCUs%mF
zv*M)a(qB*>^5^{p<@g0v^bb`1f2Fv8q};!tT>qV_`Uh(JFHI)e^h+y6H+<<RpZVUR
zW6O1G#z}G8K1tk7eDcBF57NxGH1qC?#mt$KR4w?*Ozh3N8{p@&(IvC|OA4YDGi53v
z1)1_}wVU?LGA}8Jv}#CY>aDbOrYu82G<%Xnb7xjCmnpT-<#Xl?1<|~Do`2w6!6fu|
zmcB^8FqhJ0>5}pciMQ6P@&2QaPd+Jod?vNOa|J72G*G@{X{IJw+qz;l`Cz&`URbH7
z6ErD124zi9wg<|%1Ei=KipZ*<XjAk2)Z-s4)|^jLl~3#Trx{PObg!X)OA9G#f}$<Z
zOU(->{BsNRl4gpZdX9f>V_c@|_Dpeh`6l{%^lTqI$ADNv044#oI{r#%&m15KBCQ@$
zncdlH3!v!KOF)8EtA-S)Ktt>K`t@5^(O&EvBCR!~G6%D*opdifci<(3u?B$2OidPo
zp}q459@RfM3jaw$dmkToQvc^iUt&@Nhg7E6N}s0ZPR$><_gy67X&R|`Y<@pd@z~=a
ziJtIC$YYspRAp`2Tl2!(P1BxqsW)TB#21jTU;@0nKwcY3+9@b?kff9HR%KX{bYZfH
zB#WuyvfFP@znyWDtcNP`W=cr1l=75k%1E-D0^cziEmJ{Rohy}C`r<tk#gzWNx$Fyz
z^X9uZ-d(oTrYvyG*_!rNroEfM18m*ALNQj@0!0=l{A=9pw&}Kv8PZ>9X$z!bvZa-G
zYCo>c*f0n4RdWu^IrSWiIe5N9yla^v%oXFx+?euEPWSEF>DreikXvE(5i?sTE2~b7
zOIbLW81Ng+#_F(Kq_fk(Om;q)F-(YLb2B2@+>}T*Hz$%+Cq<IESz&g?mK_>VsLe}7
z7+@<OVNOd|Zi<-6P7yPPDUxh%iX`jQ@x+p>3lUXBlEpfv+?dr+MQW<Db5e0tso~0L
zpd6$P(=bvFY7CUaoN*3FIduw1HH}s<1E+=*gs-Wgt!bO<=G2X;j2Y5jXlV<iVY%hi
z_}D9B!<=2uIWPyJql7RPi@6**FbBL{l5u0ogUfs8#ycw|nCqgctvg;6ZK6xFLqa+`
zB&1<T*cR_hzmu_H&aUSin9HpVb1n+Fxna6twmjwBoWV|ETx~Qr=GwAyz(gOK2SEXm
Rw(%kL(pkouZrF%2`oD%n2-*Mu

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/func_utils.cpython-312.pyc b/utils/__pycache__/func_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dd6f25768262d12a71178a4b8584e171d2f45210
GIT binary patch
literal 8474
zcmcgxYit|WmA>=hOQb}KdQh?+Bg#=s#g^nKsT|jdUy9o_w&cV{n+WdGG-oJL8a{Go
zBv~qzsHlNZj#0~P0x5`#m3ITgK>}>h?vE~Zf!*%k{UgQ!L{E*4f=z$)A8onKCcpNa
zJA7GDVg%UT3-Zo=p1JqjbG~!#ng8&3Tm+IPz7cQjAmqQWQc9j;VXMFqvO*LxMifrr
zHExV!PkxMNPhm`er=W=mX-rDk#%vsp6E%CnG3H1($D9e*n2WVZT1~<|=1zFVJgjch
zY7=#1b*yaHyb0f!k0U%$eQNy&@J>u)eyG<ej&i*L>K?^et~au}OO=!w)g9woV9tl`
z4|q12j5R49wNa^68)KqUcS#&;R=ldDHYmI`5_+m?FvbUC0#4#2O1I)yTa*U1Rh7nx
z+G>rTw-cf?s=E}Pm2h^`IHxvQy)lQ<bV(X(Q|c97X}-=Y0T}sRDYRU&jkT)|r4^{`
z0vc^>XC1}$wgbfuwN>eae=V%arO20TA6T0uW1TRkb%$A9s!iRcmS|XOuTYVpugE!|
z7likB&GDh#^AoP)siYB!Cv|y3)zT`}Wn&^@$Puc_k#t&%tBP!-<k)mFYQ$4Xz0c)3
zI}z7q`04RPT#HaSo|L1hWK>NXIMSF<<@0QKDy8Y?<wQ!E*3>@NpK<*oA>MQxk7!!t
zf~K1GQ}Bj(ay%rMPK{27qmk$Yw5B7}h(|P2nx&Dn4l{(K$vM-0b}p^{I6_05={y~w
zk;Iv_8ih(tJQ+8_T55b;r6zaU<j$Jhi9YC%E~KWDiYd)Rv}x6}QPr5H$!JmH7&Eb4
z1OF`>WGf^?&X5o{-}NFJiF{DySe)vHoTjOnxB{GDwEEsBA)b0+j%k~kjnHvjM@f|B
zuMYJaiFAKDp5A9bvuf<SI6d^#fvF+2UyEPpPtO?>sbv3*rX~8Pjku=wBb&mk*q5F&
z9q@{z5jW;&6Oe0zzYdZ}7RhFfck$#F6p6{j9@qgcT!8=9b;w>PuXCWmoB?GkO%^qz
zRL7^nSM`h4Jyux}6cV##NtTQ8ig?L=nNy@CE{tzs$#9lRlMGc#HS1ZDQka2jV`+&4
zzS>4i5m`kWppE(<i(0)_j)Oblzx5$xZ}BT+Ntm>H9>^&-hdn!N>q)|W!yG-Ja7#kC
zOot~+e1^nHhI^O$B^Tut06m42z=Q)K0ASeGHb=V2exh@;JV#!JH*sW+Tohg=vs{QD
zISV3cpNQyTI-N8{Eft*#iL@2oXYDlrCDV?wjM{}9m*vGp+K2-Hjmdlq%nPFe^&NuA
z5lw%luQ)mg-THCJ{(F(+YwE8azI-_EuHW=DTs`;3xxBx1<?yc#=Yu`V_BZQpHwRXC
zuQ!L*dUDO7FYKhYbqPiUzYw5w_1x0AuXL33cXl0h34d@&NB#B_Av<+LQ`JgQ<V>eA
zLDh%?YH5lmVK1~DT0!1%8*IHy*v}tf8!#QEwbL%>$G?6QvM(1&fwxP&Z@#iJb8V(T
zp!lKh9|G?OSn(s}uh>$kC(Uh(Ke#k{$KST{%(Z83`MaTZ5;nRxLYslgS+hn5MKZ$i
zq@rFlJ#js(sA;N3BZjJ&^$|shBPK<(a6;Af$haCUODW7oPGfxw1qpTIbr359b)Kaq
zu4G+wuTh?7lr;kSi(&>Ez!_y}2K_0QV`7%ia#<1+6ycJ4LC6Ro>EejV$C8$am){1j
z#94m$Z=HtLw***`t$IB>3H1^wt#PuvF1C1<EmUiIc}<o6Nk^qzDpl$JPBV7U=or7i
zXSm6dpHLzM&yubWldHm2F)ECcDF0J{u5-Y*1z|zVh?BKd!;8fXKLd(%r7<I1<F5on
z5`~cq!eyI*n7~qH*I7H@kRxl$I%AT;U2>G(xFBVuGw?R9IC~ZZbR=4uk538y3{U<J
z3U5g(;BYLJO(;FGWM6VrL?KgVb1Q+(@^nDqGW<ILmA?@dgeCFkjtm^|lK2k!4L=Wz
zSP&`#v(v#C2-_@Wgwg>j;)ha6pwRtUk}4R);Bmg?EZCcLN-xSZSm5#L1Q-Ne{%VMs
z<BIIdk)$He#x+g8pvqKDq-MZ2ff<f~odzqX%F}5DbfnMZ<UgZmzt5R2(4^>;rp~BZ
zNHhgaO_~m{T}jY$-4wB8)(;nz3v}uyR#(Vbfd{j$vVbr`xhW*{ak?Am(;m#aAp`53
z(!*1;I%U{}wnB!qh{-|>DV|KKbiS`ljM4fU^i>+z_#;3_pMwmL@UyzME3f5)p_`BW
zi}3s5e|D}1k1f~T_6Ijx2R|BJ9~>?a?pf{>2aguW1=1KOI7py(z4^&}VAq;&z5B`a
z;P=)$hjM|TRpIl7wv|)YPTdLg-W<FY=+AfW{);3uHr;iRhNfj>-QTl1lk@kiyL%WS
zg`B1xTqW>44AZH{$CD9cx9I|xC6Z7L!1tnaf@QPr^yr!A&OSFfa`a?)bmZjAW@B~3
zi{a;=efcM&FAkeh+)xv63R8e{6lEvmVjMMXj4sebrW)Y?=q5ikYf7w{J_#e~6PU3x
zK=xZ)M=d^&Y?qIe*lt;x&WAAl08G@cK=#!lx#J6L_<}iKaP9G1zMc)={+w@r*7mvE
zzu|7rx!X6~`*QAmcPiDvoO`eUtaD|Z!0tVL?`3Xe-hK6x`WJ4z`gUkFxT^lX@n2j2
zsrBFHK7Q)-uO44}_2c>%vi8rNwORT`%NM-Y`RJBFT>b)<3cHE7G3)+v>oMYgk<-yi
z{h_z%SkU(GoCrC{uLH~^^C2ms81t7XVhtExlshJh7FW>1GNXI`{CU}uz}g47K##+a
z0US068SMPNi?|z>PkmAoyc6hr*Ku>-t-yh-ry%Z<8s9uxAn>@}^#wi(2Z`HXv{hgs
z*#Y2Dm;xw36bdW>8Zuji2fMWh8M8%VHTGxt5=>kcE6`HGL9kE=Xe?E%5A-8#NSD#;
zE2BMFsB#%B6qgmhW}z&FWnNgdiNcpK6ZJhPpoywpWMw&E^aKEA5w23zpv+~^(fcMK
zW{w@~8lcZ!!g2a6SeEJq;AS9|`j@16=>30#WZQN~ZbC?&Qs-t<RH?#a8iF;_Ud$fD
zY%gRWlp>7OX+O50IMMys?5F}zUs>=JfJo*IqsTEqH7inyoq7dQbv#T|X3*uL+lZP!
zKTxJtBvygUqWf5BU>J%Lss9YJGKTK%eed}j&;R|Yk4AF4kF9&VZu@s{whpZCKej$_
z9N=^K{|ZGp3*{thlMKfgg#8E>$J9tiNj#4`uJV(+9=hQRxI-B-@IUWZ(DK(Ep~V7o
z$rN<epvPdsb{vr^+DwPBA8~}@`mCj$2W+*_#Jhb}^dyXW2}d4+%)*nVmR0|+Us@db
zyvDx+urye}0uKZhcog<lfaS#dyy>OtE7NhRqGg4ff;MM*0sm67;h6|6NfPeDv_pRq
zED;@n8Xbi!T7(GDJIe(X;JI}LYSp^Elk-{eigxmG(7n^SIS!n>vbO`2iz!oft{0@r
zg|W){L=&|wO(M>3OAnc`gM0aq8F*{omSSZeZNZk2=tM@Etlu^Ssu|l1S+Ij|*qgD_
zJv)#2?(d!&f@4B1^7PUFHJW=s^u!FW3$Rjdj?V~mG$R^#-(<<as})Nbv1E2iPYkRr
zI5Li%IPj3&;r(!1nu3*F<S2yxfFfRqx1|h+`#(eGxR5aa%i|MjbV`oL<VYEEA;=WL
zm`hxd8D7e<6or<O@&7)K-mV%hgi0l@GX>GDdAf{BQH*RwBj6}&dJ28#o!sp{M&ZQS
zP%T9>NMVVDqGx0Z5YnN~WA!P_4r2Cw>~I%7Ip*cjr?E*)suvBo9)rV8b-1n8{P<|a
z;S+H=;9H~4($kog^_4z@vz^St1NGKSUpfMJTL_n-?pr>f8!p1&e1_Q|)1^gp!z$|~
ze;avF^mc0W>2x|p4a5$54v3=#&>O(6f~V6&Y8y8^9XU_O>cv~0JsY0EoM&+H#O)ei
zzOG@@+qB}k=2{)P<?UX4?!Jw*w0*n#SLF@%=G?snyXbUn3APs7y4ZNvOB}v@v%K=^
zwO7|e2iKbqX5Dvf#M6G;+m`pXtkhnsefQCg;9xE|xDh;(3m*B{dt}oexb1FRYk9BZ
zM#n!6Z43_Q28TBWU&sx<@Nw4*x4rU>bDRF=yAI+&2fwN9`tZAfn?1L>_TOrIJl8mw
zb#1zvu8uB^UZ36Q9LRMJY;+#V!Owl@9^pKX<-M&db=T_FhH~Cs@LQd(0=RuXW*AH-
zT&O68aGd@Cd?IKu_}mTLgLomQ^KlU0Z}(x~b}U|%qCy;R$Dn%bb}RxcA|;kGBm?T2
z5kBNT5Umy}K#TNi{z{8T7Hn`omf#&_53o259wk31WBaz=d000<mz@p(%mga_<77FK
zSD~oz8GFgA1huuDArBc3AoJk(;;md-5aCuXM&5*NGKKm<d`86^YDszJ*@<{`LWa1R
zoJy)PD0U(RH`kK4g;q|su0QOy8v&h;8jMoHiW*zJCCyG*u~~hutk6`tSg}IcsPLfc
z$&`T)1|*D*dNB?6Xe+*r2R=*T9=6kB_OZpFzt$(0g5T4i)a=U5NX67yIju#ah%qVH
zQ&Q1XIXbNysRRa(p<Ra!mZgf}SYlc;;t(B=Xc!|`HGQwOs=o2Qy=(wXjKwv$paZLb
zbyalIEEHb}OJA5{!D?6&Eplj1j>KYcOJ(iJ>BI#UULTVa30U8h3c-GeMZ)qSD1dQC
z7n^kyHh7Sg5IsugbWlECylWLt%!o|EHV1Y-F<_Dvw6IVV302Z_F?j^f8eqK?QQr$t
ztW`0_!fE#L0UaDwsn98N@1T4-WniQnI9F~&zQgIVV`1!yCudS{p&n-(C~c-fZM*+;
zP(F$;1Ys<xz9l@k6iZMLgW0)&(^WJpMaC6B7*u#S45EsGNjisLM)2!OX(5)|UtBCk
zV<?0zA(q2*ArYA??V)@Ouq|BCH_9f+D=12t?Utxi@4ZavK_1Xkp!D-E;sqy`!kyy^
z<4NEvYD9$zxPR1~qFz>1;ei+w>Reh?4$6<{^QXQmO<X+~`l^st6}gZ^(T!%7i~bNw
zrmgs`$6gFy!4-?y(Vyb5vK=*DjMdB=HU%`K^`J};l~I*&d3UC}_@*#k-O3j&lvvBT
zm%-wPnW(@tiy-p5LV>FA*5ATk{~ctD<n9y1-I%ZQK@h}E<j~)~_V#O^bPn8?oUOLc
zItP|Uvp-rD?$k8p-3@tnQ@(v4{QlyU+^&K|oc`tGOLh6q0Vqq&cL_`>1V}@BF*Ls3
zb6}(A>0Hm#w|Wle{D&7$-nRR1*X+9EuD?36G*aL>U+<>3?Y>>~)WS4($GX^l-$Ok9
zulKsG-Y>U?;1%pTv)XpdZ42>dM?yi<9u6z1XgF*+KNv%0S6Z_!3St6?!af2<E<`EX
zFNy}sbe2E&Q8ZH4T?%gnrVShx5G;yUSc>Mx^jR%o@Qwh6kQha?YS!Rqu|Df)X$`hG
z!tC&1CHU>e`c{EaXcp+PLOxwMP5`Mj#S8GY5w3FvW#Jrl2QzJ{3zM*7COf8x_JbW4
z#SjNG^wuFe4q4wQpP>{wz_b(nKOrv&9LL?YiJZ9QCS2VgiT97B?o+bwQ_`O!{hyM~
zKaofOM7lq7HY~q%%h|DL19wKM%|?GQvdG;QYqH0Gak5xgzPKi=omq3hmzht*-bJop
zgVS1uP!c@Wj&9+j;Bs^RWyh*-b$GQo=j|#GsIN`jeC4CvH)nG_Lt9uc1j)b?`A0%`
z?T>K&ysx1kz!O}c)jeyEuNi9xa;<xF{=EeWS_|l{ttxN33OE+rBU^3um27l*e>Rqr
z8n>L-c$Txs-LuO;&gCfx@Z5nMv{sSB+SkZo;|U0B*MJk%(VcJax>qyE`SP_*%lhhx
z<)7thy9)v|Y<j!}37$Zpc~`-SB^Q=(FzAcTb<YE(EddGf*ak8Bj$pn$c(3Ll*YO}Z
qXxOYP(XZ=XQ*w3S$3bh6IF>BpSVH32?yR2O^Yg#C?|~L}{{I8aA><zb

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/gc_utils.cpython-312.pyc b/utils/__pycache__/gc_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..09a840d95ee7311e4a3fe91e6d6e115e6c93e95f
GIT binary patch
literal 6677
zcma)AYfv25mA?I$_Y4d#JwQm!LywVQ5EhDTN|ud40zHhjV(i$gy;H+<GYsmP9^dW}
zVgfGWQpzZHN+|1HNJ%N<A6tu8-deUQmGVy~*&kckKVYOlI!aYs>#d6aje=56{AY8{
z?Z<$MIBA%3-{-#0Io~<=e<G0}fln3R$*fcp^1oPcKChkG`~_s@iA-cpCBs(A4Rfr_
z5A%@ns*n|jMGo5p)syuOds$voeOdpopXE6<kPQw8S>B_Dvf<${M|h%ymB>BLnrXO#
zC;deB-XOB?9&guGvN}K11>Cx*TrG!gh{IKoh9Rw%BZ^-RDm9~`Tmj`;xl*Z9{Ck0g
z994F)7Oz|dExRYVSj`v6dN9VBzFw`6GZYG0zh21asiNzU7kYA&kc2Y1jFC{abXuV)
zYc&@2*oDn5$jlRk;9<Z)aKnP^lLbYT`JxY|h7=a$x#1c1$f6>S@~|~=*gMI`{AQ%T
zw@(=<q<gj8XeM3!c~FASDoCRmmHK-n)(&&WSzEhwyjzkpdU8ZnuvNy<&}uh!c1ud`
z$u?;sV~k1ZR6M1rs**A!Ma?I5MV5?AR?+Q|hriuyX!(RTG7dfT=I)czhyOA!=qa6)
zY<9rN9>rJ<nvrxW!Pb>X!M02<Rg417rR=L@r-ni$z;9EAO9!FirbvP{Adz_}*}_1`
z6h}Q%oGe^DLI~w@J&+e!-Y<K$j>>ffh~eA`8F$3i<%*o{*<7dj?PI6-@xYdjc2@Sv
zyd!K|S7d~pzT<UHuAIt#W4BY9BF>BsAC63t7Gf}U!(Od~#z7gj?SBjZN{3T9m3>Ck
zDUE}&KKYerdX>EU@&vgqyh<jxSYYt{7yl2R$sISj&LK0j<+h7W=aU%~1wxbZNvbQ-
z%a<>|km&DC^qo8VQvZ>IdaPLEh@vf?aS3X}rq2>Lnc_-Kaa`AOrbpG1vTh1##V`Zs
zuBVi|k%4Njr9-Aip;V)$sN}BcW@Ot;riaOmDd+}`38ttk>L|sVF$2h%$&-$916uM`
zcZZS9cjPnqb|Xn)uJ-GNQ_nno^_0?~W=1;llg5~q>$s+>*^YvdQS}axN|uS|Cry7M
z!PGiY+_g;u<4*k^m_&ac$PC$NY@QY04R1)0-1qPKta9ICWVz;3scRz~-H6mLq&|%_
zZ8RL1?fd@alIV@R%st#Ey?^nC7Z<13_MMyyY#eBr6W<GOw6y)}vmZRW-1rH<*3vsC
z-j7O;{UlI%D||D&Qg`&D-evLLg$Mp`{PD4m)HeQ}@W5!}Kr0S?7~M4=z8zj^eEz>$
z*Ut{Eo*nvS^reyqdwiu=!5aVNM9<UYr%!jC?GSzz=YXbM?SWPieoWW8A!F&<IOLxE
z?l8R@->Ri{mpkM~;)^6E3>N+NZFd(VZCm80JH}I#NhSm_jy6DE$0bO#5h$KERq`~k
z!)aUfM{$4z1WvnZ??UVQZ9i;V*uOZvJhXoD-0I15D_!STD*IRb{hQE-e8>&Pe8@DH
z%qoe58B8Rynp{vZA5J9RC?r+8#g|CPS_)>bhhcO-5(ya)+Jt#r9Q8W{cc8Zcxj`QB
z9*_S~MbvX@F}2k9!FY*4_T#=yOiHbsXMkI1c}y_17$J{s*x*>7%`?#Q1UB%141z2&
zOb`JRyoy)$DL%!k_(ypLR@my5{eTjINih~MgSL!<oiE;HM%DoZ2P7uOGN~~M6ik=K
zz`BnXR4J1K0Ldm%^_*UXoUBmYNao~BE^Xn-kY)o$n>48vBz;UPsIrtws;ZPtPL3#v
zq+ujeV~Mg!ho+Ha>MHP;j4?&ZQ!NE}X>l{XXz?>?iuP@Ao5e@DVp8}`b|O>TEgrV8
zZycrdiSM3W1{>`5V;0lxJ4s^vph;pLijriC2yA9JtK~F9%VkoD92gqdH#HL2g2g?s
zA(UVj!yM!TQAY7)jC5SIWC<~o9<+ka(YvMs;a_hB0>Zm%ADD{J=go)Kn@_AZpIB=?
zi8iCY<R$Urv*H8)K_)MzCqD)NY>IeCDR)o60?&<|(tm^c%oD(+t(pvt_{n7)6Q+b2
zZjyKL@tcOr?QcCv!$m$LWbr3t+(kI22GCP*uxyHqSCs3W+_;NMP7NUr7QxNAv#`}#
z2u}aj)$WAmMK~+jQ-n27i$<+8=eUc#P7U<(PKgF87W@9fnfheEvs!nb0_=1Lgr${o
zVCNRFlzfhpgZFGd1kj!bKQC15VOk5QB@KY~sfsQo(R)*_DLF$rqQuj2EHV+5EVpkI
z@JSzwx#P@WTFEJt>GPoJVO;?rL59<~t(hC~o?<`nFf{F|bTEEmG^-<=r?hNdRSYE#
zu+5x5K>35Z<FKI;!<aH>>7X1xsG9*-EllpY;$CS8{5`kI8Qd)eDVobzgw{Yp+mXbP
zbO14%K)15_f}t=y19fv5II3py>694)<aR2U(lHRB$B_?uSM(_)Xum<bnPzsnwWxV!
z(Dr5%SzX6t$3wPp$2-OjyI8eFYptr&&{4k+WQLUdWLN$CE4N=+P}k~?%?39@bt|F9
zjd1lwC_2~wX{h0`mw-MuJ+<2O)LK*5Y~TIx{)cTZJd9S)SKO{xD6U11F7^G#r4KKy
zxAm^J^==A$d&O+ugK!L#zM^Js^m_?l&~RYA{@7~$v9<d4WpVxZ*;V+jKl@2)b?=4Q
zix0!qw=UhhRN}d+Grx`2KaAGQ_01359$5JMrIxkY_*%4MBZ?+u&%X8DU7zmmDhXtF
z=W^|O=iqAR;L7nUtF?dk+r15cs0l?XN&!;Q$ZSk3NLyfk6b%zSh~y9whIR}H@kmWk
z&ZG=e$m9(AEH)oTQpUy@7Lnk!>Ud~~je^Ht3VJ=q7p6-DlI7Y>OiIy4PsKuSi9oVw
zEcGteEDe0{CM$m2`WS01#*8Q0xfJ}|56u?-HvbLCJTY9ex06FsHh|n;>&ZLH{8xLr
z=51R~(OsdNao`A)Ta0;%KVd3*o+?UFkq|fSU`R43z$B>K$Rq>GbdruF(~6@<8jVXA
z3<q#W6i~%$8gyselA{ogO1eU?L4uB|)FDkIX||AWL#3vQTu8C-PlFC)N>Y|asg_0i
zVPsOy0vIQ`KmqF+D@+moEU2c4ZC~Iqe}TEdm_X4#G<~+3n%+^ir6)wftgx!lA%KbV
z^c)O&4SqU`$P9TLB_7|~7r%3H_Kh1aJQTe<WIu=63*Wi$-Aha!wn>2-7XA*Hz0Gfx
z0|Qsdz8!(hmX~P)hS_nxoB@#1%Vn4=2W8)bV7(lQ$$UBRD%Tn=)NOUnX8BPLLi+GD
z_w~WpP61*$3`Ge78S)k{u)FGEt`<m4k~v_^%d#H<SXd-Yj48S8p_!D?ZU0TSueEF)
zQOCCXU?|LJsyB}U`6q6k+}zQ>n8HZeK5mRxX)|;Ow;nA7h>1Ic>1WFVuhfpoW-NC<
zgvQ=>6N@Ll-i?f(RyF9WpNVf7q{Boku=yjnRN>lNS8iTeIJemKAbi9!Z6V8yA=Fb0
z)U4ox85Xo^6rFDR91<qd0cSC~=}qSIN=}Ad;1SRZNCtq|8+hK@!2YjaGrbHWuHvX9
z5LhDwaup4CyVe`pR~y>bBJr8?8@|ZfZ@%^B!vnFULu&^*XZ<CS3&if~B?8Gutsm(>
z?p?b6VVo5|9{K~;0!joz7!9ub8&>@d3zr`FkCY<Bzl-hJ<g{%;ovSH#VF?)2fh4*%
zv#cxk?7EW#9vS%Z^GI0-AnX%<BuvAj3jUR^-GHYn>)T0l9KLrzRM6>p5gs)<A?BOl
zIr1vZ#gTWL?1u+Wag|ATpJG^#43>SAjLAHhBGxo?rSHm-i<zXF$;G;*^92fl1qHbV
ztOhfOQHJac#!=RLmZB<I^q#Or#|Ve9Qj&TG##(}jQI7O2;6O8IhYN<JrBcvA%Yk%G
zN?=weShzzAIk2)|SoKUAnye==E2O%bQB`oHU<pbtoyj@I6aAi|_lTY;D%~a*8wB43
zm5ZVuY6_~7V;&0xBCt4!C|<y7KlV<*%f{BQ!rbM$NzNV<IEcOoLnh&;UjzbPN|e;?
zo*4ik30A)sdl1;SQP*&{caghue&OlG&Xt;jv;Hpy5^VguqUycYxi|jt@H^`4KP(I^
zbgzUCt%!%d^g!E6VBc3d`uIPH_VB__c~4KsXZmcoG6irYw?%BOh%Lboh($P=y9(+>
zG2S43<QAXe(<H^e9sv)WFALw43%R%XcPm9QEx>D=Fpl8<#3ze4w!GMt<BM@u^vVOu
zMzfDN0PG0ii?9j~e$)H}IElq$Oc461R@lL5WoV2Nvjqj27i)6CZ3>3hc>;c$=zm@U
zfrb+xufr?XYhW3txoLh1p1kjf5Qm}y2>;B@b0G9pB6$4&F2H-6P~^{?G`a3U2B7em
z#mA4EA?vW&4V#`6K07<lS(fDqoJL>#dY+yscDaIqaq3R~bJ=#fqvl|-I-0iMp<OBw
zq0akR^T29&|LmoOI`A9ARddy|N9TIxuFk!F-{119=7B%yxYM`lc5^Y22^~D*X_*|w
z`!YjWO*e2I5K2Sy5Y*9^kT8J`Z`qB`*to7YeFl3Wxd}i0H6YB>_J?MZZ(ZN0toqfd
zGix=^{pZAT)BW0`OPvpD+m|P1F0a%)w-Ktm^~}v@9^ukIZ;mastu>!oZ|+@f?){|q
ze)GVl2kJM85cb06Jl;S3ULdv4bIkF7r@E(71Z4}tWP`Ci%=S}!9%GS-8L}N4(0<+8
zT@W5C4CT53&xK5TO)qF3*bItcgc-o6!#F-tQUn?^#LCtiCPm$_{A(7YFt3{754uAP
zAFL-Q)M8UqGobYhkJzzncd||YY3uds3{69CG}!vLfs_P}<2Jp73;vpf;Qu$|0Q=wd
ze`L>ZNXut|+PPQO0{dsYUwRw30qzk&`sL|kT*V^-Wb-vH%tbf%hqzd2UxYinkSY;K
h7E_y;l%yc%T{4z?Kb$NP$bJmS1j#4*V@w$0{26Cq?iBz4

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/hashing.cpython-312.pyc b/utils/__pycache__/hashing.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1b4bcd05a2c30add75be40df428bd9e6848445c2
GIT binary patch
literal 2462
zcmbtW-D_M$6ra1_+0BP0O|+@dp%!uJZng%sHk3jV+Qbi%(nOIhWx0FrY<7~lAI!{6
zv!R6|J}5reijboCZb=^c;D6yu+7v3+^ri8|w?gWRPo9~3ce9Zc9~`(dXTHvvIp_B~
zbARpY%OfZ(^$nF-g!WXYT@sOC?0*iz2C|WDFyt6j!%%X9C8`PCCaXzklPu+=t7$!#
zVi_k}&Bp6;)tsHP(_f~lJ<w*L&D%Y87TQ89QOy6T%oL5VV7jg+O-Vgh%t1dlZ8B!o
z838#t>9#B*I*+bXP$v;G_P+yR1If<Za(wEpwdf|2o$j*Q`LD8NY{t888OjS$S<bbk
zgZ8Ge8CzN|9E`T5%~)7K#YFG}ESxn(6Ps=e`_x*|cfnU$vgx_lt1lBv;y_S$2`|h}
zmdD?Fe=MKJP!^j6Q`Zk9rUDDXsmbU%vE#K`6Tx-T@HoLuFaR1#_(qdjV2UyChR|9}
zUZ;|qymi>3z|w=wpp4jKc+Qgq%cd!z0%MK9wUqm@?U6_e1Vk;xrnUs9A@;M|-_r(e
zc>#8zhdq~+u+NE4TpLq~$(qloMI~z~OR{~J_->PYNlfVTshjFsPGE@b%N!JMyGmrh
z-L9QeElC6htDFepO65dlDt2UaSg)bSx;&`ujcM}=Uq1JwXL+oc2{Vyf!?YbZz6f8L
z{cvXX(!yfx%GLSB`RVyj!mRQ%qxCQ&nkK|5%-D2^2zfsdrnTCzpqpA<olGb=Vf^>`
zigf&nPyMnq`4W-kwcy<O4_3~R3aG018VZ$F#+*tZDHD}AoMV2A_kspp^@AYBp}LJ;
zjH03A8>PFYd%@P~lgj0XmCKI@XKsJITNwQI;@21No!Ke8^`uaKSSarlD%+{bKI}qA
z(`FTB{+l+ov6bkeMq24pWjPbI-E|i=db-CWxr-V}^I4l35eq~N?dhrcs~y1WJOJFW
z+d=KH1AyxJ8m1rtI2!@OKnCo3ZaHFC+179bU>u>Y?c<1SM*?y_B4@;uF8rv|sO^e6
z3xV%@Tml1R%Lgn{*J6Q9I@nhDuA72dZT>~elnTppd`8x=kUX#e*sz<?6#|uzqJ(7t
zv(UoQL)vVr$!T&*L<C}GLzU@3NYB9*Glc+U4s<b9HXP-GBi!l`NJ2Jf(FXnxyACM_
zXLM0)5jfUknGhCgnXH%&(^lQ%<6NPGtLzzJyiZ9Q<PmB3t1u82BAV6I7Cr(aC*cz%
zsDK7<prO|{&fGn7kNhkj55D_y0`NiDa5Movf|(6?8Ej+aZ8$*Y;DuOFqltL5^O`Im
z*@3^Eyor89KP5Kfx8Mt-m|Fj3hRAlF>?G293%jNR84~cxO{y}fiwWn@g(Rv{R%a=I
zS!LUX7r6G3*-{~|)^KY|;RK$88pkP4&2$vKEU1%FR&3jg5EO+#`FH)qr>^K=`jEy6
zTudG;4D+9vEFhQEB_P7R-NzEjAvlWQ5ahdBd$Qir$L6Cj{|<a{LVG@la>wqhJ<6Wk
z9T@(q@3-vGom-Exr*{WNw{xR^<d1E?HvZtkgR$-5$({Vvc4|t;vzX!opn|J#gc+`%
zhA^%3E=(O)qe-9^KLOJENc$(^+BJA)u9vW0cfHsf=4-V^px9Tdarl#nA*tT{Z~z_!
z2G6tl6B#q>7FYiaVFnls4~@3Vht&?9qm}dYz3wA@yy*713yx<8j9lcWU|zXJ6rp;a
rGz{af95UYAL;b&_zNhH)Q#7)NdiOK^#@YQ-1IF1Gr~8d*L#z4+cU*+8

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/import_utils.cpython-312.pyc b/utils/__pycache__/import_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eca64d4049623c769e84f7251b22f8fe402f414f
GIT binary patch
literal 19180
zcmcg!eQ+Dcb-x1+AP5kIM2e)ob^MSlNc@oGFIkpU%aRo-mSvBv*bZF<1aU_aGQPZb
z5I;=0tVd0x#<A$6t?4?hnQ5EIaoea()4J_U5<BU{ZKo|bbVBwlPxIl-B$Iz2Q>h(i
zI@90Vy~76y$hFM&M%sJW+mE+z-@f<u?OXm!FzA=?B$Us_FYJ`0pU@BI@z}sZMwX;!
zB~9v;G+A>c<X#tlyY08qtMK2RUJu^xgg05!TO(6hCE-if_SSOPlkg`4y#Wrp5_P>n
zeD@~mlcC-a@-}I{vr6v@t@f<cyHfM(4O&2N(3MkL9At{`u^LGlP_#OfU!?_6vPKW!
zcRhYL=`~vDtn{*7xVPCQeN56;oRzedFS|r$Zwt?BKwhKX^0M2`UCnb>A-Aa{cMZ>N
zMsAB<TPV90y%2^q`a1Nx`m9puZ#~a*X={MX1{+=rc%u!k1H8$G*8^5<cmv>88{P=G
zZPXQ3#|Hfe(<w6=PZ{cvp2+CTP??^Hn!2W%X*HhAq?s8{4XVksmQCnJx8HwaC~m0u
zXT+27M3kxVlp0H?VtU4;8s?C$_K9kVcz>T=uiO7~qQUX7Y<XhQ*pLpue-Cf+#At?o
zxeug9>FaU*w9YIq)6FbP#RTC*O0*?PE^I^sP9ZLllJXfzmR!<!VLoJO)E!pF_V`si
z$D(7SKrn8`qlx%f)QqQ7YI=Ypc_ceHNCP_@jp@bFQ6)w_y(C*9su&p>h}dI49(Gx+
zCX1$wfiz2kQr+5UDw>SP>;jRj8BZ9Dc%9WEF~HH1`u_eNGnwhh#4}xHlnv@;*GTr(
z+jc*CtKI_w^<+lPp>(R}bRv=L;q`k2@kC?YnNh2mqrs`Bm0-hyXni$xQ;%dq`lV0u
z+$sM^Y5cy@w16C`GV!QJk$5qeEG1n;!g1*VDeR8EjP=MVcO-6@X%>$~6PVp(Qcs!2
z9zXvAtW&3xiEabzVQ^9+heg?_+OH4AQ<|DO9oOQ~E+ZN5RHG@4SIUf19jXvj@8d&O
zhgmcOep90?okgv<*{wdLt64(_NSp*xsUN%V6TG@%M$N3D4#z>PtXZ5<n!tmfICOwG
z(9}oh3&$vyWeg~*8J3Re2Dp~ywK$~2XeSk8Iy%=?b2zPLqOnJ#gF1~T%Bx`vx+<_1
ztkk9U*#k=^x-z4E>eeCC%ouxmFol_TcbX0Mptn<c%<L&G*Aw2Op1_(&4-CX(;6jcG
zVPg-!TRjS_i7c9)(Nmh9ij5MBo<4T$9!@^`h}CIE6A7%z;UPUmG-5`fA^Rh*!CM0w
zgnbFA1p}*KRy5HkM%5>Xf??UeuQ4D|f`)Pcy{DY96vj}%<vtcqGnzasVuKdj&RyL*
zI%z_q3Gho*%p4p#3oU_h#1vtz=`_6qiFnKuEWoF@fJ8c_gL5!#H{ffU8G5l15=Qpe
zOF7S;Y(d_kC?sEe5ZnOtfPLH?B_>D}Frh|DJHs5rV?$!jFfA!9ng9w8R}aJ!x}Ypg
zGMAOHC??EMb;f|5n8E(EIb;i>B<I1x3>WJ@0CB-Z?*L0Dml8A?A7l{I;Mg>nC#4VD
zBQ4-vHrqm+^zp){({WDQ0#!wyf)6oEMC`0VON%dtWHdEeTp!K?gG|UmJdW}O3li~e
zOIU+Q(m$#uAx5H)>Vnk6x;hj+jRlv+JEbK6kuHfv4Vz?#!94m%G?_`D29{flb;r~8
zaw18YX0f3?yKd^<xeF`s#y;v>NT6cJ91nDEuN@OIBLNXcQ((_Pr)ucbGvth6WCh~R
zQXYhW$@X_c;&F-G<*aBfo_TSjXXmcnH{Gg&Ege(^`3?-2B+SqmHElwu^+R8Fsu;AU
z$4HuB*s*kmxT}Pr9M0!>+q{Z`=`2HGP45S7#87AeSVvl%LBu3RMW<X<9S^&$7Q(O_
z<YZbT1HKuB<{*h{1xoTPugDC`tO063=qFYO&<fgGM-*U<$ZMq{AtV#hySGT5uAI{O
z!@$akdl=~(D<E)<5SLlC#P#Uc9E#Z%5Q<2Wg8y#(Us%s=JCpMGbE>qIljm51_HTNP
zOXIR*Q=M^*yC&*Q*k$6;<Z<bF*9)$fNz3ASQXY4m@(H*!op5~|-#(!4KxqvDj~7}#
z;~saLL?!;5qTw%k#-+W;soejmm5T~fNw<SF6t5eK*ERNa&HzWby;anaL{~K$i=~;y
z*CSLeWFXHaYQq{MDRU>7L{lMc%Qy>s63^&Dc{%*8rDFy-gG>&tv2G+AgmkxUb>LU`
zkeN)h3wA)CT~Op;#+cqky>>b5$NL>yaXjtFS0Qb}wN|aDik2*e3>vG&$mp>M39$%g
zlSDek4Kb_n9&P|0Pn(Cy0=SFhqvcJcqZ%y06*hnIdenmDHbxDrMr0dSKp#P?;#XK<
zt3XxOgv3&KVXs||Sdd60xO|1p<-AcMAZx?-1Nd(|j$}f*S})Z#UD$tq|6E|_Okn4w
z?XQf^298b~ny(2=j9;#A&2`*#>5)tK=GqR;*58%$-Sxvj=)&#iZ_fqVa!MQ0w}Z_W
zK6U<6bHUD;VCTgXv%y^xhvzqKK6~&pcmMX?lYtp!{k-BMcurY2qpX`c{D#s#UtCna
z$Fk7`Q8H#THIOP<Mk)Mw7K`Fk=~rGv;^wfkRDKi7>x_KHWzyo~&ncqAq6bUMZs&}<
zxU9zAV0?Rdl0`VSpHKDux{*#mbVp%7_mh!B!kzPCHjx<ZBD~`Rad2TQ5j6~MX$T2r
z$=yGvZo&$TdLxsFo2&&t3j#;XlT`z2FKU_$Q`wHsd_FB7y5a(cwIa_bpUV~|P>N8Y
z{?Uj-I<_5UPf+<=kW5H<pR{4~i}yZv@5O_cR?e=!aYk7)arflv%faTkV8=|bWBQTV
z;LeG|mjexxw@mGx4Rqv`4ld$is9t!;*d}T&?8ac8l|De66zE>4kNGK3n`W?ru+v<F
zl0*435N;LAxJ$}FARdw~xGyL%cU+3OPW}dF9inPnMy?V=YslMyJY`%tRS=sc7%AiK
z=OxYaLO~d@H74y__;ZSH*_~hFt$D{42Scr94Kkl`J+(_gKWCILxSl!y$bCjR1A#{S
z3d$W85YHW!!oK5{LW*iEc)$Kw7MjfHIs^k@to}aRWbL|Z1RJa|KTLTRRrl>v+bp?l
z%zyj%{(a+n_l@t{#}!`KD|pD41k-3yGs@W~0^Mu*U_u+TO|V={w>+HT!XDNGT&+4L
zI^~-g%gg&PEDwKMZhSOoR!Cad;$kD1GD7%9(iz%1MiY^Oksj9#wj0Gy;=l1%NG7DW
zL#yXPtuvw4xzM(m(6)=W%!YPN9GP!iH`mxc)7U<J@1^@^8+T6}n-4b41vktDH{>>U
zUvkX`Z=5)MWrftd{%WwM&U>W}(7C(v0jakBM=k9O9%Y3e?@9N3sNur+`SGb!7n?5D
zTzo9Ie&-vZT~|F)Fm&O_`6H7jrw`87ZN0d1wr=};OZye7c12QZ{dqsydxu)iOEn(v
zuikOt%dZyP$S`Ox_-d{H&SvkcjW^%9vi>!n2k>hvDJ|oEhg%o^nsdJ{^~!M6z(LdN
z)?B)xxpfbm6bhUQUd^M|47fBeV4n@w0Is!Ra=`d)xE650hW&u+Y&ZZo2-l0$TdxI?
zhO~Nexu9JIZWeOjtmF<H7w@S7ISs&~2Cfz=u?oK%={K-w0=&v@wHa`e4YvSpwqdwd
zdRuImTq>(=m|QArY?xdsYi*cZD(h^RTq^6eUGz)a$a~*()&r-Epn;078*R81@Fp8>
z1FYI`JK$Cu?f~4TZN}KzwJk_Hv>T9a*0v(uqJ@#(fWEfzk!?pmTeVK)g|#lE+q7<^
z+qE8~oh9_zfi}BFcZP4YRz&Vgz|}F7PC&hq#SlG-$>hQvYY=NEJ#462dKg<xrbm;o
zt+5}bJxZont>`D=^{`z}>5%!bSM?Ey_E;Q-shY;#kCDBr!_lK^(Cn~_u~LW98axEt
z66dua>5D{csUL~-oqU8_u-paGZL4YVV=>;{CDl&ymavCNrA-+5#Vs-{p;5lEg7E|g
zfUeo5($UmFT9`z%%pZ9Gh6Og|4tj}n`q6CWWMOB&)Ldfv0Ne)fcJ+|lf%4K5!eAn+
z11)ulCc+#q%l)W6%1HE<nZ+Qx&?RI^mg<rx<*+>VX<n7EJAr*d5}r9*ry6j5B;Y5Z
z-4Tf}SbG>aXb&?cJxrRJ?=TD1X@^28HQt{!xe-ZpAn#rVau@Z<pj<rPLT6Lw@WnO4
zGCS(@rVIP*B^L}VJu$#;2kr*h368J~luXOm`fE+vC{-o(0(;9Zh1znyR<Wn>U{|cO
zGFp))<$AXRKy};aWuhq_GNq4O-bf^2Mj|iC><;9;<YLf_5<7sT6k~P}8DlLKFr~^*
z;^P8sgC?Z;P~%)^(@bd7v~M;P&iTT^Jg|)<6cH$17n*t`!VaMUb{CQ|?2aI#GIpr*
zJ5=Q`CB#F^LNWcZs;GRt8Y)!h-14K6s!o+-)li{2pIv@b2EhtdCg^xIRH)9={|Bg4
zr^<a*Q9+$&%2Bab3No*gZGDjld}c#7U9iY#b(Q!M*!}oDwx+_m64ibWpO>sG|7>V`
z&bM8#^KzirpH3&7se51%f)7?hP*i#rpBe2Sgj7=CwKpv9qr>zr+nCXcCkM&GhY?O7
zA1Nw_d~P9}9-{6ZMq*H-kiUGx%6jpmA}K`^U!+<EOqbyHp(Roc1gD;=Mm92a$5vOE
zS6=5!__}0TYiC2-a=vZLB&CFkiJN-TL2*AiEt8skgku%$BP#w$B|L+(q3)coTTHm;
zbTpCGV?;gYA^1a66X+VcS%PlZo@~;ctRG4FWNXN&h<l-xuTaG(CCelBfguc-5)9cA
zf(}$es!;K(%ZwD5Fsf<J3@_1(LxfNzF65QILCAcHlI5WgkTJ6TRgpPW4H;hPmE}h!
znRO(`Qi~x`4H;hPAC?&ze<YHOn%BZ7Mfj|%ATOMH-$a2WBBO3L)RpsfEz|sg!%dde
zwfO0(bNCpcSxICRD!xjjTgGKq7l{mDp8%h3b*v1+YC{F$6>EMMMU2HJYW-}eC+F)~
zCh~#(vB#-Ox-21CX)W?f-y^au<5~pAfnwLfXPEG*#Bol&e<qaDl#qC^gqJw|(M3Jz
zlt~ZUbaKS}0qSQ2Nx7IGLrz7a@fQA-DlIS362?$`pt>D9PWV(Jno}=FC>4nI(Kj2I
zM|N$Lo~VYBQ*U;eQ6im_s?O&Vgij?t=aqgy$SmWO0hy6BtGeiDXIc>%Ug<xU85!)Q
zuYt>1!llv{n(AC8REnEa89$xpy6h>?C8ZBKbXjcFe;RF9Bnz+eV|*={qvgOQlQyd1
zLVMzhxbQkZU4C4m{Z(=K-D<e-IzL-xT(Gv|DL4QN;%4zQJw@nLk~U7YUl2w`Y4ee1
zs+KU)^pR?F^)w;0wt}LyYhA(jB}PhMHq@E(bqXy~lhWb{956n*WCX4}7|O;qY<sRI
zfkN3X=kwKYwrgL-cXojiZUrv~4PgwWV%2C!Tl$JLv}?V){P=J)s2V<hPz@iu*89th
z5AEsoc)>DX%=1%(P9=wksPx~2%`)!d!9{TI>IDt57@a??Mjg8r&hD<oJt0*8upSS6
z1d)`sBkd8?FSm%ujZu+4qMC>BDbNQoq}}0e3nZt5@<_y@jR+4U01V68IS0lsC=7V;
z0l0Cd!Mx~&JA^H-IKt)*V0MJEKTZkx7TIx1$e+gDSd3gn+zZ3V`@#Asp?x}|eKDiG
zD5E_fqrDePQ9|1ZW>7-bF(Z?dk;%u%&SGTQun9^?jWg1pj5HS`mBC0>Gm?;uq!OcL
z&S-5hVrWKe#Axyu5$q+gxP_l+59Lyl#DC+fAlO;yimTS+%Qt&GZBs^G!fQIaK(Bm*
z?AbPTctOG|@4bHb9n|gQN!|}=Y9NmmJ1=>u;m&uEwVhh;nL14wJvK~bdM*x>W(l|%
z<)<Dbm{+R?cTe;7yLofd&4qS$Om8802j!R6b;@56`PBXPi^Xo7&s41xE^VR|cIfs_
z9onI>7n5$v>!N<T1YTYAy_j&4bWuk|Qe6c)LW%Ini(&E#k77d$#Gs$S*~ijTS4|mE
z&PfBZ<~du3uz0Vo;LMXwTfLf(pUTpCD4nwU&PgM3Z!Jzo{MO2nW59d(y0K%A4wRkr
z*-;)iUZTJ=9(EdaVtuqU&XMTE4eQe|?US_=bQ-0nq7?Opf(Y7-<E)KguOCO;NNMn+
z$wuv9CUH1dJf#vrtvGWmbj2eO7xxGEsA?&+{Q2S9@yd#K2k7?ua_RZndDpn~IgeBl
zDn5=li-^mi`6!~kDVWY<WD%H5B8G=vN31f_Ul2`*A7`ugWi(+y?(*mtxQxiYRn-Zx
zIKPS?V{4a?9p{*$`IT6%MhgnPHz8g21<%*a_*TE+TbuVvE$hxHp9=^pqn6I{t`TFm
z77bvqXiGe$v2zbd>>_e;rq^6*=!lUVK)cQv*`K3Ssik49C^`L&5C&syO9!&JObZQ&
z)C9&8+B~gYJUSb?CFi?^4}_l_mdzL)kP^Wbt|H-Qe0VQ@&bVr&4~S<f1nkL@N%1=T
z(G=%w@JYE{GD!*WrvthGaZiPKmzVAQQvn+&c{$$>Nhdc-5|6G@&UnUM<DSzv_;@OS
zP(%fhG%lXHU+|pqmc&zeo&Lw&Pr4L@`#p)+i8Jme+{5y)G~)iGG%SZb$H!LPm(X!2
z?}U1*bQ=E1nD-<PG#&G)U`e`)@%}wa$gkQ5!?Ym#c>ui~CeEV)8B9|It~g6KhGSwB
z5(n(M7Or75I37;JwgR#OIPpb4JQ$A$xL6+Y4;xnf0URGAAUU1l-%yjEs&Zd8XMeXo
z5@WYe8y;GkhUHEgg9c45tyer^HQa%Wu?<T`QF^MsmiUJ>AU}J(@c8-1&nbDuSKEBK
zu4%5WeWtE``p_G7;j0Z&XhYs52X9?)yF>oG<gWF<cXg$-V%<BE7lqaRv+5ml>fssn
z@DJ1@&(uwNCbRR6EmJpte&7819haIe)m%FLivG$&-#(ICd(Y&-%WF4J$7a`VyX4NT
zx-nlPwH}obJk!{G?&z=cLA3Y2K}+oErf%skY7gA%{@b<#yWFp?T}|mO4>H1j_5up9
zKceJCN~S6K5+x)8*k4jY3@EISpe-(9I-LgL9PQ8WiJzn0At?2yRFo3jZITSq?(dOS
z_du)HE1q>z59B4hrceBmUU_JrTQ9bg61+9<UE%SQ(#LB$`!2o2(xb-8l#H_+DkvG<
z4()-G@s=nVg!|axJzm@;qR<~wG8EQRR5G>fYlM0$B_vU7DNSqKc?jlfem{UkQrdlO
zDUEd}MG9?=+M-QiFQFw)Xlr9-A?MhMR%^BI1rdudM9$sCA@Io|oeV}UmFt@-w^b1C
z-86TbP;ZHFU$g0)@>FnsUB@})`@Yp;r&dr!s6cbWNpuWAxn!>tKaGGv$7Dcx=Yd#~
z$K~fG1o_!*^AHKP83mxc_&j|RF#8rImync-f6lUFH&hwoVzGZS4V4<U#r{{4UrN5B
z%<Vohv-?Qy)}ybleEqi9x94tta5nT%&i7CiWl$J(KN?!TQ9~t=B;t=&P!tHbaUbWj
zU|+{4%z79vRwT&Z&`)B~GOFBxjIp*VR4ECAp;%GlCKM*U9-3614L%c`?wD)aHPf~$
z*LvfnotGZCbXRWEo;Q5Azg@q6ktE~vSt?U#30IXV?C<F-o%EE-5kAS3bP+zp*N`K5
z$dS#tO*?33u=y2;61=_*QG!>#UiLgJ3t958ocDT#Fu{w230`9AsKprm7oLJJ8A4WN
zi&gjNitZh7QS7LuK$H|kOAYK-pKZU^!hZGQx7W5`{eT0yLbXtW#|m<bHV9@8Sbn<Y
zcZ`RPM_<4Yc?48nG1Iw(sP?B3Vm^$3HGZS!krR5#NHe$uhD8`zA?&N<7Km9W(^CTW
zC(`{r6q;3<Y2W0dptYU^Fp7vsc7)rDXfTROr6?_&Q{q0NxQN&$cCH9ri{a|rV4H1A
z1NS&0>4cV69b>qYM}r|BMtPK9;>jTRnoMcLh~XwC!u3kSQ$;M7u<>wPGmBt6Ty^Rj
z!L^}eGRi;|+<L-=5;SIG1T(?lfqMf3i15bU6<h`y78hjFDfBxWrKmHpBjCYjd|QA^
zDHMQ*KtNsV1O|yHH}4VSfC#`r#Qy1`IXfQQPx1c=ac`svS5@G2aQ5$mAS>>Pu`gqu
zW2M5(gA6VT`v8!(;C4G;@o<fRi5HKC`0AofU$pqnE6^(|CCMyUc*ScNj*W)PqqaWr
zS^-R80n=u>RkIXTxERC?7PSvwoCrDQ`s2GmiTxubG$x_pX)sVCWm=@M$gKs<ag0`L
z7Yajj<m;sMTh1wO_*Tzvxt-qa^V_<iKI-1K_X}TaoI3IRn(zDC#o8oUR~8OJ)Z`TG
zK&#J6u%!$1`rj)Phf0V}r}%Vdy`yR8L9Wk%i|@Sv$7R#+<eaK=pyK-)HKkK4isc;W
zRHFkG-{W$nk`C6mY9l`&VGmI6)W9CVN7srp=}G)Q<9fnXw8_PW$zQaLg>m;f>ay=q
zvVoF~l#p3Sn?(&56ya?0W;2Kl)t#+jD}8li|6AtsvOHWojIAi0coG;7)2u&%I+%2&
zrdGY&v~jMfbEXNmNxpXSrIWKwx1T#azxU2_hvw>Tn5nzrqB6I2_YD5k-G=>Q*Nsmd
zym0sVyQh@7)mvxquP&UgmuiC-g6D&CzV$P{^-~YN7<n%8hOcWr)O0TR-qnz_qWv97
zu2tt7nx<~b)ouE9-i=@H^Vskw4>TRvFTJ|I_Rf&|wHo)Ge)nsB4`557EkW5HuE1Xz
zpk8ecH_?PyCN5m`IQuKC+rk%<mI;4Q#{o;;#fxFi=GM*r3E$bjQ9^3m@t*%X;HB!j
zxs>q5IOI5ye;aCG>w&vHd(ZF91vbsE+w|g|=k`3m_uQeUj$IBlPnyq;KQlgkqBOXv
zu$)krhR7FN3c&vdF&q}JKnlx^D_d-l3z&OG<8Tm<HI$J7Md8;V63|}o8YF0#yy@A!
z&+MHIsX3o2ES37IyB|xTmBDC2#YTvjMa<J3fGi~eFA|%j%!>BQcjyZx2MDu10DK?h
z!#-%0-_!BKRV{fB-r#?=WBTC5#_1!^J&~`W9G?_w_+>3Yt3#gV$*~0quY8-^vwhl)
z?IK)(?ge_~{cca|)T*i2b8FtkZxN2nyDSr;g?T*$97-Kal|*Qz>pS=>1vZ~(au&h}
z_x`?dKmSVy>Ip=tsPO@Ho6sj*KW>9vz_;rI;)Z<r-F6+<%vm}`q2L7<oR08rBb(qF
zS^UKS(&5~RhKM8s_g_$2Mapo0g}WBWNnl{R?l=hIDcqg+lYUB-83q*9Kcq(yM^E42
zB@>cyH7G&XKXG_Y5%6J|-`pyR289|$*r%f<=TSUMvq*xo?7Ch1OrU-G?%BYOSCm{}
zZ%*0ExhjTYg{MG%>a=ugP`q2kNqXBuL%3}K!-G3O?3+8d=AKE6L>|>yN>3Pls(lBX
zU*kR<#UHYO-?H1PD=maAIpNFxm=aPNd|Ph$XgpMoT}Iw-(P+rqg!?~%=E)~!16y*+
zmg`6Urpm}`x}J&XnQC~~*x%WkgytfI1B9?s;6G8|Y&p)j;@Fx~1k+y^!Ed<+&Vza~
zSq<x2jue%sh<C7nH!t#IV1B+F^T%fc?Kwr*JlBQ!?Ugadr3o{g`XFYhFE3Vc3=K4f
zMdf~qfjmtEA)exFlWVzQHn26PY`uQIxw*<naA`LYO$}C?0v~oOyg)_l>p1pKiJt-8
zFO*Nf*et*Kdi`kctBiJ(#Z3HN6`UZ5+cwqEU$MAg#bK<XVJs>63k+w9hC|jRWRX{@
zYss~QX9L@EiilW-1wn@N@o+nL<yj44Lq?aRotuYT3R?BW5B$orD{XN55Rwt6<|abX
z4dzBmmdC_jyD^wTuoo~kZ(J{09;OfKBWxFaSSdb4a4`|PPwW&8;WZ>F!*AyEEr#X0
z4;Pq^#Uat!=)-nOc2h#0Lhd&d?w#-8r=?J6yAWq2wHS#3Mk|UDH!_-9Mg&<bJA8YE
zKHAUz3tvGk$ykLHMxrcV@hP&hP$$W2-;|o(lxp9U{BKF?-jde8B{ly<YIsX(U+{b7
z=64!4$PM{B<P~zmbUS>Ka>J$eS6tr;{9RyX*TDt)o!{b>H&4g%5?&W$3-ro2NUoYI
zt~%Mf;0BZ@=-rK<bjh7pBucN2D6O(Tw|eVU3Gb^%<dyifq3f!I_tmXC<krcxS0%ji
zL-^}JsP2{bk-rqL=@ak{%lqtR0p%N9@(q(63ld&=ze{eLJV9_9!5xz(!5svLrw$Pu
XCb)f4Be)%ggS>r8yDH(u7s3AkusS@m

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/jsontree.cpython-312.pyc b/utils/__pycache__/jsontree.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ee6b5e47460fa7e9f930e9f6777da71259c9ea22
GIT binary patch
literal 5946
zcmb_g>u(!X7Qc5M_W13@PVDB@=_3mc)M=BHq$sJ>v|V69S=xk`x4}4`Nn#j3m>D-D
zB)biiT}MQVD_H7EXg8}}q*N7Bk#_$8KJS-U38D;LZL4Lq%QvU)2jJ75J7Z7mCX}dR
zq`5x#&ON_#=G=3C_l*DHa@i4F67y~Xc@X+H=~OTM33SSS2BFL7IV7M660kr?I7vmQ
zBpsnK>C+OEWFxFDGm<4~jaZXhgiG2Ywxm5`PdXwFj6|z!hq<iej5y)fBDs?8h#Mmc
zi8jG{4I4%y9=*?*eXrOcHVU>$Y7a~heS(er&RIeB3wBfXkda7}$cfE@V-RN8(600V
zTl5&%I;Kzbn3#UiBRFfG88!mC4VPg<aEncbhTsutLz-j+??omO6dgi?NC}NoSZFj*
z1h?Q5Jc4i1BKR*d*NhiNkv+yt(KCfbZ*`{VA^z9;1{U;KROb+X0jX&hNHuSzqxeK`
z^(_IRc^3%x#6m~$i{9G!08-#bk+!1MWcUDD!CEa6v-(H~J~6PhDkOf;ul0WqMB9uZ
z=z{)zqv!#fEj2b<s`1~ZTOT)~*Sagc?a?B-ZM)FjiVx9f-$BExd%2Y-RgDf<4aks5
zPS{(k1-r>k*6A8$q}wFcv(gFq<<&Dt-&c^wl^6>KPW34#@E6%gOI@C~LWb{yn77Tc
zq5X45pA@BxDD#uqR9sD@Qwp!9`I)r*8b6azr}>nqsG`9CV)U0IyrRn4xSEwkCHxKX
zCPZo6$(SU?CL~ego>E1bNFl6QWKqb*#Sp8x#$I~%boAttr%yip)W{Q>ZEQ9po{$nT
zMY9s|`IxLR@tC4&T>88yOX-*}0{Xt;m>QoJg)uRuq~)hlnXIa4RCEmP=e~CmU&drn
z{8e;pJVeQE@Fc8p)zPqKi&kZgJs*>@BJl^@PQ@!6rALy5_5j@F5;RXE4E(5?&*za^
zi8n&k$jhO5^eWN1=c@9+DKy@M&;nLrUmMpvuCm~1VA(fmgg&G$Q@>?du(ljv&@8UA
z$W`^!DsQ7n%Cz1(j~>LrJo*q{#u#k%qvavE-Jj4iI7H1I)z?cEd39P&XQ!rlF&3ZZ
zB{4S1CsKTD=Y<cCge;mpp(Ij@8cW4RjS&)YRkP?}Ry6OcN;(xyKq5o|=)9<CjFf=I
zWz}p35`&T(;1xA|ULnEd`R^a^R+E|TOd@kgjmcA@dgzU8|FMDB`o(T3G0~lwRj1Rb
z?(>qA?9QqQN$Do=Dy)1sGb;xGLT?U&piDyZKlJSd^tH7i-}#Y$!`gA9q4{##rM3?{
zawl#E9$Llgfvzu{T}5ZtCXE{TuWi2k>5oqRwX-m^VGDiL(7e;EK*@qU{&yWE2XZ~~
zEp%Lue6Q>SQ*ZU0cntpypXjmt{V+(Mb>b6!md}3XB61&wR%6J1nscgYIX)dW@>q6&
zX57px=#UGt0+r!-hWwjFSMkVIbd{3Zpsxq35-GVA1~iWz-efFOiLOjsISjW#QtkpO
zaj2aygZLv><PMl3?<EZnO|1<bQg8an6BD<kUEU7^_xFBRxX0^on}R<T?&&(*){dVF
z_nA6ee_%VV4QA-8I1K#pyLukMJMc(&9^aow-lN{5<8%U|J>H1WImnm=YJr}owwPrJ
z&C^w8c%NE^@-9v<&<oUPEr(&%WR&V$xn&-oLV!+95p<x=1$t-HOVqL#P{Hm!m?k%w
zn0}QcwtnRhoKN^7N32wNvC4s?P$`1nCMS*pI<ELVW5{4_22Pc^V<$2hX%<MRdMJ@I
zX;=KTjpBR3ukvHi`~e#zKaa+}I!&8ozeIskm2GK|<#HpCGa^K(r*sJGJ0e7DRQRym
z0$}<ERmh_A`~_ok+6Je@l=wzQK0deqo_!h~l+y8-q#O^Mb6x>eh1780>a4ZqANn+V
zecuPsm9f<$Uo;*1H2a-GIN|N)Jvd~M{UFM4xFC%Ma!o46E)9}Vf)Qf22t&iK=^pCp
zukbvtd$+Z%M`6D5M`(a6@7fX9SYb;bw>=$ya$IqI<hsk!Ui<A}=OreO^G8ZFa=Dj(
zQ&3mVta~0RIv=_b?7Tx}ln`yR-{p|q4@BCxVdKB->0kE@eA>Bs<^#_Pvl9E<`|$P7
zqGw=@8@Q>n?a>X}zMCHZI(b=W);&XO+|X?g5b?Wju5m5jm3;vF-5opf9#cq4eH<8W
zwtVLI4Yx5m@zhdh9c|u+c(g`+F^qzw%9~*T7vU~f_|1;&uC0CjAZBC&sW(X?bdzR3
zG!N|e7GU<L23)8E)U1hALQTY^I0-4atJe>N_$s}XZ8F(jm3>gjG&2zIkVlmOJIw&s
z8nM6(-N-8-Tt@ShfU}V2bw!cs&=zr2_i7z6A$5nD^VGG<=qRC;PwcQC_-)*hp5)b;
zG!GR>HYui5g^y>GSt+I_&Wk`o+n7fO*|98sl%JH-NvNSFRiY**rl!?Lc?F>LqT0wo
zsJBENLJ?ojicmw5sWBc(swqk2^+GDFKMzB_M9NL0(m4v!4+Q%6<k2x`paN({oF{)^
z@z*y!O?hFX?a|fe*4uj5J$-9j-`9?Y8=Uhd7c4Zbb9--ap0bs3T1tpvEk>%Ega}aP
z(hNYSwlW5GuMIW2R?*st?;+%molIv_5RGY(Pi2!6@SOqCHfqEBm6>%kPWGct<2(o^
ziGzm=Sg2ID%N(hujmq{L;?am+-arIH(9v*IAs|&U>;if2pw0_%;$DRocA)8xVW#4P
z#$ai8PqF1l{><|0@M944TTV9=(;BU0llnTrQ9){4h4^4>2(4k8A({O7@E0<Tus77K
z4tLSrv(eJEdUT`Z$hx~{-O;ng^ysS+YS*mMsF03Fqnan4mL$>mN(;v(;xb8YnVb`v
zO+P8qX-Uy@Mzg518OSJ^tfNdep-gH4nUpFrIl-YMCzYwzOseZJq`R6(riGXkPUs(7
zdZ{Wq$!r&C^s|SC??2f*bY%Fm2};svG?q%GRoE@?=@^a5aJE)5b{~-l8)$R_s&?|u
zM$Jih(Ks`?K`@$?#N+bMVT{B~iNWiXXpHe43&Ml{Md5#<wtt~hpQBT^Y42Bz_dm?z
zw^?Uy?CtRj)R$EO4lmZ0^W{=&wzeYE4u{XnMZT}d^j*)c4Lw`zKT~ARtc^WiWS)o9
z4BK*{GNLdAT6hHCqkF?*&mAvXS~h9Sw%)Qh)|`8b7JieZ*nKe5>d5uxsa*eJa??t)
zekizMq-Sw@)5fr#k{wx{x#2vWdtx!Q>0sHWk`q~Nn=T7$BX;e%V`apF-9`#CCA$s#
z3s0_`z4A;6fw=nO^@*$J%0w&$5oIq?H0E#E8}lP;z5^>Sulah5_P!DggSQ-fiG^Qq
z$I^Po3R0P_Du6*lwVkLA=lcqc`GKOnjVQL?a=7wLezdSZ|H36#(a}y&+6fAmJD5}Q
z!?~HILq#?~AlpsIb`vtV9WrP@p1s5^4H2|p6-{1xcyXKn1x=u!3DmJ2sDl8p`H8}T
z{M03P(a}NBIt;YVJe5D0w=RW?Y>+^9n2;SNWMDgF;FiOeA6^<HNaQ=t;?7Mho+AJO
z6ChA>dT{H#x-bMWUOBdU_Rm8_$KetS0|cP8@Y0HWWxU9Cm91pxpdM=myL5m8l^-aa
z%?}pse2Ip^?a_uoNEi!u#|Bcx2Quc~1x_Wz4-Qcu+y}*}MD+gZ>`oDZL32SshIqQY
zB`cBaBqR=yDj@-Bvl;mUdAZR0{-I54BeswL_ZFza*(=scfMM{K!=FD(@($z*9FYiI
hZvWy7We4eXQMkA8;>yI8b0ygFy{qxN<VR=L{{srk{_g+)

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/math_utils.cpython-312.pyc b/utils/__pycache__/math_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7f8c1c52016d4066adb15b6df41e2eea0e984433
GIT binary patch
literal 1400
zcmah|%}*0S6rb5HE%rlN6-9$O6pYkF8n~c_m>3dIXyR9lTsEb<g_Z5@W_GsF4Kapz
zpz*TA13hvj{wZE)JV^Fr;>lZ0J$drI-K{AGWs-egGw<#1H}B1-TrN#u8S;BQnIPmF
zI{lT5jh+g|9#P3MQK?2%3BH6zYe`jpCofCtQ0&WU68yw~p8{W2hhhKBpPV$rhW?6W
zAeL-qOF54{s)#k_3f<5}lhs_aDs;<qSk2<Bv9$DPCZLsot^`T0374BysSg%3+Q5PI
z@*wue7TKa1;z2Y+o{<vu3X2+)HCLIcH*^Qe&K!`E#4(Lyo`V)+zZS}(ZkKJ{zAY+z
zRTH;2-TAwB*5|ddp|6zfrdYGga>Fp{WyI-}>i}5^%^ABH$W<uMhoKbSpMzN5lCQb5
z{;XeYz1+EXD3A6aMgnS9DH`!Y1R?r+U?6&xt^*)Wn^dLfdC;lXgBfw+$5?xi4Ll|9
z`tvo7ncAjcwzZ*gX4Tjno7T;$;W~OlD}Bcz2Q)~p=t40xb5*PzP>yrp;11&{kiiI6
zP{Im|Ra53TGRfefDG)#@HM}#s?H-Nfk1|=m;6K?N{gN+s^2N{jsZM6<P@dvv;NYno
zuf!ast^cx9CFCD-On8&X(dJr1w_N96JmL3*XHn!(jDR@C5c3Bao`(bH@K6y%#PGp(
zqt9?}e0TiAwf%`sVRC?9KsN*0Jb4bUL78X{J+Pt<Zc&^_kVA2|rk`4_sWR7Qn@m_t
zguSb9%@M5b8bY@X4LjJJiJ0I}9Z38FC_V}z9@?m9!yIcVuFc0_>oRV`^~Up8Xua^C
zv|hDmJK6Dl+R02D$`etGaPIpH?Qjh7B4Y4^fT?#Y0<2ma=BbboEx!cf7|e786Dx4U
zhxgQfDA}A}Xg%~Rt%XDRQV8#HDHWs?MYXDm5+rm}gpVs6M~)o}xrTLk_&c1s_&OHq
zmg*YXeSQ^UINQz}5Zwf&^hc7=o86>DFYYXM2`E2O?ZqB?-Ly<^_)eFAYCAnt-Lofz
iBwF+nm|tv1YCnPb#co=nWBw%WjI|@RKlu~AkkfB$v^p;U

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/mem_constants.cpython-312.pyc b/utils/__pycache__/mem_constants.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e72b0d5edb61d7afadf08b1c432bc1f57502ad20
GIT binary patch
literal 275
zcmX@j%ge<81UW3-nQe>=439w^7y$CY;IkBvn$D2I5XHdBkir<n2qc-Jn1Cd66munu
zCTpgH6F);H1A_pNI5o=}$YOBt(`32D;p-HiR9TW*e2ddJ6UO9lhp{-_VS+0eK7(xf
zWv^e7TcBT%S)f~zSd^YxqFYgFZfTKio~oadnWSG(S(1^Tr(c$nldE4^l9^MipPQN+
zpPZjpT#}eqQmj`{d5gm)H$SB`C)KWq6KEdD1I6k<;sY}yBjX1)1|HD{jvEa64|s$d
SIBzf*Jm8i<;TN$3)dB#V9Z9<Y

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/mem_utils.cpython-312.pyc b/utils/__pycache__/mem_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a6995068c22e84d0a1a16219e5006ffcbfc84271
GIT binary patch
literal 10482
zcmcIKTW}jka=X9+#ESqViZ2i(MiMCzdO#E@i4v`|ELo4!!;H(8E?2y}td`h?2nw&v
zE@+WQ#XOf%(N*j^T|Q27U8U@NMJ_uPedNRW%6+CP`QRRyTHM;MFm=94{70KgT^>K_
zo_zoWA^BWMroh>m?&*2-^z?N1@E<xmLmZ@n@Td8=_Hf*<vEn3#fy(9(&v6eqnUnbf
zH)DPI8J^WWGamSQ3f`hHBk+jx7JNnjjKA11)4}ROAy5p?1X-Ccgl0mFE<6)v-w1qt
zvcJ$-jLt-PP6^7p<PIe!2b5S&kc0PpAKJ5-i8Gi-4&4)Gc6hi;oE*N#$&n8|R)d+H
zil0F{0UC9nE_IiUjR7{k4ZBO><_|c_ZhYk(N|(Ho%|=jm$-K<xy#0XA`Q@&Ag4=h`
zBA@R50?DS+ycxWtloTpyWt#SwL0QtIY(Y|0)0fLD1sNLnvQl<V`2u*#vF7=6;_RZP
zsHXQ;rE2=AqE%@ri)bf#p@4sze*hV51P=`7iu_%k=a%_-pVO@IUFJTt>F;`$Ju-j$
zJjbaWS739TNx#Kw9ZvgYkJI{fE-fsbevQpQCEA=qiqf5Yv05bRoJ19w6qRC`E|Q8u
z0ZSE0CbNZd_BP3v2wOvj;&#BY!eX|nYUQF>uBb~x(2HpGAVLo$E0sv8tdUuTEGe{{
z7EEEGP$<#}(3)en6iwVp07Hr}q{zk+Wo03sRYXbCXnwY;DW*4H($ZcUL~1XLXGXV@
ztH?V-$bY?XL@QQ~RPvR>nnYok!*{Bar%v9URE`w#vqvh6+FZGG1ZQ%js^tsn5tysU
zN}0-{InaJyY}vF6M%V#=>Pg5}xPSL^zR~sWKBN1x-hKJ+_tv_nSEe`oTqN=6>@UNE
ztHPPp)R`LO;lWSC(ffZ?3lFUdLz_U$WifLSGLvomi%@vTX|7Pr+fwf|#ILip^FlM!
zD#OO|OXJNOtCcmWKwf_JhO?*T9NX|xSymd`nf99gii$iiqYHVeRiy&%AZ&=~V?BJp
z(OobE-3gf)MHXc%Rl5mI0B{ig)LzI|xX;5oj4;u|q!!*|gh%!8=&CTv$hR!onf~TY
zpnAwD9I6^nGXdG7c;^EEY)SKuqH2Q6{1V7_&Ley8`DXmGpmadl2dX0=`|oixLAe9+
z5FFf~x$8U=s8`ssUZv$+zM#-)({IUHwwcrJe&BK+!r@!yM0e0d?gJha0L2x<(HB&u
zkYg1U$q2D{6cELHDX)p*(qOxBGY)z$(5NWVD_p%Nd0%)ZY%v<w+Fm&n0JBv&Xs&9Q
z_XDyeIr74k2#(Z}mbrF}ZBiB9X?EH_;LUipN~u!P#7aTZa%Eaf`$1mdAY~kYN{69)
z({n3pc4W(if|AwDJ|-?Ur6pBjRh4cjHVY{M5=OU$gS(u;nn{+@ZMoU5=|1RHMfR?6
zzX?oy9tiy;^yARmk$Nm;#7^q5lOON;yMezQsKqX<1}<3A=^i^Eaz$VaDj)*fd@~kc
zm>kxEc(~YQ?sbl)0GamCG<?h`%0b>eP#^GYy($vevJw<UU@9m+acQXS@?893AX57v
z18EuBV+>8|LzA_kQ}>0nz`%N}>%JvCSpix&$z8~w0py!4q@DHwMl|<skFo^f3QRy9
z#**gBSzFn%Tk+hY%__gesz@$hav4PrLNha#Etk}4QIQ>GgWF2?LzWg8Bh7$vCo5`;
z6~*kp(t=bl{R}j#;!NQ}XdFr9&U25Xg&qegbrLdQa*`Oy<9hOVEjfuy?yslz8mTco
zHTL9~F>z6cU+N+vl283yFpLuRPQ*IEOa#Iv=z)?{R7BAXiDI!VR|{B<h~giDj<qqM
zVrg~`G%YMbHT{+d(A_WtuqFy+Nn_lhxcT%LW@wyPqo9JKNhjL_1@$;&_qZ=Tyl?PP
z^}Qdy`$HpjR8Jj!a$ZlJ+~fed;rID2^6x8~9DcuwdVRY#Lq1=()gyMcMNd1My7@D}
zH1zZhuuo>ZvS&t6e2QQ8o(3$`I#^AxYXMgC*|i|6`R!VW)jI52nAHNT7MzJFozQ29
z)xtATB?h$!tAW`ECSnxw9r6x22AY27Vm!Umj9PmA^^#Ok=gQhr+^Q4R23Qu08Dgvk
zD?_?%hI3R=oNF$^t~sX`&Q@i~sQ?PL$En3j<&xM8`BzvtOJ-2Z7Zp{Lik0hTM5=0K
zppn!nRkkQ{_dr^gJsc>fgQhRt0dR-&O>jr!;L&jokB44_7G{S%7(E2FX7$o3ij}ge
zIrmX=E2rQlYQkPZS`;sk{cy|(Cx01E)+6zsT>J60ccwSITx4*&s>D-<Q{B7*OKZ8A
z5XVxxn`z$F5>BgzN}UfkU`|Q)%DiLKgSK(+I_>$R#2os@*J0!LVaCvtYivN-os%qp
zQO(bHH>jMFLrsqZ9&MhM<lvV*3mo06Av;-`M?<M4Ic?{YEeNP?o!LB|^_B!e5^n)P
z)z-%Dy1#}$sAyV}Gb@+@n!7B)SVK;^@dYSqot9+Jz@4#%3Y(>Q)ZZ<sX*4u4Sz6@M
zKFjW)djYW2Cl$a0ku<mnEDr?g89c^mZ`$((Zr~RkkU=>NAIm-Qe1V<@W$<n~g5_b%
z(0DfmJmO}=HZI`QYUr6M8pUJD;3C>B`4ZSUXOQY8gm>gs@OXf*8<Dc*qGY9tG@CEv
zwME*4Em0)QptK<63(_nYnP;&cvqz$es?Y^RrsuHf%ZL(CZ_o=+1ows@7^i6_ZC6TN
zRDsqR42x<}b(|e$ZPIT;`=y>&m}%>%z>KXAt^!UqAzR@-3rswXas%YO1MeO%5=ZsK
z(OP1{NKER9$<>putzN%TOMK_P@OJF;%*0>Me=u)kF6fyHwag_wa1bxKzDL7riG%h1
zXIBHm>ye}p8P+4iYmt5RI5FZU^!SNd{N(EC@9OdIK230BpOHGIr;gQ9Cydlfdg`V7
z=hq_1^?{Tza7Z6G^jI^FoYCPoaE5jLG{g<=dGE@*SB&HdJ$a&*Jjw3cbuw&_F`cmc
z_PjoEUMJ@fG5Bf!;Cub=_WyhUOy;Pili)173C(AwlhABy_NYK!o7>q0aE{wREh%ni
z??8K3=eT3q=dPWmgZ8er+ScCHJ`D`CZv(aGgKKL^(7p}SZjXncB|-Z(P`iD!r7={Y
zeH$pYm-&x8AKG&T@6$VdF&$t>sBvhR{5Qm%2|By7pyjuq^WUL4*wO@An!YjwE9e$C
zp+gka>MWSft>SOPDbT5pAY0)+jSbd&2Ohrp(>EV?8|hOz{CZE-`;tcAsNOgF__%TK
zv<|<%)AjyAqyK>3f8g;A<M0_Be*I^D=XQg;jlpq!aQw*)<M>q_euG!*J&A{<pO)UQ
z{^gs0@uuE$qTWCBbVo2A+Teo05EI^Mux4jqk`_a7FIg$wMbVt2Con^k)P&{A<*X=L
zOhXlK#zavnL7YX>@?a|i%2iiwIsXFo#ViJ4wp=dI%UDMRLcfPui*3m^2(u~pQ*)60
zG50S*V!fw#<;nwZP3W!n_N`of&{Y%q>V5qy*B<Px3H@zhNr;E+dXTLNunCEk%lE4_
zApwjAl3{>-C3t)TUj;^dBTuLKkk8@@<3Se2bQ7LwOq(A=_P;bnLts=gW7NYbVI}fW
zhvW0kbSe?RF=KQaF3NC0G)A}KVhrb)t#JiMu+3Iw2LvXf%v_D7<7T&|tF16ZzI5v~
zMXeUJrEv>PDl9w!a01r_ATs1^p+HL2;w(r%fe>9Ibi=MXvkR@#+Y2I#IXb3lSHswa
zdn^laJXJAwHtbgy7JWm>-<s1@n-Jo9F<Hq;FtC`Dve3(-**UAgMW~3_3&i50cGa4w
zVs=V7bYSf&JrCS5BX&(>*Bi?87CRX4X{Mt85ejHFf@+3RYmz-b7i4dHwcRjmmY_G*
zQh=6iRBfA<K4{rS$+l_fhn6_~mei(Y$DfBm2?nN@dbe$)Cf!z4vgFN-=axo@s(@cB
zs~K{g#phs8$kp#az!W0JcA##GEbYFOKlcJ*n+Ty;>9!NXbM_6IjIt&`e%NXTd-R4x
zWe^W*yBnQ#vzGQoH^2gbGig7~!{Vrf8S;eAVumM=%9tI3tl6aiua+tm7O-e5$lz31
z__vYpO~_Wb_2|g^vaxSc-#7WOcXj0S2FHKvz<PX_5g*m#qaU5p<Hw$4SEEw^f8pRW
z;NuLwUytwqD6PjQp1i&qJq7KjQgyTwCUi3KH+h|$`9;_2(1l-I--vZ|UgbBu4JF&E
zPU-h?b!^$FO6d<UYgs$fml$EQbTg_zdJD5T%#d%USJf!Jjnx+Ic@trnAq!L$GSr@@
z*HdIw=zRoAlhm7vL#b7v=MgB?R6RMkGX3BJ=*3?Rr$5fD4PRb)<-v<J;qtFW4t)IL
z+Q=2aPS=DhE!cVj)#(V3Z3v)4AMJh0xvCUrVeXg(6;Q~R6w&dE+5T<|e(r_Fn{_aW
zu5$bq^QoPg^dU6H#B+@k(e4aB&)xf4TGSRTscGC!2j#%Pb>o&jBAWgzK?v8=<mP$W
zIaAMb^&oia`5FI^hk1fQX{G-^UMzd&(UE9LUpK#YG|-dlgf+TD!|krO{U`u^hN*W~
zSoY3i@UbNUXI=g;3vC@)kLWt1&<APh0IJYO!_oA#b2RVzU}kL`=)3-9-?D#+_0iTD
zwt9EDu*m<F_YFSnk^UQmW1E%+t*j|`G<XjyVSqXl!tmj?Lo;Q)nOToy&Pjr2F1#Tb
z%8o~qg=^Pd0bLB<Whtvzoo&5pryQMLRpHrfc9Fcgcpaln<c&F{L?HGjqY=Pf=-|Po
zKx}HOE1cVOS;HYE?T|D6Gl>oXHIWKx8D_*H()lH8ww4>qmWo|UC7H;1P-*PhO(seS
zo`lM!BE+bni@7|^t|%=MJ1|Ssa?!c7;5wVjtE3`PjldUdQnypMkP1~9)(B6CxSXwQ
zfVpQSV1c`QxeS*jz8&I*&~ky~wM>Y0cHO-pv8!@PA(vjg!JZo7nUOug=HUev$I;4U
z0uY*Vt4#BXI>pG3W?DHemEb`Txy*bE<fS#k=j`G5woa_u*IwImC?~d3K92x4w5nO}
zr;C;mU~}Lsf!J|LgDqT8h;j$QjRj@OV$L~B1euZM2u|DCSj@oPwi&cYj!u!I1grsf
z%UsO(6d7xenQ$<S=q%cR<m(4#61GiD53xQ*^BE=Mh_Y)2r@!fZ$8o-76awyzLqpI6
zBMg(?zDQh3=D1B}oowe!PQU!}wY0_H^Hqv`btgtfSq$o%PVbmC4m0Y&z|Jo)-;HQW
zNiBnc|8)~(`vj}oK235Eq$Za`F9DR1bvEGz9gZ&ehM>r@w-qou?ZsI8<*wzME@Hx3
z1hf3fEs4&8#yo64`XQ6HFRVS=|BqI48ILV!oh+C*hv3|l4&PpY3R={b?QLx?9yzqR
z4}pe2l>{@j7A|Eh*&xogZ_~PDv~eV?rOY}sPE?O^9SNVcwcEPLW~^i94%;y1v*lt1
z6kJJDn?|0nH?K(#vI*mMJ7>zV@<*ji8Wpjehc^hVut;u!$|#W>Ef<**hX0O$r?rws
zZf;e_H=A^=>q)>r4%}pFE`tG3h%Vy42Z$_iI-368o@d2p_x#`{ky}p<&I1-Tn@K-w
zB;dl9SC*UBtbYgPQUzHr5KAgu*@itQ5U~Y5;*hBKrXjYn4{QVWmdHZF^!K1@hLvJP
zTeKW$vlsUjp1Z;MvVCJ~!OW(o%oSk%5%ULF423xb7(%w(h?lX%{3s0XHoUBK2Q4B1
zsque-(8)I=az2-Hd}uSyYPeUn(`^Ndd)Q<eXUm?Kil#2E3zGF82yuIdTprLWG<g^P
z)LyV*|Bd^P74E6bbH0v0x$>hc_pW^^1hHTU30+962}!rUPZ##B38SBP?x}SSuUuRo
zIJ9zcP3T)s9>8z^x)3sieqHD{gx$KZdrjE89*Vzp?Q_B3zF*e9PZ#<Of#?ER6ZWik
z^&4IL^{)Mo_ZbJy=<w@0vvRH8J81MC)O!y;&Ka3=I{bRiK?JG3`>?V5q`vzk4n9;T
zV+J{^le1VGtS9yvi7`DfhPB>x>|jjq9Yd<Yy~g0AJ~+7wv8zDe>cCMwaP-MV<Je^#
zeu2yIwB-x`lQ8t3Dh3bUx-fd-01yA;fkEMPuNkt<LiqO~OJ;r_;P^Dn{=osGZW(Dd
zOT7pUyZ;KNs8j$5Mc>g3=Bg!#q?8LP#SyHB0`?FQwhoo`_}dAaCZc5p7Ne$GzBuzt
zyO0RYU+cA(h2?HS)r{J6vn^J($t`ZE88~gdJikcq0tq@WssY)Cm*@FSKgaL<gbRMc
zg+Jp){+S#7j2rkh*ZBz-`Gni~8*X^R&v`n&^aS|S`>$_s@Ojep6@E6o0N+6PMvsS2
zKk{yJ@cC`1oA3UTgKT4r^MrrvIm`19=ENKc!W$Og+a8AOK^$Z@3ajIsCt~mkolk6d
trg`39?;Y9jvclw)Rao~$S7XEP%a6~m#>RBt(XV`n#x4fFWF#!0`afpqo=pG%

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/nccl.cpython-312.pyc b/utils/__pycache__/nccl.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6dd3218625077de9de0ab5427d3bb3023094a37d
GIT binary patch
literal 2862
zcmai0-ESMm5#Qq-kH;_35+zZhKYF(1sx%}q?Ss@bwNXb>{82?ot=N@S7}SY(l8z?t
znBAj3h@-)N01Z<Gl-mMwo{|6s;==zx9$VxC1^Plk3M6mThr;bc--KEPiu9$kM;=9g
zv|8YHW^Q+8XLfgfvwseU0|;7H_?7-kA3~3r;5NR_a8G7|*+42%xh%?YGaScwPu4Tz
zaVS5-J5-nv9O})9Gomwx&-!xGjKm=i(j?9QkgHpq38<nf{6d%ssy@{VG_>kTNdI7i
z362I8!!Rwy(oKU*GFdltE0r}D7Brl$8>sgJ5b%+Eat!QlAgei+@if^cQ$jYvJr>h(
zS_YzhwyB(r9yWA2m_LOq$(@sN_Q{p%G!uGSX3|f2)l)*ow~o+kd!Z%|nnA1G9a9B&
z$9~4Ocpi1f52@;X*7Jl|w6AMc0UPq<=;%c9I&?BwRIsMXS$z&GcvUu(oF-eQoHZ47
zC=igL-5?r~XKzkSyq;oesi`+oZ(e%q%B-x<%S5wYkxgq+!^=9+<n*Fxve|R1U<0QY
z<vAsNM>D_@GgN%}HM3x-vXM?_<#}x8WX)L8v1#Nq!;+U2tSfU_O@3~r3+G5N1P(I2
zAz}`F$B}SD`gZX=b4xaj?5a!(`MilOB9Gn}yCf^H*!4F?bFLd?s2G3N1vl_>BoUwj
zI7Ddsa~@E!e%Gj=8}lahI>Axjl7<OfNh+iZszUiiJx>ESm25#9$JoR)plWl4g_LQe
zHMp}rVy5QxtVY<4m%koPTDg2OujdCX1utmU;7VcS<?r4Z(URa%GQVmqnnrRdo6RK)
zmYyX^C;0p-ZJ*Z-HN~V<!*$#N2H6E6E6|nEK>$UfJ8gZNZGGj-k9=)=Qd>1x3GRk2
z|0#CBd;Ed@ZWM}^Cl4Yh)Ly+%xv&#FxfwiJ3nq5E`zn|B!X4GymD@YvQ=8#aweWf8
z=ifR`)J|UA>bO=5T?2bNQtzhJTZ<2W;@g&fup8_sPd<UQ(Nnp|vdPKCFCc$5&;lwQ
zm5-dw;g?!&wa9Ef-7@~CWhU92n-jR*Mw#IMo53MJvYI)Xc|p!)nz?ppM{TZ9^4K2y
zp4H4Z+oO6^{vpK48ZO(OOlO^M?Z?pVw-GAwN5mFu)v5C~4;kOUpOSEde(&@8M`*lg
zMM3qtE4uqixHaW}>}(T{IJ8CtWSw?>c-UY{BAmR>Mz9A1um_SYfi=;VY;lPLE@=B+
zcw&;fHlVJUIqO<Iq;|`UwIKo7z7>vmpvLf1=q$40?#w=f<&xJr;mVnBxZELCMY|a@
zhi-w5lJ~B6ZJ|z=xn;D%-$Kh=!dLux13~j9Av%LA-AHE(swU?ZYmvxl)36k%PR4>f
z>!j@BYy(C|p?2viAVw>eUY#7BxG^@~091xofTf_hq^r6z$P5go3)9oHU_E_DS<o6l
z8mvzkViRbb6y|cKTF7cCqA7s7P#DvVT1kBk_ljcOo8pDn6aXPu$CMe8)WNtlhB`90
zEa0yFJsB{v1GA*0-G>m_8Upp0gbHjYs8=Vdj;W~R^H2b&U(YdM2FRiU12pP)aE#=&
zH1z@eDVBwC7c(tnOx>WOwxSb@Q2+Q!TFbM-k6GQNUI$Yt4~2*FimE33)a&d#<sk?v
zI0kvx04MSkbAi*~x274CHwzZ!@`OPMt4B`5EZu4B5LFv{k#el!B#eF&KGF%WT}Jx>
z)Dtg{?*-a+0_QdZ=gOmxe1SDwU9K!wOO?|7sqM(=T`61*RYL1i+fwhoAbD?bdy$^%
z-OAmaNdIP}|3P>wGW?G4C>Z(e<@;l`GZ+6LY<G_D#*XjAhPPwG>-=8)#0UNF_kS?(
z{=kRi!PTw!@Vaj=+O;uqZ)D@*y^Fs)^Kt)2{T~l}H1J^g6KU(rr7xqe?soQWOx&CJ
zF!p6<V&8{)Mh@Cgckgd*l*e|vV&&1V!X59xqbaoBe!uV6CwD`U>b1(X^|#kv-whqB
zUa4GJ|IvFt1huy4zJx-NcVAiWs|nrzK8T`F*FO=*0)P?%A=SFxs@?qYjx@a~P5)<~
zXCq$|mQH^ZUyYBApifUnq5o{eKQ8m1qwewJ{O8BLz$ZLZ#LmM54$i^}4}J-hipR2W
z#6N)_w`E(NGz~2grh!yyz5q`YEtSFyR58n2+`~Hd+M<3|5{Fosu3yBUBiE}lW-mD^
zrBdt>1N!X3IK|O9#or^$P`iHK()a5ba}kfgKUR^+AaoED$Nft}+}X$I*jLE^7=`|h
edj5jW{?*^PKE35XRTiI!9bEL_e4L9p=Kc$TBAi?R

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/network_utils.cpython-312.pyc b/utils/__pycache__/network_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..20fcd802c51af60000077195f114dea779194e49
GIT binary patch
literal 14246
zcmc(GZBSchdgwVilFre$00|5jd@vY{jfJtX<FGa?=EJcQFl)#c-BcrV4n|l=<eURG
zL?pzM=|b%exSLy)>FzAP&D_{s-&t>`Gu_U#(>TfY=HB~9GVG!~VQ1WFI#d6u64Kd>
zduMK+=RG=-z)GB*ZKnt8{e0f%{d_*(*Z<eyuu|}ajn_iw8Yt=?F{6L(Ok(T13`MO_
z0wvI4YFLZuVVdL(!v+#F!wiXy!$uODhD{I~!sZEfn4RE;IU3tBVatSd*h<pIux-LV
zY$s_`*fHT8c9Jw5b`84-4)?H|#6_97c%o#ugus}?o(b=;m!=Gq=oL$UOlu<@E)!Uh
z6W!y7^(o|HC_R$P>8V1Hvn)lG1Hh<3;NCJ0R|pod64F*k?-p!tQNvZ45<8Ss3l6ao
z@_R;&f)nz*;3D}Nu~OVSY9M%wf*WdTg(9da7Wb0YW}yVi>IBcWGB1?v+fh~uW%ZdJ
z%OKs5N$-O6en>+vLOG-xg+`%*U_T)4&GcLOmTCB424*+FG-djCjSuT9kc$NxXAbkI
z0!W`wot;M|%%90%+yiyZ!U2JYT75pG9T^oT)Ig7iEfoF<2Zg;~vFanaUiB0}7AVCL
zk&)DjR-sPZqm5D6CmzY9>S4xu|NjB|KI#-2U<OA;YJ5x|SuW1ZtEs?<a2&Z&Swyz*
zDI}|C7xuqp`f&#B@Ua=X@z6ue^*0(+?yMq80VOJ_+@SdClo$z$jkL;iMrI)5rljy>
zK$6AVv}&4~3JI-HXbVL`ia#8^cu|y8R*nWQiHaP|Pz3432q91~wRIAL6)Hw`Q?Ha!
z)Eph7=jrR_7(Jd3O`5=}({~IyUD4F_aw9cEH8TB@0qUW9b2t=%4xxWjFdUV|MuUWm
zL^a|7WCY^*M;*<|#ANeiX!4K}kS>bKp(|5QJ$>TRQ(|*CG}1gdql`r(&C}uVMDvsq
z3d_wAQMnwIF8N8$H#ws^2yTC7Qc@A1t%RS<LoiQ$;x1b-rfjaHtukeIFP&RF7Y{6)
z`-PqV%tRIK+5#9#HA|v0B}Iam(LXaJ$a=gF<6NN>y__1yaqsx%U?mh>LGq1b+a2FD
zB{c|!C&18>SK;)A<2F5&iv=dP+A&Hp#Hc}_A;qCXjNA28E>^N-<IY^Ep31A$Ik{d1
z@sBfeJx0#Kcu8JWCMg*6MnsQ$ABWJ-uwcS-9Yje0e>!FwW>8DDP%?elKvOSMH2g)F
zE6mH(Wjf-jrIb<~V;v<i2oW(}rnLIsV&=PaEV=l1p1JwIZsrOeaPp1s)>FAyU<K}u
zCAY#e)<#>u%06>`aL9jlK()W{+;e^YOfFyovK|@}c`-5_lA@6bF{1F(0Vxz135$FN
zh!4rUAWlkRFrbJ6ABYHi=wc))i9!<}kok~;0MSuJjPO%30F2D=-N<4j0vc7uASFZn
z<$xseN|X;pkbeag{&Gke<Dr@lMk7if6cMEcna>b7FDrrIB_BT!76Y<~i23}10}@#g
z0|MfcMTKBFJHQ77K@w$|AB{@<G|ZEql%hc>5M=}mMkgkwA|afH*0&f4j`3uGzDC0=
zd%{Ql9uB}_5+(+Po+F13x3smMIDS|Q+D^bH0c)gY=X(R8Fw7S)1LN8;geDj=us{B=
zkNn}H2;yj9Dy;Z$y{7}=DVTR4!jFh#0#J`DQE(r&O&n&H*%#kKq)%Y4R<c%Maas(|
zvY8GWU8)g~$r4hKYKY1zo52lyIU@*QLn1In)vPg3mF?{HpY87%QmupMyPoxTpSjT4
zr?Rj)5izK!Hkc#=MgkL}YU#NW6epEXG@^2uR>xH?gHTqDm;zD7jzwj~ADUEYIm7TJ
z<TI)na6z$j05Uc3lgr>7&QqJt;tl7Xq;t>wnH1}O`}E4W8|RX2^=kXy6#retUsoh+
zyEZxJl5^3SHW(evUod8i^)n~Mxl*pu1!vl7GC4LKB}=a?zVd_PKWcxc{m$`?gC~;*
zPp&&oy<e2FJC@Eao?VWv+v`&$o|RKKPJO>)wIx}y?>8pO*}ma8b>DI7QNnTR%P-87
z-TOI3n;gI5>}dw#M`@1D$KCNx$DQ7drc=qLQ|pfQ_iNH-%Hc%piP9tM_M<z{TPSD8
zhNJzyqaDz<fBA*=G4#-*$??6uH~Z2CgQX6zdA$E>F`3M1JAleVut4`*M^2xlKA`JP
zH!~mXvtYW}bovDQK`V>tla?-y`H-bCv>)kyn)<N4uDgl(Xs-p*A2pe}kFg)Mu$X?@
z(qm$NZloa$=8Lkd0`M2m+X{-6tiT_KlAT|S{(6z9v!6Lb%rI`+*_r|cL!d|Vlm~zU
zHE!pp3lEx_F@P}03P)WS%rLqzXf$eS$53yhN!kN=Bs^BCaU>KGBourqdw#G-lA=;0
zqp}$`p_)en6QS^o)Cd4FihG{twF6qLh;VSj(dgs|upvJ|gBHWH2#LWwl{T17-c5V)
zQr}`<y#C$#jlD;cdylT!TNmgQXIU~YnwQyl(L!vU+l_g4k-ct7xk|p=v=!sw^8U)@
z!NcW!Bo_m|tDS78mAYrObe1yryflQ{^pWiL+yU4p>m#~$pk$XGG?c7fGM-&XK$iLR
z4U^~@I<J)>uNAQZb$Bh#Yh}pkAvrzeDh(SmYiT+16k&rcvrJoC%dFfl0_O**kS*sy
zobXV^qlg%ZPJxI4t{ULO(O@8~35?M|Q1tPG8AeN3;&bQE51j4<P6eF5AmbFTOol_j
zkP@EpHL_9#j9GQ>Y$@TkYDb30)INl=Uzmz0p$SntF`z(aPeN!?M#9J(6BqKaygKO^
z)IASBxeo$hXvL))#SO{ghWTfI#TKVr6$!553y$I{;s@WIe(&|0udlPmp>)$y8Si=b
z_<J2UJJu~nQ!dY^&Wf~wc05CGF^tQarWlJ=!c!voASkT3_e0GNy3MC=sKqZv<<yoL
z8fXd+7WuL?WysPL(+}jtsFu*APB6B!1JlPlH6g27UqB(2St2sB{H5`RWIsr`kN|vs
z`nW%XL284}F2YYn){jJF1R~;!Hn^%JR~5gw&edx)LKtu!ji4HP)w_#|Tk4oUqw8Q)
zM6^ssC8h9sY(fJxWC|ND`YK4@0tlr19iL!;L!4Q^??OCB11F;eMxZKC87|1va>}qk
zOkr%HWVu=_%k4%DgE+1%Y391lVaWCQRTvsg{VM%?D*ehsJdY~f)@US(fTYN%SAkU{
z!{Jv{lNK?cbu}{5w-DBdOQ#xf?Y4707lHL>S5`U$;8FO=uR<_SJz(7%Y-N(IjCZZG
ze9BwB;oX<??pqDsYFYChTC^@07X;Y8<<8~P3s=DIa+NI2F3!elue}j}HR-A$C2tSL
zJ>P$M;f(}W{lHtj;=kcv9bEG^W*g_#Ye&8Zx|Vt&C@imzLk%#*thCCVaETM>81<*%
zVv5m!O8wA?s}4Da<d{JUWyUFJ{mAf2oAhl++@{I#1Uog`=QgdyIUWr~@>U1sz-#c6
zkt%`M+1>G>b#`y6sCc<`xjt@)x5n!eu9^f_^PsqNxpeu}xF>E-xb`HtJ!ERCAv9Td
zQpl>dPbx<1$8iwG*^fp&@*X8P>7SB9w++&B(1a}0wjoy{kPwm;DKs(#+Pj~40wzQ-
zs|D#h(BvxoWETW5ep~6X6mMO#@d+bO23UA-Cjff;;Ih>8*owny<C+`w9e`6i%fg`B
znwx)5Itz$q&03CZfOHN@qyY%>Cn253QVjk8Ymi@Si+uqPVbQL5aoiX`9arL`3D>>^
zx9>qwS=_L!#9QJ+@!o{1Ho?_uvw?=$52+97e(N*@PZp^9Ny>>vT{qEA7PviT&9Iv=
zFO_ZvLL<Vam<XE-16}^por698fzF|4B$U0ddyWw>Yy8q=&_5Ya#<np|+_LDT81c_e
zyb8=ygOFZ?c7Fsvc`pPof6uNB&%vbU;Cx@oQL@~(+_75oZqJ{cS$#TTJCraUdVIz>
zTQXy`8NpRc=V&HxF2I`_4Ir{Z5j34(IudfQ+Z4g4=|;P@50C(oSxCbG`p58-(F-$A
zr5vSiPksOLaww5^q@X7IWjEmmP(+55tt#Ya0WV5RPGA-Cv&>P7MMn_>au*D<kku(?
zjs~^Xrq}C}Min(iPt)K}fyrMldK?0lgbADk4r2xVkUs+|2-t17Lp-ujVr-)AHl1g1
zqWTgBvICfC#7Ek7MtD)Uh(;gSvQRw+hICkLLgV@J7{FZ?d1)%b3jrm-g9k4V4vXO?
z(h_PSqGo6YrlTQ&bPE>kSO7)>3e#j1`cXpAVn(;XNjn_WHgx<%0EQ&#R<Sm&3!#f+
z3MgQg$p}PQl%_?#<#47Gw4}cZ59uUhVf*;5DM^B1z!<<I0QS1fAJK4V-KZsm7`g}i
zeVv0tJs11~=PwLBM4htHETKa~!gERJM*1$KRFf0{_o3?aXOA1MHs~WxVbZTn#E&Iv
z37GsiXn|z?nPy;H3n7@jNJ_WMImb4XQV_cP6ZpwUW1y21Q(V=%hWD&Dtx5L4W_i^{
zc}udqWx=^wUAx+UxBvYM$<{M#)z2ij%9OKsv+Cel)uDy{l&dPS??lpdB2~68;og^K
zDOU-odiIJnTV=vnN$3Y0p`hD-g~IYbp!0mTs({*|edsyMp4L3=9ArX9?8T@{04?nY
zKW$dw&|6b^G@)bB+tE~xp*@C;zP>+43%OdL270!fPyspO;QGlCgY0WGs|<K#q;BY6
zWx`@aWl;CSHCByC5+Gg$%$SJ&k<aMWl5P7U`w?8a1i-i9CwD+FPkm~4z0E8>bM4%G
z&!*L}AYMDLJayj+CYEE#vS@kx(D$3yxxHU7l+CHttyy<}YI7}{u6-+EEPb3S;&KtL
zSPJ2j<v@&ja}Ztpxn&zS0)`#m*E6ZS+OILhGEP_94%CoES+vb|F6dVMFCOD|$8Z7H
zv3?W<asl>RIfi{;w`ASgV7Kh0HC7Lfa1a1!?UQdDrO=KK^$`#Xz;-}S#C?ZvyIcAC
zzwC5K&tx3VJ9?eWC!Qyq0*}^He)v0|g5P<CgNBz2xZhufOB~I?p0xwP(x4=yzS+hB
z6nOi<0W9-@umlcR;P%Ar+r%r<3_3iKssRG1d;(f%Zd9A54q1o<K)#=|w^bYQH4YA4
z=;`c}ny|?s45}bdjiCt0pIXfCg8*=%9iX{ukUM6)HIg4oG59I`WFIg^)Mi~v?ThX6
z-6__VV9S70gTu!0GQH`oTzTcjD`0K6-)#TO;~PhNl1F>iy}cjTq&(i0-W$E~)2qgK
z+q$PdRk;UTgQaKaq_;Qi<V^LCITueQ4{8oTbT0NT_AWnl{rnE+ANUqKl8*M@6d|I7
zxAzhJ(8K7d{G2kta8hnhoW5aMHg390S8O+IiQQ*D_9O<r^S^f`24DQ8`=zuAp&q4e
zAWnYc0c7Ap{5NQCFZrA@n(9Bz`a3f|$@XMZ`?{m!{g$sC(zodiN5?N59gor`K=O!~
zcmM53mxsE?db?QW-fjz~8;*3ls1M5Px*6t!Qx-^n$eOy`?1y$1YCrVs@9JPaY^Ndo
zh%t5B*^f8|U_P>w(Dkiej`_K@uBXlPbDtH{ZKhtM<>ws?r2pP%gm9bPo>c{}!tOnZ
z4;QqZv%(NuSX9nxF6iunV}jotofB|{F3)rx1(%_q+7e%8mb+*eFdTR1(s~L6@_smq
z^z|z66`<#4#|M|H2MX83=u1zLmTmdU>UaSTQn<Y?+JkVRHb~)>EbuK<v&c7|y-?Fj
zC<-{JQM-Jbp|Uh@=vU1`K)M`?G}=L+&&Vn_84f5wjuTQRv?VGV@#9a11l2q#<Atp1
zg4-K^=E4B(24vL~M&VD$R%H;99nfxMR7Zbwa4I;K$%4g%q^+{iDans;M#QpRYbzTC
zXRbe^Z~Dpg3eoMP*P-Rd@RQN@n5V$O&e^^fdo#AdR>SQ<{K`7JA6yZiI^9d5#n81&
z^Jjq8Hr(||cl|Hj`^ok2QrlwNQpaLPTv)U1y=D9fcbiM@Kl#4rf9<-r>*E*KI)~B*
z#<6>|tZL=;8?Ubl?~UCYTPth6?`{S)uc#5-^zJXeFj1b0jgp3BNdx$I9lO=CO7QPG
zc5D9K4~*5P8w?*bl$>rieQ=6~5F9XI`E4TtR3(TqazG;j2(>Tg)W940Lbj3Y%&8=r
zvHHWT!|Cc*v_S_|AuH+%EyLjv40BALHARnS50O49iqawVLpNuPf#VF1zEqj>2gjJ0
zF{iLRVWij|2tabjjMCT7$w2TDN6suih|VrPz=O>U))U+-g1-x{8WkCBDMj|p7N3m}
zcVrf#jVBUHWxxRe-eEJ$3U0!JW8#D;J&hR-{b1y_ivcw>bB4jlf*Xc62rzkPAxKvt
zljku)PKI`3#zpMZd}?UR<G7^nVN>|YKZF3(S%-I7xc2+=y(wGK(y2c@wdvfIs62E_
zxb;G!ymifaEWsUnpz(MO1P<wa8y_E;@7@FrcY5iy#n<k;Airj-neTqUI+ndx-}r&N
z+I_2T_2l}V!=DyFrvbgwTBy!ewA>o^By3d)W0hv|<LrVNO$m||mF3hIAOjv&!#qoT
zJaEXs7XsUn^DE?x2FaT9#DNZG07z5DA4l4OhbU9lXbPNwbKe)ZB*JzM_kBm(&QU2k
zk++>zE3R;-bWv_2Da>hm*TxTl*^BKIumokIj%YRfe$jW)$HR7m(LEW2fVeIiHTx7X
z;D&4MF~uL!FKEHs2gi4-e!bj;x#PJUn8^B3$>G9|+xYY3juh@N$T%WX6C<M31TF#H
zQb+T8sA~Z3$H|)<pEj=x<UvZ_)H=~*pA;o%h8#Gc;6;3PZP2?Hxu|swH!RJ~v&O7{
zE$3GQ7Q5r5;;zE1HLs3i0#=;3oX9a<gt~u$pN!r(u!&14&ORSY74KT!6)(v-*0MfN
zQsIdU@fTK)tO~0yBwS4it|{g8EWES~9^be*9ssp!I$^6%80$4-m<cLZRGT()zcK^U
zL-kMPLIQd-lo<*1c`Ar>sef7ico$OnwsIkks0;5ob75zD&LKa?#>|EIAiNp_^J|WS
z+5(1Jrq&YU1jD6n!m%vCyD(+TsTDbweuNfGbJiF$-x4$A%$MK(RZd>p0*b{bGfmF{
zf#pFJP#yAW3n&D6wFO?zKo693+CatF@d|xoa&cZ;^ylpO1hejo!*`ia#8ADXIb>tj
z9ENSPETEX>jpaXYmi*&m{4Hm>_i+r{W@&u0<{PY4T>&h{ytOiYBP{g=u$c0&<ew{$
z@;g5w`M=3%5A19SZVfiqkAgNJ`EnuzUl`BX=InEhm`&hFPfbd57S68gAksJKA1@Jh
zd_vxvsTd=9$eJJ70R-9Hh`{Z@4r=GP^~rFJ*4d}?q?*R}a&MqC2G8S5gXW9|4G)7R
z0>BD`vM&Vqzx|Mh@F7|o7vTrr`<)N}KYYZ<9+KXK5@Mz|R!Y;5R-N#sOPLCU{S)Fu
zRGJ}1w`x+NN+7IS0@Lt%37>goJawR;sK$Zk2cJ=y!RJq_#+OJq@ceVnspjsU&gXhA
zsOAgjp9jw^Tr+AffufTNly$xE%!_>_KK*>JY98$GCV7Z4&z<e==^r{f^s;Jx?ri@V
zXl;CH0Px!}^uN$^;WWO>K&6P>y{X2t11}uc`~XN7jZWzgu?`h3=^6&aMQ|NcC>~S>
z=B7=|LMDcDRUO&Mkt{bdHR_i`vtmvFs<dB5jsfB?@6#lqD=P`LJ(B($06`(9<o^Q!
z*cTqkR<vQ=leF$xv)0Uar5x_1;l<&&ZOu_P-<vj5MV=MQ4NLq?(p@`$HsvW>>ATUl
zdWPK9q^(qa^WEbA{`)_3d~CRX;@ow4`P4dG5e{6Kf93&e0}1P@c=zagCvKj&Gx(Di
zZ@>7L!M_^&=~!ZKN5a*yV0^$9zb&s^xpC#)lJ_cZRshKG?cqe}i6na>#g#9ZH@Na7
zSN?<AA02q-z-nNf+y8j!*gDtzABM)2U@NzG(ezH!EpDA_0ZlZ)mT#}aL5;3+hp_wL
z%Giyu`)u_#h>eN^$%+HFx}iOI&dc_#4y~0Qc=P;x??U%-O-fT+*DDX-^{iJO-`4O)
z``_8W+6iw5{(-fnxRM3)l5Nqp40y`Z;DIlm?@OB~OBocy)3Id*9^^c*70vf)&R|q$
z^$(rFweZ{e0)l5L`kU(*rhIp6%mjB&@JJwLyhHyuga1#M6&m=3X&g`OjxWaC$$Qy5
zV+4aetM!0!z6%_US^cBnyWp&)hi3fsqq-4a`;Ge3q5mgynQk=A@?G#4Q@o<UT~Q<e
z&$r3-mZpen<N#i{EDg?<orx;^v*OH1G$0B5S$x?kO-(93$qsYu2eayJh*dU&lTeac
zq{C;yHE*9u5J#pis;mG{ucYV<Tnp`>dR#h*kUsJR8P`Z7UX5;@Xk%s6Nl-1NyHMYT
zWQ)x6pQ$f3%5^RsTs(N~(0muZ->ThoR>gy>t+y(F*81`Ob?4xHZV*V+V#fm%KfYl5
z1-JLhFD#V33ZHBp#@C1TMSH^Q`z6<mkGBs08yv80(Em?vf!?lqJ5SK@;#1V0mq6lg
zt2?WidzFUH8tPsZjp=Fz(>0#XW6Zr{41hG!5AmQ#{Sd%ia(}=6j=sO~xM~G?fLj7D
z;w3PRHQ$ToLX|O#LR)nOqi|yw#3z}uFEA36P`j6mSY-y~8Vm#pdr<B09|QoAj~K6-
z)oaB6CqOQyiQLfk%m%CJ3&=B(U?{3u@CCk)yeCDSPqmS}_KsAtU<v2<qp9roYkO%P
zBnAyUwbL+=clpv=07>3_YLBk)u@pSfi$=p5?>8w^lNotLUY<zLBK&tSAWs1BdXC&N
zliMT-x0T!uY5w0?%%UqulO~Ipx&wh~8kvFDeA?M_W|lH@xXBrjUPe&VrL}X!ot%gY
zQ(>`Px(8)&fGGJL14Y4p)AW{^qKiMF+@DaEPbkMHl=TzJ^&1028~&A}=(1l^HNU1x
z|1nch{7=-bUsJXJVDT)!v}UQEH>b@ET@ydC+V$SKo9FJ9{8i;oD>quYlJKvtD_PmS
zML~7i-avbonJo&U&xdH1_NF~9+8Qs}q997wnP~6o(KH3ot=27!(rydACoZQch*qa=
z4c@K2_0r8ZwlJICWu*CdNt%LawTnczy0$QvcG7eW7D03i+Cp?!-ohx&8R@!Z0$hh!
zA-4)O5T%_4+82j3L}@Fwug$b@)4P|U9HP(aO>`MHgXmW4UFP=FIL5NH+e6pKVNwvK
zeJ<L)TAPOHxNp_}#CO~Gv)1H+4xFAlT~|z3<A5Pr^{&ddy6%>&&LwM(ZDGl02V8VR
zoV09M9Yh2TcbU7wPvLzWB;OAriiWh0Dz8da)uhU+K64zSi&H?Im5Y@dmfcCq?zsG;
z*WP(8X*rN)pz49ukv2gL61&)&W--N4a8>A8Jeam%&PusF%fezfZNr?Ma=4f47SE*-
zZQ4nhE#Dh{b9lLS<=~Bj8^v`=_-Crya$zN04H@hkbVZV`0F*GE;u09rXErxon}SXm
zh#wSr(k6(Z^Gug4<~ZmiZNXHobIjQ(vvVQ1G`={VG?jnufTAsiGE{zMfD}2p{|-X<
B!&(3U

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/platform_utils.cpython-312.pyc b/utils/__pycache__/platform_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..08fd851095673a15a32082cbc96845a0443903da
GIT binary patch
literal 3106
zcmd5;O>7&-6`tWPDUwTy)UTV`PBzhxwFpcq734q2Y8<%^in^{_TTV=%AgJA;wetS3
zv$L`&(1?l}sNDug0;H9WITZ@r0?DnXBJHU_FJh^J#=-^yqy>_j90q8bQ{N1^q^ddz
z&{K!t{Jb|mZ{B?Gd;6DkI*FiI@-NLF_965UAA|+QqO|@1%_cICfh|<vZN$QMq!7Wp
zFIkc;7i7_wt*9L<#6&-8_1W=4T=cP(C?t#+NtPo<-yON2boz1Vr;MzTAZd`K%d(NY
z6D{;7kTGB=BtkMz!O5V>lDLs7NB9Wlq+!kgiFNkqza!rlW+GG=>`F8Hq(fD#4SvGs
zT+(n5ze0ZE6Gtb|AG%Ckop|15*R{U0Ms%OK6vR=zq%U*5bk3;;F-n+E9ldjiXd+Nc
z@Nd<i+C)qUd9}hd2g*wHfB=S}$sVrauUQ>F!@f<z)mM-fSwFh4O!S+oSymSo&!1CG
zPc<ErnI+3yCr0jqCI?ZtmcAUwx^I+%RMGT`x@%WVix@#a4E9Zb7q$2?U%Z%Sb|qgi
zE5})h-XQGwnt$^2shcNB-ZGc+l`30yo&2h0*?FItmY1(sC02H+T@=Gyr5X(J!}wAA
zcBfg`I}Lwt3aSnCcP0DAnR{oN%5!z)xm{)aL1y@2C>pOT;|*nUN1mkpF!}%1`$xLo
zfA#X>6P!;IV0|F1ReY*IkEVFVeITwyGh90e+Jmkd0>v==_qpoyz0*zQ*}C%Vt}@nf
zl@N{9m9d60u_I52J%fZnR!yB0O+&}9Ls&Ro1!k{8=YPR$4c+hTw-O6C?X`eKyngma
zB33+=EfbZwtYoQ<Z!Zz5x@DDv&SymR0iK>ZwXmqEuA_RUbHgI)%a<2(nk>9UIVA-n
z0J~!6CKc*d2xTVmf)U%dm{|k~4_uc5lzoS3m<nfc`_#5mQ+&PdxApWJpg0VF?<iFJ
zkoSCDd4Bu54dp~rxmZ^&?#LJ0K8!jgn|L{$J1i_b5QPKh;h3LCH&HF(C0W<SVNlW;
z)+K=zIb7UpSDp~iJ=gvs$~a;~xf?BG1K)|)@cAxbgimk<F^(ruRye2*6eAMOye%<~
zGEoevCjC~v-?48N-Ii<e%0Q^?wQMl#*H8@`(fgfytc-;6UK`$9j~KwoMl9SNqbq0(
zy?{J?3o^xZgyC0>tx4C>Ev)se7hfh!^(sU+%O)|}+|_<=we#Fnb+u&q#8YpXz&AeY
z@ftv;Lv~J5g~HLM`;-!g@x>e&x&OdEXW$w5w@yIyEBrk$1)dN67zpV$?mgkXNDYVP
z{~B*%j9wp<Q5F480+TV%9({nS5@S@8f=F&UkU30(C^y*iI5t#uqYb~r+zsN8wF;eI
zKQ5^7iEz%%S*~8Py!l*r`Z3tW<C*UBkJ0BFXlHoteX?!5{mRzjJLj7t+WX{R9)FCV
zjXs3~894XmCmexVBv9<qTJaVL2=#)bT><1fjI6P%mo!B%Z!fs$C@g`r;8!dXWJE-D
z+y<Tv6cIV?#gv~F#5{k=Hd*k^FTV*-lOBYo77JqSXQccRL4xx?#35v!7`KV71#!|z
zwe%U7;c+g3H&oRZh3BXSV^OJGTZIbT@HmO$1G~e=c89fx*^$lUTghg2x}KeWZ?us;
zbvODjGu+^gf~t|3+lkM87DN3<o9U@~dTM*Lk)GbT@Gx;?d*Hp*za{2Bn0k;o^u}xV
zUfX@<^zTo6F#G56M&<|2%(Z&vS|ju7KP8m>b~7>m*Tno69uKTPj!nKaB>ib9`qGg;
z9md_#{Rqf`2)>Und>0`b-v)5i&{rjWpi1cy<;&m2LAC?jVwgh#TKzn==0br-Ux2B>
zAxNeb(<$1-c4@U(S}mDYX~`mV8nj-I`6vgvsPbIFd2s{%L(YGw9BwKzb!DcZ%<jmu
zUy)WhIv_#(7qbb9KiN%qi%vUqubGtj!1U(~12Dk(T%B6Hc248juxn)wC|VeHAopeA
zR{m;f-*sl;bRMQ2pSgiPOQIB{xA7f$T$l{|aL;M@f;LPip%-Ly*RqJtOxN*pr6ry6
zKm@G1PRF&mvJYQyK<6Ehw?UmK`;N}w%g>{n9)cLFf_raJj>mS^mX|==4jrD31Icul
z$RvT}F-j-+M1fXuF>d$4%pRY!UBkD?JUt6q?ojVHQ0++=<5nEuLyyq-BXs5wI{XNY
zeuPqcF&Q7*y4pg}?Dflda_c<rPd@IC;P2zDg+0XEZK);Ny%akBt;bRdU&jxI4sR{I
zb#_k-K8z;s&b%qzJ@wOKE6TNdPoqfRUPQtt-WmQBLDP~#0qnt5GM?BP{}hgz5UR&q
HAl&_LO`^H2

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/profiling.cpython-312.pyc b/utils/__pycache__/profiling.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f64abd5537178dedac2e2e8e07b3e701cf7c9210
GIT binary patch
literal 2301
zcmb_d&u`OK9DmPt5+`xH^w$ba*-SeotmTK8#Ml@^f^k7;1&wMFxdhjCii=}M&kmtg
zkh-Z-TQSCom17S(tSb8xc3{_CS|(KRhE&83+bvQCV`ztczjoXfkcKAhMS1W0zVG|{
zecsnUc6Fr)3`@9bejg*`5pJR(gamEdKr9iR=+q)rTA~zb&f-cOth~ing_02P1S?jJ
zm*N2(vl3OYBvN8<Q@xSN?Nt}`q#mD(t#(+Yl%CSldSWhCN>6i&^gHqu>ZeuPc0AQH
z9orp)z4)<eS?YvktWZDJU~0_;CV$MH*66lz0;!NuLTGy&xTgrk@F|2$uFxi(;&(`P
z$S8~}T$7tZ?H5LLPDv6{|C(EZB7kJ#1u@ueOEw7`Y(jx99wLPGf^_m_=_Xn2#7)UG
z`cA(rqYJlUJEcbdch3#9_)5<Wa+yCz8uUB9L6!K-wNLA|tjb!AITh0~QYjh6F*fNQ
z4k+BY>LsI$hlk~w>RpgMCt%6m1w-zr$;@!;mRFER4vfeS+fqgKF~>IKhG|(HA=$J+
z&9pt!o(ybxx>NTGfez!KaAQ6_;3u?t)ibLG;6iX6<|%Ps)Xs!K`iY2$8#bcIPw1u_
z5GlQ0t(9GXn(L<nFX2Yv{p402Oad>yfU&!XA_(%?hefYiE7r_f-c#A6;pH#a4}I|d
z#Y0BXGAD|)Y43t#7cW^>wOIE|%Poe9Lkfl3w4aH}SJoWcGcJ2<0L-En_Zm#Uk*Bky
zoguOQ&2-;JI=i0E{*>M`d*YrT&Y$}H)Z8a6ArZ^}EOu>*(sgN3`m+0ey8q_xW$n&x
z<(`zeetPlr&69Vfw>PEChBUk`4KFKe((qj=_q3HH$*%vT^0%9Xh`!i&d_VnGIJTeM
zIs(+~{U06Q$N#X82U^1`hz3>%{<OUdh<P$k;RSLFbb(Yjoz6-4&dw5rpZVj2p*c+T
z9ELX<*2Vx>oeAnDR}CniF4tYW^5_-|ufW=wS77Zqke#d`^l|~%a)3a21U4Zk-4J{e
z2v$Iyp}z<^1ZjvP{jhx2@bJ8%TCRbFS7$aL-E;xAuvKN-$vd^c_e;I14=eQ^RO$vd
z553CU>Sc>t{Q;`SEszDi!ejlSE`$9H>o}%Gg~v4x|2NU(6c9J~C9=r5B1abaCNW8q
zenY<kr5#R$)sDl1&?=vo)3C?GZ?$u|l$?dmdVsjJ!BKJ!<e_nO8p8^O4jlkkiTMIN
z2G@^YYy@kfQzl=i)NPI72f@WQE6cO9v#cK|KY`u6X0VxD^d<^NEJuTK9xdn*NVZuW
z={#D328$2nVc*ch!R*cPwZYu-XX}HxwM_2Up1sS;-Jab2o%}y}(wpDt$=&J6J#$6S
zT@n?3CH8JY5!euH8MbwXXb&k26pr>F;|-jKaSC$4Z{&H%Axt5;73WO$Uy{gyk}JdX
z*DU!Z*}dRh%|7Ac$$Xn9seu+!tqjQwE_Am+hA3R<8C|WwRR@m45a5nU(1*^Sm%|9e
z$SoUzvr#<Hzyyw-^rm8itzASKSQGl03{18gCa{i)JWIJAlbgXSP`I&iNEg`*Ed;)N
zVZw1NMe<YSa-|N~Hp*qj!>OO@bS~(2{%e|JS%wyTtqbae#xQ6<iFfXSy2}ume%za`
z!Fvvh>vwn5tE#O|8Z3ZM5Ioz9zGa*Oe27P?j$XHnqwF2vAz<BuFtvC}>0^=5(MP1`
l0eR~I$vz;jx8j78Ht5hg9cpuZ6idrxTSz_54bXwW>_0>w9-06E

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/registry.cpython-312.pyc b/utils/__pycache__/registry.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2188fc21dec87810a6f4b3283849f4d4c60d5d71
GIT binary patch
literal 2164
zcmZuy%Wu?17@x7di?f6*<*BxpAxUYrfLDb|JOojx0#T4iB*LY+7-v1ZG5FOPZ-Q5g
zh^k0zRJHU{B~n$Xhh7jDj{P5c3F6Syr%FBbmUfH!IQ9GNUFXF}o*B=4&)@f$pAH==
z5g4xah4X8Hkl*m9KeXPaI|`dMViTLX#G`YR5`|0>TUjBt`drDV=9E~g6n@8_3Qg4O
zeq75gvN@Oa5&W+aPUfgh<`kRGsrG=at!Q(aUEqbfVi#dwv=8utt?&bN&DP;xkJU;k
zIeg<`#C_=m{%y;*8eCZSL3xS6xXuJ`I5HA3s|SL4c<=ZP7P`$w!<u(F<9%LMb1f;k
zG)gJw-33QxM=TV<qGNN(EG8W<1SXHy7A)V99*csW1}>Q8+syH0WciU}MLZR=PduBC
znQwXAU{eu86@ljkz8kZq<Ti>+HF(^QQX?Hd6(eIAaZj?P1ui(Voq8QsAjyfX2;2v0
zme1xnlS@_@f;cN;q6yZ3y3DH^4=r>+UP+}QLZ4XDsey99jV(FR0yvpNmN`@7S2AWK
zA0HoQH)m$dJ2xh$X7AqllwD(c(I2bi!jbypo#aL)n~SkwFE;BzV4?@Z+Z={r^iaPY
z-wc8&xE+JFvTZO@;IMg}nWp1Ak!g-e?$*z;MaymSH;^JZQWz-#n4GS=tn8Ztm%HqB
z1IylRYfsI!56@qyWVj?n!K0?|r)zXaYGeMZ@O6)*neC7^G4tz~R+QG|+=40a!m(VZ
z#UY6p_rfUNk(m8>7&-m)Gn$kzi_WJ>3x%bje-ibx|E^RcFRX@6crLO;gGc8cHZNYj
z^xz_|y3TwxjH89XuP(Z-S8Ya)E33KuFi!M7q^-C2#?|Owy#re0L70}wmQKzZ9qr3<
z7hOv<w5issd^~}M&_m$_Y@U!Obd7Xqhd@2k75$OYR%QtxF_C*V!E1rABB<3}mDS6M
zG(n>U&Kk}l_p>_6S$Cn2$RCBTdm5&1lr=zqRk;uQy<?SLg`+kBJLt5~VP8>`a?O=y
z6qx;N6+>_?up>$o%$Ao0`k!b^!U|jO??bB3XIyoIn&rxI0}0<l{*y5MvrINeFLWlJ
z&aBR?PrMvFwRv=SV{lj;g1cv+Kh>1!#N<hJ-n+*#oqAvR8zR)dV#rm7>EC7Yx}*$@
zK%5RA>l{oqBszMxFH+Fu39@wOVM4s#gw}m@f6r*s=e@jtq_wr>gSX&4Xwz@u9r#Xt
z-lP4TDx|Ho6{rIB2l^ESwAI#h9=fURu9<exte#lE6+y4Fchp0g^LZc5g|xQcfnK__
zO3V);==@FJt|(#vj7d}|h)N+t_&6SDP$M!aK3Gau6|j*A1@?>{;u<!A*71E&#^W<U
zDzC$o)<XH{(_l6DdFa&3p;O<Fy&5{xQ8&v+I*&K>$&KOjFD||K;Ky4VZ1R;p*?Ig+
z`N-E38|9Jpn=i{F8~R8Z8?dqn!lo+&Scw=T(@aXH=>>Mv#r>dZe%7?y-pv8iw1b*y
zia}sXRCwpaG1v)=l6V&<tbtT=nmhtMODEJK(fAeehw@fI@1E8Q#@66K;n@0Ym%y@h
zqF5MRpWPy`yr}(!OC|?JOhb(nqd0`8G}D#J-K{IpuVz+{i(z2F6p?7$mP#poT_p76
O-^DX@^iKj)D*1nO`8C)8

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/serial_utils.cpython-312.pyc b/utils/__pycache__/serial_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68ac3e758d8c5e8fbf3b4a7fa32c767ac9fc7c42
GIT binary patch
literal 6124
zcmbtYOKcm*8J^`nxa9IFiF%NhEm^WGT8`yNiY>>E)5KQd_@Sn;9JfkpmeLL#G8D<|
zt{h9D3Z_jFsR>}|B&Bc>CzrZNfd)knKBlLp=%HNGEf*UHP|@_z0xg&-K!Kk6&n%ZK
zt4xuiV{7LB|M};!Gymfo{?_mJA}Cqzt+cllp+6DEE>fM?`nwCEbtEI1$)ahiWu_V6
zU0K&0JIyjg#%8%WewwE=lNF}jR9~DHq2;okIq$TW_VHP1&NuC25N0w_dnu=#4q!2}
z+u>~rq&+t6v>@H<a5e?few%h$kPbMUP07Mde!30%{+Bg-?9omOGaPU@n`$nlYqn!|
z(>2{qzw^ta&DL}`+X-E><0_Kf?=#b#n3shv*yMB<P;N>^ff6YdlRdESar+ybR`%j9
zS;A4-hr3gv?0<us-Yo}kw;aTKaE}~Hxybl!T1{t3dF3#S?3G)vPj1DrZTfq0ADIF7
zFS?=bCN*fcf%ZPky3o@|j=X{7_7A`wN%_EP(DZ=Zf%jtH_SI8@+zI3M%U#ejKzpLF
zQy*|mcSST{Obo^hE->+3e<5>E#u?KiC$;2kHmRz>xX-6GtR%BQ`apseEs?|5umXJB
zv-x~BoxA!Req|o3+Sli`!n_veO?N7rPimthb>iV8rZ_`Igi0006L@THv`#%THxg$}
zA(zzB*RaXXq_3JnHmzw{3}T*+GKHC>ijRz${LF%eRa4M#PR%Q(gy&|koRGDJ0ye!k
zC#RFS99BU=!P>l%n`P^VMH&wN2)}iWA)c*4ZIvR@>Sv2khG^|5_Q|WRv*>$Fk<kQO
z;To#TT$;F3=4cfea?VSvMxzeVt4p{d%J}VZPFrL@sP8Qkbfh+A-+v}-OPsdR2T^Tj
zDRPZjBRl&Xt6JiVE}41xC_+kC(WSN9np6@h@)`0eJBqz3jO8=29i711{TET(HL3VO
z5)YW(w3^PTS~53_O<v0@voD##ly$4oi3?9ooKBpc`qr}(iK(x{|L0Dfu~^ePF?sr#
zCnhH+E?zYEe7RoY`DZ3Bn=UO+3^1vIxtQMBd`?SWozKs!CU-53Up4vM{9Iwd^s5VM
zg4k7Fk+A}XN=)q4WWjW6c}m9xr3E&vkV944pfV-8;kw<0EQU;3mx#GSBB?0J1(jGz
z4=w*XIjqeUh70M!Lt0X~inWKX&mTQD{_;^goK4RR7Z$Xa^10z_+3ei#yq3<Y!{BG>
zWHv#WLu8wl&5z8ab4g`EiNnlrOGy0%R3-F<fPC$%shjxS>^s?e(omTjDoaC#)P65I
zrb}aGZmcYg8B*kCRG0e7Twhu0`>f^Q?HBZxW2JNVJC1z#n%;4$%(c}7<O$yJtaw(3
zD&p>{IG~FI6>+dCj_TrQMSP?xKB|k4mXDvSi07-~bGrCkMVzX!i1*h-B(|)6^RB!5
z)`4I8@9urfXpL1{`}NlTO6$O~xGA+(rI;?oDpGfu>)wK0BXDc_F($9Rlq}#wv)i4o
z;jSapUBMX15L&jmUBhu3GFEHMV#}P7MH;M^ILG1Z5?+I_Yn4pHm2C+)EGqIpW9&eX
zk(?fzDl)cvEeS<dcGX>o)rh^*Qg<QYzd7}ipf%h&LyT@mDGK%~nI=x`xHz~POX4_B
zL!;$$l0uNje|XL0r3=q~tL|*XYZT(arYl!4y(uL>H#46~fmgT{Oz%h`$V2HPRVUG-
zItl7XN)HI)Ze@sc9wb%6VU&Hqn#3)v{p<%;B?oT#MvpQ``u&zQj97-QJOZ+FL~#SE
z5~}%-uj4^$2ID@aOUKIGv9fgRON~2t==N)R@ObIWXTk7|rIn?P=WmbS3yxKTC-mTn
zJC`cKQ>8PT?(mnJ?q^cSGTn_c6=`2pI-pAjZXd5mN6Xw%g<ug=$kW7U261jSFGD^|
zr1HvKQhUIldC;W!=e%Xm48&RZZlxcx0CepvnTBaQJsC2`j^aeuA_HbeW}I-0`K!-e
zbV1&!=Sy%9kG)K$k+p0IxPy~Rn&dCJk-siNrjt3kr{4c}PZyEa$cB!yF=zqB`ALOz
zDIus9`FSn%(6~a}C@z|A>t-P26GQ{R0pN<N(dbFlP0!4cF?ws*6l4syhZS<jab7t>
zrX(TOv17Pk0yyXm)6}36U24RZ2}i7{5(NtuC9Ktz$3g2m@TdL|Dr(AN$HxA<?p`Ap
zx$)hV?^c6*_2AxWFs=vVmEcfW95Ote8)xo%`tL{g-xhuz_-UXzcw8Sme&>ac4^*O;
zmV@_$k!o;{9^7*)SP34k29N5&qj%hu;MdCH*T~qX?|S;~2X}2e|L&D{u2j1Z>)nSx
z9J;eu37##BXYX^N)jhxGda3cw!j>APe*b7|3PkG&Bl6;zc3nc4#hlEX04e5ya#2bE
zilr3k<r)-EDK}<i!9vH->n5@VG43&a7qFHjxABaI=S)7GlkxR!N6Z5#P&AVTG<S%G
zkx95lF_Fk6=WrrndJ~DcygZ*Jv@el(Wj>j$_ps@lW(E@pfPi@oz+^tB68#BsW2dJm
zLY#0ABCpLCviPTno&mi)<q6m!tqMS>B#iw4ZAyXfpEbg<3Kug%(FzwesKDd<{ux6G
zt+uYtu6C|GevgY<^N=ab;DfiXK7c|=av`U@RisfsW|r8iXo-VA9%x}ZDz!uXY4q(M
zBlIG~gC+NpsM&XfiefXgnrWa@SfyTyOwsi-SHrtKj&~P5_9{!>qMPUy1^DM(gppr;
z{$?>kW^W2h5+K4R5yDxOfmqU1L$db;8e%43e~HsB`HJke@9^3Bi?H4jOTU3o!rSk1
zsK`P}=5D%{{6)UV75ym|5+p<o5@O@*4s-`_?@5q5CaIhv>}gVwv=(=n{sLsif|k(o
zF9T#XeHs{Cw$6dIdN3qJcrn4NiNG}F7^xnG%4D-RM<+3bWT5~iZico`l}O8KJfKVx
z{YLUM!!TQ7yP67K1HJ=6Z6+@-K=w(cR17YYmakh;i`cHosp&;*azs<PL<Ic2n!Jit
za+dYHTW_q`)wUyc(Ez7h0c~Oo>K~zk(B(y4(J~h?h8`+S7?Qtq+VBTTPu=h6xwYpH
z9S^Ta%k1*=_rtr5)~@xFYbUF%1A6O#(b;Eo^nT&yTD;4`7hV)<T|M&FYs(yf&Gs%M
zHef{ijYtfJY@A+u45;-hYgej~K|L~9jU3V=hd%eaLtapCK_34NX+>In>Yf-gME?!n
zif?u5o)|S^z17%=9vdl(orc(T^J2O8;Y#<2E`p%T5Cg0ID}fcEHiSAyYKKvD$mooJ
z&a-}@Gy$m97g~*M@MQ{1Eib+dpQ?Nls@d&1nBW!axqk&>9Ux%_Ja}i3nKux4TD^xs
z;McAq0uP4iz$%#{+bpkxl-oHILQ#kd+p;DHS|obxC?IW?q1j9Wcsc_<sINj^dCg#G
zk#~0f_B8m7ivr2n?H@{LVw+n8P10j<=5J6ii~;;f9SLA4b6q9F>Nrn4kxkCc$jOt7
z`>l+-BV8Ukk<HI0v+7A8EXDU>uu8tYgf_nM?&Tj{ruPIBvoGTXa5xTr4A8c@DS?hV
zAt=dc;M$G5g-0BHZYC%oc#(`CZbO5?ws%`SuQ%POl7a#6!JqmPR3&6^o;T0FeioiQ
zrL*_AeVYS=rE{NzBFmf+j;zY-nYGNVv7d~;H(m}OTo%AdHm=>$ezN%9;)i3^(Np^9
zsgI_9o%mIv627!77-DNxjOt=^<H+yDy)`!qw-ZzCD0A)Bx5q8`!ouU#lp4R*U{xU|
z3OHw>05DV`_pS7j>M*G&WDi??34EO#07;V+@xY@P9-j)y9sr8$=dgwMiRmlk{1pNV
zO+Won#`+N_l`|!qg<o>4HwHfsxp-XJMMeyhio7Y5v!pr)l^K|*<K(9(OjgK`3KX$f
z@$x)j&yb2-q{-16A_&i90lQH&WhHA8oaiMe7YKELRD(oMJYj)^lZpx~u|4%~P}f+7
zVYURs1U^CDPf_ouDEcSV@(J>NiVpl4?b{5suKU;gCGwUHMaWyh2)5BC6j=|f1t9o^
z+pD2IJ=AA}BGpi@9_szP)w|nOM$y`?2ZwCJ5SR<})}=M6-asJh1LZxnHWX^PvAD8m
zz>@@;%}~p_cg<@+Bd&?{##a7E3kt+b-c5g7IdVbwPnNs}ArI;PVIaeu<*rdZJXQ+S
zgfO$)@P%)jUpZf63BCVet9|?#+HUgREgs~x!4_s56l*NBn+}Sp@xVh&ZrN3H6G}wk
zSj|HyFA}6TUwr+=Es1ak{LEg%*HdGm-Hi0rcxdax2xSc;6b$n&?|c1))lr>q--zh^
z?k$PPdyq@|r%PaBH3Zcb3v7+DE&Z_TNLM)uQGd9`0=EfU;Gu>2!?7(lp(YuT>A2N)
hE35a8))3Hl9-+-gQy=g9-ND}+)F&=~LB!M?{tdZ*8q)v(

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/system_utils.cpython-312.pyc b/utils/__pycache__/system_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3dfd382043b7c43cc8998d8eda152d2418b1a58c
GIT binary patch
literal 9100
zcmcIpYitzPen0cr-P!m0fep4XV{9<XHEWD{Byb^s&BFw20w#~;l4aQ$+hgx5XJ)Z?
zyC$263Ok{-k<vnxMBzhKamB5as%m@H4{ei3{n9TsHuYw3RIZY$&6jEuxJpE?l>X0|
zon2!bXs_C{+B0X){LlOU`2GLqpWSW;f)wT7RsOgRp|8k`nK+}sJUGT6bR9`ZVxlO<
z1Q~{u*(e)i>5~g`^vMT#`m_Ws^l1%R;mJj9F(D|#>_Izi$44D8XV6K@mZ&S{4!Vo|
zd4e9=&KvUueYDORt%y|yD{0vlt%_9#tD!7N_UNiuO|T|b8?0pzi{wgq^=+6VNx?Oe
zBUmRngY{Ca<hslU8)SBPxAARhF0Gc_m-*Yps$iqEM)CmlI>~z(1x3jRd6QHj`-Z!h
zwlc~CtQ{@=Np(`?WlOMGs+X#uj~1yxS}RpU%?7DaS_L&5rFD`h)j&;an)Nq*L%Q)Z
zx-%S)C$zApB;snXpVft~a5Nge5S4YIN0V__OJJblPlmN2cv}1AF|DVMv{T}W7K$bY
z2W3LwRn(9Y58-e+6plcfZ^%|acU6&;6b{jkil&64N=BCS%CTf>SzX3ff3{;!=gwHh
zT7P!yo~^M+aWCm=ZIA;eFb{qQh3hDbhL?V&BnX-N*p1F92>pUZXq*{mvy28MBMtLr
zsr<Z%@C#3;$TDkyJj;&kLJ0dctJ!wgZkEbViFwv|W^cEPb77$8XN~`J7~tv%kKo+6
zOy`-T6xL)hmWpahGAfI5{Gx&r@t7Rf#EW69ki%2OQAHaP$?+)h!9Zq5-$faZVmN~M
z;ED~z4XQYR6EU%MgW4);3Ht2yTXc(}$uU)D6RK`2j-*?SW7ln?VH}4Z{hV%xZ)!+V
zBAU*O=*&fx2(BoKkM^}|v1EHvNp8`?cu>~1jHPxx|J=wfxjm{}XiuiKp+vm>Vl*0S
zPiab2ZCBGO3>cy>fn-{5NYUknmaH;VS|zR}qrhK14_OY~_pQ0^z2^NFU(+N%!Ax}I
zov!!T>yB%V$rnDvA7|dr+-iD%{1fKRx{gIx<y7xvZ{Bw#@2gn!RT82b9oO9O_Rwx|
zdkQYJrtT^`<(PC#cf8~NwgOeGe*j~kNQs-^h44Z%;mcnDKfZ_<;7yGX(KNi2(yX%-
z3rikZWa<sdt)(w3wa+5L3wF?gf68759hhZvP0tvS$j-8qh4#0Lvtv-20S+ut{Pd`4
zruqM5yivmO|AX;H(HQp{8fE^18)f`#W>dc$OC~Tdcr-1lvL=S(D{^w6*Uw`w^pAaz
z=^XH!&LtB`U{Y>GPV1J7;b=<MxkOYlnH1L$N+)zm*o?3jUI#T>;IC#N`w#R(4n4FY
zr+aGi<mRcsWZ*{CoMUaSD_>K8`QVjfZylRZ-|8!{R?GT(g8RPHGqGpU<(WD*d5rMb
zjn13=UDt;DjZIe%lDcX2oxUFmHsta?lk9hDJq-VL=fO7SZ}<Zp=<jwx>C=wq4*I#z
z{2Y`Y(~?BwsFpkm1+bOOIAaIPlto!)35T&y)14}tWlsaW#Ae(?e_j<q<NW6lIZiBr
zEQZBYTzMlUivtQMo+Q`=@j_bEaGIzUB_6>t(L%<HCWB>A0}cmh0kJos$-Bk=AqBKd
zDjp%$MjQ&O&|!aHSAX9b5r-qP7)it>P*I6^fHoqQNXDW%lt@J-F{Q%zS|X-I#6*%z
zhgd9elN=Zfw2_*)q4HYCTE$pGlKr%c(IKdZX#q9NP#Y@F9Q2zUS5sJqD)=agYIs1_
z(#EiuNCqa5gcv+|Oi?uzn1>yR>x`l^$;Y|IYwSpf><HNqya5{SgTLAVSq>FE$nMA;
z$U8h=xI7bYynASZ$$NcMW0PZ7Gx@6OiKBVJKJn6|b%H6_k<*J;L#qh<ONr<hdaC~f
zI_CG$FCgnhYbmiKn_y{7nj1vpNGoXu({ked5)W939|tQo>@3ZoR50m=U8Sm0;pq}B
zS%}^OyG;ahS(2>g{1~KFm><otaOF?5vXxuK>$R#U+Ex5SJE7bzi}3SWwb^o*7?Wj5
zvP+I(V*Zz<vd%8+QRx|4O=8F%q`5TbcV=Gc8j>R;qB0<k%3@rWC1P_25*Va_a4BK-
z!~iXxSCiq<`1zu}$BBrns)U(Uu&0`X2v<x7BPtopt2exS{P>B`D}AS4Jaj5_;>_{>
zo|C8gx<V%o^&jo))-ANNUdrOS^VEUYLI=9LPaQgaI<v7S4$^okoE9m51MMn_5m2#-
zIH=nTvPc`sQl_fwO!om1<e1>UBB0AuzIyV^^1A!45R9T~bS-2}PhE()2$294tVm>q
zPg@CvD0EJ(0r9jfi$j{0RCl+xONodYAb27WR@&uwdldARs<o%o@SxnT;Y5m{qoG8C
zD1^X}7K=6;7-Wlqr^@>ahXINNRD=?TVvOpWfOtv{tDtvw176CodqlsxY-%w0E(jA)
zsB?gW^(wGDA)Eqz7?VSw+BAU9x^pn1hQgAB;S_aiI0<@7!bH?Ckts~rA6Jqt_~C>S
z2LNpY{X|B@o1s=Es!0?LdsP{Vh0_=05apT>-3z=GzMmw7e+?PfECC6QE19=4S1!GE
zX{KiToNdRiYwy_h=LOGwk1uy*(N;5WTm3*l_Nx0WtqU!CW?S~mwd`GJ>6vZmDWadf
zvqDo|@J@LqJu|g0%nSR!w$;ts8cJ1dcZDsB_WF7I+EUfe=7qN3*gT7ZhqNlNynAcG
zf!q~SJ(E4tgLAINhi;qQQShOidyPS6sygln+X_`kSU~}T@-r0Rc_@GaEGn}y;0Lu)
zf?6v<{H3aHSb$EJrLr)e29+Nsp5_sPFP;#&;vpJ_CJgouYf2;)4FjW45fnGkQxJi3
z;7~^VhDaVvi;_GL2DnaSeIOByCPt}bQy^lB`7@ZE3c4hNM;24!hK^Xyu;v`h!HBJ;
zvk;FaMr9DIHn853jA>U98Eat$Y@=y%)iyFa;3%++l%ouZr+Oe^$fPl>IcwU@(`Id~
z-fy8ysq@4^z^$<Lx_8;kK`1~{ikk~I*B(oTjK!$rtc&dKAw=+{NQZaACk%geBV@qp
z9%QMV=T|TKsuz46v%Zd8&!V$#!MSnPx$$Ot&e<`;cTnT1qX^+BGZ8=z@63Z?C|sw|
z8o~-_oXaxUmPH>x@F2^4fIi~JQI=Z?I%Qd);R)qO-0dQ70;p!2mvChZ!W@HMgIW{R
z`YoBx)4*gzF-B4t6Xz{yC?8Q%G(cC>flDL_%n3(DH8n7xj0LFT?$w!4hTXjzw1W#U
zD``fX=*}L3khMb?gVWCId^{YJb*s@-w<fU+U0@Q2P<hCR=`b`&1wp>W(L=N=`~nbM
zB9zA=0~F)pEZ%!U{kNb{Jo(C+>6+;`Zq(cmX1q-k{C(cHz^|R<*WRqTDcoXjZNIf~
zrm^ELzwL*IZse-{4lx$*7lNn2!Sj(y^xWJ0M)c?QZQNfn+qlP0gGeVm4FbEbpey_p
z%TmY#I}OkTa)7DiWXf_+&fp{A9m^zINdvsYOTq-2;3q5toMgG|8s{YIBnp-IAj`p9
zNr$9uetTxe0SOFXA_^8jf|DUzM@=*VzKN8UOld^Ah=&c*9Ra_D;#Qs6l(C3OMcS(~
zew`5?!{>z60H-hy>VQrDgd=ebl}V#Xj<DYHgasB&@{^V_OA$N|n5H!8atqjwl0P>F
zF%OBOv5KQvR^lm+XGveg56H50C2x~P9!mabSqV~%C`gt`E>s#K4SvMqv&pjm%h@nj
zkD9ZP(9&7JQ9L%1-&VvYjN_XhAyFvae;6RRhhm;kTpkTYK?~~qfD)H<E-J_UR-I9G
zPLalRAr5vnL`v`(!dMQHhe+&0#uS$mKn<*)%jJsPPrrqTynzsqgU)OuCc5|%_<1xD
z2}jj^fhXwRgPznsgAClmFTB3It1|EOE;t+SI2*rk)l6TUcQxic-U%*W-|+Fy_jlfG
zxy8-Zx6OFlCdNLgyyNN2yQ*(6lP4yQ66!Z@RNZ)W`ptP)Yu;P?VdsrEKG=E3+mzq9
zd77X1HRpXbr7kP$Cb|k<)Ufu+PUk$G-}=CsPj^h8p6;LCH80fX8=EKiyFxuxe*F;Q
z!^dF8I;Uz>M|8b*pjWp51U%HQTZ~;g0^j{se1ecUN5O>1I7C$m2aJvTpc?m*thAfw
zVLSKlFM82Swhq4xWK-~0_e1t5hraezPh6aSY5EVQV>fr)s=8&l_0q3Ww+26XX~w-P
zcQ{|M>U!O^y4<nvd9S6VupZT~%XQE5wfTzmx$ZwaX1GR04GaAtRMOq|;f07(ZvB(!
zU?qVuor{%p#k0_Y*>;@K2yUZED>+2N9<#3eqz-sdYyqpR)QW^EmZisArAY|nxo$(#
z02<dMP(tnS0JLnF3e$R!lcHApWKVZdaY0DLPVJ@cE!rAW+hgLAPzbAA!M>97C1(cQ
zkp_5bj6$C<3^6yRksyQMGeG$mB6Sxvp-ke!Dt;Zl|B}!UhJ)aot!l<rzgW9ruC{fd
zcGqm}uDROh7i#y-*6y2deeG~f`6vDF{w&wE$a~-8Xgu!tt>$??@YwrZKJX+T5J#3;
zjRJ57vEgMdSUH?!Dpl&}mfT?IrI;l4S0!5xK{*ye%BLV4!fB<D@36z9EkDa#VD`TQ
z!FiWl-r<!_nHwf>e_2}Ml#<ZYvb4nIWF+{N->>%b=>K7k==Yru2^lU43=q_@ER~QE
zV<Mww)B$F3lqGnHf#21?H^P9+>(h);@8>gD9iV{37nNufB1+LH7-Tg9epR@PsURR;
zbf*WEix3h5MkkRg6{v`(dAjGwi#^AW7lTy?@SwVzc1gM=q??qu=HD%zECMtTtYUBA
z0xUspv`ue6fv{KxNmF4gzYCC;O2XN?t=L|7_a;uKB17h@5E)XU;1R}kM-kjYXj~W6
zR1(Y)xQUfT!sCg=NGeIuoguRP2rQY3A;_pQ2slx<6_)}rP$Hf%Hk~1s$cu#zv>g1A
zPE36e(y$CJ1`z)h{MEmOjD)ZN{4G}0UT?hCc$1r}Xqm8rJLjvJdUNv4Th$Y9&Upj5
zqYtbI?2={CUAy2GXWim_Q|Ddxb`l0XGI?bB(Dj~cJs)2D_|p5A=3RmBIpo<f<KAB2
zpv^-Ea#Sza8)oed^K0Ah+P5wWjw#!uZJK-U<?F9sdwpJL0eVNrjD71557!`9<$`nF
ztaIJtsPcQC(c`1<1%vdF>W8_%y{gNGKDD)XiI&gSZ0Ks^KDSkMt>r#%U`Q@ny8QOf
z+bmr>Y>(lzQpD{rRVParxC9ZQ?_wG*At<v3k?4BSOyQbm+!wJXCAbU#XeAW2P^DBd
zDCJ(s?Z8U$vuvpkdgsNB^I0y7MqsYE#txWoxD-<>_mySAyzm2TS#_jgd=S=>G6KPD
z8n-N&{i<?nvjlDrm$lq3nYP#9PIlaK$pR~(&(V@l`z^gXH>$)lTV4UkmKaq*Mm0I2
z$x@rBjws0_k-}6|i7DWBOT!R0B7tPX-O2p=Z~`1x^D{^u+*OhA)Ib=J9Sxj?QxF&i
z1P(Y2qE$2y9fk-Rb)mp=0Z!kb28{4CiD^Z`B)&EviN=7GLWP$R2vYT(rUJHGJPXfw
zLfp3foY<d8fM*;}8)0UGC)M)-u?wOy3fNzBJhB8jVsRZ?;(jL%!d~e@5~5JxEyQ#O
zMX)L%qp=>HC($Kc069;jAo!=dPaW?$(bFI5?K|9a{E%)3qm1b+bvrm|#iHY7a)m+X
zNrOdzek+XIwUC+^fLmFzk60x`yUm_MS~@A~F4O)Ky7Jpl7)v@Mt3_xGTF(G;4&oRZ
z%faK&-3<KIn~>$uqRnw7`&M?r);Mcxypfu>Z6M(u=cIF{x@%tOh6vMFeAWHxhK1_Q
zv(=k(C-P1Hg{IEgrp`}J%rzaH<r{Oyr`rf5sA;`pYb~%2y9eO#f~#@X)p%okrhWfE
zw#@|k?z&DEEJ)b&1Khs&>b^sQ-BY}|E3jNeTR}h-YvIc7d$-N)`4&O;Uj+_m9;qaZ
z{;61fU?=)?r~RPFefmP}!FukqdJB{R0+VoY#zU?v&jJnx9@OwTfV>S*jY<3ruQf}$
z70X%*$1@)DI{a*JA}*f;1-qVfvdX+KKYJF8#JM(++?1cgmq>fEoqoZ<ShUx@X0H@G
z8zT`)ohN+)DZ$*B0216^BBgqqgU*dk--Hi-hFo%;gHi@K3X55|V1X+dIw<|lQtgj(
zlveriM`*(0F?choHtCK~Xdngal0zX(<QK~%>m(V$D_9{JWnM2h!BG%Za@`ULUx;90
z#WB%(x{X|TfUTkn)vdr`AOptq!{oc2#$jpTXB&BU(s$$X7!y}tuc9>&Ee%A&nY3~1
zYlKierpy#832LS>Qe6m9Zv-YzqopsA4}i`Py$sepMH3403K3u9B9Gq5&@hyNf>+b9
z6^V;O<U7=R;KZTO$y0|8_q<BO9uxsn@JbCKW&B?viaHIc5Pl99OsS~65C0JiOEkUu
z50F88gJFIvAg1{%RB;d0+(Y(z$bAnv{uKqjM616<YraD6e<OwFFH!ryqpsiBtEXR`
zvp43fAO|@<FI43$4_pqWu26?q*8)>F%hY|xI+*njIK<Y2h(JknG2ZW5)-ij(>t^iC
zwn77{S_Sc#h06BX%JzcI!*u2y?g9tT`z~+60?&dKxqb8tNQ>3+zz%f}*4Hx454YQx
S_6OB9%!c3YUd4Fm0{<IdBv%Xo

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/tensor_schema.cpython-312.pyc b/utils/__pycache__/tensor_schema.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8fabe2300871295f222efe7b9f8826b9bda28a03
GIT binary patch
literal 9848
zcmb7KYit`=cD}=z;aegll6qSjo3<oMvSeGf6Wd7~N6I@^9(J}_ty3<|8CjGmN}d^M
zEiP3XivX23-Y(T_VH$B78tY<Z*g#bvC<1JL1ZaUS&_85kN6b`cy@>l`{}gnTAdCL$
zId>kUSS8zDNO$hsd*;5+cfNZr|Fy2pO&}z>cM~6l3HcIV%)l9m%?u>25s`>Yl1ww>
z41;M~(l*VGv(wx-H_eap)An)uv}4>c?HqT~ayIE2cYz$2bWeN6Jq)oC$s>91FnX=y
zbvE)m5&3tBXuo4K^6F`x1M-|!o^OGTxc-0w5k_;pnM%y0PA|+#5xeF(kxI>|F;x;Z
z_C#ty<7uJhJSVBqn0!vr+?bk?6Xy~stsc`Vd>EZfq*P@LD)S^#2{oFWId@Ky<9ZMD
z*kQbE&O+iZVdxSWXGAh?6B*HVgArMYmAEuWiJZhsTq{V441MQCX2QNiCK%EFPW`xD
zbV#hoOAs6K&IubzPjI5^9d6tSW!!{KbVJ&;L@qMp?o%Y<(LAT6lrkfqnvBg#*io;z
zkcv$w;!!a%t!Ny^avfBo*=0$clT&eHP6<9)_{RZko`vXdm}^9Zryj1b8S)FBkUPdZ
zLo&7ui5jy{NQRM}83uC9l_v{CH7CRRYHRszW-P*MyfQZ{$(l17rE?mU>!AsaRV0;m
zG{R||A|)s2i(cl6M&rqtqC}$#wk8O|<^MiDq)yKc%_e5|s<3{Ny7%JTV@Do8|CltC
zOq?B>T~H@yQbY5}<n+*-nn)@`DxIdN5}%Z&V}r8`asX;d2didp(CiTQN9lv;kC(~U
zZsMxH;wU;>?m62Y1Y4H4tFA8w9?!k9#NBtceiHw!L=&4JO*H4(L`qDg&MAY|EMq>*
zBJsfg=D$M(b8M~vQLWijty#pafy-{r`y$NxlpQi^!YFzB2|^ZG)nyiB*h(#?M#!xh
zHp9#lIh3(YVIOJ&tRPEUGy24ks{`L5$(q^-GEZ?t#Z5&+#%7kBB60&{MI0KJOem_x
zg7(0|s<OU}?u3#^DQYYgmo$59c2-J>8n4dHCZz}`hu}jQyP`Q|NtsE`qo(5SHC9}Z
zo3YSg6s7~!D`#Z3fQ0fEM3>1%p!o)SBYxere0(jid&yY}G+#UNt0PMz8@|?D_=a-N
z7hYjkF5dQ){4Ljf%f7sGC2+IuzJKt6@y_1&?=HJYa0l!Fe<=IbyO#>iP8nO+vbMM~
zs70H8n89o099aaNn1YPj0P7Wl^|GlbO+&`E&3YX|E!%Fr=^8Rq)@qxzfF|1B2T1wA
zS_N32!<p}pG*=2_Uf5nn#obCnWnHVjigSSGBD?)wGUcE@+y^Yc6Q3S_gQAWQ6JQ&F
zY6!A43#%oi0E+>gg_#LKos<M!I|T(%Y*1tRG^RIg8xS-m60y_GBX>fd<Q*8{#*@1s
z(zvOaL@L74y`wo{vqYg0McxHv3QjWsg|TY@IaE0s-MVXx%$+Dc57A}vAQ0MitCRvw
zx!vn+{YCf-^p}Di*Ir$IHLv8QmHqh_?*|7T7&#;NgT2NEy2a*4e(k*PkCc6|iOPP`
z7|0&Hc4YZT?ya>zccHN-f1%)u6r2&drvS(S4*|HPXjF4Yqti3uToTjXX!OEdEUA~s
z9nedC5`vgQ2$Kbj!WbcBX>|rx#-(I38okZPO^~agdOuC)LiVC4MmUd(1koSgA!R3t
z?ET8&<VTqYzQ*jSD+^^FU&?mU+?ES3Pv(QmGi6#1qVD={T(mUk;JfnSGJ(g+o>g`=
z{tvE?hga*1eaAO3uiWV2`*MMA2|Va9X}fV~(h5E!wK)%6tTmq^d&3516U`zTPrGgq
zMH@ArcF7?+MB9XunouX0P^ajUcrc?5Fqza$ik&pagOZSI7rpQB<8HAIxP@J;H)`{3
zdGq6&#M2f`i3Z6l@d!<5q9@#9BbeYiF|g%3hr~mxK`5zr5wS}QNj|X&dh`ADHP_Tp
z)vpP!*aE%vi>+H^wyO`@Y1=YGRXv6o@`~-yuLe;NJK)&}&mHg#P!bUYE#0Yk4KSs~
z@$^{4ra9+h$%F`eN%I@v8a0iZd;q3G9)?J>pZ^JxCmC1Kf<-iH2#eI@tw5rNSlItJ
zv5;*UTZ&1LEd+y|vgia<Vg%DH0-QDyat7L3<QDlVBS<n_hQEW_4*_5<$RSl}08rh=
z{F${eKwcIM<7JnjVqLeihG^~JH9nzAK&%`<S7ItyHk^!zLpNX6#K;FBS7XmhKr~?@
z=OkSVaXf%Y5H9PwhzgtzRZqS}LiRzC@)|@)Lh7qX$nOt5Tim(-cL$cZd(O@WZNi5G
z*9ZP~@XAX|BiYb~H;^68g>!TFy?e?mX^%Xz6K}BO_5bqZm6N}C6|%fRT@jB!&2fu<
zzzdpLoVCq1h^k3S2IkMC6NZ7m&1epwTsZ!SO&>ber(k_1<a(k}5W&d;*lnp9qE&JN
zKf~Pv7Ted9Rdc7-d^-!yowSphLzE_Bb4fLBEGNk6Y>IXi!LYWYV6zNaqpLEIBx0Bd
z89ON-hiI#HV4*u{|CTO7&M3+uow2%>?^*Np6`VSh0fULFfXsuMOO_@iSwdD*FI}9K
z;&8}_QcFfnRopVDP?tp)YN;U1F=8}?3O%eC;Pa0`Uz)2*wv)C9+Ii@@%q%b!s!?Us
z8K~7*ce6#%rEWu)c&btMMF)^cqd!RXO-T>Q@M-8Hg5jbw<IHeCOPH%d#-4G|J~CIk
zL6;bgEZ8FK*mI{Nti~p#l;)CBbJLQHc*3R=vk{lRYo396<PnT;w&`?fOhRK~8YAmw
z9Qh6^3=O(5Z;ejJ)cB-6#nGQ6)XAuE=1F&NS;X&@dmbt^EIz1~*S9qP?y(!;T;lz~
z&pf?%M^^23Uj8Kfacb@8$<GE(mI5sgTX)?W&d;wbtc8z!-g@-Pi%Tc2%x9VG{<50{
zcHRo-Cw|?Z?^tC(FN=)_mPXKoCX2pZz%5HYfA++?^ItS~ltZNLSh<P#bq&<Ggm_We
zqJp?l=*~vnzXsE;;38VfP+88(f|v^fC~h0mAkx`EJ5*q5=1ClEwPt#w6Voc3y+rAv
zB&S=qPFYpapW}zf9xjtFe1TFR^w8J%tAjc2y`vQ_EFXn(%{`Hjk|L!qnl~xM@C+2C
z!^8b<2IL%cc(}*5C@!<zL1@C-r*tn{(~x0QtJW!}S$XAY?rzx&1eZE2DrJ~DRjpx+
zioK#i#bX~0m6nx06%l|2q}gCa5VC6m*c+pFKzwZ~o@8jKEYths1J0EB8KdG!rba?!
z&-a1`bg8IXdfET2Js{duHRHnTUt2m0+C5=tH|jN+LK0mQG7dO)0L>EZZPb2d>=O*?
z`CZ2y1HC}o?M5HjjC0X-wI6Ci5?&KB&Py&ha&mV#y#UbR>HqhboEaC)q$}fu*qyOM
z?D@b|86_M(x0%5S=8_Bh465Kw@BM*6Uxb)IH>VIwiE#En4+uSQ=-_P}IBt{li$X#X
zz(XX=q$KlDVuHDVt{~;80H@gjVInybgNLp)0|K6N2LyVE9Tc9QQI85T>RLL4^~F+x
zG(D>>2#R!J4h_T~aG!veMt%cjx`g-)oP*#@3{^u?fx6&eq<0G1OV<m%R856_5n)~t
z(oXYT?t$+ke*I8{c2MJKzu-7MBgZE-yWTx;wcvqD#$7?r37QMtVb99)j4UI!&^R2L
z{2V6TFlBQ_83Lr{i<%rTN~chM1#%;99l25O<<~K?ked!lei1)q=H(ya(=(Bf6;(%S
z1$EH?a(L(j=xxYLcWi~At*we6q0GR%0S#&--lnW{BYx{p?#w+;A3)NECj=R9et71(
zp3!pc*z&Q0xAP&K^7q`@eV5PgxaS+%XlyS9c4P-~>U!6{V%NUaj<v3*3Z2Kx#P&4P
z^01{N_vZVa>|&X>HFR&XT%f*8xVrkUy=WTd-aVRY`1$dT#*S^PC>%ds@V~jq+VCSA
z{V3F#lRgjbzB0OWV(CID*s>n%Ee3l_{)Upjt>o{_UC7A=KiGzj(vHZ=>no$h9s9~2
z5{hgRd#HZtSvV^C8?q;UK40n#FMCR%*7eYEF*IEAhf4l-_#Qs|#>F>b_nLQ>ns;WC
z`Gf1>gT?T{)iZ11X9~MU%7htZ4wVi)y?PRo&oH}7yCeC>R(e<WuZCA&hf#(ehfy{+
z!YCUW%V84Q^YsDJ5X?UNo_lFA_tRn($?@uXqOYLlqT4AdrRL)n1jF(ma8h9ZFIc9n
zz-}sS#fohuHFAHIRbxTXtL$Ahd;+W*5R3i}vsRF2srQ4+FaWVt5K%>VENKA3zpDa5
zM~0{5#Z&QGW*n+zP%Jaj3qCSCqOwJCcGvWorw|1c2>RnNrEB`;G5ZYgkH-KSpgqe#
zS?xUzV2re?->eA^G!AUvAXxEjTX)jdU8d~To>b3Fb*;#aufAL5$-@=UN8?t_lR1pr
z>^sb{W$J#0B+mm-d%}WRbuy+_gDZd;c&2qY6DVhs6k2WptM2bfyM@V^BFM4SdBnW4
zbE;rTq#Fl?XAM%V*95re9-u<!0It)#0Dhkzr9E#~ePbUGXqmSvvnOrqc{1JdHf?Gy
z1wQE685x*51^1)ESj0(TP(A~5A|w7)z*Xl|<Cym&h(MA$D}Rg`6#Xa;#_*N;rVs*k
z_KLg7ggl+Rc2z)CpB{t8ngdP`d<PhAEB!vyZ-QeG(JHg%=>X5u*qSi>nP=Dnt*N_#
zl{0IRqlMmMfCx_r8$y`M6uJ(=`=M|tyuYyP03?UoOYJ?m!LoyG=-Xs@1T`K&t)4Us
z`TEbBhORsZpr({6{C1<EJvVYIaIaxcDbST?mXGJ-Yk|l{+wM~Pp4<R9$WE*bubeNn
zcjorw=JUzb{WoU{dk#ZOkM)=Oj}-cjLh=~2Ka|HtTMs~^?M={Vs0r|`vBRpnDHkaQ
z!lmYL{>1X7mB{MI?ZLI?$2U5AOI?v%5}Z%Wih}(YN&*~z^UvfLRs%QxqR@SKb)wYO
zzjEUGr9$TrK;Mr20DWC;0DY}(WiRPIu)6bRH2Y#M{?}s<o4Ry3-Lt~vl|tV$|9tRw
z>^~j(w7(D>1As@ov^6w7+Dn@E(c`J*@PI`icut`hxLQkY$rKWTnjkWFEqc4iRM4tI
zZ7WEm`>9M<1>6TP-{;C0C0XWe@D9?09J|O>X*bER7Rq?5^t&qm^4Sc!Q!1p_qOB@=
zMQE5KvcHPtS`v$Pq=<-ATWYWnL&dWM4Jx|PX_&MD(zRCAW=SvFRg27u#6+Nsonp4E
zS|nEFG8DD8(BKMoRgG=YvE8^XGgq%ywZCOFU@?+-&{Zv>n{ldw(RE_ZrNUed+DOJZ
zwaYB2JViS?wWfAga?I2%=C7DV7nC8Ds|jEM*bLC$DL4|;29sDXy5ZaY+ETDmZuk<c
z;&*&)(0Oo-r8w9rSDOLF!GAS&8hkqSz(SLAq7;=bs&Y)xiLCz(;I0W7fKuntJ!x+b
za@*;I0=GHm<kQfFNRy2FpE|kl$}z6$kcrGx2G<2#+W^2*ciEGeg|H}d7@;YYkxR&^
zJQQAa1g7qOJe%pR?ZcQtvZy0$98wVvg<;K&6jr~el_>@z8k<K_EYmy&iJ>nXbyy;O
z)mTXC0RCfmRnR|Zf;BvKf{HG^8V{YxPyYo!8UtDa4x&&vKl+=on`56Iycc?5$-NP5
zxe>S#&$TR%tp#^4xgK=yTkk$x>^{8S{dm#4Yw4w&`(dChcQD^}FEH?t<74jQskMDC
z7WTdVptCpY*$C{&O#zDD{b4b1c%wa>e`&3KC_7r()t$d^vnTuV*LD)@%$;8g^xd8N
zC{Y-Ex)^x+A&9-a*1j)0`mnh@H~L;Wf4bNlDYXa>n}kAmc=e^#CqB*;cD}OKbh6+-
z2{nW|a-;dawcy^RXYop`Z_T%-=-a>1+?98)HTP$^FWbAaBOA>-^Wj@Rz27`siX2=C
z{C)fF_F`mgRb7AVWD))%W4ZcLPyc$)v0~4$Qpe6xM|Y{Cuhh}C-Z4<@7}#|2y=^&f
zxt_G{SZ{fv*z!cFqn8SR*d9yl8;`xU?W+*!5FYI(Jx9I=TTjDe1HXiM*TWQUnwlWu
z{TuGBny}rSnyJAIsdgZ5_qAxdYhfqc@cjt{ejAj6;;#+vXOR-n0O$+-#{ihqScSh<
z{vwy*0CT{#z7;_$*lYF}G3QUr0}uC$6<36XtEPVx5a19;uKob@pNrVj1FymDoN63v
zPvNN%POtPA6L3qX2ou2LMCt6@Irw?RxxsWDmB3@Gutzz1T9#l?V{kmhH~5F!EW7?w
z35};;QDl%2t#qJ3Owdt)0zgIC5!T_xkMgSo3Q=k`g(*N{B2Po4AYSN-s&gvuEcV?v
zW!5;fs*AqCk1s)VnLKpX|I&NKn~mnh-=uD)*1Ml9c0YN~`BbeUTZ;R+rMTN_%fD^a
zmW`Iq553pD`SI1ZPfmRr`0ZQwTb_Hw;|_P2J6yjhXLS6u(HoSpNJyWf0qCQ=7b1;2
zJ2R7%&*3{xjeY@$7_Q&_J%y<g7zr2!F?t0fdbqdGoSg!1w2qqynflGm1xyWMGz3xg
z)!=^2#E2IBBkWfFYOt-dbl~t;E+5|k_kn@tvIA32(%zL*@*}y6*9TV)7Tbo(Q~*4p
zO=S-Xc=4XF4pX}repe3Z8NVy9Y~tgQo#FelG^;;<3QPJ|N3f*7Y!C6l2XNya&kbiM
zmwja(-l5rGYc7yOL_J=1V2+ctcIM*wk?V<-KrU5m*;{sDw%fR`EPL<`yRcb@sX-2I
zDnof?Wh8&`W*5*uzH9Z=CO*n7B+~z=?hxPqz!xg>@PyVvEoBF$wrK^kE3M!g9K?aB
z<^#DG;Eoh40>pFsmXz$s(#0!Xn?B4*F@1dFgC-!$h8z#?&`|9l9GLCI_Fb5AlVD4Z
z&7I0Qm!B$oFb5i=7qaC#e1nGSH+_)We2W?2+rB-+xcTQ9{fY+{GU5l95ZFM4+E>jE
zX*Al@_R?)cZ7)?qYLuxN|1<bd^Wbl126Zi#@sz4>%^6HlyG%C=03Fd=Lyw&1d_upt
zeoFocydv5uM<6P*48we5CrrnGkg;_#_9gNDCkg-F70kZ1=IXp`|JL5c^gSXFeLKp$
O#xl<{UlIDCRsRn_i;VUF

literal 0
HcmV?d00001

diff --git a/utils/__pycache__/torch_utils.cpython-312.pyc b/utils/__pycache__/torch_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d69c28409fceaec2c55cb630a51b455bb2ec3f1b
GIT binary patch
literal 27124
zcmdUX3v?XUdEU(K?E3{Q-T+A~2!J365+F$M{gA<@_yQ>rq%BDDa)B9;3+@A&U62I4
zh#`fkfJ6zwSP7w6iQv?&Axo{HHa%vVo`#Nd61(YXcL^}N9?=PN%$!8$H0@H5TRTY~
z-+yOjcL6RbJMPJ82iQAz?%enN@BhB@CoY$r!xa*KDH!SHxF67ie${G`C98wuZgJ;0
zkrVk4*Qeh3J_CC;_8Hk-=o4@^giK*`pE+#lv+$J97_x?KeKr;sLiVtu&k=U^Im50#
z7fa(q?miDIUlO+Wm1=3;J}=Ttp|Ws!UpY%NhbqFAeU&V32~~xw`>M6PHR0O6S}k4|
zUNvCgx$x?~H9RLdWEX0&hU&w<J|D|r3pIq-_O0c)h#)og`S4pSd550W2b{kn^?3eC
zk0JG>9?##A+LM3MV@N%t$Mg4}GWGd<Nj-)duudzl;`NI5x9xpxc=x%L`8iJV6iqEY
z8=fc3QD4z|i=`Hy4bKzi=%u3d7EARGeZFYkBB?=h-(~|RxkSf%yjrHOQ{sli$IFXO
z%-P`M>4OH*bzOK*d(qeRgwk$l8*+LIa&CV@&XVg~uC^UdYE>*neS+w{F7)mElssj~
zvr8;5-g~j4cslB?M7iB!m1HTNqXr|!h^momk642|*B+l6u~upk>+mZT`9Z6=3VHY0
zIPvr1YH5G*TE{FL@Cggo`~-PQi`Oz}7VEE@`koPe(tfc)@?o}$ubo+3i#~nE#;Jdz
zUu=}NiB0%5<F^jK7X1Ei^>#h#QpeVceyOnyxmc;xEgdL6k2Kd$dpBrct5GSoVblk;
zv0V5^AIr}^f^u;qMsP^nBprAnRJSv@_{GPejX_O^bcC&T5ojE=i<`09M@3%je47`y
zU`7u}oiuaw6Sqp8XtQ)^`th2@uH4F%BFC>jo&$AnyKe3~j=FhqySU?R;}hyH3Wo*t
z12O;uPa2&HGfx|%Til6$oIo8jkN0xuHy%&x>jC}~hJNeuH#sbHM%?v;`hNTIQf#ja
z;%?0J^V0Lh%lS{~<qX_WPTX^y6ZgJnP}BO(vh^$0`y#CY1MNdgy&@ktSG=vEBBj*5
zC!H7f??t0OO?zrdwE7HM{VZnACVuAqZk=`jvmGed&xD~5UN`0D@pEX2sK6nVeE~Sr
ziDxJB9L95>cm(|~0<}-u_XP348b!+yOtbfE*}fnQSiE*;E@!utk2|Rp`gRn3dr^G0
zcxg6sMQTO4V<`8McpS5F0>4t}2ypUAq`jPb7Q|C{{(Ql651#!6&!_Qxft59gXAlo)
z@#hfl*W%A3K7e(o7SD>kIT#Xkj1FoO5YM3p=OwfFS<K~rw%65t^f{!du@_KYjrHZ$
z??pDV|3Qb;{9SxW!?$knWninpQNFeRBYNG_YEY~P1EEl$KO`ykgV9h(8i)s@kyc)@
zh2#<cKw#jK)M`{*y)T?O>_7PI;e#iR^&C}<-H}nn(mOgVoe#*!Yq=uHF}0ZGd_H<I
z*e?g<QDktOii%R`U^Frqy!bA!lpTx2B{?jK!9ZN<l_IgI9BZ{JmcdXo5Z}5*5iSKn
zgNn7EJ$G(bOe~@p2ZwhmRs?>jE4)>UZ3`oRFcRO1;&>B`3@CPrh%tXS6j1nH#U#ej
z(*ccLV$)(o*ofZ};m#8r55XXwdq1RYY?f0C^er*Y7vvKPbExqIr*AE=>in<sw|Ks=
z=3*uIe2G#1Ul_0Qt%kA9XQg<|7rz8fKpG5;gyOz<R35nGV<SPFy}B5@B1P1s_8u&f
ziRDpBFG_L0R?N=|D5bHLNv#H%1S7>34S|QC`H9h}eZIfl*AWj7cMJ!IH^l=os@imI
zWXG<Zmv=}Vp<sW<@M!!}G}3V;6bg5Y#Dk$&2W!;N;_btuN>yP~>N{4w+<@wL;1}D5
z;IFwKO>m!>xzfsXNlU7vWuc^X;@Ew`mKN$#Lfy>aMPcoSf-RqL?4Gdh$4h3Ee63sP
zHUpp{BVm91k}L(p*#B26d*HE^#Yp-k*%uweqO$S$2BWg?%xEuL@nvg$B@h~sXszW{
zm<q*1D_t-Viiak@AOWjPP_B4rl?&3fwU&MKa`odYR*+R*k365jZ`rz4tx8w6r7GJN
zDmP7>X3JEQ5^84J7KL^Cy0L_gd%}hv%WF}50KeR2LX2&{CIFqf{lJA7LR^?1$7W1$
zLzH91rEkHQNi?b(Yt$$TaRLf<4O#VA{(gnShJ9*|AxA#99uoz9OO6{v)6>g~0#RgO
zZR4*SX|vn71TU8-3_nS!QRCBd4VCFV%HQ*S<GE2|BNun-@0vJy<G4{Y$31#V!l;kq
z3MU&y%eWA66ni@^#7lE!a$`>zUo(itapTVcC0*sN8DHS8@{K>m=&o`<+vxN*8A`N{
zHFsZ$21VaUM7joK9+yPl!E=YYeZfdD9t?znV*#RD?J{98P?(Z|5m}ZZasO~A5XXKB
z_bBC*-+%tt*<%Mz9`+wPeE!(M!)Fz4thOhrR(15uxtK2?OTNIBK#-BdvHBuy_<}KC
ze<(U|SrXepwA_RX+x2E*avM6JSb{PCz=#-74AGckks?=uax|hCv0oM2;cElZFm+Zj
z#^SQ#e10Sn4~C_~vK*Ba<8XAi)udH&DIoeUOQR~1W_w@ZB~&NN{&4JKjP{6+E_EN*
zTpS6=B5M{@uy9u7J;-?szgPwV!@WN=bEeG?9Cc|&W6IIE=xF}X>dIK%58O@f8@^$G
z*Pe85nK*jC#Cywr(|*f+)19o}wotNt;#j7&?fQY&kH306>1j?0>#_!?Y3qHf>rn~k
zEX#E6e&fK6<5S0zRh#ZQ+aEgJ^l+nRswY|3dC$4!N1s%1&WevYlc_D^XnB9@+$-;G
zPdPd>l{==6KCG;nY53CM<k9=?+L;{-?#8*&q;<pJWgW=;caPjZLG6DZ+m6A#*6lk~
z!hfq#IIxEM*81&;|G^sD!7}3?w6q*_8^7%~A^z<$<H1Vq+m$;Gxr~44G9r&+mZkWJ
z99c$5h*lf%TOw`Qr|}0DfwbP|b$0G)=<6&8`rdL>0!asXj|Imh74?JE2jT%AkzxR~
zuYWWy#oFKH8JX4*zB$f#CB-R)q%c7@6_@v;e=*`-G(d0@Sztt0ecz2&q#ueA(U{;K
zI!bQro!UENm~CEktWP_(r5xK996OT2jwQV3mdyc;pUpu(BDXNcIAvj1F)ryc2t1H?
z5iVy8W$-44inU5`0~-rKruQ^6Js;5qZWUAlC-g_7A*B?Xi7|k|$VLBf6uh2dr~MTT
z4~L{{j}5=vPvak!rGX&vr2dd}MGDEJ9v#9jwh6%m_rO{D=DAyaH~Uh~`q^#i#@#9W
zJ9ghbm)>_OweM8&%yX%I&!rsCC57kY11O=`V)B5-P1)iXwfO}fpTBZ*1^pbGs|0@;
z#8c)+3wXvne>iT)bCQW14>)d27!t<IsDa9{_#qZIVD<`I)7p&<6`$|e=i?BE)T<a_
zEa->uDLM0fGbMx}yIyPlo-h?lz5Ei#UE}2%kaJ-uN2HdODw28`T<KY^phxa}2|f0N
zz8A~+v-Q2}r|)}i#3g!f^LNZskyM%|K)!M8MLXg0UMUv$UA-g$Imo_XoQO>*8jFRb
z803MdZy<ozz!D4(_y*-@n3cMagU$<->p~7fFSM(*9%;3)Eg&C3f8?VS5H?Uu!C+)C
zsu;sTkfU(m8bmFYV3(y>Gz6|5vY=Te+94mO{A?Sr9i^~sphm6KJS%6VmMIpatxf~d
z$x{iotUeORl^}iRkRys;?7t$I;IekkS~`8~u4Q$`Q}(c=Y4(MMk`71(x!40s$@H$f
zmQ{G2$wkYvW)PLMW8GcHy1CJG$HBWD2k)0v-`aC?&&=pTS?i>A`BTPIbt5sAn7Q^&
z;;lr=({|T$a^Ct)=LgO^)<1TB%bD7IGHE^eiJ2>@xbcOlFU;&(@H9_6d*4%D@bti1
za>F_0oUy*+e9M`#Hhs()Y&$Z}@*5|oPR>00&dIk<rkv|PHX`wXvpnsrCls?Y-MBr4
zf9LkBMKGCFoMKi5uVomQh&sc#O^Cd{jP6WvliVQGb=R%$8+1y;Am<8OW1XY`FNUKL
z-vw6r1%f4FX+j~L%tRSzsjp)f08t<|603m$7r+N#cQpt(ZzN8z2dwK0L`FfBh>ud)
zEH!&hVn$a5{D@s$YDe&E{PLdb{hs0v<xB<dX{8y~e{2f2QdLCIe~nk=g9P_7Hcz4W
zo#3Z()1b-&Z+Hc6lp}ueUB0K4X8;Dd*wDUNF^F+SNn<p(KHr4OGTHWCl!%{{_m4fJ
zPMg19js`@U2vUit2)}(VxV=CqwjYr|xL*uVL{HHx_;u79Ba!+?jK4~*KJl$1xBC~@
zw9m=&+tO=xee1}NV>CxUUs=OLA!3Y;gf$slK2Jpnw_nh@W!2jm+xXM;igkf7%#SCy
zw;LCz2M88xPcUesM!`&CT6&NLH`XjI!Uc6QYM<Pe96+`k_{FLb{0O4EopXA?FMjAe
z@rlXkG-o-Z2GsI1$e|cR(W}tn1TS71pb6J6ng9meUq$2=NWUiY8KES}Nqoha1TY>{
zmR-fj+51L)LyQX`H$`N+1c<4g2WZ_m<kIWQ-xDBJ`8+=-jDivAVG;!<&jHRl7LSJg
z(cu{5Ia)1>K)k;!p#~M3+NJPteAFKbUIv@4E3d30ks$3Hzv38(MxZH+`=Or#lTR}x
z_fs%{Kry0X#jav@KXfoF`FrAPB9aV^nO_b>MDzsJ$YB)y4g6xn1x|23tmRDWA408C
z+K?)3m|gcfrf<4Fa4nYZpE#Zo+-adIB~;BAXL_Mv$q1I$PrrJ4`pC@jMWN+;R<DYb
z98Bk@u{w@0>Fv~qWz0@)B}G6`A#;qC%CRZ>T*@N}tTkhXP8TvgMRJxU`20#kYIWqF
z5<F=_#|;Ss7z7P@fT{cx`99YNA;D{9bI>6g68x9B-!$l`=rz6&&Q`R}Y%Y)0U`%k!
zYbfa1r^vqrJ<~^(@7ZJZ0umJ=FcOcBRUC^z7KA9w)<)I;?e>jT>&cg|0H;H3tG{VA
z6T2LY0Hs9+B)JQds8pZrecpeFDRp~K`+HA6fACrLk-@R58nmA$Z4(nqA%8?rOeSir
zI103S8amYkk7{DPFJDo$#{PnA@)Z>P27a;shydur%2~bBZEwdGEsYsR<qU|o@4g56
zqp!vmJ#F)j#b-X7+Wgu3YqrmSA+_e<v?E)~IjfRF<tH_qch$^^_ba|p_io){>9)+8
zR=lj#UY2oH4avrxx9e`Zk_|@|Dvu^hj%Hldi>ta)uCDvFTjuwqYM+@rk%ctLDsymU
ztCRIRZae13ldBIec#kBVNABCorcZpe;%jwZsav#d%2YN?I*7qw`Hh^XCRw+2{>1#g
zWKH*i`#{oqK;1L$+@KlJRh;U!!FGqfd)dCBy}>YGA0i}BY5QUgv_{SZPZG+?3(%h1
zQN=_nyw8bM2?nK%q{^?LA_!7Mlhjou(jdnu)gWJ`I2l5gsRHYkkHZfp4a=x*e|ZeK
z|A<Nug$KK4=B$-7m3J-mf6?4InMivYQl5sSwflEQzB%^67$Wx_jk7%|$JV5<Rh=a}
zsTG;#1bB|!nS83S^iW_Fh6BY$c`lJwSFzDe%^}1jNmR_DbR{?-DNYqbp#(UTfkJ_V
zL>@M~{~h?@^|AsAV+YQ+7Zb}97Jc`F2IWMigehUx_vg3+t7HWIFeZdS(=V1KY@%=l
z^LCsAzOacVhSv<DIl@E3=8W6W2X;-CfmyR&w<esAGd<(3gdp0+ps^fxU*yI;_?5(S
zyC0NF!*7SUmv16Zsey~<=+%&0Zy|qAxDt+p^?mz$G<sac1dW9ASGaL+!X!F?*~$~%
zV%o)o+rcH=`pDs7v=;fDY=oY8g<3aou2;*awT67|c$NNEbR|s7abm(VM5uekl_2jZ
z?iUR3v|!!<`k1j&B~Q)oUYY-mF9}@2lPDPkWoY%N6kFba=Hx>NVB<3OJbOqnKHGCh
zzD@}yM$<o{Ic7ONqH%mA<X_4EgkHU_zn3QwTgIYN0mh<2z%OJ`vH0U)OI1>(F{KWj
zDV1r@zY9@Mei0Fc4=R<6q6Y`^NHcaR08<QAuQRFg%Xk>uHUQHAD8IfzV}9b$bBsVJ
z5W7@_DSe2dD$AxarOoHRyXsDNa^2qB&)r-1%y(C5EUCxK{}poLdhq-28Wn+Ql^EW5
z6>0AZ43)?XeUP45_EJ!W;BOlbMWvW85{>&}Bg4Z{Iqn0CsgWNtXpl0CO=hc0CbXd{
zHesfaL_gFrGOS4uFBo}%`Dz6E9K{6Y=AxuYr;MLcEW<Dsj=*9Vq$-Hxkx37wm;=MZ
zQbcSmm%l)12@1w3_&Ex`NI{Nl$rJQQ<B?yZpp60=qv8aX3yP9IDvOe=)aWzphsXpb
zpCn*ETNT9=gA@QWDTb($xR~N(T3P*x_bVQHS&%5dfhJ<*2p|Zrygs8c-fKU7ZRK}R
z!+)l#)&pw6fd8<X^tVEJT4+iMO|#(VHav7T&AvF_w&2`9aX7PP{anLb-|d<^$C9gi
zl0t39Q8lwa<!DU`tw~2~X5E%~>F&BcH=nsvKXLM*uX%wW1Hpptd{S7QaaK&nr%q2C
ze$d<kzOkhhd0gJ<-GAy@Gs$NShC1)t&F{3m)s`vUFyDN~{E5*}Xa6gE=~T<~-mJ+`
z*D&c(X=d#+DaSJzXI<LaltSmE+4FPf?m4%DCeIwc>uR{~^v%}KZ<}9tyZN5;GY`G1
zlJy7f?76ckx%$k4_qn9=xs27Dw$`MqH8UMwZ<u>-t|?X9v1r|#v6iQ;bt!Az%;~Rp
z&%H8tD7C8do^?yMigVXzt2t-obRy|!ObU&R><r`(GNz9RC2g*y{{)f>@@vw_ZyC_B
zVGM6&cb<U*(ifH^GEsm#Cm%M9!xc1P8_JOj)Tmv{$Vsl{W#q(;w#*FmJ48bs=@-+H
zL91+k-=d@AA&=fl{{Eg89m9CWoe*Hq=Y*4<K(L&Hrg0ZYi@U(QQ%G7MxQu%WdO-Vn
z#RbA*2Vt@5gk`)0b7o@%q+}>Z5b}i*4iFHB-eZk`sI0#yPa+Z}T0U9}T#SGaI%bz>
ze~f^*ixPyAJjr<DB1nKbdVWwCFU6?6Kf|a?SB$zWH|nyVVbo<$9kt`JQG1Jyx@^U$
z-3c!ve9j(*lRqLnJ+}QPK+F&ynV!d&W3+sXFsh{Umr)IqbLC&5*fa&;MYyr%$Es%d
zZUxo{!Y3S^$NDlkp)pLaa-&T8{S2kONx`pCkjL-0@c7f>^&Co<e*>iz{+f!7Rc?`?
zaQVyB%5TzJTMmmWr3Ls}MfLLAl*Lhy{v;HxNj|HdhQj5qp|&667yDJfI5_7@&RRAt
z-L=%s+U5@Yw)?)jI^#Zc=Y=~blFl<rMuW$mg+|e?n&_U0;veWpI%BoJA>9Z~g=V(Q
zo?CRcrQJJI?wt$n-6`wtiSA5Q!|blP;O)+LBe#dX(~zt@IdM8eX#IW;qu(#Dxpm^^
ziCO>c!{1rASpM9k4Ki6$L*5l>=bDsr&8%tW%IwHJ=cYpBT{CxX?#TS%d(PcYMc%FV
ztWDWcLeAw}E!4X6w%fat)kl&-1tTp59jUClb@}GyWXsMwrtb_cR-T)56!fGj?ewKU
zGMZ;A=PK?wI|_SJH#agjI4|9E?qxkWbmzr8r;@9mU+|tyI?v|m#ff{?^=ePNE6Ic+
zkoiq<sZKBOpJAegeK;8Lhox{-9vvY5P``3?gjl*l^+z!q4e%0#2a$)?R;z<4sd5T0
zy;9(87~J2_si45jn#P{#j*UhJF2Q^p9f^g&TQNS+moouC6XY9+4nsW~XXXIkr6?=}
zP~xg1XjhB_!y{lh89VoNG{tzJUWkCN;z4mnz}_%f41AboW>i&phIkZ=@*I_5W#6S3
zRiN<km8z+d0Cm!@>8>tq5#@Pg+yH2g(WZpJ@8)c7QkqZq&Q{Ftz9TJKPXaa_&Kq4*
zUDM<9U6Wl4j-5$iCnMRg-&<gdfaNYC|2DN~91e)`zd|ghO+?ikq$ib_XAuE0H%`>$
ziFaHhEnI=-5QZZVM!G~pfyU67m-~jO&J|Z)GnqF$C5(e$@)HIumevk@C>(mhd_Kr;
zEgbg}5ogo5xu7Pqj>KW?!}My>q#48;EJ?9^zhD?N>_r1_w1UtH3^ZQ16GM3_a2e`-
zA7)5|PeeeL1EVS+Y&is#{qRUU)^2ARd!Z7dT%^y3RSCRvD2NgO6*5GFk0t|w1kDkO
zLC@$51p!Fpn-C({0@y*P6k|1A&=yBCF6C6D7R~ESRgapPqM58p!_Wsy5ycQ0R)oQk
zP)M;!5c8QTv(>^@SpL@-nhIyM%!*YVj{lls3`Ru7!XPx>A0v)S<DymGxgw0=`y(P7
zw<;46to(cA+eY9=Dh^=WTF&a3_~Juv#hU|fH_p8BrOR`ji{4F>mWQ6w8&{{UzHOZ8
z{<3-2lB`-k*EoM}(X$6OpX!F$hTj6nP8ugad*9=o-tkL`nX7j_>yp-WNzb~>`i@EK
zblG$SWsiQ@IUPxsHr=&0XH8s9bJof^%O_4VSU!SHMMF|W586LD7$(TcArgXfAQFV?
zm0&V4U?vC042_r*Mz|U1XvC6-l%iVmoNi+%$BOFp1KH#}ea5W`lU$Op7So&S3?}ke
zNv||ESp@0|%#pr-G_aFDz*wN%tSwMqLY3+7Id|&J3z{~Q;6N26?PMz@AGqOB`Cn2h
zEd`9CH18{*FTYfZH8QMezkZMM5zi8%snlRlw{4a)DAdp&6U+$+zm1GN1cav%0S;Wl
zm28-6PI)$yL9uD}xjEz9=WbtJ^c<ad7UEUfwL0ZmJ#%Tn)sl8?NVzu5ZC`M0nK<%2
zOKGOGDqXrZRl0Vev}w}(z)?DJO4X>DA-YO|@MEe8f|;ew2$s8S_z7#WD-Sn$Tm^qJ
zj;SbMGAo0zL-n6hTkyw2F~!9AA;kmNiYtC{8dTrGl=O$Fw9o^k%s(8616@FUm&+!9
z7nwpd9i%y!;4;2-i$c|+u=>7GHhtutP^U_3tb1CZcX!E)gj<}%_3<Ky1AF{+uFp7X
zKtH|yvup;=gaQN7C3rbX^0LVwbk8P(Byds(UWb(6*Q)0*V0fGi<Q}yM^>2x`*e!iV
z<X^;-8XTaQj{>S@Y}4Z%X!kSsE5E-$A*0z1uh8(R<_T`Li;b5IOFDsvFApA}>kJJR
zPNr3_Z>;Vqjg3&%c2@QG>RKj+d)8{!Ku@cnpoT~wEcyM4-S3BLdIXkDzvA@!Ul|F6
z)HiaHhQx-MAK{-+8U;jF8ScH#Eg5*zdR8-gvuyHcWNfzo9{CHDuaNKZ0GC%*i#em6
zT#`>MMuI2)7+x+p@`_fpOGi%fiM$(RG4<#WsjXIApHhN=V8x}k_8vw@7e+<sn_b0v
zeHO4*Oj^|IksI?8v7VN%(ND9<u6)`PTOqUTiff!t@UQv|;5~nqy5n_vwRy+W*FMGM
zM$AcI5tGCyg)G50azKJl3i&g)lUF2yLgcc(6<!L^X8JBLS4!2D{IM*mBMUeYa@33Y
z$T=Z?DG>jZdco+tG7^k~zk%0iBnFT9jjUIJnCj&Kw+L8ifXGG$$gd_MUG=G0%@^$-
zf}5!iEij%4s=tuh1?Eq2m3S$jxMj`fk=+Git1e5@urDqL1}^Ka7uuk-CRj(rARN`=
zq0x=L7%^gK4poy+Mu54yQnSRcJ$3dp29MadkqA&=Xq1Xv8XYEAj~J!^|9aJ8l&Nc}
zUcFNP!FJVa6#ZAx=>^s`qL{ve9S7UmFh`=Kj=n%c@W%j+vA!elm8H?5uy6VJHs+pn
z?^s_L%xR&vc=;-;P{82C*L~(#t2?hfP%M`Mu|Pa7%YTGcWonu^*~-y@uu9+s=5K4y
zuYqD#2cwwDS#WrS;VZ?xyh)~{fH2fXwSI`8&>qGTSTITmFooC9yjDW<`q1HBEL%5c
zS#)e(>^hq6I+f}=mFzl~b#l&CIhWdp&QfxKO*<P>&W5ixe{I88Hl){XO|9L!uy)&`
zbNeSyRo15+O({oHQfMOW<(jmsDdlQfbgjF;e)q!qy^GHJMQ8IT<;(Jwa%<YttM{f>
z@15+)cvdGpt>4?Ydtu|=#gfLwlGabqgM6i**kBUP8u*Gs{F2dF<%OF@sTaoAf-DS`
z!?__aa!sS>%TRibfWC&ouR!TJ1U1nPL`SUoic3d4@|t)~t}5m#Sj-ngFB>rAJph1M
zjAPpvY#xrpM&P36%XgcAJm>Zdxh5Kcv>b)So8`}gEhLVdB|^TB9?KmRtfC-I!S^WG
zfS`~F+w%>{e};GeoB(1gA^->{0OAu^L(7tu+GKr4x_(Ehe#c_{uKQ4D4BZ?`SGJ@o
zTNWx?Cmj!=R}m`Nlz&7s0&-7+F4<d@a)Mv~6<F$-;}O$8EI-;p^UcWX=g>G?3oZn6
z6TE1^SFyVxWC$C_@$CRul5;bTQrh)25*lOfrcYZ5d27Mhfui*n5cJw7^q>eK)>j(#
zQ(@c~c~Z%z5M(&bLcMYsuqv-YyTt3QxQ24p$@~kwT~fw?R2$WMtEs?#sFZ7pAUGRC
z67~neVk{i|=zrsCb;4ICN70}+VsY&pTmgg;NP*ST{FQ?tNtFK-N%B1ken2n1%iD-t
z35OJe{~+3C5CNZxLkt)WQWv0-`3ow^z_pEv+vLDiwR;LLuT;#eQtME4LE0eT2NH+>
zcq}IW4a)x;0%TIYPH<qeO_d)C)qg2;Jb;h*?y22r$J&%*?V_V8<0;8ls?wJFl%;;r
z(g63b(&`!0JNCEi$)??lC3~_)&gE5+U0cf8w&>jSptS6fg|m5q5-VzN9lv=zUEY~0
z?_4O~3iV=J*ZeDA-#2NxVV$z3t<5QG^MbX7>4PSoMODu{%WDs8t1LrEv;o*A=t87W
z^Y(NniT5x}x`0CXu}{cV5~84X?24W7P^Tycngu-vk<b1>jA0R`9Z@yh(Lshwik%}N
zK7r^jo#Y^Dud)j)d+#M+rWm{_Ln0h4eIryYdE>ylf$;@7AZjmMruD6?@JNJt{uXT#
z6cK)%5CFwdRE(p5M1nPSjtIIhOCqa-b-o>X2wHDNz-g42yb;kA?7mXR;H|I|pa?pw
zkdAGEV1<l65N1J?*1s>L*LSDZcP}^&Bn8zKW|{PrLs%lp6s}dFlUOmA7F|szS3F%c
zmls}%*Jf+`Pt_&TwWL?2z-8#J2H^t>Qb4n#Yfe>mrWb2QOrNH~xEcgo1XBS#W@$BJ
zkebwE8JKEHh|0l>!AJlM4|Bj)dC7jTqO2fsHY(Hicvh?wm`}A)Y+{+_pEj{#?qyYh
zOSv{k9)KR|vL9X6)Tt1!nc9H>ShY6DpHN{69?*iUM+6JvB$ujnFwAazYvZD&<-VsP
zjUzgq=Gnmo&!(hx(*sY%q)Vmt7Pa@wsSC-DY-7!%(tprmIr58DxG;I0ES5b-m2yj5
zli&_<H~0a=MQ*_GvWpxj3hK!@@ZU7N;SrEyoL}bs$Hl4N?8?>X&1+&+f&X#;o3qdW
z<EuXS!Vgi)!XD<mMCE57Jkha>61|1|y_oNePERlz;|*cJ7^Lxl-ZAYjQI`Teb6)rM
zCBqwK7#H4;=T7U5n-V6Bl6D%q3PmsaG7!zeRfLGKa#zVvFrflId6-6m4A=)pBJ40X
zLA_=+SiT+Di2@B4R8Xdqr{wS*0{p8GuBw5_mxDb+@RA{c!BK<ZE;UVs>c_S|u}4c=
z5ac|#VZdJQ!TlaVH7?CnrgWLB3?QF?9NhVfxXIr@u#7urjxmiZwo9x)>!SN+{~c|U
zN)%VUV9IxWP&L>6rhoRibVbVtRjL!rYZX<z$|M2=xx6<eb77%r(Z=8E$nRbGW9k?6
zQ4vU6E`N!lE+)msq*q306=XN%`60b9K@JVaREfjPlGvEk92Y2u5vW=*;w;+Zrzchp
zQ~sYQ@Ly<P-$sNXWbFTzx3|5s_pQB)mi6~NYi6!4cv_Oymiv}cyy#lA_`bJs>w>52
z-J`Rwyy=<c@0F~bJDT!zC9Pd*mTilc1{`%r(F84&<LJY#q;(gWA-6oFDw1{Wi<XY>
zxf?P&_J8w>AAB*r<78^b$;BN#i_X)j9X;>voZC8YoILwx$86(*cU{W0F1e%UuJbgr
zXigg85>iq&X}@nTPgZm+*f%GI%|HIQhAY|jWAGiWGknZ}ar|5FL6`6cYby_W?TQ^T
zn}!3IffgYthNx7L1RGQXBBbXoeKW=^$D#GppP;!Qfreeh=uR;udQsJR?vy`hj$!OM
zw)Kdq2&gAXuLMC-uxIdi=9~sOApFEuoP#qsnO)8Y<v6r&zHU*39K&9%KX<;nRozQt
zH3bF3@H;2Y0k+79B(|Cq8@NgJLFEH4V?gpp2$a?2fvX7;(p5jxdFQ7Q8|r@{SAkq3
z^O!ppSTQl|h&QYy5D+WVj{20Ne$mm86!s?@_b(uHG~5SUxNB+`9UoNB4bBfOIJ%QU
zw@O!3CfKhr!HQY6r7rV-&9MY8p(BM<rnuo$#}DHm?|Cd;G;fYls0XT4O}0TMZM|X|
z4#+VHhy*ATC!uNA5FF_0`)Xp(83XUft__6X3g!n>fOEEHWQFr37i&WH3GRM*-K|qM
zPt9&xDBnDBD&wer`{+BT-a0k6Zedj?PO>J2PL*Lrsoa&b@Q{Y}7S4y~$C0<~<YnAq
zAgIp*sHz6OXK{Q!PfKy~dk3f(Z6J1iifXfn42CVD^;y5?Ys=Gen%M!v3t+VLv)KUt
z4-Q_Epy3MA=L_iMDp*E*MTG2%^uY=Z7DzbXzfa|m*;gg>7n<s-TfP|EZP%?TD%|YG
z_R)(2w_@{b1TliKbM2P)?d_Y_YDJ%CCwB`<e^xs@N8N#LPsB-R9ES=^z^dxzVw(o0
zA6i`I4zDs|4!;h$e!on#OD5I=n=MR^jrjP5Vhv020J#Y;sCt)IA&DkVa|5Y*5*#^^
zsgmI6JTha4c?HvH{=TQ>edGIw(;N4tHtt(kzyFST!E-ceJ^G{jj&htSLym`@$~Q;T
zRjsM2)^t^8s;YCoWua>Kf@jaayL#u!?|m`l>A7p|fy*7T{%s7zm3wV%GxyK-bvGNo
z)x;xQhBtFtj|dhShKk|MJRpdM%it_k!}L!Js37vR@7PsL;Ztzl6<X>~$(zHq+KJLS
zfcn#Ghr9L|+SWlC=Wq`($qz>;_;%*;J7#F_gz3=4#QHo8$W{Ugs$4c9282Plf?<ti
z2*a}iVaO%OwvN^}h_bM4IZD|PYvY1r)hvIPkZ1#;&+@9bP3h{^RCVh@`G$#8%h3tY
zuC4Ozs&`huwR-l-LQQ+h+Ws-e+jiY|mfbitb!ukaY}Z?x7M$zn_NAOVvnKt()v`6t
zA)8tBV>z<PZ)1i$G(^I28uG|_qdeW(P)voChZ%jw^VXhxs{~E|aOAP?|1IQUW-Fe@
z5;7b@fiEav(BnX?fXpiH<%mJ{;{6tamtzcGvR)&@2Ww`oEHDQH6$S7t@h3q6M#`$8
z0K1F(<$c{Q<F}kV!T~gpyNrm@Z;9+hh155{gv8MFjG4ByceQT@zd(p<rJlf}`Fh9v
z;wY?#QMnwM4$)|cbq1AmtexGl;Al$<ZBNnPeC~-|z!_?M`1DgawWp|?)gjonwC`-+
zOga@Df?>m8;<iI1Mm-3b9VbfY%L3O1215Sa7e7{x)s-77<&*KbR_+*$w2_VUp|yV2
zv0&YJ*LwbUD$<<?Qk@6VoxQ2f-i6NdS))Na61i*%a#(o#it#^vyjUP@$Fk8Ww%lPv
z=ymR)DwT#=K&I%ETPug*%?%@0PF{tvJV#?8%_^;$_swm$_TAh!+qU3nPYUg9?c_nc
zRIEpy?>>6!a8Ivdi4HScGK-LaiL*{4q$G;@LDz9;XOR4HKr%y6k1|S+(~$j&6SL0j
zW$b$<LOgIW);>_UgoJ(=WGd)YA!O>Tdu$CmElSSU_$F_{@>F{RG5top<ZJw>kT6U@
zzkt(wrU~zgdU6^G^gz4D;e#a#A=9`uf9eL_F(k>YxI~k_Eb^M-If|K{ndeyke331(
zfwgBNADg1uYm!}8Tu-W3@6Wg`Azb5Q;Bn$P<M6m0XP|Nh-F$`cEV2>7Oqlb|=9pu9
zF|9fCLNetY!jaGTY8mpb&ex~MkT+-Ihj)oEDzw@HivT&s>0MA&<{HGpCaj&VRga`!
z3S6PDqg*6$3FgqaFA83e9F-vn4FsS>h5eRQ6Tw*$_0tHj<Ki5L45km@heGs?ARX>V
z^a@2U1_#=GOdqT3MpzZP4Hk;Ri@**zhvo~wc1iv5MTc?tJzoz@PGo{sedd_rxF7ai
zIM1o9<ylGcU5dwtW4k*#sH*mhuxpR>x1&oPIIVU$5FEG^h;~Q={Ze3;G_Y%MV8^aN
z*EVqr&YVk~J9c)7I|91`s)>t~4nVF@K!WSUm)10X_rR$BO}LGWpU(FaJhnan#(%Td
zS5BTh1-6-Cg?8VuK_9xo27Q$#6$8<WXyXcC$_AOb6o>!SVjHOpvq=vJ=qnW9tF<?*
zBF#{)&B=xQuD<|p#EbCri^R3AA3JsC^z*&lJ-xfNN(LoeU(S@PIOY=oP%v|KfoozY
zxGW!QRO^6drPl}M(+AZLuR+#ERId}=D>gJ%8F_Ev0F$QlU0yYHhN*7pLkf}Qb>bCi
z^EIi0@H4X;j{OZu;J%#ETZd4{L;LrEu+psS$E9+s2gAc9I-iTy&<~n$x~n<^cmu$-
zDJKj;v4GF;G4TqMm4np&ksvbVUt&_&=R@FMfG<J-L{*@mt;2u<9~lb3Q&fswVj6Jm
zBUQ9q4B|sjX8_bSfsPGahIC9;1ppwOyMlTvh;J12C{BDDLX!P4czlHeU>bbD;kY%a
zw??{o7`e&Y#S|AvFH=-taxY6VWzvmk+5)I#4ctB_ucNmWD!xD|4N<hKWG0`0??4ja
zv62FgksX{E#pg^U#SMMBy0iU6pP<77gTcx56i{d71`5_vKpkN{S6u=a&tO+aM)q;V
z9H#UA{Y+b>%d5D{KCHe{qhgYLYq`G4ov8N(qPBmHj8NBY=A3I59rfS0ZhcVJm@ex~
zm31zbZOw9Kn>}j~T&+t+#FCz^IIV2+Jg~sFT$ib;nRKdADpu8!uIfrvbxk^dAXGoJ
zxF<($j8BcvL>4WZGBCNleDmdWMMtWlW8QKnL@Kw6vr~3_LebXzprSTi(VVJiPFHM5
zRcuIC>_}DYxNW(!YN4WM(w=cu-E}p-y>sG7MzFtr>eW-zEi=bc-gR@m6Q>r1EtGiT
z)f3Z}nX0+O#EC^=FTTZ+#79}I?zDAv%DQ^y;_T=>YbVTj*3~Kt(T5S^_<E0OUcXLH
zM(qjKR$Po*X}t)IUliX3y~bp1Z%*uP&r993Hk)apZR)2Ifz=hyK<=xhvGzd!fNVqt
znb<5aBcuVxC!}IB@fT1?jY4g9Q6?!#ChkKf;;)!guh82Rcd~f9no%)EhT|$@Wg7;X
z55V?wQPn7w=APR%9R<@C$aFkUCPj>5V`^Y#Z2NEYyo&5Q_~xnH&UOpwhTC;21imSk
zsP!5;i<rDb1s$v+^(?tepG=bJED6&ZD`pk>$|U=*IH0MRM(C@kGVu<Ii+zkj{ch@D
zgdGBxFVPG2D;3+jpq!4-msjbwy-U7B_0gGK_{*qk5)MQHIF_mUXgAOscxK1h*CE;G
z<>YQE@+<}CC<su%^y6WQby0AI0%A0nqFnwF#onRdYZSan!C?yK5h%7py*NF3l6^{}
z=TJBKwKKPF=2okMQid{rhccVk_gGZlAm+dEU3&E=6p&L7^Yc(Vet#eW8y!2-8H19C
z966X#RL)Y2^dd~Hu4+Y@dWZ=QB;7NSjY&F82vE`4M!Zmry@88td#_}=t$S5p%l-0c
z<ikG~>ju<ijXcl8UxfF5$klwv**@e-{+!$VeXjn`x%L#-{sYeYeXjOH&iQ?A_4m2v
z?{f`*$yNV3w<*bO`U_*p_l1@}6FMJwt0zumYJEwe3R(kvst6lDqk0=<N-F4keHobJ
zUz~a|1BLCLsXdhFxarVuT24=S+Osz0S)1`z-D<np_Nc<K%8=x$v#U6hy79N%+I@3(
zMzAp~Q2c>Vf%jJR&1%Y4{2}YItU<lCkIFfdbMoNNpPb-f3otm-d~J%a%^FO6%j~wV
z?fJ?cd>N2$Su%2lI+mC%S(d47E=C#Jav9nRGCVR=@msYwh-JGB{LUG6Miob?_?>f&
zOLWUR4gB-`tm$ixuQ(|Ed4AqVFP`VK_SL*ue}U+2)9*We*RjMQn*9uK#k;Zj=5Mxr
z(3Wc1zr^7=Tj}M?Xv*=;r>qh22R3)sggb`jD9KtVX64NGB^$-sxlNsqOyzu4rnG!|
z<klB%egV$hv%RU()~pe!4<1XUyr{|Sc>Tp!UtF@#Q@fe(%9K}SjdX9>!tM{SP?W)h
zw5$(}WUA^iHT9YLrbiVmd{d^RENjI50q!Q;QDbR&)<Q8rO<C4PF+0T^6mxRkiWR+c
zQM&u_bPuJMa1QshFts6DN>4E2luS2G9nY50Q#n^wIV0TMkfna$z?<1I*)?st<-F-k
zIabfaXAghv<X29n>N}H;&Xj4(QWfRu=W`=?RMxI_A9vP$+_mmgOzl3!)b3NPSobNt
zSobMC-+g+@cb}fhKdr+Rl&c?*u`6SDXN|a%%M7+!)`U2ET3$6%@y@EZR;9|CvldFS
za-|hn8^!Fjt}ng%(vpLod|X}q$Bs(AJY#W89-1zlI{NB()`;f^-~>##qcW%G#=fb2
zSqnYcId|!F*HmAY%3#oD8v_9sJ?%wZne`hpRjWSsRPx>xHF~ugy;Nf<>nv*YE~}CJ
zb+C@jw>I9~NXP!lQ_kir>h@w9(SNEH6Q}jRl%BS5_}bcrn;X*JmXx<;!t<cAc{+G2
zdNaCE*^=b29}N5|>@53N>}g+T%GXI7Z`Hg=`)(DQuGu(Ydfoo2eUYp9AIQ4?5z^OZ
z?G1dh>R+U)OP4q#WP5q8b<>1n^4yKSslK#pP0B?bbTuz<8?$C7Up0MLbu?;Dl{e1`
zsq&3W98w>x;S7%H&PBfBk)f7%&Bt!{elV8h5dF^CkLgBuqcThHvb*j4L4Nk^5=ZxJ
zt&OjoIhf^en?1Nhw`_F{-$}UjrKy)PX8YteQuC(F)sKw4yXFCa{4gPel)2`S$>6TV
zJX>lXS&WDoQ7*Ue(}!ltZXQdSR?nJd2fkuYnKsOwO_???IVjUk6Mul8lfDspH<Sgw
zJHX!_`TfN2CYD${>oxFO=FlbFZkMs!opPGWEm^yZKh4kL72W3!EwOvnXXDN45X`ek
z!&A1}i3~GfHR(RvMRRnT&o=S=#u-$FTh?ym&C~HE4!3Lx&v(qAByNxJ(XX=U?K8U<
z9P1{m0F-qbG7Zi2U*DKn+w{n@i{FxQm1K>$KX6rKO}JwU%BrSgH(O`Kly_~`LP^-X
w)iX^~U(DL*iMf(B-E?Oi^yJj>hKruuz@@+%wwtz@t<&z5z5WwwgK?Gr2Ztl}lK=n!

literal 0
HcmV?d00001

diff --git a/utils/argparse_utils.py b/utils/argparse_utils.py
new file mode 100644
index 0000000..3d105a3
--- /dev/null
+++ b/utils/argparse_utils.py
@@ -0,0 +1,487 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Argument parsing utilities for vLLM."""
+
+import json
+import sys
+import textwrap
+from argparse import (
+    Action,
+    ArgumentDefaultsHelpFormatter,
+    ArgumentParser,
+    ArgumentTypeError,
+    Namespace,
+    RawDescriptionHelpFormatter,
+    _ArgumentGroup,
+)
+from collections import defaultdict
+from typing import Any
+
+import regex as re
+import yaml
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class SortedHelpFormatter(ArgumentDefaultsHelpFormatter, RawDescriptionHelpFormatter):
+    """SortedHelpFormatter that sorts arguments by their option strings."""
+
+    def _split_lines(self, text, width):
+        """
+        1. Sentences split across lines have their single newlines removed.
+        2. Paragraphs and explicit newlines are split into separate lines.
+        3. Each line is wrapped to the specified width (width of terminal).
+        """
+        # The patterns also include whitespace after the newline
+        single_newline = re.compile(r"(?<!\n)\n(?!\n)\s*")
+        multiple_newlines = re.compile(r"\n{2,}\s*")
+        text = single_newline.sub(" ", text)
+        lines = re.split(multiple_newlines, text)
+        return sum([textwrap.wrap(line, width) for line in lines], [])
+
+    def add_arguments(self, actions):
+        actions = sorted(actions, key=lambda x: x.option_strings)
+        super().add_arguments(actions)
+
+
+class FlexibleArgumentParser(ArgumentParser):
+    """ArgumentParser that allows both underscore and dash in names."""
+
+    _deprecated: set[Action] = set()
+    _json_tip: str = (
+        "When passing JSON CLI arguments, the following sets of arguments "
+        "are equivalent:\n"
+        '   --json-arg \'{"key1": "value1", "key2": {"key3": "value2"}}\'\n'
+        "   --json-arg.key1 value1 --json-arg.key2.key3 value2\n\n"
+        "Additionally, list elements can be passed individually using +:\n"
+        '   --json-arg \'{"key4": ["value3", "value4", "value5"]}\'\n'
+        "   --json-arg.key4+ value3 --json-arg.key4+='value4,value5'\n\n"
+    )
+    _search_keyword: str | None = None
+
+    def __init__(self, *args, **kwargs):
+        # Set the default "formatter_class" to SortedHelpFormatter
+        if "formatter_class" not in kwargs:
+            kwargs["formatter_class"] = SortedHelpFormatter
+        # Pop kwarg "add_json_tip" to control whether to add the JSON tip
+        self.add_json_tip = kwargs.pop("add_json_tip", True)
+        super().__init__(*args, **kwargs)
+
+    if sys.version_info < (3, 13):
+        # Enable the deprecated kwarg for Python 3.12 and below
+
+        def parse_known_args(self, args=None, namespace=None):
+            if args is not None and "--disable-log-requests" in args:
+                # Special case warning because the warning below won't trigger
+                # if –-disable-log-requests because its value is default.
+                logger.warning_once(
+                    "argument '--disable-log-requests' is deprecated and "
+                    "replaced with '--enable-log-requests'. This will be "
+                    "removed in v0.12.0."
+                )
+            namespace, args = super().parse_known_args(args, namespace)
+            for action in FlexibleArgumentParser._deprecated:
+                if (
+                    hasattr(namespace, dest := action.dest)
+                    and getattr(namespace, dest) != action.default
+                ):
+                    logger.warning_once("argument '%s' is deprecated", dest)
+            return namespace, args
+
+        def add_argument(self, *args, **kwargs):
+            deprecated = kwargs.pop("deprecated", False)
+            action = super().add_argument(*args, **kwargs)
+            if deprecated:
+                FlexibleArgumentParser._deprecated.add(action)
+            return action
+
+        class _FlexibleArgumentGroup(_ArgumentGroup):
+            def add_argument(self, *args, **kwargs):
+                deprecated = kwargs.pop("deprecated", False)
+                action = super().add_argument(*args, **kwargs)
+                if deprecated:
+                    FlexibleArgumentParser._deprecated.add(action)
+                return action
+
+        def add_argument_group(self, *args, **kwargs):
+            group = self._FlexibleArgumentGroup(self, *args, **kwargs)
+            self._action_groups.append(group)
+            return group
+
+    def format_help(self):
+        # Only use custom help formatting for bottom level parsers
+        if self._subparsers is not None:
+            return super().format_help()
+
+        formatter = self._get_formatter()
+
+        # Handle keyword search of the args
+        if (search_keyword := self._search_keyword) is not None:
+            # Normalise the search keyword
+            search_keyword = search_keyword.lower().replace("_", "-")
+            # Return full help if searching for 'all'
+            if search_keyword == "all":
+                self.epilog = self._json_tip
+                return super().format_help()
+
+            # Return group help if searching for a group title
+            for group in self._action_groups:
+                if group.title and group.title.lower() == search_keyword:
+                    formatter.start_section(group.title)
+                    formatter.add_text(group.description)
+                    formatter.add_arguments(group._group_actions)
+                    formatter.end_section()
+                    formatter.add_text(self._json_tip)
+                    return formatter.format_help()
+
+            # Return matched args if searching for an arg name
+            matched_actions = []
+            for group in self._action_groups:
+                for action in group._group_actions:
+                    # search option name
+                    if any(
+                        search_keyword in opt.lower() for opt in action.option_strings
+                    ):
+                        matched_actions.append(action)
+            if matched_actions:
+                formatter.start_section(f"Arguments matching '{search_keyword}'")
+                formatter.add_arguments(matched_actions)
+                formatter.end_section()
+                formatter.add_text(self._json_tip)
+                return formatter.format_help()
+
+            # No match found
+            formatter.add_text(
+                f"No group or arguments matching '{search_keyword}'.\n"
+                "Use '--help' to see available groups or "
+                "'--help=all' to see all available parameters."
+            )
+            return formatter.format_help()
+
+        # usage
+        formatter.add_usage(self.usage, self._actions, self._mutually_exclusive_groups)
+
+        # description
+        formatter.add_text(self.description)
+
+        # positionals, optionals and user-defined groups
+        formatter.start_section("Config Groups")
+        config_groups = ""
+        for group in self._action_groups:
+            if not group._group_actions:
+                continue
+            title = group.title
+            description = group.description or ""
+            config_groups += f"{title: <24}{description}\n"
+        formatter.add_text(config_groups)
+        formatter.end_section()
+
+        # epilog
+        formatter.add_text(self.epilog)
+
+        # determine help from format above
+        return formatter.format_help()
+
+    def parse_args(  # type: ignore[override]
+        self,
+        args: list[str] | None = None,
+        namespace: Namespace | None = None,
+    ):
+        if args is None:
+            args = sys.argv[1:]
+
+        # Check for --model in command line arguments first
+        if args and args[0] == "serve":
+            try:
+                model_idx = next(
+                    i
+                    for i, arg in enumerate(args)
+                    if arg == "--model" or arg.startswith("--model=")
+                )
+                logger.warning(
+                    "With `vllm serve`, you should provide the model as a "
+                    "positional argument or in a config file instead of via "
+                    "the `--model` option. "
+                    "The `--model` option will be removed in v0.13."
+                )
+
+                if args[model_idx] == "--model":
+                    model_tag = args[model_idx + 1]
+                    rest_start_idx = model_idx + 2
+                else:
+                    model_tag = args[model_idx].removeprefix("--model=")
+                    rest_start_idx = model_idx + 1
+
+                # Move <model> to the front, e,g:
+                # [Before]
+                # vllm serve -tp 2 --model <model> --enforce-eager --port 8001
+                # [After]
+                # vllm serve <model> -tp 2 --enforce-eager --port 8001
+                args = [
+                    "serve",
+                    model_tag,
+                    *args[1:model_idx],
+                    *args[rest_start_idx:],
+                ]
+            except StopIteration:
+                pass
+
+        if "--config" in args:
+            args = self._pull_args_from_config(args)
+
+        def repl(match: re.Match) -> str:
+            """Replaces underscores with dashes in the matched string."""
+            return match.group(0).replace("_", "-")
+
+        # Everything between the first -- and the first .
+        pattern = re.compile(r"(?<=--)[^\.]*")
+
+        # Convert underscores to dashes and vice versa in argument names
+        processed_args = list[str]()
+        for i, arg in enumerate(args):
+            if arg.startswith("--help="):
+                FlexibleArgumentParser._search_keyword = arg.split("=", 1)[-1].lower()
+                processed_args.append("--help")
+            elif arg.startswith("--"):
+                if "=" in arg:
+                    key, value = arg.split("=", 1)
+                    key = pattern.sub(repl, key, count=1)
+                    processed_args.append(f"{key}={value}")
+                else:
+                    key = pattern.sub(repl, arg, count=1)
+                    processed_args.append(key)
+            elif arg.startswith("-O") and arg != "-O" and arg[2] != ".":
+                # allow -O flag to be used without space, e.g. -O3 or -Odecode
+                # -O.<...> handled later
+                # also handle -O=<mode> here
+                mode = arg[3:] if arg[2] == "=" else arg[2:]
+                processed_args.append(f"-O.mode={mode}")
+            elif (
+                arg == "-O"
+                and i + 1 < len(args)
+                and args[i + 1] in {"0", "1", "2", "3"}
+            ):
+                # Convert -O <n> to -O.mode <n>
+                processed_args.append("-O.mode")
+            else:
+                processed_args.append(arg)
+
+        def create_nested_dict(keys: list[str], value: str) -> dict[str, Any]:
+            """Creates a nested dictionary from a list of keys and a value.
+
+            For example, `keys = ["a", "b", "c"]` and `value = 1` will create:
+            `{"a": {"b": {"c": 1}}}`
+            """
+            nested_dict: Any = value
+            for key in reversed(keys):
+                nested_dict = {key: nested_dict}
+            return nested_dict
+
+        def recursive_dict_update(
+            original: dict[str, Any],
+            update: dict[str, Any],
+        ) -> set[str]:
+            """Recursively updates a dictionary with another dictionary.
+            Returns a set of duplicate keys that were overwritten.
+            """
+            duplicates = set[str]()
+            for k, v in update.items():
+                if isinstance(v, dict) and isinstance(original.get(k), dict):
+                    nested_duplicates = recursive_dict_update(original[k], v)
+                    duplicates |= {f"{k}.{d}" for d in nested_duplicates}
+                elif isinstance(v, list) and isinstance(original.get(k), list):
+                    original[k] += v
+                else:
+                    if k in original:
+                        duplicates.add(k)
+                    original[k] = v
+            return duplicates
+
+        delete = set[int]()
+        dict_args = defaultdict[str, dict[str, Any]](dict)
+        duplicates = set[str]()
+        for i, processed_arg in enumerate(processed_args):
+            if i in delete:  # skip if value from previous arg
+                continue
+
+            if processed_arg.startswith("-") and "." in processed_arg:
+                if "=" in processed_arg:
+                    processed_arg, value_str = processed_arg.split("=", 1)
+                    if "." not in processed_arg:
+                        # False positive, '.' was only in the value
+                        continue
+                else:
+                    value_str = processed_args[i + 1]
+                    delete.add(i + 1)
+
+                if processed_arg.endswith("+"):
+                    processed_arg = processed_arg[:-1]
+                    value_str = json.dumps(list(value_str.split(",")))
+
+                key, *keys = processed_arg.split(".")
+                try:
+                    value = json.loads(value_str)
+                except json.decoder.JSONDecodeError:
+                    value = value_str
+
+                # Merge all values with the same key into a single dict
+                arg_dict = create_nested_dict(keys, value)
+                arg_duplicates = recursive_dict_update(dict_args[key], arg_dict)
+                duplicates |= {f"{key}.{d}" for d in arg_duplicates}
+                delete.add(i)
+        # Filter out the dict args we set to None
+        processed_args = [a for i, a in enumerate(processed_args) if i not in delete]
+        if duplicates:
+            logger.warning("Found duplicate keys %s", ", ".join(duplicates))
+
+        # Add the dict args back as if they were originally passed as JSON
+        for dict_arg, dict_value in dict_args.items():
+            processed_args.append(dict_arg)
+            processed_args.append(json.dumps(dict_value))
+
+        return super().parse_args(processed_args, namespace)
+
+    def check_port(self, value):
+        try:
+            value = int(value)
+        except ValueError:
+            msg = "Port must be an integer"
+            raise ArgumentTypeError(msg) from None
+
+        if not (1024 <= value <= 65535):
+            raise ArgumentTypeError("Port must be between 1024 and 65535")
+
+        return value
+
+    def _pull_args_from_config(self, args: list[str]) -> list[str]:
+        """Method to pull arguments specified in the config file
+        into the command-line args variable.
+
+        The arguments in config file will be inserted between
+        the argument list.
+
+        example:
+        ```yaml
+            port: 12323
+            tensor-parallel-size: 4
+        ```
+        ```python
+        $: vllm {serve,chat,complete} "facebook/opt-12B" \
+            --config config.yaml -tp 2
+        $: args = [
+            "serve,chat,complete",
+            "facebook/opt-12B",
+            '--config', 'config.yaml',
+            '-tp', '2'
+        ]
+        $: args = [
+            "serve,chat,complete",
+            "facebook/opt-12B",
+            '--port', '12323',
+            '--tensor-parallel-size', '4',
+            '-tp', '2'
+            ]
+        ```
+
+        Please note how the config args are inserted after the sub command.
+        this way the order of priorities is maintained when these are args
+        parsed by super().
+        """
+        assert args.count("--config") <= 1, "More than one config file specified!"
+
+        index = args.index("--config")
+        if index == len(args) - 1:
+            raise ValueError(
+                "No config file specified! \
+                             Please check your command-line arguments."
+            )
+
+        file_path = args[index + 1]
+
+        config_args = self.load_config_file(file_path)
+
+        # 0th index might be the sub command {serve,chat,complete,...}
+        # optionally followed by model_tag (only for serve)
+        # followed by config args
+        # followed by rest of cli args.
+        # maintaining this order will enforce the precedence
+        # of cli > config > defaults
+        if args[0].startswith("-"):
+            # No sub command (e.g., api_server entry point)
+            args = config_args + args[0:index] + args[index + 2 :]
+        elif args[0] == "serve":
+            model_in_cli = len(args) > 1 and not args[1].startswith("-")
+            model_in_config = any(arg == "--model" for arg in config_args)
+
+            if not model_in_cli and not model_in_config:
+                raise ValueError(
+                    "No model specified! Please specify model either "
+                    "as a positional argument or in a config file."
+                )
+
+            if model_in_cli:
+                # Model specified as positional arg, keep CLI version
+                args = (
+                    [args[0]]
+                    + [args[1]]
+                    + config_args
+                    + args[2:index]
+                    + args[index + 2 :]
+                )
+            else:
+                # No model in CLI, use config if available
+                args = [args[0]] + config_args + args[1:index] + args[index + 2 :]
+        else:
+            args = [args[0]] + config_args + args[1:index] + args[index + 2 :]
+
+        return args
+
+    def load_config_file(self, file_path: str) -> list[str]:
+        """Loads a yaml file and returns the key value pairs as a
+        flattened list with argparse like pattern
+        ```yaml
+            port: 12323
+            tensor-parallel-size: 4
+        ```
+        returns:
+            processed_args: list[str] = [
+                '--port': '12323',
+                '--tensor-parallel-size': '4'
+            ]
+        """
+        extension: str = file_path.split(".")[-1]
+        if extension not in ("yaml", "yml"):
+            raise ValueError(
+                f"Config file must be of a yaml/yml type. {extension} supplied"
+            )
+
+        # only expecting a flat dictionary of atomic types
+        processed_args: list[str] = []
+
+        config: dict[str, int | str] = {}
+        try:
+            with open(file_path) as config_file:
+                config = yaml.safe_load(config_file)
+        except Exception as ex:
+            logger.error(
+                "Unable to read the config file at %s. Check path correctness",
+                file_path,
+            )
+            raise ex
+
+        for key, value in config.items():
+            if isinstance(value, bool):
+                if value:
+                    processed_args.append("--" + key)
+            elif isinstance(value, list):
+                if value:
+                    processed_args.append("--" + key)
+                    for item in value:
+                        processed_args.append(str(item))
+            else:
+                processed_args.append("--" + key)
+                processed_args.append(str(value))
+
+        return processed_args
diff --git a/utils/async_utils.py b/utils/async_utils.py
new file mode 100644
index 0000000..b6c24e1
--- /dev/null
+++ b/utils/async_utils.py
@@ -0,0 +1,303 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Contains helpers related to asynchronous code.
+
+This is similar in concept to the `asyncio` module.
+"""
+
+import asyncio
+import contextlib
+from asyncio import FIRST_COMPLETED, AbstractEventLoop, Future, Task
+from collections.abc import AsyncGenerator, Awaitable, Callable
+from concurrent.futures import Executor, ThreadPoolExecutor
+from functools import partial
+from typing import TypeVar
+
+from transformers.tokenization_utils_base import BatchEncoding
+from typing_extensions import ParamSpec
+
+P = ParamSpec("P")
+T = TypeVar("T")
+
+
+class AsyncMicrobatchTokenizer:
+    """Asynchronous tokenizer with micro-batching.
+
+    Pulls pending encode/decode requests from a queue and batches them
+    up to reduce overhead. A single-thread ThreadPoolExecutor is used
+    so the event loop stays responsive.
+    """
+
+    def __init__(
+        self,
+        tokenizer,
+        max_batch_size: int = 32,
+        batch_wait_timeout_s: float = 0.002,
+    ) -> None:
+        self.tokenizer = tokenizer
+        self.max_batch_size = max_batch_size
+        self.batch_wait_timeout_s = batch_wait_timeout_s
+
+        self._loop = asyncio.get_running_loop()
+        self._queues: dict[
+            tuple,
+            asyncio.Queue[tuple[str, dict, Future] | tuple[list[int], Future]],
+        ] = {}
+        self._batcher_tasks: list[Task] = []
+
+        # Single-thread executor for blocking tokenizer calls.
+        self._executor = ThreadPoolExecutor(max_workers=1)
+
+    # === Public async API ===
+    async def __call__(self, prompt, **kwargs):
+        result_future: Future = self._loop.create_future()
+        key = self._queue_key("encode", kwargs)
+        queue = self._get_queue(self._loop, key)
+        await queue.put((prompt, kwargs, result_future))
+        return await result_future
+
+    async def decode(self, token_ids, **kwargs):
+        result_future: Future = self._loop.create_future()
+        key = self._queue_key("decode", kwargs)
+        queue = self._get_queue(self._loop, key)
+        await queue.put((token_ids, result_future))
+        return await result_future
+
+    # === Internal helpers ===
+    def _get_queue(
+        self, loop: asyncio.AbstractEventLoop, key: tuple
+    ) -> asyncio.Queue[tuple[str, dict, Future] | tuple[list[int], Future]]:
+        """Get the request queue for the given operation key, creating a new
+        queue and batcher task if needed."""
+        queue = self._queues.get(key)
+        if queue is None:
+            self._queues[key] = queue = asyncio.Queue()
+            if key[0] == "encode":
+                can_batch = key[1] != "other"
+                coro = self._batch_encode_loop(queue, can_batch)
+            else:
+                assert key[0] == "decode", f"Unknown operation type: {key[0]}."
+                coro = self._batch_decode_loop(queue)
+            self._batcher_tasks.append(loop.create_task(coro))
+        return queue
+
+    async def _batch_encode_loop(self, queue: asyncio.Queue, can_batch: bool):
+        """Batch incoming encode requests for efficiency."""
+        while True:
+            prompt, kwargs, result_future = await queue.get()
+            prompts = [prompt]
+            kwargs_list = [kwargs]
+            result_futures = [result_future]
+            deadline = self._loop.time() + self.batch_wait_timeout_s
+
+            while len(prompts) < self.max_batch_size:
+                timeout = deadline - self._loop.time()
+                if timeout <= 0:
+                    break
+                try:
+                    prompt, kwargs, result_future = await asyncio.wait_for(
+                        queue.get(), timeout
+                    )
+                    prompts.append(prompt)
+                    result_futures.append(result_future)
+                    if not can_batch:
+                        kwargs_list.append(kwargs)
+                except asyncio.TimeoutError:
+                    break
+
+            try:
+                # If every request uses identical kwargs we can run a single
+                # batched tokenizer call for a big speed-up.
+                if can_batch and len(prompts) > 1:
+                    batch_encode_fn = partial(self.tokenizer, prompts, **kwargs)
+                    results = await self._loop.run_in_executor(
+                        self._executor, batch_encode_fn
+                    )
+
+                    for i, fut in enumerate(result_futures):
+                        if not fut.done():
+                            data = {k: v[i] for k, v in results.items()}
+                            fut.set_result(BatchEncoding(data))
+                else:
+                    encode_fn = lambda prompts=prompts, kwargs=kwargs_list: [
+                        self.tokenizer(p, **kw) for p, kw in zip(prompts, kwargs)
+                    ]
+                    results = await self._loop.run_in_executor(
+                        self._executor, encode_fn
+                    )
+
+                    for fut, res in zip(result_futures, results):
+                        if not fut.done():
+                            fut.set_result(res)
+            except Exception as e:
+                for fut in result_futures:
+                    if not fut.done():
+                        fut.set_exception(e)
+
+    async def _batch_decode_loop(self, queue: asyncio.Queue):
+        """Batch incoming decode requests for efficiency."""
+        while True:
+            token_ids, result_future = await queue.get()
+            token_ids_list = [token_ids]
+            result_futures = [result_future]
+            deadline = self._loop.time() + self.batch_wait_timeout_s
+
+            while len(token_ids_list) < self.max_batch_size:
+                timeout = deadline - self._loop.time()
+                if timeout <= 0:
+                    break
+                try:
+                    token_ids, result_future = await asyncio.wait_for(
+                        queue.get(), timeout
+                    )
+                    token_ids_list.append(token_ids)
+                    result_futures.append(result_future)
+                except asyncio.TimeoutError:
+                    break
+
+            try:
+                # Perform a single batched decode call for all requests
+                results = await self._loop.run_in_executor(
+                    self._executor, self.tokenizer.batch_decode, token_ids_list
+                )
+                for fut, res in zip(result_futures, results):
+                    if not fut.done():
+                        fut.set_result(res)
+            except Exception as e:
+                for fut in result_futures:
+                    if not fut.done():
+                        fut.set_exception(e)
+
+    def _queue_key(self, op: str, kwargs: dict) -> tuple:
+        """
+        Return a normalized key describing operation + kwargs.
+
+        - `add_special_tokens`: {True/False}
+        - `truncation`: {True/False}
+          - If `truncation` is False (`max_length` is None),
+            returns a key for a can_batch queue.
+          - If `truncation` is True and `max_length` is None or equals
+            `tokenizer.model_max_length`, returns a key for a can_batch queue.
+          - Otherwise, returns a key for a cannot_batch queue.
+
+        Examples:
+          - Decode: ("decode",)
+          - Encode typical:
+            ("encode", add_special_tokens, bool_truncation, max_length_label)
+          - Fallback: ("encode", "other")
+        """
+
+        if op == "decode":
+            return ("decode",)
+
+        add_special_tokens = kwargs.get("add_special_tokens", True)
+        truncation = kwargs.get("truncation", False)
+        max_length = kwargs.get("max_length")
+
+        if not truncation:
+            return "encode", add_special_tokens, False, None
+
+        model_max = getattr(self.tokenizer, "model_max_length", None)
+        if max_length is None or (model_max is not None and max_length == model_max):
+            return "encode", add_special_tokens, True, "model_max"
+
+        return "encode", "other"
+
+    def __del__(self):
+        if (
+            (tasks := getattr(self, "_batcher_tasks", None))
+            and (loop := getattr(self, "_loop", None))
+            and not loop.is_closed()
+        ):
+
+            def cancel_tasks():
+                for task in tasks:
+                    task.cancel()
+
+            loop.call_soon_threadsafe(cancel_tasks)
+
+
+def cancel_task_threadsafe(task: Task):
+    if task and not task.done():
+        run_in_loop(task.get_loop(), task.cancel)
+
+
+def make_async(
+    func: Callable[P, T],
+    executor: Executor | None = None,
+) -> Callable[P, Awaitable[T]]:
+    """
+    Take a blocking function, and run it on in an executor thread.
+
+    This function prevents the blocking function from blocking the
+    asyncio event loop.
+    The code in this function needs to be thread safe.
+    """
+
+    def _async_wrapper(*args: P.args, **kwargs: P.kwargs) -> Future[T]:
+        loop = asyncio.get_event_loop()
+        p_func = partial(func, *args, **kwargs)
+        return loop.run_in_executor(executor=executor, func=p_func)
+
+    return _async_wrapper
+
+
+def run_in_loop(loop: AbstractEventLoop, function: Callable, *args):
+    if in_loop(loop):
+        function(*args)
+    elif not loop.is_closed():
+        loop.call_soon_threadsafe(function, *args)
+
+
+def in_loop(event_loop: AbstractEventLoop) -> bool:
+    try:
+        return asyncio.get_running_loop() == event_loop
+    except RuntimeError:
+        return False
+
+
+async def merge_async_iterators(
+    *iterators: AsyncGenerator[T, None],
+) -> AsyncGenerator[tuple[int, T], None]:
+    """Merge multiple asynchronous iterators into a single iterator.
+
+    This method handle the case where some iterators finish before others.
+    When it yields, it yields a tuple (i, item) where i is the index of the
+    iterator that yields the item.
+    """
+    if len(iterators) == 1:
+        # Fast-path single iterator case.
+        async for item in iterators[0]:
+            yield 0, item
+        return
+
+    loop = asyncio.get_running_loop()
+
+    awaits = {loop.create_task(anext(it)): (i, it) for i, it in enumerate(iterators)}
+    try:
+        while awaits:
+            done, _ = await asyncio.wait(awaits.keys(), return_when=FIRST_COMPLETED)
+            for d in done:
+                pair = awaits.pop(d)
+                try:
+                    item = await d
+                    i, it = pair
+                    awaits[loop.create_task(anext(it))] = pair
+                    yield i, item
+                except StopAsyncIteration:
+                    pass
+    finally:
+        # Cancel any remaining iterators
+        for f, (_, it) in awaits.items():
+            with contextlib.suppress(BaseException):
+                f.cancel()
+                await it.aclose()
+
+
+async def collect_from_async_generator(iterator: AsyncGenerator[T, None]) -> list[T]:
+    """Collect all items from an async generator into a list."""
+    items = []
+    async for item in iterator:
+        items.append(item)
+    return items
diff --git a/utils/cache.py b/utils/cache.py
new file mode 100644
index 0000000..4338983
--- /dev/null
+++ b/utils/cache.py
@@ -0,0 +1,214 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import UserDict
+from collections.abc import Callable, Hashable, Iterator, KeysView, Mapping
+from types import MappingProxyType
+from typing import NamedTuple, TypeVar, cast, overload
+
+import cachetools
+
+_K = TypeVar("_K", bound=Hashable)
+_V = TypeVar("_V")
+_T = TypeVar("_T")
+
+
+class _Sentinel: ...
+
+
+ALL_PINNED_SENTINEL = _Sentinel()
+
+
+class _MappingOrderCacheView(UserDict[_K, _V]):
+    def __init__(self, data: Mapping[_K, _V], ordered_keys: Mapping[_K, None]):
+        super().__init__(data)
+        self.ordered_keys = ordered_keys
+
+    def __iter__(self) -> Iterator[_K]:
+        return iter(self.ordered_keys)
+
+    def keys(self) -> KeysView[_K]:
+        return KeysView(self.ordered_keys)
+
+
+class CacheInfo(NamedTuple):
+    hits: int
+    total: int
+
+    @property
+    def hit_ratio(self) -> float:
+        if self.total == 0:
+            return 0
+
+        return self.hits / self.total
+
+    def __sub__(self, other: "CacheInfo"):
+        return CacheInfo(
+            hits=self.hits - other.hits,
+            total=self.total - other.total,
+        )
+
+
+class LRUCache(cachetools.LRUCache[_K, _V]):
+    def __init__(self, capacity: float, getsizeof: Callable[[_V], float] | None = None):
+        super().__init__(capacity, getsizeof)
+
+        self.pinned_items = set[_K]()
+
+        self._hits = 0
+        self._total = 0
+        self._last_info = CacheInfo(hits=0, total=0)
+
+    def __getitem__(self, key: _K, *, update_info: bool = True) -> _V:
+        value = super().__getitem__(key)
+
+        if update_info:
+            self._hits += 1
+            self._total += 1
+
+        return value
+
+    def __delitem__(self, key: _K) -> None:
+        run_on_remove = key in self
+        value = self.__getitem__(key, update_info=False)  # type: ignore[call-arg]
+        super().__delitem__(key)
+        if key in self.pinned_items:
+            # Todo: add warning to inform that del pinned item
+            self._unpin(key)
+        if run_on_remove:
+            self._on_remove(key, value)
+
+    @property
+    def cache(self) -> Mapping[_K, _V]:
+        """Return the internal cache dictionary in order (read-only)."""
+        return _MappingOrderCacheView(
+            self._Cache__data,  # type: ignore
+            self.order,
+        )
+
+    @property
+    def order(self) -> Mapping[_K, None]:
+        """Return the internal order dictionary (read-only)."""
+        return MappingProxyType(self._LRUCache__order)  # type: ignore
+
+    @property
+    def capacity(self) -> float:
+        return self.maxsize
+
+    @property
+    def usage(self) -> float:
+        if self.maxsize == 0:
+            return 0
+
+        return self.currsize / self.maxsize
+
+    def stat(self, *, delta: bool = False) -> CacheInfo:
+        """
+        Gets the cumulative number of hits and queries against this cache.
+
+        If `delta=True`, instead gets these statistics
+        since the last call that also passed `delta=True`.
+        """
+        info = CacheInfo(hits=self._hits, total=self._total)
+
+        if delta:
+            info_delta = info - self._last_info
+            self._last_info = info
+            info = info_delta
+
+        return info
+
+    def touch(self, key: _K) -> None:
+        try:
+            self._LRUCache__order.move_to_end(key)  # type: ignore
+        except KeyError:
+            self._LRUCache__order[key] = None  # type: ignore
+
+    @overload
+    def get(self, key: _K, /) -> _V | None: ...
+
+    @overload
+    def get(self, key: _K, /, default: _V | _T) -> _V | _T: ...
+
+    def get(self, key: _K, /, default: _V | _T | None = None) -> _V | _T | None:
+        value: _V | _T | None
+        if key in self:
+            value = self.__getitem__(key, update_info=False)  # type: ignore[call-arg]
+
+            self._hits += 1
+        else:
+            value = default
+
+        self._total += 1
+        return value
+
+    @overload
+    def pop(self, key: _K) -> _V: ...
+
+    @overload
+    def pop(self, key: _K, default: _V | _T) -> _V | _T: ...
+
+    def pop(self, key: _K, default: _V | _T | None = None) -> _V | _T | None:
+        value: _V | _T | None
+        if key not in self:
+            return default
+
+        value = self.__getitem__(key, update_info=False)  # type: ignore[call-arg]
+        self.__delitem__(key)
+        return value
+
+    def put(self, key: _K, value: _V) -> None:
+        self.__setitem__(key, value)
+
+    def pin(self, key: _K) -> None:
+        """
+        Pins a key in the cache preventing it from being
+        evicted in the LRU order.
+        """
+        if key not in self:
+            raise ValueError(f"Cannot pin key: {key} not in cache.")
+        self.pinned_items.add(key)
+
+    def _unpin(self, key: _K) -> None:
+        """
+        Unpins a key in the cache allowing it to be
+        evicted in the LRU order.
+        """
+        self.pinned_items.remove(key)
+
+    def _on_remove(self, key: _K, value: _V | None) -> None:
+        pass
+
+    def remove_oldest(self, *, remove_pinned: bool = False) -> None:
+        if len(self) == 0:
+            return
+
+        self.popitem(remove_pinned=remove_pinned)
+
+    def _remove_old_if_needed(self) -> None:
+        while self.currsize > self.capacity:
+            self.remove_oldest()
+
+    def popitem(self, remove_pinned: bool = False):
+        """Remove and return the `(key, value)` pair least recently used."""
+        if not remove_pinned:
+            # pop the oldest item in the cache that is not pinned
+            lru_key = next(
+                (key for key in self.order if key not in self.pinned_items),
+                ALL_PINNED_SENTINEL,
+            )
+            if lru_key is ALL_PINNED_SENTINEL:
+                raise RuntimeError(
+                    "All items are pinned, cannot remove oldest from the cache."
+                )
+        else:
+            lru_key = next(iter(self.order))
+        value = self.pop(cast(_K, lru_key))
+        return (lru_key, value)
+
+    def clear(self) -> None:
+        while len(self) > 0:
+            self.remove_oldest(remove_pinned=True)
+
+        self._hits = 0
+        self._total = 0
+        self._last_info = CacheInfo(hits=0, total=0)
diff --git a/utils/collection_utils.py b/utils/collection_utils.py
new file mode 100644
index 0000000..5727131
--- /dev/null
+++ b/utils/collection_utils.py
@@ -0,0 +1,139 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Contains helpers that are applied to collections.
+
+This is similar in concept to the `collections` module.
+"""
+
+from collections import UserDict, defaultdict
+from collections.abc import Callable, Generator, Hashable, Iterable, Mapping
+from typing import Generic, Literal, TypeVar
+
+from typing_extensions import TypeIs, assert_never
+
+T = TypeVar("T")
+U = TypeVar("U")
+
+_K = TypeVar("_K", bound=Hashable)
+_V = TypeVar("_V")
+
+
+class ClassRegistry(UserDict[type[T], _V]):
+    """
+    A registry that acts like a dictionary but searches for other classes
+    in the MRO if the original class is not found.
+    """
+
+    def __getitem__(self, key: type[T]) -> _V:
+        for cls in key.mro():
+            if cls in self.data:
+                return self.data[cls]
+
+        raise KeyError(key)
+
+    def __contains__(self, key: object) -> bool:
+        return self.contains(key)
+
+    def contains(self, key: object, *, strict: bool = False) -> bool:
+        if not isinstance(key, type):
+            return False
+
+        if strict:
+            return key in self.data
+
+        return any(cls in self.data for cls in key.mro())
+
+
+class LazyDict(Mapping[str, T], Generic[T]):
+    """
+    Evaluates dictionary items only when they are accessed.
+
+    Adapted from: https://stackoverflow.com/a/47212782/5082708
+    """
+
+    def __init__(self, factory: dict[str, Callable[[], T]]):
+        self._factory = factory
+        self._dict: dict[str, T] = {}
+
+    def __getitem__(self, key: str) -> T:
+        if key not in self._dict:
+            if key not in self._factory:
+                raise KeyError(key)
+            self._dict[key] = self._factory[key]()
+        return self._dict[key]
+
+    def __setitem__(self, key: str, value: Callable[[], T]):
+        self._factory[key] = value
+
+    def __iter__(self):
+        return iter(self._factory)
+
+    def __len__(self):
+        return len(self._factory)
+
+
+def as_list(maybe_list: Iterable[T]) -> list[T]:
+    """Convert iterable to list, unless it's already a list."""
+    return maybe_list if isinstance(maybe_list, list) else list(maybe_list)
+
+
+def as_iter(obj: T | Iterable[T]) -> Iterable[T]:
+    if isinstance(obj, str) or not isinstance(obj, Iterable):
+        return [obj]  # type: ignore[list-item]
+    return obj
+
+
+def is_list_of(
+    value: object,
+    typ: type[T] | tuple[type[T], ...],
+    *,
+    check: Literal["first", "all"] = "first",
+) -> TypeIs[list[T]]:
+    if not isinstance(value, list):
+        return False
+
+    if check == "first":
+        return len(value) == 0 or isinstance(value[0], typ)
+    elif check == "all":
+        return all(isinstance(v, typ) for v in value)
+
+    assert_never(check)
+
+
+def chunk_list(lst: list[T], chunk_size: int) -> Generator[list[T]]:
+    """Yield successive chunk_size chunks from lst."""
+    for i in range(0, len(lst), chunk_size):
+        yield lst[i : i + chunk_size]
+
+
+def flatten_2d_lists(lists: Iterable[Iterable[T]]) -> list[T]:
+    """Flatten a list of lists to a single list."""
+    return [item for sublist in lists for item in sublist]
+
+
+def full_groupby(values: Iterable[_V], *, key: Callable[[_V], _K]):
+    """
+    Unlike [`itertools.groupby`][], groups are not broken by
+    non-contiguous data.
+    """
+    groups = defaultdict[_K, list[_V]](list)
+
+    for value in values:
+        groups[key(value)].append(value)
+
+    return groups.items()
+
+
+def swap_dict_values(obj: dict[_K, _V], key1: _K, key2: _K) -> None:
+    """Swap values between two keys."""
+    v1 = obj.get(key1)
+    v2 = obj.get(key2)
+    if v1 is not None:
+        obj[key2] = v1
+    else:
+        obj.pop(key2, None)
+    if v2 is not None:
+        obj[key1] = v2
+    else:
+        obj.pop(key1, None)
diff --git a/utils/counter.py b/utils/counter.py
new file mode 100644
index 0000000..c2dce32
--- /dev/null
+++ b/utils/counter.py
@@ -0,0 +1,45 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import threading
+
+
+class Counter:
+    def __init__(self, start: int = 0) -> None:
+        super().__init__()
+
+        self.counter = start
+
+    def __next__(self) -> int:
+        i = self.counter
+        self.counter += 1
+        return i
+
+    def reset(self) -> None:
+        self.counter = 0
+
+
+class AtomicCounter:
+    """An atomic, thread-safe counter"""
+
+    def __init__(self, initial: int = 0) -> None:
+        """Initialize a new atomic counter to given initial value"""
+        super().__init__()
+
+        self._value = initial
+        self._lock = threading.Lock()
+
+    @property
+    def value(self) -> int:
+        return self._value
+
+    def inc(self, num: int = 1) -> int:
+        """Atomically increment the counter by num and return the new value"""
+        with self._lock:
+            self._value += num
+            return self._value
+
+    def dec(self, num: int = 1) -> int:
+        """Atomically decrement the counter by num and return the new value"""
+        with self._lock:
+            self._value -= num
+            return self._value
diff --git a/utils/deep_gemm.py b/utils/deep_gemm.py
new file mode 100644
index 0000000..b5ab375
--- /dev/null
+++ b/utils/deep_gemm.py
@@ -0,0 +1,391 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Compatibility wrapper for DeepGEMM API changes.
+
+Users of vLLM should always import **only** these wrappers.
+"""
+
+import functools
+import importlib
+import os
+from collections.abc import Callable
+from enum import Enum
+from typing import Any, NoReturn
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import logger
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import has_deep_gemm
+from vllm.utils.math_utils import cdiv
+
+
+class DeepGemmQuantScaleFMT(Enum):
+    # Float32 scales in Float32 tensor
+    FLOAT32 = 0
+    # Compute float32 scales and ceil the scales to UE8M0.
+    # Keep the scales in Float32 tensor.
+    FLOAT32_CEIL_UE8M0 = 1
+    # Compute float32 scales and ceil the scales to UE8M0.
+    # Pack the scales into a int32 tensor where each int32
+    # element contains 4 scale values.
+    UE8M0 = 2
+
+    @staticmethod
+    def from_oracle() -> "DeepGemmQuantScaleFMT":
+        if not is_deep_gemm_e8m0_used():
+            return DeepGemmQuantScaleFMT.FLOAT32
+        return (
+            DeepGemmQuantScaleFMT.UE8M0
+            if current_platform.is_device_capability(100)
+            else DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0
+        )
+
+
+@functools.cache
+def is_deep_gemm_supported() -> bool:
+    """Return `True` if DeepGEMM is supported on the current platform.
+    Currently, only Hopper and Blackwell GPUs are supported.
+    """
+    is_supported_arch = current_platform.is_cuda() and (
+        current_platform.is_device_capability(90)
+        or current_platform.is_device_capability(100)
+    )
+    return envs.VLLM_USE_DEEP_GEMM and has_deep_gemm() and is_supported_arch
+
+
+@functools.cache
+def is_deep_gemm_e8m0_used() -> bool:
+    """Return `True` if vLLM is configured to use DeepGEMM "
+    "E8M0 scale on a Hopper or Blackwell-class GPU.
+    """
+    if not is_deep_gemm_supported():
+        logger.debug_once(
+            "DeepGEMM E8M0 disabled: DeepGEMM not supported on this system."
+        )
+        return False
+
+    _lazy_init()
+
+    if _fp8_gemm_nt_impl is None:
+        logger.info_once("DeepGEMM E8M0 disabled: _fp8_gemm_nt_impl not found")
+        return False
+
+    if envs.VLLM_USE_DEEP_GEMM_E8M0:
+        logger.info_once("DeepGEMM E8M0 enabled on current platform.")
+        return True
+
+    logger.info_once("DeepGEMM E8M0 disabled on current configuration.")
+    return False
+
+
+def _missing(*_: Any, **__: Any) -> NoReturn:
+    """Placeholder for unavailable DeepGEMM backend."""
+    raise RuntimeError(
+        "DeepGEMM backend is not available or outdated. Please install or "
+        "update the `deep_gemm` to a newer version to enable FP8 kernels."
+    )
+
+
+_fp8_gemm_nt_impl: Callable[..., Any] | None = None
+_grouped_impl: Callable[..., Any] | None = None
+_grouped_masked_impl: Callable[..., Any] | None = None
+_fp8_mqa_logits_impl: Callable[..., Any] | None = None
+_fp8_paged_mqa_logits_impl: Callable[..., Any] | None = None
+_get_paged_mqa_logits_metadata_impl: Callable[..., Any] | None = None
+_get_mn_major_tma_aligned_tensor_impl: Callable[..., Any] | None = None
+_get_mk_alignment_for_contiguous_layout_impl: Callable[..., Any] | None = None
+_transform_sf_into_required_layout_impl: Callable[..., Any] | None = None
+
+
+def _lazy_init() -> None:
+    """Import deep_gemm and resolve symbols on first use."""
+    global _fp8_gemm_nt_impl, _grouped_impl, _grouped_masked_impl
+    global _fp8_mqa_logits_impl, _fp8_paged_mqa_logits_impl
+    global _get_paged_mqa_logits_metadata_impl
+    global _get_mn_major_tma_aligned_tensor_impl
+    global _get_mk_alignment_for_contiguous_layout_impl
+    global _transform_sf_into_required_layout_impl
+    # fast path
+    if (
+        _fp8_gemm_nt_impl is not None
+        or _grouped_impl is not None
+        or _grouped_masked_impl is not None
+        or _fp8_mqa_logits_impl is not None
+        or _fp8_paged_mqa_logits_impl is not None
+        or _get_paged_mqa_logits_metadata_impl is not None
+        or _get_mk_alignment_for_contiguous_layout_impl is not None
+        or _transform_sf_into_required_layout_impl is not None
+    ):
+        return
+
+    if not has_deep_gemm():
+        return
+
+    # Set up deep_gemm cache path
+    DEEP_GEMM_JIT_CACHE_ENV_NAME = "DG_JIT_CACHE_DIR"
+    if not os.environ.get(DEEP_GEMM_JIT_CACHE_ENV_NAME, None):
+        os.environ[DEEP_GEMM_JIT_CACHE_ENV_NAME] = os.path.join(
+            envs.VLLM_CACHE_ROOT, "deep_gemm"
+        )
+
+    _dg = importlib.import_module("deep_gemm")
+
+    _fp8_gemm_nt_impl = getattr(_dg, "fp8_gemm_nt", None)
+    _grouped_impl = getattr(_dg, "m_grouped_fp8_gemm_nt_contiguous", None)
+    _grouped_masked_impl = getattr(_dg, "fp8_m_grouped_gemm_nt_masked", None)
+    _fp8_mqa_logits_impl = getattr(_dg, "fp8_mqa_logits", None)
+    _fp8_paged_mqa_logits_impl = getattr(_dg, "fp8_paged_mqa_logits", None)
+    _get_paged_mqa_logits_metadata_impl = getattr(
+        _dg, "get_paged_mqa_logits_metadata", None
+    )
+    _get_mn_major_tma_aligned_tensor_impl = getattr(
+        _dg, "get_mn_major_tma_aligned_tensor", None
+    )
+    _get_mk_alignment_for_contiguous_layout_impl = getattr(
+        _dg, "get_mk_alignment_for_contiguous_layout", None
+    )
+    _transform_sf_into_required_layout_impl = getattr(
+        _dg, "transform_sf_into_required_layout", None
+    )
+
+
+def get_num_sms() -> int:
+    _lazy_init()
+    _dg = importlib.import_module("deep_gemm")
+    return int(_dg.get_num_sms())
+
+
+@functools.cache
+def get_mk_alignment_for_contiguous_layout() -> list[int]:
+    _lazy_init()
+    if _get_mk_alignment_for_contiguous_layout_impl is None:
+        return _missing()
+    mk_align_size = _get_mk_alignment_for_contiguous_layout_impl()
+    return [mk_align_size, mk_align_size]
+
+
+def get_col_major_tma_aligned_tensor(x: torch.Tensor) -> torch.Tensor:
+    """Wrapper for DeepGEMM's get_mn_major_tma_aligned_tensor"""
+    _lazy_init()
+    if _get_mn_major_tma_aligned_tensor_impl is None:
+        return _missing()
+    return _get_mn_major_tma_aligned_tensor_impl(x)
+
+
+def fp8_gemm_nt(*args, **kwargs):
+    _lazy_init()
+    if _fp8_gemm_nt_impl is None:
+        return _missing(*args, **kwargs)
+    if "is_deep_gemm_e8m0_used" in kwargs:
+        use_ue8m0 = kwargs["is_deep_gemm_e8m0_used"]
+        del kwargs["is_deep_gemm_e8m0_used"]
+    else:
+        use_ue8m0 = is_deep_gemm_e8m0_used()
+    return _fp8_gemm_nt_impl(*args, disable_ue8m0_cast=not use_ue8m0, **kwargs)
+
+
+def m_grouped_fp8_gemm_nt_contiguous(*args, **kwargs):
+    _lazy_init()
+    if _grouped_impl is None:
+        return _missing(*args, **kwargs)
+    return _grouped_impl(
+        *args, disable_ue8m0_cast=not is_deep_gemm_e8m0_used(), **kwargs
+    )
+
+
+def fp8_m_grouped_gemm_nt_masked(*args, **kwargs):
+    _lazy_init()
+    if _grouped_masked_impl is None:
+        return _missing(*args, **kwargs)
+    return _grouped_masked_impl(
+        *args, disable_ue8m0_cast=not is_deep_gemm_e8m0_used(), **kwargs
+    )
+
+
+def transform_sf_into_required_layout(*args, **kwargs):
+    _lazy_init()
+    if _transform_sf_into_required_layout_impl is None:
+        return _missing(*args, **kwargs)
+    return _transform_sf_into_required_layout_impl(
+        *args, disable_ue8m0_cast=not is_deep_gemm_e8m0_used(), **kwargs
+    )
+
+
+def fp8_mqa_logits(
+    q: torch.Tensor,
+    kv: tuple[torch.Tensor, torch.Tensor],
+    weights: torch.Tensor,
+    cu_seqlen_ks: torch.Tensor,
+    cu_seqlen_ke: torch.Tensor,
+) -> torch.Tensor:
+    """Compute FP8 MQA logits for a single sequence without KV paging.
+
+    Args:
+        q: Query tensor of shape [M, H, D]. Casted to
+            `torch.float8_e4m3fn` by caller.
+        kv: Tuple `(k_fp8, k_scales)` where `k_fp8` has shape [N, D] with
+            dtype `torch.float8_e4m3fn` and `k_scales` has shape [N] (or
+            [N, 1]) with dtype `torch.float32`.
+        weights: weights of shape [M, H], dtype `torch.float32`.
+        cu_seqlen_ks: Start indices (inclusive) for valid K per query position,
+            shape [M], dtype int32.
+        cu_seqlen_ke: End indices (exclusive) for valid K per query position,
+            shape [M], dtype int32.
+
+    Returns:
+        Logits tensor of shape [M, N], dtype `torch.float32`.
+    """
+    _lazy_init()
+    if _fp8_mqa_logits_impl is None:
+        return _missing()
+    return _fp8_mqa_logits_impl(q, kv, weights, cu_seqlen_ks, cu_seqlen_ke)
+
+
+def get_paged_mqa_logits_metadata(
+    context_lens: torch.Tensor, block_size: int, num_sms: int
+) -> torch.Tensor:
+    """Build scheduling metadata for paged MQA logits.
+
+    Args:
+        context_lens: Tensor of shape [B], dtype int32; effective context length
+            per batch element.
+        block_size: KV-cache block size in tokens (e.g., 64).
+        num_sms: Number of SMs available. 132 for Hopper
+
+    Returns:
+        Backend-specific tensor consumed by `fp8_paged_mqa_logits` to
+        schedule work across SMs.
+    """
+    _lazy_init()
+    if _get_paged_mqa_logits_metadata_impl is None:
+        return _missing()
+    return _get_paged_mqa_logits_metadata_impl(context_lens, block_size, num_sms)
+
+
+def fp8_paged_mqa_logits(
+    q_fp8: torch.Tensor,
+    kv_cache_fp8: torch.Tensor,
+    weights: torch.Tensor,
+    context_lens: torch.Tensor,
+    block_tables: torch.Tensor,
+    schedule_metadata: torch.Tensor,
+    max_model_len: int,
+) -> torch.Tensor:
+    """Compute FP8 MQA logits using paged KV-cache.
+
+    Args:
+        q_fp8: Query tensor of shape [B, next_n, H, D]. Casted to
+            `torch.float8_e4m3fn` by caller.
+        kv_cache_fp8: Paged KV-cache in packed FP8+scale layout with shape
+            [num_blocks, block_size, 1, D+4], dtype `torch.uint8`. The last
+            4 bytes per (block,pos) store the `float` dequant scale.
+        weights: Tensor of shape [B * next_n, H], dtype `torch.float32`.
+        context_lens: Tensor of shape [B], dtype int32; effective context length
+            for each batch element.
+        block_tables: Tensor of shape [B, max_blocks], dtype int32; maps logical
+            block indices to physical blocks in the paged cache.
+        schedule_metadata: Returned by `get_paged_mqa_logits_metadata`;
+            used to distribute work across SMs.
+        max_model_len: Maximum sequence length used to size the logits output.
+
+    Returns:
+        Logits tensor of shape [B * next_n, max_model_len], dtype
+        `torch.float32`.
+    """
+    _lazy_init()
+    if _fp8_paged_mqa_logits_impl is None:
+        return _missing()
+    return _fp8_paged_mqa_logits_impl(
+        q_fp8,
+        kv_cache_fp8,
+        weights,
+        context_lens,
+        block_tables,
+        schedule_metadata,
+        max_model_len,
+        clean_logits=True,
+    )
+
+
+def _ceil_to_ue8m0(x: torch.Tensor):
+    return torch.pow(2.0, torch.ceil(torch.log2(x.abs())))
+
+
+def _align(x: int, y: int) -> int:
+    return cdiv(x, y) * y
+
+
+DEFAULT_BLOCK_SIZE = [128, 128]
+
+
+# Taken from https://github.com/deepseek-ai/DeepGEMM/blob/dd6ed14acbc7445dcef224248a77ab4d22b5f240/deep_gemm/utils/math.py#L38
+@torch.compile(dynamic=True, backend=current_platform.simple_compile_backend)
+def per_block_cast_to_fp8(
+    x: torch.Tensor, block_size: list[int] = DEFAULT_BLOCK_SIZE, use_ue8m0: bool = False
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert x.dim() == 2
+    m, n = x.shape
+    block_m, block_n = block_size
+    x_padded = torch.zeros(
+        (_align(m, block_m), _align(n, block_n)), dtype=x.dtype, device=x.device
+    )
+    x_padded[:m, :n] = x
+    x_view = x_padded.view(-1, block_m, x_padded.size(1) // block_n, block_n)
+    x_amax = x_view.abs().float().amax(dim=(1, 3), keepdim=True).clamp(1e-4)
+    sf = x_amax / 448.0
+    sf = _ceil_to_ue8m0(sf) if use_ue8m0 else sf
+    x_scaled = (x_view * (1.0 / sf)).to(torch.float8_e4m3fn)
+    return x_scaled.view_as(x_padded)[:m, :n].contiguous(), sf.view(
+        x_view.size(0), x_view.size(2)
+    )
+
+
+def calc_diff(x: torch.Tensor, y: torch.Tensor):
+    """Return a global difference metric for unit tests.
+
+    DeepGEMM kernels on Blackwell/B200 currently exhibit noticeable per-element
+    error, causing `torch.testing.assert_close` to fail.  Instead of checking
+    every element, we compute a cosine-style similarity over the whole tensor
+    and report `1 - sim`.  Once kernel accuracy improves this helper can be
+    removed.
+    """
+
+    x, y = x.double(), y.double()
+    denominator = (x * x + y * y).sum()
+    sim = 2 * (x * y).sum() / denominator
+    return 1 - sim
+
+
+def should_use_deepgemm_for_fp8_linear(
+    output_dtype: torch.dtype,
+    weight: torch.Tensor,
+    supports_deep_gemm: bool | None = None,
+):
+    if supports_deep_gemm is None:
+        supports_deep_gemm = is_deep_gemm_supported()
+    return (
+        supports_deep_gemm
+        and output_dtype == torch.bfloat16
+        and weight.shape[0] % 128 == 0
+        and weight.shape[1] % 128 == 0
+    )
+
+
+__all__ = [
+    "calc_diff",
+    "fp8_gemm_nt",
+    "m_grouped_fp8_gemm_nt_contiguous",
+    "fp8_m_grouped_gemm_nt_masked",
+    "fp8_mqa_logits",
+    "fp8_paged_mqa_logits",
+    "get_paged_mqa_logits_metadata",
+    "per_block_cast_to_fp8",
+    "is_deep_gemm_e8m0_used",
+    "is_deep_gemm_supported",
+    "get_num_sms",
+    "should_use_deepgemm_for_fp8_linear",
+    "get_col_major_tma_aligned_tensor",
+    "get_mk_alignment_for_contiguous_layout",
+]
diff --git a/utils/flashinfer.py b/utils/flashinfer.py
new file mode 100644
index 0000000..1209d64
--- /dev/null
+++ b/utils/flashinfer.py
@@ -0,0 +1,490 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Compatibility wrapper for FlashInfer API changes.
+
+Users of vLLM should always import **only** these wrappers.
+"""
+
+import contextlib
+import functools
+import importlib
+import importlib.util
+import os
+import shutil
+from collections.abc import Callable
+from typing import Any, NoReturn
+
+import requests
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+# This is the storage path for the cubins, it can be replaced
+# with a local path for testing.
+# Referenced from https://github.com/flashinfer-ai/flashinfer/blob/0c9a92c3d9a7e043ab6f3f7b2273269caf6ab044/flashinfer/jit/cubin_loader.py#L35  # noqa: E501
+FLASHINFER_CUBINS_REPOSITORY = os.environ.get(
+    "FLASHINFER_CUBINS_REPOSITORY",
+    "https://edge.urm.nvidia.com/artifactory/sw-kernelinferencelibrary-public-generic-local/",  # noqa: E501
+)
+
+
+@functools.cache
+def has_flashinfer_cubin() -> bool:
+    """Return `True` if flashinfer-cubin package is available."""
+    if envs.VLLM_HAS_FLASHINFER_CUBIN:
+        return True
+    if importlib.util.find_spec("flashinfer_cubin") is not None:
+        return True
+    logger.debug_once("flashinfer-cubin package was not found")
+    return False
+
+
+@functools.cache
+def has_flashinfer() -> bool:
+    """Return `True` if flashinfer-python package is available."""
+    # Use find_spec to check if the module exists without importing it
+    # This avoids potential CUDA initialization side effects
+    if importlib.util.find_spec("flashinfer") is None:
+        logger.debug_once("FlashInfer unavailable since package was not found")
+        return False
+    # When not using flashinfer cubin,
+    # Also check if nvcc is available since it's required to JIT compile flashinfer
+    if not has_flashinfer_cubin() and shutil.which("nvcc") is None:
+        logger.debug_once(
+            "FlashInfer unavailable since nvcc was not found "
+            "and not using pre-downloaded cubins"
+        )
+        return False
+    return True
+
+
+def _missing(*_: Any, **__: Any) -> NoReturn:
+    """Placeholder for unavailable FlashInfer backend."""
+    raise RuntimeError(
+        "FlashInfer backend is not available. Please install the package "
+        "to enable FlashInfer kernels: "
+        "https://github.com/flashinfer-ai/flashinfer"
+    )
+
+
+def _get_submodule(module_name: str) -> Any | None:
+    """Safely import a submodule and return it, or None if not available."""
+    try:
+        return importlib.import_module(module_name)
+    except (ImportError, ModuleNotFoundError):
+        return None
+
+
+# General lazy import wrapper
+def _lazy_import_wrapper(
+    module_name: str, attr_name: str, fallback_fn: Callable[..., Any] = _missing
+):
+    """Create a lazy import wrapper for a specific function."""
+
+    @functools.cache
+    def _get_impl():
+        if not has_flashinfer():
+            return None
+        mod = _get_submodule(module_name)
+        return getattr(mod, attr_name, None) if mod else None
+
+    def wrapper(*args, **kwargs):
+        impl = _get_impl()
+        if impl is None:
+            return fallback_fn(*args, **kwargs)
+        return impl(*args, **kwargs)
+
+    return wrapper
+
+
+# Create lazy wrappers for each function
+flashinfer_trtllm_fp8_block_scale_moe = _lazy_import_wrapper(
+    "flashinfer.fused_moe", "trtllm_fp8_block_scale_moe"
+)
+flashinfer_trtllm_fp8_per_tensor_scale_moe = _lazy_import_wrapper(
+    "flashinfer.fused_moe", "trtllm_fp8_per_tensor_scale_moe"
+)
+flashinfer_cutlass_fused_moe = _lazy_import_wrapper(
+    "flashinfer.fused_moe", "cutlass_fused_moe"
+)
+flashinfer_fp4_quantize = _lazy_import_wrapper("flashinfer", "fp4_quantize")
+nvfp4_block_scale_interleave = _lazy_import_wrapper(
+    "flashinfer", "nvfp4_block_scale_interleave"
+)
+trtllm_fp4_block_scale_moe = _lazy_import_wrapper(
+    "flashinfer", "trtllm_fp4_block_scale_moe"
+)
+
+# Special case for autotune since it returns a context manager
+autotune = _lazy_import_wrapper(
+    "flashinfer.autotuner",
+    "autotune",
+    fallback_fn=lambda *args, **kwargs: contextlib.nullcontext(),
+)
+
+
+@functools.cache
+def has_flashinfer_comm() -> bool:
+    """Return `True` if FlashInfer comm module is available."""
+    return has_flashinfer() and importlib.util.find_spec("flashinfer.comm") is not None
+
+
+@functools.cache
+def has_flashinfer_all2all() -> bool:
+    """Return `True` if FlashInfer mnnvl all2all is available."""
+    if not has_flashinfer_comm():
+        return False
+
+    # Check if all required functions are available
+    required_functions = [
+        ("flashinfer.comm", "Mapping"),
+        ("flashinfer.comm.mnnvl", "MnnvlMemory"),
+        ("flashinfer.comm.trtllm_alltoall", "MnnvlMoe"),
+        ("flashinfer.comm.trtllm_alltoall", "MoEAlltoallInfo"),
+    ]
+
+    for module_name, attr_name in required_functions:
+        mod = _get_submodule(module_name)
+        if not mod or not hasattr(mod, attr_name):
+            return False
+    return True
+
+
+@functools.cache
+def has_flashinfer_moe() -> bool:
+    """Return `True` if FlashInfer MoE module is available."""
+    return (
+        has_flashinfer()
+        and importlib.util.find_spec("flashinfer.fused_moe") is not None
+    )
+
+
+@functools.cache
+def has_flashinfer_cutlass_fused_moe() -> bool:
+    """Return `True` if FlashInfer CUTLASS fused MoE is available."""
+    if not has_flashinfer_moe():
+        return False
+
+    # Check if all required functions are available
+    required_functions = [
+        ("flashinfer.fused_moe", "cutlass_fused_moe"),
+        ("flashinfer", "fp4_quantize"),
+        ("flashinfer", "nvfp4_block_scale_interleave"),
+        ("flashinfer.fused_moe", "trtllm_fp4_block_scale_moe"),
+    ]
+
+    for module_name, attr_name in required_functions:
+        mod = _get_submodule(module_name)
+        if not mod or not hasattr(mod, attr_name):
+            return False
+    return True
+
+
+@functools.cache
+def has_nvidia_artifactory() -> bool:
+    """Return `True` if NVIDIA's artifactory is accessible.
+
+    This checks connectivity to the kernel inference library artifactory
+    which is required for downloading certain cubin kernels like TRTLLM FHMA.
+    """
+    # If we have pre-downloaded cubins, we can assume the cubins are available.
+    if has_flashinfer_cubin():
+        return True
+
+    try:
+        # Use a short timeout to avoid blocking for too long
+        response = requests.get(FLASHINFER_CUBINS_REPOSITORY, timeout=5)
+        accessible = response.status_code == 200
+        if accessible:
+            logger.debug_once("NVIDIA artifactory is accessible")
+        else:
+            logger.warning_once(
+                "NVIDIA artifactory returned failed status code: %d",
+                response.status_code,
+            )
+        return accessible
+    except Exception as e:
+        logger.warning_once("Failed to connect to NVIDIA artifactory: %s", e)
+        return False
+
+
+@functools.cache
+def supports_trtllm_attention() -> bool:
+    """
+    TRTLLM attention is supported if the platform is SM100,
+    NVIDIA artifactory is accessible, and batch-invariant mode is not enabled.
+    """
+    # Batch-invariant mode disables TRTLLM attention
+    if vllm_is_batch_invariant():
+        return False
+
+    # Requires SM100 and NVIDIA artifactory to be accessible to download cubins
+    return current_platform.is_device_capability(100) and has_nvidia_artifactory()
+
+
+@functools.cache
+def _force_use_trtllm_attention(env_value: bool | None) -> bool | None:
+    """Cache the env value for VLLM_USE_TRTLLM_ATTENTION"""
+    if env_value is not None:
+        logger.info_once("VLLM_USE_TRTLLM_ATTENTION is set to %s", env_value)
+    return env_value
+
+
+def force_use_trtllm_attention() -> bool | None:
+    """
+    Return `None` if VLLM_USE_TRTLLM_ATTENTION is not set,
+    return `True` if TRTLLM attention is forced to be used,
+    return `False` if TRTLLM attention is forced to be not used.
+    """
+    return _force_use_trtllm_attention(envs.VLLM_USE_TRTLLM_ATTENTION)
+
+
+def can_use_trtllm_attention(num_qo_heads: int, num_kv_heads: int) -> bool:
+    """Check if the current configuration supports TRTLLM attention."""
+    if force_use_trtllm_attention() is False:
+        return False
+    has_trtllm = supports_trtllm_attention()
+    return has_trtllm and (num_qo_heads % num_kv_heads == 0)
+
+
+def use_trtllm_attention(
+    num_qo_heads: int,
+    num_kv_heads: int,
+    num_tokens: int,
+    max_seq_len: int,
+    dcp_world_size: int,
+    kv_cache_dtype: str,
+    q_dtype: torch.dtype,
+    is_prefill: bool,
+    has_sinks: bool = False,
+    has_spec: bool = False,
+) -> bool:
+    """Return `True` if TRTLLM attention is used."""
+    force_use_trtllm = force_use_trtllm_attention()
+
+    # Environment variable is set to 0 - respect it
+    if force_use_trtllm is not None and not force_use_trtllm:
+        return False
+
+    # Decode context parallel is not supported
+    if dcp_world_size > 1:
+        logger.warning_once(
+            "Trtllm does not support returning LSE and as a result "
+            "does not support DCP, reverting to FlashInfer"
+        )
+        return False
+
+    # The platform is not supported
+    if not supports_trtllm_attention():
+        if force_use_trtllm:
+            logger.warning_once(
+                "TRTLLM attention is not supported on this platform, "
+                "but VLLM_USE_TRTLLM_ATTENTION is set to 1"
+            )
+        return False
+
+    # The combination of query and key heads is not supported
+    if num_qo_heads % num_kv_heads != 0:
+        if force_use_trtllm:
+            logger.warning_once(
+                "TRTLLM attention is not supported for this combination of "
+                "query and key heads, but VLLM_USE_TRTLLM_ATTENTION is set to 1"
+            )
+        return False
+
+    if has_spec and not is_prefill:
+        # Speculative decoding requires TRTLLM attention for decodes
+        logger.info_once("Using TRTLLM attention (enabled for speculative decoding).")
+        return True
+
+    # Must use TRTLLM attention if query is FP8 quantized
+    if q_dtype == current_platform.fp8_dtype():
+        logger.info_once("Using TRTLLM attention (query is quantized).")
+        return True
+
+    # If sinks are being used, we must use TRTLLM attention as it's
+    # the only backend that supports them
+    if has_sinks:
+        logger.info_once("Using TRTLLM attention (required for attention sinks).")
+        return True
+
+    if force_use_trtllm is None:
+        # Environment variable not set - use auto-detection
+        if is_prefill:
+            # Prefill auto-detection
+            use_trtllm = kv_cache_dtype == "auto"
+            if use_trtllm:
+                logger.warning_once("Using TRTLLM prefill attention (auto-detected).")
+        else:
+            # Decode auto-detection
+            use_trtllm = num_tokens <= 256 and kv_cache_dtype == "auto"
+            if use_trtllm:
+                logger.warning_once("Using TRTLLM decode attention (auto-detected).")
+        return use_trtllm
+
+    # Environment variable is set to 1 - respect it
+    logger.info_once("Using TRTLLM attention (VLLM_USE_TRTLLM_ATTENTION is set to 1)")
+    return True
+
+
+if has_flashinfer():
+
+    @torch.library.custom_op(
+        "vllm::flashinfer_mm_fp4",
+        mutates_args=[],
+        device_types="cuda",
+    )
+    def flashinfer_mm_fp4(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        A_scale: torch.Tensor,
+        B_scale: torch.Tensor,
+        g_scale: torch.Tensor,
+        dtype: torch.dtype,
+        backend: str,
+    ) -> torch.Tensor:
+        from flashinfer import mm_fp4 as flashinfer_mm_fp4_
+
+        return flashinfer_mm_fp4_(
+            A, B, A_scale, B_scale, g_scale, dtype, block_size=16, backend=backend
+        )
+
+    @torch.library.register_fake(
+        "vllm::flashinfer_mm_fp4",
+    )
+    def flashinfer_mm_fp4_fake(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        A_scale: torch.Tensor,
+        B_scale: torch.Tensor,
+        g_scale: torch.Tensor,
+        dtype: torch.dtype,
+        backend: str,
+    ) -> torch.Tensor:
+        return torch.empty(A.shape[0], B.shape[1], dtype=dtype, device=A.device)
+
+    @torch.library.custom_op(
+        "vllm::bmm_fp8",
+        mutates_args=[],
+        device_types="cuda",
+    )
+    def bmm_fp8(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        A_scale: torch.Tensor,
+        B_scale: torch.Tensor,
+        dtype: torch.dtype,
+        backend: str,
+    ) -> torch.Tensor:
+        from flashinfer import bmm_fp8 as bmm_fp8_
+
+        return bmm_fp8_(A, B, A_scale, B_scale, dtype, None, backend)
+
+    @torch.library.register_fake(
+        "vllm::bmm_fp8",
+    )
+    def bmm_fp8_fake(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        A_scale: torch.Tensor,
+        B_scale: torch.Tensor,
+        dtype: torch.dtype,
+        backend: str,
+    ) -> torch.Tensor:
+        return torch.empty(
+            A.shape[0], A.shape[1], B.shape[2], dtype=dtype, device=A.device
+        )
+
+
+def flashinfer_scaled_fp4_mm(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    block_scale_a: torch.Tensor,
+    block_scale_b: torch.Tensor,
+    alpha: torch.Tensor,
+    out_dtype: torch.dtype,
+    backend: str,
+) -> torch.Tensor:
+    assert a.ndim == 2 and b.ndim == 2
+    assert block_scale_a.ndim == 2 and block_scale_b.ndim == 2
+    assert a.stride(-1) == 1 and b.stride(-1) == 1
+    assert a.shape[1] == b.shape[1]
+
+    if backend == "cutlass":
+        block_scale_a = block_scale_a.view(torch.uint8)
+        block_scale_b = block_scale_b.view(torch.uint8)
+
+    return flashinfer_mm_fp4(
+        a,
+        b.t(),
+        block_scale_a,
+        block_scale_b.t(),
+        alpha,
+        out_dtype,
+        backend=backend,
+    )
+
+
+def flashinfer_scaled_fp8_mm(
+    a: torch.Tensor,
+    b: torch.Tensor,
+    scale_a: torch.Tensor,
+    scale_b: torch.Tensor,
+    out_dtype: torch.dtype,
+    bias: torch.Tensor | None = None,
+) -> torch.Tensor:
+    assert a.ndim == 2 and b.ndim == 2
+    assert a.shape[1] == b.shape[0]
+    assert scale_a.numel() == 1 and scale_b.numel() == 1
+    assert a.dtype == torch.float8_e4m3fn and b.dtype == torch.float8_e4m3fn
+    assert a.device.type == "cuda" and b.device.type == "cuda"
+    assert scale_a.dtype == torch.float32 and scale_b.dtype == torch.float32
+    assert scale_a.device.type == "cuda" and scale_b.device.type == "cuda"
+
+    output = bmm_fp8(
+        a.unsqueeze(0),
+        b.unsqueeze(0),
+        scale_a,
+        scale_b,
+        out_dtype,
+        "auto",
+    ).view(a.shape[0], b.shape[1])
+
+    if bias is not None:
+        output = output + bias
+    return output
+
+
+@functools.cache
+def flashinfer_disable_q_quantization() -> bool:
+    """Cache result which only depends on the environment"""
+    return envs.VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION
+
+
+__all__ = [
+    "has_flashinfer",
+    "flashinfer_trtllm_fp8_block_scale_moe",
+    "flashinfer_cutlass_fused_moe",
+    "flashinfer_fp4_quantize",
+    "nvfp4_block_scale_interleave",
+    "trtllm_fp4_block_scale_moe",
+    "autotune",
+    "has_flashinfer_moe",
+    "has_flashinfer_comm",
+    "has_flashinfer_all2all",
+    "has_flashinfer_cutlass_fused_moe",
+    "has_nvidia_artifactory",
+    "supports_trtllm_attention",
+    "can_use_trtllm_attention",
+    "use_trtllm_attention",
+    "flashinfer_disable_q_quantization",
+    "flashinfer_scaled_fp4_mm",
+    "flashinfer_scaled_fp8_mm",
+]
diff --git a/utils/func_utils.py b/utils/func_utils.py
new file mode 100644
index 0000000..c061a0d
--- /dev/null
+++ b/utils/func_utils.py
@@ -0,0 +1,236 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Contains helpers that are applied to functions.
+
+This is similar in concept to the `functools` module.
+"""
+
+import inspect
+import threading
+import warnings
+from collections.abc import Callable, Mapping
+from functools import lru_cache, partial, wraps
+from typing import Any, TypeVar
+
+from typing_extensions import ParamSpec
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+P = ParamSpec("P")
+T = TypeVar("T")
+F = TypeVar("F", bound=Callable[..., Any])
+
+
+def identity(value: T, **kwargs) -> T:
+    """Returns the first provided value."""
+    return value
+
+
+def run_once(f: Callable[P, None]) -> Callable[P, None]:
+    def wrapper(*args: P.args, **kwargs: P.kwargs) -> None:
+        if wrapper.has_run:  # type: ignore[attr-defined]
+            return
+
+        with wrapper.lock:  # type: ignore[attr-defined]
+            if not wrapper.has_run:  # type: ignore[attr-defined]
+                wrapper.has_run = True  # type: ignore[attr-defined]
+                return f(*args, **kwargs)
+
+    wrapper.has_run = False  # type: ignore[attr-defined]
+    wrapper.lock = threading.Lock()  # type: ignore[attr-defined]
+    return wrapper
+
+
+def deprecate_args(
+    start_index: int,
+    is_deprecated: bool | Callable[[], bool] = True,
+    additional_message: str | None = None,
+) -> Callable[[F], F]:
+    if not callable(is_deprecated):
+        is_deprecated = partial(identity, is_deprecated)
+
+    def wrapper(fn: F) -> F:
+        params = inspect.signature(fn).parameters
+        pos_types = (
+            inspect.Parameter.POSITIONAL_ONLY,
+            inspect.Parameter.POSITIONAL_OR_KEYWORD,
+        )
+        pos_kws = [kw for kw, param in params.items() if param.kind in pos_types]
+
+        @wraps(fn)
+        def inner(*args, **kwargs):
+            if is_deprecated():
+                deprecated_args = pos_kws[start_index : len(args)]
+                if deprecated_args:
+                    msg = (
+                        f"The positional arguments {deprecated_args} are "
+                        "deprecated and will be removed in a future update."
+                    )
+                    if additional_message is not None:
+                        msg += f" {additional_message}"
+
+                    warnings.warn(
+                        DeprecationWarning(msg),
+                        stacklevel=3,  # The inner function takes up one level
+                    )
+
+            return fn(*args, **kwargs)
+
+        return inner  # type: ignore
+
+    return wrapper
+
+
+def deprecate_kwargs(
+    *kws: str,
+    is_deprecated: bool | Callable[[], bool] = True,
+    additional_message: str | None = None,
+) -> Callable[[F], F]:
+    deprecated_kws = set(kws)
+
+    if not callable(is_deprecated):
+        is_deprecated = partial(identity, is_deprecated)
+
+    def wrapper(fn: F) -> F:
+        @wraps(fn)
+        def inner(*args, **kwargs):
+            if is_deprecated():
+                deprecated_kwargs = kwargs.keys() & deprecated_kws
+                if deprecated_kwargs:
+                    msg = (
+                        f"The keyword arguments {deprecated_kwargs} are "
+                        "deprecated and will be removed in a future update."
+                    )
+                    if additional_message is not None:
+                        msg += f" {additional_message}"
+
+                    warnings.warn(
+                        DeprecationWarning(msg),
+                        stacklevel=3,  # The inner function takes up one level
+                    )
+
+            return fn(*args, **kwargs)
+
+        return inner  # type: ignore
+
+    return wrapper
+
+
+@lru_cache
+def supports_kw(
+    callable: Callable[..., object],
+    kw_name: str,
+    *,
+    requires_kw_only: bool = False,
+    allow_var_kwargs: bool = True,
+) -> bool:
+    """Check if a keyword is a valid kwarg for a callable; if requires_kw_only
+    disallows kwargs names that can also be positional arguments.
+    """
+    params = inspect.signature(callable).parameters
+    if not params:
+        return False
+
+    param_val = params.get(kw_name)
+
+    # Types where the it may be valid, i.e., explicitly defined & nonvariadic
+    passable_kw_types = set(
+        (
+            inspect.Parameter.POSITIONAL_ONLY,
+            inspect.Parameter.POSITIONAL_OR_KEYWORD,
+            inspect.Parameter.KEYWORD_ONLY,
+        )
+    )
+
+    if param_val:
+        is_sig_param = param_val.kind in passable_kw_types
+        # We want kwargs only, but this is passable as a positional arg
+        if (
+            requires_kw_only
+            and is_sig_param
+            and param_val.kind != inspect.Parameter.KEYWORD_ONLY
+        ):
+            return False
+        if (requires_kw_only and param_val.kind == inspect.Parameter.KEYWORD_ONLY) or (
+            not requires_kw_only and is_sig_param
+        ):
+            return True
+
+    # If we're okay with var-kwargs, it's supported as long as
+    # the kw_name isn't something like *args, **kwargs
+    if allow_var_kwargs:
+        # Get the last param; type is ignored here because params is a proxy
+        # mapping, but it wraps an ordered dict, and they appear in order.
+        # Ref: https://docs.python.org/3/library/inspect.html#inspect.Signature.parameters
+        last_param = params[next(reversed(params))]  # type: ignore
+        return (
+            last_param.kind == inspect.Parameter.VAR_KEYWORD
+            and last_param.name != kw_name
+        )
+
+    return False
+
+
+def get_allowed_kwarg_only_overrides(
+    callable: Callable[..., object],
+    overrides: Mapping[str, object] | None,
+    *,
+    requires_kw_only: bool = True,
+    allow_var_kwargs: bool = False,
+) -> dict[str, Any]:
+    """
+    Given a callable which has one or more keyword only params and a dict
+    mapping param names to values, drop values that can be not be kwarg
+    expanded to overwrite one or more keyword-only args. This is used in a
+    few places to handle custom processor overrides for multimodal models,
+    e.g., for profiling when processor options provided by the user
+    may affect the number of mm tokens per instance.
+
+    Args:
+        callable: Callable which takes 0 or more keyword only arguments.
+                  If None is provided, all overrides names are allowed.
+        overrides: Potential overrides to be used when invoking the callable.
+        allow_var_kwargs: Allows overrides that are expandable for var kwargs.
+
+    Returns:
+        Dictionary containing the kwargs to be leveraged which may be used
+        to overwrite one or more keyword only arguments when invoking the
+        callable.
+    """
+    if not overrides:
+        return {}
+
+    # Drop any mm_processor_kwargs provided by the user that
+    # are not kwargs, unless it can fit it var_kwargs param
+    filtered_overrides = {
+        kwarg_name: val
+        for kwarg_name, val in overrides.items()
+        if supports_kw(
+            callable,
+            kwarg_name,
+            requires_kw_only=requires_kw_only,
+            allow_var_kwargs=allow_var_kwargs,
+        )
+    }
+
+    # If anything is dropped, log a warning
+    dropped_keys = overrides.keys() - filtered_overrides.keys()
+    if dropped_keys:
+        if requires_kw_only:
+            logger.warning(
+                "The following intended overrides are not keyword-only args "
+                "and will be dropped: %s",
+                dropped_keys,
+            )
+        else:
+            logger.warning(
+                "The following intended overrides are not keyword args "
+                "and will be dropped: %s",
+                dropped_keys,
+            )
+
+    return filtered_overrides
diff --git a/utils/gc_utils.py b/utils/gc_utils.py
new file mode 100644
index 0000000..160ac9a
--- /dev/null
+++ b/utils/gc_utils.py
@@ -0,0 +1,147 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import gc
+import json
+import time
+from collections import Counter
+from contextlib import suppress
+from typing import Any
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class GCDebugConfig:
+    """
+    Config for GC Debugger.
+    - 0: disable GC debugger
+    - 1: enable GC debugger with gc.collect elpased times
+    - '{"top_objects":5}': enable GC debugger with top 5 collected objects
+    """
+
+    def __init__(self, gc_debug_conf: str | None = None) -> None:
+        self.enabled: bool = False
+        self.top_objects: int = -1
+
+        if not gc_debug_conf or gc_debug_conf == "0":
+            pass
+        elif gc_debug_conf == "1":
+            self.enabled = True
+        else:
+            try:
+                json_conf = json.loads(gc_debug_conf)
+                self.enabled = True
+                self.top_objects = json_conf.get("top_objects", -1)
+            except Exception:
+                self.enabled = False
+                logger.error("Failed to parse VLLM_GC_DEBUG(%s)", envs.VLLM_GC_DEBUG)
+        logger.debug("GC Debug Config. %s", str(self))
+
+    def __repr__(self) -> str:
+        return f"enabled:{self.enabled},top_objects:{self.top_objects}"
+
+
+class GCDebugger:
+    """
+    Debugger for GC which logs helpful information for GC understanding.
+    To enable, you should call maybe_attach_gc_debug_callback in the process.
+    """
+
+    def __init__(self, config: GCDebugConfig) -> None:
+        self.config = config
+        # Start time in micro second of this GC cycle
+        self.start_time_ns: int = time.monotonic_ns()
+        # If config.top_objects is positive,
+        # compute top collected objects by object types
+        self.gc_top_collected_objects: str = ""
+
+    def handle(self, phase: str, info: dict[str, int]) -> None:
+        """
+        Handles a GC event (e.g. GC start or GC finish)
+        """
+        generation = info.get("generation")
+        if generation is None:
+            return
+        if phase == "start":
+            # Before GC started, record GC start time
+            # and top collected objects
+            self.start_time_ns = time.monotonic_ns()
+            self.gc_top_collected_objects = _compute_top_gc_collected_objects(
+                gc.get_objects(generation), self.config.top_objects
+            )
+        elif phase == "stop":
+            # After GC finished, Record GC elapsed time and
+            # optionally top collected objects
+            elpased_ms = (time.monotonic_ns() - self.start_time_ns) / 1e6
+            logger.info(
+                "GC took %.3fms to complete. "
+                "Collected %s objects in GC generation %d.%s",
+                elpased_ms,
+                str(info.get("collected", "?")),
+                generation,
+                (
+                    f" Top collected objects: \n{self.gc_top_collected_objects}"
+                    if self.gc_top_collected_objects
+                    else ""
+                ),
+            )
+
+
+def freeze_gc_heap() -> None:
+    """
+    Freeze all objects tracked by the garbage collector. It should be invoked
+    after server init / warmup, to reduce GC overhead from static objects
+    during serving time.
+    """
+    # Ensure all static objects are pushed down to the oldest generation for
+    # freeze
+    gc.collect(0)
+    gc.collect(1)
+    gc.collect(2)
+    # Freeze all GC tracked objects
+    gc.freeze()
+
+
+def maybe_attach_gc_debug_callback() -> None:
+    """
+    Attached a callback for GC debug when VLLM_GC_DEBUG is enabled.
+    """
+    config = GCDebugConfig(envs.VLLM_GC_DEBUG)
+    if config.enabled:
+        debugger: GCDebugger = GCDebugger(config)
+
+        def gc_callback(phase: str, info: dict[str, int]) -> None:
+            debugger.handle(phase, info)
+
+        gc.callbacks.append(gc_callback)
+
+
+def _compute_detailed_type(o: Any) -> str:
+    """
+    Detailed object type.
+
+    TODO(Jialin): Further enhance the detailed type with element types for
+    easier debugging. We tried but occasionally it would run into signals
+    which kills the engine.
+    """
+    size_str: str = ""
+    # Object doesn't support len() - this can happen with type objects
+    # or other objects that don't implement __len__ properly
+    with suppress(Exception):
+        size_str = f"(size:{len(o)})"
+    return f"{str(type(o))}{size_str}"
+
+
+def _compute_top_gc_collected_objects(objects: list[Any], top: int) -> str:
+    """
+    Group collected objects by types.
+    """
+    if top <= 0:
+        return ""
+    object_types = [_compute_detailed_type(o) for o in objects]
+    return "\n".join(
+        f"{count:>5}:{object_type}"
+        for object_type, count in Counter(object_types).most_common(top)
+    )
diff --git a/utils/hashing.py b/utils/hashing.py
new file mode 100644
index 0000000..49f4f13
--- /dev/null
+++ b/utils/hashing.py
@@ -0,0 +1,63 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from __future__ import annotations
+
+import hashlib
+import pickle
+from collections.abc import Callable
+from typing import Any
+
+import cbor2
+
+
+def sha256(input: Any) -> bytes:
+    """Hash any picklable Python object using SHA-256.
+
+    The input is serialized using pickle before hashing, which allows
+    arbitrary Python objects to be used. Note that this function does
+    not use a hash seed—if you need one, prepend it explicitly to the input.
+
+    Args:
+        input: Any picklable Python object.
+
+    Returns:
+        Bytes representing the SHA-256 hash of the serialized input.
+    """
+    input_bytes = pickle.dumps(input, protocol=pickle.HIGHEST_PROTOCOL)
+    return hashlib.sha256(input_bytes).digest()
+
+
+def sha256_cbor(input: Any) -> bytes:
+    """Hash objects using CBOR serialization and SHA-256.
+
+    This option is useful for non-Python-dependent serialization and hashing.
+
+    Args:
+        input: Object to be serialized and hashed. Supported types include
+            basic Python types and complex structures like lists, tuples, and
+            dictionaries.
+            Custom classes must implement CBOR serialization methods.
+
+    Returns:
+        Bytes representing the SHA-256 hash of the CBOR serialized input.
+    """
+    input_bytes = cbor2.dumps(input, canonical=True)
+    return hashlib.sha256(input_bytes).digest()
+
+
+def get_hash_fn_by_name(hash_fn_name: str) -> Callable[[Any], bytes]:
+    """Get a hash function by name, or raise an error if the function is not found.
+
+    Args:
+        hash_fn_name: Name of the hash function.
+
+    Returns:
+        A hash function.
+    """
+    if hash_fn_name == "sha256":
+        return sha256
+    if hash_fn_name == "sha256_cbor":
+        return sha256_cbor
+
+    raise ValueError(f"Unsupported hash function: {hash_fn_name}")
diff --git a/utils/import_utils.py b/utils/import_utils.py
new file mode 100644
index 0000000..f01d2c7
--- /dev/null
+++ b/utils/import_utils.py
@@ -0,0 +1,411 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Contains helpers related to importing modules.
+
+This is similar in concept to the `importlib` module.
+"""
+
+import importlib.metadata
+import importlib.util
+import os
+import sys
+from functools import cache
+from types import ModuleType
+from typing import Any
+
+import regex as re
+from typing_extensions import Never
+
+
+# TODO: This function can be removed if transformer_modules classes are
+# serialized by value when communicating between processes
+def init_cached_hf_modules() -> None:
+    """
+    Lazy initialization of the Hugging Face modules.
+    """
+    from transformers.dynamic_module_utils import init_hf_modules
+
+    init_hf_modules()
+
+
+def import_pynvml():
+    """
+    Historical comments:
+
+    libnvml.so is the library behind nvidia-smi, and
+    pynvml is a Python wrapper around it. We use it to get GPU
+    status without initializing CUDA context in the current process.
+    Historically, there are two packages that provide pynvml:
+    - `nvidia-ml-py` (https://pypi.org/project/nvidia-ml-py/): The official
+        wrapper. It is a dependency of vLLM, and is installed when users
+        install vLLM. It provides a Python module named `pynvml`.
+    - `pynvml` (https://pypi.org/project/pynvml/): An unofficial wrapper.
+        Prior to version 12.0, it also provides a Python module `pynvml`,
+        and therefore conflicts with the official one. What's worse,
+        the module is a Python package, and has higher priority than
+        the official one which is a standalone Python file.
+        This causes errors when both of them are installed.
+        Starting from version 12.0, it migrates to a new module
+        named `pynvml_utils` to avoid the conflict.
+    It is so confusing that many packages in the community use the
+    unofficial one by mistake, and we have to handle this case.
+    For example, `nvcr.io/nvidia/pytorch:24.12-py3` uses the unofficial
+    one, and it will cause errors, see the issue
+    https://github.com/vllm-project/vllm/issues/12847 for example.
+    After all the troubles, we decide to copy the official `pynvml`
+    module to our codebase, and use it directly.
+    """
+    import vllm.third_party.pynvml as pynvml
+
+    return pynvml
+
+
+def import_from_path(module_name: str, file_path: str | os.PathLike):
+    """
+    Import a Python file according to its file path.
+
+    Based on the official recipe:
+    https://docs.python.org/3/library/importlib.html#importing-a-source-file-directly
+    """
+    spec = importlib.util.spec_from_file_location(module_name, file_path)
+    if spec is None:
+        raise ModuleNotFoundError(f"No module named {module_name!r}")
+
+    assert spec.loader is not None
+
+    module = importlib.util.module_from_spec(spec)
+    sys.modules[module_name] = module
+    spec.loader.exec_module(module)
+    return module
+
+
+def resolve_obj_by_qualname(qualname: str) -> Any:
+    """
+    Resolve an object by its fully-qualified class name.
+    """
+    module_name, obj_name = qualname.rsplit(".", 1)
+    module = importlib.import_module(module_name)
+    return getattr(module, obj_name)
+
+
+@cache
+def get_vllm_optional_dependencies():
+    metadata = importlib.metadata.metadata("vllm")
+    requirements = metadata.get_all("Requires-Dist", [])
+    extras = metadata.get_all("Provides-Extra", [])
+
+    return {
+        extra: [
+            re.split(r";|>=|<=|==", req)[0]
+            for req in requirements
+            if req.endswith(f'extra == "{extra}"')
+        ]
+        for extra in extras
+    }
+
+
+class _PlaceholderBase:
+    """
+    Disallows downstream usage of placeholder modules.
+
+    We need to explicitly override each dunder method because
+    [`__getattr__`][vllm.utils.import_utils._PlaceholderBase.__getattr__]
+    is not called when they are accessed.
+
+    Info:
+        [Special method lookup](https://docs.python.org/3/reference/datamodel.html#special-lookup)
+    """
+
+    def __getattr__(self, key: str) -> Never:
+        """
+        The main class should implement this to throw an error
+        for attribute accesses representing downstream usage.
+        """
+        raise NotImplementedError
+
+    # [Basic customization]
+
+    def __lt__(self, other: object):
+        return self.__getattr__("__lt__")
+
+    def __le__(self, other: object):
+        return self.__getattr__("__le__")
+
+    def __eq__(self, other: object):
+        return self.__getattr__("__eq__")
+
+    def __ne__(self, other: object):
+        return self.__getattr__("__ne__")
+
+    def __gt__(self, other: object):
+        return self.__getattr__("__gt__")
+
+    def __ge__(self, other: object):
+        return self.__getattr__("__ge__")
+
+    def __hash__(self):
+        return self.__getattr__("__hash__")
+
+    def __bool__(self):
+        return self.__getattr__("__bool__")
+
+    # [Callable objects]
+
+    def __call__(self, *args: object, **kwargs: object):
+        return self.__getattr__("__call__")
+
+    # [Container types]
+
+    def __len__(self):
+        return self.__getattr__("__len__")
+
+    def __getitem__(self, key: object):
+        return self.__getattr__("__getitem__")
+
+    def __setitem__(self, key: object, value: object):
+        return self.__getattr__("__setitem__")
+
+    def __delitem__(self, key: object):
+        return self.__getattr__("__delitem__")
+
+    # __missing__ is optional according to __getitem__ specification,
+    # so it is skipped
+
+    # __iter__ and __reversed__ have a default implementation
+    # based on __len__ and __getitem__, so they are skipped.
+
+    # [Numeric Types]
+
+    def __add__(self, other: object):
+        return self.__getattr__("__add__")
+
+    def __sub__(self, other: object):
+        return self.__getattr__("__sub__")
+
+    def __mul__(self, other: object):
+        return self.__getattr__("__mul__")
+
+    def __matmul__(self, other: object):
+        return self.__getattr__("__matmul__")
+
+    def __truediv__(self, other: object):
+        return self.__getattr__("__truediv__")
+
+    def __floordiv__(self, other: object):
+        return self.__getattr__("__floordiv__")
+
+    def __mod__(self, other: object):
+        return self.__getattr__("__mod__")
+
+    def __divmod__(self, other: object):
+        return self.__getattr__("__divmod__")
+
+    def __pow__(self, other: object, modulo: object = ...):
+        return self.__getattr__("__pow__")
+
+    def __lshift__(self, other: object):
+        return self.__getattr__("__lshift__")
+
+    def __rshift__(self, other: object):
+        return self.__getattr__("__rshift__")
+
+    def __and__(self, other: object):
+        return self.__getattr__("__and__")
+
+    def __xor__(self, other: object):
+        return self.__getattr__("__xor__")
+
+    def __or__(self, other: object):
+        return self.__getattr__("__or__")
+
+    # r* and i* methods have lower priority than
+    # the methods for left operand so they are skipped
+
+    def __neg__(self):
+        return self.__getattr__("__neg__")
+
+    def __pos__(self):
+        return self.__getattr__("__pos__")
+
+    def __abs__(self):
+        return self.__getattr__("__abs__")
+
+    def __invert__(self):
+        return self.__getattr__("__invert__")
+
+    # __complex__, __int__ and __float__ have a default implementation
+    # based on __index__, so they are skipped.
+
+    def __index__(self):
+        return self.__getattr__("__index__")
+
+    def __round__(self, ndigits: object = ...):
+        return self.__getattr__("__round__")
+
+    def __trunc__(self):
+        return self.__getattr__("__trunc__")
+
+    def __floor__(self):
+        return self.__getattr__("__floor__")
+
+    def __ceil__(self):
+        return self.__getattr__("__ceil__")
+
+    # [Context managers]
+
+    def __enter__(self):
+        return self.__getattr__("__enter__")
+
+    def __exit__(self, *args: object, **kwargs: object):
+        return self.__getattr__("__exit__")
+
+
+class PlaceholderModule(_PlaceholderBase):
+    """
+    A placeholder object to use when a module does not exist.
+
+    This enables more informative errors when trying to access attributes
+    of a module that does not exist.
+    """
+
+    def __init__(self, name: str) -> None:
+        super().__init__()
+
+        # Apply name mangling to avoid conflicting with module attributes
+        self.__name = name
+
+    def placeholder_attr(self, attr_path: str):
+        return _PlaceholderModuleAttr(self, attr_path)
+
+    def __getattr__(self, key: str) -> Never:
+        name = self.__name
+
+        try:
+            importlib.import_module(name)
+        except ImportError as exc:
+            for extra, names in get_vllm_optional_dependencies().items():
+                if name in names:
+                    msg = f"Please install vllm[{extra}] for {extra} support"
+                    raise ImportError(msg) from exc
+
+            raise exc
+
+        raise AssertionError(
+            "PlaceholderModule should not be used "
+            "when the original module can be imported"
+        )
+
+
+class _PlaceholderModuleAttr(_PlaceholderBase):
+    def __init__(self, module: PlaceholderModule, attr_path: str) -> None:
+        super().__init__()
+
+        # Apply name mangling to avoid conflicting with module attributes
+        self.__module = module
+        self.__attr_path = attr_path
+
+    def placeholder_attr(self, attr_path: str):
+        return _PlaceholderModuleAttr(self.__module, f"{self.__attr_path}.{attr_path}")
+
+    def __getattr__(self, key: str) -> Never:
+        getattr(self.__module, f"{self.__attr_path}.{key}")
+
+        raise AssertionError(
+            "PlaceholderModule should not be used "
+            "when the original module can be imported"
+        )
+
+
+class LazyLoader(ModuleType):
+    """
+    `LazyLoader` module borrowed from [Tensorflow]
+    (https://github.com/tensorflow/tensorflow/blob/main/tensorflow/python/util/lazy_loader.py)
+    with an addition of "module caching".
+
+    Lazily import a module, mainly to avoid pulling in large dependencies.
+    Modules such as `xgrammar` might do additional side effects, so we
+    only want to use this when it is needed, delaying all eager effects.
+    """
+
+    def __init__(
+        self,
+        local_name: str,
+        parent_module_globals: dict[str, Any],
+        name: str,
+    ):
+        self._local_name = local_name
+        self._parent_module_globals = parent_module_globals
+        self._module: ModuleType | None = None
+
+        super().__init__(str(name))
+
+    def _load(self) -> ModuleType:
+        # Import the target module and insert it into the parent's namespace
+        try:
+            module = importlib.import_module(self.__name__)
+            self._parent_module_globals[self._local_name] = module
+            # The additional add to sys.modules
+            # ensures library is actually loaded.
+            sys.modules[self._local_name] = module
+        except ModuleNotFoundError as err:
+            raise err from None
+
+        # Update this object's dict so that if someone keeps a
+        # reference to the LazyLoader, lookups are efficient
+        # (__getattr__ is only called on lookups that fail).
+        self.__dict__.update(module.__dict__)
+        return module
+
+    def __getattr__(self, item: Any) -> Any:
+        if self._module is None:
+            self._module = self._load()
+        return getattr(self._module, item)
+
+    def __dir__(self) -> list[str]:
+        if self._module is None:
+            self._module = self._load()
+        return dir(self._module)
+
+
+# Optional dependency detection utilities
+@cache
+def _has_module(module_name: str) -> bool:
+    """Return True if *module_name* can be found in the current environment.
+
+    The result is cached so that subsequent queries for the same module incur
+    no additional overhead.
+    """
+    return importlib.util.find_spec(module_name) is not None
+
+
+def has_pplx() -> bool:
+    """Whether the optional `pplx_kernels` package is available."""
+    return _has_module("pplx_kernels")
+
+
+def has_deep_ep() -> bool:
+    """Whether the optional `deep_ep` package is available."""
+    return _has_module("deep_ep")
+
+
+def has_deep_gemm() -> bool:
+    """Whether the optional `deep_gemm` package is available."""
+    return _has_module("deep_gemm")
+
+
+def has_triton_kernels() -> bool:
+    """Whether the optional `triton_kernels` package is available."""
+    return _has_module("triton_kernels")
+
+
+def has_tilelang() -> bool:
+    """Whether the optional `tilelang` package is available."""
+    return _has_module("tilelang")
+
+
+def has_arctic_inference() -> bool:
+    """Whether the optional `arctic_inference` package is available."""
+
+    return _has_module("arctic_inference")
diff --git a/utils/jsontree.py b/utils/jsontree.py
new file mode 100644
index 0000000..cde9aa6
--- /dev/null
+++ b/utils/jsontree.py
@@ -0,0 +1,165 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Helper functions to work with nested JSON structures."""
+
+from collections.abc import Callable, Iterable
+from functools import reduce
+from typing import TYPE_CHECKING, TypeAlias, TypeVar, cast, overload
+
+if TYPE_CHECKING:
+    import torch
+
+    from vllm.multimodal.inputs import BatchedTensorInputs
+
+_T = TypeVar("_T")
+_U = TypeVar("_U")
+
+JSONTree: TypeAlias = (
+    dict[str, "JSONTree[_T]"] | list["JSONTree[_T]"] | tuple["JSONTree[_T]", ...] | _T
+)
+"""A nested JSON structure where the leaves need not be JSON-serializable."""
+
+_JSONTree: TypeAlias = (
+    dict[str, "JSONTree[_T]"]
+    | list["JSONTree[_T]"]
+    | tuple["JSONTree[_T]", ...]
+    | dict[str, _T]
+    | list[_T]
+    | tuple[_T, ...]
+    | _T
+)
+"""
+Same as `JSONTree` but with additional `Union` members to satisfy overloads.
+"""
+
+
+def json_iter_leaves(value: JSONTree[_T]) -> Iterable[_T]:
+    """Iterate through each leaf in a nested JSON structure."""
+    if isinstance(value, dict):
+        for v in value.values():
+            yield from json_iter_leaves(v)
+    elif isinstance(value, (list, tuple)):
+        for v in value:
+            yield from json_iter_leaves(v)
+    else:
+        yield value
+
+
+@overload
+def json_map_leaves(
+    func: Callable[["torch.Tensor"], "torch.Tensor"],
+    value: "BatchedTensorInputs",
+) -> "BatchedTensorInputs": ...
+
+
+@overload
+def json_map_leaves(
+    func: Callable[[_T], _U],
+    value: _T | dict[str, _T],
+) -> _U | dict[str, _U]: ...
+
+
+@overload
+def json_map_leaves(
+    func: Callable[[_T], _U],
+    value: _T | list[_T],
+) -> _U | list[_U]: ...
+
+
+@overload
+def json_map_leaves(
+    func: Callable[[_T], _U],
+    value: _T | tuple[_T, ...],
+) -> _U | tuple[_U, ...]: ...
+
+
+@overload
+def json_map_leaves(
+    func: Callable[[_T], _U],
+    value: JSONTree[_T],
+) -> JSONTree[_U]: ...
+
+
+def json_map_leaves(
+    func: Callable[[_T], _U],
+    value: "BatchedTensorInputs" | _JSONTree[_T],
+) -> "BatchedTensorInputs" | _JSONTree[_U]:
+    """Apply a function to each leaf in a nested JSON structure."""
+    if isinstance(value, dict):
+        return {
+            k: json_map_leaves(func, v)  # type: ignore[arg-type]
+            for k, v in value.items()
+        }
+    elif isinstance(value, list):
+        return [json_map_leaves(func, v) for v in value]
+    elif isinstance(value, tuple):
+        return tuple(json_map_leaves(func, v) for v in value)
+    else:
+        return func(value)
+
+
+@overload
+def json_reduce_leaves(
+    func: Callable[[_T, _T], _T],
+    value: _T | dict[str, _T],
+    /,
+) -> _T: ...
+
+
+@overload
+def json_reduce_leaves(
+    func: Callable[[_T, _T], _T],
+    value: _T | list[_T],
+    /,
+) -> _T: ...
+
+
+@overload
+def json_reduce_leaves(
+    func: Callable[[_T, _T], _T],
+    value: _T | tuple[_T, ...],
+    /,
+) -> _T: ...
+
+
+@overload
+def json_reduce_leaves(
+    func: Callable[[_T, _T], _T],
+    value: JSONTree[_T],
+    /,
+) -> _T: ...
+
+
+@overload
+def json_reduce_leaves(
+    func: Callable[[_U, _T], _U],
+    value: JSONTree[_T],
+    initial: _U,
+    /,
+) -> _U: ...
+
+
+def json_reduce_leaves(
+    func: Callable[..., _T | _U],
+    value: _JSONTree[_T],
+    initial: _U = cast(_U, ...),  # noqa: B008
+    /,
+) -> _T | _U:
+    """
+    Apply a function of two arguments cumulatively to each leaf in a
+    nested JSON structure, from left to right, so as to reduce the
+    sequence to a single value.
+    """
+    if initial is ...:
+        return reduce(func, json_iter_leaves(value))  # type: ignore[arg-type]
+
+    return reduce(
+        func,  # type: ignore[arg-type]
+        json_iter_leaves(value),
+        initial,
+    )
+
+
+def json_count_leaves(value: JSONTree[_T]) -> int:
+    """Count the number of leaves in a nested JSON structure."""
+    return sum(1 for _ in json_iter_leaves(value))
diff --git a/utils/math_utils.py b/utils/math_utils.py
new file mode 100644
index 0000000..bdfa5fd
--- /dev/null
+++ b/utils/math_utils.py
@@ -0,0 +1,32 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Math utility functions for vLLM."""
+
+
+def cdiv(a: int, b: int) -> int:
+    """Ceiling division."""
+    return -(a // -b)
+
+
+def next_power_of_2(n: int) -> int:
+    """The next power of 2 (inclusive)"""
+    if n < 1:
+        return 1
+    return 1 << (n - 1).bit_length()
+
+
+def prev_power_of_2(n: int) -> int:
+    """The previous power of 2 (inclusive)"""
+    if n <= 0:
+        return 0
+    return 1 << (n.bit_length() - 1)
+
+
+def round_up(x: int, y: int) -> int:
+    """Round up x to the nearest multiple of y."""
+    return ((x + y - 1) // y) * y
+
+
+def round_down(x: int, y: int) -> int:
+    """Round down x to the nearest multiple of y."""
+    return (x // y) * y
diff --git a/utils/mem_constants.py b/utils/mem_constants.py
new file mode 100644
index 0000000..62b725f
--- /dev/null
+++ b/utils/mem_constants.py
@@ -0,0 +1,13 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+MB_bytes = 1_000_000
+"""The number of bytes in one megabyte (MB)."""
+
+MiB_bytes = 1 << 20
+"""The number of bytes in one mebibyte (MiB)."""
+
+GB_bytes = 1_000_000_000
+"""The number of bytes in one gigabyte (GB)."""
+
+GiB_bytes = 1 << 30
+"""The number of bytes in one gibibyte (GiB)."""
diff --git a/utils/mem_utils.py b/utils/mem_utils.py
new file mode 100644
index 0000000..c6a6757
--- /dev/null
+++ b/utils/mem_utils.py
@@ -0,0 +1,232 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import gc
+import time
+from collections.abc import Generator
+from dataclasses import dataclass, field
+from functools import cache
+
+import psutil
+import torch
+import torch.types
+
+from .mem_constants import GiB_bytes
+
+
+@cache
+def get_max_shared_memory_bytes(gpu: int = 0) -> int:
+    """Returns the maximum shared memory per thread block in bytes."""
+    from vllm import _custom_ops as ops
+
+    max_shared_mem = ops.get_max_shared_memory_per_block_device_attribute(gpu)
+    # value 0 will cause MAX_SEQ_LEN become negative and test_attention.py
+    # will fail
+    assert max_shared_mem > 0, "max_shared_mem can not be zero"
+    return int(max_shared_mem)
+
+
+def get_cpu_memory() -> int:
+    """Returns the total CPU memory of the node in bytes."""
+    return psutil.virtual_memory().total
+
+
+class DeviceMemoryProfiler:
+    def __init__(self, device: torch.types.Device | None = None):
+        self.device = device
+
+    def current_memory_usage(self) -> float:
+        # Return the memory usage in bytes.
+        from vllm.platforms import current_platform
+
+        gc.collect()
+        return current_platform.get_current_memory_usage(self.device)
+
+    def __enter__(self):
+        self.initial_memory = self.current_memory_usage()
+        # This allows us to call methods of the context manager if needed
+        return self
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        self.final_memory = self.current_memory_usage()
+        self.consumed_memory = self.final_memory - self.initial_memory
+
+        # Force garbage collection
+        gc.collect()
+
+
+@dataclass
+class MemorySnapshot:
+    """Memory snapshot."""
+
+    torch_peak: int = 0
+    free_memory: int = 0
+    total_memory: int = 0
+    cuda_memory: int = 0
+    torch_memory: int = 0
+    non_torch_memory: int = 0
+    timestamp: float = 0.0
+    auto_measure: bool = True
+
+    def __post_init__(self):
+        if self.auto_measure:
+            self.measure()
+
+    def measure(self):
+        from vllm.platforms import current_platform
+
+        # we measure the torch peak memory usage via allocated_bytes,
+        # rather than `torch.cuda.memory_reserved()` .
+        # After `torch.cuda.reset_peak_memory_stats()`,
+        # `torch.cuda.memory_reserved()` will keep growing, and only shrink
+        # when we call `torch.cuda.empty_cache()` or OOM happens.
+        self.torch_peak = torch.cuda.memory_stats().get("allocated_bytes.all.peak", 0)
+
+        self.free_memory, self.total_memory = torch.cuda.mem_get_info()
+        shared_sysmem_device_mem_sms = ((8, 7), (11, 0), (12, 1))  # Orin, Thor, Spark
+        if (
+            current_platform.is_cuda()
+            and current_platform.get_device_capability() in shared_sysmem_device_mem_sms
+        ):
+            # On UMA (Orin, Thor and Spark) platform,
+            # where both CPU and GPU rely on system memory,
+            # the cudaMemGetInfo function shows the amount of free system memory
+            # rather than what’s actually available.
+            # In the case,
+            # torch.cuda.mem_get_info() only reports "free" memory,
+            # which can be lower than what is actually
+            # available due to not including cache memory.
+            # There’s also a comprehensive reference page
+            # that explains how you can compute the proper value yourself.
+            # https://docs.nvidia.com/cuda/cuda-for-tegra-appnote/#estimating-total-allocatable-device-memory-on-an-integrated-gpu-device
+            self.free_memory = psutil.virtual_memory().available
+
+        self.cuda_memory = self.total_memory - self.free_memory
+
+        # torch.cuda.memory_reserved() is how many bytes
+        # PyTorch gets from cuda (by calling cudaMalloc, etc.)
+        # this is used to measure the non-torch memory usage
+        self.torch_memory = torch.cuda.memory_reserved()
+
+        self.non_torch_memory = self.cuda_memory - self.torch_memory
+        self.timestamp = time.time()
+
+    def __sub__(self, other: "MemorySnapshot") -> "MemorySnapshot":
+        return MemorySnapshot(
+            torch_peak=self.torch_peak - other.torch_peak,
+            free_memory=self.free_memory - other.free_memory,
+            total_memory=self.total_memory - other.total_memory,
+            cuda_memory=self.cuda_memory - other.cuda_memory,
+            torch_memory=self.torch_memory - other.torch_memory,
+            non_torch_memory=self.non_torch_memory - other.non_torch_memory,
+            timestamp=self.timestamp - other.timestamp,
+            auto_measure=False,
+        )
+
+
+@dataclass
+class MemoryProfilingResult:
+    """Memory profiling result. All numbers are in bytes."""
+
+    non_kv_cache_memory: int = 0
+    torch_peak_increase: int = 0
+    non_torch_increase: int = 0
+    weights_memory: float = 0
+    before_create: MemorySnapshot = field(default_factory=MemorySnapshot)
+    before_profile: MemorySnapshot = field(default_factory=MemorySnapshot)
+    after_profile: MemorySnapshot = field(default_factory=MemorySnapshot)
+    profile_time: float = 0.0
+
+    def __repr__(self) -> str:
+        return (
+            f"Memory profiling takes {self.profile_time:.2f} seconds. "
+            f"Total non KV cache memory: "
+            f"{(self.non_kv_cache_memory / GiB_bytes):.2f}GiB; "
+            f"torch peak memory increase: "
+            f"{(self.torch_peak_increase / GiB_bytes):.2f}GiB; "
+            f"non-torch forward increase memory: "
+            f"{(self.non_torch_increase / GiB_bytes):.2f}GiB; "
+            f"weights memory: {(self.weights_memory / GiB_bytes):.2f}GiB."
+        )
+
+
+@contextlib.contextmanager
+def memory_profiling(
+    baseline_snapshot: MemorySnapshot, weights_memory: int
+) -> Generator[MemoryProfilingResult, None, None]:
+    """Memory profiling context manager.
+    baseline_snapshot: the memory snapshot before the current vLLM instance.
+    weights_memory: memory used by PyTorch when loading the model weights.
+        Note that, before loading the model weights, we also initialize the device
+        and distributed environment, which may consume some memory. This part is not
+        included in the weights_memory because PyTorch does not control it.
+
+    The memory in one GPU can be classified into 3 categories:
+    1. memory used by anything other than the current vLLM instance.
+    2. memory used by torch in the current vLLM instance.
+    3. memory used in the current vLLM instance, but not by torch.
+
+    A quantitive example:
+
+    Before creating the current vLLM instance:
+        category 1: 1 GiB
+        category 2: 0 GiB
+        category 3: 0 GiB
+
+    After creating the current vLLM instance and loading the model,
+    (i.e. before profiling):
+        category 1: 1 GiB
+        category 2: 2 GiB (model weights take 2 GiB)
+        category 3: 0.5 GiB (memory used by NCCL)
+
+    During profiling (peak):
+        category 1: 1 GiB
+        category 2: 4 GiB (peak activation tensors take 2 GiB)
+        category 3: 1 GiB (memory used by NCCL + buffers for some attention backends)
+
+    After profiling:
+        category 1: 1 GiB
+        category 2: 3 GiB (after garbage-collecting activation tensors)
+        category 3: 1 GiB (memory used by NCCL + buffers for some attention backends)
+
+    In this case, non-kv cache takes 5 GiB in total, including:
+    a. 2 GiB used by the model weights (category 2)
+    b. 2 GiB reserved for the peak activation tensors (category 2)
+    c. 1 GiB used by non-torch components (category 3)
+
+    The memory used for loading weights (a.) is directly given from the argument `weights_memory`.
+
+    The increase of `torch.cuda.memory_stats()["allocated_bytes.all.peak"]` during profiling gives (b.).
+
+    The increase of `non_torch_memory` from creating the current vLLM instance until after profiling to get (c.).
+    """  # noqa
+    gc.collect()
+    torch.cuda.empty_cache()
+    torch.cuda.reset_peak_memory_stats()
+
+    result = MemoryProfilingResult()
+
+    result.before_create = baseline_snapshot
+    # the part of memory used for holding the model weights
+    result.weights_memory = weights_memory
+
+    result.before_profile.measure()
+
+    yield result
+
+    gc.collect()
+    torch.cuda.empty_cache()
+
+    result.after_profile.measure()
+
+    diff_profile = result.after_profile - result.before_profile
+    diff_from_create = result.after_profile - result.before_create
+    result.torch_peak_increase = diff_profile.torch_peak
+    result.non_torch_increase = diff_from_create.non_torch_memory
+    result.profile_time = diff_profile.timestamp
+
+    non_torch_memory = result.non_torch_increase
+    peak_activation_memory = result.torch_peak_increase
+    result.non_kv_cache_memory = (
+        non_torch_memory + peak_activation_memory + result.weights_memory
+    )  # noqa
diff --git a/utils/nccl.py b/utils/nccl.py
new file mode 100644
index 0000000..b1459fc
--- /dev/null
+++ b/utils/nccl.py
@@ -0,0 +1,64 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from __future__ import annotations
+
+import importlib
+import os
+
+import torch
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def find_nccl_library() -> str:
+    """Return NCCL/RCCL shared library name to load.
+
+    Uses `VLLM_NCCL_SO_PATH` if set; otherwise chooses by torch backend.
+    """
+    so_file = envs.VLLM_NCCL_SO_PATH
+    if so_file:
+        logger.info(
+            "Found nccl from environment variable VLLM_NCCL_SO_PATH=%s", so_file
+        )
+    else:
+        if torch.version.cuda is not None:
+            so_file = "libnccl.so.2"
+        elif torch.version.hip is not None:
+            so_file = "librccl.so.1"
+        else:
+            raise ValueError("NCCL only supports CUDA and ROCm backends.")
+        logger.debug_once("Found nccl from library %s", so_file)
+    return so_file
+
+
+def find_nccl_include_paths() -> list[str] | None:
+    """Return possible include paths containing `nccl.h`.
+
+    Considers `VLLM_NCCL_INCLUDE_PATH` and the `nvidia-nccl-cuXX` package.
+    """
+    paths: list[str] = []
+    inc = envs.VLLM_NCCL_INCLUDE_PATH
+    if inc and os.path.isdir(inc):
+        paths.append(inc)
+
+    try:
+        spec = importlib.util.find_spec("nvidia.nccl")
+        if spec and getattr(spec, "submodule_search_locations", None):
+            for loc in spec.submodule_search_locations:
+                inc_dir = os.path.join(loc, "include")
+                if os.path.exists(os.path.join(inc_dir, "nccl.h")):
+                    paths.append(inc_dir)
+    except Exception as e:
+        logger.debug("Failed to find nccl include path from nvidia.nccl package: %s", e)
+
+    seen: set[str] = set()
+    out: list[str] = []
+    for p in paths:
+        if p and p not in seen:
+            out.append(p)
+            seen.add(p)
+    return out or None
diff --git a/utils/network_utils.py b/utils/network_utils.py
new file mode 100644
index 0000000..0a68e48
--- /dev/null
+++ b/utils/network_utils.py
@@ -0,0 +1,331 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import ipaddress
+import os
+import socket
+import sys
+import warnings
+from collections.abc import (
+    Iterator,
+    Sequence,
+)
+from typing import Any
+from urllib.parse import urlparse
+from uuid import uuid4
+
+import psutil
+import zmq
+import zmq.asyncio
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def close_sockets(sockets: Sequence[zmq.Socket | zmq.asyncio.Socket]):
+    for sock in sockets:
+        if sock is not None:
+            sock.close(linger=0)
+
+
+def get_ip() -> str:
+    host_ip = envs.VLLM_HOST_IP
+    if "HOST_IP" in os.environ and "VLLM_HOST_IP" not in os.environ:
+        logger.warning(
+            "The environment variable HOST_IP is deprecated and ignored, as"
+            " it is often used by Docker and other software to"
+            " interact with the container's network stack. Please "
+            "use VLLM_HOST_IP instead to set the IP address for vLLM processes"
+            " to communicate with each other."
+        )
+    if host_ip:
+        return host_ip
+
+    # IP is not set, try to get it from the network interface
+
+    # try ipv4
+    try:
+        with socket.socket(socket.AF_INET, socket.SOCK_DGRAM) as s:
+            s.connect(("8.8.8.8", 80))  # Doesn't need to be reachable
+            return s.getsockname()[0]
+    except Exception:
+        pass
+
+    # try ipv6
+    try:
+        with socket.socket(socket.AF_INET6, socket.SOCK_DGRAM) as s:
+            # Google's public DNS server, see
+            # https://developers.google.com/speed/public-dns/docs/using#addresses
+            s.connect(("2001:4860:4860::8888", 80))  # Doesn't need to be reachable
+            return s.getsockname()[0]
+    except Exception:
+        pass
+
+    warnings.warn(
+        "Failed to get the IP address, using 0.0.0.0 by default."
+        "The value can be set by the environment variable"
+        " VLLM_HOST_IP or HOST_IP.",
+        stacklevel=2,
+    )
+    return "0.0.0.0"
+
+
+def test_loopback_bind(address, family):
+    try:
+        s = socket.socket(family, socket.SOCK_DGRAM)
+        s.bind((address, 0))  # Port 0 = auto assign
+        s.close()
+        return True
+    except OSError:
+        return False
+
+
+def get_loopback_ip() -> str:
+    loopback_ip = envs.VLLM_LOOPBACK_IP
+    if loopback_ip:
+        return loopback_ip
+
+    # VLLM_LOOPBACK_IP is not set, try to get it based on network interface
+
+    if test_loopback_bind("127.0.0.1", socket.AF_INET):
+        return "127.0.0.1"
+    elif test_loopback_bind("::1", socket.AF_INET6):
+        return "::1"
+    else:
+        raise RuntimeError(
+            "Neither 127.0.0.1 nor ::1 are bound to a local interface. "
+            "Set the VLLM_LOOPBACK_IP environment variable explicitly."
+        )
+
+
+def is_valid_ipv6_address(address: str) -> bool:
+    try:
+        ipaddress.IPv6Address(address)
+        return True
+    except ValueError:
+        return False
+
+
+def split_host_port(host_port: str) -> tuple[str, int]:
+    # ipv6
+    if host_port.startswith("["):
+        host, port = host_port.rsplit("]", 1)
+        host = host[1:]
+        port = port.split(":")[1]
+        return host, int(port)
+    else:
+        host, port = host_port.split(":")
+        return host, int(port)
+
+
+def join_host_port(host: str, port: int) -> str:
+    if is_valid_ipv6_address(host):
+        return f"[{host}]:{port}"
+    else:
+        return f"{host}:{port}"
+
+
+def get_distributed_init_method(ip: str, port: int) -> str:
+    return get_tcp_uri(ip, port)
+
+
+def get_tcp_uri(ip: str, port: int) -> str:
+    if is_valid_ipv6_address(ip):
+        return f"tcp://[{ip}]:{port}"
+    else:
+        return f"tcp://{ip}:{port}"
+
+
+def get_open_zmq_ipc_path() -> str:
+    base_rpc_path = envs.VLLM_RPC_BASE_PATH
+    return f"ipc://{base_rpc_path}/{uuid4()}"
+
+
+def get_open_zmq_inproc_path() -> str:
+    return f"inproc://{uuid4()}"
+
+
+def get_open_port() -> int:
+    """
+    Get an open port for the vLLM process to listen on.
+    An edge case to handle, is when we run data parallel,
+    we need to avoid ports that are potentially used by
+    the data parallel master process.
+    Right now we reserve 10 ports for the data parallel master
+    process. Currently it uses 2 ports.
+    """
+    if "VLLM_DP_MASTER_PORT" in os.environ:
+        dp_master_port = envs.VLLM_DP_MASTER_PORT
+        reserved_port_range = range(dp_master_port, dp_master_port + 10)
+        while True:
+            candidate_port = _get_open_port()
+            if candidate_port not in reserved_port_range:
+                return candidate_port
+    return _get_open_port()
+
+
+def get_open_ports_list(count: int = 5) -> list[int]:
+    """Get a list of open ports."""
+    ports = set[int]()
+    while len(ports) < count:
+        ports.add(get_open_port())
+    return list(ports)
+
+
+def _get_open_port() -> int:
+    port = envs.VLLM_PORT
+    if port is not None:
+        while True:
+            try:
+                with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
+                    s.bind(("", port))
+                    return port
+            except OSError:
+                port += 1  # Increment port number if already in use
+                logger.info("Port %d is already in use, trying port %d", port - 1, port)
+    # try ipv4
+    try:
+        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
+            s.bind(("", 0))
+            return s.getsockname()[1]
+    except OSError:
+        # try ipv6
+        with socket.socket(socket.AF_INET6, socket.SOCK_STREAM) as s:
+            s.bind(("", 0))
+            return s.getsockname()[1]
+
+
+def find_process_using_port(port: int) -> psutil.Process | None:
+    # TODO: We can not check for running processes with network
+    # port on macOS. Therefore, we can not have a full graceful shutdown
+    # of vLLM. For now, let's not look for processes in this case.
+    # Ref: https://www.florianreinhard.de/accessdenied-in-psutil/
+    if sys.platform.startswith("darwin"):
+        return None
+
+    our_pid = os.getpid()
+    for conn in psutil.net_connections():
+        if conn.laddr.port == port and (conn.pid is not None and conn.pid != our_pid):
+            try:
+                return psutil.Process(conn.pid)
+            except psutil.NoSuchProcess:
+                return None
+    return None
+
+
+def split_zmq_path(path: str) -> tuple[str, str, str]:
+    """Split a zmq path into its parts."""
+    parsed = urlparse(path)
+    if not parsed.scheme:
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    scheme = parsed.scheme
+    host = parsed.hostname or ""
+    port = str(parsed.port or "")
+
+    if scheme == "tcp" and not all((host, port)):
+        # The host and port fields are required for tcp
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    if scheme != "tcp" and port:
+        # port only makes sense with tcp
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    return scheme, host, port
+
+
+def make_zmq_path(scheme: str, host: str, port: int | None = None) -> str:
+    """Make a ZMQ path from its parts.
+
+    Args:
+        scheme: The ZMQ transport scheme (e.g. tcp, ipc, inproc).
+        host: The host - can be an IPv4 address, IPv6 address, or hostname.
+        port: Optional port number, only used for TCP sockets.
+
+    Returns:
+        A properly formatted ZMQ path string.
+    """
+    if port is None:
+        return f"{scheme}://{host}"
+    if is_valid_ipv6_address(host):
+        return f"{scheme}://[{host}]:{port}"
+    return f"{scheme}://{host}:{port}"
+
+
+# Adapted from: https://github.com/sgl-project/sglang/blob/v0.4.1/python/sglang/srt/utils.py#L783 # noqa: E501
+def make_zmq_socket(
+    ctx: zmq.asyncio.Context | zmq.Context,  # type: ignore[name-defined]
+    path: str,
+    socket_type: Any,
+    bind: bool | None = None,
+    identity: bytes | None = None,
+    linger: int | None = None,
+) -> zmq.Socket | zmq.asyncio.Socket:  # type: ignore[name-defined]
+    """Make a ZMQ socket with the proper bind/connect semantics."""
+
+    mem = psutil.virtual_memory()
+    socket = ctx.socket(socket_type)
+
+    # Calculate buffer size based on system memory
+    total_mem = mem.total / 1024**3
+    available_mem = mem.available / 1024**3
+    # For systems with substantial memory (>32GB total, >16GB available):
+    # - Set a large 0.5GB buffer to improve throughput
+    # For systems with less memory:
+    # - Use system default (-1) to avoid excessive memory consumption
+    buf_size = int(0.5 * 1024**3) if total_mem > 32 and available_mem > 16 else -1
+
+    if bind is None:
+        bind = socket_type not in (zmq.PUSH, zmq.SUB, zmq.XSUB)
+
+    if socket_type in (zmq.PULL, zmq.DEALER, zmq.ROUTER):
+        socket.setsockopt(zmq.RCVHWM, 0)
+        socket.setsockopt(zmq.RCVBUF, buf_size)
+
+    if socket_type in (zmq.PUSH, zmq.DEALER, zmq.ROUTER):
+        socket.setsockopt(zmq.SNDHWM, 0)
+        socket.setsockopt(zmq.SNDBUF, buf_size)
+
+    if identity is not None:
+        socket.setsockopt(zmq.IDENTITY, identity)
+
+    if linger is not None:
+        socket.setsockopt(zmq.LINGER, linger)
+
+    if socket_type == zmq.XPUB:
+        socket.setsockopt(zmq.XPUB_VERBOSE, True)
+
+    # Determine if the path is a TCP socket with an IPv6 address.
+    # Enable IPv6 on the zmq socket if so.
+    scheme, host, _ = split_zmq_path(path)
+    if scheme == "tcp" and is_valid_ipv6_address(host):
+        socket.setsockopt(zmq.IPV6, 1)
+
+    if bind:
+        socket.bind(path)
+    else:
+        socket.connect(path)
+
+    return socket
+
+
+@contextlib.contextmanager
+def zmq_socket_ctx(
+    path: str,
+    socket_type: Any,
+    bind: bool | None = None,
+    linger: int = 0,
+    identity: bytes | None = None,
+) -> Iterator[zmq.Socket]:
+    """Context manager for a ZMQ socket"""
+
+    ctx = zmq.Context()  # type: ignore[attr-defined]
+    try:
+        yield make_zmq_socket(ctx, path, socket_type, bind=bind, identity=identity)
+    except KeyboardInterrupt:
+        logger.debug("Got Keyboard Interrupt.")
+
+    finally:
+        ctx.destroy(linger=linger)
diff --git a/utils/platform_utils.py b/utils/platform_utils.py
new file mode 100644
index 0000000..433c673
--- /dev/null
+++ b/utils/platform_utils.py
@@ -0,0 +1,59 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import multiprocessing
+from collections.abc import Sequence
+from concurrent.futures.process import ProcessPoolExecutor
+from functools import cache
+from typing import Any
+
+import torch
+
+
+def cuda_is_initialized() -> bool:
+    """Check if CUDA is initialized."""
+    if not torch.cuda._is_compiled():
+        return False
+    return torch.cuda.is_initialized()
+
+
+def xpu_is_initialized() -> bool:
+    """Check if XPU is initialized."""
+    if not torch.xpu._is_compiled():
+        return False
+    return torch.xpu.is_initialized()
+
+
+def get_cu_count(device_id: int = 0) -> int:
+    """Returns the total number of compute units (CU) on single GPU."""
+    return torch.cuda.get_device_properties(device_id).multi_processor_count
+
+
+def cuda_get_device_properties(
+    device, names: Sequence[str], init_cuda=False
+) -> tuple[Any, ...]:
+    """Get specified CUDA device property values without initializing CUDA in
+    the current process."""
+    if init_cuda or cuda_is_initialized():
+        props = torch.cuda.get_device_properties(device)
+        return tuple(getattr(props, name) for name in names)
+
+    # Run in subprocess to avoid initializing CUDA as a side effect.
+    mp_ctx = multiprocessing.get_context("fork")
+    with ProcessPoolExecutor(max_workers=1, mp_context=mp_ctx) as executor:
+        return executor.submit(cuda_get_device_properties, device, names, True).result()
+
+
+@cache
+def is_pin_memory_available() -> bool:
+    from vllm.platforms import current_platform
+
+    return current_platform.is_pin_memory_available()
+
+
+@cache
+def is_uva_available() -> bool:
+    """Check if Unified Virtual Addressing (UVA) is available."""
+    # UVA requires pinned memory.
+    # TODO: Add more requirements for UVA if needed.
+    return is_pin_memory_available()
diff --git a/utils/profiling.py b/utils/profiling.py
new file mode 100644
index 0000000..b669106
--- /dev/null
+++ b/utils/profiling.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from __future__ import annotations
+
+import contextlib
+from collections.abc import Callable
+from functools import wraps
+from typing import Any
+
+
+@contextlib.contextmanager
+def cprofile_context(save_file: str | None = None):
+    """Run a cprofile
+
+    Args:
+        save_file: path to save the profile result. "1" or
+            None will result in printing to stdout.
+    """
+    import cProfile
+
+    prof = cProfile.Profile()
+    prof.enable()
+
+    try:
+        yield
+    finally:
+        prof.disable()
+        if save_file and save_file != "1":
+            prof.dump_stats(save_file)
+        else:
+            prof.print_stats(sort="cumtime")
+
+
+def cprofile(save_file: str | None = None, enabled: bool = True):
+    """Decorator to profile a Python method using cProfile.
+
+    Args:
+        save_file: Path to save the profile result.
+            If "1", None, or "", results will be printed to stdout.
+        enabled: Set to false to turn this into a no-op
+    """
+
+    def decorator(func: Callable):
+        @wraps(func)
+        def wrapper(*args: Any, **kwargs: Any):
+            if not enabled:
+                # If profiling is disabled, just call the function directly.
+                return func(*args, **kwargs)
+
+            with cprofile_context(save_file):
+                return func(*args, **kwargs)
+
+        return wrapper
+
+    return decorator
diff --git a/utils/registry.py b/utils/registry.py
new file mode 100644
index 0000000..ac9b859
--- /dev/null
+++ b/utils/registry.py
@@ -0,0 +1,49 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+
+class ExtensionManager:
+    """
+    A registry for managing pluggable extension classes.
+
+    This class provides a simple mechanism to register and instantiate
+    extension classes by name. It is commonly used to implement plugin
+    systems where different implementations can be swapped at runtime.
+
+    Examples:
+        Basic usage with a registry instance:
+
+        >>> FOO_REGISTRY = ExtensionManager()
+        >>> @FOO_REGISTRY.register("my_foo_impl")
+        ... class MyFooImpl(Foo):
+        ...     def __init__(self, value):
+        ...         self.value = value
+        >>> foo_impl = FOO_REGISTRY.load("my_foo_impl", value=123)
+
+    """
+
+    def __init__(self) -> None:
+        """
+        Initialize an empty extension registry.
+        """
+        self.name2class: dict[str, type] = {}
+
+    def register(self, name: str):
+        """
+        Decorator to register a class with the given name.
+        """
+
+        def wrap(cls_to_register):
+            self.name2class[name] = cls_to_register
+            return cls_to_register
+
+        return wrap
+
+    def load(self, cls_name: str, *args, **kwargs) -> Any:
+        """
+        Instantiate and return a registered extension class by name.
+        """
+        cls = self.name2class.get(cls_name)
+        assert cls is not None, f"Extension class {cls_name} not found"
+        return cls(*args, **kwargs)
diff --git a/utils/serial_utils.py b/utils/serial_utils.py
new file mode 100644
index 0000000..b89fa6c
--- /dev/null
+++ b/utils/serial_utils.py
@@ -0,0 +1,169 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import base64
+import sys
+from dataclasses import dataclass
+from typing import Literal
+
+import numpy as np
+import torch
+from typing_extensions import assert_never
+
+from vllm import PoolingRequestOutput
+
+sys_byteorder = sys.byteorder
+
+
+EMBED_DTYPE_TO_TORCH_DTYPE = {
+    "float32": torch.float32,
+    "float16": torch.float16,
+    "bfloat16": torch.bfloat16,
+    # I'm not sure if other platforms' CPUs support the fp8 data format.
+    # EMBED_DTYPE only uses the fp8 data representation,
+    # does not use fp8 computation, and only occurs on the CPU.
+    # Apologize for any possible break.
+    "fp8_e4m3": torch.float8_e4m3fn,
+    "fp8_e5m2": torch.float8_e5m2,
+}
+
+
+EMBED_DTYPE_TO_TORCH_DTYPE_VIEW = {
+    "float32": torch.float32,
+    "float16": torch.float16,
+    # numpy does not support bfloat16 and fp8
+    "bfloat16": torch.float16,
+    "fp8_e4m3": torch.uint8,
+    "fp8_e5m2": torch.uint8,
+}
+
+EMBED_DTYPE_TO_NUMPY_DTYPE_VIEW = {
+    "float32": np.float32,
+    "float16": np.float16,
+    # numpy does not support bfloat16 and fp8
+    "bfloat16": np.float16,
+    "fp8_e4m3": np.uint8,
+    "fp8_e5m2": np.uint8,
+}
+
+ENDIANNESS = ["native", "big", "little"]
+
+EmbedDType = Literal["float32", "float16", "bfloat16", "fp8_e4m3", "fp8_e5m2"]
+Endianness = Literal["native", "big", "little"]
+EncodingFormat = Literal["float", "base64", "bytes"]
+
+
+def tensor2binary(
+    tensor: torch.Tensor, embed_dtype: EmbedDType, endianness: Endianness
+) -> bytes:
+    assert isinstance(tensor, torch.Tensor)
+    assert embed_dtype in EMBED_DTYPE_TO_TORCH_DTYPE
+    assert endianness in ENDIANNESS
+
+    torch_dtype = EMBED_DTYPE_TO_TORCH_DTYPE[embed_dtype]
+    torch_view_dtype = EMBED_DTYPE_TO_TORCH_DTYPE_VIEW[embed_dtype]
+
+    np_array = (
+        tensor.to(torch_dtype).flatten().contiguous().view(torch_view_dtype).numpy()
+    )
+
+    if endianness != "native" and endianness != sys_byteorder:
+        np_array = np_array.byteswap()
+
+    return np_array.tobytes()
+
+
+def binary2tensor(
+    binary: bytes,
+    shape: tuple[int, ...],
+    embed_dtype: EmbedDType,
+    endianness: Endianness,
+) -> torch.Tensor:
+    assert embed_dtype in EMBED_DTYPE_TO_TORCH_DTYPE
+    assert embed_dtype in EMBED_DTYPE_TO_NUMPY_DTYPE_VIEW
+    assert endianness in ENDIANNESS
+
+    torch_dtype = EMBED_DTYPE_TO_TORCH_DTYPE[embed_dtype]
+    np_dtype = EMBED_DTYPE_TO_NUMPY_DTYPE_VIEW[embed_dtype]
+
+    np_array = np.frombuffer(binary, dtype=np_dtype).reshape(shape)
+
+    if endianness != "native" and endianness != sys_byteorder:
+        np_array = np_array.byteswap()
+
+    return torch.from_numpy(np_array).view(torch_dtype)
+
+
+def encode_pooling_output(
+    output: PoolingRequestOutput,
+    encoding_format: EncodingFormat,
+    embed_dtype: EmbedDType,
+    endianness: Endianness,
+) -> list[float] | str | bytes:
+    if encoding_format == "float":
+        return output.outputs.data.tolist()
+    elif encoding_format == "base64":
+        embedding_bytes = tensor2binary(output.outputs.data, embed_dtype, endianness)
+        return base64.b64encode(embedding_bytes).decode("utf-8")
+    elif encoding_format == "bytes":
+        return tensor2binary(output.outputs.data, embed_dtype, endianness)
+    assert_never(encoding_format)
+
+
+@dataclass
+class MetadataItem:
+    index: int
+    embed_dtype: EmbedDType
+    endianness: Endianness
+    start: int
+    end: int
+    shape: tuple[int, ...]
+
+
+def encode_pooling_bytes(
+    pooling_outputs: list[PoolingRequestOutput],
+    embed_dtype: EmbedDType,
+    endianness: Endianness,
+):
+    num_prompt_tokens = 0
+    items: list[dict[str, MetadataItem]] = []
+    body = []
+    offset = 0
+    for idx, output in enumerate(pooling_outputs):
+        binary = tensor2binary(
+            tensor=output.outputs.data,
+            embed_dtype=embed_dtype,
+            endianness=endianness,
+        )
+        size = len(binary)
+
+        item = {
+            "index": idx,
+            "embed_dtype": embed_dtype,
+            "endianness": endianness,
+            "start": offset,
+            "end": offset + size,
+            "shape": output.outputs.data.shape,
+        }
+
+        body.append(binary)
+        items.append(item)
+        prompt_token_ids = output.prompt_token_ids
+        num_prompt_tokens += len(prompt_token_ids)
+        offset += size
+
+    usage = {
+        "prompt_tokens": num_prompt_tokens,
+        "total_tokens": num_prompt_tokens,
+    }
+    return body, items, usage
+
+
+def decode_pooling_output(items: list[MetadataItem], body: bytes) -> list[torch.Tensor]:
+    items.sort(key=lambda x: x.index)
+
+    tensor_list: list[torch.Tensor] = []
+    for item in items:
+        binary = body[item.start : item.end]
+        tensor = binary2tensor(binary, item.shape, item.embed_dtype, item.endianness)
+        tensor_list.append(tensor)
+    return tensor_list
diff --git a/utils/system_utils.py b/utils/system_utils.py
new file mode 100644
index 0000000..5968884
--- /dev/null
+++ b/utils/system_utils.py
@@ -0,0 +1,229 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from __future__ import annotations
+
+import contextlib
+import multiprocessing
+import os
+import signal
+import sys
+from collections.abc import Callable, Iterator
+from pathlib import Path
+from typing import TextIO
+
+import psutil
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.ray.lazy_utils import is_in_ray_actor
+
+from .platform_utils import cuda_is_initialized, xpu_is_initialized
+
+logger = init_logger(__name__)
+
+CYAN = "\033[1;36m"
+RESET = "\033[0;0m"
+
+
+# Environment variable utilities
+
+
+def update_environment_variables(envs_dict: dict[str, str]):
+    """Update multiple environment variables with logging."""
+    for k, v in envs_dict.items():
+        if k in os.environ and os.environ[k] != v:
+            logger.warning(
+                "Overwriting environment variable %s from '%s' to '%s'",
+                k,
+                os.environ[k],
+                v,
+            )
+        os.environ[k] = v
+
+
+@contextlib.contextmanager
+def set_env_var(key: str, value: str) -> Iterator[None]:
+    """Temporarily set an environment variable."""
+    old = os.environ.get(key)
+    os.environ[key] = value
+    try:
+        yield
+    finally:
+        if old is None:
+            os.environ.pop(key, None)
+        else:
+            os.environ[key] = old
+
+
+# File path utilities
+
+
+def unique_filepath(fn: Callable[[int], Path]) -> Path:
+    """Generate a unique file path by trying incrementing integers.
+
+    Note: This function has a TOCTOU race condition.
+    Caller should use atomic operations (e.g., open with 'x' mode)
+    when creating the file to ensure thread safety.
+    """
+    i = 0
+    while True:
+        p = fn(i)
+        if not p.exists():
+            return p
+        i += 1
+
+
+# Process management utilities
+
+
+def _maybe_force_spawn():
+    """Check if we need to force the use of the `spawn` multiprocessing start
+    method.
+    """
+    if os.environ.get("VLLM_WORKER_MULTIPROC_METHOD") == "spawn":
+        return
+
+    reasons = []
+    if is_in_ray_actor():
+        # even if we choose to spawn, we need to pass the ray address
+        # to the subprocess so that it knows how to connect to the ray cluster.
+        # env vars are inherited by subprocesses, even if we use spawn.
+        import ray
+
+        os.environ["RAY_ADDRESS"] = ray.get_runtime_context().gcs_address
+        reasons.append("In a Ray actor and can only be spawned")
+
+    if cuda_is_initialized():
+        reasons.append("CUDA is initialized")
+    elif xpu_is_initialized():
+        reasons.append("XPU is initialized")
+
+    if reasons:
+        logger.warning(
+            "We must use the `spawn` multiprocessing start method. "
+            "Overriding VLLM_WORKER_MULTIPROC_METHOD to 'spawn'. "
+            "See https://docs.vllm.ai/en/latest/usage/"
+            "troubleshooting.html#python-multiprocessing "
+            "for more information. Reasons: %s",
+            "; ".join(reasons),
+        )
+        os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+
+
+def get_mp_context():
+    """Get a multiprocessing context with a particular method (spawn or fork).
+    By default we follow the value of the VLLM_WORKER_MULTIPROC_METHOD to
+    determine the multiprocessing method (default is fork). However, under
+    certain conditions, we may enforce spawn and override the value of
+    VLLM_WORKER_MULTIPROC_METHOD.
+    """
+    _maybe_force_spawn()
+    mp_method = envs.VLLM_WORKER_MULTIPROC_METHOD
+    return multiprocessing.get_context(mp_method)
+
+
+def set_process_title(
+    name: str,
+    suffix: str = "",
+    prefix: str = envs.VLLM_PROCESS_NAME_PREFIX,
+) -> None:
+    """Set the current process title with optional suffix."""
+    try:
+        import setproctitle
+    except ImportError:
+        return
+
+    if suffix:
+        name = f"{name}_{suffix}"
+
+    setproctitle.setproctitle(f"{prefix}::{name}")
+
+
+def _add_prefix(file: TextIO, worker_name: str, pid: int) -> None:
+    """Add colored prefix to file output for log decoration."""
+    prefix = f"{CYAN}({worker_name} pid={pid}){RESET} "
+    file_write = file.write
+
+    def write_with_prefix(s: str):
+        if not s:
+            return
+        if file.start_new_line:  # type: ignore[attr-defined]
+            file_write(prefix)
+        idx = 0
+        while (next_idx := s.find("\n", idx)) != -1:
+            next_idx += 1
+            file_write(s[idx:next_idx])
+            if next_idx == len(s):
+                file.start_new_line = True  # type: ignore[attr-defined]
+                return
+            file_write(prefix)
+            idx = next_idx
+        file_write(s[idx:])
+        file.start_new_line = False  # type: ignore[attr-defined]
+
+    file.start_new_line = True  # type: ignore[attr-defined]
+    file.write = write_with_prefix  # type: ignore[method-assign]
+
+
+def decorate_logs(process_name: str | None = None) -> None:
+    """Decorate stdout/stderr with process name and PID prefix."""
+    if process_name is None:
+        process_name = get_mp_context().current_process().name
+
+    pid = os.getpid()
+    _add_prefix(sys.stdout, process_name, pid)
+    _add_prefix(sys.stderr, process_name, pid)
+
+
+def kill_process_tree(pid: int):
+    """
+    Kills all descendant processes of the given pid by sending SIGKILL.
+
+    Args:
+        pid (int): Process ID of the parent process
+    """
+    try:
+        parent = psutil.Process(pid)
+    except psutil.NoSuchProcess:
+        return
+
+    # Get all children recursively
+    children = parent.children(recursive=True)
+
+    # Send SIGKILL to all children first
+    for child in children:
+        with contextlib.suppress(ProcessLookupError):
+            os.kill(child.pid, signal.SIGKILL)
+
+    # Finally kill the parent
+    with contextlib.suppress(ProcessLookupError):
+        os.kill(pid, signal.SIGKILL)
+
+
+# Resource utilities
+
+
+# Adapted from: https://github.com/sgl-project/sglang/blob/v0.4.1/python/sglang/srt/utils.py#L630
+def set_ulimit(target_soft_limit: int = 65535):
+    if sys.platform.startswith("win"):
+        logger.info("Windows detected, skipping ulimit adjustment.")
+        return
+
+    import resource
+
+    resource_type = resource.RLIMIT_NOFILE
+    current_soft, current_hard = resource.getrlimit(resource_type)
+
+    if current_soft < target_soft_limit:
+        try:
+            resource.setrlimit(resource_type, (target_soft_limit, current_hard))
+        except ValueError as e:
+            logger.warning(
+                "Found ulimit of %s and failed to automatically increase "
+                "with error %s. This can cause fd limit errors like "
+                "`OSError: [Errno 24] Too many open files`. Consider "
+                "increasing with ulimit -n",
+                current_soft,
+                e,
+            )
diff --git a/utils/tensor_schema.py b/utils/tensor_schema.py
new file mode 100644
index 0000000..526dfd3
--- /dev/null
+++ b/utils/tensor_schema.py
@@ -0,0 +1,255 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from types import UnionType
+from typing import Annotated, Any, Union, get_args, get_origin, get_type_hints
+
+import torch
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class TensorShape:
+    def __init__(
+        self,
+        *dims: int | str,
+        dynamic_dims: set[str] | None = None,
+    ) -> None:
+        super().__init__()
+
+        self.dims = dims
+        self.dynamic_dims = dynamic_dims if dynamic_dims else set()
+
+    def resolve(self, **bindings: int) -> tuple[int | str, ...]:
+        resolved = list[int | str]()
+        for dim in self.dims:
+            if isinstance(dim, str) and dim in bindings:
+                resolved.append(bindings[dim])
+            else:
+                resolved.append(dim)
+        return tuple(resolved)
+
+    def __str__(self) -> str:
+        """Return a string representation of the tensor shape."""
+        dim_strs = []
+        for dim in self.dims:
+            if isinstance(dim, str):
+                if dim in self.dynamic_dims:
+                    dim_strs.append(f"{dim}*")  # Mark dynamic dimensions with *
+                else:
+                    dim_strs.append(dim)
+            else:
+                dim_strs.append(str(dim))
+        return f"({', '.join(dim_strs)})"
+
+
+class TensorSchema:
+    def __init__(
+        self,
+        *,
+        validate: bool = True,
+        resolve_bindings: dict[str, int] | None = None,
+        **kwargs: Any,
+    ) -> None:
+        super().__init__()
+
+        self._resolve_bindings = resolve_bindings if resolve_bindings else {}
+
+        for key, value in kwargs.items():
+            setattr(self, key, value)
+
+        if validate:
+            self.validate()
+
+    def __getitem__(self, key: str) -> Any:
+        return getattr(self, key)
+
+    def get(self, key: str, default: Any = None) -> Any:
+        return getattr(self, key, default)
+
+    def _match_shape_with_dynamic(
+        self,
+        actual: tuple[int, ...],
+        reference: tuple[int, ...],
+        expected_shape: tuple[int | str, ...],
+        dynamic_dims: set[str],
+    ) -> bool:
+        if len(actual) != len(reference) or len(actual) > len(expected_shape):
+            return False
+
+        for i, (a, r) in enumerate(zip(actual, reference)):
+            # When validating list inputs, we match shape suffixes only
+            # (e.g. "p", 3, "h", "w"), assuming the list length corresponds
+            # to the leading symbolic dim (e.g. "bn"). This allows comparing
+            # only the trailing dimensions of each element in the list.
+            dim = expected_shape[-len(actual) + i]
+            # Skip this dimension if it's marked dynamic
+            if dim in dynamic_dims:
+                continue
+            if a != r:
+                return False
+        return True
+
+    def _fmt_indexer(self, idxs: tuple[int, ...]) -> str:
+        if not idxs:
+            return ""
+
+        return str(list(idxs))
+
+    def _validate_field(
+        self,
+        value: object,
+        field_name: str,
+        expected_shape: tuple[int | str, ...],
+        dynamic_dims: set[str],
+        leading_idxs: tuple[int, ...] = (),
+    ) -> tuple[int, ...]:
+        """Validate a field and return the actual shape."""
+        if isinstance(value, (int, float)):
+            return ()  # Scalar
+        if isinstance(value, torch.Tensor):
+            return value.shape
+
+        if not isinstance(value, (list, tuple)):
+            raise TypeError(
+                f"{field_name}{self._fmt_indexer(leading_idxs)} is not "
+                f"one of the expected types: int, float, Tensor, list, tuple. "
+                f"Got: {type(value)}"
+            )
+
+        if len(value) == 0:
+            raise ValueError(
+                f"{field_name}{self._fmt_indexer(leading_idxs)} is an empty sequence"
+            )
+
+        # Ensure all tensors in the list have the same
+        # shape, besides dynamic dimensions
+        for i, v in enumerate(value):
+            shape = self._validate_field(
+                v,
+                field_name,
+                expected_shape[1:],
+                dynamic_dims,
+                leading_idxs=leading_idxs + (i,),
+            )
+
+            if i == 0:
+                first_shape = shape
+            elif not self._match_shape_with_dynamic(
+                shape,
+                first_shape,
+                expected_shape,
+                dynamic_dims,
+            ):
+                raise ValueError(
+                    f"{field_name}{self._fmt_indexer(leading_idxs)} "
+                    f"contains inconsistent shapes: {first_shape} "
+                    f"(index 0) vs {shape} (index {i})"
+                )
+
+        # Treat the list as a stacked tensor:
+        # shape = (len(list), *tensor.shape)
+        return (len(value),) + first_shape
+
+    def _validate_tensor_shape_expected(
+        self,
+        actual_shape: tuple[int, ...],
+        expected_shape: tuple[int | str, ...],
+        field_name: str,
+        shape_env: dict[str, int],
+        dynamic_dims: set[str],
+    ) -> None:
+        """Validate that the actual tensor shape matches the expected shape."""
+
+        if len(actual_shape) != len(expected_shape):
+            raise ValueError(
+                f"{field_name} has rank {len(actual_shape)} "
+                f"but expected {len(expected_shape)}. "
+                f"Expected shape: {expected_shape}, "
+                f"but got {actual_shape}"
+            )
+
+        for i, dim in enumerate(expected_shape):
+            if dim in dynamic_dims:
+                continue
+            elif isinstance(dim, int):
+                if actual_shape[i] != dim:
+                    raise ValueError(
+                        f"{field_name} dim[{i}] expected "
+                        f"{dim}, got {actual_shape[i]}. "
+                        f"Expected shape: {expected_shape}, "
+                        f"but got {actual_shape}"
+                    )
+            elif isinstance(dim, str):
+                if dim in shape_env:
+                    if actual_shape[i] != shape_env[dim]:
+                        raise ValueError(
+                            f"{field_name} dim[{i}] expected "
+                            f"'{dim}'={shape_env[dim]}, got "
+                            f"{actual_shape[i]}"
+                        )
+                else:
+                    shape_env[dim] = actual_shape[i]
+            else:
+                raise TypeError(
+                    f"{field_name} dim[{i}] has unsupported type: {type(dim)}"
+                )
+
+    def validate(self) -> None:
+        type_hints = get_type_hints(self.__class__, include_extras=True)
+        shape_env = dict[str, int]()
+
+        for field_name, field_type in type_hints.items():
+            # Check if field is missing
+            if not hasattr(self, field_name) or getattr(self, field_name) is None:
+                # Check if field is marked as optional
+                actual_type = field_type
+                if get_origin(field_type) is Annotated:
+                    args = get_args(field_type)
+                    actual_type = args[0]
+
+                # Check arg was provided as Union
+                if get_origin(actual_type) in {Union, UnionType}:
+                    # Union for Union[X, Y] and UnionType for X | Y
+                    args = get_args(actual_type)
+                    # Skip validation when Union contains None
+                    if type(None) in args:
+                        continue
+                # Otherwise field is required, raise error
+                raise ValueError(f"Required field '{field_name}' is missing")
+
+            # Field exists, proceed with validation
+            value = getattr(self, field_name)
+            if get_origin(field_type) is not None:
+                args = get_args(field_type)
+
+                for arg in args:
+                    if isinstance(arg, TensorShape):
+                        expected_shape = arg.resolve(**self._resolve_bindings)
+                        actual_shape = self._validate_field(
+                            value,
+                            field_name,
+                            expected_shape,
+                            arg.dynamic_dims,
+                        )
+
+                        self._validate_tensor_shape_expected(
+                            actual_shape,
+                            expected_shape,
+                            field_name,
+                            shape_env,
+                            arg.dynamic_dims,
+                        )
+
+    def print_shapes(self) -> None:
+        """Print TensorShape annotations for debugging."""
+        logger.debug("Shapes in %s:", self.__class__.__name__)
+        type_hints = get_type_hints(self.__class__, include_extras=True)
+
+        for field_name, field_type in type_hints.items():
+            if get_origin(field_type) is not None:
+                args = get_args(field_type)
+                for arg in args:
+                    if isinstance(arg, TensorShape):
+                        logger.debug("  %s: %s", field_name, str(arg))
diff --git a/utils/torch_utils.py b/utils/torch_utils.py
new file mode 100644
index 0000000..dfd56d8
--- /dev/null
+++ b/utils/torch_utils.py
@@ -0,0 +1,658 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+import importlib.metadata
+import os
+import threading
+from collections.abc import Callable, Collection
+from functools import lru_cache
+from typing import TYPE_CHECKING, Any, TypeVar
+
+import numpy as np
+import numpy.typing as npt
+import torch
+from packaging import version
+from packaging.version import Version
+from torch.library import Library
+
+import vllm.envs as envs
+import ixformer.inference.functions as ixfops
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig
+    from vllm.sequence import IntermediateTensors
+else:
+    ModelConfig = object
+    IntermediateTensors = object
+
+
+STR_DTYPE_TO_TORCH_DTYPE = {
+    "float32": torch.float32,
+    "half": torch.half,
+    "bfloat16": torch.bfloat16,
+    "float": torch.float,
+    "fp8": torch.uint8,
+    "fp8_e4m3": torch.uint8,
+    "fp8_e5m2": torch.uint8,
+    "int8": torch.int8,
+    "fp8_inc": torch.float8_e4m3fn,
+    "fp8_ds_mla": torch.uint8,
+}
+
+TORCH_DTYPE_TO_NUMPY_DTYPE = {
+    torch.float16: np.float16,
+    torch.float32: np.float32,
+    torch.float64: np.float64,
+    torch.uint8: np.uint8,
+    torch.int32: np.int32,
+    torch.int64: np.int64,
+}
+
+
+T = TypeVar("T")
+
+
+@contextlib.contextmanager
+def set_default_torch_dtype(dtype: torch.dtype):
+    """Sets the default torch dtype to the given dtype."""
+    old_dtype = torch.get_default_dtype()
+    torch.set_default_dtype(dtype)
+    yield
+    torch.set_default_dtype(old_dtype)
+
+
+@contextlib.contextmanager
+def set_default_torch_num_threads(num_threads: int):
+    """Sets the default number of threads for PyTorch to the given value."""
+    old_num_threads = torch.get_num_threads()
+    torch.set_num_threads(num_threads)
+    yield
+    torch.set_num_threads(old_num_threads)
+
+
+@contextlib.contextmanager
+def guard_cuda_initialization():
+    """Avoid unexpected CUDA initialization."""
+    from vllm.platforms import current_platform
+
+    if not current_platform.is_cuda():
+        yield
+        return
+
+    had_key = "CUDA_VISIBLE_DEVICES" in os.environ
+    old_value = os.environ.get("CUDA_VISIBLE_DEVICES")
+    os.environ["CUDA_VISIBLE_DEVICES"] = ""
+    try:
+        yield
+    except Exception as e:
+        if "No CUDA GPUs are available" in str(e):
+            err_msg = "CUDA initialization is blocked."
+        else:
+            err_msg = str(e)
+        raise RuntimeError(err_msg) from e
+    finally:
+        if had_key:
+            os.environ["CUDA_VISIBLE_DEVICES"] = old_value
+        else:
+            os.environ.pop("CUDA_VISIBLE_DEVICES")
+
+
+def get_dtype_size(dtype: torch.dtype) -> int:
+    """Get the size of the data type in bytes."""
+    return torch.tensor([], dtype=dtype).element_size()
+
+
+# bool = 0, int = 1, float = 2, complex = 3
+def _get_precision_level(dtype: torch.dtype) -> int:
+    # NOTE: Complex dtypes return `is_floating_point=False`
+    return (dtype != torch.bool) + dtype.is_floating_point + dtype.is_complex * 2
+
+
+def is_lossless_cast(src_dtype: torch.dtype, tgt_dtype: torch.dtype):
+    """
+    Test whether it is lossless to cast a tensor from
+    `src_dtype` to `tgt_dtype`.
+    """
+    if src_dtype == tgt_dtype:
+        return True
+
+    src_level = _get_precision_level(src_dtype)
+    tgt_level = _get_precision_level(tgt_dtype)
+
+    if src_level < tgt_level:
+        return True
+    if src_level > tgt_level:
+        return False
+
+    # Compare integral types
+    if not src_dtype.is_floating_point and not src_dtype.is_complex:
+        src_info = torch.iinfo(src_dtype)
+        tgt_info = torch.iinfo(tgt_dtype)
+        return src_info.min >= tgt_info.min and src_info.max <= tgt_info.max
+
+    # Compare floating-point types
+    src_info = torch.finfo(src_dtype)
+    tgt_info = torch.finfo(tgt_dtype)
+    return (
+        src_info.min >= tgt_info.min
+        and src_info.max <= tgt_info.max
+        and src_info.resolution >= tgt_info.resolution
+    )
+
+
+def common_broadcastable_dtype(dtypes: Collection[torch.dtype]):
+    """
+    Get the common `dtype` where all of the other `dtypes` can be
+    cast to it without losing any information.
+    """
+    return max(
+        dtypes,
+        key=lambda dtype: sum(is_lossless_cast(dt, dtype) for dt in dtypes),
+    )
+
+
+def _generate_random_fp8(
+    tensor: torch.Tensor,
+    low: float,
+    high: float,
+) -> None:
+    # NOTE(zhaoyang): Due to NaN and Inf representation for fp8 data type,
+    # it may occur Inf or NaN if we directly use torch.randint
+    # to generate random data for fp8 data.
+    # For example, s.11111.00 in fp8e5m2 format represents Inf.
+    #     | E4M3        | E5M2
+    # -----|-------------|-------------------
+    # Inf | N/A         | s.11111.00
+    # NaN | s.1111.111  | s.11111.{01,10,11}
+    from vllm import _custom_ops as ops
+
+    tensor_tmp = torch.empty_like(tensor, dtype=torch.float16)
+    tensor_tmp.uniform_(low, high)
+    ops.convert_fp8(tensor, tensor_tmp)
+    del tensor_tmp
+
+
+def get_kv_cache_torch_dtype(
+    cache_dtype: str | torch.dtype | None,
+    model_dtype: str | torch.dtype | None = None,
+) -> torch.dtype:
+    if isinstance(cache_dtype, str):
+        if cache_dtype == "auto":
+            if isinstance(model_dtype, str) and model_dtype in STR_DTYPE_TO_TORCH_DTYPE:
+                torch_dtype = STR_DTYPE_TO_TORCH_DTYPE[model_dtype]
+            elif isinstance(model_dtype, torch.dtype):
+                torch_dtype = model_dtype
+            else:
+                raise ValueError(f"Invalid model dtype: {model_dtype}")
+        elif cache_dtype in STR_DTYPE_TO_TORCH_DTYPE:
+            torch_dtype = STR_DTYPE_TO_TORCH_DTYPE[cache_dtype]
+        else:
+            raise ValueError(f"Invalid kv cache dtype: {cache_dtype}")
+    elif isinstance(cache_dtype, torch.dtype):
+        torch_dtype = cache_dtype
+    else:
+        raise ValueError(f"Invalid kv cache dtype: {cache_dtype}")
+    return torch_dtype
+
+
+def kv_cache_dtype_str_to_dtype(
+    kv_cache_dtype: str, model_config: ModelConfig
+) -> torch.dtype:
+    if kv_cache_dtype == "auto":
+        # Model config may not be specified for unit tests, default to float16
+        return model_config.dtype if model_config else torch.half
+    return STR_DTYPE_TO_TORCH_DTYPE[kv_cache_dtype]
+
+
+def create_kv_caches_with_random_flash(
+    num_blocks: int,
+    block_size: int,
+    num_layers: int,
+    num_heads: int,
+    head_size: int,
+    cache_dtype: str | torch.dtype | None,
+    model_dtype: str | torch.dtype | None = None,
+    seed: int | None = None,
+    device: str | None = "cuda",
+    cache_layout: str | None = "NHD",
+) -> tuple[list[torch.Tensor], list[torch.Tensor]]:
+    from vllm.platforms import current_platform
+
+    current_platform.seed_everything(seed)
+
+    dtype = get_kv_cache_torch_dtype(cache_dtype, model_dtype)
+    generic_kv_cache_shape = (num_blocks, 2, block_size, num_heads, head_size)
+    assert cache_layout in ("NHD", "HND")
+    stride_order = (0, 1, 2, 3, 4) if cache_layout == "NHD" else (0, 1, 3, 2, 4)
+
+    kv_cache_allocation_shape = tuple(generic_kv_cache_shape[i] for i in stride_order)
+    scale = head_size**-0.5
+
+    key_caches: list[torch.Tensor] = []
+    value_caches: list[torch.Tensor] = []
+
+    for _ in range(num_layers):
+        key_value_cache = torch.empty(
+            size=kv_cache_allocation_shape, dtype=dtype, device=device
+        ).permute(*stride_order)
+        if cache_dtype in ["auto", "half", "bfloat16", "float"]:
+            key_value_cache.uniform_(-scale, scale)
+        elif cache_dtype == "fp8":
+            _generate_random_fp8(key_value_cache, -scale, scale)
+        else:
+            raise ValueError(f"Does not support key cache of type {cache_dtype}")
+        key_caches.append(key_value_cache[:, 0])
+        value_caches.append(key_value_cache[:, 1])
+    return key_caches, value_caches
+
+
+def create_kv_caches_with_random(
+    num_blocks: int,
+    block_size: int,
+    num_layers: int,
+    num_heads: int,
+    head_size: int,
+    cache_dtype: str | torch.dtype | None,
+    model_dtype: str | torch.dtype | None = None,
+    seed: int | None = None,
+    device: str | None = "cuda",
+) -> tuple[list[torch.Tensor], list[torch.Tensor]]:
+    if cache_dtype == "fp8" and head_size % 16:
+        raise ValueError(
+            f"Does not support key cache of type fp8 with head_size {head_size}"
+        )
+    from vllm.platforms import current_platform
+
+    current_platform.seed_everything(seed)
+
+    dtype = get_kv_cache_torch_dtype(cache_dtype, model_dtype)
+
+    scale = head_size**-0.5
+    x = 16 // torch.tensor([], dtype=dtype).element_size()
+    key_cache_shape = (num_blocks, num_heads, head_size // x, block_size, x)
+    key_caches: list[torch.Tensor] = []
+    for _ in range(num_layers):
+        key_cache = torch.empty(size=key_cache_shape, dtype=dtype, device=device)
+        if cache_dtype in ["auto", "half", "bfloat16", "float"]:
+            key_cache.uniform_(-scale, scale)
+        elif cache_dtype == "fp8":
+            _generate_random_fp8(key_cache, -scale, scale)
+        else:
+            raise ValueError(f"Does not support key cache of type {cache_dtype}")
+        key_caches.append(key_cache)
+
+    value_cache_shape = (num_blocks, num_heads, head_size, block_size)
+    value_caches: list[torch.Tensor] = []
+    for _ in range(num_layers):
+        value_cache = torch.empty(size=value_cache_shape, dtype=dtype, device=device)
+        if cache_dtype in ["auto", "half", "bfloat16", "float"]:
+            value_cache.uniform_(-scale, scale)
+        elif cache_dtype == "fp8":
+            _generate_random_fp8(value_cache, -scale, scale)
+        else:
+            raise ValueError(f"Does not support value cache of type {cache_dtype}")
+        value_caches.append(value_cache)
+    return key_caches, value_caches
+
+
+def async_tensor_h2d(
+    data: list,
+    dtype: torch.dtype,
+    target_device: str | torch.device,
+    pin_memory: bool,
+) -> torch.Tensor:
+    """Asynchronously create a tensor and copy it from host to device."""
+    t = torch.tensor(data, dtype=dtype, pin_memory=pin_memory, device="cpu")
+    return t.to(device=target_device, non_blocking=True)
+
+
+def make_ndarray_with_pad(
+    x: list[list[T]],
+    pad: T,
+    dtype: npt.DTypeLike,
+    *,
+    max_len: int | None = None,
+) -> npt.NDArray:
+    """
+    Make a padded array from 2D inputs.
+
+    The padding is applied to the end of each inner list until it reaches
+    `max_len`.
+    """
+    if max_len is None:
+        # Unlike for most functions, map is faster than a genexpr over `len`
+        max_len = max(map(len, x), default=0)
+
+    padded_x = np.full((len(x), max_len), pad, dtype=dtype)
+    for ind, blocktb in enumerate(x):
+        assert len(blocktb) <= max_len
+        padded_x[ind, : len(blocktb)] = blocktb
+
+    return padded_x
+
+
+def make_tensor_with_pad(
+    x: list[list[T]],
+    pad: T,
+    dtype: torch.dtype,
+    *,
+    max_len: int | None = None,
+    device: str | torch.device | None = None,
+    pin_memory: bool = False,
+) -> torch.Tensor:
+    """
+    Make a padded tensor from 2D inputs.
+
+    The padding is applied to the end of each inner list until it reaches
+    `max_len`.
+    """
+    np_dtype = TORCH_DTYPE_TO_NUMPY_DTYPE[dtype]
+    padded_x = make_ndarray_with_pad(x, pad, np_dtype, max_len=max_len)
+
+    tensor = torch.from_numpy(padded_x).to(device)
+    if pin_memory:
+        tensor = tensor.pin_memory()
+
+    return tensor
+
+
+prev_set_stream = torch.cuda.set_stream
+
+_current_stream_tls = threading.local()
+
+
+def _patched_set_stream(stream: torch.cuda.Stream) -> None:
+    _current_stream_tls.value = stream
+    prev_set_stream(stream)
+
+
+torch.cuda.set_stream = _patched_set_stream
+
+
+class _StreamPlaceholder:
+    def __init__(self):
+        self.synchronize = lambda: None
+
+
+def current_stream() -> torch.cuda.Stream:
+    """
+    replace `torch.cuda.current_stream()` with `vllm.utils.current_stream()`.
+    it turns out that `torch.cuda.current_stream()` is quite expensive,
+    as it will construct a new stream object at each call.
+    here we patch `torch.cuda.set_stream` to keep track of the current stream
+    directly, so that we can avoid calling `torch.cuda.current_stream()`.
+
+    the underlying hypothesis is that we do not call `torch._C._cuda_setStream`
+    from C/C++ code.
+    """
+    from vllm.platforms import current_platform
+
+    if not hasattr(_current_stream_tls, "value") or _current_stream_tls.value is None:
+        # when this function is called before any stream is set,
+        # we return the default stream.
+        # On ROCm using the default 0 stream in combination with RCCL
+        # is hurting performance. Therefore creating a dedicated stream
+        # per process
+        if current_platform.is_rocm():
+            # torch.cuda.set_stream here is the alias of _pathed_set_stream
+            torch.cuda.set_stream(torch.cuda.Stream())
+        elif current_platform.is_cpu():
+            _current_stream_tls.value = _StreamPlaceholder()
+        else:
+            current_stream = current_platform.current_stream
+            if current_stream is not None:
+                _current_stream_tls.value = current_stream()
+            else:
+                raise ValueError(
+                    "Fail to set current stream, current platform "
+                    "may not support current_stream with torch API"
+                )
+    return _current_stream_tls.value
+
+
+# Global auxilary stream for running operations in background streams.
+# We have single global auxilary stream to avoid an explosion of streams
+# for every layer (and make profiling look sane).
+#
+# aux_stream() is currently used for:
+#   - MoE shared_expert overlap with router
+_aux_stream: torch.cuda.Stream | None = None
+
+
+def aux_stream() -> torch.cuda.Stream | None:
+    """
+    Ensures aux_stream is initialized only once
+    """
+    global _aux_stream
+
+    from vllm.platforms import current_platform
+
+    # TODO: validate this works properly on ROCm platform.
+    if _aux_stream is None and current_platform.is_cuda():
+        _aux_stream = torch.cuda.Stream()
+
+    return _aux_stream
+
+
+@lru_cache(maxsize=8)
+def _cuda_device_count_stateless(cuda_visible_devices: str | None = None) -> int:
+    # Note: cuda_visible_devices is not used, but we keep it as an argument for
+    # LRU Cache purposes.
+
+    # Code below is based on
+    # https://github.com/pytorch/pytorch/blob/
+    # c1cd946818442aca8c7f812b16d187ce1586c3bc/
+    # torch/cuda/__init__.py#L831C1-L831C17
+    import torch.cuda
+    import torch.version
+
+    from vllm.platforms import current_platform
+
+    if not torch.cuda._is_compiled():
+        return 0
+    if current_platform.is_rocm():
+        # ROCm uses amdsmi instead of nvml for stateless device count
+        # This requires a sufficiently modern version of Torch 2.4.0
+        raw_count = (
+            torch.cuda._device_count_amdsmi()
+            if (hasattr(torch.cuda, "_device_count_amdsmi"))
+            else -1
+        )
+    else:
+        raw_count = torch.cuda._device_count_nvml()
+    r = torch._C._cuda_getDeviceCount() if raw_count < 0 else raw_count
+    return r
+
+
+def cuda_device_count_stateless() -> int:
+    """Get number of CUDA devices, caching based on the value of
+    CUDA_VISIBLE_DEVICES at the time of call.
+
+    This should be used instead of torch.cuda.device_count()
+    unless CUDA_VISIBLE_DEVICES has already been set to the desired
+    value."""
+
+    # This can be removed and simply replaced with torch.cuda.get_device_count
+    # after https://github.com/pytorch/pytorch/pull/122815 is released.
+    return _cuda_device_count_stateless(envs.CUDA_VISIBLE_DEVICES)
+
+
+def weak_ref_tensor(tensor: Any) -> Any:
+    """
+    Create a weak reference to a tensor.
+    The new tensor will share the same data as the original tensor,
+    but will not keep the original tensor alive.
+    """
+    if isinstance(tensor, torch.Tensor):
+        return ixfops.weak_ref_tensor(tensor)
+    else:
+        return tensor
+
+
+def weak_ref_tensors(
+    tensors: torch.Tensor
+    | list[torch.Tensor]
+    | tuple[torch.Tensor]
+    | IntermediateTensors,
+) -> torch.Tensor | list[Any] | tuple[Any] | Any:
+    """
+    Convenience function to create weak references to tensors,
+    for single tensor, list of tensors or tuple of tensors.
+    """
+    if isinstance(tensors, torch.Tensor):
+        return weak_ref_tensor(tensors)
+    if isinstance(tensors, list):
+        return [weak_ref_tensor(t) for t in tensors]
+    if isinstance(tensors, tuple):
+        return tuple(weak_ref_tensor(t) for t in tensors)
+
+    # For IntermediateTensors used in pipeline parallelism
+    from vllm.sequence import IntermediateTensors
+
+    if isinstance(tensors, IntermediateTensors):
+        ret = IntermediateTensors(
+            {key: weak_ref_tensor(val) for key, val in tensors.tensors.items()}
+        )
+        return ret
+    raise ValueError("Invalid type for tensors")
+
+
+def get_cuda_view_from_cpu_tensor(cpu_tensor: torch.Tensor) -> torch.Tensor:
+    """
+    Get a CUDA view of a CPU tensor using Unified Virtual Addressing (UVA).
+    """
+    assert cpu_tensor.is_pinned(), "CPU tensor must be pinned"
+    return torch.ops._C.get_cuda_view_from_cpu_tensor(cpu_tensor)
+
+
+# Helper function used in testing.
+def _is_torch_equal_or_newer(torch_version: str, target: str) -> bool:
+    torch_version = version.parse(torch_version)
+    return torch_version >= version.parse(target)
+
+
+def is_torch_equal_or_newer(target: str) -> bool:
+    """Check if the installed torch version is >= the target version.
+
+    Args:
+        target: a version string, like "2.6.0".
+
+    Returns:
+        Whether the condition meets.
+    """
+    try:
+        return _is_torch_equal_or_newer(str(torch.__version__), target)
+    except Exception:
+        # Fallback to PKG-INFO to load the package info, needed by the doc gen.
+        return Version(importlib.metadata.version("torch")) >= Version(target)
+
+
+def _is_torch_equal(target: str) -> bool:
+    assert target.count(".") == 2
+    torch_version = str(torch.__version__)
+    torch_version = version.parse(torch_version)
+    # torch version is like "2.6.0.dev20240101" or "2.6.0.dev20240101+cpu"
+    # or "2.6.0+cu128" but never "2.6.0.1"
+    return (
+        torch_version >= version.parse(target)
+        and version.parse(target + ".1") > torch_version
+    )
+
+
+def is_torch_equal(target: str) -> bool:
+    """Check if the installed torch version is == the target version.
+
+    Args:
+        target: a version string, like "2.6.0".
+
+    Returns:
+        Whether the condition meets.
+    """
+    try:
+        return _is_torch_equal(target)
+    except Exception:
+        return Version(importlib.metadata.version("torch")) == Version(target)
+
+
+# Using dynamo with vLLM doesn't really work well with PyTorch versions < 2.4.0.
+# In particular, the FakeScalarType is not supported for earlier versions of
+# PyTorch which breaks dynamo for any ops registered using ScalarType.
+def supports_dynamo() -> bool:
+    return is_torch_equal_or_newer("2.4.0")
+
+
+# Supports xccl with PyTorch versions >= 2.8.0.dev for XPU platform
+def supports_xccl() -> bool:
+    return (
+        is_torch_equal_or_newer("2.8.0.dev") and torch.distributed.is_xccl_available()
+    )
+
+
+# Some backends use pytorch version < 2.4.0 which doesn't
+# support `torch.library.custom_op`.
+def supports_custom_op() -> bool:
+    return hasattr(torch.library, "custom_op")
+
+
+# create a library to hold the custom op
+vllm_lib = Library("vllm", "FRAGMENT")  # noqa
+
+
+def direct_register_custom_op(
+    op_name: str,
+    op_func: Callable,
+    mutates_args: list[str] | None = None,
+    fake_impl: Callable | None = None,
+    target_lib: Library | None = None,
+    dispatch_key: str | None = None,
+    tags: tuple[torch.Tag, ...] = (),
+):
+    """
+    `torch.library.custom_op` can have significant overhead because it
+    needs to consider complicated dispatching logic. This function
+    directly registers a custom op and dispatches it to the CUDA backend.
+    See https://gist.github.com/youkaichao/ecbea9ec9fc79a45d2adce1784d7a9a5
+    for more details.
+
+    By default, the custom op is registered to the vLLM library. If you
+    want to register it to a different library, you can pass the library
+    object to the `target_lib` argument.
+
+    IMPORTANT: the lifetime of the operator is tied to the lifetime of the
+    library object. If you want to bind the operator to a different library,
+    make sure the library object is alive when the operator is used.
+    """
+    if not supports_custom_op():
+        from vllm.platforms import current_platform
+
+        assert not current_platform.is_cuda_alike(), (
+            "cuda platform needs torch>=2.4 to support custom op, "
+            "chances are you are using an old version of pytorch "
+            "or a custom build of pytorch. It is recommended to "
+            "use vLLM in a fresh new environment and let it install "
+            "the required dependencies."
+        )
+        return
+
+    if mutates_args is None:
+        mutates_args = []
+
+    if dispatch_key is None:
+        from vllm.platforms import current_platform
+
+        dispatch_key = current_platform.dispatch_key
+
+    import torch.library
+
+    if hasattr(torch.library, "infer_schema"):
+        schema_str = torch.library.infer_schema(op_func, mutates_args=mutates_args)
+    else:
+        # for pytorch 2.4
+        import torch._custom_op.impl
+
+        schema_str = torch._custom_op.impl.infer_schema(op_func, mutates_args)
+    my_lib = target_lib or vllm_lib
+    my_lib.define(op_name + schema_str, tags=tags)
+    my_lib.impl(op_name, op_func, dispatch_key=dispatch_key)
+    if fake_impl is not None:
+        my_lib._register_fake(op_name, fake_impl)
diff --git a/v1/__init__.py b/v1/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/__pycache__/__init__.cpython-312.pyc b/v1/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d48536f762c5e99cde79358d3ab7d38990ce5c35
GIT binary patch
literal 152
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVnd_J27U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>c_`t=4F<|$LkeT-r}&y%}*)K
ZNwq6t1)9SM#Kj=SM`lJw#v*1Q3jlZ=BNqSw

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/cudagraph_dispatcher.cpython-312.pyc b/v1/__pycache__/cudagraph_dispatcher.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..219aa1e257d288b013f49ba510c6db07cfa280a1
GIT binary patch
literal 6234
zcmb^#No?HK^^>z|7R^{vB1^JH)M8m<Yw@mnm#xK;EGtH{LP$VRLrS7NLrzGJWeHLd
z6h0VjfI6oL2nra84=J2O4mtGDLs0Y(pqHVXlmo&A9P|+MHjbQbr@r?&<cyUuk^=ph
z;oshW+kgMP_y3>c@d$yE_5WIawx5u{VaF~0N@I5n8Xppoh)kB`m<5KxHk)O0z6D>-
zzu>2RUp9~nE(96ElB-1Y-yve)A?sjR2(1Uxp}%7%&Df#5riz7(k!J1q`0EpwuWCYm
z<+>_LcI1t0HaD&+OY$<nC9ViYW@SRsGn$+?R4wBmbH0>oXzq&e`H)Ctff309D>4f{
zk(K;QtmwPrUkHePDJTY{(2`#aLO(2qpdXeRpx*%fNCOcYabAo_Q86mTq#(3o8zDlL
z*fzkt6cpok0t@l=SUO=hj~7H?8M&R1^*k~sX~M63ghV(fKQAbToRheW3&e>Y6lbVj
zkGm<Y>)ev6ak)a)kn>rI(<Osbmnar*wLTo71Fx+}-cm{9bWnt(bH<vAt8`fA%~HgJ
zoT^9^`;D2&@yR!5UY+CwMZ{5x4(U$4J~vmxrdDA*2U{@AAw9~Wph=vp$c8Lr<qb*X
zL@6&RqO2?fE{aMp3<*S56;3bY^QvZ0LTf96QG*<ja<WcElof7V&E@5+fUBH+rUWTE
zN|cHx0$ookkQq5KfGt(Yu5-Ft&@#|o;tZ`|tWZ&J0gEC<QdJ+UKt=?GTdYx_$iZMm
z;EIATdjo@%io0uEPBK<hkz1A&*k%Kj4m`NZ@(6KM!U5FjAZ5YRJ8Xr<&A&1~NqJP%
zs#eleQ;3doj{4>X7SW(U%dWYnDYivH2i=2?5n5LA1p}dnxywriXvXCgcV!@>=5hr^
z&H%3>cS{zK?3$oe6r(DJblXTfGFG`?19Q$xn$E4s*(|D5H=fr5@&?u`$-sc-=vc@b
z1=tdhPLuLk0eF{TH-JB?iX1%{I#2?Dyr84rG_|n2f@lz`poo%|T?d{iI?$*hEW#;R
z0}?98S7q)wyrK$Qpr{5%2_SOUwou3EVT#O--U1iGXQ&U!RNN2s7;vNs996PgV$fl1
zGMj{_6ZqL=R%>A^;{XA$PT3^&AXZ%$>4HHGt2|sr(4ANfyRB+%MBVnoN}~oo=FU~?
zAHvHlP(#UR0Uqn{v%1fnuhuTT7};VsS^e!7NY`9l;kMkB`juG-2lXj_1i|427+YLC
z)f%9EFMxiz3gxywBEJo~Jp7Uo{UE=msdbVL%x`>I<6|5X(ZQ^;BKm=vsq5(N-k6)a
z&X2!x{l?7PB)7IADOKa+sdeRLDI=}PdW~Dx(VZ3GR1VTpT;l~jGT^@Sd{#CLuyJ0^
zgO}Fe>|)G=hBw1i`9gHVduU(SXddL?OuPP)GIU`hIatMjxGzkl<5~l#$8M?xc20oZ
z=p81yTtoY?8$1_f`yhzeeso^7py-P2lqS7fkRjOco)X|(dF<F-vd(+LS7s!!3T*pP
zgLd4L7rC{Qh?}p8D`}tY*QM-|BSR+~a2~W#MN>;t#{&$Z_CMnzMlL^+m-9o0pe;+r
z(CxzLnV;Ppl}57i;z)iS9Emc5o?ztGv5~3@Tz4sH!})bP%u_yie&fKn8?z_8kUi|q
z9srv9xA1w7lsfwF`o9YAFZB#rJ!59i81}kKsU9nJ%1oWIQWIus0>?U@g-N{KiuIbY
z-UqLK{QBcqn-xo$vD5?K$ANOdH_JpQSUE=ay<{bO&1A2YykaJ=JW5U!V-sZ`Y3P3%
zA@RedM6;FXHxvC<V#-WReU+Fl2civ;a@ZeFmBXZ~*Ge5TQ^$&($IFB{!Iii^iyJk$
zQHwioa_5U(7hw2eXQ{K>>O5(7p0qlzn4MRO2gb|sV0@C<Z9rTs6Q5zq`$;zl_jR~)
z7epm?tP<#`+1N=MocL;R%HU481>4lMZbJiItKrVnb(%G^b==hwdyD81>RcE&>}>V0
zgOl*wsYd{)VV<^%Cty$6WFJ=CH$%WRu=5+~8N~^>o=JG|oSt?}j?g~Oa_Im)Dq0+H
zY6<)#;bZ#*QB3<Z^h;U?eyDL&tWtygnb`XPg!l0CfNtYpJ@fhj*jZSu-+<41q#Pv4
z0}tZPR{o*WI&;lDbFJ7lXC~&#gl&kF8b^O0`|KCR*wn5Mx<wccl7_ey?l8k0+jC|(
zZH0%-@KAC1;@9CzT03%zUeewV`2h%-gPqL4;pE>fNZLA|m6Yf96Lm@V^Is6iU_Z$!
z4D2oS!lBj$uyyvd-o9x8krCNtcFU)PL}r<R8ZvjRAsE-$P1g<#H}fZ}p5w3bc5@U&
zea*lfqvZws;AZYAn?CopGC|%sM#$SB`<8zz02u0o!5`uAB^UXoA3|Z^Q{O|>Clr?k
zL*75($F!r>8L$1;krXX!Pq{e&lHLalXoq`>i$S}$iGg^}EOuAXaQBqe)Sdz8ZUjIJ
z!Jn?h3G$mzhFvBZ_MJvp8QKhO25*A>Y1m?Kz6~vQGxP!be$r32!ds!5oeKYNJ5XZ>
zb+lvD?f~=R9l#WZ_pD(Z_-5e06<Q-{|NLuH5S$`PA;%l)O-a%1#^;ZZ9bOT1KC5a%
zdY==%qS&cqpIQ|3XSY>dfu5H#&Si?Ou_HP8HUv!cJWgEpV<M}erP!_2Wf>>k=5@G*
z=~@@eYUl>-Xypvk^=R;RQkU`qUR8L=w;}hCU<B@{Vj(MO6{hT1PPomZNV@c{uA!FF
z4URv<)1+~TC*nu}HxJ!r7j>-<2OHgm6<sj5?VcAf$%Bijco-c|GDK{rI3BXC8vUPl
zl={X{Jx}>U@GF2@UjrWx9y3N_Nh{i6MmwzNp`GZVn!q`>lNf^-eSdQMoev^UQa#&m
zK-J#0-FkPn93ioGE81s9`yNI6KOM3TpEnPm--(`o%pEEvTdd?EGkM5LUNV!HzG(l4
zkL_;!Aa;+vHx2F<<95H9>@T(SSS>?l%h02ik;g5)rQU;|Nnfly^RX|z{Cyy>uc;h@
zRpoXP@33P1W~~2FY~a)D*5E~R@ZwJFVkw!jk|Snv<g4T{M4B!&y=*o0m`y!a(+RWb
zgw-@=HjO>?G5anvkQKx`K+yJ-)ppcuJ8HE}@3c+t2K>hxziFGkce&Kuvfa4T-2ch3
z;?e1yBh%jn$iAjh8)OV5K2jzC_AElW2Z{r;U(Wu8d()AGN{MnjZt1pK`pp(-P$9%G
z-l`G8N4no)%8jJ^Ak7i}{aqWN)6ow9)ZRQf>bH}av}FW6BS2Vzv{12wngrKGW&XL)
zg2qil%LC^YR@XV{O@?=asuxZ~W{G_jooAhN0Kx~WFXHX4?v1O8*9#-SQKeuaaf@iR
z)ayWPI@IybQtwXp|DfQb^8Gl4Isveb40WJ3DTSY+<uofy!B)}BH6G%t@-4h2sqhkn
zk2v~(G`u`KxcBXX-i+W;prGT+M8z!N>80{uly+W95TBcp<Kuu(y#YO+m*E2zz8pBo
z+g@VM%^#6n<`ij-+dGf<HOCg=T||JF4tS`LmsgA`Z2{gSXkO&3^@OE7(FZ>u4-ZF`
zcP<?`&A~HV<!LBep*Y|ofn|!S3{|?7mkH!=J{_Vi*U2p*fP)tYNWKC|b4(}O#Jn@@
zcN{Z@YV9NfCu)E(v(z!yLd1?^4ZF&$f1z<_Z^0t{kMIGv*+Rg}CHi&}eUF<ttNEbW
zeDJ<eY(7$q9eL7z*lIs*wx7P6_$JZyB++&Mq}6-c>^=SYmNhzK!moGMOw2xR?Xz0b
zW^1~5<Xo}!TrqhLv)8WseOAvYv**<3IqUSa3BR5hGcn@<e{!kVdbXH63wM}U$F}I)
zVm=?Tj?b9zOU;_mS<291v-$8RuN0fl6=Ua~0p3n4(QPKW@1HCt4i&?PXlk2grqYdg
zn^T0G#PfE9$CwI1585#va$F%>nF;Z{sAhOxgRF*VcvPI7KtDnwtL>8&LpuRo+rOx)
zSvz19;DJ^<10%m9P9lxjhK47felWi2c%!*Pp0de6xZHOj(0_k+mq1lM9}J8!r32}*
zk2WsM?b1d$c|35ilsZ!OVSROW7whsWL#{D5n5Vu}V4%c}lxaPFmDW!h8t-mxtDpJJ
z6i9y3Y&i8S0ALP7$jf{>Y&Xd8BxnHFx|2iDr?6q?A;6In#kO1UUOZfR8^p8#-vwz(
z;Yf8EfU1((;q#6%FKUx80j_}PXpm(e!!X|m36uJk9Q!Ld`p@7smKpet;FqrcFQ{z(
Au>b%7

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/kv_cache_interface.cpython-312.pyc b/v1/__pycache__/kv_cache_interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2472da8ca22f93b501d41c1bbbc0caa73d088d44
GIT binary patch
literal 23029
zcmdUXd2kz7nqN220C58Zcz_fS@Q^6zASIDHhLUwy^5~{4OP0Kx*?}RVWl{o<=>}~R
zOYO>6Mw)SAYIk-;XS_Rf)l^w3dpC44sZ}beie33*r;>lr1|85SxuU6cQknb(4qP?k
zRHZ7v@AZL$P1&+Nl}#7<`r*CTuiyLL_kHiXUjG-b*TvyV3O^b9@nanKkMu*o>{_O{
zXyLfqT!KsRNp6_#mLxxJ8McgDhppqnu)tH9HEA2S58GLuPu2|ApiD?Q#+}1XR%T1O
z#@)kimbWK8<KAH}%hx1*<Njek%R7>R@!H{9mgkef@z8LH=PaD)73<#R)zJ*s<F_T@
ze9xtqSh%BH!u=|j@Vtw0()F%-<Axhd+j`N~CpNrmRht>D8%<mL(K;YDu4)}NZC#7j
zK{33lb(3l95L(xn^xbUQx*n|?Oj@rqZQY30VUt<5n6_?0>t>U_TTNT9L+cik)@`P(
zThY4BWF+mPg{@sX>LaVxE~3?Tptf^WZHHFdh1%{_wVgA3bp3B=d55CbyfYC`#Yd8H
zS<c%pkBP~IoUf6@sbqXajPiM5N}5d2{hXM*jJxYXGC6*Da^mvXbNJ;Rn;1*Ql9SIp
zCrZ?4Br*0p?!M>5R4kF2nG$32SXw-fBKu`&GA&MwXt>92Htk381~RufksIa{+_2?o
zP|~nf6hvFXvJW+)J%L}BEeYXO!NA5EqtsSb>PXl{Cu=PvYF-tFT?vaQ;J5p-kZ|C)
zNAxC~qEB=;p<k`sRrb7p#vS$K-6t;`j*pCr=cdGw^ifv?*P+OzxGY8(m?D=arHG8W
zvCA`K6VF9bqhjRbg~$j!LUrTuRAlmUWO71`B;zxp)XRFvyDlXsN3Jq}<n5A}nwBO;
zG^%BApghrB(TC(VmtuvKyv#@Ww9Go8p`6EC2&(jscw{R6oEUjwEHxT=w$%T#k<{c>
zaYBxaO++ruq(r&bWjy{Ad$T-f6zF}jo~UD^<}RNP4Nazwk547Vad9FgCZ3R_NeRV*
z3~Z2T#F77fs4q1>)i*UZwKWx&u<%=7oZkJNJy&;&eaW#)eN!{3(aDLv=YchS&u{O$
z`h1MRDK>`gq|3mu-l>_qpWe+N6Jx_ouPa-D-m1!0ytPPd`8xM`fb(}|934gc;vNB*
ze`ZXv5}5KxJSl#QAT8^!0<cmL<CW@=s4$cokj>Y#=CP{jraQ`EVcKK^^%kat&^qrX
zV8=!njgDwMALShPa18rV1yIK0FOH2*k4L5^WqIrppfWCwPf9b9X_*iXsFxZYlS^p-
zD2Qgz3d3UkN#pGdICm{lJw`0GAdzVfk%$VU1`I5wjwQy%qG3#DIh4%XY@@z3#PO+!
z!vIzRBLR&V71EnQg$9Mra<lw<yv|F{aZyY9DPzosB{7~7L5>sR3jm72JtE+G;}Ig3
z$ffC2L}jZw&tUY*NLl3&M2L5J$&VLDd5M@~RD%K)RX`y;GC4I9BeIX-jj<Btr@PDE
z-n&+-?@)iWNI*gkF3>oay5m~%_h%gaDhAnzyU7)BA!&!fWeS-e@#T=Y!C&SR{Hu<e
ze8Q5jHgiV|3FBQ2dUDMPNIN?3ewj~EPwcuv@UFVhkBtyne;Tm1r!N|?J}rXF0MyAb
zneo}O2}dR`T@go8#P?E@Xd(mDK;6|XN&v6m8Z?-G{1<zX{3U-96my%K<^I^iao6}+
z{-!0t(ZH^5<hZ}$Z}U9&x=-L{_`kKjz+<ThO^5Ds*itRM+rT0LL#Yd8GR-y;xvnCx
zbKi5~g!tl=w7+t##%Wr;`>;pElk)yvqty}WVI7j+|4;7s*SSn^@O|eUVQyf4=R)n9
zdp-_zz3==&rh&f_tml7203S;4K9o$Vdk@<JXoHgD<7K<lbJFDWRAhV_5WFO^4UFo0
z*%UB-Ydo36W)2+7I})NeMY*UYZyia>>WmmgKC4d1#zvm5ErW6|D>^_U-%le4nz^_@
zC>tDHv@OOLFTL+XcF8|j;4Dtpvge7S759vP@N+vCsC(nu&1>^dFKmDFnXG?9#<78+
z<WMw_cf?{77-cM$cg14klZojh<vp?352xcvt)?axOH7WS*a{TL`(v^A#KdGOo*J8+
zkWuP@G&3bisTrve<B|xhl7o_VN@^(SM3Q&2jecCj-j&D;glSSARWeRXD8QyJ(N4`0
z#>)Q%e!a%62o{^8;NoiQUODr?<}FxiY@G|C-*UJWt(@J*3JL)|w;)$n1<`VGQ-L1%
zAXKDVAt=}e7W)evZubU?bSro`do6X<Gv7U*dXqKpxl>1d_0Vf-SE!DGjty`GV>2$o
zN4knhB;|6K2stak??WlesnVD23edm$BB_eCt4Ro=6|z}{6ejAW_A=SZIa3pL<h_Sd
zDToqS50b9(o{8!47=(gRF%G%YNjFtOvN7>d3gE@7NR-B3{Le_rrKBr_lU0{gpECH%
z6<uE|YctEmjQRvW%UxmGUReWV(_qA?F@b?rLr73{QB8{YE4%PC;aJtBb2n;ByUEaR
zXaZ4ZUJxgqm-Dq3PMta(d-~iHvExJM_ry-0I+VAiCZ&<lya3GJBS9PG*j6F!r5vq=
z<ff!bs$htoZmocNwM6wKo|FFw$#w2Cw?F6Z_{iOHzp3r#&2Ki}IP&_52OjUTFZjmf
z&B+xj?`?bF3+8<7im!deX7NS}cFrGqW8&t-N{!XqirvKDI)DD>!*32}eH&Mtf;U>Q
z+MO<SpEdSUyoxTij<f)`!9?#`h8X)%X{>q{M5*bn%2}AoLf=C}nF#qhhoJ>(HSXb(
zX!n=4Q?i4S0ZMjK@;D_7oVzGjVhmNpK1j8coWQ?)63J`agJ6ADs9*L6Um03<2j19w
zb8l8?U{vq4xrpj<)2JS~LLH-ei>;QZ9yeCCVnI%&RO-EgQgxgy5^pJ|R8>Pt@M%m{
z*OO3YC;HXO7=1di?}8d_(4T|^sBzc<{isHCi2`vkDp%X9`jNgv54+LIDMDM)T6s}l
zt|$4RLAvv`-<?h-E7oKv?~{{b32eI%P9_qQFXZduI=#n6MyDrK{fCKlDs7ijEujL#
ziTiA}v-}m@t1mM;zh*&Odb;W|qxoyrS!;s7dIXE<NjdcgW-YT;UADVssVFz)3VK^}
z&VW)gu7H;r)GlqpFYrSTHZn1(N$YtplU!LzQk)>YNWxZJs&7e%BdDe3De=V=bOo)R
zL}`h*m&y|iB#sItIa)e}`n)eOG8KDaQc9|fmWd7|d8#`a?Stu!tJbyGT%w*tYdMbO
zI=39|%7wQn;cdC_ekHvBhIhHCJJ&RzG!5jM&MHl3Z}>otp62;OAGuraw?r0N7k$~5
z12<0J_lM?AFAThM;OzrhfB#}CxBH~B`{b_@xuH=7f4fH&|5(N`#^@vOQIU%65S8L7
zp$$VF37K-?be7i{EfyVeo5atQ3-zU13#$zPk*J@lODBwTT#Dp!b|tKO&rr|>jd{_k
zrq7W0W#Ii+6~sp4&zD3osPsfWs&+sU8KHx9YH|t&n0RtpWQsUs&R)DvV*Hy3Nmr7B
zO#aeHP=!{y+hkEm<g94*0y>coBB7nYcVjl|Zdu^58!U$!?|TDtEm?2dLdQqmuH{gB
zF4U!jy0W458PEF9f-MCLU)x=@T0_19XZ8A2e%6JaDzpf~P_|4zz;Mf#3Hk%{t2HzS
ziw^#B%^_hme*)BNEFdgKroCRXmMx>ryp2RUi@o$_3#5QqK2bv)(TuMcbtZegQAhKy
zx{Nv#2?KnDRKKcg)}kZc8ubQZzUO#X+d-}g1l>PA0Y%1El1x%$hhUf9BidjWyk<|4
z_RX$Y+pPTx*(a(lodcG&6dvAECBN6V1Fp^zTm|m+Qvx?DTp<HS)s=8f^QdXAD#lN$
zNz>hZ6}3#i^pyIX6(CW0(^p-@*yuW4r8BOg1#`{Ocz&(+Yv_^0BbXjZVws^uLZ-RK
zml+iJl(G5gz|^$L256NWX_a^Rp}Us6YYd94oQhA3h|*E?2;)c(ZW7p8g;_v~q9DC#
z)nHY1%tW`mNgWVEYpUh(4|m=h`03z$VySy)F0|{zonI7bSADs;g-@UOT1*Yv<?7*7
z2=oL42CE@t3|PU)M;iAPlvQ8X`PYd{R~O^A2EBG2deSo}gem11ZW0p=%b4UN1M8oo
z7kNDr1}vzqt*%eDY+pFCcs{rDm_mQ&Zyd>a+CTQR-+kf>nb^R~wd?tx;@^D2v>h80
zZdrT6FZmui-L~rK9!J05e7bY!Mc#x&o37C1`gOQ<PFVJba{i5qe`Cf!P_S{{+MH+o
z$DZ|{gj-cJ#LJ!CmGk}9h=DC9aDNzs$_JnkRfwM7e8zuCGcHj>!>JF&dx@W>7rK`=
z?#VTN=R@%e>HBDs-dp|Zh&(zuolKA^g>AeEvb$F|Qi)Ktu-L0LH>Q3tG^NE$KlQa}
ztx|v}$sc5h>K$SNXL|TF374wF;L;?#2Aa68%NxvLAxGj9i3k(d#YBWzq)fyaIReW{
zM4q0Snv~!g=#BcM&9pLBSxmu#G%;g3$*0joBBsJrseBC_1{kT77s!C4QYwKUTBC|K
zBteu)^KKQsF=ksM_Lt``Gi^_0^O_J#rkZr)YQDoBeg&2CC8(k>N_k+EQi9-m+2HXd
z|8dP6^^9hYIu32NxphS&bQHF_ikzj{b;AccRitZ$Q%Ry|!yQJMh%4i0ft{<aQ6bdH
zHk?`tozl8Iu6228#m+T0FE_T#pS|^Bu5pvnxM{hmZT^REhI385N>lH0!@BuHw?=af
z8<mEQ%fZHZ{?^9Zy|;Ro*R|!=ZCBQ9U+m4UJG9)<o$J`GbnMRTIhE}={kgZM(RIUJ
z3~=?(*YDS_d+YRnt=}}q-*0T2Pc58%=fc|;vW;7QS#!_*!P$Sf@Zp8*wo}<gjLcda
zgw$5w2dS+#m}xw<V&xh(7p&+7)}`8(Tws$D*tFQ43G7<-H0C^86wj8$BN@-06{{uS
zdf@f_)@BL#3!KgAD%g2%PqBt_9F+mC>oSgJCIm+P)v7nc^OF9}*cEY0)d;tna+fG!
zsIrH0q|cig;Al5wTOuhT@{f@~C+}E)eQ56ReD|#rSz-Nh&*qE}p6^-^-rSTGHWw@o
zSm)|$Y*%>I#&(5QjciwVvdO`u=Ct|lj4XED9W6k4_ucFNpzhxdk{<74W;Iq{XkaZj
z+ScjDH)P59hMQ)5LrxWeX@n#AH!fX&C{Cd0%T#*i<gBT3eL9TNa-*A5biw)Q7ClU5
zw~8L9>~MkVLea1nD!W4>I1T0fst-={(59q^nAt9XQpg5ww%=+Rl^?Z+BxB4IVGyda
z`*0JSbkO{1loC!<UDP9LTvf&RNi`|2UY;`4?<)bltaR6fU3Gkai1(vUL$qG&y;18>
z-gS9uPb?wF#*^`}IlwULlE%<p<(vm8cZiZI6W`-hc9;^jZ&cgLNcm5%-hZn6ioZlF
z`EQV1=N^#JuU&DsFYNos-3L9rE`0mItpf|^l+ebEXXAa{CioywciVr<zZ`7H1-q1B
z7tDdR-4B8d#GzmetnC0_40ZgX{+;Hxo3p_!un5*}Em&<{U%>}C;f*sl&%lnT*$!bz
zjKGq}EQhcow&Kxp%OQ-3upEM+Fe<8$pJ?;2;=f1|%9mPzcVQ{$iK+{wx^1njh7bbw
zFhV7#UYs(J&CCW|iApmTEUH9)4|Sifkq%OxtsyCL>O#6HM{Ag`xtyGgr}}rSGTJh8
z=Y~}xgsH{zAJCKh1QKj$FtG$w`>p9(EpO<dHQV@EFoIQTeY-Uq?4yO-R<H_KB@b6u
zzlP#Yw8(%SVf>(^#eA!ZI{>d<B^5UzklM%;Je$tTUgkAr-2M<{T&*+VAyBy0I%8q=
zw}Q9mb!N)A#Y`F3$Mjy!yV~fXdOC(GFqSI56?KqFz|ynmZVhQSx(a2O%wwYZeT+`Z
zgx%n=57*!8R#m@&TxjQq>osBb_}3CeAqlS<Nd-t~zhEFCIlxeYz^m8N`ZV1xSgq_Z
zc4@BLeRW_g6EKKvs(Nq-(}NefbDg_B?ks7+4PjmtqAz?cm`o#n$neC%WeF!(nmHz+
zG?1TB^S;_l#b%l&w(rfjslw4ylq>NRGBl{W!8vMaElJP$P}OE1gM2O%EkkBjjlN7?
zZdkQo40W<-C@&y^MbIBq2v4%XV@v*Hnq+%XlWdQH_q2B^1iEa;@od}ijAPw>e=rl;
zkoEW6+5VA#3j|KchZf%31%Z>?y<1igdl32>!f;DpuBBgT>Cd+8{M>C1K<Lz6Owd8L
zVXS3-9s(Rx6393^se-w9nCwZ*tvZ02#QAVJGfs^u`B(UtlSp18_fl8S^)qwl<_B&K
zXN3*S?Nh6|eQ;yGoq`3qLN{~!IBoUh_Q6f7LQaz;{Wg~_Ng_*<ByO4{iJZ!l>GdP{
zH!gi!D}q5*NRlNtF2dhz2y?SS7DVveuzkiBwdb1-lOsk<oT5;JN*($*dipZw%t!2P
z<|YX<Iq=b(Go_6eTeKO6wvyQo`vY+hT-St>)Hf^O8AI|@>nYXSq81#c`ckDp)mG$`
zPNG^O%S=8XBc6|f3?$t<!(xxfVSOo{qPmzGWtX>(k4;DnbTnX<Dha*r+Nzu{(u>rw
zi@H!Bm1%2Wx@(#HW!swTvxXbyf1wlkStMp|n2s&Ej>nXa$8sI#m5%cnM;o->hNfl6
z37++eXMJYle#Nu@124$9!F9t$;XrkBCl-Wv{BQfS{%wl`x&EUH{`^NXj-w0_hwj!?
z6B#2YMqjkws(M_N_jH;nDES}wm)np)Q)_O`3atgfV>`yQF}i;c`kbS?iu3fqw}SJv
z=Tx`kMdnta&;!+~0J9tS5J%)5ChdH6Tvs(BCash?E%3Zft9YG$nF*kbR!n3TGfIFH
z!_ark@gAZq5OQ`k#gsx5h+@n%6^**k1BQz>b^54Fca)mA1*pABQ6vg)qF?Pt4nJ9L
zE2^?N^+r9?X|$8b09>L!=>_^p1S8E*a*UEn`cm09z0s78Hm+LpHR$L6P!De*0sZ)!
zbN)?=e^bs+IR7hbT)GWst8T*q<A-mv(%JbCDr;9f?F$`>rz^8zpW@kfZ(Jv}09RW-
zH@r~yPW#*K*}(S2LrP%hz3$xLkTN)wIs0_(>{SJSgI5)QGUG_9v?t9H7^-ONPpOQO
zFYvF^R$XIOXe<aJ+c={wx)W{DU8OC0z?`=J18T}G6WC8!V9;d?vn}xIT@O1zo!yM<
zQd`=6_TiqOzys_-T4;iemDz`3vp|a)_RE2w0}A<e(l61IK!^hD9`14rhEeJ%EA=J3
zqMx-E5<cv4ff*s{&pS`Y$1lZ+&U^EAc{DyHBD$T~JLI8!pri^<#S;lJk++Xi^Bs8?
zyT>SUooR6S2IAFZZJbU*R(oDlLoMai1`{$-kx*5<hosuGS@KANXiQiEN=>v;ecM{?
z6@`#&Y94v1)x3O`zxsV(hUEle$<14wgX+VgkSe5fLveW$lQN`qFz@e!KV0MCY6X8(
zuacj=Y_f)<k~o4U!AB}3c#A|cXQ4}wT6>Vs+t_+BX|_^MjiNTarL?l8WmJRQR|ikF
zVtnOJ3~Si+>&^qWd~@~lw$H6FO3c;&<m6kucj~jveII-JKIuH5IWf97@KGD&#_93A
zH9a;Zy-b6Ag_2j1!0}#>Ti$7mpgcNP4Y_JsbDZmFP*@MJo6qVRS2zsnv(EJkiFdBP
zeRXl*@AtmHcd7G0(T3t8XRUYLa26a)t&b?~NXESdzW7{dBTO@Qj(-%|nept*gmxNb
zFxM>m!x=}I(RjsT;)N=P5&}}hmGlHM4+*zwFU`Qz@UR~9C=!amg5(dVOr-@sD?I-6
zGDa6EWMD`%b=;YYjU^vFqH`WfA?7$;F4)=1HkQgw1XxFFsY<;h_*LQ@3y6u7AYmQ|
z6Qw03HOfQ+tBP<*<aV7<@aI2~ahza4i`G`jQ;77N#*qut7`0bvtpAJ>nUWt-!jzhl
zKC`9__7XLw1joiW`8G0;!92Bd>*uZW=jI)^`WE^#!3~P1CoA+UQ~B-9w>B%Dwye;$
z+|`p2>gGn~kKDRKwGD08Ps~}VqO&U_G|wN-3SCSAa@d+E?hQ9h%R#OXWC{?k#=YUD
zRUucfTWlxU21R$;py;mR5{+~O|HehQL|2ipth7NTc+pDde4yl5u>shy0od~4CnhLT
zN;)%<oT=1t=;75OAN9-dlwMLr9bkBses+cweQUj84Jl(AfG)j(uGs8`qV}p)R|Aom
zC{6uWZ}NXZWt8;N;t|Te$`uf6TuXio+*H_UfrQk~9CQ)Xl!I=Vfet#NtwKi(9+q(M
zqXKa0(<~gKbb153B0CB-LQS{Ai>Jo*mc={aycey(RyAr(im+HW97ZCI=gZX0|JVG2
z#Ls*SkvoY1+Dve4X=*y9DQ{KMXgMRv`{_abA;fN(FqP<P5U+tbduhcfbd|-luG^4n
z-la6}$~B);n$O+v6Ms3gaQ>ax+p(;F=RF~}=ahm!|EY}Ql!j`n6t;eJ_9giCSJZ@(
zo%D9ZV*uaO*mj3tJIzRz?u2%9S4o!ISKys4))W^}Q^LE_5kJwcNs~1R%RaOb9l%9r
zmB-6vl$LwE-0*jKSZn6#8up4lVgsU0?-O-?U^Nc@=~mj|fJvL$gp=e_v@8#C4bC_b
z;@bH1#26jvI}eGl?0|zD-wvoSJU&!91VwTpqloe8WNHi?Tqgx~KF_fIk#xxp@97lN
z8#yLQ;uh8&JEuV{WS9lxIKmfCz7U^*uU&*I-sl1-c}bMmF)TXh2aRenCHF?Yi-U>c
zi*Y)yr}d_4y}Ebbpix<k07#5ozKl0dr1S<9Mv7NTBGcE5*U@;`=qN5g3w9vqe|f+I
z4&2a*$2H)k(tO@$oc|+OnTXLOPB1onf#FL@zGQv|Q$OPsdZy~q*L$_-yjsX5RhQ_Y
zNUYZoa$zWXR8utDfz3_PgKL4s5FpiKY$k^KGemx*OKCA$XO)2`?;M$fk-q2SP!E25
zA^i}wcdgP-aFgCblD9ukF{1J+w-Svo-SZX4a++S;i6=D6@7cv8xq+j~z|q{mkTNi|
zH1K3LcsA=ln{k|F#9tw7{{Os=<a}GhzjAOb*qI8*Cad{W)oNZ;1}`jj(`s)0IJ6Z%
z)YX)JPGhJ;Qg%R;nLE;3A880rRxRR1GBBK022bY(&ntuHmj*9ngBP>@iy6m7m4lOX
zR3X3{D@k@1^Mij7zln&du1BLwSiaT}@-=IcrP8NH8w;b_QDn-F>On`W46-x}=e}tu
zrsk$OUGvsd*3FeFt5x0jnUF>lrRl9K9Fs{k+Gc-Uwdpdg_0U?YX0A_|V9wLDk|YGE
z=K$eNX+c2Vz?`7!v30rHElTZ{JKxLJe&^mmZtodo@0pzE$xp%q+UdZ)9f(qgsXG25
z;}OyVx?-AYh1|jpAdtXAj7e4}@@)CpfZj)&$axwy?d!k4&fO2MgF@TldJt~Og*PkV
z&AIRnCA?!PJOE|4g_PYU*9|X}-9YPnD%akx;IDKjwE`(=_1QM@0TAy;)@pkTR+Vb2
zuC+G>7&44aq|EhfVW&j+8EcBHJM1cRPdxM;?_%C`>GvO7Q*O0{<8E40hI?7ZG%1qu
z>-B2X`lHPN2NTNs$L^(Grv2L};{6--Z<vgY{yR(KzhT9BVEe0%Z}<-4e(YNF9W~$h
z9SvXl4#(Ge2kqDFN;p%rov`bs5tsin?yn6Fgu^4Q^l>I#ky><d6wY9XcJa~)-paU6
zU3#q0!`6sH|8_(hsRP4bV?$h1uo;tM)2isqtf?jp?O9?C#6MNRrfEpob^1<XzWe8W
zf8B?ywh@vC;k&Cu3&#10tr+qeu%(jke|d1d8cp#>e~`&trpb}gq(x6#8hxJ}ym(Le
zscU{<sbfbj(61c4sD@bl0VfAL<uFZ;)Ut1X0k4?M@z68(>eM;*=K=%Dp=Ta8#}tND
zwspgP_GL@>BJ@n2n3rw}LJ#_N(_&Ui(L>rczP)-IXRskR2y-q$f+q7b+s5+_=rYXi
zZ?czv1Du~AkR8Tb^i5o7^dTg;bzttu=Qgf(9Yc<6p#QfVUwfEet_$btdX&1JJ9~1Q
zA6M{K_jnQUTZj2yxAdz=GhW%bXN_q4e-gkY|E=m7e-F8D7nY<Oei<wWvw^(?%QGr0
zw<>j87sI*jLkj-th6t8t7%Zi~!|==r@t*`7Um`d%Tkp3I$27t5alBwnocu*oHn5q%
zcuoalpHkPixF^^Dl!CvyrwEMaN?=UG24I{Ds4|Yw<~0~Wl+GoZ&;lhC$b{&BoMy$z
zc6<{^<yc3lYBME_cQGPm$iyHKV$V=#IN#b!t=^&%cj-GQvh=qo(GRyCWRiH^U$rT%
ztqNB){2qbmA`(cki12T0R+@$uCvv+^D!WcD?K+)p8p<{d-EiN>k;y;Fy4TIeKXSJ}
z2!-#58s8G;e~@e4p|tMEwhm;&JF}r(Hyrof^>d?3k?l+F9rr^GIAGA|TRu3HJNUG6
z@ad(46j9aa!%2fW9Hq2)>9Bz>JnvZQ99Z)1G}<3JlRI=lIdoy^5FJ-AZQsA-9YA{=
zO=zUUx2>CVE!&lr?Mp5F#Tpc$oZf)IPfSUD!`>zDzDIfD7ttl}maq1Jj|**B4(|Bn
zz&*#m*`L|*cqVWd<EGQ1n4)T?G?(!I9P7ve&;kDHtK@W)c9q<YWwJbf#gN=f&+2-B
zE}QFjvw-t!_y!x!ed2t1`L};4&Nuy<A+xEU)QZF-=WvGQJg~CdQmCCQjEv!HT@RD#
zjNb5VrApZ@qV+#S_BC_^%Uem_!xm4910#T;s7?B}^y7U>{xu~Flu!d`c?O}d0*x7~
zx*Y=1@u4Dh!%KIrrQ(&^yha3Z5Z%He?cqEKA8%9KZS#M+<nF!S)cRIpVSlb`kJ7a#
z+clVN+na6LmuotzG#$Nh;*(Ir!lrvaz{!}5=hTBxBU|}ssM-}m@?Bm?jE$sJH<u5;
z*ACz-IlOkW=Ppf7CRISt>Pvr5$p%VDELWBCpHYsI$7v=XB12zpvEgipkE?H*56xfA
zG)0v<92wcf+*-WtDW3dVbT6u(aiOeM_Y6;weZ1|NQr$Cr!EVD>Ti~3*jn0_hhR*4T
zNe_;goL}r({1ecDvh{F*L&2|v-_nixR$CNcDpJp*gzpG<&Mj`vY<*1GxSvj?gg+Sg
zRriP3*pOuptl-p&>hWcB8o_joOIL)8TTo<Xf!FNrc99)z)+08U6V0n3@_9HgCZ+U~
z3`Y-{e+6$8r`5?|j86+(6(w0W6VnF*$Kpx)ULDoyn624^1u{72opAU|2&cO=GlUq|
zZ5U@+04JeBnJ1LRY06YqwW9x?$|(7BTG22v`nPx-oZI)xahzM6JA89yNzedAO&<+V
zggrQVqq-^B_XkM>VSox~fI3RwRidbq^uJ`VdP<y<L>UHl7}X={N0&g}%nhdd22!K=
zTp$BL$-J*aDWZNNEEUHG*i?v}A4PZiqhzO-#OLA?LRcbkx%9<BI)7LW?Z|k10`?sJ
zON4HA%8z|aNzQvKO!8|jKnd(SF=zF|M^y{(AE|<pw`c(fShN6Ekd%iDHq4FOYRU@D
z4?=BALYqp6)Yg0jNG7O8RVP>aA|&!v=vww$pjBZl9BjpG2^MZNV~^J4b%a(wV42>=
z76~vl@G_!)Hg8%|BeStsado*ggk`atY*plZz<?Y)pP&yp-(Zxe_F%o-Z<I3}kcXnq
zuY%?br5RYOK>eRELy3~R1Zp}2RKj)J#^pfhl{3r2lgkaw^N%SF(X0?%rY~+NEqz&`
zuVAq=F4xeUY2KvNZ(b5MtII+CMY|+o6M47sO;C6dtSC{BY?6^IFW~!@qiWO+Nsakh
z$YJ!s7f5gb1AS<Vo!3)8Lx@k%(WgS0uTd*ezZNPv>DhYvRAKLQYAh+k_ld9Bu`IK%
z<{QfD*q4vAO0sk1ovf0+lq4O*ZwAf0UF(|d7K2pG#K<`1nDEHN$d~BnUr@qC%b!uM
z1Zf7^N^s{L`#`Y>1l}(xXbg~Z@<&JuR-WgJ4vzQyH*SZ*?f8_d|3}XADcAYmxz10y
zu1~oQpK{wj<-)&q*3CVWb+%o%L)Ejm=en2p#@|_X@I3_%2^hE~T%eyTP^h))&n+Ro
zcJ5>mks1^%K@E^w*;1-M!Sn0py+w}hS_{gq3|mTV`gvETabuCgU2B5eO0w)Ne*PH0
zfL`dXHKFWEcd3&Gew?Ql(Oqjo*_9ooCXM__e$HLw=&m)P?8-o?2~>pnYq0Pd(?M><
zQ>u6Jr}_ETB1d<v3(Bs9OHEGke0ct9k)ylTgt7&EO2p#+oyE>K;T!-@VJ8+hkQ_gQ
gtis8+W7Fi@wF>%4z5dQp%i~M}5>~N7KN%tXUp5*?#Q*>R

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/outputs.cpython-312.pyc b/v1/__pycache__/outputs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6c5eaef7a04f2450883bf95af96726061a1799d6
GIT binary patch
literal 8571
zcmcgRTWs4{c9#@My(n9@<+p4zek4{B%gN+1X%cjjc=GhbNn>ZbQFm4=i?kzKmb@gL
zi9Irqk1UWur^uuQI?h)-=mP6OQq=8Nrd?ngpeTwKXvI+g3+$llV%v}XQ(^;)=~vIW
zq#l;#cDD<ZkPh#?=iYN)=goie`8))kB=?7jzmo|01y+iW+b(SVm?7kIA`_WOk~t>A
z%&`%c!8)6C%yAKJj*sxP?nnxA&WLl)6>-rzmvl!w(2q-cBVKs(Npa2>@i9bks!pg2
z$-24vNIgSRtm2Q<v*a?7oezoZQe4j+*6fi6+UkZ@Pep5^;+@%FTxj{N1ZuapLzg8d
zA(3W<qx8H$Pkhc=BcIy@A}u!72iUq@*j5``4_N;$Y@3a30BqwfY&)H`32*_0DebMp
z9@7l%ExX2a%B^yn+^)1wadO8)E)ryk(mqWRWExJ?f-gFs!>;g&bS-kB;4iTlVok^S
z3nOM-Y*N$JSX`e|^t)*pn%#0tkHwQQO*8qagp$NI-^87p7o#IrE{=>|9lLCL#$t1d
zJh3pJRK`M#Sw9}XtH=vUMZK}0&oAiE<RAUcNII2L;(A&g*JHXC$4QG1XBW2q7z&>g
zg+v&cMA+Lzam=`ioyu>8mzlFr-4o0Hk5~s{WiBEpPQ`_nEOU6xK$WK$L2=1|fdh2G
z0lMLc+@|k?^z^)%p42`_Xu4)LB&}*xPtPi;XhPOZm))e9O<HUYPC~YkYAiLYjhU_S
zg=lJFE;_BG6g8$7(VFSg^q8tgRpp03=f3GxQgX2pxA~cF9q$b5Tc@dHWylO|-U-y3
zwc9fcZgknP2bQH+ZV#+Amfs7TVP$3ssCSU}$zvhTPLnwMA*^;;$OsvJ33SC1_ER@U
zmYvH&O2{y<3U-;3p{|$q2egY!P_dzmBg1tNzzG$NcCm!3!5}uy`P`;C4l82dzbt$N
zj6U{DI6xBORX@B`5rGdu9fEoQA(zQ%N^(kVz?Mb;CQmQPbin19KKmxqQ&XCvn}Ss}
zyR~E@4%fQJJ!`m5$$tLp<gh+BKRln9AA-xDR`j9!3-A8Uso8gx;bdZRczzLNFExBG
znVcKGcXT*SrAQ0UFTy%-lBK2{>=>qv642NF1;7K6_ttNC4}9%CkPozN1dbSiBkNs8
z;Jrr|^NlSVjbWoPy!Nrtc;?Z_W>DG)o-%@`UUnJ5%a5)X1k%&D(S6$JKAjKjTOD2B
z_r;Aj4z{Opi|502Z#XD@cB$YX4XrC(Isg6w3k?OH_zt}xfG^aM=3bnn>(NMl=xA0v
z_)UE<FZwscUPJ6%J+ao56^Eey`1&W;R|ZxcS+SpD`wg*w_4eAatT>z(4{o`6zo$TW
zx98ip%|KPd%YRiTUTEV&9@7<#ra;+5qoyYsolB#ZfwCBl{%|3dv@vXI-gKtqn5xDW
z&H89GmP(~T=Oof8EgGe_ZgNSGW7CmH>1q(je@V6g615Wn<p=~#@Yk*a_z~G`ZU21f
z$x@Enw^`?ZJoCv+j%(X&?|jzrv?Is$6+GnVi7eN-GO^nC^v+tq=o-p##|vCD?^!)o
zAn;lr-^Q1U=7&zOL;u<8m~5>9`u|D)i88N%1}y8pDOMI9@)4Kpv-F<gk==?D45(8E
zvpXfo-iKVt=y^da)|vH1Hk?pWT3Xf0a%2WTfI!<9)m+rlg7om?wgrW~5`vdYwHgR0
zY+Xmuqz_1aWk0)hhPMk9ui~O+ipN+32h?iliQj@6^?)iSg5v*~8dKI&UovAMp{$ck
zM|^(4<iT#tFIxI31QUf=wHaRYFf}|RNur!<I`uU2wYJn+bunQZaSl3bF#r!prD$%5
z`wek_P8{42!-g2niAQWH-4MGBu`4I`Y={GfIFJ($P=Uqrh8Qx$P)<CwAs#ivqdD<d
zUhFH&F6DGnP!)YaO~p&M3RB}f&>IJL4{jW81{$iLns;BrLdeYQAe;o7A>%|Z-Txjm
zi@s^aWHKYOFC0ZL3dYsC*I#EG>Wivp=6@Ym^y$V)h#ON6!}tmCmBds!6`f3`<Fkp>
zbjV4C$`oYf9%z1((--Fz74}R_7JMmcvydmgWGGK)c+xgEH0tRnuul}o6{#)t?q-bY
zK39N(_7MQvj_fnM`!>9ThIeqoJ7jo=)|<cfp3FD3J{tX|zMHZGYIlo4R+X3iS>%)V
zN(>Y<#Nf*9^*~k(=ERc~>@#SHgKNz%C$i#TPQ0+?<WTE#Zc9g+KJ=C5(^`V6ZL<}t
z)Y;Oau>TTfhb}?gKsk$}oK@B(wYVumGRzdK!w~DK<$uV`3$}Pi%WMU`TK-5SE#&d4
zr_5!`jtWXObX<n~2CL$9Z*igwi+;}wuDD|0Dt@VdL{-4sl$5!7eNn2qeJP!iMsD5?
zQ`Q5wo|h?iy#o|OjCvYhj<QZyk<UVc$phcT@0vU%Y4Tu0kG*4hXf2vd%qpgHDw&Q!
zBV|+Yv)+Yq>L~<eKMQGTcwy8dvecK`q5(X+)LymHa0&H$IB*`o1F|iWuHI*(Pe=2<
zj%*OzhvPrJ__NWkMzc3>Z#&p7PuA7GEs#L_MpK{B)R*l)@zdKs`|zs|UpI|Da(&a&
z|Lo(ZALqsPA2<J`^NY@P93sJxAPn*M<hzIS&0YC@C$@L;rFsZv2K_q>FKc_E+J)tA
z1U(4O05Ap1BC5UE(ubfQK^VbF0Hz2IrJjgeQI>iR+XoO(2Z6dFDC2YrJUML&0J<T;
z&ofUl;Bsu%H9by#lFV@(n;kvR4nIAd<MzMd1m3fzuaA7W`0}_h{N5IU`j+3xdkT$2
zXe_XP-ji?bC^+za;uL*vx;x(TP~UPuk2l!ES^~}<hkxlo!NO+?W2E1}M-gP!j;?6j
zwaA7z(>G2dBs)Ab8+Hav5KWDl{-hmnMRm)!07Y2ipw;uR8tatlc~za^`-nw=Hbz5V
z=SQR<lD01U6!R?uYn;(?_%(Of+BWvBz3oo{Q@L%Ki8vHa;i&_~&@IANX#mMYoVzeq
z(8)wxiW{OOuvCg5bJ!c=bC1Hk;Gd)Bh9}~Mu_9819s;H3jQA80YA#xXtVX16kpW-0
zp(3cZB5gRgsYEKFLHHfjAXWhbQqiI+@q5_PID0P|FGk~0WJC?4c3GK<EhP2m6h!}N
zb<u1{r0&I%3E8qm804y`t;|;C{=DVdmF9}47gG8TD~~;qWw!1C*vra`<UXSwV$cVu
zp$928NU<Ccsd^|DvO+MnhBg+#AFyPVQ?J5E^%{av1lJLq08nWwT?s8pRm@Vyu0stM
zaSw6O6#x&&ra!RZA29p_VC~)#hwl)Lv_eK8l=X++I-p?_L$5<d;850o=q(Qo5L-33
zZv+k+frDB9!GaqC9LjT{`fA3;1)C0xEgg`HvADaue)LdO+_JTkek_e4xQU=j0C2S`
z0yHT!=>h^EkkC+;3w#z|>3ec_HSi>z;|}Ks5ASMv=VX>^$+iuy9XHyBbKJ={0_huk
z>3H3HHp?}CrmY-%azDqN1$pWpz~E;*$MtWa3bI5AXRR$t7Xb6yiV_F_XEt0MDP@&x
z0Vv;g$W`lHRkR=KEd;#?=($!M+5{pH{1N=Mg8+WbLo2Bf9K2)iMF!p~0H$*93MdgO
z?8Tgx0OIeQq6rzuNKu6XeOxn`hNyb%aa6THw6-IQ1+g8cc&)Y)HL6a4nmE%@MGC4`
zUz?_rsv0g*r_`6|TIz?3_?3oIo7?W!NawTHUBY@03z4GNY`C75mE^4jNC6hLzSGKh
zX=c4u0QWAMNXg25^&*TKqpqzPfTSCEF42-TkP~s;^v$Q!kX?*gi4n7DhdwJdD)9;>
zXE!#Y8<~nh9w3oInhDT+P1S7D2h*21#N=>F%X~|S*@pn#eQKPkxwov)A7C35xbI<!
za?yuas$#G2U>kxzg}?S^04RIaHGbCj$(<b6vf13e(zl|m3_kfj<`%$Q1y?RSyY}>&
z(Rv`q9e`v*eQ-rK>UwirFJL=+R<zX{>$1^*I@@#F=s1((&VYyq+E(~y;!|-|H`)#v
zP2e9K-aLLP%e7|P53WrZ?MHLmsa*{)4igzIE8NQXYTwFtpVmP#qiyIlcifU`T=fpV
zc0dC@TPRFrzE&JEqi~Q>U@LM4{GtP7w&lFGn2PUW2kKGnupmel$#0?Td`>{%*%;`1
za#_(O{jMVIA|XwsRlp=PDTY%>)}4nv9y{qKO&|`@QZXKq;<02B#>8~#qZlxQ1ZFIO
z4T_{H8W=<9tYSGPFCLaYx|@jKEm50GOyAWdu#xHHJw=MA=NG}YN>-RA*-ne3rzx?!
zX-yB8M$&ayo}Z-MO)n&6aKw{~(j<_9^(a`4D-y&xQtiVklNz&_tJ<7-Af;$a$I`w%
zXq3DB4IHqB!Se%B@DsO>-ZkbSsvIu72+FwXB$le!`UlvC;IHAY1pz!HdA_N@I(c6<
zIP{jl8@<fH8*H)o3A@+kr{jPr^AmmvsM3=TXc16b*&2&#O3Gor_tn^xK7pC}tKhTz
zKJ)?S2HVQ%`mx>aWFPb^i@hcARa=y?3xdCgKi%SP$?ad!o`#-8UvvG|7O}hO*NR_6
z>|0UYND8Bf9XyY*9Od~5VD!DbCQZ;;=tm#Odho^a9$Al4R;1XEkmq*sx$Sc<Gdiw^
zJ{hLi3fX-2u_NwCU_ReP$oF8@WfrpckiY*E_EQgJ^f_8*peJwV{o9}qUyey<YUD*^
zX1X*7d>QBfI>IuasiXp&whYD(umb&V!0VWox7U~9GT><^NX99Hf}!~vd-Zmn-?8ji
zW<M(C{Q1gKh+A5sa%hLeu^MVb(-$T!od8a<9!sP&D#P)#3J$bRM}ue%fz?`2G+mlZ
zr)OssWgew}azU3;X{q#$N5XGs(xPGuKlPu-LT<{F>UUv3)Ye&9oI6;JAfSeX+7L7!
z@HHZUW~<0T_ID-CY`=K@=ER-o^&9VB{2+Sk_So3PThSZ0CvM)Jpb@9Z%_@tU=~iGc
z{o<rbK+WW7TAYe8ct{vlS`y;Gk53LYA=7o4Ow?K$E=YsRx8iirq*kcDe=atwSRQj!
zNyWjqtC)>fl2Mh~_#&HQp#IND;vWHkdZ{B~aKn4#YwwY7>Ibu~K?t@xy0hKkjqVYn
zdt{^giqU-~*L^M5KKkG?;LbDGn149%`rNJ8`^SxQxBl|V`pC<sRc&qLi~HGgw;tRu
z_K$;8dV#sh<U&_pwZ1(6qW3QbzZ_gYzkck`hyJz|+|+F7D)e~o5|bOg^wspshQH!o
zPCvMw9lrD*-eBI}nr}Oh?>LliXwG-_<XigkK?#4IJ=;wlQ78}(FMPYzKn_eW-@X;d
z!E5w&<T9h7H};D2UFZ;AwRK&PxL0S~7X~;`DyVJtzFB&o-KHZp8COxxRbX^tdP`qe
z6-`BPrtZBdKr#lHN<{%y@e0%-1QLQX0L*s$Koq`rGz_e%geiZ7Eu%-(i+P;lWylDt
z3E)gc4uhivA9qvQl%is}6a*p>Fi2`5uBjMbm_mAT2AI9V&pD6NqK-7ho7DTdLBC4T
z=-TpnsKY~@n;&3bRD3GlznVa>Q<a*ov%oI!@#c5c`+!9~q;&u+I2eZcm5VU_KPQ7f
zCx?GQ8vm7u|4B~#yTku)-0jWQE{IaLg<i(<*|lu~ukCBhL8#1Z6L=NA&k%p}<IE?S
z6?yf<PtJaE*62QB)E{{uf@8yaf5i&SP=NpdJH&bmwAx4!%`lh%un|~2LJ<xe0l-FJ
z)lU&U%!vX4U?ZTkeTi{1z7_b=1Fu3G?Zq(zkkn)b>|R){lNcf2a-iUV_a@)6#l!o}
mC5Ci`^I}~-(2{Ry%ljJg?Vb6?K)$teyWZ8s8l;_Clm7;rR$7z*

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/request.cpython-312.pyc b/v1/__pycache__/request.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1cb5c2fa1da0d57971044ef83e771097bfa037f0
GIT binary patch
literal 11233
zcmcIKTWlNIb(iFj;$tXMq9~G*C{b@wPkYzT-N;#4k{@eZb}j9u%cNy#&d8?BhcYvA
zEG^U8soQ#!ZP!K$Sc?RRfc8U+O;P8gXxgv+Di9<<IFT1*r(Q%w(vSQU+-QRUMS=F5
zJG{e(={QB(v32ix-S@fYo_j8T=yp2^d};0*sXrSc<Y$Pm&t3rz{?SCpBO(yNlqNAf
zH^oeVo73iuC1%NRG0uc^OWK;T#cUMj(k&T#%${+?92sZKNol6EE9L?@YnsovV{S^b
zrCT$en1{kGX>X=2)<$7_x;^8I`6%p2cVzrAf2K3mnF+)KnP4nP>CSX0(-rHYuq)l2
z>5282h-jC1XoF9OGrh51%5$gtGLcxsM9kzY5nAsN!SkV6A6=}U(!4-x6Uo{F8+<kY
z&{B~c6bIMNRp|^8gKMudxSE6P#VW=ikX>SMH3!)%Rg6I(dzHb}9AsCj7=xPEo8n><
zo2F>{FHmeLYS!%YiF7(~EiGy-mlEsisqFQrNo!e8NJ=V^j#@PL%3D_!<MZbh=P#UJ
zI;&acvYVRy^171BWr1(f{FgS;O6pQhNTkn*31vePm)FH4Fx*#ixinOFB_Sm;G7wsq
z6Pfio%1BzwURQ3!SEXDgz7EN{5?69J#cVt!$nl&M7c<vHL5^~oXEA#{l@;f6lDK$F
z%qp6%fv~c<E^2L6;#Kj>8=|ae{FziXCEvIzCgfZeIuTe_q>UtYQ@FgLtZyh4L16Lo
zxvZ=tvdYDjtN`x1n7cYxWjju%bIF_M67r2Cn_|o(73APQ>5dQy?t+-vK^p%F!-83~
z2o{kOtsy8Rn6_FV<wRQrvWhJg$R=7VPzykI(O$tEqGPS2(q2tg;X0vaS53_>kr#N1
zyP;jZwN|LlBLXg3R?RiCUa?gm*G(cPv>~;Q*Djb=dj;P;Ys@2hg$}Vz_|4K})h77w
zaUWKC7;6_gMJpRM9W&O*34wcD%qMmT?V^9xECg#xbW*AnsG%Baz@T>3P=f}wyM`L7
z)Y=1WbXDLmz}*1%=yL(J_W~s>^ue68i&p4S1n^!55k`c5u}>H<<{kTM69!=hA|T0$
z{neR+T85z10PLwzt)-$ZOPW*C^$!$T^EPU>=8-EqArAWtHiy=_uJ09w^I}dmc7nzy
z(<#vTcq%K1w>3T?NvT_jbX-YgM9p2PT;D00E0c+@>f2D(_;gN6#4A0Ke6SvxGnq)<
z5aV(pt!VajDV38_%BJR4q(oAT-w+dmC_%YvsOj+=pz5L|p~7i4NrXL<O?oPeiWvug
zXa^5|0?;FpH|0qj>GaFn0D~P-!Fa$b)|HUF1+a<*1&jj>>!M%Y3YgWvoPgOFrWmcS
zc^R#m=Pe&r+JiC<M$fn0HRoHhKE=-{&2|veRVe9Va!QavYh4Vg<{;V1u<Hacqi+IY
zM*k?*#w7FHUD(UOZ)cS3R^D<qleer5F-kSRV}6}{&D5M%TSuO(8TD05-}TpwV5CZC
z5Y%9d0NNO1^lE;0vN?TiqAJ56!CW)@#(1+XWy+8+)(6I9hSmd&leYtA%(n8fK{w~^
z>`Vp;V-@IpcN<b<ZJNQ={B9S_N)!6p$*K&4*y?9J0(Tu&XYB~%RP!y+N$5kEQ3TZ5
zUWU;g^)Za{A`HvBK(gP!9Jfuf*+giG0Y+8MG6-5<U~o0BnOj3oK(dMFA#gXLJhV8>
zN-LKb1SO6!xSH40J<6zcWnN*_YF<;u(3`v)T8%Op0r&B^f#GZ!T0`e&lJV$FRJ8>A
zZme6r_3nsb7?pf$p48|=Rf??r9;>aIvsH!qjM`xa5>*KX)kq#@v`rGVE&T!wiq?Mf
zRvZjuR$djQih<rb)?mRSiL4N*H{y|GB0H)?uH}>)k!xaPBP)xFgf{RO{{>(4B?<Lk
z>cIr{K*BRcLLHY-wWSCqxRJCD>K-*TsD)(1k%{N1C&Mhg#^K2zp{i=`%89hBfNLge
zEnk>Bzk+U@4ICXL*hKWEWX&Zjxpk-jy(9^jRC8t$xAh}P);yJB@iUjN#?LHY(wyRL
zn2~rwx-M&$>!PAL-%O-8#6?NUNfPd43AcvCV?}M*je6%!*4kK)4QEf|lDYLwtu+qL
zsB!SgS^&#dMz@}ZGwMbzO^>Kn8Jx@-K_3bx!GYXRM4{4c2{)aDyHc}&qp7u{jF?U4
zpawWgK~&b-;gD;fNoY$oZ>80058ZWLlLn2k(Ib^Ls<)B_ZGk4@>D=`cwBpgHKor5j
z1;4regq5`*%pg5&<5}@5@zo8O0(t_=5*~zF7}@g86kQ(yJZf;2#nsg9IBggd;d!j6
zN8@BMy{c;(U6uwVquPgxqOTXum9BVn>Zn@cI3+YXGM;de`tLuE%_y1mnf28Almf~i
zDpR*Nj-Nbn^SC&ZPF<T>-&AhovNN~R>CDWn!!s36WEvLQ9*5~kDe?H0x1yobjDnqz
z(OI}d$^)c(_&)cpr_?icpL=2tm4XpK-KD;1M0-lTlbCn!Gj=6^8hx!8eM61DQR2G~
zEaq`1N{y6lWa?yLa^d}pKN|XR^as%&PS84k-Z@z8oKQOfd)HN(n$fev$O}S|S56_+
zx9<uST*LdlefJms{Bp_NQ*e*%`v!`>Db+Vs@SQC1Cm}8MP8EAksJ$odFT8uX<na|f
zQ>tgG;5qrUccR$)s@nVN1MV+f`<~vSC#rg)1<%pa_{rk<f;zrX96zUypDT5YL4POO
zA8;RgM?bR@U$_u{W3T<q0{`ZI<PdfwTndk4-u1NqY>DsL&Vc*?9bYew4|@N^j*z#b
z=owNyLj}*FvW2+YihRGy_ZRsQl^=P+kL|bn9{3(8#lVyb|J$a@EyUr5nJhcWSQP6R
zDn;q^be9H)5Ra5bp#66}P<7AfPr4^}2ap<kIxxH=6i1G!Bgggzjw7kBG%!*eIH?Yt
z{QjIeFiT0FIZ6N2?n-fLUY(lXi!2~9{4^Zh9V(8`s^hbJVLHiO`<1alBLlS6-m;zO
z?e_sK(vJmu_VrPQN=sJ}A1=891=rxy$(J8r{Ag%z^6dSECw#ON87f9*)yV8#<nu@f
z??<PK(F<zy!d~>!eePrX$N}gX(ON1>nKb-SprZGN_`yqX06c;SK_0x@H6S#8Kt+q*
z@Bx);AOQ+g!;`IYfoiW}3<4^R!7yCUfr=Kj;R9-G0|`)|8a`;13)Ci_B2b&$DuLQr
zEy*CD8lD=XL2Ksknm(-bVwptEOVQSv<E?riPy^FogQ)q5KwY}Mt~WYS_y4*ch+$Zg
zX<1srCa599r3E`CU4UE*($f{<5D;E~6GRf(F}f9Dmg#vC_n^G|4kUNTr#$icN`c;D
zAgTtUrBI|8no>hkrSMQOd{hk|Ep_!5yJpm`nNqN?7@Sap6Q!QPV$aKJ&&#FmfnxVz
zwfk_jlu_IOjGFyDMgOqsAFfsy8vZQo@jA=I<8Vso>uC<-&`Q>7C+Z~C>NTp>3Z(j%
zHz|f3^RJ}i;45K?hHnjG7L8xt#QZ@M?38Bu{Gw9XW6x>L)z}tl_6u8kaj7Qz=<Yc5
zp~+5KYgQXsb3fa&4=bc<|2D}c`M|UkwQJ6loTAaCq^Ma^Sw%Vl!kP^tZemuD(8UH{
z?6!gk-UXyHkVMTAMiHf}kjS_~OlJdnG3FT=%e~ddRQ5Rn-@=;Sh2#!_(}nMRkos%i
z6W4Hw_ZIm9l^-bbQI(JGMxXFUD6LQB`}8woXY*tJ@cwTj_XOlzo}z0^b&VBVdOcy4
z4;T3%l^@z!DGr}jhfnVfFMP}|!qLPZrAnJLv=MrTW2KskUL-^oNHg0jkPXu^kybz?
zYLX@(`@lr!OU9}yyW77ZL$ssOQ{D=*d1}i30LsfgNbZn*c8EV-fn&U2KlyBDv7@xJ
zlK?y-HQS0bI~<sDu&$e>Q&5g-fb>OxYJ2ZQzmcx4yw%RST&4XDitGLSxu^ZXk)m%z
z^^NR#Mho`QXZvYv|KI%|^|Nj~O$-7X&lc3m#$>4()8~Nx%)mOTgNT161rcC$=eK&E
z9b%RHJsj*HBzH*tV81)KD-@^a)akjs@zbj3bisc5*}?zcEE4Y7XU0PBH?_9~c`H;q
zkUG}i;V9~sEUNmVd!F%vef-&8qast)`Z)m4+XoP(X}Uj}Dc{}B-(GeZ_g#|(r|mVN
zKexT#Qg)d@4As1JCTh{I!sl_a>3z6iTSyr8*cxVY{2Oma{{W)02nlRuG+q&vj}-XH
z61d0SA=Nun^qx|^rwZQJ_kDq)Z&dY-7JYN7Z?3@4QF%0g1%86c531h5qIXvH&KA7q
zsXT7CqVF};_gaB}t>o!=b_ET+dky*k#sO0OTSHF6*L=R&2CHr^3}<MrlpJ5BZyTZ@
z%>boQF(n-KmXA$SjrczSL&oUC9rD!EQ}m3fp0VAIzwQ2@d(U&UU~giO|Nn;J!{uY+
zU;&7x!?}*b>1M-eQtSr}!#bpT4n6Mp`|j_-ux1PPS-Lu!o!<N*F5lcYx&xJ9EW6I^
z8Qu{vD<4~xo4}LxIBipNpEseq+iV{-yA6ERoHw&|=5!-U;};m#U(d-Yj2>t<{nZTi
z3H1(cK>gD1Ln7lU8Gdai&Jdbe7V)T@BfYgV_$>cNSkWvbcSy+-`1atoQ0$#nd#Crh
zW`5$CDcENUo|%$Aq&uNIH&p*j(f_LIf3@g8t@=;jca}V%f<2^9wUY*y;tD>^IWQ&#
zL8r`m-AxN`MA+?vYmhw8!Zq6~3Wi4L*K8i)EyBz^S+-Ip@Wpg*fs+nFN$Cripc|(-
zFz!M-%O*90yeuU3lgdjXToD9acB_L;Wi3_3LW7V%_`(U7>i1mlxQg~J)!y~(&lkIo
zsNF{%$36<}bzk_{e(_m*VR$}h<DNGkvT5@<KGAiOG=H`J9j3-d!cjAy65%?Z(xoJB
ziu%Chs@13=mav3AFbHkD_x9J{F8Knb-huDjeE;U|O9gxPeH%tMN*@1xHyv2iLBpL(
z_*Ec%{s%GqlTBpAcwBSF<C&bWkw%!0$G^OhNLM%(aN9I44R5j1o6xj`Zn%WEV$Hgm
z&LtGhs^p~P4b8S9W@QLFI*^ZdX^F!GwMx1OiRMbC6SABUAr>V_7{ro(2a~su2XA1x
zby0#hFzy;W!AW024sIst4=_Qkq{j_4rV`$$CA33Q8WX%MNMFVTwMdd7`GC-&)2pR~
z*Jqlb8!NvHYkQBBy(HXQ8jhBx4wqgzRXTK})IVGbhDt9TE1kReX<yQ0T{7)=1j<$l
zLC~YSZ(Dvpx+ADv<K-5eXeV7`yF+Sdy6n&iP7)f~<<#J0*`*VB66o4qc(_(}>v${R
zWseSfNuXz2c$hA?>3BN{h9Bi0=Antec-f~DJ4k0&0WPfmLywQB{^Mo8PVOXuzU{B7
zom1t2P6!fzaC_+C>*bJ+cM)G_xm$;OND%tIGrxUX4UFv`Q3EsOu+Hg)YIYpkZ|^QV
z?p7yf3w^U{=c$i6)Xv4SJ_F?lakd`x>(Z}Vh^?(`?yx%d+Xl*3$YENZTR{u*?ZoN(
zr30V?qilJSx1KTW`#QHfwv+FN9)7-TMFLa>EwxavhuB)nW|Q@m9p#q<GAyhUKuU+k
zw&#%rQ94F2So5ZxB=Y7>26G;(*9%VUyo}5VgEvvOxvc(O<$yp|?lM`AZLb`F#Idr?
zWIeU>rN;~E@ChWGD%&j9u3foIAbTtyU<O(=IQnUe)p`k(WwdNX0GjFuZ6A5~xiY2W
z9JC%dD5sUPc5bii%&6g)9<Qk3lb;bF=!%LunuI^&V==0OuYvdZh_K%?2&S0DOhm3(
zT#DU$W40Gcw7gKl{z3`I3niQ{lyJRJf`6fe`-Kv%g83eyznZYXua7vf4Sr)_t@)Kg
zJN%wP=lBF0{xSmiEj9d(O<UA1p}V)$p}*ina;uR<MACm;FkN?PHZBY3Ge7U>V9td}
z<Iv1D`ixpj9B<1ImiJfAHoaL0&QtQgL)9`533>;<_cq_zEZBp(B2k}h7+7_kGS0KH
zN~dZ(VB|G?_;$&<Xr=?#99OO`E?&B_vbX@(du*iUf~>o^?6y_uYK^1&DT=d;y#L$o
zVsJ)<|J0A6y<V#8EFKy7cQ6Ubi=B1mSQs7FI^t)}FP&dLx400$x;VFdc`1Hr?uv92
zYLosHlG>hAZ??aFlAHLnzrtedzBpL)jH;f|UE5xD1W~_)Qz~s>atjh%LLrxg<CGJ@
zz0<hF2Aq@A$bK2wowaXyR~Ii`URjJ^cyk$kyYj};5<Cq`e}Yn8V<5{bm#<t|T+liV
z%EiT{vn%J~^K+D5m7F_$`6?_^P1*Bjmo8sjT#)`4tK`A^Q&P#wIsAv%A-ti~9IAhW
z=p{@pV1jy2lb-@0{}_^c<e$0T{no&J;l0#5sc+o8bGFpk_ds}*dYJm=%{!M%;gRi?
z@4WT?Ti^O(f$J*O$$3K$xJQnMj&Hi|oCix8?0=v<+I+bA&9@6&M?<+lq?T8Q{gN|T
zLuk|6@tioceYp$<`p{zzP5U7<?K-_Gv7<|TpZ`cvPh6;qeTv2PvEneJlhW65w5WKR
zCz(s9#Uy<xoK9Rz>aGkrHJW2}Bb!vfQK>u)+Q7Gl2SEvqwgmR0;s9YRM(f09x9JT2
zIuAUoM0#3(@}z!}=A+E|2W#EA>Y$v4*JkQ`X->-8P*Tu58Ud}95^f!y*2Cwz8$`V#
z>Sm$4r1diyFd&s5-c{n3(-kwOzjC{ooL)bDgl(fV{1uZSi+e%qX0jNspN8jo{Z~zT
z$qta9UYFK#KC3Lk9?&)EFR&zs>MXs7piS3f=>Z~Es=U%eEPEf5dR^4)pVPh6Q_^1n
z7fr4F7?QHZWHKGtiHZLg;`%9>`h<jkN@i3t^E1N#8#(a_Qf59Ov%fZ5P38jv$**`~
zI%E2TjQp#``w2Jo33v3@wm&qRIzJ_tes<axG#z@d@aW>hi=Pny%deS;wY|s<sNBHL
u#p2LWb?9h`Yb$bNDmS(}sXw1l0+TqV4jro_99M^qmmSuiStWXa;=cjBhI{$|

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/serial_utils.cpython-312.pyc b/v1/__pycache__/serial_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ffbbe42d47bb625c2111720c7d182c931817e445
GIT binary patch
literal 26108
zcmchA4OClKe&>_)Bm@#jAV7Q>3xhEN1IC}&CQdMR{EZ!B=YyGyB1;cjSbXG3*oMHw
zP16?7q+>jjspZyP<5}-UK9e?NJA20Nq#LK(J)3TOwvt5(c|%S;GwE(;_v|?&xSL7O
zo;~~f-}fb9kxX_^_a1cLefRs_`@jGD|GJmI%FoZ^;KKa3LmwUGxL?qV>R1Y1md1=6
zca=NI1-YOh%=OAoL$86o8+(m-8pEamzLy^`_nHlqZVFola(Z)Em=9YAa(i=G*c{Fq
zu=Uzl*b=r6<oD(e6!aDhIC>o{&JcF?I$6Diy@l*q)azo;;@)EREa@%5Gbda)P}*C{
z%2>nhfwJB*7S0Wq4^;G4uy9_ua-gcWiiK_ARRh(%)huieuO9I9dIoBGYX;Wzt{JH9
ztsSWAts7X|yLO<yw|-z<@4A78-i85hub1V|4>t}p^)|6^L3sT@b8oYOGjc+;(DFlr
zJXpQ0K}YX~ptH9vSlGK!s0$Ve4MCSs6D$sydN&E1g)M@o99e~}eMa`&7A)zY_jY0X
zSPq^$m|xO=POdNAr<C3fp+MLcETu9*_p4m*W5F^ZKUgm861J*!1`U+6j}KP7%J)7V
ztYqo=c(20y6Tww@uf}h+zzb$!E9*u6X`_%Y_Xu_6_gRA;<n1(a`?z4ut6Xr+4>9xP
zdUvz9TEx|9aa}BKE#m66xIL`hb?8+)`y!tFU<3M@AM`3MHDWxrX0)3ZY(l$xS$*qK
zU$a)<lcNT2%P*-5-Cm<)?ed4i{!?K=vi1lsjtGMR!E2CmhW%nR<PTFY6bXd=kqCnJ
zCr1VY(a_M~iP2%fYm!WzgQHR|y>x~{{)kj?T8R3hc=eqL4MwR%&Oqe!us?7X!Qy>F
zv};HddID#J0snsgU@$C*h_?k0>5H&fyz;`}IVx!j4Thq=@X+bg$dxC#cKaj3k&$pT
zbYv*#4?h_a!a=E2kJ#;xqK2RxU!upeh_0c*zR+pOwJdsXSQyBN4Ev*U1x`KZq4R$6
zbVMp%9&;dy!f6f3`6xD$9^G@sFRI<j?-n9aA$UR<j0}nNjqXsyHyj%D4G056;;7Gm
z&L3h^L7yLGxqLx?)c;Fb5x*p``K1Y-#P^}2k|n~bmU2$XpN=jbdD7Q)xU;9ncjBn;
z$<D45M~^>;<k2Xa6$2=#IjV+!OD*uOa#1azpJJD}pg~=d25yw|8oS4y=?sU5&W8q1
zdqRT|Auu8eo`@g<TtZ`h0uRqfgc65CfwN)36C4pd(IL;%hYug|bsj!^^cmlQ?w-9}
zCy(#-_3S-<p!4v7-p&&Tj&?uR25_{<GcMUN?1QMpHw1vZ%`H)%{%L1xbYQr3I5gZG
z#iR()<_ja+wzr?%CbWh_r&@<cqi2Q&ThE2V1Fh%UTIC-3Mxvo`q-A(iswH6ZsU7xZ
zbl9h~CN`p(?f6AX;9cYv_`EsZo#fq%Mni7PKblNti`ak^$#l*imMo$W9T5iu3c^CX
zJgRJDyYX_B8|N+>M!Be#W1LgRa>6if=vPnyE2(&h<<sBgaG$Y<yKU&kn&WAGNqIis
zz))}`Eckqq-RFC8#2+5?58%yf6q`^)GDIU(xyK`V>D9`XCBQ)3gx4qVi`2ur$j#^E
zU3_WY;aafTCwsn~d$DugX20BVsUuc+qxxEP!nQ8KuTwsG=v05kr&>_~`&1sEr+lg*
z+owjg&m7^z@^Nktci9jyp5_9^=kqyk!Vop1Cg#R9P`hG$&A}tbgrO(v@I@_Z8PwT4
z&h_W2@A~tHN)YWCFPj3U5VcsyabHJ&CX5rNabsG`CUs)IXMD|tmQ53;2@HDFrq-uV
zT@UIpu)dv_LoDxkERC@v$7wl4Lg$3=s0X-oC<xfcgkhod4T%Ht>Ojad$WVa?GcpnY
z5D5{_P+y)0E*y$PBdx(uAR1}u_FBYNv@h`#D^>dB8f6qqHTp!gIf<ttk~u^Oh)uGW
z7dNxA6eStXN``Y0f-Gu;0fo2?Z_L|=Kx7==MQ+i;S#2^z<k%*=eslEoJ;|K14|jE@
z9J}uZW`eWMrud!@oNadkNyqMlb@xJAuK8V^?}qM%-Z?w#IC%H$+rb(Cox&-@tg9vd
zV#?K)M4_|y9S0NEg9|p-RM)p3OYmi%f11NNy9}TI!f`M{BYmx?a~uC&QE6v~MapG6
z34JC$4roxy3k(gO6U3;mZ!nOKr)cUKAik~wqH%l~*ytdrZiC|HG*C4>njSG8<X$l_
zU^NAd40K8XHl}e?8qjd#CffAJ4a(E_L#1B;qA~`)rcChF!B*?X^HB|Sbr1_0&SG{V
zuCzXaAf&dUDhbJ{HAFhnav2_NLH?2`mYVFw(O<PJmIi;>95AuPSfnfse!`sgjr_QI
zT>CC8%VM@T%oBVM2)1!!dTrXmFlh?|`LHldnF}K*{68)XaTPvAB(&nqk@7;=Z6Z-W
zHVUyFQCKH(1KHMzxRr94!or|r!s3%mW1(TJvd5^tUF1DZ-cHJ7jD{pbFhYoi){MGp
zc2frOdhm<<7kF4Td7QN{ky8dlI%!+TDV*|NKQWuLX2DS&tGmU|I@TtvYZH#OpIErk
z)k|iRGw)|5)l-H=6PI5w>u8K`pLyzb$DQIk{=4pbjVZ^Gr2WWzN%bd`agj6S<~_7>
z)*_|OkFB=J1K%!))!esM-r5ll-7(w_ztc5a`^3k~8hdErDptjwi}SPP%@0|d<;_>j
zQ^u*zhiJDUZj5)v$3C#{m@jYsRBP!ID`zjA3QZTMZ1oAg{_{^O(TC5Mir};L`NPWH
zkMn<C>F(k!0erdU)aAHTji{@fz!4_{F2>Mn3Yvo^f$uX0`B%Zoj2gWbDgPuk<xq6=
zxDWwFH`eit=pP;yL=Pdx$gmIqCE+<k1R_xp=g$a(8hL?;)}Wy7-FR#1mJDKmAVGB$
zX4nAWOxqIHuun|`{UQ>{0|E=1H#H8DgO3Q|KJg%;mu;CK7C?gf#!54~+u~E=ho}Ut
zUF@Qz?n(Z4ZET~I8?a!@^~qbZxB+>@Hh5Bw&lemD_<SPmog$G4;yUt(rjT*+0Sb{9
z#xH`+ihGs&kbm+M-e4|^)js6#kaJU>j47Zh$t?{sESNC`6*L7wBV%Tii3pknOVA?Z
z2v))>U}<u|F66RUtB{wLVhQFV#ir!9AZH%l?Rd}cuVO7`cqr)*ocQrUo5Gm!LLqCJ
z;YyUZqkIv{yZY(7m$_e~d_KyT1Pg>x<aMJhi`))sb|9rJ=oHG4Qjwmfd}ATfE5S%s
zJyOzzlvTlEq56@O5~QpSmV%D8pd}uxBHvpBR&fnLx*XwJfOMr)a71Qw_Od-+^nV?b
zpoBf=L(wyyz(^!IGyp<a44m=E#JvX~?im~z7#{WbMbSU1K{+E6TJjh@&^;6d330|B
z^^6RLLuUogIsae?9Gm9_uvWBKUhpXGMAjo;C<0O=Du{jl0Emu==d>^=h~V%>S!IJm
zQREQ?f3P{??-S&;#fS=8X>zY3p4RkEMU;N*9`yu;K0lVsdbzg|&nW?1fM?^Dt-BGU
zvj9R6UBJ>6Jco%&7xDe!Fgg;&_YFo_KhA~xs0|d0AN-JKK!`;Ar-ew1NB>y)OClb>
z2Z*6r8Lx0?AQWwpheaxggvJCPeNE)dP&k-@18Ds-9Pk$i5DvKLOyhCVv4sMC=|pJ1
zMq28i2?A4HUwS0>rbey;$7n=s5LCZUtApVmFzm8R>xEN|)1RU(>QdiS;+1$V#&rQ_
zSus_<GebjXy?J5*GD<R2b);wCvCghTzTUmZkNUcf9(&GrV*l~IJ^POy-XjuGCFLj(
zBA#S#Y{CUmviV0Y_)d-V^$B7`q}@!a`BEm0aY$e?jvzZLla4bPMjLZyE(Hx=PM}DH
z$^l>6$`iJlg;h0kt9B<>?Vjvja93Y_`O3>P{EzeB&YyMfn&e-zFIu^cTPOKhYuSAD
zdU{qa*c@}Vw)?iW1$*lU_BQOF_Kh+&BuZCY4=)1@ctkKT_$C5Zxm?KFP8%*{YzPw|
zV6w4c{n~V*sN!_)WZW1ulH3SSnrt-#NP=2O>e6G*a~Dj{apw(QQ@7kx0zR)vd=3xs
zS$L8~o({yZF_md{%t|CeUDwEtuj6H`WZBTlMK2*KvIiar5o2y{-Tb=7X(3^6n%pyM
zuZl(IODnF1uY~7Hy~$E<yf#(ZGP!4}@X|gIEyZOIR@YAM`M_TFt5}ph|0zOn{)%@K
z_b0g>kno@*8ML-Gq~Ad{8q#s&>5Kuza3W>71Ks=;h8gsxvPKP{urmjA<sp_g-t?ih
z$>W3lIywY)NE=`A8|a_-JiKKb(F=$gtH?UYtdj3j5p|?37->&!Y=jN-yvsf3s!h5u
zn)7z&<-?Z_&)Mse_PXhwc<rpc1<8+&bS`RprEMqoliW@oJO<uWNBDvP?mxhXd<L6|
z?8ehLm27eXb=<^4jJJk$)Y8PM{7|VYgD){eHSE@}@fUh2tyV9j6Lvjb4fPW;TIPa=
za|YH6qG6V~6?;J>8*^HVo1!F%VJ>KV75(oA7q;9XwrqJEeQSTkqp^LaJ)DYLR~QS8
zs?mBuqq+Lgx>o!SkD525hFUdNf38?Voth`31|k-hxfN^BXe+ITW{gPVvf_B1Fh&V;
zGS}athV*BI#|ku(1S(2IEOS_)3LGgZUtB|3l*CTV1x?W{YFO|4A8<kb4>b|YE9qh+
zLzGxH=JYR#Zdc>_cc>x#8717zT$I>3=K7yd0%;GueYIwM;}_SwTP+^ltA?`I93?ct
zT>q15NPoU*R$Ek`J)GA<@_55h$?$ZBoQ+T}4c`)d=^@TQ1P%8*2n7-${)R0bIjEB|
z2=43m3|9>X?zIvg<ij7C&Kp$5#{_JMc8o0>L>i{_{aecIAbRn_u()fi@lh<uNRO6|
z@KC@Xj_hjD^2Vu}webFd`xUkz&QxCTv-0+-PVCQ>Rk7yRO;eq(TjD2D&bANB+dpS0
z_m%QW!<ggfseU04h2%??k&T6kVkH_?W$;KZ(F4NqOUaVQ+DOC<Iu`_KA0DTmbD$Vm
z1l@cJ%7dU@E6J!^h@Ki2hoVD)p|H13>_q=1Gb7I>%LyiYmkKn2oBVDZ9F}qhgN#_0
z%t0oJ<<Eu&gOWqdsij83p@4u2M~0zVF+)5dM!{)Dhla@)hDAbSda;24ABpKiH^n;D
z%9PlMNH|a`Op89tv=WR_6b~bjk%M9{g-EI=D`obI;*iJ$h$3wTGA(G@dm$>hyH56;
zIC{i);<;mcp)xpna?h~?U55_ug)$~QG!m3Y4POY}Bq9~1XIAoAlq}Bu2lnmX+jGKq
z?D)|WN4t(5PA6kn&oZf)ljz4I1R{2623r3DiIMLCuR!o_E13#h-*ThlTF0!dfo-n!
zNmu=JB;{%XWdqp;#1w(+8*l8mwqw>-AK&!W_S@Uv+I4%^y^3VhA(nq#(zPybO1ai2
z?CU?4tDCjeeC#UwgaGtG#i|?LYu@ReH=e!uY&`PTh1(aB<?WEolou><rs4uXael$W
zJl4!?W$UbML-tB%D>uyA+E`jc($x@mrCiMkdoycrwz6r~ww|SVlP)5?TrCNEi`<#V
zW^La2lCrD4S9&L(Tp;RU`+e8;d3R;(>8bIAvlcR+;@0@Nlxyo9OTx7)Vc+$!!!_sF
za^JCKp{R1csODDPbmU)prz;mZWAhGpg*%o^ybB%Y(Q&&xJ~Vh3tK!P5JFo1VUA^@k
z+g$sBWcz{lYg6srDc8}2{piPz(#tPhdTGI4earHO{iZ$M^Ul_}oyU_qkI#B~mP|$x
zK^b%N81dSYL8K5~Vnj+DQ${!`8{v0R7NcfWbz~!8L_0Pqjd?-~iW_two(QI8PTk5u
z#~ZSdF3>k*C0WqhEJVv$5Mg3vR3lmXHG)KMHd?HPbux9rG`Jy3YnQp~BcbAEMhdH0
z)1Lh#qgdwjZ5D)ZR&pkr2qybTjGOu(jFxu+2jf2^GZcx?ZQ27qNY<mF(<4J85hewd
za-u^_ZwSnF#t(gyWstoxj*sCHaSUCRiqlcU@y=&_PaoL(jMzm<782<V2E{?Vh_n}`
z6X22+IF#u&S#!&%@L}X0t6sMMsK`%2uz!O*ksI)s%EDPZ=UAO|tWG$Z64oa84_2?a
zF?wxuZuOS?tG7&Ty4wET_B)&2-FbKCPad1J&O3@OkA7=3)^+3HwS)2EId4bO+i}0D
zBW<N@nt3+m+I49UMY*S<bMAFX_qvp;fl>E!_Nt`4YR+DpwAW7WpS3rGlXAK)k6s$R
zJaK6v7Pt|*7K#@q9L))9Gg~*=m(8g!T{cl#Ud-u~3IlXnddnPuF3Yk}09so(*_KFD
zqv)3bv_oy;{}Q0JWu(?a470in44f|O0KjUCO3$n2?AI2So~G-hC-`w5<+IWM4B$y$
zZDHGbi#K0pyDL$T_}k=>&_f4j@ptHzpjVtEkD!*puVfdYp+ARRTj&d25Pu8tUUM2d
zNesBGJs@b0kmvw>yQ(lai`TJLD}b{s+4=<)`!2lf(EPEhI)<IE7NBb@xV+=iju<~z
z)|4!3x^HXx*i|7T_pb)B3r?uut{%8@;Clsg&ZZ=^dizt(EtBSXNAXnPYUm1708m&!
zZ6Ql7h$zm0VuBfh&ZTL1Bw_0ZG%t55a+Vdam-ztC^k^UzbrtM5_%Wo&>R=*jc|e;6
z_j--vyb2G{L4l}+YM6(XZ5=}V1TQOV6}2ohPAsIvpI4BcQKYXB&%sk?k0K;1H0dy1
zh>l8DqQOYjDiW!^d>+puZfx}m^Qe+)OH}Y_cx)!ut$*X}&9k=#{*mcl>Nh2wYo@HR
z1`x*iC3nxHO84D8GZQ5A(v)<QUe(=p=S;G6U(&vBzJ3!^6fynJ=Thmu&mWpd2}6|N
z_wze*tv@L1<eh(NM(91BeAeZRDI#>hrl=2rUuTNaCV`}4*(O0-zS<;!EmVfxs13Aa
zfqBG;07DoRYh!r&$YjSSz~)A!5owTN?}M03B9UfjMf|S}^ykPEX@Un~;$xlfe(mnp
z-g!RdICS^<nG;j|oU<|MY>aRIz`5bh^GU~{g!Rzp_Z^4WHuJr*7G9*KmVK=5Acc(;
zp35D8JY7hmBqNqzo)g`IWN@$oqnK3)ldXgb-YBD?YrS5yl1(t9EV`iKI@Ga1b=YKo
z7lkC#Sz%P($<1usq2i=?@pbZcQI1k|YGg|UpCbIvU_Mw;@%zZGN_=VH(m6))3L?hp
zR$dhPtp6`6dH~)<?m=1Ajr?o*pp37!Uumbe+-tdsGVc{W9-V7Fm~1`x{^q~g{+HWR
zttTIpl+TqkCQC4zZ|%6fBUQ5Xll&Z_NplpMR5G4DpD~qIG{L|=iomY}_L^x3_L(%i
zlzjncG78|Ha;6DqW+H3}C}tosiKSqh-$N%<$|r`fJPkAh%ZQ!}h#K>(JdiTSXTgL=
zNLh_R>^}B4Xa4fcU-v&GBK^beXYY33*?%uMxqm7+SK5{=ZJVh}m2OMgx4qy0sYb?s
zzQiFjYx?!7%@)Zx7|j?w4QC|K#{XZzqi)#Hr-^?>X2>yapbcahcFIQwmpPrd_#*6-
z!&rSWgu)_mEF$gCq5zNR;URxiWOJs7<A0yx4Hq&I6lEA&yTV*$t|uE!*mKA)^R%a~
zuf4JU+WJ}BI>r_<o>ok`8WZ+LVtG$p-*n3yqh#3O6qimO_^^FP%CYmVai)#18r!Ek
zKXA6(F(w^56V{!;YCD;M!h6=T&RU)=)r|Qh%)}PMzeC`63}0sIcPT3_Q!x`rPh+Gk
zs$sOCA$$Hm;QmnCCtfj38u|<n-CA`smu#5qk|vne#j|9g1?7V22Zleg0K1vG$I4C)
zMn;B*heT2vGStE(M>{+j0yCn&HsQB)5Z?C<n#inzL}t3U>=LnzSrED^ky8X{Rha@b
zqm%<xraubX5uWt>*vx2ul?;7s^c6t4C~NaiBV}yk3V@>SiCH9Sl>{{;aQ+n&sU_UU
zlkHE<v|Z1cHc!9!#<`p4=E_<SBg@i$(^G2zeqTeqFrjZ!uFuCTc422QN|83Qo?<cB
zk}Yi5A}UTI<SyQ%Ty_~%%R9G>oL*2#*sI9!MWhcaT1=gO7C9jV{Mb=D=UA6?tc#o9
za@=;L9PN|*hp;j%s!UXGof-M@%WuD&*t#!KwLevKAYnhSWZ}ws3?!X6m~21z{+8MH
zr&8|YlXlqCBphp|!b!)PgmsNfijssH^17pV=#~}YF?yv%EL&C3CLj{<i?!r^9iEg+
zEG(1Vi7!wj$)dzCc?0B$<n4hc<;nKA=R(4Hk$BPNxPtf*W@#i6NysF5%&dr!mLh0a
zj%|xfY9|t27t6^btRXtdqv2d`_;H-#$cxbL8yL%1xlfEaX6q+KdFGANk@$(5V@n)@
zi)DG{x>)TZ!gbRP@omX9n<&0+u`CDi5$ufSx_CKz%v`valiap{iJ}&ZTFrT}u0;-y
z>8>SuES@qHnW360xw_-Zjztr~4{{48BU5{0wXsO7;mT1cuXZHYZb>+{By+benUP_!
zp}<@}?<%|6aiwF?gzy)aK!!yRZ_Z29?}S{+oOh4E*Ykeuy=UKpkPWYkc7yq_AyL=9
z2)mZUhC3(j)!mD{-*xZ8do9Vwo?2p&ixw-&H$Jw=;i;!D(d%Nd32AkkK_r{=U_TYO
zx9QHAyVVfjAuTV*+!0?z<Ir&jBZS9dk=0zAsNen&Wou<%q5%)!r#adH$t}s;d4?5D
zrEWzNguy>-LCi2|Qmkl%9GYZinx6x6Cq8I}ZAdOk<OOqK3qx@hW;tV1-tEX^L!SJg
zU9buTR63Zi<t#voBS=;>IfApF*7h=o(oW<lQu1WAr9mFDcqu`Pr8w*WBP`ZRj^IX0
z5mL&KQZDdHYz1P;4yN*v{8dOPM#`#3QmT<6Tgb>?>A`y`a@HWH{ME9>%o<qC)Z#!y
zoiY-1pkgg7XR0*InLW%XP#pVfCGgK~Hlwuj&t^755`b=TBj!!YWw!cc=bxcW*Ql)r
z$OKXqT$fLqW?lHBve8J@wkw#lz`AY_TUeiA!lduX+00bNN%@|IdqAuv`q7$&ndx=o
zcSxn5w$I~@Fe-D=A~lpvXaf@#LXXU;{Z>p^U;(iX@z6b4g$q$8@t3Ty)MO#AU3?RX
zBKBx(Sac{tVMt`HMUFCA;vZ9{w<uE%io(2Flw~>v6yHl;BRq9?qrqqON<5w7SVnSp
zBUMvIC=F=VD)qFReFHhbV3x0eJxaks<;GOyX4xR6q;%@JOXBoX(|aa)#dc*rzc9Av
z#*u4BX7>E}$lFIibC=~YGZqWi+Qv#PtZ2SMrU+kPzVe@tyb>|4QY&I5rjvHOWiC4d
zs*-d)klbK$wQ{iM_zJZI4TL$=x`G70T20JOBO@l=6o%kfh6b}tj<aq0-yl}9DD(Op
zUR1V|nQBlOl_2@I2y50b>eR^v+i2owZ<i_V;Prj8wmM=pv1QG<7{wixwL%XnSF?Fp
zG@5ePEXxt^ym>z5YJIS}Mlp{O74sMyYW~rx&T{U(^4!ifCT3%wv8ZVT7|Hzr9m$+E
zb)>|f>x&x}9om>>li+IeOEw7E1OpnW4c#@h%N%Oe7JRlvo>8kN=T%Fm%V`NhqC~YY
zhr<?DT|F{x{0>Z>GFsJ;Lq-cFYI*&sGi%FgC{^=h)Ifl?%&k}h;SlCBYFMSl>d*8V
z@RikS3civ?yGDK2pBW_}`jUD5LXj{z8KOr<PBB7Trz@f3mEqE-XfAYW68dE&Nyc^J
zi>O6a3@a&$xJy+GXU1xZVLducF$@up5>IEKAm7Ak5oYqNu(k|2Zbp-t%q=0;N3bF)
zVrY6NEiOVwAn|QQQ*E#9ARG6Z>&I{OUhAE8G(dl;2s67<?hOg&208iUjjvz(IxO8;
za%0ln7~hm~w<ese^A6|hdoPVGxT|7;sh1K?W-?zhyQ*#0u`zpHv#U1FIySMi^-1^o
zcu&gRmT<PQc4k*K&pKLIT65Cf91o=28xzir)X0&fqlP7HOu9GDp!IDD=Qb#UCS}cL
z2GdOZBU{1WLVzSlx>V>lHj-3HcG-Bxh)q8^q3bAM&!TOn*yL$D*0xi%HsDcZ^<q0G
zB*WaeCU0Wmy|H6oY6;;PfT1x=b7AcOTi+oZ#S>K9V+9O6G8iz<IReH}-#SOpCOg^y
zpjFS>$eEd?fx4>_%t$slft|6C75#+9h~|-5-#^2fCL`G+Z`Cc?0kWHb>ICv*tF5j{
zS}P}QQ%}#^N)xs<nqqvRbT!W4l{{fsGMU^(AovT5pq(#mn|DHCK7C?t?e^r_?NC>j
z7EC?~rJZwC?CF%FE@7>c>HK@Bo%J#URcjOd`$(pVz6c2iAv`wWrU_mb7G#@jeR47m
z%$T97Q0O#>8?=efHst^YY`@uPGnf`D;2_I&4UFi)*@@iH0Leda;8Dt#gUU%jaT*`N
z4&0JexRj$zpi)lOR^3AuHVjPZ!Okbh%)bdbkVj6syo=nL9A2BkOu!&JcSWkpW~_SN
zRX%xSzP#>I!K8JnZlS<ESFko&uy*=Ps-Sh!v{1S#7MR|gDs8|y8CV{?eCg%bx#^eg
zoOt*7yU))uNj;k|$pl6{V^I=xu|+wL09%xJqf>n8voy{>dXP(WV1%jkGB?iHo<YMn
z9e4WTS;7G*%!f9o*=H=`gg7aSR8pma*@4e&TW#hNzinVDN3T_;i<n4*NFlbPNO^tY
z(12{Rt<bfBA)IZ^!D1vmJy!D(%KJWfgXH}dc_eO@EQ+N!ZB?{P)rEQo?~l&1vU4bV
zR*+_ygeX{{t2{|-#iV(1WGaY-wtnkO5XX<2o|r10E38Qt)=bykFI)#Pv}K{dd3oT{
zK<vr*+S!5)lP1V=E`Re|-<&Thx!Q20;d_mfU8IMH=}Bx$%2AWB*071sKIhM3?7zyK
zPngHezs9^<^z}V%iK?u>cCZf8XUkxo4jbbZm4KVD=+aD`&;oIw!bnb9%{h9GFCxX1
z1BaGub}5lnLC8VRLG?n167}t&Un9&gH;TjdlJln46A)M0W|GaC1>da`ip6Rj`ctn7
z@N13~0>(A|PS2&o_+UF$N12|Yh9c_`uMuWyEMSvXO%~Ejt&!RNd|`_yPm<DQZahbw
ztE{Q%YYu!VO`Aw$jn}z++1;k3Y4VuHfGw)u#;ar&28N@f;$N}w2#hM*B{Qt&aNLG5
zvNIH)r=RYZc#<b#S+Bf6aT@?mWQhNnO4^vof{)o4Mu=EoD^^>ycM+r66lkbfS+p`W
zNyoq<{|)&v*X%-JWo*x_+Eiivq~*h=wv1&v6UDNvTsz(OX8&yE_A90DjJ;o<di*Iw
zmae)kOrK1ZHWAt`k2T#IdE=#<FM$wCST`j=jyXy$Pkd`)-c=kkU)hncubSGi03jia
z&SE3+L$j{-guVUa0@qwYb+Vv3cJ9rSZ+-3d*Jca0PnvMx&{;}2!F$E~y{1cD^Mxf>
ztG`=4U*9-azx96o)~VX7EmvA*i`LxfdiTKH13x)5+4TTu<HDs2F&j4cIfpmt@W$7s
z92*kW4Ub|FqHWl&L9AsaGnP%itwP;bHdr7^VwwALg9Q~rH4XX-h6^S}{ma%1e~MOA
z>jk32WPRdyD6|9Ka+`&pAWjq9FNYI_w}`w-kRppZ794fZJT<kv<-P5Fvk7Jk`2{~~
z+>$J=pV}Wg1G9y~^7k526^GtyxKkI~JXhJ8tZbd(Kd9VtuOV4+DCs;j-?#;43;6|0
zCNn8%&AEA>|GeT5*)HT4Fx!RS&+ja<zfsniU;M5aq4)C1&p`SF>}<-05lEl1tRz@A
z)nK;C(70q>HTcNzYX%G^nF(W?Ewfl4O9o|esal&1O9nO*9W?&bb8VH<WUaWhDx?1z
z4gMBngt&r~CM`)v%ZHn{rR?o*cg0_vJTaHQE}6eBZulU-ai%M2Z`VySKbP$7vL?4|
zlQm-qX#m&|{u}|?H)TQ1Z@7Vj(cE&UrmF)&@ANTvGJ)|o3`A$?Y`!kANZavvoP{!-
zZ2%lnD;hnew}pc|jN;N-!8^5rL*zJMpz8U)la)21o={$WFAJJO=-(~FcW}@jhVzWX
zVG1~rHUk-<uR{nFv&IHzYG!4mPVx$Ua+Ms+b~_?hN9vsP1t%5aXeE&ID5Sa3GmL}=
zRmN;vNW=&=T3Yh*<tU*t%~~SMa+K>Ki<m0}7Ox>Yu(z#X^4z7J;D+Was^==UBrCSe
z1n$(oeKu9Gd$McFa_JD3Y-4l$ncGzfYkk669y<t;<m~Fr(6FW4`zPrjoqg4`<-V<c
zzRELKwKZ9_b!O~d&D#^Hs=bp3r(V2t<Y(^M={*Ve*7%P5?yYm~j-<O|(loj6l6}Fk
z2KaTl2VTPJeH6bE?Z6<7w#4+sid~uFm$^**s@%wd-Cbv}0Xx~2ueM*On_Z}oq~OmC
z^9z%#ecO%>hzs!2dDj(fFy28%%?2aO^vJ@Mn>00tkd;>KYK;B5#y3JYL$}W2ls(X8
zecP38V9OxGma#fz!h)%aok{1;`T8~-w$H$iOGd(tJnFkv^;llUIwp#gjV`HHGe=kF
zbM)1?+-@R`2F-RYgj=U!gK0FSZfcsT#~(L{b?G%K*HLI11eNw>qO)v#j;7%!4m*oQ
z#}}H5>S$ZrErG7dCZP5tomjy+5|{*Zr(dw-0jCO5C>q(}k*|u#O{49uV`yciEfadQ
z((4}bh_Yf3b35%oruc`5&BW~lR4d9iGBM3<0+?~+mnG7H>s_}>Vq}_6Mjr0TgG5o)
zUXRW?>X?4K^Dm$U{rBE`m5Hh&siN+Lz57F3!RtG~H`iS2yA_yqHR`q_%6W(n+jpiM
z9d}L3%|uK|M@Pci0W*;f*-WIdY_}Q4mgtM>G#I;wn6Cn33cq3yYcimMsRX_lIwRIJ
zp2|QX<gD=Ug~IL?;K3-<@<7;~_#AnHMG7&|>PHm%1-#6ur05l~a>kbMBbv!)ke!x3
zChZn~ONdR(GD~mRd(%9PP1jEQZ`QxL`9~%3=2>?;=-^oG)Xs#x`onEx%ky?*rbe?+
zZ2Q33JQG=N%fpp*R`L?hv|GfwXO~$Kn?QSe6i?Z)-IqzQ^zqLo`4Br$isqd;R;onD
z1=*xg8DejPZZNKt)mHnLmDN=T;Aagu^k+;z^hc|?7{`-v*orO@WA`Spi(<wKwS!@*
z^^Z4Kw$>&BU)KA5lR_`UlgzN<3P!}2D1w%q<ifoI2L^BuYXIm#2(oigsuAknQ!X0i
zOqlp%#5^JeSJjq(N?_ne4%(a@v#xdbnLXF!p^sG!AA}vVZts1Ecfq~t>iCuM={+g8
zH{tZM_?G*QmIe2kId?<S-4HKMxmyy>mX8Z+U<d&t21{bs(Zrf#se-2x)~DEx3%kw}
z-ukQ-FGMU${HdX#ux$5Ii+9=Xg*0UH*{`=Kbb!1+BadOZcPSJmkJ-ME3`o~Y$T+Z_
z;;=V!A~6y2QX<`qNK~zC<wE3)ywAQvp>pyFFN$oT2^3=NGY#f)dlw=FMDkYCV4i_T
z_AWf^UF^B$jj`Hk{#xTAhu|H4i5`okR`Z(Jw&`c%r;}^9CM&m+LC6}i?7(BOxX|p1
z)h%*(O!u%yyl08t7VGWiwQ*R>;4#y@M32QP3ye+T?K54sVO2umdq}6}`?X8#x#&cl
z)0<ce@r`76s<cvUZktA4JmPELT7P@}5(O96TVPVNC+>;|;$=6xsj9rhw!>6a-l7wx
zDASwcrkmTDkxHU%uVS52U~Y^T#{)B);%9DGFLHQIbR1ox=c0$|I}xvqN8$}PzaiJx
z4l5p3U#|Hv`W!sybMRO!<zeXJBKw+-85h~rbS&EQ%*PEe3<N#nV8rM-6M4v<45rx7
zOBSMGhl1jtU>;f|i%j1Hc)Y1j+a5T~&`R5bw)J~-?T3!y`w2*wIi1MBomZ;Rj2~=F
z-%51Bl$t{<$mO!%V>Q7K+V!?csIHco;EBN)#|>WNCYfER<)VZ&n5%=P4<}JH(u1KT
zT<)NwrJ(5*5E{xQ4!nO8h9M6Op6B?;pvRA^OKAM)1gn40gA4LNhRAj+(KCYQG_HX|
zCh_zL;T_y%g6m#jmwkRn4C=A+btVUJ1QsQf>Tn7cXAp2D%X&|U>cjOZQ0ORvcaS-B
z)K$$ZU$v;1B(7AMaycW4vSVDVCu+6&bxKHPwXyF@I|#Z$t$q*A0kiumGrNgM)D#Ti
zZn|iAR4zQ0b3`7gv0@dKLwTVhWL$J7(`J%cK4wNN07Kp4f29yZS<?tf1)VUw44oQ@
z3i9FBe?TNQd&Ym0tcyXi_}?ij--pXemoZ>co;X6+Z8D%=M6Ulx$VX<g9#+sLTlLr1
z&gOWant1&s1wWTUkvUVFa%{cCFXXzWp1j^Qo9kILnsdt*TotiR)0UKL9S(}wIj4K-
z9FFNYYGLYVb4(Q{Y@S$Y(&kC<o?ku8=bY7_;x4bUg`&0dMdh*jSVf{1I!NN@T?G$Z
z?nSdPziiQj9RCy{n)*GXy|b2kuePG|F;f8Vnp0WprDqYPU$rHef(BSz83np-E2|J0
z_GkR7JfU22y;hVkqXb>f#Rn~EDY>ILUaM4mY&7V{slWitS4pFEBy=G(DA^)IBVqve
z?$9liIqZ@ynBc5Og&9<ehBp2hiyLTzHA!AJAx>6~PvaKADX16lfzF@{__CQvjGMq2
z7V<bg1WAQPIqGO;0`h_h%ecAUrgcRNs6(=cd;V_~UNmRI3Z%hI`X+MOHFs8(+nmT7
z&&?*sPy0p<y=YBvBL;DYj%Kn-;#a6QP4i?+tD#u0TMdod)IN?|#&bFl{aOfp)eI`s
ze2}AP!ED-wU$d`S>P^!YeD%J*`z2qO_sG}H^J%C%o7N$_&LORxDs3RNfUf0Hw-Alv
z#I=TAlfOva0%#jJ;>VR-1M&)K>0!5d0#OeP;|ed_T_EoT>Oxvins?$<>9Q^5GA&%M
zMb(g#uSE77?7>yIyE3b6@tmX!4A@n8V0MSt^}3l^Xj8xzqSe-U?10Blmw^qB;D!Ye
z0nZDqxO^`1f_BXowi)~d{B&_LHU^K{Px)T5p{Q0D;dx{MO)lX6%~4!I77oFtoNiIj
z^1!UmB46SxIh1enDWWh~as5vWFInud3&gw*@h{jrHaXmW8WI0B-k2U*Bzcl7=>Cjy
z<aQt3v-io)lZQ`;q*;|*bd?$;v8)>9&S=R=xG3nO`%mRVX5z0XFD{b6ojtfC)!&Ev
z(0odtheRLk3)FX9sGvj&K4mPW!nC^NukqR?Qy?4>m#AkC$@>A-UZ9kaTZ~9~R8YS5
zTK^o0r+cua{EWP+p}jI#1?So2he73Q819$hLH3z7g;eG9VT<<-D<~P(8QPuMxS+62
zow*}vs2Y}xD;N0%?R$IRUF04Xb1hrm^4<2$HFqVOyY3yDZ9bMNe=6C0EN+O^+^D}+
z54nRk(R^&OAW{C*LP_oPp;XC+$vg-zii#&K^A!+rH6|+>|F&ZNrGvOxs&2jthqaPb
z8zzt7zRRlG>CJ!e*yLg4cCMOptWP@D|7hRb=DkV$Irc8pte>lSB3bjqeC4|Ny0*Ex
z&SYID#As`ZrV4NYf~RS2_0Ht#op-uZs}D_CrlQ}q&lgtD71k#U>)$***YbE0e}#`{
z)KcZ0t7=PDwS8eN4=sA#hf}K$$aOC^ah1&v*K^LwImb>g<@0vOoV_M#uUW9W=j`63
z-5ak@+1t|2Wq!Jit2l08M8*$__tx-|nH`_V5U>y}W5RD~99|{`ty8J;L8lDrR}<2x
zXh^hTBLd5;3%+%VH|v%NDp=n<=m5>w)~Dr_E3hT55R?jz0RB+mRK;WJt*W>xMdl=#
zK%JLGD~vs)Wi0*&cv#}ZAc$6iE9$vwUGTpV9;?p|pUYQYJ_<&5pa6i9UGO2qdT?b2
zjvGuKrqfXZE>*Ry`OsB*r6X2yr6XZqt(uUG#5c`4S`*e*#@lq`dc32kMn4`x_nP1e
zdxh{Lencc1OGYYr`mOXL{<{JvQlFQztDjOFc|WHwB=gc&xp}j5(YVf>H(#-8(L~P%
zoQc5mL2mI}?&@Uj>QBvhTQYH$LY8mwxPb*N<_*&UV(T`<1E11^W%<O2kj$G=JKlZb
zzoIt(oIEDhaNwevFzp^ggOL{hsenjO#h865m*F%>0U{!S8}95MWE+iamuM#36k&J3
zNEU>#{m2)P5}hQYT!Kv*DVy1al(K9fM0J_Q240knu&pZkVS^{-tFH_j$z#dW?d$U0
zgf<Gc$k(}xBq5SYS<C=k;?Is;x3JAABA<yN7ECN6k2EeKkvFnvfyfM54pBxS5;92T
ztR}K&!`1G%44>}SmT!8O4aoCZ`nk3imPKR-{uxB9r7D=Dh)IWjhhEo^$H2LjLVMuB
z{>|qf#7#tOlZ)UW)&HQRIC&(|kjzhtIQu2mQbZ$pB6*w0+eY4Q@(z%9oIIj1MdCLY
z2rYvx$=V^`<-SYAKh~gS#6|uX{-ViXFaQf0TtDTUKjrfOj%)ddTlEoF`4LzBcU)VN
zYx@OP^i!_jr{vpz%H^>n??>F)zvoIm;%YxL+6>0eIMw^dGS09Ii9gFNo_aQwTYb^;
zprkax70p*vCOG%JyDY&KFWNa=Gg~^(m&e-Y`HI+q#T<T@5eZYl*ye<1Q?hdNOdwIY
zJy{Bg2yZYVe`#gxxnxOwydqh$X(sUF(A%M8$>SGuCd*UY<DXi1gJrRRH#AH^WPwL)
z?X+pSXWDwLHNGcVv4QGnSS-jjl#|c~4-(qou~=4WSO@E%MH4+~b<wj4Hyqpvy#4&W
zuEgg3@7E?aA4xWKv!n-R>yjB+KHJC}aJ>(_&k90DL+vLV`JX*&7L11DhEF*5SUhGf
zGt|uI+80fDKCnBc)?PXkYe?GHEK&kCDw}i4G}SX@z0|sxLorq^zi`Sm6__f!)V-KX
YF?pONcgcp(XInQKHhjv#V=MRn08Gk;`2YX_

literal 0
HcmV?d00001

diff --git a/v1/__pycache__/utils.cpython-312.pyc b/v1/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4552573fb7f8eae3fd21d0ca333aaddfb4f9d94
GIT binary patch
literal 18864
zcmch9dvH|OndiOTx8E<lU+8hs3mSxEp29N776Jqq3j%^T9VcB)-z#X*FW+t<q-i<W
z%kGGn3^17;<QiuqPt}%T?OEg6RE;zH$7XA1l1ycGryG%J`5I5i#;L9OYa5Fi?<Rlj
z{=RejcDI_wPA0Q^3Y|XpobP<+yXWzp?{)c!%Vp<~!ousJ;4Y5)1wH7=mM^TnX5hG+
zoWx0dnDc4BypLzk2A_fb8hu9gEBFNb8p5WC*=LSed={SIjbT1w^;ub22pb|cpN*AG
zVSB{kbFi{G?2Nd4u87;`j(B{YNR_WDQthjb)c9&5wZ2*g!-wm9b--r{*GC$B4f(pp
zNRzLLm963CNQ<w9m2Kg5kyc-8q|MhBY4^3WI(xVyBKpM0df)m;r>~RMIl^6$ZeKUg
z$u6aay+e<$7r)N%hR8<WMh4>wdn22Cn<ATin|aQ_$t`l<JG?eKzAbpJmfVHsegikg
zNuJA`R3&@l{$_y5mUo0a^Z;wEMr+MGm{m%?r=&iqR^BSr$=jrQdArmgZ=1AAjh9Wn
z9Sph&(9H$toi@(KNn4~Ad8f2au8~@41c{%sAa9eaq;~e)Ao0M_0UWy|Q67{XR6A*q
z)?XHUyQNOKZc3rC*Cwg!3H9BKs)~IuN)K=j$*oft)?%ZlNnYxeTP31KkT!stJrW<-
zD{aJ^Hpo`gdC_-R+Vq5R8{}sJvl%eY&GO#<e;}0OUV~~K4TQsiGhtb^o|IpnmZL%0
z%c~6|XA(&z5KNB7qDlE;@`XS&a8_2(Vh_fmQ8}0l#iDp}><c91<4P<jClX$Z>YDh<
z@dN(RLkC8mKRiCB8b_kDs%1=$%1S7xT93u4S0JofCT8RE>42h|PDN3pT4NVvB^(P#
z!01urU`&zxlhe_{Afad|=?}-w5(P%pc`5-~@`R}kp@e^$D*TCLAer#XQF<9kb!n9m
z5Qau{bDfow{#aa&`r|Prsn!=B=OQorL-C+L9!Q>39aNnR#{JVu2-H-c4~4`2xb}kn
zq$1Pgxb`0(je*8cG?0ubw+(8;XiSk0M9+qz@<<R>`PowIi}f@|dNn^0q}kU~fj1n&
zIk?Hm9PtD20$w)C0^5NG$%wTRuy!WNbeZ#+B{Oo1WI=9~tjKMW4Y^&iBX>w`l0z0G
zr|gtm_%pKoY>=JUUvBIhm+VHnQ!>Z`uzD^F@8l`*dC*dYeQ(f5MtgN>JN1*R^7sTD
zik<;k1NsO9;jU%4>q`1o=W%N-^`$K(SkYRBwE<YGae_HtjfB(dtCgCO*GVnN>!o$b
z8%pRkNUeZxoHcseRVTIx_Cz#!G?YlH{6*EQ$jNCXIv&h(3-;PnHsWu!2H8z6#iuww
zYoKhFyUmZ^=2e6LB94lXki(No2kH~lOB8>#V;~uc55z<9Ey;j_owMcQ^x)IG&kxE2
z;n10Z_-yiAEIM!@9F7cJ*g7zs422W@@mbaC_p=@CpTh<zlGv|TZ>AAwS6t#&YHAmR
zZ&_CHz^x&hNM>X=p>UH+=2<AQFP(k9#(NFpbK+<q8jU5zKpb0N5|c48AmRwKi4nt?
z8N8m2&f@_^q0OxH0HG>`l5!;fmP#+xm^B1*wQES$D*FMDa3j0K-FG*pn}(L%&!nx-
zC>v4rPougmPc>K%QC&u|vI&TlJ{nb9h&+iJbQy_S<yHbNA#rfoy*q8){X3A@nI|z6
zO~^`83`HNG+9%Pebt$7$tK0!PS4-&Jv+UlRw(k8M=<LYT8IQ%qNhKEf4JXqG__?Yz
zi;bGWvT1yJ**%oD4*d?~>C>pl5!?d54TU())TL}1waOvTscff=?ZLw7Kn<N5`dj^?
zlhc}?xL{ZgC>3YzHqTB=g3ycF9yBrNxtcW-$LjV1sB{PJT6Pbnt%Hm}WeXZr6AmSA
zCLxiG#e;b%2lX5W{;H8of(CdLH$}B&X^LK|EP<ODQpQ)!DdRi&){|V)qytsPqqC1<
z52X`5yhf!PKdLDdmE?=6F)T;D0(*T%yz&ehl|9H3M7fB>CPW#=Q`vMd49^iLF%B>}
zPwlmtD>K*Tugot_EbYA0o!++ZR`;^!RN8v#Z;U_Q|F>g*J@yl)_Wbxx0}5?&Xxy7%
z*^J!V75Ib0?+1@2&gS>eHLY2pl9o}RNzfdDu+9B!Je5x{Hb%@wPc)yaYlc)tQ03Ja
zsKT(6Fehan8lODqLA2_FZr}CzOA;nFqKLwic0h_JY2l<c0ZJFjkMYPaAmcFlB&v`V
z7Ug>K%6!_|s!fCGLLfXX2Z@l<#0YzQDsCG~wg-Db0@OE#iq%LwaWx7pN6|%}n5VXD
z6GLc9X?Vi;*s*k%v87NR8(*P!eQZGr;~py+ciYb5xTt1Hr{N2^h|b@DS){Fpi$bh;
zogD(+1fkVu=nE)30nic_SH3sdq<j&J+mL5*k{p(kvPR!;aYtYY(enuhs?c(ZUaaIw
z8(DVmOI!D8b6Sxz)6HHg(|}Qxz8+dB>5MAB;YmOPDGFm#%F_TS<;x^<p%DlFF`0{1
zzew=f&cE-ey}tkE*p0E*3p;;}5K}md?dYRPjFtHDh0i~Us?+ZeLb(dy-Un69W$dWf
z^wlC|V3gOBH)n3lEPNwvZU5(=K;>DCReAm_em^)q2(2q4l+}K{NaKA^&Gj8O2X73%
zo=RKSeGZMCZ1yC`+m&YTPhk1@j`1X}o$)zW>5v;$-mCGp3QMfW@k&dqRR@U3dSqa3
z)$NPP@6Nn2vlv=>IqmVLt=`8eEvz$)IZx!dm2O>KpDJujHl?Z%jKycmH>UCxAfKx)
zeZzi&lZaSSNeZ0!TIx#b^;go?HbyD#8KQ68+eGR_G!T*fe%0>xM`F@+n9A5*FHZ-;
z`4)jBeWevWlns>8#j89;**3~{Qbw|!LV}ZOgfPo4ZiS95yE7o1ghN4@@g(I1sy$8_
zV?q;D`Z8toGVB^;G-?6>of3sI65116ao{g=IRkI1TkKwZ`Hc-Z4#g#Dm3}@o^QJwN
zJx$p#WzQ5!yC355G{3l>dYtB$Mz!BN+drs#e@H9;xR%hI=5uDw>|PQ2myBtl{}z8&
z=wCHzH4jX#6=B!nskE@`R`;!!Z*RCO?8>+8$_c!wZOOPKzvUowZFl%P`#-3Df9!n+
zVQtGJ-A+ii-x|3qY|nSx&XDdTq&shIy({d@*Y6~R!$pL{cSb%CKKRo2E$=^12-)k6
z^7MXflyy+nO4+6yvi9rJ;?^5y9|2N3>1+;zn8QMH<x8t+6iN*TFd)KY@Fp(_P^V2(
z&O(nufvNB&w9x{WCCQ9>VufW%vdA{cia(oVpL9x&%VroHJTNl|lAYnRp<hE;Cp^M5
z;DXt~`5VGA6UD6ETLlF^K0Own-ZwotDJyf^v|rL-<v=17o`o74pB14WCSpoLJR>J(
zWH~C19zP`ppfZjfKh-}0V~u?#lsxB;PDh}43yIL2teT`G)Lqpq$rrGrReL-X^+%ve
zD6`5LkgJHu#)JCBL~;$u-}JZYL~ZHCROwnunNmEs8kXQq;~$VUfzByQMJ0X8tk)HP
z!3SxqvXnBsYt-$Pz*T@qaXgn2l;ISgEcBSN7m9_#dFVfiBdKo{P7?HM^EKkU1$>1L
z+?1zS)=N4^0|i#SZWf}p*EFsggYjvIS`z9NnX*Y_UY?cb&hMLqT`#$H7nV&4o-3?Y
zP%}!Lkwqy4gI|(XGmuDX<_We~Vn9&>vwdPBhL&(xEZqwtttrd2h248F5KhQmn`&aC
zsHQnti6xYCAVjsZvOgR;FRRA0@oCk1CQp)TKTYB+vwNr}ZHE}5aj#hu8`r*&wl(PZ
zC1~v+qakSwju<MWijuuru;iR4cm>%d?okz2*L?Gt8_z5Ww+?*J^W!6TYrni8T(#b>
zZOYbmWoo;Y_P>4TtwVQC->cn2^&eWD53QWDVZ~GTrs=!xH{5qUz4seLaL)R1e${Af
ztjTf4>YALDYg~8p+>LWLqc@_<4ZREdzcrR~p&#SGDj!`Vx{zAK1jB!i0*Nk{HdMZT
zD_v`qw~NHTYtT37$tS3$5=Ls_ehZuoel2DQ0uwM*Iis<t|4cX*JRgdl#kLFMMN|`U
z0zX^tya7vj8TD(7Lk<R$jQOz#AoiE8R!PgN)QxlwT)PhE!qY3YjW>7S*nM;O#_&@2
z+Z*57_(9$E;pN)lv~!rW){9pzE*ciA7gAZz`iy7226AiLt&yd^4<^!{^~;{3q+4JE
z!2bVY9ZDF*6W4+NE!Tm;OKUKDg}J%$V-p94#C>uwFrARa<hf8njL5KcN+L>Fpe_0W
z^@;MuIOK*<QcTQ7gXff3G&C0=FMwS;K_crR%aY7Yli=mk3Sk6a2qXj4h{XwMjo|G4
z;}c2(^M{3}!>vqHMq5B3he_r2277wKdZXoEQMYkqmpI(-PS-!@ifd*Qx8fuENQzfp
zLZ(8JmSRD_Um>Ac2~m~#<ZR?HM6LqMQH3+HSeS`ws(FIlaLNpU&r&u*8TdM<@t**d
zD5EJ!{4ui2+=s%RTou<Ue(I_-ZFm5Y{M5~tZoGsonlqsSuUb`q?f0(yUd}>KR<63?
zrt^j~XQL-OSKpj-P{~OpLXdNFcK50WrH6e+(<r}qa%smKKJXuu@9g~ZJ@4;XW#xx<
zQ%Nh8wbn-*l{J!yP}PnD90>bk(J(IMb1|6b1#-%;t9Olgp>R-+pc~me6npU&)o&%(
zw1}y(L>8}$e8SF`*tvALBAfE^0lLaZ5{b}RQpcn6jOcseOSo);=b@(uBuRnasNc?Z
z>ETJSNG@&331wRD6XUSeVQ0tTU`XJylCe_>EQ!rZ@(1p%fH)lu!KEf1K0eAY<?-U?
z!i9#rPxD8}QhuOg*!RjzC;{Yj0^oJJ5Tb)Y6U1=R92Gj_=&>^cO%bB~bPyoo#OU!g
z18rnI_U;v*!T}9LL1+Gr@zNIpA?EiJ3C7!xBSpHALIRvphYS_3Q285_T|$<iN!D*Y
zwS^pIGV^))gW-@IP5Q}^Mz5&62Ead{9(~9zaSt1CA3ZX1w)SOfN6sji%#X~Rr)9Bw
zNw_NxzUz9&17m#7f_k<^g6LF8qykY|B_(mKj0@MTOM;6GQZC$LGMr+v<#Xg#yKHI(
z4#_6#CHzVT=DezcG;4z6%q=<LK61_)ydJf2<oMx}vI5U!-oKf5-_89%D_}Ckvr23_
zF2*KBz>07K0GO7IyrHtbeGXwagk>-?MP{6@PmF*ILQug4*2k6=28amx62TVBaLvS&
z^RmL0w1`$531f5RktD!j;ixT+N+MM7oE$tah9+qn&9c3DP7Z{V=VtpEs&TbSb63Ft
zM<n|vqpF(}L@4<AEecT?M?n?f)k>%i$VPe4gz5=J<I_nUPEM#*vFYU6nmWxBI~@lP
zmvzV>IkfadW!g=vpW+naSQ|>6ZYd+4P_LzwfTzOUnItisr75dkD*hIIU-P!JU>1I2
zA1oCG;ABC(O_|=wkCHN{EV{XSKle2-?3X~@ynWs=?@T#TPKfk&i1Wg{D`kDvl(ME=
zl0c^Jlx?ayKS0S(ikATYC){@oWPAtxu1VotvyOk>4LPcUpgvVwf+Al`6+$5(?7OGv
ze3m7hwej55mjo_JhnJ-(+UjLVvLx5(Rh4Pb=R;?dV4`h$k10~&%TkI<ih9)(Fw!a`
zVJ!+X1?Q|aFo-2RjAIZAgrSpZ9Fx2sr6)<-{l%@FXOkp3j9_05vCT|Rl*)JXka#d3
zLBLJ~sSuMf1*#*okjGE!8dPhK!jL$kT?d3mYhsu*rboWid^kj64H7y(L*hy8LZOkr
z0G>|TkT@EPMCkSiBa{FK_v~~8jCC#IlEXM8j!#F<fag4c0};i{r?iH$vI9IM9;Oqm
zUwYtF73OITg7O1DBpzcd;I}|gi9-NQK0t(s#-*w;5FKlQ1el`Yff;z8RM(nUQQd0^
zQ=R#HDHxlMCJRr@`!udx#jaHCBk_>N<Nb&bF>8BB7076&EC67x<0NfLT(mt>g<T^j
zyfq4mkjn2<Mm<zdWICJ-<+(LjycSV{T|!|rs;$7rRpVSJu9}oU^sKB}j%$~OW|t#Z
znrhbKU0~CWVm-((t6FB{z<EWURIQV^F6i8-*2KB#q!gQp!uF?EDqfGK!Tw7kYAt!n
z6{`CtWv^4lX2HeglUbvQMn0rkU=pF50FgO)Uaz_elNp^1orSyxiW9_3+3720B|0(9
zSfv}ZpdSBQbWi*rWRSl5xsELh!aeJ{mAWSAzqb4jB!%XU*{1E8rtNpemYeo0xK{f5
z(eD1Fd&7Na_4Uom&h{lwdh5tP8Vx=6j8j|~S(sV0LZ<EXu5@l%5jU@h>mS-oZSI8^
zAkbEIr#%BJyN_OXrQ3I8s&+o86|=P)GqoF68aJ#ou3uWeRGY5vS!w8Al5Xw4vn5^s
zT+YJPc~?21&b_c7vazfB+W3|6taE+F33czDbHj?W>e`VjN4|A5*8>6`ZRBj8YmO_9
zbluMHB|g~kpN79bygYd1p7r@hR&HHqwq;YMWz(%4-)qV@wH!fshes283RfN`gf2XG
zL3X1+a_>}WE9xi}nSb8t39HLns4urMLq87367pQzlh%VZ|2=vpoXDX1TAkNCS3Ezp
zHfu6_Cu(7E7V$Igb(JYJ${eZ{B33m*5LM`ISFPY(5RenHY8%I4!Uluwm?=D8BWN<2
zD7Psap=={%y_8+nvwwp^;u5mU+(Uz4vgX>kzNa464w|0lAGCDlOjLjx)7+Y~u%eao
z)Z}ceXy-hQS+|&Ri#Z3YaB>aMV_4D6wX`n=-)PQx*kcv9u46IrhBsHu9&5Oc&ZYft
zOs%qU9w|I;YSD-zy40FLJfw?E;L->yQ&e|e1kOKWmgtUES_mE{heDK?Law+qs!c%#
ziVL*F5|2<%F2c_nBZhf_M_^*oj4muq5o}qKjPK;P1Z0DX62*S*nki@qAp+-XIH&Wb
zR7Fd0%Jgl+)oOv8Hv__;bfpZHY{HO`D%MxBEt6z)mYcUE3pYNLGC`Lql=UgTlKca?
z3-ClG#;Qmu;k{ZbaM9K^m<#4nr3#oUNKyJRnYX0O2}8=F{9&>nNma5}r_7S@u1TkN
z-kP$4HuyN^Z7FjlxhiGTSAxwkEqz&%`16C<&ivKxqC6$hTUL;%;P|qjMJz*sN3>Yc
zQUO0?O|wqJYrMeW9b2%UY~kv8d&)l5_&BbVrSu(N0=t2%i}_LbtJlz*zxsz?u=||)
zcx?Ak_)1yQXC3VZtc+pm^I>?U8msrYFtfH<ThPE`KhK+HxGpZ)tq<AFDF|Br0*dWL
zioe2LjVFoUu!P<{^UjjqUcIIGD>;&z^`}(f-Ss`fbFV?KoOizBoZ)A<i^i{TGd$?~
z{PSDD^8arJXE>cYuPg9<u#YbXV3{LvkHq7GXu<^MSR~G30?;TSHUQ=Y=#zoytT+j~
zL0%F+5rDA*dT<m<Xi#Rtn+}ynhK3L%IcBeinFXdnGRHIdZdzB6*UIvb^VlJA0@jc`
zgJskf<#*uFMUS<N`0-9!d+{xcJqZJhJQag=`w$e7A3LF$fkX{a;+ew8)E|>m>|YuL
zyaoYHbH00V_>x;fqq?Mmy)H9_;x<KZ8B<TgG3T#BO5WTCT0{t%<ukKp75n@9|ACZY
zIK(W;P(+4UH)qWYo#LED+<5%({vmO$!3%#3q+PaNv~*B!Bv~Av+kHX~%ApHrdS0GA
z6ALI3?3IYMn2smmqJa#`C?G+!L`+U#)VZe)6t+ez7@SrVLVqq4hV^SY8YQ|*R&z+~
zNz8Rk==KmaBAgEq5(HM<o<QquRO=|Nw*SJ`er-bgS$HkGc(p6|O}wu19m*DwK~jb$
z1+6NqyiJexPy&G$hz^Da&`G8&P~(Seolxl1s=^E=mAS=LE6oE<gX%m1Jpz-*JVwgD
zCOBg}B&kL?s?_SoCPuXtUR|{n4v6ya(2vPJkfi>M%H)et-lL3IyGA^tu}UY|54Q!q
zzUoFqeoQIQO2P60X%;ex_G$^`dxYUXB2#(4%F78CinLz}iHTWiJH4JC2OmN|JLfPx
z`SC<&8wPmgFVXG4<1bN<o8c1oSvO}o$>)S^rmp)|w<g~1y=NVUl)dHIY~P`~eTP<!
zh8^|~`wlJbU)X=`g)1*C?#MVh(tU?=F#9#<I5d(st8r!MKz8UzX6Q)T*}C}EY}=Mh
z+m>wGt_=P;2Ol)ATX5fZ)L)OLd!M=I*t62qn{9gPUei<8g_Ui)(pBP8-P>(%wcV{6
zcxdFBw|?SkTy&>54&QS<yVABf+qOH?wtKm4Xkq*ztcx9Q^?%~s{$9uJj`Y)q(<dkH
zc~31ITQzfSeb=p!^|OteGmV>X9a?VOd0l`US=V%P?~T1nBg?ft_gi{bS~{0@y#4fB
zPcLo0_2oMgfBxe8FWxzVn1E*oRtC1eH-CHnRxD@ao1cXnZe0V+;PnkT2QWXZ<Eq*}
zs%m-Ay@6bLx4!;^FD)Hf?jFljt-sD+AO5rlWc_LXqa6hm;puzUp%rUO)+%PK;yr8U
zhmM97XJgjcmT|V-b9Q{_XkKx)WSt_^nx8s5F_q4i|NZG#c}(X2dUTNIoNb>XI^Z~8
zSd;O;vmU$esQZ*NnB1t$TAMP~rgZc3e{(YZr4v6nea||vVs-sGXF~I@p^xaA%0GdO
zUnP!VdwjF&U^Dk;bqDK&|IF{(hVp;eF;b16zcL$;|FF(Pd2{<%uknY2hA}Vq!>6q%
z|A-gI)*FAc-bCeIBkF(T9dRDoX;e+L$rA<FJ4WCj8*7RXnf*x-f-KerX$79C&r^vY
zYt;cFZ+#*}dMe5#S9@SFD_96Cx#V?NiJwFFc~~hi`aU+g;Wz6!2TR|)k%9rv<8UjG
zUZUM!NclEERFL=)#9NT~ukMGGN7O)K`VHrzg3a+FKQCP3uXYu!qma{!V+;u7;x~>f
z@8j*+je}2otoYsrwucMQ>~y=etO~>yRU2&5u_TP!K~<QFg`&z|P(PABy(Z<asLa@!
zRRYr@1D9$maCZippv7REN>c`xs0(FVKofIpUE+RGRlgvtI6T+(UfKJtXG!^nI{s5<
zYt95G)+0MtRd?-`E3YhjI+oy&?Yea6BL-jB`eyRGue|Zfa>qcXZeYQ-;;38Xzd8J&
zvw97x!&eSp5B<~$y%ES(-N;JDT1vis@vVzXo+V?ZW6ynO+hP!B@*xe&R7BN5fs=kM
z90hX|(~D+A$em4|Tci8Yi!$|o2MXBL6fk0dhde*`s4S!uG(&28%nN&u2?C=m1_tuc
zWJrORNE=H;I43h4l3_5A54y;Ip@0>Fm#J7M1{j`FuPw<t_+%?D<ee(`nGkJ*SeYm;
za0;@~-c<9`!p<01<Sh_T@*Xfm-{`R(x~#~)y-6_777HbV^9n`+c-u5Ynp~s%cX{U8
zg$wGxVIq{jrHq1{*1DkZDH`1VT3p&)w2sg=AzK2>NpLyUU;py;$+V*_>*&fjx|W{5
zW4Y6i?%w@_WZKcS>^Pbhj%o{+|57Y(qFWO$QP9zMW3@^He{{}};Af$?vyU<j^Elnm
z#0yeC2+5~;qlA-&HmhD!{C%~da(yKod0r@<)Jj^qfq7CY`M~s3o#I0X0ZJCMWQ<)Q
z(rb$Re`QI>@NM#LaFz7tDKc@CB|w{>08PS9Spu}>3DB)&pm+qd^$GM>(5nG$Tl3xp
zUr7=3lvph5rIPoyC%g1ojN7f3i@znXjwifFLF+8`0%gu8ya#ROvIJ;X$~d*DtQwDK
zaifKNu4M@=9<=nARpSvYRcLvtVoNnzwpDDYK?||2vIK0kDdF4vyLGy^i|6pMY5iQ+
z37L7K**BR?`-8VJ6ikrXl>cC}e_Xp^cy%3#;{imAAz(X*5B6mEm*KZ&L9Q%BLbbE_
z5<iRPYd}0tK77wlDnLHIM6Ex6!5@UPN7ft9%qHQjbRsAg!m<{GqPhz}T1=orBL?4^
zDgm`V{{YT58M?@jkv-oflR-Wx`(<VTY?eX^`r_0doW^%M5!{Vo=n>L1^olx-v*E*1
zO?A@<t|4`<tgZo{5F(I1Dwo&iNk9}0zA-B_sveB8jYc{XK)^y&Ql0c7nkOnoU+F^M
zfLGXm{zAgLP9Yz<Dl&Bm;lXm)FJF{{(@-S(wMY8$7P{O|3CvR<7U;;(UjxiQ6-^)p
zlZHT@@(Can;vuRNq16Z<(7wP`of^J86jO902Bj@TzW(p1cb2jh%046rhX%n`K}oS1
zS_6H+`vmwgWq(iE&nSC9+0Q8>O-1<yGOtN>&}-`5mZ^bWOZgv^5!q!jhFVkl0@^3U
z%Krr1F}h3s0vRIr?3}ano}+8U>i(s0^g+Y=Y{S+}!`4g3nBH*d=!&H#Yw5{YdeWAy
zD~+Am#+{kQo!Q2HnZ|t!&QFButk9kj+CQ}73d(lx$#m~ow(ecA*5?e3we|<j+CMtE
zxGvkgHPgH`+dP<Q9$c>9oim{c*j>$wo3kz3GA-M(EqgO9dvg}5w{otYrSsX|;Y{yv
zw)a$~_f*bC^>9vfFMT!Jvp3VTH`{YE({nQCpn5mwTDSOowsl9Qbw{>!B-1*Q^H6;i
z=W2U1xU@OjIh5%f%61;ibRJx8AInu!V;$#ed2`2-BP$MO#KGltyL0ta-SGGrja1*n
zxtKn;Gt;&++cuhM8_hLSeGBK>c&j7pJ(2OA$gQKAcFxtcbS&F_DARo?*FiNR=UTrs
zknP-`>D-@NPc@zNhOun#(M<2rTo=`Jm)7)9%|_1EzW9x7$8e@&IOnCBK6=lixh*LF
zqh(z_n1re6YcvYn<eKdDLlkhQBiGWaj$&w0s^sgEBy?acRSK7#=S%E-74CP%k}OEx
z^L$h+fhK25SyHNCx8=eX=o*GfH#5ol0eFY#GiCj@!ABB?JoB`vZvXKU#||Dodf<fr
z;HmLZ_PIWJ9`QXg#c_ngIE2g-Dag?a2~|9O^ymxz(NiZUj=kVNIeP5)fs_7&$4=yt
z;2VC$0}9o41~z_r;>C(U@R(jmUWC(!zBES62jn(p9TDgwe&sV@SSz@-mwn?;riT*R
zlwYC8t8@TQpnwBt<*W^9%liACwnb^#)0MV%ed4IkI@V_#>o4uUZ*gQTeRnN=_dV@b
zg!?vE*4B5|*7uRM_5mU^@lD}^@Swi=()foC&voJTp|nu1iG5~`J6GNtw=nP*x!pcb
zyPPWMl|YnFB`aTHpXjSO<<Q}azq+(p$=ia}=jZ<G7|GGl0+hgvCXts4{s9VAn#MOB
zyAcIOaqbsF@=TwI0J6zx78PM9r3<k@EEt1qZ4`oVE|55fa$bC2YoyhtPP0}rAACWG
zXQ)nSvVJi@W29tY(n*L^4TnZ8C}i|$N&vJ>%Vao^1cbJKLuaRB(+O1|y0wT&69ZRb
zm?Kr73l*-<U*n<llP`xhf}fg6^XC4Dw$yGwK|iSDoHf^muM96c)@2>N8AtE3V`J8_
zCF9uguKeEl+vk@ZLs`dj8OL+Wj(u6jSjI7y7RK1d!AQgqaOTFnBML2z@+oD1Oxa&k
zM!rkcgK)qw<QG`h68(WQLFOS<1Zt<fp_v&Q%Yp^^^F~g^LMY7mP5~>R&~9OFRfRZ-
zLK{RO-l33nPy0kCgp%6GqTl-ixZ2Mu0f~@J!qBQ{XV}IB06O)`BZ6i(Wxp0>ppX)f
zx2Q51tzY}!Gr%<z^5QWOLc8&s7#i*WGKk`v3q+_fxhuhf28%I-YGVmtViv(=kvtq3
z1lY<caT>LS!4>VeCDw1|G*$is!IQS2nMQq7V#Zz43D{RLEc%s+4VrcJ>(uZXWtS=Y
zOUjtvd5KE%l-)(9x(|$x9UjMjSaNK9;=qd&?BZ7*QZsQN)m}U;Z2y!wt5xeB?Q5%H
z#e<!Ne_Y~Ek;62|^Ds5?RUdKHA8`#IagL8T_s_WgkGU-$bG;vP1D_eJyx}tr*+a@!
z>p0%^F}MAfT+_!~*Uz|#3^(yJ?sSGb{V})m=f<j!goa-VyMHE}__?j_`isl9_DklU
z3yy`+e{u8@|H%9d-+p}%p9&2vUVOyi;j<Lq#gFn2IhG&gUA+0$jvR-dI|=slgD&>-
z<KQY)ekP9ae9J>9&wNX6+`zeOR<>+?XgkRBT`NrkIU^Mw)HSDDp3l@BT`}7q8u@xh
z&P3IaL~2?V2Qt;0att04h}pjCU`?kD)qL0W{fp}|bv>&b%DIgW{sn#ok;bhzT60GB
zuxa4EzT18Ihv!DM!UL22_g{MTrBxGwKwNlgPj=u)X5h#}V;^r`5dn_h2PWI93BS3o
w^IT2CC3ntT#W&ol&2jiiZyj5u-(0VqKg2JZzUzF$nd7K@tK|{<W#{<+0(a&=s{jB1

literal 0
HcmV?d00001

diff --git a/v1/attention/__init__.py b/v1/attention/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/attention/__pycache__/__init__.cpython-312.pyc b/v1/attention/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f233fa36cb187aa51be0f9a3847cfda6a720771f
GIT binary patch
literal 162
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIqH|>7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>L-?zq~?`m0!8BEGxIV_;^XxS
iDsOSv<mRW8=A_ycu>wtG1ma>4<0CU8BV!RWkOcre%qJ!Q

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__init__.py b/v1/attention/backends/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/attention/backends/__pycache__/__init__.cpython-312.pyc b/v1/attention/backends/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5c0ddc33c26d51f7b0a8d0b736ac7fbcb7fa9b9
GIT binary patch
literal 171
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFhwr7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>L-?zq~?`m0!5M%le1IvQi}EC
r<1_OzOXB183My}L*yQG?l;)(`6|n-1W(4A55aS~=BO_xGGmr%U?w%@{

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/cpu_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/cpu_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..81458abf48771c5b28594f44da9e038afadbe088
GIT binary patch
literal 19526
zcmb_^d2AflnP>HVRo{2Bn`~a9nx{yKIw(sPCDOJmiIQzuv1xlcEmlz?)jU+)R4k^M
zP#$}xIpahml7Xls3sc_gnqFl$%3y)@U<Qa6*aeJT?4U|irfUic!rAfs;s4s9f(#be
z<NID!bvNmvlI(6t{Oa9Tz4v{;_kHj6e|0+T6g*kupHI-wQPe-8M|~WMV=JPks5=xx
zF}f@@r5n}h(5=tvrwpS8;x=TBqecibW=&J(Q40w(Wvx@TQQMS#)IQ}HbxhHt^ptbd
zN#e{|*OYtIP285OXUaS3C2nihH{~DoPX$H;#Ba+6r$VElsqkocDl!@&VfJivDmEI^
zQF@B?vUT@$aw|vUtbcMqZF==Rt{bh_Q_oY3<6VlOS=)VslD>h}k#Hx3yY52|@wqR*
zsL>>eb3>em4YA26#;G|QNt_qre5}0^+Qj%-<0OpX&W8y=_zOEjDT)d1l0L+?YR6zJ
z#;r{FUE}DUU2{j+HYN&xyVd&i((OzPO5eL{?m8$r#HPm0OdQg+-!!BWUtrf#I?2Xl
z@|m%0CYJ+`^%OcTWw;UWIMQQtx%|vjdS*74GD)7ne4d@oPs~i8%#2-Qry0pv2{}DA
zo0VJ@@7c^vmaB=rcypGOf)ly)^|=g`FwZjSYd6wknX#)Z)MLMt%}$+~nI50Gg0)Ue
zPvq0tnJZUVE~S?or)K8{xv{Im({odjXKaq+pbhESY$iWG!%d|OQlwJrIX0ic&YYZ^
z$TCoW_|(kQ)Xel(;-y$_HVbty?AQ#$=F*vICOyls;}h8|jzP6ougtPzW3@BDqj<Ky
z3)A-w#Zsd>h8oqs3QKI%z#3T-qkjgHu;xiuZ8q5rp=$n`NC@@ScopXr!>FBgur$QR
zz8Z@Y3jd%!1F6r&7@wAQT+f)^HC7gho0Zdh$i&n$=9)M!>w~iVki$|F8h{*D)(<hp
zaU)}^i3yVQA;zwh<*11ZD{-_E=d6i~us$2bgc%p>VchWNfj=+&`A98Ma6ubLKAH)<
zYpS$8M#?lo`+_y4)!huGB9i~qg;y&dTbZL5r9ftEjGfJ=XXf&=bNTe;x$$wB8=l<U
z?CcDehndLaVRq&uGsouVxal#4F_BS6)`5RpUk7rB$^(_3NrmyKetg%&8f(L4cTKGM
ztFc!MuTUTBMp8z}l%IjwE?LI2GnstvLCJbqb;&{d`##o5hOulehYd~sj~9FLQ?os@
z6SH0U40naicfCD#=*Zz~huEI%#O0pZoB69V(>*s}f%V+z?a8PsxaYFGgmXP(vvX+(
zp6;H#DFq;Zdgs8*@6{OAZmpDU(4br$kVWcqPw<X&#rdPT559HxTR)lm>B7egy!#k$
zJ+_5?-!{fLl4OigqTQjcz*_oH_X?HLkEE<$Bq8jJ6G*;}WD&_4l24IrBB5X$KBl;O
zaLYr&CBZ30wzu#qn_<#9;5@nc&fndiYU&Ow)(T{i`tR-oy!8Or1fFe70sL|Y@T=dU
zZt9@vz(_B=njXA(afIuHP?=y(xp7u(+;nD&osaL<7>w<K3^@~!MQYO>B{fSn{8(w6
zvSYP#5bGwR_!>As=<7hxgV0~l>!^aRpr6F}9S?+R%tQ#q?(TTT4L2zGCWiR|Xm7GI
zjgrb_$t7i8$|Zr9CfRA^t6bO2boOR7Z8wMQP3brrzD$w}CuMh~C=x7LhK5g_9~ypH
zvJ8*N4q9=f&ySpaJ!Rk;AUD^G1k1@`pOeX?Jgh#oIb=qYL7LyAHNam@w;u~T0A!K+
zjhV9bZn`5P9WBv~0^PXXu}7fylr6@Dy-XQBNNjfb%Y-#*Lb<qYvf!d6-w6doEk}8U
z;*j0J_#B4U&Iv=~gqeWC(y;R9lNvRV6{)5;4n-)l_H*|h-nvI_VO?#$9n$g-ZRJso
zR=Tm3mu2Zo8roc2p~8_#Lu(S9tZi#MZ*7;`Y6p3rzMP#IyOxve<V}{ZL}NIB2V9~#
z$yQmZlAFK@nVY9`d9Hg5SC0Cin~Xb(U|b&ss-TCJVHh_NUh@S`PBQ8#6NkgcJ&WW7
zl0hV-nOF+Uw#t0N{;EJGox7TuWwqzqSJNTj%mslgQe_Y2@h-QoX4hZ*#KyY^dFvn<
zf^A;}Qc`aC+rovcFq!A%_Ua`gaDEVA*S>-89QH(QVQ?<T0?x{fWf&G0g^b_kQ(E6e
zGwB5=tipl<q+JLNjhVUpOe!u}(}azs(~>=%o|<9ivMjjiGy=UWvaocT!(K|p%QG`s
z$(;tUH9eEhAd1XE9D*ATMFtl~l0Xtdg58vi*@;|UG7$kSIS59bVnLuWTq8ysCZ_XT
z7rN*i7C9zIN(T7)+&(Pj5Ge(jC5L+q?il(_`MKFF%MD||X(WV0H=!$uB%l&xHMs>?
zvF}l0V=HfrthQ_zTQ{xF+s-AY2rt)?3t!*^hR|>3je+H>tNFFzkIvjXBQ)$2LcLp*
z(PS>ul-XO>>rBVjF0Qx!wBzFrq4nUeDe!L@)R?kaarLhU*2g}MVsw8cx*wx`SVU}j
z45MNgB?l-uttR{W{xSux2M2zQFC{a$$^j*9+iDBna9D^P!6Mo!MYL5)?^wOaH$5vP
zPGEwLN`ekK0Zk?MeCe>5PU^%!xNJbjCOAy!fE3|a*+QIF3PNqfX{Ta|GRXpiV0RaD
z%cqKOFE#wyiLpxgB%x1fV(>u=)*U2qUqXk2WX_R~vTZ@&V#a6dHTXcaP@DxI&gcj%
zHi1h9<mi&2vNkj~GR8^{6LIa9&ivF^%Tr^myT>xNc?$q~BV)%jjAPWw+Q3H>pA$9%
z=yMUDd(^>Ve>}uz8>LyN_J%_)6QxR}bgz=f^|TyNwhz<Yw59w~pq5prG6R-gE+cu7
z6=%lsu+-D}8Q2l#B<ED-ZCLv(cQc)3rzN-Sgw@I6mTpXPV0@0fPGYT!BPTgz2A|Jd
z&a$wWvorbhRAzQ|V*1L6<jcV>5g7}YhV@N0co!w}SY|Gl$v!7}kZa|b*^Ih_BPc^|
znv6-*rnyNff}W-_IglzY5>RPd%FUgDPIG6GoI~;|lJiJjL4v$WGGByl&Tt&gMQ#KM
zgM>vgjszJdcLm7~w(>fLA;DsE9|C!g+O*Ms{DK&cZ5U&sKeS;CiNV;NH&@==FgA+b
zz=km(y8O4ZOIeKfhVH~y;v2?<=nLQJT<P2}){BwE2lQQfEiXhmHjEvjKfL%{acILB
zhSgZ#jO>WnFgA&adfpgZ&S8eb&n%u_zPQ@@LFe7h^?(rT5`x_i0z$BV!}yHY-n}@o
zJbdTu%GtF8LZI!Dv0Gky*ywF*kLaEtaBC9CpVq8CM#mZ$J#K`_tTV7?*fLtQw!Msr
zF^}7e)VK~dn)Ij*HiI;5G3|_vbuf08W=yOTbS92>O{1<N^|o%*4Px5KA?lEvRgnuQ
zSaM`h+d$+H%p^pW=`o^AkjxBwV`7Zu!jNlZ8yrC3iyUOD0Mha=bhSWi$x@)c1A-o5
zbHPwB-bYac4`{IfG^A0wl82!dOnF$d@}mWs)lF+&9WUwzpkGG60NeK3k_yzMQ!S_Z
zE|?gds^20Yo=R70gLYBr3QR8;v{VQSW(Y@Fw&R(^(b(}6%&I;P%B9uFUGk&2-tlb9
zUr~J&bd$I%+wnjR9yMr}8c-JRcp#To4a&Ewu7Zv+GA31*2WkA37;18l>aM;QEsSYf
zD#PU7YOLy-Y*$^?H{?PbL!LZh4)Va4(`>6&3F^0mk}6-|CY3UeJog1iFzO=kqwE9&
zEHC|yiD_o$8(;iyctERRg3SsjEC6W{#aLQqI5^1iew}RKL1i$JXMq)StQ1cJ%T5oz
zeCmbtg_nn)8-6)`?(}QJL+O))7f-z)CFEi_c7}sJTKaM(KXx^pzsj+>t20@K!xhbC
zv2gcnhRbBLENnUC)kFintNJ{MX=|}KcLH;T)!+))RFOKSC7_+)X~{~EJ2NrGy@dHJ
zkPotOl0)vj0`_H0FE@Z7a><#-8VDN)8N`i3=9E=3=Gg4G-1ut{LVCbWkp}J7({Es`
zEe-n=(0HcPWV=MLeKNTy1Hl}mm~YXNe~N~&Tm2?DYPl$U#(!R<p13HRYsn&5BddvZ
z$AdRM-SfzLdNbKtG(NH>#3tB{H9U6Il^pv7$G#0m-=l#`g5y%zO116f>1MHIZ*k}m
z-MDF`OV)P5+Rk^J{B-z{^~KFZI~EWV>-OL~vKebF#rlO<f6*<*+e+~RLi|7}J}ktC
zKb_f#U&1s|G1^j!_6pJ7QuMSCJuT98TLyj1UNpY%0s#@-Q;PHmksk0m#bB}&1X<8k
z3hozz`yt5wxUOmK7~gmD(~}!@&yy-ehr8sc6C8ECqgiZd#CFC-Y(}3D>np{M39)04
z(f!z;Tnl^@yBAx(_|x>q=?y=Ge#c5AiR2w48d+IZzfC|uKnaosvm)Rn`*<d&Y$eAO
z{tH7aZ-EHkUI#vW2exoH@;jdeBZOD@bTxLt1mU%%DN(>FHB})C76`9!*_v{!5N@yf
zRo8+I!YkZU4W+0BJA_xbVokUM!YjP6CY&x<7o3c4!3F$9LpjWyF3{Zb5U0W2bNUyl
zcXas*hXEO;nU2x_#GvxcH(^W`+zXxs*Mhg;hS75t+zb_?3a)wR<$|+dW2k~VMnV6q
z=wgiX&{*(W3w9+2-U~ix)th+~{N&M6To;Vcnz)*x`i4+VNimtMrcqr58>H6ay4C^>
zF)eDk>Kj5eWC4tT>ApiwwcyLA)b!e^3#Nj(U@cgnc6-55fWAUHjc-$M6`VgY-&f@M
zg1_Jg++rCasPrP3GdwCNRXMKY=Gg0V6C9hKo1Q?E1~&sONjW4dGE9ieao>ah!d<xn
zy3$CHX>xBNL1ZTRx62N~Jqd4=-0U=>YE)AYs|SE6<eA(XNZv$3O8Fynk&?fTt_+gP
zNU-=CjEl%N73BU5L#suQ+@u^VLh{wX`84Pp5HOPxtA)LT1)xNi3}9W78dNnj;qG5W
z{5!{hbpKme2I&kU)Kq}Gg#qs(c@N2-AbDy_x$j_-YSRdAM=UQnaP$=ek*sr4Eku$J
zqZFUIx$x$8?olM?Hjb9VwW^4hZ7(8fBok4H%{M+x*pMXOg<^8w*AcxDO$GLr{QCs|
zzM@r(?<>Vm3h|RX@cl?<DKa2L28vEG)Lsf56ha4!4l&kUiX9hX$3bHF+ba1Iy`{vE
zkQm}YwuC!M;lo1saFG_httD@#;O#7$H=}!tE-{|Kf>8n_A3BovE^Ye5C4bLDe-BUh
z@cy39J?&y(uh^O@wGIlcgCNG9Sd3oZmj=ptURQi$wUgg_gg<(&?4lyg#TUdx$NHJ|
zvwY$R|I9fdajrNbh8x!CwK_iB1+n#AeD|{t9G_%<=H}~96wix|`yZTr@CM&F$kX+k
z@g%h5?;YOHlg*{%DIs}Ej5dm~`VYGAc8iI|QleW(bc@l%2Z_50j0wf=Os-6d$sRGB
zfM%6i4hSs=#6aZE3o9>($(AQ!y3xhci6?O?+9i4dcdRQ`vA#!)wTbZ#G14ps6Jn%Y
zjJApm`$T_~)X*m+`Y=sh>Pej|YA-s=Ny-D`6DLA0rF$;r*}0WOP9bj%$)*z7j;#Aa
zjKU$%koTA<4diVlPHFBhfB@o=G0GU5&8E|!ApT<rC8mxOGEO;)Ns&xo#0?<-{4Q12
zH<^xahFi)ec!RhP#a5eFUN2kFXQe{PvJG8!3bvK>3SD-f4^%X+-#F2AK}W?KzqFmw
znG&0I^<@(}ppb@xWeagysbI8BqM-<T{cjx@D(@DtA-K*fk17$id?1snni||IYDrfx
zUFg8bs7K=_{25^nX@a+zwXkL^iqWB_gt0)F?6R^}*fp9JpB;P-_><${<balxRANEK
zjz<_5>@giS3jZ-NFh<f~jMUEM-6h<&OSpfR@Bj-nlU@XONg>CEo*El|YOGT`c09mD
za8LdJt&h9)0Q-pFVz+j<m?)e?aD%n1j#xZKWEMXNUl_JLV;Ru*oIp370XybI8gxQn
zq~&HY$W__@%bH;~92S_!=hC^E@jNKIXNh@8ilfB4n&EIqC7VXmRYd_*F)@8DM>GRt
zwU7<rp#lE3eoQ7S2zv@en*4xDfJy`JReS)gs_KBMDxhGf*-T@3<SAHh9V*zWssJsZ
zSQD!O7svHCC@z>s7D1j#zv`;KL1mz{4^#%$MLj4RtN>f6bOo*=1WPNh2b3J9TdltX
zvYGM`wR|n;1~3vv3Lk*ixVc6v1$heQMJt1~Ra!jVvuy-4`gjet<D91eOCF)8`X0xT
zu9iZp;f#KJ48XG*H30xLrDbZ1@C~78VA%1@LrTb70d)B`H9^6mjwt7-f<&gGFnLFZ
zfV8R{0B}g9D>XoEooY$d_pKJ~@X79K8r8*+QxF9mj!e$-A~3%DO4K{Ln-nMztRwT6
z$%Y?{%}Hj4%_YIWq8etC^3q7+(twqb1b~@T464LbTWehHOv*<ja>=R8&E#b^37GQA
z)jZg6XU4|~fc;oUaA!)-U57Tv1kvhz+jAEVC(m3;lI?nOBA1+-R!poclbo1FdnGZ3
z&!2q-mtArS&J`uEW^S;_{8gw2>_kZbRhL-~s!9?iK{AsgaXW*dFw8<$aw@|82;1>Z
zBr@Y5XC=5*3_$ZR*N@~N5Xmf`D3WL}l1(E|n3)F6;14nW1d<p@q=3}~hTKImi{u9w
zM_?c7vnSxl5NKooQFFMeB>%`v9__sB6j;|-W|-pu?)GB7e}T~^Vi!!&GCHlaRc_=7
zOt!ruxlJTL=^Yl5Ll#vF8)d<dxIxnxjLoSiCw_qiyaj9lOpS4>>$DDc^C>afgo*&=
z^*9(??f>4JxbYVqG2XFf{m5h0{7oFh>TNO{v42S!I_*!al+$0L8w9!mj8fjyx+eyM
z(*?MK2IWALSl<Akt)Uz1iEqaD%E|~w81x2@>yjTlbN88b`frARe(tZ%J*s=Lcvh^W
zi1Lm`v8lZ{^b5K{bcTM^Rf-)DVh0{N4~WgZ4+e$i{s-UsOeY*V%{RSB5^bu%*ZHO+
zsE}w7>pQW!I#9HH)P1k}!BFYIumJy?hB3I|b4PNm{*hzfV_z%3=lq860#9F1hF~)o
zle_P}J+L%@E%Ar%46F>4{LO;Dd2LYe?^#bh^n;BJy9&K--NH@_5MrR{CRxE@A`??G
z5xa+ExW?X;OgA#wIaac&LW}!8d=JSiuQiEQjwKO^C;8MvN@({^ld!Q0=Z0*^1BrB6
z1Pba8%OY|FeU&31&o9_+Ir0@L#Z;sba4IvzT3!LZs>K;WO+jg?NAjpFCyy3ftBI{`
zsgi@ptWGFb*$^wi<W<mvLfsB(27~ejvmNnUl($*CJ@=LNKtD{A6=_o~nK7yy`%U2L
z3yuZcs#l~(HQi!g!EkF|!Fa1XUy-C*U=fV~z|}$OXh{wTt;ok}*=id>3TvL=<IX{w
z;??x3>lS{`%4s+JVp@t3P|55vqM*7VBdWYnm4kkZ^8Oto3axd*EU+`iYeT@7zEd+U
zNwtO5cjf!x*i^omrfSCg`>SQ3#~Lbm=x=+qX4M6u8qyU?(2%2$cAuKB`i8W9RiEmD
zv>M+A)H(`cfpLOWl(J+V!!mnrh69npBxga5OynyFyXvW@q;k-%+iq9+_aGe77^wI#
zlyHlIBoP$JW63vA!5|w{J5esmYV%Ga7>Q=*t!=r1$vh=5upJ^$cg;@N)Bj5WDr2jZ
zv8{F3zc>2ie#pmpWOub))x$lzwsD&(Wgw}Vp~-MVoP4UKyHfAV<Rs^gL4Nw^Cfl`!
zcVxcdJUKR+l!1W^TmTx)ax*t37?$ate{mcv(2N3|;7gM8&E$Lw;vj@#H`xjtgM^5{
zYPCGdsVJ1#1Y^y24XPbV;vPi<O}#R7VGvqC4lJi!+&WBK$p*7PK2QxNP!u?_hx-Xc
z${IeR+#|>ccjq;r<Lj8;q98<~^aIS2&dj}?igEu6lfHq301|?!5Ka+bC3(}_+_Y?c
zhi>62kj!(_m%)4`1GDd9$+3!R4{c0vM2eiZCP-1%yb%o^gM}j0A*OVxPRS&HS+I!Z
zuT~CP{T|(sG1O%!4#wvemiiGA94YQ&B>x5picKPo<x%>#=>2y{NQWPw>t{$%A(+FZ
zk8`>D5DW$fb>*JVH|+9NyOjhE;1xNzgMct>ALR-0?nd4^#5WIZ0ChKt1RwEjNBFj3
zKqm+=dH`VfT{7OFDH_mG5>!ydbDQy0DSlLl9|c7iC}n8R?c+<we>7F9KP=QA{+q7S
zz<FWdJfFBAI4%%1T}tq$L{E?p?d8LJc@Mb#d|(eB+{1g?wuguKaEgzlc+lo~5~vMx
zt+=+FmH;%u0-z^EHMM`#aIfKkccXE?V689OmXCtc$muQ7T>{<3)BRBNvK!0vG=5II
zOLV(HLs5PR5j|1SQwPPCJnaH0zvO8YJdIDBSh5egS8}8tI#LSi;{B~WeTi?ov;oxL
zDki&1$!CS+v!JRIX-|o666hw<_BPZkdIm_J0Mi}fJ%_i4L!b8YsR7<|wAv@RQV-SG
z2jy)#;;Yv|sreWi+#%2%VyKRfck_vEJ_L%uX0We;?vStF$2aWb!@Z;_$AsiD5iDrY
z9wFMJ>KMZ<rErH3?x?CE8=6ZEeL_Q@h+nK<i1&+;cq!5;L^{RheWm78Lh~sl^KTMv
z7=|X87eyz5l4GFcsyw(~C%Er`iQqodWF@NV0CSaPkq6lYb8P2xt1}Nd<wrXO80#xI
zPfdyX0WHj@8jcn$(<@M#2JT~YL{+E1b_gcDZ<jQNY8vhg)P$Ry9nYd{&Z?k1?e^?a
zK54@)ainhTKHoRWjey=YG1L{EcAb;n9ZdyqRr|siP=7HGV~$^?V5-$2Y3psEEy1sr
zs3LnXxj}gqO$(mru3*+`F2K$DKcEyi-m*(6hCiSbIEtc)izzK!jPrpTfL7L3TdlgF
z91YaPm;iSvGkO7A{C}6zP%!5!CdSF6T4(i*`W4WXY0me_=4v|CrGA+OTlF}Kme%OL
zvJ)Gk-uf%3!49*5+?82ypeYeo0PIh|1v3WR#P7^k5U>{N)xx}!J!-qEZ#W!-7yhXC
z^nlNu@9AatxDo3B?7n-P;VE$r#!|4pt>cV<fgKDrhx#-PT>TU4eT9Eb?yt5;bye4i
z*8KZ@Rzme?6d1`}us^Hmq0&!s-1GgvHc|y6V0D{pg01STIN0G(U;IxzV*~eT;2g>o
zwRLa_N4{i%#{}Ve95*uy+w%0RWP=NA^0`Bzya9ML4tWTYl00x=@ftuIqO86=k;%yx
zS}au7ArZr9R8F<SSc}Qw1PfeFkt|a)H&{Fr^VgX11d?w8k-Qu`%VyvT0BD%FEDM@5
z?#CEO0NDXdVS<eUT;VZsndvL6WPsC`vPw%oJq@QR=BCH+$aN+w#feq{Zau*nOF*&A
z+!#4cBLgkcFTjGZAz|lPI1x#((+=1~ASEg>WIelG2Iu5Rr9&Pbay*9|f|PU<l97y~
zMLuYGT{6MV!Sr>gWbQKF$;u&buYxM#BFKvS_Yk3ZQeD<=?S!5j;;TQE@s*DXHJ5^Y
zLa?t0`m7-DNQiEK$(<D3N#5Q0IMD?Lz*3-92(*fU=$$hwXT(5bDX>on?Ax*!>wPPB
zuxj~2C2x!1ZCQIs@V2e@J@j@x2$Xt<gx;Y~UlMws|E%v}?>P}gewPsL;==$!jsSg}
zI9Mr*RMG|~Dc5yE0PLesWsQ&2yJa(x>RePq^XjFwg;Luoq3u+u?FFIjh0nYjZD&5q
z2yN$u#D!(M*m<yc?h&2Zl&@B;X4ZlqMejxbW!?Jqdkq_&-l9o#d2e4^y0+T5`pO4i
zyZf~tzP|3g`__i5qi6s`gx9e&@@%3>H!e8hYsQaU_goJh-J&m8^0f)Rwsm7^@3X?*
zXFq+J_qA>KUMQY|!72qhgh0poP^t5j(0S@JA0O!02%IerZ-yFve5}-bSb+bb!$rp?
zf}?&R+Fyzu6{1HsqQ{D^$KKHQbE^a2`}W^?+lqstKe3uwIaVAJLpa8vw&L?*plPjl
z?fSibA&@E#;~g@v#+E$If~UFUIU#sXKm%4=KGdxpTJK*w_Lq%(Y`+iyV{UlW_=C(^
zcs;n5_)8rh=@kNf+9~TnH`yrGrykZ1tTPXo^(-2W+wZoQ-IRAww?$dKzTf&NUvwqB
z>iu5qSKbIXf*(ZhMt@khcKvR{dgF$-vmB<JfpU!M=qo<Ad}y_Q`PhezAHKx<_dKNA
z%FUE-Z@Hz4;!=i@k&&;OgDcBcw)(E&V!D9jRV1j2=B^^iA+aKP9myw1a9Qj;TYMP9
zkUWCF+|OYpfB`r_rMd`4?G~cl;{HQmo&Pd=z~tKWhsq{+!`1=L>08icr98p14PACT
z#_vEEO@-@L`&X{54GE#WWhVx?sAznZxoa=G(dPkQ*^4e86>C@v+>Mw0=nG)6L3D+v
zw)XX*dz0lb`XW%t?ZQ%Fl@Z)cWo!wIqTRJshpvK-YU>a?_lbQ6zYMZEQ)ttjD4Wm$
z&6M+%EyQc3;7s(JOK+BK#A{b$9mGph{s^9qE<1@A&Kq>DGeWqp>?VGXV((tf!<;I6
zNtllc$M0lUvTGNGP^#=FVF4=9^ugJ?XV>9eT~C=b2zq08-;OWEx56aJh+zO*8Ne=;
zP2h%xDlN01566_m+0a)tw4;xPW|f`ja^YaP(dAK!f8qt7Y)U7e^)7zfmyi%)f+xGi
za4(=fC}+vuAP>9`?@ulm0ADGnLrsM5s?=rl<X{&bldCOBNnAlT`kFmMMW;GME$iNb
zn(#0k98uP*s0Dq9EJ(@bsx?$={{Tm+bTxKEK*%cMknjA;enc#?pOgu<z1?>jfZTSJ
zp{a4UGGGxMuV};(n`>#13ko*ER*jRLf{Nmvj{0>}O}{I)L}gg<3+SQe=5Yhm8mNY<
zuIh+r9nr4Qvq#h%)whGHv`_;d!%?@&_k%-xhDo$<?RWr}+VERWHtdK1Z=qsUR%_A0
zEO_4p*b43~r%VdAnt`O;2SDJ4vXz<0TtUDA%<n&9_<ut3pOGMYlgx0q7=Q}*uZc%S
zH-Hr8vT&0OjE6D+Nds7zn$6!N(_b>-1^qPM`WlBjT-?N58cLa+#UCQj!(}wPtkSBi
z6v;t=34$xQ-EG0UCIFGR|ArM3A6`%~5~xNXmKDkccm_8^a6el`Br+KJIfQXYeu^+-
z9}rOE*r~SE;u+BuFS!~8SL0gahO1@my5QQo_`Dbd0Fn}dsf}RA;>csCZ~4&eKPu`(
zUvka6_R_r|%Gd5syh8g?!FRN1c`Wmh)#umyAGv#rM&J;h!1B-!8ke76T3F40IJlNy
zd;ac%;0Ei~W*}J#>=6Qcpem4)Hh?y2%96WTa5t~L{y_Jjmv8Cca33rhMJs*Vwq#rG
z{K56LmUZLmg5c}guy&WMM+EDUPZ}RtpZT2j-afN*X4Sj;{My&}NY{gl|6%lJqmSql
zzjFGPUj6>?ozp9)mj^bS^~AqASbP=SWea8V!U)&`C2LHu##V>c4&Oars_PNzdLEcI
z>JI*$^-#H$a>dJgDLTv>WtJv+vMe0Zs6FHD<<QDp8#HEwaaJExN)Yz;4vaZrZ+M0j
z+&iDIus1l2@Kp9j)vz~{I<aA!_GiG{z)%8*464ixd==(qsafPGn|D00$bqel!#$XS
zp?by^7?d8&D!Ba(*W|~kw&Q{08hA2Q-SS%TjswXTsmZ6IDuH}D2UVN1CcR>~sI97C
zRr?HWGioumY6>0o{`<;C%3QP9;XJFIEJ~trmW9-HsDs-8lCo(oeB=0BHY*un{mOI>
z_9`=1xL?XSh=}_fi})ubWHJ8=U7JX7?Q;Ks<ZprG5Jgqisk}@-#YiN73o|75U%&y&
zl>UR3>34s}GM!(V7oDzU%W9a1tKs1YT*rd5jvhEx4;9ggHT^?J(_;W3U^-r9_^#uR
z{Lcc$b=0kL4;_uwi0<QR9IpMFOE*^ofBtP;t$t-a9r%ScS+2tcR9~}z$R&tvH~(>>
zkOlG~IBG94Y3TvA?7NeQAa*=e3{cQ>@j~ryTWC!AaUGmYvcW{v&BJnK^r%bWbT<uO
z2{GO@!G#yD1!^P44#|+2dRsEwfLmN9AiW3S@--0;`t&Kum<A(&6iUOc8&ak76L5;T
za;k*f7lxk$AT#7yC=ad;%D?DAQs;0)U~b5>ViD^@f;Vk)r@^sE;g>kPa`?`%m18CU
zA;EuW!+&J)?B84btEL~f;?V)Vu}_HfJ(&OW<j=nSS>wY)XGC{EwE34WFEy+VKD5D(
zGO+2Exmv12a#Vgr2TrMB<&qh$9m6>ja+6u^lo9Wyaj1vozKbc6+kXL}Tm4Or?#yMl
z!3-BGIb?nueja%fK(-CYGURJ+-O9ZfM>Rw~<ia6)P<~)R{iU27hbDLq8G%yqjo#|7
zFI4NEgK^GrxGCp6NW7RKMp_CPR9l~{h#1en5gNof@^RODnAGsv;e*^9h9Sg}_bo@!
zMZoM;bdhgHwmU?szJg(&A|bn<MRau{X+n|&B3Yl2@0K6u{ug-RBT~5mpk;$jr-Pqs
z&^7&%s{2QZ{wJ#Ww|cWq{~HR4i_$g!l4|}Hb@;b>qfY-N1>`q&O4t7nw!rdh8@BpI
z^JcQ+BlkTw-_Xlb@h9f}x*#8Ge?q~#oP}Sia{N~B(e;!mAaEa9?<k}9$)2k^U4m~K
z;E$dcnl3z{(EH?);WdLUv^w>K!gu+GIj##U7d6WUaBn(1w~sCzEt|j%8wI%L3D+#k
z7W7#uv%T1QyK|{iFom~l7<4=Wxj{35X$;`r3`NT(ctg%eUD<*zIBVl2CECzu-&TeL
dgAQ7BxOuI+TL;D)UHCyWd41CS1bt*|{|}T$?`8l1

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/flash_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/flash_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6e79d2f62b5f8427364811fa4d7f1749cd620c5e
GIT binary patch
literal 40752
zcmdtLdw5&Nl_z*X0wmr536OXaFFrwnAjO9s)RQ7by(!0{orF<B(*!7y;zPOsWs3o0
zIiEA3(n&0((=96LUeoFHn2y~YrMJI{GTXaxe?8w!`kUQvaY^L^a!2`E?sjjlcXnoB
zOP=)f?#}M-)V&t~DNxR9{uxL-_tZI6b*t*u^VF$R|JG#EbNJ1ue`jjfUvb>ukwf`)
z%gDojrslX?T#Os#Vyal#jB2)Qv`j^K`Aqq&dQ{DD^^9h;0yOnZ<!B|Ini=h^ZdAv3
z6*Kx-!>D1_IBJ|Vjhbf7qvl!5sD<$=XRNbTqg4#o&Q#CZMr{n&&DdvaMr#<ZpQ)X7
zj5=nWqt02^s7u9_adFpMa`JdH-e!Og_o#c;GwPZ3j(TV7M(bvMqdpeeIOCrUj0R?d
zqe132&4gy_N9!4Go@tnE9BpK{Wu|Gid9<0~)|r;s@MxIfRWq%#ZKG`rubzp_wvV<m
z+%^-P?HKKt?Hui#-7&gjwrjL&wtKXDwr8}5@$ECcvpYw3GQ0+*v1@cU!__l;@+G65
z>6_g<fzq7aH@ctYt2ut)EtQnD(Sv2&Q7%^d3Kw(44R4jp)I;$yMt6eldaF#LDy1>n
zFLT}CdLH8*mbqSV>mK6{#C-8U%pV_&ABhjehbGHhh&-lVtmHVtCe^XPE9%js?Cn9s
z5Q=xk2Z)nT+cCzg2d^P+%u|oY8skH;rg+8lH>K1T!&ozTE%*z^PsUpD*M`3c-0k@D
z$4^e$V^O^Il#VO>iye)1#4D%2RUD6m$2zy6@7RXkwGF*{8+s2?)w>OE=Qi|R+t7C-
zu08SLSl>2$R`RjEo4&?A_}{;ce=6kz_&bQdL)-X~;_QDS_wW<B15e}*K9PImiClka
z?qpYN=oQWAnXBsXvBie|WHLUNoSL5t%#2@+^MMzpk{1F)GvkR1c~10wstjS3sEds!
z$0xu`z@Z%=<k@k47!GxO?n)x85v}<^hsP%_#^++9DNi{*dugV~Idb(<T-2Xlm`P4u
znu(v86l<muW0x1kk(kAJZ0zEdv5E1C3vqgFJ_<Oj6PLzj67jL|^JDW1$uXXiQZ*ar
z&x4dq&W$CK<H>j;TrN5$DHAer;nJmfKA9MsytG@aJs(ew6)~^G`2_MW*5m!f<Z*r`
zJ~uYGFgGzaer0@WX8ie?II`#}@{>^FO-#*QOo+8btSg1!o03B1i_EdSi4H!VxG;VR
zNuP^J*_BctdLEByYA(5(r6yb^>YtsNnH`v)o18i?dMG>W+adY<{Os5j@Wv(>6J?_x
zpi&&9(tcAVn#gkuMR=Z{U$_LeVQOv)!RODPkMnRkSYQ;y^W({h3u9Ar$i@^t34&S&
z<5#98;sfKC#-E>>nMz)TclAVU>Pommtj>R-fum=oG7+75+Ua<5oNCVDg{hfXoEIGf
z^Ru(_bC2<*FGH!DnV%S+8B4@3kKq#}L>r}AsSuP`e0kBGxP(-U#o`n5v3P=&;3Ymj
zIW;pwRiaSs&R&X7fM6J#SV$yMJoA?l6U7~!U3NS?fxiD17w1M*7@NzU!H7Is9#_XT
zv9f*eg5K6#98AJNwLVTgUpA_X>*EG+osV;=ho?WpTuw2c$C&UP)u@SuFvl&*_#pey
zu(w-d74fRcvRLIS>ipPL9k<1_@hWiC7)x|T9DAJn*TnP`2SOQ&c(pRmDDzB3JV)HB
z!&nnD$IUSd{;c?`!e2FeixZel8pS4!G5af;d`es_&SHL9tfnYlH~6(Ij*=yU)H{lN
zdyuaRl%82mp|gnR1+O+<7jsc5$vJly@qH|;8hQ2<QT?ELF&0ZDRae9bf<rm<mHt*m
z@1pYX$1!H(FNnVoi?2#b$z*k`z9`nvRadxCtQp$WjmkaZh-e?5n229WQvY=cUD)#r
zlapu_R=G1l-xo`wwW1GupX%280Ro2rL~p^%#W+6~pBZ}|E#=}^0zGCztl;Cx1%7T*
z<whuuCOQu>=S1bcstT74i~6Bc{b!Gj^^c4Uzsd15FMWtV?w?L|Bxf&mT$;Mno*YMi
znrwe@Vb`AB7k9-wW~QF+xO6pnVScWII*5)dJ37$WO5;Yy^HNWr=qU7A(MwlFEj8M?
z@!9yIuVgty75)(3ozMVW;~rQ%d=D^Dhv?_Vs2C>X85yV?N4{8g=73-hP4j1NR<(o~
zUrLoKo2FcD`GH!og#;(4+LBZ@f8WfRRA1rFa^dpD$mV<ml-@ruJ~I=@mq&noyeLoU
z4y$;24SGm3m0L9LiIK(1!6O4_29G=~RvsCa5TlHYof$s$Y0;v%WPcdd$|q(L{4T`F
zVn|S71OfrR7f-QTNsu(?Q92e|Hm6yxgVD!*o<IzV{Q%dvk19Cbjt3TJ*67L@gMu-*
z8EF!XO^gy2jNzP4Q>V{y8Y=;vUix~~n_o%;|E5|=6LR($sYkuVB>|=1S?*00rW5=j
zI9bJH@kzNeQhk|1RAVTD#n9$gDETV(^DH7sQ1M^m-m?VL+MtxUy3HZC3{JmnI{Cwh
z7%3erkx~n#;(2MXV~K6t{L13Q7I_;jPH!ZwjY#R$&n?VK?K~ms3+-Jr5*>r$h4^?Z
zA?oPCIs(zc<`z;Xg6R++ouFo;{PIm`Cn&ejY+|ZKG>}-?Mbs+Zkdzlopp+{Mr!Qg|
znnII76Dyz8pebmE`3OR@D!$lonEIdq^+ADI46%Xd<AHHt(!4G(KN;AuGy1;N8ZdDg
zpIL|>;rV$!tl^JRB*zFGCqPw@KMBBk161pL#ijzykN<4Ov|Yu1+~?;g!ghdbT+YfF
zYgfvyA6yw<H~8;Yd((9T8`Xnp<6zcWb)#=3wKjU!m9`9|wF9i|H&upw!F>vGq0;6H
zN*M*0xD<M%i!I26I##x%N~z8grCg?{B}$SiKKsQqDel`C!~U?Spu?5JV)^i~K@<*^
z*!%Pn{xo3}?0q$WSbl6+;qy-u|11IW#E$?hdY_rQI5+>oT!7UBn$}~W2~5uOv*XEt
zsEUTm_y+Pk41l?$QK~NTtjdTAGZl-E&GVS4B`6KbM{sQ}+9Gd@9oyIM!dEK_FpX#v
zX8^8okF=b#ZNm{+Hf9ZumELtjAnR#eK9$pRR&QGC$>}(=d*zvRQ%E9LNaRQ5oUJbH
z-+TAe-2*?VO4ps-s6Lf8o{}1jIsZ;Jj!xu16kbRLNG17@1|8IXe6TAVZ!Ppd)0E{c
zzq4F2--2Rg^wIvXtk5>X<-;h&a#~qv0mkAzv)zl%XXbcJOwZ5JS|%{`)b0RFOJ4w8
zxF$KzPh1d9lQZ+<n9`H~$vNq3sCd>1P>SU~oz3nkS{8l`Ur|~i(D=BxWBYR7Cddnj
zInf4yvDV;9*L4bp&igiJ#?~a*n$pIm_s}N%yY8CPyN;&oj%`#QPaBU*O`*6Hsf<`D
z(r9^$Ca|jSpt56b5!Uk5)c7dC`_B=$Mqrh|I|LpO;1C(>-rrR52S7*^W!Op8tT4~X
zcWa5o==QlS<^Ky5vDE$lt)(Ze?P2*C-ZY<}OcYlK)iu>swA<<8%)$%(V);+b>kDmI
zY5QpDkl(R+f_iv_KZgKVGO5QGlJm4&!=e<cPg?r%G~}TLQnsa!UEIbT`Ehx39bRlN
zo%e0Le-V+(T^@a9LojP|WDTy2p+PV-tUhzk(01R}x?zi?jghRSZq=E#gwxva6TUO`
z_NBVK1d6LvVW1`qA(J$H<*Nu>pcEB-Wm7)ov~pgo|CsENr>{^Hb^sdAyY5+fvNq>^
zOUs6(HLY!BX&3bq`Nip`&z$eN0|-uIUZL}*DWoE}yNJ(56TRX0soJm(n6Cq-e6GvD
zH+6}gd@d&DXEBwJV-2sYj<;)^PY7~@;;#XqiLmQlUHjVjovMwxZo$%>)^<x-)UbX)
ztXzNyWOim;)Ls}*VA!9#DC&unxHQfu;$l^dt<{T?GoeGg$}e9Y7^|o}DtK#3yG@y(
zdh)8P<yX0|diZ^cL>l#@^v=NCd{UVOqnm>aNiGKrJxVzQ_67DtJEd~eN!9)Y#j-$v
zdOK+XaD_1Ho%k0CTm?wb+h`KNe$ph+UR-?7PtA>!<Z7|?W2z5QrTG0OMNA*{8ux*d
zGuqS6@V&^syPtSRwGlbI?mV2e4P-4gR@VGQcnjBy+A+3_85<MzV`H=Pv4xp9aN`&W
zt7d3{Gd9Mz!mFr$etv#Nw2VO(fr4R4OMpic5V4Z=_B(cp+UI4Ar*4>6vw$;G7<O5S
zbdb9ovL2ptFJd@GJQK5Vti57lIehUnZxann3MY~IgDei3?(+jcc^ca=$}B*v#?vUv
zf11E^1f~d(OoE>yaEXAA0F8iriU6$#rTo*Pf)6Wz)&_~Is19G^vcbl*+PTuOp>E9f
z_Wkg)KltoBNB+(5Uk;~x&ZgD&8y8lRt4H2A`T9x0-zn7Y*ifJSP|ppio>ryRfz_6^
zo;&4triIQ!LR-HOI=rF&!~;!Lu1uxz-kA81!{cE&S5eIfxeBfVES*Nb)}7<<xYP3?
zJ;;Yd&(+F)Ln{qwf4AU<2bCt2k0L}-u*lk1M$(~vq3$qwXwQ3SmpmA`K+^{Xon}y#
zwL5a<gggMEAp|}g?p!59wH&BAhUz(YU5*9G89BXWIdNlP`Nix04^70C<7XbFB<eNZ
z)rGaQck0(Z_4-R6a&XFifaRPlk!sBe)t!MHN6))QethyrCqHDk?2*WL73Ex|>0Pt0
zO}y!%%=8jpBFY7((X`$feWyX_9m1ka)A|z>3LdgIU^z1jP_AiPiG9f7A+vyC;w8n^
zlkPo|L+m|2X`q+%<X_Swzr>`mKd{y2G<bqyt$FqH*FT@DB$t+R)vt~SPAm?|spo2(
zIRjxvuDUj7BFxO$961YNR<6dCt0JtL^G0$u!t9*hw4A)|{;&ov_Tmr9fJwEID&z$I
z@;@5D>GzQOkjDjh(|X3;1mYF4P*1%LmkH+L+i}%QBv*-8m~ifDMYvMjvaEbc5=APj
z%SBH>rUXbHIW;*o5m0ym(I74Bk|bdkEtePK{8f@;^CXy^5KR~3o1C-bFQV%qKM;=6
zjB5#b<7v9XzXTvwj*Z3UCzOt-VgwS@d7gin_+KKhrGbByXav5CzXX-;m$-M)u&Zis
zd2f0*)OFb!_pNg`&uyqNjd0%DcXQu{+Ml)6-c#2~AB4h|{vg!z6@QR;c`2z2<e(~6
zpxbd}`Kux?jaLF=pWvznk`?df&VP`}gO#%7zlJ1;+PoyWnhH-687tytQAY#kd4BxT
zg~tn%b>93p5J^!1UL)t0QlxQ(CqOg8L=fOh+=D_9nr*MnT%XxcyR%NuhT4N6=9M#2
z=~0-{rS~HG+Rdd0siRy{z@$>qOdAowmLIrM1>TM;RbWWBr3xJ1&R+%lF57V{pUBlp
z-xTlA<uQF8Gcc?YTw|VQVpz$y#mpq{g>TC*;m7(*_^J9O{8axEer)6?W**hX%kycp
z%QRi-a?Sgzk^SjE#$T=M&+sw+9L%3{)EK8P>yks6Ah%XZ&n?p|kjE=D52JZUtI)30
zu{v^HHHUp-?dEo+v?#HP<WA!gNlbpmlJnT(OYk&t<-bngRRGaIjZAKG{O=K&wL)WJ
zW<EJKJAUcX)ZBT|K+(vXH&UE(vy|eL#9PXSj%c7ZIx(J@7>{9gi}@V(kH#4HMb-<7
z_K5|>o$nhHqFMHW)fC%EGAAHwpL&sGNz7eU2vtnl;;WW*8rYV?rdl%oA`?X+xM-uT
zs?D?ngs|9dqd6i!HY@LYi7q)AkF(fhS~SxOs65z~Rzj?l^DS0LWildGOpGri#%IFS
zTRMBGM`wLIb+%GZb&aq$2&@r!lfd@~P~XJAO@R7r{!a+7j_Xee+tQ=mCK`c1!(Re=
z7wFM2GE@KMM)$v=t}Qt*RM|Jw_H3cQEA)ZYj$4tNkqx!)f#k>GrkJX0Hq<qkKvW~f
znyf@~`(KOPj;z@Qcl(CAJ!^N}I(75ZYL8%V-cUDhbvnGaQa4kpF~QNgp>EA?b|T`|
zXj<)F8CY$&eS#wE=uWF0D>biqZ+q9&f(z;Ch9{!du4rB}-Zri#1xTdSUD@6}X?5Mo
z!fUD9skNBk@7hrB$+|t)hHng@2Y=AB``Xd8sda5cFkyzfJKMGM+EChv*{xvg*ii3$
zU~^m>S{}Toc1Ybk6{Kh=+M4A%LD?jm%CE})H*iX=wwH?5+9@tcO9%E-)~`!t*w#Qd
zx%Ee%oqmJdX9qZLsXVEZ+}H*wFE#&3=7$s|=0w>E?u#TCu_z%6&(d*}+7?x0W-9Kh
zN7Pt_W38=P+;=pd3?wha0|`7KET+Ab#LQF-eFSt7=3?_NU{OgM-H8DDfLLH^j`_wq
zEItzr>#!z@CwT{w!y5p^iYp{whNOH73slUZ<|g8znsyENL&Pp0kHti@9RHXUe^||b
zpLn&K$?_ID_SK}#bx|Wdsn}^nDlJGoV@zHpC0LG73CaIUczqXtiO&KsS?AsZ{{xmz
z?)#>eHP4?<ZI}*S8_HHWZq?na`+fhi=Dx+X()e2I?bdruyYE@{q_um}mOWXmFQW|!
z+R$q68-1_$W$O0{_4|IR-JjEN)j?EUV<@ebwl+3RBb0Ca@PEd;zr1N80d=o(rB28K
zYh&rT?wkSid~HBP@((I$Wf=0X$?XCqZjh!MF?HM+)5J005EYxPmRM!nIvr9%6`qsY
zWo}Xx)4pOHt;UA4C5D({dThlS;`W#^UNfnUnV_Ol3*3&aTr(7w9LwB`s!=EEj8)on
zIg99+{F}5Wn7CS2T7ZxZS{3s%&^^gZ(Gr++iw5=q*<wB+eRA}#q|>lzg9Mu)l1y+7
zU;6h{#oJTYD^lFo&`fEsF;$*Yza=+8>^_#4+<WB4Fo%<V@If(e`K7qAa)ksRBzM~K
zgAe&F+cj7Cpss`cwrPwdK4Gb*tW*lbnD0hXT&bK*lT>fZ4?aueP-*mtQ>l^=yO)f!
zW=n){er%l7=-CgQQwd!Qyw#NVQTnYU4BGN5Du;ZBhxh|qyupe1tqL`!f-7Gxv{5it
zt?*FENx#!JYhTikUScY*J26e7qb)y#tW`*x{6-aO;R(O_e3ve*>7Igb1w$xz0WUQO
zlxp_V*dpBeD=I6m!b3VrEV`%r6n^1}bddOo{Sa!mf)}3rEa(jdw}SEGNs@c9-}E6F
zDSDtK94>Oo==9*@G-zakm^`3xriT=)@I)Gp6<iATwnov(L_Qi7YVwqVO%E$r;R&CG
zIzsiQMd4lL>bYc>;%b289Qv);crDZgR>SgN`_tT4|MLsni{+o@UQmTAhS^kdh^MZX
zb&GG7NfN~$gAfjj8c0r|WddO))A)h_lMSKrSS4B@IL6Qml@e*RRkj6XS2YQCp#n$Z
zR>g;TVj(up*3Bdpjf+-!0-s+_iw+ta*>XWq7Lj+W+2o&XT#sEAt%@)7*3xD++uD}c
z7q1i~#gg_~en&{GBs4ZPD@l;4B8tXwEHRX6w&-U{7cmm9PCXCtd@P#JCCOFeJhcH)
z|H3>!Bk!G?X-Z$@Hu2+g7g1u8zMQBfHjzYge<Bg*sW{kXw&*2Jez<}BHV*B<@hgzX
zV+T;Qk(7RNVFsnElo_<zsG#yhNdh6dX(^ERL;`&1^vJO=;YEQ*F-yW_4UqW+G>Gy`
z59K4~7Z&l$2~mS&b$9VpA*4kC4I5(nv!_m-9xJE>jh*iQ)Y$Mdr^n7db?W%Y*|DKB
zPmc{eGuS_N^y&Vmj)~Q*gg4E1ApKG&;xm){|41?aPXuT}CB29hv2F}{5YQGK8%xl@
zLer-};2N7j@qY!vVpHkGrmQg-RVu9(tB}M$0Q@6nQ)W(QzFsM4ohx-~hC82mr|F*d
zc-GsT@%9Mbo@Mnttt;zq&G`ESe;>KLTX>=NOz4mhIz&8wHqe#{91sErGJ(@V;B+SN
zIU(@5jlgrntjl`*8Bav;L^7U1!84dOS~JFgU<^DgFZ1fjhZEDVx?slJE_mBB-UEX7
zz};l#;923|*$wXqd2nTYZ5iJV!MB54o~*-@akL1ImW*Sk;Mlq0*uAX&sxj+s&bYe-
zcNZL%2R^^#)f;3H<kVW7@8`xN?}j@5s3Q~FCxrH4bz$`X%p3mpnT&Uj;N7!4_|?-8
zteUE%)MbqO1>^o)Ij1w-(}p31B}Tnqtj`#`1Y=jmI3yT{HjKw)9|7c{zBv=xBZT&3
zLL)+mCEWkOV96Nj*A4Y+>P*X?^_D&No7&#E`1-}H)swMC1ZyN?-6L4{-0c^v`|sC!
zZe6^25xKkd`J11ARH<$@QyS|ZSy{|1PD(Qb#Cs1etADEX|Kp=woYe;rw9fY+RL?S$
z_0}y9e*JW=610Cx&;a_c8oQ3|;(oHralEShudOOT{&kSC<d?(%OjRtu*49ssCuHp#
zX^EAeJs}LuKxn@8a2nW`xi5#m+=}h5vT2aE{+86B=VxyP?ve)d;y7j2QU&NG=08i7
zpqH4}Eonh7F-k7!Krb<0ThfDWE~G=jmJFch=O79d%RD3K`T0i?-2}S5;8w6DbCOn3
z?3c>#b)Q2{mn=)xrK+XslqF@Qkus$wjTU)HSe2?~G);kaohvmHdr`%g(>&S8eI*PZ
z)GciJUHfdT?0V6B?RuCWN#<u~2$P>F6ap%<%OzVfs8CZjg(~abxKp<2dWBnfDl?ZQ
zd&>T@KV>g|_nc#!_%MIqbul&k=D$%){grS`^OaVlu%QsUg7Kb|2An3vU3gwZ8SqB%
z@-u(}?<=jzHpQi+lP`;vf2DOfyxfY#Q+cf7741?Dv<@^Ek*1~Em}bclQ!P31=fa;G
ze;)jK@mGgGAKnvDVk|sSLX@N1s1qgTma+1f%1!N~6i*eabaRWS!At&>A?0USAh|<{
zI~6GXMo{x}9K|okfm&jgs;sY;0;xc$xhF!Em@z6}f61A0PVX(eL&22toZhcc3QvW%
z<iNbUCZ$ekQxz#^$`Mn)t$j;w-Aln6s<{)X+8Zi<&y(k%(D2fnFDsf^mY9*2&coX}
zWoEhLdh$C`s`IMf@D1)KzX7>W{l>YdOBpbGRiieksHXh#Uo)nE+n|V{mOLMq((|g6
zXZlFtdn%anU8%47%}Q(fs1j%48PhyD&bN*E9QdeS#mZBzlqTgy>n*NV-l96^NmWWE
zh5Q%Qyg74`A3gk-i@8teg+84MzWm8lu+%ChrlB>%QYaNfT|809m4e~Bg*;r0da)AR
zR4AtMQ2Q;xqmXWHDfsL4fataAQ&y>e<D)6dQUh9J1M89Sq%^ZWr!l3Isd(n8P07<r
z`cp>Yf2k~HlFlxq8dFWFinq=A-lZOIYED_?H$6pfN}ef%MlKqPLhH%x=89@!pW?Uh
zWVIc>l)mUmeGSVa#sG|vMirIhQ-ydG>}^XvwarPAe6e4wb&88wQ<~pZ#i~*jfYm82
zpe>~Xw5KWoYf^f^+LRH{kum`~Qx-s1stVAZvI2Ti4nS|p30Rk^1@xs<fc{hvFpzQq
z22*apP|5>XpQ;0FNcjL8Q(nNP>#cyzDKlV8sva<$YW`i-*Hud`sTPRr+7=h|(xg8S
zD9q0SSeen5cOuY#W+WglULg04NRr+cF2tFvmybgb45={miYMbQ<l~vb5=+vt2~0)f
z(Ey3~+NC9E-p}xxW$*ug`0@Wc%8RXvhuAWCqIjZ4A|4z59-hF$;`hpLao6?Jtavwr
zl9R!TRK;{&_*U>AQz;*wuTAFPMU&30zf^_dbE$I9h&SuE`asjHysqUxnJf}yLHwwO
z-xAY7P)ke(7m-GAN=yeqEioB{a1-4RczH2YAysJ1`cf0T>$<ng-jdUJmV>@n`7qOi
z44a^~&Q6oDrLd8fq}Uw91{&7>#jcC|zr|bl|AoN+3Lu&!&1A_lRNOCPeJ!cK8L@9C
zlM#vT(l}24vE}feQaFPo*O!*wOnqM3R|}i?f6e$s3iA9cy)I1PIRc{q(mAxkVp>^S
zNa@=kZ}~(@vWIs;3mf?Vg94k7w!#)9+Zz=t<;3#erofa){vm<?NFYss1}Oe-0TKoP
zrLA1MCM}Yo!5}Z~7ki()QfB7~qWjnZy2OEKJ{YQY;*SwC7S34cVL|I|6WnbX_b$P`
zYx!i>;?7ta1xw><{GKIp-@7B@JuP@oXYGEhaqFsY>ab*^1#XAn?YN=)nZ<M8(Vq2(
zv%zRK7|8}2GJ#GZ(0QjP(>)~Me_#k2Vwqr<5bVl&1FxOBeJUFYXMN4&-xqpq{`P#<
z6J)`534vW%fBPek*;$?A%vIGnA7^(;TV~W|!xgMh`Hz50+syxoutG8ZC7dHT-e;VH
zV2Y{HpaXdm`q(5FS^zVO?VYbtn6DFfmB0-Eh03<4f1jwg2z*Q77kOtdWByn?e?VUT
zkidUO;57no5LhFyO5k+@ZxZ+pfj=VfT>|t4_<v5|dj!}=XSLyNa{dW{Zh&yBs3ox(
z52;O2l2}3t*`OprK~O#<IW}==L98xPBpSo{EK>Yo>18izr1)8Fqx#Brr=)F=a@x%<
zzchb|{~0m<9RZd$FJV;SMcWpwBzhfBiz@!71Ty5O42ta}ToTLC#<A;`jL%B)sR}tM
ze?!cQ<UFZ6ij@-!vk7Dpl1VxOE0xz*DY9=8_-g{U0m5ypT}Xxc9#Q|E!2eC4@VQEq
z4gdd;m;aYQp$yoEW8aLvo>)!AEbq1}+6+G=Mor1hK>imL+bV&=C*Sgo*_X|KXt7Ev
zICNd4alpQkqlDf7D^IF2qH0dGDk)NW9#KzKLDC5m9SV2LClPBD#%6^vi!7JTM`qe2
zF)8#v>|nriO5gKw&qIf#9Z(JHa<-~)pWb}tH_AL6re3H4<KaJ{7qWBqmW-`auyrnL
zv);~(_psnSoQ9~(8Ob>N1ZUr}DO=l`sog2m?p!ux-O-HufZ#r`Y$^6&YtBdEXv;Wu
z3lOClvvoT%b%R3PU|Q?W7LltOGgT3xDzaShp0O$2ym!O6?*oX(j;odpH_oN&d(u0P
zJ+Qb}&Iy+A+Nahny=iT4+R~e~1k&}r0-SqJtXoc`wI|Y+6X-*oUP*?x?$~?Bz4p0f
zBNLT{1VbooXw5c7nds{SI>&N9JowH?=EyU`k!Lo-&!(+S_ieRlNBf2?dMCJU>&`|F
zXCgyFWN0IDENu^G9g(yH`UFQ;)IW80+^=z_T^$=Wop*Mu*Yspt+HVZrvo~hzTW*|s
z;BqgUvx<B!-LmKINM`?tuzzH|Wd!0rUnqm)9d(_{!|xeF_Y4i$I^Xi}e^R@3&fIR!
z(Xtj4YTHn*!BAT3L$8d(HV^#uX^2T(b%>UMh8CQfLk~`0g+Z1@pJ4E<R;?RC53CIt
z>u$li`)<|U>a=xVwz?@(-6vG{-R-`6I9+}4gK|~XAr<6{CLhL+=I(UwkkAAriTd}N
z_GPWjS*tx`trx8IKyI0CnwWcsVBPUhr)f6B8}vo%`y^TC-H{)E=0~5|2;n@6KijxF
z)3{G)+_%wqAk#P?G!ASu9!VQR?*_wJPkq+c4q<E7*_QQoK^f$csWN0<H~K!ba%R{4
z`j$8Ly}mD7Rh_ms;yb(@|Ng}{FTT_8Z`%H{?NNDI16~?<RKfY`UpsgET(&Bdw${Jh
z`~AId?!BA*@#lZ^d3f=emxtja*z|_+b>rH2ddJ~(`@sF~-9Oy>gT2|F-9J3}gOiUm
zWx;+`+E|A=;%{5qvvw@)>rL-IF8GdT>P`!FrzyLJn})Rpl#Fj!^^n^d>)Obj;Y`nQ
zq38HU&q<;EWU2W7q5s%lI)3trd(VC*^X$0r?D#v5jsEAM5@7OuP{D<FWIf)juPf{8
z$U2*{-gc=V!pL9a2UafBT2xM8H>X?o3f{et+p^LUjJ^-5H+u@eQ`S+(*lD8=s=98^
zrn=XcZW+p2Lm6v}U~O5e60B{@{n=KCs3no}>fzN-q>as}m2Htct$+0}Xl$miTL|vH
zTYWc}4(>zr4=jPz!A!$mp<(a3WiJASnliy2A=q=n{J`T+Yn^mdEVyp)WL*u*CmuBQ
zX07fUhFrO-xi0IEt}Q~~kE++a7ggv%!w!Yn2xeq$RPgTxvvE(_7<|vaFB|B()AxhD
z@06#z2ZX?2wqb8Jv@09xc%;(=s?$a<s-VY@F2_*2QuURC?0xrreOYgG?ell^YoEV6
zknT7rcn@V=!PU0azO*Y!Rcz1ed)Cg~ZM)l-ZXepHKbomOCDfnVs2|R{o7PmfJJ#I;
zYq3mpK!^_DHGcE*83@Q-9UpQYm;PtIj$ApO@4B0F8a(ka>ms>I!nB;HC8r}y&$$|M
z2EvS7tuJRH%*?skau&j@oVzJkMOZcYvk_+J{GGWP!fJ`@Ak4`%^yOTHxw&9Z&O?}&
zLevrFqY!?=0$iXg7bGmig?8rZ32WfIt+__Rnh0wqtc5~^32P;+jj#yUj1Hik&?tHA
zAgq(KyK_4T>*5^Exo*OGxZ1{CFR*13dM9fg`XM$6d`v-#7Hbb_3$$24Dy5o&l=8b+
zZ=U7kgSlc&k;WjMhn5bjhs)Vy0w=Th^U&<M_yRo>v?YMyPTG%xjU;Zd`^mHHl5t1M
zFuKta>l%08(y$uC*s(TA<A%1E<t3~d3cI%I?@@mE0DxH0f9jL{pFS&^o*6!lJ-5?i
zhx<ncu-{g+8z>)s;s1gHsR?|Ez{>=h2)shz%LHiQCMhq|jErrv@gc&l5ukY$55rI#
zPq`IM^7h<B96OX_IMw`j;Irde(ikr(+zf*FABb@W;2*!l;X4~c8;1JT%j<>~+C}nY
zw83?4@PWynF|`Y(_FN^Wai9f7JJM>;%BNN*Zhv+|9nGnCYYskeG~_gRqK~X~uhifC
zbgq(ITCO&b(-EfUpg3r}Y5d4Qu9S-N20zeUDA&|I@c42XLa2M)nX6=|mJSgxHUjDc
z4-JeuQmNAHysQ2NjxX$#mK2nQ3H;@MBrl@h!!Fc;VrA>i#y?`^rOkgpKwb{x73#Pa
zdQVztJn5kEq=iuqeOyOT$I6+R3LR(?2BRR*ani{yBTf*QNPCL;GRKXjwnb#F1#fc3
ztk8-g(;Q^rq6%737R88DEC?eV#_0fMX7jI<{#DGj&AaT|&}+7#*KR|1#H(Y@ZFo{{
zT~Ic5KhcNhiCjx*?qqGui!!qP)^b=^`aLihQu=Fcmuo7K?b2+G`SC67zqK?!DGk3$
zE!i%;W@fmo=4yF3#2-R!8xdU-<8xT9lKl~8or%sVOUsU7QAcYmrp>{hfM=}tVB9Cp
zj{HMk1Exi$#-JGvgD3pI09%s4SYVN83ig^3^OH$Zf?y^uL@!oRSS<2b;*UutN+iQa
zOr;O;;z(jb+VstD&LKwXD5-~kco!Wso&JPM4V=;sk~D4%eW3I!obyiQ59NbTq1g``
zLdEKMnwJ}sB(7n<Qk%9ZO;Vrdn-#3^d|Q>@7{FE$;?^p>RK+zdQz6qSl(~+SE}56r
zm6FWS7A#J3R-nhgTb1V|<**QoQK84shZJ)l@hjTYOlhx`#njlO)`DtM(vZ@_mCpy1
zq7+8a6V!Yz3gktUJ;Ks($9@pn7pcxA>lHeQ9q0#cURs%KmT1!98kw6fiNZ!H-kevC
zQbHh%{B`-7WV=FD-jXmRI}}<>qxgiTvjOkV$Ax%16<>wt%e_gG)v#YazRDBOdsSSB
zr)0=dTb(gAjTb3qJ|aP}R2E{nO43v<*+p4^AO0T*JWT*)$}R5OJXHzA<{?loI+z=P
zDS*JmEA5gs2%OPPUYJS*B*oY0V&p6}n!q@O?DKOoSBp;bLeY9l%-xHpB;U-;#|3CN
zNs8Mz0vkXZe;(H3puo*qdSE=kcw5P`_BK<*4SRT4l$6YVh#Gb(miH6kIOXkg1YiqO
zIXVl)r2sKmA3+t2-$#JtwS15mA@a-QIV2aEf=Mt4m7tO(S<9h{CtEk0EZBvUO~3J8
z#@%A`Y%D%UyAv^<nlL-JFWQFZlVr^%K8xvOJjPVN_<DLf>GbiHz`{mJT$RsSQJxAJ
zC?tCq1*EjIcoNicVJe#c73oNMHh&IEM_w_i8&x6k9AbfB#ml+tp+bZ;e25<RYuqcn
zzk3d-KI?6fw2=&sw4wgKC-B<7+xymxe{tl;r+;+%p6A5!se%t?HXzixJor<rxJ|Wx
z(4KMk;CSu2sV7^%<4(U&-+Si^KT!$0j;BK>n5PE{`Eoi0T_ouFWPK4yhsoehLs|fh
zrZZTd5y_j49HVFWL8$4C=<CrtgPEQq0{(}N5ZV7gPI~kHjb>;H-P1O_*L+~3ndxdZ
zyk`ik+NA~IJwxxk1JB$$@X7ntjaln3gw-~4jw>^nX(s7mSvFW+?YrIw8wmGpk$bi%
z<7TY~;MHVK!(9P+^R2#{eHmN5V5?v4haHTyFr+d$t{l;nsj3<umID(&(P6&(_^JdS
zOd4KjoRLjzjYwi#l_b%}XHm>~xbx@NnWaN{qhM+d#sjw6cwpamd+!(Ni)#?`H7<W(
z{YP+$8YUJL%OM05HS9Ems8tjb`D&y^tdI<k!7RmP95H1huxONxk+HE^tX52uN#@09
zyq+*1a^*+0oeinq1BM~B@)~tnWrZ#)rMp&^(!acoIUx*g;Z)^xeppqa#e^9HY$@$3
zP$4$l`lD?vWdJ2xJEaC5=tq^*MuvVAS8B*!GJ&2S;tFqEGJ|d{xD{;4f-S)OP^D0@
zX=hDYo;+L^aq~k>A^c<+4AUIPJ3R%Of~Cr^2W^Ee1@v>+6X!zN6PAM6vm&KZv{ioV
zrL38*Q_@j*76#9AsFzGztfG{@maMI0Lzx8%p%qN#+EX@JTg-0cpyO0gY6-Jc%SxdZ
z`UMV5;%Z4R02)7)GUiHASrFHqY*6AarG>@+qmD~emD0gtx^JE(?^4~84?arN)?{lw
z=7@q7p2~D$IzPoI@M0AyPs*FBOZncSHjLjdQL28X2leE1l$fYIF&%13g`#VO67!(M
z0;w8)S7CBfYPy25uZUGb_e4$&`|81^(8q*=*4ksC>X#bkc79AadYkUodfV1ecpKW(
zPN~d`;k7qX<uCtnO8xR5eN25hld|(SlY5k~rA{@xRG(76)bJ#okLiO-_`*}^Jzw&t
zs$UAA)*mYH6bxxUtl)*`Tk?ck#mx;CrEIX^L&50OQVKeoze?;l`7)%0FFZj#R&Xg;
zAtj|#I(<^{S$M|uN)6@vi_T7*Dfm#Z(s3%Gml{jA(o|#K2XbDj9T)kal6gvbU*UN}
zoe1LXH0$2-iy4>(<tcEV*}{Tz+n$=fLB6+st5OOH{n+3BsAz|t;&UHUr~mupCzZ6v
zhM-eqd?_gPqtN6rz2pZpr>X%hFG1Ujbg78@r7}sM3UupB0l=ylX$?^ceoBe0@SLV8
z@0K5Y(@0Rt_qi=z;e>DdHoj@Gu;mBeG;);Y)TRvJJ7T0K<z%{1E~XphW*ST$rbXpt
zdQWxRyz#j$uY(hD`Ji$7d@0V?RcM=kn2aktsg#+<m5FI$N#*<BO4<3*8YY#z7M>`f
zU!zp1>{7NHWf+s5IFh5De-k6uzbYC_E)?FaV65Z=Oq(tE66v>vSpBYN^}FGv5GakT
zHa8&;CFC36H?!K)f|@a-#9DYxKUcsN3}M3C_?}bz6rS+iT6#tjYa<~6_)<NU>a0|Y
zBPkrcmAUP}4Kf~Ob-81kw_hr}RlyK@=Qh51#ZTc0-#cC+eZQ`h8nFAN2GaUdanO){
z?pOH^(p(KOZ21~eZ$n(AxA}EPRmA<@;CGFYj_0rRy;x85jU-8u*e~UnenG(t&zM0O
zGv(RBFIm&KsW~NTIW%N-(9AWZ%p_tg)mx<8ACt1u?XN_g-X>Kg>hs$@Z;_-3zyBIz
zaq_AZH|7P(*srYQFdvvyW902cT1$_VJHaVEn(YE-QHi<mM9tU@PO3mrFmU#O^999S
zc!JXh&b0zX!N94-camqC3YDJVxWFOF)s`PPd%+?3*_IzT`@ku&&IX6Z+~>9gfD@ek
z;C!(p=Kwgbl;j-5d;VET&LM<ZF3IT!=PM;ShcWN{YDvyO>3K3zJy?3K49*dxt>ie#
z#=PJ9Trhle{99O_56$z~_l^ZF;Y4Q1`#$t~MgG{2?eV_6i>OSx)E8hndx8Cd&(P+M
zWU?nhLSSj5C&Hw_Oab?^n?ge<^@OkxQ!(lBw!xV=>o<u&5rpOA*pxcT-)Fj{d@xPQ
zL?j?-RFZPBME}?{Zc?u6D_D8MmRP|^d^G>wr`e|2mO_4V=>}R$74Ptwkt2P~)G!k*
zPAxL!_(*_>yW1&Mf%uEik(aHlAVZMW=aWHM4+K7cIdU;_WeHn%Ob!@G&Xd-C3w>AU
znJ&a(O$9|lPNf*ag`7xHd@@ej`v?ge$IXdA6z|04CM{u#Yy8UmR4fpKVallqqz)Ed
zBx^1CR17cr&#+4o0+PmP-k|s;e*Ox~Qpci;M<x+HY>i6ZinAKPwg&BcT!kSSS#AoC
zRP2un&ZPqZXbY0z>>+3nTaq}~owzhlR#ZvgDOvGl8!e*hvZ%T!s;-EYmnEiHiCY)Q
zmsp7{Nw%N)e<3oQnlC7(U*!Ki#s7a2-9#IiO!J-j{ZnFmKp;Q@*-GNlE@v0H%8@tO
zVwNn1WlHbTKEn?9;BjFVu1Fv)PqwK8yFz62MsctfDyPoER6*&T5?9(=p<NcySfneQ
zK*D9)R-~oM)5`w+|AK=Pd0qOM_+(Nv%8K>;)cFfZ(M(z}MIvP8rsL`IQFaUEw<uaD
zvD1Ngl1u9uCJCp_3ROyS*uw9k<e`A2%%Ol8B584x0t$bC3Sn~@@&}1_k^tL}IYihg
z0;dUlM8R$l_zr<TCh*SzL_H-El^NNVww8kA{dMA#JVwNE;xT2H=zBzP$;QDH&H5rU
zU%Jam!@<WXpg6Q3H7D#)kBu+9DD4d#<y-M4QGI19{z73NOxi4Bdt6jAq@69cMf5F7
z5{<snzSmw#i<|6$Q&*0yD!K)SFDN>R6$^8)c^i{7)$<C^JV_fx8$0q(_kWC?d1_?r
z)RAY8oMM|-lDf8<t{M_6<-3XaCQ4`J)QgjJbq=oGq1qIKO$693mo_nw2zKLyv;|jA
zzC7DpY&14I^`fXs!csG;+tm4m`Gtg}oK15cp7wNMp+ad|+A*bV%@Q|E;5h=T1ejWS
zRlWq+y-HB5=4*)gHi54bc$EPA@?Rs2=Dj?L>sd7soy;N^ogax6%8n8#HIzRgkH1IY
z7J=U<U;}{7$hidCSsb<<s${cth45SIm~>hpU#0jK`mj`&n94iyEB7hkCTZvJN5rBg
z&PNG!5a=X8n>Re`0H~kfy9x9VVC^B_oouZ%q;<^?0El`rLm{bUhz7!Cg>lg!tBBJU
zFgw-&OBc+JCOcgtnKA_`nbU)gnA9(cCM6i_jHT-w*yb(uACj_%acVcUc)1B5p;V|r
zy3F?}=tX`nC6GQ$q6t76Mm`Qoy62U0{a<uH-o-~{-W+=Q#Ghdfimg$o7S^WeE|9@=
z{on?mCHR2tg{GVLq??bhUBpjr+C?;CA2jg5=DM}_=H3;4wdaikuOGNG_`~5J3=8##
zH*5oG;{epAUt7GrNb2hDOl?@G4MVNEF`Q}KDKzecHaZ=J=@o*#%a#Y&Y8<{fysU%S
z;=0z1m$Yu7Ta7(PW6dAbWnA5YtNYJCo9R6v^qxpNPYQ;UY<n_e>k@2TS!+$Ywk7Ro
zNn68Nt1WGBO4l@{NsYRg4#n~?Y+9$StyyawSPxB=cJnXHoW*uMcBAV?^41q_eql}h
zee;`UGCX14m9tcuc0(6G)cS`1bwA9F2fGEWZ&`O^Z?-0ssfh|T(K}T_P1mwMTU(#0
zg*|6zq6@V>$YO0^y|!n~vpNRc8_wtEfejk#ZE1H~+7^LkzuiTsJCe4yFYB@{e>$)u
z9q3BCx}iVp^rii9?MOSjmQC*|n(Vo<3X>IvEDj!1{doRI^MY~j@`)AW>hzs(Hq!h3
z;Wvl>qW8yrKkD0v3}qt2LS*<Sm(x$5OMh-UJ#!@o+m))rWe+*7eW2_YfG5h(EC9hc
zS$2vsPM6`@n&nd~9ncid___pN*Pr+PaQ_eXZ}|E%KGM?uN$4jt>2s4CzVqn|iS$$=
z?Mp77dDr5;A85`54hw<9*+Ap!<-3hg2M_vgnr^6XoF|p=7Ma=5yjFGh2r)y%ym=m1
zT;!Q7WW$p}4(3DNI1l5<WVEAQFt(?S&~moju+Z1G1|L;(P@cCmuUndbX7k;*J2Lie
z!QP#9db7^DtkeIR?zZmRhKw^RIHMcR&aAT`>#WZ@o3qZwjI&E{cEM-H*#<+0A64mU
zY9G~dRnWz6gW5LCU*nTy?R7Z&m9+;m_NZWwX6??5y&2{g$@U^Du>5#brNe=(S`PM5
z40I?UV+ad|@LJ<NL+5+;aK?T_uph}Q`J+|Un3s>BLc2n*nQxm{7dD*j%g3|s#*DjF
zaJR1YZn$?WpL}5PX2__23pTYgmXKfxt$t$N(!`=^60A+EK1I?Vs!vF3+S!_RwWjSz
zH|klQE~Va`_Oz$H?P<zD@R3D}#8z`o9~mcE?OIK~@rBpFa990f^N-9z^U#LlXxe)8
zZ&8?Jo26sj(Q)6|{UK*}x#?^K&W7L!h;L`E9E5j$tvL;z(9QO@<|=_f+n_P>z5aB^
zA)%u`9qC_hIGodw4?Wk|lQR%z<Ql^{6ZtiBt-CVe148&fCOo_z9?n^aYAvFkS`VMf
zRS~s%E7e9+JEIP+hX->ta6_lNZFkN=7<9T@axTK$To^jtgn7Bvow+)~e3TkLVF9iM
zI^BeYxL`-F9$2n{3-8Rd>=#=0XIhT0w;azk619nI?f$<1d;Slb;d&Hddg@g!_s@LI
zxpF+;#Z!Z)To%Ak7F+VCBdWfL%JOF*s&OmTL{zDSSpF<<L!%w}t0JtL@@FH=PWh`L
ztd{cUAk0bma}nmI{CR*u8K%DZjn?n9=IV&<qulz59@vuG4}ze6*udH43b5hm_?f5a
zzPCQ(-6weWeaJcLd_QaM$(7^zZWAg1p2&3Du3RNyTCRO}PDhxYYsV)i%*gG4^1BHr
zaun^#v>#Y+KajH!%gQ0DD&kag(Y=}WexbcT(|&rr{dCSoRC^Ki#CrRQTn$lcIrM)A
z-#mD?YrXA2&Os45x$y3si!e7A?aO%x^KvbbTpb1QAys!(-y6>P$ra$Dd+t_!?{m2z
z`3iAe`*QU}Z{RxjXF3Lij)6?a>Gh7&xkjQkaXSuVItPW$!A$2T*E>I%Yo<^wFsGUe
z6V}Q_cI4U!i*TL09<~E})Wy{`DCK3B%L~s3O|9v+{prYlq3Hlx4uVJpN0?M_z)(Zl
zd;Y9H4TYlJ#|h#9Oyoo+a!QDt+K3EiBA*r_pS~CQ44M;y$z@C7ip!Q*QrQyc@v<fA
z<7G?KEoDm)No7lzRJMdkWlI4HWlOF?*^)1*Yzafz_M#!d$JX*hgF=a+L3L(*O&MRO
z;OoTb>+8-ov}YSSvMs%tmVH9YzD&z8q2*W>O{(>P(0U-#dQ@mV3TL*yIor~m4fkdn
zy0dM)S?E!<zTTP*v}XdlaHjUIY9r8>ZQGq`J1Ddr%(NXB+Ky)<doqzjLgY{;a#o0(
z{m5@cJ7{=vhlqhq=gu0d)3!!BGDR1^Ri&#N(zXU1CCVCWvPQ>;I+sq5ujgsOY2tPF
zuAG6~I5z`#@4CA;XCk+m3w30I1M9(ooQ2$0&L7G6_OJW)=c>qEU2xmT4MW3?8As>3
z1Ls!AU5j%#ueE-wHRm9glXLqruGV!|YtBV(H|GsxJkfPeH0L3=mz`GbT=#b7>d5Wm
zTumA0j&<jboS)o*!rOx64sn>kcy_IOcIE2HjZ(qszV3BLcdn7#O=z!~rqk<9r*qBZ
zZei}B^`@a*nB1)#%nr|eV=mW5u887lCs$N)b&#tQ7a!be{YL8tJIK|8`6%6+u+p`X
zeC-Rjzi>zWL-P;Jg8#sV<zQNSP&%}bpTAGg@=y6y0U_m!hos+3Dp=DBr|1d&-O7@7
z3v{3(+}0nAOsSq^K^PW@bxIgTU18dwPzq1FRSwnwNWOv}RIn;biHA#>AdQtLtx_nc
z#Lzlz%kOP<K2~Fr%7Fb!*)WKe!x&8I_tq-m3eRnPmQc(p7=2ta6{Wykh)cn+xnVq?
zH>CvwTY1GP=ohO~niz+z4>L5OD@&<LK{OmtVk$hLIK-7whXS>s;7h?sU%Qmj6H~&G
zH#(T=4orL{X?@LpWaw+UO>q^TWDZIx{m1J8;?yZdO7coz)gKqn6Kh*_QHe2=yR5`?
zC^cx0mnt2UWTcQ@1^bmsY`gN(za?*0u)Nt|G_0zWSuB_uiz@FeJV`TOHkejjil4HV
zq836Gnbji25nBq15Q^fMinPNG!~D~D9aO~s2@j?i&i`j3lu1??X>~m`BFonJ-L&A|
zLx73NNOH;VC+EK>j0BcNA~q(6`haLmfI@OMv06Urp-44xAvYwbIHax|012C!6tCo)
z*h|>!wtW*5=3T{`aA1x}ac<<_AE$IuV-xkTS2}in9Ja%GW_tlf@|i^eCdA_ZhC-13
zc%cArdFpsl68^kFToQv8DU~zHpOIqL<we1gl#%qhc@sF{8c9U6MLLu3p(W`Ilhd$5
zWm%<S6Rna|c6<VcIw6CZxP)su7uZeQ5I$Zcp{uB$i@%^4ZJ^@8Rp+uymTf6O=7MXV
z6e%q(`GWmJ={f?14Ph&fXbWB#!7RU-F4UzsbdnpNEK!4$l@zo{TIUy#h{c8yl9k7V
zZr{a7l=ua_vvd74a`y<19>_i%4H-w5;OGKM;)4#Mwgb`vYfZ))5Uha>YY0ZqJuTlp
znDO)qp58n0cdF8!-VG0K;B+!`n0p2H-i-UO;6D7$<$F&(lX>bh!c(6~yAN-;&n;V^
z*-jVJtnOH?hh>pW@URd(oCzKmg2&lBs9y;5X97osz)>8@uEi;TJ!Uh`x?5LoUR`Zn
zn@<N1Y&Z@s8{ca=kTv_VW=GcS!ZI`KYE=F=WnB9O*Z!>AM>g4U`3+9RW7Z+KTJy_i
zT2|BIxJ9tHWc~Gz{8eGSplw9*SK1z7%Ga;T8oih#N%!ck23J3^VQju{bp6g5I&H1f
z?11lf9Clrqrx{ag#*Hhiy6^PgxxC@tlW`9U?!gWB(6Z&dhCW=WkTq8k+?2+~eCh%j
zTeDzmE|JFK1lCy^@yg(`c}0g=5DxHL!es8?bJ7}Q-O``d_NOiVS&J`YX%H+8Yr5}S
z-n6V+cBQqu(w1HKVF|z($QnIaBc_Fz{#AcusF1JyoshNIP^mbM1{XFxnM19>^rYlb
zp;EedMW&Msh2vO-+ZS=DMpH@`9CkKK)3u-%Pn=ltFe%Y(Lx)whQajeMa?+@Qt!PLR
zksInKw)`f`mJCUGP^F_h&`Kt4%Stv}(LkJ^*c1ZN9k8XQIiThbI2C+@T4L(*c7<Yg
z2|5dESlg-`|JNw=q2gU$$U+119zkIflI{JXO9-5NR=O)T`m1jID%%df$p&z#IF#MR
zUuh%w*NRAzWaqborTy$uF+F)>ddsHo5otT7sHhd=EBUQX>UY^OsJ_6+1>BgdoKTmD
zd2h^w)?#<5ea_8$oN}5A5lNE(niUMe@D=T;l^l(KiE*DsV;pN@TQswXkL_F)jmvC!
zWO9GDu~K4KRSrdM88_Kp1{*Eeo=1s!2yHR24JSJHi6f%a?21P$X`uQH5?J#1On#tJ
zzG%Lf|09i9e~s8MVzrc#V6we{BSm`wdbT1h8rO<Yd59~Fb`W!#aCy29wlr2Q;|6t{
zE28x>3`f@quneLpCrby9jGWG2)UVen0}mU4o;2zxJ^Du;Gggu4$7`2Ol8piN@X+vZ
zxOS_Vfjav9*XY~5On~}BzK_6{2s9G+6~ewufV7OHn}q&~un4$f+1#91ahhFzDOnGA
zfx^%Xfv3`Edz#X6wU@#iQa~r|z9a!~Yb3-#xKJmFTY9jZ54UIQJ2UmWh5Fsu?p@d~
z`M|YPV`euB;z|1+j$9>STHGy|(-Eepdl(Ib899e%rT6B=)j^@QC1)ZM3}ARyVz>1<
z3%OuW!<(xj45mu_tM=R8oQ+&CIuy*+5LU}Ix2_GoKAm%r%Sjg)rmm+}VvsoJC?$|7
z=*<s3gk4gpH1@T@hp;1Hr*LgqPaqrV#FalEIFf43A=Lwm{nZz*zxe7)*I&wM7zOE<
zBFt4vZY_r^k<MK|m(xjZ*ac!Q%o!xNk;C13k(-g6NphPxXEbM#aI0(!VI>J;Ik_r{
zSWPAmY!YrK5yQ;Q8C<$p8_v~8L~JpI$n+X+B=UCTq=X`$ddsWc>)wYh$<vJPm`bCk
z^ds{*4LOi>IjNP*N#)PD%qu<u_5g4RV9vm}ut4IWNm$OroMt(xISX@IDHl}?tybP_
zW6qJXUQKQOy}*lJORmCO$)#9>$Qj6Gq*zUanJH~b$y<nGm0$Cy3NEQavby*>Dx|2F
zr@l1XwvZN!<d)8+QwJv91t^_}t7hsAn+)AcCi|Ify~1v<Sjp65W)o~jy7WD}&!LIX
zBnY?dpef)!UD$6-Kmw2`!`-`Z74F`}!7ccuA0{ZU6Os3?jj7o|0}6|Y1)Zmcv_>yc
zaa;;VNK+ak84*QWPpKK^RB?sdnM=ug$N(*^GV|{=qzt&zS(DN&8DkYoCj6O``DtB>
zOPQ7RKaRbX6>*@*sc`5}9;69{P}WqX!dt3>I;n;EsKy$;oUkIF`Yo~8u+p_GVo-s3
z??QaGqWJ7s4cn=VXxg**9|m!?W(?*+FW|mhoJNMq5$Phy8}x;tQJ&|F&_U?Qg}Dj3
z#v!mH9Dt3*2^@x2f<G3HG>i(PE@>RlA!jyLpP#w{Yo%Cw;ijqu$u4Om0L7<3R~X7#
z3p^~|LFZ`(C#<n&jx-kDvH-IM=an?FxblM(sB?j-SyFzA2XLAhv$$Eh(Mr;};?JX&
z4Dks-w)h|6CxF7R;eWvc9rh*Mb~Q7@`-xa1skD5Ry6UeHV8iv-344{m4FWd_kXnUg
zT(22Uk+lM*LMAB=Agx%aqUp%j^cgOXC8wZWB-!@FyshA}k~gMd@FJs<l96<S-`GTQ
zJVE9?F|^0xV=q80sEC=In#GM7o8Kvg*h(ayAGe4l12@ddO_LfUksB_I_^q7QwbH#_
z>C0N|?^ap`dy~+*A2=3>*ktYdotLg1%T`)$1izR9@j+$HifX;m1r!~TJG^#EaP7u*
zap<FTo|R8vyPPgCXn^@E7$N(x9Owh9Yx(qt8eoXfWO;Sy`p}KO)vB8ZH(=CE2ctOH
zzaTSLHgs3j?rUUC&Q^QvByQEab_)BC*t1+qZ8-MfF69Td(051HTJK!kXgn;~4ufrX
zu6S2p*syn8JDs(`GF>-LCSN;+7<5%P_6b`5cN?I~aCh%U=%}DQ3adOCx|~AeOnce{
zbsMg}yYI%Pd)J+#8*aq!0MF=5yW0grds^Kt^_O`SGrl0#_=su+6T*Clus<e1`cwQ_
zDqg04!sJB%f@ndaF=5eL<QyR<(|37>uxAN;lE9}3d>UY)Sj<YRB(`$=E;#5k4KLH#
zViiS2Kdk?Zu`(taBYOTKGtgC~MBtKP1)K~mdCP-r``QJOr)#l-)^`P=8>3M->rT0)
zZdMlI*<ZG#?6C^wQ%|NEQuc3ie^`9_xduLJihO8OHCuet!bfe94_&HuvyVc@Ew3ai
zu#$xBW_0;_=*^pBFf@S^z^0f1*2PISg&z}5;>7A>Vabj?I(2lWw0hOY3~~${PI9?p
zfU;%m$793U*TO1XIkTGLHVGe1!;9eosVx`!*vIWq^q-nKJQZc;D;B$c3ICgK0gOuP
znPXIEXi>8m%4^#xil4*tb5PRFlluaTp}ZR2W<Pl{`N`|&ZT6EVL#cM;@fB2w#Y&OT
zbhEsaXQIq<NyUz>k?4bk{gSwlEsB2QruI5wl#I51e0$@6pGxr<LWp+iq~(iL(0fZ-
z&!S20wx!jvsF$6P8A6j)x<XZ9$xad{(nwRhI4glm>$QvYdIEHZW#S4D^vONc6B+zz
z^{I65)CQmdm(RFXKDBOWgwX~~MOM2Ht1(SQ8g4Cz%S1gl(fi)?T|1Gja^Ldb^siP6
zRSj?%yeo^Ohw_Pa1FrszrVY`oCvrzGc=~W@eb(S#h3UZhw7MQ9FtP@F+TdN)t?l@Z
zF|Gbwy7TGu*>mZqKbwwzZUat3<Tv+#5g@oLtG8tJwyeG;TNBRKG-Yf21Z(Rtq-5<O
zsM@TStybMQlePMB*AR>$2P*`1-L=y<`W`_)qd0Vkg$DGeL)}76H;cn2#qk|gx_%dy
zQ|Z8N!M>+NTmeo~dt-KW^iJJ7`kxH_RDD)jGFA+;U-&8hCe;W-Y&<#6Zfk-?ChCY`
zvG*!n*~=`>i5gUxOIP{drB6r;MQE_j%*;x9r2%%|R(|>teSUlb_XEcg(edYT1sCoN
z=F!E%ObP+E1l19SE(!H;OHd{nk*@S~ZDB#bG%D3to=NKiP))_eD9(dAM>l;%DZrRC
zfk0yBnCM=t+Y-$JW-5s&)O#7i?7Q$Jz2j*BlI*##rb_yrOf!{fmP&WH(wi{RldSAH
zDE(C|c8MI7^p$B);{^h2yMkT*8iie}^VqK-qYh##3nN{_7Jo55u>hs{D9d;PMVFko
z043Wiuy!?$TrmqZOj|X23D>Yuh7(bC&DiAlM4b0gd^IdSDPObL7m;&D%~F&;&6OR|
z5?@CufB?MlK>{HH^#mFSGy;fj7B|A9lVI5+1z^lb>E)!g$u|>t9<@T$F|YBtD+$q?
z|1?u`lW`tWn0Qo~aKoT`o+#?_RG!vKOniZhSEa%VQ`BE2@J#}@3H*S-R|tHGz`rCg
zNZ=3vmSnMUo*%y|i9Fa8@EgQrf)3XEbd$4(0Ld#v?LK@4T-tnq{|mex|GC5{>OO3W
zs#MTcQMLU&7yLQr`8%%q-*Lvj=W2dYR-r2Uh$CPI_vhTspK}L(QKnWw-;jWjQ#ao$
zZ-F;W1-xl0pn|D7r20A6@^fy_&$;@K%E}NF5hGmFFUl%a&{hQa$jYgD!Tvet{2MNs
z=A!TF>^DBOq4Qm<cvKNrsqATQ<Pk?mZn&H)GyI}VqjKapfQRJFF{hC+)bN9(*kuMe
zB}SXdnd1Ot2072EbgEFc%9AU{^MOXYT(g|GF|hpNb^l6_pz{lwz(Wl<kDP}zs-5YE
zed+yYg@%zw9628i=@XTz+LgLT96fV0mXj(~6c;(?$_aU3t-htdsn2Q1f!SuQD_6--
zEvCFV9YY}tvF8j7HFB=HoQa`k=y>E<WSAwJt8!J03bBVXXJe?HtI$8JVd&v<Zf74Z
zY=#&~{vT}oU<X(u*ng>d_0;uKEHxvl2L|h_`>yX}$r({0J&Kfu`IW{M?@cdD82ANY
zhr~CMREm-Zo|%LFBwSO?(g-(X9d&dQHA^VmP&Jg?lv=p$(6P)>a)H-Eh>~+ixKoz=
ztlEX@#+*wcx;a>Fs$WU0wA?(C^GGx=L@l{G3HQ+eND1{z?f~xP&IKhrL`76D;SKcC
zMhS1?0*(30taHs0v1Jo6ED>AfVv(d_Z4xoEiP$a?qnn5w60ws*nWL0f8lV)KlRiVP
Ti>okv`P|Fr9(6NMtnK~(UZ=he

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/flashinfer.cpython-312.pyc b/v1/attention/backends/__pycache__/flashinfer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c651da0856f72d3f2bd3b441c8516e385b5771b1
GIT binary patch
literal 54410
zcmd44d30RIc`tYYbOXHt-9Q7~KsSKKj>f)|1a}hPPEZmT*^uNGh;EPovFUb$65)nK
z*|GyVjs<2Tndd}cqKUwWXAI|go~eu{rqARh%A1+<?gi-S&K*n+b4EEC&HMw2^yHn)
zTjuxG-5THpDcN~BbAhf~x9Y3C>Z_`+zVEC5$?3Flc*ae?KKgI|k>mak`cR)n#q#KL
z6UW`)BHSPs$%tf*XG~-cW@eB*YdmYhG-zUW)3|vs8*ZlYoWUHt&Eu8{>!5YQHfWo$
z585XjgAN9lJ?@;y9n77`8_Z+hIpeMg_n@2EE#vtU1%n05ZXNeb6b=?LyKTH^!aL|?
zcKf(*qIj@)qGYgS!awMr2n+_8yJNg`qHM5?*`4F%6T!hCv*(UiOjHh5PE-w6vG2U`
z>WP}c8fJHm*G|+8)-k(#ynZ4y7-IJP@rH@U!A52;7;l<r9&Day8Elzo9c*Q8p7FMc
z_Q7^$FC6cf=p5{1_M-8wiSEJfiJrk8_U#?tHnDwh`^1jH9TUBSz0A!wzH?&N;4Wq_
z9^XB&XK)X*myGY7*f+RuV*lX&i35WNCJqiBoah_uo9G|xpExvlXyWkT;fW)IM;NSs
z{OH87!DFxo29IZQ(e|;MYNP4z4;Aa+$!N~l_jPyGHh2mlL(%6x%#d9MpO2V^UWk;w
z!wsH}_KYp5aQZt^7VRGU6a8DYMaqrcM@*66J0>k3=OPuz$$zVc(%+HFE!?ZNaIfCN
zy$0^fdc3MFQXBoMaR_7Ak<4NQ9dShJ-Z2dhW^#wQNc}rpB=ljX9OK|i%&h@#jnU!{
zvlQ2tqnXUT3GU4*tXBG0m|qM0TBG};uTTnF$geTKHu$wiOElN8l{5Z}9F24s=RDH6
zg?rZ)?%i9s_e5WfY{PFmemn5%jSfY2;=L<+K4O~9;kd}|=n%ph)Hd^#VfK6hn7v;B
zW}lYoe$943vmJ~MNBWSre!OcVrjdrop?A!KkuCc0;Vt@VX5>g(UyWWdg^tYz_s8SW
z$@u8hWN>`wN|X=2J{rFmJTyKOyLfbRB+9pZN=+ZikgSoR_|P!iWB9NfB+I!WejsF$
zDh~|BhcEU;ho>UZ7ZLiop$pN-@pA`<hA&26<cFrGqr6nbV4mZnBctQvTLD#X26|!W
z!jn-|oSYetkDiELj*cH3iVY7%qFND@)Iyn3Zumkp9_EK8FGR!VXGWxoI3FJ$p9r6)
ztcD{juVE@`_|oO@Fy$1bs@woHJT)1Qz7c-{%6jOzt~1fe*c49{F?Bi0^P>?8Zi-G`
zj-ftWT7C`;4PS~*MkJ@^a&%&PJni$$mFcKtV+EQXkDeMqEUw|{@OUg59=Z^onn4k$
zy4@2|9t9bS$0x(F_)t6=LlK<^&-U#<jQYKJ5*07m&Y^q<rzS^6FCc`C)qWqvk1r=x
zMg$RG;HPG$;b0$~9F2#^r%=6A3h!mAo6(q3J)@JChxpN<$#^JBvOGTn%kk(Hso>I~
z>FuYH`slD+{L@z^B>Sa-%OlfW4CoGJeun4Kox;=OL-CO*euCWkqL)X9qX&nkht7|V
zkH)Vc@0sy&DLc-O#-}EchHrRiGCYGaEA@|Z%3V^b7@>|hN*ysA8I28{ACHD#3%^EL
z8l6Q>rY0qiQ9zW*G#nYdOl3o{rbj2k6VZt&{z`c0^3dow#S^kh`C79aJbZd)dU}eF
zOFqr*WHdfReg44A=y(KO*n4nlVq$9Y34h70^z{=%SI}atNsH79AD<c?8V|>!uZ73a
zWuyXfS9@F-0}cTsA30)>&^OHKA%18g8jtcZDIk~p!uZsA#Bvdh$*1|2#HLZ5N@tFR
zhbAN8X?cKApV9l=>FMb3xPrmCOm0}l<+5qUi@Y9v1I7(5F1y0K+7(xWaAQ~;ZGPg}
zs>_%~wdwD;GL3ND7+ZYlK4gnz+|5*{fT6TBPjjKH0W{o9Wav(&WRApXbYw?Z_X%Z7
zex-X{h)#xIpW-jYriX^v=tl35%<(CH_@ZQ<jq+15J{PG-HRn#8I2k^4V*lwQM+Xk|
zzYu=$)C<Q?Kezv2fB3-JL*#J!=wQEOo*A8tZ@<GmqOASXiPreUbnEo!baQ+NV=mtO
z#>}=I+b?a4wvLaUZ=Jppzc@A7O2eh~a(k=RQCrW;BR$rtci5KcD^if5p{L}V--kqx
z;}>g(ah3Zdr&7piSgURP;L`0&YYtb^(IYx~eiHrZrH?KNFMQ>3R%V?|uv9(H<{Wi`
zsg~b^P*U#k@WK5DkMxI6pLyYEU%!-h{M-hI;q(^LT6~f%dE?5`2rZ?x8RAr)NQSy}
z8l!NV9=*4WX}v)QQA5sIo{>hT3i&IfVNFXTy|hYp5*Z0gB6AjHn1xHiO6EU9s<wnJ
zl5weo<M@m#Tq4V;ua7zO8c}U?_GjeQq~>kTk+3ClDBo!zsB>?6A{mKnbvZ_5n{%eY
z8`TGwaHiM6Ty7%w8MW`)lq5dYTqYcp!?`@Qj^+A|WKs&hRPJ4gJfqws>}ra0d1>X#
ze==u@tb~iDo~PDIMtThz)reV(+pX4lBAen!OX>fAHSc~_&Hqwm_^(p`R|vcFgk(M?
zoD;I~m3T?EX@2SgX1wrd1j~Xc$qa1V(<Pb4r-mYY4}*w~M<-}e5x*j3V{*irPRbd9
zf4s9pGRJ`UqoI7sp-rpPabEJB$IN>v9H*Hc^S?YThRG*C%?FDqTDxI=MZg;(uwM#e
zZHeUug|T1OKluH~6Muj*W|dcyqmefx4~ro^YI1c>@uL?op=0efIWr+SBT=?=3ClB^
zmc->DtcIpWMq<&pWEq*>9)?3qaw*WGv(bp`B4?AWR>KOomNN=M10ndt!|$cMR;r6D
zwJtDsO`^z@oRSd#3INaG7sDz6bJ61>&RuZBdEI$)Xw?-=x~fE1)%yoNICA^Qs;l|x
z(KUbRd%JJ#UUIMc8<YMP(cf~H|G^t~-dOc-7fil2PtlFT*AJ&G!Nnay>wd9nzi8Pn
z^nFFNeC1JAW?}X}WLw@o|K0p|eb;>79A7tc=KS?+&Qf?YV<o3JWywu>YLcEt(bJgp
z^oX9Gt0ytz6%^j6yIyy*aW%j8>hYAb<YriOHX+R`cdp!X-y2wMJuW(rUp=&z=YIF~
zYp*XP7Dq&H(`sJx)gviy`Hin%|N8qKAN1btUG=ss`$g|A!Q^>paSNVW(NZgfc8iwX
z_cM^kl*Rj*IkVXJNlD<n(5=wo{>3*}OM1v@n_wzLCVlluZ-eM<SlYen-GNBfOxeG7
z<n1GZvrMSy5S<-DSKk9u|K|KYMA`C0OWjh7XxaXgj-T%MXvh8MKh9m<`J!lfaXpJO
z+Y!Q*|AljI%@+#mL~EVUut&7+x$hRO2kuXama{3F@3X87Yw;&G$Gf3xp@sbmZ?4*E
zk$r0&rBbwR`yvJSxv5`XT3FOUA$ig|w>F}r9A%hDIm!^>&rxs7=A-c$esVZ{(Lf79
zw$wDCcirF;8DntR{JadmIrCh0f-~}+%SnLlMs$Tp=B0Xc)XZbtH!>2YwB@GJQWbH^
zkI^z^B=fQwPfmnUMUX}or9r3_c9UwKvtWW#(r0MbnlJ;s0xFUrPjzzM0J9+;HI5PU
zoGoopZ8Qnl5+;<~V99*ftS*?bc+eN-28#<U1vca=t!@maFSLSDYS|wu^*H8M>rQ`D
z{OYud1q!}KGO^$&P$3dds<8xGIFX&OCo(Y^TN2g}mGWkAaC3}gVzHky!1n?2Q)-`2
zsZgI%s(d#LY@>nMhp-{b!Umen1N=5}x55455H><P@FiK!vw5JsN0|^{F-Iq+<5w6k
ze~e&gLcv6l!$;+SgyllH{MYc}!(_Zl#t<2-@7iRn9s}N$3W2tPYGo8oTeSETHuO?P
zOv=3^lMU1<Bu^bEs)Knl`g%AfIX6r#l56ukA(<{<3W`zFY{c9$+E(cnPr=%6Am}&o
zi-ADPUFFtuxzO%p{Q(jGrkbnA1XoSU;(9mtTJF{TDZ69-`D<MZ?cX89HNPWe_kI8D
zdtbZtwYz73@XDQ6guqVGzEd#m6zn@wg+&XmT|aYk|IMLWeb--FY+ro-c9&RKcXc3D
zRK57xlKXaCENZ-ZD&_PFC9R^fb-6-xb}m1^{MrxC+-tx0{6}5)-S^vn=DGjc$L^oS
z1;>f2{hxS>ZydjVe9^r0%KhzswfARxA9zk*J^6_@a3gU&k;=_WIf{hh7SYkN>=qpz
zYq<sQUb=QEl~<L_YY_7q9$U@6?0>XzIk|6Nm>)x$tJ!VqcFtV5?%<FIU$bCux!Sj8
zs$GnWrY00QWeKD#r725c%96+ai-6i6yRGKzbr0t#7D^ffdxKzVV2ExQ6{tOxitW)|
z)aVT^$_-}VWFXVZMM@)?(JZ44FE9Woh9jAgEYRi55z`h><}KW_w{Xwd!rc<hj#%-t
z;b+Isfu9q<+-OcD4{sOVEJqPHVlY^`NAkCDFF<Hd)H+fbDFkKM7AXQ;kybOBWz45p
zHA}?1MQ(jtxEF8XUb2O|-`E{g>;UrWypj<rlZqG(vG3q>&ndJ<nE*K;xi*swhP7z{
zC7_9lFwmomFhB=E!^=-1Lr1qNp<6|M2`;R~5l8cXp%4mU<+v-{os5BynWwEY-vUFj
zgcX`2PmxLXFrg5Jafse$ibcmq_^-n!MyUpaGKR2(!;F|0o-H>ndW#Bhhk|y%z|zjb
z74J$p0uRdCSIauFAS<@bo4)JB5+txMBi%g!_n%vQ@?yaG+7!}?U_~4ro}Q5kXki<n
zWpkRNE8P)fznD~_xqy}jLKm%uK@4M2I90qR<9aLeWSG}Mm>20?1XUi`mWY>V!0|{}
z_eH|8uZ3Qq4^Bvy*o3@Nm+Y@2Q&X=arIEOl2TJE?JQj{kjl_YrrzQJqVIu8eM*#{`
zu7<khb-7Q?)X3-?D4$GaW68Qy8l>!Y>GE*;-jnRC5B(`DSl}2gVa5nz(}RhUCP`Dm
z9LXrbk|SYZOAjmdq1lm4nl2O0L~bH4;YzsgW__p(XH2Aql({WZ$UwXlqb*`mW5lAu
zE@vf!!{EuDZGUcjXfhbT7!4{_5S+rK$LOr`xxj_d%hAc8PJ?V2ICRG%We*R{#D>QC
z?;<k(H^}%N8Slbi+cLeXU7M?v|4jg$3E3s9*0&_9)}#1&isw5Nk6mr!@N1XSJ}yu3
zze6wvNr$rdHz}kEwCG9xEm%YO{8a+}1{vQZ;~g@-MaH+u_%$+En%Bri3G=^BhC%fF
z0(o2~gUax<%@<Ecle7LUh9_n3M-;<v!NC08z*(K|I<GmCmJ-oYl5!NM9OW32DM#(%
z+~S*pqbKF?-P|KOLU^Yfo|L07Rp3h%mZp4FsX!x{#dWFD?o?^>dIe|oKjz$4+j=!3
zO<H`S#h0{{ikKFQs_4JChW>p)`Y-UNN3!natYyF899Ek=_RWkqEolSxwV5b?MRI9F
z2mNGXCLWctF5#%ajNRxA?4WKBYj_c*BRd-*YiwfGv8;+&4f}4U5iLj!!Dz_}7RL5~
zGg{)0S&{Ch2csd&c<~EYqh)p0UDJm&OW<Lf6w917o+p1}v5N)nlckAdVT398o`tc^
z*%Nl7C3OUB1?sHww9+CxH%547(_>h|OomZ5=fN@OOgMj~JUHWpYVug%+hlB_)(x;y
zw!XB-@lO`;@)?Z9R}qG-vL&0mIiyprPzL|U<W3D3vh%d4kZeQa<KYWKz(TxaqX}{J
z!pzi6OdiZx{LCZ{_f+BxTm9o(rO&W$o^~RVH4aKqY<emdWn-WBP!hQ^0{DH{`9C1z
zJu()_xJ||%!jLrl&-!?HXc#97F*-hz^3kEEaVV!A4dSQ(a|;fx(j9U)0!j8X0Lh_v
z%EQM>Ud+1H27sqYd$wc?)Pc(Q6#lUs3@1$L`CN7TAMH(6?G~$c18*c9)uN+%)ls{&
zA6x(GJ&(A|Y8)N}LBnY6{K3SXiDb)Ov1M<{QBCN@Q=IhFi=KMj;`L*F-MTO15trR+
z6D^H`rR3(R$GKeHwv?l6G4DsE|GNC+Gweh{v{cRK-n1iPZ)LKm5gUW0{Y$T{7PTjf
zc8Nv1R*Uw`+aFfeCM!F{%8q1Zk5~yL2E2wPzdMCwtX$Q$N1V9|sg%z<7Dln8FDy%X
z>O@c7QpQsIs;4>W*)DpvuX=jtt)E!rkU))Ih5`#8+p~e<ayeJQyo{~*In+uh7YnNJ
zB+k;pVaXN_PfSH-K+g+Hjxe1dj>|ssJ~CTA(d6Hz_RqqGQ8LS2sfQd)=clH|84{N=
zCnu$BoVOw-)-?QX05A;6R%1NT0hqA_OY8vJ<sA;y(%$`<*=n{uEGd7l=~mN{M=WW6
zL=Njkop6<RK<j4M0b5q}-pjXMUeBQ~3+E3~h;=J{*|?g94^G@Zv2Ld?2j}yzJIR*I
zdA#d+WOH%el65!P^10%`dI8xy<W@+wBCeol-AgtfSKwPOCR+(tRJ`sdTYxJmU-aAx
zte4VP8CT@L@zV8|*30QD$Q75pXTN1%ub{6=uBvvuifq-Kzx+`R*~T*J%mokgJnz17
z?TvTey7tz(8Q&<4uatIo>pAqLmxjJ<9CmmwUwe7oPG1hrRrqe=T4LQvU%86k<2-!H
z)k`%yjGy+XyP8LjQOo)+?JTG<gIQ5i)Evp&1>k7*m;v1bu4;HKLXNwTIcSaAqS#Rx
z?Qe*xK|jQtMKNFCBBnpg7<94_xzRk@0j9y26_{+mxEPE(%{PbTEk9z37GT$CP2<b(
zM9H-<Vk2ny+0*=r6hDXJ=S=hSM)R>lEyEr#7kj{5>;ZGJ`^&{nuK@A+U_(kQoFn3S
z$E;4EgT*Y)bpK4+`)U3q@GoL<7}g3npuB0&{%8QH*`v8i4t;5UrSL0`mcieIP$g+T
z<t&s5rS+$|2AOL`B%tiAOVj)+uLMHnl3Qm~QFtxRNS>kL;plXnxF-l#gZqQdhg~uG
zfFBEbw#tu%vOc9A@M(~YeK4ee4st2VPe#YXGRc#c{>0Z|8k)iRL>4IKGL=5sHPNZq
zx+glM;<VrjPl=Kge;(0q=)3q<XrZv&pv8CQfMnB;s%5mY5w}Pd;u9dOHCysTv0GHX
z3JiuAty8XY5A*!;+AUWHC;pQSIRUtw6B;Dx3;?G&8H;A{{|kIJ;W^1c>5U??@bGwS
zwoFezX$F=b)gPRQT+G7q^hsW+U@4WeRjh~F#B1?ob0`?(FpqM0Ugq6knXJ&0OV4B)
z2sk74eAWw=dO4pq+KRHS5R+_rmyq`*R<<u;yTd&BWQKJwq5`&TAb)EV2I_URI|QMY
z?fXW|r@1?s1AIg+1ZV=QWPd;g+k^a^Z2v0^*0PLFC~yArsgT+loY6ODtBuRK5vrMr
zO3OHGI9#0D4?5rM(yn{OLf%2aa*&mKLnCOp{|dsS(??V^F~>?oM0ws6$(%#kPLoTP
z;$o6rbXrQpoZ$Wy7s>wpEcM*=8yO%7OIZU)`cMJ1AY{a0xmu$1IRZn<Ix?`)pLwym
zBmddJ*~v?jQ?E}3Sz{1S8}LAoSdoU}K`Emplqu6%Z0Bf;($Di?<I0pAa?>dcIS%<)
zFg(SB?`H$CrFdg~v(rNvY_{=P)t&~tjcWfCvdbtjzQ$E=)4U^P_ulMYu?JKBhWQhi
z9bEyzLQA9ElAC8&oRzXO&WOnQaTZrlDwOZMcjDfjkKID)@zwkjps})cV;j?9q@X<}
z*s}0@Gz~-UdY3ug71scaSU*_vu~U`}kQCRZ=QO7izam-GtiP|Zbf8g91E}-AL>T_B
z$oLq>tnch34<5V=lXSQlJoMc5AR9Hk!H`K_kU81%YkQb*?8u~KS3iMh`M*UB*f=cU
z6{BJ*gs=d$4Li;xs!kY99v;!S$7WlMn`bNdK58L4I0YKD7Yn6rqP=acz?Uqj6$@$w
zM{UaKzd5_&3^BKAv7lOTRDY5m5X!gR%N4dA7D|t-<{uRtN9B=}-Wb%gS!38>xj~DF
zj6cL!!32O!(*FpzPp^`}Aq+#hVCBjJj!iEqV;IwC8w~@+W*dx4X#{(cN=SLQ%6*Pr
zRi>e38wg|yr=Bs1^Z)|U`JKMuC7yY8`+DhRj(a162j}|+h^&Z7gDBxR6xclQDbWKy
zCDigM?YQOf9)t}YhW0i5{|#fq`130ziDAbzf!Q59FD<jP%}*BoDc~<q`P-2IO_aqC
zN}HF4mffqRonl_+=Uk@CcF*?U(7BW&cOe7h(Zd<G&$!GTwskI3A&6`kU|O4YAwGx^
zkO%=ckue7`f;os0WTGlmJQ>NFA#R~8xMiwts0`C=zn=S`n(bh0bn;Rx`1(Z<-Ojvl
z2JCD>jpZyj8VhR7jKTWTC)?ZFLM`%6I#Vh^_Xl&F5pSfnP>HE50a~1gz>HZ)%xx_*
z@zL>E%ZN69_|K_59>G8_Wo@H5#Hcr8PLgLNr<!*VY9}wvmg}WbC*2JIU!hj0L<Cp4
zf6UIZ+CFn|j@ngw-BLFO9Ozn~p=*X#^BM$;d`>f9T<_-)Lwdc-b#BDBsMh&hW+L-#
zS0dAhUZl)g8COi;Sux8zD|{J}_>{&AzXk)#!CY2RDx+(RFNd>KNJvQLSWN4hl6hii
z3=@q~bp$E*?G07O5Eu^@kx^bItEW#&TOqKm;4e_cwj!ac+}~R|9~SNu3Tu*uJH^7C
ztA)GgZ7F-9V6RvlOV;*?wLSMLS88_=6){iVYyrFeTPkD~|0Bxke@Di@A>*fH{22@>
zFARp$$thw7o|=q>!whZnm&kvNjQeDmV1Scn6!R%<r1`%f;~p7A!{Yy%3@;1`GcNHJ
zgYEU=R7A=GJpVtFyNOUa|L+NIg}%-48SqK-e?ty`N5<citDUi>%Ypg-i<~RSSSRBb
zWHgcS|B|tBNzMN`xsg#o)%6I*x42YA4ft1XR<D|BQr*2je&vU+-0%OZfu9WsU8iwq
zx^VGke6jz7<F}8C<!xe7`>N^m=N9fz#tRvODY#g_)U}+oJSMj76C3x7l?PT$&wrk2
z-kmL&N^icgWLg>&>$i*LJ3#BeDP%5}oxh%$VGb+|f6n3cC`)y~zFGDvyIC!iw~8fg
z1W={{lxYB=n`eZ|-D2q;0tjgUAsN8I1#3UE=a~C4QlJoIk>w#QX0iYRbb%aZwGaWp
z%B(i7q;#DH!Is>XHy>L#IRD1A^3R>*tHjR$^H~;c=D_02(&^=@rLWw6>vImD3Jh$Z
zGEgb9&Brp9Pp@<IzIXPgFMagV=gh7Ek~5Z|+3xksOmo?iXKDCOF%Ym^TG<hV1M<!?
z+l21^bq?>3t3Rg~MIn1&y+k&Lx$$P?a}F=X3pNlo$Sd3I5t{eh_lV8?l)i@nd`8al
zs)>5RFn-!YW0Rgo-$u7cr!Pc7U5I3`{kz$SR19C4@?bWkJeXwa0gJ`NVxjmLwSc*0
zD=`~UEld%aZm?C%78Vx!>xfme*|aq5n$4lvoSH3{*(hut*&;5P7Q$p*Tx7z>t@t>i
z&WP%kuegB%qPZ0)Zmy_dPBl1>0_T1PTp__-afOPce0@SuH;s~;HfTe`aS-*C<5K19
zDK<V84^Kb>Wpwg_WStm#1HuD1dIZ0pYE@YSB|AAOeEK*>R2lX+a0@~z0a71QzIr~W
z&#sbN5h+P?vQw^P=a`&D1x7y6mDmZV5>-sfCulWd1;S3T4a+hv15%#q`??}ildFoc
zDBswBGI5x&3XpbQd%@_u7LGU)+l1m7dj5~7ZW*I9y!~VPB(%>Ho|I3li5|y$=#v(3
zJfs*op7!{B5!oQf_yn?r5GAGr7_Z?M``-ZjE$*SWWYtsxT$Jy<;lJ)*H3c5R)^xpT
z)kH|nRq)M$6az`QJ*y^93M9kvYvTx#@|C{lxaC+iRi}Ib1Opj))#Rs$3JFdQL-xXy
zPxUFn7jTKyN&JSM6e!v)eWIoBeq6L1$0E<{MDYC?{TWvW1W(UBkLcOGYU)ev>$`eN
zD5UQ~`hFN{zIt+@`^K*8yB4wVuU$1Yr&>D&llNxfdx2YlC6id(^uW|9BNZy`2Bbm@
z2znlU0^`><pp}he%SaX&F-*~%sD%h=5p&cU$&T8LSTRN{^V~>AB<CH7pGKV^^I0$u
z86lE|qIj%P*N7!z)5&M*DrnFR@*+2w4~T-OM<KI0z)VpXDFQ=@3B<%Akm~Zl)Z&e}
z0O<pXu?S>E6Ud6ik%DLuLY5$I5EKXfuor=ZM~owZd29j(OR=)`@&XFL*7lN@kFq_r
zB4-r8NIY3n;}DS2sS^-Z!I24*gdtj249vGAoP-k=NH#IHt_@@r+CmVfeiXzO;&(FA
zDOlGW3GO%0Io0EJ^(YQIlPsg9VLCepAhHqbrUww}tN>YIe9;1jJ?x7Hg8rq2*N+L+
zYUhhU{NchhTx9r6d|9<G?4iSIN8u(5abTYgOJ6!H$S682a$TgxqQ3!QSHI%ao7l6(
zQ7QIjn;$?1HoHMwgcih`9(9K|XGTtfn>_J3Ml1bI4|qMZ6K2Lwi6hyu>P_DGB)-eH
z9SO@=?UR0!8IkNcD{^R1?lBOfHa}yHn_VErpg6^8naG~87S*P|iI9bwq$5i9Ak8+_
zuD|(?QG(KHIo_@MMZkVRI8){r-6F??Z8tq?og!AP6|7u*rwXR#evGEbO%KA*UV}Xb
zA@(U=X)lDRP(RTceX3o5j~&wOstuv4bi2{W89T1}>u=P-3H?j88KtR`2oYkB3a7sr
zvkVumQ(XY1)s*UnzW1DNS8d3*)<?Do^@0kkzY(fI{n{dw!Pr13t?wa}hB?%jkVB%a
zZh8<(>y-#)05SH`rXcu?SkxNhYvM1f{$pX)roWBjR6`?mt&dM0+oG)J_1IJ!AT{i#
zx}kgqkTj|kE^gyiGYFHOt9Vq6A88J#cKr=kgLYTP)EwBM_(1%E3a^f(SU$qNs=DfL
zq)ZeZ_DuS}cq!AvfnkCRYghqsOsFyHZ{P~sU8|Z)=s+NxLhR4%iNB`VVyX?yESd4R
z`la%Ur?sPoFOcG86;6MTy`kGx8`9Kp$`+vrp>28)iZ<Eo*&<Xz_1E7BrH$+@LcOU&
zt2Tt%tJ}v6Ab4lO7PH6SR-qy`wNAc~5&x#@I`)og)8Amd%c0`MzoEK~eOtBZZ{&4e
z|59yt?P?1khyAMSGt$fXl~d9%^D|P){*_ZYtd;4yYE#D!<P-iG>NVm>*zY>k6&q^t
zsG1IH{5Ms*{vP`s-LBfy93k{^)h#V=H&r+NZ5%gplB<qI#C1}IPm9Z_|2(5TpD3Y*
zy`B;8Gg|M7c<G#pJt*BDsCNDRjGEK1CqkdmL#eh%9y{P`j{lMBGWNb|)87%7I_h{Y
z*z3x4AJrCdUjlxM<s9Q8`D(j;146a*SH;DTsBqOBUkrQ*Mn8RJ6M?jlzG`89+G^yh
z+=A)5$6n{&$oeYxdPb;VV3f0P+$iS)*XgJK1<#?hqsG5PDmZTO>J(~hM#4kj{bKqe
z{^@O<_7FTT3w#F^g$LtTf|03cEC`CIO1)1b)iW}FQxK%fp;$DCU42j%2@gW+#`$r?
z^m=rBJUGP%8Nod*ApE04{P-yJavXl{Y^;UJ#^5{%8}}?-C<Zc=nt}t6ZY#0r<o{2U
z<<kfZ{%0^|zjp@gbWwI@5IjF~AvijjrsD&7Ao)i+#16Li1nE2pClC1O=<ZQV(-M46
z&i&BksnG~{gmL_UGnn(ElQMho`72-xj-j9zg3Zk=zGfChX9tyQgHumeOXxJjcxFJ_
zl{v1I<5zi)Cpo~W1?CIo%l)LRze^*OsFaR8rHNG12T$7=$*T}Zo?tpAq{X;)rF=R^
zf<g$QVyk;hT1Y}}2lOC0BcK@ZB~+&m$io$bvJl4qrRLB<phUg_)d+-~7&^@i#dw+V
z1!C7K6*1p5cZI-{OR5ea{5pM+B_-LF3{$#%A*E(IboRsv$sL_!sxJr}Iy?X`m24_8
zPQ=u>q^yb2NvVW#rMb~z1SImJtdS+38d&!y=<_j!15@X;=dZEK04wDsaQVynLnI4v
z<C7C;Qjo_TAJ<zeKwjEr9*lHR9^D2t!8jyx_s77FNp;N*-X$-cmQdYjCr~m+KM#FZ
z3M2M+kUsx&GJc(mU!&~U(-<uz8xtLfkuDdRod5R(w?GE%rub?yYRGsOhUC{NbZRAN
ziA$xjD8*J(3YSWZ)4Ew3#Y?9wj7df+GS<|wiG5tMUIb2II6*2Hn2Hlm4ij*WMp(7T
zgtuObmDYxg=0P>RLD+(^u1iIl>jv2hzMjI-G%T4>y--AvuK_Bu8k5tKjp@n=kB?r8
zrbVRqD{NDq^l&83L1G(>V_quOyf&mAo}8AC!aPvC^2AA4$jM)&ys`1*r&eZ7O>0}J
zP#s4UF+@xuZimw?paW%i;e+JqlrILvLs=QlqSWD~P=BS|jS6KLMwF~!umJ%@g~Kr?
zl4D#nig8tD-h3O*vz0oMR|(9D1{h6{<`xo-HJLf?KY)KDm$T+x%K>Bk&C(_N@=Nz?
zA6Sm20(Hqiml)`pH$4Ei>c+2%8geD-rqc~Vq}BPrQi_jYH8}@9u~$B@SEm|V=ldQw
z>QhZ^^bVz}>*xD^?x=X!*sQp>DDEM8S3In2PFC&{EB8?x<!eE3^g?w=spu$8IvPbs
z<I<UA^IoxeZ?gHA*nAAM&I&LBQ>wnIq_<P_b|$_1MDIQ@q4=tWx?Q4g*Ss@TTAwW4
zDVFX8-!C9tl|o+gdKTv_Pdd6+9NiDy`Rh5H)rVsur#tDW5*<}ZM+XG=k`4$b>{)f}
z`-_vwzH=h}9p?~^%1MPr#_Sa<_6nTXxC>Bzr~84U5rRj}Z7FyDLRfTHFF8b4SIXr{
zy6Qw%UD9<xbRBqP&T7tOMP9ertQ~8Wt$);-tlTA5?jpzXwLs`!ok|9Fh=CpRecwI#
z(B)6M8bw!Q(se|19idz!m1eNQQdZ?^=@uQ`%aLTyA+hIBvge%Gb8gk~Vk$R3nOh;|
zRzQZ@S*hf@7+Ec?NCsNOKuZ!Ll7XFav-$!_UxVmtNcy@&ADa5R&Qx(}vba$!ZcG;U
zh{Zi{%6;fBPx_lge^b)GUG#6KkiL{XFKPFSc7M`dE81%pXCBy_*D5=cmCuQl&#{6B
zMOP55RD~k{+))miwFj&xHDW<cvY=5cXk3aXTla~r`;x7P#MVPA1&0L3A)(+<idd|>
z#LBK@Wv^J-%WCGagDdG+u1<Cw6gv*yKa=b~C-$FPEq-x6_iyaQ4=N8nsO(RbS0&3k
z#PSYGEbx%N+Hkm;EbkG^dnl3sGSJjZS+7r797#)qXlYn#zdwmX`3IJ>59OX)3YoIH
zgBfd%>cy9q8-McVs$&2psDu3214|X!9aZD&6n&jZAM0LJTU0eYqQ58UKOp)K$W=qB
z_lo7c$?{`j`7v?}uv+aBi@TD=d&J^BRI8}LclUf}&+V4A{2H7ax=~rCg4}h^<jh5Z
zgEjAc{npn>Or~9Q1m0(-wf9UvwSQy>w|bD}D1aVUQTu`YwjGS<YdCUfyxs^2m>WB<
z?|htNs$ejsk8NCC6Di_BRPUP!c)9P#$A5U7@w~Hgq0B|itA#D|wzaDI4|d+(xhYZe
z#|;3kX3-JfeN~;@H1c3wtz?BRhq@p69G;C@V%lFWNlPP}*uHV#jGVq-_<{enfBEeF
zS@_qmXe&^X#<m|c-f7fx*?)fw{*BDP4#_sOBtu8U(2-<lKnxA6hMuF$*FHog?!LDB
z=D`(v`Ge}NWc5+8`sl}152^<c#8aVkHGZX_omDK=^B&Z*GgpL54p(z3L$H_shsT#P
z!9DajXR>xYtgK>vE)^)HQJ89LpYKaz*jeHCPcf3p__y8roi8?W$;Ps;II~iY445)E
z36Xh*vtXzXu&Yeh|1((984j_3$W(#!w~^2cAPuNc>P`f#AJ_?Oe(q{wICEKvEO5SQ
zba<naUU0tY{s!l@GFw-sF2)wJ$m@|>n)&vU0WFydlV=Edk(_4-jvhMo!pZP~{bvpy
zk^JiC>7xUOPxOb+oI2h=5bo<gc&e`-ta6_sh&+MPd@AMBx<XMlrS4%&0HIk<=FVa4
zDf*&M0h(>ydd{O2+7kiV&;l{q4YK*KtS41moh)t_i`$dMN5$f!DHZ(!0hHvTGnLdO
zi#x^QPRMYVVd5zvE}ybB!e*UfL8sv8{DkcL#e)5UWB-#Zb6Q_mLy}twR$e`urs;r6
zz3G|D(76=V9VVY0*ZKhb?P?ICwgxxbQ`;K*V{9rnKj=?Nuf`r#^8~DB*Db8K$l4FA
zJT$g)OpO^&lskDp)21_s8|yNYdrkQ0z`6Y|9Nj-~CT%52lss93LMB^*Np^XK#}?)r
zc<c(9&a%zY(ogFnh5-&xA0g`bRgTSf6{5XDu!q)4%9160VoBfp@wL3#2YK~tWdjTL
zHDI`xZoh<%^L{s>(dGD$zy8Co1BcbJNxu?(2<w5o8Zoa%u+%)Ihx`)~+_Hz9L%kc|
z4yf?zL*)eH)X&%hxE$54ztvs?<#lKrdeYl;vMz3wUCI4v;q`u|#+XK3Qlp?aG`nuO
zDr-D3^h5uFf+ZA%xMROguWY`ax)JT+WXYs3eG*b+Owe~SSXYQqX%qzEVQsmI(;%Jq
z?1?ooA&5=zC#dPKAW|@w%L~4sXb%eZdhnMe^D4!>%Ejkb@@m)W_oQk<$(p@l&ED0T
z{b=n_{(|Y}t{Tj$p%Y+P@+CbjqNiom)ApdFf3@Q<&<R02aMdXNp<2wV7V_EzOB+lU
zIdid8%ct*C$b#f#Ocd(gc*7h+?M0*W(Q~K)^qNe*)VS6S#ZsXYLT$IXtVx_T8=dLU
zEOPY?#M}aZgV_j_{S0VoKqgAKIh^bo%}F>-HPi`1VG$~OGCP8>_?hv`j??CbJqVSj
z+V!{E=i+YFO?80~Iz-S(<QzigO8-axGkG^o7Yut`f^k75vcM}&XV%)-A{X#|v%YvH
zWR`N(Hjs%IJn<e&UTyz~EhpPrDtpdS&12)nQkCRkJ9x&50}2c{2troAn<C6YSA;fG
zbZ)4SR%E-6l8weS&$>RH>xObzuji?E@Wf6kbFpj;6QlCeyopDiIt$py*vN8|&T?!x
zFgAiir!p5KKE|uu-`IUA>?uljiKV-erTfIvefLW~KC@c-!nJ{i<lZipw$Bd`>$$z+
zZ}I|cWlv(0;4Qyba)0QfGNJOwLS72%$*S#Q)po%ZOof`0p*}IxcmJjPV?yY8(NznP
zO9mtR3a;9<(!FeZ(IC1SR$WbNuBugNhbeDL)%B$6x2IbAu+XopeOzcS%bg$iEWo)+
zQ+rM<n3Aqm(bc+a6J0w2z*xnxajWm4p;-M;m+0BRn@gRY4X$s%vL#BcPm>4%ON7xf
zPVJsgPTyZ<YUNYN29`|3*e~-bX&r(eg4>fwa1%GxGm+pX__wIB=_E{<{}dFsR^6X+
zxfi;U1<hhX^J+osgZ94F_Cr8zHEgP@NJni7B9q*pQbP5tjA!3qENmXd3B)VXZ7Zv)
zm24xVVuOh^4V#d*`q0{&HO6I(dct%@a|`fKrqTR3XHJ_L!Kq@1$I?`~zKoRTvgdN<
zAR-TFZH1*~2EI0=q^+jX+@USXXzc|pQ<+A*ln`alG+K2*on@wxm^@TeW{!FE^i<oN
z3;8Tkzw|d4!TZo%ULXx#%vJ#v9Kg0v(t$TIdCZ~|bMAyYlEqxz5wL2N$gcTN*&)N`
z6O{br=h8TEa*b1kYl)r*)dtsqYS-WD2^mx1squQG`774Bf<ysSe`HZkXtqh%X3;<A
zJeYl0$>s_Zh5RBorEIepxNrjnQ8||<H-asSSE%uhRjM}q4K5|~h0J(Rbur@PiDci+
zQ3vgu_nGk(eX00-iM$AA!9>xwGG#f}x#Fj%kg#3I_!9XoLHsz0|5j$Ah)gAoyo4uF
zH0!0hoU~y6_2TEluNc3Qc%4=osL#z$!V|Am-Hd7rE#9E|>u*R{frD6HG2FGNwaJvh
zXq+Nx(3}p9_-Ovy^q|I+`24iyB#QQ?M~A>_!=Lbvb#4N{=d<E2fly33M}u+M5=__L
zTmZgZPo{x<1dxN$xW);QFpV&6fQeEl$H^PpVGu@BrJL|aY&e%!*7&F|j0fuLb7g6*
z)ca%%i86UKBnt3G%Cnd(z{63d);#h`d#g<k)fuZ#ng%yLGFF)@kEio4?Aru{PsDt{
zz|{(MK!(@~uE18CAGjXc?1m9elkJfw-4o?^9UlTm&@&eV%rV)XZYt7UhIv5QfV<`@
z5<xyQQ4yOqPKCF}wNvznQ{7ELlcOOIj}ZqCcsfq2d5YvdGX|nnY<k#PbDp}mU}>M*
z1cFZ^jw`Hmt5nFi#(jmAvtdnR#(7zV*56Q?BCB=EO9T@Y;DCf?NvLNkyzBZ<S+mbo
zB0j?rO&CBP|8rG<`I;W9YNOtVky4$g9D7xD)8G6bBGj<{t=iPONK}S9R5!#BQSJJB
z?1FArZ3%C}bs;n1OH{!uPL#qdNmRq+#`dW&`WvoBeVZG*sKcl>z*<zh{$@RRO#fDG
zfF4)v`Wvp3`j={htHIcS>$D1?zwf#~R49DF9hKPeRF3hwuWEw|qRO$j`lY|Y<*KY9
z7Bcy7CbH*hkjm@2ziLZs0}ZQStx-d(i!o~SO^>Xd6mhc|A#K*K`X$0tKRZlX3QDdh
zciKwGl~B?}&vYqkB3Ig)s5U;Q79deO_Lgeb-)i~C-qzhzo9d^IcJ$Nzsvm0o9o4SC
z7cyekP|sVh?0y#iH5D2$81TTw=T(1oudl3%451Cj1=UGu0(Fa=81!Sf?o-py-^RIy
z>z5fd|AM0fIs1;Dd({Tl@2YnFeK-F@h4zraP5!56w!rt)kiU8h&?rKl_Ng)I?=M-i
z2JQGSjgP)mjTh)j11I|ut}$YO+4La3-`wPc&-7Ir#+$YpNL2mOaU54u!S0CdJr*+f
zDTW>Ev2v(GJ`6bXu;zg1QKC*+dsqPVdulxTo2@<S6ZQNM{J*cetG2QCRGa=zXuQ&M
zA%rrTakFG4`j~e^^1M5CTMw_=5>*j1;XxHUu@$+&+>E(C1YB+qLqt=BfpL+Uu(166
zks81LPJ|Nm>R3RVyrB93gZ;5;*Wa<9#qX$JfOucE>+dZ}%_TzWJ_Gn`t91s-lE}q+
zgWg+>ECc*2^Xz{qY-Tj(JV^6j7R&vKUT>-mc`(9qg*uj_^+Kp<;0!d4K&wC9lNHuw
zpYjwD?(odyDCsF-R8yHN5m)^|mYIxhBnGVrJ$NxCbx^G5m;^<LaoU0DZj>_t0QWu}
zIC1LWadxo{Wch7$_mQjzmp_DPBn#s_0wWq9#OLhri%dyskd&knZy<3mlJ?IS1g}VE
zN)WtV^0i>Gmf)#Ls0E#3H!}^52f<TEA>va(+*%OS^rDWBMvxoanMKN1cc0;BqO*7P
z!$kwG$*D=OPO68MLB?<wBksi4FOCjhOiMoq<u+ho)N;o(OvYFy$!%n6e0&P2UI=cw
zC8;;~YMLh4SDS*bZqfxyPO8?}S6f1PyqW6zU8?A8vXO2*-a>|z3>z7CGH}-;$2-Z$
zB?AgCpi_kmHyQabaQ^Z;6c6=|O?pxJ--TPq{a-~DDgWDuTQUut8t4yMBsWwbhNF|{
zbks16vv8~Y@HZ%<Gz)~zNfu(NB9<$;LfXj-thWja9%I9j^&=8{q*gVM<X1#z8KW3g
zlvE(YF+M%qIX29E*qKx_MY@wB-Ax8=dz7V4aW@#F?=${4=-iuzirJZo*vtffoIt)w
z!RQQu5&9+b@YM8`u*?uwj3WVj&<O%*C1%G8vNA6zTh{6$nW0XDkMgG|d@aQ^PX?`C
z_<iKYnw~}rPwM;l!({ZskP6x0A$@{rJu1f3(MScFA8D^-3UXsSJLP9XmWjTy?({86
zhdKv8PDUXaG*cPsnOz_c)~8q(J5Rt&0(X==?!f@B=g=FHX*3?4kUJ^$N*ed0lc?{>
z;i!D>NAo>vSo!deHa)V2d|g<#iz44n265z}+d!o<>Cn**|Dh5QclU+)F@j-&zts69
z7b7{75?h6zl5c=>sDZyqiA)giBpFj=5b;FrPpm+!Xl&rHF+*!{dAw=;iBC`nHr~Dg
zU#U=26RaXO>P=FS))h5`$K35&Z$uw*QjcZ`Ge%5`)CiJ?+!Rte*j8m<$-|IMg!E6N
z6RG;HixpSEsr^g!DtXdNWtNouy5Gk0EaIf3QzywqnNZ}{Ddw20mza8}<i=?im_>;Z
zU13Yr5s&2DK>e4;1?ynnrn<_1vQi{F(u}GNMdvkg;-izKDo^H0jx``Kj=jF%BcG0$
z*_lJSx|hx8VGQ8gnIJ3wg_RCPz&GfrPZqR^1#R<|RG=*xI3NZN2$tecpk2vT4J{nW
zirr$x?o_ZE99hoX&%i=>G-KYr@Ul?VCG;GD&WOU|8w1w|=B+72#IA{fwWuLk)FT%4
z%-d51bz1b^#-w+<=-mzm$I|v>X`fiy2R4+HuPN!<C;IlyJHZQ;w3mtYvPJiby)u>O
zzd5v$SN_mbvDmoSBzRhvoA2AjjuWEi1egNdwKxVVY*?yTsuVoULR<g+;rqPMc1-jf
zBi}mmtyuIg1_V!w(0*9-946<|n=jpbS#UMrbUV<Ias}8)9Nnn{3*EBAzS~7t`y;D4
zkP8)HxtzBuSyV3;)vp#cpghIZOV;K6cbwoXythO2^&!_qbxRe{wmNVB8+*~ig6hR9
zsLkd5D+S$xqgyEGPE~c?v*PL<!4U+PSas-wUAK3E%Tn;v;4tuR^aq#jT)JO_bNA|8
z86wp31IHZ)gQyo=p&u3g*#ATS{j+p34+uJSZ`gHjzp(d=u<s0+yUvKAv(SdM*3kNc
zraMh3cgccXVc?iSphg6$1M_5M*PreewjCF@oe;WCh!rOVM;Un81RQcY+OM5_SXGDA
zQ}s<q0f(5RT&tl40g+>?{ax!dE921f+^D}^&#H)+LZKD*$ntA<P6)0YzsNB``KycD
zwlmo?AodKT93}G?Z@RCIuV-a$0|#8vQU&$2ivx=nm)*C=1xqJN0mj3U7O|vd>CI)|
zz5PE72qk;waYuw#(Tz>Kvvs1QZYg)Ee);)3$k?{~5n=`{drbPDP@+IE>F*Hz9n0Y9
z+$DgclUNzsM1Pymen99rAo!t0&$ni&SlqtYC|X*W`filDEa|8b9W{$Xt6=SQ_@T4l
z7ff|+K3CJW91^R+YFn|^)$`*cKRl9h)}m>hjm!3XuaP<#$9_`u?WlQ_W9nw5qHBv5
zuPj*vOFM=V@uzMV1KaPliveV)c&)TuV*yUHAP>-)i{h1wq*NT105~Ldi`SnjD!DOv
zeKJ+Zj)93;3o2rXYqm*rG_5#}E_;&gePVmx#~EV#QL2-Y&n%p~O03%s{)>0t{LY(e
zMImqs7S@4N(3=m&L9hv9q=S96MJ#AZ7WAzY^sN;Iq4%b60QzLI2qp_KwltUnD+LGE
zIkPhtI$zw-dIOsPmwfO@Kf#*%iLW75)(RaENngF_t4|d-CyRT<;@(tId8(|Aw4p;Y
zdU-qj6Id0QP<f6|U)AGs7w$c9u2*y5IxXuF%X*gI#7$CP`6wWi9fFoU#+}k9*7V)~
z>ivsC%_+fB`Oxl5+N)Q<q21J$Z0Z-A`d6C{&z~d~ZBn=#f?D>ZgYGa%xoZ~Z1Xp*;
z-5@mW6<qsL?na?`x8T~7ayJPrM+6tx<iO%wA-XEkEea;Mk$XKC-2<$z@0H#vO`*R9
zn#4d8kYO^|B?h~67vdIZ6HD9HOF3ujV=fQ1cG-lJd%+S|f8N9eLP>wO=<l9CkpdT9
zNvBxSIe(ntw^iV`VB>-_)z+14J1VvvU2QwQ;C$d}PI;>rUs?Q`;O$C!dqr<A`jmI~
z{ebY?^Wy&JSG>;)uIB~s^C`LkYiW<*?Ui}QaRrt4;QfSf?nUwNi!0t21=ov$_r-^v
zmZiC+HwDk0q^D2x^xc0R*zn_BD<0f=mFdn;;SF8Sm5a@bErO?g`Q-g(vFka}^Bf^e
z;uf##z1MuNMW{V0xT*kI+qvAn+#%HT+$+5w`#4kBaa^o9F1RY!I=V3>BzsPXJttOs
z29iCe#h%lvJ!e-t&QXzCA9|~k-fgSiZKzY__AZp9Wvx7vLIp9t@drDf2g(YTK*d`z
z8L)wAxi;zR7Jc1GU$5xvO*L#wwH-_~?@n!dp6s;^A57k!WQ-TRVyG8P`^m;VV&fj&
zr6%;jE4N=kKVq-?rX<uqfzg8c&OWheACR8nq6O{Vk?ej!?0zBD+@5ScAT}RZui}b#
z{({RdE_qzf1sk;dt_Ai!HfK?Ovnao0!=)Y@^BX|%T2tsYfu7~L<u`@EA=Yo2#Xxhq
z<-L=)PU8E$fm;LMDER`pC03JNVrUo3BuNzLxvgNibt6l)T<5-wWXA!q;{b*yX^&p6
zMzeMvghKJm&Z32r4?L}?;vFY4lG_Kw?E~pRJ5CYM4hGbXa=H9Bpa1o@Qe_QGLt<I$
z0%;mAgue0y(bE83QH94dFq%KdwQ|QZ9{NHg>_C|keaFD2>@NEZxTPXh*O;u^Cf03B
z)*Th=j;4H2mX%pwBzUT+10t>_(bJUj72iC5D{rYnXxSq+>_HbTEc%Bc|MjR4XkE?}
z1Dy|wx@d9-c&F&;Ts|)Bdrt5?pY*&adR|1}Ur+#`vico}_hD;ivh}dodN}2&UYtN`
zZTZv}n~-;3P14)5;_bmwpb*zD)W{M942iXgK1?Eqh0cTbhs4gqg6~KQSdGxzHqp0D
z*nU*laa8afBRP$l9-+2J@NHwhArS@dOE&El@$cKKxxw<D^Olodxwmp3Hnd@3^+D<F
zQb?2}tGmSNF4hNkiS@g57h=lWF4k;k{kUHY^)t&JF|_9wH3cYOy^LO-WW&Vjj-%tN
zM|1+R70-_miwQ_5pkHi$j2KOfLesG<bSmNxdUOwg$%jc7v5gm#E~0%H<Rz~nekgI~
zFT|wmORv*AmIWuQa~0-j#-*m{P|}3Lp2qlU7(hg%$~8NT@wHU6mnQ91qP=P{u6Dsb
zv92#!cTB81wqieq4&f<=;VNV`8p=2nD%-4;iS4{;!^i(eGCIikPh|WTGK$Ec({FiG
z_cqy}cM{|YvT<Y!k?ke2={%rB%;edo^3TY|Hg;@R+DM;l&-#4|aT|u@RK%x-A*vb<
zgTwS3Tp8EYK309QnjZlnf0sOHv-=;QOs}e1F!^tuhMuN%)7eaOE->-BnJg%9QOV7!
z>t9{ZVV{ts2(DY16_P<kHyqa;zp%4UTvVLxPC+|UX0G`_M#||H@|#6x%X$`lJ}fL>
zH<N`8tMwdawQ#n;=T@?kmbYA47o3T{KMz{Wwd)?Ix#pp@NoegCt^JS8`1-7@63XX>
z*EziIS3jcH=SMQk<{Bu?4^(_+J!&?WKJ=HZo5_Nt%6ryxn3b@>I`hW3w*?;And>=Q
zj=Auj=^r_~WL{LNm|^_1hiJw0JVSjw>47q0eZt{d7Bn-Nq84a*vOqVKH3D5x(EVhK
zS}AIfZgXH-;U?Rl)*e@dS(PvO!Z6h@H|j8AIZ|NrkdhDDpUi`#P(BYDp7NpL$pt0z
zq_DjJb~mmJa~QF(DB7S3tQ`GCf>0#yFjUJ!d(KS{t`jrPm2V68;w{`uws7}DdsScy
zKe^6IpXyuoRNp*f-w{uwoV00O$qH34q0uu^F-a@xccL(=i%caRkgP-+Ac5={6M}`*
zG+jz7s~&d@;Y#w+FqGU)Lrqq0Yy<68mVl+RGs()R1njD-0B9FPjv!K?e80JJ={%|0
zLgb`wR@PSUNNWvrB$<2gJ3#P2>)_J}Yu?}*<_M+8Pa3D7cA5cy!n5oFhjE(Ltc3aP
z8l4;7i1RODe!A2}n!JvgI52dbT8Zqd7F?c{rYj3P+S%yRHVg}N+;ksIKly47_4nI(
z#_sZ&J2X#GdWcPaz`v2EXAArsTv)3^rt^hxF?$fJYE65?)!>AKIPVaX!g&C@HLht-
z7z?HaSFCI*w8yJdpGfwHO51z`{OX8FD`&#~_I6xGL=@0XkHS-s!Qv{9)6BshXjaI8
z%67}sLc!nq``T67;HtreMS7ZXnpoI_KBVb`1_VuD>|uHIZus(T_)^g(^g@Je1DJ+r
zn#aiqJ1SvD9~|`Kli8tuqJ2Yw0$rcitWE2|p~*;)k;S8Yt32BHAiL=&9R?>3bS6R<
z87LCk?8HGo(IDCF*%wbUHO&(<v3T$zgx&R13XI<KNP237DOG^NW}KMdv|_U}&O6AN
zX}xO+_P+sYUmSYTXKhVT)({U~Ko<D_oyu9l|2Jq(Sswl)D(4^5=Xc1qgN!%nlMYz<
z56HGe#&6Ikqa+hH;Qs_}vbISg4~{B=)|W2xbS5w5$g*WG$YgKoJ3ON`|1AZrCWr#%
zutpU$Bjkc>5hf<um7Dj--l5v3!m$zA9&)e+SXu$}yz80O^LdBTrp)q`ix`b1tkkqe
zUUR$+*IDnz=Fr5n|CSbFXAv00MqF-F#RNx-E9tdXSaP%bw_b+TmI~C9G-NT<?+f;-
zHQcwe>(;I%$4~lydh(-_5B$flan>M+8$VUqz=U!iR<$qVTI=rR*Mv$49YYBDVQoXQ
zc86HIL#XX1!AGL8EM}}YDnITZLJ8!beYA3DrsVvo@)mjrQcXwb9RjcZ2Q9Z-miv-j
z{UZJ=`^mZdq22R+XVTX!`kGfDBuvt-S?&suL`d3|C?vTYM8&BXc9&oeq;LVx*ROs3
zX8W}_7mHW&8Wc)PSE_6G^3Ho>Dcm%Kd$1SVufHi2)h-ULn==cs57G!VQ2tvE$<1S*
zRPDTX^nPNs>I`LqXmdy+Fa7l!d2CsOYx`z~a5FnDecPZbp71^Wp1KjhS$-osC8uq}
zrpHJS09T};G3h}_oF70UFI)bGmL?5%(tXadB;8-a6IV(60D<KGzn^RYxbmgsB@4pw
z{~E3v1mFTASl36?`(xw+DxE$WNx$cT27k-bfW6q%#P%R9=$I#B8;SN}zv{#tn?(B|
z;&0N`BDz|ZW>#I@*ucW)p{p3Ta{g$iPztKi-gTmG8gH~%{k9?Ubm`a+@l6kHhcKfU
z)GY3G`2&;~rLQ44Ry#vf1^B5_U?oa%V{}m#npZwZV21>=p-rQ0YtS+(J>l}J+?u`V
zfxQJ9#vhUdSe=+xCs^u~9)yDr`JNo(9`x@J!B$(zw_h}#OO47MM{eZDXj{qVy4EdX
z!+FK#=jpMj{S-5s7Esn@B;ToHW;jhg&1ZO<q3lC|RXgRq&7HDznxBIDjac~g=;(!u
zxXW~C1iDploH|73y0cB2TIH$GHPkQ%kQx(BdAIjkFX@7hd@y!f(FgyNnx8g*)VxxA
znCOosw@Qcx`TooYbGPSKi@WFheuIuV>W)DCyF%XF{66B6%&eF2i?GX==@Ih_e-j0f
zvgNy&wA=64B38Rij~%+nlf<yLoI+TlB(P2{c~}?7xk~Dxv|AIfxX8ZhPUO(Gb@QXM
z(tuGj+o(H$Em!LhdT7SpSb<bb#-XshF&l@(r6<~zS&W%jLrr?@R~sRct|2Pj9j@u+
zRy-6I8Ep}%!z&6esczVVZmTU2RW~%Q8}YjIZ`FoQNeg=RBrI2L3F|_}+l44|wu(Hc
zW{v7Bt}Px}JyC1qYzTvP+WhcXbQ>{XGWKgrTId|3_Sl#rZ%tU=-icJL&kUz68Y!m~
z?rJ&0+4OL6znasC9ev24FKoQV26ag@$EN4%6{w{x-{go-HJ!1Ft^E=iY0G-U9Be9m
zxp6xi=WN!_HV#@#PgWb3GQP2<sLvRb6Mcr3hwMRnR;zaX4UsO+Xftv3hjFxk{1}O|
z7%|+9wW=ZXHv~-C{m7AwZ{d=4S@?$TOJ?5=<vZI*d<FR;a@nQ_<?PzzgipBAeqz(}
zp)zLKV#OdXL%|bGtbuQf_o@+&?N)92+c<yf6oMOH&0~9YXw{amYY@OlU_P~h;UBk1
zD>f1mlHE*+9Ei{1I(P<=gVx)p#-YFYop7faVbi0Co9B%6Z}PyWafq?Q29TKvv&yij
z<{EXG!*KJFC*dL1mu)0?0wK3-BbC8(d1*C#>dE-j(KzSAtvhBTagv1VdnCpON*9Uw
zEtvRPr1Zj*G0o+J+>uMSbdx}xp+dwg+My<xT116aJYT8BY$MS_u&DoM^ni0urWJ9p
zykzjl;$KyL6Z!E$)vng4nu?K_iIH#!QhQa6Lw_@jE-M$vH;n1L4y)P_Q$)4v?>91H
zpgl)&pBdwb9!9kxMuYk8nK4~d!|QKeEz6khrrLhVS}}_0SF07H7=O81F^b8cR<yoi
zG)gld5=Wx`tbYUB%I_TceK+qzWkr+0Eo4sq?uI@&uGZ`meUjFIo1QPw|9-Vv{pD)#
z%hndvmEpP#u12dawH{r%2;xG<<mbR5Q=2LXpBlz0(3L%FZXVz!{>d;2C&NpH@TKFo
zO^@PR6n|ayP~(H@)q3m)<ndB4c188q-zua6<Ng9Lo-Y7X_yu5!z5tBz+G*purV+ia
zQZJEelQDCgl%=o-L|nPoTOqD(h~FW+qO29?ypsjSvA!+Wr4rYi7cG*hrl7ymR(IR5
zMm>SJzWmyvJx!p>ohbY=s~Y26slAikSMQrEo-`%gbG}3&gsI<B^BxI}auLjbzm*a3
zBz!On6CRjFiDH=EL=j9MV!x`w>u>lJ!{-~ii)w>U32H#WF{&%Q;X|s{4R$#22_Uw2
z(xGKLd`jW-Z9|_j_{<yn&<guiL!TggzGLW90Uv{&g&b5SyuX$4y$q~$a+P&O7EkN1
z?>-sNTnSsl<zihy0@i1qgow!Niu75vL|a!BJqeF>#f3!4FE!JZ7%A#UDZkiUUo!T~
z;NPdLfcOXTch&N#n8;B0$p17<8mYQlt<Fw!e*I9xNa!iyS68WXfi%e9R&$}h(N;I~
zFV&_~AGYv!sPT_vrtOYys^RrF!vCKBrP}V+sKV!SrD$WLx!nIHXQx1-G*WxFPF4Gp
z!NrND!=42Eo@@a%2W)4N3sH9mR`dTnd7-@uMgl~k&2kPff++T<wlCWBH6_FP?778E
zDaSuYc)(z$RD8>yF;n`#z|8c|HB**-fwaoM0L(w@Oexn>0vrWs83T;<WoAmH&b_20
z#YimyQ%aJ>h_qP|$6RnSZ%atbv~$7udum@u&`9tk$`a*>*<juQUNe|;;A$}6!1Yx%
zUi}SMgP8%Y2D1W$<b!wXKU9u_<$fJ%7&?heADZI9lN1S(7WE)$vrbdc-eR+<2VeWa
zw$!VAkt-v+_L6+mbTqg-_!4mp$ejF5bkHbs4>Yj@NT%%Xl?|bBa`Tk1U>9J_2U`Yb
zVpzXQ1W18t^X?5EKd0Q;EzADMbr2aH8G*FUWE`Sr&@O*|9KvZ-&`otf_0Sx|)#1Hz
z`DHndreFsSP&M85a&<hjNOD}bX8g&xs5<rV=`m|}FmJ3~#(AM?XX*{AG7++DU7X3%
zO-;6F4e~-1I@%{UmF?*b8*DIY*@4;eQ!{bMbOe>kWM|XoA;8B^T^@}@Bl1PTv*pj@
z3>a4z5OYXyVl;+J(uXhh2BX>ubaoRveV*MXQ}AU08JSkE3JhvTWAZ)4I1ht<cbtRE
z;)H0d>F6ZR%{t_y)Qr%b-|Svvs-i}A%oNmu%0XIY3s2IKI!@#0_Ty&d`s2yj?FN~_
zJ#sVS5q4UiR!mmWxZ^u0hnQ_O2ni`hMFKOzz$Y({On0dPO3qH|<&y)eSCz|hntusI
z@DD0706W4T!VX@;SMlP9$RG#x%3xDu2wXRG?k&058Aw<bii40*^bIL@iXXjz`xM5B
zMF-l?|9imk>=1?aCz3<%Z*jT_ASTNpl5C=6BaP_jl_ZC^OhJA~25l;#2OS+&6M=e7
z%G>abGk?Y#@FBtfDH)X4PyaJ+#o*tkT$9i#)c0*FjFdGFCH{X5KPYqGm`DCEC>9$T
zOoB_#jzL0_lU>HC>UozhJAaP<bqY-jKKXczqL6ZNZ>L;e>>hajPsp3G53sV*s!+0`
zM}_;&eD%5hGyy3%b}5d3OF+3{FeDHM6|RP#8j8!ZweyrBD?bzcWIP9SDko)4O~)ih
z_@IoT!t{k33|Zsg^5cl&JOZh%i?XaJaW6=gFs{;|G++a_730_1Pf7eaeB}#^O_xWb
zugg+^OaSn0^1egfOe{{9i2FN=Fb92M0(YIKiT+(9*lQGOmTYelm?K>*k+rPk!ujBZ
zQ5+V=rbeK~cW9db9zj~es=%w11J{|@&^S+<J6SkziER7Guu}r8HCym0IU!AqOF81B
z7iOkrVmuM*_%|3F85RO&t<I$SbiqQ_y_mcpZOQo$U`V#;#B}@$yLx~p;*n&c`yph`
z6>Nqf<w%AN2Ds#|lAV^La&KEC+ifz~*q{SO{wHMo4`lo~8PtxFJ&r5TFUm*Dl2aM@
z(?bzpzs=SBkYb}HgIvXbKsFk4d>969{7^+&Rat5_re_G?G8t4j$)N~#v*}o}De1*0
zrun}n?}GHvs|espd0Na02hzU-XsiNp(j@fMM`l^hfrKWl8fJ?&o&PHCA<!yf=j?RS
zyWYXMiiErh!O|yG^{v9ptAI3%U=KblC}y{rX8hJ(!NFARmL~J+#k~5Z{vRB_b9^Ol
z8^jB&wp4EO(nPZ5u-I}~Xg;#eWgN{Yz==MoOkcpo02xlOr2tF-xQ%nT-raj`uK-cH
zGKki6h-DqiXOrDWMf{f?{kZSnAN%WLV%a(Hnw%mn<eNar8Jsc>WUf3#YVVsNkKxQs
zxn2MlJ;?$!g9)D$lsAb5O+T`(6zov^`xO5j@OPIbU2Q9_w&hon-Dg(1&w!cVS@$rn
z_K_Lyl<N!<a236qxR&_-m6g2uls6=Jq34{*q>$ozNXg+F*U9>B1g;0(FJ5ssFqm!y
zreA^S1`oftLa5q(Z{(-rAC2Gpnox0KwdkbaI*D3v6(;kl#JnmYuQ65EDKmes*6m2v
z?Gfwttk&&YFhhZ6O0NF*cdQgNkx0qZ?Wud_<n|LH{%cPx^!?7MRH6UI%hz9i|Env7
zEh*9!-z(PkF7*BODKICOHpo{JK<10dFgA(yCc)nI*u^>X-#vQmXwp$BIx3TnUeVE;
zauuXpg(;Ws_uM!4-}FGjDBW6`bdg?AjWY$HObSVUJ$75cZB)Y4Fp~z~WL~qF*Sr*c
zkk_?V)|xCkA(owB8hh(R4`jbG%k!C(Mxgq=-M4lx`B(kj3l>zTyGSUi7rZ20IB!nn
zf|a{kD5w^4Yv!|%Ub>&J3|CONy@IbnC~gqkjq}->?A619pe)%b6zmclyI`gq`R|^%
zcH$<kU!aQ@WD&4?-S_KPi;q8WoIn-NpG2R46i`vCSkww(N)r2_s~k{oDb!&p?oi(i
zVYg4b^-1pm(R*Ok+XrD$f8)*VNq?j0Z(Mp=@b^NfkNRcVV#X>M!O9wwWjn>Po%5$s
zfeN9rQ>g3`0^Rc`Q<S}0Tn)VVnphALn)j|0U|{VP3ihT7Dun{bHnzZIh3H%@=)|=H
zGWe2vwV+|mU$Z#%U>i8ka0&5%;2%i&8<PG`(chW$?-Tv|?)N48&WL?yR{UoK&l$mg
zCe6Q3^!G8rk0#OAwBqYr&H_tOpa?w{LK_^}vbjK`8ryEszx%%DuS$Mavf@83c#aGH
z<6uflmTwcww<XK>u9WW;JbMNIUY3A-O~XOafAD@hd6<cK`Ck+~FADw_)BF#M{=;7+
z19EI~asKMq&yKBZD6H(eXT`q<Vq=1T&qGgD(nH+}cRoW{hRMVDg+Q|qXc2sn=_?h=
zT7|MU!PlM&RFZITRksl6S$A@U_5Tl-Q&{vkp9|Ece02{(Cm`WvP#@bw|F(Nw$(_f=
zoyYaMpnBga`geYj0(FW0F5EC-`^dK9KOlG@0D6E`OUH`8L-2G6{*IJh2v&k%jUvdW
zS<>@vXL-*?v*mLYEy>_^F}Qs-*t_6dt2($^)lUk2>$;M4hsC<XAKO262z6%#Ad;%K
zWYrF_YRA3Cdrd;sVL(BK*4Mb|ZCW<3c)KBuD0sUe-Iw%sh~AC|-Y&t_1u4Ijw=U`J
z7QNjMyxRoVHi4w%o^*i(^$yXy<AHal;Mys8cRmTD%p)=)^OwK3_ZGTO53bUNxmHq@
zDy<T#yM^i=p>$iStS!~Bla--Ytn0<S0RE!u2f@q;DKr*Lt+kS%P|+b&bP6S13kT7C
z3oDbJX3^99qv91$FKd}b(bt&t^@zTn<(UV*-MIc^+gBhC2AL^{bCr_NllFp~RlDeG
ze`L?zRs`{_g_B}cCnSe!x))BS>UKh8>l0VU=bYP}|2HLd>sfgJU1`I*8Sl@sxmpN(
zkPQlwJJzjavvFlD>vq^6Kvv$AEZe<OwtL-4-??0{Ia$7arF{E(9(}tYxcc5(zxUR<
zo4!blm3<Y^mxsabSSjDJUP#|XTy=Z0YR^j5o^>yM`?#8pWOe^ab^m%XeV1?$j1RW0
z1l!jA^c{dO^Lq`y*RWnnUuA0C<@ow6$Q1`Zt04DU&QW^vwN-nN;kq4S>5h3I7St_}
zR;S?a0+VY&xqQRS;*eNSFEs65DcCJIb_)f&Qw0^6aRo;+Oop^NRtq{(UWl+!FH*12
zS@9kcT!#ejA?DK~dV6R@of3DRTG@F{IDJl&2xb1QqPKOq>&Lx6>|OCfCU&>r-ThEU
zgDXITRc(K?H(9k?tlAAxx1_IC^tG<~+Lw87o>lLGY+!ZK!U^>5%DQAlyI9e_+_YM;
zcj4GtN%?z?w;Cbgn=Eb+i*ZZMYH{;YBFS#cx$j<WJt+A4*2=2ho47TRDsPmpy@7fG
ze-V0@jVlDAsTDmy7PwWuKBWy!%>q0UD2I&XdLCC;_n5OV<kA75Bwyv?!Mmj&mSg7Y
zC|Woq_<^08A^yJ({S~q-?o7rPh#u$*BZQ$Zpa7&mC?Kvz0eua@Ciz;P)$;8N4jmcP
zb|z~NiM5APo?4->7E7JFd=i+&g)?o*%I#w1c1X$!y~l;h6AO8UI04r{LCUxNfwxm|
zbqe0jCr7uDOM|Rc;eoeTaP>kGIOVNPdb>n#*8^{l;OY^)JzoST^pGT@f)nI*(hjk1
z$J22F>$ijxNbA8|vTmP<|AKw@q5Gg8#jdHne)3^;_r22Oju%AySHG}u@)K8ks-!km
z+MKHCPE~ZJN+C_%oDA*|gFA2o(tB^+dP{wgkae5*|CM&Fu}xif{9I$lZ##DUNbDq-
zyx+W`Md?;35E@vDRz_(HvO=6dAT0FS&_I*but`lcq$E-`%qLQ5ACOv2Oxo1P_Msm(
zl@F_AH(6ud5;fE4x=s6VfiS8~)AsxS@AV_#PMvmT9iR6-k9*HO=l}TqBO9`z+UsrC
z+H%pA;cVUd2Vob#XFRDa{RpEAeSNK!k814w6kB=u13DhC#vX}J$v>mG_sI7?IsYQ(
z-{jD7Q+}76OXQGjn*2-3{4P1$DEI;Senq}tlf&A1cPNfTiZn6IZ<Fuiobwsv1LIeb
z16p`ZZE0goDlu<t!vfRV$zKY>jn8i04t3wVRohK?wF9aN{}?@AP&JbedbfVnN<Nzi
zhEzNG93mJ_ZJj+mw;Q+=s*|EzSY}eOYc|zQp>l*&5Ba>1CZF?Nt5z#0<in0#^^-3k
zn%i#de(RJPq);VpLfi0E47*B|T7oss=DHsyp9~c|+s%{r1^!f*(bRHd_kDps)nzbY
zy(c3fSPM+sP)l<=)T*<aw%zp~CS5%U!jDajO}{?%x@w{bbW6LBYUZFtxGJWPP90UP
z9HhNEwL-OX&>?WJ>6q<Mog8$D$~M)_-f~?xF_nPuw(8+HuYg?r$n416p$xzeDmcz3
zYU-{ZxOU(M%)qTzxlQP}%{^T`RlO3VEZUsWbOEoYfHGs&VT%;c<7hEhOp4)(eoRyS
z200fffoUvsz}LtpKcSkfL~)7|d5=-36q^iXF`Yc2`Js3MniSR;QGkCM@S|+*3c|x;
zxYamJew`$?>?{EJj{`LjV!FC`s@w@uxX#GQRZ0KQ0D`z0*_!~<-2&`en~sR<0+w?*
zi1uDmafC>U?`^#`5Go?=vAo#pg|D$n!J?(69IFs^o~^n2j^}mKfOl?B8e(M-uX9}j
zqH+>qT@aIVCc(6yaDwTLm>3DpIg#R+a2B-G#vKWweDIZHD8f!uzEz1l<6zv8OaH!v
zIvhoHIKOcn&Z0V;5RCI<G)st=Fl(eSL1YuYVwO|IbEwCDUFqCCh*U$@sxix3yD1vS
zl9;Nw(j>M9gy%wAthp2xj3z43BiAWf@E*B<OmBF{mTMVUB_;9iOO{--x@2N)uIh1r
z%uWQeSbk<E0#>RylFL!}FZs-tX6lGi0<oyIsZd+aHy$9(H_U^dpM1ix%q125<Bb4X
zFy07y`n_5Lo_t>}3*HtHrT3CA)-KGCDr?+T<<p?U7!Bn^uyYX2k2T&g5zPzxURVP=
z%Wb)wu(Rv~LVss29CMBbiv^;`gO?$OI}!Xr@Kq^qUD?%t!XSi==vF%;1Pcb$xATKC
z^8=s)w~LqyyBYrQ1@N~H0_iHY|L`;Yu&4V1Y}#Up+OdOh#E9U}q<F3=k3R<P5Sy@F
zFApNug${xU1UrcJ=|*9PS+}H{zaz6!7;%v60a77l&C%FljJaRuyntZ=+`v@{5!S9?
zUL2*J9E~Sn&Nwy*bv)un=^UC)*lz}UA*UurJ2hjcu!?;40%`ndYdY&0u3E`+b#SY`
z16aPH;Q_Wktf3j^JEC#<{=a)@tfkI~X0%yrU}wpu5?q<yGM(Fa5MKrA2aOtOP)1;0
z2c3$a9hSMdks*2X%;RIKMHk4CV6L1U<-U@}B~_N!rqrszEf_*hr=Ri@0P<xK`xAGK
zJl}))I>D7`ol@NAM@G&>hlXWXJOPn?<WS$<i#5+{Y#^|J^5dva5@G&*NME_rc&0C2
zK7@uGrw3BAbgi?GP>zj7(;W*H5NKitH(fpl@;9(Ci%PyWk!PG?1gU>TiHwbTj?}GD
z<8Wda8rv7OUcWYRaUZpTjbv+23r|6zA>i^*eRv-*7=z%DjS$)<-2j~(#Uq24M0*@%
z(%sV7QS0El7-loV)CZmWM`n`vf!`5ntx^0$$In}m1~w#dlwyh*^9yF2ticif4HbdY
z1D+DI8S=YS#e*RqgL)kIk{QYx0%95F4D3V2&)|45;z;Q`8Q7y4QhckT2{#Y1@+G=U
zxRA8!Md2Lu?FQS1dBib-uRI6FN>F3pJZ>4>k9#H_kB&qO2GUFCutn*)L)y@&V%;+~
zFnE@%R4b0}Y7?%RtM*18$I|?ihJKNpEcL}6E!tq|0Zdt<9|wdax*~r;S^q@Nm*o7<
zJ39H#RO|{>^%wH}m7LYPH=Xxa057BkN|6TR^o_vUT=LTNX|HhQa4uuV79YiG4#q*B
z1akhOz3~%!<2%8dzV!Bew;C2&pMxn_4V^8JbyQ>>H84NQKOX~?Aqb?gFuRBcbQ$82
z6F&sY`3K;!>Xr5Y5Y@V1vsF`vwYZp!O*cy$_okco&cn4g-tqWwu$}ibCwsHzK-yfJ
z4b@D#v8lIs(&p-{J&?8|svgi*q{h288*Z37khS{K)@lHOP1={u6=^f@*6Jo5cbYfC
zJZ*fT`I#%`H%&9I!8+}&FsKTqa!~SHH{b03O~pdX9!?uyur%E2rZf-ELKg4Lp+$dt
z#^3&lx&5}Q5-4ZR$d{3(x60-&-rTad`Pt0oXXhim0BCdDfO}@Ot=NRcKDqse<8Kb6
z8WuxaGNCQ=fvumIx1w;?aTufm%BTU#nXHS(nvAh#(O91`*3b36cPMSFUoh@kHd+>q
z4H;v@qOmPwY)iLy-`bKkwk;SB-ti+FAnp2Y?wR-RNcO45plOe^Oy(6kGojAK(56gi
z6C=B|WC(2z>ZeT^VC#{GfcJotmz$0Jv}hBR&xsks&%<*_b9KM5A`I-gD{jo!+6~Fw
z3&t>Tm+0T0t!}6PDxj?;cmJp_8(c?0AOHW}==*BLBOLyFLP8U7yF%%jCxElICLQjc
zcRlstMzEy*2?i3<{t>60%WvCuR`qm=kGib;>}x*S?%r3n=2n>rei=j*F;IM%Fe5u3
zPKX;^tO#35;<lhb43l~iHed$Qq@xWX%;urIc9qfvqk{_Ndt1*nVg6?MV}@0wEM(?`
zO-5OZ%9oHof;?0n9$~^(l-H7LW#J!rt;nq(Kz55`2hbmTQ5hWD9=&kr;*Bs&;2;TG
zM(y8v8gD#||G}jTN0!2<5Ht3XYaBW}T6uQ0IvkJHrngKISNe<u+W^CWbOZii0kYb7
zrayifP|0-^w}+g4<n+Q(Ofo+DgED#qVFSgHgI%RBB@CFdWDm<j$j?!3=fJrriRf@b
zoF5j&4B3w8aBK{o(O0AR?kHAW=7Qn|!No_SJWqE#LUl;PidCz4I2M1*P`ri|C11v{
zu;a$u#pwtSL%8L_?U_C^btbiQ-c_6I$-1giJ?SO_Wz4vqNcP+=_g*#6np4gjW};=5
zZ%96S+f_b&V(P@qnYk00K<7;<6WBQK+JvH>%G8rEgr4lZ<8)8IIQ8PpE2*}5XJc~j
zZG?|Z9hvD*h2~!R)VX0&y6p>G?V0UK_008O+kc}eQ@!ElEAMUl`Na==Gu!(Xe9ui<
zZ(D5BmMII?T~z9508`4*a$_5>0DdyLet0&NI+gLX{GC+I@0x^bqej+p$Ya#aS~z{Y
zX#$z64>n~fVsGmZL<gcVfH_AMJJA>h@aYCptxS^*_~r}v;GU4_$<t7sU#F^w$^{d3
z$axYU+Cf<}%t(*FOz$z9<x@O`^e&w%PI~|r22i|3i8*GxooX#FN;sDo9?`@T6pz-B
z=-?Rbgz!a=GbEN`q`f1X*Ht3q?ZU<fLT1R&b-aJzG#-n1SO0MUMngGWcGK<Y%*_xP
zGM&eisz*veHl#~~5oXZ^rJ+RnnL!z-)GQK)M=*iGq63{`=d2K{7#cny)1jT=ycADS
zbQf=bWIFLFYdIc(>j`-n;2;p?BDCp|kwJ(JQLQq4<@HJ-{eibfrZrV*<8ri>9l>x6
z4xEE{L>D8D#L;JLgt7TK4`d+d`)k&QpZqTcSYAut%69R1cWFog+SoJwl1`Qkv><;)
zK01Uem0TybS_#@M#=Edv8<dCo0aLw>lC?ggV+lapYgO^8P)`-Ckkdd;BRO=qR{UI_
z)&OiiPwIu5DNUOqEiHFPJ-vm}wTVB!vDDma_im;8(2-bfC#QoPIuWz+TzNhDHjuLs
zjuPUgpgL@PdAew$sdtX_I^<(`1r#fU(KL}1`FHe6bW_U5<og9xQl`(?6BPY4#jH6s
zoKUQII&hjEJ1fh_D1|A-Ocj=>=orP(60C_BF=;qWL0XwKdNc3e->2XQ<nTU^SFzR9
zW5v>~ZLz;4w_=S(<s$wxUTJ)tB?(+Gsrd`BZb^jyD7>Eu$3ufjGJrNK86G->bWmCn
zJC{TgeqRWGA?*Ruwl9fYpNox4qGd@uxg_cz7z`*>W|Rzf1)K*qA$2T?t)GjQhlb+F
z<|XmeLxT-@1)K-$1cbD8dGnsM*s$zqN;|5xeGL$GlRyggOz)rCpS1qL>YF(-Z>>$1
zE!WniMfhG>nbZt|w88R5=u${Ev`c#>(5?N!s|RKesBR9Hi$EobS={qb5SVcWho14M
zR427(K`$O5RAKm+!Di~X)}fl<#~xItB%3Kzpes`d$dgqhAfwtT<Pc@{$*t4fQ{5^5
z_3CTY*w<!EP4}Hhd)O<Tl%$Hgg4~tEYhIQlU%IkoMUY1wHwc6Mp<$i0MHO(UZFZG{
zEBmBfR>_}^5Q8TZIj|xqxYFy5l}R--$5x=!FV(2WoualO8>|AtW42=}usQ*-4C}Mt
zYtXL>@Upepn!3B~y#}dn8R8y*-cwB!DC!#rEuymK>iF!qYUQ9UM<us&5JdBU>SV8r
zyl(d5v*=Yl?DdNB3blg0K2aG~{p<}0uU`$aw^9VcsYA0z)hZ5#kTP?Q5Nk4?IuO@A
zt!kJPs!@H)M3ABxZ~a^>;|2SZ6KZjXneSbFdG_UuJ2JNgI3wy>PKXG%ZzhK6TgSmV
zQ1MenbhDm=4Y^<=2b)AiP;F*!3o$-g+1m!rhstB5c8D_D{Z5X3$(Vnrd=f!Jdn#!B
Q?%5IIXXvg0KK`Qq2YODT!2kdN

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/flex_attention.cpython-312.pyc b/v1/attention/backends/__pycache__/flex_attention.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2292fa47b6635771178d5285a4161f89ec5d813d
GIT binary patch
literal 39878
zcmeIbd30RanIHCQMWJ@=JMgd)I|y*!H*hCGvdL~q=%rM|E07?80{E)HCZU1^^|T^D
zlBYpSlLqDSX|y7zL3P_rIg=5`nOH4pe3YEzB=rc&ReD3k(5PddwsTIZ1<IOC=6Le^
z?tSmo!UDUMi9P-!kHoFJ@5{H|`#*U+P66Mz_3L9ZUlW91kwgDHnq~c<MG)Q;Bw<*P
zOp<xrG;G4JW!yYr8Mc_n&pK|MunpUo-8^m|wzGHz+OK1xaKvm9CY-}A7Q;5~p70EN
zCcMMm3E!}9!awYvC>k!BC>}0m;r8*8iPGWHiL&9ciSps{iHhM0=3g*gIZ-uS#q5sp
z>WP}+8fGsXubrqHu48uRc>P4fa09cu#>I)o;YMb6k2g&;4>vQrXS`*ib+~n+ZMcoO
zz2loE+K1asf>{XFg*x6f@pcb)!fn6yg5DkJ-%yd{ll<=$y^DUKZ@7EIn8lLsz2bMx
zTD%^q1UbIMU74m-n%{raDwVx%9qyCL^M^|nq0LfdX!EFDszSVevv6FHs$UnRnoy}x
zy8)?ogVc2!_}3%X2K;SQE2ku)v@KF2#<@{y`a{cx^=sz!lUnfG`ivaiQrqkH;jPl9
z4QkZBfq%ya{+;>#M;%fZYQ8OGVLjE2p6by@=Ur_;hPSh@UWE09T0`5b;BWNh4i>f<
zVf~>p!*{1N5ZZ;_+8x>x+8o+7Qy>VVW=e<g+k*1;-Zpn^ooPN4jfTR}vB|JF9=sir
z#aG9oSH)xFp<6~k??+ULp$?N;C<UXzk?~+80*B)WSzZXr9d@<w@c87&^|Qgqb+sfg
zfuF#{q!fsZT?q%H({e~H4MavJ<xq}qVK6MQ*b%j8L=FX`p}=Lzhxw`AQB)!j)T`HF
zRsBYl4hKiBhr*KTF?>!=OpRwaFWsIBsbyo4z>Vo3S~nAt0@rT_MuH<(L#Vp*h4Jx;
zBa`9Lu`A>{Lf(Uv1TNQDcq|$ipS*G<B*R&86Hx=m=yEVRay2j(z8RFqkR^hwBhuJS
zih|JSq>RuIN*fPM%7Jj`Rirknl}7!}hN400y~ERE<5EagD~?P~OiYHK3P*nFMqQi=
zja-`X$suWaB-Ar`GbCRP1tsKLI66H(enk#WT~)2<Y1CV;#2BdslcS@NP&A_2<q$eP
zJfdwIG=KsofIyqW`X9r1Q-}%I@SFS1nqsth3e^ag1j$@2%wRK~HAl5=MG&r8bJGYy
zMyNecXrb;GGwT~!%oNo&Amqrldp!>Seb1s#WTeqzUKBd4LmyF-KKdJc=m)zLx;Zuy
zQf*R{M$axcAW*fj(NK%z&=e*W#w;3=$3wxJA=Ms~gW)S7)iNFmt2P8|8R)Rc)kwrs
z+D9g*!_i2D8Y_z8U!CuZPE7SpjZO7LgYuP7wCC3Jj$J#i?+Epck6rGYx*feb8SbMQ
z(s#4JFQ`w|zRP@iM*6a+aPQP@wK|{;5vEK)nj8s?NtivMaAZ=J+fiyi{vty#=7glD
z^o>^*UYR=v%i@K_=jLBr+OfQ4`S8+S#j|Pd*khMJ;c8M`O^+R(H{1*EZ(Up}|K^J;
z<$pB&gD-sl3y&N}K6qi>Vs_h8g4t$YM~;GOx}`cMrpKdWQ{(6ZX>4M|7*zz*$g%mc
zA6<<3ftiqRhQ!z=5;M&pKFtkoo3+F&lIc2{Ae&>tMImN}3x^6^=CBtz8KX@#;a|)=
z1Iw)WiZE-9+6>>kaV0Y=%glczV|EM*FZUu3Tg(<Sv(igr)@wA=b3Vxwvs^J|pGo*e
z?MCq=Q&zmqRv~K4-+VJQCd90gRWiM2dskZ-n5Xt3nHntDkx>srb&O1gBT?Ep%rfo5
zs_kZQd>V6BwMDK5v0GWg7!cLQC#XGi3zI@pO~+Kr6qdYQ?xdW$$mpijPHAj(G$e<@
znEejK2#k+KqN-^uLZgVOi%;G}5q%Vhxu%c1ybHec7kL{7W?6CdQt+)Scdsmu+#O%}
ztWv*CDc=5|T`4*|cPd#>w0PmQFC~5cdB<8&>5}R1S1vR!-FWNf-J2_xyRo?=Nng?2
zi4Q%+i~VnIzq5Vm(4E~&k>v|_UtKZ(OHbFlDd}=ATE4b3=`MZa+`_q~3(L->b3b!;
zuNiLB(y^bpn^T2?xBH1(aC_d^wy<rnXz|4I?)w)Wxpu^@JLC@3as+?I=htlOGi;iM
z1VDbmu=#mxTf>%+HDr^_dl3a^t=C9nSm3LtH~d)K;tZ!|y<!=5hFl>x($Ef(^U)a6
zAIh^(d6M;tY1qr+`!d38tS)}Z9x56&O9ii6jT5~%R3bS5wb?^foXCY4A*CUTUnV&z
zAEa_+gq4T<g@RNmxkD9_2Y+7t`S9mwIaR`ja#%XIRQ$TlD6LA%vqa0YG$YSy7G_0B
zfa{DDHK?B*t*_8hlxKw1-md7VQcI6zf(hE0d`T@0j*Nt+qJhcj=+tyHaCw?0s_KtS
zPfbnAQJlnVvyQ0N;B<6StxEgrC$ttpu0iv&h8}LdL(xKeQ@CyFFb}ETV`q+jHgM?D
zrK3ZaPM#aOC&-5p%H|DU0S;{3fpBmlG*g$a!o7O%MI?*RHZ&)!`5IUTY9TiDaDWb%
zk<1N@wn?^CQc=J{2m=u&OtZi!ux*<29g*<Ob2N^cZ(_6Tu*@9Ds+y>EN<_Ro32;mb
zjo^@%MZilURy^5zCd1>mMdQfnW!nwF0K$&|DtYNp>NSFyw^}fG^vJovqtB`CqeILR
zI5%|Wa~&4dGBO^K2a%G+(@#I%d&PQH2o&R8F|#SFvf9A+J{|Eh$THFlV@~*uT`25d
z^HnaroTwX6>IUwgO>7-fwhqN>&&7S`;*N8?zl*YRCZH~B0?^sd`kj{cn?e*O|1Jvm
zOn^}3({SdFzncbl3|R%x%$dfl67;%fMtKE!L>w^Ygb#gU+#&L+Im6Qv96pVxP7bF=
z09dMS^2gLA&@7@B(hneC1o#-Z$tQCl5|w*Lj57|Ilbtn%_9L1?I7cvbVwO=GCWLwD
zBX)k!{OYjD=kOz+C*uMc&yitF*Nn}+nA%}1BX+KAFj!AVyo^jEWiaN1lwT++UfjJj
zv$FR=Ror(Z?l{8xpf;=Xa$wp|J5usl6oRp$*^xU|KC0Jc4kNSSYRM`wbGR~MjZ@Y2
z5$lROx>#+q>Vp`94}a@c7_@cVGY=hOr2~w#0=NUreEn7WjZnwyr)Sx8Bm}e}G7^+R
zX<THcGjFZ(#+^cL#;#JzD@M~;|BNY3yThBp6>JBrgLvIc@=16{D3W%bS5gn9_e^8D
zMP_>PR%)Z@w00r{DA8_LG+)SSMoVZv{5tAXM}X~_fq?1^5Z*RD9)jH+AdG69cGEyW
zrn618UY?vBSABs%FdUwY1__mnAgqzX3P#5#gVFx&s^hY5<6c_^<b8-B(`cwxf?Z^h
z+y}^@6`{HTEJepgCPIL*CDnom@)7cPG5nKz%csc4O53wcFtcg_NDuIT8t|=5G!pr9
zWYB_^KTifNC)QB5x5<0RNe1N;nMN;vMMyTb#;ui0EvwenH2~J01y2$`-UToHz?CYn
zZnMX&rHfaWqRU6$IsNu&rD3yD-oGwbZT6H?*gt4`a3XH4Te`JkT^Ux|cPb6LR;`0;
zwxX2TWD^%hel6f<-6GhFnMcYl*b!v4oj0v)Ng<Q-ru$oe&3-A87L;;p@f(*~;tc~z
z^%lye(a5HevMEL^vF&45fo;%~EUidc$g&2DjVy>!QJpGaR)+xJLS}Ue)paSB1gV|A
z`N-mt`CAJOzxGh5mOqPFtks}<=~BGupi*~;YS3-epqtkKZ7jRrLP2FlP?^?7ldX8A
zbY<jT6$KYlaM8zzU(82@#zA%QjWrs)3=G8)3Ec<)Q;V>zPjyEzy~edIc!Xw-{u!9<
zUt<V2!fao{x}LQHQ^<>7%-Yi!NWOzQX2s47oF;0NdyO`noG)g7&#YqsvjtI?9!xvC
zj>XP8GD>pmG19-lWbD9xX&1r=%mV+uV&*_y%)wm}fHeZku2Y)|GxEy=^2Q2*$=h^n
zde-?#u`|Md$J%9-;))eqD`E}EGH}W{ua#tZF-JzPmOdS7&<tF9D~LoIE71DFHp&40
zSOMW((^mljIq66|!YE1+08JvOHX%6@5+{OFQ)A&P;;1}1Ax>Sr9T^)5j*D!{i6A`j
zy-SQv!f}NKjR7Yc2}OFHEXPY%L*k@7c4aKArwXu%O8G{3rg}n_XN0mciZKe<&2u}W
zm4P_t^{TX=%aeV_ZdUqVeCr#3@vXVP>;H>dU0xHP1GOs@iHe(dGXUfn#$SBvH6ztC
zqU8i-rqcWBFp&o%C~&hV_KV_xC~gtOt)jS16t|1w4&;!TDkno0_^FI%=W<gN^Zw6D
zWellaWmFWkM5R$n)EHGq8&K(tRNwl$9^ARV_|}p>)yFWSr^6$RGR%pyn9f)LIcrIq
z%tmuDoAtqJKbgJk{{MNLUg-L)_|JYG>w~FRn5Hb|E~YZ7j(N-{G$!|dp7Z$RsHhXZ
zj7|MA+eB#7ru~`bbOhjRdZT9H-E7B-Ud>zvoTko~!RVNby{~-&+=7YeiH_{du}GxQ
zE$!4m6@odLi^vtQGCPk#64l}|aQX1<>|A&i#-b6CQ3{bMtE?P~fP@P^%{Y#(kl53&
zmvi>~x#un&8oIPwJRX!U2d{+07l^_ro|h-1A-0gUT^P&!Khb|yARU{mPqovMQ@hdl
z+ahS9(IDD&MXNAtXoOli9R@ZfiBpr2F@{mFoZ2skZcl;+LSq&ji2@N30U}Nl5mW@6
zcqMwZqgOmODT|?7LE!tLZgGq{--tsr6P8gp6p|u1JG7~Ac{<AS<fr-7U_^{e1(D|{
zvf8QbaCDetwBp6hFN^!c7yCDNiv!!b#U0(^u3fvj#r}aUTf4=bJ9l=Ay}i9Jv%)Cl
zv%XjIe4i>|cCYChcL;z^c8E9v7-%Gj4#mWa;LygrVNMQM^!JJwqT6ghv_*k&7(?gl
zV2R#MG+<-lkuiySoK<mvr4@l6gZUu`#7SUc42<IQ6AVJ|0I6>$jJd7BR4n<HUhxdr
zexPjWyc3i#0ji+}iqRZFf#8i`0u#Lpl*I^JfM^S^mDX$kT5{+nIGHGHEYdB$8WO3!
zItIZ=XMFgGHbYB}*pwn@l-g8d^+9@hEQI7hI;Ld;6&ab0cLz%@${~&H4#-l*t|3oS
zl|quX3J-yTz`K=(oR`R^)o$?;<MN1;qaq{Bh%ZhAZw2Jg4HQSVG<hj|+F(c+&^oTc
zi@e$SLCaq8Y<g8?&7qtbk!OYV8u9f`%c^qrIs<S(%M6TDbO?h3d&TEz!A2*IY^VdI
z5Jnf9WJtU^`6`-;Jx;4Xbsk^C7*|@4wAwKf^u?O44(~)7w%y`I8a(tME13nbZE+IZ
z;D}ZO#=zE_kXs)<yD<LPLD1osQ6O^57~jYSmB_?B(JzFFW@M1NQi3;wW8;Lw^4a+u
zW5#C8i$kKe3Fey&nMJ)UzIqj09^PJ>oqYeIuGPyV=8iTuUc^{{q1c@cV_o#JzR&Wb
zON(rblirOuve>9buLh$=4t%(}f%o8~q3x7!%zShhXAAr+5jY!Tpx!gFAI|*haLJqX
z08S3F65AT&p2_ePnXo{)8HQ?OO$4^DZ6c}}Yyo1<Zr|GBmWh5Q-yq{W88W4C=qpF{
zX0II1#VyIxHEMBseFZSj0+=D-os+~u5gUF@^ng<y%D9)-Q{W&oG%!N=Fm=8DaSC}&
zp5h?Fz*epN8j=u~GxC4K0A=;OSrEGtpcvu5wRY~rd^qW;On4d;Ps7}?533vA>b%>T
zEG$~w3%c`i(|bqXKXvcagPTt*<{A*4DxQE^Q@?a|#kpFwC2lSMkaK<)Us*Z!$g$=A
z;6H1;e_V0wO*(78ePP+U^clt3`mx1S*p{*gwnC(>s(;IM*R?#j(slpFYUQrDwd`?i
z<6Ecio=!U4-w3@izA(PD|9;ye@2&?eKQ=wsq<9a1a0oo)Iuu=%atOA{gjH0mV$$J^
zyXz8eQE`jkEqkZt?V440PrPpswFC*wAv89ls^2y(^)Fc!YhBV+AGg+X8V_+o!Eo=!
z4+Jf)gdr0m1<==O0dXnGVmd4T9zx~UVHna2L~|kXs0DxPmtZn_xpl;R%X}TIIoTI8
z(Ql+8N`zAONd~X?HIqrm?+<EwURn@wwr43UlU}doOMGpeHbY$JYk7FhItvY<d1yqE
zi6}QSpxitwe70cLj&Os5q!o{!m_1ft)WCsS=AqJnCPc(;_T^)E#tLGEX&O^LicD51
z&Wzmh&}R@A;&wF4N6lK!G*b9xT`||S3U1FdC2PzPb4s@N?C)yyG%(H_G0XKGXrB{l
zsEcwwN~5=%IQ_)_opoo_3^O42i@C262R`SE8dS1tG$C`oceObrS>H4I8Lfk)!>lKx
zG%+U`oM?enui>mWBW_ckxNgbuUZEbF(I$Pfe&pbb`88Uf7j{qDtx>tWdFMplnWncS
z-#iBWEKQLtiWPx&=A8a9n$C`e9`ST21ez8dlN{5T92uDg6h@G?e*A_f!#y)0c~V19
zUcEXtPVf-mPx&STon-JSIT9mMPLMDQjYfL_Szo7|Cjp*KhsOwbV9?np5E@=0vLO5h
zjL*+&+rsDhdD8=;6NxoN#CFOhgp=+%>dEBAI(Q1IaVNv)7?9N|0+|2&t&H?HrpJ&!
z%EuuW1PX;sheN~$enk>O;)?+6&vHPlN4$7_44sj&U-4u8Gm|n}0?D}}=bxto^7#4Z
zyMfn<=b2m(0N%+dz;@@_5C8ZFLmgst3`k}lcb@GKCqfgG@@)-jJj(GE4mjQt_r16U
zs6@AjI=~!w8CBT_pNtCZ+br(eFKW>Sx^XtsAFnSvm1pXVz5@n~{v018+Ku=k#XS46
zOza;fodV_;;4_GwL1c`?%y5L$_IwFGjvz#nh?mk)43RnNr=zkASiB$MYQY5L(U`;v
z4%W~(JL=T}bS(+9uydH5`TU57ILj26*YY%_^yvpZFEF6muLLn{vT7fho`_6O$hWC(
zHz_KUbAxEh^^jVC=|;1yqnL}re1#%WP1EOvYQIHC`-EybteS?%H98)Qa+ts}Cf!1I
zgtY@gx}{oa;;0S@Q!M}_Q+4qP#ZstNdGgf=01|m5Ffus~&L9trkdTOe_NRY26j09R
zG8nzYwhBy>L>Gh|<hPOL7x;@TVsQZgXcs)b#Z8ag^-C8Xy6Yc%E8|r=SG~L9j$JsV
zJq=kNcEROcG`(rRV_)cou#Lz2#^)A3w-{MEyh_kQ(pB`v-i5ti-@o+2TQA*xX{AZ2
z>rq@iD>vVd-HSaqtn?k2yD@ht=_w&8vZX^yH&#83bH~<@%V!rp3;8jp?~U$-?!_C+
z<&T{031^?;?7MHe-@oeIHh1KST_`Gl(|N~9>6ZKNPA~0VzHz_&k$>mh$u+AdVXec-
zz7$+8Un#l&0=Qj|tb4)a@suoHSKN)uBP*Xv^z2i5_B{xGP`=u8LTNjpxK7RuB3FOe
z8?lAh(%@Ui?;ii|(RWV0eQLF~55hja9S<56-=4V>kBckb?7P#q+_ti5wRm9e^oM2D
zZ@zrz<>jsSTOO6|`0~));Cy>>VCRF<2e%&7D+4FyPA^&+FYdETUsTF_<NjX7+K0M$
zs}dej@rcXi@6^6syXxspc(yB^?f2yeTUI>>Snti9Wl)J~x~!V6sx|_hZ-EPZlYX=K
zOE{}J>_JB@_)Fl@lWbcSr`9Te2Z8c`MaFl@_(w1zbh^<@;d2BM0n-t%uyhGo`5goo
zVO~V&M8f2-3+|%DV+#l3)@oL@5qKM)4hyVbWe`wW@F@hbC&|PFjcl-S@h7q|!K4iY
zp}<u#Qg9)q`~p)}$<E?!6k71iPzMX8`V|_bIX6xrxkyYIvE82{j^|Uv@fxN244dDu
z6&bc-X4|NZCC>~keP(DGg-Yeaju4GVh2|=hTqIm(w6~J^yN2B%kKtFv^7Rh;LVl#I
z)?yUpA5SAy4U1PhT+C)g9dp$Wm$1?sG*>BeiCT_j8D%zVe&rBr)5oHT`897)Zp#M#
ztsD5ag(~ug{4Tzu76K3<IKK&k?3Gem2r!e>4ttem?|{8pvv<N?0}*>+xE4NI{~~@j
z{OjQ3g1ra!dd=PodxO-6_~LC>$7Z!GORho}dckSM7PDGJh$W|F02L=fgz6!z6o8F<
zo7mT?k6Upv$Rt@lqPi$tBT;bNmatriJd969b<9z9fqtcno<KgHiHipSUX703qFjg6
z(vfN1ZIl&Jy;>A(W5haFy%EUYA&KrT=Hvw~o5btO+3U4bDIA57G0-ijc8sn{nSidU
zI;fRItdeJ`sva(qrU^64UxXi%KvVq`Z!AoLe_Cf~vQiAyE;Q5tRKJc~>zkokpov3Y
zQr!|@v=L1Z=p#Stn;RN}&P1y`Xib_dq?Sb?H5&m%Y69qFx(IIsR7^mkfmeaRPrj;p
zHBuGEVDkF(6x*gDAFEM0sfV!fbE!kxxAl*38Twm?HV*CnfShUe%|apo*q0tF<Ckzd
z;D#H85_W0Nk9k7M0NiYrdjT-1{J8@wjoAs?nstB&&ZMko3xPT0mCTP>DYxrXBPXN>
zcx)GB0-S_D#atYVVwf;t*f}3h&2b;#B0@fVR*Qp_v)-6H=8ZW<EhND<^KYPG0ls?%
zElH!J5baVMeSoBlw898aOxBT2Wrh%3zo|jTbbt;W2JIRH3F>Yb;|KMMz-7qlOS?sB
z(x4fFZcl5BKyp4iSQIF1gdztx$WB>3MU5j*2ImrL(~e?*6A%?mpP>veNIUsF=`iSL
zT=de$=~J{i_>%s|WP1Rk!>3v!q481q&&cPyWc&*l1aM$NszsR-kX2hP&h+B?0&0<7
z8{RSkRlK?vuaW8;AG@ik(5S^)S3&4j?<&JDqx)2c-dxp10t({+4h4DiteG=H#02W4
zjE_S!wE&RWAP0;pr^%5s19^AO-e;vbNYK##g5m%T)e1!oOVf(Kb>0TZsIGe@`u>;h
zeMza^A9qwG4QCyk)yY~hQM*;C-FpA|_};VeZD*C*A&OPixpL|Kz`cM{wKsm?f>L#1
z-ixftH?1@(WnJ^mWL?*a^!~)Xi3dlO-or}WVaf`AH<Y@~WG$(Sivvo@Kz!SArR4a$
z18FO2m!w4ffKoqjf16UjODW$q?@CrSFH4EGol4uz2W3jz0j2W5yl2f<u~fI>jr+F8
z9osoHhqf6X=m~sRiNo?$>?;d-SNoj#l<*o<8#A<JGWRAeJIVYB;g(Mbw|+vn?b+d@
z&Us<fB-vkgLx0GG)n5>-#g?Os;1E)-Z}VxX0^%TKO^}S`ekqIbnkj#PgYYu=2@>bu
zKrk_#A;amf0?!-|WzgDb&T<x)I0dGtl)-CaO9>e<QmwI`DS^h<(s?gjV2F_%M7}}k
z=OZWy>CKD>X-uT_hI5iA4H3rVl|rLIaBo5JkidYXeqjeGBbPAMEy|9(c~;u)nC69i
zhNvQpD?Jt-og^+7?;Dn;Nn5l{#;(e#9K@yqCoY>i^VE2Nf5LhlL=j-WPj@eCDHzT{
zkZmJCaWh#fP#q*r8n(}L-AP#edgyi^Bd}=v4oFf_@6wlxF430w^w~?AH^eDeUxM)m
zCajWzYniJEzVyKt(=GQSJWZDvdkH5vN&kJaoFDQs^nKDfGU;qc=Dn+}K2U)PCcp<Q
z@J0MUN_!PQ@_$c8BN?xf@ux649C;f{3txUn#{W#lPhl`2X5K&I9N%HRqa<!-po}wz
zvX+bvjWQ*M9PF}pFWb>0`+Kvqn4&HAB1-#9?6F><s4U^{SN#3=TYk{}{q7HJAAD)m
z|Cx_Li`YK@*~QuA@Dm7&R=v6B&Yq;dGU+c(_*=0fF9%nOR?a@yzv@4g^p~v{SWCT-
zUG;d`J_icF(F>}bvpvBjq6W(Ul3Gb)^?3~^E+GNsoSM&ceCkGCrp8EGV=4uIDUlcA
zzD;q*CYUL!x6u38$2?OO*gw?lHrPRpK*RRl*_$dLmqVy;COS&0kX%l|Tk^(B3ore~
z1y@QG{Pl51-7|La{|#06su?N?#_Y@w;k~Pce=S><G!N{BJ>A&p^GT#imQM(`enPnI
z+2PpJ&DneU%r7%HbWIWEcih-7f}PLVuX_5+fYAxshuk=Ls%b$0X)+WEZ;FcYbeNHL
zjh*B43lL_2#%?#?2%nNt3-Z0|a*%dBfP&bPjI^APm%E2=yeknA=jmOERzBO6h~>a`
zB`e1X7Jw5lcpLnQEb5RgcL!h@{~3}q-2hthe7&;;GIL_%`JdHY#<sB0TK@(u52_`t
zb+=I3wA`wcw66?3*sgRRR!R=X-G}*-wKDBfnE|bhh%YB#U?CfeR%Vr@mW$#+zBN@d
zWsS_?GwL(5`FCx>YgALhrcl!-exZ8n{lUc66Ux>Tt5qifv{~(iM@+^_CWo<<$&s;^
znbRSFY<T9*nN%TjrdKmLQ~pm}&cBb^e3dQe4Zt#2TICr>0b<h!K<)2((K>WM3>(aU
z?79>@djpXi&kiS`5nGHIx{m-G(a(99rBELRIJsaZ_SDQTGPfTMx5w5%xc%?A3k^Xc
z4*LRFKm@Pk$x38W7ZB6ST5e3Nh-6ia{X~}|8q*k7lwDSmK7O?EEs4p@aQ(eLO{Xut
z^~~(ZCRcE_4FE1E^fUB0r<%r2nQv>!B45)n!nUg+SZKRSA5t5EO@#96vwFdrPoI%U
z3fdNjZGyH8)e^iMk$(akV4?5eCx;l$Asib5(%YR{k=^L@2J+m-8^{Jp(tF?r5teC-
zX-4_9#jwMF*PUHU&o94l_m$NWV3&zLFikRdMTVz8z5N?N>3@N|{s4#me|(_SEG&S)
z1JctoK~QTx5VWH(cQ6>Jod^1q{}tL3q1Mp=;hW1mlTQ9E1|%B*{YNwoqy+dW0Z=wn
z902{ff76O-rGI7O!7Ho&GkHKy8=HXg*O5Di!s#57zXv1hFk>yH!|e0=VOGNw<+2Ed
z>B-ptJGcG6q&EIj6!3pBAlr?*8tN5D!noQV7uUw?URW*uOx*pMl+}`XtTBh!`i}c;
zcgn&X+jjrprSHF_IZmJdU-$lxdw;`1Qch0>WDC1-9KxP)8j>pw*^)~?3;(?fu2j9y
z)b>uzcWUOp7<ZhE51fSgG?Ysl2zA!_eHa_*SII?ycqvxSr%S`kn!<j>p!J{grDGsG
z4<!8MTKMO|$&7U74K%G7EkdT5h6@yE4#-I|{+x`Tknu}0=-AOF2T7Lk%WL>rpyps5
zaBzp|5$oYIO&d=MJ<cD~93VABOaXBA{BP{}+MZ-ZO`@Vtspwm+=wCRoMy~Bj#rD;T
zo%1JHBz>NAuC;Y0+Kwr0$5z`;#NEx0E5zl>c-P_8iX-zUlD>+0-_zqn>`69GJ5e%$
zFJHB6NLMo5Hl;xr9KJNhIiG$2e9fF62>O}@Aciqs`HpYkD9;YJenPnI6T<DE5MJ=?
z@KN`?89<0-)FL?y+EwAqzs>|SGI$G+bJlJ#N)w$vJr(O!+}FctKH%)gn?S5KaswE_
z=~jl^WlwanM<eGLzy=^4h-h+xYXs<0w-_0lfSjpJL?e=~r7cXKeB!H2I)$o7UPgs8
zNH9aVdW5Qw_k5_qWXMujcfo@}5#NC24`^Z)<|V~Ij0<8=+D5?0E+D!<8B+7fe}PcU
zh7-=IslY?PEoOPo^sY8_qF@R0FD=yPGH$;DWN4wgshkD@`Ua^1k9KH>VIz_<QjBV2
zD#(yZ{nzA`1EAzP6aS3j5dx%oX~fc;r3m!}_67FM>8Iq6;W;z3@wSjLk<wYEftI|%
z4`~Y_@)8}D(8||nHAx_HM^_F&HnXTWlT-r?Pbby<++Uw8t%3|@aJlZj_kY+1;mo4q
zCw8H@VsZMLwTqs0mz`)fcAaKplm9yulNSrLax9SA$FM;8-@(R28*qARxL_5{y}V7B
z>H8hK<X=#mzlI|Iis7u-H}@~>kGmR^B^9WD4q}+Bs(Y*cZara$B{&dEDj7k?0=sb_
z!j5!Y@FZ10E=JKJ!cQT&oI2shMJ~5S`1!2|u2iSsZ;d-zp5AKd&|q8bd6*j=i8!{*
zh?ny*_8^WXFykQZD7U2*Zlw(bQvZP<ZNN-Ki1i=Z^o{y8y0XdGaMQ)YHxF(l*)opJ
zykeyJ>#qwf>PpGD9Lx|lWsF3Bx@6rZ*&$4+?ErLDR9=x&%e6ehrIMWpDyT`GT&X7|
zLnxH;#bs3Ro3%tM^pa5)Wsvjfpab&FBQ}~A%*-o3Y6y*96LYeKQy&YkhaoycVnWxN
zpN<9LPp2O9Z&3y*v$s5*JAB)o_JwdRggRJnTKTVJlPHHgJqzEbGa&I^;adCC0h0R<
zA+8+l(nBPV-Zt4Ld1H2o3ExC}^zduFx-I=H`NzQ4{;uiwiG5TQ{5dAeAfpR%RxUrp
zaQ5LMh-t2sN=F;`y<sUROH92flYE%VOX3$s(Ba85;0LkJ0K)mmiIC7mnT~)P<J5Qe
z!=x;D76)iA@qkE1fTf8*FJlbKFQ5=iOyd`_oKVt$pvA}-*Fl2DRVLl>N+=wX!7~}j
zz2;B^^GTirIWw!mU<>iKPeC$LJINu)Iy%XCGim)I@U@Pi7nn8-=NK`ei*9i=gxd;r
zRU5{=V%63(@K_VkqlOTQ(OfjUow1i#29T3w4bz$of=O6c)nT1~l|&rVDm#%hPaOQS
z<MQP6ltyXgq99;P0Z<vaIvpml*-<f5q{FBIRKkoVU7;+x!6K6&g$jjyMzqltzxY6D
zBE-33mqvD5d$o%IL}MhighZ;z$XU|nnZ|NUbMMYUhM@;yqGJ<Wv5iSW)A&Q6IViF!
z<~9cK7|8({YBxr03|&;6eJGwBgfO!v_yXm{lQeBGsYXD&X4ED=kcZBkF$Qx|HnL;m
zZe)e)4oUbLw;f6(=}Ya?I*=6O;GUemf*A{ei<@H-=}xj4V`Qe)nN;qW(i_pa(7?#_
zWg<W^)*gv$YjeS%u4mA<GS>}p|4@T5*-+uknBYwCcxFcyTp)7!a?<i6F&#{QzC;<R
zUmF{yy4OC_0%2-!Q?cOaE*i2^TlJ;ME?*McXS&dx=W*>L>I`PV$aN7cO2ERnJZl`V
zH#P#?{yEK+6?-*>C3E_MJ+9hhlD~o-N?w40E18Bm3RD-mTa$@`oEOR@c_-c{s*~g}
zxIBwmOsY<_U1Ws&bU!_k^YEE-M@|PWo*X_Z{|aUNm2;qXSMTOt+-kY`nCjP*)gY3=
z3*c7*Rmwl2I-Muu>tsxk!5D4?p3DD)j9p}WK*sNrv6+mw$sn<6ex1~9vNe*?3IjLn
zK=PW7MftxagQ_FbaV!(Uj>}lHcE64S4i}dYN1YVVSOo*DH&rKqWhp=*xYspphmVBy
zCZ{OV|C2H;;;9(MqTRhjpuV>Ca-_SG-v*@>z@qZ4ai%wG`WTGRjpEb2p^^7t0I2K~
z8k!UJo0a;__XmG)?)&GIdR%c;14X6f#)qzE5NL2SPf2OAwDQe!ch1F2T2g|km7Iyv
zHl?&JUa|=u?Tsm$rKoA$Vk-d{ZS#1+N-eKWl(i~ltx3SFXBN)HtB?HQ;BslAv0rKI
zzrXbd2flw`we|>n<L)CLTg>Ioc_#qVy6&XAoMH_qjROx%fYa-o5M2Q=psqJjyG^Ox
zmLz4XX2spSd`NM(t+XUM_bB-9-t*u&(#|qs$NLAB+Cij!T-KHJ)F(X6il=$i)4I~~
ze&4-5WL)n2H%|9L(>I=f<Hdy+zuuR!356xl*Q#z=zHzr9QQ4zZ_S|oZSN5z{Zc9||
zR4RA=Y1t2J{-kEL@+ibvNWx}7sU0A`%xPuo>3GeVWL@XVZl!K}5;+Vj)ti$|ZOMk_
zWKBb&rdz4$UXc>L2bJD~@#;g#%G$R)cRe5b9IU!e$_2D$?<3dd<knr#C5vM)-2IPz
zl?mS_h5ql2qk%9Td!GiqotPsQ{H_0c7!35rsOEk&lj)=TZ1Vx(vK#(+XdYn~{PTd&
z0CEiq6hL>}jhjCn1AwW9IbS|4E#%<Mi3TTp{ZIRjnt>2&h%f*o^AH&7blI)E4g)0K
z56S*LGT8E^=Bw3DK^u^~nwWx`j>I<&mca*<=tnSg0x2zhCI(OPqtww@kbE)v*_~?{
zYjLJ6|02wd*9xFK5=K_IZ?vQ$QPQH6w5*o2%{!9ao8LeEz0-@OiK6z0MePqRCH7rZ
z_FbH}KlXLt+E6Sc{y*VvQrt~RcQH%etduk-N;;L2PRy%BWrtGPv9dMMwNL5V7q8g=
z#OLrkQ-Y(=`SjeO=CHX_jv8%*wn?UGAyRM(w;$`Xh#^);k^4!O>i~!I#LY9azWj8K
zdFEN3Sb0#l+*qH4$i1trkeCoKh$;E!8GK30CFdig3TcgbjaUYPm5!?S7Ge@5l6{Ct
zl%$+5Bc`ze5Ys@c($VE6_={<`Zj;O5->kdRzZp3j?YK>AYEwFnZp$ARcT69fDFug6
zq&p)+6C9wr9g1pqY?jLRk%9buGKj!0|2Jg(5gCLUaTYo|j@e2)Pk!gfU`zB@WcxqJ
z_%Rv(oD8;X|C((7j0^#Tg?spZ3VVdcO<R1P07+-lb=J6_JTTLof8}LG8o;ncXqUvY
z^OYog4T`T}d7I*Ek2?;=I}fhH^tH2)R>jx4QuNT*8Fw6xcOPDb>FZ=6?G)VyX~+}t
zffK7ReVdtolj3VaoTuXF@&B*_!bORJW6Hp>)r#Zu)^E6z)%A($ex<tq{-qxTz8_Gk
z2jS~m(--q<Wf$C@WNSyF^@!4XWVQ9^y!DZzY0c$JxN0A|YL`oiXOXOLO4RRB>i4YH
z@0%a|d*{~3y+x_tvRc25+-&)GG|EBh)yrgzkRg!~B7=6M3@*{1kdqA+8wUb>I8lt&
z4Aa$N;#@K<TMlrs;roD`KO%z-=}*WuNyaJ}X^z7$$;l=G8-F(7G}f}2jKdV#K?coK
z`JQf6ATW}G@fBgs?f<<q$%^V#D<o6PSFPnq2sylT=cQF^W3s4p)moZ_%o3EiDID5c
zwRdV)p?(d0s_r}8tJeCpqOw(MnU)@!=G}L@S4x%Yo>glPD1{^~vAk6&-Lz`ml;Z>_
zQiZH)lKzt4JC|%~#np&OZ_)3aO+uf%_AWwNlbr6hYHdhX*1hGv>t40C5C8+s@6yE)
z)B=v;5?m<VylL*#V&T%D;uoo$p8mO$aUX<d6<_D7wLjUt2MOZk9jn$o6!rN0^CW|X
z=pGims&4MgB5r1^OIB9H)=Ukps+l{xxP@xBYai6q<28NvTa=pZtJZzE$#HII@yJrk
zol~e{$|~A+tnu2VY_OwBI!%yV0D~H+HK{^!Iq53IX{M_7JX5aQ_Ws^`d*i+xO5x6R
z7sVJf)!XXhtvlBR{H6|?is9-$urA;?)n0EqWs3J4q_9(_UmrAiY?Z0{CR=N~>%a#s
zO4qS<0gluO({9_om5y}*KdD<Lm(95h2Y%M8{WdN#%;o{jTI189kaZbeBsZ+<fk~zi
z_%U<=Hj#KFOUN!+Lj`$Z2`(gJd)+-;h|8qixaQd@6+j!w5pqj~ArJIwoUhx4y|B9>
zo`LJ9hkf(HEz__ckcWre+saTMu0s;R-N+Cgr^h4MjiJz`WN#*L42uCNS$qUqJr?|}
z(-F+15#Zq80@Nb@9+n-y2p3!gEBA+TxFsL3hJyxq@DDNa9H)puWw8%2@*Jgzp_Rfw
zFT<{<0{zaFw(B+=D0xcDIA)Dd#LSncPtPg+`-yoPwcj95LjQ8Uj3X|6c$==3=R|`O
z{a~~c{hx7!M~wqKE$PHA+!q4r!`mi9-YAS0c#zU)Tg)aGqptZ&Gl1ONjJh4jaN`J;
zpP)|i4`F;X2cx41ysBxaGSI!W`~+0p43{Tm0$}oV&%F%M<q&Rp<{oZ7JvCPa@h1ou
zH^gSN3!7c!$?k3r+)({`EFkXuK4*5jGY`IgQ}s}|apkUBKvw8Lb7b5~+c-m+vyTN0
zS(aHi-XjuZI~fFgt7XQe*^vp<UPJWN!T>HmhRAjx5TUb&W5jd(WN;$!Ol#iL|1iHe
zxmWL^V^|%L{~Z~Cd-TLB6nYm56h|er5?uFR{GjcT<K$ZHCayL?$7@xxp)=92TWQ!$
zuG(Z)*qV;iC29thnn6J2{QeIhptVklUrGCYW1_Z4sqIPB?uVAfgJ|NwMdiT7)!Iuu
zdt!FCD;4c&mNx?hHYKWYq3r-c06-`yYV~7r#{>7OcoZ_X$)+7F_0Ko$eY^OBW^Uhh
zYPsc|zPJ14tv_>A$IoA6zx?zhxD2XsTwM->9S(r>%bs3Qoufg(PYgGCTBwKmnQcp3
zVFEKSUxP>P2co_?A2x~QV9vM9q34zN+V|N4_#4YPT?#b1%=zA!fPR-b9|j4XE^|H{
za@G|s(sQNzU-QBAIvZ!!%~(-`z?D4`bhz;6!=FFqkzLU;J(o1=mEl5pmUO-{W=STb
zQqLp(n~&)-OIt;4I*xA3hZW40#7gD}pR(v19BNe(E1JRKF<TmK)YIZFk-}I}tVBOZ
zX3NlDO?qhh_gZV(uG>(XHr<~7#jPMVqvy(_1hBDBsv8p|8tqQqC;j_PlT;A1!F0sz
zFrljl(-|v(2~9kh?wAv%C+33bjd@_=MjM#^m=|VI%m=eL=7)(k!Yqvy!z_zgVV1|r
zU{=IRVOGY<VOGW5Fso7j?sOe=+bxsq#&Nn)J!_DvSC5<iMSdiMvpMaf+r9~g&1^-i
z0+2yHr=rdj5$*(hNu0QiOL4&uk#bnTX#y|py;r8DwQWzM>Vn)%w@<in;R6o<U76!Z
zG}!WcWc*_?{s|d3$e1GIeKPKokq<XJPXT{S#t+DtC4(Vo56JdKGP1XAPHnB?(bFZf
zLRs-tvRce(nC#jp{T&}x5ju?7xuBMyKTf7mNq&b0I}BXd%DJ*IKgvLGkv-(+&F&a>
zi<DYHo*GS<o^&A=LttcTn%|efXgLgPVCZCaTRJK^3!imNIZBWTt$23R<Z6n-+QNE=
z^=uBpOP#8g<|+;oeO$)Vcf5nu679-Zjc&wm*z$0-My<<K3)F`qv{CS*?rD<~plodO
z-az(BKmAx70t_RAFqjNMX?vn%vr@7d1gF}~iQ2<TEj0bAl9k<w%H2xkZcsPNI}_#G
zmGbRS=Bw^aRPR@+_s{#1C7X<Nb^VFDL8T7l)#_wLSE6F40+B8E<GRM>_Laf+&)qw>
zS_g7v^%~PHEbl@-4b5?!qE&VCUS|B<RsOiRHQu&swRm^jy?d>!Dp9scDch7N8&Jvy
zpo<8aG`klp(Xd}>fKnr+O;mL%Rh@~dT}suidGDI9F7E5VgHDCcq<bHZ-a;q2?LvL`
z$~C2KC(8e@epk|6zwB7)ydOq{1`vm9fZJ5{Bq|4$%E3hCai#J&(Wg%@oL-i2<w(^D
z)4E`;a?X1o7U9Fq?KM6pYj^L%lHQaBu3y%JQjFh^?Ltj^s(@?`P_0viWW%LmEh!h-
z+(LPM%0o7<P}P<4kqvVEZK)!%6;r$tvXu%An^R?ED;Ju!rz*%+Db#kRs>oJNwi>e4
z3YAT%I<nOZo%>S_WD}{3MzS>tjayUAWNQ(`fmAEm+Nge;$ktAN9k8V~3jkcIyOip#
zht;R!n+Fq{Pb-^G|7EJ50taxL8hZF)RcC4oxwo>&-4Cm~Q`_L4x1@Fo{*w7TbVSV5
z?B^ty4jA7uG^L4`5Ji3&Mivc~Jw~vBVyr%a!86en|I^^=e@zn_#~UVe(#PMC=rA4Y
zD9WX75M53lBjY+51dDSL2iqVBc;sXcI>9+9gl!tl6z~fCRM43i>^TwwJQ@HYstiGl
z5Ot6Ppr4_XWE`a`(MI~0uL~)2h3%4Qt)eAmBMatadG%8BozJBTnA0JYi>X3pb<)i;
z?mO<^xR`UdP}}%%;Zc*VWUZz?Wg`m`H*8N8Fe?-}s!}YNaPo$A7xNvWX9gZve@o8{
zaIlZ+GlD<kqkf=oy%e=fW6948z>-bcEhFZ=h!C>ngRG1={0<f9*=uRottr5@9r@rL
z$plG48%nU_uOL(ajM@TB+!-ohI62D$IJ#B?;MXp~(RtpIGvtt5@ZquC$g5oP01u}-
zLA)E((w*NQ4@&tmo@??J3iMB^#xqg2eDKsYk-94TlZx`^EfsIzk2^;4_9Si_$?IQ+
zC#!JJNZv5s2Nll@t$b$aMm<xCM@enN#dtfahP@Uv#3X@LH&p&Fj|Ff8#}wF>J`%l*
zMgoz^QBqEvQVR_%kv+acf|EhKF>(Q2rh0)aa$J)=Y$XGd7SvjJ;wmh<Ll#08^mbq%
zO(NmghbyDMX<?Il-Opw#L%@w-;wc5N2>F*57lU@I=8Nz&nZpW~RgX>3e}HmlU#u|d
z*6sQ5hKx|Z9xwfi$Er-SFKUn(aEDwW1klX?(5MHXaNCz%88I?Kh+~$)K>(>IgW!O>
zE;4uqP<04+^l|}r<`L1#D#fbz1H(=9gc-lcBM-Jk_dH5A#=&7)_K1~{Mz?N|7UP6k
zrU@X<tQy(VHHy;4%Rc0k2N%*~0^3UWY=Q3kn&~$5hlgewvJie;dI9l>FyL&Bejv^`
z)2fp>%6CskW^)~CPc+vFQtzGF@(J1V^&rxEfNaVXOT_NI$YH}jUDoxRblow#OPQ6l
z{S!)pNC$tg6#^YSY+3b+p9@7h{CJHO=gxEJN%`NB(Me8PfNa6ZG+*QsWE>}>hC(-y
z@e^`(k&W(e;rGCj<O?nZVHd$(zbVrw;;Px7Qp|KI=>qcP!wc=EY}px4%PJFU&7jp(
zXSJ9x0fRvEKAoU=7@DBeTA>=$jc)*0Y@(mXWz|dDzWEZY&SY&nC!p|<HCO2$;uW<W
zO5Kh>txN10Qg+cRYKrR|z{_ND|NV~pH4je3{l@|Rk!XS$q6rScT^T3IhSsG2aF%~#
z>-^v&cimcjHx*H%|0WxH$z7Wyj!T2$YKXhKSn8u$siAKD#f2{}TN7fxg8#n$`xhRv
z`z~<n1%v_K>3zGG#08Ej_}|2MI1OvAO>x&2<P~qzlwdw|i6s88RcYM%$hD1?aw4M?
zi{R$8aMjK)O*XEDMVF_qg_Ypgn4wFHTzi-_?;@Aj<Dn648<22lOO~&gGtE(Ukq*#Y
z>rBN9W1&~YptuDhPQbw+fCt&Ut%JQE(XRUuZN&7BRzH66(}&T`WaBw+B5?pWD{hr$
zvY%69Gb0`PE1Da-kqPDov`32H*t4)_3Gyj5$vq@js8(&!X!cy>|uOaSei2EAg
zvnYN0(6?`Vr*UyY@wMn;%c_kXJh*O#E~HW|xRXKdL$<0zKetp*Hl57QUv5<0{1?LN
zIP276&BYO3<~QO*KKe&?YWw<2*j9-#5i4LMnoK6TW6m5a#72oe;U5S%n*BA>07a8?
zzx=8xBsmS@mwm1X4-FCNF6WbsBLPp*+VgGxxSH0UkJN_pGFzqP%OtfS2bM1^X3sca
z?fJkN`C!JCvqd>og%b}aX}ti_j6I)h^t)Ojlx5ToF?Ap}Bg>4K#!(+GLtKN3pN^a_
zE@I{(!bQG`w%4aq>b9t;+wzgs(no95Ah2or$slx+p2(>2&=u1ZG0(bZJ#@vgWWwsx
z%$Q5J^EHU8ncex=`I2#H#$4A2v3Sa2o=+2R(ImIT0B%3COn1!l2{Am2rZ8RN^Xy*2
zK9u{VdkGglcjbm+b{KP+T@&n`^+mh&Sow%``N(wFw&*F+ztsP@uFHoJ-<tN-ZD`4M
z-Jbr9nXc_jyL20TX`{;d-qk=Z%xUkneK~<}N)D8ff5q>AI<}!bfExdQn42$WW){9q
zGZSU}znq!&d>|gb#0mYJ2mHHs@aeX)arVy^MUUuVsFNRr?7X{+LEJ8m9?gi48H@PG
zbf5HZ{(4|6PNd`LHW1K@p{byaB$3^(oz}zBzj%nv1vaurugSHu=`h`vp2f%oC~taI
z^L53qbi8&>kDvYp`98fn(j#x);LqRzDRI2liAN*AC*yZNA3GDebx40mBtzUd`%Mml
z(%4bBn*h_Pkceko2)pA1Rb1e#^8>qa34r#NYxavAI6<G0R%ab<n4DdR^tZ`CKevrM
zoSBd(*<Zw!(9{lgR^tw8?aapG8QlL9>zD-)>=t$DT6PZs!XOg`{loO#1$nR3dv@=N
zo%y;Kh|W3oY_twpvAe4w>J23cNUh_Um6^d&k}0N_TX4xFMv|cmTr_`-<3z-JFkVPy
zRelNr=eW!D=SkN?*R^1s#Pv)V37LY}E#%o3FF-6`SN(u&{NxlV28;t2dllm5AsKoR
zc;#e-?mNR%C!}F;MaJ8)QtwkxD<OO9r(m!PWK7qzIi8;Pgkb73Kc8YX)(t_ZhLi-}
zK(=ufjQl)u;cw3mAlrLpc?*8<$O10Mo{om#?xYBW@9@`dIcr&U>>UqIT$Y0SXS$y1
zv0k){)>~R(QIFgPsBfK++`pU?mRjEGyW6+YxLVzvsNSkTS?|IF(}Vs8!AI2x8KLf@
z|L`||^EXVm{y#;B$otW5`2ZP*U}QE{J`9iFsh!8sPWcGsMO;5T8|(~)>5Z4bl^a12
zfkJW^!Ur@TpktIX0v+ufA!X<)VVF=x#dY@qE^z-78jODqL$w3Xz5*c!H+niuq@zhp
zr3}HrzowW>I8C5>e2<)fbojg74Et3rxU&xTO=77tL|C;?hjCw?#Av`^vrI+shVK!L
zUPZ17?aFpM-z#a}xHUa;m2-Z&sIHE{bqxn_1VGhd*npJ~6^@OsQ_cCy(^-9>R*d3(
z_%sDOEqwfAsxm{b4^sXG5$wkyyqIkpnVh;E=qTlw_*QD-HZr!8K{$)NgKVVTF7F~^
zHyL}#I7SA+v(Ul_-PYMkZnoFzu0jf7Bn5~l(RKEkqkwOZ6RKtj%f~6VCKwTt=lDEr
zsW~6#M-^y`Vy0@t_44lsjoXK*gVh0UguguQYm7Sv<IRJsFnx_lR|PQh_@-U)O-C8-
z`$7ip3$i&>3fh!1Nd3Rxd#_h1+d1!Ca{-qZ*GkykWy_{-9*Db}fZ^A5CTjO6wR^zW
zLX3oKlj7P$QqlXBuKf>P`;%RL+&+KyksCsvwFzIxLth6J5Q-`i{$|DB45f#%GtfV<
z6cvNk-nk>uaYX4jvf6QU(eudPmh9S@=(?bEU0Ch9xaj$rzkQ87PAXj|SG!JAjP^Ck
zv-zQ~88X^$?!UADyDukN4=Ak%9+sen2jV3MKJ4xPbN@kzCN5c)o{#&R*KL+Quj1~S
zKZ>`;V<@w%`rD1)zJMz?<BbC_|LLK4^){t+`~1<Qzxqwz9pAEf)!!U%+wsu9Bk8YA
z_!|{}<8sp~RCL>St@?K%hx+#KnZDN_ht5IYL6|>ojJF>F({2&mwXW|S`reKBz+imK
zAj}^J<K4%Vh7*6^4dfb%9$I~OE3La9mJoj~Ua~vc+Vf7}?ZEvDtF1dAeLjD3@e3ci
zi{3c7aFUCoC)~Rg_iji<;vSNuzbfg6gk)X9->LXJ*+qHOsR(-0d&jH&JSi#!HKtOi
zYI@6i*Sjp!`0Q1>_CAn)82*#+YUSDalgaAVM0KZ9-MKPAH_{wb`VM~3^3&cQ^{!T5
zm_Pm4=)%I~J#l~Er|&{^4l2jgE8@N_amN;z$(r^=%@(C*OQL4Kg8z=n`GUoY539P8
zxQ2em((z?&1TiD4o%5tc?Q262^i`7X%A~t0;qFu1eazCLxLb&=cxvHPvZ66r(}AWk
z4qBz)D}Lkp!u6%br3=fZ<^EM~Yr@;3czafYtKQA?mZSq$q&CL=jWEB{|D7Oi?Nc1>
z2}iHu=v|56StHOj<~@ANwG2TAt0b4>6{d|LL`EYS2{QgI8H^;zsDWvIn3GoaH40@%
zqB$H^?PuBR=3M0V6$(F0;k3zfDjq?+j92hITFd_cG4M=yX$2Q7t=9x>mrIpmCK(I5
z-6bZIn<^JNdXmkX6U{r7=AFqcJ3g)$uzA-?%2PJ{(zL5c6_CvVLDW<s*_`x5w~K6U
zp`vDK+nwvngGzaO%0pgYtK#n2yUvu4Tz<GxMPw_6<mz%MBv(twRVtJ=rpm}xE^O*t
z8GQR%ii%BD3r_EP4cV@m*h}6vTkF!cxAxxM3+*La>&nsh&)hrnYqGBMx5;6{?J%3V
zprVl+*#2?ZZIi8h4c8~$TDbMbmlnR1vXKW`p$pM6r$f`8PZcsJ<{W$PA?0FDw*Wa|
z2qULF%;^;>ds04T#nlFkDYz7+ji`wE72~emH^=XcFJDs1J5nXguT-dOdh5*HGb_03
zw=c!&gm&U3i`s?SClwThj~fk{>L*4j*B0YaUs<<e5!DFWvasHbQKbi^B=eYQ7LO)G
z;mJSAnqjx4?W1<d{yHubP2XujCl7sc5k!5g5_|T5+1RrO5cUCvv=`wqE9g-cC?A>h
zSitPG#}QaqUTM)NC~Ex6N68}k0i-Y8kiPWH+NFZo0yCbLqDPqwK_!RglYa82Fe6W=
zo_qTDn!$ca`x$L~@e|S#&pGGQ(}HH_%qNme4@F7d>lg_c!x6J(utI#ew%kt&D0*vh
z+m#i!Feh$iiw*V)E=xC_cEWS)Y5&3uf4Wj#8%Z$HGRCN*Xh^L*cJ8?&M+47aJQ_H5
z=ICbwhb~<@I&|sexuHvHAzs^*#w2>ylEh;;uMgEXKB5vc;C~(#kV)wx2ynPKc{)uR
zrOQzCCeH#DFk(SLp7?`|du8H-AH!8_>B*Q+67i|r_{(YRdOb?rVVT)^ehgZ&L0sBP
zkZh*PExRd?sSRsNx!TP%JPy~3VdzGO1@Pxsm>$-{n*o+9BNEiqB-&D`D>(Qqa?r^S
z%K5ZR>+|Lqdvai=o0z28V00SU$c-Jw(v7@=Oy`6(SJ_h0*A660YUA$O$Jmz(mv^t0
z_Rbe3U8PH=ukEK>yxn+)u577LaWyVqc<5^5aX-Ylf8x%GrO)9#z0xhY@qLwXM<w4)
zeu#3^0<NrkR<{ftQ{5*o1_n>QaPs2G!)K0uBqG*F2Vsl}2hAG#MTl63lS^C_!!C<t
zG?H-@hH4#|mV&Aqm#`a8Myh4h4^RQd%ky~OfnHRNf>)*15gQGPwfy0z0K7GUDndEJ
z1oz(p4~xOeFHw)bOh%9l2F;Ga1|ezod?{taU|wAXH}gh#T`L#Bu{MwOSm6vWcSZ%F
z=F9F9$gE%fw-V(`R39>~(D*$M3!q|$P}saYn6j9A>~ljYhsRd+-6JUhKYw(Q{ru_0
zb#gta7aR?b3dCef+q`%2w&G~auyypp?~96~EeRPZN8Qg0Dv~W-Ml{350@rZGn(J-X
zd(-dF-kW_W?!DXeK@)_%YH`JH)h}ziR{{^Ntkxcb<L8-<4_*E@b}#HsxSAAK(<4{Q
z;~Md;-FJ5<YW65Kdsb`q&7Vn%-3jrOBA%k@<`b89KlJtdyk#p*NmIP0`@Tu3>0d1!
zxKEt9)?$D>kf>_iws9~7vg*XR*bj(xwHC6_RgY^MGM#HJ+l&_Kwl!B3v|u>6v`;Mv
z1n6#ofP95U--S&n$Ygs$5t)uYaMW(o+p;okNgPA0j84k9j3OZ24hJVDp^1(QqJr>?
zs3klk9PZU`+zpP)B$fcVYVDzTcx<I?8;z)GT2VGG$h6A2A{Cv(><%`$kZg1qsUm5R
z^rjPErmNS(Qlu9*OyZKEk*MsVxWwS#P#$q`x!y@H7x-s_Pk7ps^5H(c4D*vou0e~*
zk!_h6GHNG_$;B{3w?ZS+XhJVzoJD#s2XUDOv<_~9jSXs(Obb~pV+p3CW8;xt+U)|&
z%APe<%QM1QS7?Eyl#sXWW`Dls@jS{9O(yv)wVGvwxH`!XwZOSDipQyC;{9+?_#_QN
zfu`Ck{|EA?mBk@p00)}H*DkW{A>%bN-X`N6GVYP_88S|jA;D0sc$Oo|MabBiJxn16
zNDN95x@vknv|pwhhVfsB*m1_CEGCl)v)a`8E5Y>(q45_&&94Oap9>BDN@$1+4Zk%P
zn9RQw$SAg%%<BS--?#-+^Dl(<UkJ^=F`MB=>P^28cK_CFfx{t~w*9iObn&yRh4pjx
zwYtuw=ihqy?#oGQ*>Y*TdmnV#>&<bY8enKm`%>#$J$HLnydShYsy-eUDpGcv$-ZKH
z-+j*w5Z7dXQ1-*xKdGfc?J2+4v~zL#&Dfn-N`Q4G!hRl<tdr|WQ@5!&UeonNz;EjF
zrq7#94Vpq-%0iAcu4k9BkppEHm8J@q)gb`7FJxAyV0V4>r7yp<?qbd%i{LL#R#YZS
z%6{$XHx(xf++U4-IhL}(jvO4WQ~}u>g42^KB%4zxE=#${h8wAhQj`W5fR?9^TvtsN
zQ;m@i*){Dp3)y=H-hb&H-5d$~krO}N`=h<<WJhjh*KeV$VA`GntZCW~Xy5EgF^?z1
zg_ljHvUu~J_}&Xj^K(xGay~g_nK7Hnmpo7KXsM|@HDlXhs!sN8Nm=l_W-FX;o{ubE
RT9}#dQ*6~wD3HyQ{|BJ+DmMTC

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/gdn_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/gdn_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9bd02e372e172ef26143928f30c0fc58252dba03
GIT binary patch
literal 14183
zcmd5jTTC2TcGWLvpqhTrJh~g`>IaYJX^g=bunmU6;}`b$xnaC%wW(qZ?gy?eoH0|q
zJG+{R80{u&Yd?&YM7F<-H6snlPgrTB^+t*^QlwRt+fh|Yvs$8^jWT~dYmZjRPjXIG
zR|D<F-tq27F5=dGoO|xM_uPB#Ip^N~SDUSpfDkwTX#T5Fg7^()^iY;hJo^k1cL<u8
zA!q|_j2jZh8KVKyrnqUw1YdL9oUqJT)G|xFEKxpFuBOZ4)<nfjg_<spS0<`vsuJW3
znXt{+64f)+3Hyv)t+U1*3FnM6;hJ$72qSTnpesHg=t{=&u}Pz0riL-9<yBBler(iA
zKh6_4<5ufzP*=^6jN1d{g_gB9O%eNY_(*K_8k3}{xfDwsjd2V;$;7$XG{aFbj$@MC
zd@9-V72=B+lnOe=#b)ENbb1<cj&U6zj|0l8&Wuk+&z(GdK6-2tvXvL(@x(+bIXC}K
z#G<$g4JMABTUuO9v7FLSC_BY)F~omlX+BOftWrObN+eRr7wVPf*;Hb2iDRO(v88k@
z9-U1kZ}id8M83V^O)tjhxhT!drf4P|jV0;mBFoIp$K&aUQLz;eo?B#Qm5Nib#FZE(
zXY-S$e$4sIvvx?_AsAxD0Bklgz*NRe8*w7%jI`+kb7872H_b4_nxm7`g%0x5qLi@=
zx5OqD-}cI);qK_&0O*my&#KklIf%7z4!8hQ&pILdh<JvD|8u;TODy&-&M$UzG4>sX
z>wb4>|AC=v`<dSO{FUCto7~k@viAn?q4!2#Z%k)d?-h;j>E3tfWE6^%J&QLLJG75p
z(HIb&ji;AG+eyxkr>6+09;irLA$p(q(%vChJ6JblrXyvFH5yIE5==CzR7RtT6ulJ3
zG#QOvUy8-^HDsELar3jly{jo&F>^N;8MY4Evo#nYCbkwMyB=X>IsnlJgluu<j0Q{R
z>Ukk}SZo^m9RZnVCZf#sH5O~FvEh!{#hJzMjDqd5#oG%6V*=h9V7F^2V<BZKq|Aks
zrI0Esq{=ZxTW2gx*#fezDA3mBa=>k-EAnvGSHM-~;VNDMSCxmWd<7hthpT!8oGlMW
zz5=c~4`+J?oIMX${R%io9?t#>IA<Qt!8i+Z>dKe7UeUHD4_EUFI5)!Gv_@(b_x3%Y
zZ(D^-E+q<bMR9G*MY$A6)U;BCWqB#2IJYu-y#tHVAbAQvbwwpQq}n((%fYV67fmb9
ztFd%+J~_|LLm}=VMscgit}ij{O)O!#XgoEmG$d0=t()Q+j|#801x)n(EJ#Zb`RNp^
zG!+_^tgg{oGJr8T%S02g^tH5NR}0m_Bf58$ngWs?g)r*a>@2egXN^9<3K)1g3KVck
z#g!O0do{Yqu}YoRZ1(C>@>(=CH<t$C1mzJoiz0_@zz8L=Vwz8KiaiRVKAA#kl1iqd
zQMLuEEL@76y{eR*SI5P+Vw*OMP_VNRj5;vt#Hb6SZj5>$Qp`vY+l%=<7!^sRCM?6K
z5&qLb5ZWISo37fdxmIrQWz9a>>CT$na=kZe_R4jhtl1+s`m<)gR<haMCzxw*E#2X7
z^Y>}7z9Vby+uXBHFgL8W-0QmAwdNMR-C6U#O)Hr*5tgP^=3e}6eC@p0-1m$yTFP=(
zVsKb6H?1z+<L~lowCLZPH6O@B2k#F&9DOjl9u`A`8gv<fxa(JI?={|STr-QFuB^FV
z?(BX4^sNhbF5kX<e^RV%&zgJX-u@TBHcOP{%82IR`^Q$eTl7coWz7M(B?7snpYR{?
ztF&kjX3Y_K@1S7zuD)^a<lU2N`^3iHr{+OTB;%y*5Xm+u!0_ys5bYGn3wW{=g&7NN
zm?>k*87r*{Y1+h8&}OERslw$zTNsiqV{8k^m!dFdrOQ7s&)6#n{G*+81yc_Cl!LAU
z_+Sw*WHs?ZlP|5cF)q-rYUW7V{()u2jrc%0a6mt`AV6H|Y5f(R=}JAzq*zdHqS_+o
zuCh$}YAQ}Ewre*)oteGLs5@1uipOpO6dsWvNAU1QEeEtHrHp27z($?5Y@-#^s=81H
zn&};a!>-i88@Rki2zp;Wl{OwHerVuLJP|F_@ume`r`4On7a;Vbk^qPjd;kbtQ6hK)
z<O)>rL@9W-v2^(YxvkrL60pHxsfA=Yjo1r$z*6dXHC&risV-0oaJXlS0&RqHM^PbU
z^%*k2$V<(~0xBa#VF4vkQP5RFptvwD&Zh$b?!uhuWdu=btu8cg)$1u}U25dUWdK-)
z+24h7N^igQ)kh0dqBf}pu0>BRpr9-YfV;#Fc^O4>MlP%)SwMkX6nOI|CfyzZI#AD3
z!|Tv7XZTiqp%(e4=?jmFqEIw0JgC(0I^%lT{36G{<+xEm{(qsx`^V5it84ySj=r!9
zUxyQ~)nnlddYvA><>>HORl`jpVxDGEytDfudSp~Av}#zPP8(@fD(BPlNl@%ScVqGB
zWk(=VTxeI%$5s7FKW<#8(=B1y4Y0S>BZxhKzy(!RugojGR$YZv>`Q6wG|Q{EN|UOt
zMt3^`t7n(!*gI@&@hX~%j8cON?%Yxw41B#Jt<)gWLSa+|S4@fdq~b`!>4_F5tJ6*<
zV(&&(a+vFB#f!NDCOB*t!6pX+=a(6!UenUIRU`0~G~16uwJ?cA?xtb^C9{9;mfonC
zucT7(V(oED!9+b0JObu46Q5J(j2(s&b*fq9LmCfD3WI9kqOpwXd^EZoE@g1!-6B0Y
z)Dc862RweCcwS97ysO=xc%It(1#7=x@0We8E9R%x207R*1;@nT80P#%xuy;*^~zOt
zsVexSDkwKnQe(f^*e^967aNbSO#aoW&Bmsc$seDR{h@oAyP37?qJIyzX_T#`WbF{G
z9cz7SwA6D%>^bt(IsrPN%_)%~kqk-XUXk1@ky9c$l_lQ<4YtDe)Ji=sBicJ<(jk$J
zBH1XB-6Gj7k;5W6yg~mw@w3F|G4ar8kvyY<Xm}2Z<e_I4Q+p+L9DZI&bo74ed*qX$
zCtF0cMb`FxdhpS~jXtq+R3Hz2;i|vWdAn1t@jNd#cc^Vzp-oT!r*A)cyU<1;J9hx~
zsDK>+7>+y~c`#B8*m1i<!x&ZpDFCEe?!9;Sy#nCc`A@(5=(`(liQR`p+hKtm-+`Y}
zn>D_O|K-iLdTZ%;c;dl{t=`5(Tem>=?&zdN?IZx5M0!50dQ|mt=!gp4@*+vabAv?u
zo0ZahI*Joy1UTh1!}r~2oJlI~d=dJP3QjoHic);I`|^8>W@B?)-rkGOE-opRbFp;Z
z*~FqYHoIK~MO9B#Y5x=C(;b30X3F@o1t=^InQ|ycNmmpyR^GaRJFF=1<)u`+kMk;X
zrh+zHhJG`ZnW_v4M{hxu+(N@fc=He1cry=vz-yNY0#DS1s;zoGrK^Dpx^bgdz*nyW
z44@XV7MjS|Xk(^2`KFFFW8-bFi#1ctSLZRC5OcB#aQ(q^L7P4?>&hWg@%{jZE;Kdp
zWwhm!GQIXPD6$!Q#*uMmTtIyd^yP;CTKKO6u9Q%*X>gW*XrzsEss}Yw50DLfdBy`@
z(=B82UA~-#x$qM3CFpW5u?$Z5jF<QFHoH2{86WSXEjVYdJvVmVSK27h*8p!<dv);k
zj1ypAle4^2#p2?<uZ_Wl81i^(ct@V2pYis5>L0m+!pv90S}mxwI=9diE*J*obh)}x
zU$Po?zGfP^f||HcP|~)r@{L?Ur7dN+l-^^XSanrD<KBk9gporV|496`FI|0TB<(s^
zAL?tf4%TEntjz}adTtq#fo(KXTXUhOcpL96%wN+s*q{!v_2rxNwU%k-UBF?e%J}(a
zn&ACj*gt$T@5fz`ahDzkZv)6bXbiixw-Z}?a2u@!V{IF))!G{RBRSHrt(Q`!CG2oq
za$uS_XcFL)3VpR0h;404QRsceey+xS^d}jGXB#EEj6#!BFb>a)<KRv2>&_Q-v>B7S
zt0&<EXyPkiS3@d8@wOk7@et=F9>t-PQVqOEUpHH4RMH6RlhRiaU!$(20IZG<z17zD
zmXU4I<p`wxx+H<LN0lJx|11jEVE;pX1z!U=cdIwB{|&Vz4B>^oB6N_2HM#f2Qhj8Z
zz&5E?vPV8p*k?iLb>EA)V0Tn|i3K!$iUMD^{d7|uJ*C?RVfWSXb#RWtK3q6Zga)$Q
zuwJH9u3|&Qz9_te8ruuhlx~mIz)8G2HFV`RDr$dV<lXs|Ml2jEA_uZSQSHn3%r3K6
z`vSeMi5+Adu`pJWGWTmy=6->)*TfDomsmjCswf~AH5szY+%yzX(4d{Snb5BIf;v9X
zff{t|yRA1qw2i~W0!WJD@RD_ADxz(-_PEYW;2Pd_)zg+8RFsf0tgK5IHVb$({q~o<
z9cEz{>B0US>i$HsgAZg-CQKF2jk@OTyKt`lh1n_H9%rYXuLr65?PS86rK!=mUs6ta
zifHoWS5p{9R~p~eYVz<Npi$NQcB7OJZ}E{kq0>h<&l7YN@A#>KCV3acHr@_#HSdJj
z&R0Y1;A<du@&SllJOyzL-vF_j_ds0B*Fjvz*F#*-+aPY>-4J{DT8O>831S~#32`G|
z1#uHk{?zc-hD;0J0xui<(-G73wC1-u506Jkygs}FSD4r4lkcdGEPQm5Hzx~MCtv+9
z1Qz8GJnk^j^9jY2TH>Zy)GJv(MifQ?j8GS2Ll~hRp<WPvs~f?hyTC}RVlTc^tw)nL
z|3F2*-c-$9BV0tHbZ6gyNHL|C5{h}AV-hSH7>Y|BXOxRwfhQ9AJ6JRNrr6`y2DiKB
zj4F$<vE(}pdj?BRV^b%~EHW_;oJSnP#+ld+Mk$AfAaIMzDHcGGN-JfvaJ{;eU_lQe
z*kc$?W2AchoQp9!3XgxboL}1HfQ<#Nui4b%&8T9*$1_nDO-Rk(g<Dy>GDS5=yE0Yp
zQq`+f^g~8k*|S)69-|8dpo^Hg1d(D$uz!wU61<8W^Df*~<DGfU_FR4<)XUgyQ;$+d
zV<m+tmC-7DRc@>7?ZgU|NF0WC&8t$1^eL4Z)3go?chuVox8G!|4noJat8MMF8@z!u
zgIC<Z?g9$U2db?rTwzM3cF(8cs8w+wyw+3RVd^Qgexb^?!=;kO0jU1MS4Nsc(V{-&
zSq{9+o2Y{PB_K}!y%k-FIR{}2tQa=EKFQlDdOKI_a(#nTzelX!vqH+v9rsdqQ)?-y
zXHx8$%r?IvSbg&TqoQ@+O2w@MLi0ZG06J?WNBD^&EW=YE`(BJYr#=seohL;5$zR(X
zAD#Qrg<sp8AD#cvMcMB7UAf8O%vBPhHi7iZehQp|o56#Ronr8aTCi904~qW5tba)I
z9~AuuvwrZcHOhAX{k|vmu-w`qIzpSR2c*_fv2|2-ha`80=<e8XgTJxuAY6R6xdcZD
zZpul&P}TaS1KgDx*PlAZzcvxJQ-+ljtBpe2kT84_$ZiD+f^u_k<+L1Z#lG9S1hPf$
z>Xy33#ICV_ay}k^>=wJG1TrEcwUpd8D3D<QenR>;J?(4GHJ9M&TKoP+`ms^yoe(_}
zE5|p3T|&>e&^?|XkFRGvAo}_x?~v#n%6f+-?_tq<IO`o>IU)OcBws&Nu8(JZgBw24
zH@R|BraA?(Ne=9j0z+b8C>t1-0*A%G;cQ@Bn7kkcE(m1vro(%u`gV2JK}n7l(b1B1
zv<V%fqGMDzd`5Jfftj%33^*EBuRpO<_upP0f6_AWMX*J7hu6%X+8)_93}X8M(LD^)
zcmIg!Zj;<yqPr{W?g6iB$aTy9+)9MnA9g+H0)Q{P{(GHwJ7r&o<m(fCec)tOK`M#1
zu7}qiT$A0ke|zEH+jrky_e*_8#lEA@O?e)a5#2rdR0@-q9@GDl_(ejvcuAbP1X*GH
zlGybf!4Z++m4c%i=N48_XYUh7`<J11DKspGfWEdh?=zDz3_L|gvZwi;?XFE|9n3cD
zzh#kIhlG)nV(Up@xZK()bd3q!V?ygVW`k`)`-sp!Dg+PSvTy1v1$;tebi4aFGAg)7
zzcv}Wp@#^piN3wko=I`fq+HuBxZBqPg1ZxH`=GWPCZ)am;d>9>gK4~fU39mXn3;9}
zM2EGr?hbjIl-<pOf3N87-*5_J=Y<Owg$tL2vG06iGCEx_ny$W2M;?s;(4Et_Pv0NU
zx?6<^aOJ?pxadAu0(lo8Z{LBO>KFX|qI;j*;E@~ltUK3TLc_jq%FRw!jwE2LHG2he
zFT`?iKo~qG29Luk->j-%4Lqsx$yEP(Or-YXYO@CgdygC*5cVGz29Jy36M`e~rK3ma
zJ(_jAi96@O%CTEF#o!REsz3|0*d&{U0J{5yffFKm0)747T!VTQ5YECDaWvjHWE}z7
z;aj~9%T#ty_a~+Bm>3?*I>uy2>snaqm=ZgtvW}@uDlAcZL~4&j9TBM`kNc#Fi{iw^
zEOiO``NGq<dR}TeAT}KUR%bn@V1waRLWf9#kQo)a@B%<0Cq!~Wc0@MJxb!Ct&k3Wg
z8kiaBmfEMp_NmA3eO@WFpTo^fw!rEUT4B^f5{dT=pS|~#JfY$Yi)2`6flAoq`z7+A
zNFJ0Oq4hB0Jfx!xwMoHYF*v+2vT<Ap9!04Ef`-~7P<=4f5;-K2LmRbE$-|p9tuXQH
z-xv0u709zf%~|z+L+j&+&^9c!9TwXTKQ?6BK<rIO<S~&vR_N|{VF-GEvZGsYwMecG
z(FGDM>*~&#jG=1i9yo#*Fd#-LAuxRZuoT)ahW2k5vY}yt9FfRzksOyD{xuqhaioCP
zACj8)ip_h4{*&ubY2cVRaP0FycHpGYd}`&iIvp({&ef>UJ_Hvnu#vXrIlR7a=RCI@
z*l>wq011GcltQCoXjC|OYGe8H@t=K92u-8pMC$t1$Hl;a5ZIc0;qdvV<b^-+>^q;5
zBfxx|mGG1NT6}_Qk-9(r#L<Fll9T)+qJQLxW8|f)Pxf@=*ISQB_N?*iRRTFGkw--G
z2=HTL5@%teFs0pnQrEQDH4Poy@&bFhfjuZvY#nQzYjCpU*VJd%o|4)kj)-JL=onc$
zu@QK5dK>2Ub#5o-$hhILOKhLS1>DvtwM~j`lfoMp9xn^$FZ|+rLfb_=mB=s%`o0HI
zT*7)^!l6q~$?tsG(DggQ?Wz2CPfN}O-~aIU<t*_18U$)MSB@zw;op<1z*HsC+>@)q
z6iI}Kb2dy>W33%i4oo>Q<syQExf)EliPl58T1?duZDWR9JtiB7&NmG?4<@}tU|-IM
zsYaryE7ydnW-Rk#io#R?Q$eDh%7ri$##9TYT9Jk}NUhj%9fYGvur{i<QnTBye^A9$
zFOL2Ju5{qy$dEDe#sw%W4q!-aZ<nt|cNaLrjHTY_?A{_hdK_N;m+t3p(5YFnFQ_q<
z?&+m%%zsz$ah}>A8o0uns8Ux|fF0+fDCnjin)+ZS0>sO%s4`~2QeA`svhX78C07aR
z)rBz%I;9q121>oeD&vjdZZLmr)}X)$EMLA`sq44rug<3_?O`~jDynIUyUJjR`a=Qr
zCkyx%fGS+;Q~7KCo&t`EC6<L>F~o0nQK@A7CZ(B=6d+D(zd&HLpFZrwlcxS+p1Vq^
zzYW;JwR{p(X$?)jaXOE$Tg9#7n7A-GeiUCZ6lei7*BI!IWhm7gpwJwk+LxOn)abz%
zX;-V$Q16L!QSjph3haU_3`?cvD9vPmDr2NaHHg(W9+65#eRaXYGY8GEL)$|$7vTx(
z+?-};neft;Of%P2OABpMHi~fQF^*U?YfUxO5?I=e5n5}-&lG$rCw5wl`fG~i{jan&
zN;kX)n>GDk&>L7F)v5)8va<Ro$3Hs08kW3+qId8KIVd}vk|P8v|9wtsn-JS3o;W6Q
zmWqnXoYi1&ky~0H&ODg8e=<iH`r1K%m)a*$PPV-P1ycsBms*CzmLVa007`~;fIL2%
zt1#P+8J<-jI->y<2RGpl-&?r5u;!E^!(wDO+dP8yPTMeC^S2$6S|`NTiEJy_Kp{EY
z@^JdWv@r0dG;mTJIGG)o7Q@pkhNsrRroHAT%O5ST23Fq^KtmfileNDkSl?0w7rHy9
zB6UTtnOWS@itWPmv8mH%PeqT6pPzVBac!CB(frzDhmb|+U}w>v&XU;79G_2f;9cNY
zwhRmL0gL8#IESeUjL_rFzJ(DQ>MH-)_c4V#RC}O{7mMn%RW&*Yx%59n^dTX8Iwj8m
z(Q`mB*KLNvg4wrvE^7|w%ts8C%FX(4&VmVGUY&O}bo<Y8<!aVS)KR$#HL0t^&#Khy
z86&Z8NFF&X`>3yNvnET^rms0?!35y&59Z3%q?Kq6-Mf7E^4g@>1V@uvR!OvWKD_+k
z^7<sOG*_jTkwmR0r=o#XRN4H@u9hAzZ?K#-$l;OaCQN7}#5a$TI;A`srBk!;qm-(`
zPn(!DiwB6de<*x=+f(?}OppGnnV#4cm}7X7&!Xs3nsx(Q;^yON)p4Rd<L$}6p+e>;
z8uA-`rSNMFaVfAUL^aN#FxUJ=UbRDLT6j0Cx_{<k@S+PBg7&Nn@9i}v<8X`kt5`?1
zpX3~3e+;#-1BvuI5amn;g8|e5L+5Xaz;6ihx5U9;5d*&>g1<MG8I0c$5dFTIFpL?V
zmzfNmg16&20bj5&j8(rkHW~Kk2#DZEIL4|RW}lB4rYwfD1|c{sjGPvOXTBlSyvm0E
E1E3ZT;Q#;t

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/linear_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/linear_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9bbdaeea323c43944c57163c26c14ec20c59ecde
GIT binary patch
literal 3100
zcmai0O>7&-6`o!0E|-6z{$){;C0VjnHWq1Dj-8^3k=m%+6tON!0+bc7SnUoY+RG(1
zyA(`=1dPH)WfVo@Lm~B)OAig?LykQLJq5^xgbbJ%w19xLhur8&hJ&8^-YiL3Y@5#E
z+c$6K&CI@^Z|18+B1)h+%5Mte5kkJkPPb_t;pmSb>=K*Ul0%A8PLfcT9XTh%H{^th
zN=^|v#Zik|P7|`~go}DkFGg~aVl)>OI?ag{<GFY-kxNKKCO;*1_#v@%s_ch?y>bIo
z68Z?}qx*88-R~SEmlR_$7>iS#CMQAPvmC6->BKiUGcECmZThC=n4Y%^y}=**K6U*<
z$-QA(cd2WGF8Yz<6mOQ?eBtACh@a`rxJ`W%jc-&6j!hY#xLGO|OYVP+^ORS13cg`e
zt7KEpFkRayGny|rj+d5sqGzyHrWTLfHj5i3idN@e#7F6Lj=l%NE}<kR*(4{^kS$Tg
zmhu1cvK@M;^gN(em9)yo-!Hh-WW7B)zr{61{R(sW*}n0<pE`902{u9R9}S2z_<%uM
zBcDm&J%;+v$Pp_4bvx@9%h__FyzHCoW9l#8t6clxTX(O~tW(&?maG0|$<1zqXS3Uv
zvu4-p*^R*M9?ZgX8!+N#%2l3(C5(;0(}v}E_b>Dvyz^t3zInrN7EcFwK>nUwZs^Ml
zHLGcj>xSW)MQRv4Y8b_mU2#y38^%_}bUGt(&o}*oRitoQn=5{`OxY;dvmpdriH#t{
zyMTIc9^fHqsY7j9QZsuWG|t^<&fNSbfzDBgXu~g19ay8`DIcSMu^oK^a1!Sa2@OG<
zrME#VB)KPrdXgd}^$srD*T7c&&Qa|<N5eQ;)zc9^(dYJVzVNtPDfZHu55Lwk{1Q}>
z$787L6agPP>2$}FTNTQx2DqI0hEuY*?$Is7LDNx;12qb+U9g~nphUeATTO@A7@UiZ
zBTNABP{H+i(tr|kOBlJ5>p@Iazr?Ifu6-cP`eQeR)(E(Q_ZGk-ayUG8pp3Q7OdTjw
zt)bBaWwbSsI#5!rvDEJRll22-zBMrNJLj<jy2I4$rx*Wl@tJZV2q`XgDx^S`q8)9+
z=hvr#YD+l?D^+a~PCG<3TcKg9V>#O@jo2EE-ofANYk7T#<Rzd)pvVZZ6G)79geL4L
z9k63Gnb+<3Lp3+JL+(krp*4~o5ViRYRxqDnw8Vh0j1AMbHVuE1QE#*4*gSD}+ptV)
zlNuf}QOq%`Fbhiof`_GQSb_z)X47p5gr&ZAEW82)Ijn;4duf-P(8FW3Mt%!(Yf??F
zg=)%vhs-46_g1J$e)kd~T{8FNpOarnRl){g$+W^%uLAXlg<EiePoZ!NUcrUba4pL4
za)PQ>JnH1x_o2hyK)8so48S7>@CMMlVR*RH9JU8R`Cfwl{iXkr*&TY%ba%Y~lRaeN
zZy%830TLN_9B%4o_GbPR`}~(*TzICx_t)g)-tyDQXUUa@zS2yth_v8Cmbe{)61j(I
z%||;b<TwL3M%*Smnm4@;)v*L@V|A$?WP-UQy!>Ync1caXgWA4US3uvn5MLjvtDt{<
zwa%aom-Hjqmh$2nscU|?YX$KlcaS~%+Eck3qjgxX9<J;4NImMuy3=ZUEm{lLA~mI^
z*0iUg{mzQ@SS<$GsH`$P9^SVBADkp1)bunAu^EK32(t)t2*|7K96(w-QSjjn;EKD3
zZ*BmA2h70m$SjS3)tHX6AE0~%;Z20A2y+O%HG|E>-eN~Q08g9>jfcc4@}>hKd$=mD
zrTdHjCx65&%rvhK@PM@AWGeeSb-kIozLRW?EIl8&)Ev3AqaV($JfFSQoW1pztuN=l
z@SC&mH}vUajU<*@gNvX0&#$dDudN-2<ix;>5Q)4e?ZiG=Z!BDCT>aT`oJ?M7O`dPf
zUT&RPXr0Zrrr&6d&9vs<JWlG9(Vawlm<-OqY9b@k(yjDxAAtrwTY&SiMFdPYt~dqH
z=ONE$49k_BN5GO|_%{qg%ax5%$q~+GKf->ZQ*0J>9K(R8!3t<Sq@Q<#lEbHh;3VA4
z+XDFZ5os+fHk7HowF70bt?25N!->VV3g5Oy##4I>Pkzx3V^1gJbL|L9Q8F~X8-Egi
z8N=Q*nVx?UNvSi3Q)k;Me8Fz^YCDXQPR1tNI0iP+`ByQJ0=mY7q=$H{_Y9;S!wM6>
z$>)&vGQH<Xru#g}m>b{^)AAYCQ^1ayfE|UCI)>Yq|C?>aFE}1U5)#f6*~(L5Cot%d
zFx+L7<xSu=41*xJ;GuyzEqvE^m2v&;;2m?F{RF0<x4m_Mc1V(>ml~1IeNE#3An*K*
zoO>lJlKg@IyowU(UFld0NtwpX@-cxgWTqT@CF{~sn*hL@MUJ(xdpy1*%{0!x)42X&
N^ZZ9I3G{>${|zH4_89;G

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/mamba1_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/mamba1_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc87286b8fb26fc6e11d551450b7b669e23b8bb7
GIT binary patch
literal 5797
zcmbstOKcn0@h!Qe_*s%min6SqDT$ILIwob>vJ_iNY%75sySDO?TcAvuEyZ0~l$NBj
zyD}_i2^fWoItU8bhr-G!&ZTi+A9T#o$DqCJS_Zh?CV+sXhur8&frDP!nO%~yDA_&a
zK^nd{GjHC!nfGSq?cW0dAAu&)pXUGCLCE(ws5f`5v-vf2?h>Bxlt>CxhN7_V5FHr@
z{5nNvfzHqtjuu@7cgAh?U1CeYlkr%6x9BbSGCr%{BKiwVhA9Lx0c-3LgN0BgRA4hK
zMI7WD;k`Er?-S?;PJ8`KSfDJtAMnfrhmCzuQ!W#+XaS%F1)mUsO_0XS))hx0^doX6
zDAUVlm26JT%JMXf*fWYE6qS6bIF-#U3Pm1p{&&v2$<17R`!aX_O&I!qBZ`GLO2xVS
z6&UqRWo6+~wlJG*%)BHhSrj_8oELdPN;u5+H%f&<skn>7?39<pyu$H9uEYy6mo4(#
zk|fOKMNx)nfyRWHB_U^et!1#AtL@VIp=*Q9Vd&f?0?AN3$v6ZjPYE>dz@5)Ic;`*J
zVH?*9op71^EOF_^8nq3ZZb?v<rJ{MDiQcrW9Xe332>N9+Xz8E;wA&2%iUPYzAsBu|
zHWB%sOCw5QX=EwClvJ|P6+uZ}TOL30>f*RCBIajDmR6McQgP%e7<uGsdL&!-$H=Vh
z5P774)=qOkDW;ZI%n*p+W^G$@IZ?iTuu1XS#!^juQP4&90JuSZ2qiU7Qfh_4bi!?V
zIIfs22pnhnIId9QmqqL|9QV<3R;*DNS;;E-TtNVBd6QOFmISE{=1UO-C`rNvq(B`Y
zO6~)2lNhdW)j_#ZtCzL@DZS^7e-jvNI*B{-6w&r<oVdfrXkTob`@!1Ve*QHPoC~;(
zrY5*}Y7%fSq&i+q<(=1CV5W<wEgm=YT#cT)(Q9e+JdK{$>b*!K-%F|fmr|LRQUgd`
zaVCOhdz1U?=hh5=v@A#~95_x=II)!Dmdq%6QQ-1LKA(g82UlM%Nz-O@J}Uz<ujI2L
z@+&}FGMVCXp>aLU$a5o3DM74|O+Vslm)Q(&59)M#PL}5dzQJ~27F1c}^87Upf{?<=
zxp@Ik9B)rD`?l$Gd1*HTDAu#hVu{F=3QNmMLqZ!WvJ(f}Nwi4&z+_T8g8cwYmr{~)
z^QQZ<Wd$?DK|Cs!@R*m1GF$*>zNj=G?{1up0K<&D2;h%oqrLmCdPiNS<3?xf^TVGV
zUZ)S%diSGxXL6lR8j-ejy3N?%wN7^#;pjRYHQGDZ=}sH7F_8H3;uja!=_AI_;V;!M
zK-4iKKK$k67nAGsh|$&i`Q&GlPv{~0qTuQ~E{Ycr*f!??{OP%?0s+y<I|N#Ap|-qJ
zaPzd#vcMwq&Nk<{Mdm2pb(6_>y@dDkZo$X52!7rpFuYd?%z1d<O;;v(i(I2Jp&623
ztO#cY7O!%-EO?NUF=G40?1~^+!2}KmhBWX4CJxih3s>RD<y_CLi;2|=qSMg%3w4)l
zhtW@5D)}?;s+8(bohtpH7W65iG$g2$QcumKo(^Tl1@Z@Kg-Br#nV?OVybN&)100@i
z3~+flUxX80%n6bodE6!~3*wxVf`K%G;0S^=0MpAse1$~GaWbydi|vLT=0;(Bedq-@
zua*c?^;MI=EMvC%`3Bhv5^wO67TvRdwdcNn?fpjwpLouH8|qk1KJ0iBI;MG!>7iqm
zqs=g!VaTHP6@=R&6wPQ2g}H!(SZw88(>I3~$w~<lCZt?FMM9q-!m=_8mb*(-#{y!T
zTA5br;TAYlvhciw8t+4@ZsiYvT6UG)<(9ICCuJ}E`&3ui&pSSVvZTzE1Aqy_e+VQs
ze6+pfUg3MeD!{gRuqS;8+A=$FI4ZLs7x&fF_Bz?+Fv!3h)zlU+c{MeViXoz@J-}oS
zt;_%&FH%zjdxaa80V|dx<zTtB*uJ;!P%4r?LU}T06)I&Gtkeqs5!KB*7vF?Ee+u(D
zo0fo~>h=?!z7AI6NheWTum@J(b8jlGx{<EZop9?>YB{P#_uTQGYrWJ8-e2a^+mw`2
znH$zURhj2CEeF(K4IkWr58bAUQPpMd1m*`-hz<)F2AkR<*iHH`&<->aV7Sn`2QI!F
zS1%f+f4*R!gS+RbuErVh!>oh5Ie4PFI>|y}H$`Q6*F$&x{7~eD^ZlK0?v+Dz2`UQ~
zAzjG-OK#Xa%s*V0x&8YReOq_wyZ3z5x0QFQtqnaf#5T2;tP|O_&ffEJod~QGvDZ;B
za$8OHsa~*>TlK(sX;J;4NeH+C4_hA8VhZFjkM#($OBha>mjrpfB=QNz^t6O8tRM02
zUxsH7Q-nZll^yxw707-)fR|zj@T^I_2(Z|d`Vru{k_HgqX_4?iNJ9uP2_!m94^}9W
z@R2NG?l#*cp(Me}iJQ$Tx%q81tW;z&c7m-X(l()(orU_`dNy6Nk}qgvM(mPEv1oQ#
zXQedLXA|W7b-`@kt1!wfEt?LggshA=Sg)I!<l9@X*NtYVsj@WNYZlBc^Vus>c4?j~
zWUq0vvKhfTEH7F$RlODnKF0;mK(iIA&$(q$<QfFo3@>GQZmuM4<19;?u3Twpg_E!f
zu#Ick6@x*dO&UY&s|ZdYIEmmC0?RAC*t1+?dCKx0`q2!+TF;lLt$WzXa-A95t~~cF
zPHk7?kuX{7*;X?gn%_PFcp%Jud(_+D2N`pcRb?~-tLQLYR*Jtq@PEn<i)$Q2$rF%{
zZjdTNqQjNeBYNwRTb?a92@DzRz?xDSpV7x>ww#VY@Trq{&r`Sjw?EM0quSV8Fr#-s
z^K={Cy_%=P=oq*aG>)IrJx4W9m)3LCIF!;nL&o7FnkP~95QeSzyL5k7#Xqe3hb#Wq
zANyb5h>us|7xefAjp;RF@k%VM$I_M9q#m2pm~NwgtkOTN_fJ>)-_`ryHQ4A~{~iCP
z(-9A9OspCt;kF8UQfE(sqT0bRAcTWYy>uXGut|d*`3IW<4F_JeSNL1{o9s8Edi)(+
zDw)=pL#P>(*zmWn_C5A@ZLk9sc2s9a*Tl8oJ$hF^epWmFmd2hpBJrnADm+kilE8tg
zkAw#+?4-_48qw}mRgb=Mf4&OqMyhVo8hzU03`dbMjtifx#3%LmBq(PKuCNn2I{{h_
zfcm{)5jI*0#q?0D5<0Ah4p%}`>!B&5{gBo^rm<rHjp2zMt0W>CI|vKyAJ^KaG<FK0
zF*>t@<#^;Vn+7cd`&auuecNEWR+UO@LXS;6W+%XY6?RBxhbrut&W=^s3p#t@343v)
zr?1kJ)O(VZo>O|ysYm|xo{P7p4e%E;s5682#CsoW%&`h{LT66kkr>4tp4=jEB0!me
zVSAfjb6*#=_$Aocw`p)*@4c>j-5QhH2(>nC@-b`@H94lU$JQ>cy|1xnD(pF(J!eFZ
zK0@n--=aXcWzwT#mGosjec6b{Z+{4OJ_;5{!J?<BGZgghe|%rn*vSnPcT{JOu1&7}
zN@Gt~*t0r&)`+Gb(J1a*LtOfJ<;Z*bk@xE2(jYDg;!d3gY03MG_eG7J_#t%AI51-L
z9ml_pK_iwn_Qw$uOB%17H&SmKht3)O<69j8)>kC~ug@yO6V%xR+w^plptvF?E#_s#
zbjpe(VG5QoyIWyY!q<U>X;H!t6(&7fDv8#sQM!!dK<!<T6Cmbs@U_Ugte9#}+pi1!
zdSpGYFx^|P%%5+Ps@vll-Dn@Ey5JY~wy$$Fe&@H<794rVzTT=AdvK2T-DU1DKlyRg
zO}hJ@dW)3Hx6yT=>cS4pjEz-WtgeT&byO`f%=7g<^CQ-NWugj+sOfKfEfi!4qKUmr
zvlriXsm8aeRQ+33Dmx42$mSG@241u0MQqDTUX-mMZa))Kc6PJuXbxJluBP{rZwFO;
z{z&k}hSU_<o7Y|hJz%HV&br*jqZJ<bf;5+fw;(#ydJx(lurQxk4rqG+o1RJg``GK!
z?|}tfCUXF)PKu&_@(`;3d&2ySy!IVA{vGN6j?6rBI4Q?7Ae^SQ+)gT`^(40l{6ZLU
p_@6lf)G(YhY8XC-Is8=|ZuNdlQ9gqn)DFI;)35*J#G&Pq{{e-XZ_xk%

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/mamba2_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/mamba2_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..953ee0841631f29b5e597c36a4805a6b8bfb6dfb
GIT binary patch
literal 12457
zcmb_CTWlNGl{0*akD)jeDN%0@A9~PwS+Xq4wjA5C<A?0XN$j*+IVnSNMiym0l$nv&
za)z+cO;NecHuAO$JJ_O;u^&;9e5k+z%>o5B1qw9XEzlX$TTW+PK#O`m`bXC;TI^5v
z+&dgfq8U3y_d+^zALpKX?z!jQd+s^>54YP%KuTM_mHKR)AbyJqMsk!hk4H&@xJ|GG
zOQwk#^fjf)jA_P1>UHKBGt`;WmW*}Ait8+CTc&QN4(F|Dd&V*2z<FERnQ_gyaK0{0
zW!y9FO#MuK#xvu|&@(iyx2L_ChM5M)J2>+~x53QTmvwS}*2Oi}Zv9JY=gciYcFx99
z?^tG<OvFiob-zQf^_=x1vp(KTfHUEG57g5ine^I^%FN6(<2Em}HE=Gj8BweBY*{8_
zzTY9t=@_Xw*o2r!rW1ky1^TEca#=Bz%T6Yem$@tpb<QuP)0tzr>|E*+lq^X$bp^hm
z$%MeYl*r5`DqUXU!~`NXxs*z?93Qi2u9uG<kDot#?n3<ZaV>Bxm&xR^PoZm_$y{b}
zN#x?m#FCIm$CJ72m0>oXDU;J$g~fDAjI&%a$8thEk!9nHJU5q0rxDBU3c>S>TvGGA
zwZ!quaY0P*VmzHoYR=^RQucCONL}MJ8_$VLd^TB@78aHrAd>0hA6t+vNyGxK-U(Rp
zaxXy$byJ{WhK#>PisiK+pcji*Y{9y-A1WF6AAzo-#F{I#EJoYcNEp|qw{M4e6Vw~p
zzO6yTdjnN0P}{1@S!1NUSu(R$*49cacxqsktMV4WB3bKmu&mo=Yi4aoqrS*&^R`Pw
zz7GEFtnCshdJR4#i^1hJkXha#`ivH_(a1>_$y(9uvh<D<Z-@l(I;>#ciJ>b`NtEQe
z+)5BU`L0KD<=v87qAml5K)xH0NGOrlK(^OFX8C$CP@!HA{oJV57$fhI>K4$%s?xTZ
zdkn6PFG)!DT74wv7RI(&*BP}eiAI(jl5+w^10Frs+`wOjcbLmp-@RfXq&ohR=rR~u
zfLT^2)(mp(Flxo1ky~Jl+}2mBjBoI94H_lWHhl_jVH>%R>x{D_Pj8b2{l&FFvSFQ%
zO%bqbo;#brh@To71v~6GXhZk2M*`V@;dy7fw$X|ja@qQ__AgE=@7+eL#(GMB39SZ+
zmb_BKocTNvb0iXQAUPRG_y}h3$v2Qlr!HkVwx79@;8Tg&G&hjuvX{hp#yDV^C4pm^
z*<}VF=OfJd^T(OX9G~UV!k`nAJDIw|Wtl~e9}qY=U$aS$NiJoU(g_h77%>Mo1%ppq
zfqAp){C$(j%`w7!Vv%DmPWBDIf$6~!&Lo({`DG!MOr)7Nw~pvH`x*U=78r4!=YTku
z6>_}5<g!q~F+w84F)Vi_mE;a!QVcTyyu`~CxVK<#!U2Zq&EguNZ@53kq_X0k5s(UZ
zHJM%#5X<=fxH=##Wq`dh9fnEgE+Kvfa92i`lECzGiR8S|rpuJca#uK>N%A>C-~^aT
zMJzeKLd}?7ncQq{Da$7K<=9|_Z@6^DGUur*3sVBldnbWmJsE668+R3n5eWeG*~v_0
zz_}dHU|uWS^d1@*W^i?8QCzNYDQx2baN{ZVs?G+I93(?{+eB9(sWVd<sw}b!54z}5
zStiGW2~bv_3-c*~L4Vn@agj);ml;sYdGT*K1R10d$6kJIKuEFNK_(?KnH0~XWk*vs
z^b`-W$miIlq^_^1@k_&o+9I?8WPdQTx&eZz!m!-c#T+j}7a<4gB!~hg)QiT<0SQ<~
z;D_Ud7-X_c;z};XGVBuA97)jc>?K|7NHz48`yIN8u7#@foXIS~!pw5a@W63h(|KfN
zTx+kwySV#}3hM6Z-~AcV4@{a(S82`4ipz^!jKqCoKFtDZk<rW`IL(q0xeV_Inwm+>
zX;v}EC+9UQG>wgFHZhk@38H2OrPUl<b}7U036ayx*HVj`Ig`q2w#4Eh*mHo1H<V_<
z_zob-i@97{(42{6c~5hg>YfqJ$|1Fh`FOaQ2)-TxJihfUA&myrx4dQnx&mTIOr#BS
z3vENKey4J24Noh)M$T%appn4pVouO3d@h&KEMnp^r_t5hTJt~MKQ3zY&Qao`fJ_Oj
z$UDLRzBD9e7Kav7ivwUCUgE@ot4sU#k6+%$4W(1FLyODed@eh51+3knE5kzx!xA2v
z)lFexD1*%1kvOzu2N##M4#RGRgB9jm-pPix^80}cWXcFbpa?gJ(k_B(E4qS;E4Vg%
z&lQy|r{(U`1%R&T16TdZ^*e7Vo>0-#t$4Z%p5B5hw*JaJ*Pv{fmUmAV0J;WMcYDzt
zQQVOmCpLi=)u~XO-&^|N?f2g<P<=OERNW1$dsZh`W{U1k#obwOGdE7CE_&6w+OV>}
z=xS43Z3S1yjpGj}&#HBG_Lk#z{jK@}%@nB6jTblDJ8w*>O!&sM+SRjm{Np|AS3WwZ
zM8{-H)5FHj?+I&T>!XF>?q4+y-*l{yH^)|vuDqqXs8#ZtW1Ey;t@o^$)q3yh(QjSa
z^mVNH)~+d`VZ}GHa{Pg>X;r-Q%9`)}FBg1WE5}u;sYrDwRLA#{Ytes7-KTn0s<lXk
z6e_e9x=%$PM0?hq|9oyEp+xt|R3}J<3aP;H=*=@L$4VZ;)3AE<-Ag4G(KPa?ldv~D
zXk$K@cz;55*RLG=ZuGm$#Xz4D=v$vE1ojmg#uaK@^|d@`2;A<w)%T>%((aV)%}*$T
z_Q}4;+N9#^Df;>qUw^?jSnv#O?7in1m+j-SXZ)c~cHO&f-Z=5ouAlY&r0;&)H0o?8
zD9_53Zymhj{pR5(X2Mbb9(9wF8+$fvKj!}J^1ojGPy5tEcf)%ZZ(h9PUz_`v7k_l-
zhiC4)kCf^NYs(WS(cE!cx+Seme=_!q#$UGmyzPGAHQC}<U2Ss5u)OD(>^de}jy(pw
zA(99f2_7dnJ%)D(JX1JghGdBu69=X{XJJjqYMnE&=65PjiW%#&C1%x{^h>?+NGiYU
zc=RC9I;$FA+WCUp!2mk-%<%shoddTCFv80TEDsVMlKdek|A62Rz=wwiJE3`Ci^a=l
zaXgt8u60)pSLS7~3hyFx7SOZo2Jz4{AlnBp&FPp;v&Z9EFaY9l%^8np;37z)JQa_>
zwUkJgTPQe{#8eWt;e3vTqXf=V{s<7`4<k_Fjz?xU1~ZTmLIB<&RI9gSBCUgWF390Y
zrQ_J|2`D@^6Sjs&s9NuhI_{7Rk_t+XY1rsnOY<7RnPF*2gpYHkO3qx#S#Zu;>lFum
zt<P+=;nq69tE<qne|`_vajgzGv9S2X!POkIg5&xEbf_<Y<Nkac;H3VUt)6GL($8%5
zKC`s}wX%*GJLjm(*jKJ|K1VYCGM?)>c#Q~e*%52f0##~n>@tmld%EJv&>FUt;@GAZ
zG#9EXJ3ch;R>5fZR#_MEMa_<`Lwx=Ez{*{Wr?M$A1zr`jEjR(+;?tUcJ|R@KKv#!x
zlP+rBs>>HzYu&z3i|GO_Y`@0K)<x$mxLz(}!xG=wLUNu%yOq@$*FszEb15FI;3@<d
zu44;DzxH(}kwKvm38Q=gm+J&H1*jI{z>BCkW)os^KE5dOS`!v$`GU^P%?WTYL4Azk
zkHRAHlL#C`067OVPaJ$qS+Hi1A54hHdGturY!}Lg(=3=v{NJD|3mS+23hIask?IrX
zB&tK;P52ic0{A+y+0a<9G^)*Q1xuUi^%vme54096t!khhT?++EM6LI|m%f>Xy3Ll3
zf~7;HeSdeZWGCQ0>VLm~-LJF`6f6U($N!#mQ@X<{o^ZhuE>Xt4!YYAX1<S6dI&8KE
zQU8LaTaCs(JbU+S!LnQJ>Hko=3xn=aBfTF^+?^;`hE)CDD_D9;Hlj0p<MfKS%HDjt
zU<s*RF(@r<8#bnnfPK(<=fw}szJGRoRB0c&ZyD1MNi^*phos@edOQa$-`I9c!u@4t
zO`L_ZqC1Q=b2iq()h*Cas7iD86=Dt?Rqs$U4hO-ySR3bL>o^x{=O}Q=y65by^BwC<
z{R(lFobkZ5MBzJ0b6>s!u0_zmxPUx_u5@CV<MBlT8w{Cy$m0m!O>EpIw|nrAM-H9t
zkG~DzAIa^v-c74S{5{};f5{}7!JAdSpurzxUNA1}Z4+34v$r}K-am<mS9*ZI4_$p#
z=?3yVk_P_Q$YmmCn!a|V{OSeQCcH>F7M@Ev^aKI*hPRgfb^@1an$hQnUxNBs#K7eV
z&wH>BtilppkmzPb2L-xKaZ_0&njhWG8D#gCcMtNT;zI<kV~fD0=lC~)S3ZHjECTq2
z;E2P84=&|+TtG6!cK8i!74RICul0P+kyv&e4;tKj6Oe^d0RD7?cv26x*3CM_-h8KH
z-L-M?)9(BB(`sv1v2{dg9Vxb+R9a6KT2HT7-u0*+-+R|@UY9+)N`%SbRH^C5X80<e
zU06Hebi=M_{p`JpPD{;Su0qEBmh0I$ho0!zhQSt7va(LVQ$;(DgC`F>$EF3StWMxv
zH7$T$P@VEtmdM-SzYhNG@b7?sCrjpCtm$>oxjdD3=j&NB_HlahG_-o*zX9}PI}c^D
zwS335^oai|a0A>{r@Rm7*6<`RAY-p8<^4dT#`avOcyPBm09B+9Rp}#SOF{yFE3r`V
z$Le(m!jAGAK3Ob_#=JM*lnvD8orPG>*G;Tt4jaLFA4sVQ{u@Pfp5O%Zh+3Z0k1O8g
z*FmQFK)yNOl5droSqt(Xu9|qY_DsPq-Hg4rmR3T?&9`lNU>7=#aksuwn=$7FWNB6<
zV_)Z8Qd><anij%UU7+|($vT1a8hxZ@7s1*P?<~<uNG&Lrw}Ev28l7sEJU2|pvnzSF
zOC}GV$#T7SM}5QdrJ8RCoaobYuE~D~L>D^YKM4N}YsrVi9;2t!Y{>mMu}Z!HCRsi#
zwM${78qZvbh}0p4K~jMCJY0nNJRB_Ns1yN7qxV}?LeUA(qkV9CepL!C^i?%OQ3@OL
zfcvGhCPrurLmV(DeBOx0?)n^l(7hJHJa>sh6<S?V)aaM*l0s4!j#z}GDCA%l=cC)k
zjn<}I>EFF=jk*oaA+`hiF5mP2B7-fyYs&n2b9wg!#9pGXDzILHuH8&6xr@UU`E(ld
z(07<oB0=-sJq*;IziyQ%&ccX6b?YkyC0ngMFSZ*v3!_GE>$@#>Q@8Dmsztx^ucU8(
z4t?gYr0)=6hv-SN8PeUlD_6;Ey%YewL(Ye)grkFhhPDG$4NzP_54EbafSd(Y$vCC?
z{{lL-&P()`s7g}6;4|L~y(X)gp~w<a03xq1KHVbuSo_BgW5>Y0|GfUatwi1@o-im#
zJ}JNwZ3w>>m&j_VN;NHodFYQUud4J6ew&`+w|0NTZxd^gnksxwRSg2gXN=SM)Ht>K
zqj4HxoJM^d@g-vvwlhVrPO14jB<qq|0a8)`pj&DISTETCdL%1AT5<vOf+T93+R)M<
zIRW~lI)Hx32e47H18kBU00R;Quvu~gY?0~#wn|L^+oT47?NTGa4vGE_`E4>ElVb2-
z2~MAgnWv|x!MLB+LjdrT4E^~ZN8vDGK9^>B6!GMdv2_7{{y=4O**JbGL#TpB0_RU7
zfJDNdLEtO`Xzu(p0?4A{&mr(K0_PEU1%X!)K=0aZFWL*J_!<IVLg32?psf+>(d_5}
z&U0@GI_+7g)hPX$r9U^cMlOrOjfRzt+JHx`L4VkbxJ~yL;5UTk)En?GH3GGs_sPX2
z9^JJ18>7p3{#Om4OT+L;@Gityfah>PDz5tkwq%K)_U1%(nQumfQJ_QfRXbH+T+PZS
zvX}Ii506YZ9_=HZK>(fFngbjv<;irTN-(To*z(#Xm)OK5KCw6tPpPZ%SwU++o{JQU
zpTg>u#Z|uz3tnfM5BX^3meTNp7^AzOc^4CG9HMVqb$A6eYcjXE9Ovz5XuN26z0fN>
zwu_%fwF?MbMj(yAA_7<|uzp}&*ir+mA6Q*>Dum{%u`XCGwBVM%rlw0rS0kiu8m&Jl
zx0YMiF3dO9Tdc-dd66z_O*On#XiZvbFcV*lqo&5{HPov;Rc<Y<uI%#S2hl)ID4|FW
z3Psg{ZX*Yl<`p4)8Q(sX=FzLTzcu`D4*eyL9+LKQAP6F2xKg80*HjjM;bdUDcRVtM
zT`=^{NY%4Sx^LZz-=x=~&v{2<tlL0e;6Ps?2t^V8-lA`};@iDqS5fdo&u+Fevb{z1
zH?KHUJsXV3_I7XqF;V!colt6n()cM-v5&4eR`<)DqnmpVEA|m+kUK`yU4yc{NA2G&
z+hdz9j~;C*x_T8?Z_)L_J=Y7Hk$uI;loFYeDP}VmDF%m?;BYZGp#&#ns$C6_6~og?
zc)A#VMG3#6(*E17TP}FCN9tuNSgI$yjYax^LLX4+sN6jU4c_`k4vV{9r3X}c=-2ch
z%q%*tkMQrqpCvvURU$8=p$3L!Y8T>*iaoIr?j9hpAr|+YSN5HMVm7(!A3+4?G`Zqh
zeO-=>%44TsEUNiVsNh1=^>!8M35A|e{q1)o#oxC+UxJYvpvC8ZRA=`3OJ>3yfp8MI
z&ti9Da{pu@e5@EgrG!rv!Z6dI8rffrOem2F7`8}{D)eZPKB&+KVFFQ@8B=oNF;K%s
zdgF~xUs3j+koTUF>C<XM<dK>5M$rhJfJXa^o}l6h7Crrnr@!c#yyuxz1H0tFm`slW
zRC^EZ;4;=A(_O%5^FBE+Dbtex)zR}iQ1$}KFrdT^6?-ozy%$uv`3}ssXT29@83XpZ
zz>A1PFs{(!pY(sy@tIfIKPB%!E7LD+XD?jpB!Z!pb81ub%1Jd8fvBC@(z-GQk-4?@
zV%y+qof<v#$t5Lvq8L4+M9&nWFUfRh(;r*!**N-xKE*#)^dD6G2Mhi~YE$3(Nu_DD
z*tB11+Fxio2r_7#02z20SQvlTn)u=MyVn)p*e9WTKA3RZ?de<7Yy0l|`&56V=-;LI
zcdZ||?;nGuZt0La1~)7}^8C<KXg>1k=+6%S<gn8Gs@mEIG+X+CW@9IW<3iE3)9cp@
z%;DA3s=sqB2CKX}1;o~t760zla}V2sYn~1NkAgo87TS)k+8=a;*T%meUw!fO$9}*>
z){cL8?(Vsbc!7Db7TH_pAbi<505fXtSr6R{^vQIe9OzT&aFLEFbnN5EdakhRg-^Z8
zuE}4~$4ZBZ_My@wNkI6Q3M*82?ZAC%@L_Yu2cGvmDjkrS;UY7xFylY9{>=3g7pQeh
z{mN+&L8$vf&t1R>%DwxGy+@SZBfqfz()DwM5rXCI02J^AAHI7SMwa^~ihakFzGJ`G
z`^$qrKL{vTK|w;^A$jOXfj$a5#l3&!^y>1x@Hi->yZO#&v2CByw(lOb4>oL(?g8B?
z(qjreR-~sCdg?xX7PO0r7K1}daHtqOssxXI+E)lpqYY2dMXF1oy4KQbZ_Cu4BDG(k
z_M^=?iZuSf69V=o^p5uG`$s-BEx#}=N6x{fc`yt|2D8?-)-F?nn;u_{je*$NqtJUc
z&Td?k>7zyZq(Yxm{Ue{E9qT<s0(rcRN5+c77nI=(s=rHa>;knPfjuz@;~pW8l8{?}
zdtH+0iA_XrM4?AECN|E<^pPTcLZMHn{^3t8h~CKxz2UvZ-LERUU#-v^26_WP@9+^I
zH?V$rJuTA*A2tvDo@i`w{<;N*gztX`hf7xYJ_4<cmg-Q>P6T(C94O~RITy-NL{n$U
zjdJxwXtd;kT!|){+ize0hwCLTs&62|V<jKT`H28iYDBpvR2M+GW<;q4<yui)8_KmK
zybhG>M7bc!F+}u0DTH!iqJN4kMNl?M482U2x=^;8=sQK0dQi5Ph>VwFkXvz=`U$!N
z?h5Q-jgco}baikA`4{;Jx@XOT$n)T2AaG~}n{(JNjN>mn3Kj5gAb{)_{yP9PciEww
z<iH+^L$o;swF2@Z9?{*(DEf@u{og<h$j<rGJ4DImvN|^d(UKLuunJABcOtjGQmR8G
zJJH0H94H4W-gKL~Mg75rN@1cs^vH3>Z0*==>nvGO26_g^N_9AEhlMNQX6WY({n3SL
z^_T}@A=b)A;iI|G50S779Aa)LgrEnJ7!+<8gzI1bk@cYQ(~`l&EQlll(IoU_)1wlD
zx?PCnq&4D>OJWLslb1<|^KqQTMyS?>+pY}PqN`h4$ll=V5M`Z#+PFGNY(nBCKqjni
zKDQbpR3a(pr(FD8BFXW1RbNM_-~%GyXF%}FDGvYmMGvv#HN>m4GXSsIC-eyZ3;g$?
zBU(z~BLF2cNs^Ck1nK<^5&A7b{SR^IH$?b1ME7rq^M5p1Nz-Ejz#k}r+*`6ulH_qx
zZEU^$`mNVXW?b5&eI+Z-!Lr$0D|_FYxH)mB@q_mF+t-#*xJ!2JQLLkn>oCrfDU+ET
zlsg8V5by;f!sPm+DMIcm5da|aZ*rAT@yS{8qM7VaEnRZ=A;t2-AIzwTm;L_$NLF^x

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/mamba_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/mamba_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..522ae0f3304b1affa548a35faf2bdd717a37cab3
GIT binary patch
literal 4703
zcmcf^TWk~A^^Rx89*-w+9719UBnAR&hqaR>Wno#CCIps3cr1j6>aIGPc&>?^8Qa_$
zQxX{oZMSMrTOmFwvR{3Cfk4{s*Y=Zs^`k$Y4J$_@s;1iZV}B}F$%<9KdhU$Jb|I8*
zKh~1(J@>rsnRCxQ=iEPabchIk8uzo@{V+mb(1rK&H-NR@0&owhNM$sXrn66DbYI%1
zvuT!b@m!h%Jgf1#KkavLoEFf9wBW$J7SzSGsE5)aT}n$1&aZXoo#{?JoDMU{hcK%K
z9y0EZ=`J5SfmGo`qy}*acWnVQM){o$d)lUlTtlLJo=J#b(#6??&lV;%#V{@_#134X
zFJS-@j4fW)G<~vI$mXuXip!|E>j~EGo-j>ZFmuJi<caBWsZ=DU9c|*yU{g^QQ#o4B
zX(}dm-(*qOi-i~HuxCdTIbFgTJ9tLXXA}oy&Sct5M#08n?H>UA6da3Dno&{OcL^Mv
zW-*6()pr<Z*q`rg7j)sYfP>iYxP(_(%BONzRC#ceM6s$Lcc=l}nICvjHY+TmECY^}
z(p})%h$`alET@J(<kFj*wS+mq^?>y7i_+f&n`NmjS-;u=x_cMV4JO?;jS`*qj-!f!
z9p5zl^_-Kxq)}k^5nLqTa(PBEGqbWeORzCp)Kt4$&XiT<Dp5+ave7uOj=Ae{M#;=#
z*`U4;Y05lE78D&DcIY}ByPR>(-S(^adM<-AeB0Lr0A}I8HUr}?nS01=5^wVr^b6pv
zFcn{gt#DqrG01Fcs4%8?QP4x5D{A;op%0h}n-`j@nm`4~ji5!y40-4Z%1a*Hnm0QC
zd{>L^K_I=sPWf(+-kLoN!3yW%Q_4&B?rlkVP(JEGt(mNv{oX3S&4XGqXzyvQJjfjM
zpqK0(^XRR4qXYobLoE&u%J1=@*6e+G)@N?@u=%(LwdM-<h<Qlk0e;}6%`OCI^?!V2
zmib0|H9h_<?A7Oe*ZjBfWlb;6qlAxUXkIlTF%ybUL~R}}GGtdlmUD%iDa*E)GjavP
zR0<hP=pC`UGey0W(-fMhz01t%xdNfFWp^2H_tmlnm%ee)C0)587s|S9;A@7xm9AQ8
zBcqheGJ#}~TflaoiZewOw~;CHjA2V|MrkPAj0?()hUF5$*&HZ?Y?CWowRy8hGP5?1
z^^!SHXd<vB9n@)_Astkki_vg_&?{++Gg>h-=WfsE3g*~8y9Ykj#PInlq$fj$l4KN#
zJ>W9t)EhDsG*k9IQ<cr)94^?~pQBSJl}+3rC;T>NU@hxxN;bjHj<+1A+d)~*&>|_z
z2DLgyf4Ba1dc@RABc)s^X)5F@Hj_8X2i`h3cL0xQxtWpDyg6GejL?KSa{Y}F#jBhn
zGfD=`QH>Fu7CjjVg;Z&t&=RmP{K|x%@{XO}FylQ)|6kui>zydrc{^YU(WUM8L%;jM
z<2_G=lYa|uSxP?I@+3S~6~?OJv6Y?4+Rkxn=lCM`L>PSf+VG0hRg<<^(zcqEw4`KB
zI%G+Q9ON!b+EtT|SkjR-o{fuCV5lx4;1Bg%q5fJZZiV8t(2>tVN1n!$ABP@<R(qng
zo>8l3^l49YCAzH^ja$)pExO-|?yp5Bt>~nK9JZpvE)w)^?yd9wNH^Htx9#5C-MN*%
z?dzMwMCanMC(`cqUNm;_)4iYUU5RY2MUqw|S?wBm+S~6j2DmYYab#UY`wo2C|4IK#
z8TSF>=Td52LWvYL^`(q->(8a#Yv5R9_ds|+^Wq$jtT#Fv+fOiDhC-%Mx+o{21<EOj
zHvqT?<?p7i;>%OYb3eeg%QdKTkXDVrDQIUNHZUJBDrk_KypXnO*?sP(vK60~rlDEj
z7CsW4xP;;2Y|e;*&9g-{Hba{+BWBKGigEh0Shh%F*|Mg^nzuaGxaFy)j>$41(CTUP
zug8i7Z9e8+{1_;1^buIyK#vjoQO=x=IW0>|*MjaKTty9WqoFbBXm_lcymV~h1Z`EC
z)_|fp3>y+0Q#LX;Mw5~eJN!<pErX>9^yY|A_a!)6pm~kZycVI5k}=DQ=4J%LcJj@&
zGA8pf<QtoJoRwh7>r}xg3^t=1^lZVYBt_T#4vP#PY|DWS=PkVR>f8HY#J>mn4LaOH
z^-k2WW06@6cimaIy|8q?wtdvvKKfaBw2s)ISobj<$Cx!1z$&0b)W2<!`FVIXyvgC-
zv2=bpJXjS5$q2Q$%S|(_EShQ5Yaq4-FYT{s@NN{i`F06M%;|%gomm3~llLgO$(qfO
zg<h~3s4BAnozzXPoeDURe1V5=<6$=H*j|wESGat$M{L=o`W~@OySNHh;Vb?uORvn?
zwn$+JZO5Pr^wBW+&)Q(fnNr#ILG_{~*ezTF)JhsOhRs81&`XIxD{9DFz-DjSKoQwX
zDTA#_l+BSBOBERgE`vG{;*S2@*xT)y^;}(*8|vJ0xNzdtQTRV8N>d|#0|UgPhz7@M
z1E;KkQ?-FJ*1#F45_hI<Ppz@OL9r_IuL~%VtR}~+M=vbLr>mE*Sn(@WVfVTpbwsL>
zp<iFKBJt|*p=Igq-z%2%-8zecaY)>hxVsifS&>wAbbMKwcsyZA$0_x-I%s^Csl}(P
z_*C`1^VRs&a{L0Qtb<A@Tzglf;d+4U66=TyicX+IX9O(~ea6t1NTzKB^f&-ZvV0Bh
zyh|bUL144cN7!LmRtkk8v=Y!JL1`z{;dcL}vnSs@cj1gYee&#y)5qnD=cbOIm5&{t
zJa_Cki2w(omw`YOBb(E5hH0~gNeF%6kX>|eLWCA`Lf@{0K2*p-7@+$pmo#kqFFNfC
znV`6iMq`n|nkLH$h9m)N&^O(<bLND;X`O+pHE4zS`X^{**HD$~Uz%R#hE|2GHQ`N5
zcoV$F_bmz49b;DXJ8Q_t`|HA9zH_y2sLsO-e(T-3wCnEo>jAnFP;aarq>zXrz4xTM
z(pMq6N;6%2Y-Q-}It%k^P+a3-t`BYD#nplRbslC=)IU%UP)I;xc(Ht^a=Ws0=~wT6
z^#1+*A0K{jxEelS1rI(80*7-hj`fL6Hml5JY(F%z&<VOer1`_~nfvTaxy_^FN_#Wy
zn^I*nrx__-F=u55bgy2_p<RC?)$FNKUQgvpI44O2s-B*Kz10(FzI@^QG07^>Fw=u{
zx@PC3Y<A-4q+{^|<XZ1!ec`YhO-INjV5i4poP?pyG7PgOASUz|H1q|M{*HG38SQ!I
z;~3vR5e&~n#Edh4<wA>-KR$hnS@-{tVZ>^D{BgvJPd=Xh<CQ;L`3g~-v(>)=aeHXP

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/pallas.cpython-312.pyc b/v1/attention/backends/__pycache__/pallas.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6cfc086ee1a755d704ca8e1acf76f30d611e6a8
GIT binary patch
literal 16914
zcmd6OdvIIVncuy5zX6f}N$?4g6h(+Hy<e7OJxE&*igqkHj%mjT#Cs`$1OfU2ltc#9
z(yr4`yO|X^NtaaW)^yt))3s-!{N?QIPU~$Z(`0t1iz{dc=#4T}yPnx<`VVX>vpeY@
z?e9Am7XT?xcCwjH4~cWW^L~BjJKy)6@BWq3Y2)CchChn@=~0gRJBnz|R{+-k!oYFM
zoWKcul$+#7c%EQgR5zkSsE_I=4I_q0<A`z6G-8@GkC<7$A!?blj#wFNjM^scBX$Ox
zqK--Dh;!04;^H|SC)!2#N4(n8h(|DwREfIr4s8gf5UHJ|m<A!WOM^=xQg@bO8nk6<
zk5-}-qHJF&ra?&ErNO08u)J#-@mtk3X&7nHanEx?!#kYNC>lP}tK~*|MV_TMA-(w{
zotpYlp^=e3me+#3R?%3j({JVIPv{o{=y|x*qXr4vwn%qvk?!0gy-n;A+*{<eBmG-i
zkEKx1&6+t*=n%cacKm7u-I!PCe8)JlTi8*##+Xj%ddD!bM+m;djqDY6qR(#pdhqM5
zTtlc8yT)unA8PHJ(Y148V+Xg$OWp$hHBB~;>UeIlWu&!`5*XPAjI>7ECfi5aS(+`{
zF}ZzYJA>`fz+~r0C(nu71;-Y%-D-ulTG6dm&4XE0Ve}56`W-`YpM${n&hbm7Rn#D%
zMmq!SOtg!gf>-cqnDGB<v{>(ocsAw|>dI!(jajH8tpERLg#NM-_Ph!_`QFd2b2s#_
za@YCbu1B=cL0+*6;beF;8crmJg9gQOGMN-($w)kQDm*$N#stM#OgTF_6;)it=umh@
zl*+O%%}j}C&-V3bbn<jOHWs;pm^~7UBty~ol`EnY)G3BhA#zP|$HW`S&{X`oD23u<
zp*@f0X($%Oa5WqqQ!JOqqVaHY_W{Mo07XAGbx5(m3yJ$C_ZFc2lY10HB$hm+7^f*f
zUxo+<h|nR4Z%#)fF%cRM-$2~_jiHmFp|htH-NZG;k%-2Vp~>*nR3vsqu}oYGjfO|B
zii$TjJsCo5dJ5|yh7!@psF+Z!Q{gL!L}m*G)a1|<27WmjADtLA(JB@k4nIf4ZJp>6
zE(abL0xpL+6VD}$g)-cDd5uD1%9P?#d`g$nj~P;ilu^*XtJBbE&YUt|<bsA_i6|sy
z<JN{;7-~=_H6cf8rfh=}yoTlP3v0XB7oSS>O@*V_Uz#18YoVgliW-XU#%0AaiUMr0
zEK)tS<tML!yhieh?W<KBG4Xn_v4jOB0tNS*GyTcQss5?RRBtjYT@jPLH>M9BJ~VMq
z?2kq+_fO3vuf}8jG{XLCyZeiS?7ytyTB2VaY2Vb0QnzWeq4-pY_E*}D{^%k~9E3N|
z{kod74)dSY`Io=F^zEFZG3RtIHm%%92aly4$8!zs>0@7$9WSk$4fVDKN8ZMHn$niW
zbyVeM7oY5+>yj8t#HGN*wVpr$EXS9gVz#=H#X^;krzZfs3=|QlhhkK2GY$oNj~Dt<
zs-GN@q6hXWCP_?AOR){;Mhnl-jhKLCE?M9hI8H+*LZy!i=r(6cnJ#i4^20%%tzgjn
zB|F`YMiYe5g{_r{0a0q79AM~1G%OLn@I2KZ)?=P~T+P+@=Nzt_qdw>G<{W{X!v}xe
zX=c0NQFlS2fh+#g@yV%pB9asbZ%pCTMUp3{lkqE3SlBRInjM=hO=y`*=`M0oH^2|M
zpy}yTNl*=S7V0D#Doi34kFkjmGc$r;!U}Jm%U5%r`UN)|=_pc)&QpNaad%=kA~(Vd
z+=x!p3%qE+wXQ28y+)R567+PekY^~%GmCn#Gj)Pdv<N2r%=lUGvx)|^WCdg!)3JIE
z!Tyf1cx~FyrbD!k({bJ81m_m%t}W7e!98XXJY}PDqV+1#g%McB3>&U%H*#t)DldMN
zYZ82A^*kHu)t2Q{&A5a0O6`k`5*4qI!W|<8F@+7wOH*RIZ2+*$&G13puwr`g<j~N`
zi&8(*RF4oy-BSyQO(+(g6lYs2_tB>nxPm$fBFFRGLwB8ugAJAI(1o{QSVbgsp+1fr
zeAN|@5r^vl5;hOcL46bP3XMh+v+b2TV*}I*O`sJ<S?9UW+`+UZsE*S{^n+bI3B|@j
z^=@($=+9L#Ea1|jK+SNg1YbzvZVn}qQr~FtB0>+exNMbA0oXu6^vME0&T$%NUP_ro
z8*@gL$_PBgQpPa@E-BscBX&vYB$A+%x=Sy<96B?2av*f^?8so~<j~pYhc65cU&4Vs
zjC|<`dC!msF^iLq!Bad_VL=duP;m-RoZf0$%;E`7Tn$f&v%#k<>BgdQbduN&j}a+n
z)uR7?)833@-~EHbvST=}=dAv`iK}W{Ik)Dx`=;D=D1GEy+I>E4Ij`=3BO#3zdsiGn
zqBIu8MtRA22#Ld^w62;Xn5{FN*79{0c#X$>n=pK~CviPIRoLJ_BoT<klY!}kC<MlE
zCnc|n0jy}Ca9Q>dr}NS@c(qA!P?F+OP%oWE`_ce;gYXj6CkUT<LhNO2&$ex`U}a@e
z)B=$?tdxUuH>MlUW?bjemUHSt*y$DzjWRxOw0QNPcoC`oJtD*frMPiGo85R3!Ad!^
zNP`dse~vG4OsG#3e3Kie>u-}w@fxzu=>&ZWzgZySxP4PGL^V1(izS-V(PaV-3mmb9
zdqm@ZL=y^{6i))Ip)ef<yQj`naZHA9gxD=EzL`+b+%Xv!L>z6l6pE7ys3}n~hEq!H
zuNb?Myo&ufi)IzC)&ye>h?NAtih7Y)sK_jA+`1}4`3?EAU0ZD66D1eWW#U`#aG9An
zXY;B(8#pQlj%EXAW&AtN{v7-fL;U8)CeGiSbJS%W9kQb%>)0bZ_N4cnS=a0Qwgo3@
z`x{m!*TQm3f42D<x%rt)^D(*p*n%_X22a(bqJ_0Mb;dQ0mhW;AGj?J)<;Q?XN!iYU
z6E0x_c1AxeoktC62p%XbwiId7*C~lOQ^iC3QNEZPSI@)Nq-@(}cRX$J$_joTttSHT
zK!qDySFLM@GmZPxminB#HQl~fcJBp+a34xr4zam!I0ba{=(qkS@W8Ho<uf4g69bqS
zKcm}l0?^84SLp<4<U~6~DaarbVC1Pi!1{^T8LUt74C5nQ0LV^<{1FF~$Ev;vSo#`y
zbZQ`55X!P;PS93r#KcK!TEy1bj;AbWvDCY$pP;6Ji4G2EW^b46?OFS7*}nVkz&-n+
zT#fI6w|(_|w&SSWaWva;PVP9D@t*&=BzwQMV9nXRE4n{?7KI4X-?KO7YHD-tdh7>V
zevm^$7@T9UTCs!}D-a4Pwh)~~9ALnXQ0UF+aFmz?iY1caWMp(wgh(PNdfbiDevC~q
z&{ZiNB2W*GT`?x7r*QsHQGziUmqxEDCRGZM&LB-9G9<lB-mBz&lRU<t6nPVA52cYe
zhF{_m7Wy47XRONWcw_zI=ocJ<bv<XQW(hcEDztN@Bi;Ip+;Ef%>?{`8sTOc>fzHqE
zHscVV^Va3{1Uv*_BmgDq8uDfaS~#Ry8EE4gn)9p*mfz-HNGzUSxN)oX3n%3k+Ghpp
z*$9lr^L(zhaXGpa&Fd-hun;j)1bz4#mWP&x@@5vba5mQ$RsstxvD8}DlEv7(I-BPZ
z+{J7W6p8@Kdszvc@$l;DJcr<}8vNw+7ZfWL1eEu%f)1m9^+=vWaJT&n3RsEHb$}QW
zuw@>_G8Y{kLUQYW4X?zgzs!mHN>_+z6!@bkxn-{Isk!>6<{F-wYkX?1iRGFwJ~Kfx
zmY`K}smJbum<*E=hl%ZqL*)yT;mc7dFdVp+lB8|H9h6YqZ%&KS3>d+%L`s=a#ZtV=
zNYGb0Sd^(gn2w{!I~BAdtm$FMjv<tmzC~V`JmRUPtMC+eC=`x?ZNb@!#}Xl2ZIrd?
zKoCD5k@qoviRa*bhs)P;HTBCqOFbDwORl=^NeJln`qJwe!?v8O=63W}G-GJUHMG9h
za|bm#b31$Q8+ug~poTY~KphgutqVAMB@}@CQV|6NeoQauu+Vz^45A6LnGv#?Su~Lx
z28I_>G2}EL3WHQ>%~XilAQ#z-c@DHyD>$J7wiXoE^@2;ZL9tv}a`SAFUbRJf^%m(h
zq7xEY<v!F=`<|Lx`_$Ym<W4BN>o8Lngf%}CgN79=;S&=|7>lnM6VNn?jOSMzVW@;6
z(1ygPfTu2KMFeQ%Lf0cPA%0zP6;Y4LE{Yo}#7Hs`O2o&K(7jA4R%nl6AtKgF6Ussk
zkf^$<b_zvFH_0vmRkkc=0gG(NB0~o#-Z(;M)j<izg^;egvMX4xU9HI1XbJ}n3m2mH
zm?Je_2+~j?W<jjTxTb7~0dWd>71;qW33Quma>NRuZZRiie9NA!(F&DI5GiZYtEG?E
zYEUVhfW}NJudCDM^fr_i=)<9vO_{+eQ0aq7(gHF!P720NE@d7kCE_NhG1ueUHf12H
z<!L>a_d3JP5F0+*a*{A3pkjt51|_Dars7gk6#8Z-2V<jPxurltjE?mdwTOXm46j0J
zR=*&sMMkA~B2ivO5}8y*g0?sbO?N@Ks?5NU0zi5L!wyzS5&~6FbrX~zj|s2S1YIX@
z2A)z)I8Sso0tGa2_fR_549AnyR-s2Gu1SOqig{r0^a}%nFDdm!ga?xXp>7sJu!{Ok
zBt~Dn^ipWx(yK2HhAzE;|CdgmQKO0;oS0&ak}e&`D=9^$f_B9~D^oV&(qKttA+Zr(
zBZv+A20=9T1RWCyjG8N`Rze}B#1CzyxuBW#X@&lh+W8qgaCr?}L;Hf^d#;?nje-Zh
zhL!!_e;uGL*VMIOxNq_2T6!pK%(eDW*p%xzLt*e?TjvLT@Ausu$nG1I@!vK`$*nni
zUE1FMpn7|{^SMm*^J&NP5AEJ}o!R<cxxV+Fy%#xooxZAfU2m*$<vF9%m3MK$UaGr2
zXZNps{T^!foXPeK$vs0kPfOO*A$vM9p3bbNNA~n&Jbe&$dR+?xf9nWB7vSh%Hwu=Q
zJ#`q_?WyP|#2LkSEgZ!j)9Fy0j1+;BWVf(liccq}rjv?84MU9PDb<BoL2E;FaFiq&
z%~b&)y0U&8Gy?*IWnP!E;-nX8kx+J8Q^xTk4bmDYoh_W*F6^j3WuEtyC|D&SI#p~_
zeP&4MDp8=<L4oFMb9UsG)6qi5MA^oRl%q5nq>`3wlPf-J;IX4pYXT_hI0+=1+?TYb
zPZ@rXt<e}Nj6GSc4Qdv9RG^Uel0Gf<%W7#NZdp6HE#@4_;tf)XYFAS6juW@G$&tDv
z<)}OcQiDM8Z2Z_%TL0fuulnDrSN-p)SHo}BEA3~~rsYC(Uii{;G=OvTwUlYR<;mJ}
z&Sdd^O9B5<#*`B!+ny|m)Q$?NTqWy`6ko}D1F1WoY~drTn#PlQq4UZ7w}O>h6O2S3
z67I^as=443dbJh>vvym*&6n+8pO#+=E7^jK?=9tP5V$NOR%M?SFNH`wP>N{~Qb{7;
z<d8}#<V_CGuJi})Yn%k7O%AEYHzgs8)Dsm_e~Z2N*!mH%1#qCGU!8i?gVVxjzoXOq
z%5}e^8)J`0M5V`1tNoPwpuu*Hx<IjG3qQcM@myTG9+m{WKqeA_>yhNufXd_qiX2m)
z&8A)TC#5TiBgGh{vdivBfGOAm#{#brTa%2#Bp}hlo-r9)AJ`cvYU;nap*k+fr&I>B
z^Ck7!{rXR8L1U<jjcgbnO_9xsUC5YI;bI2krOvNxh<kdrn&pO@|42ZS#F@UnY?-Mu
zaxbx0+)WGpyR7i=?1eG*Frac3*eu2~GO1hRm}kUfpvX0|5j};;#TCyz`af_a$}<N|
z>jHq;T@xw?6Jo{~jLC+$Mf^)4WpX-^3|uC*I@UWYO7Tn3Ow<y#U<FC}r*gq;c@^Jg
z=2%VkT$>apL(#}2l;xLal8^^&m|bW>lwx93u_W+l&ICtdToKh|KyzVein%bNV4IYp
zB1Uv0MwwbdvBqN<LNqcVf<LC$BE@hmB3>`!ju{t!0`*jVzAgr}{n&JDlvEhusG`S{
z6l0H7{Yuq!32)W(&Z8li6sNj$B}+HqDX!3lB}06}g26(Dct<7#D0<juD0)1hE45M>
zMlu3hG9gq%9w|!gPLMZAUW`1(&llwm#SB{)npw~#{WHq`4tf8ayzi1n+o)P|+#=`?
z$@?Snz6VcXZ;I-{R_s?Jczuhpw?pY96(N;Jf_Nc@zeP`#49s|zA`-LJa}pB_3T6H$
zHS|lM8RUXpoTDCme0s;>^o~Ksv-4GZ*7bVg+4bPrp&j<#K7Q+X#@@K{<~@5L=k_h!
zeBf_+uk}vrnlIz;Uo_=v{0kQzw(a<!`~7a&(z;+<JfHLUmTgP6l_RUk4{pAH^KSB!
zn?Jsp@jSO+%(<#=U%hp8QCiuTZS0X7d)9;>#XgK>T*nslTCF`R$!zN`xpmjwj!*i2
z+?Vm3L_NEkhJhDC*$!PlRMek&yo;BX-&lI%{`R98&$0U_UXeYoKvHnh;|VlWXO_-n
zy*p&@j;yy^_I9K36+YeAt@bB39!=LB`}88p`+C+nozJx}h-y%KbuD#etGCP5+q2a{
zxjLBh)GUV6{@~ickA^=Smi<T4zGpt&i)uAHQLV<caQb)bEpOo*o~*q`w)dp%`+idY
zA6x#cC3E=f&rjYvd;uEWreL;lzudTgVd#OQ8H2#^bDsK~rzz)Y&U#MCo>L6iBYXDb
zJl?FQSN8Oxj4DMHfyXsA>|s6YsY|wZp{JaqD(eWyj=<{adyXAz`?KB8%H7X?y7yl9
zbDvc=rJG;KRKJ*Zy!fE1cG<t=Uv6G%&Q|T0tM;QFvmfzi9i6hHGv_D=g0dsXQrcuk
z8)nwgm22zFHE+w+HRgQ&<&mY4Tw`mtu}^O7Lp<vX%D!OE>(6?-WN%jy$ZzMW53F-F
z)wTswekTUKX~%QE#vh*i;hX8UJ*xvB48K1NAl<Y__U&DG?xEXv`{u2iE8}b38TWy-
z<$(GQp&uR|4!Sq1NJ-k4=ExJtBW6J{L?e*cM=Aaed5|i~bg4{3Dy>mkKY7IAv2&-|
z7!aHEDSnCPaM!=XL6aWr&G|dC{yy2?m)m>r^SbRu*Tb6Hyb&Qb7w-UOf-IcJm$wpR
zqh|s;K@P62ab^F~#Oi=t+m&}xl8f^<tq6B)c{jy8h~=vYs^%J6SG{+d@--CmQnNmS
zYPlUd*9P7n&r`S9eVc3DPtY4Yx1&4Pvn#jfz~{cpyz$^ecXQrI0LJ9;-A>&~<;^T=
z;h@-k{nqPwD~rNZOU<>jsH31B&O2Gu#npG_-3;__KpV%BV<jnj+VfQ`t(vQAqL+)+
zOLA>6U&GS8TyxudLwAPO_Q_5Cc{Ub|+UCC9bgSuc9TicRm=?B-a5CafbY1!v<oyY}
z(E{TQke-YSg8KkOaxzRBXUQAA*9~9{tt3Q4+(S9lrOHG<jeRRI*v!nrkutp{Ckc6&
zt0bPMOdkOQ$jv#yK2{LXlZ05zRT9*-+9~ra>dtXxy;Tr`@mA}sD4;vXi{i1?8&nd7
zxy})bU14NpW5*kCr4nCp>=rh5{!7Nr|4w7)E03&f?B)FyRj{R1p!e-7unGHEukG@9
zT`5<C1YOFWauiq0RW@_78`<Q>i;CG&Mnx4Z?9H@ZAt>r9DQpG2Z)j!abiYHt+e%~5
zpp*+jF^PG$l%Z&Z=tlqTT8UDaDt_+3lc|?EycY=l3b9$t=mnyL%61alln5l_EcN`?
z1I)OoAjE7GV7{94QIW0xs)9$w${I^plsW#1G6u2BW%i<4^O}`1<DQR@ohg%ThNVBo
zqOynZ8<E5%W-%;XprmT)4g$vCN+$>+HXruYk=R&V(Iw-GnQ`}f_b5h~f=^B<dYGHQ
z3*S)mqv53Vr&Q<PkoRw?V!befXY_a|0V{yZ(_>@MatrZTTnbS;jCGZEuntD!Q!}BU
zr;MBu+N$=&8@c8ZbyfI~YS+Pph0*xr<wy*CG3H+Ol4Mg&+GzZ$^(UbfGgm6|s0Bd1
zGXFJoOWp;bR$>qy_|Q)7!0}Js`0*REVbA=@`I&U}jy3-SaCooY4;;*R4&8s|CE4@R
z{Mm=**0i}B+Uw=lmR?J5JDl+yS+EgLId*I82QM#wbLpEISNrM}+10zC{|tB7#I1>y
z_LbT9Zr-`MHv6NSAKuKkj)T!uE2MqB8CRdmcUqP#@A}?rzSErX>{#0&dv-4vAApIq
zFWFZHSC4#f{Qcv1k9>0c$Hz0CQ(#7sg9>T??u=*8g7Gt}>$d-vfARE+Z}I5r<@?rP
z*1B7^?!McWK5+i$uV$>T%%A$qVEyjdx6Xd|!dn-zhMlru=h~sWm+l*m!0s{YZk64w
ztNiNjjC=e1nFnA(4=){FKDKl$TeDZL*_*T2au#pS;>kfNZ>h>zdSJZkHO&u!0Wdnh
zJN(x0;?ch~1Pc0bwiz4jU!d4j)!C1+)LYrVNC7KXx(&y1M{ag0PP?5dsjn~6tpe5N
zW+xp^aV2xbN_XBgS;XMsudGysyN;E@gJ4;y3aV+8+BO3#-m;lgxCy^(Cgo~mZO(Ia
z^HjPi3|fgq)fOd;S_#ROBpHr5SOBp%Y%T91mn?EJ0@POjk`pZds`$|PHs8)AiMwI0
zgOl_;_bT_jm$gqwD&`7WZqPdXD1e%ePQa7sePGtg%xC&Qt!8a1NMCL+nl<ZxUQ8zO
zfXhfbZ04Y_5}>h)j|FC{G=)Y{nGtj<Rgr|MexOI+sW`PmBu)Alo?<`)FoUHJQdBA1
zhSDG;c!0a1SPKAXodzD*r`QUqyZ7LOk_aO!qtuj**-9ixea0AfSVa99rCY(ctM79g
z?4k-}iTaoRGs?{qwfSEJa5=LhYi_w`ZovzcwTcehGfU5`OlNAgXKQxKH9OM|GVQUs
zvsV8-t3PM={9thTg{2o@B1I-o&gvhC%kibS?A)$Jv$dTv{+*q$gUTBWTeSJu!c}<}
z2fuG4I_Alm8)b9j%K7`|uC=q-o)dD<iBFsE_Y6O9S1%r3d1>ib#=R|V+4jIzldkQ*
zYh1gYKJa|ndnRK$n>L*N$HzN3k00hp)~f&N@Z|Lf|M%mD%}KvW5GnrSmeWn#U+!%=
z-Oc^9$$Gj=|I-~j`Q6sj2lYQaz{9UhFUSCGqivvut#eS6rg--BqGONK?$U|Fa{v$Q
zHI!p7D-DGM6r#pq>Ce$FyAWshU4kKP3B@$^6+TRgBqA`H30$5D?1jqj@^mtA1qQgZ
zna5_`Jpo4Lj(wX2b3g>zVCj8$1*DMv1K<tlzzjFln`#Q5xByqBU!cqn2`f$knCBkY
zeT!no-ZVduGg}u1-kMoF`S#5RuKJwo)TjGC?aXuhS-uIrvkCeUw+;FctBs_1*P{2<
zk+i|5iY%lCFSDe+hUjQHH6>V&-})-N4Xdjw(Kd|(ETu3B!~m+njJ)TJrN_inkxI;&
zN>7xe)Yn=`nN&0J5=UNE2ec+-WQOAg=9|e^Z5GMibM`<%QOc+ReSHNM2ipS0AW;M;
z^w?)L1d~y8krR}j#q=H#$qE|EcpX}Dwpl^TW}9<bDOJ(+2_VH>*d?W=$Z4s&M>w$I
zOD9zUR<pqjQdM0_{{=1mJKEtl0l;|L##x;Uuimfk&scWd-+NBBoP#FE=)+-e4zBH%
zn|jg)|6>#94y?K|uKxMwA2bEh+YbE1oM}4o=|Q>a9I`)a=vaLt)37gXsC#IsPWyJs
zmYwO|W3uH~`ou-qaxwkNH)P8<@_L=o#1H}|vwx4y;quQ)e}f>nU$Gaz^Ai&iA%n^T
z1~z>!rhSUl7rqP<7amPYggg@6=c<0f3`k+t-+izx!&iRH1hSB#e&{FBt)lo?%hSn7
zG|@L1PF@W$P~8_21(}9KF%_zupcE&0bP=oi5hr6x)zALMVv1dh;@dx|hDwpFCH(<B
z#fc|(m??l0g$0PH*r9rawTMdn8`xz-pZ8$IlGq0TTx%o>6B2xoh!n+MmLzSX_Bu*+
z#2c{UfRTMH8IJaiLfIXMYFpJzt2Y|8i~*2sXdf(Bq_8w2(W9`^UTOqmOQH^1z&DAZ
z>v3r!EXAi|LPDygInX7~4Cqwt&~~bA5=8LlBKx*V+C>HSkVonTRRcs95#wo9O2p8d
zkZ+T^NU<DMZD5Z}{{y+eOfFFc1ONf&`CnT&zU}Wg$3Ga1yl$O?_iG2oxBrT3|8LyE
z|8Dgzej{UTnKuDh8(Y#`9dt&{>f7gTog;44wdBIRbo;eiui>`J+FN9M3sVBNLl47%
zZL((@RCuhsTJZBKYe1Lgn)0>J^7X$o)IUC@JI(X{baU@xj)44-j?>xyLFeK7@*F&v
zck1kUiazc<r{fQ<Hb3Sl%wIKd`wr!N_4xn1rjOs213L^oPF@fAq1|))=&hr9BVY{N
z?Im-;yqRJaO^alun2qc1%i9TZaE$>nCCoc1=HgmA-kZ2Hu{I#L?8>_-$pht7zKWn~
zf~ZTfUA3+I2pZ$-_;dWCxID2mvCa|v#Xd7%oA-Kn6ZEKgJ%#O^YPk1+8lJiEH}+rH
z8T`;_d2B?Pf6UL>IZMqtcZ{$9dqa2H(EUq8|E~;fzcQTomEq_^vKe+8n`lXgZVl!2
zfQv@CfH7CqgfefYn1yB$y%Wt_DP|*0ot+>D*V^`l6HvjrmeSfdW6k{Y#MTpc;(ZK*
zU(@F<%x_^wx@HG-?#6!XLRr^<i(LaQ>zZPvt|_K=O%QdRcM{|(DBiwsBSr(+#oGV8
zL+djg9LN|4^E!(WpAZ)23%J-R;Id9BR_c^uYNrILof1^)6fx@bIewiw$WQQC@ZThe
Xru?TW1Ej;B@dLGI8}+|v;NkyYA9=+n

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/rocm_aiter_fa.cpython-312.pyc b/v1/attention/backends/__pycache__/rocm_aiter_fa.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e20b978f1afb6804b4999b64200b0a2efa5be778
GIT binary patch
literal 29813
zcmchAd2}21dEnqa34kQ-a{!*;DN+|HN}_0zx<y%+?a+2mhyW#$;Nbx%OEefOiIY%C
z+E6d;it4r%)wDHT>m^FxzAcls8)dt@_4e8sK`o|JWvgwx+voqFNN)1>>VDsEW&n@|
z<;2O`k?_s;yN~&u-^IVEsxngWq|{%TIK4noKSYQ8cqQZsqoSxARDv3%5{iT}rI=QZ
zDiw&UQmSe7sG8vFlx9=|ewvhaS~sej){p9^4Wou><EW8@Yg49a^Qf8Nx>VJ)Wz<4&
zeabp*8?_PKkgA@p8Lc6>F;zQlAGH(QlyXcvN1X&Wr(DzSQTMcG)HCfJ^-lXneZ;>i
z<)03W1^~B=1{2oNkdjK)OdgOMQ+mHEp-diXt4@VS!|=AHBGYxFb<_2u^^imLThwSn
zq6T1NvVL-;lvc(PwaL24=Ve#vov?4=@7TiMS=oPFpK!gUmTNj1O}LYq$+M+$WGvy?
z!r!}vzi$hF{}%p%E&PL9_=mRer?>DAZ{Z(FwkGP5ZHfA1`?xpJ@RoYC1HPv%+4-(Q
zZ2Rc8q*6&8q7sd7QHiE^m7;I4$GW7@W(bXbB(z%!ZGq6%kA!ZQLfas;{Uf0}q|gos
z?fgjSPEx0B5Z0CSBzJnCTJOT_!Dn<A3G0Ti?MYqHcQ^6f0lqtv`l4^o6?JsiLUbUL
zNzP;@W@qSB{7RCcU!TZaqz5K4N#<ZGp1xQN?)U&ph$;j_BA$tlL0B3b`awiqh%+Nm
zwO}hoel9*Xm7GZkRYjj8({rgZ=h-WBNx^txK9!l6OC?W^Lsr$(N#;T_7SCj6V(Cmg
zlf?XuFQih_gR?W^6Boc`nwXi$#8R^tE+iRn+Q#M?1}Yz$OT{zev&=O3smBr%m*8!_
zkj%u!=3`^C^D`N!TTQVhgNM${&&|y;8NprjJCV%9v02Z}Poxq_MsN+zPEXIyd?Z|m
zq~}slg+y{}Hjzxn=9uL8L@Jez#b*++<Ynl|1lGFL>@#!8u@5L1P!rTu=sl&N%%lWu
zhMCCB&WuST3j3AP!VkaVlk)&>P#I|qQm_VQsY&VkLQwIM$Ke9xlF`WClbFw@C##T0
zv^<v1Kuty_D5w|ojB0vfMldH+$!YA$^u$7vaY7D)bp{#~o11+-$;4*IW8F}B#brT%
zF&R(95);#DtUXQt&y$^*>AB9iiMjSn9KK(s{qp?o-kz!5$<EZo`Odj3nTxYCotNM%
zc3$f0gpVr@w$Ah72uXJ`vt!e-IF7g2c)VloieNmSnjM=GD-wh<8sV2laFu#!ty$i=
zGH`3;=19)p#?`jn8P9hNaUDbVUdnZh<g6!I{mCZ~lNu{_A2_gcNY}OiQr@*$DpTxO
zxjRc;^p0XAs$|@dhOq#^F_oFk#8a`%ER5}R8jGNr06@V!Gd~SuVfF$OpH4G%7#n`+
zY5-!T_x_Im8^N4)8>`>OgfN9}X!z8*fswO<;rW3>!?80*Mu!FS;K1PF;n=~Gr%w!=
z6^zdvKRI}egpAoCiTvmQA+7nQdSh!Q%ZHN`J5l`fi}uoxnuL^_9~fq}a@!XjSsT+*
z7QfP<(#wNt(fKhk4aJzQvY7hKHK3@hJ!{EY<ppYpT2{RJLyB5-XO&rZ*0ccMF>6E!
zrwD4%lT}sl^_G=Tsn*)88&el+<olTTx~y+QeE-M9*KCR(fI0>i-~g2MlUfI}!E7~7
z*~QSu<fP74L0(d8v!M;Oph+&!zQu61CZU{ahQX%z>PnW%(qa!uy;WUIA1?PNHHl;u
zKSS)gvf5Voaxi*KQVF#iz8`+6`m7^ck7denrm+1DWjR**Qjx5Kq!Cj#+)))rXXD4D
ztlKhW6O8MHY~v(3kV1vZp2g;DQ$_zM#IGugD5066*CehEn;v<5z3Id+P$_-3S&p;V
z2qk~=5?ouB5G|I_RMum*O;rVF*0Z6<8nf8j(#ohP+lnSDrS)z|+q5z5vf`^MHO%9$
z{tq>E1vZ-z1{WzoHF9_e_v-0*dMavQ9O!41*3Z~PLeR#U_{@c*pia%k6M{x`Xc8Gb
zG$=E(f^HlFGTXZaO*%8nB%>`t)l~9IY%D%@F&Uf7FoN|`JT;#z^Uz^9h8V;U5=q=>
zGV${%F;z937t+bsQn0$mrY@1_HDs}eB|mmPo*BDH{Hh=ho=_Or9U(^(>{VlNDGSr3
zGKT@T1>7&wf`M$CWOMalYpbT?mt$i25J@m%OmSZ!+Xqt*k(dSqjR=}Bjp{sfjcIH)
z1>5m>I+;leI;m(uClxE`#ri@-i_~H%vS2GVT=p@DO`1qt7EB^a8YP&-JVb|C3=vBd
z%wm-#mtJ&1VY+l`HiKWzzTrE_B{?^J4%uHZ!Qh@OXr^LJ@`9kbL|)J;@l!*q2$IG~
z^iTbWd$M<IE;fBJ9=j0FT!gcQI5wt|%uF)Hya4&N!7q(_=2hxx2W74P+Vr*Qm4Tck
zxTJdMbl;e`KC!A;-IH^6ESdh!RD)g@u3uQ0$~jw>4sCS3@Alr(-_)<xu1?-<%e(uR
z4)cNf)ysFITvOlr1lM$k3mjS+;X}=9J$EO#*8Y1@uJsrfI>ws)4<V`UrjDh%@4m#*
z`*QC6OGh4h{kNKKHm$Zp29ds;ckj|M$%~C_hYTY9Iq!j`W4y0!b&B(K-95(n`j?LL
zzNWQa&bMRf_(PZH#_QK#=WQV=3(nTJp5kmrpQw~>%hKV3mU7jteu{&Z9eQN-t<2}F
z^#vp4i15zfs)uv7tU=hWb-<o`tWr1z6_1>ORRiaYt{vf=J0EM5j$H*6Rozf9Q;zzd
zEltx?GX<@4-*m5rS3h;v!!_(#KbrR(S{~s2O>5zsC)cj5_i~*>oNs7(=%GJ&>(I?Z
zY<<sqA6I|yy=t!hD0}MM1OE%l!^N;Y>o0Tlhu`bs>W{N$UVPwxX?ghXTtPn4^mgm*
z))id|2{*p&zU{sf`Buw2ExGW{bsZP(&(nh(J$Ua>jy}Gk;XgLUL%Z|F;p>N2KD{=@
z1$x&9xWK;k`S*7Gjs1BkgblRcHF1Hy^*9&kzvp=GY~FtQM-Iw+Sn;@*@*GfzM?XVx
ziU_8%c_FC4AEp2<T=G04OH*3VOVb=MX`ZKrsts$EVA;4%3C7|Y1*=3N`PzJZCL>s3
zQ4{9@T=iz>GfV{Lz*za#g9m?dxcoGnZogD}1Gemh;u4kC9i<XV`H1{EMOHZp5jQ^x
z72ZV`s}kx(3#8MKV+p3zmZhwM+sx*K;7;f;Z83$uEJfw`22z%Fi`>MT*h<IytXbX+
zzg%0oEy01Qs(7rZUaB2eB#dwA7i%(j$R<y=2FrnX&}KMrs<XPRK5NKovf8W-4rrFF
zdeR_8Eqf)3N8YUYT5Z;twZhS-`i|*c=^(Gb&Com&RSC*V+Zenn2&%&)LkrPOABdiv
zNnN4S;&qk2w5^SXjkAr0s2|`yN;XrHd}06TlY=K>14qsdpN<_Ih&?wjcx-rNh(1}K
z9@5fNmuNBq@UjmhfQDN$Jv00I2l&w!;x8s?xXsT`Cus;|J`#B%O}~sA6<PMvZS-6m
z?(4Xxwb8|$u8o#2h_ANM=b?lPvl)68m*CeY(#a3-(zM}nh90%>dtwCeYl<7xHO08%
z48?@O`3_!~)zfe{7YrlkPQ;!+edxp)@!ok=T;%n8Q}OBZiTM77h6>Al$6mNe##8D2
zfQZq46>?4E$NkAwYUNWmkCPc0Rae?>qZ&9}T#U~p#SIy6qGaC?)Y#&vop}*`UPACG
z1fvLEM(_%PR}p*~K@7n!A&4V5j{qkg<3~VF1BPNxGW*bzZ1?I5%tV4ofjf=Ero#4j
zK<tFt3QcDiNb(w{{TBex+Cq@Bh1ke0&bq5WDGf&6yc_ldgOLTdma@BU^j_~>Idy&S
zlAbqLEh!3mh`!oz-`XU_J}$*>g4j0qO7E@yoBeBDoUi@9wY@;8490>|Q8l1=q5_l!
zFFoZ5-Z**v<mv!tZ(K6)_CT5IeLKDC&)GYc3=bWlRl{0O&aq?3`1jW4CG|snWOWCp
zZ|2Po-t6MdR^D9Ao87$G!<)Ul*~y#j<UfQ0QUyVIbAU4kR^mA`O(HsYyN`E<cuzC$
z3jcG|VK9=fJO=$xe5AuI_2ejc-Jp`xr~+uu%5zjwl~gAbd%>4r$|9yBm}b&k%%g}v
z3N?ma(L}XExB}^Hh)|1U8k2bTdu=|+T#3O^6Pyz>v69n-CqrDlG0ZCZi-%1Z%p>pU
z1br+v6Q54TVuCRio1RU~!_hM)m}8JfJSBywCUCir0a<DWNES%lOG6wD9G1r}3fi-9
zz@23nT!%^5kYU8&jfQ}`fIPwR{srn$tuv=~@*=FZ=hSxI;l1(7^;aIK!(viQ_5Z1B
zBNe*#d657o_boGzjktv1bp)3Ij4)Ra-PGF8qaT8GL_UiE2{Xj2a(n(O1aBNFlND~l
zNnlWjgJz3RX-I7mDh@N%7NKOACACSiSwcw~Qc}sSeP+oz5~_oA`c3H!=)Pi%ngkE&
z<H3vbGgCly%>V^Z?pnd{`Ybb*o{Ntq1?i%MLo^*5!^nb}yu@o!nyh(nDS%N7Bs0NW
zHl*PUBMt7fc<UkQ(t@Lmwibg$SG;eHMD+|(0hl)sWD&fH;3|U80DvpvL^{JPqI=U9
z{sQ_TxCg&9uGTP~t@f{FuVr&;AMf(t$X*Amj<0duXuIB)QwMpw=f?5t$8&0$uc}_I
zyY?v@`!&wx^z|sFu+)AnbuE=sdwE;!=TGv!(5mWY?*nzcIB>9}$^+*tglrr*pL~r;
z>L4xo>{ql=ozPTaN|2BDQ_Ks&DSoms@jJ(GpG6vYg+3?Ui``w;`=om}b@?(zLGV}b
zOXD5(8B0h`9p?QzAE<YV{fEga_g@d35q@F)hwHmIZMIs=#YwbPs5ptX3Kb_7mO-Wz
z*+YzEvZ0@;h?$F6RS~lgOqZ}OzySqf+lX6VbXOC%q3Et5ZX?93B^Z`qFJcbFu2`c^
z!B=676eo2x9^B$%8Q3}``h#FE^MdoJM3o>5D=w$v!ul1!1T(qyPsiuxCT1=G4S~?@
z$(=<oVI~rnL?DHT4!IDCVlHw|gc^)3@lxa%BnOG5BIY1Er0@~JD&;7TTfrvhQ1r1%
zNs1n(`7~06fL@cpRg5rs#DXv5Vn)toQPbunr_%5zyCv=)WV{RN^Ru(5%`4E?F&M$$
z!Y_Rbz!#{3opSqd4e<tY>VUMfihC+f2yu@stu&>zsoHtNf87sh-~d+Rz@6CT#e5KV
z@R+AhN=^J9Id-kvImf=7dLQrXS>M4q`*Z4k-m!N*!#M_X>Osr~Hg`ucn+Ix#I1{nP
z8)l+>!+G+15b~u>bFtD^g<Sek*p`y|1ljHqs-z*IP8yRYyiFxENpnJ*teW(LW79LP
zU!vd^rhCggYE9^qwsB>`0G!!s1C_8Pj7c5(B}~bhggH?K9Bj*5n$g;XIaveotPsz>
zL|s;lI)J}bEmS%#$m3q(^D!5pc)`UaXBpu7NhH3^MJAcPIGY0QW$`+e1~#5xA`DV;
z_)5do9avhxT|~~LpiLw%O^hYSG-a(pnzjmlPe$OXh8G(gG2(Mglcjzc;>wrGcO`y|
zg378Y@n*7A46l3Sff$(crUznRS>%Bj70x9PLn;NYvz1DjG|4%X-Vn1wY4TMX@+^jK
zk*BqkmyCUEp2ga4ktbdkH$5`B0BU5EgR+WABxh`TAV#sB3FwJf@j#D^)>x4kk_pHO
zC-Eq}=}9OvwCn}7w8?ns4Zil0OU5p!w`dby2sb@hb%_cOHLH<>OLTN*9Q@u<GM(^Z
zejh-z7VfO`aC*W^0^yaz#Q?4d$&@@&t#d$HPo+v8W|1Hy4P+N`&B^*NGioLJHCc@b
zDLeL>V3T9P{1D08WH}dur!EOq7*5ClcvTj3hyur$!HyJa;y@`*rzR4xXT)Bgm`TjO
zE?$T6U?*sj({q_Cf;%?&eC+H=pkbVeJr5)eLf1eN2WhKdlh*a(i4-ng>U1(S&b*CX
zv4-Fs1lTEpAr>Rz3b9xkhby^Ai}VBLo8Vq(eZ~eUEfgJccPij4l70%Qegb4;3uUle
z({XzDN?^@&_vL$y5A;VK`J3|o9h`s1lKO$(!-rb(p*>t^54!w7<SYw&<O}6}ZJe(y
z??ZwoZ?@&lG-syaqU|?gd^ar7fpFg6&iUK({{5VP|9U3he}?Nnlk=Yyvv>LOu4c~F
zoOkWwT)T3vo+b5H&AhiM@9pNi-Qci79)0~7ImCw}B+>hH!`r6YCcet@z}CE0pKs~o
zTKd+{e(#m<yuzA~!g)7eQ^(cR<!ho`O_Z<oJk_bgP@lii2gvpy*rja~c=<EML*oWn
z23%;!()R~|01dGs1+NmjdW*?XTx1|S>8Z5DAtMYXN^uc}+=|m#PDkV^6nB(Gs-Kcf
z`%)Su>>VnRO$FTl--dL|zXK4}G2eohcy||P6rLAwkO{Ulu$}N44qOItKXBuPhn#7E
zNi+dRE9qpCCL>+YoJTQ}sEYYxIeS3`drlhr3`VC&)$x%?F(A-^7)v4!q6Kpo;pj4#
znP-v<`+tfd`;7D<9K}ew0=kf%s;U-AD0y=$XKv*!HF-;rvjp>&PR`Pqw;bjyhk+4L
zbwmMVe?t|FYDi<P{o3TU$+a$a@WrLcoaLn@74Hv-W71l)BvM>R?+M27csdg!l@YW|
z5~@E#&O~Fy?Fj0D--(QvJ+L@$5YbS=S1fLR5KDUQD2iWDomIaABV<vts9n@8>K6@*
zMxalZ=PspLG=YDGv9xFgYPB*!d6C*pB~)Gt8TLTOrhtyENvNlWU=U<8@+k;t#;|c{
zyi}zPQ{IRwjXXK5n7+d1D93qbdh^d&zOvGWg?T2Fc-i(+cQo>mWYGe>V9n~JUbqG{
zZ=ii+EbOmE8}w+U&96L8b*8vsXKkOj&uo*QxVOq{{E5r2&Q>SXczVULQPw|J=%1Rb
zR_vc;74v2Wx!L4_a;1JKj@4S|zgo;?(O!8hN}&!AnXr>l=*$!kG0^WY6Bb<=%z!*u
z=O=EDt5_#@25HdbsdOUGx-;Hlc!i_T9j%<xWLS<@dIQ%8)*5^!>%@0COsKNO)LA0P
zu;?kPO$EUUXmO=d)N&~x%HYD$Dc5PyoAqWr*prhD<t2-FLVZUkr(E=vmE8EzxFE=*
z73aqV<+FPvp}%90#U~d1Ww|z2$kmrnX8o}0P+w5u8uSI_xDr3_vrD*Rl;<a08RXO|
zG36&65sQJcnpU`(Wdk2mr{b5y)`%?{7x{1~^d#4^tc_Bu#kNyo+$rdz#ZWdh+4|AG
zN+^MYCXFT#pDK;oO8pulv8A13k<PTs`N4kDA>*ZY)<4-*a>*FP?UwP<8@{hu9$#6{
zCrs!2xE4<CER`r@^6rrJRr<>1{WG~sPE&e6JI5^j30vYWep`72KBMM$s@|3MQ4n3*
zYVVMD4{0}AtcI99rFO`ev{pvSMna`|E6v(xkKSyg(wDwtDbC}%vQjFIw@5;rt()8<
z*RAx<)`@3}JJ!;i&FquIv-V0~QvS}*JO$W)jvbNgL7%wf4SQiWe8={#bbbcTd1+R*
z$ZagWOI-M8wG0FXL2Cj}T_7abFQ-m4On}w|jD!QSPwD-2MWQBK53m-(pDX#x7=++{
zTj8VvAr1(EvNk^u;)IY2;|@Yx5OQ#H3W|ad5LTT$TrtFx)j+s6s|V=I>Hzw)Mu35=
z7GN-I02s<z0Mc12KoIQ&7|AvOtjj6@*28*qv{K%`q5vVnM!2~&j(}L5O(wO<ge*el
z`ru#SArb??@1BQTHnGXxQINZJR6#_Z&%)&g$qFEr2i(c&<n%0a1;iCpaE%vKC^~|H
z5cjXh3k0BNXGF08xYdJ1-xo3eFCkb$a1Fti5qt$f48d0s{4#<&0N^r&S&?j+zeW#D
zrAji_G19Lh_%#Hi9UH0A%nc0qR|r-R+(hu}2>vyK-$3x22!0Cz5@nfH1h*0VHi8I(
zNdVDC2B|L0?*R~MH?d-4V{`LB0T&syzy+I|C(Kh2r;lG2)F973Ey|9Q+I=2#&;ZqA
zEXjNqv#dgZ6c4721OdMm#2F3qGifL$2}BcZ^70%g6$lz2T};mj8j#ALO$*ww`Du{P
z5L5sNZ;SaO%wrpZ-^Yx!nOS6r30fjYlotCNzZD@<lZ%(weWd4*M=I2m(d}a(o{y|y
z(tX$u(I)YdN;(EF!pwidGzL)(0<LpnCzD<!olLr$^e^dd7L(vd7c4~<x7b<5?iZY8
zA$Z-DF3Ylik@*e$1f;T(&sEM5NFzB3xRQ=d`G`a!p|<#qFmuV%21Jax`Ajl_f}Y66
z1oacRv&+0N!Wk2XC=Ou3D6+~>y+g2wxSXqC6(zAGW+)5_3&{yM8Y1gNFcA4wkdC}8
z)B*r+nbJ%;8(E*AP_WsX40XXO7b7(u<UfgwDk)8z12}MnstwebGzyRaCE=%eMCSjW
zLV|_npO&i70;jNat(M46f)wCx9z-vIQWfY0xwxkqmBYAXD7dLA=VPl5B~3t#1O9^y
zM}Yhf0!=EkJs&*C1rM@%-=o^5eC-adcE^(bk*96#)Y@s*vyI(;@Lu{oCA<9?=Q*}y
zdE^Z)S$UIlrTWYL4}<-Dux;&?wJA2ZCm-C;1^4HI2lByTE;yVE9(rb&zkc<V)hX8B
zo%iqJ{JV1gp1gk_=iis}_w)3QJUztGL+tPi_ugR7z3}}vS^CAN22IGabh2Qf{4}d~
z^Cs6y_`b=<H*CLq>|QIk;{?0oB-`*jYmV>@z4?YCT*DFG=3ANKY*E(MT2Lt)EfDrp
zOVQ6M_~4Fwu!jrw<gniTT(CbE9H{IG^?dnmAJ?#-Z8*UC2lD=5&Oe;<AIkfWbN=Hw
z{|Ha-VtY@r&!6IYPjmEXs3r{s`JtY^kknIO>3>K!tWMqSyXWJ!AJ5SzSm^)yZg%?+
zS3k^}!+c~{J~GHf2HBx=T;v7T9O6UW?9QWH=qTj$R8NI_*N<`ZAxQSn6JUcK`CvB}
z?9O2;dbwb4F4)KJ8_9W2E**vT0ei}P-Mlh-XZ~Anyz|BbTi-uad#`&|y1wrJhicb#
z=ZbRWSgyL6uc>>iQ&rakC8^4T!l0pBo|_)tM(1rUoULW8D`#t8%d-1Va-AoE4(hcm
z9mT;CUE9kAcjp89xxjwj?ts+6{wI_&XjvM8qC@q!rfyF0)xMRN*Sc=TSX=wQIroPz
zfBWV4&OTKs@#{gHs+zAIzjmCr1y={w`oG(?9{<ky^_^Vnz+XE4i|;@CK2#~IEKpFe
z{r6AZRj!@m0^9R}-CSUIF3>BMnhP9Q8hPIxxMjX+Uj6hR@BCihclsW<551>;FLD3u
zx%a9#_X|r$_(<#8o8NuyUikZw^?9yy_}|C>y!ySNdy`z}DK2sfJ2<j4AL->Hy<#Kk
z_CO=*;JbyOh7B!mAHRK^?HYP7`~ZYm&EfYO_VeCg-rLD}JNZagKC*+0?6`ZDv@F9$
zcH|;w`9Snm>}G83?6+Qi=jD5ul~^utoOd_o-7TEEW$iWA-I8;6<=s7;yC>(~!v|XP
zfle;ad3S&fbmjuP@_~II!<r8aae<*+;2`g5;zK*~q1{|)_qzIfrtg^8(=V{0-MP?<
zysv?8-1!Ib^_sg$u5oX^agb{q%ry=_tu>MX4zs;+PucKaI|kotJ<J9B<S8J{`9APs
z_nzQ_BTFYA!q;!T*^2Wee%<;z^KZX#`;GPfeBUXq?-YDFpJnM-*_R8go?4sAcl2`|
z{r6sGPn~8@ow*ky9}b7WL6}{zr0j-bbHU!?s!-X}U(Ytc^xvKL_i_HdoPS^5{~YIk
zF6STGG_ClieNRnVGK6dt-Eiy5%`0o}T&P>@qg<$$)%zbgL2{XMwl108cW?g@<?tB!
zV0S(^bU!#$P=V{eg?AP-@P-cXb>_W$?|b(abm-Pofv&v&z<vLLf&tw|%F_<t>b|?D
zU_!T<a<=3h-S-{cg(`GgNO=E!cYnc(ZX4z8$b0tO_v|TDgZps}<*6^!B4(#T+X@cE
zoRqh*;6ltz(cJ|PVqT2rL(Gry0*D2vKwBY%7)=E`3Sq<|=vRkWJ*H?ttPxW*0aj?H
zU~GC??t5AaQE)F+71}6U0Q!S42{wp$!q!3|@$L!IWN%Pc6rg-~P&{CXByd3unuBn-
znR*@H8_D2~GLAj!hKlNg3q3!@R#h?OAK})8*OjXjZ?%)kMimF6&dof3tgzraH*y5k
z@jwf2<k0b9ks}ow8Xi13G%VDV(d8u(U2;+sg^@l3=@}$^GQWa3sX$1HF`|<k`tYnq
zm`_YKV*e4rHxS@H%zOwysFJu=W64x17K5YqpMWn>Iuyk|ncu~z2>ura;Bo3FAYP!Q
zylo&+&v_29AiPvp&#HYZXL9QLg4(Y!K62F;H1LL4PVY+H^-mRa=+aY8x?n)eD6Qik
zn$We^psD5S`<|%a4f3P@@MFVCr6%ym7c6KHfowv%3Oa&<yr-u?f*})Q(-RZ%J+D@1
z9P8>IQ}7an3$Vgt@GCy@rR>Q;_%h{UJ|IE>A}t`TrrZmWliEspR^ThAFJ?$l7nGw0
z6gGfRcbT_@B6$sekTa3C1Ep^eS(gb*7ZjrwlGd86LP4Ce*rM2w4MZ1ANh|t;(1ET@
zg}xfZ612%$@YR?3+KI0tK?K$z%vcuYl){Ku1caH(!d%H35PEPVs*=`(1%6ie+2B{5
ztc6nCfPv5hsf9UF`<6x~8H{?a*g@#WTVZ}kO4(-xdwgsxIhTpSJr2&mz?&H#2bQr-
z8pLoW7PW3Zz^)biC2vuCMp9cs)^3{lGl;TbvMa$u1wSIseS^9H`pdr!^4u`xqpA-M
zK)?rA0WioL7ncBqpc+eU(57`G`?yqUk&&EU*uHhEI<`vmA8^9!p}4EmKU!gd61kWg
zh9CrrbuL?=1mnTu17{A$2F{)x5#@UDMktQq0APZiFu_3(ccJcMYK1bn@0FGv(77Sm
z2(Ak0P)&YA-5{M<HzbCa3z0}N@~|-IA&ywZ5LS`Yj;Oy+KxV-DPA^mv6O={+={Gsz
zUzYmneQP7DZ`@+e{uGrWtJ9_~vtpMKP9U;Mp<XQ&dZ4^sWpUZ^s&%pYF0l`Z;+&|D
zAc_|dNd#Fgf!U8=$|{ODkU<Rss!YcQIUSAM!ALO$X0;-rSb&>NLOHb?I@46roJ^?X
zHR5wXo|08U#x*dwH6zUb#jeM}zfk`i%E8e%Kj`WCbcQ|;S`~narVi-Yak^_)2NB%>
zT8;4q)b|-?m{|rW9#!}ygP0Q-E}=;687np%D@iVM;@7Rgjw}f$p_alz`^WU<#^?_)
z*LKJiIKVc_4CnJ}{VVbNrqIJ0KN}d#)eN!bp+~mr<vlA4YkSu{taXsp50XAd5|cVU
zpP7w%H*cE%8>{{e1fM~GTb-n<*|kg1pC?+IUAvh7gMm2L$lfT@d~k*`|AJr<09<p?
zt^~;KU7SrYVEqM!4N;JNO!E2(#?+y|8nr?hFaSd_VEF~8ESY(*D8Yb*m(7!c!HtrD
z??GUC8-OoRe7J#CyI1OS>IQ!2o<Dr`+ppdm{<D$qkFYz=uxk7A#g)wJ@Y~03gTCH2
z&e@eypZU9k&%@F4PiNTSbF7+PZC=}PS9N!i+janM6I|rEoci1&jSZ9`G{H6d+Sogu
zAHm)ie4?VX)x;C_Ol=Kf{^c<Y@?((bQ4DHYsb@nyoVOPvG!-MD>V+7!d*v(}IS6Wn
z7@@lup<9e#rs&4UCZlFZ!P{L06(WxS(I5gbT;76?pn6dIC>RK8q`ZLwNdm`Cqjf30
zJh*iETIfer7)tVgtVC2?53nCMEK)dR@p<wV%z)A!o=_w!%AzF{<En%b_h0y_lUfi6
z)WDvmOKNdHgZT&hZbAosBBlp1LIcDSUB;ve1OVkQGvwt=RDl?v0d`3v?2@KRdp_)(
zmHn%?@UPjzzjh0M`xgF=E&QF(0vG(i=nfdzsa!Yj7XCiy3x85O9!vy4<gv;?;lD&(
zA_(#Q<U4Et73J4{QT-I!qK^12w(1k{JJMUE6hp($3^i8{9k(YUFcNHV!>A{_;)tkD
zwIBKesIRD`O%_(c90%JZ6F@ecol62iZ=*CCXim#&l4Q#etYC0vA_G*$*>Nx_6Q2_d
zgxE&3(ftq?w8R(`W)tn7#7a`4;_1j#_BC+PQ^D`aJy?8jvjKUfVlZeJQZeuspE51Q
z;>H8vn3_DGi&!qwsrhU}rdU!XEv2j`gZB^eR60tRNz|a+0u{p*nLJtTRU`1Qlozmm
zMJbpWGw{Pz$XQRQH-><YWVslo{;D#eS=58xWSQtC=tP!@UIJf3F0AYgzQsC}yvgRQ
zMm}*`d6WWO)So3SEKg7_65q*_HDrntrqVQ#jsRgfK4`K^-{*4*5X01sFn<9-%%3B;
zhyV`&{{%nsEF_0#&`c0RqiAA#@$yOoU7t>hL7gJ6hM~uRyq_+Q!z4j5GehIij9BJL
zCWx};Mx#u4T#Qzik8-ldGGMPvIzx~>SSykBk;TpUF$|2D!AS!F%7QUr0HPE=($FW+
zvJo87rY<qC5))%Jc;h`S)Q-$%ut=#w;<3dfatQWe-Z<0B3a?ZYEti+Z;YtoQA`l7D
z-vrNvO7^F)+@cuf4<VB@b~GGcyp*>NBpofh2jm;SYI*4JuI&8!D}Wk#KPVKU6sF0=
zn(7|<=v#Yl?p-tg@$mOfeCNai-%-$-FUIh&rZ8XEu*$49FAe>TIrONm>+S$oxAX36
zY@~N-=m8M#f^C?ak2iT)Q{+)FymXQeb)c7@Z##_d=pzt|`^>e^tg7>L7YF~XU3X92
zx9(!~yFks7k2JpBal7O0P=3cS2md3(m?redWdDt-yt|!qx8FClKdfmeC{@)BPgI&(
zOM%h=SyDxrJH&nWF*I1v5H3fV&gqNbOY~3$t$3jWU96HFi`R<USHR@}*<D!|3tgbK
zg}R5pVjy8<oU=j9a|pm#`SluU6=d}~0I*z2uabnGq%V#0-T?nVj~r$yu78^zkbkKt
zWL|mpgN%dfUAzjx^9sziMH@&5C@L9lxhk#>6~ij6k08ZWQ)yjXtOft_UJwgM39g#S
zqENQv2`@07R8vXxd(jF0&Qd%XTXcbc1u_MgJ*t`X%CSmsFnnYeCDGum!2{ExZ_x`<
zXdqz&GCX+uBM+E!f=PnU5cTT6g;>E%NOZ#*2oe?`7v;;E(cluunguZ*kZ=;;F7chv
zCUhWAMf~pQ-<4L)4F+Lwz1#G_cgLLd#as<pr<Cv3V?g_Jje*c2o%LVUWJ8PoEWH@`
z>g7yWuGC~i#!Bz3P41b+@W;fgF2;;x8sr?Z;cO)9&jzxgEDe%ga9P9$B(cI!egw*2
zS5sxNbtJA0^#6^roCMMTH;piL@P*DsErQ}TK`|vLE-|g(v0?g7F>T<*v?J)iKtqC=
zor8HEn-i+=K!UtRa<T#5aC|-;PYEVbs9rRnhAXgO6vb|1sdQ2_8Gw7$L1H){TJ>}5
zu}8HG@&g5<L{5TIget<ry)03f(6$d~dVz`+2Bm@A1h}+T86_tK!37vIV)h{DL$DXY
zJ^-lL5Jwwvf^!_L5{gy=FU1*LxW?ya#>7pB>}q7wS%nsg!U9Cj;EU+|5`r%ySVDjY
zFHr!Y12F~x*)5Gk2O*Z40D2c5ccOLT4u{Jxm>mT0Da1w*6c=By>iGROeX&ZbDv@vy
zRQNrvV=kpSej1#DtO5>=OK++xSQ`REM&n7aMU(^uCDDF}>=ZfEK);jv)<ihf;KqJ8
zh-_=*LhGQ<F^-5}pb>2N$*FXRgJ-%9>Qc5pZ-t5^35%qX0X%k~;wKgwE080|7QQiF
z6|5j>1prW|sHg0nd~GLJ+X<?+yrmkUr(wf?rw3SKw_0wt@U<@9?a#YgId?1X2>>U8
z^R)0T-_wBAZoH;nQZ1b+(7=$$TiZBm8*A-h^*sRja7RA8p9}BLhtF~0bF4ndJ6iLO
zU7Tarl99K!<n22+`wlQy;O@w~4{+`SOI5tHE${5*oV`mX-qoIW?crQ|mdw1TGw<2Y
zdG;?^fM=Aak8|{Kpe^zZ9c!=Me&ufO`l)a4U49jkcmfc^>0L5C^aNKH{?^k127cfy
z;jIH@5Z)f*oppSmnfK86KiCQ;c7nV3Q2W{h7wSQiJ_gR$&AS6U-M|OB?*e~)--kX+
zmE|c7?5KRGj|=sI`Z8Y=;A=v_4CDhXU<4?zlc3FO9^hjl>J9M0$gRnnlc4m>`{}&D
zlk;~HhJ6PY=m14#=r!8Hnf*(LmS4nf3$oS*KHR));e!p=P45RH`9M1tXkQ!41-h4w
zz_-hLTR3ma+V-5cb6NM$7DoPHsF9Cs1BDkp5(WIjDqVFAkd`8CQZ9wKg7UULO(-aX
z7qm)vFPLYDVAWjSe>Q0)BMpLv+@8SVjdTSQ%+jhNu5mSzOB7ileq(S0DLzP6CMOgl
zOkB8M>8@_JTm!d}tl_g;koDlEQ=QdSvbLEhG6>F4S#70r3}_u_Ch@qu=_#co=M@uZ
z8&tg4Tz#qRerDd32{<dAO(v^98jo11F~QERt#mqpvaydgJzJ>CDJq>y-qnkVVZW=G
z*Q9S#=HN_d<b9Mmm^Don&nTssrL)N-UGkN&cO^v51vEL#zkpoKS=9b9f*u3d_K`5K
z@grei>qo+>pf4+&BS1SuJ6SK+vGfLg3GHNK$t`1`Euo!kmR+ScoM5$+EhV>%p<clx
ziid4_mQ`tU)+%Xa{0YRt{cF=Boqm<s>TJydge4Tv%32s3<!(FB5X#+-OqZNZC281f
zEg0x@R4#9Fhn%wX{<&i!MSjz>MV>vIqJfi~Ua3kFxe1^|Od?Nl(*wSEf8F$e#zt8m
z!Ff-*eZcs)N#Ef6P^$x*l7UnF2AM%Q1oDw`lBLJtPN2*>$r;`S-$umT@Kr?21C$gI
z^FrN*<$OwSIK{i*)b0W6Qf4@HSFFVrU*<q57a6N0GrmQh75f|F9+dMcz2Syo$=YxX
zf__!yHK{yCWu@JUD-oQhkxLH`d<%>CEtVBb7D_oR`j<m_MpTlZeFgRmxJCKl{)9vc
z@=P9=vC<o4dq+wx8IxC~iq_gqL}w=mbviA_FTE?(MZDXA4urOn>~ZF-oSMvPEz;l0
z{NNx3x(=l_ydcLez2Vm4Cz_HpfdK-82ovUwVZ^TrA(mCPJH1rOO~zo?9F_6XyG(vQ
zT$aAl?zXLzO2#H%m9f&BtjX0dl0bU^R%gU;>{p!U(1R7mBc!sBkyv5HDuz|~R>iOi
zV}Fa4qvHOUK$~@V%-{6<EPHT5QTpcZN;C+V1G+P1##$4_Tkhu+(dzgu7#at~vpGEn
zthKG}yc>=3Nq+#OarP8l=u2o%duU=8jov3(gA=7(KWYLF8KAFjNDWt)XQYKAAJHI}
zEXaK{Il1ioJQ>J`%3>ZHYKQH6xm#?9$WaCZcEqF!Rz>vx*g9?y!`(y6_9h7FwnzZ(
zD3*Jg=)-R6<Y)IT-6C4p+t@!NC(jP=p$|Ua1D^;?Jx(kTqhD<_xh*4Ed4>jo^5j^C
z22*?@Z+dpTSPg7CO~3J4+f>`7MUXTm2WvVri>&Kr)MEw`;XF{RlVJ1@opLusODz$z
z00V*`bp<KG&RA2L?hu98o1>Ul{L<`1f=&Q;c47=_H*<j&Wz>tc7+DCNBoZmKNUkn&
z&%rYArHMo`(XlW*4%sJY@fNV5sWccTM0)v^WJWfaxFyA$5J3dh_*{=jwU@{+4042-
zE(F~OS`lnVu#pDC>_ESr2zDXZjet-c{u<_V)XF@D*Dr=p@BtpSiLAf}NIE5|5~9J!
z?SrBf8@f2E<Q|wP5$MUVL$e7qu?!jA#xz4+1r7eqf*8>Q5VZ3%=fMaA;Q)x_57q2k
z8qCQJN~S{51r}1spd^3hK$NB+154BsKsEvxoRDo1>tnJpVj~gVPvc*d5Y(3@lCLwk
z@(Tv&cu~YiR37+sY}s!hxQXC55!^;_3&DQu-F^g@(OJ}6s7Ud7fKiTP<Qs_n7J?Z7
z*yI@?O`s+O*y;gpo~V>yk3Bzd`s|UjM^26qOZzcmW8ym`#XRU_^oUv&HE5qPQ4&9l
zT>|kFC?y&ZDMKf)#7&f;5%eP?fe^J$qVstKzlxPA(v1YWbfw*3glWr;ktl2M`N&c%
zm?UM17#fciscsNPCYDeuky^wBT2hjzk~~RrFk>S*AvxHTl^o){6l9W)Si!WQh?Oy#
zYG%$~fj`kf_(ZSG#_-Qa2zqI$NDDPcmMj`TAod3ZThUsFBypC;JC(R@JPV5SC7n!I
z3T;JLk|NB*MwdoWQ(z74qHIpq8fNuFY~4@}pf&u6@PgQ;Ubbl%m@T~RMUXQ`Rtrji
z>nStvf#^rIo*R3w?_E`Vy&r`43r;G~B8m#Lz)K28-wxdl-L1}rw{!a7l3}@zH(B$h
zHqO+>nsz*`K~eJ~*N)`P5zZXRoA+?$Jzy`6w>fwl2)g@tph*!~civ{t+v+%59R%I5
zT(?NCr_~0ih?4?qAf_N^3g%5w&J<m1cwpMbyTi9EH!TmEcITT0xTb+z(_qd$1Y+mj
z29X}~ptUdGI?S~W=UNZtyoZ;LfwV`plXW(;u4dL2UD5zijjgF?YwKA{16XXZIm*Hw
zg&Nq#9=556mBgCs^3G1q*@<MY`n;=)b9DjP%USe&<d2p*r5v~V^Va5^wHa+o$M0K1
zB>7IxwUc!Xu(kn!k7y`rH@oK;*LaL=Ji*c<%T;_Z4CbxbU5B{HAvSV^4IW)K0oCgx
z@!q#N^0qe4)`pZbXBZ*U^!m}9bND0|KDo8?1Q$M07J7^e9|M~xP%v`lT5h)hA&jT%
z^YnI(-VS0x`EWNE2I5;A+rFP2IL)=6X4}uQ?sFdotU%eSr$B7|)R*5Rt=qx5cCfAk
ztnC26hmEbgy#YJ2?>N_lc2k>bSX&)@i*O^`*vrv-q}J{PTA$QN$v51@HurJiy+AT6
zj*dtt*mL3CbqIq^Jl)FsqGe>v5iUGZ<~+`YkC!=*a^a)cM!G#uLm9o04`_ryzxRV&
ze%J|higf0~P-NeRkO+nZBKUV!cz+mQg(j-H{wZaLmUobrf2Bgp`IgRawZ7BJ*_xIW
z%e^ZT4?(Bl<=Zdcb^M|4+rC`GzI?-TT*Gts;#|Wa))wJ?&3PYKknPI*c5}Yn>k7`d
zXIcNq9?sj_IeYtqZ9|-W=-z9b{qRFa6wHn{wm>3KOR0~(-FLf>cc4*nN0e>b&pGzr
z^Kg!%yt5e%mPa2sT`N7S6P&M;?MBNwoOAd+1?N11rpu2iKwAJ9!KioO3*Xvz69xS1
z;rq}}Z7BO}xNf*%y>89hx;a}nZ}+mkcGlm{+B<lAJ(!1Ny=|<ojkULfJzJ#S+TAyf
zUO&pqbzV!Yy}{c1h`WokcinBf+sE4biMxffx2)}5JI303it!<R-rm638wk?G*?}bN
zA$T)qZ$@*JBiBcYFZV-x^V5b}_ypast}RtPHBhyUyluF&fDtw^n6DWb0igiAw3XS-
zMA9VFgd5NzV(>S}B=NhSp!1su(D0impMDiF+(!lF%#5HtL9EO&45pdHAmk*9{CXmM
zir^pNm-fTr`xe@`i?;K1+wyfiTwM>pefMKmv&I6pWD6R2!_We`GaX`JWY|$KAZA3d
zG!tTG%H><xd3|aXzFTvl3cWz{!M~EYX)IXLWdm2C8nGJCA6m8F^cQN;WvA@nf&(!p
z)zq>!bbGRZ#e!;z(elKD*jX?wjY9C<1q~ul5t{?effjVcsi(m1-YeH$DHw>;D2JMe
z(+u1R+!YE{#A%_NJ~V_|uo5R3JfHwos3y)D3e1b9uBQrMQXC4hW9u9Qbt38_s2foa
zLA`QrKH~Jt$pge0q-tD+5J71`pM(keODd|Vm2ca|ckg=actfdiqH)v9*DinU&1-KK
zH0V**K;kSlkT^>XBu+C`>qbMUg(~8-Q10yoD?#PPtz=-kDpV6cxrM7|;V%OeYKfm6
z*No#gkFSCKtIh(c6MPG!^=tlX{--XCA`ToJF40~=7mFok$G|SJsrVPgK%yMU_n^jl
z1#L=-LZXBzN29&Hj^bgrL;m|w9r5!Z(hG+t2Iv$NqeVc5I-Z<``c0|eFx&BwKQl&{
ze4;_W4$*)U(bSN9#J@JiAWcQEknH5YHkKBTvku}ppP5KO-tfmJVgw}`zJjMLOim_+
zTQEbhRhPOdHB8I~DO?PSABdVFc-a@cBv(i!UuePB8}LTQ!8EU^auUah`dy5wn@Gp-
zFKm%xv`|eFihq4fs)hrzMzI7@?zj#UsU{~fz%K-&(O>|0j$x3B#9T%24FqJtAd3it
zPF!aMt<+5!^!Yr3FCbV(K$ex?MT`jGk`-g)DkA9jiiWKBGhc+N!+$Eh1D2A4N}*6Z
z)>4XX|D6i|fb#v2GXGeuQ7E5K06sKRib2H>sK^hfx*t%jKcE_aKz09ESsuLek;}_c
zcHURdQtn48AFHa(t9+cw_dpf+d$sMK)NMZk1(oL&Khi2RT`*g;<}ZzYcC?^;PN6xY
zC`70lJKEeV)QN83Pddp8&>*@SDfmkpILVttcQfU1q5a?=MTr~5W<d~G3_Gms)fjo0
zV7P*)0DmOf{48hyhmxh0M~5z470I$>Ko_ix;!<KlS80->%OX!%E4plyJAgKg3)ScX
zb+906D;8?eWv8G#s9V8-E+?4&EVvMJqu{RxF)yq}PkewqzO0~(j^&qfhTv5#R8496
zu~Myw6es}DCZ(xBoR((?7!(Z!3V@UXoo<psqW}Z+0HgqP+DJfH;Ve)9qyWI49##y%
thR&-&B)x}I_dZpj^XXwNtr$|U;jX6?B2N!0Ml=fN%Jhd6zR42v{{TjYc_#n>

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/rocm_aiter_unified_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/rocm_aiter_unified_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..84a5950e93adb4ac815286c35c4517bcda68c7f1
GIT binary patch
literal 7641
zcmbt3U2hXvmbd&}cKIuIY$qh7LI}Z0aKgvXG%(OKfl<04-2-7YlkVA)<0^xl@&{FA
zAeQOLwpeY@Y8TLIl<?H_)6in1WuCTwz`V_iJ<P7Hs~IWM%s%v+8Pe*}Y9IETTeeBu
z39NQ+;^TAAJ@@<E^X1=qy>0?Uwf$q}bUz_~!b-c?Tga;?fUFUjED)KKEh@Lb!M9bl
z<g5!e4rw;ko^vcX7;aacIoE=V;SQD0xfk3y&w_{5ovM)YE_fO4Qhho9f<G5n2;_nb
zL5^66;!=8^aptTGAq)8tk@<T>b}Rm8))qC)s2-pSN}xmSUADx%<um6DL&+PNLS9sp
z%Zeu6&KNhukCWFG`E^S&FN^b9#sH?Grld1>%r8|<e1lWW#X0JcQYGCe<fKAThpM;J
zd49R5V0$K?F(kEc{ko#XE!6enQZjFRs4Uaa(#7J5t47kuq~?{pUeK;C=YT(QQBCSM
zI-^`xjHH}2l5r~yUn!(=ord?5sU;;Z)8IDhY_6!%fo-Jr2=A9Ns;p=!^K48QXjNW)
z4agc%2wWCfuv~*{TCgfM#V%V;LyO{&t%@^kk!|;E&stp;T#U-g_CBCMn`29xTXFD2
z?vb5}M|Q!7hmRXR9>obG34jS{3+pGy-h1}Wm|ixf4My{A8O_(4$={kOu%*qv9E^vk
z$ab7D6zy6*lg@0p!qzd(({M7CQi_IDC>h0)AuX2DX+@(BO)*MZe%qno22p}u*#NAO
zWiD=+qtPoLoxd!do1MRKMY=XOdvW%{jC5{(e(o!x^&l^N$bbEG%E%R`ikadeBdJ|i
zj6-)y@4S0r=^bTC%`8q8myH{R{M0Q~%}w1pJe6$A-_)XcmHLzh7c3=l8&b*KhXh>t
zL~)tAU^pqC%qivg+xD7hv+jX4>G&>J$cF!*76Ob8?%EqgXWKd8+hXV717wXD0L^lh
ze8qw2YZ0ij-Ls*!FjT34lV@NkDW&S=L%Yt_x)-+AHv13^pt}I9kU#q;tFB3N$?kk9
zCoQUl)RIo!>|4?^WrYezU%DmTP?EAvdHgaP{HbK>h9b!Zyg*4ev_z_{oM3E%INR27
zK-NeF)Kl3(h-_JU2e#ueS}Fx7*0y^29F$fCI4hQlHEq92;`X_3@abq40OkGf<Jv@A
zlb8ctATBCm5-`=s6jenmq{YL>6W<^!Ja6~kB-N5~LDLFa+^&HVB^q9nHh^Fd!CnCD
z)<i7ksrKNh!dA_V={J%^rF`^%b++3(jo{da0IZN^fC!Ow%l)(K$=`W~{?Ic}9X$V{
zXQnF5Gy=hgC)dkQPk-H4^`Ec0&a-PsL9cDa54EjN<RTLVP;oYpeVsa%ZsWI(`)+Te
zx1=ku2R)UP6_jjK|CW!xbtgOan}U%$;vF_+&;zt>D}93yYcXI3F~&aKV(iBQUo<r)
zljP~QuCc4fQCwYHm?x^P3ARAA7`9}|D8vKQC9wxBNz^S#xq@6$6~F~ax>-u9_|zpy
z!>31Wi-m$p{gRZ-=L={s3V9tlb!I$r3aAyCT0zjYUdE1cuc5A_)=b`@cB2GxsNvmf
zV+i61P-~fIhVNGMwgDcB{$~JxPa4CcRa<O*{|npbhCSG{aQ67a)L#gEy|NNV4<j@k
zE$q<x{_4<~TK`#OIMiV{WHJauJn+)P+h@2&ING!#vH^%45#WgSH=PW15uox6b(8+V
zChO7^h}*xaKRmyB=l;-Nyx7_rpD{*SE9iZ`ALs7v%-!2r+~oRvb>Dln!E?wk$rxV3
zc1#7s_P$MM@a(X>`VENBKWs6KGN)L<I9cx57HnY1>{-EN+zMr@Y)#u_8<;vfd>o1k
z%%Bs@Ag{P^VA)!B0_4#YGR&>G!7#d7H35vSx6|fRJXySvuF~T5!%VSNlIG;VJ@Axx
zf`9TJIS9Q_p>&ljs+O)I_v|u5Xcu~T7kck5^oSCWqr0@3`;Wb`weO9s{+(OXVY&aF
zeId9??r;k|ps)v+v7$UYtvqN_WjTd<sa+7a!sit}1vCk-ZQasALavgws(_0lsNr-)
zO>1aBwyC#)H0UY0?O~Wx>7`<^pc#r>KDny~LCc$XQ{Q)SCR7D0q~VYKeqgHRpQ^g1
zOpQW$w1dnDG6O>GpkLv=qX1AL37$tr($zvy(Wy^YGjb+>UAmpg%Z1z2*Rc-FR#HE>
zsTo6;^g`MIJzb<cx*rni6FLCAV0bj_ZhAKo^P8CtgE=$#C0#?CklOktP_3|&tpM^1
zZmSn@-&-O71jg7js})<tUU5{M6<39?xGSD#sFk5`#ITtdAz3{Bt|D`7BMota1>y`_
z&VE<mNJXd+sblt+N!&J9K6?#Td0k`<me_Kz#Euyf(*<pJKN9bVnR`&+!7a|2X~N<T
zIDryqT~zAK;g_hx^!X{D$)^iaA)iv{J~nj%B87y(qKd@#M$%?rgK?jB0=~492$)lF
z3Nhv*oJQ=22+klli{L#3=McP)0EeKw1a>Q_gP~xO!<>mWSYcj;b`ki>2i`1}?d{;S
z`aFQYu8_?E!u#$!Ypz&B=w<)Gh5$JH_p|>!jCimi1UI7s@80Yuyua>>u@09vtrp(>
zt%LBh+{W;cRolP2_A)`Hb|z2MezT-#%hU>wl-h5hw?tiSIi+4EkYMsyP(&T3H&2C@
zSI;D$_OyL`^vfhhOR>NemX8IkBooU21_;mHx#Ii)gr^;ae9l$)zuUzRtT<MJ6=xQE
zcNN*z7R0Nh;>dP{_BESqFM+=JfWY{UEO?yV<*vJ8&+^?=FcqDVKLtf~*K-#{JG*s1
ztu8Aw20k}dvZyV(O2rC~%mWX@k!{C)TR31$bP2jjh0CH&>?%M--@mIoLvIHPJiZ;r
z%C^m_$;P1UXrG#Psp83^E8JCJER_4M((ZK^_Va(}CBP1LGKNl6_c}_0Yl}2EvSQct
zP`&GgbKJKB-3RpjJJ9_=Kd=Km0CbqOyW9;{yxH+?DoO)$BKR^$K*hQv2ag<S%iSJ0
zJ9PHDO2r~`6?Z>jvfymt-ip8Cs|27&qKh4>vK#2r-=_oh$PUyX(2sqe4m0g2O<9P$
zx=W>#+Sysw-qMF;QGa%oitAUNXBY%S0U33ITOcI=13bKo1r1^qSuBFOG}A!ab1(_F
zyRA9TK}d75Q$s4#RwqRklZihRKS5(`6d*ODPl_GGJSldf)1PhY4NC3}eL?LpyS{68
zrXK%41GE)uXN+yD!~K17#N3A&fKQ6A18|f6)-`U^*eAtyI*OUwj`2-&=DoraGF^xK
z=F=6&cRJp=^3X>t*CRrl3F);?Y+lp~w=%LKC(0i)r>ngs^qNG|bil2GpO`7LSWC?4
zBE((dvSNrGckZ>f&<<le9>PUxO&3pGHwCSEwtVOubkB>26Vu{N(;Br$OqDbZ90+y!
z^|*;|Fk+pDoECSJa!ZuEMXj(VDx^x1uG~~%E7DCW<dSz<RjBdMz&y{TZ4FD*i;f&)
z#l2BSDp}H#s)n|ldQ2bC%$Ru0TQ!o4z~;nW%=^13$%<)G`K8zBtu|_U8&_bo_#h3<
z6%0HAB?miFWR~He_H;&7CF<D{ztbSTie$=wAh-2UsH2o$1do)tFtFXCPNSN_?i@m1
zxs~-uV_p=3UbSFIxn!{jt{iiLz~yQgdBDI&Wm|PaY^)hN=5(p;Rz|r^dAJiZB}9Ev
z>mH=ET1Xny&)zU(il7T*YE#q&2P)xFQ!k#L*$j2+X`MSZYKwS`cD79Ba%s#-!^1WG
zGjz?UL%CCgJ+PyShfKHbLu9#x;4*?a1Ro*z7{QMb;Gt?)5o7^S9`uBH4AjHkyjjsc
zL5`mx_!Pn4B4Eq%wk{4`cJTaB>)~VWDrR!Y363x7zw+ptUBMO`PNGA;oj?w0ngk+M
z|8UhcQyrOk0nk6Z;Tf!Y;(zEFh4erW5(U<fuSu+4U(-#5zN$yu2=%R<esuZ?_b+Fw
z!oCgvK;3_^=0EuKLd}1;>N;HYA8tm-;COxDRBhl?)z!B#9RKCemqX8kFNTlSTzgmf
zho?3?{<>$f=9#Q|j%_-KH&7SGYQk6}5NZT^8-cz?U{513SPzWX0^^N9xE>g(1xBE0
z&G*RH`q~Wgu%rkP0(H;cnrCm_6R&yVPe*_6nQp{}zwkZwJu!ay*_WTah#g;@ZS;@U
z`^Rhj<4=$M>zS|4yy!o<`e7p!tB1yFp|Ph&e-}zLiNy;;pM7P8?<&+?BsN-)9;-!<
ztqP6sa6LR;3y-hzjp+V*^hhmw1gMBk*P_#aMn>w9saj-e)w9tzTJM{v^-VlISL;hW
z57zpQJU{<$v%jAGI{E8M)!4aJ?}kgLyY|9KG<>0I_&~MyK-D+a@I@Ow*mtBFjaOsw
zD(t&&6#pYb2>bVbG5&bG5sEhY2J3y}wZ8F2Y@i;SsKq84v5`hNRu3Png%36&{f)?;
zwfv)eJu*>?Ogz2(B64yEN>5~M{1ML393%YDCJFQI<|IhMs+T$PaqHaN9LV|vO5-E~
zbV4-rcr}b<HS~?CbLPVNk7h1h(J)a4ih{jFo0@?%)?r353R>z0b(p`6uvmp!@_FjG
z%ra#fI-A;O$mwlGIw=KojRXn34}hwp8hy`<b6B1l0XhZxO=$V+J%ZV*>E}0IK|*M{
z86)vSjgjg4$cfs>iN?`)8l&--eWLy7Mkvy>!#5<7ATQ-a%tZpdO&&2frmZ}P2_(8_
z{RfYhp3KxD2b*3b`AFZuy8PJP^kXdmwPp~p9@0PbB>Z@w8Nynagom5Gh(*ZQ_|us$
zv&|^hVlc^r%Kgf^T=Va1;!2wR#O?cb4`TBi8JlQKPB)Gmf7zSn?2!$B_`#j~cOLxw
z{?D6sB*1db{!J&Vx`;3I;M4n`HhETcw_81|Dv(fYZSv7%)61$p5=%7w3=NQAWKDP^
ztQ+uvnn6bEA<=;~^^y8yz7~l$LyQ(CgZsX?^!U=#W3_>)CR-D1$nAeHaDU*tD6*KD
zM!bV~ggPZjE~Fs4`8m`<J;M(o8b(x_iggj|iPxS%``3{~auH+$42LN{9>!+I*ct}<
z^j$`QM5>}n${i&ISynB<VoE)+)t)CxMn-LsB!-)^iP;4@$_BZ0c&7z03&ehrVbVwU
zzkyd{KjlF7M8k+q17{t6TR^~G#g7ofU~R|WP+X_YZ15TFpMeDhS-%FLY2`TXrGs!6
zxIYo$Kgq}+$;m&Gk?$;4&ho8`aI@TZ78_@INf1EFwD;jpUhsQY9Gi|oZn8RdYLmeC
U=6l>F3m2*G|G~Ee5q2^E1K^;C>i_@%

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/rocm_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/rocm_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5bb1c56de13d3409e56f502af073bf88bec56275
GIT binary patch
literal 13999
zcmbt5TWlNGmBaV&O-d9=QKUq@EK?6kvSr7XU8jy^Cys3;v7NMLoSo8~kwu9V=^4tl
zRH|_c7b|18jh$>)GP+$m?e0cKvWN>T&=e@p6j-49zyh4eyCen)pl-7t`5VVBQtZ#}
zId?ciN~WFe_S!si?z!ha=FYw6b+7)_>9kRhGR8kkukEC$-(p5h<|^`_Uq?|Z6iX#2
zR>$fyx~x8-*CB4m7_!EMk>JLRDPaPdDPzuB5|%8TptIJ5m6Vw?wyZs2C%7f!$T|~F
zg3}pS)}3$@+?w%Zy$LVDZJDNQbD}xxOZZ6Mo@vSY6Mlj_GJ$L`5hS=X)0zz>LfN)N
zTQ-~s6Pha%$+jojb(Egsyj;h-Fm_CdD5uv`&r+=WD#d!<)hpC@l?RpRBxPPGYvS6t
z&Q_qmYfuUkU8JlT%6yzfqjnQ&3sC(Wtx<axjIqGtfrEttH&;mK=AxP80>?)$r3=&1
z7nA2XwpNmyW22|}bOD(1JU5lTtUNNA_-EL0Oea~{WFeW#Bn1I7^dUrEN%E61gXGbg
zc_x{f<>pw)sZow*^O?Hr>4iK8)x)Xj`MFt+Wk_F{43o#vFf5nKu~_cfJUXD*Udd##
zhjMdM>GP1Yr{~fICX+jVp5tSBiGFE5IafHwElAC?NAi146_SN?>NGbe<oHtyS>X4i
z=6N3GfXQc)g{d5mH2)EJg=uY|C%8fq-w@uXNh2P5_SAenpW_QsP@}1g&&;PYEXPZM
zL%D1=H}^<6bWxjzQ+Y0xQof)9tDlp4P$0{hqY^q;()yPv&cGR2-G1OAn4Vy!8Ap9(
z1qVKZ#%FvYpXrIE<|md~NT~&SqX~xNvp&8CYg@Fy*p00H58!e90X$CRVQmSTYd8y9
zf37N@^-K8N$hTmNd8C$;xm5O%?<RTY=Ce#PRhUm^m_iQLvmiOM$;-@zd5&LTGTfZx
zR#2gk<Z%_IBs-Q1+yzofR}n$7pM%0#rjR_B;UtHU$rYGvGM`V+otNzM0>`A1LMq8}
zk~c+`kg^*tV<VH2FEy{`wT=bJrEE@S_9AjYUYMVP&8p>_gw!<0&SyBD$yOJ%)LO0c
zXi>~2(F`+}%yJAP*%&69!>WKg7<k)crdnc1&lMy$!zAbCa=5i}a{};~3OPPCEt!>l
zCK=D=av8o0=9cdUaEE#Tkoxaq!-Z^qIG@fB!DOB13PYFYpW3@;_9<>SlRh_`UnorH
z=7ulA-X6X<I-FDm)$ln*kO;#(d?E(ubMgEF--4|pz#fF30QfE?`>0^sx-nE~_OBcL
zm6p)T*&Aoqjhz**Z{6stxSHR{T+3j&*S`|J5neY&Doufv!5f3?#&+3EH9@VGN+5(B
zp^jUFHwV{zVrXdHI8^bqt{lH{{PvjW>svSWZOKB_;hiO;f7Nu$ano_TAO;84jXNs4
z_Lhv1)%jb+o5eL&?AUS7xR)PNN1XyhOV%p(;5HzC3L33m1kBJHpN1q%oS8GAF5oPR
zfME3;%^El>XG1D$<m{}8bIgRaDjG6HFH=)G)_m2GaIqH7&C;A_3byf8W5R2tSSM@a
znh4#_HIp)$bzC(ie9P2jU83a_6>~}9hMPqdf=x_no=u+Tllf^zsESM{EYegG)*~Z;
z^posF`H<BHI|DyClOpn5GPB&pbc#!vwDD3Ds(S<c9=Je0{y?`v6|}-@<|6ey;4SKk
z`l6v|eAlQH>3}j*#WiL?iWE~-uz(w8R70YUWyw@D&8Q!wjt<<!AgLn(sw#14S8EIE
zyEk)T?n~=ypBd^mKU!Zk2%slz91GMP-DJ!znP8eh`@sGsx)AoSB5Z{8BFGxp$y`RA
z-vI18h6puve=*Zsk`*L(KFKFDnHr}ZxkwpvLGq~8;5#b(j#}~TMahZfSiq1zEr_z|
zY|J7V1uiqi?|>KL!HlE$F$B91>;oWK8HU&q3?qQ5prRyQ;p51#7r<iglh#^Xed7sW
z6)pkz{T1q=i?X_|SwuRx8d<a7ef7g__voV=p}ulxhZx$iZ2WWgMxd)47#0J=%Z^H0
zU%BmRvF+)KBT#nqiH^Pp27TDJY`jMYVP8jL<?voHy!V5F^7zZ*_{;0zSFotH66h`m
zM#aGBdSK_W@p}%ku|ZBNvKwVoP3D?;t}xHfrL=_y!^EXYmh?XXvI5I;rfLmBR!gj|
zs8j91C4EspQ{O_BYo>mqRB5bUU6y1UXbV$om}<1Z)dfcCXiMx5uA>LZV3_1_h@auR
z#LSZE9GXQu${@)!l?Ky}4-$Nl<8zGEyhU>|sr-D*z#jq@{xI@6H_fAf^99R;tPQD+
zw9SD1Rwr#z$vn(7x47qtYvu_xUx6-!uK~D1!N+fn+_K%Y-5xD%8($CZTXxDcW%ZZo
zc9Cu`(>)^HbNi)xbf0XatdTN3DAI#vdWT5wxJQpw=x~`H5$TaKy<4Pr-=p_zxWgqn
ztjPa%d^y`xQYbKFEU9`yg`$J3j37)UtPK4O5VoczW8>8T!b{&s>@Asr-e4UpS%9ty
zo?0(UG|(HYfh8-@8<?L<wxW*J&B88RvKQ_A_Y0Z;obl9JRWVrC#`F4uOU=(TsaWj^
zJHl7Xsn~mZ)t^~%Jh_je?!4}g?7<1|>Q{TNJ&U?Un3*M4(KUmrc1vnJZgoE{x#nn=
zT5`b82|pM7+=Vu^iK4M+Dq4!>B3-l=ZACjMHAm4|biM9=&+x8O;ac((J+RY^%1#4+
z$HW%Ek0KH^=Hzj_d;kING#&>?_8*U(@L>cI1h@qG4g^sIod~)C#9VbvklLgjvW1)K
zELaA-NbsnX7GqFRGAk6x1P0>H9b`OU<|<~efLmMAgOP{^Tg<EMaWV$n===)^YD3@L
zFMkqCYeR1^YW@VU2wnh0ebfU*lN^Pj#jY=x3g@vM@YZqvJE+KLIsA+mex?NSJ~&to
zj*G$ZW#@*!zwF;F`gbqeE1`HfbU+LpSaw&M`^wEDV)Mu{U4eR$2{AHJqC=IyKsm5S
z4D4BUZ20@uIz|7$vi&!9|Hs|i-`W56{))G$<m)YYw!O!_KYM5P!=7Ic{A%E#LEqyl
zIie5ERD1WWvp3IHyj>+v_j|kE-*;!<2ZdjL^XK0LmUh?jB*>`t9p%UYF>;`E@T3?y
zxjb2k43r~rF%n-Zy#LKR-&~LEyEeJe-3QH8BAr-_VEbUn(fes|sM0=M3H4RN1C?NR
zr6p1c_E%ba5eItbu1Z@B|8INxVVkSf2I8-s@<dc27SkPx`S~80FTNMSHUzlWCG)}K
zUpsi_6hDd-lx+NV1ZdJo#!Ol$NCu(6^C(?-Tsev{uop3u1BzikiC7<k0R;H{BxluB
zNO7P^n3#?SaYG5HYrd*{<q>2>a1aaL1n~RsQkAEUmY;f2eCkCs(CJd=PBA#PZhTQT
zdQ4**fgafePnbu4Xtn#s8QFq4n({|wD`GYZJO#%M$M5Wz>v5YRm7aaF0iGMy_6H_-
z%KcQh^S*T$C~fVs37*hc$8Onz7)`ab%2);s**d<k1Ey#I9ApZ9TEdyb^x!#opL+YB
z)g{2m=1i>O{F`Sqsi{;z$e9~S+4K4YcmtdrN^uWwNw~-G2Q4ds11I_noC|4Fde(H+
zsM-SwH|J!{oQpNG7Vs13x)KlPg<4I(58i{u-%O}JmUtpiX0I!2;n2ruVI9z(6MioE
zVcTx-IgFeiFwc~pjKRTrubQ+r1EftOwANJDTCmzvb9L0dy0X><OUy6%HtqRpNb0oY
zOQup>zQE+>3;B7}!c$XVKYOa)3Pzt$s0#cMn2i*!Fg2lhL$ot4-xcaS#2SCB19_~U
zjM1M(f%e%~5qtx|6$G~te28EJ0R@fmgMdLq$dJkiWcgN2njqTHwIOKMw6HkT=q=)p
zWB(B}FQ8JtLj9+EtVE9~#;H|naB`C=Y6VX6N<RkVai%C3qSa{-4uFcoY1on)8lqaQ
zC4B+Sdy-gvQTIcNH5By#jnEp7U`tXzJaCwPWKsM6j&1?$%1Oym{g8{c=fKa1qRSCo
zY>B3YC<G;<+7w35EkqZ?@#rbV3FX)*P61&TqDh_`k1n2vQmznv<@oUv%)!&A4^N&x
z`objh%)vv)4o^;e<;d~FU$2p)g<KROHPIs(?(#v^dx}=06VXf4>D08^H#DEg)b$pR
znWU!bxP+RYMC7OB;JIw>BBw-eAh?;#%yWl%9<*y3W(6$bX?XB603<81h{@W-PX>xk
zv4)#2CNpV>SaP+t7yBA6nnxMmhK7VG09U9DcT?HjE4q7cr|-E(D#134XOx4ZVsP|s
zY(2Pt`RK<@;Yw3@^~~zAQs4d$&U|o8rgYEghAKlN<)NeE(9!jwW2M34GNnJEdsZhK
z4BlsT4-BSemrR+QF4;tRM#*B_B>SLiWdWkHSfLhlu$v_7$rlchPcliiivmdWBo15>
zP5e;^RxL&vzNT9I9xw~&BH_!0l#SrsR0D(3n}&nyoa_gbwDqxuQxyLckU;Uw!(;1+
z9N1+V8Uue;SnS-?M|HW99jmh3g*K|Y^iy}VL`Rju+0d;fhL*sO1B*obY|ZO-D?t<@
zo)}Q0@lAmed{Hv=-GIPW2Ag~ltbSHM3j^ov7+zKqYp880+=5E@WXc4R%ryBKDkI{^
zE%rQvK}%(WW#@%L^c)vWMziyoLOP$}qPeN)=<fJuC=Fm%a`-Uum$5buonJtJ>y}>x
zKt2O8&8lk_C#)70noj1q$E?{$8UF#>!_@$Gnul`uSM}GPUQK>v?|}7LiX2*RnkYFY
zDjx6k@zuq({U5ZJ+=oi^p~g!OU6luQOYevxpY@Uvf|P<}p1p)m0bf$xZY^~ITMS4l
zCn}5m4L^EA-VdQQZC(1vz=-AYe_e@aNNin+Zk#XTSVH6%7h_Muac$xHM;wu&H9mC@
zl;{C6C{R<z<a{9)3vIRaUc;UT5Nt;f10Y$ZGPz`7bhkvGt7810U?I*f|8)c}A)B2<
zd>|%0onsXv4+R~60m~c^NQVQPYT+5AW3*2)5-;ZxqNc(;EI$5QSoR$RR}r96Rpt=|
z1b<cqHvtij!O90yu(P*h46gR98+$9e#((zOPhb1+@UJI-HCY-vRWkanPp=kkAAaZ9
z+sDL?5z#-oZalSN^2mCfY1f)>Ep?~$a|+N02FmOuM6mM^qfM^0oiYWFyJMf@qsjpo
zgrm(($lG>3g_YZ|NFiWlf_1L;lsX_TwG$aSHHJ=w!9hj0-M3p!6S|5oAR7?b0K|j{
za0EiKg`hMAR4YMkR45{oD&WD`+{?oCL(7-1b$sr`(rWvJ(O(@w%iSLAyG84}MH}4U
z>giI~SH;LdWEdn2_u+L0m3hV~-n3rP3d8i^1DNib5zFd00~l_42r$Db)niU%46Ff+
zOCyA{P4F{AFxvu88UorhHp?3DB#E^GO~GuOjkROQo6sF##yYh!7iVu|@>Y4>&{L50
zKuFtZrSKoy#(JR!dYD_%47#XW5*))eZoT<2bl+p>Esvr5IS(6nOquew!6%lsKC#r@
zxOB?LhG0g#3x-&js5i+9hdyvfI?F9=vKCPc5*35d8B{U2JC!sGf}o}&oj{D~6;J<r
zfNv6@;VF=ctZIHMJ!xj!VtkXlLIoXv692zo>!_@+P!)IZUU*n^50~g+vPi*@(BjmJ
z31xy~Hjo|*z%Mz#YC4x@;4lu1eK<b@8w$?jm`mw7Hg`#KY08PHTgeS)%;|!_2)U^O
z9A@PCJhl-AE@3*!V@2gyi>V!MKx95WH(T{19Kfz7(8|g*PQZlXG(uQkErXaJ<TPDf
zK&?(vQPbK`jvqmxg8pVu!YVn_w|fhAHP<LsS2PuDS~*VJmh@gN<_t$6&^9Usl8WXl
zG#Kv`qZ#aTj-na16|~2KZ&qIdajd$7iXweQ&l(}BNCQ<H9mKdOMw=CI1k{e|o<P<5
zuaOsF)}St~F_H?}=AFUt(3VuJkB3_eQMGucOT}u>s-=W64U$+>%~C30K!T(h)OlNy
z>axJNaBq+VF+7UFm{&FT?SZ0w1~t`|#2Qh^6?M3Ugy8cOYi`U3?vRBzPxOy8-x!@D
zaEq*yV1l7~jp;x8A4vR7!1?D8;GSJ%56|I+3O<VGF+-Zs62;3NoKiHb+_~VRDLy9%
z^*lUBJS((axhz;a;7UQ{J^IK#U3~Qvu6M8y!B(73UgV;MX)Y>&ogRg4cn*38lM$UT
zaF7I2ww0WoBV@9Lz&9hU!S>3dv*sMcR+RIn@u;MW#{&Fyd_i0|aKeDb2Y&+zxVx3$
z(kU!b>=KAdVoZpC3&CF?_yK~y1RynG!+0K%<^%@9sbH8YCIlKKJi4xuW#aIm7bXs$
zl$s}V1r$ovnNVCc+(?pjD!)ew9q=odH<6LY9EudwhFUkqMgu~zLPkXz5paVLv$+bC
zSl3>lE`}cY0NR1rzd^Y$0zw2V<S-TLhGQ>RrL_wmAGd^7cfEBMP+KLuT{+IO2TJzt
zkK3ZR_TSvU=J>_oU!M5+iF<9&FCVXQw3h6hm9GBfiGO!=Y;=#_Jt%hXx_hD2wRd^q
zo};7EK8P)~RqUaXy=$YrWBG+jM;uAv%HVVOjBRvndnf*O{O&|~?63&`yAC6{<5N5<
z85Zf`yViU3_=es0SI%;9NDK~rWFPvtsaMt;ygfA^5)Su5{pHr3V(ZTJ)?N5I8!aL7
zDt1rF9<DS8SN7f5w|e2mf!k+3YL3g45&TZQ&O25a+xxR)KRtH$E8wvn)U{XI`&M6F
z)5#{ici@2mm_%SUP!1(PCz;3sluYD^N-}^JluY0{&vO#3Y6TK>mdr{BNpe&}NkqFy
zO=@6?-1#81lqPiH%OFm)C<THW#J}Z=1vb526(Qfz6|LWXjJpOx*ju#BXyPAQswUQ`
zimFpo(cI`5h&9cF9)6yJ_RS5CgKPy&v^P5bL3PkjrBIE+lIl^-S&%<V_9X|@^{8X5
zJ+DmE^@#!CEeTKcL5zZ;X>=e2ZQ{AXmIP=24MLtk#dC};>D{V&fn(2xZO!0$$(F>L
z)tTmxgP?Ata;TZ;mP(LSYr!Fz<Ns010dLSiWw92bHgE;ebt}j`)AQ&EmYgt;+Zxba
zKyRSbmfS$^Z@}*XdILqa<Sh)V+-x`v7JE?-$9=XC^_Gsc6%870FB&!6QG`n@RUT*K
zuK=}OMLR%u(E-p?^aAu2odBDPE`ZHN4?thh4X~y0_lFXH<23*!0qA!`9eM2uB|#|J
zQKP7sqOzg970Sm{YV8Rnp&|{i4azYdvn9Qy`@Rm=oCQKIk>r1Xpgxl0A=1D`^Kh9`
zxt6*4Qexa@Q`Nvh2uO@;IiwOfH6A7UCi<1=tEkSD`)YMMbC9TBazo>_O|?P1J)tfL
zJfgB6Tb&5TKc)dyq-t$!8Xdmht2>nUP$FZ4QROHS1HTIWOUFn8r|LDh@#u-_g*aly
zXvR=n>-QwNvaw~7pFF$K{zlU~x!CanIb?_`=c9^g1Yxv1pSzf5IX1rdB5`iiS3>V3
zs;Ce6s^Eg97s)j{HM+e3;cCrQYHWoOgYSrB0BhvDvg+ig7l#gl2{#uVjgLexFhnD%
zEmrTtW)^Dg#`&K>MgDIP{4Iia5TMN@Sz)m#SGnNg7HUK#qZ}}!)K$)#(Vis-(UN6W
z=}xkMqeOf!&FGP6AzP)bAwL>TO7tzv-$ML(1mwUPr96+y3EZ@N1}^-nYo;#BNGv(u
zCAhiF!Q!vpBPIb;<@lJ4pJvqY&`fnel8xNn6!0#zWW1Q>F7dZXPfT^D7{#=#y<GrD
zLtc@btD_33vn`1UitiF@QY^n8WBHaD{X3+cKtSe}y#F1{k~e)1vA+i(IpFRm9HZk6
zPq>F=1(dkXvv99Vxn~L`P*9(nB_BgTWr}-eb5eq@7BJsY+AOv{YC=|v3?P$)*FkrK
z1vx@_{3Um1iJmBRPpkuUcW&4tC3}n*XgY7~fx&=5egha=Hp&5}VsxXqb!GpJ{kL^*
zJza8i!S$E2d%Nh~zIIr2kCy1sl6zG4Q<461c%K;F2Pf>Gb`F<24~U%yDh}Uuw(Rc{
z;k?}Ue*2wvxRBLlgF83N*6aJ=NY&vf+XqGaV97oPC*;nyvSV0u3|BnO6;DgW(^~Pg
zRXmZhr(g8+S3JJ5r(5)NL(z)shO7E`=(WN){iLOK(cWIR$3%N<t@oZC&OADAxo)~{
z7vA~S+uvFb?p{7x3H6pk{bHzpZS4I6cMhzF#+Q$Qm051?6Px?ib`l#??}VnGhH*Mw
zB`_mtD%e{NjER9UxL@Y$Ec^OJU;nbT66h%hc8Gx;Kt*&!42%Hk?=Jg?MgQ=!9bU)U
z`#I&a+TdDhDcE0X?H8K{WCIX3Jk2HFwo=PB(bFfJfB-SN=3tG-f+UCnhDxEqQrn=|
zJS1C@WTV2-a$EePwzzDE{Cx)%h{{gHTvTh1>_*Ikm>01oxbG%6Bj%(09dZj|eyX)s
z4j>k!+WO>Hz~m4GS8FHVoRr%z7glo-%(YXY_Ht|gN3H#G2j-*72*kGd+J%qWM&(W<
zcENf3O5)9g+zq+=Jyd9$+>7*WRC8dZ|IPmUeV7}BRk!RUaU8f>HaQ8~2~C>13kT>M
z@oykN7mfdG1bqm8h=4?#&ma~<fMyK2Qz+@@<|Ok8a>1F$@IU_x1Zd7EkxddoCWkx-
z{uzEk9(Kc33WK>Lcc&jfICMk~Qn8^*_ei;WkJ!DZvh%4*Z|r{Sn8~%#?3YdOgii!f
zSqow`<!O<vh}ke`Yex(|MceAG8?(13ME`c#i6r<Y;Z^pgO?G1rzDrp4BGyEOI&S-J
zhUI3=`6yqf+=7^&>g!*dczZ?;U@i!qyivSXTxCUfmy9EU4`p*bXhW>1qxuFagCmt4
zyYIK0*O~kqZr>Z1uU&rQ^=q%oCM3XcmHM)UWN8ZSOP{@VR<@F?O)a&PtOJ%G-kg@5
zB<rGraoJ5!Pxa2kY5_K$>?O1&DiB`D+{oNME&5@F5t@&Rblp0B^Z44B7#^0%nBawM
z?l;2M!Vd$;qI?Ye1hHPp!Z2(u1$WKu+TWhQ0X@1waP?>b@6jvA4EU*~C|)U!*YtYz
zkXDE%&%vP?+~?;psK#RyPI2zZwez|Pxx5g6(%+@<DDtJqmTs_?^4BY9ZYb)C+-{C5
zx0}hO7v;WlT=|0)-j40;CG9Bpbh*o13JzTOIPpM*c)bk}pD&~{RT4vRp6mdOgGnyZ
zi26q@0#70my@YsiwC>fkxtPMgc_H`d$tI{yT4P?NGj!j0F9OspQb=uF)x~iAxWMsK
z$rMMf`zXiT=IWcaU_CUkmB0$wUYoa^MDJJr>fiv6;S1Ptlz>}WHt2M^`({daSodF4
z=O<L#Zz;zYMx#!Dp91hZ8>Ks=`-Ix_3Dxxp)%}Iu05qD?4SqsB_l3TmYu9hAzUyCK
zx3*s~!(!LlztD$t<1z&RjyCjm8M6<^U)Jd&rS5&D{V$2#Cm&LneVEq|=|HXyJfz_H
T@Ef|MUguwR{*J;YS*8CAcVgr_

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/short_conv_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/short_conv_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e31564dad9509030e6865a06c3ddc0766467cafd
GIT binary patch
literal 3891
zcmai1PizzE75`>D{y$E}i9^5%aS|th3&eyCfv^E>fTd)`hOR=Z%Ay)gJY(Wy>@hQA
zO4zZ)fvvLLL+OcZFUye%4)oR|>ZwvMp7lz$KD83kZV!7iO;#)Isqc-)4soD;O5S|m
z``-8Oz4!gz^FJby5CKxTFY@Pm2>BK}ZSuK|?Ja0LCNhy3l@yo^!(f|L*$fL`kLoFK
z8P1V$s<+_F_?)&^^%nw}Kp~h37DAa&A)E;_ge5;GvhN|0{R;QY(^@~nD~ux#fIRq&
zZAqWGn`a`<SO~_#icg6g0(oa<&jy>~zemj!LxZwpN?BDhj3wv^3#O?Q&Ae8;BxTo?
zq71UJOOl~{EEQIy&fv$2DdD_J<-95@dWxgrUo2b^m#^QrDK1{2gO{~JK`ZW4rz2Ud
zP%4{>n3c+gq>5Rscz0SB3+{3>Zj{u#DauM#lNCdhin3VJm0Vs`jjVe!=fk<3?PJh*
zOcat~WRhVOkIX2X%;Ifxtn7Knb?o8Y;8I?CXn9rB&C9TB=WOmhsZUqTvR<TP`&GJb
zyXPbfY=s`#hA@DWn7~`K48{eE>JjMvnQWu*r%%#mp_DG=OD9c9zpa=j@0HKaom)Sv
zq}BXNy0l@gYQ^+jRV}3NPN$`|C(<h|R~TsnPwyB_gwf(uX@mB{GU7_h4PsU`?x*&j
z-@W2gmuepz$p`>@K)&leRSlfd1?ViLd^8}6MX8{OA`OXRL6gfWws}#!Q<hYBgf~pd
z%xA%MtC~zXbEBl_xT4;R3|G>l$ii)gJ!1^mL(=d@n=Ip<-nv;G|Ij{s^*;nU+aBWU
zdyV4OY@E2q)M#d;?Vo_{I{lYK@qp8rd5}6Sw$t)-TAb7JuJO3QUV^#a|2gV=_o(c@
z?}uGEIe<E{KjT*d9a+$o1(mn%+tCZTdZGWL7e>7ee~PE^{XTBTDCLXgLg&%YzBhWJ
zslkgjXc%Sg6Qj}HPJ6ufPFc}6MDQ;Jo2q4L3|*~=`J$Z9!m9*;Ff@IM##SW*gn2U$
zFWFHs#1aj{f`$m1CJnAgW_DF9nL0h->@8+j%f)q3%jFD+T9Bv0dOuuBk0BcXMm_nW
zNqa?j`b7-`Oe-1?dR|l0v#Zp1)7e_bD54zhp^xLtB(ko!Lk!T74Z^>H@A5P9s&Ami
z4Kxl8)wrQXG*;tcjlp=0i@zF(Kfd+HTQzR15l?(|;>!~??ugrZ8nfdkYuw4EkBp2z
zSll!p$)A6UijyhmmH%LUZf(hS?|6+%HBQe~x%k$HUtRz5`qLSEIQ<Pb+X`ho#-30P
zf&i%tzk(1#fM6b(g^=<nUYS#Txq$3_=*{>ye5rr~CNv5l3h3H$@;y;iiZtem5EXXO
zG?bGJ7aVj9{A?RGacdOdi`xDZq>jhLV%JdGMHLR@ZfbdRsNx0ro2$8lkl4s)tjy#b
z2(I{K_7?0>@mB(spb0OfMHXw3H3Xh6dhThbv0JcqB~%Gl_)0`3l^!cBGwWBtp}&HC
zoz%N`s>NC1`yjWtIHX(Dtn^yFYlyvFWO>&Rsk`VI!Z;A@^w#@Y;V_Xo+(9OBV)59j
z2qr?BLzd89VfVhpFRYMz>fc!*xG|z*7p=$PPQQgQd;ndvcA!fD-8GD)E^4PZeHqq)
z^}1>8aJK~P6l$Nh5`|eK`!!_HiIX*aX<cObWbbod+fxjA=lp1#RD32rP=_oZ*n<oa
zbFw4xf((3XMZiA1<+lP>@VWn)>)%SB)dxv5u%u%EraVhaPJz+_F40`o6-bAw{5`tv
zCX^|B5#GcK;MID*csmu+@ltvM*(fr!j6Q^H7#SMH!I51AN%hkJqM@$bF`U`7&sk11
zr4>kkE!flX>C!=6(R3($#1_JJ4nqfV0k_DJT|gDHr7~qrjrwHeE+D9mp-%_hi)72P
zbX%87t71XAC$1Q@52xo<2m3JB=km8{&l_4$8PR@(-dtIQ3aULFa2+d$_KavrlEs{+
z?<zR9px&%j+7NXtQXO=JOLK;z=JcPT<T$bu$fl9)nh@h)*HSGLIu>>8=$LgBROo@X
z<OIBav@54Tq7cwj`685q?Zgw=178MahSB}xloizL)I9f(zB?1Twds_jh!->d0-^GN
zG<gy`R_{M$_n+DfG~!eB_(eN@akICPc(0zgYA3G#?atrFUYd5|dNnW%uz&6vV+Uq7
zgOBE_BQrZb5;@usCSI8Jv&;6`<sA<j>3QuT!9`{>{ODFSIa8gz20M&Sz~n}FaBJ-A
z@X#w^qAtwa!h9n(yk*(3<4;$c9yZzsi}%M~`#sTE(?cRjm^N{~o}9On^M4iV7nbb{
z%eCaqDnAN((aE|nV+%7c)EB>b`H6kzYW2*us<7DTOTP9n(FvSCvcr>Tx|;r=CM>{-
zB6FLIk2dV_bIlNm9NZfF{f&k&v}M*4@7sy@zZTwa2(h|w)E17`g;`setqUL7!bjf-
z*Iy-)^+eiEr0a<VJF)QccrCG1<%b)*Q0FIYe)5U><kKquUY(z_`8l-23~qjYhkzmA
zpcBVhH>h4%s$N{GCU3y`|2aJm{K?Rh;VM7%-NDn1;p2_5Gx&FCvXPi>985Mw(v1TN
z{7cU541^DbHY3f0L^upabc<5vDx|-?wSqnYPSr81P;N!jR41PG%P8!s1uzddxf6db
z7^i_fB+VW&JoY+x(R=vS&`8q@UpReYw&}-KfD9aJ;ush&G_ezgRx6X^N~vBN?)+#{
z3>~wmegqgD#TPi$Dcq;ph5MAWVwk!F<qC&tlaAWm>9=VX@OPF|-Rs`nCEu=FHuI{{
zddg@82Ui??Y8Bm11>{_PuQ_O7zE#s-)E8kI;-~RzU`-FhFhBSRGyW~%|4lCZi!A@h
zdKq?`0NW8f%yf11)DD3!L@FEpk&Q5Cn*<nC?rgY;-JQ_|hB@5eCaXt2u(^dFJlJ(C
F_g_kn!T|sP

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/tree_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/tree_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..30687d0d4cc994c139fdd460ebf368db616fdda9
GIT binary patch
literal 16892
zcmdUXdu&@*n&0J9e3OzWiZ4mj!<MM0Wy^0T@k7ePag@Y%vWdnihvvPqWmBSjNqKB7
zg;8dcj@<Q5<YrsT?Eq2QKjJiL>shpDw%v9e6zC36U~#XM8M1dh7;Ps-kv|Gt#|~!E
z7HEIpxx6GLQ<(u~QJ^Q*chC9G<DPrYcfQy8nE&i{J2<4Y`46XdKE-jrqJo}S4GNF`
z#K3X4Ii8!~cmr=t8zu~Rn$pH;(}c-DICI)OZJDr4TPLinY)scp)B$fv+otUk4u-R)
zozt!f*R*@WJ?)wBOnWE13}2V_P1jG<v%D?cFx@!O$ny5If4XU+iRB&Xz;yFO^K@_`
zI31b@F`P3Uo{mgJ44jb@nuO>lm?Nc$79;l@$GhI)c(>sC#8kqz3MPj40Pp?8s9`_R
z9^6D5tMj3*UT7BDLco`M#`p%IUFZ-x`Nl~j)zBaB2d<NHlV-l@9rHw2%~k=u72hn>
zT{?;8TM}=aufu3T)SlW>g<`4JkJ|AkYbPCi2ygCTa}Q(g5y4%ab^N+99-Z$zmdgn<
zxv9)dES<bAh_UZY<u1m~ih@wC82pMx9*-LoJD<!YQ|V+j8#gMp6O?&9DJr&?XK8?B
z8cm#u)Lb@~nNDP8vvITHE01zKnYt{@@QS;Pd0~1sT~$1LeO6E$FU_TMQ?qH|<w*=y
zKQ}WqIVJFkq&`U?9j~X;(<d@BlT#PyeN!`2xkNg1;esH>O-isl`b$DCNz*+(H<jiE
zQE5JrnV!zfJW;QNv$JUo!3(JjFJu$R89p&93X@ambQa@Rrh8^qNTsUR*jFk%I>(4#
z;6U`;gz+_y`-Dj_3l`pZ1Wg3%B~NuXEf1{TzpC<ral$S*1Se{PRp?SyCoPO@qLD$?
zZr-eu^##L(hxPReZX%hg))qDoA8*CTUPh8ezV01!nYinP2GoIgd0Q3M&#+Crz0|`|
zRTmH%>>MB9F&^*2pBsN3{CR~&jMR*rPdf^eF24R9OZiQ~(wGgUF&nGK46!;hX5p{G
zhOalpn-%{iiY(F6S;e1BrG(jBA~Tnpoy#T8&rMEZt9{wI+1ZSk1L5#FP*wITT52U)
zL0=Zc86llGpU$K%C$dxXLRPVgLT*l+NtKucTXJFo#2y|IpS#Unz|Q^?!x=7a9FN<+
ziUIf4Q3Bs3ut;E)z<mN61UL-#F$XF#rPA3fjU4-*FAn9VXNP8|W(RUf@q&;WxHh-{
z;DO8gg`xD+`JvhCxr>>Zp{pSAp{v6~Wx5|auN|N4P!30v&cn>$>~$rG0TPwZx+o-h
z?Q`Y_YAx8{cFnsmwX6+bk^8US5y>|42zhQ3wG)D^g&CRK+;sz1L9w4bJvNp&cJ}PJ
z*a5T#c2bT;RBZIVndG!E-?Hs=sJaJ@vlf6wZo?ZEX#k~uQxD=5o2EmH$)-bR>o%7I
z)Y2L5V*_}V*o)%U`M794Qy40N{g`jx^o9~mu_e-*^ka<DvV7@{Nw%0aHOI`{v_?Bw
z#ZjRl#YOnbR}-`iS;b!74aJ*ErY;H^F($G(aWF+6t0&5{PuYjeZ7vVdId3J_etADW
z!I>*lByZBs`VSyb^Jtkj=1r3pP^4vC44}726g%H_oaj16bRC-pH;$bbVoBsQ&Kk>1
z#)kI|enm|gJ58qNgfUUfh;fTJNP`R!*hOHNz-|DxJ26Vy&Nk3W;#0K`%U(>*3iI9D
zuIJ{4G;($TV3AXOoGY+myz$IRa?RQHpdl)?oLFxdm0Y7mU;Xl-mHE3zJ_||S6O!$O
zw)D|W@7TiQe_H|(X<tDiSl%Z{#7iG`UXvM&O1d_^v6@P%S`mLO6H1?C>tnOsG#|9!
zy!d-mb$*^@1PWPd1}gvyy8JzQW@%^ig>IV53RvZAD#^2BugU89-kP(j+4d+#D<3XD
zn;6M*b8;@1iANM$f}PMrLUAM#(;0p)Eg<hoB(BUQ({wl!3DJ)s6!ZB^CariAkdQN(
zT#_Vy7A-BgjF`Hp)J>){$=vWh#df}w6PwUWq_0)X>8Wf^u`p&V5-$~-32mC1$tg~z
zPfQEod%U=V(5@_vp3+c?3Fk$Ovr&kbi$pkh=^S(fkq(S_kN_0Zty?KJ5{^I{{<1IP
z7`@9C+jmIj;7ZrJc}H>Yp?~w%Pu{ve_7~%yk4qzGB(s0{;!19H?4uVyd{J)OB?pGr
z&1e40v#&_6p81b6(%5T~Ikwt!cjTVw-X(e0QMvD!+;M!}{Mv@ary32Gy?6b0Qy+)E
z=8%14;;i)ysaiQ}1LY#iDXNN4m4+x+wXbwZZM)_09%|5DZqTkZaB;Dn51n?)sG;a@
zR!x-IK*mBDv}g{ibu4S+fVH!%gA2E)tc&X69Nwku@`<HuH`=~-Q*CK{)-X_-OaIDQ
zspF{Ja*SrsU!FmKd5TT<x~Qs&RXxP#G%-42tGkKHX}c*s;<4Pfxr$CCKqKM}Ob?-)
zrWsi-xwPih5VcIZVLi;O$9C;By=J>w>$mo;qgviJQODk6FO_Vp<S3QwtmG_}9IWJG
zCHI6=sQF%=>0bB-PpO>?IvUf(fb*7co+_M=aL||PbsY4chAREXx23LHW2(RIj{B9S
zO}s$oiAp_5qhu<FW1PrkpnGQ(_jK|a&b1(3Po#wz#j9m;+(c5LQ;L)7v%(ctYb#~4
zic^zux#an@fYX`I<Py`#+1aU?3ryZ94fLjx&aA(Ry<O9(brchix@xUBsZ&Ym9#=d$
zU9Cx+pGszxpe9+$s(1q2fT{CJvtCmgT(1yGVcw*@Ie{?Y@6kRmRLE8C5(--rZ@3KY
zLo{5cdSbj=(%Y`u_%qaAr}nBoz(RI!O*|Lo77RJNj=w}qa7)S?bm_ie#3(gR#<z@Z
z%8_hg39V{a7CB;sTD|cSapo;a*U&E!XWo+ZI(>f7JD{VG20xGQs2bVyJCAI_>}yy)
z+kZJ~!ds?`BCydXv9t@H8b5(;L@CcD%9<70*VudLRi<%9;_*81Rdf+g6F5WQEP>Yu
zyiVZv0ODS8g7R+>V2!>*xlsVc%uh{DYVBVk<QoKDpc)g-oMN8J3DcF4#5Ym%u~{)^
zh4iH2yaJt3KcaRNgey3`P(7hmmGW7l#EN$2(+{J5IOccO<Pn2g+tK{9{|f+$xYJv3
zMrCJo)v)GlFE%zaM33z3k(?tC4E|uDahKe<OLFbn2!soPUOCWvccjpFSnfM4^*tp8
zo?dc3@P}@nymfNr_t*V>OZH+@==NK;-dY_gbncNm_eh<4rKWvLjxT$jDz<hMTKCGW
zdmn^bR;E6fzBB!gGlkaOa_jE(){*t_-eR=-Zr{D+$Afb8z=L39<>UwBcgEMF{e|eT
z935Vd?pY6x6r0+L!Du1aBL{o#`U~-ca{QnaKP&~06hkeAP_G<f(>n&aE%lv{LZgqp
zwzy--{Dp0Y+Q9kz1#iFX?U!u*n(9_24J<~Pkv#kVkdg32#I;z7aUN6p+h8Z#y#Zry
zW+!;x)|9K)F?r*qGHcOs@QszS-^LIs?4)Wm)9*YQu@JI_wxsR97VT@W9M*oz7*q_?
zzSLkjpPD`)0~+bKVk~Bjv3x~z7PtKt+(kS`Ej^4ih<^w9Ei6X-F5wtQVjPB;i<l&E
zo<NyPv2jFF+O{wa?-qeNzoRzK*wQRZBax${#4_4tXZz}_YtEfI%jlM!-I8-piDeAQ
zjYE=asLV2?zGHXK76zV@2cEibkOz)Qf#cio4e*QAvxOad<sBuy(S3yRjS;zZWP85x
z+pr6;i8AM^Vi#Z&G_@1*0I`c=q^%Gclp}+W>+L;^Z*-}C#y9$8Z`tIFH;B*Bavvpd
zi~!q*6O?0uz<L&}J0ofWfY`hyGnk~H9oD1=xdhlIE4EoN1FI)@UA#!R%LF<IkduVj
z;v(B_0%Q2g{u1C_ZlgK8ZVne41MB8Mu_=7}+^uu#=JsN}f8FdadK%wL-$+w^ec*QV
zR&?FmQfz3x-G8fp-Q2p-+9sI;E2edGTd}28GB+(}fh`6@i>H=5*Uh0~b8zv+<;Hb$
zaHDr{aeR5~_NiN^R!3xi_quryn|#9XoIx^2S1wB3Ps^>(tec-L9vhR)k(D>3olnUv
zPp_NDHY{${7_bbi_DFrl<&G0yb10B$;bCZX7t1wU`d5Qe?=iXk_}3f?tieMga@x1k
z7jLpXbnWU9F~}cQSs%PXF!4t6$db;&n*=LwhQr*4!j?2?TjC~hDe;bL!VdqY8@@~j
zUne+uo8aQ@f_u`&JKnKOco@!!I>K3Tm0+ImE^*fk6F%q+9_Cn3+!e0}JjaTYx!0Mk
z4UL){e2EluVk=f&xH^>*Hu;2z@iX1^G)~q(FjPCZZaDJXAAvwL?@!+R3CVsW12DBU
z(nMLe$(w44lm$!Pa?P+{y=D+y7{z+2#K^R9HMmfhuY0>GN1~9Wn)+#-&eCU$yy1dj
z!B(Y}+Vr{wdlkF4<?XqK@|fgj*pl*QXl$h~1Y<3~zc!Pv$;eH#>*(v&hrZ6m&Ez7a
zWr-Wb=kX9l0u13%EbyqpjSSBSyIe>xhnUik#Wv2R;hMM#kBqi;fodExvJzy-D5fO*
z9WGoe2qLU6;c7Ci)F;TZ#KT*C5xwVTa#@%%(7$GrqQE*ar!KR8G)|#;RQBv<3>$MI
zADhxF3K<dC8Hw}BT<T&XcTp6w7c*%-?i6|Yf((IK0#^voS1C@Kq&{Oa6%;Q+RZZB%
z?61_t3<xo+xHe7Go`53^S3QYDmX@E?Of4;H{AUixZG=VX@?}t8$@kDS`w_t3EOL)M
zoZWMyPPPSCTJAdUedqqpFKjPtgu4r2_(FCsnQwYG0_}ysh#VMMauz!WrO4pQ$XfX2
zd!vPsm*tU{m%JOpN2TFYH%}B?QP~w;NqpfNkk0&`bovd|#Mzr3+qhu-ZgjnQ-;(P=
z>)xU(h<^{j=LT*K6dOa2?Upvi#v`hS>*+6aACkKd6}peg-AC`&%iSlI%s;brF;1h@
zr`XkzX5wCB#<9PIB1e41Hg!y5-!<={W{#E!7az=V<fvvx`Z$jCcIId;Gek4B7R))4
z3M|3xOUI&gtk2;s3zh}zLfwK5+E@*palsCJtwZeqzJ@8f-~_&g0lMG<p1xyCT5tnj
zgPksTfG;2KN~Z;Hu55zl?Ri_iE^p0S^3J>?@6NmOp1c>wyVAUzgN{|271(S^gMus5
zS5iqTr@^HuRLsiSB4kfvv~5i|P04a<I?@8Qq_5HjV-_9j&6F%M0F{O+&qxCIs3h6R
z6l5|v?$gfXyM*|=1b#^11_37T$=cHNIW|#dVG4v}Z@EA@W@eUkw=B&@KYjX>9YV#z
zywUR=HFY-q7_v713}a;P1Hk?6;-WE4t0_cA<jBaqSLMil$rk+5wX^8!lJ-CM*kp8j
z9^yE?U|4c4pOZRAq<zn$Tgz}EdR&ekmu#V8ptle>BnJ-Rlm`0?!9#NJ(2~2@6fZRG
zmYa4jIaq^za$p}CP}`^Ez*ERJ_Z6BC$jt|qTwi*-imgM%wqb&y9mQa0G29KCk1}M{
zbrQ0yeudmVhswF_4()I{c`-SOTb&tRxR#>xr6)Qq?7Si1VB7PyV9G;OF&9uISMFU)
zjPhmo3`B|k4sPZkZ{&>-yfsc8sUbL*xTvW`%XxF&@-EIXLG7yalCHp%N3YmX)$hc3
zWieQ3%9B&Z^r>0D-(RriVF^`cnzw4#M8q^in$THDKqAPvRU`LN<Q0oBJqulv2vBiA
z$mOOk%w^`X;vZ7OI*pzgDc__PjTv$3!WQ8LNkz^I#l$ZAH}S`89XgfBR-@VmMv;lh
zjF@2C2$$mg&~GN;O&$IcgJwyvFnVt5EVK^Gt;3Qnvf&J@w68fMUv_kV)c0ZE-Q+(V
zTpInEt4+0W;mFD{DK=7w9hdPhdVG1$(pa%$XQ5-S+_Cqb@Y#ubQ}>(hXYYrkeJACP
z7YiM)%N?(;cf7GQ`UU!1xlqdojysOkVQJ@~`?(dzdhpbe8|XHOtuJhmqBknpqKrJ_
zhG*mTTTKG8oyF$}oFYIhjfs3s2_bQ+Sq<dU6OR*kg#hh=_{RW>yCjiQLOPvDU?1NB
zmfbHO)kN}sYD(ZoRPjdufAbEf8bfq>(A=e3D1-S1!YiG(-c;*Y(Z&U0s-0yW91H{3
zE!Q_rR(zU^wm-CYSR5OXR@H(hed<27j&e4xDWp=J>fju0kDQcy-Vm^~Y_#rGEqKyv
zLTVl5Y-sUoJ93%=PxDh6!7}NhzFPkneA1U&KFmKrC%TDWfCrNNq@&zhdvVN6m0Qw$
z`IZz%&z#q8QR{I;%f}l-lv3qTllGj)y##qQuNkkgFdmekGp0-_;}Nvan-`2X_nXnK
z;umBG3HNs<a;ID269>`b7WE&Zx%dYFiUS(nRZZ(t%(KbdMcjgs3b^GyRU}@)z<)<3
zOAH_8bYs)vsbYP@;>o}AbuO77_!^f--?uMWica71$u(yy)R}^-O?I`d8oqFK6m9<H
z*H&J=_2#;*ZFN|-b>Rui?}kHla`jzc*{+~uZq`<wrdCmVQ)U$PM4W{d>e2sZT(fFf
zIbDIr^)wnlA1N<rEq;lmM<_?Gq@!>(eOXQpJjz&6@D~u+vS6*a$zj}J7L>5f;Epgt
zNKb$%GRd~&rW4x%43EgOca6MB!(t3uWsIsXD0A?tQI}}cN^1~79hnPNEvC`Jj>~qK
zD)ik{yWprA)uFf5uM%#CL7vXan6=vyq3J#Gb$uAsm3P+S?BMrh(*-XtrMv?kDwnnw
z;qpjYSs&NH-5k(Xh_o!4y;h%hmewzWTATjOMC=Q;n|}{D3MqhoMPdR5l8A>!F0`8v
z11p3W1yIbBbLli)<W4FUF*$=EtUH9ZFmW7rS588O+!Px->vUqOZhfYc*~^NJV1leA
z!<2Z71~Obi@Wh;0%^nn2at1~UuALK8{58dp%F^oS+7NqcOz`)C770AYUv?Oj#EcGK
zqtv)_-P?V)9e$g|=O4g3GI497Xs=&B0IvPxxeu=2xxRAgUf{DiC_e$~;yBKZuO1EE
z4a*09lvpwp+q#!L%U4#~mvd{jC~OT6v9@T};`rYmUQRBL$mSrJp4+oHhAw}+XF0##
z*!6SwjwQo``oMC2_1LZN|Gd6?=~%IK_}-4s+J6$4TaPTg{H3>H`I&WZ=jxR;Z%@$|
zEJj+EPGN38-m~)k^~lh@b~&===S?HahN3T8@O8?*&Z57&;2)6v19vl@UAS+!f9!LM
zH2Cbg|GA&G%l;R?F&XO{Ft@;7%<b?A!_xT5@XFksgR58WJaxBUitJl+?N^()h8{Hl
zGi*7!lDyR>+hR8?YKZgfRKuJrESW=$U8Jyl<<wltJ-W&GgMPtFE|yvr25*=o*9*=y
z{>*T^Sn#w8b%K@75vUO=0h}q8QqCsW;8L-cO1N-EfSIjS0<BL5csJZHaLv$vd=MdL
zj#|Fnnr;9u+J?*DQO@wbZSeKm;2XBVHwqraeAa%4_MJ`NS{wM*T37AbNk89=74ae*
zE5t&c5R*k0t1JYGh3`NgOC=F2u?t^}qk|x`sRXWY5f!I+vgs)vDp%rrIIfxRDW0;&
zibZNDUW8Rn<+6!v1`2j6Ijh*2I!9p`N|Y|2E+$3lt_89sDh@79ev>HC6NwlmRu&oA
zfaO%HrjX;6ySOSdw=Bs~UlukHEL@^2vbIsKxmv_H5B7z=q)V^_LBb`<iaU%?E<qZq
zR%dy8N5xN7%ZSZea%7INbjh#hD$h?1x`9sqHH=+ekGyRWMgxp>8?YsV7BjOh+IUjg
z%glbpm4~O21O*Qhp}GcMv#9>2ORajY@+?J;wd)w(qKkwd;HEonCGQt=dohM?{ObQ8
ziT?_%8Oxs+#%3rOR*cd8;{Z0j6d{b**qESI4QV#F7)yznY___MD8vvS6r&hAVHzC;
zJ_h}Mb4c+Es2qf1{0Y5s7(lVGs3GxFLNHQgK?M|`FomF8xZ@CQCjLvR{SyLA_*hF8
zcb+i+oWMN-|AGM7QcB(E*ol`%$4)Da<Cz@2vos+s+O6a=E6<_wa&0g+4tpgV_9rwf
zy?l!oET%~tQrqXln`{^MmAdOI3c}C+Cp3bY66V5C=x%z7p$>Y0&9Cfz{~WT8Vzh@$
zh!BjCj|M*+BwyE<jDH<tgl;Rg_G=bK|MT>W7oE+Lv-3eD_Q8=mNA9}*Z0yfp`qP)b
zh@4zHRUXJ0mYf}M>My-qY#XFb(V{aX;YPQkmsvv_ox}Hz$(?)eU6DEtGW%x3>Ho32
z5FC($18dHK2Ms$^qp5z!Ba@}kqjDCv2U5i~$RvYeVP{^kus{;UbXmBrSRlUV1jVNF
z67hX}vtrdEbQM=AQkU^0r9qF|)#7l8Po+TZ<wSYLHAZk|;WDdRtUHObKs!e12L?Jx
zdHdVj#7N>q)#vMK>iuQK5^)@sOJ$CrjZ2U(w>XD0vfzMAtfmUPI9gHkYPr&&;F`f%
zobalbPkQAo7}HZJ={eXcWzM4Gz#j~?xR8G7$o%#-xDb>|Yb_B8mtD;m^O_>k%!IXt
zI1z3TY6($xvodLf!_QhP@&dODUhyw;ZTi>np(&2H!i@=cUzmH}z}Mv+fVR97&<?(=
z;~jZ#En$vUPSnKo@hVT$xKPtk!RR^ExKY!kmn%=yc(4;YD;Pb88bq=K)}y{h$5x)G
zX+TYH1*7Ls(}=hA>*dN5HGcFNtYGvUYMOWhV4yYyTp~`nCFMOjXGg#0+BEW;`u)hj
zsAu<<p;5%X`NY3^a^K)=a@X3oGTxE*ZM$#2ZTHQ$?Y{Z`*7q%l8IC;p#aP8}+fm>D
zM>|>vBQBi$8RX8h84;1id~6oCIJJJ@<8bKa(=o&!A1ap!%UJuN7`uLoJr(;7X_s0!
zVSlWwY4*p;!R~Ku>J5qTEqx&)n4-FEcP2}ImjQGsR32l~?CATxvs?QP=E=|Y$25;V
z#m;N^-#EujF3v+SJ^qp@J!REtu>9WB>}Muh7Wvy(H`ZHgdB^A5US>agiD_z3In*B!
z16QYbfghY7okT=9AJe2Pb}|Wn?mUa!j!k8mmUdmp#mc`Qsja86TT!MLDuyeH;j&`5
zs+cgO;!4fw@n?xEimMbm3cDU9I|9?_-HFSaDlRK-GA3A4lJ<%<m7L2a(`T8+r8qT1
zg#CntMXV@w)SQ_fSKvj{v<Ca-N|t<U8n*7r747nrSbsbs{wW^ND)BR}gkqhWIS&(u
zX>XYOEUsSZ-V_(A?B`zEj~FI#$9Yk^y&<I!*T48_5Syee0b7R|QLmyxyRl)nLF|U;
zBH^3_P7`>Iz*z!Jmt|@x(<Ip~4r!8#Rk$__Ray(?I0p<gVV-*YTLS-%z@HKL_XPd}
z0n(wwKPPaXz~=yp9cN36g+(|4>0DYtyR3SXTDVJVLxvhmHdl4DpW>{F<H^>eIUR;g
zNpsQHL3t<UF&}zTw=GqTl4|=b6g8-}yEtD!^0rI1QK@ru9njmp!IV^~`=Hc425qwF
zd;O8gNV+7hmf)OlK^u*2G=^>;xpidK@cuKBs{`(nj^2;jK5V;Jzuvw_wzV$Vmk$>y
zAhBO|_9OoAv5#~63a)P1)m`*87JW@cU#RGd6n!lPU$5-zEh3&zbCUR)ZhLNd(1IQa
z-N7pZTuW~udRUGgrrWD%ypj*?EQI#Sp?!tW5jk|^vsdNNGxyu&(24tJ{^HHg-~8#7
z&(BH0)41D;^b{fo<;X$Fd2s0nzynvy*Ia|!gD4s)7?*kv%MC|V6A*vh5K%37KD2U;
zt!f=|_~5396zP`+o|gU3sCGg*xYpi6%fYplgQ}CtE>_;Z*0Nu9Q`y5sa4SBv79LW)
zRQ9p@y=yId)p{y7aBZC*T>3|s)JBvZ`nh0KZ6bVtLtJIc;9AR|+Dzpj*V0~y4y{Fp
z)DV@!Tnj#aWGy<PMyMRcy+$F}zZUFQTTp)3%0=4LHmZqnFfj)23}O~?c<7${i}2HG
zJ5_W%S@E!wDtb69Qh2`{-Y+@#FC7M8i_}<Jq+SUTnGJoa2?(}Gc$O9kxzZvHNKyE=
z230$uut@Pj%Yn6)1FDnCSR|D9t+nh^-BiXR?JR@`*TRFUm&#Zq)Q_ySjHvZgt}GHt
zr9~oq^&(L@$c4HJ!QE@Y-D-%+SR{SXB2<oYEj@+kp0(&6wS~&9l|^eq`5~67O>L)|
z8f&9=QbkvdMcY9YJvcl|Zf05`@_2k4H^|S>c|S_v7y&YC#m@-5K;T~!sN5ux4XT;O
z#u?m4yu^OZBc=)a3V~k|ApWRb1CT1L{Z5V)So}_!%Z>x!rpV952a27$3Y`b!&I83g
z`yV#%w0Jfe1F8j2oKF1Iq>gen&ex>cDd(VHqBtq%;+i8Xdv9G{9hCz;s+&+AE)-qi
z?>JO1m3%0v^^|Mi!fmVmJ5jZfN`B7Yt~OCFz;*ZD9sTf<O0UI^I6RL+l>4rM>+UP|
z?<(%z_pnJYSOObf|9jVNTzl{PH@>f02!Xlzn%>Lb$g6d%XyXv<cJ9VG)y|3zz1GQ!
zF0L_1VQ;FN6+K*VK=rb$uXF>pl7pvJt!KCft~q);eJj0sRu06~MuziqEgc`6x^wF8
zh>TOk=7iZhyzfPCL?1U(6K$z!f#bbOT_V9}QusyHHI%`E^`BD<S&{5q#R}gV{j9=_
zf=E_r$;(dRVj_8}#Gg^K7?lSr%7y;p(81(+{8|dX`4GvECE5ruih<$ADScadK@JY)
z#Hn0nCh^4YteHU5!qf(}SSNN(S;A;Pw-(7!RhrAy;aby~%T1-TB3Za1yUX-ZhcKH4
zI_SC??(PvMHJMBaBFP~}@`|<ejz+>T;$?T5jMm2q$LOD~G(_ge5-G<how@yKy|+-h
zVmqS!yzOc6f1nnG&Se9Ds>xt5fcF@Bf5ka|!L|RA+wm*T_20P8UmGn3<0B5>8y9Cd
zY4`=#@e9J54aSEYz&8%gu=lU+{^d8;?X8Q}$JS0mlN9ND%;Bk?!vA%^`D^2t!O*XA
z1QEVybgB&T_!Z;p21AR~d00B~s@!?{F-JvJG&&4H{JzX`FZJ1;dl!G=mHUpW9B}u~
z{<QP+Hy=?}4R;yB2xwmsR!`h*Tz&pdMh*?CCLlK&0?XN3an*u6PJyfby~8&SulQwW
yi&{r08|Q9#@6?S`D<iluRPBUva8~CJ&%J%_krSoI<A!mgA+X~9hNCAV+y4u%TkNm^

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/triton_attn.cpython-312.pyc b/v1/attention/backends/__pycache__/triton_attn.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..83bf2580f2b161aecb294996063b858e67fa8005
GIT binary patch
literal 14470
zcmcgTTW}lKb$9W810+Gb2!P;A6!-v1iIVlQ97&WN+Y<ed?8dNC1i~&Qka$qLpe)j0
zEoYnwHECiiZYnBiMsm{BROOD9J|@mg+a%L=(oSa@tf&mo9eajp(&_jQGUaimKkYep
zu?vs_WluBHm2mdlbIyJ4z2}~D?&ZJQ?G^%0M)$S!f9xdW*O*WqLk(Hq#}IObup~}c
zhSg-4tR}8u5Z7k3SzTO5aa~3q*8@$TF=UN#W7ZTmWzBJO))Kc+z9D1H+Tu2f8#DH-
zBkrKMDdWt#;x3AtGcDQHcq_#%nYOGu?xwgk)1LLjJy~zuOVhTDFYAx{DQ?dMvK{db
ziaRpFY$zVehU4LEXS|croS8_rE8fKr4dL8e_f6;vKJgw-qalwG*7X`;TW)G(>P`7Y
z;=PpD3cNNh%=P+#ep4$m<9(Fp23|X7RH@r2)dN&7XHu#C^SY>SVfgduGiQgN=J=^R
zpH1dcT;wF5F648=`CMi`a;Q+?a)oq07s({&IX?Cw))QqUGn*_VQ<<b7K*Dqck>`{A
zWK<`))GUXSsTnTEN_Lg<cy>0^kUTj*%So2wbD2VVHp4wN1x1AmwDJVc31^eDTq2oc
z6RBkCESH#qI?jSb%Umu!mFCz)QfV3xEzf5%*(3SfRQe32j$n=nEFMzUbS_;;Wb$Xu
zaC}rFnVy+T<_b@8^HST)qqBQX6q1E>>LiyF^8AVUEXcc3b36~7PRwSK1soKlO>pPa
zDeg#eHhDUoNf+j$TB%j-){)0f%+1c``GVwAX~(%j636K9Tsp&YyyQKS&t~(v`}k0J
zeSA*La;cR3C1qIqtYp1Fr#VOB3`}*+bA;1!I+i&AQWVorOh0XF%q-&|r&Z;250ukC
zkZX7#*GRcWsLez%Y@d1S9IR!*2yNG~*3Teg`wTL6lwmD#6W4SU)cPDXIrFE;IZ<xj
z5_L&lc|F|s<)oI}TsDzR73PweL?I7TU6AbA<b}k!IgX!CWVoE<lu@CO<Z%Y3BrEa-
z?i}TsYKS0NPXlu%QAnQ7aFR{P<O_*xa&|VIJ0n@=1P)e!kV>+g)RLl;C^5@(Q|Sv>
z$fV>>%_(WMVnK4$L}t#T6r_c@Da@jzTLoAl>|BQ96WQ8KmHf3l_p_oF$&^Usl36a1
zkSvKrHjh~Ww<Vyr$xMx-P3H=dGXaY>m&aw5&j}!-FXZ{uS;-);F-dnipU?2UFuHsn
zfE#2TAo=g(BZchj$ZUFc7zXPMR~Wu9_t4%wGY@eine^$A+4;iRd~W1Ctn!ibV<Smr
z>5rV2b&N1l(;L9a#b)PuFP4v>AAZ930epp2-Ne_istZ)wJgYiSr9E)v)a6sFx~@u#
zdsXMIINDy%T*@H7#d9TiIk>6|Ra(7QhAt1S>cUk6X@y+v6>k6~0-e`}t`4oZ#lY~Y
zZn)z1UpaR9*!6MI-M^~q-;{)`BRfkv&$9lS?W*m1LG%r->ULCi?Jem-%X8O?SBopG
z*tz45ZZAKgw0eUQFas5z_3Hq>3cFpS8kjaAYvU8wa|TX}`vPZ_l?1EdOstkOa~7ns
zI?l@KIoot#V?InxnU=^D!x~<*#T~4XbFwDRH3dugHC?>LOjtW>;aVx(%C%9RiM73^
zkGq%11t#8pf<zrsc#8$2sKVAnYK~2w;ghpx6GBaK+F@eKdR_n>C|T)lLuVYU4*cwi
z6xHsMfu))_rEh3D8Uv^)*J0Nt-(s$ig37#PD3Y&(Y>_EyirS*?rcP!tK$))LsxTl$
zlBjLBfNQ4}GowLdQD4+gE1#r+4${<IX&?crZ0S(0S{CGYZj{2*r{-5bG~{o)Kfhug
zKuu~p=E)6aGHR9dFwC$A!5XG}A*^9p;Rxvk&^NG}xr{QtURZkxs@Rk@mN?5LSwV8n
zCi!G0Q<t=&6y+t(NiHQDd`DT{R%g$gm+Z(#MuOI9M3hZuqee+5aG5E796H4BLa-ab
zLkJ!QAej>hYGx!70&Ey0LZ6HLC<^Qcu+abD*%nj!{CN--UIOsji{zezm>rjlqRF=$
zTCv`G@u%DFm>ypX^p^uW#K4Xv-5)yFyxnE*i0B<zvQ;|z%N>u19gkFO-m<M<wDqrR
zH9^ag?vBX^YdaJz2ltA>z3&Z{_dO@>du}!OJhJ>1Z%^4fCVIzKy*rn5U$@c44cc1P
z;HanSn%BT{g*iT#Ql}m?6DKE~)L#PR3QWxDnso?C^<kMJqu7Uwnxba9v4on`bmLN~
z(O8W#F<~KSVAX0TdCdAD)&aJS{xq5`d=OHSekz^GB%)gWD5UtukYwM`d;yyY--Uh@
zse@)sfZ^1z%u~r(=peVS?^8b31M<e95@8I$MFOMl4_&idwOk)7ZQHl%+rMP5nuys`
zHibn~xNPbbO}*Ejxnt_DID;iqP*$rE$SPT;l0qRtYe_Y(eq4`quzfHJFxZ-DAZ&gX
zb<GDDG=ip?E?G1HU0wC{(iV+CS66cb-2`-X?KaTOKyPB%En12U%gjs=vS=+@`EL|d
ztupPZ=T<P7D!Mb8f<sA9w<=iu4U^1WPbt_t8pUN;v^}_vB6EiM9c!>dUp-3A^>>k3
zfRR~r6dlvJgKc`6w_BOwi;kR$C5txr+2QAapR>@R6j9U_^+jXRP&5_IMN82NJB6)i
zFFIavzN5Wqm!%e6MHeg*oxDiEiO{nJa4x8tirRS}Nb%S#9ye4Ti>6D54<Qyt(1{>|
zpbJ4af*u5Y0HThDB4}<}4qbh%4W?lNd@*oS<PrxVqhydNk{&FtojYiIz<!kNOCgb(
zos%?ReW4u`ZIRb+1aP{D`KJ)8H+^Hh{IkfdH@!)#`QsoWv;d$wxe>_f`AJ|c^nR8V
z&tgeI&^@rWZ6q{S4jvYRhfAPDeM4p6KGC;t$-d?pD0_B`p505<N+4Da925fwmz<Th
z{&L%>*fzRkszAQbgczDAnF1B>VA;Dz^zK=*t$F%ax<t?5lJ!?s&-*>w-#+lxfl5nj
z$=z3SZF`4%cjm^-PkVnp__M)#T1~H`WQ*K0kZ{knQ&&$_TDnWFo_BV=yZ^@i_X<CG
z`NuDVNZ7G73Hm3zqZ~RYh7OhvJu8NuU7D<f2FszC7>cbF-hKJT%d4UNmnPSG`k}Z=
zs0-N$whxtTeZTRIRKg>bKz}7TSn>5#+CvrJK*isOIMBOxRXU>hf7>JXIvjorsJ1Y1
zg%mXwWgd-s_-!y=JX*H=b_BSRCBva(zjx?`6Ffvp2#>mrA3)HKJY6O&6eO)s;CU+&
zaqh@_?0&>>&C3?^Bw|qn!wB#TO7_|goZ?^`NJJU_QJ@OAQG8DR&O1;P0d5e&Hv#<i
zE2Q$!<K>5*79V;VEnicqYp3WNU)4Qb)w%TJYu?_f9^NpHp1^X?<rk_(Oqqx$QZ*xH
zAz*^rF55n~Vyf4q4^?{iSGDk7Ge_3-@U8|)u<NdQ1SlQhsvh1@Sm*Al5it{K_g9ez
z1zEa2u>vOV0oceC{M1L$lk0yE{b@9;Stbr1ET?B>&)P7p>P<B-;SA06EKpnPG75G^
z8@F&)&Ia5jMmOpX{6T%xSBG$rgVibe>kJcj(!4ItfnIZiH1*ie5Z3TLCf-72S{t~s
zPmX4~drE^Q{LNZ(;_cLU_psC*0G_ph=jGbK(C=VvoQt)?&jCLt{9K$HO7a2LGNr*<
zrfh8MYkIXzKP^)SrL{Gb7O2(ara3fhdjqe73(}HJoDN(JPXi|e9HeSkZv!<9R3Fz#
zIXc$gz=_NUqCv^CN!Qc@P$wmKGL_<H3yJ((VRjDp|EVc3hg~)217b;3oeLl0bdZ8|
z@(jo4z~HSL%K`+rbji6wUeZp@?vYFY65M!pXARqx-68oKvMWA~Ts)5^=!WTspM#nm
zxL&W2c_ylvl&mM8ef;E8lZitoPfqeNV8~zuF*JK66ScL$8DHpZ-r<-c@B<JR^Z+iB
zHK%L`No||*U`%d9qi|)@M&Xoi^rcP^elL(f1Ek@#xm7l-G!2D;y)G>DY^tU9DQL?S
zp&L+&fOgPD@*8J&$<!^I$QE=Q=#UFM24N)XNvM8>x$Z?cWsi}LZUU5BY=c*b{igju
zj{<Buu$30T8e=sx;9c-mjHt;Et5sIomzg3s$Fi?DrH36~KglORh}y;ry@xSM6F~<i
zlARL@k<(lx378zdjO3>xW4mJ?q8SZAJ<IdS%p7-==kt72&u6d@><phpkVB9MKtB%M
zIpt5=ii22pg)s!W5PiT<ZWR3sED;qqY@;q>^DJvFJ+hp<ZS8!&HCPHAS#6yt*(NHk
z!1AHxg_Q&E`Ag0tCDRc)>KkSNlt9pyTyL0`kJ9fArjHK7GlFE8c?sVF_Exd{+Z#ev
z_2}%v&=&1)D*a<9Po1&uEwuJ$n4zfYH_uQf4lcF*A?k&bblVm!+a&jQ*d}G34wp>B
z@`z#Al?QP;*U(It=i1CELSP1ICO?b-O&L8c)Js4AhLLNn=?tOnB5(QG?-%_UlrLb#
zxXOLYhcCTSGKJ+fs&gE;_|P^gU-gD&@}%4@hA#q>?&&oz&aPG?q;oU(S#ip8-XQf)
zP{z8VZQ5u9Bnx<cwUGG+@AkgN@UH-=HcGTL{Fkvwjq|HRtqq)L(Bl{vRSI9&vBkH1
zK%RfW8ec_#x^)utS`yyTuFdAv7g2=TL)4-|<4H13W%9|w*lx*mTES!zSmD2q@;J!+
z7Z5yy0H+WCB?Q#E;t<162G%+~fPf(E**wd?fb_FS*HH&!22p)s4vt570eKj};OCKQ
zrD2g;zC|QoM1b}<{~7|ib*Q@r57UuQ@W+4%KZ2P7Mp{>2N#|ScUDfrine4CIFWD>b
za$IuY3sP01ZkM5?bH8zRxp4jH+fTmrq}VwsddAj?PH(ttA&)W7Fr{Zs{6nsE^tqBQ
za((;C_$}?NX>s&(;@}~%`|zsnxsNpZhoOkj@`V-MN?hE&N9^3YPV{<1)j<rcRSlyL
zy^;Eez-wKr5Wtj^Sv||WrOt6NunPrxRDm8@z(yk5?pn?I38v!qR<($%0is6)B)oyD
zk)kF7R5L{_BoM07EZ}EYoJ+zRN0u&J>io!#+*<im&{Jzc`>kHAyIrljU2R-!`DCg4
zuoyam0x?w}h5{|vvCfs9RbX}A8b^svl#uDFgnOAqmRn`H>#WkQqnO+M&$I!u$XzJ4
zrWEmWZcy5OAmFq9kML>hrYy^FS}>zD5Wj_kAWjds4sZj+e~rz|S60vJ!5A}eW{C2d
z!PK&_W_Y9VD#woXXo9j<pvjnxvw@jtsihncadxUa7iXUi%FSwoHCZjx<YQYPdh9e4
z{Kp2_R>%=)l$G)6?)zzQ`q{j6_ZIZ_E$E&t=w66)`?lc8efK|*8+agB+nhV)W;<X+
z+UE7q5Vf-;Gn}x%Y2*wyzd?hlTMl|}xaAboA)48aTaRL_;Z7da$lm|g0pFlggHx~#
zvx;FX*HlxP9J?^ONvWc(7<*8TUtsxYH(n$ar|(X1M0AdnOe0jm%H}UjPW4f{fO-`y
zO_kRyjH&n;O2;%jwbqSkh;zVk0%-4}P)g$-7EpD++%NffES-a`V<Fb8XIsnP#-dTR
zUL@~3JIl^~(b>Q1jFwDMdGC<SYP6f~?htWLB|&FrA&X>7!Vy+F0mpi?9G=8w(kz_p
zC0<JB*!)Y9L$%?k9V<EEq&i&?5<-5efE%1-romR+4x}K+!nrt)+2v!hME#%y>V&OY
zNa41kJQ#hXdwu}M8Yc;y4k$c`azaWS^8)VN^eL+LFz_+AOw~aOcQrYsf3>e*RZ`8O
zlSO?2B6jlA%zJ*P9=L`R6(}3GNct2F7fmd-&8$#zwxWU6Vg!%{pRkbwk-LWTj-u%z
zsJBHE#PUc&Z5>4QNJ1SIh!rZuHoSqV)?X(tz^Fl9yFw|N3#vMs#^Bhdr{-C7DP&e(
z_bduM3U#_y!Rl{ic0+Ay^Z;U!B%z-46s@lg7Om5;v^PJj4t0N#!DTP_o`7gTbGh#j
z)>vc!n!c-g?O$f*$vlag(fUC{C93)Gf8gQ23poD-0$ijEQ%7?tI3?mEcvv$G6S8(G
z1g>X9IGHuVa<WK@&kI7M49`X2JUD`GAD4xU92<etf!Z~bLrPhwTNYkCfm2xauFfXU
zbCJSXE+T-d8-ew88tMlpiykjUk^<#zCZ}_hEMHcM$fePnB>N%@_8}}qKAzeak(gMt
zoqrR%i0&91bD%}X{}B>!*~&q(6Nr5k!M6~g?ZjU}u#Di_0Hjtd6m?6Q6A};<2LFwR
zEfQ?RiK9oJnmGEb)HazfVE1ahr%s`)z04RupzEIh4rbBQwnlBTwpJV0(5hz5xT>^;
z7D8Qt`=hZK>01akQ+vt@*)Kst=mv!V?qiSydf*()QSo=<>;3k?@~$^e0cxoPx69{S
zR&UAL^L|I<+JUPFR&0NJ^e4xEeEd$w6HCYH68@64tI|ENH1SJY=UUI$twUnZu3P6y
z-FufN?$|mj;UO%kqhbw|tlewj&ZVa+oiQW@D?^{hcXX|L+uO0XVz(yB<3~mK-+dIx
zooiP2pV-U3VbM2y+dBMyYhP8PZP~W2)wemSL~nP%`Cee4?B6N+cdq((VF%XQ1GMp0
zSIHWzwE3>=zr26>+~tGUU%1^Cs}h~v0Tx@!cx8O=kDmPDleZoQ)9Vluu7vxSUtD3T
zdQHpVx)y{)5Y`f#98Q$<bec(ey0J)F*r6r;d35_FlcLmVkX$mzfhWmU3qaA$L26aP
zQS|Z$rKMDr3Eu*7s=R*-Y8RBZ@uCqHw?<JF5Ueo2x>Xp%aIvLmoK}@LlvI0IHLQ4o
z6b;RetyujW*a%M$DBsZZ_{!4!0Gu@_%I*~Cj796B4U}qQe`+nb_%)!b>R4$PA<YiO
zS))=WzZ;Yq?!cQKC`(nCb(WF~4#sT%hg`M-hRx}Nmj*x)!v@s!SgL7H;A#P$t899J
z+9dRQv$pNPIc(FiK4nxm7!`F(s#n;2ROt5f|2mG)=O)`EYoc2f&SrDNY&J|s>OD}f
zMLUdqx00&A;V971Y$IKC0v*psHa&2JXK1#0F18fy(*v7?At`UFtO1P<xSG*S!hqZE
zlxDHDFs$Tf!)dsLR@A^@t0h3*WLP+u1!ybU0NRUi8>dEh6zxE97M%cHMF+r^q6=Uv
zd^vR7H$A{<W8DDTfsaApO%HH9z`>~3rUy9QVhcbY@W(eXAqgBm%K!{CpS9BvEZzJR
zTb1<%`8t}<>rc%Wg!b&&TrzD>sAzhV`33_k!UzGh&g6f=mh@<zhkzp+nT3m{k(bhi
zvyrEhXTXq9%?D~;#3Hc&%UfK`Vo~<MLlCIkr>2lf752Ue-E1QdM_$AoT)x5AU?L1r
zOM~85`QnD$pywZu7c@V$P`1oYcZlDm0A+7c%h=F5>>urr96}$8>==sF4>08ZeQF!2
z%b{Eh+!r}syCO*KHr4uzsr5cfudi$x<Oh##WT4sbPA+slMbBs=^1-$mXP@Qs=hH05
z#ulEX{-@F<^s*xIJ_=tI{N(fky?7W&3)JYG=L!+kpWVvrq&DuOvblR2rsNrUT2>!f
z7(N80<RW9S(a5<3-Jz9&YnO!KinLmMOk&PS%#6gGm$c9%$p$ww;Vd5SU&0M3TkYy6
zBq3!62KBsWHZW!+JNkW86uTxFQpq_XnK?<#Psu9#jC4-Y%LS4V#i^HgF2QoLU16T7
zqvsWrnua`TTRF%Y;=hOZF$DB-0`6FnVJ>$X+)`@TQae|&(95d=E;&heKFz(ve;>1;
zYeugJz@@Sod1L?s@07Z|=t)S9L~Y36>NZ-|>YWDpssz1n5W-^q6ag9vvYA`AaM8w=
z4BUlTa5HH8qiwQb`~wvJGX!rVSV3?D!EpqCj)3;`9mHtI%&=(X3x;r=5KS~W!T%*n
z{568VLhv^Tuu+n|Hk#;fgWKK)G+bGm9{JS92<{AOr-hDY=5>u}1}!H10xTo2u1AT>
zQ*w5dOcSM^iB*8kt~G0@WQ|f&mO*1vi>9m=%u)-nff*fHYx7?@aQVP>=FLY+wr)7h
zD?7J~&h0BlMdw(_G*)tsRXrp$P!8@FgZuI3L|63f&bK;mwXDL?yD7Y6eq;Zd)mgR<
ziPoW#6_4Is?y|F6bat1W!=iI|g}dV%uLS$9O<tW`8GrZSjf1PfeQ%g6;b=J=6T^6~
z;SX;7!D{&68`gU!Vjrxy+A6O0ipyVdbyQrTvTHze4OE~^SC8oG0oE1AWk>CGuf+@<
z@erG<Yz>RnaM>Cat<jafJJwN%621P)rB|-^qM3i&Ir`aJ00w-ytzT^GU)f2`ca0sY
zdIYZJ*&QXY&`reGSN4vJ-f_6S=k6-I2SoS4lDXpTEqix}-W@<ibX4??0_y20dqzah
z$dYx<-&ghzivGcsL!v)+t3~whxOL=5kN@!T_mV$6R`MNMvj4{9|A@HF7Pu^2a&IfO
zZxbE;RV@&H<$%C5yzd%_6XMQ*K`UCkC2zFki^9lM&B%oC^R}uLF&kob#2myMsX7sJ
zA*}_lYAfmJyf*OdfodDl-Nfyywj<p`0^zcM;I@CD>czAV?!lFPgSUNyRX<7wh`+bm
zft(;*fhfDT-*#`WhL95`-i~S~aw5bVypp?|D|-gvR?N!rJDz>jE@X5!Ve}xQm$Z4W
z419B-+J_}=gI3<{NBR)V;w3u`fWiI2$;qgD^T`QD0{PbwpoPSL69Kx${96d<Nys(C
zzJTBb1cL~M5TL&*X>vKqaGc&YmoKRN99d`}$st8Fh2+!dG+_S*KcNWg>@|Y%_t9Ht
z*CB#FS~W2Gft3lw2Vlse!<C-Va?c*IXHRA4LzTYhUH=ZfW3A0o)x#SW2Amcc5i=22
zd)17X1rHOfh}mEqmv>#BxjrF!wpZ;)au9!TnZ0VMIx*#fRJ8@MRubsE?!FqVwqXiB
zVpp{tF%Rj7*1R=c^<v5gmAqcOR9t3ZDORy1)c~<L);kcpz>xmI%Ft+K$L_oB8Ak6}
zbGl!@aOnarnW`QMxQ=Q5s*xs51g^24x^${)rb&y!wbG=GfaePr+N*Y&bP(T2)k#rT
z?Z(Y=0akCdh0<DaLS!yyuAdY=(P|r|xk;$|+Oez0R>sBPNR_q;I%ILa9=sI1=S30u
z!{FzLZkLRS1e;I69|2g^zZc>J9^F#7x;Br0;2<BA;b)g3c+WdlH!qaC{jua}INXOn
zwBRvB$zx1Yo<-<7Nn@LG<!6Oh;emfdL^m&KaO-^c{e=<To#cDyG5H=ky+<Xr&@yC7
zj9x~N5B2Dc^_cu8N4y<dxtB`HH?6q~Tnes`@G%-b5MqsXOKh%?&eTW=it}_4VGv((
z&_a|yOA_P|l5Zn11~&oWZ@H2wjvfWp2KD?{vvHNnNB5b>{f*uOlLE9n$e@^+aA#a8
z5xru%#wA0ob6%vN+aaGX;%DEqJSEcs`OifT^8XH8Se-;b)1#_o7zWfOGyb2X>jTp9
zYhwFEr)M;9ILK%|wrKzW^9kky()|J1{sHOvM56_oi7-PSkX@f>bd2UM0r0VfFuQ(b
zcE9n3Rde{F0TzVD`iUmM?5h$0aI&VcRxx>R-z39?N_`KP4n8OLJ%5j2^4@99F2-F7
X4c{a1zBkL9(J-Fn;g1Qv=}i7#0Cs1k

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/utils.cpython-312.pyc b/v1/attention/backends/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f702e718230ba7a28bec21f7ca230aa9e6d243ca
GIT binary patch
literal 38931
zcmeIbd2k!qnJ1XIPZ9tDlHd)VBE(DgMO_qiQKBf7uBu{{7X>ks5-9Mf1XwE3pv`iZ
z+f=(cifX%C)VO<!)#F)HQ#E6G+q*4Cc%tQrnCa@>nHXe29>8h2O;2m4+YuWZsFph1
z-7y=xzwc!x078&dp76x}vq|vf%Xi=Jd*Ai`kFqj5hbL<MdgT3YbKGCihxU}Imd8#L
z$KB#Ca6HHBqTHzR){W}ew|-QQw?4{E8b%E|@-sw@lcrJAq<PdlX&JRlT1TzS-59k^
z+DGk^j#0;?bJRImHd;1WK3YEM8g)&&N8OX2Q4b5Ji&l(!S=zo)AKs>D<z&@p74tJk
zt0(=V{>hrr8uo38)=t)q*6BFGE><9{HCjK}FxtTUY|+NarqL#5w?_k$&7;lCu8X!z
zwvM(ky943dM%yOaN88!AGukn^VRQqtmqj}#gQG!aFOP1V>>BN2c2~4}vS+l1+1=6J
z$-dD(9jE7nps?v9oziBbn}u@TQ-hDuExazgRe(8X;W%L%U$Gaiymxdv?-O?LmBP+(
zBVYBdadekp(sRc+zWQB`_kW~U()mbvaihEW8o@UaS3e70e67%rR7(1doB2AVyqB*R
z`uGN6H^S|PTO-`|@lC>hp^r+)2bj-(VK;rjzZw1qP#-tnlB>@_R<>4@txeEPe5IfO
zs`Vp-Vi`TeLbfAhhrmtz_R}GSGT|WQ^pR1Gaahn#{La(i_zmxJx%waFJB2OddOnD<
z9aCFsBl75as-=$e-GZO*LG5<1+Vu)Uyi(6f;e@b5I6kgt^|bPvkk(0lbD=9*=s5ag
z3w(xc9RCWxRXD}kXB*zsdRBh>yQa|*was=T><)xI&F@5C?h=NCHkRjZ*bXbTWZ#vV
z5904Z_%lfRRhC9SOZO$=RQ_+=%*tox_adjWHV$D&b7A)hJ5i2Y_;I6Jm;DHPj-`5l
zKgbX8hj=CBoyc(ze&_karN;<=gq7e~<L4+!dx1apjJVGlcSim=;$38|G9)<o6X=bX
z(Dn|&F>as|tF7Wd=}sc#%R&_!HN)u9Q-VtyOS#^Eg&#rto)+3rceRZ%PR}6btNcr)
z%Z9OX7XG8uerT81_;aPh@#j(h3;1XAlfU?!*0A$0qa|Ovt_!~YOB${tL7iM4z7&g#
z;j#Fn5Wh0b2aU3g568n}(Qqs#o5mwTl$Xuy6_d*+!&ik+&O2z8%g(=g=16Gp_>sYr
zLnFsz!@$&a**ZvZFNQ_ga!i;K#K@Rz8IHsSF&vexXT<6F^w@M%ww%8{BTyjgWg#94
zi<e_4j7OZEibp1e(AX7W>}vQ@R0!&2`^9K<a&UTTJaSpCqrlPdbwP}U#>MH$&|B~e
zjWJKeH;(a<x9~0-h{pw_G(9ymITMA0>l{+#XQP66dNw{Y8;6s9XbP4?;rQ4UWa7@n
zI20bcDopXRC+BiXh=-}th}1y&Uww;moD#<3(_&~WjFhQJ(=1g-WGaFZPG7z(hzMVi
zOJtY|eJC6g;F>Sqxfx*$4vq_~9Ot5uF{-g)<oIFPaD3#jToXEZF*G=U1`Z7myn6b=
z`OxW$N6wxdI(+1p{|_G7^j0`JE68S1h|h{sW9s6~mLgi5Xi0nA2ICf&;Nm&oxVkuF
z2~*wP;?8k*bR$8%=t5}ObMoRK)eD72wWz0pI<W;lF$y2}$76l*$(g>H$V^WhJtxF_
z-k#mLd)L*SLSHm;sc+^wM$%Ltbxq$}oBP6AU-Vs4nl{!q8;?X|y))Nke<T({6(T%q
z)PklIJCV^Q%FzpBfy+4D-#q@Hp*Q90OFH_J#=ggJ=Elg-9(DcZ9{)EK@)jp>w7-w)
zvFqzb4T5ok!3kPm<t><bJ?&=C^fi#L?b-gu7x<f=o4WZ0u`Q~<1?99B*lh)Ndx71d
z+MiWdC;30Ku4UxQmycQn8}f6pFZZauba>v)paC=QQNuX|OU_M!5Zt3qp=_cai55M%
za9%a8>jioE)Nt+>gsY@**WJM?xq5JVa&meqH~X|HJogiO0M8jg?72iUKad-o0jz&)
zmUjnYSHhye2f}0GbSxH7R+~V0iVtYxx0faIRN{wbBT-%u1Cgm%JUlff!~(N1ArOfN
z;?n^v7+7X!$Krt*<jvB|<=AUy=^dRG1C!yY>w)R<K>UgjzzP<d7Gr^HLg1<(%mgk?
z$FBsAow>k@GKlwESOu}f#gyX6t~X}|@p=e(i?jlb$=)J|(AdnZTy|9`3}cN6Z-%1C
zNp@;B7OZ+|me$otERg~qice!nj4=-@d5FTBG1)^lY#g)Us2V^nn+(4lQgTI_vV%U=
zWaWxWDAUzYoL2RaQa9uoosNel!!t9HsmteO^H_K`7LJa{l~_O{@mMG_#bZT`g=WG$
zFYs~&<+$EUb_-Ku(`a=qpO{?1kIhj1Q7o-Wa@EsrRGXkjwuVAeVeB{|*&Yf_PSYL%
zyEBApgrlmDB^2VP$KY(jia&NmHlJr*BfCPO@YK|FJWM-H4E~15R9xJJK`0w9O;1O~
z-LQ&#$ml0W{nU(Xnc~Bu7``sjSQYodxWkD-vTq=xOEb2?68mp3zRG=OG?}c~a;~cG
z*6TN4PZ^stHH{zC->y#?+cU<~8L$7=-kW<<#-@z%N~YZVe)L8(WvtCqRNv~p*_|>r
zX7xH#OV-Rawtn#XZA1@djK|i>J->A-W310q*HT!xd8<;!s*Ev^@%U0kA6(Y_4Iemf
zJ5$ECd{S%P>V>0=hf~ICq_<^9(pa;+{e!)?_pY`{b-gL$_Dp*)X{=f{Ec3VR$OwVD
zuvYt)F5Q~AIkB=$s@jk;_OA7Ap+F`|eI+jWyHdt28A_~n`N#*uw})4^N%egx<Bp8+
zjM6ZyO}fz(av28RtPqQbVzg6^<+d^S<+i&~e9(56&`rQr{J^y^mg)`I3AWm2#v*8M
z4*SPBE~uaTDVwc>q7aT_iiZPJ!nHurOvC&Q$1&$cQHae<Pw_EY0%%UF<&R;FV5zLD
zkGc+wOvi;if%8`)vB3E3)EJGez}ULnl-WaRUYU;aEa4J`P}c>P(6vZ38n}c+t_H?t
z`S4{iJaYx*o1DSWy%dQ?;@6c$<d?L+0|GIzRYW$%;?pw#3aIhL6EI@bc!2;Lt8x|V
z1$DmXmYtY*8ew<}yc5O(m-TZt|8iN{--W(jolN&0lzI=|-z@bWPFjy->@~|h>DnF%
zKYQ<I2A!=hYcQD1tmkFtEL)|O?v~52SWkttb$VUz(@CEJJ7?HQKfz6?fDPPpj|Pp4
zjuU_h65O|N>i;8y=K2-5lo}iJdbrc*DthJ(7)$0NM|{p36Z#2j33pS%P}1Fu@Fidq
z-asR6-hx=q_O&LA2@{RZgn3N=w*G1@`pH9Xhz(crxr#1}xlm(czNR{E{WoG*SSr?a
zsaQ&+Vk%0d;5%W~N^|uvN^VO~=?c<NYDDFkx5qWy42Lj!?F>BcC~((Jlt0~y1!0|W
zkLI6nex&v{Z@&6E>gz@QET#Ov#r=^!UxS2AY|EFLwRc&<$s2g<+Xni>icmIJ4LH*{
zW*F1gaS6wB{B#o)T6yyC1UswGmt(B>@~)aq^>roe;yBW_u|6o--?_5c-bO#Oa7xKg
zF4{>b_A`9SCs2dpM{5I=%=KJ<SEBrxDZ8HK6Q=^Q2dUR-_WWDRUF)@ZH`=E@@2}a^
z_VJXSA*JUTYpIITv!?V6WHG$?GRK>={3kG<ik|}CK(Qa|2aFz!8wYRYZMAII&}yl@
zCt9D5_f(7c5<cF36{jH4iMDBbI>x*Y?j29Nt8G>ZUphk-Jqd=rn6HX=X&wn@!jZrz
zNO%$z32(xea3?AgRUbP(aws9N=Q-!TXeY4wd3(|`0Pa#dAxo=hHyn%30>Z<#7${uw
zS;)Dv3ks~xwwu75Er6X-n4F1U7l%>AxsB%uIt?hkY#R#T&>D;I0zuN_5iu6m_T9M+
zg<)~ZFANE+MK0hkX`h?hTD+}K&LYT_@LK}T4S}dY5w-+`s4xj+L##V+c{&~#5t|WJ
zr1(LHvT^p1LmwG*pcOZhv4xDSWDuYyZYN_08MJ5O0At0$Sg9jzyRw5p;L1KIvh+?-
z;1M!tyJZ>41_0gpjAYYTbQ<`VBb0yvptzFrA@&KZk8A`|W>U#Nmo)=GgVo|0O7tZ%
zD1Y$+MY8Ajc-h9<l@0=$6(y9d)P~Gav5}iEHUszq=o;z>@*@CF_NuO01aed=#sIx?
zR^M1Cb~Q3HBk=i3DJ?}!C_B}Y2t|z*v}LX?F<SR%+?IG02&M*S4`8%3kRo&~62GE0
zGLN{k_>Xl0t^g3@=G^sZSDWN&d*JFw8c(nG+;iUj(*0MHou^aA(@96inlF&{^-8|p
zg;SY|#&pF-sbb^8$u&=7+OtLSY*{#waW|yht&+QSVJPFSOS_vTcQdRmB-<>xnpXxS
zSNp>8jH@>7YLZ+{D{yRGIKJknT#87Jz{=1A$IxB-z1{cU{J}nH)6l1mp)992nKRaH
zj}3TBMc+w$n>lCI(iO?kw6g1g<LK(dJ^%fIAJj{|M?ZBORU>a!Bd`BX!r#r+x3A3I
z4N4pKN_BgaMt`QZWo7iP_1@<1Ii>b}_jOYHfK)q>G*&;V-E_D1-WO7}C-L#Hsykz?
zOk3L}Yx~MPQm-~IoPJ{EoUX+$r%;m3pE}x<yzTpbICj4;wf}5#-?^mqJS#}j(e{~@
zv({&7C@-7TzDKIrvsj+7Rxj(8^(kxJ@|PrQ58fGA2bK?|tW7KXCF^FqSwps?4Ob>5
z*ETeyH<0%BNZy{+Ny)o+VfYu8+DuLN>RG8~)7}2`)<Frsnn5M);*<;1&00BM{jL2s
z_ouwAi`GnaYq~lpRR>emU5n0))xA{lb?0)qWbODmzI;n(Q&#`-h-BS}_oIr+rD(dU
zL#paXRduE+f(s`zja})+L8)=@{wb;PY|>b_Mx|_*yzQ%H>CS!$KX3oSaK_)7_IFDD
z&ei^O*Io%fKYF0@p|AR(wd{S{4cj-{Zv}4#ll6Ufb$9j2`mM<wL!Y#MvL(4=M5-T2
zRh&*)&!nvvB<qEg^<^|{rFr30*2!5bmvx_7YBK)zw12DQ-?~_~R@0HL*)7%VzSkqw
z9LKRN-)dJS@1BL>M~;?^e?z9eFXO4nR5oV<J2Re!Ol?=Dsx{+l%GCA1@kzDQY0h#^
z4QekdT*70r59bWvVnWY`-a%JVpm$o&ZgH16g1HZKUuXcNXuvLC0+x>xw9lRd;BXCo
z)OJ`M_g<5cOX#t8>E`|o+eOx&*PgXoX{ei0+ZLU(SW>w|+&C~c0+5!00`zV17KT$8
zi&W}V$4}z`3H(6-c!$XNbvlqe)le)lPGn{vNw8swv@QjWqJWn;4nwx!j5!;{3P?+K
z%m{;)J7s-SR@wC}FHRuHrxcd9B&=*c&gEG+_EUd5jc3>U<u}S7RByUlpFD6bRek=)
z)(cq!SJOdjiFaW{IhN^8jUj68(Yog`K_hv@E1_L^{iqSd3&W@hrg78^(==+iZVp-s
zP~(Hg&dtuuOpEck4}s>#CWFm1Ky6DfLjJfKQvzw|u{`EZMa!|4IxdI;Va)hx*06+j
z10bL#6^@OC0Ttw8b_c>SWPnrpR6Kf}#Rs+y(8ZJh+}hJw3w-Y{Y21nD$ROZ@?eil+
ztGJ&&4v=w>i~$(3d0_bEfmhGTWfw+<j-EbyDs*Vz{NQo9PWwCulF9Iq(D~CRkBo#4
z9~nG-_=s#8IRXT~I7Er$u|kvdNydN0f2<eAyWD4by{Qw6Q@Ly5XvR30@l|4u!)-UZ
zs<kai=%CXXXW7D$jImKkiV|4YaoUOG@g;O&zT+-%Ldlcrs7Wvj41NTzS4XD~bT6>Q
zyq@8Land6<!Oj~&F*6Ck{?ajkH-nOF5nK}id=x#Po>||`ol8eOLIrOVKsnFFqm=A|
z0pT14;e0Ahtcf>hx${n;k}t!*o!29DIp|zff*r#xz`GE}EmZR!@)i8>t#~(gY8|a%
ze&lZCy`Z<%vTq;akeivWgj*d;qe`fs*i%#ieDc)@>&Jf$(yzsT9scX_-N4eQ9QQGL
zb>nq?uvzvGXv7c=BdsEh<%&>lq=(dzJ|b6(!n8=pO$7}Szk<0=C?8;PL4#uCk{BpR
zvV$R%86q<#I|^uGvY8j&B2*dBBDsfPQyRvPsk?wG1L7l;^Gsmr4QVr)!{W+?C_H;`
zROdnzlReitu^kpHM%VBX-zMWa8H9NVnt(hKqT{9fVpJGfq|{XkC|E`{3(Yk@t9g30
zARLMoYejqpk~MZM8Xs6|Gj$#G_UGPJ^^3;ebtsFKVJsRGDaKf?<oKW(()VLJ;Ssu!
zR>k6nZ67<13Bcf&T#2GsCZfuEghk_$ivDM$(_RqF2z(40#4q8cGz_&<jB?FYy^`pO
zPj&oU?=#z>WcV^_6gSdEqm*-QZ`wt0P}172v_Q2wo&Zi`u!O>~5HAqUT=wTY2tCe#
z-?zdd4iRItjc5<`7Hg^&Wb@Q;DcNxEj3o5paA|y6NnDySVSHy>!dMEQ_D*NqrWK`h
zHvyMdGA4~f4Ki3a#7pA&N@3Y1oLbKLH?Je?mgq<rVphT;=BLhej{buB5w<l1E#g~<
z#d=<@pq8JF0^9l)h}#M+yNb>)h3?9kM|=gbWY<g>^zx_>)k4=ReMX;g;q5p`BC3BZ
zGA9I0VuJEw8NNfduaNOBjN-}Gpv<*rEG%<7o;mWK8xOoqTx=QHVFWt4&I2?Z+cFMU
z+Oa`$Y)Cq`O1n;DuWIQ?H*c1jH>aBqOU;Lq&c-!&OVZt&@pYtq`y}7Kq;Kd^-<FKe
zpZ0B%e4DVRCH))I{s9R;-@s#&VN=DD@qxP=d6aq5&U(pNpLTXj&hE5xNOBH+GVrPM
z)K7ffYhB%ohkxws%$m5$9)K@pBRXX!cvJ{$Mij;)Zxh{1fuZc<bZ%u6c-_!Pt(2i(
z4$Cbr4pVu)q6_N6VENz}&_GMsAYcge2od$bMxnruEJ2V6v^Bqg;zv>FIX68iXe&o7
z(0OWjAjpsv5r8r4`iQXomjDjYpx^^DVuau$IMJe`f|!)v02nFu<O)SDPgR*{3j(kg
zQ<p(cRB4S$AS6reqB*inN1+Q)LiCh^P?hx56rNXCN+93RN;Eop_YiYMfRQLzy&`c8
z=>TR1DvI*4DuO;3m<CX`u4<GZR%YOSSXkg>gtsxxh+@(k7z|HQgMkFgGhmWtT8}b`
z0@tn(n24xPC8q$>lx<kan6)_QvLMS&MX#?*aU6sng*x0v>@6z2g$f0h4le+HVm@KG
zA%Q<4iqj&tN;XYzU=Xo^C;kp>MKHUG)pxG(nG=!uZ>9-nN9+aeNgL;CNm`rP5MM_X
zF~Xm%+=K{Zn;Z@3q6cf3?&BN=9$TJa?my(3<q!?85(AjE=-`FJ0|Awk6rKSCiqIRl
z5W|s%l`wGWdVm+k!#JDd$I!XiOKf{YAVwmiE)@w=7bkL;I(Go#%pzAB>H&fwdX@C1
z^PP`<OAtGQibn`Xg@QeFOf5>T4hk+#FXmePj!yhtGy>>atT*TswT`Y;$MP$k?A*5J
z_e<$mN2s>~$cI5KZr}TJH|8>pP01Z6usXSGA9H%Q9Y_(IU0J3ayciyj6ZKnodmYr0
z+ln_Lt><+pum9MfF`=PLjp1LR1i2PD^t@hWdDDqhh(5DBb16M@xxqS+C)NF0D?~xv
zm3XWfv^7aRtp$`)PGcA_;(LCC(e$I|Wp!Opc3rF<;lS9HF!0N?;xTrHZe`FZ$z$Qe
z45k&e)T*H5Mr#|;&bgy$qz4NqOY7<EiJ2oV3If<nXaS<Aj2~@Xri5(}!aNrG|IW-6
z02Gx%p;>nM+U1MH#{YQ$qPYpcmL2hZj3Kz@=74w;4(q|wiu_DqO@LK+uIqD504?xK
zH11oKaUbAv<37{8JyTtmwXmUYq@i!rhQ3`vxnp;V$u0trl<zBOCa|cG15Q55mkmpM
z2)tvLB60;;K>*-UK)|t6{PZ>1OKu7qNUrt4eL*nSBv=_4#5*lU`49n6W3-eOK5W^f
z_45`7c1iunQFbH`+6xx&Z^BpneKP)lj9X+72qfMn<DZc6Ef{Q-R>mZm3Sy>`3OA<U
zBM3dC436i({UyU+rsgH&8I~14=dNU{2fCCn6GxBU(H#vo6(c4XCPAdK(dk5_YKw=-
zV4&j>vQgE=dKj`X8Ud=_0L;ATA;&{x5L7MBledE{<;tQh8{^;-6c@<zC>e`n5Rpl|
zN(L>s;u0C(AmbPr$I193GKR<qlEIi@2+k78_!a(R{}#3UDhI5_t`oZS&ePJ))5Jbv
zO*R9Cxed5?z?H;hQn!3=W!vphVlXjzvwFL!VXe9?Yr-2*t7?~9Z@!wf(3h2~3S@0$
zvvZ!RTh5!#zjfg2v4J!DSUj|)*^||qO&yssPqLz0DgzLSueHjitO;+V=Wowi$Y$m2
z^?z%FjbbZtfKTh&l<Dlr1baWT)tGwLn%h?5AJ%3~up?$mN7h0%E7!UqOa3T@z5KC*
zY&)m~cCNnpGn>cMvR2oaHQ|j&O*^s{vRS#xnk@NIB*))6U{i}tZXI@$J=4~oHQ>Ew
zvp+`N?ODGMAC23yCcLR3YO)rxq2P|kHnMd)O_eMwyb++X`qqh?C$bj$vU0TzSsU5x
zTy<^MK{hAn^JmM*R?amvXI*4-bB!%o57{cXips2)Y(B20K3hq)D%1}sVv{mFS-*~<
zUvm%5GB(|kuoME>?=<EC?s+cHv^qiCV9`S-G3~6U!*Tu`7dLA`N^)Hw%z`tn(l~KW
zR0Gc|am%#0NEO46o|ygw_Z8g>N&)1_`cec9BXg(TcqSL`8vz`+Bg7I1SSb#UVxSlU
z=Y)8i;N6oK0Rw>xmw-%AG--2ckM+)-f8*lt@TuY?-v|g(Z$-rEDWXOG`l;fy8bBpw
zv%<P8+agor)1hf_G0H|H3@m=BOhrP}F;?9>I@wvs3au~-t5|44TI3K`N@c`<ftYX6
z`bFpw0I_z?+MKj>Kdj!g=zM4`Ph0(x)eqLSvYs`k|A_?~1O}nIK54CcV#W|md%GoX
z_rma+#hbL$J*?iAs@}2a#7K1dL4<lz#<@FJoex~wlh*A?*Y<S@?kq@<g;rLcJ1ECG
z25RbeHZHBO5U>@->0Uv3=~!cltMFJ?(O8L!evClhpo&s53*1_uTQWAVET5VM2*5pl
z4@My_R^eV2Oe&|c8C*12^6|}hkAaaj@r=uuH;-BbE4~=lFr;5>;8ihyY}LjiIC-tP
zxQv6iL>Naw7{*zA-4Jxh6=wu-nE2Pv0O^4B9*|Plh$=BKa8SdacL$DwntNqv3c!rU
zDytltR5X(UR1)tS4qy>tz6F4<9H11QTb3SyGBM<WF$~uBJRx9wIvSnE-hMf7g?1Xk
ze<(%4gi#I*L`f+)@hPc^aj>EHT*e_$B@+Z<5sYeL%hj-70T5qMW@X-#&Xc88oG){f
z9SXbwWWsoSM0Tm{sj+DQ@HmRd)))W|9A$)~vh4~`Z^->>4D=j}dNz_RI60#-f?UbG
zi5ImX#hC2PIitB4+GjErbQbUH0~j@o($98t2yR5D!*TI{Ay>8?(~>FvuVnmhWE5?<
z|BBqmSf+t`9+o`UX+<URgI3lqpI3NK%e}vKI#X4*Ftiv?8S8!#?7bVmf8jw8wBMTL
zZ7XfJ`%}h~KiSZI_x%0s4>k;8GA{d8jJN9^7>AU3#`0o#V!{|hWFs02i9T4@opcDQ
zVUw>HCBmivQ+XiAkjF>sv@_1UAwrCIhEiLDwzPwwIK^?VBlf&$-kdO(LN?A@3XqMK
zJhPd)_~*6@u(j!UeJ*!v!upOWf$2r-;gpUy&fD@^3&LXZ=EB+&mQrX%u)Y<h4#5O1
z2Ctvh%{$|+TnpF|cChR?KcbBj4>8^C#rwS(kUWhz?OEo=*w8#T1{8=ozcA<CU{-}l
z@CIWdr!7aEj7(v|5gMv!d@J*3nlZ8Svm(vBH)f*YsW+6Pg<QTK;2vS;42ApUE{X#l
zQa04BVg<fL;sTRR#BoB5CqRtI_6PzHwGVrY1zQBbU=fjMuCTEfEK{)NG)%;M6y2;;
zMs{QVD^ft}e2@*`YL`vSTm07)RGXCq+>76(6sSz%_sF1G5u+VG50&Qtb3g4>Mai=T
zPyBa?@Goe3{0S`Bu-sgEaJBBij^m$nrOGaX2Df7uSe@6Z>TgAFM*m>yhJDencp>9r
zXZ=OvLs!jm+lui4L(3;!?byVs8<+WH+qS!Ws;Ym{k?Gu;>^!h^b*1_DrtY6zbUdtW
zUTI5q?!LDzReNyJmGM^J+H-TyqV=J#Zu#)ahShB;-==%Uq;Kz{?NMM$##z1GwAy)h
z2*mzodlEbd-cPL!*=nx3J=@4R>j54sv+v)a@auLt8boZOeG1Fh^y{bEN9wdwaNaQs
zxGD>{Cktrs-18=$mdZRZO}vh#$nWUmG{M=ks2|tyhIg$A-QgS*rp36S52=Hk<BDP!
zpBW<u9o``NzbVY45^OBLV5h>yLv&)ynRsr~VDT8@?|<wbrl4$l0&f&7{co_$;a0Sz
z<lMEL<qd_y;2hyDfJMtOjYA4g5J5_3n6~1*mZ1zv?6WZiCt9=?u;oG#GNbf_z~$)l
zC1AUiJz7~1*!-W{FfyITc4({5`1CAz?NmI4f?8TP2x$Or#sA|oFn(Wm6684oxEKQn
z2F(N;DC><I`ckgMF!=|%TRMdS<U02+4cBxU$VRKc9fPdz-6WeC^bnKFlxnD}h>H7I
zP@q=ZUH}ck+cV<+xjq2HSaH<AMNQMYmmwKq`+IW{eoD(k2eSM7zv2EKXLC;9YyQd6
zGxv@zn$y-=$y&QSnQq)EHSYYeb?1*J{(&KYf2*}aSGrA5rNTC`VgEv#+|U=))nNo^
znyag_yZ;5Et*epvAK>z9*X1v%E<_~F)ur3~lipn`sLN8%kF8C2wDP+ubV0Lt5h2A7
zV8~`=Y{&+TygcLq>;x@AvYqt+1a!c-^6%lGmh_;~_Vv$eaFJH3Kc`|5Dgy2M1S^~?
z>1s-WOODvfz@3-uP`L8i9(gL0RUPT79;vD)Rn?dBYyu;muW|X!o2M2|J=)j<)GO;7
zted@Nd~|_R>Va_smgitMK3QGi*G+yw=GTs6v9kvJaBM-9UD&p!Ag?+*b(LX~WV<5g
z#IQ;<uC=Ee7Pip-XDodf-6co$L}3gyrUt(-frH#~s3psB&y8b5KDmQ%KF+)e?sOn2
zdP)&N0V^2*?T~nkfyV}*Ff~Ik!B`58QDC5XYaU*ia2I8QPl)G0G=Lbd6Wkoi$7~ku
zs50SwI!2t@k3FRr>9q|5LI;#G=TK5b_<1|8i&v{rxr8NQQ*zbvqA>*6D+gUo__eV4
zcfyfN-wE*mg{8l&AP&usqKDY3Sxycur}^@N7=&LddJ<*Nuj9u?Eu};`r9AH{NUu~0
z94NO6D<@nO17c1T&;5dUS{vnJ&wCO!u!p;N1Fbm(YZjzXs&_r;1(%ZB9JXWD4mrdK
zOXsj6oT8?RucA~Niy8-?i84h@>+`nKd__SiOZ6%k-j#9vu}NzusKhY9l`%3E#151w
zjXDl+9(nG_M6aoHdfp4T-HY+VdV%VTFAwVxUqN1_deT_XlWxoywCM|C;Dn&niAFff
zr4o$&`Z+rPRH1+LH1Cuijg<kgGc$oGoOvK3lViyup(r&@b)pKhpZltw=M)7L1tlmo
znyX*fF6!8%^3D4b{)yJ7TN&Uc7J7On+Ld>qnJ|@Hff$IXv@*~iYW#VBL3vBGae;5C
z+E_ntZE!NHrvA}df4(NZK`V1ffsC4532R>v(w_@imoO!26Lm^IOmu1K=iitsIg;*t
z{R`5q$feuxf{@-^$i{e&mRq86qEEBu-`cK~i_sJ(u6_0-8WIf?1n(6+2{Ui|*sir)
zq7f;-Fw_f5?9=j(Z`U$QG-__x19xby`FFzey!s@X67`6;D<597q3n*2oXQst9!`Y~
zNI4MGPzQ?C#1oYS+yMsQbLZSephI9Tz?e^g#)29PoQ?@C3@Umapa5e5V-GqH+BHoZ
zP{hDk&HQmZ2UdtWMG-pLL^kS|&mnKZM3#dMEVgU{iEQS&BC0~Iqa??2GeI&QXX9gV
zl`X&<L?&k^!I&JQO5toj72mo=q^%o*+_RH0@)Ly_h{+<17@oR}FifOHHjd9mp#g-L
z8Ic~LfFd)DxFp+|QV&)F+4xpOxTfH=UZHZ(Fqid^z-BNe4GcwCCLpHBK2F913R6)e
zwiANbwL=pHXCDQk=t?`<-XvLZMs@V4BJB#xC4q5r^_!Xmd}K<MV__-CK2=Nw&P<R+
zadj$GNA`g;#@K9#sE+EV3rKn<GSAW%;Lkil)8pd|82$y-z#^&*=2A-)f{;E*w96Gp
zt=KIW=&Bm1hVmn{VxjQ965j_X6~g<ZBOn%n5YTiKVPvOL2E|#foC#khp?gBIFfn>o
zRIQ+(u98eXK1qQBF)6T5@48R47YWLHm2}lGs-s77R1^WQ43uHZMl8+JSOCU4+)RlN
z<)F~U<ad-(=E$g_q9zt`9OP;+1!Mmgwql&e>|AYcx@JJC8A#V0lWLBoYJjJ#%2afu
zE4E4%ThkT0rHb9DihjszkQ;r$TGpH{+borBPM7VH%62Ur1@GF*=9Mi;cSkbVe{b;K
z*<|pb<UR<I9+KV&O8($#v*hoF+{TkyuBrKhiQ5w-$8vHtDAjMh`(>%_sAN6%NexaH
zP3FHgJKq_9@9g`p+;}Brt^(hhsUEbr`mWWh_d?0N!&2|CRCkJGaJ;^6#+QeHDU#|B
z+;2)%za)8IS{Qy(MRdENn?uXdl&=c{NL8&XhahdgaQcz2in&j&My19*_l8rxA)I^4
zT<^bn<JF}ve|+h?SMFSSP_`4|A7#fDjy@`PzaO~~S$3{OQ{`Llj!Wfx@4YFNA6z&_
z_^O&)k(-efTe5pl3Jl(VJymsf;q+STo`us(N0-AlPfEtXqn5VsZ2WK|RkLsP;@$9_
zQK@#9WZiYI54CJHubG{TZ@x3}nMvPT!D791^Mqt<0_~@^{saGQ|4QH80jXvC56}MD
zD?fPULCsNg%0r|1YeVl0Elwv}x8Duly_9U-{bS>vOnn3Vmfn<%HBZW^V3%)RUY=Y%
zBsKQkZTk26|7iUS>w~J77EWh^`;gBmh*tU9C1Xb>(08{_3P5J5;Za?~2fJ_YUU}_q
zcdG6H<Q|s#By01x4}E9o!=YsFq5H$BwwEO9OP?9^^=7m?kv%(C_ekFD5YBPbE{}q%
zaTRCHZdH`2cKJZEwkz3n@{<#v>`hu<L3K^$B)rXBL-*>ORKFYO@oXno+5E?zmBTC5
zk}vr2q3;ge8Om52zJ2yPuYCB*6NA3T{28Z+>VOQ}lJ*4=YPBWh>q+~zNWLw1znI>6
zT-tg36OXj><R@XGgZs9md}kI;JybgRq18^ZLCK2NkGFhx*PUGttlJ=xl&tQStli+9
zBq5+D6<l2)UAs}L-MG3hRf|$pKdfz9?||W(Y}=XKJ)CSCmi(vE{<D(*EOluGYE^^Q
zsDwC|mP)b<$?T_Oyr9XoO5WC$(<$$^h2e)!3qO%85d?|+U1@)><nO&Z{>iqazc=MS
zLxM$~hFeWHn^w*D&M!5kJck|z+S7qeQeabZ^NCd8<U@~d>GhPSC4-4udr+!9n5k+{
zR|Tc2V5+K%2_ki8Due0D9a80vjLZ9^ri>(#%2bJ@b$FHBIs70N1I9yz)u#9X!V@PQ
z5#-!+IH8tO3$Vb*!SE|_BG37$5N=`Wz}=LL1Cb}3u@g95<DAcxJhS6mTk6b?vpiS&
z+@2SvFDXiIfSLeyt}o;k0|kUo<LoJUa>uzpe-gzxKOee6i<f^VjLMk}kUEigiXOOD
z6*=J(r!nosWW%Wh|Lkm-&!^N`&I(dz4u60+s8<~q&xxKVtP>C>D}FQ>b)u=*C(jU|
z!HQ5>P?%ctvtxX&)Ex2LX$NO(TdC6x1jzLt+j7t_QLIXwfr>(LB}Kw<e#F_6D|!Cl
zCN@4@7liG8+7;!oYY?u&C=qlhQ0{rav?eif`3h-PvjH?z*o###RZJr-h8_kCY~Ul4
zvVoNE=)|AE9Z)M}rN96TU}b;+9TuK1C9OcM)rtV~ZVJ997l)<D5<3Jp*>-6bO5KR9
zShijQ`4{NuxcHwbG{Ln>@qSLWBV;gWa}+kPKFv-lOiX`69;{3Rp%jQ}I~Bk)m%m)T
zUO|ykhg^ANho<r+0){rGLP=%pS3pT<Dq^x3#adNlpX$C|!%}q|+J~YHzFe0~%!yJK
zLQM*|w3&fRV8tL6S2!_*7&|uO`UY*e6mz!-ji%f`C)nu@EP$QNkj_n8f|4b;`qHPC
zUVOXTlGfHWM^oCdU2<$sI<UPCz|4@#7Rj+C>A?Q5ALd&9rgZ&LsUG`!O{S(NU2{;X
zIf#9Ht#V_sYk#tPf3otx!brx|ns#+du5O6%R&7jI?UAYgVidSy4};31zMFk3y?6WW
zH{WkbZaMPF`3Dte7fxbhf@-Al+vO`?ym#e+|Cq8@LGjURw_hV!-OV?g%b|3`R;gj@
zy#wj~GgAK<?7NNF(`td$ZEhhQM4Q2$@vyn$JM|ydCwmXvf9XLpl7aIwv=%i!tZPg*
zZAv$7lbW`rns%g{`lY7+RMWmx9qQ<R*w~zG*_v+IDYfiOwd_u}?3Y^hr&<oC8qp?o
zkLtE${Joj_E$RC0QvLS3!Y6IX`t7Ou(@eCs;nr(6Ut6iXdw%J)ROOybU|TvcECq(i
zuXZyUBID~!`?g8GZJD~hbloAT?oiQ&r@$%ooHGE~KLt1KVEU^Rrhd6H4<D<X5FwD>
zWd~#N1gMXX(iHgP7)nGK1SY5?&YGssyrF;?2!ULX^mL4{r+?QP$x-QXDmKiG*lApz
zWeN)eiuR<K$`!8i<-b8R*n(oc0R~x8Zx{=_QRu3Yp<P9x$55QygE7m|iS)4*#_#KH
zaW}A`GlG!9oA2*P-HRI-nCZ!|o4i4X6e>(+{uXV8Qk9#alkK=V;U|DQBPfc7DJ
z#E(w0=Evg4q(c7~uHgKyKt`gM49ZeAQs1bo|EM70h~(O5=P1@9(l00zT7QrUSe-oe
z$;Pee#=R1L?!60#A30nZt260pOP1qEvM06obh7gdU^W7U0FEkS!mX_nnk?Zui2))N
z(B}I%imaXm95IbZ@GpKC;8Fq{0%JyLfQA4U>X@Pj1P1^^OqY?Bkscu5g$-RdZU!(0
zRtlc<@<788Z_JS*EC_!X!_W$CJ{AJq64p6180jFIa1<qv&)mkJ11j=icq0H1#HDA#
zrMwGGE$+M>+xGvcw6R^!JAvf06Se%gr6|j5IhrU1faMUNF)N{-!6ykcy4se8gp(nL
z%Rw?JV>Z_dQnP6-L#aVC5K<#VKkFH=q_8yH5E^Bq50DMOnv!r(9hgrAw9Hg68_?j;
zGvh&QZ=!-?2hHJC3@NrY48*YQ61z!Q6M+H;Jwq>aL!ArLrUnZ1C88;ZMH0!0UlYLJ
zrEX&?XA229veYzbeN{+my~IMPEpJa?u(a~X!1SdFuxLUEYAOy%0xBU$;Vctvt7WAu
zA?8&)=~UsT@Y{q!Q?$ov5?SE#BsnitaGhiaz#2-mQ7fRVoCQK&gzQm5#FS*=a0#po
z5Oh$S(TYszN`Zh9#eozd6bd{QM{#~e9JP&~ilnuD>72CMGqH=}GAeM7#vJfDO044I
zo}bR=sm13?sC3N~UZ-IUY*pWn2`dJq1Gd4X0BY@_PX^8sU`c4u%cO^gU`qwxX@I`Z
zpicoIp#xsk2DF6&+o_L~#!&!d2F`wyynIj&q?RiL*(as0#80KU%1%Ywj_OmUe5p}n
zN5O~@Np@If+CEk9SU$;^Tu(ut%1SMkl8};zDx9IEp{VNABC4P*gLakRY6>wr6l!y)
z@U85JElf#}Hn_EN0B<?PYok}}Liw|_Fa8r)uq|%nfCupHkbFCU1}gw1J?&}FPRX+q
z<bQ%H_e)j#Rj6{4<k|#1I~HHk-}$MfGvlgW_CUAH-0J4laMIP6wDzre0xO=CilnD)
z<;!<t_w>mP{gS62Db=+nJ9kNSVEpoDDr%P}q>9dD_d&^X5PsebX>XV0?Miuj(%x;7
zciX*+q<34&yEp9}kh}va?;ub~zQ$W4H%C&wwzRKH@^wL%i?1u?+nV<6l6<>TzCBEr
z5O9zF4XaMczdh~WBl-8F6lE|D_xrnV>`qn&A2>Ebq0sV6E4pOsw!7hbo}{ZkY3*NY
z>{zXn8n*%T%(V6-Hw{Rw07C;0m3T{|4;+CtXLZKe3M~;CXG6x>2}`!jLh?8kuv-Jn
z4y<%Z6+Ot`Tel1?I$hwmu4!GFzB?&(9F}Sh6VlYbExB_@@&kcdxn}id=;zB=YuK+A
zsS)sD(SQ#Ztq%}w4b4tPAhkES4&Wr{iNPNB=fNI?94Q5R5R6d@_8=I8pqiqGm>N_V
zqYSd@V21$8rxp_sIt+O|K^fy<r366=ylH?oz;#^+Z73`N6JW(Del+Mnfk#BJaVqJt
z)byea3<wq__SKyPuS}WXqQWkD2GCMu%|w1DUtdP+^WcLCPjLxB^eu#No>PZHCf1U$
z1vGvnpyN(y$B!`o=uuc@6E?s{#)O^i_6|U0Ot<0lT8zOv3ItK6Ft{elsMP=&)L~e#
zZTA0%44wfQXlrND{Mr*38V{ToXN7LIpJV0~a03=?wTfQ5Vt|Hm2r_z_3ZL|<l9fUn
zin57om^>p$mqeu311{QTunt0k%8aQ%glV|G9st{WVDCN^ObO-Gn{*R2z!aa5%nL*T
zAzB<zmkg$=mZkU`1BA447DE)O`!hhH-xN@@ev>RN!+PkbbcvX}AA?9<42<MJ53v#R
zRl#@RvKdZHV(JFV3m}nha?QgtxP?X~1rrD&Hq&P-8Es^Al0l#ZE<L~!Ksa`7NGfmb
zfJ?dna~nGC<67g3#OS{j6FoKr3pVoJUuPrF?cP6e)+L+z?r#3HY1<mx$WN^5lCEIV
z8hqv^Zt*NNzcZh<)JT?^l%+1&*bBVYn#;Y^Nl<_i`4^U|Ol8x`p4IS&`=rWEH|&rF
zOtx&1Dz_}!9~Eq<3h<E6^TqpnZaZEnUuj5I_9dZ~u5$2!1DosNq~ma=qDk3)p^hy`
zis3e_mP!5{X@9@u?@#&nVcX5rv?e=tN;NxaI|d(keR9LD<euTA0|diUDk3OCcU>r2
zghWEQ%kG$VAw~$S2=Eju;k<4?rjt3_k3WIAo-e%A4y>*J3=2?Vhd#``ZyeKK=En42
zz@7x0fUeYjonZID+|<A4HIkTyG0*i~3R95Coz$_Pmn4GVgo^ze%!<G%(Ebh#fz<^z
zKweMy0u4u?x&Uv$T<it85+b$e0Zt*u@|E|B=b(&IWD|(vt8Fsx;0YbiB(Qj#juTAI
zDo$7`_8@iYilRq@D{`&uEQn$ITrtXCP%Fddu0c6!P>vJ46IcV3vkpq#*f;y)b)+Xb
zQO@8S*YmXt$8^`t1*IxQ*l}q!R@pAy1>w=3#Se0J5x#-9<R#yLhXAgDT)`5UBLhL(
zty}98j7{(RzA*?9VRRx@CM4vY_Z75pj`gX)EyrB+4gGud7_XJ{h?A&<pb-#%VE3y`
zcv-GK(yL4D5!1a_j&WLo+(aR?(m;N-a-zAoX25AdC$JU<EPTi*!EVM#R3TS22T}Ll
z=JyVQ9o#mi*P%A^#%nNPGtB$uz1MI?o%@BImgKXFW-*1EUqM@7uVn`=?7pySdktND
zQ3NXV2OtMT_gjFqn<b_l`=P`IDiKQT=!%*IQia2$2f*b6Ayv}EK!_aTBY75bgMb$m
zTu=fAu0dxX)0Y?#c!(T^qcQ0DMLOcONDMd<s+%f`^q<g#%HDVmwxhBc{4I2)5bg=O
z3N+IBpog&%5hK!@AtJ~4=(MXXjM}Xi3cHg@xwL^OK(YxUMbk0yr<D9(lEJ7(c5GX0
zQ<Y6jy^L(ZX&)DOK!AQOLJUaP!ZUO^2QCee4ZvAL$u4eP1A2fAcJ^n-etm=&x5G&}
zlNT3;xR;pTsABFOxZ804S2~JWm4i0hs2R}-s&_BbH5JN+jSJ#9xm>xuNAm&70V;PO
zqKJ~p&S{YIa@;*mst7IuVL%z`B97&}4EO+14~hbu<jg}GFWu-NTOmAwtsc60iTj$m
zrNpCv1zqbj9RW80wOG%D6NXW8VtJ3zH9uhf?}Wm$rT(<HL-KZ{TpMtb-+L^*_w=WG
zPXqN`Z~n>N)8HDh`qS1PXpUXIl(KG4?mZ2)E2bJ?#p}&rYyof1mD^Wvs82OQ%W7Sw
zp)=iZP--}Mzvg~tvH^mPwQKGT$*z9M-4EuTin^uRWMIcVj}+LWxOnTAHYS^Q-h*bV
zy^?3&!U?45t-RHFvvYa(2M2B+_<qZuc7Ct(0pllXXk0kCWRq~`Mk6-%CA$Q=5I7|w
zw<d2+eq%aS(XnunI426fAAz;!m7A|DUs1VrDtCfNwjY$TrT&$=)h|lTdy>Zf%$BW+
z1Eivp-d<dgwC1T_DVIFG3n!pL`2GDi_CIjcK^zTb1GmVoo4b}zq`Vteb&_`@m^Dyb
zNS7^NUEL@(ZohZ@f%gbtjf%$QgjCVJaPra4J@@)QaX#32;eq#}wDZE9U8`H~8ooKW
zZ1~3UKO9?W{ni!9*OA<LVPRPEUi>Rp-J&5=Uc0<iDsLj2XX)J6CjgkFovo6yb!BkX
z`@q?=MtXENNYxuw4Xe;Ix_R+<CeXS#yzG^LiKwVu9Lzd6SH;q~_a?F?h<yVY;dKAQ
z-@dFvkNv~rgF4RlvMxr*_itAnt1<rDtxd-o&9aG|Qy_rB7}J;lMj;%Mqiwh`a2Ra^
z@8U<>XB7sJSPe<MVa0w<NZcY}c=0U~JcDbVMLFTw9S+ZeoOpJh9^EUE&@rZMBT+aQ
z(>Aed>v_n|eM`TNX`4c#?u<2r@G3<QR6gQ1iiGha6=Q-^wr%dW)qR06Wh(oEa`02H
z8__hfk|M1LZiG{D@{p&V!}&5s(r4i~O9Qgi5Lzag?inG_nePsSQf?dS4$w-=)VOp9
z=oJD}Ku{GUn?hmds+6pm!gZV~w;oostIN8>dDJUY!#Y={kieCL(!OW0(B_83zB>ld
zjP6vH@4rS~kXkxL4kIvRXJKlxEmut0sufeVsFjG(fKt{pWf^Nw8Cq4^J*lOlwo(^m
z@gmaym$Y!LARZ1lcFyS`4BprKmzzIz)DgVj1gh|#M!pyMldE^XaKAa(fSY!32&khg
ze)@0rLuhF~rlq^`mgA;ldEjO_X%F|k|HT_$T;6=+OCXm!s+TuPj<!|Zr;eb)nC9>=
z?p^Fl*6dlGTb)c=_o{qpbTf~u4*1IQ&V^&RTJ8NkH})(|K&o{2-76`_fu!+(dTs#C
zcuGAWtYf0e&82!&>hsN|95WSS6hFCH$AsG0tRp<%b3$U)89&FYQ|?A7i7`}W6|w3w
zmaNjVq;yQ>u9VV#O!z=!V8Xnz&P_i(uX3b#x_<zNFZHgk^|L4k8!@>uM%GeC9@xX7
z<%8Y*#ZV{!2Ef$<)gde=ktWbDX=cyW7xZ61n@ii&xg?%J`xeb6ku)}eaQ!lQorSSZ
zF<PrOzzdRP3eO6M`6y!jYZ~UihZ3-1ZuNfc%kO+SW$`Z$d}?V}bJZrHvei-b{(&0@
zQjYo+jMnC)@nW)l;C|Pi_x-3Zb?97j;C%A@g=Fi+6x<!n8E<3S+a`J2R>1DMVYMs0
zv0vKQe{VqAxL@+plyFp~9d(kUZh3f}=Y2=|;7iiMmy&1CNe9oT92b(t3(CNDLUjbY
z?Ty$TL>kTOj=nS)PzCPsAsD|F=K~hraoxu`jt4B-gu>L%9ajed@i7F7xE=rpzfoA8
zHxw`$cb-8L;`9{6Y_Zx#`4~%r7_CUB7<5P|>;)DS5&AzFd%<heZB!c(mkWc9{AJwp
zgzFO+V**>Ll!dCU1fPLc0Fjjc{_oU(L8OEJBR+%WXu5H$gr9rs!r_PI^~>j1cHHg0
z+w`D(fYy%+RWbM&V&oobKYAXYfbq0KlTsXu;1xt|v`ZPG_yh_~a&Al}3%a<Ba{bAR
z=M?^>qmVr~Lpm#?(Nk)Nj^r<03)+gcWb8&!6fIVRWIIg89x{%QF+>K{nzfP`rp6>A
zO|8)m_pfqmo3}sr(z6G~pppW`gP1Xu?QOXllxjhYUMG$#Hg!}sl69;XxiLrVXBcz3
z=PiHpdUoBc?p*>;a+)I6ap53^gdwj5P#uZJk#(J<VgDZ!qVH=3-2~0qpnV8X;4T=U
zWgFUN1oOCckpp9o>D{tX%Odx-Zq$mQZTZJz%H?E5ykxj31=q7a#V=FPV*{GnvqOsF
z<YN7FttiquZLBn~88gpUU?FCn0<9o9IWeG&azNh=OM?4dR1qx!-5}bcJg;0+t+bt~
z6mcj{s4w<t0Mfi!4<ZnNrkqq2s%}`{mgsTzJSH}b{D9|?(Wn91zYYJG_zks`qW3b-
zgj8xi<XTso80!`|>UY+ZpR%$RG-S#9@jg=P2FwOX+8AauSlI)nFhj{E)J7H?hNVJi
zm<+93AhO>_cQ%w-7@%c2pQFAcb&Lzq@L-RorOCpULfIC=A`e{%xStWA8&fmFmPhf=
z5V~NsP?WRE*4#=s4u9DUfgf6YX+I6%QPzfee9e9J|I6;oX+-}!TAePUJPX{Tmd;gw
zI@m7-`~OqR-evPcf76O_W&Ar=KfL<=o%eR#zxd~`{phvS)|Y<lKZ^r!>pt*2f(_Gu
zNb(=TcV*23AMtbc4eHXp7o^?`ONW2#>tf5<2>90+FWUj+BOWA!TA*mfl-oboKolbw
zO`lPzX_~zY-aM=4qN1Q#oQ4-RGh#Z0Dj3r8s%Q?p3J10p<En)O<$Qw->L8}eQugEi
z!_xe#lN6JZ6)6ptC3Pbnh2f8-KX>Xk+Le!}a_3Pv@aaK5#dAoPJajSTei@BiMw(yz
z4L7gdoX@zMldb*tMgf!i%NLJ7u{z5x>N0MB+T9|#TOPW*pP0zyvwF_A`<_2J_;Sko
zO49j?vcLROr2h2&c7z(Fi;SaW5I&XFPcBpEz?c9&-w-&jS!19<xPvN4@Vte290C7|
z>O^DU@86}POQ8KTTb=Dy-C9#i)<hNzoYp;A3$tQaL2n?l+PU(kUpdJ78Aqm4dSbYQ
zCW!SckpO5&jX2|U#2C0lb~<!GyJvp;R2e`;N<nrOZl=XRPRonCR3rs-KckA#xCX2P
zg@>CJw&YaJA&^s^80$^1>XIG1o^WJ&vX}EgSvhbw+cUmCD5dk67lt7kl-D9Bd)T=(
ze+h4BX5G07;`a(*IfeD)MdzkciXC{JwieIppz=!3V>QPAGr1pl{b6oN_l1ANs%=i_
z9N5GNFW>-0B!aazVcv@Zfdc_HhBaqE78FzwP+9b7XSC<h@N?-f-E`0AXDAT3b{A!Z
z&jMfCPK%y+jzW^KXziiB;i3WnnhVi<awTJ`vI^pBHD@QqTnvb0<YKTk%Bzszp&miY
zfw!{rqa8OEIr8@h=F5cr61aXwO>oYaB^;&hLM)(2lxg{EZ|sT9My{Y88;cqOp9x2t
zMiqM|0;;9pl@}qIheC*4tr*oQVOV&zAoZ4lXsR_~AJ@g(H23G{lrTX68snNCzz7b-
z25jwbGF{`;Yk)X5Xldu)+W1V^ucH6O;|LYZ`)am?U2EG?V)OZ$YN0@jG5&_qG4M{}
zmYE=?z@jJ5+e7(1CtOYu3BuuKEOpkho7(~6YTxBFtCw`|{oe#n5uR_{0C3ecB3iKC
z1$DoqeHRSqkkOV6z<0@}Nv7!6#$I$QLWDy%Dz_XF5k<Bu(#aGGt2C45nS(n+9zeK;
zA=hT0y{(F2;Z$unN}LefgVnN;bS#R0Ly=faJ4%x0gB1TOc^o5Sjf`KAK`;%I#gT0S
z%1WBP1=*~SH6U!n1j@|{Zc-t`{1qa|jxz&?L+6H1pAQWkCK`mIfS(DQ15b%7yy>ur
z*Vy#T^$-{yuAv|drN@N73E>ASN@Of9ewj+RKn4|9wj3HhJ$N#7N+b%gm>^>whU`8y
z@JeXp!l}@iv!{=p9XNGP{1Q1EBK+I3fl_-GFGQnC!hx1Zy7Zhb_IPVEpSz1tyoqG&
z=!Vz^3}@&KEpJMfw@Kw~sq&6=c~FA#x%O1~CLF)r6~F_!eJ~n;N2$$}HKxnjrLy*g
zqYu4Ri<V49&60olWy#Y9wR4NcOheP6ZD|9PP~oy})waAtvbJQ}I=^%L!{h(##CJ}A
zcskX#UGv)xx!8y9%CtKmxdY#>_)g7-H4rb|eP{Rg&)xI=$*ZZZ1NVKY=A$Y1u|-p+
zqf3jnQ?j<=zPe@G$_B~5adjuIn@jn&E!r|0w`xK9CF=$V)GWtWUQN~Y-EEfYwt`TT
zsjObKKlDTU-9L5RIKDWz<jpv%(#{4D2L4c38T{77kDWmPQZ=2ADr@OJ^p%a@Kk}z1
zzjyLM<-tXJrYl$Oy^^(a&EZQr>L1}IbNg+3#?zd1w|@JzADaHm@dL*vM<MxBQ@%I^
zc&wxAJEI?tmhkT=mz<<^*<GXD(U@|9)ndn|t{oY;unQc)1d?)ZO}lqX?%hA^df+~q
zad)KMy%Jq&(gw)RQ}Ndo)i>M!(D9(6ZOsZ!lck}gwJ~jNldNqk7amx<GS)`0T`oql
z2B`o4YrE@4`;z^Ey{@R4GCNPHt(L6YnzC-of=R|#odqq-31Sh5Pe}*ZKXxk66=M|s
z77bb}X*tJCxhmI_EvJJQ1YY1H1YBgQXg^mMZA9U?93Emn#@(|(lmajW%g(})y!1~=
zrjA0j$!3<zIwODmL@D4RpI0ey3oMs;)(X?q_JWd>V%^YR)?LnlP^B0r^Vow@hgOsn
z(~=%WS}7qO^8EN(?2`2~=6rKor;-<$V6`-rVk}YgZD{}rfIKj^5{Rb|fM7>|GWHj+
znUb9`WLgVasRVcha0%ogEi|#vXoqxwQWl8TQ2j}2H3x<jmQ$+*wj9&kPhY+gffkcl
zsQSDdz!>ZfXoHZ^jRL?DiJ&CmihFjEB8^pzlQ5^1x7$v~HE6&Gg{e@#A(#}P5`$gv
zK-a~9VyrPLXcQV^F<|K;=K!UxV8~C?O)i>*1(gbS1zzi>YXeDRs<Oi{)&ywiXO{>g
zgmRAq%1LEV5$$MZPNWS|;WB834cd~8L=aQ3jK3hizl0&%W~X8}8VK-NBga89*mlU+
z2>uI&v8W*+N06Js;_qR+iQgb&jKVmn7MijUs9;s-X|Yfot<1|tDy3`_g-OV#0OcqW
zAW-rGf+~`lqcuU%ouQ>8{vmSOL%U8jEI1MQ=<?HjH}|c0aQ!JT?G{(kQvC>otKl2N
z%Z(q;e)o%azWBh||MRjc=#zN!>#zU3%zNYF((p=is;uoZ3umi*;>2<HR^n!2<;u$F
z$}mX1>FRA#^|l{w|Fixd^e0Ji_pwFin$`Wj<A&p#M{b?Gc`{`Uq^%oqhwAE<l(jc)
z#SR4B5BKWRyH85HPku5W?H);4842Huwb@pkacua^ptE7MuYqa_TP=>FaIqL{8?aB9
zY&f8KnpS+P<x=ww$-QG?2)o%W`%QZW%kgls^?>9%AX%XT!j`eNJ+>G<=7k{~aBCY^
zY*I~-c<LMtX-B){XkQ7Z9GyvHCtGE4hNkYvi=;pR718UcdijES1K8_Oet2n&6sSWN
zj*aQ%oSp`~0VhrXDs=0SdKr#L3$REluY$d&<CkoPS{=+9k)Sn^&}qtT4YW3hw6uvN
zye1NOA<{Y|%49GY>JV(QM~SWoN-$cHNarl&dca<c{_)6V<yr??0pv=$HLw?VCq-ku
zlVMzg%&dw!p8)g2VOzPTqF2T0#(JSZ2A5s|Sn^R4H7wX$n~^xK0%EKyy#>sLa--&d
zZCbo4h`pC*X2C^L#F%Jffk@@N_&+02k(fsqB17(DK0IJhF>;AC+w@{7LH1KIDCZ<Q
z>NExUtZ7lH22)P2R#(w#FV<2qm2{XEQZx?T7ljy#X5rpk9aZ(hG@nG0`<H9A!fWdn
zijGZm9DGp9Wf^r^0JV1NCAdm664#l6LHjn@I>-o+ahQzXrs=&xwxeWplF>y5trEb4
zMWJCwx#pWE*AK{;Amb|e8;@XkvD-mq!@!|IcEN&di;A;=EWzZ-H0_HYQ}BO9#vijd
z48;9+^i3FGh5n(VVi4+$p<rZFd=}SNF##LKoGTLN4WnX<MB`(GB85moXcPvovgM-~
zD`?$|ww{d&`^E1g9Dcx!VZ3JzI-L%{m(KB14nOzLxW=Dz2UFa^U+HZ+{jWF}kC{=$
z>AXMXoIm6G{+c`RGp^$o2KUd5`+sKKjo*La{6FW;{GDE})BhckYWo>C@-uGR&$z9>
zu=$o=N!c0~%o!+59)>2BB<IQO*puXHl6Bpyalo1>ZqHh|d%=-4>vWq|2D2PqtA`)c
z3(Jb$@hg3|?j>E8BlEEV4q3(Ff6|rf%ut9<z-QI~`<mCEHQ|kQ$L#pp>+ih&*g{_|
zqdJ7EXvi9vrT2(pSu@o?HjztqPG7F`Lb3C*1Eft#$-7p&nNspnO7^6^S;GAuNXz?K
z3ukgJ4*u5g0$QwG*R<^WpyqbX6AsoVEeV~jayj<FwcFQLEq8Ty>`$=w>ngKfq9Uht
zK1t{MOkbn(Qxz(+WXtZ->w3U443(xjx_*SJTCO{Rs*<Tzl{vK3>gqF|x~zfT8+%t{
zcK~{mz5l>{7lh~8$C}Bu*qU@TtK~JpKf9++SChe|D_fI+Ey=nqQq|V10ZwbC>c=L$
zvtS^u_J3v>(o;+Nvj(!T%991P_xQ5R6CGi0cx+>?uNZgh0uYAJ8t`VVh<EmFofByw
zyaDgEx~3$w#?+w|@r86Ms*+W`t8YqGn{fp@E;WH8Qbg0%N~XHUHu`Si8X7+{9i+aZ
zw8^rDTT++{>(RxnONOO$%dN|?mBA$LGc<KRwos_-2|c1_a9fLIn{GtMVv~i%CJSO$
z)n=I|<?7H9N;(=OQ{!VB3j@*%@}~sd(1FA9cdu1#VEMa|0`6U5o~+!DZ4@qhR9~h$
zs9UZ4ZvCBlXt{y?{#NDv$@c%a_b>K7W^UPlU3XD;_rjmP{=L_;9NF&+e;)l&^f9w%
zYwZ|()NXjM;no%t-pH@avsAehTOM5TF3n4xcFBqRYRCr_usybst(Mb!pJ2vqT-ik<
zXd?|6T(|>U*1l2a&p2IK1Kw*5Jy{dp)P`DvTj+aK*Q477K9}hCP!w3RP|#ghpQ&rg
zbOt}Owd#VIa_{@m8_}!*_BEVxOn4&|u!9}GF_E><7jDn#$WmAgUuDicao~&X%>OTV
C-rr3C

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/__pycache__/xformers.cpython-312.pyc b/v1/attention/backends/__pycache__/xformers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a9459eae4cbaecd179ff6e8122e8e9b9fcb0c10d
GIT binary patch
literal 15355
zcmdUWZEzb$cHj&!0P+3(O#lSHB!Z+!N}|4H$&yH|C0Ueg$zCs34i>@;M34YM&47}~
zfVbL>w?ZYGwRC$aQTI`nukLQ?lP^)~a+l2|x%1}gDoN!>W&|fdrnD8NvZ=)R1zB>u
zN$M_nuLlEw6sX;+O{FSR<eS&;b@%l2biaOI_<gI@M8TC~em=YJ07d;77Su~$N1mRf
zDe5l8QVEKsSxt`4YZ4k7acxeUXA(?am(Y<ilhY^kK-c9u@`i*VZ%i2Tri3YPPM8T_
zpR?qx2`j-na<;rZVJEmD=g2z~PJ$bAuDm<p&U+G`yf@(`G*ix(_b2=`WyGhNbAfy?
z5h5H*t}`D_g!7R^1j^P#6!`XBEZ?07(v*hcoLtWX7(HHzUJdmHigmn0u};qLKwGEw
zaT-E*0p0yTqfj3xH!9Ijcpl(+IXBlI1bU<8Hp24(&(9ef)a{E*FU58BQ9RCxEfM_^
z_02QasT<laQP=5sU}^iYVv(CGW(#w%TxyZyW7o6A>DXH*3w)mAg$8rv6C6UEmW^zx
zm`dkTf)Llph7*Xqnc`)`xq0j(m79t)vZK-Lcq%>1&9SnzK{=J5&$SdUF3xkZ>Fh$T
zn4QmY=Q8jF=fYezljYcCN*x&xO>gFM`4fe?O!f+t%-OkYF_|k|xx(>rtsH3dewHhy
zaDc}bvN@LHW&epnK3|x7jxUFV`5bh?a_Iug3CYwPo1EvlOg5Jjp#SD@FU)gkAZQEo
z_`Xg0@oY+v$Ihp&aP0A1Aw4^hO<lp)KapAxQn@d}9G=T$1g>~K#j+fGhFcWQri9sx
zCvot}^ny?<<de{6y8dCw%~3Bry+jr`M<r-j<eE2NktMVo!|7PfVW`6CXKby_6db5(
z`xfREO~S~TI5ThqE#x|i%Lo6VXD#*&3)IRo>H@t&Cv2pxowF`=C^hS~bz~e4Ru4Vf
zk(SZ09q%xWW$NTyz;grD&_eYPs+Tp^TbNpSKF$T3$;U!}tOfq9@Na{EJLiU;{D3(!
z8q&_fI^WSXo)oC}>8khXZs{{fcnplf(?Sg`dgFdM@Z1WoFV%~(CzVcf^TlLgp*X)#
zOkQ5dWMCyZgoXL}0$+r6$rfSJ3ZLL~%i$(@mgDERT=Ft5hoq2Q;sjaGbHxRIE?wX9
z&;TcyqHwc6MM-y;x&mMK-_sYUxMnII`6LFkPX-W-A=r=LWdyGvIFH~h1YbcgjbI+Z
z4Foq4tRT3JU=_iA1ZxN$BKR(Xj}ZJW0uezK!8(G!L{LNULj)9z`UBkZ+H_73@D*Zz
zdwR5(pC6si&hIFu_$yp-$Bl)32lmhI<3@AY%cJv)#p%M_=r!1?qt|whHumr6Wkn1K
zqc<{&Tp5{PlmpN{*_^&<F2yR-wzPArk2A7WlTjF*U;%KG`jm+}Of@QMG(CkfwPA-L
zfy_Mv$X#lYhFO;lZ=F2%`q|0XFYpI}s(>Si;Ubp}_{h0bo?GgE;i$06YtTT@0k}!6
z+k-rIB72`}g%WVXsBmh@sBl}~rHTNR>jL!wJr$?<<51i@E(?w;3tc7Q>n!y@_mui_
zCNrj1djt9r3;=FYKd|?ShCXG8rn!Z@vTOy})Lg!@1?jWblK5o=+1U6%vOS$jPjkvX
zND4)MB#kevUWk*|*$c>BszkH&5}e(vW_BOEhPl|-46IfaHD9M$rUW%hnvyo7gUz6u
z;&DUsxLKC^h=h&dmWt&;bjB`ou@qp+nGq{wVmtSae1cVBv6|jY<rcU}o-gom9e)x#
z`2vDh5S&7A8UXo9F}#$o?84cES5;n2m`=@eOG7W5(~XtCgnjM+aFePzD2s1ZbL;48
z>XEtYu`4V_PLy2}qGh7$aNa(+y0muqyFt-@LNuIErvLfFcGD^L<1Q9{0tNuf<s95L
zFBdz$;AQ1hBr9g%g>TnVlfze27tN?>7$u|LFea!$+2Q{w1E9XGPLdJ8naO~l07*D|
z9q$5uC3Vuh3jzl-E~HZ|*F5Z(Mz$PT+xl7Pv9akqWN@%&;IRwELcCKpB+2egCS_AH
znJ=&lISz13GI@0&mBUS&O!9u{LS`-(3OU)H1YKaRP)wmVBS1}EvB0ON<&I3QkSgxn
zD;qA?F+KpTczk1-$z_G2tRv?FZ$xqk$=d8(Q8p7@DbImqWcinnY!R^cv_g`#uz&bt
zq!&C^_(?={#RbrY_$k176e>LK+)ba9_aP0zAp8rj!nXPbRqgH<nZRmandz_YIrwXD
z|H|7RP5#c*_ol@03nJsWJ-u4IKlz<A@1K#n#w6d)GIQaNPo5WFyYRo~#K|{ACU$>d
zZTzA3;fyr)vNUu|>N#F!-dNW;YML&cY0a~i{vh}%1?W>PrFRly?Kn;8T{R7@3*AnC
zO2G|z3ZbU2WBsdrV%J_Nv=1xvH!Aci6)aS2+Y_@<H$hiD{+bq%bwG58Kn;JW)<IAM
z1ymzJO;jjSBTZ@+%4A;=Zl74WajWZ7D{|}olZw9j2*y?~iairjWD-X())>K9V~E~|
zeaP|>))ROgFIh-rdN(X}{N8vyJrDDJmul*09B61PP4ptf6irPxgJ;sF3%EqvA}tuw
zVyk+Jp0yQM|H8H%$Yl+Q4)Pphy<{LIQ@vy)C3C%GA|(qcSrcZ?!rD*>!+7m=niXh@
z#>lXaI?dKXb0Q6NHJ3^Q-K$k2b8O<Z>SfMFYuqabpWFPZFqEBm9Hr7l*tf}I0n7?P
zw&qheU?X$<Vlv0g$#w;W{l%koke1EJ7r3j0Yp5fFY*r4rV(M~^gYB3r6qEVX{Csxq
z3OR6O7e1+O4ycbJPgl$Zl|;@*)oPH<*r;w#Oz|$52-yf4&|LB|nhF8sXlYm(N!b3x
zQjz^Cr{1~B;5(s<4Vt4F2wM1mx)-D<9IVs~6gFQhJv#t$fnG#DO507>*DUSn7qGs%
zx?9=+RW-a@s4NwtmgyqOI&#gJRIGU~(dzNOtbtzI?1UHetu5k#LN2J~Q1Rxy=vMKP
zX2z@H&AVzL%%E`Jbg4Xbe4u!Ml7ee}3ErcnXYEhivld2=2gRmq>o*4u9v+)6poTY*
zpom}LL(K!Q&G0Hw$%bkL_1k=VP^`35WQoT+csw_GTtWOSf*gW8f;j{Q0C79dBffxu
zR1y%o1VCokY$l`BpGM+5f)sMJu;*kZTjcW1p7^W40mlF%aJh_Zz6wgCx<!pp;I6{%
z1>F;LsyZ&<N^GiU4s|oCn`3EkOF1#Jx$ZmAmGE}}Kr1)fE9S6d4&SFAnY*iQKOqcA
z<^j<>4u^p!P;rk*?lI9aw(bj6e1np2aBaLYbVwRHBo4hK`i`uaAA5p#Pv1Gc`qO34
z(2B9@4c>kG&fE9LE4{m=-rZvF9?`pZ#q@)LW7TL+CAvq7?s*)FtY+WK-^>4-LM6IO
zitZ{$$IGET)$sPUp@*ptMx^lm$AQk()9+2)n<|HgE8(3|cxO4hyBrv=db_HDa3wGx
z1qRkUmG}WEen5;L5(9^;!AK=IC<V#zj=^Cq4xJE#6VL31xM_v?*w9~dQ4UYVJ}lXX
zMZ>V7vo)3nOokc$i7@%fKcO%Ikx^f)6g7i7<)&+s$Y>)}SQJxjL<xwajUr=H&sZ!v
zRbolAbw4u=!J^g%A6p%LkvM1yldbw@HA~P>sC69LpZIAgU{DF%bZs?;5YAs4fkf(W
z>H~|Uej9=Gq4q)j`~6sAhf&1NC%6LRh95)r@Ms0cZA5VJ*8o=p5Xv6@1_C0gh&&?l
z2SpFRhydrfMe>k-82+b`T0*c4Kz7y-+bt!IebZ^Y6yI9lY^wV2-~oag-n1@nx+Qb>
z{ns9ux2f`GyJX%jns?Xb&8Xxa6)mF;dGnlv3CG?$d+)3`czA81GJIGXJ}ib`5)Hv0
zY=4=Em~kmOPDG42aB!`!GI&rLJSavFRia0w=+ScYSS5N=ik>V-Unz%9fy@yHj;OW1
z`<gU(L<}DV=_7`BG~`YtydOkTIef4jI8^m+YX~3^JPldcB7i{ftX-_^I3evo0aW#c
z?#|trd*(C_5INLW^AI^SB-w{V!w``}aTotZ{1R^=K+BmN9Q>CNBZrIrA{++=UO80o
z=uplf^0o1M^5|kvjwM_gvSFStfaz3R<iCoHpFwaCLBoy1lSP66PdDNF0KP%3`$J_W
zRCW8xjIZhq-Mw_@Qkm(lIz45^Q?<F@&E3i&-|4#>z7sApk*dpoclge5nTf7PyF|vf
zsx32J)ksuiytf6QRs+GCuiox0Gr_7qaP!P<cbN&mM;;!#d1~dxs$H@Vl$lW=e1Seg
zi%fWRTHJnIik>Jlr>m2vM5c4~Epgj1DFQ~<sdb&Trt#@^+#e8!PD(vr_>_VI8YebF
zu8k4QuN%G}5C<ov?vtNVP#_haXaG~*9N%|?^`h!)PjT9Qc7y%0(Z|ecIX%m89h?ER
zB38#4!3%3@CulN;6)Ho6_t%oJfCtyg8o*vKf*;w$+0dJtF|d|*bP2}_b%RbgK?AWV
z{)w+azp|g_3OxAflb2J)^mMW~&2z$ZAqVk-rh5e(@UoeNCWs*q+B^CelW7tQko7Eg
zEt}>xIG|8pB}W?yieIE#J!-dfCF&Po^(d~U67vA{47g~jSjS*>XiigK2aT|u-V4GG
zdnOl4L#fe<lyF^=YZ3jqil(KPb>QR#4>EWnNZ2ANyHt;3^4OclPQ7~U_^Xq|Nd<0+
z79&D-wUp{MM_jK+vK4p=e+$9SA^3R!vM~vc9SFxHlLF2FYEQA7#J$CT3(7B$VD)Ip
zh&sUEg6ab9ogdz$p4lj)?N*0m2&_id%n!f((YB8br~cgDEgHH-dv`Uoy%O3bg?6nl
z-?Uf55mY^b)t=rJ<_`^BWD&~FGzq~d_S6kxiFxWIVjig~oovdagu0JPv3(kI3nQ_?
zKl!GA4T2TEC_v=`mtk97_d{9@o?U`|mYHSUvVOS(Y=zcd>wPR6fZoQ+SvLL%3&*G)
z`pYKhp^aLyYz8`xebcpU0eTy&X4wjKv>i8H%Qm2UHW8t?Y-g!uM+y85vlFlmzF0EB
zLC%0O<Sc=uPB2%oVF9%}_)E?iG&DC|s=`xpy^!11Dk<5NCzot9(M{b#5fq2|E?IUI
zyH$S4Q0ge@OS%$MGM9`cYspfwmFy+Qhs=ZetP-a%`1Kt1)3zZilwGEi4XPm_8yly(
zY@CM(9f>N)mKLL5AUh^*Q4|qkyKFjUUT7F8%88Rl6P5p21jLw{MXafzkS>Utg0_|H
zYI%MVLaungp_Rp>zA0NWJVXRlOGsZVpi5ElT;t{@=U3dVZ2oT};a?&6MFiwnB!(J!
z2l6&#JPmb6G4uWfR>q+;wIgtPqH{u>Q*{Of{_9Xpz=07dvJogAa~*LJFKydWEmDOF
zsrUQXUko-a5h&K}RY%{$VrAb2Y2SrsT8-8AL`xY@(JSWLm&D$2aqlbO*Ng0|gpW(%
z<DlwPeS;O>LCJUUIo&8QTnQYM0tZ*DRd2lF-6eT<t(Zvly^?S5ikYA<Nxqi=^$%72
z`z8PW70bHay~0$@zE$VX9bNAlSPQQWfrC=CgsZW^wZm&?#Mpk(5_#-CQE{J_+~=#o
zcqKR{1;@(4UDeQ#BJj$g@oFgg-srv2YDDQFvbXB*srciPKmN?D_t;h@o;fH-yc!*?
zcI`wM?5_rTL1Kayh6vhry-4(ho&~KKv$7gZih@L+d|pQ)>nw$zk0?qgJoqF67J(T7
zS$kx;pup!*?(hi&MEiLkFxgr^B+^_imrO#i;9mlj1ovK6j*4?wAHjE#fotoB-=IKg
z=>x}d=jw$r(^q3Gy1sRPUrh&h;P^tTy?4G;>%fwM^2KUK#7q?EO_n>B&&*irqr%-!
zjH5c!dS|qzgFCeA+FR>D%s_dAHRM4XQ}5?yz!dcbN3lVDQ3cu4Z^BAyI$v3u)3&oF
zSvsR-H5lB6e+Cp99o+Sx)aZ#)Lt{{z?EspB88`zdE|4!m=-><m^~F#xS)eZ;YXwEd
zXoRc}P;>$io^GoUwG*-s#x}Kc>#&Y3=*}(Zt}W<pP_{f<@RaxQzL4vCA=lELoAI!I
zm=QaKQG+B#IVBrWe<ATg5^Dq1C!K;o#w+k8WlIWT#MvacTOoQb+k{+}1&?d;dUlR2
zT$gPPjgN#;WIJScWQ#&lC}fJ@A)T)~Q!z#&hf%;!r+93x#G#W-1yRu*a6hOQp7=y}
z_*JrON~W*11|b_>O3?Xq8#o&EbVqG)gP99DN3!8xYq~T_jeusWW(a2*m27B+?X?x4
zwsCeW!84$3Lo<Ohl1erlC?yk=4C+h5*!!EF%XYd#Nmp!W7VR{7IGOA3w5)@Zm`XPE
znUemd0Ryy2tNOG#O9{3UdP`Y-24|zeDH(2RSUqS|2B0=HpOUfI&;@2<YA?<EbD`mm
z=G=oWZJ1i>IrC<${>@`qAqFA3SR;2JmYs{eIX2Ra*v8lbx1mmqti71B_F{`%aRfx)
zSK#?^%_n~k7yn-X=f8#k=U^#2Ifscsd<-3yI~s`$F~}2&aSCfxQAGGynlA`KYaN~=
z!^5aMmxtUcj*UUu!}DR@Q&3?f?v&kAg(Bkh$|QEp{|6k)DFCvL1RVMQhy=2cNO%H6
z9a+d+0?Psd*ZdlCA0WU(K-Mb?Mm=n~dl&zoko6q|A0WVGBX>+po;Wu#`Fh-}=oO7e
zHlNkfjy!=h{?FJ0K1;w|)}kD=7#q>&^aAp>s)h0Yu=QU7fOvU`vVi+__hVPTxb1Y=
zbw;$Dsha(wxtCBblwB7^%f)K22TTlG{r1=!THW*QOF%JI!vl4rW7~H|-XD25Q5m0<
z;IC&A$z9dxFy1?>!>`~yUhlax_TJ%phu18>Ir+cN{`%REJ5R5?+UUp}6u~##Gq^JG
zhnBAO-klGRNxgd>UKM)|tW11t>8hGTqPYh=04wLJT_f0Oc-`#zx7JEvhZNZH$h-rF
zUDIft@uymy+g77=R$EO=Sw<9VNJj*ftRs;sSv$)u%DQWqu^<~%0VrEH+C_RL5lObx
z6OxEXm0fCjl9FzOVm93>LJ%iH?^6&x5G?Ar*>M_jFz~bC1tJYLYRR}k;5Eb-aP>Ex
zrH&cwVbjGn62u^6q?>67wq~_vjZ3hZmQ7#;wGATOocIyul@>&&2@C>#JJSmKY>1cU
zv%zd{V^#sRA^MtiRSzaj!4ujUS0Lot2}&^1+NRUppqFj@-+<ZE#$Vbte8VWt6%?Z-
zZQB|;tdY?y+lyW5xY^Du2wgCH!AJ^G-v-x9$pp|)G6OWi5uwse?MDK&%)p7M{Wb5v
z0kdnSr%6#U;8=mvr<R*{;Mm|xY->_f3^<Uq2ha)p0hQXk1IGoN!6rq;fa8Xz4Xfqm
z9XK9nGt#7}7;wBS4bazq1<dSJYc}sCyL!k#JAeB%@}t^)izcgQSF=|YgVo@;P4fpJ
z)<Bo6#3Xml>`}SRJF8;@@J@T16cq#Neid)tfr`G(O;^LHc9l&3e@|iIsDDw9?PlN~
zdCcyT`JdgGJtfD?;Y}X_ip$>OQI$ILvWhkDC0EH^@|3)65N5s2uK6(Zpswz<n-Or<
zgqwY-n7WEf9k|juLDqw_B%BgK+l4f4$h%@=^WYcUnAtsIGN~u`F-Xih*eD^DoK6Q(
z-<s!QFU7u$TD_8TF&t}X_`|VAM&R2UTEn6Cg0^tX5d&e%=Hxj1Njgvu(ncQ}Mu+eB
z<z32q5SNTF98+8~m|&>Tf8-c9oX`hjXY0uvM9*tzizAKazE0ABH%;=3XE!$3ZhEJd
zy3Ucb<d~x1HS!@L0&*=2ndT!)uVf%ij*Thm0es06B=;|obT(CQ2KBc^civJpC7LkN
ziDmk#OwY>nHOPZsD9V=fg6gSCUX?BN92*GXL&*p(EPQ@)b^~KpwxS_Ns-mhQ>(eAr
z{vuH@WwT-g5=R~JPRSiuotS-BA*n`Dd5p77^qPti&HakH72;aro0I8zMTbR68SmzQ
z32vZALw0{s)-TLm29r}!mYv9eC<OTy<W~Sn251Hx>C=jP4)tE}-9t(@8Mq+{wkI)a
ziI0uA+(^`EmOO)W#G~@1INcilKV>{kHGB@MpgJw<xf}CfSCFuk%v{TI*NK|XKg1fR
z5MazpW^Tam1>~MQmoGrN6PL+k(^)Vsnu(K1_>#EU<32^5|5a@I-w^zF1iyv=ojUxl
zBlsT(egna80sx;Wx2Pl{L3{=EQKg_bHt{88OKV<*Y^{G3w8Oz7H@Cz<WlOz4qzL~%
zv2lkot+Og}jl7fK10L?j=P$*{*inC_rAT{oqRt)!NhiDkx++)`W0b=OfeFztA@)v`
z0ouFQi8Uc^KOk<OB+5DMgjkvum2)j9=O)Sm8h>ov9lU$^&f)v?w~vaJ9`H}~41TBU
z{jP`3a`$e@5M43eK2*i@kzvU^4A~;!+p{_<mhF-SoSE*b!&`L(tB%g9BT{h;N{+!Q
zWM4RXB}Xr??%M9y>Ng0C!XtfDWUvxGB!v&5cQYJs;++GP&I3~C0nvP5<uHJ1BwmRe
zkRk^vk)u-N=tnff2S0jEik$pi?H?F_&nUir;rA?J_>Gmbk1df;DVNm-K}s<Y7Y7eX
zuERAg5dPHFS<}J&iJo#tYaM{0$E{QB92R#RkvvChMkJZ2=pa1kQRG0)jAaWc?|T&4
zSF>W-Ms-4@XY^5Mv}VV$gYfq}itMR5vFxI{df%J**E2OYl%9B~K)B{bx{rc1n8?VZ
z$VknP<p34wu7pP)g-2^aEQcs~!SMK_@OZ5g%V7!<TLQz60>iZkl%GVY&aPS)a$*!1
zZ6o(aU=&hl^r7|R(2-g<GJ2k8Jn2Qo00pxd+6RfJqIuuSA<4XNy)!0u?-qM@i=E>u
zudX}76-T$^=*GnCUAK!B|A6El!07lfY4F%b<G*v{dq<vXHBQ^gF_<!c3<KL6t9Gwl
z{N<ne;HRLH-}V<a&#erws}2|W_DaXF2)0WOSRx)=1W(O+yRD|9tR9#!a2ETvNxp6W
zXkB`!V4q@zuAF)t-%*L5m*VHii2PNDzZ&YTy1W>lpSd&h%-S(%``kv^-M84=hb!)W
z$=zSJZL8TSt6OyUi=KYbvJFG`z7?zDlGaX5O~oCX1NR2l!2EwjkV5dw2%1jmZ())6
zBQ$e!vi>Z|zUJRS>NJ9N1Sp~ve=n+2%5NQx1NML6UzmcO{SE~KiSMZPj#Ya1OTGK6
zyZ1fu59(~|ZeL9Yci5_s8Qg)GfpU0jM#M~*IBZ7DLisya_uQGiKOy-BYE~rKs9<=N
zy=SV~vE+bK&54+c3U%H0+zZ#-Sn^Pw?wS`dAGLjOZQ}iz8a@`5u*vo`h}bkuZ6B%*
zk5zZ=ed4`N>wN2W&$~Bn-FWw_x4v4_Apyqb@V;BRRjPH6qJe_Ef=jn9)r_QQQn_YQ
zv{3E<W*F40q-di8J8O1=I_lo^)gnlgnv>9A1%>bC?&R)Ylzj1;o6tN|r02a?@4dP<
zF2N2XV}j9}?C*weg`fGciZazW!SMmPBbj6iX~=RnH-6Q}2|OD8;6Yj>39$?mlza>F
zA!8VPA8D#M>MwgnQkNlK1=+bgs;@jcDT$Mbq{GWYn_9t1Hd5rX#ll?jxgYzH!&3?J
zk0?QY65Oa$l;8aE=$e$3v0U5PZa53YY);_OE2)G*?ARbgh5-#!4G{wJMUKy;(j1Ro
z1KFVdK8Z)gfd3<;b*i)x9Cao?ox<lSX}u)Pmjv+mcd@P+oLul5G2+34qa3D+N52Bu
zHL|`wc0BZy^^XCLwm<GM99Dj*aD;yXRbUTL!v6tK)6z5za-1IdbE^AKsQy2rET1zv
zTJw|w@R^08Pt)J0dcIHfey(9?%@Yd1XC{i?Q)7&D*Y}ye&ox?|9=1jZQdWGQ87R8%
zPmP}2Z<USFoBC(^V>Im*yGEZ;h}2%uP#W{+nv*m=T%!;|a*4)VBZOzKYmU>jsmj1_
zTlPxKzGqr2K0B>pHMDQ_>}TL-qJ2NCUDs0vH>B0mUDaUp5#z(*cm1t^o|x}3j^jS+
Pw|yPQW7^;Dq5=K`{ubb@

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/cpu_attn.py b/v1/attention/backends/cpu_attn.py
new file mode 100644
index 0000000..f125435
--- /dev/null
+++ b/v1/attention/backends/cpu_attn.py
@@ -0,0 +1,496 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionLayer,
+    AttentionType,
+    is_quantized_kv_cache,
+)
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+_CPU_ARCH_PREFER_MIXED_BATCH = (CpuArchEnum.X86,)
+
+
+class CPUAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
+
+    @classmethod
+    def get_supported_dtypes(cls) -> list[torch.dtype]:
+        return [torch.float16, torch.bfloat16, torch.float32]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 96, 128, 160, 192, 224, 256]
+
+    @staticmethod
+    def get_name() -> str:
+        return "CPU_ATTN"
+
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """CPU attention supports decoder and encoder-only attention."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (
+            AttentionType.DECODER,
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+        )
+
+    @staticmethod
+    def get_impl_cls() -> type["CPUAttentionBackendImpl"]:
+        return CPUAttentionBackendImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["CPUAttentionMetadataBuilder"]:
+        return CPUAttentionMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        return 2, num_blocks, num_kv_heads, block_size, head_size
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+
+@dataclass
+class CPUAttentionMetadata:
+    isa: str
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+    scheduler_metadata: torch.Tensor | None
+    causal: bool = True
+
+    # can be removed after deprecate sdpa
+    use_sdpa_prefill: bool = False
+    num_decode_tokens: int = 0
+    sdpa_attn_masks: list[torch.Tensor | None] | None = None
+    sdpa_start_loc: torch.Tensor | None = None
+
+
+class CPUAttentionMetadataBuilder(AttentionMetadataBuilder[CPUAttentionMetadata]):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ) -> None:
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.use_sdpa_prefill = False
+        reorder_batch_threshold = None
+        if current_platform.get_cpu_architecture() not in _CPU_ARCH_PREFER_MIXED_BATCH:
+            # in this case, decode seqs are reordered to the front of prefill seqs
+            # to split decode and prefill. Then use SDPA for prefill and
+            # cpu_attention_with_kv_cache for decode
+            reorder_batch_threshold = 1
+            self.use_sdpa_prefill = True
+
+        self._init_reorder_batch_threshold(reorder_batch_threshold, False)
+
+        self.kv_cache_spec = kv_cache_spec
+        self.vllm_config = vllm_config
+
+        parallel_config = vllm_config.parallel_config
+        self.num_kv_heads = vllm_config.model_config.get_num_kv_heads(parallel_config)
+        self.num_heads = vllm_config.model_config.get_num_attention_heads(
+            parallel_config
+        )
+        self.head_dim = kv_cache_spec.head_size
+        self.dtype = vllm_config.model_config.dtype
+        self.window_size = getattr(kv_cache_spec, "sliding_window", -1)
+        if self.window_size is None:
+            self.window_size = -1
+        self.block_size = vllm_config.cache_config.block_size
+        self.isa = _get_attn_isa(self.dtype, self.block_size)
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> CPUAttentionMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+        causal = common_attn_metadata.causal
+
+        sdpa_start_loc = query_start_loc
+        num_decode_tokens = 0
+        if self.use_sdpa_prefill and causal:
+            # Decoder, need reorder and truncate
+            assert self.reorder_batch_threshold
+            (num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens) = (
+                split_decodes_and_prefills(
+                    common_attn_metadata,
+                    decode_threshold=self.reorder_batch_threshold,
+                    require_uniform=True,
+                )
+            )
+            num_reqs = num_decodes
+            sdpa_start_loc = sdpa_start_loc[num_decodes:] - num_decode_tokens
+            seq_lens = seq_lens[:num_decodes]
+            query_start_loc = query_start_loc[: num_decodes + 1]
+            block_table_tensor = block_table_tensor[:num_decodes]
+
+        sheduler_metadata = None
+        if causal:
+            # for decode batch, use the custom kernel
+            sheduler_metadata = ops.cpu_attn_get_scheduler_metadata(
+                num_reqs=num_reqs,
+                num_heads=self.num_heads,
+                num_kv_heads=self.num_kv_heads,
+                head_dim=self.head_dim,
+                seq_lens=seq_lens,
+                dtype=self.dtype,
+                query_start_loc=query_start_loc,
+                causal=causal,
+                sliding_window_size=self.window_size,
+                isa=self.isa,
+                enable_kv_split=True,
+            )
+
+        attn_metadata = CPUAttentionMetadata(
+            isa=self.isa,
+            num_actual_tokens=num_actual_tokens,
+            max_query_len=max_query_len,
+            query_start_loc=query_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            scheduler_metadata=sheduler_metadata,
+            causal=causal,
+            use_sdpa_prefill=self.use_sdpa_prefill,
+            num_decode_tokens=num_decode_tokens,
+            sdpa_start_loc=sdpa_start_loc,
+        )
+
+        return attn_metadata
+
+
+class CPUAttentionBackendImpl(AttentionImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: str = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        if logits_soft_cap is not None and attn_type in (
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+        ):
+            logger.warning_once(
+                "CPU_ATTN does not support logits softcap for"
+                " ENCODER and ENCODER_ONLY, outputs may be slightly off"
+            )
+        if logits_soft_cap is None:
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        elif attn_type == AttentionType.ENCODER_ONLY:
+            self.sliding_window = (sliding_window - 1, sliding_window - 1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        self.kv_cache_dtype = kv_cache_dtype
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        if is_quantized_kv_cache(kv_cache_dtype):
+            raise NotImplementedError("FP8 KV cache is unsupported in CPU_ATTN")
+        self.attn_type = attn_type
+
+        self.sinks = sinks
+        if self.sinks is not None:
+            assert self.sinks.shape[0] == num_heads, (
+                "Sinks must have the same number of heads as the number of "
+                "heads in the layer"
+            )
+
+    def forward(
+        self,
+        layer: AttentionLayer,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: CPUAttentionMetadata | None,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass for CPU attention backend.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, num_kv_heads, block_size, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported"
+                " for CPUAttentionBackendImpl"
+            )
+
+        # For warming-up
+        if attn_metadata is None:
+            return output
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        # Handle encoder attention differently - no KV cache needed
+        if self.attn_type in (AttentionType.ENCODER_ONLY, AttentionType.ENCODER):
+            # For encoder attention,
+            return self._run_sdpa_forward(
+                query[:num_actual_tokens],
+                key[:num_actual_tokens],
+                value[:num_actual_tokens],
+                output[:num_actual_tokens],
+                attn_metadata,
+                self.attn_type,
+            )
+
+        # For decoder and cross-attention, use KV cache, size are
+        # [num_blocks, num_kv_heads, block_size, head_size]
+        key_cache, value_cache = kv_cache.unbind(0)
+
+        # key and value may be None in the case of cross attention. They are
+        # calculated once based on the output from the encoder and then cached
+        # in KV cache.
+        if (
+            self.kv_sharing_target_layer_name is None
+            and key is not None
+            and value is not None
+        ):
+            ops.cpu_attn_reshape_and_cache(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                attn_metadata.isa,
+            )
+
+        if attn_metadata.use_sdpa_prefill:
+            assert self.sinks is None, "Attention sink is unsupported in SDPA prefill"
+            num_decode_tokens = attn_metadata.num_decode_tokens
+            self._run_sdpa_forward(
+                query[num_decode_tokens:num_actual_tokens],
+                key[num_decode_tokens:num_actual_tokens],
+                value[num_decode_tokens:num_actual_tokens],
+                output[num_decode_tokens:num_actual_tokens],
+                attn_metadata,
+                self.attn_type,
+            )
+            num_actual_tokens = num_decode_tokens
+
+        if num_actual_tokens > 0:
+            ops.cpu_attention_with_kv_cache(
+                query=query[:num_actual_tokens],
+                key_cache=key_cache,
+                value_cache=value_cache,
+                output=output[:num_actual_tokens],  # type: ignore
+                query_start_loc=attn_metadata.query_start_loc,
+                seq_lens=attn_metadata.seq_lens,
+                scale=self.scale,
+                causal=attn_metadata.causal,
+                alibi_slopes=self.alibi_slopes,  # type: ignore
+                sliding_window=self.sliding_window,
+                block_table=attn_metadata.block_table,
+                softcap=self.logits_soft_cap,
+                scheduler_metadata=attn_metadata.scheduler_metadata,
+                s_aux=self.sinks,
+            )
+
+        return output
+
+    def _run_sdpa_forward(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        output: torch.Tensor,
+        attn_metadata: CPUAttentionMetadata,
+        attn_type: str,
+    ) -> torch.Tensor:
+        attn_masks = attn_metadata.sdpa_attn_masks
+        if attn_masks is None:
+            if self.alibi_slopes is not None:
+                attn_masks = _make_alibi_bias(
+                    self.alibi_slopes,
+                    query.dtype,
+                    attn_metadata.sdpa_start_loc,
+                )
+            elif self.sliding_window[0] != -1 or self.sliding_window[1] != -1:
+                assert attn_metadata.seq_lens is not None
+                attn_masks = _make_sliding_window_bias(
+                    attn_metadata.sdpa_start_loc,
+                    self.sliding_window[0],
+                    self.sliding_window[1],
+                    query.dtype,
+                )
+            else:
+                attn_masks = [None] * (attn_metadata.sdpa_start_loc.size(0) - 1)  # type: ignore
+            attn_metadata.sdpa_attn_masks = attn_masks
+
+        query = query.movedim(0, query.dim() - 2)
+        key = key.movedim(0, key.dim() - 2)
+        value = value.movedim(0, value.dim() - 2)
+
+        if self.num_kv_heads != self.num_heads:
+            key = key.repeat_interleave(self.num_queries_per_kv, dim=-3)
+            value = value.repeat_interleave(self.num_queries_per_kv, dim=-3)
+
+        causal_attn = attn_type == AttentionType.DECODER
+
+        sdpa_start_loc = attn_metadata.sdpa_start_loc.numpy()  # type: ignore
+        for i in range(len(attn_masks)):
+            mask = attn_masks[i]
+            start_q = sdpa_start_loc[i]
+            end_q = sdpa_start_loc[i + 1]
+            sub_out = (
+                torch.nn.functional.scaled_dot_product_attention(
+                    query[None, :, start_q:end_q, :],
+                    key[None, :, start_q:end_q, :],
+                    value[None, :, start_q:end_q, :],
+                    attn_mask=mask,
+                    dropout_p=0.0,
+                    is_causal=causal_attn and mask is None,
+                    scale=self.scale,
+                )
+                .squeeze(0)
+                .movedim(query.dim() - 2, 0)
+            )
+            output[start_q:end_q, :, :] = sub_out
+        return output
+
+
+def _make_alibi_bias(
+    alibi_slopes: torch.Tensor,
+    dtype: torch.dtype,
+    sdpa_start_loc: torch.Tensor,
+) -> list[torch.Tensor]:
+    attn_biases: list[torch.Tensor] = []
+    seq_num = sdpa_start_loc.size(0) - 1
+    sdpa_start_loc = sdpa_start_loc.numpy()  # type: ignore
+    for i in range(seq_num):
+        seq_len = sdpa_start_loc[i + 1] - sdpa_start_loc[i]
+        bias = torch.arange(seq_len, dtype=dtype)  # type: ignore
+        # NOTE(zhuohan): HF uses
+        #     `bias = bias[None, :].repeat(seq_len, 1)`
+        # here. We find that both biases give the same results, but
+        # the bias below more accurately follows the original ALiBi
+        # paper.
+        bias = bias[None, :] - bias[:, None]
+
+        num_heads = alibi_slopes.shape[0]
+        bias = bias[None, :].repeat((num_heads, 1, 1))
+        bias.mul_(alibi_slopes[:, None, None]).unsqueeze_(0)
+        inf_mask = (
+            torch.empty((1, seq_len, seq_len), dtype=bias.dtype)  # type: ignore
+            .fill_(-torch.inf)
+            .triu_(diagonal=1)
+        )
+        attn_biases.append((bias + inf_mask).to(dtype))
+
+    return attn_biases
+
+
+def _make_sliding_window_bias(
+    sdpa_start_loc: torch.Tensor,
+    left_window_size: int,
+    right_window_size: int,
+    dtype: torch.dtype,
+) -> list[torch.Tensor]:
+    attn_biases: list[torch.Tensor] = []
+    seq_num = sdpa_start_loc.size(0) - 1
+    sdpa_start_loc = sdpa_start_loc.numpy()  # type: ignore
+    for i in range(seq_num):
+        seq_len = sdpa_start_loc[i + 1] - sdpa_start_loc[i]
+        mask = torch.full(  # type: ignore
+            (1, seq_len, seq_len),  # type: ignore
+            fill_value=1,
+            dtype=dtype,
+        )
+
+        if right_window_size != -1:
+            mask = torch.tril(mask, diagonal=right_window_size)
+        if left_window_size != -1:
+            mask = torch.triu(mask, diagonal=-left_window_size)
+        mask = torch.log(mask)
+        attn_biases.append(mask)
+
+    return attn_biases
+
+
+def _get_attn_isa(dtype: torch.dtype, block_size: int) -> str:
+    supports_amx = torch._C._cpu._is_amx_tile_supported()
+    if supports_amx and dtype in (torch.bfloat16,) and block_size % 32 == 0:
+        return "amx"
+    elif block_size % 32 == 0:
+        return "vec"
+    else:
+        return "vec16"
diff --git a/v1/attention/backends/flash_attn.py b/v1/attention/backends/flash_attn.py
new file mode 100644
index 0000000..969a6ac
--- /dev/null
+++ b/v1/attention/backends/flash_attn.py
@@ -0,0 +1,1215 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with FlashAttention."""
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import numpy as np
+import torch
+
+from vllm import envs
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+    is_quantized_kv_cache,
+)
+from vllm.attention.layer import Attention
+from vllm.attention.ops.common import cp_lse_ag_out_rs
+from ixformer.contrib.vllm_flash_attn import merge_attn_states
+from vllm.attention.utils.fa_utils import (
+    flash_attn_supports_fp8,
+    get_flash_attn_version,
+    is_flash_attn_varlen_func_available,
+)
+
+if is_flash_attn_varlen_func_available():
+    from vllm.attention.utils.fa_utils import (
+        flash_attn_supports_sinks,
+        flash_attn_varlen_func,
+        flash_attn_with_kvcache,
+        reshape_and_cache_flash,
+        flash_attn_varlen_int8_func
+    )
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.config.cache import CacheDType
+from vllm.distributed.parallel_state import get_dcp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms.interface import DeviceCapability
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    get_dcp_local_seq_lens,
+    get_kv_cache_layout,
+    split_decodes_and_prefills
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm import _custom_ops as ops
+import vllm.envs as envs
+import ixformer.inference.functions as ixf_ops
+
+logger = init_logger(__name__)
+
+
+class FlashAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    # NOTE(tdoublep): while in principle, FA supports
+    # MultipleOf(16), these are the block sizes that do not
+    # suffer from the NaN propagation problem described here:
+    # https://github.com/Dao-AILab/flash-attention/issues/1974
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [16, 32, 64]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASH_ATTN"
+
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """FlashAttention supports all attention types."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (
+            AttentionType.DECODER,
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+            AttentionType.ENCODER_DECODER,
+        )
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashAttentionImpl"]:
+        return FlashAttentionImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashAttentionMetadataBuilder"]:
+        return FlashAttentionMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (2, num_blocks, num_kv_heads, block_size, head_size)
+
+    @staticmethod
+    def get_kv_cache_stride_order() -> tuple[int, ...]:
+        # `stride_order` indicates the permutation that gets
+        # us from `get_kv_cache_shape` to the actual memory layout we want.
+        cache_layout = get_kv_cache_layout()
+        if cache_layout == "NHD":
+            stride_order = (0, 1, 2, 3, 4)
+        elif cache_layout == "HND":
+            stride_order = (0, 1, 3, 2, 4)
+        else:
+            raise ValueError(f"Unknown cache layout format {cache_layout}.")
+        return stride_order
+
+    @staticmethod
+    def get_fp8_dtype_for_flashattn(kv_cache_dtype: str) -> torch.dtype:
+        if kv_cache_dtype in ("fp8", "fp8_e4m3"):
+            return torch.float8_e4m3fn
+        else:
+            raise ValueError(f"Unrecognized FP8 dtype: {kv_cache_dtype}")
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 96, 128, 160, 192, 224, 256]
+
+    @classmethod
+    def supports_kv_cache_dtype(cls, kv_cache_dtype: CacheDType | None) -> bool:
+        if kv_cache_dtype is None:
+            return True
+        if kv_cache_dtype.startswith("fp8"):
+            return flash_attn_supports_fp8()
+        return kv_cache_dtype in ["auto"]
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        if not is_flash_attn_varlen_func_available():
+            return False
+        return flash_attn_supports_sinks()
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability >= DeviceCapability(8, 0)
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if has_sink and device_capability < DeviceCapability(9, 0):
+            return "sink not supported on compute capability < 9.0"
+        return None
+    
+@dataclass
+class FlashAttentionPrefillMetadata:
+    """ Prefill Specific Metadata """
+    block_table: torch.Tensor
+    query_start_loc: torch.Tensor
+    key_start_loc: torch.Tensor
+    max_query_len: int
+@dataclass
+class FlashAttentionDecodeMetadata:
+    block_table: torch.Tensor
+    seq_lens: torch.Tensor
+    max_decode_seq_len: int
+    use_graph: bool
+
+@dataclass
+class FlashAttentionMetadata:
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    key_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+    
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+
+    # For cascade attention.
+    use_cascade: bool
+    common_prefix_len: int
+    cu_prefix_query_lens: torch.Tensor | None
+    prefix_kv_lens: torch.Tensor | None
+    suffix_kv_lens: torch.Tensor | None
+    cu_prefix_kv_lens: torch.Tensor | None
+    cu_suffix_kv_lens: torch.Tensor | None
+
+    # For GQA DCP
+    max_dcp_context_kv_len: int | None = None
+    dcp_context_kv_lens: torch.Tensor | None = None
+
+    # Optional aot scheduling
+    scheduler_metadata: torch.Tensor | None = None
+    prefix_scheduler_metadata: torch.Tensor | None = None
+    max_num_splits: int = 0
+    
+    prefill: FlashAttentionPrefillMetadata | None = None
+    decode: FlashAttentionDecodeMetadata | None = None
+
+    causal: bool = True
+
+
+def _get_sliding_window_configs(
+    vllm_config: VllmConfig,
+) -> set[tuple[int, int] | None]:
+    """Get the set of all sliding window configs used in the model."""
+    sliding_window_configs: set[tuple[int, int] | None] = set()
+    layers = get_layers_from_vllm_config(vllm_config, Attention)
+    for layer in layers.values():
+        assert isinstance(layer.impl, FlashAttentionImpl)
+        sliding_window_configs.add(layer.impl.sliding_window)
+    return sliding_window_configs
+
+
+class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetadata]):
+    # FA3:
+    # Supports full cudagraphs for all cases.
+    #
+    # FA2:
+    # For FA2, a graph is captured with max_query_len=1, (which is what we
+    # capture by default for num_tokens <= max_num_seqs when there is no
+    # spec-decode) then these graphs will not work for mixed prefill-decode
+    # (unlike FA3). This is due to special max_query_len=1 packed-GQA handling
+    # in FA2.
+    # In summary if we are running with spec decodes the graphs would
+    # work for mixed prefill-decode and uniform-decode. But for non-spec decodes
+    # the graphs would not work for mixed prefill-decode; sorta the inverse
+    # of UNIFORM_SINGLE_TOKEN_DECODE.
+    # There's probably a better way to describe this using `AttentionCGSupport`
+    # but for now just set it to `UNIFORM_BATCH` to get use to drop down
+    # to FULL_AND_PIECEWISE.
+    # TODO(luka, lucas): audit FA2 as part of:
+    #  https://github.com/vllm-project/vllm/issues/22945
+    _cudagraph_support = (
+        AttentionCGSupport.ALWAYS
+        if get_flash_attn_version() == 3
+        else AttentionCGSupport.UNIFORM_BATCH
+    )
+    
+    reorder_batch_threshold: ClassVar[int] = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        self.model_config = vllm_config.model_config
+        self.parallel_config = vllm_config.parallel_config
+        self.cache_config = vllm_config.cache_config
+        self.compilation_config = vllm_config.compilation_config
+        self.decode_use_graph = vllm_config.compilation_config.cudagraph_mode.decode_use_graph()
+        self.num_heads_q = self.model_config.get_num_attention_heads(
+            self.parallel_config
+        )
+        self.num_heads_kv = self.model_config.get_num_kv_heads(self.parallel_config)
+        self.kv_cache_dtype = kv_cache_spec.dtype
+        self.headdim = self.model_config.get_head_size()
+        self.block_size = kv_cache_spec.block_size
+
+        self.max_num_splits = 0  # No upper bound on the number of splits.
+        self.aot_schedule = False
+
+        try:
+            from vllm.distributed.parallel_state import get_dcp_group
+
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+
+        self.dcp_kv_cache_interleave_size = (
+            self.parallel_config.dcp_kv_cache_interleave_size
+        )
+
+        self.use_full_cuda_graph = (
+            self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        )
+        self.max_cudagraph_size = self.compilation_config.max_cudagraph_capture_size
+
+        if self.use_full_cuda_graph and self.aot_schedule:
+            self.scheduler_metadata = torch.zeros(
+                vllm_config.scheduler_config.max_num_seqs + 1,
+                dtype=torch.int32,
+                device=self.device,
+            )
+            # When using cuda graph, we need to set the upper bound of the
+            # number of splits so that large enough intermediate buffers are
+            # pre-allocated during capture.
+            self.max_num_splits = envs.VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH
+
+        # Sliding window size to be used with the AOT scheduler will be
+        # populated on first build() call.
+        self.aot_sliding_window: tuple[int, int] | None = None
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> FlashAttentionMetadata:
+        """
+        fast_build disables AOT scheduling, used when there will be few
+        iterations i.e. spec-decode
+        """
+        num_reqs = common_attn_metadata.num_reqs
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        key_start_loc = common_attn_metadata.key_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+        seq_lens_cpu = common_attn_metadata.seq_lens_cpu
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+        causal = common_attn_metadata.causal
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = \
+            split_decodes_and_prefills(common_attn_metadata)
+        assert num_decodes + num_prefills == num_reqs
+        assert num_decode_tokens + num_prefill_tokens == num_actual_tokens
+
+        # the overhead of the aot schedule is not worth it for spec-decode
+        aot_schedule = self.aot_schedule and not fast_build
+
+        if self.aot_sliding_window is None:
+            self.aot_sliding_window = (-1, -1)
+            # For the AOT scheduler we need the sliding window value to be
+            # constant for all layers to. We have to populate this on the first
+            # build() call so the layers are constructed (cannot populate)
+            # in __init__.
+            if aot_schedule:
+                sliding_window_configs = _get_sliding_window_configs(self.vllm_config)
+                if len(sliding_window_configs) == 1:
+                    sliding_window_config = sliding_window_configs.pop()
+                    if sliding_window_config is not None:
+                        self.aot_sliding_window = sliding_window_config
+                elif len(sliding_window_configs) > 1:
+                    self.aot_schedule = False
+                    aot_schedule = False
+
+        max_num_splits = 0  # 0 means use FA3's heuristics, not CG compatible
+        if self.use_full_cuda_graph and num_actual_tokens <= self.max_cudagraph_size:
+            # NOTE(woosuk): Setting num_splits > 1 may increase the memory
+            # usage, because the intermediate buffers of size [num_splits,
+            # num_heads, num_tokens, head_size] are allocated. Therefore,
+            # we only set num_splits when using cuda graphs.
+            max_num_splits = self.max_num_splits
+
+        if vllm_is_batch_invariant():
+            max_num_splits = 1
+
+        def schedule(
+            batch_size, cu_query_lens, max_query_len, seqlens, max_seq_len, causal
+        ):
+            cache_dtype = self.cache_config.cache_dtype
+            if cache_dtype.startswith("fp8"):
+                qkv_dtype = FlashAttentionBackend.get_fp8_dtype_for_flashattn(
+                    cache_dtype
+                )
+            else:
+                qkv_dtype = self.kv_cache_dtype
+            if aot_schedule:
+                return get_scheduler_metadata(
+                    batch_size=batch_size,
+                    max_seqlen_q=max_query_len,
+                    max_seqlen_k=max_seq_len,
+                    num_heads_q=self.num_heads_q * self.dcp_world_size,
+                    num_heads_kv=self.num_heads_kv,
+                    headdim=self.headdim,
+                    cache_seqlens=seqlens,
+                    qkv_dtype=qkv_dtype,
+                    cu_seqlens_q=cu_query_lens,
+                    page_size=self.block_size,
+                    causal=causal,
+                    window_size=self.aot_sliding_window,
+                    num_splits=max_num_splits,
+                )
+            return None
+
+        use_cascade = common_prefix_len > 0
+        max_dcp_context_kv_len = 0
+        dcp_context_kv_lens = None
+
+        cu_prefix_query_lens = None
+        prefix_kv_lens = None
+        suffix_kv_lens = None
+        prefix_scheduler_metadata = None
+        cu_prefix_kv_lens = None
+        cu_suffix_kv_lens = None
+
+        if self.dcp_world_size > 1:
+            query_kv_lens_cpu = (
+                common_attn_metadata.query_start_loc_cpu[1:]
+                - common_attn_metadata.query_start_loc_cpu[:-1]
+            )
+            dcp_context_kv_lens_cpu = seq_lens_cpu - query_kv_lens_cpu
+
+            dcp_context_kv_lens_cpu = get_dcp_local_seq_lens(
+                dcp_context_kv_lens_cpu,
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.dcp_kv_cache_interleave_size,
+            )
+            dcp_context_kv_lens = dcp_context_kv_lens_cpu.to(self.device)
+            max_dcp_context_kv_len = dcp_context_kv_lens.max().item()
+
+            scheduler_metadata = schedule(
+                batch_size=num_reqs,
+                cu_query_lens=query_start_loc,
+                max_query_len=max_query_len,
+                seqlens=dcp_context_kv_lens,
+                max_seq_len=max_dcp_context_kv_len,
+                causal=False,
+            )
+        elif use_cascade:
+            cu_prefix_query_lens = torch.tensor(
+                [0, num_actual_tokens], dtype=torch.int32, device=self.device
+            )
+            prefix_kv_lens = torch.tensor(
+                [common_prefix_len], dtype=torch.int32, device=self.device
+            )
+            cu_prefix_kv_lens = torch.tensor([0, common_prefix_len],
+                                             dtype=torch.int32,
+                                             device=self.device)
+            suffix_kv_lens = (seq_lens_cpu[:num_reqs] - common_prefix_len).to(
+                self.device, non_blocking=True
+            )
+            cu_suffix_kv_lens = torch.tensor([0,] + suffix_kv_lens.tolist(),
+                                             dtype=torch.int32,
+                                             device=self.device).cumsum_(dim=0, dtype=torch.int32)
+            prefix_scheduler_metadata = schedule(
+                batch_size=1,
+                cu_query_lens=cu_prefix_query_lens,
+                max_query_len=num_actual_tokens,
+                seqlens=prefix_kv_lens,
+                max_seq_len=common_prefix_len,
+                causal=False,
+            )
+            scheduler_metadata = schedule(
+                batch_size=num_reqs,
+                cu_query_lens=query_start_loc,
+                max_query_len=max_query_len,
+                seqlens=suffix_kv_lens,
+                max_seq_len=max_seq_len - common_prefix_len,
+                causal=True,
+            )
+        else:
+            scheduler_metadata = schedule(
+                batch_size=num_reqs,
+                cu_query_lens=query_start_loc,
+                max_query_len=max_query_len,
+                seqlens=seq_lens,
+                max_seq_len=max_seq_len,
+                causal=causal,
+            )
+        # For FA3 + full cudagraph
+        max_num_splits = 0 
+        if self.use_full_cuda_graph and scheduler_metadata is not None:
+            n = scheduler_metadata.shape[0]
+            self.scheduler_metadata[:n] = scheduler_metadata
+            # NOTE(woosuk): We should zero out the rest of the scheduler
+            # metadata to guarantee the correctness. Otherwise, some thread
+            # blocks may use the invalid scheduler metadata and overwrite the
+            # output buffer.
+            self.scheduler_metadata[n:] = 0
+            scheduler_metadata = self.scheduler_metadata[:n]
+            
+            if num_actual_tokens <= self.max_cudagraph_size:
+            # NOTE(woosuk): Setting num_splits > 1 may increase the memory
+            # usage, because the intermediate buffers of size [num_splits,
+            # num_heads, num_tokens, head_size] are allocated. Therefore,
+            # we only set num_splits when using cuda graphs.
+                max_num_splits = self.max_num_splits
+            
+        prefill_metadata = None
+        if num_prefills > 0:
+            reqs_start = num_decodes  # prefill_start
+
+            prefill_query_start_loc = query_start_loc[
+                reqs_start:] - query_start_loc[reqs_start]
+            prefill_key_start_loc = key_start_loc[
+                reqs_start:] - key_start_loc[reqs_start]
+            prefill_metadata = FlashAttentionPrefillMetadata(
+                    block_table=block_table_tensor[reqs_start:, ...],
+                    query_start_loc=prefill_query_start_loc,
+                    key_start_loc=prefill_key_start_loc,
+                    max_query_len=max_query_len,
+                )
+        decode_metadata = None
+        if num_decodes > 0:
+            reqs_start = num_decodes  # prefill_start
+            decode_metadata = FlashAttentionDecodeMetadata(
+                block_table=block_table_tensor[:reqs_start, ...],
+                seq_lens=seq_lens[:reqs_start],
+                max_decode_seq_len=torch.max(seq_lens_cpu[:reqs_start]).item(),
+                use_graph=num_prefills==0 and self.decode_use_graph
+            )
+               
+
+        attn_metadata = FlashAttentionMetadata(
+            num_actual_tokens=num_actual_tokens,
+            max_query_len=max_query_len,
+            query_start_loc=query_start_loc,
+            key_start_loc=key_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            max_dcp_context_kv_len=max_dcp_context_kv_len,
+            dcp_context_kv_lens=dcp_context_kv_lens,
+            use_cascade=use_cascade,
+            common_prefix_len=common_prefix_len,
+            scheduler_metadata=scheduler_metadata,
+            cu_prefix_query_lens=cu_prefix_query_lens,
+            prefix_kv_lens=prefix_kv_lens,
+            suffix_kv_lens=suffix_kv_lens,
+            cu_prefix_kv_lens=cu_prefix_kv_lens,
+            cu_suffix_kv_lens=cu_suffix_kv_lens,
+            prefix_scheduler_metadata=prefix_scheduler_metadata,
+            max_num_splits=max_num_splits,
+            causal=causal,
+            prefill = prefill_metadata,
+            decode = decode_metadata,
+        )
+        return attn_metadata
+
+    def use_cascade_attention(self, *args, **kwargs) -> bool:
+        return use_cascade_attention(*args, **kwargs)
+
+
+class FlashAttentionImpl(AttentionImpl):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        elif attn_type == AttentionType.ENCODER_ONLY:
+            self.sliding_window = (sliding_window - 1, sliding_window - 1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        self.kv_cache_dtype = kv_cache_dtype
+        if logits_soft_cap is None:
+            # In flash-attn, setting logits_soft_cap as 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        self.attn_type = attn_type
+        self.vllm_flash_attn_version = get_flash_attn_version()
+        # Cache the batch invariant result for use in forward passes
+        self.batch_invariant_enabled = vllm_is_batch_invariant()
+
+        if is_quantized_kv_cache(self.kv_cache_dtype) and not flash_attn_supports_fp8():
+            raise NotImplementedError(
+                "FlashAttention does not support fp8 kv-cache on this device."
+            )
+
+        self.sinks = sinks
+        if self.sinks is not None:
+            assert flash_attn_supports_sinks(), (
+                "Sinks are only supported in FlashAttention 3"
+            )
+            assert self.sinks.shape[0] == num_heads, (
+                "Sinks must have the same number of heads as the number of "
+                "heads in the layer"
+            )
+
+    def supports_quant_query_input(self) -> bool:
+        return True
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: FlashAttentionMetadata,
+        output: torch.Tensor | None = None,
+        sqrt_alibi: bool = False,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with FlashAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        NOTE: FP8 quantization, flash-attn expect the size of
+              {q,k,v}_descale to be (num_sequences, num_kv_heads).
+              We use torch's .expand() to avoid duplicating values
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for FlashAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.view(-1, self.num_heads * self.head_size)
+        
+        softmax_scale: float = self.scale
+        window_size = self.sliding_window
+        alibi_slopes: torch.Tensor = self.alibi_slopes
+        logits_soft_cap: float = self.logits_soft_cap
+
+        attn_type = self.attn_type
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
+        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
+        # in this method. For example, `view` and `slice` (or `[:n]`) operations
+        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        # Handle encoder attention differently - no KV cache needed
+        if attn_type in (AttentionType.ENCODER_ONLY, AttentionType.ENCODER):
+            # For encoder attention,
+            # we use direct Q, K, V tensors without caching
+            return self._forward_encoder_attention(
+                query[:num_actual_tokens],
+                key[:num_actual_tokens],
+                value[:num_actual_tokens],
+                output[:num_actual_tokens],
+                attn_metadata,
+                layer,
+            ).view(-1, self.num_heads * self.head_size)
+
+        # For decoder and cross-attention, use KV cache as before
+        key_cache, value_cache = kv_cache.unbind(0)
+        has_decode = attn_metadata.num_decodes > 0
+        has_prefill = attn_metadata.num_prefills > 0
+        decode_only = has_decode and not has_prefill
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        
+        decode_q = query[:num_decode_tokens]
+        prefill_q = query[num_decode_tokens:]
+        prefill_output = output[num_decode_tokens:]
+        decode_output = output[:num_decode_tokens]
+
+        if envs.VLLM_ATTN_OPT_LEVEL:
+            '''
+                origin key cache
+                    num_blocks, num_kv_heads, block_size, head_size  f16
+                reformat key cache
+                    key_cache_i8 : num_blocks, num_kv_heads, block_size, head_size  int8
+                    key_scale_cache : num_blocks, num_kv_heads, block_size  fp32
+            '''
+            num_blocks, num_kv_heads, block_size, head_size = key_cache.shape
+            i8_key_cache, key_scale_cache = key_cache.view(torch.int8).reshape(2, num_blocks, num_kv_heads, block_size, head_size).unbind(0)
+            key_scale_cache = key_scale_cache.view(torch.float32).reshape(-1, num_kv_heads, block_size)[:num_blocks]
+
+            if decode_only:
+                i8_q, q_scale = ixf_ops.scaled_int8_quant_for_attn(
+                                query, 2, transpose_scale=False
+                            )
+                i8_k, k_scale = ixf_ops.scaled_int8_quant_for_attn(
+                                    key, 2, transpose_scale=False
+                                )
+            else:
+                i8_q, q_scale = ixf_ops.scaled_int8_quant_for_attn(
+                                query, 2, transpose_scale=True
+                            )
+                i8_k, k_scale = ixf_ops.scaled_int8_quant_for_attn(
+                                    key, 2, transpose_scale=True
+                                )
+
+        # key and value may be None in the case of cross attention. They are
+        # calculated once based on the output from the encoder and then cached
+        # in KV cache.
+        if (
+            self.kv_sharing_target_layer_name is None
+            and key is not None
+            and value is not None
+        ):
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping is
+            # not padded. However, we don't need to do key[:num_actual_tokens]
+            # and value[:num_actual_tokens] because the reshape_and_cache_flash
+            # op uses the slot_mapping's shape to determine the number of
+            # actual tokens.
+            if envs.VLLM_ATTN_OPT_LEVEL:
+                if has_prefill:
+                    ops.reshape_and_cache_flash_mix(
+                        i8_k,
+                        value,
+                        k_scale.t().contiguous(),
+                        i8_key_cache,
+                        value_cache,
+                        key_scale_cache,
+                        attn_metadata.slot_mapping,
+                        self.kv_cache_dtype,
+                    )
+            else:
+                ops.reshape_and_cache_flash(
+                    key,
+                    value,
+                    key_cache,
+                    value_cache,
+                    attn_metadata.slot_mapping,
+                    self.kv_cache_dtype,
+                    layer._k_scale,
+                    layer._v_scale,
+                )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            # queries are quantized in the attention layer
+            dtype = FlashAttentionBackend.get_fp8_dtype_for_flashattn(
+                self.kv_cache_dtype
+            )
+            key_cache = key_cache.view(dtype)
+            value_cache = value_cache.view(dtype)
+
+        if not attn_metadata.use_cascade:
+            if self.dcp_world_size > 1:
+                self._forward_with_dcp(
+                    query[:num_actual_tokens],
+                    key[:num_actual_tokens],
+                    value[:num_actual_tokens],
+                    key_cache,
+                    value_cache,
+                    output[:num_actual_tokens],
+                    attn_metadata,
+                )
+                return output.view(-1, self.num_heads * self.head_size)
+            else:
+                if has_prefill:
+                    if envs.VLLM_ATTN_OPT_LEVEL:
+                        flash_attn_varlen_int8_func(
+                            q=i8_q[num_decode_tokens:],
+                            k=i8_key_cache,
+                            v=value_cache,
+                            q_scale=q_scale[:, num_decode_tokens:],
+                            k_scale=key_scale_cache,
+                            v_scale=None,
+                            cu_seqlens_q=attn_metadata.prefill.query_start_loc,
+                            cu_seqlens_k=attn_metadata.prefill.key_start_loc,
+                            max_seqlen_q=attn_metadata.prefill.max_query_len,
+                            max_seqlen_k=attn_metadata.max_query_len,
+                            softmax_scale=softmax_scale,
+                            causal=True,
+                            window_size=window_size,
+                            alibi_slopes=alibi_slopes,
+                            softcap=logits_soft_cap,
+                            sqrt_alibi=sqrt_alibi,
+                            out=prefill_output,
+                            block_table=attn_metadata.prefill.block_table,
+                            output_dtype=prefill_q.dtype,
+                        )
+                    else:
+                        flash_attn_varlen_func(
+                            q=prefill_q,
+                            k=key_cache,
+                            v=value_cache,
+                            cu_seqlens_q=attn_metadata.prefill.query_start_loc,
+                            cu_seqlens_k=attn_metadata.prefill.key_start_loc,
+                            max_seqlen_q=attn_metadata.prefill.max_query_len,
+                            max_seqlen_k=attn_metadata.max_query_len,
+                            softmax_scale=softmax_scale,
+                            causal=True,
+                            window_size=window_size,
+                            alibi_slopes=alibi_slopes,
+                            softcap=logits_soft_cap,
+                            sqrt_alibi=sqrt_alibi,
+                            sinks=self.sinks,
+                            out=prefill_output,
+                            block_table=attn_metadata.prefill.block_table,
+                        )
+                if has_decode:
+                    if envs.VLLM_ATTN_OPT_LEVEL:
+                        if decode_only:
+                            ixf_ops.vllm_paged_attention_mix(
+                                output=decode_output,
+                                query=i8_q,
+                                key_cache=i8_key_cache,
+                                value_cache=value_cache,
+                                query_scale=q_scale,
+                                key_scale_cache=key_scale_cache,
+                                num_kv_heads=self.num_kv_heads,
+                                scale=softmax_scale,
+                                block_tables=attn_metadata.decode.block_table,
+                                context_lens=attn_metadata.decode.seq_lens,
+                                block_size=key_cache.shape[-2],
+                                softcap=logits_soft_cap,
+                                alibi_slopes=alibi_slopes,
+                                causal=True,
+                                window_left=window_size[0],
+                                window_right=window_size[1],
+                                use_sqrt_alibi = sqrt_alibi,
+                                use_cuda_graph=attn_metadata.decode.use_graph,
+                                max_context_len=attn_metadata.decode.max_decode_seq_len,
+                                save_key=i8_k,
+                                save_value=value,
+                                save_key_scale=k_scale,
+                            )
+                        else:
+                            ixf_ops.vllm_paged_attention_mix(
+                                output=decode_output,
+                                query=i8_q[:num_decode_tokens],
+                                key_cache=i8_key_cache,
+                                value_cache=value_cache,
+                                query_scale=q_scale[:, :num_decode_tokens].t().contiguous(),
+                                key_scale_cache=key_scale_cache,
+                                num_kv_heads=self.num_kv_heads,
+                                scale=softmax_scale,
+                                block_tables=attn_metadata.decode.block_table,
+                                context_lens=attn_metadata.decode.seq_lens,
+                                block_size=key_cache.shape[-2],
+                                softcap=logits_soft_cap,
+                                alibi_slopes=alibi_slopes,
+                                causal=True,
+                                window_left=window_size[0],
+                                window_right=window_size[1],
+                                use_sqrt_alibi = sqrt_alibi,
+                                use_cuda_graph=False,
+                                max_context_len=attn_metadata.decode.max_decode_seq_len,
+                            )
+                    else:
+                        flash_attn_with_kvcache(
+                            q=decode_q.unsqueeze(1),
+                            k_cache=key_cache,
+                            v_cache=value_cache,
+                            block_table=attn_metadata.decode.block_table,
+                            cache_seqlens=attn_metadata.decode.seq_lens,
+                            softmax_scale=softmax_scale,
+                            causal=True,
+                            window_size=window_size,
+                            alibi_slopes=alibi_slopes,
+                            softcap=logits_soft_cap,
+                            use_sqrt_alibi=sqrt_alibi,
+                            sinks=self.sinks,
+                            out=decode_output.unsqueeze(1),
+                            use_cuda_graph=attn_metadata.decode.use_graph,
+                            max_context_len=attn_metadata.decode.max_decode_seq_len
+                        )
+        # Compute attention and update output up to `num_actual_tokens`.
+                return output.view(-1, self.num_heads * self.head_size)
+
+        # Cascade attention (rare case).
+        cascade_attention(
+            output[:num_actual_tokens],
+            query[:num_actual_tokens],
+            key_cache,
+            value_cache,
+            cu_query_lens=attn_metadata.query_start_loc,
+            max_query_len=attn_metadata.max_query_len,
+            cu_prefix_query_lens=attn_metadata.cu_prefix_query_lens,
+            cu_prefix_kv_lens=attn_metadata.cu_prefix_kv_lens,
+            cu_suffix_kv_lens=attn_metadata.cu_suffix_kv_lens,
+            max_kv_len=attn_metadata.max_seq_len,
+            softmax_scale=self.scale,
+            alibi_slopes=self.alibi_slopes,
+            sliding_window=self.sliding_window,
+            logits_soft_cap=self.logits_soft_cap,
+            block_table=attn_metadata.block_table,
+            common_prefix_len=attn_metadata.common_prefix_len,
+            max_num_splits=attn_metadata.max_num_splits,
+            fa_version=self.vllm_flash_attn_version,
+            prefix_scheduler_metadata=attn_metadata.prefix_scheduler_metadata,
+            suffix_scheduler_metadata=attn_metadata.scheduler_metadata,
+            q_descale=layer._q_scale,
+            k_descale=layer._k_scale,
+            v_descale=layer._v_scale,
+            s_aux=self.sinks,
+        )
+        return output.view(-1, self.num_heads * self.head_size)
+
+    def _forward_with_dcp(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        output: torch.Tensor,
+        attn_metadata: FlashAttentionMetadata,
+    ) -> torch.Tensor:
+        cu_seqlens_q = attn_metadata.query_start_loc
+        max_seqlen_q = attn_metadata.max_query_len
+        block_table = attn_metadata.block_table
+        query = query.contiguous()
+        query_across_dcp = get_dcp_group().all_gather(query, dim=1)
+        cu_dcp_kv_klens = attn_metadata.dcp_context_kv_lens.cumsum(dim=0, dtype=torch.int32)
+        new_tensor = torch.tensor([0], 
+                          device=attn_metadata.dcp_context_kv_lens.device, 
+                          dtype=attn_metadata.dcp_context_kv_lens.dtype)
+        cu_seqlens_k = torch.cat([new_tensor, cu_dcp_kv_klens])
+        
+        context_attn_out, context_lse = flash_attn_varlen_func(
+            q=query_across_dcp,
+            k=key_cache,
+            v=value_cache,
+            out=None,
+            cu_seqlens_q=cu_seqlens_q,
+            cu_seqlens_k=cu_seqlens_k,
+            max_seqlen_q=max_seqlen_q,
+            max_seqlen_k=attn_metadata.max_dcp_context_kv_len,
+            softmax_scale=self.scale,
+            causal=False,
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            block_table=block_table,
+            softcap=self.logits_soft_cap,
+            return_softmax_lse=True,
+            
+        )
+        # FA returns LSE in shape [ H, B ] but cp_lse_ag_out_rs wants [ B, H ]
+        context_attn_out_cor, context_lse_cor = cp_lse_ag_out_rs(
+            context_attn_out,
+            context_lse.transpose(0, 1),
+            get_dcp_group(),
+            return_lse=True,
+        )
+        context_lse_cor = context_lse_cor.transpose(0, 1).contiguous()
+
+        query_attn_out, query_lse = flash_attn_varlen_func(
+            q=query,
+            k=key,
+            v=value,
+            out=None,
+            cu_seqlens_q=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            cu_seqlens_k=cu_seqlens_q,
+            max_seqlen_k=max_seqlen_q,
+            softmax_scale=self.scale,
+            causal=attn_metadata.causal,
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            softcap=self.logits_soft_cap,
+            return_softmax_lse=True,
+        )
+        assert context_attn_out_cor.shape == query_attn_out.shape
+        assert context_lse_cor.shape == query_lse.shape
+        merge_attn_states(
+            context_attn_out_cor,
+            context_lse_cor,
+            query_attn_out,
+            query_lse,
+            output
+        )
+
+    def _forward_encoder_attention(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        output: torch.Tensor,
+        attn_metadata: FlashAttentionMetadata,
+        layer: torch.nn.Module,
+    ) -> torch.Tensor:
+        """Forward pass for encoder attention without KV cache.
+
+        Args:
+            query: shape = [num_encoder_tokens, num_heads, head_size]
+            key: shape = [num_encoder_tokens, num_kv_heads, head_size]
+            value: shape = [num_encoder_tokens, num_kv_heads, head_size]
+            output: shape = [num_encoder_tokens, num_heads, head_size]
+            attn_metadata: Encoder attention metadata
+            layer: The attention layer
+        """
+        # For encoder attention, process FP8 quantization if needed
+        if self.kv_cache_dtype.startswith("fp8"):
+            raise NotImplementedError(
+                "quantization is not supported for encoder attention"
+            )
+
+        # Use encoder-specific metadata for sequence information
+        cu_seqlens_q = attn_metadata.query_start_loc
+        cu_seqlens_k = attn_metadata.query_start_loc
+        max_seqlen_q = attn_metadata.max_query_len
+        max_seqlen_k = attn_metadata.max_query_len
+
+        descale_shape = (
+            cu_seqlens_q.shape[0] - 1,  # type: ignore[union-attr]
+            self.num_kv_heads,
+        )
+
+        # Call flash attention directly on Q, K, V tensors
+        flash_attn_varlen_func(
+            q=query,
+            k=key,
+            v=value,
+            out=output,
+            cu_seqlens_q=cu_seqlens_q,
+            cu_seqlens_k=cu_seqlens_k,
+            max_seqlen_q=max_seqlen_q,
+            max_seqlen_k=max_seqlen_k,
+            softmax_scale=self.scale,
+            causal=False,  # Encoder attention is bidirectional
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            softcap=self.logits_soft_cap,
+        )
+
+        return output
+
+
+def use_cascade_attention(
+    common_prefix_len: int,
+    query_lens: np.ndarray,
+    num_query_heads: int,
+    num_kv_heads: int,
+    use_alibi: bool,
+    use_sliding_window: bool,
+    use_local_attention: bool,
+    num_sms: int,
+    dcp_world_size: int,
+) -> bool:
+    """Decide whether to use cascade attention.
+
+    This function 1) checks whether cascade attention is supported with the
+    given configuration, and 2) heuristically decides whether using cascade
+    attention can improve performance.
+    """
+    # Too short common prefix. Probably not worth using cascade attention.
+    # We use an arbitrary threshold of 256 tokens. TODO: Tune this threshold.
+    # NOTE(woosuk): This is the common case. We should return False as soon as
+    # possible to avoid any unnecessary computation.
+    if common_prefix_len < 256:
+        return False
+    # Cascade attention is currently not supported with these variants.
+    if use_alibi or use_sliding_window or use_local_attention:
+        return False
+    # Too few queries. Probably not worth using cascade attention.
+    # We use an arbitrary threshold of 8 queries. TODO: Tune this threshold.
+    num_reqs = len(query_lens)
+    if num_reqs < 8:
+        return False
+    # disable cascade attention for DCP
+    if dcp_world_size > 1:
+        return False
+
+    # Heuristics to decide whether using cascade attention is beneficial.
+    # 1. When FlashDecoding is not used for normal attention, cascade attention
+    #    is likely to be faster since it saves memory bandwidth.
+    num_queries_per_kv = num_query_heads // num_kv_heads
+    # The criteria for using FlashDecoding can be found in the following link:
+    # https://github.com/vllm-project/flash-attention/blob/96266b1111111f3d11aabefaf3bacbab6a89d03c/csrc/flash_attn/flash_api.cpp#L535
+    use_flash_decoding = (
+        num_queries_per_kv > 1
+        and not use_sliding_window
+        and not use_alibi
+        and np.all(query_lens == 1)
+    )
+    if not use_flash_decoding:
+        # Use cascade attention.
+        return True
+
+    # 2. When FlashDecoding is used for normal attention, it is not clear
+    #    whether cascade attention is beneficial, because FlashDecoding can
+    #    launch more CTAs than cascade attention.
+    #    We use a simple performance model to compare the two methods.
+    #    NOTE(woosuk): The performance model is very rough and may not be
+    #    accurate.
+    num_tokens = num_reqs
+    # NOTE(woosuk): These are default tile sizes. flash-attn might use
+    # different tile sizes (e.g., 64 or 256) depending on the configuration.
+    q_tile_size = 128
+    kv_tile_size = 128
+    num_prefix_tiles = cdiv(common_prefix_len, kv_tile_size)
+
+    cascade_ctas = num_query_heads * cdiv(num_tokens, q_tile_size)
+    cascade_waves = cdiv(cascade_ctas, num_sms)
+    cascade_time = cascade_waves * num_prefix_tiles
+
+    flash_decoding_ctas = (
+        num_reqs * num_kv_heads * cdiv(num_queries_per_kv, q_tile_size)
+    )
+    flash_decoding_ctas *= num_prefix_tiles
+    flash_decoding_time = cdiv(flash_decoding_ctas, num_sms)
+
+    # Use cascade attention if it is faster than FlashDecoding.
+    return cascade_time < flash_decoding_time
+
+
+def cascade_attention(
+    output: torch.Tensor,
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    cu_query_lens: torch.Tensor,
+    max_query_len: int,
+    cu_prefix_query_lens: torch.Tensor,
+    cu_prefix_kv_lens: torch.Tensor,
+    cu_suffix_kv_lens: torch.Tensor,
+    max_kv_len: int,
+    softmax_scale: float,
+    alibi_slopes: torch.Tensor | None,
+    sliding_window: tuple[int, int],
+    logits_soft_cap: float,
+    block_table: torch.Tensor,
+    common_prefix_len: int,
+    max_num_splits: int,
+    fa_version: int,
+    prefix_scheduler_metadata: torch.Tensor | None = None,
+    suffix_scheduler_metadata: torch.Tensor | None = None,
+    q_descale: torch.Tensor | None = None,
+    k_descale: torch.Tensor | None = None,
+    v_descale: torch.Tensor | None = None,
+    s_aux: torch.Tensor | None = None,
+) -> torch.Tensor:
+    assert alibi_slopes is None, "Cascade attention does not support ALiBi."
+    # TODO: Support sliding window.
+    assert sliding_window == (-1, -1), (
+        "Cascade attention does not support sliding window."
+    )
+
+    num_tokens = query.shape[0]
+    block_size = key_cache.shape[-2]
+    assert common_prefix_len % block_size == 0
+    num_common_kv_blocks = common_prefix_len // block_size
+    assert num_common_kv_blocks > 0
+    assert q_descale is None or q_descale==1, f"q_descale is not None, q_descale: {q_descale}"
+    assert k_descale is None or k_descale==1, f"k_descale is not None, k_descale: {k_descale}"
+    assert v_descale is None or v_descale==1, f"v_descale is not None, v_descale: {v_descale}"
+
+    # Process shared prefix.
+    prefix_output, prefix_lse = flash_attn_varlen_func(
+        q=query,
+        k=key_cache,
+        v=value_cache,
+        cu_seqlens_q=cu_prefix_query_lens,
+        cu_seqlens_k=cu_prefix_kv_lens,
+        max_seqlen_q=num_tokens,
+        max_seqlen_k=common_prefix_len,
+        softmax_scale=softmax_scale,
+        causal=False,
+        window_size=sliding_window,
+        block_table=block_table[:1],
+        softcap=logits_soft_cap,
+        return_softmax_lse=True,
+    )
+
+    # Process suffix per query.
+    suffix_output, suffix_lse = flash_attn_varlen_func(
+        q=query,
+        k=key_cache,
+        v=value_cache,
+        cu_seqlens_q=cu_query_lens,
+        cu_seqlens_k=cu_suffix_kv_lens,
+        max_seqlen_q=max_query_len,
+        max_seqlen_k=max_kv_len - common_prefix_len,
+        softmax_scale=softmax_scale,
+        causal=True,
+        window_size=sliding_window,
+        block_table=block_table[:, num_common_kv_blocks:],
+        softcap=logits_soft_cap,
+        return_softmax_lse=True,
+    )
+
+    merge_attn_states(prefix_output, prefix_lse, suffix_output, suffix_lse, output)
diff --git a/v1/attention/backends/flashinfer.py b/v1/attention/backends/flashinfer.py
new file mode 100644
index 0000000..4da1637
--- /dev/null
+++ b/v1/attention/backends/flashinfer.py
@@ -0,0 +1,1572 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with FlashInfer."""
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import numpy as np
+import torch
+from flashinfer import (
+    BatchDecodeWithPagedKVCacheWrapper,
+    BatchPrefillWithPagedKVCacheWrapper,
+    BatchPrefillWithRaggedKVCacheWrapper,
+    MultiLevelCascadeAttentionWrapper,
+)
+from flashinfer.decode import _get_range_buf, trtllm_batch_decode_with_kv_cache
+from flashinfer.prefill import trtllm_batch_context_with_kv_cache
+from flashinfer.utils import FP4Tensor
+from typing_extensions import override
+
+from vllm import envs
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.attention.ops.common import cp_lse_ag_out_rs
+from vllm.attention.ops.merge_attn_states import merge_attn_states
+from vllm.config import CUDAGraphMode, VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.distributed.parallel_state import get_dcp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kFp8StaticTensorSym,
+    kNvfp4Quant,
+)
+from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
+from vllm.triton_utils import tl, triton
+from vllm.utils.flashinfer import (
+    can_use_trtllm_attention,
+    flashinfer_disable_q_quantization,
+    use_trtllm_attention,
+)
+from vllm.utils.math_utils import cdiv
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    KVCacheLayoutType,
+    get_dcp_local_seq_lens,
+    get_kv_cache_layout,
+    get_per_layer_parameters,
+    infer_global_hyperparameters,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+FLASHINFER_WORKSPACE_BUFFER_SIZE_BATCH_INVARIANT = 2048 * 1024 * 1024
+
+FP8_DTYPE = current_platform.fp8_dtype()
+FP4_DTYPE = torch.uint8
+
+logger = init_logger(__name__)
+
+trtllm_gen_workspace_buffer = None
+
+
+def _get_trtllm_gen_workspace_buffer():
+    global trtllm_gen_workspace_buffer
+    if trtllm_gen_workspace_buffer is None:
+        trtllm_gen_workspace_buffer = torch.zeros(
+            envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE, dtype=torch.uint8, device="cuda"
+        )
+    return trtllm_gen_workspace_buffer
+
+
+@triton.jit
+def _trtllm_prefill_attn_kvfp8_dequant(
+    kv_cache_ptr,
+    block_tables_prefill_ptr,
+    block_table_stride,
+    mock_kv_cache_ptr,
+    k_scale_ptr,
+    v_scale_ptr,
+    K_CACHE_STRIDE: tl.constexpr,
+    KV_CACHE_STRIDE: tl.constexpr,
+):
+    batch_idx = tl.program_id(0).to(tl.int64)
+    mock_block_table_idx = tl.program_id(1).to(tl.int64)
+    orig_page_num = tl.load(
+        block_tables_prefill_ptr + batch_idx * block_table_stride + mock_block_table_idx
+    ).to(tl.int64)
+    if orig_page_num <= 0:
+        return
+    dequant_dtype = mock_kv_cache_ptr.dtype.element_ty
+
+    # Dequantize K
+    k_scale_val = tl.load(k_scale_ptr)
+    offset = orig_page_num * KV_CACHE_STRIDE + tl.arange(0, K_CACHE_STRIDE)
+    fp8_vals = tl.load(kv_cache_ptr + offset)
+    dequantized_vals = fp8_vals.to(tl.float32) * k_scale_val
+    mock_cache_offset = (
+        batch_idx * block_table_stride + mock_block_table_idx + 1
+    ) * KV_CACHE_STRIDE + tl.arange(0, K_CACHE_STRIDE)
+    dequantized_vals = dequantized_vals.to(dequant_dtype)
+    tl.store(mock_kv_cache_ptr + mock_cache_offset, dequantized_vals)
+
+    # Dequantize V
+    v_scale_val = tl.load(v_scale_ptr)
+    offset = (
+        orig_page_num * KV_CACHE_STRIDE + K_CACHE_STRIDE + tl.arange(0, K_CACHE_STRIDE)
+    )
+    fp8_vals = tl.load(kv_cache_ptr + offset)
+    dequantized_vals = fp8_vals.to(tl.float32) * v_scale_val
+    mock_cache_offset = (
+        (batch_idx * block_table_stride + mock_block_table_idx + 1) * KV_CACHE_STRIDE
+        + K_CACHE_STRIDE
+        + tl.arange(0, K_CACHE_STRIDE)
+    )
+    dequantized_vals = dequantized_vals.to(dequant_dtype)
+    tl.store(mock_kv_cache_ptr + mock_cache_offset, dequantized_vals)
+
+
+def trtllm_prefill_attn_kvfp8_dequant(
+    kv_cache: torch.Tensor,
+    block_tables_prefill: torch.Tensor,
+    k_scale: torch.Tensor,
+    v_scale: torch.Tensor,
+    dequant_dtype: torch.dtype,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    batch_size, num_of_page_per_token = block_tables_prefill.shape
+    s = kv_cache.shape
+    assert s[1] == 2
+    assert dequant_dtype in (torch.bfloat16, torch.float16)
+    k_cache_stride = s[2] * s[3] * s[4]
+    kv_cache_stride = k_cache_stride * s[1]
+    new_s = (batch_size * num_of_page_per_token + 1, s[1], s[2], s[3], s[4])
+    # mock kv cache contains just the pages needed by this prefill
+    mock_kv_cache = torch.empty(new_s, dtype=dequant_dtype, device=kv_cache.device)
+    # we simply sequentially index the pages needed by this prefill
+    mock_block_table = torch.arange(
+        start=1,
+        end=batch_size * num_of_page_per_token + 1,
+        dtype=torch.int32,
+        device=block_tables_prefill.device,
+    ).reshape(batch_size, num_of_page_per_token)
+    grid = (batch_size, num_of_page_per_token)
+    _trtllm_prefill_attn_kvfp8_dequant[grid](
+        kv_cache,
+        block_tables_prefill,
+        num_of_page_per_token,
+        mock_kv_cache,
+        k_scale,
+        v_scale,
+        k_cache_stride,
+        kv_cache_stride,
+    )
+    return mock_kv_cache, mock_block_table
+
+
+class BatchDCPPrefillWrapper:
+    def __init__(
+        self,
+        workspace_buffer: torch.Tensor | None = None,
+    ):
+        self._context = BatchPrefillWithPagedKVCacheWrapper(
+            workspace_buffer, get_kv_cache_layout()
+        )
+        self._new_tokens = BatchPrefillWithRaggedKVCacheWrapper(
+            workspace_buffer, get_kv_cache_layout()
+        )
+
+    def plan(
+        self,
+        qo_indptr_cpu: torch.Tensor,
+        paged_kv_indptr_cpu: torch.Tensor,
+        paged_kv_indices: torch.Tensor,
+        paged_kv_last_page_len_cpu: torch.Tensor,
+        prefill_start: int,
+        page_size: int,
+        num_qo_heads: int,
+        dcp_world_size: int,
+        num_kv_heads: int,
+        head_dim: int,
+        sm_scale: float,
+        window_left: int,
+        logits_soft_cap: float | None,
+        q_data_type: torch.dtype,
+        kv_cache_dtype: torch.dtype,
+        prefill_fixed_split_size: int,
+        disable_split_kv: bool,
+    ):
+        """Plan the prefill operation with given parameters."""
+        self._context.plan(
+            qo_indptr_cpu,
+            paged_kv_indptr_cpu,
+            paged_kv_indices,
+            paged_kv_last_page_len_cpu[prefill_start:],
+            num_qo_heads * dcp_world_size,
+            num_kv_heads,
+            head_dim,
+            page_size,
+            causal=False,  # This is context run
+            sm_scale=sm_scale,
+            window_left=window_left,
+            logits_soft_cap=logits_soft_cap,
+            q_data_type=q_data_type,
+            kv_data_type=kv_cache_dtype,
+            fixed_split_size=prefill_fixed_split_size,
+            disable_split_kv=disable_split_kv,
+        )
+        self._new_tokens.plan(
+            qo_indptr=qo_indptr_cpu,
+            kv_indptr=qo_indptr_cpu,
+            num_qo_heads=num_qo_heads,
+            num_kv_heads=num_kv_heads,
+            head_dim_qk=head_dim,
+            head_dim_vo=head_dim,
+            causal=True,  # This is newtokens run
+            sm_scale=sm_scale,
+            window_left=window_left,
+            logits_soft_cap=logits_soft_cap,
+            q_data_type=q_data_type,
+        )
+
+    def run(
+        self,
+        layer: torch.nn.Module,
+        prefill_query: torch.Tensor,
+        kv_cache_permute: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        out: torch.Tensor,
+    ):
+        prefill_query_across_dcp = get_dcp_group().all_gather(
+            prefill_query.contiguous(), dim=1
+        )
+        output_context_tmp, lse_context_tmp = self._context.run(
+            prefill_query_across_dcp,
+            kv_cache_permute,
+            k_scale=layer._k_scale_float,
+            v_scale=layer._v_scale_float,
+            return_lse=True,
+        )
+        output_context, lse_context = cp_lse_ag_out_rs(
+            output_context_tmp, lse_context_tmp, get_dcp_group(), return_lse=True
+        )
+        lse_context = lse_context.transpose(0, 1).contiguous()
+
+        output_query, lse_query = self._new_tokens.run(
+            prefill_query,
+            key,
+            value,
+            return_lse=True,
+        )
+        lse_query = lse_query.transpose(0, 1).contiguous()
+
+        merge_attn_states(
+            out,
+            output_context,
+            lse_context,
+            output_query,
+            lse_query,
+        )
+        return out
+
+
+class FlashInferBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    # Note: Not sure for all platforms,
+    # but on Blackwell, only support a page size of
+    # 16, 32, 64
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [16, 32, 64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+        "fp8_e5m2",
+    ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASHINFER"
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashInferImpl"]:
+        return FlashInferImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashInferMetadataBuilder"]:
+        return FlashInferMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        return (num_blocks, 2, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def get_kv_cache_stride_order() -> tuple[int, ...]:
+        # `stride_order` indicates the permutation that gets us from
+        # `get_kv_cache_shape` to the actual memory layout we want.
+        cache_layout = get_kv_cache_layout()
+        if cache_layout == "NHD":
+            stride_order = (0, 1, 2, 3, 4)
+        elif cache_layout == "HND":
+            stride_order = (0, 1, 3, 2, 4)
+        else:
+            raise ValueError(f"Unknown cache layout format {cache_layout}.")
+        return stride_order
+
+    @staticmethod
+    def get_fp8_dtype_for_flashinfer(kv_cache_dtype: str) -> torch.dtype:
+        if kv_cache_dtype in ("fp8", "fp8_e4m3"):
+            return torch.float8_e4m3fn
+        elif kv_cache_dtype == "fp8_e5m2":
+            return torch.float8_e5m2
+        else:
+            raise ValueError(f"Unrecognized FP8 dtype: {kv_cache_dtype}")
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        # https://github.com/flashinfer-ai/flashinfer/blob/3d55c71a62052c590c130897d3a3db49b14fcc34/include/flashinfer/utils.cuh#L157
+        return [64, 128, 256]
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability >= DeviceCapability(7, 5) and capability <= DeviceCapability(
+            12, 1
+        )
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        """FlashInfer supports sinks when TRTLLM attention is available (SM100)."""
+        from vllm.utils.flashinfer import (
+            force_use_trtllm_attention,
+            supports_trtllm_attention,
+        )
+
+        # Respect explicit disable flag (e.g., VLLM_USE_TRTLLM_ATTENTION=0)
+        if force_use_trtllm_attention() is False:
+            return False
+
+        # Check if TRTLLM is supported on this platform
+        return supports_trtllm_attention()
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> KVCacheLayoutType | None:
+        from vllm.platforms import current_platform
+
+        capability = current_platform.get_device_capability()
+        if capability is not None and capability.major == 10:
+            return "HND"
+        return None
+
+
+@dataclass
+class FlashInferMetadata:
+    num_actual_tokens: int  # Number of tokens excluding padding.
+
+    # The data type of the query
+    q_data_type: torch.dtype
+
+    slot_mapping: torch.Tensor
+
+    # For flashinfer trtllm batch decode
+    max_q_len: int
+    max_q_len_prefill: int
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table_tensor: torch.Tensor
+    prefill_use_trtllm: bool
+    decode_use_trtllm: bool
+
+    # For handling prefill decode split
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+    num_prefill_tokens: int
+
+    # For cascade attention (CPU for planning).
+    use_cascade: bool
+
+    prefill_wrapper: (
+        BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper | None
+    ) = None
+    decode_wrapper: BatchDecodeWithPagedKVCacheWrapper | None = None
+    cascade_wrapper: MultiLevelCascadeAttentionWrapper | None = None
+
+    qo_indptr_gpu: torch.Tensor | None = None
+    paged_kv_indptr_gpu: torch.Tensor | None = None
+
+
+class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
+    reorder_batch_threshold: int = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        self.cache_config = vllm_config.cache_config
+        self.model_config = vllm_config.model_config
+        self._workspace_buffer = None
+        self._prefill_wrapper: (
+            BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper | None
+        ) = None  # Wrapper for prefill/append
+        self._decode_wrapper = None  # Wrapper for decode (general shape)
+
+        if vllm_is_batch_invariant():
+            self.decode_fixed_split_size = 2048
+            self.prefill_fixed_split_size = 4096
+            self.disable_split_kv = True
+        else:
+            self.decode_fixed_split_size = -1
+            self.prefill_fixed_split_size = -1
+            self.disable_split_kv = False
+
+        self.compilation_config = vllm_config.compilation_config
+        max_num_pages_per_req = cdiv(
+            self.model_config.max_model_len, self.kv_cache_spec.block_size
+        )
+        max_num_reqs = vllm_config.scheduler_config.max_num_seqs
+        max_num_pages = max_num_reqs * max_num_pages_per_req
+        speculative_config = vllm_config.speculative_config
+        num_spec_tokens = (
+            speculative_config.num_speculative_tokens
+            if speculative_config is not None
+            else 0
+        )
+        self.enable_cuda_graph = (
+            self.compilation_config.cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+        )
+        if self.enable_cuda_graph:
+            # For full cudagraph capture, one `decode_wrapper` for each batch
+            # size is needed for FlashInfer.
+            self._decode_wrappers_cudagraph: dict[
+                int, BatchDecodeWithPagedKVCacheWrapper
+            ] = {}
+            self._decode_cudagraph_max_bs = min(
+                (1 + num_spec_tokens) * max_num_reqs,
+                self.compilation_config.max_cudagraph_capture_size,
+            )
+
+        try:
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+            self.dcp_kv_cache_interleave_size = (
+                vllm_config.parallel_config.dcp_kv_cache_interleave_size
+            )
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+            self.dcp_kv_cache_interleave_size = 1
+
+        self.num_qo_heads = (
+            self.model_config.get_num_attention_heads(self.vllm_config.parallel_config)
+            * self.dcp_world_size
+        )
+
+        self.num_kv_heads = self.kv_cache_spec.num_kv_heads
+        self.head_dim = self.kv_cache_spec.head_size
+        self.page_size = self.kv_cache_spec.block_size
+
+        self.cache_dtype = self.cache_config.cache_dtype
+        if self.cache_dtype.startswith("fp8"):
+            self.kv_cache_dtype = FlashInferBackend.get_fp8_dtype_for_flashinfer(
+                self.cache_dtype
+            )
+        else:
+            assert self.kv_cache_spec.dtype == self.model_config.dtype
+            self.kv_cache_dtype = self.kv_cache_spec.dtype
+
+        # Use model dtype as q dtype when TRTLLM attn is not supported, or
+        # VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION is set to 1. Otherwise, try to
+        # use fp8 q if kv cache is fp8, and will fall back to model dtype
+        # if TRTLLM attention kernel is not used when building attn metadata
+        can_use_trtllm = can_use_trtllm_attention(self.num_qo_heads, self.num_kv_heads)
+        if can_use_trtllm and not flashinfer_disable_q_quantization():
+            self.q_data_type = self.kv_cache_dtype
+        else:
+            self.q_data_type = self.model_config.dtype
+
+        # Prefer TRTLLM attention for decoding in all cases.
+        # This allows us to use AttentionCGSupport.UNIFORM_BATCH mode.
+        self.use_trtllm_decode_attention = can_use_trtllm
+        self._init_reorder_batch_threshold(1, supports_spec_as_decode=can_use_trtllm)
+
+        self._cascade_wrapper = None  # Wrapper for cascade attention
+
+        # Global hyperparameters shared by all attention layers
+        # TODO: discard this for trtllm-gen backend
+        self.global_hyperparameters = infer_global_hyperparameters(
+            get_per_layer_parameters(vllm_config, layer_names, FlashInferImpl)
+        )
+        self.sm_scale = self.global_hyperparameters.sm_scale
+        self.window_left = self.global_hyperparameters.window_left
+        self.logits_soft_cap = self.global_hyperparameters.logits_soft_cap
+        self.has_sinks = self.global_hyperparameters.has_sinks
+        if self.has_sinks and not can_use_trtllm:
+            raise NotImplementedError(
+                "FlashInfer backend currently does not support attention "
+                "sinks, please use trtllm on blackwell or flash attention on "
+                "earlier GPUs."
+            )
+        # Preparing persistent buffers (device-side)
+        self.paged_kv_indptr = torch.zeros(
+            max_num_reqs + 1, dtype=torch.int32, device=self.device
+        )
+        self.paged_kv_indices = torch.zeros(
+            max_num_pages,  # max num pages possible
+            dtype=torch.int32,
+            device=self.device,
+        )
+        self.paged_kv_last_page_len = torch.zeros(
+            max_num_reqs, dtype=torch.int32, device=self.device
+        )
+        # host-side buffer
+        pin_memory = is_pin_memory_available()
+        self.paged_kv_indptr_cpu = torch.zeros(
+            max_num_reqs + 1, dtype=torch.int32, device="cpu", pin_memory=pin_memory
+        )
+        self.paged_kv_indptr_np = self.paged_kv_indptr_cpu.numpy()
+        self.paged_kv_indptr_buffer = torch.zeros_like(
+            self.paged_kv_indptr_cpu, pin_memory=pin_memory
+        )
+        self.paged_kv_indices_cpu = torch.zeros(
+            max_num_pages, dtype=torch.int32, device="cpu", pin_memory=pin_memory
+        )
+        self.paged_kv_last_page_len_cpu = torch.zeros(
+            max_num_reqs, dtype=torch.int32, device="cpu", pin_memory=pin_memory
+        )
+        self.paged_kv_last_page_len_np = self.paged_kv_last_page_len_cpu.numpy()
+
+        if self.head_dim == 256 and current_platform.is_device_capability(100):
+            # https://github.com/flashinfer-ai/flashinfer/issues/1993 reports that
+            # head size 256 and block size 16 is not supported on blackwell.
+            assert kv_cache_spec.block_size != 16, (
+                "There is a bug in FlashInfer "
+                "block_size 16 head size 256 support. Please avoid this combination by "
+                "passing --block-size 32 or --block-size 64."
+            )
+
+    @classmethod
+    @override
+    def get_cudagraph_support(
+        cls: type["FlashInferMetadataBuilder"],
+        vllm_config: VllmConfig,
+        kv_cache_spec: AttentionSpec,
+    ) -> AttentionCGSupport:
+        has_trtllm_support = can_use_trtllm_attention(
+            num_qo_heads=vllm_config.model_config.get_num_attention_heads(
+                vllm_config.parallel_config
+            ),
+            num_kv_heads=kv_cache_spec.num_kv_heads,
+        )
+        if has_trtllm_support:
+            return AttentionCGSupport.UNIFORM_BATCH
+        else:
+            return AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+
+    def _get_workspace_buffer(self):
+        if self._workspace_buffer is None:
+            buffer_size = envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE
+            if vllm_is_batch_invariant():
+                buffer_size = FLASHINFER_WORKSPACE_BUFFER_SIZE_BATCH_INVARIANT
+            self._workspace_buffer = torch.zeros(
+                buffer_size, dtype=torch.uint8, device=self.device
+            )
+        return self._workspace_buffer
+
+    def _get_prefill_wrapper(
+        self,
+    ) -> BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper:
+        if self._prefill_wrapper is None:
+            if self.dcp_world_size > 1:
+                self._prefill_wrapper = BatchDCPPrefillWrapper(
+                    workspace_buffer=self._get_workspace_buffer(),
+                )
+            else:
+                self._prefill_wrapper = BatchPrefillWithPagedKVCacheWrapper(
+                    self._get_workspace_buffer(), get_kv_cache_layout()
+                )
+        assert self._prefill_wrapper is not None
+        return self._prefill_wrapper
+
+    def _get_decode_wrapper(self, batch_size: int, use_cudagraph: bool = False):
+        if use_cudagraph:
+            decode_wrapper = self._decode_wrappers_cudagraph.get(batch_size, None)
+        else:
+            decode_wrapper = self._decode_wrapper
+
+        if decode_wrapper is None:
+            if use_cudagraph:
+                paged_kv_indptr = self.paged_kv_indptr[: batch_size + 1]
+                paged_kv_indices = self.paged_kv_indices
+                paged_kv_last_page_len = self.paged_kv_last_page_len[:batch_size]
+            else:
+                paged_kv_indptr = None
+                paged_kv_indices = None
+                paged_kv_last_page_len = None
+            decode_wrapper = BatchDecodeWithPagedKVCacheWrapper(
+                self._get_workspace_buffer(),
+                get_kv_cache_layout(),
+                use_cuda_graph=use_cudagraph,
+                paged_kv_indptr_buffer=paged_kv_indptr,
+                paged_kv_indices_buffer=paged_kv_indices,
+                paged_kv_last_page_len_buffer=paged_kv_last_page_len,
+                # Tensor cores are enabled by default because the perf would be
+                # at least as good as cuda cores for all attention ops in latest
+                # gpus.
+                use_tensor_cores=True,
+            )
+
+            # save the decode wrapper
+            if use_cudagraph:
+                self._decode_wrappers_cudagraph[batch_size] = decode_wrapper
+            else:
+                self._decode_wrapper = decode_wrapper
+
+        return decode_wrapper
+
+    def _get_cascade_wrapper(self):
+        if self._cascade_wrapper is None:
+            self._cascade_wrapper = MultiLevelCascadeAttentionWrapper(
+                2, self._get_workspace_buffer(), get_kv_cache_layout()
+            )
+        return self._cascade_wrapper
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> FlashInferMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata,
+                decode_threshold=self.reorder_batch_threshold,
+                require_uniform=True,
+            )
+        )
+
+        page_size = self.page_size
+        max_q_len = common_attn_metadata.max_query_len
+        max_seq_len = common_attn_metadata.max_seq_len
+        seq_lens = common_attn_metadata.seq_lens
+        seq_lens_cpu = common_attn_metadata.seq_lens_cpu
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        qo_indptr_cpu = common_attn_metadata.query_start_loc_cpu
+
+        if self.dcp_world_size > 1:
+            if num_prefills > 0:
+                qo_indptr_prefill_cpu = (
+                    qo_indptr_cpu[num_decodes:] - qo_indptr_cpu[num_decodes]
+                )
+                query_lens_prefill_cpu = (
+                    qo_indptr_prefill_cpu[1:] - qo_indptr_prefill_cpu[:-1]
+                )
+                seq_lens_cpu[num_decodes:] = (
+                    seq_lens_cpu[num_decodes:] - query_lens_prefill_cpu
+                )
+
+            seq_lens_cpu = get_dcp_local_seq_lens(
+                seq_lens_cpu,
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.dcp_kv_cache_interleave_size,
+            )
+
+        seq_lens_np = seq_lens_cpu.numpy()
+        num_blocks_np = (seq_lens_np + (page_size - 1)) // page_size
+
+        use_cascade = common_prefix_len > 0
+        if use_cascade:
+            # Grab the blocks of the shared prefix from the first request.
+            assert common_prefix_len % page_size == 0
+            num_common_kv_blocks = common_prefix_len // page_size
+
+            # Create CPU versions directly for cascade (no GPU versions needed)
+            shared_qo_indptr_cpu = torch.tensor(
+                [0, num_actual_tokens], dtype=torch.int32, device="cpu"
+            )
+            shared_kv_page_indptr_cpu = torch.tensor(
+                [0, num_common_kv_blocks], dtype=torch.int32, device="cpu"
+            )
+            shared_kv_page_indices_cpu = block_table_tensor[0, :num_common_kv_blocks]
+            shared_kv_last_page_len_cpu = torch.tensor(
+                [page_size], dtype=torch.int32, device="cpu"
+            )
+
+            # Remove the blocks of the shared prefix from all requests.
+            block_table_tensor = block_table_tensor[:, num_common_kv_blocks:]
+            num_blocks_np -= num_common_kv_blocks
+        else:
+            shared_qo_indptr_cpu = None
+            shared_kv_page_indptr_cpu = None
+            shared_kv_page_indices_cpu = None
+            shared_kv_last_page_len_cpu = None
+
+        # write self.paged_kv_indptr_cpu inplace (0-index is always 0)
+        np.cumsum(
+            num_blocks_np,
+            dtype=np.int32,
+            out=self.paged_kv_indptr_np[1 : num_reqs + 1],
+        )
+        # NOTE(woosuk): Because self.paged_kv_indptr_cpu can be modified
+        # after this line (e.g., for cuda graphs), we need to copy the data to
+        # self.paged_kv_indptr_buffer to avoid race condition.
+        self.paged_kv_indptr_buffer[: num_reqs + 1] = self.paged_kv_indptr_cpu[
+            : num_reqs + 1
+        ]
+        paged_kv_indptr = self.paged_kv_indptr[: num_reqs + 1]
+        paged_kv_indptr.copy_(
+            self.paged_kv_indptr_buffer[: num_reqs + 1], non_blocking=True
+        )
+
+        # write self.paged_kv_indices inplace
+        num_actual_pages = self.paged_kv_indptr_np[num_reqs]
+        paged_kv_indices = self.paged_kv_indices[:num_actual_pages]
+        _copy_page_indices_kernel[(num_reqs,)](
+            paged_kv_indices,
+            block_table_tensor,
+            block_table_tensor.stride(0),
+            paged_kv_indptr,
+            BLOCK_SIZE=1024,
+        )
+
+        # write self.paged_kv_last_page_len_cpu inplace
+        paged_kv_last_page_len_np = seq_lens_np % page_size
+        self.paged_kv_last_page_len_np[:num_reqs] = np.where(
+            (paged_kv_last_page_len_np == 0) & (seq_lens_np != 0),
+            page_size,
+            paged_kv_last_page_len_np,
+        )
+
+        uses_spec_reorder = self.reorder_batch_threshold > 1
+        prefill_use_trtllm = use_trtllm_attention(
+            self.num_qo_heads,
+            self.num_kv_heads,
+            num_prefill_tokens,
+            max_seq_len,
+            self.dcp_world_size,
+            self.cache_dtype,
+            self.q_data_type,
+            is_prefill=True,
+            has_sinks=self.has_sinks,
+            has_spec=uses_spec_reorder,
+        )
+        decode_use_trtllm = (
+            self.use_trtllm_decode_attention and self.dcp_world_size <= 1
+        )
+
+        if not (prefill_use_trtllm and decode_use_trtllm):
+            if self.has_sinks:
+                raise NotImplementedError(
+                    "FlashInfer backend currently does not support attention "
+                    "sinks, please use trtllm on blackwell or flash attention "
+                    "on earlier GPUs."
+                )
+
+            if not self.global_hyperparameters.has_same_window_lefts:
+                raise ValueError(
+                    "Window left is not the same for all layers. "
+                    "One potential fix is to set disable_sliding_window=True"
+                )
+
+            assert self.global_hyperparameters.has_same_all_params, (
+                "FlashInfer backend currently only supports models in which "
+                "all layers share the same values for the following "
+                "hyperparameters: `window_left`, `logits_soft_cap`, "
+                "`sm_scale`."
+            )
+
+            # The q quantization is not supported for non-trtllm attention,
+            # fall back to model dtype.
+            self.q_data_type = self.model_config.dtype
+
+        attn_metadata = FlashInferMetadata(
+            num_actual_tokens=num_actual_tokens,
+            q_data_type=self.q_data_type,
+            slot_mapping=common_attn_metadata.slot_mapping,
+            max_q_len=max_q_len,
+            max_q_len_prefill=max_q_len,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table_tensor=block_table_tensor,
+            prefill_use_trtllm=prefill_use_trtllm,
+            decode_use_trtllm=decode_use_trtllm,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            use_cascade=use_cascade,
+        )
+
+        paged_kv_indptr_cpu = self.paged_kv_indptr_cpu[: 1 + num_reqs]
+        paged_kv_last_page_len_cpu = self.paged_kv_last_page_len_cpu[:num_reqs]
+
+        if attn_metadata.use_cascade:
+            attn_metadata.cascade_wrapper = self._get_cascade_wrapper()
+            attn_metadata.cascade_wrapper.plan(
+                [shared_qo_indptr_cpu, qo_indptr_cpu],
+                [shared_kv_page_indptr_cpu, paged_kv_indptr_cpu],
+                [shared_kv_page_indices_cpu, paged_kv_indices],
+                [shared_kv_last_page_len_cpu, paged_kv_last_page_len_cpu],
+                self.num_qo_heads,
+                self.num_kv_heads,
+                self.head_dim,
+                self.page_size,
+                causal=True,
+                sm_scale=self.sm_scale,
+                window_left=self.window_left,
+                logits_soft_cap=self.logits_soft_cap,
+                q_data_type=self.q_data_type,
+                kv_data_type=self.kv_cache_dtype,
+            )
+        else:
+            # Regular attention (common case).
+            # Decodes are at the front and prefills are at the back.
+            num_prefills = attn_metadata.num_prefills
+            num_decodes = attn_metadata.num_decodes
+            if num_prefills > 0:
+                # Decodes are first so prefills start after the last decode
+                prefill_start = num_decodes
+                attn_metadata.prefill_wrapper = self._get_prefill_wrapper()
+                assert qo_indptr_cpu[prefill_start:].shape[0] == num_prefills + 1
+                assert paged_kv_indptr_cpu[prefill_start:].shape[0] == num_prefills + 1
+                assert (
+                    paged_kv_last_page_len_cpu[prefill_start:].shape[0] == num_prefills
+                )
+                # Since prefill_wrapper.run() will be called with
+                # query[num_decode_tokens:] we need to adjust the qo_indptr
+                # to be relative to the start of the prefill queries.
+                qo_indptr_cpu = (
+                    qo_indptr_cpu[prefill_start:] - qo_indptr_cpu[prefill_start]
+                )
+                paged_kv_indptr_cpu = paged_kv_indptr_cpu[prefill_start:]
+
+                # Recompute max_q_len for the slice of requests we are using
+                # for prefills. This can be different from max_q_len when
+                # we have a non-uniform batch with some short decodes offloaded
+                # to the prefill pathway
+                query_lens_prefill = qo_indptr_cpu[1:] - qo_indptr_cpu[:-1]
+                attn_metadata.max_q_len_prefill = int(query_lens_prefill.max().item())
+
+                if not attn_metadata.prefill_use_trtllm:
+                    if self.dcp_world_size > 1:
+                        assert isinstance(
+                            attn_metadata.prefill_wrapper, BatchDCPPrefillWrapper
+                        )
+                        attn_metadata.prefill_wrapper.plan(
+                            qo_indptr_cpu=qo_indptr_cpu,
+                            paged_kv_indptr_cpu=paged_kv_indptr_cpu,
+                            paged_kv_indices=paged_kv_indices,
+                            paged_kv_last_page_len_cpu=paged_kv_last_page_len_cpu,
+                            prefill_start=prefill_start,
+                            page_size=self.page_size,
+                            num_qo_heads=self.num_qo_heads,
+                            dcp_world_size=self.dcp_world_size,
+                            num_kv_heads=self.num_kv_heads,
+                            head_dim=self.head_dim,
+                            sm_scale=self.sm_scale,
+                            window_left=self.window_left,
+                            logits_soft_cap=self.logits_soft_cap,
+                            q_data_type=self.q_data_type,
+                            kv_cache_dtype=self.kv_cache_dtype,
+                            prefill_fixed_split_size=self.prefill_fixed_split_size,
+                            disable_split_kv=self.disable_split_kv,
+                        )
+                    else:
+                        assert isinstance(
+                            attn_metadata.prefill_wrapper,
+                            BatchPrefillWithPagedKVCacheWrapper,
+                        )
+                        attn_metadata.prefill_wrapper.plan(
+                            qo_indptr_cpu,
+                            paged_kv_indptr_cpu,
+                            paged_kv_indices,
+                            paged_kv_last_page_len_cpu[prefill_start:],
+                            self.num_qo_heads,
+                            self.num_kv_heads,
+                            self.head_dim,
+                            self.page_size,
+                            causal=True,
+                            sm_scale=self.sm_scale,
+                            window_left=self.window_left,
+                            logits_soft_cap=self.logits_soft_cap,
+                            q_data_type=self.q_data_type,
+                            kv_data_type=self.kv_cache_dtype,
+                            fixed_split_size=self.prefill_fixed_split_size,
+                            disable_split_kv=self.disable_split_kv,
+                        )
+                else:
+                    attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(
+                        self.device, non_blocking=True
+                    )
+                    attn_metadata.paged_kv_indptr_gpu = paged_kv_indptr_cpu.to(
+                        self.device, non_blocking=True
+                    )
+
+            if num_decodes > 0:
+                pure_decode = num_prefills == 0
+                # possible required padding for cudagraph replay
+                use_cudagraph = (
+                    self.enable_cuda_graph
+                    and pure_decode
+                    and num_decode_tokens <= self._decode_cudagraph_max_bs
+                )
+                if use_cudagraph:
+                    num_input_tokens = self.vllm_config.pad_for_cudagraph(
+                        num_decode_tokens
+                    )
+                    # Carefully fulfill the padding region with reasonable value
+                    # on cpu.
+                    # Make sure paged_kv_indptr_cpu is not decreasing
+                    self.paged_kv_indptr_cpu[
+                        1 + num_decodes : 1 + num_input_tokens
+                    ].fill_(paged_kv_indptr_cpu[-1])
+                    # Fill the remaining paged_kv_last_page_len_cpu with 1.
+                    # This is because flashinfer treats 0 as a full page
+                    # instead of empty.
+                    self.paged_kv_last_page_len_cpu[num_decodes:num_input_tokens].fill_(
+                        1
+                    )
+
+                else:
+                    num_input_tokens = num_decode_tokens
+
+                attn_metadata.decode_wrapper = self._get_decode_wrapper(
+                    num_input_tokens, use_cudagraph
+                )
+                if not attn_metadata.decode_use_trtllm:
+                    # Use the persistent buffer with padding length,
+                    # instead of the same address but chunked version
+                    # in atten_metadata when using cudagraph.
+                    fast_plan_decode(
+                        attn_metadata.decode_wrapper,
+                        self.paged_kv_indptr_cpu[: num_input_tokens + 1],
+                        paged_kv_indices,
+                        self.paged_kv_last_page_len_cpu[:num_input_tokens],
+                        seq_lens_cpu[:num_input_tokens],
+                        self.num_qo_heads * self.dcp_world_size,
+                        self.num_kv_heads,
+                        self.head_dim,
+                        self.page_size,
+                        # Disable flashinfer's pos encoding and use vllm's rope.
+                        pos_encoding_mode="NONE",
+                        sm_scale=self.sm_scale,
+                        window_left=self.window_left,
+                        logits_soft_cap=self.logits_soft_cap,
+                        q_data_type=self.q_data_type,
+                        kv_data_type=self.kv_cache_dtype,
+                        fixed_split_size=self.decode_fixed_split_size,
+                        disable_split_kv=self.disable_split_kv,
+                    )
+        return attn_metadata
+
+    def use_cascade_attention(self, *args, **kwargs) -> bool:
+        if self.kv_cache_spec.dtype != self.vllm_config.model_config.dtype:
+            # TODO: The cascade wrapper currently does not support setting
+            # kv cache dtype to something different from query dtype.
+            return False
+        # TODO: Cascade attention doesn't work, disable it for now
+        # return use_cascade_attention(*args, **kwargs)
+        return False
+
+
+class FlashInferImpl(AttentionImpl):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        self.window_left = (
+            self.sliding_window[0] if self.sliding_window is not None else -1
+        )
+        self.kv_cache_dtype = kv_cache_dtype
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "FlashInferImpl"
+            )
+
+        self.sinks: torch.Tensor | None = None
+        if sinks is not None:
+            if sinks.shape[0] != num_heads:
+                raise ValueError(
+                    "Sinks must have the same number of heads as the number of "
+                    f"heads in the layer. Expected {num_heads}, but got "
+                    f"{sinks.shape[0]}."
+                )
+            self.sinks = sinks
+
+        self.support_trtllm_attn = can_use_trtllm_attention(num_heads, num_kv_heads)
+        self.bmm1_scale: float | None = None
+        self.bmm2_scale: float | None = None
+        self.o_sf_scale: float | None = None
+
+    def fused_output_quant_supported(self, quant_key: QuantKey):
+        return (
+            self.support_trtllm_attn
+            and self.kv_cache_dtype.startswith("fp8")
+            and quant_key in (kFp8StaticTensorSym, kNvfp4Quant)
+        )
+
+    def supports_quant_query_input(self) -> bool:
+        if flashinfer_disable_q_quantization():
+            return False
+
+        return self.support_trtllm_attn
+
+    # FlashInfer requires attention sinks to be float32
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        if self.sinks is not None and self.sinks.dtype != torch.float32:
+            self.sinks = self.sinks.to(torch.float32)
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: FlashInferMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with FlashInfer.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: KV cache tensor with different possible shapes:
+                - NHD: [num_blocks, 2, block_size, num_kv_heads, head_size]
+                - HND: [num_blocks, 2, num_kv_heads, block_size, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        # Ensure query dtype matches the expected dtype from attention metadata
+        assert attn_metadata.q_data_type == query.dtype, (
+            f"Query dtype mismatch: expected {attn_metadata.q_data_type}, "
+            f"got {query.dtype}"
+        )
+
+        if self.bmm1_scale is None:
+            self.bmm1_scale = layer._q_scale_float * layer._k_scale_float * self.scale
+
+        if self.bmm2_scale is None:
+            self.bmm2_scale = layer._v_scale_float
+
+        # The attn+quant fusion happens when output_scale is provided.
+        if output_scale is None:
+            assert output_block_scale is None, (
+                "output_block_scale is not supported when fusion has not happened"
+            )
+        else:
+            assert attn_metadata.q_data_type == FP8_DTYPE, (
+                "Query must be FP8 when attn+quant fusion happened."
+            )
+            assert (
+                attn_metadata.prefill_use_trtllm and attn_metadata.decode_use_trtllm
+            ), "Must use TRT-LLM attn"
+
+            if output.dtype == FP8_DTYPE:
+                assert output_block_scale is None, (
+                    "output_block_scale should not be provided for fp8 output"
+                )
+            elif output.dtype == FP4_DTYPE:
+                assert output_block_scale is not None, (
+                    "output_block_scale is required for nvfp4 output"
+                )
+            else:
+                raise ValueError(f"Unsupported output dtype: {output.dtype}")
+
+            # TRTLLM attn kernel requires to scale to pass as a host scalar,
+            # store the o scale as a host scalar in warmup run with cuda graph
+            # not enabled
+            if layer._o_scale_float is None:
+                layer._o_scale_float = output_scale.cpu().item()
+                if output.dtype == FP8_DTYPE:
+                    self.bmm2_scale = self.bmm2_scale / layer._o_scale_float
+                elif output.dtype == FP4_DTYPE:
+                    self.o_sf_scale = layer._o_scale_float
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
+        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
+        # in this method. For example, `view` and `slice` (or `[:n]`) operations
+        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping is
+            # not padded. However, we don't need to do key[:num_actual_tokens]
+            # and value[:num_actual_tokens] because the reshape_and_cache_flash
+            # op uses the slot_mapping's shape to determine the number of
+            # actual tokens.
+            torch.ops._C_cache_ops.reshape_and_cache_flash(
+                key,
+                value,
+                kv_cache[:, 0],
+                kv_cache[:, 1],
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+            # The FlashInfer api requires data to be in fp8_e4m3 or fp8_e5m2
+            # to process the cache when the kv_cache_dtype is fp8
+            if self.kv_cache_dtype.startswith("fp8"):
+                torch_dtype = FlashInferBackend.get_fp8_dtype_for_flashinfer(
+                    self.kv_cache_dtype
+                )
+                kv_cache = kv_cache.view(torch_dtype)
+
+        # Inputs and outputs may be padded for CUDA graphs
+        query = query[:num_actual_tokens]
+        key = key[:num_actual_tokens]
+        value = value[:num_actual_tokens]
+        output_padded = output
+        output = output[:num_actual_tokens]
+
+        if attn_metadata.use_cascade:
+            # Cascade attention (rare case).
+            assert attn_metadata.cascade_wrapper is not None
+            output.copy_(attn_metadata.cascade_wrapper.run(query, kv_cache))
+            return output
+
+        # When using spec decoding, num_decodes can be < num_decode_tokens
+        # because some decode requests may have more than one query token.
+        num_decodes = attn_metadata.num_decodes
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        num_prefill_tokens = attn_metadata.num_prefill_tokens
+
+        stride_order = FlashInferBackend.get_kv_cache_stride_order()
+        kv_cache_permute = kv_cache.permute(*stride_order)
+        # Regular attention (common case).
+        # Decodes are at the front and prefills are at the back.
+        if num_prefill_tokens > 0:
+            prefill_wrapper = attn_metadata.prefill_wrapper
+            prefill_query = query[num_decode_tokens:]
+            assert prefill_query.shape[0] == num_prefill_tokens
+            assert prefill_wrapper is not None
+
+            if not attn_metadata.prefill_use_trtllm:
+                if self.dcp_world_size > 1:
+                    assert isinstance(prefill_wrapper, BatchDCPPrefillWrapper)
+                    assert prefill_wrapper._context._window_left == self.window_left
+                    assert prefill_wrapper._context._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._context._sm_scale == self.scale
+                    assert not prefill_wrapper._context._causal
+                    assert prefill_wrapper._new_tokens._window_left == self.window_left
+                    assert prefill_wrapper._new_tokens._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._new_tokens._sm_scale == self.scale
+                    assert prefill_wrapper._new_tokens._causal
+
+                    prefill_wrapper.run(
+                        layer,
+                        prefill_query,
+                        kv_cache_permute,
+                        key[num_decode_tokens:],
+                        value[num_decode_tokens:],
+                        out=output[num_decode_tokens:],
+                    )
+                else:
+                    assert isinstance(
+                        prefill_wrapper, BatchPrefillWithPagedKVCacheWrapper
+                    )
+                    assert prefill_wrapper._window_left == self.window_left
+                    assert prefill_wrapper._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._sm_scale == self.scale
+                    assert prefill_wrapper._causal
+                    prefill_wrapper.run(
+                        prefill_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output[num_decode_tokens:],
+                    )
+            else:
+                # prefill_query may be non-contiguous
+                prefill_query = prefill_query.contiguous()
+                workspace_buffer = _get_trtllm_gen_workspace_buffer()
+                block_tables_prefill = attn_metadata.block_table_tensor[num_decodes:]
+                seq_lens_prefill = attn_metadata.seq_lens[num_decodes:]
+
+                # This path needs to be enabled with VLLM_KV_CACHE_LAYOUT = HND
+                assert get_kv_cache_layout() == "HND"
+                assert prefill_query.is_contiguous()
+                assert kv_cache_permute.is_contiguous()
+                assert workspace_buffer.is_contiguous()
+                assert block_tables_prefill.is_contiguous()
+                assert seq_lens_prefill.is_contiguous()
+
+                if output.dtype == FP4_DTYPE:
+                    assert self.o_sf_scale is not None
+                    out = FP4Tensor(
+                        data=output[num_decode_tokens:],
+                        scale=output_block_scale,
+                        scale_start_index=num_decode_tokens,
+                        original_shape=prefill_query.shape,
+                    )
+                else:
+                    assert self.o_sf_scale is None
+                    out = output[num_decode_tokens:]
+
+                if (
+                    attn_metadata.q_data_type != FP8_DTYPE
+                    and self.kv_cache_dtype.startswith("fp8")
+                ):
+                    # TRTLLM prefill attention does not support BF16 Q
+                    # and fp8 kv cache. So to enable prefill attention
+                    # with fp8 kv cache, we can construct a mock block
+                    # and mock kv cache with BF16 KV involved in the prefill
+                    mock_kv_cache, mock_block_table = trtllm_prefill_attn_kvfp8_dequant(
+                        kv_cache_permute,
+                        block_tables_prefill,
+                        layer._k_scale,
+                        layer._v_scale,
+                        attn_metadata.q_data_type,
+                    )
+                else:
+                    mock_kv_cache = kv_cache_permute
+                    mock_block_table = block_tables_prefill
+
+                trtllm_batch_context_with_kv_cache(
+                    query=prefill_query,
+                    kv_cache=mock_kv_cache,
+                    workspace_buffer=workspace_buffer,
+                    block_tables=mock_block_table,
+                    seq_lens=seq_lens_prefill,
+                    max_q_len=attn_metadata.max_q_len_prefill,
+                    max_kv_len=attn_metadata.max_seq_len,
+                    bmm1_scale=self.bmm1_scale,
+                    bmm2_scale=self.bmm2_scale,
+                    batch_size=attn_metadata.num_prefills,
+                    cum_seq_lens_q=attn_metadata.qo_indptr_gpu,
+                    cum_seq_lens_kv=attn_metadata.paged_kv_indptr_gpu,
+                    window_left=self.window_left,
+                    sinks=self.sinks,
+                    o_sf_scale=self.o_sf_scale,
+                    out=out,
+                )
+
+        if num_decode_tokens > 0:
+            decode_wrapper = attn_metadata.decode_wrapper
+            decode_query = query[:num_decode_tokens]
+            assert decode_query.shape[0] == num_decode_tokens
+            assert decode_wrapper is not None
+
+            if not attn_metadata.decode_use_trtllm:
+                assert decode_wrapper._window_left == self.window_left
+                assert decode_wrapper._logits_soft_cap == (self.logits_soft_cap or 0.0)
+                assert decode_wrapper._sm_scale == self.scale
+
+                if self.dcp_world_size > 1:
+                    decode_query = get_dcp_group().all_gather(
+                        decode_query.contiguous(), dim=-2
+                    )
+                    output_tmp = torch.empty_like(decode_query)
+                    lse = torch.empty(
+                        (decode_query.size(0), decode_query.size(1)),
+                        dtype=torch.float32,
+                        device=decode_query.device,
+                    )
+                    decode_wrapper.run(
+                        decode_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output_tmp,
+                        lse=lse,
+                        return_lse=True,
+                    )
+                    output[:num_decode_tokens] = cp_lse_ag_out_rs(
+                        output_tmp, lse, get_dcp_group()
+                    )
+                else:
+                    decode_wrapper.run(
+                        decode_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output[:num_decode_tokens],
+                    )
+            else:
+                # decode_query may be non-contiguous
+                decode_query = decode_query.contiguous()
+                workspace_buffer = _get_trtllm_gen_workspace_buffer()
+                block_tables_decode = attn_metadata.block_table_tensor[
+                    :num_decode_tokens
+                ]
+                seq_lens_decode = attn_metadata.seq_lens[:num_decode_tokens]
+
+                # This path needs to be enabled with VLLM_KV_CACHE_LAYOUT = HND
+                assert get_kv_cache_layout() == "HND"
+                assert decode_query.is_contiguous()
+                assert kv_cache_permute.is_contiguous()
+                assert workspace_buffer.is_contiguous()
+                assert block_tables_decode.is_contiguous()
+                assert seq_lens_decode.is_contiguous()
+
+                if output.dtype == FP4_DTYPE:
+                    assert self.o_sf_scale is not None
+                    out = FP4Tensor(
+                        data=output[:num_decode_tokens],
+                        scale=output_block_scale,
+                        scale_start_index=0,
+                        original_shape=decode_query.shape,
+                    )
+                else:
+                    assert self.o_sf_scale is None
+                    out = output[:num_decode_tokens]
+
+                if num_decode_tokens % attn_metadata.num_decodes != 0:
+                    # This gets triggered when the dummy_run forces
+                    # attention to be initialized with q_len = 0
+                    q_len_per_req = 1
+                else:
+                    q_len_per_req = num_decode_tokens // attn_metadata.num_decodes
+
+                trtllm_batch_decode_with_kv_cache(
+                    query=decode_query,
+                    kv_cache=kv_cache_permute,
+                    workspace_buffer=workspace_buffer,
+                    block_tables=block_tables_decode,
+                    seq_lens=seq_lens_decode,
+                    max_seq_len=attn_metadata.max_seq_len,
+                    bmm1_scale=self.bmm1_scale,
+                    bmm2_scale=self.bmm2_scale,
+                    window_left=self.window_left,
+                    sinks=self.sinks,
+                    o_sf_scale=self.o_sf_scale,
+                    out=out,
+                    q_len_per_req=q_len_per_req,
+                )
+        return output_padded
+
+
+def fast_plan_decode(
+    self,  # decode wrapper
+    indptr_cpu: torch.Tensor,
+    indices: torch.Tensor,
+    last_page_len_cpu: torch.Tensor,
+    seq_lens_cpu: torch.Tensor,
+    num_qo_heads: int,
+    num_kv_heads: int,
+    head_dim: int,
+    page_size: int,
+    pos_encoding_mode: str = "NONE",
+    window_left: int = -1,
+    logits_soft_cap: float | None = None,
+    q_data_type: str | torch.dtype | None = "float16",
+    kv_data_type: str | torch.dtype | None = None,
+    data_type: str | torch.dtype | None = None,
+    sm_scale: float | None = None,
+    rope_scale: float | None = None,
+    rope_theta: float | None = None,
+    non_blocking: bool = True,
+    fixed_split_size: int = -1,
+    disable_split_kv: bool = False,
+) -> None:
+    """
+    A faster version of BatchDecodeWithPagedKVCacheWrapper::plan used for
+    cudagraph capture/replay, while the no cudagraph version turns back
+    to the original plan.
+    using original plan after passing host-side buffers:
+    - only host-to-device copy of indptr and last_page_len buffers
+    Modifications for cudagraph:
+    - only host-to-device copy of indptr and last_page_len buffers.
+    - avoid device-to-device copy of indices buffer.
+
+    Part of the code get inspiration from the original plan from FlashInfer repo
+    and the implementation of fast_decode_plan for FlashInfer in SGlang repo.
+    """
+    # Warm up with the original plan if it is first call, and always run the
+    # original plan if we run for dynamic shape. For fixed shape (cudagraph),
+    # this warm up is to generate the _cached_module for the decode wrapper.
+    if not self.is_cuda_graph_enabled or getattr(self, "vllm_first_call", True):
+        self.plan(
+            indptr_cpu,
+            indices,
+            last_page_len_cpu,
+            num_qo_heads,
+            num_kv_heads,
+            head_dim,
+            page_size,
+            pos_encoding_mode,
+            window_left,
+            logits_soft_cap,
+            q_data_type,
+            kv_data_type,
+            data_type,
+            sm_scale,
+            rope_scale,
+            rope_theta,
+            non_blocking,
+            None,  # block_tables
+            None,  # seq_lens
+            fixed_split_size,
+            disable_split_kv,
+        )
+        self.vllm_first_call = False
+        return
+
+    assert self.is_cuda_graph_enabled, "Should be cudagraph only here"
+
+    batch_size = len(last_page_len_cpu)
+    if logits_soft_cap is None:
+        logits_soft_cap = 0.0
+
+    # Handle data types consistently
+    if data_type is not None:
+        if q_data_type is None:
+            q_data_type = data_type
+        if kv_data_type is None:
+            kv_data_type = data_type
+    elif q_data_type is None:
+        q_data_type = "float16"
+
+    if kv_data_type is None:
+        kv_data_type = q_data_type
+    q_data_type = (
+        getattr(torch, q_data_type) if isinstance(q_data_type, str) else q_data_type
+    )
+    kv_data_type = (
+        getattr(torch, kv_data_type) if isinstance(kv_data_type, str) else kv_data_type
+    )
+
+    if batch_size != self._fixed_batch_size:
+        raise ValueError(
+            "The batch size should be fixed in cudagraph mode, the runtime "
+            "batch size {} mismatches the batch size set during "
+            "initialization {}".format(batch_size, self._fixed_batch_size)
+        )
+    if len(indices) > len(self._paged_kv_indices_buf):
+        raise ValueError(
+            "The size of indices should be less than or equal to the allocated buffer"
+        )
+
+    # host-to-device copy for the indptr buffer
+    self._paged_kv_indptr_buf.copy_(indptr_cpu, non_blocking=True)
+    # host-to-device copy for the last_page_len buffer
+    self._paged_kv_last_page_len_buf.copy_(last_page_len_cpu, non_blocking=True)
+
+    qo_indptr_host = _get_range_buf(batch_size + 1, "cpu")
+
+    try:
+        # Make sure we pass exactly 18 arguments for tensor core version
+        self._plan_info = self._cached_module.plan(
+            self._float_workspace_buffer,
+            self._int_workspace_buffer,
+            self._pin_memory_int_workspace_buffer,
+            qo_indptr_host,
+            indptr_cpu,
+            seq_lens_cpu,
+            batch_size,  # total_num_rows
+            batch_size,
+            num_qo_heads,
+            num_kv_heads,
+            page_size,
+            self.is_cuda_graph_enabled,
+            head_dim,
+            head_dim,
+            False,  # causal
+            window_left,
+            fixed_split_size,
+            disable_split_kv,
+        )
+    except Exception as e:
+        raise RuntimeError(f"Error in tensor core plan: {e}") from e
+
+    self._pos_encoding_mode = pos_encoding_mode
+    self._window_left = window_left
+    self._logits_soft_cap = logits_soft_cap
+    self._sm_scale = sm_scale
+    self._rope_scale = rope_scale
+    self._rope_theta = rope_theta
+
+
+@triton.jit
+def _copy_page_indices_kernel(
+    page_indices,
+    block_table,
+    block_table_stride,
+    cu_num_blocks,
+    BLOCK_SIZE: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    row_ptr = block_table + req_idx * block_table_stride
+    start_idx = tl.load(cu_num_blocks + req_idx)
+    end_idx = tl.load(cu_num_blocks + req_idx + 1)
+    num_blocks = end_idx - start_idx
+
+    offset = tl.arange(0, BLOCK_SIZE)
+    for i in tl.range(0, num_blocks, BLOCK_SIZE):
+        block_ids = tl.load(row_ptr + i + offset, mask=i + offset < num_blocks)
+        tl.store(
+            page_indices + start_idx + i + offset,
+            block_ids,
+            mask=i + offset < num_blocks,
+        )
diff --git a/v1/attention/backends/flex_attention.py b/v1/attention/backends/flex_attention.py
new file mode 100644
index 0000000..7768827
--- /dev/null
+++ b/v1/attention/backends/flex_attention.py
@@ -0,0 +1,926 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with FlexAttention."""
+
+import math
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+import torch._dynamo.decorators
+import torch.nn.functional as F
+from torch.nn.attention.flex_attention import (
+    BlockMask,
+    _mask_mod_signature,
+    _score_mod_signature,
+    and_masks,
+    create_block_mask,
+    flex_attention,
+)
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    is_quantized_kv_cache,
+)
+from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.utils.math_utils import cdiv
+from vllm.utils.torch_utils import is_torch_equal_or_newer
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+create_block_mask_compiled = torch.compile(
+    create_block_mask, fullgraph=True, mode="reduce-overhead"
+)
+flex_attention_compiled = torch.compile(flex_attention, fullgraph=True)
+
+
+def _offsets_to_doc_ids_tensor(offsets: torch.Tensor) -> torch.Tensor:
+    device = offsets.device
+    counts = offsets[1:] - offsets[:-1]
+    return torch.repeat_interleave(
+        torch.arange(len(counts), device=device, dtype=torch.int32), counts
+    )
+
+
+def pad_to_multiple(x: torch.Tensor, multiple: int, dim: int):
+    difference = (multiple - (x.shape[dim] % multiple)) % multiple
+    if difference == 0:
+        return x
+
+    dim = dim if dim >= 0 else x.ndim + dim
+    pad_list = []
+
+    for i in range(x.ndim - 1, dim - 1, -1):
+        if i == dim:
+            pad_list.extend([0, difference])
+        else:
+            pad_list.extend([0, 0])
+
+    return F.pad(x, pad_list, mode="constant", value=0)
+
+
+class FlexAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLEX_ATTENTION"
+
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """FlexAttention supports both decoder and encoder-only attention."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (AttentionType.DECODER, AttentionType.ENCODER_ONLY)
+
+    @staticmethod
+    def get_impl_cls() -> type["FlexAttentionImpl"]:
+        return FlexAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def get_builder_cls() -> type["FlexAttentionMetadataBuilder"]:
+        return FlexAttentionMetadataBuilder
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return []
+
+
+# @torch.compile(fullgraph=True, mode="reduce-overhead")
+def physical_to_logical_mapping(
+    block_table: torch.Tensor,
+    seq_lens: torch.Tensor,
+    block_size: int,
+    total_blocks: int,
+) -> torch.Tensor:
+    """
+    Creates an inverse mapping from physical block locations to logical indices.
+
+    The original block_table maps from logical blocks to physical locations:
+
+    Logical to Physical (Original block_table):
+    ┌───────────────────────────────────────────┐
+    │ Request 0:                                │
+    │                                           │
+    │ Logical Blocks:  0  1  2  3  4  5  6  7   │
+    │                  │  │  │  │  │  │  │  │   │
+    │                  v  v  v  v  v  v  v  v   │
+    │ Physical Blocks: 3  5  1  7  4  2  0  6   │
+    └───────────────────────────────────────────┘
+
+    This function creates the inverse mapping:
+
+    Physical to Logical (Inverse mapping):
+    ┌───────────────────────────────────────────┐
+    │ Request 0:                                │
+    │                                           │
+    │ Physical Blocks: 0  1  2  3  4  5  6  7   │
+    │                  │  │  │  │  │  │  │  │   │
+    │                  v  v  v  v  v  v  v  v   │
+    │ Logical Blocks:  6  2  5  0  4  1  7  3   │
+    └───────────────────────────────────────────┘
+
+    If multiple logical blocks map to the same physical block,
+    this function returns the first (minimum) logical block index.
+
+    If a physical block is not mapped to by any logical block,
+    its value in the result will be -1.
+
+    IMPORTANT: Garbage Value Protection
+    ────────────────────────────────────
+    The block_table tensor may contain garbage values in unused positions
+    (beyond the actual sequence length). For example, if a sequence only
+    needs 3 blocks but the table has space for 8:
+
+        block_table[0] = [10, 25, 7, 999, 1234, 888, ...]
+                                    ^^^^^^^^^^^^^^^^^^^^
+                                    garbage values
+
+    These garbage values can cause issues because:
+    1. They may map to valid physical blocks by coincidence
+    2. The scatter_ operation will assign them logical indices
+    3. Later attention computations may incorrectly access these blocks
+
+    To prevent this, we use seq_lens and block_size to mask out unused
+    entries, ensuring only valid block references are processed.
+
+    Args:
+        block_table: Tensor of shape [max_reqs, max_num_blocks]
+            mapping logical blocks to physical locations. May contain
+            garbage values in unused positions.
+        seq_lens: Tensor of sequence lengths for each request. Used to
+            determine how many blocks are actually needed per sequence.
+        block_size: Size of each block in tokens. Used with seq_lens to
+            compute the number of valid blocks per sequence.
+        total_blocks: Total number of physical blocks available
+
+    Returns:
+        A tensor of shape [max_reqs, total_blocks] where each entry
+        physical_to_logical[req_id, physical_block] contains the logical
+        block index for that physical block, or -1 if unused.
+    """
+    max_reqs, max_num_blocks = block_table.shape
+    device = block_table.device
+
+    physical_to_logical = torch.full(
+        (max_reqs, total_blocks), -1, dtype=torch.long, device=device
+    )
+
+    # Only process valid blocks to avoid garbage values
+    num_blocks_per_seq = cdiv(seq_lens, block_size)
+    mask = (
+        torch.arange(max_num_blocks, device=device)[None, :]
+        < num_blocks_per_seq[:, None]
+    )
+
+    valid_block_table = torch.where(mask, block_table, 0)
+    valid_logical_indices = torch.where(
+        mask, torch.arange(max_num_blocks, device=device)[None, :], 0
+    )
+
+    physical_to_logical.scatter_(
+        -1, valid_block_table.to(torch.int64), valid_logical_indices
+    )
+    # NB - Seems like block 0 is always empty so we reset it manually
+    physical_to_logical[:, 0] = -1
+    return physical_to_logical
+
+
+def unique_static_unsorted(
+    x: torch.Tensor,
+    *,
+    M: int,  # maximum positive value (0 is “skip me”)
+    dim: int = -1,  # axis along which to deduplicate
+    ignored_val: int = 0,  # value to ignore
+    pad_val: int = -1,  # sentinel for unused slots
+) -> torch.Tensor:
+    """
+    - Keeps the first occurrence of each non-zero value while preserving order,
+      then left-packs those uniques and fills the rest with `pad_val`.
+    - Returns (packed, keep_mask) with the *same shape* as `x`.
+    - Requires that all values be in the range [0, M]
+    - Skips ignored_val
+
+    Works on CPU or GPU, no Python loops, O(B·N) time / O(B·M) memory.
+
+    Example:
+    x =[3, 1, 0, 1, 2], M=3, ignored_val=0 => [3, 1, 2, -1, -1]
+    """
+    if not (-1 <= pad_val <= M):
+        raise ValueError("`pad_val` must lie in [-1, M]")
+
+    # ── move `dim` to the end so we can treat tensor as [B, N] ──────────
+    dim = dim % x.ndim
+    x_perm = x.movedim(dim, -1)  # shape [..., N]
+    B, N = x_perm.numel() // x_perm.shape[-1], x_perm.shape[-1]
+    x_flat = x_perm.reshape(B, N)  # [B, N]
+
+    device = x.device
+    idx = torch.arange(N, device=device).expand(B, N)  # per-row indices
+
+    # ── build first-occurrence table for every v ∈ [0, M] ───────────────
+    first_idx = torch.full((B, M + 1), N, device=device)  # “∞”
+    # scatter_reduce_: first_idx[b, v] = min(first_idx[b, v], i) for each i
+    first_idx.scatter_reduce_(1, x_flat, idx, reduce="amin")
+
+    # ── keep mask: first occurrence *and* value ≠ 0 ─────────────────────
+    keep = (x_flat != ignored_val) & (idx == first_idx.gather(1, x_flat))  # [B, N]
+
+    # ── left-pack uniques into a fresh tensor ───────────────────────────
+    dest_pos = torch.cumsum(keep.to(torch.long), dim=1) - 1  # where to go
+    packed_flat = torch.full_like(x_flat, pad_val)
+
+    rows, src_cols = torch.nonzero(keep, as_tuple=True)
+    packed_flat[rows, dest_pos[rows, src_cols]] = x_flat[rows, src_cols]
+
+    # ── restore original layout ─────────────────────────────────────────
+    packed = packed_flat.reshape(x_perm.shape).movedim(-1, dim)
+    return packed
+
+
+def causal_mask_mod(
+    b: torch.Tensor, h: torch.Tensor, q_idx: torch.Tensor, kv_idx: torch.Tensor
+):
+    return q_idx >= kv_idx
+
+
+@dataclass
+class FlexAttentionMetadata:
+    causal: bool
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    use_cascade: bool
+    common_prefix_len: int
+    cu_prefix_query_lens: torch.Tensor | None
+    prefix_kv_lens: torch.Tensor | None
+    suffix_kv_lens: torch.Tensor | None
+
+    # Block info
+    total_cache_tokens: int
+    block_size: int
+    max_possible_sequence_length: int
+    num_reqs: int
+    physical_to_logical: torch.Tensor
+    decode_offset: torch.Tensor
+    num_blocks_per_seq: torch.Tensor
+
+    # For logging.
+    num_input_tokens: int = 0  # Number of tokens including padding.
+
+    # Flex Metadata
+    num_blocks = 0
+    block_mask: BlockMask | None = None
+    score_mod: _score_mod_signature | None = None
+    logical_mask_mod: _mask_mod_signature = causal_mask_mod
+    doc_ids: torch.Tensor | None = None
+    direct_build: bool = True
+    q_block_size: int = 16
+    kv_block_size: int = 16
+    transformed_score_mod: _score_mod_signature | None = None
+    sliding_window: int | None = None
+
+    def _convert_physical_to_logical(
+        self,
+        request_lookup: torch.Tensor,
+        q_idx: torch.Tensor,
+        physical_kv_idx: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """Convert physical indices to logical indices for both query and kv.
+
+        NB is_within_lower_bound: do sequences start on block_boundaries?
+
+        Returns:
+            tuple of (is_valid, logical_q_idx, logical_kv_idx)
+        """
+        # Map query indices to corresponding request indices
+        q_req = request_lookup[q_idx]
+
+        # Convert physical KV indices to logical indices
+        physical_kv_block = physical_kv_idx // self.block_size
+        physical_kv_offset = physical_kv_idx % self.block_size
+        logical_block_idx = self.physical_to_logical[q_req, physical_kv_block]
+        logical_kv_idx = logical_block_idx * self.block_size + physical_kv_offset
+
+        # Determine valid kv indices
+        live_block = logical_block_idx >= 0
+        within_upper_bound = logical_kv_idx < self.seq_lens[q_req]
+        within_lower_bound = logical_kv_idx >= 0
+        is_valid = live_block & within_upper_bound & within_lower_bound
+
+        # Convert physical query indices to logical indices
+        local_q_idx = q_idx - self.query_start_loc[q_req]
+        logical_q_idx = local_q_idx + self.decode_offset[q_req]
+
+        return is_valid, logical_q_idx, logical_kv_idx
+
+    def get_causal_mask_mod(self) -> _mask_mod_signature:
+        """Creates the mask_mod function for FlexAttention.
+
+        This function creates the combined mask mod function that handles:
+            1. The paged attention block mapping
+            2. The mapping from packed query sequences to logical query entries
+
+        It also by defaults adds the decoding offset to the query indices.
+        With this info we create the "logical" indices that are passed to
+        mask_mod functions. This allows mask mod functions to be agnostic to
+        layout of the query and key/value tensors.
+        """
+        assert self.doc_ids is not None
+
+        def final_mask_mod(
+            b: torch.Tensor,
+            h: torch.Tensor,
+            q_idx: torch.Tensor,
+            physical_kv_idx: torch.Tensor,
+        ) -> torch.Tensor:
+            (is_valid, logical_q_idx, logical_kv_idx) = (
+                self._convert_physical_to_logical(self.doc_ids, q_idx, physical_kv_idx)
+            )
+            # Apply mask modification only for valid indices
+            return torch.where(
+                is_valid,
+                self.logical_mask_mod(b, h, logical_q_idx, logical_kv_idx),
+                False,
+            )
+
+        return final_mask_mod
+
+    def get_bidirectional_mask_mod(self) -> _mask_mod_signature:
+        """Creates the encoder mask_mod function for FlexAttention.
+
+        Since the encoder bidirectional attention doesn't run with
+        KV cache, this function creates a mask based on the
+        packed query sequences.
+        """
+        # Create a lookup mapping from query indices -> request number
+        request_lookup = _offsets_to_doc_ids_tensor(self.query_start_loc)
+
+        def final_mask_mod(
+            b: torch.Tensor,
+            h: torch.Tensor,
+            q_idx: torch.Tensor,
+            kv_idx: torch.Tensor,
+        ) -> torch.Tensor:
+            return request_lookup[q_idx] == request_lookup[kv_idx]
+
+        return final_mask_mod
+
+    def get_sliding_window_mask_mod(self) -> _mask_mod_signature:
+        """Creates the sliding window mask_mod function for FlexAttention.
+
+        Note that the sliding window mask here is bidirectional, we need
+        to mask it with the bidirectional/causal mask for encoder/decoder.
+        """
+
+        if self.sliding_window is None:
+            raise ValueError("sliding_window must be set for sliding window attention")
+
+        def sliding_window_mask_mod(
+            b: torch.Tensor, h: torch.Tensor, q_idx: torch.Tensor, kv_idx: torch.Tensor
+        ):
+            return torch.abs(q_idx - kv_idx) < self.sliding_window
+
+        def final_mask_mod(
+            b: torch.Tensor,
+            h: torch.Tensor,
+            q_idx: torch.Tensor,
+            physical_kv_idx: torch.Tensor,
+        ) -> torch.Tensor:
+            (is_valid, logical_q_idx, logical_kv_idx) = (
+                self._convert_physical_to_logical(self.doc_ids, q_idx, physical_kv_idx)
+            )
+            return torch.where(
+                is_valid,
+                sliding_window_mask_mod(b, h, logical_q_idx, logical_kv_idx),
+                False,
+            )
+
+        return final_mask_mod if self.causal else sliding_window_mask_mod
+
+    def get_mask_mod(self):
+        # Stage-1: initialize the base mask_mod
+        # (causal mask for decoder or bidirectional mask for encoder)
+        if self.causal:
+            mask_mod = self.get_causal_mask_mod()
+        else:
+            mask_mod = self.get_bidirectional_mask_mod()
+        # stage-2: add external mask_mod for special attention during
+        # forwarding runtime to create the combined mask_mod.
+        if self.sliding_window is not None:
+            # Add sliding window mask for sliding window attention
+            sliding_window_mask_mod = self.get_sliding_window_mask_mod()
+            mask_mod = and_masks(mask_mod, sliding_window_mask_mod)
+        return mask_mod
+
+    def get_transformed_score_mod(self) -> _score_mod_signature | None:
+        """Creates the transformed score_mod function for FlexAttention.
+
+        This function wraps the user's score_mod to handle physical-to-logical
+        index conversion, similar to how get_mask_mod works for mask functions.
+        """
+        if self.score_mod is None:
+            return None
+
+        # Create a lookup mapping from query indices -> request number
+        request_lookup = _offsets_to_doc_ids_tensor(self.query_start_loc)
+        user_score_mod = self.score_mod
+
+        def transformed_score_mod(
+            score: torch.Tensor,
+            b: torch.Tensor,
+            h: torch.Tensor,
+            q_idx: torch.Tensor,
+            physical_kv_idx: torch.Tensor,
+        ) -> torch.Tensor:
+            (is_valid, logical_q_idx, logical_kv_idx) = (
+                self._convert_physical_to_logical(
+                    request_lookup, q_idx, physical_kv_idx
+                )
+            )
+
+            return torch.where(
+                is_valid,
+                user_score_mod(
+                    score, b, h, logical_q_idx, logical_kv_idx, physical_q=q_idx
+                ),
+                -float("inf"),
+            )
+
+        return transformed_score_mod
+
+    def _build_block_mask_direct(self) -> BlockMask:
+        """Direct block mask construction for standard causal attention.
+
+        This method constructs the block mask directly using
+        BlockMask.from_kv_blocks which is much more efficient than the
+        generic create_block_mask approach.
+
+        The direct path works as follows:
+        1. For each query token, fetch blocks from block_table using max_seq_len
+           (this fetches more blocks than needed for shorter sequences)
+        2. Group query tokens into chunks of q_block_size
+        3. For each group, deduplicate the blocks using unique_static_unsorted
+        4. Create BlockMask using the deduplicated block indices
+
+        Over-estimation occurs when a group of q_block_size tokens contains
+        multiple sequence IDs (doc_ids). In this case, we fetch ALL blocks for
+        each sequence represented in the group, even though individual query
+        tokens may only need a subset of those blocks based on causal masking
+        and their position.
+
+        """
+        page_to_block_ratio = self.kv_block_size // self.block_size
+        if page_to_block_ratio != 1:
+            raise ValueError(
+                f"FlexAttention currently requires the cache block size "
+                f"({self.block_size}) to be equal to the kv_block_size "
+                f"({self.kv_block_size}). Please check your model's "
+                f"configuration."
+            )
+
+        used_pages = self.block_table[
+            self.doc_ids, : cdiv(self.max_seq_len, self.block_size)
+        ]
+        used_pages_padded = pad_to_multiple(
+            used_pages, multiple=self.q_block_size, dim=0
+        )
+        used_pages_padded = used_pages_padded.reshape(
+            used_pages_padded.shape[0] // self.q_block_size, -1
+        )
+        used_pages_padded = used_pages_padded // page_to_block_ratio
+        kv_indices = unique_static_unsorted(
+            (used_pages_padded.long()), M=self.num_blocks
+        ).to(torch.int32)
+
+        kv_num_blocks = (kv_indices >= 0).sum(dim=-1).to(torch.int32)
+        block_mask_kwargs = {
+            "seq_lengths": (self.num_actual_tokens, self.total_cache_tokens),
+            "kv_num_blocks": kv_num_blocks[None, None],
+            "kv_indices": kv_indices[None, None],
+            "full_kv_num_blocks": None,
+            "full_kv_indices": None,
+            "BLOCK_SIZE": (self.q_block_size, self.kv_block_size),
+            "mask_mod": self.mask_mod,
+        }
+
+        # compute_q_blocks parameter is available in PyTorch 2.9+
+        if is_torch_equal_or_newer("2.9.0.dev0"):
+            block_mask_kwargs["compute_q_blocks"] = False
+        return BlockMask.from_kv_blocks(**block_mask_kwargs)
+
+    def build_block_mask(self) -> BlockMask:
+        mask_mod = self.get_mask_mod()
+        kv_len = self.total_cache_tokens if self.causal else self.num_actual_tokens
+        return create_block_mask_compiled(
+            mask_mod,
+            None,
+            None,
+            self.num_actual_tokens,
+            kv_len,
+            device=self.block_table.device,
+            BLOCK_SIZE=(self.q_block_size, self.kv_block_size),
+        )
+
+    def __post_init__(self):
+        assert self.use_cascade is False, "Not implemented yet."
+        assert self.common_prefix_len == 0, "Not implemented yet."
+        assert self.cu_prefix_query_lens is None, "Not implemented yet."
+        assert self.prefix_kv_lens is None, "Not implemented yet."
+        assert self.suffix_kv_lens is None, "Not implemented yet."
+        # Create a lookup mapping from query indices -> request number
+        self.doc_ids = _offsets_to_doc_ids_tensor(self.query_start_loc)
+        self.num_blocks = self.total_cache_tokens // self.block_size
+
+        self.mask_mod = self.get_mask_mod()
+        self.transformed_score_mod = self.get_transformed_score_mod()
+
+        if self.direct_build and self.causal:
+            self.block_mask = self._build_block_mask_direct()
+        else:
+            self.block_mask = self.build_block_mask()
+
+
+class FlexAttentionMetadataBuilder(AttentionMetadataBuilder[FlexAttentionMetadata]):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.model_config = vllm_config.model_config
+        self.parallel_config = vllm_config.parallel_config
+        self.cache_config = vllm_config.cache_config
+
+        self.num_heads_q = self.model_config.get_num_attention_heads(
+            self.parallel_config
+        )
+        self.num_heads_kv = self.model_config.get_num_kv_heads(self.parallel_config)
+        self.headdim = self.model_config.get_head_size()
+        self.block_size = kv_cache_spec.block_size
+        self.kv_cache_spec = kv_cache_spec
+        supports_small_blocks = is_torch_equal_or_newer("2.9.0.dev0")
+        self.direct_build: bool = supports_small_blocks
+        self.q_block_size: int = 16 if supports_small_blocks else 128
+        self.kv_block_size: int = self.block_size if supports_small_blocks else 128
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> FlexAttentionMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+        num_blocks_per_seq = cdiv(seq_lens, self.block_size)
+
+        use_cascade = common_prefix_len > 0
+        cu_prefix_query_lens = None
+        prefix_kv_lens = None
+        suffix_kv_lens = None
+        if use_cascade:
+            raise NotImplementedError("Not yet my friend")
+
+        block_size = self.kv_cache_spec.block_size
+        max_possible_seq_len = self.model_config.max_model_len
+        num_gpu_blocks = self.cache_config.num_gpu_blocks
+
+        assert num_gpu_blocks is not None, (
+            "FlexAttention requires num_gpu_blocks to be set"
+        )
+        total_cache_tokens = num_gpu_blocks * block_size
+
+        inverse_block_table = physical_to_logical_mapping(
+            block_table_tensor, seq_lens, block_size, num_gpu_blocks
+        )
+
+        offset_tensor = common_attn_metadata.num_computed_tokens_cpu.to(
+            self.device, non_blocking=True
+        )
+
+        out = FlexAttentionMetadata(
+            causal=common_attn_metadata.causal,
+            num_actual_tokens=num_actual_tokens,
+            max_query_len=max_query_len,
+            query_start_loc=query_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            use_cascade=use_cascade,
+            common_prefix_len=common_prefix_len,
+            cu_prefix_query_lens=cu_prefix_query_lens,
+            prefix_kv_lens=prefix_kv_lens,
+            suffix_kv_lens=suffix_kv_lens,
+            block_size=block_size,
+            max_possible_sequence_length=max_possible_seq_len,
+            num_reqs=num_reqs,
+            physical_to_logical=inverse_block_table,
+            total_cache_tokens=total_cache_tokens,
+            decode_offset=offset_tensor,
+            num_blocks_per_seq=num_blocks_per_seq,
+            # FIXME(Isotr0py): direct build has issue to build bidirectional
+            # attention block mask for encoder-only models, disable it temporarily.
+            # see: https://github.com/vllm-project/vllm/pull/27329#issuecomment-3431484053
+            direct_build=(self.direct_build and common_attn_metadata.causal),
+            q_block_size=self.q_block_size,
+            kv_block_size=self.kv_block_size,
+        )
+        return out
+
+    def use_cascade_attention(self, *args, **kwargs) -> bool:
+        return False
+
+
+class FlexAttentionImpl(AttentionImpl):
+    sliding_window: int | None
+    alibi_slopes: torch.Tensor | None
+    logits_soft_cap: float | None
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+        **kwargs,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        self.attn_type = attn_type
+
+        if attn_type not in (AttentionType.ENCODER_ONLY, AttentionType.DECODER):
+            raise NotImplementedError(
+                f"FlexAttention does not support {attn_type} attention"
+            )
+
+        if alibi_slopes is not None:
+            raise NotImplementedError(
+                "FlexAttention does not support alibi slopes yet."
+            )
+        else:
+            self.alibi_slopes = None
+
+        self.sliding_window = sliding_window
+
+        self.kv_cache_dtype = kv_cache_dtype
+        self.logits_soft_cap = logits_soft_cap
+        if self.logits_soft_cap is not None:
+            raise NotImplementedError(
+                "FlexAttention does not support logits soft cap yet."
+            )
+
+        assert self.num_heads % self.num_kv_heads == 0
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        if kv_sharing_target_layer_name is not None:
+            raise NotImplementedError("FlexAttention does not support kv sharing yet.")
+
+        if is_quantized_kv_cache(self.kv_cache_dtype):
+            raise NotImplementedError(
+                "FlexAttention does not support quantized kv-cache. Yet"
+            )
+
+    @staticmethod
+    def view_as_4d(tensor: torch.Tensor) -> torch.Tensor:
+        """View a 3d tensor as 4D."""
+        if tensor.ndim == 4:
+            return tensor
+        assert tensor.ndim == 3
+        return tensor[None, :, :, :]
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: FlexAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with FLexAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for FlexAttentionImpl"
+            )
+
+        enable_gqa = self.num_kv_heads != self.num_heads
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+            # query = self.view_as_4d(query).permute(0, 2, 1, 3)
+            # return torch.empty_like(query)
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        if attn_metadata.sliding_window != self.sliding_window:
+            attn_metadata.sliding_window = self.sliding_window
+            if attn_metadata.direct_build:
+                # TODO: Support skipping the computation of sliding window
+                # in direct block mask building code path.
+                logger.warning_once(
+                    "Using direct block mask building with sliding window, "
+                    "which is suboptimal now. Performance may be degraded."
+                )
+                # update mask mod in attention metadata
+                attn_metadata.mask_mod = attn_metadata.get_mask_mod()
+                attn_metadata.block_mask = attn_metadata._build_block_mask_direct()
+            else:
+                attn_metadata.block_mask = attn_metadata.build_block_mask()
+
+        if not attn_metadata.causal:
+            assert self.attn_type == AttentionType.ENCODER_ONLY
+
+            query, key_tensor, value_tensor = map(
+                lambda x: self.view_as_4d(x).permute(0, 2, 1, 3),
+                (query, key, value),
+            )
+
+            query = query[:, :, :num_actual_tokens, :]
+            if (key_tensor.size(-2) > num_actual_tokens) or (
+                value_tensor.size(-2) > num_actual_tokens
+            ):
+                # In the encoder-only model with torch.compile,
+                # qkv might be padded, which might cause exception.
+                # see: https://github.com/vllm-project/vllm/pull/24872#discussion_r2353252290
+                key_tensor = key_tensor[:, :, :num_actual_tokens, :]
+                value_tensor = value_tensor[:, :, :num_actual_tokens, :]
+
+        else:
+            assert self.attn_type == AttentionType.DECODER
+            key_cache, value_cache = kv_cache.unbind(0)
+
+            torch.ops._C_cache_ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+            # View out the block_size dim
+            key_cache = key_cache.view(-1, self.num_kv_heads, self.head_size)
+            value_cache = value_cache.view(-1, self.num_kv_heads, self.head_size)
+            query, key_tensor, value_tensor = map(
+                lambda x: self.view_as_4d(x).permute(0, 2, 1, 3),
+                (query, key_cache, value_cache),
+            )
+
+            query = query[:, :, :num_actual_tokens, :]
+
+        # Doesn't work for now -> constraint violation
+        # torch._dynamo.try_mark_dynamic(query, 2)
+
+        assert attn_metadata.block_mask is not None
+        block_m, block_n = attn_metadata.block_mask.BLOCK_SIZE
+
+        kernel_options = get_kernel_options(
+            query, block_m, block_n, attn_metadata.direct_build
+        )
+        out = flex_attention_compiled(
+            query,
+            key_tensor,
+            value_tensor,
+            attn_metadata.transformed_score_mod,
+            attn_metadata.block_mask,
+            self.scale,
+            enable_gqa=enable_gqa,
+            kernel_options=kernel_options,
+        )
+
+        # Flex doesn't have an out variant today, rely on epilogue fusion
+        out = out.permute(0, 2, 1, 3).squeeze(0)
+        output[:num_actual_tokens, :, :].copy_(out)
+        return output
+
+
+def get_kernel_options(
+    query, block_m, block_n, use_direct_build: bool
+) -> dict[str, int | bool]:
+    kernel_options: dict[str, int | bool] = {
+        "FORCE_USE_FLEX_ATTENTION": True,
+    }
+
+    def ensure_divisible(candidate: int, block_size: int) -> int:
+        """Pick a kernel block size that divides the logical block."""
+        if block_size <= 0:
+            return candidate
+        candidate = min(candidate, block_size)
+        if candidate <= 0:
+            return block_size
+        if block_size % candidate == 0:
+            return candidate
+
+        candidate = math.gcd(candidate, block_size)
+        if candidate <= 1:
+            return block_size
+        return candidate
+
+    if vllm_is_batch_invariant():
+        kernel_options["BLOCK_M"] = 16
+        kernel_options["BLOCK_N"] = 16
+        kernel_options["IS_DIVISIBLE"] = False
+        return kernel_options
+    if use_direct_build:
+        kernel_options["BLOCK_M"] = block_m
+        kernel_options["BLOCK_N"] = block_n
+        return kernel_options
+    else:
+        preferred_block = 32 if query.dtype == torch.float32 else 64
+        block_lower_bound = 16
+
+        block_m_candidate = ensure_divisible(preferred_block, block_m)
+        block_n_candidate = ensure_divisible(preferred_block, block_n)
+
+        if torch.cuda.is_available():
+            device_props = torch.cuda.get_device_properties()
+            max_shared_memory = device_props.shared_memory_per_block_optin
+            if max_shared_memory < 144 * 1024:
+                block_m_candidate = ensure_divisible(
+                    max(1, block_m_candidate // 2), block_m
+                )
+                block_n_candidate = ensure_divisible(
+                    max(1, block_n_candidate // 2), block_n
+                )
+
+        block_m_candidate = max(block_m_candidate, block_lower_bound)
+        block_n_candidate = max(block_n_candidate, block_lower_bound)
+
+        kernel_options["BLOCK_M"] = block_m_candidate
+        kernel_options["BLOCK_N"] = block_n_candidate
+
+    return kernel_options
diff --git a/v1/attention/backends/gdn_attn.py b/v1/attention/backends/gdn_attn.py
new file mode 100644
index 0000000..69b5a6f
--- /dev/null
+++ b/v1/attention/backends/gdn_attn.py
@@ -0,0 +1,387 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Backend for GatedDeltaNet attention."""
+
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.attention.backends.utils import PAD_SLOT_ID
+from vllm.config import VllmConfig
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    compute_causal_conv1d_metadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec, MambaSpec
+
+
+class GDNAttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_builder_cls() -> type["GDNAttentionMetadataBuilder"]:
+        return GDNAttentionMetadataBuilder
+
+
+@dataclass
+class GDNAttentionMetadata:
+    num_prefills: int
+    num_prefill_tokens: int
+    num_decodes: int
+    num_decode_tokens: int
+    num_spec_decodes: int
+    num_spec_decode_tokens: int
+    num_actual_tokens: int
+
+    has_initial_state: torch.Tensor | None = None
+
+    spec_query_start_loc: torch.Tensor | None = None  # shape: [num_spec_decodes + 1,]
+    non_spec_query_start_loc: torch.Tensor | None = (
+        None  # shape: [batch - num_spec_decodes + 1,]
+    )
+
+    spec_state_indices_tensor: torch.Tensor | None = None  # shape: [batch, num_spec]
+    non_spec_state_indices_tensor: torch.Tensor | None = (
+        None  # shape: [batch - num_spec_decodes,]
+    )
+    spec_sequence_masks: torch.Tensor | None = None  # shape: [batch,]
+    spec_token_indx: torch.Tensor | None = None
+    non_spec_token_indx: torch.Tensor | None = None
+
+    num_accepted_tokens: torch.Tensor | None = None  # shape: [batch,]
+
+    # The following attributes are for triton implementation of causal_conv1d
+    nums_dict: dict | None = None
+    batch_ptr: torch.Tensor | None = None
+    token_chunk_offset_ptr: torch.Tensor | None = None
+
+
+class GDNAttentionMetadataBuilder(AttentionMetadataBuilder[GDNAttentionMetadata]):
+    _cudagraph_support = AttentionCGSupport.UNIFORM_BATCH
+
+    reorder_batch_threshold: int = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        assert isinstance(kv_cache_spec, MambaSpec)
+        self.vllm_config = vllm_config
+        self.compilation_config = vllm_config.compilation_config
+        self.speculative_config = vllm_config.speculative_config
+        self.kv_cache_spec = kv_cache_spec
+        if self.speculative_config:
+            self.num_spec = self.speculative_config.num_speculative_tokens
+        else:
+            self.num_spec = 0
+        self.use_spec_decode = self.num_spec > 0
+        self._init_reorder_batch_threshold(1, self.use_spec_decode)
+
+        self.use_full_cuda_graph = (
+            self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        )
+        self.decode_cudagraph_max_bs = min(
+            self.vllm_config.scheduler_config.max_num_seqs * (self.num_spec + 1),
+            self.compilation_config.max_cudagraph_capture_size,
+        )
+
+        self.spec_state_indices_tensor = torch.empty(
+            (self.decode_cudagraph_max_bs, self.num_spec + 1),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.non_spec_state_indices_tensor = torch.empty(
+            (self.decode_cudagraph_max_bs,),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.spec_sequence_masks = torch.empty(
+            (self.decode_cudagraph_max_bs,),
+            dtype=torch.bool,
+            device=device,
+        )
+        self.spec_token_indx = torch.empty(
+            (self.decode_cudagraph_max_bs * (self.num_spec + 1),),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.non_spec_token_indx = torch.empty(
+            (self.decode_cudagraph_max_bs * (self.num_spec + 1),),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.spec_query_start_loc = torch.empty(
+            (self.decode_cudagraph_max_bs + 1,),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.non_spec_query_start_loc = torch.empty(
+            (self.decode_cudagraph_max_bs + 1,),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.num_accepted_tokens = torch.empty(
+            (self.decode_cudagraph_max_bs,),
+            dtype=torch.int32,
+            device=device,
+        )
+
+    def build(  # type: ignore[override]
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        num_accepted_tokens: torch.Tensor | None = None,
+        num_decode_draft_tokens_cpu: torch.Tensor | None = None,
+        fast_build: bool = False,
+    ) -> GDNAttentionMetadata:
+        m = common_attn_metadata
+
+        query_start_loc = m.query_start_loc
+        context_lens = m.num_computed_tokens_cpu
+        context_lens_tensor = context_lens.to(query_start_loc.device)
+        nums_dict, batch_ptr, token_chunk_offset_ptr = None, None, None
+
+        if (
+            not self.use_spec_decode
+            or num_decode_draft_tokens_cpu is None
+            or num_decode_draft_tokens_cpu[num_decode_draft_tokens_cpu >= 0]
+            .sum()
+            .item()
+            == 0
+        ):
+            spec_sequence_masks = None
+            num_spec_decodes = 0
+        else:
+            spec_sequence_masks = num_decode_draft_tokens_cpu >= 0
+            num_spec_decodes = spec_sequence_masks.sum().item()
+            if num_spec_decodes == 0:
+                spec_sequence_masks = None
+            else:
+                spec_sequence_masks = spec_sequence_masks.to(
+                    query_start_loc.device, non_blocking=True
+                )
+
+        if spec_sequence_masks is None:
+            num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+                split_decodes_and_prefills(m, decode_threshold=1)
+            )
+            num_spec_decode_tokens = 0
+            spec_token_indx = None
+            non_spec_token_indx = None
+            spec_state_indices_tensor = None
+            non_spec_state_indices_tensor = m.block_table_tensor[:, 0]
+            spec_query_start_loc = None
+            non_spec_query_start_loc = query_start_loc
+            num_accepted_tokens = None
+        else:
+            query_lens = query_start_loc[1:] - query_start_loc[:-1]
+
+            non_spec_query_lens = query_lens[~spec_sequence_masks]
+            num_decodes = (non_spec_query_lens == 1).sum().item()
+            num_prefills = non_spec_query_lens.size(0) - num_decodes
+            num_decode_tokens = num_decodes
+            num_prefill_tokens = non_spec_query_lens.sum().item() - num_decode_tokens
+            num_spec_decode_tokens = (
+                query_lens.sum().item() - num_prefill_tokens - num_decode_tokens
+            )
+
+            if num_prefills == 0 and num_decodes == 0:
+                spec_token_size = min(
+                    num_spec_decodes * (self.num_spec + 1),
+                    query_start_loc[-1].item(),
+                )
+                spec_token_indx = torch.arange(
+                    spec_token_size,
+                    dtype=torch.int32,
+                    device=query_start_loc.device,
+                )
+                non_spec_token_indx = torch.empty(
+                    0, dtype=torch.int32, device=query_start_loc.device
+                )
+                spec_state_indices_tensor = m.block_table_tensor[:, : self.num_spec + 1]
+                non_spec_state_indices_tensor = None
+                spec_query_start_loc = query_start_loc
+                non_spec_query_start_loc = None
+            else:
+                spec_token_masks = torch.repeat_interleave(
+                    spec_sequence_masks, query_lens
+                )
+                index = torch.argsort(spec_token_masks)
+                num_non_spec_tokens = num_prefill_tokens + num_decode_tokens
+                non_spec_token_indx = index[:num_non_spec_tokens]
+                spec_token_indx = index[num_non_spec_tokens:]
+
+                spec_state_indices_tensor = m.block_table_tensor[
+                    spec_sequence_masks, : self.num_spec + 1
+                ]
+                non_spec_state_indices_tensor = m.block_table_tensor[
+                    ~spec_sequence_masks, 0
+                ]
+
+                spec_query_start_loc = torch.zeros(
+                    num_spec_decodes + 1,
+                    dtype=torch.int32,
+                    device=query_start_loc.device,
+                )
+                torch.cumsum(
+                    query_lens[spec_sequence_masks], dim=0, out=spec_query_start_loc[1:]
+                )
+                non_spec_query_start_loc = torch.zeros(
+                    query_lens.size(0) - num_spec_decodes + 1,
+                    dtype=torch.int32,
+                    device=query_start_loc.device,
+                )
+                torch.cumsum(
+                    query_lens[~spec_sequence_masks],
+                    dim=0,
+                    out=non_spec_query_start_loc[1:],
+                )
+
+            assert num_accepted_tokens is not None
+            num_accepted_tokens = num_accepted_tokens[spec_sequence_masks]
+
+        if num_prefills > 0:
+            has_initial_state = context_lens_tensor > 0
+            if spec_sequence_masks is not None:
+                has_initial_state = has_initial_state[~spec_sequence_masks]
+            nums_dict, batch_ptr, token_chunk_offset_ptr = (
+                compute_causal_conv1d_metadata(non_spec_query_start_loc)
+            )
+        else:
+            has_initial_state = None
+        num_actual_tokens = (
+            num_prefill_tokens + num_decode_tokens + num_spec_decode_tokens
+        )
+
+        # prepare tensors for cudagraph
+        #
+        # With speculative decoding, the xgrammar backend may rollback tokens
+        # and causing some sequences has less draft tokens than self.num_spec.
+        #
+        # In above cases, the max possible batch size for n tokens, can be
+        # min(n, cudagraph_max_bs).
+        if (
+            self.use_full_cuda_graph
+            and num_prefills == 0
+            and num_decodes == 0
+            and num_spec_decodes <= self.decode_cudagraph_max_bs
+            and num_spec_decode_tokens <= self.decode_cudagraph_max_bs
+        ):
+            num_actual_tokens = self.vllm_config.pad_for_cudagraph(m.num_actual_tokens)
+            batch_size = min(self.decode_cudagraph_max_bs, num_actual_tokens)
+
+            self.spec_state_indices_tensor[:num_spec_decodes].copy_(
+                spec_state_indices_tensor, non_blocking=True
+            )
+            spec_state_indices_tensor = self.spec_state_indices_tensor[:batch_size]
+            spec_state_indices_tensor[num_spec_decodes:].fill_(PAD_SLOT_ID)
+
+            self.spec_sequence_masks[:num_spec_decodes].copy_(
+                spec_sequence_masks, non_blocking=True
+            )
+            spec_sequence_masks = self.spec_sequence_masks[:batch_size]
+            spec_sequence_masks[num_spec_decodes:].fill_(False)
+
+            assert non_spec_token_indx is not None and spec_token_indx is not None
+            self.non_spec_token_indx[: non_spec_token_indx.size(0)].copy_(
+                non_spec_token_indx, non_blocking=True
+            )
+            non_spec_token_indx = self.non_spec_token_indx[
+                : non_spec_token_indx.size(0)
+            ]
+
+            self.spec_token_indx[: spec_token_indx.size(0)].copy_(
+                spec_token_indx, non_blocking=True
+            )
+            spec_token_indx = self.spec_token_indx[: spec_token_indx.size(0)]
+
+            self.spec_query_start_loc[: num_spec_decodes + 1].copy_(
+                spec_query_start_loc, non_blocking=True
+            )
+            spec_num_query_tokens = spec_query_start_loc[-1]  # type: ignore[index]
+            spec_query_start_loc = self.spec_query_start_loc[: batch_size + 1]
+            spec_query_start_loc[num_spec_decodes + 1 :].fill_(spec_num_query_tokens)
+
+            self.num_accepted_tokens[:num_spec_decodes].copy_(
+                num_accepted_tokens, non_blocking=True
+            )
+            num_accepted_tokens = self.num_accepted_tokens[:batch_size]
+            num_accepted_tokens[num_spec_decodes:].fill_(1)
+
+        if (
+            self.use_full_cuda_graph
+            and num_prefills == 0
+            and num_spec_decodes == 0
+            and num_decodes <= self.decode_cudagraph_max_bs
+        ):
+            num_actual_tokens = self.vllm_config.pad_for_cudagraph(m.num_actual_tokens)
+            batch_size = num_actual_tokens
+
+            self.non_spec_state_indices_tensor[:num_decodes].copy_(
+                non_spec_state_indices_tensor, non_blocking=True
+            )
+            non_spec_state_indices_tensor = self.non_spec_state_indices_tensor[
+                :batch_size
+            ]
+            non_spec_state_indices_tensor[num_decodes:].fill_(PAD_SLOT_ID)
+
+            self.non_spec_query_start_loc[: num_decodes + 1].copy_(
+                non_spec_query_start_loc, non_blocking=True
+            )
+            non_spec_num_query_tokens = non_spec_query_start_loc[-1]  # type: ignore[index]
+            non_spec_query_start_loc = self.non_spec_query_start_loc[: batch_size + 1]
+            non_spec_query_start_loc[num_decodes + 1 :].fill_(non_spec_num_query_tokens)
+
+        attn_metadata = GDNAttentionMetadata(
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_spec_decodes=num_spec_decodes,
+            num_spec_decode_tokens=num_spec_decode_tokens,
+            num_actual_tokens=num_actual_tokens,
+            has_initial_state=has_initial_state,
+            spec_query_start_loc=spec_query_start_loc,
+            non_spec_query_start_loc=non_spec_query_start_loc,
+            spec_state_indices_tensor=spec_state_indices_tensor,
+            non_spec_state_indices_tensor=non_spec_state_indices_tensor,
+            spec_sequence_masks=spec_sequence_masks,
+            spec_token_indx=spec_token_indx,
+            non_spec_token_indx=non_spec_token_indx,
+            num_accepted_tokens=num_accepted_tokens,
+            nums_dict=nums_dict,
+            batch_ptr=batch_ptr,
+            token_chunk_offset_ptr=token_chunk_offset_ptr,
+        )
+        return attn_metadata
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ):
+        """
+        This method builds the metadata for full cudagraph capture.
+        Currently, only decode is supported for full cudagraphs with Mamba.
+        """
+        m = common_attn_metadata
+
+        assert (
+            m.num_reqs <= self.decode_cudagraph_max_bs
+            and m.num_actual_tokens <= self.decode_cudagraph_max_bs
+        ), (
+            f"GDN only supports decode-only full CUDAGraph capture. "
+            f"Make sure batch size ({m.num_reqs}) <= "
+            f"cudagraph capture sizes ({self.decode_cudagraph_max_bs}), "
+            f"and number of tokens ({m.num_actual_tokens}) <= "
+            f"cudagraph capture sizes ({self.decode_cudagraph_max_bs})."
+        )
+
+        num_accepted_tokens = torch.diff(m.query_start_loc)
+        num_decode_draft_tokens_cpu = (num_accepted_tokens - 1).cpu()
+        m.num_computed_tokens_cpu = m.seq_lens_cpu - num_accepted_tokens.cpu()
+
+        return self.build(0, m, num_accepted_tokens, num_decode_draft_tokens_cpu)
diff --git a/v1/attention/backends/linear_attn.py b/v1/attention/backends/linear_attn.py
new file mode 100644
index 0000000..1900c50
--- /dev/null
+++ b/v1/attention/backends/linear_attn.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.config import VllmConfig
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec, MambaSpec
+
+
+class LinearAttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_builder_cls() -> type["LinearAttentionMetadataBuilder"]:
+        return LinearAttentionMetadataBuilder
+
+
+@dataclass
+class LinearAttentionMetadata:
+    num_prefills: int
+    num_prefill_tokens: int
+    num_decodes: int
+    num_decode_tokens: int
+    query_start_loc: torch.Tensor
+    seq_lens: torch.Tensor
+
+    state_indices_tensor: torch.Tensor  # shape: [batch,]
+
+
+class LinearAttentionMetadataBuilder(AttentionMetadataBuilder[LinearAttentionMetadata]):
+    reorder_batch_threshold: int = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        assert isinstance(kv_cache_spec, MambaSpec)
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> LinearAttentionMetadata:
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+
+        state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
+
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        attn_metadata = LinearAttentionMetadata(
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            query_start_loc=query_start_loc,
+            seq_lens=seq_lens,
+            state_indices_tensor=state_indices_tensor,
+        )
+        return attn_metadata
diff --git a/v1/attention/backends/mamba1_attn.py b/v1/attention/backends/mamba1_attn.py
new file mode 100644
index 0000000..8e949e5
--- /dev/null
+++ b/v1/attention/backends/mamba1_attn.py
@@ -0,0 +1,165 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.attention.backends.utils import PAD_SLOT_ID
+from vllm.config import VllmConfig
+from vllm.v1.attention.backends.mamba_attn import BaseMambaAttentionMetadataBuilder
+from vllm.v1.attention.backends.utils import (
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec, MambaSpec
+
+
+class Mamba1AttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_builder_cls() -> type["Mamba1AttentionMetadataBuilder"]:
+        return Mamba1AttentionMetadataBuilder
+
+
+@dataclass
+class Mamba1AttentionMetadata:
+    query_start_loc_p: torch.Tensor
+    state_indices_tensor: torch.Tensor
+    has_initial_states_p: torch.Tensor | None
+    num_prefills: int
+    num_prefill_tokens: int
+    num_decodes: int
+    num_decode_tokens: int
+    num_padded_decodes: int
+
+    block_idx_last_scheduled_token: torch.Tensor  # shape: [batch,]
+    block_idx_first_scheduled_token_p: torch.Tensor  # shape: [batch,]
+    block_idx_last_computed_token: torch.Tensor  # shape: [batch,]
+    num_computed_tokens_p: torch.Tensor  # shape: [batch,]
+
+
+class Mamba1AttentionMetadataBuilder(
+    BaseMambaAttentionMetadataBuilder[Mamba1AttentionMetadata]
+):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        assert isinstance(kv_cache_spec, MambaSpec)
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> Mamba1AttentionMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        has_initial_states_p = None
+        query_start_loc_p = None
+        padded_decodes = num_decodes
+        num_computed_tokens, num_computed_tokens_p = None, None
+        block_idx_first_scheduled_token = None
+        block_idx_first_scheduled_token_p = None
+
+        # TODO(@Josephasafg) Mamba1 and Mamba2 have a lot of code in common here.
+        # We should consolidate this code
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            # Return a tensor of shape (#requests, #max blocks)
+            state_indices_tensor = common_attn_metadata.block_table_tensor
+            mamba_block_size = self.kv_cache_spec.block_size
+            num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
+                self.device
+            )
+            (
+                block_idx_last_computed_token,
+                block_idx_first_scheduled_token,
+                block_idx_last_scheduled_token,
+            ) = self._compute_prefix_caching_block_indices(
+                common_attn_metadata, mamba_block_size
+            )
+        else:
+            # Always return just a single block per each request:
+            state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
+            block_idx_last_scheduled_token = None
+            block_idx_last_computed_token = None
+
+        if num_prefills > 0:
+            query_start_loc_p = (
+                common_attn_metadata.query_start_loc[-num_prefills - 1 :]
+                - num_decode_tokens
+            )
+            has_initial_states_cpu = (
+                common_attn_metadata.num_computed_tokens_cpu[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                > 0
+            )
+            has_initial_states_p = has_initial_states_cpu.to(
+                common_attn_metadata.query_start_loc.device
+            )
+
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                assert num_computed_tokens is not None
+                num_computed_tokens_p = num_computed_tokens[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                assert block_idx_first_scheduled_token is not None
+                block_idx_first_scheduled_token_p = block_idx_first_scheduled_token[
+                    num_reqs - num_prefills : num_reqs
+                ]
+
+        elif (
+            num_decodes > 0
+            and num_decodes <= self.decode_cudagraph_max_bs
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        ):
+            padded_decodes = self.vllm_config.pad_for_cudagraph(num_decodes)
+            self.state_indices_tensor[:num_decodes].copy_(
+                state_indices_tensor, non_blocking=True
+            )
+            state_indices_tensor = self.state_indices_tensor[:padded_decodes]
+            state_indices_tensor[num_decodes:] = PAD_SLOT_ID
+
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                self.block_idx_last_scheduled_token[:num_decodes].copy_(
+                    block_idx_last_scheduled_token, non_blocking=True
+                )
+                block_idx_last_scheduled_token = self.block_idx_last_scheduled_token[
+                    :padded_decodes
+                ]
+                block_idx_last_scheduled_token[num_decodes:] = 0
+
+                self.block_idx_last_computed_token[:num_decodes].copy_(
+                    block_idx_last_computed_token, non_blocking=True
+                )
+                block_idx_last_computed_token = self.block_idx_last_computed_token[
+                    :padded_decodes
+                ]
+                block_idx_last_computed_token[num_decodes:] = 0
+
+        return Mamba1AttentionMetadata(
+            query_start_loc_p=query_start_loc_p,
+            has_initial_states_p=has_initial_states_p,
+            state_indices_tensor=state_indices_tensor,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_padded_decodes=padded_decodes,
+            block_idx_last_scheduled_token=block_idx_last_scheduled_token,
+            block_idx_first_scheduled_token_p=block_idx_first_scheduled_token_p,
+            block_idx_last_computed_token=block_idx_last_computed_token,
+            num_computed_tokens_p=num_computed_tokens_p,
+        )
diff --git a/v1/attention/backends/mamba2_attn.py b/v1/attention/backends/mamba2_attn.py
new file mode 100644
index 0000000..888734e
--- /dev/null
+++ b/v1/attention/backends/mamba2_attn.py
@@ -0,0 +1,354 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import itertools
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.config import VllmConfig
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.mamba_attn import BaseMambaAttentionMetadataBuilder
+from vllm.v1.attention.backends.utils import (
+    PAD_SLOT_ID,
+    CommonAttentionMetadata,
+    compute_causal_conv1d_metadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+
+def compute_varlen_chunk_metadata(
+    query_start_loc: torch.Tensor,
+    chunk_size: int,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Build chunk-aligned, variable-length metadata used by Mamba2 SSD kernels.
+
+    Given per-sequence cumulative token starts `query_start_loc` of shape [B+1]
+    and a physical `chunk_size`, returns three tensors on the same device:
+      - cu_chunk_seqlens:  (nchunks+1,) int32   exclusive prefix-sum of
+        logical-chunk lengths (each logical chunk never crosses a sequence or
+        physical-chunk boundary).
+      - last_chunk_indices: (B,)       int32   index of the last logical chunk
+        for each sequence (=-1 for empty sequences).
+      - seq_idx_chunks:     (nchunks,) int32   sequence index for each logical
+        chunk in order.
+
+    This is intentionally lightweight and CPU-side; it mirrors the metadata
+    produced by the V1 Mamba2 meta-data builder and is exported so tests
+    (and other callers) can avoid duplicating the logic.
+    """
+    assert query_start_loc.ndim == 1, "query_start_loc must be 1-D [B+1]"
+    assert int(query_start_loc[0].item()) == 0, "query_start_loc[0] must be 0"
+    device = query_start_loc.device
+
+    qsl64 = query_start_loc.to(torch.int64)
+    starts = qsl64[:-1].tolist()
+    ends = qsl64[1:].tolist()
+    total = int(qsl64[-1].item())
+
+    chunk_lens: list[int] = []
+    seq_idx_chunks: list[int] = []
+    last_chunk_indices: list[int] = [-1] * len(starts)
+
+    for b, (s, e) in enumerate(zip(starts, ends)):
+        if e <= s:
+            # empty sequence
+            continue
+        pos = s
+        while pos < e:
+            # split at both sequence boundaries and physical chunk boundaries
+            room = chunk_size - (pos % chunk_size)
+            take = min(room, e - pos)
+            chunk_lens.append(int(take))
+            seq_idx_chunks.append(b)
+            last_chunk_indices[b] = len(chunk_lens) - 1
+            pos += take
+
+    # Exclusive prefix sum over logical-chunk lengths
+    if chunk_lens:
+        cu_chunk_seqlens = torch.tensor(
+            [0] + list(itertools.accumulate(chunk_lens)),
+            device=device,
+            dtype=torch.int32,
+        )
+        # Final boundary must equal total tokens
+        assert int(cu_chunk_seqlens[-1].item()) == total
+    else:
+        cu_chunk_seqlens = torch.tensor([0], device=device, dtype=torch.int32)
+
+    last_chunk_indices_t = (
+        torch.tensor(last_chunk_indices, device=device, dtype=torch.int32)
+        if len(starts) > 0
+        else torch.empty((0,), device=device, dtype=torch.int32)
+    )
+    seq_idx_chunks_t = torch.tensor(seq_idx_chunks, device=device, dtype=torch.int32)
+    return cu_chunk_seqlens, last_chunk_indices_t, seq_idx_chunks_t
+
+
+class Mamba2AttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_builder_cls() -> type["Mamba2AttentionMetadataBuilder"]:
+        return Mamba2AttentionMetadataBuilder
+
+
+@dataclass
+class Mamba2AttentionMetadata:
+    num_prefills: int
+    num_prefill_tokens: int
+    num_decodes: int
+    num_decode_tokens: int
+    query_start_loc_p: torch.Tensor
+    seq_lens: torch.Tensor
+
+    prep_initial_states: bool
+    chunk_size: int
+
+    # The following tensors only contain prefill requests and will be None if
+    # the batch has no prefill request.
+    has_initial_states_p: torch.Tensor | None
+    seq_idx_p: torch.Tensor | None
+
+    # cu_chunk_seqlen_p is a tensor of shape (nchunks+1,) that contains, for
+    # each chunk, its offests into the varlen sequence dimension. It is defined
+    # such that the i-th chunk contains tokens from cu_chunk_seqlen_p[i] to
+    # cu_chunk_seqlen_p[i+1].
+    cu_chunk_seqlen_p: torch.Tensor | None
+
+    # last_chunk_indices_p is a tensor of shape (batch,) that contains the
+    # index of the last chunk for every sequence in the (prefill) batch.
+    last_chunk_indices_p: torch.Tensor | None
+
+    state_indices_tensor: torch.Tensor  # shape: [batch,]
+    block_idx_last_scheduled_token: torch.Tensor  # shape: [batch,]
+    block_idx_first_scheduled_token_p: torch.Tensor  # shape: [batch,]
+    block_idx_last_computed_token: torch.Tensor  # shape: [batch,]
+    num_computed_tokens_p: torch.Tensor  # shape: [batch,]
+
+    # The following attributes are for triton implementation of causal_conv1d
+    nums_dict: dict | None = None
+    batch_ptr: torch.Tensor | None = None
+    token_chunk_offset_ptr: torch.Tensor | None = None
+
+
+class Mamba2AttentionMetadataBuilder(
+    BaseMambaAttentionMetadataBuilder[Mamba2AttentionMetadata]
+):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        self.chunk_size = vllm_config.model_config.get_mamba_chunk_size()
+        assert self.chunk_size is not None, (
+            "chunk_size needs to be set in the model config for Mamba2 models"
+        )
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> Mamba2AttentionMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        seq_lens = common_attn_metadata.seq_lens
+
+        query_start_loc_p = None
+        seq_idx_p = None
+        cu_chunk_seqlen_p = None
+        last_chunk_indices_p = None
+
+        # Need flags to indicate if there are initial states
+        has_initial_states_p = None
+        prep_initial_states = False
+
+        # for causal_conv1d
+        nums_dict, batch_ptr, token_chunk_offset_ptr = None, None, None
+
+        num_computed_tokens, num_computed_tokens_p = None, None
+        block_idx_first_scheduled_token = None
+        block_idx_first_scheduled_token_p = None
+
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            # Return a tensor of shape (#requests, #max blocks)
+            state_indices_tensor = common_attn_metadata.block_table_tensor
+            # Additional cache-related varaiables:
+            mamba_block_size = self.kv_cache_spec.block_size
+            num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
+                self.device
+            )
+            (
+                block_idx_last_computed_token,
+                block_idx_first_scheduled_token,
+                block_idx_last_scheduled_token,
+            ) = self._compute_prefix_caching_block_indices(
+                common_attn_metadata, mamba_block_size
+            )
+        else:
+            # Always return just a single block per each request:
+            state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
+            # Additional cache-related varaiables:
+            block_idx_last_scheduled_token = None
+            block_idx_last_computed_token = None
+
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        # Compute seq_idx for prefill only
+        if num_prefills > 0:
+            # [batch,]
+            has_initial_states_cpu = (
+                common_attn_metadata.num_computed_tokens_cpu[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                > 0
+            )
+            prep_initial_states = torch.any(has_initial_states_cpu).item()
+            has_initial_states_p = has_initial_states_cpu.to(
+                common_attn_metadata.query_start_loc.device
+            )
+
+            query_start_loc_p = (
+                common_attn_metadata.query_start_loc[-num_prefills - 1 :]
+                - num_decode_tokens
+            )
+
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                assert num_computed_tokens is not None
+                num_computed_tokens_p = num_computed_tokens[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                assert block_idx_first_scheduled_token is not None
+                block_idx_first_scheduled_token_p = block_idx_first_scheduled_token[
+                    num_reqs - num_prefills : num_reqs
+                ]
+            num_computed_tokens_p_cpu = common_attn_metadata.num_computed_tokens_cpu[
+                num_reqs - num_prefills : num_reqs
+            ]
+            query_start_loc_p_cpu = (
+                common_attn_metadata.query_start_loc_cpu[-num_prefills - 1 :]
+                - num_decode_tokens
+            )
+
+            # The code below carefully constructs the chunks such that:
+            # 1. Chunks contain tokens from a *single* sequence only.
+            # 2. For every sequence, we are guaranteed that we can
+            #    retrieve the mamba state *every* chunk_size tokens.
+            # Constraint (1) dramatically simplifies the mamba2 kernels.
+            # Constraint (2) dramatically simplifies the implementation
+            # of prefix caching for mamba2 (wip). We need to take care
+            # of the interaction with chunked prefill in order to
+            # satisfy constraint (2).
+            # TODO (tdoublep): This code could probably be optimized.
+            cu_chunk_seqlen = []
+            seq_idx = []
+            last_chunk_indices = []
+            seqlen_pos = 0
+            for req_idx in range(num_prefills):
+                this_num_computed = num_computed_tokens_p_cpu[req_idx].item()
+                this_new_tokens = (
+                    query_start_loc_p_cpu[req_idx + 1].item()
+                    - query_start_loc_p_cpu[req_idx].item()
+                )
+
+                # if computed tokens are not chunk-aligned, use the first
+                # chunk to finish it off
+                if this_num_computed % self.chunk_size != 0:
+                    seq_idx.append(req_idx)
+                    cu_chunk_seqlen.append(seqlen_pos)
+                    # how many tokens to finish the chunk?
+                    chunk_len = (
+                        cdiv(this_num_computed, self.chunk_size) * self.chunk_size
+                        - this_num_computed
+                    )
+                    # we can only use at most this_new_tokens
+                    chunk_len = min(chunk_len, this_new_tokens)
+                    seqlen_pos += chunk_len
+                    this_new_tokens -= chunk_len
+
+                n_chunks = cdiv(this_new_tokens, self.chunk_size)
+                for chunk in range(n_chunks):
+                    seq_idx.append(req_idx)
+                    cu_chunk_seqlen.append(seqlen_pos)
+                    chunk_len = min(self.chunk_size, this_new_tokens)
+                    seqlen_pos += chunk_len
+                    this_new_tokens -= chunk_len
+
+                assert this_new_tokens == 0
+                last_chunk_indices.append(len(cu_chunk_seqlen) - 1)
+
+            cu_chunk_seqlen.append(seqlen_pos)
+
+            seq_idx_p = torch.as_tensor(
+                seq_idx, device=query_start_loc_p.device, dtype=torch.int32
+            )
+            cu_chunk_seqlen_p = torch.as_tensor(
+                cu_chunk_seqlen, device=query_start_loc_p.device, dtype=torch.int32
+            )
+            last_chunk_indices_p = torch.as_tensor(
+                last_chunk_indices, device=query_start_loc_p.device, dtype=torch.int32
+            )
+
+            nums_dict, batch_ptr, token_chunk_offset_ptr = (
+                compute_causal_conv1d_metadata(query_start_loc_p)
+            )
+
+        elif (
+            num_decodes <= self.decode_cudagraph_max_bs
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        ):
+            # Pad state tensor for CUDA graph
+            num_input_tokens = self.vllm_config.pad_for_cudagraph(num_decodes)
+            self.state_indices_tensor[:num_decodes].copy_(
+                state_indices_tensor, non_blocking=True
+            )
+            state_indices_tensor = self.state_indices_tensor[:num_input_tokens]
+            state_indices_tensor[num_decodes:] = PAD_SLOT_ID
+
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                self.block_idx_last_scheduled_token[:num_decodes].copy_(
+                    block_idx_last_scheduled_token, non_blocking=True
+                )
+                block_idx_last_scheduled_token = self.block_idx_last_scheduled_token[
+                    :num_input_tokens
+                ]
+                block_idx_last_scheduled_token[num_decodes:] = 0
+
+                self.block_idx_last_computed_token[:num_decodes].copy_(
+                    block_idx_last_computed_token, non_blocking=True
+                )
+                block_idx_last_computed_token = self.block_idx_last_computed_token[
+                    :num_input_tokens
+                ]
+                block_idx_last_computed_token[num_decodes:] = 0
+
+        attn_metadata = Mamba2AttentionMetadata(
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            query_start_loc_p=query_start_loc_p,
+            seq_lens=seq_lens,
+            prep_initial_states=prep_initial_states,
+            chunk_size=self.chunk_size,
+            has_initial_states_p=has_initial_states_p,
+            seq_idx_p=seq_idx_p,
+            state_indices_tensor=state_indices_tensor,
+            cu_chunk_seqlen_p=cu_chunk_seqlen_p,
+            last_chunk_indices_p=last_chunk_indices_p,
+            nums_dict=nums_dict,
+            batch_ptr=batch_ptr,
+            token_chunk_offset_ptr=token_chunk_offset_ptr,
+            block_idx_last_scheduled_token=block_idx_last_scheduled_token,
+            block_idx_first_scheduled_token_p=block_idx_first_scheduled_token_p,
+            block_idx_last_computed_token=block_idx_last_computed_token,
+            num_computed_tokens_p=num_computed_tokens_p,
+        )
+        return attn_metadata
diff --git a/v1/attention/backends/mamba_attn.py b/v1/attention/backends/mamba_attn.py
new file mode 100644
index 0000000..0d87556
--- /dev/null
+++ b/v1/attention/backends/mamba_attn.py
@@ -0,0 +1,115 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import abc
+from typing import ClassVar, TypeVar
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec, MambaSpec
+
+M = TypeVar("M")
+
+
+class BaseMambaAttentionMetadataBuilder(AttentionMetadataBuilder[M], abc.ABC):
+    reorder_batch_threshold: int = 1
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
+        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    )
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        assert isinstance(kv_cache_spec, MambaSpec)
+        self.compilation_config = vllm_config.compilation_config
+        self.decode_cudagraph_max_bs = min(
+            self.vllm_config.scheduler_config.max_num_seqs,
+            self.compilation_config.max_cudagraph_capture_size,
+        )
+
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            self.state_indices_tensor = torch.empty(
+                (
+                    self.decode_cudagraph_max_bs,
+                    cdiv(
+                        self.vllm_config.model_config.max_model_len,
+                        self.kv_cache_spec.block_size,
+                    ),
+                ),
+                dtype=torch.int32,
+                device=device,
+            )
+            self.block_idx_last_scheduled_token = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
+            self.block_idx_last_computed_token = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
+        else:
+            self.state_indices_tensor = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ) -> M:
+        """
+        This method builds the metadata for full cudagraph capture.
+        Currently, only decode is supported for full cudagraphs with Mamba.
+        """
+        m = common_attn_metadata
+
+        assert m.num_reqs == m.num_actual_tokens, (
+            "Mamba only supports decode-only full CUDAGraph capture. "
+            "Make sure all cudagraph capture sizes <= max_num_seq."
+        )
+
+        m.max_query_len = 1  # decode-only
+
+        return self.build(0, m)
+
+    def _compute_prefix_caching_block_indices(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        mamba_block_size: int,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
+            self.device
+        )
+        # Block index of the last computed token
+        block_idx_last_computed_token = cdiv(num_computed_tokens, mamba_block_size) - 1
+        # which is <= block index for the first scheduled token
+        block_idx_first_scheduled_token = (
+            cdiv(num_computed_tokens + 1, mamba_block_size) - 1
+        )
+        # which is <= block index of the last scheduled token
+        block_idx_last_scheduled_token = (
+            cdiv(common_attn_metadata.seq_lens, mamba_block_size) - 1
+        )
+        # -1 in case it's non-computed and causes later issues with indexing
+        block_idx_last_computed_token = block_idx_last_computed_token.clamp(min=0)
+
+        return (
+            block_idx_last_computed_token,
+            block_idx_first_scheduled_token,
+            block_idx_last_scheduled_token,
+        )
diff --git a/v1/attention/backends/mla/__init__.py b/v1/attention/backends/mla/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/attention/backends/mla/__pycache__/__init__.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f5840d8b7394432956eb590977dd2b896cbd4bda
GIT binary patch
literal 175
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV`RSMB7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>L-?zq~?`m0!5M%le1IvQi}C+
va}xFA<1_OzOXB183My}L*yQG?l;)(`6|n-1X9VJ65aS~=BO_xGGmr%Uv>z-6

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/common.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/common.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5d2cd7732ab5f626fe2599847e0e7aef69e22175
GIT binary patch
literal 83013
zcmdqK33OZ8c_#Qk03-;21W1DW_6V-vDlXb6Q4&S1C5hTqRjewbAmULX1%T88sD%by
zvQv&Jr{bcHrz2_Xq*$GF7j>$-EvGYWxsy!fbWWzylS%Ld#efl>wkD~`jC&hasob6M
zIWs-qf8PQSe3WFT({p+r!TavJ`}*Ji{{Mgf`#%>HSUEfa)2~c^&1c~Lnm*L0OtC!u
zGZV+%=KS0k=QsFs0){aI-o`*q&^Tr^keexB3Yy2v!Q8Q2_H7R21ubJ1X3q`e2d!h)
zpl!?+w2#??1!D!wJtt5&R*1NH0Y}g==3s7?fHPP$R?O`Au$PRLFuOJ23YLzQGP^BM
z7Azkt4_1s-1S`iXnVUUO6|5esX7++WO|W*Xme~sfb;0_vdS-V7_+Z0W1G75=?qK6s
zW3XwgiG3FZnu9H4Ey32YR`y*SXbXDAJj`AaXb*Obbuhat&>8F+>k4*{bq9OKdYD^j
zU{kPnte4r#0)4^$v3_PR4-5o1k8KWa8Qa3XD*{`C+s3v9w~uWP4vq~5cZ}@_?i|}0
z92y%6?i$<0!c+!!2ltHaF>pEDLC#<GHs`MvEFT)>ei$3hr?##M><x~LjVSf19oxrT
z`M{yz;jzOkm4?7e!6RcwV6PoJDiltATkX*Fd&1y%!{;~BE~?Gn2=^uREB&4@`J3K0
zkDbin1dnj)Lxb!ycG}-Ob_S)&?5&o-+2FacbF3^mftQ1?jOQ4*;HzU}ipy(bue18K
zqJC{cxmLe71T%B@z`gy$965&%l_HFNLGkT?Z>R7DHJ0Y@Rs6f)->u{SrsCfN|4r*s
z_n}^Pf3M*Cs8979JFmp(M~nf%CY-NCS=Qw{&SGvB#xr92ncEhvl?4A*VPYc3zwK?)
z*agMD9rlZgeGv9ZR`(sqYp1YH@Mq>VHsv4Mptp8y;J#b9Bm^i8{~p*BJNq6M0{*@D
zAHn}V{O`yARw1aLj=t+e4y82V@*hCCL#*5fQSL)Rr67<G+KRnD1l*u!Y?_5Rj4&?=
z({kMqMy{h8X6AZMBPZ-{;zZ0{v|sPkJ96wyQ|)ar7h|q2aFAvKMpgaTzE`<L!#lrx
zmAhtqmAh(CQUU}Lj*T6L|54`uHPzp9#P{1(9A|Chj~yN6N2Y_p=@7kUrb9v~61G~;
zT$~K^6O#dfpA60f&^&PE$K`N%DdG5uX_2L%1@c8Er$gaxtM$O77>@8)1>P@AOooI(
ztM&9{o;|)Wf07RimuH30xWEU5(1plF>*-5ZRL>*l*7;hglot^(a&?-YnGT01&!c2l
zeb>YM^aK@aW;QYzy3on{c)u^=>k3X^VMXRA#7QCK4_xPcGc)3}Z~P+f3;B7URgNO8
z_wS@4Ul2lq=nEj)RbME=N2dANu)s$y3QAV#cvdZ4Y6<s@h{^^6ZoX}@Tj*vnL~0Qp
zb?@P+j%ZbPIEb{}on#LQK9TSBSgBN${_{%Da`6k}(|%!HCe*;`Oaeafg5dU`Cq|E-
z+0S3S=u>(_2=c4|tR+||D#-Y(D58&1Wxo&+#2~uN&!4}}PfqZY==p%}ybuToeydVL
z9<`N=L4l~`;qi-te>Nb9o&5P(v>A;b{KC^g0rt=ZYS-|^>DhpvM^Bvhoex~MMrK0-
z3V6&n8RF4$0!lD04D$N~VJ0jHm(KO^Grk#0k(%c~z!$!FID}CAVRcBd(PnMC7>Ue;
z2YY&a;<d>u-P7WQ9^d(JPv5|%&E1;@2KonBd^OO8$;ido^W7K$Jrk7VBqiD9o6Pv?
znVAg)dNyzFrRGyh(;8+Y-4}_VoiNDxtJC5oj7ZddVmc6*zRD`;yFO@b=g(re`1mkf
zFiZnJiostI#v^Do3?@-PD~8F9BBO#`k?Bi9h=+@Kodz^HV-}2KyrO;D`2*?JP7kc0
z5S&KvbtBxvqNj`L4o?PWsSIH^20pBj$*zln53@k63C8?In(36SIx(p0CWDh0A5>yF
z7G^9m)S{tn07s{<Qa20NeAFjY`18||i|Dt=#W3#+hi5U8F7W4lk@1V+$vJ@^;(M*u
zMu44ZQQ-GqV=c3fAjBjC8~_s|GL&HE$aE+oT#G0`qLY7<rcf7V)0@^q8Nn`2`u%7>
z%D_6B;U1a|p2u)Op|nEtRQ0g+r~->9u+l&NNdUPpbu3M?lNrgt+Pk@b3y)E{@ASET
z>rn+(Z5a7T&$-O#n|u4TxF<3^Len#t@oKi6d<a7WPTd(n_};#4THI3^9uzP$?uBWA
z#-cbqd*Py*%9a5wYG!%Pu{NN{YjVm+9QDn}mb&X48@xTod=YW-8YZaLVOHx!Z$yi#
zc0`1R8-QR4aGA!B*8CnGKmc=^f9>?;PX5pv*2~^;Ew<bdJv0O{Kf(Y&S-pUe8L^LE
zrs%8@SrW6MH8I;l(_Pd`$TIz8L?7+sPf!9VjPhhBur4;jtxe$68`eu#(luCL0nFm8
zM@`_;l};W52?=DBfI#Xj=8>PjM9UnT6TE;y?Du0Dg;`RW2_XNFaMi1p0d}6*C&cNX
z3eo|;F$c6qjgIDL*|Ydc5m<b(zgT?a&OnrsKeMCcXb%=2op@z(dKSw73LuwVZN3pD
zb0s><UW=~guM=M>Jfb7-m%aP6@qr~}3PY5q!HDseIjXX2eh7JE<h<-XyDm0GW3khN
zDm(U3wA(1(PDAHq?@4V&s`+avq({|8DabX@28f!1QUkS1wb*1)s!uhbk%KB6QT^5E
zEFS7`DPv-&VU*~Ii#o8;|FZYUx+<sz$QYJt0vQEhr9Z2U?(FQZXi?IZtnANG1&(Xp
zY6@4V2Qp!b7DB5(wf{K=J=jt*!q7i~KcM1z!z!*PFP3gE0Qyy*==WkoG4#xXWkwq!
zLoByFJPoHbJQ?EKC<Hm5J?ZJbGAUebBalVy=1D`1A^z0#iTzs8lc&}OJ>^Ny&y0MI
zoRgiYiIo(n#+2C+MA7<w2yG#bU+f<DMcQ6dCwixh7qCh9Mkj&sp-qURcGvni@X_MH
zo*73O=cp{plhyW!Tv>UP&`9^FbyCNT$EtPjnwaOZVxG&6dCp_C_Vn<_4h{2HfrarW
zkFcc(RX{VG;5+zJ<eh%xl}h$Lr+I~E{66orIu?~q!Dv$4hk%Ou07AX~=?Hp!+CMuU
z@oEcDo0XE!XjXXz=>*8onx?DQ)0rJio==^aS6HBDLt)@T!ko|s3{ki?1N5}5tCtN9
z#8nztOXZ5yV-<zStOyK6E;_aIaTzfmq$QdVFW-1%))xT&<rn14-$a+3rwUBHNf_2^
zG~0L3a6I=0LWM9Ugb@CLP6NCXR>O+?=H={2Cn?g&Q_qYvJ<FO(&WV+c7X5v+l{%(w
zrJg^%lzj=!u2ZwXk%Pi7GRu^Pq*)eFfY=Z(Ooo6;wz<Qhi=Bbc#jai95bdBaA*osZ
z|1u%j<T$A}IWQZaJv|WM*%Jf--k=b)8yv)l!;r!+06a^@`Mb2O1U4?%nNyy-_!C;P
zY+r{s*mi8VQI%uTj`0}kaRskK!@uanlzadAGZP4yJTJ2+9>FxsJ?k`}OL_nWFo3Sm
z0J?$!Bu~h0pqqr1s*@Ns_pp%#fThgbX&JV$!AZ-H2hch!1SYz%$MCW}1q0uh)iiTP
zF3yH7VQQX`7aUMSu%#GR9F<jwHpI^(FYvy=g=rC>5~%vifDxi#)%H~3*@=nCagaA?
z(=PAhH39%5I)K0+gO-U|03U%5`qK1_FyJqUA(3e-!Jg+)9Y6$Ndqb*#LfUu}doT~%
z;1e+eTfsxqSA{FISI^i*rbm=UCK>mIfZ4JwG~!+7#n})K=tFxnWkZY1u*<X3;3N_T
z@1Moabb63~Q$cCgEICKktxa!&c7+WqQ0EJPj%=VanhtCIjKVR}!P>1MTaz#pW(bo6
z7J`~s6}kvPT(%RHQHnRyc<-BxxS%><bwIO(DXvU!q56V&L^P*~$!mBss=<s8^NY5t
zXt*=9>&_Y)T63WlK=qR83t_<3V<RK#@_5X5O^!#EP>Y9BW5pP!Sxw6VVcuB#WdzC3
z`>%(5!AY!+f$Q=bqol<Oh^XhMXB9e>(igK~-vuE9SK={~R7@okTOxN233?X3L;+tI
zV_K72CeEa#qLziQCV3;nFd7s_#g^EtJi9SYqoH&ZK|yQQMc){)k)vneHRpxMRROdJ
zqLoZy4@{IRBn@(o3P*oo%!h^|@E#2fPGdeY(!~4&pgbvvHc-{mmjM%1SU)ujg6y>D
z$GA8!3?dX^Bw;qdz0(*Zlsd)!`@x^my#qQ2ZCQVQJc{*@JZ{H*VIWIGXT(_rS(0nx
z4Np%*g1&2159UeGAC05#5Hu`MMn4Hs`2r$Pr|TeKO@@httj;7W5rNpW^iKM(5hN9T
zp$kIWxPS6W8}^@=h#nw1G=bz$;fPNJA!H~cQagpp2m(qpg&zWR3bkd%>Y#v~{D_AI
zK0QvMlt)dE;&x?bC8tXiLbem|vh)xM5j4lwGBO#I?MUa1%&6#w^-<yYB2j6sDUmT{
z(%C9*@@_%_&}poWDkg`;^2}BgR@DttIJY(hnrkcxipmBqv%KiYrKm56{bvPL>c>!0
zx!`MHD21j+4W>5Db2kgDHga6eq)nZ+e@LgQG*~)cWgZ;xq55gpjV1#nq_!S|C2MAV
zP{3+S8>NsJV;S^2d8<T`7^-p2i**|GydfD5rL$9fY0jxYB<;zNope;C)3iD(-Yl-#
zk8)%bR6)Ju{1o)+C&UdK^%zoxAn`{;?3#$bFzxr`r1A-k83#!}oH9>Lf~$v6rv1Rr
zJf@Uogxt^h#8lovV(v_ir}EBRpApE#I2^i8K_i#_LA-6=aRAEcpm%yEOwK~+3cU-l
ztOmV4T2YygG36Xq3Fv!$<DlRBQ-zw#QQvhzOgX`}(wvBCfpqK_gorm7@Ojb4l&*7p
zhQO8AcY)g1E0SB$y1sy88AW6q3%QekY!S5@6}O%X1cD%yPfT7&l~X8cG2n&XD{%J$
zHGl_#6_A%7*<ApYcqZkV40|sGz=;WXCx}<)1%SJRd~8IE_XegfTo6Qjma{|<meKIN
zlc6g<aS~iHk1^#MnGVbbLnnO1D-!}o!81a0TIKg%Usy<$pAB7}MPOh$e%bk$+*?#{
zrI0hAngZBT)0ct8=M7z%^iTS{fToiZ=w9$RP<9i+-INst57EZ{YRHq9s?eGiiTbGX
z_s&iRu)L+p0r0`lT<0&hAvHl@8d#7QOh_;IkKt4WH4P9ZZ-DyEJA)cwSfPPaHH<x^
zHq=E788O4RDm)WFW62xeuosKHN@EJAinZ)V4xXN!nVA+NsA7TUdKzfvcqVUG5h>uF
z*1+{PCvXrm;l^_OhB2c*XUya`j+y<YvE1usPj1R_l6Wykg^-f6@1G+!Bg->30I^lC
z2m!(jWu}eHWyM5h<zO5RAf`Tb0E0opMsRDG%}j-}H#0dS1kkBKQV9xx?{awb;L-iw
z<D*AkB`zJ&DtI*zKOF)(uVg^XBjSB2j4cHj(q=uSraWz|eAEj=V1trl7k_s2@PXr}
zj;+r^OMNypNkc~AOUc}`4KiuN*aWfz-!OKiLBfG9`mO*;LJ!N0Lz!cvt7U&~_|(z;
zqtD2l%>Xc<yOdVd&$%tg@O@T4g@J`FH)ueVF`G<seN#5Mt-RELsXV1>sa)iO^hYt!
zEnYA1cERgSS-svM2wDNM+r3`Qt$^Z_=f$)bhqEoClTvv~Q>Jp|O5Nk0(un)n(Vj?f
zrUzZu1*`>Qzw6rU*6rIaZ54U~ljnP8t^=ZmdT8SJT<Pu6MoEt{O2R#WU&N-t9P6IB
zE_NbGX8e0t!WA&y=045IH(OTAxDx)xkz`@{jf2U8(k~wnx2Zufr^_;d8LO;!0xTHO
zg)nD425}JY1DG;Rdx?9fY^7huX84p3u*rYq+z25$FN@eLF-X-gKI;#K6gZ`9vb}_D
zGX#mkrVQ6oW`6{e7(y%Q#|$gU7(M+qCedv!qE19^Dl?Q4K5F<-@t;y8H_{1l+<Z=y
zo65^{k?pG7#_LFN-Z*c{$iuQebksOyTkoo-5j8!_SC!tGDp;R_-|$h6TKai&G$(4F
zLq7AlQ7)Q0hgQ&w6V0)4(VUNrYP$1z(Yz_g`m{6JrD(mcR`%Sfl8t?*N;meK$T`h<
zOrsZm_xBS&`f>Cxhwd3tM&Qw&9B~+tVE0|~*ivSO+tK<T0)W^{K6%*khTxmZg8^1}
zFl7YlkTL^P2+pK(BGV~IgJ6leFbiH4Vg{yt5v(-A_$2M5eF2X}96~zcE=nwa-<elW
z?DrlUeg(-*hP+pN0hTVan0%CtnUSAU`PaPRaV#;uNSJz90e8H(osv;^;%v=fumJRG
z5Jke%B28+@0h~rK$N_TU--P7`_jxW?RCe2T%XVjf-04m@TO?=8jl;?Eird$3UH|46
zC6nvM!G)JsY|eLwZVufkf3Ny(^|xx5^S)!dXZx@qZrhTu?UZagAC|^!JL9&4H})m%
zrFTq{z2?ULWKr?r*;|zfXM^NySh~J6b$>GEY=}GeAbFeX-JLgg-Z95*bqSkCvU%dR
zj^(r8dF|e7AHI?3+AnqOk9Qr6*$&1`2ieS?<oY-cGqy;jzys{ctN)sX&WS3~^Yj6X
z^g?$Q(tTq_!6cadIXmGa<ob<59;C)hZ=2NdGiG6~`F=B#z{>IGX82i!T*v|z`SS#u
z--7>q{9EyF6Y`Lf9X7inxn=hkylvLfED#Fe?+|QCnuQr@I+>pdrEp}p7F~CGiWzz*
zV;TwqcqZlYjgJd65d~HDo(GK%_(-md$*ySxY5)dw2#Vb1t{Xf#qbci|Q-{wSAN2xn
z6t}`%HW<)k<HkaG3PJq2N(5Pxcem>0p;1F1?FRS6QO)`#RiTB>LY3AOiQpP5QXwl+
z1g89)=I$AQbBnLzGrLF*%J;mCczMSI;W=K*OKBBWvWyU2R6v>&H@Ht6tuafhTt+KV
zQqKc1yA)1Y+1pDLvXq_NLCR%B)>J;dWDkeD)nf1*TNbf<oNBE;R1sDgJ1n<3fH*_c
zIAJ`^iC=&NtA)obzDaf;8RyBM<`DfbSOc;-D^J*BswL5r+1{EFSmqjaE4nri#A3NH
z!NVKes*@|KzVp&@e$3Gqv-Gh_k5iMY57}9Xscj%`Y`9<m$jcd>+=E4f6_{Winm9}$
z6-dG`R|PKu4AELAJm=9Zo?g%$RLFd!i4o&0S(sh0uP+>Y*A3S*@>sYCugoIlVzU4Q
zVXk~#0c4Nel$|<2OITL4p)>hrBh#K@aTAggd&vMW;l!6=q)g|hrvoX67Z`SE8k<w>
zd%}bQ(MEN09H=^WfGH!!fcP2<PD{M#C982V6v3)MLKWf!IoQ|^QHf#-fa)Vo!CefH
z!RDMc-NbX`Mn(%2IR(pCxnx6g%v5owDQ;?hVlG<EF_>!>$3NrndTQiyi<!e}u3~Gu
zb0+5ADb)^9fHo~an;gK-@hzX)^3457SNW<D?<aVh@rHMK)oLEuEF9eO$!6uMYF8=r
zs-3es7Q%}o3)gPee^vk&C1LU_=5kq~N|#;B<M%2l-%|3H9VuUCb1g>5%f-AtMI~IU
zA6R8+5@?S)rJnvaoYuo?CfAztHs{yy0}ZO0h1@9uBw3GO@tb7mzJafq`Q{^BF4_Ef
zV^*vPd2_(3;AT<WZ2GBd;qocm^*oO?1NJE>qzVG(DisHwwqlcDrtqrQnkJw*Nzc>0
z7zLS4AQ-1;s%AYXtbtWwBVT246Y^-eL1-fjovVGz&9hN#xp_A7RhtaUB>q?ql#9|V
zX07@1H}Gf8#+qC=2Q3|Ix*K%!u_^v`EWL8qnf-QhLzfi%tVe?kSzXdSLPQ|J4`K#!
zTh#8rq@7J~)^i!DHJr+$?R#W8lClHsN_$(hU46dBYZ*;d&-frC=vOxW3SCs){#VQ7
z073(iD<cVbv27%R2xtRqV`db@kx?qpaDX)`>0;UP6l4Rk5!61Fdxjx-;xs<QD`bSp
z_%az^A>)_Gc$<u`lCc&brONc%N1Q|0Lj<Efg5|3mphj8s?bmO;9=9|kou#+!x9o9C
zO|qzTar{<g+)|Y+tGd&FYcg)BPZpQo?!46*x6~y|DsJz*wG(at61ztXF-zmpndPSC
z@IBA_-un@$c}Lu`H@R!CzWcVFF$=%c{6XjYo%damdvn~fGugLg!EwiR$G_Bnck*ui
z@_<y?6Sr&u{9Lduj@)Uw_0nTYvkY~<hEk_&@|qukWU!EOux&FDB1NJ_ji(Bzk7Y;N
z6{j4msnMZIr=<#&7)qad?Ah(#Pwi<UgR&E;JH%fmgY^aLhF_u2cgR@V?&39aBV!*m
zGOaOR<^ESw;}dh?f68%~TUI$31WFyN?9<JmS!-_9#7(uy(kj*wriNrmS=>~X+`Rq9
z@mOicvR^9gi<`D5+q-X!F7Cg5^w!a(0m;?+*wihz3FS79f9)|Uwx|1G$pk|(*6cSh
z2&v%CI6r{tk6jzeOAqkoJi(*@90p*3aGFz<X`$+@nK+uV&&bScZxG_ySf3pb<o7{(
z*sD<GQiW;&))iq-es+t$i;Tq`WUwZtr9>X{x5$>&#NQw{GJMp;U9fzWd$MQWjia&R
zEe~8$@lf2f??=N2k`*<d8*}y=a?xu0VwFRZYuD#ojyYFuG>X5b(X{33P55Ls8e6yw
zSh#ZZp}2a?MW(xLu-F)tMM-W@BO25-LNti1wp>#pts6VDN~B*7bv3!3<1zlMLof9W
zV5ayM(jWEYW_QX6oHNFKRxhxr@edH>67_-|7GOLwjCgFROV3uCfQ;Irf!Ouk&n68^
z@Yg8MXJ`CP3PQ#tW!%m({@i3R*T)*RCmK#j4JSSazCy66bJLCEi)U$4E$x#^+a8;G
z<YG}|{gx)cn%VcyZs`qu<#k(sU6e-x=(EaNZuZOTbRPPTt;yGoAmpVnVwrfVu5aQ3
zN+@?&%1PvDtZL~6t(ZWcOp;X{Q-xsJgUk;>xC@|vT?CCH3vJG7Z3f;#luK5J-yt_L
zE>pV`+Kp)kQiB4$3QOJ%+ziA`STd?_2W|zH&PZjRxXF{OsE(Veldg)#rV6?FDUFn2
z9{`1!i4o{`#a|&*W>;kG_-XGiqeEnq8<T8uW9s9RN(1XpQN+z-T|%ia+>y~27@EUu
zG9qIGd^GuO3It_{ir+StFIY9V0*27w3@7La1uR@4nVNqg^LM<>jXAE{JkC^+hT^E5
zJojbQ#>nrQzd~IfWpY_30s{CZpjYF3h9XEqN3TGsXP=Sj8KUWv4?CN6UI3K~LN4NU
zVqHU;hqkO>k$`g%A;|;A`ez#+=999}UK+&ku=sWAE?WlTlqw=WSqc&35B#jKc#{Iz
z!vT!OAgHX!BW0sd@?Z?hQIwG>N0E2y%EAyHO<CB66s)dPt{g6vr+BW}`VyEn;{PcD
zaN4ZXmMr`E^7crM>NceUcGUrI{aES>7_N+<zvRbn&=319EC;`?t(jjjT<5NH9^>eo
z;}G=+YJo<f10r*kB>9A$sLJnvTn~;xp-a0xCh-Gg!ZuQ=VwGW$-j{<}=L^gV`$ch@
zxN9boA<Nu67kIr8{EvXo2ELMau3j4^>fq^K6W|}ytR;lt2A8xsi1-(?H9hVcN_3r&
zx=tkR&UcU9Jcb3c+X@O|N$s7tmLuPpzc;@;9UD3qt9?0M{7TIJ%4#0`5syt|k24#T
z^izEp0Ab5`8nUp8E|c%K$+$-b1Nzj9448}mlx$fb=RI;GW1b36aO11orzR8F1vQ+b
z_?M0;h*FU&ZgM>-uOi@+Mxqpa)l>%@x40A`l5z;Lmtu9O;cpyT7+>6Xb1H7Ce^Oq3
z<G{l3qUq)#Kr8H<^9xpOoY|hV@JVaqr$$45(-Ujmr{<h|T3Bq3PxFlVj;BVmx!`G`
z$^5E8hHO;Sl;K#)Ff6_T>pH;31};?;tOJ<xqsKb1bJq+aj%!8;3uO<!L43)Gm8<%s
z-z-+!nov5sP8JFW#3ME}<`k{oS&v_1UVx;RGx`%h{5^Rhu?kZ4=Z+pd=G}Mr^zdHr
z_zoN$K7Hu$=z;yGyeCfWKXCZy(UdEFT+Zve;=|c6!qm%Hw6mx8dq>Xh8y(d`w`%TZ
zPMx8YPYoYDxPPB_-~Rn4PVe7;L=7m`Q|82s_T#w7I94^^jPLv;*s9mF22QGs7QKu@
zD3C<_K2rEDjU^)0fL3nd3W^f;O_F_6%(Ce-&Xm7(#m;|b#QPJcE8*;roE<TH$7g0Z
z5M8}A;oK=XcgE~HKg%O0M6XTQdnJ4C{l>U`%c?C`K`-@to<@9T&!bQK(GO`*rS&!f
zDi6XmAdCi(^ymobzCvhgX3wf57SJ+@Dgzwvf540NqWI6rMolU{AcH4k?fgp>DYyf8
zWoirlE`t3&wcs{bK$f-Ce8w5`n^)}4guPX=w|-{C*C+OxjAr@F3@0>S0otf(HQ)Tq
zHhL4uX0;I%4LrAvXgt4Q8xf^+ZrjL3Vf+%ES;d&^!k~lD7O@K1iPF<JQ3~Nmb^-(<
za_l7Pd4UOMc8mWE1q3-b-HzXbLq<DhHKCiDFd{}szCz9dqgOt(s<r9wBZWVvHl@7`
z<KX1ie#Yg{U_`5KlkD3*GvaG)tFGpm^cs>_qVzodJtVjuf10w&-kIhY_J7Kb&m!|v
zAV2_&Mx(#krYbVS%l5GX#A199gp;wZLVvE{08hmV4G5MD9*8ra1Gl9C9F`(*Sc-)b
zMrfk2cEL487<|^_FA&OvauzC|;ZB7@#e^Mv74ul7-zijq$5Mpz^ws`i#HWFn_4rFR
zaCdFsUb=yM*#_?A!1pRP@RLhii4avn1zMvPr~j)_+B$!YP>=6&v`#I)d9;b!Ux#qy
zUeCgoPgwjsYT0l--_yvLC_kHI_}G6HoUcfuns^m-<R=(JT&i3Ym@ufqFvr<Z2*FPW
z{HbELv0(cOHAc!t!T^dWk-Q308tOxHl&yk=Y<TJ;SM!8)X;4v(s<6y;VC1|pJ@+HT
zonQ}8H>2KgC-${JCu-1J^~f)pqepHgAC<A4CSij;ujLmt>8JVp^yW=b6JuHbgqG`{
zPz@(J&cJyrDW`T=UTM;lU1ltSm_<Tdb_jV00kye@5mRPmGa{Jm2O^kE_auBA6wff@
zVgZEx5rzJkj6WgcU%^P#sl+k`{CTxqJL9BfGrQU}6#%lFBdBcp5$A^2p{I%nR`-i0
z@i!PT;YAb@yr=4xMD<pwdTY#5kt}y7%6p{po&|e`^%GC$Cw52DS+saG;p&#~b9Un^
z=4wi~dL{gvz4wnM298MhIgdOw8w(0oE4YHPr?rlDYs}K}c@x*(m9)1fX(jVWcF*$B
zMCXWvpM3<OSs3tHoZT@?7sLHVQw3>$9+(6vn=BwkEZ8t@X$WIMKPd8N#Q#iHXh=Wp
z<eB`5EXp&kEoG>#Hf3foI<Vt0e;LvkA#)lPjB;LWih*^>d9|s737~@}LM}s>G=Z4f
z<kFuy^A@=4Ad85p<r6jHODjJn1?Sa}P)uvhj+!Zto}5S2qVC2JUt6;x<!T)LlrrLI
zrHoXoai(fiTl%dcNXW&Zy5@6{2Gy?mPq|f>^c!)C)i0eGEvjGojTq|s%tb9zooOG{
zh7g%`>{i{=Z`8ag{iWI%;Nra6I*m|us$cpoR>NKE<Fxw}@lUfJlmu#D<Oi_`t;u?#
z+Wr?|wYJqSpWkq4A7IQk;H$G<>&KbHnDXabYQwb8d5QaqAwmRV_Dm58CF|KR<rmKn
z^M=?XNJ(#$?#{{(pX%tCAXzTGID6K|iJCxbrzH>%+D#j2p|ihW{q*wvdoF8azg+%w
z3!o;As$1l+YE#<>zRjvz<d|y9@NHGy(2g&u_VioKjhs-wLgff^K>bR;5$2To1?YH2
zwIlD2v|Ts#iD$Qb<P|mk)R<~ZzaxXHed=}9mVRgTc8}`gr@kjbEPF1{7g1E%6A?7q
z1=R+qniILGeyQUp1Kw>`{m?q2sy+P{xBu6#;|Be-^Eo96sHKMVU`Vy6-vsG0+I%MM
zquR3Ce7ok(O{Eu2)sc%3Z<Re$*Hl~jeF<=HJ|8vtV%kl$!8NMd)9+}0G*|5(1HqD?
zKhHKm$|n8P0Y~8*cD=;;v9jvr|1Iv<bJUq7(<K|Zh_=Uq&M>Ak5aUf-yMPR5tV_`T
zWqjwjrv1x2D*gbK6A7odm%~IGMG5w~V;gJ=WWi}{mwTZrNIBkiofzfn4uJ@w8Is4H
z`~^@)J-Zp5Pkcmq{W%#QlfiIO2Z_<su>lnYE`~ty42Vi3+@qqte?-BlVDh;JMxj<^
z)>VNpawIBqSfskAEb7?`nXr@x!V>XGQg$ElR3HS*lvGtvP%F^jfFev*$dI-4cL6c~
zL4{QgOIXO8oN&einrU!0VLHTUxTzZQ(U3$)8wn8GhJd*&qvj%CS-K!Yq^*oxuS|+`
z;$IedW1$%epUR)XnM?WmzU3mGF+Ub7IKiCmY@acF{GvRrEAh8Vs`v>oi}))Re*
zYzCPsMpT<rF?^B87O5)cx|YD9(u%%;05WlxW>(6jZVfV#V40%W%t(M4l*E^hpE`2-
z#PG;|@7}Wqh_rb6@Yw#8c^0j<Emf4UD^cVooj94I7L2i>QI8B4neQypG9waRmMYM;
zBXrm%Rld=&4VO%+Oc#gBA^s^PVWP5#jA8kZ(j{z893Y=snI^x%1QGubVQ^afpHO%<
z)MI4R2CzH_;^fBWzz<<dxwNeUojF$7DufslA4h&<`9mB5P&fh&S{;wAJ@o>{fE)x$
zBq0a_WCSvYF0R%Ss~Na?^zq=4RU_!%k1drTb=P$)m>xq8By-1A)0(ImkZK0Vr!ra9
zoT%C?Rc&5yB;8#J_a4c;hdk;Lh29m(vYG|cJGLj4wTa4hsj@v$xmT*(`*3%>@-*BF
zS1Ov8&Lo<*NX=W~6<gs_uu{`0rysA`!m?P+$<41@argXYPXZ!x?wt$!9^30zYCPXM
zo~YR_)ofqb_s%hF#+nBbO(&$L6BMT*+0ve9*)6r~e%O@Qdsf1)<t%wLqE4Wy*=ioy
zYLc}LiP|2iwkJ_LDAf)knNj!>MR>bp-~ON@Za<*3L<e{X6su0M)h!i0vbm9+t0Gad
zMJj>FL1Oz+3BQt~u@fgBm7I*(PsU14u5|U0`12D4b8VGeTOmo4DBCWTZGUhkF?2%0
zuj~Z)3Z*9vEJ(BDYEHQNC0BpkwHdU%qGDuGUY#gwmC9NZWnEHPSF*hJbBCq7aADtH
z*xNsMaozoEGoYN-CSx`t8H-Lb1$mUrV<c0|H4enxo2hB)SL!#%>(K>|Ej26cN8|0I
zWNk&0fEMm(eB@~SsgWyaQNCLqIa=^t-11402dokrFAWe}rB<qcWUF6kZvWu5_g`Bf
zGWww899#ic_|mOQREIoM3(MRMHp?l)IRh1>A$jTyy&FI2IJn|$Tdux;>5qou&XZ4#
zIh`zUo6-aAk8JHPm^Kx~jlNoGZ2Mrx`#V;gO|jOkiPn7*e$IVVps8C^a)Fvy9y|)f
zHzn#fOZA(7uRgK;jD%nPnHU73EcS$@U9x~40E%pzWN(YL?~3ht1^lvnD>{m@YLILV
zzvWFd?~$7KJhJUcmXs$-dZdz``@N4!239$uFyt6YnvzXziKabL)1Fx4@T$>JG-7ya
zgr9^kM$SHL_}kAf<#5hAqN>+DaW}HDo~)@|*!S+SRWP0Eeio+1>ks?;PE>KRs`3+?
zjj;g(OvY4Ob6BMi;b^1r^Z-yM5DpAe_{e_dacXSd2tQijvz{*(>buXI{5goDyOq3A
zo2JDfge5CUeEN-k(?@0%MFQ%f<s3DNOK+L<Xm)x;2Y)URi091_ZR3vooa^(`kYqC&
zmJ`oLO4Kkf9#f_K?c?6)N1nO*Iq4lr`T1HyEvtchXR`^Uo)<0QC2ZB@O)^SWrq(b0
zrlU9@-f((^{3*oEe*Ae1&1Bnd#L_nR>2P}Fg$+XT=~$|54i<)1>!s{gL#5yIR!~v3
zEo9nVMRezF$lH{5S8Y?;#!_`5`fk(~&5K%qs9Op3odQCg{pc|zHVCOp#L-Q&J3ALf
zYS^^iRgWC=k>x|191@!fqj)Dhir+G;qXwh%>u6WI{v3+h*?cKLJ#=P??7KmG6=>~6
zl==VW+UuQnFqd@4N7S%}$fegV2CqgygosD}=z%jS<LIG%sl4&o2%Qv%XhxoL+L3LN
z*meo$%knQz1IzNyM8s4+kbcF=j;O##-iDk<kEU!4L5IkQ_wuETk1Nxu+;Jb&ssvJ&
zFbMZJUnZn%P#udi&Dc&&L{bi%yoUZHrpkhN;VIi?FP&}n(wPQN4U@?ce+5~Ht7H)M
zO#DB|puH>(pOGG;lo2~K@l)o2P0Ix#l}m>tLw@l`6q2E*R7x>LL7bOm%{sD>3d!n_
z3n{-$yIAG(H*{#7PR>C~bjpN-+ad8OC1V7oS~QViCWH2O@}BZtvfYB=DU>ned*twc
z!$6zhthXY(%j%P22Y_UpK4tKV|CxfaQi5s1i3T$MABt(1OgXf+mpK$+S``(9S$WBL
zbCrBFDRb9wRX#8pp6lNjlV+!tbR*>eBtug<aO<S2I^pV&TpbJfPs*wnY)M-&FcZn<
zj@i1Cb<K&o%~IXwh2zPpx`iW8Y>tGDmu!5@*0$1gC`tGe9pPIx-@guQqnRNp4W9xX
zEl*aqB`P5+J&>pzlqv@w^h%XO3om`*C|(>$l(b7F?QuuP^3)^8ww21dZ-<u#5{-jW
z<6yjg$AhsSRvua$hD@GZtc0sia`mlL>`d11iJCsCrtkj#hue``Wz|oOrqVJXCRK+G
zK#p8>zg0rW`cA2NXS`wPQOQuuJ`^h%0!mm>bNfrTzC=8j#s#~AA~r~lhJ>SAa&+Hs
zc;x7hS^8rRc4DRacJNj(Q8plz4cw1>Z~nXUiLGZP{L0RvamuP>-)^a_d%=dJO6zVP
zzjZwBYF^04SAIdlQY%?%6Bf5*aVN{_=~vlIzluism6Rt-D-)%?QfY6ZbWkcCgdlLD
zVnC`GNL1{RD)z8SZj)-ZC29^yHHVn5N2>57Dte@fp4D<LzwvX<o^SoM4sE<rT6Jge
zhovoxhNQbU;U1FQLl1nCd(Wcd3H3~?<ZN9wNY3_zvqy6FB<os}bzR8@_TxK}_*L_4
zm$6-{-JYo3E7k5z0>k8YO8m|Qe@NmFY3QK5cVWK065pHPw@Un0l%{CYPdPi#_&lzx
zb=A%A(*db|U?C4!Iwa&14cnxKZ3}sSp~&2(iZg`cm4l)X%u{6Dz2h^pDTnr@aHUEV
zfp}Gfo`ovQc9a8)|A;15IguqYMNbux9Pz)WsrW4z<Fq$bpFCI?ChCSI^Vl?<w3FAC
zj|?9IOQnaMWCMG00d^+oD&8fVmNHHk-hqR<gD#`lUQR{@8Mx(w6RXIef{M84A|q;;
z3YDJx^29GtCcZ3nIM?#Lxh{wMW18MPl7qZP1?Ox{R<tKeo07Ey$@<=8wdZqNp3}O@
z<>gx$cQEAw$qHxSWqlkf{bLQbPS^`;qkjPlVe2>`o-+k|_5)Yso&D&qZ$vC*xM3a$
zh6WW|`icQ*fVq<W=%=v;x6IFu!+7aADt?T<GtS+%s!e=`bO)lgICBS;fY7)hD?wN5
z&!k%?pg<ierTji7MgXNaGo*s9TT5d^R{jA!WU}4}x%rtsIax&ogmxg>%CAi)EbDDT
zU#3%<yM)gy<r8vhT}&edO9Awr;e#Y7t(Am7=DP$X5Tq9mRLJ#3W!l-o{7xuqg7me*
zWbbCU07mf=8ch6$Wc(o+Uxxv)XKD+NQC{fkFho;^V3;}|4JQxEYGqx)DQ~T9XpN_~
znH$(}h(06MU($f}BM;De3b}%Y1w+!|e0T2V+#O${u2-t-y}vIpa6-bb?!+U<No-iL
zv&}IS?4$i@zBL9X@VkrNee331OHB#)F3G*?kz-fPvMc7;^~6!aQfjz!GVZ94S?c9M
zU!)9rM)!lNEeIl5CwvfDWyKt)5wAYlUiBr|F#2^zKI9~H$37`2(8K<*PtzUe*bV9K
zOtC}C(c67ur;?+$17*7sDtXp}-AIlejy-ROJMG@Hp7{c}yRsbdIbR5Oz1^Gx?nIZ)
zdgh%`J1+a+syMvCI<4a70PyCE^iz)(G2h}egB&{}-Mt=Mb(qN!Ud?{Wt=iIWVw|KI
zov)*>=S${Y^QH4;(UPcZ4gsU4j6G&)w2Zl#({6rlzC7ykn}~6|XcisOlKF~gakL_8
zs^aD=qm|Fv59;k>ROmNf6|Iz0o${p1tJ>61&rG2jJID&w&Un+VinU}7N?aSQQc7$R
zccb0f)pXPEX!RVX;(Q%^b@q;8S)@k|8>KLt)UWhgg|<kePR>nXkb^cMKhdgaoffJ-
zqA>@jwx}V}?`VC5sMhS!W6pzCgYwcdMO%ohCoOwAMY=Dt9_+7OYV2qotw!^FMrn3s
z1;;1)RWBEly2p+3NC)B6ROcI_4N;!je`<JrYM?absxjx?89DD=A2wQ#(Pp5upWPn*
zJnY34*frmnktW7z_7inO3at@yk^3s>Y-Gx6C7zwbNBL^{jDe`b?3TqT77gN9n%N$$
z#AwkAOMBm!vP*^*RO`?bNsk*!<ETzpWd!J_#QL?FjaHrfnHWdLT+hgj#`iClTT4c}
z|9?5ATUgy&GfJa3rkkHLrdy*eYsPe2v@P2DLSx#Kk@J74G2Nb#rrwzLU`)6F9mn+O
z`Y|Rt(?T9or`G$29BH8rJ^%R*j3%A&r-&Z?Acu=~L>s4GUY~N*f;nwfA<A2=FA&C~
zw{}2jl1+s+Q?IViM_pT@ZoRc@P3*Dtv7enH>aHh#;(1oAx0;^m+y4A^Kzlx;o^Q2$
zWLK${^R=NHFWLi9{snS&|F_Wt9~FF<EB7UE1AWn)yr?@`>(zEvk!H2;qqS3CQ0?ir
zI>L~e4tB9-x8_U7Qf;7m19QP@R4A`R(VA#(wDu#1wi=LlmEP>^kBn<+l&5E^I%^c}
zLydxe0vA&8&uF=~Pm9S-O{n(t8zIsw5I1!(?W5X6XY@HK1NZ8TmdMzUco|<^sK>_8
zAU|3F5v&qml3h_J@N5TgaBk|7nqT@I&8Kh~?NunpQ{xk+jeHs20KD6_=BqT?l>tke
z(y6MpsFIr6r_aJV{mzeyK2$~t>dH+8)l|}NVEX9~%?4Lxt=F7j0o}z6Jl2YoLYeNe
zed_XhHw}K3L`$QtXnC~rqv8+ka=7_!q$946BkojjcyVjS2<m>eSX9=i;-;>zPdTca
zhT4+AoVr1cD3QgNe)6C3K#`zR-tT+UM;IKW@NrTUyoxqOS<uNK6Q%bc*E7%?M{9b@
zic_s#S=%`@ni`3|ZG;|H<_RW%Jp}R&qrKtq>pg?mfo;9V#%S##iHV8xWPFK?x5&6b
z#+S+X3K_pd#@l3k6$TD!5s`kwh;(?A(Z_C5sIQapD=-e=X#LMa4}<E9B`tyX$@UM)
zV2S=F**+lSx5)TMWc*_??vb$!!!wjY-C$*4NsthhTnd&1ON>$FSha~#mnu%nI;phC
z6q9t4<)2hHqC<*pl-wVZ@sJGKGKqxo$>$tQ(6Wnuz>OcW^wSFYxXJk6$Y>yA1P0g|
zGJC@esh$45RK9jGODb2smW3$?6c15Y^PC_~Luh||Hb@EoYf6NGviR3zd_u-g$oM81
zUn7I$o5aH~Qn`_7(iBBXIdOP5EdC$l!+QPSkvA?Y!2KjRaXl``>O+2w{QoT(xXY81
zWq<w^eg5xc{2MY@gMWi;IOWE9dStRuBLyegk%)_VIo1<0Uqm^P{quB)i2HdtaTAPG
zu|oFEBp8<yQHx~mW^sv(a^joy4I3G3P|)y56;n7>$V)lp?Nq;2q8}+tybPul5u2gf
zH&c-g5vNOth?e2XXwkJ935Vr_5^4~NQ?BNbMY2v+sIqQqXsr-Mnc1*VVi8r}&g^pO
zpj=M=0y`|6DpY(_O+af@`p`h7X`HHEs{$yyb{%WH*OdW>>M`)bOneY(ffZdtOxrbU
zuW-tl=|<&ZASC5plP;7Ett~8T#2V(7)`J6BChJ0GXHlTDg_QJaj*N1iDu6~;0(x@5
zFi|E{+U^U!897tr(YAAS&n8>`yBrWGe+R4r5GcWFYD<)Cl1er$SdyilMClHxbjN}<
zS<#uO7?dgo7YdSP?TNB2QrQ-;h^$<3+3o6E)eE`F+TKL%KB;zJ3?ggg9f|U7Qu($8
z`;)5fMAa^-Y8PbG>iQCO2c)_KF-vu_q*co#9e7O|4Vx1UN2P|NF-zT(+D-S1?ia^u
z2Vz@a`ndn&y|JywrP|}j>4|$w!aX9nM`8zFk=(C<{z<1@Ta(Tv#-JIJ8itr<tJJXd
z_jV_CoRsiuI0-?hg2GQBYIoSMU|W1W);JK`atI<+&gwg_OAgQSD~}wTW0uV^$L6Gi
zk2P+V9Gf3hJ#vi1EF&?;$dhUiS}T&a@;eQ2TXnLsY2l?O^;_=GJ#35BABov(lJ35Q
zdyC}W5_fNt8CP-l?wGwk*){agAaxBVIuA&l2jZQF5}n7S&SUY;<1xGEiL-vmx@3zv
zJD1;jFemlABspIK_phJ{(pPPrF?&<e;a&obw*}&YV6rj6w%CqWB-bklRpdq}l8S43
zRMPahmGkt+`u9Eb|4*SGgyL;yW3J{W<!#HokIFlde5|~4rM4mF-W=O{C|-Mb(F#E{
z9Nj0~MpeJF`FlIQyW_EI_m4~KZoPWv@;6`qacT9fb9eSG+2f^M$+A`)zAtT~3~N8P
zb9IgHy?Xc6BpvLcb6(4r<F4NOJ7arKOZ}%IJyut|Xa(1>v1>UhxpyQQ_DT(VA6||%
z?2R`ZUM&2?-TFbt`yEMF-I9IzvczxtJ@X&fzHf`2I0NoyWAUPcPJNe=R;;AUy=+*1
z>t9@c*zg1QgITF(|DT@y^Vk05wVxVun2a6OyG1H#SuTo~w6FAmt=Psmiycx$2Q19q
zD^>J9%{TX##aun8Z)I(=rjv0aw@NizajLAc3Jq9YpQ!4Ws`@|8H&v2ISZN;)rqy&U
zM-n}ICH$)QKJ-1RJ{WTyj8z}}1S!{aJwJ^-hR>Z`W!-!ByY{8A-<kd17r*<(#}y+#
zu5{n6T<ZN+&5tYV@0Km)EFFzk_9m<LqkSt67%1;nG;mwj2iM=fo~+oMsMsx4?0#s7
zSL`Kj7s4402=~-%YD0~hFlj42v5q0BV(7<Z)whHt!=mubz^a)m-GqbkgS-Er`uo+%
z3ir~{`@K@r!0+w<gCpNR5<5d8bc2Y#1uZQPfMi8K<lT}ryR^2h*}sBbzI6A}PxH;-
zMi+zGoG9;pRNnnLis(tWc0Y3M{-m-uQF%zJJOoB*Q5Qf$x<ek7wEw8*NV2Iv(X>Ts
z+H(KO$NOSUTjEV8!KzEt6EpSxxsRJ-^#k$x<4Jx;g5NFiyB`k6_}y{-K!QIe@yFu)
z@nmy<qIs*-y!F9wta)p^c~_!&ztp@x(R@^DJ{oTxO*Zr--7N_w|C$^)o)|bM4V;S)
zyt2mLdpgm3PU=0Eta0CWp@I8eHaz8W`l>KOJ=+p(yQH>V@wPq5#?jBK3pbTXuFg++
zZqreNZrMBDd+Y97%U2%myYp7O{&14-PVjva-*^9VjPHx{+Y|gAiQg0F_x?Nu|GXe?
z6FQ?4ZA|Ugj;2d)I{=5ruFcdz6|ss<i3;lCxNBDu;;H3>Qu*L#5M$l3Y9wLP9I{y$
zmwKC2zb#qQy*zjCiw{O(J-elvJxP9RvJPzVZL9elzx^p^<_iI-z>XpTQxYg$DF;mG
zdpvOHarxnx^Kh*E@Do?Z^6>Ir%$Qi;;g1_X?u+$}O0H3w{SA+uJ!rUrZHfMaQvbo2
zlYi{o1XdJ84jwtWpBIs48kPfF*`1=V?}oH+%-)!!xNeC+9Lkbx@4LVA{*hSwo*3A>
z^_v&%$?C2}%ab~HqHdE^w<+1U`F`O37w-oij>NVclo}5uYdy=I%R6GVTa$d-a?Nr_
zjNg)M+8Wz-_(8|VhVS>pnqEq_ZUMl1Q2p@o_v>S=hm-F9WZQ0%Pu>3h_T|?fbUxS-
z>pB>3Jd|iWCN&<5Hy%&cH?5X%^}SCyYklFuaexAdQCE<-0$UdQpc*boi`!1AY9|Rl
z)U_pRI!G3RL?BwE(w0Q&fK)mVFWvHle0#{t)s!r8uU2!F?N7PFO6x+wDzAy{((HWH
zG_V2%Fu_D!zf{-%c=PDv608l!V<pF#^lOJ??^r&T=p2?hhacPbK5^7QK$bE5pn(=z
z*bjKzx_V(4=1!aj8Ii|AuV{N?$bFbTJup($iY9u9{Ifd*&Ky6oe-z3<Mvm{>FaApk
zHbX`k8GlAbI~iBVpgpTd=sr6MBGPtL{0<qk!4?0O3=NN#HJgznfsA=Kk<CqbFd-{h
znlNO2#zbKIb9jcAVL%g2j*%&@9~dzt`bVYy(U_@p@!FC@D&G`0jbc<cLH}#@ozrns
z(-TWo!m>rOY{9rSm*26(8u}rR@)UZ?wqgX6F4!7#_k*cb4zG_-e?~7-5-7W`9x`C@
zO?tXNb%YJ(!YAcTt7ftwCbTm)-g<R4k9|UwBfpx@tX5^!TD7rHJ4C?m^xnF#WV#hv
zEnrTCTx07~mfq@=@g;+Kd#vxsQ;saFujG`Ntxswi-aC5t=&BiZWK>>5I=xo&=*z-Y
z)xTGBw`Mh;zO1wYzkc`iRU3WTxrUYx?C;xG3+StmtEpdgkj=?qrLB3t=Dta47+5VL
zr(&*_Uo9b<3xj&Klx$_3wc%+w+1eduKG_7Qg7=er>r*q{tL<D(!>9RQG@5IlRM)MV
z$%3-gZ&}S_Rts>FRpyOSS#6)&$d!#u)_<uo@bBrWHxWoMox{NeJz`MsryQB?P_&+^
zUyDx52)Mc<g8EJw*SBGFsH#~L->2d8RT!y!8TZCrP`D^&`cim2AFk?Sg~f>fr|rOY
zZ*vzQ1&e<xWUy`cx2Ki;gBPnQ%7t9#w>geo2v9Izh;WVwrNN$Pp-S;UC`<wt$~j*Y
zF{>fc63C$27lG=-6!;T&L8Y=p3sl>DakLop@~s%-hIiVa3ELU95QigbBmP9zS24MP
zf>r`4o)-z{isnycwuMr_Xo*?_&}^)_AzT?D9MR&r0`L(X?_4uw=zNLVqYkYWcF?s7
zSSZ^&zkyITwJr3x_@MC7We4aFdge=?6B>P$5xOi|s;4c&Zy>Jl8V+~a3x=~tGkD;j
zvz4*y42-_Z=yEG<y69NZ1$JB9YzX5N*LX9H5WH^!Bby(e;n^0E$3VY`Z`{=vfs^k#
zNLBJ>F4)oWmjp2+;4Vf=Pw2iNTQX-sdUo(b{A*`6c{g?PFmZD&%syuJ!|Y}5z2x5A
z-JQP6iPByFAnE{%y1A1_$rS^MAVKzxG~_GCx^~Ic^o8g?pv=ko%;KceXEj@2f=rjp
z!pmjQvL6;N;0i@G@N<B{pwi%M+N+nssn@t@iBMup-5vyp*p*BC$O*bA?owJlN!i+G
z(hSfg6eg_YA$zK+Lzsydpl5!4S{a~;u5cy!r69ZgaVDEI0C1Kr0#PIs>YE%54m_h|
zy+CAz=71iP<I3YuZatEX(%MFDDZ2T6P4h5k9r}bUItHq0x}0)W0I`GeMRz>iyhoQ?
z%1WVCB2+p80b;pSASIp0ydd3(Om!if6l<mon@)06S)#ie%RO|l80RKuQuzWB5O8a%
zAQKGtVxE)EErrZz#AVB39)&L#&ywpoGF~R*D-`k-vb|3>S}Vj?>2nN*tUUy6e}R-Z
zhVhAYDC09Mj?08Mx?>Qxex>^f{RvH0sj7`fsYXc37+ItzTU5I`WuifrDq1%HNyMCP
zzml7qDUxC9rc%t5J+qXunxG5or)<i}K$hx(iiOKjd3Abay%nKM76lWZb%q#36a5<i
z!0@}UfIc+Hm6qQ)mUNYoQ3|7?63Exe;84=i8uRS?kH(xGxxlt!7B_Z!guYZP*j8FM
z#d=46h{IoYoT`cyH)2a%?_P11EDpy&nAm=QPU;wz%7^35y-8;~w&M)pws0VcG{hZ^
z*a1Lb`p&?uBTHS9tLJ{x1J`#ul4YbDu)pa^Su=D4_P4AWO?>g99q0$&^Yer*s!KSV
zBxlpo>yMp%NoVbvuj)H*L3_<D+iE}8w%_pi0Pv<5-+O;Yyk>U{=Pxa#vC4kQ(topH
zbvLU0`5psT-}K((-O1&G2fdH$hJb^v0DZ&lFH5!ehaZ=3i9r>j&7H8dNw&7-A_*6@
zeDRTOFlHKz*#?ugYWXDF5{|PqE!!U1`eUa4n5{o)t69QVN6gd_vvnYTtZ5)-8;F?(
z7=ks94%Hq)<LP<&H!#vV$Vh`LX##`Zt6JQmV)C2tZ-%zjT)gw3g__;e;?H3kzevlf
zY|DpYc+%@Hf6)ysq$*ziD$qg|!sfug6aPi{FUEffG?TgTmcy0``HHQ~pEJ?sFNdBj
z(&DA7-3%JWDxssR06M&EddHvOPddFE{+hSBF(*_m*JbE&r3>xoSh4sAsQ;*Zl7bpY
zJW0lR7&v2&>$4`kP?(C@kSYuZaFbo=0!Z6*ydzaevy9yz!mcb~XC+ekj2260J5n|9
z$MFr3qR7{BDc8}FwjnwO5||c!@*#9Pf@)u)jo^));EfFjH`IeCVgb3(DHZt^dFWKf
z#ddxs%gPR_&~<vq=ek!2o|kocm7)^rgLx_Av;#;6vYXZ~+tPS!T0RU?$E2JHVdRIT
z4bx};(pc&mwK66xG$|6&a9UuonJR~H`YS`_kR4wZEgtx~Y2JFY5MP9YvnT4nmxdbx
zhvmEqHxsy95x#(DDj|#URj7TH;LD+YrB(k-xmCCH`$NTw7{#h9c&D7VME%04qMXsW
z#v|wGHeTw|^%`SIz8S=Gk1JI&Ivt^*CD1Y<_?cpXi~)88iKa)HD59~&Su(DWq4mCa
zl|HH0#cME9c^G!WH9-`wlM~f5RRnDa6EoY+2ZLTAMCv>Jsd_lcw^~MU(KxuB@b_i}
z5a$rvQ!2Bkencf%JLtt3O8qh!tYGW}5NWg(X}G*VIYm+fE0>Y73ezCWT0P`Xndw0L
z{kbZQ>7dR^?ezN&46ZOXR<xjO;&7zb*1uBR9BVleFFqQxAAM5krt|4Z`9%joHh=SV
zxLA`lZFDfYGFjJ2?`mixqj!bo&Tpdc+NAnc{i~V~-Jv9yEU&|tJz3vPfooQJh7vu;
zrJm#Qo|ELznWWIa>X0R=^Pz3oyZ$;l8oM<6o{r{n+}8|Wv(sHbZ*yO_`*R|2mY<27
z1;YZav+^6?w$JB428X14b5!5-`$IG-J$kYNIPI&eN(?D!Gfj?7CS0{Sw#HSPU29ym
zd6jmhoh9u%CuH?chnTt(-4c8&$8Xjz1$^k7u1-ndLlWRRrGXEflGQ2Ew{m{ns?KFV
zGUHTHy0ofIza08y(9d5#Z)y$oyfo_x4R)wGvo_bMkA8X=a{T#ec{fHeFhPc%)007m
zjOo9{HG+h&Wj%gelBVsNbED=d+VW;Seq5jCw`pb1%aAqCjnt}v^`y(yw*IJ4&4bDb
zxam}5!LIc|M!I>wV7h7OoB^Btj(JN&MQ6B3hnlzF4w*qa>lbAvsk3K3KhmX!QtKcV
zX2^8s`#~##BoED7JUCmBzmHoqya5^Qd26IscEv30Q*G%tdWcVdsW!cnJbtE_mC5$J
zXp92tz6oPQlQ*9tT5Z;|K?$~G1;ZyKgVY+@BHLB}sX^72euGw{TQ9iktf&4Gzw4t?
z^{g1Q{ywk8n$kI`w&%3ii^h1-7Sl`b@7`iMsiMVN)H<f$*)6tccxRgl>gpl=#d+)0
za7<BSz4`^5q-=DJ-hCq16WDngfI-U)l(ZT^a;(9y%}JwsAQ@_;G>{OT8HCCVpYa?6
zj`@Kwry+E75Fa}Ap@;&e>DRR*?O!q6Gmk>tD)*`|dEsItm3LXO6v%Jjskn~VKbOa@
z(dJv{T3T^wFKOHd0cm{t0;3=Ca#*^=Se!f$A(lZtW$3<VOywacIi~V(X&<xDz1(sb
zhFT$vnd$LN*<ap&_~4;4-qGP>`%mKrIs{vLV#`VQ{>eH&<?QATuSY%To=^b-9&!kv
zQ$(`^e(odezk4U!ZHITUYY;P&nlz!|kD%dkmbiL&;pkshG%cD|N`R3pHT^|N>q@nI
zY4dVZyt?O+s|O6%O47Dn(vU2!ywiNAJjNe*7=0LuojDtGo&!g`q;QqXDJYcb;=hVT
zU%#J;rtuGQ)*RN<MH|v8>Qz7;ej|;{zc_ku)0o5E1d^`;QoZFFheTDNvVn?V-TP*7
zn9|RIXsgD}`4Sy~)D{x7tMZ&C)J0neR9AK+)i^5t1sv|-B8KymzA#Ro(p`utJG-`&
zBxG>LQKZ?#_)jULa9v1MOokvb#T0ab=)o=vk4%z2Fj-NV87J*=kF(*7_%@QlSwZRy
z@z*F>NaM%}D+5KmL0*e6R1Lg0Zpeg^S{inAn|RQ7{k(u<xNG9go%=hD!41=;+p)rg
zV*c$7j(CNF%o2UvcldG1OP@fq&g8AhqzeKfbg(>G)%c_8j^+LF>b^wvcBy(h1YgRF
z7mc8jG`1z&1Co0n;U1LSgAX=8Yy@xKJs5YNTy)^7!zbk}iSjn7ye;NzQ*IrD1PdFv
zKP%U^tIBNZW(p04e&*`r>8gzG%#H8R&x#aRk|bk$+M%CSC{Ec*4TgSJtoWo=84QVZ
zv7<<oK$#}^162MewD#j}4pP^Q2AS)4Z5ZN+B7cT$kKW)<h(Z^M&Ebjy?CP*v;`bgq
zrqJFYjB4@=;c>c$IN}Si!S$0HNDuO+DeDDXUq2)3g|kOMoD1Wo4*`2E4=)nd#CC1s
zT`COG8s*&`+i|fi9^1~Fu1pG7q2+<DofqFis8qg|60TMe#2^46yF6G{f0s|YIkv?}
z8DI7uN#(;(v`*mr9DSdYzhz!)K4nZegJ>gTgbbqhq%7yz#mK!|WF{=zO%|@*F{Vr}
zd(WO@<`G<f_fIG;8{yxgayqknR{Up_*Kd>Y5gGrKLKPAXlwF7{w-afXV?v6mVnB9b
zX9I<&gK6^Qp$$F%W_r)KN0~&=gv)d3O9-_+<TE2&q}lN=F*yFO8{B6(dHIE_#rAyu
zcdGs))C%yQy1AO|4_tpx_x-wf^`S)dOH%bqB*^8cPdJ(-M>FHG*Gl$USl%7IIeN!0
z^WpFNzc>BeX{m0%1g&JGff^d3=!khfj_HC(*&0(5h!wW3a)vfHlV;#0h>jJy;m}wQ
zhj+hp^GmV9dVKON%)d!;G{p*WEuEp2Cx4vojTM56Y$|X+&8MVUCN2&t*{U~5)tj<Q
z$G#gRd&APc501ZoT(b8+%`??NgLVa2!DWy>=#WY~l2EBu;Fb#9a-f)f;DH;A@Ul+G
zzLZ&SS{F<Ue$;`KX!XQxJxNIOb>He<Dq0$j7q={o&^K-#ymNV}0kUVstqUV7tp}6N
zlE>8@iR#T#_2zi>R!9-G6-xFd=x{r<=>P9RSOD7&8J-geT<JRZ!stq4>qq8g-~GCW
z4N~t&ylr2+aevItuQ(bXJDOKoAsyD1tUQpcY6IMAD~>svAQV;BzGzr+Ro*^w>j*?G
zZohKtmD^vq^@XKjNL)ZnY~VZF?rr<du6w&4G)NsgW3HhUaLl{!b|<Ur-`jR~+k3n3
z?nYXr#ft`r$raTnoL!Q$3xw>&$n9&lt}VGfsC&Qe!N|vcCR_&LDF{aW{bux^NQ&*#
zdQ@w*1<ZJ~;$cXvE$sW%!!nvcGiZ&r0z%wqIaRJ0Oe27Llm+meX}QL%$bQr%ndy9(
zv!4$IIs>6AUAxYQuHbk)!4!yRLtq+G*fjm2fRw=sDo&VyuX<eG>b>Fxz{ISanyXpA
z<fVQ8n5JemVnS`hAm=Q7H+nOAXA}}fk?&l;cRlXd9<yv`Ro1WVHxM%uCHlo`J4MKJ
z*26SWy)Z2$qup@n6xwYD?KVU07GMh%&JQqv{Cxs{40?V*Hnv0%DG+BGs3B9immvcI
z3iR5xy!6br)O<gow#2rT+7cpMYFi$-zwdj8zk4|D*p+aMNRE+*dp|b)dEuWF#$I_n
z@yew1%4FOz6|+pSR>qZCqobZ8U3noU5kyFDhHMXZ8{oE)!Gw8O9e2^^_o#ZmOt#-8
z+y6)gq!>7P_|pDUoF+FipjnLzx54tZBEr*$n|&Yw2Hh*4c6FGWpOloXn(+qT2sbL{
zkqrR0bTyxBP|8@fY9kvHs@Z(&67Ci(Yg;WKr$Vl>=8pfab=5&%khrW_Eh1YnBxaUe
zkeDf<FBc_SO13htwS9Tt`%|ms^i{=`Rf4}XwpvYJHIz{;+3Gk5yVR47CtCyA+z7kc
zNVX<O<*hc8tp!5UtF2^f#|6-LB6q7+JLszuA?Om-RjS--H)kz;+C#Q6!)pd}?R_Q<
z`jjL4YBZ<TJa}h6N&Y<LV12qX&wNR_+=`lR91W>GDoyBV9~$&)S&SZk#{xHD@SEPY
zkD0*m>GYf5HjELgCl{2+Jg`pk6gw`88N&t6%sn6We6oY#Lzl?d@NLWZw&UBL@m+xL
z0wr!C>~sN*8rOku2iQSQJt_jqKo`gqgH7br-!pIE?%Kc|7s%l1mNKMS`g5m=xc>4D
z(yc%{SQ#s-46WF;VcJz2#IN4Ky<`J-D$7Q7WH(ph7F699n<xY;%sf_(Yiw%uL*S|#
z-I!q0>ARN-mADp1-%l<J|4iTK)nkJ;dsdqAnaK&Kzais#qiVl<gE*kMV-z=HRMg0f
zPxN88ze%Xwupc+7??yFk-XLdcyOs_7<hE;lrf=IbeLc_g-DrfA`P(r<>K1Uf-B>+V
z{2uW$z!JtJWlY7j1Si5Uh{yJHlM#dnL*}Y`6S_x#6)-1im;_Pjw+!DffDWjUl0H-b
zl(;(ru892TNtLBJlT6Ek4xa$@F)an)FFITSgwWP(TEWwt#?Yq`Vo$N>g-fJesKH89
zrp8advr1Hv_EBxmDA977O8&wn()4by64COT^<<SuqbH_=J)=b4=k$<91~fo}2GY?;
zHs}p^ItSI3RhA~zJ^jusOQc10hpWa>NmKjPHiEC#lWY5!l}YQRNVl5altz<QU7%B>
zU$v|0s)R12U#0r352dHEMNdl$Qqg(`)Z5(AIsPn;8eZVj_jYSn+9~Yh19M$+kmp^2
zr-YxYmV+~u=-G+QHDzQ6A}ZL^bpNSxGLH#a0WbH|f+8^s;)9I8eINBs<wA|+1wl+%
z{lfX#3*KoQjf4huaaOx?P&*DNiy=)+Lh1a5-dTPj;i`II5%J2`#7q07a+$ot6<MWy
z+nP}7(Lp)$HHz+2&1*uY(_4GtpR8A(UlVq1s!;J23T0I~BQ@DOA2c9FJq%}sT$|Q}
z?-@<t6Nv#M(s)jlvy0l;C7H5Xx+}N~n23}Anu5Ge#-EWvXr6qy_J?HqD;PL^%(f3E
z9|R>+xtFf8cfJ=V384|y>kR`qV{gXGG)mUjb7k7LjN}(ICj93J8YW4(zXc`HQgAa*
zvH)3)Sv*TEk1U=~Yz>cXjVt!zgq=ttvAR8v?Ze6LzC`y4srv-!#_mXV^dvf7k~&_Z
zueM}WJ$9`}RtkC^7xZStJNDQ<$}~0(NzNhA9tw&O6$pOkrbNeCspIV0$aRkk_>9Oq
z9@}@aOixSQr_-4plRA!N#``2)OcZ55^gfbC`Dc|DgoKV^rvJQkrDHhWF~X7q>R-(x
z>X9eyOg5kz#EgRGg#DOgKepm*jXOP{;zOIbtfapKi4-)&?Fg`0vTsh<Pf7Mu%<nHO
z9(gOPEn?^uTCQyPe>#OWhp>*3DMN!p_9Gs7_NAM8Of<b^Hfp5pzaAUjpF`wB{hP*Q
zKN3<0v)YhWBsQNH(b(K#E|^xi^4;GdGqbaMDAP)_RZuHp<AIRues2gs=qf<==YvR*
zLrM|+mTx0nLM!GiP$ZF`R<#_pL|ke+soW0H3RbWz?u~5>)o4B+isVe9iBwFJ@OIP!
zWXC!x(~XIY3~d2sCRCd$76oYZ!__F$6A_|k2EszBNO1#;i9q1=`LOr{q$(foX5`$k
z$CNT$P8lwx3|CSGYTPhs2xgmJs2%ti*@(0~PUQfySSMyf;{=bPOxOs?E=Dz`v*=zK
z2KYoGiO8^l*cu{{_EiO&KO%<|8GlK}56M^|;}HxZ!xG;?kv_eWvan)9*c_UL!-B5D
zO<um4R{=UcT!IpUw%~~gMwf?Lh45T=7OcnwQaa(gf%}D@pvVy9$>pl57YgZy>m6U;
zu~O@P@0Gi+Bx*NFwVM*P0}|A8;!42b#ml#^-nx26y!FMUlOMeN{>#g!-hU0Jc48&H
z4~j5#>NbNgSy#9)`cn`k%aR>K3kPB)t&i+<2Z8+2f}3tvZ0^UlretH&!hyw|lAV82
z(oKqYyQPxuRW8?MO%^)XuO?a5`e{BKKs#`herkhl!2*(iqh!IjVk=#|_*>@3ww7c~
z)6&ViN0uw@H{7dU9A7v@Dt_ydB{)B{2rauH&XzC8!a%a3|4b4RQMG|2b5DN*2Ie$J
zb36N?10|Rvx{CfcbR{^R^&qUCE2jq!F!RmPTyWk9;^4tNFpi$NXA{?sDV(~WC0S$)
zgs}JWny*Xp)s?a*`6-gmG-fWz!w|e=WmI;;hNbBfa=3}?WW^XKVZ+VUjBt35T-RnU
z4`_-SrZ&Z@MUN~&_UCY&Ys(spnW#s`B0b?dO~de2q``(E9cdhp90TewfZP|KsN5t~
zZdz;UmMXiM3$s+!z1M!XopcyOjjXc-`hT4mjCLaQLnZNga896|b^YhCWbToohBWwA
zL6xGTN4EoS$h!V@{q*RS%5XA+C94dF`P?)WIGP*L_C;#$VjDoP4DxgRMgo*m%CLY{
zd;Hilt1+f%U}rrlNN0dG7X!*Pde4;ArKDnlfmJ}DG`9|8fWbDR;fn9VNEy+U4AhDD
zXvn+-x91HM#1SIv2MXQZ{K5le(oX|r0lBfeo}E>9S|2y=eC!yCS%zYcp`@b>x2;Hy
z#+aigX6b?Xq_8wm=#~oIiNY4Cuq8dB$~`zp>uAM6T8DMP2qLV#Y;pYCn;+X6k|kw}
zmv3#k(|_mk-7Sgg4ham{VVsSx?oCwhl&W{et9QjpcE#+wl8)j9opD7wEjF$Wpk{yf
zag`PbP{xhE+@LO+0Dz+{`6!k0Z0M>3ob-eOpr<N_{?yT{57u5JChjxA-$y1@6B3iB
z%LQ6x1`3cH&C^CIu2N%6<R734XYSeApiSjnk|n)Ud5Xw46W>ia)A#NwH(Zqw<YPxx
zm@EMx;;cYhC5HkL*%uB>q>3ObO1Fh6=XeOB7H2zMx*{^L`R~!Y5L1vZKEnlO(0j~y
zsJL1UBEKGsJY&9z0?XQJc9M+%s(kO&*U3hl1%!Mid`;y7BY-S~_}2&=CeXm3tOjWR
z6wY%UF9vAYZfKUK(07qe#uVE6*s(2U*%otbV^fHjsWC@y%+d>UrEDur8&@g)z)x(y
z)t;<vQc!}%_C(`0sS&5u8xu9XQcW*Y%0D304J7KeOLf~HxF7f)7Cjt}*BwaKx5)Pc
zCF%#I`oRZ%51<g@;mLUYLBQ-M<<(D`J)hS)%B?qT3%QHNPjRpsYk1|I{>2?J*c_z`
z1u{qCRaAJ*Ex+0t{vS{&tl_$s^(a7^o1&?i^|005tUrwPQ`1|qqcVUt=*sQrmPrq@
zS5naxv89OzoWPiY6PR$RhWIx$jPm6BD$*-B(}Kl@*_TjXHuTnjXllnS=r8K8<$w0P
zA(p+3{ss-PFC$lZIWLEX0?E-5bM(b5eJ~mO{5cDJqH?EHx%0uRQsu$)60f2GiOL~d
z*zjNyIxBGVgS_llB<mZ0u4VssP`<wlc$RxgcY!Bt(aa9JDj-z@YyfI{J3YGCNn5&g
zmiEl0+hZO*BmO(;JYqev4Gwsg>Gk;*x&8<8PcO}xFh;N6|B8Zd0AT(Ie$NCjS-n5G
zM7=-3dLP^G>^1sHMSY^8TdL?@zAja4mo;K!EX&ncmMeE*S+2C+ELiw|yZaL8Hj?zb
z26zA<KpX@JfFwwQ_bDEtL{St)-PA$qrZk5R4n<HSQWPaMsX4UZNaNkLsd${Bymmyz
zc0}2+hf3BN&U;RV6DJ;RoOrc%{L(GVrm={|t4+rC^UHfNG}3rBo7kK0ukHpwvZ!Om
z>$QVNR##V7RaaM6SN;EA|Ns5wsWL+K@lU&N6kac!IX_zx$*WiL*2sBlB6(}2ls)HE
zMm@0t{~I*@%e>;pQg*3##KY209TJIB2|7-_N}+l!X(z2sJ>1V7Q;$7aQjZ}uA<Na%
zNS@DQEqDrfkDI1=UbvoewO_V3o~BM3{>-zPMy-H0%}iPGF~vQ=n*?vpMmbwke;&`S
zq5-}|G2ZIRraiXAW~MB$oZ&x4jaOGym3jFi8uE)d=~U)r;gDy`>bo@R{|pr^zpO5r
z1VO7(isERL9gTAq+0iaJfUVVqkh2Oqnx1kMZjl2mN?;=}V{Yfkf$k?P$gOg5t5Uo{
zF5Yn4A{XyciucNZ@^R)6r$1c+X<3lKGCX-etf2+E*h&19lgCdH3&`l+KV)AWjhhkS
zjA0@Z`ybrVseTI(DrJW9hDd?g_zmoOhtm*3B!!S{P&nfXS4{jGam9=)obL`-Af#I6
z3gLJ{T(<a!GO*J?n9V}+=%-ERsX2KRwkp&@N$jE{bfF~YOU9L)Wv@V2AJ=n3UWC4I
z#y3c$W*T?tcMhAz6Uw&w!T~PPq>0l^A%?BL%(v&)OYm${QkR;r314FV#pXr39FS9K
zdla<20Y+Z82d`GWZq=wRJfQF!Tp;u(v6Wg7%C>{&#s&vZ$1)i3U@YzQ;OpXdF>u63
z6cFBJ%tGWj3^K|01w~0KmEy3QYu3~&DZWyT|GC;V@eQ%8vwdSH6B+u)2Tn0HN7Z*0
zu@L|yOu~;4kq<z^1RTj2F#=ht;a=al&`4LzLPS1uC)O(x)z6k(Ra$6^<uC!;(CEoQ
zu|eCh5d|#FD$)O!XjD>^qH3Hn@d}&BNL0AYBK<wO&mzeotM)H(fx`vRH<#jTOWh|(
zov~8HEeqbs9h$b*qx59~B0I|t!+qkR7cc-nus3`v<T$dvm*bA7;rIimE1rSl18B;7
z;wHo(+yk^zVawgZmbit^vjlG;6d3R3*2S%K4uzj0#anmRTNlr!bGra4z*i4IySRhS
zo#X`T;xAr|yKwdZC}jn4H^n>@%cUG%R$_(hTcP+`WM9kNrn|n@xQ{Xc*r_0%N15^k
zuptF2?-s0#7tnb?0HYFUxf^JS7gEk5!Cx3JrdSZLKJgNYl?wjaco|}l0#qlZ0MKOm
zQc{4#Y*>ytk&Hf`ZZ=$Ij^WILskFwpMIHQ*3vuQ#Y!h&#0NPB!zs6)tuuJ2WOV_p@
zI5QgV#Gy^#1p|YOer&@eF>k496!PaOeV5mOfsZvJfHfkMtqvx(I+$rz#H`LWJHVB!
zXYEUrv7$_3S321~T(K=v8&8jbF@h*VxY&vP=>@gfLk?VbvXE8>-nz2vJLkR?wvB>1
zb3$%}9@H5~-cgU?O71duE7J2MkLn0R8E?pk(9goWP(I=XVH2%LjIA-l4iDQk!zIa*
zdJLmJDUmGGQ<KNkwWg-<;@ZcqGaAjM0+oyfs{tClV!?VN{utAkIyv7&3>vR8Zl%Ie
z8)!;~1+TDZkr81!1Fwn{kVkJZlL8Y3W(q76q*Jv_{FFtfRtjtgy2NaX(vr~2IA?WD
z$Pw+7%x3E(mAZwRvW9A6W(UcZ(Gn5MI5{*j(x<Kz32t2##4|QN$;oNX&zUryL&~bR
zB{p76@^myOsN^k$DvA3YWVzV-7_rep5_iFx@fWmakWgU3n(_41?I(8k+o!Lbj@q){
z-hO5K)TS%DmWjGO*V?YOMRVNOs;*W&vS!jGjkSaP7#7LqBE?)To3Zx;PuoB6w|y$O
z^VBs8N47@csI5_mEm))ITwSB;<=lEDceR|mdT!`$?nXed;Zo{yMd#{r)gb#C6yG}8
zw{CvtU0)Z_*>EYja^Xx{xhSTtT$DpyxzxgIWZ#;3i|pI1_;$#?9d}%Jecf>%<yRLm
z%AdN3(YdyWF{&O&kf77=26n{@sgSy!Q4H%@AYMW-tY?9E8O6#4mnU9<n8rxgKMf<z
zj7b(~a9c5Y7+rq~f;L#ndo)XV&k{>{k8UX+N}s@Ybp==rJS}g1Ugynv6X_{>O&mHN
z-mLcVYlRhd25<G_&6YfB9D6WH>N+Eo@Z1C|?jNCM-m1k}9eFi}GEY~-50^pwul$zt
zY{%J3iD_i<kGDEu%iP4XAm^_>Nad^yNad{nT<hYCXq2u+k9L}dIWzmS)CV;M@(ZOs
zEn8D8@DFER=9&H$S|73`+Hb~vzI^*Fi`s7m9$|(4?s!_#STAez>&aut63R;2{14Y9
zujny-#Uyk9*!R<Si61oB5>!jr`nYn)sq3B#PiSG*GA*=*vh@2t?oMc-V?hfOlv3FC
zxN>MA5t!^3a(+#i$cDZ-{Q0GL18LQ-Cy!y!TKWh|)#rOcDPY>9lq%Hgn@Srk2F01f
zzFVXC=OH&*-~bg0)EnN6HcaBDMZaZob}q_>(`9mQ<mUX6qhI%^a}?Ailx?gN&WWrE
z8~hwvhPQC<$Dv=*UQR1Qro^cDQX?DGq?Owi>+sg4E!5B&zF3Q%awNkirIXtt=TEIg
z&XjMrYiX~*QxV!6@`Q4~>D76!qnIle%o8ay0n*F$T7V<^lO73A+wWPJDR^zM{nYy1
z7Itx4<oc<#$n}JgfIbYnLcWlH$w)}f$0;)|MnYoUT4rA2NEmpY2zj2cP&+6g^#{uw
zVIn7#kI?;uSsDmpDYJB9?s-Bf_kvQ1xqWoy_`yUQ3cei82*8cNuccTXgbF9pMvWAP
z(?IV9uwpz3F{)Q@OY+EQD$ZPo_wm%TG4ehWJ+}xkst8marv<=xD(1HWSAw{bcsI$X
z!IctzYjC9$SAxmBdTbG5)c=pvE%qGxl3$<&X9)`Kbs)^tlr1#rA#tJ`{|`qH{9R(m
zh+idH!XyQ6Ay@$1!hiuTZd)isc&vH<@;EIX5G3MNx=kCNkl}d@;4JYY2`B4-m#~g~
zF>sYB!`RPZyz#gyj;xKhR|I@-%wHn;Uggb#kI}gU<d5(YR7@C5%9m*YLv<7P(~jwg
z>5O>-x=1w3kUb5LM@6b9(T9l$QWK*sk;v?XxV@7Yr^&p$nJAP2kHIuh@jECavBbgx
zXhZFp#Ub3AGc)n_`M7Vu%-%rPGPMNR%@+h?O~}i8Tcr!Ku@lVO!f=8TN?wOlqDnub
z9s7{wib>ag!;>cHU7lA-)L5^VO&+g6#&`vIc?nraL-Lv)1I`@AI{g^J9B<S#tJhOQ
zz({2PvL}fgm-z-1iHA8)%f=$7XRzmI+Y@tc-+rj8XJ~Y=U);?gdSbbop4-10I^;v6
zsmV+W1#0<Laqwi{s~3h=^*6Wn;ymZ<=*a7Rnl`D5#S_aM1L87ZR`a$1+C>DK(_p9<
zipyukvFF-0we1`oZ-aIHx9~Koxb?df`vzu#nml#q|CecgpwS~nDAq)=uTjj7AQl*U
z4f~Nmm~LR(airqcplk1si9Yn7_;t#MRzTe!#y96xXLTA75d@wmhh7$clj^%dK^{uP
zyx9DM1F`X;fj$kAh&=*BkcrvU=hCoUXenog0}O~ryhe2}Iqx)La4+}^l)#!xZPD?M
z)GCNpPyvj@e@fXdQ@}urXyVg^w;FJf_$#=0@xT|Jc9(@FD#SE6MnIuITntV0UH7j0
zZg{n+klhuEyHR#GD(*Jf-6nPHx$E8&g{=VGSSW>!a$#enuz9L0>Mxvz&zF*^-M}8=
z6+3v>eeh$?j_(yz&Wz6<diU6^WAocS?D?SQPQ`zz|4u#d4y5A)%JFmZ@pH=Y3HkWM
z=K|nwcN!n4hqxddH=Zy)5`@5j5hu9=#!nceSM^8ky19(^ZSUEXrY^auOKI9GH|>=U
zj^1q=m0k^_me&khsTMl0vm-`W(!ORmVvNF-OvlZRcRFu&PW9l4)Tf#1x>ryS_cE=w
z*WB3|DL5>74*#8CG<C7jC+5?rU|SCjG$6i3BkU%{kS>UyApqo0bL(hxD>P7ndjtsh
zQ9!<#H0-OG4)sRgMgMrrjBiwpWvZnX2zp7}sxGmJq^eEv7KP<tNif}U7E`7~M2f!J
zHB2$ON^d0|rR!E2`|e_yTJx+bI?>4?acmqGJ0^VDeP_>&kqraQKYg#ZVU}UICb3My
zL+U#y{#$g*0x%9o61s%)w_V)&g}#_Ywe-_BLennPe9UaSxlt}?1c*97Uv5~gTj*fD
zZjF{zM2oAU<uz~%74XIdQ?6IFK%f_=|9(0hUP>J<RwIPLM;#7gJp}}H!aB3N@1O=2
z6U%&UDaMJTFM(q6rMh)tEu+hHYZ0ego0oR0=*1%pqz=3Uz4!{&P$&hb!_P3Thg4Kt
z)nWrGnoH8S20+kFVk(^^`9>MsE3q;Y-KDM4`fH^lyC3qA8Ytz5jGKl(V)SD&Zqjo%
z@XU=;@0Pd^83J<e6VBk&O?$G&C)K^^NsK7Ly@Q(XF;9{O30dZ_w#TnNp&IJaYF<lF
zBK3V~#Z)Vo<gPKK^UqqZ`Kjv7dggkwo~mBcGuLZ+s(LNYT(9M+>a{*|z1F9x_axaD
zVT%6)yjOLxN~~g-br_=3EUja^=sN9)!=Ew{XDS_3i0_0UF2%BRp#8q)l=#Y+@zrMh
z<2Z)n7>*Zlyts0Vw&XNwi5*msIv2D3>|1qWXdGaV0MvW!V%Ha143^Y$31fJS=sSWJ
zt(Y}j@0{I#x1d4tG)M)&EL)ONRB>bE`pE3c+1KaW?_|mA4oHU%%k76FMbAxbhgHRm
zW7m((?wU8;+CATX`}_y%rMjJW#OY&^!UI>krZ!I-qlINRj$A)7n=|{ueAew3<+i<%
z!hImOkPHHBwteoRRJ-|(ar$VauzP8V{M*Cw+I`Z&Ub(F|Qg|q}-1%GU=WB2Gf3QNT
z-ErpxmEW(G4;0<leSP<@>{S9ya-eB0=Y9Ws{`r#k3g%Bl0-K_LFR#X}8G$W^xR8;%
zMFn7r*<U_4em+SesYFxD%47;4M9XN<F*2N~X_V7x1%g;w|EuR=sSh%%W#s~bDY3@<
zBaFJgU4jX#3Q-4(en{o;YeZbZC?vso!>&)<gobO2d?s7ulcW<dXeuJ)3VJ$~etHq4
z;wrT}RAtE}<did&5TZK1px|e5HMi*tT89S(L6wzCP))D8vG)4fnb13@Z=Rl8MSg9g
zWmO7%`IfELNGnTvpe`<?=hiJHt^OXrnhlFzjkpCVD%4z){zkg{UKF=cax;PjWUVum
z{`xZSA%y^=YW`@M_fRyG{*L9Q1;C8!ZmpY7Cm+8l?}5=`mJA|s;a`@$hl_<<E{u(z
zJwt9c7<dVT)eWjRzwN<`ElZqq)CXUM`cv@2*dX(_MTYfoGIerjV5om2I7E;az2dLZ
z;_zz}{4)w}P%wj_rY;56l{QyJlETGu4)^rz?n4Xuwj4UxyLb1_7q^K_dXN+xBzSz4
zCl69@vxSLJ{#3j_E5))YV2c$I%Q0Vq1<}BBA>$w<ZSh}FKDM3_DJ{~gO!>?#OcHVS
z?8q1pWZ}OZkCuYBw{Yo;nIIcE)eo!}S{ajfT(#(qJLnc$DJY_VNiJy6#4^so8Ok`5
zQRq%Zm_UI92Qk|Tv=-)&48R~E!ce{CFcAgor{AHh-o<dTnxun0AOn?UPf7EL*g!!G
z1?wqDwyld!cT&LQ83dpbd?|H}R^uC0y|njn-^JEOj}<AqY25xbh{XS$K#a{(5o2+P
zw?gB0()K-H)ol8^_FMLdZ;j$xFZ<R{+Q7XLYHDf3S_*el*Y;f9Gr28V5L60Q$OS8u
zf;Do%8l_;PT(EJn=bpnmbz%C{cO6x;+urTD)uYsJmg_ew_1$uPx3qUSQa_9@f&>Su
zEu`cOMr&5QTXd^Pso5&mY?Yjq(XtlJP7=O>Jr%MCu4LIgaZo%pvZrQt>$`hz?Ug<2
z00LVMq|_kv(~26PQ!N*^FpspgaxMT5DU;;sxJ@9iMdSswsLOCQYbt#zbiZbUdb?$7
zhW#cguSMmRs2r}%OPG6ga(BD1@)A^D3L7j#={Cbv`&8z1COV5Wsn^MYb?}%?7>Bbi
zW)vN0RstPzpd%9KjFwhM3mXB>T9`AH{!13zqPRjSYLtr_BSp<fv3^1}qED`(;xScx
znr?M@Kg~z*C|@Y6S4vyt(w4csw|gU{yKoD~z0$fxY5&9#brnh_Z4p=7r|EXr7Q=%|
zA-7WNBgIoId#G3U+}fjh<-NV?+nwL)RJJ@XZ+TwJG_zGHUn`fdonQ6gh7UHtxmj)w
zynMTIaCy3NhN_|ibOxcq9=;l;?5pMS)pO(TzwzE1x5bEWm*P7h`woEak`6y7z3^hh
zcSP}>lzk^7zEe}_(Y)dtMc0dFGvBq{vd!(k<xl~R@8m@CdX&6gIj<KaqV)U=(vhQ)
zykkn<DLL;{ByV^s^9vWmGMgJvJT0=PC0bMp+7T|bqvfjrn*bF{Je(z+J=`zt#H0OE
zHw%Ed@eljyYCtk9|8!2Fvi6<hH;*e78|8|PO2uxuVz*N9yj=18RQgBG(og*sSKX)H
zEQ~sTV$?~iw%!g!O1l>fyJX@oJ3evdO8(VzgG%cTxpjxqdO&VHptK&5TaQSqk3wj9
z%&?DSm%jZZ$8;Sq!hZFt?LItf_xyLO4-h87_4B<S9{=EYq_{^Z-Xj<9fxqvlyG(J{
z$nKgbFfyDava<w{Yxb-5nR2Ccja<5BzWl?+4;tmtow9RRJj2+~WB61sdU`+%o3aVC
z$=@jXsuUmDQAplKU{^QQGGF8jDIO5Uf}ySo3D@4Z`iA6XVAu`pdcEwcm%Kn{F*H`w
z^-EVTNq}y(r03Q?G*Q*+U7SL&N%afAxPk1vLUvYQB6i$z$j&vGi&P)xHX*-O$!nDJ
z8l$dU#Z@W0D%DJqvu*wa=A!&2%tiT|4OakEHC0Yfv8gc2@il_YukIR>)lAHdMQecJ
z`ZE`c%o$uPkCUh^W(QGdAXUgfJR}K19{wIuNpv)flf^&H$dh}GsiI=RTl`bYgaoLX
zChi9X1WryKi>+@JL2Se?!(kZUg2$@2B5cxYfYTh~F>EA5NW`xROX}iZ*g{%)aI-_b
z!+tzfS8+J0M9bZdBqSaFmL$wMc$<>Tw2-qUskRVri>D;Pe@>3Nf?5lpS+w3X2&2bR
zo{6({2^EjOUu`$)Qg#?#nz1pQl@H@ewn5C<3jVrL1!f&C(cf$GsEh9)-b>WOe|sSz
zQBPU2ydHyXJH9dcO~Aq6aD^IA4Z~JFM~Hc{98PSvCUY@!(CXy59z%__dOUeVYJKud
zkC6a3AyUl_XAd{(SCYqPsSl#p%x@+(x0zVi4j1FJKfr!mS5$VWwXN23B#$o(VLK19
zG6b`yeBsw&4tv$`+nIVlLDfFx&J)g*dy)dhq926E9Hm*cukpP6Ugh*3>S<q8HBOP*
zu{0Gb(b_Br^-^JY!_pi;xFX~@C)8?P-?ZqXmi3|w?$k3cXNFx9nc<uX_muIi7sog0
zHH0%Sx#46oCzOS4ZtWhdR3^)LHXY_-m)ry%gN<x>AGVMSV09gEB%<2vPt0B{Ed<B(
zlc-)~);47I6U!nH80`Ft<72ln#pj5Bd4Yn3*~Ax-)}U_8A(pyXN4wW3d5cncmO5ml
z(|ao;md(sYU+Yt0USe6=DdE{=k6i#8oV=u+5;hZA9o3Ymwf{Wb!i)rQf?}5`u+S-E
zg<XslK6G$f-_AX~ZNwAD(r7QurMfxSyrqI)Y*U?~Bp>j%sG=}}m@PH0%H*!58;}c3
zm1+JS<+ZY#Qo#7-EtGbgPFpD;W|sLmQBAUBy853eji#j<k7}dO3}1VxqYqI)i?g_q
zf*&D>WssAYG4%=El=>p2TG`@0N_+pISURoxzy^ASZCycb$BrrhUyS9}VfFy36LYc?
z9S4y5JWG8KgeN#g4O_~o>Yfw)4DSc7V053^I@;>R%7wz^<?{VCv97<5#{^6YyZ{s`
z4(3zD(IlChB-r~GRI8ptbRQ>#6CgR(N#=D3@4Ip*GvR_+@{}u{RkCN5;^~k*9TDgH
z$&6?+tyA`NPFg;3frGsknB2q&$QIe%qPW+|?sfB<WOwJ})_V>&Y<};;Wrx$PIEhM&
z7D2MJo(XzZ$z`je{t~$4RDvCHu!BW5%E66FutyH|+}SS&_eP8BmEyH>@!Du{qlzY=
z6nDwRUANE6#XJAXWpU*^^1>QPaRy~D$Ef?u)c0Ao$&~|+q@a9e+f1*NUpw0(HEo$I
zS5|J3S8hR6s@o#xZ&mX5%K3XE`THlkqwc`;q3Mw1E}Pjh>rrajW%}!o$~$EDdd0n6
zc5lC9h`2#s-uLET8@)O@b0p$zo-2{Ps}%2A*}Iki5w?<yAi)f7{c!IGd*$+OASC$g
zliNXB=LK(MU(cQySE@SXs*d^4hi5-HD^>21dJj)$NBqxS*$J@2O<)SHS*}{9TW40i
zv+m|Psd4+9_x-?of%$=XQEJ|d^V^%{#_f@^9a26-{~tLIOm6xF9#HD8*Uj|5^YYD?
zXZvps&y~O5@Lt31@^3eOs}cO9^1@5<3ol7S!^+TkdFcE{`Ql{veW0^4`9#zYVAlee
z&}o03;&`^OqQ~%1Fs*>smzv3LDX#{d>GV#%5zQ+HTUof`7qdPoUrp?MaZR*z1zssw
z6EIH|Ip8;@GGV3NZxC{d;^zz~HFZ&Plt|_hMt~C}*BHan{1bdR3-)7)Y-B`ry;&uy
z-!#E9sX-?(m|sw2S^U$;>@*$;j-?@!M?7m~xYu|#XOGR#A%!2CA5XXV_t^Ydi*sW(
zP<N;K?N5;3$#QCbuob2xd@H|ac-GlEK>;f={vA1%Zvb{BF&_Jc&3X-BE7FdY5|gk@
zO-{W`@)*uyY=w0^VU;w@BkheK6f(JlJ-^MIx1in$7V12rpI-})*k|npET=XuKw?{l
zgURR7V=77`_RQ0X<RlFMkiNFWIf$0Wl_MQT4RO*Mww(q;qn%km##{4Y6NUajeLzde
zVD+Ouq}pNikwKc=AS9P<Q%Y@is!c6{(vGlWm_xiL?F;m8l}DV1v!UORu$k0H1bWB8
zZ3zSWU6%0Vkn{AEDZSztUZMAN@|a{ZmLcoWtBZepVxN)qiKk(trE|iSB(XuVx|SK^
z>5K1xx538DGWj|4%Q87RGlg2S3Z1-6sg=*z9?tv%U$|B<IkcsQAL|W}<mfpL6BEwS
z-@S%Yx<)OP8Zt(X$D{~c=0e~x7c?FcjGQOzS>}zmr`}hMqum^4h4aR9C%oecre$~|
zr>5Mnn`aFKMlP2->X&Ea5@T(`mvYaooO>F$HLG|X0^hp<?|H$pb#ZIou{1S>k@KVX
zx|ikvRwvLl!oILK>|eyl`6u$iCNOe-h^_J_@~6_?a*yxUYY3Yz<%j*@yi`WcfK}wJ
z3b1gvrm=7r%eHRW2fwuAK{!A-cUHuah>TG1^ec?3!=+an#3PtwlaP3-ze!R$0qEg#
z#47v@?kYY{v6~e8It7d`BOZb|krZic_ln05)>NgiR&P>PR{X0J`&yznkLMx{0RRe}
z>s!DwO;VZPqJa1*bzd)I;OseQNYi>3%jyUIgIYr6!fezi#$z#7>I|K}K}DBkxfXF-
ze@2-*DOkj46)a}77>{)p%~stPB)Bc{B&A)ZDw4dG6Ajg#3|q8ggX1wTbG@rI9tx=1
zONsdgE{J`}+zC|HSnk3LT7K~mJ>p>sUZ(q=qF{&uqVbaan|PW|M<_UhfO(|j@n~9_
zssL1@vt~eB7tyA{k>z-@i))tfZlmLauZ=&kU>Ec+#(FUQgP8+lp>Oh%WZotPw?)j`
zCND)DfoEdwm`h7y_Y_CB?C6#p&q?Oz5I#lv4%x9oa`Z~(UW6(6H^`0+5~?zzw(gYl
z_Eg-tzg4Ev=1^?KvaL9p4+o8fQTV|Ow8;TL#Ues`hDzX&95{qs$p>l1!W?i=fg05*
zWt6;Au9FMaDFvJ5g3Y&^<$`UWxh(M8kS_#lZd|&4X%>8C^V}%dOKh$b?^Jh2X5N@L
z$W?1)cl-R%hhV<$^vj+5?z;C$wtbR&A3$cMg1WozI>}Zix$B}84YL>K(xr;klC3ma
z*%);OrLvZ}^YfkZnw@glu6UZU$}ZW;&@6250hzv9s^6m2@09Cz-YJpmd+xe>BwLT<
z?unMKlR6I0hi)I2I}b|by^^gYYAaD}RfKczEc}K;an{PtTB&Z+?emheHsag~hnsj5
zv*4;!oOQCZZg#WmY((=Ece(5?*BMCJ-SKIf!3B>SX~=D)Sf;S1$Dp(xl3Nb}iyxfl
z8vCEy-B$*udX?Nta-W&5RIit-*Grzx+nXl`BlhhNGKB0^c)*#x*ugDnh+-$&SsZQJ
zs5I@9oAxP9BXZM-`U0Bi1*}-F)c4@wl=@S0{i&1})guRp(GTpE_8pJ|2UD)>lmpZu
zfu59?)+HCf=Vt-7tsnVpCEzj(C%dOT05ZYG(NB`OzV{D=xyG*DLgxB&YbGQbyN$$E
zL!h{bt5)Yjl3gu;JvL)vW*qff2(e9-!Q+uNUXp9|rd{Kf<MGKM;Q}xSK>=u*X1IUi
z2iNszAN^EZF)qk0*~0RuSU&nG*K61Ux{t6sT<Tp@L)?W&#d7Nd-AB4}SV-u{Xj{S_
zA&q7W+^?jAL*mv(+Z{wkCLNq`?d-T{VjA+=a(%(WRWoq8VgrvOPC;9v&6b4SGkZW5
z@J9;hw={5rrmziGd>U5*KGP(QhqGC~U}FRIX+4#!4R73Z8kDM7j;qC~>1rJH5*RY|
zBd2VVwq*AJmo@4`&XQ&7$qZ-cc6WOIls8byDP`Bk<wSOplLcA`ad7sq1Jo+`W%}V+
zh2csyo*If?@U}D#ti0_>RbO4-{6Zbs*mOvBSi|Vh21Z^2rI~F8FcCL>&M97D7-HAA
za9<d}B}g$SrT&Pr9Y@EBeH6SzK|cbB%UN9{XH$W{m!%7nqIgCUGAVqLF8ns#;5Djt
z6aj!Q&zu{7y>Ddb^dJ+<GjBLGIVmI~BhFasnUtOpk4#kWq?!^0TP#x*z^l*5Xg2mN
zi6;OE=UJ7q(l$P<`Z-D7N$9kcs#A$MXCJJD;5RFz%iS*)Euz^LT_@Gpu|GxgK$>|t
za(0q_m&%S($<ZL08xY?2mI19&_SPxhb+UKe?NyR@`=nKOu3ZqxSuxu$=QJrftL2>4
zQJZ}#o#|ktE5X%ra5a=99UnO4;C8Ig?yN}@7S{X{!mrlX=lSsuFMV)Hs@f|ZdTzQf
zlK1=-J0R~f@7r=F4bkd`NyB8BWG|l_*GNWtxs(N<vkEdiI}N9~CGS+-teP#kSvwng
zcl6e%CTTu&SUGf5K6F$XJgE$xkq6Iw<Q<)~f}m4eD`Xcauo6|#EQz&UTpM*3KpLFW
z0AX-W)?_B&%WOV0K(<v(?w)REFzwVYGyCs4D({n~+Gg3anb|tkMg0|U`WvmPQ>xnK
zs`j{5fU@;NAv4$eAWd-9PuXu;(btVFN<+8Y&<%1$a#u>#n{Kavm}Y1^U;x=OWuLJ=
z$`rf>N^XUmTQPGclDlfM>mHP|e1*}X`e;FAw5Sd$^pHGz?UP-QQNyb{JQGE83#PZs
z6wWliv*zZS*_Aif%@j(3206EJvg>}rOF+zYeni~>N<UBgL0Rw>fpgj+Vw}YQt)BW1
zBST$DY3hX@x1KKij6pn(lNy5<MjqW$!zKD!E>n>F0^X!k#<I}2uoR#*=12_M(BQz?
z(BQ?wWyY*}`G3-orL_`T(Ov;VQ<JcZe~gAKP(sJ;)W*{%L*5SnC4iXvdmWPpVt4>5
zhq>jqamL~cbc!7*9}F0zC5>Bj`G?dvD{8{`WES$vCewext}5XC0`3ws({@}x%w*L)
zJG*|WZVkk2+6Eir;bA7syj%3002irk9t=>``j6s_%K1IS@OY-ni}wvImyO}9H?8Bi
zwfci+5-pBhh0M#pJx=A>k4M#D*4I`$Jr^C3nmR(XOGtfc`h_T!ldv1(smUyZlbV*0
zXjz}oW)n}jCZr;>a_JTR^DtSlk=sHeZ?6E9Qo7m|paX#ojaq4obkXl}UQ(L>FSTo2
z`bFqV^d@S`UsMfFdDIJ#`LwqSiFzgvOW;jE(t}HDdz12)E=^DDw-hbC7D^}D2J1Sv
zM(wJdUoYq-!ewwkw(f*lQU#~>ggVDWI@E|9A(G;|KrgAW98hFx%$+hGI5bMwmFN>s
z$TX1)3a@7A-Sl^%wtC7a{@-vmP-^<n_jOBiBei~Ms`@;@mNMgd;_W5#B^7~S0m+_S
zAJdFp^FqFvKsp$1N|w`O;_oE=xDKz<Q<F!~<Z7+j7$8)u3CI{HtWPNC8|Fx&^&ZiC
zkJXkxQLvyko}`*&mP{cooF6VwW5Z;_vgij4;(YFxYNcH-o$G)a4DG#fq|!X48NJQg
zo8W#oknV0=)D)b4)27Stq0|<_`{R7Oz^cS}7x$#}=H{g}>2CoNU&5C7$+tXP=Sa|U
zQ}XU7jTq~8jNxnJ+w@j)<=Wh_tbSWS$9nQu&KcgR*PlFw5?^oF^AvS()zpS}CF|2;
zI!6M}+>ifOzLoNpc;AY9!MF}g6fPLoyb@3G98din6-^W`xF7F33WN)_@2DtT{MhfP
z=qL3ZX`|p7zN3_{=t#;N;C(0Vry3bw;2V1OR(~_)8%kMCwDnvcdvpZ$7iZ5uL0$0a
zBA&$M*(eL04~GOoEW--MnNO2DM?7>neP+~0J=C!6Vm{`%{i#o<#=-sL-O%h6HUp(p
zqW~fOz<OICgtJA^$0&J#Qxa<*=3egVr^^8@d8y`?)5E#H4wcQ2BWxbh(b9txgod{K
z%-awyQR$KKL;AhL!Enh^ib`KsCxWQ&IX!Rk7!K<F0IwieGYf=KOSt4sRktLlr{P_5
z`uPbXfcLJs^fJ+x`YH#xh;z@y;=PRA55f-!V1I&VU?~_pF$iDhXI~i#4Tc&nZafJy
zz)(=-3WCgZaOfi7ci<3xXpHRvzCM`P2Si4&Ccy=ql;{LU#P$JWX(!LMG1bf(<DNYY
zHAdAf3ByzQi@*8tkAGZaiCLKHASpkBMI^fcl`F9@(*Z3R{G+DT^s`j;&r$Fj=x9*{
z5u*B4Gp581s^%i`fi?Avaa2KpnDph3soWx6Nwz=7Br;4k^Cy&rHU-6x^_xH$l_{dW
zIy8Pt{O6SVTNL~z1#FLy6ii|nqZiH$j))hjRmAQw^-u8xHJ5Ely3}1$;24d!^|791
znw+sb2wn#I$C=3l<J<bqjP$cys%j@aYs>^cC*-{)W`_N#+DRT>In~(MOf`sSNfC1l
z4qgT?LYH;mERd9d-J-IFBq<bWgo<xa1HVcEfzL3b$eL1>Q6+X#by1h(uh~0bQYR))
zVsB%TN?)NM2PI<Jc<)JHGr$e#AA`dg;<{s2iZcz{krCE^F|&FFUSKR*I{C`gqfD7J
zCwZm|5t5lt$Lz0)P)jBEH0;r0R=q|NJm@E^B1cjR!TJ|==n1ie)~QadaB={;Qd88P
z_bqLZTA!bDK`r7+Ucqo?BRl1>5+gk6G@ukOW2ppgaf&LDGid^Xi@6Iv#Re_;Z%AJ7
z7Uo#U3-YnM!88W9N@ZIk=B<d|xB4V&nN+n_s@irhry}Y+K!P(nOp4exnJrJU2C;qR
z@?NuEwK6f(8ric3c4?%LiNhiT%D4&kYp_1_mnuFoYl?b<inmhsRz7l=UG~XMupERS
z?a0+5Gv0RsHv>?pEQUg5<9m&_w|;xixAw>@55Uw;IWiz08Gwgs5;8qXGkEJEU2^A5
z?!IqzDApp`S|nL3@0B+GMx#>NA(wWL_xa-c{($1Ill^syzg70P&RvN3*H320{X%xW
zVyl2uO|ro=aiO*$=xk;2Mr{5`&UI+DB`a<;W_O_J5I^QZqSY|xl5<y1W<^OH*(7_L
z=9;0A3PB_`N|_<0WX`+q_DH!^u+@^>)stq3?B0Ik${W-D5l3(`9Xoq;!CNhPY9=i(
z+mZq+AS#o5jgz)$VU<+9R;q573ZYP(f6tSrc*<o@`OFIuPvfM8WR{iW4BY*8=atTg
zwE$IGi(`(wXkFvG8*XiYF=XclozkwOQuk45-7%@}W$Dyu>CE}h1!2^%g%Gw9hplAg
zHl)ICy=2%%XWNb4bm%c2r^9abu-({ad?*O@{YKeYJ!PFfa*wt|Ywo&h?zOL1+V{%s
z*nNCaI&wxjdPdqe8fia^Q82X^JGgWG_c}Hx9sA{u{nCMB%7Ihzfm4wK!;y~DvS%&y
zqov9<^M-pKpW<njJ<w}ziK5J)T+u;Rj}>@Na>aV3VzXSa`Swbw>#)*wRPH(|9qW_3
zUW!!oN6YG>HEW_(tCXrua@8iKYNuSaGg8$p^&FRWAD6275<<{uQQ3{r>!W|=&dT-T
ztz$I!YGq$75J7wm_xuHlze)BtMFW*I)Y12W_Gq9A&db^BY?TA8N}y8?bVdRjrA-H=
z%?G7GFM3<4>y+zYTwC={!_9`j$~NWYLlRoIT3WqbYTZs~9d%O8;c0u!k$=zWQx&Xd
zJnt0UERvcwNllxjk}bDixHBg8KCko+$@Di2lVy1uUe@dEWo=ep)@FJWTZ~)j6^!a{
zi5V#FH}=xCL&g^fG3}6Xm<l8gr|H^$<7rCVZXBVrQKLvXM~xG#Y8=>EcN&cfV|Usk
zm^=2QCExC@-O8>$c~_tGk{H=FCVRF^o;qp8w%h&pIyWhu2WeZq_n36NUpjG8Iq|AY
zf3Hc$Uz2<30S=+9)E*qr@<WF0bl9-N2uo_oQ-PkIFG;?6KY+TL=5l5Kny9}f>aU$$
zE&H3bk5!b~yOs9+ay!OQuiSnp;y)bq2c!N<NV*mOO4+|s@wdzV_K3ejTE9nHzgP0_
z12~oX!2|E^hW)zzGkWu|5zWP%R4;q#aSLd=&y>xCl*)B7{dGu~F8u3R&C6G-OVzaj
z1%-E1>lAW)*9xu{Odn=gFD2LeqJ<?lj$c1M+xu?ct-fe^#XCE0?$D<!Q(8_vB>Gu`
z4X*o&uT5N?_^4vFQn5j<*bu4M6!C4I-0=ge7k27OO{ZMb8Fl7K1uK9`Q;kV!z9^m{
z)NXhv7;ASLCc7kex#Y&&RY|pZqk*RBttuEy)DxIKD3!L&tkMkMOWUNvHhgpQ>+YDP
z1AWk;DBNqfpIi2628(Ri{eVTT?4H~)HGnCG9K9zt7^1%XsY|d;pSpAp9=CVQ4g9<H
zzq=t)&^=|2u4twwoPR#DqH8Ks^3_QG8mLs<M}e<M&eEx`L>pT5bf{Qh7vSx$T=~j$
z>y3`<9f0K7pqkBNpJeodQD`?r9J?j+ZYHpXMErTIb9-uxU3*kXdHNpwYJw`ZWHS*Y
zD=BE9;D;1^LNv*16eAb+;vZ1(pD7rlH1dig{znS_h=M<);5!s-p{tC@BZLF-XX*3?
z1+?v^Zon}@2=XjJe3yc83K(7Vb;{zT(|?6nEW597V5EO+Y+w*NV||eAM^NJ!{sj#~
z;Zw>=!T$nxH`anGfA}@wfiW$^{8?68Mphg)Pa6$e4G+`GGW_vf21iC#)Yteh4aaz?
zBg3toxZ|b13@<yuF}~8tvc=Qr*s<Xu9pmNM8STgsPopCx;utUTX*uagi8#hr7Hbvb
z7~gED*2>Y5vfvo+HN2dbQ8;(u{ja?Dm4^bw<GrTshK$ntR_EItS32Subb?`nX%=Wl
zadr(G5al%l+!(j8t62AI9$H!SfN>zTFrB0nW~XN4j$2qXi$1Tw)j-_JPHjS7;9)k4
zKA$G6UH`z*nc+<|1aVXaGUDh}w1duoCgEa@w9px_8`L&h=?u^SHSuhU*|o;bd4OUQ
zrz)W<mgRUma3%22MQ0n0LZ&Bf%)-l67XAdY)EJa3O&8Ht<d4BqzC+AVa3C(eso
zDP|LL^RM+>?U{i&P*pselI&W+>0a4h5_eFNQ*T4LT-F+QQBn@tFnQta@RjiNAvU>e
zl?%xNNwze9>PCi#X?m;T{`8D8K!INCxQh3IIGUDahbcE=0imic+ORTO-xOWh`oQ<1
zF=LP6zN0Xn!D7g$^^i$DH*2kpTh#L`{TZ$5xlO=r>aW(vv(<ArVakg;)VPzVLEBZ^
z^tkLSi@Vgs93ijhhV8m-W*j6~+^r^h;27!J$kmaVUfEj{&s7t>0uW0H#A1~kXpE~Z
z#e%KAh|lv_CUrxLzM`7*>gV4>A75Jki2;#5Qc(8&<NfSI92^r#j3SZ*BbGi0HcSMu
z3uvYB*Ut@&zAS?Lg?%0c779pguFeNm#A4}$cOw!{&Db>6XwN~34SoG&??%X%B5h5^
zf-IHsVZ;$P5R%K_XlSgV{{##e;i+D9P&I6-a8ZH6<qBLF9~v1Gb0|;VqCB`;!@$`y
zXU>i?hAdXjxek!smj{W(8fD<P=m3&vEV&)KOT)?jKJ|8FGZM41>cBb@*sd2TqK}e`
zS#oFy&oOiYHg%zfgr+9J?+&UQF^SE!8b;2({PLhE(ymdgmK8n&25+Qq@U_8#3*%?S
zhLQf)VJnC}A_t&Dqp$RfL;V27DWC!+k0}6rQD7d60pwGmg=kwSW@jbNfe8jvb7o8=
z{xz1%61AtqlzfT-4~xOY*MK>9O6!9XToX$vgZeUGX>Q=WPqn|wC~r9h6%<rbP(?vC
z1+>Ex%V#Y>B|7&>tlgk^vVUMutfgGEhZ74Xkde{v)WHo@tdF@aWp7bzr@Z&EhQzG!
z9SRleZK8Nq1n}w@*!Y1nv8-fXEv`N)36E5NceDv0{%g8h=Gha&g9GDW!$;2cL)0+1
z>P*YYQFX~<E8s!O+C;&Bz#T=<gF<XAdl3FBOqBvPsJ+dSv@Y$XnhNOSv?PF^V=CSf
zK9Vt2B0<8DbFasYqvyoKl%K8O|CnOmpkSJUU!{O8%4`9iqtj6eKA_-tDfssk9HrnD
z3fP*@7V0zfBxfmLtM3}R+D5@z1Tk|5p6tTNV5cafoyY|seM}<pG=stLAoF#jA^qVi
z8G^y}u~77Vq55MX_xr-ih_Ld12sXt3R47CEu~7TDG2H-S7r|#)f?>_aLhHxE=8uJq
z-xt<>U)cMxQ1+S8XfS@BnVPHqW1$U|eQq@4ih$q&1)t>zhSiTU?FR2u=#hX!ywqgy
zeLwvLAaGpX6}OuWB_F46_&9wl@JOU|Kh})8CZ%@0T)X~3n%S_!5H;C;F8pRVuAT%+
zZggLVB_v&W;1#lRr=E{kiY{l~_XQ-u^QYAI=e{pANJ7JZ6LKD<7Z^MMA$cU=81E2_
z*3XT320)P@z&c~J#@T5bVvq2=nNqOrAs#tXyM`DRHT7DPRM0}#niAKV*tO4%8HPLn
zk{R-}3y3{%3K_P^Et0R{qx8nh2CPO@N4?<%!?bC}a6RjxKyfWUMIXR$SuIihQF_f~
z!}rpylUu&pLq#oy%$f9u0uFJ1rXh10I7~Ria}dmKW${Nj&zlW}QZe{Wxw!q2Kxgq+
zoLvUP>L_{(OHVwFPVQsDCK4ipPSB>x+S#(3FT_pk)GU-%&V*)LZVufnj$2p~h?Ly8
zl|^k7&1O+MIr?+3C^XOAaTkl`2v&RC&7vM5(>l4D$dl>Z8-eQq$yy<2R6fk5i;oT)
zUojd^8zg`AtP2b0>~jDidhwCK5+8{f!*;_S16Zk<e%Vt!TQyg5tM)UfQX=t(@gv28
z+5IWrfbYJkSTgw(Q?YC+{>W7Fv3YgW<^Ad|0K^!4{|7D*DO;MMBwE)jrB~lC2u3id
sOi1|A7|n0LpO&>_rSSW9`%a&5XJye&Puh3f1`2(ao#koYDKjAaf1Ge&ApigX

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/cutlass_mla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/cutlass_mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..74d48d237888a279fd0eb78631a6e9c8868d84ce
GIT binary patch
literal 11604
zcmbt4ZEPDycC-A_l3a30iPZN8ZArH2*pd~0$sfttmi%qY7t2nsM1n2FUCNU9A@8o7
zNJqJD>Y!8(SIhSS%eWq*T+>ED0$c(da5><LQ+_2ye{|Q%f$SmyTwDq?KU(l29j@q~
z_Ptq>q8TdJj}i5D=FOX#w=-|vd-G=h!Q*ieND13_CZ@L&@*6CalB1YeuV)B(Ktv)k
z2@=7lCBY;u5esADtPv}%vnA~j2gO+vbxAhDCY=#y(iL$f-4Qp%+Y(&T6Y<czJ>gCA
z5uWB9318A5@zZ==qCVLWX-Eblfn+ceOg2UuDV|L<C7UD746zW2ms;Kdo-jpPE#xc_
zop*`ok{YF83*g?d(kc>Zqjhem<D`Z%ww+=<fc3s(DN=SouN@*^?zL0&MY<@RAL#0(
zKvmD7Sti`@1vVZDGX^`9h$_nSQ8{cgyeCyvN~sg+)TQXGBpaS``P%HXWVkNRB-DxN
zgmfit1Sb^X=1dfb=Oj^>x+TP-u^STf=NiJyFgAdadm=TV3W@aixFkc-H!R(nh)F}y
z>FC%*VnUsTL4B7mog7Lhlj+o{XlzPKiH4_)IiH+P82)ncvZO}Es2Vkzzk)h7Gm#MK
z81-eQht7`9Oi!m}HD=C~35yd<)(=7X0g*_A5lO^yok-S6wvy1yN9>YAvf|Q6bs}>d
zp0k#))o2--QE}pckrG!$7L0l!HX}yI<>>ScK`|K^39|+(2&rgN5(L8~2+6cKlfXPD
z;4~)88kvXgjkfC}=g(ZZdRZ7fKXUfcY2n(Hi>F6~;nPD`hEL1&Kq2ER7`z}vQ>nBX
z#r0AI;cc=GX!4)W^{dJ0{^^P7y=qh*m(;y4&m2B7ICWU+PfU#UPtU41(y9JiiA1vh
z)<A!>wBY??=Hx5=$wah2X1<&N`M&8{*^h%F=!Acz3&5+S;2_Sn9D7J-4;8G$-n7JO
z+xF|t2R4Ys?vQc5Xp1MN-VRty>pr?G|IpOKg3ujqHY&k!OT;17Ni5XjWK<;_m@byf
zTrANt&P3dlo|8Otb!Kgm!ivi|PDI;Jn249s@D=UtSS$HNhvbi2#Jan-cZy?0>M6EC
zWRV)`oE3F}Vx6m4=dP#=N{z6ao1n+$xJ~p_)U?cc!@S|&6spo*@D(KpHkqixo>IQJ
z17jNPo9HP?PDu%2ERl{)2?}gS1;o=9ol(<<H9kFPumA+<Kyts)QqicmVT+v_4p~xX
z<kS<Zg>Q?Jwr&IPfPmJpj2P~r>(?%w932%v@a1NxFaf@-+zP;8LFA~Q&$WK#ZTd=e
zeL$(8G~6MN`F1KThIf-3xBU~Wpu(iAcp>wEr~u70O5SEbi^;p7Sj`ECqfJ0pLM)-o
zb#8WFoLkCGss3r`K*8;QhkVX=Xl%z8BK$R+$h)CA@IrSBotn*A;gOdyQ%6yDw$)~*
zf&|r5nWJ4AyUUy=SFEf&V?_%9gak}Waf(8ac|bDEBs{B=$V|aZjS^VNFK}ytO13AX
zlW93@F|064GF=$#Diku8v#lsIiV#aDr)N|N6n#l~&+Yx{OMDIaQRr4_0Dz0$lH<E{
zzH9kuo$uAyUixk$;Z_;z<p6>p0K=}P<=73QE}lq7)qz6>J66oe9Y}*RVb~HAifY*D
z_K=$pjT*|ZPNY;B{Q$We0j{mVDX1=ENePsoXjm0hmUklFhFeR13hDM@*&RdOZj#A3
zQHE_SoleO6k>bgvmD>@Apcnp?&j7qi@&}Lp{KfZQTs{5K$cH1^fl<vCSiG^ME}wqu
z;u{zBu6=srz?y9|f9Cw^b<Gx9-nDYzJ?ndu`o0tTQz!N9r`Bv2zO>k$acH)VrI%N1
zD-nIypx$+4o!IP-0!JM61q);ESd4v1;IVEkAwVUYRh>&cT35f`x(^9D%LJWeg7DHc
zZTmBN$FoQfE)#^2z>l5p&<>t1K;4dydyr%YlK6j%73RLc_kCiAqK?3{jyrMFs*22A
z0xp&XpiQ(&cF`s|K=s-0+9Gwcj&Pmf9lboTZ{HuK<tb%48k3$7X;ct&*Z({1Q!Tnp
zgiKZnKGb2#Fe0<57bZ*mn3WX1Ybm)=86sf6G>KLym8mOwz-6yWlb$LB6f3ww<y4hK
zTgfdeJ?AYM%cQT042r;ovxJ=`Vf%<-LpK68rbDDolROC3GFsp{2i6?j7k0@9plH~o
z<g_|#*k?fE2Mw?AQfW3p<HQYjg=vsaA$<^)k=dy*EvG^9)d@+FhiF|AeLO_RBt=Qf
zu<d73s^Jurq?twIqDYCj(TJ|yL^M$`99kd4wb`YDvm7d^5^#X1Hz>?CJ-O(8rHT_k
zu3Q6fhkV-E{rc3ysXVuR<<KvKziRtM+lJNB<;vPVVcQBUY45^Z^9D;A+a5&jM{>b~
zdhp=Sq@O3=Ppl5E9lEp@yqtCATe@>CNA#8>S=)ELRB&Tu8G=#Dx*QD`s7z8zWsZ`P
zUOxj=px!USL&2s+4OwTZ_V`?5)ms(umyjMs;||I54LN?h&TrS)?WQ*OfCH8iK+%|f
zttT~;L}yx=2Ip9bm4y^qqb9@hx(&wOO25xrLGRbt9P>7{<a?3H(%A?)E2WGLULG}M
zRholV8Q37T{IHDWUFMzQ#+kPR4Oi6|ij%drgayrF#y$mn%I#aULmOI^GWOCIV#qA~
zg{^4#uL6~fZya_SEY6-R-Bb)uGWs(3)sj3bB&3vKO;0OEkCFsU1HL)++tIZZaD_HE
z3reqi7W=z^0GHdaD>tHW@~M+0tQEozy8QBUNPt5duCb^Z13w=n-;JXx(oH(1_sNbG
zoORd=kW9nsmQu=$EYX&8tyQ8^QFjH}DK7y4@d<9v1)tJ`Pl04NcIO%gz>H+wpSQH<
zT2AUMC-Yp>QctdRw+=sUcb;p^bG~~c3nTf~of}Sjt1Ig*cnRmrxjS`tXU^TDyL*<O
z)7?8)`X0Flfi}l=>0DQi+o^LqSG>RG4ufCM9VuF7w#qWgBfygUO$4YE<s%4QL{McO
zPaqD#H{f3h0k})Pw7Bd?ziejg-313{AJoD}3k04Y@87_OX<<$P<plh*ROQ7WS5A$^
z+`0`G{x2%5&2>2DN34<!?2HAScd$4Pv^b(2&TbBP;<2F)#ZP4MC?GlkXXadzQ-ote
zvBW{i1OH~7S7hUjSrTVN{w^1Bi9X3aiEmkzME@4}`YrGcTi^p*;DcM>8-ed8coVPW
zsZCKE8>bsFUN1I-HTH@vwW<CuebTwz>aANPUTlLy(*KfMb1jNIyTo?j*`FmZGm(05
zXFKQt;F{4Ai>5#W;88|MD3TBd113tbv?v))R1P<!sHhlDe3)C-uEe4V$>555*R1EF
za8jNSlmwVYWyJ6*i3xEcH7>j~krLA{8QxN~!#q40JcKtuTMJ4$uA+BrIH^)cm(plQ
zWqu<nV{`L3E+jCtLQhC?4@gkVT_HxOLb1I515olmWZ<NOhK8mEZ-#sq)NO{zSU@G)
zGWLukQ<q^g&WtM#hh4R(iec9<8TXsaUos3RS)gIZt@E4;(r%^<S5l+0TP=GWqNRj=
zg~>S8vhPz%sZSk-9bMVhy4hAOEBsnM&Ln#GRY|moq!h}U_hdZsF*Q&knM7~CDv5R#
zH!w{ZPif>*4-BbQ3%*s^b5qfEHCqz_<1IAJ64CKLp$gZH82n9P8sw)ePjj)&V-TKP
zLt<J|LJ*k=6%Rw9bV>@P<018i6pE)4i8Kh(_|Z_Ml<f&UDP(&>RYElvJ)J^1mP6=#
z?JdV`LeZ2MlFX`pQ`F^9Oin9GC5<dme(<m>B_YBmiNJ^)dXjIW0isSrr-hO0mxYVZ
z3!~q>bpG1tT-zBqfdRjv;ubMolaQJY^@?Bo7o@NctmF(hk<=s@&dVpiC7e5ba(L9R
zMpLs!!$?}iSt*WtT9(tYjLwKrXNI({8kV$T)JdsZ6LK1CH5g^XVMYuMmne<Rj0@>h
zOrjPBoZBbZF#O}-n4(!PTU&^(mGfcVG}nIu!^u$uV+hcg$RYv>K^(z2f*T0X=ol=z
z2M|6}jKB=oX&Oa@5KLT(f^Lx%qXDKbCRH)x6yRtN=SD$LP_WR}Z>Brc?9(}#YkG3x
z%l<ENqWl|x|F}aoI*HS}P^Yuac`itQ{yYbH__fks8%6H=ZP4R%Z8VaO9fc;y6`Bd(
z^koa?I?1-ZE2$6CTGxoiwtwpOYJB%6?w(KUd*OuVKf$b9tqtA+v3k4(7vX|`<;gYg
z)tmP|a_^-iR{yqjs~suq9`8ngbZvWm^5Nv`sfQ_T@2S<{wa)Vz+xAcH&QH1e9M_?9
z9a`tHUyf=gudO|E{S)r_Pq+7KJC3YvKbjr>gzMUHk+wbHh4Y0v(%oyK97UAr2|I2I
zDbTlu4R)7gG@y=!_$Gvwp=bt|4Yuf8DR9P!j!U3W$3S;G%gYS}Nr5VK>YK&N+6`tD
zH7j+W{}p6!EBDz9k0^l)a7|D<fbt{qW6L|x6(-P>mRcu<ie9X>DXMz0eoZeS;KeqH
zoL8kx%~oZ7SfmCXnObMz7of*^=e%p)4IGv&$L0{Uo}2f~d%?bN7&MaY8CS-GImL1T
z-`%=pJAU3b?-%X!^`c|GA>+=}SG4kG8Y)WuOns(d4u;*tiFNY<7%4CXhcd+jZ_j1|
zKLSrJ<APZ$hhSe}DlD447AK{d5M7&nXKGTu0AA#LaK14U%s4A(8%6ijF!1049=J?n
z)tWVmbs66r*y=fO?16G~UYJRCa~?~%ueYcbwPpKRY6%gBO>0~uZV<QLB1#Z=^uS8j
z7#Zfy`(tZ`%+{m=DX7slW_j6yZzlU-wQJO4onl96U<j27TP>;z{_8j2s+6OBApd-(
zX6vu;Z~uRc;R6Y%@gCJ<s2F>s367_w(?$se&ysA(zKVCNv2rPQ?KPQi0({wv+3Xnh
zS|C#&w`Q8&^_M)F`DWk&0~A$Bep*FOk*3MAPgBBxp9p=$EfxG><ftkE7ojQ?6yL2c
z#mQ0)6=Q7wDrHHk=3CU>Qtjl9Qf~8^Y0k7%`>pR3r5e0c-0iRj<(@6x)SYP&;kx!!
ziwLx@TFf&*ipjLhw`7{XS_3l%<Hap-E@&9}0#)Z+k7-;&$r(irjY*+sX#a2st~w#W
zwI?(-qlU)8TbtXCrsogP?5|;%zP`z~=O-{Y|HTPl#0=kg&Xrpne<n2N+GODiAT+}n
zb35pT4tiZ>;&B<=5AXoh8_`r~-yW0cL*}dX(eQUDB}t-!&KbO9e0tze2)w+pxcS68
zpz_NaOy69%WKU}}hEU@Er_0oHPi-39KS&Hw84Oj1EoQ`W2=f8MmJ%nDh6DVjWK@;E
z1xUjRu^E#F!<h0x1bFLVcxaH{ytRs_3_E2;#v=@M*5E8By(E}H&klTJK~2{_^~s>X
z!O^7M?SI;ga5}Ehb(f#Vs^+f-g-j<Jt|Bhtcz=rE4uU^J@Ct%IM{pOxs|aWu$a+e+
zX)xyuc33DnGIqcSPaD>A033(~w}uf6=QmHDJq=g8k<*5KScpyC!X^n=SBSC#84bs#
zp<Baqsu;K}x;f?rAIJlpGKgu-s4#<yq@Z%x^fRk-X0)lL=q6W2zswh%+g0t1ZZ###
zFphEv_R}3wXe7SId*5F8_EPi_-=(qFweGVYJO0uA_wLnsZQJ!VK=54<?YuX;FuQc}
zwc8qdMcX#CI{eZ356`b2)4Hy#u~)LU^ZfQ4zf<RTt_(cl_Y{cD>B@5_bKE(dJD2x$
z=X|?#->!A5#p7MKLY)RQ9BJSF`tgUy!7a{Ov(GKE`HpR`M;=CWwl!<dDvM|GzJ|q_
z?{UimE7qS3YV00p^tf{%*LhfnAKR8?vPTxB#|@2HHt%o9I`Vwe(%>V$TVuPyJI?dL
zrAGQfU6lX861#jzZw^1=!x|gb`0(REQ`VX1eT(Puoz5<Itjw-VebBmka&^Dfb#{$C
zo4x%xU%z-X*U+subg%I}D@?g<zI$)3d%q4pHk9=&&gS{{WoyOI%}WEX&1>vcEp%pe
zc6CbYyt>9-&Ccif=B1(K@WU%Qzvn&ZZ9roOG=AVQAH0`Y$h>KP%kzfk-I<@>e*5+>
zXL8@Ts(<6E)-|g0qXlAt>GTe-KL61RAHJ|UqFo);xN9(*IFX}p(E|$z9W1G@&pn*`
zgg>M0J(1gcM&Enp5#-r3I)xg424?8q?S<QK2H$FXqm3>T?f38p?617P@M?$8uHMwR
z^TmGmV85;A)!v&2-#Yfju}6Ggk&`1I?9Ls%pdY=U9l7}NfW}=ew&~m8h_83~TCR6c
z?;ZSvKeAyZp89(uuZ=wRH$7;--wsCxCmvDwV9wjAdpnn{%YXbHt92b&4Qk%bHSgK1
z6^9Mvco3rjv-QP=i%Shl6I%1GpV@!zdEc`d|0wxk^4Hw8&;5<q=l46YR}O}Dayhm~
zXM6G-Pk;3g3C(j|c`iUBsBrXxOv^^l4JWEr!g;c@uRZfP)RPOHdK5af*!{ieQvK4l
zrTRtbd%HijW{2|i!A;ct-PxhXAP+;?m$STi%wcZQ;IUz+VW1csM#>2dBJ3`>LIW!R
zM-<CsIrvkiAtjRwhYWO1ORhNDjjD8q)@{c9Gfc^CQNd+3(+rUv8HPH*_IXEYU^5_8
zGvd$Gj@ARVhVwIS5iRdpORhv|44|#y#MTN7(R+t-D5%6SIA6tg1;>HZ3J}qt7lg=a
z-GkH$+ipQw!{yq7cf5(NN~KkT7PZ_iGFj`rijFCrsk(U<f_r2#RMjyQWow2-=SGAt
zPr${ojnL~4ISEy8oo@vz8}=J^uoF@OuMTO@2!r8pmp%hwnBtWo4dWObcr%H#92Mkf
zYRd54oTB!JhDinJNS?#-XjK1Y%)N==73|AxS|e(j%v*plth)~&>@+Rs-ynh-O?q4M
zw^%G&Q-ev%e+?J~&*){7W!fqp!?rI)W%%NSa$ouB21b(ls_NIVANZgT?UI*(-QaiW
z{H`^A_sVmieKfXD<NH9_=J;+M6g}UsvHbu)ck_$PcMktR(%o(Ow)TZf*)#WtKW_`Y
ze(d3~ywATloD1~of!<{`xAVBZ^SIXV%<9u{1=;RJ%Ee*OM^4W@eu2-i-8$R7eEGct
zx&3GK{bxR5&w@6pZ_N4ob$@@JE9;Y%92e5LP>u`hTo_bJskley_TWv;m4z!gu3P82
z*SKCRUs$*R5A#xH-S4b-EjYk>?MKt=$9taRk6Mo}?$`LUV2D<G%qP_`;fCtF8Ug42
zSp@X+2)wH??9?feA(l(zV+ckNP)F?hm_rdZ7o6Vj*s%CM0K-#^a>b-XLJ+{&yA4=+
zA$r0LalxUG(0F_dE0$nk{sX><*s&YGW>D8`y9>5K`yMdC1v@-pt^!SkI?S=e7c4k2
z=ORt51vln6($uze@cz{Du->?<;6ap^w6rgY4_yTwOFk$S{FtjJtzFB3hwX(1ECsOJ
zAm$p$&fP1+Z%h`Nu+&am-rsd#PGz2B?9GpT!3W%Zu3*OkFvAD#B^DBeI$C52+(N(b
z@P&et7G0#F`N5w1dkSt^<Vdjf!KM3`3LaYYl0eIY<M)pjcv|!Ualucs^`yD2&_J^R
z;^MP2)bL)%p24Tkox9hAv@&i9+0QYL-M)Lr7mhFWF5BPY-r!cGpC;Z;XrZHe>oMJZ
ztYAkPV6@0t9WAn?Ib3kktc&<M3vQa_ss>vb);soT{65_|@OuwZm^W>>Ug2%B0uRFh
zw-ylWr61Oqn!<;l3iiRZsiLNn0$!xLD+;C;9ilYlm~>z1Tf)BR7<^(Ajj1vfA2fF6
z7dhz48-Cg<mQKYd#{1~!qvl6CZi+V}z%uFwqnTo+!Ar*DgVG1*0ZER-=OX5}IlZ*{
z)<9nk4)6;`_;LxpE|uLlJjMad8%s1<hRJ#DrZegUd=Z6_TysC&!kixg9=GY8raX%|
zbl0iCSKWOY>~Zru&u8Vo0}{06$`1h)tPI1fvxISdM%sQuxPKv?zqi;K%Q^w@JB~2n
z&q()Y<lvLY6U;w51B>5Ub9UZwY&dL;LkkURM=t20iyH(=8{Q^n2lzW11fIV?(9R70
qmLPbR1iQ8F18aeU8u35o_&d%G$Fzkx$1J`GX!vO2cZ3$HEc`d;DRKP(

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/flashattn_mla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/flashattn_mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f21153f2f4c5d677e85c53342bb41e6bea80b43f
GIT binary patch
literal 13253
zcmbU|X>c3Yc@Ot}5hnqV08bG-MIF{*sSzbgmTifaP0Dsqr#ldKDS^a6y#-}cfl|e_
z8>(qysYxoSX)C&u)^zP@+-s^|opd^#W~S2_EU6BV9eb)a>U8`MHsx`qKiYoZTPz4N
zpp*6u@$Gxx``)?lJKyr391bgil+}MT^TSa>eu@P(nd+I1>l#9C6Q1yzEXiq-8V%;P
zS#3_2)UmuSt550yr_UO4#-x$q3|UjooHXYwNlVU}wB~F{8^as3_M9W>$T^cvRyJi_
zId{^{^5(23*OqK!c}v!t^Cf*OZ_WC1fn<Q?ZP{Qhlnk-FJ=>lOC&Rf&GLnlXqq&Y`
zN3Jv3nTsW3tlp80=em+zEbq*A=X#PoEbq$p=K7L-x&CCohG>c46L!4^Ys8cs(2}PJ
z?|y^u9wGdmu8vIz8isEJyjO^*`1h1*k{qnp`=H)0bO?j(Q1f$CL#&Sg&;*4}VW^oV
zIn3%pP}eR*x7Cd-=@Q|Oajb+!w(zN9DxFP<A{5LgF!N%HPC-F0<gbVcz3iMQ7KMB<
zQ^=o5EeTY1G|Dqe3xaGtyO=Fz7P7)~v$8)Ua+eoVKzvo;x%n$xI+ea8B(!pH7COGf
zrHaKoCoV256lhW8a@mv|xF{64rphY<6=5V8-uhxTn>$g+&t@)S=>+yPi6cVEmdR&|
zT()rWqClY-yaJ>gjC~<hOkd(M`70@!fmuM6ds4WPNed@Z3#kj4Y^J!BFv{+;XC_V*
za=AkOcq%<F<as&Rz)TA10xz5uiYeR|+0m$YI=7IOJ&j_6BJ^{p<BORr5BubLeo>%H
zXN3H;vS64^TVv}^Jhh44+|cO-Aq~3~Xx@+%%?f#Lb}^q;HcNzk;1{z3<#P2|rt8Os
zJ$&`T#sXtAfh09NNovm%K{sb^CRFl(Wh}e3=At%f6ik8{YTLHfU<nTz{sb$pIRZ~O
z@-|+p9{G!!q@A^O2)3)h^i9+{q~`TN;bau9raA-G32xpfcxJV{=?#5@8QK`u%bSrJ
z>MTulzIvUtUT15n^9upqE(D>+(5#+!G}W|2jZ<*&uGZ`0-GYnv;N1B(pz;bK-UmNF
z`~s{$k5W6^#s`~v4KH~TA=!HhPddEkJRA)5e7Wmq9+-kJ!VwlfcEeia=q7qzpm`z7
zUC0*F^PC9mBg*>JVzD5%H__DjsosZdq(X6#=C{0l=$4?A+0X;HO_nqX?Ud|1b!KAv
zG&eCbGsVHI-X*jTN#IBRYkI7hTNqo&EQ}OW6qs@3wZ#L64$dDC#<H0UV+%{gONIOx
z^4Hjv@iE|EMG}l%P&h{%11270$CdFmltvepWHWMgK9v)$Mq6yhs9HM)6A%pmu9JtZ
z8109g9BFQ#a#@|FwyYE-EL*7)GPg+)ppvG^yBd&RGyz4nP}VWs1x49~LtjuBluKvD
zt3A!b)n6BzUlY+@XelD^TqloQgJtueGE;YRQxp%s?DXgm^aT?ffyed<+Hryz=#0%S
z-aJI}>{N;a%~Ok&&Gk*RrW^7utpyS_VV><-95S~_Ni(O`G(CCE`~V@-1WwM!7Qlnt
zGUQTo1qzZ$2YW_$15(7U;&EkHBlR;Xa_K^DVX-KH+*jr8)v;D<_<{ycV((r6cqrN{
zu9)PCt&B^q-m<w@*?7w(A;mK$kqwNUWT&cX6xNuMt(%M_n-)cZ=^FE;lnBl8^Rg9D
z;zEjwg6!d$hG?2{8dt5R#+HQv1IMhc*g+lFDMZbZW(hZIbEOK8#DUe~`9d+?;NW;6
zA1_|Yh;d~|I07hp6BfD;9`p$W_(JJH1cwkDMu0m)Q9RP407RT!TusUg@HOw}g-kw$
z+WP9iFWPyP@=Mq)N~G)LafrBgJ#Y<Fy^~d!m+f~VBAYqJ%^W9NIWAW~^#gf3hsr*S
zd=4c;u|U(8WYcW6kSdNpA)7DMbF>3`rg{LfKARDXY>l#u<5GFp9X3^w<0vv1jUkmT
zlP}UPEIP1g7m+9p+U`<;mvztqh4TrWp(LflNQZ(%wlOP4A)`#b>Ms-uS-Kx7aEaS^
zjYbiNU=V)d%kXC3B-Q<g|K=-y{*@n{{Ku)kn=0>{F6(_aFWo7woP6imx1W__yQRSR
zx_<g6r_Pn1pZ@!N`Q-VsKE5)ry6*$s2XoTyW75!s)O~zif4+M3#QoD{eaD^GR`sh%
zY2cs~JG8E!d}#30v>HSFX8KbCj}09$wlPG_SkDdJnJIUFN$NO;1Vasip$0+xPH#Cj
zE`|5B=z(?KSKfcJ295iE+>0cA*oRVqeL&7(@ICYfY6f@$#_fOWt2e${GhxY0+Iv=J
zq)?(}!J?J;Lp2-b?4&JFb70O%yuq3ab8g~quX!-nMxw(tFXnv2>R2w`2!HB_5*zpv
z98QtIxYb)^B#I(T8&?3_Ccn^DF(~$iU=$3z78!!&>Q+V4)Y`(~^{C0A1+y@CW75o8
znXvtmK4F%_&1|yG{&QVM8;*k$NYUO*%Z^;?H8}N%1hY)GVNnz=V_`~e`+3`pqWqAZ
zNS0sBfy@CLR0NJc2535g;5dR40A%BgkQWP-K82Xm2&NItAV7t!>>}zh`kV^RK}JN$
z@g{lb58r;})+_7!uBtb%t`Af_zIDB?I=ZK<58N@_v){F^6s6G6x_(bJ9JxMq^TY#v
zMClTH+wx*mA-7?Nn#~u3)`aY9-Y!)^PbGBQm$YrhFF{Wf!I$ADqSAkZJk*<&2_SyU
z1dx3(ZM+Cm`9{+ecCurW26(GFv;qZF{gjwn*{(?|&@oFA=-3(JbxE557AvpE6Tut6
z;xh_Pf!U_K3G7R=;F;^i$!txt=4CRg0c+Hr^zzm>NYcmKfD&cNwggsaYrJCzymJS<
zYX`hru!DQqdW<$^$9jdptef|}p-%>v$!nTq2-LfuSx9mlmtN#k7intYlIohtp2i7R
zQ5mrEi5#Rtfr4*SceIL^s32Y{WO>=qP{1O%FtRO+o+8s3qHJT{S(<rrvQbfeX*>XG
zLdlP!V8aY!d{5JC%iS=P$hUyDq$z1jx{|(#YJ??T^S<^yqml<NTvs9-_Q6uIp}<uo
z&Fj&o0h-3RB{GMHds~`AV{%)X^K3&vQSBFcY>c%-kE%n~)Csh*sYPhj!o{LFz@u@n
zEzwjF&p1nSXpwA7CEXlK*==dAa~lGRyx}UqVo0r-i>tZKC(NOHv!v$UH>!~cSVv>-
zMYP^onnUfpEdk}`+Zj?T)m@}!9^UgN#S#I7$}}|tmS?D8+3@KF?$u235(mybNLwaY
zKgLc!MroDMDy9>M`G9PIX5fN@-NGUT9FshXB*mSVU9%}JRVZ?*z?R$4a?NC!H3C*F
zMjd45CS!ojBgkH~A7>Y{V4JHPBg$ShB^yYN@sS)xdEX#H(-IstusFf5liRk|Ax;th
z2FMgd*{#lrs`Icnw1;q6lnr1V?cGChp^ARMBQ1}-c;?JmuG!C<c$u3zf0mm*cjoDt
zY3|f>FK{Q$Pfl=8y)bd^G<D%N8D+gFWM}Cs*wt4M{2Bu6S+;QCfIuvW<3waKW^P_*
z#wHb@e6_cg7O1;vqw21wfl~Z;06zo6(n&1N8z#vds@mJD_8|Lf`_LY*_9bc#VrhR&
zOcpB`6|wlT{((92VQl|;?7;nTDRu<QQLt1To{GIkviDT%dnEgwiv5&iKecW@UDFYZ
z<AFI26g|5t-G`*^LzV6sse1<7#U9#R6<g1mt!GtV891^waOA`Op?Burp0Bzi75A{@
z9<I0#N$x}UCnWdL4+D|g^S9=!!N~2e-umielYW<TdGdk1=dqjh%=(0K?2)befvvaN
z-LpLTFZLLWZ|`GzERB*(O}NE)JU1YK2?`8&Nv&ym(#2wfFF?lWO27wm4H>sd2-v!;
z+r+_JfLG6Jpssn`IzcPxQPKnLFDdnQ=v7tBP169%h7{ODgS<ADOdzAthKDqbJgu9e
zcqS4KaL`z&j&TG#-(W;xoa?gOT$-0{Xf>g~2Z2S|zFC;RBAXD+XL7QGMH$fygC0cL
zav7A7;ukVc5lFZzvSlH4vCe_^^rA`(of^}rMKP6?txfismCnL6DGFHG(il{BG8t5$
z*}C^>hHwW5-2>BJp66&`L10rwl)_Z#&B=C{PPRZ(98Klt>DO@mW=gTfj9pV?Y6ncI
zp>sw0Jl2}(3!*PTiC#y5rXY(%Y<2(K4LQc~EPi=)_zT%nl`wVcW$bkcz;yx!yxm=~
z#nx=G550+Mq^H_3SnU|7M&tLU?oO@FR7Q?T@E1K+?dYtAqW2tk9hJ}%Qs{|lXJ0kk
zSqTqI;o(Yn54a~#yf<=pq!QjIh4*1$^zJD37VM}-5|1NJpR-1s4ri^CxE23EZd080
zV(J38mk?+ITNs=_#khvh!os5LYLpZ+LiTR6&ly!<JF-sf!R=Nyh$|K#@GHtee4|BF
z1nMvf?G#1Dw}qck8#8`h1}g>lS<gdYHH=TVy$F-5P=C!_GS8{DGmxuE)pK(VURP^2
zEs1NElJ@`I*2?Ry*?<pQNDdkSK5QvH=HYl#duu+wW-FqeWJ#Sp)$$rPN}Z$CdVIp%
zQQmD!YD<u67LaXLUSG1kZ+H*fF-+HR>{c_rUb27vYbE<!3t7W66aSi{<bbv<q|VN5
zaJ6FpGlVym9N#Cr=?}nS{J-_^eS#K~x~A7PC7geYIq;<9h%k$^Rc*<^lL%^q9a@HA
zUy6RVK>+GH!BVoqXf}|i=J)Ed{+hGo1S8&}NYs!22NE-hW)dd)4QNS`tC=97H!!zV
zh+GX#tJer|h?ua;jyMYA_*H*gcr7gmycoZ*I6Es)1r2_(t%*Hlv&t~^Tw@$IM8jp3
z-P?I9VUu-W%E<amQOHqLhct_TIk<Ry=x+g#4Zx;C7EHKHDX`&Kf6oCv;bKCQeiI3Q
z8^N~_d>g@A2yP;{1weLgic%B^$}X_kv7xX_S(BH|>dHkNTotMHrxI9mD8XV?tR}ut
ztg?`Co%9FLqj&>k0h6iWk=5r{UnsZlF7G|{Bk{-D^4@2q_Gg!!)lh#WG$@4z*F(dV
z(6|&DUk~kFc2oo1l|a7~=wA;ER01PXU}QZowrm3fCmexBszp;CICOuea&$&II<qz~
z1JRn!?n=jQsblx@RNX@9=v<z9*wIz#*dul9srtJr{#}xP*SbGZ4ezdocU65o)lg5>
z8w815bCJ%y8^qjcEt|u2HGpPQdEjt);8fM!U2zXc?txX0<Q`g{c<A-r(N{uaQfRCa
z+AoFne~^+w2iLp@YeeU8R@(+w$5(sGBgf0`6IFkE#Xl_hhb#U)l7G(!<C1@W+4saJ
zI*sSxh7PF9(8^4PjxJ9s=H1HimFLU$U9g^^;RbGE<v8G~U450VgHqSQ`)&8T%3Vjw
z_RdG%k!onL>hG;aLFMei^~A<uJ=KnVk3ANjb=eGyafg;&%tA}F(_`>vnj$YjD9VoW
zQ%{41e3m;tF>~TH#SjGxSSq2I0FoGAoOt2P$tjw|x?e?b8UgxG^b~?;5TJ3zta-&g
zM^l*{YI+`Xc#P>E0+1bb^ExenH^IHDp(0>KR2|0@BRhel2+$-K9|8Co1SbzXT{-ZQ
zbl@e7=$Ol0d!^96b^S}#y~itipO*GMUDo?=zP93$g1guCPgi^T%lgQj>2-a7P2Xea
zeHiSm8Q=-0C=kBWbL-1B6PC;*5U*J<XC<D%ZTl_zXErE(`iv$F@w|ga4WWn8u6t+h
zo~aoi4~>J-+u2*$nh8s05{})A-i_8QSb_uCbMKYAuheW<vXid<ckFN5YYr?qNi<e-
zVa`pucfAvRJNkiM>e^THAgYa6dq4L=PKgHLve8UzBzyswHb!BGwnl?^O;RW5)p#JU
z6O6nbeg=r=7~zR`m?rd?c{7WHSOBNwtbzsNHKuyW4kZWtlsYGGo(-_*jtinYR=5we
z%{3flHWLN}xZ!MxZ;74N;yl<aJgwWoZKD%z8(nxe*_xs?R++WZ|E!fodE6|@<6%*r
z5g2wxZcnH3U~A%qA(us$wLt5lioOm6?Dhd<ZaS3}6gwNNR%Un0_7vO%W;ihm_N@q)
ziDEXxXYv=p8PD^DSJ`ES?1H;^2yAj<VYZ0wu54k~ff%8eqtFw`a*Az~J4S9ZJfzrJ
zHnyJ%Ko-LCh8<ouiv}TEuyg~o{<pwlP@_R$SAdUEGJ|ztowa62$@T-yw>274M3<N)
zRa=WD(EJ*;1iBkrnlI`=*Ve5O=+&-XVN=^?1ZneP8(LY4VC5;Pl^-<^_WqW(I<?2w
zHAU1hEP?KCVcDpZTiWYY?CW^NWSH7&*T*yB7v3*j6`Iu*-cZK*g0Q6x+(-%W!YtfM
z3GvxNHd}y~dhu|)`Hc_9x4!V<__lX_HGMLVA5DOz0MUez#vO4ymFMGvQZ=TS-87zt
z5Qo@ILj|@5ywDVKaB(K^FcG@t;uB|nb#L=p;xCTJF%}d*b?#vN*%#x?0c8Cw2~GEH
z5NGFM%UQ&NUA4)&RDMbJP8EvSXMMbrltR!QkAZBOJbB`|$&)Wo3pT@RxP()&IvPAe
z{}`+O1i?E9RuLd2eHX!>BEWM7)&)3+aHTHFzQugw3Xq!>QWy&o6^W1G#w~_NbBv|E
zdC558MquSXp_%x%05Gu9xfxjTSMBiUsoEjP0)Jul7h%YOPyBX>uLOuI_-PPwkE6;(
zU)lU}dGO_RfUbdu@!{3{{X#i5RW?UIv^mSJ9*A>%*wzPERGwoR(AHjX+CXK4sJHun
zA6&l?DKxTX8(}0mPtS(VfD{IY6T&_At`%RUYadAY2e$n{QFWi(&}p$=3q3&4<OwG3
zWzA*T3nC&7_kr-u5C={)d!4dF`JzDm6vx1XM(e=w00;$e$-dBmf@|$b*fs4l1Q=O2
z2Tt7fbe+|03XhUTWxrx0__9c-v7~tgT3<6<Gv>!P1x3q%3kGLUplwTlZ4qd`sO7cq
z>(t<?I!0@8G3VXZB^3FFxBwy2a3Oeux(ZmgmN$ZX(sE93Y84G~&4g5~X?W70G8fTu
zVyX3Rw$hBe>Am{CU$Yb=YJ0vT1NymS{0`ivfCG)!#oH2ZRo4JC;0FCd8hgnAl#Y@G
zpmT@$b#5C3ia_n!fjZuj+PwpHcS~x|4%EFZsoUTk^tY_>@;;cUAL<8M)(7|?)Q5H$
zZLnpV_8q8)TT+K%?9rAr5vbYSvL?F22zy#le_M0S+IoGoy<}y)VS@mI4Z;L?zrQU(
zXr^(}X0_9#WQD+mjfbztz#{6LVvaKX4m5%r1|5bFb+Zcx;d=?tCaTQc_6^4ty)w$8
znDj5816ecw@qdHwEo-jGy35=ZdIga5*Acvm)fVuR;f4SN8~rYp9cUq8JfB%wEUGsn
zx7F=3wGQkv*$Oul^^YOx1?&#JR{C|;2i}BiMj=g5#L%Mb-i&3{hwKCLM1<bOR&evi
zwDhxBFccR-|1nPmj6S@SroRbz`X&O@X0nytd5frJ>7OC?HUbPxQnX`b3n(>kvjw=c
zIEP5)UVjgBxK5@e<&HeW5g@#_gWbti#60rfz#h#QFJLj!-^HS(2zha#APNbGqJwe2
z>0cuFD+GUyRL09(9_&(Ce;E{qY-M^xQ6JV#Rl;71Y-akTuvnBe1z87sEMg#Qi}qEV
zeis_Yucjz`tfxd%8;1hF=~EQ(R*Eo~sN%CA+Q8d)5_eC<H6XbL)?I_E&#$>g%jVIt
zYqaW$R$M)jtEcQ5E1SmvKC-!PYQA~kyMknkR3p(FXO>UhntT+A-+S`zlU29p=48d!
zC;9qTij`eQq+LhK-lIR-^H`^iI+60`BzRvKtL>C*ofTU`vL#mg9@ut+qAmBITW<pw
z`uT_cfmLsLbm9YjW%q=%djhiM#DwHOzHF^x)hb^Z{gQ-#4g6y(2}SN4twhG8$XF$E
zREiwEe|bGPv21_jO?*ncKI>1MZ8aS{A38%7XSd|+UfJ`&*<UjN3cN%3Vyg*h0^}!V
z;tAF)n6r{_f6a!3b`suIX&;f=M=I?{*V>QP9Ef!`VGpgfAF8<!>n6e8N?=e53|0br
z*8+QM9>lhhc8Hw}OBgsgxE4BC^CH$qBC&gezc*O(L+O(M@r7zZ#D_?{w-TFJi%rzp
zu_jDH?X?KjL`i(465A`q_Euu2)?%k>9f<8Dp}tCRND2;Bf``|Fhifs!#-aC0cw{X+
zQtQHUH+%te`|R(Wt@U83mvjzQI>x1r@k+<>wT|PpKEOiwVUWEhG?S|SjvJ?zCzeGB
zpWIB}&fUtbOsrg94<yRoMA@Er2w{qeDpc_|4=hh9@rt(X@robd(LameDFhgVkPYlh
ztEMo7fK?|DoJa5v2wp;fb_`ud@HT=!0?-_FKv$7{miP!O2%Kt+I`j|XhfKwF{a{T$
zZg8@1hu{fs+ZU{vFlUCZh-wzhSxGQlvtiCof{{D>Z_TevN`Zlz15r-W9=*fgwboo%
zazm-+!CV`J5mtN<M(|?Ehu!)y7a+R^S0~?|s|B$XC06HW9hjTd956&4+T3p)xpCx9
z---dl46DKqv+rih@xxO1Ny+wP%>X1Y!+J!*ge5Zx4c9D~vl4e_&4xKUvAUKQ-zwcG
z-8ql3i`7YppOsy^CCm8d4j@n>61XpkQQ6k`RvzqkjOEKl@NmInQi4Ue;j$jTcAy5#
z#xXnE@P|g#Z)QhR7vLkdRJy3V4)i>fuiwz?kUO@uS}bO=;wWeXmSJuTwILz<u3}WV
zt7d^G*~6MDm{BGLl`rTNO67BTiiW2=$SCnvJIe{L32FG!n2s_7TZCzD`G}s~70V&k
zU;!@3LGtCqQMiN_=xi!2C|}z3vFa=1tyYWQ1jFq*d~Q!YxYRZTUIab_egqidsqa_o
zPL#!?$tj1`u~69Ke+9rDzd9L=(#SrA0RJaow()NVOlz?lJ;qV8vA!Mnxr7p!V+?|^
zr<Nb)nvW>oJ^l(s-T=-Z;y(kZ=`<S6XJ(@5{)j|=O6>nZ{GV$L8tn!F@VQ;5(PCxK
zM`Yk5(({>C3uPnGJn^~K1l0t<XKtc7rum5M`&aVZzgc`YUtYI#UN=5A_Go<N@Ze(t
z&)OOIw-Vc9=r&sJI*2_-;nO;;t%ew2BdpVCEak{>dE_Z6a(aV6sZIg8$L14SO{m;`
lxcuaEQun#X1dET)=yMuP<mR<<-ytb@_%rxV9F20={}&suU#I{8

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/flashinfer_mla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/flashinfer_mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b786ebe6f4f81838757ae88e9f1ccbd085c3f12
GIT binary patch
literal 7353
zcmb6;TWlLwc6Z3(Lwr*b^?p#c?1;AYw7s?yZ(~`H#4mYc*~x-UIvsH?B}zk5x-+yb
zEsZq_7b~N?wTz;bQY^4?u|O0!K%KAM&*W>}_M>EMK*GQQTx@=f{xFe^Ec(&*oI4~<
z$&8C$P-o6P=iEDI?me%2^>1FUi$GJwze)UOh>$;Gr_}64WV=ToWR)mH5mb^CqJn_9
zMYTjN@U*Jdq!<-BO;l}3d(@tEL>)<I)X8Z!wI=C`x;SoE-APZ>!*Pe|P5PofjyqL<
zG7t?UgVA8JHd>pki`FIUqxGCuqlS_V(S~GWv{4`yLOrzUKInrj+N`*uEf(?)QQWtP
z;-Pi4wi)R6t(;Awt(@lto{t8~)HayKGW(_}QweDc&`(xUOkDAQ_HuM5pEC$^*3#gv
z_k|ZNk-BF%C?Xin5mnZ-_hmK#oqamfRW&J1$$D%?QfMr#Q0ZDipONOSN-;S$L#3oD
zN34c#Sl4MvPoz`l<weR2Z@GVYah@8k3mH{U%&YWb9A<Tm;K)(rK+l~>C3HzmPft?@
z-M}clnuyU6d0w7Ms0n>BVlx64&JT~IlgV`Iv>cnGDaG)XDQA-Nsu3)AFHl`pWL-9z
zULl>%Bvb`-^S_s&Z1FrzO=jlj(@c+8jM}ogBkvTcM)2JGTu=C*bVf&I6R<+gn7Ozn
zEbbWD{tM`@5=x?iLZX%{gj#2vm4YT7wNX2@;$BmSBH)%$=WJ~iITy$|i*go}TeL<*
zqir0vX68&PP8ob$=}SwWRV&3ZiagEa`58$wzsv|O;HOF|O_fL!5x3!#q?DYbl4Q6f
zDVbI>D&ihVTFA(%$zcI_so}jcac2DDr3=#O;mafMvU;E~{A9x~NpdQc)@9srO_G=&
zsg9yJ1D7P9l5K$Gzb^Od$@%{I#C)$VvuUdLUe6pmaeVF=?N<|1{qu|ZOghzn6^yL^
z>R`WIvZDSebECC>u&@3&es==D8_lh6ev#F|)EsmIqV)s#YqE9h%;vEV^2a{Ni4AMc
zT-V`z(~(Ew2U~|vZyr9IKYTVPhE}ex`}2(hkHxdBy)?s)4YdIk+jch(9{<;d!Z!0j
zWDY99X-m{j9n=ZjDw~Vj%D2{Knt)<atT4jOM|h}r$zk$~G9qsOG*N8-Bt(5&#$Pdm
zof}a=anNAgqBw7f_lrtIYbjFelp2%<o~wdaU*x%qJWmBLL>m+@ZG^E+aZ&MAaGHS=
zRQwf`mc>A%)~MfMmL(4j6m5_ylA?q2XwSl+$g@)bjJB7&Im%L0m8R5mY);Y=OH_ks
zBFY&(ZCK;;#|<X{i5^KFHkvC2m4c5svtegc&#=^vorL!gwAF19z$#f3B9;lmH-3J2
z^4&8N<71a3a3R(PJQHwp=zy-_1S94CvD9Ae!}?0>UJ%yMUT%`7{!VUBMsUXn3{5+9
z!UVu|@&U3+bbw}?B%cZpZyC<HTOSX;Fac9ZF;!dY+VO_sVso8JB7-o8hQa41`Nkj4
zIm16->aS6Tp+kW>+{^eHy<8qYsxxJVQm#?=4{B5)b+l5cgE{9xbG=-#a+r@<K%~?V
z=L;1EWR+xv*%GJXsR(mDgiI3H*k|a4kUVTjc{a@;pj%<B*kK@QI8`{z_|~=-O-Pes
z>EwJyr;x)+X=Z7l>UX?m#0i`pmk14@dDGvS_jj%j<^B6|&VBszV#S0HB4&HV9<A?A
zjPm`4#Xbfy8jdI`+lC9x=t3sJz=z8DR^{nvX|SrcuN(4XoWEqR^<2S;h=oOfywvnc
zt_x?w6X_I<w6X>eV2ucx02nqs&0;f#Bd(@peeg$ybE=53E|kGfG(<I_>4uGaCu>1+
zH<GQ1l+GZ!5eEB47}}`e(J+a`k`(fQVpuhuu|r4~F=ns<lpDgnJBDS6DaLTO4RI=+
zR@rfscniT!J7r;{A;4E_+W;U#9DVb5AASDO7h`{z_;Mn5WHKk#ugt9J>tmmsyLT?%
zIgoD{d?Ze8jlcVF&lf+<iQ)C0jUx}N4`%ZNr}77f^LtJ|5-)sb5r1sYiS29GH^hx-
zzUO$p^Tak0ZT5nP*lP<G!4_VLeMjK2Z7mTB_9E7`)}8Ad%C{Uwfv&PZS6SfD+U4Ay
zQ~CB`6gX5CID`U0oP2-o=vV=G`yY0r$bJ+t8C>K$5D9VGw}_dpkE>vaSRKHApTdq^
z;YC&q@N&a_#<tx7M)-@0YDN*LRk6UIm5Pc8PaCyS5mSd^$7BVm!dk?f)UMQklu3sw
zMsdTR+4Cs&c*8P@3ySxaC+dLOwrcG|T|YptDjm0=9$X85^>Ipox|JaHK%M>nn%UIa
zoImbTYHx{A?=ra#Nf;td9goyTO)8U=W~i)aMh!lA0yAt{OjfDkK_<AZ$@j=m?j$5l
zO+zY#M5L(+C6StjVmhUyuNl6we{-iX{7?@kbWPIIaUFw{Q3It>N<ybF+CWyDkr@s*
zYbptX0@OxWx^aJwxp5<l%>z&DZ$AO>_X4Dya#*_U&5~b<1mbJflC@^VtSxKLI<n4e
zP1Y56B}mr&Tj6iv+{Ee5Y3mJ-UMi4C)>AsqFt?6Q&6^^WsDCA7YjkvR-l~;Ja}e=%
zjJ3QRtE1MuWr_51b^^WfoC@}8N^*-NVx3ru?+A;SfWu0fYGJ5V!^Kb@hOib+$HV#z
z4ad`}nuaZyeluLTKZn9Qx93oJ*LEx^V<|ifv9LzfcyGCE4a+GdOifn5d0b-Q7)xtf
zr3|B7A57RZ38yBifFdmXis}&;*ir_<AXe=Blq4BeIkjliO{8`Fw&Lh9#?p-8xz})v
zj*VO#9lK=srloj7x|U{h+Poa2M(`yL**gxUwBedcCI=<cSP>sG@rch5@vGQbn2?=A
za2~-01QQ4@BKQe{_Yhn{FbTkLLUk@dm9H7~nN)GPA$P^84CNUGCy}6HfG{pe8dgBz
z%65~dX!btPms(y~ioVhUpi<gz0Q~7DdEP;4e77BWXVaD^#DBpp58&`?;lEZ+?D;n2
zsc{t=h`;f>M#S1kSMNsZ_vu{cM9$gv#O=%Z_da%aKdIdZ5jJ>A*tS~hd<A0l`U)=M
z3H{o;+0>hF>ix>y%SEig?rp0LC2U^bb066=uq-}yc5L+=S{8rl=Z|0c&H6@IFzV2=
z;j{!PT$;y%1CG9imwPj0GxMx!<Ng~f`xbnj7yfv;@UH-&0<z4Oy%spdcE9+9N@x_8
z#d4N_*I8#PE2*NyP0p+EUO_M2laTvGdDf8?J_P)R?S@@1`&Bj1#dt7nQ7oTXOJi@~
zd&@ps(hnkwbryGeS6hO2gU;yxZ|Hc^<ZZUDguQ$!Vkss-6cT3fV7aR)wvxmRA$1&N
zuvFRAs%xQGKpJbBT}`oLPWb^I&o}oWW@3Y{CbL-I>}od;X2n^oM|L%!Vja4xEy2FS
zJmFnr=$ae}ZGktC+Ec<`K5qtLUaWF<HHePE5=nofgkh|I{W`*1us++>fO=pT3A#W%
zRF&FSg<91zXR*fH)vDX@EEa;h8b}`5MS?D9Rb^LzT4nV<bKJ-52<?U=>!@ZuU?+~(
z*hzJsX(#Bx#hDd2ghS=voM7l~&;AD*99XPMBDwV2SHfL*8uFDK=C?PPt1>Bim8QaQ
zk29^$^tmeICgPW85?VN;!R?K@7>0r(5tDUDdU7h9(6kH%QkdW1g&9pV$Xbx_UYP?D
zPy!McV>AY-63)}}I84bTlZz6|r23v={CW1@sJ7d%am@^8scJC-<xEq`E`fzPDFww2
zuYV-?Ov3}xYMRLslT&jB^4U(lc?qD)Q!3;Nr$!g>;z~2zN%^`|?6D6)3-%F!NULFk
z3X7^(%wjG!TnR0ag5yLA(wz<TS1CIQf^Zg;bt8z?Sn&c=Ps1G|%=?n08Fupm((qi9
zSqdwwG)_|kX$(G<E>T0gnxNMpAJ52;kWmZ6CoPy6Q{pEe=)(;LmVRd6%$lewaG+wV
z;9&S*e~uu9AdO%ifZ?uK0>+T60f;ym-Y>E#1Th2(0t&#eFYr}1#0AJMhLGkb|B`)}
zr(VAV)dhSOT*UB&+I5G3g+$+O5tv$AhaJC33O*9pyXo)A`+FYw4{W^mmA^0N?92K4
zw)}0I{=Iqs-kiTb=j;dgjXSg=|2p*8-MQ7;cKiJD_{!*$Kxnn*Zq3?{){m_9ZA?85
z3@#7DLB-R&={}HmAK3V4vv)iXKlk{<uCLtZo_K0EJ)L<^XTf3#9(isRc?u5JuDb8K
z*M|SjcYFA0Ah>G3YhSss**E|<c@OqHkbgJ*`SkCnKA-zy@DInnJoa$t%eNi{E-nv0
zb^GtUef#a4d(T$K-p!7oe8<p(E1O5p<l)zG=HckSpZ%A!`HuIOM}K*7>s3)Cf8!b4
zs;%1!^=yWQ@}Z#zgO5T-x7xcl+Yjg44|8NF-#)a}+`id-Am4nTg0g?Jxi{b3yV-mq
z-+W>#v}ZFE$%i85G+RykHk$_XO@mvFt*bx3`}5-Cd85bcS{4c&#Ou2=etUdnXk}sb
z+TCkw?C#Ijhd+7e-a8wo@11+(82}k42?STVm#;1Rc$pFL?>eNjVKfaJH%s<5+R6w5
ztgTF!uwMoT0AIg`6ihD+YY+Ad0EV|%q{XPJN)lX5$Ux;66Q|4)trtZRoI%D50Drng
z3YI=w@6)=5f(@Rq!}W~?2V$UVs8EBLi!`<r+=zKdW9!<{yL0QK`G%f?7fC+S+_t8C
z>?-)N7l2+Nh*&LY>0Gb>xUEo!y?UHBgjfT4<G{w~z1cz|_S%Tc_o5xKzZ3>-jZfWy
zJ11|ST-&#9`^0n4vqAq^{Z!3`-^{nXm3O~Yuz?6@*s=FFAAbB{!GS#|X^IqT5Oa}0
zN5PGlhq(O9nLF9r*|jSuxiOk=AISL!@->6sdqKcFTjM%Jx(qv<%phv;>ko5@gYojE
zbzku$fNpPu@vghCd}8P;U3B-!Q*ikq$8>WmusY*+B}R}Bh^15U#B?7oAI+N+H>aCn
zi($EDG;zwjD(m3zNv#jATPTY|^>1F7?BndKgVkP+*XnR52LEAUm<<`0a;9Nm`DR}4
zo0?Z2pV1R=;fAFg!<xgi$DaXabnm=!l|Hz5>D=T`hDXMv(^tmv9(M9fbj-YI45Pel
ziNblwuw_8|<1C7kaf8Eh%3N~umiDCikBdKJ{{RfkP1-*KC|CtSc;O^M+aHPNYcle^
zC<>Nu34j+aB1FC>d%q?}zqi<-PXK)HBf_NcA2szWKYdiwant_vjpI4e{oHO5&I!4_
zZ{<#2$nTwaPO$sj)hdK?tp}eIcot5Q+V+*uYU|zBEwN|I<-c?A_Q5T8@VP^*wcLb5
W!IU60u6c9&kL8<=zaZG-y8kb|77^Y6

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/flashmla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/flashmla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..78d0b36190c1e103ad63a636281661adf08cf08d
GIT binary patch
literal 12446
zcmbt4TW}lKb-Q>!7B7MXKoTNBQX&bG0!5ROEL(Og>S;=%A9~n<ooqquLIj8hwY!u>
z8f?|nX`!ZRq?vX^P12f5)0!T8CQN?f_NQ)V+Pc%34%So)bVqKPi8~$r!6sd2`qB2B
zyI25(DYc#60nVO#@44@L&+Fd5b2w}igtXy1$$uZFs9#`23+5`am8L1`4#iO%ou)E$
zl%^5arF9v7R8Mey+7LBBnjvk>n4+ePIcm;Wq85^8Oj|Rys4ZiU+A~a)A!(+xBjb!Z
z32siiGVZ9G;Fh!}(-LhVxHav~v_@MAZcDdid{H04?P-4|5DjG7qwSfFXh)_q+L;MP
zgPA?iJtUt=cV)Vx-I-7{l<A4~kTgfSH`5pGqbVK5xA1%4gYjU9?$c4HDbD#8#ku&v
zd-`f>KTnf%H>7*`b}juqHJgeKRP$RP-^+LM1MQIW6{<l}M=Q{@@j-sDktP}@c|OSV
z^BqljLyP)w;32jZrWGp}lVb67OcWtvIgZHXm@pmIE6!t*#Al^sE_*Jv$P0?27QeVS
z&nvd`3u!4ipXOgk0I@FtC1=@8I>x?{lxEqvYw=iomRH<Yc!{KDcqxWWDV<4?CB#U}
z@mY~)#fAC#oFMTWbisBxoz5K3WfRFO7(0%&oWKSlW>0355}VFlxxxz&^<M*07OI<x
zN%2`WnY|VhlCi7=S?&}3wPc(>9-EKNB-2T0F>F%Y=g%EGp37u%*~wUZj?Z$6zm{@>
zkLNi4yw*oYE#vvjd|L6;qBV-ZSCS?dl4%a6$@S6#FD#zpvlrA+!Q`~mX72duYO2yF
z@ZxN2o@Zl{lx1@Z()@zNCUOER&hv4Y7wnI+M<cq5bv9?iIO}V20gA<|`-gm5tC6h)
zIa@pxr8z39yF~H&l%<hS#UYiP)15h2bWsy;<}HxhvNH!`xa088+c^3td^z0}I%+5M
z4DVQi)7?O!M~W+Of`3RyorK2KkZZ(T-p!eKPeR9;-!jzBLJLXtau%e9JZnQ<Yc<bS
z&9gV;wedcV;r&o!AYtGf4LR+Q<K!7Qk-LtHbMr3FgT3ckfXd4UxK{YL!QV&f^QgIr
z7S7*LYsaD|98g@R@EpMA(Ds<Swz*kOf^955d=AE;1nbFjypZM7>`XcrpJT=35--A*
zF~k<6oT5+6KdD#%u>3@3TxoA8bd4nktXipJ5_oAr$nMwy&<=$hXUhQK4z);!b<>LF
z)VX69&Ois>rG$RWgg^Bk)1y*mesn%Lzh8<8aAfyiUpRc^$+^S)XgWDFI=?8*=CY%B
z+(xgBjlzyq`NHUodXU6XILo8jp^nTiDi%EU*;s~O3N%efM9Ue2c10tA8`P$&T^ImN
z@oU7|IjbJ39m7J_N`~bG<PIePRKo@8U3xl93quekV<VLcgAi3**zAmYMA>*+T<X@E
zsxB1iR|CO8C?(=Kxj}vE>MvUQ)gCfhF=Pz?+inRXP!Du00-xrNG1##rR7QFg)T(dn
zm6m&?u}hsrOQ+f;TfD~Q;yNJF0^($zx&XOD<>{1`)9~f!Yt#h_Hbz+Y&<g1fkqH1}
zF=k?^oDkM2dYCMMtQFQ53aQiCS>1^u8_#8cbMdenHCDSc+&qZK5I+Nzie3O@7nEGx
zva5UbaM3kXv<#`kv(EA{j+_g{NKTOAoZGSarxjcM>?r015Gb%670YZ)gksq_#fC}Z
zd`u8|#lsQ7(9qpD4qFSgIXeX@FlT1L&C#HUfKsw-Md6;eYK)1~Bh$G6DhntjR7SUK
zBl))G{IGFaz-nPqgN>q3?ND9zJ;Z$tn}jTYUg^Zs7O5SzNN!$?B#^hj*o0$1suJ3T
zLx?|#0QZOR6oRJ_AV(E&euZZdd<{XZplF9^s2<d1ZEaksnPfJG(tm01<JME7!kWb}
zfE(0j0gCZ`!o2u%@92hiY`sVJP86Ame`Q|yxi_-mJ+SVPz2ik@oGfp+Q?amwQ?RUJ
zW7$lOTS)VOGc0>`A(loS0x_eM6XLUqIg!rAq_IPaWu}S=K^&F=fMQ4|MTty;;$qoY
zHk*@3|3#J+@CYdSWL6ST<rI1mFqp=ONE8R{WH!esdZ<9aK_~{~)xv(HJAiRJQIS+K
z!9^%$a=El{7%5I5KxRsYM5a>c#3%w}KjI}=+;3CmgHQeJ8$bERhbRAL`Y)!76Bmkx
z)?2eH((1`~&fYsKcOQ^_V;hDG<x^)qyjV1ZRtMK6*7fTt`M`7X@G-e}a>MZa=Q_hP
zrlMib%JntFT2vl<Qtm#oMH!5y3PYJ%DmvQOaV!2g1)nXwmQXQOv4NF~#onjoJx7sX
zphhrIBM7eSUHMhHBZB$CT7D4oJy`c}@!-h{<PCqc7fFVZM9rv@v=}Egy}pVOzL4T>
z``(*3->jH1W}({qRxiqdaK(yI8`T!5*b!r>7GK4In3MAQD=x&`R9kz+gIEg{9I1E_
zYo%<Cf^@Uv^EQZ)hCkB*rp`Fd^A2W=d=JCc6o5O_|ET;JRR!h|s*#b?;b8)`*`WBe
z!_cHM`lTf7TM@KX+`s}0TSe7(ZP|qka34@Y#p$p~I0+RA$X$ff2+jadOcy~7&I!Uf
zOljIj7cmXNEASV60KQFa?&*E|^}DZc7{X<D+a2aMbKekDCjtp~Oa$yZ61H%+*CzsX
z0mZEiMU%Fm^*8sgsW)GTS_A~&fIpGmZ&8~Di`qD*?`Yf&2^h9sgl_y+L-UVPLZe3B
z#1p>Co2x5g*-i0`+JKHIgg{5uhSP)M$w172E5#Xk2Pl3{o~W3d8Pr4z?@8??z1aa0
zmI9TaL8)Y-Ud{$IcwCzTXMaRG^N4iEBhsCZNOysn>3&3>riivB+?@9<L)2HGuG3LJ
z$m~|4=qN30e1VHy5n}VRnlMp3s=birvs%)_8!#xvFYq}5jFhUyB+a6IkxO%mqb5?(
z{7~#^wD<^H78N@&v*N@gQ%tJ-jHBYF1!Sps;I@7Wa_;x(MwRTQIZu5TX!CSlm)GYF
z5^`!1-mBI?Q+a*Lq@~ussYbC}O$JJoj!i+cweu8PtB0c?hW#Re#88(b0czRBmPxg0
z`SowgU&l3!qZ``8Lq&qrp<yW$NKGNt-IM^)Je3N4HC3y7*_bz`P)aq0WfPR!WgDmP
zoHm6N3bLl4DJQ~P67ozEQbQV6|K?4cE}`4Kj}2oTsh7~O_w|~eqHzTpT0<qcDZq-L
zkZlU7Cz=u<${Cgb{=fTG+Y5`-B83WC2x@(ZsbQTk10PkFn#6<-#Rysv81|s25dQ;9
z7@)#{ssd(P^<4OgSp%HDrm?Z8w~C4j^v+m1U8l68Jh)oT?TTLkt0cibN_cpx`E?nh
zFsj{GZP(sl1u8aBW&}w@2aMuGT@wt)sv|}fGzMf9N*ngIst3;tIT)Li<V7-Wr7eSA
z9Tt+~ya+N0#<!4_lonL;lWC$)X+w6_`3_En;zfl!v5<y2(HN4b7?*e<2Om(q#-C7(
zd}dx+RNQqjSsezGiCt&OAo;6e*rFIjKAjL)T!~*n5JP|qQ&ZsU9aqexU`AA|EErMX
zz+zcqxmC5>8>&K<fYM8$W|3DlFeBR9&H|MP?m_C8H>hnVWp&;(%a%ZyX<vDI&Axv5
z{xj#d^*XB!^qJs5sdHTJ94~dAl{?Rt8GnfxkQq>`bU|CeaNiODn$dB@hRZ$s@Y_}H
z3YWSL$z6v^U6XRxWU1@C+;#pVexvImW_NxX?0I|Y?o=swR1O~f;NqXZ_NT9H1fMTj
z+RH6{rIsUd%aMY4)9xzSdu4lX$v!6A$4d5-vi;<J`{@Ty9RAtxPliG3YH45Txy6+I
zop;{6{pJH-=bgFRbK7>)xU+ELJ~Ikq>K}gRwR^9XJ;9P^zwFsx@;oJbp8DV=+4F2u
zA+w<$3jG7qTk%lL8JY-rrA4*1q}U9oJKzU^JpxKJf0YGc1J>aDg5s*h)IFwnRcS;v
zCwTATgv!^PSS9x0Vyf;hR?2~!PE`C{d>(L#ZK`-$=!4aY*A6p8YNF_$b;N!%fOST7
zP<eD6>pG|<5Fg8yyd|ZnMNmWw8f#3UC~FE@-m*1s1?E!|Vs)}55N8~{1g$RHq?+IX
zkq53ZDACx*Y9U~h)p}mXQubvA=ynlrshW_fx0XT+q$y~96n+8qXqs08%?;fY^)2kn
zF2b*xXHT^?6sV${p(d0ZdB^T`Kfc@?2uD$CeV3krcy@G9%g(%WH-VeCYwd%o;9R!n
zna8)b?8>`#ALZlA?dat$a|FF~K`-5T_pZHU8hW|w9OqrQ6I1P9o#8yg=`gvW2KO>k
z7nz_u>GLq|y!m~jrZ$28XPOo!q140wf&hMldB9aigHf?J98$%i9UI{il3WI$xSNku
z*s17&2P=l8#Ak#Q5~2d8)+!;kfZ!T}IRt3{z^1`nsTkwA`9-kN6G`Cx#8wG=ggg@6
zK=A7bzJ=g75WI!p+X#LWfa0vFsw($zpd_fJDSl)JSF4<W1yMx=Cp*_L7K@l+LC8v?
z5`2UhWv?aqHxxRnxQL`6wirnhJ<x@^6Qqi%z7U7%F0AsRrG1Z-9K>l@CHozyPrL)%
z<pu>7Ysdbzm)2e`wjU^tpZZYzNLL&`E4QC5I5z|RrNEFJ7}^MolmcUNU~D5WUT~Cq
zN7wh3o|u&3*E{)POzu5hv~)j+JX>Zu%S>OHag;l|OPvw9GqP<pj@o3)FyyaxKue5!
zSE*3;`b*wJviDHYJ6U8V0g{xk><t&a2aC)>fSdkE$v-ap$JdW-_zxA%Y<fFaq*C{!
z+&x+9J}q~j{)pb_p8D83Rb-}$-l_8NXlZy_9-c0{+iwLbdfkY#$P9wqafC}uL}ntz
z(Np)C)8&3>un&?wop)TfU90qlySH#`)7!dYC<P*NAW{m9%K>aNaOh*`9|K)HRPO36
zbxp`!6YDRp$BJD~7G8jnmzW-z=~*4R&+G?@>hP49UYY4#9b0{($n=+(5t$iTi+-Sc
z_nY^bqviI&!qlg(edWMVxovNG@6%;}PkGM-h(EWjLYb^KBE!OgW-AxXYQ=GB`uS5Y
zynLRWJa+N;8R0cZBaS82EJx0$n5!hh>zMgX1m_Xp=@rf*cmaVO!5IWI2vGA7(0nIn
zLs$V!aa2{6I1gureU}z~4N^rEOV6q53M%Eqz{4uUe*y4Ia3CFizI6B%`S2@6gKx!B
z?13qq*f6|O9-l0YPs!s`MMK-I>#Hu=e_+EfRqpFA8ah`lY#910re33S)4#W3gfA?L
zuVba}_SY+Bj9DmOsA5ITMtOYbP58o&u`~2xqiqvZl5=;@Rg8c`Ie+j@`gXcv#+Zfb
z=zcqRH(0S^%tm$fp--Y>#~4HP^uNR0V=4}eIjLZG#f6xg>K%9|crUnakb5R79!zSX
zY@si`fT=zN9CjT3wSY^5VJiZYv(tyb(NR5b;H%ylPS2Y-1N@EP1u(%EudU3uGMt56
z=2#(3#caG4Y<hDw#z4#ge>Km^SrTAlgHON(J^>rp<@Qv7^k4_z9gj%gl{!KAJL!dI
z_i}L6<b<mx7hFvJpK4Znt=6BgajoDXa1#%K2P8xrxpBCtw8vvvR=pr%)8GroYsTsg
zqZK(Ku~di;8El<+EX^wnCWB8vwPBbT+yW(8F%7nYIITFvbdpPEufR=jmdm|CT+WIM
zu4Tc+#frIvgx+<<N-j3hjj9BpCb;Yru#9@Y#MT`QsuG7sMhmF$V0`Nz0T6!zo(mFg
zf@uFPs7;zbA#co^^5(n+)G}MbmZb9bAJM-{)09;8E`U(2mLy6Rv+T$-qIn7w4lNy2
zBCNx5MZfH9P~4oFFc$1m%@a|#{h^dqswr!`sc3WH8QxJ=r`7l^8f;Ge^ioWdD0r0=
z;&Qwg0+)5D>VgmDvV16)2uZViD3MF2b1>Ogo(eUt#7Jo8LX3o()?kS}nZ<i#A%y1C
z{+ekTie<SFuV#&^8$k%g!A=t!X#}412XCMF3|#o}9CSpeSy0&Puvy??epL>K)1l~N
z*+s=Wos%%TTI{4CfOFG?+2#``kH2u@<jY~Vsvx|LrOD;RDq{B#{1Cw(As}}dKSJz}
z5&Q`N#e&ZU;EqyM7_e}wlf`p*0U8r?S*3L$TT5gUd<<?y!L}vb6;;nBVc%#Qwl%It
z%^>_+C?sObXb^VQ4Z^lE13yoh0pk#U9pndM8WIOTYh%Df^ieMV=YGJpgH-70jqane
zC0Jl?CH~0;cXxd&mp3eZh5Tk{WG(wauGl?Yv;-g6okdsQef!=AE&IUV?s<;h((Ap>
z3Z-`-cV^mt;3x(5%YpqL+xHU^y{CIiZ$t_sQ0OTpq8e%RRmF=QJ-7wo*f~&})XQSU
zLC$2&HEkrPaEC7s4GT1Ywua!8!3CJ^ai$VS&z*qTQB`|=N(bedf@)aQPh-C3J(F-h
zkgz}r{`wi)%>>HB6&#pL)%urd$)T0a(^Ac}O5uHQQ_#xP`nZevv22v^0+IyaD@Lu%
zGN|3VjcGSeA^7EXr`5!l)&P8$%~H(>(72HBXK+1R^C8xWmn{wB3)a&$3=C2_g_m1R
zfupgBW!ocq6>1`f=&rR8v9)aH3}Bps0kQ;Z25UYDYwnl=Cwt!heTp;XneS77P<yWd
zoDnHut(F}PtJ?e37CAF;ZOi)>&0n}|0#n(<S&srK!EA_u0c}UK9dZ~FcL3(7(Kr!%
zd^@BDph^JG-qD^}+6T!bpgc(pXtDa2b7@@re?OCtpoCd#4q&FDzS9(lM59t8P00}D
z+<8N47yoGr@8_EWS2LTT%r2hP$Cr8E^BziI2t;l=mtE39H4ZCLlZ|My=UoXMs2VNm
zCAUxjD!A#^bIFXb2k<46l$)Om4KDe^q0E9Pg=Y8=m%Nq~li)uJ%`Aq%;W`O)0*3{4
zs^4`+#bFOsEm|EhY*j*}213kyh(N=UYiT&}F6!Zbf?a$uY!`kE5yd>GvOwV`#vH2G
z6bxhZS}8X2!~nX?UTd%`9jMBnHL9varg&^YjHThh98VJ1t95h^uCa}vGVy7=AR!|6
zMQq0?Er1jxrT{#oh)IeK2A%~+ST@cRi$EdXV6})Spq^RpfPnl=wIHsO%E)^$G63NX
z%tFqmSV7)_xy*x~^|vw30N+pNgcvKtvU9>JCRxCMR>uJ1np6Tw@YD!3J;4tYnl#3l
z64nv?1i?=c{1t+l<3R1s5lB<$Nw_43wN*@$?8O&eJgYe1NnQ07Q<A%`(C~Z-ludCL
zsat(S;zC9AjhMh`Hg@gx3n~whrrcjbqoM^?987CB<?buF24&aahHGf;rH@^aq9syv
zMar&V$<-&j`iid6qGc4|r*_vZ`a6ezkC*M858$%YdfU3vv)Xdsy|-{|8?LB3R(gJL
z2@RL~<jDy<JlXX1m3*VJZ?s^4z=YR&)?V9Sjuhz4-qBL;A-VTZsdrlL1!>(~ZtE?z
zh2^$zsck}Tn<&^G*n2^Cm)m@IUcLQl;naiH_B&^9pDmo+bbIcYZ<|->+qS|nu%cRf
zO5Oq4J5chD!%K*g_lWF0@<FfceWq}t+~zNw0vmm$|MoMh$3FJ%D>9eXeCvj_YsG`-
zKDzwTnc~2u4dznOyRRG!t)99&T{yqZPy-|H%-x$?@Bh&FQR068B{00pBl`iao{*XF
zPIR4q_hdciNFA-wZ`;tY>%7~!8e8kR$FIJ+e(A$Q_uHqyu=Wg;ovw20K&f?1ZXH|i
z-Do{n4(uxhMr8D3JShjBEO!i)IwJ6dpww|#?l=q%<&u9;_77G~@s6&yhwcu+_{!jy
z&fd<Jd?T`NWbLI5-{@CUw*5?t?WU<f7sf$@avWHvH<%}2AzbcTeT8cUhic2WG~4oj
zh#U501m_T-eGaZEd^gfyp(ilw41!k>{3U{~BQPTP7{T`u`~X0sRgTP;7*&6b878nx
z&?@gA!Y3KhhGD2;*bjy_K7oKQF15d6M$7__Au3kHY?QyFVn>Xj{GBTYZ_mLh`35Tv
zOmb4~!4>YVt>VI%8)6j?VlA*FtF2&bdok9E)wUt#qXvf7PTWgX{1^*THs=?65c?)Q
zNgI8ecK7#=-aNXpZ`Fv#_!|G?^t<U|=qb75Y1#gC#fUV}$Ex9OCQ%C&7_3+cYNOm;
z6+1y0%H}F8d@p}9zd{bn+6j5jfuiexY#sa3ffTCoj<XXUR_wJW#h`g3TUJb927>vb
zx>Io4l~B|3Cha9*BsK$YaAI*uT?teY)h9d05kror`X!06L2jla>J<`kx+oq}t(p=c
zOkREFqf)9bhXvFgl_5f@-r@1r`8Yhc6e2_)79&mXi3uZC0;Iq^+<^ht%7_uT(c*<f
z3>Z1;%*sBJeQm7a$yRMlV6s3j@#V3A+)(f!XhDFAr+_!l0`V`Yv$A_73*g)o1=J@A
z&nCh`>Cjq5Z6BXX!xg30Ez|(X;ZRJ~f#a30>VqPC9d(ag-y~X&s?V^V6*hqcjc@Vq
z0aWxfO@Cpb=-yAL&R<Z>zfqTE>hhO51Fidv0`P^6qWeCf20x+tzR>9)ZldTzU+T=X
z?n?@RyOHqV&#kSuUfr;E-7syNM(By6uYa3@FYH}PXWxeMdy0D|wkY_*YagAxf+=u%
zFps9KMgL$i{59GC+!h6~Dg|KMmKaUjid~0_hfm90XSOMfZlBRhH0`_fOtEK7_CE0i
Jg)y>a{~Ij=edhoG

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/flashmla_sparse.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/flashmla_sparse.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fb6e48d0ca3ba4fd80cec53289be498e1d3fea4f
GIT binary patch
literal 21861
zcmch9eQX;^c4zZb6xkF>i6SYIlBh3B)VKWYv1i7gV|#4Nvt!N9g`Qo8QnzeLq$D>f
zd#s^0+RZK^BgxrHE@wHL%gDe2me&qea|mv|2o7<A95TTrIQD1~5`A7oLH7O_;DF<-
zy|+nlm)!4Fvq?&(J+rvOwXNc-SFft;^VO^OUiE*r+pQd)xbfE~Lc<*Q_Y~0{djWVl
zs^_@doWKdXIG4~xbUK3daecxNF(ix;W5N_MF`OZ8j#MGd5Vu4u_%+6>6V`~0rJ3S<
z!XB|FY9ciWN5sK!=D0KAinthD6|YUyMd}jnh&xdqsb@G#+>`J|ybP|6`w|V21_oQ>
z{zM=WV6ZJ7Of*Is8O+C<63vlj2HWGIL`$S4(Hd!G@tSyBqCL{iU`M<ou_LmB!OnPR
zqASvs2uH$+?npPox#B&E-bk;G6Ah9X?Wm3SCHf=%I!@1t0de4gPVJe<U^Or&Iic>`
zoZuGi4-5tTkf>w$df+_|(0lYeP=C0{PO)`zybvk-5xio{<mEC%0Tg^Mz&BLJkDCSm
zw~fWO?WyMIpU^G@M9XBnLixcL;2U3n_lf(2Cj2#s`^I^p`P-(*{z7|0Xm5)c7I!w_
zHCk^JYjS|~Nh@gD#2s5{BClLGggZW?%7t}GwGd0i#^SMLGHg)nBfs?4iRiIYCyt#t
zJ$zEJ93%W!W0GPyKbxAEnU2MWk;N7rn@gr<649Ai%H%wfN{Q2yd^9#TB~A-UO%Zc8
zc3qSd>$$mjYGO7no*zec{*suACgQQEFp;4AzHz+eGQ%WiV^UI#&Pw9=L_Dr|N-5VS
zQkSDsSI1&wmqo>?m5>lqF{(dGwSF}oPaK<>9-p{Gv13GdeB}D9NEM!#o=8RGGnX!j
z5~9wrIY~l|qqFf?YJ5gY5bn5mbz)3B7MqQYPQ)it*TZ^6pNcEylr)i=nFfV%OqjTe
zU)Q;_M~=-T64czJcsel~M;mI3Ek1Vg!rbiajFeJ*MclbUHIL3s#0B(+SIz%iI!d<}
zkr!sgF(9f=PYdGvqBK@MnVf~l(<Q8q+nmTnbOIOAzXPrjF^ERdB<K%;L^My<lxI`n
zOS*_ftQM_E^*o<Svx)vthJnfujG*Tky<M!CuToPB6edPt7OF1kBMwI6EX!|Ub#MvQ
zV(qwIu$HZpI+3t$!A8_b<IB?O3u*R3T1{D+NAx0}Rn*cPWobT^W<+VuGHgQ;>ng+g
zfvpt-D9bo*1V<^Y;GpQj`VA6?5$f^h!Jij@KCu?mjer`)^{i$*R=%mY-kPol!i`G(
z8#I+MK`yX~Tv!hyiaRzoCeEg!Gjplgxm0v?ZhRcmz?oEMiYP>d6lQAjv%}~PC0IgF
ziPE$fkB-J?#-^gliFq-p7-Ms(8O1t2yFV%<Y0)SRW%O60Y=socQ_PZ>nv<rt%pJUf
zBi{Mch~PGNT^H65D~>l%=ToS7^uk+5-o9|+J|~5V27lZ?y)%$X%nr;>%=V>X5|&=y
z`*Zsa?4Q~v4#X!$2WGFQF3(I4T*dMmxH>ct)0n})sLBnJ1E}NxTgkNO)g|6PdtI^6
zDxQud#QCO*-PW(AzlusEO$ZjbO-D%T2Bb7@&9ZHUZD}xVAgsZ(7H)GXgz9sFyRQR3
zlll;4&1FSPJ%}m}dikijUZZ32<b2207Z!$=)v=812=XQ^2o|}YIC?XdUbVKhTQd{W
z__9@$22dI*IfS3>m1LZB0)?>}wr+h%c?~t16Xn%w$yi!g^~MTYED|}c*jv;J2qL;m
zx(ghp$i!i6t*ip~b&3H!k|fHI+FL&At<p5SEXD+Ny3Y5%xKfqqPovCaH3AH^vu<f_
ziGRL^NZmSt@9T$0)UMe>*~{u>o?uI4K3KUHYU(*;da6yYx-aoQ=>T$6eql9=RA=~n
z^9$dp5`2XUIY<GU(AKfy)-zTRVvxo`<|(wc3BYYGt(zq5wnxxi<=7~N^`BAieMW*N
zHV;!GHaR1O_0nF%rPmN7sk~5O*aC$iNJhtI5@1XsxQDj?%@0+s|4XvGL*>^Ypmo}i
zbu`P4=GA=}M|Z~3U1;R=Ttek$NyS>?Y6?&IsjE?%I7y|tIDZsJ89R$6Q&RsJ4V3oK
zs%9%Y1OR<w6m(NvXs9WTeiHQKh6@})X#+uF!?4s2x`|ubL=Kyz<3LEXDx^0kI7z`N
z1dQE;=uszlElqG#P_0h#a%@(d@2cEE&r|*q6^MGFU-C|l53IyLv32LoTz&JZb?sQD
zZZN|SZn~QgIi0E7o8kAe&LYm#hD_mR#S&$FG8$E^(P&~un2U>m`DpaYTr5r;G#Ztf
zL8=%>XJ+DxBN~lOPtT-cB$FjUX-dsVW0w`n=y-f4mKxeCg+MG(Pb$XvL^7qA*#0B6
z62>qwosww&NF5ZAsG;ylDr^km*5w&NF<>C1Ucwt`+mZ%}ZWqOEOpsK`q<w^bg#u#W
z5={*07y?vh4zi&1CLw5-Va;XzEYT!q0cB3!#8Unamuu<B7=0`48^(^@o>zYO^^d-u
z*?l}?bl<wXl3G1+@66pZa`T|<8QL%&&%JT#@kquPTJ2ify>3{alm`#XJxAo$qZ`K4
zxmS-pelK(A?ToQ;<^46|T14*JFE=09FuuKMa^>|pQ_HQfpK|zlYT(SZ41qCHp}v)o
zOzRQ3@hB1W6$$!^1g$IWndV)xe>V}d771F3fE8Z9=3X1S-$2Rrl&m6)$?jVzN^%#I
z+@++I_7^4fWcHlMBU{hMjHIWSyGN}U&xLk;ZsSe+a&B+lfZt90n(&KcuRmW!kc9)T
znjkCZZ_E>Qp69HNrR1$+OYh%k{;3@p)}YVzfYh;~VH(3<@zGZ0)Bgojxj-sH92Im-
z5F|(yO9^7aB}+B3RMRA1EUgHDj)|D!i&D)m&0F=-R3@GZ)sZSz3oFqIHi*VlJD%mN
zW``&{4pBAF9W1SaBVrQ~l1PjkPReoJ5q2q_t$aZfO%w|;IZ3>dRP2e^`&hf8bUhju
zrxhDTlj0Q?aS>H)EQOUFP0ipql~f!mDb}Dwr<gG;$M_76P_fzBiRnv<O=YC1*k~L_
zBfKCwAw;n()$CFW>cv>xXB@V4#g>|xohp>PWe5$0UVr)<0JaX{Br<M)1RZO*cG56Z
zqS4L};)_z%p?^^-8+yp6=6~A8YPBxyf8(wFXPAhrVTP63Bo2PWA*Cqz5IY?zR_fE_
zERJ<a#U;!o64whNwc2OcdXa~EKN&VlXV6mVECnPONN*uf%p*vfk)-p4*~+pM*K?JS
zE`jWQ{3S_t`wq7mZ29o)owIAZ<>0`EWgzEnxP5l{?1m+j3xqyAbm!29rL%zh)S`;F
zQUV##7LxMC_ft}=*p@KAy@DekRVzkSmEshz9Ze*NMwOK&O%t@W?$SlVQ80nO<gXw=
zZEIY=dM;Pz*)V!?F87Afz3KID82!0=|Lymd-`g;@<Z8XQdzX7Rj7^&^&+XuHaKqS`
z^8{|km*X48)||(;_~tFchS8Vv1{TlUs@pIIHcd4@*BebOc@6>b5=Wjzd2aXqjM0<v
zh1ZVDzQIq81@=NUQarROXyDlNPO=$|$*owAo;`o;O!UI($O)xNg@?!N$e}%E0MzWK
zMr`zu_emaP&m_q{+a5uuDVP@QUqGoZQr4tv(&l;ays{j|Z3QDL=+b75Z_FdU;3%V~
zT5fwFtJsOI_#S6kpSGu~=}m-BJJMDSUT}RuS*~I!wdq>OMQHm%UAi`HnkUH3Ak<-@
zKJ88$S*iz;k~3YUy#aWO1}}KO;BDTtN6<YqXlkehUm1M`=8>*TdmJ1w5W$%Cp-yOF
zx}LSYz=jqY(gw8Mrquv#=QVi2UsgIvD%+m4Ki#19yN<igg-yc}4gF^{6QI{ICSu7c
z#Wa(;EJ~mK3m&X`H<A?VtTb~;iY3566?06AO<xirAkD-C#dHm{qGE#DOA^BY#j3H{
zl%zPy_-}L;2p8kq(TQmR8YN6zpsH~4CqSCPd!$(kuCO<b;@kuklOPU4AlBd^#hRKZ
z;fwH)Vxw}j3}ula#Zq{wpj4$MARnR$)oKk0G|<X1qadn`0i;R|PAU`AS7UK(78JLr
ztpF{wWhy)~KCakQ3WiY3s38?#9EIjfZ4;6eYoT$`iOFODtzvR><v^9D!#HnDUlp;N
zv2G*<7wQnb6rUNzu7_G9uBtwye}nSAg}-DQ25*sj*2Ot%Z!X+eSoz9^qj~YvlN#sE
z#Erztk&T+B#gh<gT)ve~+1c{FqxVkVJ-rrN_inTwkevq>Pd_trHv7%a8=behSKgOv
zJ2$Ldi^q_mrg_!3_NLsjSGMnc)bKbWA2=`D&o935#L6@39lt)n=sXQ8L(A_j4kL@R
z?$)I22rZt<)z+_A<=WQ8Gr-mbGL5_B+Fgrha`xa#ay24156Jd`^{z(|dFM&leiCJ(
z2K#R8yR~=Kwm$T!ZO`Iy)XL$ydHKfWoW-+paHUtabgtE|jjX>Z_r3NwAorbpYS25(
zXqlC(ZCKgAIwc2&WY^I8>BlyC_ZiuBX7SA@M)R+o`sS&n$cp!`jp~7(^gbj7NTW2z
z>|3Uz;uwDCTy*68TW1iQIWc@;teg`$kb&{e-@<~yiHe&9V*8V##l)V;3S5s)U`hR(
z+_!X<&#GTKxBma?-TKM$b`|O?=ty-3epjla5!?rqf}Y`O-h@FVZTv3rB@;r^zbmTv
z&>pU0nM@tHU`A^zyzxEs)k4*RB~9-kxEiHY7phbCqbU*>tSIMY>9(}~rRjXCz(F}~
zvJ!9Pi~9n&>ty-9S*VRx6ISz@1@PT3q;f8}()KT;s>S|ePFIiX7u+eDXY5J4*@#%v
zwloiZZvodgVRv<4Cvstrs(VnVp$>Z^&hX&M-~(1-E?_zrHJ;ZSDzdt-g<fUJL{i3>
zFRCk|nB!}`MJl4)vP6nRTZ$bR2$dv{uZ6nHV#T6*zDz+K<vCf_^V9L`A?z^IUncvj
zuZH@DLc&bwnn-;BwGHC^teiJyq);+8E~c*cQfe%ooGFonCdNb9@j@^_Ok5R(Lg!2f
zp=&d9aYV&pD^P0R%y{4E%-pn)R7;kU7%jGm&bzkpk5Jcqb2yZMMF?etU?Z7GPT(XG
z8ogc+&O%*^E*!Q<7pMp(PMe@&*tHY8Dd|xZD>j4F#HG2JIVgq1#B2(uqKPR{F{}F=
z+XBM%((h3AQ40Po1#Az!O^~{glBCE+F{x^kFy3=wGL>XIE_fjJ#DWYtb4{_RvmrXB
z*vsY!qK+*S0SE&+Lt3QQe3OE2QShr2e4B#rAW)2#uzx4(0n$u*?oqeAF4d0o#T%b=
z4+Z@Qf5~fX$IG{KeC^FcHxB*Yo(~V+IrxcfN5;4#W80Cld9t>kYzuzRbkBCz_KB@0
zW9-S;dU7^j*48B3n!eX@ujg*hC$_$fu`grmE8<tK$hMZ%=qI+_8RPDZZFkP*UwK!y
zwXf+uv4!)T-ek^M11sk<f!<8-nU7C?d>}LOPR8<8Y(yq=1{4;q)<;tRN^H4#@y%S%
z-fYhy8UKx4i)S;nT{(B#>NVNjzj%&zN>A1i!dAKAXvJ>nZqB;9Wq0?6yLa(i&eN9l
z^vj<94bR}>`6pIK*6Nq7{*~7^tUYYQZR*K34#|x}8`xEiew-<+xyIfsB8|H?8uw_Z
z=GG7A@63NUEgOS4Yy|L5yLZKo{#iW!6Jy_+ARBk(EY6&zK4<afEVfNcQ_fPGvp6;>
zEdH;{S?ZoOJ5A<%E5|z)-(*^jF$_ZS(OB|R8uu?g9Y;)}Su_x96RTA9hoBcNf`M#g
zgcXdUO)!c4q`&xvA~0?d%-=RfYG8-53ss^+u!v6Bo?L<zb~KA%gAKUuIv=iKb_=Bz
z##kW+sde_Urh!-NB~2xah>9&vR#>J&OhTZ8p@ya*45f-$U{=p9N>yqp69ImL%^f0u
zq0%<IV8UU6i(-bV52z}L0-(T_SEQ)0J!0E5f~uG|Rot>Fse>kq+lE#uZRQUOwOFW1
zS4}!gDH?>$m#b8}NzzDedvIVYl!jUr>yq+nWR*)Q%TrWhRql~W<2@PFN-zE5?ZvjH
zO_QNgiUz5wZqT_jOv<J~lkFN*`bEu2Yq#yWq)Qvi`h3T>WJDk8wL=}=MW-b8eBrx_
zBdX<qIMQ8$HRu<7f6-oD_WpjYtkSPwczK)97Znbr4~=Cl^=YMnw%BS7hxKb(ur5?1
zw54`w*c4fx*ptQzCSec9b&N@hblEDt8W`Y(D(!e$IN%b_q~WyLw7{nhXgMce(V)_=
zV9_XH@Zj;rT8NkY%X<cN5Wv2mcZ^$lqBv__Ub0~Qg-RuJ1$$mzDpt|q0%6(D<k7N7
z0UX!;Lho<YN`QL6rW%Is>!m*cmdPnFnK6ln0>Bpt&k_mo8HS7dY>@(i0-8%O)~wS{
zo5HKwM3uuz-v?6RVY7i5zrb`I@C}H?<3)s8FcXZ7#LJa>G9js)8LluhQ01m3VEM04
zkQWVMpjCi266MWJrxY(yGo`U+dDqNngk%;qi8zB|(R^-TU>nyeV^vSvq!gA!qOz4)
z+!W^=ym3egsck6GA*h<r-zD1GGF@_1O;B~)YI{ky?ItZ=F{%-nn3yL`q7Z3>N-}^<
zqSY;75_5_h%85b;lq`};6H{zFuiw@DDVXY9Rr6{nXNkJd`z5tvEJd1PO=$EMM8cxt
zyii2gt{9VIe4LG>^nj}PkODRv{*a*mKs7eeKqVDRlJ-^_7Q^M}6$++cE(7G$w3#5l
z_@|OdJF;yN7F9tJwm#;q6rJBu*^W?fBI?)Z{x`}={-Y`@)^NVItam{64lMDx#_lEK
zrxt%M*qIGN^}L&64LN^D*1t#g?^$x>Ji#U7Z`gj~tiNqtwq~7!vU70Vv*FyoWXjd~
zvUUA(UH_70v!OBD&@DG~XB&>n4M!ipzR_?2*=nBn+E+)i9ed@Dy&JxLz}Rzv9ofJx
zIj}1mcvTL(nhl(i1E=VvzFep`8`>|2_CGo+hZw5yNo(i5-n+dyyDMvNl<kcfzG?O9
zAHMU$iyvKlX3)1;DPJ?RBOTrM&fY!C$eLt(Q`X)q+j}#7-}?BUo%r)Je{u%I9gMi;
znT11{fxCemU;BF<ANJhoSrdLRb$<#Jt&E}xN))&6_G`<ptqv_+STf{l97~2Lfu<+C
z<CbsbE6a_mZL+iDVf$KgeeC}HqrDs5M;~91yHCl^(;p9Q@aG@_2dx>454GZhS=*p&
z8(go07AMCCS9LPqlHr3-`ghSQA%)g7tz60QEl;2;?^*82)ipe`nFm-kdY;u3DoVnt
zYYRo8qM+#NyZ6D}4{~;2)*hDa;jI0zY(JdgkCu^F8M{#6Ut8Llw5qsZ!-rFv>OA*8
zvn9C;DEQ<|7cB_z9f~CjzAX}M_+#aJHO)#U{rxVmkp3zvVHS*KN`~^>$V?A%Rgm?{
z6hD=AU!Au9EttwmFUnwQ$*gpfw(l*N%P5PISBbJLwSpg9+FVIm6qq{a%ht7|;D_|d
zO%n6k_Ds^jaN8pkO$ktIRLmuCm1SAAc7ATMD3O+mPSL@FJ(Z-)bd}a?f&u$GZDDv`
z@_wTqiYtL*(sKm~Rr=FZaSuluLaewg0ZI0g#eKGv#FYKq3uM#^^a4B)ADSN&W)xFP
zRYOfyJ=s|*Q-ex9yI{lHyEJ_17d>l3%Xp}@D)eExTI(g&GZiG(in*+%T&Z5|U6TVE
zRQiRItD+nX>|lvXgMi(s!KL4aRSyblZo!i3)9_exyEVA<3+&!fOoM>kufe5XU`vrA
z1Z)M_6Iil$Z+n1!Z5s;FG_8!o&*LjeaiDB}o-%EDXn8;~44wr$Qv_C%dkhoHXeN)q
z*NLA7^JCf^7{!_N7B(yPg2Rq@g{-@Zmqel~g)N_16q&2h6dYL~04cVj#DpEYETURV
zR5^$h7&c0m@mgtuf+-59>%unaJ%YbR!PhB>Qt-<Z#3&f0fYb_Q23j)9hFck>qMx2s
zs$$8QB*m^Pb=$1|(XrV%iHTiCVFH#J==f*FSV|&8v-DjG{t|&=BF|~K{EW@aUXQBk
zHtV<qXKl1?_PX?#2#Fa=e@ek0QNZLrBe|DKA5;7<C?FfGYB>Hgf~bAlTldR^qlPK9
z<yy3Yg!p|*J%Iq4ioYWGuPOK&3bGV@h=6o_Bn&CGq<D$8tV^lONwtTlUli{PBtF*h
zs-91ir&!e?;}&fGNowO3@v7j-Wn$i%^KCB|t{BmN2vtct<`?|7c+S(Etv@K&A6&9N
zan;@SFZ(mW!EErj96bJ)NB_&Izc}@&>zyU@6OZrqrR7U2<G($#WP1{5{P4h?15fyx
zo2PG_zBQHgbjqI2HJ$9~{=?QEc74?KDSz<MMNO=LVy)VqwY1BY_N=8_wsfxzeQN2;
zS$Gwf={TI}+?VZqRqlNCQB3YUoUt6qT29KAlTUb8mJiB&Fw@w#!S_EJ$s4%pQ@UrI
zzS;^ABN)mC_Q`>Lk8F?pnZR)fFq@5V{q*N-j;t;8i7oVG=h0kKYqn{R+_WdxwR3%h
zT&(1-W4Zc<Y<-7Z-;oQ3J{-O?oC`MQn%kb)t9I4M{6L0pTaDyvxgf+nR=jQ_@XFHJ
z&Ay>*-&=CuTRCUrtzh1u@2|=5<m_he$?}6TKbRRh^(lWk$2+rptIW4%`7W97TJwL(
z@BT^4zHG~Bx#e`O?MN=roQ0(;Foce$2JDstyK}8OvaS2&*8TZ9uJujbQ_k9ovYVdy
zICpohKAf%JDcA4J`TMi}L$d!+&exmu?U#M~b4@$5O~>V?<2f3y!*cL&uAwj6@QU2<
z3Zr>l_Pw5K?1Q&L)*F_+;jDMJ?A@L71+%^`+1Hh89(v~G-PR>b-p@IGOAaP&f&07>
zc5ipZAf<s~e`omg8|U9X7d?7p<k%_cK5)#{PW90s`>6Cb1z)9rlss&as^^JMDLO)d
zpMqfu*h2gt1cfQ+rl5xcV*M=mM*ztM1aRKicRIW8U3uTTaI09cWLkE~zTF$fck{*r
zChMlRJ#WG<2E*fDX<PoKd=<qkoF|m8CdkUcpMziKpV}z)4ILM3`MmmdlW#N7lsDlQ
z8JqX!s|d1i^$mGSLndqJnGKLyGpf`U#VIwIo~OT$h4gD>s#A7RrWI;Y1Jt4hC`94w
zg<rF15{*nn${dWK05zztMo@#A$zi_`!}SHhhCh{x7b~j%3aNInTBu=VIt1Oge~BB{
z;gWzoVijC3$XELUeBBH1Zm4q|mD9$pLOs;E{QswSdGIc}vQW7{sQpI4r>d6=mzCOZ
zxybRt+WB8lQs4#n;0y57Lya#;Q^&CBrK!y?O%1&?^+hA&5n7;3cP?@7>mn{#7u%Va
z{jj<#p2VbuiE1ncSF$$<=HV+b3b%|nG%`u0CJE08NE*>=(4fGiRHLa#)Vmjo1J{k<
zZx&6?jHk%0TB&BIFmjkxf}n-%OQP)Rm5OLdMPJaW6bzb$t0GlQO(RMYN#g3M%??O=
z=<GxC(bGo=en(gC^mL;p&HX0iMd<7GFs{N34I^w746V>bj$0>SR{fstU+W<48ld0B
z5>=lxzo?q<`AR1_P|_KZJ*jF9s$_01xmQURL63aJbK!L|v~P)rjl<HvM`6-O6to}+
zS789=pplV?F)DWIOVXpTK~d_M_DSuhWI<cQ)JM{v6Lr;WOrQY@J5=%GkEm1{ROzP_
z(2z<`DR@S~&nWnx6#Sfmf1rT)s`O6?RMi>ozQ8v<in|uL6c>#qiFa?6FcwwDOqHDv
zY!xt0<CaEIW%B_E79_X*13X$<x$2r5RWh_Bd_DW`%JG2l-_QO-p8<T==k+|ca}Ve6
z{?tp5pKEGU^*atv#?hLwv?9#4b!XdNliOaSl+cr={%q4Rx#`&BW1lvix|Liq{wDwN
zD21xVKzBu{qge}YaUnVdaaeV4SNQUdRqR`|2U|=<G?+|Ta0(L#%7Pc%O(4z-gOPr+
zIB9?=Jc1t6pyI(pJ?d&I`2|d#N=6)Di&IJ~6TJ@{3?%z7e!pFrqH<}4d^k3$9xN$~
zR_0{k_@Tw=7d|2t-_HC-45cF>`lWoa7K(UTZ&fb$1v$*rzvIRCkta%;F4A(}(c`dN
zvDYYt(#M$>cG|pvI}(*fCyk>wj?{&5TQHRQZK&*otE56H9#3JA`?B?5a|HC@!d0rb
zo^%z>V&}N|`odBU70+jIlnBkgvUT+pV#1tAsp=)05KZ2Y>Pr?Pmw*XLOyKILs;sYO
z=O)E?bwa$RGW~zSI~B8fQ&i!v#iVKC(KFLyqEbCAUW=-FYht$&>0RN~@K*%uv7jXb
z1x5;RLA!9iv0Q<+R}e(_6RN%%>~fe^Z&l;#jN%R|UL{0F$A|Vp)xQ03qVkSyM8A)B
zBs&n`a8kp0ytm(7eius2$dWbJG?Z=HD>v=U@in(}nYta>x?Z`ickOMtZV-o!X6P^j
z5UY9T&DU<cwsM?YlVw}i+7Y-4<m$Y)4=o>BZNJxl7wX@^^&_9u?aA<aGIe{N@U>aK
zS>~H_wVi9mAMp42)o<YL!QNL8xDGxu80<BW3VjW?KUn@?^~k-GcTcVzx%=k2@rV3J
z{G-?(U;5Fd$FUzxX4+0~c;8$)l^YmbI`vy$$@scf+CS{S(+}YLEt&crneWX($Ud^^
zg&w<0_Tpr){*_1i4e!Av{)sD`<L%&bt7q5SvpbK=JCCC|wbmsw1k+mI@9Hvvo|Tag
zzkcWI0KSj1`(@X_k~!z7U$QfXw}p4nie$WN6nzNZWuz1C_NTB3R!l2bQ(|SBw&x`d
zr11c7xT@#V%eag6`BW`$#gdB(L>Px@Hg0>sQ%#kw{sLRUKn`r}wgM0ZcQaIccd1ns
zO`{J@4+^besyZ_iqh|8lD)`|3GyH8Q=vLcE*vi(8QZ=RSJF2&$m1$&fH9UG%Qcw-)
zzf&+l!QUcKND?BqT6O)|RJV2-Or?5mItiVL2sK6(EkI^bGtI%*XuqnyV2YZO-sTGy
zuu`+t^B!A2+X=Cb6<xH#I(8J-v8pMW-*zE$>oQhp{v)m8Rn(rXVrOI4F(5kzGLC~8
z%Rz*>h8@|419HQGrJA33`(UuRIdx-drRCSBbMDTpyH|GiK78i~7w=!(a39FJkIC+1
zkB@G+Pv(3(3P)eBKj-ht`f)L7SFU|$w*7?Mej?}X$a)85?;y_DId@2P$ypoPaQEf>
zO<8}h?C*V6Z}VAi@JrRVhUn1S0G)v<F;vgaBq!LdvdVW9X&R9n0KpEB`dsI<E3EjQ
z1Q}Bq$0T^mT||e*-*EXK1~Rc??`@;`8!Ci0X7rwg^Fto`%^J0$CMHiSR!ptvG;a8V
z0UJreQ7oF6F7e1*Cbg?FC9iVnf`nOHh^g8wMln_{2at5Yc*rbPKiXZjSOx!4-Gf5Q
z;W1jhs83tJX)F1wmlV`UH7{N$Gf_ZD-~PY|P(iv8m}3!k_M&uB$_H!(UcyxF`bwMv
zoQX7L+a4GQ3bi4p8r-6+Xexn<-B`(q2CfX~TY46ZX_7%~kT=ZgwRy;KhHV%eO15E;
ztCHCSZS$z*mWRNS-euc!NiS4EX<RtaFiylnb<9m_`iL@mVCh)3?V&pPaXf;9Q9=G;
zrP$FXZnAkBF{0^`XDt~QTArs6ND*FPbbxJro?3e=OcfQC;%faCYEqqAUW`(g2A6(;
z?JmVMh;Fb<_G+=xFR=Zkm<Bzpeo)xoaEGPP8*u2UWU_!4@7BJ@h?^#NX(g3@wN)Y*
zrjCPKpDel0R5V!>j;@sq7n27|rD~8?I{NOAhAaJIzph}Ycxcs(Ow9OGA)jDlXNr21
zdZbjE2H}8hg6FcixOSY=ZcrZ6(o4V3Q<nAWFU|)l&#6k>;TPip+L+V4JyEK?2Bn?a
zIwv_lZ3~dmvckOof62wP6%C1kAD(YMuR1`hCWoREGJG+v;!2IsKYw@}9xQ_91dZ#`
z@HC!h_o71+$q?>HhpvmMQ1MFyA#5<A;`d!>!)89u(htyNb`<GnrxIA343JQ;m(5bb
zZ3KXs3W4bs+6mF7)D6$1s0?=E5QP)C{UfQ$-v30|zKcMys+ZpBTR7?o<PRu`8MbH(
zmFmDrp#-73i;DBg6gD#)(=`!^VaP$Kgt1Dv_l<j{Vq#RHJr*~{r=oMS<TW(O#3F^q
z4j7-ol|tNanv(vRUUH9uF$zX0prKZcLWZ#zE{EgPCC1?i4gVH+6ifrhGzO|^4NgU>
z4XA1yU(>-ruztXmb$qad>CWt^h2&GKa#gEJ*rkdAK}uw&Cwx>2H@_*sC#4EUDB7Z>
z5Ctt1;M-F8FbAChOZQ`wiunrb6vc?6mdMUu+cZP!wIao$NpDH=nADD7#b5O-R#lKN
z=KU4aH-)q(s7CT3b{0q-A-Fha95AOG&$J!iK<H@Mw0SeOwoK=NOy`LwwH-O<+c>4v
z)xfiwosjs3j4kvGO83C+i^~^RJ@<llgKM$7&Fk$y9QbJ9@$o+&{*z&O=i8Z!?`1EJ
z$rs0RZSD8=-QD-hp!4)Dy|G!>uyk(I-<kCvko^ai960$n-8a8+;~Oin4M%9nNC%{v
zrlns&uxiNEw8?z?k}g-@oCyuCQn22Z3GI>V_u`c3sLQz9Z$%NTj%D0o+0ngZ-1Pcx
zUt7MmYRrNvv}Zk)-FH^rcQ(^}F4xupvy!j*DW~&wLNqkrGH%v4+>S0sS4ZxB{VrX}
zUyo)wPCQP1JhD;$_6>NZED4*g`rFOR&8wabR~HUqF7NHYa$x1{RrkH7yG`rv?9fqp
z=;(&)*phjZtS{uZlo>p{-kk9sS>oYl(|l5w;~TPkx6F4lphM<6NHykdSE+Nsa5lI{
z4(@?>4LjF9b8_}tW^KE=lDaj$*7_;mx1>Wa@oqZpZrB1Vu}^HxaQVsd?dY7G)1Py?
zapZ)#D(mc)o!wdIPT9G0!?_!_u59y8xp^nuZJl18{+YcB16Yf5v+7^J+WU#EpIME1
zWiL*xu3P&vjf3m>I)L6+bK?{phJ#sekL>N)mbP>XO@m($^~F~|eDBVCYb|%8xyBYc
zxvq`;AbLNVYwx&s>h39R=&KC1y*T7rx%RGmuit%reg8(=p(S(1(R|C1!6jlx{ml<<
ze6X^Yt`e{5?!3Ns{0HanpMNC$@$`?T<=(R!j&m8yIVKk4GcLo>vf>HXZns^L)d|L9
z`andPeTvRd>Xl-WLzx;@HAod#wS+IjaS|zkr317+?F9wtm<Tg;6h?X-Ef@T8hgI$9
z5Rp<aPYHXmj{f1>Tt3L{+L!C>`Mj~k^cCG^ohNT100W1w6I3zK!a3{n)eN-K*9&Y6
z<T-C(WzX`|>T%iAmA5lo4c8D{5$;&?4i<GHns+g<mh(5Sy6*(@bu8+p((4)M;X1q5
zj^CZkds)=aHMSP-Z07?E7vyUFD`DByo@bTB+PBvHtc4}Lp=&gGHf>J2r;#@SM#Y=j
zXl(OU6ti&NAl;A7S5wT&`TFxVg6KmFH-k5VPwf<Y&1-5X76Q1e5Q>!wp_p0-L8U?{
zw$o^8+pP1E8Ygc8j6$q6Ppb$Da-BW7{++qr!Q9ThpL<7ireWQtqcLw{5D0k}Ye1D6
zhmFrq7uECCYTU{>+&AMl;(41I=Q+Fv7s2y(H4f*){=7qlodr|kN=kON<y|VWmTPGG
zkiWyPret4FzD`BD3th81B74I5dKKx}(*0^p^S(l7{k(w@u^G)KQrMt=<UpXA^$~*b
zLB&@5tQ}MZB(cJC^*VhnK_c-=HOSJGX1g2wA~p%jGzLbxAR&>uMjD_A9in(Y+uG>l
z+pm4rsy{Z03rg6DBoegL6+nWR()gkbbMR(Js=l~^Z8X?h`>}r}FVl9))QhCjV2&E<
zjg5ZQeU%xE6&K5`V*1%OtbV42-R<aCwU?5M>QcifweQ>|RqtBgR%AakB%(AP8xz?#
zS_-8X?klNvc2i~Qsla-cmtp%8F?^FxC7^Se(!tWM4pr(bv<poj2Sv$Cv}&(brd5li
zL!CrwVP*?g{957K0UmC$TD9p+r|e(^s;e<Rm^X&cq)GiOn(P-uaW*N6Q_-tCRSVh~
zD%XPHRlhiMkqR(OLdL2_uO?IC`?C_ecc$__;*F}1)JG68uWiP7#c~L*!dE9=liot9
z_|GNd2=fM=PWLl2r)&LNZnw<s{(G+WzjFM4<J#~&1fBkK4#Cf?oNnLNXxoput{-y<
zdw$IA`CEc_{Fpnom1fW18Js^hzV>(3?pyzAqq=F)oY(U@<Flp#-M&n)_Zf%Zynv5r
z+J3ID*X_@92=L_vy)Dn8gPh*-YyNNg^ZH%7R&bEUX5w~vJH=`^__x3fAn%}<lfxD3
z_inuRQx{@X0<Y$QO2gYgDx^Bk=k`~1jvScB*&Ao`2Ec{yLgY<=!B+6S3*tsq6ti$H
zcfOh+E9Ys*+X&*h8rM@QBad&4>21&S3p$-I(|#!P>IJ!d<S9qdLfr{`cG!4TuN&57
T8oD$1xKG2;pK&bC7{dPnxS>5y

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/indexer.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/indexer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2688709ccc218893059d15c1f2cc6c51dce60c41
GIT binary patch
literal 14370
zcmcILTW}jka=X9+SiAued;lcH)x(lN(G)3(dQg=0phP_=(PvYZeUua!!Y(C1072~n
zI*9>d)}34?ZQn_%N=o#dt4t?OnLeo!x+;~^eMQNaFZnpEpbJo2z6vYnALolQ<?<z!
zs-$~%7XTqpc5=xU(K|bjo}Qkb?w+3EKRKN?3Z6LgPV}v96!km&&>y>&SpJHps5=x-
z@pPO@(4#bsX+zwQFpe5Y+8Ad>8OUSeri6LaoUn{qNWLk~Caj}Yk~YU}3Hzv>q%Cnr
z!a3?BX*TXkxJTUy&!{Ki9rY&aM(b$GKnZrC{x0;3Ep9i@2d4T`r3=DS8Mw?Uvu
zz8&%%cMWRpUG+tcHfp6#D0Mwm+N71bq15wKX|q=9h0?mGO8tDjz{GZF9aX$|-zxbH
zkiWB{qL$<vh1S|FYUhp_{LpfY<(qCWqiuY%U>!5?en_w31GQW5EkZlr3cp5ygTC5@
zb`^()rw!V!B|KaMBW)KvCEl*PZVYl?BAr26vGU<mI1&#_5`3@&m^c#_hl2*ib1;<>
z##7Pc_@Qv*vM|mowo~bNDmoDtUL1qUwlnc~Vjwv_7QF~x_UL#t6^bV>UKB+5Y`Z9=
zLKESO0v}3T31faVC4~|~DvbRF8Ktg-ec<RwdSW6erj+JV-YKo(p>#CP3!>6AkW3_!
z<4=_<0cj!*{qjO2$qP~_JkEzEL}4r%k4q74CdkX9eJnqK#2reYMrocJHM|0He~}(F
z3XEV9%z|aoLQ%*+{0S^?=*PE}H)1K_tAS^3FeN#(33e!R@FuOyTv6r}>{gIJ-XfTJ
z7JgRvfrRsR!3AyHkaB2q?%<s_OeLHig0r&Rz`H8&dat{KUd4Y{5GEu+xO`^&w&UZx
za7_@kS^Dw-(5$pdDo=s`mj!WLh=(r3lab3IDLN@gidhs=X>mNFtwCr&!Lp<%Tz$)^
zH11Frfir(jk5ECwaM1WA2YDj$@XILxpP=9vBXLPW1l)g|+L}sCY@LWsJf8}SF!9e{
zOYhpV`|>VfYdm^k>%{fcrR4b5s~{~~ul8&W>r%D#f+|+h)<itKHL4DxYvQ`njIvXv
z|B?{qRk|m)tvc$i)!MWIg%S&3iuzY~YmRMQhBT$DeHv4h%&ia~94BFp3levz6yhKc
zFo+%w(qapIiH!&X2$}&XZlvjgD#0P()@1PMPPIuR<X2SXpuI-*7w+yH+fC3aw()dA
zok&Tsl_ykjVE*N+A!L=LSW6sJ+>vnPk`Urk*C&LKloGolCcvyeI3hACr1=h&G4S-|
z&Cs#o1ocBYLuKfUam+|W;7eox8DG#OuEBIW0uI4i1nU4uh?~Pl9e*8;AE;7kkS>KM
zgvrilvtVWI4Tuywnxd9Gl&5v}%0oAoW4WB0D|!O6C+4j=_qH6njWB1$d_fy^WDF$k
zP}gZ9#v;nNh*-ZQDKcMGljdJZbV`i!LMSPM5}MrpU1_gqv=urde3_ya-OYqh5Eq3B
zr&Gybox+Af<Kcu53MsZwD3RpTaZEcxp)2WdTrCm3NHmT^Vd7CKr5K~*DbbAI?hq)v
z@nkBDN?L-3cB05Z%U(+IBI+c?Az^7m%~BYY1F;PYj35n)DU}9oE<OhtB20X>1dDFW
zLx8xXB7irk;^46dr*jN9w|RcYf^i`xcOQ_q9F*4`$}`6oO`atKZEBnM%||}*e?>uZ
z*+`kaBy-73nd>msGkZF>?ugtrh!uLUf|{*Xa8TUF$9C4Vz36LNGQxWi-X?fMaZ_N)
zf+?1QJS(PbRG@7MYcDw{n|oTiH86c`ru{1?<Y<Vo%%^qXpG(h=EUce@?ZY>)Z$GK>
z7)bJ~%NB>aLXL2C;IsT!04mLfV2q(ssd@wxPZN`|TB&MKRx33=vn@kP&CrLblroo6
zmQsqv)OBmnrfhs#V85pt$AL@f@yoixQ|ziLNrf-O1;r6bha}-jTo?~smR5WTAYY^`
z1cj2~N`d6Xv99`UPbI-i04);+Q*Kp1&}(2(If=p*X*g&RJAgKE3xZAnAb?3Ra!E0t
z282mb#ML5pAy~O8#hsXk06jD50Dw2CMQ`Js*4wRlrma}lbf@!nXP#M8kt&z^n(|Cj
z(d)}IzM{MCN5e&z_r@u8!VzWd2}dQja>4}$SAjmo*9}2qEi0lixWrp?1X&GZH&=~a
zd>*i=10%z(8u1}4MQ{Lq5}F+tvBQ(|?vfq5A2GXC`msW7`b8*NN&o+wz@kVJ;k<4N
zniUR(Ze)dLa+r8$I!nY|K$^mq<wkYhR3Y+!proTBxN;L=o{x@Sd|GJ4{m@=KfB+e%
zFc*@^c(uSB!D0mXlQsfaAuz7`oAH@=o(UAoV$v9R!~|5fVx!t@{WmE2AFvf!qpo>O
zsq4GME&)^OT3$^fsOx*R(yBF2@L5ZGz*b7xODPAYc;~1EoLeV4yFh_U%d-l$Ql1<0
zt~-MsCGfNkDNW=cR1#kRpg0rZYhbek@j6bUV#iNyf)y{W|8OJ)7A-`yf~2_Bszg=5
z-XH>IDxOS*65)vnm~w?B4h$bnD0XbCIrl0eO;|KU#PQJ`ex(j;YhPMd!-`pLp;)wn
zpuKt_u9PQL|D3_05g~dNQ)D$(t<WJXKrjqH=^B7HDX>g#pC($1F7J;{73&-GOrxrN
z7MlVnaSeex=Wd_NGi%Grid2QRbq%Pa)M}V+C^om`nU=+!eN%%uN9TM>c5KfxeZ}4V
zQ%7^ot_7d$?0v-at3r#UC{C59g!jN#uQmxGF#Dkk;S}mxUbq^K2x1*nkLdOd(iFNB
z_`Tc*&IWjcR1BTIswZX8Gh*nHR6X}-eOsS3X6QetJ(DrUKt8LVyIKZsKu=Yy&oJL!
zOY>)qF>5t8iqi1`o@bQuhDm5jd}GTAiZ|-5z)Lpruq6yo@Md^ZfSQEeQ`VHS>pej}
z*&N24dQSPRV=3{>{A?<+mW-J<lX0I+m1Zu6wxR0b&Ci~vjNzU|4+s3;VHz`xP!-tp
zEq4WN8HP9CWA&g*h9TTyE83t?Ry`G^zN#Yl%vf~pWlTEWtTn@CtZ1yWwu;s@aA%l`
zR`zeHYpSU0sHj_us&C;xtP^b=Rp6;bpC(o1o{?j!G-jO{d&Ys^87E3-)|IhkTqNbr
z*kUCKEb~m4w_58mV<_>_{l9OE5)ib8e*(g3!+qdE@uJj6QXIEJG4*jhhq-ui{2~V-
zCh+{Yvxm0yobTi!=|nmX8<wjA7fGhaQxcaP)7m4xiboRSLL?>doN5U;P;eYka9u0v
zAGsDzz!s;EJKNpKZR_NAbaK1SbI-r9qEZPhLBNq13Ab7AA;_JDhVZu?2przGOYf1m
zzj|*^>Dd}1Jl|QnSL}W)9glN>BrS|b1P*NI#ndHk^UxVB83aCX0_^2$jj=>NCdvcu
z?d0~rfX{c?NVhMOkWbZgsN8>=)?pYbnK0;gOcGLDbev0F5^B;PNsdRtfCzp(2NaX-
zJ~sxFN(d(Nvq@S>IP441?vssc&E9MF)X^bai^S6sh(|{U2ROKW8kJkrNr7$<Yn+=%
zN>SVt>(jG>Mcn3*B#wq7p(tLZT8e{F<f0OH`RZ9R@;<<SzALCQ@1P{56M|GR1t6cW
z4Ub+(ryv_*o9Ya{{*)Y?jh=s<4Cb<MT>>ge$2ylfIS5!HCAzHXvh{;#>JqR#ta6RC
z4~qh6+tC3r+7yicb#;Yc2c_}idVyNuR7sXp4tzo@CK3c9(T~Y>D;6V{NJ}a1QWzGU
zCU~$Ihrj$Ucu2(L6N7jjw1_wg01z3$F$>xi18m*UbAqS@tYa~ZNfS6=LY#O|3KLBU
z3B@ENCQ{cGGc0W2pyCyU2_c*cK?p+-;{tT4n8RXt{Gt%_h_7KM-$#HwDfAVEJ_#*}
z9#H6Eg+8RzLx70T4*P?WN5hh38;bHI+99Sws#GiN$&heu0ywO&2|Z;4$q1?3Rjfo-
zLXe|4Dg{zP%e7Ks^pI8q_75nf(3qHnP#k(xf+YR`8pPly{Tf^*2v&7d*2V(cEVIq;
zr$3l{Z!*U==h=>_gGJU~U|VIj^`qX8`#$W0Xk?!4f^56vX75bzJG*X$-|nA1_`#9)
zj{NNC+?Ai6%rTpD_RUzlYi8FwduHhmEbm!<W}Q3up7Wvoxg0Z;+ccC1XnziZBQE#!
zm1%MMm0K^}l4cFJ&dmJL)Zpi=efr?^g_$EaPt2Tn=VYGsBN5h{mKn=C)~SPw7IymJ
z53hdV@ZKDn8JeX(YWO(tVPIkKkz?=YHS(5BMvrZYGFoj<98?SULFap&b64iWj{@Bb
zJ#t`2j%j*graTP=_eR;h@uT#|nGZ7y2mj)Y`{ulR|I{%c(YI;tnq1#Kb@B;Yss|W0
z=G{G0$3A!a)RuEs=db47JEx8THmmEVW5#jorT2voV(-NsvB7&s3Y`OT=fH!54<Zl5
z2ZNst<~v7Zb|iP^RhfNt$w-;p;7EJ@v%6)_`nj0w>7F`XtZ$zS%Jo~OPA=M;3icM+
z-jcVs73`dB=jIyo_RaI1g^oVCqc7jlU+CB`ckF*)&UYNm*^lO!qr|yZ>=?cd!J3ED
zj@n`K-7x>eYle6A6DxVm<&rF&p?P}JL{TKdDsF-zICXJA6cD2IYESCEO3i_#88nEv
z%@F?>fP^S@v24MhCGNTO&CiAO*chx2v}9riD*hZ>Z~&&LqOZN+>y&++1z(@+>zg_S
z^WyN&_Q>|u9Mh_f)}g5}DHNGVD^06lR%{s6QP*Sboy31ak9d@jHS%<pNtN~!8AI9c
z$xwH-eBCEHOr3{KW!3}{Xw`QH9#ucOFOxNA%o+M}02xA})=b7c3BGog0pE_kd>HcS
zcQ@DGOJocg(^$#xp`o{|A!E)m?;c<%@Ki}_v30e!wMMW48;P8U{}Bd9^!ErJR1poX
zO%kU@hQPFfRS0t!+a=l?L$XAVZ!WX9lOt)+QbB@DN`osv^gLP*;)#?rzOKY|kAZZ9
zmJQH?1-cY2n{t@gXd<29bc$55Ar6q{HB@?V;KOOLJ`{^S?ldu6D_j=M{s<+E7|s!-
zlvFmvs|b^d?wJJXD!I%SjRuT30vq8JOf`SCx+iR_@`1oX{myJx2SDs0oL-uU%~Fi8
zC`AEe6Rg<81kR2{%)+PmCkWoa0w-ZV35G;@N!*KhbQB}0usk((;yza!oO*KNQ%^PZ
z)vOAN_!d<A6n@hC0Km#{R72C$sbWLp)bQudx?6qkOLP7C_U?an_Ds{o#&vT&x08j&
z4!N---`F{AFS-M{HN6kry*aiw=k6`Cjk8;1_PJ?S(eBT+ZqM7d7ajhBgOeTHT*rKP
zuKkgtr|1t%pD4C%o*7<pQ?6}r2m`I?hZcX4ZBPx_Z0z3p`FOr#Z?3KX5xcKwZ_Y95
zF-HW5EIs<(dKvZCTi+pqHj2lwMiOwfs4;ckFv<#6!J<adrl~O+j$+wS8*jQnjp9+O
zoj1c#tp$!_S-}a%tu8oBx7{#}x~HjY^r#24tb-iWDRrSpnh%4^GI2>iW+ZNr(j*Gx
zq(`;uq0}XaLtaY8`4tKu!z6f4u$%)8{AV;A2A0&?j5$O7n1Kx$9fiZRkLaJ!pj4<@
zfsz<vsd}=;l+LDATIq^1LxoBzaTWZID&+7fa^Jmft)Rj<m@DYH6qLyTTVpjg`Kfxn
zZ|JX9aKfM~dQ{XAL#T9+k}7SbV;F0zdSWOIRS)z4s=xZt`GiIw)>>UkObZy75Y8fb
zQVn`4#_6f@8w|j@@|T_(qbsQ0py!s~wJE!2)Wa^&e~C}u(mxf$!-%R!4Fd4YnBfnm
zqr~;=RM0eBJ|q=G(5LE`G$<xGkcW#Ha9~L;dW484qIe|mfAQ2()I1jAZ4mXR)JYRU
zMBB~l{!AlAXe;y8-MjcU^rRRQ(Q$1{feTb=K(9uPR)S-bgzi&OaJI?jpaJ3psVHVg
zz^Wy&dk7aO7J@$^iDQV+fwqR^fS;n6z|d~rrqop&H^AvU`bmnvJdA{P^F%8OS`-F0
zXJc?;3$YBveEA3X7Jq{1O-PgkCmHA%V(-=v9P`5knovk8tMn<N(#0P`i^-1FgX!8$
zmoA;Z1*k81K(+jSiu#;&&RAeGF}oqh2In?DWP`<)_Cm`Rxn)bCrC)C8hyBGDn+`qL
zQ5YDJ2S)OnPERwB*bU&=dBCM^m)-3J_qK=bZQva{y#+_B>}V}Gw#tsJ1;^k+$Kay3
zZplJfosZb{aEfYm7T66B*$wxM^M?zaN9E3=pLz3}hh%o>H|&NlJPmhjw`~PaH#pV{
zzF)L_+LHI|n>H2en+x?_a(&k{TWo5dX5Mvtv2N4HTRz-UbhZ_o9kR0n!q<Ou<QGGq
z4t>V_+Wss16Qg0h4XJE@Vxu~?{&mYIEk&pI=DC@3vj=5o+w7H`W9_{L%)Wp6@6P`6
zEY$CS`oCc}5)U;}sXsB)1raA|c>`!<aKRz;j8_>ZAqxYu85$J_2{oF_x*FU@a1b*F
zs6o|o&-HbB4sd2ISysmrD`{Rpsy!uV)C#r8J+5cgvgtiPD|DT;LwJv>b!Jy~cFSSr
zSPgw&QCdq2(<ulYs!uH~ey^mZOVpP1mEI0Qk;Z$Bu5B-tT<KUzpO$MryEh$2t(L3I
zk7jkVj#QK0OU43$UkC8bq|K}qLZXHYjdOp`bXT)8;0Tz9iNP1oK}%KNy$-1$E8-?j
z+=HMG0eWlXxKixL)IJ1w-UXfnZuyBSQvE+8L^o8gkHkcb5ZY2qu=z?#;vKAc5y1rn
zI{^fp;!iP6JVaJ^?UnkfV=;8IRey39)K;2wf3T`r1=VFT3F$Zp2~Qq0?^1oKK4ufS
zZWKz63#DBn@iQm)e7llbrRihrZWBxlIHxS-<mPPiuid9VIhS+v6<urRI%L=LkBzjm
z3-pkcgAl;Ry+z0RxpNC0_g~9BH>fIxWusxEO=j0kJ8s26fi-o^g9qDNXzY_4`|^$b
z;K%wl&9kzvr{LQu`*!AiyQi&1|8sM(h31^Uui$?{_P>z#9{{)3-8SbdtlcNC-S^PF
zFURi7x%Xk9<M_<+FMR$xL$`<KXjQ{J^7R&d++1M(SkBj5@b$~S{s-QiuRre_fQW~;
zZrNyZy1sExF3-%%e`>m8ziodf^e;~L%*(eJ^<&9PS$$7@lxHVUf`85Hi!DKbb0_An
z<(hZncVm08p>574H*`GlS}}@Zwc6Cpwl_lVHmb95jhvtQv@8fvj+ZV?Dz-5Q{HYhp
z)YCg~HA@dVVnhkrAQ$g)#Y#ox1UN*7TFMUg+J;(gYSx@8yL*P(>Zp8{aSnP$RhhMB
zZMYOs0cRL;YNqbZVL6gKQ#p^PK+(ZPOWdi8m&z&&=&7O7fPxyT49<XX<nUx28OLGj
zrt_vNV!Q~h<@qj(A`09Irz2F%tJbQ78E3`?rl59jhFFa=nY)?+xNUg1o1wDqEZ{CX
za2Yqac)Dt`!{|I2i#ED^Sy9EBD``;EKttf^Tpmuicm}yf3{`9G8Ua*qV5smRTaH!h
zWxd}@MWs}!DB((YnTpcr>N0h)cCA9iOE-p4y0#))OX{UK-?8<pmuKsN9~+)7M@j-z
z)|c9(mqEQ6vxN2DH1KBiitV#-WxSbsI1SZCo%N)G6_{&K0J!uD6>rGxsQA>9kc-!x
zsvgMI=Bly)a%;>#<bn)WKRgTT3r{(1VC+2itar6lk!{E{jDXzJaI&9uWt~5uf;PNv
z=+SRY=sQ|9jzNn9fSH&=sANp0Q(ZwuwReM9a1_BY1ZdEME|KJ-0TfRnIE7#s!HWpK
zhu|dyFC!R1a2mlY2wp{i*D8X|#D=O3{}OZ2LXj;132{_JP(FqNrLN+3nikqu?_&^4
z%ka^$F}43$tZf9JU%ZV71q6iRBbXXOP$nCR4K}J~cpi&BLGW_~I6(EPt+qQMM3OO)
z;gEshm=uq0k@a1JcmoljSr<P-fc#b58uv?;kgug&2qBR$tIBAkS8=Y;`x5SjR~Ycp
zhib`9#2im<`i^$n2kJ@sK1d)~X$R%oT&VAcm^?V{4Z%XgUb$iKv~6+Cw!)f0dCg#s
zZTZ5nvFO>bkSgpNk#~)NAMSKL2K#-Sp0?jQms`IhxAPdF@wCjIlik7j*UAAVxT?Fp
zS9bT_4?J`a<k*3ndtkAp9kwb(d(-UNhxV4wTe|^s!P6sqdWx`9@pQ_b&Z4Jf*}}BB
zrcXT%P|x>)v21ib_CQMZZN7D4j)g#!w?V7wTT}G4f<I7%LHK%QG~<xiEBp3-Z8yWF
z#s$s5HaqJd!+DGg3^aF;E;hBn7&uqX(F#6FOZ&9DXm6bLzP%q0Jm8RoP_#q#?8x;F
zF8uL>mp*+X=Q&#RH5YtaWZ#zglk;bDzCB-?j7}G6UI@U+N6$j%!rok9|Mbx3Yu4jA
z1wjG_5W91GPTb%7nfI6bbDkmaY}#GZFT$18wcQ17yUcCRbG`T7h22B)?xFndQ!;m|
z&^{u!kL2550qPc;wiKFn$W1#I&MjQdH65Bh20Nwp{l(VqLhFFsI`H7+gR>7#=3ag!
zclZ^#^-R(Ke8Im{_U~NC+_&fahl{P7ifenGSk2hy6A$IzPUd%;+_0^j2y_(!{c@nc
z*xXrY-YtWtf)jsOUIWdcn*(y|0fM(r_V*PVn$eG0vlShj_MW0|L$Q9{lQy^CHtk&6
zNO{`eH0$4&uhYP3$qW+v4~FeW_nU+CV9;BA;mU?W-tx-u@xd2gJ{1}{K791#k<jTE
zhmH(~4j&nK@$eCG25OKy&+3)XxA7D8AlXKXs1`(Y55(gL$jbg(NGVQj10E6L@lXh^
z<$nOV<ewA{sJrkMtdAgv1(yN*9_|IQfdaczW_N;LYHFHgb8END%{!JUgUJkYyaCSH
zT4qP`%!VgSv&r_=j<qJ+(lAZ6u6=Ah0~eeZTh=U@Fah3b`_3f`NwQRfe~A>sblWz3
zW5-<L?vdVu>lJ(H|85|pf$oc9hRfM-`%N7-(QO<aI(3!)VWLa_hl#H61-QKpSL#F)
zG*s_`lLM+Q_1H+XAU-um{f`_G_dbe`;7g~XajA=kTbiMZLLwnru}JOeYEP}+NCOck
zO|&B*oF_WF1Dl$)E-;*?-e*08sj|{NfS;oXb|4@-rwpdZj6RR4w-AuYL1m{h3VkGn
z?N@KbzaaiSe4=9|9R#>!q-pwVGexiaE!FZn%JB_jqzzxQ6uthp6#TvLjlo14mMH*_
zU6ifi)@ym|nkn-Wb2IJFaotZScrWdw4EApfEM2!m0f4LE2Ky5EY$OFVy=RF6pcUXJ
zO9~jeWr+fy72v0b6g1KMmM8#P0e<e>M<1ghIC7`|cK?!*eC*isi<6(8)ILtU`0LJJ
zb*dkWCfjuH&HkDG*@h2V-)n_KUD>p8*@TUj4j34^ZGLna`fXcswbFj=?%<LU(|Z6n
tzE7MY??sb!`ng-iTO+sFnXR%Zuxx_DCohZ|=(gPE17E|xJ<+Nx{x=&lzyAOL

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/rocm_aiter_mla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/rocm_aiter_mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a6c90fc61ebd168aec46f8033ac8a39cbb973019
GIT binary patch
literal 11605
zcmb6<TWlLwc6az3l0$N+7xkbd>MhE)UREq8a#A~f#da)j96Q}=jh)h*kxiKod4{qh
zg~}ScPD?f2wT$k<@^*{J?E;Zux6u{_>V7qUO;Hr(ti2#HZ~z0FqR1b;Qm{dP+H>x3
zD2k@n$+diVALpKX=046j_niA5Znu*_idjC4p6eszw^%Tet(e)UVF<ZJL?SXV5@)6u
z2J@zvDQ=!J)4VxmnX*8gC1#D=rfjs%8negQDVFAKF-P1v<)nFg%oXRRIGSf;?zm^l
z6ZcMe<NOpK_f7fYHB&Gg&~n6T<8@PYH1CYn#~Y>^7-AwviRijcL{9SDGwb|K`6Y(d
zyP@7Ad5!veMfRr}X{#4ndC4a=HbK3CGu1@fe9%@S)ksa-+L~!wEwt51d_`N!yg5|=
zC5{kcG=~^Yg(I=BqCkN?h?#f7@+1^IaxxMZ!qJo@3&~k*_8ds1q(my3OuQMMmt?4M
zz7vbZ4<-}S(F;(rM8xQokX7SPzIotaG9FJRUJpkuNeNN&mue14k)$Y{lu}_FSaX*e
zj>TtVny*wWVKhEd_4-^iCeq<+N(>!5`u5!HY*J1E8}3r=+p|(6Qk+WqV<{FkrXX{R
zNMwo;$&^Vli;QHMHi@R|meSN)X{}8(<HSOnrL4_fY_k^IY-MfiygkHf-UB#sz`HR8
zHd#u|$%$?3AUC)ZHjuAdWS$9`CN<CLQwL892acUNd|H71cZpn&DDa>B@0p=ge0FFy
zI=d?smM=)DUGL6~zr6R-xHJ@to*$Z>PhCtVhOWSx3|$!+3LC36bY5QuWhfpC50xz|
z6bEPLH5ModiEvz6XsqCR&}hN$RIC85ktg1ExdCz-XCUL!ZTl`bbNY9AAajeP0P5*&
za+iU<B_lcdS(K9OhoZ*eSWzG)L}JQ9z#v|nKgx;G+6wpz3*Z|0!rPK%TXcr}MjvDI
z6nDxu<xOq@lE593ujI~)+@05V9%ZoI7_6MZGK7wD9(%KFFXeGE<j`1wPPQOuPC<w#
z#krUSc}@^6&xK>S3|LZ9;Z!sdmtaLj&8(zkxe*9zmel;LBnObe_Gh`2eOQM8k(F}*
zu9LjgS1>Ww;Bw@51b#Nm#8yKq3btY{u+qKqzS=y9?SWEzpw!;Cawgk3p|<Wrgg%P!
z6e#xTi-*H)n_=A1m^S_az}6u<3o>}hELmo#)TS6EATkSfLL{4L+6Q%jXMX{nxroQU
z0MAmybG!i0ig<ATY+8e{uG=Nmq~@IsUywxM(iI_^5NA`e#+O$_Ba)&ulxjeZrUWbr
zF)5)rE+>nfLQXjdBgwcs<W2<r05oeVDMv19wlh*fNy?g65W<N>61PAyp$LK;Ld*dK
zI}o5i*g82fC_h3$FJzQ606rkFcsqx$omxJ7>)g$AtB2J3{)d*KCp(9;mbzu>R_tbM
z^^DpOdT1F2#NFdrOY_R%kKVlf=GvGV7<y>g^Q0$q?O0~+MtUi|BC6ibN0yL2Ada<d
zwehTD+TZ|etv1RsjW_1fIFOSebLIC}e9JIUkrC{M|5W0@4z{rR;8?$Ha2_f!Z8QTL
ze_l5HSt6NdP(oCsDXV0Ys6?0SB11QaNn%B_<dB>wlthc<60H(9(_GOJiqmX{Of#bG
zIydDJ?SRwvERM)Nr{3|LdgpWMUC*iKBwlnsr_F<hNc2j+X<p>7Tc&C<<XvW}_H7dK
zQJJRI2$4B4d_fM+UKA8vUutgH(2;QDq9iDwEj3pRRXY_>isnL9B1EWu*KDG61$KD^
zwSbXeJYCT5ghT%`rd-r7v1#&Sz)dr0Q`(%iqzv6l?iDF8ByFBC3^juy{HBRuh!B!;
z7!811MR3gEuB%9CGJ|@jBFz|krL6v*NiQr~fqG3@Loqv3_iWvwEp1C%7vLKf?J!am
z{%24-R-_r+TouW%G~};SsCa0a2^hJpUmWk7e-m<c!IUcP-)g%wZMn}FW+cpZX=Yx;
zhiF;=w!Rf@)DASgfVTZxQ7x_23#i(@71i1*yrOunNTN9nis~EAL~+-{ETf>KX`alJ
zkY)0&NwbPno$rC_FHw%lxF16eniUSGB%`4aO+-^5|55O1HIZa|HX5T!p?D}|6mc2{
zMuY@rlYUO!@$kE7RzMBt9vS7R<~$!uMlK0TbV1U11r9qJ9kS7b!ybvbxS&Xv70t6H
zBan(#doipC({nKxzz`mayc4Nf7bH2UXx3;VwR=>n*T+bO&x1W9OY!jRY&3C!>bEWZ
zrP;!AIB`LudJJqKiz3CQDUb3Pkd$9Sfb*f%8%&`VRRow1AbJ_Twa6<J6pel>a!!#n
zhXAG-++YMjLAenurfbx|lu_C*1S?fi(MB9J=K3|jQr?8s`1%^z^bm(<$*!`Ed9G<?
zV$HSw&ZAdPZkkOFXMrVMgSpQAYUlop<q_NdIM|)%{5h^$<+^j+sLGA5AIgm#QOAzt
z#@<rL-r6vmI-FUy71V8GSI)m%_3zI4_pAQ>87|-0o$cGFHtx%~3moD2oU2oHb>>_n
zs%s?YI;^@5KXM&?92)$j<!(#f*P3k~TTkW2kE!Fwa^q)I_-j9t<<CBDXt{Oi=B2#9
zb<=Jc@MI1>;(9loq&xKS#GQ#eA6U7p^1=JoPh59h501bmbW@bzrj7Ire0<{0i9Fx>
z%d;PU@6PugG(c+)ZS8>89mAjOxVr-g{PHlOJ+MLR4%*tc$&$9NkIvmbm*;)U`&K*D
z+OGRAeKK)(;=vU_Y6GMnPZl}|_Xb1Nw^mcWL*OQfrVa;t4)>`dL}uqSZ>gj!8?E;8
zoFvZ+U=7PD0roJ(YN)I%BKvSBi1dOfq>^y)R5ZUBnT31`x3)fvjyox%2#J(i2)JWV
z?`-@T$n;yFg=U~onP!R_qr83*G~G-|yKS{BIzX$ShO9^;bFXMLEjrUoH7n&DjI!uj
z<e=46(HV-O$>=}huGT7=(rih(vs6<tX(r`0aI0xTkx8>KT9vPW+LE+2C=hbre6NTr
zqQe9JePEiVb`{FSMHp|UB=5F*rCq?gp>q+ZeEy4Qq6t;yqWcf?3w^82ti_m_>RhKC
z_pQdvRGrz<%D~E1oB0y`OSnQFux&h)TQ68R>;mkYMZS#hDt17c7nw_-Q((4vgOhE2
z@ZwgH$|#n!`WA|4scyTJe=A_%owg#0OsZrjRkITA+l;lkP}*^eKG^HQ3PMnv>8w)M
z^K6}A^DHy+>9n`%8kW{zu?EKKeU^qu(#{V|0Nt?X=x&+8`%y(oGot-IYkUFNn%|HX
z>|HX0SFMT!<JB~isv~)y8L3MDbd5-$|E>zMP~1Atl*=l8^|2Sdz}aAx{%~taJMr8-
zhd<vl{8gh;r13m1(?0!V8YhhMT8&N_H*~k4?NX6&1)sw!{|v8H`lp@G<5Dc0P|9DG
zzWUgUJj~^21zS)ANmiQ6#oEM<va`om!DfIH3(mY~`NL-kPNT!P_bk??(9EF;B#1ff
zOMBCNx;AaU@4Q!(YKwL0I=HvFCaFpI<^MqnnW$kTzYHDaR}kz40Jm(j7>(1~GvNH>
z63K)>^(+`)Au||QDQQ;kgJxC8uDQyzu*MpCvBFNH_L;_4YR^!MZmaFb;i;Ksp*E#e
zxfq_6G{;;*0o^Qtm1&dSoed{MYADKYAUg7`S*}E-tD5!dMM;)4b0nOS4`a10G8b3o
z;_?whd=<e#1cwkD1)y0Y$=P|`529J8qhO5c4C7(ZeIk933)RcVuwoLyDFoj^@D_s8
z2;N434ie2loioV1{v9mZ4%DVJomVtQ(CX08JRj4I=92koiHDU-Tjs3pz2UKMIFbVQ
zoo<Ngv*!i}Y(fAR9(8pqs1FT`blb1){&ef!#iISP(DPh7mHHTqXcvK|@*}WXu8~3=
zsc*{F^{REfxw;XxZY1N#`|5AC+-%9%^0l40+CH_mZ;g3aJCI@Xd}ogDSNZ-WYsQp0
z@Pup2as4XSzgF{*+nM8btK9DO*B_W39DB$e`K(FhP8ZC?(E=u~yZy1J_C{<e1{PnQ
zZ_4{aIsdTgAI>-Q=NbmphQUpT)$1uZiMMw7(9b(E@ux1UxAm#n=5EzV)R4B}T<e(H
zI<|iLLCwR~eOa~{=mtk~?c-|u_yd#LK9OYukG*y1ddeeXT`JeLdf*|~n;qPr8$6;8
z9{CK-OWyfE&f2BW@_`R`uC(WxM%AX#^^u27FFm!I_&pg5*x7->HBoKZon;%JbPTV*
ztaiX)ZI3&8KW@3xlIJ>C!z$Oe)|4GP4z_tG*ye3u&$a|V3f&HU!Pnn%-E^%SSQT<T
zuc$q*e7ffme>~5(=lEWg?_C@Dr^Ekz;#ViKeD6bkf5B>Ydp6A07H7s=@Km+mf8#ou
zZy(CFkEvk0zxA+vJj(_0VCZwbD%ZO@zs9c4XGf1_cOOOAcU0xx$Z?Y@Hwo*sUI!EB
zKE-SjliLFy)!Cctm{2>wqHkJmTy|tzhO>cTg#7SR_zX{$Yr}Q&<+u)&>&SNQ&UWq2
za$`B}6_tA>&j;61NN>U*w}m*0xCY{b(MQ~C`SvcI<?KsGvU`qX+m8a<Pmt}P$^}>3
zR!3Ify|XXN4d=K$Dz^uwXH7)n<K@IDs&DnXcLJ+zCDipFd@8Hs#~*Pg@@<{Dwo$ch
zbp5sUw;nY9>Rh(%^~@<cNFOebW34gEjpn$$Dz`V!_pYD80bVX2fTFQ$juP4f-y?1!
z-xJF9>{omCf7<kEf41jDmg{`d82HF@+q3%qns4p9cLUkRJxj;ne$&+U5qF!z8_eF7
z@XdXz;rnx+ym$A#PxrtcYw~1{!KP>$$~O+=>$~%T9r@N>`L37q4ej~Xu}v@A<b*q0
z9pPJH&(b?is7?;TnJn|~dZ4JaoSi&&<kabt!rR9tkG^?WICJX6;Ys1p;e)3R9hOlI
z$!JZ>s7__H(=|&h3O@gCETcxy#V86~dW)6OiqOn(@78_4Ni4dHm*0p4(owj}$S0vz
z!JEc@{r*eC8VJU*;XeU<4Sr%4PIivnqq2KoYOVeiHrugVZ5-PmCabN$_FFwq{M`jB
z{KDpIXkO{M`6mTCmRQmdEI2UdB)*1Q+)eH)7naU2=NN12lRyW$lM7ZXKu>=Fea;0t
zEwZG!{iDF`K*2$a&f+by;G#v2z!Bx{a0NFldPtzX;H6ofboPB5xD!~ns2yVkAFZn)
z&fxEBF{`_X@%tk1zmyCke4`(xqTEFcAwRQ-p+AU8fZNv$ZeOcpL33WTQAa8U`SctM
zkqL+(6iZGhx!}Lv#)-D+2I?4ggJan4fQYN;xz0?n;D~ipb0A8t=hRol)(u?B4`02X
z=#w~z0J|Zs{H-YK{Ok0monkFGj6Kw0>;=Q4o`&c&2Wqy9Qdm?p2ma_DB&!k$$0RT{
zpb@;sdOH_}5M)$PV#!%afheXDi;7@^2v;FmlDw*UN^WNA^U}Pr<b`NT5tQU~3jEKr
znuBUf^oMByzy*Us#_oEYQ`quK>lgR(%Ne?WvApq*0H_nXc)ccM$pcPkI9i4i8XT#%
zv>h&Aj<j>y86|1gFPWb(U@9{DwM^k5XTl4b;yO;i(Z~EXn09|-Hm)r{WGDspf_afk
zfumJVY0fZ;Wml?bz`-uE8nr)!pn+(QS>o13H;m;5XJDx>xB}V9FVVLA@*04JeN^uU
zA@CbaCSvo!qMKd`j_e60<>1KZ-XKi-c}Wf?r-O9n2c6%MlUJgmBnB5Io^3oM&j-We
z%$$;f=?v;#7qC*~a4ZHMLNtJaSHiJ5X>j5DTSJRUNeMy#$`~Gak#NA&MJYI)jKz|$
zsux}fmM{6v;Pw^Y8LU`gYRTSZw1#PL(Oneia$gC{;QImZVj>c<$rCUERK98EaAIDo
zolK@Mv@FHp(Sal$mSyl4S;H7tm#+hA$g5j>SFqbv1n(l4M}RiD{2qcdf<*-HBlrOT
zjfKFs00DGGs{@Nw4}?HyZ(0gNh+a}CbzOX-Fy3aY1<Rd@^@fp#Y?eHTpFtnx?*O0&
zv2DwPSfA(M&zI-Gn+Si+^baf%sO*1Q&w)>|fq4DD^JA`=@J%bP|HThhLu<;fJ4Xw|
z0+lAl+n8_cSbncSn6AAAv&p@8!wd~s?<ff2j$Lbs2gz*vB-&3dPuAP@$kqM0rU$zD
z_A?u1bFHU9z*PClNgN|jdiP~4zhS$m(2RiNqLk1LMo$xJn_KW|1ujaZ#;puEne@Pp
zHEj`@U%<J-lLR3VJ4g@nB)kG)E^Evsjk%(^@r<K2t&0t({t!ZlDUu$@{1H$MvHDtm
z2zmK05&Rf{R#U_^C}5wTV1w<_Rl0t*<XmcYE~T(gX{?iOPX~o(_n8=-o~GgoZcNI;
zuI;P$0`yH7LBSmgrnZgL>{_nN`F5(lodsgAappbV;$L$g7{yOrPzSzTZ~ap@<TAEG
z4dELyZe2y;H)^#g4<X760cE&c=n*(Mfh|@l>$Zj2a6Q1tCmTNjw-dM~O*1742erj?
zulNg+>=3YOI!-`ZnX5T0uhF(L`Biecq)Izsj>!J4;9IrO8%j!W1D4!*DYwB1I2&<2
zXsQ;9Gx`*HWU4zPQ4=p(%Xp|Mk}Uh7fw3w<I@q&@-Y>^yW~#W?z*X2>hE&Ynx0J5y
zHkfZTD=N~Kd|$MSwna9D4>D+)2^KSDKX6*?pnIx1%Bru@Om|uLViq)4)fKJgCVLJh
z=(fuA9Ly??sCy_KAb}RMiSQ^2&bnQ9QONH=HN2hqWB8$ti7#<uP(K9*v_NM`F$^K&
z>n|A{gYf2I4rIG-*`md!IipH60iOOuM4|?+{C%W={s9?9yvD(ii6!N*01>21TP_V*
zKnzr<ng`{2F#s@qRn+yt4s6D+-nzDj9A(nxr`UuiPyQJIjd@*Tl9~g?IzKl(4N*86
zV*)n`DyqxLZGokrE^55ObW#R+BpR3Z(&HsvFKll$!P!;dJs=7a58=CV-hS2F|Ij<I
z_SUbxgIRVk>mAH{137P(>g~#UhqCMtz%N|hW#+^2pGvB$<uP1O9XA~-9ji5u`0mVs
zFT71F9ltn>k(fu`fh;?a^$z4Y_l=`VN0$#Q9nUb2Ip2*FODCW%le+Q#()%l^T>G%v
zKKy|BSNp%%KV$xj{dX3wJ8ox&0lU7wUw0s^cRZ{c%Q&E>sX60*%r@lM9+m9@DpY3y
z<Zm2bIu4;R{YIGM22>6PZYrx8R=MG_;)u$PloiKSZhW)W397A;zy+*3b2a19uTiEW
zlOewHDkbCkSf^u2a2s951;Z1fUx@w+a~PD=ch1i-ht5A41)BV~2owY<0OfZg6f)G*
z{WsbGtMc`AQZNlzUwu;BP_V);2>UvJ!HzkW@bv`;=A6XeTySBIBmS0^mu_ByCpHcJ
z1vgfCNK;@%yzMM_vBX2E;KN)ETzgjQ;M!A*r8*>AkGTfYH?Vf-&P>6Nr2uhyzG}tX
z6hrnihd^_4)`mi$+v<Pf;&1F*+PBiPYQ+oEn)FHRZY&#oMQxr?T@wW>pa8deNUmVV
z5=$EU3l7XV3Ex(5VU8nCZ}DXh-7;&3)YjpwcUX0d{N4=+x{|_)2?aD)>3JxaMW})_
z8<^-|{OK1~8V2^_E0Mvim!kSv4AR=t8^l554dP(<Jlt%-TSk{ge_}GIhpy>WSF5KT
z=Tgy_G8hl1E($cON4k4x+m(^QDs=HNBSgsI)v1h9N_HYZ%_-vrK}PMQ=}cAcuMguv
zv}R)%RMPZq3|zG(c{&V|2`xhXogI1{^-YG_q3WAPcAx&f?=|`F0R@$|f<mTXW*Fux
zmN1>4la}8S?!U>v=Van@0>$3nn{15fD}um7nElM>WNg#sV*0WTy_*DnVS|`ln<fV{
zkZpxqI{d<eJd>+{HJgnL<H-8^v!OqN$nqwE(k6S-#I$DH_GHJ8s%>v<5-e{1sYPHI
T|MIKZjuEwX^eciTy6*oEUB=ya

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/__pycache__/triton_mla.cpython-312.pyc b/v1/attention/backends/mla/__pycache__/triton_mla.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6073e6f17f1b53f29f5b4033e94a9ba18cd87409
GIT binary patch
literal 8208
zcmd@(TWlLwc6a!G49THH>iwWBDHau*vJyLXyh$3rl6Y+^*;ok**1_zEGn7aTIrN>O
zZ3z@&Y+ckw(Z)hiNX9N;1uYP@&PV#y{cOKlpg&|3fW*K7T<rd&U(8xY7X4|@xkFME
zBWH`E*naeaJaZoR-nsYOd(S!d%)bT#J_1E`{8?sdkdR*?(JZb8@^lxF4I&enQ%R0X
zavb6|)t0ou)2`Zcj-(^!OgeL}q>ITMsypXNdKm6hy*Xdf$8eYG&+$o~;chjM3nqgM
z_o$(qkQ5m1Rl~WiWEaDIYIiP@jO3!pXs##O!+18eH`kZ4aU|ED9B6O`b3@4?hWpjw
z+(>eiBQ~P&O6(D5%^^8vBX1L#zeD7J5_x2Aa1SwV5V#>Fs`T^&yCoZ6vBiaNuwtAu
zJ?B(O*FTi#T-<I3&lrZ1H!@oOvb3U5Gti>vR|<+5&FJFwq68II6<J)qA*Q6%k^-GX
zWF@7^iYPUki|Ly(@O|g7!g*{Als}Wt7^12zE-Dnr-W#f#6QRom$w)1UnfwijW}tHr
z1r`-Ulv4$9k!r;PFog5UjZ8{8Cl#cHjG8f4V6eiK%V*AMxtx|iE2Wl|yle(qoQt`F
zYKB|n6~&Nb$&hdmVydVcT29moddgCk1)UAzX&I0WqL3sflcenfqS&*Z_KFq`T(-aV
zOBQWOm*Q4DAnn>OK?+v^|B6rMUW2D>TjY{{R-bQ^*-@qhWQP(=+hpe*$0MMzBtwiV
z$S$l6GIyIStaQm9r5jpB(hk|%CW)^2;(k+@rx`=bgHD?267*uBpiu+XQZ`_TbkiXf
z4bAM|<2Tp1S;0jWqe%1n6o(_jZTHjxV1ul1aoe2fn}7e}{JV1^yzXxa#o<1MKlzXM
zW{g~6rjRKdH6#kFeDqfF<g2HaPbxENW?`nVVk~L-8Qd5%H)dyA+i7OOT48-Ar%E#h
zn}`T#qOf9maIfU0oU+>AIm1L#GzqWPae;4>C!s+)0GJtQ)yB=TZ$@~u*o=aJY!CyW
zRj$H`nTvCD7)UlL))fWwLQEcCmVvIsl&Y@|w|Z}An~kL@jza?-H`Q(O>(EfyGh_|P
zmul_rlntcqrBlQ6?EP_@X@}R*7*y4<Ni1fKX0Wk_x|q^(g`%OrS#6%3)g#{<+z-?~
zid{E#*Ubhx7w<7WB2&63nm$p?X>w6j0Ov(C5GpPQP)<XmsU_2$RyE0(eZ}-FG%(r?
zol=~V=}<GeVLI6cG((~&<@1^$p$XDOkw&o|D$3+_<fd{8>=4<s>jtGmtUc~rI*O=2
zg{I7^L3t)z&@`2f1KP1#6i+7uV}R&C2k<APcH;CueDwDp{o{pyp8Kb{^6{%>N96v}
zrm=P5vrC^|s*E11^vv!!uGU^Z_se(6j^WK)+m7vIW$ILA^wk~5`6teB-NreG?x%i3
z;PKQ>TwRP&cQvr#&56yAD+4nqA8yHqQO=r1$|o+=K^FO!39J&qD&cRT&xp0laL6h6
zw@Oa~drD!${^>rOC38u;;!vEjjoBHy;sU$ilAVfMcEJ-Zlp7DF>{)dK^a9Vqe2P~F
zi`1ZapaSr>WI@@J?zv0SoE*BtCw*Qb_cKbk<4yYIu)=5YV09F^>pA@H=kOy+P>w!F
zW{sog2c^9~C=Dv1gXITvt(m87%-#xe-yKI%xJzzv$uO9L0cHp0&Hj{>7cIjms=6Yk
zH7Z&T(e&nvIdMsmWZm@QL)5`_nod0>sfx*?5G<@E=OwU!8Btd?u*7p_P**c@Cch}&
z%;aV5rWxFCip>!C(Tt&sx|TNZY@1%NmU$6RgE<6s^(FA8(A+Y!qKf{Uomh(7CgpEi
zCOj%gKmB(Af5m~pYs40W+zXV*pMza5aV1;HUUHP2C0EH^@|3(KU)q-;CI8=We*sYw
z<9inEYrN6)qol+)V-)H)V3%1%=9=7}aV4+O@~j7W)8&(JNZZ@m_SzbOW{)M3MLXS5
znl<;ew>P;z<5o!AF}J$VvV`aaVzQ>_F|a?ehCPgFc_pT$W5$vaOKYmC!D1|)j<v7U
zk=Xu)Iuh$xnAM+N$YXFsW4fZIkG6bTOv=kK#S+a}+l9tbRMYkLI#glfLC2xwAT(2C
z7zmB+8}{n478(0+Hg+>(EXCe>?^Nv4hcOnQu^v{G)~pmc?twj61iOi5oJD1#X_xXV
zX7`+Cpe7pcx<IK$DXysLK7ZldyXP;wPce3;rvb!+rUR!$k0a*<f>#j0q7ixu!K(<c
zD*X`xG)44v0Hz0gw+Q}UHzUP-L)Q?6q!kIG3y4F!A~;d7<)WzL(#G1$ZRX(Uo4{Y~
zX-ymlooLPl$D)4@;J3HQ?g;S)@3||Uz8W88zi^EQ9DW1rH^`V%-$r?_uiisKy}#*2
zY>12<-Om3~E04~Be}3!_mP6xT`6nKCO@dVqzsWtd+q;8xVh;rCKEg+T5vcYZt@IuJ
z(tngyv4>+%?M|%W3<P(Bgdf|ARL722#*TmGKLIsr!r7;G8_I3agPriNFe9I8-b`Td
z1aWpQ6M%G_OLzOZOtX_IbHA{aTzDSAHreJNH0Wv=CA1Ma=@uF%GteZM4T{_7A3*13
zOiY8mmoR|Oix7vaN?w#R=`^!Vawez8J@h<Q<gT0CvdP_`7lEQbMwV;&CN3p?8weKE
zG*+vzP?vzcn&?=l-|@CIc7^*07tlq7=)Iej(8(Gfuzq#7TkzFAB=%Bm;PAJ8BzO{v
zej7lHxV=6roN`?k^I%L($8`~4HyTg~FW}+=q;+*M18l+&GO+7`>05>>d5z{2*>qqv
zv;TlrB2!(eWx8OTXpC5db{Y)b1}WLIEfWfoMtRhD%G@&OQn&q>fC+SDJ0m@)b=#7W
zESTQTl5LsNJ&D{hj9~7(O}^Y_?hby>ng@(0Zn2J1Y8mM@uEb?qrgpEI>^Ru$0$13p
z)x?@tPuAN37bBTN2fOBl){$nLy{GI%eck71&ggA&vwcl$?}<)o(Iz`ScRgz8bj@dA
zY|ctk`&kU$J4(qXJNLEPd(TKmRUpy%9dx~uoj8kwH2_+S9nce(J@kF<=k7-hC%Wc0
zCYti>3r%eAN$(hVm0%@1-Ng2uC12CwT?37*@oNDC!+BP+XjM8&$zS420dVwSUb4qJ
zgg_p=i?T2Mw`-!S=qS(W6J1G1kv*S#A2lxBY(BxYP$^gnrEOP9+q}^AbQGAE4`%iI
zo0BJd@c4a?8dl?b<NsYd?!X}D_qx~q?tgIl{vYkm=j>w)e>zHY4|61MwC!6Ak2(tM
zTd-+abkQB9Y0ducceNGzXAhX?=l(|x-vSo|l0DNg1t3fQrhSqjodsbFKS$AYoAz|!
z)G7;Nt-v7$d8F@$vETeBlyA_}LSoMjVG4vZFJg0-%+iJPkgCBr1;SmIRx}_DVmhxE
z6$(kC=530FtR}ypYN=(oD=nxHeex*{0_|Ins#Nm28N$e^jbrubryoJb^gRSWK_DVv
z@$XL&lMpN*m`Csd05e#G%VDZ0OOV!-3QO@Z(+M{~MaAK=8v^Rk^g*J78ahVt^ekgQ
zz)~!T1*&CD$Bm3~lLg!+4^vPzDv4CeFGD!LBtf_m#H8s>jjGm7lODzn>?z5hxDuvM
zQdMzLg6j-5ol34?tT27iYbbOm`5U?!{_yhUE8+)NFNhcC=1*b%&a^|S)by~#FI-nm
zcji_av!~`TOW+oyMF`zn*BVUA!Ii=|Wog#mrdiXYE7vWhcA-)mN#h37?0a5!6tf=Y
z$n(Tv8uTigK3t>BVo@vVkdnI5R9ReLfot1Jy$`+7s|Z?4LqEhf_!|SlaM0w=(#y!?
zG!x=ToRI0hZbg2kheeIBqfCD@nugF?$H1rkrh>SYjSFE;0HS0_w6c|MOAlHXm;GW2
z9q9tZlebAdLWJ>ZXsQyL+6hf>|K!V1qU=eOLy1~ws2UotgvQIEnX+dF;1hqS>L022
zN2>mK#UJ0E{K|g}ZW`qm-r4E8SmrN2=^3x~OjmlQ@A_-u=*H;!=vL28c<QdJ7Vg~`
zTp!$ge=G9Y$fqM;M5?oAE3;>J!sqU~p733tT)uaCGkoveyIkuHTj3r5p~pgW!@KU?
zd}ZtSW@3BcD`EETna9HLUxuo}bVZonp8aC1EKKhR$B`Y~@UQzf&(!+*AG#m7x3~ws
zTHjE$FJ9@3*G48Dst?rK=;Xt-2Wz`tM>ui!%&w0Jk!oo2%h2TGLzAB!`Si&4^}n83
z58Zcdx*t!?RHv>~rmob4a82l`3B5I8ye7nJLS)0Y?yCvIRbiqcOjLzq72#MLd9)%N
zZ6i-sgp;-L!@E&`+*c7M?|U|1tREqfq0K)kcTbi1soic8KUST3r!w_UZE&bIFjyNt
zRvQ?3IQ?L{HkPQ4ov4hRsE(bfjGbvC->8heQJa{lPMobwoUI*xaX0LV!+WjXyV`pH
zH6Q-u(!EQY94O*p@ImnT`UoWMa=Sd?g{pt-OaIt`dLJ1>9d6J5T!V#r>;Bu1`R*z|
zTj6K_H*~b8(3dO1%g>_zfNyt*1R_=br3(L2t+%h%J6wzQZ;0#SPV|LZ|B+hHz(#gG
zTN|FP4$oGGXRE`nSB772BTrX`PuF5ER%35eVsF$2C!uw1bh<kFDkM{%_405f9)R`#
z<l}oEZ(iRCjcpw-hYpuLhuOU@ZhLDk-bFDmrjrOTFs3gfm_={|fN6&lYdTrFnPOl}
zG1{eXBDjQr8AjJU7<fo<gn$Fd>LTPl=pQ2<XyhMK3fM~#yvW<Y)zQ(sX=NYS2LJ>Z
z`szOd$!{Tl{K7Qmg^eA@bloxI3_j`ZsXO5b8Qw^5-Hn(B?y_|+Vm{J4Q1>IolitD2
z6YI-c=PNx^^#HPhq<?5re&DNzkP?8ZhY{-{1EX7!2SfF4q$1dD6tNz1czXN%r`dWh
zQbWWSd^U`j%#k;_^V~DL&*`i8UE`cnPv9i->wMjb1Pm+``9!^^*4>Qskdg6+*B)G}
zdl~5?eet@Vp*)EWY+PQyymh=1Ib07gUa--4bG{NBtA`j*AQSP=Ui<X5FD5GEuhheg
z*F}7xyTwmR_ez@|VDH=KE5paip<@;A?04N*!%A<XHscef3o@9HWMdx(tW}Dk;ZL+2
zOrrTMC?PGtR{$wxPzN++St^#CGN(HlfUimz);FVug>Q96@iJ|OSp)DN>C9q+rOd2v
z4t~bBK3Gz`RyVqa&mD>?Dz}srd@iF2mRr?fT>Cy_QoN~{qpS-VzH!jZ0(^#%69tKa
z7l!uuK|`_pGIM>2f+`u{2y%J?Hm^d{QcAHtV@$G6Zp<E}1pEpHpLpOaD8*|!4I*G0
zdI<b9rZOmWmsTjG8kI!4m`|~9E2g)_G`%e@)p5*T_BxCPsD`uyX^P&BUPpi@&vZ4^
z(uEv$9PsjMEhYON=6TKfD)a{31Oc8M9ec0aIgWegA>7cf2>+eK!P&kg0G{~>cbWT|
zOnptppV@4{a1rkG*W|=^wq}*@pvp{{B)%qnQ0d>ik^6tR;~lx}+I0oFNV)g$E`jIn
Xp=&m7>i(7Tp_eO><If0EY*7CNV1bM~

literal 0
HcmV?d00001

diff --git a/v1/attention/backends/mla/common.py b/v1/attention/backends/mla/common.py
new file mode 100644
index 0000000..de89e42
--- /dev/null
+++ b/v1/attention/backends/mla/common.py
@@ -0,0 +1,2200 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+# MLA Common Components
+
+This file implements common components for MLA implementations.
+
+First we define:
+
+Sq      as Q sequence length
+Skv     as KV sequence length
+
+MLA has two possible ways of computing, a data-movement friendly approach and a
+compute friendly approach, we generally want to use the compute friendly
+approach for "prefill" (i.e. the ratio Sq / Skv is "small", is near 1)
+and the data-movement friendly approach for "decode" (i.e. the ratio
+Sq / Skv is "large").
+
+NOTE what we deem small and large is currently determined by if its labelled
+prefill or decode by the scheduler, but this is something we should probably
+tune.
+
+Main reference: DeepseekV2 paper, and FlashInfer Implementation
+(https://arxiv.org/abs/2405.04434 and https://github.com/flashinfer-ai/flashinfer/pull/551).
+
+Deepseek's MLA attention works the following way:
+* Use a single latent vector to represent the per-token entry of the KV cache.
+* For decode (i.e. the memory friendly approach) the attention "simulates" a
+multi-head attention, while the compute is similar to multi-query attention.
+
+Below is example of both paths assuming batchsize = 1
+
+## More Extent Definitions:
+
+C           Context length, `Skv - Sq`
+H           hidden size
+N           number of attention heads
+Lq          latent dimension for Q              1536 in DSV3
+Lkv         latent dimension for K/V            512 in DSV3
+P           nope dimension, no rope.            128 in DSV3
+R           rope dimension, goes through rope.  64 in DSV3
+V           V head dim.                         128 in DSV3
+
+## Vector/Matrix Definitions
+
+h_t         hidden states (input to attention)  shape [Sq, H]
+q_c         latent/compressed Q                 shape [Sq, Lq]
+q_nope      uncompressed Q (no-rope)            shape [Sq, N, P]
+q_pe        uncompressed Q (rope)               shape [Sq, N, R]
+kv_c        latent/compressed KV                shape [Skv, Lkv]
+k_pe        decoupled k position embeddings     shape [Skv, R]
+new_kv_c    new kv_c from current iter          shape [Sq, Lkv]
+new_k_pe    new k_pe from current iter          shape [Sq, R]
+cache_kv_c  cached k_c from previous iters      shape [C, Lkv]
+cache_k_pe  cached k_pe from previous iters     shape [C, R]
+W_DQ        project h_t to q_c                  shape [H, Lq]
+W_UQ        project q_c to q_nope               shape [Lq, N * P]
+W_QR        project q_c to q_pe                 shape [Lq, N * R]
+W_DKV       project h_t to kv_c                 shape [H, Lkv]
+W_UK        project kv_c to k_nope              shape [Lkv, N, P]
+W_KR        project h_t to k_pe                 shape [H, R]
+W_UV        project kv_c to v                   shape [Lkv, N, V]
+W_O         project v to h_t                    shape [N * V, H]
+
+
+## Compute Friendly Approach (i.e. "_forward_prefill"):
+
+q_c      = h_t @ W_DQ
+q_nope   = (q_c @ W_UQ).view(Sq, N, P)
+q_pe     = RoPE(q_c @ W_QR).view(Sq, N, R)
+new_kv_c = h_t @ W_DKV
+new_k_pe = RoPE(h_t @ W_KR)
+kv_c     = torch.cat([new_kv_c, cache_kv_c], dim=0)
+k_pe     = torch.cat([new_k_pe, cache_k_pe], dim=0)
+k_nope   = (kv_c @ W_UK.view(Lkv, N * P)).view(Skv, N, P)
+v        = (kv_c @ W_UV.view(Lkv, N * V)).view(Skv, N, V)
+
+// MHA with QK headdim = P + R
+//           V headdim = V
+//      spda_o shape [Sq, N, V]
+spda_o = scaled_dot_product_attention(
+    torch.cat([q_nope, q_pe], dim=-1),
+    torch.cat([k_nope, k_pe.unsqueeze(1).expand(-1, N, -1)], dim=-1),
+    v
+)
+return spda_o @ W_O
+
+NOTE: in the actual code,
+    `kv_b_proj` is [W_UK; W_UV] concatenated per head
+    `q_b_proj` is [W_UQ; W_QR] concatenated per head
+    `out_proj` is W_O
+
+
+## Data-Movement Friendly Approach (i.e. "_forward_decode"):
+
+Runtime
+q_c      = h_t @ W_DQ
+q_nope   = (q_c @ W_UQ).view(-1, N, P)
+ql_nope  = einsum("snh,lnh->snl", q, W_UK)
+q_pe     = RoPE(q_c @ W_QR).view(Sq, N, R)
+new_kv_c = h_t @ W_DKV
+new_k_pe = RoPE(h_t @ W_KR)
+kv_c     = torch.cat([new_kv_c, cache_kv_c], dim=0)
+k_pe     = torch.cat([new_k_pe, cache_k_pe], dim=0)
+
+// MQA with QK headdim = Lkv + R
+//           V headdim = Lkv
+//      spda_o shape [Sq, N, Lkv]
+// NOTE: this is less compute-friendly since Lkv > P
+//       but is more data-movement friendly since its MQA vs MHA
+spda_o = scaled_dot_product_attention(
+    torch.cat([ql_nope, q_pe], dim=-1),
+    torch.cat([kv_c, k_pe], dim=-1),
+    kv_c
+)
+
+o = einsum("snl,lnv->snv", spda_o.reshape(-1, N, Lkv), W_UV)
+return o.view(-1, N * V) @ self.num_heads @ W_O
+
+
+## Chunked Prefill
+
+For chunked prefill we want to use the compute friendly algorithm. We are
+assuming sufficiently large Sq / Skv ratio, in the future may want to switch to
+the data-movement friendly approach if the chunk (i.e. `Sq`) is small.
+
+However, the compute-friendly approach can potentially run out of memory if Skv
+is large due to: `k_nope = (kv_c @ W_UK).view(Skv, N, P)`
+
+To mitigate this, we chunk the computation of attention with respect to the
+current context (i.e. `cache_kv_c` and `cache_k_pe`) so that we can used a
+fixed workspace size.
+
+The chunked prefill approach is as follows:
+
+MCC        Max chunk of context to process per iter, computed dynamically,
+           used to bound the memory usage
+
+q_c        = h_t @ W_DQ
+q_nope     = (q_c @ W_UQ).view(Sq, N, P)
+q_pe       = RoPE(q_c @ W_QR).view(Sq, N, R)
+new_kv_c   = h_t @ W_DKV
+new_k_pe   = RoPE(h_t @ W_KR)
+new_k_nope = (new_kv_c @ W_UK.view(Lkv, N * P)).view(Sq, N, P)
+new_v      = (new_kv_c @ W_UV.view(Lkv, N * V)).view(Sq, N, V)
+
+// MHA between queries and new KV
+//     with QK headdim = P + R
+//           V headdim = V
+//    curr_o   shape [Sq, N, V]
+//    curr_lse shape [N, Sq], this is just order FA returns
+curr_o, curr_lse = scaled_dot_product_attention(
+    torch.cat([q_nope, q_pe], dim=-1),
+    torch.cat([new_k_nope, new_k_pe.unsqueeze(1).expand(-1, N, -1)], dim=-1),
+    new_v,
+    casual=True,
+    return_softmax_lse=True
+)
+
+// Compute attention with the already existing context
+for chunk_idx in range(cdiv(C, MCC)):
+    chunk_start  = chunk_idx * MCC
+    chunk_end    = min(chunk_start + MCC, C)
+    Sc           = chunk_end - chunk_start
+    cache_kv_c_chunk   = cache_kv_c[chunk_start:chunk_end]
+    cache_k_pe_chunk   = cache_k_pe[chunk_start:chunk_end]
+    cache_k_nope_chunk = (cache_kv_c_chunk @ W_UK).view(-1, N, P)
+    cache_v_chunk      = (cache_kv_c_chunk @ W_UV).view(-1, N, V)
+
+    chunk_o, chunk_lse = scaled_dot_product_attention(
+        torch.cat([q_nope, q_pe], dim=-1),
+        torch.cat([cache_k_nope_chunk,
+                   cache_k_pe_chunk.unsqueeze(1).expand(-1, N, -1)],
+                   dim=-1),
+        cache_v_chunk,
+        casual=False,
+        return_softmax_lse=True
+    )
+
+    curr_o, curr_lse = merge_attn_states(
+        suffix_output=curr_o,
+        suffix_lse=curr_lse,
+        prefix_output=chunk_o,
+        prefix_lse=chunk_lse,
+    )
+
+return curr_o @ W_O
+"""
+
+import functools
+from abc import abstractmethod
+from dataclasses import dataclass, field
+from enum import Enum
+from typing import ClassVar, Generic, TypeVar, Any
+
+import torch
+from tqdm import tqdm
+
+from vllm import _custom_ops as ops
+from vllm import envs
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionLayer,
+    MLAAttentionImpl,
+)
+from vllm.attention.backends.utils import get_mla_dims
+from vllm.attention.ops.common import cp_lse_ag_out_rs
+from vllm.attention.ops.merge_attn_states import merge_attn_states
+from vllm.attention.utils.fa_utils import get_flash_attn_version
+from vllm.config import VllmConfig, get_current_vllm_config
+from vllm.distributed.parallel_state import get_dcp_group, is_global_first_rank
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    LinearBase,
+    UnquantizedLinearMethod,
+)
+from vllm.platforms import current_platform
+from vllm.utils.flashinfer import has_nvidia_artifactory
+from vllm.utils.math_utils import cdiv, round_down
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    get_dcp_local_seq_lens,
+    get_per_layer_parameters,
+    infer_global_hyperparameters,
+    split_decodes_and_prefills,
+    AttentionCGSupport,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+
+class QueryLenSupport(Enum):
+    """Defines the level of query length support for an attention backend's
+    decode pipeline.
+
+    - SINGLE_ONLY: Decode pipeline only supports single-token queries
+                   (query_len=1)
+    - UNIFORM: Decode pipeline supports uniform multi-token queries
+               (all requests must have same query_len > 1)
+    - VARLEN: Decode pipeline supports variable-length queries
+              (mixed query lengths in same batch)
+    """
+
+    SINGLE_ONLY = "single_only"
+    UNIFORM = "uniform"
+    VARLEN = "varlen"
+
+
+try:
+    from ixformer.contrib.vllm_flash_attn import flash_attn_varlen_func,merge_attn_states
+    is_vllm_fa = True
+except ImportError:
+    # For rocm use upstream flash attention
+    if current_platform.is_rocm():
+        from flash_attn import flash_attn_varlen_func
+    is_vllm_fa = False
+
+try:
+    from flashinfer import BatchPrefillWithRaggedKVCacheWrapper
+    from flashinfer.prefill import cudnn_batch_prefill_with_kv_cache  # noqa: F401
+
+    flashinfer_available = True
+except ImportError:
+    BatchPrefillWithRaggedKVCacheWrapper = object
+
+    flashinfer_available = False
+
+
+def dynamic_per_batched_tensor_quant(
+    x: torch.Tensor, dtype: torch.dtype = torch.float8_e4m3fn
+):
+    DTYPE_MAX = torch.finfo(dtype).max
+    min_val, max_val = x.aminmax()
+    amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-10)
+    scale = DTYPE_MAX / amax
+    x_scl_sat = (x * scale).clamp(min=-DTYPE_MAX, max=DTYPE_MAX)
+    return x_scl_sat.to(dtype).contiguous(), scale.float().reciprocal()
+
+
+logger = init_logger(__name__)
+
+CUDNN_WORKSPACE_SIZE = 12800
+
+from vllm import envs
+from vllm.model_executor.layers.quantization.utils.quant_utils import scaled_dequantize
+import ixformer.inference.functions as ixf_ops
+import numpy as np
+
+class MLACommonBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+
+    @staticmethod
+    def get_name() -> str:
+        return "TRITON_MLA"
+
+    @staticmethod
+    def get_builder_cls() -> type["MLACommonMetadataBuilder"]:
+        return MLACommonMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,  # assumed to be 1 for MLA
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        return (num_blocks, block_size, head_size)
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [576]
+
+    @classmethod
+    def is_mla(cls) -> bool:
+        return True
+
+
+@dataclass
+class MLACommonPrefillMetadata:
+    """Prefill Specific Metadata"""
+
+    @dataclass
+    class ChunkedContextMetadata:
+        # New for MLA (compared to FlashAttention)
+        # For handling chunked prefill
+        cu_seq_lens: torch.Tensor
+        starts: torch.Tensor
+        seq_tot: list[int]
+        max_seq_lens: list[int]
+        seq_lens: torch.Tensor
+        workspace: torch.Tensor
+
+        # for mla DCP
+        padded_local_chunk_seq_lens: list[list[int]] | None = None
+        local_context_lens_allranks: list[list[int]] | None = None
+        padded_local_cu_seq_lens: torch.Tensor | None = None
+        cu_seq_lens_lst: list[list[int]] | None = None
+        chunk_size: int | None = None
+
+    block_table: torch.Tensor
+    query_start_loc: torch.Tensor
+    max_query_len: int
+    chunked_context: ChunkedContextMetadata | None = None
+    query_seq_lens: torch.Tensor | None = None
+
+
+@dataclass
+class FlashInferPrefillMetadata(MLACommonPrefillMetadata):
+    prefill_main: BatchPrefillWithRaggedKVCacheWrapper | None = None
+    prefill_chunks: list[BatchPrefillWithRaggedKVCacheWrapper] = field(
+        default_factory=list
+    )
+
+
+@dataclass
+class CudnnPrefillMetadata(MLACommonPrefillMetadata):
+    class ChunkedContextMetadata(MLACommonPrefillMetadata.ChunkedContextMetadata):
+        seq_lens: torch.Tensor
+
+    cudnn_workspace: torch.Tensor | None = None
+
+
+@dataclass
+class MLACommonDecodeMetadata:
+    block_table: torch.Tensor
+    seq_lens: torch.Tensor
+    dcp_tot_seq_lens: torch.Tensor | None
+    max_decode_seq_len: int
+    use_cuda_graph: bool
+
+
+D = TypeVar("D", bound=MLACommonDecodeMetadata)
+
+
+@dataclass
+class MLACommonMetadata(Generic[D]):
+    """Metadata for MLACommon.
+
+    NOTE: Please read the comment at the top of the file before trying to
+    understand this class
+    """
+
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    num_reqs: int
+    max_query_len: int
+    max_seq_len: int
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    query_start_loc: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    # New for MLA (compared to FlashAttention)
+    # For handling prefill decode split
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+
+    # The dimension of the attention heads
+    head_dim: int | None = None
+
+    decode: D | None = None
+    prefill: (
+        MLACommonPrefillMetadata
+        | FlashInferPrefillMetadata
+        | CudnnPrefillMetadata
+        | None
+    ) = None
+
+    def __post_init__(self):
+        if self.head_dim is not None and not MLACommonBackend.supports_head_size(
+            self.head_dim
+        ):
+            raise ValueError(f"Head dimension {self.head_dim} is not supported by MLA.")
+
+
+M = TypeVar("M", bound=MLACommonMetadata)
+A = TypeVar("A")
+
+
+def use_flashinfer_prefill() -> bool:
+    # For blackwell default to flashinfer prefill if it's available since
+    # it is faster than FA2.
+    return (
+        not envs.VLLM_DISABLE_FLASHINFER_PREFILL
+        and flashinfer_available
+        and not envs.VLLM_USE_CUDNN_PREFILL
+        and not envs.VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL
+        and current_platform.is_device_capability(100)
+    )
+
+
+def use_cudnn_prefill() -> bool:
+    return (
+        flashinfer_available
+        and envs.VLLM_USE_CUDNN_PREFILL
+        and current_platform.is_device_capability(100)
+        and has_nvidia_artifactory()
+    )
+
+
+def use_trtllm_ragged_deepseek_prefill() -> bool:
+    """Check if TRT-LLM ragged DeepSeek prefill should be used."""
+    return (
+        flashinfer_available
+        and envs.VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL
+        and current_platform.is_device_capability(100)
+    )
+
+
+class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
+    """
+    NOTE: Please read the comment at the top of the file before trying to
+    understand this class
+    """
+
+    # Defines the level of query length support for this backend.
+    # - SINGLE_ONLY: Only single-token queries (no spec decode support)
+    # - UNIFORM: Supports uniform multi-token queries (spec decode with uniform lengths)
+    # - VARLEN: Supports variable-length queries (spec decode with mixed lengths)
+    # If set to UNIFORM or VARLEN, this will increase `reorder_batch_threshold` when
+    # speculative decoding is enabled.
+    query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.SINGLE_ONLY
+
+    # The threshold for reordering the batch into decode and prefill requests.
+    # If > 1, the batch will be reordered such that requests with
+    # query length <= threshold are classified as decode requests.
+    # Use `query_len_support` (above) to set this automatically
+    # when speculative decoding is enabled.
+    reorder_batch_threshold: int = 1
+    _cudagraph_support: ClassVar[AttentionCGSupport] = \
+        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+
+    @staticmethod
+    def determine_chunked_prefill_workspace_size(vllm_config: VllmConfig) -> int:
+        scheduler_config = vllm_config.scheduler_config
+        cache_config = vllm_config.cache_config
+        model_config = vllm_config.model_config
+
+        chunked_prefill_workspace_size = min(
+            # Try for 8 full length request or at least 4 pages per-request
+            max(
+                8 * model_config.max_model_len,
+                4 * scheduler_config.max_num_seqs * cache_config.block_size,
+            ),
+            # For long-context models try not to over-allocate limiting
+            # kv-cache space, limiting it to 64k tokens,
+            # which would result in the workspace being:
+            #   2*(576)*(64*1024) = 144mb
+            # (assuming 576 MLA head dim, and fp16)
+            # which would result in up-projected context being
+            #   2*(192*128)*(64*1024) = 3gb
+            # (assuming 192 QK head dim, 128 heads, and fp16)
+            64 * 1024,
+        )
+
+        # Enforce that we enough for at least 1 page per request
+        chunked_prefill_workspace_size = max(
+            chunked_prefill_workspace_size,
+            scheduler_config.max_num_seqs * cache_config.block_size,
+        )
+
+        return chunked_prefill_workspace_size
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+        metadata_cls: type[M] | None = None,
+        supports_dcp_with_varlen: bool = False,
+    ):
+        self.metadata_cls = (
+            metadata_cls if metadata_cls is not None else MLACommonMetadata
+        )
+        self.kv_cache_spec = kv_cache_spec
+        scheduler_config = vllm_config.scheduler_config
+        self.model_config = vllm_config.model_config
+        parallel_config = vllm_config.parallel_config
+        self.compilation_config = vllm_config.compilation_config
+        self.vllm_config = vllm_config
+        self.device = device
+
+        self.num_heads = self.model_config.get_num_attention_heads(parallel_config)
+        self.mla_dims = get_mla_dims(self.model_config)
+        self.aot_schedule = current_platform.is_cuda()
+        try:
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+        self.dcp_local_block_size = parallel_config.dcp_kv_cache_interleave_size
+        self.dcp_virtual_block_size = self.dcp_local_block_size * self.dcp_world_size
+
+        # Don't try to access the runner on AMD
+        if self.aot_schedule:
+            self.page_size = self.kv_cache_spec.block_size
+
+        self.chunked_prefill_workspace_size = (
+            self.determine_chunked_prefill_workspace_size(vllm_config)
+        )
+
+        if self.dcp_world_size > 1:
+            # Note(hc): The local kvcache is incomplete when DCP is triggered,
+            # an additional kvcache allgather across the DCP group is therefore
+            # required, so the workspace has to be enlarged by 1/DCP relative
+            # to the original TP allocation.
+            assert self.chunked_prefill_workspace_size % self.dcp_world_size == 0
+            self.chunked_prefill_workspace = torch.empty(
+                (
+                    self.chunked_prefill_workspace_size
+                    + self.chunked_prefill_workspace_size // self.dcp_world_size,
+                    self.model_config.get_head_size(),
+                ),
+                dtype=self.model_config.dtype,
+                device=device,
+            )
+        else:
+            self.chunked_prefill_workspace = torch.empty(
+                (
+                    self.chunked_prefill_workspace_size,
+                    self.model_config.get_head_size(),
+                ),
+                dtype=self.model_config.dtype,
+                device=device,
+            )
+
+        self._use_cudnn_prefill = use_cudnn_prefill()
+        self._use_fi_prefill = use_flashinfer_prefill()
+        self._use_trtllm_ragged_prefill = use_trtllm_ragged_deepseek_prefill()
+        self.prefill_metadata_cls = (
+            FlashInferPrefillMetadata
+            if self._use_fi_prefill
+            else CudnnPrefillMetadata
+            if self._use_cudnn_prefill
+            else MLACommonPrefillMetadata
+        )
+
+        if self._use_fi_prefill:
+            self._workspace_buffer = torch.empty(
+                envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE,
+                dtype=torch.uint8,
+                device=device,
+            )
+
+            self._fi_prefill_main: BatchPrefillWithRaggedKVCacheWrapper | None = None
+            self._fi_prefill_chunks: list[BatchPrefillWithRaggedKVCacheWrapper] = []
+
+            self._global_hyperparameters = infer_global_hyperparameters(
+                get_per_layer_parameters(vllm_config, layer_names, MLACommonImpl)
+            )
+
+        if self._use_trtllm_ragged_prefill:
+            self._workspace_buffer = torch.empty(
+                envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE,
+                dtype=torch.uint8,
+                device=device,
+            )
+
+        if self._use_cudnn_prefill:
+            self.cudnn_workspace = torch.empty(
+                CUDNN_WORKSPACE_SIZE * scheduler_config.max_num_seqs,
+                dtype=torch.int8,
+                device=device,
+            )
+
+        supports_spec_decode = self.query_len_support != QueryLenSupport.SINGLE_ONLY
+        self._init_reorder_batch_threshold(
+            self.reorder_batch_threshold, supports_spec_decode, supports_dcp_with_varlen
+        )
+
+        # Validate consistency between query_len_support and reorder_batch_threshold
+        if self.query_len_support == QueryLenSupport.SINGLE_ONLY:
+            assert self.reorder_batch_threshold == 1, (
+                f"reorder_batch_threshold must be 1 when query_len_support is "
+                f"SINGLE_ONLY, got {self.reorder_batch_threshold}"
+            )
+
+    def _build_fi_prefill_wrappers(self, prefill: FlashInferPrefillMetadata):
+        qo_indptr = prefill.query_start_loc
+
+        has_context = False
+        if prefill.chunked_context is not None:
+            chunked_context = prefill.chunked_context
+            has_context = True
+
+        if self._fi_prefill_main is None:
+            self._fi_prefill_main = BatchPrefillWithRaggedKVCacheWrapper(
+                self._workspace_buffer, "NHD", backend="cutlass"
+            )
+
+        if has_context:
+            num_chunks = chunked_context.cu_seq_lens.shape[0]
+            # Allocate more prefill chunk wrappers if needed
+            if len(self._fi_prefill_chunks) < num_chunks:
+                for _ in range(len(self._fi_prefill_chunks), num_chunks):
+                    self._fi_prefill_chunks.append(
+                        BatchPrefillWithRaggedKVCacheWrapper(
+                            self._workspace_buffer, "NHD", backend="cutlass"
+                        )
+                    )
+            assert num_chunks <= len(self._fi_prefill_chunks)
+
+        # In MLA, the non-latent num_qo_heads == num_kv_heads
+        num_qo_heads = self.num_heads
+        num_kv_heads = num_qo_heads
+
+        # Sanity: Verify that num_kv_heads == 1 since it is latent space
+        assert self.kv_cache_spec.num_kv_heads == 1
+
+        # Get non-latent head_dim_qk and head_dim_vo
+        head_dim_qk = self.mla_dims.qk_nope_head_dim + self.mla_dims.qk_rope_head_dim
+        head_dim_vo = self.mla_dims.v_head_dim
+
+        # For main run, qo_indptr == kv_indptr
+        kv_indptr = qo_indptr.clone()
+
+        # Prepare main prefill
+        self._fi_prefill_main.plan(
+            qo_indptr=qo_indptr,
+            kv_indptr=kv_indptr,
+            num_qo_heads=num_qo_heads,
+            num_kv_heads=num_kv_heads,
+            head_dim_qk=head_dim_qk,
+            head_dim_vo=head_dim_vo,
+            causal=True,  # This is main run
+            sm_scale=self._global_hyperparameters.sm_scale,
+            window_left=self._global_hyperparameters.window_left,
+            logits_soft_cap=self._global_hyperparameters.logits_soft_cap,
+            q_data_type=self.model_config.dtype,
+        )
+
+        # Prepare context prefills
+        if has_context:
+            for i in range(num_chunks):
+                kv_indptr_chunk = chunked_context.cu_seq_lens[i]
+
+                self._fi_prefill_chunks[i].plan(
+                    qo_indptr=qo_indptr,
+                    kv_indptr=kv_indptr_chunk,
+                    num_qo_heads=num_qo_heads,
+                    num_kv_heads=num_kv_heads,
+                    head_dim_qk=head_dim_qk,
+                    head_dim_vo=head_dim_vo,
+                    causal=False,  # This is context run
+                    sm_scale=self._global_hyperparameters.sm_scale,
+                    window_left=self._global_hyperparameters.window_left,
+                    logits_soft_cap=self._global_hyperparameters.logits_soft_cap,
+                    q_data_type=self.model_config.dtype,
+                )
+
+        prefill.prefill_main = self._fi_prefill_main
+        prefill.prefill_chunks = self._fi_prefill_chunks
+
+    def _build_decode(
+        self,
+        block_table_tensor: torch.Tensor,
+        seq_lens_cpu: torch.Tensor,
+        seq_lens_device: torch.Tensor,
+        query_start_loc_cpu: torch.Tensor,
+        query_start_loc_device: torch.Tensor,
+        num_decode_tokens: int,
+        dcp_tot_seq_lens_device: torch.Tensor | None,
+        max_decode_seq_len: int, 
+        use_cuda_graph: bool
+    ) -> MLACommonDecodeMetadata:
+        return MLACommonDecodeMetadata(
+            block_table=block_table_tensor,
+            seq_lens=seq_lens_device,
+            dcp_tot_seq_lens=dcp_tot_seq_lens_device,
+            max_decode_seq_len=max_decode_seq_len,
+            use_cuda_graph=use_cuda_graph,
+
+        )
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ) -> M:
+        """
+        This method builds the metadata for full cudagraph capture.
+        Currently, only decode is supported for full cudagraphs with MLA.
+        """
+        m = common_attn_metadata
+        assert m.num_reqs <= (m.num_actual_tokens * self.reorder_batch_threshold), (
+            "MLA only supports decode-only full CUDAGraph capture. "
+            "Make sure all cudagraph capture sizes <= max_num_seq."
+        )
+
+        assert m.max_query_len <= self.reorder_batch_threshold  # decode only
+
+        return self.build(0, m)
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> M:
+        num_reqs = common_attn_metadata.num_reqs
+        num_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+        max_seq_len = common_attn_metadata.max_seq_len
+
+        # Note(simon): be careful about the CPU <> GPU memory movement in this
+        # function. We should avoid GPU -> CPU sync as much as possible because
+        # it blocks on all previous kernels.
+        device = self.device
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+
+        query_start_loc = common_attn_metadata.query_start_loc
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+        seq_lens = common_attn_metadata.seq_lens
+        seq_lens_cpu = common_attn_metadata.seq_lens_cpu
+        dcp_local_seq_lens = common_attn_metadata.dcp_local_seq_lens
+        dcp_local_seq_lens_cpu = common_attn_metadata.dcp_local_seq_lens_cpu
+
+        query_seq_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+
+        num_computed_tokens_cpu = common_attn_metadata.seq_lens_cpu - query_seq_lens_cpu
+
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata,
+                decode_threshold=self.reorder_batch_threshold,
+                require_uniform=(self.query_len_support != QueryLenSupport.VARLEN),
+            )
+        )
+
+        assert num_decodes + num_prefills == num_reqs
+        assert num_decode_tokens + num_prefill_tokens == num_tokens
+
+        prefill_metadata = None
+        if num_prefills > 0:
+            reqs_start = num_decodes  # prefill_start
+
+            context_lens_cpu = num_computed_tokens_cpu[reqs_start:num_reqs]
+            max_context_len_cpu = context_lens_cpu.max().item()
+            num_prefills_with_context_cpu = (context_lens_cpu > 0).sum().item()
+            prefill_query_start_loc = (
+                query_start_loc[reqs_start:] - query_start_loc[reqs_start]
+            )
+
+            chunked_context_metadata = None
+            if max_context_len_cpu > 0:
+                # NOTE: it is recommend you read the `Chunked Prefill` section
+                # in the comment at the top of the file before trying to
+                # understand the following code
+
+                # currently we allocate an equal amount of workspace for each
+                # prefill in the batch, we could probably use a more advanced
+                # algorithm here and allocate more workspace to prefills with
+                # longer context lengths
+                max_context_chunk = (
+                    self.chunked_prefill_workspace_size // num_prefills_with_context_cpu
+                )
+
+                if self.aot_schedule:
+                    # align max_context_chunk to page_size by rounding down,
+                    # currently the `gather_and_maybe_dequant_cache` kernel
+                    # cannot handle `context_chunk_starts` that are not aligned
+                    # to page_size
+                    max_context_chunk = round_down(max_context_chunk, self.page_size)
+
+                assert max_context_chunk > 0
+                num_chunks = cdiv(max_context_len_cpu, max_context_chunk)
+
+                # if `max_context_chunk = 256`, `num_chunks = 3`, and
+                #   `num_prefills_with_context = 4`, create a tensor that looks
+                # like
+                #  [[0, 0, 0, 0], [256, 256, 256, 256], [512, 512, 512, 512]]
+                # Note(simon): this is done in CPU because of downstream's
+                # of `to_list`.
+                chunk_starts = (
+                    torch.arange(num_chunks, dtype=torch.int32)
+                    .unsqueeze(1)
+                    .expand(-1, num_prefills)
+                    * max_context_chunk
+                )
+                chunk_ends = torch.min(
+                    context_lens_cpu.unsqueeze(0), chunk_starts + max_context_chunk
+                )
+                chunk_seq_lens = (chunk_ends - chunk_starts).clamp(min=0)
+
+                cu_seq_lens_cpu = torch.zeros(
+                    num_chunks, num_prefills + 1, dtype=torch.int32, pin_memory=True
+                )
+                torch.cumsum(
+                    chunk_seq_lens, dim=1, out=cu_seq_lens_cpu[:, 1:], dtype=torch.int32
+                )
+
+                if self.dcp_world_size > 1:
+                    local_context_lens_allranks = get_dcp_local_seq_lens(
+                        context_lens_cpu,
+                        self.dcp_world_size,
+                        None,
+                        self.dcp_local_block_size,
+                    )
+                    # Note(qcs): The max local context lengths
+                    # padded to `dcp_local_block_size`.
+                    padded_local_context_lens_cpu = (
+                        cdiv(
+                            context_lens_cpu,
+                            self.dcp_virtual_block_size,
+                        )
+                        * self.dcp_local_block_size
+                    )
+                    # Note(hc): The above max_context_chunk already enforces
+                    # block_size alignment, DCP just need the block_size can
+                    # be divisible by dcp_world_size, because DCP use
+                    # cp_gather_cache which not require `cp_chunk_starts`
+                    # aligned to page_size.
+                    assert max_context_chunk % self.dcp_world_size == 0
+                    padded_local_max_context_chunk_across_ranks = (
+                        cdiv(
+                            max_context_chunk,
+                            self.dcp_virtual_block_size,
+                        )
+                        * self.dcp_local_block_size
+                    )
+                    local_chunk_starts = (
+                        torch.arange(num_chunks, dtype=torch.int32)
+                        .unsqueeze(1)
+                        .expand(-1, num_prefills)
+                        * padded_local_max_context_chunk_across_ranks
+                    )
+                    local_chunk_ends = torch.min(
+                        padded_local_context_lens_cpu.unsqueeze(0),
+                        local_chunk_starts
+                        + padded_local_max_context_chunk_across_ranks,
+                    )
+                    padded_local_chunk_seq_lens = (
+                        local_chunk_ends - local_chunk_starts
+                    ).clamp(min=0)
+
+                    padded_local_cu_chunk_seq_lens_cpu = torch.zeros(
+                        num_chunks, num_prefills + 1, dtype=torch.int32, pin_memory=True
+                    )
+                    torch.cumsum(
+                        padded_local_chunk_seq_lens,
+                        dim=1,
+                        out=padded_local_cu_chunk_seq_lens_cpu[:, 1:],
+                        dtype=torch.int32,
+                    )
+
+                chunked_context_metadata_cls = (
+                    CudnnPrefillMetadata.ChunkedContextMetadata
+                    if self._use_cudnn_prefill
+                    else MLACommonPrefillMetadata.ChunkedContextMetadata
+                )
+                if self.dcp_world_size > 1:
+                    chunked_context_metadata = chunked_context_metadata_cls(
+                        cu_seq_lens=cu_seq_lens_cpu.to(device, non_blocking=True),
+                        starts=local_chunk_starts.to(device, non_blocking=True),
+                        seq_tot=padded_local_chunk_seq_lens.sum(dim=1).tolist(),
+                        max_seq_lens=chunk_seq_lens.max(dim=1).values.tolist(),
+                        seq_lens=chunk_seq_lens,
+                        workspace=self.chunked_prefill_workspace,
+                        padded_local_chunk_seq_lens=padded_local_chunk_seq_lens.tolist(),
+                        local_context_lens_allranks=local_context_lens_allranks.tolist(),
+                        padded_local_cu_seq_lens=padded_local_cu_chunk_seq_lens_cpu.to(
+                            device, non_blocking=True
+                        ),
+                        cu_seq_lens_lst=cu_seq_lens_cpu.tolist(),
+                        chunk_size=padded_local_max_context_chunk_across_ranks,
+                    )
+                else:
+                    chunked_context_metadata = chunked_context_metadata_cls(
+                        cu_seq_lens=cu_seq_lens_cpu.to(device, non_blocking=True),
+                        starts=chunk_starts.to(device, non_blocking=True),
+                        seq_tot=chunk_seq_lens.sum(dim=1).tolist(),
+                        max_seq_lens=chunk_seq_lens.max(dim=1).values.tolist(),
+                        seq_lens=chunk_seq_lens,
+                        workspace=self.chunked_prefill_workspace,
+                    )
+
+                if self._use_cudnn_prefill:
+                    chunked_context_metadata.seq_lens = chunk_seq_lens
+
+                assert (
+                    max(chunked_context_metadata.max_seq_lens)
+                    <= self.chunked_prefill_workspace_size
+                )
+
+            prefill_metadata = self.prefill_metadata_cls(
+                block_table=block_table_tensor[reqs_start:, ...],
+                query_start_loc=prefill_query_start_loc,
+                max_query_len=max_query_len,
+                chunked_context=chunked_context_metadata,
+            )
+
+            if self._use_cudnn_prefill:
+                assert isinstance(prefill_metadata, CudnnPrefillMetadata)
+                prefill_metadata.query_seq_lens = (
+                    prefill_query_start_loc[1:] - prefill_query_start_loc[:-1]
+                )
+                prefill_metadata.cudnn_workspace = self.cudnn_workspace
+
+            if self._use_trtllm_ragged_prefill:
+                prefill_metadata.query_seq_lens = (
+                    prefill_query_start_loc[1:] - prefill_query_start_loc[:-1]
+                )
+
+        decode_metadata = None
+        if num_decodes > 0:
+            dcp_tot_seq_lens_device = None
+            if self.dcp_world_size > 1:
+                dcp_tot_seq_lens_device = seq_lens[:num_decodes]
+                seq_lens_cpu = dcp_local_seq_lens_cpu
+                seq_lens = dcp_local_seq_lens
+
+            decode_metadata = self._build_decode(
+                block_table_tensor=block_table_tensor[:num_decodes, ...],
+                seq_lens_cpu=seq_lens_cpu[:num_decodes],
+                seq_lens_device=seq_lens[:num_decodes],
+                query_start_loc_cpu=query_start_loc_cpu[: num_decodes + 1],
+                query_start_loc_device=query_start_loc[: num_decodes + 1],
+                num_decode_tokens=num_decode_tokens,
+                dcp_tot_seq_lens_device=dcp_tot_seq_lens_device,
+                max_decode_seq_len=torch.max(seq_lens_cpu[:num_decodes]).item(),
+                use_cuda_graph=False,
+            )
+
+        attn_metadata = self.metadata_cls(
+            num_reqs=common_attn_metadata.num_reqs,
+            max_query_len=common_attn_metadata.max_query_len,
+            max_seq_len=max_seq_len,
+            num_actual_tokens=num_tokens,
+            query_start_loc=query_start_loc,
+            slot_mapping=slot_mapping,
+            head_dim=self.model_config.get_head_size(),
+            # MLACommonMetadata Chunk prefill specific
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            prefill=prefill_metadata,
+            decode=decode_metadata,
+        )
+
+        if self._use_fi_prefill and num_prefills > 0:
+            assert isinstance(attn_metadata.prefill, FlashInferPrefillMetadata)
+            self._build_fi_prefill_wrappers(attn_metadata.prefill)
+
+        return attn_metadata
+
+
+def reorg_kvcache(
+    allgatered_kv_c_normed: torch.Tensor,
+    allgatered_k_pe: torch.Tensor,
+    padded_local_chunk_seq_lens_lst: list[int],
+    local_context_lens_allranks: list[list[int]],
+    sum_seq_len: int,
+    max_seq_len: int,
+    chunk_size: int,
+    chunk_idx: int,
+    toks: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    reorg and unpad kvcache after cp local gather to tp layout for attn kernel.
+    e.g.
+    allgatered_kv_c_normed = [T0_0, T0_1, T0_2, T0_3, T1_0, T1_1, ...,
+                              T0_4, T0_5, pad, pad, T1_2, pad, ...]
+    -> reorganized_kv_c_normed = [T0_0, T0_1, T0_2, T0_3, T0_4, T0_5,
+                                  T1_0, T1_1, T1_2, ...]
+    Args:
+        padded_local_chunk_seq_lens_lst: local chunk context lengths
+            under current CP rank.
+        local_context_lens_allranks: local context lengths on each CP rank.
+        sum_seq_len: the sum of cp_chunk_seq_lens_lst.
+        max_seq_len: the max value of cp_chunk_seq_lens_lst.
+        chunk_size: the local padded max context chunk from
+            chunked_context_metadata building.
+        chunk_idx: chunk idx of chunked_prefill.
+        toks: the number of tokens for local gather cache.
+    """
+    kv_c_segments = []
+    k_pe_segments = []
+    src_token_idx = 0
+    max_seq_len_check = 0
+    for padded_local_chunk_seq_len, local_context_lens in zip(
+        padded_local_chunk_seq_lens_lst, local_context_lens_allranks
+    ):
+        cur_seq_len = 0
+        for rank, local_context_len in enumerate(local_context_lens):
+            # Note(qcs): We split the context into multiple chunks,
+            # depending on the size of the workspace.
+            # local_context in dcp0:   |-----------------|
+            # local_context in dcp1:   |--------------|
+            # n*padded_local_chunk:    |-----|-----|-----|
+            # local_chunk_len in dcp1: |-----|-----|--|
+            # so we need update the last chunk length in dcp1.
+            local_chunk_len = min(
+                max(0, local_context_len - chunk_idx * chunk_size),
+                padded_local_chunk_seq_len,
+            )
+            if local_chunk_len != 0:
+                kv_c_segment = allgatered_kv_c_normed[
+                    rank * toks + src_token_idx : rank * toks
+                    + src_token_idx
+                    + local_chunk_len
+                ]
+                k_pe_segment = allgatered_k_pe[
+                    rank * toks + src_token_idx : rank * toks
+                    + src_token_idx
+                    + local_chunk_len
+                ]
+                kv_c_segments.append(kv_c_segment)
+                k_pe_segments.append(k_pe_segment)
+                cur_seq_len += local_chunk_len
+        max_seq_len_check = max(max_seq_len_check, cur_seq_len)
+        src_token_idx += padded_local_chunk_seq_len
+    reorganized_kv_c_normed = torch.cat(kv_c_segments, dim=0)
+    reorganized_k_pe = torch.cat(k_pe_segments, dim=0)
+    assert reorganized_kv_c_normed.shape[0] == sum_seq_len
+    assert reorganized_k_pe.shape[0] == sum_seq_len
+    assert max_seq_len_check == max_seq_len
+    return reorganized_kv_c_normed, reorganized_k_pe
+
+
+# TODO(Lucas): rename MLACommonBaseImpl -> MLACommonImpl,
+# and MLACommonImpl -> MLACommonDenseImpl or somthing like that
+class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
+    """
+    NOTE: Please read the comment at the top of the file before trying to
+    understand this class
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        qk_head_dim: int,
+        v_head_dim: int,
+        kv_b_proj: ColumnParallelLinear,
+        indexer=None,
+        q_pad_num_heads: int | None = None,
+        rotary_emb: Any | None= None,
+    ) -> None: 
+        if kv_sharing_target_layer_name is not None:
+            raise NotImplementedError("KV sharing is not supported for MLA")
+
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        self.kv_cache_dtype = kv_cache_dtype
+
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_head_dim
+        self.v_head_dim = v_head_dim
+        self.kv_b_proj = kv_b_proj
+        self.indexer = indexer
+        self.q_pad_num_heads = q_pad_num_heads
+        self.is_aiter_triton_fp8_bmm_enabled = rocm_aiter_ops.is_fp8bmm_enabled()
+        self.rotary_emb = rotary_emb
+
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        def get_layer_weight(layer):
+            WEIGHT_NAMES = ("weight", "qweight", "weight_packed")
+            for attr in WEIGHT_NAMES:
+                if hasattr(layer, attr):
+                    return getattr(layer, attr)
+            raise AttributeError(
+                f"Layer '{layer}' has no recognized weight attribute: {WEIGHT_NAMES}."
+            )
+
+        def get_and_maybe_dequant_weights(layer: LinearBase):
+            if not isinstance(layer.quant_method, UnquantizedLinearMethod):
+                # NOTE: This should only be used offline, since it's O(N^3)
+                eye = torch.eye(
+                    layer.input_size_per_partition,
+                    dtype=act_dtype,
+                    device=get_layer_weight(layer).device,
+                )
+                dequant_weights = layer.quant_method.apply(layer, eye, bias=None)
+                del eye
+                # standardize to (output, input)
+                return dequant_weights.T
+            return layer.weight
+
+        # we currently do not have quantized bmm's which are needed for
+        # `W_UV` and `W_UK_T`, we just store fp16/bf16 copies and perform
+        # the bmm's in 16-bit, the extra memory overhead of this is fairly low
+        kv_b_proj_weight = get_and_maybe_dequant_weights(self.kv_b_proj).T
+        assert kv_b_proj_weight.shape == (
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+        ), (
+            f"{kv_b_proj_weight.shape=}, "
+            f"{self.kv_lora_rank=}, "
+            f"{self.num_heads=}, "
+            f"{self.qk_nope_head_dim=}, "
+            f"{self.v_head_dim=}"
+        )
+        kv_b_proj_weight = kv_b_proj_weight.view(
+            self.kv_lora_rank,
+            self.num_heads,
+            self.qk_nope_head_dim + self.v_head_dim,
+        )
+
+        W_UK, W_UV = kv_b_proj_weight.split(
+            [self.qk_nope_head_dim, self.v_head_dim], dim=-1
+        )
+
+        if self.is_aiter_triton_fp8_bmm_enabled:
+            W_K = W_UK.transpose(0, 1)  # 16 512 128
+            W_V = W_UV.permute(1, 2, 0)  # 16 128 512
+            self.W_K, self.W_K_scale = dynamic_per_batched_tensor_quant(
+                W_K, dtype=current_platform.fp8_dtype()
+            )
+            self.W_V, self.W_V_scale = dynamic_per_batched_tensor_quant(
+                W_V, dtype=current_platform.fp8_dtype()
+            )
+
+            # The kernel operates on non-padded inputs. Hence, pre-compiling
+            # triton kernel to avoid runtime compilation for unseen batch sizes
+            # Pre-compile for batch sizes 1 to 1024 to cover most use-cases.
+            # On DS-R1, this step adds roughly 50s to the model loading time.
+            max_batch_size = 1024  # [ToDo] Find the optimal upper limit
+            pre_compilation_list = list(range(1, max_batch_size + 1))
+            if is_global_first_rank():
+                pre_compilation_list = tqdm(
+                    pre_compilation_list,
+                    desc="[Aiter Triton] Pre-compiling fp8 BMM kernel",
+                    total=max_batch_size,
+                )
+
+            for m in pre_compilation_list:
+                x = torch.empty(
+                    (self.W_K.shape[0], m, self.W_K.shape[2]),
+                    dtype=torch.bfloat16,
+                    device=self.W_K.device,
+                )
+                rocm_aiter_ops.triton_fp8_bmm(
+                    x, self.W_K, self.W_K_scale, group_size=128, transpose_bm=True
+                )
+
+                x = torch.empty(
+                    (self.W_V.shape[0], m, self.W_V.shape[2]),
+                    dtype=torch.bfloat16,
+                    device=self.W_V.device,
+                )
+                rocm_aiter_ops.triton_fp8_bmm(
+                    x, self.W_V, self.W_V_scale, group_size=128, transpose_bm=True
+                )
+        else:
+            self.W_UV = W_UV
+            self.W_UK = W_UK
+            # self.W_UK_T = W_UK.permute(1, 2, 0)
+
+    def _v_up_proj(self, x: torch.Tensor):
+        # Convert from (B, N, L) to (N, B, L)
+        # x = x.view(-1, self.num_heads, self.kv_lora_rank).transpose(0, 1)
+        # if is_rocm_aiter_fp8bmm_enabled():
+        #     # Multiply + Transpose (N, B, L) x (N, L, V)->(N, B, V)->(B, N, V)
+        #     x = aiter_triton_fp8_bmm(x,
+        #                              self.W_V,
+        #                              self.W_V_scale,
+        #                              group_size=128,
+        #                              transpose_bm=True)
+        #     # Convert from (B, N, V) to (B, N * V)
+        #     x = x.reshape(-1, self.num_heads * self.v_head_dim)
+        #     # Copy result
+        #     out.copy_(x)
+        # else:
+        #     # Convert from (B, N * V) to (N, B, V)
+        #     out = out.view(-1, self.num_heads, self.v_head_dim).transpose(0, 1)
+
+        #     # Multiply (N, B, L) x (N, L, V) -> (N, B, V)
+        #     torch.bmm(x, self.W_UV, out=out)  # Reuse "out" to make it "hot"
+
+        #     # Convert from (N, B, V) to (B, N * V)
+        #     out_new = out.transpose(0, 1).reshape(
+        #         -1, self.num_heads * self.v_head_dim)
+
+        #     # Adjust output buffer shape back to the original (B, N * V)
+        #     N, B, V = out.shape
+        #     out.resize_((B, N * V))
+        #     out.copy_(out_new)  # Copy result
+        return torch.einsum("bnl,lnv->bnv", x, self.W_UV)
+    def _k_up_proj(self, q_nope):
+        # # Convert from (B, N, P) to (N, B, P)
+        # q_nope = q_nope.transpose(0, 1)
+        # # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
+        # ql_nope = torch.bmm(q_nope, self.W_UK_T)
+        # # Convert from (N, B, L) to (B, N, L)
+        # return ql_nope.transpose(0, 1), q_pe
+        return torch.einsum("bnp,lnp->bnl", q_nope, self.W_UK).view(-1, self.num_heads, self.kv_lora_rank)
+
+
+class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
+    """
+    NOTE: Please read the comment at the top of the file before trying to
+    understand this class
+    """
+
+    def __init__(self, *args, **kwargs) -> None:
+        super().__init__(*args, **kwargs)
+
+        if use_flashinfer_prefill():
+            logger.debug_once("Using FlashInfer prefill for MLA")
+            self._run_prefill_context_chunk = self._run_prefill_context_chunk_fi
+            self._run_prefill_new_tokens = self._run_prefill_new_tokens_fi
+            self._pad_v = False
+        elif use_trtllm_ragged_deepseek_prefill():
+            logger.debug_once("Using TRT-LLM ragged DeepSeek prefill for MLA")
+            self._run_prefill_context_chunk = (
+                self._run_prefill_context_chunk_trtllm_ragged
+            )
+            self._run_prefill_new_tokens = self._run_prefill_new_tokens_trtllm_ragged
+            self._pad_v = False
+        elif use_cudnn_prefill():
+            logger.debug_once("Using CUDNN prefill for MLA")
+            self._run_prefill_context_chunk = self._run_prefill_context_chunk_cudnn
+            self._run_prefill_new_tokens = self._run_prefill_new_tokens_cudnn
+            self._pad_v = False
+        else:  # Use FlashAttention
+            logger.debug_once("Using FlashAttention prefill for MLA")
+            self.positions = None
+            self._run_prefill_context_chunk = self._run_prefill_context_chunk_fa
+            self._run_prefill_new_tokens = self._run_prefill_new_tokens_fa
+
+            # Handle the differences between the flash_attn_varlen from
+            # flash_attn and the one from vllm_flash_attn. The former is used on
+            # RoCM and the latter has an additional parameter to control
+            # FA2 vs FA3
+            self.flash_attn_varlen_func = flash_attn_varlen_func
+            self.vllm_flash_attn_version = get_flash_attn_version()
+            # if self.vllm_flash_attn_version is not None:
+            #     self.flash_attn_varlen_func = functools.partial(
+            #         flash_attn_varlen_func, fa_version=self.vllm_flash_attn_version
+            #     )
+
+            # For MLA the v head dim is smaller than qk head dim so we pad out
+            # v with 0s to match the qk head dim for attention backends that do
+            # not support different headdims
+            # We don't need to pad V if we are on a hopper system with FA3
+            # self._pad_v = self.vllm_flash_attn_version is None or not (
+            #     self.vllm_flash_attn_version == 3
+            #     and current_platform.get_device_capability()[0] == 9
+            # )
+            self._pad_v = False
+
+        self.dcp_world_size: int | None = None
+
+        self.chunked_prefill_workspace_size = (
+            MLACommonMetadataBuilder.determine_chunked_prefill_workspace_size(
+                get_current_vllm_config()
+            )
+        )
+        self.dcp_kv_cache_interleave_size: int = (
+            get_current_vllm_config().parallel_config.dcp_kv_cache_interleave_size
+        )
+
+    def _flash_attn_varlen_diff_headdims(
+        self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
+    ):
+        maybe_padded_v = v
+        if self._pad_v:
+            maybe_padded_v = torch.nn.functional.pad(
+                v, [0, q.shape[-1] - v.shape[-1]], value=0
+            )
+
+        if is_vllm_fa:
+            kwargs["return_softmax_lse"] = return_softmax_lse
+        else:
+            # ROCm leverages the upstream flash_attn, which takes a parameter
+            # called "return_attn_probs" instead of return_softmax_lse
+            kwargs["return_attn_probs"] = return_softmax_lse
+        if vllm_is_batch_invariant():
+            kwargs["num_splits"] = 1
+
+        attn_out = self.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=maybe_padded_v,
+            softmax_scale=softmax_scale,
+            **kwargs,
+        )
+
+        # Unpack the output if there is multiple results
+        lse = None
+        if isinstance(attn_out, tuple):
+            attn_out, lse = attn_out[0], attn_out[1]
+
+        # Remain consistent with old `flash_attn_varlen_func` where there
+        # is only one output tensor if `return_softmax_lse` is False.
+        if return_softmax_lse:
+            return attn_out, lse
+        return attn_out
+
+    def _run_prefill_new_tokens_fa(
+        self, prefill: MLACommonPrefillMetadata, q, k, v, return_softmax_lse, out
+    ):
+        return self._flash_attn_varlen_diff_headdims(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=prefill.query_start_loc,
+            cu_seqlens_k=prefill.query_start_loc,
+            max_seqlen_q=prefill.max_query_len,
+            max_seqlen_k=prefill.max_query_len,
+            softmax_scale=self.scale,
+            causal=True,
+            return_softmax_lse=return_softmax_lse,
+            out=out,
+        )
+
+    def _run_prefill_new_tokens_fi(
+        self, prefill: MLACommonPrefillMetadata, q, k, v, return_softmax_lse
+    ):
+        assert isinstance(prefill, FlashInferPrefillMetadata)
+        assert prefill.prefill_main is not None
+
+        ret = prefill.prefill_main.run(
+            q=q,
+            k=k,
+            v=v,
+            return_lse=return_softmax_lse,
+        )
+
+        if isinstance(ret, tuple):
+            return ret[0], ret[1].transpose(0, 1).contiguous()
+        return ret
+
+    def _run_prefill_new_tokens_cudnn(
+        self, prefill: MLACommonPrefillMetadata, q, k, v, return_softmax_lse
+    ):
+        assert isinstance(prefill, CudnnPrefillMetadata)
+        assert prefill.query_seq_lens is not None
+        output, lse = cudnn_batch_prefill_with_kv_cache(
+            q=q,
+            k_cache=k,
+            v_cache=v,
+            scale=self.scale,
+            workspace_buffer=prefill.cudnn_workspace,
+            max_token_per_sequence=prefill.max_query_len,
+            max_sequence_kv=prefill.max_query_len,
+            actual_seq_lens_q=prefill.query_seq_lens.view(-1, 1, 1, 1),
+            actual_seq_lens_kv=prefill.query_seq_lens.view(-1, 1, 1, 1),
+            causal=True,
+            # Do not support False for now
+            return_lse=True,
+            # Indicates actual_seq_lens are on GPU or CPU.
+            is_cuda_graph_compatible=True,
+        )
+        if return_softmax_lse:
+            return output, lse
+        return output
+
+    def _run_prefill_context_chunk_fa(
+        self, prefill: MLACommonPrefillMetadata, chunk_idx: int, q, k, v, out
+    ):
+        assert prefill.chunked_context is not None
+        return self._flash_attn_varlen_diff_headdims(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=prefill.query_start_loc,
+            cu_seqlens_k=prefill.chunked_context.cu_seq_lens[chunk_idx],
+            max_seqlen_q=prefill.max_query_len,
+            max_seqlen_k=prefill.chunked_context.max_seq_lens[chunk_idx],
+            softmax_scale=self.scale,
+            causal=False,  # Context is unmasked
+            return_softmax_lse=True,
+            out=out,
+        )
+
+    def _run_prefill_context_chunk_fi(
+        self, prefill: MLACommonPrefillMetadata, chunk_idx: int, q, k, v
+    ):
+        assert isinstance(prefill, FlashInferPrefillMetadata)
+
+        attn_out, lse = prefill.prefill_chunks[chunk_idx].run(
+            q=q,
+            k=k,
+            v=v,
+            return_lse=True,
+        )
+
+        # Convert from (q_len, num_heads) to (num_heads, q_len)
+        return attn_out, lse.transpose(0, 1).contiguous()
+
+    def _run_prefill_context_chunk_cudnn(
+        self, prefill: MLACommonPrefillMetadata, chunk_idx: int, q, k, v
+    ):
+        assert isinstance(prefill, CudnnPrefillMetadata)
+        assert prefill.chunked_context is not None
+        assert prefill.chunked_context.seq_lens[chunk_idx] is not None
+        assert prefill.query_seq_lens is not None
+        return cudnn_batch_prefill_with_kv_cache(
+            q=q,
+            k_cache=k,
+            v_cache=v,
+            scale=self.scale,
+            workspace_buffer=prefill.cudnn_workspace,
+            max_token_per_sequence=prefill.max_query_len,
+            max_sequence_kv=prefill.chunked_context.max_seq_lens[chunk_idx],
+            actual_seq_lens_q=prefill.query_seq_lens.view(-1, 1, 1, 1),
+            actual_seq_lens_kv=prefill.chunked_context.seq_lens[chunk_idx].view(
+                -1, 1, 1, 1
+            ),
+            causal=False,
+            return_lse=True,
+            # Indicates actual_seq_lens are on GPU or CPU.
+            is_cuda_graph_compatible=True,
+        )
+
+    def _run_prefill_new_tokens_trtllm_ragged(
+        self, prefill: MLACommonPrefillMetadata, q, k, v, return_softmax_lse
+    ):
+        """TRT-LLM ragged attention for new tokens (causal)."""
+        from flashinfer.prefill import trtllm_ragged_attention_deepseek
+
+        assert prefill.query_seq_lens is not None
+
+        ret = trtllm_ragged_attention_deepseek(
+            query=q,
+            key=k,
+            value=v,
+            workspace_buffer=self._workspace_buffer,
+            seq_lens=prefill.query_seq_lens,
+            max_q_len=prefill.max_query_len,
+            max_kv_len=prefill.max_query_len,
+            bmm1_scale=self.scale,
+            bmm2_scale=1.0,
+            o_sf_scale=1.0,
+            batch_size=prefill.query_seq_lens.shape[0],
+            window_left=-1,
+            cum_seq_lens_q=prefill.query_start_loc,
+            cum_seq_lens_kv=prefill.query_start_loc,
+            enable_pdl=False,
+            is_causal=True,
+            return_lse=return_softmax_lse,
+        )
+
+        if isinstance(ret, tuple):
+            # Convert from (q_len, num_heads) to (num_heads, q_len)
+            return ret[0], ret[1].transpose(0, 1).contiguous()
+        return ret
+
+    def _run_prefill_context_chunk_trtllm_ragged(
+        self, prefill: MLACommonPrefillMetadata, chunk_idx: int, q, k, v
+    ):
+        """TRT-LLM ragged attention for context chunks (non-causal)."""
+        from flashinfer.prefill import trtllm_ragged_attention_deepseek
+
+        assert prefill.chunked_context is not None
+        assert prefill.chunked_context.seq_lens[chunk_idx] is not None
+
+        out = torch.zeros(
+            q.shape[0],
+            q.shape[1],
+            v.shape[2],
+            device=q.device,
+            dtype=q.dtype,
+        )
+        self._workspace_buffer.fill_(0)
+
+        attn_out, lse = trtllm_ragged_attention_deepseek(
+            query=q,
+            key=k,
+            value=v,
+            workspace_buffer=self._workspace_buffer,
+            seq_lens=prefill.chunked_context.seq_lens[chunk_idx],
+            max_q_len=prefill.max_query_len,
+            max_kv_len=prefill.chunked_context.max_seq_lens[chunk_idx],
+            bmm1_scale=self.scale,
+            bmm2_scale=1.0,
+            o_sf_scale=1.0,
+            batch_size=prefill.chunked_context.seq_lens[chunk_idx].shape[0],
+            window_left=-1,
+            cum_seq_lens_q=prefill.query_start_loc,
+            cum_seq_lens_kv=prefill.chunked_context.cu_seq_lens[chunk_idx],
+            enable_pdl=False,
+            is_causal=False,
+            return_lse=True,
+            out=out,
+        )
+
+        # Convert from (q_len, num_heads) to (num_heads, q_len)
+        return attn_out, lse.transpose(0, 1).contiguous()
+
+    def process_weights_after_loading(self, act_dtype: torch.dtype):
+        def get_layer_weight(layer):
+            WEIGHT_NAMES = ("weight", "qweight", "weight_packed")
+            for attr in WEIGHT_NAMES:
+                if hasattr(layer, attr):
+                    return getattr(layer, attr)
+            raise AttributeError(
+                f"Layer '{layer}' has no recognized weight attribute: {WEIGHT_NAMES}."
+            )
+
+        def get_and_maybe_dequant_weights(layer: LinearBase):
+            if not isinstance(layer.quant_method, UnquantizedLinearMethod):
+                # we already prepare a dequant weight for GGUF, skip it.
+                if layer.quant_method.__class__.__name__ == "GGUFLinearMethod":
+                    weight = layer.weight.clone()
+                    del layer.weight
+                    return weight
+                if layer.quant_method.__class__.__name__ == "AWQMarlinLinearMethod":
+                    from ixformer.inference.functions import ref_wui4a16
+                    return ref_wui4a16(None, layer.qweight, layer.scales, layer.qzeros, None, layer.quant_method.quant_config.group_size, only_return_weight=True)
+                # for W8A8, we directly dequantize it here to avoiding quantization errors 
+                if hasattr(layer, "scheme") and layer.scheme.__class__.__name__ == "CompressedTensorsW8A8Int8" and not layer.scheme.is_static_input_scheme:
+                    quant_weight = layer.weight.T # output, input
+                    scales = layer.weight_scale
+                    return scaled_dequantize(quant_weight, scales, (1, -1), act_dtype)
+                # NOTE: This should only be used offline, since it's O(N^3)
+                eye = torch.eye(
+                    layer.input_size_per_partition,
+                    dtype=act_dtype,
+                    device=get_layer_weight(layer).device,
+                )
+                dequant_weights = layer.quant_method.apply(layer, eye, bias=None)
+                del eye
+                # standardize to (output, input)
+                return dequant_weights.T
+            return layer.weight
+        
+        back_to_vllm = False
+        weight_dtype = get_layer_weight(self.kv_b_proj).dtype
+        
+        # when use customize forward, we do not care the specific data types and shape, just reset the 
+        # _v_up_proj_and_o_proj and _q_proj_and_k_up_proj funs to get the correct results.
+        if envs.VLLM_MLA_CUSTOMIZE:
+            layer = self.kv_b_proj
+            quant_method = layer.quant_method.__class__.__name__
+            if hasattr(layer, "scheme") and layer.scheme.__class__.__name__ == "CompressedTensorsW8A8Int8":
+                kv_b_proj_weight = self.kv_b_proj.weight              # [i，o]
+                kv_b_proj_weight_scale = self.kv_b_proj.weight_scale  # [o, 1]
+                kv_b_proj_weight = kv_b_proj_weight.view(
+                    self.kv_lora_rank,
+                    self.num_heads,
+                    self.qk_nope_head_dim + self.v_head_dim,
+                )
+                W_UK, W_UV = kv_b_proj_weight.split(
+                    [self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+                kv_b_proj_weight_scale = kv_b_proj_weight_scale.view(
+                    self.num_heads,
+                    self.qk_nope_head_dim + self.v_head_dim,
+                    1,
+                )
+                W_UK_S, W_UV_S = kv_b_proj_weight_scale.split(
+                    [self.qk_nope_head_dim, self.v_head_dim], dim=1)
+                
+                # self.W_UK = W_UK                                # [kv_lora_rank, n, qk_nope]
+                self.W_UK = ixf_ops.marlin_w8_weight_repack(
+                    weights=W_UK.permute(1, 2, 0).contiguous(),
+                    weight_format="int8",
+                    reformat="k16n16_grouped_n",
+                )
+                self.W_UK_S = W_UK_S.contiguous()                 # [n, qk_nope, 1]
+                # self.W_UV = W_UV                                # [kv_lora_rank, n, v_head_dim]
+                self.W_UV = ixf_ops.marlin_w8_weight_repack(
+                    weights=W_UV.permute(1, 0, 2).contiguous(),
+                    weight_format="int8",
+                    reformat="k16n16",
+                )
+                self.W_UV_S = W_UV_S.contiguous()                 # [n, v_head_dim, 1]
+                
+                def _v_up_proj_w8a8(self, x):
+                    # x: b, n, kv_lora
+                    # W_UV = (self.W_UV * self.W_UV_S.view(1, self.num_heads, self.v_head_dim)).to(x.dtype)
+                    # x = torch.einsum("bnl,lnv->bnv", x, W_UV)
+                    return ixf_ops.marlin_w8a16(
+                        x,
+                        self.W_UV,
+                        self.W_UV_S,
+                        group_size=-1,
+                        format="k16n16",
+                        batch_first=False,
+                    )
+
+                def _k_up_proj_w8a8(self, x_nope):
+                    # x_nope: b, n, qk_nope_head_dim
+                    # W_UK = (self.W_UK * self.W_UK_S.view(1, self.num_heads, self.qk_nope_head_dim)).to(x.dtype)
+                    # return torch.einsum("bnp,lnp->bnl", x_nope, W_UK).view(-1, self.num_heads, self.kv_lora_rank)
+                    return ixf_ops.marlin_w8a16(
+                        x_nope,
+                        self.W_UK,
+                        self.W_UK_S,
+                        group_size=-1,
+                        format="k16n16_grouped_n",
+                        batch_first=False,
+                    )
+                
+                self._v_up_proj = functools.partial(_v_up_proj_w8a8, self)
+                self._k_up_proj = functools.partial(_k_up_proj_w8a8, self)
+            elif quant_method == "AWQMarlinLinearMethod":
+                # ===== W_UK & W_UV use W4A16 =====
+                def split_4bit_matrix(qweight, scales, qzeros, num_heads, head_dim_1, head_dim_2):
+                    assert head_dim_1 % 8 == 0
+                    assert head_dim_2 % 8 == 0
+                    qweight = qweight.view(-1, num_heads, (head_dim_1 + head_dim_2)//8)
+                    w1, w2 = qweight.split([head_dim_1//8, head_dim_2//8], dim=-1)
+                    scales = scales.view(-1, num_heads, head_dim_1 + head_dim_2)
+                    s1, s2 = scales.split([head_dim_1, head_dim_2], dim=-1)
+                    qzeros = qzeros.view(-1, num_heads, (head_dim_1 + head_dim_2)//8)
+                    z1, z2 = qzeros.split([head_dim_1//8, head_dim_2//8], dim=-1)
+                    return (w1.contiguous().view(w1.shape[0], -1), 
+                            s1.contiguous().view(s1.shape[0], -1), 
+                            z1.contiguous().view(z1.shape[0], -1), 
+                            w2.contiguous().view(w2.shape[0], -1), 
+                            s2.contiguous().view(s2.shape[0], -1), 
+                            z2.contiguous().view(z2.shape[0], -1))
+                # split W_UK and W_UV
+                (
+                    W_UK, W_UK_S, W_UK_Z,
+                    W_UV, W_UV_S, W_UV_Z
+                ) = split_4bit_matrix(
+                    self.kv_b_proj.qweight, self.kv_b_proj.scales, self.kv_b_proj.qzeros, 
+                    self.num_heads, self.qk_nope_head_dim, self.v_head_dim
+                )
+                # repack W_UK
+                W_UK = W_UK.reshape(self.kv_lora_rank, self.num_heads, -1).permute(1, 2, 0).contiguous()
+                W_UK_S = W_UK_S.reshape(W_UK_S.shape[0], self.num_heads, -1).permute(1, 0, 2).contiguous()
+                W_UK_Z = W_UK_Z.reshape(W_UK_Z.shape[0], self.num_heads, -1).permute(1, 0, 2).contiguous()
+                (
+                    self.W_UK,
+                    self.W_UK_S,
+                    self.W_UK_Z
+                ) = ixf_ops.marlin_w4_weight_repack(
+                    weights = W_UK,
+                    scales = W_UK_S,
+                    zeros = W_UK_Z,
+                    weight_format = "gptq_grouped_n",
+                    reformat = "k16n32_grouped_n",
+                )
+                # repack W_UV
+                W_UV = W_UV.reshape(self.kv_lora_rank, self.num_heads, -1).permute(1, 0, 2).contiguous()
+                W_UV_S = W_UV_S.reshape(W_UV_S.shape[0], self.num_heads, -1).permute(1, 0, 2).contiguous()
+                W_UV_Z = W_UV_Z.reshape(W_UV_Z.shape[0], self.num_heads, -1).permute(1, 0, 2).contiguous()
+                (
+                    self.W_UV,
+                    self.W_UV_S,
+                    self.W_UV_Z
+                ) = ixf_ops.marlin_w4_weight_repack(
+                    weights = W_UV,
+                    scales = W_UV_S,
+                    zeros = W_UV_Z,
+                    weight_format = "awq",
+                    reformat = "k16n32",
+                )
+                self.w4_group_size = self.kv_b_proj.quant_method.quant_config.group_size
+
+                # ===== W_UK & W_UV use W16A16 =====
+                # kv_b_proj_weight = get_and_maybe_dequant_weights(self.kv_b_proj).T
+                # kv_b_proj_weight = kv_b_proj_weight.view(
+                #     self.kv_lora_rank,
+                #     self.num_heads,
+                #     self.qk_nope_head_dim + self.v_head_dim,
+                # )
+                # self.W_UK_fp16, self.W_UV_fp16 = kv_b_proj_weight.split(
+                #     [self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+                def _v_up_proj_w4a16(self, x):
+                    # W16A16
+                    # res = torch.einsum("bnl,lnv->bnv", x, self.W_UV_fp16)
+
+                    # W4A16
+                    return ixf_ops.marlin_w4a16(
+                        x, self.W_UV, self.W_UV_S, self.W_UV_Z,
+                        group_size=self.w4_group_size,
+                        format="k16n32",
+                        batch_first=False)
+
+                def _k_up_proj_w4a16(self, x_nope):
+                    # W16A16
+                    # return torch.einsum("bnp,lnp->bnl", x_nope, self.W_UK_fp16).view(-1, self.num_heads, self.kv_lora_rank), x_pe
+
+                    # W4A16
+                    return ixf_ops.marlin_w4a16(
+                        x_nope, self.W_UK, self.W_UK_S, self.W_UK_Z,
+                        group_size=self.w4_group_size,
+                        format="k16n32_grouped_n",
+                        batch_first=False,
+                    )
+
+                self._v_up_proj = functools.partial(_v_up_proj_w4a16, self)
+                self._k_up_proj = functools.partial(_k_up_proj_w4a16, self)
+            else:
+                print(f"Custom MLA for quant method: {layer.quant_method.__class__.__name__} is not supported, will use the vllm official impl.")
+                back_to_vllm = True
+        else:
+            back_to_vllm = True
+        
+        if back_to_vllm:
+            # we currently do not have quantized bmm's which are needed for
+            # `W_UV` and `W_UK_T`, we we just store fp16/bf16 copies and perform
+            # the bmm's in 16-bit, the extra memory overhead of this is fairly low
+            kv_b_proj_weight = get_and_maybe_dequant_weights(self.kv_b_proj).T
+            assert kv_b_proj_weight.shape == (
+                self.kv_lora_rank,
+                self.num_heads * (self.qk_nope_head_dim + self.v_head_dim)), (
+                    f"{kv_b_proj_weight.shape=}, "
+                    f"{self.kv_lora_rank=}, "
+                    f"{self.num_heads=}, "
+                    f"{self.qk_nope_head_dim=}, "
+                    f"{self.v_head_dim=}")
+            kv_b_proj_weight = kv_b_proj_weight.view(
+                self.kv_lora_rank,
+                self.num_heads,
+                self.qk_nope_head_dim + self.v_head_dim,
+            )
+
+            W_UK, W_UV = kv_b_proj_weight.split(
+                [self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+            # # Convert from (L, N, V) to (N, L, V)
+            # self.W_UV = W_UV.transpose(0, 1)
+            # # Convert from (L, N, P) to (N, P, L)
+            # self.W_UK_T = W_UK.permute(1, 2, 0)
+            self.W_UV = W_UV
+            self.W_UK = W_UK
+
+
+    def _compute_prefill_context(
+        self,
+        q: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        kv_c_and_k_pe_cache_scale: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+    ):
+        assert attn_metadata.prefill is not None
+        prefill_metadata = attn_metadata.prefill
+        assert prefill_metadata.chunked_context is not None
+
+        output = None
+        iters = len(prefill_metadata.chunked_context.seq_tot)
+        workspace = prefill_metadata.chunked_context.workspace
+
+        for i in range(iters):
+            toks = prefill_metadata.chunked_context.seq_tot[i]
+            if envs.VLLM_USE_INT8_MLA:
+                ops.gather_cache_int8(
+                    src_cache=kv_c_and_k_pe_cache,
+                    src_cache_scale=kv_c_and_k_pe_cache_scale,
+                    kv_lora_rank = self.kv_lora_rank,
+                    dst=workspace,
+                    block_table=prefill_metadata.block_table,
+                    cu_seq_lens=prefill_metadata.chunked_context.cu_seq_lens[i],
+                    batch_size=attn_metadata.num_prefills,
+                    seq_starts=prefill_metadata.chunked_context.starts[i],
+                )
+            else:
+                ops.gather_cache(
+                    src_cache=kv_c_and_k_pe_cache,
+                    dst=workspace,
+                    block_table=prefill_metadata.block_table,
+                    cu_seq_lens=prefill_metadata.chunked_context.cu_seq_lens[i],
+                    batch_size=attn_metadata.num_prefills,
+                    seq_starts=prefill_metadata.chunked_context.starts[i],
+                )
+
+            kv_c_normed = workspace[:toks][..., : self.kv_lora_rank].contiguous()
+            k_pe = workspace[:toks][..., self.kv_lora_rank :].unsqueeze(1)
+
+            kv_nope = self.kv_b_proj(kv_c_normed)[0].view(
+                -1, self.num_heads, self.qk_nope_head_dim + self.v_head_dim
+            )
+            k_nope, v = kv_nope.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+            k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
+            
+            attn_output = torch.empty(q.shape[0], self.num_heads, self.v_head_dim, dtype=q.dtype, device=q.device)
+
+            attn_output, attn_softmax_lse = self._run_prefill_context_chunk(
+                prefill=prefill_metadata,
+                chunk_idx=i,
+                q=q,
+                k=k,
+                v=v,
+                out=attn_output,
+            )
+
+            if output is None:
+                output = attn_output
+                output_lse = attn_softmax_lse
+            else:
+                output,output_lse = merge_attn_states(
+                    prefix_output=output,
+                    prefix_lse=output_lse,
+                    suffix_output=attn_output,
+                    suffix_lse=attn_softmax_lse,
+                    return_lse=True,
+                )
+
+        return output, output_lse
+
+    def _context_parallel_compute_prefill_context(
+        self,
+        q: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+        k_scale: torch.Tensor,
+        dcp_world_size: int,
+    ):
+        assert k_scale is None, "DCP not support scaled kvcache now."
+        assert attn_metadata.prefill is not None
+        prefill_metadata = attn_metadata.prefill
+        assert prefill_metadata.chunked_context is not None
+        assert prefill_metadata.chunked_context.padded_local_chunk_seq_lens is not None
+        assert prefill_metadata.chunked_context.local_context_lens_allranks is not None
+        assert prefill_metadata.chunked_context.padded_local_cu_seq_lens is not None
+        assert prefill_metadata.chunked_context.cu_seq_lens_lst is not None
+        assert prefill_metadata.chunked_context.chunk_size is not None
+
+        output = None
+        iters = len(prefill_metadata.chunked_context.seq_tot)
+        workspace = prefill_metadata.chunked_context.workspace
+
+        for i in range(iters):
+            toks = prefill_metadata.chunked_context.seq_tot[i]
+            ops.cp_gather_cache(
+                src_cache=kv_c_and_k_pe_cache,
+                dst=workspace,
+                block_table=prefill_metadata.block_table,
+                cu_seq_lens=prefill_metadata.chunked_context.padded_local_cu_seq_lens[
+                    i
+                ],
+                batch_size=attn_metadata.num_prefills,
+                seq_starts=prefill_metadata.chunked_context.starts[i],
+            )
+            # workspace
+            # |------- N tokens --------|--------- N*dcp_size tokens ----------|
+            # |<- use for loca_gather ->|<--------- use for allgather -------->|
+            allgather_offset = workspace.shape[0] // (dcp_world_size + 1)
+            assert allgather_offset * (dcp_world_size + 1) == workspace.shape[0]
+            assert toks <= allgather_offset
+            local_gathered_kvcache = workspace[:toks]
+            cur_allgather_workspace = workspace[
+                allgather_offset : allgather_offset * (1 + dcp_world_size)
+            ]
+            assert toks * dcp_world_size <= cur_allgather_workspace.shape[0]
+            cur_allgather_kvcache = cur_allgather_workspace[: toks * dcp_world_size]
+            cur_allgather_kvcache.copy_(
+                get_dcp_group().all_gather(local_gathered_kvcache, dim=0)
+            )
+            assert (
+                cur_allgather_kvcache.shape[-1]
+                == self.kv_lora_rank + self.qk_rope_head_dim
+            )
+            allgatered_kv_c_normed, allgatered_k_pe = cur_allgather_kvcache.unsqueeze(
+                1
+            ).split([self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
+
+            kv_c_normed, k_pe = reorg_kvcache(
+                allgatered_kv_c_normed,
+                allgatered_k_pe,
+                padded_local_chunk_seq_lens_lst=prefill_metadata.chunked_context.padded_local_chunk_seq_lens[
+                    i
+                ],
+                local_context_lens_allranks=prefill_metadata.chunked_context.local_context_lens_allranks,
+                sum_seq_len=prefill_metadata.chunked_context.cu_seq_lens_lst[i][-1],
+                max_seq_len=prefill_metadata.chunked_context.max_seq_lens[i],
+                chunk_size=prefill_metadata.chunked_context.chunk_size,
+                chunk_idx=i,
+                toks=toks,
+            )
+
+            kv_nope = self.kv_b_proj(kv_c_normed)[0].view(
+                -1, self.num_heads, self.qk_nope_head_dim + self.v_head_dim
+            )
+            k_nope, v = kv_nope.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+            k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
+            
+            attn_output = torch.empty(q.shape[0], self.num_heads, self.v_head_dim, dtype=q.dtype, device=q.device)
+
+            attn_output, attn_softmax_lse = self._run_prefill_context_chunk(
+                prefill=prefill_metadata,
+                chunk_idx=i,
+                q=q,
+                k=k,
+                v=v,
+                out=attn_output,
+            )
+
+            if output is None:
+                output = attn_output
+                output_lse = attn_softmax_lse
+            else:
+                merge_attn_states(
+                    prefix_output=output,
+                    prefix_lse=output_lse,
+                    suffix_output=attn_output,
+                    suffix_lse=attn_softmax_lse,
+                    return_lse=True,
+                )
+        return output, output_lse
+
+    def _forward_prefill(
+        self,
+        q: torch.Tensor,
+        kv_c_normed: torch.Tensor,
+        k: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+        kv_c_and_k_pe_cache_scale: torch.Tensor |None = None,
+    ) -> torch.Tensor:
+        # TODO (zyongye): Prefill function here
+        assert attn_metadata.prefill is not None
+        assert self.dcp_world_size is not None
+
+        has_context = attn_metadata.prefill.chunked_context is not None
+        kv_nope = self.kv_b_proj(kv_c_normed)[0].view(
+            -1, self.num_heads, self.qk_nope_head_dim + self.v_head_dim
+        )
+        k_nope, v_nope = kv_nope.split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+
+        v = v_nope
+        k[...,:self.qk_nope_head_dim] = k_nope
+        
+        attn_output = torch.empty(q.shape[0], self.num_heads, self.v_head_dim, dtype=q.dtype, device=q.device)
+        
+        output = self._run_prefill_new_tokens(
+            prefill=attn_metadata.prefill,
+            q=q,
+            k=k,
+            v=v,
+            return_softmax_lse=has_context,
+            out=attn_output,
+        )
+
+        if has_context:
+            suffix_output, suffix_lse = output
+            if self.dcp_world_size > 1:
+                context_output, context_lse = (
+                    self._context_parallel_compute_prefill_context(
+                        q,
+                        kv_c_and_k_pe_cache,
+                        attn_metadata,
+                        k_scale=None,
+                        dcp_world_size=self.dcp_world_size,
+                    )
+                )
+            else:
+                context_output, context_lse = self._compute_prefill_context( \
+                q, kv_c_and_k_pe_cache, kv_c_and_k_pe_cache_scale, attn_metadata)
+
+            output = torch.empty_like(suffix_output)
+            output = merge_attn_states(
+                output=output,
+                prefix_output=context_output,
+                prefix_lse=context_lse,
+                suffix_output=suffix_output,
+                suffix_lse=suffix_lse,
+            )
+
+        # unpad if necessary
+        if self._pad_v:
+            output = output[..., : v.shape[-1]]
+
+        return output
+
+    @abstractmethod
+    def _forward_decode(
+        self,
+        ql_nope: torch.Tensor,
+        q_pe: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: M,
+        k_c_normed: torch.Tensor | None,
+        k_pe: torch.Tensor | None,
+        kv_c_and_k_pe_cache_scale: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        raise NotImplementedError
+    
+    def forward_prepare(
+        self,
+        positions: torch.Tensor,
+    ) -> None:
+        self.positions = positions
+
+    def forward(
+        self,
+        layer: AttentionLayer,
+        q: torch.Tensor,  # query in unified attn
+        k_c_normed: torch.Tensor,  # key in unified attn
+        k_pe: torch.Tensor,  # value in unified attn
+        kv_cache: torch.Tensor,
+        attn_metadata: M,
+        output: torch.Tensor | None = None,
+        kv_cache_scale: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for MLACommonImpl"
+            )
+
+        if attn_metadata is None:
+            # During the profile run try to simulate to worse case output size
+            # for `self.kv_b_proj(kv_c_normed)` in `_compute_prefill_context`
+            # since this can be large
+            _ = torch.empty(
+                (
+                    self.chunked_prefill_workspace_size,
+                    self.num_heads,
+                    self.qk_nope_head_dim + self.v_head_dim,
+                ),
+                device=k_c_normed.device,
+                dtype=k_c_normed.dtype,
+            )
+
+            # The zero fill is required when used with DP + EP
+            # to ensure all ranks within a DP group compute the
+            # same expert outputs.
+            output = torch.empty(output.shape[0], self.v_head_dim * self.num_heads, device=q.device,
+                             dtype=q.dtype)
+            return output
+
+        if self.dcp_world_size is None:
+            self.dcp_world_size = get_dcp_group().world_size
+
+        fp8_attention = self.kv_cache_dtype.startswith("fp8")
+
+        # num_actual_toks = attn_metadata.num_actual_tokens
+
+        # Inputs and outputs may be padded for CUDA graphs
+        # output_padded = output
+        # output = output[:num_actual_toks, ...]
+        # q = q[:num_actual_toks, ...]
+        # k_c_normed = k_c_normed[:num_actual_toks, ...]
+        # k_pe = k_pe[:num_actual_toks, ...]
+
+        assert (
+            attn_metadata.num_decodes is not None
+            and attn_metadata.num_prefills is not None
+            and attn_metadata.num_decode_tokens is not None
+        )
+
+        has_decode = attn_metadata.num_decodes > 0
+        has_prefill = attn_metadata.num_prefills > 0
+        num_decode_tokens = attn_metadata.num_decode_tokens
+
+        decode_q = q[:num_decode_tokens]
+        k_pe = k_pe.unsqueeze(1)
+        prefill_q = q[num_decode_tokens:]
+        prefill_k_pe = k_pe[num_decode_tokens:]
+        prefill_k_c_normed = k_c_normed[num_decode_tokens:]
+        prefill_k = torch.empty_like(prefill_q)
+
+        # write the latent and rope to kv cache
+        write_kv_cache = (None, None)
+        if kv_cache.numel() > 0:
+            if has_decode:
+                decode_q_pe, decode_k_pe = self.rotary_emb(self.positions[:num_decode_tokens], decode_q[..., self.qk_nope_head_dim:], k_pe[:num_decode_tokens],)
+                if envs.VLLM_USE_INT8_MLA:
+                    k_c_normed_int8, k_c_normed_scale,_ = ops.scaled_int8_quant(k_c_normed[:num_decode_tokens])
+                    decode_k_pe_int8, decode_k_pe_scale,_ = ops.scaled_int8_quant(decode_k_pe.contiguous())
+                    ops.concat_and_cache_mla_int8(
+                        kv_c_int8 = k_c_normed_int8,
+                        kv_c_scale = k_c_normed_scale[...,0],
+                        k_pe_int8 = decode_k_pe_int8,
+                        k_pe_scale = decode_k_pe_scale[...,0].view(-1,decode_k_pe_int8.shape[-2]),
+                        kv_cache = kv_cache,
+                        kv_cache_scale = kv_cache_scale,
+                        slot_mapping = attn_metadata.slot_mapping.flatten()[:num_decode_tokens],
+                        kv_cache_dtype=self.kv_cache_dtype,
+                        scale=layer._k_scale,
+                    )
+                else:
+                    if self.dcp_world_size > 1:
+                        ops.concat_and_cache_mla(
+                            k_c_normed[:num_decode_tokens],
+                            decode_k_pe,
+                            kv_cache,
+                            attn_metadata.slot_mapping.flatten()[:num_decode_tokens],
+                            kv_cache_dtype=self.kv_cache_dtype,
+                            scale=layer._k_scale,
+                        )
+                    else:
+                        write_kv_cache = (k_c_normed[:num_decode_tokens], decode_k_pe)
+            if has_prefill:
+                ixf_ops.mla_rope(self.positions[num_decode_tokens:], prefill_q[..., self.qk_nope_head_dim:], prefill_k_pe.squeeze(1), prefill_k[...,self.qk_nope_head_dim:], self.rotary_emb.cos_sin_cache)
+                if envs.VLLM_USE_INT8_MLA:
+                    prefill_k_c_normed_int8, prefill_k_c_normed_scale,_ = ops.scaled_int8_quant(prefill_k_c_normed)
+                    prefill_k_pe_int8, prefill_k_pe_scale,_ = ops.scaled_int8_quant(prefill_k[...,self.qk_nope_head_dim:].contiguous())
+                    ops.concat_and_cache_mla_int8(
+                        prefill_k_c_normed_int8,
+                        prefill_k_c_normed_scale[...,0],
+                        prefill_k_pe_int8,
+                        prefill_k_pe_scale[...,0].view(-1,prefill_k_pe_int8.shape[-2]),
+                        kv_cache,
+                        kv_cache_scale,
+                        attn_metadata.slot_mapping.flatten()[num_decode_tokens:],
+                        self.kv_cache_dtype,
+                        layer._k_scale,
+                    )
+                else:
+                    ops.concat_and_cache_mla(
+                        prefill_k_c_normed,
+                        prefill_k[...,self.qk_nope_head_dim:],
+                        kv_cache,
+                        attn_metadata.slot_mapping.flatten()[num_decode_tokens:],
+                        kv_cache_dtype=self.kv_cache_dtype,
+                        scale=layer._k_scale,
+                    )
+        output = torch.empty(output.shape[0],
+                             self.num_heads, self.v_head_dim, 
+                             device=q.device,
+                             dtype=q.dtype)
+
+        if fp8_attention:
+            kv_cache = kv_cache.view(current_platform.fp8_dtype())
+
+        if has_prefill:
+            output[num_decode_tokens:] = self._forward_prefill(
+                prefill_q, prefill_k_c_normed, prefill_k, kv_cache, 
+                attn_metadata, kv_c_and_k_pe_cache_scale=kv_cache_scale)
+
+
+        if has_decode:
+            attn_out, lse = self._forward_decode(
+                    decode_q[..., :self.qk_nope_head_dim], decode_q_pe, kv_cache, attn_metadata, 
+                    *write_kv_cache, kv_c_and_k_pe_cache_scale=kv_cache_scale)
+            if self.dcp_world_size > 1:
+                assert lse is not None
+                attn_out = cp_lse_ag_out_rs(attn_out, lse, get_dcp_group())
+                output[:num_decode_tokens] = self._v_up_proj(attn_out)
+            else:
+                assert lse is None
+                output[:num_decode_tokens] =  attn_out
+                
+        return output.view(output.shape[0], self.v_head_dim * self.num_heads)
diff --git a/v1/attention/backends/mla/cutlass_mla.py b/v1/attention/backends/mla/cutlass_mla.py
new file mode 100644
index 0000000..60cb502
--- /dev/null
+++ b/v1/attention/backends/mla/cutlass_mla.py
@@ -0,0 +1,275 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from typing import ClassVar
+
+import torch
+
+import vllm._custom_ops as ops
+from vllm.attention.backends.abstract import (
+    AttentionLayer,
+    AttentionType,
+    MultipleOf,
+    is_quantized_kv_cache,
+)
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonImpl,
+    MLACommonMetadata,
+    MLACommonMetadataBuilder,
+)
+from vllm.v1.attention.backends.utils import AttentionCGSupport
+
+logger = init_logger(__name__)
+
+
+class CutlassMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
+    # enable full CUDA Graph support for decode-only capture
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
+        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    )
+
+
+class CutlassMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [128]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "CUTLASS_MLA"
+
+    @staticmethod
+    def get_impl_cls() -> type["CutlassMLAImpl"]:
+        return CutlassMLAImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["CutlassMLAMetadataBuilder"]:
+        return CutlassMLAMetadataBuilder
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 10
+
+
+class SM100Workspace:
+    def __init__(self, initial_workspace_size):
+        self._workspace_buf = torch.empty(
+            initial_workspace_size, device="cuda", dtype=torch.uint8
+        )
+
+        self._block_size = 128  # Forced to 128
+
+        # Pre-compute sm_count to avoid recomputing it. Use device 0 as a proxy
+        # (assumes all devices are similar)
+        properties = torch.cuda.get_device_properties(torch.device("cuda:0"))
+        self._sm_count = properties.multi_processor_count
+
+    def get_buf(self):
+        return self._workspace_buf
+
+    def ensure_size(self, attn_metadata: MLACommonMetadata, num_kv_splits: int):
+        batch_size = attn_metadata.num_reqs
+        max_seq_len = attn_metadata.max_query_len
+
+        workspace_size = ops.sm100_cutlass_mla_get_workspace_size(
+            max_seq_len * self._block_size,
+            batch_size,
+            self._sm_count,
+            num_kv_splits=num_kv_splits,
+        )
+
+        if self._workspace_buf.shape[0] < workspace_size:
+            self._workspace_buf.resize_(workspace_size)
+
+
+g_sm100_workspace = SM100Workspace(128 * 1024 * 1024)  # 128MB
+
+MAX_HEADS = 128
+
+
+class CutlassMLAImpl(MLACommonImpl[MLACommonMetadata]):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            q_pad_num_heads=MAX_HEADS,
+            **mla_args,
+        )
+
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "CutlassMLAImpl does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "CutlassMLAImpl"
+            )
+
+        # TODO: Currently, num_kv_splits is limited to 16 to avoid hanging
+        #       issues. In case the code hangs, use:
+        #       FORCE_NUM_KV_SPLITS=1
+        force_num_kv_splits = os.environ.get("FORCE_NUM_KV_SPLITS", None)
+        if force_num_kv_splits:
+            logger.debug_once("Forcing num_kv_splits to %d", int(force_num_kv_splits))
+            self._num_kv_splits = int(force_num_kv_splits)
+        else:
+            self._num_kv_splits = -1  # => Auto-detect
+
+        # Share workspace buffer across all executions
+        self._workspace = g_sm100_workspace
+
+    def _sm100_cutlass_mla_decode(
+        self,
+        q_nope: torch.Tensor,
+        q_pe: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        seq_lens: torch.Tensor,
+        page_table: torch.Tensor,
+        workspace: torch.Tensor,
+        sm_scale: float,
+        num_kv_splits: int,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        assert q_nope.ndim == 3, f"q_nope must be a 3D tensor, but got {q_nope.ndim}"
+        assert q_pe.ndim == 3, f"q_pe must be a 3D tensor, but got {q_pe.ndim}"
+        assert kv_c_and_k_pe_cache.ndim == 3, (
+            "kv_c_and_k_pe_cache must be a 3D tensor, but got {}".format(
+                kv_c_and_k_pe_cache.ndim
+            )
+        )
+
+        B_q, H, D_q_nope = q_nope.shape
+        B_q_2, H_2, D_q_pe = q_pe.shape
+        assert (B_q == B_q_2) and (H == H_2)
+
+        _, PAGE_SIZE, D_ckv = kv_c_and_k_pe_cache.shape
+
+        D_latent = 512
+        D_rope = 64
+        assert D_q_nope == D_latent
+        assert D_q_pe == D_rope
+        assert D_ckv == D_latent + D_rope
+
+        MAX_HEADS = 128
+        assert H <= MAX_HEADS, f"H must be <= {MAX_HEADS}, but got {H}"
+
+        assert len(page_table.shape) == 2
+        B_block_table, block_num = page_table.shape
+        assert B_block_table == B_q
+        assert block_num > 0, f"block num must be greater than 0, got {block_num}"
+        assert block_num % (128 / PAGE_SIZE) == 0
+
+        assert q_nope.dtype in (torch.float16, torch.bfloat16, torch.float8_e4m3fn), (
+            f"q_nope.dtype needs to be fp16 or bf16 or e4m3 but got {q_nope.dtype}."
+        )
+        assert q_nope.dtype == q_pe.dtype == kv_c_and_k_pe_cache.dtype
+        assert seq_lens.dtype == torch.int32, (
+            f"seq_lens.dtype needs to be int32 but got {seq_lens.dtype}."
+        )
+        assert page_table.dtype == torch.int32, (
+            f"page_table.dtype needs to be int32 but got {page_table.dtype}."
+        )
+
+        dtype = (
+            torch.bfloat16
+            if is_quantized_kv_cache(self.kv_cache_dtype)
+            else q_nope.dtype
+        )
+        out = q_nope.new_empty((B_q, MAX_HEADS, D_latent), dtype=dtype)
+        lse = (
+            torch.empty((B_q, MAX_HEADS), dtype=torch.float32, device=q_nope.device)
+            if self.need_to_return_lse_for_decode
+            else torch.Tensor()
+        )
+
+        ops.sm100_cutlass_mla_decode(
+            out,
+            lse,
+            q_nope,
+            q_pe,
+            kv_c_and_k_pe_cache,
+            seq_lens,
+            page_table,
+            workspace,
+            sm_scale,
+            num_kv_splits,
+        )
+
+        if H < MAX_HEADS:
+            # Extract the subsets of the outputs
+            lse = lse[:, :H] if self.need_to_return_lse_for_decode else lse
+            out = out[:, :H]
+
+        return out, lse
+
+    def _forward_decode(
+        self,
+        q: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+        layer: AttentionLayer,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if type(q) is tuple:
+            q_nope, q_pe = q
+        else:
+            q_nope, q_pe = torch.split(
+                q, [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1
+            )
+
+        # Adjust workspace size (if necessary)
+        self._workspace.ensure_size(attn_metadata, self._num_kv_splits)
+
+        # Run MLA
+        o, lse = self._sm100_cutlass_mla_decode(
+            q_nope,
+            q_pe,
+            kv_c_and_k_pe_cache,
+            attn_metadata.decode.seq_lens,
+            attn_metadata.decode.block_table,
+            self._workspace.get_buf(),
+            self.scale,
+            self._num_kv_splits,
+        )
+
+        return o, (lse if self.need_to_return_lse_for_decode else None)
diff --git a/v1/attention/backends/mla/flashattn_mla.py b/v1/attention/backends/mla/flashattn_mla.py
new file mode 100644
index 0000000..12639ed
--- /dev/null
+++ b/v1/attention/backends/mla/flashattn_mla.py
@@ -0,0 +1,337 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm import envs
+from vllm.attention.backends.abstract import (
+    AttentionLayer,
+    AttentionType,
+    MultipleOf,
+    is_quantized_kv_cache,
+)
+from vllm.attention.utils.fa_utils import (
+    flash_attn_supports_mla,
+    get_flash_attn_version,
+)
+from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonDecodeMetadata,
+    MLACommonImpl,
+    MLACommonMetadata,
+    MLACommonMetadataBuilder,
+    QueryLenSupport,
+)
+from vllm.v1.attention.backends.utils import AttentionCGSupport
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.vllm_flash_attn import flash_attn_varlen_func, get_scheduler_metadata
+
+logger = init_logger(__name__)
+
+
+class FlashAttnMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASH_ATTN_MLA"
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashAttnMLAMetadataBuilder"]:
+        return FlashAttnMLAMetadataBuilder
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashAttnMLAImpl"]:
+        return FlashAttnMLAImpl
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 9
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if not flash_attn_supports_mla():
+            return "FlashAttention MLA not supported on this device"
+        return None
+
+
+@dataclass
+class FlashAttnMLADecodeMetadata(MLACommonDecodeMetadata):
+    query_start_loc: torch.Tensor
+    max_query_len: int
+    max_seq_len: int
+    scheduler_metadata: torch.Tensor | None = None
+    max_num_splits: int = 0
+
+
+@dataclass
+class FlashAttnMLAMetadata(MLACommonMetadata[FlashAttnMLADecodeMetadata]):
+    pass
+
+
+class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.VARLEN
+    reorder_batch_threshold: int = 512  # process small prefills with decode pathway
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(
+            kv_cache_spec,
+            layer_names,
+            vllm_config,
+            device,
+            FlashAttnMLAMetadata,
+            supports_dcp_with_varlen=True,
+        )
+        self.max_num_splits = 0  # No upper bound on the number of splits.
+        self.fa_aot_schedule = get_flash_attn_version() == 3
+
+        self.use_full_cuda_graph = (
+            self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        )
+        self.max_cudagraph_size = self.compilation_config.max_cudagraph_capture_size
+
+        if self.use_full_cuda_graph and self.fa_aot_schedule:
+            self.scheduler_metadata = torch.zeros(
+                vllm_config.scheduler_config.max_num_seqs + 1,
+                dtype=torch.int32,
+                device=self.device,
+            )
+            # When using cuda graph, we need to set the upper bound of the
+            # number of splits so that large enough intermediate buffers are
+            # pre-allocated during capture.
+            self.max_num_splits = envs.VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH
+
+        if vllm_is_batch_invariant():
+            self.max_num_splits = 1
+
+    def _schedule_decode(
+        self,
+        num_reqs,
+        cu_query_lens,
+        max_query_len,
+        seqlens,
+        max_seq_len,
+        causal,
+        max_num_splits,
+    ):
+        if self.fa_aot_schedule:
+            return get_scheduler_metadata(
+                batch_size=num_reqs,
+                max_seqlen_q=max_query_len,
+                max_seqlen_k=max_seq_len,
+                num_heads_q=self.num_heads * self.dcp_world_size,
+                num_heads_kv=1,
+                headdim=self.mla_dims.qk_rope_head_dim,
+                cache_seqlens=seqlens,
+                qkv_dtype=self.kv_cache_spec.dtype,
+                headdim_v=self.mla_dims.kv_lora_rank,
+                page_size=self.page_size,
+                cu_seqlens_q=cu_query_lens,
+                causal=causal,
+                num_splits=max_num_splits,
+            )
+        return None
+
+    def _build_decode(
+        self,
+        block_table_tensor: torch.Tensor,
+        seq_lens_cpu: torch.Tensor,
+        seq_lens_device: torch.Tensor,
+        query_start_loc_cpu: torch.Tensor,
+        query_start_loc_device: torch.Tensor,
+        num_decode_tokens: int,
+        dcp_tot_seq_lens_device: torch.Tensor | None,
+    ) -> FlashAttnMLADecodeMetadata:
+        query_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+        max_query_len = query_lens_cpu.max().item()
+        max_seq_len = seq_lens_cpu.max().item()
+
+        # For Flash Attention MLA + full cudagraph
+        max_num_splits = 0
+        if self.use_full_cuda_graph and num_decode_tokens <= self.max_cudagraph_size:
+            # NOTE(woosuk): Setting num_splits > 1 may increase the memory
+            # usage, because the intermediate buffers of size [num_splits,
+            # num_heads, num_tokens, head_size] are allocated. Therefore,
+            # we only set num_splits when using cuda graphs.
+            max_num_splits = self.max_num_splits
+
+        if vllm_is_batch_invariant():
+            max_num_splits = 1
+
+        scheduler_metadata = self._schedule_decode(
+            num_reqs=seq_lens_cpu.numel(),
+            cu_query_lens=query_start_loc_device,
+            max_query_len=max_query_len,
+            seqlens=seq_lens_device,
+            max_seq_len=max_seq_len,
+            causal=True,
+            max_num_splits=max_num_splits,
+        )
+
+        if self.use_full_cuda_graph and scheduler_metadata is not None:
+            n = scheduler_metadata.shape[0]
+            # Ensure the persistent buffer is large enough
+            assert n <= self.scheduler_metadata.shape[0], (
+                f"Scheduler metadata size {n} exceeds buffer size "
+                + f"{self.scheduler_metadata.shape[0]}"
+            )
+            self.scheduler_metadata[:n] = scheduler_metadata
+            # NOTE(woosuk): We should zero out the rest of the scheduler
+            # metadata to guarantee the correctness. Otherwise, some thread
+            # blocks may use the invalid scheduler metadata and overwrite the
+            # output buffer.
+            self.scheduler_metadata[n:] = 0
+            scheduler_metadata = self.scheduler_metadata[:n]
+
+        metadata = FlashAttnMLADecodeMetadata(
+            block_table=block_table_tensor,
+            seq_lens=seq_lens_device,
+            query_start_loc=query_start_loc_device,
+            max_query_len=max_query_len,
+            max_seq_len=max_seq_len,
+            scheduler_metadata=scheduler_metadata,
+            max_num_splits=max_num_splits,
+            dcp_tot_seq_lens=dcp_tot_seq_lens_device,
+        )
+        return metadata
+
+
+class FlashAttnMLAImpl(MLACommonImpl[FlashAttnMLAMetadata]):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+
+        assert flash_attn_supports_mla(), "FlashAttnMLA is not supported on this device"
+
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "FlashAttnMLAImpl does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "FlashAttnMLAImpl"
+            )
+
+        if is_quantized_kv_cache(self.kv_cache_dtype):
+            raise NotImplementedError(
+                "FlashAttnMLA V1 with FP8 KV cache not yet supported"
+            )
+
+    def _forward_decode(
+        self,
+        q: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: FlashAttnMLAMetadata,
+        layer: AttentionLayer,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if type(q) is tuple:
+            q_nope, q_pe = q
+        else:
+            q_nope, q_pe = torch.split(
+                q, [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1
+            )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            raise NotImplementedError("FP8 FlashAttention MLA not yet supported")
+
+        kv_c_cache = kv_c_and_k_pe_cache[..., : self.kv_lora_rank]
+        k_pe_cache = kv_c_and_k_pe_cache[..., self.kv_lora_rank :]
+
+        # NOTE(matt): During CUDA graph capture, max_query_len can be 0, but the
+        # kernel uses this to calculate grid dimensions. Ensure it's at least 1
+        # to prevent invalid grid configuration during graph capture.
+        max_seqlen_q = max(attn_metadata.decode.max_query_len, 1)
+
+        attn_out = flash_attn_varlen_func(
+            q=q_pe,
+            k=k_pe_cache.unsqueeze(-2),  # Add head dim of 1
+            v=kv_c_cache.unsqueeze(-2),  # Add head dim of 1
+            q_v=q_nope,
+            max_seqlen_q=max_seqlen_q,
+            cu_seqlens_q=attn_metadata.decode.query_start_loc,
+            max_seqlen_k=attn_metadata.decode.max_seq_len,
+            seqused_k=attn_metadata.decode.seq_lens,
+            block_table=attn_metadata.decode.block_table,
+            softmax_scale=self.scale,
+            causal=True,
+            return_softmax_lse=self.need_to_return_lse_for_decode,
+            fa_version=3,  # only version 3 is supported
+            scheduler_metadata=attn_metadata.decode.scheduler_metadata,
+            num_splits=attn_metadata.decode.max_num_splits,
+            cp_world_size=self.dcp_world_size,
+            cp_rank=self.dcp_rank,
+            cp_tot_seqused_k=attn_metadata.decode.dcp_tot_seq_lens,
+        )
+
+        if self.need_to_return_lse_for_decode:
+            o, lse = attn_out
+            # FA returns LSE in shape [ H, B ] but DCP wants [ B, H ]
+            return o, lse.transpose(0, 1)  # [ H, B ] -> [ B, H ]
+        else:
+            o = attn_out
+            return o, None
diff --git a/v1/attention/backends/mla/flashinfer_mla.py b/v1/attention/backends/mla/flashinfer_mla.py
new file mode 100644
index 0000000..52bb19e
--- /dev/null
+++ b/v1/attention/backends/mla/flashinfer_mla.py
@@ -0,0 +1,171 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import ClassVar
+
+import torch
+from flashinfer.decode import trtllm_batch_decode_with_kv_cache_mla
+
+from vllm.attention.backends.abstract import (
+    AttentionLayer,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonImpl,
+    MLACommonMetadata,
+    MLACommonMetadataBuilder,
+    QueryLenSupport,
+)
+from vllm.v1.attention.backends.utils import AttentionCGSupport, KVCacheLayoutType
+
+logger = init_logger(__name__)
+
+FLASHINFER_MLA_WORKSPACE_BUFFER_SIZE = 128 * 1024 * 1024
+
+
+class FlashInferMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.UNIFORM
+
+
+class FlashInferMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [32, 64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASHINFER_MLA"
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashInferMLAImpl"]:
+        return FlashInferMLAImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashInferMLAMetadataBuilder"]:
+        return FlashInferMLAMetadataBuilder
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 10
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> "KVCacheLayoutType | None":
+        return "HND"
+
+
+g_fi_workspace = torch.zeros(
+    FLASHINFER_MLA_WORKSPACE_BUFFER_SIZE,
+    dtype=torch.uint8,
+    device="cuda",
+)
+
+
+class FlashInferMLAImpl(MLACommonImpl[MLACommonMetadata]):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "FlashInferMLAImpl does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "FlashInferMLAImpl"
+            )
+
+        self._workspace_buffer = g_fi_workspace
+        self.bmm1_scale: float | None = None
+        self.bmm2_scale: float | None = None
+
+    def _forward_decode(
+        self,
+        q: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+        layer: AttentionLayer,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if isinstance(q, tuple):
+            q_nope, q_pe = q
+            q = torch.cat([q_nope, q_pe], dim=-1)
+
+        # trtllm API requires extra dimension q_len_per_request for MTP
+        if attn_metadata.num_decode_tokens % attn_metadata.num_decodes != 0:
+            logger.warning_once(
+                """FlashInferMLAImpl got a query of uneven length.
+                This usually indicates an issue in batch reordering
+                or incorrect setup in dummy_run."""
+            )
+            q = q.unsqueeze(1)
+        else:
+            q = q.view(attn_metadata.num_decodes, -1, q.shape[-2], q.shape[-1])
+
+        if self.bmm1_scale is None:
+            self.bmm1_scale = layer._q_scale_float * layer._k_scale_float * self.scale
+        if self.bmm2_scale is None:
+            self.bmm2_scale = layer._v_scale_float
+
+        o = trtllm_batch_decode_with_kv_cache_mla(
+            query=q,
+            kv_cache=kv_c_and_k_pe_cache.unsqueeze(1),
+            workspace_buffer=self._workspace_buffer,
+            qk_nope_head_dim=self.qk_nope_head_dim,
+            kv_lora_rank=self.kv_lora_rank,
+            qk_rope_head_dim=self.qk_rope_head_dim,
+            block_tables=attn_metadata.decode.block_table,
+            seq_lens=attn_metadata.decode.seq_lens,
+            max_seq_len=attn_metadata.max_seq_len,
+            bmm1_scale=self.bmm1_scale,
+            bmm2_scale=self.bmm2_scale,
+        )
+
+        # Flatten the output for consistent shape
+        o = o.view(-1, o.shape[-2], o.shape[-1])
+
+        # TODO: Return LSE pending support from Flashinfer API:
+        # https://github.com/flashinfer-ai/flashinfer/pull/1566
+        return o, None
diff --git a/v1/attention/backends/mla/flashmla.py b/v1/attention/backends/mla/flashmla.py
new file mode 100644
index 0000000..3aab1f9
--- /dev/null
+++ b/v1/attention/backends/mla/flashmla.py
@@ -0,0 +1,314 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionLayer, AttentionType, MultipleOf
+from vllm.attention.ops.flashmla import (
+    flash_mla_with_kvcache,
+    get_mla_metadata,
+    is_flashmla_dense_supported,
+)
+from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonDecodeMetadata,
+    MLACommonImpl,
+    MLACommonMetadata,
+    MLACommonMetadataBuilder,
+    QueryLenSupport,
+)
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    reshape_attn_output_for_spec_decode,
+    reshape_query_for_spec_decode,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+
+class FlashMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASHMLA"
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashMLAMetadataBuilder"]:
+        return FlashMLAMetadataBuilder
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashMLAImpl"]:
+        return FlashMLAImpl
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major in [9, 10]
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if use_sparse:
+            from vllm.attention.ops.flashmla import is_flashmla_sparse_supported
+
+            return is_flashmla_sparse_supported()[1]
+        else:
+            from vllm.attention.ops.flashmla import is_flashmla_dense_supported
+
+            return is_flashmla_dense_supported()[1]
+
+
+@dataclass
+class FlashMLADecodeMetadata(MLACommonDecodeMetadata):
+    tile_scheduler_metadata: torch.Tensor
+    num_splits: torch.Tensor
+
+
+@dataclass
+class FlashMLAMetadata(MLACommonMetadata[FlashMLADecodeMetadata]):
+    pass
+
+
+class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.UNIFORM
+    reorder_batch_threshold: int = 128  # process small prefills with decode pathway
+    # ^ TODO(matt): tune this
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(
+            kv_cache_spec, layer_names, vllm_config, device, FlashMLAMetadata
+        )
+
+        self.num_q_heads = vllm_config.model_config.get_num_attention_heads(
+            vllm_config.parallel_config
+        )
+
+        self.cg_buf_tile_scheduler_metadata = None
+        self.cg_buf_num_splits = None
+        self.is_fp8_kvcache = vllm_config.cache_config.cache_dtype.startswith("fp8")
+
+        device_properties = torch.cuda.get_device_properties(self.device)
+        num_sms = device_properties.multi_processor_count
+
+        if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+            self.cg_buf_tile_scheduler_metadata = torch.zeros(
+                # Upper bound on size (<= #SMs, TileSchedulerMetaDataSize)
+                # TileSchedulerMetaDataSize = 8
+                (num_sms, 8),
+                device=self.device,
+                dtype=torch.int32,
+            )
+            self.cg_buf_num_splits = torch.empty(
+                (vllm_config.scheduler_config.max_num_seqs + 1),
+                device=self.device,
+                dtype=torch.int32,
+            )
+
+    def _build_decode(
+        self,
+        block_table_tensor: torch.Tensor,
+        seq_lens_cpu: torch.Tensor,
+        seq_lens_device: torch.Tensor,
+        query_start_loc_cpu: torch.Tensor,
+        query_start_loc_device: torch.Tensor,
+        num_decode_tokens: int,
+        dcp_tot_seq_lens_device: torch.Tensor | None,
+    ) -> FlashMLADecodeMetadata:
+        query_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+        # we use the max but all should be the same due to uniform length requirement
+        max_query_len = query_lens_cpu.max().item()
+        num_q_tokens_per_head_k = max_query_len * self.num_q_heads // 1
+        tile_scheduler_metadata, num_splits = get_mla_metadata(
+            seq_lens_device,
+            num_q_tokens_per_head_k,
+            1,  # MQA for the decode path
+            is_fp8_kvcache=self.is_fp8_kvcache,
+        )
+
+        # TODO: we can disambiguate between decode and mixed-prefill decode here
+        # so we can only use the persistent buffer if a cudagraph is actually
+        # being used.
+        if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+            assert self.cg_buf_tile_scheduler_metadata is not None
+            assert self.cg_buf_num_splits is not None
+
+            sm_parts = tile_scheduler_metadata.size(0)
+            # Metadata per-SM, upper bound on size (<= #SMs, TileMetadataSize)
+            assert sm_parts <= self.cg_buf_tile_scheduler_metadata.size(0)
+            tile_scheduler_metadata_view = self.cg_buf_tile_scheduler_metadata[
+                :sm_parts
+            ]
+            tile_scheduler_metadata_view.copy_(tile_scheduler_metadata)
+            tile_scheduler_metadata = tile_scheduler_metadata_view
+
+            # Num splits is per-batch, varying size (batch_size,)
+            n = num_splits.size(0)
+            # make sure static buffer is large enough
+            assert n <= self.cg_buf_num_splits.size(0)
+            num_splits_view = self.cg_buf_num_splits[:n]
+            num_splits_view.copy_(num_splits)
+            # Num splits needs to monotonically increasing
+            # (with: https://github.com/vllm-project/FlashMLA/pull/3, otherwise
+            #  it needs to monotonically increasing by 1)
+            self.cg_buf_num_splits[n:].fill_(num_splits[-1])
+            num_splits = num_splits_view
+
+        return FlashMLADecodeMetadata(
+            block_table=block_table_tensor,
+            seq_lens=seq_lens_device,
+            tile_scheduler_metadata=tile_scheduler_metadata,
+            num_splits=num_splits,
+            dcp_tot_seq_lens=dcp_tot_seq_lens_device,
+        )
+
+
+class FlashMLAImpl(MLACommonImpl[FlashMLAMetadata]):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+
+        is_supported, reason = is_flashmla_dense_supported()
+        assert is_supported, reason
+
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "FlashMLAImpl does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "FlashMLAImpl"
+            )
+
+    def _forward_decode(
+        self,
+        q: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: FlashMLAMetadata,
+        layer: AttentionLayer,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        # TODO: (zyongye) decode function for mla here
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if type(q) is tuple:
+            q = torch.cat(q, dim=-1)
+
+        # mypy assertion: q is now always a tensor
+        assert isinstance(q, torch.Tensor)
+
+        num_decodes = attn_metadata.num_decodes
+        q = reshape_query_for_spec_decode(q, num_decodes)
+
+        tile_scheduler_metadata = attn_metadata.decode.tile_scheduler_metadata
+        num_splits = attn_metadata.decode.num_splits
+        if vllm_is_batch_invariant():
+            device = q.device
+            dtype = torch.int32
+
+            B = q.shape[0]
+            # block_table shape: [batch_size, max_num_blocks_per_seq]
+            # The number of blocks per sequence is in the second dimension
+            topk = attn_metadata.decode.block_table.shape[-1]
+            B_TOPK = 64
+            assert topk % B_TOPK == 0, f"topk ({topk}) must be divisible by {B_TOPK}"
+            end_block_idx = topk // B_TOPK
+
+            # Single partition => num_sm_parts = 1
+            # TileSchedulerMetaDataSize = 8, layout:
+            # [begin_idx, begin_block_idx, end_idx, end_block_idx,
+            #  begin_n_split_idx, _, _, _]
+            tile_scheduler_metadata = torch.zeros((1, 8), dtype=dtype, device=device)
+            tile_scheduler_metadata[0, 0] = 0  # begin_idx
+            tile_scheduler_metadata[0, 1] = 0  # sched_begin_block_idx
+            tile_scheduler_metadata[0, 2] = B - 1  # end_idx
+            tile_scheduler_metadata[0, 3] = end_block_idx
+            tile_scheduler_metadata[0, 4] = 0  # begin_n_split_idx
+            # fields [5..7] stay 0
+
+            # Non-split path ignores num_splits, but the API requires it:
+            # zeros of length B+1
+            num_splits = torch.zeros((B + 1,), dtype=dtype, device=device)
+
+        o, lse = flash_mla_with_kvcache(
+            q=q,
+            k_cache=kv_c_and_k_pe_cache.unsqueeze(-2),  # Add head dim of 1
+            block_table=attn_metadata.decode.block_table,
+            cache_seqlens=attn_metadata.decode.seq_lens,
+            head_dim_v=self.kv_lora_rank,
+            tile_scheduler_metadata=tile_scheduler_metadata,
+            num_splits=num_splits,
+            softmax_scale=self.scale,
+            causal=True,
+            descale_q=layer._q_scale.reshape(1),
+            descale_k=layer._k_scale.reshape(1),
+        )
+
+        o = reshape_attn_output_for_spec_decode(o)
+
+        return o, lse
diff --git a/v1/attention/backends/mla/flashmla_sparse.py b/v1/attention/backends/mla/flashmla_sparse.py
new file mode 100644
index 0000000..44f27a0
--- /dev/null
+++ b/v1/attention/backends/mla/flashmla_sparse.py
@@ -0,0 +1,560 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, ClassVar, Optional
+
+import numpy as np
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionLayer,
+    MultipleOf,
+)
+from vllm.attention.backends.utils import get_mla_dims
+from vllm.attention.ops.flashmla import (
+    flash_mla_sparse_prefill,
+    flash_mla_with_kvcache,
+    get_mla_metadata,
+)
+from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
+from vllm.triton_utils import tl, triton
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.mla.common import MLACommonBaseImpl
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+if TYPE_CHECKING:
+    from vllm.model_executor.models.deepseek_v2 import Indexer
+
+logger = init_logger(__name__)
+"""
+NOTE: FlashMLA Sparse uses an fp8 cache with the following format
+
+In the "FP8 with scale" format, each token's KV cache is 656 Bytes,
+structured as:
+-   **First 512 bytes:** The "quantized NoPE" part, containing 512
+    `float8_e4m3` values.
+-   **Next 16 bytes:** Scale factors, containing 4 `float32` values.
+    The first `float32` is the scale for the first 128 `float8_e4m3` values,
+    the second for the next 128, and so on.
+-   **Last 128 bytes:** The "RoPE" part, containing 64 `bfloat16` values. This
+    part is not quantized for accuracy.
+"""
+
+
+class FlashMLASparseBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto", "fp8_ds_mla"]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASHMLA_SPARSE"
+
+    @staticmethod
+    def get_builder_cls() -> type["FlashMLASparseMetadataBuilder"]:
+        return FlashMLASparseMetadataBuilder
+
+    @staticmethod
+    def get_impl_cls() -> type["FlashMLASparseImpl"]:
+        return FlashMLASparseImpl
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [576]
+
+    @classmethod
+    def is_mla(cls) -> bool:
+        return True
+
+    @classmethod
+    def is_sparse(cls) -> bool:
+        return True
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major in [9, 10]
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,  # assumed to be 1 for MLA
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if cache_dtype_str == "fp8_ds_mla":
+            # custom storage fromat is 656 bytes
+            #  see FlashMLA readme.md for details
+            return (num_blocks, block_size, 656)
+        else:
+            return (num_blocks, block_size, head_size)
+
+
+@dataclass
+class FlashMLASparseMetadata:
+    num_reqs: int
+    max_query_len: int
+    max_seq_len: int
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    query_start_loc: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    block_table: torch.Tensor
+    req_id_per_token: torch.Tensor
+    block_size: int = 64
+    topk_tokens: int = 2048
+
+    @dataclass
+    class FP8KernelMetadata:
+        scheduler_metadata: torch.Tensor | None
+        num_splits: torch.Tensor
+        dummy_block_table: torch.Tensor
+        cache_lens: torch.Tensor
+
+    fp8_extra_metadata: FP8KernelMetadata | None = None
+
+
+@triton.jit
+def _convert_req_index_to_global_index_kernel(
+    req_id_ptr,  # int32 [num_tokens]
+    block_table_ptr,  # int32 [num_requests, max_num_blocks_per_req]
+    token_indices_ptr,  # int32 [num_tokens, NUM_TOPK_TOKENS]
+    out_ptr,  # int32 [num_tokens, NUM_TOPK_TOKENS]
+    # shapes (compile-time where possible)
+    max_num_blocks_per_req: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+    BLOCK_N: tl.constexpr,  # tile width along columns
+    # strides (in elements)
+    bt_stride0,
+    bt_stride1,
+    ti_stride0,
+    ti_stride1,
+    out_stride0,
+    out_stride1,
+):
+    # program_id(0) -> token_id (row)
+    # program_id(1) -> tile index along columns
+    token_id = tl.program_id(0)
+    tile_id = tl.program_id(1)
+
+    # Each program covers BLOCK_N consecutive columns
+    indice_id = tile_id * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    # Load request id for this token (no mask: grid is exact)
+    req = tl.load(req_id_ptr + token_id)
+
+    # Load token indices for this tile
+    ti_ptr = token_indices_ptr + token_id * ti_stride0 + indice_id * ti_stride1
+    tok = tl.load(ti_ptr)  # int32
+
+    # Only token == -1 should propagate as -1
+    is_invalid_tok = tok < 0
+
+    # Compute block id and in-block offset
+    block_id = tok // BLOCK_SIZE
+    inblock_off = tok % BLOCK_SIZE
+
+    # Guard block_table access
+    valid_block = block_id < max_num_blocks_per_req
+    bt_ptr = block_table_ptr + req * bt_stride0 + block_id * bt_stride1
+    base = tl.load(bt_ptr, mask=valid_block, other=0)
+
+    # If token == -1 OR block_id OOB, output -1; else base * BLOCK_SIZE + offset
+    out_val = tl.where(
+        is_invalid_tok | (~valid_block), -1, base * BLOCK_SIZE + inblock_off
+    )
+
+    # Store results
+    out_ptr_ij = out_ptr + token_id * out_stride0 + indice_id * out_stride1
+    tl.store(out_ptr_ij, out_val)
+
+
+def triton_convert_req_index_to_global_index(
+    req_id: torch.Tensor,  # int32 [num_tokens]
+    block_table: torch.Tensor,  # int32 [num_requests, max_num_blocks_per_req]
+    token_indices: torch.Tensor,  # int32 [num_tokens, NUM_TOPK_TOKENS]
+    BLOCK_SIZE: int = 64,
+    NUM_TOPK_TOKENS: int = 2048,
+    BLOCK_N: int = 128,  # tile width along columns
+):
+    """
+    out[token_id, indice_id] =
+        block_table[req_id[token_id],
+            token_indices[token_id, indice_id] // BLOCK_SIZE] * BLOCK_SIZE
+        + token_indices[token_id, indice_id] % BLOCK_SIZE
+
+    Only when token_indices[token_id, indice_id] == -1 do we output -1.
+    For safety, we also output -1 if the derived block_id would be
+        out-of-bounds.
+    """
+    assert req_id.dtype == torch.int32
+    assert block_table.dtype == torch.int32
+    assert token_indices.dtype == torch.int32
+    assert token_indices.shape[1] == NUM_TOPK_TOKENS
+    assert NUM_TOPK_TOKENS % BLOCK_N == 0, (
+        f"NUM_TOPK_TOKENS ({NUM_TOPK_TOKENS}) must be divisible byBLOCK_N ({BLOCK_N})"
+    )
+
+    num_tokens = req_id.shape[0]
+    num_requests, max_num_blocks_per_req = block_table.shape
+    tiles_per_row = NUM_TOPK_TOKENS // BLOCK_N
+
+    # Ensure contiguous tensors on the same device
+    req_id_c = req_id.contiguous()
+    block_table_c = block_table.contiguous()
+    token_indices_c = token_indices.contiguous()
+    out = torch.empty_like(token_indices_c)
+
+    # Strides in elements
+    bt_stride0, bt_stride1 = block_table_c.stride()
+    ti_stride0, ti_stride1 = token_indices_c.stride()
+    out_stride0, out_stride1 = out.stride()
+
+    # Exact 2D grid: tokens × column tiles
+    grid = (num_tokens, tiles_per_row)
+
+    _convert_req_index_to_global_index_kernel[grid](
+        req_id_c,
+        block_table_c,
+        token_indices_c,
+        out,
+        # shapes / constexprs
+        max_num_blocks_per_req,
+        BLOCK_SIZE,
+        BLOCK_N,
+        # strides
+        bt_stride0,
+        bt_stride1,
+        ti_stride0,
+        ti_stride1,
+        out_stride0,
+        out_stride1,
+    )
+    return out
+
+
+@dataclass
+class FlashMLASparseMetadataBuilder(AttentionMetadataBuilder[FlashMLASparseMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        cache_config = vllm_config.cache_config
+        self.kv_cache_spec = kv_cache_spec
+        self.model_config = vllm_config.model_config
+        parallel_config = vllm_config.parallel_config
+        self.device = device
+
+        props = torch.cuda.get_device_properties(device)
+        sm_count = props.multi_processor_count
+
+        self.num_heads = self.model_config.get_num_attention_heads(parallel_config)
+        self.mla_dims = get_mla_dims(self.model_config)
+        self.topk_tokens = vllm_config.model_config.hf_config.index_topk
+        self.use_fp8_kv_cache = cache_config.cache_dtype == "fp8_ds_mla"
+        self.topk_tokens_tensor = torch.tensor(
+            [self.topk_tokens], device=device, dtype=torch.int32
+        )
+        self.max_model_len_tensor = torch.tensor(
+            [self.model_config.max_model_len], device=device, dtype=torch.int32
+        )
+        # this is ignored by `flash_mla_with_kvcache` if indices not None
+        self.dummy_block_table = torch.empty(
+            (1, 1), dtype=torch.int32, device=self.device
+        )
+
+        # Equation taken from FlashMLA/csrc/pybind.cpp
+        h_q, h_k = self.num_heads, 1
+        s_q = 1  # inversely proportional to s_q, so s_q = 1 is the largest
+        max_num_sm_parts = int(
+            max((sm_count // 2) / h_k // (cdiv(h_q // h_k, 2 * 64) * s_q), 1)
+        )
+        if current_platform.is_device_capability(100):
+            max_num_sm_parts *= 2
+        self.tile_scheduler_metadata_buffer = torch.empty(
+            # TileSchedulerMetaDataSize = 8
+            # see: FlashMLA/csrc/params.h
+            (max_num_sm_parts, 8),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.num_splits_buffer = torch.empty(
+            # We pack all the tokens into one batch for sparse attention.
+            # Otherwise, we can exceed the sm of `get_mla_metadata`.
+            (2,),
+            dtype=torch.int32,
+            device=device,
+        )
+        self.req_id_per_token_buffer = torch.empty(
+            (vllm_config.scheduler_config.max_num_batched_tokens,),
+            dtype=torch.int32,
+            device=device,
+        )
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> FlashMLASparseMetadata:
+        num_tokens = common_attn_metadata.num_actual_tokens
+        starts = np.asarray(common_attn_metadata.query_start_loc_cpu, dtype=np.int32)
+        seg_lengths = np.diff(starts)
+        req_id_per_token = np.repeat(
+            np.arange(seg_lengths.shape[0], dtype=np.int32), seg_lengths
+        )
+        # Zero-fill for cudagraphs
+        self.req_id_per_token_buffer.fill_(0)
+        self.req_id_per_token_buffer[: req_id_per_token.shape[0]].copy_(
+            torch.from_numpy(req_id_per_token), non_blocking=True
+        )
+        req_id_per_token = self.req_id_per_token_buffer[:num_tokens]
+
+        fp8_extra_metadata = None
+        if self.use_fp8_kv_cache:
+            tile_scheduler_metadata, num_splits = get_mla_metadata(
+                cache_seqlens=self.topk_tokens_tensor,
+                num_q_tokens_per_head_k=num_tokens * self.num_heads,
+                topk=self.topk_tokens,
+                num_heads_q=self.num_heads,
+                num_heads_k=1,
+                is_fp8_kvcache=True,
+            )
+
+            num_sm_parts = tile_scheduler_metadata.size(0)
+            # Copy to persistent buffer for full-CG support
+            tile_scheduler_metadata_buffer = self.tile_scheduler_metadata_buffer[
+                :num_sm_parts
+            ]
+            tile_scheduler_metadata_buffer.copy_(tile_scheduler_metadata)
+            self.num_splits_buffer.copy_(num_splits)
+
+            fp8_extra_metadata = FlashMLASparseMetadata.FP8KernelMetadata(
+                scheduler_metadata=tile_scheduler_metadata_buffer,
+                num_splits=self.num_splits_buffer,
+                # cache_lens and block_table are basically unused in sparse case
+                # but the decode kernel will treat -1 and indices >= cache_lens
+                # as invalid so we make sure cache_lens is large enough to not
+                # accidentally mark indices invalid, we will use -1 exclusively
+                # to mark invalid indices
+                cache_lens=self.max_model_len_tensor,
+                dummy_block_table=self.dummy_block_table,
+            )
+
+        metadata = FlashMLASparseMetadata(
+            num_reqs=common_attn_metadata.num_reqs,
+            max_query_len=common_attn_metadata.max_query_len,
+            max_seq_len=common_attn_metadata.max_seq_len,
+            num_actual_tokens=common_attn_metadata.num_actual_tokens,
+            query_start_loc=common_attn_metadata.query_start_loc,
+            slot_mapping=common_attn_metadata.slot_mapping,
+            block_table=common_attn_metadata.block_table_tensor,
+            req_id_per_token=req_id_per_token,
+            block_size=self.kv_cache_spec.block_size,
+            topk_tokens=self.topk_tokens,
+            fp8_extra_metadata=fp8_extra_metadata,
+        )
+        return metadata
+
+
+class FlashMLASparseImpl(MLACommonBaseImpl[FlashMLASparseMetadata]):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        topk_indice_buffer: torch.Tensor | None = None,
+        indexer: Optional["Indexer"] = None,
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+        self.softmax_scale = scale
+        assert indexer is not None
+        self.topk_indices_buffer = indexer.topk_indices_buffer
+        self.padding = 128 if current_platform.is_device_capability(100) else 64
+
+    def _forward_bf16_kv(
+        self,
+        q: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        topk_indices: torch.Tensor,
+        attn_metadata: FlashMLASparseMetadata,
+    ) -> torch.Tensor:
+        num_tokens = q.shape[0]
+        kv_c_and_k_pe_cache = kv_c_and_k_pe_cache.view(
+            -1, 1, kv_c_and_k_pe_cache.shape[-1]
+        )
+
+        # NOTE(Chen): kernel requires num_local_head to be a multiple of
+        # 64 on hopper and 128 on blackwell
+        if self.num_heads % self.padding != 0:
+            assert self.padding % self.num_heads == 0
+            logger.warning_once(
+                f"padding num_heads to {self.padding} \
+                    due to sparse attn kernel requirement"
+            )
+            q_padded = q.new_empty((q.shape[0], self.padding, q.shape[2]))
+            q_padded[:, : self.num_heads, :] = q
+            q = q_padded
+
+        topk_indices = topk_indices.view(num_tokens, 1, -1)
+        output = flash_mla_sparse_prefill(
+            q, kv_c_and_k_pe_cache, topk_indices, self.softmax_scale
+        )
+        output = output[:, : self.num_heads, :]
+        return output
+
+    def _forward_fp8_kv(
+        self,
+        q: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        topk_indices: torch.Tensor,
+        attn_metadata: FlashMLASparseMetadata,
+    ) -> torch.Tensor:
+        assert attn_metadata.fp8_extra_metadata is not None
+        extra_metadata = attn_metadata.fp8_extra_metadata
+
+        _attn_out, _ = flash_mla_with_kvcache(
+            q=q.unsqueeze(0),  # unsqueeze to add batch_dim
+            k_cache=kv_c_and_k_pe_cache.view(torch.uint8).unsqueeze(-2),
+            block_table=extra_metadata.dummy_block_table,
+            head_dim_v=512,
+            cache_seqlens=extra_metadata.cache_lens,
+            tile_scheduler_metadata=extra_metadata.scheduler_metadata,
+            num_splits=extra_metadata.num_splits,
+            is_fp8_kvcache=True,
+            indices=topk_indices.unsqueeze(0),  # unsqueeze to add batch_dim
+            softmax_scale=self.softmax_scale,
+        )
+
+        return _attn_out
+    
+    def forward_prepare(
+        self,
+        positions: torch.Tensor,
+    ) -> None:
+        self.positions = positions
+
+    def forward(
+        self,
+        layer: AttentionLayer,
+        q: torch.Tensor,
+        k_c_normed: torch.Tensor,  # key in unified attn
+        k_pe: torch.Tensor,  # value in unified attn
+        kv_cache: torch.Tensor,
+        attn_metadata: FlashMLASparseMetadata,
+        output: torch.Tensor | None = None,
+        kv_cache_scale: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        # NOTE(lucas): for the sparse FlashMLA kernels the kernels want to use
+        # MQA 576/512 approach for both prefill and decode
+
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for MLACommonImpl"
+            )
+
+        if attn_metadata is None:
+            # The zero fill is required when used with DP + EP
+            # to ensure all ranks within a DP group compute the
+            # same expert outputs.
+            output = torch.empty(output.shape[0], self.v_head_dim * self.num_heads, device=q.device,
+                             dtype=q.dtype)
+            return output
+
+        num_actual_toks = attn_metadata.num_actual_tokens
+
+        # Inputs and outputs may be padded for CUDA graphs
+        k_pe = k_pe.unsqueeze(1)
+        q = q[:num_actual_toks, ...]
+        k_c_normed = k_c_normed[:num_actual_toks, ...]
+        k_pe = k_pe[:num_actual_toks, ...]
+
+        q_nope, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim],
+                               dim=-1)
+        q_pe, k_pe = self.rotary_emb(self.positions[:num_actual_toks], q_pe, k_pe)
+        
+        q_nope = self._k_up_proj(q_nope)
+        q_nope = q_nope.view(-1, self.num_heads, self.kv_lora_rank)
+
+        topk_indices = self.topk_indices_buffer[:num_actual_toks]
+
+        # TODO: handle index / kv_cache correctly
+        topk_indices_global = triton_convert_req_index_to_global_index(
+            attn_metadata.req_id_per_token,
+            attn_metadata.block_table,
+            topk_indices,
+            BLOCK_SIZE=attn_metadata.block_size,
+            NUM_TOPK_TOKENS=attn_metadata.topk_tokens,
+        )
+
+        q = torch.cat([q_nope, q_pe], dim=-1)
+
+        # write the latent and rope to kv cache
+        if kv_cache.numel() > 0:
+            ops.concat_and_cache_mla(
+                k_c_normed,
+                k_pe,
+                kv_cache,
+                attn_metadata.slot_mapping.flatten(),
+                kv_cache_dtype=self.kv_cache_dtype,
+                scale=layer._k_scale,
+            )
+
+        if self.kv_cache_dtype != "fp8_ds_mla":
+            attn_out = self._forward_bf16_kv(
+                q, kv_cache, topk_indices_global, attn_metadata
+            )
+        else:
+            attn_out = self._forward_fp8_kv(
+                q, kv_cache, topk_indices_global, attn_metadata
+            )
+        output = torch.empty(output.shape[0],
+                             self.num_heads, self.v_head_dim, 
+                             device=q.device,
+                             dtype=q.dtype)
+
+        output[:num_actual_toks] = self._v_up_proj(attn_out)
+        return output.view(output.shape[0], self.v_head_dim * self.num_heads)
diff --git a/v1/attention/backends/mla/indexer.py b/v1/attention/backends/mla/indexer.py
new file mode 100644
index 0000000..a9193d0
--- /dev/null
+++ b/v1/attention/backends/mla/indexer.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    MultipleOf,
+)
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.utils.deep_gemm import get_paged_mqa_logits_metadata
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+
+logger = init_logger(__name__)
+
+
+class DeepseekV32IndexerBackend(AttentionBackend):
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 128]
+
+    @staticmethod
+    def get_builder_cls() -> type["DeepseekV32IndexerMetadataBuilder"]:
+        return DeepseekV32IndexerMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        assert num_kv_heads == 1
+        return (num_blocks, block_size, head_size)
+
+    @staticmethod
+    def get_kv_cache_stride_order() -> tuple[int, ...]:
+        return (0, 1, 2)
+
+
+@dataclass
+class DeepseekV32IndexerPrefillChunkMetadata:
+    block_table: torch.Tensor
+    cu_seqlen_ks: torch.Tensor
+    cu_seqlen_ke: torch.Tensor
+    cu_seq_lens: torch.Tensor
+    total_seq_lens: int
+    token_start: int
+    token_end: int
+    num_reqs: int
+
+
+@dataclass
+class DeepseekV32IndexerPrefillMetadata:
+    chunks: list[DeepseekV32IndexerPrefillChunkMetadata]
+
+
+@dataclass
+class DeepSeekV32IndexerDecodeMetadata:
+    block_table: torch.Tensor
+    seq_lens: torch.Tensor
+    decode_lens: torch.Tensor
+    requires_padding: bool
+    # schedule_metadata: torch.Tensor
+
+
+@dataclass
+class DeepseekV32IndexerMetadata:
+    # FIXME (zyongye)
+    # hacky way to access the data now, need to be in chunked meta
+    seq_lens: torch.Tensor
+
+    num_reqs: int
+    max_query_len: int
+    max_seq_len: int
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    query_start_loc: torch.Tensor
+    slot_mapping: torch.Tensor
+    # The dimension of the attention heads
+    head_dim: int
+
+    # New for MLA (compared to FlashAttention)
+    # For handling prefill decode split
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+    num_prefill_tokens: int
+
+    decode: DeepSeekV32IndexerDecodeMetadata | None = None
+    prefill: DeepseekV32IndexerPrefillMetadata | None = None
+
+
+# TODO (zyongye) optimize this, this is now vibe coded
+def kv_spans_from_batches(
+    start_seq_loc: torch.Tensor, seq_len_per_batch: torch.Tensor, device: torch.device
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Args:
+      start_seq_loc: 1D long tensor [B+1], cumulative counts of
+                     selected tokens per batch.
+            Example: [0, 2, 4, 7] ->
+                     batch sizes (selected) [2, 2, 3], N=7 tokens total.
+      seq_len_per_batch: 1D long tensor [B],
+                         full sequence length (KV length) of each batch.
+                         Example: [5, 9, 4].
+
+    Returns:
+      start_tensor: 1D long tensor [N], start offset in the
+                    concatenated KV cache for each token's batch.
+      end_location: 1D long tensor [N],
+                    **exclusive** end = start + token's local position.
+                    (So the attended KV slice is kv[start:end].)
+
+    Assumes each batch contributes its full `seq_len_per_batch[i]`
+    keys to the KV cache, andthe selected tokens within a batch
+    are the **last** `counts[i]` positions of that sequence.
+    """
+    q = start_seq_loc.to(dtype=torch.long)
+    L = seq_len_per_batch.to(dtype=torch.long)
+    assert q.dim() == 1 and L.dim() == 1
+    assert q.numel() == L.numel() + 1, "start_seq_loc must have length B+1"
+
+    # Selected tokens per batch and totals
+    counts = q[1:] - q[:-1]  # [B]
+    N = int(q[-1].item())  # total selected tokens
+    B = L.numel()
+
+    if N == 0:
+        return (
+            torch.empty(0, dtype=torch.long, device=device),
+            torch.empty(0, dtype=torch.long, device=device),
+        )
+
+    # KV start offsets per batch in the concatenated KV cache
+    kv_starts_per_batch = torch.cumsum(L, dim=0) - L  # [B]
+
+    # For each selected token, which batch does it belong to?
+    batch_id = torch.repeat_interleave(torch.arange(B), counts)  # [N]
+
+    # Map batch KV start to each token
+    start_tensor = kv_starts_per_batch[batch_id]  # [N]
+
+    # End-align local positions inside each batch:
+    # local_pos = L[b] - counts[b] + (1..counts[b])  for each batch b
+    L_expand = torch.repeat_interleave(L, counts)  # [N]
+    m_expand = torch.repeat_interleave(counts, counts)  # [N]
+    # position within the selected block: 1..counts[b]
+    pos_within = (
+        torch.arange(N, dtype=torch.long) - torch.repeat_interleave(q[:-1], counts) + 1
+    )
+
+    local_pos = L_expand - m_expand + pos_within  # [N], 1-based
+    end_location = start_tensor + local_pos  # exclusive end
+
+    return start_tensor.int().to(device), end_location.int().to(device)
+
+
+def get_max_prefill_buffer_size(vllm_config: VllmConfig):
+    max_model_len = vllm_config.model_config.max_model_len
+    # NOTE(Chen): 2 is a magic number for controlling the prefill buffer size.
+    # May be tuned later.
+    return max_model_len * 2
+
+
+def split_prefill_chunks(
+    seq_lens_cpu: torch.Tensor, max_prefill_buffer_size: int, reqs_start: int
+) -> list[tuple[int, int]]:
+    """
+    Split the prefill chunks into a list of tuples of (reqs_start, reqs_end)
+    such that the total sequence length of each chunk is less than the
+    maximum prefill buffer size.
+
+    Args:
+        seq_lens_cpu: The sequence lengths of the prefill requests.
+        max_prefill_buffer_size: The maximum prefill buffer size.
+        reqs_start: The start index of the prefill requests.
+
+    Returns:
+        A list of tuples of (reqs_start, reqs_end).
+    """
+    chunk_seq_ids = []
+    total_seq_lens = 0
+    for i in range(reqs_start, len(seq_lens_cpu)):
+        cur_seq_len = seq_lens_cpu[i].item()
+        assert cur_seq_len <= max_prefill_buffer_size
+        total_seq_lens += cur_seq_len
+        if total_seq_lens > max_prefill_buffer_size:
+            chunk_seq_ids.append((reqs_start, i))
+            reqs_start = i
+            total_seq_lens = cur_seq_len
+    if total_seq_lens > 0:
+        chunk_seq_ids.append((reqs_start, len(seq_lens_cpu)))
+    return chunk_seq_ids
+
+
+class DeepseekV32IndexerMetadataBuilder(AttentionMetadataBuilder):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
+        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    )
+
+    reorder_batch_threshold: int = 1
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        scheduler_config = self.vllm_config.scheduler_config
+        # NOTE(Chen):an estimated max size of flattened_kv. Need to double check.
+        self.max_prefill_buffer_size = get_max_prefill_buffer_size(self.vllm_config)
+        self.num_speculative_tokens = (
+            self.vllm_config.speculative_config.num_speculative_tokens
+            if self.vllm_config.speculative_config
+            else 0
+        )
+        # Now deepgemm fp8_paged_mqa_logits does not support next_n > 2
+        self.reorder_batch_threshold += min(self.num_speculative_tokens, 1)
+
+        props = torch.cuda.get_device_properties(self.device)
+        sm_count = props.multi_processor_count
+        self.num_sms = sm_count
+
+        self.decode_lens_buffer = torch.empty(
+            (scheduler_config.max_num_seqs,), dtype=torch.int32, device=self.device
+        )
+
+        # See: DeepGMM/csrc/apis/attention.hpp
+        self.scheduler_metadata_buffer = torch.empty(
+            (self.num_sms + 1, 2), dtype=torch.int32, device=self.device
+        )
+
+    def build_one_prefill_chunk(
+        self, reqs_start, reqs_end, query_start_loc_cpu, seq_lens_cpu, block_table
+    ):
+        prefill_query_start_loc = (
+            query_start_loc_cpu[reqs_start : reqs_end + 1]
+            - query_start_loc_cpu[reqs_start]
+        )
+        cu_seqlen_ks, cu_seqlen_ke = kv_spans_from_batches(
+            prefill_query_start_loc, seq_lens_cpu[reqs_start:reqs_end], self.device
+        )
+        token_start = query_start_loc_cpu[reqs_start].item()
+        token_end = query_start_loc_cpu[reqs_end].item()
+        total_seq_lens = seq_lens_cpu[reqs_start:reqs_end].sum()
+        assert total_seq_lens <= self.max_prefill_buffer_size
+        cu_seq_lens = (
+            torch.cat(
+                [
+                    torch.zeros(1, dtype=torch.int32),
+                    seq_lens_cpu[reqs_start:reqs_end].cumsum(dim=0),
+                ]
+            )
+            .to(torch.int32)
+            .to(self.device)
+        )
+        return DeepseekV32IndexerPrefillChunkMetadata(
+            cu_seqlen_ks=cu_seqlen_ks,
+            cu_seqlen_ke=cu_seqlen_ke,
+            cu_seq_lens=cu_seq_lens,
+            total_seq_lens=total_seq_lens,
+            block_table=block_table[reqs_start:reqs_end],
+            token_start=token_start,
+            token_end=token_end,
+            num_reqs=reqs_end - reqs_start,
+        )
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> DeepseekV32IndexerMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        num_tokens = common_attn_metadata.num_actual_tokens
+
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        assert num_decodes + num_prefills == num_reqs
+        assert num_decode_tokens + num_prefill_tokens == num_tokens
+
+        prefill_metadata = None
+        if num_prefills > 0:
+            chunk_seq_ids = split_prefill_chunks(
+                common_attn_metadata.seq_lens_cpu,
+                self.max_prefill_buffer_size,
+                num_decodes,
+            )
+            chunks = [
+                self.build_one_prefill_chunk(
+                    reqs_start,
+                    reqs_end,
+                    query_start_loc_cpu,
+                    common_attn_metadata.seq_lens_cpu,
+                    common_attn_metadata.block_table_tensor,
+                )
+                for reqs_start, reqs_end in chunk_seq_ids
+            ]
+            prefill_metadata = DeepseekV32IndexerPrefillMetadata(
+                chunks=chunks,
+            )
+
+        decode_metadata = None
+        if num_decodes > 0:
+            torch.diff(
+                common_attn_metadata.query_start_loc[: num_decodes + 1],
+                out=self.decode_lens_buffer[:num_decodes],
+            )
+            decode_lens = self.decode_lens_buffer[:num_decodes]
+            decode_lens_cpu = torch.diff(
+                common_attn_metadata.query_start_loc_cpu[: num_decodes + 1]
+            )
+
+            # Use CPU to avoid GPU sync; breaking async scheduling
+            requires_padding = (decode_lens_cpu.max() > decode_lens_cpu.min()).item()
+
+            seq_lens = common_attn_metadata.seq_lens[:num_decodes]
+
+            # self.scheduler_metadata_buffer[:] = get_paged_mqa_logits_metadata(
+            #     seq_lens, self.kv_cache_spec.block_size, self.num_sms
+            # )
+            decode_metadata = DeepSeekV32IndexerDecodeMetadata(
+                block_table=common_attn_metadata.block_table_tensor[:num_decodes, ...],
+                seq_lens=common_attn_metadata.seq_lens[:num_decodes],
+                decode_lens=decode_lens,
+                requires_padding=requires_padding,
+                # schedule_metadata=self.scheduler_metadata_buffer,
+            )
+
+        attn_metadata = DeepseekV32IndexerMetadata(
+            seq_lens=common_attn_metadata.seq_lens,
+            num_reqs=common_attn_metadata.num_reqs,
+            max_query_len=common_attn_metadata.max_query_len,
+            max_seq_len=common_attn_metadata.max_seq_len,
+            num_actual_tokens=common_attn_metadata.num_actual_tokens,
+            query_start_loc=common_attn_metadata.query_start_loc,
+            slot_mapping=common_attn_metadata.slot_mapping,
+            head_dim=128,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            prefill=prefill_metadata,
+            decode=decode_metadata,
+        )
+
+        # if get_tensor_model_parallel_rank() == 0:
+        #     logger.info(f"attn_metadata: {attn_metadata}")
+        return attn_metadata
diff --git a/v1/attention/backends/mla/rocm_aiter_mla.py b/v1/attention/backends/mla/rocm_aiter_mla.py
new file mode 100644
index 0000000..e186452
--- /dev/null
+++ b/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -0,0 +1,294 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.attention.backends.abstract import AttentionLayer
+from vllm.config import VllmConfig
+from vllm.utils.math_utils import cdiv
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonDecodeMetadata,
+    MLACommonImpl,
+    MLACommonMetadata,
+    MLACommonMetadataBuilder,
+)
+from vllm.v1.attention.backends.utils import AttentionCGSupport
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+
+class AiterMLABackend(MLACommonBackend):
+    @staticmethod
+    def get_name() -> str:
+        return "ROCM_AITER_MLA"
+
+    @staticmethod
+    def get_impl_cls() -> type["AiterMLAImpl"]:
+        return AiterMLAImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["AiterMLAMetadataBuilder"]:
+        return AiterMLAMetadataBuilder
+
+
+@dataclass
+class AiterMLADecodeMetadata(MLACommonDecodeMetadata):
+    # The indptr of the paged kv cache, shape: [batch_size + 1]
+    paged_kv_indptr: torch.Tensor | None = None
+    # The page indices of the paged kv cache
+    paged_kv_indices: torch.Tensor | None = None
+    # The number of entries in the last page of each request in
+    # the paged kv cache, shape: [batch_size]
+    paged_kv_last_page_len: torch.Tensor | None = None
+    # The query indptr, shape : [num_decode + 1]
+    qo_indptr: torch.Tensor | None = None
+
+
+class AiterMLAMetadata(MLACommonMetadata[AiterMLADecodeMetadata]):
+    pass
+
+
+class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
+    # TODO(luka, lucas): audit this as part of:
+    #  https://github.com/vllm-project/vllm/issues/22945
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
+        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    )
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(
+            kv_cache_spec, layer_names, vllm_config, device, AiterMLAMetadata
+        )
+
+        self.compilation_config = vllm_config.compilation_config
+        max_num_pages_per_req = cdiv(
+            vllm_config.model_config.max_model_len, self.kv_cache_spec.block_size
+        )
+        max_num_reqs = vllm_config.scheduler_config.max_num_seqs
+        max_num_pages = max_num_reqs * max_num_pages_per_req
+
+        # Preparing persistent buffers
+        # TODO: we can disambiguate between decode and mixed-prefill decode here
+        # so we can only use the persistent buffer if a cudagraph is actually
+        # being used.
+        if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+            self.block_table_remapping = torch.zeros(
+                [max_num_reqs, max_num_pages_per_req * self.kv_cache_spec.block_size],
+                dtype=torch.int32,
+                device=device,
+            )
+            self.paged_kv_indptr = torch.zeros(
+                max_num_reqs + 1, dtype=torch.int32, device=device
+            )
+            self.paged_kv_indices = torch.zeros(
+                max_num_pages, dtype=torch.int32, device=device
+            )
+            self.paged_kv_last_page_len = torch.zeros(
+                max_num_reqs, dtype=torch.int32, device=device
+            )
+
+            self.qo_indptr = torch.arange(
+                0, max_num_reqs + 1, dtype=torch.int32, device=device
+            )
+
+    def _build_decode(
+        self,
+        block_table_tensor: torch.Tensor,
+        seq_lens_cpu: torch.Tensor,
+        seq_lens_device: torch.Tensor,
+        query_start_loc_cpu: torch.Tensor,
+        query_start_loc_device: torch.Tensor,
+        num_decode_tokens: int,
+        dcp_tot_seq_lens_device: torch.Tensor | None,
+    ) -> AiterMLADecodeMetadata:
+        page_size = self.kv_cache_spec.block_size
+        device = self.device
+        num_reqs = seq_lens_device.size(0)
+        bs, _ = block_table_tensor.shape
+        block_table_tensor = (
+            block_table_tensor.unsqueeze(-1).expand(-1, -1, page_size) * page_size
+        )
+        block_table_tensor = (
+            block_table_tensor
+            + torch.arange(
+                0,
+                page_size,
+                device=block_table_tensor.device,
+                dtype=block_table_tensor.dtype,
+            )[None, None, :]
+        )
+        block_table_tensor = block_table_tensor.view(bs, -1)
+
+        # after remapping, we assume the block size already equals to 1
+
+        max_blk_size_per_req = block_table_tensor.shape[-1]
+        mask = torch.arange(
+            block_table_tensor.size(1), dtype=block_table_tensor.dtype, device=device
+        ).unsqueeze(0) < seq_lens_device.unsqueeze(1)
+        paged_kv_indices = block_table_tensor[mask]
+
+        paged_kv_last_page_len = seq_lens_device % page_size
+        paged_kv_last_page_len = torch.where(
+            paged_kv_last_page_len == 0, page_size, paged_kv_last_page_len
+        )
+
+        paged_kv_indptr = torch.cat(
+            [
+                torch.zeros(1, dtype=seq_lens_device.dtype, device=device),
+                seq_lens_device.cumsum(dim=0, dtype=torch.int32),
+            ]
+        )
+
+        if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+            num_actual_pages = paged_kv_indices.size(0)
+            self.block_table_remapping[:num_reqs, :max_blk_size_per_req].copy_(
+                block_table_tensor, non_blocking=True
+            )
+            block_table_tensor = self.block_table_remapping[
+                :num_reqs, :max_blk_size_per_req
+            ]
+
+            self.paged_kv_indices[:num_actual_pages].copy_(
+                paged_kv_indices, non_blocking=True
+            )
+            self.paged_kv_indices[num_actual_pages:].fill_(-1)
+            paged_kv_indices = self.paged_kv_indices[:num_actual_pages]
+
+            self.paged_kv_indptr[: 1 + num_reqs].copy_(
+                paged_kv_indptr, non_blocking=True
+            )
+            self.paged_kv_indptr[1 + num_reqs :].fill_(paged_kv_indptr[-1])
+            paged_kv_indptr = self.paged_kv_indptr[: 1 + num_reqs]
+
+            self.paged_kv_last_page_len[:num_reqs].copy_(
+                paged_kv_last_page_len, non_blocking=True
+            )
+            self.paged_kv_last_page_len[num_reqs:].fill_(1)
+            paged_kv_last_page_len = self.paged_kv_last_page_len[:num_reqs]
+
+            qo_indptr = self.qo_indptr[: 1 + num_reqs]
+
+        else:
+            qo_indptr = torch.arange(
+                0, num_reqs + 1, step=1, dtype=torch.int32, device=device
+            )
+
+        attn_metadata = AiterMLADecodeMetadata(
+            block_table=block_table_tensor,
+            seq_lens=seq_lens_device,
+            paged_kv_indptr=paged_kv_indptr,
+            paged_kv_indices=paged_kv_indices,
+            paged_kv_last_page_len=paged_kv_last_page_len,
+            qo_indptr=qo_indptr,
+            dcp_tot_seq_lens=dcp_tot_seq_lens_device,
+        )
+
+        return attn_metadata
+
+
+class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+        assert num_heads == 16 or num_heads == 128, (
+            f"Aiter MLA only supports 16 or 128 number of heads.\n"
+            f"Provided {num_heads} number of heads.\n"
+            "Try adjusting tensor_parallel_size value."
+        )
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "Aiter MLA does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        from aiter import flash_attn_varlen_func
+
+        self.flash_attn_varlen_func = flash_attn_varlen_func
+
+    def _flash_attn_varlen_diff_headdims(
+        self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
+    ):
+        output = self.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            softmax_scale=softmax_scale,
+            return_lse=return_softmax_lse,
+            **kwargs,
+        )
+
+        return output
+
+    def _forward_decode(
+        self,
+        q: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: AiterMLAMetadata,
+        layer: AttentionLayer,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if type(q) is tuple:
+            q = torch.cat(q, dim=-1)
+
+        assert isinstance(q, torch.Tensor)
+        B = q.shape[0]
+        o = torch.zeros(
+            B, self.num_heads, self.kv_lora_rank, dtype=q.dtype, device=q.device
+        )
+
+        kv_buffer = kv_c_and_k_pe_cache.unsqueeze(2)
+
+        # max_seqlen_qo must be 1 except for MTP
+        # TODO: Find the best value for MTP
+        max_seqlen_qo = 1
+        rocm_aiter_ops.mla_decode_fwd(
+            q,
+            kv_buffer,
+            o,
+            self.scale,
+            attn_metadata.decode.qo_indptr,
+            max_seqlen_qo,
+            attn_metadata.decode.paged_kv_indptr,
+            attn_metadata.decode.paged_kv_indices,
+            attn_metadata.decode.paged_kv_last_page_len,
+        )
+
+        return o, None
diff --git a/v1/attention/backends/mla/triton_mla.py b/v1/attention/backends/mla/triton_mla.py
new file mode 100644
index 0000000..7a88082
--- /dev/null
+++ b/v1/attention/backends/mla/triton_mla.py
@@ -0,0 +1,206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionLayer,
+    AttentionType,
+    is_quantized_kv_cache,
+)
+from vllm.attention.ops.triton_decode_attention import decode_attention_fwd
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
+from vllm.distributed.parallel_state import get_dcp_group
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.mla.common import (
+    MLACommonBackend,
+    MLACommonImpl,
+    MLACommonMetadata,
+)
+import ixformer.inference.functions as ixf_ops
+import vllm.envs as envs
+from vllm import _custom_ops as ops
+
+logger = init_logger(__name__)
+
+
+class TritonMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
+
+    @staticmethod
+    def get_name() -> str:
+        return "TRITON_MLA"
+
+    @staticmethod
+    def get_impl_cls() -> type["TritonMLAImpl"]:
+        return TritonMLAImpl
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return True
+
+
+class TritonMLAImpl(MLACommonImpl[MLACommonMetadata]):
+    can_return_lse_for_decode: bool = True
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+
+        unsupported_features = [alibi_slopes, sliding_window, logits_soft_cap]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "TritonMLAImpl does not support one of the following: "
+                "alibi_slopes, sliding_window, logits_soft_cap"
+            )
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "TritonMLAImpl"
+            )
+
+        if is_quantized_kv_cache(self.kv_cache_dtype):
+            raise NotImplementedError(
+                "TritonMLA V1 with FP8 KV cache not yet supported"
+            )
+
+    def _flash_attn_varlen_diff_headdims(
+        self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
+    ):
+        return super()._flash_attn_varlen_diff_headdims(
+            q,
+            k,
+            v,
+            return_softmax_lse=return_softmax_lse,
+            softmax_scale=softmax_scale,
+            **kwargs,
+        )
+
+    def _forward_decode(
+        self,
+        q_nope: torch.Tensor,
+        q_pe: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: MLACommonMetadata,
+        k_c_normed: torch.Tensor | None,
+        k_pe: torch.Tensor | None,
+        kv_c_and_k_pe_cache_scale: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            raise NotImplementedError("FP8 Triton MLA not yet supported")
+
+        decode_meta = attn_metadata.decode
+        q_nope = self._k_up_proj(q_nope)
+        q_nope = q_nope.view(-1, self.num_heads, self.kv_lora_rank)
+
+        B = q_nope.shape[0]
+        
+        if self.dcp_world_size > 1:
+            q = torch.cat([q_nope, q_pe], dim=-1)
+            q = get_dcp_group().all_gather(q, dim=1)
+            o = torch.empty(B,
+                        q.shape[1],
+                        self.kv_lora_rank,
+                        dtype=q_nope.dtype,
+                        device=q_nope.device)
+            if envs.VLLM_USE_INT8_MLA:
+                q_int8, q_scale = ops.quant_kv(q)
+                attn_out, softmax_lse = ixf_ops.vllm_paged_attention_mla_int8(
+                o,
+                q_int8,
+                q_scale,
+                kv_c_and_k_pe_cache,
+                kv_c_and_k_pe_cache_scale, 
+                self.scale,
+                attn_metadata.decode.block_table,
+                attn_metadata.decode.seq_lens,
+                attn_metadata.decode.max_decode_seq_len,
+                return_softmax_lse=True   
+        )
+            else:
+                attn_out, softmax_lse = ixf_ops.vllm_paged_attention_mla(
+                    output=o,
+                    query=q, 
+                    kv_cache=kv_c_and_k_pe_cache, 
+                    scale=self.scale, 
+                    block_tables=attn_metadata.decode.block_table,
+                    context_lens=attn_metadata.decode.seq_lens,
+                    max_context_len=decode_meta.max_decode_seq_len,
+                    return_softmax_lse=True)
+            return attn_out, softmax_lse
+            
+        o = torch.empty(B,
+                        self.num_heads,
+                        self.kv_lora_rank,
+                        dtype=q_nope.dtype,
+                        device=q_nope.device)   
+
+        if envs.VLLM_USE_INT8_MLA:
+            q = torch.cat([q_nope, q_pe], dim=-1)
+            q_int8, q_scale = ops.quant_kv(q)
+            ixf_ops.vllm_paged_attention_mla_int8(
+                o,
+                q_int8,
+                q_scale,
+                kv_c_and_k_pe_cache,
+                kv_c_and_k_pe_cache_scale, 
+                self.scale,
+                attn_metadata.decode.block_table,
+                attn_metadata.decode.seq_lens,
+                attn_metadata.decode.max_decode_seq_len,
+                attn_metadata.decode.use_cuda_graph
+        )
+        else:
+        # fused q concat & cache write
+            ixf_ops.vllm_paged_attention_mla_fused(
+                output=o,
+                q_nope=q_nope,
+                q_pe=q_pe.contiguous(),
+                kv_cache=kv_c_and_k_pe_cache,
+                scale=self.scale,
+                block_tables=attn_metadata.decode.block_table,
+                context_lens=attn_metadata.decode.seq_lens,
+                max_context_len=decode_meta.max_decode_seq_len,
+                k_c_normed=k_c_normed,
+                k_pe=k_pe,
+                use_cuda_graph=decode_meta.use_cuda_graph
+            )
+        return self._v_up_proj(o), None
diff --git a/v1/attention/backends/pallas.py b/v1/attention/backends/pallas.py
new file mode 100644
index 0000000..525026b
--- /dev/null
+++ b/v1/attention/backends/pallas.py
@@ -0,0 +1,436 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionLayer,
+    AttentionType,
+)
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.utils.math_utils import cdiv, next_power_of_2
+
+logger = init_logger(__name__)
+
+# TPU requires the head size to be a multiple of 128.
+TPU_HEAD_SIZE_ALIGNMENT = 128
+
+# Note: TPU can fp8 as storage dtype but doesn't support converting from uint8
+# from to fp32 directly. That's why it has a dtype mapping different from GPU
+TPU_STR_DTYPE_TO_TORCH_DTYPE = {
+    "half": torch.half,
+    "bfloat16": torch.bfloat16,
+    "float": torch.float,
+    "fp8": torch.float8_e4m3fn,
+    "fp8_e4m3": torch.float8_e4m3fn,
+    "fp8_e5m2": torch.float8_e5m2,
+    "int8": torch.int8,
+    "uint8": torch.uint8,
+}
+
+try:
+    import tpu_inference  # noqa: F401
+except ImportError:
+    # Lazy import torch_xla
+    import torch_xla.core.xla_builder as xb
+    import torch_xla.experimental.custom_kernel  # noqa: F401
+    from torch.library import impl
+    from torch_xla._internal.jax_workarounds import requires_jax
+    from torch_xla.experimental.custom_kernel import XLA_LIB
+
+    @requires_jax
+    def kv_cache_update_op_impl(
+        kv: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache: torch.Tensor,
+        num_kv_update_slices: torch.Tensor,
+        page_size: int,
+        num_slices_per_block: int,
+    ):
+        from vllm.attention.ops.pallas_kv_cache_update import kv_cache_update
+
+        new_kv_cache = xb.call_jax(
+            kv_cache_update,
+            (kv, slot_mapping, kv_cache, num_kv_update_slices),
+            {"page_size": page_size, "num_slices_per_block": num_slices_per_block},
+        )
+        return new_kv_cache
+
+    XLA_LIB.define(
+        "kv_cache_update_op(Tensor kv, Tensor slot_mapping,"
+        "Tensor kv_cache, Tensor num_kv_update_slices, int page_size,"
+        "int num_slices_per_block)"
+        "-> Tensor",
+    )
+
+    @impl(XLA_LIB, "kv_cache_update_op", "XLA")
+    def kv_cache_update_op_xla(
+        kv: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache: torch.Tensor,
+        num_kv_update_slices: torch.Tensor,
+        page_size: int,
+        num_slices_per_block: int,
+    ) -> torch.Tensor:
+        new_kv_cache = kv_cache_update_op_impl(
+            kv,
+            slot_mapping,
+            kv_cache,
+            num_kv_update_slices,
+            page_size,
+            num_slices_per_block,
+        )
+        return new_kv_cache
+
+    @impl(XLA_LIB, "kv_cache_update_op", "CompositeExplicitAutograd")
+    def kv_cache_update_op_non_xla(
+        kv: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        kv_cache: torch.Tensor,
+        num_kv_update_slices: torch.Tensor,
+        page_size: int,
+        num_slices_per_block: int,
+    ) -> torch.Tensor:
+        return kv_cache
+
+
+class PallasAttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_name() -> str:
+        return "PALLAS"
+
+    @staticmethod
+    def get_impl_cls() -> type["PallasAttentionBackendImpl"]:
+        return PallasAttentionBackendImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        padded_head_size = (
+            cdiv(head_size, TPU_HEAD_SIZE_ALIGNMENT) * TPU_HEAD_SIZE_ALIGNMENT
+        )
+        return (num_blocks, block_size, num_kv_heads * 2, padded_head_size)
+
+    @staticmethod
+    def swap_blocks(
+        src_kv_cache: torch.Tensor,
+        dst_kv_cache: torch.Tensor,
+        src_to_dst: torch.Tensor,
+    ) -> None:
+        raise RuntimeError("swap_blocks is not used for the TPU backend.")
+
+    # In recent TPU generations, up to v6e, the SMEM size is 1MB. The
+    # block_tables within the PallasMetadata constitute almost the entire SMEM
+    # requirement. Its size is max_num_seqs * num_page_per_seq * 4 (Int). Here
+    # we simply make sure that the size is smaller than half of SMEM capacity.
+    @staticmethod
+    def get_min_page_size(vllm_config: VllmConfig) -> int:
+        max_num_page_per_req = (
+            1024 * 1024 // 2 // vllm_config.scheduler_config.max_num_seqs // 4
+        )
+        min_page_size = cdiv(
+            vllm_config.model_config.max_model_len, max_num_page_per_req
+        )
+        min_page_size = 1 << (min_page_size - 1).bit_length()
+        return min_page_size
+
+    @staticmethod
+    def get_max_num_seqs(model_len: int, page_size: int) -> int:
+        num_page_per_req = cdiv(model_len, page_size)
+        return 1024 * 1024 // 2 // num_page_per_req // 4
+
+    # TPU has limited SREGs (scalar registers), if page_size is too small, we
+    # can spill SREGs easily which leads to bad performance. The strategy we
+    # apply here is trying to split max-model-len to 16 pages which make the
+    # spill less likely. Meanwhile we make sure the page size is in [16, 256].
+    @staticmethod
+    def get_page_size(vllm_config: VllmConfig) -> int:
+        # TODO: This is a temporary fix for vmem OOM.
+        # For long model length, we use 16 page-size to avoid too much
+        # VMEM spill. A more robust solution should be implemented to
+        # handle VREG spills.
+        if vllm_config.model_config.max_model_len > 8192:
+            return 16
+        page_size = next_power_of_2(vllm_config.model_config.max_model_len) // 16
+        if page_size <= 16:
+            return 16
+        if page_size >= 256:
+            return 256
+        return page_size
+
+
+@dataclass
+class PallasMetadata:
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    # Used in the PallasAttentionBackendImpl
+    slot_mapping: torch.Tensor
+    block_tables: torch.Tensor
+    context_lens: torch.Tensor
+    query_start_loc: torch.Tensor
+    num_seqs: torch.Tensor
+    num_kv_update_slices: torch.Tensor
+    num_slices_per_kv_cache_update_block: int
+
+
+class PallasAttentionBackendImpl(AttentionImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: str = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        self.sliding_window = sliding_window
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+        if alibi_slopes is not None:
+            raise NotImplementedError("Alibi slopes is not supported.")
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "PallasAttentionBackendImpl"
+            )
+
+        self.kv_cache_quantized_dtype = None
+        if kv_cache_dtype != "auto":
+            self.kv_cache_quantized_dtype = TPU_STR_DTYPE_TO_TORCH_DTYPE.get(
+                kv_cache_dtype.lower().strip()
+            )
+
+    def forward(
+        self,
+        layer: AttentionLayer,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: PallasMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with Pallas attention.
+
+        Args:
+            query: shape = [num_tokens, num_heads * head_size]
+            key: shape = [num_tokens, num_kv_heads * head_size]
+            value: shape = [num_tokens, num_kv_heads * head_size]
+            kv_cache: shape =
+                [num_blocks, block_size, num_kv_heads * 2, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported"
+                " for PallasAttentionBackendImpl"
+            )
+
+        # For determine_available_memory case.
+        if kv_cache.numel() == 0:
+            if output is None:
+                output = torch.ones_like(query)
+            return output
+
+        num_tokens, hidden_size = query.shape
+        query = query.view(num_tokens, self.num_heads, self.head_size)
+        key = key.view(-1, self.num_kv_heads, self.head_size)
+        value = value.view(-1, self.num_kv_heads, self.head_size)
+        if self.head_size % TPU_HEAD_SIZE_ALIGNMENT != 0:
+            padded_head_size = (
+                cdiv(self.head_size, TPU_HEAD_SIZE_ALIGNMENT) * TPU_HEAD_SIZE_ALIGNMENT
+            )
+            query = torch.nn.functional.pad(
+                query, (0, padded_head_size - self.head_size), value=0.0
+            )
+            key = torch.nn.functional.pad(
+                key, (0, padded_head_size - self.head_size), value=0.0
+            )
+            value = torch.nn.functional.pad(
+                value, (0, padded_head_size - self.head_size), value=0.0
+            )
+
+        if self.kv_sharing_target_layer_name is None and kv_cache.numel() > 0:
+            # Write input keys and values to the KV cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            slot_mapping = attn_metadata.slot_mapping
+            write_to_kv_cache(
+                key,
+                value,
+                kv_cache,
+                slot_mapping,
+                attn_metadata.num_slices_per_kv_cache_update_block,
+                attn_metadata.num_kv_update_slices,
+                self.kv_cache_quantized_dtype,
+                layer._k_scale_float,
+                layer._v_scale_float,
+            )
+
+        if self.kv_cache_quantized_dtype is not None and (
+            layer._k_scale_float == 0.0 or layer._v_scale_float == 0.0
+        ):
+            raise ValueError("k_scale_float and v_scale_float must be non-zero")
+        output = torch.ops.xla.ragged_paged_attention(
+            query,
+            kv_cache,
+            attn_metadata.context_lens,
+            attn_metadata.block_tables,
+            attn_metadata.query_start_loc,
+            attn_metadata.num_seqs,
+            # By default, the system utilizes optimized block size and
+            # vmem_limit_bytes parameters from the kernel repository. However,
+            # these can be manually adjusted for debugging if necessary.
+            num_kv_pages_per_block=None,
+            num_queries_per_block=None,
+            vmem_limit_bytes=None,
+            use_kernel=True,
+            sm_scale=self.scale,
+            sliding_window=self.sliding_window,
+            soft_cap=self.logits_soft_cap,
+            k_scale=layer._k_scale_float,
+            v_scale=layer._v_scale_float,
+        )
+
+        if self.head_size % TPU_HEAD_SIZE_ALIGNMENT != 0:
+            output = output[:, :, : self.head_size]
+
+        return output.reshape(num_tokens, hidden_size)
+
+
+def write_to_kv_cache(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    kv_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    num_slices_per_kv_cache_update_block: int,
+    num_kv_update_slices: torch.Tensor,
+    kv_cache_quantized_dtype: torch.dtype | None = None,
+    k_scale: float = 1.0,
+    v_scale: float = 1.0,
+) -> None:
+    """Write the key and values to the KV cache.
+
+    Args:
+        key: shape = [num_tokens, num_kv_heads, head_size]
+        value: shape = [num_tokens, num_kv_heads, head_size]
+        kv_cache: shape = [num_blocks, block_size, num_kv_heads * 2, head_size]
+        num_slices_per_kv_cache_update_block: int
+    """
+    _, page_size, num_combined_kv_heads, head_size = kv_cache.shape
+    head_size = cdiv(head_size, TPU_HEAD_SIZE_ALIGNMENT) * TPU_HEAD_SIZE_ALIGNMENT
+
+    if kv_cache_quantized_dtype is not None:
+        dtype_info = torch.finfo(kv_cache_quantized_dtype)
+        key = key.to(torch.float32) / k_scale
+        # NOTE: clamp is added here to avoid out of range of quantized dtype
+        key = torch.clamp(key, dtype_info.min, dtype_info.max)
+        key = key.to(kv_cache_quantized_dtype)
+        value = value.to(torch.float32) / v_scale
+        value = torch.clamp(value, dtype_info.min, dtype_info.max)
+        value = value.to(kv_cache_quantized_dtype)
+
+    kv = torch.cat([key, value], axis=-1).reshape(-1, num_combined_kv_heads, head_size)
+
+    torch.ops.xla.dynamo_set_buffer_donor_(kv_cache, True)
+
+    kv_cache = kv_cache.flatten(0, 1)
+    new_kv_cache = torch.ops.xla.kv_cache_update_op(
+        kv,
+        slot_mapping,
+        kv_cache,
+        num_kv_update_slices,
+        page_size,
+        num_slices_per_kv_cache_update_block,
+    )
+    # NOTE: the in-place copy will be optimized away by XLA compiler.
+    kv_cache.copy_(new_kv_cache)
+
+
+# We can move this function to a common utils file if it's also useful for other
+# hardware.
+def dtype_bits(dtype: torch.dtype):
+    if dtype.is_floating_point:
+        try:
+            return torch.finfo(dtype).bits
+        except TypeError:
+            pass
+    elif dtype.is_complex:
+        if dtype is torch.complex32:
+            return 32
+        elif dtype is torch.complex64:
+            return 64
+        elif dtype is torch.complex128:
+            return 128
+    else:
+        try:
+            return torch.iinfo(dtype).bits
+        # torch.iinfo cannot support int4, int2, bits8...
+        except TypeError:
+            pass
+    str_dtype = str(dtype)
+    # support torch.int4, torch.int5, torch.uint5...
+    if str_dtype.startswith("torch.int") or str_dtype.startswith("torch.uint"):
+        return int(str_dtype[-1])
+    raise TypeError(f"Getting the bit width of {dtype} is not supported")
+
+
+def get_dtype_packing(dtype):
+    bits = dtype_bits(dtype)
+    if 32 % bits != 0:
+        raise ValueError(
+            f"The bit width must be divisible by 32, but got bits={bits}, "
+            "dtype={dtype}"
+        )
+    return 32 // bits
+
+
+def get_page_size_bytes(
+    block_size: int, num_kv_heads: int, head_size: int, kv_cache_dtype: torch.dtype
+) -> int:
+    """Returns the size in bytes of one page of the KV cache."""
+    padded_head_size = (
+        cdiv(head_size, TPU_HEAD_SIZE_ALIGNMENT) * TPU_HEAD_SIZE_ALIGNMENT
+    )
+    num_combined_kv_heads = num_kv_heads * 2
+
+    # NOTE: for the implicit padding in XLA
+    packing = get_dtype_packing(kv_cache_dtype)
+    num_combined_kv_heads = cdiv(num_combined_kv_heads, packing) * packing
+
+    kv_cache_dtype_bits = dtype_bits(kv_cache_dtype)
+    return (
+        block_size * num_combined_kv_heads * padded_head_size * kv_cache_dtype_bits // 8
+    )
diff --git a/v1/attention/backends/rocm_aiter_fa.py b/v1/attention/backends/rocm_aiter_fa.py
new file mode 100644
index 0000000..ea61184
--- /dev/null
+++ b/v1/attention/backends/rocm_aiter_fa.py
@@ -0,0 +1,816 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with AiterFlashAttention."""
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.attention.ops.merge_attn_states import merge_attn_states
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.utils.math_utils import cdiv
+from vllm.utils.platform_utils import get_cu_count
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_prefills_and_extends,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+_PARTITION_SIZE_ROCM = 256
+_CP_TOKENS_PER_ITER_ROCM = 32 * 1024
+
+if current_platform.is_rocm():
+    import aiter
+
+    from vllm.triton_utils import tl, triton
+
+    def block_size(x, head_dim):
+        return min(65536 // x.element_size(), triton.next_power_of_2(head_dim))
+
+    def num_programs(total_tokens):
+        return min(total_tokens, get_cu_count())
+
+    @triton.jit
+    def cp_mha_gather_cache_kernel(
+        key_cache_ptr,  # [num_blocks, page_size, num_head, head_size]
+        value_cache_ptr,  # [num_blocks, page_size, num_head, head_size]
+        key_ptr,  # [num_tokens, num_heads, head_size]
+        value_ptr,  # [num_tokens, num_heads, head_size]
+        block_table_ptr,  # [num_batches, max_block_num]
+        cu_seqlens_kv_ptr,  # [num_batches + 1]
+        token_to_batch_ptr,  # [max_cum_tokens]
+        seq_start_ptr,  # [num_batches]
+        k_scale_ptr,
+        v_scale_ptr,
+        num_heads,
+        head_size,
+        x,
+        max_block_num,
+        num_tokens,
+        num_programs,
+        DEQUANT: tl.constexpr,
+        PAGE_SIZE: tl.constexpr,
+        CACHE_FORMAT: tl.constexpr,
+        BLOCK_SIZE: tl.constexpr,
+    ):
+        bid = tl.program_id(0)
+        col_offsets = tl.arange(0, BLOCK_SIZE)
+        if DEQUANT:
+            k_scale = tl.load(k_scale_ptr)
+            v_scale = tl.load(v_scale_ptr)
+
+        for token_id in tl.range(bid, num_tokens, num_programs):
+            key_ptr_offset = key_ptr + token_id * head_size * num_heads
+            value_ptr_offset = value_ptr + token_id * head_size * num_heads
+            batch_idx = tl.load(token_to_batch_ptr + token_id)
+            batch_start = tl.load(seq_start_ptr + batch_idx)
+            token_start = tl.load(cu_seqlens_kv_ptr + batch_idx)
+            batch_offset = token_id - token_start + batch_start
+            block_offset = batch_offset // PAGE_SIZE
+            block_id = tl.load(
+                block_table_ptr + max_block_num * batch_idx + block_offset
+            )
+            slot_id = batch_offset % PAGE_SIZE
+
+            if CACHE_FORMAT == "NHD":
+                # for kv cache layout as
+                # K: [num_blocks, page_size, num_head, head_dim]
+                # V: [num_blocks, page_size, num_head, head_dim]
+                key_cache_ptr_offset = (
+                    key_cache_ptr
+                    + block_id * num_heads * head_size * PAGE_SIZE
+                    + slot_id * num_heads * head_size
+                )
+                value_cache_ptr_offset = (
+                    value_cache_ptr
+                    + block_id * num_heads * head_size * PAGE_SIZE
+                    + slot_id * num_heads * head_size
+                )
+
+                for i in tl.range(0, head_size * num_heads, BLOCK_SIZE):
+                    mask = (col_offsets + i) < head_size * num_heads
+                    k_reg = tl.load(key_cache_ptr_offset + col_offsets + i, mask=mask)
+                    v_reg = tl.load(value_cache_ptr_offset + col_offsets + i, mask=mask)
+                    if DEQUANT:
+                        k_dtype = k_reg.dtype
+                        v_dtype = v_reg.dtype
+                        k_reg = (k_reg.to(tl.float32) * k_scale).to(k_dtype)
+                        v_reg = (v_reg.to(tl.float32) * v_scale).to(v_dtype)
+                    tl.store(key_ptr_offset + col_offsets + i, k_reg, mask=mask)
+                    tl.store(value_ptr_offset + col_offsets + i, v_reg, mask=mask)
+
+    def cp_mha_gather_cache(
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        block_tables: torch.Tensor,
+        k_scales: torch.Tensor,
+        v_scales: torch.Tensor,
+        cu_seqlens_kv: torch.Tensor,
+        token_to_batch: torch.Tensor,
+        seq_starts: torch.Tensor,
+        dequant: bool,
+        kv_cache_layout: str,
+        total_tokens: int,
+    ):
+        assert kv_cache_layout in ["v0", "NHD", "HND"], (
+            "kv_cache_layout only support v0, NHD, HND"
+        )
+        head_dim = key.shape[2]
+        x = 0
+        # assert dequant is True, "Currently, we only support "\
+        # "gather cache with dequant"
+        # For k cache layout: [num_blocks, num_heads, page_size, head_dim]
+        assert kv_cache_layout == "NHD", (
+            "ROCM_AITER_FA_BACKEND Only support NHD kv cache layout for now"
+        )
+        assert head_dim == key_cache.shape[3], (
+            "We assume your kv cache layout is [num_blocks, "
+            "page_size, num_heads, head_dim], but got otherwise"
+        )
+        page_size = key_cache.shape[1]
+        num_heads = key_cache.shape[2]
+
+        NUM_PRGMS = num_programs(total_tokens)
+        BLOCK_SIZE = block_size(key_cache, head_dim)
+        grid = lambda meta: (NUM_PRGMS,)
+        cp_mha_gather_cache_kernel[grid](
+            key_cache,
+            value_cache,
+            key,
+            value,
+            block_tables,
+            cu_seqlens_kv,
+            token_to_batch,
+            seq_starts,
+            k_scales,
+            v_scales,
+            num_heads,
+            head_dim,
+            x,
+            block_tables.size(1),
+            total_tokens,
+            NUM_PRGMS,
+            DEQUANT=dequant,
+            PAGE_SIZE=page_size,
+            CACHE_FORMAT=kv_cache_layout,
+            BLOCK_SIZE=BLOCK_SIZE,
+        )
+
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class AiterFlashAttentionDecodeMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+
+
+@dataclass
+class AiterFlashAttentionPrefillMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+
+
+@dataclass
+class AiterChunkContextMetadata:
+    workspace: torch.Tensor
+    cu_seq_lens_chunk: torch.Tensor
+    chunk_starts: torch.Tensor
+    token_to_batch: torch.Tensor
+    seq_tot: list[int]
+    max_seq_lens: list[int]
+    seq_lens: torch.Tensor
+    num_chunks: int
+    total_token_per_batch: list[int]
+
+
+@dataclass
+class AiterFlashAttentionChunkPrefillMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+    chunk_context_metadata: AiterChunkContextMetadata
+
+
+@dataclass
+class AiterFlashAttentionMetadata:
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    num_actual_kv_tokens: int
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    slot_mapping: torch.Tensor
+    block_table: torch.Tensor
+
+    # prefill and deocde split
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+    num_prefill_tokens: int
+    num_extends: int
+    num_extend_tokens: int
+
+    decode_metadata: AiterFlashAttentionDecodeMetadata | None
+    prefill_metadata: AiterFlashAttentionPrefillMetadata | None
+    extend_metadata: AiterFlashAttentionChunkPrefillMetadata | None
+
+    # For cascade attention.
+    use_cascade: bool
+    common_prefix_len: int
+    total_tokens: int
+
+
+class AiterFlashAttentionMetadataBuilder(
+    AttentionMetadataBuilder[AiterFlashAttentionMetadata]
+):
+    _cudagraph_support = AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    reorder_batch_threshold: int = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.model_config = vllm_config.model_config
+        self.parallel_config = vllm_config.parallel_config
+        self.cache_config = vllm_config.cache_config
+
+        self.num_heads_q = self.model_config.get_num_attention_heads(
+            self.parallel_config
+        )
+        self.num_heads_kv = self.model_config.get_num_kv_heads(self.parallel_config)
+        self.headdim = self.model_config.get_head_size()
+        self.block_size = kv_cache_spec.block_size
+        # Sliding window size to be used with the AOT scheduler will be
+        # populated on first build() call.
+        self.aot_sliding_window: tuple[int, int] | None = None
+        self.total_tokens: int = 0
+
+        self.extend_workspace = torch.empty(
+            [2, _CP_TOKENS_PER_ITER_ROCM, self.num_heads_kv, self.headdim],
+            dtype=self.model_config.dtype,
+            device=device,
+        )
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ):
+        self.total_tokens = (
+            self.model_config.max_model_len
+            * self.vllm_config.scheduler_config.max_num_partial_prefills
+        )
+        res = self.build(common_prefix_len=0, common_attn_metadata=common_attn_metadata)
+        self.total_tokens = 0
+        return res
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> "AiterFlashAttentionMetadata":
+        split_ret = split_decodes_prefills_and_extends(
+            common_attn_metadata,
+            decode_threshold=self.reorder_batch_threshold,
+        )
+
+        (
+            num_decodes,
+            num_extends,
+            num_prefills,
+            num_decode_tokens,
+            num_extend_tokens,
+            num_prefill_tokens,
+        ) = split_ret
+
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+
+        seq_lens = common_attn_metadata.seq_lens_cpu
+
+        query_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+
+        decode_metadata = None
+        if num_decodes > 0:
+            decode_metadata = AiterFlashAttentionDecodeMetadata(
+                max_query_len=query_lens_cpu[:num_decodes].max().item(),
+                min_query_len=query_lens_cpu[:num_decodes].min().item(),
+                max_seq_len=seq_lens[:num_decodes].max().item(),
+                query_start_loc=common_attn_metadata.query_start_loc[: num_decodes + 1],
+            )
+
+        prefill_metadata = None
+        if num_prefills > 0:
+            query_lens_for_prefill = query_lens_cpu[num_decodes + num_extends :]
+            query_start_loc_device = common_attn_metadata.query_start_loc[
+                num_decodes + num_extends :
+            ]
+            prefill_metadata = AiterFlashAttentionPrefillMetadata(
+                max_query_len=query_lens_for_prefill.max().item(),
+                min_query_len=query_lens_for_prefill.min().item(),
+                max_seq_len=seq_lens[num_decodes + num_extends :].max().item(),
+                query_start_loc=query_start_loc_device - query_start_loc_device[0],
+            )
+
+        extend_metadata = None
+        if num_extends > 0:
+            num_extends_slice = slice(num_decodes, num_decodes + num_extends)
+            query_lens_for_extend = query_lens_cpu[num_extends_slice]
+            seq_lens_for_extend = common_attn_metadata.seq_lens_cpu[num_extends_slice]
+            computed_kv_lens = seq_lens_for_extend - query_lens_for_extend
+
+            # allocate the equal amount of workspace for
+            # each chunk prefill request
+            max_context_chunk = _CP_TOKENS_PER_ITER_ROCM // num_extends
+            num_chunks = cdiv(computed_kv_lens.max().item(), max_context_chunk)
+
+            chunk_starts = (
+                torch.arange(num_chunks, dtype=torch.int32)
+                .unsqueeze(1)
+                .expand(-1, num_extends)
+                * max_context_chunk
+            )
+            chunk_ends = torch.min(
+                computed_kv_lens.unsqueeze(0), chunk_starts + max_context_chunk
+            )
+            chunk_seq_lens = (chunk_ends - chunk_starts).clamp(
+                min=0
+            )  # [num_chunks, num_extends]
+            cu_seq_lens_cpu = torch.zeros(
+                [num_chunks, num_extends + 1], dtype=torch.int32, pin_memory=True
+            )
+            torch.cumsum(
+                chunk_seq_lens, dim=1, out=cu_seq_lens_cpu[:, 1:], dtype=torch.int32
+            )
+            max_cum_tokens = cu_seq_lens_cpu[:, -1].max().item()
+
+            range_idx = torch.arange(max_cum_tokens, dtype=torch.int32)[None, None, :]
+            idx_to_batch_tensor = range_idx == cu_seq_lens_cpu[:, 1:][:, :, None]
+            idx_to_batch_tensor = idx_to_batch_tensor.sum(
+                dim=1
+            )  # [num_chunks, max_cum_tokens]
+            token_to_batch_tensor = torch.cumsum(idx_to_batch_tensor, dim=1)
+
+            chunk_context_metadata = AiterChunkContextMetadata(
+                workspace=self.extend_workspace,
+                cu_seq_lens_chunk=cu_seq_lens_cpu.to(self.device, non_blocking=True),
+                chunk_starts=chunk_starts.to(self.device, non_blocking=True),
+                seq_tot=chunk_seq_lens.sum(dim=1).tolist(),
+                max_seq_lens=chunk_seq_lens.max(dim=1).values.tolist(),
+                seq_lens=chunk_seq_lens,
+                token_to_batch=token_to_batch_tensor.to(self.device, non_blocking=True),
+                num_chunks=num_chunks,
+                total_token_per_batch=cu_seq_lens_cpu[:, -1].tolist(),
+            )
+
+            query_start_loc_device = common_attn_metadata.query_start_loc[
+                num_decodes : num_decodes + num_extends + 1
+            ]
+            seq_lens_device = common_attn_metadata.seq_lens[num_extends_slice]
+            cu_seq_lens = torch.zeros(
+                num_extends + 1, dtype=torch.int32, device=seq_lens_device.device
+            )
+            torch.cumsum(
+                seq_lens_device, dim=0, dtype=cu_seq_lens.dtype, out=cu_seq_lens[1:]
+            )
+            extend_metadata = AiterFlashAttentionChunkPrefillMetadata(
+                max_query_len=query_lens_for_extend.max().item(),
+                min_query_len=query_lens_for_extend.min().item(),
+                max_seq_len=seq_lens[num_extends_slice].max().item(),
+                query_start_loc=query_start_loc_device - query_start_loc_device[0],
+                chunk_context_metadata=chunk_context_metadata,
+            )
+
+        num_actual_kv_tokens = torch.sum(seq_lens).item()
+
+        use_cascade = common_prefix_len > 0
+
+        attn_metadata = AiterFlashAttentionMetadata(
+            num_actual_tokens=common_attn_metadata.num_actual_tokens,
+            num_actual_kv_tokens=num_actual_kv_tokens,
+            max_query_len=common_attn_metadata.max_query_len,
+            query_start_loc=common_attn_metadata.query_start_loc,
+            max_seq_len=common_attn_metadata.max_seq_len,
+            seq_lens=common_attn_metadata.seq_lens,
+            block_table=common_attn_metadata.block_table_tensor,
+            slot_mapping=common_attn_metadata.slot_mapping,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_extends=num_extends,
+            num_extend_tokens=num_extend_tokens,
+            decode_metadata=decode_metadata,
+            prefill_metadata=prefill_metadata,
+            extend_metadata=extend_metadata,
+            use_cascade=use_cascade,
+            common_prefix_len=common_prefix_len,
+            total_tokens=self.total_tokens,
+        )
+        return attn_metadata
+
+    def use_cascade_attention(self, *args, **kwargs) -> bool:
+        return False
+
+
+class AiterFlashAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [64, 128, 256]
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASH_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> type["AiterFlashAttentionImpl"]:
+        return AiterFlashAttentionImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["AiterFlashAttentionMetadataBuilder"]:
+        return AiterFlashAttentionMetadataBuilder
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+
+class AiterFlashAttentionImpl(AttentionImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = [-1, -1]
+        else:
+            self.sliding_window = [sliding_window - 1, 0]
+        self.kv_cache_dtype = kv_cache_dtype
+        if logits_soft_cap is None:
+            # In flash-attn, setting logits_soft_cap as 0 means no soft cap.
+            logits_soft_cap = 0.0
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        assert self.num_heads % self.num_kv_heads == 0
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "FlashAttentionImpl"
+            )
+
+    def extend_forward(
+        self,
+        attn_metadata: AiterFlashAttentionMetadata,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        output: torch.Tensor,
+        cu_seqlens_q: torch.Tensor,
+        max_seqlen_q: int,
+        max_seqlen_k: int,
+        min_seqlen_q: int,
+        block_table: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        k_scale: float,
+        v_scale: float,
+    ):
+        out, lse = aiter.flash_attn_varlen_func(
+            q=query,
+            k=key,
+            v=value,
+            cu_seqlens_q=cu_seqlens_q,
+            cu_seqlens_k=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            max_seqlen_k=max_seqlen_q,
+            min_seqlen_q=min_seqlen_q,
+            dropout_p=0.0,
+            softmax_scale=self.scale,
+            causal=True,
+            window_size=self.sliding_window,
+            alibi_slopes=self.alibi_slopes,
+            return_lse=True,
+        )
+        assert attn_metadata.extend_metadata is not None
+        chunk_context_metadata = attn_metadata.extend_metadata.chunk_context_metadata
+        num_chunks = chunk_context_metadata.num_chunks
+        workspace = chunk_context_metadata.workspace
+        cu_seqlens_kv = chunk_context_metadata.cu_seq_lens_chunk
+        max_seqlens = chunk_context_metadata.max_seq_lens
+        chunk_starts = chunk_context_metadata.chunk_starts
+        token_to_batch = chunk_context_metadata.token_to_batch
+        total_token_per_batch = chunk_context_metadata.total_token_per_batch
+        key_fetched, value_fetched = workspace[0], workspace[1]
+        chunked_output = None
+        chunked_lse = None
+        for chunk_idx in range(num_chunks):
+            cp_mha_gather_cache(
+                key_cache=key_cache,
+                value_cache=value_cache,
+                key=key_fetched,
+                value=value_fetched,
+                block_tables=block_table,
+                k_scales=k_scale,
+                v_scales=v_scale,
+                cu_seqlens_kv=cu_seqlens_kv[chunk_idx],
+                token_to_batch=token_to_batch[chunk_idx],
+                seq_starts=chunk_starts[chunk_idx],
+                dequant=False,
+                kv_cache_layout="NHD",
+                total_tokens=total_token_per_batch[chunk_idx],
+            )
+
+            suf_out, suf_lse = aiter.flash_attn_varlen_func(
+                q=query,
+                k=key_fetched,
+                v=value_fetched,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_kv[chunk_idx],
+                max_seqlen_q=max_seqlen_q,
+                max_seqlen_k=max_seqlens[chunk_idx],
+                min_seqlen_q=min_seqlen_q,
+                dropout_p=0.0,
+                softmax_scale=self.scale,
+                causal=False,
+                window_size=self.sliding_window,
+                alibi_slopes=self.alibi_slopes,
+                return_lse=True,
+            )
+            if chunked_output is None:
+                chunked_output = suf_out
+                chunked_lse = suf_lse
+            else:
+                tmp_output = torch.empty_like(out)
+                tmp_lse = torch.empty_like(lse)
+                merge_attn_states(
+                    output=tmp_output,
+                    output_lse=tmp_lse,
+                    prefix_output=chunked_output,
+                    prefix_lse=chunked_lse,
+                    suffix_output=suf_out,
+                    suffix_lse=suf_lse,
+                )
+                chunked_output = tmp_output
+                chunked_lse = tmp_lse
+
+        merge_attn_states(
+            output=output,
+            prefix_output=chunked_output,
+            prefix_lse=chunked_lse,
+            suffix_output=out,
+            suffix_lse=lse,
+        )
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: AiterFlashAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with AiterFlashAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        NOTE: FP8 quantization, flash-attn expect the size of
+              {q,k,v}_descale to be (num_sequences, num_kv_heads).
+              We use torch's .expand() to avoid duplicating values
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for FlashAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is
+        # executed in eager-mode PyTorch. Thus, we need to be careful
+        # about any CPU overhead in this method. For example, `view`
+        # and `slice` (or `[:n]`) operations are surprisingly slow even
+        # in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        key_cache, value_cache = kv_cache.unbind(0)
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping
+            # is not padded. However, we don't need to do
+            # key[:num_actual_tokens] and value[:num_actual_tokens] because
+            # the reshape_and_cache_flash op uses the slot_mapping's shape
+            # to determine the number of actual tokens.
+
+            torch.ops._C_cache_ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            key_cache = key_cache.view(current_platform.fp8_dtype())
+            value_cache = value_cache.view(current_platform.fp8_dtype())
+
+        # decode:extend:prefill
+        query = query[:num_actual_tokens]
+        key = key[:num_actual_tokens]
+        value = value[:num_actual_tokens]
+
+        output_actual_tokens = output[:num_actual_tokens]
+
+        num_decodes = attn_metadata.num_decodes
+        num_prefills = attn_metadata.num_prefills
+        num_extends = attn_metadata.num_extends
+
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        num_extend_tokens = attn_metadata.num_extend_tokens
+        if not attn_metadata.use_cascade:
+            # calculate for pure prefills
+            if num_prefills > 0:
+                assert attn_metadata.prefill_metadata is not None
+
+                prefill_query = query[num_decode_tokens + num_extend_tokens :]
+                prefill_key = key[num_decode_tokens + num_extend_tokens :]
+                prefill_value = value[num_decode_tokens + num_extend_tokens :]
+
+                aiter.flash_attn_varlen_func(
+                    q=prefill_query,
+                    k=prefill_key,
+                    v=prefill_value,
+                    cu_seqlens_q=attn_metadata.prefill_metadata.query_start_loc,
+                    cu_seqlens_k=attn_metadata.prefill_metadata.query_start_loc,
+                    max_seqlen_q=attn_metadata.prefill_metadata.max_query_len,
+                    max_seqlen_k=attn_metadata.prefill_metadata.max_seq_len,
+                    min_seqlen_q=1,
+                    dropout_p=0.0,
+                    softmax_scale=self.scale,
+                    causal=True,
+                    window_size=self.sliding_window,
+                    alibi_slopes=self.alibi_slopes,
+                    out=output_actual_tokens[num_decode_tokens + num_extend_tokens :],
+                )
+
+            # calculate for extends
+            if num_extends > 0:
+                assert attn_metadata.extend_metadata is not None
+                extend_tokens_slice = slice(
+                    num_decode_tokens, num_decode_tokens + num_extend_tokens
+                )
+                extend_querys = query[extend_tokens_slice]
+                extend_keys = key[extend_tokens_slice]
+                extend_values = value[extend_tokens_slice]
+                extend_outputs = output[extend_tokens_slice]
+                self.extend_forward(
+                    attn_metadata=attn_metadata,
+                    query=extend_querys,
+                    key=extend_keys,
+                    value=extend_values,
+                    key_cache=key_cache,
+                    value_cache=value_cache,
+                    output=extend_outputs,
+                    cu_seqlens_q=attn_metadata.extend_metadata.query_start_loc,
+                    max_seqlen_q=attn_metadata.extend_metadata.max_query_len,
+                    max_seqlen_k=attn_metadata.extend_metadata.max_seq_len,
+                    min_seqlen_q=1,
+                    block_table=attn_metadata.block_table[
+                        num_decodes : num_decodes + num_extends
+                    ],
+                    slot_mapping=attn_metadata.slot_mapping[
+                        num_decodes : num_decodes + num_extends
+                    ],
+                    k_scale=layer._k_scale,
+                    v_scale=layer._v_scale,
+                )
+
+            # calculate for decodes
+            if num_decodes > 0:
+                assert attn_metadata.decode_metadata is not None
+                _, num_heads, head_size = query.shape
+                nbytes_per_qo_elem = torch.finfo(query.dtype).bits // 8
+                num_seqs = attn_metadata.seq_lens.shape[0]
+                max_num_partitions = (
+                    attn_metadata.max_seq_len + _PARTITION_SIZE_ROCM - 1
+                ) // _PARTITION_SIZE_ROCM
+
+                workspace_buffer = torch.empty(
+                    (num_seqs * num_heads * max_num_partitions * head_size)
+                    * nbytes_per_qo_elem
+                    + 2 * (num_seqs * num_heads * max_num_partitions) * 4,
+                    dtype=torch.uint8,
+                    device=output.device,
+                )
+
+                torch.ops.aiter.paged_attention_v1(
+                    output[:num_decode_tokens],
+                    workspace_buffer,
+                    query[:num_decode_tokens],
+                    key_cache,
+                    value_cache,
+                    self.scale,
+                    attn_metadata.block_table[:num_decodes],
+                    attn_metadata.query_start_loc[:num_decodes],
+                    attn_metadata.seq_lens[:num_decodes],
+                    attn_metadata.max_seq_len,
+                    self.alibi_slopes,
+                    self.kv_cache_dtype,
+                    "NHD",
+                    self.logits_soft_cap,
+                    layer._k_scale,
+                    layer._v_scale,
+                    None,
+                    _PARTITION_SIZE_ROCM,
+                )
+        else:
+            raise NotImplementedError(
+                "Cascade attention is not implemented for ROCM AITER"
+            )
+
+        return output
diff --git a/v1/attention/backends/rocm_aiter_unified_attn.py b/v1/attention/backends/rocm_aiter_unified_attn.py
new file mode 100644
index 0000000..b2639c0
--- /dev/null
+++ b/v1/attention/backends/rocm_aiter_unified_attn.py
@@ -0,0 +1,196 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with PagedAttention and Triton prefix prefill."""
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.abstract import AttentionType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kFp8StaticTensorSym,
+)
+from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
+from vllm.v1.attention.backends.rocm_attn import (
+    RocmAttentionBackend,
+    RocmAttentionImpl,
+    RocmAttentionMetadataBuilder,
+)
+
+logger = init_logger(__name__)
+
+
+class RocmAiterUnifiedAttentionBackend(RocmAttentionBackend):
+    accept_output_buffer: bool = True
+
+    @staticmethod
+    def get_name() -> str:
+        return "ROCM_AITER_UNIFIED_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> type["RocmAiterUnifiedAttentionImpl"]:
+        return RocmAiterUnifiedAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+    @staticmethod
+    def get_builder_cls() -> type["RocmAttentionMetadataBuilder"]:
+        return RocmAttentionMetadataBuilder
+
+
+class RocmAiterUnifiedAttentionImpl(RocmAttentionImpl):
+    def fused_output_quant_supported(self, quant_key: QuantKey):
+        return quant_key == kFp8StaticTensorSym
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            sinks,
+        )
+        logger.info_once(
+            "Using aiter unified attention for RocmAiterUnifiedAttentionImpl"
+        )
+        from aiter.ops.triton.unified_attention import unified_attention
+
+        self.unified_attention = unified_attention
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: FlashAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with FlashAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_block_scale is not None:
+            raise NotImplementedError(
+                "fused block_scale output quantization is not yet supported"
+                " for RocmAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        assert attn_metadata.use_cascade is False
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
+        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
+        # in this method. For example, `view` and `slice` (or `[:n]`) operations
+        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        key_cache, value_cache = kv_cache.unbind(0)
+
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            key_cache = key_cache.view(self.fp8_dtype)
+            value_cache = value_cache.view(self.fp8_dtype)
+            assert layer._q_scale_float == 1.0, (
+                "A non 1.0 q_scale is not currently supported."
+            )
+
+        cu_seqlens_q = attn_metadata.query_start_loc
+        seqused_k = attn_metadata.seq_lens
+        max_seqlen_q = attn_metadata.max_query_len
+        max_seqlen_k = attn_metadata.max_seq_len
+        block_table = attn_metadata.block_table
+
+        descale_shape = (cu_seqlens_q.shape[0] - 1, key.shape[1])
+
+        self.unified_attention(
+            q=query[:num_actual_tokens],
+            k=key_cache,
+            v=value_cache,
+            out=output[:num_actual_tokens],
+            cu_seqlens_q=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            seqused_k=seqused_k,
+            max_seqlen_k=max_seqlen_k,
+            softmax_scale=self.scale,
+            causal=True,
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            block_table=block_table,
+            softcap=self.logits_soft_cap,
+            q_descale=None,  # Not supported
+            k_descale=layer._k_scale.expand(descale_shape),
+            v_descale=layer._v_scale.expand(descale_shape),
+            sinks=self.sinks,
+            output_scale=output_scale,
+        )
+
+        return output
diff --git a/v1/attention/backends/rocm_attn.py b/v1/attention/backends/rocm_attn.py
new file mode 100644
index 0000000..6dfdfc1
--- /dev/null
+++ b/v1/attention/backends/rocm_attn.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with PagedAttention and Triton prefix prefill."""
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+)
+from vllm.attention.ops.chunked_prefill_paged_decode import chunked_prefill_paged_decode
+from vllm.attention.ops.paged_attn import PagedAttention
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kFp8StaticTensorSym,
+)
+from vllm.platforms import current_platform
+from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class RocmAttentionMetadata:
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    # For cascade attention.
+    use_cascade: bool
+    common_prefix_len: int
+    cu_prefix_query_lens: torch.Tensor | None
+    prefix_kv_lens: torch.Tensor | None
+    suffix_kv_lens: torch.Tensor | None
+
+    # Optional aot scheduling
+    scheduler_metadata: torch.Tensor | None = None
+    prefix_scheduler_metadata: torch.Tensor | None = None
+
+
+class RocmAttentionMetadataBuilder(AttentionMetadataBuilder[RocmAttentionMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.block_size = kv_cache_spec.block_size
+
+        model_config = vllm_config.model_config
+        self.num_heads_q = model_config.get_num_attention_heads(
+            vllm_config.parallel_config
+        )
+        self.num_heads_kv = model_config.get_num_kv_heads(vllm_config.parallel_config)
+        self.headdim = model_config.get_head_size()
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ) -> RocmAttentionMetadata:
+        attn_metadata = self.build(0, common_attn_metadata)
+        # When doing full graph capture, setting seq_lens to
+        # max_model_len will cause graph capture to be extremely
+        # slow, so here we set it to 1.
+        attn_metadata.seq_lens.fill_(1)
+
+        # Here we set the query start locs to 0. This is to
+        # cover up an invalid memory access in the prefix_prefil kernel
+        # that we run into during graph capture (#25985)
+        common_attn_metadata.query_start_loc.zero_()
+        common_attn_metadata.query_start_loc_cpu.zero_()
+
+        return attn_metadata
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> RocmAttentionMetadata:
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+
+        use_cascade = common_prefix_len > 0
+
+        if use_cascade:
+            cu_prefix_query_lens = torch.tensor(
+                [0, num_actual_tokens], dtype=torch.int32, device=self.device
+            )
+            prefix_kv_lens = torch.tensor(
+                [common_prefix_len], dtype=torch.int32, device=self.device
+            )
+            suffix_kv_lens = common_attn_metadata.seq_lens_cpu - common_prefix_len
+            suffix_kv_lens = suffix_kv_lens.to(self.device)
+        else:
+            cu_prefix_query_lens = None
+            prefix_kv_lens = None
+            suffix_kv_lens = None
+            prefix_scheduler_metadata = None
+
+        attn_metadata = RocmAttentionMetadata(
+            num_actual_tokens=num_actual_tokens,
+            max_query_len=max_query_len,
+            query_start_loc=query_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            use_cascade=use_cascade,
+            common_prefix_len=common_prefix_len,
+            cu_prefix_query_lens=cu_prefix_query_lens,
+            prefix_kv_lens=prefix_kv_lens,
+            suffix_kv_lens=suffix_kv_lens,
+            prefix_scheduler_metadata=prefix_scheduler_metadata,
+        )
+        return attn_metadata
+
+
+class RocmAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 96, 128, 160, 192, 224, 256]
+
+    @classmethod
+    def validate_head_size(cls, head_size: int) -> None:
+        if not cls.supports_head_size(head_size):
+            attn_type = cls.__name__.removesuffix("Backend")
+            raise ValueError(
+                f"Head size {head_size} is not supported by {attn_type}. "
+                f"Supported head sizes are: {cls.get_supported_head_sizes()}. "
+                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
+                "FlexAttention backend which supports all head sizes."
+            )
+
+    @staticmethod
+    def get_name() -> str:
+        return "ROCM_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> type["RocmAttentionImpl"]:
+        return RocmAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+    @staticmethod
+    def get_builder_cls() -> type["RocmAttentionMetadataBuilder"]:
+        return RocmAttentionMetadataBuilder
+
+
+class RocmAttentionImpl(AttentionImpl):
+    def fused_output_quant_supported(self, quant_key: QuantKey):
+        return quant_key == kFp8StaticTensorSym
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        self.kv_cache_dtype = kv_cache_dtype
+        if logits_soft_cap is None:
+            # In flash-attn, setting logits_soft_cap as 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        RocmAttentionBackend.validate_head_size(head_size)
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "RocmAttentionImpl"
+            )
+
+        self.fp8_dtype = current_platform.fp8_dtype()
+
+        self.sinks = sinks
+        if sinks is not None:
+            assert sinks.shape[0] == num_heads, (
+                "Sinks must have the same number of heads as the number of "
+                f"heads in the layer. Sinks shape: {sinks.shape}, "
+                f"num_heads: {num_heads}."
+            )
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: FlashAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with FlashAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_block_scale is not None:
+            raise NotImplementedError(
+                "fused block_scale output quantization is not yet supported"
+                " for RocmAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        assert attn_metadata.use_cascade is False
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
+        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
+        # in this method. For example, `view` and `slice` (or `[:n]`) operations
+        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        key_cache, value_cache = PagedAttention.split_kv_cache(
+            kv_cache, self.num_kv_heads, self.head_size
+        )
+
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            PagedAttention.write_to_paged_cache(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            key_cache = key_cache.view(self.fp8_dtype)
+            value_cache = value_cache.view(self.fp8_dtype)
+            assert layer._q_scale_float == 1.0, (
+                "A non 1.0 q_scale is not currently supported."
+            )
+
+        cu_seqlens_q = attn_metadata.query_start_loc
+        seqused_k = attn_metadata.seq_lens
+        max_seqlen_q = attn_metadata.max_query_len
+        max_seqlen_k = attn_metadata.max_seq_len
+        block_table = attn_metadata.block_table
+
+        # Compute attention and update output up to `num_actual_tokens`.
+        chunked_prefill_paged_decode(
+            query=query[:num_actual_tokens],
+            key=key[:num_actual_tokens],
+            value=value[:num_actual_tokens],
+            output=output[:num_actual_tokens],
+            kv_cache_dtype=self.kv_cache_dtype,
+            key_cache=key_cache,
+            value_cache=value_cache,
+            block_table=block_table,
+            query_start_loc=cu_seqlens_q,
+            seq_lens=seqused_k,
+            max_seq_len=max_seqlen_k,
+            max_query_len=max_seqlen_q,
+            k_scale=layer._k_scale,
+            v_scale=layer._v_scale,
+            alibi_slopes=self.alibi_slopes,
+            sliding_window=self.sliding_window[0],
+            sm_scale=self.scale,
+            output_scale=output_scale,
+            sinks=self.sinks,
+        )
+
+        return output
diff --git a/v1/attention/backends/short_conv_attn.py b/v1/attention/backends/short_conv_attn.py
new file mode 100644
index 0000000..de0cb73
--- /dev/null
+++ b/v1/attention/backends/short_conv_attn.py
@@ -0,0 +1,105 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.v1.attention.backends.mamba_attn import BaseMambaAttentionMetadataBuilder
+from vllm.v1.attention.backends.utils import (
+    PAD_SLOT_ID,
+    CommonAttentionMetadata,
+    compute_causal_conv1d_metadata,
+    split_decodes_and_prefills,
+)
+
+
+class ShortConvAttentionBackend(AttentionBackend):
+    @staticmethod
+    def get_builder_cls() -> type["ShortConvAttentionMetadataBuilder"]:
+        return ShortConvAttentionMetadataBuilder
+
+
+@dataclass
+class ShortConvAttentionMetadata:
+    num_prefills: int
+    num_prefill_tokens: int
+    num_decodes: int
+    num_decode_tokens: int
+
+    query_start_loc: torch.Tensor
+    state_indices_tensor: torch.Tensor
+    has_initial_states_p: torch.Tensor | None
+
+    # For causal_conv1d
+    nums_dict: dict | None = None
+    batch_ptr: torch.Tensor | None = None
+    token_chunk_offset_ptr: torch.Tensor | None = None
+
+
+class ShortConvAttentionMetadataBuilder(
+    BaseMambaAttentionMetadataBuilder[ShortConvAttentionMetadata]
+):
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> ShortConvAttentionMetadata:
+        num_reqs = common_attn_metadata.num_reqs
+        query_start_loc = common_attn_metadata.query_start_loc
+        state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
+
+        # for causal_conv1d
+        nums_dict, batch_ptr, token_chunk_offset_ptr = None, None, None
+
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        has_initial_states_p = None
+        if num_prefills > 0:
+            has_initial_states_cpu = (
+                common_attn_metadata.num_computed_tokens_cpu[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                > 0
+            )
+            has_initial_states_p = has_initial_states_cpu.to(query_start_loc.device)
+
+            query_start_loc_p = (
+                common_attn_metadata.query_start_loc[-num_prefills - 1 :]
+                - num_decode_tokens
+            )
+
+            nums_dict, batch_ptr, token_chunk_offset_ptr = (
+                compute_causal_conv1d_metadata(query_start_loc_p)
+            )
+
+        elif (
+            num_decodes > 0
+            and num_decodes <= self.decode_cudagraph_max_bs
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+        ):
+            num_input_tokens = self.vllm_config.pad_for_cudagraph(num_decodes)
+            self.state_indices_tensor[:num_decodes].copy_(
+                state_indices_tensor, non_blocking=True
+            )
+            state_indices_tensor = self.state_indices_tensor[:num_input_tokens]
+            state_indices_tensor[num_decodes:] = PAD_SLOT_ID
+
+        attn_metadata = ShortConvAttentionMetadata(
+            query_start_loc=query_start_loc,
+            state_indices_tensor=state_indices_tensor,
+            has_initial_states_p=has_initial_states_p,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            nums_dict=nums_dict,
+            batch_ptr=batch_ptr,
+            token_chunk_offset_ptr=token_chunk_offset_ptr,
+        )
+        return attn_metadata
diff --git a/v1/attention/backends/tree_attn.py b/v1/attention/backends/tree_attn.py
new file mode 100644
index 0000000..1bf38ed
--- /dev/null
+++ b/v1/attention/backends/tree_attn.py
@@ -0,0 +1,425 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with TreeAttention."""
+
+import ast
+from dataclasses import dataclass
+from typing import ClassVar, Optional
+
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.attention.ops.triton_unified_attention import unified_attention
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+
+class TreeAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 96, 128, 160, 192, 224, 256]
+
+    @staticmethod
+    def get_name() -> str:
+        return "TREE_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> type["TreeAttentionImpl"]:
+        return TreeAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def get_builder_cls() -> type["TreeAttentionMetadataBuilder"]:
+        return TreeAttentionMetadataBuilder
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+
+@dataclass
+class TreeAttentionMetadata:
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    num_prefill_tokens: int = 0
+    num_decode_tokens: int = 0
+    num_prefills: int = 0
+    num_decodes: int = 0
+
+    tree_attn_bias: torch.Tensor | None = None
+
+    # Cached Prefill/decode metadata.
+    _cached_prefill_metadata: Optional["TreeAttentionMetadata"] = None
+    _cached_decode_metadata: Optional["TreeAttentionMetadata"] = None
+
+    @property
+    def prefill_metadata(self) -> Optional["TreeAttentionMetadata"]:
+        if self.num_prefills == 0:
+            return None
+
+        if self._cached_prefill_metadata is not None:
+            # Recover cached prefill-phase attention
+            # metadata structure
+            return self._cached_prefill_metadata
+
+        q_start_loc = self.query_start_loc[self.num_decodes :]
+        q_seqlens = torch.diff(q_start_loc)
+        kv_seqlens = self.seq_lens[self.num_decodes :]
+        # Construct & cache prefill-phase attention metadata structure
+        self._cached_prefill_metadata = TreeAttentionMetadata(
+            num_actual_tokens=self.num_prefill_tokens,
+            max_query_len=int(q_seqlens.max().item()),
+            query_start_loc=q_start_loc - q_start_loc[0],
+            max_seq_len=int(kv_seqlens.max().item()),
+            seq_lens=kv_seqlens,
+            block_table=self.block_table[self.num_decodes :],
+            slot_mapping=self.slot_mapping[self.num_decode_tokens :],
+        )
+        return self._cached_prefill_metadata
+
+    @property
+    def decode_metadata(self) -> Optional["TreeAttentionMetadata"]:
+        if self.num_decode_tokens == 0:
+            return None
+
+        if self._cached_decode_metadata is not None:
+            # Recover cached decode-phase attention
+            # metadata structure
+            return self._cached_decode_metadata
+
+        q_start_loc = self.query_start_loc[: self.num_decodes + 1]
+        q_seqlens = torch.diff(q_start_loc)
+        kv_seqlens = self.seq_lens[: self.num_decodes]
+        # Construct & cache decode-phase attention metadata structure
+        self._cached_decode_metadata = TreeAttentionMetadata(
+            num_actual_tokens=self.num_decode_tokens,
+            max_query_len=int(q_seqlens.max().item()),
+            query_start_loc=q_start_loc,
+            max_seq_len=int(kv_seqlens.max().item()),
+            seq_lens=kv_seqlens,
+            block_table=self.block_table[: self.num_decodes],
+            slot_mapping=self.slot_mapping[: self.num_decode_tokens],
+            tree_attn_bias=self.tree_attn_bias,
+        )
+        return self._cached_decode_metadata
+
+
+class TreeAttentionMetadataBuilder(AttentionMetadataBuilder[TreeAttentionMetadata]):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.block_size = kv_cache_spec.block_size
+
+        spec_config = vllm_config.speculative_config
+        spec_token_tree = (spec := spec_config) and spec.speculative_token_tree
+        tree_choices: list[tuple[int, ...]] = (
+            ast.literal_eval(spec_token_tree) if spec_token_tree is not None else [(0,)]
+        )
+        # Construct the tree attention bias.
+        depth_counts = _get_depth_counts(tree_choices)
+        self.tree_attn_bias = _prepare_tree_attn_bias(
+            tree_choices,
+            depth_counts,
+            dtype=torch.float32,
+            device=device,
+        )
+
+        self.reorder_batch_threshold = self.tree_attn_bias.shape[0]
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> TreeAttentionMetadata:
+        decode_threshold = self.tree_attn_bias.shape[0]
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=decode_threshold
+            )
+        )
+
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        q_start_loc = common_attn_metadata.query_start_loc
+        max_query_len = common_attn_metadata.max_query_len
+        kv_seqlens = common_attn_metadata.seq_lens
+        max_seq_len = common_attn_metadata.max_seq_len
+        block_table = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+
+        return TreeAttentionMetadata(
+            num_actual_tokens=num_actual_tokens,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_decodes=num_decodes,
+            max_query_len=max_query_len,
+            query_start_loc=q_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=kv_seqlens,
+            block_table=block_table,
+            slot_mapping=slot_mapping,
+            tree_attn_bias=self.tree_attn_bias,
+        )
+
+    def build_for_drafting(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        draft_index: int,
+    ) -> TreeAttentionMetadata:
+        # Cache the original tree attention bias.
+        orig_tree_attn_bias = self.tree_attn_bias
+
+        if draft_index == 0:
+            # Use prefill for drafting at the root level.
+            self.tree_attn_bias = torch.empty(0)
+        else:
+            # Slice the tree attention bias for drafting. Exclude
+            # the root level.
+            start, end = 1, 1 + common_attn_metadata.max_query_len
+            self.tree_attn_bias = self.tree_attn_bias[start:end, start:end].contiguous()
+
+        # Build attention bias.
+        attn_metadata = self.build(0, common_attn_metadata, fast_build=True)
+
+        # Reset the tree attention bias to the original value.
+        self.tree_attn_bias = orig_tree_attn_bias
+        return attn_metadata
+
+
+def _get_depth_counts(sorted_tree_choices: list[tuple[int, ...]]) -> list[int]:
+    # Count the number of choices at each depth of the tree.
+    depth_counts = []
+    prev_depth = 0
+    for path in sorted_tree_choices:
+        depth = len(path)
+        if depth != prev_depth:
+            depth_counts.append(0)
+        depth_counts[depth - 1] += 1
+        prev_depth = depth
+    return depth_counts
+
+
+def _prepare_tree_attn_bias(
+    sorted_tree_choices: list[tuple[int, ...]],
+    depth_counts: list[int],
+    dtype: torch.dtype | None,
+    device: torch.device | None,
+) -> torch.Tensor:
+    # +1 comes from the additional root node.
+    tree_len = len(sorted_tree_choices) + 1
+    tree_attn_mask = torch.full(
+        (tree_len, tree_len), -torch.inf, device=device, dtype=dtype
+    )
+
+    # Set diagonal to all zeros. Each token should
+    # attend to itself.
+    mask_val = 0
+    for i in range(tree_len):
+        tree_attn_mask[i, i] = mask_val
+
+    # Set root to all zeros. All tokens attend to it.
+    tree_attn_mask[:, 0] = mask_val
+
+    # Set all ancestors to zeros.
+    start = 0
+    for i in range(len(depth_counts)):
+        for j in range(depth_counts[i]):
+            cur_tree_choice = sorted_tree_choices[start + j]
+            # Retrieve ancestor position.
+            if len(cur_tree_choice) == 1:
+                continue
+            ancestor_idx = []
+            for c in range(len(cur_tree_choice) - 1):
+                ancestor_idx.append(
+                    sorted_tree_choices.index(cur_tree_choice[: c + 1]) + 1
+                )
+            tree_attn_mask[j + start + 1, ancestor_idx] = mask_val
+        start += depth_counts[i]
+    return tree_attn_mask
+
+
+class TreeAttentionImpl(AttentionImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+        self.kv_cache_dtype = kv_cache_dtype
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if logits_soft_cap is None:
+            # Setting logits_soft_cap to 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "TreeAttentionImpl."
+            )
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: TreeAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with TreeAttention.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported for TreeAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        # Cache the input KVs.
+        key_cache, value_cache = kv_cache.unbind(0)
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping is
+            # not padded. However, we don't need to do key[:num_actual_tokens]
+            # and value[:num_actual_tokens] because the reshape_and_cache_flash
+            # op uses the slot_mapping's shape to determine the number of
+            # actual tokens.
+            ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        descale_shape = (attn_metadata.query_start_loc.shape[0] - 1, key.shape[1])
+        if prefill_meta := attn_metadata.prefill_metadata:
+            unified_attention(
+                q=query[num_decode_tokens:num_actual_tokens],
+                k=key_cache,
+                v=value_cache,
+                out=output[num_decode_tokens:num_actual_tokens],
+                cu_seqlens_q=prefill_meta.query_start_loc,
+                max_seqlen_q=prefill_meta.max_query_len,
+                seqused_k=prefill_meta.seq_lens,
+                max_seqlen_k=prefill_meta.max_seq_len,
+                softmax_scale=self.scale,
+                causal=True,
+                alibi_slopes=self.alibi_slopes,
+                window_size=self.sliding_window,
+                block_table=prefill_meta.block_table,
+                softcap=self.logits_soft_cap,
+                q_descale=None,  # Not supported
+                k_descale=layer._k_scale.expand(descale_shape),
+                v_descale=layer._v_scale.expand(descale_shape),
+            )
+
+        if decode_meta := attn_metadata.decode_metadata:
+            unified_attention(
+                q=query[:num_decode_tokens],
+                k=key_cache,
+                v=value_cache,
+                out=output[:num_decode_tokens],
+                cu_seqlens_q=decode_meta.query_start_loc,
+                max_seqlen_q=decode_meta.max_query_len,
+                seqused_k=decode_meta.seq_lens,
+                max_seqlen_k=decode_meta.max_seq_len,
+                softmax_scale=self.scale,
+                causal=True,
+                alibi_slopes=self.alibi_slopes,
+                qq_bias=decode_meta.tree_attn_bias,
+                window_size=self.sliding_window,
+                block_table=decode_meta.block_table,
+                softcap=self.logits_soft_cap,
+                q_descale=None,  # Not supported
+                k_descale=layer._k_scale.expand(descale_shape),
+                v_descale=layer._v_scale.expand(descale_shape),
+            )
+        return output
diff --git a/v1/attention/backends/triton_attn.py b/v1/attention/backends/triton_attn.py
new file mode 100644
index 0000000..889c79d
--- /dev/null
+++ b/v1/attention/backends/triton_attn.py
@@ -0,0 +1,373 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""High-Performance Triton-only Attention layer."""
+
+from dataclasses import dataclass
+from typing import ClassVar
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.attention.ops.triton_reshape_and_cache_flash import (
+    triton_reshape_and_cache_flash,
+)
+from vllm.attention.ops.triton_unified_attention import unified_attention
+from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    QuantKey,
+    kFp8StaticTensorSym,
+)
+from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class TritonAttentionMetadata:
+    # NOTE(sang): Definition of context_len, query_len, and seq_len.
+    # |---------- N-1 iteration --------|
+    # |---------------- N iteration ---------------------|
+    # |- tokenA -|......................|-- newTokens ---|
+    # |---------- context_len ----------|
+    # |-------------------- seq_len ---------------------|
+    #                                   |-- query_len ---|
+
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    # For cascade attention.
+    use_cascade: bool
+    common_prefix_len: int
+    cu_prefix_query_lens: torch.Tensor | None
+    prefix_kv_lens: torch.Tensor | None
+    suffix_kv_lens: torch.Tensor | None
+
+    # Optional aot scheduling
+    scheduler_metadata: torch.Tensor | None = None
+    prefix_scheduler_metadata: torch.Tensor | None = None
+
+
+class TritonAttentionMetadataBuilder(AttentionMetadataBuilder[TritonAttentionMetadata]):
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        self.block_size = kv_cache_spec.block_size
+
+        model_config = vllm_config.model_config
+        self.num_heads_q = model_config.get_num_attention_heads(
+            vllm_config.parallel_config
+        )
+        self.num_heads_kv = model_config.get_num_kv_heads(vllm_config.parallel_config)
+        self.headdim = model_config.get_head_size()
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ) -> TritonAttentionMetadata:
+        attn_metadata = self.build(0, common_attn_metadata)
+        # When doing full graph capture, setting seq_lens to
+        # max_model_len will cause graph capture to be extremely
+        # slow, so here we set it to 1.
+        attn_metadata.seq_lens.fill_(1)
+        return attn_metadata
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> TritonAttentionMetadata:
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        max_query_len = common_attn_metadata.max_query_len
+
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
+        block_table_tensor = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+
+        use_cascade = common_prefix_len > 0
+
+        if use_cascade:
+            cu_prefix_query_lens = torch.tensor(
+                [0, num_actual_tokens], dtype=torch.int32, device=self.device
+            )
+            prefix_kv_lens = torch.tensor(
+                [common_prefix_len], dtype=torch.int32, device=self.device
+            )
+            suffix_kv_lens = common_attn_metadata.seq_lens_cpu - common_prefix_len
+            suffix_kv_lens = suffix_kv_lens.to(self.device)
+        else:
+            cu_prefix_query_lens = None
+            prefix_kv_lens = None
+            suffix_kv_lens = None
+            prefix_scheduler_metadata = None
+
+        attn_metadata = TritonAttentionMetadata(
+            num_actual_tokens=num_actual_tokens,
+            max_query_len=max_query_len,
+            query_start_loc=query_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            use_cascade=use_cascade,
+            common_prefix_len=common_prefix_len,
+            cu_prefix_query_lens=cu_prefix_query_lens,
+            prefix_kv_lens=prefix_kv_lens,
+            suffix_kv_lens=suffix_kv_lens,
+            prefix_scheduler_metadata=prefix_scheduler_metadata,
+        )
+        return attn_metadata
+
+
+class TritonAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+        "fp8_e5m2",
+    ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "TRITON_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> type["TritonAttentionImpl"]:
+        return TritonAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (num_blocks, 2, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+    @staticmethod
+    def get_builder_cls() -> type["TritonAttentionMetadataBuilder"]:
+        return TritonAttentionMetadataBuilder
+
+    @classmethod
+    def supports_head_size(cls, head_size: int) -> bool:
+        return head_size >= 32
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        return True
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return True
+
+
+class TritonAttentionImpl(AttentionImpl):
+    def fused_output_quant_supported(self, quant_key: QuantKey):
+        return quant_key == kFp8StaticTensorSym
+
+    def supports_quant_query_input(self) -> bool:
+        return current_platform.is_cuda()
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: int | None = None,
+        sinks: torch.Tensor | None = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        self.kv_cache_dtype = kv_cache_dtype
+        if logits_soft_cap is None:
+            # In flash-attn, setting logits_soft_cap as 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "TritonAttentionImpl"
+            )
+
+        self.fp8_dtype = current_platform.fp8_dtype()
+
+        self.sinks = sinks
+        if sinks is not None:
+            assert sinks.shape[0] == num_heads, (
+                "Sinks must have the same number of heads as the number of "
+                f"heads in the layer. Sinks shape: {sinks.shape}, "
+                f"num_heads: {num_heads}."
+            )
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: TritonAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with Paged Attention impl. in Triton.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [num_blocks, 2, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_block_scale is not None:
+            raise NotImplementedError(
+                "fused block_scale output quantization is not yet supported"
+                " for TritonAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        assert attn_metadata.use_cascade is False
+
+        # IMPORTANT!
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
+        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
+        # in this method. For example, `view` and `slice` (or `[:n]`) operations
+        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # Minimize the PyTorch ops in this method as much as possible.
+        # Whenever making a change in this method, please benchmark the
+        # performance to make sure it does not introduce any overhead.
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        key_cache, value_cache = kv_cache.unbind(1)
+
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            if self.kv_cache_dtype.startswith("fp8"):
+                key_cache = key_cache.view(self.fp8_dtype)
+                value_cache = value_cache.view(self.fp8_dtype)
+                # triton kernel does not support uint8 kv_cache
+                #  (because some explicit casts (e.g. float8_e4m3fnuz)
+                #   are not supported)
+            triton_reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        if self.kv_cache_dtype.startswith("fp8"):
+            if key_cache.dtype != self.fp8_dtype:
+                key_cache = key_cache.view(self.fp8_dtype)
+                value_cache = value_cache.view(self.fp8_dtype)
+            assert layer._q_scale_float == 1.0, (
+                "A non 1.0 q_scale is not currently supported."
+            )
+
+        cu_seqlens_q = attn_metadata.query_start_loc
+        seqused_k = attn_metadata.seq_lens
+        max_seqlen_q = attn_metadata.max_query_len
+        max_seqlen_k = attn_metadata.max_seq_len
+        block_table = attn_metadata.block_table
+
+        descale_shape = (cu_seqlens_q.shape[0] - 1, key.shape[1])
+
+        unified_attention(
+            q=query[:num_actual_tokens],
+            k=key_cache,
+            v=value_cache,
+            out=output[:num_actual_tokens],
+            cu_seqlens_q=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            seqused_k=seqused_k,
+            max_seqlen_k=max_seqlen_k,
+            softmax_scale=self.scale,
+            causal=True,
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            block_table=block_table,
+            softcap=self.logits_soft_cap,
+            q_descale=None,  # Not supported
+            k_descale=layer._k_scale.expand(descale_shape),
+            v_descale=layer._v_scale.expand(descale_shape),
+            sinks=self.sinks,
+            output_scale=output_scale,
+        )
+
+        return output
diff --git a/v1/attention/backends/utils.py b/v1/attention/backends/utils.py
new file mode 100644
index 0000000..8021358
--- /dev/null
+++ b/v1/attention/backends/utils.py
@@ -0,0 +1,1117 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import abc
+import enum
+import functools
+from abc import abstractmethod
+from dataclasses import dataclass, field, fields, make_dataclass
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    ClassVar,
+    Generic,
+    Literal,
+    Protocol,
+    TypeVar,
+    get_args,
+)
+
+import numpy as np
+import torch
+from typing_extensions import runtime_checkable
+
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.utils.math_utils import cdiv
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionImpl
+    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.worker.gpu_input_batch import InputBatch
+
+import vllm.envs as envs
+from vllm.attention.backends.abstract import AttentionBackend, AttentionMetadata
+from vllm.distributed.kv_transfer.kv_connector.utils import (
+    get_kv_connector_cache_layout,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.ubatch_utils import UBatchSlice
+
+logger = init_logger(__name__)
+KVCacheLayoutType = Literal["NHD", "HND"]
+_KV_CACHE_LAYOUT_OVERRIDE: KVCacheLayoutType | None = None
+
+PAD_SLOT_ID = -1
+
+
+def is_valid_kv_cache_layout(value: str) -> bool:
+    return value in get_args(KVCacheLayoutType)
+
+
+@dataclass
+class CommonAttentionMetadata:
+    """
+    Per-batch attention metadata, shared across layers and backends.
+    AttentionMetadataBuilder instances use it to construct per-layer metadata.
+
+    For many of the tensors we keep both GPU and CPU versions.
+    """
+
+    query_start_loc: torch.Tensor
+    query_start_loc_cpu: torch.Tensor
+    """(batch_size + 1,), the start location of each request in query Tensor"""
+    key_start_loc: torch.Tensor
+    """(batch_size + 1,), the start location of each request in key/valye Tensor(none-crossattention)"""
+    seq_lens: torch.Tensor
+    seq_lens_cpu: torch.Tensor
+    """(batch_size,), the length of each request including both computed tokens
+    and newly scheduled tokens"""
+
+    num_computed_tokens_cpu: torch.Tensor
+    """(batch_size,), the number of computed tokens for each request"""
+
+    num_reqs: int
+    """Number of requests"""
+    num_actual_tokens: int
+    """Total number of tokens in batch"""
+    max_query_len: int
+    """Longest query in batch"""
+    max_seq_len: int
+    """Longest context length in batch"""
+
+    block_table_tensor: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    causal: bool = True
+
+    # Needed by FastPrefillAttentionBuilder
+    logits_indices_padded: torch.Tensor | None = None
+    num_logits_indices: int | None = None
+
+    # Needed by CrossAttentionBuilder
+    encoder_seq_lens: np.ndarray | None = None
+
+    dcp_local_seq_lens: torch.Tensor | None = None
+    dcp_local_seq_lens_cpu: torch.Tensor | None = None
+    """Sequence lengths of the local rank in decode context parallelism world"""
+
+
+def slice_query_start_locs(
+    query_start_loc: torch.Tensor,
+    request_slice: slice,
+) -> torch.Tensor:
+    """
+    Creates a new query_start_loc that corresponds to the requests in
+    request_slice.
+
+    Note: This function creates a new tensor to hold the new query_start_locs.
+    This will break cudagraph compatibility.
+    """
+    return (
+        query_start_loc[request_slice.start : request_slice.stop + 1]
+        - query_start_loc[request_slice.start]
+    )
+
+
+def _make_metadata_with_slice(
+    ubatch_slice: UBatchSlice, attn_metadata: CommonAttentionMetadata
+) -> CommonAttentionMetadata:
+    """
+    This function creates a new CommonAttentionMetadata that corresponds to
+    the requests included in ubatch_slice
+    """
+
+    assert not ubatch_slice.is_empty(), f"Ubatch slice {ubatch_slice} is empty"
+
+    request_slice = ubatch_slice.request_slice
+    token_slice = ubatch_slice.token_slice
+
+    start_locs = attn_metadata.query_start_loc_cpu
+    first_req = request_slice.start
+    first_tok = token_slice.start
+    last_req = request_slice.stop - 1
+    last_tok = token_slice.stop - 1
+
+    assert start_locs[first_req] <= first_tok < start_locs[first_req + 1], (
+        "Token slice start outside of first request"
+    )
+    assert start_locs[last_req] <= last_tok < start_locs[last_req + 1], (
+        "Token slice end outside of last request"
+    )
+
+    # If the "middle" request has tokens in both ubatches, we have to split it.
+    # If ubatch_slice is the first ubatch then we will be splitting the last
+    # request. If it's the second microbatch, then we will be splitting the
+    # first request
+    splits_first_request = first_tok > start_locs[first_req]
+    splits_last_request = last_tok < start_locs[last_req + 1] - 1
+
+    query_start_loc_cpu = slice_query_start_locs(start_locs, request_slice)
+    query_start_loc = slice_query_start_locs(
+        attn_metadata.query_start_loc, request_slice
+    )
+
+    assert len(query_start_loc) >= 2, (
+        f"query_start_loc must have at least 2 elements, got {len(query_start_loc)}"
+    )
+
+    if splits_first_request:
+        tokens_skipped = first_tok - start_locs[first_req]
+        query_start_loc[1:] -= tokens_skipped
+        query_start_loc_cpu[1:] -= tokens_skipped
+    seq_lens = attn_metadata.seq_lens[request_slice]
+    seq_lens_cpu = attn_metadata.seq_lens_cpu[request_slice]
+
+    if splits_last_request:
+        tokens_skipped = query_start_loc_cpu[-1] - token_slice.stop
+        query_start_loc[-1] -= tokens_skipped
+        query_start_loc_cpu[-1] -= tokens_skipped
+
+        # Make sure we don't modify the seq_lens tensors
+        #  (not cudagraph compatible)
+        seq_lens = seq_lens.clone()
+        seq_lens_cpu = seq_lens_cpu.clone()
+        seq_lens[-1] -= tokens_skipped
+        seq_lens_cpu[-1] -= tokens_skipped
+
+    max_seq_len = int(seq_lens_cpu.max())
+    num_computed_tokens_cpu = attn_metadata.num_computed_tokens_cpu[request_slice]
+
+    num_requests = request_slice.stop - request_slice.start
+    num_actual_tokens = token_slice.stop - token_slice.start
+    max_query_len = int(
+        torch.max(torch.abs(query_start_loc_cpu[1:] - query_start_loc_cpu[:-1])).item()
+    )
+
+    # This is to account for the case where we are in a dummy
+    # run and query_start_loc_cpu is full of 0s
+    if max_query_len == 0:
+        max_query_len = attn_metadata.max_query_len
+
+    block_table_tensor = attn_metadata.block_table_tensor[request_slice]
+    slot_mapping = attn_metadata.slot_mapping[token_slice]
+
+    return CommonAttentionMetadata(
+        query_start_loc=query_start_loc,
+        query_start_loc_cpu=query_start_loc_cpu,
+        seq_lens=seq_lens,
+        seq_lens_cpu=seq_lens_cpu,
+        num_computed_tokens_cpu=num_computed_tokens_cpu,
+        num_reqs=num_requests,
+        num_actual_tokens=num_actual_tokens,
+        max_query_len=max_query_len,
+        max_seq_len=max_seq_len,
+        block_table_tensor=block_table_tensor,
+        slot_mapping=slot_mapping,
+    )
+
+
+def split_attn_metadata(
+    ubatch_slices: list[UBatchSlice],
+    common_attn_metadata: CommonAttentionMetadata,
+) -> list[CommonAttentionMetadata]:
+    """
+    Creates a new CommonAttentionMetadata instance that corresponds to the
+    requests for each UBatchSlice in ubatch_slices.
+
+    Note: This function does not modify common_attn_metadata
+    """
+    results = []
+    for ubatch_slice in ubatch_slices:
+        results.append(_make_metadata_with_slice(ubatch_slice, common_attn_metadata))
+
+    return results
+
+
+M = TypeVar("M")
+
+
+class AttentionCGSupport(enum.Enum):
+    """Constants for the cudagraph support of the attention backend
+    Here we do not consider the cascade attention, as currently
+    it is never cudagraph supported."""
+
+    ALWAYS = 3
+    """Cudagraph always supported; supports mixed-prefill-decode"""
+    UNIFORM_BATCH = 2
+    """Cudagraph supported for batches the only contain query lengths that are
+    the same, this can be used for spec-decode
+        i.e. "decodes" are 1 + num_speculative_tokens"""
+    UNIFORM_SINGLE_TOKEN_DECODE = 1
+    """Cudagraph supported for batches the only contain query_len==1 decodes"""
+    NEVER = 0
+    """NO cudagraph support"""
+
+
+class AttentionMetadataBuilder(abc.ABC, Generic[M]):
+    # Does this backend/builder support CUDA Graphs for attention (default: no).
+    # Do not access directly. Call get_cudagraph_support() instead.
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
+    # Does this backend/builder reorder the batch?
+    # If not, set this to None. Otherwise set it to the query
+    # length that will be pulled into the front of the batch.
+    reorder_batch_threshold: int | None = None
+
+    @abstractmethod
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        self.kv_cache_spec = kv_cache_spec
+        self.layer_names = layer_names
+        self.vllm_config = vllm_config
+        self.device = device
+
+    @classmethod
+    def get_cudagraph_support(
+        cls: type["AttentionMetadataBuilder"],
+        vllm_config: VllmConfig,
+        kv_cache_spec: AttentionSpec,
+    ) -> AttentionCGSupport:
+        """Get the cudagraph support level of this builder class."""
+        return cls._cudagraph_support
+
+    def _init_reorder_batch_threshold(
+        self,
+        reorder_batch_threshold: int | None = 1,
+        supports_spec_as_decode: bool = False,
+        supports_dcp_with_varlen: bool = False,
+    ) -> None:
+        self.reorder_batch_threshold = reorder_batch_threshold
+        if self.reorder_batch_threshold is not None and supports_spec_as_decode:
+            # If the backend supports spec-as-decode kernels, then we can set
+            # the reorder_batch_threshold based on the number of speculative
+            # tokens from the config.
+            speculative_config = self.vllm_config.speculative_config
+            if (
+                speculative_config is not None
+                and speculative_config.num_speculative_tokens is not None
+            ):
+                self.reorder_batch_threshold = max(
+                    self.reorder_batch_threshold,
+                    1 + speculative_config.num_speculative_tokens,
+                )
+
+        if (
+            self.vllm_config.parallel_config.decode_context_parallel_size > 1
+            and not supports_dcp_with_varlen
+        ):
+            self.reorder_batch_threshold = 1
+
+    @abstractmethod
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> M:
+        """
+        Central method that builds attention metadata.
+        Some builders (MLA) require reorder_batch to be called prior to build.
+
+        Args:
+            common_prefix_len: The length of the common prefix of the batch.
+            common_attn_metadata: The common attention metadata.
+            fast_build: The meta-data will prioritize speed of building over
+                then speed at execution. Can be used for spec-decode where the
+                result of a build call may only be used for few layers/iters.
+        """
+        raise NotImplementedError
+
+    def build_for_cudagraph_capture(
+        self, common_attn_metadata: CommonAttentionMetadata
+    ) -> M:
+        """
+        Build attention metadata for CUDA graph capture. Uses build by default.
+        Subclasses that override this method should call self.build or
+        super().build_for_cudagraph_capture.
+        """
+        return self.build(
+            common_prefix_len=0, common_attn_metadata=common_attn_metadata
+        )
+
+    def build_for_drafting(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        draft_index: int,
+    ) -> M:
+        """
+        Build attention metadata for draft model. Uses build by default.
+
+        Args:
+            common_attn_metadata: The common attention metadata.
+            draft_index: The index of the current draft operation.
+                When speculating a chain of tokens, this index refers to the
+                draft attempt for the i-th token.
+                For tree-based attention, this index instead refers to the
+                draft attempt for the i-th level in the tree of tokens.
+        """
+        return self.build(
+            common_prefix_len=0,
+            common_attn_metadata=common_attn_metadata,
+            fast_build=True,
+        )
+
+    def use_cascade_attention(
+        self,
+        common_prefix_len: int,
+        query_lens: np.ndarray,
+        num_query_heads: int,
+        num_kv_heads: int,
+        use_alibi: bool,
+        use_sliding_window: bool,
+        use_local_attention: bool,
+        num_sms: int,
+        dcp_world_size: int,
+    ) -> bool:
+        return False
+
+
+@functools.lru_cache
+def get_kv_cache_layout():
+    # Format specified by the code.
+    global _KV_CACHE_LAYOUT_OVERRIDE
+
+    if _KV_CACHE_LAYOUT_OVERRIDE is not None:
+        cache_layout = _KV_CACHE_LAYOUT_OVERRIDE
+        logger.info_once(
+            "`_KV_CACHE_LAYOUT_OVERRIDE` variable detected. "
+            "Setting KV cache layout to %s.",
+            cache_layout,
+        )
+        return cache_layout
+
+    # Format specified by the user.
+    cache_layout = envs.VLLM_KV_CACHE_LAYOUT
+    # When neither the user nor the override specified a layout, get default
+    if cache_layout is None:
+        cache_layout = get_kv_connector_cache_layout()
+    else:
+        assert is_valid_kv_cache_layout(cache_layout)
+        logger.info_once(
+            "`VLLM_KV_CACHE_LAYOUT` environment variable "
+            "detected. Setting KV cache layout to %s.",
+            cache_layout,
+        )
+    return cache_layout
+
+
+def set_kv_cache_layout(cache_layout: KVCacheLayoutType):
+    global _KV_CACHE_LAYOUT_OVERRIDE
+    _KV_CACHE_LAYOUT_OVERRIDE = cache_layout
+
+
+@dataclass
+class PerLayerParameters:
+    """
+    Currently, FlashInfer backend only support models in which all layers share
+    the same values for the following hyperparameters. Should not be used for
+    trtllm-gen backend since it supports different values for the following
+    hyperparameters.
+    """
+
+    window_left: int
+    logits_soft_cap: float | None
+    sm_scale: float
+    has_sinks: bool = False
+    # has same params for all layers
+    has_same_window_lefts: bool | None = field(default=None, compare=False)
+    has_same_all_params: bool | None = field(default=None, compare=False)
+
+
+def get_per_layer_parameters(
+    vllm_config: VllmConfig, layer_names: list[str], cls_: type["AttentionImpl"]
+) -> dict[str, PerLayerParameters]:
+    """
+    Scan layers in `layer_names` and determine some hyperparameters
+    to use during `plan`.
+    """
+
+    layers = get_layers_from_vllm_config(vllm_config, AttentionLayerBase, layer_names)
+    per_layer_params: dict[str, PerLayerParameters] = {}
+
+    for key, layer in layers.items():
+        impl = layer.impl
+        assert isinstance(impl, cls_)
+
+        # Infer hyperparameters from the attention layer
+        window_size = getattr(impl, "sliding_window", None)
+        window_left = window_size[0] if window_size is not None else -1
+        logits_soft_cap = getattr(impl, "logits_soft_cap", None)
+        sm_scale = impl.scale
+        has_sinks = getattr(impl, "sinks", None) is not None
+
+        per_layer_params[key] = PerLayerParameters(
+            window_left, logits_soft_cap, sm_scale, has_sinks
+        )
+
+    return per_layer_params
+
+
+def infer_global_hyperparameters(
+    per_layer_params: dict[str, PerLayerParameters],
+) -> PerLayerParameters:
+    """
+    Currently, FlashInfer backend other than trtllm-gen
+    only support models in which all layers share
+    the same values for the following hyperparameters:
+    - `window_left`
+    - `logits_soft_cap`
+    - `sm_scale`
+
+    So this function asserts that all layers share the same values for these
+    hyperparameters and returns the global values.
+    """
+
+    assert len(per_layer_params) > 0, "No attention layers found in the model."
+
+    param_sets = list(per_layer_params.values())
+    global_params = param_sets[0]
+
+    global_params.has_same_window_lefts = all(
+        params.window_left == global_params.window_left for params in param_sets
+    )
+    global_params.has_same_all_params = all(
+        params == global_params for params in param_sets
+    )
+
+    return global_params
+
+
+#
+# Take in `query_start_loc_np` and `seq_lens_np` and break the sequences into
+# local attention blocks, where each block is passed to the attention kernel
+# as an independent local ("virtual") batch item.
+#
+# For example, if are performing a chunked prefill a batch of 3 sequences:
+#   q_seqlens  = [4, 10, 5]
+#   kv_seqlens = [6, 17, 9]
+# Then normally for regular attention we would compute with an attention mask
+#  for batch idx 0 (q_seqlens = 4, kv_seqlens = 6) like:
+#   batch idx: 0 (q_seqlens = 4, kv_seqlens = 6)
+#        k_toks >   0 1 2 3 4 5
+#        q_toks v  _____________
+#               0 | 1 1 1
+#               1 | 1 1 1 1
+#               2 | 1 1 1 1 1
+#               3 | 1 1 1 1 1 1
+#
+# for local attention (with attn_chunk_size = 4) we would compute with an
+#  attention mask like:
+#   batch idx: 0  (q_seqlens = 4, kv_seqlens = 6, attn_chunk_size = 4)
+#        k_toks >   0 1 2 3 4 5
+#        q_toks v  _____________
+#               0 | 1 1 1
+#               1 | 1 1 1 1
+#               2 |         1
+#               3 |         1 1
+#
+# We can simulate this mask using standard flash-attention by breaking the
+#  sequences into local ("virtual") batches, where each local batch item is a
+#  local attention block, so in this case batch idx 0 would be broken up into:
+#
+#   local-batch idx: 0 (q_seqlens = 2, kv_seqlens = 4)  (batch 0)
+#        k_toks >   0 1 2 3
+#        q_toks v  _____________
+#               0 | 1 1 1
+#               1 | 1 1 1 1
+#   local-batch idx: 1 (q_seqlens = 2, kv_seqlens = 2) (batch 0)
+#        k_toks >   4 5
+#        q_toks v  _____________
+#               2 | 1
+#               3 | 1 1
+#
+# e.g. if we have:
+#   attn_chunk_size = 4
+#   query_start_loc_np = [0, 4, 14, 19] (q_seqlens = [4, 10, 5])
+# Then this function would return:
+#                           __b0__  ______b1______  __b2__ < orig batch indices
+#   q_seqlens_local    = [   2,  2,  1,  4,  4,  1,  4,  1]
+#   cu_seqlens_q_local = [0, 4,  6, 10, 14, 18, 19, 23, 24]
+#   seqlens_k_local    = [   4,  2,  4,  4,  4,  1,  4,  1]
+#   block_table_local  : shape[local_virtual_batches, pages_per_local_batch]
+def make_local_attention_virtual_batches(
+    attn_chunk_size: int,
+    common_attn_metadata: CommonAttentionMetadata,
+    block_size: int = 0,
+) -> CommonAttentionMetadata:
+    query_start_loc_np = common_attn_metadata.query_start_loc_cpu.numpy()
+    seq_lens_np = common_attn_metadata.seq_lens_cpu.numpy()
+    block_table = common_attn_metadata.block_table_tensor
+    device = common_attn_metadata.query_start_loc.device
+
+    q_seqlens = query_start_loc_np[1:] - query_start_loc_np[:-1]
+    actual_batch_size = seq_lens_np.shape[0]
+
+    # Handle if we are starting in the middle of a local attention block,
+    #  we assume q_seqlens > 0 (for all elements), for each batch idx we compute
+    #  the number of tokens that are not in the first local attention block and
+    #  then we can simply use a cdiv for the rest.
+    # For example if we have:
+    #   attn_chunk_size = 4
+    #   q_seqlens = [4, 10, 5]
+    #   k_seqlens = [6, 17, 9]
+    # Then we would get:
+    #   new_tokens_in_first_block = [2, 1, 4]
+    #   local_blocks = [2, 4, 2]
+    q_tokens_in_first_block = np.minimum(
+        attn_chunk_size - ((seq_lens_np - q_seqlens) % attn_chunk_size), q_seqlens
+    ).astype(np.int32)
+    tokens_in_last_block = attn_chunk_size + (seq_lens_np % -attn_chunk_size)
+    local_blocks = 1 + cdiv(q_seqlens - q_tokens_in_first_block, attn_chunk_size)
+
+    # Once we know the number of local blocks we can compute the request spans
+    #  for each batch idx, we can figure out the number of "virtual" requests we
+    #  have to make,
+    # For the above example we would get:
+    #   seqlens_q_local = [2, 2, 1, 4, 4, 1, 4, 1]
+    #
+    # First Get batched arange. (E.g., [2, 4, 2] -> [0, 1, 0, 1, 2, 3, 0, 1])
+    #   (TODO: max a utility to share this code with _prepare_inputs)
+    # arange step 1. [2, 4, 2] -> [2, 6, 8]
+    cu_num_blocks = np.cumsum(local_blocks)
+    virtual_batches = cu_num_blocks[-1]
+    # arange step 2. [2, 6, 8] -> [0, 0, 2, 2, 2, 2, 6, 6]
+    block_offsets = np.repeat(cu_num_blocks - local_blocks, local_blocks)
+    # arange step 3. [0, 1, 0, 1, 2, 3, 0, 1]
+    arange = np.arange(virtual_batches, dtype=np.int32) - block_offsets
+    # also compute reverse arange (i.e. [1, 0, 3, 2, 1, 0, 1, 0])
+    rarange = np.repeat(local_blocks, local_blocks) - arange - 1
+    # Then we can compute the seqlens_q_local, handling the fact that the
+    #  first and last blocks could be partial
+    seqlens_q_local = np.repeat(q_seqlens - q_tokens_in_first_block, local_blocks)
+    # set the first block since this may be a partial block
+    seqlens_q_local[arange == 0] = q_tokens_in_first_block
+    # set the remaining blocks
+    seqlens_q_local[arange > 0] = np.minimum(
+        seqlens_q_local - attn_chunk_size * (arange - 1), attn_chunk_size
+    )[arange > 0]
+
+    # convert from q_seqlens to cu_seqlens_q
+    cu_seqlens_q_local = np.empty(virtual_batches + 1, dtype=np.int32)
+    np.cumsum(seqlens_q_local, out=cu_seqlens_q_local[1:])
+    cu_seqlens_q_local[0] = 0
+
+    # compute the seqlens_k_local,
+    #  basically a full local attention block for all but the last block in each
+    #  batch
+    # For our example this will be:
+    #   seqlens_k_local = [4, 2, 4, 4, 4, 1, 4, 1]
+    seqlens_k_local = np.full(cu_num_blocks[-1], attn_chunk_size, dtype=np.int32)
+    seqlens_k_local[cu_num_blocks - 1] = tokens_in_last_block
+    num_computed_tokens_local = seqlens_k_local - seqlens_q_local
+
+    k_seqstarts_absolute = np.repeat(seq_lens_np, local_blocks) - (
+        rarange * attn_chunk_size + np.repeat(tokens_in_last_block, local_blocks)
+    )
+    # For the example the local attention blocks start at:
+    #                           _b0_  _____b1_____  _b2_
+    #   k_seqstarts_absolute = [0, 4, 4, 8, 12, 16, 4, 8]
+    block_starts = k_seqstarts_absolute // block_size
+    assert attn_chunk_size % block_size == 0, (
+        f"attn_chunk_size {attn_chunk_size} is not divisible by block_size {block_size}"
+    )
+    pages_per_local_batch = attn_chunk_size // block_size
+
+    # Create a block_table for the local attention blocks
+    # For out example if we have a block-table like (assuming block_size=2):
+    #   block_table = [
+    #     [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],  < batch 0
+    #     [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],  < batch 1
+    #     [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],  < batch 2
+    #   ]
+    # Then for the local batches we would want a block-table like
+    #   block_table_local = [
+    #     [  0,  1 ], < local-batch 0, (batch 0, starting from k[0])
+    #     [  2,  3 ], < local-batch 1, (batch 0, starting from k[4])
+    #     [ 12, 13 ], < local-batch 2, (batch 1, starting from k[4])
+    #     [ 14, 15 ], < local-batch 3, (batch 1, starting from k[8])
+    #     [ 16, 17 ], < local-batch 4, (batch 1, starting from k[12])
+    #     [ 18, 19 ], < local-batch 5, (batch 1, starting from k[16])
+    #     [ 22, 23 ], < local-batch 6, (batch 2, starting from k[4])
+    #     [ 24, 25 ], < local-batch 7, (batch 2, starting from k[8])
+    #   ]
+    block_indices = block_starts[:, None] + np.arange(
+        pages_per_local_batch, dtype=np.int32
+    )
+    block_indices = block_indices.reshape(-1).clip(max=block_table.shape[1] - 1)
+    batch_indices = np.repeat(
+        np.arange(actual_batch_size, dtype=np.int32),
+        local_blocks * pages_per_local_batch,
+    )
+
+    # NOTE: https://github.com/pytorch/pytorch/pull/160256 causes performance
+    # regression when using numpy arrays (batch and block indices) to index into
+    # torch tensor (block_table). As a workaround, convert numpy arrays to torch
+    # tensor first, which recovers perf.
+    batch_indices_torch = torch.from_numpy(batch_indices)
+    block_indices_torch = torch.from_numpy(block_indices)
+    block_table_local = block_table[batch_indices_torch, block_indices_torch].view(
+        virtual_batches, -1
+    )
+
+    query_start_loc_cpu = torch.from_numpy(cu_seqlens_q_local)
+    seq_lens_cpu = torch.from_numpy(seqlens_k_local)
+    max_seq_len = int(seq_lens_cpu.max())
+
+    return CommonAttentionMetadata(
+        query_start_loc_cpu=query_start_loc_cpu,
+        query_start_loc=query_start_loc_cpu.to(device=device, non_blocking=True),
+        seq_lens_cpu=seq_lens_cpu,
+        seq_lens=seq_lens_cpu.to(device=device, non_blocking=True),
+        num_computed_tokens_cpu=torch.from_numpy(num_computed_tokens_local),
+        num_reqs=len(seq_lens_cpu),
+        num_actual_tokens=common_attn_metadata.num_actual_tokens,
+        max_query_len=seqlens_q_local.max(),
+        max_seq_len=max_seq_len,
+        block_table_tensor=block_table_local,
+        slot_mapping=common_attn_metadata.slot_mapping,
+        causal=True,
+    )
+
+
+def make_kv_sharing_fast_prefill_common_attn_metadata(
+    common_attn_metadata: CommonAttentionMetadata,
+) -> CommonAttentionMetadata:
+    if common_attn_metadata.max_query_len == 1:
+        # All requests are decode (assume 1 token for now)
+        # Skip computing fast prefill path
+        return common_attn_metadata
+
+    assert common_attn_metadata.logits_indices_padded is not None
+    assert common_attn_metadata.num_logits_indices is not None
+
+    logits_indices_padded = common_attn_metadata.logits_indices_padded
+    num_logits_indices = common_attn_metadata.num_logits_indices
+    # Get rid of CUDAGraph padding, if any
+    logits_indices = logits_indices_padded[:num_logits_indices]
+    num_reqs = common_attn_metadata.num_reqs
+    query_start_loc = common_attn_metadata.query_start_loc
+    seq_lens = common_attn_metadata.seq_lens
+    # Example inputs
+    # num_reqs: 3
+    # generation_indices:  [14, 18, 19, 27]
+    # query_start_loc: [0, 15, 20, 28]
+    # seq_lens:        [41, 31, 40]
+
+    # Find how many decode indices belong to each request
+    # request_ids: [0, 1, 1, 2]
+    request_ids = torch.bucketize(logits_indices, query_start_loc[1:], right=True)
+
+    # Figure out how many tokens are in each request
+    # num_decode_tokens: [1, 2, 1]
+    num_decode_tokens = torch.bincount(request_ids, minlength=num_reqs)
+
+    # Calculate new query_start_loc with tokens in generation_indices
+    # decode_query_start_loc: [0, 1, 3, 4]
+    decode_query_start_loc = torch.empty(
+        num_reqs + 1, device=query_start_loc.device, dtype=query_start_loc.dtype
+    )
+
+    decode_query_start_loc[0] = 0
+    decode_query_start_loc[1:] = torch.cumsum(num_decode_tokens, dim=0)
+    decode_max_query_len = int(num_decode_tokens.max().item())
+    total_num_decode_tokens = int(num_decode_tokens.sum().item())
+
+    common_attn_metadata = CommonAttentionMetadata(
+        query_start_loc=decode_query_start_loc,
+        query_start_loc_cpu=decode_query_start_loc.to("cpu", non_blocking=True),
+        seq_lens=seq_lens,
+        seq_lens_cpu=seq_lens.to("cpu", non_blocking=True),
+        num_computed_tokens_cpu=common_attn_metadata.num_computed_tokens_cpu,
+        num_reqs=num_reqs,
+        num_actual_tokens=total_num_decode_tokens,
+        max_query_len=decode_max_query_len,
+        max_seq_len=common_attn_metadata.max_seq_len,
+        block_table_tensor=common_attn_metadata.block_table_tensor,
+        slot_mapping=common_attn_metadata.slot_mapping,
+        causal=True,
+    )
+    return common_attn_metadata
+
+
+def subclass_attention_backend(
+    name_prefix: str,
+    attention_backend_cls: type[AttentionBackend],
+    builder_cls: type[AttentionMetadataBuilder[M]],
+) -> type[AttentionBackend]:
+    """
+    Return a new subclass where `get_builder_cls` returns `builder_cls`.
+    """
+    name: str = name_prefix + attention_backend_cls.__name__  # type: ignore
+
+    return type(
+        name, (attention_backend_cls,), {"get_builder_cls": lambda: builder_cls}
+    )
+
+
+def split_decodes_prefills_and_extends(
+    common_attn_metadata: CommonAttentionMetadata,
+    decode_threshold: int = 1,
+) -> tuple[int, int, int, int, int, int]:
+    """
+    Assuming a reordered batch, finds the boundary between prefill and decode
+    requests.
+
+    Args:
+        common_attn_metadata: CommonAttentionMetadata object containing the
+            batch metadata.
+        decode_threshold: The maximum query length to be considered a decode.
+
+    Returns:
+        num_decodes: The number of decode requests.
+        num_extends: The number of extend requests.
+        num_prefills: The number of prefill requests.
+        num_decode_tokens: The number of tokens in the decode requests.
+        num_extend_tokens: The number of tokens in the extend requests.
+        num_prefill_tokens: The number of tokens in the prefill requests.
+    """
+    max_query_len = common_attn_metadata.max_query_len
+    num_reqs = common_attn_metadata.num_reqs
+    num_tokens = common_attn_metadata.num_actual_tokens
+    query_start_loc = common_attn_metadata.query_start_loc_cpu
+    seq_lens = common_attn_metadata.seq_lens_cpu
+
+    if max_query_len <= decode_threshold:
+        return num_reqs, 0, 0, num_tokens, 0, 0
+
+    query_lens = query_start_loc[1:] - query_start_loc[:-1]
+    is_prefill_or_extend = query_lens > decode_threshold
+    is_prefill = (seq_lens == query_lens) & is_prefill_or_extend
+    first_extend = is_prefill_or_extend.int().argmax(dim=-1).item()
+    first_prefill = is_prefill.int().argmax(dim=-1).item()
+    num_decodes = first_extend
+    num_decode_tokens = query_start_loc[first_extend].item()
+    if not torch.any(is_prefill_or_extend):
+        return (num_decodes, 0, 0, num_decode_tokens, 0, 0)
+
+    num_prefills_or_extends = num_reqs - num_decodes
+    num_prefill_or_extend_tokens = num_tokens - num_decode_tokens
+    if not torch.any(is_prefill):
+        return (
+            num_decodes,
+            num_prefills_or_extends,
+            0,
+            num_decode_tokens,
+            num_prefill_or_extend_tokens,
+            0,
+        )
+
+    num_extends = first_prefill - num_decodes
+    num_prefills = num_reqs - first_prefill
+
+    num_prefill_tokens = num_tokens - query_start_loc[first_prefill]
+    num_extend_tokens = num_prefill_or_extend_tokens - num_prefill_tokens
+    return (
+        num_decodes,
+        num_extends,
+        num_prefills,
+        num_decode_tokens,
+        num_extend_tokens,
+        num_prefill_tokens,
+    )
+
+
+def split_decodes_and_prefills(
+    common_attn_metadata: CommonAttentionMetadata,
+    decode_threshold: int = 1,
+    require_uniform: bool = False,
+) -> tuple[int, int, int, int]:
+    """
+    Assuming a reordered batch, finds the boundary between prefill and decode
+    requests.
+
+    Args:
+        common_attn_metadata: CommonAttentionMetadata object containing the
+            batch metadata.
+        decode_threshold: The maximum query length to be considered a decode.
+        require_uniform: If True, requires that all decode requests have the
+            same query length. When set, some queries may be considered prefills
+            even if they are <= decode_threshold, in order to ensure uniformity.
+
+    Returns:
+        num_decodes: The number of decode requests.
+        num_prefills: The number of prefill requests.
+        num_decode_tokens: The number of tokens in the decode requests.
+        num_prefill_tokens: The number of tokens in the prefill requests.
+    """
+    max_query_len = common_attn_metadata.max_query_len
+    num_reqs = common_attn_metadata.num_reqs
+    num_tokens = common_attn_metadata.num_actual_tokens
+    query_start_loc = common_attn_metadata.query_start_loc_cpu
+
+    if max_query_len <= decode_threshold and (
+        not require_uniform or decode_threshold <= 1
+    ):
+        return num_reqs, 0, num_tokens, 0
+
+    query_lens = query_start_loc[1:] - query_start_loc[:-1]
+    if query_lens[0].item() > decode_threshold:
+        # first request is not decode, so no decode requests
+        return 0, num_reqs, 0, num_tokens
+
+    if require_uniform:
+        is_prefill = query_lens != query_lens[0]
+    else:
+        is_prefill = query_lens > decode_threshold
+
+    if not torch.any(is_prefill):
+        return num_reqs, 0, num_tokens, 0
+
+    first_prefill = is_prefill.int().argmax(dim=-1).item()
+    assert torch.all(query_lens[:first_prefill] <= decode_threshold)
+    num_decodes = first_prefill
+    num_prefills = num_reqs - num_decodes
+    num_decode_tokens = query_start_loc[first_prefill].item()
+    num_prefill_tokens = num_tokens - num_decode_tokens
+    return (num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens)
+
+
+def reorder_batch_to_split_decodes_and_prefills(
+    input_batch: "InputBatch",
+    scheduler_output: "SchedulerOutput",
+    decode_threshold: int = 1,
+) -> bool:
+    """
+    Reorders the batch to split into prefill and decode requests; places all
+    requests with <= decode_threshold tokens at the front of the batch.
+
+    Returns:
+        True if the batch was modified, False otherwise.
+    """
+    # We now want to reorder the batch into decode → extend → prefill order
+    # where:
+    #   decode: request with num_scheduled_tokens <= decode_threshold
+    #   extend: non-decode request with existing context
+    #   prefill: non-decode request with no existing context
+    # NOTE for now we loosely use "decode" to mean requests where attention is
+    #  likely memory-bound and "prefill" to mean requests where attention is
+    #  likely compute-bound,
+    num_reqs = len(input_batch.req_ids)
+    num_scheduled_tokens = [
+        scheduler_output.num_scheduled_tokens[id] for id in input_batch.req_ids
+    ]
+    num_scheduled_tokens_np = np.array(num_scheduled_tokens)
+    num_computed_tokens_np = input_batch.num_computed_tokens_cpu[:num_reqs]
+
+    is_decode = num_scheduled_tokens_np <= decode_threshold
+    is_extend = (~is_decode) & (num_computed_tokens_np > 0)
+    is_prefill = (~is_decode) & (num_computed_tokens_np == 0)
+
+    # Desired order: decode → extend → prefill
+    req_regions = np.zeros(is_decode.shape, dtype=np.int32)  # 0 = decode by default
+    req_regions[is_extend] = 1
+    req_regions[is_prefill] = 2
+
+    num_decodes = int(is_decode.sum())
+    num_extends = int(is_extend.sum())
+
+    target_regions = np.zeros(num_reqs, dtype=np.int32)
+    target_regions[num_decodes : num_decodes + num_extends] = 1
+    target_regions[num_decodes + num_extends :] = 2
+
+    needs_swap = req_regions != target_regions
+
+    if not needs_swap.any():
+        return False
+
+    # Extract indices that need swapping and sort by target region
+    orig_indices = np.where(needs_swap)[0]
+    sorted_order = np.argsort(req_regions[needs_swap], kind="stable")
+    src_indices = orig_indices[sorted_order]
+
+    src_dest_map = {int(src): int(dst) for src, dst in zip(src_indices, orig_indices)}
+
+    for src in src_dest_map:
+        dst = src_dest_map[src]
+        while src != dst:
+            input_batch.swap_states(src, dst)
+            # Mark dst as done by updating its destination to itself
+            next_dst = src_dest_map.get(dst, dst)
+            src_dest_map[dst] = dst
+            dst = next_dst
+
+    return True
+
+
+def reshape_query_for_spec_decode(query: torch.Tensor, batch_size: int) -> torch.Tensor:
+    """
+    Reshapes the query tensor for the specified batch size, so that
+    it has shape (batch_size, seq_len, num_heads, head_dim).
+    """
+    assert query.dim() == 3, f"query must be 3D, got {query.dim()}D"
+    total_tokens = query.shape[0]
+    num_heads = query.shape[1]
+    head_dim = query.shape[2]
+    assert total_tokens % batch_size == 0, (
+        f"{total_tokens=} is not divisible by {batch_size=}"
+    )
+    seq_len = total_tokens // batch_size
+    return query.view(batch_size, seq_len, num_heads, head_dim)
+
+
+def reshape_attn_output_for_spec_decode(attn_output: torch.Tensor) -> torch.Tensor:
+    """
+    Reshapes the attention output tensor, so that
+    the batch_size and seq_len dimensions are combined.
+    """
+    if attn_output.dim() == 3:
+        # Already in the correct shape
+        return attn_output
+    assert attn_output.dim() == 4, f"attn_output must be 4D, got {attn_output.dim()}D"
+    total_tokens = attn_output.shape[0] * attn_output.shape[1]
+    return attn_output.view(total_tokens, attn_output.shape[2], attn_output.shape[3])
+
+
+def subclass_attention_metadata(
+    name_prefix: str,
+    metadata_cls: Any,
+    fields: list[tuple[str, Any, Any]],
+) -> Any:
+    """
+    Return a new subclass of `metadata_cls` with additional fields
+    """
+    name: str = name_prefix + metadata_cls.__name__  # type: ignore
+    Wrapped = make_dataclass(name, fields, bases=(metadata_cls,))
+    return Wrapped
+
+
+@runtime_checkable
+class KVSharingFastPrefillMetadata(Protocol):
+    logits_indices_padded: torch.Tensor | None = None
+    num_logits_indices: int | None = None
+
+
+def create_fast_prefill_custom_backend(
+    prefix: str,
+    underlying_attn_backend: AttentionBackend,
+) -> type[AttentionBackend]:
+    underlying_builder = underlying_attn_backend.get_builder_cls()
+
+    class FastPrefillAttentionBuilder(underlying_builder):  # type: ignore
+        def build(
+            self,
+            common_prefix_len: int,
+            common_attn_metadata: CommonAttentionMetadata,
+            fast_build: bool = False,
+        ) -> AttentionMetadata:
+            new_common_attn_metadata = (
+                make_kv_sharing_fast_prefill_common_attn_metadata(common_attn_metadata)
+            )
+            metadata = super().build(
+                common_prefix_len, new_common_attn_metadata, fast_build
+            )
+
+            class KVSharingFastPrefillAttentionMetadata(
+                metadata.__class__,  #  type: ignore
+                KVSharingFastPrefillMetadata,
+            ):
+                def __init__(self, metadata, common_attn_metadata):
+                    # Shallow copy all fields in metadata cls
+                    for _field in fields(metadata.__class__):
+                        setattr(self, _field.name, getattr(metadata, _field.name))
+
+                    self.logits_indices_padded = (
+                        common_attn_metadata.logits_indices_padded
+                    )
+                    self.num_logits_indices = common_attn_metadata.num_logits_indices
+
+            return KVSharingFastPrefillAttentionMetadata(metadata, common_attn_metadata)
+
+    attn_backend = subclass_attention_backend(
+        name_prefix=prefix,
+        attention_backend_cls=underlying_attn_backend,
+        builder_cls=FastPrefillAttentionBuilder,
+    )
+
+    return attn_backend
+
+
+def compute_causal_conv1d_metadata(query_start_loc_p: torch.Tensor):
+    # Needed for causal_conv1d
+    seqlens = query_start_loc_p.diff().to("cpu")
+    nums_dict = {}  # type: ignore
+    batch_ptr = None
+    token_chunk_offset_ptr = None
+    device = query_start_loc_p.device
+    for BLOCK_M in [8]:  # cover all BLOCK_M values
+        nums = -(-seqlens // BLOCK_M)
+        nums_dict[BLOCK_M] = {}
+        nums_dict[BLOCK_M]["nums"] = nums
+        nums_dict[BLOCK_M]["tot"] = nums.sum().item()
+        mlist = torch.from_numpy(np.repeat(np.arange(len(nums)), nums))
+        nums_dict[BLOCK_M]["mlist"] = mlist
+        mlist_len = len(nums_dict[BLOCK_M]["mlist"])
+        nums_dict[BLOCK_M]["mlist_len"] = mlist_len
+        MAX_NUM_PROGRAMS = max(1024, mlist_len) * 2
+        offsetlist = []  # type: ignore
+        for idx, num in enumerate(nums):
+            offsetlist.extend(range(num))
+        offsetlist = torch.tensor(offsetlist, dtype=torch.int32)
+        nums_dict[BLOCK_M]["offsetlist"] = offsetlist
+
+        if batch_ptr is None:
+            # Update default value after class definition
+            batch_ptr = torch.full(
+                (MAX_NUM_PROGRAMS,), PAD_SLOT_ID, dtype=torch.int32, device=device
+            )
+            token_chunk_offset_ptr = torch.full(
+                (MAX_NUM_PROGRAMS,), PAD_SLOT_ID, dtype=torch.int32, device=device
+            )
+        else:
+            if batch_ptr.nelement() < MAX_NUM_PROGRAMS:
+                batch_ptr.resize_(MAX_NUM_PROGRAMS).fill_(PAD_SLOT_ID)
+                token_chunk_offset_ptr.resize_(  # type: ignore
+                    MAX_NUM_PROGRAMS
+                ).fill_(PAD_SLOT_ID)
+
+        batch_ptr[0:mlist_len].copy_(mlist)
+        token_chunk_offset_ptr[  # type: ignore
+            0:mlist_len
+        ].copy_(offsetlist)
+        nums_dict[BLOCK_M]["batch_ptr"] = batch_ptr
+        nums_dict[BLOCK_M]["token_chunk_offset_ptr"] = token_chunk_offset_ptr  # type: ignore
+
+    return nums_dict, batch_ptr, token_chunk_offset_ptr
+
+
+def get_dcp_local_seq_lens(
+    seq_lens: torch.Tensor,
+    dcp_world_size: int = 1,
+    dcp_rank: int | None = None,
+    dcp_kv_cache_interleave_size: int = 1,
+) -> torch.Tensor:
+    """While using dcp, kv_cache size stored on each rank may be different,
+    use this function to calculate split decode seq_lens of each dcp rank.
+    Only consider dcp now, we can extend the case of cp based on this.
+    """
+    num_requests = seq_lens.size(0)
+    if dcp_rank is None:
+        rank_offsets = (
+            torch.arange(dcp_world_size, dtype=torch.int32)
+            .unsqueeze(0)
+            .repeat(num_requests, 1)
+        )
+    else:
+        rank_offsets = torch.Tensor([[dcp_rank]]).to(dtype=torch.int32)
+    seq_lens_tiled = (
+        seq_lens.to(torch.int32).unsqueeze(-1).repeat(1, rank_offsets.shape[1])
+    )
+    base = (
+        seq_lens_tiled
+        // dcp_kv_cache_interleave_size
+        // dcp_world_size
+        * dcp_kv_cache_interleave_size
+    )
+    remainder = seq_lens_tiled - base * dcp_world_size
+    remainder = torch.clip(
+        remainder - rank_offsets * dcp_kv_cache_interleave_size,
+        0,
+        dcp_kv_cache_interleave_size,
+    )
+    dcp_local_seq_lens = base + remainder
+    return dcp_local_seq_lens.squeeze(1)
diff --git a/v1/attention/backends/xformers.py b/v1/attention/backends/xformers.py
new file mode 100644
index 0000000..d15d794
--- /dev/null
+++ b/v1/attention/backends/xformers.py
@@ -0,0 +1,417 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Attention layer with XFormersAttention."""
+
+from dataclasses import dataclass
+from typing import ClassVar, Optional
+
+import torch
+
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionImpl,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.attention.ops.triton_unified_attention import unified_attention
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    split_decodes_and_prefills,
+)
+from vllm.v1.kv_cache_interface import AttentionSpec
+
+try:
+    from xformers import ops as xops
+    from xformers.ops.fmha.attn_bias import (
+        AttentionBias,
+        PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
+    )
+
+    XFORMERS_AVAILABLE = True
+except ImportError:
+    XFORMERS_AVAILABLE = False
+
+from vllm import _custom_ops as ops
+
+logger = init_logger(__name__)
+
+
+class XFormersAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [
+            32,
+            40,
+            48,
+            56,
+            64,
+            72,
+            80,
+            88,
+            96,
+            104,
+            112,
+            120,
+            128,
+            136,
+            144,
+            152,
+            160,
+            168,
+            176,
+            184,
+            192,
+            200,
+            208,
+            216,
+            224,
+            232,
+            240,
+            248,
+            256,
+        ]
+
+    @staticmethod
+    def get_name() -> str:
+        return "XFORMERS"
+
+    @staticmethod
+    def get_impl_cls() -> type["XFormersAttentionImpl"]:
+        return XFormersAttentionImpl
+
+    @staticmethod
+    def get_kv_cache_shape(
+        num_blocks: int,
+        block_size: int,
+        num_kv_heads: int,
+        head_size: int,
+        cache_dtype_str: str = "auto",
+    ) -> tuple[int, ...]:
+        if block_size % 16 != 0:
+            raise ValueError("Block size must be a multiple of 16.")
+        return (2, num_blocks, block_size, num_kv_heads, head_size)
+
+    @staticmethod
+    def get_builder_cls() -> type["XFormersAttentionMetadataBuilder"]:
+        return XFormersAttentionMetadataBuilder
+
+    @staticmethod
+    def use_cascade_attention(*args, **kwargs) -> bool:
+        return False
+
+
+@dataclass
+class XFormersAttentionMetadata:
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
+    slot_mapping: torch.Tensor
+
+    num_prefill_tokens: int = 0
+    num_decode_tokens: int = 0
+    num_prefills: int = 0
+    num_decodes: int = 0
+
+    # Biases for different attention types.
+    attn_bias: Optional["AttentionBias"] = None
+
+    # Self-attention prefill/decode metadata cache
+    _cached_prefill_metadata: Optional["XFormersAttentionMetadata"] = None
+    _cached_decode_metadata: Optional["XFormersAttentionMetadata"] = None
+
+    @property
+    def prefill_metadata(self) -> Optional["XFormersAttentionMetadata"]:
+        if self.num_prefills == 0:
+            return None
+
+        if self._cached_prefill_metadata is not None:
+            # Recover cached prefill-phase attention
+            # metadata structure
+            return self._cached_prefill_metadata
+
+        q_start_loc = self.query_start_loc[self.num_decodes :]
+        q_seqlens = torch.diff(q_start_loc)
+        kv_seqlens = self.seq_lens[self.num_decodes :]
+        # Construct & cache prefill-phase attention metadata structure
+        self._cached_prefill_metadata = XFormersAttentionMetadata(
+            num_actual_tokens=self.num_prefill_tokens,
+            max_query_len=int(q_seqlens.max().item()),
+            query_start_loc=q_start_loc - q_start_loc[0],
+            max_seq_len=int(kv_seqlens.max().item()),
+            seq_lens=kv_seqlens,
+            block_table=self.block_table[self.num_decodes :],
+            slot_mapping=self.slot_mapping[self.num_decode_tokens :],
+        )
+        return self._cached_prefill_metadata
+
+    @property
+    def decode_metadata(self) -> Optional["XFormersAttentionMetadata"]:
+        if self.num_decode_tokens == 0:
+            return None
+
+        if self._cached_decode_metadata is not None:
+            # Recover cached decode-phase attention
+            # metadata structure
+            return self._cached_decode_metadata
+
+        q_start_loc = self.query_start_loc
+        q_seqlens = torch.diff(q_start_loc)
+        decode_kv_seqlens = self.seq_lens[: self.num_decodes]
+        # Construct & cache decode-phase attention metadata structure
+        self._cached_decode_metadata = XFormersAttentionMetadata(
+            num_actual_tokens=self.num_decode_tokens,
+            max_query_len=int(q_seqlens[: self.num_decodes].max().item()),
+            query_start_loc=q_start_loc[: self.num_decodes + 1],
+            max_seq_len=int(decode_kv_seqlens.max().item()),
+            seq_lens=decode_kv_seqlens,
+            block_table=self.block_table[: self.num_decodes],
+            slot_mapping=self.slot_mapping[: self.num_decode_tokens],
+            attn_bias=self.attn_bias,
+        )
+        return self._cached_decode_metadata
+
+
+class XFormersAttentionMetadataBuilder(
+    AttentionMetadataBuilder[XFormersAttentionMetadata]
+):
+    reorder_batch_threshold: int = 1
+
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+
+        assert XFORMERS_AVAILABLE
+        self.block_size = kv_cache_spec.block_size
+        self._num_decodes = 0
+        self._num_decode_tokens = 0
+
+    def build(
+        self,
+        common_prefix_len: int,
+        common_attn_metadata: CommonAttentionMetadata,
+        fast_build: bool = False,
+    ) -> XFormersAttentionMetadata:
+        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
+            split_decodes_and_prefills(
+                common_attn_metadata, decode_threshold=self.reorder_batch_threshold
+            )
+        )
+
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
+        q_start_loc = common_attn_metadata.query_start_loc
+        q_seqlens = torch.diff(q_start_loc)
+        max_query_len = common_attn_metadata.max_query_len
+        kv_seqlens = common_attn_metadata.seq_lens
+        max_seq_len = common_attn_metadata.max_seq_len
+        block_table = common_attn_metadata.block_table_tensor
+        slot_mapping = common_attn_metadata.slot_mapping
+
+        bias = None
+        if num_decodes > 0:
+            # Construct the decoder bias.
+            decode_q_seqlens = q_seqlens[:num_decodes]
+            decode_kv_seqlens = kv_seqlens[:num_decodes]
+            bias = PagedBlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=decode_q_seqlens.tolist(),
+                kv_seqlen=decode_kv_seqlens.tolist(),
+                page_size=self.block_size,
+                block_tables=block_table[:num_decodes],
+                device=block_table.device,
+            )
+
+        return XFormersAttentionMetadata(
+            num_actual_tokens=num_actual_tokens,
+            num_prefill_tokens=num_prefill_tokens,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_decodes=num_decodes,
+            max_query_len=max_query_len,
+            query_start_loc=q_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=kv_seqlens,
+            block_table=block_table,
+            slot_mapping=slot_mapping,
+            attn_bias=bias,
+        )
+
+
+class XFormersAttentionImpl(AttentionImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None = None,
+        attn_type: AttentionType = AttentionType.DECODER,
+        kv_sharing_target_layer_name: str | None = None,
+    ) -> None:
+        if kv_sharing_target_layer_name is not None:
+            raise NotImplementedError("KV sharing is not supported in V0.")
+        if alibi_slopes is not None:
+            raise NotImplementedError("XFormers does not support alibi slopes yet.")
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+        self.kv_cache_dtype = kv_cache_dtype
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
+        if logits_soft_cap is None:
+            # Setting logits_soft_cap to 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+
+        if attn_type != AttentionType.DECODER:
+            raise NotImplementedError(
+                "Encoder self-attention and "
+                "encoder/decoder cross-attention "
+                "are not implemented for "
+                "XFormersAttentionImpl."
+            )
+
+    def forward(
+        self,
+        layer: torch.nn.Module,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: XFormersAttentionMetadata,
+        output: torch.Tensor | None = None,
+        output_scale: torch.Tensor | None = None,
+        output_block_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        """Forward pass with XFormers.
+
+        Args:
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
+            kv_cache: shape =
+                [2, num_blocks, block_size, num_kv_heads, head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        assert output is not None, "Output tensor must be provided."
+
+        if output_scale is not None or output_block_scale is not None:
+            raise NotImplementedError(
+                "fused output quantization is not yet supported"
+                " for XFormersAttentionImpl"
+            )
+
+        if attn_metadata is None:
+            # Profiling run.
+            return output.fill_(0)
+
+        # Cache the input KVs.
+        key_cache, value_cache = kv_cache.unbind(0)
+        if self.kv_sharing_target_layer_name is None:
+            # Reshape the input keys and values and store them in the cache.
+            # Skip this if sharing KV cache with an earlier attention layer.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping is
+            # not padded. However, we don't need to do key[:num_actual_tokens]
+            # and value[:num_actual_tokens] because the reshape_and_cache_flash
+            # op uses the slot_mapping's shape to determine the number of
+            # actual tokens.
+            ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        num_actual_tokens = attn_metadata.num_actual_tokens
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        if prefill_meta := attn_metadata.prefill_metadata:
+            descale_shape = (prefill_meta.query_start_loc.shape[0] - 1, key.shape[1])
+            unified_attention(
+                q=query[num_decode_tokens:num_actual_tokens],
+                k=key_cache,
+                v=value_cache,
+                out=output[num_decode_tokens:num_actual_tokens],
+                cu_seqlens_q=prefill_meta.query_start_loc,
+                max_seqlen_q=prefill_meta.max_query_len,
+                seqused_k=prefill_meta.seq_lens,
+                max_seqlen_k=prefill_meta.max_seq_len,
+                softmax_scale=self.scale,
+                causal=True,
+                alibi_slopes=self.alibi_slopes,
+                window_size=self.sliding_window,
+                block_table=prefill_meta.block_table,
+                softcap=self.logits_soft_cap,
+                q_descale=None,  # Not supported
+                k_descale=layer._k_scale.expand(descale_shape),
+                v_descale=layer._v_scale.expand(descale_shape),
+            )
+
+        if decode_meta := attn_metadata.decode_metadata:
+            # Query for decode. KV is not needed because it is already cached.
+            decode_query = query[:num_decode_tokens]
+            # Reshape query to [1, B_T, G, H, D].
+            q = decode_query.view(
+                1, -1, self.num_kv_heads, self.num_queries_per_kv, self.head_size
+            )
+            # Reshape the k and v caches to [1, Bkv_T, G, H, D]
+            cache_k = key_cache.view(
+                1, -1, self.num_kv_heads, 1, self.head_size
+            ).expand(
+                1,
+                -1,
+                self.num_kv_heads,
+                self.num_queries_per_kv,
+                self.head_size,
+            )
+            cache_v = value_cache.view(
+                1, -1, self.num_kv_heads, 1, self.head_size
+            ).expand(
+                1,
+                -1,
+                self.num_kv_heads,
+                self.num_queries_per_kv,
+                self.head_size,
+            )
+
+            attn_bias = decode_meta.attn_bias
+            output[:num_decode_tokens] = xops.memory_efficient_attention_forward(
+                q,
+                cache_k,
+                cache_v,
+                attn_bias=attn_bias,
+                p=0.0,
+                scale=self.scale,
+            ).view(decode_query.shape)
+
+        # Reshape the output tensor.
+        return output
diff --git a/v1/core/__init__.py b/v1/core/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/core/__pycache__/__init__.cpython-312.pyc b/v1/core/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c3bbb585f69e325747d14f5e3422a89b2a7bdb88
GIT binary patch
literal 157
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+31(#7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>L=$HrRvAWXXa&=#K-FuRNmsS
e$<0qG%}KQ@Vg(w;2*kx8#z$sGM#ds$APWFZ(j@c%

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/block_pool.cpython-312.pyc b/v1/core/__pycache__/block_pool.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..568a3506606e40fe44ae80fd090517c36948d836
GIT binary patch
literal 16194
zcmbVzYiu0XdG^fSxHoc_<nn$Sk-9A<k(4Z1F(uQcCF*L?u_QY#lXSh>8Hy|Ig`HVS
zBC~9izy;_;t)-%^h$cmuwm|7RXjQam6|_ZNpg#okM|VZKyP2o}KYS?A{wda>1Eb%s
z?|ILenZ0mjBOQ=u&Ya78-gC}--s{<aX>9ZgcoL59$NytO5dJTHn2*EAZ2vVf4+U9}
z#e|R)XT+p!#wOCYEn!bOW*jVUPdJmV8CSAlrXlH`aVI@9o}_oi%jz5nU(!G0XL)C$
zG1)ZJlnl%SlEIl^vU#RC*)r3TY@KOMhGs&^wwX58&Xs6ScFc5$f=y8TO6Nx+$7ZI>
zCY%-IhW7;7{gKTm>t<yhlzFYPo<(2S|6kM~Y}4K6Gm09$mQZx}73J3!lvGR!i@JR>
zwHS8l-b+)b&%bpka`vll>A}fF;<ZFNc2hf*P@<|L>wflmSxKgE;mgOqu4K}z>f+m{
zqOmz;>Xwqq0G=<Nif1B;^!4kC8g}a**7jUfo6|#9_G|IX+*vifFn?awo2TvotyGkc
z$QrhtQ5D4i%lf>zpe!i5zp_Ygx~^m**9gnV96|3(MsF$=1(DkrByycbiNs~SGZ|gH
zrbJ@t)GbA=><E+_F4J;onHXP5o;DaC+qaN;C@8{=C<`+-S)8%Uw)cb?hiq4zvO{sn
z&Ly;+b;z#w95W59v;n0K**WWy-6(UjGLPb^Xzh}{sPUr2Gi#H5$opi!;%B`aawEPQ
z7oFiIz13Q?t7(?K6rGQ5+6BQY;b99erDr9!4w{sii)JKjn6#iNvNW4krFm7Ejo*=C
z*r9mp`iOKs!}5w|bYWm-)pSy#MU>>Ys>CvhMJbb(qP&R&D9MFHCO)4~Dm(3uk0>M3
zx5_&(E>-T2wj5@#4@sBO8bK^Kl#<bT;7TKCKnh?hJ06sxDY>ddV}NMBx6=y=8J&{z
z1W*Bh%AO;}fNx~x6!msoQw~;DYf@Z84>=yoNNmOi?s2&q^JOoCGszc9HdcZ4on1&I
zjBlbYYl+y}vBi%?Q-m0;KZ8<d4_NutIi(st$kXg7U0amYg;WY_BdMG+HQI%E3LC6&
zus9$Ft%GtG6u$E@wmkFc3{GM^n&4}s+`@zvd4$hu`i-ko($L{?>1!B&K~>Qb&E#}y
zUq+IZL-N9WA|8uo2%x#!#<(2agKYSu5@p!2DaU86b-1R)(n-)3TPNB^tQwJ?A|I4)
zE5<PRjNN2l(37@GVH=ZBm8iUk&6nab;U9~dOU>ua0gXsk=KvIc7%PfpW`F?ub~KeC
znj$VBX$t^KGr%IGX*%XEo<FUDh-k90xoGM-TBh03F(`~er3`UM5DFkf=jWA_d?=kt
zEOOf7t9N7^NMMgs@ica1ah~BHPi54!yb!}sz&EYRic08!L!wMNdrFGo7;s8v#7Ef0
zQz^6}g5=<12770mhuFFu|JyB$|HOr?5MdRRED9fr)8JgL2wUC{Mctt(iCK*RNdIqQ
zG?SbkosZ8S%0yML$wPM*j=%Jko5z*WMEu(5{9<M<of^HBNF+yZ9UhH=i;wcdIiF4^
zM&=iFcO=4?cx0*fHDa*Dl*{aA#H>Av!L%kMcZHHmXbhB`f~WB}ecLDzbo)(ZQFp0I
zW<gC&#|#-oHG&KOY-0b3%tK7;29?%4H>gF;lNCQQ7HHX)wSDKUjMHq8wPgq@draA<
zqRkbds*QU`o576FEXy>SxvcF*z|5E59~oH_2lIV}X3$)2XXdgtvxO)uiecN*D_&w@
z^qf^PAh49d6D7t<h#s!TAwv!R!dME{kW&Wrnhtx^E<o4q*izja2k+D}Q3!E0NTm*<
zBi)fw?jVgrr0T9)(FDYr-Vs?q={y*_B6FspMTl&}cC`mR)dA}6VkDqxwC)&8?WMv-
zlCkNO!D^Ov)uV>0CNH6v_6;N;3AfPF{;=mk&%=QS18c1t&3jf{MPGBy*Y_;YwYv9D
z4sHfUiyeLU8~Nw%&A`5A9X&rhz1IGxeLw2^<AIId!y6q(a={}-f3V=+pZD)yZ{PHf
z6$7nmKjG$N2*)bvgmg7VS!1A+|0QMFv-Z2etgSv(X2p{jVo|K1DtjHu+n=@HuxJe(
zj3;XcWz{RU#ebRcn6647ElMYRp97oYi`iJzZDJz`S$hqI9=9m;d`g3sL<&W<a3+>U
zWsK`st*65cj55_h09S`7VI=8hTLkS(-A!ftk%S#(no|!@X&8w{I|r&W$j$}I#_&ts
z_2`Y)ouOV!NS;e*D-&A-yH`$saPj?%tM;e<-e-*+tFAxsZ#EtRv)Z-qPXj*+JZgX3
z_K*EP>3`Ce8+c<!Q^#iGo~=E@D`)N>dpPl6;;Dadt4xWX_{SI-s)v9>eIh*fOB10i
znp?U|WGH?qq3wDOq1kR?t-%28U{3a5f|PfX)?tiLdBiYVda}@iEnFQHtkWVX*>>|Z
za0q<y_*n;IpLN)64RP9+E?MMuiWCUw0EXJj)PG626Nh|dy5oF$o-<KU9@q5hkgQ4~
zDeN{lD!P>EmhCAcS>2vcQk-s`6?98`&ghm=uts8th?i5ZI)=}sj(VhvQQkqN_5&n4
z=ypxsXg<JLBq+DF<1@eDZ@)kL!^EcVKrztv!MET4_S*iZfnmlnLBY~qlVJ1y-ePOV
zGhZ88%bUI-RJQdzyzt<{>Yeq_MrdSZ>RF)W{)^xL*6N$z`*v|CeBbfV_rSM$Dj$@J
zt(_~c7v27Xdw1Twd+qH__d%1tR_P){0gSO8MCPH8F~l(FK)6vU+EGi7$yTliY9~I!
zHuW%GoJDja$JG=rVj3b5tZ^i=)KhQ8j7l=WG?KA*1)9szhbJDK*a!^d+ynd&5)Y}b
zW6)+)A}os;i=4~)#1Di&u%z{OA*-jCde5gIJwZPg-{#ED5X(&6gDu@OsS%5U1~{dv
zX;pVHfokJK!dM!ui%Am1`IZjUonU>@yoe4O342VqsW&%p;_pv?-2Qj3Kc2|-UD#;4
zm~&rb6NiBaT`d(&Dv^lpjYN{rKogYrM<Tzr5KS00SYtUIi$v5uKvYQ*F#fC#Q*H!_
zZYTAX)=GVW5~65E_8$s-fk_)s+s%Z)Xx~Nhp75zH<aGc1pxqfLd40}MZr8DrfcN8r
zPeS?eOWTw$bqAe?bKN5)0q;jy_Il#jrmxcOUi9fWP!jNdq_NlI>=QZv%H?e;DxDOa
z(rW9rfLF;SI$sypV<mjNE<Tb!V{eWgVHU%`^^jId&o*2y*#Ao7-6P2TvQ06~cQVqQ
z?>T2&vP)@@8x*(Vpmmqs$az@K!_0frVD~9xsGD_-fYXHk0RDsccgvpHCb=2ryI*dh
zZ?h%b1FdA#%OSV{+=>(5ZTM~itbh_UMrxn6@v#BLA$Op@S?*L?j9P;2kh@UY${^U}
zZsbGAJK#d-LB0)nz>s^9??B$IbP_z2^r56{(Gwmp{4rmJrXM{F5@j?=U(5`G^^}TU
zhxJowR%=`Zh38;iP2YlXrb$T!CWOpwc*DXv2u`cOWP;Jhlmn(F+`LtJcr-HJo@2ji
z<V@oF27_~rxu3|CV)iRpT9!?vq{u{L;=r))P|e5Z&I68s*^!OP@i5e1CNUzJG*^Zh
zAm);|retm_)f%`pAJc+_0;Da>&!<&55#lMCY;-o9QO_+r81N7|akWC1H|+08^}050
zNwU;JGID)>!BEP%S&6c1unNmg9mD)(#+lWVuK~0EfC9|<Icy0xIeAsB=cl&k&0E}b
zj40%{)9OL6c8@pVWS}=yBds@8qoTJP-!%io9CRLy$1(v)l2o$iteCOniK$<x&a5bl
zq)lkH3&MBBtO!fkYDKDg#A4|gk2yq{xt|t3aKvoaAt1g9*0<~^n|xWvM}{POV7nJ^
zpvAHS&@59jW9cQ3bAA(Y`EB+_A4{#zw3_v%!H8N*uL2y>jBB179W@2`tmtixER&f)
z61C=u5KCtdX<HGK`3cv_XJE}?5%Uw-9B&I@`!rL4u7-nL?>T|)>MNAIibQv+<Q?Hs
zf~1*BQ1l=j%}Tcu6A5}ZKLADr8LrmZ(i@=jB$Qd$t10--coV%Lu0`lmog}DDpcF=7
z5Ls|#g$+&1LWZ}p$K^Y<nik2Sr51~YS&oVCqg?xQBzFa<QNixjksl9j21XuDd_4K|
zg{ho-Di@e4_8(kvY`S~Q_h&9)cy#^OH^UR#cH05(Ps0;yL-$@^ZT-aGmkUpPN@XjK
zdp^M1_2MJ>Z*TtP%?;@_g3yPauZma1jaRPH=f09x=ou(<kLJ5a3*E=_-N!e&Uqa77
zad7X7<AcEaflc?o*4~rUcBpvd=!)YLchCR)d=KEW>HSs9YsVbAm+?RD*lw{-lIhIW
zR0)%tt};7FWHS}*J~9un^)Ml9r-g4Ko&l0K$Q%lr2%<L*&$6?=`gX(es{oYoWSu6l
zFT1iX4TQ8P!Za|Q<YqIxvo5oxDBOG10R!X;G{EQ&fdc#<W$V#osGL_;a7yO4R^T<1
z*nA-ayiB`B^6t*1c=sT=MyKJVAcKH&{$yN(4-&=XV_`tbUX=5u&ygH_mb=sB-pozO
zomLFf*|@4@4BQMp%!V+yIpI~!(W#`ocbua$R}S;V5LYK#gtaK+M4fidjCYPh%o@Ec
zRg_H$V%b`k%goJIAy^0^WNo!*q6Ok+lC@@K9HwEJlc!OgqJ%U<-NpT%Fz%U~=pt3T
zP8E%n2VT?NCSB^C<*8SPU$~(})Iyly;mUuIoJW<w43nP}l9AfF57FE7E%gdrJu8hr
z>l|J=_iW$kB98bu9NYa(Isa}lf4T~x7xJMO3Zcn-XtEgGkGi&|m8nl%La6Jf9X&;V
zSHUmk{nA?7C;ok<R-x-aDI^5@a_(NHPwEYZ+npJCdNWD9N-Q-!Kt<%`Hbl31V72&?
zqBrl@%UI<(Az{Ey>Jywpc&Y4J$4$7*RG9nBkK^bTmK!Qh>=&6>yss%3>$S|<Wf2hF
zIO~-n7)a2gLNKNvUY9)?3&(7Od4j<|WI^}_@LcvT`?9`z-mC9$q3q6jN!MKVSBO_X
zc!9}l8ncaAU&O)y*jQqXA;OY+epl*eLJ@_m=dO6~V%Ag7<60KIS-&|0^9^1!3tm)z
z4c4$m++~8bT5d`mrG1d?OV}wkr$9DPZ{~N|%*&%@+RT~MZ*SsazL%ST51B4CPu;l@
zBJ9a}vQ1g>2HDXy4=BmG1m2x>@OQV6h3a&JY`2<6ZLeQ`gFLG>4^c-(G7Ep~_{dO?
z%vq2mfPdQ=odZ#yqF|2{l@f5q5ZfvT%s4}?2}gQ4Gaz1th|cUnDn=GHLNGTe0%Jj8
zT!oASL^p585rUhG-eU2cDh=BL2J0j$M>A1!R#Gf(9v=wHlvVi==`8cKN6qlsK`EXw
z+A$ksCn%C8OeQg0ELf!eqbnB;R<Cy}nMJj+@ot&p5`X5<NI+o1++EKiPY9#UFR-u`
zvm_)VKrN-O-GCckiYJqb9LKB@i`JmG=U}-IE(p0HlxEJD6{nQjSd5!Wsxq!+#RO>+
zc1kgW1#&55e9(%rxs|1uVI7(q$+v1;!VLmGIr!;V*wS3;^8BgG4$k@<8^{W5M~yHc
zU*Vm=DtPjjfwF>>+8o7At%bCvVu{b_EW#<6as`c6kIZHrA?80WO<VSxvErD2nR2T8
z?GO~E%&#x<%bmIQ{$Hflg<ZOzkI%_SZ=Q#0ld8PppnDi9aEEH@+vuV<B+_b>Zbi6=
zjuw*PX6~VzK_yqWJqor4w?!~<Cily#0r`v6X-de_QOPT(o~MLNFTD{KIkbO}8jYs=
z*+2&M=w2Mlc|b&!N?ZiS2h%LBP<Li#T&3Jwln|ck*N{NgDz~d-ZIBA8rtGB>WBOuT
zw_i)#<Y>Q1P`*x3{FSSskr8I@v-##KNi(CY%JB@(B-2TDRQ@vnX}^zsfIs)B;O|=t
zJoSwh{Vm0ADYxs$qgQg>r&a>wvpimC-Is6Ow-MOC{>Ib5iJbdHE^wmQGg#;u&G(Gv
z#wK%PujP79<=mZ6U|Ks0Er*`A9D4t?M@LI`!P5#GqeEH?{9F6j`)5`rSF~blJH;e&
zt>K(MjI`JlUf-4PI=FHHE%#4}(1>!qhbmN}{uftH-J52iv;%qnfr9@?-hU+b!o??7
zHvMlF16}#R9`q>$cjbe-HV4Nak8cc~`6PI@)FE^nE_DkCeE9Z0_3bSNq_xSXXgl#5
z8g32j$?ZM<cvpV!iTuFH`~G6bP@!Wa-!YQw7|#XAkv`jf@>ytb?POtSJU=wP5jp{s
z_O#@JyAU00Y%cf*^8SH>e{bHu_gS!~xa&Z1@9|>)o<jc%`TiG*o#FKh`OX&~4?G#q
zzw}ngZX0MP$M^77M}MK?z*D#l?Lyz~Lho3<cdXER;%V=Rt**XjJ$pWD^EJ2p!rs`}
zRB99a`?yL6`!i`MYgL|N%WhJ!iO|O2T)08Us^&4xaURqt`;cY0BYuE8V1Hl*KH#9J
zt7X)+l`13JLOmTreU({pFF~`SK#s2lEqqo6N??)I(W+!Sg@X(o(SAp)+s3g3Cqm3t
zc7EJD0euM(bT&TvQ%I_A&;K3tVGcd)T>5V^3rRw8*-?(zlpTQ*cYawcdKy<;40V8R
zl}M>HUFbkm$PlPpMlr!t#j`B{JH=g@Jf0^va9_#rb$*%UHEC%s*0jp3d&zeynj(Z@
z-$+Z{+-+Jrb($}8(5SzHEe<#6tz-=mj%62&rhDI}06z;rsHf3R_ZZ%mNQ%30x+476
z8*_zLnJ{GH%tm6kv1bHiZ%}_bOkZxQk)lqFkuybh*UsX)+EV9h<es&xv~o=&j*j*Z
z=nHn(jsVuGqtH2)?;P9cJo40c<XKDa>bKU%*AM1i{A#Z6&5f4JIsfIY!M%mS<N3kk
zg~7@E;N-`{8-tft>^SJebNZk9`hV8dd*4|Mh6=%vd~jraVKaEF*wOoN`N8tK__QOO
z3x;zY;bO4uVdHN%t~KX_gTL2UY7n~nN<ksmy5ilYJOF%I7bkUbu`WEQZ~)V&VihFd
znBg{PunJnU+J~;DP~;Ye)i8Z3Thw)}*r1GCKF4xv)97K)#2Ykv&0{hpm_@=3GAnBy
z^<|XTVF))YpJ2H|h6Fi#>KZgwc<dvCIbIhtmg(|in~AGg3!}guc0?)qVx2j7Ud$_n
zq@%KHVWb>>k+y93V>BF<IHJ2G;w^ZVnoo*7qi|Axt;<zxfQpm4^T@M9$4@)Ul6K4B
zRP?IvSy6H04$c(Il|xE5>q!^g&O{TMBBfEuE+Ljr{uu;9nTGYNSm&!@KUYzhzhw+1
zEbOd%5eC6gr<pQMjO$iR-y$D#h0?_|DB}tb(JBL1b$>@qqj+hkd|02$4#IS9e*>-A
zxoz($wC%~a?OE{_eQmg~v(?(U<qH&i!+GCu!8elkjjS&{KK73jKbhF@UC8+^<Jg3{
zw%m;ccW2(+x#{j^tw~>iGqhIB_dXjO|NDt2!y6~w+8BI0x9e*pv7Pqjme1@?NNo6P
zL+t#GRGmFbO#cm#Bry%w1e8TOZOC0R#1rajA4CoyywrUVUUkl+)`Js5ysqY{E37RM
zkMl-iw5AVz$~HrcT6Oo{a0vI_cJT8cV41I`7vS2oPC|-|H4WAu(KmQ9u0!HV7j6qK
z;65XKqlbA&i>`;N?E1Au|7Gg4Xr4(-=0z{xlVn$cnH6Y_iGzfba;<DTMj?+VdSse;
z){Qg`p=BeIRB<StbCeK7DoZ|gqF975LlZ8ag0fg6m*YGZN<Bx(X(V)Ekgk}ULWyhw
zJ;*^t=3zK6Ph&j^<z%BQ1<JI}3N8^{zX2$Bh3z12{p9?;KkEwLcQT57`0|67q0P4L
zSy%od`De*usIw3X=R@H_Xe=KZd(^fWI$kYSKJ^LR!=Ks#hwGG0EF@`Ns;eSc@}@Ci
z@t??4hqz28X%H`hKcriMpz08)EH0rQdKo6dpL<=;^JCQ|S{#oL>_+%&mvKz$jl=w3
zns~1j2Zb0-&7+F<q^uobvLO~Gt2hdafX>27c7&B2Q6~^R!y>_!62$k9hhYt};3hYD
zXN)BzQU?jfRg1hCKP7L_yc$od@ysG*0lO?rbYJP0XC5IyG8izg`$B51-nRNw%Z^el
za(oORWnpO=k0z28bWWNZBlc<hyuv{qF;4A_(B0g(4n>WK-=z0N<aM7x@2m$g_L|#q
zK0?hfWtQ5?1Yc47O(Oeu(G>x(7NMhObz-A^c*Xa#Hfd$5=x_eu()TW{zM1#;|JEg#
zQ0=?6=mt<<-rZMl@6EgS{!}`!;eY2xzWWR73xBcv;qu4g#^~geJ^y;>Uk-imtu<fX
z|IRP$HjnpzbpJaV`33$-3{8%@|Eb+i>5v0y)#V|Jb<4o&dABmbhUv7_Jf?y}p4eqr
zT43hKv8de{huN?m%_B^Tmej{oOGq6lhlWk42#ykN?5VFPL9}3kbWZE3OeP%omO~Dq
z0w+tAGND5-SfOU7tkJU7Jn9f|2-OtgvtDpG(`B|ZaWHubX6g*Pq9?J`mr0SRyas@u
zYgGGLD}QqUMeOqH=gwG!J)211X6!p|T!gB2-AblU3^(tU`1LuudWV3T;cMl;5}>mI
zx2g486sFl^$Yojs3)h%43*13`4bpEe8C7qhS;ZNytA<^Jkp%UvLK&-o%P!?>3$d7@
zY2@i6@rm^)V@B9LS5;$X*V5TD(Rc!$W9Wsfb0yyJ-SQtG;3ou-kp^Gezef(Ug&+fu
z4x}tCDw#7&16OunQU&a4xRFQS6WCbY#eY4eH{6b@^g9cF^J)rJ+)I|BMviz2PU%T1
zJWmNz5lQM8*SdL(iWcAC6<lo6DZ|XUUDv{<72(Uq?L*_rKeO$2)+ULu{2@R<Pi$dv
z?nC+RLysJVv2*#ca~oq9^4%9!0!3f<YV@gZ;F-VWgX#CDOE$52Y%4gh2ItbyXAKT$
zd0r@t@Kha`*cg6=N6lSAd-uby|IXJLgDUuYajWqYe?MbSXy^%i;CtVf3mw~Zzi26!
z%$rsAAZ_kDzOnD6P5=0oaYej}3juL1kI8@eJT6pE0wa1YE+xoEL4pS+xN$p&2?%4`
zad@b*#!FF`Xs<pGNLg~gOkgsC2N}!EUah%1sS>d)^_3++9UsAO(uR?th7BXtx)9i%
z59}@kj^+bLbMB)|kEvQGq7SCGT>gS};@p)uvL-ItWb#aX0r$>|OFke9evGwrEX|o~
zX~nY_G+a9SveQlrSKUL}Z(i6M8yRCEnZqMv;qp4NL(C-bb<71%=@l$3yH`Rhhdg<o
z^<XBQi6$!UVQHivnMcG!i^>pO;=jeSydJFZcWHf(p*_|&DD+B&o{@ad$fM?b&k?wC
ze;ODlwuXvu|H_5-k$n5eM*CRqg;V+VQ~AK@ocr|7<)@+9@{?NdJTlb~v}O0E>nL)|
zBD?iN<j$U~$Ou@Q%%qd_n<_9uBfN$P4ZqmMqgnJzPZs==xB>Acw+qUezO^Zp*TleL
zBrNbGaA54oTx=I_RJFuDLddv>R;kcb6#o$|^Dux}WIRlFp<CNl&KH~83eCIo&AV}T
zx?dt@(u4cbD~)Vz!{V86w+fv>P`^USOO%XLasr9&AQ8fE#gdyu{T3xbN{ISZlE!MB
z5|t9NrgdiqKao>Z2Nm3*gmz2)bxPi&gfVa@q-QjvzE1@pdqKTN3H=s>Va1rQikmqC
zOO}z*$Wo!}v_7Z1G$`yp^r@%Ud2Fk*r{u&N=1Nyzsey8CVb`8*sw<uBa`qLwhe~#O
zzx49s*iX7xe#_IilE`~{R^_~BaNCL6(u-$BXVX@5XURz!Kx=Nh{|$J`N)7DWE%XkQ
zJS^)aFPM*I{X$!3sgY%ys6l{bgMzndyP0J#+q#{t>#ZdLuScOriTvSH+mtVTWzZQ~
z$3<VfKE_2~yh`W9Cg;%V)Y|^_llj4~JRZsozMSu!C<!S2_~<shN>Y>4yT1R?$^7uE
zRPO!wDwTUnQol2_c6wXDtMsbqavoc|vMu0M3i_N=;_5NFWIQF7y1mZ!)vId<^L?YA
z3CQ!6rbV6(_v(RII*~x=6uP@M61^7V+eW*nyKr@zge>WTdN=(nZbT+!J${WMup@}k
zahhczE0rXyN(K^(cd^~oeXJ7~+A3I`p!cwnTZc#J*L4Jf2aXmp@r0%_Qll$-Y7-^o
zjN?SdVrirrGB1xFFo76mIj2WP%y+2~v2{*G)s&^XPx6c46YB4w39$l=VrnJ3D2kuE
z1ab7=h4#-KF46W2fs!Uc-2J)DBicR}kZe=(ixA5Gk0*5hoefX_UDxNXZ;ImU;-><8
Seg3LF?GW34E>Oyr`Tqm<ennIO

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/encoder_cache_manager.cpython-312.pyc b/v1/core/__pycache__/encoder_cache_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8599bab6f23a49edb0f0a96f29ffb0f6d1eb24cf
GIT binary patch
literal 14635
zcmdU0TWlQHd7iy5cb8m>H<2=F4M~aO%DhC8b+Kr>5hPibEy<20sELqdIouhNL+vdy
zv!uwZ5H~Oi3Uw=|FH%qxQIG;v;GoDuAC#9S4}EaaKJ1c8cCk%R8BKxqrC5h5iWYt7
z_n&iScDNd=MVvl#0nVJ6bLO1?{OA9_|8frhwzD%P;g=2mf!=palKzn%>>sPa!_GhB
za#vC%)t8lWzUw|8mHk<NE^s}-%7JV!7rGu|<zP0Pi(HSeawr?kbzJXY<#0BZi(ilX
zBrRk_@qHwl$aP-t%ynJw@=1P4i)hIYeSGNa-G1r3q(<M9)Q%7R;@uuKrpDET+NpMF
z9cohR(R#JsMgI`07o%$Td%^2{taf)zP~C%?epb_?1+)SCo3<XpYA@RDUGGcv{|gP6
z@-^ab8LDPz>RCNw;W2VaDHiqo5{jKyzx?*O^qJSsoq6-Z<@3~3&+Aq?TUc7s3_SK+
zDrGJGQbAR+?`TW9X&LL(!8_X5OPXn={Eay3wCtHeeo<d)B(G$aHMNx04E`d+C(N(T
z8vGE?cO^}_?o*}fe${t9p!&7oqF)Vw?vNVP!fHqhs$ng%7*->A7j@o6@xDXU#nc$;
zI-I(&8b|vC-o@Cvuol;XjHf}h6K@l3ExYipleff|K{bizE{vMgy4hELwi0{R<EcH3
z-gEg3=4qT!Fu_YoUIBNMTvU>H*_1P=07vD*qO9?za-n1uOO`1w77RH@T+9&{Wn8ta
zDeHN8_2R`#^0gx~v6zhC)n!fg7)4%I@@iHyWefFLeNoG-XR;cN<La|*NY>w^S;{QS
ziYc$^re4U)T5ds8RnQ2Ej6zP<bC`sglGTzygd2QC<)Tr@Xr_r*Gx7zC^@LZex(X6<
zTCQNMPb+JRp*b_Q3bL|V&{g!1DdaF?>aC3+d2LzC(+pUDrjpa#)a!Z1C&;9x7{nM=
zUtEN^<}KN@h)9~P2Yoi*bWp~ZL`Jcw7?z$XWfdd4j!6~^hNYk<timZa`m}tFF=RTc
z<d;h5-d>SOZDwg^O1^kexpq256l0Q%Nl(oN(`Q}Dj0u`5`aPXrcTbBgwCKm?2j`Gt
z(Sm?h?PgKSoBFCIW0BomDhpZ7o*rj4mb?g=v%n3-V#2UwD0!NuZmko8^t`HLnMx#L
zEoo!Cm32$YnXLac-GZFj+%%_TC7Ug*(UOsvF6w!08vWv?iq#gZ&CzOrNbmx*p*`y@
zvs}vGK+~4cv<W6(S|Q;~dDyh64}1pEF_%e}T(XIow9AL8SPC1CrXf#46!Vt8sH200
zb>f6>KuOGHc~!}lw3NJ{S!)`^ttCZ5cFZZ(3!B9%kdPL^Qf`2w#jKLS8eoRtMusmB
z^i^}@*3b@_a=rk~(S!^a=?mgnUR!g~Kf{K2D+_h8gmk!SWnw?|V@tE4F+tB@E^B%=
z3)-;;20qn@Kur~#J8dkPTzUy92y3*osc&ef<coSv=i)%m#C^gE)?x}PsF)?dzTlIb
zF98D#G-5<jSMHxxxB+40;6R;l(J=`Z@)^yh#Ig*1p#(AXrsrzGf&jAdaRrk|Iw5ej
z0`NgNmuPU1lqRO8&1}IkPswLW22*@xRnfB~CBH#m^qJG2O@p<J<;^I0VzHjfX{rug
z0zv?_vI>@(n6!&6Yy~)$VagB^wssquL8~WL&4e_z&n?xO9AkreN*3mpvo@DYGifE<
zlugZ|HM7Ox!db$3B9yZsyPG6u+}0wKLc%5ktNF@PhXgFSqP0H7nz4Ey4Qw}u0DH}`
ziqte;uv!yhqM`uDY>G%(sK2bfq|<6Z;&*Y0u`kCorZsO`P+9~MPslO}WvNIuY*I{q
zimf}Bg%rjr8k$K;%`6Aw_O3zJmJ6mvY9rVp8>M`n8rxLTG&D`cA`-psr6y7cXm<6N
zgVM_;(_m(p__w?1$FkYP+bag=2ZM?gS|jtIWGvt<q)4c%47&+funnEf>8!%Q0Q!wZ
zU(zfl@oHN1tC^Fj8JK@eB1`PT9Tpz2sLB8+L$gXop3~NdwNyVNoJr<eQ8|FWon_`)
zm3?I?%_``^o`gFpo}6!W2`%YM_Om+d(ubme+K~NjiQ0zkr*-(1ms1g=6E7NFyVbbS
zV?Vc4u@UClV9;ods4XIm5L+QQl0j3;F0$@SB2Sk8^TMo^E6x`6;<Tk0VB7S~(utQ&
z-Z-JnX7z>H;<~k5$j`23v$@&TBeR);q0I`ENpm&{r(mYI-iW5t%&$#v44-@2lbf+?
zU&X-Yi@3Zi)%P9P48EVNKR>w{d=!1IJ~l=7{mrm6HG_)yld$x;xesrl*jbmyHiLf{
z+rf8IBO+w75oP$9*40LsuVKdFGuly^{&vQ&GIy~?D|l%Cm03uz;;dGy{#KwIC`&8B
z)*HLD>N9-nSbwj&a)2CL^K+<m*3te>l2)A6Z@nuAJ`|F3D_E9p`c`ZwzSTr32RHUg
zQpVqslxK~;LITtF!|c1-Ug6Om*(a_0QvpQ<8_q0inH#d+?qf4M3@|Nf8TbVm5C4Zd
z=#D)l#T0;P8z%0pGvy=ms!qwJA{-A*p67BqPr9q9gf3bOcWkFkrdq0L19V*#aPcY7
z&4LOMDYWp%o3u6f@&L+Jy-+d%InTsx?&;7p?OE6gH_sq){%Hk8MFvVl5khudSbOSV
zx9>r3goK}BA&U*cnL^%z-$<xTd}wz;cj2$C8K>k6c~!e<doAtXFpCTO>f$)}iHV4J
z7%sZJ5PEslD8agOOW3xs<f_5-rN9f(2CcJ_H8e$C=MF||Az!<iiZ<fF=0!~b^lD}!
z=6IZju?K=_^x)D66bnV8o0T9IjhJ8r6h0L)`l#6;T}a~^5drm$81bFkJ(GZyh?b3h
zYBK<-%iKuAfTj7GaTMD)>;+ifZQnpYW*L`vrRMWe@4i~k!D`RJ`^(jy*;>!3YR{?7
z$m4j=y#wEU;X5x>;|J@#gMhQ{zB}Kz{f&DkwvyxZp^@*7d}pLKbhtWn_`!+op`)8`
z)Dzvc#Q0WX{QgEYapY%-@yF4`o%rqe2j{EN;aXI#M&<i^YokZ2qemY_U#us44S)e=
zBiNtj5s#K$D5-$(#z2b!;6vIZRYSfY<5(Gd>|mo|W20leP%D0Azl{&KLgi37aN{hP
zO~@Al9sy(6TgeMMZ|q|&{b=cllCGY-zo(J1|9cEoeLr+i^eX_dTj5&~eC>s#;a6Z|
zR}%IdTlbY@t8ACbVVeU!d<AUwuoLA7@dDWFaFET~qa~m9`&nRZP`QTXIAdci)Q^Qf
zW@!=Ns>4qcJ~{WGNU@Zs^t~O-D3(UF$t@w*Q*zY=I(djVh5nWub&!^DP-Oiu?9=jv
z($X@E$b>HksBmzN`~UMYIk{{C7~a7k@u_hAS(L%&;_jj4y39{8C!5CrEJ$nh#KSc1
z+0VByb`oPEEVVsHN^Jn?Sj5X(sq-nh1cx`<>WNQB&;fL^10aOx%%^1u6u?$agWp5h
z7V-;C#>y76DeyELYFTJ)Q%GT@3)TgG%C9L|_|}CyB}+JP3Lpcu&{ZBU!n(28P`jCd
zJ8jAf1#8)%oZy*e&ggXWRK$P8H=w`*B^6u*{C4b0Yw9E;zqw)A-H$hTosus*3=u7C
z#;`03U*82gH$(*SpTI!G_&g2PT194$R>53w#%@h_Z<KTsAXdaSVm6R65%VBHBsM@I
z3uBp2;|_tCX%wR6Cd#4ef3mj>B7|Z&fj^w0<wBPGOg6`aqh;G;X8@Wux6PBq0uqo5
zkVs|Gf;bDABG<yDVieaxv{G|2gi$lrbaOZ3nP9u*?Q+3FK+3`_F;BGs$s{+*W{zB3
zUN`j&Wzblrllhe--hy_ARxt+x7p6JXhT#>tGUq%34ChOD7rsW20z!Bh0~8C=Qj7kD
zXJ8Q6GuMK98WDIJl=|Y%M=vTHVU8%NXq%^D9H37R(q)V;qtv(+opGT-+FBxR(~tWe
z2_#0+HWxNLXW(wJhz`uZ#sz-HYd&dUq}G45+JE#%uW$FivKfO<kr=29&TPeJ;9)$D
z_EZL@s?jM?aj&m7G*um%+KNxrd-t-o_ky*-+3MizR(zIRl9-eny7yx3xtZ#7Gh1CV
z^@+oOp8H;|HZfP7nEPpeWnyl7;(RqRzIpzGuhqNz?#90zzjwaUeE^Qioi}d3QA><e
z6C?MQ9wjE2>#~0<vH$+7%yrq{>~M9x-8F-uy8D>Fa@jjL`y<-{!Cc#a&kW9dUf~x)
zC<@v<LN5eud%c2hueRmD%OC|IQ@oubymdQ8o{mI0bmJ>nJpUWgw<t*T2)o)^cu>p3
z$Q5#h+kWNXhr-biE{TULQx1u6(dn5vFP@Z$mJxfHbzjP_+{O^6d7jqJ4nE5hLE?5d
z^tdpAp#kNdj8!sH6!-~HBzQ8d0^1sKA%F<gM8x7~wTL`{uI(`lC3fsQQ5zksf7*Xo
zX39*FiPIqs$@dQ^)ukD8Ja!Sl#l0rJB_xs@nB_vDaN~xi(Z-%@iVXIgeo5us5U7}D
zDaWSX(*H@y$dPk_>9Bx`Lp3-<`!)=sTgK{gs>2w@@)#p@k?BHm(Fh<AHYVw@1!nv4
zm<qQe7C{vIkY|l{L!n7RLPXn06?IU`Gm&H0ejlHiKgI<JHQ*fy)%%BQ{fDakhc;t%
zS5Wke@rmyr+dO;c&D(F@i&PWx<B<ckk-6%~+{4$mN6uBE`<hXJMlCs3O^#J2PHrVn
zR-z{>$&-kDYRQRea-wqh<*nq)mFUZr<jWqh(!NL0sd_X~i$1p%eXg?qNHu!oXGky6
zoBdnS{gv@!)#$OGNB1*W+Lh#^5Q(LX{sM)&k|i`vk}P`5en5qwU2ffNowV;~r91wN
ze;HxHS5pW_{N7&)d~>w4)gN$!Oi0^rRWkf#{~!C`e<6sTZ~3p_>SLufqzaYeAoo0y
z(^w%9aX+OiGNr$HI3avcmmJ&vDl@e_YtFp|`iLip=Y_jHFS6Z`RhB#8dYw~>EwN=f
zfLv|1MEjb;l|W<K0z!!4q~GDBJDD3*p5&f*iRED^VeRM@1rCn)50`|&2kpO#uBVuX
zOdbqZCb(F3;>6zf;aglJ>G{HR!9{B-)Cgg#Z%JzevRdAyZKP<aK$||9Bn*za^pS_b
z=C2|Fio^%f6XwRGmy6=n@~_aBc@39$r6+yT$k?Ba-(RXtyi}cdX?yI{qv5%oP_R4p
z@$lRS(Ry-#>%{$&)#Owyd7_#;@$ki;%>8(-ntbioA*r*!K0NmcHE&A6j@W<vT0)Vf
zK)yF~x+l2H{E`SWLB9-{`Lx_9GN9fOFVC5Jr~zd#y$q^n-ZQBB?Bg0H&!>7R0y|#d
zX^5SOpA4bbsAcx8c^tFw%80rRIprz5%wv!_0u=dE8mjFFGs`1?M^)D`517y22UB08
zaE&xc2qCP8Bj$D{(>9vICnx2ijoA5AD+l+xVprewG37sPdx2~sY-_QAjcIb-9qnA8
zg94;>Y?I2-A)<%W1%W8S-}Z=^!trP1E?v<*)EbFB6V{7w54*xxdrl&F;)Fuyg;8@z
zx#}k6@>^G(zyL7`sW}oC6ubk->>W;L14^7CaBU{eyItpb*Y+UUP8rMArqYc7RIw3J
zbu*(FDmS8(abyv}Q}&Z~7rqXyX0ASS`k%6yJw&n-W3ahyOn5=S)9wBa<C@>b1$MMg
z>KUr-8L#dc-wfAL^hhoydnuQA=bN{`d2j7O@KJKQp6G#TbL9&URHFy(Un3jH+lsuS
zTpK!39Xjzax;=CnImd&uu)vpYU%Gdwni$)if&6)5ycv<Y4?M#@TA&xOA+0zT5--HB
z?6a-lieokHI&3+JB5b1ntn^i6aRD>ZiaR;!^n<Mtkw)`L?+*kerd(gNm5a=rEp1$b
zxD{%t*|LVf7!rC|=-^?Ov3m{Prv`7-wv@bw3umXemD#<P^Q13&zAcMDB24;9ap^ic
zZX{w_F1dVno1a2K98IUaxWXv%Vu{k;jxHz`LeHWTB-5b@M96e}1H>P4%l0AH46d#h
zDUgP~h{i1Sq1b>!B;&A&ZnB*gbdu4i%PE<Xi3>Qg<4%ZNhLNL9xkfNkD6ShXp_mG`
z%wD5|v4<=h%eI?@{jh){whfY0Zw!8#ynl?w<_TON;XP9SP_1ve+Bf}RX}j-ut#7W{
zH@DsQ%4Wyk4~}lW&IJ*n=l$~!zVx%i@lOKM&={9Px1^C&F!MEq0+U1B+kdxwY&+F?
zUG`leFX;w4VqOwberyw%p)}hTX2%3F07wUeZ297nB|Ht+8hEB`KFg-IOnD1OFo?yp
zxMVPJsG{UTTss?uEtdjiSoFnpd97gF&<r5^0<tIY*z`;*g-Bi5v*EcFipJPk4Fj2&
zRR|k9vj!7^tSXzY$s;R0j|@>>Y2{I=tM+Ylo<_20_lF2>xq&I4LFtr~pGy;!#pW~5
zi}aFHMDpX>tlv1~B}yI*|CM^9?H?vtd;0Ijz8%{P)%*8i&p1|3_H8DZ?4){VcRG*Q
zDxGe`(rJW!*bqTEkxqXdrwc?)B%M|Z8N3c)%Ekb?HOR6zf(ZMv#yCBbycwUP%M4ve
zWtg%Uub_ma6Al+3F0%~dckuiJiH*+YX;7HXE@WrSEnMD{KJlkQ(dIQ@EHr-q=#GS2
zb8ug%@4-@2!tJNM?DkRL4m~wb&V~9O?-^`{a7Rw3cc2-eQdAl}(Cna6j7o7TC8Su_
zPA8Q%d_$q*_ajXSw;vs4w}&t8&{OkxA{2XYzA54MF!1oqkE1(OY!3H^KL6lQQ^M`x
z6?XgS)g5|j9*&1j+`|XBJqYg5t+_8A>c4;W!T9&S`~=Vae7ZE#MuLUb*qWk4s|Ia*
zH@Y2>wO`Zz4BH1Z#JN`k`$m$tqbe+p-_zna8`;K4+3#g_%1(=00n4#9IJV(fm@AUy
z<Um>$j3LIGK#Vi&+$HzuY&GJbz<1r`1?CRXaW_~6o>!ny#+ftIY0i!k&KLsYO@Sj%
zVaT*>k0$yiC(0gFyQyVx0JM;IojpTn)V`0f3qowg=1v$k(CzbPq{;M~manj*Iv(Tk
zNz%!;-`0SsU}K+ID$=P@Gu=w&@Zia8jFX<{l$#<`o5qpMG^J+K3+tq~N*2f68bc!A
zPX~MiXYB3I=j<v=yJ@vm!lqq-gc-DpYrIL)H{cq{H9(tz8?gJ_J(lqfy7({rnba#V
zXjqE&)*{o@$n=BkqsUx+bgDM`c6IdadSY-V;2(=sqR&4;ZX;Ds4A&E5JD~u@YJrZ}
zlbDn^R5^5FJASefJo&V}L+{+)k=?z^{h;ssA4#Q14-ogJS>~Myvyj!@J4%jl3xz%<
zUqO109Ztt~6luN?_0KBl5bzSt%u`PAnSw5|5!{#ijm7-8Fxn6N2Kgxb@;XW|gY4)4
zc`@8;GTx>JblHoSCV>x=phP!^(J$h~uH+Q8U{25H(Vk*<bAUjR|GYpC@ih&HAD!=U
z!`_Mmb-bRgwqtI80|(tR31z%crW%jEb+*4fY&o&E8Yuh!L{cdy;L#d2p+61TqkYTg
zqR%@P_uIk1E(n)ABlA{U+7Q4$J^;wWN(gIWLo30wjj5j%$c4(Zu#6jk&#E&Vn`Imi
zcfimEQT%KW>hxSG_mo;Nk|@5}WeD<x{4^;x(Z_)Fvnr-@{Q3Wv3EFu7G@R;oZqP2e
zFibr3YMJt71^+;>Ku6y3{{&ea(V!3k=>tlcsQC8}1r9MziIX`ZdxgXLi05YPT|Vwk
z^W*2V8A|7)0cSdvU;|N@aTV&far}%p>3`{xu+vWev<d1G0vZ7W@uT`1sT4(e_$LL#
zmy}-3v!=A=xu94C$HI`xlN*O|2=;B9d&Ox4JA?Bnjb~CFjWGWYrA7q*i$aIa8UfJI
z2(y0yFdKt{y0rKQ1x692Ke<VLdi+N08vXOYIm0LzjbWM&wXqE<k1u)BsL^A;Ws1p;
z;p4y;;io~UxXWm}n89~uzlIiV2fvKB=u^5(64d?#g?FV-CZxpJFQQ#{x^8zh{r=9e
zCjn$l;YD}%{c1$6jGm~CzFHl9b$j#++asqd!F}+#JBDh}BU{lUu-%n|$7%;JRu5j>
zN?iO^*I?7{>+G&~PgIg{oqdyg>U&0OdrnsOoUC-egcqkKnxR1F#7-cTguxHN;CD&S
zkJh7uwJ7aHR8Cxid+>Z1qu|Wzz7baOLN)qAW%>*%_Mu_`jy^^mKURq!s|1fR6LC2;
z*obEei0autTA2LYZ_@Q<Mp?)h<TEtF7P1BTC4+q5Mx0Lc&hX_mDCycrvNtUNGsr-Q
zx2s2HME-<_L;P!(XKxU?8(*LcC9+wR(+IKi=*C%kL2eQ^cju|ZR)dTpH+1Z1Ui4)^
z5`wZ<jb&7j*)snUmuA4{^Zi>?@*Vi4H2zCT{wKQ5p!{*5`yYZQKkn%J;7i*b&%Yb~
z_wZ7{*Z+w`*XGs8pzo!6&;Dir_s0W=njze=emw`8R0CFq<C{l62yCAGz4T58y*b|H
z>#ltMOjE-BqtHj0%9U#$E&ok&hn|~bv%ceX^b)}R@$mTlGY@+2zg``lZiesz-L^V=
K62TibtN#WUO{;JK

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/kv_cache_coordinator.cpython-312.pyc b/v1/core/__pycache__/kv_cache_coordinator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..415757d4e93b6528ed04952a7c4d02f30208d933
GIT binary patch
literal 18956
zcmdUXYit`?mR=QKA}La&9@Nv4N|t1swjP%49zWWTR$J|M+aB9vyE|F!c4(R`$&~p}
zS5dab&^tz_gO-yXjC-+@_5=ae8w6N&Jd5=L3vB-h&;f#Af&c-_k0rO@MI7uT*##B>
zz0#m(_E)}hZ&mRj%64}iNJ`SJTet4}o_o%B&ON37==XaCTuH}2P5kS31mQ2~!Ms|G
z$lBi^@`Vr=;$l)riL+wLHfs~<*_O1Y9J3A<w<nz`*Q|@h9m%GYd)A%u%zD_fGwDq=
z&o-xgv%Zvn*3Z&h$(B@LHjoO=22-uGtt_o6*_LXbZ5IWb@U9Sde<H*^viQKx`!U<W
zQoTrRmOHG}5KHwT)nAp`$x>U88mLO`iU;LjyjAXwx5+*6cKmhVFNEh#xnr&+-t~!N
zws*NZ-1FDeWZ0(Lr{6xVw?wa~StT0FrsV9^Ogt>=?u+tAOL96UBkp-SnTcIHpUEVV
zpFf<8s#kU2=?{)aV^?MNI&9ZN$CZq#PG_@nI-AI(zaLFU=Ve9jII)yWZb<E)m$Q)+
z&k~u-D3NQ|BQdHiqAtoY)Ye*4>>?6%ztQ0FOnNRcuQwZy^bXx@x<Fl4voSuIJoFh4
zYkyy)6_$lrF)qy7;^M45Zj&8xyX=fRWLMmYKNtR*Wapd@>*APg!pgYgUc7IXJ+fDB
z?m<;?-<*xz{YY;?UT-{rygrt<QNEUVaLyHPMIOILh!0qG^70<JrMBKVcf9Qr=WGBg
z7sSe;4OTvc@~x~aJv-u^cy5b#p?@u?!AU(rYBy5bS*}XS9;9{fk{CsOYmRs?-iPGQ
zcpu(%v5{?IBlB#`jnT5PV?6zzI35@iJKMb+3=isU*3x8@cp@FmW|Z79uY~J(#z>K+
z>{VGh{ei@mS<1{w@x<Jmtbkf7sq;!^X;GbECG~(s6EVKx{#5j4B$bKF$w*R8>z*Z5
zj>ysZq^!5d>FAZD%t$Dap4U5#XR8MJI@(e7mUwJ2awDT8;}JEHlVeTBFzDvOAMM1o
z|AydG;ZxTaLSDQhMDWC~ybVvFBjd?|C!6_{wQ9<X3vM&Da?d;RPIE`2oYQ=hx8sRg
zW>+>~##US_!W`)I6L+@NOuHj2n9-{HLR-~?5q)6vaz-%M$xK0Oj2}|QWiWuVF>63b
zp+W4$-x@Xa6WeJ)#HPs$AMO-{-@;IDiMMQ7D}Ua$U=1JHjq8qM!C}TLcTA-HXTk&H
z%|8>r5Jlm$F^8}${-OPb7`BBSy5CwW;sCn$3UQstBG``JYQ19g5lO_AF4TQCY*(6b
zS9&SvLlAcAwu#-kn9y5li?IB<LzR<rD$P9z^Y-n(J2{z6Elw^b7RR$u1q^BY=F<Ly
z2d?dxCzFXQlZ(q>hUv-c$z*Es`qX4BqsWt1tud3VGs?u`vhF!NFQ?_3i^|d5#Kx^K
z5s4(yiEJb?aTtS&Ce@=8R{k)0qs}1s)n5s}x-FCi_fGGN7Gc}_q81#wE8ac2?ic(!
zO9NxYfkWEBp;F)A?;ZQ;vC`Jz(%|?v9;d&hEFgH{qY}SXX@dXJ?!98TSs}7e+9?Q8
zKs2U%(@Uucn^=|2m(oG0&g{}6_K-)$TUm)_<*J>>H>BR7Vpm~*WtSIalWnWvCPkvE
zD=krVytz(_(ITltQ<pK{l5|-aLR@#7vytn2$y8AVY6`)xF)3|=G`Zq<;@(o~-%0mg
z%m>~3e$hKz^7R#c+ce*{)t176vuk!+pLfOaS)l9{dWR8dc{UPWr%7GMq)x78i<8H-
z$>YVzi`wMHC!?3v0(iA1xJOawse5P*4Pu%UE=oXXe9E$!YjRrE+tc!mNGy|DT*}IE
zV;(2;Hkwq(O7JBmV&rrwa&}2c$E<yhYKbc_{_^h-0oo96Ijc64&}cK6yLLwS5ZHxn
zLD#LOtW|5iDQoeL2gYVpy7JC^(}D+$)LnTo@0b@%E|l|QLpwhke@Sjz-kx`nRH!TS
zu0zN>FM@kSx1v$TtZ9AUm9vb;V?M6P3UPQ&YEoL3<8oZeW~3{!6iw0|zywMV`z*gP
z+Y?@^rfFqfJ!Cym-IWzNBwd0WF`lLOX1K7RJao}o@HOE1vYBi&NvTGU_&YQk&9ZJu
zQAtf^veJ%3I+k35=$fx-ma42S5>;pbiX4qER|XQU>%vAN;e7%1NGA1|Q?sz7W~Hl%
zY!)rkWNc`CQIY2oH<{2xmb#WU5T4PHHC%%%%`wo78}r|2q{eblt{7pt@u&&rs@CQL
zqwKonp(UwIGOwr7SA|G3>{Lc^Q??_}y$LWBH5&!ORESdbUc!U4c)TpuFk%u)*v;7t
zgpi=@qF{`IaVpl?xQH@9FPjW}snX7)m86UDAY}?Ex$y?<XY+3CMG^If2*8iVgssB`
z_rSB>;rlbikt5p3kw5D_dgs*2^vaEAfu4KYp9~*(5;$0P39Z{#w-<Mw(RQ9Gbqo}w
zJrCaogWA>hLa?>AX~At}cWsXQ-on_iuSIRFE?cY6cdXng1h*C3qY6okvoYc%=0!Y!
zah9uyd?9=bt^&!)xQhLjBkx$S_=;Jv00fi=7hpWV;4cu|TS#z+ZMkO_wNA&ey@>`I
zkT|wIz53s}%l}VpF}Xstgf1!s+pR{g%aI2BA7m|Ix)es8j4+Az6h<vHpH)Qn1|D;}
z8W7!Pb^kpSP^qTd!g{CBH?o1)O1}1@Z%p%zt<Dw>p85F?w1elK`p&<wgIpMy#0U?V
z7xjiw$w@>$6+g9oYOki175j>9MVzw}=FB&gMjO#2lL1eG2rGnOaCb%tRs5ui0!R+b
zC$7s<A}fIlC*>$u;APs#oYP*mDr3)#KSL$3Qvd%J4*zelY;0GP&BhIpRM`PFssZs(
zBE_{i1V6D`s=*FY3!w8@Y5`sw*BwXJ;!=4rYtf>GRBU%_X($Hfv!NF31a}cgE%;Kz
z9@N{-4zk_HNlMv`CYa#B_UorOb&ZJxE+J?)8bJT{?c1E^Z$(<}V1w<~pn(QJ{W?{7
z6oCcQLj=^fym7aw42a%Q^ljIC+e^XTU$pn%n}4$X@RRl<*om#f&qIR@r~{*KdBcF{
z6I0@sHf030F?kqvC=$ghB95dRL-W$*%N#c=2a%N9_Imx7sW?g6zXR*oDg;Bn6x<<i
z8QqnNefu8u?E~%&5$+9op>cS;j9chU29E~N1(}*q#n_fL635~tr_ctehzq#aUqG!;
z2yWT)_63U$DtSn<m@5yN(#d5?)LzX^n0<*!kH)Ozb+|$eUaSx|@#O}id>LxAI1uCM
z2r4L&LtAFqh;PVN!ImZtV+E_RBrjP7B+rIz94YzOD+3mpbn+&qQ8`Qj(LJXV^oP?q
z(P(b40i9IWbeqbJA^@7{5W2S%yLLb6+P(5FlPHqrlkRsFb{=`^I|>r+p5ns9001Z?
z2(+0kVe%3JXa@n<U@2%w01phNf#nYwkRoBt-U&tKCZq4Z^w8gGR=-ADux8jXhn67h
zB@Bu0KsKq=V{1;|!b7gB!JJarAK|4cA;4U=)XwFP&)hk4ulK2Mq%w_qo3fNn1Aa#;
zI!&y4YArPP4^ZXiQ~P6E%r-B?Y#+YX6n}1`DUR80*)Ad!S?q=o7Na+-_uEDd4oo1G
zNlS(nQneIdnkJ-Er5lOt)rugome4ZxkwziIx+`6~ZkYd=UE$^1cf%~zuO(@i(e$!p
z%%|C%F$s1-(l)JrU>Vt!h?8l0ZkchEMkA~0P(w8*nNYL8nMh|p<Xr*(Fx1LMl`;Lc
z;i%32n0tJSsdeybB7C;ZJ#SFvG^l}Z_ZrGPj^x~A1Im0^onN4kN=yV4yQLx%oc5si
zzx3^cK(jM}wp;V<E=(PN>YFL`?R!CQ%YxnG{q^4ph%&D8<L;e~|4V`a2Q3wtc|lHP
zfFKD~8Z>FK)O1ElX3{u$FwG8gN+u;;=GiWTVB#Q@#bh*A(X}}^r5a5T#3?$BlMB8I
zRfO@s20yXF+<L^ZZap1U+ZwJy<AA|LPFqHUiuAIWS4d$q5mB!t78fm}lqn||p4d!I
zyhD_;qXFeKta6n|#t;~7wM?$)3v0gc>dwOV-h1jhRpE3sT+I>~Z=s@3#Tv~+oD;vT
z){&dCcDKp2s+d!iwo#e08aPYcAvVAETL^w4T5xvQfU`)gzZ%J~JGKXg47(|+V5{?j
z0b)l@5UU(OJvcb?gWHo;gZEOmV|zm8RIn>8mCAQ^HD2A_V0~z3^J*Hv)UT+XJqS#g
zY7f=y=^@QGRP>E%zR~*&k9|{*eET0>c<kH%=Y9JOXc`_9l|!u06^W>ld@}8~-b(wq
z{+D*|PpB_MGcatgyMaR21oY;4-=Kj(op?f$!B#j1^|6sfuHuAIR`m`#@!_}yMlw3}
zna^IWVK}Ir0})!$FQ7TF3I9?s1^Q_uD`yZGlgmMp-Z_^@$0LkUsM$&jxp0F4HO~5P
zs7^9&gNOPAkDqlvEOJ{{4_Ud>(UcsC=-vpOSuMeO9?^Y~$VW@jr17RH5{YMGk%;0)
zHM$*wMR#1mfrkR63ePx`<tl;`j|wSZ%x<NS9YJ@HEMhu=LWf2Qp+4m;3P>U-w7C@m
z=L*e>Lj6?EQE-+5G9huWNQX-b1@x!>2N3fo!V8<t=`OqboZja>+saPdVae+5D>qTh
zEp&93Jrwf_J^kfoiur`0(XyXnEke(hwE)EqZFO#Y-qBTd;*R2>?s5~w+`_={{R69K
zwBdta?JW!+)%uT>J@mpW^h@PtiunYuf6Y&^lcLZ01F_WGU$(QzzJp)w`1-JR=zQVA
z`-MaAYx_RnFP?k+Yfj2h9uQ88XT%rw9;cTTqx-IjGJBqRm))OxT2``m&uD?6`+Ez4
zZJKBMniJW|-)nXryZ>%k!0qc{cKi9r8a<VJ-OkZ_D)c1h=>05oCg*6mBjEIYg(Td*
z&i?%Pzg=FVXnCvGd0KpEFAH@4IclMM;lc-NEK=@na(eGyEDN};zW;FFS3Yg;J724X
zy{EMC(`%H9gAP|m+2(ZmpLh1&JNS8~>_i;XH@LOjL@~GE4XiBPy>xF(3vFL*FNDUl
z!1$_K2<*{3d;ivhENgaD@q()0t4!+}!=H6|jo8}9h<u7I^NK@p9CG6*Qj9l!;=`f1
z8;8zxIBXs|dvSp5Wk=-30XdG3J+co!9@)<hl>PkJxa#=01!Y=Rgqz}Q00yLh-auD5
zn>o+y-p9!$AUbM_ehW}m9lwz|34l*Z%$X>a_yw8M6Dp3FRXP`rO8}rtX?1CFF{9w<
zfeVHANV2Bk_yGG8DtRAAbWvq_BLiTV;pFlaB@y5Fa*W9#qh?i#DpwMyQCT+3;VOYt
ztK0lEt?IBr+AZ-kL-m`<$f}gac|;<GBe@ivjT6G1lcP9J!Yf5ivZE7p*MQ{4VEKsZ
zkK(LTxR`ZJgheM#LXu`Jj^HOGigD-H9amoX5!ekk`^Ir#lz0Bj_P{7D3ROo>!a{YO
zMtM^j=7k9H9d_ZE*?#uKmm)h3#0jkvlO-z#j{`^NdTtjf;|)$3H#uaqMy7irkytXS
zs*woe#vEH4B9!=OBZyN&Ue@XCe?o3<;eogc3Z9lbO`5wK=Zhs@PstZ5`C3c9t);#&
z%srl-b)m`QMXnvYR`(Tm&1k!39&dk#&JaiVzMDp6$^?QM6hv~AP5o9x=nQaPY-~Hp
zVG+o>dX~!*Q6Xgz`htX;LUnVI%%vG)`MJXziL-W`B)1Kd2XwkxE#o;=Ne9KZg;KC}
zMZJ5e7@E@X8<;A%x&E(MqI9B00$cj(B^0m5b-;8&l?6~}<QQNQ%tqTX*^T11Iq0h(
zpBn5&lgO}}gouUQ(2ZN7g}>Z2_=`zB%pSolU5wPs9j!#}y;sd$V+_y$fBhAzV-sl{
z=iBys|GfLnyHlUNt#!Z2A=byf76T^OnS9rsN|Y29w#0@d(3)%A#i3rEk%we??t9;@
z*MCV}B!~zy_X>OV<1}i&_gQ!Uy*T$Vc+&kQPO0_-n%VYvS6mQ3!OpuMtt=PZ-5lfu
zmGdaA{D6WB6kMc$K#W2(puA53?LFlK3g{SvqY?%~M(B}v5CbH--`Kw~8Ol}!Y=Rta
zRB(LZEe=tBgR)Za@9D)o1ivDT;si!%2|7=R45U!RKq)NBVG4_S37s^vs1NYumwpx<
z5uJNTg5zdNa74>4x3kBRy@(sKmtrrKz2A6{h3|aoYK_FToX{5W<~1a);fBVfuA50+
zxT47(CQZ3Rnimdf?poKeD*5V%eDyK;>c{43(R((PY`MQ-(#w)h)nb)wHq6(`Fz;m2
z$z>^%u5#hxHXIzsL(t+EN*Ajw7KJo^b!l=X8I$CR`H3+y9pNa*a2%A9(PddtNvN~>
z=AeaFy+yY+%Z{U>1Rdc+dr!wRINC6)Y%Cp#-6@tJsqqCP@??Da6bP|SL^f56ND`2F
z*U!X?hy*{kL?3D~u13N#&iv^bdW%(wPt-@fsk;_T7*~}Jp-Y+qyYdj^6~D5)D{j9w
zgVBcafL#sCx^itKt12~Ae9>NiL?$;!YuNs3(<vctc?y0k0th(ID!+;TF`@R?w8wJ?
zHziI9LLClCKu{*-)mjhX7eLB8XEf-%plqXnoWV@*G4k<autWI}sb3n71T1em<?W!L
zmJB%ip&2)<bk$H|>!zKxK*TRmQvFv5Nat;903v$pK}0zy3~Vj-Pig&A#r|onfBNeo
zt$(K2e?jZNz@43X2a3I8TJKn~cfZ!VpS+t)|EE%O&%NnK&HW``@W<!=$+>&Kt@*}(
zbnaQ8?e4x}`*y8;d$E1L*1rF7;J{bYj{--^g3aSC`Q8P4_jt9y5zeqIS;O#3t#Bvj
z47L$Uh-_wzj*G;b8req(M;aif!KMIV5qPM(8WTKH8<0G(DajOE1Q)U-g4hM<!1`no
zBubmk-ewlu31k@ngTt&QhH-Q+Ssl2oL2t8M{usN%k%Hkm$D9rs0g;;<h;ch^T*oF?
zMDCPmy=MfdBq`?x3GXG-#^zFf_vS>`7?lLDvD6Hjf@Q)hboLfQ6Iy6u^&`N!V(6q6
zI$7!&Ep_cGNkjM4Qdi#>Km7cMC6mNToxNYAKTpHWu-G@D^-YumLg#xTl-^G73aO{T
z-hZ+8UT$^hr?(#WjX!k!Y2c3oTHmok;8?-UT@J!6uMG|uE@%J=lsTHec?8ukAVG-~
z{119@2LXct4!{6kw_&Ql-2ed;;~0Qq+*Cm^ZmOUdnJRu6pxC|^=UbvB^y$Hn`Yiei
zu}^vUHln^YmissH<~zy#K%DezH+Mm2^54hw>t>mp&3!DTv3~7m^1lW0Kd5(arn^R`
zK`BheZi)b|GPSn`2&9&h*#xxHidsveT!j=*^Rv(F)g@K3a@8_z!?*iVMp8+|rNfxZ
zjj8zZ7&(YA-fwBwWY>iS{R(-Q;}Zku)~xs08*nkAJ~U9aS+^K&fg+CbDfA5bJ{%Ei
zaRrA6-;XX!@=X8{=B=25%dbR^y$XB?3DyATq}idv+!E>I-yK$51x0*ISmBD>ETL+D
zfbw*GOzNX0^m!VE=6jKxyd8$ny@nS#Y3BHOW??WURWeo>SSgM48xt^`T4Gg~uFDG6
zD1xQMhZ#xmsakfZDk)T|ZXzy+HX}SsT84>Lk^K2K(lR)3zx7dIYr%b@FmmEC!ob#&
z+gEgtYwq!<?n%BInd(gl!@Ovgm?U#S5;6B%96H>>5h{R^nFscJJXxh)W$kDL%uI;`
z=ZE_h=elgO*#z9|Ontyi!aZwAC(|WDna+#1{f%?q64RZKtPN|jXvAjH0Hcwrw#?`P
znFi~wyxr_S&g7$c+onCRp$E2C^q`hXNo%jWUfF|x2}fh`Ho?g1(b!l@6|l?_qGK0U
z&q4{<83gX@E~GZ-Nu1d;8H(wyD}YDTT0s`raS>~^Fb6_}?C<PC-CN9f<-Q<Q;${q`
ztl3AY0W-aF-=tL4NEZn1)?LadY8$Cb#3NG4&QW*efWB@y^Uk=_q8e9)YO-N7J4&0;
zs=G-k*<EHL@->)SGv775Q`~W=PZ4Wfmc^P@UQ)WI6|=#rdtEDVVXSFo(##t7m^nWd
z!`|FuuL1L=4~Wwxz~b3SGD#Yy{Yp5Af=Ix}aZrC>DQK+PNKrNg4s_!>Swk-D=`o3M
zR3=aAge1faEWA|6s?gG94TCW=N@vhb#Yo`7h(>cZcWyJrYw1+xh^U_=I;pd@oiy7a
znUFj2tt#Z*GOIO=-ru1fvxe$nG8x6tdai*r-WngRA3sSX9k9XZ3?l<OBe)K4bes}M
zS76{^Gitn~E?+tk9fUx5<@l+=MiVGOVW?WGx@BZ<;~8%9PiJKX-murnECPobtnB6$
z0+?KpVPwJ3Sk6ZE!cuZQ5tB)VtI-M5Ohc9#6MK=Z1fTrO)4igEM5x&a0|ewPQT2kg
z#ovHFD=#L(-FmlKihOKfUbfUFJ-~}u3EZu^qOmh)PNq(gWYk?zcrv8p3NdoMx2{(6
zlhIgG<q8+cZoS>=n9(?1>+N+#`DbN3C&igIruWq4st}DH<asM8%v7M;p&cSfr1gMV
zHXWHuC~8*seh^JA$?qsiMhUyPtv-+bDYqyfCa;V0x+k762u>yKm-8QP>RiHe?%-y$
zHt{Mjc7)KB7fh5LNgq5?aQBtM<160M-Z#jQFk0HlzM9(dtb^Hl_h<uqiUV(J18@IX
z$MHKe_<G?Z`g&pL_a=Wj`DEAOCxIiS_HBjsiPFwpe>C~!q}H+hdEdmtp+BAc<H<*T
z({Kd}b(U>n&l_uY#0p5k*9@Uza9j(H7lZq>;J$}HcpBXQyuH8BK3W>u`Uiu*Klu5n
z=Y6BAt$#H5<=~^f16CDpiAEg<j5<cN;7BpJOAGE=oqigeD31!E8L_-W2o4tl6U+$-
zE&E4M%HyRJI2ZI50;7g~;}WxP;2BN_yN=P&x0i;u7l#jP!-ruhDf*a$W2@#Heqpzb
zc>lY%{Z6>-#2Nk*w*=L11SS^5O1&e@)Dj*qhNrdgbTNEJ3!kA^+e*^N9|V3sP?Qd7
z(jiLef8HD@HV-^%9(WF4%I<Nk8_IEU_gM|U-Dg+cE46RAFaFL^^c)}T*~Hd&Xu$p!
zeBI|2e1Vm0F@S^IvB%Bhe`0?)Q`~n_+jsKu?)M%wzlVOW%sll;&-}r=9mUpBt#$OV
zf7{R6S1%REacq3*arpEj|LM~34wmZ|ZCh}9+`50w-qel{1DpIUbrzml;|{@g28nlo
zW;QeKY-ZMhum_N?zmQ5qU3Vds+N!&dYJs)NtBNi4R;@vYSxZgfjj|R9tCS^!4!&d&
z7J`*DGq%Y%D7OWw%)AURH6909bn32Gj>B1Hm~wKfZ`C*~FjT457zg#O(J0X~Lm9N4
zA{EeXcv`z)_1&xtRyc0|$F?KP(;D?QfVqkX-}^ap=*F$4d{f>*rZHHz?X@XkNAxcE
zj0H?iz}C(%jNwdUICw%he5()qIG5#aKin&hr4amrBanfmOc&1z)*<fM$VZ4*fj5cN
zQVQRgkl&D53G*i+=~d;`*U;T_T4G<uGB1HBzTi#I*M5{pjgL#y61n1RsN8f+Bzeoc
zK>6V|M_Yy%s~rcg?h=4R#j(_I2;@+bJ2s-Nsu55jx*%^(W91aG`zdtL#6R$@SSdjO
z_+r|x&}wos<qazr6H?4pNp^DOw<-9C6p-bLOE3EJP5Bss`8ghI?F<t1jtUT{KnI;!
zH4P(bs49mgs?&OqLxRdn<s;NrZB3B4Ts(*5+~lTmv9ST^W0Hm>5+Myo1Zku=cvKra
zS{!^|8+_lefDR592M=q5hpVlid$is?h7}YC{n7_8el|(of_n=N`#XCIJ>#oUt!MY+
z&=fK13mSey7hoE7<CL)|9nho$Md_R-ontKwm8gZi+Th+w3nX1D^$(q=`iD?|zfnIK
zYI~+0hxR<YRD9!<hTqUB!}NM@rnu#hhTp)UucD8b%@vl{H8lN3!MCLpl<xP^2hQKu
z@H>Rxb6W5`TzQAyK<^;-ng<^>50-ky3%lRZdfr(%1yL95y>|$55}y?!U+-jLioYoV
z1{mo~fZ*tS0!wf<9C&TxE<qW7^84BrUX_YaAkoTwh6uCpx?tfAwmEmRb6(sH3opgE
zg_mO7!b>r3;iVY2@FKRh<GAQ-DW9^v37<66u?lg+%uBIXSb33!OH$TH23^~!w`|XZ
zC}y1_a;J}K;bDo{e~ye0vvxID{fQ>?wIM$n@quB<yZG8}6I=`^tyTYi!tmW;o;%jD
zBx>}aadzc5$pJSDemHjx+3;P}Z{Ws{Ew)jN%-d{rz-eAO0rjX>?<U6+%Whb8#;nj9
ze@%-`eCD?BA}IKJp9LnWTyDtUX1&=(E}|~@+q4Mo=9Oc`=ABye&c{u=RzG^wwEJ0L
zM^ypicx~O^L}j>-j&G#o?kc%MC3kDd-C1%El)6Td!RI1ZJQrKov*AA79=#G%2oEuz
zNj(tDB$INClo@q`UeW64UG)DTCazCS(Eo#&;8KhJNd^B03w<?jtuZfU6VO-KMj&F)
z!!_Bey`HQhhJ;`rxiM9U{i_ST*DPsegsDJQ=HSk*koLsAFbFj00W+)doeB37C9@M>
zT5Cb8oHl4dn6nJ0_93dreVDti9#wu9k60~1{X+z0yC{m^xCC+JFNBf*DvbYU;n+7e
zhiH2tAo#{Bi1-f{!ll0uhSyyRu=>6BbsYPO{`CdtsMu53c3@q=ef_*RDZVA*%jk81
zBI|MSLz}p*FgUd?P^A2pQxaXJ(AKgY_vh`MWqKyY)lqJum|F<-lsy!K1L;t?nPNWj
RHuY1iMR0Ym2M}Y!`JY%z$B_U4

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/kv_cache_manager.cpython-312.pyc b/v1/core/__pycache__/kv_cache_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..65ad8dd467b1174fe426f3f77f1600aa32728135
GIT binary patch
literal 18258
zcmb_^Yj7J!cJ2%wBmjZ{_@?+Af)5cS1(AB#k|@j4iX#15%4>1$4R;+F!VF1JAVALm
zlE_fIUdO4DW8boTH@i}5HwlwURj6oF(cZdMS9|Y|c<-NVC4VrYTtE=JB3GPB@+So?
zRh2lu@|~Us9vphT-VDi^o}TX0r%#_gukPmG*4KMDTnWcJ@jv+r$NeL{7?)E|?EDQ9
zH#w0L`2;slPg{atvCZ3fO4}3m700}Tr5y?9O3i%DO6`0tdv_*WEADwWOV=bkD|PdA
zEM1%MuGG)hv$QMWTk+5PS=yZltTfCwu(T)9xY9J=#L{(%=9QND7M`<lQk~R#hu1Kh
zZ<8E0ZiW-RZ*gM%9h;VWM@M_UoqhA+o8S00zi*8X1^$&v%!c@a>w@%pMoPvcq}^gP
z9gQWTiW0IFYF~(_B{`ZXxKfuTIgyHrDB*qn<+IV)l63B}luYBjE}o31BZ<`Fq9o(B
zeNjqBE?thqs7xf5O37k88BM3?n^E;EiB#+o-s^QxXH&_A_#!d_FUrzF{3?TgAstOC
z$g6#cuv5}8y+iEb(qDG|1&N!S#Le>}H*fno24~(bIV7i4vkzZH+k%arQmtq|iKiPx
z5S?#1=3SB->3~=(c|@(G1GVZTZ+Wc+hv<6CX%e!Y)oEaL+^n2M9nrI1%W<e#S6)+Z
z%O`$b4ewjd`FfPlu~@K)^}y6GHi|wx18bg8lSwf~L1q2_c?4W@OOg;xfTq!OJe3q=
zNy#MALTW+K$@|r4GK#?&6RxD>OF~o;(x?zmVrUnlF-f>6rLRa*l7YH_K@&3xNfx3>
zaaa9xN?3}EQdRzbMFW<MCIsRh21rTEnOHg_OTvPjT461ku*0lGxKMME_&_Pt$P!8>
zV>;(zoM@yt&W^vGG;TM!w9e}sm!@2HiTqn!+L)c(2De;ed?`IQc&l7v9!zn@;NH>U
z8_x?|$hO{hMifD;D=DMH8r9KTB^||dQNl43Ei{R7=MLj<=QZ4(=XjvK!M!@fao<A6
zuJPAwR-IUOpm5c-!Ee|M6b*!az~AI~?%iPrx5oX2{R)4ZpAFdyjznBZ7u+;U)2UQK
zDL7+G(RdPHY~k^O<6`2{1iK$nh-zS!|C~CQURgc38ect-j>?#-2d-wGJbvublhVON
z{NlmYwe(UddGK-~v2yV8#KBlfmJXV8c|~KR@akH@eR5GsN>^9qQ|rSzlWDXGM<P*C
zj6}jGi5(Nlsjyix3=EVp-2R38k2km?XK(a<5<LC>b2p}L4Lr7U4K2U-8#g2GM>glS
zj%>G#=K>Rd7d-u$LgaaKEX;=-vLDHUGo4vYNCo?Pd{qu015(PNNQs4lGX<`e72+X5
zkUObtt&YrkizSYuD5KDTy}^Cz@A}Bw@Q85wG&r~^{@JBJzI6BK|2g@SlMjNYcbv%H
z;q3Lk9lJB&DRNG?X9v}|>4Jx*-IYi(m6R&Dm%cLYCG>A%$mC`uZgaP7axW5cKW-JM
z)|1p^(;*TUmG#a_geyKCp}NFtAfk)w8<2xY&&_^;_T@p8l);b{ZOi+S@wqLYpc-b2
z!=tRliuS0RtiM;00Ne9&cZu0)o?>>E&u)~WYxn$<`88W<PK)+0UK2Cc5j}?a$b<`6
zU4T}B)=F#Qu7aTE3>F~KOsa=HX4RLNKvGVa83d1U-ZyE+eG|g-)iEI)4!?RrIHP?a
zc}w3E;R^Urs;o-Y4=^E^%3!YQH88y(t5;J=k}@P@1g12FMLCsORVv!n07%fOz&!~F
z)RYiQCDWMhS`W>B5GEwySq8~wyhYQyzzJGAW`2b%qXA{I>=+WJENdh=RvOq1{*EsH
zMDEfs$LTVv88V6|85Oe0H0Wev*b`C`ukCm(IJN%KCw->MT}ZEoE5;~X!SojL<g2Ko
zkQ!$4B-=gn)5*JoKZ<P*{&0Eg%patFI;jhf_6~lwqHm-!Sl{N6F#Fa+ecRxtxc6)^
z+aedUz3M}bZNs*VQq|Y{ws!*#l(}Zp`z(-Lj=>b9yemvXvnh|RyNrPe*;)T(l7R&~
zWV0cZnY8*+G&m1X3e8`Q2F<fS8@<<ZTiR|pa$DL|Zp3aTzL(gNK5RMiv(eA)w;cIQ
z@uKXT?os}orlFcYtRLl}DeRD8Oq9yq`1mEn!)a7g#&LUtd(^>sTYuEAcF){9@>i4p
zcXGRX=0V3yzNzgaf3w;=`@z6pkN*GB?dI8S|7_MZtI3ga6>7?n{{?X6THjiJnC!<B
z`zf{0!QeAA`kTCU9nnragJI_NVTP)pfwxk`-{s#8SX&TafNsVB`~_p!`74k>>rc%{
z>5@pHshCMFMHN_8#(ZS<Pz9@-;wb#DM2z*$^U1`T0G*=EP$8}eN@jI6C8s5k%_t~C
zQeJG-3LcHWs1ccTET$Rhn1WNA|7Fvx&`NX4z^6>z3{;@QX5Q{nUjtBO7B^CtjW>?m
zoP2+B+uyr6ao<0Xb)C%)o!!RWKad|A|I6oZKYx$^a}4t<w`Vtx-ji~tW>xxq`G)hR
z?|Z(jS=Ika*7eF~_x-OZbpZL3hBM8MpV@u5S4>s%%9vhRMWUP^_Ob%gq^8(~(Knm~
zBMVQ1V~po+4P<;_7T~mp1TS4@Wht7L6d@`kr7L^bgTj?~dPzv?Dn-%ET&i5rCmIkY
zegq^;@dMlS8eAA%oVW}T3WI@^_AI;Og$YnTQf@nFf@7p|2!UioT3Jo6SqM%NdrA{-
zn$QT&s0XLF`u_9~9-r;d41Ck;<3mnnZ!wuraLUmn90-%=Zu5-A6yjFh)^eLIuD9)h
z%FEO)<|!EHv5O0I|LE&#aOTIE|9#<J^IvuTv~&CDxd#WQw}Uef8r%M7vaV;Cd;qTt
zsH0)iV5CC)bcmk=tCw;b3a&^b8C{Vgk%A`@SxJ!}gS0mic|8+N=wDzHim6y6q6s_V
zEt#0C;D@c4Os3#-!i7@sy^lVTM<J8GkXxvb9eSUcOE9WoZp%mM%PG1s%PL4IvOG0p
z$zCP1Px&|8eusPHa5!B>FIV4qWBArdwQ+c>Kihaf^@g_{;iAp!bnSH2Iz7ckuEtla
z;f6*ZIqlAYhs~Y0&b>cdq%?9p{_E)*XWw4C)qnlls=MbGwaDJFQw<vx@Mv`hLsWN^
z>Q24?RjNC>yY6PQ>K-Hjqb7jSqL1t9d*t*x&+`wP+lwr*N6npDDpd^Ho!{WM99tJ|
zyI~<C{n+DhKFhO_V^oNt@8$*jfn7Vx;GB}z?uNIg{fPY{FWE(#<PhzW6TYxhbmFfD
zf3?VSiSC7f=z*VH1CQP%x!@z$z2z`O{=6G`9?{J_a2vuQj`=#VUh*QhUh+u}EfxUZ
zocw9O(I$NJ0anV776SNdkbD{pu@P@gXuBCtmyrt$T7W@7gA9xuVk_V^poA0nv?1Ln
zwo6TTM?F$DD6tQ@Ei9*%<=Dgy<g|&Mteg)ey71nvzt<Zz#cmVl9(>=&+UzB4&~A+=
zAg@F0L+_fUPJ(NcCu{*Ti0@r%?$BVtr_V_}6j1P+UL9;m#9j*ZE77YoXQV^~rdq)#
zC8HNHeaIk<Cl?Fuj3Py(=ptM%H$puTIKXM8(5ja*fk_k-QVKpXwi-dOAt6ST_`1X<
z>1?cA98;PJ_D>-W;V{@XxCmnnx^39;MzV!n8xFjY(A3_Xc%z#7o9szbsDNDtA0#12
zQHtg*yVx5|Wp-Jc1@b#-ny>6ilTcw7b6xmlgKv#&Joi={qRli$>;^_KMl7L-j6ar1
zN>p9TWT{nM=u@c|wP<GwqUK-;Z|gP;g{I?WdyXU1=qhj7LhU;G8ncz!Nw*nDAS%IG
z*}}*rrBQWRQ+cCiqxQ$nJ9;nBAG4QVv=^vTZ#0EANFP>R%j8T{U8n_XUc0Ctk<wU`
zoM%_M-$;oy2rQ9AXBS%OFw&)`LDjwa0IiUcW!D-Ps;zWFOe^3S6fms-G{kICy;}Lh
z%750ag)VYF$l=ml4qKt#oRG?@6f-PDnu^evnhCMEw+W%k2!wK2WY;Q|lLlrAsXHT<
z)86_?-|1Utigs>a#~=BB-=Awg^kMs<zw0w1I6{z@525_}uxZ;e^Hd<DDhym<Atl3x
zx}q7nH8RmhewJ>})9pFBk?SXuDf;CNEBP3~U~2m~Qoj~8ZV`ZzLDg_d?Rn}}!|w(0
z_)MO}$56A@1BN{7#tYOsF@K?Pm4&?ZcsY}+@=Nq}l)l;(DP1P4HP2ZlQ(PvoSEwrs
zuos$=nUzxLT`Ox0{wmokjF!aun)O2w@j?qT6HC=JuOZ~p0#zmISK)3Bf#L!bGIHtC
z;%>0RG|n+i!D^QJP1I3dgNR2AtC{N=z3zD6>Uh{QM$gXtzTkDoyFUH#$+0sJf`=Xi
zk9?4(ue}e4M)1|2uk+{XdhXZtd>Ux_sJRWHyY|+HedD>l)A#!*V%OdZd!(fm5xa&)
z7+uXRzo@TiXeruV^(Tq}E^uO}fl@Zg3vj*RT+dS&t$d*2k=@qo`)6P0+be(c-0weE
zbaM3#@194TEzq;c-}m=@)Yft9>0IXtwe!Sw+vL61@3)=K22N+&PNPUe%T53P^lzS0
z0~6o(f7*FC-!+===*e}AsU2ha){dLW_mla~-dtx`?F{GpkLNo>kLzo@Jk+c9#{q6&
z|K@jc`={0Y)7$+slqs;<BWlM;uH&fMag=qtH%y<p9{aeV!w6Zb4X1u2ZBFF|PO1YZ
zAM`x6-EeB#duqpS8v@)9T|s7u?V2S_^FDzwpa`{<OkXxNEDGtDq08VH@#{<E=2DQ!
z3|eIrtTFtu5Zc_X8p5!?{2+{n$JwI8M0h+@a-ATs$X_YAnd?ez$WP(D-1Ts>rq`P*
zO`I^x{UMbl6$VE0ae?OdzVr5Xa{gh}KfLW9$+|{9hd$)4>_s1iU)v+RfcThccNi3d
zCMa1m2pC{#;RexfnATVj0hH1qMoUc+=s`dx3BCwDV;MvdlWC!>HY_%Q)gKceOlK*Q
z5Jz+pOLX)F;RG?Rka;JT=#13_nF*z@quWd}f$~}$fk7%4kcGCD=p`w#TX3xpRgJ+O
z<^GgLC8Ujtmqz8=zx!<jiSmKwTwuQ%*ni#mQSi`q@Ccjmd4KbDFB_*qt*kEvn&u#2
zkTJm+`b`jduK|<2FpkP=p%PuP4->$`d=dEt+Xck2tyYgj+q#E^1}!5D%XJ#$@;l&|
zhE6HJw8+C2i0s#3=q{UPN~xTD7WuT+QFXncn{rm)mQB;6RLQzGFt2$l161V6y!^5K
zjxGv#5*4N~SO(Q@m_i$HuviqH<c%R8VyTr?guF#zn8mimkQoL8XOaNXhqR0nQ)!7s
ztl4L?zNVLil?>wE7qP0CNhHc<#~FFCDq63@J;7E-^%sh=LylMhE`wzm{5PWfddMB~
z$ST5rMvKcM>ZhYik#`}ARZz1ZWZqczThpMlPC!x;s{A6t{D5TEOs6hM$+D;tvyhlo
zg($9vbiY=j;G*<W9FCY9bCmSEB!;}qbSmsqF2z?P2xehbez9T-%iqMH$`akafm@+<
zA)XYmu8+u%lGe==04;b~*CH&asgz^}t>R)qLoE2Ib-i7Rr4(9YEOxfb#BgdRMvNM3
zCijzZ2q8``=wf=Q;5YiN#VVCT8^NYXllejGvO+SK5m2*0nn+uiWwfza4^{~$i!yfs
zM)@1upe_Umrkp=`-yhsu%ni-lAEG#RuIYf<bYScCY}0twI}X!9*q`g2P<toto>6;`
zW?fwmy@8y!OZ9f;yoXiq;e4Pi7Z^|j1KFVy(8~3`M|RFVaowNYHx8@B8+h;3@19~{
zN7SZ~Y||52?-RJ^2}r-{?az5fRPRW>Gnnf<pmrX}?;Fo|^yNAx)DCK}<7ly#s~>&L
zIqH3YM(B>H{*kSxxBZjZr{=Q$xvXnWlbk+-a2ma2il@R}ET^PKr9v~6Or%nmqDx>B
zgQXe~7>KUvBczvXq>|V+f}nw{m#gscO~HH*B7}T=h?HS)S6yiZ3E_HOGr}ize7AnX
zVI`!mxst8cV%oYi%9?&M`l(;bW}LvtL8O6ShA6MTti`plA`d}mEza%h0Cde==E=G@
zY?Qa*WOqv;Za}@}*#m29L2iY$XTt^W+Hpr$XV>aB>HyO!wqPN~4O@l96!<knV61#=
zxoZ!I6!omSHeANo@?5epO^ZwHD&@<xU}NsD0SCAM-9i~#jdF&UhfvyToXKjby7m}n
zmqC4|+^k^rRRO~59<V$cwT7y^=G}vOwv8IO0pI#9pn45zUEnM@h+iJqUB|%wTKyiB
zpq0U@3(*gAix}(mFTo{L6IDSN?1T}NL<+0hq`#tu*49@%up*+#6;iO#)m148%hF>g
zv@fok^-WBY)>O$PAV`%0OjGN~)0Jdd^V&uzX$-4su|$T{oFHArqC2)HnJ5{kY1P6o
zkxMoQna3%t^k6YS2LW@0sb0-0S&Ckkb^(eeNTsg9GLe!cjm`GJU@31n9+twia8#|6
z${d~YKAM_KYqz?y090y2M{OB)(Jri@O4HPTvNtN-gE7#gnmT$ftH{0^X$>9CoHOhk
z!>Wm1#7;rBL}v717g9RSEAp*$PIa#-l$A+feFhB};{k5dhr1GMBIeu@MiRe>Tx0EZ
zO`!UM2pa_(*jDA#YD&R&A&r4AT|U6NgJss(QUziJ2pi^D<h!zo-3sx9@XC?|Qp3JW
z31nt5PtKsfrZmF_TDw{?(0uXW6zw2M8a<=>T3xLt*v=6puRD!3Ib}hTcLBPx6vr-+
zEAd2vF-bxKYqLrV8MYr!NlU9`v-2x#51s(+j;$#roA$NWUNa#d`0u$)cpJjW691kO
z=(U2SDGQgDdy0}&1Ppw@7;RBN857=r4|)eoc&v45wsf6j5-%=;l^8;$FD&)z;PQFR
z5)sJLv1;_ow`sOm)eDPP5T1sHa44s^MainH$}urpEN3fna~4vxfsS~5M7Qyow*=;e
zJd?5FE)wsiX)0?RTE@A1_-Sls6#OQ_yTmX0^fM7*&eQr}rB*S$%SGm~kfRn&3gfdO
zN5P}Jkl3E5`A7;Bt9%)^^{3AoKCV7bm8DcB0huESEVimm=Sulo9)t-s7d$UV6B+58
zEMrF)dHR|!#@w(LSz3WijgUZDl|-FN@>P`50=|ZzHB5E;N<7KJ&4mu~aHxkGUMLVT
z2%-hmn43fe7T_itke?&S&U6Z*5PO4?YlU_N8n4pp(f}5k3~=nLmMO0g{^Uj$yqZI&
z<%fJFcTbk74EZ23BO@&*$Qim3LE+`?QaTYDRr$B*D|1jZ1%PHj5wc4Pt=9d7Ukq3V
zx>QE530g4h6biUh@~-AW`pmvDyJx+-%6qK*TmTg16ZkT49Orq?+i~k_h)sXg*p=;`
z+HO3T^`3iJ*ORRq$qyaR4V_l;>+MG*TT8>cREK7=-hTL#?)sdoU3InRTw&D}&U>43
z-X7K4vss%HCRJhbvEAnOz}M>?%Jm#qdyZ#MUQl~3WL=#f^#=3a-p#P;9nT(~QN1(F
zhoq_qh6^5erq~@29Ln`gsC^T;z8BQK7xHaAxweqn7RtAc=7lHoy%R+@7yK%}!#RVf
z(1U=fH@G?VXXpR;d~RSy9hli3c=mqXvk#lvuqOZ>Dht1(nfK1WeLm;yQ@wrJ;PDT=
zCq8ZK$aWrj&~~`U!QssZzQ!EiY|~-H$i4kr1G$kYbz~|x^1O=Qy5|9`zQORBkE-6I
z%x4a&fnauk`U~II#kF?iS_ajY!CcF6wdJ@;maK3j`@}PV-|D$eWHCH;b?6xLs>5ni
zcx!#T=|t9h;xVXZ(&+B~+@UG;&=jinqOYAmqD1*Y)it=em_7KF2d=XZ{Y|=8ePY}H
zMAr3$7BMalCE79e^tVGRQhNm;ts?61BrLq0JGw{AV;3bN#s4;qxydXzjf=}<nqhS9
z3ZcD1yY4G%L5j*)otG5}Az?V|f|4TXrp3ari8Nst85FFNF2`dKy{52Sh|7q&F{^|o
z4T)<AWNq>P%USwW=#@+>ibFHG=b$1?%;|w>IYx7g2yg5feFy3FrmA^K)y{*23O01o
zY%HHr-Kwkm)?%(_T<sbE&^4hArA}^?=5Vk^AIcj@{3=6fxX=2+fW@%Nz1B{e7R42@
z0m90ejhK+uY$1E}X(0O&Ef|!W^KdPgt-Fv(#@GRnl_)tPrn&gi3(u7Hu`NK|vfak<
z<mG50j`JGTu7MC;U|W=-ov%po#U=QB#1olSDl3keOaVWT*{sBcY!QRG8dYkJ)($e7
z(|8e~qNSCnd<pFH%d|M{u7dq9XV}6;mHVQv7sqe_Lm|UtO>4e{8Hw|096kW6lR17R
zu3%w`GU=M0!`8NW3~!;4VO<#mHJ3oJ=Z)xGz1SrG57b=mtKzxcfPRBG@C?d=0~=|D
zgRMJFsQ!ru{=@mEb}V1+5&9b&zdoe}{~mZld4H1@ziX5;$s`De$Spez1v8{#1HLJP
zj{S;^TiU}->w3|@M<DfVG{GD#P3k~rmIBc$I9{ZWur7^g^x3xbOP9-cua^xlGxH4A
z#8C|?MjR#R9m3eL4zZ;_cG`?~S*Dk;1%45G-BDC)s5F3Qv>cK^2*xWok3?2^lst-R
z^k~)V%nL6VZD`(}$q9xAr*lrmqT3R&dK^o0<gt&T;zA^bwKd=feqvI%L=P;w$#F?B
z;V}{WI$2p7%5d(@Z?os;&JABlrIgI2P_<*LQ$Y7cEwDmQM@Dp$)P%@PQzAa029I-O
zqzXL~tfHUk(oJcsMd&MrnkT4Di;};5QHn(|u?56ANYGp0lcMd(SR9Dsz!@8?Xqn?U
zLDI-v)&UePlClPwg$0E;?Svkq!8SW`sH#FLf#VRRfye%766xh?=9Q&*f}MC1N?kL1
z%NB?zMq`2b7$XrRAL&680g#tsJvhPxffAMD=o}8OF{ujH5_D;5Ho!Ld?xu<f&Rp^#
zpd|#E8&getvl0{FF*q9#C3JWXrST$(i>MLBV6ZbKRRe6n@MX-X2;&IyU_TyevAG14
z%g`~qqcE1Qnm(FFF|kX<z%rPLI%kkjHR+N`milM{Wi${|jILS(sAGbwKs+p*)z~qy
zM#Dq1nmP<x5dFx9iYhcDBH|cil#FSXO9`5(_Ow%k=r>W1A~_5a7R=0sEh3S-#Huzs
z^_~dNPSFw^yr61%HKr-Qbjk#7%p(Y-WIDb8Cc-qR=&C8o%sQ4XEV(-Dgi*DiumZ;7
zu@wT?1WpLCO+Y2t2~&z0S6zl@sDU(epf0!cLu&6ql~mYU@00Eut<rs;2PsZkkOKeE
zf~R?Ao%gE#-kkrW>OYx%>io9<#jNYa&oRS(tvxEKIqXtkqhQK+ZGUR%NGj{FKzpOg
zxWsZ$N-Minz$%E#?25WH?T*lz+GRg{k7(FYMZ>ZR?-0rK4J&MG1T!3HS#R4vmUWFW
zVllJ0LjTkHC)ofy=B^dMslH%hmisOG=Vhu}b(O4wJ31V;>!)i*Up&_sg-s1ZxrSl5
zGuNLnn1|RxD|K6Er>khAf}OsPjP-q0q$t(<9#LWdW!~UQPS}y$=%hM2nH!x}N2fnn
z-yVHw+Yk5m0wYVff+VI%bQ&<2EpJ5<^9Y-jgJxLutn<AUofmLSv#S3#nR>*|2gpA_
zs-m;B6tmv7S7+(a=S}Kw2a2)&lEHXu9h;PL{$r~D*tY*f)^$P~e2Rj^sCUNYK%#Q+
zjW1<Sx%*cc{?gtQazmLTdf+Ub=x6guAO0%;6DuwYrc+3M97U3typew!DP+*f9CPDX
zB&YKD8x=86p&I)IS%^mGqaPA|h>W0*vH6b$IkeUGkm?O>?av;b{?I#vZK&Q}jaU>-
zvu2BFd?`OtRN{H8P@Ci}<zhRK<?7@G?Qk!;_XZ$pM?YvQh2gdm1{JJ8vt)g+iWRK)
zNNiG{1(at;W<q0I(?70z_u8$Ox9P|g&dubGUr>*m{2y}8O;1m2J3^c+z&XqA)9fDV
zmY)VB`83_m(5;ScQ*=8=w{PKAaM98TPR*_roNyJRX*oilX!nwQk#6;LV+RG<KGN6e
z^=-P5GtRst>{(6A?7WOj3PYw7Su%;evgtvC&CcCuB4dzVgLI>HWO>H8y^4gg0~)-=
zA$lbY<U4xlcmG(vr}t6Aq|@_o-%!zsC&D-FoyA&8xww7ZMK`599L})RQ40G%+l%#-
z@^O8GML(qi+`g_N!GM3}@$EEGYMp0CX=<FKH!{EA@X(LOAXN-_oGsbV@q1Hh==2VU
zmty;{^XvT9lSPi6cQf~1{rOqwH1)|BcUVsGTRb-$${#tF9~jK{59fpZj~W!-`Q*a}
zoUEY)kOm61Ea~EcgGDz>daxgMYfkN+DAuue3R@NHS<=UK_Z9st8Q{8wB7;Zxx81^N
zp6;C{_G#Jfavr)hQ{?d2a_rEf*z9vQZ%*xScoYS}`8EEYQsn6QLHg%sf3~*6(#0vh
z#(Ch@+~%0teQ*c;KTr(VoOAr<1w``j+<J9~J&P`zb8^d0nUi;&cg1^$e-i(o>26XT
zKSu>7i!QtK8GaKO(DQ?S?fLToIwAB7U&INaIX>Tt!%3T6YFGHKJ==9yZ9P)7Q~pDD
z>tiP+G=3mf2zAJ<c+hU31bL6NsVE%17?Wv|7V6A@SRyGhNy0)+dTkY+i*{~{7WE4q
z^bZZf*z^d8?IP_)3uA-4uAqrM3w5l3_CHKy+R$9+V>y>6!t_57sJJGI%C=i;8?ZaA
z%VpB>grc1+(;5dP6Nve*H`oj;v=|^(5O0XblrY<HsqGH;8{c$;RGWV^j|(+Ax@;b@
zDN{L(3a*pd8MssO7RqB5VaqjcMLW;)J1&lI_?R2`nCtroZs4D|!yj|~A9K?mb4S?k
zA-sO#Zocu2ZFkQbHDFX*-M`z;@%*!Vkz)@`3|n1M%lh{hZ8J`Oj{gP69&F(L3ovmW
AJpcdz

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/kv_cache_utils.cpython-312.pyc b/v1/core/__pycache__/kv_cache_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f58b14c791eba70fdcbd6f5d3c626e8b89b20931
GIT binary patch
literal 49762
zcmeIbd2k%rc_)~4qAs9t74D;O5hxG<L4pT(6TDB5-8@<isRb5M1rj7spt1^N0|MQU
zEL)&NPeU`d8*ND|IIM|*qkDEK+p*?Ec<lDEyNcZzPbG`3sxDJw+S4A7W+q~*8?@wB
zOsw|zeJ?XBt59sQCEI^&Y?8>zeEIJ8z3=<pcf9w16&JfCT$9$XPW)M1lKvCDXjifN
zu(sVMNpDCOrI0itg-jvyq-n&&zvdA$el3%hDeH*UMBl8Fwki9FeX3}rXv#6-;4s^y
zbILX1;%ED$d&)E7nJOMBo+=qB;jp4f?^NkXDL*?V%cjal%K6zjSus^PQpwM*N#9h}
zNEJW3C#$DwMr!!kGg&)TH&VyX#gp|@4I>RxjU$ayO(RWH%_GfI{t^FF%Sg*q>qzTV
z+ejP7E17Jc>KN(ZXYb^Osm_s3lVp~{#i7!0*IQ=M>X874lo>+0!(HKxb48Lg(i1KT
z_lC;%AZn;090*m0H->!S?s0pl>Pyy<zEE|z8}ET}Yp4eAo7DG>c(28Kf2a;=eBmCv
z*W-ONN~#QRdCR1hJP-~b_Xf_rF>DWeuA0JK<K|j?9yf=YkYa1tWtNUfq2@11A-`7R
zw?uMjWE+2L!M9fJ+sO7%Tet&d?m(IC$YGG*J5cWp`0M2Q?+ot>d#IG~Mzu6os0(p-
zt7&(I_i!Dop#Vbn=H%c*+AjX;2zBG@zMQXG{yW2-keYYMOg(8RsRya{JEhR2P;YLV
zLw)Eijvd+*c7!)lDWU%Gy1cl@U7^iivW*-FZ9$6$^78TFy#sx@D;(gOiXOFxwxZ;r
z(6(@SXnVLQ?C1P_sF^*q178mEm%;F%@Sd<=^h;<b_t(a8M`#yf94;IK>38Gnkx*{h
zJt$x8NwuV1;byLnJ+v3`kLJY}W3~@pj&V8r!%b-EapZmgVJA3jNUe`ObP!=DIqVR^
zsGf)McSQZ}2_41vQ|n3~$UKHGr_lq(cG9Sdx>-ZV@%>EbM7Ry5XG2dSba-8U1ZAi2
z<!r$(r}5?7x-Z#0&*1wD+=gMTq`Z2G{%;z0h0Y@Gi@AAWj+{g2dCnoX@3S?xhh9LO
z3!xWLLX$cUO{n#GgkI#7+|MC1`uPIFE^*j)#5VK~r=wXTV3Km@yZ{#$k>;gYbKs@9
zic^<*4+Y1rh5Z*}6O$9MiEy;<2Q*cO1E#b)6dn)GOvXYJW3hlG?Kl*ioD5!>45u9@
zVqsZ4oezI*CL9?HBf2vbj0MLggV87=TZSUD>7wEA?F+Lv!)YhohbAY2QN*)`Be&?+
zb!l>P>d<s#eBvq<HW8VKjZRKqy&9J3HF_<$W!v`Au`AQ`Y8?wr+`_N(*u=rnE3>h1
zG~h_r9=bLYxe*SXo*oNM4#i^ONNi#{a{gv`EM0bVW->3R_|zqCsVFgBs=gkRr)O?*
z8n+t4FIwyi;Yf5^PM4jZoCr-suD&!82~FST7}Xae6XVnJ6gAC|l3G^uBK1l%M(seY
zkijVRP1<>Ia(e8>@nG~?x>A39X(D!wD{&%}E<5rndNvZA)W4=(S18TsHA>{TN|ha*
z2&L_EI5s0k##DMhBPKcUXTjgvLEPSuVk*X#q<LxHbe+EBT|^~Amba~Mso&=CUBmO|
zrGPEifGo}h$8Pw8{>yreF8hO#ke_Sfp9uLUBC+Y5?}qkV?sK{PxGn&`vI(Mo0L*kK
z9P-aZ(WU;aejZTd<i9d;wKp6IO#~zUX*m>@xv1dHn+QYn*fi%BLvGwDe(DsFxQ_~%
zi2CL5O*tF|AOr~%{J~q(6QQVoOb+86Ma5=rPKKlY+t(&0!<<(XP(SGhTu<Mo?=w*p
zf=tGyZ=vuj)3Iy*vFWLs(-GuI$-)tTBpgOv`Z)Cutmv_{1+_l<+orTVI&n1;4h76|
z0|h%`(<-Ez<t7Bk&A3Hr!2JFnAKVn1y1D7*#LeDVP`(<D^}af@W9Q(F9pO!r6IV9f
zoQ++Zj%>Px`LXHN=1pVMa(L5?Tccw%QAcM`<!Il{*>vMn@J4tv3m&7l0ZF48h{#<i
zX%iLMiQ9tov|RG|S6r)~O7`wkdiOo}+&dlda~I>i`x3pE6#u1!`=z+`r8PuFgKmUp
z$8_jH2skVOS=5eP$RZf3GeV7JZaaWj4vxkAG*Cvk8JDN0o((F)KlmR%`N>ZLCb=Gk
z{I*H%#!r-L;g_ie=@N94p|x@!0(VoK3fvZ?_uZ9C=a(y%TbDkSa5u%RO>zL?g_|*m
zFK7nt;wm&b=9!tSlR}n|^=+FrMKCSwa|6Z(>Tvz>t&@9D)Ue!!`%$?a_kcNV!Q4r^
zD4hTlxfkKaCVQyK`haf1*8>!z5jSdZ$?N;>?ptnKzOp>F+_iG#e#hdzgnKY<9pt8`
zT{JyJ&N<y+MRE)N)<$s4=>{V<!8f|1=6UJ76r(hJT?b#3e^FPxZPvKCkYx^|hK{m|
z<`UMX3C<IGl0fMvuZe$N#F5<yNVi=&efrGksY|0rE*%-ZaDMdS`6HtzhA)gBJbm`i
zsnO#@=Z_ybFZUy+ycsvZ$N+wfJykOmoV^kr9h;6|;^u(K4#Ye{u?ZX&q{nV=(mn9d
zJ&^L&#vQef)lTfbZ==rJ{-9TJACFs)iym|ipB+BJ#ixt7Gsh!2J*m$NEKYLf#q|O`
z88W@4&Z#@5dDBAUyrEZTB-t0UBNM)^JGH0mZ^*2rHUXP2G{>ml_{!q>>mDsE`x~-o
z>9pTq(X5nBZD#7Aebas^4#qECa_;2|$IlMa0GvN^<nY`d<i7iXaU;_)e>5EH6ZrQw
zq0`B5kdQS#MS2M#Plsm4CcrlctldjJ$w(O3R8Rl|t@j6kf`K;}wU5t4#t4u1fo4Z1
zh#sIMM&x<*U=lPw@hXVKt>EMgSm9}zX@Mx3IGfqNANbKNU>nTS(X<^i3v7s7f}pfr
za2@HQ+d(-3GQb!pT{I(u&`nRtge`#7cT!X*gFzHDK*i)LZer#I?F}=bmJcEBr|=i0
zDF)nYm&z*MaDL4huj@{fZd^E#Dk_Z^)hxgCwp(c&c<d;7z2t65#%w8WermBfU6~Te
zQHJl2D;vLY<y+U^yuMog^+=+!_pbB(%EmXZu1qAF`V*C#?>YsFLlOF=&C|7a5cGx=
zmarC<M$A|pn?@{QYuFYt^UBRKV&^w2zu88L!j6!Q*F3h6T@7=FiV)wSzPb3#$#1R^
zci4k(ZhFJY)T5;acU$}=tG?DN371?al96|XO2Q7r^crJ^O1~tHlp?1xd?^EeT0UzF
zl&3u^XT{vdTn)HYCW0#cp9;r<#8~yE9fAx_gk+j|=^{BiJ~|eO4X51(l0n=qvw)nN
zf8IZg0ZV(qG29v*m%}P8O?xBZS7U~Nqv@iF=x78CrR+!MIT(OuG~?1bJiLLqbREC>
z*Lje$VNkT=_y9h^8Vyg58;}=s2XocNy7gtL`Y#|+l)!XBdg84}dYct*bKKF)L(eI5
zctC1B*GG`J!u9z=(MiCAHcDRvHky}4Roo;=nEB@6xoyO=aV@|dfqe?i(v<WEd19)Q
zJ$h|=W-`PW;2JY&eV8W9>QGDZd=5VxV4N%;-`p=ENpu5l+}zh+yZc()yCEZ)ovxJU
z(3%Cm^lq0LHY{4-b<~I%pw}Jg^d2b3%NuAX+J+}_&6)z{xlJ#ELloSJXdvSnX6~}A
zB`{m~7S=sr^@inPq?XU(W*D`!ix|xq&-c8+%YL{^X-I~J*3>sYqsD~EdCWe<!?R#W
zt|~m1g(yt~a~?ECx~^dZ<f~nrPl51f<^vfTa-v?%yS^@kz#ClGsaEzgzF6?ZkqyzF
zzHSa#=S}!-n>XWb|E3#!LecPCl@a*61n^IU_RhI_fW>(x@0}~@@f+sy-nsG~f8NaH
zu)N8;H*E?8Z1M@zKt4*hlXN>qHwID*18KULv(gGq7jrJ!Ym`O@%NT*{9iyW})J8|=
ze8yV$X~DmO$kAWMZ9xK@?%J2!dFJ8HGt1UwO^;I3ldReHux4BQ{7Z|)shxYD`Rz$b
z`^trX^~!I)vT`;fnYLD^s_WmF|JwXg1aBSnsru$*{YIsJW4x{p0h^jr%{|N0c<K{R
zt1o1n*5dw*#qM<R3<*@EQSC@@Dm*%xc8!isfi6zcvuAYlb2Gt7^-Iy{XlQy24Ix%5
z?HwHrMnK+qDHTPi-fO(T5q-+td5WT2uS`!*rX3*nH^G9<@-)Yq2n0JU%jYSEB^r}u
zB8$H*3G_vLy-ds*-w1U^|0mpjN%|{mEBek`{)=axR8%e;TRfkzRwAH(>%yscS;wkX
zDeFmC2Qm(+Z_C2jxUV~5-JI&(tUV&8uMVj$B&@YhY{eO~$>xtY^xxmAH0=0L!poXP
zvV-2@2~q8(Nn4d-tIC+Iwhi%)ogYg0r5M#5@}b9!Xb!i{wcPep!jGsr)p`tn`bE4T
zU299YWhpPw-H@4REz4uDn1CF|2Kr_XS;98ZIy;_=KwBMnS7RZD1EJ246Es$&aN*r$
zcz5I7y)Iu5LOq6jm>Q21&sqZ|Y2Q&$I3vKmFcY2$2VVd#;FU8AZm{aU8jMWLfjtZQ
zCnusY|Ma-un8-hU<$8DwYhmWNLen!>CT9_mq%bbb5Iqf%Q$aqWeg2oi{)s6pyr-~=
z26G40Dhiv3L}SD%q71<Yp5t{dXLMy|ViKI5KSYugDlIy5^X9Z113s9VzC~;Gph}()
ziO}}cL?{Fn6M4}a63vJeK0crA+8pr5CZ@umThl0eI*J?-32;gRoFK$k{;R>8R0<P-
zoT4Es7`p~Wmusar1B@mzKD2RT50dB&3QeQqh#@9{!dNgChWujIFIuJd91$AM3<Xcz
zoS9T56R3~qNAANu{|V7KIr-};Pz-9yx#ZzMmYC$>Kz}e6lP9jsKx(G-&((=r;Jz8b
zMGZn4?l$7;d9j8@UYS*U`NUyrFn3S*>O_RtWDG0`MD%e0%&5&4us~uWB#8J47(zY%
ziI|_42UpN7nn>pgNtZ}&!C5oKCAke3zl+<qnV1dqO*jZ>gk*+bXeLTkBe@vWH7IB~
z*3tOXb^67N0U@2)f=&c9+@4n33D)J782Bg<p&x=u4Aj_II7+z@c=)^Y22jJb9tK!*
zf~Y3yq%i@cMZ%)yQxMOH^-65|2BdxdF8Uk`PE1m7tKGwGK~7`Wf)kNIeziq~ho=EC
zv1@40ZNM|)ArI<vZ9J$_;8nvii_NGI(Fa0Q#taN~H5Vm@R#ZS1(nytSBlIk!W0dbq
zj22b`Ebz_~Qw4}2`D#>*0nKcY;V%D>KF15;1<{bSUBqU7c{qnbCDy}2XmSuNMUE&*
zUmhEo(U^u-iM1}kguJD)eut%3c1hA5^E}v<8;3zqO2O2cp_l>lMTnQ)=y#OL=4+mq
zmjXG8G&k@iYPz>k%>^lPa-ml6b#IT=u$X3Hs#+toLT8P#%k8`vx-jJ#brEfOVIB%i
zE?+9N#2?jbgIo%T0JPMGwnHtd=0_`wyvq<zx?bQr^5fLma%X9D3dJl~pKQ8k)VE+>
z*;-+NVjJdl-Vdm+e*mc=i4BRn!|L8L8IE8HH#22e!9~+HtmUCtU^b9h7NXzjigA*l
z(wrG3VmEpX)M#BGP2_-J6Xh_aGEJ;w2zmKGI@fd*SsAAV(^znZ;`?`yI%-3mA%<#h
zUD^Ki&o5dZIT|1xD6d|MC95|o)f>N8*0VU2@|G@b{>n_MXUqM~_doZYZNGhH$-eZt
zuQ?x;2I$k)WJRY^(Ye~9RBTLmH?E8JZfPLnl*)Ub)=2IB56U04?V)n~kJ~n7Us5Co
zYgXLND=iP*ZD4~2_dN)HXLj*$($lVZ+8=qgrn-8PT?dq|1B*wOHs3w*$kUP9vG>81
z@5~wF1bUN!Atf+`I9u+XeAh!uv%x*d9cPstXN~c8?9L5)*Ryr~(v9Glal;ez(X$pp
zh2|{aNS_19L%n9C=qFe-Eo?$A`i#}`fHK#7qYK04!;+a6H3ec|A!GffCA*xC>EgSP
zO~X%EWET_-6lx8L2MdKSxD9y3ZpgV{?84<`m-&Ui7cM!A$wH=AQM>Fro>hEDYNl6B
zh59E{G*=B~*_@rh^Cm3&9CNqMO@rwI85^IFL5pb~suYb_2RRI}Vc4HHlZggyRtXf5
zr59NbW}s6Pc%eX^f-=!pfjj2P@^kK*YiGg?nn?68IvW|wvL;+PLK1y*HN(?}x`O|>
z1q?yj(7975A`m}9DJJOh`1B0g0TO<58r<)AtSdm8CvcO*Cq_DBf*}c#$P#Jtm^S$;
zU@%Z5PvS=`TBqoV7D>>Yl92O=EJHKtd2t46&nfZ72u>Beq}|-DV$Ez6z@&@R`ph*J
z##id+|A3;RKf(<Q*%GO^OkjqjXRG4b`oNkTJg4Bl=Uj@UQk{yoGwI!-cz49T`=3-)
zs~BqY!-}4aWGOC5mA9=NPPPv!?St{Qomi>vf>6g)hIJM`#w&WBI;4umc;k*l`C!~L
z_@uon*}g|<-;-=Vt+bzBbU$%dCEXho_lCH;59qR@8H=~Fy+~Y9!r7yKTlXgihLwTg
zMQhUGR~-IFj{em4UCHgk%J$(!chb?OINBaL27sTAm`<4Dj^m5&M~=3Y8;>>&J#l!F
zj)sShh82_IXnEJskn+~W9d(SL(xzM`tB#{a1dak_Cj20quR`VVtT}b#Gw4b4Nr|uk
z<_Nkp|C%?cb434uyb5q9h49=Rlzqn%%kmOBCk3tuijq6ldGmrO-BL)kFmF^XnD0O|
zQ@9j}du*dRKgMr*4exEUO7rF~v_6Zg8r5SKZr8jyoAbN{*ugUQ`?=UbEF)Allvg>=
zMi3DLg2?4!Y5qrcF@nJKzXFW{X1dBNWBCWjHzX~HTeAFbPK~nYg*lVqfSsqRVfx;{
z(5CHT<s;^)T?j~L=!0u)MwZ1~O<SPcPn#g9p(Tnse~Io;<uxgkQ=O!vk-6rNoyDV(
zr$`$8x42;*LkV2GWcteXRE2Nx1kc<y#oM;>xrg4axT7oX?Mmg(g(tq+q_0=;^(K9L
z72n=P*OQXcMa$!|s-@5UdJR|=Oxub;+!Me(<?+6L^6tr{xksMXRBhYhN!*gP14`|{
z;>jn0-o=xTJR4H<OMHS?DzBsJRK?vb#55c<8TkdBui!M^@<kzbN!xg=3a=>4>WnNj
zzrNrpOxYGnvMUTgG(?l%)Mo<;#tY3sgrYO^F9RJc_`PsmS<$pgS@mq6i?UksDJulr
z*13fjNk)QIwn~T8g}Y9|e#-1IlGpXKhX+8+AVK9YZCEA~&Q5{hxegHoiU-r2NvyBQ
z7$X8&XrPa~{DQ_=4Q#oL_VdKiv<G((kVCxeBImh=!cZ^1`Tz=1N(zwoNS?B!+poC&
zad+41kz~)1(lZqAIl*)!-g5MvnRl+nn}-wSXXBo;fW*z)ll@1O{v(UFq@z)BG(K|l
zKIz}KE(|eu?u|S4EZQD98dq$O{M&M;&i5P*g2UA@AF4y#Epxd40}r2s!v*hWz`O?D
z@A<h(KsT@~mChG1bq?=V2&NGu8~+&`tO4$cwiOWi!yo|0y5RqacJjqg`p?dR&(c7Y
z<v?so#QY#}f-HU{MsOlR_B&A_*B}g-&$#8WgwF@F0udWv_Q$*OMQI=nc?(1q>Zoe3
z;N<P#EVM+gf+-Y$Y?GNq<3%O|@=3H-K(o4jB#@Lpk6X?PQofClX92XRXMg~D4$+tw
z^OPptZHl`MmJEt}AnxA%xV$M<dK&66;)l$|B>+yaP;I-Fw%y6LQ%c*ZMHhlLY+Q6b
za<r!W-3+t{Y3WG%2NnMyzo!NU4a`$6Q&bR|2_hMqVJZC#S&qsbnP#6MZ7IxYfL|dM
zrD07qZvrm^jouv#;MQW`Ch%^6QOh0ky-IK*1$n2On9rz>A?Ig6bJpBqUgxvc!M7P$
zI3nO%lcK9k#xnq2*vS!aKLdKB29ztL?<_*i!mnUE<S$@MpzoT%j{zF9fM^vw2MID5
z5M@TNG&8AiRl_A<4y?s91RC1+0|b@-3~6EF05t1ey!F-H%aAA3r#$8B_y#h#@ph=H
z+~cY$w`0vARW&RgNwxPa9(m+xNd@`@n^4<y_hhCB-+;e2bSFFZDjncG2zm$h7J|}m
zTUL(#mRoUb)FBmh(=UQjhSc}*@P-6_`5D-(5WUaAz51Acq7^;ll7({qLN~Yqop0A`
z3r<?Y@G$l%n35!&1#>jrL!RKD&2#g|pyUSe%~`AFvjTnoGmtSuhr=RuvYLUCfGljD
zpABZVLO^#G8s~Q9EoX_(&O@doZSxmErZ5W2E_xY{5`NS~aI<)pU&Sp4g{CXWR1U2*
zO8w>ng?WSmQC}uVrd*j}@RluFSU~piNY+sZ$$D#(C0$BMSG;6v9zU$H!Wo;SMN&$(
z0t=T`sO)W^M1Gl?M^;1fr|E`;BQ&doLxi4mngYpiQCP#x)6;8oqb`zvk#4_4w<~lD
z(5;hhA?@~cJVf8X?Mu=J<_eo5)7@Y@XIhS}oK~7QXC!*LA6nzz%$_z|{c^*agrCew
zQ?spNc_1U<XJzZEM`_!(M$egprgB^B^689(pVbR%^polGi6Hz?5PmX!)wUkJ6g*QQ
z_{nT3M}8Mpdz6kHPm#7l)S0SFHat*AMPoVkHu^*+2+2_&6h!&jG<ww(ZNgM4C?*V<
zW+2pxf`;LH0r4Jv=Lz)}hpvT5TXiiA9t9Ic)4v$>UP6TkJ&Ia)wiX790DD-WA%bPC
zrf<td^jd<h7e%WB0^h5_>TF!MASIRiE>gpBjZ_koRbsJ1^QYE^5dSbH-Dj!S-BS>p
z!&-U<Ml5O1<g^@wwF8d>mZ)rh91Tv!V9fMo#5S74z-lTS8s(;rQY&S$gNV?y+KUGe
zhz7}7y!cYG*sm1(6ONV-Vbjx-@>C=}e#PTowZ=U?AHuw+=LrQhDW0a4P~6j<DYDw^
zLJ;GP!c;mo$~rcfz`vR<hE=%X)g!*6{`fd%MWNb7&y4-Mz>72Xw_>QZuZCa9K5S9z
zymj6(ZiY0+CbTYv@a!G?yuA?bg3tmWM2y?KiF8VGHg}i>a7gpK#VuuJ#`C(&_(mN%
zkL5OnzRp`HSMWoYJ4N$0`P=hFg<^3Dzdmo9FCu-<9ml-my35dD^-+}$ISRG3P%G~^
zk&kg*qvlhn?RQ+@*qp4B+k+K|bKXVu=6CyikysntDY|!M-g+IYg#4>;eYI&#)KSk7
zs8TlM7;!lzjARjwWcCR?<^7nRGTr-iElt20>_-!ig(IXc4XcxwARCh#N_)~7Py5fn
zJ!ay}bSOBfPkADuVr5KrWiFas<U=qc>}dM@NAZ1%lJ&w02k9mv_!bp9Wq~QUkf1CU
zJY4{2%BaUL;Cp&}95ywuXCOT>yiq2Eoq>O9O5}vXSZ|E_31ZJR5EbIp6pS}GC$gas
znW+)gS_>t%ig5}esT|a#+BIZJf8I0|kvR|@2K_iyI{Yf}13CuHCeE4CA}NBNBcUi&
zOnzgLxjntUVD6oDcy&m4iclquLqatH)+g2`ZwQgGXoP$XAk4hDCcwXo07k1fr=xJN
znvSIHqT6A29FAO#U1MfF?SdK}g8cCbSW7X#<7N~q6MHScPB$_vO1lggmUDKnkPvyN
z-7G>BU66L+SH<J<zo68=id&RS4GAFCOR)RZqgTU`QN$Nn6R-&k{u_w>MZ(}$a06r1
zDm6AQoP1JVn=J28$~zWLz2~k1SHHX`?(K{_Ix{Y*w0?QZ-Pe-dZpGWZa6DDy{qk#H
zcx}1nTg`7aD@9$a`yUqVGA6J~j>@Ir!=ma`X~W_ju<)l6{{DyF{<xz*?(KhEUAMeD
zQQZmdpnChF=Sg`JN_6>_H@<CIJ(cJhd{{S_^7&WlA)8!uA={+4UGcUfp-7%8t5247
zDrKF?vOcA(Z_&O!z+JPv{h_-h<!xH2THWxQ%_#Z_n(#TL)W76TmDYeaE3Qs@8Wm6D
z^7UlXfYLMo#pn}n!-{>i>NmX)y_;ZyR@T4?zUD^kvML04s+K+<celo2!)B3+%TsQj
z_Wr?u<gU`|pQszmY%#<Z;v#gle$g`%uG4sUmbfVTF{+0`Nct*qGp4!!@>4L|>FF1T
z*o;1l%X09TSh0Qr{7`tNiK*x3(#Q%?!wVWeG%-$gL*QY8B96uosfs^;c<N?sma`_9
z7K?3ShHg(pRe>ZViC;nYrJc;oP#N+)yc>C!TAl&?J%0{-6H)(!<^b{0m;;p(_!D>Y
zLw9ous|2Ucz$880il;m7-Wa!T6az^Er(N{S14*p=vj%eEV+N9BcXg!Y(Q}>G9Xqb;
zl0mIFxbdlv(EV7&fCou%@l(bewwvfq^ywA&H~fPRzJ_uBX^F$ff}F9j<k}halPf`C
z_ybOav9Y0ZvJ^`NV1~oO@Mj_GVoEzII#vc>hviLdTKKWr^6-4Rf@j=lPMWkwq!sR5
zQ5tdXQh~u+8GdsTtV8C%g(M0A@?ksxkQ*e2H(Au66g9+)+664vwIu5{DRrCfd*3OJ
z*A2(5)sHKh;>}wU6$8nN-AcvoM8)2P(<x8Q;=Z`GmZ7{ahtVe1m%%)ahuqZ}0Wd(;
ziVwIx1J3G>^^VN|&bkjFSZhtGT3dL<CKneDziNt@AlfN1s6yHBOLN`>`)i-K68kw{
z#CHeX!OS|NR#ImYt7u@Noo^BT#U;K3EW!W!j48x&6Ky%j3q4`9$jHRc?A#c%A7BGv
z>i|$-xFk*@mpc)BpoaOP@M8u$Fy`01T>M?(zN>vbSzH+n^pGltb7R=0ymR1`;rjn)
z<zRjBv#@fs!Wo7z^*8V<6CselN;jHGX&bu|2V8lRS1@VCIx|IMpDvArZ;u)o)U?+?
zYdDHGyS8TDD_x#Dn<<j~>nNDLNi=M#32d9d!0{@@;2>dKiW4>X&ouYHfd?$bTcyr@
zDTjBdd8PM$10=DXcE#GZa3)^S2Blc*?gu*(Er%A)K56N{KlHF=+k?*JuG0^9onEX?
zI_nkucQnM$Uj%Pst3>p=J!($Kr_LU?R)Gz4)-3lbj?UFhieqPd&#>Ycrr6#Oh&O`L
zIqvI#BslKqc;8*RRF`l!#GCqH*b%q(iIsjav!I&uU%Koj)<O}ZQ)jv|t1Z_h0HS|#
z@DYht86Ta)1IVr^Y9|6Lt~(|J_R$5dcdS`OoA8Zfaez*2HJm^^RPaZDkVCw-gJrcU
z;emn^2J3Lyh5!YQ<1_<>REPp2v_}COVQY#nZT=EAFn*_Z=%dEMoB>mWu4q7@73v<<
z&k>A~Cb?xafFy8(gwl2F8VPa9^d8^+FpB0d;TXvl#aj1L<=9Og3s|vEMMBOiTa4fZ
zs7h=IEjU80wt^JqGJ-h+D3)WKn_eha8YPPoHM1{@lclWdhTV{nx_T5*#KN_Y-TAoY
z+WY|X$ZbV0QRRi18P`5rN+C!xS~;t0R`5fr?3@x{6mtp^d9qoF`dL%G11_S`nJFPH
zfaUu*+z7LUXBTt3{6|<y$iyOto`~4%mZ%rdpzH`~Y>OBgTIW-P*VR3*?UV;CI$^)g
z=#2Pm9vPz(E^3sMyQmMu@#JDC|4X{n;|4tWHa-7qy8X{|BXpInE7ZTEVjqS)E~bp3
zhN~zhbyOycSq~;zbO#<5qz}3!PvheTppM%2TQ<ZycPCo*z|;S+yYfAUFJ9dh?>_v_
z^?20_3CD}TMjktqO`7yj-9{q{-<C8ZTR=I>RYu{{O^9B*s8WnG_Tk~n(w9x-Lzu-H
zA#+TR9aFg(VH`egU6dA0@aVC8$wTTHU<m8nD-0&;-~mPG6F?XOs^BlcQ_~dAM0(Y5
z&5)2fCM-Nq0Qf;o)YK=4j~^Ay5t0)dR)N1YvQhgrb1oxRXi4~%%IMs6&7t|vavemY
zOo)Mu=glm?<Mm3&1Q{eTY=<%Au(-!tK~X&9ZUw_bY?se2i&ijiHpuGKQb@+CmSjPw
z4a^xKbiQay6MW5OD2ur40u~4q7po^n)_(S`8))4zU-XtbgkS<~1?7)A69`!&)eAC8
z^pEq7_1=YmMOc!u$Oo31q;pMs1pJB-OS{NaK?u}jBEsonQc-aLq|^ewg|x?GU?hGY
zG38~7?qidLY?h-;T?9js4Gl+yfQToYS^>3C_Qw4k%I|k^i+XU=kfYzfuppKXl`6|=
z;2y&A+;&ov75dV*hn$-xqx<>_eceLS_3u&6-^0qiu5tNlvT2Lbv?WnDaR0hecVN+*
z@--xVor<p$reyBA<q^f*x!V2Ez4Zy1q&=ysUUa7r{K7+b6F7<b#>G>Rs|5O!U3(sO
z?O8k~)CDW$4?XSgw1cZ~HsN#crnsXfRZ^a6*tmLKX&78Qlkzq!&pq@8o|O6^wkq|*
zWBO^M)Oo~|Dy?2_UhREQPi#+#;(?XgvKs|8v?c5NmHPhs&F?hE>(4Hpeq7s~Ds7Ip
zY=7W+=Q{B=C5tB^+$nBMdfJd|1%_#xQl9$dImHuLJPZAG+|!cjl)OTP1@uS)clnp;
z#^})^>%$=b0YX`QdHJ%ca<6$-XUqQ<al5Hc+wkxa7H*{hoB!KaGeEfh-)sN9+3#%n
zAw6a;nXtc0+$tQy({9>3hPK1N=1S=jeeW1rQ$%yn9l<}NyB<7zIcL$fD2-!Yf5}0%
z7n(dl!xXF#JHyEBnCeSC6?}DKYGw+{6*xqZLOFO9et&Q>qurWVm_Q^+IG&xlq_QJi
zAwf}cP#9GUrmNE00o;DgbV@R@*yI%-Pe0Rj6=C6{e%;l1xL-HDVKPbgs;%&4|JRn=
zCix5^1x)EGRB=>PZ<MR2?$2XMoBR6VmXFSn{}54C&9XW>oO_77e)XojZ!S<cgY1OR
zqmI*vH6pLS|1UHV;w9(*c=*BL#h4I{uI`4d^dAp@6s2bVVttbdm9v0LfT)Vfm;Z<=
zL1ab+5BX0hlx~+P-zq#HQ#QFsP|mm|+~?!g^D6(GGv4V^-9TM!{1^?mcIg1{=LjKs
z_hk@_XHh)RIP;<jfMH=OXSrKYqgqf6WQFIq^^X0H4P3P)tK^EBW^ExWsj%klr0|m4
z=!u9-$UcY0-f?hzhX!~uR9J}Z2=O}pjxA#2XDGEmF0?#M_uA%*0HQ^~*8wODrAJ`Z
zFa@oRAhkNIVjC*juY|<#;FzFMp>_H=NgRc<quzBYSaV*&S@p_9BnUW<hJ*4LxK{p>
z%LN<epkQ6EPEKEe#wWY)87CryoHJq~@{L=DIl{|VF!kihNgNx@DJO%o&_b*AgeoaK
zspqEGS{?9R{xf1y>K}MM>a$RrrO#3`GoPq-U<jUx>O}vfohRmb+R2q2MX$?#jC0Ps
zC+>?`mk=I)%|fEmyVgRg+N{}OcD;7jde>6OoJL1pfG4`h!RD@+pzXXQaDz4N5tULg
zW-(86Y9CjVW?tIPv^NSq_y45VVil2y{lMh!B24~2=*AdCu(k^tg)IR{Md1aej>lXd
z8QBmxj^-4UMI^cL=V{h&LFSnCPd4u&cLw3&(D!~#-|FWdoJsCEr|dbG*z;nd<~%kQ
z@HWK#{R%5W7$dMMij`77pe}%}zn^OQS-Sl@y8U|!bqeIejo{{x6i;ZC0CH4QSfap<
z1<rI6SFgor54tGym}v`KucJ=Hy$o{3mtZTZ3O7<tBI*RSh{W<g21VOovu*x%TSmgq
z+wDK1pG>J#(UdIjR?54R<%3H3;KHd?dBxJF7dsXXe_)q9b<6FKNCIC9;$PxjIGS>m
zEOmUP7qW$=@ZEX1ag?+yTHbTlF1I~$H>G?vi$_xxRm){x+i~~slgjGlmaiRKJd!Dv
z+}@>*ulB-u#8bX-hI=XpHM&thrj6LmRfrEvvk+rKZ%>HIowWqaZnDHyVbsTYS3xbh
z(PsnPWg*{;b)ZZ31A_ZLnB``f8#e1=PC}?ahN$OZ)YFd5Hf+4vhUJdkQ0Jm~3ql?9
z));Yxe9fW7A?MevA?WN2gu3VLNa6XW&J%wT{Shb*u4+h@4P<zqJdk?Xe_2O2D%@YD
z1!g!hJ#+P%&JgHG2-1LS)7VZXD3;d3;hUVSHG!z^CeBl}GfIevcCrwY^#5BJI0*HX
z!Kv+%?(emWecI8x;H|`718RS&Y?t2U>pECqU)A|-8a`~<sA^hG?7*@}A;7@y4HrP<
zR1<8HWnI2{b4DFb-imNyj-AObi`@~)(RBjuY;zQq_&t!;iAcCFEzKP{2pev81fcNz
z!d3f+k0&x{aoW^3xAy|Jg9yvy;Sf_d26#4{L<OKA!RLt3`@80>5Sw?+S^Bn&&z<pO
zKT&LOp;B7vQQqFMM|IRgz+@2nGm^Cz7=zr3>&eva>zXT~>>#9@3q5zQ!5Ab2wiEX4
z+_^a*{ZslBOU}<>+Ga7hU=xXtV;n1&;t7$MrOaY=!u7Pl4Q*qo4rIDaL)8euq(VQz
zx=I_1(W&UwD6PB&a#vR@4cLnk`;rRi8`b$2(HHW6MD#ZZ$NwcBAh_8ed1_ORk|#yg
z%bOn-H9Rh<$(YT>oog1W*Oig1*z?RI`TWVs9;LD;S-DH8+_iA#ab@@F?gz!m!PCm%
z>BQi0qVnv*nI}b+@#@ZpMV;?AY)N^lmmA|<gIJw4x*!t*F{rHv`Ex@f|IqEvSWRU+
zQ#((_2Ty%>bH-vS8#a+bzV4|D_Lp!V^p>Vd8y8<&4z29{y`4(io(JdStwRtQ9W+%x
zsqTC`pi~dsKNPPTd{6{}x`^#{%uRbTPJ1!@4joi$2Wnj_Il2VXUBUY_qDz@C<Gprr
zS6bAAOijK`eM2_Lkf*?^{SX)uSaBVeUbl`xqB3TF1u>zwh4m6GA-`t6=d?mDf)LFf
zt-#_Z%TNRJn+xq{nPro}e%s$tY1CV4URW+2ArHRuDBpy?JJ#E<Ar96c8grG0Xb07>
zwiV1VZO>fQ_=j;#nAlUDX%*XIa$g9<a{-f{Uv)t$%aTPr)e0E<0Fo#YG3gr@ta{U*
z$J(qQhSvd)R&UweDhO1EKp<}3q-n)^F|MCrn%U3*^ae~>o}@mfI2GQ-*0s4Kn_rS9
zyUT4qth!(=iY9T{VRZ)_AeHRqI$R;0ai<cga<obTZo3kmoF+Uf_N6iO7YTTu-Dg_8
z*EMFH5IO72sK(77S+syqD^Uh+0}q!NQ06DG)3Xf*6~K_U0jqK)ZooK<Y-r}Ez54iY
z%4pih4Hna56j_VyP07^}s~HYXyTvn$2GV7myEdyhY#l19C;SOsI=8G*jx7Hzs`2N9
ziAaVEX0u(Yu3b3$7cE=kj>f+lJOkWO?RszU%xd@IndR<;rz1XihQvyhnC{i&G}G9%
zYI<`x+0d_G2dVl*1AM-K$*Pl%CdJY8*wYYi+!Eh<B;h&wceFWO#x1pO1NZ8wk6Y_L
z`p}C!SXqD1GgNHPS?O3&9YzOV!UL^yuo5;ob9QYmG>vtJP@TB6mJuS<LS`UY7nM8a
zSyP)7(~VQxCD~$<UY2Gpx20DtFH5)KI2a@=c!ovIqL|zVcr^4$tI2N;kuC6f%sJu2
zuFcsjEv4R9Sq|g2HgfoCP!9RmZO<({?Fp`l%_A55sMv8E@3iGM)F@mty`UJj-F^;?
zz&aUyR#K&&Zz;`%t(z|wWa##wRWkHT?xsRis~-PRNJpV@MqLedNEdj*9L3^`g@R0`
z{|aNDE*ZiOL^7@E*`pt#Lz+M7N*$c3)<W_dl}R#^>-kWF%_(!E&WMf4<^P7b|D8bp
z0v<qw>p+A7(WRBNv6=62bKA-p;gX+d-<4?I9f#w)$G=hr>1NUsfLJr$y)WU}zi2`l
zPwC%3wPD>w+o$>7^HzeK+I&A|dGasy4oJW2+;90q(|(I#zKfM~j;xV@k3k;NJb=7m
zEn@l-t$$F}{A<1BkyI-NT88~Oo+GWAGix`XtteEI*wdzv=&F!U<Gh*kvKrQ4mU*j2
zRbfYND!3DmjaFEs*I?z)DF(89`6)V1=n%(dbsk=ubt<1K`WE}s^5(dl%R1b`($k~p
zPhEBjZUQ=Q6>pG1dZBK3OZ~3OQ0sGKsK0F%N)8o6Go?b<pQ4nsO(1ycY1J%2{@?IC
zw~Hj(#8evEH41u?g;~*>tn5P<qPhVrQ9m+a87lE#_V;>Dt!%qzSv(@FG6@U!ocd^u
zkm(njTTD5<Kvm&h*op_e7r+z~&MYKTQrldf+h&s>XCELFqa*Uq-8wI|jyOCaA@;qb
z?6|ZVUJ56x0`FD@@S--Ws>UQpZ4o3b!B^$KMiRm4Gn(+;gq(ep^qT4>;$D0giYL|(
zMYR>cf2Z&YQb-B<ifzDD;@iNh4wewAa&h{mF1ypEf~6m&FwQaUqfCVQ$r#a_H_GeR
z44uyj3-V7;R~z-un|NSJcYV_bH2$fc-N~L)4|`65Za3N2By&AXPO5>R+IKwKc{b&!
zP<$`le=WJ=(!(8>626xZYnL4f+Yt+!IKnU`>F6ZO6m0a-opcN;j=`kkxZ*gTay5Qn
zF+rIGI~5-`BWY}jx9pAYKbvSc2UE9HRY$U_U#aSk4;)vjjxU^rh6?mu$kskW6?4!W
z$^KAxZ6`>mJ@Jx%6`Ffrpe=~<BjUYK+&kv1_PLPE6T7xTRHcc8$Welzp4B!N8DX5o
zK5{Z`{YDfO1FG(Yp_57hJVfj+({R(OUj&WP*$9-9r8)3L5LA9{kD4Pf+_@?Cb_lAT
z7p!N5?*T|)S?r+ctg3Uf(BsPc(IIK;L}Yv#gp!xGGypPIEqQdY8e78a$*_I13bIid
zXF*AI1Y9SP5FDXHa#SRXV4&WdEZU(I?T8m0O11VTTX!j~yOOOhDy=U<dq|sfyYISF
zo|7rqFnQXZ7SW>BB~`)p{E6EaxBA2~kTt%7WlB5sshRdhp)n1Q>H%W}B-*6|%x4i|
zq>E%SDGU}#6@ootaMuuYj`1W`hFRKUq>fk@5*oxszD+#*KjGoms1Ew2@W>bBtv-Q9
zgF0OFgHUH=3lgDR3tFk@k|0$W@%+jPZJnd{swjzG{e%!TvlUHHle2CSBJdxfXBZ%`
zUkd{hZO<lz`F46Lq8kBNl$aM$ppb6!aTErqaw29oLDe2a1j?$B%6%|&TMgWwR=STU
zzN6pmR(ux{WfvDtJ}#?V8d)hzl(o@w*J}O!>xr_Vg_H0U(BLSCkm>O8V`OcF4`^q}
zX_1gk-lZ)Q3h+<l`TVgdUN?`KuaO+01W-eM#zbB7u77U6R|=^F{Ox139OEmy*iiRO
z6MGJQtXzA(;EqIE?a3fll}DH%kFd=3<iPGv8R(ooq*?IuGXvOWkW3q(r~Om>q-_F}
zDeoMfr;F&E%7tg=d;t#U00B%bk_#T7@~kpAygIXVG3o1m*Vm1gkK`ZXtGc}ebj0D9
zObds!FAtxnw4Y5-EZ7<ds|@B2T>9LI${s*yx->6gly%Sq*aED51*<OO%sXihRhE|d
zfNlq%Td6#&N#`E1bS_bL7C<~SoE*BS3|)LQ^irbwQ_9dw4{Xb}WX(XLW*|O<LuMeq
z`xK7dSe*On{^cP2C}6V?hc3tMqti?h?)rFRZ?bW-(zrR%h^;LK;?{wWKD0?SFPnHF
z{ks)IgVvmpCHNzFUL$mFoE<n|gTna&%o{PT8mhsWhEuQVSQMDjH1}f_+JtSb&>U;H
zgp4&|TcPsc%%}(btc(yVS$&<VCE&bx{Yk=<>;keNp3Pa$sarqjl=<gg#Dd^!2E(Cs
zB0aIp25tRYbP_LB(^fJ{1nB<}LX2)REpR)CW%+oq0MOx{swvY(JVyy`T9FoT(;#^|
zSAO9StPeh$+<Q*hdoHo}#l+zG_>Kz+_r<vNqTs0h3~_UYSYJ5i6UdwaE`X*AaYp%r
zJ}+q`QgxIeSpPXjp5$dD1|aH_Gx*qm*&mu1ABR8?8x>!}e$`M%5S@aOWhg6XArYt$
zdO__1(I4ffiru(Yxi$vW%Yy7Z<2W*n2r_I6D~0u9jpu;~D@*r;@PZ&gu0%fpDrmHx
zA1bJ4<Z7gRiJ+oOgNowDZ(LYuPquDTTDJ+#E77_q(YW_PEa5pEcOQvck1%ZHfCUXW
z&-`0>V6Q6Vn}2D;4f(psK-XvqsB%We6e?W<vuxm^bi*RCn~hGBOe7<p`w@@I&n_|3
zshD6-a)&nu5r}a%NOk{FMOk{io*~Z?M9ISRh^ZpW22|-46B`+)rsgr_jYeUWPMb8G
zA=e_oH3AIc^1+%{O4|>alG{!w+fF>%b}CVJTG@7L^~h33vb-}<-WlI^YT;zO?6giz
zu$?Wa$wwbrr1CQ+CT#zrVtX#NAP8ZYAu~~e8INWJBKFMqI|Lh{x!G7@0^U*G0*AL6
zk?WD;EvmAcs|@GRI2;<R>gHcmoOY3k1Q$(O6(gaF>45l_8Xs%5k0n@88-Z(JFDf#)
zHO=#e%!RO>aVwd7kmeZtn@rcK%6XSzx@hVsGI_Pea2FTETxu<$n(|s%S)_&Bu|cf`
z|E-VD`4tE;Nu5<F&w1M%usv<t4J$8Lh27WzOtT>dR#aTq%e1HLFV?z<TPQaYw_!tX
zkpApSI7aqGd=*MzSTH$aur?Ieyl#IcdLHJ&_JX}_op)lJV8<`<cxb%><r;ea-aLB0
zTF+6+D&cg5LP|Gl@IRxgUBr=T-kN!whoG~}a$K9ef|a=7J79M~`{=Vv862KC2OU<K
zB1Qc~f}qv~vEjHuzsjWg^~vt<x_NCjicJM3HA7C|YtD;T|8!=8&<F$s&!f{Vm5(`$
zBbjixVhDcoHz$J;vC(|+3JLUe1_s9%V2Q@3L4Zc)v_a_AE`S~h);h<&4SF-sMjXCE
z+8$M;5G9|wo77G@0%eu(kW)D^t~NJxb3Z#?<Xg`nLns`!^sm!3<QmyQNeJct715<a
zfq~-TBO$7ynL4Po@ON$YcXM$){w;Wl-VXRtKJC$qtzT$dsd*|EKf_(Y{2(6~0Vh<Q
zLl7Mvqn(9?{VZ$XRL_?IwSzcA)d*0n06PV$b%VJLsbxi?DZL(~Qq)*L5&&ffc$CZ2
z1<wQhg$6=z2E2`M_yM$>a9%<eF=Vnpslez7Ze}2B>L}nCV}=@X1yD=PErPeOh*EtE
z<fIq>>|P}HoBPkuo~#1Xe?>Dzfd-h1*66IC_$kqWl!ajE<(UYU0CZ@@B+kd>_8G>8
z`jWHeni|JL<=SY-kCFoQ)gYaMB0wC+T0lR|7L?QK{#zJiI0t26R5*KSP^F$g(nTT%
z!8@wr6&2WE)DmSqF{TJK%$%vtIx?K=eS)(o08^r-*bIb}?tIdRVNv2gA)M~@qrW0J
zT!kWWs>`{IzgP-sM0}K}Bu;*%X5$DBt(8B+Jmf60C`>>C_X^rbs6d+p8kW%dYW)nP
z&f)CP33_5}(1jSBu!lNV1QgOKPkffF0S;9xcL4@SbQa9SI3E*|J>G`#9nS|koRvXk
zd|EqQmOa64lFmjo?E(;-TaRr8;6e;GgH6%lGDhRZy8qyqJRJqj0+4763o+$XymAm~
z@EZafk&OZQopEWxQY_MoLtt*fILjXrC+cWcUvls&;bMWRNlQbhlsgN?3)r?*9O^>(
zGSsvCVirq@1&lV@7sLrDL?y%&Q4jN?SlH6)kno+GoaHVG!SQS?CN`hr3@)=)`4F$H
z)g$mI;pKc%L(nNuGHuVI9S#haNSLZ&Gtg6)I5%O&#*?szDIb9#P$iFYZU<t<>x2vx
z6#ZVn6h$<MDkOk=pz!Fi=S`MQ64Q>+fIBZbB?ePEpm;cT(|N|Is#ulLR1uS?FWW_g
zRCyL_Cm(TK)iNYk>zqfjx%D&zc~x20jfa@5fmBQe>F7+ACt%3t4Uce`4S-b$-Lk9$
znT`?CyAclG^yd}L?N*Va2DX~KL*RSScU$4DsY{+!6i+qgI0iV$dQax(reXtb>vOil
z!2T3$1LvjAiYx@{)2~oFwgJKE%mT0aRUi|Mg(GPet^j&Ll|()Z#Inea^6K-S#o9mo
z>R4Ex#$*<RxuYE+b-A}UG!Z3i-YeLs-W#{X37Nfu$&y(~6NA};Ft8*mLpZ~8?HC-0
z<Z!#QMXSRB^$BJLXbOx!Cug82S{Fk-yfxQOV_I;Fr%wmZ4B=>Rb`{Ge?em|<*1ngC
z?VKGIRn7{Ki1tRsWal%LLd;95$Zb24sz-p)Kxk}kHfzD+iZya5OlNU(1E;1jo5`ON
z#E^WiRXQrTpGksaOoE_%WdeKj0exiE6xrs|SU^T|a7I`rUmk}=3QnrWfil>hU1+VY
zO~fwe%vPen#x7&nK)rDs6?Zr1NqiX%KyS9Jo0B+$9Gn8<Ma}}}iGgNu>jX!jR-Loa
z4<r-VoB2Fo7~Rd3p2@Zp5F$`u7>7^L(Gxc!u&KF*KlM;`JtNv~XAH*I#FWgEa*xXy
z!s-IeVOM5>R)EqpB#(m_3sA8<<ikuA=auc^{E5#*U7v5Lq0U(X6JbX}kV06+X@zlS
z>!vGOtmlwFV?|SPj<wQxfUF?x6AM@feg8}{wYmL6p^(2Lgau59{rp9T^uTa&)_)tD
z{}Tj(MgW34V6NQJk)`{h-9HFnJvkik$Rt+~!dlxzEIbuub3F3QhzR)%DF#?|Dj%RH
zvJsGP(2b<L*u{dC1*ODgF#D#mmh$`fs@djI2Vu)HveS#EU5r84>;MO|lR2nn9~n)T
z6N{?0NX<ytBM6)*N04d3Z7eqAvXvsb&Q|KuBDoXthtHG9#ft|Bm5-aH?L($Nt4wS=
z3iU#&b(4@Iey?>0O!O9AOD9u~n&mph(Vlc{#16r$C*O7KfTF)`@M#k%>G}^O`;RI8
z#~$^cNcc`F{U=t&e|2nm!>`?l_n%OFClh6mGNpXg3&W}M)?|4=DGz+Fd?U6KYwUcx
zZFT&ujSpN(_d%ucAdU=4xf@sN9=bO^_LRRqe0Mli`a-I-75~3|ezoeiKCP7Y-ycv)
zw?lVaTmmcPs=9BqEsuYF<H}sZw`I{qD#Plfx$l*=;#dVwUDDH{cv@CAtd^}duAW?N
zR9bhu>lyq2vaPmEK*EtJJtRxNb3c+`@#se%ZkDP}VTTL!?jKi_A1-pRrAXoZFd!kz
zkw6(#cj7n`Z&tD%f>H8SD4*ZfovqIsOt%av`Jg2EKNtk3a33Y*Rw1LR7|GxG(xmV5
z??Bo8F)0ddT*)4SM%fgMrnUSaVfwh-bcvEy4@jI~wx!mXOy~112$1cnfwmuU?O8bz
z`5kgQA+^fCpuUInY2JR-^tN6z$jw@zJS`$g+0RuTncL=FA5)&=jy>`>SqT(QA;qW`
zP!Ky~)EK_9(nFRty6(6k-(pw)C~eSg*QAACG{wltS)`G$C8uTHHSc~)Rk__E$NnPx
zIb!4zD`M$RM3AV#*ZqzM-;1-~jdp5psq#kc7bzegzEd*qF~*uN;V~#Ma$33@kh9`Y
zzvlVk>&;p{vcHg`J~M}T59O`p19{$%6?;e(%EbT`E_E!5vm>9)0UMhZsDmLjHYi}o
zDVX}+Z$OqvIG-=tvJ{&c<jhc2ZEnA<DbVo*f7o9}SGtH^X|hEomil5yEJAdpCT%B0
z#8m$-P%=vsh#YWE;5oA54~<>Op|PL9YD6c;q9je@q1ru)KrWTqphsrLF)uEKJ)eGr
zvZCu}HALb1JRkiROIuFBHhn^eVr2`HbgAARENP?Dpt4nZh|t=r;f&Y=W_YY)Et+-;
z0S+tx)+xvSF>FBP{~ItT7q*7nlA{k6zyvMHG|b0{MTi!#fatVhPBtJ*VF6Kd=HHCo
zKk|)=<%`M2KBciQS-a`qjD94qA;Me>XTm&(SffKWa+NLr!5x!(R)3(Bbx<-%__3iX
z7CYE=i{u%^-pDm{Bl8V5_+f3foS|3pr<dsr3z^M<NdGI7Igj9w$l@X371lw2O)>w7
zZtNiY5uVas@WF!3Q9TZbX_D!{4!N6dZFI{T6A||#_aH27x*jDyjA1W(6J{9AKcy$-
z&B)=u5)U*Cqy`?SU2?b=_a}<5d+Ea>KlbG+ZA?|yq#B!3Z5`Ma<EhhD3YR6D)Ah6@
zC+4?D;LNZLbI7`+qf2pgJ?b8MYB6uH!zs47am9Pzr1-Za{Rb5Pfu#SOg8!a#<Q`Fh
z5~_MvKmDLP;X8ueSL*^ejk2yMS+`56+m)<4q12sN^unjBxo<V7H1#K&_B?Fbv*xxp
zxIS=6&3l(zPo40@O8MGXMigIv(sw}d9e8J#;yaV7?^y2np$(_P!7i_PFZ?N-wHXQN
zGF5q*Ic=>j>?p>W6(O_b*H-70=3U9=b4v5MR9!plIsF|^IySAG{-MoWyahI*$j&J_
zn?I0{60BcUtwP|Is5z7Homq6f-?8h#zC_1K#nHOxT-s0j)DC^+7vheC@#cdG$HB#4
zc<gH<kF&aX$F}>k?=-`<w93Wjsx&mw_9HEAaX5tFTr8D?tEpQ&@z_`Qje+IY67`$D
z=j&fGr79|aHM+cib+c06o2=id)bC7G?@CncN>w%{E8CUI_Lb55FJLSDWXB<;<Ip=p
zO2^T6E05v4fU3=?zP9zq<I={JooH*@&UapZRC*S}#Rt9=t5*B;dH?+prEULrcRnh;
z2)7h`E(6yH{t`}j6^*IdK&oX&s-_b_L3<?GZ1#^ne9449{^-LJbPZee|4Dtvu}#)L
zt>`$mHCKU3d>c`owFcacT1?nc04C{*`m(gCknvbHrVO8#tWQcI2k4Nld^hDBw9AHX
zx=vD*OLvVUDZtm5vc~!$>(7whY)DVMlT>KKppPjZ+^ziGd2<v-o${X{HBJ7!E1UY2
z?-+K;)ODWFnU-rwG(J~8YS2^Kt`joLyRfwp;l8{Jp>Si*zYt2;IPXGeQ(h2W-?nQU
z9yu$L-Q&H_#Ef<IYiYE)g8Q2KC#h|#R&w_D?V@$H{atWTD$IgM&%$rZ^TKb`9qZ6a
z2<bXva*Ky!yfe5LnKQ9x5wI?lfgGOHNVNN11h&-T_;Q`cVrGWElJtkgMzFyqE-Wi6
zhKvKd4H|U6xvF203VfNCCk{ea&tBI`gt(h4c3ueYUSc1s^TaZt;PuW~sKFJ8p@fKy
zr8KH)q#(bS<yw%TV9Rvf?<Zr+hUb2CTr^W_3PdBMJjTW+q$*|6XNcu|ywRVrPkMyl
zeF~y17G8y>{Sc+WA)UmfU}3SV9mJ|rs{gvsuttNoNY9ZiOl+H?ZoC?T44?f;b9iFy
z2z8b^<;X(S?HaW`4ly9Az-w{>x}iM(Hnc}*=23@ms4s_?qjePXax}+uPZq5Ha{YM>
zb|hd5=u$mes&YJ9V7=N0z?2D-sNOrmh>H^C*s=C~jGVRrFE;{SZjDxWn!iq?{k_5A
z`__A|rLB)@;cu~#ELztPOZsA6L$0&VKTZ?L+(O=p#;*6=`GjqI1+|v9QMYZ!?Vn(D
z2#@~5RQ)ol&U;a5!?MBt-hoRG)M43@bPOm5E`7x9!sa%=gL2az65(MQ(-BS4w3B{>
ztj`uAjFc`>fp=6mXR68Mozy?O=(ZcTbfqrV9v!<j6S=`z%mtrkMw7N_To{r(7oH?Q
zoglRosZ9bE?E1(If7%NJF4f9~MVnbEXxaiKAjG3M97qzAf+2=xhS;txw?*<EipL{E
zsGYZ8fa3rQPs_38-zW+5vj$>m4$JMTbUnr6?jVUNZKRh?!17ix7xUc>>OW>G%7;*y
z!!*jb@qooZrR4CZ96oS{4*UB~f702nIQ#E6K638I9t`hWU0)vl!f?iHaUM23wSfD>
zlAx{;UQ&(r)Zh`Z-2x1{!QVELhZS$?3wHlGqO@&5E*tEr180&4E+_{sJUVa*xon_Z
z+TelJjIDbdbvS5B*>*1F?@js#6#u~Y{M!^y19suFJ_g6#{>Z=ik$21Ep1rB&wr{=m
z=4&Y&QP{FYY1xu$YW-H^%}A=Q>08}zcBk4plWp6Tw(U>d_TKWP;^pfPO9N;}dBgJI
zN3FZxE!*?cv!F9(4=RC!#w;>Esb%}q4U)5E1qXj_dhBjZy0<9qE%*06au2;vyH=Qr
z_pMnhwEu$z4nXjUJxIGsIQxZps)~03KY~kUPMH>eY@W)&xwk?_sMuOam7I~&kH%Gl
z|1HweW<$ln(?+X4Ek1H_ua6Jet<E)HFCYWW=KQMZjv0Am`8k~vM;^4o<|`W?akKVv
zdaV&x=SaVZeeQzP8G`kI`GjD7RH~?2F$tp>HhmUS1Hs%dd4+x=OPq<7D9C^OEb=DG
z>}O_GxIND&0XoKl5Ka*AkT=FP9CJSj34)N8q?=WyW}R|W<$HLpv(c%*ab#dG5S@z!
zE!2)E8(6b3E$d3s6~oi96J&ctb{^r7=4Q?gPmH`g8iwTL1hf!H2uTDVtfzByVnpPV
zgl7oh+(A^>>DI9eU7J$WmMl8-u;|cZoUDH4kz>pIMH^P`JSy6T)oW?_qVqAPRqrEb
zKio%3H{Wkec=yL0`ybc#Cu?^rwYwjjNz|T<J5Me);3lFpB)t3Lj(v}vl#O#6bS9<S
z?@uMXhvSaJ@4Fh~)<)rVmld6fZj9y-Xno20Do;cs%P*|LdDj&zaM&@}IE4j_V`=d0
zlfdZocL?<TYzV7^y?Sn!K8*{hK(t)73CpEZUGpx8yFZ1x8J3^$$<p`i%0`aq)7h}x
zYRXPv!=x>k{(1p*!gZpDd6%|G)#|PN;(S%2T72CDFG%jDsu)^W${%2`e=f;0Y0Ams
zLz^DLYDD-!dqB7+Cxy(^IyQZCHth((6osCIb2M|ey2vkWrSqELG71w>A-nr?R1tRS
zrvMFU%h>o;`9lQcZmQ5Kl<e44M6W{DPC>w!d>-jnX%hS|NDit?C!oG}<YK~cNjY-y
z!PsKO>rHo?;`JL>hm`t0Rovs;89#DSaa;mvR=1~yTf4^&z;=6I@4ed_ujyJXQ))IQ
zTs;eiQe~CNvi3)1?Tfa@I7Em%!<DMQqm2jObsqvjZtHwpT1mcQU5c+O>D!_Bb|iiK
z6yLst??9q-2$Z+2Wbw$mo@PkB$~$P6JMY5Dk3OuGoG%Gqs;{&i+~LS^U8eD4lGTG*
zkR#kF=q-WS17AU&JrFQF%U7@v>|@5%@r==l3YoDN+G)W^#0n8h4f@za)*^OgfN-V2
z{3t~3gfdG$1Qp72r<ntL2!nWC(R5uWhUh)@!f_(cou4*a;iPR1S-wukqGa>dNvf7J
z4BBZYC>w+?G*Y;bPAVk!DJ1ma{Ovi)I^E|D2d8AqE!3tW?6_T&Ep-;K!+S-MZ>DqZ
zH+goSp1uluvgq_A7O`1UEoO|qVFky`b#(bzXtu~zQ0<>mCYQ+Cmbu+$=<vOple5B7
zGVDKg?qas4q*5WnJi<Pqv74i}r{zhp_JN&7U)t0&*RU@BE`JA!b8xm@6fU8}(qlhg
zTNDT>Jh%0Xx?3tLo3pKlo`mga)Xf%<6YM-*9mYYh&A=`KoiQe(Wf`M9u>%KoeUO0!
zvGt+ogmeRp3Smu5uQ8xI*k7pMsX=1RV<CL!B+q$lyac7lzoRVwJ>7nSTfiYy9JEaY
zBgAwGtVh&s9ypWV$Cq>otqet5aioci{h5rLFjA2G{~%tJ=ookiz62vtjU6R!PU8em
zotY3-mp_Yo{UPDeVm$EbrK&cy?QnA2g@@ZNBper&Z5LLLEc%kp2F2Nsbap13@cg-;
zI4+U|-o7vlH3RMI&<eplc>>}1xjx0)mvC>Q9Uc0gxN1JInW03W6G-5&Prm-GN>OXF
zXundl|D6_aD=A0$(v4)*W~FL#vT9htf5-5mOZWIc0jYn|)2Vnmlb*wh=kQY-asCde
zwryqe(l0CwKeoD()=CAAt-gW#pZ)F**q}VJo=??pNY)Q1^#jRz;Qyg_TH<ww;obeX
zYA<%FSQ<s$tL+PCfyQm_FQ59tsgwgJve3p-e@7>te)Qo+$$3d&>0fO;T;|BxmsEEo
z`d@(oa<McN_A37Zt^s(8)%F%(D-~Cen3MJt$j)LqFMWbdACLk<CfbYc<9uZi3!D<?
zYln*t_8GlpqH{ON2!chxrJ6a!d=c?RvguweOa)9D*YHIXTw%6B@S0uBU~hk|)^{8*
z18^ERG}^=>+oFG-Z4u(R<{hZbVbs|@?=D0;3?>_ZN7{F1-f|0jMa<hle_SxZ@F2`p
z$XO}7NSgN`Z=JIORI8U(D~<lZDBvhsr7xFwUn19fHH3i+(+`!Qeqw_P<B9jqg7wnr
z0mjkABZ-+qm!TfNihAgL8>>2;>+5l+cpjmz0I$H1qNEV5xZ|BKo-Y~IDJfzVP#7SO
zUgS|aUs_Oc;3apikd0d?_5*lUJdE;uF`GP;j_Un=Zxi^)l0wRdfBbR{BUN(U&z+oe
z(|R1O0}Mj7@vmZSS_F(vi3TBnjNd~moH{p5rWp2M9To>nmNbS~7%u9vXMr76nkmH7
zs$Y{}hR?$;H%wNUbihwgbK@Ap3J;hcNIyjCg_sQQ14zp?OGuEj8?fJFyGmgLtvdf)
z&cn)=Nf7`AJMxI)^l{|sH@F|D*-#wzb0FhPZVQo3y#*jp<kUo)m5&KabKye6*5ml-
zSF`E!AD_M*h9;yZ>;1&JX~mE^BwM^^-40Z{Pu*sN%}cY%brpz^EpTpK?9Om=;%0af
zThhYjQcy_JBnYKIhy?c7g&0m@&=4>OpgLorqpyTxx5MFxv0lQYT2OVk%V-O1(c+1$
zkH;C>Ad&OayN1`<WS(N^2I@_y{nd!<3UQuR^E7x|EQl#p>Nd7XR<%I_65wT{!BB1~
zs{BOvcB0hWA%5OEOmz!epCLRO3TG%_QUD_x{fH6D`coOlU#m0Mf|xBZ2XNfGI@{;(
zVuctw9_Aa-X`zw15*`Z@D6g-imQi-}&z(bNPy;~^2CHB=EKFdV-o5}wgloYe458ZN
z#I9uBR*ZE<Z&OjxDdMAGVH=#Hy*3Twp%p7O+mt6FH~hi?M>y@XO9%KFfHx9>W7N*k
z!W)A<a+`_paY_PM|3PI{*c9S4<|Pdwj)0DRnunG5&+Nej)Pd&}p81Am3y2}MOrJWR
zaNiw0N3DOD#}j~{Hu3pHVTahyXB{w!8qR(8f)SO7`9fHX$Bg8F0+4C^vv8rJC>^h8
zU`C2R)r|&tk<8k21Vlta!TLyRM{(2jYcToC)vtZr^0VN6c^_vh#e1RUA>Bd-Qr#dE
zQ9tUXX>TfA@AaQtnYnjp$(Af_QA%5qo>ry*q-rG9eV!a*1=i!qK~0C<KHMQlJwo0N
zv%>u&w+o2J;x72PHp|0y5M&dj?vEqWT4KHC?Ri_ilUhz@rCQ5t?eFb6x$@eg7tH><
z;P-c-(Lcm@Ar>l6TjnNi^3KyT>vKp*DGa=BQzVjZ2}7{|ou1eto~)?EN{gy3jJ7sX
z7+Y@rHHFdYBv2;SM!Mx!x<(&4f=u4XRsdbPK7U>rKl;?&Y;#gah1#bD1*NOR5h2+%
zk}7aLMIY<*WFpj%vske;aJXuW#=A2bqKNfe79aBHi1nO6kfYdrKW$fS42h5BiEX@z
zg<NF;+q9@Wi5mV5CQ@`7poCT2L6daQg!7ghRgh`@(1KmH?TQ1N=lbKVd$H<qc3@Q%
zuiYFU7#17n7Eugr_^=J@r`o@0--4K_4f~QC4l5fDe{aK4#nTEM5gqf5BbgNM_SDvW
z@zRbJsC_m+sqR@FQK|<YoJ>?7g<7Vp99kORkO^v<vhsNK(GQ$b=P^>!bPPN#mzp-;
zuaECLpJ=>*9sHj3;MB>=$3uq;RufX|eFsc&N9$ksHsZVpNZh)Ttpg8R2i9!Xo|3<6
z9e`&+MPs~Wr&6&KTNIVmr&<S~5h@N~NAsQ%tTl_VV(e8sy^l-%*iP`lOmhE=%KjG<
zrRRlFR<TsogBq1qKx@Xc8jHdT7nEhCuJ?;e<7I(FarcKdbLmFN2%RsRp7eZb4J+A~
zO?X8Z`mi?XXjZT{oo8dJv_4ge1FO1Hr5o3rw&Ie%vlL;G+CrWBbP%R)D1xUCil`-h
z94(yJ>{3Gy4&<usO4bf2wF8SKsg8j~?;}SmGOyl{tlIvlYC9dBQTxX3ukBuGQYtpx
z-~6y*YuvLnUa>V*=l|BmH#e>}DRny@^eJ`67mxnRDKx)&2iC@vde5V(J)b=FUP%5u
zUc)N>eoMkV@YvI~a_WBbyPly;BPyNoOW1kYTL0097ftADc6#`evf^V^4so8#r{vGj
z+#Lo?%6svIQ%r~t9%J8Ic9y{*fZ33~;FU3%h=5E2dzqx5X*ZpyJ2nZ_iR0C1t%|8J
zOV%GUi8f?fgUe*^pSF_dN+wmCICZN}FiA44o79lW>8mhVkxB8EE~n^yGuVV7+DE6v
zQI53SN&5^Ra5T&{K3yTot~%)&<F_y$>_wKXu_*8HpRVK2w>J0b2m<P}usj}wl!qoV
zn|iQStiXb_h!j?@v`kd><XRr8D2mT7OBZXQTw!r?wT(~o;#1A!21?&gH?sSXU!fZo
zvrwkfZ42FY(CuZq?Wfxzx*efgh;E;y+po~=U()TD>Gm6R3)1bIbo(v3k@$d*gX9Cz
zc>mM1l{g=9)WLtG&wop||At%IHa<BWjImrx82hq0FB|r<!i+W`68bUPzJ--!Y*8z;
zYfLyuy3fd;F`L*NCO`#rQUQ)VP*Xy0w@<!<c=#_x$+|3KF_}ys+9gxnf0EpPAvwP<
zwf&_us7Qm~ms<W(>Q<!gzma_3ms%12eX0BV(uVI#eLpfgP39j-xUJFc?<yrz`}d^|
z*vS@GE}dHOB|M!APQ2AL$D6m^pGj2jjZ2k4F8+>{=$oI9OJz$t6H<4^?lgT0r`ti!
z#Sa}_;^B#{cFjg1nHsaHIbPEP<Y8*QUkemqYR<UKrk(MsZVKDE8l|wE8JER$!n6vb
zTl$UfIKIXYA9y5}Z|PGBXVU^<X^$^~O4z-oEz8GO##Sz_9$EQ}(y(PsLP(}vGP{3d
z?lnP2j@z0AuNiv%(Ph&)iwW3{?wN6WnaRHVQbxkhYULXJWV-g6+ET^XU7CJ7yT$MB
zed2fc1^#_vb1iONvfSOdG`6@;vDK~F5IJ+e>@oGM+|Ee&xxe*+<vTmq=rPk&ZmQ!P
z>6db(U&;}`Pi)S`jxT(A&4%YpcbjPwN2FhhNWT=3eyM2uQqkL%Dwf8UYVPh|zM!~U
zR<K3g2F2F7X2a*q1(Vd>_kpwCWKUJpFP~pNva)UYv{DhsSP=B2+P|_@sqW0!@B#!|
z-?lRFW^bm5-W(F_hR2o%macuxyV9<dZpct37-YM5%}q~x22B1`X+_3@-zUDt<>+#F
z<>K<B;@g<9Aqd&oOBQc0PApe0PrTV2FX>Wjfwdy~GHJ4#E|^kf^%)C4^lrO<L+L#z
z-k#VTYc>kbly5YZb0qvesi<DIEPonwo9b>u2+@POOc6afB)fCXNl%|KZ8f<#4Sw^|
zAcWJb712|~RBx(J<>ZPUsZSj^{LY2%w*B$Tf9$0ms>gW5U3H4BehpnzpV?DoDqTH%
zzvBLl_~s#{=U_%cz&o)u`pIl5M|x@${r2tVUkne8Wqqc**i^Mzmyz)EP6hvbw_=Un
zGJdbAij&cApeJLY-vful@455hcYK0>xpVM6(_UoSx>~t9c7J!gZ=Vv_pOFyo&Y?B>
z$yAn@E}2r5HOm#tH{!Jcr4pb+L59ZAYo@itbkvk`wb0k2xnGastJ~ziUwMD*!S49>
zqsr!E83_U3J-kLgnFh0|kzo44r{jaim4Op9T^qj}qUqY0aZQ>i<J`{WFhdRaJ@Z-1
zOD2FO^%^}q@zuubuqi1(h+Z*XzFI>oiZ~FYye<QUp@7DUH8(%T%sWl4)!6+*59;Gv
z4=bCFtVsySylUz&HF5s*+tY6tI}1V#6~bHQoT<X(O;yz`?}b(~W5LT4Tlty|znPwP
zwVw1#ql;gpUbEphGi<tQGBt29^za0IU%5QCvKyy}E47=H%KnUv!U_KBmj}K!ktyO=
S0IqAXSFzPRb<#T<4*b6bgQ3{~

literal 0
HcmV?d00001

diff --git a/v1/core/__pycache__/single_type_kv_cache_manager.cpython-312.pyc b/v1/core/__pycache__/single_type_kv_cache_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c71bff9dbb6705ee5c07146d1d58029d3819d2a
GIT binary patch
literal 29272
zcmeHwYj7OLo!`tpfW_`&cYy^!yg2{?5=#OgK|mx$krXLX6e)?IB+{}CNnS2717gX=
zE;O^?16kNSnT|n4K2vvbL?`#arCdJf=)2Q>NKQ%J2UX=mt}2&gm!OQ*T35%bIH@=v
z67WFB_EqKa`*+W47Xu2C<qu9}3h3$S>F(*r|KI;-_x`)uTEBoR<@ra+J(?i=Cwefh
zpdMNMiYN&02wxCnK^9ZO7~NedamqF3nsSf1MS6CpJX78=FN=FpRa4bt)hzB!`KD^d
zYFNA~<(~?S1z5Z~6`ZOatDOpsh1jz%6`qQWMW*V;>Za<)>ZhV((W!>9hN;G}#;K;U
zCYGlrwP~t(tXULX!ZU*Gzahv0#dXKcTRGOkQiDjXRa(r{R+bt<YS@<A#!@3lt+S=J
zv($Q|Ms2AbEVTitjkeTIrCw=O8u8zxv?&p#U1?A{lscs|Sv9s<k(4ea+Jc7R-a_{Y
z7klcKn-1Vf-lRn3W~F7qBe&e}jBU9l##(<u-58CzO70_19W8|t=e4Yw7|%{A*~yF?
z6H5VEnMll}vT|}fi$~uX<@FgQJ+2_`8JClnaj$tQl^MVELMD?!HT>a3LYpiFpL_Xe
zVti6zuVdAvmZOt1=}U_Id}ch6I+D#Q>1;BSJ~OS1m+FtI8BHrst2;iEs>l}5Yh-0=
zP9>(!Cs;Ic>iHuTh0mmtax#74i^;T{xk8!H(CU|{@mhAA`fOZ{dSvx5gEmDN6J=q{
zC5vP38bR)mU5ZC`D_+^7RLNfaSIN~Ae%W`!J60{%C_dSbw185h_-Ul&Dy3?|CkHXQ
z0ruAR2IZ>cTD%FG<*JlgUJh?UcoPD&gjtRBl`1)cv<S;h&mOrB&vi<@T#xV4mppRx
zhUbpnfw3rHp`Nw50rfVr_B5h(O?awePt*_U&nBgb_eI%cv_Nj=urd(=Y<P`2jr&+L
zYelQx|0=l+EoqV2GiygXo?EX~$2v>RXE5w3<?OX-MW3xxiFD$EqRxK9FX1|pmJA@1
z&L=cQ8c!uOO`6E4QbL;IS*7e`A}dWM(sD{cT#+tamc|K`^bAt~9adQ?b0Ik{WhSId
zT9Gu&a&iLCS$vxk69$Y)sl+u!9b`pHwU;i(S!Ho5Q1YKA=#5VUd`oras|#voW;&jf
zOCfoDI({XirsTMmoK;Fys*;^i)1%{F1AuU+wSfLt|2Kkngq(O0_sT0L#Lc9f2Ty=E
ze&vLVE+cN;W%1H6K~NiW!d2(`JhSzJFz&L|Dxy}irko2;)GBsmYs?s1dFknn-U8&S
zGTtTyJXIS{IX9ks=9B9pzF2u7hgst_SIj;8zt}j_T%SxQv&lpX<EF7`Tn{w(%rNLs
zFKGMC@|0pu3C-4i=`4c=+XOPm$xbFU19+^;sJJz|yexZ`XtvAqnV&Ico@Y<W1W08d
z$TIL$r;q-G26Z$RFaV37Mr}r#N-K@pL;=B0$&*TI*;1{lydKYH;;da-DUzO<;+>Ou
zlDdiV`qNkoc|s`=w;p2Nl1Ecg6Slf3Kl`3WU!ft8{{DrX*{SKB)5+<9Y(l-DWCyO!
z?0tOSrM=3|RPy}J>1$Z)(>pJxQd2uG5A7V!sLD=_A#t2ADQ*spj-7+k*Gj&4Jc-GT
z$7j3Nom3-B2il>{Ah<59v<q#0%dNW$t-I$vZ-tAU{qvrCzP4f@yd3B(1UeV$?gqMx
z!N|8yzj^xhR|~;`Z=Ei7Y^OY}#nv7w^3X3F6HkkOm0db|mZh%*g`r`Jb=>blrT2WD
z#kSt%wq1p`UGts~ea)-*Fa{9AOiMqZGzN1DLw-p~Yo%yfxe_1GOij;Z6@A3DaSs*I
zFB(LK+JA(|J3`h%TA-H`+TPI-aL$wSWX(k)=QfaS7RX{t7cQEpXM9q?0z%8Ry~Lc?
zLSR|EA>`c01Y>bF^37G{yt%4blsqHET!}wIQ%y{IM#(ZLM%T|PDnTy?I4P|tvLZ{_
zjC5X+5-F^O35<k}REnez+o0d9>Bt%kwT71CjQ%X0JXVfk*0A$@*-SQ(lB^c-DM2%_
z_EWQ@gruc1S*b6X9#72>H8&f<z#4(QNJ6C!s7gY<W_2W1(S)_L&D#PnkPI*|hUVgo
z1|pQqX7Objyft5+R+Wk5RYsYR#WqGSF&a^^kkQIzb(Rmm)w*#LurPlFaKrdt{St!b
z1d(Wp@LIPZ%!$slMHVjg37`{dtw_|zqyZ?dUqRuYi0_D^@K%pUxF-Iw`-&KIsg#d+
zziM<OKAz5&s*@U9U6AG)+*NX)PhHX|lO(BIa4XduxS*t!tJCVC+2iZtJr)>LGNmtR
zw73~?HF$vFE2SM8H0${as@3`t{8!=USRVvezyG5Hr{6m>fArhW-F)u$P$AfUH@Iuz
z%pbn;2d^w_UJC9i960?8jWG0$zU^Yns}ikJ+Yyx9DJ89TvY0kA6{}V;V1l}pf^8IF
zgajZwT1F6>R8530g(#6$0(}+kpl9VWSl-0>lv24qX!J<{A6<M{TG#LL?C@t8r^EPw
zb_v0C;bEV!dCS87#q6Jc?cJ{}bv~K*wcQVH{y0>ZukT$7ZGGStYq$M4RClXqxxS}R
z-?K1QsNb~|8hYS$)$U$#3pJY_)(f%z2l}|Kx-q`1f-C0F`+8TZgh*#zI#>uF%=-?i
zz4+cZL7s6@oc>quA|S2?3!d@LcE2pDC!Lo<zKqSeZOfgx41&ACd}yv`g*U{U`=ZHl
zSQY17cXXT(?F*)v>fD-~NRrMqm+hNo3Hvu0r}D9h(nn;hfrOwA>j2h9diA+3g}<tG
zNU>HF9lJg1W()|!3w0M_r7GnrL@zn!vEc_p4Wf}c1~3G(;JaB%Tvix@7;B`SZ+2*1
z=w7eLING3P5CGeogkaO{v&$X33-}A{zTeWZ+_Iz4vSabtLd)LyXFrZM-J1RFCl?ZT
zqucVqZTaZ7Vz6mB*ii^}<U5D%1$TeEYdAmh%+jtC^T(EhU4>xR!uGqtfrnK>!>0VE
z?Mu-ei?82}?#g4)i0)bo-?WI>;oA|qO&F$}>>|GUB9*PU$_T#+&*g-F&YSZB3R^KD
zt_vX3sL5AR4IVEB)~4mW1~!1qyD!!{<ft-ofCf}C7T`5I3vfgy?hM9t>Q7Ra4Yr95
zxRAW8NXaaOCn=>QKmpIuV#o>YITK&lGb7KMjqd&0@djpp)~DE55DfAq>zqLaj)Bq;
z)v+iM!!yR|mqLs(n3P4`i;Qb2(>^M`n*yTxU{K8hYiUi?XpN0v&GxU0h7P%};v3o|
z0$^aL(A2uzxUJB*ZP8z79G>@o+}T}DZHg`ZKhWOWf9Gq3mP7NQVxZ;ri+2N^#c1RF
zN#N`6Z~pG)<(9ob*Y`t9Ezit9Yhvi_i}!-DVzeV4>|m%zOa|A!n3#kn5cD$~JO)rD
zF2{+&T(p-!0lL8DIN+cxnpo&&c<R7h&w`-=bMDT0F1?Bo7q1aMZxjoO1{(TF-jGMM
zhM0Kz4$3&R1F0cf6?*gs?mK#3U@?_kn`NE8bGjGv%>FkMs+szYA-FTXZv=JAczO%+
zi8xpb!v-08E@d#~i)=QMYNE?x^VenTc}W{juhY0H^$>=sRHd_Tb<{AP*Wl>Flr&)q
z(Hi3znQR^NF#=g~15-J(NX#V1-a1xESviL3Bx8g1Wc($4ne&%NDE1TrOY-LIVUSnD
zTQ}RgF0R_My-oFe7Xgs8Ug+prZXYVN4=uMpR%n0hy$j2GP89Z>_{*-P_UH4y7Kp}+
zo<9x08!oi&oe$p+v@eA326h&M_4j?jZ-;M&mwmB<FIH@5D@HdhM|%s=-h~UxTlW?4
z7k#|gxwF{5qqwQ<ov*$9wPI)Ya_2~)b7ZAfsM-EdsIKwj>yI51=RM25j)Je__J!rn
zU4_nFcYQ;gpaPl9ix83_^9P80I%K{en277hy3Iim<%C2RO|_QU3ZUE_lW{~T$lH~d
z^MYb69wJ1fm}@p^!su~T;fl!5jz`cul%Z0Ycsv@b(j}Ma%yh}8Dwh>iQ)CW>feCzF
z2V@4TWvm;~j#4P2%8Dh>RIqOzs$jNbUAUvyq)gCWKmd4)m_%W@aYvyM?AZIRrN$@b
z{SSRYYxlzTrIvyDkO^B`3cf81qxXEnMPHBu$+EAj-~%tVD1Yc1=8J#5I+IRANM@oJ
z*Tan4L5C)cfetN+P_rQ9*BfF?Oh|Zb&c!opR2g7Or!r|t7sqW=1mb6~?V5BYnVqyq
zxmn$FFLTxMqu0VUtzSErW{vCf5~lLymufLBmR76jiLQ6WQgk$vJvlX<Qb<3p$WN<k
zMt#@Cm#OD5oEnX|A+xp{GAnOOoR6Nt*FUx{uso{RU(iPg-ypZP3*qj(uZvHAkWET_
z5@sPqEBU7qSK|=YFJvc6^`>^wP`qlTni)-rD+yQ;2FLA$`O!c!31yo(2L_O&GU*Ed
zH{E&wWsU(Qx>i>Q7N&E8Ha87*6DvY&aUyM2cg||@xk09b)`3l%%*>>~7ee(!`Xd_{
z(zlpV126~{+pNkoWw8EgQZg-_TRR5$%E<{d$JTH(Zz403mix`BxG6$Pq$Oo)I(tnb
zg|bDVQJ#&Vgn~+%6d7{AB&(Te#t^{hl7+@R3!{q8))MoN29J}Zi>{DHw5;K*1RF0V
zCg@mbs8XOPlVv3>X<6tGxjBb_T~-qlOoKKF&79S`QBv^f`~dW9nJK8rx!O^Ip~q&r
zAr<r^anlZ394mPvIj|Y(dsBL6$f5_<tnz|*PEO5CLGU5iG>S5^Oo~7qcC1cNHEZXN
z*Ointqk@VlFE7uVPX-Bl;~!z5u-id&@SvpfT1^bvFMV+mwp{3ZG1y4uFku@|$JOcx
zgC%M|>%1ZO@HJGsl$@S6phg3<Os5j#^n48*A)uZ0$OKXvBf<kVt>q)JF6@^T<_!dX
z5qMLR^w~Lwd*9m8kDcq6uAsl1UMB~#lV!Cje03zGuxc#tq#+bjS<CXs(6y|p^)R<A
z({bwh)da1|{g9WLQ5wTYR%ydvCFzTZfzG_6spKVV(V#)>du8+s&p+QU@z8Et@7o*e
z2Sqq)8r%E!#a@fCQRk>YHYjPNtX;6JRyJoJRuY*;*J)IxgVK-%V(KUs`FDLK_jpQE
zUqW0xL%~@Jn1zeky1qb<%?LDF#i<W;ah|wo0%H)@muKCa2Nav#xh~;xF7Q`WJ?Tq8
za$XSaG>2(=^@U8<6&PjuP1Ce<7=(qft3+TbE=vmu7SyflZb)V%hSbi%=;d_j(osXC
z>yo?|gt@A$r6GcU0U3p4kL)r0M~(@vJq{_g8U~$eCPg|*sH8zvU80cg%~d(;jCkog
zdcPo1I@Uv9A?fk0Cp?tHLB72ht{4_P=4|>VXj8rA2B(*lsSFfJ1X09ZGMdAHku1T`
zEs?bb<V`2Gx)q8r&obKcxl53fhy{6PnI@L%HWwv}23IacoSU&Nc4x^>JTa3Vr%EMR
znT8@1%QQ%^!Pe-Do1yTcwIm68#OzU=TqP|I%fu)-IWd7HC!I}Qvlct6C!a{ebn5g-
z8G&$z3ATo{lI!F+)xZngu4gxiO+sx8-UMXXzyoU_x#+C6VJ3g_e{jWor6%V=;Ic9a
zz9p}k06(R6QM@VvDv;(fih2?$kfghD<3jWpWvQq3mXBz88ixq=Fl7#@3}g%|Y)MQy
zEE|nHlUXURV0LibRl_m=|HSvSKS2Otr&WN=+p(|Eu`mDl^GhA4@-Q_AI+!7P#V^!G
ziyb@P8~O7m|Ln;^$5ZsKu5r0;OQCMd!n1|Co%2=2ft~XqXq@YzagHq>DQp^8RNveE
z!@525M~dObTZx<3ZXa82?=Q6X-wpRa@CkKI#bB$htlqj<_Xn|i!Tw@%`*L$%p}BAV
z_^qKgPp*W8`n?dsYHGRg&IK$(lqwUO&;>3wc@TMrNv(-CV7m#J1|RGUA6Jq@uHiYO
zQ}jpRpIPHt9q;D=lxFRY+z8?PFWmt`AG#RazbhDW5y7clE>d4Z!Xv1VGm5le%$ced
z0M#T!>X_8?uE?+})<)hE>BN*0kC*)M_*6!ofl)DD3dZBF&m>a%o9cL6&Wy+7DoMa9
z5zLZ1na-*`EC#PUmGputNmuG)6o5boD*0BZ2Pvqh;Ask;qksTHeGx$^z#Oc&L!V0O
zl9J~<IXii?Ghj;8FH=UD0_wRsK>?Wp8JSiaC`JLPytEI{%^Si4m)q-GX%IF`4+34@
zq5GS<SG>5xoY>g8QcW?R(7t)4hGKr9rG15R!A-*-TCJtnak0yL=zhZ{Ds_lTHB+fW
zDAl=jAyw!YrlN;X)L*-bqK8l*>K!V!cC5JRK62pwR|_N0vWNRMwX0qvu591r?PNLV
zzGHC3jXPe>rwTP~t6n^;>~8iR6BnLY5$OJYl;1ySSY^*EBVq5zZEZ!sZ6Ui#x0P<8
zs$s=d>+OCY>9~EM{T<y_-9|c;=T&t@Zxk9b3`N~mZ}<JC*4vN2omufBu6K-LKIrcj
zqTfBaQbSLE8m0inf<p6_m0F60gofsoFvTJ?U{n`s^@r!Px1KMAyB3D?;jM+5ZGRWV
z3)TP%>Q+3I?*$C!$b0S;0k^;0!fyGOUS6d~j9kE5_dXJF`(VpMy79@SDILeZc~Jsg
zt7!!92!<P^LQaq&SyViVmlzSa4_3h)63&q9$)i-mk&v7bYvgLY@hN`13$S-JrbD6M
zawvrJV?e1zK5||pH_6bo+E}>MQ0D8YI}C1su~g|x<w^p=95?<~zYkz7bJ+1_O@1v)
z=)tZDm!Wvns-K0QG3mkRdPB50G}(1Su-tF5#BH+6QZ(Mdx9D<k%JJpAP8`)-O|DvY
zGY>y+4sr73Lz*jB!#GHP*5tS@MtI%!5Vm-~(QfdHSODe%InTwYJr9rP0%)b)@2lcm
zP~Dm(-ke=IUoL38LoHz3Uq#Nj+PP4!_97vC#gz*g{e&M$vqyOAAb3v^JY$vGp7Y5b
znhbSQ&WF0FH?^pRk}57^gi%KW%KBib^p4KH;sgPZKGWdNz*K=qL3rf~0#f7K*hFG6
z$GK-Q*h#pT*xqp+OPOyCjRo_qkq|L`Yp}M?i5CnX86SLP1oDx2R~%(4BB;dxvX{ho
z8LilfwAn*WEgy82Rva8)9tY^GlFVc{z#JC+A2si}HT2d~h2}lKSS3h(BN*begb}Y;
zZONb1l4+<~;E1h~DOe?#R9~myD-@8SpF73WB(sW|#d@!ms*;dD$CXlqXc!lHIfGns
z&nBl;@*`EBK@bb8U!wRY%XOu&!B-mUX|kP^LZnwAu7GoAh9@K`WJ=r?qBD6VpHaS4
z#T%p%*fTn91)LIn882pce2TH|!@z3T86ZG11Wj%&23zj658T^%BHwoMq1zSluLxe4
zH>$+iq19@N2}pYw6rMON!d(Wl@Nsj;?~LcWN0vGtyVtx2t}{r3@5~ea`7jpurY*~j
z1BJ$cc|X}ikK7G(!1Q^0un_En5wvB?!fc^sXg>6D>z3u#?S<CuiwEBC{9)^f`DZ~5
zr0vU__ZK$rFGgDP?SrUT3em?y^Eq|{HyP_+JpKNwKkR$9(9m=1#O;Y<L;E|Y-#)!?
z{KJMF58OiRIq^XiSjm+}q3xvj0B#hGw>K}=-EG<NqxK!Qe8oufJHfYu-wDA1sH6XW
zxHIqT<jX#3fy)?3QwDw$Z`L!}=yEH3;voaOfZhGT7PvP$$-g$g8%Nuvv4Sw!6`l;T
zYZd@J=YDGkq*M190V@K+n0u6gI%lBV+`hg8O=OU5nBJ&2Tz23VKc;^*fX>T-k2=Ue
zi9-=_M6*MVP-Jj+07<BE%k|;VEC|}mD0^Kn1%Q0do<iMTNC52}u)+PPv2Fh8Vz}Yk
zb2sO{=UzCrjJG{|mZZIR!+VR7u7wv1k*$SD*ZoLiF)ZbM(n>&RY6mY6>B0k>oKbZW
z9{}<taZ@i+aEXEp1&q%l=1rZVfQTGt6sIZ15T9{|ge5AGaK`&pa&sEJpkN#I=eH2K
zAr!q4uo}d`^m;d&3=HBr14A*3fuSePz)*}cFcjkq48=GDLor7N1}`}8;-W00qR-n!
z{1t8=Xb<Ve0hJo*%%A)o-h9)>p@2655YZ+L*)vf!FHDHC_eO9GTQ$JB)PXapR(wQ-
zz@OBB??A|&sD!Bav8^G14Hq@wX@YoH%iaY{&LwE$Tte93L-}gJxzJ{fFg9yM^k>?r
zQ8y0<%&~d^Z+)quZ2O79&oHGJE%l6T8C|1{qD6c)h2T4)opHGdH-K+}41nmnCR}jP
zcYja(O%dqg=mG(Ee3Q+|xtwgK$U#JfUDpKlG9vIJ_i8iKips@}kglkVb48^pAqx}w
z-_?!YW=~30m#)C295$PHoXHvSxMrZ-b&hg9C=BDHeLs#qAcKa7_^SktB-H#IYju@S
z6S`Sl@HOA=fKQ6=;CmByeFux3JC-~57drQohj&}Khc}0q3TpKQYBK2_*WnKLW01b-
z`DVmE&^a52Xz)dqTp_qN7p+|^-F*iipbOk0^_pGa_jC^qBZcl*=YXJiN2ptI8Q+@o
zfs^urlj3Wl58R+*e&P_{j97f=yk|Z#;gUT!d|6@!*k$pL8{$%HWbd3`u9^#2HQbEw
zHp|s=wM{RHah?m_^jxenzGU42pg}^QGLExW-J6XXdBEw`8odP_!H6)9Gc*^@g>#`?
zkZB=<paFh;4E#BN&PRSan)ueCTn#S+{uFt0esXn}g>SeH3U8r|?3)XKAN5dA-a3mq
z0$PxjfTop|@auVN@QyfE^qE=<j+N@I=eaHtXjfduEbAO=4N$yhboNOnkap%+b#yZH
z{+ugiv~9NU*wGi5*%9bBol&!uN_i*|(|CVnu#AZ%0cRNhtK@z19hb?*LW-LcZ@P$h
zR9+Xvo9<ZvsqO~eWU#ml|DmdoPymhv1GuSIDPRlLZy=_76I|EvnKQjko!>aq`wc?)
zZK(U_I@jx#{D0dxd`kq!5^7$q?Jm@I=Yv}o(jNv#K5881T=3UhJ4D7699IDl!r53r
z{Rh-gf<*3o_brOGQ@|*q#R`9w(!NFkV{q#>%-|Z+p|6B+1;?hv3p1G+&ER;iqt;R*
z*MU{MD+QQ=HO|boDv>kw>lECe;2RXM;idKyi*k+v{W@%CdOyWj6O?E-5&S~udT$Th
zi|xM`egd3jjlUQ?1#Yv(pT{#fe?!YjM*7iw&*&1ua5o%0`geg*UJmwwkzIuMegERr
z^5F5p;Bn?Up7-^E@eDSC2dEu*Pb>t7^1*%(|JI&`x#ew77Vy{dByqi)9}1Y#A2+uC
z&TxM7&{Es(dyT`ZUL>sw?lxkeeL@$$+)-?5n-BcBuIbiS7sUb;sJj={AJ*-L?sRj^
z;E~&JzxZ}I-!;4;KDoOO?DC7h^&H>`O!ECm?_ymcvOOQ^Ek^tD{m(B&pI`L}y(71M
z#rB?s7xS@0g<kv}F0>y(iQbX>-CJ)x_fbR3{k~Ws(!0_n)DJ)C79wq{RbZsSSU0ri
z$ys^0&@jSy>%R>&Y>e?HHDej$O*ERYcy%iRFy8Ap*E7SANDCbn9arM_P{eP*$mg%y
zC1YjzTGbD04NNB36Q(NKbcU=Yu!6vzj2msBvWz*?Y7(Wh8MAqmX?zCd(v^#v%^>qM
zH;r0b{`Al5_;zrl-^u22aIdu==`3r<ehkVh(k@9FlBC^|G%QIYlJuA)?UAIt(rad$
zjG>dHoHT&Tw2QE(ft*7|t4LYwD=-ON#hxnqIt>XF6oxGONtNX2%leh87;k1hvTAmy
z3Z->*J*vpr#=$n+x_y}zs|54}#$1hjbuXM(_`L1<>M+RB8uh>VLCbi>yT#0K60{EE
z%$A2ORxsdYX0lpR=El8pxUuX^XD4U0e#sE7%8fxVTuTQJN+ULa__a4LkU=dbs*Ds}
zK)g(0L@M^#9ggd{^9cPRt>>*M1;fIK5ZSVDcDZ+70e|6r?++Ei2lBoHoc&!R*`v%F
z(@+$(nKL|k`s~wvM<<nZjGGY4-RGEn*7WA!4n5^l%r{lT{olZgGa2j~*v6fx*n%-m
z_yM$-!3v=7FoSQyB}H<Sza?(_F{|4pF)t3XN$Itv6-^tI49_8hVH!_p;|Tzv1+hB}
zq%!N$5dt0?v?@)^U<-HUP8lvMzkpFIo3R&>fL$(5(u*-;P6~s6L-Pj4ljbdC7=*Zh
zAFUMd8UMm0dJ>f!<$Y!oauW3kpe%X6RI5v2;|jJ5$HCRz!g~#E5p;&)P0CNfE7ZXM
zh{(@x2rDix>?$3wn$Z2g)9eoG$xpp_M)P55;2MG>qD@6W54w(kMJ*)(d*oUI7UgOJ
z7Ug;Z7UhZp7IoAV&>LM<z%m_owR#VdEd#d?wye@^WnVSS8&DtM_JQ^@x^Zlv9umK0
zUZ#2D*Ft^J?s!thuY(#veG5a*l?V+cLdKbTo}HgysS?!RL{3LtLGPn_Z|V&G0|D@(
zbp|~{%RR>nJ;zCB(Dga!3_ivuKa<X&N_Nex(HKCJ;4w7`UPH#jZb*{)JtpLu5oQ;H
zPC%|=R-+D<&q32b`J8nSB>v6Sq)`JbO*QL(1-b=NHL^?BEmT9dK<X)WSvrCZ=@$G}
z$(xa!&nEvLMSB8ZeVM_KX%$HQUvWXww_C7kVZovmlU>jb*!2kzSxtRH$k7@WzC(*4
zF5QCl6x3*brgcUb^CkWZhRCEE#15}xS%O~>Z5D+^3KWiPJ&drd@isQA(uwPaypE;y
zyp7G;ERUxIah>aX9ap$7lDDy0$*1%>1_h^sPuBA`hUc_GV=|RcFG&fK82FhAQj#B^
zab+@tvs{=?o_sG2&QTu_X16n2#;J8ba~{)lKVx1J6_bnUprp$U*kW&%8XA<2m<PVF
zX#=|ozejvxU%&okBLQLsY*dCPDRK-wX4XRthsA+|t-wn-g7)DUkIVpOTDhvo@VDHD
zv;k>o1UFq2B9_TEzQk$pp7ar*XfRG@F3n7%=q^@tFG9v;!RK6OO!SVMP0^UB#d&Sx
zXagExfSqlK2c<7U_?T42FEJpbkxwaE%XyRy-LTZBw|K~GF`9Bj!&Z4?UWRFA;DpJ5
zn+XSe&dv6`LW55d8HIdChF|NKGU%#$C8@!~6%e4qi7oGI)+Fuzr6y^Q*%F6I+Jk;o
zP7)t!Hh;EB0<4-9m5;o%!4Wr$Tm2p31ESgbZHyF+mu(Ezia2a2_1zJ6FYy2G!cLn&
zK35lZbLM7WcoduAtjAr47)V^9dwllk6W7kGI5NoCokRFUTS|0MMfYFe`yzI%M_LBC
zVt8AnVtCERxn7uQM1Q5qVfD8`FW0DsOPkrE9k;kV_#>!Ut`>zO>s2SU@$pBE`Nq}9
zo512|F|^85AHy{7pg+!Uefq=T)1*LF|1tH!&lSeR$Z$3B?^En`3Y>Js<Pj0uu&$UX
zb4xAGqk{2JuhVx(DpB8{;Oi9Jpn$1@|2bkBF*YPlpQAv(?5g15&oF);5~F+q0jY$~
zitvOWo$yol!bevGH{2dvV(rdVH)46D_=HHy?Wf^#rt6Epr0a{j?E2zU`JPitzEjW_
zlcR%O@mmZu-WK0HbRXUpQE55)SRwitPAI9{bH9G`a{Wl5egx-|)FDZz-3sGzY<oV~
zi+k<X#g66JkpljLq=&8PgAovJ7|<bOUe_p*nHz?i+%TZ7CcoP~?}vU^_Y9QAExikg
z?{0?wg{3|I>>d{AF`RXo^TbM2s6Qb>2##zvT`AVr=pMo(K0>2Q?75?B1Y^%#ITsjF
zG4Z?L?9H|6SEK1&v!Fmz3%B@<t9&ySGfB)&N}0e?NBTgWt24B}>_avkpU%8VLzdc?
zW#RnVL1Nb&e2QrY%CI>kT#X5}FKK;;pz|Gu#`iJkd-p=MyH9#t8bb1rG_)Iqz@>qQ
zlU|bs2Q6)tfnK^MxKb5tC}>H?YG&PV<SV~~dYC?9R}r(8<fH@8R-0?BVMzoV^ch-b
zbi?9u*H%I;F#W=L6U<DfXR_EGxPLvR?$9vP>h80+K4Zdnf7%J(XMXc@o^MM&LEknw
z!@vBTu0M-5iNox&F-;so%O=BW@h8m1zV)VJ_|s0sUb9`F<5Xbq4MA~Z^YE$WU=0=x
ze8vgDMkOXb7(4Z>Efdyy@(B~cEgicooLDObIIMY}c5{z8M_iZw$P?&Tk8}f`gC)qe
z*zhT;*oXxi2XRj^x7v-HO5{*Ihd^^90O)c9HZyoUnrkuC=;fxNtss-^TsSDu!L-y$
z3nR;04ixYgJb(itmxH~9U@y3d&aK##L(B=R$-3{@Mob~IFPKBM)_$;tYsb#kb%>=k
z|J+}3f`-A_i17GPr{j+eS14l?FxG3l56@yOR&`?n7&KkSJ&8}n))*5QZ~M6z6V!i7
zefehy>;{D2r9=w;J+YN}L@Wcs9&SK5c4}P%!l>PVKo7bBfkiC?0(;~J1Qz861Qz86
z1Qz861QvBPAkZ7#fWR`HbM<302Mh?fkpTg>l~+X%w;<p~76jb51%bLqyt;Xr7KDF^
zB)bD5+agi_tK1?1$HQ7VgzXhL9a`U9K^rK1%-JylXUB+{!)I*2&|M+x@YZrnjFy7z
z&}_q!P~kJjJbuXkNj1Ia9<{;ZHXz{hcb|hBn_z9duoTf7QZ;jzIlnn+W`rrvYpi<V
z{KXvdWUuVCIk%mILfQ|<X48$%tbjZ;*b(1l%IE;x(%NjUcD`J|rrw5if~li}*a{JJ
zbeQv8gxgu=bpc-@S>O)FmoBKNgHCQ~P<@*@-rDP-eAr9@=Qi3>Q8hX{XrF6mg~k*e
zp{}bhxZ0t$QtiOAtnom@lEgjGBt%UAGYBnC+bEci88@(ALH05OD|08?V{hul^#GU9
z3iTRlRA(t5uQ0<Yj0_2tl0EYbvs}UUQWl8<Cg_JY>J-KW`QM;|Oqwqj<TbL@nyed(
za8meXq|a{IKt~B?w7*Ag(}n8?E%(C1x<r0Jm&k|h68YhL&*3HCVMyd3?|<@>cQ4==
zpK^z-Pw#<+k3?wSYvoP_@(%A{dlkl(d-oT5_vd?_ct26-dGcPvVf!uy954k3Ef|;U
zn)n8Vl{PqAVK=T##NH4gKlmvLIfG}j%qLRqSlNU<ib`K6VEjHoMK1+gDcD9q9|Gqy
zrC0E#+}GRrP=Tyz4m4I5{oqu`BM2PbkNIKpyI?eQE<-Fs#kEdO;CSUls}<YE;mVq8
zFY{W5e=XKc9F}0Lv1hRHmT&FADTvH_lhGT()>0EOz;u+!ObWav4jg4_as8+^W>?07
zYM#4RKEB-10nK2jcb#J#WuM*VIDx!s``N_*kg$#%Uw;m?i;$MAXSub%(Axil<h}5|
zyl-DVypNqz-cbm2EC)skfsyxKzZ=+xT|dQ0!*Zm%5b0iy3=|>*#rh_G81HiZ6NUOG
zNC9@>f!kdhntv7wt4QO`D~0e7Z5Hz9d-ejGX(tk#G8x#E?Fpb+CvJN6za#j67EW-G
z#<z4hF`)a5p#Cwsyaq(nKS3(j+%kALNSW;C*fM-$J})$OSbTLzpp3Ip86-FyjCq?t
zU>aEo1h6&dR|^8$7x%w6yA*yZ?|X``7|slR2JQK*+kXgE`DSq%0B44Nk={`73ibYf
zAOeQo+7#4f^Y}qr=hrD_vFr52xpj(hW}RZ3SEm?f)hXu4spEyts8g2XWjy&R@#HJP
zh}X}yjN`7ifnv5T<Mc>d#(x^1SWm!vRAd{%S%h|kQ^eR3{xdH<J-~kGqaq)C8Ubg1
ze*tf-4bk+wFnqg_f-OdXTROMJi{EOg!WJOxl)z?aAGQhcv>K%OvAqZ<yRdCT0Xzqk
zAT}m7%0c|{N{E%GZABqG@r_CJ3osFEEUHuL@H;Q4NvSt~za?sJOlq)gOp0Ff#+piv
z<v*dLv-q=5>JjExI!?c`Ghk^EEjtyC5KE6|aE9Q3jKjZhmvBshlF|k_9qU6s9X2h|
z;=~rH9yUhyA4f1))3P(Sb+i`wE<Rmzz!q})fJRjTXZhm&I38vP9XmC+-r3Uc5(v|#
zACAA#e01wlc-!I-j^4=o`U~NHKG&q6XQa7owKY3K71-q(Yzo);Y#c`D8pVn3{LnYD
z?2+3qRuXQI*PT3QCoBDA0MrO_Qey|N4dT~_{4Xa`GYUJD&rq6}4Jq&X)715D=dQDD
zvN~makGdP--K`SBE%}zwrO@fT?=<h`C$mp%m3@@s<8J3hJc<qa7t|<SSpl_-E>3^4
zq*=aC%OrirD<)$jd$g>*Sh9KcJEqP(I(x*iKhCnzcm=X>BkwvODajd}dS|osqD}?{
zm}<u61kn%mGzDKou=Zpdb`HmEzhnE>5s3aZjr0I&Gv$PPu_x|@59orzX<bk_fL{Q>
zE|2b)mO^LpzB4vj(@^P&nxgilDPWX?csYK|2uZ1Y=PAJ^-&<Nin0)ktWFM6%C>OoH
zOtA?HdMVgK!Jiqy_o?~!@pMD@$a8YV<Mj@(1)J{X86S9HXMEtk5^{TAU?+Icolfwe
zJDuP`_Z7dJD{^rAK%=xekOR|mHR?SpnwwkcK_?<CYEd%w$VnNCa$3fsoS3mFr)Dhb
zNY3cZDjm@Az(rBsdFpp5LhNmPivP+L?$i8-dx#8_ned5`B~9My0R&i!5b`Tas}#F(
zrhb4*&$(Oz@%9rU_J@kJKa`Fu10Qu6FY!wse~w$pL+4O|Ut%oxw<)F8XbRiAS*q3_
zb<@3ZR$B+*yO9$nC+io1s5|Okpr#+uWD@rUSj34gz27^#IIsja^@hi<pZX}&cKcKz
zG_v?Ig6q!|1NGNO*_gz7)Eu?Koj5<PQpeb-H8`*)gB6t>(WUX9O2RP%X38LCCh#mZ
z(k~Vb&SaAyQ`l%V8D~+p6Rfm}y}LX#NWW$@$o*^ROhtaMPFvYq^9(^=p6#+G&@Z(b
z*~}a`kVjD`aM~e1aDgE;>54euhbczuG24<>3LC}s)4li+J)}oud$5@sHdCcC_KPD1
zpC|gUJ@sE9V<{YuC(>9}nDSl2=|D8t6)08m9pGmQ9a8@--V&|SNMcxVi=v3x5bOR%
z*z(u(*Ylr+t$!^H{EhJB&s;vy^)ms%0}6gxFNi%4t4?{uy4%=>P4|cAd_!VazHRuS
zfcwKqF(Zm~?2#f5W%qL~Ja2j8p+J#`uX;|1;!!al-SJRhv4=0a`oyzhzJ27OK#`R%
ziGsH&ziCI&(~xi4Ui37wct?Ko6Gcz$e6Hwe$~O<J)K;GoU3npLtLIks_H%_zeTzN$
oozE1upU7`IQK&z;DpZTEl?JaEEk-+`W)`FOy&Vs|xHE|Qzu~t6ssI20

literal 0
HcmV?d00001

diff --git a/v1/core/block_pool.py b/v1/core/block_pool.py
new file mode 100644
index 0000000..55710ad
--- /dev/null
+++ b/v1/core/block_pool.py
@@ -0,0 +1,428 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterable, Sequence
+from typing import Any
+
+from vllm.distributed.kv_events import (
+    MEDIUM_GPU,
+    AllBlocksCleared,
+    BlockRemoved,
+    BlockStored,
+    KVCacheEvent,
+)
+from vllm.logger import init_logger
+from vllm.v1.core.kv_cache_utils import (
+    BlockHash,
+    BlockHashWithGroupId,
+    ExternalBlockHash,
+    FreeKVCacheBlockQueue,
+    KVCacheBlock,
+    get_block_hash,
+    make_block_hash_with_group_id,
+    maybe_convert_block_hash,
+)
+from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+class BlockHashToBlockMap:
+    """
+    Cache of blocks that are used for prefix caching. It caches blocks
+    from hash directly to a block or multiple blocks
+    (i.e. {block_hash: KVCacheBlocks})
+    - Mostly block_hash maps to a single KVCacheBlock, and KVCacheBlocks
+        would simply be a KVCacheBlock.
+    - Otherwise, KVCacheBlocks is a dict from {block_id: KVCacheBlock}
+
+    A cached block is a full block with a block hash that can be used
+    for prefix caching.
+    The cached block may be used by running requests or in the
+    free_block_queue that could potentially be evicted.
+
+    NOTE #1: We currently don't de-duplicate the blocks in the cache,
+    meaning that if a block becomes full and is cached, we don't check
+    if there is already an identical block in the cache. This is because
+    we want to make sure the allocated block IDs won't change so that
+    block tables are append-only.
+    NOTE #2: The union type is introduced in order to reduce GC costs
+    from the inner dict.
+    """
+
+    def __init__(self):
+        self._cache: dict[
+            BlockHashWithGroupId, KVCacheBlock | dict[int, KVCacheBlock]
+        ] = {}
+
+    def get_one_block(self, key: BlockHashWithGroupId) -> KVCacheBlock | None:
+        """
+        Gets any block with the given block hash key.
+        """
+        blocks = self._cache.get(key)
+        if blocks is not None:
+            if isinstance(blocks, KVCacheBlock):
+                return blocks
+            if isinstance(blocks, dict):
+                return next(iter(blocks.values()))
+            self._unexpected_blocks_type(blocks)
+        return None
+
+    def insert(self, key: BlockHashWithGroupId, block: KVCacheBlock) -> None:
+        """
+        Inserts the KVCacheBlock to the cache
+        """
+        blocks = self._cache.get(key)
+        if blocks is None:
+            # When key is not found, attach a single block to the key
+            self._cache[key] = block
+        elif isinstance(blocks, KVCacheBlock):
+            # If there's a block with the same key, merge the original block
+            # and the new block into a dict
+            self._cache[key] = {blocks.block_id: blocks, block.block_id: block}
+        elif isinstance(blocks, dict):
+            # If it's already a dict, simply insert the block
+            blocks[block.block_id] = block
+        else:
+            self._unexpected_blocks_type(blocks)
+
+    def pop(self, key: BlockHashWithGroupId, block_id: int) -> KVCacheBlock | None:
+        """
+        Checks if block_hash exists and pop block_id from the cache
+        """
+        blocks = self._cache.pop(key, None)
+        if blocks is None:
+            # block_hash not found in the cache
+            return None
+        # TODO(Jialin): If key is found, block_id should always present
+        # in blocks. We currently keep the original behaviour for safety.
+        #
+        # Will add block_id == blocks.block_id assertion and
+        # use del blocks[block_id] instead as followup.
+        if isinstance(blocks, KVCacheBlock):
+            if blocks.block_id == block_id:
+                return blocks
+            # If the single block ID doesn't match, we should put the
+            # block back (it should happen rarely)
+            self._cache[key] = blocks
+            return None
+        if isinstance(blocks, dict):
+            # Try to pop block_id from the block dict, and if dict still
+            # contain blocks, put back to the cache.
+            block = blocks.pop(block_id, None)
+            if len(blocks) > 0:
+                self._cache[key] = blocks
+            return block
+        self._unexpected_blocks_type(blocks)
+        return None
+
+    def __len__(self) -> int:
+        return len(self._cache)
+
+    def _unexpected_blocks_type(self, blocks: Any) -> None:
+        raise AssertionError(f"Invalid KV cache block type {type(blocks)}")
+
+
+class BlockPool:
+    """BlockPool that manages KVCacheBlocks.
+    It provides methods to allocate, free and cache the kv cache blocks. The
+    free_block_queue stores the free blocks in eviction order to enable
+    allocation, free, and cache eviction. The cached_block_hash_to_block
+    maps between block hash and cached block to support finding cached blocks
+    by their block hash.
+
+    Args:
+        num_gpu_blocks: The number of blocks in the pool.
+        enable_caching: Whether to enable prefix caching.
+        enable_kv_cache_events: Whether to enable kv cache events.
+    """
+
+    def __init__(
+        self,
+        num_gpu_blocks: int,
+        enable_caching: bool,
+        enable_kv_cache_events: bool = False,
+    ):
+        assert isinstance(num_gpu_blocks, int) and num_gpu_blocks > 0
+        self.num_gpu_blocks = num_gpu_blocks
+        self.enable_caching = enable_caching
+        # All kv-cache blocks.
+        self.blocks: list[KVCacheBlock] = [
+            KVCacheBlock(idx) for idx in range(num_gpu_blocks)
+        ]
+        # Free block queue that constructs and manipulates a doubly linked
+        # list of free blocks (including eviction candidates when caching is
+        # enabled).
+        self.free_block_queue = FreeKVCacheBlockQueue(self.blocks)
+
+        # Cache for block lookup
+        self.cached_block_hash_to_block: BlockHashToBlockMap = BlockHashToBlockMap()
+
+        # To represent a placeholder block with block_id=0.
+        # The ref_cnt of null_block is not maintained, needs special care to
+        # avoid freeing it.
+        self.null_block = self.free_block_queue.popleft()
+        self.null_block.is_null = True
+
+        self.enable_kv_cache_events = enable_kv_cache_events
+        self.kv_event_queue: list[KVCacheEvent] = []
+
+    def get_cached_block(
+        self, block_hash: BlockHash, kv_cache_group_ids: list[int]
+    ) -> list[KVCacheBlock] | None:
+        """Get the cached block by the block hash for each group in
+        `kv_cache_group_ids`, or None if cache miss for any group.
+        If there are duplicated blocks, we return the first block in the cache.
+
+        Args:
+            block_hash: The hash value of the block.
+            kv_cache_group_ids: The ids of the KV cache groups.
+
+        Returns:
+            The cached blocks if exists, or None.
+        """
+        cached_blocks = []
+        for group_id in kv_cache_group_ids:
+            block_hash_with_group_id = make_block_hash_with_group_id(
+                block_hash, group_id
+            )
+            block = self.cached_block_hash_to_block.get_one_block(
+                block_hash_with_group_id
+            )
+            if not block:
+                return None
+            cached_blocks.append(block)
+        return cached_blocks
+
+    def cache_full_blocks(
+        self,
+        request: Request,
+        blocks: list[KVCacheBlock],
+        num_cached_blocks: int,
+        num_full_blocks: int,
+        block_size: int,
+        kv_cache_group_id: int,
+    ) -> None:
+        """Cache a list of full blocks for prefix caching.
+        This function takes a list of blocks that will have their block hash
+        metadata to be updated and cached. Given a request, it updates the
+        metadata for each block and caching it in the
+        `cached_block_hash_to_block`.
+        The block hashes values are computed by the Request object immediately
+        when it is created and when new tokens are appended.
+
+        Args:
+            request: The request to cache the blocks.
+            blocks: All blocks in the request.
+            num_cached_blocks: The number of blocks that are already cached.
+            num_full_blocks: The number of blocks that are full and should
+                be cached after this function.
+            block_size: Number of tokens in each block.
+            kv_cache_group_id: The id of the KV cache group.
+        """
+        if num_cached_blocks >= num_full_blocks:
+            return
+        new_full_blocks = blocks[num_cached_blocks:num_full_blocks]
+        assert len(request.block_hashes) >= num_full_blocks
+        new_block_hashes = request.block_hashes[num_cached_blocks:]
+
+        new_hashes: list[ExternalBlockHash] | None = (
+            [] if self.enable_kv_cache_events else None
+        )
+        for i, blk in enumerate(new_full_blocks):
+            assert blk.block_hash is None
+            block_hash = new_block_hashes[i]
+
+            # Update and added the full block to the cache.
+            block_hash_with_group_id = make_block_hash_with_group_id(
+                block_hash, kv_cache_group_id
+            )
+            blk.block_hash = block_hash_with_group_id
+            self.cached_block_hash_to_block.insert(block_hash_with_group_id, blk)
+            if new_hashes is not None:
+                new_hashes.append(maybe_convert_block_hash(block_hash))
+
+        if self.enable_kv_cache_events:
+            if num_cached_blocks == 0:
+                parent_block_hash: ExternalBlockHash | None = None
+            else:
+                parent_block = blocks[num_cached_blocks - 1]
+                assert parent_block.block_hash is not None
+                parent_block_hash = maybe_convert_block_hash(
+                    get_block_hash(parent_block.block_hash)
+                )
+
+            self.kv_event_queue.append(
+                BlockStored(
+                    block_hashes=new_hashes,
+                    parent_block_hash=parent_block_hash,
+                    token_ids=request.all_token_ids[
+                        num_cached_blocks * block_size : num_full_blocks * block_size
+                    ],
+                    block_size=block_size,
+                    lora_id=request.lora_request.adapter_id
+                    if request.lora_request
+                    else None,
+                    medium=MEDIUM_GPU,
+                )
+            )
+
+    def get_new_blocks(self, num_blocks: int) -> list[KVCacheBlock]:
+        """Get new blocks from the free block pool.
+
+        Note that we do not check block cache in this function.
+
+        Args:
+            num_blocks: The number of blocks to allocate.
+
+        Returns:
+            A list of new block.
+        """
+        if num_blocks > self.get_num_free_blocks():
+            raise ValueError(f"Cannot get {num_blocks} free blocks from the pool")
+
+        ret: list[KVCacheBlock] = self.free_block_queue.popleft_n(num_blocks)
+
+        # In order to only iterate the list once, we duplicated code a bit
+        if self.enable_caching:
+            for block in ret:
+                self._maybe_evict_cached_block(block)
+                assert block.ref_cnt == 0
+                block.ref_cnt += 1
+        else:
+            for block in ret:
+                assert block.ref_cnt == 0
+                block.ref_cnt += 1
+        return ret
+
+    def _maybe_evict_cached_block(self, block: KVCacheBlock) -> bool:
+        """
+        If a block is cached in `cached_block_hash_to_block`, we reset its hash
+        metadata and evict it from the cache.
+
+        Args:
+            block: The block to evict.
+
+        Returns:
+            True if the block is evicted, False otherwise.
+        """
+        block_hash = block.block_hash
+        if block_hash is None:
+            # The block doesn't have hash, eviction is not needed
+            return False
+
+        if self.cached_block_hash_to_block.pop(block_hash, block.block_id) is None:
+            # block not found in cached_block_hash_to_block,
+            # eviction is not needed
+            return False
+
+        block.reset_hash()
+
+        if self.enable_kv_cache_events:
+            # FIXME (Chen): Not sure whether we should return `hash_value`
+            # or `(hash_value, group_id)` here. But it's fine now because
+            # we disable hybrid kv cache manager when kv cache event is
+            # enabled, so there is only one group.
+            self.kv_event_queue.append(
+                BlockRemoved(
+                    block_hashes=[maybe_convert_block_hash(get_block_hash(block_hash))],
+                    medium=MEDIUM_GPU,
+                )
+            )
+        return True
+
+    def touch(self, blocks: tuple[Sequence[KVCacheBlock], ...]) -> None:
+        """Touch a block increases its reference count by 1, and may remove
+        the block from the free queue. This is used when a block is hit by
+        another request with the same prefix.
+
+        Args:
+            blocks: A list of blocks to touch.
+        """
+        for blocks_per_group in blocks:
+            for block in blocks_per_group:
+                # ref_cnt=0 means this block is in the free list (i.e. eviction
+                # candidate), so remove it.
+                if block.ref_cnt == 0 and not block.is_null:
+                    self.free_block_queue.remove(block)
+                block.ref_cnt += 1
+
+    def free_blocks(self, ordered_blocks: Iterable[KVCacheBlock]) -> None:
+        """Free a list of blocks. The blocks should be ordered by their
+        eviction priority, where the first block will be evicted first.
+
+        Args:
+            ordered_blocks: A list of blocks to free ordered by their eviction
+                priority.
+        """
+        # Materialize the iterable to allow multiple passes.
+        blocks_list = list(ordered_blocks)
+        for block in blocks_list:
+            block.ref_cnt -= 1
+        self.free_block_queue.append_n(
+            [block for block in blocks_list if block.ref_cnt == 0 and not block.is_null]
+        )
+
+    def reset_prefix_cache(self) -> bool:
+        """Reset prefix cache. This function may be used in RLHF
+        flows to invalid prefix caching after the weights are updated,
+        or used for resetting prefix caching status for benchmarking.
+
+        Returns:
+            bool: True if the prefix cache is successfully reset,
+            False otherwise.
+        """
+        num_used_blocks = self.num_gpu_blocks - self.get_num_free_blocks()
+        if num_used_blocks != 1:  # The null block is always marked as used
+            logger.warning(
+                "Failed to reset prefix cache because some "
+                "blocks (%d) are not freed yet",
+                num_used_blocks - 1,
+            )
+            return False
+
+        # Remove all hashes so that no new blocks will hit.
+        self.cached_block_hash_to_block = BlockHashToBlockMap()
+
+        # Remove all hashes from all blocks.
+        for block in self.blocks:
+            block.reset_hash()
+
+        logger.info("Successfully reset prefix cache")
+
+        if self.enable_kv_cache_events:
+            self.kv_event_queue.append(AllBlocksCleared())
+
+        return True
+
+    def get_num_free_blocks(self) -> int:
+        """Get the number of free blocks in the pool.
+
+        Returns:
+            The number of free blocks.
+        """
+        return self.free_block_queue.num_free_blocks
+
+    def get_usage(self) -> float:
+        """Get the KV cache usage.
+
+        Returns:
+            The KV cache usage (between 0.0 and 1.0).
+        """
+
+        # Subtract 1 to account for null block.
+        total_gpu_blocks = self.num_gpu_blocks - 1
+        if not total_gpu_blocks:
+            return 0
+        return 1.0 - (self.get_num_free_blocks() / total_gpu_blocks)
+
+    def take_events(self) -> list[KVCacheEvent]:
+        """Atomically takes all events and clears the queue.
+
+        Returns:
+            A list of KV cache events.
+        """
+        if not self.enable_kv_cache_events:
+            return []
+        events = self.kv_event_queue
+        self.kv_event_queue = []
+        return events
diff --git a/v1/core/encoder_cache_manager.py b/v1/core/encoder_cache_manager.py
new file mode 100644
index 0000000..3959e9a
--- /dev/null
+++ b/v1/core/encoder_cache_manager.py
@@ -0,0 +1,343 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections import OrderedDict
+from collections.abc import Mapping
+from typing import TYPE_CHECKING
+
+from vllm.logger import init_logger
+from vllm.multimodal import MultiModalRegistry
+from vllm.v1.request import Request
+
+if TYPE_CHECKING:
+    from vllm.config import ModelConfig, SchedulerConfig
+
+logger = init_logger(__name__)
+
+
+class EncoderCacheManager:
+    """Manages caching of encoder outputs for multimodal models in vLLM V1.
+
+    The EncoderCacheManager handles the lifecycle of multimodal encoder outputs
+    (such as vision embeddings from images) during request processing. It
+    provides memory-aware caching to avoid recomputing encoder outputs when the
+    same multimodal inputs appear in different stages of request processing.
+
+    This manager is particularly important for:
+    - Vision-language models (e.g., LLaVA) where image encoder outputs are
+      cached
+    - Any multimodal model where encoder computation is expensive and
+      cacheable
+
+    The cache operates at the granularity of individual multimodal input items
+    within requests, allowing for fine-grained memory management and enabling
+    chunked processing of multimodal inputs.
+
+    Cache is enabled to share embeddings of same multimodal data
+    item (identified by their hash value) between different requests,
+    and eviction takes place at allocation time when there's no free
+    space for new embeddings.
+    Oldest cached embeddings with no request referenced will be first evicted.
+
+    Args:
+        cache_size: Limit the size of the cache, measured by the number of
+                    tokens from the input sequence.
+
+    Attributes:
+        cache_size: Total cache capacity in encoder tokens.
+        num_free_slots: Current available cache capacity in encoder tokens.
+        num_freeable_slots: Capacity that can be immediately reclaimed by
+            evicting entries with zero references (in encoder tokens).
+        cached: Mapping from mm_hash to a set of request IDs that currently
+            reference the cached entry. If the set is empty, the entry exists
+            but is not referenced by any request and is eligible for
+            reclamation.
+        freeable: List of tuples (mm_hash, num_tokens) representing entries
+            whose no current running request is needed and that can be freed to
+            make space when needed.
+        freed: List of mm_hash strings that were actually evicted since the
+            last call to get_freed_mm_hashes(). This list is cleared on return.
+    """
+
+    def __init__(self, cache_size: int):
+        self.cache_size = cache_size
+        self.num_free_slots = cache_size
+        self.num_freeable_slots = cache_size
+
+        # mm_hash of mm_data => ids of requests that reference the mm_data
+        self.cached: dict[str, set[str]] = {}
+
+        # mm_hash of mm_data => num_encoder_tokens of the mm_data
+        self.freeable: OrderedDict[str, int] = OrderedDict()
+        self.freed: list[str] = []
+
+    def check_and_update_cache(self, request: Request, input_id: int) -> bool:
+        """Check if encoder output for a specific multimodal input is cached.
+
+        If the encoder output is cached, update `cached` to add the request id
+        to the set of request ids that reference the cached encoder output.
+        If the encoder output was previously not referenced by any request,
+        update `freeable` and `num_freeable_slots` accordingly.
+
+        Args:
+            request: The request containing the multimodal input
+            input_id: Index of the multimodal input within the request
+
+        Returns:
+            True if the encoder output for this input is already cached
+        """
+        mm_hash = request.mm_features[input_id].identifier
+        # Not cached at all
+        if mm_hash not in self.cached:
+            return False
+
+        # Cached but currently not referenced by any request
+        if not self.cached[mm_hash]:
+            num_tokens = self.freeable.pop(mm_hash)
+            self.num_freeable_slots -= num_tokens
+
+        self.cached[mm_hash].add(request.request_id)
+        return True
+
+    def can_allocate(
+        self,
+        request: Request,
+        input_id: int,
+        encoder_compute_budget: int,
+        num_tokens_to_schedule: int,
+    ) -> bool:
+        """Check if there's sufficient cache space for a multimodal input.
+        If there is, return True and update EncoderCacheManager state.
+
+        If there is not enough free space in `num_free_slots` but there is
+        enough reclaimable space in `num_freeable_slots`, entries will be
+        evicted from `freeable` (their mm_hash appended to `freed`) until
+        enough space is available, and then this method returns True.
+        Older entries are evicted first.
+
+        Returns False only if the requested number of tokens exceeds both
+        the free and reclaimable capacities combined.
+
+        Args:
+            request: The request containing the multimodal input.
+            input_id: Index of the multimodal input within the request.
+            encoder_compute_budget: Number of encoder tokens allowed to be
+                computed when this method is invoked.
+            num_tokens_to_schedule: Number of tokens already scheduled to be
+                allocated with cache space when this method is invoked.
+
+        Returns:
+            True if there's enough capacity to hold the encoder output for this
+            input (possibly after reclaiming `freeable` entries); otherwise
+            False.
+
+        Note: This method does not allocate physical memory for the encoder
+        output but only the state of EncoderCacheManager.
+        """
+        num_tokens = request.get_num_encoder_tokens(input_id)
+
+        # Not enough compute budget
+        if num_tokens > encoder_compute_budget:
+            return False
+
+        num_tokens += num_tokens_to_schedule
+
+        # Enough free slots
+        if num_tokens <= self.num_free_slots:
+            return True
+
+        # Not enough reclaimable slots
+        if num_tokens > self.num_freeable_slots:
+            return False
+
+        # Not enough free slots but enough reclaimable slots
+        # NOTE: Eviction takes place here, but physical memory is not freed
+        # until model runner is notified by the scheduler output.
+        while num_tokens > self.num_free_slots:
+            mm_hash, num_free_token = self.freeable.popitem(last=False)
+            del self.cached[mm_hash]
+            self.freed.append(mm_hash)
+            self.num_free_slots += num_free_token
+        return True
+
+    def allocate(self, request: Request, input_id: int) -> None:
+        """Allocate cache space for a multimodal input's encoder output.
+
+        This reserves cache space for storing the encoder output of the
+        specified multimodal input. The actual encoder output storage happens in
+        the model runner; this method updates the manager's bookkeeping.
+
+        Note:
+            This method assumes can_allocate() returned True for the same input.
+        """
+
+        mm_hash = request.mm_features[input_id].identifier
+        request_id = request.request_id
+        if mm_hash not in self.cached:
+            self.cached[mm_hash] = set()
+
+        num_encoder_tokens = request.get_num_encoder_tokens(input_id)
+
+        # NOTE: Encoder cache should always have enough space for encoder inputs
+        # that are scheduled since eviction takes place at can_allocate().
+        assert self.num_free_slots >= num_encoder_tokens
+        assert self.num_freeable_slots >= num_encoder_tokens
+
+        self.cached[mm_hash].add(request_id)
+        self.num_free_slots -= num_encoder_tokens
+        self.num_freeable_slots -= num_encoder_tokens
+
+    def get_cached_input_ids(self, request: Request) -> set[int]:
+        """Get all cached multimodal input IDs for a request.
+
+        Returns the set of input IDs whose `mm_hash` exists in the cache map.
+        This includes entries that are currently unreferenced (and thus present
+        in `freeable`); for such entries, freeing for this request will be a
+        no-op.
+        """
+        return {
+            input_id
+            for input_id in range(len(request.mm_features))
+            if request.mm_features[input_id].identifier in self.cached
+        }
+
+    def free_encoder_input(self, request: Request, input_id: int) -> None:
+        """Free the request's reference to the encoder input (`mm_data`)
+
+        When the reference set for the corresponding `mm_hash` becomes empty,
+        the entry is appended to `freeable` and `num_freeable_slots` is
+        increased by the number of encoder tokens for that input.
+
+        The entry is NOT physically freed until capacity is needed (e.g., by
+        `can_allocate`).
+        """
+        req_id = request.request_id
+        mm_hash = request.mm_features[input_id].identifier
+        # The mm_hash not in cache or the req_id set is empty
+        if not self.cached.get(mm_hash, None):
+            return
+        self.cached[mm_hash].discard(req_id)
+        if not self.cached[mm_hash]:
+            num_tokens = request.get_num_encoder_tokens(input_id)
+            self.freeable[mm_hash] = num_tokens
+            self.num_freeable_slots += num_tokens
+
+    def free(self, request: Request) -> None:
+        """Free all encoder input cache reference held by *request*.
+
+        For each cached input ID, `free_encoder_input` is invoked.
+        The data stays in memory until eviction is triggered by a future
+        attempt allocation called by 'can_allocate'.
+
+        Typically called when a request is finished, cancelled, or aborted.
+        """
+        input_ids = self.get_cached_input_ids(request).copy()
+        for input_id in input_ids:
+            self.free_encoder_input(request, input_id)
+
+    def get_freed_mm_hashes(self) -> list[str]:
+        """Get and clear the list of recently freed encoder cache entries.
+
+        Returns:
+            List of mm_hash strings that were actually evicted since the last
+            call to be used by the scheduler to notify workers about which
+            encoder outputs can be removed from their caches. The internal
+            list is cleared after this call.
+        """
+        freed = self.freed
+        self.freed = []
+        return freed
+
+
+def compute_encoder_budget(
+    model_config: "ModelConfig",
+    scheduler_config: "SchedulerConfig",
+    mm_registry: MultiModalRegistry,
+) -> tuple[int, int]:
+    """Compute the encoder cache budget based on the model and scheduler
+    configurations.
+
+    Returns:
+        - Compute budget for encoder execution, measured in number of tokens
+            from the input sequence.
+        - Space budget for encoder cache size, measured in number of tokens
+            from the input sequence.
+    """
+    if mm_registry.supports_multimodal_inputs(model_config):
+        max_tokens_by_modality = mm_registry.get_max_tokens_per_item_by_modality(
+            model_config
+        )
+
+        return compute_mm_encoder_budget(
+            scheduler_config,
+            max_tokens_by_modality,
+        )
+
+    return compute_text_encoder_budget(scheduler_config)
+
+
+def compute_text_encoder_budget(scheduler_config: "SchedulerConfig") -> tuple[int, int]:
+    """Compute the encoder cache budget based on the model and scheduler
+    configurations for a text-only model.
+
+    Args:
+        scheduler_config: Scheduler configuration.
+
+    Returns:
+        - Compute budget for encoder execution, in unit of number of tokens
+            in the input sequence.
+        - Space budget for encoder cache size, in unit of number of tokens
+            in the input sequence.
+    """
+    # Currently text-only encoder-decoder models are not supported
+    return 0, 0
+
+
+def compute_mm_encoder_budget(
+    scheduler_config: "SchedulerConfig",
+    max_tokens_by_modality: Mapping[str, int],
+) -> tuple[int, int]:
+    """Compute the encoder cache budget based on the model and scheduler
+    configurations for a multimodal model.
+
+    Args:
+        scheduler_config: Scheduler configuration.
+        max_tokens_by_modality: The maximum number of tokens for each
+            non-text modality.
+
+    Returns:
+        - Compute budget for encoder execution, measured in number of tokens
+            from the input sequence.
+        - Space budget for encoder cache size, measured in number of tokens
+            from the input sequence.
+    """
+
+    if not max_tokens_by_modality:
+        logger.warning(
+            "All non-text modalities supported by the model have been "
+            "explicitly disabled via limit_mm_per_prompt. Encoder cache will "
+            "not be initialized."
+        )
+        return 0, 0
+
+    max_tokens_per_mm_item = max(max_tokens_by_modality.values())
+
+    if (
+        scheduler_config.disable_chunked_mm_input
+        and max_tokens_per_mm_item > scheduler_config.max_num_batched_tokens
+    ):
+        raise ValueError(
+            "Chunked MM input disabled but max_tokens_per_mm_item "
+            f"({max_tokens_per_mm_item}) is larger than max_num_batched_tokens"
+            f" ({scheduler_config.max_num_batched_tokens}). Please increase "
+            "max_num_batched_tokens."
+        )
+
+    encoder_compute_budget = max(
+        scheduler_config.max_num_encoder_input_tokens, max_tokens_per_mm_item
+    )
+    encoder_cache_size = max(
+        scheduler_config.encoder_cache_size, max_tokens_per_mm_item
+    )
+
+    return encoder_compute_budget, encoder_cache_size
diff --git a/v1/core/kv_cache_coordinator.py b/v1/core/kv_cache_coordinator.py
new file mode 100644
index 0000000..137e5e0
--- /dev/null
+++ b/v1/core/kv_cache_coordinator.py
@@ -0,0 +1,480 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Sequence
+
+from vllm.v1.core.block_pool import BlockPool
+from vllm.v1.core.kv_cache_utils import BlockHash, KVCacheBlock
+from vllm.v1.core.single_type_kv_cache_manager import (
+    CrossAttentionManager,
+    FullAttentionManager,
+    get_manager_for_kv_cache_spec,
+)
+from vllm.v1.kv_cache_interface import FullAttentionSpec, KVCacheConfig, KVCacheSpec
+from vllm.v1.request import Request
+
+
+class KVCacheCoordinator(ABC):
+    """
+    Coordinate the KV cache of different KV cache groups.
+    """
+
+    def __init__(
+        self,
+        kv_cache_config: KVCacheConfig,
+        max_model_len: int,
+        use_eagle: bool,
+        enable_caching: bool,
+        enable_kv_cache_events: bool,
+        dcp_world_size: int,
+    ):
+        self.kv_cache_config = kv_cache_config
+        self.max_model_len = max_model_len
+        self.enable_caching = enable_caching
+
+        self.block_pool = BlockPool(
+            kv_cache_config.num_blocks, enable_caching, enable_kv_cache_events
+        )
+
+        # Needs special handling for find_longest_cache_hit if eagle is enabled
+        self.use_eagle = use_eagle
+        self.single_type_managers = tuple(
+            get_manager_for_kv_cache_spec(
+                kv_cache_spec=kv_cache_group.kv_cache_spec,
+                block_pool=self.block_pool,
+                kv_cache_group_id=i,
+                dcp_world_size=dcp_world_size,
+            )
+            for i, kv_cache_group in enumerate(self.kv_cache_config.kv_cache_groups)
+        )
+
+    def get_num_blocks_to_allocate(
+        self,
+        request_id: str,
+        num_tokens: int,
+        new_computed_blocks: tuple[Sequence[KVCacheBlock], ...],
+        num_encoder_tokens: int,
+    ) -> int:
+        """
+        Get the number of blocks needed to be allocated for the request.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including
+                tokens that are already allocated).
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix caching.
+            num_encoder_tokens: The number of encoder tokens for allocating
+                blocks for cross-attention.
+
+        Returns:
+            The number of blocks.
+        """
+        num_blocks_to_allocate = 0
+        for i, manager in enumerate(self.single_type_managers):
+            if isinstance(manager, CrossAttentionManager):
+                # For cross-attention, we issue a single static allocation
+                # of blocks based on the number of encoder input tokens.
+                num_blocks_to_allocate += manager.get_num_blocks_to_allocate(
+                    request_id, num_encoder_tokens, []
+                )
+            else:
+                num_blocks_to_allocate += manager.get_num_blocks_to_allocate(
+                    request_id, num_tokens, new_computed_blocks[i]
+                )
+        return num_blocks_to_allocate
+
+    def save_new_computed_blocks(
+        self, request_id: str, new_computed_blocks: tuple[Sequence[KVCacheBlock], ...]
+    ) -> None:
+        """
+        Add the new computed blocks to the request.
+
+        Args:
+            request_id: The request ID.
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix cache.
+        """
+        for i, manager in enumerate(self.single_type_managers):
+            manager.save_new_computed_blocks(request_id, new_computed_blocks[i])
+
+    def allocate_new_blocks(
+        self, request_id: str, num_tokens: int, num_encoder_tokens: int = 0
+    ) -> tuple[list[KVCacheBlock], ...]:
+        """
+        Allocate new blocks for the request to give it at least `num_tokens`
+        token slots.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including
+                tokens that are already allocated).
+            num_encoder_tokens: The number of encoder tokens for allocating
+                blocks for cross-attention.
+
+        Returns:
+            The new allocated blocks.
+        """
+        return tuple(
+            manager.allocate_new_blocks(
+                request_id,
+                num_encoder_tokens
+                if isinstance(manager, CrossAttentionManager)
+                else num_tokens,
+            )
+            for manager in self.single_type_managers
+        )
+
+    def cache_blocks(self, request: Request, num_computed_tokens: int) -> None:
+        """
+        Cache the blocks for the request.
+
+        Args:
+            request: The request.
+            num_computed_tokens: The total number of tokens
+                that need to be cached
+                (including tokens that are already cached).
+        """
+        for manager in self.single_type_managers:
+            manager.cache_blocks(request, num_computed_tokens)
+
+    def free(self, request_id: str) -> None:
+        """
+        Free the blocks for the request.
+
+        Args:
+            request_id: The request ID.
+        """
+        for manager in self.single_type_managers:
+            manager.free(request_id)
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> list[int]:
+        """
+        Get the number of common prefix blocks for all requests with allocated
+        KV cache for each kv cache group.
+
+        Args:
+            running_request_id: The request ID of any running request, used to
+                identify the common prefix blocks.
+
+        Returns:
+            list[int]: The number of common prefix blocks for each kv cache group.
+        """
+        return [
+            manager.get_num_common_prefix_blocks(running_request_id)
+            for manager in self.single_type_managers
+        ]
+
+    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
+        """
+        Remove the blocks that are no longer needed from `blocks` and replace
+        the removed blocks with null_block.
+
+        Args:
+            request_id: The request ID.
+            num_computed_tokens: The number of tokens that have been computed.
+        """
+        for manager in self.single_type_managers:
+            manager.remove_skipped_blocks(request_id, num_computed_tokens)
+
+    def get_blocks(self, request_id: str) -> tuple[list[KVCacheBlock], ...]:
+        """
+        Get the blocks for the request.
+        """
+        return tuple(
+            manager.req_to_blocks.get(request_id) or []
+            for manager in self.single_type_managers
+        )
+
+    @abstractmethod
+    def find_longest_cache_hit(
+        self,
+        block_hashes: list[BlockHash],
+        max_cache_hit_length: int,
+    ) -> tuple[tuple[list[KVCacheBlock], ...], int]:
+        pass
+
+
+class KVCacheCoordinatorNoPrefixCache(KVCacheCoordinator):
+    """
+    KV cache coordinator to use if prefix caching is disabled or unsupported.
+    In contrast to UnitaryKVCacheCoordinator and HybridKVCacheCoordinator,
+    supports arbitrary numbers of KV cache groups (including 0 groups).
+    Does not implement any features related to prefix caching.
+    """
+
+    def __init__(
+        self,
+        kv_cache_config: KVCacheConfig,
+        max_model_len: int,
+        use_eagle: bool,
+        enable_kv_cache_events: bool,
+        dcp_world_size: int,
+    ):
+        super().__init__(
+            kv_cache_config,
+            max_model_len,
+            use_eagle,
+            False,
+            enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+        self.num_single_type_manager = len(self.single_type_managers)
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> list[int]:
+        return [0] * self.num_single_type_manager
+
+    def find_longest_cache_hit(
+        self,
+        block_hashes: list[BlockHash],
+        max_cache_hit_length: int,
+    ) -> tuple[tuple[list[KVCacheBlock], ...], int]:
+        blocks: tuple[list[KVCacheBlock], ...] = tuple(
+            [] for _ in range(self.num_single_type_manager)
+        )
+        return blocks, 0
+
+
+class UnitaryKVCacheCoordinator(KVCacheCoordinator):
+    """
+    KV cache coordinator for models with only one KV cache group. This is the
+    case for models with only one KV cache type, e.g., all attention layers use
+    full attention or all attention layers use sliding window attention.
+    """
+
+    def __init__(
+        self,
+        kv_cache_config: KVCacheConfig,
+        max_model_len: int,
+        use_eagle: bool,
+        enable_caching: bool,
+        enable_kv_cache_events: bool,
+        dcp_world_size: int,
+    ):
+        super().__init__(
+            kv_cache_config,
+            max_model_len,
+            use_eagle,
+            enable_caching,
+            enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+        self.kv_cache_spec = self.kv_cache_config.kv_cache_groups[0].kv_cache_spec
+        self.block_size = self.kv_cache_spec.block_size
+        self.dcp_world_size = dcp_world_size
+        if dcp_world_size > 1:
+            self.block_size *= dcp_world_size
+        assert len(self.kv_cache_config.kv_cache_groups) == 1, (
+            "UnitaryKVCacheCoordinator assumes only one kv cache group"
+        )
+
+    def find_longest_cache_hit(
+        self,
+        block_hashes: list[BlockHash],
+        max_cache_hit_length: int,
+    ) -> tuple[tuple[list[KVCacheBlock], ...], int]:
+        hit_blocks = self.single_type_managers[0].find_longest_cache_hit(
+            block_hashes=block_hashes,
+            max_length=max_cache_hit_length,
+            kv_cache_group_ids=[0],
+            block_pool=self.block_pool,
+            kv_cache_spec=self.kv_cache_spec,
+            use_eagle=self.use_eagle,
+            dcp_world_size=self.dcp_world_size,
+        )
+        return hit_blocks, len(hit_blocks[0]) * self.block_size
+
+
+class HybridKVCacheCoordinator(KVCacheCoordinator):
+    """
+    KV cache coordinator for hybrid models with multiple KV cache types, and
+    thus multiple kv cache groups.
+    To simplify `find_longest_cache_hit`, it only supports the combination of
+    two types of KV cache groups, and one of them must be full attention.
+    May extend to more general cases in the future.
+    """
+
+    def __init__(
+        self,
+        kv_cache_config: KVCacheConfig,
+        max_model_len: int,
+        use_eagle: bool,
+        enable_caching: bool,
+        enable_kv_cache_events: bool,
+        dcp_world_size: int,
+    ):
+        super().__init__(
+            kv_cache_config,
+            max_model_len,
+            use_eagle,
+            enable_caching,
+            enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+        assert dcp_world_size == 1, "DCP not support hybrid attn now."
+        self.verify_and_split_kv_cache_groups()
+
+    def verify_and_split_kv_cache_groups(self) -> None:
+        """
+        Verifies that the model has exactly two types of KV cache groups, and
+        one of them is full attention. Then, split the kv cache groups into full
+        attention groups and other groups.
+        """
+        full_attention_spec: FullAttentionSpec | None = None
+        other_spec: KVCacheSpec | None = None
+        self.full_attention_group_ids: list[int] = []
+        self.other_group_ids: list[int] = []
+        for i, g in enumerate(self.kv_cache_config.kv_cache_groups):
+            if isinstance(g.kv_cache_spec, FullAttentionSpec):
+                if full_attention_spec is None:
+                    full_attention_spec = g.kv_cache_spec
+                else:
+                    assert full_attention_spec == g.kv_cache_spec, (
+                        "HybridKVCacheCoordinator assumes exactly one type of "
+                        "full attention groups now."
+                    )
+                self.full_attention_group_ids.append(i)
+            else:
+                if other_spec is None:
+                    other_spec = g.kv_cache_spec
+                else:
+                    assert other_spec == g.kv_cache_spec, (
+                        "HybridKVCacheCoordinator assumes "
+                        "exactly one other type of groups now."
+                    )
+                self.other_group_ids.append(i)
+
+        assert full_attention_spec is not None, (
+            "HybridKVCacheCoordinator assumes exactly one type of full "
+            "attention groups now."
+        )
+        assert other_spec is not None, (
+            "HybridKVCacheCoordinator assumes exactly one type of other groups now."
+        )
+
+        self.full_attention_manager_cls = FullAttentionManager
+        self.other_attention_cls = self.single_type_managers[
+            self.other_group_ids[0]
+        ].__class__
+        self.full_attention_spec = full_attention_spec
+        self.other_spec = other_spec
+        self.full_attention_block_size = self.full_attention_spec.block_size
+        self.other_block_size = self.other_spec.block_size
+
+        if self.enable_caching:
+            # this requirement is only needed for the prefix caching logic
+            divisible = self.other_block_size % self.full_attention_block_size
+            assert divisible == 0, (
+                "KVCacheCoordinator assumes the block_size of full "
+                "attention layers is divisible by other layers now."
+            )
+
+        if max(self.full_attention_group_ids) < min(self.other_group_ids):
+            self.full_attn_first = True
+        elif max(self.other_group_ids) < min(self.full_attention_group_ids):
+            self.full_attn_first = False
+        else:
+            raise ValueError(
+                "HybridKVCacheCoordinator assumes the full "
+                "attention group ids and other attention group ids "
+                "do not interleave, either full attention group ids "
+                "are before other attention group ids or vice versa."
+                "This is for simplifying merging hit_blocks_full_attn and "
+                "hit_blocks_other_attn to hit_blocks."
+            )
+
+    def find_longest_cache_hit(
+        self,
+        block_hashes: list[BlockHash],
+        max_cache_hit_length: int,
+    ) -> tuple[tuple[list[KVCacheBlock], ...], int]:
+        """
+        Find the longest cache hit for the request.
+
+        Args:
+            block_hashes: The block hashes of the request.
+            max_cache_hit_length: The maximum length of the cache hit.
+
+        Returns:
+            A tuple containing:
+                - A list of the cache hit blocks for each single type manager.
+                - The number of tokens of the longest cache hit.
+        """
+        # First, find the longest cache hit for full attention.
+        hit_blocks_full_attn = self.full_attention_manager_cls.find_longest_cache_hit(
+            block_hashes=block_hashes,
+            max_length=max_cache_hit_length,
+            kv_cache_group_ids=self.full_attention_group_ids,
+            block_pool=self.block_pool,
+            kv_cache_spec=self.full_attention_spec,
+            use_eagle=self.use_eagle,
+        )
+        hit_length = len(hit_blocks_full_attn[0]) * self.full_attention_block_size
+
+        # Next, find the cache hit for the other attention WITHIN
+        # the cache hit of full attention.
+        hit_blocks_other_attn = self.other_attention_cls.find_longest_cache_hit(
+            block_hashes=block_hashes,
+            max_length=hit_length,
+            kv_cache_group_ids=self.other_group_ids,
+            block_pool=self.block_pool,
+            kv_cache_spec=self.other_spec,
+            use_eagle=self.use_eagle,
+        )
+        hit_length = len(hit_blocks_other_attn[0]) * self.other_block_size
+
+        # NOTE: the prefix cache hit length must be a multiple of block_size as
+        # we don't support partial block cache hit yet. The cache hit length
+        # of other attention is ensured to be a multiple of the block size of
+        # full attention layers in current implementation, because hit_length is
+        # a multiple of other attention's block size, and other attention's
+        # block size is a multiple of full attention's block size (verified in
+        # `verify_and_split_kv_cache_groups`).
+        assert hit_length % self.full_attention_block_size == 0
+
+        # Truncate the full attention cache hit to the length of the
+        # cache hit of the other attention.
+        for group_hit_blocks in hit_blocks_full_attn:
+            del group_hit_blocks[hit_length // self.full_attention_block_size :]
+
+        # Merge the hit blocks of full attention and other attention.
+        if self.full_attn_first:
+            hit_blocks = hit_blocks_full_attn + hit_blocks_other_attn
+        else:
+            hit_blocks = hit_blocks_other_attn + hit_blocks_full_attn
+        return hit_blocks, hit_length
+
+
+def get_kv_cache_coordinator(
+    kv_cache_config: KVCacheConfig,
+    max_model_len: int,
+    use_eagle: bool,
+    enable_caching: bool,
+    enable_kv_cache_events: bool,
+    dcp_world_size: int,
+) -> KVCacheCoordinator:
+    if not enable_caching:
+        return KVCacheCoordinatorNoPrefixCache(
+            kv_cache_config,
+            max_model_len,
+            use_eagle,
+            enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+    if len(kv_cache_config.kv_cache_groups) == 1:
+        return UnitaryKVCacheCoordinator(
+            kv_cache_config,
+            max_model_len,
+            use_eagle,
+            enable_caching,
+            enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+    return HybridKVCacheCoordinator(
+        kv_cache_config,
+        max_model_len,
+        use_eagle,
+        enable_caching,
+        enable_kv_cache_events,
+        dcp_world_size=dcp_world_size,
+    )
diff --git a/v1/core/kv_cache_manager.py b/v1/core/kv_cache_manager.py
new file mode 100644
index 0000000..7f405fc
--- /dev/null
+++ b/v1/core/kv_cache_manager.py
@@ -0,0 +1,420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+from collections.abc import Sequence
+from dataclasses import dataclass
+from typing import Literal, overload
+
+from vllm.distributed.kv_events import KVCacheEvent
+from vllm.logger import init_logger
+from vllm.v1.core.kv_cache_coordinator import get_kv_cache_coordinator
+from vllm.v1.core.kv_cache_utils import KVCacheBlock
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.metrics.stats import PrefixCacheStats
+from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class KVCacheBlocks:
+    """
+    The allocation result of KVCacheManager, work as the interface between
+    Scheduler and KVCacheManager, to hide KVCacheManager's internal data
+    structure from the Scheduler.
+    """
+
+    blocks: tuple[Sequence[KVCacheBlock], ...]
+    """
+    `blocks[i][j]` refers to the i-th kv_cache_group
+    and the j-th block of tokens.We don't use block of
+    tokens as the outer dimension because it assumes all
+    kv_cache_groups have the same number of blocks, which is true for now but
+    will be broken if we want to give different block_size to different
+    kv_cache_groups in the future.
+
+    Each single type KVCacheBlocks could be represented as:
+    - list[KVCacheBlock] for more than one KVCacheBlock
+    - an empty tuple for requests without KVCacheBlock
+      (a precomputed KVCacheBlocks is in KVCacheManager to avoid GC overhead)
+    """
+
+    def __add__(self, other: "KVCacheBlocks") -> "KVCacheBlocks":
+        """Adds two KVCacheBlocks instances."""
+        return KVCacheBlocks(
+            tuple(
+                list(itertools.chain(blk1, blk2))
+                for blk1, blk2 in zip(self.blocks, other.blocks)
+            )
+        )
+
+    @overload
+    def get_block_ids(
+        self,
+        allow_none: Literal[False] = False,
+    ) -> tuple[list[int], ...]: ...
+
+    @overload
+    def get_block_ids(
+        self,
+        allow_none: Literal[True] = True,
+    ) -> tuple[list[int], ...] | None: ...
+
+    def get_block_ids(
+        self,
+        allow_none: bool = False,
+    ) -> tuple[list[int], ...] | None:
+        """
+        Converts the KVCacheBlocks instance to block_ids.
+
+        Returns:
+            tuple[list[int], ...]: A tuple of lists where:
+                - the outer tuple corresponds to KV cache groups
+                - each inner list contains the block_ids of the blocks in that
+                  group
+        """
+        if allow_none and all(len(group) == 0 for group in self.blocks):
+            return None
+        return tuple([blk.block_id for blk in group] for group in self.blocks)
+
+    def get_unhashed_block_ids(self) -> list[int]:
+        """Get block_ids of unhashed blocks from KVCacheBlocks instance."""
+        assert len(self.blocks) == 1, "Only one group is supported"
+        return [block.block_id for block in self.blocks[0] if block.block_hash is None]
+
+    def new_empty(self) -> "KVCacheBlocks":
+        """
+        Creates a new KVCacheBlocks instance with no blocks.
+        """
+        return KVCacheBlocks(tuple(() for _ in range(len(self.blocks))))
+
+
+class KVCacheManager:
+    def __init__(
+        self,
+        kv_cache_config: KVCacheConfig,
+        max_model_len: int,
+        enable_caching: bool = True,
+        use_eagle: bool = False,
+        log_stats: bool = False,
+        enable_kv_cache_events: bool = False,
+        dcp_world_size: int = 1,
+    ) -> None:
+        self.max_model_len = max_model_len
+
+        self.enable_caching = enable_caching
+        self.use_eagle = use_eagle
+        self.log_stats = log_stats
+        # FIXME: make prefix cache stats conditional on log_stats
+        self.prefix_cache_stats = PrefixCacheStats() if log_stats else None
+
+        self.block_size: int | None = None
+        if self.enable_caching:
+            assert (
+                len(
+                    set(
+                        g.kv_cache_spec.block_size
+                        for g in kv_cache_config.kv_cache_groups
+                    )
+                )
+                == 1
+            ), "Only one block size is supported for now"
+            self.block_size = kv_cache_config.kv_cache_groups[
+                0
+            ].kv_cache_spec.block_size
+
+            if dcp_world_size > 1:
+                assert len(kv_cache_config.kv_cache_groups) == 1
+                # Note(hc): need revisit. When both DCP and any future
+                # PCP are enabled, the block_size may need to be scaled
+                # by a factor of dcp_size × pcp_size?
+                self.block_size *= dcp_world_size
+
+        self.coordinator = get_kv_cache_coordinator(
+            kv_cache_config=kv_cache_config,
+            max_model_len=self.max_model_len,
+            use_eagle=self.use_eagle,
+            enable_caching=self.enable_caching,
+            enable_kv_cache_events=enable_kv_cache_events,
+            dcp_world_size=dcp_world_size,
+        )
+        self.num_kv_cache_groups = len(kv_cache_config.kv_cache_groups)
+        self.block_pool = self.coordinator.block_pool
+        self.kv_cache_config = kv_cache_config
+
+        # Pre-constructed KVCacheBlocks with no blocks, callers should use this
+        # via create_kv_cache_blocks instead of creating new ones to avoid GC
+        # overhead.
+        #
+        # We use nested tuples to ensure the empty KVCacheBlocks is immutable.
+        self.empty_kv_cache_blocks = KVCacheBlocks(
+            tuple(() for _ in range(self.num_kv_cache_groups))
+        )
+
+    @property
+    def usage(self) -> float:
+        """Get the KV cache usage.
+
+        Returns:
+            The KV cache usage (between 0.0 and 1.0).
+        """
+        return self.block_pool.get_usage()
+
+    def make_prefix_cache_stats(self) -> PrefixCacheStats | None:
+        """Get (and reset) the prefix cache stats.
+
+        Returns:
+            The current prefix caching stats, or None if logging is disabled.
+        """
+        if not self.log_stats:
+            return None
+        stats = self.prefix_cache_stats
+        self.prefix_cache_stats = PrefixCacheStats()
+        return stats
+
+    def get_computed_blocks(self, request: Request) -> tuple[KVCacheBlocks, int]:
+        """Get the computed (cached) blocks for the request.
+        Note that the computed blocks must be full.
+
+        Args:
+            request: The request to get the computed blocks.
+
+        Returns:
+            A tuple containing:
+                - A list of blocks that are computed for the request.
+                - The number of computed tokens.
+        """
+        # We skip finding the prefix cache hit when prefix caching is
+        # disabled or the request is marked as skipping kv cache read
+        # (which happens when the request requires prompt logprobs
+        # or calls a pooling model with all pooling).
+        if not self.enable_caching or request.skip_reading_prefix_cache:
+            return self.empty_kv_cache_blocks, 0
+
+        # NOTE: When all tokens hit the cache, we must recompute the last token
+        # to obtain logits. Thus, set max_cache_hit_length to prompt_length - 1.
+        # This can trigger recomputation of an entire block, rather than just
+        # the single last token, because allocate_slots() requires
+        # num_computed_tokens to be block-size aligned. Removing this limitation
+        # could slightly improve performance in the future.
+        max_cache_hit_length = request.num_tokens - 1
+        computed_blocks, num_new_computed_tokens = (
+            self.coordinator.find_longest_cache_hit(
+                request.block_hashes, max_cache_hit_length
+            )
+        )
+
+        if self.log_stats:
+            assert self.prefix_cache_stats is not None
+            self.prefix_cache_stats.record(
+                num_tokens=request.num_tokens,
+                num_hits=num_new_computed_tokens,
+                preempted=request.num_preemptions > 0,
+            )
+
+        return self.create_kv_cache_blocks(computed_blocks), num_new_computed_tokens
+
+    def allocate_slots(
+        self,
+        request: Request,
+        num_new_tokens: int,
+        num_new_computed_tokens: int = 0,
+        new_computed_blocks: KVCacheBlocks | None = None,
+        num_lookahead_tokens: int = 0,
+        delay_cache_blocks: bool = False,
+        num_encoder_tokens: int = 0,
+    ) -> KVCacheBlocks | None:
+        """Add slots for a request with new tokens to append.
+
+        Args:
+            request: The request to allocate slots.
+            num_new_tokens: The number of tokens to allocate, including external
+                tokens. Note that this does not include tokens that have
+                already been computed locally (i.e. new_computed_blocks).
+            num_new_computed_tokens: The number of new computed tokens just
+                hitting the prefix caching, excluding external tokens.
+            new_computed_blocks: The cached blocks for the above new computed
+                tokens.
+            num_lookahead_tokens: The number of speculative tokens to allocate.
+                This is used by spec decode proposers with kv-cache such
+                as eagle.
+            delay_cache_blocks: Whether to skip caching the blocks. This is
+                used by P/D when allocating blocks used in a KV transfer
+                which will complete in a future step.
+
+        Blocks layout:
+        ```
+        -----------------------------------------------------------------------
+        | < computed > | < new computed > |    < new >    | < pre-allocated > |
+        -----------------------------------------------------------------------
+        |                  < required >                   |
+        --------------------------------------------------
+        |                    < full >                  |
+        ------------------------------------------------
+                                          | <new full> |
+                                          --------------
+        ```
+        The following *_blocks are illustrated in this layout.
+
+        Returns:
+            A list of new allocated blocks.
+        """
+        if num_new_tokens == 0:
+            raise ValueError("num_new_tokens must be greater than 0")
+
+        if new_computed_blocks is not None:
+            new_computed_block_list = new_computed_blocks.blocks
+        else:
+            new_computed_block_list = self.empty_kv_cache_blocks.blocks
+
+        # Free the blocks that are skipped during the attention computation
+        # (e.g., tokens outside the sliding window).
+        # We can do this even if we cannot schedule this request due to
+        # insufficient free blocks.
+        # Should call this function before allocating new blocks to reduce
+        # the number of evicted blocks.
+        self.coordinator.remove_skipped_blocks(
+            request.request_id, request.num_computed_tokens
+        )
+
+        # The number of computed tokens is the number of computed tokens plus
+        # the new prefix caching hits
+        num_computed_tokens = request.num_computed_tokens + num_new_computed_tokens
+        num_tokens_need_slot = min(
+            num_computed_tokens + num_new_tokens + num_lookahead_tokens,
+            self.max_model_len,
+        )
+
+        num_blocks_to_allocate = self.coordinator.get_num_blocks_to_allocate(
+            request_id=request.request_id,
+            num_tokens=num_tokens_need_slot,
+            new_computed_blocks=new_computed_block_list,
+            num_encoder_tokens=num_encoder_tokens,
+        )
+
+        if num_blocks_to_allocate > self.block_pool.get_num_free_blocks():
+            # Cannot allocate new blocks
+            return None
+
+        # Touch the computed blocks to make sure they won't be evicted.
+        if self.enable_caching:
+            self.block_pool.touch(new_computed_block_list)
+        else:
+            assert not any(new_computed_block_list), (
+                "Computed blocks should be empty when prefix caching is disabled"
+            )
+
+        if new_computed_block_list is not self.empty_kv_cache_blocks.blocks:
+            # Append the new computed blocks to the request blocks until now to
+            # avoid the case where the new blocks cannot be allocated.
+            self.coordinator.save_new_computed_blocks(
+                request.request_id, new_computed_block_list
+            )
+
+        new_blocks = self.coordinator.allocate_new_blocks(
+            request.request_id, num_tokens_need_slot, num_encoder_tokens
+        )
+
+        # P/D: delay caching blocks if we have to recv from
+        # remote. Update state for locally cached blocks.
+        if not self.enable_caching or delay_cache_blocks:
+            return self.create_kv_cache_blocks(new_blocks)
+
+        # NOTE(woosuk): We want to commit (cache) up to num_computed_tokens +
+        # num_new_tokens, but must exclude "non-committable" tokens (e.g.,
+        # draft tokens that could be rejected). Therefore, we cap the number
+        # at `request.num_tokens`, ensuring only "finalized" tokens are cached.
+        num_tokens_to_cache = min(
+            num_computed_tokens + num_new_tokens, request.num_tokens
+        )
+        self.coordinator.cache_blocks(request, num_tokens_to_cache)
+
+        return self.create_kv_cache_blocks(new_blocks)
+
+    def free(self, request: Request) -> None:
+        """Free the blocks allocated for the request.
+        We free the blocks in reverse order so that the tail blocks are evicted
+        first when caching is enabled.
+
+        Args:
+            request: The request to free the blocks.
+        """
+        self.coordinator.free(request.request_id)
+
+    def reset_prefix_cache(self) -> bool:
+        """Reset prefix cache. This function may be used in RLHF
+        flows to invalidate prefix caching after the weights are updated,
+        or used for resetting prefix caching status for benchmarking.
+
+        Returns:
+            bool: True if the prefix cache is successfully reset,
+            False otherwise.
+        """
+        if not self.block_pool.reset_prefix_cache():
+            return False
+        if self.log_stats:
+            assert self.prefix_cache_stats is not None
+            self.prefix_cache_stats.reset = True
+        return True
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> list[int]:
+        """Calculate the number of common prefix blocks for each kv cache group.
+
+        The function selects a running request and iterates through its blocks.
+        A block is considered a common prefix block if ALL requests with
+        allocated KV cache share it (i.e., ref_cnt equals the number of entries
+        in req_to_blocks).
+
+        NOTE(woosuk): The number of requests with allocated KV cache is **greater
+        than or equal to** the number of requests scheduled in the current step.
+        This is because having allocated KV cache only indicates that:
+        1. The request has not yet finished, and
+        2. The request holds its blocks unfreed.
+
+        While all scheduled requests must have allocated KV cache, the inverse
+        is not necessarily true. There may be requests with allocated KV cache
+        that are not scheduled in the current step.
+
+        This can result in an edge case where the number of common prefix blocks
+        is 0, even though all scheduled requests share a common prefix. This
+        occurs because there may be unscheduled requests that do not share the
+        common prefix. Currently, this case cannot be easily detected, so the
+        function returns 0 in such cases.
+
+        Args:
+            running_request_id: The request ID of any running request, used to
+                identify the common prefix blocks.
+
+        Returns:
+            list[int]: The number of common prefix blocks for each kv cache
+            group.
+        """
+        return self.coordinator.get_num_common_prefix_blocks(running_request_id)
+
+    def take_events(self) -> list[KVCacheEvent]:
+        """Take the KV cache events from the block pool.
+
+        Returns:
+            A list of KV cache events.
+        """
+        return self.block_pool.take_events()
+
+    def get_blocks(self, request_id: str) -> KVCacheBlocks:
+        """Get the blocks of a request."""
+        return self.create_kv_cache_blocks(self.coordinator.get_blocks(request_id))
+
+    def get_block_ids(self, request_id: str) -> tuple[list[int], ...]:
+        """Get the block ids of a request."""
+        return self.get_blocks(request_id).get_block_ids()
+
+    def cache_blocks(self, request: Request, num_computed_tokens: int) -> None:
+        """Cache the blocks for the request, if enabled."""
+        if self.enable_caching:
+            self.coordinator.cache_blocks(request, num_computed_tokens)
+
+    def create_kv_cache_blocks(
+        self, blocks: tuple[list[KVCacheBlock], ...]
+    ) -> KVCacheBlocks:
+        # Only create new KVCacheBlocks for non-empty blocks
+        return KVCacheBlocks(blocks) if any(blocks) else self.empty_kv_cache_blocks
diff --git a/v1/core/kv_cache_utils.py b/v1/core/kv_cache_utils.py
new file mode 100644
index 0000000..d4ae3e5
--- /dev/null
+++ b/v1/core/kv_cache_utils.py
@@ -0,0 +1,1356 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""KV-Cache Utilities."""
+
+import copy
+import os
+from collections import defaultdict
+from collections.abc import Callable, Iterable, Sequence
+from dataclasses import dataclass
+from typing import Any, NewType, TypeAlias
+
+from vllm import envs
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.utils.hashing import sha256_cbor
+from vllm.utils.math_utils import cdiv
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.v1.kv_cache_interface import (
+    ChunkedLocalAttentionSpec,
+    FullAttentionSpec,
+    KVCacheConfig,
+    KVCacheGroupSpec,
+    KVCacheSpec,
+    KVCacheTensor,
+    SlidingWindowSpec,
+    UniformTypeKVCacheSpecs,
+)
+from vllm.v1.request import Request
+from vllm.v1.utils import tensor_data
+
+# BlockHash represents the hash of a single KV-cache block used for
+# prefix caching.  Treating it as a distinct type from `bytes` helps
+# catch accidental misuse when passing around raw byte strings.
+BlockHash = NewType("BlockHash", bytes)
+
+# `BlockHashWithGroupId` combines a `BlockHash` with its KV cache group ID.
+# It is represented as raw bytes for compactness and efficiency. The helper
+# functions below pack/unpack the `BlockHash` and group id into/from the key.
+BlockHashWithGroupId = NewType("BlockHashWithGroupId", bytes)
+
+# ExternalBlockHash is used for reproducible prefix-cache block hashing.
+# It's a union of `bytes` and `int` to keep backward compatibility
+# after we default block hashing to use sha256 bytes.
+ExternalBlockHash: TypeAlias = bytes | int
+
+
+def make_block_hash_with_group_id(
+    block_hash: BlockHash, group_id: int
+) -> BlockHashWithGroupId:
+    """Pack a `BlockHash` and group id into a `BlockHashWithGroupId`.
+
+    The group id is encoded using 4 bytes in big-endian order and appended to
+    the block hash bytes.  This representation avoids creating tuples while
+    still allowing us to recover both components when needed.
+    """
+    return BlockHashWithGroupId(block_hash + group_id.to_bytes(4, "big", signed=False))
+
+
+def get_block_hash(key: BlockHashWithGroupId) -> BlockHash:
+    """Extract the `BlockHash` from a `BlockHashWithGroupId`."""
+    return BlockHash(key[:-4])
+
+
+def get_group_id(key: BlockHashWithGroupId) -> int:
+    """Extract the group id from a `BlockHashWithGroupId`."""
+    return int.from_bytes(key[-4:], "big", signed=False)
+
+
+def maybe_convert_block_hash(hash_bytes: BlockHash) -> ExternalBlockHash:
+    if not envs.VLLM_KV_EVENTS_USE_INT_BLOCK_HASHES:
+        return hash_bytes
+    return int.from_bytes(hash_bytes, byteorder="big") & ((1 << 64) - 1)
+
+
+logger = init_logger(__name__)
+
+# The hash seed for the first block of any prefix block sequence.
+#
+# We use a random value to avoid hash collisions or PYTHONHASHSEED environment
+# variable if set such that processes can share the seed if needed. This aligns
+# with the behavior of Python's hash() function, which also uses a random seed
+# if PYTHONHASHSEED is not set.
+#
+# The function `init_none_hash` initializes this variable globally.
+NONE_HASH: BlockHash
+
+
+def init_none_hash(hash_fn: Callable[[Any], bytes]):
+    global NONE_HASH
+
+    hash_seed = os.getenv("PYTHONHASHSEED")
+    if hash_seed is None and hash_fn is sha256_cbor:
+        logger.warning(
+            "PYTHONHASHSEED is not set. This will lead to non-reproducible "
+            "block-hashes when using sha256_cbor as the hash function."
+            "Consider setting PYTHONHASHSEED to a fixed value for "
+            "reproducibility."
+        )
+
+    if hash_seed is None:
+        NONE_HASH = BlockHash(os.urandom(32))
+    else:
+        NONE_HASH = BlockHash(hash_fn(hash_seed))
+
+
+@dataclass
+class KVCacheBlock:
+    """KV-cache block metadata."""
+
+    # Block ID, ranging from 0 to num_gpu_blocks - 1.
+    block_id: int
+    # Reference count.
+    ref_cnt: int = 0
+    # The hash key (block hash + group id) of the block, only available
+    # when the block is full and cached.
+    _block_hash: BlockHashWithGroupId | None = None
+
+    # Used to construct a doubly linked list for free blocks.
+    # These two attributes should only be manipulated by FreeKVCacheBlockQueue.
+    prev_free_block: "KVCacheBlock | None" = None
+    next_free_block: "KVCacheBlock | None" = None
+
+    # Whether the block is a null block that should never be cached.
+    is_null: bool = False
+
+    @property
+    def block_hash(self) -> BlockHashWithGroupId | None:
+        return self._block_hash
+
+    @block_hash.setter
+    def block_hash(self, block_hash: BlockHashWithGroupId):
+        assert self.block_hash is None, (
+            "The block already has a hash. This should not happen."
+        )
+        self._block_hash = block_hash
+
+    def reset_hash(self):
+        """Reset the block hash when the block is evicted."""
+        self._block_hash = None
+
+    def __repr__(self) -> str:
+        # Use block_id instead of KVCacheBlock object to avoid calling __repr__
+        # on KVCacheBlock object recursively.
+        prev_block_id = self.prev_free_block.block_id if self.prev_free_block else None
+        next_block_id = self.next_free_block.block_id if self.next_free_block else None
+        return (
+            f"KVCacheBlock(block_id={self.block_id}, "
+            f"ref_cnt={self.ref_cnt}, "
+            f"_block_hash={self._block_hash!r}, "
+            f"prev_free_block={prev_block_id}, "
+            f"next_free_block={next_block_id})"
+        )
+
+
+class FreeKVCacheBlockQueue:
+    """This class organizes a list of KVCacheBlock objects to a doubly linked
+    list of free blocks. We implement this class instead of using Python
+    builtin deque to support removing a block in the middle of the queue
+    in O(1) time. To close the performance gap to the builtin deque which is
+    implemented in C++, this class does not allocate any Python objects when
+    manipulating the linked list. Instead, this class manipulates the
+    prev_free_block and next_free_block attributes of the given blocks.
+
+    The queue is ordered by block ID in the beginning. When a block is allocated
+    and then freed, it will be appended back with the eviction order:
+    1. The least recent used block is at the front (LRU).
+    2. If two blocks have the same last accessed time (allocated by the
+       same sequence), the one with more hash tokens (the tail of a block
+       chain) is at the front.
+    Note that we maintain this order by reversing the block order when free
+    blocks of a request. This operation is outside of this class.
+
+    Args:
+        blocks: A list of KVCacheBlock objects.
+    """
+
+    def __init__(self, blocks: list[KVCacheBlock]) -> None:
+        self.num_free_blocks = len(blocks)
+
+        # Initialize doubly links of consecutive blocks
+        for i in range(self.num_free_blocks):
+            if i > 0:
+                blocks[i].prev_free_block = blocks[i - 1]
+            if i < self.num_free_blocks - 1:
+                blocks[i].next_free_block = blocks[i + 1]
+
+        # Create a fake head and a tail block for the doubly linked list to
+        # reduce branching in the code
+        #
+        # The implementation guaranteed that the fake head and tail
+        # are NEVER got popped, so we could safely assume each real blocks
+        # in the queue has prev and next blocks.
+        self.fake_free_list_head = KVCacheBlock(block_id=-1)
+        self.fake_free_list_tail = KVCacheBlock(block_id=-1)
+        if self.num_free_blocks > 0:
+            # Connect fake_head and fake_tail to the first and last block
+            # respectively.
+            self.fake_free_list_head.next_free_block = blocks[0]
+            blocks[0].prev_free_block = self.fake_free_list_head
+            self.fake_free_list_tail.prev_free_block = blocks[-1]
+            blocks[-1].next_free_block = self.fake_free_list_tail
+        else:
+            # For empty list, simply connect the fake head and tail.
+            self.fake_free_list_head.next_free_block = self.fake_free_list_tail
+            self.fake_free_list_tail.prev_free_block = self.fake_free_list_head
+
+    def popleft(self) -> KVCacheBlock:
+        """Pop the first free block and reduce num_free_blocks by 1.
+
+        Returns:
+            The first free block.
+        """
+        if (
+            self.fake_free_list_head.next_free_block is self.fake_free_list_tail
+            or self.fake_free_list_head.next_free_block is None
+        ):
+            assert self.num_free_blocks == 0, (
+                f"num_free_blocks ({self.num_free_blocks}) is out of sync "
+                "with the free list."
+            )
+            raise ValueError("No free blocks available")
+
+        first_block: KVCacheBlock = self.fake_free_list_head.next_free_block
+
+        if first_block.next_free_block is None:
+            # This should not happen if the block is from the free list.
+            # It indicates a bug in the caller's logic.
+            raise RuntimeError(
+                "Invalid block found in popleft() "
+                "which doesn't have a valid next_free_block"
+            )
+
+        # Connect fake_head and the next block of first_block (i.e. second block
+        # or fake tail).
+        self.fake_free_list_head.next_free_block = first_block.next_free_block
+        first_block.next_free_block.prev_free_block = self.fake_free_list_head
+
+        # Remove the block from the linked list.
+        first_block.prev_free_block = first_block.next_free_block = None
+
+        self.num_free_blocks -= 1
+        return first_block
+
+    def popleft_n(self, n: int) -> list[KVCacheBlock]:
+        """Pop the first n free blocks and reduce num_free_blocks by n.
+
+        Args:
+            n: The number of blocks to pop.
+
+        Returns:
+            A list of n free blocks.
+        """
+        if n == 0:
+            return []
+        assert self.num_free_blocks >= n
+        self.num_free_blocks -= n
+
+        curr_block = self.fake_free_list_head.next_free_block
+        # Pop n blocks from the head of the list
+        ret = []
+        for _ in range(n):
+            assert curr_block is not None
+            ret.append(curr_block)
+            last_block = curr_block
+            curr_block = curr_block.next_free_block
+            # Reset prev_free_block and next_free_block of all popped blocks
+            last_block.prev_free_block = None
+            last_block.next_free_block = None
+
+        if curr_block is not None:
+            # The queue is not empty, connect the fake head to
+            # the new first block.
+            self.fake_free_list_head.next_free_block = curr_block
+            curr_block.prev_free_block = self.fake_free_list_head
+        return ret
+
+    def remove(self, block: KVCacheBlock) -> None:
+        """Remove a block in the free list and reduce num_free_blocks by 1.
+
+        Args:
+            block: The block to remove.
+        """
+        if block.prev_free_block is None or block.next_free_block is None:
+            # This should not happen if the block is from the free list.
+            # It indicates a bug in the caller's logic.
+            raise RuntimeError(f"remove() called on an invalid block: {block}")
+
+        # Link the previous block to the next block.
+        block.prev_free_block.next_free_block = block.next_free_block
+        # Link the next block to the previous block.
+        block.next_free_block.prev_free_block = block.prev_free_block
+
+        # Remove the block from the linked list.
+        block.prev_free_block = block.next_free_block = None
+        self.num_free_blocks -= 1
+
+    def append(self, block: KVCacheBlock) -> None:
+        """Put a block back into the free list and increase
+        num_free_blocks by 1.
+
+        Args:
+            block: The block to append.
+        """
+        if self.fake_free_list_tail.prev_free_block is None:
+            raise RuntimeError(
+                "prev_free_block of fake_free_list_tail should always exist"
+            )
+        last_block: KVCacheBlock = self.fake_free_list_tail.prev_free_block
+
+        # Connect the new block after the last block.
+        last_block.next_free_block = block
+        block.prev_free_block = last_block
+
+        # Connect the fake tail after the new block.
+        block.next_free_block = self.fake_free_list_tail
+        self.fake_free_list_tail.prev_free_block = block
+
+        self.num_free_blocks += 1
+
+    def append_n(self, blocks: list[KVCacheBlock]) -> None:
+        """Put a list of blocks back into the free list
+
+        Args:
+            blocks: The blocks to append.
+        """
+        if len(blocks) == 0:
+            return
+
+        last_block = self.fake_free_list_tail.prev_free_block
+        assert last_block is not None, (
+            "prev_free_block of fake_free_list_tail should always exist"
+        )
+        # Add inter-connections between consecutive blocks
+        for block in blocks:
+            block.prev_free_block = last_block
+            last_block.next_free_block = block
+            last_block = block
+
+        # Connect the last block of <blocks> to the fake tail
+        last_block.next_free_block = self.fake_free_list_tail
+        self.fake_free_list_tail.prev_free_block = last_block
+
+        self.num_free_blocks += len(blocks)
+
+    def get_all_free_blocks(self) -> list[KVCacheBlock]:
+        """Get all free blocks in the free list. Mainly used for testing.
+
+        Returns:
+            A list of free blocks.
+        """
+        ret = []
+        if self.fake_free_list_head.next_free_block is None:
+            raise RuntimeError(
+                "next_free_block of fake_free_list_head should always exist"
+            )
+        # Start from the first block
+        curr_block: KVCacheBlock = self.fake_free_list_head.next_free_block
+        # As long as next_free_block is available, we haven't reached to
+        # the fake tail yet.
+        while curr_block.next_free_block is not None:
+            ret.append(curr_block)
+            curr_block = curr_block.next_free_block
+        return ret
+
+
+def need_extra_keys(request: Request) -> bool:
+    """Check whether the blocks allocated to this request need extra hash keys.
+
+    Args:
+        request (Request): The request.
+
+    Returns:
+        bool: Whether blocks allocated to this request need extra hash keys.
+    """
+
+    # Multimodal requests need to include the MM hash.
+    # LoRA requests need to include the LoRA name.
+    # Request with provided cache salt need to include the salt.
+    return (
+        bool(request.mm_features)
+        or (request.lora_request is not None)
+        or (request.cache_salt is not None)
+    )
+
+
+def _gen_mm_extra_hash_keys(
+    request: Request, start_token_idx: int, end_token_idx: int, start_mm_idx: int
+) -> tuple[list[Any], int]:
+    """Generate extra keys related to MultiModal request for block hash
+    computation. For multi-modal inputs, the extra keys are
+    (mm_hash, start_offset) that indicate a mm input contained in the
+    block and its starting offset in the block tokens.
+
+    Args:
+        request: The request object.
+        start_token_idx: The start token index of the block.
+        end_token_idx: The end token index of the block.
+        start_mm_idx: The start multi-modal index of the block.
+
+    Returns:
+        A tuple of extra keys and the next multi-modal index.
+    """
+    extra_keys: list[Any] = []
+
+    mm_features = request.mm_features
+    if not mm_features:
+        return extra_keys, start_mm_idx
+
+    # Note that we assume mm_features are sorted by mm_position.offset.
+    # We do not need to check all mm inputs if the start token index is out of
+    # range. This usually happens in the late prefill phase and decoding phase.
+    last_pos = mm_features[-1].mm_position
+    if last_pos.offset + last_pos.length < start_token_idx:
+        return extra_keys, start_mm_idx
+
+    # Support start_mm_idx == -1 to indicate the last mm input.
+    if start_mm_idx < 0:
+        assert -start_mm_idx <= len(mm_features)
+        start_mm_idx = len(mm_features) + start_mm_idx
+
+    curr_mm_idx = start_mm_idx
+    while mm_features and curr_mm_idx < len(mm_features):
+        mm_feature = mm_features[curr_mm_idx]
+        assert mm_feature.identifier is not None
+        offset = mm_feature.mm_position.offset
+        length = mm_feature.mm_position.length
+        if end_token_idx > offset:
+            if start_token_idx > offset + length:
+                # This block has passed the current mm input.
+                curr_mm_idx += 1
+                continue
+
+            # The block contains the current mm input.
+            extra_keys.append(mm_feature.identifier)
+
+            if end_token_idx >= offset + length:
+                # If this block contains the end of the current mm input,
+                # move to the next mm input as this block may also contain
+                # the next mm input.
+                curr_mm_idx += 1
+            else:
+                # Otherwise this block is done with mm inputs.
+                break
+        else:
+            # This block has not reached the current mm input.
+            break
+    return extra_keys, curr_mm_idx
+
+
+def _gen_lora_extra_hash_keys(request: Request) -> list[str]:
+    """Generate extra keys related to LoRA for block hash computation.
+
+    Args:
+        request: The request object.
+
+    Returns:
+        Return LoRA name of the request if it is a LoRA request. Return empty
+        list otherwise.
+    """
+    if not request.lora_request:
+        return []
+    return [request.lora_request.lora_name]
+
+
+def _gen_prompt_embeds_extra_hash_keys(
+    request: Request, start_token_idx: int, end_token_idx: int
+) -> list[bytes]:
+    """Generate extra keys related to prompt embeds for block hash computation.
+
+    Args:
+        request: The request object.
+        start_token_idx: The start token index of the block.
+        end_token_idx: The end token index of the block.
+
+    Returns:
+        Return prompt embeddings data of the request if it has prompt embeds.
+        Return empty list otherwise.
+    """
+    if request.prompt_embeds is None:
+        return []
+    block_prompt_embeds = request.prompt_embeds[start_token_idx:end_token_idx]
+    embeds_bytes = tensor_data(block_prompt_embeds).tobytes()
+    return [embeds_bytes]
+
+
+def generate_block_hash_extra_keys(
+    request: Request, start_token_idx: int, end_token_idx: int, start_mm_idx: int
+) -> tuple[tuple[Any, ...] | None, int]:
+    """Generate extra keys for the block hash. The extra keys can come from
+    the multi-modal inputs, request specific metadata (e.g., LoRA names), and
+    data from prompt embeddings.
+
+    Args:
+        request: The request object.
+        start_token_idx: The start token index of the block.
+        end_token_idx: The end token index of the block.
+        start_mm_idx: The start multi-modal index of the block.
+
+    Returns:
+        A tuple of extra keys and the next multi-modal index.
+    """
+    mm_extra_keys: list[Any]
+    mm_extra_keys, new_start_mm_idx = _gen_mm_extra_hash_keys(
+        request, start_token_idx, end_token_idx, start_mm_idx
+    )
+    lora_extra_keys: list[str] = _gen_lora_extra_hash_keys(request)
+    cache_salt_keys: list[str] = (
+        [request.cache_salt] if (start_token_idx == 0 and request.cache_salt) else []
+    )
+    prompt_embeds_keys = _gen_prompt_embeds_extra_hash_keys(
+        request, start_token_idx, end_token_idx
+    )
+
+    extra_keys: list[Any] = (
+        lora_extra_keys + mm_extra_keys + cache_salt_keys + prompt_embeds_keys
+    )
+
+    if not extra_keys:
+        return None, new_start_mm_idx
+
+    return tuple(extra_keys), new_start_mm_idx
+
+
+def hash_block_tokens(
+    hash_function: Callable[[Any], bytes],
+    parent_block_hash: BlockHash | None,
+    curr_block_token_ids: Sequence[int],
+    extra_keys: tuple[Any, ...] | None = None,
+) -> BlockHash:
+    """Computes a hash value corresponding to the contents of a block and
+    the contents of the preceding block(s). The hash value is used for
+    prefix caching. We use LRU cache for this function to avoid recomputing
+    hash values for the same block contents.
+    Args:
+        hash_function: The hash function used to compute block hash.
+        parent_block_hash: The hash of the parent block. None
+            if this is the first block.
+        curr_block_token_ids: A list of token ids in the current
+            block. The current block is assumed to be full.
+        extra_keys: Extra keys for the block.
+    Returns:
+        The hash value of the block and the token ids in the block.
+        The entire tuple is used as the hash key of the block.
+    """
+    if not parent_block_hash:
+        parent_block_hash = NONE_HASH
+
+    curr_block_token_ids_tuple = tuple(curr_block_token_ids)
+    return BlockHash(
+        hash_function((parent_block_hash, curr_block_token_ids_tuple, extra_keys))
+    )
+
+
+def get_request_block_hasher(
+    block_size: int,
+    caching_hash_fn: Callable[[Any], bytes],
+) -> Callable[[Request], list[BlockHash]]:
+    """
+    Returns a function which computes the list of un-computed block hashes
+    of a request."""
+
+    def request_block_hasher(request: Request) -> list[BlockHash]:
+        start_token_idx = len(request.block_hashes) * block_size
+        num_tokens = request.num_tokens
+
+        if start_token_idx + block_size > num_tokens:
+            # Early stop when there no new full blocks created.
+            return []
+
+        curr_mm_idx = 0
+        if start_token_idx > 0:
+            # Set curr_mm_idx = -1 to indicate the last mm input.
+            # Note that since we reach to this branch only when the block is
+            # completed with generated tokens, we only need to consider the
+            # last mm input.
+            curr_mm_idx = -1
+
+        prev_block_hash_value = (
+            request.block_hashes[-1] if request.block_hashes else None
+        )
+        new_block_hashes: list[BlockHash] = []
+        while True:
+            end_token_idx = start_token_idx + block_size
+            if end_token_idx > num_tokens:
+                # We only hash full blocks
+                break
+
+            # MM and LoRA requests need extra keys for block-hash computation.
+            extra_keys, curr_mm_idx = generate_block_hash_extra_keys(
+                request, start_token_idx, end_token_idx, curr_mm_idx
+            )
+
+            # Compute the hash of the current block
+            block_tokens = request.all_token_ids[start_token_idx:end_token_idx]
+            block_hash = hash_block_tokens(
+                caching_hash_fn, prev_block_hash_value, block_tokens, extra_keys
+            )
+
+            new_block_hashes.append(block_hash)
+            start_token_idx += block_size
+            prev_block_hash_value = block_hash
+
+        return new_block_hashes
+
+    return request_block_hasher
+
+
+def max_memory_usage_bytes(
+    vllm_config: VllmConfig, kv_cache_specs: Iterable[KVCacheSpec]
+) -> int:
+    """
+    Get the maximum memory usage in bytes for the given KV cache specs.
+    """
+    return sum(spec.max_memory_usage_bytes(vllm_config) for spec in kv_cache_specs)
+
+
+def estimate_max_model_len(
+    vllm_config: VllmConfig,
+    kv_cache_spec: dict[str, KVCacheSpec],
+    available_memory: int,
+) -> int:
+    """
+    Estimates the maximum model length that can fit in the available memory
+    using binary search.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_spec: The kv cache spec of each attention layer in the model
+        available_memory: Memory available for KV cache in bytes.
+
+    Returns:
+        The estimated maximum model length that can fit in the available memory.
+    """
+
+    # Define a function to check if a given model length fits in memory
+    def fits_in_memory(model_len: int) -> bool:
+        # Modify the max_model_len for this calculation
+        vllm_config.model_config.max_model_len = model_len
+        # Calculate memory needed for the given model length
+        memory_needed = max_memory_usage_bytes(vllm_config, kv_cache_spec.values())
+        return memory_needed <= available_memory
+
+    # Binary search for the maximum model length
+    current_max = vllm_config.model_config.max_model_len
+    left, right = 1, current_max
+
+    # If even the smallest model length doesn't fit, return 0
+    if not fits_in_memory(left):
+        return 0
+
+    # Binary search for the maximum model length that fits
+    result = 1
+    while left <= right:
+        mid = (left + right) // 2
+        if fits_in_memory(mid):
+            result = mid
+            left = mid + 1
+        else:
+            right = mid - 1
+    return result
+
+
+def check_enough_kv_cache_memory(
+    vllm_config: VllmConfig,
+    kv_cache_spec: dict[str, KVCacheSpec],
+    available_memory: int,
+):
+    """
+    Checks whether `available_memory` is enough for the KV cache to hold at
+    least one request with the model's max_model_len.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_spec: The kv cache spec of each attention layer in the model
+        available_memory: Memory available for KV cache in bytes.
+
+    Raises:
+        ValueError: If there is not enough memory available for the KV cache.
+    """
+
+    # No need to check for available memory if the kv_cache_spec is empty
+    if not kv_cache_spec:
+        return
+
+    if available_memory <= 0:
+        raise ValueError(
+            "No available memory for the cache blocks. "
+            "Try increasing `gpu_memory_utilization` when "
+            "initializing the engine."
+        )
+
+    max_model_len = vllm_config.model_config.max_model_len
+    needed_memory = max_memory_usage_bytes(vllm_config, kv_cache_spec.values())
+
+    if needed_memory > available_memory:
+        # Estimate the maximum model length that can fit in the available memory
+        estimated_max_len = estimate_max_model_len(
+            vllm_config, kv_cache_spec, available_memory
+        )
+        estimated_msg = ""
+        if estimated_max_len > 0:
+            estimated_msg = (
+                "Based on the available memory, "
+                f"the estimated maximum model length is {estimated_max_len}."
+            )
+
+        raise ValueError(
+            f"To serve at least one request with the models's max seq len "
+            f"({max_model_len}), ({needed_memory / GiB_bytes:.2f} GiB KV "
+            f"cache is needed, which is larger than the available KV cache "
+            f"memory ({available_memory / GiB_bytes:.2f} GiB). "
+            f"{estimated_msg} "
+            f"Try increasing `gpu_memory_utilization` or decreasing "
+            f"`max_model_len` when initializing the engine."
+        )
+
+
+def create_kv_cache_group_specs(
+    kv_cache_spec: dict[str, KVCacheSpec], grouped_layer_names: list[list[str]]
+) -> list[KVCacheGroupSpec]:
+    """
+    Create KVCacheGroupSpec object for each kv cache group layer.
+    The layers in the same group should share the same
+    KVCacheSpec.
+
+    Args:
+        kv_cache_spec:
+            A mapping from each layer name to its corresponding KVCacheSpec.
+        grouped_layer_names:
+            A list of kv cache groups, where each element is a list of layer
+            names that belong to the same group and should share the same
+            KVCacheSpec.
+    Returns:
+        A list of KVCacheGroupSpec objects, one for each group.
+    """
+    kv_cache_groups = []
+    for layer_names_one_group in grouped_layer_names:
+        layer_specs = [
+            kv_cache_spec[layer_name] for layer_name in layer_names_one_group
+        ]
+        merged_layer_spec = layer_specs[0].merge(layer_specs)
+        kv_cache_groups.append(
+            KVCacheGroupSpec(layer_names_one_group, merged_layer_spec)
+        )
+    return kv_cache_groups
+
+
+def is_kv_cache_spec_uniform(kv_cache_spec: dict[str, KVCacheSpec]) -> bool:
+    """
+    Whether all layers in the given KVCacheSpec have the same KV cache spec.
+    Note that we regard FullAttentionSpec with and without sliding window as
+    the same type.
+
+    Args:
+        kv_cache_spec: The kv cache spec of each attention layer in the model
+
+    Returns:
+        True if all layers have the same type, False otherwise.
+    """
+
+    if not kv_cache_spec:
+        # Encoder-only models do not have KV cache, kv_cache_type can be
+        # regarded as uniform.
+        return True
+    try:
+        kv_cache_spec_values = list(kv_cache_spec.values())
+        _ = kv_cache_spec_values[0].merge(kv_cache_spec_values)
+    except AssertionError:
+        return False
+    return True
+
+
+def get_max_concurrency_for_kv_cache_config(
+    vllm_config: VllmConfig, kv_cache_config: KVCacheConfig
+) -> float:
+    """
+    Get the maximum concurrency for the given KV cache configuration.
+    """
+    num_layer_per_group = max(
+        len(group.layer_names) for group in kv_cache_config.kv_cache_groups
+    )
+    max_memory_usage_per_request = num_layer_per_group * max_memory_usage_bytes(
+        vllm_config, (group.kv_cache_spec for group in kv_cache_config.kv_cache_groups)
+    )
+    memory_per_block = (
+        kv_cache_config.kv_cache_groups[0].kv_cache_spec.page_size_bytes
+        * num_layer_per_group
+    )
+    num_block_per_request = cdiv(max_memory_usage_per_request, memory_per_block)
+    max_concurrency = kv_cache_config.num_blocks / num_block_per_request
+    return max_concurrency
+
+
+def may_override_num_blocks(vllm_config: VllmConfig, num_blocks: int) -> int:
+    """
+    Override the number of kv cache blocks if `num_gpu_blocks_override` is set.
+    """
+    if vllm_config.cache_config.num_gpu_blocks_override is not None:
+        num_gpu_blocks_override = vllm_config.cache_config.num_gpu_blocks_override
+        logger.info(
+            "Overriding num_gpu_blocks=%d with num_gpu_blocks_override=%d",
+            num_blocks,
+            num_gpu_blocks_override,
+        )
+        num_blocks = num_gpu_blocks_override
+
+    return num_blocks
+
+
+def get_num_blocks(
+    vllm_config: VllmConfig, num_layers: int, available_memory: int, page_size: int, scale_page_size: int
+) -> int:
+    """
+    Get the number of kv cache blocks.
+
+    Args:
+        vllm_config: The global VllmConfig
+        num_layers: The number of layers
+        available_memory: Memory available for KV cache in bytes.
+        page_size: The page size of the KV cache.
+    """
+    num_blocks = int(available_memory // (page_size + scale_page_size) // num_layers)
+    num_blocks = max(num_blocks, 0)
+    num_blocks = may_override_num_blocks(vllm_config, num_blocks)
+    return num_blocks
+
+
+def get_uniform_page_size(kv_cache_spec: dict[str, KVCacheSpec]) -> int:
+    """
+    Get the page size of the KV cache.
+    """
+    page_sizes = set(layer.page_size_bytes for layer in kv_cache_spec.values())
+    scale_page_sizes = {layer.scale_page_size_bytes for layer in kv_cache_spec.values()}
+    assert len(page_sizes) == 1
+    return page_sizes.pop(), scale_page_sizes.pop()
+
+
+def _get_kv_cache_groups_uniform_spec(
+    kv_cache_specs: dict[str, KVCacheSpec],
+) -> list[KVCacheGroupSpec]:
+    """
+    Generates the KV cache configuration for a model with the same KV cache
+    spec for all layers.
+
+    Args:
+        kv_cache_specs: The kv cache spec of each attention layer in the model
+
+    Returns:
+        The generated KVCacheGroupSpecs
+    """
+
+    return create_kv_cache_group_specs(kv_cache_specs, [list(kv_cache_specs.keys())])
+
+
+def _get_kv_cache_groups_uniform_type(
+    spec: UniformTypeKVCacheSpecs,
+) -> list[KVCacheGroupSpec]:
+    """
+    Generates the KV cache configuration for a model with one type of KV cache
+    but different hidden sizes. All layers are merged into one group.
+
+    Args:
+        spec: The UniformTypeKVCacheSpecs of the model
+
+    Returns:
+        The generated KVCacheGroupSpecs
+    """
+
+    return [KVCacheGroupSpec(list(spec.kv_cache_specs.keys()), spec)]
+
+
+def is_kv_cache_page_size_uniform(kv_cache_spec: dict[str, KVCacheSpec]) -> bool:
+    """
+    Whether all layers in the given KVCacheSpec have the same page size.
+    Args:
+        kv_cache_spec: The KVCacheSpec of each attention layer in the model
+
+    Returns:
+        True if all layers have the same page size, False otherwise.
+    """
+
+    page_sizes = {layer.page_size_bytes for layer in kv_cache_spec.values()}
+    return len(page_sizes) == 1
+
+
+def is_kv_cache_type_attention_free(kv_cache_spec: dict[str, KVCacheSpec]) -> bool:
+    # kv_cache_spec is an empty dict for attention free models
+    return not kv_cache_spec
+
+
+def _get_kv_cache_groups_uniform_page_size(
+    kv_cache_spec: dict[str, KVCacheSpec],
+) -> list[KVCacheGroupSpec]:
+    """
+    Generates the KV cache groups for hybrid models with multiple
+    attention types but still with a uniform page size (physical memory per
+    block per layer) for all layers.
+
+    Detailed explanation about kv cache management of hybrid models:
+    The layers in the models are repeated with some patterns, e.g., a model
+    with 10 full attention layers and 20 sliding window attention layers can be
+    regarded as repeating the pattern (1 * full, 2 * sw) 10 times.
+    The KVCacheManager allocates different block tables for each of the 3 layers
+    in the pattern, and repeats each of them 10 times to generate the
+    block_table for the 30 layers in the model.
+    Therefore, we can group the layers in the model into 3 kv_cache_groups, each
+    of which contains 10 layers in the model.
+    The KVCacheManager allocates the block_table for each group based on its
+    kv_cache spec, and the model runner applies the block table to each layer
+    in the group.
+    For example:
+    1. A model only uses full attention. The pattern is
+    (num_hidden_layers * full), so there is only one group and the block table
+    is shared by all layers. It is already handled by
+    `_get_kv_cache_config_uniform_type`.
+    2. A model with 10 full attention layers and 20 sliding window
+    attention layers. There are 3 layers in the pattern (1 * full, 2 * sw), so
+    there are 3 kv_cache_groups, each of which represents 10 layers.
+
+    To simplify the implementation, we make the following assumptions:
+    1. Physical memory per block: Must be the same across all KV cache groups.
+    Breaking this assumption is non-trivial due to memory fragmentation concerns
+    when allocating blocks of different sizes.
+    2. Tokens per block (block_size): Currently, we directly use
+    `CacheConfig.block_size` for all layers. It can be extended to vary by KV
+    cache group, but within each KV cache group, all layers must share the same
+    block size.
+    3. Physical memory per token per layer: This property is decided by model
+    config. Currently we only support models that have the same physical memory
+    per token per layer for all layers. Can be relaxed with a simple extension,
+    but still need to keep physical memory per block the same for all groups.
+    4. Number of layers per group: Currently assumed the same for all layers.
+    Can be relaxed with a simple extension, but still need to keep physical
+    memory per block the same for all groups.
+    5. Attention type within groups: All layers in a group must share the same
+    attention type. One exception is that, when
+    `--disable-hybrid-kv-cache-manager` is true, the single group for full
+    attention layers may also include attention layers using sliding window or
+    LLaMA 4 local attention. See `unify_hybrid_kv_cache_specs` for more details.
+    6. Support for multiple attention types: The design for most components is
+    general to an arbitrary number of attention types. But
+    `find_longest_cache_hit` only supports one attention type or two
+    types of full-attention plus exactly one another type. The general
+    implementation of this function is feasible but we don't know how to
+    implement it cleanly yet.
+
+    As we assume tokens per block, physical memory per token per layer, and
+    number of layers per group are the same now, we can ensure that physical
+    memory per block is the same for all groups.
+
+    Args:
+        kv_cache_spec: The KVCacheSpec of each attention layer in the model
+    Returns:
+        The generated KVCacheGroupSpecs
+    """
+    # Group all layers by kv_cache_spec.
+    # E.g., 2 full attention layers and 3 sliding window attention layers,
+    # -> (full.0, full.1), (sw.0, sw.1, sw.2).
+    same_type_layers: dict[KVCacheSpec, list[str]] = defaultdict(list)
+    for layer_name, layer_spec in kv_cache_spec.items():
+        same_type_layers[layer_spec].append(layer_name)
+
+    # Split each group into smaller groups, to make the number of layers in each
+    # group identical. Add padding to the last group of each type if necessary.
+    # E.g., (full.0, full.1), (sw.0, sw.1, sw.2)
+    # split to 3 groups with 2 layers each:
+    # (full.0, full.1), (sw.0, sw.2), (sw.1, padding).
+    # FIXME(Chen): At the moment of writing this code (2025-06-02), all
+    # open-source hybrid model follows a n:1 pattern between different attention
+    # types (e.g., Gemma3 5:1 between sw and full, LLaMA4 3:1 between local and
+    # full), so we can use the "1" in the n:1 pattern as the group size, which
+    # is the minimum number of layers among all attention types. Need a better
+    # strategy if we want to support more complex patterns (e.g., 20 full + 30
+    # sw, where the group size should be 10).
+    group_size = min([len(layers) for layers in same_type_layers.values()])
+    grouped_layers = []
+    for layers in same_type_layers.values():
+        num_padding_layers = group_size - len(layers) % group_size
+        if num_padding_layers != group_size:
+            logger.warning(
+                "Add %d padding layers, may waste at most %.2f%% KV cache memory",  # noqa
+                num_padding_layers,
+                num_padding_layers / len(layers) * 100,
+            )
+        num_groups = cdiv(len(layers), group_size)
+        # In PP case, say if we have
+        # - stage 0: full.0, sw.0, sw.1
+        # - stage 1: full.1, sw.2, sw.3
+        # We should have 3 groups: (full.0, full.1), (sw.0, sw.2), (sw.1, sw.3)
+        # It can't be (full.0, full.1), (sw.0, sw.1), (sw.2, sw.3) because
+        # the 3 groups in stage 0 will be (full.0), (sw.0, sw.1), (empty group)
+        # and it will be padded to (full.0, padding), (sw.0, sw.1),
+        # (padding, padding) to ensure the number of layers in each group is
+        # the same and will cause memory waste.
+        # To avoid this, we assign layers[i::num_groups] to the i-th group
+        # instead of layers[i * group_size: (i + 1) * group_size]
+        for i in range(num_groups):
+            grouped_layers.append(layers[i::num_groups])
+    return create_kv_cache_group_specs(kv_cache_spec, grouped_layers)
+
+
+def get_kv_cache_config_from_groups(
+    vllm_config: VllmConfig,
+    kv_cache_groups: list[KVCacheGroupSpec],
+    kv_cache_specs: dict[str, KVCacheSpec],
+    available_memory: int,
+) -> KVCacheConfig:
+    """
+    Generate the KV cache configuration from the KV cache groups and spec
+    of each layer.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_groups: The KV cache groups
+        kv_cache_specs: The KV cache spec of each attention layer in the model
+        available_memory: Memory available for KV cache in bytes
+    Returns:
+        The generated KVCacheConfig
+    """
+    if len(kv_cache_groups) == 0:
+        # Attention free models do not have KV cache.
+        # Return num_blocks=1 as BlockPool always needs a null_block.
+        return KVCacheConfig(
+            num_blocks=1,
+            kv_cache_tensors=[],
+            kv_cache_scale_tensors=[],
+            kv_cache_groups=kv_cache_groups,
+        )
+    # Determine how model runners should initialize the KV cache tensors.
+    if len(kv_cache_groups) == 1 and isinstance(
+        kv_cache_groups[0].kv_cache_spec, UniformTypeKVCacheSpecs
+    ):
+        # Special case: all layers have the same type of KV cache but with
+        # different hidden size. Allocate different amount of memory for each
+        # layer based on its hidden size.
+        num_blocks = (
+            available_memory // kv_cache_groups[0].kv_cache_spec.page_size_bytes
+        )
+        num_blocks = may_override_num_blocks(vllm_config, num_blocks)
+        per_layer_specs = kv_cache_groups[0].kv_cache_spec.kv_cache_specs
+        kv_cache_tensors = [
+            KVCacheTensor(
+                size=per_layer_specs[layer_name].page_size_bytes * num_blocks,
+                shared_by=[layer_name],
+            )
+            for layer_name in kv_cache_groups[0].layer_names
+        ]
+        kv_cache_scale_tensors = [
+            KVCacheTensor(size=per_layer_specs[layer_name].scale_page_size_bytes *
+                          num_blocks,
+                          shared_by=[layer_name])
+            for layer_name in kv_cache_groups[0].layer_names
+        ]
+    else:
+        # General case:
+        # We will have group_size memory pools, each is shared by one layer from
+        # each group. As layers of different groups have different block table,
+        # they will use different parts of the shared Tensor.
+        # The memory layout for 3 groups (full.0, full.1), (sw.0, sw.2),
+        # (sw.1, padding) will be: (group_size = 2)
+        # full.0, sw.0, sw.1: share a Tensor with size=available_memory//2
+        # full.1, sw.2: share another Tensor with size=available_memory//2
+        group_size = max(len(group.layer_names) for group in kv_cache_groups)
+
+        page_size, scale_page_size = get_uniform_page_size(kv_cache_specs)
+        assert group_size > 0, "group_size must be greater than 0"
+        num_blocks = get_num_blocks(
+            vllm_config, group_size, available_memory, page_size,scale_page_size
+        )
+        kv_cache_tensors = []
+        kv_cache_scale_tensors = []
+        for i in range(group_size):
+            shared_by = []
+            for j in range(len(kv_cache_groups)):
+                if i < len(kv_cache_groups[j].layer_names):
+                    shared_by.append(kv_cache_groups[j].layer_names[i])
+            kv_cache_tensors.append(
+                KVCacheTensor(size=page_size * num_blocks, shared_by=shared_by)
+            )
+            kv_cache_scale_tensors.append(
+                KVCacheTensor(size=scale_page_size * num_blocks, shared_by=shared_by)
+            )
+
+    return KVCacheConfig(
+        num_blocks=num_blocks,
+        kv_cache_tensors=kv_cache_tensors,
+        kv_cache_scale_tensors = kv_cache_scale_tensors,
+        kv_cache_groups=kv_cache_groups,
+    )
+
+
+def unify_hybrid_kv_cache_specs(kv_cache_spec: dict[str, KVCacheSpec]):
+    """
+    This function tries to convert the KV cache specs to one type if the model
+    is a hybrid model with multiple type of KV cache. It will convert all
+    SlidingWindowSpec to FullAttentionSpec if both types are present.
+
+    Args:
+        kv_cache_spec: The kv cache spec of each attention layer in the model
+    """
+
+    if is_kv_cache_spec_uniform(
+        kv_cache_spec
+    ) or UniformTypeKVCacheSpecs.is_uniform_type(kv_cache_spec):
+        return
+
+    logger.warning(
+        "Hybrid KV cache manager is disabled for this hybrid model, "
+        "This means we do not enable any optimizations for saving KV cache "
+        "memory (e.g., dropping the KV cache outside the sliding window). "
+        "The compute of layers like sliding window is still saved."
+    )
+
+    has_full_attention = any(
+        isinstance(spec, FullAttentionSpec) for spec in kv_cache_spec.values()
+    )
+    has_sliding_window = any(
+        isinstance(spec, SlidingWindowSpec) for spec in kv_cache_spec.values()
+    )
+    has_chunked_local_attention = any(
+        isinstance(spec, ChunkedLocalAttentionSpec) for spec in kv_cache_spec.values()
+    )
+    if has_full_attention and (has_sliding_window or has_chunked_local_attention):
+        for layer_name, spec in kv_cache_spec.items():
+            if isinstance(spec, SlidingWindowSpec):
+                kv_cache_spec[layer_name] = FullAttentionSpec(
+                    block_size=spec.block_size,
+                    num_kv_heads=spec.num_kv_heads,
+                    head_size=spec.head_size,
+                    dtype=spec.dtype,
+                    sliding_window=spec.sliding_window,
+                )
+            elif isinstance(spec, ChunkedLocalAttentionSpec):
+                kv_cache_spec[layer_name] = FullAttentionSpec(
+                    block_size=spec.block_size,
+                    num_kv_heads=spec.num_kv_heads,
+                    head_size=spec.head_size,
+                    dtype=spec.dtype,
+                    attention_chunk_size=spec.attention_chunk_size,
+                )
+
+    if not (
+        is_kv_cache_spec_uniform(kv_cache_spec)
+        or UniformTypeKVCacheSpecs.is_uniform_type(kv_cache_spec)
+    ):
+        raise ValueError(
+            "Hybrid KV cache manager is disabled but failed to "
+            "convert the KV cache specs to one unified type."
+        )
+
+
+def get_kv_cache_groups(
+    vllm_config: VllmConfig, kv_cache_spec: dict[str, KVCacheSpec]
+) -> list[KVCacheGroupSpec]:
+    """
+    Split the layers in the model into groups with the same KV cache spec.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_spec: The kv cache spec of each attention layer in the model
+
+    Returns:
+        The generated KVCacheGroups
+    """
+    if vllm_config.scheduler_config.disable_hybrid_kv_cache_manager:
+        unify_hybrid_kv_cache_specs(kv_cache_spec)
+
+    if is_kv_cache_type_attention_free(kv_cache_spec):
+        # This returns an empty list to allow for the KVCacheManager to handle
+        # attention free models.
+        return []
+    elif is_kv_cache_spec_uniform(kv_cache_spec):
+        # KV cache of all layers are the same, which is true for
+        # most models. Allocate the same amount of memory for
+        # each layer.
+        return _get_kv_cache_groups_uniform_spec(kv_cache_spec)
+    elif uniform_spec := UniformTypeKVCacheSpecs.from_specs(kv_cache_spec):
+        # All layers need the same number of token slots (e.g., all layers are
+        # full attention, or all layers are sliding window attention with the
+        # same window size). Put all layers into one group.
+        return _get_kv_cache_groups_uniform_type(uniform_spec)
+    elif is_kv_cache_page_size_uniform(kv_cache_spec):
+        # Model contains multiple attention types, but KV cache of all layers
+        # have the same physical memory per block per layer. Split the layers
+        # into groups with the same number of layers, and thus same total page
+        # size.
+        return _get_kv_cache_groups_uniform_page_size(kv_cache_spec)
+
+    raise NotImplementedError
+
+
+def generate_scheduler_kv_cache_config(
+    kv_cache_configs: list[KVCacheConfig],
+) -> KVCacheConfig:
+    """
+    Generate the KV cache configuration for the scheduler.
+    """
+    assert all(
+        [cfg.num_blocks == kv_cache_configs[0].num_blocks for cfg in kv_cache_configs]
+    )
+    # All workers have the same kv_cache_config except layer names, so use
+    # an arbitrary one to initialize the scheduler.
+    cfg = copy.deepcopy(kv_cache_configs[0])
+    for group in cfg.kv_cache_groups:
+        if isinstance(group.kv_cache_spec, UniformTypeKVCacheSpecs):
+            # All layers in the UniformTypeKVCacheSpecs have the same type,
+            # so use an arbitrary one to initialize the scheduler.
+            group.kv_cache_spec = next(
+                iter(group.kv_cache_spec.kv_cache_specs.values())
+            )
+    return cfg
+
+
+def _report_kv_cache_config(
+    vllm_config: VllmConfig, kv_cache_config: KVCacheConfig
+) -> None:
+    """
+    Log resolved KV cache configuration.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_config: The resolved KV cache configuration
+    """
+    min_block_size = min(
+        [group.kv_cache_spec.block_size for group in kv_cache_config.kv_cache_groups]
+    )
+
+    # Log the KV cache size and maximum concurrency.
+    num_tokens = (
+        kv_cache_config.num_blocks
+        // len(kv_cache_config.kv_cache_groups)
+        * min_block_size
+    )
+    if vllm_config.parallel_config.decode_context_parallel_size > 1:
+        num_tokens *= vllm_config.parallel_config.decode_context_parallel_size
+        logger.info(
+            "Multiplying the GPU KV cache size by the dcp_world_size %d.",
+            vllm_config.parallel_config.decode_context_parallel_size,
+        )
+    num_tokens_str = f"{num_tokens:,}"
+    logger.info_once("GPU KV cache size: %s tokens", num_tokens_str, scope="local")
+    max_model_len_str = f"{vllm_config.model_config.max_model_len:,}"
+    max_concurrency = get_max_concurrency_for_kv_cache_config(
+        vllm_config, kv_cache_config
+    )
+    logger.info(
+        "Maximum concurrency for %s tokens per request: %.2fx",
+        max_model_len_str,
+        max_concurrency,
+    )
+
+
+def get_kv_cache_configs(
+    vllm_config: VllmConfig,
+    kv_cache_specs: list[dict[str, KVCacheSpec]],
+    available_memory: list[int],
+) -> list[KVCacheConfig]:
+    """
+    Generates the KV cache configurations for a model.
+    Since we use a shared centralized controller for all workers, we need the
+    `kv_cache_config` to be consistent across all workers to make sure
+    the KV cache allocation can be applied to all workers. However, different
+    workers may have different memory available, and different type of layers
+    (when pipeline parallel is enabled). To handle the difference between
+    workers, the current implementation is:
+    1. Merge the KV cache specs of all workers to get the KVCacheSpecs for
+       the whole model.
+    2. Generate the KV cache groups based on the layer ratio of the whole model.
+    3. Generate the KV cache configs for each worker based on the KV cache
+       grouping strategy. (This is reasonable because the layer ratio of
+       different PP stages are similar.)
+    4. Change the num_blocks of each worker to the smallest among all workers
+       and shrink tensor sizes proportionally to avoid allocating unused memory.
+
+    Args:
+        vllm_config: The global VllmConfig
+        kv_cache_specs: List of dict[layer_name, KVCacheSpec] for each worker.
+        available_memory: Memory available for KV cache in bytes for each
+            worker.
+
+    Returns:
+        The generated KVCacheConfigs for each worker.
+    """
+
+    # Check if the available memory is enough for each worker.
+    for kv_cache_spec_one_worker, available_memory_one_worker in zip(
+        kv_cache_specs, available_memory
+    ):
+        check_enough_kv_cache_memory(
+            vllm_config, kv_cache_spec_one_worker, available_memory_one_worker
+        )
+
+    # Merge the KV cache specs of all workers. Different PP stages may have
+    # different layer names, and different TP ranks of the same PP stage should
+    # have the same KV cache spec.
+    merged_kv_cache_specs: dict[str, KVCacheSpec] = {}
+    for kv_cache_spec_one_worker in kv_cache_specs:
+        for layer_name, layer_spec in kv_cache_spec_one_worker.items():
+            if layer_name not in merged_kv_cache_specs:
+                merged_kv_cache_specs[layer_name] = layer_spec
+            else:
+                assert merged_kv_cache_specs[layer_name] == layer_spec, (
+                    "The KV cache specs for the same layer are different "
+                    "across workers. This is not supported yet."
+                )
+    global_kv_cache_groups = get_kv_cache_groups(vllm_config, merged_kv_cache_specs)
+
+    kv_cache_configs: list[KVCacheConfig] = []
+    for kv_cache_spec_one_worker, available_memory_one_worker in zip(
+        kv_cache_specs, available_memory
+    ):
+        kv_cache_groups_one_worker: list[KVCacheGroupSpec] = []
+        for group in global_kv_cache_groups:
+            group_layer_names_one_worker = [
+                layer_name
+                for layer_name in group.layer_names
+                if layer_name in kv_cache_spec_one_worker
+            ]
+            kv_cache_groups_one_worker.append(
+                KVCacheGroupSpec(group_layer_names_one_worker, group.kv_cache_spec)
+            )
+        assert sum(
+            len(group.layer_names) for group in kv_cache_groups_one_worker
+        ) == len(kv_cache_spec_one_worker), "Some layers are not assigned to any group."
+        kv_cache_configs.append(
+            get_kv_cache_config_from_groups(
+                vllm_config,
+                kv_cache_groups_one_worker,
+                kv_cache_spec_one_worker,
+                available_memory_one_worker,
+            )
+        )
+
+    # Change the num_blocks of each rank to the smallest among all ranks.
+    # We also need to shrink the tensor size proportionally to avoid
+    # allocating unused memory.
+    min_num_blocks = min(
+        kv_cache_config.num_blocks for kv_cache_config in kv_cache_configs
+    )
+    for kv_cache_config in kv_cache_configs:
+        num_blocks_old = kv_cache_config.num_blocks
+        kv_cache_config.num_blocks = min_num_blocks
+
+        # Shrink tensor size proportionally
+        for tensor in kv_cache_config.kv_cache_tensors:
+            assert tensor.size % num_blocks_old == 0
+            tensor.size = tensor.size // num_blocks_old * min_num_blocks
+            
+        for tensor in kv_cache_config.kv_cache_scale_tensors:
+            assert tensor.size % num_blocks_old == 0
+            tensor.size = tensor.size // num_blocks_old * min_num_blocks
+
+        if len(kv_cache_config.kv_cache_groups) > 0:
+            _report_kv_cache_config(vllm_config, kv_cache_config)
+
+    return kv_cache_configs
diff --git a/v1/core/sched/__init__.py b/v1/core/sched/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/core/sched/__pycache__/__init__.cpython-312.pyc b/v1/core/sched/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0aec60de1217c370a5d55089915a5e75b6ffad37
GIT binary patch
literal 163
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIq8?=7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>L=$HrRo<aXQZa+$H!;pWtPOp
k>lIYq;;_lhPbtkwwJTx;8p#O6#URE<W=2NFB4!{909w8$FaQ7m

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/async_scheduler.cpython-312.pyc b/v1/core/sched/__pycache__/async_scheduler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..53e62c9e355bbfbe358f2f261fa8e7d565c16852
GIT binary patch
literal 2774
zcmZ`*U2I!L7M{63_O)ZjZW5BFB&8vZQ*Ve(lCBa&y4qEvmgXU=(rpD6Fmmsmq;9T%
zI`_J1A_uBfrA@W06dqPB;sFpKfyzU)Py4v<E3JG}DqEvP6!FvtBv)w#;)OkPe;iu8
zBYWn|nKN^K=A3WtzvJ;Jf@UgzE&L~f(05`IG}R~e-U8wlGLV5yRKz)q1udCUQO?OO
zEt^VF&8aS}n4w}g7cOc!4I>FrOe1%&cTz4Yq0`7vZy+N?)jP7!?OG3~wFhF7#=NUg
zD%iv<udGl8)5JOb5;dwOWq+*Nm8uP_NSl?Gc=%O%rAjTE$9>|Qowuu&?j7y*nm^gQ
z0K{Lw6N+-!Ksm|4R5m0-URJiyGB%VOv7BP4R0ZooG&~5>hD5c1rjcby@RmcabQq+g
zTj(0jb)7?Ljd%aSS}*Bs+j!CnEGK2xbRJ^VuCmgSF8KzDAq;;Jh`oP6kp7NuAzN_W
zb~9W<e}hY?;UItzV7w{S@MR^C*&jD$;D`3-0kweM`~;y*rG_pCfe4mhtSQ2!O|>S~
z)XQ!v{9+NvYnUZ4g0<L_d@(bm)dhq$`e46gCxZ2weEC2??~gUbkni|@2i|Ok;M|^l
znScT=ocVO?Y{LeK)k30QJ%*5l-(9Pz*KkK`6;Ey>j*u>qcBBk-1w(B5pVkMSiP)>8
z?fJW(DG1_(37p`yb(9V*onpeTFVF*#<qv*_mhR@NRjp9Q`$@H8<ZVjw%Qj^sNC`d^
zPzJFoR3`@2%LXNOd6kwd-dCy?+p<Q$)tHy+7JsH{QDWJwszW|eBgn4-vCYdhQZe&7
zy;L?0$}BFMw8Z5VYV%$pqL+(MNwCjX7ZpsOPPnRtNj{_7wa=Z9f?@F^6<RV1rIlan
z_jf=kC>AxBnaCzK3?1+3;3E{n6*!QGeXn@0US;HI?GZwBGjCahSR#3kc<uU6XR>y&
zlC2aflXjkgW0TjavoFo9&eE(|xR|Z1+n36v>{Zh&X0J|V^)jPbH{jX4sL^(4S*Ehi
zM6zy-Jz2b&&etaH-TEH7AFrcF8j5t^3_Dt?K0f=EHrJeZv929!4o^0Q7oFk7x^}49
zpKA2K{8j(UTc?`+hi(<$D}Hp!>7Up--Hg4^Ob#@XlTLDSH+g<%yfJ;&nLb<p(|Kq5
z{6krach_StJPM)FR6RA<NX<K``F~#c*Q<9^uiSn9Og;A8eX)7MNlr9-4>fwnoZhi!
z&tRix%ITSUDC55A`#ob1RjDtvC(8#?t!{MSU?Z8`O=fqd>a&Z^%%YQAyqC<jLTF<0
z^S&LW@#2C5zx2X(_+B#A8bt&1tz#%Y*^*IY@SgV49ypBH2y{GNqHEqYi(Jrs02k{>
zJQgmF9rtkz(8yhQvfGsHHu~LE0pH-!so|OwV8a`*x+wu#VW{GEjqaaegS^*Zk0>~3
z8v|}dx2@@ng9cuG1Flb6M1RIL*=}Q9C#(=y!e#&!x;+iQ>^q_x2A!RdtfLPbpgZsv
zuvMxl%Mv^x(vk}#=_n6b?jy#MpqD=z<f30FWUXLd^2?kF)MDU1V&WZv*YNz((wU{x
zJh^(6=y`a6NHJf^!&Ay*-t?kb)>kbiKtCN~hs92Dvn(aH_j!8BMY;?n<Ll*N%Pv<c
z)L^3^V~IO)tMEEIDmJE}+xX4@DW47|Pl!W4fDUS?6-7tJKYaWBx9i%_e@9Xu4>%(W
z%~<dDn|reKeALknZ^gIQKq!)IXyd!u_?I)EZ{D3a;b<rBY2(dAe<P7`5}BQm-NZ~?
zo2e&eAg5zTK0VPGopVO#cDv@9v1B7Q;>1Q8v5XVTK-JwIXbc{A29NKoHD)h3@Eg4F
zNK_o`Ob*{(sVBzj+87%H`_eJ45mL$*DIq*cNU<zFLx7GEa;2I#y%i>2Vi!Z0hzwWE
z0(^|fg_6xxyIL_RS1y*zrW+<6_t8wJrb$Q|dl3~`{Ch8$BDtC9#G7NCh3>~2s3i@l
z(ffzeEfq$vGur()EU5WjHFf{M!Ilamun!L1KKb5yD=cOjiYB(~?UOgxZy()y$B8`m
zLj>3l5p=F^u8t+}uuEWM#{1f0qJa3I%egw05vZAQQ8VMcDXy!0sKa{jm@y_$fF}YG
z|N7m?xCzR#Vm;*RbG;Rq>e(dHiEHy-oPWpWVJbpni41GW7~{tp!biVGzx^6be}ksK
ajr485b~kePdgxJT8mG2je~e&okNO{s-?BUa

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/interface.cpython-312.pyc b/v1/core/sched/__pycache__/interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5d82a68ceadf2c5b180c1e39d944a2fcf7a27130
GIT binary patch
literal 8735
zcmbVRNpBp-74BI%T!*VDQd^5!%#p;Q>39{q(G)EcGD$<C?PM<Fo~atL&0faUJ)}5x
z0w*wn067PCa#C`MoE(xv{zWd5eX!7gU<WxQxlJSo0RjZb_o|m^a)xs3Ay{2q%d1y!
z`QEGQKMxM}Dfk)bpX-00R+PWeOZdwKm4~09^0C4cmM|1EQA(J}QZhmBNh4*ZOKDk8
z85uKM%9=f;9{HX&a%OL-*X%3xB@~_&&trVX=r;#S1F}DB44OlwAzAM+^5$@9*c>U1
z$oHHvYL1o0WWCoIHz!IHvfgJLF(*rtvfghTHK$5b=5%RVz7H73%;Tlw=84h?`95fz
zG*6XIC6uIcRbfLPDJ;(uzfbvlDye(Jg^_>IOCjl{7GGKNhO~;~3a#pz+}*NSA>rj#
zTrRYV!7*fT;|FgnmzQ2!Ub?ojcGb(R*InJVGy`2@t8c!(v9h{;W%2d$_2sK8H#V;S
zz#Cm{7_Po*GtIcpH+4|n1I50#48vTqt(v}xx6x~Fp>FZ2Yl~MjhnL@4pp~u)%``Q!
z-f-&;*UR6iZgJKyc+h}(Bg@vNZt*2saDR}4#z7F%Ff^h*6ivM0YOX_+uL!N?ZrI!0
zT49bi0`9nRy#WqF+DWhHI)AUh9oHKSDm1x43ryZ{MWgCA1ZV!LtD2>4a#8gq>X)Oz
z%fsI#$Yi)uN-(9A<SCwJ36`j(Sdyh!nq^p)^{^bzuwI^JeY}VD<9~n+)`p>~%<ls-
zr5sPOSvLGpI%?_Vsb0nZV+A%E>*>ST5te6TY@7}7e$bw%C8t2CmSsm`;|5|BF0jd1
z&mbsVWJhByLui@ec|OeZM5)=MC~TS?lbmMR@z}@_j2z&ZT9TcJwT_~#2W=-mN|(mu
z2zome8$rBMn~D(=(TLNr5l3X}B+n3axt}DPiS-|q{Zs5r(04Z0H;uka>|Cq`yz?n`
zJ{bELRz1EqSeWxhBXe1?VD>ew%3t;RcVMsOsx(+ZK;h-Lcgj_=v#>Q!ty8e?z&6UZ
zwA-@jTZfpS{=SM~SGUWK-sE1tX_iIc65hCORgDJY<(h8k4h+5QaM$ZK?9H-6R_kR2
zhsjxM)g0)AKiHN+j{I;4#m9;pwktnLe41GMG~tb{+3t#2H@L~M8MZ8hEebg=?Qo+e
zj$*i={R;q|B92jUoQe}voJ8T!VruaF&(geW*5~Vbea_XyCU@s<HlBIz+3jceyrEa-
z>w7>8Yn}u(zq2r3g;UNu<g)X6D92)b&&!p|*r8i4H;;7+x)^pIp~XqgA1YrTQSvi)
za;G2SO%a1As<iF!_XrUb5?Up#DB&`yyTw)Ed$pswwptf<l{=2ATj<gqRdU-fbZb*}
zTwX8s^@UsCz|2@L<5k@O>ZzDyYK*IzD~am_lLUvV!FRY(RF`2Ov565qBCkS1f;)BF
zVv-w8b+EF*)tW7KHNn)n2HxzNq-+vG6;<#dIQsb|$#F!_M`~iHsu>1n*k+w;P`I(D
zR`yg)tu&lH)v)clzgezwiJY-5E;|lPM91_!A|CCR3z8FSKvJN?^s0n=u}7S}4{4Tl
zc3HI=X4xe;b$%G}<ZeMKP937E>6p7^??P7A9t2P0;_}CaR8Eo#loKi>A{7(8RE+v6
z&A6$NVPA?Zj@?^o1?q5AgDjLPv=y*d;UXdj&aox44yF0L5Caz94cB)rsc6vMklX^P
zL=tLS4>lLk(*#y(xb_^p85(tT=zdS#<OnCQ23Ql(4wkYlP8z|ZsIG%Iv8y}SgWjeV
z?7^{3zDw#RX;iqo%Q@`L0#6Pn*;lt3);2U<he7Cu0iI>;CI(cuu;`_TJ<>tL04F<K
zh2`3edR6XLW7=P2O!wn>r}{O+u^}2lA4hFCyw)&Orn#D`RRD4OG#9NI$g85cP%E^c
zsk>XYfjz^5RcXwsknvXC1@lBz8Z<TtQJcOG=~hGzTdQk=M5$ZI1*G+mVtu!0`{{L`
z%gfP3a^OWZM1UZ=t9IpG<Qi~5%hdozl5Bfje_KR8ushE7(F={B7`2KSpwXuZaTX7U
z07(_+P<pwLKv%2_JI~Op0P7z2u}(Zj(}%+mB8Vl`B$~tDBY;nw#vsX5At{*>7t!F*
zY&BqQ4ESB%^b@RdMR!fj*>0Y{5vEvC=qq*^_W}_M7|z8R9+Ubg`<e}S7L*AIici%P
zitzUc?g85`fz>zbFfuZWwjKm<nc6Dw0R|tEo%^iGkGV0!-XLJ_fJbD1z_rMNLR;K|
zr3OI(^y4eHEg;f<rz!i3!$f5ycR~apQiL<A&fuktQqRb8q7Df$7QYF|L~QWgQ?3x%
z067W48TJ$R64#E1HGGNb@DC{`tOk8nw|x){6N?ziX%<Ba-?3@8{stm?gnDsYj*0aU
zN2Bl{!O74OOu#4OHwo!G^7Jk)2nM2+$!&dR94VMM7r<s6S-+30HQ+d8f=E-9OCIpa
zLaJ^4q6ph_$Ob{&_s>yZVr8Ndm}~P~7a!;xwgfT{0~a_ObAkWYLko%K(=h{=M$xvC
zDBgt1CpF2_h*ONawU?I@{m_d*?Cf*#BLUk7#xx6u@9@CTw`02;_-?!W5h9DK#iJ|P
zL)^8*V`R|qM;szmY_h>)cD5)so&9JY2;#DIj#$t}j3gk}7~|}q75E_N^@Ku<17SaA
zAPtw&ZJz8Rnpl6CEGW?WP)r_Pe?WkA;N?S4lbL(N5#yNlEx_-;z{XeQDL~38WEw*H
zCb_9Aezq7)iQEa0VcF!4l7N)4pFoDlD1$JwX%yuSF$HwTPolJI%UmR;o`s_N_7-rC
zv>UKMDJkNqKq^XU5A_^$)F)!I;E1pUpi-EcGwvc%Q~uz%NM3QeA|(e&akz#=^Jug1
zZpP;%u<A`2+c7^##zH7|Vmmz4#7LQ!)x|I^2N-IqfeQ>;K3sa`3P@qa=yyQ(zL|!N
z5|$fLQoo6e%nC`x==d%kK-Y6H9&worFNFf@_|O#?S!lUVbEb>w`s+qxwusaM6_j55
z|EH+t%WE=$rj0jnW#b=EBgR9!3c;$2L(3hB0#=QuN5?3)prb>ZXvAx?*kwPD82<ri
zhk%@ox#qrIlHZdQAI_rqSouJCm(q{}zwm;ECAP2N@Q7=%=J$her*4P_@^R^8l=I`i
z&HAI{5t+yVpcBMVAt7GGqeDECNJqMg=0X?I95VLDAnedN|3jsfRffmE$j{%+&wrj@
z_~YW;{8M*wPkl>M(4GOuhfAZ=He_tJxO6-^npF)BvBeO2ZGB^zyoAyk2j|OL4QC$Y
z4l=U8L$F166~#mLH(Pio=E@uUazzulJ>~a64>~yo5hnED7)T+<2yNPj$Vgo{ckJjk
zJk~#UN-iY<u<9pH*jSK*;FwA28y&zY#D(54TWFue&<qjKIXeu3`;ylHpQ9|021$9z
zGaXj)v$}}8;8cpUQ^bFOOL2UQBY2PwN(&}|9~4Rl9q1%l&a$mJj#Kj<o#N!|_L&K<
z!O4)Ay7C5YM1bRTqHM!scMzB$&4%l?-GBBF8}AtTQ?l?NCQpB(<G+g0-{kl=6V7mg
zz=5FRz%K*`z(S(=-r<hW1s3F`Ldbpu7BT6%>K=F7W(8}AWUwx;5}hKBbBo|eEKzX~
zP6tSmp#d~cMUz)Z%XEz?ohTge3y^S5qll2<;@$kk&+~Ji<yZeW{>8$zy9?JoUs%19
zTm6<0(fr|cj=M`4>tk0E@?J~5_LgtU`<#|+2?sAtxH?@_2wa{JmpX6)*9JjC;d{z1
z*EhE)9{}_k2%mF)jvK?1?p8L6dl>{9pCA9;wri%}IqX*?>ZhpqmO*naw2oN{adaj|
zGD7;nv5Z=FHQcxaEd@WV?@;L|MZ7>`xMyxyuG5w6&SAeHj$aDd7Q?9R3xyQ;WGL*s
zIfiAwzp8B`zO@bT2Hio2hc<F?TukE-wm(zkhm41Et3qB!`iHq4j_bn!A1OhT;2JqX
zcLnyD;K;uUZ=UF4+U@S&(x$(Q!X|HQHC$%z9!RqfQBBSXMt8s42|E8k%(T_ee^3p0
z_tlU_<zr<}kykgLb~^VkshB=Fgx|@UXSzt?;GjQ&szYBdKUD7J$D{=VLQbJU&_#M7
zEiZ;-UA8vI_kD9yKTy|jQ;A{UqbVa)(Bw6=JVP&I?G~TxTHyrU@LQV6%Vn>xT!!1?
zlO5^<<??$C&G35!ZCB981uumlBzmcquGqFA&Qs3?D&}M(T`7pi>HSG6o~6bV&H;k9
zC7!23W>0NgT&A|GG%n*da6>FssG*07YgDXK@dg#^RFGTCoLWp$jSBiy<IEz{`AE5!
z8EXwG7hk-0?!vw4Q~w<4%glT=ak`bk6A9IHq18jRoO1SsRxj21l!>FQeyR;9M`l}t
zR2x!GooVH%Hmr;vZ4r&usM0s|U<|c~DJ47JN>bZV)E*=!qc+r9PsrX>X6Bx{&`RO?
zRqv?>89ak|s9{Z_FoM46i>(Zv;Oyi=tA}bitn;(#ow4(GhR)yZee6Lm8iT3SeO^w@
zVCvLtD}yJdg0UXdf>G2qBpJ&_ZKz=@;i3~qKY8}n(l1}QI{^~@>LizN_3le1Gc&hu
zJW%im)<Lb6OJ$zEJ^oO^BiPhHX6BarK*1vzhFa@*DzldOgweRQL@*F+-n#NY>EyeW
z1m#=Hx6j;mZqNRDy<^Ex0H3^e=iF0wk3Zdw#si`e=QEKRzcqX3;!AgDUjACai*H0^
zI%|c~UP`M}1%azHb1z@D@l8g4H*t#8MV9Mj-Mu=%Ph@Ev8K;-0PiIAwK9|F5G(-A_
z?;7&+V=?~u@sb?O=zF?eY2bKW1UTTUz2zW(rg{Vv#hnE~xZ_R9DLV_GBY08bZ_&SG
z69dEqA%Zs)4)Q+`$%|WWI&6%-dCJU@ata|odrpJ{aMLREs#By))sayr*cO%zF7$jD
zp<Cg0R}kWSJfZ87HnSZcRON?M-&gnhua|q?N1GQ#4J0VSIRw3}R3ef1cUDQ9y|0}8
zQn~OqW$7=e;rr?H_tWcNreC|Ce*Av=+571yzf8aUW%}v+>BX<J?<5oBpN#!Wp{LaC
F{{SIdkDdSk

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/output.cpython-312.pyc b/v1/core/sched/__pycache__/output.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b3862bf67fd911fca280aa0fafd68b8b6516715b
GIT binary patch
literal 7276
zcmcgRTWlLwb~D2vMN)jfM3Iz4i?U@(6ctB)#I|H7D<@9uSevz-#fEh<r8rkM*TY9<
zC?^t}Rz*{^#V)Wmuz=|<idFw?q#yp=76tm#76tmlF#~WqyDl8GDbPR0O0igf^_)9H
zilphF{pm<^=HBzTGjry=?%}_<-A)D$iT_DaoM4!L$4Td~nS;F>EW_MmL`GyKro`r0
z7RQ{#l`J_69a|*6WX)OWn3rs&k=zI!TP1tRk#n#NvC1bw#wIy)qx9-3@i{l;u}Pks
z2XG^jx8%$DD9$eVOMzT~jvZ346v~C@*eQiekz9n1N2Re+G#8~~mo#3A<zjT~mg1#E
zF2OQo51GjM;0(YSf-?eV6wVl&3F06u$DC(G&*zNj{em;z^$YWrJJ;M~m(K@${+IGi
zb@>9o7knvS(!6U3xWa>6xdU6abmYJA8Pcro5c9QsLCPx%OuU7B;RX?fs$8iOxwZu;
z_tg*HdsA3_`_0vh@2s5%gi|C{nH2IhBErnSUJ#^WxkhB6ST0DLB3T1$@XgiLO1Vr5
zwTgU+)be-_L|^>jF!boVmCJ8jCLeDSr3PH#OPf-yc&Q@hrMF1FwkeY<RZ;+g`@Kp9
z?sfgWyqquL<9e>-OVvKih`CI`)G)n_n3KK#guy+AFgaFaa@_k2u@GKlmjO$x#5N9B
zk=q7tz*<b~2x4K*)49D%x6-+zJGarfv%Aj724_mzDa8hBIOu4!E91nu$mLw(C{SIL
z>K5I^BihLeD~Vve8#dAVIp4J!ujnC`4NmlZ&gXpQ*big>7MBj_o;C7`sf}}>e%&UM
zkA<SRru*RQmZ~+OR=G*afKl|(Qc2h_RITV<#Z;<LrFzyqRYUFOJgYm_rApx@l?;|Q
zOF{vb+XQnkR#bGCRFU%n+zvnJb`Wf!a3gz_l$DB{yq#RDl!@*(pMjLt2|U1v$&3#P
zAG}<!fMz<!C=77E_YVN>F&uN7xy}B#L+!Z&)^xBQB=YjTb7KtHPT=Vw0@mI$HHWu3
zz|#QMPXny0AA>W%dS1l-HT#9bz+Pd}+*;Zp`(Y{v5Cjo~5QGs#5R4&+B0w`r+jXa@
zB2fEKsR03tZYfBL9K#iGK?OCKOeUYdzE~?&7pukULM<;}C$)u7H&2{=?dA!xC>7Ti
zt6Q}jmGa^(Nh&SgI<i=($YfE$kg!<UtiealR=0H52G~#c^TzwlEZa+5#2a4&u)}=g
zVthd@7;6O&s=<TW#7t}Am^yJxi%zwo^J;WnOQc$fB{i|6#iv{GBWnDJ7MaqLv#sQ5
zHF;VaPqxMv)bRx^cAynoRAY<Z2Aw`<n{hgvd$2xJfZWkNP_xuvTr{KHW`-Gy92t%u
zW<q6%7oV{r3lc+2=@;O`KpA3AK(PR2h)Ds32g(qm0*VzVLktTjHlPeKE})D6#n;t9
zcK{UoZ5E*8Fa2P6&b8-}{_l0zhzcv)fy`i7Sb6Tw^aO^L=l;w<XjpkZn(4-ZmFMBi
zkZ7>-+>_~z2gugv{DN{LUnMI#n+B&qW7n+|Gt@!)eIw23yh5Z6Jvd}V1!F-nDNo^&
zb^#2wDhtB)SpWNHJA^lYO?e1lhtW=*X`Ooa@u_#~Vr%jhb@G+g<nhOo#~YV_*s#aj
zJnM~Uk=VVPcW>VLu+6Zkq?Vj%C6B4eV~wfffH)D?;!~~oyc(Zx#4><bn9`<Ft*Iq-
zYN;`K6cES8weg8xPTrqvL=VF>ozhaXt<-5Xb-FRV42YG4mPob|3u<Da5zhi*5jc)F
zrcY=tZ#(F4``VUKhf_WPPdnW3&wPjB|53Qsjjmucu*Tr=1xVvzm_6_eF?#AgL-51g
zfUd()_ZjXA5MRMW(N%^!1iH#_hd@^u?hxoI!yN)$1>^3(L0yIGaTPfQ9NUqOwRY2`
zAd&KlJOf1eAc8{(W)U1lkVY^EAnl}qTDJf{HEekvNi^>7hx`GHw#XS^(nEvJh&PoN
zfYb@(hFv@I<w}{F_I7l@u)CBWpwvGB*kPW|Wm|J+)w#2cxr;wty~DSB2UXv}FI|Tk
zKX|`wVH^`}8*}>X|Hb%cw3*i$sgq!%r~W_99_kx#>2khA1VMKSLa8EdN;q~2!pEC=
z$)s46nyh;TAzv<6YWZ5RQdWS6mx@YFw?Ne@V{IY35uknP*4k!OA~IT`5sF4>Wn3bV
z6-5~hO->@nB6t<RLxy@G{TMQu8wJxaQ2q|UpD>_Mx9^WHLcpjm-7W6UsF6cW{*dMm
zHzM<@KhxwhS~#^Us^PgNKc|Hb?4DCYhnxIi%^SLNwVt~B!LH@bN2+(G$<Juxi6)=W
z0u#Hu8lZ^z#hpuyAh0h!wffqe*Xn%gkG8FFh1-V4>!Et#{`l@{eNqh`ZjT_^&NySw
z95C9mFg8CGX-~VY&U$K(flE8-gYnY03|x#C!*?pc**!XGZf}{!nEqm#mb_N8q=u5$
zoO86awLrN|%V`s9l-PE{ckpJ(Y&DB*3v6~w3DIiML>rdpru>Mxs!^g_MWfI*C5Y85
zx1FMsKrt?k_7u*e#KkehExJ094tOlYgX;pPd!KW^)HWqNeG;9g>pm4o_Y~+|X&>>6
zek{|wm;h|S0=j>dZnrKQl`^f;u@a`0wO1y}W(kVw4#Hg~pY+u1?z|-JPqS+}rFXM2
zEg*G2CS;>>GmCRM4lmi4G%y+9xrc%09#b=eKNPaeuv)02fGf;Hb}h}xuYi<%7C@S%
zp-VyePS(ZS!}BZKu@~Mn+o9b8eg%W#4)Y)0z@4M_mhUb%y~&0>NiA@Dd{ZIG0c9jN
zibN9oUc(A2(AW484DR8>!*%dD$NY>faMzgv_aPYeXY6e(>4xkXZZUVcp9Xl~`;5H;
zkfozf82K$&5ndYKSAHG9Lyo>Q4eEUb$5`iyX*~=ZW&&F-h(Fuu7d7!RR#;!bkFtYN
z<jnWjzrXgk*P7l7e{=28@jJHqOe>aEW7)^P?60n=-U|);h2K5)UQl=t_*r<C-yTD~
z^%==`X>A+C{uf$1@ZDOIy`WEgf`Q{Ui@t?*0O&RKGQC>%^(uc4_~my1^l3HRQ58Bx
zHz9A&zFen$jDLvhT>t<Ybu#g(UuOOyvuCyVoL|Kb-LXLeoImpDT<hrDD*VsA{b%P|
zu1VE3S-<tzb?Bc()pc2m9r^~@+l<BG{M|DKhK9Zmy~g($BX0GmF`{=ETh{A6p4ABh
z*O?-7o&Lf0(Ckte+ryC_RlEUf82VVn5#8vWgAp`9EDC{+i989jUcYme@;8Zq7PqyX
zcu_a|)IUW*tY3DRue<>*6!}eJ>KAWnv4r`boYp3j-+Jx%%67Bj1oOujBA)?}4$4b7
zK8oNNg4YlnM{okc8iJDmbY3hLYVs)@+M&3i?Irm<lF?pdOe;FS4xI)WKal(`g3}1T
zj{rlxk&v*Qr}w5ngqgxa$f23m6S$N5^ADPQ1oB*DydJ#!qb83fO(<ID>sRhO?w)P(
z)5hFVzq*^c|3TfO24|c6tQH)rTkGQP(*5FtV7;tH7as9y^r#v<*5r>tv5tupWVNw)
zef92ElTSXiy4xIUJy1_QW8i}6)I$-lye<5%R&T>M-?U~Bb&-7#dLTZGA>&0BITsLw
zVJ89eeg1UQI@jiSt8=&Z;M}9&!*_ngtC?kWcI6oZNEDej<zU)&LH>TmIm}G{4UP;2
z;dd#(**#Fdc<em|FxdVwbE(k;vq9E0a`gzY6Gt~68=2YxRHF@sRLIUozBE@b8e+pJ
zMr+LEhc%46?Id<nvXi$vbJ`{op@mCaz&(neUUcQKE#{)lIjiV4abDu<;yj4ka;3ex
z_X;*Fpd6IHPkR=6fOaqdAqtp7F(K*UeO$rlc~W!;v(i3^h8RVU)u4KmgrT&=KDPpG
zN<k!rib%|Ct4H^#q>Kb?lR_Uw(WAH;bk0gpze9T1D1Iu?<gMtwjbgc|U>g>L7xw2O
z8<0PQ&H}I}zmW&J@|K>glClULQ32}Q%>uSc#r|}^riX9dg4>wASOF?o+Kko1@Tf1M
z)Bd6U47t+uXEZMPJp|OpPvVIB_(wRpj6gtu0Z{&Z1i0fHbl<CpL-2Drl}7-;eO(N=
z*+*&=Yhv)<#DZ~+Pt_GDVL!c}g{l~w<p5N^DWIojcNN1;cK<+~KHlVy19B?0yYzs6
zaOI(6_l!FEYLkBzBoKMO2u=<$e=G(y^^GP!3HXTvyTSYKH2H%dm|be{GrOW8aB`)=
zkHg0MQAmx0|1Se?AL>hf*>E*{g+5oqn2*OE?gYQf)kF?Vo4VB&pSJ4m^U%>Q<vRvD
z@#5zMQ^0O2n!|RuT&-o-&b=Ya`K{k8SF^B@S$g$D-Fw|wL|8A@N_pkxTG}@BYwkzq
zfvCC;4=p43M>v%b02)<i4nMH`)k*joPs5on`Hb=E$d;bgN4vis5Jkqf*Bu+1WoY|X
zp!tY_N4M3ss$iiq)@Qokm<Z(48nlCPJ7xraFE$*rLie`>8Iz%I1s8#SBUi5KE;`H_
z;<^PC0DCp;E9+S*D#DIVF0Nx2It!Lvlk;U|gUC4UT6uOouMldF`jHoez)QM9y&jXj
zb;OWEi`M;A4%=B-^Mla6q8_3668>%hJJGxZp9GzpZZGv9CH6PbjqPTLQU;o8bUUgW
z8iAX4?t`08-BwxuG5n}v>@=w_q6yM(HsE8rec9L(pOHTS7A(q@-vDS^SeE^7JHt*t
zVGcfFl3z22zh)M`viN?@N1pJLzvg{k^Ov9S??2%ep76_0_#;pFrGMjRpT?36eoQl9
zAi8r=OH6~4Xrb87B`qA^S<^hBo%7%*Tu@`3zvWg~s2Bi1!s12|1lv5~UgtU-^T+|9
mmjiLv*bYaAU1>7_dN~mH5pazDmgCulHUof?zriWB%>My+ywZUH

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/request_queue.cpython-312.pyc b/v1/core/sched/__pycache__/request_queue.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..222b870f91b3bab7d3e34d1a241895903f19f6c5
GIT binary patch
literal 11565
zcmd5?Yiu0Xb)K1>A&1L-@Fk0qNo%M#Wr;K+T9Q>aHX}KTWSG^%wvese^=fA*uCy=B
z3?*^9iWOHtNn5F?pe?D`g_-_nqzFOzqXmriPa3pA(E{z#j4FAdATF8$?Z35`L1X{w
zckayW&g?^vwm&)q@4b7^ojd2AbMCp{IWzwl4Ei}-N%6fzu%F}pjea;+i`^*y7>#*O
z<y1b&MW_~%d`gH2DPP3L({Eo=Oi2-mwZ&vhsx{J@k|Q$vEhXDh{)nHoTaxXmKqSC(
z0(Xd0Td#1ctod*Itmj06thWuleod(KhFEVqdIOrI1=eA(7P>9k_k<ZW2x<tu&P*L@
zSPQBhT4+L4JFke5&S`$I>p$t1@j;>J8~fUUVkmaXF!fm6Oljt1MjhmflB%7X(m<CF
zo0=XwmDKE(nbAQOUrJA<P`4hZVTKvEIIv3I{!#8lW1iEv2(NMxLFFSpRfveHFCtBg
zgHo~MM0`?Hr;>^E>7$usB0in#r)iamjIJ0Jl9DA_LNkVn;zWGHD9Twqk<k<8^!Q*)
zQI1B_v6L2#7X8s^Dudam9f(HHO~sNnr8OE=GjVi_UqA5m6Gi#x@x#A${P3&ayv3D?
z(=QJVo2l$@Hj&+B#`M#gx$EN8-skq6-Kz~J6Q_o=(-28|_<S;%8a_WV9M9<5Fyn4m
zx7LnFX;a!zc3N-8Y^(^PVT4g!;XV<!ecIl6`QW|qx^I6&U*nAM2uwmRU1bHL^9oE8
zRY8+fpDIFo(iQQxHIj?8fa24n2|;af^|n@eTV1`fXBOE-X#=HG^}Blfp0VvNN;@cR
z8tjg&&gLlKq6b0u!O8?R=;{r#-VXGJT)myFx67Ifw6KfTT|?_|(RyGwUB!THb;n5X
zxou;%@hYcchNi@mF~eXsWa~#^`hoeh+8xCfT{EZj^mtsbrRh|(Wy-Xh<~eK<A-8)>
zRh5|HOk`#hb5gVBQ(|$Lf(qMJ>~3bK(?jEW4<@)J6h%WzPUs{ogPx-(`V**%?J-r2
z+B4>Qk6SjxRx;$Gti{lBD~iipsfB9`GRuiOI}82ns^$0DqnWIW-w8dFdUTF?9X^jU
z=ot>H*-W+xt1e0(ZqPSSLDv0H9=~=})6Oa}lQHH<*8T~G)25P{a4~%$f$cYCLI<hL
zd6IU*v_-5B;Bjtt16j;m;dh-!v~CjJ=VJJQMsQ2W?L4Y$SuNeb5bD`=SR<Kuv>wh{
zlT_I2^RnlqZuM|jlx;B?4>nlv`f`QWWYRHPYzDG}SULma)otswZPvAdgyC20%W`Or
zAv3ekx7V(yqh>`$uKz(xGM=UhY>SpF7X2{c4<0AIYcOgftHl!&iMX>YYgLu~*i`Z%
zW;t3#@K1WU^b$ura(}3_M{MR&Q%N(CO=@*K+M=&xlF7pD6vAFUjGWgzYN&g>Y(B&*
ze5o9m)Z%BA#DuN;$(R9an05qdIHIfFPdHmoWirWVG`GehGpGAE9+QnjnyKJ?KLsPi
z7I$n~Nu({lnz4c7JE^6?MNbVEtoOyoVj?%p;Ebs$Fe=^UW*+R#>s$>)lK?JiAR4Rt
zrN`px%k53Lf@pLNjN(|sS)=LAL<GEJk5j>t*YmkaM?7o|ifmWw1k?2OD8>iZ=pp(+
z&_(Z{qLT_b5%o4Io}ywS6`QHpM#WAlhN&QotbYYXQ6$6BpQWZRkv8>xM4`>E@2BE7
zsi0%h0z`B!T3iq-)NdSxQ4@F?`BdsI34#<{+*{&M-84U^s_f%hdRTu+c3KN3o0CpA
zB`scH^Dd1x8u7W{t2_&>lHYmO;%V!y&5iD2eBG3n)-G><jt%=rZ8~hB`3wu)&F|X2
zxOaK|)6MCVix-xk8m`hmBN1A{CK1Q+U%5!Tbd~=J#qZbPPoPhrItP75fJ8OX!km#7
zyA7lnX?2YQzKqB~if#6NK$j7}iw;Z~X=g}M^diYfu!<ieVYGo7XSfL-$T1M<#P2SR
z-C_5J(c4|u+kxJm8SWw<S#yFL>@0Q==65@e+zVsML_#;rUGYpx+hsKkO+T-x&e=E#
zIATm?vl-nq6cz|6nJl6pGm%LfLk!Yc`^9rY5E!HXGM(P@T%J2q>zL7>=WpA+yah2w
z9~ENKI;>a-7!#paODs#MM6ZP!Y>(#pYM1Q>mnVoz+US?LPvyY1_SyEiLwDr9di+L5
z6k8H)`DROULK29Z&+U111nOQ8g_3}jNo~Tc^|j31G+2)dfu00+hP|F}_qF_N{=IJ%
z<o^2g)Tzj5H!Dg~E2?>i&m*iS<HVYLU+#A!*0gq!z$hS+Vbal6Iop*+NHy0>z|#R>
zik8Zn)0UO#BwH-oe>kmb7hlr#j9#~L^0B%8I!(H<>~GW3$#-Ao{x#fvzpJm%zjvi;
zUm>vXUbuU1Z1%!T$PxoR&bjKu@Ni4j$*754%j%e->MW0rgPc;&uNU0LFv`&utS>wp
zUTD1|E0%X6nCaP76dN-Wq$8x637Ry5UDf^N-e>v_5RuIALwVRU#65v(cCxB^EgEAd
zT5jNB>o7D-YEaB$$7r;a59Gz(mEIk9<fs2{#6CofW3yWbuzs`CxtrTi$Ep`Fp1~mf
zAQdb^bDKg%yng`lJXhTfRY6`7^4vl0nlCP#hHBmf4!GpY`|`qh-r%pwdEa&6YP-l?
z64A?@sVD-|*_Y!VcyfvKyqYU7x>Xeycs%8j?*gY28Xxo(eTHThrFc?{>BSaHfrC;t
zC@FS1NHS_>0D~x8DEiP>?3_p>0n)TexNR8pcoyWaSe#*%1_tYuo{`2)#vv4!xnK4x
zi@oo^S&-L%vh$ghzT>wJE}mFAP<Y|k$D_x-cjD&3g1oNKcbrA+*Zi~otATr#e=YQE
zxg&4=;`27H{{(MPmT|6aOc1{(qVPn_m90rg%cBp@k&?=vg)ZTl1bq~P97o~<9Io>q
zgurs^>deDI@E1Tf2<KsC;jX#S_of#{W-k>Q9R(G}6b%0(9;~6Zu35Ot??AGSqEB$Q
zczrKu*l`lhQB7y~@0P%nR&0w#S&k+ewIbxpmM&<2=Xx8k%3%KQg337kHL=<=dtvtN
zm9SE<-9}>(D!AuioZ`rOrV04=gapKwbNWK?Z(wQ*%DzdA(T-B=br8U9C~_+@c$>x(
zs&*E#9Nw@J9w^8I*5<4nM;P*0G9Tpi=W&n29D~?(%u#QH6U7}P{2qqXFt}+Yyrm#-
zVGIsF(J(}48XXYaY!o8sUnK(Br~U#Jr2d)+p%}C+C9WkAg<^rfgFyyK=tawB#^@$0
zjuPQ-Q2d&LhQlRMkov8Nq5q~?M#Ruxk_G9hg_G2Nsw9ij+J)0)4pk{2NCQ?7Ft9XA
z<bjgxlXl+hD{-hk+FYip<fjQ4=<i=b7n`tE+EzjNXn&-ZIaH-C5Eq;=m~Nr_SJte8
zv~j@#?$oi7ING{kA@%=4$JWoNU_xeVieovIOSD_%pP=DQ5vyIQ2uO|eFcQUr>O-O!
zDPh2KB#r^q9e7S{3z}EQwP9QvUN8Wjv->P)UZo?w8wr3Ow3EKpD5Q5IA<Q1ej7aK6
zI?(P!8%f+q7uwyGv@TM&ksePEy?|IV?HlYa_8hg-_#SXx@{@ZWQ=A-sLr6ZU#j<Wh
z?q@gI^B4?>DKW)J#ga(``R8NFDa6kc%3IE)Zz(Zd!y__r%`gD_Sqw15COJHzRI)kF
zxuQ(QkbxqgXW&&sg|(fmE0fl&2NE4eR5GFIY^Jwjx}LzZqh=zdy`?0K#t*au2{LNu
zB5y)lzubjlo;!_mGwRT|X}|%3|5B8sQ0wsNeMlmmFp&l5ZzSI#hkP9q8nkIIbNBW>
zHzR(>Zy6qeUJw4Fn4U4Cqv1Y~&Jde57Y=yGP+gQfe}-nMxzH=ubm3>7pYYwbXSO4x
zeUBO;IqG%%^f=xzNhGCnMVYGXlrgDmc!*B#XNm#0g6feK9l$xIp%7hp`ai@dgK#g7
zB{_I4G#i>T=X2L{i-+!R9$nr%x^(*Po+Hb9j{N<h!lqa6$ge%X$>%T&1GuPbFT^RN
z1a`UO6tjY-8j6@B<X3y$wr%YV%y@~%pO6;_P2~1JdhAv!>RdO%F)PfmVjPk;@=HwG
zhrxk9iK5ub)R4*E@>x)Tk6Q0XXl>Z`mQ&w|A58@Biuo2W%Ai~mVpzm{xp#9c`1#68
z*X}}K_x;}f4}&*?i|P-~eE-Z!@5pR$hMyUkIejnugcA_CcN{&R{>u>*kE;V1J?^T#
ztoX4;#y<TU7?<m*28C5=SvXE`i7bV&hDS7;>F$AsHt7xuKcpLXq43IP_e$4jAuxKc
zx9>y$4gccEjbH<@xOa6$ERU7Z`04+2zgljb{Qr2y)b=Zf(@L!3ZLNcV`CRyJc++%7
ziD%MrEz4dQ*)Joiuj7~xrn%TFjv=LTI*{vU$y7N0Q`5?J$CP*CP^dcW!J%=0Sn>h&
zo`HqAn;UDv8|wZUDT2H>B1AvldEAwIm*w7twRdc^$MUZpcPnBrvqXaSutfeK_hvWt
zDPpjOLAv1VW}dscMzm5&|I8HdkQYE6bnD2#@tpt9G@+k^Fa|B3VWq6uTUF22pe%H5
z%cCg8_z{L0eJCz-Wk1)e%pAHG=(ro`TMqOsoV*j*@|h2vmZNs>20E>nYL?Jw<|Gg(
z3)g(t#JI?UWdMEV0uaz%67yo7Ka02sVRJAqAcPhtD0uD`xwuH-Gby=x&{rLP!!xy^
z)2SN6G|vKQdtL<7ERle)7`(fDabjZHiKR)TMLt{P%_6VY2FfhWu&JSRy}|NdViw~d
z3b>x(-G83@VeZbFBe!zjKeRZuc<$!FN5_7=?XTaMJGU^faO}H@o4J)WM`pyU{`)vO
z;f&_g`7_tgU~_!2>f@ex*$R}ehsHYP#a0xajZ)FZ-{N6zT;fe!G(stq%(y0AlWZL!
z{$)CXhAv5Y$xdtpNI!XrX{d{7NU~BK(aOQ`(8JelJ>ZhA1{z}XI_VBkKaNpVHR%*)
z54Kd(9r|lTpQ7SC6)c1&ctyU>IYQ}N%r*8<UUeCNg^|YVDBQV?Pqz&IAo8b?U-^V5
z{GV(YzOjwewa71x6rLadc=!0su{nNj<lV!Ikur@S1+L;7g;0$OTR~%~jt_!kPs%@R
zMbS7;r>*PJAlFE1j^rrK%n~1nbXg3^OnQLUL7K5a1O=8&A+YsU^Cxr*MdFlE=$<<`
zf8_d+mGFjwyx{>L?Qwb4DM1TPzlqAyYAvTM@6p$AYuPV8e@cwHvNZGiukU~F?SlMN
zV?H-wcsYyWWsYy^r&M0$*8~3Ld41p^o~Du(w>=qrS>E@@{5+3@9<TFPm1%yO|B>$k
zeK0fnD7lo{(`Fp5z2cYjBsd3h>_=5>BfJ=mXYg$mCE+ZvD56z0b(U^v8tbrkwEut`
z3_4H$gOV<v_VkjbZ=9QZWv1<u(AxWb10TL}<CU9(D}AH0ugr|ioSWNruWQ}AudGU3
zxc3W#9L+l;d-%T)_V6D2l|W$U!45Rs_FI)_zOvul)|(q?A|==B-inN@_r9>8aXh6c
zCKLEjuhxWER;Mv6bZ2&!F+;`R*M1-_y!yU>CA_I1Z(@doXRODF@g^Cb3DBCq1pZ&7
zd1_w-$LT>-%;4YnI}}&A&x969E_d+K{!)t|z0O;?o!5CQx$`<-k|ktxkljI53Q-%`
z9lO1evOAKrk+M6eN}(2MD`j_3QFaGaslz92r0fnV%I=^l`CFuomFy1Ml-)s9>JTKw
z%I+wXz}c|SP1&Fg#K3wxyF-szUkVA*W;?sHiV>TcjM=)1E!L-EOxzxmBGYCj^<6Xw
zVvzT@u0}5L>~=`XUp<DZ30TjabUM^r_MMafU|01{v)$=ak=A{m`;!X7e1|spGY51n
zhR-ML+=!i?p%3p=C6liEY;$@j_vCBov+2x*2DJSO4mNt64uor|Tqm&1vR_62>y)=)
zFUH{T-$uX7zZZMrj1T9l9_t%S{T+<@7aI8z3T*Y(;Lkb-?so22?%eTl>yG<jJCS*>
zE&Q|YO?SJuFL!VMxNZA=Cj<M-P;cSMJxk}8CJXCcSP8vYkYBWRMwbPde6dq;o%F-L
zh$yzlGe|JS*;`?qyg@PS>KUTJBzl(BEQ%UFebLF86vOl_>CpL+AzO&nu3~~<+h~k#
zV!MFWQ?osa^7Gbbu3yz@f6$R<oJCRc@jPFaIX?IcZqv`X{$FrIKj+r`JGW`IMda7d
znX4SC)zEW%aBlZ1hidgA|17_CZffD=^=~caS2_Gx&GIkv{N{z{S2?OnZwRgY7+)9|
PDRI<TO0Ke+$>hHQn&xhm

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/scheduler.cpython-312.pyc b/v1/core/sched/__pycache__/scheduler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a23515c0c23f96b0ae67a3849761970dcc4cd5bd
GIT binary patch
literal 51758
zcmeFaYgAlWb|x4vAb@}fhyVfzAb3ac2;NU21QH;j2TDCMvx+L2LPSUc@lf6f^q?YC
znN{UBSuJ;>Dz~My%P!Sax{It#Psw9XTVBgOR?o7hbG5y?;{vK13TutYcCIz;`7ui>
zWxHIS9<TZKx%b=~z?Cvx%l_9_DDJuEvCn&-efHUVpFhvZ$ui)XxBSalTcy$P*Yv@k
zG{y1!|1cU1cML&8&^T|Hl;6flBfd@ZrUmn)*+_oodCNlDWEyi@=F=B4CNr2jZQi<&
zIho1a>GN3&*^}7|wn-cN&X~_x$eqk(ZtJ{#!7=Gr$eYY#-<k9I3(iR=b7#%F778W{
z778Z|7m6l}m|yn1d!cx;n7M89B@3mKrOcf(?^!6DEMxB6`SOK|$%+N<q?di$=PMVg
zCaV^zC#%`FW4>mgcCvP%ZnBPj=grqI_$GbKoj>niXqaqRXq;?ZXqs$VXr63l{?7Tp
zLd#^!LhEEJ`*zK@EwoRzFLX?Hu<wHT&V{bYu7&Q&?uDMo9_Cj#-@DK^*~i>P^Zg6^
zCig82Ob)Pb_x%2a!O6je1Cs|9h9-xYU-A6#!okUd3x_5TvG0=kk%iI8QRXh4A6qy)
zd6>C9^G6oOC&!HjlOa?VI{E?niJr-0Cc|Mvu<V<LV0p;*fm!iAe#7Xm_#66|@Eeoa
z!O(^2<@rc(b|!*P>v$w2OrM_*!EGL1yn$ENYxDC9hn5yE%wF`HlFrdXa4&{tB1^)F
zP-Hqd9hpwrQ#?;EvBdc)USrb~`vy`Mj9v{bMqXJyKR+A36cUtxr0v*iEa2dDWabjG
z%s=*;nh8&A-r;+2IvkpMtu1L!iAgypv(GGFxw0fg!beUF1Clc(oEI0~juh`Rk?BYn
ze%Z5&vyrL!rHdCs0#)?HtH;ldpEx-(e0=Kk=;84*XHS1InSTOJHG5(yI6Z$lba6Hu
zVYPCOF3v0kL&BlynM<J)(~Hx9kSv^8TDY<t2~CCMz^U`g!Hb~?Am<=+ig|E;Y36b`
znX7y%390&L5E@*b4+-Oo=#C51Ga<hvna2_ZPlw)E4uvBl)b2Tlh3SQbY2oB@1X(3>
zCqma!gY7CDIRf%_C|<LR7hhSLpPjjpbj=8%X%thC;Z6biatJZAP==YyQ{l+cm1LF>
zT3EUonwp-U_nR>U7B9{&h7K(WA=YbWZ(Io_9h#?7n!MdU)X2Q<>UeUzB7`o?UT1Y<
zJ(0{+OD*?|IhiveOkaqcUAi1v91n(*c`2R8^Fo(|=1(tUU@DD)8e}MKk<3vX1aFy2
zk$2`wXl5jYPD4BJ{x3Qc5te5n%R(q9L)AK@TtHkQICWupaV9dmv^cdSOf4?Y&(AEO
zf38Pn<e4S^<|!Y~U6^op3?T!d$VpSk95e=v7tBFZ$PzS%(t?&ydN3`N5ljzRgBhXB
zpcVf!gIO0G!R&9QO=bl%L)jNhLEASileS<^D4T^@g1Pw43ED%sA$u`03OZC*UdR#3
z3uRm|G5>t_l^e>SFU8Nv{PLBr%#ibfE$9L~SFj*t4;G><MfmT=|IAPU;Ig!#4E*D8
zEDTy!uo$Td<x+);f>|pW$iosWfv=nSmWGM}!-13~a&8yWgC2yIvYg5|ydC*usxiwE
z)5Bs?dsu=M_$~{2L*+^vRN}jWrA674RHk4Re7z~Ds_|VJtU;Sph4QG}RLWp&sG31Z
z57r^PMvl+grB-PdUYmM^*HJin!3TFeazt)HKiodJQQlw!+<wK~2zNuKA=3~%5NrxH
z%B>P?4mByR%uut^Qt80}dN`00s|9V|%GzB?cflHL1H6{tP_P~ER#wgqih&kM4|c+@
z4f(b!5KX}@_;kRhQ}yYFPnS}^f)MpaUT9|>*+@bA_8?}r5;GIuz4-14_Jw*;!+yB?
zg8R^h@^~8v^~>V|c@@CTT2}3a^x%HP-xo}crNjZ;L4*z5$np;-Gu0_Rmdw72<z)&p
z3F}MJe);Ou4B<xZQ4AETOv<SxhUKOf6a<@fp77^Xcy<L?e_;U#Oh(8_*X-iV{Bkff
zbpaS1%S>=89Ev0}f!Tr0fa{a#LI~4*abm`*%vE}2;y*2s&+o(cjv;D{8m7pfJyGMF
ziMzEoVkk?k0rBT7S_pR`hMEpB(z(C(Mhs<P1`HFvR49ngh%zlMxe$XBWR$0EXQ&cG
z%_o|H_!#%{6E)*Ytus>R^APPl=hEEVg;Z)uqUnM?Qp7_dZtmhl$0D#D;^%Px2u(fq
ze4xA$nyWYwQ?Fg;%6Yi<Mk)vYdO@lx9<IHSO0DAy>RYG9<}RdiYHqz=2pX1+*NsA<
zk!ql}4Nqe*%=t7ocLA!}wycc`cnJF{<X?cuohk3RK+1>Wd}{%5RhU}1kZ}}5I&bf<
z8zXHzY_6TVw6}hKkxm|CuA95GH`1u%Nb~*B#EDGQRjnQ3s{O6S#VG3IU%aG9rM5z3
z9}k@y;4bYAm^!TvU!D0dH>joKt`C%1i5$J$kM%+&{{k%TOnJ|Zq<kpOw>l$-x$i%s
zeUGSVblUerb4m$Q%cNolo*HBAsOILbm^EsBD=lgbS}vo+Vbf8=*NssNYO9WRecUlO
z!69gGq*6!oEX{2{56d(}Ugd7Imx}4QAIkQc=H@PrDFCUF`$fLQU4ZlQH0nIKNM&i^
z>2&c->q|q`S)rR&ohgxv9Ev^$fv--@qiG+e^V#ragvYXC+0iVNSe;jq%PQRL4>M9)
zMI8@-yvXBd@0cxU1)N^)6SQ2XwMv~$aQE}Ds7>gL+UBnEZ|%J!g>CK)Erh%HtQ6eA
z%+&nQLjsSZy;F0I+~EGSqRpvej{6!6k*{($!u7^<l!t3?t%c^UXujM9I67DczUtWJ
zF=-8*dqw-=t`D<5P*zIR<pB3ZTs@rfCJ)!%!EBmqNIT5^ZWyW!kuUJC8iU}AWk$Zp
zzk_Ljtuu1;#{X{`e#@lRKlAIRpdprdGxM79n&G<ni-v1Pzinb=RM~|#2Wevy61)qv
zCklI~g^+h~DdL@376fd*=Wlq!@)kK1^j@2dT=E`!%?t8N-qMG$ze`t$F^hl=wa|g`
z`b`3%V}UTSKt*0DeRc8j;?lK6Z&=={Vjtzb!ZwusUVyN%yg3o)P$Go{#Ydnaj(u2`
zOzRN|H+I&a!SYJxEKFaYlGD$J7L&Q5MdC*=vJkl>GncXR4^3Z0(P#=J3zcw{atslR
z0o&@}%$2EYOTs+JKfwPRqSX8c1)A0Ztq4im4ni|~eo2_-#iKeW9e^mq;`Oj!nHI1G
z4$bp;Q~-e{w6LF2<j;oH-M-QZ0ugsfGZCN#DmjX+_S9@JJViX0Wa$+lbQOeY=*kpt
zrXX#`DF)gRZLzq#01EbvaMH!U1Z;HC78EU<EablDiF*QSH$ofbaMI2FHL!AsFhnIj
zL<P%KJ3i@Aol__gw&V&SE|bjpXpD$3y%@frbt27+q(fmJsHp{-hM@2d9T^>Y_4w#%
zfu_Get2G7|V>Kl6iD@*YHYUJcPErP}wWqFd?oiSenxU4KM`kh~U%QJyM7uzgNHUjN
z>Ee~;DYh#J3ti;tk$ZuF&^}$ul17Ap*=k5y(T2oN2@6DYCe!6X45rug{Bmei5S9d?
zf&wzGP0vPX{ADPOpLFc*&tz$e&&*ZoAXJKXW$}gS*?II1SP8p=ghEzU-d&tuG`k3%
zj?$R|QB%nR9wd)kz7fg~gPXBDKOLC`iw0H2MoKtH@$GEnAdn9U7kSJtEnS|z6q;5C
zN+FNNVJO4IO)xCymzL%!XEq5_Mh3M7O_7~tDZDa!B{UE2(9X6_rqiswa>bvMw1h+R
z7vyP3(@dT|)LRTG2tDLt^Xki#y)i@+oZ&N6O=hUcj5Le~?$0)itV=H;O_=r`-qh#s
z54A)VuC$<N&5>yVOt|Lj%RPO)mwQ4j^Rwq$uH1-RT3T$OeQ3+owia-DLM?30$iKvg
z3tYL8v`$Si4&l^_#-9stKdM0ZKV!1LX?W@~c<NUzTUK|%+bDSlMDGB7l_fm&lBZMj
zbkbLGqO?vbZ5K=1<(L%#dV6-IsA!NX`o)TVIjp#9)p9F0;Xg>9b&0BGsj6SB>X)ic
zh*c-Zui{y*p|b1NvG1C<Y@P=-PtAtRoGokBr|E|7zTbb9V)&k>8*2ShO`llPC)JFJ
zHDlyknea79zWt(azvMeB`p%MHZKBL4m34__T~gU0vFs4}m2BG_lC4s-Rj#|@w&tH2
zj5+%g4wvMp6&<ybV?cBaJWXSHRzGzZO3GPrN5?6tKap*hvP;G6QYkwiW(VTg{fVMd
zsVJ~f6nJVd<>V$DuRk~A9d`y$-ttzdY)C8{VsYxlqWUKVHBv!9EC?jLHIlbe^mcxl
zVJXjD9l15}G|S*{y>s(hH=lHlY<7;VS+*Q)pH%foRfA&HV1k#JIlQ9HE7>|kTgUS>
zb9ELKtm3KFP*zE<;=M(D;%%3_heYoowHzNVNrA&+;P9trQzdfWvXvoyNx4+qAQm@B
z#eHIN-)e5cUKY3e*B2kWu@M-GTZiKIq3x0yw1z!V?w88@#PU9={57%sHOjUWUDDiw
zz?`R+w9JAhB@OGHQsa==I3zV578?(5mK;GXk9}%0xSQ5TethixW1B_2h;B>N`RIj!
z#=r-)1gb2xr=N6m|9%(w)_t05=ss>t6xT?_ZDMg7>)1ZAtS{lNMk97-iPrYGwLI=^
zf0}P-K4hdc{!gujy1w|xYg@Ii(|6T2jfQ<<*}k~7BvCB)?7o4xl?`pr-N;r&@8j&U
zM0J-`eO#<QPA%h2*efM_qiAp3vNtCxYu7BlmYZm5m70dcrXlJjKZ;w~lJGPp(10aP
zVoB4J(u#W)$=fD++a&K{(R+Ba^hlzx<j&&lMgFR;m#PQF>cK>5g;W|4O9P+Ut(B}N
z%TRm_slo=aut6#u77K?T;%9W#@~hc@_i5N@aFqPiU`7MydlLE0>p>}SNDLg30!PKb
z(RlN*xZ^m+pEGyc>3W)G$|?ANpPCW*@56)y|D&tsl^R35Ci7H*Io@1-%3&5AX>iXF
zO~D^p4Qa7|{=az)hF=NXF<dmnjQDTDe>47DW(~14{7(nf$J3;|V;KkoU9U$G#xfC>
z6;b&<dVC~Kt;e#1#+WT?i_p@@9>Ap4ch|$I$;%+;)-1wGG$Uvv`W5boeu}8A7%*Zv
z(HuRB7`{66_X<)V#IY-Le6FBOvD_ebE}xeRHDkJNqS6X!(OmW}UNjjEi-n&bLM&I~
zTt#!E8GMhu!#`(^x_sAzI+X14!Y8YpVGjMh`%xjM@XC;*J!qnOzqm!zbh)7L9T+uv
z(acyr;uCSQ>k+C^bCoxs1xBfdbXpwwXMSLj<9!+Lm?M@O%SR6Ah0E9_2^mov%7@i6
zW?M7fs)|%|m_aiiEnNm97^TR!hKFhIxq8jbT_{T~V(aX|KD6-Nam*QYzGYf7F8*JL
z*}zk3??@AO>+!%?$^S;<Z~=zSXb+}+(}4XrZC&tuE1(~1jtG)n&)WfBccbC$K-7HI
zApAwt{8=%<cTImgFsJVIHJ~(ySQ}?V)8>fS+4bnB(#jA`|AkUzeg0HI18*mAH?6-&
zx|l2K5{fnc-fG~2F_`g9Yt%Jj;CPDHC{_^7j25sK$z<aXyyci}vE&6kq|;&?BI{MX
zaj9|=wWdz(Rpdnb+Fj4wXQYbI9+EwCLy9Bi^>$!NotZ%+zN|d(?Z9=T9v4xbc{8S|
zDjpN%8sl#5EqF0P#<g$miX7!Gz4An}Q~J~}cbv!7-g754H+Su5CCl6??ytR5V_<gV
zu-Rx_G_9F#IUx*!e_Fm@bG}Kld=#@s2U0YLj|hx9XEY5sOlS5`M**Xxza%sxn!7?{
zC<U7#_Gzum+$Ed?Bwb9YtXgMzOzo{;Z@rZcSSMB(EtFSL!Ka@m!VSM{+D|KhPKm%D
zd||D@?aa|QuTh848FfUhFODB|j2O;g)rb|nV0^!>)rz}-t&6n&y5+SPqWQ7RXr6F9
zng?j$a{uDcP>L_`e6;tQ##>GLA#-2SVsY25@{OZ>|0p^KE1W{*2&Og5tw`h?hs<$E
z%#G6g68F{KLbnz-X#J)kYSzJI?i8BK%}297yt%Jvu(|6pC=8iXuL%?&wa$vjVaJN2
zmbLWoCB)L1(QE0#mw0{Qel?|Zx@#nd3TQ!IChg5;wrMSWu}wd>Ih9MUrBPdzD3XJk
zKX;|z&`aD;d$Syuk=td>kGnK%5i5z72!$z-=6M|LjhUlj<Hh5VMINHZ^#-q7cMfXv
z;sx~&bEw*z*B=<ISP#EywJ;iP{q<+IQAC5xU964HA*Bw7KUNwo6{@18bJuxn?fs8x
zvF3lC8iU3>2grJ}EsPow65jO)7gNUYFEYb?pmIm`Vb4W(WrokF`>Ij+=d1k_?9@EL
ztXLUJq(iSORQa1|BR#6-YdYms*HCuiR3589+Bf&cd+QZ_|G97MjSHMx!N)#>>P30I
zZ~k+&is{zHs5j<`Rzy8C0AiJkH7}_DH}{q`R*n{}&~MFH<&GUynUEFr$ZNHXbCEK4
z@sE*KXVs5Z%DYvRB!6$NdMEI)D(q~l_Uu^G*pAf{t%}jENDtP(*b6`04mu@+_U8X=
zW6_M=9%v@{q1<?nqnxxmMBd67vi?rgi`u9dmcyZaZnP56UcT!zt(g}y^!rSi0j8jF
zF&jBx_U?XSv<F_@?TePG21HOlyB~q5A-#52c800(V>OG&IrgIQ_oCe{8@Cw0<<aVB
zS+wTEY<{Xp`&>}Kro}as;my>XWcOR``u;DVgvz5%MyGoCKAOp*{L8&?(F-2lpDd0J
ztuXhJ)e9V-GSIW1xq_vv!8)sX>KY8%Yf|Gipw>D&_RriSykK{Pet-Gy=$1|krS6VC
zi&D{{FW4%akJI|k*w-u`M(JKo2Mz5lodVtTnb6&lcX;ZcO+Tm9b7V+_=&!zQNUOK{
z)<)fPw|NfQTR*nmddewGHVXCDwC`w8xeL&B_JJJIKgB*VW!(N6&sBS;j$2@}9Bn6$
zlKr|CkGp`gfJ?B`pt#4l@Bi4Zfx@Nzn(j_z$G$B6)~nHCp;SNS+`GI*wRg0bj|QVb
z<2iv(_M2K9?&1_VPZ6t))*>e!obuLoV{8xgWxfKYP@uYai$ey~U<x?JsX<MFW8`U4
z{8VWVnusa>DkpZA|4YlF<r*|zG^Ri^%zbxn8Rvd`uOBbr3eF&6bt#--mEt7MFzT#>
z$-$}6^$!}^c|tux^>D%W_m(1B|1w+<tJ}?SiW)}@@AzhL0yASe2i|VX7x@8)I`<xT
zY44~H_{67|2bFa0hgwYTQpb}*KioFm>arMOe&nQa&vSX}DQ)yVPp!QnnQH=9D=V7z
zfpW?dYuHm8!`zRw6x=oUyWFL{d8t^B=%x9w7MHs)Uw)6fwKs>vYk(Q{`#d!2|5^je
zT#Hg$qjl)TKj0zS8@|M{+x5)-;Vut+@|-@je~>AM#u}0O&Al<-s?ztL`=h;aqm8`e
zv8HHKv~f!1_yC3uKZ?QD@&63i&CzDSR(G-~eedA;D}DbbFDoNc=GwtCjW(Wv3|X5Y
zY`liEt}kMa84YV$xBiVR^|dF&cxy!tnL+FsQ_Od5Z))SMTK&|Nmm*D;H^HR5gi(}s
z#m(i1`n?c-TACqcq44|?=}ZZPId`0b(mZhD|MPbIK#E=$x58JMFNmZ*7ffdi?;9te
zxMRH{%q|JDksC?dv>?o0ot~eH%r1~hno+<(uEF3Hmhqdk4$Mz4oDWV9uGE~7#n2$B
z!Alz$pt8<~2jP%o)goy)4+-BithfER|NZ{^Z~WoS-@7R`j6J790KEBf=*EufSl|!D
zVR$}-pMPyUhUTYAor5?|%=orxjtaBuiK^)Q*Nu0KSoVr6h8u?8HD5CdHxL!M6hZ=p
z33YJ+7Fpf~VsoZIYtlHI%z>CqXyHnPNejIZHY1tW`=(sy%z=xc#nAOD!r)5nODoNz
z^-`?~!T#NUHT)f<Qw-*Ts*jsT*NqSlscn~Pj)*l!KFX77jy-N3{dt%w{EgCb<BnFK
z0<c#2HXLdjKtwWT1knq>-H*_w@2}VGK?7|s1^4Gqp|tBT+SN$y3h6`|PBe0COo~qt
z=}O8neY1-Z$kM%U626W|Ni)gJQFO07h=gB;`*Swso79v;h_AGyr7HL1(zdlj31^|?
ztln@|ubU-bujuQQd?TW7<l!3|z9SHb$%BN9S9EwKN7Exm)8o>%pNG={<m<y}!x_ev
zrrNM~HtY>YX6NU<vy0x>hsV#3PaK{aJ9!#<hbK;+9i2M%+8Kmn-UY_|W;W*_LKm8!
zzM%+T$s%vbe3IkZIi^<J<BOO+vq7)YCJfGUxZk@{$0tg^mybsXSS>)gO%d{vp{`VE
z@fM~p%W|0Vz$CG`DH7%LXD0J`tl-pQ=$b5;SfKeaAu%S_2q{J;Zl=svRS2ylvJ}BQ
z*A4S%fJoGBN|Ea0a*kRkuRIf-g9Ic&)2oy)gZ57rUcfX{8w?smm!_dD6ke&|0Q<em
zS5QCbJzjtsrYfH4|B7%5>4ggf#6p-UnTd8=iYzV8&LqtcS{2Sy5UZ$M$SD%Eoua}g
zi>OeFD$|vDsCHgjnuoM*IO$YMOG=}>S!797&-@Z(30b$y0~L~Z=Tzj95DHV$q<LX>
zF_}k+uLzKk<06B}ED|V`vu6^Y$$ZpLt*+8U9*9)lP;0g;R3Pbkf!O8A+?}YO4MJgx
zf{DwLw7znB{N(BJvtLAMrmvHN73qtT-Y65U#QaN|uRxL199~{XTBzLxIxi5KC~@X1
zr$<LmymEGQB$-abd^s#jE-F|M`j%l?)Yqn{VKO;Up^5-Z697A6UI{I-@kN6&nLd4m
zzLU9ZxX2Ag;<Q=RN^+AVt-MCUB*AbiUCrj1(%~$IaE$UfOmQ-)MG3=%nM|laN2W>J
zl~Cw14S1Gwq5kwumQ5+}6*1DO3s51YR>J7Id^MS&Bul2t`p3z%VCekv#bh=bO@(bw
zg*|rWL{djNj+Z0jqO2J#{0fzxIAlpDO>;$tGRVbbPg6(<M*uW+7j{Y!7tlg<g9KS+
zK~DwOaH;E=OUsLwF<h0wDI6tuHN3K_@Gi$GG7MRySQQZ-N!p;fOY?}y+a}G^!C*3r
z%A{nLar)JX3E)I|lq<MI=|;z{zK3=n5FYwM7ADse3NH#v%U8ll53j2(Uhq)yZ5J?)
z)K<??3&JF_i_t*(SWq}YiPL80L(>A}T^Z&`T0l{Rg))T5IEQrtjsM`3ig1#y^UJdk
zQ`cH+0gCm>0%~(E{X9ipgli#+n<5mgc^C3F--WAMgf}SjU!}4Ya>Pb61v61b<B%Xv
z@lTa3&sAn1kC%thh3UgEyxcVcah#Gid4|byxdIUhLYRJTQ=n4=PF;+?U$~OYBuKN1
z!O(TcQ!7)4NpRB$<UK3nFIp88pOT&Uor=PNCrcsU9TFB1d436^%{yWyO9(9YQl@~S
zj}M%HFlC^*wF>jt3Z5*`Fb8Fe=7U9pP_mf3c^RN+pvhVb-=NCdwJ?S^lJ4;3S>UGN
z6vqQf?ZZhclm{RlAH0z)*sJr3SV<4%rPflN$V%Jfuxew-OowkQ&R{V?t<*S5^~wkW
z1u)833syj6k%+wP7Jh?DpQ$Y}C7}x!VDo__%y-L=3&c?s*68Oulq!3A@dlqg!nepL
zhw?-fpz%N>*pWgFC_cQI1Z8DRTG$lGz*r}T@J)aT(`w}XM?FKzK7oTzmE7ij|BgU6
z=7K&3aqNaDE=jnyl0>ZX>uXre-R|y<LqNEtEe;uNl3VT+i#k_r+kKFS^+L8)syrxG
z9z>e${RiUK8VI&lRDW;r-NnuFK%7bV78I^#CUT3uTYWe9z4>?NH%l5fa~tp59=x&H
zIz*za^S9^k^@)YetA`;DoaY9qC_0)F`NdLxo0#AB%xuhS-=?o-F~9j)nkg>;>OH5F
zM4$84Iwhx1bowOcsOTKsvcL9G?j!qatWe!zWw%s$Myx!umiwg4d$0VyXR~Z@b>h=3
zgSR^2D3Tn0(cxb|EHw>^_;U<Cv`9mz#i7#>h4tpfZ5|TEu1q)}9Nc;zQn{V?uSq?p
zMf`aw3goXz`nn+yx78)Odg8YFg#Q4!?S+!vzhU=3wHXSEC0Cc|>Pomu@h7=jL|03~
zRh4ixJkLxk$bXidmY1J!1(+9pTOc^@D8HAtVXt~xV#q7Gd+K)XTIOSi8zsqajkg|s
zly?m6l~TJ=v2rxwu1L7+63uN=^O)E?_B6v#HD-Knuv8VU9Yq=3Rq>+ckKH7y?e^UH
z>g}&?)pbjC2gJGq8$}16_!<))@Ar<sd;GC??9()}zvONXA{Li@&-SiOayN?Z#`P0h
z?*2rnFWz)eEIpX;v`d~o(bM;!dCPMo;eq#1!rLr)dqr>WGqb6={F%X2R(|(5da^7a
zdD=uz+x=##{ixV}bjx!r;c1oC0PdfYx=x5)C$>Bj2~V%&84x`KDx3#3kT5SR2Z-KR
zj8e}TvFA)m7}~zKJnrdymTvI&qGkF9o-5lr$h8kt;iIoA?(IS~DtqGnCq?hcxVJmu
zsa?-|cjDdgZC}%mZSULUt;(ja|8CB<%PqP5qRTJ20-`Ih9@}#5PmmvdNv;mj)p7sC
zmh0e?#$KuMpxAhD4PU-QZy&wUwUv^qZNt@e|CH$Je&lMy47qdj+cy*LTFKomy4#<4
zTI3ds@0&oiic3(ig5o>JZy%Rjt)i>-e%Y4m07igZhV|wxS8t-IW<6u0sAbz-_H5Y*
zx$d8t4f)57Pgh8eJ8rN1*inGC$*GoXe$nP%uivt@Cprh?wz9hyrSeu0f3~(n&uHA{
zy;mevc8K`1btY`?yAz_VVfA>zR&Y1(?TOWK0Kqh{*KXKrw=pUU%cR0Kv5+QQLHjm+
z`NTpWCR~9ZF^kHj!Y;9}>sf}mpc@k~uK|P0)x7@3hO>3sT_L#xqB{_8IU=@<$K6L&
zAH*zZyI&-=9TM^98lfrEw3e~us6+ob8n#_Dne+VXMUsD?h(E``bLbRwt_`PjL67L_
zd64li?~&^eBA0Y-`wzt(b&u^0e_5;_amytuE%?MD{B<VW9?9(&-G0e^P;?)B*z?iw
zBliR*N=et#8y17zor0M*WX!bHI`rvCnxWSBgV9yHtQ)bBUHYWF@);%;ZG4}n;f+~V
zk-K^l7{yhz_O(rCJ!voO6C3wQjiX}Y=!O%0FdBD`LZP6h_krb4vi~T1vw8$r^QWkL
zc_P2?PSbaq?hV|p+^p_+;w)T?+=<?fZaQn$Es}3o^bKz~habC&w@b>u*Ys|aRMH`q
zbZnM%t!1D)T%~sgZx6nAPO2RjYsWX7<B5uDsbW~H7=Bp4S#fmj$m61lC;o29KPdVK
z?`Hf~?kDbYn$!u;(S)a3@&rUr027`KM?T$KMR)6#yFKA<mE1$3d+1@&mU}$m_F}|p
z*&P&X4{kUQCYm~=rW0b*iMY%ExTq=KHYT-AY_v`6$aCB6kr9b5<i~)V#c*WJhN}i>
zOma7ExSKw4m)<?O>2A7jky?ku)*-3&sMvaR!!4J)RU{Nb=;Gl?(Q_tcGBt^=rY%CI
zO_FOsbPYUseakia*yY)7X^mq!@z$>8uy&K20nr(_U%BDzz;|((<Zc$-&60aqbW_{8
zk3PeYJ#37->f`<~6cAYR=IxvDqPA^d%87R;B+sbm8BKU87`Ujc9Px|W?`GXQfeGQM
zi<dT|P-T^bRApSZ<pKKXlsqG%XXN4QTb>h-JvG}s!*O>fA{KYYd(VpQvy`b102*7Q
zh67^50jc3tvEfw|BGK6u2UclllNv_FhEe!zH@C$d4T%7%)tG3;RA~6v>D?~vc~H4g
zx-ah97cbqHsI9v_0cds2Qf-e|3p{v2tUa+d!4!zPL~obmrDbewJW=Gn+qYHJb?@e*
zqOOF${cbL5TvjO~Zpm|GgOGf~`j<C6eV^HxpVa!+%O7|)YsZjLsegTVqqI5hYNiHB
zH=uWm+BS;XP$&YwU-az9I81n;0@Hv+1?yp13D(2nk_5FDyztxeG}nO4Pi>S2KK4|S
zR#l}`+$k1!J}_<+_uU?T5RndiK|JsU!XS+(H;}foVZ+(5eobl_-)I>}URw7a73H3-
zN2511#$9#WC`VblSk^9;4U1*KH&~;q;<dw~3+}cATHb#sQQw)U?|W)Dlpn;BYAw%S
z%YufRt32+k{n%9u_%1h1!??2<=<3eI?Fq@XPju~LOLF7-oapXNxJg;7pimj<`$a4+
z?uvNjeyj!XwHZn)<jLJGmb7mI@nt-AdeL45%_*b!33!!kp06GLwFw&1j$)ZMfCAbb
z+ijcVs1_a7_YQAioI8u|41Rl%ksChI<$L08l-ymSyDQ#vRL(LLcl3+3{Tt5ygsV<+
zHH*OJ7azI069t|-zjXVT-it}~gJS*QMggETV38BC$kjh`^?y=Q7x!bT{D;8555$L0
z#p_RRmYj*Z&TKo26i#4<<Qv%V4J2IElB-^H)vuF>=o^rHM?~L|E!TL;n%gP5I`6+O
zbsZMF4sW`SP+wNvtCy-eMf^Fs&=dnljd4fKz1QWTEIN7<4$r+@(Ggg)J*f;xl|<;R
zWkA0wFiZ<e<F>OzayE(1Cbl*uS`V!q-f}g6>}=k4w*!1Z^ZM&j^8pcmt|2To<-K=}
zY=xlJT5|6b-TNLKet7DU`!FJx_ii^Ij=M0!0)JViA92flnCW9RiKY1K1wAEsnnh2u
z<QWq^V-K&zUpe*2a~i8ndEe9V3<LV7>DvtHZ&i0ZJDp*$)j&P(o#SsGmzVQ+!@(`v
zA<#8-{<wd?<R20JBb)xQ&Dz6pYgGc8b!VmKqhj;X4g1l!^=RCFblYBf_l*s^7t2cA
z?tNm<U+cUxaC>0W?!7l6)$A8*_HWqt$F2M0_Wf9g98QegO?%yk&Uo{oO+dGg{AoC0
zs{$rFV$1^Z=E(Xa$Fb(R<GJnG%qjnAn#oZC9mP!gfy-v7t-IIpp_586EH)2I&8NiX
zQ=9(NV)bbh;7Lwnyy@(toL3We=R47FMHA&!MDee;y}PuQozm%JqH7Eqcrwv|tT7Xa
z3iw%uA@?=oGmpVd1afiKGtjIJYvxZgK<-PndJ!}>%3n}-FZ{!s-@hpqbV~&zV!_B}
z!PtKz^+`fA4NqZ)s_>}+si7R0+Z1nl<x$Qlwm9w=E1<Di$Np*(m@1CS=h^9u)CYl;
zd)kPpotYz9eWKMTSp%Xquw`vcSZ&;=MYOiWTSuhUaj|uLv-Q}P_4p^H4T*}TL{)pD
zvMW(PobZn(YWL$0v%S1Z#x4m`+S@Ny@0Y4iiPfhztIvE|n(N7mTis8626X)3+k^4!
zS}39ZIQRWr$#+cj9ZNX8XcIqFEK#HGer!cR;lT-Y&TNmE?TKgm5?Ci12gJq!sqvK9
zcuG#ul*@Kd-TUPfpHOF<c$722)IX{9;=bN3TOU>Sq;cC`5w}+S>~ao~mSWzqzyH}>
zHnqN(^Xh;9sSC~bGc@06e4hIIpMBY=rTF`BFE)*T)_kPkdY$=M|FH3ThxvI%?+t_H
zQ(NJUH1pqO<=@CR|6N_$_128P>qxu4KjY_VX*cW{KhICQ;mHtwhQu>;1i>FVbfGhr
z=l>6W$n=!nnM%wQHO*11T@ODv9bp3cOhnThv*3u0pzeC2W_IMB7EOZ^3Y|ghdZHFm
z#DNlunh%teth*xNGi<!ogB-H=hTs5OITMowJ|ci8KfIhUkdeXtZW!b<F{{i+N}G*@
z7QzCZqcR4B@IAPauBjb-dYK_3b7f}`?oXFFT-2&E7;vA-dV<VQ=i7XRqb~dvqOs!_
znUTO41cC(574I4K3{jt#_UGuc@DieeQBY#=wn`NvVg*Q9PonXFOzr*z8oRdo)iI)3
zu&H0Ty>M?#ENomooUl1Dc{ecp8V5z&;3Hc-)^*x=_&4o-rb5j&;`NUl?N18~O-GEM
zmK!Q-evr0md1NgUZX(a5ZHLhZu);M4o?LBa24Lsei13$4Ig{Gabhgfhnj61NM>QQ<
zh8g&8g^p<^-dXsc9Z@<_JC~2yBHEx(k2qsFnpSE=?N+@Z1AA&FE``X4$cSOhcn+HL
zY|!S$>`}X({7B3J*#vbMq5R4dRnOKT=U|RHXlSRD(K2V}F|~Kp0lQer)Z?XKvb}j2
z&N?#KLJ!K6uchZM_`0}Td%wUpk7RX94AA4u(5**4FA3`5Ksm@9#IEP60n($;R=WIU
z4Dy1gQ;;n>+2*LyyPh5G;tZGR*I=%6S2BF6Q#3Q`7{E8Q|Mc2DO>XNs;%e`Df+kq5
zQpOH{qgGkEaCF-+B~|tdQqhUit_OAW?()JXwYvrn`UbrggC?5+*%ce~G&3Q+k`>K{
zKB_W)&lvn^6Ym?&l6@LF0lGG|xU?AZXE07RI|Hz%Og`qp7@UlADt{uG%t+Nj84H#^
zW!5S?uTxF|WtOWyU&d*7Q0Qc42&`Hd;*H>F5lB&pzz9beXA766XBUOvK@8!4rf6oI
zO$b-$6NZ%)oOyyi|BON{GfP))2>*$`vnlvpa+To6?~+lbfqaehLu`BjG9w0tF@$t-
zS?MQ>el*|=4h%ZO?hEmfcc3KmZ16hc_X__&(C*_09AtJ_NoQ{<hYYjqj9E5%6Q+5j
z$JCWE^M6L@N_7fme$na6|4qpGw^1@6XNRHOyPA>kH?HO+1_tpHXvL4e5v<rmy&sI+
zCnaUSS-Wcgq_q5QbhESxgvb+j<$L}gwtT<ke$zwSX4MJFJ@NLD)kAB}M1h-j0;^*{
z;qOemJ#n{t%T|>rZeG727I*!zIpL_19Cf0j?%vgPVbjqLqNOhvBxFhM>QRs@Fii2)
zZ+#UcW0^t`CtO96t5I|{uFpt;Q86(3QI;4u{S<rX{IyIZ$Sao|H6lp;FK#(n619!%
z5vk>**m5#ndoqrE?fLP-x($0Bgb3n}Hf+cfjtXVxGX}E%vD2UMHA=od(bp&W21VcC
zrf+C1=k5jA=SbL!B^w#Q0L^y~CH6~>9?{YBuru!H*>oJi#)wgmIWUk>C)z+?%3Gf;
z+ku3wOtRI8AkrO9+13ZiIUEx4=Q#AYEM1qO_@wdE0fVEG_K;-Jp<em(b|lJMV57m2
z_0(X^%wlU9TZH8mejEME4vS{e;NlO>M7BzGgNOk^1lzeJ1s%5OlSW~zVORky7h#3=
z4B1^sL%dW1OMwg93+Zn%%&Dzf(R7X>QuQ1F1C}%ONTjz&GBtHYRbbC4Qfs^l^wvay
zV%CUCEO9Iw%Y=48mPR0HC1L9#@BmvEv&ou+o^1ua^$N23`f+vEFz9yVK<dy;Sdy(P
zX2_Nq7fB~eXKfSmqtJ$6qB_v#Q~HDKOqzIozHYqrWkAd&cu^C{oC?NUA$@4!KK&kw
zX48VEw*p2pp?Pn-^{asAMwDHT-f9MlLzU}C${!&m9q;aXUZ5pn!di<FM75S%h}Vqy
zLSH4yEIGu`W{ZFNf-+U^$_k%UCfH%j;&vFqcEFc&f=)As$@ESL@*P0d8EbEie$6Vk
zlrR*{oU7K$M{oSUxOMp)z*?O#SE~arJ0(UI`WSRUEDI~@t5`dgFVsucyte$4mnrSD
z%7l{q2Bgc=2n$3r2n+bl(|-*VlEs&nkr0+qNXmq~*DlS@T=FXCyO6koyiM4<h!c5l
zWXXFz#4Xz48`4;jOChgfI1i#zp({-)!0E-HA|B-Z3O`qsSMslTDU4^p{JiqnxOaMn
z?1;m3*8Gh?mI`WkQH{-t1G9XP1>0Ga3;k;JX74ykEE5kXGZ}mHLfS@{pS~g+^rJ$<
zsM^Jlcj*F;a6W`wVdsyT&<d)sSQVN08S3Vp4TJ((4ZlRy;whAa;U=$+r?-*$(kZW8
z9DhK~fC@|UZDfIPdY&C{tEFJ=#17Kcw&tzIj)?W4gs#KxzISO6B5fo-qc$B&;`Lpf
zo%W{OJ>X9%$yr=E5Msi1%NH)p&dkD2pqhF|H(?+^mTD#xhG<?SwG@D$rjYZ4OqDl$
z1!7z@dRSdp5;fQH3#g@<M(*C3=|yUe9UUB8W)NhcOM)_BR50_i3$qZ7B3Y;=HYjl{
zerYM_oes_|!+71^AxNcB_Ooa!7=6T`P@!=Pk;>p%zCwj3KqwOglTZ@Wb9qq#K$hQj
z)*xl<PEZ#_E=@;t2ZmyaJM2Bb1VfWd>;Oe!mDI+dES(@v8bydhjpS7VS+}Ox{ZAQT
zvO&sAqp~$Pc|v<38n-+jq$XB664M!Fq<Wo)op5G8k<AWxz_#Kt#vNgXklIyxRy1M5
zE*S7TWwr#F9KV2@6L4QZSRkTZmLtm|Av;#VuuRY6iWA60Ao7)^Ff0fzEhf{KE?gjk
zkm-;Vya*8sCNq^a8^my&y)YXRm}ngCk6`yN0F`iV1cNF|1iFK>Vc9CCB7X(=Y;2KL
z%SF1UfyrsJeSkn)1;1S;`HB6pi}Diw3;Ds6wL$o6xRM2mSQ^WYWFn`CEt4!z<&`kW
zRhgG0Gae|9qf~!c{3T0kqhux|e*~CdTnaORkudGfIdWFsGRc1r0V{PWB>zh!6sv*a
z!~Y5kHK_h>gAL*W8`<UeE=qMn8+AhoXTjRdc>VqdLfknVw+%CS4*87NFBbY&vlDh4
zCD+BRb@(Nw@xD!a#l6Z6dv)Ae9k*A*z#1I8n2t3*sisS;>5^)O#2OqAZq|&)ZI$3E
z6T2o3D}R+$5CeHqR(J2KQd!5_Csv17R}$_jnawL7L#&P`DjTKB9<j1VsvHz6aco@<
zZmFX<?rFJ?L&>2H`_O-J6l~j_lAVZs@QfbjZ8RQC6nXCrfBPmRxbyO#nv4bG#^+`@
z*KU%eL~$aoBwp4c=C#B-#y0ZCXfILBjw9$e2wxDsaMp>=x_fVkPQT>r6rG*%-V>tp
z1i}i+Sj=Y8*(^CnL?_PZKAPTgzQTgAd&w){HvR@T95@Q8U-xggIuZrG^+B<qFX8mW
zE80Y7+fQ+7P6vurjq&Cov2tiF_c5wLM<O!hei7#^j-tDHaZh`^lg?sXx!{8VT=9mJ
zxVv>N@wO4Mc0@k7t6!U-^wbPq5zKu%9kD{Fx@|l`<_2YsnbfdfY}o%`T5K4S8jgt#
z$F>~D6OKm7(JngL@3(C^y1?v?H;`>YIxu&*w{2DNx?a)NOZ%xE?n=p4E81#l`1FZ&
zeGe+dx&f)~uvm9^%XTDTtCMWaqOEy-`X{#5r?VzQdFRtblOd-*VJiWg1Xy~RX|&5p
zQ+7E!SiD5VVXPXSJ21~)#Nvgvl1b54Y6g8pwv%;sF>|RqC4i&{yfwh3=ejXw7II-@
zM~7|{z(R(GQVTScEP!qa8*h+?h7N;Qm$j=~8qiz1w-9ix<XBon<-;Lv8t1;90h^iW
zsF<$pU;@kBUppbq0<sypM;4A53{Bb<`PQlPvyp}A@MR`zC=gF;2S1o`BA5(X*&aY#
zMvd`kG88zwS;Ml_?5@mK$~5dm(xJP8sp?^pf@A_^rHxX_fsK*_ke2XgeOz*2EuF+;
zVz*-w31;}#3pa~!iru<q#?Sp3sr%$c_sO588FHM7k^^K-v+k(@37-K!G~-}%JHJrM
zZx!=frTif=e~6CFPP~00Ve=<!9?8}x+WMYnSe#j_84$>Dl*P;X9~|DagGW8`^PiRi
zOqj;bJM9O}mZVcQu}mx+$hOPW<O~f_{^Y^IhO7%)R}5K`?x_S6*YpM{P9RKrClG9F
zt}`^TH8<%EL~O%Nx=dj!{B69b+8YM8)!`OV8M=IO#Ij%nB0HKX*sw*>*%H&`6|~)k
z(RBSyFqys3*&NRmX(iw;zAYw$i9#N><$A1IRecgh-C+(9C96lth)1{UVG6N23|IZw
zYJGDf6&#RS9=nbovDhnlOzq9nfFWTz_lF8YA`gu0{8VO1G#4frVMdT`&<oH)RT>2D
z(%r!2spTZo2*z6-=+io$LVHKqB{MK8XBM2;;JFx!z^{dK7ccE1ncXY^T58}S+WRxg
z0RvvbN(9JPexikH35!yE3%IXr&JjkVilT0Ij8GhP>KQ3i7$;!d<J>L4p=<AGF_|pG
zxtltU0H;+8=dK-abi!3QDvJcYL7H2;9xx$LVzBC!`3|F@mRJc!U}>}fCTR>X@#54|
zgN>C(Jve?a=otls(Kgl01Y=xz7{rQbhTs94o%LF*B1J*l2{`?`3WiUZo8hG*(@uvG
zYrjq`C+`E4wLC?Ie`s%9VjY5!W1l;;H!P~c0lOtH>iDcUXqS<_P~K|R_t(RWZxux?
zXhX}~;k|I8Fr0`ng#f-xqDMT!t7wBGdt=WX+v}&*N9aeHj_-{T^TK?Oe0=29yYAy<
zVY((L^0a;j`^frME^vVrxPa7x+02bPQ?4x1XXR*^pfc(STcQ<jnqYL~2AE4uJwtg6
z1H8JoZjslyAIjiC+As2N?ai@7v=k;9DiCK<3*#>Mp5t!qt)`^e@k^RNcft27+^xOg
zo27km*N15zD61DA$6&siZv8>DGEBx3AJBy@U})Ke(jCU&f;_$Uj@tQH!O40%_m4W*
zigAH|Ywx*P&COjqjtn!gTIm~I%hbw>81p=}_I_Eb#Yk;iXYG7zpT7S~VO2+~g^Fm^
zo3;p1DeQ?>^U}qtFq5n1mUxKv*5Y8KRtfzP(v4wHgcMfTqj$N9+VfSK5!qM`${pdU
zwD;UK&COlW8eTSb82Zwc_MO^y>SoNdSPjmBLSdM+HdYs{O}SL1PP;DVJEmJMiy>AY
zqc{dVvn?@S)F+&VS%a76dagyy%MUXPdMw~tUI%P38s4%-{n3W0L0-dKl_}-(e`w`#
zqxI2RI!eCPhSBVs`x=k0y?NWBWejs~Y5v@WwaUgvIC5^xG`zJh@(msu`DN}xsegsL
zwKs>(%cB`2rCPjc*GkP};xe83ppnWPYlt?Yjw-&7)+?J9bF3~_d(Gg_Oi`16A9rgK
zYcxn#RVr*ySpo$--w@N~mboNjew%!POXsV}9Qn!!()<a7HDr^ub1s5ubv~Rdr7uOP
z6MBKnb1DLM?-JBSbFbh`nC_U6N%v$nn2)3@$l#<am!Rypwu3I*SO_O`aEZoDXo_xt
zfZD0>5o#){4lm+*4{(v7;B#>n+Wn@a3AbW&qLerZ&yaIrmuIHja>0}y!~W4^UKna!
zbiD<uB->J1d6AQ@-F2XgPh_E$9IA!7{}6CbE;Pn=D89)V%lD{QaBXaaT@|7!#xZ3=
z;WX8PDc0{utY{ieU%ZIh0qHb7Z&ucamNmXuISaw#S`6ZbnH@n2_wK&~ZpxMvC;uc`
zM4T>Jdo4YJPQccZRNZ7Q;BS!YT`CSPV1cHfrm;+&C71R`6kN*rdVtAPshN(jQe7`W
z8KP)8viOq{iD}FV|A9jPj6&_K-3hYNyJ=zE>Kc+a$+<EYbZR<ybsGFl;g2cVzhgk<
zLCMFdZDyXB;c}fAzfh>AXtK5<zeQ0VTLSJk217GKb(2S#&<!6pj)Y3e;XM6JQ+hNP
zyEj%Td{|S1Wh$2Fs_S&03?ERks&P8$xGe^SYy$JI>4#SFWQKAtj8H>fMA!)Zly95@
zq3cXd&2D$Jz&t`EX(6!*;XhKKs)Pp>Zi?Y=N|6|AAQ=1T2lp`J9v}L7hf=ZmrH;%n
z8=Ara3dRM_q}HfvqHFy+Od(cOOD;*Fa^(v=n0B5#c%T7KQ<anecgRl^a$ije5edRf
znqr48Ip^yK<#Y7^lS+%8!ZscwJaq=DmOD~46KTu~xWgI}WrVLdc9Oq@&>Xb<LcwH)
zQWycZTPva<U6dxDYPKAnlFtcH&m~x*pa4Z_k!!XqJ)SJuJ@pmz#qbI=0ag801!1MJ
zON@k*1k!@J0JV59$>}~Bx|T(O9u{V(&Ne=7*!`Yn+<KKvV+|i}Lhvr$@=HHuHNkvE
zMVpOHc^<BKG)~Xn&_6YU(eoEzsesV~l>sPa42zy&QWSL7NzNA0*|KU)RJ2PKhs6qr
zE_)IcEt<?=ag$WsFBbRXx)7vfcdU@+VR@TWJ}Q=vLRRIIuAx75ZFY@8l%*F}ZIpi8
z4OVl7WNY8BwSN?Wv~XrA6o_o)_iBC^_@4qy>FV}Psc1kf8rUovTs`vGUX-Zqks!`r
zJN(eMS&KU^s<ta@!JdAcT^_IQma30zR3CvZKwX1WJ0#W)B^=d~qYDz}kYcHW`d<}p
z4hgh<@G6S_q^13XWu#0r4M|O7V$+z^bVRiINYv4nfYJ|CNgCs}#<;WbvAuS^4%}U_
z;pn!*t%yNNh4o@#{d)RlVGD#I?S-pfL$=^glVm=VHXjq+hgQcw?mHTXbP71TO_HNS
zbaa4y8-E4jF@_w{lgX=;9Q#Gbe#tQ`I))$CZ92v&sFu{Id{3(D;`IkMtB2wa?~{ru
z)Niu_`XFM(zBL;f{(h5KF}P*}Gn*LUO#LMfOlPJf(6ZrbxetAr1COA8D09l&MQ8i{
zQyb217NG;&?)y>Eb?6be-e|45Lt@<_Qje(ZO87b<*IqwD>W20CaYr?BDDt3^r4>*!
z^R%p<fUY7K{E15656iz_4i}ZSEa7jK{Ntj39Psa+Lwh&mLx>2XI@f3<Rj!_RY%fcA
z1M4?LZ{J$ZlM=}O)0HJdVqoZD^Jd8_YZ)Kg3lq4?hv~LF$k?n!y{i(=+7HWQeWwj4
z`1C%>MJhq-uRn5iZIc26)9$;r<?5m4hn8u*=%|l7I#?x1DoJvYE<)Tj1Pu#B@%p}Z
z^WB^4vk!_Np8BJ*&5FZowvX+edoHQ+fLM7zs+<rjCqBBiRrz|t*CP4GMc;TFf<{n<
zD(a0pdhrXltScKYLivX9%UJi#qN7=IK+|pCgRzGvwj8Io?UiwR^ZmN`z=YU7k!U{f
zFkNguOsWiYbWy)gsv8vR1|MAAtQ(8lsvn~aIdN~Fxc}rfjuSGVG$rDXU_xJ_^9eMm
zs{M&NbXBudH!Ri-Z=$zq+Y+6}NSURkQL5<?YkCqDby7vUSkb;&(V1x6&m!*=>-I4{
zqeEiDp+sZ5EY|yJaZW+u-<s`t`Oj+%o{qSqJzmuQ^mVhLdEEHy%VvYk`=qq?Uhs$W
z-=B|n9@#7%$Avw|A7@wMx+Gbt!H205_aE4@4bg<HV8ZAD(FR>XQglEK!PU*H6Z7h%
zymm3KeKW6fH66a1Xgsuu(GgNbpIFhiS+Nho?T_sh31{)z;FGe-cvbsmS;y_MZCA;i
z6Sq&`bIa918Rb85dEXoP;rRE*e{k$UI&>^oM_Ja@q790ZjiRk_eU!xNZHD^54;Q|_
z@ZJ*C;VQB|t^*FJTC?2^((EeUDrvkwvQ<L7<wRW<v7|lE42Xt-3O$d~F0r%=0(6hF
z=^~?+15#i_42=9FFeW-00AhZ-G$7w|b$?*9bO<AB?NHo#BGJ^lhRNjrq<1{g(2awj
zzCy@MuiG|UT~D(OEr*Se;md*4S(Rw3+OpLEGQ_E;ZcoK)d*l7bHw#Y0Z6{EfyaL?S
zV=Khzo7?l<k$7dNRJl*A+_zb|f71h9=FOtfxMLKYb^8RANm_@En=J?94*XT$0|KdA
zcP6UpR}XF3Dz@!7w5$60^L?lmI|10}Eqcw8&O{)0@Wg@ZWuEwV;kbiKc4KBuR2l+O
zs)#eB@u4HYc5fEO^TtxK`$?6RPZ3BXvz$5{a=r(OnWJXN-?u_=$Rb}RfSnVBl*oJ*
z_E?I`Z=M(vMv<f6BCr$aBH1JgU!PSnUGO3jqcr)!2|FTY!k-~pg)@jsz(yo#mzPA1
z!ly#Y%c^{EJC5k7mXuyX-+sq}m2(d1nY5<Uy_)gF2PNr;c|U<rp{-{1@Y)m;nP+44
z<d$s!U0hUouV}qS!cktsz-Hn8)x$|(Kv(6x`tSSVuEvC;AYu31y%@J+fvbJ$H26o1
zPxFCkxfhc>+;JwScIJC1I1V^;ZI$V%T%^eL;Y5v2(NelkJ&D5*cn_OMGZ@i2-KnTz
zSilI>JAcz*8DSXd$5j|fXifEDw@l@#pQ=M>LTMc8r|M7`%VjTU1E(5MbwH9$y`vba
z9#<iImA-;defZ1*rSaC=zcBoNLq^ozH_01rf0isF;iAJgS(pS{7rHHxXxkz5rYz3j
zCRZ{2l+e#n6i=4E&flw1g4;)l8N^8Hq+0>1NF!;$VWmUKN2nr@)%0^8>B1zks?eD7
zZ214+u~M#)k9t}xKcs2!?-B7$LyC?RDUxCIgD9whj+7S~U=ClxmX9e=j1#@CpSZhM
zk0gq{QgM@5+_e4$vABEn=w1<n;%ce5MJ#TSio4|)T%2INM`|1s8^=C^Ou<p218}(C
z0BkMORu3*dy#C1X3Zx0{PKtT;Jo2V2QJ@#~S+SwGhs~~}J%#&0eX(P@p{_FSoIs=9
zF{I#4U141eBucUC;aCup>+1@BHDQYBVoY6;Ty=Wlgwpbs15=9jnY$j&3xe1v886kD
zV7kgB7S3gYp>~VjG{Y25(>r&ZE7(;4d}4Z`o#=^LrqnXtijs(9%J(;EV#r!lwxoGw
z_KGaL|5X~8#G@A2QF=Cv%kbTjeB<T`il8wB?956W**cTCRKkyumahm5*gp_3@|CBE
zl^Z15b7EeoY?OA5g;f12{TP2jvw_$rZyGSx>l+d_Xgm_F!W^^|{B4@KJ_{tlD%7hn
za&e9h6|22_3(}qK605qls(P>m0r7x4D(%gpy;-skh<4J7w~r=DtEAEav2<X~n(((t
z{yx#)$0>5s1Z~J)%Xs9dLoN-y%=N4idCQB4(l02f0ZXnjs$YX+$Eem7m*9PxGWvBj
z^>{p5)&0hm=F=evnnBLfN2_rv+dvk`OtB^u_6J}j@D56&F=E~~GUS$OJ2Rhfr?N}O
z-Wv9|!l|3xy`hh&cjz?vO~WTC3byZ6%Y^S{RY%<35w~{iU1y2(q5seS6hFV%Itvnq
z$RcX&U620iI)GS+ud}iWUZhZ`lLjoJPI5h2d)^&JOg28<tTK-)8`jErL&`JmcK}ts
z!uCUQ(P?-x{nV?Yua1tu3Z=Tr?65-lFEFN73bfTC1?XdH_;CQiB4M??V|yFgxL(l;
z!zOgCYE#Fm<(-_jbJi}(wn{{H)#^Kg-@?_W&^aW9k1b9YKe7#gqPLaE$U2+%K56IJ
zId)*ItL5+xs+XFbb>LCc&M~fczNv{KDVG@$nZ=%{F`^Pe9FGeSAG%<S;ev-0v(%b;
zVT!S8j+5ofG-V|ZtO9R=#G)%TbqFS1^)Xf51Ck{f!2cO~1Rl=|_`eMp+s<pCy>Uf`
zf(0-%GxTu1b~L1i@s%@avo7XOfqm-@tR$b2|E+I;?l<G4P?H|eRg%yMHk=fy!yTv5
zq|#EN)s4IK6#Sy<8i#tPq5YALWOSk#DTeV4bE?z{hlS~wS}PCPZuOg1zI%kR-os2V
zR~~}i@a#pHaq|)vj)dI95R7HPob4&3NFR?uQaW^<9X-fm(ZjEdL!MWFG(4n?7roQx
zmjuY2tJY7Mgf9sJ%M9-<g<|tUoK|5)hBa~T3BN;Tx8FopC$nb5vx{Iaf{_k0mJvag
z?p2pqnQQ(d)K}xq?_!4wrvXPeiXXpKMgwn?$F~T2NeWJ<!+<ayG05EWWJwBk-yN3A
z)@_b|WM(m2pu>dwc=crdrZUIX$ScJfzLDEr4f-p>ITjQQOR)=^D9P><?Y{MjEqh<w
z+84L?J;^RuyZm0qR(3ruvc4O5``9NXWp^)cmNcv$gAJ4)fMr;fsI8~p;?mXJ=dhiG
zMf-)!z?}>Bwyi|IW%?e>IyHb>_|DC@Z@yP1Te;Y<cPEHe4Z!%t`n5+6tnm116CGrj
z!_oh=069G?G1%%-STYlvr6*;U47A{Ouw=0LA3@>Vbzs<)HLV`LB^wGT7j5NtuR%-u
zSsKD#vZ4jiL`<3!@7)haBFfD<20cWh?IaniKqh4g-R^qkXnV2i(bCfDsJGTJGXS3#
zF{VyzgWekWmJet`XHSW|b#|0YL<3qvyPq8h#1tk`1Kr(a3VJo4Q3za+Uo=;opjRNY
zI0Fle8c}-@842t3!<OF}a{U?o9H$?4o?w%=V6sMmKTTVSlX<c=WwtAngOj=Za7sQ`
zV^Ep&B%4$67LTU#N|82+cAV5@W8DjX51C`xCVO~QqP=R%UIXiZaeK`+-Ge<MHbKyO
z6DFjrq?CGhkQv&j60KE|wO+KsWDFVKDDX%H^<qK&Y8DGF6Rl;EwNkWJ-fP&hHZ!|i
zwPJQ{JiCqY_L%PGHK~4|h(FtaWE&D~Lk~-~Y{x&gds&P!k*uU`+3L1&O}S!SV8=#{
zmU_0_--6?Fk8Y3#yB}RiWp#1KsMX!J>5t|8D&3XFMgco3lslZ^VAkua=#U*`)vr+x
z74GgKxr<AvgZfcsy$(ugYwD1DJzLgB!W|H{y<0C|Rt{P4muv^V0KotB+kq88<+DK{
z@~7b?Q~KYa+T%Yrk6%heJna{j7gg#`q4~n8e7cuJtDrWLiT+fpI`4Jdi~KP9{pe<O
zr)cktTRZnQggS^wB<b@vgv^LS6|bTqFzn9uF>EsLu3Z6XrtGa(h1S`+5vr(0Bp&&u
zfz?R1oe3)(>%-U}#;rPiN+X-ihi+CCj9R>RKYG}muK>KqO!5JDJ~W2VGdSkGFne9*
zUkSTvC;S$wpSmC0o1~U1LKGhjU#Ljbi1r%E-Xq$3HrXQ0x<vRA;0VL`*+I}}BAHwx
zguG}+rf3Iz&Uwx2O6+MxgwUY3YN_!o8o{sWMx$+2!c=Qvz836=r?V3Acz~i;YMoVz
z>5CepCWyS5^vLuNjha=6pdt0kZ<+whFc0k~%l)L#Xpqgp;vuU~Er+KshLZWIeJu+I
z2xm|~t$V=I#Cd^YY`us{Gwe;1tWu0mtIOZsI6^&v*}45srpd*yFk}77!l#Z5;rld3
zs5raVx7QG`;?gFRCS>8G!FLx)*vU7n9NhfYO=u@1G<$MK#j>NDWyk4Ao1N`pX5oY{
zQQs)lPl)vsoAs|?C46EpBeS%wA9}tI!?b}^H?t?!DweiNrQKp_ccP+=EK7Mi9`_%I
zvXNBLEmm}EW(A-{bjJ9)QS*>TKZ!XA0sPEZP*(nsn~nZeI9@vXjc-<H7G-p~54tND
zABXIE44P}Z9y+AKSW?C)QEy=KfVbU*l7cQ_1A%1FlV+T|2qdqW%z-=@ZEIxtG92nK
zHUjHIwUX@e4kAxv>f{LZUe)g2+bgv)Kz&J668h3c7Aus#gp5FT-IJ;gsj5e;>Um(1
zdXI~}$6*@-LI??KsbuvNuc53te&{uD6*3z>g^9E*Vzxnju4?aspkmSAMpiFsb%E}E
zNBHjNW!RO`5vl#FBxaTxbo^fqOXKgDWw|43_|kGDxO8oi$(Zdy)IXwD&evL*$38}_
zN^B^g=WM%_UA2)79WjT@(3EUVqOEDm7C;cUeg@(K=0)W2N48pG)W|yzS&C3K{4Mim
zcc63Ps(j{vep6QV+TF7F)@u+DVLDBRfvbC%C9m2anz-aXvB_`($ux7pjHCmSq?IU<
zOAstfW&&%;*V|wm6W*cwB1kWuMHFa-Kq8e-CeU<JF2PZT_WzD3D*>(1`AMU;FW8G1
zU!@KiLqZI5I$D>qo5bv<cs8s8=WmmRI~vZCwN(Vo4MV?0ezC|84M%1YxEYqY?;Bwk
z7@{7TZU4<+;VOP8nfj;$T;>Gp59Am3Ld>Y48oo$^Posh-Bq8(pP4e1NhagZ$teuvq
ziKqa4^8bK_Wm8HEG2H#K_L-*kX#xmk!1C4sRtNi>?XXwVo-_??HVv*?i1TQ7t=jfZ
zb7~Pb7Kx$sqG`@+V$_{eNe5A+w1o0?Zly%4$?mXARBj>~7#&2c0^LmwV#($D0!sLz
za-nyK%}fos>(SrJ=pF2;$ls(9IQnBDqHfLkQV>3rVh%=kv#qz)<~asU#8p(;4ZCVU
zpZZ&E$Ss&@yUt5-=0!*0dZ$z%p0sp+%gP^Q(F#NlZXSYd3dXuS_8M$HC|h>Ui&JTL
zpWmw(Gnj>~gezAdze=j@DO^5&__1__^yk4FynNLQA?C#}gh#z>e@@0dz(i#BI~1D(
zLDd$9S|VlhqnOS};q>`UV-rkTLdICx@~~V)o5<#~eurGQFmME7#mdxG2f6+nKS>8?
zr1RZKvUIl(Y2-sqlx`qNMQzDUwiTtL(wzwIJ2ZV$v`n?Bpf=lO8u$MS`2(NjtD-`c
z31@kVkx|)fxYT=8>^-{aI<}hmiM{x4&G!QD20m=uvUkf?yCYIjqgd1^73~v?_H8-`
z9vWeE8~XClnrEhTZx2dNCJ)#1VEp0qA06LxLJn~pdf7DDBzvD|?|V@Huy50TB5pk)
zV}#ThWI-7jM)(W(zHsKr8cF&m!MX=OxSE}2>x)vTCk@D5d7zUN(Pu6|>+<uTAW)vf
zT;28XSpYpU;-{-~TZ^X4$Nx-r$XuQVfxGl;&G7(AaO(vnaB>LR`{l4;_7sZf5q0Kk
zr#r|&$50`=Ak-Wobiy8Nu#9?V3%s>xyQm+7oshtw5A@-%%VlT$dTpx5V%#B`Lhz?(
z49exv9ZSDR8{aVdEz{pb^Qh<rSnd$Va{XRrzQYTYM#l{tAK)Uk*|3-639#E|u0nb|
z1=XEJ<lVuv6aoNY2`?!d5D450wLDMa-fHeJh(kGn@VPp>v<#y(uvQfI`Rl{{60;Ps
zX7BlFm@?U&^xBee83>gfxTxqlrEIU0c@)Yc75$<t%&1S3_Zm)BrcrAaMP{+7Igml5
zly*SjP<GYK5$OoPR?GCvWkTV~Em!OSNCl93^_6-no_16t%etNQ=gOFy;p-qeTnN$6
zZ_p26bFz+t67tKh7`ymA3j9y>!#2%b<Ra-lMvU@})?bmwzoi9$VC~vy{abjg)N2$9
zr$#wTV8>No-ypP23KKxvZnoP3!D0vh*N@*scD|HdCT5r2J1f<WiulVOO*q}#s<$F}
zD`p>{jTY?3Hf-1%wuwHgg^54K=ta+i!_vU(;=t>V9A8l6d*o1(@>%cMa&$m2RkAhU
zCJf2ehKn-p*GugqV*AJ=+bF=2P^Y}{9u!LlA6%0ToDvV5+AKZ&_VLv(KB=m`H~WLY
z{mwr;@OuZus)N`Ieo|E%hqa6zY2OKP--*qt3ECgptH_K-uUOZ+VTZBuYFHg{_#k-6
za;_9@u(d$~u<O_2y~n_tMz)QEtFW_C50_?un#@h#&yZRVimeB?tcSqolK1tbhOvWX
zjYgH%m^FmFXpLbTLPXsC=<k0%03>?Y;fjhsWIy`7ZVbbKMbLyZP>=$^k?M-0CwCNt
zodk~a*oO7<;xbiU2|{+bS{S%8S1SW|rIZCboX;!^Y%`>kh0KiTu*R-xl%(FOp_?XZ
zVsxb1a<`7KbKbP+SK+13<(+s^mIY$iA&j{hT!uQBf*%-`B1>O{I%Mh76m)bJp0Den
ztT3!%1@~Z4vM;3;K}E4)Xc_?n6M|;+V`@$^8SC{n5EkE^q96Dvq>JmScSKiEJnqg#
znSkA7%okpg(dD9ABFc={e+Q}zE(=sZDi|p?F}$uJz6pU&X;&J@6eTTGge@svG_pz}
z0|8M5>Fn5B8%~MLYyaZN;7c;qx*|nnOI;VZ+Mz>j7$s-n0Y;_pNA$xm@Snkz)M6=F
z%91j4Jj3Z>rdmZpW;-e2GgLht<f^Mc_Ird}{};djaxGM8Vs_}ucq{FqtsUl(wrq6E
zR#Agg*e@3LZxjwaIFFyzu_v~ClGl$HkA0NBWjo2(HN>cqY`9LS^?u<aTQ9`li-wJ#
zE48!u?%D61d-t5^Y>3+$;!eo30qe5Ux8U~{-d$K96U#du**c$P5J(xZv7@XJR9T<D
z^AC)I)?~*xpCASUsWFR=KMbKVW1@f?OAnf28TfC7t&ddt9L+^fEE9M@2hZs-@uR9H
zIHM1<08xh`*7mo0OnpY*b-?_x?mic^x(!fu@X}&YM8!uiq=~ko2T*i$%NaGAy-1LB
zXjNE($$mjPKn$A6qQ?uu(S9(9u2Q)X)tEMPm3fJ>IF7{%aYB(*&4G=V+^C86F1N_$
zMh3ppnBA0o$QhNfs_giQs+Y%O)vzK}9a33gD)fc*ji#qa;#g2a-BzT!F(aOqTPLxq
zWWefx@m4|98iwSmehU3I)Zplc?<kE~w}!f-k+&k5q`fsw@=Z|-lZ8y19>8W&MVsTY
z)w~<bdZ4nDD5wt00K2o0NXr{uMY)&oqD-aA6zY!k1hlNei3me@NES-Eh$|1t)TFHG
z+~f^{)i48ti?F^JCJGj24LN8XnwOhr1ooa4WFw8c3~GLb76n4?bjL3tX!*KknSZI_
zc@lJzj{v66&(7m&bQtR-gPK@KpuxGkz%~PNiP=TUWR3AW7E;XsDA{OKn~fP5O|f|j
z+^tv!1vp_TjJAUXQnmef^;24FShyJ0Op?;-#Uu55&!Rdw;iSyDCtLbRB8%3doeic{
zlAtJIntpb_cYFl)O)u~e#Uf-%Q55#j&eBAdp^m=Oi@-Oll~T7<J{0v!5a>GRSF=(}
zJ-YzYp4eq!1gULDVCZ>SEhxMhb*9Tpc`GWC)m|SiBu7?fDNw(gybCbJxhFr^vizLg
z<n>W2?-(w-?Pc-}lU){L`yC)1S)zjNgnmSy#0wVwSNaLj58Fg(TcnT3F9uwfOk<{I
znXnDFGN~?ONrzf{v?=XilLfl1Ldx>keFmXwAxpHWj4@f<oCMf8sH96TuB<1WL)oZl
zlSTAN2M>IBE1jSdAkSVQpQ>b4ArQZhIy2>wh3V8gj`>)TulU|k{IK2`#mnM<MDz=t
zC_(J53AZ1S9GyGitprCK67jMsuJ=h%1*FwVDprprs(rZNP?HcE+olWfI>m}ksp6nm
zaquBjV2_G6&+0i4ERG^BMn^YhZrDemzvnLJx}0Ls0h~BN*2qQ5u%8rr?w;E$Zd?!k
zc<KEmv3Ngdlsq2}S)mcxK&p{(2W`~yeCstoZh5~&bo4!dLfwAo<K3yaU4iQo>nowA
z37xyD+V@_KHy+%qJ@oM0Pb$yc&RH|BeIem2jYDw6*_psKUgcG5+1v1_=n<WC*%?ex
zI(+i=r|VzXa&&*}q@3Ve--sKqwgYYVNB;2S@0}C_huB3|P$x~mnEpj6FfQWHHI557
z^Poyw`?SMQb=LU2-{2^HT-1nz&4LDYy<Ugt?zn#uX7)t<xlbZ`0aOp^cE^r>sr{JP
zevGclYT0&p6+`^Wom)R~^gbOn8E{|Uh{@pa#w)wy_U^c~doRBeeJJlmiH>7Bf-sy8
z3eEJ*7x2|b)QdNmz#j2RcRgfeky8^)P%w?`<)tW{skiR1H66#xP{smhjJRemxalWt
z1@zL6n|}1q0d<Awca<h%S7}s9-#w)<2}LPXp$_kk_Q{Y_R@wkGPX><0E%Hg?4BAtD
zC<gZ3hUb&`Ifh+2?fTDEqt3*iRikN+h)VP7QMrs7MJxZh@s1HY?OM{R`CaohqkQ6K
z7ItC8w*hy@dD}0;W2Ga72c&CLBrw2CAcqG717xq^I&3F2gKZFQK<fX>E+95oO0zyL
zs$MhWs)u)0-d_3cIr(b74g2t?Fbe5-TvYvY#(w&`ztOmI@-)_M$U0+zV&c*uZphGt
zm+Vf!E^)uNHpo|CU)T>P-(d#5J_N}}$?A#-#gPoA(;$3=mX_IJ4E3K!@z}O5nQ?7e
zSj2Xe3oz3VPkLmGt|B)1er#ngpDd9><-BC6W?qV<on2O~8ppsTA+iU@^n8s@x(SEt
zf+(QtuGOW1C)g|fER3S4sX9pdR$qM79gk68oF>-8{BI4ek%TzIvvl;!HuR06-;TnN
zXKB`|9VjIyPqKB1HdvU&ZH9F9M@}y8u*`&rG%if;MTE@S56!qVcoRyk)<Xo$3fr@T
zqID1;!I>jQSKS884>t^n)}cq%|G%=UiEZMD!n3v~@oxSIaT1dslOG4101F|e38aaD
z1n3{Xp)Ci%3Q2%S4$!d^HHZF59KxXzIaG4QWx4ridTF?&J@r;^ITUSW#T<Gcw4kUx
z^?kE;0%|I?k~Q<*%-c6V-ko{#X68NIHY)SXP5+R5lFW~P{H*#DFeU%f?KDW@DaG`}
zv)D;HNG_+}V)~+LFBY-1*d+tO^(VC=T)g$Y(mDC|pv$myH8!dSEIMs+j`og^QbW)6
zjyS<Y;?CsUOd{bJi3HgNB^?aG)rrJs^OH$0M_|z<pyLuf2uunbKZ!B|>n@Q*uz&!I
z81WZ^-w+(ftF(_GC!nnUd<&cu`kp5m@e6Xe64r!;RIH>#FNp9_h$w=4KykZR;8LZC
zA@~O9eFV5VBd~DwB$j2M7=zVGdjS=LSV8az0nXKl1IWd;ig#EF$D9OC%Lq)p;wNP6
zL4Zwkfk8@q4+xub0?J;|ivXGlPkK_H3*IlKjPX|T^C0Oj2XO*Yf6|zBpJ5gqecsbY
zGx*E;(>{J$D>m+yTtPGowd|FZ9!w5%ho$bp<RdmLt30@xHN|9&2iKCHaarfVJIE8K
z^f=OgZPdCAUiyW=M?v0^Ip{LP^6HLuzNgsID>=nfAQ4sq8Xe?Dv8g39xI8C0!Iah9
zs<296K`O}_$oj3Jl{->L3hY!^4c2sa;PI>#A)mCe3d!UEw!`vU*YX{Q?bZQVgS1*^
zw7PYGghrJziuGaDViXeTR1HQ6yV_KH!MZc5nhSPD-BSAD*n`DPcP3?xXB!^BPY20t
z-E`3hhP)7H=BG5(AOL7lb0%c#?QW&Q51;k(Zj}uH1s;@@3Jg-)m!|R!(R^*x)_YuC
zrCzVtN&SNgQcUFGw#?Y_qO1f)Pn0VYUHZz_ce^^0V@>>`mOUdG;?;nwVtFXUhl;!Q
zNKP?oMg0tDzmLbQQ`zopDjR!z-erW!V1SQUgJkHJk7UziNQ95b>OLMTHik1p*4WC3
zO@47XB@i3DAAnGKR|j-OtKkvrQ^_dGg>qA?1G(EzB5P5*|FnxV8S!(|IzvvuxhV~e
zAIVO*j3QZ~Q92bz5#VFiIN)Q{`$tEfzjN#*HQ6Y(o4JtPPG%nnq2k*QWYc!r0J;PJ
zm=VrU*G13`hK$uvM{m*-LiDW>SqX@IjCM*LkU{T4=CZAm<4Ho@NPs#pWN?EH-AF&;
zBSR`K>NPGWT!uMs%*V&q(sukqmk}asH6F=##dB%9YZz4~H|b6MoTfMcDC)KJ%3Q_^
zlZh=~x2EmJzI<Jut?zR=^5voZJd~pzqi8MUB9d3NMt&rJ;*!fKmgaSh50cwwtC?J8
zOTWTKPpox6z3m|=A@y+J!RMKVr7!TVagfO4{$Ad*>R%mu8kBUBuV-!I=Y}7zyaMQr
z3K$T2&x#t172gr;R88GYCP|?H#}1y2v${7@%*h*5YG`vR(u?<K-c<veQ?-yx&Y7f&
zy*YbJ4attFQs@>_TFl;<rv<AyGnFXoe*tgmZA~cE1+J3_sO+5n|Ni7nS_<D4ivlMa
zotA$*N4u0Idte5*S8dOos5a~M<`EyW%pFI0oc-Hz-~PFUes74zwum~Ou}zcywa|rr
zuRow?bmIS~P?I!8Vs<K}=8@7rLI&?{k<qc8U{<G?kzOV}OA{)2K2h^0=1QkaWl_;E
zX=Rpe40t<}bCY-Iz_1XFXbp6hPWxNb=rXm1Ste9dX&8iUZxJdP%cS{vMo`br2<R%E
zUE7d&`zp#WoHzNlp=iwFPRBOnB`J?2gPHjm5dkgk2RPwvXy?<j$&}~-O($q-%QT)z
zFVTe@64||JzVu2_zic*gtNM^RoW}C=rM@?nwJ&e3#<Ay8rxORSQ7KPUP_s3piLLxn
zE0kcO#0ICe%zMkO+sx*F41r;*^XMa+pMu|y>Cz^MCk)k;Ie5)JNY990@u8~?5hV%)
zfPRS#hzCyaT~F2;6)t7akEI?_ApM%A(XBMC{&!YYVBG~4EwH9PSl5QnulZgFnRZcI
zXCD;Ug$-Xo^Sxvgyf&D2Nh`36M8D3)6y*j{zDH@p8$Pc2Xz0{@<j_{TOb-vQvk99`
x6j*$nom^+<ZFYX09WJn=1vXM(Lof8u!z<79$k!FGDz1gK9x^TUngLLi{~NgE`f30G

literal 0
HcmV?d00001

diff --git a/v1/core/sched/__pycache__/utils.cpython-312.pyc b/v1/core/sched/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..47c7dbd6de6f4b6a6c6d7a24d285c92f1f1b9d87
GIT binary patch
literal 2838
zcmb6bTWlLu_Rhl|#}mgTF@dBtT&WMmA&E)ZRcJ!mW=RUIAgSsIiHMao_1q+r%){J!
zohHbU0^%b;C5nW!;g1hKiumD^{aW=8iJ#g9*&6jDK&4gpD=0`v2no)e@gvE0rR7?4
z&pCI_`<`>g-y{-o1j|-Gur75V^rIk}3+Q0&y8!-yOk_$nS_q-EAOS7gvZE|0j=G>q
z$W%zgR7uo~kjP@xjJ~TbXdTGZO^qmKjKs_iBCT{cbRGbv^p=JYNW~XpX8hgAg1#YT
zIv)y-*^KOK*T|bC!nmJkAUSUE67v-s&XN`<4$E^dPl@BL5kE=^FHyH3A21LFT!Cjl
zDv3DC5|hg)hd5B-DobB9a8p_xK!{%Ef<IV1(!|<aP3}#ZgXiH|i8Zk{<Uwu)-IVw%
zl293~B-%VptSmQqAd|BAebI<PNaWy|Mjy%rc?lKdzr)RJ%4NAMtw~I}87s>l$v1Ts
z-fYS_bP|msCf$%F^g37zrPr0$(G95pXM*Pj$|%Nrp#EBrG;G*54ibqMspnt=+ZN-P
zFB=>ilwivR9KhjJV@CK$JdR<_FIx;dgfDw0_KMtcthWfmiyjT+3ZCP5E-o01U~drz
z7iGCiV1@y(L&ZaZqDAmTyt-}_Rx$TNKR~`n$ue=71!{y=r(|=h*pOrmC#L8U8xOPy
zm!LSt!7tJX#S6_gf(XKFu^x$Q9OnoZj)oZlFT&CaL%kN1*8xK_7UU)j)bUJf(ISuo
zYAso=VTZ;Cgv$p)4fPpz2KZV|7}zB@4)7leu_ZBrUxW-1$}n5@O16nhkW;YVQWI7`
zxUgo}CDO>utj9?^GnXFi%@F7jw;0C2f}1-Whvg0zZKKdOX1FGJCfbcbvPQ7be8_J$
z1n0OwiNT>B4zjny9SMAYDEe<Uqd`{_*H>M#&V3awfco)*=W-xz>$)Ffr6QC9V}ATK
z5#J1@9u+MwT0f&u(W+E*dm!sD(Zo;-zh204r<g5T#bIvHCBlc-OJnDrUmYV^(3&l7
zK;gRCHQRQwYopnMM@g0ymWi1yam!{S#SK3mn#e=)X%8qBea%X+ZK0pepw8p<WcPOb
zffnDsa8EnF^JZ1U50X6}PwzZ^FO|8M9Nbp#C!VM!a3z61>;En>RPRiFc;&q-xA?c6
zCw@^-*YK{8|2~cH=@&oA-J1V&`pabX)P?t_cXAc|;$8LPFC9&$-+s_9vM0gv9n?KF
zs@%aHQ|Hw?gR0m^BU2NauhHhbbd2>p+$XW~BB_a@=RxV@y%H~$c%e1mK$pP9v;SK-
zAkhjCM;GlY%WwDc)?i&xk8&UwQu&tN4QT_$?4!owrcze6<SXbM3EsCxWLsNVS?O$3
zO>7k`(@<wu^Q;X`r4NWr6=aXKPn#G!T~@)?BR)RCxc^g8fhJ`o)zsXE>+o5D(XFl_
zn*RT@B>c+jO)VQDBjR?Ctg^KF22@<%|Hv0w=|3U>q>!KoBRlcmJV);<6PcaA^ze6B
zpQB9D?-C^g^Eh8LsNpawZrne1>GJI5+{-i5`P}^6)vGhpew2k@<Rmkk;sJjDF}LJ2
z>J2{8t1!X+xMR6Z{8(6uA(^*Kcxx@W(0+O1F~1YG)+@h@aj)1SnXd;lOcv(3eq7jT
z8Gx#9;JqzZUzwSGY5wK>i&MhkOoWR2qmPTNS8Qn!Si&|KZ<`Rq1cnF3RFn<Op=DB7
z%?q<M0|$ffu>Zieh4!K-maJ*%s+O+nPu|r}-A@nJ(i4^R#P&-!XX`yr)RU>*-gK>Z
zxY9ekHCNaB@9Jmns%K!|)w*gLu4wqv3$>Gzm6MZIZBlTjj@ME{mDJGfYn9ZqTd#sh
zO+Q`LPv0K?YOFRfSDBcr4$j^0J5%c$tMrX+Yd5><$(~&;wexg%Qtg}k>TE?jf0*T|
zXSTI(V=%3HcERCTe<jwx<5XkM)b;L~eyXCMx~<g)#w!EkRek({P(E4dn`|hr>&NyX
zT9lDyGo4iYf$<~UqlINZDJJL0+UQ7Q@K7-V!dg+q9|>Q9e+t3a^cBnHesmrR0p_-P
z9jYtHB^A9(MMlG1$6kQ3RkF!>dKS*ar-7NU?J1HZ?MIQ+{Uhr9H#)l)O-obKt?4}^
z;O*x^_~l>r1A6ao61pnQOFt=3NsrYNsl5Q69th#N^Zz>W&l6v(m2<BI2fLAupCiB+
Gc<~28*vi=e

literal 0
HcmV?d00001

diff --git a/v1/core/sched/async_scheduler.py b/v1/core/sched/async_scheduler.py
new file mode 100644
index 0000000..3214f65
--- /dev/null
+++ b/v1/core/sched/async_scheduler.py
@@ -0,0 +1,62 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.core.sched.scheduler import Scheduler
+from vllm.v1.request import Request, RequestStatus
+
+logger = init_logger(__name__)
+
+
+class AsyncScheduler(Scheduler):
+    def _update_after_schedule(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> None:
+        super()._update_after_schedule(scheduler_output)
+        pending_structured_output_tokens = False
+        spec_decode_tokens = scheduler_output.scheduled_spec_decode_tokens
+        for req_id in scheduler_output.num_scheduled_tokens:
+            request = self.requests[req_id]
+            pending_structured_output_tokens |= (
+                request.use_structured_output and request.num_output_placeholders > 0
+            )
+            cur_num_spec_tokens = len(spec_decode_tokens.get(req_id, ()))
+            if (
+                request.num_computed_tokens
+                == request.num_tokens
+                + request.num_output_placeholders
+                + cur_num_spec_tokens
+            ):
+                # The request will generate a new token plus num_spec_tokens
+                # in this scheduling step.
+                request.num_output_placeholders += 1 + cur_num_spec_tokens
+                # Add placeholders for the new tokens in spec_token_ids.
+                # Wwe will update the actual spec token ids in the worker process.
+                request.spec_token_ids = [-1] * self.num_spec_tokens
+
+        scheduler_output.pending_structured_output_tokens = (
+            pending_structured_output_tokens
+        )
+
+    def _update_request_with_output(
+        self,
+        request: Request,
+        new_token_ids: list[int],
+    ) -> tuple[list[int], bool]:
+        status_before_update = request.status
+        new_token_ids, stopped = super()._update_request_with_output(
+            request, new_token_ids
+        )
+
+        # Update the number of output placeholders.
+        request.num_output_placeholders -= len(new_token_ids)
+        assert request.num_output_placeholders >= 0
+
+        # Cache the new tokens. Preempted requests should be skipped.
+        if status_before_update == RequestStatus.RUNNING:
+            self.kv_cache_manager.cache_blocks(
+                request, request.num_computed_tokens - request.num_output_placeholders
+            )
+        return new_token_ids, stopped
diff --git a/v1/core/sched/interface.py b/v1/core/sched/interface.py
new file mode 100644
index 0000000..88d99d9
--- /dev/null
+++ b/v1/core/sched/interface.py
@@ -0,0 +1,181 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Iterable
+from typing import TYPE_CHECKING, Optional
+
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+    from vllm.v1.engine import EngineCoreOutputs
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.metrics.stats import SchedulerStats
+    from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
+    from vllm.v1.request import Request, RequestStatus
+    from vllm.v1.structured_output import StructuredOutputManager
+
+
+class SchedulerInterface(ABC):
+    @abstractmethod
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        kv_cache_config: "KVCacheConfig",
+        structured_output_manager: "StructuredOutputManager",
+        block_size: int,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        include_finished_set: bool = False,
+        log_stats: bool = False,
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def schedule(self) -> "SchedulerOutput":
+        """Schedule the requests to process in this scheduling step.
+
+        The scheduling decision is made at the iteration level. Each scheduling
+        step corresponds to a single forward pass of the model. Therefore, this
+        method is called repeatedly by a busy loop in the engine.
+
+        Essentially, the scheduler produces a dictionary of {req_id: num_tokens}
+        that specifies how many tokens to process for each request in this
+        scheduling step. For example, num_tokens can be as large as the number
+        of prompt tokens for new requests, or it can be 1 for the requests that
+        are auto-regressively generating new tokens one by one. Otherwise, it
+        can be somewhere in between in case of chunked prefills, prefix caching,
+        speculative decoding, etc.
+
+        Additionally, the scheduler also returns useful data about each request
+        or the batch as a whole. The model runner will use this information in
+        preparing inputs to the model.
+
+        Returns:
+            A SchedulerOutput object containing information about the scheduled
+            requests.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_grammar_bitmask(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> "GrammarOutput | None":
+        raise NotImplementedError
+
+    @abstractmethod
+    def update_from_output(
+        self,
+        scheduler_output: "SchedulerOutput",
+        model_runner_output: "ModelRunnerOutput",
+    ) -> dict[int, "EngineCoreOutputs"]:
+        """Update the scheduler state based on the model runner output.
+
+        This method is called after the model runner has processed the scheduled
+        requests. The model runner output includes generated token ids, draft
+        token ids for next step, etc. The scheduler uses this information to
+        update its states, checks the finished requests, and returns the output
+        for each request.
+
+        Returns:
+            A dict of client index to EngineCoreOutputs object containing the
+            outputs for each request originating from that client.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def update_draft_token_ids(
+        self,
+        draft_token_ids: "DraftTokenIds",
+    ) -> None:
+        """Update the draft token ids for the scheduled requests."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def add_request(self, request: "Request") -> None:
+        """Add a new request to the scheduler's internal queue.
+
+        Args:
+            request: The new request being added.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def finish_requests(
+        self,
+        request_ids: str | Iterable[str],
+        finished_status: "RequestStatus",
+    ) -> None:
+        """Finish the requests in the scheduler's internal queue. If the request
+        is not in the queue, this method will do nothing.
+
+        This method is called in two cases:
+        1. When the request is aborted by the client.
+        2. When the frontend process detects a stop string of the request after
+           de-tokenizing its generated tokens.
+
+        Args:
+            request_ids: A single or a list of request IDs.
+            finished_status: The finished status of the given requests.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_num_unfinished_requests(self) -> int:
+        """Number of unfinished requests in the scheduler's internal queue."""
+        raise NotImplementedError
+
+    def has_unfinished_requests(self) -> bool:
+        """Returns True if there are unfinished requests in the scheduler's
+        internal queue."""
+        return self.get_num_unfinished_requests() > 0
+
+    @abstractmethod
+    def has_finished_requests(self) -> bool:
+        """Returns True if there are finished requests that need to be cleared.
+        NOTE: This is different from `not self.has_unfinished_requests()`.
+
+        The scheduler maintains an internal list of the requests finished in the
+        previous step. This list is returned from the next call to schedule(),
+        to be sent to the model runner in the next step to clear cached states
+        for these finished requests.
+
+        This method checks if this internal list of finished requests is
+        non-empty. This information is useful for DP attention.
+        """
+        raise NotImplementedError
+
+    def has_requests(self) -> bool:
+        """Returns True if there are unfinished requests, or finished requests
+        not yet returned in SchedulerOutputs."""
+        return self.has_unfinished_requests() or self.has_finished_requests()
+
+    @abstractmethod
+    def reset_prefix_cache(self) -> bool:
+        """Reset the prefix cache for KV cache.
+
+        This is particularly required when the model weights are live-updated.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def get_request_counts(self) -> tuple[int, int]:
+        """Returns (num_running_reqs, num_waiting_reqs)."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def make_stats(self) -> Optional["SchedulerStats"]:
+        """Make a SchedulerStats object for logging.
+
+        The SchedulerStats object is created for every scheduling step.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def shutdown(self) -> None:
+        """Shutdown the scheduler."""
+        raise NotImplementedError
+
+    def get_kv_connector(self) -> Optional["KVConnectorBase_V1"]:
+        return None
diff --git a/v1/core/sched/output.py b/v1/core/sched/output.py
new file mode 100644
index 0000000..20fdb34
--- /dev/null
+++ b/v1/core/sched/output.py
@@ -0,0 +1,202 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from functools import cached_property
+from typing import TYPE_CHECKING
+
+from typing_extensions import deprecated
+
+from vllm._bc_linter import bc_linter_include
+
+if TYPE_CHECKING:
+    import numpy as np
+    import numpy.typing as npt
+    import torch
+
+    from vllm.distributed.ec_transfer.ec_connector.base import ECConnectorMetadata
+    from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
+    from vllm.lora.request import LoRARequest
+    from vllm.multimodal.inputs import MultiModalFeatureSpec
+    from vllm.pooling_params import PoolingParams
+    from vllm.sampling_params import SamplingParams
+    from vllm.v1.request import Request
+else:
+    ECConnectorMetadata = object
+    KVConnectorMetadata = object
+    LoRARequest = object
+    MultiModalFeatureSpec = object
+    PoolingParams = object
+    SamplingParams = object
+    Request = object
+
+
+@bc_linter_include
+@dataclass
+class NewRequestData:
+    req_id: str
+    prompt_token_ids: list[int] | None
+    mm_features: list[MultiModalFeatureSpec]
+    sampling_params: SamplingParams | None
+    pooling_params: PoolingParams | None
+    block_ids: tuple[list[int], ...]
+    num_computed_tokens: int
+    lora_request: LoRARequest | None
+    prompt_embeds: "torch.Tensor | None" = None
+
+    @classmethod
+    def from_request(
+        cls,
+        request: Request,
+        block_ids: tuple[list[int], ...],
+    ) -> "NewRequestData":
+        return cls(
+            req_id=request.request_id,
+            prompt_token_ids=request.prompt_token_ids,
+            mm_features=request.mm_features,
+            sampling_params=request.sampling_params,
+            pooling_params=request.pooling_params,
+            block_ids=block_ids,
+            num_computed_tokens=request.num_computed_tokens,
+            lora_request=request.lora_request,
+            prompt_embeds=request.prompt_embeds,
+        )
+
+    def __repr__(self) -> str:
+        prompt_embeds_shape = self.prompt_embeds.shape if self.prompt_embeds else None
+        return (
+            f"NewRequestData("
+            f"req_id={self.req_id},"
+            f"prompt_token_ids={self.prompt_token_ids},"
+            f"mm_features={self.mm_features},"
+            f"sampling_params={self.sampling_params},"
+            f"block_ids={self.block_ids},"
+            f"num_computed_tokens={self.num_computed_tokens},"
+            f"lora_request={self.lora_request},"
+            f"prompt_embeds_shape={prompt_embeds_shape}"
+            ")"
+        )
+
+    # Version of __repr__ with the prompt data obfuscated
+    def anon_repr(self) -> str:
+        prompt_token_ids_len = (
+            len(self.prompt_token_ids) if self.prompt_token_ids is not None else None
+        )
+        prompt_embeds_shape = self.prompt_embeds.shape if self.prompt_embeds else None
+        return (
+            f"NewRequestData("
+            f"req_id={self.req_id},"
+            f"prompt_token_ids_len={prompt_token_ids_len},"
+            f"mm_features={self.mm_features},"
+            f"sampling_params={self.sampling_params},"
+            f"block_ids={self.block_ids},"
+            f"num_computed_tokens={self.num_computed_tokens},"
+            f"lora_request={self.lora_request},"
+            f"prompt_embeds_shape={prompt_embeds_shape}"
+            ")"
+        )
+
+
+@bc_linter_include
+@dataclass
+class CachedRequestData:
+    req_ids: list[str]
+    # For request ids not in resumed_req_ids, new_block_ids will be appended to
+    # the request's block IDs. For those in the set, new_block_ids will be used as the
+    # request's block IDs instead of appending to the existing block IDs.
+    resumed_req_ids: set[str]
+    # NOTE(woosuk): new_token_ids is only used for pipeline parallelism.
+    # When PP is not used, new_token_ids will be empty.
+    new_token_ids: list[list[int]]
+    # For requests not scheduled in the last step, propagate the token ids to the
+    # connector. Won't contain requests that were scheduled in the prior step.
+    all_token_ids: dict[str, list[int]]
+    new_block_ids: list[tuple[list[int], ...] | None]
+    num_computed_tokens: list[int]
+    num_output_tokens: list[int]
+
+    @property
+    def num_reqs(self) -> int:
+        return len(self.req_ids)
+
+    @cached_property
+    @deprecated("use resumed_req_ids field")
+    def resumed_from_preemption(self) -> list[bool]:
+        return [req_id in self.resumed_req_ids for req_id in self.req_ids]
+
+    @cached_property
+    @deprecated("use all_token_ids field")
+    def resumed_req_token_ids(self) -> list[list[int] | None]:
+        return [
+            self.all_token_ids[req_id] if req_id in self.resumed_req_ids else None
+            for req_id in self.req_ids
+        ]
+
+    @classmethod
+    def make_empty(cls) -> "CachedRequestData":
+        return cls(
+            req_ids=[],
+            resumed_req_ids=set(),
+            new_token_ids=[],
+            all_token_ids={},
+            new_block_ids=[],
+            num_computed_tokens=[],
+            num_output_tokens=[],
+        )
+
+
+@bc_linter_include
+@dataclass
+class SchedulerOutput:
+    # list of the requests that are scheduled for the first time.
+    # We cache the request's data in each worker process, so that we don't
+    # need to re-send it every scheduling step.
+    scheduled_new_reqs: list[NewRequestData]
+    # list of the requests that have been scheduled before.
+    # Since the request's data is already cached in the worker processes,
+    # we only send the diff to minimize the communication cost.
+    scheduled_cached_reqs: CachedRequestData
+
+    # req_id -> num_scheduled_tokens
+    # Number of tokens scheduled for each request.
+    num_scheduled_tokens: dict[str, int]
+    # Total number of tokens scheduled for all requests.
+    # Equal to sum(num_scheduled_tokens.values())
+    total_num_scheduled_tokens: int
+    # req_id -> spec_token_ids
+    # If a request does not have any spec decode tokens, it will not be
+    # included in the dictionary.
+    scheduled_spec_decode_tokens: dict[str, list[int]]
+    # req_id -> encoder input indices that need processing.
+    # E.g., if a request has [0, 1], it could mean the vision encoder needs
+    # to process that the request's 0-th and 1-th images in the current step.
+    scheduled_encoder_inputs: dict[str, list[int]]
+    # Number of common prefix blocks for all requests in each KV cache group.
+    # This can be used for cascade attention.
+    num_common_prefix_blocks: list[int]
+
+    # Request IDs that are finished in between the previous and the current
+    # steps. This is used to notify the workers about the finished requests
+    # so that they can free the cached states for those requests.
+    finished_req_ids: set[str]
+    # list of mm_hash strings associated with the encoder outputs to be
+    # freed from the encoder cache.
+    free_encoder_mm_hashes: list[str]
+
+    # Whether the scheduled requests have all the output tokens they
+    # need to perform grammar bitmask computation.
+    pending_structured_output_tokens: bool = False
+
+    # KV Cache Connector metadata.
+    kv_connector_metadata: KVConnectorMetadata | None = None
+
+    # EC Cache Connector metadata
+    ec_connector_metadata: ECConnectorMetadata | None = None
+
+
+@dataclass
+class GrammarOutput:
+    # ids of structured output requests.
+    structured_output_request_ids: list[str]
+    # Bitmask ordered as structured_output_request_ids.
+    grammar_bitmask: "npt.NDArray[np.int32]"
diff --git a/v1/core/sched/request_queue.py b/v1/core/sched/request_queue.py
new file mode 100644
index 0000000..7bc1010
--- /dev/null
+++ b/v1/core/sched/request_queue.py
@@ -0,0 +1,221 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import heapq
+from abc import ABC, abstractmethod
+from collections import deque
+from collections.abc import Iterable, Iterator
+from enum import Enum
+
+from vllm.v1.request import Request
+
+
+class SchedulingPolicy(Enum):
+    """Enum for scheduling policies."""
+
+    FCFS = "fcfs"
+    PRIORITY = "priority"
+
+
+class RequestQueue(ABC):
+    """Abstract base class for request queues."""
+
+    @abstractmethod
+    def add_request(self, request: Request) -> None:
+        """Add a request to the queue according to the policy."""
+        pass
+
+    @abstractmethod
+    def pop_request(self) -> Request:
+        """Pop a request from the queue according to the policy."""
+        pass
+
+    @abstractmethod
+    def peek_request(self) -> Request:
+        """Peek at the request at the front of the queue without removing it."""
+        pass
+
+    @abstractmethod
+    def prepend_request(self, request: Request) -> None:
+        """Prepend a request to the front of the queue."""
+        pass
+
+    @abstractmethod
+    def prepend_requests(self, requests: "RequestQueue") -> None:
+        """Prepend all requests from another queue to the front of this
+        queue."""
+        pass
+
+    @abstractmethod
+    def remove_request(self, request: Request) -> None:
+        """Remove a specific request from the queue."""
+        pass
+
+    @abstractmethod
+    def remove_requests(self, requests: Iterable[Request]) -> None:
+        """Remove multiple specific requests from the queue."""
+        pass
+
+    @abstractmethod
+    def __bool__(self) -> bool:
+        """Check if queue has any requests."""
+        pass
+
+    @abstractmethod
+    def __len__(self) -> int:
+        """Get number of requests in queue."""
+        pass
+
+    @abstractmethod
+    def __iter__(self) -> Iterator[Request]:
+        """Iterate over the queue according to the policy."""
+        pass
+
+    @abstractmethod
+    def __reversed__(self) -> Iterator[Request]:
+        """Iterate over the queue in reverse order."""
+        pass
+
+
+class FCFSRequestQueue(deque[Request], RequestQueue):
+    """A first-come-first-served queue that supports deque operations."""
+
+    def add_request(self, request: Request) -> None:
+        """Add a request to the queue according to FCFS policy."""
+        self.append(request)
+
+    def pop_request(self) -> Request:
+        """Pop a request from the queue according to FCFS policy."""
+        return self.popleft()
+
+    def peek_request(self) -> Request:
+        """Peek at the next request in the queue without removing it."""
+        if not self:
+            raise IndexError("peek from an empty queue")
+        return self[0]
+
+    def prepend_request(self, request: Request) -> None:
+        """Prepend a request to the front of the queue."""
+        self.appendleft(request)
+
+    def prepend_requests(self, requests: RequestQueue) -> None:
+        """Prepend all requests from another queue to the front of this
+        queue."""
+        self.extendleft(reversed(requests))
+
+    def remove_request(self, request: Request) -> None:
+        """Remove a specific request from the queue."""
+        self.remove(request)
+
+    def remove_requests(self, requests: Iterable[Request]) -> None:
+        """Remove multiple specific requests from the queue."""
+        requests_to_remove = set(requests)
+        filtered_requests = [req for req in self if req not in requests_to_remove]
+        # deque does not support in-place filtering, so we need to clear
+        # and extend
+        self.clear()
+        self.extend(filtered_requests)
+
+    def __bool__(self) -> bool:
+        """Check if queue has any requests."""
+        return len(self) > 0
+
+    def __len__(self) -> int:
+        """Get number of requests in queue."""
+        return super().__len__()
+
+    def __iter__(self) -> Iterator[Request]:
+        """Iterate over the queue according to FCFS policy."""
+        return super().__iter__()
+
+    def __reversed__(self) -> Iterator[Request]:
+        """Iterate over the queue in reverse order."""
+        return super().__reversed__()
+
+
+class PriorityRequestQueue(RequestQueue):
+    """
+    A priority queue that supports heap operations.
+
+    Requests with a smaller value of `priority` are processed first.
+    If multiple requests have the same priority, the one with the earlier
+    `arrival_time` is processed first.
+    """
+
+    def __init__(self) -> None:
+        self._heap: list[tuple[int, float, Request]] = []
+
+    def add_request(self, request: Request) -> None:
+        """Add a request to the queue according to priority policy."""
+        heapq.heappush(self._heap, (request.priority, request.arrival_time, request))
+
+    def pop_request(self) -> Request:
+        """Pop a request from the queue according to priority policy."""
+        if not self._heap:
+            raise IndexError("pop from empty heap")
+        _, _, request = heapq.heappop(self._heap)
+        return request
+
+    def peek_request(self) -> Request:
+        """Peek at the next request in the queue without removing it."""
+        if not self._heap:
+            raise IndexError("peek from empty heap")
+        _, _, request = self._heap[0]
+        return request
+
+    def prepend_request(self, request: Request) -> None:
+        """Add a request to the queue according to priority policy.
+
+        Note: In a priority queue, there is no concept of prepending to the
+        front. Requests are ordered by (priority, arrival_time)."""
+        self.add_request(request)
+
+    def prepend_requests(self, requests: RequestQueue) -> None:
+        """Add all requests from another queue according to priority policy.
+
+        Note: In a priority queue, there is no concept of prepending to the
+        front. Requests are ordered by (priority, arrival_time)."""
+        for request in requests:
+            self.add_request(request)
+
+    def remove_request(self, request: Request) -> None:
+        """Remove a specific request from the queue."""
+        self._heap = [(p, t, r) for p, t, r in self._heap if r != request]
+        heapq.heapify(self._heap)
+
+    def remove_requests(self, requests: Iterable[Request]) -> None:
+        """Remove multiple specific requests from the queue."""
+        requests_to_remove = set(requests)
+        self._heap = [
+            (p, t, r) for p, t, r in self._heap if r not in requests_to_remove
+        ]
+        heapq.heapify(self._heap)
+
+    def __bool__(self) -> bool:
+        """Check if queue has any requests."""
+        return bool(self._heap)
+
+    def __len__(self) -> int:
+        """Get number of requests in queue."""
+        return len(self._heap)
+
+    def __iter__(self) -> Iterator[Request]:
+        """Iterate over the queue according to priority policy."""
+        heap_copy = self._heap[:]
+        while heap_copy:
+            _, _, request = heapq.heappop(heap_copy)
+            yield request
+
+    def __reversed__(self) -> Iterator[Request]:
+        """Iterate over the queue in reverse priority order."""
+        return reversed(list(self))
+
+
+def create_request_queue(policy: SchedulingPolicy) -> RequestQueue:
+    """Create request queue based on scheduling policy."""
+    if policy == SchedulingPolicy.PRIORITY:
+        return PriorityRequestQueue()
+    elif policy == SchedulingPolicy.FCFS:
+        return FCFSRequestQueue()
+    else:
+        raise ValueError(f"Unknown scheduling policy: {policy}")
diff --git a/v1/core/sched/scheduler.py b/v1/core/sched/scheduler.py
new file mode 100644
index 0000000..4323141
--- /dev/null
+++ b/v1/core/sched/scheduler.py
@@ -0,0 +1,1617 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import itertools
+import time
+from collections import defaultdict
+from collections.abc import Iterable
+from typing import Any
+
+from vllm.config import VllmConfig
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorMetadata,
+    ECConnectorRole,
+)
+from vllm.distributed.ec_transfer.ec_connector.factory import ECConnectorFactory
+from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+    SupportsHMA,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
+from vllm.logger import init_logger
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.v1.core.encoder_cache_manager import (
+    EncoderCacheManager,
+    compute_encoder_budget,
+)
+from vllm.v1.core.kv_cache_manager import KVCacheBlocks, KVCacheManager
+from vllm.v1.core.sched.interface import SchedulerInterface
+from vllm.v1.core.sched.output import (
+    CachedRequestData,
+    GrammarOutput,
+    NewRequestData,
+    SchedulerOutput,
+)
+from vllm.v1.core.sched.request_queue import SchedulingPolicy, create_request_queue
+from vllm.v1.core.sched.utils import check_stop, remove_all
+from vllm.v1.engine import EngineCoreEventType, EngineCoreOutput, EngineCoreOutputs
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.metrics.stats import PrefixCacheStats, SchedulerStats
+from vllm.v1.outputs import DraftTokenIds, KVConnectorOutput, ModelRunnerOutput
+from vllm.v1.request import Request, RequestStatus
+from vllm.v1.spec_decode.metrics import SpecDecodingStats
+from vllm.v1.structured_output import StructuredOutputManager
+from vllm.v1.utils import record_function_or_nullcontext
+
+logger = init_logger(__name__)
+
+
+class Scheduler(SchedulerInterface):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        kv_cache_config: KVCacheConfig,
+        structured_output_manager: StructuredOutputManager,
+        block_size: int,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        include_finished_set: bool = False,
+        log_stats: bool = False,
+    ) -> None:
+        self.vllm_config = vllm_config
+        self.scheduler_config = vllm_config.scheduler_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.kv_cache_config = kv_cache_config
+        self.kv_events_config = vllm_config.kv_events_config
+        self.parallel_config = vllm_config.parallel_config
+        self.log_stats = log_stats
+        self.structured_output_manager = structured_output_manager
+        self.is_encoder_decoder = vllm_config.model_config.is_encoder_decoder
+
+        # include_finished_set controls whether a separate set of finished
+        # request ids should be included in the EngineCoreOutputs returned
+        # by update_from_outputs(). This is currently used in the multi-engine
+        # case to track request lifetimes efficiently.
+        self.finished_req_ids_dict: dict[int, set[str]] | None = (
+            defaultdict(set) if include_finished_set else None
+        )
+        self.prev_step_scheduled_req_ids: set[str] = set()
+
+        # Scheduling constraints.
+        self.max_num_running_reqs = self.scheduler_config.max_num_seqs
+        self.max_num_scheduled_tokens = self.scheduler_config.max_num_batched_tokens
+        self.max_model_len = vllm_config.model_config.max_model_len
+        self.enable_kv_cache_events = (
+            self.kv_events_config is not None
+            and self.kv_events_config.enable_kv_cache_events
+        )
+
+        # Create KVConnector for the Scheduler. Note that each Worker
+        # will have a corresponding KVConnector with Role=WORKER.
+        # KV Connector pushes/pull of remote KVs for P/D and offloading.
+        self.connector = None
+        self.connector_prefix_cache_stats: PrefixCacheStats | None = None
+        if self.vllm_config.kv_transfer_config is not None:
+            assert not self.is_encoder_decoder, (
+                "Encoder-decoder models are not currently supported with KV connectors"
+            )
+            self.connector = KVConnectorFactory.create_connector(
+                config=self.vllm_config,
+                role=KVConnectorRole.SCHEDULER,
+                kv_cache_config=self.kv_cache_config,
+            )
+            if self.log_stats:
+                self.connector_prefix_cache_stats = PrefixCacheStats()
+
+        self.kv_event_publisher = EventPublisherFactory.create(
+            self.kv_events_config,
+            self.parallel_config.data_parallel_rank,
+        )
+        self.ec_connector = None
+        if self.vllm_config.ec_transfer_config is not None:
+            self.ec_connector = ECConnectorFactory.create_connector(
+                config=self.vllm_config, role=ECConnectorRole.SCHEDULER
+            )
+
+        num_gpu_blocks = self.cache_config.num_gpu_blocks
+        assert num_gpu_blocks is not None and num_gpu_blocks > 0
+
+        self.block_size = block_size
+        self.dcp_world_size = vllm_config.parallel_config.decode_context_parallel_size
+
+        # req_id -> Request
+        self.requests: dict[str, Request] = {}
+        # Scheduling policy
+        try:
+            self.policy = SchedulingPolicy(self.scheduler_config.policy)
+        except ValueError as e:
+            raise ValueError(
+                f"Unknown scheduling policy: {self.scheduler_config.policy}"
+            ) from e
+        # Priority queues for requests.
+        self.waiting = create_request_queue(self.policy)
+        self.running: list[Request] = []
+
+        # The request IDs that are finished in between the previous and the
+        # current steps. This is used to notify the workers about the finished
+        # requests so that they can free the cached states for those requests.
+        # This is flushed at the end of each scheduling step.
+        self.finished_req_ids: set[str] = set()
+
+        # KV Connector: requests in process of async KV loading or recving
+        self.finished_recving_kv_req_ids: set[str] = set()
+        self.failed_recving_kv_req_ids: set[str] = set()
+
+        # Encoder-related.
+        # Calculate encoder cache size if applicable
+        # NOTE: For now we use the same budget for both compute and space.
+        # This can be changed when we make encoder cache for embedding caching
+        # across requests.
+        encoder_compute_budget, encoder_cache_size = compute_encoder_budget(
+            model_config=vllm_config.model_config,
+            scheduler_config=vllm_config.scheduler_config,
+            mm_registry=mm_registry,
+        )
+
+        # NOTE(woosuk): Here, "encoder" includes the vision encoder (and
+        # projector if needed) for MM models as well as encoder-decoder
+        # transformers.
+        self.max_num_encoder_input_tokens = encoder_compute_budget
+        # NOTE: For the models without encoder (e.g., text-only models),
+        # the encoder cache will not be initialized because cache size is 0
+        # for these models.
+        self.encoder_cache_manager = EncoderCacheManager(cache_size=encoder_cache_size)
+
+        speculative_config = vllm_config.speculative_config
+        self.use_eagle = False
+        self.num_spec_tokens = self.num_lookahead_tokens = 0
+        if speculative_config:
+            self.num_spec_tokens = speculative_config.num_speculative_tokens
+            if speculative_config.use_eagle():
+                self.use_eagle = True
+                self.num_lookahead_tokens = self.num_spec_tokens
+
+        # Create the KV cache manager.
+        self.kv_cache_manager = KVCacheManager(
+            kv_cache_config=kv_cache_config,
+            max_model_len=self.max_model_len,
+            enable_caching=bool(self.cache_config.enable_prefix_caching),
+            use_eagle=self.use_eagle,
+            log_stats=self.log_stats,
+            enable_kv_cache_events=self.enable_kv_cache_events,
+            dcp_world_size=self.dcp_world_size,
+        )
+        self.use_pp = self.parallel_config.pipeline_parallel_size > 1
+
+    def schedule(self) -> SchedulerOutput:
+        # NOTE(woosuk) on the scheduling algorithm:
+        # There's no "decoding phase" nor "prefill phase" in the scheduler.
+        # Each request just has the num_computed_tokens and
+        # num_tokens_with_spec. num_tokens_with_spec =
+        # len(prompt_token_ids) + len(output_token_ids) + len(spec_token_ids).
+        # At each step, the scheduler tries to assign tokens to the requests
+        # so that each request's num_computed_tokens can catch up its
+        # num_tokens_with_spec. This is general enough to cover
+        # chunked prefills, prefix caching, speculative decoding,
+        # and the "jump decoding" optimization in the future.
+
+        scheduled_new_reqs: list[Request] = []
+        scheduled_resumed_reqs: list[Request] = []
+        scheduled_running_reqs: list[Request] = []
+        preempted_reqs: list[Request] = []
+
+        req_to_new_blocks: dict[str, KVCacheBlocks] = {}
+        num_scheduled_tokens: dict[str, int] = {}
+        token_budget = self.max_num_scheduled_tokens
+        # Encoder-related.
+        scheduled_encoder_inputs: dict[str, list[int]] = {}
+        encoder_compute_budget = self.max_num_encoder_input_tokens
+        # Spec decode-related.
+        scheduled_spec_decode_tokens: dict[str, list[int]] = {}
+
+        # For logging.
+        scheduled_timestamp = time.monotonic()
+
+        # First, schedule the RUNNING requests.
+        req_index = 0
+        while req_index < len(self.running) and token_budget > 0:
+            request = self.running[req_index]
+
+            num_new_tokens = (
+                request.num_tokens_with_spec
+                + request.num_output_placeholders
+                - request.num_computed_tokens
+            )
+            if 0 < self.scheduler_config.long_prefill_token_threshold < num_new_tokens:
+                num_new_tokens = self.scheduler_config.long_prefill_token_threshold
+            num_new_tokens = min(num_new_tokens, token_budget)
+
+            # Make sure the input position does not exceed the max model len or
+            # request's max_tokens.
+            # This is necessary when using spec decoding and/or async scheduling.
+            max_total_tokens = min(
+                request.num_prompt_tokens + request.max_tokens, self.max_model_len
+            )
+            num_new_tokens = min(
+                num_new_tokens, max_total_tokens - 1 - request.num_computed_tokens
+            )
+
+            # Schedule encoder inputs.
+            encoder_inputs_to_schedule = None
+            external_load_encoder_input: list[int] = []
+            new_encoder_compute_budget = encoder_compute_budget
+            if request.has_encoder_inputs:
+                (
+                    encoder_inputs_to_schedule,
+                    num_new_tokens,
+                    new_encoder_compute_budget,
+                    external_load_encoder_input,
+                ) = self._try_schedule_encoder_inputs(
+                    request,
+                    request.num_computed_tokens,
+                    num_new_tokens,
+                    encoder_compute_budget,
+                )
+
+            if num_new_tokens == 0:
+                # The request cannot be scheduled because one of the following
+                # reasons:
+                # 1. No new tokens to schedule. This may happen when
+                #    (1) PP>1 and we have already scheduled all prompt tokens
+                #    but they are not finished yet.
+                #    (2) Async scheduling and the request has reached to either
+                #    its max_total_tokens or max_model_len.
+                # 2. The encoder budget is exhausted.
+                # 3. The encoder cache is exhausted.
+                # NOTE(woosuk): Here, by doing `continue` instead of `break`,
+                # we do not strictly follow the FCFS scheduling policy and
+                # allow the lower-priority requests to be scheduled.
+                req_index += 1
+                continue
+
+            # Schedule newly needed KV blocks for the request.
+            with record_function_or_nullcontext("schedule: allocate_slots"):
+                while True:
+                    new_blocks = self.kv_cache_manager.allocate_slots(
+                        request,
+                        num_new_tokens,
+                        num_lookahead_tokens=self.num_lookahead_tokens,
+                    )
+
+                    if new_blocks is not None:
+                        # The request can be scheduled.
+                        break
+
+                    # The request cannot be scheduled.
+                    # Preempt the lowest-priority request.
+                    if self.policy == SchedulingPolicy.PRIORITY:
+                        preempted_req = max(
+                            self.running,
+                            key=lambda r: (r.priority, r.arrival_time),
+                        )
+                        self.running.remove(preempted_req)
+                        if preempted_req in scheduled_running_reqs:
+                            scheduled_running_reqs.remove(preempted_req)
+                            token_budget += num_scheduled_tokens[
+                                preempted_req.request_id
+                            ]
+                            req_to_new_blocks.pop(preempted_req.request_id)
+                            num_scheduled_tokens.pop(preempted_req.request_id)
+                            scheduled_spec_decode_tokens.pop(
+                                preempted_req.request_id, None
+                            )
+                            preempted_encoder_inputs = scheduled_encoder_inputs.pop(
+                                preempted_req.request_id, None
+                            )
+                            if preempted_encoder_inputs:
+                                # Restore encoder compute budget if the preempted
+                                # request had encoder inputs scheduled in this step.
+                                num_tokens_to_restore = sum(
+                                    preempted_req.get_num_encoder_tokens(i)
+                                    for i in preempted_encoder_inputs
+                                )
+                                encoder_compute_budget += num_tokens_to_restore
+                            req_index -= 1
+                    else:
+                        preempted_req = self.running.pop()
+
+                    self.kv_cache_manager.free(preempted_req)
+                    self.encoder_cache_manager.free(preempted_req)
+                    preempted_req.status = RequestStatus.PREEMPTED
+                    preempted_req.num_computed_tokens = 0
+                    preempted_req.num_preemptions += 1
+                    if self.log_stats:
+                        preempted_req.record_event(
+                            EngineCoreEventType.PREEMPTED, scheduled_timestamp
+                        )
+
+                    self.waiting.prepend_request(preempted_req)
+                    preempted_reqs.append(preempted_req)
+                    if preempted_req == request:
+                        # No more request to preempt. Cannot schedule this request.
+                        break
+
+            if new_blocks is None:
+                # Cannot schedule this request.
+                break
+
+            # Schedule the request.
+            scheduled_running_reqs.append(request)
+            req_to_new_blocks[request.request_id] = new_blocks
+            num_scheduled_tokens[request.request_id] = num_new_tokens
+            token_budget -= num_new_tokens
+            req_index += 1
+
+            # Speculative decode related.
+            if request.spec_token_ids:
+                num_scheduled_spec_tokens = (
+                    num_new_tokens
+                    + request.num_computed_tokens
+                    - request.num_tokens
+                    - request.num_output_placeholders
+                )
+                if num_scheduled_spec_tokens > 0:
+                    # Trim spec_token_ids list to num_scheduled_spec_tokens.
+                    del request.spec_token_ids[num_scheduled_spec_tokens:]
+                    scheduled_spec_decode_tokens[request.request_id] = (
+                        request.spec_token_ids
+                    )
+                # New spec tokens will be set in `update_draft_token_ids` before the
+                # next step when applicable.
+                request.spec_token_ids = []
+
+            # Encoder-related.
+            if encoder_inputs_to_schedule:
+                scheduled_encoder_inputs[request.request_id] = (
+                    encoder_inputs_to_schedule
+                )
+                # Allocate the encoder cache.
+                for i in encoder_inputs_to_schedule:
+                    self.encoder_cache_manager.allocate(request, i)
+                encoder_compute_budget = new_encoder_compute_budget
+            if external_load_encoder_input:
+                for i in external_load_encoder_input:
+                    self.encoder_cache_manager.allocate(request, i)
+                    if self.ec_connector is not None:
+                        self.ec_connector.update_state_after_alloc(request, i)
+
+        # Record the LoRAs in scheduled_running_reqs
+        scheduled_loras: set[int] = set()
+        if self.lora_config:
+            scheduled_loras = set(
+                req.lora_request.lora_int_id
+                for req in scheduled_running_reqs
+                if req.lora_request and req.lora_request.lora_int_id > 0
+            )
+            assert len(scheduled_loras) <= self.lora_config.max_loras
+
+        # Use a temporary RequestQueue to collect requests that need to be
+        # skipped and put back at the head of the waiting queue later
+        skipped_waiting_requests = create_request_queue(self.policy)
+
+        # Next, schedule the WAITING requests.
+        if not preempted_reqs:
+            while self.waiting and token_budget > 0:
+                if len(self.running) == self.max_num_running_reqs:
+                    break
+
+                request = self.waiting.peek_request()
+
+                # KVTransfer: skip request if still waiting for remote kvs.
+                if request.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
+                    is_ready = self._update_waiting_for_remote_kv(request)
+                    if is_ready:
+                        request.status = RequestStatus.WAITING
+                    else:
+                        logger.debug(
+                            "%s is still in WAITING_FOR_REMOTE_KVS state.",
+                            request.request_id,
+                        )
+                        self.waiting.pop_request()
+                        skipped_waiting_requests.prepend_request(request)
+                        continue
+
+                # Skip request if the structured output request is still waiting
+                # for FSM compilation.
+                if request.status == RequestStatus.WAITING_FOR_FSM:
+                    structured_output_req = request.structured_output_request
+                    if structured_output_req and structured_output_req.grammar:
+                        request.status = RequestStatus.WAITING
+                    else:
+                        self.waiting.pop_request()
+                        skipped_waiting_requests.prepend_request(request)
+                        continue
+
+                # Check that adding the request still respects the max_loras
+                # constraint.
+                if (
+                    self.lora_config
+                    and request.lora_request
+                    and (
+                        len(scheduled_loras) == self.lora_config.max_loras
+                        and request.lora_request.lora_int_id not in scheduled_loras
+                    )
+                ):
+                    # Scheduling would exceed max_loras, skip.
+                    self.waiting.pop_request()
+                    skipped_waiting_requests.prepend_request(request)
+                    continue
+
+                num_external_computed_tokens = 0
+                load_kv_async = False
+
+                # Get already-cached tokens.
+                if request.num_computed_tokens == 0:
+                    # Get locally-cached tokens.
+                    new_computed_blocks, num_new_local_computed_tokens = (
+                        self.kv_cache_manager.get_computed_blocks(request)
+                    )
+
+                    # Get externally-cached tokens if using a KVConnector.
+                    if self.connector is not None:
+                        ext_tokens, load_kv_async = (
+                            self.connector.get_num_new_matched_tokens(
+                                request, num_new_local_computed_tokens
+                            )
+                        )
+
+                        if ext_tokens is None:
+                            # The request cannot be scheduled because
+                            # the KVConnector couldn't determine
+                            # the number of matched tokens.
+                            self.waiting.pop_request()
+                            skipped_waiting_requests.prepend_request(request)
+                            continue
+
+                        num_external_computed_tokens = ext_tokens
+
+                    # Total computed tokens (local + external).
+                    num_computed_tokens = (
+                        num_new_local_computed_tokens + num_external_computed_tokens
+                    )
+                else:
+                    # KVTransfer: WAITING reqs have num_computed_tokens > 0
+                    # after async KV recvs are completed.
+                    new_computed_blocks = self.kv_cache_manager.empty_kv_cache_blocks
+                    num_new_local_computed_tokens = 0
+                    num_computed_tokens = request.num_computed_tokens
+
+                encoder_inputs_to_schedule = None
+                external_load_encoder_input = []
+                new_encoder_compute_budget = encoder_compute_budget
+
+                if load_kv_async:
+                    # KVTransfer: loading remote KV, do not allocate for new work.
+                    assert num_external_computed_tokens > 0
+                    num_new_tokens = 0
+                else:
+                    # Number of tokens to be scheduled.
+                    # We use `request.num_tokens` instead of
+                    # `request.num_prompt_tokens` to consider the resumed
+                    # requests, which have output tokens.
+                    num_new_tokens = request.num_tokens - num_computed_tokens
+                    threshold = self.scheduler_config.long_prefill_token_threshold
+                    if 0 < threshold < num_new_tokens:
+                        num_new_tokens = threshold
+
+                    # chunked prefill has to be enabled explicitly to allow
+                    # pooling requests to be chunked
+                    if (
+                        not self.scheduler_config.enable_chunked_prefill
+                        and num_new_tokens > token_budget
+                    ):
+                        self.waiting.pop_request()
+                        skipped_waiting_requests.prepend_request(request)
+                        continue
+
+                    num_new_tokens = min(num_new_tokens, token_budget)
+                    assert num_new_tokens > 0
+
+                    # Schedule encoder inputs.
+                    if request.has_encoder_inputs:
+                        (
+                            encoder_inputs_to_schedule,
+                            num_new_tokens,
+                            new_encoder_compute_budget,
+                            external_load_encoder_input,
+                        ) = self._try_schedule_encoder_inputs(
+                            request,
+                            num_computed_tokens,
+                            num_new_tokens,
+                            encoder_compute_budget,
+                        )
+                        if num_new_tokens == 0:
+                            # The request cannot be scheduled.
+                            break
+
+                # Handles an edge case when P/D Disaggregation
+                # is used with Spec Decoding where an
+                # extra block gets allocated which
+                # creates a mismatch between the number
+                # of local and remote blocks.
+                effective_lookahead_tokens = (
+                    0 if request.num_computed_tokens == 0 else self.num_lookahead_tokens
+                )
+
+                # Determine if we need to allocate cross-attention blocks.
+                if self.is_encoder_decoder and request.has_encoder_inputs:
+                    # TODO(russellb): For Whisper, we know that the input is
+                    # always padded to the maximum length. If we support other
+                    # encoder-decoder models, this will need to be updated if we
+                    # want to only allocate what is needed.
+                    num_encoder_tokens = (
+                        self.scheduler_config.max_num_encoder_input_tokens
+                    )
+                else:
+                    num_encoder_tokens = 0
+
+                new_blocks = self.kv_cache_manager.allocate_slots(
+                    request,
+                    num_new_tokens + num_external_computed_tokens,
+                    num_new_local_computed_tokens,
+                    new_computed_blocks,
+                    num_lookahead_tokens=effective_lookahead_tokens,
+                    delay_cache_blocks=load_kv_async,
+                    num_encoder_tokens=num_encoder_tokens,
+                )
+
+                if new_blocks is None:
+                    # The request cannot be scheduled.
+                    break
+
+                # KVTransfer: the connector uses this info to determine
+                # if a load is needed. Note that
+                # This information is used to determine if a load is
+                # needed for this request.
+                if self.connector is not None:
+                    self.connector.update_state_after_alloc(
+                        request,
+                        new_computed_blocks + new_blocks,
+                        num_external_computed_tokens,
+                    )
+                    self._update_connector_prefix_cache_stats(
+                        request, num_external_computed_tokens
+                    )
+
+                # Request was already popped from self.waiting
+                # unless it was re-added above due to new_blocks being None.
+                request = self.waiting.pop_request()
+                if load_kv_async:
+                    # If loading async, allocate memory and put request
+                    # into the WAITING_FOR_REMOTE_KV state.
+                    skipped_waiting_requests.prepend_request(request)
+                    request.status = RequestStatus.WAITING_FOR_REMOTE_KVS
+                    continue
+
+                req_index += 1
+                self.running.append(request)
+                if self.log_stats:
+                    request.record_event(
+                        EngineCoreEventType.SCHEDULED, scheduled_timestamp
+                    )
+                if request.status == RequestStatus.WAITING:
+                    scheduled_new_reqs.append(request)
+                elif request.status == RequestStatus.PREEMPTED:
+                    scheduled_resumed_reqs.append(request)
+                else:
+                    raise RuntimeError(f"Invalid request status: {request.status}")
+
+                if self.lora_config and request.lora_request:
+                    scheduled_loras.add(request.lora_request.lora_int_id)
+                req_to_new_blocks[request.request_id] = (
+                    self.kv_cache_manager.get_blocks(request.request_id)
+                )
+                num_scheduled_tokens[request.request_id] = num_new_tokens
+                token_budget -= num_new_tokens
+                request.status = RequestStatus.RUNNING
+                request.num_computed_tokens = num_computed_tokens
+                # Count the number of prefix cached tokens.
+                if request.num_cached_tokens < 0:
+                    request.num_cached_tokens = num_computed_tokens
+                # Encoder-related.
+                if encoder_inputs_to_schedule:
+                    scheduled_encoder_inputs[request.request_id] = (
+                        encoder_inputs_to_schedule
+                    )
+                    # Allocate the encoder cache.
+                    for i in encoder_inputs_to_schedule:
+                        self.encoder_cache_manager.allocate(request, i)
+                    encoder_compute_budget = new_encoder_compute_budget
+                # Allocate for external load encoder cache
+                if external_load_encoder_input:
+                    for i in external_load_encoder_input:
+                        self.encoder_cache_manager.allocate(request, i)
+                        if self.ec_connector is not None:
+                            self.ec_connector.update_state_after_alloc(request, i)
+        # Put back any skipped requests at the head of the waiting queue
+        if skipped_waiting_requests:
+            self.waiting.prepend_requests(skipped_waiting_requests)
+
+        # Check if the scheduling constraints are satisfied.
+        total_num_scheduled_tokens = sum(num_scheduled_tokens.values())
+        assert total_num_scheduled_tokens <= self.max_num_scheduled_tokens
+
+        assert token_budget >= 0
+        assert len(self.running) <= self.max_num_running_reqs
+        # Since some requests in the RUNNING queue may not be scheduled in
+        # this step, the total number of scheduled requests can be smaller than
+        # len(self.running).
+        assert len(scheduled_new_reqs) + len(scheduled_resumed_reqs) + len(
+            scheduled_running_reqs
+        ) <= len(self.running)
+
+        # Get the longest common prefix among all requests in the running queue.
+        # This can be potentially used for cascade attention.
+        num_common_prefix_blocks = [0] * len(self.kv_cache_config.kv_cache_groups)
+        with record_function_or_nullcontext("schedule: get_num_common_prefix_blocks"):
+            if self.running:
+                any_request = self.running[0]
+                num_common_prefix_blocks = (
+                    self.kv_cache_manager.get_num_common_prefix_blocks(
+                        any_request.request_id
+                    )
+                )
+
+        # Construct the scheduler output.
+        new_reqs_data = [
+            NewRequestData.from_request(
+                req, req_to_new_blocks[req.request_id].get_block_ids()
+            )
+            for req in scheduled_new_reqs
+        ]
+        with record_function_or_nullcontext("schedule: make_cached_request_data"):
+            cached_reqs_data = self._make_cached_request_data(
+                scheduled_running_reqs,
+                scheduled_resumed_reqs,
+                num_scheduled_tokens,
+                scheduled_spec_decode_tokens,
+                req_to_new_blocks,
+            )
+
+        # Record the request ids that were scheduled in this step.
+        self.prev_step_scheduled_req_ids.clear()
+        self.prev_step_scheduled_req_ids.update(num_scheduled_tokens.keys())
+
+        scheduler_output = SchedulerOutput(
+            scheduled_new_reqs=new_reqs_data,
+            scheduled_cached_reqs=cached_reqs_data,
+            num_scheduled_tokens=num_scheduled_tokens,
+            total_num_scheduled_tokens=total_num_scheduled_tokens,
+            scheduled_spec_decode_tokens=scheduled_spec_decode_tokens,
+            scheduled_encoder_inputs=scheduled_encoder_inputs,
+            num_common_prefix_blocks=num_common_prefix_blocks,
+            # finished_req_ids is an existing state in the scheduler,
+            # instead of being newly scheduled in this step.
+            # It contains the request IDs that are finished in between
+            # the previous and the current steps.
+            finished_req_ids=self.finished_req_ids,
+            free_encoder_mm_hashes=self.encoder_cache_manager.get_freed_mm_hashes(),
+        )
+
+        # NOTE(Kuntai): this function is designed for multiple purposes:
+        # 1. Plan the KV cache store
+        # 2. Wrap up all the KV cache load / save ops into an opaque object
+        # 3. Clear the internal states of the connector
+        if self.connector is not None:
+            meta: KVConnectorMetadata = self.connector.build_connector_meta(
+                scheduler_output
+            )
+            scheduler_output.kv_connector_metadata = meta
+
+        # Build the connector meta for ECConnector
+        if self.ec_connector is not None:
+            ec_meta: ECConnectorMetadata = self.ec_connector.build_connector_meta(
+                scheduler_output
+            )
+            scheduler_output.ec_connector_metadata = ec_meta
+
+        with record_function_or_nullcontext("schedule: update_after_schedule"):
+            self._update_after_schedule(scheduler_output)
+        return scheduler_output
+
+    def _update_after_schedule(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> None:
+        # Advance the number of computed tokens for the request AFTER
+        # the request is scheduled.
+        # 1. The scheduler_output of the current step has to include the
+        #    original number of scheduled tokens to determine input IDs.
+        # 2. Advance the number of computed tokens here allowing us to
+        #    schedule the prefill request again immediately in the next
+        #    scheduling step.
+        # 3. If some tokens (e.g. spec tokens) are rejected later, the number of
+        #    computed tokens will be adjusted in update_from_output.
+        num_scheduled_tokens = scheduler_output.num_scheduled_tokens
+        for req_id, num_scheduled_token in num_scheduled_tokens.items():
+            request = self.requests[req_id]
+            request.num_computed_tokens += num_scheduled_token
+
+            # NOTE: _free_encoder_inputs relies on num_computed_tokens, which
+            # may be updated again in _update_from_output for speculative
+            # decoding. However, it is safe to call the method here because
+            # encoder inputs are always part of the prompt, not the output,
+            # and thus are unaffected by speculative decoding.
+            if request.has_encoder_inputs:
+                self._free_encoder_inputs(request)
+
+        # Clear the finished request IDs.
+        # NOTE: We shouldn't do self.finished_req_ids.clear() here because
+        # it will also affect the scheduler output.
+        self.finished_req_ids = set()
+
+    def _make_cached_request_data(
+        self,
+        running_reqs: list[Request],
+        resumed_reqs: list[Request],
+        num_scheduled_tokens: dict[str, int],
+        spec_decode_tokens: dict[str, list[int]],
+        req_to_new_blocks: dict[str, KVCacheBlocks],
+    ) -> CachedRequestData:
+        req_ids: list[str] = []
+        new_token_ids: list[list[int]] = []
+        new_block_ids: list[tuple[list[int], ...] | None] = []
+        all_token_ids: dict[str, list[int]] = {}
+        num_computed_tokens: list[int] = []
+        num_output_tokens: list[int] = []
+        resumed_req_ids = set()
+
+        num_running_reqs = len(running_reqs)
+        for idx, req in enumerate(itertools.chain(running_reqs, resumed_reqs)):
+            req_id = req.request_id
+            req_ids.append(req_id)
+            num_tokens = num_scheduled_tokens[req_id] - len(
+                spec_decode_tokens.get(req_id, ())
+            )
+            if self.use_pp:
+                # When using PP, the scheduler sends the sampled tokens back,
+                # because there's no direct communication between the first-
+                # stage worker and the last-stage worker. Otherwise, we don't
+                # need to send the sampled tokens back because the model runner
+                # will cache them.
+                token_ids = req.all_token_ids[
+                    req.num_computed_tokens : req.num_computed_tokens + num_tokens
+                ]
+                new_token_ids.append(token_ids)
+            scheduled_in_prev_step = req_id in self.prev_step_scheduled_req_ids
+            if idx >= num_running_reqs:
+                assert not scheduled_in_prev_step
+                resumed_req_ids.add(req_id)
+            if not scheduled_in_prev_step:
+                all_token_ids[req_id] = req.all_token_ids.copy()
+            new_block_ids.append(
+                req_to_new_blocks[req_id].get_block_ids(allow_none=True)
+            )
+            num_computed_tokens.append(req.num_computed_tokens)
+            num_output_tokens.append(
+                req.num_output_tokens + req.num_output_placeholders
+            )
+
+        return CachedRequestData(
+            req_ids=req_ids,
+            resumed_req_ids=resumed_req_ids,
+            new_token_ids=new_token_ids,
+            all_token_ids=all_token_ids,
+            new_block_ids=new_block_ids,
+            num_computed_tokens=num_computed_tokens,
+            num_output_tokens=num_output_tokens,
+        )
+
+    def _try_schedule_encoder_inputs(
+        self,
+        request: Request,
+        num_computed_tokens: int,
+        num_new_tokens: int,
+        encoder_compute_budget: int,
+    ) -> tuple[list[int], int, int, list[int]]:
+        """
+        Determine which encoder inputs need to be scheduled in the current step,
+        and update `num_new_tokens` and encoder token budget accordingly.
+
+        An encoder input will be scheduled if:
+        - Its output tokens overlap with the range of tokens being computed
+        in this step, i.e.,
+        [num_computed_tokens, num_computed_tokens + num_new_tokens).
+        - It is not already computed and stored in the encoder cache.
+        - It is not exist on remote encoder cache (via ECConnector)
+        - There is sufficient encoder token budget to process it.
+        - The encoder cache has space to store it.
+
+        If an encoder input cannot be scheduled due to cache or budget
+        limitations, the method adjusts `num_new_tokens` to schedule only the
+        decoder tokens up to just before the unschedulable encoder input.
+
+        Note that num_computed_tokens includes both locally cached
+        blocks and externally cached blocks (via KVConnector).
+        """
+        if num_new_tokens == 0 or not request.has_encoder_inputs:
+            return [], num_new_tokens, encoder_compute_budget, []
+        encoder_inputs_to_schedule: list[int] = []
+        mm_features = request.mm_features
+        assert mm_features is not None
+        assert len(mm_features) > 0
+        external_load_encoder_input = []
+
+        # Check remote cache first
+        if self.ec_connector is not None:
+            remote_cache_has_item = self.ec_connector.has_caches(request)
+        # NOTE: since scheduler operates on the request level (possibly with
+        # multiple encoder inputs per request), we need to create temporary
+        # trackers for accounting at the encoder input level.
+        mm_hashes_to_schedule = set()
+        num_tokens_to_schedule = 0
+        for i, mm_feature in enumerate(mm_features):
+            start_pos = mm_feature.mm_position.offset
+            num_encoder_tokens = mm_feature.mm_position.length
+
+            # The encoder output is needed if the two ranges overlap:
+            # [num_computed_tokens, num_computed_tokens + num_new_tokens) and
+            # [start_pos, start_pos + num_encoder_tokens)
+            if start_pos >= num_computed_tokens + num_new_tokens:
+                # The encoder input is not needed in this step.
+                break
+
+            if self.is_encoder_decoder and num_computed_tokens > 0:
+                assert start_pos == 0, (
+                    "Encoder input should be processed at the beginning of "
+                    "the sequence when encoder-decoder models are used."
+                )
+                # Encoder input has already been computed
+                # The calculation here is a bit different. We don't turn encoder
+                # output into tokens that get processed by the decoder and
+                # reflected in num_computed_tokens. Instead, start_pos reflects
+                # the position where we need to ensure we calculate encoder
+                # inputs. This should always be 0 to ensure we calculate encoder
+                # inputs before running the decoder.  Once we've calculated some
+                # decoder tokens (num_computed_tokens > 0), then we know we
+                # already calculated encoder inputs and can skip here.
+                continue
+            elif start_pos + num_encoder_tokens <= num_computed_tokens:
+                # The encoder input is already computed and stored
+                # in the decoder's KV cache.
+                continue
+
+            if not self.is_encoder_decoder:
+                # We are not using the encoder cache for encoder-decoder models,
+                # yet.
+                if request.mm_features[i].identifier in mm_hashes_to_schedule:
+                    # The same encoder input has already been scheduled in the
+                    # current step.
+                    continue
+
+                if self.encoder_cache_manager.check_and_update_cache(request, i):
+                    # The encoder input is already computed and cached from a
+                    # previous step.
+                    continue
+
+            # If no encoder input chunking is allowed, we do not want to
+            # partially schedule a multimodal item. If the scheduled range would
+            # only cover part of the mm input, roll back to before the mm item.
+            if (
+                self.scheduler_config.disable_chunked_mm_input
+                and num_computed_tokens < start_pos
+                and (num_computed_tokens + num_new_tokens)
+                < (start_pos + num_encoder_tokens)
+            ):
+                num_new_tokens = start_pos - num_computed_tokens
+                break
+
+            if not self.encoder_cache_manager.can_allocate(
+                request, i, encoder_compute_budget, num_tokens_to_schedule
+            ):
+                # The encoder cache is full or the encoder budget is exhausted.
+                # NOTE(woosuk): We assume that the encoder input tokens should
+                # be processed altogether, as the encoder usually uses
+                # bidirectional attention.
+                if num_computed_tokens < start_pos:
+                    # We only schedule the decoder tokens just before the
+                    # encoder input.
+                    num_new_tokens = start_pos - num_computed_tokens
+                else:
+                    # Because of prefix caching, num_computed_tokens is greater
+                    # than start_pos even though its encoder input is not
+                    # available. In this case, we can't schedule any token for
+                    # the request in this step.
+                    num_new_tokens = 0
+                break
+
+            if self.ec_connector is not None and remote_cache_has_item[i]:
+                mm_hashes_to_schedule.add(request.mm_features[i].identifier)
+                external_load_encoder_input.append(i)
+                num_tokens_to_schedule += num_encoder_tokens
+                continue
+
+            num_tokens_to_schedule += num_encoder_tokens
+            encoder_compute_budget -= num_encoder_tokens
+            mm_hashes_to_schedule.add(request.mm_features[i].identifier)
+            encoder_inputs_to_schedule.append(i)
+
+        return (
+            encoder_inputs_to_schedule,
+            num_new_tokens,
+            encoder_compute_budget,
+            external_load_encoder_input,
+        )
+
+    def get_grammar_bitmask(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> GrammarOutput | None:
+        # Collect list of scheduled request ids that use structured output.
+        # The corresponding rows of the bitmask will be in this order.
+        # PERF: in case of chunked prefill,
+        # request might not include any new tokens.
+        # Therefore, we might introduce some additional
+        # cycle to fill in the bitmask, which could be a big no-op.
+        structured_output_request_ids = [
+            req_id
+            for req_id in scheduler_output.num_scheduled_tokens
+            if (req := self.requests.get(req_id)) and req.use_structured_output
+        ]
+        if not structured_output_request_ids:
+            return None
+
+        bitmask = self.structured_output_manager.grammar_bitmask(
+            self.requests,
+            structured_output_request_ids,
+            scheduler_output.scheduled_spec_decode_tokens,
+        )
+        return GrammarOutput(structured_output_request_ids, bitmask)
+
+    def update_from_output(
+        self,
+        scheduler_output: SchedulerOutput,
+        model_runner_output: ModelRunnerOutput,
+    ) -> dict[int, EngineCoreOutputs]:
+        sampled_token_ids = model_runner_output.sampled_token_ids
+        logprobs = model_runner_output.logprobs
+        prompt_logprobs_dict = model_runner_output.prompt_logprobs_dict
+        num_scheduled_tokens = scheduler_output.num_scheduled_tokens
+        pooler_outputs = model_runner_output.pooler_output
+        num_nans_in_logits = model_runner_output.num_nans_in_logits
+        kv_connector_output = model_runner_output.kv_connector_output
+
+        outputs: dict[int, list[EngineCoreOutput]] = defaultdict(list)
+        spec_decoding_stats: SpecDecodingStats | None = None
+        kv_connector_stats: KVConnectorStats | None = (
+            kv_connector_output.kv_connector_stats if kv_connector_output else None
+        )
+        if kv_connector_stats and self.connector:
+            kv_stats = self.connector.get_kv_connector_stats()
+            if kv_stats:
+                kv_connector_stats = kv_connector_stats.aggregate(kv_stats)
+
+        failed_kv_load_req_ids = None
+        if kv_connector_output and kv_connector_output.invalid_block_ids:
+            # These blocks contain externally computed tokens that failed to
+            # load. Identify affected requests and adjust their computed token
+            # count to trigger recomputation of the invalid blocks.
+            failed_kv_load_req_ids = self._handle_invalid_blocks(
+                kv_connector_output.invalid_block_ids
+            )
+
+        # NOTE(woosuk): As len(num_scheduled_tokens) can be up to 1K or more,
+        # the below loop can be a performance bottleneck. We should do our best
+        # to avoid expensive operations inside the loop.
+        stopped_running_reqs: set[Request] = set()
+        stopped_preempted_reqs: set[Request] = set()
+        for req_id, num_tokens_scheduled in num_scheduled_tokens.items():
+            assert num_tokens_scheduled > 0
+            if failed_kv_load_req_ids and req_id in failed_kv_load_req_ids:
+                # Skip requests that were recovered from KV load failure
+                continue
+            request = self.requests.get(req_id)
+            if request is None:
+                # The request is already finished. This can happen if the
+                # request is aborted while the model is executing it (e.g.,
+                # in pipeline parallelism).
+                continue
+
+            req_index = model_runner_output.req_id_to_index[req_id]
+            generated_token_ids: list[int] = (
+                sampled_token_ids[req_index].tolist() if sampled_token_ids else []
+            )
+
+            scheduled_spec_token_ids = (
+                scheduler_output.scheduled_spec_decode_tokens.get(req_id)
+            )
+            if scheduled_spec_token_ids:
+                num_draft_tokens = len(scheduled_spec_token_ids)
+                num_accepted = len(generated_token_ids) - 1
+                num_rejected = num_draft_tokens - num_accepted
+                # num_computed_tokens represents the number of tokens
+                # processed in the current step, considering scheduled
+                # tokens and rejections. If some tokens are rejected,
+                # num_computed_tokens is decreased by the number of rejected
+                # tokens.
+                if request.num_computed_tokens > 0:
+                    request.num_computed_tokens -= num_rejected
+                # If async scheduling, num_output_placeholders also includes
+                # the scheduled spec tokens count and so is similarly adjusted.
+                if request.num_output_placeholders > 0:
+                    request.num_output_placeholders -= num_rejected
+                spec_decoding_stats = self.make_spec_decoding_stats(
+                    spec_decoding_stats,
+                    num_draft_tokens=num_draft_tokens,
+                    num_accepted_tokens=num_accepted,
+                )
+
+            stopped = False
+            new_logprobs = None
+            new_token_ids = generated_token_ids
+            kv_transfer_params = None
+            status_before_stop = request.status
+
+            # Check for stop and update request status.
+            if new_token_ids:
+                new_token_ids, stopped = self._update_request_with_output(
+                    request, new_token_ids
+                )
+
+            # Stop checking for pooler models.
+            pooler_output = None
+            if pooler_outputs:
+                pooler_output = pooler_outputs[req_index]
+                stopped = check_stop(request, self.max_model_len, pooler_output)
+
+            if stopped:
+                kv_transfer_params = self._free_request(request)
+                if status_before_stop == RequestStatus.RUNNING:
+                    stopped_running_reqs.add(request)
+                else:
+                    stopped_preempted_reqs.add(request)
+
+            # Extract sample logprobs if needed.
+            if (
+                request.sampling_params is not None
+                and request.sampling_params.logprobs is not None
+                and logprobs
+            ):
+                # NOTE: once we support N tokens per step (spec decode),
+                # the outer lists can be of length > 1.
+                new_logprobs = logprobs.slice(req_index, req_index + 1)
+
+            if new_token_ids and self.structured_output_manager.should_advance(request):
+                struct_output_request = request.structured_output_request
+                assert struct_output_request is not None
+                assert struct_output_request.grammar is not None
+                struct_output_request.grammar.accept_tokens(req_id, new_token_ids)
+
+            if num_nans_in_logits is not None and req_id in num_nans_in_logits:
+                request.num_nans_in_logits = num_nans_in_logits[req_id]
+
+            # Get prompt logprobs for this request.
+            prompt_logprobs_tensors = prompt_logprobs_dict.get(req_id)
+            if new_token_ids or pooler_output is not None or kv_transfer_params:
+                # Add EngineCoreOutput for this Request.
+                outputs[request.client_index].append(
+                    EngineCoreOutput(
+                        request_id=req_id,
+                        new_token_ids=new_token_ids,
+                        finish_reason=request.get_finished_reason(),
+                        new_logprobs=new_logprobs,
+                        new_prompt_logprobs_tensors=prompt_logprobs_tensors,
+                        pooling_output=pooler_output,
+                        stop_reason=request.stop_reason,
+                        events=request.take_events(),
+                        kv_transfer_params=kv_transfer_params,
+                        trace_headers=request.trace_headers,
+                        num_cached_tokens=request.num_cached_tokens,
+                        num_nans_in_logits=request.num_nans_in_logits,
+                    )
+                )
+            else:
+                # Invariant: EngineCore returns no partial prefill outputs.
+                assert not prompt_logprobs_tensors
+
+        # Remove the stopped requests from the running and waiting queues.
+        if stopped_running_reqs:
+            self.running = remove_all(self.running, stopped_running_reqs)
+        if stopped_preempted_reqs:
+            # This is a rare case and unlikely to impact performance.
+            self.waiting.remove_requests(stopped_preempted_reqs)
+
+        # KV Connector: update state for finished KV Transfers.
+        if kv_connector_output:
+            self._update_from_kv_xfer_finished(kv_connector_output)
+
+        # collect KV cache events from KV cache manager
+        events = self.kv_cache_manager.take_events()
+
+        # collect KV cache events from connector
+        if self.connector is not None:
+            connector_events = self.connector.take_events()
+            if connector_events:
+                if events is None:
+                    events = list(connector_events)
+                else:
+                    events.extend(connector_events)
+
+        # publish collected KV cache events
+        if events:
+            batch = KVEventBatch(ts=time.time(), events=events)
+            self.kv_event_publisher.publish(batch)
+
+        # Create EngineCoreOutputs for all clients that have requests with
+        # outputs in this step.
+        engine_core_outputs = {
+            client_index: EngineCoreOutputs(outputs=outs)
+            for client_index, outs in outputs.items()
+        }
+
+        finished_req_ids = self.finished_req_ids_dict
+        if finished_req_ids:
+            # Include ids of requests that finished since last outputs
+            # were sent.
+            for client_index, finished_set in finished_req_ids.items():
+                # Set finished request set in EngineCoreOutputs for this client.
+                if (eco := engine_core_outputs.get(client_index)) is not None:
+                    eco.finished_requests = finished_set
+                else:
+                    engine_core_outputs[client_index] = EngineCoreOutputs(
+                        finished_requests=finished_set
+                    )
+            finished_req_ids.clear()
+
+        if (
+            stats := self.make_stats(spec_decoding_stats, kv_connector_stats)
+        ) is not None:
+            # Return stats to only one of the front-ends.
+            if (eco := next(iter(engine_core_outputs.values()), None)) is None:
+                # We must return the stats even if there are no request
+                # outputs this step.
+                engine_core_outputs[0] = eco = EngineCoreOutputs()
+            eco.scheduler_stats = stats
+
+        return engine_core_outputs
+
+    def _update_request_with_output(
+        self,
+        request: Request,
+        new_token_ids: list[int],
+    ) -> tuple[list[int], bool]:
+        # Append generated tokens and check for stop. Note that if
+        # a request is still being prefilled, we expect the model runner
+        # to return empty token ids for the request.
+        stopped = False
+        for num_new, output_token_id in enumerate(new_token_ids, 1):
+            request.append_output_token_ids(output_token_id)
+
+            # Check for stop and update request state.
+            # This must be called before we make the EngineCoreOutput.
+            stopped = check_stop(request, self.max_model_len)
+            if stopped:
+                del new_token_ids[num_new:]  # Trim new tokens if needed.
+                break
+        return new_token_ids, stopped
+
+    def _free_encoder_inputs(self, request: Request) -> None:
+        cached_encoder_input_ids = self.encoder_cache_manager.get_cached_input_ids(
+            request
+        )
+        # OPTIMIZATION: Avoid list(set) if the set is empty.
+        if not cached_encoder_input_ids:
+            return
+
+        # Here, we use list(set) to avoid modifying the set while iterating
+        # over it.
+        for input_id in list(cached_encoder_input_ids):
+            mm_feature = request.mm_features[input_id]
+            start_pos = mm_feature.mm_position.offset
+            num_tokens = mm_feature.mm_position.length
+            if self.is_encoder_decoder and request.num_computed_tokens > 0:
+                # With Whisper, as soon as we've generated a single token,
+                # we know we're done with the encoder input. Cross Attention
+                # KVs have been calculated and cached already.
+                self.encoder_cache_manager.free_encoder_input(request, input_id)
+            elif start_pos + num_tokens <= request.num_computed_tokens:
+                # The encoder output is already processed and stored
+                # in the decoder's KV cache.
+                self.encoder_cache_manager.free_encoder_input(request, input_id)
+
+    def update_draft_token_ids(
+        self,
+        draft_token_ids: DraftTokenIds,
+    ) -> None:
+        for req_id, spec_token_ids in zip(
+            draft_token_ids.req_ids,
+            draft_token_ids.draft_token_ids,
+        ):
+            request = self.requests.get(req_id)
+            if request is None or request.is_finished():
+                # The request may have been finished. Skip.
+                continue
+
+            # Add newly generated spec token ids to the request.
+            if self.structured_output_manager.should_advance(request):
+                metadata = request.structured_output_request
+                request.spec_token_ids = metadata.grammar.validate_tokens(  # type: ignore[union-attr]
+                    spec_token_ids
+                )
+            else:
+                request.spec_token_ids = spec_token_ids
+
+    def get_request_counts(self) -> tuple[int, int]:
+        """Returns (num_running_reqs, num_waiting_reqs)."""
+        return len(self.running), len(self.waiting)
+
+    def add_request(self, request: Request) -> None:
+        self.waiting.add_request(request)
+        self.requests[request.request_id] = request
+        if self.log_stats:
+            request.record_event(EngineCoreEventType.QUEUED)
+
+    def finish_requests(
+        self,
+        request_ids: str | Iterable[str],
+        finished_status: RequestStatus,
+    ) -> None:
+        """Handles the finish signal from outside the scheduler.
+
+        For example, the API server can abort a request when the client
+        disconnects.
+        """
+        assert RequestStatus.is_finished(finished_status)
+        if isinstance(request_ids, str):
+            request_ids = (request_ids,)
+        else:
+            request_ids = set(request_ids)
+
+        running_requests_to_remove = set()
+        waiting_requests_to_remove = []
+        valid_requests = []
+
+        # First pass: collect requests to remove from queues
+        for req_id in request_ids:
+            request = self.requests.get(req_id)
+            if request is None or request.is_finished():
+                # Invalid request ID.
+                continue
+
+            valid_requests.append(request)
+            if request.status == RequestStatus.RUNNING:
+                running_requests_to_remove.add(request)
+            else:
+                waiting_requests_to_remove.append(request)
+
+        # Remove all requests from queues at once for better efficiency
+        if running_requests_to_remove:
+            self.running = remove_all(self.running, running_requests_to_remove)
+        if waiting_requests_to_remove:
+            self.waiting.remove_requests(waiting_requests_to_remove)
+
+        # Second pass: set status and free requests
+        for request in valid_requests:
+            request.status = finished_status
+            self._free_request(request)
+
+    def _free_request(self, request: Request) -> dict[str, Any] | None:
+        assert request.is_finished()
+
+        delay_free_blocks, kv_xfer_params = self._connector_finished(request)
+        self.encoder_cache_manager.free(request)
+        request_id = request.request_id
+        self.finished_req_ids.add(request_id)
+        if self.finished_req_ids_dict is not None:
+            self.finished_req_ids_dict[request.client_index].add(request_id)
+
+        if not delay_free_blocks:
+            self._free_blocks(request)
+
+        return kv_xfer_params
+
+    def _free_blocks(self, request: Request):
+        assert request.is_finished()
+        self.kv_cache_manager.free(request)
+        del self.requests[request.request_id]
+
+    def get_num_unfinished_requests(self) -> int:
+        return len(self.waiting) + len(self.running)
+
+    def has_finished_requests(self) -> bool:
+        return len(self.finished_req_ids) > 0
+
+    def reset_prefix_cache(self) -> bool:
+        return self.kv_cache_manager.reset_prefix_cache()
+
+    def make_stats(
+        self,
+        spec_decoding_stats: SpecDecodingStats | None = None,
+        kv_connector_stats: KVConnectorStats | None = None,
+    ) -> SchedulerStats | None:
+        if not self.log_stats:
+            return None
+        prefix_cache_stats = self.kv_cache_manager.make_prefix_cache_stats()
+        assert prefix_cache_stats is not None
+        connector_prefix_cache_stats = self._make_connector_prefix_cache_stats()
+        return SchedulerStats(
+            num_running_reqs=len(self.running),
+            num_waiting_reqs=len(self.waiting),
+            kv_cache_usage=self.kv_cache_manager.usage,
+            prefix_cache_stats=prefix_cache_stats,
+            connector_prefix_cache_stats=connector_prefix_cache_stats,
+            spec_decoding_stats=spec_decoding_stats,
+            kv_connector_stats=kv_connector_stats.data if kv_connector_stats else None,
+        )
+
+    def make_spec_decoding_stats(
+        self,
+        spec_decoding_stats: SpecDecodingStats | None,
+        num_draft_tokens: int,
+        num_accepted_tokens: int,
+    ) -> SpecDecodingStats | None:
+        if not self.log_stats:
+            return None
+        if spec_decoding_stats is None:
+            spec_decoding_stats = SpecDecodingStats.new(self.num_spec_tokens)
+        spec_decoding_stats.observe_draft(
+            num_draft_tokens=num_draft_tokens, num_accepted_tokens=num_accepted_tokens
+        )
+        return spec_decoding_stats
+
+    def shutdown(self) -> None:
+        if self.kv_event_publisher:
+            self.kv_event_publisher.shutdown()
+        if self.connector is not None:
+            self.connector.shutdown()
+
+    ########################################################################
+    # KV Connector Related Methods
+    ########################################################################
+
+    def _update_connector_prefix_cache_stats(
+        self, request: Request, num_external_tokens: int
+    ) -> None:
+        if self.connector_prefix_cache_stats is None:
+            return
+
+        self.connector_prefix_cache_stats.record(
+            num_tokens=request.num_tokens,
+            num_hits=num_external_tokens,
+            preempted=request.num_preemptions > 0,
+        )
+
+    def _make_connector_prefix_cache_stats(self) -> PrefixCacheStats | None:
+        if self.connector_prefix_cache_stats is None:
+            return None
+        stats = self.connector_prefix_cache_stats
+        self.connector_prefix_cache_stats = PrefixCacheStats()
+        return stats
+
+    def get_kv_connector(self) -> KVConnectorBase_V1 | None:
+        return self.connector
+
+    def _connector_finished(
+        self, request: Request
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Invoke the KV connector request_finished() method if applicable.
+
+        Returns optional kv transfer parameters to be included with the
+        request outputs.
+        """
+        if self.connector is None:
+            return False, None
+
+        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
+
+        if not isinstance(self.connector, SupportsHMA):
+            # NOTE(Kuntai): We should deprecate this code path after we enforce
+            # all connectors to support HMA.
+            # Hybrid memory allocator should be already turned off for this
+            # code path, but let's double-check here.
+            assert len(self.kv_cache_config.kv_cache_groups) == 1
+            return self.connector.request_finished(request, block_ids[0])
+
+        return self.connector.request_finished_all_groups(request, block_ids)
+
+    def _update_waiting_for_remote_kv(self, request: Request) -> bool:
+        """
+        KV Connector: check if the request_id is finished_recving.
+
+        The finished_recving_kv_req_ids list is populated
+        on the previous steps()'s update_from_output based
+        on the worker side connector.
+
+        When the kv transfer is ready, we cache the blocks
+        and the request state will be moved back to WAITING from
+        WAITING_FOR_REMOTE_KV.
+        """
+        assert self.connector is not None
+        if request.request_id not in self.finished_recving_kv_req_ids:
+            return False
+
+        if request.request_id in self.failed_recving_kv_req_ids:
+            # Request had KV load failures; num_computed_tokens was already
+            # updated in _update_requests_with_invalid_blocks
+            if request.num_computed_tokens:
+                # Cache any valid computed tokens.
+                self.kv_cache_manager.cache_blocks(request, request.num_computed_tokens)
+            else:
+                # No valid computed tokens, release allocated blocks.
+                # There may be a local cache hit on retry.
+                self.kv_cache_manager.free(request)
+
+            self.failed_recving_kv_req_ids.remove(request.request_id)
+        else:
+            # Now that the blocks are ready, actually cache them.
+            (block_ids,) = self.kv_cache_manager.get_block_ids(request.request_id)
+            num_computed_tokens = len(block_ids) * self.block_size
+            # Handle the case where num request tokens less than one block.
+            num_computed_tokens = min(num_computed_tokens, request.num_tokens)
+            if num_computed_tokens == request.num_tokens:
+                num_computed_tokens -= 1
+            # This will cache the blocks iff caching is enabled.
+            self.kv_cache_manager.cache_blocks(request, num_computed_tokens)
+
+            # Update the request state for scheduling.
+            request.num_computed_tokens = num_computed_tokens
+
+        # Return that we are ready.
+        self.finished_recving_kv_req_ids.remove(request.request_id)
+        return True
+
+    def _update_from_kv_xfer_finished(self, kv_connector_output: KVConnectorOutput):
+        """
+        KV Connector: update the scheduler state based on the output.
+
+        The Worker side connectors add finished_recving and
+        finished_sending reqs to the output.
+        * if finished_sending: free the blocks
+        # if finished_recving: add to state so we can
+            schedule the request during the next step.
+        """
+
+        if self.connector is not None:
+            self.connector.update_connector_output(kv_connector_output)
+
+        # KV Connector:: update recv and send status from last step.
+        for req_id in kv_connector_output.finished_recving or ():
+            logger.debug("Finished recving KV transfer for request %s", req_id)
+            self.finished_recving_kv_req_ids.add(req_id)
+        for req_id in kv_connector_output.finished_sending or ():
+            logger.debug("Finished sending KV transfer for request %s", req_id)
+            assert req_id in self.requests
+            self._free_blocks(self.requests[req_id])
+
+    def _update_requests_with_invalid_blocks(
+        self, requests: Iterable[Request], invalid_block_ids: set[int]
+    ) -> tuple[set[str], int]:
+        """
+        Identify and update requests affected by invalid KV cache blocks.
+
+        This method scans the given requests, detects those with invalid blocks
+        and adjusts their `num_computed_tokens` to the longest valid prefix.
+        For observability, it also accumulates the total number of tokens that
+        will need to be recomputed across all affected requests.
+
+        Args:
+            requests: The set of requests to scan for invalid blocks.
+            invalid_block_ids: IDs of invalid blocks.
+
+        Returns:
+            tuple:
+                - affected_req_ids (set[str]): IDs of requests impacted by
+                invalid blocks.
+                - total_affected_tokens (int): Total number of tokens that must
+                be recomputed across all affected requests (for observability).
+        """
+        affected_req_ids: set[str] = set()
+        total_affected_tokens = 0
+        # If a block is invalid and shared by multiple requests in the batch,
+        # these requests must be rescheduled, but only the first will recompute
+        # it. This set tracks blocks already marked for recomputation.
+        marked_invalid_block_ids: set[int] = set()
+        for request in requests:
+            is_affected = False
+            marked_invalid_block = False
+            req_id = request.request_id
+            # TODO (davidb): add support for hybrid memory allocator
+            (req_block_ids,) = self.kv_cache_manager.get_block_ids(req_id)
+            # We iterate only over blocks that may contain externally computed
+            # tokens
+            if request.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
+                # Async loading. If num_computed_tokens is set it implies we
+                # already processed some block failures for it in a prior step
+                req_num_computed_tokens = (
+                    request.num_computed_tokens
+                    if req_id in self.failed_recving_kv_req_ids
+                    else len(req_block_ids) * self.block_size
+                )
+            else:
+                # Sync loading. num_computed_tokens includes new tokens
+                req_num_computed_tokens = request.num_cached_tokens
+
+            req_num_computed_blocks = (
+                req_num_computed_tokens + self.block_size - 1
+            ) // self.block_size
+            for idx, block_id in zip(range(req_num_computed_blocks), req_block_ids):
+                if block_id not in invalid_block_ids:
+                    continue
+
+                is_affected = True
+
+                if block_id in marked_invalid_block_ids:
+                    # This invalid block is shared with a previous request
+                    # and was already marked for recomputation.
+                    # This means this request can still consider this block
+                    # as computed when rescheduled.
+                    # Currently this only applies to sync loading; Async
+                    # loading does not yet support block sharing
+                    continue
+
+                marked_invalid_block_ids.add(block_id)
+
+                if marked_invalid_block:
+                    # This request has already marked an invalid block for
+                    # recomputation and updated its num_computed_tokens.
+                    continue
+
+                marked_invalid_block = True
+                # Truncate the computed tokens at the first failed block
+                request.num_computed_tokens = idx * self.block_size
+                total_affected_tokens += (
+                    req_num_computed_tokens - request.num_computed_tokens
+                )
+
+            if is_affected:
+                if not marked_invalid_block:
+                    # All invalid blocks of this request are shared with
+                    # previous requests and will be recomputed by them.
+                    # Revert to considering only cached tokens as computed.
+                    # Currently this only applies to sync loading; Async
+                    # loading does not yet support block sharing
+                    total_affected_tokens += (
+                        request.num_computed_tokens - request.num_cached_tokens
+                    )
+                    request.num_computed_tokens = request.num_cached_tokens
+
+                affected_req_ids.add(request.request_id)
+
+        return affected_req_ids, total_affected_tokens
+
+    def _handle_invalid_blocks(self, invalid_block_ids: set[int]) -> set[str]:
+        total_requests_to_reschedule = 0
+        total_tokens_to_reschedule = 0
+
+        # --- Handle async KV loads (WAITING_FOR_REMOTE_KVS) ---
+        async_load_reqs = (
+            req
+            for req in self.waiting
+            if req.status == RequestStatus.WAITING_FOR_REMOTE_KVS
+        )
+        async_affected_req_ids, num_tokens_to_reschedule = (
+            self._update_requests_with_invalid_blocks(
+                async_load_reqs, invalid_block_ids
+            )
+        )
+
+        total_requests_to_reschedule += len(async_affected_req_ids)
+        total_tokens_to_reschedule += num_tokens_to_reschedule
+
+        # Mark requests with async KV load failures; they will be rescheduled
+        # once loading completes.
+        self.failed_recving_kv_req_ids |= async_affected_req_ids
+
+        # --- Handle sync KV loads (running requests) ---
+        sync_affected_req_ids, num_tokens_to_reschedule = (
+            self._update_requests_with_invalid_blocks(self.running, invalid_block_ids)
+        )
+
+        total_requests_to_reschedule += len(sync_affected_req_ids)
+        total_tokens_to_reschedule += num_tokens_to_reschedule
+
+        if total_requests_to_reschedule:
+            logger.warning(
+                "Recovered from KV load failure: "
+                "%d request(s) rescheduled (%d tokens affected).",
+                total_requests_to_reschedule,
+                total_tokens_to_reschedule,
+            )
+
+        # Return the IDs of affected running requests to skip in
+        # update_from_output.
+        return sync_affected_req_ids
diff --git a/v1/core/sched/utils.py b/v1/core/sched/utils.py
new file mode 100644
index 0000000..82166dc
--- /dev/null
+++ b/v1/core/sched/utils.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import contextlib
+
+import torch
+
+from vllm.v1.request import Request, RequestStatus
+
+
+def remove_all(lst: list, items_to_remove: set) -> list:
+    """Remove all items from a list that are in the items_to_remove set.
+
+    This method optimizes for the common case of removing a single item,
+    falling back to list comprehension for multiple items.
+
+    Args:
+        lst: The list to remove items from
+        items_to_remove: Set of items to remove
+
+    Returns:
+        Either the modified original list (for single item removal) or
+        a new list (for multiple item removal). Callers should use the
+        returned value.
+
+    Note:
+        For single item removal, this modifies the original list in-place
+        and returns it. For multiple items, it creates and returns a new list.
+    """
+    if not items_to_remove:
+        return lst
+
+    if len(items_to_remove) == 1:
+        # Fast path for single item removal (most common case)
+        item = next(iter(items_to_remove))
+        with contextlib.suppress(ValueError):
+            lst.remove(item)
+        return lst
+    # For multiple items, use list comprehension
+    return [item for item in lst if item not in items_to_remove]
+
+
+def check_stop(
+    request: Request, max_model_len: int, pooler_output: torch.Tensor | None = None
+) -> bool:
+    if request.pooling_params:
+        if pooler_output is not None:
+            request.status = RequestStatus.FINISHED_STOPPED
+            return True
+        return False
+
+    sampling_params = request.sampling_params
+    assert sampling_params is not None
+
+    if request.num_output_tokens < sampling_params.min_tokens:
+        return False
+
+    last_token_id = request.output_token_ids[-1]
+    if not sampling_params.ignore_eos and last_token_id == request.eos_token_id:
+        request.status = RequestStatus.FINISHED_STOPPED
+        return True
+
+    if last_token_id in (sampling_params.stop_token_ids or ()):
+        request.status = RequestStatus.FINISHED_STOPPED
+        request.stop_reason = last_token_id
+        return True
+    if (
+        request.num_tokens >= max_model_len
+        or request.num_output_tokens >= request.max_tokens
+    ):
+        request.status = RequestStatus.FINISHED_LENGTH_CAPPED
+        return True
+    return False
diff --git a/v1/core/single_type_kv_cache_manager.py b/v1/core/single_type_kv_cache_manager.py
new file mode 100644
index 0000000..14ac830
--- /dev/null
+++ b/v1/core/single_type_kv_cache_manager.py
@@ -0,0 +1,736 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import itertools
+from abc import ABC, abstractmethod
+from collections import defaultdict
+from collections.abc import Sequence
+
+from vllm.utils.math_utils import cdiv
+from vllm.v1.core.block_pool import BlockPool
+from vllm.v1.core.kv_cache_utils import BlockHash, KVCacheBlock
+from vllm.v1.kv_cache_interface import (
+    ChunkedLocalAttentionSpec,
+    CrossAttentionSpec,
+    FullAttentionSpec,
+    KVCacheSpec,
+    MambaSpec,
+    MLAAttentionSpec,
+    SlidingWindowSpec,
+)
+from vllm.v1.request import Request
+
+
+class SingleTypeKVCacheManager(ABC):
+    """
+    An abstract base class for a manager that handle the kv cache management
+    logic of one specific type of attention layer.
+    """
+
+    def __init__(
+        self,
+        kv_cache_spec: KVCacheSpec,
+        block_pool: BlockPool,
+        kv_cache_group_id: int,
+        dcp_world_size: int = 1,
+    ) -> None:
+        """
+        Initializes the SingleTypeKVCacheManager.
+        Args:
+            kv_cache_spec: The kv_cache_spec for this manager.
+            block_pool: The block pool.
+            kv_cache_group_id: The id of the kv cache group of this manager.
+        """
+        self.block_size = kv_cache_spec.block_size
+        self.dcp_world_size = dcp_world_size
+        if self.dcp_world_size > 1:
+            self.block_size *= dcp_world_size
+        self.kv_cache_spec = kv_cache_spec
+        self.block_pool = block_pool
+
+        # Mapping from request ID to blocks to track the blocks allocated
+        # for each request, so that we can free the blocks when the request
+        # is finished.
+        self.req_to_blocks: defaultdict[str, list[KVCacheBlock]] = defaultdict(list)
+
+        # {req_id: The number of cached blocks for this given request}
+        # This is used to track the number of cached blocks for each request.
+        # This is only used to track the RUNNING requests, we do not track the
+        # data for preempted ones.
+        self.num_cached_block: dict[str, int] = {}
+
+        self.kv_cache_group_id = kv_cache_group_id
+        self._null_block = block_pool.null_block
+
+    def get_num_blocks_to_allocate(
+        self,
+        request_id: str,
+        num_tokens: int,
+        new_computed_blocks: Sequence[KVCacheBlock],
+    ) -> int:
+        """
+        Get the number of blocks needed to be allocated for the request.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including
+                tokens that are already allocated).
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix caching.
+
+        Returns:
+            The number of blocks.
+        """
+
+        num_required_blocks = cdiv(num_tokens, self.block_size)
+        num_new_blocks = (
+            num_required_blocks
+            - len(new_computed_blocks)
+            - len(self.req_to_blocks[request_id])
+        )
+        # If a computed block of a request is an eviction candidate (in the
+        # free queue and ref_cnt == 0), it will be changed from a free block
+        # to a computed block when the request is allocated, so we also count
+        # it as needed to be allocated.
+        num_evictable_computed_blocks = sum(
+            blk.ref_cnt == 0 and not blk.is_null for blk in new_computed_blocks
+        )
+        return num_new_blocks + num_evictable_computed_blocks
+
+    def save_new_computed_blocks(
+        self, request_id: str, new_computed_blocks: Sequence[KVCacheBlock]
+    ) -> None:
+        """
+        Add the new computed blocks to the request.
+
+        Args:
+            request_id: The request ID.
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix cache.
+        """
+        if request_id not in self.num_cached_block:
+            # A new request.
+            req_blocks = self.req_to_blocks[request_id]
+            assert len(req_blocks) == 0
+            req_blocks.extend(new_computed_blocks)
+            self.num_cached_block[request_id] = len(new_computed_blocks)
+        else:
+            # A running request. Should not have new computed blocks.
+            assert len(new_computed_blocks) == 0
+
+    def allocate_new_blocks(
+        self, request_id: str, num_tokens: int
+    ) -> list[KVCacheBlock]:
+        """
+        Allocate new blocks for the request to give it at least `num_tokens`
+        token slots.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including
+                tokens that are already allocated).
+
+        Returns:
+            The new allocated blocks.
+        """
+        req_blocks = self.req_to_blocks[request_id]
+        num_required_blocks = cdiv(num_tokens, self.block_size)
+        num_new_blocks = num_required_blocks - len(req_blocks)
+        if num_new_blocks <= 0:
+            return []
+        else:
+            new_blocks = self.block_pool.get_new_blocks(num_new_blocks)
+            req_blocks.extend(new_blocks)
+            return new_blocks
+
+    def cache_blocks(self, request: Request, num_tokens: int) -> None:
+        """
+        Cache the blocks for the request.
+
+        Args:
+            request: The request.
+            num_tokens: The total number of tokens that need to be cached
+                (including tokens that are already cached).
+        """
+        num_cached_blocks = self.num_cached_block.get(request.request_id, 0)
+        num_full_blocks = num_tokens // self.block_size
+
+        if num_cached_blocks >= num_full_blocks:
+            return
+
+        self.block_pool.cache_full_blocks(
+            request=request,
+            blocks=self.req_to_blocks[request.request_id],
+            num_cached_blocks=num_cached_blocks,
+            num_full_blocks=num_full_blocks,
+            block_size=self.block_size,
+            kv_cache_group_id=self.kv_cache_group_id,
+        )
+
+        self.num_cached_block[request.request_id] = num_full_blocks
+
+    def free(self, request_id: str) -> None:
+        """
+        Free the blocks for the request.
+
+        Args:
+            request_id: The request ID.
+        """
+        # Default to [] in case a request is freed (aborted) before alloc.
+        req_blocks = self.req_to_blocks.pop(request_id, [])
+
+        # Free blocks in reverse order so that the tail blocks are
+        # freed first.
+        ordered_blocks = reversed(req_blocks)
+
+        self.block_pool.free_blocks(ordered_blocks)
+        self.num_cached_block.pop(request_id, None)
+
+    @abstractmethod
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        """
+        Get the number of common prefix blocks for all requests with allocated
+        KV cache.
+
+        Args:
+            running_request_id: The request ID.
+
+        Returns:
+            The number of common prefix blocks for all requests with allocated
+            KV cache.
+        """
+
+        raise NotImplementedError
+
+    @classmethod
+    @abstractmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        """
+        Get the longest cache hit prefix of the blocks that is not longer than
+        `max_length`. The prefix should be a common prefix hit for all the
+        kv cache groups in `kv_cache_group_ids`. If no cache hit is found,
+        return an empty list.
+        If eagle is enabled, drop the last matched block to force recompute the
+        last block to get the required hidden states for eagle drafting head.
+        Need to be customized for each attention type.
+
+        Args:
+            block_hashes: The block hashes of the request.
+            max_length: The maximum length of the cache hit prefix.
+            kv_cache_group_ids: The ids of the kv cache groups.
+            block_pool: The block pool.
+            kv_cache_spec: The kv cache spec.
+            use_eagle: Whether to use eagle.
+
+        Returns:
+            A list of cached blocks with skipped blocks replaced by null block
+            for each kv cache group in `kv_cache_group_ids`.
+            Return a list of length `len(kv_cache_group_ids)`, where the i-th
+            element is a list of cached blocks for the i-th kv cache group
+            in `kv_cache_group_ids`.
+            For example, sliding window manager should return a list like
+            ([NULL, NULL, KVCacheBlock(7), KVCacheBlock(8)]) for block size 4
+            and sliding window 8 and len(kv_cache_group_ids) = 1.
+        """
+
+        raise NotImplementedError
+
+    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
+        """
+        Remove and free the blocks that are no longer needed for attention computation.
+        The removed blocks should be replaced by null_block.
+
+        This function depends on `get_num_skipped_tokens`, which need to be implemented
+        differently for each attention type.
+
+        Args:
+            request_id: The request ID.
+            num_computed_tokens: The number of tokens that have been computed.
+        """
+        # Remove the blocks that will be skipped during attention computation.
+        num_skipped_tokens = self.get_num_skipped_tokens(num_computed_tokens)
+        if num_skipped_tokens <= 0:
+            # This indicates that ALL tokens are inside attention window.
+            # Thus we do not need to free any blocks outside attention window.
+            # A typical case is full attention that we never free any token
+            # before the request is finished.
+            return
+        num_skipped_blocks = num_skipped_tokens // self.block_size
+        blocks = self.req_to_blocks[request_id]
+        removed_blocks: list[KVCacheBlock] = []
+        # Because the block starts from index 0, the num_skipped_block-th block
+        # corresponds to index num_skipped_blocks - 1.
+        for i in range(num_skipped_blocks - 1, -1, -1):
+            if blocks[i] == self._null_block:
+                # If the block is already a null block, the blocks before it
+                # should also have been set to null blocks by the previous calls
+                # to this function.
+                break
+            removed_blocks.append(blocks[i])
+            blocks[i] = self._null_block
+        self.block_pool.free_blocks(removed_blocks)
+
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        # The default behavior is to not skip any tokens.
+        return 0
+
+
+class FullAttentionManager(SingleTypeKVCacheManager):
+    @classmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        assert isinstance(
+            kv_cache_spec, (FullAttentionSpec, ChunkedLocalAttentionSpec)
+        ), (
+            "FullAttentionManager can only be used for full attention "
+            "and chunked local attention groups"
+        )
+        computed_blocks: tuple[list[KVCacheBlock], ...] = tuple(
+            [] for _ in range(len(kv_cache_group_ids))
+        )
+        block_size = kv_cache_spec.block_size
+        if dcp_world_size > 1:
+            block_size *= dcp_world_size
+        max_num_blocks = max_length // block_size
+        for block_hash in itertools.islice(block_hashes, max_num_blocks):
+            # block_hashes is a chain of block hashes. If a block hash is not
+            # in the cached_block_hash_to_id, the following block hashes are
+            # not computed yet for sure.
+            if cached_block := block_pool.get_cached_block(
+                block_hash, kv_cache_group_ids
+            ):
+                for computed, cached in zip(computed_blocks, cached_block):
+                    computed.append(cached)
+            else:
+                break
+        if use_eagle and computed_blocks[0]:
+            for computed in computed_blocks:
+                computed.pop()
+        return computed_blocks
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        blocks = self.req_to_blocks[running_request_id]
+        num_common_blocks = 0
+        for block in blocks:
+            if block.ref_cnt == len(self.req_to_blocks):
+                num_common_blocks += 1
+            else:
+                break
+        return num_common_blocks
+
+
+class SlidingWindowManager(SingleTypeKVCacheManager):
+    def __init__(
+        self, kv_cache_spec: SlidingWindowSpec, block_pool: BlockPool, **kwargs
+    ) -> None:
+        super().__init__(kv_cache_spec, block_pool, **kwargs)
+        self.sliding_window = kv_cache_spec.sliding_window
+        self._null_block = block_pool.null_block
+
+    @classmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        assert isinstance(kv_cache_spec, SlidingWindowSpec), (
+            "SlidingWindowManager can only be used for sliding window groups"
+        )
+        assert dcp_world_size == 1, "DCP not support sliding window attn now."
+
+        # The number of contiguous blocks needed for prefix cache hit.
+        # -1 since the input token itself is also included in the window
+        sliding_window_contiguous_blocks = cdiv(
+            kv_cache_spec.sliding_window - 1, kv_cache_spec.block_size
+        )
+        if use_eagle:
+            # Need to drop the last matched block if eagle is enabled. For
+            # sliding window layer, we achieve this by increasing the number of
+            # contiguous blocks needed for prefix cache hit by one and dropping
+            # the last matched block.
+            sliding_window_contiguous_blocks += 1
+
+        # TODO: reduce i by sliding_window_contiguous_blocks when cache miss, to
+        # optimize the time complexity from O(max_num_blocks) to
+        # O(max_num_blocks / sliding_window_contiguous_blocks +
+        # sliding_window_contiguous_blocks),
+        # which is good for low cache hit rate scenarios.
+        max_num_blocks = max_length // kv_cache_spec.block_size
+        computed_blocks = tuple(
+            [block_pool.null_block] * max_num_blocks
+            for _ in range(len(kv_cache_group_ids))
+        )
+        num_contiguous_blocks = 0
+        match_found = False
+        # Search from right to left and early stop when a match is found.
+        for i in range(max_num_blocks - 1, -1, -1):
+            if cached_block := block_pool.get_cached_block(
+                block_hashes[i], kv_cache_group_ids
+            ):
+                for computed, cached in zip(computed_blocks, cached_block):
+                    computed[i] = cached
+                num_contiguous_blocks += 1
+                if num_contiguous_blocks >= sliding_window_contiguous_blocks:
+                    # Trim the trailing blocks.
+                    # E.g., [NULL, NULL, 8, 3, NULL, 9] -> [NULL, NULL, 8, 3]
+                    # when sliding_window_contiguous_blocks=2.
+                    for computed in computed_blocks:
+                        del computed[i + num_contiguous_blocks :]
+                    match_found = True
+                    break
+            else:
+                num_contiguous_blocks = 0
+        if not match_found:
+            # The first `num_contiguous_blocks` is a cache hit even if
+            # `num_contiguous_blocks < sliding_window_contiguous_blocks`.
+            for computed in computed_blocks:
+                del computed[num_contiguous_blocks:]
+        if use_eagle and computed_blocks[0]:
+            for computed in computed_blocks:
+                computed.pop()
+        return computed_blocks
+
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
+
+        For sliding window, this corresponds to the tokens that are prior to
+        the current sliding window.
+
+        Example:
+        sliding_window=4, num_computed_tokens=7
+
+        Tokens:   [ 0  1  2  3  4  5  6  7 ]
+                  | ---- computed -----|
+                                         ^ next token to be computed
+                               |-----------| sliding window for next token
+                  |--skipped---|
+
+        The current window contains tokens 4~7. Tokens 0~3 will be skipped for
+        attention computation since they are outside the sliding window.
+        Thus, get_num_skipped_tokens(7) == 4.
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        return num_computed_tokens - self.sliding_window + 1
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        """
+        NOTE(Chen): The prefix blocks are null blocks for sliding window layers.
+        So it's not correct to count ref_cnt like FullAttentionManager. Return
+        0 here for correctness. Need to support cascade attention + sliding
+        window in the future.
+        """
+        return 0
+
+
+class ChunkedLocalAttentionManager(SingleTypeKVCacheManager):
+    def __init__(
+        self, kv_cache_spec: ChunkedLocalAttentionSpec, block_pool: BlockPool, **kwargs
+    ) -> None:
+        super().__init__(kv_cache_spec, block_pool, **kwargs)
+        self.attention_chunk_size = kv_cache_spec.attention_chunk_size
+        self._null_block = block_pool.null_block
+
+    @classmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        """
+        For chunked local attention, we need to find the longest cache hit
+        prefix of the blocks that is not longer than `max_length`. The prefix
+        should be a common prefix hit for all the kv cache groups in
+        `kv_cache_group_ids`. If no cache hit is found, return an empty list.
+        note we mark as computed if the whole block is outside of the local
+        window, and set the block as null. Examples:
+
+        1. Attention chunk size of 8, block size of 4, max length of 15
+        for next token at 15th (zero-indexed), 8th - 14th tokens are in
+        the window(needs lookup), 0th - 7th are not in the window,
+        so they are already marked as computed. We check the complete
+        block3 (8th - 11th tokens), Assume block 3 is hit, we will return
+        [null, null, block 3], otherwise, we return [null, null]
+
+        2. Attention chunk size of 8, block size of 4, max length of 16
+        for next token at 16th (zero-indexed), 0th - 15th tokens are not
+        in the window, so they are already marked as computed.
+        we return 4 blocks[null, null, null, null]
+
+        Args:
+            block_hashes: The block hashes of the request.
+            max_length: The maximum length of the cache hit prefix.
+            kv_cache_group_ids: The ids of the kv cache groups.
+            block_pool: The block pool.
+            kv_cache_spec: The kv cache spec.
+            use_eagle: Whether to use eagle.
+
+        Returns:
+            A list of cached blocks
+        """
+        assert isinstance(kv_cache_spec, ChunkedLocalAttentionSpec), (
+            "ChunkedLocalAttentionManager can only be used for "
+            + "chunked local attention groups"
+        )
+        assert use_eagle is False, (
+            "Hybrid KV cache is not supported for " + "eagle + chunked local attention."
+        )
+        assert dcp_world_size == 1, "DCP not support chunked local attn now."
+        max_num_blocks = max_length // kv_cache_spec.block_size
+        if max_length > 0:
+            local_attention_start_idx = (
+                max_length
+                // kv_cache_spec.attention_chunk_size
+                * kv_cache_spec.attention_chunk_size
+            )
+        else:
+            local_attention_start_idx = 0
+        # we marked blocks out of window as computed
+        # with null blocks, and blocks inside window based on cache lookup
+        # result [null] [null] ... [null] [hit block 1 (1st block contain
+        # last window)] [hit block 2] ... [hit block x]
+        local_attention_start_block_idx = (
+            local_attention_start_idx // kv_cache_spec.block_size
+        )
+        computed_blocks: tuple[list[KVCacheBlock], ...] = tuple(
+            [block_pool.null_block] * local_attention_start_block_idx
+            for _ in range(len(kv_cache_group_ids))
+        )
+        for i in range(local_attention_start_block_idx, max_num_blocks):
+            block_hash = block_hashes[i]
+            if cached_block := block_pool.get_cached_block(
+                block_hash, kv_cache_group_ids
+            ):
+                for computed, cached in zip(computed_blocks, cached_block):
+                    computed.append(cached)
+            else:
+                break
+        return computed_blocks
+
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
+
+        For chunked local attention, this corresponds to the tokens that are on
+        the left side of the current chunk.
+
+        Example 1:
+        chunk size = 8, num_computed_tokens = 13
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 | ----- computed ---------------|
+                                                  ^^ next token to be computed
+                                   |----------------| <-- attention window for
+                                                          next token
+                 |--- skipped -----|
+        Output: get_num_skipped_tokens(13) == 8
+
+        Example 2:
+        chunk size = 8, num_computed_tokens = 8
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 | --- computed ---|
+                                     ^ next token to be computed
+                                   |--| <-- attention window for next token
+                 | --- skipped ----|
+        Output: get_num_skipped_tokens(8) == 8
+
+        Example 3:
+        chunk size = 8, num_computed_tokens = 7
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 |---computed---|
+                                 ^ next token to be computed
+                 |-----------------| <-- attention window for next token
+                 no token should be skipped.
+        Output: get_num_skipped_tokens(7) == 0
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        num_skipped_tokens = (
+            num_computed_tokens // self.attention_chunk_size
+        ) * self.attention_chunk_size
+        return num_skipped_tokens
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        """
+        cascade attention is not supported by chunked local attention.
+        """
+        return 0
+
+
+class MambaManager(SingleTypeKVCacheManager):
+    @classmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        assert isinstance(kv_cache_spec, MambaSpec), (
+            "MambaManager can only be used for mamba groups"
+        )
+        assert dcp_world_size == 1, "DCP not support mamba now."
+        computed_blocks: tuple[list[KVCacheBlock], ...] = tuple(
+            [] for _ in range(len(kv_cache_group_ids))
+        )
+
+        max_num_blocks = max_length // kv_cache_spec.block_size
+        # Search from right to left and early stop when a match is found.
+        for i in range(max_num_blocks - 1, -1, -1):
+            if cached_block := block_pool.get_cached_block(
+                block_hashes[i], kv_cache_group_ids
+            ):
+                for computed, cached in zip(computed_blocks, cached_block):
+                    # the hit length logic later assumes:
+                    #  hit_length = len(hit_blocks_other_attn[0])
+                    #               * self.other_block_size
+                    # so we insert dummy blocks at the beginning:
+                    computed.extend([block_pool.null_block] * i)
+                    computed.append(cached)
+                break  # we just need the last match - early stopping
+
+        return computed_blocks
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        """
+        cascade attention is not supported by mamba
+        """
+        return 0
+
+    def get_num_blocks_to_allocate(
+        self,
+        request_id: str,
+        num_tokens: int,
+        new_computed_blocks: Sequence[KVCacheBlock],
+    ) -> int:
+        # Allocate extra `num_speculative_blocks` blocks for
+        # speculative decoding (MTP/EAGLE) with linear attention.
+        assert isinstance(self.kv_cache_spec, MambaSpec)
+        if self.kv_cache_spec.num_speculative_blocks > 0:
+            num_tokens += (
+                self.kv_cache_spec.block_size
+                * self.kv_cache_spec.num_speculative_blocks
+            )
+        return super().get_num_blocks_to_allocate(
+            request_id, num_tokens, new_computed_blocks
+        )
+
+    def allocate_new_blocks(
+        self, request_id: str, num_tokens: int
+    ) -> list[KVCacheBlock]:
+        # Allocate extra `num_speculative_blocks` blocks for
+        # speculative decoding (MTP/EAGLE) with linear attention.
+        assert isinstance(self.kv_cache_spec, MambaSpec)
+        if self.kv_cache_spec.num_speculative_blocks > 0:
+            num_tokens += (
+                self.kv_cache_spec.block_size
+                * self.kv_cache_spec.num_speculative_blocks
+            )
+        return super().allocate_new_blocks(request_id, num_tokens)
+
+
+class CrossAttentionManager(SingleTypeKVCacheManager):
+    """Manager for cross-attention KV cache in encoder-decoder models."""
+
+    def save_new_computed_blocks(
+        self, request_id: str, new_computed_blocks: Sequence[KVCacheBlock]
+    ) -> None:
+        # We do not cache blocks for cross-attention to be shared between
+        # requests, so  `new_computed_blocks` should always be empty.
+        assert len(new_computed_blocks) == 0
+
+    def cache_blocks(self, request: Request, num_tokens: int) -> None:
+        # We do not cache blocks for cross-attention to be shared between
+        # requests, so this method is not relevant.
+        raise ValueError("Should not be called as prefix caching is disabled.")
+
+    def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
+        # Cross-attention blocks contain request-specific encoder states
+        # and are not shared between different requests
+        return 0
+
+    @classmethod
+    def find_longest_cache_hit(
+        cls,
+        block_hashes: list[BlockHash],
+        max_length: int,
+        kv_cache_group_ids: list[int],
+        block_pool: BlockPool,
+        kv_cache_spec: KVCacheSpec,
+        use_eagle: bool,
+        dcp_world_size: int = 1,
+    ) -> tuple[list[KVCacheBlock], ...]:
+        assert isinstance(kv_cache_spec, CrossAttentionSpec), (
+            "CrossAttentionManager can only be used for cross-attention groups"
+        )
+        # Cross-attention does not benefit from prefix caching since:
+        # 1. Encoder states are unique per request (different audio/image
+        #    inputs)
+        # 2. Encoder states are computed once per request, not incrementally
+        # 3. No reusable prefix exists between different multimodal inputs
+        # Return empty blocks to indicate no cache hits
+        raise NotImplementedError("CrossAttentionManager does not support caching")
+
+
+spec_manager_map: dict[type[KVCacheSpec], type[SingleTypeKVCacheManager]] = {
+    FullAttentionSpec: FullAttentionManager,
+    MLAAttentionSpec: FullAttentionManager,
+    SlidingWindowSpec: SlidingWindowManager,
+    ChunkedLocalAttentionSpec: ChunkedLocalAttentionManager,
+    MambaSpec: MambaManager,
+    CrossAttentionSpec: CrossAttentionManager,
+}
+
+
+def get_manager_for_kv_cache_spec(
+    kv_cache_spec: KVCacheSpec, **kwargs
+) -> SingleTypeKVCacheManager:
+    manager_class = spec_manager_map[type(kv_cache_spec)]
+    manager = manager_class(kv_cache_spec, **kwargs)
+    return manager
diff --git a/v1/cudagraph_dispatcher.py b/v1/cudagraph_dispatcher.py
new file mode 100644
index 0000000..b480ac7
--- /dev/null
+++ b/v1/cudagraph_dispatcher.py
@@ -0,0 +1,148 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from itertools import product
+
+from vllm.config import CUDAGraphMode, VllmConfig
+from vllm.forward_context import BatchDescriptor
+
+
+class CudagraphDispatcher:
+    """
+    Runtime cudagraph dispatcher to dispatch keys for multiple set of
+    cudagraphs.
+
+    The dispatcher stores two sets of dispatch keys, one for PIECEWISE and one
+    for FULL cudagraph runtime mode. The keys are initialized depending on
+    attention support and what cudagraph mode is set in CompilationConfig. The
+    keys stored in dispatcher are the only source of truth for valid
+    cudagraphs that can be dispatched at runtime.
+
+    At runtime, the dispatch method generates the runtime cudagraph mode (FULL,
+    PIECEWISE, or NONE for no cudagraph) and the valid key (batch descriptor)
+    based on the input key. After dispatching (communicated via forward
+    context), the cudagraph wrappers will trust the dispatch key to either
+    capture or replay (if the mode matches), or pass through to the underlying
+    runnable without cudagraph (if the mode does not match or mode is NONE).
+    """
+
+    def __init__(self, vllm_config: VllmConfig):
+        self.vllm_config = vllm_config
+        self.compilation_config = vllm_config.compilation_config
+        self.cudagraph_mode = self.compilation_config.cudagraph_mode
+
+        # Dict to store valid cudagraph dispatching keys.
+        self.cudagraph_keys: dict[CUDAGraphMode, set[BatchDescriptor]] = {
+            CUDAGraphMode.PIECEWISE: set(),
+            CUDAGraphMode.FULL: set(),
+        }
+
+        not_use_piecewise_compilation = (
+            not self.cudagraph_mode.requires_piecewise_compilation()
+        )
+
+        assert (
+            not_use_piecewise_compilation
+            or self.compilation_config.is_attention_compiled_piecewise()
+        ), (
+            "Compilation mode should be CompilationMode.VLLM_COMPILE when "
+            "cudagraph_mode piecewise cudagraphs is used, "
+            "and attention should be in splitting_ops or "
+            "inductor splitting should be used. "
+            f"cudagraph_mode={self.cudagraph_mode}, "
+            f"compilation_mode={self.compilation_config.mode}, "
+            f"splitting_ops={self.compilation_config.splitting_ops}"
+        )
+
+        self.keys_initialized = False
+
+    def add_cudagraph_key(
+        self, runtime_mode: CUDAGraphMode, batch_descriptor: BatchDescriptor
+    ):
+        assert runtime_mode in [CUDAGraphMode.PIECEWISE, CUDAGraphMode.FULL], (
+            f"Invalid cudagraph runtime mode for keys: {runtime_mode}"
+        )
+        self.cudagraph_keys[runtime_mode].add(batch_descriptor)
+
+    def initialize_cudagraph_keys(
+        self, cudagraph_mode: CUDAGraphMode, uniform_decode_query_len: int
+    ):
+        # This should be called only after attention backend is initialized.
+
+        # LoRA activation cases to specialize the cuda graphs on
+        if self.vllm_config.lora_config:
+            if self.compilation_config.cudagraph_specialize_lora:
+                lora_cases = [True, False]
+            else:
+                lora_cases = [True]
+        else:
+            lora_cases = [False]
+
+        # Note: we create all valid keys for cudagraph here but do not
+        # guarantee all keys would be used. For example, if we allow lazy
+        # capturing in future PR, some keys may never be triggered.
+        if cudagraph_mode.mixed_mode() != CUDAGraphMode.NONE:
+            for bs, has_lora in product(
+                self.compilation_config.cudagraph_capture_sizes, lora_cases
+            ):
+                self.add_cudagraph_key(
+                    cudagraph_mode.mixed_mode(),
+                    BatchDescriptor(
+                        num_tokens=bs, uniform_decode=False, has_lora=has_lora
+                    ),
+                )
+
+        # if decode cudagraph mode is FULL, and we don't already have mixed
+        # mode full cudagraphs then add them here.
+        if (
+            cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+            and cudagraph_mode.separate_routine()
+        ):
+            max_num_tokens = (
+                uniform_decode_query_len
+                * self.vllm_config.scheduler_config.max_num_seqs
+            )
+            cudagraph_capture_sizes_for_decode = [
+                x
+                for x in self.compilation_config.cudagraph_capture_sizes
+                if x <= max_num_tokens and x >= uniform_decode_query_len
+            ]
+            for bs, has_lora in product(cudagraph_capture_sizes_for_decode, lora_cases):
+                self.add_cudagraph_key(
+                    CUDAGraphMode.FULL,
+                    BatchDescriptor(
+                        num_tokens=bs, uniform_decode=True, has_lora=has_lora
+                    ),
+                )
+        self.keys_initialized = True
+
+    def dispatch(
+        self, batch_descriptor: BatchDescriptor, use_cascade_attn: bool = False
+    ) -> tuple[CUDAGraphMode, BatchDescriptor | None]:
+        """
+        Given conditions(e.g.,batch descriptor and if using cascade attention),
+        dispatch to a cudagraph runtime mode and the valid batch descriptor.
+        A new batch descriptor is returned as we might dispatch a uniform batch
+        to a graph that supports a more general batch (uniform to non-uniform).
+        """
+        # if not initialized, just skip dispatching.
+        if not self.keys_initialized:
+            return CUDAGraphMode.NONE, None
+
+        non_uniform_key = batch_descriptor.non_uniform
+        # if a batch use cascade attention, bypass checking full cudagraphs
+        if not use_cascade_attn:
+            # check if key exists for full cudagraph
+            if batch_descriptor in self.cudagraph_keys[CUDAGraphMode.FULL]:
+                return CUDAGraphMode.FULL, batch_descriptor
+
+            # otherwise, check if non-uniform key exists
+            if non_uniform_key in self.cudagraph_keys[CUDAGraphMode.FULL]:
+                return CUDAGraphMode.FULL, non_uniform_key
+
+        # also check if non-uniform key exists for more "general"
+        # piecewise cudagraph
+        if non_uniform_key in self.cudagraph_keys[CUDAGraphMode.PIECEWISE]:
+            return CUDAGraphMode.PIECEWISE, non_uniform_key
+
+        # finally, just return no cudagraphs
+        return CUDAGraphMode.NONE, None
diff --git a/v1/engine/__init__.py b/v1/engine/__init__.py
new file mode 100644
index 0000000..3f621d7
--- /dev/null
+++ b/v1/engine/__init__.py
@@ -0,0 +1,206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+import time
+from collections.abc import Mapping
+from typing import Any
+
+import msgspec
+import torch
+
+from vllm.lora.request import LoRARequest
+from vllm.multimodal.inputs import MultiModalFeatureSpec
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.v1.metrics.stats import SchedulerStats
+from vllm.v1.outputs import LogprobsLists, LogprobsTensors
+from vllm.v1.serial_utils import UtilityResult
+
+# These are possible values of RequestOutput.finish_reason,
+# so form part of the external API.
+FINISH_REASON_STRINGS = ("stop", "length", "abort")
+
+
+class FinishReason(enum.IntEnum):
+    """
+    Reason a request finished - stop, length, or abort.
+
+    Int rather than Str for more compact serialization.
+
+    stop - a stop string was emitted
+    length - max_tokens was consumed, or max_model_len was reached
+    abort - aborted for another reason
+
+    """
+
+    STOP = 0
+    LENGTH = 1
+    ABORT = 2
+
+    def __str__(self):
+        return FINISH_REASON_STRINGS[self.value]
+
+
+class EngineCoreRequest(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    omit_defaults=True,  # type: ignore[call-arg]
+    gc=False,
+):  # type: ignore[call-arg]
+    request_id: str
+    prompt_token_ids: list[int] | None
+    mm_features: list[MultiModalFeatureSpec] | None
+    sampling_params: SamplingParams | None
+    pooling_params: PoolingParams | None
+    eos_token_id: int | None
+    arrival_time: float
+    lora_request: LoRARequest | None
+    cache_salt: str | None
+    data_parallel_rank: int | None
+    prompt_embeds: torch.Tensor | None = None
+
+    # Index of the client, used to ensure outputs are sent back to the same
+    # client for this request when scaling out the front-end.
+    client_index: int = 0
+
+    # Used in DP case to indicate which wave of requests this is expected to
+    # belong to, to cover a race condition where the request is sent before
+    # a wave finished notification is received.
+    current_wave: int = 0
+    priority: int = 0
+
+    trace_headers: Mapping[str, str] | None = None
+
+
+class EngineCoreEventType(enum.IntEnum):
+    """The type of engine core request event."""
+
+    QUEUED = 1
+    SCHEDULED = 2
+    PREEMPTED = 3
+
+
+class EngineCoreEvent(msgspec.Struct):
+    """A timestamped engine core event associated with a request.
+
+    The timestamp is a monotonic timestamps and is used for by the engine
+    frontend to calculate intervals between engine core events. These
+    timestamps should not be compared with timestamps from other processes.
+    """
+
+    type: EngineCoreEventType
+    timestamp: float
+
+    @classmethod
+    def new_event(
+        cls, event_type: EngineCoreEventType, timestamp: float | None = None
+    ) -> "EngineCoreEvent":
+        timestamp = time.monotonic() if timestamp is None else timestamp
+        return cls(event_type, timestamp)
+
+
+class EngineCoreOutput(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    omit_defaults=True,  # type: ignore[call-arg]
+    gc=False,
+):  # type: ignore[call-arg]
+    request_id: str
+    new_token_ids: list[int]
+
+    new_logprobs: LogprobsLists | None = None
+    new_prompt_logprobs_tensors: LogprobsTensors | None = None
+
+    pooling_output: torch.Tensor | None = None
+
+    finish_reason: FinishReason | None = None
+    stop_reason: int | str | None = None
+    events: list[EngineCoreEvent] | None = None
+    kv_transfer_params: dict[str, Any] | None = None
+
+    trace_headers: Mapping[str, str] | None = None
+    # The number of tokens with prefix cache hits.
+    num_cached_tokens: int = 0
+
+    # The number of NaNs in logits.
+    # A value greater than 0 indicates that the output is corrupted.
+    num_nans_in_logits: int = 0
+
+    @property
+    def finished(self) -> bool:
+        return self.finish_reason is not None
+
+
+class UtilityOutput(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    gc=False,
+):  # type: ignore[call-arg]
+    call_id: int
+
+    # Non-None implies the call failed, result should be None.
+    failure_message: str | None = None
+    result: UtilityResult | None = None
+
+
+class EngineCoreOutputs(
+    msgspec.Struct,
+    array_like=True,  # type: ignore[call-arg]
+    omit_defaults=True,  # type: ignore[call-arg]
+    gc=False,
+):  # type: ignore[call-arg]
+    # NOTE(Nick): We could consider ways to make this more compact,
+    # e.g. columnwise layout
+
+    engine_index: int = 0
+
+    # [num_reqs]
+    outputs: list[EngineCoreOutput] = []
+    scheduler_stats: SchedulerStats | None = None
+    timestamp: float = 0.0
+
+    utility_output: UtilityOutput | None = None
+    finished_requests: set[str] | None = None
+
+    # In DP case, used to signal that the current wave of requests
+    # has finished and the engines are paused.
+    wave_complete: int | None = None
+    # In DP case, used to signal that a request was received for an
+    # "old" wave, so the next wave needs to be started in other engines.
+    start_wave: int | None = None
+
+    def __post_init__(self):
+        if self.timestamp == 0.0:
+            self.timestamp = time.monotonic()
+
+
+class EngineCoreRequestType(enum.Enum):
+    """
+    Request types defined as hex byte strings, so it can be sent over sockets
+    without separate encoding step.
+    """
+
+    ADD = b"\x00"
+    ABORT = b"\x01"
+    START_DP_WAVE = b"\x02"
+    UTILITY = b"\x03"
+    # Sentinel used within EngineCoreProc.
+    EXECUTOR_FAILED = b"\x04"
+
+
+class ReconfigureDistributedRequest(msgspec.Struct):
+    new_data_parallel_size: int
+    new_data_parallel_rank: int
+    new_data_parallel_rank_local: int
+    new_data_parallel_master_ip: str
+    new_data_parallel_master_port: int
+
+
+class ReconfigureRankType(enum.IntEnum):
+    """
+    Rank type for reconfiguring distributed request.
+    """
+
+    KEEP_CURRENT_RANK = -1
+    SHUTDOWN_CURRENT_RANK = -2
diff --git a/v1/engine/__pycache__/__init__.cpython-312.pyc b/v1/engine/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1e6a273f026bb1129578393e32e42acb18edfc86
GIT binary patch
literal 7557
zcmai3TWlLwdLEKPQWsJbDN43%T}HNIn~p{Kw(HnU-DoY@)<&XTiP~h@HiHr8NTNOD
zFlUB#WVk5Pb+9gqq7qubGWrnh(<bn?DEic*FZ)=aFH#wx+}RivuqX<@IV<f;QMCR3
zGrUN&f*pbXob#XmT;@OjUH=*mcSv{)`Ok9~j!4q4s8fI1YK`5DSCXDdx}<vyDdWC9
z84vni!<+YId>+F23_0)5_(j`e1Tq0ZAIt>tmW{T2d!}8C`HhZzXQorM14bwx&V)rf
zXmsTxnTTk&8QuA4CMw$PMl9cx>B+}4anbKEdh>mmKD0YCN4(N4Ne?}d^e~g|ov$Cf
z`F`PZ+nIhr*#*i73*5Whq^P&_Zu~`m7JCt>%{VS*^k7E(x2!!ND0@NKclg?kQw$2q
zBcMEbIOQ9s7!ou3G2_^`&WQf(_zQpS)Wd>)0Q7_3N`LS>6)|H7Glub<->dVZ`EH#4
zgrHPFIdb^g4a$>(@&qVP{ubViu6h!quV}MW!s7&IwPG<>SVq$~QCP*RbH<#Tm}4K8
zm}R5eJ6kgB+^nf<#!aT#CC=uHEQ^8gUDGr$^RC9Vyahzpyp}JvV6rPrFBy!_+nQ}9
zyiRz=TrP5R(VEFww&g_X-83s$CZ|=x3wF-P*{gHR!o~@oBU`pvbOHt|EZZxNUt2V}
zoo(_;l03D}?g=!WNlYR|$#`{7#;1ETvhK_Hbs5Uxe<EdqtARw&3Ej*Ua@NWm(=4-~
z1+hSfg2(MEn!??$SC#}B)0HuW4slL#4{=U0xgySy><|;D3%0^FdxdeuUeOB5yv>y*
z(Bw_dl&qOAYFS&c7|&@&?vZBa%tCD<t%}7pu{;0=Kb41?rLcU?wwW$gcQ*xDUi(C~
z&HG@LpvjsAtCVNDI1Y{FO`RDk$i*;c8gXANAr4C$5%cgpbU3YGiW7qlTyQ^x!|X_}
zh@r2jm94WDZHW-1+q-7~o=G;K`#hHJ(OApVkN&*$r6+}3@4Y#lnx4O{&P`3s-$|+S
z>AC6Dt$D})Kr>40OAoG?8A}#zru_HyaXVieFXoD4w#Jv4J@!fI%GG!7Ut!}$ZgIT0
zYOk1u@dt*HAAfLR95RtBuyIwzMcJyFEUr31RRtea^-+BPB`0gx1op6^0A=ax$mnMJ
zr<tE*wj<}a+RpC+35{rT+Elfm<(aBF9V)RD;)`}jRX;9iMr{O}=w=pZc|LvTt`nG<
zO5IA|cKj3HyEB*O$Fb6v5+A^eA0t2;3P4P;1_7Q(-+0^oZLj;JP`Er<4R@7qR?(W;
zl|B9o?o66=K+cKz^z06SQ%yNvkeH9jy60UCF+U5?9=i8Y5Ix9#4I4awl?Aq~LFE_y
z_C`M-`hiA2DEb{(uT8W%8zb$a4?U~x*U>VwllsuY5DVWMK(pm(%nJ#+a0addyL8oh
z-J%z%^`fHJEqdNejP>BVeM{a0Ulyg&Rc|8ZM5lyo+<*$!jG5C>(`z-Sr<`t>p?uMH
z6$%*3>CETVCD+8kGFdfarWS>LbGnMIxvTd>%(NPlosh<P4&toZxjb`1hRHRxwwu$D
zB}G&%&9I%AuGyMc!Z4t#Tr1pn!nKpI{36pWp@L2*YvfqLhFt6H6ZA@)Q}?0vfH`eN
zo-;X2q!YHemSyS+({u*o8RsNge2Bm>fa8NEI1yFV3ea_7cPx@w1Gd-k<q9?@&&w(3
z;1Czd@h=&sW^?jv{DMH(CeN-o0oOe9i!^YF0J(Gi9Rehke3ZZd0U__Fs6}85KkJ_X
zK9gRDq-gv{cdC8IHZHB_Hb=MnPF3Vn)oAZl-`m^Kb6?oo(MuKiQnmNwroP>Kwj!Uc
z#z!_Mx8r9j@|kL^cSBwWa-bSJQjw2TV}qOWc5JjFk5;>T*7Ws`ihQhk^!SGU9IX@8
z#8`QD?K{ujU4IuF^<bm1*KJb&vGUB?$%@?nx}({y#(T@RpJpp^?@sa}CSBRMwCUS;
zXS-)~)86iR`z!gP`(5-k>6>sz9k^+2RW)+=nG-f)rd6FSX>e7R<6X`kP}sWl+$GL5
z6}Htet@;xIr>7~dQx9;}>D3~8bSk~V6dNtYTvA+H2X_LWQg={{NRvE<^?47#E4qzT
zBG@7bTmjk%{Qkn!!qlYGK7Zr()a1epHSf+%P0ij-PffO7;RI%I0yFqoaeyb%FXZz(
z!cuid%hT2F=%>>zZ;0%`hd0956h@jKzJPEx16#%Xx|j46`s}Y+s9?LKx9NVeSS+B+
zWKDF0vr7Rz_{9GLwDe@!R^>#y6KP?UHULIXD5QCo4XuTL+s`Y(BSo_;Gn>=M`8~|p
zD~eX<Va*c@PS;mZaux{kCbY&Z<g(4BfiCDYTC!?hba53fpVc-LzIKV51)G7)HkGVq
zWJ?BiRiJH*!$4TdBC{Vd_~<vzXeAY#!eU~T#@ASiwPKbGUBO{6*9|9l{WJEFVc)#s
zx^x(nEVC?TCB<5fOfuxOH;7YChv14T@Bz*c))lfOJM~9KgZjIZ0MDey-g4Xqm)++u
zcVEAwg6FaKkG)>$vGf?N7q!4(UgEu&i%>wOLpbdX-a?~%S;OMr$1tA;uxMKZW5SX+
z?FIHw6=!|a-*WBA#*j+W$OM%osCnYz)|sn+J^3uPp86_2`j4wm+kX*>tzFw#twa)A
zZ3$Oo#cA3PQxhTd{0dg%*8rT(tO41{GsGP_ze{M^X`ivXMO^}E{H&V*pTW8N;oQ5V
z&Y_AtSdGLha(u_%y>ol!8=veyTkSvhTD-4b|9SkM21I+O{n)Sl7~Azpf#^40wA?Ld
z;VgcQr+!PjN!-VN-Fh<$fHny|(|wsBYtwx-A1%B;aP6$4ffEq`aGfl4k4$*W)1VWP
z0qD9|q=6IB0dVB4#U70j5iMXOint^u{B->cB5uG)4~yg6y)`dh9~DsqM*G;2eLlWE
z>c$kI3=%qgVVEq59?JBKo`@XSF{GTwm%MuS6S*#znSoVbBI<NEh3HPnE|zS58q=LH
z$&v`IDH2FIA?h2oRK+<?y_%D*BUPw4Wh~9Oz!d8_VK-@j_ouMh>7)?9-U$dvww&1g
z2P#~5!CGRx7Eid&l+?wE7D{<l#0+{Z+;?JxDqsQv0y<aDw)p#?Jv>0C0025G-NU=}
z(WR27u8ki4A%^);05|w{b*`<R_Uu<Vms`pD(4W#A@;GH_C(`rpk&*4l$QSXg$k<lf
zm=N5=V5@R{m-Z5R^$xYJ5?CNW<q-Y@0-XdtAn-c`=w{s`iU9hD)XfkOD)$FyIkKM1
z+FT}NGaC6r>i!W8BUCbrj3ZQ%7ZJX3vJ|cQJ5M+Q%lKJe12lt`o+BH+^{WUwb`Vj_
ztc@X>h*30Ay>@*|9^M@O`^(!SS1R)LowLbuYHjM-%=*mc<?Z<Cikzewvulm`qdIz~
z{Qg?cnzi1)k=~AuP*C&sc=_hj$+h9_5Cu9R1Ulo@^Ov{ez72U}e)HtUhtIpdh;JVq
ztH_rR4NfZZ#ht;SExC8is>nkyeZvY(_EqHJ9e?<>*W*uajQ(1}i>yl5H-vDl3VrV3
zR^>g69Bx%~ZwA?gUXS!eW&s>omO4&Y7DV6vMi%dijT3|;G(^}PS<-R_iU=y4wWTdH
z2i`{{`fnIxAs|9tmT)F6#D}hkhX}M7VV!UUevF?*87eNZL+XnDXy$c5I(fQ$XKjAt
z@_L3sPV{a*o!tP(m9ON}E<<Q)!pnabFaCP~hcoBzFtVRH2g8|VDHC8|2N}A0V1vQ~
znOPCg0Oy+70GV0zT*E16!mO)7;hIbtiBLC-(n^gH*JR2_eB=hsHIy>UXcJd6k0^G;
z5iW(DeTk5J8}$^!4M1usM$k21uzeA$UbI0XjjGLm;Sk~x?%C-ox%C;<o!~_4CZV41
zSWcMI6qV{82D6#dfn~UxyBuz>NcX?hUU}~0Hu*8T?)Rj7a_v0(UUe(~SRxH~pH*oU
zSDNB^bQ3;tcs`3Zr=au=qZd}yqG?gWMTLY%!>xY8LIq(T!QWyHYXqPyRXZbpdHv6>
zZ_NK&r}FjS$mbtD|EMxJ_H^<uQm=hdXvDRKy{*=eY_n?vg^1s$uCR;392wMYCqN;Q
z2t;^+S|q331VC=bY*#6Yg!`C)MPQV`00EJU<)}sAukf?V0MLwBGXa8noKBQ)Jxy=L
zPHcyf9-XO<U4XiLR7=AyRF51hPd_ao!P<erO0CV-lCp7RS;F=ppZjEUbp21<ENkQ~
zn7vCI@%3v+&an8<iSqZ?d~S+1vMYP*CWwx7K+Edk<t}|dQ_EVjCEbtub^xhB5Ve}#
z<~7xl{4^rnM-N5VTf>M1%2JS}p;V+J5l~jxC(7a~f^xUuW}Q<kQ_0zg)(aG2Tga&t
z^8t!^NEz-k+Y+l$)&P;mC=~=SnH938PW3v=W<@v9-WA^<phrNjfIb1`RN@UAr{Ggj
zcb%N%C#e;lPfyIH)ycc+2NOS-a)Jx#>6z*D50UYFICWzoeP>R+IWdjAt@Vx{U@|B0
z5BOOp0I0s?LkQX-b;im!s-d3pR5gCQJX`JRE#KPd8~pT+D<U-Mz%A6(Z1+8kG;iTR
zk%`JpZURTGdWi`Zh#a;ELxr6arPjeYhC1a^ZW%Uz5_JcjTPz_7tKE&$N1@fhnuwKq
z#16xYTFJnh^n^!D1P|i|Y6n-#Yq%b+=8DeXn^S9pMHEF-i9oB0HXYD+@m;Mv|CDe9
zevY4|0DLA@2ZrH$Yw*Nd75S~|h^SGVJoS})%H=psIlyrtGeGWA9M<Icez}Jo_d7lN
zI5~%J7LtC=m2`C7Isp}Sd4uC5oqCh$&6Jm_-LL)+&#V6hION+EoW+U0KQ(n%y|FMi
zH<e1Oa}%leo!<G|3+c%_AEXYTTY2*ovpIo(!Ox;xi{#M@c|;ZFIE+ShU}#(JcNs!-
ziMJe?A;uL3+KFUMRL8PZC%2N?Vpi0coB)zle2@tCoM7Hsw(x%l5hyxQss|^j=$5Qi
zMnnzE=@a-o{R0DqT+K-43JCcvQTB3r#NffIo?8Zsi;<QBpeU0$y<+IWg(MO}p37QE
z;Ua~pb|Uq$nk#h!TZ(BNcSTHd{|TUy54GGtrjN#h_z%JqeLn@dPGH{VC4{w9b8^$s
zThtPsK{x=iosKLfkOB)a6#Q<v2&e5`w}5?}{|)F!(yadhc<u9eJiBd@C-h6H^QCn1
zrPTK;sq2?g=s%^zOX;1L(%4IB{H1jMKcs6fr6gV2<t?dqFA()ySi4MBwLJ;Vy)y%z
zOI5k^$Ei<K)kse@)>jRNe$x)*-gUnxwlVtox##EhBsBNByFF*umY)^Y3wsipd#46H
z$v0;Lx%Zx@-E(H&5LOHVvv+jhuo*z^UGMY^ZA^YX{d{^)LUV7x?>W7B>!+!oq-gKc
Rd))!guzQx@NN5V7`+vOyXkGvS

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/async_llm.cpython-312.pyc b/v1/engine/__pycache__/async_llm.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b8de53e18067c93b50c6fe7432f8272be0b56a5
GIT binary patch
literal 33097
zcmeHwd2m}tn%{f42m&Ag-Zu%}gv3K6bx^l>iKY%pmgupKoe2!_JxZhilKTM47KilO
z8gGW0IBP4D9n0C-8am@-<=9)JtsJY}9P4X6Q<Y5>o=69nw{pg*I916%DcIE3c(t2U
zeqX->2O)WOCP!5&Ph!9C_3Q4}{q@(~-_?zOTU6xWaD^>@XZEkJa@>ES2mP{Yz*f77
z<6h$gPT<2_K)v$;o;{laCU!Rm%($DvmWVZAjo1RVNI{^0r?lp<Jz@{o8Egp`MjQc0
z#2Ik1XFlu-6tVp7fScVt5pTfD-dV%Nk&-|OgKgo`NLiqa!3E*+NJXH6!S--vq$*Iw
z;KFcqq$W_qU`Mz%QWvOWurpjAX$Ukh*cEP!_yWF2Q=o}G7loT6ErFIuYoL`qyTfgf
z_CPy>J>iZ>XP}e8-mpKiBd~+P#o?Wiu0R)qOTyieo<I+SOT)d9U4dN;E(`ZX`UCxu
zfxrNJE)VaH><R2)a7B1;WM5z(gDb;>k^O=F46X_vh#U+YWN>x(P~>pnFoSEtM<Pc9
zM;TljJ{B1Y3^BMaJRBJbj6_BQqwKjpJQg_~I35`fjI-y4@MDpQzyyOE!zUsq11A~m
z3!jRd4xDCiQ+P6RCU7QlHgGobc;Ims*Bm|<IUhLB;Fj=I<cYu&JZIv>I`M07^D0FI
zo-}deoY49bC$xzbZ=1E)r>^q;_Ww!`lYX<}9*SO_pB@+IMJW_pkQDnw4A6zJs1%$I
zEiTT^U-a{eWqM)ps^6rThvu*1Ary@v(($!$I5M&@KQl{7Jgl6t`HQpj;*fMPiYS-*
zG!mW_=P5&V@Jc8=D}-WVFeWX{PlsZ&3-iI~?6OFuos||Mi?OMzi}d82ou7>b!wVNL
ziV{7ZS~xd!PW<&H5nnbbrKg`bH8pYi%;?am;JLB!iStwEo>oduFNI^Xrx%1!_?&og
zHX4(t#${(07Q$$Rmif$5Y;h^36lFc)1Kx{bEI7LmT$C23#b|VaK3b$@JsXlj5o(Y7
zd?>O=g&8qL=a&{27o?adOogJCsiLgjF)1|7>fIR$UA-U%B~~9%3QjX@1*4)g3rsAF
z!3$RjCrct~>H==37A}kPh?kUFwIKaDI0Nix*%@k|h=wkTKz>Yoj!;`M9h#pO!@(G;
z5sY1u#E=jT%@8IFLeXFt*Z}Ai#6?L2+Qs1IXG3ZqS*C^AD|lC|_0@tT>Uc(mbfnga
zCdH%1jp7Sqk_3V&RU<SC5?Lgg<55wKUR4pQRAk|NWFZ_Dr$KP|b`kIi3Q2#r(8z_i
z_Oa*0=_N{OR*KKZLa|efDvpOJ_tng()1i4FMN*o=3n3vGMN*A|f{WoL&}DFj<(U-;
zgQd|+OEF>L*?H>oh#0#hF0npl<WGc2pNdYaV@3_@wTG=vOu4UdB1e;Jz$BXI?3u|_
zShNbfV8TB$?q<OvSZ5r9O|%IGVu5I{Mk2v377B%;S#XFB!3o%fzasp(MW^UuDa^|S
zNasPES1c0UqI<@a5nn8NgcAIf3g($Qq3k7Vz$+GG3MdiEg^G77-^Ox4m++7pvYPRF
z?F5rnKdJ%MDz_F@h^LxVe?@J|@xD~xW~zjmm#lBARp9h{pj0e=cztHfLakWFaFDMC
zRH{R$OP3lb7wTW)0u@37!b+i3tP-n*MioahCc*cTB~VkyW&RU>O=uF`LbF&a)-l|+
zi1lIvgIdK#LB)5Q=+mHfhV`Z_tapgb+j^oCz2L{6ntunrphBf$%S?r^6Ft)^bcwb2
zuKuQ5Y}3;8AYU)iIfPxPZ##NL{b$9!@B6lly7r6ptoG^hf7P0niXCDnsE1M2Oqnq7
zk}cpDb_1I`=u6^G(M|Nm@IzE)5%!>tU1^L8Uq}7wguP+|t691}55v+v155dEOZDkC
z>Qf>N0&_iLFM4*DiY@f&{+BEUHT8*obAm=<88_j8o}P^ji*PVA50!>;4xuFjfC~X1
z2E1GNhHwP;J-8pmeJ}3EaNmdf5blGx597Wc_YvF=2!Bf$MQc>NjG?9ng`jX8W0&Df
zrvQevalAdGed{sgJ&Xm}$DS?11fGuwC#WRU#Uh-<^HIRZL=WK}wL68Fp^Ox#@jR^d
zf$)ql37R@%(C%5WN_bo>(y(P0&f&`=LP$6-dQj37o<<8fJU@Z&QJh8i8sf$njtLV_
zW?<^L5&Kj|?6?v8bVlrBEOr7V1TtbzTs8YID0apgoH}*-_|)WoCEi4$nMrY80so+_
zX^LCaX8GWBI24U4g;@L96dqNImT0Y`gtXWx&PYUCP%-<LEJg7qG<``Ff(vYIk18(8
zDyhsuR4K+fAjN_rV@$9fEG#OnjHMx}RD~{H!~#vLqLJt#R*Q>@cbai7!H^(GU<yPO
zt;I|)EX~J^r`dTyd`_`RVr)s8pLS;uVj*B+yS6UaXvK(Wj2UOlhdj5!&uQ~?Mm}zZ
z3mR!xcsv<tkRD~_UPz&_cO17;fG3NdBIeYgmBQ!vsEOw;ayo;!>Rxfr73uHO_n1eA
z^^vCM;JH|_{%*ys$F6!-%xc*y9(<cx&8`)5v~tBGmB-5Tn7K+FO5X)uF9+D*@?m4H
zDxF$~B(q>z_0E^aYW0}>dG)eay)k|Lrmq<I(Q^ZDUVX(x8w?D@n)DP8$(6sx&3dl%
zJ)`szJvM)tbM5;3^nI=~4eQWqacrj!qogh!PTvu0d@Cci_#Lw@4xp_@pCEM}+M3&y
z&Z$GIB`YN_*2f0)XTh>kqPK6gbfpv}_2}=?_h5|<$M)&a+@KDn@1S_oLu&3^ajg`+
zV|`nzCu(o>s(?Jf2ECO0`K8g=Q6mM$)!YI7DSe+imWFj`#l2$2mmTleGQOPotwVas
z^nGq54eO9To*=eSZ4D|Z<YMD`nz_exD1A@oL!D2i<8>(gJ~pYx&7IYu^j%7P#aJwO
zbbh^$F%O*AOP!n2q4Zs^&+mZCjXkNy&po9>>3c@X!r!&5mc;`4yScCHQ2IU>Ov5_#
z6*->K)1~io7t*i}UF0)bo`<LSimzPM%Sqoe%FELeD`kS?9j87D-*M>>sKOXIS0O)S
zKeuqPQ~DQLImyg(PjfFnc$Rz4{51D0?=K2fVi|Dwv}*)%U`+Id=6(7K+~Y7_l8}DD
zc%mE`>+u2K#qh#~P}rwRtV_@hKqTtPN}j!9AE3|ZqMC0Of^wHn?77(EV`4eU)%wfq
zQjB%}fbYpmB!)@8*n$tSK3b)t*@?3_fdf7!1XC4>G4L(S_>kQPJ|jC*2ETAXtxb1?
zv;;m?ESIikC*RIdWYr9>eJaD@(-@BI?3v6*Rz_-)&Xr_m*~Xz{<zsJI%T)FRxLH`-
zR)8+*Mi2O=m!h$S2($<SLm}Z3QgPHbvjEfrL25DCB~bTI%=qRPVm@@$m03X)x_p8-
z6M{}9yOd{V!(rbA(FZ&T+sin6YHaBIm~VK@H}vGtxiR0=V?$HE^HT^;of#h=JLj7?
z@0&csqJ~e6WswuB!ldtOeO<nx$x+|L)Op`9l{Io|==^!##N^c2x#L44W4_Z9<Bv`G
zMjjiQ93RUd=W~qv%Ax4Vg?Z8V$nsTv6!@muzz}@T&c-egepF8L@bOSMDt7rUEX6b=
z<}_WDL|}1gUN{IOLPrKBkztqaR1^pzFVcD@{U&KQ#;xLkT1pH>g0mo537Vf}4-L8=
zVuaOh@!O<+B$Q}nWmzOzS){`h96_MHSDYHJIx9RERZ7(^&s2Ftl?qlxF{t&TrV5Fw
zMIA&@%g3h{r0Gl4;WM*gj5{@h&|}ONzLB#}_?R*)iuS4fKCLQlKwQ8BGPOk&KDg}Y
z36UBxh=xo-`Qv<cLAnfm*L)}<Ds~!C7nf%jp}=uK12cPNHU=Gx;vke!ou@A=ZYToT
zhrqapgscAD63IS_3j-BeEp-xNh*8QGE<k;DC3ImnJR7^Jzal0=v5=liv0*L{=LLzl
zA;oe5>OU3rHgy~*mf8841*m^6&n^aIhJKCIZ4$AP67g9|Ax&6J5hxMws+4Bx1~qk(
z;>wIvyit-umVijTQbSZ+8!OKEkm6NmjkKl_EsBLv719|-K?TC%0;oeGmRGT<nna2C
z1f?tzx-14&JVzEGCy`p!AcSdX?i9D$#$ZI%gh@MDK8;kQ(ER17_DWDHi0pMDLgQ71
zq=24aVpQ-_XkI{DNPmcqon25>q)^+=gW6R&sx*j4P3$t#yUsy0nvJM>K*b`?Ux_M}
zU&EvvoH}!E<gwt{b7ziEoEke99Gy6)*rE&5mqj!J>eovP(HNr_(?V3SA!2b>P^{4L
zO<z*%I*lp?8l-s7YGga4Qq)z&3~E&x@_p*biK)ken1x18D%GG3sCO?cgd{<uIIX4r
za>WuA!!x<#Zx3)N?WKTtR*5K0+D`$ojuH)|oFOU^-=~yZg5p&hmujy>C1Qjmq6)=s
z^fR$L(s2aQas)I9Zo3{F?TtkidlzRHyCKU0Gu_WE?b|<id7s!Dp1sh!con#t@1=>P
z_ex){+NZt7c<focs@Q{=aiCBSE*B3`chVZEM^USye{ABo7r6T;c&@N-)87AST}PsB
zw_LY-&9Z5)PS&>5y(-z-n`j-CTSw`sDOuOa-hS55yng6z%bwf)8x4Eo_S&SqHeqj;
z?aiAlqZ=*9H|^t})i=eP_iWVTZB4Se`EK=KynS%Z^0ND<o+`P%_nxcdm6O*`rc9>d
zA^yJEQshp#IF~o!tdpH}3Fof6&Rxl>y6Y34RSn!8P3#_%caLpU9bcRHth#x9ccNuL
zZW*}!^hWhjD)C-jR}xuWb+W6D0rj%0KH=(<U42_tbG?Jr7{%8%CTe!bH9HbD2j!ZB
ziJFsg&B-;-Jzp;}y)t=ya$Wen`8Vd@UAS*HHL*<fDH~T-l_>3!OS=-KLvrcRnmy?(
zjXN9fmHXmN{kI?6C_lV*Jh`)PZ8YI(l3h)kuFm^5uC6OldrYo9maJ+?*7}nbHLuOz
zm`~PsC#&1=|9(+H9V@;nRmSZ<Otq^`Iz6u(`OcAh%>&80j%1xLQP(A-l)53gZYbHh
zFWIpxS?^E!hmg0$y*9e(YD{^#qT+<BQFb*ZTzh5L-c8rwrvv*~X(^Mnu=q1qX~NYi
zyIMD0?F=g#eBaLS+;P|0p>;yi`_w&eS;E^Td%Nyi%|&h`X=qK<_oAOR>ign#{kNO`
z+3+7u{K3ROJ$d`^yN)=}cJf|b(+?(JpG?&C%XR&ql~unsd1EqBHXxS`B+B;5W&2WQ
zQ(Xz+!k4H$BG(?d*Vy`l=U;z5(Ks$Qj^6`T%XZ0SyY5_$Pd$|~bH2y;EzaaCNjbUt
zfi2Enk4FC8)4)%C69He|@8G<3UvPY3@lRdelo|I2QIc_g;%PnA%>7w&;i(?;pLO#H
zl`>&AN~SDY`wWfH^4Qd+*{BZ#X(@sUR9)CEg|3L;ethE046G78;4DSoGui^0nfV#t
z?0htaC8`G|gc2x*FmW!-hr+=K77J*pl+rwzl;X^KFt&Eug&OM@X<$fuvqfUUYcS%i
zKr58i73I^2tQa~INXnKK>q>!(Td_e#wXYOHO6A{ns)e8D{H962Gh<FmPhD&#Bd$c9
z#MnHS!)%x&Ki(^aWF2FAIloIWPluywd8{awjZKADjiQzb$}UQJ7I9H(b>{RYEg?ej
zGUHZ;^s!uR%u>0p{y7zM48aTB=Utq)6yxe%ZA+rITdwWCb$O%qK(e8ijjgU^&CYnm
z&Scx+WKBnUz*V}ujuhuAbZnsv=peNfkgQ?Tx*?t37@E89;o&vX(i!?VdaYh7=C`%j
zRcnlTkX?CoOI9PLjrFe;y_H{+$LF&qp?6K_T?={^79qN*XO}y+OL#uQ7~}KD3|nlE
zzaWDG(*2&@fqtt}rZUDlU!d__L<7<a1+0sycTwOfMZ7>kb}{KMMX9P<cW3r=2F`PP
zI^)$(kvU2$<_lb^f~#y!RP2>2_TFCIs2E#w-m7j(RPU6lciuX=Q9Zck{@kY00?o12
zt%>SExq2{J)0U{&C)ezYSL`FI02yG$_1K93?1c{LH&FI;X0KumRL5Z}0Q5PRug`UT
z1<zgO-r^_8K&e|2-{K_+IipmjPi=5P5d3!->#o<JXf5UoN=c*i1ukiKy;5|&=<j;A
zSBXfHO${#t$ge<76W$6uKLnGmNO+E4<s~nOER(EJ3SH?&WaWlRRnNU@S~0!oifP0K
z<)}#~U^Lux)#SG<_n+4+s9nD4uoxn~(6_Y6Nbdr8`il}tN+exOLp31yCeDuZNMFat
zC#7c)`Ylp7Zb|{>mQXAvNq-wp5-IciW`;(VRw>Z9vnXK!w8YTL(q^zSdI$Uk(nL=o
z04rnT3hOrQ^`F%=t+(DPx*gl7ITUvuT04j!>8eb)e6q{8>1zJ0r21xS+_&p?>qg1G
zwSuIxB<^gu=W1Tx_pxgyRwGv<>y(}>LZP~R3x8YZ5S-+Al~@4hUUQT(=hAWiEqL90
z6Ysxgdd>W|tyT=^eca2I-#0(YOTURMkQfPBN;S>BQQgge8Tg~B5FmXU?=y+5G*8my
zI)m`?yyZcv(Iyo0U$`$phvn6Y@;14=Em3|{E<d_aK9ukb#qC3J&(MP{n!2wwbnxqZ
zo8=8_2OKsuWkwKex(&Sy=MCJMuY}?XNzyFD+aO5-WRQ_U`ueMsYO;{({h>M{C`C-r
z30}g=3RMO1`?CuY<U6GV?joTe6$^iXaFApe#i@QRNLrt18bbO-Fzc5i!0V&>MRKI+
zUhj`<e9RarE9RJ?2-j7ftIk-4VPlT@W9c7O@0gsm>15TFQI;u2xMP=ImSkQrtrpF{
zxZ-%xbb`Z|4WrSVVP4Vmz<_ToGt59j%udcVSDq7rN2Wx_k^$zx29ppNgSWN%uNGz1
zu0qe7RXfLge^x4zN7-ehYEGM8Vn!K)iHyZ7ra40`ujfNMEINMlGFBZc&M1sWbA~EC
zBenH1L~*GR(=btJ&b3ms;(&97ZN>Gr)@v9~rp)mKT)ED3D@Ai8Jm*|w_<BLbe4G9X
z_;MTd^29ofcz3?q=`9)MzVQslt$J5HbF@t6TreqV6!CQ|F01@%@roBFx4f-g21T(J
zn^ubE9T|q5BE1Y4UHFxfpn>a^Vmul2@(?_gtT<ql^F9hsFJG`QTw(tCKK>ju2l)$@
zeM5ran-`zewU(rpCH<i>p<wNEYTAO!uz^l4KLwdw)tdMq{X$D9&if(@R}5XznMHAa
zXyQE7H?&sJqM&P)BvDPrm>2y6;I(~McJ=fP^hh^=SgDT!TBQAzN`XkuN1`CL;8}6Z
zMu{&cA1H~2g49mI?@&OrBN1b*xZv}|lotz>jLa8`n^q@q?vRe*78X^^P|rz3Pm-Np
zn=xf7{Ji2K6R<IXd7_#d7@L+NQHe-Jv0`ch|L>+*cKXt6SU{Q3xY9Hty^6qJs;+7T
ztIhd)1bvr+zfZw$Q}8_sUZdb91+OEZ#swEuFE+&r7q}(3=4o@UQiPciLX1`uv`2l^
zUz?#GgqfOEN1K|9)F)jNU5YPYS<Ssv?!}qW?Bz1OTY55LEg<jcKS972kW>TY$yW}2
z=g_^9rj3%8xU1!}^2T-BJ4GAid)FLTl8ZZT?@bJh$pd4X-s5Xl#JDP6o!M;Y-Gq!^
zQFnd()6#}`X?xt&ju0ZLD%7S-eDR+9W=NwcJ6Bmt5_F<sK&}`_dTWy23iiJ)>Baw+
zq_;lltx9^Ew@MwA?zQpz6`Z%`X8W5ho1XS$L+cIaz2e%N$KM>^EbhA3(ER4Wt+F=`
z+`96k<+qmabZ+#HY&49%>imz+@|zVusCvC>{qcWLpDd|Jl(fhtE$idAe(g@{yZpO*
zHcBQEu8Fv7B3W9sb_!Lh_9d!%<*MGbqNJxT?&*x%I}xIBH682Aw-0Yr53RZHl~&!X
z|3TyHjsL#Xzc!NW*puiOl{-e?J-^X00l|Fj#7$SSW5=z?j~3oqc$b%ZhVFI@y*~b7
z>?h+Ntgf9-cJ!^C-gLDly9Vj*H)@6U-u&jR$vY$OmT#F&rS6||rXu&}6hM3~+X2mh
zw|vc&YU7Gd@L#4H5dR=bGv2k41IO$64-WCit1TZK9xlbhM_&GTt?i@YLV{~~gwk7#
z{L(a~SedJXbPMs*#sY~4O!?}<``-XOYT?bt5TzF?eJW?moCQVYTyylDoGUE}=Q32R
z6dK1lm(&z97VmuC4+0OS*;tU%nf1kiIRC4}to5^r(liN9RDi+6m?zt!J$}3N6mm*G
zqJZ&n#TlbU<KLJdMpKjYI0bB$u&J{IVP2gjZWHte6cE;<gmrbWs+{l-@w{Aa49(1m
z3O>bL^b+2yW3z-SEK1nxWqW<X?w9TUTNsOX4!pbc6LHf%1?`rnG~sTL-3<x%F4?{7
zcIAe9f5N^$Zr}f@(*s@HU1y!9BZ^n;y!B+F`>5P~^kdgC;*sl9R<7{CgJ>~6cJ0W}
z9{xR!9~!W{#}5F8#e$}>hfi{E;_bBF+tfZ{<II@nw;p^28<$Trl27`UD#4Is(knhd
zmz2TMrM*zD@r5M&Q7v*VomB*7*<R?K<yLJd*I@3_iB}zI4;qx@O~28hyj~fO6`L-8
zG1|??)S206F<3fi1k5^HXD~o!RiIdP3YJyZiYxl~iZh?zjoun~?!Yx4X{z<wrSE#0
zZDkjMv8qX@(;+av2IIF<6f+ndee6UT)3s9c`xb~jJih9R@-LqyffC~>fWIDCxP5wQ
z`B=ADtNwPz1Pk~PhAD$t)8BywHJD~rchJ}O7+&^qRtRk9mCkfp9g-?yJ9K!Cq|=;B
zu%c9AKydNgH7;gY>QNJHP532Ch2Ac!RAbKil}athDRq}xZ;nH$r@#PnbH5nYEJRJe
z64vaQHA(vn>9n=tz6L*sRrmAmXL;R|fz7OiAsXNgoi{lh0zWu|eFLO&g$*78q2Rl4
zRpm*~PWZ?ysCo}vo}Io7cYqmRNS~99La4AEzCOS2bO<~vF`+6yd!E^4;Y%RF)o*cO
zUZ9s6!+TEkCCs*V@9_2eeHy>Z(t<OdATBaD*?^xIX+4QnmR|IzXjlew^X-0AK2^6j
z0uI>M85N1OgP(`S%=$B|;zPiS_BPwD$GixjO_`4pmmTtDXl&SGGI7R7dkMM>#4Rp`
znY~*r2HpguX3VGtar0<>OlxQa#j5B_mmo^r8rzwP^NiX~0f($#C35DtsP0J-JN>>{
z+LIC!qpYu0KTGsItEjPaC0$iDK@P^xFta9Wr;dE}Q)#>}zu4V<`AT>6Qb<DP?ip-z
z>Bfc$7{|keTVV;J0-D8WWI9Hcf5cu;9V-Aq0fLgTfg{@GTZBRkCIn6IkNW$by#!&1
z#3!BehG>O0X!-QACb3#RQW`k^pj0QJHW)E3u+1ku4}2MsGa*>>1z)GCONB#1Nbu)R
zaUo<dEl5$at&ARj4b$dAgdi7N&91FfUcM64kc2H2QAi&uk`#~H8Zx&q%wUTUZEj&(
zLZoTTKT3tR@keC4E*4{|1wJa#A}XDv6h)EHb3xVY9~S2s1En}fsG47RHUt~}8<faC
z19N5+=630KDI*CnQixu-N7z0Xv|rtvQe=?F*mJWn#mW$-+HlWOCdPQRP|m`!=cdI)
znpz}UVf-GI5xYUD-lX7F3LeeL{A(mp_+OXarMnp;Md8ILd6Mc=n08mCE4xnM8JbKz
zioAcL{{ex@yB%N#J~C=1Tz=W*Pq>Eex`vY8#)P-`uDAEIk~*@UHgB0NrS25REU2S=
zVJ~D8G7M_gzE3^PanFuqduJSSl7BGaKO_6k#J%mGdHqQ;!nMg|ZK~NWS+*lt)^WeU
zQd|OCX=QDqqFt_N*QKpSvOmHQ*|0NN-IQ$E12bi+l&kF6;vjPUoO2Yr*M?GcTvh$r
zV?V8E0B2cQ^;-Bw_`CCWEB4$9{YZREeEZ^$ie5FNc6E(EIQ06VSMB#Io7P+2T-~hP
z6Zh_kSMEtxRDZYdJ_>D2HKM#PQ>~nT?_WZgE3Qg-+huS2J4JEN-Y+;yVF^T`*LK|4
zaWk+{(wT5|%C62NI9ZSHuE%%JTk)FnhBIE*cl*Gm_ej!J44KT^_yuQ1wrz=yyzAKX
zp41Z6{33~}sRF&fNCkG?-m&RDe6OT!qom{3<8fEdU!@9>^{=BdAdYK;;|KYFIn*#R
z$h}|9kL<R*U(*fvg93hJujK=~pWuEI(tNO+CwMOl2fN1y%^$Y$qn)-7+lOs<_^7LF
ze8Bu;jvqJMe$4k1JYYrqj|a`joTb1f6^9vrTPXzJHhtUtZOgZ<-?lNE2V!!s7x}B?
zE30unnQy;Ce!AeTa<A`L5ub<S{*D>(27i;z^&Jc14XG?6-nM31Gp||JtZTLzt6+M`
zzRJf8kM(>~8mw!)&RM*T0Yn#kC{+L<Hb0t|hlkS!3Ua4AfTb%Oe%PXhi3TgrLgu0s
z?U|(c%(zG}B~{MW%RuXITU8O5wrE_pKgx&%)>O3t=qx*z)=TF{tlp$m{(7P0TH&F|
zHiTlm+4I<z2Kx;kGZ38*wU@!ZOT-4|>Ao3$)jU7=Xhi4FnXx_KE55I@y!w6B9HV)h
zU0@isu7iH{MUG?IQ_HILx-+k)n~2TOit1&M7FrjlAgI~$ZX!^{5sSc+Q8NSg#`iCS
z=%xC!rhBd~UA_*%YNpjTw?BF6|3*Ds`i|Q8(oZ_{@KRp>mW4yxX`#xw&~jR?axT3j
zeBUAMyY9%#>gN@K@|U+_y6&3Wne!1m>J$edRHGuEdzF9roBJrd1aa;f{z4Gxy7asd
zK6b4Zqy?wBKK)Jlp0*R9{?569^cx*oDM+{QX^f%Og69jaYWEx=!aA9uH?}Aa&B9EI
zQBT@qk2z&19+l4o51=}PDsK1=tE>-8u-vFCS~TBZ-RsS#@?7ATR5v-5NmkW7iWz*2
zQlLgfB@!7W5rO8a_O-s?nJ1>sJ~2g}aU;Qz$DWux89YA`7*kC1i;5G5w9wUH6x)tt
zl8<r~iu3SWA#RwlTTFYcm8}$#xeYaqEGiz2&D3{AsqB$88WzPxrHrvbx<XqsCn`nA
z5(PsRWN(#<rA4+?I|oV9pHVHa*$Hg0pty8&vMo?Wgr%U4GwDO5R8{YVqRw2gN-u`g
z?N+41_ZLYrmFPsXjLQBy_Kj$G7R^)mS*1v8VUR^B#o#Wf;pt6Z(vRs|q-ax}X1_rY
z)4-hv6r~kI=fPf}OI4mdgXrbmdY|^>acAr~6kdRs5IxePb*W~K{wW50^oIz(R2ekW
z?xNjr?)sEG<c`U$$2MAr6Ai<!j^Ar;Tfg{w3vVoJH1B=&B)k-Q_WjYp@4GjvI)5?+
z%~^SC%FR`^yeTBwC*<~tyOk5kX8-T?zR??R8hG9ISyRjJHN4S~tZVtfnb*(UtMjeb
zz9S@h9+!I_->5qWf41hDo3{H7u6yt8nSbAPSgz{4$=^KuY1g4d*D1N{RI<*0YhPmL
zA$jMaI}6Ybch|(L{9w9T_as_I@3xG_t48CEqu|f#>Tmw~>wDfDSikbagLi9t?x70Z
zZ*<@0H=6t5(*>U|q-ordXgDG_97)!7C+ZH$bq7&kV-3{J)iqEzSJ$L!x$YyWW)8;V
zvV(Hj!8_xLL+9l~=QqoyK6h|c?a8Y4L{+z3)t&6<Npu{PI}Rqh1`=H(a@R<*>tJ%{
z?!?YvdFSxP&e2pMSKV`;v!dW9c`%=!HVpq|Y7o9)U#4vM&|lv7ab@*iK*hZq{9VH9
zlfCf28{YJeB)z_bcbDwlb-Os>9gw{Pf0eQ#)n7-64!*^YTln8BJ8tJ*=a2K2e=yPk
z@I#(IZn1r6Y9_dqKW?*q*fvy;hmR~gg*F!23&(l$N5$>O51BvOXGJj|9kL?k$GjOZ
z6um@6D(NwTV;)tE{)qI{ap%<hYDlDp>x@J%(%I5E(iBUJy3covE|pe^-N-QJ=b_bq
zOEeilvcHDM3@j_~plpzx4RPm=q^kt|uJiG0&LrF)Yj?@DyW()_EUO}ay|uz*b$z0`
zORnx(a~p9#x9ln0o#GJOpXa&8_C!OU+|c(2JsbVQ8x13CmXGbVs?SO$Ye;P0xA3=x
z!#6ZzK-!rNT#1oZU-@AT=Vy4>Jc%u3S6ZnLJ|-_CIj7mO^&E6h`>3oEo0*55%%|>8
z^BP#a`5X%}mygAi+GAe*yK|*Fl)lrZ|Ga#P!6)b~hbaN9HP*;|OyLEenjw<tb!mP=
zAmz*%rnxw4m{v*Cl2*L*OfFZjOc43CIlnXNhg*J+!gs;*j|s@@sGLN~ST-jr?(F$r
zC0>PI4^m)A#)@SQzUc7OVFXJ8u;SF$m02OGc%XyRR}r{@M5Dw6&^)V>><4&SR?in9
zhhz5967+ub1-xMMCV7{3-g5l2k<I$SwZQe$|LWqqa~nq<$IMt*1`;MO-Cnt-H&Js$
zt~qk&n;Yb$n{=1xhKd2%J#hQXhI=$&AC22bw;L*U-ER5A&Ohk9b8w@7{A1T+hOJ_Z
zSA9mW4OI=7@$c2}!zGsYY6k(sgsPfab>l9{^wXKdMliEZ2xgtUnY{qSo_p!+5j4a0
z7fi4h*fUtnyo`4~nTeb?bVioxm@{jmeG<Nbv}e)+HxJkb-ZAN3f(A+J0!E==hSP-u
zHi5!NSvWMCKw-WCqqk~X+0G2Bhci7ybYj<Z|IU224{`)CYyu8u6Ho_+ZWAceahs3P
z2UDrq0rFTda)vi3G{+8*$BF?vfWhYHW8bmcHCtov(`$#CsCIx~rqo>PLi7KUQgf{f
ztr?}Bf_;d~XZOj2wQM`UFVns(i$vPNMyID07wiE1s_S`I4hwG&^<&m>(8NO5|BH5j
z^nCvR_4(RKRKL1De-bO#-v_nlxYit({y9bd3kv>_f;$NOWlTYxRzyqxhF&rI{htu@
z1_f*}CI36=T?#@Jyhi~obvcVC^GuTd6}@1B5RE$sJ8UVvL9yg3p=y;`CDX1ywB)FD
z{!@b9rQjn9NXW^OW!QLNi!HXj!7w3+%j!8?wBD)_4Yc6?HWnvUQ0YJND7ElCS6h;{
ze>BP7Ca9KWZ*S5Iy>AOt!E9HK&O+*{;D$_9aLU7!z;;ps+nEx$>Z_H&O!K?had5Np
zP~3YcUU`V*5lt(sYJrPM3tWo=zfAd<7Py4-Rwg`cvZw9;6$LPVd>8-Hkau{1d#{Wi
z?zOyE-VOMD6F=N%dEe|OxZ8v@@AvWq_pxxG<9N6EgBpIM-u6N5uniA?+EjMD)BLA<
z__0CTpYH7k{86VB@gH@YkvU5N40=!%z@(0NnA$g=!uLGKyp!KDF$X$zN87iFEU83|
z?<1%E<q|`zHY}Xa5-HN?d4c=XQ~JvD*Pl;#I%H2r+}^>Y2v*uO5*Zi4;Ig=_b_BEw
z1FMzsG7Y59O1Y|5Px=Bc;X%y?8&xMtCFy+W!|L}<s-GJPQNNb1HOnjR>+X;3zU^N5
zRHbj>k8Rj_l)KXl&NRc9>0pw-8Rt3Oq3GZfw7pm)r87)ls#TGWg@a4wbclAK=h?mL
z!=|PwiH?#}dxgzBIbEX^ktNOO5J(RCZosVg-ylSg%8tz$Y(v`hBXMWby%PA?oo0?^
zDduBl=e%Xqk8ykbUoz(ZT5EeYp%LC0sty2n6sqzOo4_scDpGWp_){oFdYXdVmX*Lu
zlAOq4xyAMs!k(~PYcy~B%WqQ~>rs;0MluI=%AU@I=dkQK{O(lTGZD8>XpO3_eMqAM
zU(qP3Hh)j&bA!{_Al1E$C_!)ZH}Dl`5f?6QYqU#PV0+tC?PS^wEHnB$)KD5fdS^l{
zaM#(u_5rF}23urT%g3%Zl8zd+7W;Q*x7eWg8KcE9K<bsRHEC*RB8x>&o4&((kyo<6
z#$PqYLD`7v<pJaK^kv!|5RP5y!KzLYs$vzy3riQJ?-T4GD|e9j1aC)DX6_7Mxy<O_
zA|&}y5<}8GyZaT_byvK6=cc`j$R94PWajI=(HnO)5uU0vJoWZv<B2pFjNHjF_L1aH
z7|prTIJ=0wJHSpJti3o0=fr}XjCf4%O~|MB$X`}I*EL<QuHSLciy?02(}k??zl8>8
z?_?nghEBt(&1O^3k$oLigtM}`Wm|K93{#v9XN=Nr{SZAALiwy7Ua43?(h@e5Kv9e%
zL9pD=RIXT|bY6&NPUZ^foN>OFR&>UUmKFb9>R+maItYr(6U9w(aZ{qWS1#_oZP_S>
z;d$?xmHPVd^}}&zE9}6poVtGM`<0369dh-KTf2XB_^rc<ok!%IN3hj+({=2gyZn{;
z>+?6oxVtrBZ@p`8eXvDq+qI#+!yNzKAU|}(^4@+M;H-uB{}TwdI^__^ag9JEyx=4v
z3yCL)XhOn)WjMwGCz>ouG^Qjgf-C~SX>JRPM*pYhz|82^AKCrZjpDs=@4jE4`wz=I
z;m&<z({(gY_e(fDIeSB)F>9`&C4bY|AiW+uWc22l1@t_R8j<R%V$n80(9S(6ZL(qG
zv<xnAU=wsZ&O>&axwBI(R~n0L_KP17?upG*haUDif~`u}+hlv&roAIao44WKld$i(
zYv1#L`ORD#95V5L%nxyve`y1hHIfYEPW=kV{c1#M+wiK?MlnyP=QNvOh?u8s%T3Al
zlo^c3_Ln~-{E%)|#ZOwhxleZQQ=PEy+V?+Td#A58bYcTuyX6gAC$Ct;;uSHR#V^x>
z!IqzUnK%Ji=3Wmc6c8IKlzZjdM4DF8Z^t4^vE`P*aWB^AkI$#fCog<mbEvXJSW+Ix
z-!5%gVP;*wRl?EZnv1=YSvNIuWlR(Lg3OdK8^Y|#Y`VlAGpV37XC9G$iuz_~t67$R
zOnq|!FVcO}CcE1<+#Lx!i7gq_yF+&GxV2})-IuWU#qE7e7j2kda3Y1uYW2&m{@Z=G
z#gAQwh>h5pD&Pt`zf9Wu9z@Aa;9A*G7ymtesMGRVGoU}>hjv*0xEIiSJ9vbOB^JUy
z_00Y;di)l$|4pZuujs*i><9H=p7?w$2{t2d@4+6u_oxxz<W$DsSvuKfX)&YgB%B;?
zNN|-oeWes=88Wt2Ycao1Jw{SOy2sQ_4PCOk>(<nUyFX#?kK=?B+SKsS{t12T8dUoS
z8yg0+xu|idgnxq{@>>33FQEK$(Yaru7aleiAF?617_tl_PLg!;PeIO%BpLg*GGhNJ
zp{dD0Q+ng?KDm6~M*04PhjxC%J^LR>uOL+x$^A+bZx+dAS=-Xh#lZ%LPT>e|Ux;l#
zq_f|BAtAH~Ct$;?SUbgx9cnhSgo9T_-TDRBER1nRS8m#K!!{o?Jn2K9)NNTTgk4XU
z;fbk7{R_fWi;k&J)0o;Vm+!v)^^Nl3gl9NzAC7y5wN28EogkBT%RjVYjxJzdpB4U(
zBe4A(+fhmW?V&I`Qw#pe*jz36GSQhvRk6AQGXq;1&n-3Q4nCLwX|pCvnn7I|v2>bH
zUYrqi-6_~8KbG(ui`$RIJ;xqMO(_3=%V2sqb=9B3L1Dm)egq)Sbpx@f6qZ3gUOG>V
zHS=LR?j7kA%cTbYlaBm1S;H)Yc=pQWdpF7l6Q04ieK77B{J%8J+RsYhA#ex|k%>0K
zm}CD1k=*CSE3?!1ZG$wGxbb@s86+aL<<f>-PmnQ^^r-hAMip!%J&E&^pnQqj563-+
zRjN>IbT0pbpcIf_6C7|93!T%V*wjM<vd(KEZi8_?U!{`Cr>xL-AnHzR;Ab9AJi~?|
z>Z~YXhi?Saly)fIEDjMmcXovBVIbWdx%*#4<h*YYVr+V&fiXdqr85Sl#c6dq2T#K|
zlx`qb!jG14QZEJg$r3I~;-il)Rq5}}&Y!`9XTSJ}P`_KB#Bi2UMU8&a!vVSc0Q^H<
z9ltrXz89*!3J08e=!g_kAq8HC#(6gH<lp4|mVad3i63l$ybeOpdL?UaGvwQAsIJP7
zq@6$V>2CGaZ`JgRrCTx4M)?)~GMXf<{^H!K{+(z=%-~G(^POqc$5qo;q&3_`p(b$x
zz3j@TR!O@wg0^ywDflJY&A+^wwzXqd8jo{!ZNF>O<{G(_sGL^8a_f`WHo?|Ob;4sm
zqQd-{af&DFNR061F4Y1_=VFPzS)BaWWvr*z%MZF{oB6fmlgkG)lSgB;Lq<Cqu**l=
zG-&pq^F}pq5%xKjxu>UxG49J1Q|g#T5_WvMFEm5z`*H_%EaBWC0VhsAvK+r1+%Sqz
zSNalRQ9HCKN}f@)%|GqNqAC)IzgJw^SK00m{h*oMAXUYo>Wiqztg~j68mdPSjnO?_
zn2#iD%yNq{=RZ8rCXKxx;Ny%V{j9wDwWn`9{oP+%bKG;6yfS-z_U~N2c|vx#->Sds
z-kU6~Oq90Br7elly>jW^&C)?*55o!CoZzkaOg$_wUiHML>udK)s$c8A(Y?-Zlr$$?
z&2d-r{UYq+%_?=nz4yMC^VBBYt?S=dKa=A4-Q5U^y0^?`4@S5d!`#XhwLFMcp^n#v
zUBgHD_uc&PVaxlT27-IM2$c#P1QE<Wi-mr;XWGn2UJc0IoXx=%X!0Xv5xmd6@<|nN
z<APrcI~1exD@J0rwD^_dHdD659Ab>!bgk0PWO+vHqh}CHPU)_6sX8=AyMl7AEY>(@
zj(C{mE1#^M`C9=i=F6j)Cl8~I-ki_jQQDQ^a-Y|-7BluB$13&w>3ZrjrC`E|>>4Ft
zuZ7WG+Ski=_Wlm$BY{bNwooHRo3VtRhjT5?5?=ISuAm>|VM`{F8CFd7$R8h(8Ex|f
zLr${_n^eGm0yat!*-2-#c~i_dFnVa)0oVCy_<)c09nwK3a6!I+IS6|Xv#X$<W*arW
zM+-2U0Q4m=`y6e0eLD2qY-9-sv0*+TR)FS*{4*jse6R`6Z<N2hYjisb=*&WmlW)Tg
zL$UzUuXFjLgu=<?V^2P6y2SL284PwqB&JNjI4Xr5gevNyn3k81p3{CaWBY`U4UOb}
zD6$@4hbFVHW|x8Kw4aD-n1T@m@OGdGxP0r!H>n58<sRxpJ)ALH9{_=<vpSB{McaZR
zei0-#I~~NYR}l}xPPLUz6ZDTLAWe_%qln*Sg9kXx=M@V$f@S-JmE)p#6iGAApv(Q<
zXEb;J70PFGH;$oeZcjAz$xVHUrXjg$DA6<}H%-Ou4M}HHyzSs!=RxBb&0#oBumd#V
zcw1CT1|{cpXVNv9#2js<IoHk(T<DhF-M1ne?n4Rtp}75!k?wR(I#q|!E4zE+yN++T
z#}oGPxP3f%WNOWluvf|Us)W5$ws&sY50d9^bG-GyUFU&2u|IkKkDrHwc*}0%98q|Y
zzgZsdIK0txWTWnAvb7Vg9dwN7$2dmR$sOY-`MC1{w(}Jp{xap@3Lk@`WE<LlZKz|k
zkblq5k6JD7?HC07eltH>V0ph~s09xn7VrqOq&S-5X-e373c<rX3}E2p;A&XQY=lUc
zd*x%+bw<vG6Vr4H=`+ZvSOlE*y-giUr{`!KL57Hyj&!4v%+}4Ers4eJX_h_B>jJh)
z-u0Zi-J0khll#XK{U_x96C3@f;ytJ0_EXzk0zgM<bICF8Va?Sm%rm29-l~$-ViBh6
zv@}Ut8#S_&s!Efq>OZk^eFewuZm)`g`DY$cm3#|Fz9ksFQ^b15Sn^P)cBOkj)8iFl
z{#{s-Xw!y%uqN4Mr4bsHIR<-%f(-o~v)zgU{eA(nR<kxHJdLuaG2!vc9)H5KNA~PN
zpWK=Hli(i(<NNb>gwcB15SH)6#B?XLAjP(7{dYuWU_WhFuBDn0qwoUvnWtgH<BMyq
zA^w6%T<l<~$w|L84Vt8*NRA^S)g4H`i3h)V@-2#)CEs}eNjjLB&b$r=6-SVEJ>&Rr
zz^-8M*Ox+J^^H`Ae2RN)a(rTPEI4uo2jM?8CDCdwk!2QKFn%(Tozp6vp~zwi*zCB2
zy%r$DOX~!h>0I$E1UcDZuBvn`k>Xi;o&pF~ob)XU$Y8}zS;Pt4OW4dV(dsY#76nZd
z(1sd`FwBnIQmivjF2y8bY9umCsb^@l6Z9hrIw<%d1wf*<U;8HnO;bSnWYvSNgrF1x
zcH%dh6}u|YfMOmkI4xX^K}L}Nf?|G7!2=5Z2L<>MQyk|)frkQS6d;aY!Y_?t10MxG
z3h<+$Km-cH4-evzx<MMCfUP>T9H`VfM$q?BfKoJ!o&4#|;Y1(O33~e*1T9gpOAqz}
zh<=En@)C!Q(;Wke_93}_D7oWsvZXUw-;``_PwqRI^!FtD_a^J=@&EJs72ewPX?bG`
zLY%b;lXrFf&8J>>rwZ7k9cNCb3K@t^G_5Ho16^E2XR3&SZmzy5<zb)~8$43Q3@pJ>
z%c)WZmLWD?+a*_Y-?qpVyHn*Xwt{QvNL4bh3SRa%qw6C#pL@OM)^0f4r>a?e4OfXx
zJq)ZPkW~~1d^y}(jVyM>%-M>6YAsLN8$NZNzh7Xr*-|AaH`(5=H5*NB#YxpY$>t8D
z!O1rN=hd}V2Wv9!<nHH76%b^n78VlZ$f>lGB3)cVbE=3SH`U%lke4zS6I8OT8Ko4B
z=GUak3BnPwHK|I1s<_6M6xAVB!#T>ns0FlDgxYUWgHmpKaeyFuPGdfIR#3fLQ&!xy
zdK0A9o1ks=rbrikqzI5&z6sD5yLfBW7dD5rD^<l?hxuE3Zr8tSj`xkoJ4d%Tib2cT
zcO-ZACim<o)Kyg{{oSCR&nriGYx$>Tl_@I$s6=t|`U%<FlPX}(cCNT_y`G*6*)u9s
zcT>0#PC3~l_VPEckIF<n?AZ;JuD7g5*E?VTTek$czCYz*@m{V<qY1gP6GTzjn<{26
zO1RRBR4D^-9=C73_4N~}a`srkRaD>HeIt-!H3W_wzO8EZ=7h;(9pXPNZcbSVpgNbm
zD%^0S3fQBaE2lb@b*2j0vjYeDrko6Pao+Z=A_fjpUu2`>i^@6P+WV=uNkxE_o=|vA
zXR3gKC>Udhffz7q<%-y&+dzYdJ$tvIp_s*&Y)3;Wdr?McC}&`Wjs{j6YIoJmqV*Wg
z$dU`YwyG)37f+eTc<U&inlw4A6a4!0t;cSkf9tf|zCXoL#2o=AC*Y3Vb6vZ%-tO*0
z&wpO}Bx_+!%1QtlSKXc}V4&JK2BMF(PIa<p*Y;W$u@`QtwTFRTuBmlhc*Bt@W{)M?
z5Wv2S(c`F!S9RSI;#K`};lNfoOO2Jz=Ej+P*3O%UZnes_JvfZr+DX){#-g4!Pr_O*
zgFun0d;QSuR=H(w3aPs9?54!fJ#e-P_A+I&SsT{BzQy5|^77Ub{H<0R0w?$_o5|X~
zWj9-!w;UF0+m?$3ChOiUJ8wPkxy@=lyk45(aJx0NMYqr07VG}?*7fKceh_nWKMumM
z?kD8pmU1D_`fe)u0Jafg^xQfK?I!Mb5J~rx-302qg%at0yNqH%t%%)^Au|0&Cq?Y1
z=OgRWl<3GU6pb6Eqo%fGMOCt)`E#cWGX&_@iaXFyQhBrNMqR3ap1|*yr3wjhaK+`X
z#%?&bDD~%cZmZ+Y^cII32w;dG<v%xfTHVQZe~R4?9NwaPYKmw0HCa#dH%GDk5qAyc
z1fqBq`*rk^x7HcmQAgduItCfb=$(;~K;v!G&C~R<iDmp8{nn%|aJ07hpH@|9v$W1#
zq+l-=K*gggnHT1x*xfa)F79kKCp9oT`w~B4a+SnXl`S9*kz$3Iy?9mHpd^<mqLBRt
z4*gPyx-pvlFl3K*_&DQn%C!{q<I+8_0R)$za*Q&5MJdaC2Qf9afNDv^s3{fNEBq8R
z`%#r>kD8BoX!YkOd(?wJ89$@Nz|Rstmn4xNuu{wlARAtfrpaVHj-vi*PlSGOn*EfN
z%8n7|rMOrYZNIX_7#i9lsMN4{^@oU~J(<586V-lVMoo~t`;62tS_^Ye9VPBdaj;CZ
ztu)G5H0|@6Bdq!(G7V}PoKG4ha|O;<R?(+pxS9%TdRQXESy*Mn=qGZt3b7yK>QR4^
z3%^66@~JAy8Je}91X596Px)%uN7R>T+R-|bTwoNnqtz62)R*>-Sk$a{5!h3-cRqUO
zW+h+g!=?wK5yqryC^sU}UI}Lyv7gP6nkiRxcCH>{mwHrc!FzTPkkXiwNZSa`6e9FX
z;p`WF*nzVO`vtY0^al;Shu(MUQL$AyC8mq&q*{56*V<2_sz1U|sYiotmu9D<Ju0C_
zC1Uecok$mDR|yT3(9@xK;`H(R*6NAtDvmP}K=U2b4kkEBjO|$}knyzHe6C_Yq>3m<
zq!pyYe=hou5#UEScudzE@A-4C@XxuTKj)l3;||N*;ZL~opK*2ni7WYY&h?+Us!zD)
zPq@BMxb9E5Lkw>Dg!BK58~GVM?ql)2pKz`0|M{PBPqLW(pKyrm|AcG*gzG}GpK&LC
z#-0C!JManD^9k4XbCZQPea<2H3kSy^{Dj-}9}CM~eQKky;RV}$+eIhew6^jW9NpP;
G_CEm<xJf+#

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/coordinator.cpython-312.pyc b/v1/engine/__pycache__/coordinator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..47e685c467bdd8916c6bddaa5f94a5240a016fff
GIT binary patch
literal 13737
zcmb_DTWlNIbu)aEqC`og^`<m>i?SZpN?yzF$dYW!mTj%=eJQ(TDb7fu%!hVnXj#e-
z>je9uZQZPl1hCv}unHO=a&6R38lc_+MRt=P1N|W_?Q$}45G~>Y-LJ|k2iv3{?KyX5
zNQ#!@0`0YV=RVIp_ndR@J@=fee=RI@P!PhVzYdLkgQ9+q89kV^#MTBRZcr@6(qU>`
z{nFz!$s5KE<ZB!^lCNppOum+J3w#Y>Ys5Bgqp^=MY>zm`9VBfE7et)nPLei<3nNA2
zMG@Dyi{vfg;z-GONu+eVl;o{pcf>R9A!%E9SEOvbEK)vRPE!Vob8r>6X%)-yN&|I*
zV(srytmC#pE2|=91yJV9lvR_mLMSWBl-11BKG&Dn>8y`dipBzbAROkxgR$sjXbMUS
zLeY@u567maI3BXDNZ=CZUx>Wp7h=Inoai$sMN^#UkIedmv8c#h5tR}F^0Ry_$O(d9
z42fY58kG!3r$SL~FvfG|;^J&v6qH@rqVwE4aZV5~&d+j)#2H~~HW0it#06t4jA~G-
za0re-@CU;oE-Dff0xZibHeot0vaz{nP@TCNXBapH`5P2RA=7|iG%(A+nI;Xa@jYai
ziL*f33~4K*ZJY)3mCy%DEl_G_t?yCej(MBUt`rW94aQ<T8;S<R7$11wLQy$+Mw>Dd
z7dV!gjPVQ`5CfgF8bKMBn+?b2BY?ZWv<;0N>G5?r91MgJAR8ay*ib;^1ZIL0=Qu9P
zMB-sFG#loap)p3CIl~8{m-JDfWgyBju_(vDND&|_fi=kk6FNDl85kR31dhMV@!2lg
zfbGm+40s#_L<BJaG4zTsTp&1|Ggw<N&hvn5c%GSw3nDWY2#KNS6d9F|N28D?BQgxI
zF3vGwKvJ9*d>y34Y<wad5~cx55h9KeV+@ED4y2+7V*=VhDJB%vz=UG~wsRs74n%`E
z4$B2YLMRp$GDx51xLJV5gJdwVNd(MjI3n5&yedP0=w+^fiN+%nFm<GnhAo+^N+m|`
zuM$@1VlGaH1P1=|T#yT0M*bm5a0mcR=)Oni0)o`1$7;C4^ssGadRdagv|})vxsW)$
z4P%_GN_}m94B)_NV*qc%AQK>FTt*%O%v3lA<k6?oJsTi`h8*N@0-V-BLuqGvz!U>a
zFcy!BItesFAwfeC!mofxFrAC>mpER~zy(!_0os5-L}Hi8WFr7<8+8evnS9J(P~cir
z00D~W+=en?J{p_`fe0-Cy)TCXWK@unPM%}qL6GZNjt^iL1`;4HutY#wu$6|>(AaQh
zQyGK(rprGa5d12c{BhX7q9}r_A0$IyBAhrKV>7~Zj0Xk;0|H1ta_+*#f%6yrLu3Be
z2VNV7wt^6tB2ueK2u_U58X8Ab;ZSFp6@cx8n45+*jH^=xpbHj~Kg!KPmTY*M-~|Iw
zW;!rC%Vnqo)0~SjfFCCu(1z&oF#|agCcq*m>oFG|GdCTAEdytyBOc&6ogs6fa99Hd
z+YW5k*(Dy0iJ{4P(lMCb;<~ifFTv2!?K4q_*4G>^<^YN_46c{qI@It1u5F_hj84QB
zmIZ7I&l{Tzu5wsVTM`b0qQHwCh^;Q&XGs#{37{Q0tck<f7%Vh#8U&xPP2H(gX&b&m
z7GjtgJq7~6avgxKx^7jJCV;xyUdJ*M^JJ)P<cHltoQ?}jd=`!aSYKqyu_&w}=n71P
z#TLu573xuN00M!ujh5Ycvkp!NqEj5~k9deEF8!dva~O{9pr#0r<IoPV5q?{3P<n%s
z=owPHJxUlPI3F*;fhkx|fdX?|tNsoR?Q@}N<q0E{>*s6^sDug1;cUzg3A1FnLJJ0(
zlFUvjVG$845+sXcykpc=l7v+<00g3(=`Ganr8bI6*mC;Wq--zybIKiJp$<i#QKCR9
zm~rW)*{@ivr)Ns_RQAi_yt3I$O0r50$<CTTG_jUD*4r9IB+8$efke%CGR-rInet3B
zlh82)8d(8?Q?HQhkju;i#-sd2dYxFOr)C&EmHkST*r4Zj#$$@Ujj{m&pl0ShPx)+T
zzeEjlp*2^_A)>oY#euc0>WrYMIl{4EAneCRifK9~h>H8Q(a|%wv*rNtnG~nGKY_5q
zS)}YDC#PRqNq*GpU<+2<6L8l1V?<xf6naQuUek*J(jo?U&=VC?G!Wqw%cVKU3W|jd
zaFJNl=T=HlAM@+T`UN<5l=AIm5jYSy-XEG(Dz{gFUW?~(*dLzA?=w9=!G~C=;0u6Q
zO2zh$I0|UbKolOAgkr^m3g=d`O_{_}#Ra<>5G12vDkfAZ6*KIWJkSWYOyL<C6_XDB
zP&7lJ614=#mMOB%ae+%bH>ud*Pz;0tCmuyhariTNpHndjTzHblb)i_<SwbM*jk$u{
z>D#jtMq%O0utiap@2IEq6<CAvtyr~dfq(<zPNj!G4Rni<+3wlUY^Tb&&MWbK`};5L
z<GRD4iSF5XIIpAKm&4&m_vM~$Rb0ArsM9q&uh{%Bak!rN7s|Ggvr8{O0D}r}fugQb
za%p|Kv@ccKw`i4JWy>Xh^{u3BI9W5iW*c7o)`qJ#?Rq)odU??#mo=x$j;6|vE*8k1
z#<b^P%5!khzG<VXTOL-uv|5?m)w}3;#2k>z>sL)rjfQ$h(&mNgs`{04>88;X{I48c
zEP7P8|9;nlrnS0rNn6dM+Wz~s4?JtNXOp(-$ED0#X#-%<*>~4}%m2vTly>)}+<kIM
z%Ldb(W{#zpW3umv+<HK6JM_eE_7rV8DNn_wo9a5eMLD`0i>7P#%`(bf_<{X>`v<P~
zUF){WjphT3rgd9`%=F>cE7y~6?W3ytbX9w*s(rQZ=N0#delha#$o+$BRVNlrf8*K$
z;!ui(=fpT44QiK3ETb?@&WkEYz<ELKwC`P@ZqaaO<XfT5Et>CykANK+z87Mp67Os~
z%Irexc4j@d;a?(1+~<IME_d4HOSybWn~&cMMceSj(~02w5+t67FU(?xQ*6?3f%4G{
zz2^xPKpTwXr3=*I@iVW0x(PQ`M%#`$7<DJo^Ibjz4+j#(`!L!MQSS7sbFQrFRasw+
zoUq_~mH^s*nBO#rVDUbBmD)fOG^JckD{Q*uP^#rn(sd|lJM?F$(FFYnHF9|iWf-z2
z%{;~TLjiEI13u48#2gIA1a85-9c5BD1?|bY2L9NbD2bohDhWPkeFeBUaVPfsVVm)T
z?i3GW+UfVd6Ay&78mr&W#)5u7kKE(?AX1Ei$n&^v6*J)le+a9NKy-^Du!(r_C>A8b
z{YSty?@><-^=8}Vak|NTl3p#^qVT&pO4H`{)!r=%KARSU`S9wi_j>Oe@AcpEZ&8rl
zveD)$6)?g?f@gwGw=LZ1a;*qp6EMyjd`6{Um|Q_F;4N%tkwpB!f<&|QlmQOd3~V@H
z4QF|jNHlq9nx1+d3i(VRlv(iPjFs8p!T>;DBX!J5{qp3Z=`&lk#sw396zchJU^IXc
zl9(UH2p5q`$`hEv=o0({D@5;6TL#+PthT|LZB)UX9K+T>K$Jt3VwUF6x?-F(fpx_^
zZsN>#id9R&&cd4E2lf@x!U1*_vo3?g_L8Zew6Hd?yx2H1Yv=4cX-=#I#wmcGa{;i0
z_J!}6GO!BR61IqQ!apOf8_kyE0(=VRoxW1O5eoTT5GgegI5pKBO4ZKcFo9$KG92>}
zA&3&G2QwrvzjY6y8<eQa1+ewDmZm8&(_<&CSjP`UAk!{KW6i)BqCPMN4O3Lm@HWsn
zVH68=By<SZ4cCfHP!IYy<<IEZpfgi`<Q)m~P*0OKb41KgvVArl>lGtd?-c8xX00;@
z#Vd*#uIFIiLryDJbte*(iszBWXCj+DAtHYo`_O*D1YbPbRgpq5Td3N$WvDlF?Yw>m
z>V+YQu2PR|mCN1hw)RKvvKt4lAN<~7INofJyZi3FwcdSft$Z-meQdS<!-5|cCcBTN
z$_Js=xzRR+Lf-txugp}%5G^2kepWKzHW6in=p94@31WpFGCce)l;rYIq9oHDI&=E~
znU%~l86N4~K|7{_#ztLNrm1<VkrHv*Bs5Wc1;{{#A2XTTjoyO7J5@$n-h}>h)D`2K
z)Ew<Io`tgnWs;C{p%#ozgIPULw<a;%6=H+)nTZf99#jv}$V!eW%^<6koaW{yVga5d
zc11ouD=HS%e5;s3(aD(4qK<_7QkGOI9}9ByD*>m19MyT+1o?&fXL*{Zwa!B`;VeW~
zsi(zMd7E6>Ec=F^nvLa-#ez+n)qX&BmZzN^DQAaV+$<M2%Ee88u$l^s{`0AWDz5*E
zqU{GBIZHn{{r>4>MgQl{{hLN8`ICTp=?Csc>hEd?OvX=*G{nIS^`Q>e30b3yaPP|H
zub4UYb?PTfES)g3h6L<I2`g(%*x+Ypsf0t!NDOeB+UXW6+F%?KcDkXmraNZ+2Dq0>
z6y(5z_4xvL`o5|U0N*@#&K!8K`d<JqbN|c&%!5}5FmP+g3q#b~L$LQ0Nrf{dc~y|r
z_aWADX&<nfzE&<~ZjCc2#Cd_W>U5_;v1G|VeYL$fKTnw`z+;EIGHc7i&A|XS{Jg;0
zb6RHB<qRsfc|o6B!X>$8ym^(7l?rnBU;Au*c3#iv@BH8P2MH~<Q)0b7hS;d5W*YQV
z_N(K~Iu<~J_1Q|r3m^lD63NOtfz!Bv^Fown3lgQ0<EnvmLYhvv0q@qlMvxUz$0b2>
zOQli?!qw+`r%)d+;gLK-L~?xFEIAUpa6Ls!Vcgw%-|Sb%7h1szly*sG$uen7l!0Al
z2TqF}de50IJ(c~=^kma|N-EQF(!a1b|DR}?D8BYU#ET6Hl1GP|@W2epr2@%wnOdUx
zdYHkVSu=?Wse&!KO!4%!|9HWyP(RBHQpV+%s1#xCsX?j~QGX{vM8%neNrTQG{%7K0
zy;Q2y@n&6UP2+zoRkAcL8Mc_@KZJY<<`Y#py>{FsbV!M6sY<FwyCFX&qPj@}mJun@
zPCVFCn#rEBBdnPLy<he#4(e%LTJ#ZV>RPJ_PE)WUW_O;Q)_ti2xMff5=<c2OJC>5F
zs?hqC(Vt!b*S#I?5`FD+sq!s2XA(6DuVfKwC9h<@1bH4@#EBZ#1SgFNq=cFo*5{P{
zN`)Z(HCZerrzT5+<a~iFnP&dHl+;SKGsm+d=_%fDiUO-{?aWENB>VlgUUw>6rl%5h
z&}UT7WxokVV)!5KOk1fA88d?lL0(AIOU%qzULj-?4N!i5hw?_LQL+>Jw1cEjeru%$
z$wp+a5_Y-g>^5-fW!I}iYDn0m#)LiEM4;dqW+qS|#aHEU{?%u3V0S^E2B{A0v9{Zq
zt_QYSX6ChL+e-B;jrUThePhSk608NeumV-bpKWo4PI$lF2D0J31Sb_Amb`4q0yIlB
z<>2`Cv;EjI=+l%VPfePx0}>b=fwBJL**;{fgG6d!9Sc^HLi+ZAG<UyXymHB_?=?UR
zFO2pgdG|_nIrx?Hy|4n+6QKG3?F4AncMJVXQ%lBcw;HJ)&{^i-cJwA_BQzB?syaB_
zRP!{GsPlPk^IPIgU^~=#U9+!HulUEm{BH<or8dn5#A*H<us|u$j6EVedr(Xhp(wkB
zn<c&QN}m3o@k+;|+?82y+=FjQ_fe`IKixZzjyUc9hJGa>J|P78&;&=WNau$KhTdH0
z9RQ!3+D5ORMK5cP^Lt_*-QGEOfzZE$W*u4tWAK+R0fu0(u%fpZ>|t<kL6ZhSoca<q
zZKe3a;K1mxe|U7@!o`t6|L_=(2jW8KwwnVZfJq#t5ua7Psm)+{i!l&u*e`VN*c{(^
z?A!ryVq;)GnVnxae_nUvlPfHFYXG=*#wI(#xDL+(z{)?%v^BFGOf&0K;b|0UW|_7O
zjgMs7_!hipVwcgm2!tV?P4YkhS|iqM*TQkI0P*C31gV9Jz$DlbROe<WsQR(Nst5>y
zd6BfyoqGh5I((OJ506?qZ^H=hB1BU7GmuhDZ;ZWqOfikUIy%a~LJB}GF7vNr(#-LE
zj7JN8l;v@^Q7mKVv4`g|JU10WuLhKy8yy`vs~Ew`p_q_=Jnpg}k<d~xMgmuqQh$!s
zlDK9B#TpT&1Q0rsz-Kv%g^S|D9L2<jf^fNnml~LJz;lf#OfMRQ8hHF6^01SDwE-T6
z@VLt>7UJP%RVzcWA5lf?3orVS9Ew%7t_n&~TnvRn;=Jbg$+(JOeQ;M4mk<P>KG+g@
z)pWy;AZ#acR5hN#Or4rzTLTP^AbhT(6vJBwC?a=g@+d$p(R|5jNg?6_fFfW87CFVt
zaue|>#gWC+*P<FfwqKt?_SDBp{C5x?mnOx24YpDU0Kj>px@=j+6$VF>W_m)*w-pd-
z6l*Q?SqVy^?(!nOGNnKzmmj@hic_z{9DjjO8@UR!C?SCKdgMA-c*22Mc%-D*kQjd0
zGn4`}g=tF~_<I>&DJf;@ERZmoUDA(yRUBeWcS9+qgkCs1pc-*Vvx;RRJ~;_PYcyej
z%-me&`4(~b73v&P{eLCeNC23-5)8*txDYU(z^T}w7Hk~Aef}!u(IE!tAya^+gnn9@
zkj{pqk(5>2B!w2}Ml2aGj8yX#p8N|f+jbygzS_y)@?B^vprr}y9Zt$!zh3{+T50d1
zb<;vsR4zK@s=7rNq$_I|3+1YsMVA`&?n~M#o?58F8hKZ{?5VhM^7_d~HFY1Iym?aI
zRrv?Ixv*%{L6z1$a#qW`+MeIQOB(o|-=G%8E~~on*7x69qGfko+TE0LH?6r_R$JHH
zJ&!z9H%70IZW`#ygHMgdU1i|M+Ex9v7e@cOP>(h#M5c`@YuGHN3M<o2Z_4Rio?dsh
zKGw}NXV#r(AMdKTF@Amgdv7fsm!bUJ`{$O=-08i0;MRe4=gWG@={xSbRky0voqaM>
zpLBZV(y~WY-VfQ2LN`M{xU@Qys@=0z)syTSPE`#rS)W*_!>8!wzI1i}!|MJA;*t&U
zYu=k|I&^d5llrBCjmo-@s&7``xp1%g{`7<L)RD2Z&R3SJ*DB91S$<va-6(HOmiNj%
z1Idamd3SfJqHUvRZ@TAXs^{cd&nYZy>s&6}Xz0J+@xYa=e`D#C?5R(CT2h{tAJ6^d
z-5<T1Zati8J$!#=t#xGGbLvss?mI(wM{bSWK7GF_)p2C4?P$`|EPHAmS9+Hxe^9ez
zk(=9-#SI&7X65)pcf0IuPkXyl-tIMT&(d+Z+?%ZLO_ld<R4|Wgn?H)(jHPS)Qnh{e
zUR$d@v~=QeMZ?OzI~RYxclFGA#Q_k773&X1R|g)}bjmf2D+4!ACEE`@tT_bS?C8DM
zbL&8|q74vQ9lASuYjmw`|8k*Ry?ZtCu=?O5Kw|g7`;pY{)1NnwuFx{m^b_ZgoN1;v
z#q|FC^go{Yj5)Sxq*~6<n-x@d-}1RfH4Pt~zIj?^&dE%t%<KVUoVONSjvagM9=dfX
z**}upKa$*iYI*3x(M;1<)TU3d=@SQ4Sr6^IUru>;14UNEUst!w)paW!539QX-=4k6
zn$C^(u4R|p*^{hjmn&-06`iRHm{{9t2fzm>YGoC0)>F6A^3dG|U21)4Z)eKex#sN#
z%JuaBQ|(V{Ke4R!oLD-sQP=X(yMOy`($kf!?vkq;($zhw>Yilv{-kF=#2ZX&n(0e1
zeM=*9OJ};}aH{3-(z#!kw*b`oW+cSwn<-{rnmL|gjxU?#=Du|EK&p9Q*^!gnsA*ZP
zdsx#i*ZEfc59<!eOgns;LtoT&$i4g0y{A&Wr;-<5PxhW#>wP21?2)_rm(M|T^PKE$
zT|N5Hdq4&V-4AQ_KL*;Ky?J)iV5mn@)b9pRGUJn(ZutMS#14e^P))t*#=%tM;Ier+
zaMLC?zO*gd)&Vk#v)Y?t_9iR#E}N3&$ADTuyuOFk-E!;h)xeLgEW_^6@X_eaQJFdV
zNzH>RKvRGX!qT@qDtGk)dOdqnHC=LpFWu0WYUoQ=^({9gD+hoX%hJP&-Es}HGWxJ)
z&&PFOg@tA1yy=8p!Fyz*h5;r6dmI!X;*@t_<7)W+&?mn2iqS9J&2nAi%3Jr2CTj<m
zPVBsxrq)`IuX|2B88%by@~?YvYr*~HPb5}19n3!=h52~__2y5FZ5R8EpYCqE*l7Nx
zyYXV7^_Tm~ApTXM4N88s%LcW-Y8h*VqV+=a#j=9+QY%!fSJ|Orz0rKJ!@k~T#dN><
zRobdpR5hGm0oaO1JAd@!iX1y<w>g7M(2f|IKZFDrnju!hPVVIyRO0diIugJ<qZvjL
zXvobN9<ohy427r?=7pIZjKz{M3l-cGw9l~cUzvA~<Za)MkKj;+#mBih&(`#ZfABb2
z1SdE-k=2Ki`iomUUvnSX5;~#VTs_J0;a_mtp&z&KE)#~}xd1z_zk~z@Ir~&leH{yL
zLi522F@}wCLbO%Pz(Tb-1dkfQD^DJj!jo9?f>2Ykv#6i-S$P4-#v_OLI7CVjQ99M9
z)u4FtXbV;fw^2ngga0qifsgAa*lh))Rcz)&+(0Z)*=6(GT@o}{Xn0m%$X9Yhz;gjz
z*`O<wQWbSK-o5^Ay1X-0-nl9!_l_jHPOX)n2A#oHl(u<OHt%{}U%KvCs_t02?qsU&
z<b#f6?dzY}-cbFrF9V!yul&#+K?E}i34G<p?*q|-bbbIIqe1gA)`LC4kmI?;8(dzH
z3_JQWHSq;+WFzrL!aIr=jt0I4d}X*3Jb+WI!_j<~hB@7f2`PA^aYTKi!Jra~qV`Qq
zm+#OYM!u~*ZN>)b3v=?QT@}eLpHaIu;T@4&8=wSVt?(Q~3e5>fJP=t`2jn5M(6j?j
zpSdE%k*laOUZuV$D3$jg{zc6{*Q~jZe_V5K;QK>2My`)62hz1&soJj3Jl*$eQtsnP
z=W*Cc?{@rs$C_*3t&WvfmgsabvsTQkcBEXO8SeYzS4PTng8rl8+9wnM<m)X1wWd#P
z?tw;=kN%Q{5+8lsSCsGFk3xm|iUKY~aOVuFub%lqEN{XH(NwRKmJ8$$ICzv@ejX#7
zasJzYMl8c<7JkC#5aBZmi+Pw{xv)v$_knSXd_g(1l!6-2x#vkisri6hR=H_}??zq2
zrWw9?s@HE?F=eBm%#JAs)!P0Qw%#&gX9JeCy=jDJ8>AaaX&u!xcHOe8>B|<<$8LU;
zmW$mt9M>J2Mv`f0))I%m@k!su<6n_dZ3Jxaq|9XQzt?x)bpOJ~_MaYoN<mg#QaDkc
zm%j@i_)8b^7Z|FG6|Rqb3`+TSwMxAbcfr*dZ^Y_0LoVqB_+YI|eS%9KwJ2(d>Vf4=
z*u8?Z!CS7-6@@?dfQR;ek|Q^Mr97uvn1}04M61R1t-A1wNR!JwU8-oS<^r;rdGs3i
z+m8@DWKiMa0iqP@RcaZE6?p}y3K5zS)JHWZFh%%2jH$gCq2oib9a3NM9O3^3vbg?*
zZ$bqAS(@ImP_*+mRM~H+g5OX@zsH2*->8<~QjNc*`hG_Z|Bf2`E!F)y>c|&%&(a%f
l_S&nKuPx_ky6Opq@z*m31Ks?Dg6M0<h>7n1io%!-{y%|rb~XS2

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/core.cpython-312.pyc b/v1/engine/__pycache__/core.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a3625240701255bdd93bf229031701889a21c6d5
GIT binary patch
literal 55949
zcmcG%33Oc7c_#P@wWC%5g?%gRC=e(R;Jy<CKoVR)iXbH!l2ron3M9ZP0De^<1-Ky7
zZcQ4r<p{Ksh-^D8Xj&aZ$4X4+xZ6y3P7h@{edI~bbUgx0m0#F>=tO-c&dhX!BHgl;
z^vrz!eOsYWq~)H>CGqOM`|iH}`~7p5E1!dln7%eX`5!s%Z|FsJX2tX9kMcO~O^)Yy
zLxdZae+|P1_MSJK$9|2&M)qqOHsLofVvbsdEe48fj98<#VO!KbY-jJLNPg5Y>|lO#
z#2IxByQ1!4H+#24JW=nkH(D@Uz}~Hq!f4TO5%b$3zG(4qakON(Bw9LL%EAnhvf(mT
zZuxLIe(jNpXytHav}(ADeb0|nM{9;_nBNhpjrxcE%<qiUMeB#_nco#@h&B#4GQT_0
z6m1@EW`0kkCE7aN%KY9)Alf$E#{315P0{w@_Grg&2YWA!1f!k9oy=bp*&OW}?uvE~
zce8h2WJ`4G@K)w8j%<r=AKuRVC6OJ`ox?k$yM}kM_tMDj=$_#{(Y?caqx**UMfVTy
zj~*C4z`m754n}*1dzimGawyt6+{^qGk-ljEaDVjh@Zso@;Um$b!$+e7!voP{!^fh>
zhmW&3m5~$Clfx&YgTsT-Q^TiNSXJb7^qJvjn7=x5COR}c#QZgpv(a<I=a|1X@@(|E
z;pdp&A9+6dx#7=6hlhvRdtKy(=!?TIMn6CNdG=l(c_|ti4l#d2<mKqd@OcB5$A#;|
zqu({iGiaFS8;8Su)9@I=OZa9j{6ZdggyUOY<M`I^Vvdm;zR1D?2x|*p{H{?69cQ7N
z5ZWFd*Fq;)Xa_=r;R!AD(ySrS`EyD*7%)g?KKzB5a3D{z^^Qa$Bj+Pw$$lg}85Tz3
zQv$wQ4$s7A1d3qqe`P#A6dxJAB)LbYCgb5(;?a@Gkqcn~AFboD(a1<FCfQ@-7bZto
z5@g=jf9TwifKf8`OwLNyv$NCTXGa9dG&&NCBa!>`h=4-Fk>07vvGEI1{<D!tRQ99f
zu2_5|9*%@#u@E1Q#f7Qa5UMnKF~pDKZT$R9Jj{otg{e`BaY2}xnMR_5@FcY%6rQ{s
z3yqG9UJN79F+MpS4@IUfP+bjDF+UTXMvM#NlZg1rXm~n4J~c`4PE4KYIYa${>KUY>
zljlyH9XNTaujfSQO#hLAp|fW`hu}ITr4Swsk6#W8axtMXVJaFzzn~##n(OqbQzr%n
zkA%+l3>_bmTthR{(^CR!e0C&u37ND;M`q85Lqhlh8bf)ogrQhi7$1p@&xJ$hXG51q
zB5Y*bV?sELpbMj+i{X)JsYXsa6319vq)<M5e&zzI5s93~=upisgyW%$Be9F2u}R8l
zawJOq;E9f03Ww&RUkJsfMlXeF2wZ%4bP8h~rtXPJ1u-O4`!qftkAwqe$$lt;=tq&A
zRDVI98sSh3UCYlzQ1wffl^&4WAo-~9tiYI5Mxlb-x1sZtA**0mklbu^CZ{kMRAtn&
za7fL30Mkqu8yRJ_*FsOt#HVNC0jpHd&jzt~N(jqgXn`K2jHFb&A&4fTRDA|br{Ti%
z?$f7~nyM({^O=#!ODv7+Tzot-9-oy<lhoHU;n++hj(J`x7j<-Gl8;?PXP*qmNBEKW
zh*T(l7><6Shvx;%*l<iLq%PsZm&ZrLq47x`KQT1k*8fU)bVgo$uH(=4(j4xUr<Fl+
zYkh!)7^mn3C#U#u<jl+@maNh*SdD5UT#AQc&%|iSos3<W#w6)O+j;7I<-LEBy(7cY
zp|~(JN(-2m^E;_5a;%R~2=hIL#S#i#kar%_!JpGPDCLFDjLISM)2X~X+RhHgFh>U>
z4nxDR(a!N(cw^Yao5JR>r5q7?bJ)sT!Zto{&dPCPHs1Q0dDzb4*uwc?2mU$7j1+Us
z#M@sp4ZC;>ck}sUc`P)KcOcZmZ{?j~FYgLF5YLS~3V2VrFkGa>@gj~dT+A1QOUCl}
z!q-gSRVq1Ls)Q9GMj6Yy9A#F>xreP<DL#C!<cm>T)D>lv;Jqq4zTAq8RHcYj&6mB#
z4cGA7_;UKfSD<#ad?mvCd=;K`{C2(?_0HpK@TDF-RIAop>6JX*k1q`<jnda4&qlr;
zDVz9)a5D=v@r?*=;hVw^<-Hm2t?&oJ4y6xT5Ym<rqZRL)>>S2q2OkI*;ZP}(%i}j8
z7d9TOtv0?LrMFW|#NEkvgo`j<`QZ+^Z)n_b$OM%Xo#A|bbGRIFI_2+bPH0mHt4TiJ
zh5R;Syt+`o{IHkW&c2xVZq%uJHZQPC%GX!!T-5+gaeriLYT7?F=D&R6#L1SJUycwQ
zlpL3Fb|~AZ<PIxqD5M-p*xW*NoW!IO?bF!EctqPYM^$K!ri2ZDbh1AB0h$HK&H#vw
ziyG$5baE%m>a;O%2}6PlDJL_Bw+Ra+U+*R;w=BmSF12!;P#I^?C4HQ5Wkta&Z;ZRu
z(1bxfzfr0YrE0mNMtS(Ez!Lak*V352T$$h|3e|W0ccNJLtG<Lu%>%HC3Hdm*FWdx;
zOqSEjd=Y&$Z<)8w+Y%P^K}A+XyoU64Sf3EXqozWQ>r}t~%bSrmCjNUC6%sOV@dov~
zUKi9`YcEP_R%7VD69L_?`qUAfx5qcBVF}wryXx0})jm>2u=&@FpjC~JKDFhpPpDMQ
zJ$KJcY*xSPzlfP@rgiHvRNoxt^?W|&h#hm)hQ4i7zv#bD$Ze}0L-q0YOMRH<+=N#R
z(SH;9@8y42sTD?{QvHJ5cdCB<m*-|^?NqBF$aA~u*MBGW>VDPt<xa%a##jx-3Ob<s
zRo`dNRUfDLK{fR&R6}hp&O74$>KF8-L!F0+qtC<Ktr$?#>A%{Hb0(Z$KK6tb9oOTl
zJ}sRq;Sz%5+`K#C>f=6Nf>HJ)JXZ~`TN3VxlWJ`JH{sD+_<EU%OE@P^>0eb}!mY=8
zLY+>larIyHfVQT1%#Ki-`VD!UQT_U_Jd1=qzh><?a;H}N9qa!&HP75J-*c+1Syv~+
z#Pe!8{g>wBD+Zy2_VireCx-R7st>saHNRovCDpJ0PQ0x9RUhx7y&q}2v=DmJ)-KA=
zv4c*Gsj>CnSRUrip7^*L@`RKV>UaHD?U#9PJgSB!ylN<Vc1jD)N4Rprt*a$BaaN6^
z|6X-sB&PLu)i+6FDX4GyFLK<izM=NHcI(UPcl{Ts_NZ_1S=Fbm3<EdI1>A!IRT|)|
zFETa4hh(%R5}J<80PBm*bq@d|WSG|Y<OTnT|Jg1-;0b@2p%ebr%T2L>|H^p$qF=@k
zcKe%RKmUK=BrhQ=3W}zpm!=WnLTqjea0sBDl;7yZnaN9G-ajpb$HpTO|Jan^j}n;9
z@|>E9`xUtU@XzVk4p@YP_>nwWNRw0!JXZn5Lr4XjC!}E9l5c!+G%~}7Lu05=45%1T
z$GC8avdNdRs~E7zxrRd{@zINZV6-z~|9A`yB<z@%+eR_`O*}fu5*>LZ5}uT-(^FH_
zg1|n>N$^xq=`VqHKBbb=3eK*=T7`t)gtSlrsFGxnac#*oJ~=ieIiE$}hMw&|Gc<5&
zP_Cn!bqA1d8P$=>HAI-8GT<H>U?$a#Tt*N>>Mu;sgrec-lrS4YmufhsR1EY<8x^$^
zW0I2%kXldo<V-X~Ik4`DN$h<z<9&1rq=?ZtQ2LNCJu1+|6le#QygII{ptuEuxn+b#
zVv>>iPai=>k05AMCPyeU0;n~c5d!VdQWfFe7(!%9#1y>`X<($Req~{HtxTyfHjTcE
zjIjDD)$+{5fS4m3SS95w+3{f#ZJH9Ka_S=LGG!u-T)2QfCnAr4!-JC?(WpX=5M~7e
zNu&Z6l1bx`yeew1W!sP)0vuk!eKAxD@@tuy#v}<#l|)^5WehZf9Fa;e2dOJYX9OWU
z84sPOnF}o0%RC`Ag+r_t92p@3U{6jeM3du~c`?dc=?wRHEQDYXGx(WNV7iXX7pFY`
zl&B7Yq0gZ>kp;X+r!0dIizWGlTx5%4WoX%uqUONUv2p~0Xr!|BfsC#Z8i`z(5}NQ?
zAQ((Cf$lRc71J|BTaDacxt)@g1&>Wi-jUes<fuB=r~m@20tHAOj*PJ-DfCdDwDg5u
zda$+n0{LE~$1yx4yGA#VeA*mR$S~BW0v!^Plh%$lw53lPDJ$Z{F+`H%%9L;kJr2@E
zT=FPAAUAewGFE^r{n_r*-JS91bm#Q=bVnT9W;ovQ%FK>kJ1^}BcSgp~cTUg7FHTK%
z(%#c~xvNv&k2^u33J0fWC0mFs^iXK7NJk8VY9PTgu?5VBtK2WVoPGPxY*nkang^B5
z3#L_DS=v#Oax{yM=9FWX=-74pnY)ht_nn1r9KUuv?d`kotx9_<A6rc>_nMQdXjm}4
z?tW<DYCD!+SgF}X8C0enbxB7@+UZR>Yei>m%DGE)?n>@Hz3P1CLDv?F5?r%zdk&;_
zpA~nXO*=~;8T0n!i?$sL?i=o9&zg<f(qmX~q-=iC=3ljSrn?VjzS*29Tcv2LOjZSN
zP2QPIZabH>Rj%5e{U~toPUTAABo)w%0*d`9-)7ObIpsSf`VOu5`WEaTIou0hN_m2!
zC%EG1yw!ErvGuWqa}`nBl4U1XorCE^M;4B!oUNj>b=7$Qxwy(w&PLJMm~wWC&d#*E
zJmn6E?m)_YSactLXf(Kv7}kuOz4~E37u=C9Ye-jZN;kKqn)}4&zI0uCs&21Xw>MRH
zN~}ATJToNL4W&ye-kiKXnJ(S**kujoQ~#}bIsc|q?LM(~-<`9`+5u`oRodZsWB;}N
zDMy3oXh=Fbv-<OP<Np%;lVEE18FBZSRp-!0fxSuFUP@SYW6%A%L+I5TmFU-c6o9c^
zb8}@?Z@zl{)l}(rv2^=N>COdb+EJQxG@!Q&ic{VO(c6&n9ud7qR=fjfkgM^bjq|qP
z>!yxH>t8kOUOb*Itrts!>9X3l+&A4zU%XegWzEbr?m-_FRHwW<MeokrrK{c^%!<0E
zlz)rp-;(kl6aB}i0@c)$1&D8Vp@w+D<Z$>!hkprU(5TF=WZAyk@zjB{;(@cP&U5!`
z8<+c1?LA_9&uZ<Vg}zm1l`<S{qO<K*W74_(W6t2(kJ*^=21Rc$<=rQG_i1I=IP|`M
zr|93A^7o1Uz7Or9{~1=72hW_N-#RwYsdq8a?_#3AnA~^neoYt4uvPT7ro26(w+EeA
z>s~lT^Q7{|fmP?Gk6I6=y^Tv#_z-YYy_(kYxr&-pc|a@=B+I)N`ra7$>cFjdYR5C;
zj%R3cxL$Xn>QtS*qJMA7e^T_bSz7(r#@S2n*~%VaL2{Bs2!oh7IjR7W6vmnHM;rGe
z388Otae{)F%K@u$DquIC2Ou&t7c~v#mgTfG#yChgvf~Y}fppTR<)?zX^QMGJ_<CF;
zs7&OmDfHi*<e5A*2j0lYIfvsJL<}B`K9yuMZ%&x6<{jg{Vu;hG$XqTIHeu$?8Njwy
z5478-rqh2f7~(qVz^K-RA^euftxxEy9E2RLuPg}*&*-rLu(h%$J-p><CFQC^Mwmsd
z7xhp~?t=`{07zLDt(UBEogAPMPC!($P1NYER(<n!-ZG#6gjQ-uyBZq^mzE>Yo6j`g
z5_xmz1)%-)YAzFWdS^M_ngF%+J-gZpAdvP%e!@0p9O44`gQHqeNJo=*3;rJY@i@*I
zF!dAM=Rq@>HzW+dXL!?K;9j?xfWQ2q@rvPH!{ECdDE4{5&5}z6Y8iAFqkQ~+VF5pq
zeJ|lQuS^U3=eA@Xin$=-;9l@uMk2BOK`qfwkq0}e|CamZRW4a^@=qq0KmYB0e=_;2
zm<gZ0;&dCNS_Z%OpXeDnJJ1{IKOGwC?K#mOI(IsBqUYRT?@`InCE56CnFl8vMlyzc
z%^jvXXgC!BF(5<XcK@gl1~BNqblK0~^LGE05g|G=En`Rle|&1{lD{d~J?4)Qe}<1q
zW>#yUDdyPd)O0vdB$?vl(Xj9=wVyFj)_0F&909j6Zz?8P!3G=`rY0pLAPvci2bgAp
zK+6=!6#-USN(HZAz!1>~gqJB&1s?_jDoTt(9SxDA3JnyC=7y9{sD*-7lw@>#21`&F
zqKJ0FheCjH!vUvomC_%iU^7V5LR@ldl_3}&_zT!!S_OsQrI<dw7CJH{d9{S-Ffg=Y
zXq?JH(=t%tVnKrp(L0fm=~$SL5wj)}P-8Po_#8s#6aqVO*n&B+ED^C{uV9v6<#3o3
z6u)V|ZvUoZ!HlDUPLFo6yggNZKrBD7Qr@%R{;0G<q&c=yadM^f<bw03j?(*{f;Z-_
z&AsvJwO5lh2Ua`>@ATgF9JyavzqEC^;?~)f%H4~$bZKp}bW_s13D1vw^(o(8(YN>Z
z^LK<5-!U9T1;wl0?I<wNk!l?jTL+UZr&iCLOZ)0^m<<^UA98uEg`&3+XLxISs%5v>
zvOCpsPHZ{1((+u=+nC;U^1~5v*Xc#mJ(f#T^U{|0ik4qm3G5Xc_9mVFk35Bo`&T^m
z?~Eqf_OCP_xa&EPv>ix#4t!Jz_@(qlO){_#B~|4oZDr_#rXz;rk>^$#pHJd2F7Hm2
z?-R@SEx6O=6$@@u((aN0y_Bt6v~?%9^sd_aJ}NAEGjKid%}q;Yv9M{udf(<w*~&yf
ztxiCaMd`xwH7jQ?f6STe`8bxnH8);Ob{<W7jwWqKg|A`+g6sAf+H=_PO5`cpV<zyM
z?Q$KZL!9v2h!@C{*On)ya;-ygu&rb78rY<bQU1#I!#K@Z(dKG0HX_0gv%X`S<6?B6
zUFFiAqLimz^wg(3-J+*EY3pXqk*o^JB{@~x>&nRG@F+D(b=WrLM*bbL%Y-37NTLlg
z%f)FsV@^F`V|AIZLENr>&z)X9$G*k=zIN_^1>1HmXyFyZyiquXZqLEgQBT`G?hVsu
z-UV(n@AHU7Fo@3Vxy;23uR9Z_>v^wxOx(N~UyV6Q?&iw|Fp-MXn)7+N<9#cSHzv%e
zxyIsQHO~Q4FycDV1F~E$29Vm4SaDn<SWajsxSj!E8k#V0I2*Z%T)EfE-!q>&O9uo!
z^ppWTHE+5CV%gjxSm=IbUf{U!$1jHc+I|<z&sVpymow+i%e(!I$4*Djm5bvbiqVWB
zPNEVkhI~LFBO=)=*nT0ZfxNZ6&W9sYpzNWv@kxK*X&ha#u=a7TPAzGi_eW=9asT<S
zf5cBxDw7x5{THU<{<*?)liD)y(`wp{F#nLcz*tahw|{W%`6Gyq4PB#W5NRzMYxhIo
z#XmVkq(c=&2Vrq$k`MZI%H#28&njdPMs#E?QtB2Ac%}UD7^t7|5gb5LzFud^h^k6<
zl5pr31Q3f%j1uBj$slqKgg?Ug2xWNSI~o9S9THHHQxtBju@I*C5qhx0&x&(?5*;Er
zMtEKo1p)2zD#iF7J#NwChxE9Ohg7O{m`0Fc+fa;_zC6hCN%g0ApDW4ObTSGs(Ps1C
z5dr6uoAXxOXh~JHixutfjjnpS?-y343%C5B?{;Zw*Ku*z@s+J7l3PwDy@S}!i`;8m
z9>@VUuBItfy+y3vl5}iY*pJ5pV1jkK#JXLpb$bx8#r@N|JvV%}<3FCid*JLhOv$=E
z4An&P7E11|k+-;HTaW1JxnJT>m$WX|q;R?byKOzN#u*M8TGOouk}U_<jE3SvhDSzY
zY2g}YEGWcY?<`6=nnXua(g76C_on;0JLT;Zy`8Jxu8%;z7`!&PmS-r~_1I`cUGs6e
zyy3ov!=qlb)i3S1XWR6vkDE{pcErD5<?7vRdcVztr{vIwKei4xqkWPc9s~tF@$ksp
zi4l)n!l3W5x!9BHzKiv22;|Mx_ne17l)m~1Sjt+;g8>tpM3P6Qa;uXjChS0YlK1ey
z;K0z){=QJpp;Kqh_V?l3x{43Nzr$l4knA3zvb5xL<(YG3-KQp+E`)Ae<p3_Iz1b|<
znwP%#gOjPPXT+^%?%9UqQ!0ZnEK^n2btEC44fuQX&+w3;eTYsNelL&U{8>W-7e~14
z8aZM6d|q7ZRBV&laizwg4n{c5{VX@39bNhdb#u-@OY**A;0^P6ujXAbT;X0ZevZ3h
zAUp#@u|*a+3bXEKG*3T>xDd6t;0OE*>O1yAf?WMmlYWIh9~>mXuzpo|PN1_yrbg1L
zm-3mU8I!mO80A6vfWnPoL5NW^v3zCx#Y>_Y2n9V~E^DqbV{o!RLZ+094In*3SJo^J
zd&zxg!7uN7%0A}o_L9d=&Q*_PlJfdRuRmGeeXH+>gWn%aZ9OS&J-M>=)MF#9XbV?V
zvM})XYeh)$53xq%_7y{q!|<BP&MlDVn!U$n{6<%g(fGd64Db6kBSP1WEj5Au9?@y`
zPidJL#taMG7<%|MI|vndK>qUP`cI$-S=*F;jL~^B;vZuomFVq}I7C<`vEOGLIam=y
zFF`bji9xC?xUOItemd_TCGhxN!<*bS<Aid$B0zKc>A6ilb*ZvhPMsoD-7hoD9MhBi
z%UG$H!CinxuHgLr9C9M&nmlz>K=DK5N;DoO0B4d6W0I4d#R{K6_;Y+`6M*5981}33
zxZ6~5#kpX{c#{+&%?6GAqob^9{DU+Fh+7JLH4P$PL9<xUyp*_CuoV#YTV*%PzE!bk
zNtaeHzMAwlU4QixGgr7RRj^eo*!pRVXguF6?l%6hd5=|i1237AQ~2Kyz$WL*>f|ig
zP@lP~r`2{J)s2<{>V|37y!{uP(cVlDd)b1A?HTLfbPa_4Yoz;4wpw-QVy1EIC}Wsy
z*cni4wwrhwY3w)HO%jlRde5j%3r2{`E(-4xj*Wr(M4X4zQZ9g4kHMyD-h@U(({oeX
zOJMR<l4;7d3u>e_JzYX0i_Jsakp8J{V4$cTQS(h`z_b>Gwf!Y69g*??^ydJbc{9nz
z&{$+Inb)_=O9r6p>q81&-i{?tyid?WXse~|(l4JO8361Vwi5s_otcg>P*si*V@a@$
zL`E*CKrP@ZfVE+O!h*hwYXIt%5rS%2d3;a{J$&|EgJg%`txUU6Smpo>&~%yjpuh+*
z$)>^A&(cSil9|FFV@TiyK&jCYA#{EmV&Sn%0&NUz^-HeUNE8i#^!BCjB*b22ZlEkM
zEw@Ojh)=~wA|axqs3q}Ad=*0cfC{$ATc_k!OH<M-{5<8YC@jl%6W>VLhhiImM%qB<
zJQ=H*SZ+sX0pG_LtlvV;>m#Z}%F`x#+EzX7>7wGrnZ;d6XH~kg_O1Ol_ophm#merL
z%B?{B*;dpj7Br>`y2S#*>pzSq3%XYd&MsKe<<)Q1+ypgbk66AZx%b3M`AN_NTm>mt
zz38e>Hf*`)+M2Gcdu!j#ecw8;a3bxgOnMs9wGFA-Zn3sIReMmZJ$R>PrS|lq^AjuQ
z-i8gOw&AVGo0F-U17gjAw6p3)1b}EQ2oRM7a5f|xx276TiH(do(>Rp$3?*$tpA;c!
z(uHl1=siEm3-&e{KWH-d2CdRMc6^v$cjC~=L4S`3{D0CW6&t{!%z<?adlLp>7rx~H
zXC^etJTg|Cw$SNJszN&2v9nyxZAQb%>4Z}M$!C;B_!4puF3^L`USFKV;CW$WEH2Nn
z&^RBHXMKq>H?uyf$Had^9+D^P<9c|;K0Or!#RGF`&X+N{w9uDnhMhw`m|++yU&_;X
z*VDM{O9l4b4eWbA_@JgfRnsNbbfszzi#3N=YK|_PN_%ROo;D5q-zIvu-I}`RJq$F%
zy9tz`Uc)m6(4dl@#;2Syr!fRi8a|>wD+~$^P|)|~+{1SX!z~l^`Mh}ucC-CG*S`D|
z=ycH_G$Hp~sdAhp+T?(A>IBW<ESKx#NSJuzdzrg;PT9qnCt=FPkdgOvcHZUK@gaYe
z7c0}59dW{qnbQd(#BYJbu(CAfEt3}#=3GP)v?v!5L?hUI7t@9u&Mnh~pLy3kVzkI|
z^<%@jXzWFo^qsdpp(mSiq_VE-Ny}tj!h|t5#*W}TY}pw9OO}LbEMr+F@`UaT3@1Zk
zIoIYuvrDJ|+@UB4P(MCRayMq0g=BHeFiTRln>N-)ojWfgU&t!c4C>ezOYa#5i&!Q)
zH^xzOnzunN9RJj@We`QK5$M{ON5b?ao0@Lko-hi>e}mD}VVeIBqnCTkAY*M@H)i%k
zUQUSSvI5cAN8Uq+sz42cOBB$+ugLGnqGm**V*#=#nht{uPJtdrh>(ALj4&aRp&=@p
ze3BEfjnS}ZKW+C9LPv-QbTWn%1}LM!GG|eMTr#v%02xhPp@;x`#vs)-btSf2i`f<Q
zpA}}Q3>DJwkN79USCsmp8d;U4j0i^?n~6m9iVqMXmys-{WyiPs`Ee+R#UryCE;s29
zN2lYnDl?1#6RkpWQ-l72Nk7^T_zhAuJm`HWkE91#hpg{DKNv$O{o?oqiasrjPYKXT
z(lSJMPWnN2k5f_^otMjq>DBK>d90-Z>rv1ZsV!=c@N#Fg`=j9zBH76!l+`a<dFUVN
z8$YBRk&oO46><cjbdso{TFzkiVJeXRmw#pw%2cek$Hs+NT+2_MC~WA%{)wscy7;0h
z?5MY6OVEFg374^a)KUb$Mom(BSId0x@L7R)R*Xd{9ER`Ryuq`9yurhPa)Crtg_r5^
z1$q!5EUeIDl^z5<2>0kQLl0t|3a`+^O%Gc7!Ztjl0wO>1q|c_}tipewaQ}1|T3(Z+
ziIOeWDTBtsUs4_^ikm+&O|c{4vAATSyd>lF)U*y%3u(j(<O^3R1*<lLP0IN&MBt#h
zrGe3ciim$e**a*Agk&IEkSOh6(Ssmf;XmRL1IL?aGm4YRtMdq3#|UJ?Y1uMsM23hp
zVK)F^<L62%Qzgw}N%Mju?Wst5nv=F>JRbuSE?V5P;;CI~Ox5oY>v!Ds>`2;nBt1JG
zl-B?zZfqr{nJObh;#&6{t$>8zdiCb3soL#g?e>-0odke`w^-33R&=B)_J|dG(q8{^
zAE2Siy^pxOO83HXAm6^SR8hm-qK0%`SE}xWSa;&XFNk%g7u^qt<wP*oyMrH<SATnK
zwQ0Lpv*UK<N_qcv%L5X-=@7jg%X})>CkFeH{pVJK&#ro(dr;bvDm{9)^eEx=ZQpt6
z?UzzbN5rNh>9SUU-pwV8gZKd0t$MRqy*X9AU##ArE^EHkh+5SgK&@&@t{(<Pv8%_B
z^mY8KsGXJ6EP9)lEy>LXlPx`~-a|k0)!#3xym5S`taW*7YSTe+)4{uC2h&w8%Xv3X
zE%%63!Bo{2v1-d|)i%J6Rn0#usKT$W79}@!e&@j32UZ%kLbz<flJxqYj9z?VBoqR|
zZBIfW9=bV5|4?h*dg<m%sp<n_^?|fEfM(XX7pR#f6{+G@vA8u=yj?8be(TlbGv|`U
z+gFO8T{sMWXv$eHI_sAXC)@jz4To2qM;>_Umj;uJyZ1>;CJyrNOA3xw89%HtA8oR(
zBaC1c$vDSdc%B5bP8jhq%c+MmJB)MS8~`bPV_bygl>-kEh!Bw@eBvp1jf|bhc!^n-
zE_RJZ!h|+MDH97`#!zgri!*V4>dK_N1^ppfnZa}w{wv<si9o8+e?n{UIKF~3MgoOI
zw@%qGC$_HIwqseP95r_xH5oE@vP57TTXA3Aj}OF9NI4rsXTv?r0VC(EkV)M(NX0TK
zh1|Fy2}}Pb<D?@O)FUb_kzr?6MNmW~=C4uXX+kJOIpJgY=M;TfCYPWjNK)fV@KI?z
zNmHh54Wg}K>F7OM$41nM<`4Zn`fEIXliI7ZOeoIac;py$0Ear*o^!5zndW1zIpjc<
zvYc8fn~$Fn{n67vDI#xhZWNlz3SdB|c@*^J@eY6pBN15`hiFKXfLfReJYWoh4kiI%
zOhH&Y76X}T){ogroKaA;Nq~lN1|T9cspb$125d4eT}t9BGmuA76cp5488=Y)w`iSk
z2@lC3F90SCBu{@g3WL}H<j>{6?D_xSkZc_fXMOw?nh3<bVnkTXX(n*mB|5rR9a~5$
zQ(>C*8Dy@RlgVw?iMoI<ZD1*9P;>@Yotq!1qPZzsn`mphXKUX$m9!0OCyM<anM#?<
zfYILy<u+vql81%te)uKzLv;p~VPhJiEXN92UtmX&d4mDb764~ZUfAYH_;NV%|NE*o
z$0FhIw7RB$g$k`((|=Db@n*DyMgPw^S9G0dt6OTiXKR%k0ABQk^&CuXUH@b5N>_+x
z1QQbqi}4?_TkwBV3o>^lCBfh3Yy;bs`tI2R8>bTD%ezt#o+nNvns8YzOL)gYJ2rJX
zAkGal2Xut>9P^CG{|D8W$Q|p%b4a>8X$x+w??39)XD2|BN?nGXj_9nc7qOuQU`TQ6
z1dVbe`Y#zR(HC*2XzRRZ>yl@WGXm=uDq}eJD)>#8w0^c_jfjo#0xD0PL`JF~^`CmQ
zLBV|e!LFuwNHK{9vTjT^iJnc%CssVWlD1uPbF8d6<4>UA{-d=7Jc8&H^rWb?ca;?Z
zb4KeMW244oN@ZjudYrR8G{=^&tT2?|DHClw`r(NS<0(L4)^OxUVDy7EA+}+5IjHU#
zc0+=C+)t?LBzV1UC^|$>$BL&jY3r0Lp1D4?{pcU9|7}>*tmXoYMy>C47u7sdJw}cC
zDaFh^g^sLvz{1!nPa)IvNc<u+0U;@iV_mY5S{6ygj+)SB)tTX8pwmHkev`3)3<HGJ
z-pjCNzyK2v*kR&|6Fl_r;(;Z?_JYC~q_je?r6TZz)IxqY455&#C^ajA%3hYm3WP%B
zvF>Qxn9qMl6vq7rm_VW)s#s=Fv<1P<xpC!I8315==P$TCd%oN^7O1pcoZ=-b$sdEV
zARI+SB+Dg8HsK7SPEj3E16T*`hvzr%AP^#z?p{A>h0i0qfLZQ<BI+z3J*XN&F|~*4
zz>s$tb*Jd-Af@$6j#f<5SRLY^3m_Z?W`rz@*(G|qZZ+R-xwG}dk`>SCr0w*^Sxxn0
zE!>Q9pVY!HZwH|<b1fhdIiU@3uk2m-%*C+Ior4NlCk(Kyr8r%lGZ#$F#Ak@Uk>xZ(
zEXet}*a{5KBN9)Rn<&T%z-wY1!5cLv&@0OkK{a5QyM0;+1F$CRRg89}fXC}-nvAkG
z37u5XG)JdqBB0BKb>bqlJxMMH|DhR7Ksx0mQ|lmN&wzB8gqpgN&n5&ON)bq)Xv;!-
z6giXjBPAn9Us3LrskSGX&N5VOF~4~&7f_vKxE=8M7)1G@ts9d{NzNCXY=B6l>ZyGY
zXtS2em?V5SgDb04MVO_}#Y}HCn<yru$4-^gOO=L7uc94F!ka2r?t7Gn5jn2s#FYSc
zRyrk=ArLrMmjPzxj^d?d@fvc)vM9_%4sNxiy8G{T_owTdQ}sK=`kkrz(_;PUw6|2&
zH3NyH!M$)~)maN2C{Ibs9TeR-(QcbkJD(AEKC|LJvtUd++$l#R^uw^}fCcO%y|0vW
zhv?jK+qml7n})FYk(94h^tC2EpoYm%F2j%^eoad$U^p8v2qXjrjBYSs9AuI#gMlri
zA4!(JLLn(XM67w3=YroEf>P;7MEPP3fiyW93JG3hApC23bmJkJ&O`NEphYcQqjxhC
zI*^RxlW}1Sg?^46bbiQkpfs++pW-2z=xh{zK<_`I2cfe9F@$7lB_n;BNJUg=rN9I|
z{)QezS7fvdhSCfFja~_*5eOR)2%r`SP8A5$6N>4T;3I+H3P`L%-JMQpfet*j-3$8=
zMKXi-KN1%RKW3Yy5FlSIMS6pLU!}(aJ;+`Ndz^qL_FL%M*SMdWnz0dX+40bEFwb26
zptyF;Odim@%BycYf788YWv?K*m95#CH=nBuEN^|=^N6Kb>oWz-1BP@ZXeZ=(V0SOX
z7JF}0gZL@hTOOGyaP4J-!MtVZ-15HL4arUW#HRg^I0QVj)SBCucC2yux!v%He%1~d
zEatO@<;LaMyMad>`Jq*5@vY^#%q6#KKj!fB$fyRa)!58sw>lqj_*wInBJyJRM&D9V
zvUx|cZiiU4^LAshYQI<lawL6R>$aJX7?w?Ih=0Uz%SY*;_UZdP>O%F7FZL$O+mb#=
zKWtj&A)SA#FX`DS+IKxNQ<RTi%`=;uAG!_Z;F5_N5d7HUGIxAjV=%Wrv>42R8(Sze
zK>jwW#?66clUUVGfo*FD?7VT7{GA`e-%SC#mtKG{ta<k>7QUN;b}nt9pq<NGDe6uN
z+I*vT$$0Z9y>F)XZA(UqvTd1FVjEUfEy+$iwA;-258Tks#4pCLuy`?ky<*KuZ#D=3
z-Y{KnTcbD-rpR|ca*(eAI-cp0vUF?vLx<J;jNt)@)faEXmJZ#xB9^p>P#iT=Fy&Ty
z!*{)E&B|V})O~Aq=FNvL%Hq(ChQ;TvyO(^Tw`q-Kgi7VR7tUWRd*ou#3QNp^WDugi
z_`TErVM}u8*$>;rzULlOfILNMc8=mtbF=`+Jt9DkL=H1;s_}WlkY0rR-X_>mGsBje
zg}0KGval^|r!~vl5t5G(BeT@y2<MNvnYg0!HP<k#tFhRwu#2Un9Q3&EusiJGjl5B@
zz~<yV8J5$$VJAv$=e^;AiAGkxb&qxV7N8E4H!QL#^~lcK%NM<-nb#s)Z7gpe@@`+3
zEqh^gr96u>^7D-4!z!DeM=9*Rk>FS9xAXWiSS2e*%T2JpW>G0)u=j>K!J=9vtd5m4
zTWl44HSDTY^6s#O*<&LcZ?)lS-XE^v-RK7kPuACJku&VCY5Dm124=^t5vDz@tk0XY
z{-&O74mV5?oR;Na?T&1+HSw)lx`39B#>v9B;d}D}_ljY-1&~9B<kk<c(>V0!b`76=
zrsIl093wEkz=cx}bUhxO?L=WFvlI|FQ;x-8j1GbR!6O5M{h{7dXZk~Z{XKoM92gVk
zm4F_DhXpHY<D~Cjpqp*Lfr?{4CiEZ!*`!CA94W)JgAzw_DhEIGFJNtxjtA9|pTUsN
z18)6Y1I_9T-Ap>{vYbwDjccs-xR#@AL5})f9hGZbNQ25hbIuxVRoBRobB<GYF-NN?
zs~k<tMG*tGL37oL@->L_T23wA2|^{a91ne+451Y}Z$>^^t&mS;Rsy_2lNQW+z_^z0
zDlOgy!(SO1wfVWUXjLd0`D<-U<WJOZ%%2P-A(jTuB3ARpScstsP{v!;@3{mrcnjK*
zW5+;fj(l}7_S~spx(Oza0dMEnCnkuHmgSrrYFefSB2NNwvYbxGfyVGw_2V_yHSX(C
zCX8=_D5y=v(-3Eu8fStCk6BKgk<cgB<L%9ggjdvsP{u5W-aeQWgja+f$`NW$ko`;R
zdp5P#=3!)PqJLvdwNC5mp1V$mH>O7EH913b%pSCgD2iEb%$QkAjEFWL5dUaaWV}AT
z4GG7@@r`MCJIvDI#3UDc2K{hS_GdoTeuz2Zr_^xXp{9baT+V)01m^Tv{*0Pd|K&9k
zWSE`5zJ7++pUIZMj}NK2skOvto!b~TyHV`8MiJ6+4Xy(u2*#&H`e+yrrb3V#6{n3k
z%jw&1E?F~@L{~eF^dANpBolzH5yMaw(>D2J#%glv%E)+JXhZ&zr~mo>-g9S9oe3T8
z89343rxW8;Re`;ck?47TWdB@1Khfyq(@ekUS^{d+-8eiLap#v;ITEhiB?fk-0)1kj
z@4l-(<?0q)-M4y^&YjQ*X_JXNKSv7Ca$wz;tRCmVhhqzrF#Gx0co-5nVd3yx*HH-G
zK>M$E3IXFVb3G-HX|Q&v`oXrSe|iS?zhW2t%E3pU&cZ0LMYeRK5R3Q`&`u|RPR9Ze
zIwIf9wG1!}UN*`MVgSS5`Eg+P{0ylOQuYGyvANC9q1PyYPWdx9t3L+`omdPuxMhKt
z^;HW7gMm$wnORPf%+HVwFagHfL3}~kGKRF3UR&rv(^xW7TcLO^3(d#_CUoJmWQ$M1
zkTiYt$ftQMq(B)`Q3!AcDiqa^{+RGGWoK2yj)1l^00JuLkol1cNA>Pgq*EjhF$*)o
zr5cb7$jXpR^n*zzxo-)RXMhJS3o>2~%hv)eJgFRXhYUMpFsQ}2lA*|XsYp!>BL$K3
zjEWdTwTYq-T9*o%_%mpXi~-x_fk1al=KjkB|5(nlp^=JJvVuIX<#CHi7WN7g)EVtS
zA(-#NJ5)muBxGadO82ViT*|v#o@An>ArZqJmcTEECFdCul#0rVmcm)&BvjFZj^cn@
zxJv$m^a#>8!qPscLuCRH=hz4ey@-Nbc{BvVVv=3yNQ@|``6K*n2z)@a(J8k{sf#@%
zThI-KVnhLZS*0Y=ue>^0U(G3YuZbPMeqquwoW<i;P`~tXRdsLexw+?^nbnR%KkiL-
z91&ZNij@N^mB-0)P1${XK7RA~duHfnZs|)x{-(A6FU(@=NwI2hrRp@rDSwm)<3CB5
z{;_e@0Tz-jDoqtNibaj7q7JdB<JL2GT9ZW`D@Df_Z0XuYic<A}MD3eIS5w+qop$=t
zPUzK_rk#zC9Ts;!a5H!5eSgE!K&o+@*tl)Qzn#qAkZqsFj#R?|vEjg-c(UO*1^OR&
z%VncLpbWbTR-K(>K&R-96W30py}eBFtPzF=m}iUV-69*5@-kaQ^Z}-Q3I+|Zr<5w&
zB9?7Qm7NsJP9}XPVcv&wYXmMzBq6fQwDiKN6B?cc*N%t~ck))=cxm}_$(@5tgY9u4
zSK0Vh=grQQicJg0?^iaaDmRIho6-=vD(w<WyB_$eQ@%#g*O(?xr|9cU`>N8A6SA92
z3en!Os>cQPD)+*PH6Q0HPdRHuXAK(nQC(ZAu1l=zVi|RdrQIx}Cehc#G9t56X^2(%
zC}hoQLSFflm&aDmEC$tpSVq;S?BqtQI-4<2rS-Bb*s_o;X<jYqPM0>MO54TK_SMqh
z{fg#f%juPhXOg~W(xv`XDHWS6-JkUC$Me3o<W0wQN3v>g)q85qzCNdWCEcHV$$$}j
zd?Jstx2)P)L3FcM+_P1FaxRYsmc!%Im<#jvM}Z^d$Na|s)o(r)unI5In)n)mM>QM*
zF9g3g;P26o@mW^ad^*OUp2zbLng#p`MPu0SG0bofsx~?~K>u7$YBo$H15UTX7%!BW
zavh`JRU}Cu7;L`kP1p&JPvpyLquC<Ilg~l`o9XU7u{3ickMId_6qMG^JCr;f$eAER
z8(N*^68Rwl6PQB`4Tn*~2=>%5E7Z<NO0C(o%YH|DX*9B&+K&){Fl<nrs*qur4dKBj
zgm=r~OtIB8@(+Mv^3^@-w0ugbhbe?;6+?v(i`60>#=+WmdS4d_vrdhTLHZU_G9ZJu
z<5&hY9{-tHP!gU2D+S0g*$H4rRR_*04YAJ7aDSJa4%AdxR)(yScAOuHKoy_P^9`93
z$15{ut%AxKqS!DXfgBu%*wsllcLcnFG01;nABQ9^AKuU|wHoT-NUgj$dtQLqg7p<b
zbFWNg^bkn`=~a+BGR*5j)zrrw{^!PFF_pT8jDY$#Z|oPP){x&8#&O&*#)p=zJWlID
z7(YlGDmaDcq$-C9Y9BBoo9bs>COE4yPZ_7rP#+m`k$Ehg@<Hua05$Cd)r;09hjy(9
zY5Zn%3AI44kOE3kgedGeQjaj(6k4A^^0!6Sk%vS%%SSefqz_HT7$3#RxBKh0*;uc2
z6bWIIC^ySN?LF8Ef^N4W-VNz_#+}hhCJ}YN()d={U<M{XwWR0t08BFpxCuhbAJirK
zLPjyvC|X8JR3s)L`WVPbnAhmYK)e6c85TP-GBXLaNIg51euX@>Y!DV=;%cFh>2bOz
z1?9H}Ab75@$4~_p2s@Gba15S3j9WsCxbZ}?!fFOtS(OSmf~yRG6mYi>Cy)Z5<O;#y
z1Y`pkfEWt6WEhJ<R_yFxfYw25V+_0^t4@T|jK*JKP#YteNj6;70`YCS5l7o-1Y8LO
zd`G6KX`zx=fsVEL#Lg^vIVew=V{sVC=j!{}K<S{?M(F#u3F`X4P(P+6|9C%FT=wSi
z>&L%&a>1T1s=Zs(mu%d7$CPaB1Bg`GkSuDzFP-a~MBk>gvsi_a04U)<040d@wusJ_
zM;=>o{(_xYVvR}1rk@s6+!#-n)PBPQiQ>Y_#c~+T^!by{+Qq$TQexXC)@)0A%afH`
zZasfHe&^hW$4N&KMh6kEu=2+EyR}e-OgC&vHS88)iP63ap=Hur+$%QjrMEgcZ!6cf
z>&<dNEp}hZMzUY`Yz?1OvI0N-#Ep;3wV%FOzF7Vbu|c%>D?R33zu|qW`OseD`_3lv
zcNu$q#`m|j^xDins<grXqlR*X|7fqd*KGa3V1@q!o4L2Z{(;MiuOIl#z17wa$|+nj
zVo-&PG-~B4YgDnL1<gT)*SUeB$)JckNR$ml(8(VsG?TepYEKCx&P-CZR?cdi&;&>1
zkS%5KgBe!slye%;f?b9Y5|&&idag5^+0WDHifX;c<{d78AnH~=Y}=W?Z3dKJnaITf
z*Jy@%THZox&_eYSQV`)G%c<vo0$d0pKEd9f%InC8881;^CN#R88Uo5tE{do|d-*QL
zf*iYq3l<Jkjz0-qW<wULeFFwT*apWJP~*ekG}FQ->cAxKkOH$5v~0=DFmTwxun_t`
z6BB+9Ww6=8jI2pspqq>^pdqaTh#>j0XA)4~i$LUvm?oTO#efWdqW=tTW0LWH9kCXO
zW+R($JC2z0#>G>v&e5qTb|Lu=C9)2T3R<JF3uH=;dFa+3$r5Jw{HR-6g!0JR*J!rO
z_+*so;??#k<<cm&iOE$UnRLl6V~<o60e3mJEgsP_x$ZKCxMAD+3GG_{JF<{>trE@+
zWX*%k=)TkQ#<6S1(#6%l_0k0;zi?Rr-Mcw=&4aS4R9R3g3qk>8sr{BMxqAqEOu2hu
z0N7hm)mKm9rzVi9-X>OWOI7!Y)qT)kuyOvzRP7<L_7D_F@K#x$E^kU#HKyw~WB+;R
zu(0$HhpCh`zf+!lqG#V7!(C6$17EF-PstYOR($(`2NqN$D>jSXE@b7ZPC4sDXWct3
z-|2k2Qx*}pUA|J^yXx%wq~CyQf5PGMkRJaKt43SD;_t07{LhD4dJByo*zNFtP-yP0
zw0=-(g<nX}SP*q%o$wXG>i}%IN58~pCV7M3Z1?niCfAO_LkXC0g>P#LhWfhEc`UiK
zuX!y6lTFV7<LjIh-b5Bk-_vY@#fo&BsJumw_braM{=SwkXs}!^(+uj~F>m@c?ai^H
zz~Y*=r+`+j?921!U(;4#Wolfs)(DGf=Fhq#skOz09U$H)s;HS(PhkxeJ35Um9E^eb
za8ZXj7nL34)%-!pe6;_>iBs5|1ezz>?lae#NhTy9W<8Zq0}zAbFaI49;vz+EZbu)G
z0D{n<xk%UA5n3@lH3@(Y(WALQc>wzWy5?+tn8(D%L)HQRHL5*Vj*HVM2a-+FizZ@d
zz$=iYNMV*9bM*KkJ&2SioPbX<O+#B#DmmIS*f(^v=Xiez*YEY8I(Ig7a$s;sc!5Ph
z{Vq!u*}%QfNl6*`&paLn3=PBSij7YKwV;W>RuF^N*uKW1<}<iXA$2mpLPV8}m%_7>
znccg`Y{jUXnGAkiMwXd+aBLsjutoopwy|HKUJxFF8S?U!ty;8U4=Z}()U{KxZq$RC
zrgU{6?QeZ(H5C*-GFn{j$3~ky|8WUt_q^e}=1dkJShXEYdupMnCVCoIJ9_Voi5(}P
z;J@lQdB3oROn%khuiu%h+XdN&-4$!byaL$8Hj&LTGGU(2l{BY{+r;9wmE!h={QH}C
z{Lu4#PipgFaWgcuN>;14V&CdIVt`&+SN?(%L@c%3&9~ZDZ3iAWDw2-obWK~TX17?g
zJ5_T~tU36XHHWU}FB%um-S?K>@GKWChwphQpW0rMi11dWJWZmfDQRnx$^N*74(A`c
z4#FivyvnQaHT0wKIv%6wCFW@D5!cd#zelvU{ZkuVyY*F@PJvO^j)7aSjR8h_&4x9v
ztQ4I8%IamgDUYY`2%v{3X~0kUtodZpi<D9_^Wly2W;^x--bB3NTu>NjMV4HUm~3bu
zW=?Pl{In&m?V>#7I1(JQJE_;0dWt!{UlLrxqF)O}oM8Pbu(-DWCGy5m!*>k7jqA*S
zwPlo&vD@d!T{m-(nFDqwYHF6#>xAAgf4Km$TC$?xRgX1moHfE6T7?>?kt1$yoT%K)
z<uZ-H+x7Z>g^T-@s2tMvg92y1TAGo*LH(-#@)}nVySNpWx%JX=#n!liMCHq62U>3p
z<%XGHebuTPT5I@B{cwd-4YLKDbKNHxTAX2k7ZxC6(7&P!@N$cD9A2luK$C^Q?ML-^
zFg{;i%!x&nw{cN@#Q-I||BPrbvYbCO3;o_GUG_@6E4t2gCJM1SnD+_e))7T9QB|3M
z^<Y{&DmOrKv+G|Y3}VIQpmW=^uvJ3iWl96^DA*L%EK;ve*M>})u=+2raz86-N;d_P
z-g=l${AL8dpqBfZ*(Nh61F8g8%lh0TH6`Wso&GdK0v>h&7}G46X<3fhvBMEXW&jAt
z4u0CC*A%o6#;F25h4;hG5*SMn*^XN<;1g(?%Kb7Dk*q@lN6z-2IVoA-85lgPL*#;=
zYDGppgfo<)Y#pbGZHy4%2RTIY_MO(trb9*Oz~(5qsIO?q5e=%}Z_uu(9hJhLQJ!{<
z%p?_nCIV)e(ziT_4@|T&VAr=>;V4yx#KeVfQUQ*PfshYTLs<9*zQl+YuAY4d+2JR7
zvPLdb_l6yWS>J1D1WBnEBM4Z%rXgvopmU~c)z<ykWU@CrcGIEby5{<wF}gWoX>!%J
z4R()}km&X3(o3thtq(f7794ANRrZ#2aO<tli^1Mha7YXeF{3ys4--`Hx$D_>yYx=i
zzp1?MtpgfRf9tth1Gn6(-UIi&)xYC;ux;<6XVu%C-gA_GciyiF-ZH_|^lb}lCtY`Z
zL}^yNoh<JCn)YQrS+nofm{_xK(eZ#tA5EgO>7KI%(t%#sWol*@DG)Q~p0^pNpSR_g
zk4s@!^kZlV6q0fwctOc>=ncX&bOEzVXtDd44tzbh8H!=Ty8Wme@P#7Z!jZ>jt^nf0
z%wS>N(N*sND}Z#+QK@uc(ZZ3xUvnXkzXvpty8@ranlWDQ*Br9+?&3b!)zaT&{IS1>
z>-QV~%x}iapEVi#Te&}LE$-iET(?6Ym5fLb4dG2y5mz>hr)c#Y#Fup{N~bWS8);As
zidr|phiLriOlR7-Y_;ZA@jlGT#zDd5GGv&st#VIS_<p?(LiKe-7R%Tt72>PDyn^8D
z`?MR5Wx}1zAlE~cWkFUBbXf$y3<G|fnxA0<P@DSNLVcDR-pCq`5%v^4pc`Xo4y`&{
zGW}p@d5Sjn3sTEt@(%WI0)k+hDW`l!>@N_m00c;*xm-*qwHIT5j5IlbnAjgY9qEZ{
zL?ZRj6}pg9E|O4zRuRpkmM)ZLltL#{mg6<)5fEyOtlhav&_EeIxmv<}9&WnKX<|B&
z_uD|I@J&yo`C=^y|4n<+g*3T(((w8pz~ou+uW6}f*NN3BS1X^=kFkD~oh!{#K(Wuz
zGr4knS}hE(_syDT&9G{?nScdiT|jpnOa^)V;9Lz)!>SA*1UhA*xS~*eV7KRR<`RM-
zZe6H_Zj=h1&6FpQ0iF?dF&nJTx`ci#!3@(Z0>)7`Fzp<V^~?9$fr}?ND4gV5Br~(U
z!!S(Y_Yo?UDBy`A*Q&xYQa&lM$f8M#Zi!@}%7uBM1{tkWFA?6MouEPAS=dgHYiD_x
zHU!dPz(Gio;|s7d0t>Z`cOfX?D|>VB`k+ixTJ?1?DtzNzU*kufVp$jKoo%b002w3M
zF9!F^CP`L<hlwxlyzWd^?^*Tkg>^v~JS{9q71oP|^{K*Uv9Niiuyvs~?QB`-lS%i>
zMWVA~tw0t;cw)gTzQ%`M&Z!?`-K)+mL`f@E^KKOjTUQI)GD_<Z3p-W{J9Cs~&Ptam
zY}>fq(aA$w-XkI%Jc*X2E^kILfeB+QFfU|1DP5LRV@|>_7pN?turafAR7#f1MFG>z
zg@X1{3)%~p%e3-(9WN4eo7>h4MJr-!O~U3ATLxfV;UFUW3AzOY%w&LjAgtiPiN#|<
z`JgomucB(g|AYx5^wMJ+J^lt^s-h$Dq=f&30LdaVAhUEG|0TXZc_wC@W>;t?5(tTz
zXyY1MzSI78`@ev?W9@=<vF2xi&5IY_1l;vIQ@76FE!j!7TySz#i%t+V$xg^}$vx+0
zKs=?pFePNm*o&{?QnCl0>ZGlj4Xu7%0~wHKM%~xl*+6^@Hrm9Y!e|@f2#{T_4fqm-
z(uA@^9vgQfGulQFMV5o)a|SLyYg(6UjxCzyTKMb7HY=wbG7v1M2<nIVg<Bff71%mP
z4M}Va47qu`oy)u%3N$|DxM5c_(=A3hHd?wxNR9W~bPthsWa9E+CFg`)moG;yepcMN
z$3(-rSN4)H$D7p9gk7h_>f)Q=jI8g+W;MS4%UbV<2h<Q=YcH^AjYpGH_8X@9)Rs|6
z!2LB!Eb#a3^UjR)IXF9@RBJs5Pyy03pcWf5WZgB+58ZizKGNtJpTpJW^UhbDufHk(
z>KJ;!Hdl>%6rlEut09ynDw95C?rd<bW?=F%34D;sB;d*>m_uROzzQlkXQNGkj=DMT
z`Y*WE0eH202G-6Xd8bG`!rFy$`KgjVIM;a&_I^gEE=)q(nuw=h=V&#d^^}R0GIDB(
zEI@1Q>FbkK@ytDB2w(UShD5TSJ3DY<;Oysw4!jBfoPvspcL}~ZOsmL@p%CdU3qgwT
z=M=$p2poLfs5`?pf1h@rAJA8idN->=F3s4kuuw5>6q6BY&5)s-5>zhJA5r-CC<dLP
z?3M>9U*UO=^RGx&?1~ZCV8tDztV5X+ql~QnAthjX&Qw2P39nD$GQEp$a~Vjyd>#|`
z3R;j#Y09|1M*HAy#K%5}8y3n|D>tVqw~CcpadTqY4_0^eLhoV~+y1H`eRpGMsr?@C
zIam2=b$6<Ir&zu7u4^azOgBL;S?@Vp)sMTy>fLu;yVKkDiq7tZV>hfzmCOA7V%){B
zQoL#5@LHbDRd~PLzvNr`;!63JMaxgiYnObfx;<jup4*4-^sUqlB+HL2TJHNhmd957
z+ZHXq;{xlOr0VpII9*V=S{=MSwp!hv^dA0&V$<GT!D@F%tUh$tbqGY_WNp_<VRzEm
zP4`4F3B{f}ds%G4SbcRLgH&9Yfs^*!0W@*yK}pSxFW!hIH|_b;-aCeWd-(Rwq^}RV
zKH;cjuI%sE%t-cWj28I&JG%PJ+>g!nev|RX?)JU|#vdOr!@my6)b{*;gA}yq!)&Ty
zC_~RD!Ku4ht~20i=nSq*pxl|$wKX!rG=$<3h&IaYb41%<j_w1DJJdJgeW`m=pGKQh
zYsOCb_yE~_oED}oL*5F6Apvq*v@H3laE!!sqHON~SxaV}kf}dh>q3{DD*HjcN>fpj
zLd*)LD3wLYqEGpirRkqKKLHz(>o0bq({Bs@9+9yPS-Joh$jvIeBtS+wX%D*WIZzt4
zJ;Dod?Ig_|Q`fJWAbw+(Q+rC-vAzd$mZ{Vu^S-5AdiFE|xzfL<@#`n`Yx2H`Yx0!q
zD}<})j6ukC(#XPa;v~3OY?r3%Zela%M<XLpR3n}fh;&TJT=-*(N!QrYW(ZJ!k=_lL
zCByW382=jxpWBfQ<LBB$bwZ|gwcdNQ%UnPX@?902wK)HwlPmAIZdx=fc0IOp-qOV{
zyqUP3SoJjC$Hg>VZ|%Lg_r22Z)x29nR4QN1jV~<K5s0?x>wIkGTs~qT-RN2B`Ob;A
zPuz17zqzpJk=^7f!Y!@k9lv50&cD)g;E=%po9P6uNckjcfK4?lKssG!YY8vo15*Ql
zT-5k98qc;@A`L<&T)4n4L5{8Oh998s<{CdsH@rh_ehGP9<>;nW9~kx!Q1(^d7+di*
zsTbGo5PdsVe7hFx_o3^)^=q@=?p?BfYw)h8Eop0mo$LD^9~k7t`MAuZyb6lLfz`5h
z=*<@AKjN%jNcCD3YaHvyNhnu_EdL8U43EHXw#$VvJYA(lT`vqx&#?}2a>EVpY5UF-
z(`kGcy^h~iyh4f21<wT+W^&tSO|zzed9HJagiqxG>I3PQXxb1+Az*~$^7N7GWqKGv
znw4<AgEH@T@G>rF_p79Rzf6jkfge3-CdC}31^uUC2@dRG7+Iiud=v@R*i0Bmx;+Cl
zV6<#+wvwsvJgrC5#MJntFbuDZ!J8SWeFM?$pVR!yXoY;VXVbg?70ta6n#HgivgcAR
z+Q5Eo6m5;~z*=XY*wnXb>u1PI%2pxTDpIyuAV15-q^)+<*3RrBR*Q~m`JU)iN2@~4
zC2s4sU$6_7U=UH(&z3wg?NF21lZu$uhpg|R3H-c-ny<49LqryutB(!=XUNoc)wz}G
zoP#6+Qp--A8}k-@-&VsQBWBglyqvqWk_(e2177@wUAcL#lW>!SHP<Z8z+-F)d&X&y
zgG@wHYnb!OiK5mYx7T&y_PTtOkardO<MWQm{hy(%yo|DP$d~0V3o`AFT=F5f@I&cC
z@DnvyA(t+q+MAGd%LnBEr|i5d;mVn(CcA>w?aZaWn{Z{cLBoX9u>|K+IT1l+*aj+t
z<ICGn`y6<VS|{*?0bna~{<%wZeAW^ngHLitSxzm<z`Y7P0%#TSt+JdN2fgzx1>$hc
zyU|B=SrPGy`Jmmm`;uYaGw+QzsIf9|Pft!=UuDG9k()0_6lC1Ni=N1K3=?etUv^XW
z7f2I&wR{NYCuAtgB?|QzlLg?<|N2}AW6E+9U0DHmO%x;wGjZzIf8WHt{ypU`L;IBt
zvWJsKS$l!3Ent_|W(je}vu<HhVghR|9mrH395{uYm?ZLohhakNMRcVwjmO|4>Qn<G
z(lD-!EV^irOrulNv#@-<6Q5;MDYQzM7@|N2EUtPXl?6f^NqSlqQk<a=rss#w9b)o4
zlI1kSb|4lB!=D#m3kE*R=~E|83=9hY1Tlp+dVHDEz_91&Wm$|Hkcq7SDIB6Nmh&^D
zxgdO>;=V=?X0nCow~QbbC=#wx#r~WE{(>H?ZM45iMc9N@8ZIso8-?bBAbIFoWMO<%
z3!qDOM=uE^@+i61ZQkmus*eXzN~m`#;*OGqWRj4fq8KMfk_@o1L%=_7u_3;=gYmwY
zKPG7SZj2~4D$JkpE3=Z$q9z-lDqt66#Ys6vlp1|NC)@vt=uC;Owqvzp|4I$+psl=L
z(YjL6w&3~5Rr2}^H~Qb%@|`_z?|En6tzMXLZr%o<soD*Yvw7R%$u$R80PbUh=xw;~
zYe>V&^ylB}{ob*6kKHLto<0Yyvf`3o7$J-Ve7Jernu~K)0MM#-6VI`M?jEUaxbA#V
z3%N<Ukw(rTUA76<s^7BRw596;>FRoD(-p%Sjm=-U=!9ZfL3PSoCwl9aT2{Snk6|>r
z{LSI(!{2;y;qYJiI}pRB$7opff~{Kersuk6$@$*s_a@$*xaZx4D%S<cELm03)AE3H
z##+VF)|Jw><%@Sqw<o>Zlcn3UQmuM-fn`f@G8Fj0M+Kca-O}-$FTVZ7KbXIMYVpKU
z-Gk0Osm^0!=P|T8*?DZG^Vy`Yeeu{*<^6`8e_DKdE_L9vc;NKPu4h&n&Mck)tWegt
z+Ojv*a!_nJc(?Rmx_(=#ey>=+_x1}b^#eDo%n;N*v3}p}3oG@9Z(1MJcPUbzl`HlA
zH>}8@xLnr7lZpJds%~FNZa#9)cXX|iYuyIKx~TM5AD=RyuOUU>*tN9p(>Gpt<ArN4
zd>W&T?w#VJ#l}A|ALY#dZtIafw)eXayW#(kGat3vKQvqM@xx;C(Hg6!vP;JMR1H*x
z(iEbwbpoUWd@>;9@3Mdpb&H=jT>wE-7mLz?<cwn`2RIzph@?8lP&OMwtSK#bi%twx
z!?J*w90z|!Ox*F20mNW4W<U%rwk($+_Ou>|(a4Q@0tUjMKgg*E0zjC}DhTuC4gfE|
zu8d6JC07|Hlw!^Xl)$V2a1__LcL_~2iMPz5HuEsCgQE*1jBNL`qnyB(c#WE3!ms-D
zUv_L(FmMO$!cp$dNi24$y#a8g*u*UwCfhTPa93O-4XX#1AS)!g7}*|2KM3^RkY@fN
z;o)tp<feo}HlYCEXOmtl)dxT&*I}(4=NYwHOjv}0goU?J7xK*DQ7)q&!VZ84xsGW|
zF7qGieB<-k+{Nxo4j`XJDEbU#8D2+eU{jf&miMGx2eZ}k0PdJ3w#lVsJ`>(Vf!f3K
zg<uYNs9rgHt`G)~tnWEgLE`zML{YB(h_z(QISmL>1Q7EQUN$d%0Ep<e)hw4NO8625
zW14`rft#$&$V~&06V6KjV+0Zb%+>P+`Y0|MUWeRKHt3W6J`3U^y9zo7`1E>dZl%y!
z6<Bi4m7SW26Ioq8Sp7P*G`<8L0nF-6VVrRlNFIZl*c-F7cUCxz4v=Ncb|MNQ{0IEN
zN}d3qB2XplqR+Ia$`%&R(?|D7*){{NWFEZ)*oK5CWOEWDf-o{GFi4AlEFnn`TC0-j
z^tqv<GL5E}0*PPE#KD9Q>6M936ZMKgO|oeQH$#M(ZX5%um`wH0DKm?FiHPub^a5!w
zf{XxJz-q<cA|y~OgH(S_8UGDEn574+98ZA!S(xlH%77UptCibJgr8DW21Yq#b|gDs
zAbE{DUBdC0a39}sqa4h}Y8k-5E(KZ?;7K(H!3;t%l{?`t>AO`ci*+l2E?9LOi;=)b
z2K1zRWjN|NB;7#xSK%n7hDzOR*xzF>VL}3sD&&glRtoDEtPcX47F>@Zj8*n+^S4J+
zHJinn%|B@P!E6#z&t*Mg;h~knz6C2HxJ$EutbDF<^CP>t)D2o!<L1TVxQZ<U$Xe=M
zuKdC14=;ZI;+^=a?*u6C0Iy(FU^66tT)s69>DJ0PUsJMZ^9JZFSsna=@rSnW+iuT%
zc$PtDj~R64#N8Wf9w_aj`ZaY+rQdoH*Md}cEDSyXq*Gp<DsL0Z+fwC0u{^j^z8PWx
zMdjbd4IX>N>b-Z1_Wo6U;D#k#R`ZtQreo>wy|PUJKN{M8<}1Hn*|aqFUU(HZ8G5%S
zOSh(5gRot<=)7?u-LhrTy6SCwP*l6reYc3N1*vL<N?+2q1<$n4uYfhyAG*KqzI|n7
z^O05GQCJ&*j$dibQp<Av+nbh0-VUbfx81GZmiE=jmMxb{zgPKg<#(%ZeF0`!R(-o4
zf~&kf_DcOWWYM+%hSH|h^7bF^`d|-QR8c42{IY!E*5#Fo{fkzFEa67)&Q!&Iv0{JP
zSGm-*97oG4>Drab!bJkY%4*+Cd?Rtcsdc&ZU%Ys$=Wf%sn=QAuF7_gJ%GWIVnwPD&
zif)Z1TlU@a?Z01KcB6WwxMewbw|M6Rt<EK@zReF00A2%(TwL)<C!n=AURZeHS0CqL
zBz53z0ifG{%-Hu$#RCE3`{m|=YV-RwTL#K(KPu>}#LK_$I8=_GpIB}9{*yBL{*!9+
zK(qZP^;QZAm<PJ8WIc!QKly5mR-q1)T&Sl<13en)!FB|Kl!PXFB_5q_&{MYRa*e_W
zP?PryqR<GN=|QTbI+iC8gH#|rE!^Hq#Pd<b(6MEREoy;OAB4B*LGphBNx?Az7=dID
zGVI9^6HXv<u|PCCp_Lxb(Blj}2;&iGxsrx0Bg>D5!TAe8bL3@&#_-3<;->PJN2J35
zdLecLk6)5?&fW*5ZAp_4DyW;crmLzS7QAFIS1~i4<iS9fR<2o@7x&}9-Uai5IxZXU
zbg)+^8Siv4ubXRVUN*hmw&r24Uaqv_7c9%QgR)i4o#w^|l{IT-{37$BvNbFDVA7&;
z%}zcjTKLx-<a4T7x#-Q!<rgK3nwH|rXOl%;qP_cL4}u?QnXbhRWVN%9+k4RPu%O-C
zZ+PJH64<|HrWaaewQE-9rHyIL&b;|lu7i1<G!I?O>!vz*nAgiS!b+#uuyc*&iTtyx
zQAF{Sdaxuwqb-E>b#H%YZ!kBfE2`gWyV<s8g#Q8d8Z&;W<)v#@^4YkG*5yX*E^8DS
z$?~f{cECqD7Ov${*fGj59qha_@-f$KZdrzPPW;?4vNt6j0@g0V2&!v&j_i24KDOA*
ztsnb}&B3*x!(6k(KjQGSR#9Vir>nZwjP$$r0Q-GlcRe!WeeEEX^DxhC&Q~&p?_<9c
zU#fZyWO@~YK6<l!&CK4=2JDwxZw{|n<#)MTWj{u-_RY}s&?ATZek`xgVD3WmZ)~|f
zzGkKuHX=*Do4ePn>=jd>;uAZ08BK-F*HKJg&8cM4M}LZ-Y;&D}bIN#Q7=|ff4$}-1
zmX@$JEJLqWgxC<0M<xcxoXnV@9Y#9s6d&d&^I;4!pM^SJvkg1=a^4B^oiH#tW@4dk
z#C7u?nCx_hy}Xyt8?&(Rg4dkG1$-e)R2IU>CO2Hf`%sb>rY}u=G4k~BB`|17@nI|z
z?<LIOWGNV*6~ec$4(Fc#AGI=>PX{&>7GRwMg7mtHX@#T|RD}4Ml2#{5%CcTGs*!Ec
zk;LL-nCoxBLplu*1>uP1FFW=|y9jd-4B<kwi82R)F^lTge<yNau^^{wc<eQ(-h3T^
zHZdnj&<IM=q@t(Pi4=&*05cWxZl1hhlOIM0u#bkPK{kW!CV+m`sFdUYBNAo;C@3cD
z37kP(;WV|GHfpd<u2R53dOWE+WO07BT~cRI-;&ET##ElIPoUXJ8zT6J3MHZZ60W*N
zwxCp1E&o>5(Qg^8_nK58N%o}*4~m5c7p(Vfu4`5iw;Yo>06d|YTfr;^G^U+JzwkhJ
zO&0CbdK+aBF3rY@U^`;`Paq)M<zo1ffM3qIlw+2Icwg?gImQ|SWMEW~db&bNH_7-X
z=80)E@0C0f5)hn;Jk1ZoK7_r*%*VK|7z`XeQCf}}^X0R-!*i*6k*HF_1i>V#d5*kv
zvpPBrWrEJ<EC&_+oau9wsp5^mUTIBer6Px{T<J9zl|#i&ky=|DnEU2Ih90q*FBwDp
z^jzDJa=+B2%OODVlQB?riF!OXejyl^4ZuUu6pTrzgE}%+0gr-(e@4rsaAQg+x~NGr
zRA9bFu}cYF36r4>U^ZmWZ92rv!U(^M4Aq+w4pQbUI_V_RZ5B-bF#EOyf^Fs+H?E$I
z+6|MKim{&|*Q?xv!s_*FCA}d)xA%2IEIYB_df+L!QSj9-LL+A3i)jzYn`Gx5&$P$8
zcyiUVed#$omap9PY){&@i|m>7Y=7V=NjU<dBan2^^?y)B2V_yyl`7gJ7VSwE?!Dc6
z$94NlNf^q4ZL%`iu>7iXD@d=Zg|fX&wFIDjP&Q)r*lc9VqGh!Urq`VrX336=Ww?a!
z<bvtzE_q#}V>CxVBwN?d!$W(pF2s2av+L{luFe)P-4v!Ec2MlqJg3qmUV&bN;M7@i
zy7&(5sq9V=c?3=J{`g-}787C<3gCm(!c_{OF_u9`s*tt|QslXfyP(S8{w*53PQ<}3
zsBUblwu<|uH8<i*!?%1Zpe{SMFYLtQzH{I0i}##I(522D@=5<aD)SZ|>m*xgyJ4MT
zLRV3zfMAE9Y$uG;0?f7PT>_CsIQzt}efVl)i&q<p$$iKPP04mKQq9P*{pFHn<_#J0
zJ2~s6%Q9qgvh=O#nh`?|j$)?#lzJ>4M%7585K9y?hwRD*n*jI_=0WJuPY*`rU?R`0
zh%FB`flR9Kv)0}6I8%G|<BlTERc%<X8T_EH(OAb24P(t1{Iz!-wM!>%^`*A<i(C8e
zHuk4Il{ffQO{ZAXdDqjK1|Dy^2ir3s+ZPA!76)(`78Iu#CnM!;7rpK2;?mXfwp)B^
z`w?;bk=62}N#6i4^nyZA2<&b;B`a?nS$grFty`Wij2rYd)L`9wp?0wO@+mxQzI+y0
z=;t77j00(&WT8#DN1x53LjYBB&VfrWqK~`jYluo`4l%U@K@CHv)#yM_E~{+-wK6!A
z4Aj!*A}wJ0r^~TigJ$#B>vGPLxwZ@$6E;&w5N;e&o3iEynL4GZ<8R`FX8|I$p^lPk
z=xooKv!TAzq33#@?UxN)>T_xcQDk)w23!5Vja^%86j^$%?sl7QciY|V`=v4MOZ$f1
z*v1CqvB3tLzzmpxJp<Xz#4>I#>zM|uYMU%AW`o!l&x*}3k+S$9t7W1ngA_#~Qj~b4
zNXtA#nmnb;7<F%fgI7CJvdTjmFkvssOuqj=Rn^t)g4ueg%emF5b58x|od5Fuv?+x~
z)O89qWOJ$u4v%?EssUJ0#+JYu!z6=A1R&*NtkFM&v1X7J)-Y||HrlL>Nmgj!{QxCk
z;9(4DN~Q;ux`S(;gXxYQ;3+L1OIEg~eW5#J0(lZ<jA?)M%2+Dcr3Aay{9T*Powo`I
z2#J6lcdu3Leq3IA`^3j5k_{)n_}+T?x%BQmx5gfpx4|H`x|5hs5zs0BzAe90TuQi+
z9e0OTs~&nsx6^QgT$P}0UPY|nO`XV?c}<7!q2skmnFJ$ZJ@|;koub(6;9I0cEFYZ9
zSX=0!G;dfb3r1~!Wrqnn5mSAqmCa(QP9L?K6zB<J313c!nXK{5Q!oMU?pKHvR7xXa
zKEt=P!1RF^oC!)Zha%KcG91#Bi}eNm*A&}_SW{WK#7>*V)IzZ(0QfAHGP$aE>dt9E
z{GFdO;BRwZl89^{jjv1pDGkbNsFUWqtaZ)Tn)VV`vb6Gc{m1pGK(7+$eGuqdE=+p@
zx294RVWlFx<_V{Fg$e&O__(|=9jLk!O||S-TK3<MrjDLfj-Gu6@o~vAX;$SbD&K8f
zj~s%abv^P<vi<Bs?>X=}y~1*PR%?CKMUsrscm`wbHa2<aRdYNiGOsESZ;&r75*K~d
z!Ip!@x?_7hE9KEU^A4*C(kK&qlK8G`_Bh%7S&Y)S?dBgN<~3@4{8nGyEAf~$C&GVW
z)cO@~SwT2){PGU$YA}1oy@)N%i^5}kX3>zoy;rq8o`|;<gpFy}U|FsVSWz;xViT+1
zQ#yIgv1q6kS-%yI5465F|C!g|{=%w`QD*{eK5NgqM_?X+(MFIewZcMi;G67%8Bsfr
zKLPE=2=8nXEoa396w;m9c7lzu#J;w~#)PM;h^*0yVw$f&2QDteNcZ+Qn!G(=;+K|U
zm<tQWEkucR5Tsg?T8FtLK7Ao}8OWe{u5;sJ<Ik(7?EJ=aUM^K(a-*%DRF~!zGpbey
z43?}l8quq`OnO0i=48a&P1J8AEIDWd|44+ygM_SWnQP<>G5}bvs&1vK`$1Lj@-a4)
z(0%DPw|zSC$waF8O{MwG2hAsv-iDu-)&0Dx^WIdd|M*(}@y&9A<f0W<o8oVS<_Jn_
zZc8;CQJR3S90s~qGh+>hXa@uj@2zWPtxz()J@oO=ou0L_=DTC5&XKjwkuSwenXVqW
z-<&!;sT`hUDGJ!M9g$S~@LK!uC%yN3Zk;gjjD>RYX0YvXuxoWJHFQ!LI=LR4$T%G}
zwObBnMJ0H;ybxT2O3P^&LeL_yIn49((@C3d%dPtJ+d0P=0?j6teSd))ns+g(ahHEY
zZQ7_dBJi&m_t_h82|>rA4qo)xu9^XH=uLSC%CMk%SyL?V`n3K0uR_SmLw^b*iRVJ1
zT;u>I$E9<0L2S}Auz+fe>m0Cv3IrrNw+*G&jPhU7z#7H7u(2kWtu<?|nw8UvtNx*@
zhS%>w#S>hS;j8)1=`}zUl~sM|+nMt1QG9#u75sDYKNKeqoiceWRQ+U8Ma&0%dbaM4
z|G;!&*2YCsq3ZdEPMDaK8>Bj$N}nuVIl)-0v$2G+TTLj;*fPxSv+uZOH%$^YtHlo{
z16pVWz}&G|8X><?3#71^E=-d}W%j-L9Zxhu!NZauqkLl$MEOBIU-pU=#x!VM$EcmZ
zpam^s5OPy~v#%PvmCB0V513FvqQrr+3}qNSjP@hbMjN5eo3k<cofUGCnOT7^u<9iT
zqhP*+GBGjdANXO%=uaVr;^J;S*2;H{^*FRHHD|iE`jS2Ro3dB4ezbL8m_|c)HlKb+
zqk*9yUi&vJ_Uh@a6kDR$8@?CPQ)I8%@4-&;^(7R3a|!J`CU|=O)mLAC{WX&|wVGz=
zc~}Qtma!3p|B9sr@|rjo+s;xTYfqhhl<0$<C;+U_1N06)!7g2yho_2*gt;xx5vOn-
zZX3velQymZt7a^0Fgxp*b0t_-|AViTN9c5#PEnlHO4^UI8mWN~N{mXYa4J%O3I(@k
zqDTQOBzID|fw#uT|8V-q+h@*<PfSgp8J&1bt=pdKB198l)Xp!cRk?M@M(liLE;0bg
z_rIa#qbRX*DWFBqJ5-};b308(vyCYeM^VV4e@b`nQtFDyV{cE5ojN;_^9_OxJcR^0
zqbNw_Q*)}G%dsf&fvNfO);4W4A+>LtkX}`x|1Q99`cq!!fQ{-NTy6eY*JoYpu48GJ
zmw<|H`ZjCpQ?(sRZAYqhP^leU_N6PssmcKb_Vb=}*Kn$9O6i(f_N}`*(w@4Mr&sax
z!n)owknR~x^_)|B&MiY#HG)MBL5Chtyayip8dJVL#n<=DVJn7ysKZ?Z`xD#=bkPCD
zJAh5TyL#QVM++KMyn|X0i7CB7^K0rlQgy>h-SG0*%@gV1?o{xI5<K!CIF9F&o8G#V
zw_ov+7OJ~u-L($|X5Aq7DXzX`|M<G=Xtw6xUh|A#%1xCWP|6Ohj;@srC%wbTvSF~k
zicwad;_ZX)i`&H?7q2X)c8x2$#<A*R7Bg)O$yhe!rIlcE&+&Edo13Vrcdz2z%ilbp
z_y*{k30<H#@X^T+Pu@I51~_kh_*Sxd-)h0nyq|d=ddJC_6+vnL(Ju=A-TQA|HfR-`
zwm+va6GCsbS6k{!&|G4vDnY_Gq1eDb=0194r#SyYcO7&h8ZWbU125iL0fJUHGLdhY
zhL!vqyjlJ&PG&s@5}mUA^b`%H2S^M(hNpI$vk5BF-F;7eHSkhNZbos%hm-mO-3jdl
zy2~mr(38+zpgUc4;RThD*;nbDu#qsGu3Oy>=P}#UA`hI5?$1DyzIV0h1zj?=#m>Vv
zmZ<X$iPY%^GW8cux_MUbasH9*S#1~O_<sV|qo-}FV{oH^>wWm-q-)0C3t4<<IOD(-
z`CdA470pkdI*Si94t<t?eiuR8Mc@#Emq+aof;%9HE`Z3}X$Zj!5wc^>4MDhD^HWJ8
z@FGr4VFfG(_vp`2c(8<@L@&hF#d9SPhI`?=5k4zX3YG7}v!BK3MbUuScO{F%11t_N
zWpQ^ImcSKiz)T-TXQ3{a7%w6|;2C&Z01yr6I?;A)h!{NI#J+sBl$-Mlk{_WV@h+W4
z(Jt&fQBcU6)PTm~3~?l7CO*gWzs8A~#KgG8y*MC=wsfv-l6eDY!D=C!<-cL#G&pd2
zxy+_D0W4%0!DeYV_Sukz>$=R$^0!Z@5Pgep<B9DIiWEY<a=_CqPG6ai&!5MH8=bo{
z4>O0?iN0UeK!P<(b*3Jn!z}u)-PU!6>^qDlO8gY^5kt0Is%?VIt0aA3WZ9E)H7Twp
z(7*Jd6WOPsObb&(f}Fpz`|bzpuHi2=Dfmj=o!Gs@t0iB!AG*#6=Bk+;MQb7Mwgudf
zibB*LlP-cyf_;JGb*xjF7_JVhO&VjLSa%eJ*Sb(mm%D%(k=(_vJIh{(%`9TXUIbKm
z$(2~_Vnh#!%RNX7$5rv^?=38;m7-rrT)QY=j)5P3W%|mDtk!Vn%`Qb}@_R5xz)Itn
z3zYj%YQAuF55f{H7X4!}Fpg1Q5gEQNZMgPs(#+YYcpBF|P&e>zhWk_D6G|A&gGS~p
zkOyr@Hdo$Fb{;lO2UH1bvxl#^U+`<-ntxdRE+4=q&LqfmKn`cL`3Fv*sTkX8D@n>V
z#}HmZNb}hr2`DFnu;ny%N+eBzVgUAn*BBq0l?3d-%0^Bj#F-VBTJG!&mNs%1{=~pX
zy;gX`9+f^Q{C=Sc?PSM9qGX&vI^Z>9kzL9q{DV3`(F{QD2SeXZ*gHeayh`}m;XM|%
zzHCB17;02)jlfps#a0mzyRh71nR*XuE5kMr3W7MPMaM~&!f%oPl>!RECdZfpiMURQ
zM(D(YhPp}~pwka&4Bf#gPQ;J@Z}_cWrj-3OfOfxP09g&rNg73ei>xexsccA9bSo9z
zsfst0iZ_;vG6f!Y#p7}q9<|&pzLx-JN#kMn?!S4M@aB_MU2ERRuOItro=JsBS_*Tb
z5FBYILjwR^KG2YEh}^3MZbvdSw0an-t#?M@7VB=UQnoi)+J_YVp~s=dPu-umlN}=u
zLZiuDhwnFJb~pm0f9C{JbCFbDk?}Z-D}I-8p#0ymp7ToRfb^Mr6wWK`{iFLGpYM0#
z-UQL#ji#B%@mqyf5q_(%6*Dj)tVZ^aZRDd#M@>k4&QlV#@KKBcOl_T^KP4;+Lb4##
zHqz0+WCzdjz_ik!+stlfw7v<A0`$hPf`*<K5gGxK1D7xF15FK{hvyI|Jj00Ta~2kg
zgrk%7)G|eQS(J)v5uXR^^lIqp{9Fw6`0gBrp7Dxo9-!**T%*hOSa}TkjGFS)2-<@k
zv@kG&sIC}E>_;VRF_O0VB#6(^7$PQ#0C5O{&-c-#4=+7%1%Ja^iyQt@TaGLPNd@u8
zdJn|^s;%8VBcV=4YZEp*K*0b8#J2ew{}`wtbL3shw1G5v_L<UrPrbJkUu1;6iwlca
zHBgaA=q%yx!Jr_5-wQ5r08hlm_(Fx(cyAkedFIm9&}D)q(*cS!d`#|@cI;mlm*h)u
zXNel3E*F-79s%{Wxu{Xd;&*3I0bT;>eHdz+kIY3nL(@Y4X1blS>b!4LXEEAYzG=S-
zRymY*(D9r*v1@y$<Rn<4?jXv5UmD=*7TPJ)>^%7rYyJ0;C9$;0AjHU|9Xb;UzYKv>
z({IKHNH>8~(|h=^0+Nf`{tjJEhfM-FwXvq#me(Uvna^ev%o_$EGytT(LAqo>M;9cz
zjs7~bBs?>jN11^lo$Va?FX^xOF;0Y|!ke3qC?qRrAo?x;gu-}>^!Iq=ZH}PLu+vz&
zl&IL=c?kY9>asbcCsBdhEnt<%Mc_kk2z@BFdOte#>n-1FQFH~mZpur5Ov#;)MUDes
zH{(R`?`R*)8^#}<5=8Wdzgha5gQJa(&l?@1Vd?X5DM+dOf2cj+n;YmO@-*qQJHu}J
z&VQm4ahyy_^t5~tD)uxFnRMz|lYW@O4$;YS7uZQLbP7>p{1-~*U7+3Rf)-|VO?qej
z(?ElB(#AVMy3w|Rd<#KGOUBK&+07t7irpaJmPn-)86V&JrRusDTwLa;&Fw6?2h0>)
zzS#SmE}2Tdvm#v=&N%40?|`^YzVn=(GtH!xZZCH3WUY5xQ4!L5r#qqbPIp4<o$hq4
z_h-d;($vav_pILKEdJl}VrNin4e8U{V`6DALhXN>PHY&kg2qriaETTJ+7YINI9pMv
zK2u0!=KQQo|C@}~gRmXTQ*C7%`OXq37B&*J00X9&Fj9}rpBJ`O^xvsF<}Z;CoJEEQ
z60kTsVwW#mfR+hkgu*@V)dhOsEj|$fnOMTYNyT~8Q}ytg8HGcPAh=UBUQ|B^o7q<Z
z3U+famN{|u(5mI8H$o4%j8g366j~jo2^KCMi7s7S011R`noP1<HK3)DXCj)&UnVms
z)yLs%>;+ckOiZq%(2Bg!$n4B4s65Gf)gq2toQc05m#YyVli8qJFG4}z<1}FdAV{l-
z_L(HkRm(V$sNjWJkw7M#3U)xNmYSl;hY>X*VN0mhrie>(@FXa|uVrQ%w<=R~oWbU`
zSdt9OAu6GclU(VE(7YIdLMVTbmaKu2HPWexPR(=*<D>?2a<Rfjggq{PXJ!_zk10uw
zMG|2nCbv?&*dO7=f?~2;WPyvoY#`?L5L;EC>P09^xn88m65;j|o=KRR(5hG)EL5(B
z`p5J|t=01ypO~%hUdktW7Wpun1I-{FVI2|HE78UR;=~8U<$lT`MhHUnaYOqk84@8=
zP2njITxzX32PmHG7qg86_VyB%et^H%Y{=z7iua1zVzA&xmEWLzZ_|lMD$NyYK;S<7
zf#JAiQocdI`Y<IsL?^Q8VTKsfL$N6MAw?`xe%BC2^-^r^piFW)B$eWH&Nyr~+w(%n
zR`f{nK9Y(bN&ZKYXG7ZgMB1|<g`Y^>Po$O&spg3kR;2JRrIJTd(SJ(48`8vv)Vd)x
zZAgbUr1lL;eB_C=cSD+dX?NJ{FI<uh4}DLhv6uEjJWF&ck!(X7QvXZ4%VvKm;q;VF
zFG~yP4yPAIk_|8G+mO09q^>7Y?-MG07$LuKm)|<~z+Hd6aI?HBDFxCswMnV+7f$c;
z)DPahZhu+$tsS=ZrxKmF5+$=PThFa;ZGq)u>)ARHm~hxiZhe1CqU+ZA!kEn#OjftO
Kkm!b~=>G$t;4WtX

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/core_client.cpython-312.pyc b/v1/engine/__pycache__/core_client.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..87436df68b999623780d242ee080a3b2f3a1faf2
GIT binary patch
literal 68308
zcmd443w#^Lc`phO009yp01|u?B*B+R@G0s=N|a<#q$JCdC|jZ&hq1#@Tu>s#hq3@I
zi=h(Racfd>VyStEigRnaO&h9q8>V#|r6;$M9Vc<yv<E9t1%#{Ht8<UfJ<YE@Ep0lr
z<F@DA|2MM_09?wC$oF@b#O&<M?Cdx1Z@&4@H-DX#m1)2=YW~vjJ7I(2ztV$prOTF;
zAEp@$mkh@Yf<Z8j8v6L%*k@$VX?<zzZt63!ySdNI?v_3ayQlZ1<DNEZ9kcb>#xnXc
zjP$-~G;_?}XCHI)IoPv#G;7S+=NxnOxyIamZsukg%^u6?%VGBPQO{UzUoNv-NAt$=
z`|_FHHd-)N*jG4K)K@fC+*i!pjH4xeUiR(MzEXBCWA}{F@-bhZkA=w`tr)B9t7LZj
zXw_JCUp2EkMr+2_^{r#}tkK%By1qJQcaHkU>ig=)8u}W>8v7c@n);fUyKA(0tfjAI
zY<=JQvDUuUu?>A2#y0kC9NW~liTS%nH;--U+rsSGqitjDeeGjg`?j*@oY8G#9eo|l
z?it-awxe&y*v`J4WB2sk!`yO5ca3%SbuxS2=<czuzOJ$EzV5L-eS3_CG((^=u=hnH
zFQdMF0mDeOQgGTmP*{YAKn}l8Sq+B1djmy*{X+hBxFe2Yp+Jq}zQBRLgK36+2BGjN
zgHRN(y=dYw^&Mia#c(YN98z6-0=dlH3-{6&QAg-{k>3n`hnZg){K^yFxnJ-FHVGAh
z2LeX|_YS2Ibwg&M@+ouQQ5L=m;j07ptKaBlt~GF7m*9Ggxz@t9E^tf@`yg}m!?ix}
zpz8XGvqpczFNmrhe_Gtsxw|Xw95@~fi35Y7u|VkLgaBu|5EvSm91RJ>gQ2)Z2z+)j
z;5WrHI?oIYhX#(12I97^fzeTJJ4(Leg8{!Wp1yZ7G%1oTLl_7R42}*2gXG+MQVa|T
zh{4o3em0)bd-imob98th7`Kx3!2uD0G9Mfr9qXDH9~wS^C;RaDaHxND;>3vndD;(7
z9O*nl9}0%>n00jW^yvvP6cBm`f~VkM9Ue#EiPL^_JZo@tA{gioP7Iz3go5#`6M<0w
z#Oc6zKfMqyR3E3tKHEP$ep;Lu>_0saIvID34V((}lPiDKpB~TNGk#)tJkT{E1`bb#
zPER7b1SgrCc%BwYcA`YZOOFHwS!$3W-NVS=;p3AaSb58n;C*CZ{1kg9>sV-bbU1XD
ze~l8_eSg=)geVM;4}>N}6ilY}vA9#S-;ZP<xQn}VBeVC2B3>}X^ND)y+&PFi4h@VC
zAW!3YnmfI$ID1A1CdUU)_7CE%{s2opm7s0UV}Zd*BEb}Q9txf~JurBx8|f1elk&W0
zoIhKSpADgyL{yjYv%EsY)B2AL$_;_t-15W944Tv>L%=|tCpu1JpDAD#(gGI2gr7N(
zE?5HAfQ_1kkPa8CU>I@;wx`T$v&smVGYs@6bnArA3}goE0XuJ4LIyQ>!5(l34*aY_
z){s+hK4nqk$_h9I*Hc=PbqUshdniqCqd8{7o)hp0*>WRI6LR31D|iBVh$#b&HW$zN
z!X6=y(Mc}(Pg(j3guOxmd<t<d#Jxz^hpvRaP9cgBqFA^W-AGBm&Qi%~<i1|`dhuNg
zXeh<IrHG>p_cGkeaW6;bp}fc6sDP_as0>uFx6DEno-5IT;CqP0EY#q+3U;`#t|m=b
z2bY?J5Vd$-huqwcuEZ|*@#7TLBMyx=o6rE-YUP~2PiRCg*9qAHKhGVO&rN}P`Hkj4
zj?ltNq9Lgytf1b{=*Se-BfdsCt*xM;N!Xy~(ndTt!;i{h6YMRpCzr)$xUNqqi!FF=
zO)85v#J>Ug)()SIxNpUMQ&L%MLx|05mPH4Ax5)Hu$GdH-@_q+g+Y|DBC!V(^<m^3o
z-i8>oyx#?vj)V}Mc;5a2@_sjH*>M;1z6<f~Je%P^5O-@`O4sOcU_3N%79(n=4_B(s
zHeYb^IP2j9LEp)NabYyz6NZO|0wP}X@sT9x8=4S(rze9ahsRH_SSTihh1=*T+<Zgg
z#F#I1GLR5GduJecc6@Mn!q?&(!!R^V-E<%r#2d|-ES{t4x3{t9df$H5mvgGO;mIez
zlNfUyk@MjCreNqSs6BY_5KokEG8pj7(HzBh58bas(|70rUxV*Bdb<<i#3a!TLRQ6y
zh?LhmiS7^a{+Sk^l2k?<dtZ$&o}HNb{xS5oafck9KiMC}sEOX1hRwJ$AotS!tX$$5
z7(e@ip#h9r>0$sQ^Z1}8p%*4QaWpHx1>=%o+9+mC8-n(b%tN88G`=X?pEOPz#3F<!
z2+4en!7!2-mmKYM+O%oftneB~4S35nZ473G(DCvsHAE<5Egyec&(s4)CdbFAo@lkt
zH$1Lp*_mPRE0d^g$#ujx9Q2J(gnWaOB2~uGv#6>vztHTr#63L|q5Wg0M+0N<4DgXs
zYyuhaT*d>i4DKI0ja;NA5O*ZjiMS)NqWLXiGhP&1$XHKCD;XPL1Sxx{y8GViYzd8>
zZaF=Cx+yduf&poIY_e@@`>D1-%jod&meXgEi18LG$d*T2TLNs*ZD9j2C!qQC*|?oi
z#-FFWT5j-)+MM8fFMazsjK>Xc<`^7>lCSkvPR(+fF}r!iWb!zd4W=yTo0$ej=?mUl
zo~o#)UGlWY+$D3LUijpSDJ>TP(h$H#0Uo~PDWA75eERAqBc6R>$G$gQC36QB%B~hg
zTwP&X*9yL3=!v^IS^WcoAfk~5f^moJGKe;V{F9%C$A!RSahuXQ29@~~#X@#g7canq
zx@Z_7*OcpA`ZQ`OuR+t6q4aas>GTn`K5Bsl<Ed_xf)~DK%~i39wuIVf{fgnJA)yZP
zXS))1nmu1h>-hyW1h9mz(*q(n-@vHS=5mP91qUg+28X8t@uFn6z+<6+I6g4iKYBdw
z>b{>faU~Pt+1>Xa+@0){mGtPhrBp1DrYhnNGIo;D1tV@(%0N634BFtrY90)6D}~tt
zW2#2K+N4zX0R)xn&vK5TWL>m)vsAo!#&z3K5OWmA9C<N^H|8kB|8kbKAalmP>^3+`
zqV^`q-n3}EZf}jb%A&6J>#p`U3f3*y!v&kd?oDras^?FIJsZM~4Yyq0xl>_Reb`nn
zcHmosYIlPNx>z-!a=T<WYq(<UxdJ0@4hBYtf)tdeC~ga$oD2yQXU3<BRwYaE`W%9@
zX85=vR#>w7YZM*(nv;Dk1e0G+8pQ*!T``KAaT5>0Nc?stn?$e~!BokruWO#4$9pSO
z7>^rnIV-}p3PwV6Qi|V?2Jrzs3Ow`?wNvX4VHOmes@5eXCDaoX-BB_q^W#>LPpSqJ
zo6!fN=}MZ|L(x14BS>${buDg3KhQ5ntJ75__&!DNYqZ#ggEU%+p^r{XUn((H4A?`%
zqk*ZyRhc9EJe@?uT__tTIzg1q7>4D6!IOch@>O3>4siZ%6OhB>KP?7^h98rOs9J-F
z#6Vw8A|!4Z4Llkc{pe*uV^C7Xumnc~fzwm@t4Lw))bS@&26JfOMDU}3d?@wf)-yD{
zpFFKo5oDjQCJ}HKDuSKrGbI@ej7~#H@cqW!{<Md4f`NWva%}8u|M7v);7OhSK_}GZ
zwMn5y{zd#&@?jh>7|}r|cA0-@I>Wn7{VuCW=VSeB?3t=xRU_66`z`vu1I9lX-c@?l
zU#-w+@uW2aaw56k=^qw;jmje;x}=&50U3lxN~adoY0}97o<{@;b=fgGAr2^SfAl*2
zXewDY>PsnZoiR}H`kiD_tc;Xl;iFSAl}ZKjd~D*;04HQMYntHudr7q1g%*}M3c(ut
za8PF;);t%IKTH)_xjxWXCr%@HQjM^oQLmNtiWkY15^8~&i5aahi5-mF#s(hiCw6g=
zYOivAAabsl`Oy0$-V&)riZqf2DIQ|`7|R#W2@ar8f+q(=At10>U|?$XD6l%vA0d_%
zS_FCA@OHYvRjIHo@pL|?k6S~-V*$*%;$}={Fta>$hVDr-%MX?c3s1!?z9q6j@JnQS
z28K3w;%RXXPJrhg3=Jbi;^{%1_Lm&sPbdyK4bFr#e9$WAH%=Wn!Y0f?U#~bB@C^$-
z;^}<~pYIEB(Wq}g4EVHfW2Q;7QzlAaB_YpVX$~G}*6$Z{gwu+kwO{1nb;@aVpdV6Z
z&5*$ux%~0Knf~N?2di9(b)D=VxC8gg{2d7glB&KtI5;p0;V^{zq2a-PjOZ1s`tQ^r
zuMnN5$@nacq+<9`M6F`Q-5R$o4<@ULNe%Ma$3;w$4p+YB5VvO7pCyy`kqc0K2oWWf
zTy_HQEz?!Gs_0gQ`K!A{&%>$oWXUYJOiS4+T9W+#CYcWEW0dRHt3$cT{J2cb>e;eh
zurNsYSSohmY9?ML%)cs|)(RR)ChnuxBmog6)g(LPYh{8~kNF9{e|NWNIGIXAmdv-W
zS$mTFZzj`m_i9ge0v|7vvbs^N3Ue!&oR3~K#DOOjO>QzPDwDLjHtPlZzwQ=QkEK%O
zRQOSup4F4$<N*Ko-J)a_=a!wokgi!?tHS)ZWP0vi^>J%ls!Yx50W3AhKO__L(JRlY
z%yBBb>zc)s9N-_5DIpG2xrnL{%xs9iiO?wwY~gC&RHkZm54cv)f2L?jy2qxA3P1ZR
z&V?kdUwk-fze3Tf@_o*u=4xyp@u)JXtJ|Gku$5#oWtNqbdBxNt?uNfeBwjK0LhiN^
zwjKy4nKKhqruFntxP#>3zb9_%?;jr+3-tHLGy7?sXcGKdf85dE|JlibQQ61Z-!B0B
z0B7P(hX-Zu-h6ywVpMb^qPRH(9D}$HR&g79W@r!-E$y3z$3sl0EK-q+hsmIYT=576
zw1g(Hx*~eW;TRdkWPFm0N66?WV}OhRjJTQVw>V7Cr^py1V}guHGIGc`OU5}EaTA1V
z;uq-g2{M@Y&PKKd^0f?&P7H*^EOL03jEiJ^jSMDanIqdb$@mr-zfHzG8NWlux5@Z@
zG8V}A12SGBgC<4dA{l>7#>-?-W;5QKi`bj!kqnZ|2lJ6HPZ{1!vsrA*xrX$d<+OZD
zw=q^yzHB1P?fl|p3t5)a4f(!hE3?`RMWu5OU3M;Ku*Xb8ZsD?>SsjK<?^{`9T`{SV
zEw3kQreR}S%v*~8H?s;X4Y53Y0r%U5UKW)Fc6<XdS;=NIl$6f}=ey<}yWG66Nh)qx
z&LHPZLqYMfooo)WQAEp5LuT$<F4*KxlG_GDdhShg3AyCP%q7caqop$JZCWwlzMKwY
z{@B8ft5xBK9a7Cs%{5%LX_<mt&1G(HvXExxv}k5dE9Ars<~g^KdCrHl@N?bsp3D0e
z%#yc}$HiY{U!ChsiG;Z>R4)Xt_*Vs<{}lf)e}_}eKew=nMZ=@)nm1j(S9_i}v9}iF
zui6ZUj1L&!G?^@wvD|`XcCV~iFuzdG?f2}y*877gX1|@0wPHayER$5!#PSPcb&YS@
zt(MB$ZqJ32D2v^5XQcdE$z8i_fh)=?r(iDkqIcO!Pd0-qcR7P>nTG7V3rFXwE<AM6
zIiD-JYnCYzlvk#6=J;&kN)|ok;5+l(D+c;pCS~|hM)kFXw1(@pYN=YxTReAdFx<9Z
zYQ0Z$4Y%w{e2taJLN{}|ipZ6c(u!+7$UGN${_*hUg`-z87Q3aob{-dhkrzy^_N_(X
z>c;O4uL`nQ!krRAF32AVX)iCB7P_w35}vy_9rCySe^*FvQz7v#gF1>q{M5@K+g5%H
zyhSo1N=SRk01zn<QNX{Lfe}fE9jGV)&(!I{H65-Qz?NhRCcy@rPX?atLT11b$f6Lk
zs~xURp;mC<?h@*Rtbkkg0SXETr&^$&%zZhy6XMAu_<`ujl|$qpM4nI&jExefjiG$_
z_j2Kz52^^ElZST;5Jx`lg+f7~h`E~?`l%S$C&Y+wgncsimB8)|<jSciflFyZ2rr(?
zfQM-iN&{I!8Gihm<%mQ3x=rxm>*X>YrV(JuEFe)Vfr<nyQe~i0exoX21>&X(VX9>;
zk{lD#Rl(@U1WL*ROcYNI;iJ}_wfURGc4Xv0J4%O%cM?$m+kAZWl_6J#$D1&1CA3Nc
zXrUQ^lu!Wc-vWD?U?{+xkg!Mtp(J5b5@z9beukI{h61PSILw4ZOWGvRhXHZ&G{qG<
z3E+eB@w)K|-|@-dSs%ki%CH%Fvz`HR0NT-_IKmeJf!`4!Wn)sT&_oI>M-^((`=g_Y
zugl;_-*EsfKqXkj6M8QviG7HBa^bg94Fd}a$X9+%8;1?kY2P+}1(1_|)%C1_t;j+s
z<wLNzJ;3B|45sKeaXI3b;K8MbCfJZr&X<7~Vp!7tsl3E8YgU}C_(m`nZ(up0q-H)8
zF4?m1s8q6L#(cw8$Qvv1TS>&z2k5s#E4*u=6-FpT%JriB{4kigbH;ON)5gb)Vzv>e
z20b*5hQE2t7|b*pG~9v`&rt)g35+xJo5jCI<Z&yNK>yHq+yns=<H_XwiCZDFWf)dt
ze=sqJ7|%9Ukd!%^$PAw~1h*h&tfA)>Me}N;yqaiUla$vK$!nR-oUvZWj=A!$yZm!)
z&v#tznE&i^JFmNTEj8_oH0=u8cCidhUhyVAmSrBr`cX3Ps9F~&#hk-D1Y5!qJ#(B&
z!h|*J2;7{MxB|S2#JN0CSGnXWkGeKWu8k4b=CExuFa8G+peJd;#0(df1e)i5m?TWA
zh$>bC($1OmkuG|*fp9Mhs@w=@1aA-~UhMf;$dy|@;c%42CdPE5YV?3kwo)HAVTCO2
zP?pKgV2vPo+Qr_ODom;k2@#^M8iLdwkYiq7)Y}MtEb8r&yj|D!MZ5<kThWYZ=HZyl
z5w#Ucw!)~bTC!EoA6;m?VQb^LDdOd%%%qHDnfVYb$vwe~_!?a*pvRyG_tDKPHKQr3
zkXe6=Xb6Bl8W?9e#^)BP(i7%7Rg#?gq_w|1%78jVhVH`docUbDUNSdu-CiDZxT6lQ
z<nTrv4U(f_;lK??`?AU4@Uc`U^&V;ipb_Q6)E=ePYo(vY)57LosZD?!Q~Epw7*j-v
z;C)^~QB_E`iW{~nUQB&>TfdmLeMqXcI=_l;HXD2x@g+*I*c@>xH>nI{L9mzT&PRCE
zKCO!RB%5!(@P;0q=<a7Vo4clFH94l#nq*;dxo(EnO19b?Hvj(@HDmx3rY@eaDfm=*
zQbw;9C1X#JPF-n`Yz;STO}wrgN8}%ST_I6{D8NXnE95$rlavG|e6G>0DP@waY;N*~
zt%lQ0Ad!!qZYI|_nMyagrqpp+T#fxzYt`}G8@6?Ks4RDBJUs={R#g>pOc@mtWZDfx
z^Qv*QL2@-jTuouQntaTC;FuoS<e0(+=s-)Fb*p%zWW%V{%&W?yh)BPxeArH0>kd=+
zn6s1sVknX-IJu_u;)<lamB^+kOA_}|C%Nhtyb;%yux$&ceF{N7X4*+Iw+bY|<aH^P
zCPA={4S_o3Q>9th7jbP0+ctgtb)Cr(Q+soAOyP$$34EJwRj-#^^$}NN*w)Btrg2BP
zRQ~3!)s!a?_3GRv*OZ!~2<x}$W;LrR1rb+k*w)Hx%99lF7s+@EMiMZE=4*^gBh2xK
zVOls~TiFt@iUnZu+tt#4Cf7|Fn^p_?cTl>#An0)e1ZNpp3e!oW(?a)R?bY@hwr-v@
z9h6BDWF`IAOCL5pm=Oc6lvd4z&^qe{Ogf#yGbAq!?54z3AVwt4X>jK%)01Y&)x7ZN
z;+bpaYeNy&p|I`H>UKheu+k!;fTK2Inz)xstW#?{3CL42dNtVO0MSBKfV!Goo}=H#
zqxffJTqWZG89yN7&tdp$#s5V1ACmFElkpd1{G1Hxve=|k{0Z6gmI;1J9zQ07Eden8
z_8L7hj*;<T1N8VB8N>smE*~T>8i)*2!5aG$6gYX&KzyCtUL_-o3|3@p-5^E8PYsxf
zf&K%Q;GZH-NW^co*xt%9TH2P=(=44vCJradvdw7Ok}411LV?<uJREnDhvT+vOS5cM
zq}8xqHIwt!6+}=?!qkR&CM$2?vhoI!yVjG@OrGnwtb84pm9HbG+7wxNEky`t623Nb
zS$Q+P-$D*;Tpr%G*h^uM2%}~5Jd=lS=JN2(<kU2$%EO!Jc>|Y+Z{YIq4UkhS^6))I
zSs)IJCK1PjCKBIclx5<3j449#9;2>QyoZ)aG_g1y6}dR9x`J`ICrZZgh!V=1?|vI;
z%;VLU3Ud%Y^`iDd*9uL|H3=-X`LkWABZMbQxv)PqZ9CiqQy=890lq)dL~>F1m}MXA
zKot}>i|pnIm`93JBEutGy{ldILUP%w{H1g`R@YsP)hfs8{@_%p>9oo3W`BftGvs%3
zKEk`1^1GgZbA%@8DVIv0T@IJ`KH(g4xcoqY`fe6;bM_TNaX`A@Voz>J=!+pOF9FR|
zu~IJT@gNze9mAz(O@2?@vs>L#cq9;<m=qx|o;rRk7!a_x%{Sm1!iMirU_(VFQXU))
z42=7f$$O)3;L(X;YzgN(DhG$f!O779(FeFc?Y$ffu>FcYS%51`rYDY%K(gB$Hw}g!
z>%m4rE<PQTH-p;;wN2*nEG{RMx5399!{d+|Do=Ss!y+KJkRSC2A<tHvb2Vpi@KMFp
z!}cBmbPrsjvLip9Ek}>N{F4E;b0wag6pl8t#Iuytvd#H>Re`U7t?fw@33c3l4ej@7
z^V60~Xs?hQt0e#dTOv0myFXE^@2)3H(!?%!hrX9`vAA^H?;KacrZa<H-x5+*gbX9j
zln>%@gjVQNE=4#f{seT=0GM)#`TFi7Bne8n#*ISSIpm`rWpE`KOv(k<!W1Vw!d0iA
zgR6IS*dfb#GkkO?hijQm__Xtu8S@OSikY6Wkud#<&7le<oHoxAZE09h&`R+vLXK1^
z;k3IFB3KRo8qHm?Ar1`rbb*Ua`;z7JX`x#FY%t84HNR=YXEN|}olQHN5CUn?8A0Hx
zlb1sYUqT3-p6rQ!xYsLR*X|=tnq9Fa)TCy`O}i^}Z#F;}Z5nCSd=#5L1<HF^yfBTB
zL^$OV5^_XHqd%p7Qtq8it1`4gVt*#hX!s=ZliVINebR8o=(kLjb+HZ)i&_aguOXS@
z{bX}*&tT%WFxnc3hg=~M@7L23CCIZ0QsCLNZo?z@V%Y_C@^Rxc*h+e*1sc)#OhJek
zUUuoV`jAcWRdQl8Qh`|Qio14KY8F#n19d-IPCRp;8Pe(0ym;mq&kHW%PZ#qLRopC0
zj0fVG*y|m_j#BI##vVv)Yev2V;~9G%8w{Kd4Nr{6(+3AI28=@1jV)B@Nv(<|6bsuW
z$d`T|f1EFl6(lK3>Br7|c`xA(odF6<W<Y+A_V+h$ADw_LxU+eU*UzDy1owmJcOfNr
zm(HD7a<BV8ycHL^V+AErLG7aX`x)QM_*46>(%NY0dZ~2%%SAUzJFuSc{DI2{zIEsw
zlc8*TxU}O<i=njgzn6Bv`d*N7^+(yAC6-r8ES=REjED0Vi|@c${2!D(7DkKs&t%UW
zhN=JzD#!@&U&z4(y)JPp+if&F5l=tLl*5Q`v-hx#W8$>947>Oy8E=uXLdGx2pw2O#
z0bv)5Ux??jJP1xqjQ59_TASbi#$75Q@n6aKCkmg=Gd*s;zjObQxD{nKj^USfv5pJ=
zbhaD=*b{vh_1_S8siPeQ2#6wTl0h_5F4DMywM^fxUFvcsFN7)Yor-9P-n|6lS8QtR
z_05=<Y=tqqD{3#3>}6qlJzKCSmmK9$M~&pDS#s1e-xA4Q61LYSEN4_oj>;uR^&9rQ
z3qmx%PRg%)sp`88R~n-A+ok&LOZFYNH?~DL?!Ufq|AkFak6-fmqn?)Qo|e}`Gu`0Z
zv-6_vO37Ur!wlA4A-OA<rCxH^GmBqx`<bOqa@Q@}(+iw4`!FlWFOKFlNO=tlz0syF
zsi`ZR+dZ@Amu5>=J(~-MUFEkt#dDj!w&P}Q!;RdgSW)ToWtYpAiu|$M!f0-jl-m?;
z-g6^&F9^shj^#EewGiIn+<KT&ZvAq$p}78SuOSN&MN68blBR`Fv}KpnvMXHNx#ZY=
zo0bGCBv(b)g-H)cy7bV+hc5MB?Em)B?>zLvLrZzhi!HI-s%UP5lnZe~v~j1@xN|A@
zp4;SBC*{^Hc$RXT-mx0;Tf%wG%T|NC`5i<<5AOwObpL62)4qJu&+;w%%B}JAArX+h
z<XvlEY4|k$DOeIaHf?aj(inyZal<qQY+^I@n4J(w0obM2k+Ju)1*}B&tKmXwC#G~=
zPa0_%&2LTsBle;u-$b<W^y8DH_d~3p2lt+yefxX%^miRTvZud$PiHr8qm}Sewv<4H
zS(1=5?tB#7E@KjLe>5;vsaLg=!#q!M+=EE@I^3gQ>X@szZZDb7UogH<6s>5LDq3Iu
zbaZpCw7K_sMQ^OUYNmV1;k}hp5y`0vJF1o~hRS2cu$}J;_m}BPD=hd%+}g!E+_<YB
z{Ug*$04zB%9_;UD-Huod5=3GqSkEJtla0C@k#GfKIvILh3+sB!z38BMFT=WyAJcoR
zN4rKgT5A<EV2fM!Qr!@t;%yb|@E<888HeE+Y=H3_hBtxB!?fLyne}YRY)QnN3p>rv
zAMXk0`ooR8rCh+%q}=@x^Zh`hJ$~RqDG+7ZH4$@TZ2PXq4_(-JY1_qZ^QQ0EU$94g
z8zlUDHZ1l^o~;q{u2{!Cj~~2Hb*cVh{ao<*&t3jpw7gZqe@-jFUODX%^F6V)j<C6C
zZX>|~c(YnGOC_5k=8o8wZDDiaT-Eapmm8wRjZ$&rLP#p!7%^{)ZQdF-7tDE{FS%S2
zEozX88WsepXhX!jHP+M`Hs@V9b7}hG^t>Py)JM#%x^BK|q8!k<Z4q-d1O!E8NLX&f
zT>6%|&C<Lq8cmk!`G*z;zdL+oSgL7%8z8xAE(xIAOX4U<3Pjh+Z^O_e0VD?i8j0{r
zX6Tx-0ArLMuu`LgZYnd-SC9Y%GGtUy8qLjzGNG%=(w7N5mVx83Nc$A9PlUkA60+b5
z4O9Wwh!2sZT!Jf*jgW-I$`P^=(t~%+@+=a1r{I!zHqD<WQX?3cMZss%IH4$(*aqGS
z2%`jG5>t}Gut^EXpJw(Fy{MsqeAtE-WE<HM`7Z@mq+*I1eLz%%lxZkMfh}kW(a4}8
zOlP4thpV3<V377588*Zf`q2ApBa?!@M~4SMk~R}n>0TR-M6V>xWfQ-Yq+>%>WyGf2
z%nP_IK(wGLE#X6ndSH@YNe<nkrw@jy?MTvjLX0c*@GDeRAW~0DoVJF@hg~nqclfFk
zSq%xanhixbm2nLzRatiuDHvZ;CmPVLVie00rV2U}%n_GNO2TbA{Y6wgy2g#uV5<A6
z!(vy6cp`R9r@v%ULLr1*aSu`3VVC|S5zMsC<Vazj5tBMG7R=|YXquQl_Nz1sV8;8^
zR7_jMifJ@i`s6tqZ0XFFF>TSC3JTT)deu0_&xh1$VX_{h&4!0jUgt8;+0Qwq?fP{0
z(<Fsm)0u08P$%L7CJBktgfBSsCVLMf=aCl2NTU+7c4vMW@Y9*{CFaW)>`#<~8lU#2
zVw<+>O$L?PNL)iO?LNbk#*jMsLp*wucUwZO+N8v;-38lA8Oq|xV<fsMQT*1(CDs3Z
zznqcqWgW4cvM9C2cS=<{(nd(imvWuUn$8-b)v%Q7oD=T5QXKJk&IR|~I__?`cdvFA
z43oxl+3?%D+7Ea@=!u2jy{rAs<xJ;@Y13}BN9Q@ubhc=kcAYSe7laNdVMB)$+q4UR
z9$Fw)T2(^5uT?|o(j9t0^*4<4D0c0x#B>S*AYN0D&pP3{4bSEdrk%hN^&_bN=W?fW
zM~-T-C^o?;WGXaXOnV0VD+bdL*3hpCK|-HU!s0u<ie0-a^qk8}s1*-s{)%nnQ;JQy
zBgQS-lVVe2%%9E^yQlL<Xmu*(66`NIlyK0krphISEX5VN)$&IMQeMNO($W}Gu;5(b
zblyl3m%`teR`u1QKIB1c(XF3)!Aboc@@s?gCBSSA{c76{4J+=U5!I%NAV(E9?H(Fe
z?40GH_!XKFv)bN3Pf!V|-Ib6KiP)gW%Noo^IJL#;g`@dLs-WaT+B09_qLM*Oq^U-n
zL6{E`+Zn?dgDh}z_56YcR;W469G*}n^?oCp$?uJ4ajpZP3npoC${dCAoSP)OmR);E
zW7To!JBz17ooi?`@QZ8Em5Ci&=kcAXJ-tw%AP{TfBYnEW6cP5D%jAP3xF;z9ftH5{
zMxjYDNNk92Vx03oJ}z2l=BVFoTsaszW6V?_{3ng9A~jsL${M!{TuG})QyH;<3^pbC
zCkpY8^iqZ@SBqQE1O`rF6(Md@mLITvOtFe_mrS6dr9iBp=)x2ejf#B!!$dLZEX#tT
zL?0-FibsZh=b8xnPfs2Pn&PCQEiTSC&6ASCR4<X_$?^0fhmZB{Il^X9kf$6wc#zMp
zy6BtKZN^hnu!+#78!ud~3ITE+NKR6HD75TTko?Zcv&Y3@=vO%|?x9cpls;ua@DqV}
zF3*a7dO6t7S5X8$7q*2a`k4Y;sJ%<jq03jGX-){)(8&QPE{mH_L#ajFL6rejf$8gw
zLw6LGPq;cmD8eGOjig%z>fN-s;;u=qB^awPK`1^9iX<aqYw6I%%WF$7v^k$bO(6C!
z?uPbbS}y9Bt5Pstgh~s2HgYOh++!1{Z_w{s#IeFH6y<s{NFdA<8ZrhJGDj%5?8hn+
z1dEe{w9P>zaHHrWgG!%E;4<Wv5D0SpbXH&rm~K3>uoB9Gg_Q_*cT5ZoK_h5@tF_GG
zK1z+77$1e&=<&%hp5t*diy?DZfO<x>5@;OEW@IH!5aKr3`>c2!WHF!=O)_*ZCR-DK
zj&M`i$_z@~A@IjYTJS0GcMzqy4c=NNN_(TACQ<<FGmcvYHB0N-A_eXAfGwuE1(!N5
zb}UpZc^YSIH#hD2+D3Ygde%vvb@PucdDdS$iIBFpGY!Q}i-k)?+wkPPRa_A*u9u4I
z7d9>Ce!uK{Ws%}taCgOW3TCX!X`e7=RNk(tBN>M8_NI2a*W7fK-}bFvESG$p7qVg%
zt>F#3rHZZ#&RFC2XyY!aaaXwW6OqP;E|_n){U9sfzfiI`er<Ru@BTLp=3~a3ST6Ri
zmB(^RZ?|s0(0!@rV$V`;b8ORY#oqc(mLdNETB5IRidJou@bC6rD2?H%db5Oocg2OW
zSmWksW3SZMd%?T}L7t~9?5W2t$7snWO!;GlRnfv7QsItB;XQAe(!BXlEtyA#Hy^3L
zr^g7v-zD2c+g#I2p6?c4DZX0$wkho%u7Hw~SUPY1j`IcQlCJ~wH+CqYn<0O!yHW>b
zm5t7s?q_>udzKt^nDLj_N6WTKWm{(s$MS2U`R!7E`^>&XtG6NQ?UuaVGlya&_0f_p
zsif=mP2rNmGY9c@wlC^#liY1@8I0LGVxG#VXS?Lt4mnX)IkaWgZ@-*%tzc&Ve<}4}
zD7cvMQt0J9S8K1ez5Yq5>%qvTPefWC0@yn%8^r=y3*>*E4$0H;!=NhS1hKn}&bJJT
zeobToG;KNz?c1Ym_g`<jAO3C5n{D?mgf5sbWnIjg8vvr&T_0|{|4s5?xj{9ibgnmA
z+ANheM~Yfz?z`oy`cCExnNeRWw0tgBM>ljy8@eLC?y#fuW{x*jP!}y|k_ws@PlOAa
zmI`*>DqaUYphX?f16qP&Frh4vYwM$BJEgLnk+NME?H6owkk1x#LG66qlDpw8m%&rI
zoMTwOiHk<BWlJqxM2<JMwS(?HkX2LvQq9Yz==$B#`rWT}h1c(s>hG1R_eZJ^P>2d-
zNmh2$Q7<{_mmH1Q`#Q7lzj%tNI9(TAH{2D-y4;d?pu`^4P0G9f-{0ypBF*o<xed-K
zq23E_MI(K+a%WGC;m5w(9*^lY>z=K6_$xzEkI(#9MZ4{I_<2odF>ZhBvGkN$|F$rT
z>@|5k+e}GI$291pRV!PNz<;2jr(PPLqU^XZijCCQ5f7cX<K!@&6FLt?qF;%xFk$cG
zhTAsBv#wd!4O<bDJH?Fwk=QSNXy$$JSrcYQl&4&xLtCy&oYzAKukk2$K1{XkAM#;D
zz&Ii_vdw3E7zRMq6%W3`Cr*&o+yS;VEeP3BU_fl{1z+S=7Me)wDXl(TF+nRoGJy#z
zD?y4P+C55rC6T9Wzsl|hZ!<Q4!A4o3nkv?M*i^rDlv~72uvLq;j_;3uZ#=r?{_9)r
zf9CK)?~-G~vMDViGxp#o*qvpgevuMm@S(CVQ_DW3$VueQVQmlU6nNYb7!N|Xe?J#l
z=c$QGbZ(^d5LXM_oZa>8&e@$&d(CxwjV6c277>o=hF&c`Xva-s!4rd2F_p^<3#+I!
zTS2OfDu=Fwz&%)o3QRela_ONE2$Pw(#>{re9Keg%EA}34Viyt|&m1^SoWp2fC?xM8
z6Z<G5K1F3r^k69Ei&7qp_Wdbb#*|mh5gp(4lrifN2LTH6pPfEG%~qT$Bu7Qm(I`0@
z7fvh&7e0N%u^pX*+k1zSzKuxMDrxaJ@&x{=mtdsH%GwJi;vW6?^zu@vEo|*K^+R|T
zsa$m2-<JmCGhI|J^yfGA{NjJ%;yk~J6%Q+@xal<35L3FMc;1j02&9%raH>o#5MBRG
zR3rnS6h-39i8`yUJF6DV(YhT{-HxlrrMk{*6;fSyv~K_Py8Q`-B`+SLn6O;7_Df53
z`@_zvFf&(|CTbL~;RF_0t27m4tx?2TGpjq`i+FXaL`~yr5NkUn(8&`>OM6w4t12w-
zcS`C-EDANtusm&g+PoG;dhHFU8RHX$T5m!NbBf?XbfE1Lx1MqZjc4(ep3ixch7;1q
zk0@e<^JeV4qxAuXh0z4R)7UdESYAq3gk5?<T&)h{a2V@U>rt8>_y&CPqyU?FMc}Ry
zW~tD52gP^tl0YEX+!N1G9|jW>M_rc(zm<njWM5CCtemw#;)79-NqkTo1jx{9AdvF7
z&9qC_kf3v(;!C+kNRFOzY3rls&1r_&bR~fR38euBl{R8ac>#}l*(+iQ0Gv!Wyq=UD
z1%Tpy%0_8azNr+@Ia7!#AG=1f6`OX)3T(puPJEN{E#*?;BpAIc@qioytFpaG6_|2~
zSc{d1VSL@lb+t|#9;rfZQ$<UOl^$ntY87>gOs;EuCLf`629s|XFBy%7XKDaiF_OMl
z4Eq#{P7<;~XaQM9U^H$f4Ku)>q&2U{Bo}+(0bLmm2=b62BTq86p9qWx9y=}WoI0wu
z*)^x78sbE*l8JNIpysPadX(CFJxF_(Y5oDbUFy8KZp)l-wfaX*KWGBmfByr2*%sM$
z1nhRk*E6JbTYkmVrhl=Z(fC|;qj73GXOFas?yCu6e>~(ilSDSq906hUY$HQuG7%2x
zBA1ujn*EvLNz`|oDU^IL0YmQ)5`=&{W)l8rY!tE$j1>e%?98LMh4E@kvyR^?o}$<?
zlpGGmEkIw64)I3ERQ-sf6v8df=+(AJr7}7MLBUXvS_uYh-!29FldG4NQ@eiM!oZ1H
zhTzxnv0puIxVf<_QrInR>{{3~m-~F_bEV;pT{HW`h26Jke$^y-nxY=IxV$yu*)h|7
zGuQjo`)2ms^c2qRdH(R_!%=VBb#GhDogb@jp4s#4;n~ALsoW~`0v^vw6O*P=CmxEN
zGy5?^%<?>YaQ0x#-4k;cy=}oM2bkSt<<R`_hQs@-w@M5}dyH%o!_%JKwdUTq%ChmI
zJ|s&(O!0Jde^}d$rwaoRzl@8+$Xlr4XB;nyIO5im13{>9#px385$h@Iv9EeaBzbAv
z!fG*2hUmc)7m3gzD&iS39)qE1j*=lgVmI8TD&IffJ1A#Q@|?ZR0WZ;_EmF~z8Ru<B
zaoABwkeHnd9ZR0Jn5QD@X}Ino-9K5L+a>;J$wsMUW7t-RFeHwc3q?HDGqzu5Ix|Y&
zUT4T~#XNvzg*%R52A+}m-!omaHD9h}<21*h<?8|@u2BkUc}#qT4C3ebK8hccjl?Nj
zHPnBQ?Gu##Pm;lek+i*q@3;6g*^ZMzLpaM0zE!1z9%;VE*0`DRdk7Z%Jvh<Mi%ck2
zs)qifH?zi}l!ob4A`8+?I+d7J)2YNBxlSc!b)>37T4Axg^%+x|rFhw9wq(w4T{hsh
zShPa7w;X8};0n?#I~F!Zq2Q=t2RaqYj%zpt1Gl%}0T~2#Y>@sP+*Z=pS#o#=(gJ-v
zoy(2IP9z{{#-}nH#9K4w9{1D>BP8{+DVI93VC7ivq>FQaD@>c7D8X2wGe&BR1;!ou
zo5~&I%NpR{$Jv@6V$4b*29Ka3bG56UTjF=B3<={RRi>1y+8~yKxi*2RQdbv8)U{<T
zu#lu5;gd)K{ZuKxX{zIBAjI^NaJeZzduYHXOH<_|iwO5X=Mkxrd3K^*bI;V4E{3Zd
z#RxzEJQCBVyg4+0g9Zd29ZJJz+S@Q@`0e5VG8Y&?f=&(#aTf)nd7~_i1=Jm<1*o%Q
zk=hE$eMz(%&m=!?XM+29_Wp5(g93*Z3NV?mC?a~1BoWZ_@HpA2iUCf>2p7MIhhz;8
z@q&JNeCSsM$#UJCMOcA4ng0zmU<Ph8I7_2hJ}JvLpZ}e*7s?`8>mT16%lAg}8>Rfl
z#}6;3Wm%jtdvVylF6PLII((AD_wAyEdm<Gbn7G~c6kXbJaYxwG7<M$mWI;+LN9o+q
z^JACCqGcPTvJE#J8{fTU&xzWrC42Q-2CK!1*6RQQaosIP4)4zIjk(MJmAdmcF;}i7
zy;#oo*k<D^-p*}?SJF3<xvgP$z3ElI5oQwqNj)-MD}RBsJ&pF2c+?yYnqz8}0t^cP
zNRM?WeZ~L|&hnI_&jwHrz&wH#035)0=pZx(-N|Io9XpPSOIM*hF4*0HY#b=ZFnD;&
z$zVGfI4}-dL}VCGE;fi@!wH*ua#z|Ak`MJp9w;T^E~H4QKxkx2lnQYtB}zq5qEw78
zSP>5$Ay)zwNnZJxlqi+LUKa3Dy!bLHQ7TUeK}wW-LK9Rd;T=Xx8NN{=G~*mfg&G&z
zPQ-mlnNlT-Jx!><yH%iq&ZDfB6)d#?hU5&?KzY<Uo?7;9RRGGPn5`O0rD_6o2;-2U
zP;%_}+B!yKCJvpm^!b6;STEEf9}!l5*AE&sT5Li+!qv|h9y9heK!(*SwjqgAO$5U^
ziAAM}Ns>{~5lw7nqK|J%S;R=%(@LG9i7E$4Bff5Y+VXVz)7GbLPiH)x`LrEyOL*~X
z)-i4PGCFEZ1=#UJfX&Dg5jN}Bo0RCx^7JMhf{BhQ!g47M1MJdfZhHGZLTU%8b%vDf
zl(EX>0I{jvFuG(N2+es5+-Y?!<<f)UoVOyZ&TftKgrL{im2sZnFIdP=z0TXTy%`Fn
z=Lra-L&y1y+05CDesz*GW0^^xvCi0LGG=h#(2!LyW50(v0gQtgu8{tcRhi==2h_<E
zzCe6Q$~EFoaloTO6`}O?>FQSpJ;-EiJ$upP>MfM*Mr2975EU+)1%C$B?d#S=B=4;4
z&a+!Zbiff5v+24cxyl>pRWW6(J%>Xwku3Y_gwNWQFwikY4T4=GO5dqC;I3p5n?<Tf
zD=olu;#^&=s+zx&8Z;ZDo**JAH}3d8(qg>R44G#7LE|&I2`Drb>&7wDK|4evtiR^w
zG@JX1#_{1<+em>%vtkoWFR5Ev&Y5O2N2txETpA~3G|XB@RHTv?Obc<&JgvLk6KCuZ
zikMycA!Z#~K8|P4W{gxQ;k7$9q+`UR3-k4Fu#&Ig&xxjx_L4;lhjhPh7{XwLDwR0E
zo0XiitU*CS%%4P)I%oO3<(Y1NKcn(xKx-J@|EnK_GL_Ry?;(bfE6m+XNQ}XW(`Ru9
z76Xg-qTeH$$(zkW7)sktkHAv_$PFW&em|WyA;xWD-~=?&!j^vj;e!YF_lVmm%uOU-
z+(|aVV`GxYAQo|_4l@<cB*5zU1e@uzNstMz__Go>e6X!3@pJ+M;7b-lcLYU3$TRqa
zNDC?qi6W9>n0O{wHD!CHyiqd<t-jbw$)~3bM@|f2kh&@#yB_Bk7u7>i7*kHz&v`za
zP{atB+MEb(RhPas$%_7K-$2h3BvA)#^zoF=jbLfE{!0ClXLH!GIqcaSE30^Z<njoX
zcMGo+M#?tKfM+bqY5+$UbyrL7>iI{O+#7Edd7m%7T>PB(LOSO9v?e(3dfD^+;_nqN
zxwk7WnJ;yH_r5FlExFrb`Nc7BC2bXY?$CujH%ol6Lf@@|;<?RVotl5(x4y7YvuM0h
zx7d26;cEHy`g?B|mfogqMq8xPEm!x1OSeQycVF0xRqtqSqm<jY@ZeJJrdVq`ExBJy
zkF@T)urF3nhGo<11x>dKTNbU+^?RlDdtZ0mD17L4VNJAfy;Qh<v0$li>vE}~pad(p
zMP<vyZ1K1TN?8{k2)k>R+%0Sk)ra-+1!LIl!$R)6Z`%#IrC3|eYK*x{qi)*mvXC8h
zH%RV=e_J-e`QN~9(;D<0qj@j59>w|>UEBBg46ki7?zI|z;>*};HvPn(z2_d&Pqtae
z<sJ)Merh(s{!{C^y-lWg!Xb5snG(PUsK)S9xqGp;^Es+yB;^pNVfgb<4JV=cna|+q
zi((fU;8Y;qz*Z>Xblk!!UEIQA;wl|j1%HlW`6mj^#3lbiHmbR7Rw7cj%C||;;1c)n
zO2{j)jJy)RKqO>w=?VLGE4@UpHSt?&<Sfc>(j)sI`<7bw;~ChgMrV)r_iN2y7r(gp
zkwZQ5bnE;%s?#g@-2Y-H;AA*wt<Yo_D=Gt=Ay(p#<(Dsm6)t+)V9Cf_cCwvHTq)va
zDQ|N$?_MeI-q%~Dyn}#mWZo*ReEw6HKegoF_QOv~{=HJ^zDVhQ!jC}0fc27RPtKm4
zF+s25rB7e{bTkidwa#S5a`G=VUTmDP#)`|L#m!Q2^NcH2=#3WEONI3_S#K1sj}&g0
z$-*8c!fecB#41~6GL~%R@0h(A4R0A>yuH&<T_5xKW7*9yPr=((b9E+t(+6D%q$7p&
zrA2M)B-^?rTOFobb&WITXPvXo8#Z}E1c{DU$&-mMSot=LH5Wrv&H;hsOXC+37eqoT
zbF7SGVh%<D6*;cF4aQjAz$qA>q;0z@W2=RE!pb&$t8vnLxA+VALvG3{M;LbA<+B<}
za;P{CkHA?%gA;TNEP8laP`V-?cq1Wr;u5y3A2X@0X!<dKM74z^eQdt$DTwA&OF7li
zoH{9|E|OC}W4(oab0@xacFFEX!E*P7f(W+Dgu;%F7)^bBlHC`!H^yXq57t9xoJ?}0
z>1kw|*dN4KlGcTZtz^X_fP7XgxTju95wMxc9g1kJnG7;r%~~z)6C`rdTSU=eFSUKs
zzhnHvbS#6YT(rgvfhEJzA6qL`7fH0Q=`EK`o4~vzESQ`nM&d)fE11Fh$oT<Q%%I0i
zPMbkH3Yacha`C74{DNNDD}EU{O{)06f;;rx)5<-B{!F^bB$>OIJ47`Ym}|+NE`u`}
z_pppO;!Z+&YFIy!#Gs1Q_&cyOeVuHvoh`d7Qe$P!-Od#-Fv#0fVN&f(@cApMo^$vd
z7IjHuVi7cSF4;<$y;8DOF4?NtHb>HYI`55EY?LZChMh+jh3}7kZ#24PzqDol>$Q<B
zM<nOb8Pgk3cp3as`-RV*-*KDNU6L?IUadd6I0-4wl4A#?Jh!QyS4lZl(VPuZ&W6Q}
zSC7439nRSh$vKQpji_K68w(bo{BQ#ok<Nm`B&jG(&FQ!D_b?LYOS*DUgrQ4M1}Ye*
z(66A<QEco|8U*p*`jvRvL~wuj=~U*BIxEtvY$StZ;0m)=ZNS5;6Iq!A+!QJZo73})
zU2x%x`x$Zb<Rrv|7BXA8f+Onm`1tu<suwh?h+B{K?mxJ{_mkppBvc#9M)6BzJV^m(
zV5C+X2a`j}yy{d@QoTv^ic!V+6ruuShXD!O{l3~5&8d`fD(8=*YeT<QR{h+`ne<p)
z^Ncxa^GY`F+$SVkjjES(si>K+PF&5ty6@V9ulI)Ak1W}a-gf0Zdv5mJm%b3Tm9er<
zRt`+9i+-|NXp{lcka}r)k-7fkV+a6nH7R6D#X`u6fRmD`qX_smrIv&i1V;fhz$dwU
z;fgI0S6f)tTf2q=;1RsD)_^GTfk{mO5<@+9%B2m4di^N|z{LJ1t)~}V1nqt07znLC
zm^!<=SDpAJEAvfCJ%Mp#^}qj>Qccitq#Ed?ZRfYes%jagFS!&qU@PY0z8kjfys?US
zBdM{P;lK**F<58`Lu^M{VNbpE8gH=T*UuNi$gp*)D;8}*Rn#)a(z*NakzSDmdPyVu
zBpjwnlCvjC+wVV64v~llYnk@^xzO{Uzx?@V`PS>@Th$HnOQjp4rR`E_`_+aUj=g}v
z__ob-@Qmuii~1QwnZDM5O+v=RLMIL1k088wm5QBK^pny+UQ@YAX~0~K&OH7nBA%8^
z68io*|NKLWQp+S3Pi=T4EL)p2O;~`lxj`81XW@h$f-MmbNj@ogi-nAYgOUG*$fKSy
zfxK{W{S8|K%e}in-N2gEk<V0lQm%385)VXvOP9jt8@3i+zK<dj{qntYCTiu&`>(Sq
znbd%iN|(H*lIJPZfaw(1UlMh+4wleo%@;2`9C2+6+qQ8Er{H}zC_IOFcrj1ImP8?W
zrSKmKN<QD!BeHbS8gaFUZS8j`=xRj!{?(A@-xpNsQY#_(Ocf**v!=@P--tF6%O++Z
zG^aL)Wv#DwBj=t_X<L<Z<dsskio(wSsh4fV3!g|-OMe`%>r?n)dzXMpqX1h{>5|t}
zPErOk{mMr47pwY~+WF0jI%{$0u2DCvQg<?yI`T^C`(!Q3W<C1+^S!!S!qvX-!&JIc
zDp{$Oj(k#DM1rnlD^ZqO>q;Z8mayEd+>MTJY)#_GXUdmUpgJ0nGl|GmeRInV+j`!w
zoTvC1qxlSMNs3g7&!!ArX@s$M3+4-HkW$Mm5pT)Q;vL@4d<C`?-c?qannZiD%G4|(
zo7SW-8RsffIV0D)xaDfwweHu~MO+VrZ4dA?JW1dBA{kG?NLm=A3GW9^gSHgNhs38T
zN;X#iCTz)T@3LCkq$I3XYnxBWD8kDO1y3Rynzn_Dn-|TCC$2tr!*(xE!JpBWzRx~K
z#sM<^oQxm9@Hgs0cHHFu3K=v;iPy;ZIT`dlu9cPM7aW<xIH(`fBjc@qLN=<psi(UA
zl-!7!O4ZLw+y_6q?KQHoVdQ6IV_i1u8(HVW+Bj=btmfJ%NCO$KlkqAUtZGo+#<OJU
z9<*FR85J1+-!&q?@H6b<XdzlA=4-{&js6pS-hIk&)7-Xf-et5j#!70IP0Z5ParNHs
zeO`Vz^58F->vDHmhNXb1am9T(-(lGpt^?Kw_t#A;bX)eOTgpjCDsGEaD|B0S8!hdr
z%3j--(@mBgOxY{$r0f;9<;*n8KBK1Xb)S)|d);Sz6X>B9uIjagt9orAEv=1YtS6<b
z9b8pw2UpeFK~7t_s@APsRqIxAYSC1+G6k<&xT@AITvh89QV?6ub;j0now4=g)G(KP
zzFGs<84LUvKF)Q<t|vlTA@NQ;#_Wi`#?~Xr8e8!QaVI;;3|3u@t#D7&*owzoRj2HJ
zMW-w*noe0fXgX#0lTO)paL(F(BX1j22L|y|uPoWNvK^Ho6$v6^8#XDbU1UUvg>V_G
z)w-~QwrqjSAqPW?WIUBc%3Yw4#Q|&tFd$65ixc>U%|J=Gpy0(#%3K7d5(Xi10&Z$-
zLpCUPu|Ta04%rIi2{{T{0wFzkBQabq@E7?)ULXUmbaWP>LJHV3#Y=AKLIK<gVb8^Z
zTXI~WgzzH8prAys3u$<>2+v-jI8YkMAR1&>!i<y&TLdrC%fpp|vT~tKD1(m=_j24T
zgm%G)BgS}$3WTUc3M<vP<n*!cRKd3j)L217HQud895uMt2<rmtn7di1#d9stABd4*
zTl{#ggWVs<WciZ@{D--(J|RQ{o*R&_TZKmCMH7Dfo6U$r`?^hN!Pgt*GTlb`6lfB1
z0?i3{mGyxZ`HfZ_Cbof<F%B<dd7_k4X`q?Wktu9MeCrtwr4{m;4)I=O-P9(gCuVq}
ziKNI-3Uz$+1E|~SNx`GAO|{|<#3zy}i9s4Ym5c0b6oTv#@RTG#3P2f&fRt%7ASv=l
z3PCR59h$Bfrj>=_VV8#b)03rZ(k%^>rvopc{+V4FhJ^U2vroBRl%JV!ndT}fm*&sb
zmGc#EtSg&HG2~fom%fRKK4>nkmxX?Z_}j=OK9s51$v3;dKps?*3|q(61mf)6c<4DA
zr+v|+h%a6QNIBcjmAocJDij?@CIM|9<9NF(Hr=Huk{D{`$cH4#CcXsgOI&u!PtrZ4
zuC<n<jDlapEAL|6DaW9$JC&;IPO;LaWjkAXO2^WZ+feGKWu2m!w~pO!l~zCh$mK_t
z8n*xNtkiI?RJuP>dVnuBrP(sFu}?EAH|nUC9Mww>0QMljr5%|!9F6bZa+P3dG9&w@
z!;Q7bjO_OqYyXO)y0g{rN^3^v4$~{!jWCl~Q?+{1>ci7%v`<DsP%*X-DM`J~TLFqd
z_nUe>VPw*KbE><+aGnmxB6ck0I&Xu!S`9VN^XZ!EI)qS#wOR-$5-})p|MTWqvzQlh
zDZYAIb*BxA%mX@c4d>I40-cI}-ZE?9(Ab$Y+J~bcmVi~lc93&M4ThqJ$AW%ZqtX-@
z%tX$kS!+M?mS0$Xu=K>$<$D?FFR$VcDxv63{lHi8TggQ<U$^qzAJiLybTv8($gjlR
zqF)3~<8!Eo-!NS={iel&y*a>k;5qfuG6gsni=J3h3&F5LIz<SaONJ7!{vy+?s__LF
zme0(lKT$qw=9!E=J!U1tIMU~=f%f@8E0ZcaOHB*<Al>!DAZ^OhsVHJLP$z2DP$*4Y
zlLS?N&}Mk%Yxu1PDu!5Vb}>|pX^pp4tTpv-K*N|mZ^9lUc0Xg(Kz(`;I>hTme(O>d
zqNR0qDfyyQ+vI+f?b<QnFbG<~La(U;S;ViwLHs%yvt-aRC~zu+Cj)eRw8*u0h~FTu
z|9}^VBRf@4G{+)W!Uu?F4Zbo-;R(ZnHF;$#3P-Xiid0TQJsjfaN<Fm2{7$^Xl)h32
znuuUwAb_cTDShZ#efRqTSb9*ogYSZBd7n^Pe%5vZm{hHgR^202-E-|&xayur)q!Z~
zfscY3St@)8=#<+9HQ|ERSb1Hzd{ek^6U>`F|L@x8EH}%mZ+k0mmNhOMTih2Z+a4|4
z9xmK|yP)jS7XW0bjn;QwukVZ{!%nIIJBgJZco(RXq8-0_+qO2W1Y140K30OA07xUl
zPF^aH__zI?yMs_C+y6cI2onEAW4F!t8~M988J;ulUT^+ZXCbVwY$DfJHalQ{)o9$k
z!Tf4k3)wdq$=sCDZ85#NBfHCE`mxi3kU#dcz~!~HG}vD=8_8}l!5%N-`)j(eWiSza
zf|1p4<a=uzTx$O|)hi7wLX{zI#cB=PYD1Gew$(=bJlXz*!jdi<=tjZjMCg|%^~U}T
zJ~%U=$bX}7EV}<keIuoUQ3pi2b=k!ykN+paPSt+E>a~Na&vy{X|AY)t1!UNBqxN-@
zeO=hT0n4G7`gjWNgy^8HOSxR@M!0(WRUzW&g4&6Uf;ZC*_3dBVcj>^z1M}vk+?uPs
z0DBZxL<?J_!WIBPT;8y&E^MoV`Hs0DWBXeM7;kSd)HX-gZI#w-z3HfoII6=9d$Fgd
zHghIJJ=<?12u>QxY2f`Lek*?mL)k5;H&!Tp3*+Z>26B0Ki0*C`y-`AmPwlJI<Z;KS
zt=CQ)6LcKP-(+|ZJBUrW(EFqK=;C;hqXzWNb=2qaZA|GR74Mp`5b^inn<W4I2BMlO
zORfzX_@jRy2rT+3sssW8vaN<}=}ZCF*x0!}vJPP!ga%E*DwHQ$*en$`M+(<RbJo8f
zOoSjIP$2ASeJ@BO(v#ae{l>pAcGjAI<cCdE;Q|CRIDt)=gNdvZ@dF^yutJFeYi4>J
zaCW`rIVgbF-Sv5b_5vlwh<NDI!y>1EJ!pkp9p(93WMbvrgpfoPE@fl4MI_jS_!1ce
znh^gGM%<GCXHYiHtj0<FBL%f88jdK*G;sKMn<hEdR8ev%CdB$E72pB90(qOm;K-TT
zsUCGZv-h^AJnE^DJT>8*JqzaVI<7dPbsbV&$JKq2I%vGz14sj{7}rX!+6C)k{#6{P
z)fu*Raw)_=<HOB3d6%8O5!5dg!hJlAZRXe+t-IQ-v=NN_cT`!AHkmerwL@C-IcJ_V
ziOvMfm5K(Ifi|UxONS@ZFRMhL%~7J_L%f*;vjIpylnL_KrN?t=vrau$oJ$43Uei7o
z>r)QsEVbyuc2u3D$P)`@?6#@rGFf$iA(w@3n9f<z&P>5}F6gKo!0s=a>y7%LFrI=y
z{TY;%DZ9F`F-(nz>%0y&(uT1?Qnd@uv%WJpg2jh@yZ{7YgD~G>hJ(L@6C%^7OFPTt
z#dl5fu6PACK!y~Fe*k;jIF!^qQ+AWsb>(+pB%g4gH=EMbeJh<IolG#Ry9rRgc`8*7
z=O@S=?&^~ZRx9H>D=XCFU9Cm@H&847JB)bNZe);pL;*uOaombYd=u#v|Ah<!(IuZw
zU{6pSGPPyR=BsoH8n2h|-q)yY(}0Ir^{woZXm+)fUH$DxZe(v{x|ui*m(a;C7B7Bc
z$-M)I59Dl$W^a_TH}XRVo~!7zm|n41I-S-egx5_<9Raz-KO*XxT0N@U+V0kPHqk++
zHn4LO=qw9B5-FJ?^$Q|(Sv={VA{(J~#J6Fvt=gaQ`S36IU;hKHQx)%<0Z&p|UqJl7
zV(TBu!oe!MSKiF<T&?7+m@(aS<$tScZt%If`GIdX-3EHmQ!RO_qn?eDXX9em)j-&@
zG2($bDN^JQR9AMTlwBFkZk4iI7pt!Bc|A9r-5Sa6nMq$Zr)BK?R@?JCFYkP*iXRLh
zmF)Oe16;xWWVmF=SILsCDdx(X$>P1^EJ#gS!K7~cY5Z0`4TJL`m>TPjRnta{N@)Zr
zB=o0VGZ@AZ@~M0U;|I)Kb3qR)0BA1o@MA3${5~7g*+`^ly&*c;YFDz>o18?v6lVpd
ze948hI>d8SMlFbtGYff57kc?|>I*~Rykm=@>v_knbw|5<CH&_di@J`5ZO6i{WBkB?
zC##!`zi(_Xf5*~fR5K2BgF)q3#!>gdGcH8#?9$5|rG@Ja>oR1{tg&Evk`^@vyYe0F
zuK1m^kSJ2Gqn~D{qusf?*ORj_R)m0BDVN@c9elYkB^VyTdKjloL+XIYFsZbcjh4Mq
zE{INPQ!$E+uGGrJnBY?GmuM=fr@<%n9aaI$z?7ydmGFBgC%;Q1C4=IhkntMg;@!zD
zJjS!+>5aUfx08af6}p$nmdq<L8L~*d1><v--iFm**4uoE;#RSNtQ%4lL#VyYJ9vLp
zZ?n24|2Ea+tB8=*WK3c(%h7=eW*0`Y{Zh6+lHCx^-YR8pjbwMMh7G<!dY}A~!yk3D
zNRF0elgX2LJ1hIyhi4y_cOX|sD>q7&8y7!ub?BN9t~e0MI{2mqp`ad-p!8AaI?1_i
z{>)<fRdd9-BWl|bw(Usd#bbFT&rXMJB{a3#`R;93$$P<S5dY-v<}Q!%)%C_Mm-*G!
zBG`YNY3#~2|JZIJd$ti~(qK%L;fwgK?1FKpxsrxb)U5=p7ZSgZyv7RVyHsR{5Md&M
zY7Wn-Gf^GvBJX)#qSBzHZ@FJ7ism&+d5z(w-I2VmsH-b%>k7NN-diC-*OPf=(BtAY
z&soZ}ZUpWI;_+G9h|y5fMm{Omw2|Ol{6f>AJW07UCPa^0)REH3Ge6d-bY=`%qdH4-
zx;$-8XW_M8Mf-_=uGIh4c*t*p%Bk|?KAHw;nJ42}`CZD&E`;P+SzZ+_UoVwoj<#g;
zGR;_JlCx~7d{eZ%T`F(CS{rfhj@ovIZM)U#b_4q=OooguqdZ;P-03oY-`JUDzM2mk
zj`v9!_tbp<8hqq@H;TKEvv^Lu^t$t)A7N?qOu0TNxHPqf64;&okkeK*r^O#q#)j~T
zq$%<O9HuH$@-zuW$+Puk%2rw?VcD7rrzFfcp^KNQ+M`uFrK+9R?2(*<QO7~aaZm<T
z#vBLL>938Zzv<>5**a}Tu@8}|!y)WiJ?_SXT8}|}>XnGK)XM{;-@?-WBTD+elkqU(
zNJ{^=;4oE^oPHUB$rFB+67EGPUY|&}T8-qanIB#(j5xPNZQHKfw#f}M-)EdNmYFZ7
z`_|}mb|acQCrIJ>@0grd)a0agI=@Y+Nh!@_+$K-df1*UuIFy{I@VYG#XIs?PcHP#d
zbT;MaY)Z{@>E$19ntr@yn&v4@>yk@oHQJM>>o3+y*S3hWBWmloZtHkYG+|aG9!IPn
zbFKRuHAw<KmQ?GghfWn~Fk~K2#w%;oxf2VM5$EQpZS!^8=J!M+rDN#hPse{&({VC2
z9p9#Oq_iFx!^czd+8QYtUd)X+w?u7QuG_ZolzfcCw4^2=wY~g4(VsG+B%u9x8h%D;
zAWo4tmOOcIUU(#u*AaDfgl!#R7pm2N;4Aux*o}AZLbH#onT!caMvBy12N%eb^H*!N
zk&cLSd(^i5x^27MMjl19`fcR>Q?xdZpv~gMpQtH%44+DBA%8$g@+P->8tVx=&C~HW
zl#X%)ODUGVtKLZ7-l%JD*tR$9+N<=<<>;GB&6h3ZMv-J}A8WdPrlxB;HC-=Jx>9Of
z0^*t{Exbn39)Z|0uRH4M4%@oJuI~55OmqSIb#52F^U>;DLizlqnvT?l^GB47vgG2?
zu-QBnku}=Q!;!pgQ3i7lySB;g2I){Qm7lsxwd}9eRIDnEMM_3WEmKh3JQ07lMp5)Z
zRGiltWzyoXtCJUn_$1=H11j~4@LstW#+^%sqiYpp>K$2usG7FlM6@Yz)jx()>d3ho
zugcSTlhRp*7g%e8z=$Sg#OQ?AZM)iit@icyh_g3p>%DI4m8BVlmBw!xedg!VEBVP7
zcR&<>sB~+n;?$HU)XW=dy7i#OFH^!(*q~&rF;Dd0Q=-?aiRRnEY2p=gc;|-ZPb`EM
zAB391{LFU@Y3@vDj013oY;q11RT`f|4t&dk9Qaej!ZEymMm7!C`vZFXa~S>&9~jd6
zD!ub#GF~I&=VY*@FNTAng&;0O$bv2I<O{U>`Ed$oMMC!Q-BUjyo1Y9ORAAFo5)W_`
zFilX!Vluu-#!tzh*?>qau}GYxI8Vm!kU;~zNTa1lV~t1{8j-qak@_=!JO*_MA~h(H
z>YZpKqk)Xq$)F+;WAyQxFxW&{#`{uxV3<5FmBvDvjQ8ES?1XZ_n70)FZ@Rpe?Av+e
z%NE>GH;YQ=9=ePrHG0Aldf{>g*)mgg0xsLh*<mOsUd|$$6SiMcRBvr>v}7(nY$T{~
z-PRQYL50f<{-!rGGA+A}xAPm8Eo33FY2LDxS)tyc9Oo>$YnE9Ud@R#*VdHGsik*2E
z7FhCQ1=vJ6KREX=&N*B*k;A6l{C?<ucE6pG!(Oq#Z+U~!@}O}cxD0iJ4;rrylG?!s
z@kNKl8_O?RHqpJlo!xI|I94opUiKO--Nwbd#dFsN!)^Pe*8AwCZoFi&_`@x`a3+Ao
zf325*%6<YWA2KcqS2uodm^2+8GG2pbL%I`CxnrT5zT0t?X*=v7XmC3j+X+m(Wu6hW
zWpNWl&mhNb3+9ERS2A!$WL-PG2sA$VwGqB}`vRcRxY7GN$YGyxv4jHcGhSmp`#_-4
zvPVwq9^+z&!tY_O9Sf#~t}8ZjV2J45#)U3=ceinoeF0@)Q-Q?C6d*Ay8ju(d8j$!H
z0f|=tBtAwbUuaP03`^#1x97six#0ZnxieCJt>ms<w!oE&xB$madY7&A#Bt7K(}6jY
zvx0JdCkszp4o>xV5I^;zR!P?i4L56Gm0foOt1LJeS~m;0S|^aVgk2`hbuNZ=bz|ks
zE$#&gQ%|yS`U7BH8+}|28()U@)zOhUzS9FDlpo?u>P*NO6AplEhO|65i8WhVF$;*}
zIPGY3VnAp*J}?Shi*zp1@v}Z5Ff;&Fh|M1cIZHhUx&p%r;XnvE%QQs5fnS=&ty#bb
zzYJ-UvKs~B>hu@Wc_=1{lI_Zybcgn8tE{~mzUQ#XS1_JPgSKiLJCh8^+&i743tu%(
z4R{FYjXUuh+zwX~*QH!{#)z@CTH=3jvD5VI+>SKrio><j7=h)b`8>Py6uxN^IK)I;
zbIPUptGcPJbQ)L4rvwCk&6JErqw|E(T^oAEN|cm88;2%MLaXk0sGsz6BtUw%!8@Kg
zdR*4~9Auhg;+~;lF-QtBKg-k@u`{LEsZm@54b$+%^g6wXZ*YteTc=}!brtXneZ4q*
zYVtHYfS6E3;@=Z7GL(o0_mo4B5^%oP$@g~=JV-K2s@`-ZqJ0ay?@wlO`}^r=um1jj
zrooCv=XbGMmt!a`V<6r)Y*}32jH4jtD2_Suz(~X#h4_Cv%L?Wp->{?87~Ov8`u0PS
zh8}7Ap~cTGJg{i|gT3MHhopucIy2~vs*Xt24vNk9hNEPz`}un>-#afv*X@+n?R?Gj
zGutb+*F#H=UUq~Ag{qwI{m!Rf`1DfE{^j&^;DiZ|q>B^&)mwRn#>2*U-_FO83@LzN
zf*-zU-@VQJYF_p3dknAMlhI{2ktp4sj2b2(C2N|yk!b{bU@GBt1)U5yO0^^9BD63-
z2y!J)^yKg(eZTVw>sbgvT|~;INX`I}=tj}-!!6b3qyG*+#bFJ<G-9>{(-cf)9sRtC
z;0sU_Z(=$O(==Tudg>&w_?f0OD}_3U-jQ?sVwhmofW*(hQQQsZq=AG|$)Ldhj!x(6
zCO&D<Rt9I?dcx${>^lqZ8DLn>{mp;~zi)hQz1&Xt1}&SXT!IN-Q8x$TD@HA+pkz=j
zd%axK>q?dUmrGR{VA1jax^Yb#kc-64rd$a+IE`zBQ0o>tRH`Z|m!K-pQ>QUz4v&MH
z#yjVL+L3EfD)orq(s~CiCgmzEB&A$R4q{l;e?KuN@Ay8H5vGk)q(qNLg~HU-LfN8w
zq;hrmpff=Os0ynVtf%VGdL7UY#7}u)=CqMqFBnA+Aa1p*<4VX+giF0%vMH@^q#@N$
zqZ=AY8x>!@V|VqA)78{8p0gy>a7$=|5>sfCV#A3&a&IU;n2>U{mhhB|_u_D4p7IPz
zGnSDo0^3k^F8zJzYg4|Y-Gz+lbnT=d9Mq{>Q>WGAl2gkL5czjidhD!ZxB_v7Ca77S
zb!(blKRkugHq?%Gjbg=?Ky}6%RA(rqx|(VL^36<X=C4s#&SfT)Xy!<VLYa0~YJ5WN
z+phU4Hnr4^<Jr@hcdmiY^i5-n#0BFsfAT&#*{Z~@-L<;N4ztEl);QwWfzt6RVWzVZ
z%WB&GMAfu?)<s<x4n20lPh|^3yOeiEx)hss7aR!fQg9VU!-ceGGTX=;hiQD~J!Y0;
z@$ILn2fmJ*_@S-X1jzoByrBil)UXO3jUg?vIHM^(i*a%<jxDL8@$v$U75ogwUZye>
zN1a)QMh8v=<L;wfod@^y?>X3cw0D13|DOBV*c#8+yZ^}1-u@$d9+)aT5*Q2&KT7K0
zCjc1?lCpPS9TdL%D^pm|xcQ-@$99W(XuMp@C{sVm7*Q)x;U{ASRETep;iSilWc(Hx
zUnOHZ8BJu|L=c>RiDN?J)}F(=4<7D1z@T)%z6MVOaV`n7oCem6Z|L|bMajfCe@L%;
zKtw!4)ixiube;g_QKX$hOp$!tA_R_4p77_0b_&i2nu86%;zz-j2jeE-9+hKdg}8e>
za7H_d1=)Z@N`MrBa{J(kxSJoNLH=NQg}`H6nHk~S;^{oo=nxbfZ)%ly;z1Yw=<r}b
zfMPz%Qabh&_kQNcfOAlY&zN<{@kO>rjq}^8iH#x*@f-IdMuo6d{QcD7RXn-8e`Hlq
z4O4ih2rDoe2T9!y-$n9<yBsH1+Fr0N)W1CV{gdB2dF`_|-1}dD@Rl3LZ5Cd-_u{>C
zLbPm)RJP@ZrXSgUV7oRMK8D@rY1uiq^ZaiVRLrk~8r6m?4ID_fRInrL-VrX?ajT#r
zTuHCke_)Tc-zT--w^VQ->^=}KI1t<1frD(E7oAJ)4Y4ivDfW%G^Szf&T|6~k8_BPa
z;y6in{TooWT5`E0TGSvFHAIS<G@YyIFPXlZc_kAHS!JE8Vc#Z@Kk~hiC3hzd*N9d5
zztizT$M5clmaf0B_qNv;^{&6}U4P44KA-;FfrZxV-bUzUoo~Ioe}3Td!EocQh<6vn
zA>|vRWo=Sf+YbkSbm|AE!ewodviqWC4@hMXM9PlNnck@Mf2ZYzmS|<WRM~#j6RF%W
zXMMv9AkWLWFHbIJEqQn1kjwdfzw1~uUiY=ee6<V47c#@myRQ3oLGrS`ZSk{Lro!IF
zH|kox>$>8K*6oz)cE+H?Zu6e7Z!aXT{<1ktYYd>h;f02U;YekB)Y~5Rw#U5HkkI&Q
z=RbRSYT;AY%iF_+?cwtFSi=UWj@=e6tc$g5oHH*KHr^_$d4A&ZM6_&^RJI8_Fc(7n
zAk4706VaC!&zTT?dCl{uE}vScij*}2)*mixzFk~)p$iH;Z@2HH;`({je{T58hO72S
z`-5}ow@PZ}hyLH%u0J-4E5Fa|4|~_U-nG~E+Ft+KwGH-~_1eV7zwi(I127nj14%A-
zN$MKxfDPDW)+FGV1d&tEoKWLbm1>$+pf=L^)Ji4N{Xx|`U4W*?r59<(YciX~2v9kx
zcTuHHa7vQiAN_pa?Ck8W2jc5p2R!rk&CHuO@4b2N^ZhMtY(mhX(8iXZR{Y%i&)(&t
zzHqT8Tv|z?5#F6bp%(BW!7M5$nt%P%0yl`V+Qxs{_v3w%uSfLte9#c`?G$sp^E+U-
zUlp$Q&G*4T1eK>_bvVBynD2#Ww#C<>sJ@UHu4!H{{EdC3p!AaUqBUIHbT#vX*I^V=
z==%IPPhM;@x$I3}gSlC{`Rk~UD{1{YTEG?7ef4OJ$Cw23FWd1A+e0}vdp9p-?Gm$g
z{VqTbAKt3o+s^+(!`^!RwbCB_UYGHPhu>>A-6-#F!jBIN_`MF(hlRZ*_;Is|-<xN;
z+1%~IkB_qXy#=O^96g=*@v(!aeIDE67NlLqy%pw<%hFNs$5m!L<Kuec-q!Swx1=Mj
z#Nzpq<~9$_Q#30IEi|zh<;jB0uD?NsVky8T+08V~)zOZ{A0%4zPs#j8wi0mS#Ef^{
zQ-gy(`b#L{o5$P!FyD&RBFuE`jX_f*_ROhkgXn6Q%UH2H<{PCPpP1td*=sSr?VE$9
z%|ZKS7<J`?=!bzW1=qVgB3i2#E2WxVv8MNf9<gTUO^;YJfWem!XZZhZ+Rd9?tIz8a
z%zmmv)*75nviW(AT8Q+Zlf;(P0&n5(;T1I1lSE1iQejLnv{UMqNR<L@#i<kZI$ROI
z4_A<kA!SpIcR-_PnvFc!cz~FA3Z{T5i>5cwK%Z)+sYSJE29`m&322f`TAV3W$4@N^
zPDNC4gsG~z={52+wNTZzX9`(_i}D$!f&aB)w5iu7(9mUTJJW@W6p@-B3+pZOVJQZy
zqT{Bz#gi4~7^-m7{T|vel)%_!42O`+Ncn_l2tgh7$P^rx#@5ydg*zW1_vTo`!G$9X
zLSu?8$nsZ3qM;d2>Q}W!>FyQ!n%>8?vMipwgvN}h?j<YWCH=Zbevw<mf)>b93%X$w
zM=I<UVot?!Wvf)#Ay#%=eeGsuDCfC36SLB(Sh80<aF+bl)H_ph5SzuLS382WyF$+0
z2o+5_Xg<*aKbM<DIOwekIoc#^ThQ8e&*psFhA3M~tw_Jm%w=x<>YmA|sFBw9I(e8z
z_BssL8_bk$=X-Mv*E^g@-^k^$Px|uEt}-9Yg~a3R<rTvy=mO&Uwd#zG=&_kiscrj&
z&Ob-3Y{L^{F3-sAYtU3Ciy=q=>COIwM2u`4(i_PVL8_m&$ZiK+L%ZLC85p>L1YGod
zuH%hekh-WsyYiUO4o9rAiqMXJ$wE6yX$b8oTNc_;N*3B7^+iAb5)To~8#;ST+=U~F
zyKsn>^G0{Dq3;o7M{c=2sCr4<G=*#Q@OL=#7_m&zA0n0+lO4zyMy*UBlgS*uQ1~Dc
z%20qIJE)$lF$Z$8zaKY%hYJ}8+`c3_bjiW>a48ed%^k~RZd=k=U?JzIGw#NP+{WaO
z7T~v%m&TmL6r|))prJx07IHx>R4nX76U_YJ|4A&gN0kCWICOAq`n9pKNm;T4f8Fkw
za48m&fWnVzxdc(U^hsV-OsF`<9QSYuJCY4CZz)L2+c@MTDuY!e%+Hg@6$}7vNl}6)
z1I-v{3Zo&3wH()S#)6{30#)w8Sq&-B45ryx;|xA9)HlAE!VPLS-U9%s1BZwWb8-N*
z*YL~7#t$EvPLQWCz(hh7dBLy~jRxXJn2u3ucX5gZ#AGvhvP8qxH?*fmTc+_tnqN-i
z(O=0j4cS2nKHau<k~9>3i*y5SPatCjCL$}OkbT1<Fp)QC@&@f*l1gOF8|29JAuD7S
z(uO7x|E*2o%)-x&I=5@iaLXh|ik4kxuR%MgoZR&%@OJ2U%|NK9_%ph*Z=%uBw5c21
zNYm=ZHr01I_<m_h?gS05l<f@oac6W1eo5lCCw<&Ye(+An`b49PXVYd-(yU<yrGxXP
zpG_~s?-x<8Go~}<SrZ%>(I7C>RcA70GiHrPaSlOmHqB<h@+SR^?n1o*=DxGC9D+Zk
zJH=9X8Z7}S+YAQxA^jm;JMwXbmN=5#ea13N5uO|=x6@s`meUGWo&|G;Ugp63hI#=$
zA{uD$F}?$h#fUy|Isn$i$f>~i%$U$jC&^Kl{1LN(O5raf8H%R<_$ZuL4B}4K*I;QV
zOooU}5g{r}gvpb~V{j!9F(1d*5Flt2;m0HT@zGO}^jN4rp_U$CWG96!)RNREvGJb(
zXxO4#yY?G+!m|4#`YdR^Im_KEbW4Q|Vqrtj+JI1~miBOo=hE=S;km&Fu9AhxkgIlX
zV5OkwlI5ahZdbUVaBkO1o@-(2CwW!#(0AZ~ck(xh`I{C;#QeG|TSaH*ygpn3Ydo={
z3E@WO(--o?1!b2#7cG|$iv_jw#xR1ZBD!j2*u7zXSJ++g&aP-S=d6YtF|%l)m5~=A
zkQaTDuS3LtYX^QYROJ;5yo=a1&Sl<vs*8Ml7m22#g`HBdU&Mb?9r+(nzPIyuw<LH&
z^VtvZ_mEV4QpHYMpB9D`4UCixvUUtf7Ad*_gIv$70plN=dU299pq?!MAdh!3dA$D5
zLE*%_+Qh)O9PjA>YRu#BjQ%yUbFeZ<jY0YujXiWf#Zx3QGLm+91a`ZEz(yfyKj8!$
zdGyw@&Klj5qB=*qQZtonhsjz)s%tblj-f0DeKFA?M63TDKYF{O3Pw*$<qgnBaX9Xm
zH!P&V6aprLeM<0}VD9cKqf5EFKWGZ&?hcnXz#_`wi0X|wwnv;10dTFH#rnBDJu5TH
zrJFOq{=y)i&O`)75)qv%?atvZmvmcAKTAjInt|`mHe54iA}zn6h>Mc?m8L&NF#a_X
zF@jNZ8WpypN2wK4Ho>nw?P4l~(1;O!8h2^gwjg>}T&xN)gBvla**|8lF@VP+1a-Dz
zzpYR|0fD9w7Lrr3?xc65fSa!%I%krBr*NOTuzGD5DzT7a#8u1()32x-2^Puvk0#EV
zgRquMmdeFk$=kl<Z4bLVlB;3a)j&MATq&zU%&L&GNRenU?TX=6))oY~ENVm#*K`Ce
zm0t&FoS*A9cUv?phT{FOiaIL&fXL>Wf^^M(;7@Z2i<#;-g9*x5?`eEzn*IS0@thVW
z1+UNoD!5P+3o=tSMxw|1H}$I|7QQMlQB6Ztf?d^oq36lo`qZ<^^T~?^MiazlEUd?R
z-y*&!Q~j}sdX$AzizT2E_856hw8&~1pelqrY6HOtTex*tn6+ER2<F9OTjqj?MmJ_D
z@-<~<Bb-rdF~>QN&>S)kjE(Lfen#xWBS}VB0u31<i$?#yQR)U=ls0nW1fq~2sMGY=
z@qjl?{^|ufPg7dNeDHK^=@bTWr%dGIGht&>UK(X8e-XFLY+U=PB-cUKnO&w2<v(!)
z`%pf$yB0<-O<tUoN?VpnTi`H<!i>BgvJ@@6vSe{1(6v<P6AOJ(VZB&bf2HW^)9;st
z3bzIA+vZ-y4$hh+XN~BrS=@RxE#&Nyvbus<T~tbL*?YF17=Ci#eRI&=D(1HRv@w*s
zZO(k#>6zORPASzHDr^bbTjpLB?JbBNzOYfu^2CC4Id5gv!)7#}!b-cnm)^Yi<|k$K
z=l9L+K%_8Y7;F?B%<MGeXqK$aqO}=cv3qmW&Sh`ozXCCv+44=mhnGFqUDDgaUn}E#
z8x7ao-5L0CeN#7&!wnzb+mv>r)<o$h%3+Ovh^Q20i+}G2k@F-*-88yM-n7=!L>8IW
z_lMCX+q=p0X9BP2XBZC3j2Ryv$<yT!9!;E{HN-*kAow+Pe--K|&y%vAc-*A2O)P7>
zI&jk&vJFY5p(WE$OjCM89seV~*07jX#|wXfo3&RZe|$Dnl~T0Vq4;b8k8!iQqY!-u
zGIz58ukRuT@~rM%?r-A+_PNLTztNgoGzb6$d96nI=_o(3OnPn~p_*B}Q1qBtA=#gu
zk@@C}vk*_yT%s@~V!cj>6fbyd?m{oS@y9GXy=gNQ2S{Y+9z(>m>G4DE?L+P)txY!}
z@|k>+^ilq>qRlx>`R<uI(B*+?5b5sG@t0qQ`x6SsD@+}C1BPqe5YY=Gr)TQ+O&&Y#
zM#|kc<R;G;n1$R3I(K49m=3r}hDhq4YLy0I%T9EH48oXBUN3$|@{+3*D=Cr-j89_7
zlP88_Weks<h&W@pqf@VefhoT(@)bBo!z$v`u6D$v6qo|@{t`FMl&>B1^5yD7eoLeN
zSGbss`Ujp$g@6rt5M!qFo_#~m+qGoxf(o`dBTPmU?ZFLjJI!})32zw)Ho^#&&m80*
z>Tx=V%QBc}DdOKr_BzpCC)u})_U$+Gmh6KN)u0G#2SfmL?I7{WYJ!j(<@C&%?pt!$
zw6#feAPnQiV09-hBe<wTfNk30YKmf3D>`bm&zo`4S5Xu8G1h0dzbB8sR?qhUJ8pI%
zeci(M<QT47(<q(8V=ugbxglvnqtAo^$*Y*!QVE1_`DFRS_-It{qAatxYn>mY8f{to
zNm#J|j^Kj|M`m>@Akm_YpL}-xHPfW4*Zp2vY@~nW7018~dgP(qQ#MR@MmP|T`?&x=
zLKDtR6Y64{R-9-kPGj<=O*sM@y=UO2i{)HMNaETdN)EIm<FE@lZ5|~b?NzR%)#F5^
znpRTN8<ms-o@5Qb^_QR(30k|qRDg!MZi+uQmN=6>U903J!d#4{Z5T_YS<?i$eM#9U
zZnaW#@N_guCM{?=8`oWeL@r%Zvn=6?3q9zEr<6xe#5Ky49Q2Kb?iXsKp;x8!E;vr<
zLLc;zH1wKA(^ZYRfMuF^k!%}{*9l8%#zdEruO5|enSo_!AmQD*)w4=!HX&d&YQbOV
z`<79bq0|~Zr;g$tr9AaGE3*qM$qOx7V!L{cl2Yo5GIuC>6a7j`Jx&a$X(a^>s6?4!
zCZ4cIIj0^c_Ni$lHJhot3jkbdJxOl5-Z>DEMBcuo?J^U`{b>t;!w>P-!q_FYnXv;5
zJe)j1{?9ak1DS9z4>q)(14Agxdt$)_G8FC_e89pl+M%h*m&XsE6xh;#3Za)N0ryz}
zKjM1HtMghEB8*HPjTCF=!`2tIixjOrdmLB?PHo3eL`oielCVgmKo}!+{c!-2nX%zf
zR7w~>coM$d;I-v5On5WR-N%k4)P2mY_#kvcOgimzGp;&&Bj%Yg))-Tha*XOq6d`P&
z-9{>G_cL%aKI#TX!5!mDx*@tvXt#hHj_N3IB;3xiS}Bi1J0T0<rrmNtXa7vgcOaIf
z2U7`SN^{CQ3s#I0{WPKWaAQ9;IVcoiwVv7f!uB{Ke90Z}X63F?AFI|{s7Q)%UT*?g
zBVoBLpka`$Fd4GNdV(5Tprt|}JNZcV!1nD!!@bY$-@knj`gYxe1Ce~q`^HZQ%pmb;
zR9W_#L|PxRE}LO|67SBm?U?$<e^K!jRD6yM&ywJwY=g)+&#fpTq9-LYW<tWW^tMv5
zQ7VBc<8{zaa-IxjxN(#wj0yu(1ttM~tT-KTpTzZydq|K-9@SaO&>xnaJOyOpTg{F!
zy(yBpFcrz85gX$@jmtKh<6{9~2g-|NsON+ss^ZhMTcUS{FXtE}K0YEG9TS)wSor`G
zY5DJ>AT3&63sdWW-U7reWv~`5=F2xE16#n!;?kh0U}gLM8^gp!E<iA4$y6<xs+Zw0
zhp6|eWoOmgj+L_Za8<`jRhv|`N37bjQoBv6-7nVe5BusRU%TjQmwbCf-yX>~D*8sl
z{--2=r|9pL{DY!@Q1TxU{YO?UX>ME4S{${(pi|1(B<29&0{FIn@En+GxjtAg=Gx}S
zm0c#nmR5+?iuZO(mCa&hGh9YhcHFXdM)SG+>QxsU*1c^xZwcn^T{aEkow8gDm6!Y%
z{gSI$bTu!x?pwAG1x-Ui`w%?-P~>FEv;m<nB~z<tQUe19OB<nMWzIkWp31*B22CX^
z+0I~oZLn_pC)qpZy2FJo3VVLJ`|_z!Vg1~0rtl+&R3#t%m%q1ctq+r1ET#lBam%_H
z9$+0i`Bf`d;=Z)|;%=$9RxGYv9F_cCqQ48;c0p6&r?!ePIq>s}Io>N(!5r^$PTPvJ
zJgVdK>Oec>Lz_zvl`a!k<da-&qN^?BYCk_P*FQhP9z`Cw7OR)74PV$fd*y0wyd?&g
zP5V}Cd2dgipA44zgSI-!L;<T%5P2DlX=<#vJeTS&)=92<(N!PLEDM6Pv9^G|D9V_#
zquI$IyjrwXOSW3kR=YSAvUN(P&Y-Ci=enNdQ%A?v6_btnA#B|hww8Zs1mzPg<jnQN
zRWWyc6Cen7uD^7^#ozSQVE;=CKj1X{(%PMaA0L(R0|kbU+|5Y;djXHVHu-T7blLAq
ze*AGr4@Shqsdp^g_=-|DWvK^<{CSLnXn>)BUAYcqNnB8;MLInB?E1limSFGqxLZTI
zoj{hPQJCeUFJhj`OQ^4giq&k|ur>bXnyOMDW#AJwfs}#RRLj_9I!=mAxRnysqiW8e
zv_D80NNJ{N?O<CXhXs9ubqfGrvj-<ODEFvG6*yifMX73C;>3)4Z48hak^$+oSGfXD
ztx?kIae_FGDciJP$xsN6IH|PG5;VySaIuu~m~tRV-BUL8eN|(YiKdi`@N=SdZQdyO
z;t9%kL?X4Vy=o#(VyNd-5(z*#rTx%<>j%p5{+ZsUl&)#i0B4bEOPn?UB!3bI%IPzQ
zWCTULrzb$=z>$;F479Q90E^=gS-}V?@L0wHut5Nv_6vW4IYc1Vs4$9M49In806A9t
z`k-9-W1*ZdhKG>o9X8woT=1*-O?a8=aF|Z#9q51dnZAAB8B9WR0x5%PA~y!WMhLYq
zJf(%+@?<2F!p2(%^kT43ID$vRm2WZ#6OK`3EsXnjVwi{u2Ev5nRL@D;F%XrV@aPzf
zqRCB#QL;GXd$>VMa;VLK+(jVjK3@58AnJi8c)C|qLcprRxA=@y+bPy|eu9t{*0Q;Q
z1?L|XOl1`T$}HI%ALLd^xgBC|2hdcuXE_Vb8~)EgtBkAM#;=ycbwVN{QiIBSM62hP
zwE|Bf!~^KyOobi~?1k$@Wm`qlRse`#WgEj|DVU|W;?lm0`=sKh#NwwCF-u7X;M5w>
z5(Ln)ZIevETHEe*KJ$3UG7yI>B@D7SIdeDMLDFh)Zo8wuj{h*1@84wjFt4W!KYr23
z_tzSJv85U5o3%Xl%pHuk=nvAybm3vL#E&Ur64sDCjRH%=B4W{~ljVVnlt&^QfmqrC
z5di`XV{QFSl5;a1z&|6tHW5QH{Y^L%NmSr0GP;=86&%r)iUKG7k`*{9rJ=w{*|GvB
zrDO$8O0^XjOQ56~<#4=N`j8IMMzb-KyrAGfPEc@wa!Z;csxum!!Zr`IA#n6{d_l*D
zdgV;iW;eDd-c67se<V0W%k{>m`EXI$W&Oogc%h{q{&qPLa}4q{A{aW2wyOuC91f&D
zibJ%1J2Xqf8@*9IOY|ZVI3?IUl!y-M>S7nrk<R0Y(~pce$_l5{sNUygD)xV<fhVbV
zF4L}ydV=`~uE9^xrUwrRdb$M7Pt(>E{A(N{;yobCd5H-Wu_t8v>5g=|gE;R3=^jQL
zV7SDTrThxzNwZnRLZtQ~Q2znYl@`h|Pai>)l~J%01cG3ZwCU6Ea&=e^6KX?_K$tXQ
zj~Su)abz}Vj1ndyI%0uGeg6o>%NU=ESYADL?6_a%_XvbwV>!pB4j+c5O*Z9Zvuns(
zn?FYXGN(b243<xR8UoA>QN+nI$bEM}e!wtG3%OKELBh#ND3VSIM`Ndn6D}~`L_VdU
zUj&6ocJ-^9{qnLZM~!2j5vj{0tZ!uC9C0OIjrW-n&_pBCQ-VOCA(FG^0%1&WQ%N2=
zU6^t@Zk87i%ISP=%6a*<2!sliw4=!+k`=$`)Yzeu^k_nn>b-$60nDq|JCoQ|AjY5U
z)ahR+CD8aH1Sk|xY7<fs<H6I@=z69tKwNEs7{S74wCkeXb=v(a?atFZ#5@-IX}5!R
zY;quWraY_()kRG0$EPTeRHyJZhB9vA0u=ZHQZ1h5ciw)R%f8JyZ*$h$T*htAa+|Z=
z<tpxSHFvpIk!!ufZMegE?r_D(5xJWGpeu2i<JVmI9j@XI=e@&K-r;H<>5RPYA&1=~
zYdUruc3)<3{Fb|1+Z}GpBb|ZQea>O`Wd_G@yvy~AT>pJ@?)>v1bLrVM3cU2jJ8xV*
z1oume&t2*L@e5*p%USbWYlv&PZ?w)m^VUmeb@#HJXKkx#XLNk|d|(wCOMLn2wzPdb
zpBK!jSmh`Y1^Cig9_jY;d}WlQJ?0&qCCV~ZCm>zs9YK59Dg?E>Bl?Chhqr~T@YqC0
zU;UMwE8|y6Mc=lEl(Fg?*73Xe`Ic3LbVOpc&p4pxGv@nOIXbSsnD$*A@18%t%F%K4
SlmRYQG8XJ#lB*SYTKQkEmv`6z

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/detokenizer.cpython-312.pyc b/v1/engine/__pycache__/detokenizer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..33c83b5ddd2a98fb3c2eebcd3237f2e403cf0de1
GIT binary patch
literal 13847
zcmb_@du&@*dgr}-i7$ziNWG}nl}JmXY)h8y_z^!Qwk6LvPUOV0lZiGNg5kZgDN~ek
z?^SH6)YKECU3uz3ly;|9umg+&3@}PFyQ2bI)Lme=4i?2s(SJxwDLHpNfMzEJn!lEb
zJjk^Dqx<{L<-Md-+S>v>kj_1i?|kR|JrDn;w${xdq-=kXln-&-uPI{$Zz-{To9DQD
zoXClMiks#q_-V_8g{QnFWu36%Yfagv?GtuZW=mP89TN_gwx?>QofA%$cBEX>?g=+b
z*Q7kt-U%;DJ5#mObrW^dz6sy7f5OkoT&eo$hKUB2cBcZ<!HFQxSvbinHGYh-P?%^!
z-aa*`=PF~#I(48jucwW6PiiH442T=A1AD9Jod{XDuXAGUyPR0}u|>x+(Z<SrDDz8g
z692KSRNl_Y>rvhywSR0am3FYw07`=urJZ7<)Fn1ag4ir|OI@u17F(nqu~iC7U6L?q
zVI`J@8jhQEi=lUI6OnmKwC!_38ntNFGiT3fb@4Y9RgNdrX-U04BaTIRt>$e>R+2Mm
zBwbf#Zb<3mf+Qp39gz|<qBO3`QhXZu=9gsYiX2a-CD8;sA6HaVd6Ma*8cWSwyM~rl
z&3h(2Z-Qv;iJ3IIP-C<5%=D}pONvTNoxvZvQnVIPVkvYQOQsXDG%cmocq%myw7n@Q
zeNDX{n?ysSH3MciX5^SO{iY-;fUF-)U&Fx8&B)Sa>8&|QQ5PHs1`iGo4ljf*q~DIG
zlA<sxOOwf4f|O3o%%xRHmc)d<+<J^vV`2OE@wvxI+ypOj6Bdzwmz%IkHqj#4B?qnW
zq(!v8Yx`J-<|b-Hn^7a$B`4rqqJ!;$L#)9bxJ4&QU3$%=Lv*9eBY8!SRI9^@Ua3yB
zh#cx_EAaZ}9nm_i=|Xu;M$DCx6Q$G420>?xPR@1%qI=vmF2luG1x54RNBr1F*jjVp
zkg+LJYEmH_!atrFQm1E!W|On~)wq03Qup7QJ9_-sjib^~D*5Kn>^zQ1dg$#`YI^AH
z;UVk?mU*bWXY%0eyylEy>u>;K3tiQRJ7@rOp-aVu=r&h~^e)-HSGSD}r#WOvos-i$
zrbWYJ(+VMR50jcA&|P7ilWEp+fTBi3`mE$;BsKrcoH{$F>PL;v%tGH2#<v@=hcFQx
zyUlI+0`GnM&bPD94w-get4&Kc%NRAEqR!05aGa)->9{J1V~Nrw2CP1QHiu`CdD0xF
zDqFB-9GBq@vch8v*&L%5Ifz=#A>C4?v>3I@O~}d}6m=p}2#p{J`rI9Jvm(Z`(D8&B
z>(#x~j@AnM;q<;&cc(7z?8rGgR;D+d`wG5*K4s@5wpY0>iJD!MQfhq16wz4UCL(F~
zxOx5~%b3P}#2MqGrIf>nc8)KIqZUhJDlud2kzUyQgwa+59w3}{L>RlTULUD`%87t!
zHL^|!b_|xr$oAt8k-&afs-3CZmgl*5_zZvBt(rSyT=#KKB^)fs?W#dEuwSavC^v|{
z>{UHRS%%M8jB?<ptzNG0a}5qve0nyOOka!5#^w05BKrZa1+R{e#?GG^zY-f6y>jW|
z=-7pc(aV}UsU*{i8c!!AnTDW+h$vTIM=dm-nz>oM4s_d^NGWm@IApfAJI<4z5n(#}
zrFDJcUD^$}9|)B(M7O!3m-9F0eZ4tfZ`OA(>pX~f%M;9c+CK|KHv)UJ-o1b4>H5+0
zYxA4WzPuT^{8?cCTJnDLM&L}=d*-o&^AD^=*I(W6oys~-u?>&<iTI@B(^4#^xnr^E
z8F4N}X>Tm{)?7TL*T^ljE>7^DS@5BG&6Y|ks%A~5Rk@vNY;VrYq%<oSquh<W+)ss`
zL@KT*I-8W;R9r{VL5lh)B5J_y8rvNfv1@n_<?nJ|T6lY3(ZM<Dib!>?Mpl&%qhE4J
zZd;AQqQhbju8yn)KD<!mkbGccpPvVQuKsmsn@WmK-rlfwrHFP7_ap4{;LtYZ2z7nY
z;<umP3UsYTa)I8W9T^ligo`zla&qpTFI`AchxK0&s6J*oObPs(!8pa+GK&5q?nRmT
zN!Cfr5;w_<mUq1qHqmObI-69(*j**7b4kSP98^AO6I~U|%p<x1@6p?U(RslHy-VCJ
zexi1qi`HtPvvEbLelFQrOqAp(He~Y>|4*=p@ALOK)tt#4TZa1{Xo7KFd0fmX^TL{7
z+@d98DP42Rl%rg3q;6ZUaf{aUVU>6l3m_F$;8Z#oEEtztuB#4tjR!t&^}0oC#tNQo
z5*t7nGPHpnUqF~600f=JT>%irRua23q03<MFv_d6RQ9O#1{6s=)mx94>uNA3(XxOQ
zK)>cXrE5f*i<xIRbCpEwPs}8W^IX(Ewu9%>RzaQMw&|K(<aow2-|%tVBCnD>z(Scf
z{xN@#=efJ}Ht@**V!g@h^pn@D5F8=#S_ThjyrR(AG1#K(<TVLgXI4JFaOBBn&XiXM
zPo`!P@sx6U&}{b#uqh;I{5|*E+gvs}@)yzdmwysoi~qFuFQWgT&<x&bZ00|w;mXvt
z+>0pc)$Ga~$Pc4M@;($n3WMk%4-yE82bvoqgdrA(lIcWhPLyIyyZ~i_gjM2{nsqvU
zOKV^iZ_Z6lN^(q>leLx@NY)O98k?D%R3ugNR5017T^Ae%s85H^U^Ev)$LOLf7GtC@
z7GvBM5`}PEr*lL`7sCIFWjhN%<r73$p-0ZzJ2g3H%ce6##Hlr3-=C}RUvd<DjagrJ
z*4d4C%Txc}i908<p3Xu`=+1>lwaqJzA9_CU{Ahf$Hd<)y`eEA#Z7a2RE^M`QQt{G-
zLa<}WcGp!13Hi|8Txc&czQVwP{J_QBz{Mrorn3*^&+C8h_;-)5T*-HweAsdFQExOC
z9l0O*%jkcPZbU~mdPg3-mFxY+(#WUY@K$f%(#WPaT-ZNIjrU-n?VU@uPn|6~#WZCs
znPkzOA|Bl`y1Co`2b&F%f>-!?FnhVVy1=S<G9aeJJ8<iH5$O;PcN%)eqO~k;plubZ
zW!$<&TZSLu-uQjsuvfpSQ|A3cN2QRl8|^_AL3*q80Bq*%G}_^Qn=Kb0xFjqwI@T-z
zz6zyM_`8>O%%uv&F~(9I!wsx6u*f^GJat9xF4?$@^*e3<hV`%-V}QMYUv!`)amHOi
z{=FSz__xnw1lK#El77MhdZ{vx9eq@(H%6MV>GZbRNP*etq~iM%t6^(ctjW}Tr!!OY
zI(Bc-vFOY|SG{o*qYG9algMYBA)@W&-FARk+ZO)DO*DbRRi<MIC6#+zg~B0B&d7p#
zT@p%SBGfM7&G~1|Ce&;=DwK6u1`N4UU<#@LElmLJE877EcQid16-J@X&rwfAvV?@3
zgz}Y)54ugb%S@LPrsHY?I*Sel3JP&rz}UuS(oz}c*ysO@5VgrKV9m5Tl5Z2&<8qAI
z2;}orSZ|PGlLANG@;6W;KSvQYEGcI3*;y!Nnnz@Y6Q<qBU#Du4GIeAP7*gVfN!2kX
zCF<Ix$Z3trjU-TsI+&rjYxRsq>j+A8-CL=QY90olPgU>EqsnvX1QrW?h3Vb2{4D4c
zy&D5t=za=C*VV*t0ZjQOINELQ3qR-Y*a|fN$`e{WoDZLU7(NSXx#!?|PcHII*4tfZ
zkFJH+4rbd2@4UDb=|{<9H`gJo+VaAIoN!>HeK_lE{on1;r56gI&trGS^4{*8w|jNp
zrgsP>d2jneZ@U4#-o7E6&UsIN>TM@A{CEH0cYkzfRn7OE%=Mkz2%mZo{8`s0T^r$-
z9!2`rZ2A6Ux&C7tk>fdkchSRj3>51)Z+F(SZ>zGSY|qh6?=cLyxoyc)@c4*D{2)L~
z;$W`h;704Ab@9(<{&ePH>*%Avo<h5jZ{L?|-}k7ihh}>y7e2JnbvS$U8@aA;6dGIa
zz4rcVg`VDg&zW4$na3`Bux@FDbev$;*Hzd%l=Js5dshBKA<((n^Dq!8^zF^}9nJL}
zz3;u>mhBr|9@z{=wtS(iGsM^onHHcA8~eRO<|S!@aTy{&l@jkerqB}@n^7-7ZDbZS
zNgS2s85uSMW+Zr>HjwUdNe+^)BE8W2l#Q=A!|zjLQY~+DpVbk^)|p}tN|<85L&K&)
z>g*5+VuvzVTiR2dIDrLPl+KJ*_M_e;GiX=}q9tSXa3OA-1kx(?(4@%#z(RG1k7?l$
zGFBp-V4PLOVz5zr#&!ce$W0j%QE3J&RL4rtG^%+k$l)s&CIw~|5t52<MV^!P2{Y-`
zyufH0HdKIqo{$)sBk@dtJedNqGs%^D9qn{IlQ8I(FiB*x<Crcy+T`ak8lBWUN2!a5
zq7Hp;&3({ncZ!3Kl33``r9vhNDkQE{QUKC*7lxj45UQD8zK=%AT|}S<ZmzTU1Agsr
ze(%}b-m^=!zwiaWaB#uyqLr&}%=?9$Us&y0J+(TR^$!=Vw%R&&_wr4>xu)J?4f3E5
z4UNlJ@{N0Pje9ogd)GR0^+zBdHihy{hjLAa=$baIG(Gfm74{t@F)dmMH0J~1Tp+x9
zaov#(9L;)<8Wx~v9l0Yo`7lM#P(&9-7rMdgIQbYw$0;J2Ti5rA;j$Z{YyPz*0XQM0
zQnA=aynG4u%&z#HPBl*vJVj@yVg}J~-{p#yki9c24F871w|H#W-ezd_NRnockD=Kk
zS)AlKN04j-J!=6{?0eP&WFF`tZCx)fI_h=hA0JZw@p*9QEBfdckVcTezZs0Xusw#N
z-FiF>)3!+))8(zu<?S$Alcrt+P2B-)+-c;+8fLt<iB6Qdn2zoS+jq%BKw7pA?YQ)$
zb+Su;1@SJ8+^cKkFn^V<BBW1CH5rJs;HT;2JFca5iU`uK00`Pj7Aj0{Ts7FAm<Cp~
zqD#R7tOZphJV2PeVeAbCboqOWSK!%#&A^tiE!tI54_PQn&X6x1khey#hNCK3Tv-q;
zDyaf2px(NGlxQ<-3C0()eiX#32BfLR1OFK`2B%1pe-(Lks;z{s;*)V2YyUR1le>Kx
z=OTP=X&w@@9k?NzF1mn?w47Zb<1$)8&2A(KyV_b}_VCG}j_hB%0@e=dyB^R-6$s_K
zYIg-hl{twHku!W_xA;Z3i@W{m6J{SaFqOZCEof>_xy(ozbtBw+uJ=3%YZBVc8`xha
zBfAzo8CS+L)oVbPzkg)88?<o=>!N4Tb&Ib)mKa&<Sy*&u+_F!s!CI70h8sB(VxAM7
zl`Az5gGK@;O7Gz&t{?eu0wfp4lvyc}jHgPLg3lT8!m;8$C-r=euHpav%m1PI;-Ux%
z(hw$;^H-ux@+c}R3=r<Jj4ofND!Rv-0|F#GelVx9#$-%q*Ix6N9C#*9CID-8Ii9{I
z!77nVYYts((0t^sQ>6qPA`oJwS*=5vjVB}}_NJuXl%({oNoY0TGI3RvwH9JG6+>5I
zI!0NuL(ZR8v>JF5;r>wN8#GogV{N4siPq{25qCwmU^6p|O!Qf+Esb4)!6bQ0bC<H<
zkQ$%Fl=Wh(niO@!R!mZ-`(&!u8KxfZu!TI?)NY!P{sirnKLhQnu!XENZ#uiTLf!e$
za4s~w<SY0(v%Z0>a{w_b-j@sQV>XTO!F>39E_|NM62haVo^>^U^iuBVrOl?7Q197_
z?9WGz<s!$BA;#Js&bJ-PwH<occ6?pVI$H`Y{Y$lv8e3L6HX8eu+yzhL3jf{Hj~YWO
z!#_x@4y?WP;oy4DM&~ns+jwM|FSJJ2hSz%5!r9irWk(^<vTFNr-G_B~;hCK9%=+Yp
zaOz>;R3S33{NgWytwk5tbacB8jDG1HliP)yS6B^v>fHmz5AN^eYTNVPp`3RJT&?yL
zW|;S#%=u0h?VPK2(>YLdLrl*5h9CNdA3M3o-nGL&J^j(??1>kCE^dU!v;OgAU!lIS
zXt(&A0J<mo<FOCN@{x<V$i<Dwi}}cSE;7Cux%${{9pM{(6}kF>bH%zcj;=A+0GW$&
z!AK!;^-ES?<gE1#%eH%U@7Hbm2iLnGv-rCTk?68*)8Ad_JF;y1)E~j>9eI{g2aDaD
z|KLAtdkHm@m;S1=`FzA7lMu}eKszLJx^VQr{ofEV7hj3bA!~-R$r6_5s-moN1m!08
zG8=MJrbV}0R)GyXQ{?7&;ybWBSLJjvglP0iVy%fkW6?R5$isn3bP+~D1s_?Zh+Qo!
zZlXM|SD8A5W@ndQtKC6_$OmQIXwzmW=(5sPU|8sV$~~!2G#&v~c>@tVdN>^ZNX{Qw
zePhFaXvq%sPd_Y7B|DI7Kag)foNGV4{>Dc8xuq8it-Whvw)NoB^S|)5u88^0p@*GA
zTP=H*?FC_gWX6syU+}xXvtluHt+5?@NP-jF!@tGe-Q!%OZlGv)sOqS#x@*{>lDa~k
zhH);;siurkb`(xpBCrkcT-l2-WjY4SeZvl8VxyNWi<Z|QK|%E~B^6+~3+th2!OxhM
zttr#)RK};8T*u(;3Qov7e8nhC`J~(msu(v#9A;NA=80LDk_RB$cYz@bOH}D*;3S&W
z|DG%T8m*4?+fXXUOR1auP41TUHSQ)KwT&$Zqvf|BFf!@SLfC<Z+38tfkG$~BY7nJ|
zBj%%rxQf>@0=OcqNo4IRaZzE9vJYvP+f_0(>E{~OCt{|9@-@sj>XWDOA;Z5ktMk;_
zOL!VH38ySm*YN;nepb?x4*fZe=8|qDq*>}xbB!9wlEVOQUs+XdCe`bBC^GiSnHMgM
z#9q2Qdj7&UW22WZ$6g%&x>j>DE~habIfb4XgJ-NB7BBNs%kR*jc!~Kgh{@?Um*~O5
zz*BDSE*}3m;FT;Q_<1cs*9cz-w%oh;{>6MS0%E*+<;UOp@LRa9!E;Na#eUA;xa9rq
z<36sw^9S=;A3UQrS1UZcwE<Xwa^CiA$JZWoY<e#N$DPq)Cj)=n!TDRi<Z6NXQJ`u0
ztv@=F55Vym+1zttGjOud)Vy2+U9vVnRwXD_^(VLd!F#^<eUD38W?SF=!}$~AxfA1?
zp({%xcP~C^fOkg=zTlGgpNbvS*FP$BnBVCg;QplVT)*{`pp)YEv;4WR^?!x!$V5H6
zl}=I@Dl|`~bTWOD$e~VY6O<AWRce+@$D-&XsyK&;X_g1<&t`j$7diTlT>TAwiz4r_
zw~^|I&w5~+KE+Uzy>V^4$l<d-e*f^FPJBg4U0Woq)TbE?X0Uw)MgKo-5xOEgzLJx)
z6+D2lzgvC)h38Iq++>s7&?M=>lZWYyUg(TY`2fJ5pfj2@w*{1Pm(B=YMPA$;IwPd)
z3QKfVZ){nE+~K!{;b(WK?qM}(8G16gE+DJ4|IU#LY71{qH5lkaRWwEDoy2JnUdI<b
znb?u`=ryd|Yoya*(Q=J+43pj)HMpO&N)<Smx7EbLawbQqPL-$VN!G4VeLj#F=#{1Q
zX=5=cJktiN%pPNP8J%H$1S4Jk0>ab);UBh*;T;hP^rpxT2Z64vkXpu!WYPKx#fD&Y
zxt}J!Q~1}P3(CJk6|_hUkLF+;Kp_=@9tfH)Q_yYkUu5vIkQw`Bf!dR_WVlmV#{*RQ
zB1M-FnX=Fho#Dw(a7>-S3P!1X0Svz_`%iV9p|yu3{X%_9H8<*Kq2~%-5YR}@8(F=U
z?>&+0J+W=Iw7E%@fE0~7PdMiZXFWro`S%q%`wCsX`L3h6uA_zi!F>POT>n|n%KC;c
ztX%DBB9JS=&DOnZS3cc;s@MRJ=t^WY_~Wh*yK<oejC^+YkZ9Fe=o0ALzO~~8*|mJ<
zkzD7Ihn<)158n?zu>H*Ui7)r;rA_BcTj6Lvd@2_{#gv-D{zLiwFX#5ZO#apZomRp7
z$L)9*Kv#zTw~1gfAsgS_L4m2Mx|O(kIZAh<K%UGirB{Wpp0l$;0@Loth0Le3u=gpO
zX}H|!ohv;)?4eCP1XSRUP7b{BYk&APC@i)0j9*!8E;m$=K=Zx9_XqW5&UPQnHXMSD
z)aBNf<#jaPA-B?9V#|Uj&sdg<ClXZ`0uwffJ{lSUrKW6Zlo3^_X6ZqxNw0Rmn$&7X
zX%&hE`d6Z@uVXBWmPP9#EN0cmFl9=#6<90nh&y!}V2Ke|VIgA$1G0=oYf5q!jP7_s
zL9aov6`BWk{q2$kMgBe-$bU=`GlH;7?UHFmI_qNF|DPyZ1(Fd0!xT>&q`6I>oT7Pk
zDG+uTI0DMe|AiG^*OH!cm@2fS0Xj#dn1MEY?Nyk`@1@^Q7ebvs9Q<Ig(9%v1B#_I8
z$cBJ?zNJ6c(q9lFdEr=2I93=K%n!Vf8+hTd&-onh&N)vmxtCv9-M`*e3_>%1&vVC<
zcZPD#(8{x$&fY@D0A12hp$(69H=Qk8zP7Bhjh#kVTj(%XSla1iR0ussC|kC<lMtob
z+?foNpsa|fQv6}!0!1)=amouwF!86uewkn0SLEoMJ^uV}SfY5EJ)^VR-K(Xybx4-p
z)*)4_^V!=;Ji=!^@D+XZOT_vh)beGD&Qml_5hFU4_k(T)yIubk3Eh<icNKfx0judn
zawk>XIGe%y*lDJAyFvzU$TK|i-`goRqzz^nw%+K+5cs?M;0$ZcI5Kv6X+bp=J#a=3
z^h*QT0epCzM^-|($7~sgk;Y>vXgl#|u!QHx*(@X{g?M_t(hsf(aal4Q<ngp97=B_w
zp;xo;SGh?M&`Fp;hgXOv5;L+0O(Hd4^0n)Jc12L<;B*xFE1b{pfH7}Vl=?RO@X(Z`
zlp>WJ@C^T}*YOOW4GdO7=AefIj2;gdZ3ri+P^3`NFm<%#CIb{hq5HVtPZMrlPbRLH
zhRp7ppj@AsOX2weoNpyJxQLO-!v0~Vx21I-T&WHUmi{bYOdi3`$uA=U19%P}&4vfi
zB1lP<W1~5Zd6%Ao>!YP7S(=+wp{aCBA)-f1ilD1kub@Dt=p>!>3=(jrb#mU&he15N
z{&lcr$@wVMv2y)C?_ct5H43_WZ1ws&zdn{baP~ngci_rK<5k_J*YMEOR`3RY<!RsY
zHm$(u7F~M2;A{QC_-flm$Nq=D{aejls}0MUhyE~FkH2Lll=X!lI>WGZHMSOe@KQ>@
z(t9*({LO?+hgYVXpt+fBL?&QGbHRdpBaZj~*JPryGF=ZXPzD&(X_Tz!W@ImZW|CH*
zA5WvP{xaD^KO-2_^;(&DmlkCum5{MHHJMU?%S5b~=udE&)JBw9bF-EVSSCqNt78Rk
z4-e|UQP2qyqfmFK+Kz{AilljBF(};hbC+05-j53TdldO8B7d6h<zh5~>1#}LV?^vY
zYGMAOv(C0{*CSxfc~XCTd|Lh~AhD;M^7n{}R-Wg-a&Ua)*IfNCxsG3Q!Y{dfzvK@5
z9T)z}V&g4eaEN~6=J?Yn|CKAa{LKwl=WPe}3FfPt_ZHt@T%E}8Ig#6QVx#%wgW3l*
zKdb$u_UG3(o_jUd{A!j9LTCsb$#P9!IRyUn7aXF;=Xr_e8?xO;?*|@plzjY>^%b6P
z%yyr6%u(X8Y&puevn;+vl@Ig&LVd7k#dj;%T(sj0ydK|@awl4>p&W+OUUX5)%{e?v
XhnB5N$G#I=R&(~Y#~u{31N8p@#7*!U

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/exceptions.cpython-312.pyc b/v1/engine/__pycache__/exceptions.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6df219985f3fde40732573a3f0835dad63278723
GIT binary patch
literal 1127
zcmZ8gL2DC16rR~^l1*uBp(0gL)`QSRo7F?8g%VqAEJB+@gO^-}&F&;!y4hW4Hfd5K
z^iZ%x6faT_p2UM9LjQ-CDhRrGDCiHUreg8ro81Ir2ljh!XWq_x?|a{V$Yw_nEJuE9
zf0GdUE?x#J*>`$3z}Z6*T0$1uMi!>%T_QfK;AmHZ-NewY)RDEMIk-ny+<)nfgR_Sy
zs$dIMBnwv(9Z5@s6GgXfyL5@Vlo<gnGUl<({HkGdYN;D*)Kv|2fp=VUd3hyQ??+8(
zYR#}6o>Nz;>9yd?szY-nO%4@8T%$n=2}cNNcvjO9{wN_2nugOqNfTmuCLwQ8PZale
zUJn|+?%V!!V6Zw3rrXV#*<0%~RCnyE?stMU&(&Lw)6iQtbsCkc)3!<d!1i38^E*tC
z5`l2I0<ev~%C`??g=Gdu|FI&&u2{Vsz@t;VSdx`^i7lDRHE9Rcu$A0CQ%UZiHm;<~
zNK1udF=va^uwuUSVZMSjs>T6#JVsT^rohvEmklv>SHs~rZ~8u?oD<V?1KJK)7HTmE
z^Ac9*U<{sK0pK~_0|h*kgFyt^O?J@}=%g#xaaVeU-=}QUO}xfWF-Be7MFeyeuMX0r
z(&q9|Rn#@TCZuIBWy4i%&YLu+mMK+vV3_M_zzmbBQ$`i03&Zx9D%xV67pSJu<TMA;
zNkRvdiILl`9l)5+5^}mJLVz!sQ>PZS7s@bU9;VheB0EtmE!`^>$zpL~k*pNU<%OkU
zm?6Y;4B&<E6qK)uwZ+8W!i0u5Cr`1T8{{8_Q+^HLWD9+{>>MZ;e<<1A^hag#;QaLi
zrSK;Bq!jjB07ofwHNPW&R<1<)(9%o@f(gEv$jQ<Gp<MMmC(0RS`!$)=aiAs4&Orbd
zlbDYy6S<iHp*Ma3;6zAp_HbtI7fL1b`|=-QehP>+DS}JDVx~BdaxCNMCL!TCO!OTp
obMdcKVB%(xmR|xmN??qSQwf}Tp&cVI$D<jXe`fziV4~0e0Za8F-v9sr

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/llm_engine.cpython-312.pyc b/v1/engine/__pycache__/llm_engine.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c8ae84adc6583ddfa2c674e5d02affffa74f3e0e
GIT binary patch
literal 19373
zcmd6PYiwIrn%L!=A}=3$QE!Q&-Y?3MEXi+MmL=JaC3|cqldv;O(7M+$Wj-|LQg)=F
zGR|z;l{4AK!4?|@vjsHM0ak8OtgtA$ZfDzOI@{R=w%GDUa>>208&8`-vF#rw3J@T_
z`hDlVNQur&22-Hd*1hL_zVAEde6Mp3|JLPlF!038KZuGa80LRsM19OkU@vcAn0FbD
z;S4b*gkNLK5I2U5aZ|`-z_=-9j+;Yf8aBr)acjsLw}ospZiw0AWuY<}w!|E9XUM6f
zvvF6*MZ?yZJMIa2;@*&##%;0kctxm!hV8M+cvYy1hRb5rabL(s!;V-@yf#!z!_HV;
zygpP<!)&Y}-WY16VOOjv-W+O<w}e_~+#U1BTSKk!Kqx@to>*JFJ=9La-dIPxGt^1L
z<*}}Kcc`0&D`GwI-cT<MSH}9{{h@vuu8IxBgP~x2Ff>Tx)v-hIq0kTw`(nfKk<bVY
z*TfFTM?<4DTpJsUkB7!-xGr`iel&EHhU;U;;>SbBX}BSFB7QP-l7<^&r{bqWr{iZr
zXK1`BHW5D?Ivbx1P11OC>|A^*G)2QLvFZ3sXoiOUvGef@p$i7a$nf?2#rI+S@Cm&D
zaVOWxTR#ZAZ&cDQ8JQV|YkPy?+O@RV6+=(QKVX5m9;0NRjKpG*8!=w8%|@1%qKSnb
zgJhmhF0DYOX(F)#k%*9jMBDY1CH|!dfpqtk2!U#RY%-a+8C{SZFU4YUISd7dgj6KO
z$9O>qbG(ou$(3*_N#<{bxhTY<H<nX87hWRCc`UI&lFLg_iCy4RVQxu_JEjr~(F8w1
z76iz3Tp`K$QVJn}m@}G)royr0!U9h)dMSBz;wt~0W#|lmtDJrD()A0om(NXH3SXU?
zxp3|J)mNm7+2vR&I-BGov8((7!h!fzT}dWmfU;8g@^WfvIVHJ@qR@dCVT&eJn3LG4
zOR0*Kh$D#ZYmxX8Hm0Sxt}QPuB?(}AJtEvjKq=fQ5}60MjS>sgy`H?yC!(u7ks9Po
zH6FeR7>DO6eX)7=MIo}l1C3Mst2i3vGJPhKgjZ1qK=s7QSd>p-L63|T5D@9Dz#bux
zsn;tj%(YLw%Fi#uhyjS@*I+0wQ9@5g<{@pRFljcD0GP0xb(V*botLVRQgIp<!a^dl
zB-~0O5bg^po<vg7WC9yRe3}VApCnxP=5k^l)5A#;PAtb_fU$z1<C{rxn<r-@0xucE
zSD}uL<8MY_9OvcPEx)Uk$li}l$jEpmWZ;;Pku!u$oRK##QWjWPfdQ7rTR9_VylLgk
zyp6N)cD}3*if~rm!P(%?&YQV1-pR8x)wF7ZJO}UMoRG)DpNliytm52nSVC^z^SnNw
zeG_fJRBImE3UkxJdEc<SuYecw{+iax`SOymRcNhM7PMBux%kSPMy~1&bEpc!4hUC6
zxSI1}d5D|28i@ON4_EsJqd`#vd9{2US9jBh_(QFFC{@oj07V)oMG${8*9fVNWsLrh
zo8p@I2CkWJ;+rYWTKE>;PeXpbm6Pe%$_JECfN$d)_;$G$C9RF`fV769w06FdgH)x2
zO#4oteJ8-_<h%H8>_LIF3t;Nuy5C?zy<88x`?y|s_j7&l9^j_AeoB!6s2${HxS)m+
zg$*zrgq%TzR)?UiL$r?}rS&058RkbI?XV0D)EIultWj>1A6<+U&ozv3BWig%bIjb~
z!aCR*v@;5Ak8|g_G58*V?>Kyq0y_^-Xw2LZh#%vQ0xjf`I|lLN5I(_ID$pH=l#>M|
zPC)#WJUZM3?j+FlG=FBnz)#53rQ>o+8<*33EqA8Gh#-w8Xb%o<0;qGAI}7bhF0LQM
zQ*RsKQfryHNq}RDI|m~$y<+OQD3x8hG%GWz)qzX=LS%l$uci2JCW-$>Wd8Qu2;l_(
zJaBzr8#kh{Xlf-mJtsNufTU5_qU7ckP8FVyMFc@A1CbC$;Uh@3k%a{UZKwD!PX!4T
z7r>n**D^9vYy$a=#A10xmI#tF9uGq`Dj%eZWdX`X=5K+xN>b4vNab;qBdYL<CpliS
z5<ay|67z+O1|}o}?1<TOSdb~D4QVE<(JO6OROGXk1OX_aNOA}p7FGSMpa_)E>Ol!>
zL6#DP64)z!(k6&$t)!VnHKX8Lia9Q_1qGDgngjYP#7|9krk#uKgXKBH?Q;zCs)1Mx
zOxnR2Z+BDt>}tt$nK1NKHAw*A^{S=yui%4Pm3mwasS6M=)}Tz-IHai-=a3#wwFb1W
z(MC;Un8jK>tcHk*W7gP2b*e#4DP339!`9eTQ$a~JSny4=sxAf)dDM(ls~RdjR;7Dg
z45+pAZ$ax7YHH~=7dzE_{ksTbwf|XjrTWw~XsKTf>t9IKMz<i<^?~_)Wkv$7HEIr&
z)@HJr2Gl>Kht<%UJMDhGDK(<TIZN8D;<x5Wd!VJDnx}um^=ddZu7(zms3HBEE`wQN
zNE=H-|AF;=SiSfF?An;pS=B73V@@f&NicO<D`7}mVJ(_Ju)VL$IB2b~K3Hb^pT&v&
zDU2qbVMUb*9nkNwgJnvlojq6%ASj$|B~}`#OHHZu)YY{(t)}Q-Xh~aP0Mi9MM-8d9
z4a^GDW1ss6WO7nDuwI@dBC&8R0t(<Qo=o=`368(y0o|OB#KTeG&*V-dw(3EaA4Ik<
zbMhVw8N-5XL|948gIbPUnBXiRgZRQ$ddxIIs+?aIQlLi{F?k=KK!XR26RJ(B%%2Ql
z#SXb*Rq}>_-OG|k6*w$*71Lr=HYhO#_$9?KQp+?J+B}-LLIKAoIH`h*q#|LhjsS*$
zRCRzfU=~R=h=FWVQ9D7klq9<rss~+rImU(MUI4x2czh*%Ba)iGB~=Qyqf20gDaHm6
zH<}{I&<M^0sZ0@QNkUMamMRO4o$yj@8B8&WEliZW0?NhZ7*A9J9LMHbXmeUel2;a-
zy6GfUB~vi~1&ts9MwDAh!blTTFeIyN8WCI_Ac`ZmLHtrPMsg}b983mYa?6%qI4+wX
zq#cX<Q1&aO5W8q32Gryvw>)Gj=?O|Vsce2}S++DKH{k`eSwN{kN#Em@%mN>~xo<wv
zxj}}ZE<sjA4&!SSUvw&Z)#icRbYuxGIx>eZB#UI%5d8*31zd3ceb1L?22=5+!KLWZ
zKq^AOjv9D%dHm>++vEITEP7*bX(e?lnHa>iFnDKZP{wpnUlqZn70Di^0~-#nR%i-U
zP))<xEgS;2dymQ2GL2p9=3RSju6;1ueokyZhq2aNV^_BEu-JGQV|B%`XLW&f^IPs`
z4K3M*KCz)M+i+ZLIG$~IS!{SY0}a)8Wa~%8`q6dIGqxei21PcwT`sc2pD_m4k(}3`
zX&)E8<9Q2H=7OF+bu;CGoVO+G9TvUA+u!)eJC>`e%~lP3R5kFdu`k;=DK<{-G)}Fb
z`@`91jsEp>Z_Va<2NA5UXHHMn*(f?2v(7^wIS=J(8}DEEq;_QcT=wvkcz9~3c6$B7
zCv}0%!`ZeGv2A4gm7TiN2>Fx7{v7MgvW+6!NCQnG+mvO8M0RM;Vrp_wobxOL2-f$C
z^}X5p<6`~sZ2b#j{R``!C;maG^!D8SxlQg*6F*9PnEc#iY^9Z&@>T|5uk05q`?Hl3
zV&%lTJ?E^<I9r}n`!lV>+vj(xPp(hr`i9oeW!YAdZQW(NKesZC{n>_bv0*&dJeaF%
z&egW%8hUcR`garWBtCaq8)@6Mc`tMHB!bqEb9&xB_2#K3fe{#(T>GJ1*P&d`#OGy}
zHuw6uUA6^4ca>+^7LjeqvST7Uw#y#*rN{p)(3uSki-F;6;FK6Rl?}{_fmvFC60-dx
zXFI^s)bqnRW$1y_fKZt$Yi|(k4Ug?jdoXc;V*?|jTvOAr=M~|I*$fJQs_@=`z`Nj@
zN`n%cLS9dwQsO>sP*tY1nPor-n^KxeR!X`3!0^7J@?K+ljB^jI``4(xJaJKi2nfJO
zDnplqY#*5U#2rCuehC&wcxrCq?4_yjOG9DmF1m8{^5oRDYZvBbdMuJ@J|@VG>rJBi
zE+EEq*^+Nz(_ZSMDX>UZ>-BZFKkrR!0JV{O%%@()TL}aHq@gX_Fd#MzY~9{zIF@VZ
z&(!qi>br7v9Z#AA+2#qcdE#@I&FjcBwlW9#J?v6tguo#LNfl&;HVK$Gr3dEkpgLM2
zi`t+-g7Tz|>QJm%Qkn%(N<&Utw3618W`UH{fof8kX0Yf|d(yw0HvHh#G_INHl(B%W
zWGH1($P)y#C{w{CFs~k(1YIG;3;sv~ZAib&7X3(jf9e*m#(`SPaqxHv!PTxQ6#hUZ
z|30cw%Tph|>m&lO_SmJWdD?|4TflAvk0+g41m`-L#}@}L$tuew$-?nBmKO-lm>wJ9
zF@FJH`eeF=QB7kJ&{|ZaLE*$wq!|wNfr(X+_d}>HEW!&IyN{^}WPM|zZ)|&Q$2Ya^
zd{Wn%t?Lu(`nF!!sXMan{sg&a@FQpN30v{@rTdpMb!T_k$y`TIh7Ejbm8T{0A!O&{
zV*Pl=H!jb}T=U_5b8)_KB7t0y*FP>jm}aHTO>JsHA>~ok!)we#1NfuKWk{DAaLp!`
z<Kbl>b|NaE1x{oKukg@7UV$<K_U@<TB1;fl?a;^WD{B7*Rz*AH9+UG_W<Bkqr#<UA
zBYMv4c+O_*XXz>{!VF=?zr7FO_1j>!2F8D>rF5@3ZFtonz{UpTYfA|_QJ%#zHKc!a
zYC#>Rp00*;o_dWTNl5Ln$`q}+6%k5NlgvONat&Ufj4mmYTnLlpL;{^9_0OpWDk+Q=
zj)UYbE+XJe@GAo&KzOxPADH5z+K~P`C?>oBFBp`%rfgkMtP5uArp3DHox1buZj^i{
z@1M*#{kh84k18*2Ue9)niXEfbj`L#2`JIl78TKL_%%JEAZoRhSIhC=Wq610pK%?^r
zk@}b+Kt~f9_`A%nkx(Va4QQ;ixMoZngtD}e*f@0XXtO(QgxPGIyAC1<$51NYhc~w*
zll?qo_LwLcDWp=J=C$I&#dQR19C(C0;g=z@+Wu?l3ZwKPloXKh++&`!56ik9Dl)V8
zXE#pmnT#Ed3}|Dp@SDZJ@mz2iHG{sKr#oZsmY0Ht6tsa$juH=NE6NgOl08H$kk3gr
z)lcSB^!^m=*c8DodBLWOg5ATbKD9#Lwm<K0pi#;m?=jCjzI8W+DOj{Ve+QgLUMWU-
z8B`+o5Y(NUa0<3=1o9n(qk!YQ4)N6{eE>?-`7c<dfYY>yo|dd<MD&d8ct$h!QHqM>
zRM=WL$_Ygi73oZAjm+)qupONRJdg1#7LF;jj*ngo>~uqqadqS>A5Y%l{RQyJVs(nT
zQ*qx3gf8bl$7{x3a1N#c<=^he4cPb6);A@r!Y|18p|?UNA-ReQuh!^PEz0<>SPx|;
zh&d}$(~$M`iN3z9@0jR2_UQPIZ)V+@v$I)yt!S^!+Pg%1*Ov3K{jf}ChmMA11!EWX
z65&g??!b>gNE9YsI2Dca5*tgBhzhw>sUSzUuEOY)2DQsY&D8KMJ_3FRL9#EAXp(?`
zT5`%QhtaWI<PJtfhz{mOco%XV(2+Inq;eIZCZ%cCoFRqE0e$o#`XTerHHGc_1zL96
zm_j|AK5A>kls2w868F+&uNyBiQ2MKtGOb-ImE3A;`ggHh533>SLIW398r3&j+Wx)*
z#hOFsuK?QtOet(-iQ%GB6>6&*27#2i$H(Yxa18EWq>YQX#P&U$NmWwSHrC1t`Y@$5
zH?Nvc*tBU;a~kT+B@CQ-4V>JZ8C}@q7)aelJy#7aqSs^JlXie}k>M<=(~r{AzpoHP
zOV?H5N2gh;O|1oVHmMMUo4G?vcdF&jG2bQ(v*t>(i(P82{!P2oa^HfnSTn4d(k{ep
z73KuR&zN>39H}0)M%tm42RE!C?G9_>01i!e*r%2I&8gx}m!(;N1LZJ0UyCYk6&eHc
z7MP0QPPERgw(2VzG<qTBzX5#7kLL^$3;q6uWXivK`HH&t?FXR>1^9#?c^l_nPQVJL
zh6A#)yU|z-s}sukIGNpP+{hnI`0pGF4vhrK9{}X!D86t?_tZ#^s1Qwnhb}SCOD5=B
zD#McsQ-mamWJVE4(0xp9!%Jd;iJ)#3PC{vN5tH1C`whG|aQ;9bNF0LeUNV7TAvnV&
zLqcY)&IqUJ!j!KPKW1A<B(VUlF%(4ex1!(%j3!_!4H*gfCs@EED9011yAe(-cx1f;
zGi8L<F?1haZ{q6*_<9Rpe~7Pt3NHz)8G6csyo)ghFi<e6kXcHmDEF%5l6zJP2_7f}
zDof!bt1lanv0ANBHduhtW5^QT0ZDt0`MjR-)^GIwWPaDv`=p{F(|r1`%pZn!&Rofy
z{zj(p>Q2SA40{cH7p(8W&E4j~UGN3@8t>0Mt8C6xc4pX4c!QB6dqna^L;2X}CX>sZ
zw}b3JA4}FZBKk&h-uj%^NB=kGyzsv*=WWV)Yxl~_YTWBHpI0Faoj+;Y^>pT%+uw0M
zDR0=A{>jX4c|VxwKN;Do`q8niJAbzNaP?95&fw%u^SKAkPih03V;`K_tv$9r{r34c
z&wprGH#~E)4-9XPJwpc+dVsR*fXEJPEo^`H!*hQF{-8@V2VGNHwp(Pow`z9Tp&VNQ
z==s_<p^KgBv319j%G!<cKR&WPnQQIKwjL8(k3AaMX+15n&FdF8thuh<t;lxkL;lC<
z_h$aG>e0eao7QJ@T|?`$yKH-|e;B_#AUe@Yq{9H{ZhUv^;v*CIvnX{iy8w`;$L#p0
zHB42btPY|Mq&_%9sZ{$*D%F5DsyPK;(nfV-Ed@$xazIOD7Bz{dr@gNP4a@>_jnU;G
zr^%>MnSYdO?<;JlH8>xF|5Q$DC~RAk97@~38TUWLk<#25DvTf}7_bJIQm%_q67ze8
zMNQ7>?St#1N{^|bv{Bzg1CCv~j}lT4TGQm5+7@ghDI-Xal0A<Knv>@%D2%%Y`=0Na
zN=e7xs7I?>O6gJCAk({e{aZk_5*WRH1!z*D{9>zKR}Gb>$@g&N0%{rkyQoQ6Jxv{P
z*v`Yb4-b`LC8Vud@*t&wPM}Tff37iY%n(=^cZ~+-6=>DKJTSa9_p0d?=B{CX&Rf~%
zr2os(>Cfv?E)Cmq)2j{oUIK_ue(9JWWr=LYt@;mSsv=7<_}~m!wc?Y)JsPS@gFuWg
zNuH>B^h-XPvD$K=ts*^NSZz8`KshUhdtgG331peJ_e7J(kAar3)1&O+$o=$Glk<?Q
z7<DB!#R!gp<j}FCTX+OVQWmwIeK?XetWbt#f{dDPd5Idb`@#7a*u)!H*afmsfPJ?x
zMUh;`G&nDUC*Nez??ME$-6yG@OX7B<j6wKrG<6H)xV#T4c@(*-+RflyKnDzkN~S=$
z0<eBwML<;o1+eT_G~>Xox^>Bm@oL}*!asu-cwf*v*!z*QHy0d{Jpt;DNtQh%vWIrr
z;ap|)`UMb6?*2^wg~zUouw#++b&9^utZzv44ej_w)@QyjG42-(pWA7nxyP={x#6+D
z2>yBSPZGP$!4J9h%Q=60);}uxN3;GZ(La^**1YR^$CK+E$aap4o#Q$GVBW^GP8;?Z
zbE`YUHsu`!QtODw9(h!gJ$gkvdS#dW#upyOeZ>HR8X=l}?3&Ydd9rMu$o6IWPiFgH
z5c^*MDT{zzRsnnAvFj3b8wEs9Ama&ck7q|NiX#^@BQNE=RatMF=xxh-dqr<=uDvhY
zeq3xno@*b;wRQdJsUMxnww)H+PVcl$0HEc4pEKt23IMXaI_n)2y@R{nAp~pIkgs68
zty#|@(Q_zcKlH^o(nWM#{PGK+%@sq&b@|IL0PxEYnxkp^YkVo-w%tz~rURy*^-LU^
z9yI;DzjOMy>90B_dS+~<Uj!`E{kC5WTBeWKesSC~W48UZ%`($qD{_z^o5H_6JTUNe
zJPCy!`W1$}3e_JfP7)i;w3|`b{N3jmk#IhP<*#HH8uLXNa59<^(0+h9ryK2l(eB@@
zdTj4JsB8R=kbr%oY4YdL?*YK!99VKmgWFfQMD+9%&j-8uvAydc*r=LN+Q%U9b!e{(
z4-iebi1$5<sC?~v^g1wF)cI>x?2GvrA0Zl-k<Eseq4s_%5KLUH)sZjW96ycdw?h#+
zYHz#myR-HV(cS^OvIV1vu9wI5p06Or5oqGKBZi8YG7T$a_?8HNGy1B$fqwucbS|$p
z?nkMx$|RzNidWHO>=W&MkL?2#4apMY@9?oA2OSOy9a^-Jz796JABSoV*v`J^^`_r^
z&_TP_{L$zw0IS$IM~zdE57e)35n?>QB+DKk7|Nb7O`=kUSN(E71t1Fja^&Ab!m39n
z9IZ2rv^ohnMYL)b?adp@yY>#cr`#+$n=>FoP<F`M(Zg^MV0&nrf6Si9n;5oFCaO6V
zStxdT{(nPLV10^Jq0<x-RGQlE;^CBKnX2SJV2->ULjEI!i^%vhNLVe`$*9!4RFaS~
z2i&!Hel;N@kJ%$SA&a=Z#&O1=->)+*Rqml~94Sl88HI!VIDx=rabRuz9C0f!<O|AP
zMf}hzfr)|}ZL<5jPxSQdcm^`cx+)Dh9*BD$<bv%Y+*DFw1$QPcLHej^^l-px^)=9|
z{J0?taQl_B3mgm*o(?0O_}VYJoTv#ZcNYqgDoB12kwRAvMe6O>-h3@%AIr3i?byfG
zUwh(d+wpW{>>UR=A5@ch1^Ta_hgvDSSlwVTQbsNxDB1@%O<b+iCz$4se+8jMGZQyY
zD&KzX{%cuJm+0xrD3XfSEaGX}<Us-foVardq5Y43P+8%}<gcNKx&r1PT(kl(p(KFc
zMgZNA3jntDubWY#JhuA}(hmoj@><mBpGUuYPJJ@ys>}DEgM&Oxj=xBc0{T-)w07X5
z9FPMy;Cuv*fBQ?EoAXBn|8=sAj1w_~%TJNmvh3_TFsEENd9+pw)uEz{2oeI#5tvta
z%;)~8jI;Gg1-PSTVUMoToo8g<jJFC$F=KB!NFr_Mu6_lHNJHrXEwv-0t|#0NqB}zV
zOUVVW48a8RM{jCN3y2{fr{rM!$0$n~6Rf)fq+kn8o7DmZt1vx^ga}YV$Q<w^XLErZ
zX%pGD$7~0(zLtX|Fhe~$Oa2ojf$s4yHHTI7)(Tii8d(bx5+1>Zv%m1beQBADzVoj>
z2y+{@nn^9xcFHXmzEvnd6DaC!#kgYZF|GFNB)@wLyw-T61<g<JMaxDZb!aca-3Oiv
zN^UqzE6}?P)cl_7v4Zm%_q1%__Ku`dgk+#^dSFGWc?lRs_|oN>@U`m`*RO>y%w3<l
z`qIQD@^?@~S;>+qk-S^9lK&NC7VbM24qdUen!tfX_2VA%iM!(M=>6yqZm*l3czh31
znWlkVPcRqgpr_DsPWOYVY<ar~|DEk0n6usI#O`w+InU8y$1{3xwv85k3}@Ud3_E3z
zM_w5x=t3TKI`Usvv($Al;0K1)6PJ<^&L8n7_`5LMuTJ<QTx1C-jr2|y9w@?FDmRzm
z+K0A5Dg=RQRNu0rI~#Wq6*5wHdJ!4_8-QGRL{qJB7l~E}nUrCxGP7IsbZ<58c*a21
zP}C(G-J^_hMZ6pF|6S0aQ`z{16IGEI9DU+eV6DSWCs#xf4O`g2#=R7Z@Iyrh$^s}w
z2>(4IT%acu)cI~noKa8Mn%VIj&L}&$r8R}$UdMsKZn^~5d;rH7Z1~`fAD#e?%7E*m
z>4-rV#qQuKfG3Dnl`eVpqTfTTWbFq;uR4;wqNjJq)1R^T|G%5UomU8$DhWUg#!s2O
z^f=rN9yKBUPIMkFq-w)w2fdDBN2L9O_TLe^f`i0r$=@$IVsw_)?0AMU_91zeT0xh(
zmE<HF@*r>%N@luyZk2b@iw-GTp({FfPeI^$^1YOh0<H<?M$=|>KXIS(>Yh)+EoHc0
z3KNtp&BM(B>M{EmdLhs7^-FyH4|wf6+DSfvv_eC;xS>Bl60|}QIE&zBz*(fIxAXwg
zo$b3Hnm@d`<C)FaXJt~D@s?}RYBfV;ig7OlD8|s_{s(Qln}!dJs!ReNWr8bka7{b5
zLT^39dJGf=_#nV4!}%42i`L)&f`r2LSJ1)(L<M)g6+IoDVVfr(nYZs|Jb@k0>5Tof
zJXs6j!`&JRJ^BlZ&NF}ng`E}5g9k2v!A}5y<SXRWau&lv?wWzH`dJ5^7wb0H43q|k
zuMM;%D!`^7PEd}jsA7RaR3%#&?sdfA2z-Ibr6m0kqKZy1kV&;Io94~M?e?A8aX6t~
z7nDz*i&X;|??B#Ua0S=T=i%gf5Imi(Q;%*vW@qv?h*DC(wlh3*?{^L;e-vS&?iM2%
zhcKLinImZ$n873YiAbCehb2cChYT)EK$s1Ozq1^PDLDvoay}d;jZjH)PtDC-n41bu
zUIvl;@^w;<&4ZG`kUzp#0Lz$fz`b?JjQobQVJd3*<lC6#q(`0QrAKaJGHzCpIOdt~
zrUjlSA_Bga@%25-u%wokz?oNz39sYp9en*`e4({NP)DcR&;)&UlI12ygcR{&*vtV#
zA-I6$ZR-sTp)-Y4;%ggU{~BNa246T|2zq3wcY*v2LqEq?2fqF@yzn?p5;n|JD+Fhy
ztYTZ?iU#m!^0%0R8VW&8grFQHC|h9D9rnqQ9TVhQ1m_>YV+;hB7hM~YF_D04>U0DM
zt_SkJ@rC0=2UXsg9>6HRg77B{z$$%%`Fry?Eb`vLT<37Mb3*K#$c-P*^`6YNb>{+I
zpH_d<U}=6<4XOzSV0*Q$Y2)Sh+<6;~+TmtEzKjMPOj}ppNrNm?+n#sPpc{6hGY$Qs
zZ(!Rj`VQwkG}X)ay7T2USiv;4<|}EiifQ!cX@79e*Wuo)p{Xzrt>v(*-8G^^2XHyv
z76%0jz5o?;Xu}Zhei!yvhKUYr7%RXX0!Q^{E(q<JuvH_b`46_=)&HrpPH7*$O8Xc(
z&^{(QnAVOwR#4i9kkUS;jTtPHhOKLR41V)gv*q+w6*&Gar}M1U((|Y)&%o!y_C5T-
zbqH(ur$&RNMri;-d8@%Pw)x`L$wzIOzLR3dDQsyB8yelJ+M0h@mxsniw^P{WC{V7m
zH`h0q8$Ak}61m#CT%hyQ>Qj~@&#G$j7We`#<$=wMqBoegVbso)w`?|Hv<#yTrlxU&
zdncB6VvL33)|=-<7%Ue?-Ar>}vu#t@?0)a}wm7kAIPbw^FH_sHA#6@=yeigoZygqE
z2J_{ZUcprQ@|75>VtjQQhu;b15fWu^F?7ZlunaxmHcn>xPKynvMc<h{22wsdZ!lQ8
zJ_EeFKeHMwy`R|)mf)v=@X3u4#PZ~)tl4sO<J@NDdl$CMVq-rh9?i2*YU4UmCzyw7
zog3FTJKy`(9s@x@)9Qvp5|-|b6I<<KLlBsvr5kB1rvg>1o~)%>v{YlMfz1=!?PA*)
zut>|mqr+Hu01NwQX5MPGG;gGFz?%2GCQIj@!v<Yc7%k(Q{|HQ3%lI}x0iV3xXc^rc
z!KBfx!<aORNdp^`o2K{9V|)PP!<!~7GQ4HRq+uX)Ye&vko9l*IXtT^2o_Q-D+}d<(
zq_?hSS_VbmA<=s%Z^0Y@yP{^J>Yc{CjYjQ^rz&4YgSc7q;MzvpgO}fNZ&rz3n4mNr
zR)Bl`#{Jqo7mZdJEN2Xx_N~C5^*rp^YS_N9)gt<jBHm{VkGKzq|LrZL=NZGE)nYj>
zTPBo$^vn?vScv3N6^CR(2u5zq%d83b3PaE4z?HWZ>RF=<)P^<e^tV!ii3Ir)qvdh|
zxYd{969W8DhCu9?UPf<4;)NF3praS#gUam$JpDjr2AsBq&D3DQB}6JcrI!84LH!aU
zNLpULCReTWfj`6&1m!KfoQlHD7#H?0_op0KLiwPipvw(7HJ<&E%4vNxR)Wgjr7Sb#
z8=dt21&BnjGN_D0878r`in6IJix3nhQaw$VZz2l8!kdVKa%E92Apf3=a>hxPR#h}-
z-|;8;P?dvb$wz!q_$l4v`A&3q)?resTn5fp31Icb;l!s*hM?xwkp&f=hmhpH=r0Te
z<=+{AyL*aUr|sMs3d-B$RIn;&X^Aj?uy-!sd6aKK$^)erkSU{Ir<5;T`it8x7)<5R
z7x5!>wfl>y=i=mBpz>V7zLcL;kd=)ZwU*)=4a!3-5UP2!W5d4vMbK`9SwN+FCzg<>
z611&0LLEtTvt4qjwdLtWx8>#WhVpmmkH9D&xLygja;aedKhP>YP$!FcD!7Y<xnw^f
zD_o}t{9qIurvQnLdJU*|2E(46F|Z#q15cUikD10_G1X6*j$bjgA2Y*GnYpLTk*7@m
zQzr0~X?x1_e9TOK%$#`2j6cQlgHM@u`2R8UO&Wz_kbe9rbL=S-ghoDQ&VS6De##u8
tjST&=tm?tbJ7vxHtiQCd>(@6%b}cRUj9*w6Er#=k&*0n>e5n5Me*qM<Tc`j4

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/logprobs.cpython-312.pyc b/v1/engine/__pycache__/logprobs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cd5326a06db7745799bf67c64cb4b91a4e90ad7b
GIT binary patch
literal 6010
zcmbtYO>7&-6`ox#$>l#OQKIA@dM!$}XvtJ;$MB!3!ik-vv7-Fht;;%D(A<?oo7`n~
zmv$_Wfm@^igBFN=C@iBzqx6)(1>*M7^il*p1#J)9(kYn*imGUO=%rvPy8(LYo7o@H
zG_4*=NVD^1-u%7y=6mnW??WL!f?tvOL7|yI=x>;?e{QR?@mr|eLIM(~BFf?~U8G8M
zmZossRdkh@EJNx{(OvRnJtc3}TVk_p$(Qw&{8>Nga~A`pU^Z9^WkZDa6vL%RHd2aa
zqlESrW2J%YKxr^LNFf@Dj2OQ|nLEf10gWzA+Z)^b3Y5c>5NR4civ;#<B>3*oCeIy<
zH9K;RO8ftTsf9FU_=KF6%NKL13PhkF6*RsmFD;2m+HHhiQsh!uo0pf$ihNNu!ms8^
z<)Y}&yL08TC<%A~Vc-{Kg_p!PHNGsX1+5@U#&BK{bDGFQKg{HCI_)Z%(P>Z9M)0I`
z?W}xRlnN`NVr<LH(iKtB_=2GF#e%Bwnhbx?tpacKw6s)^#HVFNe6gaHE1D78Y<Wd|
zqavyru!Za$&%*?&5wXd$FpI3Hc}p_n<F$y5dr-Lrvd&Th%F^eM=n|+E=oJ}(o`pWq
z?a(eldmNe}wAZ2Cgk~Mu(?fd+?GtEw4S^N?f=@t;9>M=M<7h4*1jHb;Q;Uoce4ELJ
zgpe4v=rGU`!6#a~Sfqsrv_yrd7_&HHKo5ZK2aK340MKt<R6zy{hK~r9$egwHX+(O}
zHjuBBD#e^uxFXs*GlEj3WD}|}h^gLTUd7af;Za1bqDXm{C1w0!;UCi*zk}iys?wL>
z+xxptKaajg_3yi6S$OxDn(HyVOgEQVuQ4>LqAFE&U8e;kQG#9bX|^>WTL)E!@c1;J
zJ<n!O)%A1wj>l|&6{TGZOEyp1qYOY@8N$UNF5<WVltIcc6mZuf<R%oPCBB?fawWBk
z4KJl&DFK@+UsTPxM(n|48WkfHhkyT>o6$<;nR21LU&|>=qPG9d%8_G7FCP(SiiL|a
z<!joqEX`ag7E3c%4$O$;0?pVO&y=qj(M7ncaE-6>mey9r9<i59FV7?_uU4SAjygdU
zO|&9=^vIq@<Y0q62xU8wY$Y;!BGXD7(Gy4N!FF<@l{~B`54V!1_2lUWyZ!UXKzn#s
zd-BP~<m~&*C#iOFUn6<&rf~1*Li6ZL>myT*kwZ6`d&gdE9(#G6JJcSXxF7RH{T<}<
z`8Qx;WQ6Tg5TH==-DZJhNQ~?^0Hk1KXbU4l{S3-7Ky;~(0a<<21?a2MHCK(Pxi?Lx
z%2dG^?^q^(3cdCdgf0M8^VGaGw(7a$m=ZpP`Lm6x=Bs+Q?DtpME&Bs-QsUO^na%HY
zj~29Bq#-S0*ZXr<1GW>X1*?969tHMVsEXdC`bnc2S_vVPr+G*ITC8h+r`2vls2ZsH
ztHG+TzgFxkMWG-5ltBPsuAB#yc&-edOXRK=v}MlpBAl&%4qGR;=?OA^Ke-xEfSV8%
z4m%Q+%PAr!OT}xPyvP+riJRjNaD~OLaa<`Uh|bWt1Dxr2xPru$m4d8rswS4XNinmO
z!EI_;%yWX6mj$@S>8?djDog5dXCBVkr)j6hIc-_AwuE<LI#X+{X`5E3xtt_$N=~}0
zc1^vYV0or}1V&8Ez#wC|RtjaqqsjQB1TPHt!ix*1UsVFot6*45hYdy*i;D_}`9tJr
zrk7PUBWR0~F9PKwtCA|k8(vKDQrQSNOh5!TCjg4UJY+kTW5F{UVImw+upGECWa`bL
z9Ul^g4cYoKzsgR$#{^#?I_G<WhL!ZZ6@WPYEb|yv>}b^oPykE~qiDPp;q(aCh)g%w
zX(-!~!FOx#)Ebe=20IBQ&^<u5{^V0Sd!Qb=QC<7?UFwU2hugs+sK54a7k$XD2Q&3&
zZ+vHMy5m9d?YHJ`&NT;9^;7M{SSyj%6X|ARs{UMiWV|&prH@QCNA}mh(P2@11ame9
z(+^xIHvGl#6L;gkO8z4G$!K%<Ovj5t+dE-2vHydY-#^m`?rsO8tzhbp!Bk`KtR9^G
zESS3QL7_}L8ow2~8EQvI+tHDBGzm2PwW7QA=<Ww0Zz%lb1nf`QMa0<Soq5d)gSu~~
zgO~sO|L~F`NJlUcZg*eo6e#IH7h3k^0%yJjN?yW7-Se{%)IlzH)pg0iyiMi{aB7Ui
zRc5PM0H<AB_WNLmTkN7ncVVo@4%ERHJOiuy0sXuy;J|AEKtk^dYz}bN4HzA@_bD+|
zH}nO!0q$xzfFM7RXt&PnR=VoP2n~2@enVB(s`d4HUHJMO!B=|a*WKW1nu~)&TYzgX
z&OOG^0Prf1MsN_?YdOd`q$PrYJ?nJg<-=gmMOl{HjfZK!8CH=1iv(R*ErxdyqE=v6
zQkZh9%ek^>xB;ag(;0^*3lfzHTtA453@)&!3EO2=nZfl~S9oiB1A@H9fOS?A1qoh~
z7|(D)Dr9)%#YI)r48Qs1A!#y(9|l8`I{~lyKhdv8s#~F759>0VKuy4f2K3uT&~L9E
z+1rR5YOsf(Bxsk?BdJDYroqlYxjr$gvtxDNjiamQa99_A_pNu{YD6Z!bfHiTfG0Nf
z!IK}&eK_~=vDS%s{lt9p#6s)DIsL@B=811Lqvtz5<V$o0(A1%iG9PAic5j0nU7ZDR
zOs3wuaQniKUvIG6+S|t7o4GyH+%{E@wBtKl@o_yq-i+_5`(Xa~Xk&EWp9ZJuPp=P+
ztj_8~d+X1%M|Z7F>!X?a^XsE~8>2Hna^HRZlV?6X-Z=ct4s0uR-*4h!D>|-6#{m&n
zQ#Zry=&m&vA@{VSV{3=>=w5=4lX`U0#K%DtpC<U22l+TZe7#86_yklQ7dF<YDy4Xr
zAgJV>fmI4J04nE#30{)Rrt2oD50@(zIV-S+C<152&eifeHh&gJ1eR07TxOQW<(8Hd
zaS6g6)gGE(u1J?1R%g5nIWxpI5Z@?V39@5g7Z(e#GT~P<+}Y)V%9TXO1t6v%8&jRZ
zc!xbZ<8m5Imlw%FAY73+NcADNQ1Q(zWt^d>CAFf!?((vth<S~(a&R*_KU0u|%&F7!
zXHRmfSjtISA-}ok)n!o;A&Ba`I2^#-q$q6eL~~Zf@e^Dr9LHJb>_UWB%+qzpUkg|=
z5a~T~NLWWGsJV+pSO*RWhXW~D%Gx|6$KiJbyjq{lPIEGBN4Z*1#my0Eihx0yCinuF
zP%Nw1v^dU;YzE76xi@KEnRqm+>BIIOOrv7I4tIJ7f_No7riaJsuFnJEc50%2>Rym*
zM+WMa@At^$ndG6=2-`QY@t;8jY@F(s8hv*=I2+8>^Xt!j$GSrlo~@75|LzW$&B?7d
zr|i$YIomaK4Q|y!nt?|L$WQGXq8xxJjP1C|RH@Tr$2Q6wa9HA3o`U*A;vcZ$N|Mx?
z5?UF5RQiu{{SwdgEELyKI}mFHl6oN72<#(4+N2(w{9w41p4HQ{_kv#|{rmO6{zl-~
zL;Yv;^qJ3s^MGB!;{<@xg9gj<Qm!QOyy55hk}On;xE|#BH!8WJ*`wgB&WP}QPLgB|
zUSwoR<#`1^KPdPuz;G`X<(y`?3X*07$OE5w-4#gAkdnj&b~QwH3QhotjFgkOhT|j!
zLKE~MB3mL>s^Bb+6x*Sq{sD^bBZyz4J5~ifGS+0q0NEouS2aDHYBH(zP-;!khxRp@
zeeIE*Ys~FnlNoOh46QOZp>0QdbjPZ8dmAvWyQ3XC=Ju}-?phny2lsT`K)_T3sg4)d
zSmfXNFCWx4T*wn6terjk+~K>W4ua38%m)5+&Qpio;q~25blmWT;r{T37uO^z<{n&o
z{jQ)-9N$1t@9bgRFHnv2u@1tOkA?f>YaSGzF+FPd3XmphvRqV+fb&2qstUdVMgTva
zWWe|!c2KZ&8zH*|%<rN~<Zo&M+c<f;QE>QbqzRt};eiV9QW6!FuV{s$nh``2IN;|u
zvxTUaBx^>P47ze4W4_gx%E3xBB6g2yv#P03qDyR)hR56^eswFuE36sl5G^j?ePPrv
z@rRu?jciUi4{iAJsu!W?xG0L+U=bDjGur)kl=_PHQ1k-?#aCe$6wveazo6rP^~G<T
wZ~BtgJ?rd9-PdAAbarGl-ei;4-Jl3M@D+X_e}U@2J1TrYjdb8kvx)5Cze%Oq`2YX_

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/output_processor.cpython-312.pyc b/v1/engine/__pycache__/output_processor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6c9242057ecff0d0d36aa280223e56f2c37eb9df
GIT binary patch
literal 24927
zcmbt-X>c1^eqZAx2!I4g00apTBzO}P4^a|zPzOaxltdk*M&exbPGE{?Nu)qP+W<8~
z4z#OXk8Nsq)+1#dOB1hSr972zJZrC<*yTyeDa%`xWKxMMXo=&-bZN`l@_vZ(3A2<l
zE>}{O-~aUi5NeHQlNRy%-B-W&zu(h;t*LQxc#_udF6{hej{6%5Xpc?xY>t{Z?k<<$
z5~d_KOK)@1v}B$&o5*iTT9&M{R_3=RZA<o9`%=|x6$_h^j#&rt*pk&t&ROS@Yu2^o
zo^>zP%+|1Ud$M-PGwWggs-$<RZnkczeztzeH|tyS&-z)sBN<p~m~CMG>SS=Kaki29
zoyn%9&}?WaJR4qWo^57vu4H7XWwwR+-O1La=xmhvYm#kC?X&I7Uz_Y$>YVLd>YD9Z
z>YnXh>Y42^ac1rWm+-v9CA=S*l~K?3@>UjGhuC^8_9JylW@9YPhcv&IHrvPI0*GtS
z<F>7sV!^+qQd2RL?3m2*!ra9q4}W!HE;~1$oXcclX4x{HT9K{ubD3<+DtnKnm#!uG
z>_R#<y_~(aoRw?NrPIlU)MYj3SA*yIuP^hNtd?m@5G~Ygi8#HGN}%%E3)kjS<JqjR
zaB(@yXJiM3DNVM|2y^qiAP4xjvhZc&<nr<PbSjG&)aOPgXVO>s)WRw+Al#kgQ<t+>
z;+KT<Qv4d6YbZnM@r6Vto)+T#(nUUziCJXtMC$TFia(kbc(t>2r5LrBvitZ#Y9Vvw
zJU^F7r%-*vWNKdEm-tk6E_sY+6{`)`ok?Ftdlxh3g!DY0$)u?_HRt98<W*~<k+R9A
zS-g;)%VuPhIzO%^Qw#>L%@7MJxoR)WU*QwWNnT*#dG&*{msJgHUWDf^$8)o$1UG9=
zm}V^rGjF|QPFUWt&e{@I-p*I8R&gBfAU9!4*e_WVRY<E&*t9g{b|A)Cib>chH{z=i
z?^?0PoN~jKPk1z)O!D*Dw6OY9XB3Yb&O|d=fuCFA6VWZ%Gtq0j5XGlmxW15Bo=Zjr
zWxe#X!k5xQ^vYZ+F_6A=DVj}3vsd^izIA4K2@5Scmsv^8FQlWF`4m=cmXBuVGFJzk
ztmLa#_>|ftWliu&B=%Rfjjs`1;)ToT)dCv0!n3mYY>8#8GE|(+MCY#XbBSo0C993|
z!XV2iyV7j!$FE`l^XjH#^G|*Yew$hL6>=teE6-wiJ~i%YFURG$xSo=r5S3?7wp#No
zGC-(>l()9sQNpgJtZ*Nireals3lXyI*u<Hcak+Z#@@0X)jCqpnO1I@Ibp~bI#C0r7
z*@iEaSix4eX87bKp#`Ng)Te0lAC3=Ym#z(6Tevomox^-(2i{uVvv2R!J^WB|;o{J>
zmF$&tYUp}0xioZrcnDh#J84Lr989OO0S2$F$c}g%J185EueNSk2l}!Z)H3u@>oGVt
zxk6LtM(;kUcTB`z)7YBz-P*$R1-x8O0?l{dxbw#M<7?LMIX97+6FT6?c7e|>3#q9s
zABDCC`zYUGxFW|bQh|!+Ti&cb@%U`ocH%T>DYWNIm}<QgYSE`%kK`8hPgaW4K9q@D
zF_pDp*o&<Gq4jq6mX$FXr1u(+XR)T#1I<SxSgh4TrS}ibT5Dgak6x{$R!V5v(#Pl1
z9b4ya#YF#Nmeuf7IyG=HnV!c+x*P>IiKYP-<_Inh0w)RWXem~$d|Ky1W+9cy&ZXvg
zxq9NQdHxz@6S|Q_wq*FMKvO4M<`M~3OrS6Ep;_p`i&dbmXaQRe+0fQ%=mjegX+y}A
z`5v5`+*6n5z5TcL=Upuy^sT@0$FFa+j}=1EwPWv|F1Wq#ow{}Ey{TJMpSqi$)CBKY
zf7kWC>w`BoYIgpav*51(&9l!e=6%khldGwF@AR$H?@iyDzIS{*@uSp-skP}(-3RqD
z8(sT0YDWKT6@@nZy(o3q<Sg2`aNF9k@0~7IQ7~UKD$w4T$0F7rTBg5(-{${<bDA>&
z@*6LQw@f!oH;0j?!y3H~Zc!tqN>QA)XnzHS)!Wz@zh%B_`8AsjEqqD+rgw)Em7Bz<
zJz$c`M{Cc-m7pHB;q%+UoHKpflrvr6_Hgf>`~%CIrkHuP{RCgOa-wWOWuoa6TTwiL
zIIJc+TLsE`vA#LC0I)Zo<mUuo0DTb#$r*;Tb(sL-y>OWzZHx*m!ucQE-(#gTMSeH@
zemL*xT)UpH9VpZ{-0i#5cX#N{(Bt|J$=#86cN8sLs722t)($*v2oXFhINa|!Z#gAL
zqv&YdaD<+?0=F;yU}3}6Tc~ebJ5%rk)@q6_uBP)JG66LA?f&t7rav@|@3H=<9=^XY
z?}q!_!XS9Ixd!J&i{b_*@>^|R>63lQ62T|aKPWz#0}ZlAhYtED!>8K1<1vL>cD$|h
zjf4?Y@@3z~iNf(zn!e;}+Y5GbDa#~k%N&4%&r}z<8@>}>vlm=-c~_(mYAM^ylDk=S
zH*dIGjJ^Qde=#>9vlK|0cwBbI<4YhKlH_;C<6j3Qqo!2F<B9ZqJkD^jK=_OSC<d04
z)wYA;c9XLg&W9YUoq;DILb2qu;g|U(IPY+uo9#A7(QC1F<vT|<IlPO`T3g$_fqdT~
zF?8r*lNdTx<Ph^oc9UMksKeH9?_hr0m>3@0<Pa$ODdudx|FGD6_~9<G`NT7dR@$Z3
z=JC@XT0Qh^?t)VyC|~Ay3vcCZL=H9~g|{b6G_Q!QQp08nuUJ6l2BsOEq?5u*Q1+<A
zUR<FRGI9+fGN8}na~IP>b}Hr&_Mr-4l$`x=WNUH(bR<CoHi5Dy9-m94(x8-q12UL=
z3zCI{luj^GnMK;20y#7IWoUrE$~_G<X)`7U#vWV83clby%bk52)@G$7<=-+7gkb2|
zYz8PR%|kUu{}Npwt}O}7NW#R(Y0M0WW{VoKV|J?akb|${Z8S$}YBldztY>v^anw{N
z?^Jy*-lh87s9kBNhIc1w`5HCk;cF9Kq}3r-Nw3#)`n0%9oeBRtwpkDFO$7M5L<3)6
z*0-%Ac)sRfg1c0oXne=20qR*FM&F%i(#I6~($R!@zuL2A9`nQIO6h5Y4`A&yTr!u<
zOpp)qjio%7+=&+Syot3)^WBP8Lu|EG@nL$iyiv@;m)3U4nP@{j&53rs*Dvl@kPlsQ
zBs#$EL=rC=TaXWfdFn)-7SJ<2vRj2ijAxsYo!UBINXX7>j0KD%iY<3yjzJP9__yTh
zWLlVG5QUN6vK^E&_*L1fyi0tmT%*P)%&T0VRC!I}a1~lxb|p&esO(*udrK*viKG3w
zCD{#xw{U$f8P6^(@v;p(`ZCBV)Ds731xD1PuxscUqyfk$+p_6v@oTavCA+fx5~I$R
z1%BRFwq%J2VYueo3Vpqm1TceY)=8F}1tFaz$XOB6;0%|uAw+etCuc`U$2z$xgmij4
z=RiouIoUeB47cdk{H3=s&8uN2)TGnwxoU)Tk|XCt$febjb0MVHp7SE4Q`osWgmk((
zSC5cKE61>_P7&v7kf!%HL35)+fLyKM&h}{Ka_%2mK2ql`1y&w8{d$@QA)*7=!)j^J
zLMvR%IyEEE9D{&<iC#hB1YW{PatIF!r^q2LPdH7^8FJ2&Lp{SvRm3Hbpa@eGJ5A0x
za$Y9q6>?sMBiAfoSqc25g(L}pg!2?vms(zm&(D#dLS1=6h~jN*eF+4L<@yXrGHqRg
z#Rv5s^C^`2SM6y<$7r0aec=N6sFjM&W@yDiE>Za?sDkkGYM^}g>ij5S-^?d)ZgRyw
zF5Crj%~J?<vR9;U%?fI*(A17#Z6VxE!Nx*EGo$IE+bI|+sJWhm4ufNm+-;(}?fx#Q
zV?^v2*|eC$PO1vTe#Z!9Z`EtjiU){7bQbFB@v`fwkv64iHMI>r*l@J`bYf~F(EZ@d
zr-AYO%xhE*6-S3Ct+~+Nv1a|$(aP|gT&)YO<SG?R3EMErd3`q^Ks%1@>>R^=IrAbS
zDj%>G)xt`y+K9Etm=heR%<4sbUzbYXaF*!CMV)FarGsZQ|InoE(;Kd=z8AkjZa3Q0
zcWbH68#Rd6cWPODE#mcES{Cm?yuL%r;=QTu7?}${H-0tv)#B&D&x={ocWSA`P4g)Z
zjEiBK@$8tf=M(+~NVHK(-`}Mgzi&!da#pz3oDHrGxf)BUn(tc;#_@}^D=Qv?GpNa)
zbHc64S>QTQy1617f=H=G3c-+y2Pw{+3$82YhU?DNz^%#E!mZ7D;CgaixHL=AilPW2
zr7mZOTc4|f>&rR5Z~6@|d$GV&%q;v9<PhTI{6B(;t?-LM$4aO{G-Rv}cyJDKZa_5!
zZ)Rj?8D3?elfH=TW%A_||0dyeLg@m5W!YK6yA@zauDzy+%hh_>NMtvo0MsgEE3pt|
zP?-VoI@vOx%#=+51KlN<PQbSe_{~v}^|Jy}Zk>V*LHtUP7*${*QNgQ`EikciwBJRR
z%%1~G0X8;rt=&?~h}bfcca5x#!72FKCEvg!-$0=`db_$1ib<gnF*LGv`bpaksqLuP
zcC--cC^WV{vsv0}^X`^s4lX<_g~r9uxSkNMT{~TL0E9`c`^46Ld3STc-y!*9qCd7a
zQSi1(-Zs(OwuS;~?YB-pZR<j1#MYfIw1VkIiAKunr(6{23rW71=!@ljBYF1-+(M{L
z3T+od+ojL}F?3+<^iMtYKj#8oXCc@k1!Iqbv7!Z`p9b5CHoQNFV5YZN1s^0kgCo+w
zxHvGLA2@rvO7eD!-cHFId*qGfFTDEqMHgkS<(fK+9`boPf2deT1?#z%E-5ndC^Ay?
zQP|Ig+ojOZqtH+>Ksg(@=#FBLe2rAPiF_fhWw00~Uo+=xEJn!J!g;*KR`NwDUmJYI
zb`Ild8hF$+Q0$<TPRiXyzHTlUE%uPFmy7flW0ac<R67-vP($ljSCW)gs=}qoHJ6wU
z1S_4CAhIh%l%X1^zj~ciGO5fZUQk!|yiTrRk?4rze=CT@lHit2H$dVUA(X66AQ}Ni
zl9}JA%GooPT$Ny2A$e4JOK6Oqgz4%r?12A(R0Gta0%Ln-66rd@r<7!+&D2U}G+QF^
z4C^sMB^uFYT=ObgGw$)#uc1X{Jf)84zOp$nKvUFP;e_#6jrwTZw*(ggvi|=Ya~a9b
z86r*~ly7yQeS(t}50UkY!HP%(b7pN$FPn1qk5q=?0?i}weiaYM2B1YP*A0;LMyT$l
zHCKJvbi<jVz8IjwMG_ZOJm_DwMvi<9y}04H;lvtts$b1`L{2a=wvSZu2Z+ov^|wUT
zD+Ibn0ntR*$j;-FQ{!ji(^F?&SLjzpcE3SM7LekySJ{T84Jx!zJ%kBmU%U(jsZtd+
zQbRZDCT?Ik=XE8nnwc>NvWw(ps!S&4QV8+|YJ_&FaFv`SIZJS4hXM|Gu(t4lqfDog
zD+*%np!6!Wq703$48<_yBKwx+uJRhvRNGwD)O3t}9yG}D398E6Qt%C6Y1_Ir@9ST4
z6ar0Bpi2yNZNx^U*o26`z{HyKr=H;Zr=I$Pkl;(MR?*dZzwME$0|Fn(*CF~k^1h+G
zdk8K7bX^mR?h}1|>vNBMLr;7Sx3f~PM-28z!M$Q|?_=M-kB><QE{OQ^U0|7eL|@O(
zEhc|2NbJVuryif=X%#)K8y%qSN5ziON1jonv~@|*?P7Gh6df0%<3L4{f1BvvmiG@7
zE#|iR+cnSZ+_u5>gfw_a96TfqPK$%nkNeKuwr+TPAgsC@zY||`7F<nvR~Kt_o9NqC
z@P_Wq0DFj$kq4>Ak%@fs@lPCJCH%ET&RkOqd|BTh)%A;Y{p)XheD;(5kLzAtvy&cU
z>=y8Hdm$LPedX4Pr~TW1H2vYU)PF+kKS5O<M->CLqC2*B>R#3TMxZ%=xDX7pk@bk4
zo`So9;`7@MA|qiAvx+%{6?_-rO*r#9$BqDfc-pL+UsJh<go*a+4O^CW0DE$_5@6G|
zmT)Ai*HYU02?Zo8RJ0+;SAcrC`hX+~M&KQ>1}GzE0mrSj%z%pl|DYlcLoHfX2h2u*
zkAdhgS~jTF2pE2(&d?2es^JBt40r;DQVqrigjsd73-uUr2u%soWmDOl8|KnL@G55L
zMpZVfc8_B^MFS225*vHARm+u)>b`c(M{5D!S4H*&w9!8UWQ^EOtxW0tL+eK>rwX8I
zn_}=(NFzOFQ-Ba#lf=9$lr*hQs1h0Da9WF%J({dT6{M9`G6Qk~m6xlQpj}*;&p<{o
zKqZNw5WcR}p-A*uLyXjBL^myc2A^f$HIkpH5*4kL93?Y}3yoKi!q8U}j*wGD4yXYR
za_}DVvrg-KOaZ^{OA7)dhzgJuScPYhH$$D%pshm3XAn~XS`E;J1$#2HO#!X7Tx09K
zuisf+bCVV%`N7!@*A9Y+Z+`#4{ozNx&b+%b@9P9)m3+OTuQ%`8m3Qxg`^48%2zM14
zI}7dIQu|)9eQyEauWh&3w!6^O_RM7`0A&Y&s^z?X$<r-*y7QhLdB+a81p?Ax(G}ik
z-7dB67F%~ea_xTF(yp)+Qp=>+GWodW^sVW#xCyakVr?2gwmB+=w~OKJc?e%z;k>J3
z-758tioK)x-s6R6+r7*O7uNk!Y`+-W|G4Xb*m?k5!OuL+g<u<C>fQZ!_7@^xQno$u
zH~zrC(K0AD4Lt}x_U|hMB8ArB0(D}S*s=@2`|hbbr=Izo1pJ&D*{n!X$gXH!Me~?&
zj-xNjpx=)%sV~yN>F`9|1+1j%sA-U(fK;ZvQC_>6C#&yuBQlp@&JBWr<<+YGMOva2
z4|bqU+mC=GwhTd@iaZoFf?<&I7%P{Jq%BoBn@|Vx-IJ>-lir#%7~_KN9!SxutS)6n
z-3BrhkX9y=3>!(Fj3g#GtKiBK*kMlzw=nstRe;0;@+R7ScrKt1<)N4vhBdNHk=R?w
z>P)zaY_da>!OQjY%S+2iXr!+5aW%3;GsS8YF{%-W@G~_fYE*Y~oYgL%cHtdz7^q=D
zVUmKsO3pDj8hE%#5m(7!)EPlK*~ToNgkPaps>A>;EF*fgV+((8OdJjpXec5#xO_L;
zxkTsWJ=^k*ZEy=j`E1?GzNki-VV`@WqBpwHIU;rL7xCxazh=XhB>+IxNS<AyXV-(*
zK3;z8nOL)a=J6LAo2ABHv9VWb+$T2fTbo2~kWD@!&LrPX(YJHW@tMne=e0tx^#kAi
z*MG0&z9%0Y&Ifm_o&1@n6>4{>zEiC4EYt-G4XtbscPJ1=YMm5YCqLW1_Xi#KmNr8D
zA16NR8M^0s=5f%5c2qk7n0Akrf{ZQRVoF3Cnr&)g8SZjrgp3J`1@lA?5E2%PNw$&|
zC4}$<k|Difpq#c-xru?0MT8M_-b%NhrB6UQg_|6tB;LsV!41!F-Z9L22%chUN{Avg
z)>@%BW$Q#Bo=UbrrK2dL3CWONN0`3?!%98{8%2R=2}O2gyOd1NWtsL_wqAs=iYc#U
z7c&P1CcKhP2t?@!v^j-&a%gK}v<vfDf#|1_o>o|;AX~Z&X%Z?DXx*`4SL$nzQvx}&
z_+@?wkoXQ)?BrS@BWf;m_I}<oXzP6H4;F2BV@(9w?;jIEeOFP?!8L}9)#P(>{@^|T
zozbF;LT;|1r&vQi5c&Swi961sheBR1+<Gtbe(Zii4D}W3D5{=ojNHxL$ssD(SM*Vo
zpNkAWu!_yQiUA5Xa1H(I2{8c43<VpxaLaw``+dbG3Wc~}b1_W5X3pEaZWTTK#Rvsk
zuzHKF<co5lNU@E4?VLAoJ9{fv?4VF5=l0z8-x@7;QK*}12;ZBz^R-PHZ}FE+oV~7S
z9<@22`dW)NyfO6pj$#%09NL(wDdg0r#6>|jO-T*;fNs?ec_;|Zsj*l`zIy7Ak9>a4
z+4%DSe47@nz2Y%5H?r^Zntf<G7`}J(&Pve+Kbmi9`Ca$>?)zD>aa*y9qA>fN%CuEe
z(8)D4-P?KR_4|JCWJMQ6xw%N&ec%20`;G5Ut<Q+f!$qnWJ#z;0O#@=}0H(Qm*QSRe
z53_b%F|<ox8*dtNL%yL~tm|3tT)!dq9Te*h7ON=5!TEy4YVtXsYl5mk%UTngH57iu
z6rs6fTK}RAepIgYzKVj5ExoU%C@1F(ZMw*J$ZFg1v@t^CFWTToVQ27J6?|+f3bcG_
zPw0;(LE1db$bfRYT&T07WSa}~0cMwb$)2!5JzbTszr(>a9mWEx9d31^ns>tQB-`7B
zi+A%igvF2pihA-v3GGIjM>R@lgK2;_;emNT4O5JJq3&0FbudV%hvHueRV8YmTKAz%
zDD%;q_Jkib`dQrpKA`4m;2X63d=M(}Ao4dR8u=zA7X4~M+aV~){fRIihGBu8AN4yD
z%}8x#DU`#YUgU`&PlV-Z;ae)(#k{m4y>+D~)**YQx0;l!4xUqV-_erQwvr_S^J3Tz
zs|Zew8&o9d7cgl|%Cd!I)1muYNCwG9>RI@dhZvm~DY6$Jiz+FyS;(rDE2*tY1P5~K
zgd0=ssze9OW;g|qI}}+y(|F9FD!Eor6bwvH5A$$O$)14p4jF;In(ShV1X8ski=7$C
z3o)yLdRSfhz%$fAViXi6A%@UuW5wL+I?z`M{TxCTPylu=1U(|OovPBabx_eR?%7B0
zaADtm7Jd@$Uw{2^cn<{{3tcf7>bewss$xmhrr=VBPx}$rf=>;Jx)O$Evjp=_MjQPm
z3V&!~qs&n4%9!LZqpP5fUQTJUDox^)S>0AS)-TC?k%sR>#W%Spp8DInBwx4a>wfI%
z$vb+KZNCkPTkP-jrL+SnUwvST*qRX#3P<}siVOc7PWixsSLQN?gX*aq)C)55G$0ZM
zR1RppO=M&p8<lM0w-7(HV%W!`{=A5zS)?2l&qr$b8282?$B{JXhWUmiXEEYvRIbM`
zZBgGQr3P|3*=6G1-EM`AHLMJK0TZsxk<ELQ7X%z8034W0CiN2oy)kxXAOo{dt3ay<
zggvZVGKw;gKAE;@{skqP;)?kKzjf0v>4DNroHeuBS~>q<{L3?3p?M!im24k1MWn`U
zz@bv(u-G{KSB*Pwom?AVTQ2w-i6zbZ`tt5RxCM8~czFC%cgyECu4$L@fm|9;Am+22
zg(PZ=eX4(j*t^_iOnA<8jJs`m<0K{@MmUCSox!KeSrWPlJeW}Hw|*aGX(3cRhMxu^
z9V50>V=-Y%Y&K*=b;B3ruo^L&H%;$eLJASY70+cVp$p<li8q5KX3~h2Oqdd8i2u|%
zB!)1ni`R^VW(i^st(v$HCJ?ra>D>p$y<OCWWu^Xr(Z*V!2g~-qVNMN1Xp6e|Ovy=Z
zPM;gJX-Av?GiP6nmeMt!uqWH0`HgdE?L#!kEp};nOYdA&Sq}3eaW555DF?F(HyXh|
zvZ72_k?)?iVjYx(c+hiSTL$-JPw>|l=6Q(oUZjGE`IWtEfrw4`Ep$%yYWqQh_rfWP
zw$EL=#-|d>?q)0r)2)1$(rnOLCQ=FuV;es*eSSuu{V)78a&}XW+W9LB$%KwMn2b)Y
zWtOUXq-+QKjwUpg`~xcJ*Lp)o&NSmzCd`wok)&Yq5@Js)=jrSUVwatIvl#>C{SVQ=
zYD*=!+1jZzL7PKx0BxW`Z_hiLpM<*BPB8{s0X#!u<In@=$HyKwj;~D?JdLnjhoW3z
z*(L9==pBC0_wj;s=q2&cOB>$v1yXKr6TREkPi=VjJoPo-9lJ9o`UVT#LsIuqvHNJD
zyBAG0cd6pI@ZM(@u6N*Hzx^-YelYy;%b)ffeHv+d(!E3K-Ya(R1y5JlHdOR+J;zL&
zoU^9^LbX7{?Wxb{1@0=)a(DX9wB+v*{XOfopZfO{!mUzxNDL22;hkc5=Yvy^!(;in
zvD*z|-PluK6Qq%ke7#TFy6#_+y7!CS`yaO*xP6L=Aa{vvyB^FwZaa*yzgO}PiGGZG
z!@r-6R#Dpbir(J!(1V%3@{SfqxNvuIH|OolJ31Jsol@*hPGi~yfKb(t?mT>3^xRHF
zFu05JoP;7xMsOCQHPU>S!)p|y=Q<~NN`iQp4%&Yk=0Crq@A+?=$^?F@_**HdxTuwS
zQ1O6rH8b%#i2@DO4~R7o(g7M07QsWx1LOYY><5sZvj`zF>@<SAK=Q1Ptqzr1!9SQP
zuDZ@Egl%*o5nZhVnr4U5qQY`21@oIh>?lUKGP56p=`Y#5XwrR#&z-N#C71aLLjH^=
zQv?-TNnp0ewH^Dy`cI&*!XLqTeizCvoHo*6z-sup-B?PzLtF88Pzko8murYffgUl?
zLyEn?J-^h{FXGSD|D?Y8-rMV=>;3uNC-RY#kLxG%?#Z9|qmqAE^bZ#rLU&VlQUxgG
zd`%>}4)ql3gIX*^;LY2`=IzBgF0f;hs}4BVs=?K7+qGtu9AVKBzIRG=^nB(D6h@D&
z9h2Nq(H*@XQiSu5+<R~^#jTtKkbTNAJ{+zUcvT{q!NFU0woi#9+hOn+OV?x%$R_2y
zmSR7=g`LugkSP!hj0mxU5V0{r#QX-3H*Ex?<-t&r!S*mZs8m8iHyk+!2!lZ^L?b%U
zflY^PpsC`4vg}602@D48Mw{pc6!}J*=Y|XM2HWR`8}SB&2rLloM*6{=qhyB+i$6!X
z9rDe$at<STwn{5Ij0hAxO($cp`qameAgRu|vN{Skvg{*mf<_?SsD-t1{g>y*%+z8Q
z412fOruC)thG_?O2|f5Wjzyh(QR2vjeKu?hbFe8aBfLDqKIHB!<<flLYBr8HBxO9M
zwo`Q=<A@)wcyeWVa;}?ZkS+;hu(-Ibq9}r;b;?FZ{BFeq%TceeBj;TNk5u_&y3x}1
z%2;S(j9T&<?Wu%rNy}C~(Kr=PrY>hQ9Jfvgq9nICQc(;+7{<7;vs7Y_<s!<d;>pmA
z{U6k@uOb0K>`g~`4Y$qj)?2ykek~_yrb^^Fh(+sM0L?iyO{XRUqJ!ek$$>`oY{M~}
zOJBnIP9A5(aoizF2hE|Y!LjAbdZrz*Xz5759=j7oftgSe^ddW)p5(X6mZIs4i#P$F
zDK$sE>x)jZBjh-7zJNpJQFh`Y+Di>DXXY;R(Ki>eSEA!|r2Wj9voYoTyEd#SJHbeU
zQjw&BVzibN0T(4JwW3nJze*K!h@PxiqZe1$A$pwO7*MIw=b2&U1ijYw){dvrFX%Zs
ztxWiHU004`W5{%Niw@EojzK-QPpwW(&rC#*PoIw-n|Nj7%=Ed5^A}28x{ijTuM9_V
z1Hi%(?pnyO@!+t*MI6{i<;qcXe9ZJU9R0kGNSc>R%gLlZB^T$i^H)d|0F?*MutYN}
z88H1UGoAIv*FmIKe_}8?a|K@vf2c^WgN&R|Yigbjo*`u}8_irvFDDbMWu@Wg7GT*J
zu^3j;%h42%s|V;}gY+`Ggd?iLN|aBs3njEG2Uu_Wqlt8MAsZ#bTfGmoViu@zUTO3q
zpG?20+)Tix@i>%Chp}^naX7IS#e9IMB88u6iZ5S-W{OuZwsJ#;!h5`s(_(fI0;y$6
zT1?rlRHJHtF3e1ylk3%*nVqm&C*!w>P*(V=-zVQXIVZ{a19BLz#nhHzgTCp!++E~_
z9d?>s{((i!&i2LX6zS&2RMEd9=iifam>e3vTwhMPD1D-90=^D~JtOO0IB3<v6*k?}
z*1w?&smottGR*`+bPh`+n+yd)<rzK##>?yisRO!jFL%N;X<G9XI=a?sp0vX@xup>3
zkperQa9TTF$+X!YH||kcw&+uDBgC>bb&|VJboUj!P5JOZe(2c4G!Bw8bFj#e)O<i}
zKCpJS0B_`w7&){yRcId6V?+H?Xs;OB3+w2%ol@IzvF$iD-*-Ujn-cq`)+RUHJ%#RV
z^zL}-iR3+9g<w<)_KU&(d~k2xyB98t*(nBh=7VE-?-<;tEj?1pPO)XD)G{izj28TD
z_YeN@8EMyqh`){rSdq2X-*%CmS?iO|?NaB6*g10hY@vPNHragFg(Ppk=<S!hV<M_M
ze15}w0mE$HCbb<B+YS}Hk%G5{x#5DhebZ%cC+iY#?b<ik3%VtLg!t3EZ}2I6TUkj|
z6zG)veWJf_{m_P=EcLvRN1k5B4|a&&4$0didVALG8{VO(k!~q6EJlWJJ3sS9?k`H+
zV~@JWm?>W`6p)g?U-b8{&q@PF#DOCZk8SuT3&EHa-0>(#>Y+fp<fm-w4IBRL2-gK9
z?{?9<z2J}ByRlB6sIDH-ur1mDoBPSc1Rc$H?*6#?;n-jKFBDIhxsKh>PMJAx7c5jj
z^TS%6wAB{P{KS*dE`?D^@N&YLP%`~CN8$V;BHMDYs-}}LD?*kA4SZ~ESJQC+C)y*_
z2Tir`3H+<w3g%MrbXpiRuEd9e8KPKm`G>=;9EX=2L!x8of#*}lVaAFJKSny+x?8vn
zQmC+@{xN){yfLDJH0iSXHe|w;v=SR`T$7OnAx^kL|4n<Eo*UM3TSOzCLeFU{GrBe#
zaTDl+0WYCb<1Y{=ERxQm;z^jZel5y~r-03*6_ge@HhM;g`8S+Na9b85z5_J3uG&)S
zAeYSE!C5(sOsx^C^Bol>oJeaa#c4j{dRQASq(!xSrMGcCtORi=#w9|f@|us8sL53s
zaVJ@w2U+aa@|WIdrMDE)eA*WT&HRtm*{78$y-VikU!lAK$B}dX0__`cCE(apVDlB)
zH{f0{CkA}TFHq;M(p+f1oa+}TZ@{JG+`mBiy;`fKH+a*pJ|_f~D<14Nl8#k8Wp$bt
z4^<>0DD?fK>*w(ErO=i^U0d2Z@_ebU(AKf%OQ9`;y0)}+{P|K}p)I1xDju|DP}i2W
zPE`~^@GG=+=J`@+%b>1OTcju|snBr064${EL!0}i*~GmLNe9KeWqF;$MK;!{%Tz!A
zmw!19MSgNglPuzrIxF2YCRgDOG_nnpo#0*toS=prF4n_Lg#{vxh3}B_5;>$AlWUY)
z@`$<Ng$z60Ezl5{>9HJ8DuF6_ep#UF>Ean&w<nOnifq3yasHKw^Rllb-zy3I+#1D!
z6W$rQn(>~@TdUY4D@VwXRD&A?wQKh%h;!cYIqiBs!A%XdpO~16k59(WjL%F=9eq7M
zGkJC*J~JIZK6(Da3_PbNret4vwJ@;cQ}ZiweMP~E9TReMMI5Vaaw`7P%M&k8$RRcL
z<qP8{CgSJLPoF)fws1ji*^+h?NoOWzCa0&A9$b(EbgEswZw`!~dUjpzd_jX}r*Zch
znwU5~dFG7V@uj(rO&mpTx%*2qO->!3IFAXMkn7ZZ=O-{KOwr^qg}-~5X47Ah2%ao{
zjvd{Xn<|pdj=!c3PC3i3&5l;@%*0tR;NvqdpPyhS{$+1P1yiwFh4cC`ttb+ZGtNtH
zD!*X@w_2pq@eGfJo4^84)}ywHwc9L|s~U0n94)^aG!6&9gI8{-aA~WHuB&jXmkp>%
z2~?X<^VKe-aP$x>LkVX{B1_D0=~3)l{sQr<p-N)3#8Wl^cxV0u4j3}nx;DM{&0F8h
zd;0Q@KDY%>OPSyI-rKj{&clS=0W0?IpLO=ESO3WKp-1XHCiWhCm=SwVJ?=c6ceFie
z9LNtImIkN9!KufM)8OqI4;9=2$=xlwyVt9g>+Qe`H92v|lbx%rfA5!W{gPBODAo)X
z+)YpFn(nsVX$9|82yQP{bG1XyI9n~5q}A5Ly!CGSPI~P`A=oViN5$ai$FE8UUlQ>b
zd}-|@JJvcVh6W!5rQstY{z6B<;NhTYcvuV%KR6-nIw|5Wd=fWI(Gl1oF*Nj`N7`{x
z#9!zn@<uwP$PO{G<H4)a$fStB$Rrp?y2YSH#2rcA7Rfs<ddCaiprRK9bHW%-;zcRP
z556I_9u`{<KkVIb(|u{B*i&NbsZUOCxL?~6ds1vY`N=?eENkPS=sn2V7!bV!m2I#b
zM@8?^hhJ0pU4<3aJ9tF&9(j1$Flj>cPCWdEl0=uZmAW@3wvIh)lEz;a$6wxXzXH|h
zd*A%dHyL->E_&NPI3#r(7dwuBQvKgO|HZT6eGM5TPwbH=re}HL2jh1@^dBJo>1*Pl
z*ECMg+a!59AE}B~s*L44DEbe6ydsUwh+{LQobSE;owxNGsnH{1$B~DV|M~P^oZj%B
z`{E4~mckdb9zG}MA2I~If82E{dbZZ`m$kOD!Ky6>vPfgdSfq#WfJL(2r1Pd0l^HVB
zRjO%LBeNc+RWun{gFx?Tzyug;Lm?1$pgR>0@;WP`5Y&wG328D5Fx=|)HN*>lPR=Yj
zuaomz<Pchh^#B<zDBy_!DqTdBAyZ`r9u&y%X9%vwDj|b`JW7!vy-a}O3d#Ub)N*bd
zI%&t{eNR1|c@K`EY=_I%OgZ#$1SLnG=zu{_OTpd7KtPA+?qD8L$H7B41hNf5w~(=f
zR?*%1cOKZLE4=Sjw77-sB~=&uroRTZ6W`RrzNz^ud{c|@H!Wj)U-T6XzL!Su7=Jh8
zFAs}(D|(NIsSJo7sCbMld{CDGD~#CsioytLy}}iB0WH;#=`|U$vKHfh8!@pZ<p;Fd
zu>QBQ0~yL~I4}a!uOH4R*jTs!$N-Dd3YMG8MW>p`Q=<SYNH<o8vdBL~S%m<g<*r!z
zH{$kTT;9aTpR0ywW#K1qH1jrwwrNc<+`ZMjO?Zg-=j|j7c7)c>RoWB(7Nr>SEbWQr
zyr(zs=!I*zCw7UBT@Y+NX*mYbrR41sy?yJGQvXr0|0szFYk?FYNQ~?eBYRYgSFGWx
zN1kz2II-d7s%tbkQA~8i)?*Ux!|OZruv$8NK|Fk6!!h$SM?i86iVmPtU|pv89(u6v
zPsjdfOxpRHxbwBYvuFodaabdb?&ClOv%bWgBU4kcXyuuT1IVHrf%pybF`}FFg~D%>
zLt1|2g1_G*AMH)$6vh$q{UJFdmSLYtx#;gtDM+hV_#QcAm&rui!ha+m8IK8{kV8C;
zKm?3Hu!_mu**B^@NAXW7m7E!Xgv_77d58PVx);-U&h(P$b4#_Yuh7(0WbYljmG|VC
zO$z_K!DPdEW|OUd-M`7<RkYh|t@oQYIlPLsQ5?VsMDESsd8259A2m8_*XD0EZB|j}
zjEU>tUWl|5hIW2l(`cJ8J*{gm+Q@^9>fwtj7If$*6{=a-Nk<i2%nPDRJ*&W~pc4YM
zn;w=l$_?!-43B(XeaQq1{zzNC9i++5qK$%RA=-66`+lxi#exnl)Vtm(HVqb8ZnEHS
z-E^^}a~6|r-1H#zFe~mpO@kaq{|?$-GCghXFWSh1%KXt{74w!=#KNekcGJbY-!S><
zBmquk;EghofnpW;U~8pxrJ6!cttXo<3ib!pGI*nme)52VdRxz`5mW#^eaBe8(21Aq
znO82^raKP@=Pu5(#f2N+w9DH0j6eVthTkjKNM}J9P9Q`qe3zo#bWii3g1$0kr*eoa
zP;Srlvm6yy-zc|9D}{-Gr<w^?Gfq(;LR;ZB+gM@bNM)di#0@sEQO+(TGlTj~Q*6`7
zPL_`)DHo2_vWV-$gNmj`*$Qlrkfc%$ZA~65yNE|Qu@tPxpq<ELhnnPQMJnBchpWny
zac!6i&<tqV)Wg1mOhK${#wHpgNduM57$M&nIc!I=?RJoYedP4QksSw=Ye5eQVDo|A
zun&J7PSIjAnKm7q$@3Gg^Cw)}UvtfW!@0k(+DvBbFq8T3+?;9WUvuXkbLW1-jsAo?
z_}APSkvjv=Pq-1pd|}pde&OA2YWSRkQ@n)#BEa>9*=&m7M7}A413YF|k%C`1-?W%^
Ve9n>kMYbwsH93FIk;^*ze*rSu=s*Af

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/parallel_sampling.cpython-312.pyc b/v1/engine/__pycache__/parallel_sampling.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3efc7f313395c76a520015a45c3a5f2d2959e109
GIT binary patch
literal 5376
zcmbUlOKcm*b(Xs%SL8~hewHjz*6JHm7DXwR<5)42IFjueGGy0s(3UN*qPatvGPz`S
zS8k-rjf19uf);4fiwy(?)KeVfVxX7w)&e~g=!I)3AhBp00Zk9NF;R;GJ@vg=E-A5e
zfo3GkzM1!%&-)Gk)Y=*#(6YkMGQaO4<Zn1|n@|M~e*nNEq7s$Mk{n484q;E0%Xt!>
z9G~FXn9mA1Z^Fx9A?wTe6aJi-5ZTz9ZOH`^0giacRigUdC93}uk0U)1+!UiNU*aIj
z*+ME`*o=B?@kYVS<h5iLW|D>pnD9bASIAPFy|G~yHcX&uzeV5NpoZy8EM+v+Zd*wL
zSw>sCnbeax0~p(`nN&|A--?+ujg+I->07FULs%N@kdg$al7#0C*lB{N0`;n%i$Fqs
z0Pzg+Q{g1ecvXRoMcPswd)YVu7@xzV`nUXyQpB<9p@Pa&pW34O(>^uuu8;_-K^jn7
zs4p$35{#wlxD_<}(jJrxm{!2F(GbuD(jK+#UEvd$$Ce1IA&?oSEr3HFcP;H{p7HwB
zcHr$$I~Zptz@4;9?V{Z(LA=^cPcWQMJ#j>8&!#`xW4FTjQO&F#@YYAyv~+$_HsA!Q
zJT4dXe2N+d9J8Fx>v93kI-8|g*{B}AtUDJo6$r@CR?NIkkqRWbDEZo=oYd4h3kt~@
zQ;gwCGL^|@n6fphvFig>sk@o1TH~+jI?8AVs+yIIYKL4B#UZiVm;|LtV%Y6@W=TqN
zZB3_ZNm!+QGM9Wy(Kd35t2eJHX8s=4jAc8LN~Z2oRdJ*=3is*M+|acY&o0O5(1UP%
z_*dv2k!^09C=LetZ4ZpV?wn?NUC6y(z}94Kd)7r4U;moScX7Nf)n{Gk-f2SgQ)b8=
zn_(AHiR*o997yhP=j-1sSdGT55m-Y_hl;BYx-=@{YFal*)U&LkOGjIEoYh;Qvw4G>
zdK*H)>QUbVC)L3%h#k0cZTZr5<;L>$@9DUA-G{TBrsINjT&vy=U6i*4gJ#opsRo`3
zSk=F;#?4$IUdR+;W>R0HX6&tv^A}#ecb>+xnLF{qrg=B7#qVdcx%mB=IMvoN8jYhR
zps6bE^-UEvZBbD&TE<kAtrIton*EeJKMWd;b?6?Fa^L8V@bgf4aB4@`7b9Ps8v2kT
z)L-$DcDWQjV};M`$6qVOm#p~Gv+&YCc+%Ff-!Z(qxYrsjN)u0%Qf%Ie%|Dao5868`
ze$vvqFP^Fd$ix{GGhUvY-Vr_%qlci4*j_j;`c|qMD{+e16SJv5zyNHD;JO;y`caN5
z@&VY}x*OAvFz8bA`4wW~MX}ag%O_RqeZYfl@Jdbgw&!8XHV^huTg5iNg7(gBfi$43
zSv}52J;_@zaXFpNq%sg8vYT@Lj+xA8Rfk`7ud3?Ct4>hCz;Z1uH)5v@O4U_4W5`<G
zlvkJY8eNsmyHsO=1(_&#aYHP@h>+2#At&VxEdx14PGx~n&Zlc!U^p1P8r7}JKg^hS
z>wKua8ud`uC4J49tI3dMcAaz1hjGF#SGCpS%Q5O3yv1V5F%b(a3jX&xG8#l@Ek&IO
zipsylV~%<qR|F@bD)T5Etw--coS^q29Kmi7I=j1RY%}m?QKF7{!|sFNXf}_6Tc;Zw
z=(&_}kYs4kJtP&Ggu6<i5i2xO3Z1q>r+0*MFjNXoJ_}ABboP`wXRXfJqBQ%3Ji2?k
zG<LxnyRawE6~%$_@Cfw#;vkUkTs)Y*ytBA3#VR5Rj}^ty3Qs1co_ary6s4hkX}la7
zg-N|1R37su+#B<!hX7!V{t&W%b9?`g{EBB@RI_VfskZf6{B~zB!n+>Av1q?u^QR*;
zoJ*7Tpf7Cw<|;Lh+rx8HWzDd@nVB82(<XLyx|$|IJ0$*UVz0VjR5mxD7^~^GIR$Kq
z#eEj-`J}4qL$JvxU$-z@s-<7Z&TbTUOscJJCmE<Twj#&P=s0#61RD#`f$4ORe))0F
zF1I`SQT*5O;?Rr5p0hhrS(Hj*za{pU#6e3O+?DplSUJ@H_;zXFqBU^w(>L}87K)*T
zqPXDLLoFVGP=uL1Oabu!#Mc$_F}ED`Fn4p@i({KNP@>~HY<eqnd~@3O0dGL@4f{C=
zb-Io)W`)3t$JhexaP8=@-o@gkJyolR6(_eIt2}TAY!_Rg9cp*(0S}q}=stk}n_F$@
zlUSWJ%NzG0Ks3iRwfUMob42r~9?(nHF|{|eZ&1&ihbSd(^SWmZByW4xxCerE7OSXr
zG`fZcyRFqbbre?O&G*8j2Aj)zAT;NZ$OA86n$%C*!nQY!xs6}GayuHZ#WWNc1{9A@
zH3YR{E`OgorqT^-VkMD&0wGrZu!xNQ6!kd{6h+hoboM|ptJ9>qskkB)D5IgK#p08y
zw%;)ZL!Sg<0}mbpw;Q^H=t)(It&_*?@CXWvRO7eMfrkZ1d=~7m9E_BLV^(l%Klnm9
zG`Krk8hOcr|IkZi2;SilD?CyPPgvoJ;+a=I3tt4bnRCT(>;MD#pcNb}1<zQ)Bb8Bb
z=_`>8%zbdD_}aINuikp^D%4M}-sE-`OVY3<4Hrj1!JGyE(ktbNT#Ce>MdBaad3w8a
zZpk{gv~%^Kr@z!QVf9QDJ12I;a;WncZ@>5UuK!7IF*H*YXB@ZbZd%DV5C1n|yN`%j
zbCKt{gIhX7c~hrt>NqPzhY}oOy3NC@f|axo9$3bm!2`xD;$F-^{*FQQ`?UGnW9!WE
ztNNeBKSJ54_#ydobh0cB;ay#_MlK!lo{0b}GU2Q-<HoE|tSH8uvkDYgg@dmnJCt$X
z%nCmFjOL+bA9P@Vd<P3ifE$~}v9LqlX$L$8qlQ*bkC;@M6rq6xhQ|4Au4w>qAMZz4
z>JlO0a_fO3s4BSLjEi?uFh@4w51%rpfF67gt0a9EJC@f@J@<8};ECD3WT8OeSBO@v
znkd;cq{ee7;w9|x=54==$Nkp5v)8@Xnrl~c@YZ<q`){Os2gDg!=)i9!G7>8ezx@8h
zqsd=Rewy6z9|XIL!J+c#RB80OHF~`q9s`3IYlG?toK-qe3=ZrjN@MfS#^%dXe@Oz*
zn=46|Ea_75_3!LU-({0gONy4HX-k@Z+Vh!oq2eXuuQKzA_Tno_OXjGe*a1b!<<*TW
z!jhuAxsl9PF@8l+^C_6-4O6#63dAlb)7h^xhN9>qEM3P;Xbag4P_QQ<pV3Uc4>3cC
z@v_oGA4gb(A0i4=H#gZu*}|QCKC4e7Dc+eaq48!?ISMa9RmZc|@%nYl0v{8$ZdQKi
z_^M?chFoI^{Q9TlE05q6;S}4uesZJSJ+dc^fY)^QKIT98)}9anxHnRaOj<p$Js}1o
z87PL~J2LZh)*3#)C!DVcLGR4&*$RQrr>EHGkBf&ms`L$b#|}ar6)${&C(wK7M`%9i
zUF3EbkaUrIa{1}V(;pXKylhQgL9Ruv(nox46%XeffB)>)1U`qnJ5llVd0#x}8>o2U
z3lbxf6+c2E350fx_ZN#NqgL0%lf`0a+G?3OY(d=1f_Lh7XAcQ{V4J><iYMfqD|ba6
zD^^#m!o%R;<O>xqeA)KC_5*|(JHA3f=k)O4mZK7TQrJFovj9H{IR}m9ur1;1d&<p7
z>^8gDR6{-Kq(8iUyPM(f&rHFs>6w%<#R8CXZ|s_`0ag9#Z1JLFYV$glg&2{IVdyG6
i$8rA@33uXiGW2&6{hYl17c%`X-(?Rs_cg(u$@mYQ)ba}e

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/processor.cpython-312.pyc b/v1/engine/__pycache__/processor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..535e2fde0a07fff6e0431f579431fc6c8317ec73
GIT binary patch
literal 22250
zcmb_^dvIIVncu~W1ObqEk{}5_E=dt2XaXW7N+R{NELjhmq9sdK62@K_A}%FRcrf>Z
zl86PfcIxReS+|j=-I|^xYi63=rN{1sX}2wBn(26_?W{Z9X>my^K(O+Jo%ME_wtvu}
zGTq(Ibo=|x#k~MYXyfhfm3Z#C=l%R1zw;gZr}}yehbM0Qt=K05$NedNsE@Ja*}0?R
zxOcfI7uChNNqXz!x`cjGuOq)9Zb%p>jS17FDN!?7!@`X5+Jt%1%>1T!UBWVHNmwVX
z3EQNNh1JCC6AhCM%wHR~CmfRw<~PTk3D=~H`Rn5DglE#j{FZoQqG_@z;hprdZ)?0c
z(K6Y>{I+;&!Z+zlv`x0L@A`OqqGPgy`5WS$34W4ietWzt(LLGC{Em1};=tqq=6A+>
z6aGm*^Sk1GiT=rc=6A;fiGj%h=J&*(NeoU7GJj({m<UaVn7=80FflYa#Qfg)aN^M9
zA?9z6A5M%+jxc{q{7B;H<WU``=LDB<>_dztJ(Ht)?jjd$eT$3wKGc`O#^!Z_wx83-
zL_k-py%L$7jU{gf3`N7)<b1JqJeC&3NW5sAib!cBu-uHt6X#ON=@_N4UlmhRf+VHH
z%gNcfv{bYpATgW1F+VF5?blIITu7&qN+fc7q}g~Z9Tt*P;ixbbj<HM#cd`^$MPXJg
z4}sQL5^3Y9+qVUgKF3oppM6>Q+MIxf=!@<vuZ-WgeC4I{XUD@YKY#J^^&2mLrRcgc
z7f;8oq@t1d%fjuLlosca)2Edho{CJ}5yI1GWOz#Hgud8V&U8VDq~}E8`m8WjS=KAB
zTt0t3HbwpSloOwiq$5`&qQqL)@_cgYyf9Uc)kcOgMa0_}qjWft2+yXZSUQ$UN(isN
zno7knNGK(epn!(!kpxDlBE*JSxRJUmBx4y?k3TLXZ>R4lT|mDu*x@wAhhtGGoD#!A
z;+7DlvYgK+Z^x3txs)iVqqeL0=V&Odrz2@f+;T4xk3}PCA$)rd@8lFbXj39WBY#AT
z#DLCC(FjGuskt;}JS-{`5{@Ur(<w0#p~;13iZ%9`FOU)Cpu@uMMm#80t~O#yS*(iN
zSo+v`%xHwbP3ofDq+T#g>!Lcr7}X1=s3B9!aZ#gC6NP`;9IbiFG+8T{qb4<OS|6=_
z%lKibsL48^ZpKqtiQ=y)i^?%Z&6Rngb%K?ZZ;V>rGEUkmzODGKulTm%yP@K{9^ZEQ
z797-4w59<e&Zu2*l}dEr+Z}ZZo>E_w`dtWZtSHBg@203n@G3clW+nA>O|%g)Ep=S^
zU$j?Cr_~#65?V{;muvD0KEW%rP3v1Q2&LF&p&en~U12RkN3<1x%2=C(&S_87hjHek
zZ9-Qmv|Z@JsCA$%-O)~j@<LCvi^@f4H$o3!MtYUB7=s>!_@n;l0lfR>4S~L5owkjN
z)_b5lrCnRBV{4xF#6;1GT_u)wd$C3ous)MhDkGtJtihiFe>-1h3nr_}a$yQ*PgXZm
zB86%Qy^*3sG~w6HRF+msh7?*pq@X(XJV-&cvIi;5s=xe33a#WUSFIg0)^cjqr!HFL
z)@scf@P&n>JZY!uLthOlsYi-BH9W0uBJ{Lcy;(h#IO9^&m){@hJ}k8v<!P;(=K^}-
zA1<PBDh*etZNMh>AbZi4NJWLXI)OHY5-UWwXpN`Dh#J+hkIG0|6bO3wwvfhO5^Ra+
zs2bJ0FDN`66XH=x>_zP&jfmJ!j*S}QVyp*Et>8GuqEQm!)2y}P0ZK|aCF(7Y=P%D3
zOeba!&c<egY0z^a9egl%Y;5%IG2vi5cI)8meELo*d5{+A!F$68L8U>}4r*f&nw>A2
z!{B&eY2l1ZTh<{ptdHt?7tR~pwvB7+TQqK(n+t7y`L+?cZG^sB_I&yLdEX(~cSuPY
z7|91F<iG@d`M3H9^ZjFT|5(2Ny4-(#qyH5O?%neFS>ngtr`GO%a$=+VOZ3_KS@+?B
z&5^gY%eMA{t+8P97CL+Kok!))qfhEgJ(fk|BXj2tn#N6On*tx?XWJ?S&%3mc@ZS4W
zTU^(<4|EeB=*5Fb%m(@coj3%)L?!a#uo|3kmxoE)?`J3>k?J?NExS8!_se#F-aaJT
zhjQj2@h~E$w0(&W^0P+z;Xxy@_p3FtyxZqF@d%QNN8tqYtX-^)5|zaNs@9!DBFO;<
zts6YDXv~{CWpn2vbAYw1SToBw{jL^j)aeK4{@-L67xY<uRCgDPT5PS}s~Hnovgc8$
z2Xa@XTH@L2;R}YW;crnJa%c5-&!er*v_^%ZpfcY9i^=N0!+p=FimBhwp#@Au*xhvT
zx$5By#;oyg(K6(&(lUfrYuP*pN@tq*`CsA5w3p;6A<9c6w+TFiRqXg%5}%spGrfcS
z{X4O#JA6#yZ;OyD1(8qRi6r?%<N+Uv$5Z!(=yATX6y$|Gx2u#ujTpc%fO<wAkSxrK
zFE$VjyqB7a+zLxzf<?0yW4RfL&k4_qVoEI9mGZP~0h6+v$55bnl9igAOK8zWH+}8N
zBheBf@~5o)qARS)bZVWMwyP?|5ABb=i2TxDzyVz|bIomeZ@=vA&wG!^-Xn{)g4Mfp
zXx-Xg@O9>WgR*Zh?>iy;PHgy2Esk&3a5mSs&wT4l!PoWvnfJ~tju-5{C2`%}#mLi;
z+&Pr*JR^6W+2}m`&_;3bb^E~MCce;gcy)aB^fsq^PItU;{K8ttwn5i;S+`>_cwO6^
z!RZ2pwYl=vu61iyp}RldJt}vP=4_n>d-w9Kb$froKalqyll{l?{tL4I!iN7+&e21W
zuddsNl?rkr7juU%p^D2-tHQuJ4sF+Qw(k8z$%x@#L<wpi_nUgQ>52C3d9pfnOX!HY
zQjR^(t`t?pls9zqPZ3}wYg!W+qFPPZd|WkAg~~~5?7n&$wYA^Ur|Z>*F6tqb>)$eC
z>r$`xJm)!;9I1JCwaTD|egm}!j1!su(zYq9JhZuzsWd;4N(y`=2>}y3XufL~qoRt5
zG3=a%^V_-?!MSM2Ujr9efa;LdP3a%#@3wN>1D$Bnao^P61+7o&rvNtm6WzNy9rt#V
zk(<~3GsAryI0Es3i4QnvzxvQn(U6Wsi<a_MlxUWC{td>(ighPRDtRy~p3WStwn-S-
zfVvk}_(JGp9D6!0oepXF=1`o}1?SKIJNM^ra5>i%d1QR$`orNR!%y7(OEY<Qf6m>H
zu)kn}%HL~k*JXzHj}qjpbR?DpVVX+^Q`14#V4g8mJ{Ii?)E0f^t-DYDDtgM1*!2)$
zZp9)}(Ydc4k+?Hsmqh~<)uI6@0)`5zbD6rM4AHa75Ve$x-ZL7Ro-Z(D0u{JO<HP7n
zU47o%FPr;Unl{Zt1+y)0?vl-2%l=JsV9V;vTYF?{PtN*G!R9L18}s(Qb$j1qS6i<A
z;)d%|&UUF_wSW8cH&5rRT_8U7?#GSIOP=>T-s{+C>|eAzw!1c5S5`0NN5<Dj#^K$x
zUtyWAZn&=HY}dB2<0o|cce}>me}ZO`2vSV|k#zI4^JsDHdH#APewzbhu3F-G?zIjq
zaAJ;ZK}$7^(Y=cC(!Je~HOy$czg%HfW5QVUyphWqcCl+PaWF-&%iZi62$Cst9E^t{
z2*kchE2Ol*E}xh9h$!&)W9d7wB+u5~Ts$Jq^I{}<TL?|CJ(aPkI7Yt|;4{ziNLo=;
zX$4nbz*306N!(B=m003&K42<Z%J~@=6;Gk7#Tr0dLNdzM>MoW@i?isAB^ie+lbE7e
zZP*@WD2^jTrlZ;_Em!;iX{5go2kX<qIhyize%;Pv0d6(6<Qx5Rqd(txL~cB?(Rggp
zQfTYQnOnA+JMzte&E~-3rGnkN)b*|G(u0-b8=XfAj;_3;Uv~7bG(Q4!F>x&epPM;b
zJ62)A)sgEQ%5@BbB^^3hIC)|1B$%F)F+Fz!m|lGY)~Bs~|MH~WNPj#3P?0~YE~YnI
zt1mLhUFWgmt!XNOJyCs`XjdotyHZz>cr1U~Dtn%4%;-(=DQT-njWeY0?Rms&Xj#La
zKzv4xcaLGVjv|(1_&rZ4whysY^x~+A<!wf66(C8nA-ri%f%x1t7B%IOBRLZ+uXf_+
zBo}0Q?~RXN;cpJ}(UhR@yLlnaOLMccKo$90Kt#i-=}_kReaX}$vyeSYP#r%9#FC#C
zQ}<#~NUm(9O7yJ&xl-u1+RTz?`%ESik>-<AyadEBI!E{<+snKJoRkNUn~G8pwJq6~
z<|~_qjTQkSD@cR<tw@x=pAw_sK_XvfF|?rxI;QQeG60^jLjeM_6bjgiwWSWS9b0rN
zEiS_hl7cU|s5Kw}>DWC%1qB?X77L;l!g>-e_oV2YW&@L)nhz_joi93o3rGN|1uet{
zpg>47;8qKBqeo%ZqY7H#D)+1ekxI~XNxKzE?5@-zi#-*rPnk;Ks_Gb&M1oAP8hI&A
z>;B~bfa>@J4x=^@pBXpnUGe`g^g(ECczxg`<5=f6T+ioh&nql(-P%J0#POvagPur*
z9;Cv?)jRXHHrdvew;hyi2XnR)1&1f^;AID&cMQvp;k@Iyb;omCAZQ9jI=AjPSa7%G
z-2<|FU}b9EJ<PraW%uB!VcmV0eFfLuK_z(IJ@}-CbGL8nb<S5vGFORIE$0bt*K^Ku
zI?${7ll$ovNpp-|y$#R1Tv`*Hv%0j#K2^+1RM=`2J$RSs%vEKEno!KdZ%u1OwWX)B
z3@|}`MzoNoM32S|wW;E-S7Q4iE#>t)skwL*tS}}Cl&z$_@v&)sE?LeEP@O+}^)i25
z5bp_MIr{|hxtIjmE={n#=tbMabL3nlXNsI#aCWUcM|tHbl4qv1+A>q(NJN)Tz<Gmv
z;^J&g52wGI*t8B33nKxG0FLFFO>-X;xBRl%zkF}g9AaNXvUzB=>5+MqO(WnBrr=hG
zKX4p|>5S^qs7ZOs)5*|$JwxD)Zy6W#X>CF=>1uLLoAl|ZDXY7OeuL;%k#eFYmC!QT
zsagt+6hnS8yxFejvidS?QLb@!3(HWeT0Rzz@y(7enA@nfznpvCFmIsTyB3-uP@DN5
z+VasB8lZ(VqwPVAvO?PvbQ%^0?iz`Q=WwnAF)SXton*vYE1)tFPJkjrh|_ljyrxnK
zqU$Q(P$mz;S$Xljl#I{wU<y-rC0;q0l1}iilP>l;FC^0<2tSkjN{Rwg(C)|Laj-0{
z{>WT96}%IXz*@jU?qeMTD@l~=DAr?f;~cSsOo)EW_rxy!j<~)Xe>-1iOQ?b(aODY7
z2N!}iDbv~l(pC?ao;vUgB#Ku{p~*Ico{7NUSZP%knX1@A3>P`>RZyk{11+Yk9t-oU
z6>T)8&1xIeHbN>WtJ<1Kp43GR3#N*kK+otXrAq#Wiu|QiYTsBXHQAc1BCqJ)zFJn+
zA=;CGZ_3udMGCmJ->X$~enYn}rTKdm@*8wyE>Jg7bnIPGMQ3FQTZrP9(C`euFPtYb
z#};fXJ<s=Ldi#(@O7nLj_XH9T0I{+2Pd*~?v{;Yxx1s!JEWEP3?@4^7mdBBGLJDOL
zm-5~c%F+&qYGs|udS}uP+cBX)ttg;nMPn4ly+s3HwxWp@S2V`yIC%n*isDc!#wcMe
z4m_xoq8T362>58jq5WctQkW?^Oxm!S;>jlw$zg0lh1I-eg1l?BXD(Eu%avVVb(VpH
zr<C*WP@(j{;Jm>-cDFAjKDx2#K2&ft6`FeTO?`4xU#|c7M$?JKiv{li1)<9YPHuQl
zEnfPmyY>71NV(NB@cXB}f9m(nykmc8Ug|BleM=8yci-dSu{G0=)0@Hb-<6h+d^ht+
z*TYL->}~$#J1Y-l|LBhoZ2HbTF>ozyOP7|vEVqR=n-6ZacWl>kjqT8fn)&6?4ev9L
zJNgS9r`H~=%`immIo(!g-_p#ArNCab+qH)F;T?mivvr#@wX{BI;C#J>*5hlVYXeCC
zyzZh7ua=7>M);bb>ohif-o+g_tT3Gh2y!@i5=-=>*uVr<?Hd|kf~LuU*=2JtCh;kf
zCZZ~bBnON4SR#~FG@yVznqVb*vTt%Sy<cb!{|zdTz6A%Oo5NSv^amq9?)lO2Z4Ta#
z5A4wE$w`I#MmGUs^pCDxko%u2xSHP`cxNEj9^7z+7SHYdw7V96<EM_kkBlGP_=9sF
zOs=^%`cG{-P8X_$KXRNV2&40JKpzK|FFdk6qYR*p9nO`wz%JfRB$A0@Z^1*z216UG
z9<WIE3KbCmKS+zdl6ZjN8d1oe=gp?HrV`Fn5x}Av`Ozr~6EH&OMNovwCi9sV{?=TY
zC;Jf<E`(ZgD=tL4GXICEOkh9IV<7cU0i_3;Us9}y7?u1?!HG>z3nKWMf@{#}v&0Bi
zREwZG07g7FkK(2yV84Srs{lHe1Purh9y<l?lgdSe_{-D$d}@v{$~oHod_-w0;Uyqu
zP?+w6C96gtgFK)R3A!8F28|~+Jx^I)4+gaq{8w4`XCvu5uf2|pBo#20&PG5>7Q*^|
z1_NFJ+SNd}g0)T2c0VE}QEWH`ky1ScTR_@fQe;D!*ieO;=4$JlV*V%PyaDG84uF5o
z+6mba02>qvd*`~nlff4~%j3(ZbHgv>94}VrAwV}AB^~B55PMsvZ0p?C8=c30X{b>U
z4gY=(fv786mM>sQJq>UZZCG-ezJMI1rz9U#S&Y@t3DFA?Q_WiO1_#%cYgw*f;Chuh
ztDSbS^SO!=Rc|#s<AH9$AReMKd%_^Z(>NE@vva|w>aDAWeMmhOEv^9iqNeX@;xgI~
zxu;rx%a#b0wg=TxR>Mxx9<_Ix1T<E?o@%*wwY=tw=VQ{1MnE9lR9H<^ZFv>^Cf&TR
z<%gcqf-1RZd}{9UTa_E5W;TPB>!_|QiDmUO?d3eGFKSU!h_-a68oEn)fHF}vr&Y_@
zknSqyjB+2@)Hxv%i<MQ++GR`klvAmBODP&kDSE4?sN<@)Eo!Mga^<xZwLc|=rozp0
zJr(ls0Z#1FaZm40)cTb2G^X<v?(Gxzxd(=?a5(#MOk{3e*DT;P;EFh741f{Hwnkfd
zDFw>SPelk2g8&K&4D^fWd7pGQHmd+e#6XxuNMF%NT2SVzFDuq`!MJcwi0=o<z(J;9
z>IViT#Dyuceo^_Eh7*MN8_?ZUl}%v~G1T3c>Fxst2R6v~(S0yHvPFqOP%SqtbD@v&
z<48@Q17vDGH6DFS#qXhzTR`lE1e8lKoW5|WF?~FlQ!@Tisy37{pSzQaO$n&ArH@LX
z6FL-x;@I&VPqK88%Zxzg+HFq=^ieT8td<L@QFGC(S_c-*s<9#rNDg4J70s$OVa63t
z1i`*xkQh`A5^n_DVg#wgL2?3=-d$xf6qK>H)H@jMs6MCa3uE-cG+~OaP&36kE6!4h
zwWaop^Ymq+CeIcvz-Gj>MDs852p4JZinKvR9MRxpvkVZ5-=fgpg2T@9NJ&r(VqQd0
zbxCsHApT#<O_ncUw{*(Yk0b3>V}592eQ1JE8>>BUZIi8SdF#-+b!hcw{>a4okqL$Y
z-r2=_-QK)wNOle7U8AyVbg{PJZO?m$WbaVkJ0^R_a@MiMQ8+*g9o{9>(p|v&=(?k8
zc{=YuBm2+f{nyt0*FJ0F0rNGE6~@l4Ss<yO(*+B`k(JBv9=)X7HW?Z(L3B6K*}Ms7
z^9|ggvBe8{Td!>E-L!?Cn7MlI!+UDQ$7JuZAA2@!rwg9eyeBAof_cx#x@Ux;i3L~d
z($TzcMD~p+h6K6Rlev?x<QzB4{d!{ARo<xV9sO|+l}Au!Kz0OFeDj#>IJV&!TYGuk
zapp5RB)q=ix{<Tp*s{WOpk21MFU@RP1E1M?m!}`uf`xidzP?kg?_9QQ);~j)_?M^G
zj6boRLd=q7y}tW1+p)EpN47Kg&NUCN*AISXJNvQ!k?r!f!(9KY?y)1V;@@-(7ml2H
zSfjLL6Nfww?!*~&G#=TG{rM9+=jr$bXF?8)jB{YczjpqS<7`E)pCFf&;{Q^jbBaH*
zv|SwK{%ExCQn%rgE*;#WrL<9DGdx9tlKPOy!UU(*eOMf<Gxb2;2#o@Sp%Q#LU4+17
zh;a+1tg)Jfg38VSgM76FgVZe4R^WHFWeHzpG*V+(6saZ}Wi?0wVwPrUP!0veVO%h$
z?P|BOX0^TNxo_7^>2JeC>@^$<Ez~hRM1ea@**ctRn%>dB-C#sK;t)<oGH<_zb5PTD
zgy~rLeJ)TFxr70FZY~Dg7AGq~LI@OGfvNsLE2KMo3NWn*F<pWckO0D`XdICC30?z<
zg+aYAXeprpmAMsAf-nrG5}=4=ItE)tMt_0K#mYxHvFKnKErIoeR$MF@6&?UnM)H!;
zk&=;4QBhpTqNRM9*~=31BFF<Qh0bMRzNCT}eDE|Q*Ixyhd5t2pehtz=4zs(6O>4zP
zV-nM>C@z`W-z~yg=xhZ|P`h5#&F+HpNc3iK-X=V|0RAd)o_H(@unv&g;io`$6`)=P
zbXM)CzzJdCuLb?CLjbBMqgrd6Picj=W2lUPVM4r*zKM6?z&wHwCk8?==mF~1KcavP
zoL%acBP={fi;*dIjer(OW~@TtN<`*w3E^9`Ch3~NURY>P)~{gwO0S^?;6e75rLOPZ
z*tB=&`i`v)%Y7#cP2P8fcZ6Kq;6_vMp@9ISsUM7Ny88>hj`xqfcP!U)WW#qf=Q&#N
z`pUTr-sX4b-kHm_AKdT`<s3r=x0k7A6AbGs>Vg5YNCbwVVoINhV~QmE7wcn^a&v)B
z5+w$+6-~@KAYf6L<2#g=Au+#AzORu3V3iXkIKb-&gVQC8x|n1^fV#F+e62BDZG1AF
zzhVH#X_$T&<pGmvHP<!&z_P>P^|^<0_beaXa1AWh{?y)to^Bl-T{IUudf!jHm-wC3
zHzyV^J&b}pdpee)KRCbX4r~U`=7TTE!IyGZZ)^r%0U+k|JUsu8>$V!30EN{zfM2|*
zyQ<4wz4pib8(r7`WB<q3mM53TS9PoXtF3FpYuDD!t#?2BNx$569Yue6-PW;f=Q=~+
z4vywU`(OORz;)lyNhG%ZVbJ-Uxu$4~fcV@4?w^h&grd77m?{?2ccI<imWuVXn1t{h
zAp$HxDw=1-SV{zJS#&YPk`903aae3)8tzWfpsEiMR>mei#&#h~su>K^-Y2VRjZZaR
z({wMEg0}shr<%q+qoL*H#0!>e-J6{t1R(B;C6{Q*TJAyuk~~QrGytob78a)<^RPIz
zz%}mDY>jVt%FLvimaVcfFg>oC23^f&Kpg+#X{+hBCA-!DO3`#=wJ#i3&7weZBP|^Z
z?0I1MtXCQAf;D*osj6t7W!8>S(=<#RevzEY9<>ayr>s|{yVckzM@MzgF?-dJ^1FQO
zrj~(r=%d_%6>agC)2Y5064CcOz#nR|){kmFEQu`(wx}*zOIP(4>amLIXUL{}&qKIK
z*7lKE&BIn(wfe~Le9xoJc|-cJ8kMzuSX%GwRL8#HK>NvNe9x1$XB}!!QKutXN7E9u
zFzwikemfCnrLYB8vKD?D^E(ma!k-&|o{Bjzq>ri<sHKYEf*IGC8d`p9t#)VKGsnx}
zs_%_~^eNS!b!J^^c?*r`Nfo=8nbT_O@;lp@0Zqud!{t@to;h2NSA8h)In`f&XB*Ty
z*=(FI$EdzH2hsM6>R0)V@~Wg(XGF&(9lv5sJQ&v|Z8j7%<0ifv*ywxVvol{ad=BPo
zNncj$&o-+yEwsY)t|{9J!4`ARR)TM#E!#BnqMEk+PG3>|S#Q=yWoFx$>&v$6`fjfL
z`pBu?v{CDXQQk2lmwrhrO-HkrZOXc{o@@im`%GC!)t%>3OURnDb=lgF+#i<2=IdO*
zQ!>AE@2C2FrjY;!DAgqRF?P&<b!d>!=mQ}!j#fZc`5n9%BgX9?$J89oP?G8JEX;67
z`-X7CSoRnakyQ<|F@n{Ka`CfhOw&El8s*Aju^#bsow4*u$?21^F1p=Vw6LQUCYToM
zAmfzym>phJI3?Uk#Th4~ICh{cL9>33+Q(!BizZ2n?9P~a6SHVh?jlLBR0`CKOwd@N
zT)$7PrrTxH%C%6bXy0R<Q*4-3Zg7^Yb&572C21`dzelAkkn=-wmdW`(Iq$;>^owtj
zf0~>gII!1OSuVtMT(I5Ch{>)|K_`sF)fEUsIa_6eqS`n$(txP;T%{|ow{M99R7azt
zhag^<jy+(JkhsL}QX{hDl!Z}}CPX(m>_m(xYte#yrJ{=sbk`}QPPHWdQ%c}~%%NN)
zE$Ns=2i;ZJH7r(2*i=3|K;t21C~HC_K(%O^io=Eg6OKy{Z2lz?=GhPvDL_e12deFJ
zvskpH`@H+^e~BSvQE;Kg%7hw7ClVwpUMGhXWs&${pnb2nNo%)aCfRzY`Ky@De@UNA
z82thHXduLY0jH>)J(d={cJ^56thUU=A5orvPI+o2;cIkAEUwa*Q$4N3oR$jlR0OGO
z7{=HYp~~VfHqf18>^908eIO~jz(8K2*<}&Aichi4ZYWK4spiT9p4~Ab7@{-;o(ws;
znIj`?pKSImjl=Ak*#Wi7=Jus&x`Ec-m2VHq?ZJHeDY^YrzWu7)el=%qEm+%g)<D5l
zpK}6>8O`}e;R19ixO(Bw^^O56I^I|48_W5RuXU4U>*)%cF$-sF#;MX{U+4Q{?~Q%u
z1n!PBF#|Tb(FOyyb=yH^z1Ag@0qtSgaX9a|EITfLa&6r)QSdb9J-xE0H}5&I?m4mL
z_2s?8vUhlOU~PKC`}{XA;o1rr!wt%|!Ihhvwh>Z!{69Fb3Da?3=VOn5#RCv(<=zi7
zA7paJuWTHg0M^vzddG}>ZTv$s(6Qife(;<;crHIUArBG+SKtp9aQ<D(1z*zbaK@k|
zXKwzbg{vFcGB@YV0U5*QZlV9}K_sdhc)}U$EGUSs&xB-eDDOQZd(Uim&o0_N3!KWG
zp4bSy1jDPvhNT8J-aWFpXL(|EV$*z%Zqc+Z`DJU@@|V}GL0p~5+1d(i11o3bwiDmH
zveg;Pg`Sl=&$3W{@yb?f$D+N^(!SX6*xCqFujHmRxYcps{rG$F?<5yr+Ol`#?E%>y
z$l)eT>$3&Vf#n4H>vKJ<MNOeY`QT|ecsd^(mxJS<+?RtlAKEt^0|lEeZyS?sV{96N
zvLm>XePSR(LplZg_Se7p^_)FWaCGJ!M`Xv5)#$%Y{wVp#@%&bM&-<^w_v&|kZE*q#
zfrDAMtQdRh%d6|w;Q}98`E{8;k;Apcp5fe~b8^r5oQ<ythFaBeD0k?>M*GFZiLKVQ
z#TWmi>)<=}Fkt8@IDC0Wx9sSC><JXwLoiloA6;`}O%}QWg`SbsFUvir*Ce^;T;agz
zTC;rMxsMOa2QK11WMk7W4YhzNp>hp9@o<i=g0~CvRA}uhH1`zRo+<bOg_hpZe{XNz
z8<4$$mB9_~F-&=(a~KJq_!=AlLL2HVOhXp`J#GH~0B08(XG8$D6t{B&4jp5@NuoV=
z+TJINd+#4<!aWnHs-=ScTxBYDqo!C}vW@`vwqj2+hD%JjwnR=4-dL4VtJgZTwwJDT
zl;G-ri$-Snt11_&xENMR?f;6=4I~BKpmmzF_OhF(e%a<<{`$vbIh%jec7>T4cFX4O
z<<o2PIdk_T^JT>{L6sOv)bzigAV?(t880yhN3&I+(I5qujpig=rnDkp??d*0Q5}h9
zr2|x`CrKm13={^%Z+9%L45LPh0pbV*v~1x(qL?b+F5upUG=PIM6BGRFA)eCA?s-IA
z5~kz3>eeOg6*shM=+;HFc8|?OHD$OqTl?mXvdWt^KF~?PE^l*D^G9`BtISz*MVi`b
z3NKdMo>tQ5jD3Hgs&GUtq!g%iu&V);eXwTD=!0!fANCi=Ra2#b$kt@*Seb8Xqj}>g
zqj?E!C!W6Nsis5&Jh04o_aww8l*ZbR>eaq1SkpAo?8#cwB#p2~jhFN<a5x^f&a|m9
z<u{CwQCihmH$)p2Y*2#j3$}f8?O<kjP6k-GvNoX88jg*cXe|1%&@W&t+|2iE^*SU%
zM$3)Sd@~)ISMx+Y%z&UJ+W6G=G*xepa$x~9#XBMXF3J;skDRi6Lz^;Vq_fG4m(1}%
zXey5Q*r_191q6Bn(!)$=6dS?18)W!`OKQ87k@6)X@i(dHKe-aQ3kyN~Gzrjk7{b23
zOHzDYIVa_%1VLJ5M4ZQs*IW38c9RA|s+`{fqK?l=mC&^!f`<4D0JUR@$Zax?r8^6Q
zs7t6QLy1#TlRXiRYN0(T=CtLSSSsYD+lr9iq}VMO(JJtKgbr-egxkkbfaGy>AjIRL
z%=q77=Rz5WI{y8TGVxn7d?py6@qx$<+aDS}rNtP*SYi$b8zi2qc9$5bj6TFO`dX|l
zX+N3N-(ds!{?hVzMm@&H$%k@Dq%=Q)P(}zSleByMODf0S^n5=SL|niR81ch@qn-vF
z%C#}3d$<8nmlaS&3#l-jGGMrrTiR^?A#t<YX5t^xJ|NwR{h9<+WOft0te+_gS0fS>
zn`d#MBs!N!%+oI<RoX0C#knMY@FGn5GE~$dDsG(|VtI-l2+fRfZz#%&;;IIaDsg~{
zXIIGC!bRhX4YWZ@c_;}1c1Tj8IpWxQ4%T229STW=7wpm#lv8OL!Mjj&P5rB2^R)!T
zj>7?$S7cba0={U2fb3{rx+&WateDsBL!aZmhjYt`du+q9^AO3sZkz>Irhv><-?{{G
zeqhVlNC}!C;5D6Gd*PG%jmDdcmY>>N3ij5e7;bg0jOPc(*9XTTa2A{$OZQ}_f2Duj
z37c2XXHER_$clA&Avf}3u4{aw=}OLVWy{n2?!-G2i**I7Cuij!`#P2~>zxNzUS4x<
z`beQ@<{WL`ohmq5@(#c3@UIxvAK17g_g~uRf8mpBaz9D_oejU>^o|A`M|-=L$5vil
znaCY~Dc5y%qv=}Cac!%mJ>N1Qw+!T4M&*{##fE~laj9Y5>fhJyj_!QN5xL_?zT>Ri
zarU9L&^eIrJRx_UD0uinM;|W#@h5jU1Mhlh!$CuH_wwN8(B(}p?B`y{d0*Iacjn!r
z>+VsUl5g34dHcb2`@wCaq47l>hS}-ccIX;|7*3}TBj|1~xSAgR`ol!7=kV$at0$pr
zJ*zuWIB_|5{Dn`t3-0!ZgWD#(lix8I>6VTWVms6;?^0;p2FqaI()_xkAFWc(;VTp^
zlJi$v)*Z*UYjn<WcAv+Kw(hS^|E#WO3le<yq1Eoy$<=YH?KzkPXw~69&<V7*@d!0J
zK+8b+L5*GKhFD;Vghx2((<HpV?u`1n^3xv>A!)zj-T{6bi<D;u4~fSRR{0Ahe~Ryn
z_o^o0?n)h_B~L;HnP6zYQZgdjM>gz7bLOLp(PE{PuC;y?x&D7zPsUg5r%TlKH%x)%
ziBIpqpHT-YY&Lf%k5dom%mF=6uleN7A=w;yWLAD>B~UYgN4XD=Itfvq2=vph+$3SB
z9}X8SVWN_AxVjN8+QQ+l%|+r$j7TD+SW6BGRicBOLvZL2Duoku*v>PORU-*$+yZ2v
zka&(#T_tCnoGEf>h!q5l9W62htAWDaB!{3_W{9J}SOjtvP1EsIB&{5`8Yv#?0Ia`b
zxUE9?kNC&rkg_0>3L~1xAu1=5U?<X~i!^ZJ1#%9PGfYmm>d-JqcQANw(S6@%PJdq4
zWU_2Ec5a*ShLYpqmk-Ep|8^~Xnz^R_ZAyTomWCZG`G&Zf2AIp3hL=vR9FTpXUvTj6
z7}QV{QDe`W8f8->r8>HNa`k}Ra};~lbaZWm5+9|+O)PS|rp@Hqa&&B)@J3G5QA@s)
zPSeXe7EYd01oQgcrUn*)cPX5F18t>XytQ%~wof*g#*lisU3P?aO!(O5L#Dx1SmopO
zv1f-~+pp`KriPUhYaaQTQ`;Q;WX_J)wtrk_I<p$u=IH(LjUD#hepP?K)V$^KZkzB%
zT_9Gq<TG=Ywxy_C*S%9mpEq@!f1vQp!NQTT!l9#u=9WSr_<7@tdJHz@B~K|c^TJf7
zlQna@j(uA=FG_nSzHMcnHqP6<d|t+E)U)pfuA_UoXIWbAfA7~;qH_D8Z95BhaLt`d
z((*aneem|LjL6=D+fEkY;@nN!ZszrH?U>{DUf5=>0jae3cDyWR(pY19L09Mqt{UZz
zk!=I}y70;l^K3g_*I|&o{%sR^Xl=CT+K1)FLpyaW;JiU+I+p7^yc(4|kMCfjk3Ffu
z(ohy5t-ru=@n7Lpv`?iV<uYRqDHORir7ZCp2oD7HvPI99bqytEKdTl}0B5!(OCcql
zniNds*q-)8(aA7hB`yTG8dr%GG<R3Hh7l`2wxv{|n3jtqNR)~p)9_G9W)o@G7VWH<
zvXrF|3L+21#ywFXg(^EKu4!*vsqv%%vaP>Ax6*cId(gT!H)s&ug{Hw`a@oGB=hCsb
z#L(lSn`Pd83c#pR(Zgc)92h9@b{C7n@q1FDQxcrMhgp#!COQ(z&*&n4SA-CDr8Xvm
zDv<lV;gIt4VvJ&y`i8)S0Bgf3DMXw|V)Uvwz)C>eJ|n?U$*fWP!AEA4SRDD)8TS9w
zBeP=sB6X?enauX_i)2tuJw=|T^1qSu8{{x@yPE_T%_kLZbDDm{g(Kc7&A|a!tkdn7
zIi2lOuIFc5ugvxS8Q1+Y?!3&M|CBrQDK~=fPr1O)xO1O!r+&tbf65*GlzW!B!B4q^
zpK`|${wX)eLazQ&uh;2+S;HJocTM+S>pTy?yiwQjM$P}Oxmc$g{sl)a+m!zgz?Ey*

literal 0
HcmV?d00001

diff --git a/v1/engine/__pycache__/utils.cpython-312.pyc b/v1/engine/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1fee3f9fc01f27789becbc03b8ece6280ee8a406
GIT binary patch
literal 38194
zcmch=3v^rOeJ6M?Uc~!JJopCR1RtO%ih7F@Mbdgvlx)d%%)~(`0+L994_|<KpkPLJ
z-3gVrYwDz_=r(ESZo8o;?v!aeTV-~(RnlhaPCHv%k~UyO-q2fjXL`=;E@Y|4b*AUc
z{{G*^1waV0+v%RY5<h(RyWjiye}8{rGU+)yVbwP#r+$;;{+eFo$C~v#Tvu@19WKZP
z`7k#o{qkcxdsmDp@T&+br&VLBY4w<zr|-(JX1Z*wjQLez?X+%8H?1Gjvv+maFl`(&
zPMgL|>|GN!Pg}+;%wHC^PTR(8%&!gGryXMs=I6uZW96(o=a>_}y0B~7J?3WL^kL6*
z#aP93<yhr()mRk^GlZ+BYsPAr-x#i)t{bakepA>xT|ZXO{N`}ObmLg#bkkT9d$)v}
zr(4EanBN+1oo*XzV}4uMH{Cwg&iwXp$8_gd=XBRt7te)kf(CVQg#FXqW8FNb;6gQ_
z9pC4rUK{HPmXGaJaL2fy^HnbB3hBPD%zo)*p>BkFzK@=zXKYufjD=Ppv{DZJzVwkB
z>&t$v!q@7@zV2ozYw)dB{x-HJ#7)g*lNbC1>q1pQZ)jhzKBNxv75H*d6Kr@@l`Cn#
zjtlk$8$$<JtR}>4#vdOmLriV3<yH0AK~`ETN^8rNcBph|$ZIz%(HH6uwNq)q_R!&A
zhg5#(NN7*!5alf8A8O0~_FYs`Tvj`Mu=7=Qu66^#u8?!;)q)0Py+MDdFW4O#4DDj2
z><Co`dqNe#ouNHap26ObG204raM!D<v7sBhZ_nRS>QSE}tsNW>hsQ63Luu`aXh;~3
z&I&$0tqYDv$0x$$kqDxwhG*ud)2i|L=q%pK&I+>=p-3dHpO~GQ2~9*NXJ?SYaCAHp
z%6`JD>HG_4hXaGhhX+rc7(Ipn_1t)L;xas{(9G3{Pnk9hj!#?;4bIM7oV=7apB)!a
zk5D-Ku755Zo|gQS_vFlEG!UM>bSXrYvrfzlLTDx$m<x|bFU|_n2rIu7iUyE#;Oe*#
z2}EZD6SH$SP+KR3&(4Kr0<r0r0+VwS0o3Di+Dvbe*@-LoIuX5&49pa9dJgGkqM_?i
zgqViT4$jUB!O59yr)Y<-hbGVo0`jet%DXf<6ADa(C#g1+<#;eCq_vUD^U>h!HR=}g
z+3@&8Xd2&-3A6Kalh#&_n<yN_>?+_M?ndYxF2vF9GN!<aQs%~9we3y4?M;KxRHQ9~
zvqETihN^QeIvx#;`pVMUKwxHkIur<`^?|_jY;ZnIeq$i;()@T>`XXQka%tu0@bhWi
z;F;0U;lcC6LuvIh!vjMvyv04Fdj9-CcXWELdv0>BD>^Qq)m_);_w3tyWlyL(Jb9se
z?nd<T>`eDn3|IHnp6(E<Lic=hG92;G-4JS!19O_;iMZjs%Dt~Qf1~B*;QQ9{Z)$Fy
zc;9IK##1j33lxFH+}1m4gwpe{0ZzVmg8Y~=s0k`Us-QBYzNiYSusSt2)M&Ln-xIOH
zGczIYTuAWJZ1&D&r<hk5pSjZMosWcq-sr41DvVED@kXfEyuo>4a^{lv^7u?Ja(Vm;
z{Qk6hawZtMo>qrvC&t4Q*^P`<N(GnRA5O8##T9Wbz&?-@=cfweX2XMgP$6#}h%FC3
z7uCoKr?j#!|BIM%M{qYdpK|nXDPdX@o{UDrA)iKQr&ldz{e>IRP$aFL3}V7fMzj52
zPhZung;;m0NGN<!@F9#Pi%>1SUa!!?@(2XjS_{M+`F`}vfqq1Zw86Q_rJR+Es@L=>
zPtAADZ<tqJT5a3#^diLck+Ui3Y!jVri>hDNvr)w^BT#+M`^tn`{0epCc;TeW0)gP{
z1ZJgjaweKqU6`E>3p?p+6FF>3P_+aqlQ|vmL_BaXjZ~)}s8nj-@<fKi&uZ`y{YZ%@
z{sjJVk31CFp^{hGvsh&z744gJCLE;S{JVnQgUT@t%`)1n5l58`D=P?7XT!7wVHyg%
zp~QT&ORI8h`lSKv4cIp^KAOpyx%p@$T{b%(CC_NuHj&?HFaiin+Y5uFi0Rsk0&Pz-
z!2peBBrrFBAv_tm%(fk5?b8)^unM1}X=NlTq%DEK_{_{K(qY4n1Omc-R8crU4pp|e
z%lA+iIeqwx9E0;qTt>s0Y)g(?CpJ{hE%+L5y|AHjZ8fzeRL-Ty^7-4b4OQD#voE1?
zEi0FUZ|FBvzKoXJxjUh1SQ%Vxdh_I_s!tjr%6Z!e$rJqHbNG^9>CfVX9K)EP@7Z{S
zG@-JPHdMyOLl@H0*s&8@ksU=P8x7T%K2#P|Wk-#T&<&MOlXgp^aXh=gL#IR0aoQYW
z%d*cK!P239A%x?}EA40AIqArg_Xl*o5S^dP?GvF+Jywu+a%LhtkK^K!myQ88)ZW>P
z-st6!myKH&2F^Qn`f2Y=^P%}r1Rusx(&f+%Z{+gqd^pH5!TCdnDr(?o?`d5wv$RFt
z!swL3u{oM9FA51<9*<o18H%QX(2HJTgDD(_FRcnrPDF)%3fx7`A##SuDOz^}6h_W4
z{vtG2eu;aaQmVBXJ!fs$P}QfL70Zpwk(G0A+*sYUrhIFkShp)txl45RZK(QEtsM!K
zXSs1j^+x-qszVxh%5B@gyAVLn!>_{04?GP!fG7txcx>+&el`9y_$v!(f|vk741Q1_
z(uMR4>@gt3h!6#v4CO%+4g^Ec{3<tQ3|iotg4U4vq9SMm0AzvRib<rt$R-U!?FhBq
zQ25Hz&iuAVz|86KnQ;Iev0r3k@hpxt?5bV{7||S|gCZRAP6#2ksye;!U;<$1JH7aX
zag_i8mKsyx0*;zXfCKO;JEbrU*g<sR2Ad}XksC7;BO|9-YWzymRhkK-X`OTe2QJQ}
z?d&)L#3Ml<$TFHXuz88?gU&0P6rnK4K&Nze>ZFa*cL{b$+vFoJB=03@b0`b#0KNen
znAQRQlD3_+CkydBmT1DjhEj6KPy6n}BXI9<QC|Kg!!-+rxH_(hm&LVlU6B8_dchdi
z3+lK&Zj{#gB@PE)F4ZM&!4#Eu2`;Yqe)h`{_u@H@TQJ8}adQksELh^otj`)ZO%a4s
z^u#T4S{@}#<qqL|w34X|Q@VT%*%#-7%DDB{x$h|A#<(?Z397!$rr_IZ8RyBD_1d#4
zE}HA1DWjZ6{x{A=&GK96n#sAMXL5i-Ts>u%Q{{iB%JY8N7t~zAGGDOixTsqWD_u_9
zB!emFU%)qCLN6`Y7aVb$uscdCjy+SAvM>KDkFMZ)LcOZ<ab=%ij1o}59?S`cT=tA3
zS}%uBHORjFuUu9ihmo{T5x`LN$T1iW3;bNpnde>$t2iBve``?^yvnHr8@>~$RP@N-
zd4OX#xJIsri}2SJJof_Xft=sCu6%*J#y9@6bHB!2<D|TNWurc|FoJprr^y*5=L|V#
z$$1)1+9d53w1WkP&JwB?oC^@Jn>I;{J^KnEP$TUmX%*oCY0Z^u0PQ1xODoFf6lh0I
z>v9`ZT8%s|A=daD@Tj0b^DbR>Ei`^b2whBTF9JUbPsTz5%>|$uxp!fZ0_=3W0_l>_
zyFdgn)5_T7oIq1HZJLY(Cgy|V0c3F{lrF<wh#KEWS4M!11w&USCxBi7<Pm1WGIq!C
zPD0UuexwaE^Wkt7Wn&<&5KWs=0{}&#V1SwsNvkKqvyqUmT<AfG!f|p=kaLopQ{;Sh
zx0cEIn<i$br)OsZQg5Zr+d4JEK<czX3Y7L><E8NIh4FB9M>cKiiL{DpCp?StBeYTp
zfGB<#OwIt}SZ&F3DF>N9PuYAI<9CyLRLME&H|!0IWm{D(sp_^={mxWvXR4y%fk9KD
zUo<_ia>l0A-m{CR>7X|DZFTwqx0_QHRg32P&dNkp*LzO?;&7_6V>KjJ_AZ`ERkf@-
z#VY^e2*H0<Nn^cetY7KaH2PCU>+7SpMx~IH)qTfu+mfnkN>#P3R<D{96?@>@YV1z=
zc0Eul-L3~pRkbTq#@W0NIjzn9cS^m<oH22(?ng~rRYS6}U94<h-Sr2aySx6l|A+k>
zl_yaz%a*4x>FE_cy-CkgqUWi1Y@+AnqA8;&*VWu_MfBh8f2;p)|9h<`MQh`dYH9j`
znX72|$h#xy?H9fMo8BX-y7pw<ez9(UvhL`5-O)z|&e^^C3wKX%mY;lN<tm$!72RS*
z_eMp}1Dn>lGgHnvEAE`UeezdEK5^1J2j_u-YdghfnmB8D($XMW8a6FWDQo#1{cZiX
zj2R_oZT_T6j{9FTl~0cL^9XHGf1({|8{W_T=?>elU;Pta5C2d6>ft@QpY)cIe}Cgs
zHOh(X@rL*u=xf=dl;E>Fw5=3=r5Jb$HYJb*VvciJ;KK{T3IjJH{!t$<5Q_R1&lW?3
za*;4UVG`b0Rq0vA7SMMPAwp-?O>RqTeBE-(@~*am!F1cIszMBQ>eIedc<PrrXM_B!
z)EG)r^bF;ilRrNJpebWD&yP<=y`cI4M7kkEQ4C(cJ{k3Is|xiRLB0<O$UTLPnR@O;
zkaib%VCO{z((AACcX({yb`>`D-%(!U-{R3>Am<P=JrfFJM^*TD2t-?qP~I}qtUGuq
zG!wc$C-ld9OLySZ?BonKMj;aQA7mRuq~D)Q^gmL5PB{OW`}><*!aeW<|7z2+>bs`z
zn10~@G(w&8ipztlC<OvQ(yD9d0bvYYL4Z>*h-rPkpqTgbs`4f!CS3X^_mS3411h=)
z)|&p%|9k!o_rSZ_0XDd4jSz~?3p3k#HaE!Uk(|v({1!h$-0S>=;u1HZco9Gi>vQV0
zqUW~aHLD777Wi{;dFH#u3G;{sx&dqDRrudhNZa@0oiC40Bvx0t#kmN-jeH^va6rCj
z_y4Z{U->sI``+@eG%cy_n7(OR^^2B$3GKd5*Dd>4ufOhSR&8rGL7!}HzXH!^H+zzr
zjm7??X20yl6r^q}dJtNolfJ2Vt@ZIv^6|0$XV~CGyoAvavPp-EmkxDrSHCxeCE=Zz
z4Fdnnt{3@e%<c!6Qq;p~EybjW0v#m60-VAbE?h=Htf_SO%2`UM?J6Z5f^(At=3fEo
z(65;vs#R9~hn|)tRm$Rcec{$Z!qS#egOu?4iCZU@qIVW<FNipjJS`6>BB(h!{ih#u
z@Jgf5eo!S%2YX4hmIg#ZW3jS1fyfmMwN0y{H$eNN2`<r;XonMG<S=}f&`n{O9BN%L
z=1T+*fgFOYBEJXcRqla;FkdgXW7h-s5U;M;a#Us1<iWXE<IR*Yua<LFWOU4{=c?;6
z2Ie(#E^o%fyk^c_m9a3dl_J=f*N(ng{=ysPjDx+FbLF0llX+cSW6P@Q&Gv_^%#TMD
z3U%ejT7~*3pV9K_{mZ)^a`?$;G-~~dYUSK&<H{G_G(Y0-Dk0pgB@DtLSVQ;)I1`0a
zj3|$d_<PuZ(?H%OOYM%OCguWYo+aa!nA!`<&!%!NsPf1WkU1XoROR=x`7EfTCe)EV
zQ#lk#4&k^cjXirxp+d+Fxc)`{ZC(cd31J8-epNyHeNaLF<Szi}6~zGk4TS`R)0u!H
z=y^Q>YUe}KbF;#@Fc}8@CKUA!K07oJc<#ix6Gume14F~lofsTG=f$!My)-|0bv%qS
zge9YuC}Hj1$oz#YkS!tjIBPVB3DVH0PcK2w`fIa77}P$3nynIOnGcabXx9_KWIJ&v
zvfluX0+NmhbbPZppH|F*{0M%@BnXNiAm``Ds}$vz;DAvBUP@Xm)re*ZwK{v|2|<cR
z&JXYxnSsMjuZ)$m*CcJ7qOCJ&+aucc+&r0bHzeIVMfc96dr))_CRFA34OL0QPSLRQ
z=FmsR+U4lVi)$wnN6u~-pT0SKUuS;3@>b=q93>cRwS0Ac)s$%6^PX<+Pqn5`l$?HF
zQny#s?fr)cQIcO7=sjxTf7GWws#N}HzYhK%E7eDhWk1%I!7uzvL=kfBnNZ<XerPhW
zo%~~Xu#+oqD&mR-A~-2ZfmT7~t6Y@gvxlZ;3}->^S4q2yJb@mETozPu)j6!OXs!lL
zoUk8Lx-6R^7gWW$U+02qIY;<4pe&S8zEW8T(MIX`XU~*g_T_)$oD3-;uI@WJ`7N$~
zMG@o|)L&I!<8#=gK9*s#Q9eG#aZF54k9S2vgsDZr83D<dD494?q&WoYCYwX-C?S$&
zWG*x@d2uo%ku4wRu=w??gr{h}Umu^I3x_(rlNY`D>3e7=qjGJ-q7L;)gfkQ%guLVU
z+m$UpBGFi*mnS3MYm<Oz!NwpusZ_g&SIVrHRj(*ZnS91~Zad9sN;B~A3-HJr-;00`
z7Wh1^DnII_PiwiC<=-p_*(8II(#fTih^-9et&`Vekl2)Smv2NS!C1<z)F7aqYp76~
zpWJo?Uq@K1`SCSf0-#(+)JPW`X-RTG`#`jHnV0xSO3q~6w0e`)Bck=lJ==zLFlijZ
zx#luw0nN5{K4u;k1dJLsHGsXByfN#3FY8faoLvg-_kJ;^0HyN<s*uG8nr0;AWt+r)
zZ$p}I0F_-uV5sm#L`dsT5H*rznAQznp9swn`$1TwZyK})TM)J%wo=*glv}RCHz*1p
ziWKiWUqiS+&X4gI`Cs7x)TrdNo<vz)s;W7m^<)$lwJl|J+|l0FKA_fr<g83tYgY84
zwO#&AbR80{haRcX@`q|fdB|yO`bBl7mNVLJj{N;28)tNV%$2Ea_s#B<xjIqPo2cHE
z;rPCqR89Npm{_wXQN8!Bg0ka9YyHZYXz5OvcVsw4kM$#~{f_RoE>XE-!`hRu>|CqQ
z=v1b@hf0k_pD}V)TgIf(+5T%riR^#QkpF+#(aZh5ZeX|a-}MdjD1X$WhIaxj%RTau
z_wc_UsF+BOUCUKKCI^Rvk;FA1hnIzPLB=DI2;(4{%LH?YP;LzBiBJv+0V1;-LMA!B
z94|{ER|Sm)k`iXbHzB?`r2mXG8W7&|(iKE>&!z|}AbCNAcx%v(99S+a%t2)MU^&S3
zc9I+!a{%LWr(Jotb6^78cbO*tcWi(8XVc^-KrWL{<Y&fjc*m)Xe;iewRbXiH;zev$
zU>bqRGhG_%>I88g`<BEvm}WeM2uoa0c!X_T7iOcEv#X652tsIj7JTU$faa0xHYT0b
zM==lb^uM$fq7agpL4f!Ra}lA6B81^g<W3p9(7D0Ry+6XTf?N}14Z_?)8T;iIw8Wkc
zE2fnTI)Fu>Y=<G&v_P^;d{9MlO$!E|V^n!9@?j5q%biP6ryL$szpeRxmPi4*z7fcv
zX+puUA|G~GQ`{7l89&?<!RSTLRp7O+xjrve+(a`S*ii?=j!dA6=fFe-7uNwett`qI
zuWy&-YG!6kdwF#M4nPhTIR(H*E|3E(ftlfKD1N4zibK#k%M;?Zl!$A6Lfp0zacyz!
zRLA4tGT}#XMLXrMQ{A#J{~OfG?dG`|EAk?OXwf6*1$w&r<)OIdX4y$V6LRP)e3VX1
z_Qch4ZUtevF~5TPM<}hnAnj+@&LHQPonyI?o2iTLmP?)5C;Rfhab8ZzxD@II4R{D#
zAeX+Nez`iwEx8&R^EG6%xkk<z94C8}a7Fe+iFL}JJpTyXs~n$ah+E=c90I2V>ubTW
zP`==dmrV`GY4X4M+Ag@_&bX`8tP0f2@#BuT^@;*Hx}$`vvS;ck*_Z#7+aL@_Q3vUn
zIxhS2zYCt|Dfun#iI>N1GDm5lqV#Gh1rN)mEmX!U;+1g^@!Z*ZtK7D>v{R?$vhu(2
z+&E7W|DxzYE_(Ee?d=@@DQ<q-EW_3%^K)U<s^V^}WJkRGZOiww``toS+$~h2O}Q1E
zFKUXg`l2UZCC?(Pjw+-hXszh^ymUylzbFY_OQv$?O9SVsWPPTdDUnx+9+gKUpW_n$
z+A$S}6;3c!(G$1l<FWbPAx9|PSEYL*hD6{D_F-mHUp*)1k^g-{n+Vu0dP<Gz<869v
z55d$~5~1lD=d+G7v7)#5wEh{ezbB_50CyE{-t8iH=OASW**8G4=OF484PCl{IJTj)
zd1e`dDufl(3K+NnCoRBU#?MDYtt?X*+e^R!4)O6YG5O(zOyVTtd<Fg9b5|zk<_K73
zk>oEd6MyXRHhd)Fot}?Gy%!*vCd^)iq*jp7qT=(LN|L|F4n6jjV1rV*ULL<1VuAz_
zA_0Qva4C8@R`+a#swQWbFUu>z3bDPT^V1g~CP(x`8IH()lPWt+vYSOxbVQSQ3zCPq
z6cXf-t}Y4)T!6R(L=PED3<(^O+<-uwKpK&>L6Am}n0#-QNgz(1yGe6iU=R<{n;Fl{
z*OgY0h-X?!>_Q71e?b<)w-GO0OQ9r+=zqM(Nl-(6gCaRdD8hfW$1f3O`~;D)xsY~9
z9V~?hB(N}DE<t3n;Dr<_IH+2S<lLe>P4c7(FhQH`uo@%m2w$Oio^2dKM&*H&E3iRE
zwMd)694(k-koRK}uxZug%*9!9Cn4H}F@`(_37`<eQyx7T3S6dQDy7c>uz!mqq&-C;
z0hB3KVH`;%98Mbyh32TUh2N$yhQ(?S@A}-lgt-wmMtlN-RUy>IP`rrnB?>hWvmyYZ
z7i&pc36w9b#YhFfJC0!R=4X7>5@mmc@-FJCHz<sNSb_Ef;caqgXxY$7qm=J!5_Oa4
z*KZ*TV}8>dm6*M+Qjm%Yl|&z>>0L1g$z$|Nfm{sZuG1#KSkH_CW|k3li2#x|vq6{H
z(cmvjlb{+oG6LBXoC0QU0i$A|0HeuqbN?@771;|o;wJad&gshkT5JD6>;FJ|?r*gF
zw)P)fRBdX#sRM`TxBeqfXJX&Trswpc>BH`W50#2q{rlYqSEBb+f2sH@{h#aCk36$D
z^eYW_+HbcnpBL>7qOoCh;Q>XX<dqLJoV$LtDcOEdY(Kc^I<#oms%T*R;Mz`#PzA;@
zdj(m~-X+?*lJ+B_{m5cjs-`VjvsbLyo2+?Sta&=2txP$+N#_pHxg+U3AUY2$>bDH$
zq@hMM)NC5+?i=l|pSpD_;d$m=<GC%P<@MvYj=y$t%TSdtw5A;O2}c)DXOlT)eHu+L
zneqNe!<D-e?$!-Q+uMU{=8ew7>yE?ONN2K<4kMDuA!WR8)3~2_*+cIdeF(O-CanXa
zb>LpdhIRA-=pJ1OWA*Y3NcCNZ7Kb*CzWWw?!qK>4X<98?w{#<8ojzrJ3K{G43A}4L
zUk7zSbIM{{RNZg!-8b5nTE8*6Jeue{_=!@{sz*;Q4lf;8Q6SIShVQ=k#*3>5Hfr`P
zj;0PBUIbITT{O0%PN^zyqOnh`>RTLn1mxeFw6utpmQ73B{aSyrc37+(UNYRT?@g80
ztyHZ}q5KB>k{MYxv?S|$#roc4{a&$t??(OpC3DJuaLK&<3!=5-{o1xQ|7PvLk^wPo
zj1!%x>fEq){mkaM?S8-Qc&e>E)pr>54WA25sqf4fIC}+%9CrIBX3p-p?Miw5sm7jE
zZELE&i`?q^R6|$Bf^T5X+wB<#XR<$N;jGnQbSJHCqO~n)?G~-wYwCBcySFIJCt7_;
z>kiSnW6il~-2-8Oq|qlDeM#dE(YRx+dehiX0s<KIWp&ciA$mHJo}Hp+=Z0t3d&a)Z
z3q1NT^Ch0s8DB5ERkj4#;gpAjicJtIOgg(nXV;o4x#NVm<HV-(1OyV0*XdiQlSZ#-
z^sYF+SMg>=vc5;G@7bvDeb=}PL+m=qfBNyX0#iF;zzX`I`*fx1M>ZE+iR+O?NAZb+
z<WCk6KBDEguhlVBSOHX+XJ{`!tylmrvVdPf@r$0IDi25j1S&z2EhXZ$02H%i+#C{`
zF9w9;(s4_Gv<pxRfKXgEF;Jk=DN6vg3uQobwD{A30IeiZwy)Ra5&5`g%AK!~?32q`
zth>kuHLq#`_5(?wXF;DA4~y&N9t!d#c*YPyt(^81{#IRFFR9`H-PaMK8CPD+wE@Ux
z4uzYd-L>d}_@EwS1!I=S3?Uj28VqscRZcJ$h?60Vhy-#?z;AY`K!8A8Q^Y_BYTN*V
zx#2rGbqkc6N54#Rx&?EzL9Re)q(5j}fB<0JdX*Pyqpfn>&rXGsO-y`HDVOsK|AdhP
zLS6hU*dTCdCPY>M$`q7PS~YxD7G}uTB4{hf-x9Q=kCZ{jf_>)IVEKX_BA8}2K4$a>
z&{ovS6*t3me<!DagkI^8%ZG4ab}hxtmwARr>ygqE*VF9Dk1ypL1EC3{k2*#u_X?JK
zCCj~PTkbSS>?zEhv02LED*C+wfFe?jJgN(3Sgt0hZ4Jw{mX%N!SD`Kib1kk8dRZ-K
z%<JQ7#BV4ZbIgAS%_ku7-(oX~NLJ<9xrKSSP#!N2HeT6-z6P2()g{+9{~OE^7X(GT
z9P_Li^US$WUQk=7+;7>s(423II}7K0+$pUH5C>c(i8#&qJgCb+7|4rG8cUIM;)Y<3
z?<uEU@L=Y&uvwywdoVuKE@jZWP%)zhS)eS2)eM4wJFaALTtM^HM25i1%FXOxE66O$
zc*XZsQXgREsuwC}+K_V_OI4psRq;7HsShQo^Ep8V=TBK)ig?9BWdZr7Qm#Kx&p$>D
ztI)P~>{@O@M}r-cic9=Lb*^Pkfgn&F_t4ylnGoAiFcJ<qr+C>FjBdn*k?1V-{nr)2
zF3c#!cXFg`tc3hrEzF1dhkxyK+!6E#+b8);Jk@HUhGy1`0W~S3nr#0D;vWeo6+KfJ
zjp8TRT~KO{kjDg%?eUtocjU-8wLts#6{iLpu~u#|NPD`HF$xGErOJw{*!tmL`y(E!
z<h5_9$X$j=bG|on^+H_gjhcel(nBjUxU*Djg!jfZXiJWKxUG*1bESQR#%k9S^66vi
zzVuk-S)x))D4zmh=6LQq>a(Xf9}-f(sL07E8L!Eth;oo3_QnqCWw3vc;bM;?(!}`R
z#wC^L`IL;&F-X*`di?76B-6$OeiWIV7r?X+K!_zk41ib%%bKC`GM*=6>5papb2TN|
zzm4IE5#b0^eQ1R9E&dL73unz$$XzieC6j=Gh#P-BZ3Rv=JsyENC^RMmS3)-=PUOw3
zj@ZHQ`1FO~cz<lLG-t;DWPG!LTba#7z)8Zy3jZFmZ+nj?&OR;feVR$Gfcm0D*|DzC
zS&0DxzAu;~xsCz9gcK<zXBg21sy9?&f6RaWa>zS$)+;rDrS!H<&h7U$M|?z8nVyU=
zatI9v2stq&vX8k+XGW6J#0Z~&a@s{OouNE8H$D?PN%=sP3KAT1kO2Ya?f0G@zXG24
zJa|da3n6)suRI6+jleSlFF+PMaCTtuRN&nCX9ms>AA8{|6lE5wiJ-R#NsL7rG900~
z&|Kj1<fY4j=w)zlE?s6iVA=5S?6m-NT|+YyH)1~-LfqlA-YX#iGKmrN2Lwz|EP_bZ
zJL3J~j?O(VdfONUh~~u?_jdO5z1ZpX`~5yD8I-5lnLLq*=1Hgb!hF>G#0npxwtIuK
zP*$N<Uz&%E0MyWk(lj3RgWeV*9x!CLKO+mN8!=iKrSYI2T<-VKa;f<S^vsFD^Q@QB
zD(b74;dv5#@e%^>jqRoWj!ct+us~%>wVxipJ~=%<?S*o3mUt!00+7llHOm_t`lk=f
zSEQPLg=BZWLJj{)ta22Yf%1o5ruJW+ot}ln=j=SRd}2LMA>Q<SI6B$Iirluuv&*xy
zK<dHU7Te{^kpRb~q!5mv$?zF1X^Sa*{#e5(il>q<UB*a8$HU&-hQS&fLGB(O6RUWv
zFWO@DZ1^LfN=7c;kmpTMs#~_FJyP0j>auJMBzAuVwXRDR=I^2}U5r}fjlGgpVx#Fr
z(|?@w+n`Y!x;T!`@wWB&7=QE0bBtD&-%E=Z^b}|)v(2((Sxo!`#gIZe3c#wLhInq!
zA9K+N>?dtigh4AIa2ZoA5Qyy?3kg_p*>R%IW<zy?7SRpjyJq(h7Mj~%XvawN`-K$d
zY3$1dJ)es~s|k}56g%)}n<KRANJ|jwt7r#m#$1`3#m)mwdrEc@l9>f5*kXvC%#o2<
zP4FGPSP%<BI#3g2a}eo2GsFLcO5@2K{!jn#)`Rua7tS7zot&7(0-7K?p+u6!nqqo~
zG-L-470gj-JGg|o2I^wlW66AnVpcX!3S@cG%E7bGrnOlOlfYX_Mu~&$v`pbG%a$3d
z|J<I8c^^AHJF#U!&Q3a5g5Fr$V=?^R0r~9A9})Y#F|BkSBTXHRNsio^TbdBuW}SjV
zfK6p0lS-o~k<Y!ciu~3m5yEpxd^L<FnYI(983M2n^oxf4q?;QO{x@{L@NdZZpUD}7
zlXh<>_~y=7Mh+H!pW-n>r6$5o72y{t<Ssdk=xRnWvY-%VE|YpqE3pp>0B^Z;#S<4-
zTK^o$6-r__7EIZl_zRFWA{2U{9t@(ao@ok3=!k_P%^dU`g&$GDOo~TERCI~@3nYy5
zc_j)xqsLM^)5b!GLHG#;nGi%9ghWnGJ90Z!9<*VN72cp?h{&5}FbfPzWC^aAJ83hm
zgnSCTGgv6w3z4(~t(Ut*29(mKIkYU#T&N7>&S@wj<-ZUQ;J;A0_S~$<CxS+H(P|Oi
zrMN~`p)6Pg{UfTL^p-BmzND=)a+RPhM1g6W+!?uENIT>pNP)?lh_FOOn6mAcR*diw
z!h}B~XB|$&3rB`EpYVG`qBZ|p#EkX)lVP+k5=2%8v>g!HLo26qe4ritNNaxGaLbS=
zAK26$Es*FuDY{QC8dHxEhx1B1Bcf*nr0LrI8?^@$ASV|SiBmnj5ZOvKwJe&qY8qA!
zuJ{vGJqWpPb)}4TNn?v>Y}qijZTO#lq*RcI7HGRx$5P)nV#@<x|7t=zny4Gy(2g#C
zHD#$=>07nExmUDwWH=>Ja}TDBo{U=QhjbU-6PAugkj`#NI-#GuYf%r<cVio5)0_1l
zHnf7cYN=TMGSWVRWV#h())=J4-Zgfl8d@Q%u5&{yy;=VNYR|O^?XeZd%Gk<CV#ia7
zx?>yKV~bzCUt7Q8->5~!t3L8nCq27G&+bK2s`+q2+mJGN65joyVgG%5^?ips>F5z1
zJqbHhixj;zTTGBFqgL4VKUAt5W)uUZC?i+ZlC10#EBlg_!(!#|q6L{OKecXXNExdV
zb$iy0ds3F#M8ocN%kGct)ft7-c8q_hR8x92(wjMBMWWg-8vLnxzi6!8s&7pgYg3Mz
zgtvFy(aR!X(3Yo`zXX}K_T5{KmV~_(-nJng9R`tfWJXl@-bZ#&;g`O;fe0P_iS|4V
z-rl+T?CP<Eb(c(v2O+w=7Ws>g-nEz39eXhbpy%5M@14AN5ILXakMOA@=Msm{C(b{Y
zQS!DgpbW%FIQC*x<T88*MaRK=`gfiekDOn3oX=Kt*B_j_Tf5PBJhAHpayrTTQoe(U
zwnOmu?@aAHxK^Dw^lZvex#Y`~DQz{`s-H(Mme;QgtUH=nr>5*3tEX3qgK*#s57%}E
z6+mYv@ZHMQ)FreP_iGy$M=>p`+c7Pw%^z0zmIhM}SE6#~x?|^B<PX34gRkDZw7F;W
zV>M{*sVW~PhN%LXSDPQ{sR{87N7E|5?(j)%x1LH_tI?gEX3Re-h>RgrwXVGMMmMzT
zT=hv;tLSQ7Rc^RCSDzML-HXRQs%u#3Pl8*}*ta%yuYRL(Xrpcze2bK&dPTEt!5AF4
z`_g*H5#-a{0<pubrd@aSV$;zCycXATC!(YrO)CrQj$QXFn=%T%VuauFG^ae!uJAoH
zXsTQpPUCc8ezfj_zFf*yyVAC9YtN-Aue@{W_9;rYd&^UoqLjWz1}TNJCe_l5L@2v;
zZ^GILp~^&+|2=2-5}#`5T%B0kbN6|%cj#UyQ9qLKo?bGg9Nv|u)*bDs^5)f=#J&@v
z?}S)>B2nIazp6G-w_~HKXKie~3In1<jZox)`;9G$*1a2z`w|TY5(h@^Ro*jUqEyg0
zAxfg^F!(2)D&ljvyVmsU?)@o`cdNF0ZTN2Q+QBuySbJpY82BDydGl6n$Lf?=yZ7$1
z_Xh8d-0c@@Pb?kVa(eE3;r16K)<UYP@wWyOZF@JG_9YtkCn^r4YPwU^jnGbX`5$sB
zmwibA8wa-fq_tJFwyr8RtsN<AZPMB-TANqKH?3{=F)tW%YW3KLqc>e%@o^vL+L0OO
zxw@uDUr=yHOTtpOVeqc(SvRy}<)`euYsc31Va^`f`H`G9VaHVA+uO41Pp7i^ASFtx
zSYt9jGGn8Aj74R3{YoTJ)v@93Ot`udT_f*2|IUeo@j01qCGC#=8<vKZOY0Ue)o3F$
zH~rSR)!L2by@@8Oz<y84Q@3;jeQRn!*V4||g;BM7S8BoeN@%-3{rH*+yWOWBA5~y(
zGwl3NycK6%s&~wFXR9=6%Pe#f3Yey8*G%YIU^{F>NB=fGlQNt}U}<s>|25pN)#NxX
z5Kf1nA#q%k5Ij_6g$+sY5C+vi3nyYl(NjtT1RM`Ou8DyQvrra?KqFE01l1*oD-zY_
z3Hg-ZqkO&Q32_MmD|!~R;JM@|<O{k2u8D532AmN!I3t=IXGBM44v1Jb<toYuueWL#
zb&W*k%JLNS0xDOIIu+Eim=(y4iS|ArH_#9nzokHU54Fv4ITrMI%hAae44_gP@n?dn
zfcbOyE|$0s^w<9fJ#CGfK|cjZD9~7eqr&>yTB=6iRamD;X`|?Yh+VxL1ko=$^-tVF
zu1v24-8LV?P%=h&v{B9@$U~^jLGvKj?@kDmX&FV^1&Xlbb4Q!y6!DxW7FzWRTII>L
z3OvBq<{{)K8J4Js+oVwv%0Xj>=<}@_qVNWdM0ZBMMBOz7^*PFK<&2r)(R-<{am7>#
zfzVRs27=~z1yOo~mU!jc)*Pj`DsC(#4q7P47I%UEjXHuVZYmkKTJB|xpE;;ybaL}+
zud2A$9zcLBJEA^Y>}Za@2{T5IVNndV#~!eqz{zL|k5M@l3^Pi582us-+2_cdAcN{j
zl!F1zk<tXr1~iEXm{_XvC>H$QV(g48SrZ!1{|(<j*i;cDE<C_XAvsgnKtSxs6QE?+
z-YF$E^Eer^8^qNJv2X!2uSS12{#N{Me7*aWq=L6eMKlp<gXsWE)CXA#jHo0;r(mHH
znWYX<L2H@-p^KrtjAB<9>wiav!e5c|Gjg`b`H-BSlJkGS@wp^vnZKa`hKj-@C6^`)
zGAk0rkW?)K^8!i2|4Fe40~LsVz&b9EehU8?VKR~vlvFPNmZA}gC}ha_ZE_ffSSw&B
zXWK$nY$sO-fyzu9=m^PTK){#grvr1BnAtu?J(ue6h;n-fCv7R3ECo2DIh!_18W8@D
z5<z4=TYDoFX3k+<flG7qKrp53m|sWccckEQ=9T2VA^{n7bLA6fMZrLYfkg_2s;P)l
zkjKz4b4h%Q(GR4VMmydUurw)H!qw95C(N{%|DQH9-82s`!Xf0%4CL(-1rGSX({eih
zma94G>JwdkN!M}Fb$ro~0t9wStOAbWfgsNEOX~)2%HdoRmUb_m-g37j-MdBi?xcHE
zbdLhZBfD;dI3=BjMd#r~{fE}dZyFcXz|)rIHyTcDT1OVuDNFg%)3>fCEp;NWv4fDS
zNob!>^gO=-*U}A%8-}+%{q=vb(!9#Q*_LeBDK_j}3$HgE&C1_&W#O2k542p}0SRS%
zzjEhB<*r4`R#gpQie#rERZ+QU{>a%ZqjEnjuUH&PS!xpXJ?oa9l+~FT;|t)K%=0{y
zZtsL|hZm2fT$PgNevLO#ziaJzvHsBADY5><M$O5^QJ^A~HOqn3=fxU8;9||dM#a&^
zlK`qJs+R|rW2>XEBeCH*uy`WX*tw<`0XZ7IKzv$ut;NLVfrPOEQC$F0d){;I1Y8Wk
zrslqNN8kJ96<h9xl`o6#-X#?wN>$5YK*n1YjZoNaT^kYGkKAicc#db3iaOVpr{RHG
zQP;TD3aEM|yz*sw+jaXGK(zXf)j@#HiQ1mElVWZEy}oxE?{(g*6>HBt4&JT|t?W)z
zv_oC#bKqL!Tf1{@04-k9=V9EbO)EOGcBLL5|84VwUe48<@o~<|%$Ey$Rx%M_fkDnf
zcyNN?JozEH7zX!U2T9>;uAI_|5^x_E<`-1>m6T4%fUc}`qA5^1!Oj)6$=PAcF9C_k
zr`Wc5kO(P$<aq2%)Iwxjo0EG`#}(lFY2sSAWrdOnDA8S<kEHx5Ll{i$K)0X=H`nuc
z%u*^SkX<PqxBBt)Uv~i}GZLhUnv{T`g4&>Nl9{P}J11`gQ(5(LPI=e}3Nd=Q&T>yM
zi3jZ9tPN)7S^(E+voMb>t}JC%sX&Rrj$X8vYIlHmjqHI`Oz9Z85z5P!EV=+U8(!7M
zEmNIx`uuMR<yuGFA#}lHn32IQ#wYZvKc9!}iyLVcJfUW}5s#}%%2ec3h^Bhw{PMpT
zD-GIgC{SWB6(}+E<YUUdxE*7=OMc7$B6N5DP4)qb<)-$^Z~5OiVC(_~2*ANi0iwiu
znL3b9CHvy#@|?&jK;%Y8jseW&bJC$+2lKIIU&&P4jj;90ar3_=Q|06>m<+;~0i&u)
zD%rr~F|BODiW-$@f81z*F|bN*h9?z>Ql`=hc9I<Cg&Bk0OiD>}r$9mo>y{*hrjF+8
zFZ)W(9~r}glu#{GT`TB&%;o<d>JIfJC-9v<R&Q<!eO3IF?Emso%158o!u*^f1rF>L
zCHK98y+Uriw{*<w{8Z_+3>L_QB9L3RWSA|hEJ6|*S!EI7*U?JhJLG&9PRu=85@`Wj
zH^-vABtfJS-#Ke}x&)r%jhPr06aoAPUie(Pj&Wm#M+VNFKQR~>J{veUH~`BK&z=p8
z3_LqJcs$Mb2)~IsY{PJXLP|R6qwsu-&uOL8^dh50fM$!IAa_ealQA#kB~72KCOW3q
z4TWU5Lc$mT8^Z86&$v6V|8fnlX-$^Zz>p(4ti4`I*h9FEm)M~vz@V(Hf%&;W2o@rv
zlM{i^Tmfbz8%6pSN{qB4pTE!Qqbusn?;n5u?!_eyS<qVEv+^YokZ8|_weK$fu65s^
zTO?idUu<aR89pTZ77`2JBj;bi@ii4_1N;t!ew&<sP0nwS^Sk7%ki%GKYvlU@IUYg_
z2Fb^89ER=u9$wSB5U>a`evUu-{O`#53OR()q?Ir=l{QL!6d=0?5s6p#M-&5cXa$<M
zk_N+<DC~#i{4eDEh@5-m{Ft0Sf#Y*aS`QUeB>+C3q2b^n=<0FeS{?^ttx4O61}C8(
zSrkSfJqU)UNbDnA8o&uIa^9g2r^)$CII!%;be<)Qg;r2$j3tYzK!FESeEYD++W+xW
zWQOL$P0X^t2a2L8Qg8UEzG>xrviXqMd}yP-|4$uEs=Qe=HUlv@%IhC+iUxf`TTA51
zmPA|sx}_iVcOr2%Ct40Bni)@^JJmg$@IM7g=P|wtAhoFqgnpuO_JbwRxg*(eOzb#D
zjFg&Q<l3nhwQWEwmi@>SDAG10C-oQ_R1GAg;zO6038}Y=&elZ7$U75>_Gd)rGvH9U
z^@|4J08L$QpG))%-0R=ydM4R;PBhjn4ge)uQY@WJIee=FqN584OHDn~8aTXBa{yWc
zN1n@T4IJ98Lx3Es>mG7gIH}_&|H|?oEU0%KxC)AD^Wq3lC6dywUwK+YpIGaGUjSDt
z?-k2?ljS2~`AEvu`asD$+cHYdR+qH;MXP_)dJKK>->*2(nrz%HHttSA?_uVR8Ky!Y
z`KrBO1{A9iwEZ*G2<)52U5}|2yl3o({s7l>p3f@~fL!nKt@f<DJJC*P5R`X{<(&!t
z;Y1hy9}&w3wkoQ&?5?D}L$r6?cU2@R+c#Vth#<NSC(4f`%8z2IIP4!A%4+Qo)i6!?
zKn35@F!h=%X>9}^l(e=JQ_$L(QQ*@9iu6cn)af%`4&4vbvk8$+wxqEM_N)>udlJp~
zzgINw+p^^+^4m%%kZiOaN*sAwY<oJ<@=T)Te8Twb1D(qL9KWc6aGtCBbG02%j;k62
z-G826v?R5yqPBHY3nNgRu|~q<jj+?$AsRbi-ecW3gxLX=ACvh#;}B9B>p%Ut7j=&S
zA>;nMy?$hmRv_a~+t4=pMkm3;Aim_0HnLEYLz!@x16fis#7R|%GUctNFpD+-nq)8l
zAjcxkG8KR>6>=|nO4;3&L8S#kf3!sj@cNl)G;xhU`l+Zv@$*^f0037aRVmg3u`!As
zxrQL2Doe2@rffwC@S4}22Z{OXq}l3IOZu!acj^7!8|x|!la%JYcw?3Vc!b?Xp_530
zUqtcja7ruZX6K|6Dt|^29WU)7UB0WKVs$|n@b96-G+CrW>urk72iW<7YX`ErgAwYa
z>=`1-j5?(=gQ`&gEW|oL^VBGc{Zl$ONR~!AHXK`)<|my19jT6iL_3H|{2*ULCjgkj
z(g^@YtsPorUEtk|?x)_f9a|ho*_=t6U$ps?ww<DF=Z0<9B19ajlI~ridsouES9I^)
zaPMC{{=UUspbOP0T07sh`U^Cnx<qT&rnNgIDYr?>Z}sTA#_k8usyfayQpq-854|WY
zu}XNJM9j{Uu^H?jAZnq-M<ZDTlJzNLjZf&$!btx&btBDeSV7F1<I`3@UO8HwZ2eQQ
zx%E%VDM(-ZAhg74mQbV@K?Z=CIKI?+%UkirDsTclD7nJ1XTT-{6sP!->zHJpiXO1J
zsB`fk-#WIs6w>O#6s9>V<R*Mtbp<k>60k;dUuZ*0pGunOEb3oU=%2x1<_Kw8OX4+?
z2#Qrdp~soY)Cbhn1j*mzeyX)^JwdIF=|V0&`^#r&Q$NYGGpc*j-i=xK_*7DIjvZ{U
ze2URg*fb`3Q2s&<$<V)*!uF8!GC4$&lFTBKEenZmzZ1T+kp$HyC#FNV!X=ni<3<C>
z*Zy0U1brYhlhZ*CZhYdHf!JaziOUq3oR9Dq*^g*sB~b$_iPhYJ!>JBT{V=cY+j7=r
z)Z`)3XG^AxdC58?vv{auuMnW{WDLv;>6f}hUAI`dV{MmMxhG>{p|I;)vwZFi-O7;Y
zX?w`>&A`@%#-35!P^fpLP==B`TRQV%G*R9pTAEj)tAlUeNLY4=x}J~K^zmUnLFTHO
zB|gt1aYbWB$vlUSNS-I=Lb0;BkT(-nT;bK`RGlxQWS+sNB+r)4^iWM9nK7jeCA1&{
z{nB^*vd{SaxCQnjAHsN}G^(sK3+(z>h`TX9HyMb8gsUMTvdxH{8J*sUzlZ-5&_)?m
zoI*hHLk8$dEn6I^s!|IVymZwR0RTl0IP0oXNAQ9c;U$jP1s%d^t0{V}^AYf6@Qqqf
z^ni*A?)^Lu3aJ6{V2CKL$1m}hVQhss-wVb(Z6=zhG3J)MWNIj9ch*$El{Z4iBfEX&
z?9Q70zsTe5oc%~#M4%2T2}HWi6CWyWFp`hzuMIN26PO3G2$u^C@aObML3g!I5$n6?
zkpT>%&c@Ao6G!mpdJrk=ijv_~PKlVbE3l_PBe7Wy%l|@~%36{yjh-)l<h}&BL?#BU
z7}56PI3P@DXw-zx&nY)YQ3bWXOU@;Z_7VvBw)Xqk0|s&gpmN5|7nKr$;|3o$;Hm))
z`W&T16el_84t3|!gEkJTcy`R89cG{Tk~|JVYr)9pboVfO99gYD&<!Dbkk1R0=D6kx
z^2+CkSyT=!KU|D3vm>r&@)icU&ry&3?9_syuAu`_u1i5Vmf~^>>x>d?QVDE56t08v
zf|*?o+P-RPhurS`Z%$gkiOV%ytnHYaxY(dvkoqb|zn1GwnuiPS8CBf5K%5766f{EV
ziMt96G3}K@^S`LKQ7*3!auh*T&=jtju3Z3?1Aur_feEFGsU!JxvJaz;v4*sU8=Ao2
z#Kg<6@*#r}RDpV)-Cv+#NOP?cW{0F%z-+ii2XlFl^oE^Gca@@PQYrx#b(EUnGtm8(
zjR!IA6TN3=4y?k$mNm0Z4bwA^`5d`0_#U$!%NJOWwZ!^H#^-19R|}CP7s#a-T=qnU
zTIhnk5EK8O358%H2A10u0`<7CkDM3Cp{m8&&e2^&upxsy2J?4F$$5C&&Yl>8B16!}
zz@BV$QXzvNKo^;A3>MKcvqIs3fJUg0qvV_+=PaD_sD+PSXqm?*2BJ|I!DU7wq0$hR
z+BHGfPh=@jl1V(U`H4;L?f34GGz(;f3rR}@RUbJD6`9ME=oKjX;2NdbY24CBsuF%k
zgQzaRbPRsY!|bvf0=Ukihj7^yt6{Ek(w!JjQ}q~W>je2ul5+}<uTh{mB7B9M--lCd
zeTAx+l~pggvx4#XiC9=Hzkm701z|E62wzAu#hCmp7r325Qa}k`kN`1;bJ5N&5P2<K
zMF4qLnjm`%VeXcv{JmW13W`QR+G96;Nmq9L8_JMr7tB$v%DKs4+PR%lm>o_DuAnU(
zx@Oxh<PhjeL}(ib#O)EBEFautnASXV=GpVZ&q&17J^}!b(Kid>8rhoDNT=O7121xW
zq|33=#tFLLF?-#Ruc~;kc2bsXM1DdAv%#Wq63$aGs>`#uw`|)bM<kIE1{rqt;zby9
z3ek;*kgLz$L?qEYDFQBtL?$$CrMea@thAx<r94|-M*D=iBfID+oegDINan6Ll4L!~
zbMIL)D=Ti4N^(o(=ObiCQ@WSMnh%!-TcG|-mlqOi<qAZqkY5&cF7+d!(++8^p>y+V
zO*o58e~wKdA}D3kueBVEFS~j~SI^BeDRWKIyhAkaxOps9(Uz<j5Gw|7QCrH>n)DnI
zJx6edTVWJKrEH^lOY2T*yG3pH#~iQgOVNj2qG1<=pVe+iPD8qPDB;*~a|8r9opW7#
zI^k(2w|n5;^J4c1kQ%iMShuZ_iAF3R-gI_6R4ZW+-r2Fl4AQnj==W~ZyT-#QX9w;H
zvFah_>#C9?+MXEErhjD6*>Hs<tiQTzSNPjk)?LR|I}<It@q2gAz40F&ym{usGS_`q
z<I0&0*RDmfm16QFjlH6=cf;5Riy^wB{Gx7C+qm+=X7d2Zzx1_7H1=#5dr@zleN(#w
z5+OQ^r2Ei+&yYNFRy=YxdE`9g)8ExTyXC5c!JINzvaC}q>s(W>m-XG3H6{8twTC~d
z>q~hWQ!W^$^}&6lQ+q+Zu7>=zrE%rdT1CRVe_gvjr8R$8=15sU!6g}QZA-$^a^Ks&
z=Dw%e^bRNLo)WdyDV=p`;Oo`snv?t){+(-oSql=dSO5Nr=kE=?c5?aYm6sA7hs4%H
z?->ujQ%iNP0jb=}6c!qo5HKXHO;9ml(!TXl5ARtymhc}Dn~rQc2QVaF^z?u<ByMCF
zd=JVG&H++>s6h^1ea6mJx2;zlM?v@8V#jgZ?e>vpXG&YW99%h*Y&t16okX1~G?+*r
zNoy;YFRk*wcIACXYeL(au(aN9*t5}q`xWX^jr&EdcdG$<AMoR=_amJ<rLFrd$M-7V
ztXymQJEcOe+0s>fpxq5wd}HnX#=T4|h3M9)>ef_USE{lx)zF*r4S<54YV3o23trb7
z_O8A3$Z2RY!#)hA1a2iXdbi9C`F_R()Ok~orZ+lMMtG`HMz=((#q0atj>S_+WA(bR
zdaeACMXS?)(u;aPE=jNX^y3Ky=H;g!Yn3**V?28H(~s@wlTZ9|oPUVW$@9ul%_$rI
zW3A(4kM_q^7V@_{PVUzK_|RZGUjBWn`{V)DzwfVs|Iez*PjRY0>mI1Y%b)88>Q1SZ
z|Dlb({DoS5%3Ssr`ZD;1(cE@s+_u`;);UP~h>_q0dH+b`k|Nw$%PwO846)7lD-lYt
zHE<7GbdbcUCbQ>LcrAVw$_mK0xog&7y#NpxFg;w?c8O%R`AdogJ!GDNdrD6!j4=mO
z0-Gy&eOiH0^imjP9{xgIOJI@=x58!Gr3tS_vIwJoxephS+2mU0f91M?ywre}nVwKX
zQ{HU*XV>sG82yfGUT%LvKAKW;2>;l;3n2ZRG(yB!5So+xSyBq$MGXkdD0-qEIY1_k
z0arCg1`Be@<qcD^bP%zpl<l1$Nj&R*lm8vf{{RwOK@Pckd~Oa(<e-;xc<rTvIcJvZ
z2Yea0O2h!kWF|K+xp9tJD>)HYL%Ku#Sy=B3KS{=TH7_^Aijg<loPwX1D@un$c1JUX
zIZ^x^L_l6{9GJ3&q_XAOGRr-!#cA?5IAQN!uU@c52@GRTDT(Y`)xo^RfGv*+FIGb?
zstj^bio6U|Fo#XThL8QGxu9;^xNUpgqW)Z|C9uR&QcQ8H+%j0kaRhY)zT%hNw~1e7
zRcXOR7H)vC*-J?;v2pU}YZWgCyT}-K3W}f}*p>-zW~wLT+DoPvaKk5Bk)sT}!qODJ
z$DNU8$haF>N#3|iu;fb%T3OyUSoy&=Ne?jc9K|F1)n51&7JeLzR`DNEpAvFc(HzcO
z%FHWEx%N5zoHHjZ)ri~zte6j$gD&9C8p<ZRfIIGv4#;s~ZO1L|h%kB$x&ZD?f{mV1
zQb*F-!3t4M4a@2Czw+LPQQ+Qo$~e2+PtbtirU=|GdTzm*4sJ_zy`8HCc3vGDPaZj`
zt}Cvy8&z@fF7}@Z<%EJ(3>oyrh!@AeX(Y!e=-1;#MN)cuAh#FI{2XKCVLkm<pF2h+
z@?t4}50nzZ3yYpCt$~N#qYBLL3YzasrjXuMf!xdi8-fteqUR=bOG+6u4(4nY#rZ&s
zoai&h?7$Op%Gu`u_2V-~6?Ty-<5g@;I16TcHCqog@k*??+ISV*x@~Kz^f(oaWWhKQ
zHK6F(Hcl-C<$Bq=uP?Fg8%mEMYSx&)zyzz77-a030wbvSfdwt>K=PgfgVtF};kI)r
zf3hi-l&{?`d1BF*-zbn9b3<;dIm?tiOxMm4-GnTvG-r+Pc9Jh^qMv{>`5FNN$l73S
z21F6u9ZA<Y`(uaxJ2PNv`F=?+WOSHOK#(cQ%2|eGR))P7VK|8F(42!=7GV~q8z#od
zAj|j#@Nxa#r`T61VYYVry#kS0w{av1IwX4F!=rEt#LryViJow0-Yo^KDH!W_#QChq
znTHr|ByuKQe!>gg$So^sCj2V=X(Mp&fP6`P_6GVwfwT4}5EV*Dm;Fc7IYP5Sk}gZQ
zPQTf?{PbG=AGZIX{ho1S=g6<T^k(O$5iMf;VtF0ETvo@&_MQf4jC-9W@{~jekc<n>
z(>;C|ugAz@L<8FIC2K(A(fJ6Yf2Fmgwi8BHF|&8NFh_v|!(v)_I>gF5aRp8`TiE@;
zw17rW%>0aWxkI-6*glE9PZnlq<hr`#?8(HDOi>~$CKB1n8=UioFL;Rz5<4g*ElM^&
zLzVm7)M@qc;gOLup!hKwR}m>IYomflMCrOBF|>kj0cL&oD`+<cnr4qg+X48-Jq2My
zI&XwVI56M<jutd;0vAC3xDsKurX&)VOf#W0uyw_5IG=}19`1`FqfJ>G)G+tLhKJUn
z+;gii{s99;Ac4Xn3G5<eO>8q`*wQS6#2PI{+?k%uQMzq|EZKnlNh!#bk#`(ddEic=
ztm%iztI)y1wMg?bxS@wtqb=mW<i}vnjDt1_X~*ydyui&;x%_lRHZFV}pP2{+=@xLG
z-wQiNs1a@ok6eZ|5?iNtSe^;lpwl@6N}(BMKMKYma_u0KLu?1Ygk;vQNL!3qcA|=b
zcHBj@FjywK1o_38Xv7~gJe!}w5J}C=OLSLEMROrmMmfSvNvr{;W!Rl1_$}VPXyP<S
z{63!~>3EmM?=WGTnzLjVLx2(I&?RW;!KXQUW@O~VsIV8Gg?;3Fm118d$4g06b4ZeQ
zojX79%z22vQuM&t;b%^q848>}$4sQ8)xpq(`AgDGd^aiK^KjC}XR>zP={_Rpu7xJ9
z2AHWOj9XN)exj!a1TNf&h9Xe#!zxLaO-C+~j3)DtxsS9a7-DxDwo}Fg{0g*R2=!Ei
z1~#=wEpUKd%0O=&k46PXBnAN!Wa#;5C_n?1Hscz}U_t4G9tf~r%SoizAJHpKaF~S2
zq3pub^nH*%5vDFYL(Vxk@-@LslPqnNju1>DG?$8<nSnMWtWD2cN}Jf|=Uz3`mFV+|
zY!b<UPv8P7nca(6zoS`KX*#gmnb}>)Aci8sjQ~0)+gp%%#U9M=ibp5VHS#be6S*Wn
zS4yJq3tym`@>kMEI%)#hnZ(+hwo3~wJMX0)GRb=!dljBTYPK<#B4f&7l1Qm=l*%OM
zS7|r@Z#cjq8;YxV9SuqQe$l@F<|(M#GxG{7zaTnx-W=I#^sgBc4TtXW_j>MLUFy0y
za^GZqeeBlQH@<Z9sgz3pwKFfDfegTJO?+?a&8baQ4^jTACCXny+e?JZ{V6MCA@_;a
zeF@_}qGi^CeyJ^|OQbwaNsnLj_}}yFSUjGB;p#KD&MY67@_N_U1L|5u&sG_tdO^9P
zdsCN9Qi4BF{-OQ{`c3VD`+C!2cvD~X?a0cZck6mmHus&X+f|!2y(C<udEeqBRk(wj
z7B95t?ig<yQ{~TQlu8>!MCw6^v)Ms(gpHF!o0j@qgmc*l4J-oDDxLQY=EbYuIIwK{
z`r+k^D^I^Mxyrv0PWb!RYx_UkJG2y+uHD;o?|P>J?XXni+RfD$lU;*i*I=USOse}}
zvU^zU9$wNe*CZ=CMEtjQ-nZ9g6bf70R@;u17?~x3h-}U*iJ9~5OST;o+m3Ctoe;In
zi^iqd`{nLCqqj#_4z77N%J(no?%SLjbOytDC%R!fzo<zWY>WNKH)TKh&c1g#5>_%+
zKsF8_kO-2T#r68^t=XixNi;XD1UAfli^^0(^UCEnyVe|Q&;OwMZsgwnAO4G_>q~0N
z%DVK_osrukP*tQH9TiJ$%l`Lk8*lGf^)Qnvd~YSFgUeNkroE}!rtgM-ExfcRVc$oF
zK@JocNYQdV`yLO*)!0_&vM15pzh2P~aj*NXhLo#m<%N|~sO*j^IL>NxhuaRBV+@j!
zbAz^<`(97qVNgN-o-uMp`_l94hUyj9_p0Bl{)4(?&yd(Nv|c|%^1O}TJ^aSuWK|Dj
z-|t&nVS@XCM%_^PP_1otJy5~7JU|nz^4oh>4zCStRFOrQi~`{gC<fLB==Sb?qI=)n
zfpzyGL~Y-f^bL!?;Z5JMt%{mQRc4$0q0&kM!kGrnRFjoQ`_kQmiO%Ei%qNVv!24O)
z$9W_4hHcfhVeD9a30AxDn=)3sG5<#WYW;?>bB$-j@Xq^H?a8WLV%4t2r+#@PWpXTC
zTQ}9N?Ec=tHxK^7;biZK*gLY`NY{hcwo69g*J}>l9e_-;v2uAL0WHs3qPgR}eedGP
zrm+=WW35P9_K21}3CrQsf&M?<^TR!f!DlxPJh!CVwC+VtSe=$0(bBUvux{x~HMf25
z`8S_WbPaAa4<)P(DQ|budr<Tq-0=33p%EAuS$FKdU)hqX9L5FY%P;_>YH7nF@f}FC
z9)K9&!S+=9p4B>x(7v4+lePl0T2IDM^e{c*;Y^jKTf9T8+CeS;h$e5%^2OyZth|_?
zY-?>PNA*(2^7)mP?{&V}xl+4&jTX$_{DQ#@0q?+g%a}6mz&`T6yZY9#l{S!{!3fal
zAI&Q{tl;o_(ms)_>q*r0eERVb1;&?&=Kh7H{28-Z2BL}Q>l+qAbeb%Z^CFzIMTS*o
zXCnUb3lqfqf!z!GWFST#yK)S6uGAEwA~gqr1bc)sdbdc2sl;x^X(JGnEL}3~F8bsr
ztN}oQ03t9>O<b)@@eTB10(=BUFz&XV21F;_F?yLcbOtY|$WDl4pUl9n+K|97fdp3s
zP&lBXMVUz7qzf(tBG#tOEH*52MFHwfM<feqRu)J~>|_cJ*KDw>H_{#!Oh(Eg{+Upe
z4yOQnE8uFn3*tm>0CJhmMgekzJ2KeU!fQZ4MW<_EW(A35E0s(Uu7@UIcu-(+b!n5F
zPAZPEcnMogdvcogdE;X2x)teWHYT^n__r6Rs~A86JSr=<H$XndZ#AR4q5x~M{7FfA
zFG!#J$@v;N%jCRF4oPYVJ(M9a1Jjyw7?4m@y6>2su}u_#C>atTQF{>R!+bc@FMJd6
z@t=#>L8XLc7@mKq<#_u~Io(e=^UpZ{2VDKnxT>FV-5=0@?+0AnUvuW4a{9mFoIm3Z
zi`?N4xW*5-jt{t=pK&KY;C6n%?fQUg{u$T*q0;(+YR`wd@})0q=xT3jwkm29oa>QB
z$vc*Uk2w5%Vl3l*4>&m3)f9$L6h?k`hJyn!JB1;`UTfJ0E#H~p;AB6*_lfI8p0q;9
z%^X2|W0J2F`O1vK#G6w#Xn)XeXE*!ZQkxcoFMs)CHNq&1Di$l#23FAnT^(;r;WlO^
zezzR1j2ge#g>2;+AdEKbB<{-Pq1#grDc&bT{5dVZ;{iu*CTz`@iW{G69_YTH;PtF*
z@@$oRmOZyeGirLFeGNG>uXIr~^XfT`Ii=F2w6M>$Th#8pTP|u3rL@jv6><KwmDpBv
z)en>^wdR3RqfvZppj6owunexM#;8nJ#ht0!QyC?_Y+33vYVx2=hkGf8t3NVj>>UL+
nWpvD|=Nz>e1M?a=N84(XX!mDK?A=UC>gR9wKeEs(n=}6}c-qQk

literal 0
HcmV?d00001

diff --git a/v1/engine/async_llm.py b/v1/engine/async_llm.py
new file mode 100644
index 0000000..c160c7c
--- /dev/null
+++ b/v1/engine/async_llm.py
@@ -0,0 +1,797 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import os
+import socket
+import time
+from collections.abc import AsyncGenerator, Iterable, Mapping
+from copy import copy
+from typing import Any, cast
+
+import numpy as np
+import torch
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.engine.arg_utils import AsyncEngineArgs
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.utils import _validate_truncation_size
+from vllm.inputs import PromptType
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.outputs import PoolingRequestOutput, RequestOutput
+from vllm.plugins.io_processors import get_io_processor
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.tasks import SupportedTask
+from vllm.tracing import init_tracer
+from vllm.transformers_utils.config import maybe_register_config_serialize_by_value
+from vllm.transformers_utils.tokenizer import AnyTokenizer, init_tokenizer_from_configs
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils.async_utils import cancel_task_threadsafe
+from vllm.utils.collection_utils import as_list
+from vllm.utils.func_utils import deprecate_kwargs
+from vllm.utils.math_utils import cdiv
+from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.engine.core_client import EngineCoreClient
+from vllm.v1.engine.exceptions import EngineDeadError, EngineGenerateError
+from vllm.v1.engine.output_processor import OutputProcessor, RequestOutputCollector
+from vllm.v1.engine.parallel_sampling import ParentRequest
+from vllm.v1.engine.processor import Processor
+from vllm.v1.executor import Executor
+from vllm.v1.metrics.loggers import (
+    StatLoggerFactory,
+    StatLoggerManager,
+    load_stat_logger_plugin_factories,
+)
+from vllm.v1.metrics.prometheus import shutdown_prometheus
+from vllm.v1.metrics.stats import IterationStats
+
+logger = init_logger(__name__)
+
+
+class AsyncLLM(EngineClient):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        use_cached_outputs: bool = False,
+        log_requests: bool = True,
+        start_engine_loop: bool = True,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+        aggregate_engine_logging: bool = False,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+    ) -> None:
+        """
+        Create an AsyncLLM.
+
+        Args:
+            vllm_config: global configuration.
+            executor_class: an Executor impl, e.g. MultiprocExecutor.
+            log_stats: Whether to log stats.
+            usage_context: Usage context of the LLM.
+            mm_registry: Multi-modal registry.
+            use_cached_outputs: Whether to use cached outputs.
+            log_requests: Whether to log requests.
+            start_engine_loop: Whether to start the engine loop.
+            stat_loggers: customized stat loggers for the engine.
+                If not provided, default stat loggers will be used.
+                PLEASE BE AWARE THAT STAT LOGGER IS NOT STABLE
+                IN V1, AND ITS BASE CLASS INTERFACE MIGHT CHANGE.
+
+        Returns:
+            None
+        """
+        # Ensure we can serialize custom transformer configs
+        maybe_register_config_serialize_by_value()
+
+        self.model_config = vllm_config.model_config
+        self.vllm_config = vllm_config
+        self.observability_config = vllm_config.observability_config
+        self.log_requests = log_requests
+
+        custom_stat_loggers = list(stat_loggers or [])
+        custom_stat_loggers.extend(load_stat_logger_plugin_factories())
+
+        has_custom_loggers = bool(custom_stat_loggers)
+        self.log_stats = log_stats or has_custom_loggers
+        if not log_stats and has_custom_loggers:
+            logger.info(
+                "AsyncLLM created with log_stats=False, "
+                "but custom stat loggers were found; "
+                "enabling logging without default stat loggers."
+            )
+
+        if self.model_config.skip_tokenizer_init:
+            tokenizer = None
+        else:
+            tokenizer = init_tokenizer_from_configs(self.model_config)
+
+        self.processor = Processor(self.vllm_config, tokenizer)
+        self.io_processor = get_io_processor(
+            self.vllm_config,
+            self.model_config.io_processor_plugin,
+        )
+
+        # OutputProcessor (converts EngineCoreOutputs --> RequestOutput).
+        stream_interval = self.vllm_config.scheduler_config.stream_interval
+        self.output_processor = OutputProcessor(
+            self.tokenizer, log_stats=self.log_stats, stream_interval=stream_interval
+        )
+        endpoint = self.observability_config.otlp_traces_endpoint
+        if endpoint is not None:
+            tracer = init_tracer("vllm.llm_engine", endpoint)
+            self.output_processor.tracer = tracer
+
+        # EngineCore (starts the engine in background process).
+        self.engine_core = EngineCoreClient.make_async_mp_client(
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=self.log_stats,
+            client_addresses=client_addresses,
+            client_count=client_count,
+            client_index=client_index,
+        )
+
+        # Loggers.
+        self.logger_manager: StatLoggerManager | None = None
+        if self.log_stats:
+            self.logger_manager = StatLoggerManager(
+                vllm_config=vllm_config,
+                engine_idxs=self.engine_core.engine_ranks_managed,
+                custom_stat_loggers=custom_stat_loggers,
+                enable_default_loggers=log_stats,
+                client_count=client_count,
+                aggregate_engine_logging=aggregate_engine_logging,
+            )
+            self.logger_manager.log_engine_initialized()
+
+        self.output_handler: asyncio.Task | None = None
+        try:
+            # Start output handler eagerly if we are in the asyncio eventloop.
+            asyncio.get_running_loop()
+            self._run_output_handler()
+        except RuntimeError:
+            pass
+
+        if envs.VLLM_TORCH_PROFILER_DIR:
+            logger.info(
+                "Torch profiler enabled. AsyncLLM CPU traces will be collected under %s",  # noqa: E501
+                envs.VLLM_TORCH_PROFILER_DIR,
+            )
+            worker_name = f"{socket.gethostname()}_{os.getpid()}.async_llm"
+            self.profiler = torch.profiler.profile(
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                ],
+                with_stack=envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    envs.VLLM_TORCH_PROFILER_DIR, worker_name=worker_name, use_gzip=True
+                ),
+            )
+        else:
+            self.profiler = None
+
+    @classmethod
+    @deprecate_kwargs(
+        "disable_log_requests",
+        additional_message=(
+            "This argument will have no effect. Use `enable_log_requests` instead."
+        ),
+    )
+    def from_vllm_config(
+        cls,
+        vllm_config: VllmConfig,
+        start_engine_loop: bool = True,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+        enable_log_requests: bool = False,
+        aggregate_engine_logging: bool = False,
+        disable_log_stats: bool = False,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+        disable_log_requests: bool = True,  # Deprecated, will be removed
+    ) -> "AsyncLLM":
+        # Create the LLMEngine.
+        return cls(
+            vllm_config=vllm_config,
+            executor_class=Executor.get_class(vllm_config),
+            start_engine_loop=start_engine_loop,
+            stat_loggers=stat_loggers,
+            log_requests=enable_log_requests,
+            log_stats=not disable_log_stats,
+            aggregate_engine_logging=aggregate_engine_logging,
+            usage_context=usage_context,
+            client_addresses=client_addresses,
+            client_count=client_count,
+            client_index=client_index,
+        )
+
+    @classmethod
+    def from_engine_args(
+        cls,
+        engine_args: AsyncEngineArgs,
+        start_engine_loop: bool = True,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+    ) -> "AsyncLLM":
+        """Create an AsyncLLM from the EngineArgs."""
+
+        # Create the engine configs.
+        vllm_config = engine_args.create_engine_config(usage_context)
+        executor_class = Executor.get_class(vllm_config)
+
+        # Create the AsyncLLM.
+        return cls(
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_requests=engine_args.enable_log_requests,
+            log_stats=not engine_args.disable_log_stats,
+            start_engine_loop=start_engine_loop,
+            usage_context=usage_context,
+            stat_loggers=stat_loggers,
+        )
+
+    def __del__(self):
+        self.shutdown()
+
+    def shutdown(self):
+        """Shutdown, cleaning up the background proc and IPC."""
+
+        shutdown_prometheus()
+
+        if engine_core := getattr(self, "engine_core", None):
+            engine_core.shutdown()
+
+        handler = getattr(self, "output_handler", None)
+        if handler is not None:
+            cancel_task_threadsafe(handler)
+
+    async def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return await self.engine_core.get_supported_tasks_async()
+
+    async def add_request(
+        self,
+        request_id: str,
+        prompt: EngineCoreRequest | PromptType,
+        params: SamplingParams | PoolingParams,
+        arrival_time: float | None = None,
+        lora_request: LoRARequest | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        data_parallel_rank: int | None = None,
+        prompt_text: str | None = None,
+    ) -> RequestOutputCollector:
+        """Add new request to the AsyncLLM."""
+
+        if self.errored:
+            raise EngineDeadError()
+
+        is_pooling = isinstance(params, PoolingParams)
+
+        # Create a new output collector for the request.
+        queue = RequestOutputCollector(output_kind=params.output_kind)
+
+        # Convert Input --> Request.
+        if isinstance(prompt, EngineCoreRequest):
+            request = prompt
+        else:
+            assert prompt_text is None
+            logger.warning_once(
+                "Processor has been moved under OpenAIServing and will "
+                "be removed from AsyncLLM in v0.13."
+            )
+            request = self.processor.process_inputs(
+                request_id,
+                prompt,
+                params,
+                arrival_time,
+                lora_request,
+                tokenization_kwargs,
+                trace_headers,
+                priority,
+                data_parallel_rank,
+            )
+            if isinstance(prompt, str):
+                prompt_text = prompt
+            elif isinstance(prompt, Mapping):
+                prompt_text = cast(str | None, prompt.get("prompt"))
+
+        if is_pooling or params.n == 1:
+            await self._add_request(request, prompt_text, None, 0, queue)
+            return queue
+
+        # Get the updated SamplingParams from the request, which
+        # were cloned/updated in processor.process_inputs above.
+        parent_params = request.sampling_params
+        assert parent_params is not None
+
+        # Fan out child requests (for n>1).
+        parent_request = ParentRequest(request_id, parent_params)
+        for idx in range(parent_params.n):
+            request_id, child_params = parent_request.get_child_info(idx)
+            child_request = request if idx == parent_params.n - 1 else copy(request)
+            child_request.request_id = request_id
+            child_request.sampling_params = child_params
+            await self._add_request(
+                child_request, prompt_text, parent_request, idx, queue
+            )
+        return queue
+
+    async def _add_request(
+        self,
+        request: EngineCoreRequest,
+        prompt: str | None,
+        parent_req: ParentRequest | None,
+        index: int,
+        queue: RequestOutputCollector,
+    ):
+        # Add the request to OutputProcessor (this process).
+        self.output_processor.add_request(request, prompt, parent_req, index, queue)
+
+        # Add the EngineCoreRequest to EngineCore (separate process).
+        await self.engine_core.add_request_async(request)
+
+        if self.log_requests:
+            logger.info("Added request %s.", request.request_id)
+
+    # TODO: we should support multiple prompts in one call, as you
+    # can do with LLM.generate. So that for multi-prompt completion
+    # requests we don't need to send multiple messages to core proc,
+    # and so we don't need multiple streams which then get
+    # re-multiplexed in the API server anyhow.
+    async def generate(
+        self,
+        prompt: EngineCoreRequest | PromptType,
+        sampling_params: SamplingParams,
+        request_id: str,
+        *,
+        prompt_text: str | None = None,
+        lora_request: LoRARequest | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        data_parallel_rank: int | None = None,
+    ) -> AsyncGenerator[RequestOutput, None]:
+        """
+        Main function called by the API server to kick off a request
+            * 1) Making an AsyncStream corresponding to the Request.
+            * 2) Processing the Input.
+            * 3) Adding the Request to the Detokenizer.
+            * 4) Adding the Request to the EngineCore (separate process).
+
+        A separate output_handler loop runs in a background AsyncIO task,
+        pulling outputs from EngineCore and putting them into the
+        per-request AsyncStream.
+
+        The caller of generate() iterates the returned AsyncGenerator,
+        returning the RequestOutput back to the caller.
+        """
+
+        if (
+            self.vllm_config.cache_config.kv_sharing_fast_prefill
+            and sampling_params.prompt_logprobs
+        ):
+            raise ValueError(
+                "--kv-sharing-fast-prefill produces incorrect logprobs for "
+                "prompt tokens, please disable it when the requests need "
+                "prompt logprobs"
+            )
+
+        try:
+            # We start the output_handler on the first call to generate() so
+            # we can call __init__ before the event loop, which enables us
+            # to handle startup failure gracefully in the OpenAI server.
+            self._run_output_handler()
+
+            if tokenization_kwargs is None:
+                tokenization_kwargs = {}
+                truncate_prompt_tokens = sampling_params.truncate_prompt_tokens
+
+                _validate_truncation_size(
+                    self.model_config.max_model_len,
+                    truncate_prompt_tokens,
+                    tokenization_kwargs,
+                )
+
+            q = await self.add_request(
+                request_id,
+                prompt,
+                sampling_params,
+                lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
+                trace_headers=trace_headers,
+                priority=priority,
+                data_parallel_rank=data_parallel_rank,
+                prompt_text=prompt_text,
+            )
+
+            # The output_handler task pushes items into the queue.
+            # This task pulls from the queue and yields to caller.
+            finished = False
+            while not finished:
+                # Note: drain queue without await if possible (avoids
+                # task switching under load which helps performance).
+                out = q.get_nowait() or await q.get()
+
+                # Note: both OutputProcessor and EngineCore handle their
+                # own request cleanup based on finished.
+                finished = out.finished
+                assert isinstance(out, RequestOutput)
+                yield out
+
+        # If the request is disconnected by the client, generate()
+        # is cancelled or the generator is garbage collected. So,
+        # we abort the request if we end up here.
+        except (asyncio.CancelledError, GeneratorExit):
+            await self.abort(request_id)
+            if self.log_requests:
+                logger.info("Request %s aborted.", request_id)
+            raise
+
+        # Engine is dead. Do not abort since we shut down.
+        except EngineDeadError:
+            if self.log_requests:
+                logger.info("Request %s failed (engine dead).", request_id)
+            raise
+
+        # Request validation error.
+        except ValueError:
+            if self.log_requests:
+                logger.info("Request %s failed (bad request).", request_id)
+            raise
+
+        # Unexpected error in the generate() task (possibly recoverable).
+        except Exception as e:
+            await self.abort(request_id)
+            if self.log_requests:
+                logger.info("Request %s failed.", request_id)
+            raise EngineGenerateError() from e
+
+    def _run_output_handler(self):
+        """Background loop: pulls from EngineCore and pushes to AsyncStreams."""
+
+        if self.output_handler is not None:
+            return
+
+        # Ensure that the task doesn't have a circular ref back to the AsyncLLM
+        # object, or else it won't be garbage collected and cleaned up properly.
+        engine_core = self.engine_core
+        output_processor = self.output_processor
+        log_stats = self.log_stats
+        logger_manager = self.logger_manager
+        processor = self.processor
+
+        async def output_handler():
+            try:
+                while True:
+                    # 1) Pull EngineCoreOutputs from the EngineCore.
+                    outputs = await engine_core.get_output_async()
+                    num_outputs = len(outputs.outputs)
+
+                    iteration_stats = (
+                        IterationStats() if (log_stats and num_outputs) else None
+                    )
+
+                    # Split outputs into chunks of at most
+                    # VLLM_V1_OUTPUT_PROC_CHUNK_SIZE, so that we don't block the
+                    # event loop for too long.
+                    if num_outputs <= envs.VLLM_V1_OUTPUT_PROC_CHUNK_SIZE:
+                        slices = (outputs.outputs,)
+                    else:
+                        slices = np.array_split(
+                            outputs.outputs,
+                            cdiv(num_outputs, envs.VLLM_V1_OUTPUT_PROC_CHUNK_SIZE),
+                        )
+
+                    for i, outputs_slice in enumerate(slices):
+                        # 2) Process EngineCoreOutputs.
+                        processed_outputs = output_processor.process_outputs(
+                            outputs_slice, outputs.timestamp, iteration_stats
+                        )
+                        # NOTE: RequestOutputs are pushed to their queues.
+                        assert not processed_outputs.request_outputs
+
+                        # Allow other asyncio tasks to run between chunks
+                        if i + 1 < len(slices):
+                            await asyncio.sleep(0)
+
+                        # 3) Abort any reqs that finished due to stop strings.
+                        await engine_core.abort_requests_async(
+                            processed_outputs.reqs_to_abort
+                        )
+
+                    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+                    # 4) Logging.
+                    # TODO(rob): make into a coroutine and launch it in
+                    # background thread once Prometheus overhead is non-trivial.
+                    if logger_manager:
+                        logger_manager.record(
+                            engine_idx=outputs.engine_index,
+                            scheduler_stats=outputs.scheduler_stats,
+                            iteration_stats=iteration_stats,
+                            mm_cache_stats=processor.stat_mm_cache(),
+                        )
+            except Exception as e:
+                logger.exception("AsyncLLM output_handler failed.")
+                output_processor.propagate_error(e)
+
+        self.output_handler = asyncio.create_task(output_handler())
+
+    async def abort(self, request_id: str | Iterable[str]) -> None:
+        """Abort RequestId in OutputProcessor and EngineCore."""
+
+        request_ids = (
+            (request_id,) if isinstance(request_id, str) else as_list(request_id)
+        )
+        all_request_ids = self.output_processor.abort_requests(request_ids)
+        await self.engine_core.abort_requests_async(all_request_ids)
+
+        if self.log_requests:
+            logger.info("Aborted request(s) %s.", ",".join(request_ids))
+
+    async def encode(
+        self,
+        prompt: PromptType,
+        pooling_params: PoolingParams,
+        request_id: str,
+        lora_request: LoRARequest | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        truncate_prompt_tokens: int | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+    ) -> AsyncGenerator[PoolingRequestOutput, None]:
+        """
+        Main function called by the API server to kick off a request
+            * 1) Making an AsyncStream corresponding to the Request.
+            * 2) Processing the Input.
+            * 3) Adding the Request to the EngineCore (separate process).
+
+        A separate output_handler loop runs in a background AsyncIO task,
+        pulling outputs from EngineCore and putting them into the
+        per-request AsyncStream.
+
+        The caller of generate() iterates the returned AsyncGenerator,
+        returning the RequestOutput back to the caller.
+        """
+
+        try:
+            # We start the output_handler on the first call to generate() so
+            # we can call __init__ before the event loop, which enables us
+            # to handle startup failure gracefully in the OpenAI server.
+            self._run_output_handler()
+
+            if tokenization_kwargs is None:
+                tokenization_kwargs = {}
+            _validate_truncation_size(
+                self.model_config.max_model_len,
+                truncate_prompt_tokens,
+                tokenization_kwargs,
+            )
+
+            q = await self.add_request(
+                request_id,
+                prompt,
+                pooling_params,
+                lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
+                trace_headers=trace_headers,
+                priority=priority,
+            )
+
+            # The output_handler task pushes items into the queue.
+            # This task pulls from the queue and yields to caller.
+            finished = False
+            while not finished:
+                # Note: drain queue without await if possible (avoids
+                # task switching under load which helps performance).
+                out = q.get_nowait() or await q.get()
+                assert isinstance(out, PoolingRequestOutput)
+                # Note: both OutputProcessor and EngineCore handle their
+                # own request cleanup based on finished.
+                finished = out.finished
+                yield out
+
+        # If the request is disconnected by the client, generate()
+        # is cancelled. So, we abort the request if we end up here.
+        except asyncio.CancelledError:
+            await self.abort(request_id)
+            if self.log_requests:
+                logger.info("Request %s aborted.", request_id)
+            raise
+
+        # Engine is dead. Do not abort since we shut down.
+        except EngineDeadError:
+            if self.log_requests:
+                logger.info("Request %s failed (engine dead).", request_id)
+            raise
+
+        # Request validation error.
+        except ValueError:
+            if self.log_requests:
+                logger.info("Request %s failed (bad request).", request_id)
+            raise
+
+        # Unexpected error in the generate() task (possibly recoverable).
+        except Exception as e:
+            await self.abort(request_id)
+            if self.log_requests:
+                logger.info("Request %s failed.", request_id)
+            raise EngineGenerateError() from e
+
+    @property
+    def tokenizer(self) -> AnyTokenizer | None:
+        return self.processor.tokenizer
+
+    @tokenizer.setter
+    def tokenizer(self, tokenizer: AnyTokenizer | None) -> None:
+        self.processor.tokenizer = tokenizer
+
+    async def get_tokenizer(self) -> AnyTokenizer:
+        if self.tokenizer is None:
+            raise ValueError(
+                "Unable to get tokenizer because skip_tokenizer_init is True"
+            )
+
+        return self.tokenizer
+
+    async def is_tracing_enabled(self) -> bool:
+        return self.observability_config.otlp_traces_endpoint is not None  # type: ignore
+
+    async def do_log_stats(self) -> None:
+        if self.logger_manager:
+            self.logger_manager.log()
+
+    async def check_health(self) -> None:
+        logger.debug("Called check_health.")
+        if self.errored:
+            raise self.dead_error
+
+    async def start_profile(self) -> None:
+        coros = [self.engine_core.profile_async(True)]
+        if self.profiler is not None:
+            coros.append(asyncio.to_thread(self.profiler.start))
+        await asyncio.gather(*coros)
+
+    async def stop_profile(self) -> None:
+        coros = [self.engine_core.profile_async(False)]
+        if self.profiler is not None:
+            coros.append(asyncio.to_thread(self.profiler.stop))
+        await asyncio.gather(*coros)
+
+    async def reset_mm_cache(self) -> None:
+        self.processor.clear_mm_cache()
+        await self.engine_core.reset_mm_cache_async()
+
+    async def reset_prefix_cache(self) -> None:
+        await self.engine_core.reset_prefix_cache_async()
+
+    async def sleep(self, level: int = 1) -> None:
+        await self.reset_prefix_cache()
+        await self.engine_core.sleep_async(level)
+
+        if self.logger_manager is not None:
+            self.logger_manager.record_sleep_state(1, level)
+
+    async def wake_up(self, tags: list[str] | None = None) -> None:
+        await self.engine_core.wake_up_async(tags)
+
+        if self.logger_manager is not None:
+            self.logger_manager.record_sleep_state(0, 0)
+
+    async def is_sleeping(self) -> bool:
+        return await self.engine_core.is_sleeping_async()
+
+    async def add_lora(self, lora_request: LoRARequest) -> bool:
+        """Load a new LoRA adapter into the engine for future requests."""
+        return await self.engine_core.add_lora_async(lora_request)
+
+    async def remove_lora(self, lora_id: int) -> bool:
+        """Remove an already loaded LoRA adapter."""
+        return await self.engine_core.remove_lora_async(lora_id)
+
+    async def list_loras(self) -> set[int]:
+        """List all registered adapters."""
+        return await self.engine_core.list_loras_async()
+
+    async def pin_lora(self, lora_id: int) -> bool:
+        """Prevent an adapter from being evicted."""
+        return await self.engine_core.pin_lora_async(lora_id)
+
+    async def collective_rpc(
+        self,
+        method: str,
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+    ):
+        """
+        Perform a collective RPC call to the given path.
+        """
+        return await self.engine_core.collective_rpc_async(
+            method, timeout, args, kwargs
+        )
+
+    async def wait_for_requests_to_drain(self, drain_timeout: int = 300):
+        """Wait for all requests to be drained."""
+        start_time = time.time()
+        while time.time() - start_time < drain_timeout:
+            if not self.engine_core.dp_engines_running():
+                logger.info("Engines are idle, requests have been drained")
+                return
+
+            logger.info("Engines are still running, waiting for requests to drain...")
+            await asyncio.sleep(1)  # Wait 1 second before checking again
+
+        raise TimeoutError(
+            f"Timeout reached after {drain_timeout} seconds "
+            "waiting for requests to drain."
+        )
+
+    async def scale_elastic_ep(
+        self, new_data_parallel_size: int, drain_timeout: int = 300
+    ):
+        """
+        Scale up or down the data parallel size by adding or removing
+        engine cores.
+        Args:
+            new_data_parallel_size: The new number of data parallel workers
+            drain_timeout:
+                Maximum time to wait for requests to drain (seconds)
+        """
+        old_data_parallel_size = self.vllm_config.parallel_config.data_parallel_size
+        if old_data_parallel_size == new_data_parallel_size:
+            logger.info(
+                "Data parallel size is already %s, skipping scale",
+                new_data_parallel_size,
+            )
+            return
+        logger.info(
+            "Waiting for requests to drain before scaling up to %s engines...",
+            new_data_parallel_size,
+        )
+        await self.wait_for_requests_to_drain(drain_timeout)
+        logger.info(
+            "Requests have been drained, proceeding with scale to %s engines",
+            new_data_parallel_size,
+        )
+        await self.engine_core.scale_elastic_ep(new_data_parallel_size)
+        self.vllm_config.parallel_config.data_parallel_size = new_data_parallel_size
+
+        # recreate stat loggers
+        if new_data_parallel_size > old_data_parallel_size and self.log_stats:
+            # TODO(rob): fix this after talking with Ray team.
+            # This resets all the prometheus metrics since we
+            # unregister during initialization. Need to understand
+            # the intended behavior here better.
+            self.logger_manager = StatLoggerManager(
+                vllm_config=self.vllm_config,
+                engine_idxs=list(range(new_data_parallel_size)),
+                custom_stat_loggers=None,
+            )
+
+    @property
+    def is_running(self) -> bool:
+        # Is None before the loop is started.
+        return self.output_handler is None or not self.output_handler.done()
+
+    @property
+    def is_stopped(self) -> bool:
+        return self.errored
+
+    @property
+    def errored(self) -> bool:
+        return self.engine_core.resources.engine_dead or not self.is_running
+
+    @property
+    def dead_error(self) -> BaseException:
+        return EngineDeadError()
diff --git a/v1/engine/coordinator.py b/v1/engine/coordinator.py
new file mode 100644
index 0000000..953342c
--- /dev/null
+++ b/v1/engine/coordinator.py
@@ -0,0 +1,377 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import copy
+import multiprocessing
+import time
+import weakref
+
+import msgspec.msgpack
+import zmq
+
+from vllm.config import ParallelConfig
+from vllm.logger import init_logger
+from vllm.utils.network_utils import make_zmq_socket
+from vllm.utils.system_utils import get_mp_context, set_process_title
+from vllm.v1.engine import EngineCoreOutputs, EngineCoreRequestType
+from vllm.v1.serial_utils import MsgpackDecoder
+from vllm.v1.utils import get_engine_client_zmq_addr, shutdown
+
+logger = init_logger(__name__)
+
+
+class DPCoordinator:
+    """Coordinator process used for data-parallel deployments (DP>1).
+
+    Intermediates between multiple DP engine rank processes and one or more
+    front-end API server processes.
+
+    * Collects stats from each DP engine (currently just waiting and running
+      queue lengths), and publishes these to all front-ends for use in
+      load-balancing decisions.
+
+    * Keeps track of the current DP "request wave" number and running state
+      of the engines. This is received from the DP rank 0 engine and published
+      to the front-end processes along with the current load stats.
+
+      The engines alternate between a global running/paused state. The global
+      "request wave" number is a count of the number of times that the workers
+      collectively move from a running state to a paused state. This transition
+      is synchronized via the all-reduce operation performed in the
+      DPEngineCoreProc._has_global_unfinished_reqs method.
+
+    * Broadcasts the START_DP_WAVE message to engines to move them from paused
+      to running state when one engine receives a new request. This can happen
+      in two cases:
+      1) A front-end sending a new request while the engines are paused will
+         concurrently notify the coordinator.
+      2) An engine receiving a request for a stale request wave while in paused
+         state will notify the coordinator.
+
+    Engines will move into running state when receiving a new request or
+    START_DP_WAVE message.
+
+    Note that when deployed in External LB mode, no stats will be published by
+    the engines and thus updates will only be sent to front-ends when the
+    request wave / running state changes.
+    """
+
+    def __init__(self, parallel_config: ParallelConfig):
+        dp_size = parallel_config.data_parallel_size
+        assert dp_size > 1, "Coordinator only used for data parallel"
+
+        host = parallel_config.data_parallel_master_ip
+        external_lb = parallel_config.data_parallel_external_lb
+        hybrid_lb = parallel_config.data_parallel_hybrid_lb
+
+        # Assume coordinator is colocated with front-end procs when not in
+        # either external or hybrid DP LB mode.
+        local_only = not (external_lb or hybrid_lb)
+        front_publish_address = get_engine_client_zmq_addr(
+            local_only=local_only, host=host
+        )
+
+        local_only_eng = dp_size == parallel_config.data_parallel_size_local
+        back_publish_address = get_engine_client_zmq_addr(local_only_eng, host)
+        back_output_address = get_engine_client_zmq_addr(local_only_eng, host)
+
+        context = get_mp_context()
+        self.proc: multiprocessing.Process = context.Process(
+            target=DPCoordinatorProc.run_coordinator,
+            name="VLLM_DP_Coordinator",
+            kwargs={
+                "engine_count": parallel_config.data_parallel_size,
+                "front_publish_address": front_publish_address,
+                "back_output_address": back_output_address,
+                "back_publish_address": back_publish_address,
+            },
+            daemon=True,
+        )
+        self.proc.start()
+
+        self.stats_publish_address = front_publish_address
+        self.coord_in_address = back_publish_address
+        self.coord_out_address = back_output_address
+        self._finalizer = weakref.finalize(self, shutdown, [self.proc])
+
+    def get_stats_publish_address(self) -> str:
+        return self.stats_publish_address
+
+    def get_engine_socket_addresses(self) -> tuple[str, str]:
+        """Returns tuple of ZMQ input address, output address."""
+        return self.coord_in_address, self.coord_out_address
+
+    def close(self):
+        self._finalizer()
+
+
+class EngineState:
+    def __init__(self):
+        self.request_counts = [0, 0]  # [waiting, running]
+
+
+class DPCoordinatorProc:
+    def __init__(self, engine_count: int, min_stats_update_interval_ms: int = 100):
+        set_process_title("DPCoordinator")
+        self.ctx = zmq.Context()
+
+        self.engines = [EngineState() for _ in range(engine_count)]
+
+        self.stats_update_interval_ms = min_stats_update_interval_ms
+
+    @staticmethod
+    def run_coordinator(
+        engine_count: int,
+        front_publish_address: str,
+        back_output_address: str,
+        back_publish_address: str,
+        min_stats_update_interval_ms: int = 100,
+    ):
+        coordinator = DPCoordinatorProc(
+            engine_count=engine_count,
+            min_stats_update_interval_ms=min_stats_update_interval_ms,
+        )
+        try:
+            coordinator.process_input_socket(
+                front_publish_address,
+                back_output_address,
+                back_publish_address,
+            )
+        except KeyboardInterrupt:
+            logger.info("DP Coordinator process exiting")
+
+    def process_input_socket(
+        self,
+        front_publish_address: str,
+        back_output_address: str,
+        back_publish_address: str,
+    ):
+        decoder = MsgpackDecoder(EngineCoreOutputs)
+
+        # For tracking request wave progression.
+        current_wave = 0
+        engines_running = False
+
+        # For tracking request counts for internal load-balancing.
+        stats_changed = False
+        last_stats_step = -1
+        last_stats_wave = -1
+        last_step_counts: list[list[int]] | None = None
+
+        with (
+            make_zmq_socket(
+                path=front_publish_address,  # IPC
+                ctx=self.ctx,
+                socket_type=zmq.XPUB,
+                bind=True,
+            ) as publish_front,
+            make_zmq_socket(
+                path=back_output_address,  # IPC or TCP
+                ctx=self.ctx,
+                socket_type=zmq.PULL,
+                bind=True,
+            ) as output_back,
+            make_zmq_socket(
+                path=back_publish_address,  # IPC or TCP
+                ctx=self.ctx,
+                socket_type=zmq.XPUB,
+                bind=True,
+            ) as publish_back,
+        ):
+            # Wait until all engines subscribe.
+            for _ in self.engines:
+                if publish_back.recv() != b"\x01":
+                    logger.error(
+                        "DP Coordinator received unexpected message while "
+                        "waiting for engines to subscribe"
+                    )
+                    return
+            # Send ready message to engines.
+            publish_back.send(b"READY")
+
+            logger.info("All engine subscriptions received by DP coordinator")
+
+            poller = zmq.Poller()
+            poller.register(publish_front, zmq.POLLIN)
+            poller.register(output_back, zmq.POLLIN)
+            last_publish_time = 0
+            while True:
+                elapsed = int(time.time() * 1000) - last_publish_time
+                # Send at stats_update_interval_ms interval if the stats have
+                # changed, or otherwise every 5 seconds.
+                wait_for = self.stats_update_interval_ms if stats_changed else 5000
+
+                # Wait at least 50ms to ensure we've received all stats for
+                # the current step.
+                min_timeout = 50 if last_step_counts is None else 0
+
+                events = poller.poll(timeout=max(min_timeout, wait_for - elapsed))
+                if not events:
+                    # Poller timeout - publish current stats to front-ends.
+                    if last_step_counts is not None:
+                        engine_req_counts_list = last_step_counts
+                        last_step_counts = None
+                    else:
+                        engine_req_counts_list = self._get_engine_counts()
+                        stats_changed = False
+
+                    to_publish = (engine_req_counts_list, current_wave, engines_running)
+                    publish_front.send(msgspec.msgpack.encode(to_publish))
+                    last_publish_time = int(time.time() * 1000)
+                    continue
+
+                events = dict(events)
+                wave_state_changed = False
+
+                if publish_front in events:
+                    buffer = publish_front.recv()
+                    if buffer in (b"\x01", b"\x00"):
+                        # Ignore subscription messages.
+                        continue
+
+                    decoded = msgspec.msgpack.decode(buffer)
+                    if (
+                        isinstance(decoded, (list, tuple))
+                        and len(decoded) == 2
+                        and decoded[0] == "SCALE_ELASTIC_EP"
+                    ):
+                        # Handle scale up notification
+                        new_engine_count = decoded[1]
+                        current_count = len(self.engines)
+                        if new_engine_count > current_count:
+                            for _ in range(new_engine_count - current_count):
+                                self.engines.append(EngineState())
+                            # NOTE(yongji): handle the case
+                            # where newly started engines have current_wave = 0
+                            # if existing engines just finished a wave
+                            # and engine_running isn't updated yet at
+                            # CoordinatorProc requests routed to newly started
+                            # engines may not wake up existing engines, as long
+                            # as 0 < request.wave < existing engines'
+                            # current_wave
+                            # we note that 0 is the wave number for the new
+                            # engine
+                            engines_running = False
+                            logger.info(
+                                "DPCoordinator scaled up from %s to %s engines",
+                                current_count,
+                                new_engine_count,
+                            )
+                        else:
+                            self.engines = self.engines[:new_engine_count]
+                            logger.info(
+                                "DPCoordinator scaled down from %s to %s engines",
+                                current_count,
+                                new_engine_count,
+                            )
+                        continue  # Skip normal engine notification processing
+
+                    # We received a message on the front-end XPUB socket,
+                    # from an API server sending a new request while the
+                    # engines are paused, so that we can wake the other
+                    # engines.
+                    engine_to_exclude, wave = decoded
+                    if not engines_running:
+                        if wave < current_wave:
+                            # If the wave number is stale, ensure the message
+                            # is handled by all the engines.
+                            engine_to_exclude = None
+
+                        engines_running = True
+                        wave_state_changed = True
+                        self._send_start_wave(
+                            publish_back, current_wave, engine_to_exclude
+                        )
+
+                if output_back in events:
+                    # We received a message from one of the engines.
+
+                    buffer = output_back.recv()
+                    outputs: EngineCoreOutputs = decoder.decode(buffer)
+
+                    assert not outputs.outputs
+                    assert outputs.utility_output is None
+
+                    eng_index = outputs.engine_index
+                    scheduler_stats = outputs.scheduler_stats
+                    if scheduler_stats:
+                        # 1. Updated request load stats - update our local
+                        # state with these.
+                        stats = self.engines[eng_index].request_counts
+                        stats_step = scheduler_stats.step_counter
+                        stats_wave = scheduler_stats.current_wave
+                        if (
+                            stats_wave > last_stats_wave
+                            or stats_wave == last_stats_wave
+                            and stats_step > last_stats_step
+                        ):
+                            if stats_changed:
+                                last_step_counts = self._get_engine_counts(do_copy=True)
+                            last_stats_step = stats_step
+                            last_stats_wave = stats_wave
+                        elif stats_wave != last_stats_wave or (
+                            stats_step != last_stats_step
+                        ):
+                            logger.warning(
+                                "Received stats for out-of-order "
+                                "step (%d, %d) from engine %d (expected "
+                                "> (%d, %d))",
+                                stats_wave,
+                                stats_step,
+                                eng_index,
+                                last_stats_wave,
+                                last_stats_step,
+                            )
+                        stats[0] = scheduler_stats.num_waiting_reqs
+                        stats[1] = scheduler_stats.num_running_reqs
+                        stats_changed = True
+
+                    if (wave := outputs.wave_complete) is not None:
+                        # 2. Notification from rank 0 engine that we've
+                        # moved into the global paused state
+                        # (engines_running==False).
+                        if current_wave <= wave:
+                            new_wave = wave + 1
+                            logger.debug(
+                                "Moving DP wave from %d to %d.", current_wave, new_wave
+                            )
+                            current_wave = new_wave
+                            engines_running = False
+                            wave_state_changed = True
+                    elif (wave := outputs.start_wave) is not None and (
+                        wave > current_wave
+                        or (wave == current_wave and not engines_running)
+                    ):
+                        # 3. The engine received request for a non-current wave
+                        # so we must ensure that other engines progress to the
+                        # next wave (race condition handling).
+                        logger.debug(
+                            "Starting wave %d after notification of "
+                            "stale wave request from engine.",
+                            wave,
+                        )
+                        current_wave = wave
+                        engines_running = True
+                        wave_state_changed = True
+                        self._send_start_wave(publish_back, wave, eng_index)
+
+                if wave_state_changed:
+                    message = (None, current_wave, engines_running)
+                    publish_front.send(msgspec.msgpack.encode(message))
+
+    @staticmethod
+    def _send_start_wave(
+        socket: zmq.Socket, wave: int, exclude_engine_index: int | None
+    ):
+        """Broadcast the START_DP_WAVE message to all the engines.
+        It includes the current wave number and index of engine which
+        has already received a request with this wave number and so doesn't
+        require additional notification.
+        """
+        wave_encoded = msgspec.msgpack.encode((wave, exclude_engine_index))
+        socket.send_multipart((EngineCoreRequestType.START_DP_WAVE.value, wave_encoded))
+
+    def _get_engine_counts(self, do_copy=False) -> list[list[int]]:
+        """Return list of [waiting, running] count lists for each engine."""
+        if do_copy:
+            return [copy.copy(e.request_counts) for e in self.engines]
+        return [e.request_counts for e in self.engines]
diff --git a/v1/engine/core.py b/v1/engine/core.py
new file mode 100644
index 0000000..d49eb75
--- /dev/null
+++ b/v1/engine/core.py
@@ -0,0 +1,1420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+import queue
+import signal
+import threading
+import time
+from collections import deque
+from collections.abc import Callable, Generator
+from concurrent.futures import Future
+from contextlib import ExitStack, contextmanager
+from inspect import isclass, signature
+from logging import DEBUG
+from typing import Any, TypeVar, cast
+
+import msgspec
+import zmq
+
+from vllm.config import ParallelConfig, VllmConfig
+from vllm.distributed import stateless_destroy_torch_distributed_process_group
+from vllm.envs import enable_envs_cache
+from vllm.logger import init_logger
+from vllm.logging_utils.dump_input import dump_engine_exception
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import engine_receiver_cache_from_config
+from vllm.tasks import POOLING_TASKS, SupportedTask
+from vllm.transformers_utils.config import maybe_register_config_serialize_by_value
+from vllm.utils.gc_utils import (
+    freeze_gc_heap,
+    maybe_attach_gc_debug_callback,
+)
+from vllm.utils.hashing import get_hash_fn_by_name
+from vllm.utils.network_utils import make_zmq_socket
+from vllm.utils.system_utils import decorate_logs, set_process_title
+from vllm.v1.core.kv_cache_utils import (
+    BlockHash,
+    generate_scheduler_kv_cache_config,
+    get_kv_cache_configs,
+    get_request_block_hasher,
+    init_none_hash,
+)
+from vllm.v1.core.sched.interface import SchedulerInterface
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.engine import (
+    EngineCoreOutputs,
+    EngineCoreRequest,
+    EngineCoreRequestType,
+    ReconfigureDistributedRequest,
+    ReconfigureRankType,
+    UtilityOutput,
+    UtilityResult,
+)
+from vllm.v1.engine.utils import (
+    EngineHandshakeMetadata,
+    EngineZmqAddresses,
+    get_device_indices,
+)
+from vllm.v1.executor import Executor
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.metrics.stats import SchedulerStats
+from vllm.v1.outputs import ModelRunnerOutput
+from vllm.v1.request import Request, RequestStatus
+from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
+from vllm.v1.structured_output import StructuredOutputManager
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger(__name__)
+
+POLLING_TIMEOUT_S = 2.5
+HANDSHAKE_TIMEOUT_MINS = 5
+
+_R = TypeVar("_R")  # Return type for collective_rpc
+
+
+class EngineCore:
+    """Inner loop of vLLM's Engine."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        executor_fail_callback: Callable | None = None,
+    ):
+        # plugins need to be loaded at the engine/scheduler level too
+        from vllm.plugins import load_general_plugins
+
+        load_general_plugins()
+
+        self.vllm_config = vllm_config
+        if vllm_config.parallel_config.data_parallel_rank == 0:
+            logger.info(
+                "Initializing a V1 LLM engine (v%s) with config: %s",
+                VLLM_VERSION,
+                vllm_config,
+            )
+
+        self.log_stats = log_stats
+
+        # Setup Model.
+        self.model_executor = executor_class(vllm_config)
+        if executor_fail_callback is not None:
+            self.model_executor.register_failure_callback(executor_fail_callback)
+
+        self.available_gpu_memory_for_kv_cache = -1
+
+        # Setup KV Caches and update CacheConfig after profiling.
+        num_gpu_blocks, num_cpu_blocks, kv_cache_config = self._initialize_kv_caches(
+            vllm_config
+        )
+
+        vllm_config.cache_config.num_gpu_blocks = num_gpu_blocks
+        vllm_config.cache_config.num_cpu_blocks = num_cpu_blocks
+        self.collective_rpc("initialize_cache", args=(num_gpu_blocks, num_cpu_blocks))
+
+        self.structured_output_manager = StructuredOutputManager(vllm_config)
+
+        # Setup scheduler.
+        Scheduler = vllm_config.scheduler_config.get_scheduler_cls()
+
+        if len(kv_cache_config.kv_cache_groups) == 0:
+            # Encoder models without KV cache don't support
+            # chunked prefill. But do SSM models?
+            logger.info("Disabling chunked prefill for model without KVCache")
+            vllm_config.scheduler_config.enable_chunked_prefill = False
+
+        scheduler_block_size = (
+            vllm_config.cache_config.block_size
+            * vllm_config.parallel_config.decode_context_parallel_size
+        )
+
+        self.scheduler: SchedulerInterface = Scheduler(
+            vllm_config=vllm_config,
+            kv_cache_config=kv_cache_config,
+            structured_output_manager=self.structured_output_manager,
+            include_finished_set=vllm_config.parallel_config.data_parallel_size > 1,
+            log_stats=self.log_stats,
+            block_size=scheduler_block_size,
+        )
+        self.use_spec_decode = vllm_config.speculative_config is not None
+        if self.scheduler.connector is not None:  # type: ignore
+            self.model_executor.init_kv_output_aggregator(self.scheduler.connector)  # type: ignore
+
+        self.mm_registry = mm_registry = MULTIMODAL_REGISTRY
+        self.mm_receiver_cache = engine_receiver_cache_from_config(
+            vllm_config, mm_registry
+        )
+
+        # If a KV connector is initialized for scheduler, we want to collect
+        # handshake metadata from all workers so the connector in the scheduler
+        # will have the full context
+        kv_connector = self.scheduler.get_kv_connector()
+        if kv_connector is not None:
+            # Collect and store KV connector xfer metadata from workers
+            # (after KV cache registration)
+            xfer_handshake_metadata = (
+                self.model_executor.get_kv_connector_handshake_metadata()
+            )
+
+            if xfer_handshake_metadata:
+                # xfer_handshake_metadata is list of dicts from workers
+                # Each dict already has structure {tp_rank: metadata}
+                # Merge all worker dicts into a single dict
+                content: dict[int, Any] = {}
+                for worker_dict in xfer_handshake_metadata:
+                    if worker_dict is not None:
+                        content.update(worker_dict)
+                kv_connector.set_xfer_handshake_metadata(content)
+
+        # Setup batch queue for pipeline parallelism.
+        # Batch queue for scheduled batches. This enables us to asynchronously
+        # schedule and execute batches, and is required by pipeline parallelism
+        # to eliminate pipeline bubbles.
+        self.batch_queue_size = self.model_executor.max_concurrent_batches
+        self.batch_queue: (
+            deque[tuple[Future[ModelRunnerOutput], SchedulerOutput]] | None
+        ) = None
+        if self.batch_queue_size > 1:
+            logger.info("Batch queue is enabled with size %d", self.batch_queue_size)
+            self.batch_queue = deque(maxlen=self.batch_queue_size)
+
+        self.ec_producer = (
+            vllm_config.ec_transfer_config is not None
+            and vllm_config.ec_transfer_config.is_ec_producer
+        )
+        self.is_pooling_model = vllm_config.model_config.runner_type == "pooling"
+
+        self.request_block_hasher: Callable[[Request], list[BlockHash]] | None = None
+        if vllm_config.cache_config.enable_prefix_caching or kv_connector is not None:
+            caching_hash_fn = get_hash_fn_by_name(
+                vllm_config.cache_config.prefix_caching_hash_algo
+            )
+            init_none_hash(caching_hash_fn)
+
+            self.request_block_hasher = get_request_block_hasher(
+                scheduler_block_size, caching_hash_fn
+            )
+
+        self.step_fn = (
+            self.step if self.batch_queue is None else self.step_with_batch_queue
+        )
+        self.async_scheduling = vllm_config.scheduler_config.async_scheduling
+
+        # Mark the startup heap as static so that it's ignored by GC.
+        # Reduces pause times of oldest generation collections.
+        freeze_gc_heap()
+
+    def _initialize_kv_caches(
+        self, vllm_config: VllmConfig
+    ) -> tuple[int, int, KVCacheConfig]:
+        start = time.time()
+
+        # Get all kv cache needed by the model
+        kv_cache_specs = self.model_executor.get_kv_cache_specs()
+
+        has_kv_cache = any(kv_cache_spec for kv_cache_spec in kv_cache_specs)
+        if has_kv_cache:
+            if os.environ.get("VLLM_ELASTIC_EP_SCALE_UP_LAUNCH") == "1":
+                dp_group = getattr(self, "dp_group", None)
+                assert dp_group is not None
+                self.available_gpu_memory_for_kv_cache = (
+                    ParallelConfig.sync_kv_cache_memory_size(dp_group, -1)
+                )
+                available_gpu_memory = [self.available_gpu_memory_for_kv_cache] * len(
+                    kv_cache_specs
+                )
+            else:
+                # Profiles the peak memory usage of the model to determine how
+                # much memory can be allocated for kv cache.
+                available_gpu_memory = self.model_executor.determine_available_memory()
+                self.available_gpu_memory_for_kv_cache = available_gpu_memory[0]
+        else:
+            # Attention free models don't need memory for kv cache
+            available_gpu_memory = [0] * len(kv_cache_specs)
+
+        assert len(kv_cache_specs) == len(available_gpu_memory)
+
+        kv_cache_configs = get_kv_cache_configs(
+            vllm_config, kv_cache_specs, available_gpu_memory
+        )
+        scheduler_kv_cache_config = generate_scheduler_kv_cache_config(kv_cache_configs)
+        num_gpu_blocks = scheduler_kv_cache_config.num_blocks
+        num_cpu_blocks = 0
+
+        # Initialize kv cache and warmup the execution
+        self.model_executor.initialize_from_config(kv_cache_configs)
+
+        elapsed = time.time() - start
+        logger.info_once(
+            "init engine (profile, create kv cache, warmup model) took %.2f seconds",
+            elapsed,
+            scope="local",
+        )
+        return num_gpu_blocks, num_cpu_blocks, scheduler_kv_cache_config
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.model_executor.supported_tasks
+
+    def add_request(self, request: Request, request_wave: int = 0):
+        """Add request to the scheduler.
+
+        `request_wave`: indicate which wave of requests this is expected to
+        belong to in DP case
+        """
+        # Validate the request_id type.
+        if not isinstance(request.request_id, str):
+            raise TypeError(
+                f"request_id must be a string, got {type(request.request_id)}"
+            )
+
+        if pooling_params := request.pooling_params:
+            supported_pooling_tasks = [
+                task for task in self.get_supported_tasks() if task in POOLING_TASKS
+            ]
+
+            if pooling_params.task not in supported_pooling_tasks:
+                raise ValueError(
+                    f"Unsupported task: {pooling_params.task!r} "
+                    f"Supported tasks: {supported_pooling_tasks}"
+                )
+
+        if request.kv_transfer_params is not None and (
+            not self.scheduler.get_kv_connector()
+        ):
+            logger.warning(
+                "Got kv_transfer_params, but no KVConnector found. "
+                "Disabling KVTransfer for this request."
+            )
+
+        self.scheduler.add_request(request)
+
+    def abort_requests(self, request_ids: list[str]):
+        """Abort requests from the scheduler."""
+
+        # TODO: The scheduler doesn't really need to know the
+        # specific finish reason, TBD whether we propagate that
+        # (i.e. client-aborted vs stop criteria met).
+        self.scheduler.finish_requests(request_ids, RequestStatus.FINISHED_ABORTED)
+
+    @contextmanager
+    def log_error_detail(self, scheduler_output: SchedulerOutput):
+        """Execute the model and log detailed info on failure."""
+        try:
+            yield
+        except Exception as err:
+            # We do not want to catch BaseException here since we're only
+            # interested in dumping info when the exception is due to an
+            # error from execute_model itself.
+
+            # NOTE: This method is exception-free
+            dump_engine_exception(
+                self.vllm_config, scheduler_output, self.scheduler.make_stats()
+            )
+            raise err
+
+    def _log_err_callback(self, scheduler_output: SchedulerOutput):
+        """Log error details of a future that's not expected to return a result."""
+
+        def callback(f, sched_output=scheduler_output):
+            with self.log_error_detail(sched_output):
+                result = f.result()
+                assert result is None
+
+        return callback
+
+    def step(self) -> tuple[dict[int, EngineCoreOutputs], bool]:
+        """Schedule, execute, and make output.
+
+        Returns tuple of outputs and a flag indicating whether the model
+        was executed.
+        """
+
+        # Check for any requests remaining in the scheduler - unfinished,
+        # or finished and not yet removed from the batch.
+        if not self.scheduler.has_requests():
+            return {}, False
+        scheduler_output = self.scheduler.schedule()
+        future = self.model_executor.execute_model(scheduler_output, non_block=True)
+        grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
+        with self.log_error_detail(scheduler_output):
+            model_output = future.result()
+            if model_output is None:
+                model_output = self.model_executor.sample_tokens(grammar_output)
+
+        engine_core_outputs = self.scheduler.update_from_output(
+            scheduler_output, model_output
+        )
+
+        return engine_core_outputs, scheduler_output.total_num_scheduled_tokens > 0
+
+    def post_step(self, model_executed: bool) -> None:
+        # When using async scheduling we can't get draft token ids in advance,
+        # so we update draft token ids in the worker process and don't
+        # need to update draft token ids here.
+        if not self.async_scheduling and self.use_spec_decode and model_executed:
+            # Take the draft token ids.
+            draft_token_ids = self.model_executor.take_draft_token_ids()
+            if draft_token_ids is not None:
+                self.scheduler.update_draft_token_ids(draft_token_ids)
+
+    def step_with_batch_queue(
+        self,
+    ) -> tuple[dict[int, EngineCoreOutputs] | None, bool]:
+        """Schedule and execute batches with the batch queue.
+        Note that if nothing to output in this step, None is returned.
+
+        The execution flow is as follows:
+        1. Try to schedule a new batch if the batch queue is not full.
+        If a new batch is scheduled, directly return an empty engine core
+        output. In other words, fulfilling the batch queue has a higher priority
+        than getting model outputs.
+        2. If there is no new scheduled batch, meaning that the batch queue
+        is full or no other requests can be scheduled, we block until the first
+        batch in the job queue is finished.
+        3. Update the scheduler from the output.
+        """
+        batch_queue = self.batch_queue
+        assert batch_queue is not None
+
+        # Try to schedule a new batch if the batch queue is not full, but
+        # the scheduler may return an empty batch if all requests are scheduled.
+        # Note that this is not blocking.
+        assert len(batch_queue) < self.batch_queue_size
+
+        model_executed = False
+        deferred_scheduler_output = None
+        if self.scheduler.has_requests():
+            scheduler_output = self.scheduler.schedule()
+            exec_future = self.model_executor.execute_model(
+                scheduler_output, non_block=True
+            )
+            if not self.ec_producer:
+                model_executed = scheduler_output.total_num_scheduled_tokens > 0
+
+            if self.is_pooling_model or not model_executed:
+                # No sampling required (no requests scheduled).
+                future = cast(Future[ModelRunnerOutput], exec_future)
+            else:
+                exec_future.add_done_callback(self._log_err_callback(scheduler_output))
+
+                if not scheduler_output.pending_structured_output_tokens:
+                    # We aren't waiting for any tokens, get any grammar output
+                    # and sample immediately.
+                    grammar_output = self.scheduler.get_grammar_bitmask(
+                        scheduler_output
+                    )
+                    future = self.model_executor.sample_tokens(
+                        grammar_output, non_block=True
+                    )
+                else:
+                    # We need to defer sampling until we have processed the model output
+                    # from the prior step.
+                    deferred_scheduler_output = scheduler_output
+
+            if not deferred_scheduler_output:
+                # Add this step's future to the queue.
+                batch_queue.appendleft((future, scheduler_output))
+                if (
+                    model_executed
+                    and len(batch_queue) < self.batch_queue_size
+                    and not batch_queue[-1][0].done()
+                ):
+                    # Don't block on next worker response unless the queue is full
+                    # or there are no more requests to schedule.
+                    return None, True
+
+        elif not batch_queue:
+            # Queue is empty. We should not reach here since this method should
+            # only be called when the scheduler contains requests or the queue
+            # is non-empty.
+            return None, False
+
+        # Block until the next result is available.
+        future, scheduler_output = batch_queue.pop()
+        with self.log_error_detail(scheduler_output):
+            model_output = future.result()
+
+        engine_core_outputs = self.scheduler.update_from_output(
+            scheduler_output, model_output
+        )
+
+        # NOTE(nick): We can either handle the deferred tasks here or save
+        # in a field and do it immediately once step_with_batch_queue is
+        # re-called. The latter slightly favors TTFT over TPOT/throughput.
+        if deferred_scheduler_output:
+            # We now have the tokens needed to compute the bitmask for the
+            # deferred request. Get the bitmask and call sample tokens.
+            grammar_output = self.scheduler.get_grammar_bitmask(
+                deferred_scheduler_output
+            )
+            future = self.model_executor.sample_tokens(grammar_output, non_block=True)
+            batch_queue.appendleft((future, deferred_scheduler_output))
+
+        return engine_core_outputs, model_executed
+
+    def shutdown(self):
+        self.structured_output_manager.clear_backend()
+        if self.model_executor:
+            self.model_executor.shutdown()
+        if self.scheduler:
+            self.scheduler.shutdown()
+
+    def profile(self, is_start: bool = True):
+        self.model_executor.profile(is_start)
+
+    def reset_mm_cache(self):
+        # NOTE: Since this is mainly for debugging, we don't attempt to
+        # re-sync the internal caches (P0 sender, P1 receiver)
+        if self.scheduler.has_unfinished_requests():
+            logger.warning(
+                "Resetting the multi-modal cache when requests are "
+                "in progress may lead to desynced internal caches."
+            )
+
+        # The cache either exists in EngineCore or WorkerWrapperBase
+        if self.mm_receiver_cache is not None:
+            self.mm_receiver_cache.clear_cache()
+
+        self.model_executor.reset_mm_cache()
+
+    def reset_prefix_cache(self):
+        self.scheduler.reset_prefix_cache()
+
+    def sleep(self, level: int = 1):
+        self.model_executor.sleep(level)
+
+    def wake_up(self, tags: list[str] | None = None):
+        self.model_executor.wake_up(tags)
+
+    def is_sleeping(self) -> bool:
+        return self.model_executor.is_sleeping
+
+    def execute_dummy_batch(self):
+        self.model_executor.execute_dummy_batch()
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.model_executor.add_lora(lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        return self.model_executor.remove_lora(lora_id)
+
+    def list_loras(self) -> set[int]:
+        return self.model_executor.list_loras()
+
+    def pin_lora(self, lora_id: int) -> bool:
+        return self.model_executor.pin_lora(lora_id)
+
+    def save_sharded_state(
+        self,
+        path: str,
+        pattern: str | None = None,
+        max_size: int | None = None,
+    ) -> None:
+        self.model_executor.save_sharded_state(
+            path=path, pattern=pattern, max_size=max_size
+        )
+
+    def collective_rpc(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        return self.model_executor.collective_rpc(method, timeout, args, kwargs)
+
+    def preprocess_add_request(self, request: EngineCoreRequest) -> tuple[Request, int]:
+        """Preprocess the request.
+
+        This function could be directly used in input processing thread to allow
+        request initialization running in parallel with Model forward
+        """
+        # Note on thread safety: no race condition.
+        # `mm_receiver_cache` is reset at the end of LLMEngine init,
+        # and will only be accessed in the input processing thread afterwards.
+        if self.mm_receiver_cache is not None and request.mm_features:
+            request.mm_features = self.mm_receiver_cache.get_and_update_features(
+                request.mm_features
+            )
+
+        req = Request.from_engine_core_request(request, self.request_block_hasher)
+        if req.use_structured_output:
+            # Note on thread safety: no race condition.
+            # `grammar_init` is only invoked in input processing thread. For
+            # `structured_output_manager`, each request is independent and
+            # grammar compilation is async. Scheduler always checks grammar
+            # compilation status before scheduling request.
+            self.structured_output_manager.grammar_init(req)
+        return req, request.current_wave
+
+
+class EngineCoreProc(EngineCore):
+    """ZMQ-wrapper for running EngineCore in background process."""
+
+    ENGINE_CORE_DEAD = b"ENGINE_CORE_DEAD"
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_client: bool,
+        handshake_address: str,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_handshake_address: str | None = None,
+        engine_index: int = 0,
+    ):
+        self.input_queue = queue.Queue[tuple[EngineCoreRequestType, Any]]()
+        self.output_queue = queue.Queue[tuple[int, EngineCoreOutputs] | bytes]()
+        executor_fail_callback = lambda: self.input_queue.put_nowait(
+            (EngineCoreRequestType.EXECUTOR_FAILED, b"")
+        )
+
+        self.engine_index = engine_index
+        identity = self.engine_index.to_bytes(length=2, byteorder="little")
+        self.engines_running = False
+
+        with self._perform_handshakes(
+            handshake_address,
+            identity,
+            local_client,
+            vllm_config,
+            client_handshake_address,
+        ) as addresses:
+            self.client_count = len(addresses.outputs)
+
+            # Set up data parallel environment.
+            self.has_coordinator = addresses.coordinator_output is not None
+            self.frontend_stats_publish_address = (
+                addresses.frontend_stats_publish_address
+            )
+            logger.debug(
+                "Has DP Coordinator: %s, stats publish address: %s",
+                self.has_coordinator,
+                self.frontend_stats_publish_address,
+            )
+            # Only publish request queue stats to coordinator for "internal"
+            # and "hybrid" LB modes .
+            self.publish_dp_lb_stats = (
+                self.has_coordinator
+                and not vllm_config.parallel_config.data_parallel_external_lb
+            )
+
+            self._init_data_parallel(vllm_config)
+
+            super().__init__(
+                vllm_config, executor_class, log_stats, executor_fail_callback
+            )
+
+            # Background Threads and Queues for IO. These enable us to
+            # overlap ZMQ socket IO with GPU since they release the GIL,
+            # and to overlap some serialization/deserialization with the
+            # model forward pass.
+            # Threads handle Socket <-> Queues and core_busy_loop uses Queue.
+            ready_event = threading.Event()
+            input_thread = threading.Thread(
+                target=self.process_input_sockets,
+                args=(
+                    addresses.inputs,
+                    addresses.coordinator_input,
+                    identity,
+                    ready_event,
+                ),
+                daemon=True,
+            )
+            input_thread.start()
+
+            self.output_thread = threading.Thread(
+                target=self.process_output_sockets,
+                args=(
+                    addresses.outputs,
+                    addresses.coordinator_output,
+                    self.engine_index,
+                ),
+                daemon=True,
+            )
+            self.output_thread.start()
+
+            # Don't complete handshake until DP coordinator ready message is
+            # received.
+            while not ready_event.wait(timeout=10):
+                if not input_thread.is_alive():
+                    raise RuntimeError("Input socket thread died during startup")
+                assert addresses.coordinator_input is not None
+                logger.info("Waiting for READY message from DP Coordinator...")
+
+        # If enable, attach GC debugger after static variable freeze.
+        maybe_attach_gc_debug_callback()
+
+        # Enable environment variable cache (e.g. assume no more
+        # environment variable overrides after this point)
+        enable_envs_cache()
+
+    @contextmanager
+    def _perform_handshakes(
+        self,
+        handshake_address: str,
+        identity: bytes,
+        local_client: bool,
+        vllm_config: VllmConfig,
+        client_handshake_address: str | None,
+    ) -> Generator[EngineZmqAddresses, None, None]:
+        """
+        Perform startup handshakes.
+
+        For DP=1 or offline mode, this is with the colocated front-end process.
+
+        For DP>1 with internal load-balancing this is with the shared front-end
+        process which may reside on a different node.
+
+        For DP>1 with external or hybrid load-balancing, two handshakes are
+        performed:
+            - With the rank 0 front-end process which retrieves the
+              DP Coordinator ZMQ addresses and DP process group address.
+            - With the colocated front-end process which retrieves the
+              client input/output socket addresses.
+        with the exception of the rank 0 and colocated engines themselves which
+        don't require the second handshake.
+
+        Here, "front-end" process can mean the process containing the engine
+        core client (which is the API server process in the case the API
+        server is not scaled out), OR the launcher process running the
+        run_multi_api_server() function in serve.py.
+        """
+        input_ctx = zmq.Context()
+        is_local = local_client and client_handshake_address is None
+        headless = not local_client
+        handshake = self._perform_handshake(
+            input_ctx,
+            handshake_address,
+            identity,
+            is_local,
+            headless,
+            vllm_config,
+            vllm_config.parallel_config,
+        )
+        if client_handshake_address is None:
+            with handshake as addresses:
+                yield addresses
+        else:
+            assert local_client
+            local_handshake = self._perform_handshake(
+                input_ctx, client_handshake_address, identity, True, False, vllm_config
+            )
+            with handshake as addresses, local_handshake as client_addresses:
+                addresses.inputs = client_addresses.inputs
+                addresses.outputs = client_addresses.outputs
+                yield addresses
+
+        # Update config which may have changed from the handshake
+        vllm_config.__post_init__()
+
+    @contextmanager
+    def _perform_handshake(
+        self,
+        ctx: zmq.Context,
+        handshake_address: str,
+        identity: bytes,
+        local_client: bool,
+        headless: bool,
+        vllm_config: VllmConfig,
+        parallel_config_to_update: ParallelConfig | None = None,
+    ) -> Generator[EngineZmqAddresses, None, None]:
+        with make_zmq_socket(
+            ctx,
+            handshake_address,
+            zmq.DEALER,
+            identity=identity,
+            linger=5000,
+            bind=False,
+        ) as handshake_socket:
+            # Register engine with front-end.
+            addresses = self.startup_handshake(
+                handshake_socket, local_client, headless, parallel_config_to_update
+            )
+            yield addresses
+
+            # Send ready message.
+            num_gpu_blocks = vllm_config.cache_config.num_gpu_blocks
+            # We pass back the coordinator stats update address here for the
+            # external LB case for our colocated front-end to use (coordinator
+            # only runs with rank 0).
+            dp_stats_address = self.frontend_stats_publish_address
+
+            # Include config hash for DP configuration validation
+            ready_msg = {
+                "status": "READY",
+                "local": local_client,
+                "headless": headless,
+                "num_gpu_blocks": num_gpu_blocks,
+                "dp_stats_address": dp_stats_address,
+            }
+            if vllm_config.parallel_config.data_parallel_size > 1:
+                ready_msg["parallel_config_hash"] = (
+                    vllm_config.parallel_config.compute_hash()
+                )
+
+            handshake_socket.send(msgspec.msgpack.encode(ready_msg))
+
+    @staticmethod
+    def startup_handshake(
+        handshake_socket: zmq.Socket,
+        local_client: bool,
+        headless: bool,
+        parallel_config: ParallelConfig | None = None,
+    ) -> EngineZmqAddresses:
+        # Send registration message.
+        handshake_socket.send(
+            msgspec.msgpack.encode(
+                {
+                    "status": "HELLO",
+                    "local": local_client,
+                    "headless": headless,
+                }
+            )
+        )
+
+        # Receive initialization message.
+        logger.debug("Waiting for init message from front-end.")
+        if not handshake_socket.poll(timeout=HANDSHAKE_TIMEOUT_MINS * 60_000):
+            raise RuntimeError(
+                "Did not receive response from front-end "
+                f"process within {HANDSHAKE_TIMEOUT_MINS} "
+                f"minutes"
+            )
+        init_bytes = handshake_socket.recv()
+        init_message: EngineHandshakeMetadata = msgspec.msgpack.decode(
+            init_bytes, type=EngineHandshakeMetadata
+        )
+        logger.debug("Received init message: %s", init_message)
+
+        if parallel_config is not None:
+            for key, value in init_message.parallel_config.items():
+                setattr(parallel_config, key, value)
+
+        return init_message.addresses
+
+    @staticmethod
+    def run_engine_core(*args, dp_rank: int = 0, local_dp_rank: int = 0, **kwargs):
+        """Launch EngineCore busy loop in background process."""
+
+        # Signal handler used for graceful termination.
+        # SystemExit exception is only raised once to allow this and worker
+        # processes to terminate without error
+        shutdown_requested = False
+
+        # Ensure we can serialize transformer config after spawning
+        maybe_register_config_serialize_by_value()
+
+        def signal_handler(signum, frame):
+            nonlocal shutdown_requested
+            if not shutdown_requested:
+                shutdown_requested = True
+                raise SystemExit()
+
+        # Either SIGTERM or SIGINT will terminate the engine_core
+        signal.signal(signal.SIGTERM, signal_handler)
+        signal.signal(signal.SIGINT, signal_handler)
+
+        engine_core: EngineCoreProc | None = None
+        try:
+            parallel_config: ParallelConfig = kwargs["vllm_config"].parallel_config
+            if parallel_config.data_parallel_size > 1 or dp_rank > 0:
+                set_process_title("EngineCore", f"DP{dp_rank}")
+                decorate_logs()
+                # Set data parallel rank for this engine process.
+                parallel_config.data_parallel_rank = dp_rank
+                parallel_config.data_parallel_rank_local = local_dp_rank
+                engine_core = DPEngineCoreProc(*args, **kwargs)
+            else:
+                set_process_title("EngineCore")
+                decorate_logs()
+                engine_core = EngineCoreProc(*args, **kwargs)
+
+            engine_core.run_busy_loop()
+
+        except SystemExit:
+            logger.debug("EngineCore exiting.")
+            raise
+        except Exception as e:
+            if engine_core is None:
+                logger.exception("EngineCore failed to start.")
+            else:
+                logger.exception("EngineCore encountered a fatal error.")
+                engine_core._send_engine_dead()
+            raise e
+        finally:
+            if engine_core is not None:
+                engine_core.shutdown()
+
+    def _init_data_parallel(self, vllm_config: VllmConfig):
+        pass
+
+    def run_busy_loop(self):
+        """Core busy loop of the EngineCore."""
+
+        # Loop until process is sent a SIGINT or SIGTERM
+        while True:
+            # 1) Poll the input queue until there is work to do.
+            self._process_input_queue()
+            # 2) Step the engine core and return the outputs.
+            self._process_engine_step()
+
+    def _process_input_queue(self):
+        """Exits when an engine step needs to be performed."""
+
+        waited = False
+        while (
+            not self.engines_running
+            and not self.scheduler.has_requests()
+            and not self.batch_queue
+        ):
+            if logger.isEnabledFor(DEBUG) and self.input_queue.empty():
+                logger.debug("EngineCore waiting for work.")
+                waited = True
+            req = self.input_queue.get()
+            self._handle_client_request(*req)
+
+        if waited:
+            logger.debug("EngineCore loop active.")
+
+        # Handle any more client requests.
+        while not self.input_queue.empty():
+            req = self.input_queue.get_nowait()
+            self._handle_client_request(*req)
+
+    def _process_engine_step(self) -> bool:
+        """Called only when there are unfinished local requests."""
+
+        # Step the engine core.
+        outputs, model_executed = self.step_fn()
+        # Put EngineCoreOutputs into the output queue.
+        for output in outputs.items() if outputs else ():
+            self.output_queue.put_nowait(output)
+        # Post-step hook.
+        self.post_step(model_executed)
+
+        return model_executed
+
+    def _handle_client_request(
+        self, request_type: EngineCoreRequestType, request: Any
+    ) -> None:
+        """Dispatch request from client."""
+
+        if request_type == EngineCoreRequestType.ADD:
+            req, request_wave = request
+            self.add_request(req, request_wave)
+        elif request_type == EngineCoreRequestType.ABORT:
+            self.abort_requests(request)
+        elif request_type == EngineCoreRequestType.UTILITY:
+            client_idx, call_id, method_name, args = request
+            output = UtilityOutput(call_id)
+            try:
+                method = getattr(self, method_name)
+                result = method(*self._convert_msgspec_args(method, args))
+                output.result = UtilityResult(result)
+            except BaseException as e:
+                logger.exception("Invocation of %s method failed", method_name)
+                output.failure_message = (
+                    f"Call to {method_name} method failed: {str(e)}"
+                )
+            self.output_queue.put_nowait(
+                (client_idx, EngineCoreOutputs(utility_output=output))
+            )
+        elif request_type == EngineCoreRequestType.EXECUTOR_FAILED:
+            raise RuntimeError("Executor failed.")
+        else:
+            logger.error(
+                "Unrecognized input request type encountered: %s", request_type
+            )
+
+    @staticmethod
+    def _convert_msgspec_args(method, args):
+        """If a provided arg type doesn't match corresponding target method
+        arg type, try converting to msgspec object."""
+        if not args:
+            return args
+        arg_types = signature(method).parameters.values()
+        assert len(args) <= len(arg_types)
+        return tuple(
+            msgspec.convert(v, type=p.annotation)
+            if isclass(p.annotation)
+            and issubclass(p.annotation, msgspec.Struct)
+            and not isinstance(v, p.annotation)
+            else v
+            for v, p in zip(args, arg_types)
+        )
+
+    def _send_engine_dead(self):
+        """Send EngineDead status to the EngineCoreClient."""
+
+        # Put ENGINE_CORE_DEAD in the queue.
+        self.output_queue.put_nowait(EngineCoreProc.ENGINE_CORE_DEAD)
+
+        # Wait until msg sent by the daemon before shutdown.
+        self.output_thread.join(timeout=5.0)
+        if self.output_thread.is_alive():
+            logger.fatal(
+                "vLLM shutdown signal from EngineCore failed "
+                "to send. Please report this issue."
+            )
+
+    def process_input_sockets(
+        self,
+        input_addresses: list[str],
+        coord_input_address: str | None,
+        identity: bytes,
+        ready_event: threading.Event,
+    ):
+        """Input socket IO thread."""
+
+        # Msgpack serialization decoding.
+        add_request_decoder = MsgpackDecoder(EngineCoreRequest)
+        generic_decoder = MsgpackDecoder()
+
+        with ExitStack() as stack, zmq.Context() as ctx:
+            input_sockets = [
+                stack.enter_context(
+                    make_zmq_socket(
+                        ctx, input_address, zmq.DEALER, identity=identity, bind=False
+                    )
+                )
+                for input_address in input_addresses
+            ]
+            if coord_input_address is None:
+                coord_socket = None
+            else:
+                coord_socket = stack.enter_context(
+                    make_zmq_socket(
+                        ctx,
+                        coord_input_address,
+                        zmq.XSUB,
+                        identity=identity,
+                        bind=False,
+                    )
+                )
+                # Send subscription message to coordinator.
+                coord_socket.send(b"\x01")
+
+            # Register sockets with poller.
+            poller = zmq.Poller()
+            for input_socket in input_sockets:
+                # Send initial message to each input socket - this is required
+                # before the front-end ROUTER socket can send input messages
+                # back to us.
+                input_socket.send(b"")
+                poller.register(input_socket, zmq.POLLIN)
+
+            if coord_socket is not None:
+                # Wait for ready message from coordinator.
+                assert coord_socket.recv() == b"READY"
+                poller.register(coord_socket, zmq.POLLIN)
+
+            ready_event.set()
+            del ready_event
+            while True:
+                for input_socket, _ in poller.poll():
+                    # (RequestType, RequestData)
+                    type_frame, *data_frames = input_socket.recv_multipart(copy=False)
+                    request_type = EngineCoreRequestType(bytes(type_frame.buffer))
+
+                    # Deserialize the request data.
+                    if request_type == EngineCoreRequestType.ADD:
+                        request = add_request_decoder.decode(data_frames)
+                        request = self.preprocess_add_request(request)
+                    else:
+                        request = generic_decoder.decode(data_frames)
+
+                    # Push to input queue for core busy loop.
+                    self.input_queue.put_nowait((request_type, request))
+
+    def process_output_sockets(
+        self,
+        output_paths: list[str],
+        coord_output_path: str | None,
+        engine_index: int,
+    ):
+        """Output socket IO thread."""
+
+        # Msgpack serialization encoding.
+        encoder = MsgpackEncoder()
+        # Send buffers to reuse.
+        reuse_buffers: list[bytearray] = []
+        # Keep references to outputs and buffers until zmq is finished
+        # with them (outputs may contain tensors/np arrays whose
+        # backing buffers were extracted for zero-copy send).
+        pending = deque[tuple[zmq.MessageTracker, Any, bytearray]]()
+
+        # We must set linger to ensure the ENGINE_CORE_DEAD
+        # message is sent prior to closing the socket.
+        with ExitStack() as stack, zmq.Context() as ctx:
+            sockets = [
+                stack.enter_context(
+                    make_zmq_socket(ctx, output_path, zmq.PUSH, linger=4000)
+                )
+                for output_path in output_paths
+            ]
+            coord_socket = (
+                stack.enter_context(
+                    make_zmq_socket(
+                        ctx, coord_output_path, zmq.PUSH, bind=False, linger=4000
+                    )
+                )
+                if coord_output_path is not None
+                else None
+            )
+            max_reuse_bufs = len(sockets) + 1
+
+            while True:
+                output = self.output_queue.get()
+                if output == EngineCoreProc.ENGINE_CORE_DEAD:
+                    for socket in sockets:
+                        socket.send(output)
+                    break
+                assert not isinstance(output, bytes)
+                client_index, outputs = output
+                outputs.engine_index = engine_index
+
+                if client_index == -1:
+                    # Don't reuse buffer for coordinator message
+                    # which will be very small.
+                    assert coord_socket is not None
+                    coord_socket.send_multipart(encoder.encode(outputs))
+                    continue
+
+                # Reclaim buffers that zmq is finished with.
+                while pending and pending[-1][0].done:
+                    reuse_buffers.append(pending.pop()[2])
+
+                buffer = reuse_buffers.pop() if reuse_buffers else bytearray()
+                buffers = encoder.encode_into(outputs, buffer)
+                tracker = sockets[client_index].send_multipart(
+                    buffers, copy=False, track=True
+                )
+                if not tracker.done:
+                    ref = outputs if len(buffers) > 1 else None
+                    pending.appendleft((tracker, ref, buffer))
+                elif len(reuse_buffers) < max_reuse_bufs:
+                    # Limit the number of buffers to reuse.
+                    reuse_buffers.append(buffer)
+
+
+class DPEngineCoreProc(EngineCoreProc):
+    """ZMQ-wrapper for running EngineCore in background process
+    in a data parallel context."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_client: bool,
+        handshake_address: str,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_handshake_address: str | None = None,
+    ):
+        # Counts forward-passes of the model so that we can synchronize
+        # finished with DP peers every N steps.
+        self.step_counter = 0
+        self.current_wave = 0
+        self.last_counts = (0, 0)
+
+        # Initialize the engine.
+        dp_rank = vllm_config.parallel_config.data_parallel_rank
+        super().__init__(
+            vllm_config,
+            local_client,
+            handshake_address,
+            executor_class,
+            log_stats,
+            client_handshake_address,
+            dp_rank,
+        )
+
+    def _init_data_parallel(self, vllm_config: VllmConfig):
+        # Configure GPUs and stateless process group for data parallel.
+        dp_rank = vllm_config.parallel_config.data_parallel_rank
+        dp_size = vllm_config.parallel_config.data_parallel_size
+        local_dp_rank = vllm_config.parallel_config.data_parallel_rank_local
+
+        assert dp_size > 1
+        assert local_dp_rank is not None
+        assert 0 <= local_dp_rank <= dp_rank < dp_size
+
+        if vllm_config.kv_transfer_config is not None:
+            # modify the engine_id and append the local_dp_rank to it to ensure
+            # that the kv_transfer_config is unique for each DP rank.
+            vllm_config.kv_transfer_config.engine_id = (
+                f"{vllm_config.kv_transfer_config.engine_id}_dp{local_dp_rank}"
+            )
+            logger.debug(
+                "Setting kv_transfer_config.engine_id to %s",
+                vllm_config.kv_transfer_config.engine_id,
+            )
+
+        self.dp_rank = dp_rank
+        self.dp_group = vllm_config.parallel_config.stateless_init_dp_group()
+
+    def shutdown(self):
+        super().shutdown()
+        if dp_group := getattr(self, "dp_group", None):
+            stateless_destroy_torch_distributed_process_group(dp_group)
+
+    def add_request(self, request: Request, request_wave: int = 0):
+        if self.has_coordinator and request_wave != self.current_wave:
+            if request_wave > self.current_wave:
+                self.current_wave = request_wave
+            elif not self.engines_running:
+                # Request received for an already-completed wave, notify
+                # front-end that we need to start the next one.
+                self.output_queue.put_nowait(
+                    (-1, EngineCoreOutputs(start_wave=self.current_wave))
+                )
+
+        super().add_request(request, request_wave)
+
+    def _handle_client_request(
+        self, request_type: EngineCoreRequestType, request: Any
+    ) -> None:
+        if request_type == EngineCoreRequestType.START_DP_WAVE:
+            new_wave, exclude_eng_index = request
+            if exclude_eng_index != self.engine_index and (
+                new_wave >= self.current_wave
+            ):
+                self.current_wave = new_wave
+                if not self.engines_running:
+                    logger.debug("EngineCore starting idle loop for wave %d.", new_wave)
+                    self.engines_running = True
+        else:
+            super()._handle_client_request(request_type, request)
+
+    def _maybe_publish_request_counts(self):
+        if not self.publish_dp_lb_stats:
+            return
+
+        # Publish our request counts (if they've changed).
+        counts = self.scheduler.get_request_counts()
+        if counts != self.last_counts:
+            self.last_counts = counts
+            stats = SchedulerStats(
+                *counts, step_counter=self.step_counter, current_wave=self.current_wave
+            )
+            self.output_queue.put_nowait((-1, EngineCoreOutputs(scheduler_stats=stats)))
+
+    def run_busy_loop(self):
+        """Core busy loop of the EngineCore for data parallel case."""
+
+        # Loop until process is sent a SIGINT or SIGTERM
+        while True:
+            # 1) Poll the input queue until there is work to do.
+            self._process_input_queue()
+
+            # 2) Step the engine core.
+            executed = self._process_engine_step()
+            self._maybe_publish_request_counts()
+
+            local_unfinished_reqs = self.scheduler.has_unfinished_requests()
+            if not executed:
+                if not local_unfinished_reqs and not self.engines_running:
+                    # All engines are idle.
+                    continue
+
+                # We are in a running state and so must execute a dummy pass
+                # if the model didn't execute any ready requests.
+                self.execute_dummy_batch()
+
+            # 3) All-reduce operation to determine global unfinished reqs.
+            self.engines_running = self._has_global_unfinished_reqs(
+                local_unfinished_reqs
+            )
+
+            if not self.engines_running:
+                if self.dp_rank == 0 or not self.has_coordinator:
+                    # Notify client that we are pausing the loop.
+                    logger.debug(
+                        "Wave %d finished, pausing engine loop.", self.current_wave
+                    )
+                    # In the coordinator case, dp rank 0 sends updates to the
+                    # coordinator. Otherwise (offline spmd case), each rank
+                    # sends the update to its colocated front-end process.
+                    client_index = -1 if self.has_coordinator else 0
+                    self.output_queue.put_nowait(
+                        (
+                            client_index,
+                            EngineCoreOutputs(wave_complete=self.current_wave),
+                        )
+                    )
+                # Increment wave count and reset step counter.
+                self.current_wave += 1
+                self.step_counter = 0
+
+    def _has_global_unfinished_reqs(self, local_unfinished: bool) -> bool:
+        # Optimization - only perform finish-sync all-reduce every 32 steps.
+        self.step_counter += 1
+        if self.step_counter % 32 != 0:
+            return True
+
+        return ParallelConfig.has_unfinished_dp(self.dp_group, local_unfinished)
+
+    def reinitialize_distributed(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        stateless_destroy_torch_distributed_process_group(self.dp_group)
+        self.shutdown()
+
+        parallel_config = self.vllm_config.parallel_config
+        old_dp_size = parallel_config.data_parallel_size
+        parallel_config.data_parallel_size = reconfig_request.new_data_parallel_size
+        if reconfig_request.new_data_parallel_rank != -1:
+            parallel_config.data_parallel_rank = reconfig_request.new_data_parallel_rank
+        # local rank specifies device visibility, it should not be changed
+        assert (
+            reconfig_request.new_data_parallel_rank_local
+            == ReconfigureRankType.KEEP_CURRENT_RANK
+        )
+        parallel_config.data_parallel_master_ip = (
+            reconfig_request.new_data_parallel_master_ip
+        )
+        parallel_config.data_parallel_master_port = (
+            reconfig_request.new_data_parallel_master_port
+        )
+        if reconfig_request.new_data_parallel_rank != -2:
+            self.dp_rank = parallel_config.data_parallel_rank
+            self.dp_group = parallel_config.stateless_init_dp_group()
+        reconfig_request.new_data_parallel_master_port = (
+            parallel_config.data_parallel_master_port
+        )
+
+        self.model_executor.reinitialize_distributed(reconfig_request)
+        if reconfig_request.new_data_parallel_size > old_dp_size:
+            assert self.available_gpu_memory_for_kv_cache > 0
+            # pass available_gpu_memory_for_kv_cache from existing
+            # engine-cores to new engine-cores so they can directly
+            # use it in _initialize_kv_caches() rather than profiling.
+            ParallelConfig.sync_kv_cache_memory_size(
+                self.dp_group, self.available_gpu_memory_for_kv_cache
+            )
+            # NOTE(yongji): newly joined workers require dummy_run even
+            # CUDA graph is not used
+            self.model_executor.collective_rpc("compile_or_warm_up_model")
+        if (
+            reconfig_request.new_data_parallel_rank
+            == ReconfigureRankType.SHUTDOWN_CURRENT_RANK
+        ):
+            self.shutdown()
+            logger.info("DPEngineCoreProc %s shutdown", self.dp_rank)
+        else:
+            logger.info(
+                "Distributed environment reinitialized for DP rank %s", self.dp_rank
+            )
+
+
+class DPEngineCoreActor(DPEngineCoreProc):
+    """
+    Ray actor for running EngineCore in a data parallel context
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_client: bool,
+        addresses: EngineZmqAddresses,
+        executor_class: type[Executor],
+        log_stats: bool,
+        dp_rank: int = 0,
+        local_dp_rank: int = 0,
+    ):
+        self.addresses = addresses
+        vllm_config.parallel_config.data_parallel_rank = dp_rank
+        vllm_config.parallel_config.data_parallel_rank_local = local_dp_rank
+
+        # Set CUDA_VISIBLE_DEVICES as early as possible in actor life cycle
+        # NOTE: in MP we set CUDA_VISIBLE_DEVICES at process creation time,
+        # and this cannot be done in the same way for Ray because:
+        # 1) Ray manages life cycle of all ray workers (including
+        # DPEngineCoreActor)
+        # 2) Ray sets CUDA_VISIBLE_DEVICES based on num_gpus configuration
+        # To bypass 2, we need to also set
+        # RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES, but vLLM workers created
+        # thereafter would have CUDA_VISIBLE_DEVICES set, which is sticky:
+        # https://github.com/ray-project/ray/blob/e752fc319ddedd9779a0989b6d3613909bad75c9/python/ray/_private/worker.py#L456 # noqa: E501
+        # This is problematic because when the vLLM worker (a Ray actor)
+        # executes a task, it indexes into the sticky CUDA_VISIBLE_DEVICES
+        # rather than directly using the GPU ID, potentially resulting in
+        # index out of bounds error. See:
+        # https://github.com/ray-project/ray/pull/40461/files#diff-31e8159767361e4bc259b6d9883d9c0d5e5db780fcea4a52ead4ee3ee4a59a78R1860 # noqa: E501
+        # and get_accelerator_ids_for_accelerator_resource() in worker.py
+        # of ray.
+        self._set_visible_devices(vllm_config, local_dp_rank)
+
+        super().__init__(vllm_config, local_client, "", executor_class, log_stats)
+
+    def _set_visible_devices(self, vllm_config: VllmConfig, local_dp_rank: int):
+        from vllm.platforms import current_platform
+
+        if current_platform.is_xpu():
+            pass
+        else:
+            device_control_env_var = current_platform.device_control_env_var
+            self._set_cuda_visible_devices(
+                vllm_config, local_dp_rank, device_control_env_var
+            )
+
+    def _set_cuda_visible_devices(
+        self, vllm_config: VllmConfig, local_dp_rank: int, device_control_env_var: str
+    ):
+        world_size = vllm_config.parallel_config.world_size
+        # Set CUDA_VISIBLE_DEVICES or equivalent.
+        try:
+            value = get_device_indices(
+                device_control_env_var, local_dp_rank, world_size
+            )
+            os.environ[device_control_env_var] = value
+        except IndexError as e:
+            raise Exception(
+                f"Error setting {device_control_env_var}: "
+                f"local range: [{local_dp_rank * world_size}, "
+                f"{(local_dp_rank + 1) * world_size}) "
+                f'base value: "{os.getenv(device_control_env_var)}"'
+            ) from e
+
+    @contextmanager
+    def _perform_handshakes(
+        self,
+        handshake_address: str,
+        identity: bytes,
+        local_client: bool,
+        vllm_config: VllmConfig,
+        client_handshake_address: str | None,
+    ):
+        """
+        For Ray, we don't need to actually perform handshake.
+        All addresses information is known before the actor creation.
+        Therefore, we simply yield these addresses.
+        """
+        yield self.addresses
+
+    def wait_for_init(self):
+        """
+        Wait until the engine core is initialized.
+
+        This is just an empty method. When ray.get() on this method
+        (or any other method of the actor) returns, it is guaranteed
+        that actor creation (i.e., __init__) is complete.
+        """
+        pass
+
+    def run(self):
+        """
+        Run the engine core busy loop.
+        """
+        try:
+            self.run_busy_loop()
+        except SystemExit:
+            logger.debug("EngineCore exiting.")
+            raise
+        except Exception:
+            logger.exception("EngineCore encountered a fatal error.")
+            raise
+        finally:
+            self.shutdown()
diff --git a/v1/engine/core_client.py b/v1/engine/core_client.py
new file mode 100644
index 0000000..9b44050
--- /dev/null
+++ b/v1/engine/core_client.py
@@ -0,0 +1,1400 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import contextlib
+import multiprocessing
+import queue
+import sys
+import uuid
+import weakref
+from abc import ABC, abstractmethod
+from collections import defaultdict, deque
+from collections.abc import Awaitable, Callable, Sequence
+from concurrent.futures import Future
+from dataclasses import dataclass
+from threading import Thread
+from typing import Any, TypeAlias, TypeVar
+
+import msgspec.msgpack
+import zmq
+import zmq.asyncio
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.tasks import SupportedTask
+from vllm.utils.async_utils import in_loop
+from vllm.utils.network_utils import (
+    close_sockets,
+    get_open_port,
+    get_open_zmq_inproc_path,
+    make_zmq_socket,
+)
+from vllm.v1.engine import (
+    EngineCoreOutputs,
+    EngineCoreRequest,
+    EngineCoreRequestType,
+    ReconfigureDistributedRequest,
+    ReconfigureRankType,
+    UtilityOutput,
+)
+from vllm.v1.engine.coordinator import DPCoordinator
+from vllm.v1.engine.core import EngineCore, EngineCoreProc
+from vllm.v1.engine.exceptions import EngineDeadError
+from vllm.v1.engine.utils import (
+    CoreEngineActorManager,
+    CoreEngineProcManager,
+    launch_core_engines,
+)
+from vllm.v1.executor import Executor
+from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder, bytestr
+
+logger = init_logger(__name__)
+
+AnyFuture: TypeAlias = asyncio.Future[Any] | Future[Any]
+
+_R = TypeVar("_R")  # Return type for collective_rpc
+
+EngineIdentity = bytes
+
+
+class EngineCoreClient(ABC):
+    """
+    EngineCoreClient: subclasses handle different methods for pushing
+        and pulling from the EngineCore for asyncio / multiprocessing.
+
+    Subclasses:
+    * InprocClient: In process EngineCore (for V0-style LLMEngine use)
+    * SyncMPClient: ZMQ + background proc EngineCore (for LLM)
+    * AsyncMPClient: ZMQ + background proc EngineCore w/ asyncio (for AsyncLLM)
+    """
+
+    @staticmethod
+    def make_client(
+        multiprocess_mode: bool,
+        asyncio_mode: bool,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+    ) -> "EngineCoreClient":
+        # TODO: support this for debugging purposes.
+        if asyncio_mode and not multiprocess_mode:
+            raise NotImplementedError(
+                "Running EngineCore in asyncio without multiprocessing "
+                "is not currently supported."
+            )
+
+        if multiprocess_mode and asyncio_mode:
+            return EngineCoreClient.make_async_mp_client(
+                vllm_config, executor_class, log_stats
+            )
+
+        if multiprocess_mode and not asyncio_mode:
+            return SyncMPClient(vllm_config, executor_class, log_stats)
+
+        return InprocClient(vllm_config, executor_class, log_stats)
+
+    @staticmethod
+    def make_async_mp_client(
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+    ) -> "MPClient":
+        parallel_config = vllm_config.parallel_config
+        client_args = (
+            vllm_config,
+            executor_class,
+            log_stats,
+            client_addresses,
+            client_count,
+            client_index,
+        )
+        if parallel_config.data_parallel_size > 1:
+            if parallel_config.data_parallel_external_lb:
+                # External load balancer - client per DP rank.
+                return DPAsyncMPClient(*client_args)
+            # Internal load balancer - client balances to all DP ranks.
+            return DPLBAsyncMPClient(*client_args)
+        return AsyncMPClient(*client_args)
+
+    @abstractmethod
+    def shutdown(self): ...
+
+    def get_output(self) -> EngineCoreOutputs:
+        raise NotImplementedError
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        raise NotImplementedError
+
+    def add_request(self, request: EngineCoreRequest) -> None:
+        raise NotImplementedError
+
+    def profile(self, is_start: bool = True) -> None:
+        raise NotImplementedError
+
+    def reset_mm_cache(self) -> None:
+        raise NotImplementedError
+
+    def reset_prefix_cache(self) -> None:
+        raise NotImplementedError
+
+    def sleep(self, level: int = 1) -> None:
+        raise NotImplementedError
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        raise NotImplementedError
+
+    def is_sleeping(self) -> bool:
+        raise NotImplementedError
+
+    def execute_dummy_batch(self) -> None:
+        raise NotImplementedError
+
+    async def execute_dummy_batch_async(self) -> None:
+        raise NotImplementedError
+
+    def abort_requests(self, request_ids: list[str]) -> None:
+        raise NotImplementedError
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        raise NotImplementedError
+
+    def remove_lora(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    def list_loras(self) -> set[int]:
+        raise NotImplementedError
+
+    def pin_lora(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    def save_sharded_state(
+        self, path: str, pattern: str | None = None, max_size: int | None = None
+    ) -> None:
+        raise NotImplementedError
+
+    def collective_rpc(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        raise NotImplementedError
+
+    def dp_engines_running(self) -> bool:
+        """Returns True id data parallel engines are collectively in a
+        running state."""
+        raise NotImplementedError
+
+    async def scale_elastic_ep(self, new_data_parallel_size: int) -> None:
+        raise NotImplementedError
+
+    async def get_output_async(self) -> EngineCoreOutputs:
+        raise NotImplementedError
+
+    async def get_supported_tasks_async(self) -> tuple[SupportedTask, ...]:
+        raise NotImplementedError
+
+    async def add_request_async(self, request: EngineCoreRequest) -> None:
+        raise NotImplementedError
+
+    async def profile_async(self, is_start: bool = True) -> None:
+        raise NotImplementedError
+
+    async def reset_mm_cache_async(self) -> None:
+        raise NotImplementedError
+
+    async def reset_prefix_cache_async(self) -> None:
+        raise NotImplementedError
+
+    async def sleep_async(self, level: int = 1) -> None:
+        raise NotImplementedError
+
+    async def wake_up_async(self, tags: list[str] | None = None) -> None:
+        raise NotImplementedError
+
+    async def is_sleeping_async(self) -> bool:
+        raise NotImplementedError
+
+    async def abort_requests_async(self, request_ids: list[str]) -> None:
+        raise NotImplementedError
+
+    async def add_lora_async(self, lora_request: LoRARequest) -> bool:
+        raise NotImplementedError
+
+    async def remove_lora_async(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    async def list_loras_async(self) -> set[int]:
+        raise NotImplementedError
+
+    async def pin_lora_async(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    async def save_sharded_state_async(
+        self, path: str, pattern: str | None = None, max_size: int | None = None
+    ) -> None:
+        raise NotImplementedError
+
+    async def collective_rpc_async(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        raise NotImplementedError
+
+
+class InprocClient(EngineCoreClient):
+    """
+    InprocClient: client for in-process EngineCore. Intended
+    for use in LLMEngine for V0-style add_request() and step()
+        EngineCore setup in this process (no busy loop).
+
+        * pushes EngineCoreRequest directly into the EngineCore
+        * pulls EngineCoreOutputs by stepping the EngineCore
+    """
+
+    def __init__(self, *args, **kwargs):
+        self.engine_core = EngineCore(*args, **kwargs)
+
+    def get_output(self) -> EngineCoreOutputs:
+        outputs, _ = self.engine_core.step_fn()
+        return outputs and outputs.get(0) or EngineCoreOutputs()
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.engine_core.get_supported_tasks()
+
+    def add_request(self, request: EngineCoreRequest) -> None:
+        req, request_wave = self.engine_core.preprocess_add_request(request)
+        self.engine_core.add_request(req, request_wave)
+
+    def abort_requests(self, request_ids: list[str]) -> None:
+        if len(request_ids) > 0:
+            self.engine_core.abort_requests(request_ids)
+
+    def shutdown(self) -> None:
+        self.engine_core.shutdown()
+
+    def profile(self, is_start: bool = True) -> None:
+        self.engine_core.profile(is_start)
+
+    def reset_mm_cache(self) -> None:
+        self.engine_core.reset_mm_cache()
+
+    def reset_prefix_cache(self) -> None:
+        self.engine_core.reset_prefix_cache()
+
+    def sleep(self, level: int = 1) -> None:
+        self.engine_core.sleep(level)
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        self.engine_core.wake_up(tags)
+
+    def is_sleeping(self) -> bool:
+        return self.engine_core.is_sleeping()
+
+    def execute_dummy_batch(self) -> None:
+        self.engine_core.execute_dummy_batch()
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.engine_core.add_lora(lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        return self.engine_core.remove_lora(lora_id)
+
+    def list_loras(self) -> set[int]:
+        return self.engine_core.list_loras()
+
+    def pin_lora(self, lora_id: int) -> bool:
+        return self.engine_core.pin_lora(lora_id)
+
+    def save_sharded_state(
+        self, path: str, pattern: str | None = None, max_size: int | None = None
+    ) -> None:
+        self.engine_core.save_sharded_state(path, pattern, max_size)
+
+    def collective_rpc(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        return self.engine_core.collective_rpc(method, timeout, args, kwargs)
+
+    def dp_engines_running(self) -> bool:
+        return False
+
+
+@dataclass
+class BackgroundResources:
+    """Used as a finalizer for clean shutdown, avoiding
+    circular reference back to the client object."""
+
+    ctx: zmq.Context
+    # If CoreEngineProcManager, it manages local engines;
+    # if CoreEngineActorManager, it manages all engines.
+    engine_manager: CoreEngineProcManager | CoreEngineActorManager | None = None
+    coordinator: DPCoordinator | None = None
+    output_socket: zmq.Socket | zmq.asyncio.Socket | None = None
+    input_socket: zmq.Socket | zmq.asyncio.Socket | None = None
+    first_req_send_socket: zmq.asyncio.Socket | None = None
+    first_req_rcv_socket: zmq.asyncio.Socket | None = None
+    stats_update_socket: zmq.asyncio.Socket | None = None
+    output_queue_task: asyncio.Task | None = None
+    stats_update_task: asyncio.Task | None = None
+    shutdown_path: str | None = None
+
+    # Set if any of the engines are dead. Here so that the output
+    # processing threads can access it without holding a ref to the client.
+    engine_dead: bool = False
+
+    def __call__(self):
+        """Clean up background resources."""
+
+        self.engine_dead = True
+        if self.engine_manager is not None:
+            self.engine_manager.close()
+        if self.coordinator is not None:
+            self.coordinator.close()
+
+        if isinstance(self.output_socket, zmq.asyncio.Socket):
+            # Async case.
+            loop = self.output_queue_task._loop if self.output_queue_task else None
+
+            sockets = (
+                self.output_socket,
+                self.input_socket,
+                self.first_req_send_socket,
+                self.first_req_rcv_socket,
+                self.stats_update_socket,
+            )
+
+            tasks = (self.output_queue_task, self.stats_update_task)
+
+            def close_sockets_and_tasks():
+                close_sockets(sockets)
+                for task in tasks:
+                    if task is not None and not task.done():
+                        with contextlib.suppress(Exception):
+                            task.cancel()
+
+            if loop is not None:
+                if in_loop(loop):
+                    close_sockets_and_tasks()
+                elif not loop.is_closed():
+                    loop.call_soon_threadsafe(close_sockets_and_tasks)
+            else:
+                # Loop has been closed, try to clean up directly.
+                del tasks
+                del close_sockets_and_tasks
+                close_sockets(sockets)
+                del self.output_queue_task
+                del self.stats_update_task
+        else:
+            # Sync case.
+
+            # ZMQ context termination can hang if the sockets
+            # aren't explicitly closed first.
+            close_sockets((self.output_socket, self.input_socket))
+
+            if self.shutdown_path is not None:
+                # We must ensure that the sync output socket is
+                # closed cleanly in its own thread.
+                with self.ctx.socket(zmq.PAIR) as shutdown_sender:
+                    shutdown_sender.connect(self.shutdown_path)
+                    # Send shutdown signal.
+                    shutdown_sender.send(b"")
+
+    def validate_alive(self, frames: Sequence[zmq.Frame]):
+        if len(frames) == 1 and (frames[0].buffer == EngineCoreProc.ENGINE_CORE_DEAD):
+            self.engine_dead = True
+            raise EngineDeadError()
+
+
+class MPClient(EngineCoreClient):
+    """
+    MPClient: base client for multi-proc EngineCore.
+        EngineCore runs in a background process busy loop, getting
+        new EngineCoreRequests and returning EngineCoreOutputs
+
+        * pushes EngineCoreRequests via input_socket
+        * pulls EngineCoreOutputs via output_socket
+
+        * AsyncMPClient subclass for AsyncLLM usage
+        * SyncMPClient subclass for LLM usage
+    """
+
+    def __init__(
+        self,
+        asyncio_mode: bool,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_addresses: dict[str, str] | None = None,
+    ):
+        self.vllm_config = vllm_config
+        # Serialization setup.
+        self.encoder = MsgpackEncoder()
+        self.decoder = MsgpackDecoder(EngineCoreOutputs)
+
+        # ZMQ setup.
+        sync_ctx = zmq.Context(io_threads=2)
+        self.ctx = zmq.asyncio.Context(sync_ctx) if asyncio_mode else sync_ctx
+
+        # This will ensure resources created so far are closed
+        # when the client is garbage collected, even if an
+        # exception is raised mid-construction.
+        self.resources = BackgroundResources(ctx=sync_ctx)
+        self._finalizer = weakref.finalize(self, self.resources)
+        success = False
+        try:
+            # State used for data parallel.
+            self.engines_running = False
+
+            self.stats_update_address: str | None = None
+            if client_addresses:
+                # Engines are managed externally to this client.
+                input_address = client_addresses["input_address"]
+                output_address = client_addresses["output_address"]
+                self.stats_update_address = client_addresses.get("stats_update_address")
+            else:
+                # Engines are managed by this client.
+                with launch_core_engines(vllm_config, executor_class, log_stats) as (
+                    engine_manager,
+                    coordinator,
+                    addresses,
+                ):
+                    self.resources.coordinator = coordinator
+                    self.resources.engine_manager = engine_manager
+
+                (input_address,) = addresses.inputs
+                (output_address,) = addresses.outputs
+                self.stats_update_address = addresses.frontend_stats_publish_address
+                if coordinator is not None:
+                    assert self.stats_update_address == (
+                        coordinator.get_stats_publish_address()
+                    )
+
+            # Create input and output sockets.
+            self.input_socket = self.resources.input_socket = make_zmq_socket(
+                self.ctx, input_address, zmq.ROUTER, bind=True
+            )
+            self.resources.output_socket = make_zmq_socket(
+                self.ctx, output_address, zmq.PULL
+            )
+
+            parallel_config = vllm_config.parallel_config
+            dp_size = parallel_config.data_parallel_size
+            dp_rank = parallel_config.data_parallel_rank
+            dp_local_size = parallel_config.data_parallel_size_local
+            offline_mode = parallel_config.data_parallel_rank_local is not None
+            # Client manages local+remote EngineCores in pure internal LB case.
+            # Client manages local EngineCores in hybrid and external LB case.
+            local_engines_only = (
+                parallel_config.data_parallel_hybrid_lb
+                or parallel_config.data_parallel_external_lb
+            )
+
+            num_ranks = dp_local_size if local_engines_only else dp_size
+            self.engine_ranks_managed = (
+                [dp_rank] if offline_mode else list(range(dp_rank, dp_rank + num_ranks))
+            )
+            assert parallel_config.data_parallel_size_local <= len(
+                self.engine_ranks_managed
+            )
+
+            # ZMQ identity of each engine that this client will talk to.
+            self.core_engines: list[EngineIdentity] = [
+                rank.to_bytes(2, "little") for rank in self.engine_ranks_managed
+            ]
+
+            # Wait for ready messages from each engine on the input socket.
+            identities = set(self.core_engines)
+            sync_input_socket = zmq.Socket.shadow(self.input_socket)
+            while identities:
+                if not sync_input_socket.poll(timeout=600_000):
+                    raise TimeoutError(
+                        "Timed out waiting for engines to send"
+                        "initial message on input socket."
+                    )
+                identity, _ = sync_input_socket.recv_multipart()
+                identities.remove(identity)
+
+            self.core_engine: EngineIdentity = self.core_engines[0]
+            self.utility_results: dict[int, AnyFuture] = {}
+
+            # Request objects which may contain pytorch-allocated tensors
+            # that we need to keep references to until zmq is done with the
+            # underlying data.
+            self.pending_messages = deque[tuple[zmq.MessageTracker, Any]]()
+
+            # Start monitoring engine core processes for unexpected failures
+            self.start_engine_core_monitor()
+
+            success = True
+        finally:
+            if not success:
+                self._finalizer()
+
+    def shutdown(self):
+        # Terminate background resources.
+        self._finalizer()
+
+    def _format_exception(self, e: Exception) -> Exception:
+        """If errored, use EngineDeadError so root cause is clear."""
+        return (
+            EngineDeadError(suppress_context=True) if self.resources.engine_dead else e
+        )
+
+    def ensure_alive(self):
+        if self.resources.engine_dead:
+            raise EngineDeadError()
+
+    def add_pending_message(self, tracker: zmq.MessageTracker, msg: Any):
+        if not tracker.done:
+            self.pending_messages.appendleft((tracker, msg))
+
+    def free_pending_messages(self):
+        while self.pending_messages and self.pending_messages[-1][0].done:
+            self.pending_messages.pop()
+
+    def dp_engines_running(self) -> bool:
+        return self.engines_running
+
+    def start_engine_core_monitor(self):
+        """Start a monitor thread for engine core processes."""
+        engine_manager = self.resources.engine_manager
+        if (
+            engine_manager is None
+            or not hasattr(engine_manager, "processes")
+            or not engine_manager.processes
+        ):
+            # No engine processes to monitor
+            return
+
+        engine_processes = engine_manager.processes
+        self_ref = weakref.ref(self)
+
+        # Monitor engine core process liveness. If any die unexpectedly,
+        # logs an error, shuts down the client and invokes the failure
+        # callback to inform the engine.
+        def monitor_engine_cores():
+            sentinels = [proc.sentinel for proc in engine_processes]
+            died = multiprocessing.connection.wait(sentinels)
+            _self = self_ref()
+            if not _self or _self.resources.engine_dead:
+                return
+            _self.resources.engine_dead = True
+            proc_name = next(
+                proc.name for proc in engine_processes if proc.sentinel == died[0]
+            )
+            logger.error(
+                "Engine core proc %s died unexpectedly, shutting down client.",
+                proc_name,
+            )
+            _self.shutdown()
+            # Note: For MPClient, we don't have a failure callback mechanism
+            # like MultiprocExecutor, but we set engine_dead flag which will
+            # cause subsequent operations to raise EngineDeadError
+
+        Thread(
+            target=monitor_engine_cores, daemon=True, name="MPClientEngineMonitor"
+        ).start()
+
+
+def _process_utility_output(
+    output: UtilityOutput, utility_results: dict[int, AnyFuture]
+):
+    """Set the result from a utility method in the waiting future."""
+    future = utility_results.pop(output.call_id)
+    failure_message = output.failure_message
+    try:
+        if failure_message is not None:
+            future.set_exception(Exception(failure_message))
+        else:
+            assert output.result is not None
+            future.set_result(output.result.result)
+    except asyncio.InvalidStateError:
+        # This can happen if the future is cancelled due to the
+        # original calling task being cancelled.
+        if failure_message is not None:
+            logger.error(
+                "Cancelled call to utility method failed with error: %s",
+                failure_message,
+            )
+
+
+class SyncMPClient(MPClient):
+    """Synchronous client for multi-proc EngineCore."""
+
+    def __init__(
+        self, vllm_config: VllmConfig, executor_class: type[Executor], log_stats: bool
+    ):
+        super().__init__(
+            asyncio_mode=False,
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=log_stats,
+        )
+
+        self.is_dp = self.vllm_config.parallel_config.data_parallel_size > 1
+        self.outputs_queue = queue.Queue[EngineCoreOutputs | Exception]()
+
+        # Ensure that the outputs socket processing thread does not have
+        # a ref to the client which prevents gc.
+        ctx = self.ctx
+        out_socket = self.resources.output_socket
+        decoder = self.decoder
+        utility_results = self.utility_results
+        outputs_queue = self.outputs_queue
+
+        shutdown_path = get_open_zmq_inproc_path()
+        resources = self.resources
+        resources.shutdown_path = shutdown_path
+
+        def process_outputs_socket():
+            assert isinstance(out_socket, zmq.Socket)
+            shutdown_socket = ctx.socket(zmq.PAIR)
+            try:
+                shutdown_socket.bind(shutdown_path)
+                poller = zmq.Poller()
+                poller.register(shutdown_socket, zmq.POLLIN)
+                poller.register(out_socket, zmq.POLLIN)
+                while True:
+                    socks = poller.poll()
+                    if not socks:
+                        continue
+                    if len(socks) == 2 or socks[0][0] == shutdown_socket:
+                        # shutdown signal, exit thread.
+                        break
+
+                    frames = out_socket.recv_multipart(copy=False)
+                    resources.validate_alive(frames)
+                    outputs: EngineCoreOutputs = decoder.decode(frames)
+                    if outputs.utility_output:
+                        _process_utility_output(outputs.utility_output, utility_results)
+                    else:
+                        outputs_queue.put_nowait(outputs)
+            except Exception as e:
+                outputs_queue.put_nowait(e)
+            finally:
+                # Close sockets.
+                shutdown_socket.close(linger=0)
+                out_socket.close(linger=0)
+
+        # Process outputs from engine in separate thread.
+        self.output_queue_thread = Thread(
+            target=process_outputs_socket,
+            name="EngineCoreOutputQueueThread",
+            daemon=True,
+        )
+        self.output_queue_thread.start()
+
+        # The thread takes on responsibility for closing the socket.
+        self.resources.output_socket = None
+
+    def get_output(self) -> EngineCoreOutputs:
+        # If an exception arises in process_outputs_socket task,
+        # it is forwarded to the outputs_queue so we can raise it
+        # from this (run_output_handler) task to shut down the server.
+        outputs = self.outputs_queue.get()
+        if isinstance(outputs, Exception):
+            raise self._format_exception(outputs) from None
+        if outputs.wave_complete is not None:
+            self.engines_running = False
+        return outputs
+
+    def _send_input(self, request_type: EngineCoreRequestType, request: Any):
+        self.ensure_alive()
+        self.free_pending_messages()
+        # (Identity, RequestType, SerializedRequest)
+        msg = (self.core_engine, request_type.value, *self.encoder.encode(request))
+
+        if len(msg) <= 3:
+            # No auxiliary buffers => no tensor backing buffers in request.
+            self.input_socket.send_multipart(msg, copy=False)
+            return
+
+        tracker = self.input_socket.send_multipart(msg, copy=False, track=True)
+        self.add_pending_message(tracker, request)
+
+    def call_utility(self, method: str, *args) -> Any:
+        call_id = uuid.uuid1().int >> 64
+        future: Future[Any] = Future()
+        self.utility_results[call_id] = future
+        self._send_input(EngineCoreRequestType.UTILITY, (0, call_id, method, args))
+
+        return future.result()
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.call_utility("get_supported_tasks")
+
+    def add_request(self, request: EngineCoreRequest) -> None:
+        if self.is_dp:
+            self.engines_running = True
+        self._send_input(EngineCoreRequestType.ADD, request)
+
+    def abort_requests(self, request_ids: list[str]) -> None:
+        if request_ids and not self.resources.engine_dead:
+            self._send_input(EngineCoreRequestType.ABORT, request_ids)
+
+    def profile(self, is_start: bool = True) -> None:
+        self.call_utility("profile", is_start)
+
+    def reset_mm_cache(self) -> None:
+        self.call_utility("reset_mm_cache")
+
+    def reset_prefix_cache(self) -> None:
+        self.call_utility("reset_prefix_cache")
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.call_utility("add_lora", lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        return self.call_utility("remove_lora", lora_id)
+
+    def list_loras(self) -> set[int]:
+        return self.call_utility("list_loras")
+
+    def pin_lora(self, lora_id: int) -> bool:
+        return self.call_utility("pin_lora", lora_id)
+
+    def sleep(self, level: int = 1) -> None:
+        self.call_utility("sleep", level)
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        self.call_utility("wake_up", tags)
+
+    def is_sleeping(self) -> bool:
+        return self.call_utility("is_sleeping")
+
+    def execute_dummy_batch(self) -> None:
+        self.call_utility("execute_dummy_batch")
+
+    def collective_rpc(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        return self.call_utility("collective_rpc", method, timeout, args, kwargs)
+
+    def save_sharded_state(
+        self, path: str, pattern: str | None = None, max_size: int | None = None
+    ) -> None:
+        self.call_utility("save_sharded_state", path, pattern, max_size)
+
+
+class AsyncMPClient(MPClient):
+    """Asyncio-compatible client for multi-proc EngineCore."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+    ):
+        super().__init__(
+            asyncio_mode=True,
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=log_stats,
+            client_addresses=client_addresses,
+        )
+
+        self.client_count = client_count
+        self.client_index = client_index
+        self.outputs_queue = asyncio.Queue[EngineCoreOutputs | Exception]()
+        try:
+            # If we are running in an asyncio event loop, start the queue task.
+            # Otherwise, it will be started lazily. If it is not started here,
+            # we could miss EXECUTOR_FAILED messages from engine core if they
+            # occur prior to any requests being sent.
+            asyncio.get_running_loop()
+            self._ensure_output_queue_task()
+        except RuntimeError:
+            pass
+
+    def _ensure_output_queue_task(self):
+        resources = self.resources
+        if resources.output_queue_task is not None:
+            return
+
+        # Perform IO in separate task to parallelize as much as possible.
+        # Avoid task having direct reference back to the client.
+        decoder = self.decoder
+        utility_results = self.utility_results
+        outputs_queue = self.outputs_queue
+        output_handler: (
+            Callable[[AsyncMPClient, EngineCoreOutputs], Awaitable[None]] | None
+        ) = getattr(self.__class__, "process_engine_outputs", None)
+        _self_ref = weakref.ref(self) if output_handler else None
+        output_socket = resources.output_socket
+        assert output_socket is not None
+
+        async def process_outputs_socket():
+            try:
+                while True:
+                    frames = await output_socket.recv_multipart(copy=False)
+                    resources.validate_alive(frames)
+                    outputs: EngineCoreOutputs = decoder.decode(frames)
+                    if outputs.utility_output:
+                        _process_utility_output(outputs.utility_output, utility_results)
+                        continue
+
+                    if output_handler is not None:
+                        assert _self_ref is not None
+                        _self = _self_ref()
+                        if not _self:
+                            # Client has been garbage collected, abort.
+                            return
+                        await output_handler(_self, outputs)
+
+                    if outputs.outputs or outputs.scheduler_stats:
+                        outputs_queue.put_nowait(outputs)
+            except Exception as e:
+                outputs_queue.put_nowait(e)
+            except asyncio.CancelledError:
+                outputs_queue.put_nowait(EngineDeadError())
+
+        resources.output_queue_task = asyncio.create_task(
+            process_outputs_socket(), name="EngineCoreOutputQueueTask"
+        )
+
+    async def get_output_async(self) -> EngineCoreOutputs:
+        self._ensure_output_queue_task()
+        # If an exception arises in process_outputs_socket task,
+        # it is forwarded to the outputs_queue so we can raise it
+        # from this (run_output_handler) task to shut down the server.
+        assert self.outputs_queue is not None
+        outputs = await self.outputs_queue.get()
+        if isinstance(outputs, Exception):
+            raise self._format_exception(outputs) from None
+        return outputs
+
+    def _send_input(
+        self,
+        request_type: EngineCoreRequestType,
+        request: Any,
+        engine: EngineIdentity | None = None,
+    ) -> Awaitable[Any]:
+        if engine is None:
+            engine = self.core_engine
+
+        message = (request_type.value, *self.encoder.encode(request))
+        return self._send_input_message(message, engine, request)
+
+    def _send_input_message(
+        self, message: tuple[bytestr, ...], engine: EngineIdentity, objects: Any
+    ) -> Awaitable[Any]:
+        """
+        objects is a reference to retain until zmq is finished with the
+        buffers, in case they were extracted from tensors in the request.
+        """
+        self.ensure_alive()
+        self.free_pending_messages()
+
+        msg = (engine,) + message
+        if not objects or len(msg) <= 3:
+            # No auxiliary buffers => no tensor backing buffers in request.
+            return self.input_socket.send_multipart(msg, copy=False)
+
+        future: asyncio.Future[zmq.MessageTracker]
+        future = self.input_socket.send_multipart(msg, copy=False, track=True)
+
+        def add_pending(f: asyncio.Future[zmq.MessageTracker]):
+            with contextlib.suppress(BaseException):
+                self.add_pending_message(f.result(), objects)
+
+        future.add_done_callback(add_pending)
+        return future
+
+    async def call_utility_async(self, method: str, *args) -> Any:
+        return await self._call_utility_async(method, *args, engine=self.core_engine)
+
+    async def _call_utility_async(
+        self, method: str, *args, engine: EngineIdentity
+    ) -> Any:
+        call_id = uuid.uuid1().int >> 64
+        future = asyncio.get_running_loop().create_future()
+        self.utility_results[call_id] = future
+        message = (
+            EngineCoreRequestType.UTILITY.value,
+            *self.encoder.encode((self.client_index, call_id, method, args)),
+        )
+        await self._send_input_message(message, engine, args)
+        self._ensure_output_queue_task()
+        return await future
+
+    async def get_supported_tasks_async(self) -> tuple[SupportedTask, ...]:
+        return await self.call_utility_async("get_supported_tasks")
+
+    async def add_request_async(self, request: EngineCoreRequest) -> None:
+        request.client_index = self.client_index
+        await self._send_input(EngineCoreRequestType.ADD, request)
+        self._ensure_output_queue_task()
+
+    async def abort_requests_async(self, request_ids: list[str]) -> None:
+        if request_ids and not self.resources.engine_dead:
+            await self._send_input(EngineCoreRequestType.ABORT, request_ids)
+
+    async def profile_async(self, is_start: bool = True) -> None:
+        await self.call_utility_async("profile", is_start)
+
+    async def reset_mm_cache_async(self) -> None:
+        await self.call_utility_async("reset_mm_cache")
+
+    async def reset_prefix_cache_async(self) -> None:
+        await self.call_utility_async("reset_prefix_cache")
+
+    async def sleep_async(self, level: int = 1) -> None:
+        await self.call_utility_async("sleep", level)
+
+    async def wake_up_async(self, tags: list[str] | None = None) -> None:
+        await self.call_utility_async("wake_up", tags)
+
+    async def is_sleeping_async(self) -> bool:
+        return await self.call_utility_async("is_sleeping")
+
+    async def execute_dummy_batch_async(self) -> None:
+        await self.call_utility_async("execute_dummy_batch")
+
+    async def add_lora_async(self, lora_request: LoRARequest) -> bool:
+        return await self.call_utility_async("add_lora", lora_request)
+
+    async def remove_lora_async(self, lora_id: int) -> bool:
+        return await self.call_utility_async("remove_lora", lora_id)
+
+    async def list_loras_async(self) -> set[int]:
+        return await self.call_utility_async("list_loras")
+
+    async def pin_lora_async(self, lora_id: int) -> bool:
+        return await self.call_utility_async("pin_lora", lora_id)
+
+    async def save_sharded_state_async(
+        self, path: str, pattern: str | None = None, max_size: int | None = None
+    ) -> None:
+        await self.call_utility_async("save_sharded_state", path, pattern, max_size)
+
+    async def collective_rpc_async(
+        self,
+        method: str | Callable[..., _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        return await self.call_utility_async(
+            "collective_rpc", method, timeout, args, kwargs
+        )
+
+
+class DPAsyncMPClient(AsyncMPClient):
+    """Asyncio-compatible client for multi-proc, multi-engine (data parallel)
+    EngineCore. Assumes external load-balancing by default."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+    ):
+        self.current_wave = 0
+
+        super().__init__(
+            vllm_config,
+            executor_class,
+            log_stats,
+            client_addresses,
+            client_count,
+            client_index,
+        )
+
+        # List of [waiting, running] pair per engine.
+        # Used only by DPLBAsyncMPClient subclass.
+        self.lb_engines: list[list[int]] = [[0, 0] for _ in self.core_engines]
+
+        self.first_req_sock_addr = get_open_zmq_inproc_path()
+        self.first_req_send_socket = self.resources.first_req_send_socket = (
+            make_zmq_socket(self.ctx, self.first_req_sock_addr, zmq.PAIR, bind=True)
+        )
+        try:
+            # If we are running in an asyncio event loop, start the stats task.
+            # Otherwise, it will be started lazily.
+            asyncio.get_running_loop()
+            self._ensure_stats_update_task()
+        except RuntimeError:
+            pass
+
+    def _ensure_stats_update_task(self):
+        resources = self.resources
+        if resources.stats_update_task is not None:
+            return
+
+        assert self.stats_update_address is not None
+        stats_addr: str = self.stats_update_address
+        assert len(self.engine_ranks_managed) > 0
+        # NOTE: running and waiting counts are all global from
+        # the Coordinator include all global EngineCores. This
+        # slice includes just the cores managed by this client.
+        count_slice = slice(
+            self.engine_ranks_managed[0], self.engine_ranks_managed[-1] + 1
+        )
+
+        async def run_engine_stats_update_task():
+            with (
+                make_zmq_socket(self.ctx, stats_addr, zmq.XSUB, linger=0) as socket,
+                make_zmq_socket(
+                    self.ctx, self.first_req_sock_addr, zmq.PAIR, bind=False, linger=0
+                ) as first_req_rcv_socket,
+            ):
+                assert isinstance(socket, zmq.asyncio.Socket)
+                assert isinstance(first_req_rcv_socket, zmq.asyncio.Socket)
+                self.resources.stats_update_socket = socket
+                self.resources.first_req_rcv_socket = first_req_rcv_socket
+                # Send subscription message.
+                await socket.send(b"\x01")
+
+                poller = zmq.asyncio.Poller()
+                poller.register(socket, zmq.POLLIN)
+                poller.register(first_req_rcv_socket, zmq.POLLIN)
+
+                while True:
+                    events = await poller.poll()
+                    if (
+                        not self.engines_running
+                        and len(events) == 2
+                        or (events[0][0] == first_req_rcv_socket)
+                    ):
+                        # Check if this is a regular request notification or
+                        # scale up notification
+                        buf = first_req_rcv_socket.recv(flags=zmq.NOBLOCK).result()
+
+                        decoded = msgspec.msgpack.decode(buf)
+                        if (
+                            isinstance(decoded, (list, tuple))
+                            and len(decoded) == 2
+                            and decoded[0] == "SCALE_ELASTIC_EP"
+                        ):
+                            # Extract new engine count from the decoded message
+                            new_engine_count = decoded[1]
+                            # Send scale up notification to coordinator
+                            scale_msg = msgspec.msgpack.encode(
+                                ("SCALE_ELASTIC_EP", new_engine_count)
+                            )
+                            await socket.send(scale_msg)
+                            continue
+
+                        # we're sending a request while the engines are
+                        # paused, so that it can wake the others up
+                        # (to run dummy EP loop).
+                        assert decoded[0] == "FIRST_REQ"
+                        target_eng_index = decoded[1]
+                        self.engines_running = True
+                        msg = msgspec.msgpack.encode(
+                            (target_eng_index, self.current_wave)
+                        )
+                        await socket.send(msg)
+
+                    buf = None
+                    while True:
+                        # Drain all stats events (we only care about latest).
+                        future: asyncio.Future[bytes] = socket.recv(flags=zmq.NOBLOCK)
+                        if isinstance(future.exception(), zmq.Again):
+                            break
+                        buf = future.result()
+                    if buf is None:
+                        continue
+
+                    # Update local load-balancing state.
+                    counts, wave, running = msgspec.msgpack.decode(buf)
+                    self.current_wave = wave
+                    self.engines_running = running
+                    if counts is not None:
+                        sliced_counts = counts[count_slice]
+                        self.lb_engines = sliced_counts
+                        logger.debug(
+                            "Received counts: %s (%s)", sliced_counts, count_slice
+                        )
+
+        resources.stats_update_task = asyncio.create_task(
+            run_engine_stats_update_task()
+        )
+
+    async def add_request_async(self, request: EngineCoreRequest) -> None:
+        self._ensure_stats_update_task()
+
+        request.current_wave = self.current_wave
+        request.client_index = self.client_index
+
+        chosen_engine = self.get_core_engine_for_request(request)
+        to_await = self._send_input(EngineCoreRequestType.ADD, request, chosen_engine)
+        if not self.engines_running:
+            # Notify coordinator that we're sending a request
+            req_msg = msgspec.msgpack.encode(("FIRST_REQ", chosen_engine))
+            await self.first_req_send_socket.send(req_msg)
+
+        await to_await
+
+        self._ensure_output_queue_task()
+
+    def get_core_engine_for_request(self, request: EngineCoreRequest):
+        return self.core_engine
+
+
+class DPLBAsyncMPClient(DPAsyncMPClient):
+    """Asyncio-compatible client for multi-proc, multi-engine (data parallel)
+    EngineCore. Load-balances between multiple engine processes."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_addresses: dict[str, str] | None = None,
+        client_count: int = 1,
+        client_index: int = 0,
+    ):
+        self.client_count = client_count
+
+        # To route aborts to the correct engine.
+        self.reqs_in_flight: dict[str, EngineIdentity] = {}
+
+        super().__init__(
+            vllm_config,
+            executor_class,
+            log_stats,
+            client_addresses,
+            client_count,
+            client_index,
+        )
+
+        assert len(self.core_engines) > 1
+
+        self.eng_start_index = (
+            len(self.core_engines) * self.client_index
+        ) // client_count
+
+    def get_core_engine_for_request(self, request: EngineCoreRequest) -> EngineIdentity:
+        # Engines are in rank order.
+        if (eng_index := request.data_parallel_rank) is None:
+            current_counts = self.lb_engines
+            # TODO use P2C alg for larger DP sizes
+            num_engines = len(current_counts)
+            min_score = sys.maxsize
+            eng_index = 0
+            for i in range(num_engines):
+                # Start from client_index to help with balancing when engines
+                # are empty.
+                idx = (self.eng_start_index + i) % num_engines
+                waiting, running = current_counts[idx]
+                score = waiting * 4 + running
+                if score < min_score:
+                    min_score = score
+                    eng_index = idx
+            # Increment local waiting count for better balancing between stats
+            # updates from the coordinator (which happen every 100ms).
+            current_counts[eng_index][0] += self.client_count
+
+        chosen_engine = self.core_engines[eng_index]
+        # Record which engine is chosen for this request, to handle aborts.
+        self.reqs_in_flight[request.request_id] = chosen_engine
+        return chosen_engine
+
+    async def call_utility_async(self, method: str, *args) -> Any:
+        # Only the result from the first engine is returned.
+        return (
+            await asyncio.gather(
+                *[
+                    self._call_utility_async(method, *args, engine=engine)
+                    for engine in self.core_engines
+                ]
+            )
+        )[0]
+
+    @staticmethod
+    async def process_engine_outputs(
+        self: "DPLBAsyncMPClient", outputs: EngineCoreOutputs
+    ):
+        if outputs.finished_requests and self.reqs_in_flight:
+            for req_id in outputs.finished_requests:
+                self.reqs_in_flight.pop(req_id, None)
+
+    async def abort_requests_async(self, request_ids: list[str]) -> None:
+        if not request_ids or self.resources.engine_dead:
+            return
+
+        if len(request_ids) == 1:
+            # Fast-path common case.
+            if engine := self.reqs_in_flight.get(request_ids[0]):
+                await self._abort_requests(request_ids, engine)
+            return
+
+        by_engine = defaultdict[EngineIdentity, list[str]](list)
+        for req_id in request_ids:
+            if engine := self.reqs_in_flight.get(req_id):
+                by_engine[engine].append(req_id)
+        for engine, req_ids in by_engine.items():
+            await self._abort_requests(req_ids, engine)
+
+    async def _abort_requests(
+        self, request_ids: list[str], engine: EngineIdentity
+    ) -> None:
+        await self._send_input(EngineCoreRequestType.ABORT, request_ids, engine)
+
+    async def scale_elastic_ep(self, new_data_parallel_size: int) -> None:
+        """Scale elastic EP data parallel size"""
+        cur_data_parallel_size = len(self.core_engines)
+
+        assert new_data_parallel_size != cur_data_parallel_size, (
+            f"new_data_parallel_size {new_data_parallel_size} must be "
+            f"different from cur_data_parallel_size {cur_data_parallel_size}"
+        )
+
+        assert self.vllm_config.parallel_config.data_parallel_backend == "ray", (
+            "Only ray DP backend supports scaling elastic EP"
+        )
+
+        scale_up = new_data_parallel_size > cur_data_parallel_size
+
+        if scale_up:
+            await self._scale_up_elastic_ep(
+                cur_data_parallel_size, new_data_parallel_size
+            )
+        else:
+            await self._scale_down_elastic_ep(
+                cur_data_parallel_size, new_data_parallel_size
+            )
+
+    async def _scale_up_elastic_ep(
+        self, cur_data_parallel_size: int, new_data_parallel_size: int
+    ) -> None:
+        """Scale up the data parallel size by creating new engine cores
+        and reconfiguring existing ones."""
+        cur_data_parallel_size = len(self.core_engines)
+
+        # Phase 1: Send reconfigure messages to all existing engines and wait
+        # for them to be sent
+        reconfig_futures = []
+        self.vllm_config.parallel_config.data_parallel_master_port = get_open_port()
+        for engine in self.core_engines:
+            reconfig_request = ReconfigureDistributedRequest(
+                new_data_parallel_size=new_data_parallel_size,
+                new_data_parallel_rank=ReconfigureRankType.KEEP_CURRENT_RANK,
+                new_data_parallel_rank_local=ReconfigureRankType.KEEP_CURRENT_RANK,
+                new_data_parallel_master_ip=self.vllm_config.parallel_config.data_parallel_master_ip,
+                new_data_parallel_master_port=self.vllm_config.parallel_config.data_parallel_master_port,
+            )
+            coro = self._call_utility_async(
+                "reinitialize_distributed", reconfig_request, engine=engine
+            )
+            reconfig_futures.append(asyncio.create_task(coro))
+
+        logger.info("All reconfigure messages sent, starting engine creation")
+
+        # Phase 2: Create new engines now that reconfig messages have been sent
+        # self.resources.engine_manager is guaranteed to be
+        # CoreEngineActorManager for RayDPClient
+        assert isinstance(self.resources.engine_manager, CoreEngineActorManager)
+        self.resources.engine_manager.scale_up_elastic_ep(
+            self.vllm_config, new_data_parallel_size
+        )
+
+        # Create new CoreEngine objects for the new engines
+        new_engine_identities = set()
+        for i in range(cur_data_parallel_size, new_data_parallel_size):
+            new_engine = i.to_bytes(2, "little")
+            self.core_engines.append(new_engine)
+            new_engine_identities.add(new_engine)
+
+        # Wait for ready messages from new engines on the input socket
+        sync_input_socket = zmq.Socket.shadow(self.input_socket)
+        while new_engine_identities:
+            if not sync_input_socket.poll(timeout=600_000):
+                raise TimeoutError(
+                    "Timed out waiting for new engines to send initial "
+                    "message on input socket."
+                )
+            identity, _ = sync_input_socket.recv_multipart()
+            new_engine_identities.discard(identity)
+
+        # Phase 3: Wait for all existing engines to complete reconfiguration
+        logger.info("Waiting for existing engines to complete reconfiguration")
+        await asyncio.gather(*reconfig_futures)
+
+        # Notify coordinator about scale up through existing
+        # stats_update_task connection
+        self._ensure_stats_update_task()
+        scale_up_marker = msgspec.msgpack.encode(
+            ("SCALE_ELASTIC_EP", new_data_parallel_size)
+        )
+        await self.first_req_send_socket.send(scale_up_marker)
+
+        # Update the parallel config
+        self.vllm_config.parallel_config.data_parallel_size = new_data_parallel_size
+        logger.info(
+            "[Elastic EP] Scale up completed, new data parallel size: %s",
+            new_data_parallel_size,
+        )
+
+    async def _scale_down_elastic_ep(
+        self, cur_data_parallel_size: int, new_data_parallel_size: int
+    ) -> None:
+        """Scale down the data parallel size by shutting down and
+        reconfiguring existing engine cores."""
+        cur_data_parallel_size = len(self.core_engines)
+
+        self.vllm_config.parallel_config.data_parallel_master_port = get_open_port()
+
+        reconfig_futures = []
+        for cur_dp_rank, engine in enumerate(self.core_engines):
+            reconfig_request = ReconfigureDistributedRequest(
+                new_data_parallel_size=new_data_parallel_size,
+                new_data_parallel_rank=ReconfigureRankType.KEEP_CURRENT_RANK,
+                new_data_parallel_rank_local=ReconfigureRankType.KEEP_CURRENT_RANK,
+                new_data_parallel_master_ip=self.vllm_config.parallel_config.data_parallel_master_ip,
+                new_data_parallel_master_port=self.vllm_config.parallel_config.data_parallel_master_port,
+            )
+            if cur_dp_rank >= new_data_parallel_size:
+                reconfig_request.new_data_parallel_rank = (
+                    ReconfigureRankType.SHUTDOWN_CURRENT_RANK
+                )
+            coro = self._call_utility_async(
+                "reinitialize_distributed", reconfig_request, engine=engine
+            )
+            reconfig_futures.append(asyncio.create_task(coro))
+
+        for _ in range(new_data_parallel_size, cur_data_parallel_size):
+            self.core_engines.pop()
+
+        await asyncio.gather(*reconfig_futures)
+
+        assert isinstance(self.resources.engine_manager, CoreEngineActorManager)
+        self.resources.engine_manager.scale_down_elastic_ep(
+            cur_data_parallel_size, new_data_parallel_size
+        )
+
+        self._ensure_stats_update_task()
+        scale_down_marker = msgspec.msgpack.encode(
+            ("SCALE_ELASTIC_EP", new_data_parallel_size)
+        )
+        await self.first_req_send_socket.send(scale_down_marker)
+
+        self.vllm_config.parallel_config.data_parallel_size = new_data_parallel_size
+        logger.info(
+            "[Elastic EP] Scale down completed, new data parallel size: %s",
+            new_data_parallel_size,
+        )
diff --git a/v1/engine/detokenizer.py b/v1/engine/detokenizer.py
new file mode 100644
index 0000000..b7a2409
--- /dev/null
+++ b/v1/engine/detokenizer.py
@@ -0,0 +1,351 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+
+import tokenizers
+from packaging import version
+from tokenizers import Tokenizer
+from tokenizers.decoders import DecodeStream
+from transformers import PreTrainedTokenizerFast
+
+from vllm.logger import init_logger
+from vllm.transformers_utils.detokenizer_utils import (
+    AnyTokenizer,
+    convert_prompt_ids_to_tokens,
+    detokenize_incrementally,
+)
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.v1.engine import EngineCoreRequest
+
+logger = init_logger(__name__)
+
+# Only tokenizers >= 0.21.1 supports DecodeStream used for
+# FastIncrementalDetokenizer.
+USE_FAST_DETOKENIZER = version.parse(tokenizers.__version__) >= version.parse("0.21.1")
+
+# Error string from https://github.com/huggingface/tokenizers/blob/909fdde2a4ffedd9295206f705eb612be2a91b12/tokenizers/src/tokenizer/mod.rs#L1042
+INVALID_PREFIX_ERR_MSG = "Invalid prefix encountered"
+
+
+class IncrementalDetokenizer:
+    def __init__(self):
+        self.token_ids: list[int] = []
+
+    @property
+    def output_token_ids(self) -> list[int]:
+        return self.token_ids
+
+    def update(self, new_token_ids: list[int], stop_terminated: bool) -> str | None:
+        self.token_ids.extend(new_token_ids)
+        return None
+
+    def get_next_output_text(self, finished: bool, delta: bool) -> str:
+        return ""
+
+    @classmethod
+    def from_new_request(
+        cls,
+        tokenizer: AnyTokenizer | None,
+        request: EngineCoreRequest,
+    ) -> "IncrementalDetokenizer":
+        assert request.sampling_params is not None
+
+        if tokenizer is None:
+            # No tokenizer => skipping detokenization.
+            return IncrementalDetokenizer()
+
+        if USE_FAST_DETOKENIZER and isinstance(tokenizer, PreTrainedTokenizerFast):
+            # Fast tokenizer => use tokenizers library DecodeStream.
+            return FastIncrementalDetokenizer(tokenizer, request)
+
+        # Fall back to slow python-based incremental detokenization.
+        return SlowIncrementalDetokenizer(tokenizer, request)
+
+
+class BaseIncrementalDetokenizer(IncrementalDetokenizer, ABC):
+    def __init__(self, request: EngineCoreRequest):
+        super().__init__()
+
+        # Stop strings
+        params = request.sampling_params
+        assert params is not None
+        stop_list: list[str]
+        if params.stop is None:
+            stop_list = []
+        elif isinstance(params.stop, str):
+            stop_list = [params.stop]
+        else:
+            stop_list = params.stop
+        self.stop = stop_list
+        self.min_tokens = params.min_tokens
+        self.include_stop_str_in_output = params.include_stop_str_in_output
+
+        # Number of chars to hold back when stop strings are to be excluded
+        # from streamed output.
+        if self.stop and not self.include_stop_str_in_output:
+            self.stop_buffer_length = max(len(s) for s in self.stop) - 1
+        else:
+            self.stop_buffer_length = 0
+        self._last_output_text_offset: int = 0
+
+        # Generation data
+        self.output_text = ""
+
+    def update(self, new_token_ids: list[int], stop_terminated: bool) -> str | None:
+        """
+        Update RequestState for the request_id by:
+            1) Detokenize the new token ids incrementally.
+            2) Evaluate stop criteria.
+
+        Return matched stop string or None.
+        """
+        if not new_token_ids:
+            # Skip detokenization if no new token ids.
+            return None
+
+        if stop_terminated and not self.include_stop_str_in_output:
+            # If stop-terminated, exclude last token from detokenization
+            # based on include_stop_str_in_output parameter.
+            skipped_stop_token_id = new_token_ids[-1]
+            new_token_ids = new_token_ids[:-1]
+        else:
+            skipped_stop_token_id = None
+
+        # 1) Detokenize the new token ids incrementally.
+        # TODO(woosuk): This method becomes very inefficient when the number of
+        # new_token_ids is more than 1. We need to optimize this.
+        stop_check_offset = len(self.output_text)
+        for new_token_id in new_token_ids:
+            self.token_ids.append(new_token_id)
+            self.output_text += self.decode_next(new_token_id)
+            # Support min_tokens, see https://github.com/vllm-project/vllm/pull/22014
+            if self.min_tokens and len(self.output_token_ids) <= self.min_tokens:
+                stop_check_offset = len(self.output_text)
+
+        if skipped_stop_token_id is not None:
+            # Cleanup after skipping detokenization.
+            self.token_ids.append(skipped_stop_token_id)
+
+        # 2) Evaluate stop strings.
+        stop_string = None
+        if self.stop and len(self.output_token_ids) > self.min_tokens:
+            stop = check_stop_strings(
+                output_text=self.output_text,
+                new_char_count=len(self.output_text) - stop_check_offset,
+                stop=self.stop,
+                include_in_output=self.include_stop_str_in_output,
+            )
+            if stop is not None:
+                stop_string, truncate_to = stop
+                if truncate_to != -1:
+                    self.output_text = self.output_text[:truncate_to]
+
+        return stop_string
+
+    @abstractmethod
+    def decode_next(self, next_token_id: int) -> str:
+        raise NotImplementedError
+
+    def get_next_output_text(self, finished: bool, delta: bool) -> str:
+        """If delta is True, only new text since the last call to
+        this method is returned"""
+
+        # We return the full output text if the sequence is finished.
+        buffer_length = 0 if finished else self.stop_buffer_length
+        if not delta:
+            return (
+                self.output_text[:-buffer_length]
+                if buffer_length
+                else (self.output_text)
+            )
+        length = len(self.output_text) - buffer_length
+        last_offset = self._last_output_text_offset
+        if last_offset < length:
+            self._last_output_text_offset = length
+            return self.output_text[last_offset:length]
+        return ""
+
+
+class FastIncrementalDetokenizer(BaseIncrementalDetokenizer):
+    def __init__(self, tokenizer: PreTrainedTokenizerFast, request: EngineCoreRequest):
+        super().__init__(request)
+
+        sampling_params = request.sampling_params
+        assert sampling_params is not None
+
+        self.request_id = request.request_id
+        self.skip_special_tokens = sampling_params.skip_special_tokens
+        self.stream = DecodeStream(skip_special_tokens=self.skip_special_tokens)
+
+        self.tokenizer: Tokenizer = tokenizer._tokenizer
+
+        # Find a safe place to start.
+        prompt_token_ids = request.prompt_token_ids or []
+        prompt_suffix = prompt_token_ids
+        prompt_len = len(prompt_suffix)
+        if prompt_len > 4:
+            for i in range(4, min(prompt_len + 1, 24)):
+                suffix = prompt_token_ids[-i:]
+                if "�" not in self.tokenizer.decode(suffix):
+                    prompt_suffix = suffix
+                    break
+
+        # Prime the stream.
+        for tid in prompt_suffix:
+            self._protected_step(tid)
+
+        self.spaces_between_special_tokens = (
+            sampling_params.skip_special_tokens
+            or sampling_params.spaces_between_special_tokens
+        )
+
+        if not self.spaces_between_special_tokens:
+            # Store dict of added token ids so that we can suppress
+            # the spaces between them.
+            if (
+                added_token_ids := getattr(self.tokenizer, "added_token_ids", None)
+            ) is None:
+                self.tokenizer.added_token_ids = added_token_ids = {
+                    tid: tok.content
+                    for tid, tok in self.tokenizer.get_added_tokens_decoder().items()
+                }
+
+            if added_token_ids:
+                self.last_special = False
+                self.added_token_ids = added_token_ids
+            else:
+                # No added tokens.
+                self.spaces_between_special_tokens = True
+
+    def decode_next(self, next_token_id: int) -> str:
+        token = self._protected_step(next_token_id)
+
+        if not self.spaces_between_special_tokens:
+            special_token = self.added_token_ids.get(next_token_id)
+            is_special = special_token is not None
+            if is_special and self.last_special:
+                # Return raw token string without any prefixed spaces.
+                token = special_token
+            self.last_special = is_special
+
+        return token or ""
+
+    def _protected_step(self, next_token_id: int) -> str | None:
+        try:
+            token = self.stream.step(self.tokenizer, next_token_id)
+        except (OverflowError, TypeError):
+            # Handle rare observed overflow, still to be diagnosed.
+            # See https://github.com/vllm-project/vllm/issues/21951.
+            logger.exception("Encountered invalid token id: %r", next_token_id)
+            token = None
+        except Exception as e:
+            if not str(e).startswith(INVALID_PREFIX_ERR_MSG):
+                raise e
+            # Recover from edge case where tokenizer can produce non-monotonic,
+            # invalid UTF-8 output, which breaks the internal state of
+            # tokenizers' DecodeStream.
+            # See https://github.com/vllm-project/vllm/issues/17448.
+            logger.warning(
+                "Encountered invalid prefix detokenization error"
+                " for request %s, resetting decode stream.",
+                self.request_id,
+            )
+            self.stream = DecodeStream(skip_special_tokens=self.skip_special_tokens)
+            token = self.stream.step(self.tokenizer, next_token_id)
+        return token
+
+
+class SlowIncrementalDetokenizer(BaseIncrementalDetokenizer):
+    def __init__(self, tokenizer: AnyTokenizer, request: EngineCoreRequest):
+        super().__init__(request)
+
+        self.tokenizer = tokenizer
+        params = request.sampling_params
+        assert params is not None
+
+        self.prompt_len = length_from_prompt_token_ids_or_embeds(
+            request.prompt_token_ids, request.prompt_embeds
+        )
+
+        # Metadata for incremental detokenization.
+        if request.prompt_token_ids is not None:
+            self.tokens, self.prefix_offset, self.read_offset = (
+                convert_prompt_ids_to_tokens(
+                    tokenizer=tokenizer,
+                    prompt_ids=request.prompt_token_ids,
+                    skip_special_tokens=params.skip_special_tokens,
+                )
+            )
+        else:
+            # Prompt embedding requests cannot be detokenized, in general.
+            self.tokens = [""] * self.prompt_len
+            self.prefix_offset = 0
+            self.read_offest = 0
+
+        self.token_ids.extend(request.prompt_token_ids or [0] * self.prompt_len)
+
+        self.skip_special_tokens = params.skip_special_tokens
+        self.spaces_between_special_tokens = params.spaces_between_special_tokens
+
+    @property
+    def output_token_ids(self) -> list[int]:
+        return (
+            self.token_ids
+            if not self.prompt_len
+            else (self.token_ids[self.prompt_len :])
+        )
+
+    def decode_next(self, next_token_id: int) -> str:
+        new_tokens, decoded_text, prefix_offset, read_offset = detokenize_incrementally(
+            tokenizer=self.tokenizer,
+            all_input_ids=self.token_ids,
+            prev_tokens=self.tokens,
+            prefix_offset=self.prefix_offset,
+            read_offset=self.read_offset,
+            skip_special_tokens=self.skip_special_tokens,
+            spaces_between_special_tokens=self.spaces_between_special_tokens,
+        )
+
+        self.tokens.extend(new_tokens)
+        self.prefix_offset = prefix_offset
+        self.read_offset = read_offset
+
+        return decoded_text
+
+
+def check_stop_strings(
+    output_text: str,
+    new_char_count: int,
+    stop: list[str],
+    include_in_output: bool,
+) -> tuple[str, int] | None:
+    """Check if any stop strings are matched and truncate sequence
+    output text accordingly.
+
+    Returns tuple (stop_string, offset) if matched or else None.
+
+    Where stop_string is the matched stop string and offset is the
+    length to which output_text should be truncated, or -1 for no
+    truncation.
+    """
+    if not new_char_count or not stop:
+        return None
+
+    for stop_str in stop:
+        stop_string_len = len(stop_str)
+        # Avoid searching already-searched text.
+        stop_index = output_text.find(stop_str, 1 - new_char_count - stop_string_len)
+        if stop_index == -1:
+            continue
+
+        if include_in_output:
+            # Truncate to end of stop string.
+            stop_index += stop_string_len
+            if stop_index >= len(output_text):
+                # No truncation required.
+                return stop_str, -1
+
+        # Truncate the output text to either the beginning
+        # or end of the stop string.
+        return stop_str, stop_index
+    return None
diff --git a/v1/engine/exceptions.py b/v1/engine/exceptions.py
new file mode 100644
index 0000000..d9f79a0
--- /dev/null
+++ b/v1/engine/exceptions.py
@@ -0,0 +1,18 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+class EngineGenerateError(Exception):
+    """Raised when a AsyncLLM.generate() fails. Recoverable."""
+
+    pass
+
+
+class EngineDeadError(Exception):
+    """Raised when the EngineCore dies. Unrecoverable."""
+
+    def __init__(self, *args, suppress_context: bool = False, **kwargs):
+        ENGINE_DEAD_MESSAGE = "EngineCore encountered an issue. See stack trace (above) for the root cause."  # noqa: E501
+
+        super().__init__(ENGINE_DEAD_MESSAGE, *args, **kwargs)
+        # Make stack trace clearer when using with LLMEngine by
+        # silencing irrelevant ZMQError.
+        self.__suppress_context__ = suppress_context
diff --git a/v1/engine/llm_engine.py b/v1/engine/llm_engine.py
new file mode 100644
index 0000000..e403cea
--- /dev/null
+++ b/v1/engine/llm_engine.py
@@ -0,0 +1,408 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+from collections.abc import Callable, Mapping
+from copy import copy
+from typing import Any, cast
+
+import torch.nn as nn
+from typing_extensions import TypeVar
+
+import vllm.envs as envs
+from vllm.config import ParallelConfig, VllmConfig
+from vllm.distributed import stateless_destroy_torch_distributed_process_group
+from vllm.distributed.parallel_state import get_dp_group
+from vllm.engine.arg_utils import EngineArgs
+from vllm.inputs import PromptType
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.outputs import PoolingRequestOutput, RequestOutput
+from vllm.plugins.io_processors import get_io_processor
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.tasks import SupportedTask
+from vllm.tracing import init_tracer
+from vllm.transformers_utils.tokenizer import AnyTokenizer, init_tokenizer_from_configs
+from vllm.usage.usage_lib import UsageContext
+from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.engine.core_client import EngineCoreClient
+from vllm.v1.engine.output_processor import OutputProcessor
+from vllm.v1.engine.parallel_sampling import ParentRequest
+from vllm.v1.engine.processor import Processor
+from vllm.v1.executor import Executor
+from vllm.v1.metrics.loggers import StatLoggerFactory, StatLoggerManager
+from vllm.v1.metrics.reader import Metric, get_metrics_snapshot
+from vllm.v1.metrics.stats import IterationStats
+from vllm.v1.utils import record_function_or_nullcontext
+from vllm.v1.worker.worker_base import WorkerBase
+
+logger = init_logger(__name__)
+
+_R = TypeVar("_R", default=Any)
+
+
+class LLMEngine:
+    """Legacy LLMEngine for backwards compatibility."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        executor_class: type[Executor],
+        log_stats: bool,
+        aggregate_engine_logging: bool = False,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        use_cached_outputs: bool = False,
+        multiprocess_mode: bool = False,
+    ) -> None:
+        self.vllm_config = vllm_config
+        self.observability_config = vllm_config.observability_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+
+        self.log_stats = log_stats
+
+        executor_backend = self.vllm_config.parallel_config.distributed_executor_backend
+        parallel_config = vllm_config.parallel_config
+        self.external_launcher_dp = (
+            parallel_config.data_parallel_size > 1
+            and executor_backend == "external_launcher"
+        )
+        # important: init dp group before init the engine_core
+        # In the decoupled engine case this is handled in EngineCoreProc.
+        if (
+            not multiprocess_mode
+            and parallel_config.data_parallel_size > 1
+            and not self.external_launcher_dp
+        ):
+            self.dp_group = parallel_config.stateless_init_dp_group()
+        else:
+            self.dp_group = None
+        self.should_execute_dummy_batch = False
+
+        if self.model_config.skip_tokenizer_init:
+            tokenizer = None
+        else:
+            tokenizer = init_tokenizer_from_configs(self.model_config)
+
+        self.processor = Processor(self.vllm_config, tokenizer)
+        self.io_processor = get_io_processor(
+            self.vllm_config,
+            self.model_config.io_processor_plugin,
+        )
+
+        # OutputProcessor (convert EngineCoreOutputs --> RequestOutput).
+        stream_interval = self.vllm_config.scheduler_config.stream_interval
+        self.output_processor = OutputProcessor(
+            self.tokenizer, log_stats=self.log_stats, stream_interval=stream_interval
+        )
+        endpoint = self.observability_config.otlp_traces_endpoint
+        if endpoint is not None:
+            tracer = init_tracer("vllm.llm_engine", endpoint)
+            self.output_processor.tracer = tracer
+
+        # EngineCore (gets EngineCoreRequests and gives EngineCoreOutputs)
+        self.engine_core = EngineCoreClient.make_client(
+            multiprocess_mode=multiprocess_mode,
+            asyncio_mode=False,
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=self.log_stats,
+        )
+
+        self.logger_manager: StatLoggerManager | None = None
+        if self.log_stats:
+            self.logger_manager = StatLoggerManager(
+                vllm_config=vllm_config,
+                custom_stat_loggers=stat_loggers,
+                enable_default_loggers=log_stats,
+                aggregate_engine_logging=aggregate_engine_logging,
+            )
+            self.logger_manager.log_engine_initialized()
+
+        if not multiprocess_mode:
+            # for v0 compatibility
+            self.model_executor = self.engine_core.engine_core.model_executor  # type: ignore
+
+        if self.external_launcher_dp:
+            # If we use DP in external launcher mode, we reuse the
+            # existing DP group used for data communication.
+            self.dp_group = get_dp_group().cpu_group
+
+        # Don't keep the dummy data in memory
+        self.reset_mm_cache()
+
+    @classmethod
+    def from_vllm_config(
+        cls,
+        vllm_config: VllmConfig,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+        disable_log_stats: bool = False,
+    ) -> "LLMEngine":
+        return cls(
+            vllm_config=vllm_config,
+            executor_class=Executor.get_class(vllm_config),
+            log_stats=(not disable_log_stats),
+            usage_context=usage_context,
+            stat_loggers=stat_loggers,
+            multiprocess_mode=envs.VLLM_ENABLE_V1_MULTIPROCESSING,
+        )
+
+    @classmethod
+    def from_engine_args(
+        cls,
+        engine_args: EngineArgs,
+        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
+        stat_loggers: list[StatLoggerFactory] | None = None,
+        enable_multiprocessing: bool = False,
+    ) -> "LLMEngine":
+        """Creates an LLM engine from the engine arguments."""
+
+        # Create the engine configs.
+        vllm_config = engine_args.create_engine_config(usage_context)
+        executor_class = Executor.get_class(vllm_config)
+
+        if envs.VLLM_ENABLE_V1_MULTIPROCESSING:
+            logger.debug("Enabling multiprocessing for LLMEngine.")
+            enable_multiprocessing = True
+
+        # Create the LLMEngine.
+        return cls(
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=not engine_args.disable_log_stats,
+            usage_context=usage_context,
+            stat_loggers=stat_loggers,
+            multiprocess_mode=enable_multiprocessing,
+        )
+
+    def get_num_unfinished_requests(self) -> int:
+        return self.output_processor.get_num_unfinished_requests()
+
+    def has_unfinished_requests(self) -> bool:
+        has_unfinished = self.output_processor.has_unfinished_requests()
+        if self.dp_group is None:
+            return has_unfinished or self.engine_core.dp_engines_running()
+        return self.has_unfinished_requests_dp(has_unfinished)
+
+    def has_unfinished_requests_dp(self, has_unfinished: bool) -> bool:
+        aggregated_has_unfinished = ParallelConfig.has_unfinished_dp(
+            self.dp_group, has_unfinished
+        )
+        if not has_unfinished and aggregated_has_unfinished:
+            self.should_execute_dummy_batch = True
+        return aggregated_has_unfinished
+
+    @classmethod
+    def validate_outputs(cls, outputs, output_type):
+        return outputs
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.engine_core.get_supported_tasks()
+
+    def abort_request(self, request_ids: list[str]) -> None:
+        """Remove request_ids from EngineCore and Detokenizer."""
+
+        request_ids = self.output_processor.abort_requests(request_ids)
+        self.engine_core.abort_requests(request_ids)
+
+    def add_request(
+        self,
+        request_id: str,
+        prompt: EngineCoreRequest | PromptType,
+        params: SamplingParams | PoolingParams,
+        arrival_time: float | None = None,
+        lora_request: LoRARequest | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        prompt_text: str | None = None,
+    ) -> None:
+        # Validate the request_id type.
+        if not isinstance(request_id, str):
+            raise TypeError(f"request_id must be a string, got {type(request_id)}")
+
+        # Process raw inputs into the request.
+        if isinstance(prompt, EngineCoreRequest):
+            request = prompt
+        else:
+            assert prompt_text is None
+            logger.warning_once(
+                "Processor has been moved under LLM and will "
+                "be removed from LLMEngine in v0.13."
+            )
+            request = self.processor.process_inputs(
+                request_id,
+                prompt,
+                params,
+                arrival_time,
+                lora_request,
+                tokenization_kwargs,
+                trace_headers,
+                priority,
+            )
+            if isinstance(prompt, str):
+                prompt_text = prompt
+            elif isinstance(prompt, Mapping):
+                prompt_text = cast(str | None, prompt.get("prompt"))
+
+        n = params.n if isinstance(params, SamplingParams) else 1
+
+        if n == 1:
+            # Make a new RequestState and queue.
+            self.output_processor.add_request(request, prompt_text, None, 0)
+            # Add the request to EngineCore.
+            self.engine_core.add_request(request)
+            return
+
+        # Fan out child requests (for n>1).
+        parent_req = ParentRequest(request_id, params)
+        for idx in range(n):
+            request_id, params = parent_req.get_child_info(idx)
+            child_request = request if idx == n - 1 else copy(request)
+            child_request.request_id = request_id
+            child_request.sampling_params = params
+
+            # Make a new RequestState and queue.
+            self.output_processor.add_request(
+                child_request, prompt_text, parent_req, idx
+            )
+            # Add the request to EngineCore.
+            self.engine_core.add_request(child_request)
+
+    def step(self) -> list[RequestOutput | PoolingRequestOutput]:
+        if self.should_execute_dummy_batch:
+            self.should_execute_dummy_batch = False
+            self.engine_core.execute_dummy_batch()
+            return []
+
+        # 1) Get EngineCoreOutput from the EngineCore.
+        with record_function_or_nullcontext("llm_engine step: get_output"):
+            outputs = self.engine_core.get_output()
+
+        # 2) Process EngineCoreOutputs.
+        with record_function_or_nullcontext("llm_engine step: process_outputs"):
+            iteration_stats = IterationStats() if self.log_stats else None
+            processed_outputs = self.output_processor.process_outputs(
+                outputs.outputs,
+                engine_core_timestamp=outputs.timestamp,
+                iteration_stats=iteration_stats,
+            )
+            self.output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+        # 3) Abort any reqs that finished due to stop strings.
+        with record_function_or_nullcontext("llm_engine step: abort_requests"):
+            self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
+
+        # 4) Record stats
+        with record_function_or_nullcontext("llm_engine step: record_stats"):
+            if self.logger_manager is not None and outputs.scheduler_stats is not None:
+                self.logger_manager.record(
+                    scheduler_stats=outputs.scheduler_stats,
+                    iteration_stats=iteration_stats,
+                    mm_cache_stats=self.processor.stat_mm_cache(),
+                )
+                self.do_log_stats_with_interval()
+
+        return processed_outputs.request_outputs
+
+    def start_profile(self):
+        self.engine_core.profile(True)
+
+    def stop_profile(self):
+        self.engine_core.profile(False)
+
+    def reset_mm_cache(self):
+        self.processor.clear_mm_cache()
+        self.engine_core.reset_mm_cache()
+
+    def reset_prefix_cache(self):
+        self.engine_core.reset_prefix_cache()
+
+    def sleep(self, level: int = 1):
+        self.engine_core.sleep(level)
+
+        if self.logger_manager is not None:
+            self.logger_manager.record_sleep_state(1, level)
+
+    def wake_up(self, tags: list[str] | None = None):
+        self.engine_core.wake_up(tags)
+
+        if self.logger_manager is not None:
+            self.logger_manager.record_sleep_state(0, 0)
+
+    def is_sleeping(self) -> bool:
+        return self.engine_core.is_sleeping()
+
+    def get_metrics(self) -> list[Metric]:
+        assert self.log_stats, "Stat logging disabled"
+        return get_metrics_snapshot()
+
+    @property
+    def tokenizer(self) -> AnyTokenizer | None:
+        return self.processor.tokenizer
+
+    @tokenizer.setter
+    def tokenizer(self, tokenizer: AnyTokenizer | None) -> None:
+        self.processor.tokenizer = tokenizer
+
+    def get_tokenizer(self) -> AnyTokenizer:
+        if self.tokenizer is None:
+            raise ValueError(
+                "Unable to get tokenizer because skip_tokenizer_init is True"
+            )
+
+        return self.tokenizer
+
+    def do_log_stats(self) -> None:
+        """Log stats if logging is enabled."""
+        if self.logger_manager:
+            self.logger_manager.log()
+
+    def do_log_stats_with_interval(self) -> None:
+        """Log stats when the time interval has passed."""
+        now = time.time()
+        if not hasattr(self, "_last_log_time"):
+            self._last_log_time = now
+        if now - self._last_log_time >= envs.VLLM_LOG_STATS_INTERVAL:
+            self.do_log_stats()
+            self._last_log_time = now
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        """Load a new LoRA adapter into the engine for future requests."""
+        return self.engine_core.add_lora(lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        """Remove an already loaded LoRA adapter."""
+        return self.engine_core.remove_lora(lora_id)
+
+    def list_loras(self) -> set[int]:
+        """List all registered adapters."""
+        return self.engine_core.list_loras()
+
+    def pin_lora(self, lora_id: int) -> bool:
+        """Prevent an adapter from being evicted."""
+        return self.engine_core.pin_lora(lora_id)
+
+    def collective_rpc(
+        self,
+        method: str | Callable[[WorkerBase], _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+    ) -> list[_R]:
+        return self.engine_core.collective_rpc(method, timeout, args, kwargs)
+
+    def apply_model(self, func: Callable[[nn.Module], _R]) -> list[_R]:
+        return self.collective_rpc("apply_model", args=(func,))
+
+    def __del__(self):
+        if (
+            dp_group := getattr(self, "dp_group", None)
+            and not self.external_launcher_dp
+        ):
+            stateless_destroy_torch_distributed_process_group(dp_group)
diff --git a/v1/engine/logprobs.py b/v1/engine/logprobs.py
new file mode 100644
index 0000000..b618d23
--- /dev/null
+++ b/v1/engine/logprobs.py
@@ -0,0 +1,182 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import itertools
+from dataclasses import dataclass
+
+from vllm.logger import init_logger
+from vllm.logprobs import (
+    PromptLogprobs,
+    SampleLogprobs,
+    append_logprobs_for_next_position,
+    create_prompt_logprobs,
+    create_sample_logprobs,
+)
+from vllm.transformers_utils.detokenizer_utils import (
+    AnyTokenizer,
+    convert_ids_list_to_tokens,
+)
+from vllm.v1.engine import EngineCoreOutput, EngineCoreRequest
+from vllm.v1.outputs import LogprobsLists, LogprobsTensors
+
+logger = init_logger(__name__)
+
+NONES = itertools.repeat(None)
+
+
+@dataclass
+class LogprobsProcessor:
+    # Tokenizer for this request,
+    # None if detokenization is disabled.
+    tokenizer: AnyTokenizer | None
+
+    # Logprobs for this request
+    logprobs: SampleLogprobs | None
+    prompt_logprobs: PromptLogprobs | None
+    cumulative_logprob: float | None
+    num_logprobs: int | None
+    num_prompt_logprobs: int | None
+
+    @classmethod
+    def from_new_request(
+        cls,
+        tokenizer: AnyTokenizer | None,
+        request: EngineCoreRequest,
+    ) -> "LogprobsProcessor":
+        assert request.sampling_params is not None
+        num_logprobs = request.sampling_params.logprobs
+        num_prompt_logprobs = request.sampling_params.prompt_logprobs
+        return cls(
+            tokenizer=tokenizer,
+            cumulative_logprob=(None if num_logprobs is None else 0.0),
+            logprobs=(None if num_logprobs is None else create_sample_logprobs()),
+            prompt_logprobs=(
+                None if num_prompt_logprobs is None else create_prompt_logprobs()
+            ),
+            num_prompt_logprobs=num_prompt_logprobs,
+            num_logprobs=num_logprobs,
+        )
+
+    def _update_sample_logprobs(self, logprobs_lists: LogprobsLists) -> None:
+        """Update with sample logprobs from EngineCore.
+
+        Outer lists are only of len > 1 if EngineCore made
+        >1 tokens in prior step (e.g. in spec decoding).
+
+        Args:
+          logprobs_lists: the lists of logprob tokens, logprobs, and ranks.
+
+        """
+
+        assert self.num_logprobs is not None
+        assert self.logprobs is not None
+        assert self.cumulative_logprob is not None
+
+        token_ids_lst, logprobs_lst, ranks_lst, _ = logprobs_lists
+
+        for rank_np, logprobs_np, token_ids_np in zip(
+            ranks_lst, logprobs_lst, token_ids_lst
+        ):
+            rank = rank_np.tolist()
+            logprobs = logprobs_np.tolist()
+            token_ids = token_ids_np.tolist()
+            # Detokenize (non-incrementally).
+            decoded_tokens = (
+                NONES
+                if self.tokenizer is None
+                else (convert_ids_list_to_tokens(self.tokenizer, token_ids))
+            )
+
+            # Sampler puts the sampled logprob in first.
+            sampled_token_logprob = logprobs[0]
+            self.cumulative_logprob += sampled_token_logprob
+
+            # Update with the Logprob container for this pos.
+            append_logprobs_for_next_position(
+                self.logprobs,
+                token_ids,
+                logprobs,
+                decoded_tokens,
+                rank,
+                self.num_logprobs,
+            )
+
+    def _update_prompt_logprobs(
+        self,
+        prompt_logprobs_tensors: LogprobsTensors,
+    ) -> None:
+        """Update with prompt logprobs from EngineCore.
+
+        Args:
+          prompt_logprobs_tensors: tuple containing the prompt logprobs
+                                   tensors.
+
+        """
+
+        # Prompt logprobs are enabled.
+        assert self.num_prompt_logprobs is not None
+        assert self.prompt_logprobs is not None
+
+        token_ids, logprobs, ranks = prompt_logprobs_tensors
+
+        # Detokenize non-incrementally.
+        # Output is flat: [num_tok, num_lps] -> [num_tok * num_lps]
+        decoded_tokens = (
+            None
+            if self.tokenizer is None
+            else (
+                convert_ids_list_to_tokens(self.tokenizer, token_ids.flatten().tolist())
+            )
+        )
+
+        # Recover shapes.
+        num_prompt_tokens, num_logprobs = logprobs.shape
+
+        # Pythonize the torch tensors.
+        prompt_token_ranks = ranks.tolist()
+        prompt_logprobs = logprobs.tolist()
+        token_ids = token_ids.tolist()
+
+        # Make Logprob for each position.
+        for pos in range(num_prompt_tokens):
+            # Handle flattening.
+            offset = pos * num_logprobs
+            offset_end = offset + num_logprobs
+            decoded_tokens_for_pos = (
+                NONES if decoded_tokens is None else decoded_tokens[offset:offset_end]
+            )
+
+            # Update with the Logprob container for this pos.
+            append_logprobs_for_next_position(
+                self.prompt_logprobs,
+                token_ids[pos],
+                prompt_logprobs[pos],
+                decoded_tokens_for_pos,
+                prompt_token_ranks[pos],
+                self.num_prompt_logprobs,
+            )
+
+    def pop_prompt_logprobs(self) -> PromptLogprobs | None:
+        """Pop and return all request prompt logprobs
+
+        The logprobs processor aggregates prompt chunk logprobs
+        over one or more prefill chunks. This method returns
+        all prompt logprobs at once and then forgets them.
+        Ensures correct RequestOutputKind.DELTA semantics
+        wherein all prompt logprobs are returned at once at
+        the end of prefill.
+
+        Returns:
+          None if prompt logprobs are disabled for this request.
+          List of all prompt logprobs, otherwise.
+        """
+        plp = self.prompt_logprobs
+        if plp:
+            self.prompt_logprobs = []
+        return plp
+
+    def update_from_output(self, output: EngineCoreOutput) -> None:
+        if output.new_logprobs is not None:
+            self._update_sample_logprobs(output.new_logprobs)
+        if output.new_prompt_logprobs_tensors is not None:
+            self._update_prompt_logprobs(output.new_prompt_logprobs_tensors)
diff --git a/v1/engine/output_processor.py b/v1/engine/output_processor.py
new file mode 100644
index 0000000..bdbbfe2
--- /dev/null
+++ b/v1/engine/output_processor.py
@@ -0,0 +1,642 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import asyncio
+from collections.abc import Iterable
+from dataclasses import dataclass
+from typing import Any, cast
+
+import torch
+
+from vllm.outputs import (
+    CompletionOutput,
+    PoolingOutput,
+    PoolingRequestOutput,
+    RequestOutput,
+)
+from vllm.sampling_params import RequestOutputKind
+from vllm.tracing import SpanAttributes, SpanKind, Tracer, extract_trace_context
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.v1.engine import EngineCoreOutput, EngineCoreRequest, FinishReason
+from vllm.v1.engine.detokenizer import IncrementalDetokenizer
+from vllm.v1.engine.logprobs import LogprobsProcessor
+from vllm.v1.engine.parallel_sampling import ParentRequest
+from vllm.v1.metrics.stats import (
+    IterationStats,
+    LoRARequestStates,
+    RequestStateStats,
+    SchedulerStats,
+)
+
+
+class RequestOutputCollector:
+    """
+    Collects streamed RequestOutputs per individual request,
+    for hand-off to the consuming asyncio generate task.
+
+    When streaming deltas, RequestOutputs are merged if the
+    producer gets ahead of the consumer.
+    """
+
+    def __init__(self, output_kind: RequestOutputKind):
+        self.aggregate = output_kind == RequestOutputKind.DELTA
+        self.output: RequestOutput | PoolingRequestOutput | Exception | None = None
+        self.ready = asyncio.Event()
+
+    def put(self, output: RequestOutput | PoolingRequestOutput | Exception) -> None:
+        """Non-blocking put operation."""
+        if self.output is None or isinstance(output, Exception):
+            self.output = output
+            self.ready.set()
+        elif isinstance(self.output, RequestOutput) and isinstance(
+            output, RequestOutput
+        ):
+            # This ensures that request outputs with different request indexes
+            # (if n > 1) do not override each other.
+            self.output.add(output, aggregate=self.aggregate)
+        elif isinstance(self.output, PoolingRequestOutput) and isinstance(
+            output, PoolingRequestOutput
+        ):
+            self.output = output
+
+    async def get(self) -> RequestOutput | PoolingRequestOutput:
+        """Get operation blocks on put event."""
+        while (output := self.output) is None:
+            await self.ready.wait()
+        self.output = None
+        self.ready.clear()
+        if isinstance(output, Exception):
+            raise output
+        return output
+
+    def get_nowait(self) -> RequestOutput | PoolingRequestOutput | None:
+        """Non-blocking get operation."""
+        output = self.output
+        if output is not None:
+            self.output = None
+            self.ready.clear()
+        if isinstance(output, Exception):
+            raise output
+        return output
+
+
+@dataclass
+class OutputProcessorOutput:
+    request_outputs: list[RequestOutput | PoolingRequestOutput]
+    reqs_to_abort: list[str]
+
+
+class RequestState:
+    def __init__(
+        self,
+        request_id: str,
+        parent_req: ParentRequest | None,
+        request_index: int,
+        lora_name: str | None,
+        output_kind: RequestOutputKind,
+        prompt: str | None,
+        prompt_token_ids: list[int] | None,
+        prompt_embeds: torch.Tensor | None,
+        logprobs_processor: LogprobsProcessor | None,
+        detokenizer: IncrementalDetokenizer | None,
+        max_tokens_param: int | None,
+        arrival_time: float,
+        queue: RequestOutputCollector | None,
+        log_stats: bool,
+        stream_interval: int,
+        top_p: float | None = None,
+        n: int | None = None,
+        temperature: float | None = None,
+    ):
+        self.request_id = request_id
+        self.parent_req = parent_req
+        self.request_index = request_index
+        self.lora_name = lora_name
+        self.output_kind = output_kind
+        self.prompt = prompt
+        self.prompt_token_ids = prompt_token_ids
+        self.prompt_embeds = prompt_embeds
+        self.prompt_len = length_from_prompt_token_ids_or_embeds(
+            self.prompt_token_ids, self.prompt_embeds
+        )
+        self.logprobs_processor = logprobs_processor
+        self.detokenizer = detokenizer
+        self.max_tokens_param = max_tokens_param
+        self.top_p = top_p
+        self.n = n
+        self.temperature = temperature
+        self.is_prefilling = True
+        self.queue = queue
+        self.num_cached_tokens = 0
+
+        self.stats = RequestStateStats(arrival_time=arrival_time) if log_stats else None
+
+        # Stream Interval
+        self.stream_interval = stream_interval
+        self.sent_tokens_offset = 0  # Offset of sent tokens
+
+    @classmethod
+    def from_new_request(
+        cls,
+        tokenizer: AnyTokenizer,
+        request: EngineCoreRequest,
+        prompt: str | None,
+        parent_req: ParentRequest | None,
+        request_index: int,
+        queue: RequestOutputCollector | None,
+        log_stats: bool,
+        stream_interval: int,
+    ) -> "RequestState":
+        if sampling_params := request.sampling_params:
+            if not sampling_params.detokenize:
+                tokenizer = None
+            output_kind = sampling_params.output_kind
+            logprobs_processor = LogprobsProcessor.from_new_request(
+                tokenizer=tokenizer,
+                request=request,
+            )
+            detokenizer = IncrementalDetokenizer.from_new_request(
+                tokenizer=tokenizer,
+                request=request,
+            )
+            max_tokens_param = sampling_params.max_tokens
+            top_p = sampling_params.top_p
+            n = sampling_params.n
+            temperature = sampling_params.temperature
+        else:
+            logprobs_processor = None
+            detokenizer = None
+            max_tokens_param = None
+            top_p = None
+            n = None
+            temperature = None
+            assert request.pooling_params is not None
+            output_kind = request.pooling_params.output_kind
+
+        return cls(
+            request_id=request.request_id,
+            parent_req=parent_req,
+            request_index=request_index,
+            lora_name=(
+                request.lora_request.name if request.lora_request is not None else None
+            ),
+            output_kind=output_kind,
+            prompt=prompt,
+            prompt_token_ids=request.prompt_token_ids,
+            prompt_embeds=request.prompt_embeds,
+            logprobs_processor=logprobs_processor,
+            detokenizer=detokenizer,
+            max_tokens_param=max_tokens_param,
+            top_p=top_p,
+            n=n,
+            temperature=temperature,
+            arrival_time=request.arrival_time,
+            queue=queue,
+            log_stats=log_stats,
+            stream_interval=stream_interval,
+        )
+
+    def make_request_output(
+        self,
+        new_token_ids: list[int],
+        pooling_output: torch.Tensor | None,
+        finish_reason: FinishReason | None,
+        stop_reason: int | str | None,
+        kv_transfer_params: dict[str, Any] | None = None,
+    ) -> RequestOutput | PoolingRequestOutput | None:
+        finished = finish_reason is not None
+        final_only = self.output_kind == RequestOutputKind.FINAL_ONLY
+
+        if not finished and final_only:
+            # Only the final output is required in FINAL_ONLY mode.
+            return None
+
+        if self.stream_interval > 1:
+            assert self.detokenizer is not None
+
+            # Send output request only when
+            # 1. It has finished, or
+            # 2. It is the first token, or
+            # 3. It has reached the stream interval number of tokens
+            if not (
+                finished
+                or self.sent_tokens_offset == 0
+                or len(self.detokenizer.output_token_ids) - self.sent_tokens_offset
+                >= self.stream_interval
+            ):
+                return None
+
+            if self.output_kind == RequestOutputKind.DELTA:
+                # Send tokens from the offset in DELTA mode, otherwise all
+                # tokens are sent.
+                new_token_ids = self.detokenizer.output_token_ids[
+                    self.sent_tokens_offset :
+                ]
+                self.sent_tokens_offset = len(self.detokenizer.output_token_ids)
+
+        request_id = self.request_id
+        if pooling_output is not None:
+            return self._new_request_output(
+                request_id, [self._new_pooling_output(pooling_output)], finished
+            )
+
+        output = self._new_completion_output(new_token_ids, finish_reason, stop_reason)
+
+        if self.parent_req is None:
+            outputs = [output]
+        else:
+            request_id, outputs, finished = self.parent_req.get_outputs(
+                request_id, output
+            )
+            if not outputs:
+                return None
+
+        return self._new_request_output(
+            request_id, outputs, finished, kv_transfer_params
+        )
+
+    def _new_request_output(
+        self,
+        request_id: str,
+        outputs: list[CompletionOutput] | list[PoolingOutput],
+        finished: bool,
+        kv_transfer_params: dict[str, Any] | None = None,
+    ) -> RequestOutput | PoolingRequestOutput:
+        first_output = outputs[0]
+        if isinstance(first_output, PoolingOutput):
+            assert len(outputs) == 1
+            # Prompt embeddings are currently not supported by pooling requests.
+            assert self.prompt_token_ids is not None
+            return PoolingRequestOutput(
+                request_id=request_id,
+                outputs=first_output,
+                num_cached_tokens=self.num_cached_tokens,
+                prompt_token_ids=self.prompt_token_ids,
+                finished=finished,
+            )
+        assert self.logprobs_processor is not None
+        if self.output_kind == RequestOutputKind.DELTA:
+            # Side effect: logprobs processor forgets prompt logprobs
+            prompt_logprobs = self.logprobs_processor.pop_prompt_logprobs()
+        else:
+            prompt_logprobs = self.logprobs_processor.prompt_logprobs
+
+        # If prompt embeds were used, put placeholder prompt token ids
+        prompt_token_ids = self.prompt_token_ids
+        if prompt_token_ids is None and self.prompt_embeds is not None:
+            prompt_token_ids = [0] * len(self.prompt_embeds)
+
+        return RequestOutput(
+            request_id=request_id,
+            prompt=self.prompt,
+            prompt_token_ids=prompt_token_ids,
+            prompt_logprobs=prompt_logprobs,
+            outputs=cast(list[CompletionOutput], outputs),
+            finished=finished,
+            kv_transfer_params=kv_transfer_params,
+            num_cached_tokens=self.num_cached_tokens,
+            metrics=self.stats,
+        )
+
+    def _new_completion_output(
+        self,
+        token_ids: list[int],
+        finish_reason: FinishReason | None,
+        stop_reason: int | str | None,
+    ) -> CompletionOutput:
+        assert self.detokenizer is not None
+        assert self.logprobs_processor is not None
+        finished = finish_reason is not None
+        delta = self.output_kind == RequestOutputKind.DELTA
+
+        # Prepare text and token_ids, based on delta mode
+        text = self.detokenizer.get_next_output_text(finished, delta)
+        if not delta:
+            token_ids = self.detokenizer.output_token_ids
+
+        # Prepare logprobs, based on delta mode
+        logprobs = self.logprobs_processor.logprobs
+        if delta and logprobs:
+            logprobs = logprobs[-len(token_ids) :]
+
+        return CompletionOutput(
+            index=self.request_index,
+            text=text,
+            token_ids=token_ids,
+            logprobs=logprobs,
+            cumulative_logprob=self.logprobs_processor.cumulative_logprob,
+            finish_reason=str(finish_reason) if finished else None,
+            stop_reason=stop_reason if finished else None,
+        )
+
+    def _new_pooling_output(
+        self,
+        pooling_output: torch.Tensor,
+    ) -> PoolingOutput:
+        return PoolingOutput(data=pooling_output)
+
+
+class OutputProcessor:
+    """Process EngineCoreOutputs into RequestOutputs."""
+
+    def __init__(
+        self, tokenizer: AnyTokenizer, log_stats: bool, stream_interval: int = 1
+    ):
+        self.log_stats = log_stats
+        self.tokenizer = tokenizer
+        self.stream_interval = stream_interval
+        self.request_states: dict[str, RequestState] = {}
+        self.parent_requests: dict[str, ParentRequest] = {}
+        self.lora_states = LoRARequestStates(log_stats)
+        self.tracer: Tracer | None = None
+
+    def get_num_unfinished_requests(self):
+        return len(self.request_states)
+
+    def has_unfinished_requests(self) -> bool:
+        return len(self.request_states) > 0
+
+    def propagate_error(self, e: Exception):
+        """Propagate error to all generate() tasks."""
+
+        for _, state in self.request_states.items():
+            assert state.queue is not None
+            state.queue.put(e)
+
+    def abort_requests(
+        self,
+        request_ids: Iterable[str],
+    ) -> list[str]:
+        request_ids_to_abort = []
+        for request_id in request_ids:
+            req_state = self.request_states.pop(request_id, None)
+            if req_state is not None:
+                self.lora_states.request_finished(request_id, req_state.lora_name)
+                request_ids_to_abort.append(request_id)
+                # Produce final abort output.
+                if req_state.queue is not None and (
+                    request_output := req_state.make_request_output(
+                        new_token_ids=[],
+                        # Set pooling_output is not None to
+                        # correctly enter the abort pooling branch
+                        pooling_output=torch.randn(0, device="cpu")
+                        if req_state.detokenizer is None
+                        else None,
+                        finish_reason=FinishReason.ABORT,
+                        stop_reason=None,
+                        kv_transfer_params=None,
+                    )
+                ):
+                    req_state.queue.put(request_output)
+            elif parent := self.parent_requests.get(request_id):
+                # Abort children prior to removing the parent.
+                if parent.child_requests:
+                    child_reqs = list(parent.child_requests)
+                    child_reqs = self.abort_requests(child_reqs)
+                    request_ids_to_abort.extend(child_reqs)
+                self.parent_requests.pop(request_id, None)
+        return request_ids_to_abort
+
+    def add_request(
+        self,
+        request: EngineCoreRequest,
+        prompt: str | None,
+        parent_req: ParentRequest | None = None,
+        request_index: int = 0,
+        queue: RequestOutputCollector | None = None,
+    ) -> None:
+        request_id = request.request_id
+        if request_id in self.request_states:
+            raise ValueError(f"Request id {request_id} already running.")
+
+        req_state = RequestState.from_new_request(
+            tokenizer=self.tokenizer,
+            request=request,
+            prompt=prompt,
+            parent_req=parent_req,
+            request_index=request_index,
+            queue=queue,
+            log_stats=self.log_stats,
+            stream_interval=self.stream_interval,
+        )
+        self.request_states[request_id] = req_state
+        if parent_req:
+            self.parent_requests[parent_req.request_id] = parent_req
+
+    def process_outputs(
+        self,
+        engine_core_outputs: list[EngineCoreOutput],
+        engine_core_timestamp: float | None = None,
+        iteration_stats: IterationStats | None = None,
+    ) -> OutputProcessorOutput:
+        """
+        Process the EngineCoreOutputs:
+        1) Compute stats for logging
+        2) Detokenize
+        3) Create and handle RequestOutput objects:
+            * If there is a queue (for usage with AsyncLLM),
+              put the RequestOutput objects into the queue for
+              handling by the per-request generate() tasks.
+
+            * If there is no queue (for usage with LLMEngine),
+              return a list of RequestOutput objects.
+
+        NOTE FOR DEVELOPERS
+
+        vLLM V1 minimizes the number of python loops over the full
+        batch to ensure system overheads are minimized. This is the
+        only function that should loop over EngineCoreOutputs.
+
+        If you need to touch every element of the batch, do it from
+        within the loop below.
+        """
+
+        request_outputs: list[RequestOutput | PoolingRequestOutput] = []
+        reqs_to_abort: list[str] = []
+        for engine_core_output in engine_core_outputs:
+            req_id = engine_core_output.request_id
+            req_state = self.request_states.get(req_id)
+            if req_state is None:
+                # Ignore output for already-aborted request.
+                continue
+
+            # 1) Compute stats for this iteration.
+            self._update_stats_from_output(
+                req_state, engine_core_output, engine_core_timestamp, iteration_stats
+            )
+
+            new_token_ids = engine_core_output.new_token_ids
+            pooling_output = engine_core_output.pooling_output
+            finish_reason = engine_core_output.finish_reason
+            stop_reason = engine_core_output.stop_reason
+            kv_transfer_params = engine_core_output.kv_transfer_params
+            req_state.num_cached_tokens = engine_core_output.num_cached_tokens
+            req_state.is_prefilling = False
+
+            if pooling_output is None:
+                assert req_state.detokenizer is not None
+                assert req_state.logprobs_processor is not None
+                # 2) Detokenize the token ids into text and perform stop checks.
+                stop_string = req_state.detokenizer.update(
+                    new_token_ids, finish_reason == FinishReason.STOP
+                )
+                if stop_string:
+                    finish_reason = FinishReason.STOP
+                    stop_reason = stop_string
+
+                # 3) Compute sample and prompt logprobs for request,
+                # if required.
+                req_state.logprobs_processor.update_from_output(engine_core_output)
+
+            # 4) Create and handle RequestOutput objects.
+            if request_output := req_state.make_request_output(
+                new_token_ids,
+                pooling_output,
+                finish_reason,
+                stop_reason,
+                kv_transfer_params,
+            ):
+                if req_state.queue is not None:
+                    # AsyncLLM: put into queue for handling by generate().
+                    req_state.queue.put(request_output)
+                else:
+                    # LLMEngine: return list of RequestOutputs.
+                    request_outputs.append(request_output)
+
+            # Free completed requests.
+            if finish_reason is not None:
+                self.request_states.pop(req_id)
+                # Remove parent request if applicable.
+                parent_req = req_state.parent_req
+                if parent_req and not parent_req.child_requests:
+                    self.parent_requests.pop(parent_req.request_id, None)
+                if not engine_core_output.finished:
+                    # If req not finished in EngineCore, but Detokenizer
+                    # detected stop string, abort needed in EngineCore.
+                    reqs_to_abort.append(req_id)
+
+                # Track per-request stats
+                self._update_stats_from_finished(
+                    req_state, finish_reason, iteration_stats
+                )
+                if self.tracer:
+                    self.do_tracing(engine_core_output, req_state, iteration_stats)
+
+        return OutputProcessorOutput(
+            request_outputs=request_outputs,
+            reqs_to_abort=reqs_to_abort,
+        )
+
+    def update_scheduler_stats(self, scheduler_stats: SchedulerStats | None):
+        self.lora_states.update_scheduler_stats(scheduler_stats)
+
+    def do_tracing(
+        self,
+        engine_core_output: EngineCoreOutput,
+        req_state: RequestState,
+        iteration_stats: IterationStats | None,
+    ) -> None:
+        assert req_state.stats is not None
+        assert iteration_stats is not None
+        assert self.tracer is not None
+
+        arrival_time_nano_seconds = int(req_state.stats.arrival_time * 1e9)
+        trace_context = extract_trace_context(engine_core_output.trace_headers)
+        prompt_length = length_from_prompt_token_ids_or_embeds(
+            req_state.prompt_token_ids, req_state.prompt_embeds
+        )
+        with self.tracer.start_as_current_span(
+            "llm_request",
+            kind=SpanKind.SERVER,
+            context=trace_context,
+            start_time=arrival_time_nano_seconds,
+        ) as span:
+            metrics = req_state.stats
+            e2e_time = iteration_stats.iteration_timestamp - metrics.arrival_time
+            queued_time = metrics.scheduled_ts - metrics.queued_ts
+            prefill_time = metrics.first_token_ts - metrics.scheduled_ts
+            decode_time = metrics.last_token_ts - metrics.first_token_ts
+            inference_time = metrics.last_token_ts - metrics.scheduled_ts
+            span.set_attribute(
+                SpanAttributes.GEN_AI_LATENCY_TIME_TO_FIRST_TOKEN,
+                metrics.first_token_latency,
+            )
+            span.set_attribute(SpanAttributes.GEN_AI_LATENCY_E2E, e2e_time)
+            span.set_attribute(SpanAttributes.GEN_AI_LATENCY_TIME_IN_QUEUE, queued_time)
+            span.set_attribute(SpanAttributes.GEN_AI_USAGE_PROMPT_TOKENS, prompt_length)
+            span.set_attribute(
+                SpanAttributes.GEN_AI_USAGE_COMPLETION_TOKENS,
+                metrics.num_generation_tokens,
+            )
+            span.set_attribute(
+                SpanAttributes.GEN_AI_LATENCY_TIME_IN_MODEL_PREFILL, prefill_time
+            )
+            span.set_attribute(
+                SpanAttributes.GEN_AI_LATENCY_TIME_IN_MODEL_DECODE, decode_time
+            )
+            span.set_attribute(
+                SpanAttributes.GEN_AI_LATENCY_TIME_IN_MODEL_INFERENCE, inference_time
+            )
+
+            # meta
+            span.set_attribute(SpanAttributes.GEN_AI_REQUEST_ID, req_state.request_id)
+            if req_state.top_p:
+                span.set_attribute(SpanAttributes.GEN_AI_REQUEST_TOP_P, req_state.top_p)
+            if req_state.max_tokens_param:
+                span.set_attribute(
+                    SpanAttributes.GEN_AI_REQUEST_MAX_TOKENS, req_state.max_tokens_param
+                )
+            if req_state.temperature:
+                span.set_attribute(
+                    SpanAttributes.GEN_AI_REQUEST_TEMPERATURE, req_state.temperature
+                )
+            if req_state.n:
+                span.set_attribute(SpanAttributes.GEN_AI_REQUEST_N, req_state.n)
+
+    def _update_stats_from_output(
+        self,
+        req_state: RequestState,
+        engine_core_output: EngineCoreOutput,
+        engine_core_timestamp: float | None,
+        iteration_stats: IterationStats | None,
+    ):
+        if iteration_stats is None:
+            return
+
+        assert engine_core_timestamp is not None
+        assert req_state.stats is not None
+        iteration_stats.update_from_output(
+            engine_core_output,
+            engine_core_timestamp,
+            req_state.is_prefilling,
+            req_state.prompt_len,
+            req_state.stats,
+            self.lora_states,
+            req_state.lora_name,
+        )
+
+    def _update_stats_from_finished(
+        self,
+        req_state: RequestState,
+        finish_reason: FinishReason | None,
+        iteration_stats: IterationStats | None,
+    ):
+        if iteration_stats is None:
+            return
+
+        assert finish_reason is not None
+        assert req_state.stats is not None
+        iteration_stats.update_from_finished_request(
+            finish_reason=finish_reason,
+            num_prompt_tokens=length_from_prompt_token_ids_or_embeds(
+                req_state.prompt_token_ids, req_state.prompt_embeds
+            ),
+            max_tokens_param=req_state.max_tokens_param,
+            req_stats=req_state.stats,
+        )
+        self.lora_states.request_finished(req_state.request_id, req_state.lora_name)
+
+        ParentRequest.observe_finished_request(
+            req_state.parent_req, iteration_stats, req_state.stats.num_generation_tokens
+        )
diff --git a/v1/engine/parallel_sampling.py b/v1/engine/parallel_sampling.py
new file mode 100644
index 0000000..59aacd1
--- /dev/null
+++ b/v1/engine/parallel_sampling.py
@@ -0,0 +1,145 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from copy import copy
+from typing import Optional, cast
+
+from vllm.outputs import CompletionOutput
+from vllm.sampling_params import RequestOutputKind, SamplingParams
+from vllm.v1.metrics.stats import IterationStats
+
+
+class ParentRequest:
+    """Info, state & processing for parallel sampling request.
+
+    Store parent request ID and sampling params.
+    Facilitate generating child request sampling params.
+    """
+
+    request_id: str
+    sampling_params: SamplingParams
+
+    # To track the completion of child requests
+    child_requests: set[str]
+
+    # To aggregate child completions when not streaming
+    output_aggregator: list[CompletionOutput]
+
+    # To find the max number of generated tokens across all children
+    max_num_generation_tokens: int
+
+    # To efficiently obtain child sampling params
+    cached_child_sampling_params: SamplingParams | None
+
+    def __init__(self, request_id: str, sampling_params: SamplingParams) -> None:
+        self.request_id = request_id
+        self.sampling_params = sampling_params
+
+        self.child_requests = set()
+        self.output_aggregator = (
+            [cast(CompletionOutput, None)] * sampling_params.n
+            if (sampling_params.output_kind == RequestOutputKind.FINAL_ONLY)
+            else []
+        )
+        self.max_num_generation_tokens = 0
+        self.cached_child_sampling_params = None
+
+    def _get_child_sampling_params(
+        self,
+        index: int,
+    ) -> SamplingParams:
+        """Efficiently obtain child `sampling_params`
+
+        If `sampling_params.seed` is not `None` then
+        each child request requires a unique clone of
+        parent `sampling_params` with a unique seed.
+
+        Args:
+          index: index within `n` child requests
+
+        Returns:
+          Child `sampling_params` instance.
+        """
+        seed = self.sampling_params.seed
+        if self.cached_child_sampling_params:
+            # Reuse child sampling_params data structure
+            return self.cached_child_sampling_params
+        # Build child sampling_params
+        child_sampling_params = copy(self.sampling_params)
+        child_sampling_params.n = 1
+        if seed is None:
+            # Cache child sampling_params for later reuse
+            self.cached_child_sampling_params = child_sampling_params
+        else:
+            # Each child gets a clone with a unique seed
+            child_sampling_params.seed = seed + index
+        return child_sampling_params
+
+    def get_child_info(self, index: int) -> tuple[str, SamplingParams]:
+        """Get child request ID and sampling params.
+
+        Args:
+          index: index within `n` child requests.
+
+        Returns:
+          (request ID, sampling_params) tuple
+        """
+        child_req_id = f"{index}_{self.request_id}"
+        self.child_requests.add(child_req_id)
+        return child_req_id, self._get_child_sampling_params(index)
+
+    @property
+    def n(self) -> int:
+        return self.sampling_params.n
+
+    def get_outputs(
+        self,
+        child_request_id: str,
+        completion_output: CompletionOutput,
+    ) -> tuple[str, list[CompletionOutput], bool]:
+        already_finished_and_returned: bool = False
+        if completion_output.finished():
+            if child_request_id in self.child_requests:
+                self.child_requests.remove(child_request_id)
+            else:
+                # child request ID is not available in child_requests
+                # which means the request had finished in previous
+                # batch step and returned to the client earlier
+                already_finished_and_returned = True
+
+        if self.sampling_params.output_kind != RequestOutputKind.FINAL_ONLY:
+            # If streaming, just return the current output
+            #
+            # DO NOT output finished and already returned child request to client again
+            outputs = [] if already_finished_and_returned else [completion_output]
+        else:
+            # If not streaming, aggregate the n final outputs.
+            self.output_aggregator[completion_output.index] = completion_output
+            outputs = [] if self.child_requests else self.output_aggregator
+
+        finished = not self.child_requests
+        return self.request_id, outputs, finished
+
+    def observe_num_generation_tokens(self, num_generation_tokens: int):
+        self.max_num_generation_tokens = max(
+            num_generation_tokens, self.max_num_generation_tokens
+        )
+        return self.max_num_generation_tokens
+
+    @staticmethod
+    def observe_finished_request(
+        parent_req: Optional["ParentRequest"],
+        iteration_stats: IterationStats,
+        num_generation_tokens: int,
+    ):
+        n_param = parent_req.n if parent_req is not None else 1
+
+        if parent_req is not None:
+            num_generation_tokens = parent_req.observe_num_generation_tokens(
+                num_generation_tokens
+            )
+
+        # Child requests finished, we can now record to iteration stats
+        if parent_req is None or not parent_req.child_requests:
+            iteration_stats.max_num_generation_tokens_iter.append(num_generation_tokens)
+            iteration_stats.n_params_iter.append(n_param)
diff --git a/v1/engine/processor.py b/v1/engine/processor.py
new file mode 100644
index 0000000..4cb911d
--- /dev/null
+++ b/v1/engine/processor.py
@@ -0,0 +1,621 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+from collections.abc import Mapping
+from typing import Any, Literal, cast
+
+from vllm.config import VllmConfig
+from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
+from vllm.inputs.parse import split_enc_dec_inputs
+from vllm.inputs.preprocess import InputPreprocessor
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.multimodal.cache import processor_cache_from_config
+from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalUUIDDict
+from vllm.multimodal.parse import MultiModalDataParser
+from vllm.multimodal.processing import EncDecMultiModalProcessor
+from vllm.multimodal.utils import argsort_mm_positions
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.metrics.stats import MultiModalCacheStats
+from vllm.v1.structured_output.backend_guidance import validate_guidance_grammar
+from vllm.v1.structured_output.backend_lm_format_enforcer import (
+    validate_structured_output_request_lm_format_enforcer,
+)
+from vllm.v1.structured_output.backend_outlines import (
+    validate_structured_output_request_outlines,
+)
+from vllm.v1.structured_output.backend_xgrammar import validate_xgrammar_grammar
+
+logger = init_logger(__name__)
+
+
+class Processor:
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        tokenizer: AnyTokenizer | None,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+    ) -> None:
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.structured_outputs_config = vllm_config.structured_outputs_config
+
+        self.generation_config_fields = self.model_config.try_get_generation_config()
+
+        self.mm_registry = mm_registry
+        self.mm_processor_cache = processor_cache_from_config(vllm_config, mm_registry)
+
+        self.input_preprocessor = InputPreprocessor(
+            self.model_config,
+            tokenizer,
+            mm_registry,
+            mm_processor_cache=self.mm_processor_cache,
+        )
+
+    @property
+    def tokenizer(self) -> AnyTokenizer | None:
+        return self.input_preprocessor.tokenizer
+
+    @tokenizer.setter
+    def tokenizer(self, tokenizer: AnyTokenizer | None) -> None:
+        self.input_preprocessor.tokenizer = tokenizer
+
+    def _validate_logprobs(
+        self,
+        params: SamplingParams,
+    ) -> None:
+        max_logprobs = self.model_config.max_logprobs
+        if max_logprobs == -1:
+            max_logprobs = self.model_config.get_vocab_size()
+
+        # Validate sample logprobs.
+        if params.logprobs:
+            num_logprobs = params.logprobs
+            if num_logprobs == -1:
+                num_logprobs = self.model_config.get_vocab_size()
+            if num_logprobs > max_logprobs:
+                raise ValueError(
+                    f"Requested sample logprobs of {num_logprobs}, "
+                    f"which is greater than max allowed: {max_logprobs}"
+                )
+
+        # Validate prompt logprobs.
+        if params.prompt_logprobs:
+            num_prompt_logprobs = params.prompt_logprobs
+            if num_prompt_logprobs == -1:
+                num_prompt_logprobs = self.model_config.get_vocab_size()
+            if num_prompt_logprobs > max_logprobs:
+                raise ValueError(
+                    f"Requested prompt logprobs of {num_prompt_logprobs}, "
+                    f"which is greater than max allowed: {max_logprobs}"
+                )
+
+    def _validate_sampling_params(
+        self,
+        params: SamplingParams,
+    ) -> None:
+        self._validate_structured_output(params)
+        self._validate_logit_bias(params)
+
+        if params.allowed_token_ids is None:
+            return
+        if not params.allowed_token_ids:
+            raise ValueError("allowed_token_ids is not None and empty!")
+        if self.tokenizer is None:
+            # When skip_tokenizer_init=True, we can't validate token IDs
+            # Skip validation and let the model handle invalid tokens
+            return
+        vocab_size = len(self.tokenizer)
+        if not all(0 <= tid < vocab_size for tid in params.allowed_token_ids):
+            raise ValueError("allowed_token_ids contains out-of-vocab token id!")
+
+    def _validate_logit_bias(
+        self,
+        params: SamplingParams,
+    ) -> None:
+        """Validate logit_bias token IDs are within vocabulary range."""
+        if not params.logit_bias:
+            return
+
+        vocab_size = self.model_config.get_vocab_size()
+        invalid_token_ids = []
+
+        for token_id in params.logit_bias:
+            if token_id < 0 or token_id >= vocab_size:
+                invalid_token_ids.append(token_id)
+
+        if invalid_token_ids:
+            raise ValueError(
+                f"token_id(s) {invalid_token_ids} in logit_bias contain "
+                f"out-of-vocab token ids. Vocabulary size: {vocab_size}"
+            )
+
+    def _validate_supported_sampling_params(
+        self,
+        params: SamplingParams,
+    ) -> None:
+        # Best of not yet supported.
+        if params.best_of is not None and params.best_of > 1:
+            raise ValueError("vLLM V1 does not yet support best_of.")
+        # Logits processors not supported.
+        if params.logits_processors:
+            raise ValueError(
+                "vLLM V1 does not support per request user provided logits processors."
+            )
+        # Async scheduling + spec decode currently incompatible with some
+        # sampling parameters.
+        if (
+            self.vllm_config.speculative_config is not None
+            and self.vllm_config.scheduler_config.async_scheduling
+            and (
+                params.frequency_penalty != 0.0
+                or params.presence_penalty != 0.0
+                or params.repetition_penalty != 1.0
+                or params.bad_words_token_ids
+                or params.structured_outputs
+            )
+        ):
+            raise ValueError(
+                "async scheduling with spec decoding doesn't yet support "
+                "penalties, bad words or structured outputs in sampling parameters."
+            )
+
+    def _validate_params(
+        self,
+        params: SamplingParams | PoolingParams,
+    ):
+        """
+        Validate supported SamplingParam.
+        Should raise ValueError if unsupported for API Server.
+        """
+
+        if isinstance(params, PoolingParams):
+            return
+
+        self._validate_logprobs(params)
+        self._validate_sampling_params(params)
+        self._validate_supported_sampling_params(params)
+
+    def _validate_multi_modal_uuids(self, prompt: PromptType) -> None:
+        """
+        Validate that user-provided multi_modal_uuids align with
+        multi_modal_data in the incoming request prompt(s).
+        Only checks lengths; `None` entries are allowed and will be
+        auto-hashed downstream.
+        """
+
+        def _validate_single_prompt(single_prompt: dict | str) -> None:
+            if not isinstance(single_prompt, dict):
+                return
+            mm_data = single_prompt.get("multi_modal_data")
+            mm_uuids = single_prompt.get("multi_modal_uuids")
+            if not mm_data or not mm_uuids:
+                return
+
+            for modality, items in mm_data.items():
+                if modality in mm_uuids:
+                    data_len = len(items) if isinstance(items, list) else 1
+                    uuid_len = (
+                        len(mm_uuids[modality])
+                        if isinstance(mm_uuids[modality], list)
+                        else 1
+                    )
+                    if uuid_len != data_len:
+                        raise ValueError(
+                            f"multi_modal_uuids for modality '{modality}' "
+                            "must have same length as data: got "
+                            f"{uuid_len} uuids vs "
+                            f"{data_len} items."
+                        )
+                else:
+                    raise ValueError(
+                        f"multi_modal_uuids for modality '{modality}' must "
+                        "be provided if multi_modal_data is provided."
+                    )
+
+        # Handle explicit encoder/decoder prompts or singleton prompt
+        if isinstance(prompt, dict) and "encoder_prompt" in prompt:
+            enc = prompt.get("encoder_prompt")
+            dec = prompt.get("decoder_prompt")
+            if enc is not None:
+                _validate_single_prompt(cast(dict | str, enc))
+            if dec is not None:
+                _validate_single_prompt(cast(dict | str, dec))
+        else:
+            _validate_single_prompt(prompt)  # type: ignore[arg-type]
+
+    def _validate_lora(self, lora_request: LoRARequest | None) -> None:
+        if lora_request is None:
+            return
+
+        # LoRA request passed in while LoRA is not enabled
+        if not self.lora_config:
+            raise ValueError(
+                f"Got lora_request {lora_request} but LoRA is not enabled!"
+            )
+
+        if self.tokenizer is not None:
+            logger.warning_once(
+                "vLLM has deprecated support for supporting different "
+                "tokenizers for different LoRAs. By default, vLLM uses base "
+                "model's tokenizer. If you are using a LoRA "
+                "with its own tokenizer, consider specifying `--tokenizer "
+                "[lora_path]` to use the LoRA tokenizer."
+            )
+
+    def _validate_structured_output(self, params: SamplingParams) -> None:
+        if not params.structured_outputs or not self.structured_outputs_config:
+            return
+
+        if self.model_config.skip_tokenizer_init and params.structured_outputs:
+            raise ValueError(
+                "Structured outputs requires a tokenizer so it can't be used with 'skip_tokenizer_init'"  # noqa: E501
+            )
+
+        backend = self.structured_outputs_config.backend
+        if _backend := params.structured_outputs._backend:
+            # Request-level backend selection is not supported.
+            # The values may differ if `params` is reused and was set
+            # to a specific backend based on `auto` behavior in a previous
+            # request. We remember that it was set as a result of `auto`
+            # using the `_backend_was_auto` field set in the params.
+            if backend != _backend and not (
+                backend == "auto" and params.structured_outputs._backend_was_auto
+            ):
+                raise ValueError(
+                    "Request-level structured output backend selection is not "
+                    f"supported. The request specified '{_backend}', but vLLM "
+                    f"was initialised with '{backend}'. This error can be "
+                    "resolved by removing '_backend' from the request."
+                )
+        else:
+            params.structured_outputs._backend = backend
+
+        # Request content validation
+        if (
+            isinstance(params.structured_outputs.choice, list)
+            and not params.structured_outputs.choice
+        ):
+            # It is invalid for choice to be an empty list
+            raise ValueError(
+                f"Choice '{params.structured_outputs.choice}' cannot be an empty list"  # noqa: E501
+            )
+        # Reject empty string grammar early to avoid engine-side crashes
+        if (
+            isinstance(params.structured_outputs.grammar, str)
+            and params.structured_outputs.grammar.strip() == ""
+        ):
+            raise ValueError("structured_outputs.grammar cannot be an empty string")
+
+        if backend.startswith("xgrammar"):
+            # xgrammar with no fallback
+            validate_xgrammar_grammar(params)
+        elif backend.startswith("guidance"):
+            # TODO: ideally we would have the LLTokenizer here as Lark syntax
+            # allows <|special_token|> and similar, see
+            # https://github.com/guidance-ai/llguidance/blob/main/docs/syntax.md#special-tokens
+            # Without tokenizer these are disallowed in grammars.
+            validate_guidance_grammar(params, tokenizer=None)
+        elif backend == "outlines":
+            # outlines backend
+            validate_structured_output_request_outlines(params)
+        elif backend == "lm-format-enforcer":
+            # lm format enforcer backend
+            validate_structured_output_request_lm_format_enforcer(params)
+        else:
+            # NOTE: backend must be "auto" here, because we have
+            # checked supported_backends above.
+            # In this mode, we set opinionated defaults based on what we think
+            # will satisfy the most use cases without having to worry about
+            # this setting. We include fallback behavior here, but not with any
+            # other setting where a specific backend was specified.
+            try:
+                validate_xgrammar_grammar(params)
+                params.structured_outputs._backend = "xgrammar"
+            except ValueError:
+                # The request either failed validation
+                # or includes some jsonschema feature(s) that
+                # are not supported in xgrammar. Fall back to guidance.
+                validate_guidance_grammar(params, tokenizer=None)
+                params.structured_outputs._backend = "guidance"
+            # Remember that this backend was set automatically
+            params.structured_outputs._backend_was_auto = True
+
+    def _maybe_build_mm_uuids(
+        self,
+        request_id: str,
+        prompt: PromptType,
+    ) -> MultiModalUUIDDict | None:
+        """Build per-item multimodal hash overrides when enabled. In this case,
+        multimodal data items are identified by their request id, modality and
+        index rather than their content.
+
+        Returns a dictionary of modality -> list[str] of overrides, or None if
+        disabled or no multimodal data is present.
+        """
+
+        def _extract_mm_data(p: PromptType):
+            if isinstance(p, dict) and "encoder_prompt" in p:
+                enc = p.get("encoder_prompt")
+                if isinstance(enc, dict):
+                    return enc.get("multi_modal_data")
+                return None
+            if isinstance(p, dict):
+                return p.get("multi_modal_data")
+            return None
+
+        mm_data = _extract_mm_data(prompt)
+        if not mm_data:
+            return None
+
+        mm_uuids: dict[str, list[str | None] | str] = {}
+        for modality, data in mm_data.items():
+            # Hash each item for embedding inputs.
+            n = (
+                len(data)
+                if isinstance(data, list) or MultiModalDataParser.is_embeddings(data)
+                else 1
+            )
+            mm_uuids[modality] = [f"{request_id}-{modality}-{i}" for i in range(n)]
+        return mm_uuids
+
+    def process_inputs(
+        self,
+        request_id: str,
+        prompt: PromptType,
+        params: SamplingParams | PoolingParams,
+        arrival_time: float | None = None,
+        lora_request: LoRARequest | None = None,
+        tokenization_kwargs: dict[str, Any] | None = None,
+        trace_headers: Mapping[str, str] | None = None,
+        priority: int = 0,
+        data_parallel_rank: int | None = None,
+    ) -> EngineCoreRequest:
+        self._validate_lora(lora_request)
+        self._validate_params(params)
+
+        data_parallel_size = self.vllm_config.parallel_config.data_parallel_size
+        if data_parallel_rank is not None and not (
+            0 <= data_parallel_rank < data_parallel_size
+        ):
+            raise ValueError(
+                f"data_parallel_rank {data_parallel_rank} "
+                f"is out of range [0, {data_parallel_size})."
+            )
+
+        if arrival_time is None:
+            arrival_time = time.time()
+
+        # Optionally generate multimodal hash overrides to avoid hashing
+        # multimodal data items by their content as their identifiers.
+
+        # NOTE: when users explicitly turn off BOTH prefix caching and input
+        # processing caching, no multimodal features or embeddings will be
+        # reused across requests, therefore identifying multimodal data items
+        # by their content is no longer necessary, and we create uuids with
+        # request id-modality-index as multimodal hash overrides.
+        if (
+            self.model_config.multimodal_config
+            and self.model_config.multimodal_config.mm_processor_cache_gb == 0
+            and not self.cache_config.enable_prefix_caching
+        ):
+            mm_uuids = self._maybe_build_mm_uuids(request_id, prompt)
+        else:
+            # Otherwise, use user-provided uuids as multimodal hash overrides
+            # if provided.
+            self._validate_multi_modal_uuids(prompt)
+            if isinstance(prompt, dict):
+                mm_uuids = cast(
+                    MultiModalUUIDDict | None, prompt.get("multi_modal_uuids")
+                )
+            else:
+                mm_uuids = None
+
+        # Process inputs, which includes:
+        # 1. Tokenize text prompt, with LoRA request if one exists.
+        # 2. For multimodal models with a merged preprocessor, preprocess
+        #   multimodal data and expand prompt token ids accordingly.
+        processed_inputs: ProcessorInputs = self.input_preprocessor.preprocess(
+            prompt,
+            tokenization_kwargs=tokenization_kwargs,
+            mm_uuids=mm_uuids,
+        )
+        from vllm.platforms import current_platform
+
+        current_platform.validate_request(
+            prompt=prompt,
+            params=params,
+            processed_inputs=processed_inputs,
+        )
+
+        eos_token_id = self.input_preprocessor.get_eos_token_id()
+
+        encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
+        self._validate_model_inputs(encoder_inputs, decoder_inputs)
+
+        # Mypy can be conservative for TypedDict unions; normalize access.
+        if decoder_inputs["type"] == "embeds":
+            prompt_token_ids = None
+            prompt_embeds = decoder_inputs["prompt_embeds"]
+        else:
+            prompt_token_ids = decoder_inputs["prompt_token_ids"]
+            prompt_embeds = None
+
+        sampling_params = None
+        pooling_params = None
+        if isinstance(params, SamplingParams):
+            # TODO: can we avoid cloning here in multiproc case?
+            sampling_params = params.clone()
+            # If unset max tokens, then generate up to the max_model_len.
+            if sampling_params.max_tokens is None:
+                seq_len = length_from_prompt_token_ids_or_embeds(
+                    prompt_token_ids, prompt_embeds
+                )
+                sampling_params.max_tokens = self.model_config.max_model_len - seq_len
+            sampling_params.update_from_generation_config(
+                self.generation_config_fields, eos_token_id
+            )
+            if self.tokenizer is not None:
+                sampling_params.update_from_tokenizer(self.tokenizer)
+        else:
+            pooling_params = params.clone()
+
+        # Multimodal related.
+        mm_features: list[MultiModalFeatureSpec] | None = None
+
+        if decoder_inputs["type"] == "multimodal":
+            decoder_mm_inputs = decoder_inputs["mm_kwargs"]
+            decoder_mm_positions = decoder_inputs["mm_placeholders"]
+            decoder_mm_hashes = decoder_inputs["mm_hashes"]
+
+            # Merge and flatten multimodal placeholders, hashes and inputs
+            # from dictionaries to lists, and sort them by each item's position
+            # in the input sequence.
+            sorted_mm_idxs = argsort_mm_positions(decoder_mm_positions)
+
+            mm_features = []
+            for modality, idx in sorted_mm_idxs:
+                mm_features.append(
+                    MultiModalFeatureSpec(
+                        data=decoder_mm_inputs[modality][idx],
+                        modality=modality,
+                        identifier=decoder_mm_hashes[modality][idx],
+                        mm_position=decoder_mm_positions[modality][idx],
+                    )
+                )
+
+        return EngineCoreRequest(
+            request_id=request_id,
+            prompt_token_ids=prompt_token_ids,
+            prompt_embeds=prompt_embeds,
+            mm_features=mm_features,
+            sampling_params=sampling_params,
+            pooling_params=pooling_params,
+            eos_token_id=eos_token_id,
+            arrival_time=arrival_time,
+            lora_request=lora_request,
+            cache_salt=decoder_inputs.get("cache_salt"),
+            priority=priority,
+            data_parallel_rank=data_parallel_rank,
+            trace_headers=trace_headers,
+        )
+
+    def _validate_model_inputs(
+        self, encoder_inputs: SingletonInputs | None, decoder_inputs: SingletonInputs
+    ):
+        if encoder_inputs is not None:
+            self._validate_model_input(encoder_inputs, prompt_type="encoder")
+
+        self._validate_model_input(decoder_inputs, prompt_type="decoder")
+
+    def _validate_model_input(
+        self,
+        prompt_inputs: SingletonInputs,
+        *,
+        prompt_type: Literal["encoder", "decoder"],
+    ):
+        model_config = self.model_config
+
+        prompt_ids = (
+            None
+            if prompt_inputs["type"] == "embeds"
+            else prompt_inputs["prompt_token_ids"]
+        )
+        prompt_embeds = (
+            prompt_inputs["prompt_embeds"]
+            if prompt_inputs["type"] == "embeds"
+            else None
+        )
+        prompt_len = length_from_prompt_token_ids_or_embeds(prompt_ids, prompt_embeds)
+        if not prompt_ids:
+            if prompt_type == "encoder" and model_config.is_multimodal_model:
+                pass  # Mllama may have empty encoder inputs for text-only data
+            elif prompt_inputs["type"] == "embeds":
+                pass  # Prompt embeds should not have prompt_ids.
+            else:
+                raise ValueError(f"The {prompt_type} prompt cannot be empty")
+
+        tokenizer = self.tokenizer
+        if tokenizer is not None:
+            max_input_id = max(prompt_ids or [], default=0)
+
+            # NOTE: tokenizer.max_token_id is the tokenizer’s vocab size while
+            # self.model_config.get_vocab_size() is the model’s vocab size.
+            # For Qwen3 models, the language model has extra tokens that do
+            # not exist in the tokenizer, and vice versa for multimodal
+            # placeholder tokens in some multimodal models.
+            # See https://github.com/QwenLM/Qwen3/issues/29#issuecomment-1933720399 # noqa: E501
+            # and https://github.com/vllm-project/vllm/pull/22471#discussion_r2312251421 # noqa: E501
+
+            # Here we take the max of the two to determine if a token id is
+            # truly out-of-vocabulary.
+            if max_input_id > max(
+                tokenizer.max_token_id, self.model_config.get_vocab_size() - 1
+            ):
+                raise ValueError(f"Token id {max_input_id} is out of vocabulary")
+
+        max_prompt_len = self.model_config.max_model_len
+        if prompt_len > max_prompt_len:
+            if prompt_type == "encoder" and model_config.is_multimodal_model:
+                mm_registry = self.input_preprocessor.mm_registry
+                mm_processor = mm_registry.create_processor(
+                    model_config,
+                    tokenizer=tokenizer,
+                )
+                assert isinstance(mm_processor, EncDecMultiModalProcessor)
+
+                if mm_processor.pad_dummy_encoder_prompt:
+                    return  # Skip encoder length check for Whisper
+
+            if model_config.is_multimodal_model:
+                suggestion = (
+                    "Make sure that `max_model_len` is no smaller than the "
+                    "number of text tokens plus multimodal tokens. For image "
+                    "inputs, the number of image tokens depends on the number "
+                    "of images, and possibly their aspect ratios as well."
+                )
+            else:
+                suggestion = (
+                    "Make sure that `max_model_len` is no smaller than the "
+                    "number of text tokens."
+                )
+
+            raise ValueError(
+                f"The {prompt_type} prompt (length {prompt_len}) is "
+                f"longer than the maximum model length of {max_prompt_len}. "
+                f"{suggestion}"
+            )
+
+            # TODO: Find out how many placeholder tokens are there so we can
+            # check that chunked prefill does not truncate them
+            # max_batch_len = self.scheduler_config.max_num_batched_tokens
+
+        if (
+            prompt_len == max_prompt_len
+            and prompt_type == "decoder"
+            and not model_config.is_multimodal_model
+            and self.model_config.runner_type != "pooling"
+        ):
+            suggestion = (
+                "Make sure that `max_model_len` is no smaller than the "
+                "number of text tokens (prompt + requested output tokens)."
+            )
+            raise ValueError(
+                f"The {prompt_type} prompt (length {prompt_len}) plus the number of "
+                f"requested output tokens (at least 1) is longer than the maximum "
+                f"model length of {max_prompt_len}. {suggestion}"
+            )
+
+    def stat_mm_cache(self) -> MultiModalCacheStats | None:
+        return self.input_preprocessor.stat_mm_cache()
+
+    def clear_mm_cache(self) -> None:
+        self.input_preprocessor.clear_mm_cache()
diff --git a/v1/engine/utils.py b/v1/engine/utils.py
new file mode 100644
index 0000000..d65cad7
--- /dev/null
+++ b/v1/engine/utils.py
@@ -0,0 +1,1072 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import contextlib
+import os
+import weakref
+from collections.abc import Callable, Iterator
+from dataclasses import dataclass
+from enum import Enum, auto
+from multiprocessing import Process, connection
+from multiprocessing.process import BaseProcess
+from typing import TYPE_CHECKING
+from unittest.mock import patch
+
+import msgspec
+import zmq
+
+from vllm import envs
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.ray.ray_env import get_env_vars_to_copy
+from vllm.utils.network_utils import get_open_zmq_ipc_path, zmq_socket_ctx
+from vllm.utils.system_utils import get_mp_context
+from vllm.v1.engine.coordinator import DPCoordinator
+from vllm.v1.executor import Executor
+from vllm.v1.utils import get_engine_client_zmq_addr, shutdown
+
+if TYPE_CHECKING:
+    from ray.util.placement_group import PlacementGroup
+
+logger = init_logger(__name__)
+
+STARTUP_POLL_PERIOD_MS = 10000
+
+
+class CoreEngineState(Enum):
+    NEW = auto()
+    CONNECTED = auto()
+    READY = auto()
+
+
+class CoreEngine:
+    """One per data parallel rank, used to track state during handshaking."""
+
+    def __init__(self, index: int = 0, local: bool = True):
+        self.local = local
+        self.identity = index.to_bytes(2, "little")
+
+        self.state = CoreEngineState.NEW
+
+
+@dataclass
+class EngineZmqAddresses:
+    # ZMQ input socket addresses for each front-end client (requests)
+    inputs: list[str]
+    # ZMQ output socket addresses for each front-end client (responses)
+    outputs: list[str]
+    # ZMQ input socket address of DP coordinator if applicable
+    coordinator_input: str | None = None
+    # ZMQ output socket address of DP coordinator if applicable
+    coordinator_output: str | None = None
+    # ZMQ socket for front-end to connect to DP coordinator.
+    # Not used by engine, just relayed to front-end in handshake response.
+    # Only required for external DP LB case.
+    frontend_stats_publish_address: str | None = None
+
+
+@dataclass
+class EngineHandshakeMetadata:
+    """Metadata sent to each engine process during startup handshake,
+    including addresses of the front-end ZMQ queues that they should
+    connect to.
+    """
+
+    addresses: EngineZmqAddresses
+    parallel_config: dict[str, int | str | list[int]]
+    parallel_config_hash: str | None = None
+
+
+class CoreEngineProcManager:
+    """
+    Utility class to handle creation, readiness, and shutdown
+    of background processes used by the AsyncLLM and LLMEngine.
+    """
+
+    def __init__(
+        self,
+        target_fn: Callable,
+        local_engine_count: int,
+        start_index: int,
+        local_start_index: int,
+        vllm_config: VllmConfig,
+        local_client: bool,
+        handshake_address: str,
+        executor_class: type[Executor],
+        log_stats: bool,
+        client_handshake_address: str | None = None,
+    ):
+        context = get_mp_context()
+        common_kwargs = {
+            "vllm_config": vllm_config,
+            "local_client": local_client,
+            "handshake_address": handshake_address,
+            "executor_class": executor_class,
+            "log_stats": log_stats,
+        }
+
+        if client_handshake_address:
+            common_kwargs["client_handshake_address"] = client_handshake_address
+
+        self.processes: list[BaseProcess] = []
+        local_dp_ranks = []
+        for index in range(local_engine_count):
+            local_index = local_start_index + index
+            global_index = start_index + index
+
+            # Start EngineCore in background process.
+            local_dp_ranks.append(local_index)
+            self.processes.append(
+                context.Process(
+                    target=target_fn,
+                    name=f"EngineCore_DP{global_index}",
+                    kwargs=common_kwargs
+                    | {
+                        "dp_rank": global_index,
+                        "local_dp_rank": local_index,
+                    },
+                )
+            )
+
+        self._finalizer = weakref.finalize(self, shutdown, self.processes)
+
+        data_parallel = vllm_config.parallel_config.data_parallel_size > 1
+        try:
+            for proc, local_dp_rank in zip(self.processes, local_dp_ranks):
+                # Adjust device control in DP for non-CUDA platforms
+                # as well as external and ray launchers
+                # For CUDA platforms, we use torch.cuda.set_device()
+                with (
+                    set_device_control_env_var(vllm_config, local_dp_rank)
+                    if (
+                        data_parallel
+                        and (
+                            not current_platform.is_cuda_alike()
+                            or vllm_config.parallel_config.use_ray
+                        )
+                    )
+                    else contextlib.nullcontext()
+                ):
+                    proc.start()
+        finally:
+            # Kill other procs if not all are running.
+            if self.finished_procs():
+                self.close()
+
+    def close(self):
+        """Shutdown all procs."""
+        self._finalizer()
+
+    def join_first(self):
+        """Wait for any process to exit."""
+        connection.wait(proc.sentinel for proc in self.processes)
+
+    def sentinels(self) -> list:
+        return [proc.sentinel for proc in self.processes]
+
+    def finished_procs(self) -> dict[str, int]:
+        """Returns dict of proc name -> exit code for any finished procs."""
+        return {
+            proc.name: proc.exitcode
+            for proc in self.processes
+            if proc.exitcode is not None
+        }
+
+
+@contextlib.contextmanager
+def set_device_control_env_var(
+    vllm_config: VllmConfig, local_dp_rank: int
+) -> Iterator[None]:
+    """
+    Temporarily set CUDA_VISIBLE_DEVICES or equivalent
+    for engine subprocess.
+    """
+    world_size = vllm_config.parallel_config.world_size
+    local_world_size = vllm_config.parallel_config.local_world_size
+    evar = current_platform.device_control_env_var
+
+    value = get_device_indices(evar, local_dp_rank, world_size, local_world_size)
+    with patch.dict(os.environ, values=((evar, value),)):
+        yield
+
+
+def get_device_indices(
+    device_control_env_var: str,
+    local_dp_rank: int,
+    world_size: int,
+    local_world_size: int | None = None,
+):
+    """
+    Returns a comma-separated string of device indices for the specified
+    data parallel rank.
+
+    For example, if world_size=2 and local_dp_rank=1, and there are 4 devices,
+    this will select devices 2 and 3 for local_dp_rank=1.
+    """
+    if local_world_size is None:
+        local_world_size = world_size
+    try:
+        value = ",".join(
+            str(current_platform.device_id_to_physical_device_id(i))
+            for i in range(
+                local_dp_rank * world_size,
+                local_dp_rank * world_size + local_world_size,
+            )
+        )
+    except IndexError as e:
+        raise Exception(
+            f"Error setting {device_control_env_var}: "
+            f"local range: [{local_dp_rank * world_size}, "
+            f"{(local_dp_rank + 1) * world_size}) "
+            "base value: "
+            f'"{os.getenv(device_control_env_var)}"'
+        ) from e
+    return value
+
+
+class CoreEngineActorManager:
+    """
+    Utility class to handle creation, readiness, and shutdown
+    of core engine Ray actors used by the AsyncLLM and LLMEngine.
+
+    Different from CoreEngineProcManager, this class manages
+    core engines for both local and remote nodes.
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        addresses: EngineZmqAddresses,
+        executor_class: type[Executor],
+        log_stats: bool,
+        placement_groups: list["PlacementGroup"] | None = None,
+        local_dp_ranks: list[int] | None = None,
+    ):
+        import copy
+
+        import ray
+        from ray.runtime_env import RuntimeEnv
+        from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+
+        from vllm.v1.engine.core import DPEngineCoreActor
+
+        self.local_engine_actors: list[ray.ActorHandle] = []
+        self.remote_engine_actors: list[ray.ActorHandle] = []
+
+        env_vars_list = get_env_vars_to_copy(destination="DPEngineCoreActor")
+        self.env_vars_dict = {
+            name: os.environ[name] for name in env_vars_list if name in os.environ
+        }
+        runtime_env = RuntimeEnv(env_vars=self.env_vars_dict)
+
+        self.addresses = addresses
+        self.executor_class = executor_class
+        self.log_stats = log_stats
+        dp_size = vllm_config.parallel_config.data_parallel_size
+        local_engine_count = vllm_config.parallel_config.data_parallel_size_local
+        world_size = vllm_config.parallel_config.world_size
+
+        if ray.is_initialized():
+            logger.info("Ray is already initialized. Skipping Ray initialization.")
+        else:
+            ray.init()
+
+        if placement_groups is not None:
+            assert local_dp_ranks is not None, (
+                "local_dp_ranks must be provided if placement_groups is provided"
+            )
+            assert len(placement_groups) == len(local_dp_ranks), (
+                "placement_groups and local_dp_ranks must have the same length"
+            )
+            logger.info("Using provided placement groups")
+            # TODO(rui): validate passed-in placement groups
+            self.created_placement_groups = []
+        else:
+            placement_groups, local_dp_ranks = (
+                CoreEngineActorManager.create_dp_placement_groups(vllm_config)
+            )
+            self.created_placement_groups = placement_groups
+        assert len(placement_groups) == dp_size, (
+            "Number of placement groups must match data parallel size"
+        )
+
+        self.placement_group_is_local = []
+        refs = []
+        for index, local_index, pg in zip(
+            range(dp_size), local_dp_ranks, placement_groups
+        ):
+            dp_vllm_config = copy.deepcopy(vllm_config)
+            dp_vllm_config.parallel_config.placement_group = pg
+            local_client = index < local_engine_count
+
+            # Ray XPU known issue: dpctl initializes the GPU runtime early, so
+            # setting device env vars in Ray actor's initialization method
+            # will not affect device selection. See:
+            # https://github.com/ray-project/ray/blob/master/python/ray/_private/accelerators/intel_gpu.py#L56 # noqa: E501
+            if current_platform.is_xpu():
+                device_evar = current_platform.device_control_env_var
+                device_indices = get_device_indices(
+                    device_evar, local_index, world_size
+                )
+                actor_env_vars = self.env_vars_dict.copy()
+                actor_env_vars[device_evar] = device_indices
+                runtime_env = RuntimeEnv(env_vars=actor_env_vars)
+
+            actor = (
+                ray.remote(DPEngineCoreActor)
+                .options(
+                    scheduling_strategy=PlacementGroupSchedulingStrategy(
+                        placement_group=pg,
+                        placement_group_bundle_index=world_size,
+                    ),
+                    runtime_env=runtime_env,
+                )
+                .remote(
+                    vllm_config=dp_vllm_config,
+                    executor_class=executor_class,
+                    log_stats=log_stats,
+                    local_client=local_client,
+                    addresses=addresses,
+                    dp_rank=index,
+                    local_dp_rank=local_index,
+                )
+            )
+            if local_client:
+                self.local_engine_actors.append(actor)
+            else:
+                self.remote_engine_actors.append(actor)
+            self.placement_group_is_local.append(local_client)
+            refs.append(actor.wait_for_init.remote())
+
+        ray.get(refs)
+        self.run_refs = []
+        for actor in self.local_engine_actors + self.remote_engine_actors:
+            self.run_refs.append(actor.run.remote())
+
+    @staticmethod
+    def create_dp_placement_groups(
+        vllm_config: VllmConfig,
+    ) -> tuple[list["PlacementGroup"], list[int]]:
+        """
+        Create placement groups for data parallel.
+        """
+
+        import ray
+        from ray._private.state import available_resources_per_node
+
+        logger.info("Creating placement groups for data parallel")
+        dp_master_ip = vllm_config.parallel_config.data_parallel_master_ip
+        dp_size = vllm_config.parallel_config.data_parallel_size
+        dp_size_local = vllm_config.parallel_config.data_parallel_size_local
+
+        available_resources = available_resources_per_node()
+        world_size = vllm_config.parallel_config.world_size
+        placement_groups: list[PlacementGroup] = []
+        local_dp_ranks: list[int] = []
+
+        dp_master_ip_key = f"node:{dp_master_ip}"
+        nodes = sorted(
+            available_resources.values(), key=lambda x: dp_master_ip_key not in x
+        )
+        assert len(nodes) > 0, "No nodes with resources found in Ray cluster."
+        assert dp_master_ip_key in nodes[0], (
+            "The DP master node (ip: %s) is missing or dead",
+            dp_master_ip,
+        )
+        device_str = current_platform.ray_device_key
+        n_node_devices: list[int] = [
+            int(node_resources[device_str])
+            for node_resources in nodes
+            if device_str in node_resources
+        ]
+        assert n_node_devices, f"No {device_str} found in Ray cluster."
+        max_device_per_node = max(n_node_devices)
+
+        pack_strategy = envs.VLLM_RAY_DP_PACK_STRATEGY
+        _supported_pack_strategies = ("strict", "fill", "span")
+        if pack_strategy not in _supported_pack_strategies:
+            raise ValueError(
+                f"{envs.VLLM_RAY_DP_PACK_STRATEGY} is not supported. "
+                "Make sure to set `VLLM_RAY_DP_PACK_STRATEGY` "
+                f"to one of {_supported_pack_strategies}"
+            )
+
+        all2all_backend = vllm_config.parallel_config.all2all_backend
+        if pack_strategy == "fill" and (
+            all2all_backend == "deepep_high_throughput"
+            or all2all_backend == "deepep_low_latency"
+        ):
+            raise ValueError(
+                "DeepEP kernels require EP ranks [0,7] (same for [8,15], ...) "
+                "to be on the same node, but VLLM_RAY_DP_PACK_STRATEGY=fill "
+                "does not guarantee that. "
+                "Please use VLLM_RAY_DP_PACK_STRATEGY=strict instead."
+            )
+
+        if pack_strategy in ("strict", "fill"):
+            placement_strategy = "STRICT_PACK"
+        else:
+            placement_strategy = "PACK"
+            assert world_size > max_device_per_node, (
+                f"World size {world_size} is smaller than the "
+                "maximum number of devices per node "
+                f"{max_device_per_node}. Make sure to set "
+                "`VLLM_RAY_DP_PACK_STRATEGY` to `strict` or `fill`"
+            )
+
+            # if we need multiple nodes per dp group, we require for now that
+            # available nodes are homogenous
+            assert set(n_node_devices) == {max_device_per_node}, (
+                f"Nodes are not homogenous, {nodes}"
+            )
+            assert world_size % max_device_per_node == 0, (
+                f"For multi-node data parallel groups, world_size ({world_size}) must "
+                f"be a multiple of number of devices per node ({max_device_per_node})."
+            )
+            assert len(n_node_devices) * max_device_per_node >= world_size * dp_size, (
+                f"Not enough total available nodes ({len(n_node_devices)}) "
+                f"and devices per node ({max_device_per_node}) "
+                f"to satisfy required world size {world_size} and data parallel size "
+                f"{dp_size}"
+            )
+            assert dp_size_local == 1, (
+                f"data-parallel-size-local {dp_size_local} should be set as the "
+                "default (1) for VLLM_RAY_DP_PACK_STRATEGY=span. "
+                "The actual data-parallel-size-local will be auto determined."
+            )
+
+        # bundles collected for a single DP rank from multiple nodes,
+        # for "span" pack strategy
+        collected_bundles = []
+        for node_resources in nodes:
+            node_ip_keys = [
+                key
+                for key in node_resources
+                if key != "node:__internal_head__" and key.startswith("node:")
+            ]
+            assert len(node_ip_keys) == 1, (
+                "Zero or multiple node IP keys found in node resources: %s",
+                node_ip_keys,
+            )
+            node_ip_key = node_ip_keys[0]
+            node_ip = node_ip_key.split(":")[1]
+
+            n_device_on_node = int(node_resources.get(device_str, 0))
+            if pack_strategy == "span" and n_device_on_node != 0:
+                # Strictly speaking,
+                # dp_size_available = n_device_on_node / world_size
+                # and is a fraction, but we use 1 for easier processing
+                dp_size_available = 1
+            else:
+                dp_size_available = n_device_on_node // world_size
+
+            if node_ip == dp_master_ip:
+                if dp_size_available < dp_size_local:
+                    raise ValueError(
+                        "Not enough resources to allocate %s DP ranks "
+                        "on DP master node %s, possible to fit %s DP ranks",
+                        dp_size_local,
+                        dp_master_ip,
+                        dp_size_available,
+                    )
+                dp_size_to_allocate = dp_size_local
+            elif pack_strategy == "strict":
+                if dp_size_available < dp_size_local:
+                    logger.info(
+                        "Skipping node %s as %s DP ranks could not fit, "
+                        "possible to fit %s DP ranks",
+                        node_ip,
+                        dp_size_local,
+                        dp_size_available,
+                    )
+                    continue
+                dp_size_to_allocate = dp_size_local
+            else:
+                # for "pack_strategy" in "fill" and "span"
+                # we always take everything that's available
+                dp_size_to_allocate = dp_size_available
+
+            for i in range(dp_size_to_allocate):
+                device_bundle = [{device_str: 1.0, "node:" + node_ip: 0.001}]
+                if pack_strategy == "span":
+                    collected_bundles += device_bundle * n_device_on_node
+                    assert len(collected_bundles) <= world_size, (
+                        "collected_bundles should be <= world_size, "
+                        f"but got {len(collected_bundles)=} and {world_size=}"
+                    )
+
+                    # we only create a placement group if we collected enough devices
+                    if len(collected_bundles) < world_size:
+                        continue
+
+                    bundles = collected_bundles + [{"CPU": 1.0}]
+                    collected_bundles = []
+                else:
+                    bundles = device_bundle * world_size + [{"CPU": 1.0}]
+
+                pg = ray.util.placement_group(
+                    name=f"dp_rank_{len(placement_groups)}",
+                    strategy=placement_strategy,
+                    bundles=bundles,
+                )
+                placement_groups.append(pg)
+                local_dp_ranks.append(i)
+                if len(placement_groups) == dp_size:
+                    break
+
+        if len(placement_groups) < dp_size:
+            raise ValueError(
+                f"Not enough resources to allocate {dp_size} "
+                "placement groups, only created "
+                f"{len(placement_groups)} placement groups. "
+                "Available resources: "
+                f"{available_resources}"
+            )
+        assert len(placement_groups) == dp_size, (
+            f"Created {len(placement_groups)} DP placement groups, expected {dp_size}"
+        )
+        assert len(local_dp_ranks) == dp_size, (
+            f"local_dp_ranks length {len(local_dp_ranks)} does not match "
+            f"expected {dp_size}"
+        )
+        return placement_groups, local_dp_ranks
+
+    @staticmethod
+    def add_dp_placement_groups(
+        old_vllm_config: VllmConfig, new_data_parallel_size: int
+    ) -> tuple[list["PlacementGroup"], list[int]]:
+        """
+        Add placement groups for new data parallel size.
+        """
+        import ray
+        from ray._private.state import (
+            available_resources_per_node,
+            total_resources_per_node,
+        )
+        from ray.util.state import list_nodes
+
+        old_dp_size = old_vllm_config.parallel_config.data_parallel_size
+        num_pg_to_create = new_data_parallel_size - old_dp_size
+
+        if num_pg_to_create <= 0:
+            return [], []
+
+        dp_master_ip = old_vllm_config.parallel_config.data_parallel_master_ip
+        world_size = old_vllm_config.parallel_config.world_size
+
+        nodes = list_nodes()
+        nodes = sorted(nodes, key=lambda node: node.node_ip != dp_master_ip)
+        assert nodes[0].node_ip == dp_master_ip, "The first node must be the head node"
+        assert len(nodes) == 1 or nodes[1].node_ip != dp_master_ip, (
+            "There can only be one head node"
+        )
+
+        available_resources = available_resources_per_node()
+        total_resources = total_resources_per_node()
+
+        placement_groups = []
+        local_dp_ranks = []
+        num_pg_created = 0
+
+        device_str = current_platform.ray_device_key
+        for node in nodes:
+            if num_pg_created >= num_pg_to_create:
+                break
+
+            node_ip = node.node_ip
+            node_id = node.node_id
+            available_gpus = int(available_resources[node_id][device_str])
+
+            # Get total GPUs on this node from the node's resources
+            # Ray stores node resources with node ID as key
+            total_gpus = int(total_resources[node_id][device_str])
+
+            # Calculate used GPUs and used engines on this node
+            used_gpus = max(0, total_gpus - available_gpus)
+            used_engines_on_node = used_gpus // world_size
+
+            # Calculate how many new engines this node can accommodate
+            available_engine_count = available_gpus // world_size
+
+            # Create placement groups for new engines on this node
+            for i in range(available_engine_count):
+                if num_pg_created >= num_pg_to_create:
+                    break
+
+                rank = old_dp_size + num_pg_created
+
+                # Create bundles with node constraint for master node
+                if node_ip == dp_master_ip:
+                    bundles = [
+                        {device_str: 1.0, "node:" + dp_master_ip: 0.001}
+                    ] * world_size + [{"CPU": 1.0}]
+                else:
+                    bundles = [{device_str: 1.0}] * world_size + [{"CPU": 1.0}]
+
+                pg = ray.util.placement_group(
+                    name=f"dp_rank_{rank}",
+                    strategy="STRICT_PACK",
+                    bundles=bundles,
+                )
+                placement_groups.append(pg)
+
+                # Local rank starts from the number of engines already used
+                # on this node
+                local_rank = used_engines_on_node + i
+                local_dp_ranks.append(local_rank)
+                num_pg_created += 1
+
+        return placement_groups, local_dp_ranks
+
+    def scale_up_elastic_ep(
+        self, cur_vllm_config: VllmConfig, new_data_parallel_size: int
+    ) -> None:
+        import copy
+
+        import ray
+        from ray.runtime_env import RuntimeEnv
+        from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+
+        from vllm.v1.engine.core import DPEngineCoreActor
+
+        cur_data_parallel_size = len(self.local_engine_actors) + len(
+            self.remote_engine_actors
+        )
+
+        assert new_data_parallel_size > cur_data_parallel_size, (
+            f"New data parallel size {new_data_parallel_size} must be greater "
+            f"than current data parallel size {cur_data_parallel_size} "
+            "for scale up"
+        )
+
+        placement_groups, local_dp_ranks = self.add_dp_placement_groups(
+            cur_vllm_config, new_data_parallel_size
+        )
+
+        world_size = cur_vllm_config.parallel_config.world_size
+        dp_master_ip = cur_vllm_config.parallel_config.data_parallel_master_ip
+        new_local_engines = 0
+
+        runtime_env = RuntimeEnv(
+            env_vars=self.env_vars_dict | {"VLLM_ELASTIC_EP_SCALE_UP_LAUNCH": "1"}
+        )
+        for i, (pg, local_rank) in enumerate(zip(placement_groups, local_dp_ranks)):
+            rank = cur_data_parallel_size + i
+            dp_vllm_config = copy.deepcopy(cur_vllm_config)
+            dp_vllm_config.parallel_config.data_parallel_size = new_data_parallel_size
+            dp_vllm_config.parallel_config.placement_group = pg
+
+            # Check if this placement group is on the head node
+            local_client = any(
+                bundle.get("node:" + dp_master_ip, 0) > 0 for bundle in pg.bundle_specs
+            )
+
+            if local_client:
+                new_local_engines += 1
+                # Update data_parallel_size_local
+                dp_vllm_config.parallel_config.data_parallel_size_local = (
+                    cur_vllm_config.parallel_config.data_parallel_size_local
+                    + new_local_engines
+                )
+
+            actor = (
+                ray.remote(DPEngineCoreActor)
+                .options(
+                    scheduling_strategy=PlacementGroupSchedulingStrategy(
+                        placement_group=pg,
+                        placement_group_bundle_index=world_size,
+                    ),
+                    runtime_env=runtime_env,
+                )
+                .remote(
+                    vllm_config=dp_vllm_config,
+                    executor_class=self.executor_class,
+                    log_stats=self.log_stats,
+                    local_client=local_client,
+                    addresses=self.addresses,
+                    dp_rank=rank,
+                    local_dp_rank=local_rank,
+                )
+            )
+
+            if local_client:
+                self.local_engine_actors.append(actor)
+            else:
+                self.remote_engine_actors.append(actor)
+            self.created_placement_groups.append(pg)
+            self.placement_group_is_local.append(local_client)
+
+        ray.get(
+            [
+                actor.wait_for_init.remote()
+                for actor in (
+                    self.local_engine_actors[-new_local_engines:]
+                    if new_local_engines > 0
+                    else []
+                )
+                + self.remote_engine_actors[
+                    -(len(placement_groups) - new_local_engines) :
+                ]
+            ]
+        )
+
+        actors = (
+            self.local_engine_actors[-new_local_engines:]
+            if new_local_engines > 0
+            else []
+        ) + self.remote_engine_actors[-(len(placement_groups) - new_local_engines) :]
+
+        for actor in actors:
+            self.run_refs.append(actor.run.remote())
+
+        cur_vllm_config.parallel_config.data_parallel_size = new_data_parallel_size
+        # Update old_vllm_config with new data_parallel_size_local if any new
+        # local engines were added
+        if new_local_engines > 0:
+            cur_vllm_config.parallel_config.data_parallel_size_local += (
+                new_local_engines
+            )
+
+    def scale_down_elastic_ep(
+        self, cur_data_parallel_size: int, new_data_parallel_size: int
+    ) -> None:
+        import ray
+
+        assert cur_data_parallel_size > new_data_parallel_size, (
+            f"cur_data_parallel_size {cur_data_parallel_size} must be greater "
+            f"than new_data_parallel_size {new_data_parallel_size} "
+            "for scale down"
+        )
+        for _ in range(cur_data_parallel_size - new_data_parallel_size):
+            pg = self.created_placement_groups.pop()
+            is_local = self.placement_group_is_local.pop()
+            if is_local:
+                self.local_engine_actors.pop()
+            else:
+                self.remote_engine_actors.pop()
+            ray.util.remove_placement_group(pg)
+
+    def get_run_refs(self):
+        return self.run_refs
+
+    def close(self):
+        import ray
+
+        for actor in self.local_engine_actors + self.remote_engine_actors:
+            ray.kill(actor)
+        for pg in self.created_placement_groups:
+            ray.util.remove_placement_group(pg)
+
+
+@contextlib.contextmanager
+def launch_core_engines(
+    vllm_config: VllmConfig,
+    executor_class: type[Executor],
+    log_stats: bool,
+    num_api_servers: int = 1,
+) -> Iterator[
+    tuple[
+        CoreEngineProcManager | CoreEngineActorManager | None,
+        DPCoordinator | None,
+        EngineZmqAddresses,
+    ]
+]:
+    """Launch engine and DP coordinator processes as needed."""
+
+    parallel_config = vllm_config.parallel_config
+    dp_size = parallel_config.data_parallel_size
+    local_engine_count = parallel_config.data_parallel_size_local
+    local_start_index = parallel_config.data_parallel_rank_local
+    dp_rank = parallel_config.data_parallel_rank
+    host = parallel_config.data_parallel_master_ip
+    local_engines_only = (
+        parallel_config.data_parallel_hybrid_lb
+        or parallel_config.data_parallel_external_lb
+    )
+
+    # In offline mode there is an LLM instance per DP rank and
+    # one core engine per LLM, see
+    # examples/offline_inference/data_parallel.py.
+    offline_mode = local_start_index is not None
+
+    # client_local_only = True for cases where this front-end
+    # sends requests only to colocated engines.
+    client_local_only = (
+        offline_mode or local_engines_only or (local_engine_count == dp_size)
+    )
+
+    # Set up input and output addresses.
+    addresses = EngineZmqAddresses(
+        inputs=[
+            get_engine_client_zmq_addr(client_local_only, host)
+            for _ in range(num_api_servers)
+        ],
+        outputs=[
+            get_engine_client_zmq_addr(client_local_only, host)
+            for _ in range(num_api_servers)
+        ],
+    )
+
+    # Run the DP Coordinator process with rank 0 when in
+    # online DP mode.
+    run_coordinator = dp_size > 1 and not offline_mode and dp_rank == 0
+
+    if run_coordinator:
+        coordinator = DPCoordinator(parallel_config)
+
+        addresses.coordinator_input, addresses.coordinator_output = (
+            coordinator.get_engine_socket_addresses()
+        )
+        addresses.frontend_stats_publish_address = (
+            coordinator.get_stats_publish_address()
+        )
+
+        logger.info("Started DP Coordinator process (PID: %d)", coordinator.proc.pid)
+    else:
+        coordinator = None
+
+    if parallel_config.data_parallel_backend == "ray":
+        logger.info("Starting ray-based data parallel backend")
+
+        engine_actor_manager = CoreEngineActorManager(
+            vllm_config=vllm_config,
+            addresses=addresses,
+            executor_class=executor_class,
+            log_stats=log_stats,
+        )
+
+        yield engine_actor_manager, coordinator, addresses
+        return
+
+    if offline_mode:
+        assert local_engine_count == 1
+        engines_to_handshake = [CoreEngine(index=dp_rank, local=True)]
+    elif dp_rank == 0:
+        # Rank 0 holds Coordinator, so it handshakes with all Cores
+        # in both external dplb and internal dplb mode.
+        # Note this also covers the case where we have zero local engines
+        # and rank 0 is headless.
+        engines_to_handshake = [
+            CoreEngine(index=i, local=(i < local_engine_count)) for i in range(dp_size)
+        ]
+    else:
+        # Rank > 0 handshakes with just the local cores it is managing.
+        assert local_engines_only, (
+            "Attempting to launch core_engines from dp_rank > 0, but "
+            "found internal DPLB, which is incompatible."
+        )
+        engines_to_handshake = [
+            CoreEngine(index=i, local=True)
+            for i in range(dp_rank, dp_rank + local_engine_count)
+        ]
+
+    # Whether the started engines will handshake only with co-located
+    # front-end processes. In external_dp_lb mode, ranks > 0 handshake with
+    # their co-located frontend and also the rank 0 front-end, and hence this
+    # will be False.
+    handshake_local_only = offline_mode or local_engine_count == dp_size
+
+    handshake_address = get_engine_client_zmq_addr(
+        handshake_local_only, host, parallel_config.data_parallel_rpc_port
+    )
+
+    if local_engines_only and dp_rank > 0:
+        assert not handshake_local_only
+        local_handshake_address = get_open_zmq_ipc_path()
+        client_handshake_address = local_handshake_address
+    else:
+        local_handshake_address = handshake_address
+        client_handshake_address = None
+
+    with zmq_socket_ctx(
+        local_handshake_address, zmq.ROUTER, bind=True
+    ) as handshake_socket:
+        from vllm.v1.engine.core import EngineCoreProc
+
+        # Start local engines.
+        if local_engine_count:
+            local_engine_manager = CoreEngineProcManager(
+                EngineCoreProc.run_engine_core,
+                vllm_config=vllm_config,
+                executor_class=executor_class,
+                log_stats=log_stats,
+                handshake_address=handshake_address,
+                client_handshake_address=client_handshake_address,
+                local_client=True,
+                local_engine_count=local_engine_count,
+                start_index=dp_rank,
+                local_start_index=local_start_index or 0,
+            )
+        else:
+            local_engine_manager = None
+
+        yield local_engine_manager, coordinator, addresses
+
+        # Now wait for engines to start.
+        wait_for_engine_startup(
+            handshake_socket,
+            addresses,
+            engines_to_handshake,
+            parallel_config,
+            vllm_config.cache_config,
+            local_engine_manager,
+            coordinator.proc if coordinator else None,
+        )
+
+
+def wait_for_engine_startup(
+    handshake_socket: zmq.Socket,
+    addresses: EngineZmqAddresses,
+    core_engines: list[CoreEngine],
+    parallel_config: ParallelConfig,
+    cache_config: CacheConfig,
+    proc_manager: CoreEngineProcManager | None,
+    coord_process: Process | None,
+):
+    # Wait for engine core process(es) to send ready messages.
+    local_count = parallel_config.data_parallel_size_local
+    remote_count = len(core_engines) - local_count
+    # [local, remote] counts
+    conn_pending, start_pending = [local_count, remote_count], [0, 0]
+    poller = zmq.Poller()
+    poller.register(handshake_socket, zmq.POLLIN)
+
+    remote_should_be_headless = (
+        not parallel_config.data_parallel_hybrid_lb
+        and not parallel_config.data_parallel_external_lb
+    )
+
+    if proc_manager is not None:
+        for sentinel in proc_manager.sentinels():
+            poller.register(sentinel, zmq.POLLIN)
+    if coord_process is not None:
+        poller.register(coord_process.sentinel, zmq.POLLIN)
+    while any(conn_pending) or any(start_pending):
+        events = poller.poll(STARTUP_POLL_PERIOD_MS)
+        if not events:
+            if any(conn_pending):
+                logger.debug(
+                    "Waiting for %d local, %d remote core engine proc(s) to connect.",
+                    *conn_pending,
+                )
+            if any(start_pending):
+                logger.debug(
+                    "Waiting for %d local, %d remote core engine proc(s) to start.",
+                    *start_pending,
+                )
+            continue
+        if len(events) > 1 or events[0][0] != handshake_socket:
+            # One of the local core processes exited.
+            finished = proc_manager.finished_procs() if proc_manager else {}
+            if coord_process is not None and coord_process.exitcode is not None:
+                finished[coord_process.name] = coord_process.exitcode
+            raise RuntimeError(
+                "Engine core initialization failed. "
+                "See root cause above. "
+                f"Failed core proc(s): {finished}"
+            )
+
+        # Receive HELLO and READY messages from the input socket.
+        eng_identity, ready_msg_bytes = handshake_socket.recv_multipart()
+        eng_index = int.from_bytes(eng_identity, "little")
+        engine = next((e for e in core_engines if e.identity == eng_identity), None)
+        if engine is None:
+            raise RuntimeError(
+                f"Message from engine with unexpected data parallel rank: {eng_index}"
+            )
+        msg = msgspec.msgpack.decode(ready_msg_bytes)
+        status, local, headless = msg["status"], msg["local"], msg["headless"]
+        if local != engine.local:
+            raise RuntimeError(
+                f"{status} message from "
+                f"{'local' if local else 'remote'} "
+                f"engine {eng_index}, expected it to be "
+                f"{'local' if engine.local else 'remote'}"
+            )
+
+        # Remote engines must be headless iff we aren't in hybrid dp lb mode.
+        if not local and headless != remote_should_be_headless:
+            if headless:
+                raise RuntimeError(
+                    f"Remote engine {eng_index} must not use "
+                    f"--headless in external or hybrid dp lb "
+                    f"mode"
+                )
+            else:
+                raise RuntimeError(
+                    f"Remote engine {eng_index} must use "
+                    f"--headless unless in external or hybrid "
+                    f"dp lb mode"
+                )
+
+        if status == "HELLO" and engine.state == CoreEngineState.NEW:
+            # Send init message with DP config info and config hash.
+            # The config hash ensures all DP workers have compatible configs.
+            init_message = msgspec.msgpack.encode(
+                EngineHandshakeMetadata(
+                    addresses=addresses,
+                    parallel_config={
+                        k: getattr(parallel_config, k)
+                        for k in (
+                            "data_parallel_master_ip",
+                            "data_parallel_master_port",
+                            "_data_parallel_master_port_list",
+                            "data_parallel_size",
+                        )
+                    },
+                    parallel_config_hash=parallel_config.compute_hash()
+                    if parallel_config.data_parallel_size > 1
+                    else None,
+                )
+            )
+            handshake_socket.send_multipart((eng_identity, init_message), copy=False)
+            conn_pending[0 if local else 1] -= 1
+            start_pending[0 if local else 1] += 1
+            engine.state = CoreEngineState.CONNECTED
+        elif status == "READY" and engine.state == CoreEngineState.CONNECTED:
+            # Setup KV cache config with initialization state from
+            # engine core process. Sum values from all engines in DP case.
+            num_gpu_blocks = cache_config.num_gpu_blocks or 0
+            num_gpu_blocks += msg["num_gpu_blocks"]
+            cache_config.num_gpu_blocks = num_gpu_blocks
+
+            # In external DP LB mode, the coordinator address that the
+            # front-end procs connect to is obtained from rank 0 via
+            # one of the engine handshakes, and passed to the local
+            # front-end process in the response from the other.
+            if addresses.frontend_stats_publish_address is None:
+                addresses.frontend_stats_publish_address = msg.get("dp_stats_address")
+
+            # Validate config hash consistency across DP workers
+            if parallel_config.data_parallel_size > 1:
+                worker_config_hash = msg.get("parallel_config_hash")
+                expected_hash = parallel_config.compute_hash()
+                if worker_config_hash != expected_hash:
+                    raise RuntimeError(
+                        f"Configuration mismatch detected for engine "
+                        f"{eng_index}. All DP workers must have identical "
+                        f"configurations for parameters that affect collective "
+                        f"communication (e.g., enable_eplb, "
+                        f"eplb_config.log_balancedness). "
+                        f"Worker hash: {worker_config_hash}, "
+                        f"Expected hash: {expected_hash}. "
+                        f"Please ensure all workers are started with the same "
+                        f"command-line arguments."
+                    )
+
+            start_pending[0 if local else 1] -= 1
+            engine.state = CoreEngineState.READY
+        else:
+            raise RuntimeError(
+                f"Unexpected {status} message for "
+                f"{'local' if local else 'remote'} engine "
+                f"{eng_index} in {engine.state} state."
+            )
+
+        logger.debug(
+            "%s from %s core engine process %s.",
+            status,
+            "local" if local else "remote",
+            eng_index,
+        )
diff --git a/v1/executor/__init__.py b/v1/executor/__init__.py
new file mode 100644
index 0000000..30d52c7
--- /dev/null
+++ b/v1/executor/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from .abstract import Executor
+from .uniproc_executor import UniProcExecutor
+
+__all__ = ["Executor", "UniProcExecutor"]
diff --git a/v1/executor/__pycache__/__init__.cpython-312.pyc b/v1/executor/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..469f0d0da53fa548e911dd8187d60bc062955c98
GIT binary patch
literal 302
zcmX@j%ge<81UW3-nU8@q2*Uvrl=WE!$e7NM!jQt4!;s4u#mER^GvzSlGDk53*~}>{
z=}b{9m8_a<FBySKH5qSlxK^YlmzLxg0onYad6@x4`N=S$B4(hPA{HRwr^$MYBQdGC
zq$n}D1T1_@pfoSD0H`=V6>0!j;Vt&~_{5x?`1q9!pMm-qemUru<QC``WESX_Bo?Ko
zmgrWLnp;|Ao2TmMWG3ksRF-7q=joT_<mBp?8S2A~(vOeN%*!l^kJl@xyv1RYo1ape
tlWJGQ4Kxts>|zNZ@qw9<k?|`V1Ec(12HgkTq8G$9E^ui!vKMgzB>`1QP{05H

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/abstract.cpython-312.pyc b/v1/executor/__pycache__/abstract.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..31d0227ae716357fd08f6df7bd8101797dc4462b
GIT binary patch
literal 16251
zcmch8Yit}>mR|Lf-DH!^Hz_`g50RoCO+6`zrfpH89@K-DDca-hS)*0#DvB-jgT7TQ
zo4wRRJL5&<%_J))K+MTv778ZGQm_*!$Rw)?7KpJ(fCZ8O-KHEewK7J7OcE^eBP~(>
zvp|4+=hmaENlKQJMM~oB`#ATWbI(2ZoO92u`VZCBl>(lm_ircu?IA(<uT-!epPAX1
zcL~C0f-K0cq!6WFchZ$|N8Kq;)Z?PEC+SW3qCTGYCjF_3Xa&#vl7Un(8svF@vNBZ_
ztxAQWp;UFWI#m;`;q?{CaH=+1%kzO`U8+7>&-1}#L#i>_$n%xSrc`sZndhsLEveRM
zE6<0LJ5p`YHlD9ewx>Fx9Xwx?>`Zk<yHefJZe9*2#Z*tUhv#dPy{W!vU#dUa&&zem
zovDH7Kx!~L$jkM~U8$kykV{aim>+X%NbXMUiSBU;Zb4~Q_I?gt&=cK<a<$xOmm`Yr
z8aOoP-a)OyZsDvTH+?L~&5HYT5APyG_hY=4<bl+|=pl})75T%_BfxbedRRFWJ-Fx^
z+VNKeJT>IjJ>w@&={3@<sxc|9r4(&GBM-Usz$q!2lxC9(^8PbfEz2kuj!W@*MUE}7
z%!0zS#UZa=J@Z?aPsdK3JALZH<kVTc;$lKmn3U8jW)>HecO|9=GB*{L%t$n9<-5sb
z>Qp8@m$-&f{e^em%4!Q)ZT#9brd*S>3`1?lg?9mwR^lk0lhU#}FWpcsDViipnuPYM
zL^`3xl9_AQ6aufhn3*1*RzAoos)l0qmF&VohG~jCBdIq~(ZUoplf0?KGPBoXvx~70
zvQjcFr4&rP`Ye-DDTx_G=;13gw`@`|E6}-fT8VRNG5v`ISd^H}VrUB;h5)g|5@Sw!
zm07&9pu`Em1e4~pnam9(Jt?bt-KC7IB&V~OTnR<x4>IhA!cIymXRu@PRHeIP({W>6
zjkMM*Y}9yZyC_1`B@0paI}nPfM|MZOicj&&o-u%-RKZJLDk%ZkrvzocQYi~0Jab;T
z;$!dU=5Wy}qg4)|KKQXW8iLrpAy+yeYUC;<tkhCp+0WrZfUA?MmHIiiT!VZAMh`2E
zd~~-QMokm1X;xa4RzqaXwpz69P}+im@lSqJt^-WF(s9kDbQ+Mk3gD?%y5s=QH7MP3
zqta}aniNsyTY!(>$wv*z%^&;h`SdtOKk<JtdW$hnr57{e<C{2I%WzZ&1<>B4_`rc3
z&K7gtjY?nHyxTDEexghsm)n({=vkV_fHAi@zue&%X^=yow4qCMned!0zuf8U;~3uu
zN=!)1#nFej3S3<u`=SPpak*RBwGDp<03|v`A2KN_hj!3qQq<$@!zpt1_%6D7LDvu@
zun!#DjXCTwx#O1mQL|Ushq^{^eWyc0Bl1akfUm_MdJmIq$*1I9N{c*%KSPdoD~)E(
z4;c=~djPqg%lcl&NC$v<AMhNMC*%lz4=IO%uUk1H4;$+V%=;biBk}>|C?I^;JqH1Q
zOg;oWM)@$x#~tM(D37A;HG8Lwpk@phkK*@r`LukD&+IrTdqX}Wk3s?s?(!J`^J{2%
zQyx=JnEUW`^c!Cc44u^jr$18SSt!oje;hY8x;P6pBF2-Fs)}<NCf>Yw@sg;RU}~hd
zvQoq|p0?}6gepR3E@aYb0{WkKGT;;GYoa!<h$&KIVkV9MkYD9yBChP^qhR=iCdQ?-
zIID<~D3>&5X>@H~GC+(mmGTi&*`$_O09IpIHNwX|qX)98qQ;oCs8^|mf>&b;3wqT}
z*prx{qIEx0V5ZV>({^&rM&1S4#f^L1yI2yg^Xl^CmTSp%-CbTsrCV;z@=k;$x8}DX
zJ~v@mpBA+0(9V4vDqHPpSgW?$W!IAXkD!u&=CN$~k5F^Vv*fvgv1QMVU4p<WWv}c@
zR-^*Aye?tMYq$FC){0~>Re1|O(2~z?4cM*0Bs`y6ezf}S)=J(Q(Aq3YjFz&Qby#f{
z<!rCkZPhKgEsAe>9P{;j=X^a|=8L&%J=VB#6>;Qe_UJ!y4TYw1;|`&TSz;QSmEy3W
zvY5)Mnju?icGi&T%$#`Il;((dHlvBUE24WKDU4PLHoSRST6EZM3s`rj7SLLEiAx;I
z#O(%8Hl4T+U+0~4;<B^8PWcF~O<GFEl2SGeqt9{!@1$>}Gash67j={BQE{kF4=+gY
zijqpwlGcuwO;oQ;sEM?yN$I$vdo_4cRAbGVbzx?DkQ}VjjAfYKN!uWD^FYL6SOoL8
zxyJ?wyl)GPvDYxe5+sCB(0jH(f+6tu9B_LGuEXNk4-(q^X_Ge>P1fihcuTCF;40sh
zl39b&p$bOp&-PIgp~f1E<QQL0PAela7~xQ1qy*AWc>emtu$EdFUPvtL(<F9H(e{0m
zJ$n4ujibtNGBG>6un5mJJxsI@-#jpE4LfXkwvmNJJ&0Zgo?N{}e8jFJqSU?66Ssw;
zUuYj#YdcbCJ8~zyJ~*;Ac%?9SB_HVjO;uCA`QR@m9#tKG+|Zft8vV0#j~Y%tZtgC+
zT}?aJcaG=#Pkz}`^thT%yEZ(YminULsjDvrgs#y$Q^jLKZC5_fSv)G#>|S~2tLlT_
zgf2emJcO40X3H?O%zRaS;G58;C!G<r>@r&hOMNDvbnZoqXts2tCBN^)SJfw;`wcv;
zM$7XSp{6z8diWRdN7bW`I}hiNyuI2veP;@kFQ>nlf7EcaMEIe6|KSJYMEFq$-L>XG
z6+%Pjdi}Bd@ptma-p$wkV8i2Xs3{8W>Y5EOO_+*1wI}7d&i!LU=em}J7(wx8drb=n
zz}gUSZ8txFuyJ4vTNjt$06|#!1Bif?FZ}|-9vKj}zAl3(X?)l9P^rbrVGJ8L#;CFC
zOTU01spStKEQj5y!Y?3f>HtBTWYYtPl4TLDH*IQ0(Q<Tg!Xy4xSr8g|U;MEk&|0!W
zgxjWhQ5bShof!)AJ*kJdS+~?vh@bSVQdKg;Bu7D#%>v)adaY`moGh4X!+u-EdKCwv
zY*Nw^IEb0%x-m1WD(t2-n@A?KMXR<Z#*cT__Qh#Wjj2gRS%C8aouX)ZwN;F1(lu3Y
zym2#@;it%$R60hwb+4)<=lIN25*$%vqxjJSF#|y?S7&PgtLg^;P#++H0tg5lgLk}-
z0<G&EgKHg!3mu24v}02VN}~N>q5Yr%SzhYiz1BTi=pLoEj&*U*nmASv$Eeh~-nnb7
zbEMEYLZ!C#-hFGmCknkMsMNjQKfKmIQRttbQqOuIv=(SD1lp-ryGV7dj|X@EJZtoP
z^VA*h*MS~J2fQ-BhjtU+gS6P62^v!4`H}0sYYNt_VJf3drr>F%lr&DX+>YFLu?v7w
zsk6Z@b_Us8ONmoui$lJYN|JnA_)Seu-lRjX#fmtkM=jG1v;#S1Q^<S<dAx4#d{meZ
zWZE_7`oeAbBk*XphqJvYm$2v^^5qt|zewg{5>bMLluYCd5A(vi@Jk`3s)&#RT!?Fl
zw8Qf>#4Q1rHkrvRi0~=k=h{PM(=s9$i{$=($PeqLTS{p3W@3qfC^pA3mNyC(dts$i
zy)~XmEhLhNKd{(`5=+Ih3o*XaXccPW8TbTozAe}SLI!*R*fiMSlv*}}id?t74BMkj
zQ?ETpAikACu-Xuue8=JZ*v0&7Q+X1iw`_sRcZ_@;ILakQ55(b`khfB{QW(itDO$46
z1VoM8xf?c9roloL{*Wk%bMS^VVxE>E=ZpqZWHG^+SaSSH&KTG)B65_H(kR+v%}HR8
zEW+Q>6vN{u)=u4reli#m1qDuq=sOTE;^<@47tt9=oH2!5ug#_x!rY|cNJ*QV+PZ&8
zLb;UoBlBV@{oIt@E2K&FHd(<GQ;D<^lWu}63ZKPNN-Dz^*?Sm=y^X}VyT~l&`fPe%
z-2E1HY(#QfSPwU>g?kI(-hAJitKk#*z=^*h>g&i6vbQcN>}`qG>$kwExpsRFTN`h0
zOZ&)b_-NjeKfe)n)GM?^N`W$G@1l?Hzk&UN9TZGw(y`fO2I6U(UbNH0m#8G3(sAT%
zsWNE7K{PE+Up~dfk`AqqlhQV}fyaSq)Gm?u88nTGQwSEC8o}&mHj%h1{OF<V6>;>H
zI0{;HXb-6*-82|II9J2q8LC3&YDmQ<pivwoIR=dwM{}dIkxm+W${>vfEaBWsM{jjL
zlTBjmcwAY~XyTGALpx<~XepZ;jdqm`<W&(Y&XNs4{}MP+K_`8yQ56>uKcG#W7O&Ex
zT-`Dpsnx5-id~I}Gw8etf%stpoQHm(fek$>A|?y%SK9JKmnj3I;w9;$L@Jx&6@*x&
zSgfoPZ68XQEJZU6{$qj>aau|sMj%RCDEr~n8AGhNk-Pf-58o#-FwsQBt5XPLT*aD7
zY1J4w0ewG5I#x+8meWR49~CcWRFkO=27xN#k;OT4g2qaf4`MKBRJ@=p0t%~Tt^n`*
zieuPYVpN1oT%BQA<?3F9Z72XjQjvsmB%w7T_bS*2T`kE}MZAM4+rlPdCoK(PKR6P@
z#Muzj#<1nvW8A=jCDA1C$_x#eokg;Qq5^|!uC!w`I37y*P?MSwbAqLWB+3voFcSeE
zkOL7PzdT9hOggz}aF|fC3@%#~Rh6zOsu6o4(V>Ur5N@KFT@dNQVBbO#wnn6(af*$@
z12yav=Q9D6)@F+RHdM-ezhQFX$TOJ|QbtUnWDbc+I*4O3U8LVa+2JCUTl61O55q+&
zo^-(|b7ejAQbi^(a*a4KY@YgmFO2_`dYHDY-a=T0?<KyWf%z>$|NSxl3v}C{L)C5J
zc|d@H+Riccpq>6U`jNb<VePZ5ighm(o3}28U|)@!p>2&7O94x6?-uLyl5zeNJ=A6-
zJPJ_TXc^mctKrFfVA61y90wlb>=CCqIUhbpFKXa8ITrN3$B-`a)eLbWK!}rZI;l48
ziQysUnr*_%>i-N~Hq0ds*h~D16tD&KR-IVc2dH@wu0KZ`W0deSh7*Y$TOC33i<go-
z`6V}ed9yFYA7u|6Q{gpvr#SZeZey3x2IFx%zM4bcP0Z5$2DepWEbT$gwU^TW7l2gv
zBjL+g-@I1WU#RO}54Gp}4&{4~e7U3O5$bnt2=4mIJAQ<HYMbv$pDgABt;RyvTr;i+
z%_HXbUFHvIJ~XK^hT{k;(a|fW(aoUhV0~GAo;q*OdbE`JJ`M?Ei<{B09BN*K<UgbB
z1xWse)|areEG2XfFI!lfJ?ti$Hm&N*sD4b~!$>x->b*Dey@wtyzI0K`4$35y^tUm9
z<i$e#x#{TRn8{uJ25Upg*;Hx~@o6nSzr6<fU5uNvL#1YfR*5<K{RR+f9TGVA)^R`I
zap3E~L1WK3&&M{okyj#@ZZ?dIQtUO)l-{V}E<GmGt+XM0v4pIa)&<*;0szKpIHD%(
zHfnR7wl>;sl>Y$`wG#<uF|d1W;CNx+cz*Qq>cHD~{OjQ+=dLPS0Q4vmWt=jn{)(n-
z7{E<OCcQZ&eMGUMc$P7Etp?{6)p0o99^ijsM3p4^w(uleYi#ZS#g-6D*2<2(UW=f;
z$h=r0HU}sm7hrG&;^cEU%(8dT*^qUUr@xO1=Mk3uEmY)cZJwGP{}+L^AaMx8^5n{U
zD;IEn|2lBYpxnD4Y4boPX>=o@2WZYJLLG4;-g?OG;G%sJnHNt)BN+ZHK~FDvN}Bo$
zPbvO_>3OI0dR0OI4{u~Jcxl8tO&RjAJLt_mq2v#cAc~~m2S<1EjC8M@h-;Q6FNfT;
z;eP^f$4PQ4s%HRDX`f=(hwK2ydPscS(6T(Ua`fSQj~dPteL}F~Tfq~o+`4;S;`t1@
za+godEAbofl{W=0;DgR9Qc{~=jF7XP&d^!OK5H>LcEIbjy=CPiI(*TQgmFh|vjm3_
zg^J&Z8AIlpYyogq|8Go^-Jpb9-EB3%D=RGbkSEuCWj?FPbW=qxzM;G_ETRWgvwmuO
z?e+ISgCkOEL3==vTFY1BiKViZ&wm{lH0UMOVLkSCnnevFk@j4+yK#jC3fG-7Y>u*B
zyx)>dM6~T5JVw<riKCmi_1&VWAs?eixL#w$>5P|*j2Lz$&SFW(G<Fd?4=6MAqz9pF
z3^?cR)pyYOkisQfV$Y5M)C*zo;+iGNzv&-Y>pxxSKfNAmx~r|V>?ySDS!)?7w2a`A
zWoKn6z8fi1oBxl7pn*JU^ClfTS;M<h4m-ep4-6=qZg>-HuGN;?O)b?lHM%@5GtK#(
zqpNkVZLtJ;h+ix)<MpjFHSEU_TzkzU1MTIaX!GVrcHNi&x{C9-S^wN@{E^F{(S+-y
z^EW-RhbwQdB|(;PhmG`2aclV3-JGsO>Bbo^s6pA$2^mq9{n$8&tl%XyCUH$a<k5{Q
zk_1drLe@Qq=y3ICN)h`bkl<t}`(so%HkLJ7199&-+9=T1z7`%Vga=o8z6$Tj2d47-
zrdE-L_dE{Q-#xt6Fi>b1xR-m_@i3fk7+7s6JD^mU^l#5n3MUgwU%)=lU_982wsElP
z@K)A$vXA`?(0Ua^=o99`<`UeCduZT{L7uxB{|FUjjQKe#a*eihImT!q-W)(P@uqpX
z?hk$^A9y|A@%n1u^*g`g<jJjvXCIDoo}5_?pUnr(Zq-V*bp8KfMF7`VB|fl!OkDUU
zn`izfH1pD}l+~sERi~YM*z&NFPy5trcp@K|*lIkyK*2W^1=L^c5?C98+{X#wefXxg
z+;9y{SCYR_;`&Jlo6b|(bY7At{!Si0*6EcLg5q;F6iaS!ycBq~0+sV{C%8qz!AB7<
zzBN6rMhvgXI49FBo~G(9we0-F?h~gPY#AwG!i%_q`WjjxBHev!-3JTZ2Oo^BcH?U8
zFYB7_jITE|E_;{X{%OVEAIpc%=X=hthR)v|qtin3lW@b`@lQUyQ?r$8#4*mb?`3lL
zOe++JB74i<wAhDRA1P_vLQy!=86DGW5IBQIPT~59ZmC{ijsF?VyL1~@-e)Jx9ZQ9|
z+cr7hvG?o1K0YJemsD;l$?X*aUQ#y10o^x0tXZ?|`L^2BWr+(Njx>r(@MpUlcuQO$
zPQvvn3$pYpyGw6OExF)-f-ZW#uywWTRWW#Eyka;HJf+)sxdJ6)K%|aY5!W_7a$w1`
z<jx_SWmyS+^b1avjzK*Bo`hYH7e(t%I->h{cF4v4IYwlE2Z>(sp^~^Z4>=B4*DEu*
zegr+WOy-8TGcq#g3~kTRWq`y7i3|nVSsK7^yzPvEBu1fDyb^?nwjRPw+8ho;S-M%{
zT9y4>LOMx(yovN&#`3#~7QK!-#by-*df~&<ow{Djt8f}rm{GIIC4Yc^xf*+;nNx$D
z(Ww@DtSY=#)&5mg`{PjkA5MKTm2V$?6nbqvRR6d`T<h3Z=-9W~F`UP(x$PsK{bJ%l
z_R-$g`DNrAkK4P~+V>XP_pY`_5OP`X8eD11ck-L|w)OUI<F-3c^M_TRRIP^&<_}Ng
z&%ReU{NA@7x9Q!35qJk+dzl`C)N&OEQa3;9_mb%)7dyrkA--MUicr|jAHC^PT|cRJ
zNY!?p2dU9*dt1>lmq2pn6-sZ~ZTFsvy^lN?jeOcokL=OHRu%S<*WO3Ik~F^}2CrjA
z+wBwol6T2N`((-WdoU5{s_&W~xY@_KiC_WO17wRgJ=YsHRiIdU578z3q}wZ`+qTDa
z{iScqY~M!>l<S5?3iAY}ayu;1r@fAYUumD`dS;|+;!d0vjRv}(GG9{>NhZ-m+ZEB4
zEM7BY{{|D_${@GvMH`=h>DI#R9XT^p#dkmZm(=$cl+eaz|B8}-O$nW^jUE4|$kF?+
z<ZtP|cv6uV4m%g9oiOVj464^V_dj9FE|@yOPyj|150X%9)eNpuu-Or&FsC#^#s;EF
zN`Nk;yT1x|+e%>MQRpa?z<;R<|7A=2UC(+$^Rm3wwZG7{|Eq@mj~m-QoBDKWz4f(+
zSHA3DJ2_K0IrH4(Zfbt&7n<6ORYGgW^N`ThyVe;gbVgP?_vi73jIBQ=zmOk#zsQ*C
zqg=~8wlu}adZ;rm9xQ|ot~a*k8~Z<*Sm|HeJyzH~_PoLytbAH2glY}S5Z<rtE!6g|
z)eaSEhgSN&u8lnPfC2=9tLxT6U4>BBTByGe>VFg(;PZql-m~7_e`n(BPzT(G+Frx9
z)-v-uk=S-e88Twrf2cvG{AHZdg^P7k_;bKG9b&zeDRhoBUommKHJa<Oq%-m&khf`>
zus5+xcsH<gB?Dx=sGXwt`)^a`jGdbqa-A7+%^(VgR`w6j$l56};9cy;RG30Cbdp}C
zqEBgJF}*TIR~Gno2Ki9T{>TQUidam>tD`YSXF}aOo5>{ga4aUJv7PvBoQgJ)+Cmgh
zO2myTQ%3LJF$&x>^5@t^O1zYuL85!f=VQ%OCJ$Z@pD|toIR)!UFS4-rsn&zz7$b{s
z?2@CDqu3gorG)$sMoOBsQPP1#_s!u;B~ABfS;XgAkm~s^BOS$P`S^_zYoy!`N<N^3
zv=xuCGqQ`Um6F>?^Z=rI{6i`BG1XDXk5QP5-KB(rE9^5$$Z2AvUD-dRgd!{agvfqQ
zxj&)g93|xVGV%f$S!PCilaab(|Bez`NiL7ZwMZ8gDe1$X`Z<{Q`@&PV*B3zWthxR6
zxjXWzw{5+(^Y(?ijjP_yC%(F(d(hXloGS|WS&<)%79wvvqx^<P@YnOk;<T&IH{p8H
z)LryZ1{<ZaW}|{<2LylPGq=mvOW=)oA=cMh^!t6s9%v6Q6^@=S3dsM3wn0C|TA#1_
z!SIHFpJI*6H||=Qc+hZvazmhe(eLsdyEn1YxDtQxT0ZhdVd%|5{|Rb427LY+yqwpw
zbG;e<LhpM2(9>$sSN){6;qLss%H^e%>3sKap?QCyc7M@_26U)zS#JEaqgX*D+)FkV
zgOsZj>JV@Fw5nJ|rI66rzI^1<H;Ob^u?Ca6Gy6&FvoK0Do0_7V>L*;Au=fo<tq!~h
zI~p9=sbpZMTnRgsIQGMzzFwrk2z%{a@7?K71BKv@XJJ&CBv4}`So`GS+fO|nU+?<q
z$!GLy@*BBgrN?*P^(0t*N4|RqZ~o>R4i{>U6oMlgK5773f6bFi)6~0qT^ug*-?39)
zp8n+&&p!#aEzcB!J<kAcVMWg9ck%L;eiOgEWcCZ^YkTfZ6l!-Bf<v2ohlB~&r0c22
z@7uwV((l-bB9$$K_s-<^j6Ku}drsla$3k#o!-vLVEs=Zq9RqFGo)x*!b<m*s%`;zS
zfBCx>&6^SOX})!3`+nLlZ#if#1ba944hd&n7fo_)q(t+Zr@ou!jarxQP|@%9?YNhE
zAQuKkakYq<1h@>je03|HXOQDMb48JR3SmEf&r8yM9D>l@hlA_WV9;0jq^7Ru!!OAY
zNorfMf=U4a=G6P??jpfpVX*zGDA&w)Uzs#)RJwh;HUeI>h6I08(d_|MP4{j+i0227
z7kWmY38)}SjHV*M&%5sZ5bt&4_rVNN4w(tKedk>F4pHqn*UDk4J;!TLyY6|Y_OxpS
z<kN2vxLTG^-ShnP+=hVcM#$}pJPlO&Dwhv!2>5y0w!^n`dE#EfPbXKrg^s-&0?Ne^
zl4bFAT9sbN?sEvAVOP2Kg7-8+nrt_cp%L!>Aig#mXJk^jNx)~R=4+JrW+_5Vq}BEM
z(lt?Jj(@?bGScIEkiW19L!@%WtNZbR1x{5gKm&4}PbQPw2jdH)2u8vutK25({1bzS
z!wyGqs>8>#X?0Fvl(z%Mk*t;g4)V|S1N@_kSL%iDIOv-#Zf;Ec#`%wtPp{YUktnDJ
zv(G<!<@Q3a<n=}*mrRM?!Yeopkwl6<ij5fr)l=&Z-U?iC90w!(1@4Fu%QnmznK-@1
z0#ed=VOHU`MsKq!t<x;tsKx<uPKqmrMJ5xghb<`c%HFVwWHU<x7%xdhj2~R(VbWxZ
z^$73#O3dP&xP$WV(bMpi$&$1GL<u*6M<_=kq<6+Fk7>J4R`?eudTngecR!oVsva0K
zJe@b#f5({Q+o_)-!KV{0*M?tkg?=UUeIxXLBkaWgUkPKY!q|TkdcP5-zID4@?r#Bs
zwjmDj+OLF(Z-isN62<}djd0-Cp4xA`Q@;*2-hFR1*mc|gYhUQj%#Yu{?S4|<wtR3|
sTRv8(@4p>>?*G8+>b;{r7wGrf`5+$`3DiMD-|g^v_gF#b;GV$$0cM?tX#fBK

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/multiproc_executor.cpython-312.pyc b/v1/executor/__pycache__/multiproc_executor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc10bde92aa758b70a7cae640188cc42527d1ced
GIT binary patch
literal 36691
zcmd75d3+n!ohMkhPZA&rUf>1Zf=GcBb)OU^lGaIGln=xS8X`c66adl%P%;@Xmfgyj
z)Tr0eCK=HkC#Jj89r+VaH@)5avHa=u#?EGTGQBgiD3J=_GTos+?f&fMkDaBCtdGp>
z?DzMo3IHL<NqTnYGbQoi)vI^aJAUtX*Z*2jVCHazwEui${GV~$KhTYG>Ey_RDK*F4
z<N{nk72>?ouga@p_iC@2{c5}#_N(=3*{{y4W50T@p8XoU2KH<88u6<RnZjnTSw(ee
zLYA=AYYi883)sCjR2a5-ZDG6D&hB-gqHwXdn8o#>lCZ<;U~xmJG+gE_3zvJ#*}XAT
z5w7%BhMis~yElcZ!qwht7B`1#!nNL77Po}z!Y*$;i(5mwaD%sj#S21>;U;fWxY^sx
z?p2`{Zwu>ltGAW?t_!=pZuYD&v_9PCZDVm;s6D*FyCLlHdf2@^)DiCVc7`{4H?sSp
zP*-@9cN2>jhc<_|c(;VNdbftRdAEhPd$)&ocz1+%dUvwtC82fUUEW<R?g;G;@A2+o
z@zT)VaJRQRywAHY+~e(GX=S1P;RD_S;a+cVxX;@c?)Uby^zzUX;e+0T;X~d-?7kv&
zIDEu=Bz)9+l-*Z`j)e!j1L5P|<KYwD6D-XcIvGCYJ*DE*TyRhD^p8~1%zFpb+!I`&
z>IxUA4%&XCkyFpG)EcDL29KmupA0%!dL7bTKf;Qk>qpWL=Y2|kT92m<k34;vm2AYb
zCgqv;nLzUu&g-32xm$ikwG6mbqAn18ZX)Pbi^c=~P{@Ba6cml8DJe2Usrvqj*aROG
ziw;FD`a>gu(=mT6*vIo@JjxoQ6XWB2Fd9YN6!6FVLm@wI)S|X8G7%QF{)yNa?rcN;
zq4U9jZ=4?+5Av}|(J=1kV<Y|$ikT0LMIynW*vMD}cb5JBXz&C-HYC-lJvugY0m=Ho
z^L)@BKvkNa$fT$p@<(G-_Q_BvjPk=H=kTa55RAt7u}NQG1ivF^Ct_$a7`ZsYk43`4
zNK7nKGK9wh!H^GqzzYXMD5^i`j|A}I)?;Ybe=c}(B8VYTiN!~rJU$T{pNRFGJI4pl
z`D1u%y;yKA81n^&#(n4bv59ff%5K-(1(mxBdNzU=<b8p0-=#4=6v!?$uH<8N#N<0P
zTojDZOi=fuJ~nztw2VYXV!qJWxpP6@tr4qOyIJqb9*2Xm^J4+gMh`<{W8-K2Ll=A_
z<5H(F{1M;y7$0+M#bRIBKY2Fj8y@3_g1+du|58LO2n2`5cuX+05)})nlJK~1Xe<&7
zJ|7c{qPWK-((L$RBe4)Ikb)<8e>m*trGXM{r)jDuLP0qJIgEYJ2Zyi{c+uAH9|>VK
z(MqF^;VsH~qLY!KV>BbDCTO7KdJ1}Z|8Q(@>_RYdC=eBk9?3zY^wb!CA;>?)`^T}a
zXz2{edxQPx<(mgjBJwhzZIB}f3+Sr4!VRke>YyeF$QslQt1FR%{sJ1@X=muE_DTWZ
ztdYfaS4@Dldde9vT+w=w`n<|(I?cIFVu7?l<W3C9+nhB`aoXSys3$kMICq+RQ#J4=
z0#WsRl%Bf2INT8nk9UlZjBkkfd5rgl=O?!9*nVMKup=~bwqtw}vl;2Qh;`m^abrhN
z9>|XHL?|{wGvQN`JmZt1ad*fcJ{$1wohn<?DUXuAA5BKJ2ri=!5Ae&01;cEAM}64w
z6G74BmsfglNCr)mi@gPVlfAh4jtcLhigP~ph=RBpcj-5eQ48#v)x^0!D#(B=6*tN8
zoAJo4<#*wS-;F@j0g429(dffY!2<VTacZN%&~R23lh4OMi_gcp?{c{=^V_L{ZUnh+
ztJFi!qIC#9yUeYcx!SfF?UK=%s%)6iUMpNS7R(w1W5r#gli!IvLo#$lH0yO!xRGA>
zMN2IGf&rBR&0oSWjAjoME1r4bXg8jxheLjdpHV|5uEZ3${w#Vjt)AAz)uSfmS>`vc
zQQB5vL49f4s%zabhKW$=SuLglOI&FMYgaumRUR7&2gfF2uE<!-H4+{V1qo6H18#$8
z#df5p4AzU<z!>%>&6%hf9~&2oF8MK4fE_-7|M9U%G|1D^5cRml+H~vqeROM(>lgLX
zGLwL1x=0W5L<uFrgeo)o1a7AsYuB$-=|Rd(iw^UdvJ@vQwadk|iMs8J#XAz#9V^9U
zH{Cbf-)>7awk8|52#s5kjXQ+K9gB^-1gmSN|N7CCwK!>Q60A-0&n{WJR&`uSIhFWM
z+e1BPFP*(K`;A3gUBXz$)&qYS4Xs%eG-c8rz(TmmnP~XaO9Id2OO3su46-s+)9P4y
zkz{s<@^lNwrZUfxh^v)645a{SryS+9lNz~=TvT;Qt>T_R4V3b{<{9pis*#HsmEJUQ
zeBZR@cWB+Bl*s&MFSP)nm07JvigH_zXr$JkLB46tH#C#zl@gPFFR3ocJ(OU8o^5}g
z`pVPGi)K1sq`4MNea{aC#|bSE3n)3L+yZp$qY^YfqET5&qAI9B2A2dG`tf|KZtXgH
zWYL~Prsy~VKnS(o)RHQ%y7`S8-*_YRr;)|-Ei(s~iz=6#ZFh^>Q+CHq+YQ^iamnuf
zRKpc-NEWpVMeV=&#8z>iQ=3|{GbZf~g1upW<C48OE9)0>iB%1<e-S-`Mqg^~Ddc`w
z+@sdKYeejQwXVlvc;BF*xP^s<rv25L_sebj%Qf$}6z^B*-rsIQ{HH42ezWPPdIQDF
zb;u))sF{Fh#2*g&e4^Rs1D=C}7;&o);N2gRp7693MO|zHyPYT4#DFMI`;MnU6ANTu
zI}{9se7-kTJlm$U)b~k4+eKL^pe-LIF#FjR?w*mWTYt}B&{eIJSI?c9?_M~VXxuH-
z>=DZMuIiAys^=WlzorboE;i^~s|Z?do&S`>kF?{c#v%NruTnYo;3^u=KETg_Z1Upp
z4(bAGIzj?29NhYVHmH>kZygSAL!drjq{BMUfSBou&T9&ogJvAz7NlBCK$-*Apfykc
zBtRc52pFcY2!n-6jL-o}8P*31QP#%t+k$o}pHhnQXXUgbXAxQ}LJP&HwM5E|Hj9zs
zFac^P{{oGHl3;1DjM@k|g5`3(rNN3oS+FvzmGYodzN-jUq0Z`HO|V*N6Ya0LSJH>=
zflBnHHdq&MBEO5$(Tl1pS_L+F>jTvw254+*(6`256Y6#%Pi<D7W;v}6Ia(Of(~5(m
z3Fw%DfGD`#plBgt0Jvq;H$E;}2xTF}5xBW%3y<Mo$5{ac82DN=KWahK&(2yxCJ>jd
zSo&OM$OKMAfL9spX3z-@{}p6sM-W@h3Xt$pDtpA%Fs=5?Nka>F%K6Bfcoh8MYj_^5
zKtShBorkc8Y6WeWtGa7!X3Lh2JWxoHfi<Wffm3!^#L(lLTn2X-O}`Iv$XA?>k~~;~
z0_-s!>Ek0nh*vsqEDg3ttx9c~UuCLM0*g$#0%*&ZJ|56+vGOGIJL<^9l^9B;aS4>l
zn<H;sWl9a1-znh30riD-7~ZXifph=vz4$H{03P$Zwu9Wd@9C6LV7OYox1}l0x$w5>
z@qA2s&YU8+ohEEBUklZF@?w?e9Ys}KJq47AjZPItN1s0*-pvqKAvDI->^%*c_l(sk
z?I~$0E>^Fk#Tu2E@-)_*o1(0|X>g!07A4Aa9ORE1f6Qj?CCxD(img|kjJ7MW%x}O%
z?<<AVx>$$uB>#IOHQ#*cke+YkJC)ipzi*j;B=4W>H$(ZBOdcgRx=D#;ew9(1*2cCd
zsp&L*TtB)^NzMGGpBv6`)5d^m+QiVud~cHfJ@Sk$joP$1wnJ$p|Hvq?vX}cRu=i<8
z+#I(|p~$o~ZX6|iKIe+jdCIO)f{!^D+Sr$qgxk0!ZjEc=+PL8@%a5?P=~CKNao6@}
zxvW|bNYAswxKYWC8EH_Spe;g2axUJE^g}s`xK&12#hs%Sn_kh#oo`*_8Bck&es9f)
z=7DocUooQJ#5fkj3(!WMnY;i<&+ovq-bZ^IXGp{7(MO+57sd-Os}FMwS`m($bLE?}
zc%jlKjP{ZIEe05mV{{;=I^0TqnYP7kzjwQ~tae}4(kYf_554HjpFT>+cg~fWMU=_&
z_84=_=CnO-|MJq;99k}5oi@cy(Wm1^lyaj~QM_pMR8E7qy{x)s&;Mlf%%iz8J-pV&
z-uS6U^H7Vg6b-4*fq?vKq1^J*kLJ6fzGl}V&va2{98Fw|@D+B&o=wLH7hzZI59A2Y
zIYR2_Pw5lZ{YK>}#xJPEGrw6m(~xZvJy5Y;Tmngn5&PPI>mwG?WqQ1J^e%A<iRmsF
z=;sO7nkqRL8awL`xg_pubYv>%S~ul(yTTLEnCooN6&SfV5*-1z)pd5#6^Vco8TDNn
ziJc#bfM<)W8n?$aWnEKxL#8x1<)}M0=8ByUx?;gd6lku(S@y||Rl8l!yTIZLhDIX6
z+@~WPP9tzhZDIfOzM=CIkqf@Fld)h_Gy{7k&N#TYZaq(!tY{964f#Vp-XFOjYFSvG
z&Fs!*0NY0*;9L8m=fl495_7vadfv~2B`zW1;P4Jz7<6wI4VQxc3w&@`G!BnMz~P?)
z|37+uA{H0}L)h$75_!=y67>y(e;W*lrWoVLk3`Oiy1t9VTQ5|K_=4=-PC3Ep1@l^B
z^@_IisK``-IWwf9J$KwiyY#AAc^vshS1ijvu3{ZA4bp5<Fs#v8<<*I+&eJ)=6Dq_v
z(a_rY@gd(?e#{>r;es#xoLE9jfsJ)$Ifz;+D>|P%di0p@*h$~9o~L~W4xSk};@khs
zVBcxqvHd)q1fnI3O2G8@2LilU5PY8KB6%M8R%+8uxpbJqb3sv0?CVHCG(W}2BNBgz
zC1L-CpweHN<u0v(!Yn3+KLA;ZG@nsM=7^3c*vK)ZpiFm(R)tN1_lk<eQi(L@j$XE6
zJc#Z-`XDOWS$o6_#KMCRW>T~Ug8tZf-z9zouPEw<LSxaO=!C2yN)s;Efk$DiC&s|h
z(hD%Q13ySF-$eo8U=l;o?jtz^xRA79*{Zf=-MEV-eovG}%npf3dL7a3;)f`?JgNvC
zlxn0k&l4Rf8nEC<e!&w!6m1g`_8M|WqoN@?F+>s#u}A_GK4}Q4BfOtVSmbn;a+Xp`
zq{SJQq(w68+`$LKV-TIJO|@hVy{MkJ6eVl~G-%Gn7%O6-!~s`$`ctkv#3|e4N)GBx
z^jQq$We!Zts)nR<z2IDbYx9ERotn367M<N-b=y*vwT$Ck+xq(0t7D6`9Yo1irMB;;
z-<lO?ZPMuxoSvj}hv3}73fM|sd13a2c}KE-i%`EMS>G?<zpel0^>=JXRynQ7oGPrJ
zZ%Q_76&kiC8+wF>o<#lrRZe|CWnZy7lJ+LS-juX&5$szMwyg_8t2%YTt_K>FOQ5`&
zt8Y%aHVdxJNmrlX>SMh~)ioyTHVJi`l641#x`PR0b*ic^S=Av_btJ3$g{uC9u_7gP
zE77nuvEz`?aOjThklY#P+~(K2U+qpf+g3SMdvmIJN1|ybqPyx+bsdS?&IJv1VT;^_
zLk|l%)4C<2`=Oa@+`DY8TC~=@HvQcf9%$5!X7GQ(sM@+y>ea?A(!JH5wA2Zfx};^3
zVA-_r+#Snyj5qpRyGN+q^PX0y?R_sM)E=2RzTDI)^9u2kv^NX(=9H@=>t%KcRl6RV
zbj^h`y-U{mRV&xpmTcK2wCqZ@91>a%Ew&s<SQ|enb}be+%otKNO|L)u>a*YdS^|QL
z9lK_1sp9e(!>W3h>5PhvG}V7gn_RbBShqX5?u3B<_7kfbuAr9s*EHXoY}z3-?f6CQ
z&g<q>ZO6iTp?3FmOUhoCw6_TMmSsn6($OV2x>8N+l1-b1rp>9w4XK)Ssm>=-?tQ7Y
zJ*x#=>81yqp|tGR8dFg*nC5l69yV~*Ey=3QLe=I4-(pqYOz*X$7&E-Ct?`bnk-fKD
zu)CM+Z7Z$@dd->@TL~Ttw#KAwn_$~^d*dD3?&WH%p&xd<(eaDwuIs(vyv_xZwVQ<6
zO?S#Sr954K8G18xd$Zu#m-L(#Jf{;CZK=AhMBUy*#a@J|it1#ATc~g+D>{XW&cw#v
zyA^#a9h?3#{$~7k&zmnKJDw6co=R1_?rGGW&O}8!I_TP*sOwHtbR&GEc;DTM{?$^h
zX49&Ry-1T_Yf9K?Dy2D0+P4b!txNXpE3{BMm+Crc6swZ<cER3$*Y3fPyEd+rIcJ{u
zxWoy0U)B2S`%~qWH($8%f>7R-s&Kw;d)1b#*dSDFxLeVIVXRt@9u<`)?Hz)><NfZ%
z&eQLA-#)ca{7(5_mA}_5be_IzAN-`I;RjpZs`;@o;oc`S_6Rlm7i)THVLDf6b94$-
zor_gnGupexiqG$xxQ&CV&+Zj)j;jCC_TTURe2H}cv+t<-B1**6&n^93Cri2iZFk8@
zyHO~0oZ6-l*0&+NQ(AJ$ZN0P3hWHwJi4LVS_<Qgt2wv8_tR)HPDB`)-Rc%H-k&g`)
zPZN_@H8YwSEqIiwE5>PcTotW}r5RgsbwC}^yror?C-Mo;6!e!Ehmg~#v+v!y0Xj?4
z7j>Wb9uF>q+xQ*z%etG~tO0mEFlC0<<D8#<%nRk?@d4L&YQZ6z<}w1HQJGdww~0u;
zZf7{2S9NM`R<Cp$L!jmhGCV*G0i@c>0Pw0w;;pHD=~iMkrKK4ilW-g9jg;CH8U*4Z
z!cN#VN+XbS1#}P$sii~+uGFInn?5U_QYU+!hXV*MlJ-R#cuQ)ZMJa{}Ni(Nug3@#e
zaC*0X0Ae6ur7=R|2sP~=T*GfAY=S772Uie$M|A|^Fj{V31uq6%IaR)8mv5G4)d5CP
zG47k{n(HwoskNNzU#M=XKz;Afa+9imskx+bs~Pn%;MVY0krg;K&}5+hAyG?W7-&AI
zJ)NTJJS3|l!9bKYiXs9PO}ozpBS0GYy;G+i#Q^eQc#!ZDWf0x#$zio;9;EC1M>G{B
zzSw8~2XVF&)la|Odh6uvlRtU#-6wzId)JpZF_<{>q;TS?#XV2WoqYYtSD$?SE8qLd
z+pV8R%_#JT^*x;G&#Dki?Rbjet1iOsT+LAsQo(?0f;tYWB^U@zw!4%mbJ3K!6s*PL
zwz5ItzlRDz_$aaj2}@5CJ|z3o680$?fFSx~F`lP+!~l{qie6HL5p_XQM&i%o2_He=
zHuCe7%cKl=RMh!Moj^2EN11p`G%92X{|4p7<b;NS-463F;x=kT!0@wumt{2rBFU$^
z{|o2h@2T!L5qy4``=D#bV#Q7x__?Cj%U&&ez3#hp3#~JU5*0g_OB#|T8-$V#$&xOi
zq-$ZvV#%JF-VYqr-#R?g_d!X;YfsGg-Ri#Gw^Y49WiLzBHq7*0JHA{|y+{*@V6o!q
znM2Fg;#ZE&9!=Sg{QQ}R8g)S-PMd<_R|aMWmaNsO^6F&y2BCbz%)ykcJb@$Iz2UlU
z$=>pTz2ZA&98UJ8&+k`qmAja1{^gqeyR?I1S^DjzX+I{(bl%j6dP#Fd)Cc^)fFu0(
z@rqCYprPc45r`TZ*&>SR*y2^R1N0*iqKG8{&0kP<Hv9y6G5q^vY2!<{ooY$9t_Ykw
z`Sw8)d854uFvKY+1hn61pD`?#IB)K{v1=~2Skg3O{I%I;s=C*}*~>6Ssq&UvvBb_(
zY>58%!jjqGwR2Dt_}Ex}*H|e@CI2OATXU`v=ws*FPDCDert!vXJpck{Ok+lcBJ5K1
zVAO0$OAA*m5jxahlp1llB&whis%KF10)3WCR8O@%IxLUP{3+E-u$Z(bY_IISy7vRC
z<BtxnG_}w4-nG_C!Yq3(B_*07V-eq3;ufqC+tD6jqi_)sHVWx?LxOxkSfv^!p@@83
zDCzVYSAY3Ih*H!>&h?gBVK74usllNj!4yzkq(Szk4myWCG}nqIA|p^}!j>KnO){F2
ze-}0J2N8&l3l|kKQPFl9<59G5Xbk#*P({3mg5yK{H7fBum1tn}e&5r52hI%k`Hmg$
z?K|olJanw@_?bc9>AnNU2YOHQKS4$S`+ZdCHU-q64A-TJ<o^aKQ+1C{*_wCwPgLvx
z0;nWNNOgl?Ye-qEQpF94q9*M3WUWW2^`y$`mK_yI$1cIKD+P+Gey32s69}8V5$L+z
zyvi9&W@%0f&q*43@=O0WIgL?2DIfV_r0*Bye~j1X-$S4b=>JR!j}GX+LUO(VT~nJ0
z3-d7p>Pi$f{Qd*_2;#x^!Cv&`OZGwDJ%H6L?+k(vw4O_pwGfyHhbMh!{js6*(7^bg
zQ2Co`{(Tw-T9!!KhaX9YP*TeH*SMc*e*EIfs<4zsq#F4F35?dHu}UyjC8{^RH<;`@
zBlMj~7$Mw#lC7QmueuvW|LLzPZCpo;7+e8T@|0%XHxh{QKS#~{zoFpo5M;mJzr}sN
zQy^b874&}1C~%o$gr~HD8WsY{t^LB*e$Z;PNz}AS)XFB&ONz4$Lhyf!vZDUNC4wbv
z?Ah)f%7#aTRI_>4B79l(a>2`mFWX+WKkhuZY=9^?O>Z#aP9B)ZTVizhu`7^P^h0j-
zWuW$vvJAD84>l@DHw4J2;c7u#`@AX&*8T_yZ4EEh22@uIvxo&lK9zyEUMdsNzNJ&v
z=Cm=Qi|elz2J}}Tyvz_0v#JcCpycH>vk-1Znqz6gA)k;NCDTMfKGE4*2BkiTaPrcO
zqgC=SW&OlWB!rwT9M&qN4AZNlg`RU=wapg3sGmhh;*(+3RU2BV&B=t@tM-|K8P!bT
zjBUm~tb;a@aoQZ$@mn*(bd+m&v|QZymMQ%Pmi&1}X@TZk5TrssDXaIE(?nwCX@TFB
zKYf(A%Q=^_E|_Ae1%hA8D8ym8SKOM_ZvHk^*LDG`A<V|C)TxxgrZ!JqIK?z!qAp^#
zL!Kh3^0`KaK^5d2$1cbuI>vZczN6U8aBl=7QKBs_js${%cGnmLEc~UBXwVe`GUOSU
z+PwC-2CXqR5ehI(R!DUS!3Q}q7I6*ZR3Ez(<nbgBoU$wUqf3%yco>=HRxz-;2HXLN
zNDKhl>a?#<OS;QEN&We)2(sbR4%|<5Jqmu;b~1|`lU220q@t)~zaimZP;58iwPRx_
zI)qx&7qL1RN8%vLd<Xmp=n`<VCP+7*BPw@R4<Nxs%4YRnu5F}D-4w{VX*Ki^RHJF2
zlWq&>*{u03m9mK0($N5nXfmp$qeKqoT=_uC1<>HUEdw^7!J}mwE7<^!8zuT6=K?=~
zCIJ^HYp8e58efE-M?g=TmNv#|$SY%M?gms{OQAoKW(Wn;vj()I`Chu6xb7v4(6sIw
zx{NBS+b{r9o#BQ0AwO(hLQ~dLCl0XnLt?!ti;Hxav63cYo++nH@=9yRMPfo1qd#4(
zQ`=kHUBF>rh2VlTV(0>s2!cqV81Ekny8LIyE(Wn2dG>@KgUa=ge*&7*bP~XlKuZmY
zCXi5={K&|VXkex}(8{+CN^06n7n}bEvWtbMWWDRtpo}LV#W;QDz=6Kgr}+bT%1={`
z7SW^#AEKffLLQr3A8a?6*0-of_fS~U{X9X{8X?;WFrw_=Q9TR={zHm|5kxHrq|JGm
zE(!5CjKry}zx&E3VUN-;TFKF0pn}hUic~mf4t-eGa9zDp-IS<qztOv}{l|fyMBa@o
z?i~;|4dB==a;@rhMW<A$=GGs2-|&L5e!CFKEuA>cTgq+>T<@RjhkU`|e9fDz*(%g*
zP1fucYWChK*}Lp)NjWz!Jh^ZXVu3yTR0u2gsUB!FRb{K3rnGF;$Q3!0c9&px&6nM^
zuUoC-${WE8Zt6%h?!3NZ?&OW#3G1QvOb9-ESj1H{-RD&32&%nRy)eA+^zE-CS`RHc
z4<}BXOgK*dW>rH^zlfIO)&8t(zefF2jcI?q?x$A!{%YM%t96J2<PaX^F6D`WlE^?d
zcT048mx2NcD3fT0ggS!B!uk|7ux=79kh)C-#z%%Oz-&ne+-^K7>g8Me!9!0R>^nW^
zJ8|mx;PC^;kBWw1gqe5n>8X@taJyLDlK3$c9FFmQ)M7sZcacQNuvI|2gW*K{zo!`C
z;Tfz*>YxSOmH<RwWPHR_v-v~FCE97Sq57YmaQ^S9aL%%#t?&8+X<@N&A1-Ney^lxv
z#9(W|Dy$H>=r<AkM-WXF*$jM!;iatmA=@G8Qzu9&tDR_HW;(EOvA8Q??OLg7nCrf=
z`LDI_6uw=!*tze$Z9?ba8Dpxb{J*cB>zdK8Sn3j%wv@AW=E$;VONwM$9>MNO>^^p9
z_o>85;vRGq&K|-Vs%oD(@<B!8%%M*#rPqgF8(Ok7q@1qVBcC{%lg>85*><b{$4@5r
z3<`S&mz-y2jxhAQMljYSjm?6wdH(AQy|-K5YfH2YEE$hOoRRF<Cv@zav8F6#2~<_R
z?pBphy(Lk#ZRY4oWlgfOU8roIDg0DhY&wi3P2s(DoV9ehv|)a;WCZbE<x=U9nf??c
zSk_v>TAQ@G1*`kk)`i`P_4}5rJ*kq)nPV6g2xtmjcM4r8h@)C}2(3Gkt$T#lJ&Uc~
zFqoL>PdJ*=<`aqLElbv|U=y)2i-j(ze%mWwt^RK9qHSHmxK5%vNn--azRX@My5?Y|
z(?)~82Zfk1*ucUXi!>*}TUX1xb#Ro4x1G<tLOH#ns%wt88eH{qaMd-)t&w$uaJqb%
zRSZrN=mrsUCawWOE+gU5?Nt61ZC3kK5BisTt!ZDIZXYLOR{MF*Q>C2L{-kCS!V;!+
zqrRl*-)O<-)=vFxACsfwjPS=?Kw?O51>?xLtYDA^qb_K1K+{ALuLlDjS5GuL0im;;
zG3q++zZgv8P<(JG2!=)=T>@NHAZ7pu(OA^udJ62-C_9sgIVv$=+v$9YxM)X5)Ac9~
zQgPsJt_vgRT6E+bR7RqN;YET$plO~poH8v2k0C5&Y@%c7v5XdHBtA6#H2KN^DM$Y4
zY^CXR$xKAa58ImbG>v8+r(;S!P(?sk;;IXna{fS8`|AAdLwusis+ry;=L%$@Cs{dj
za?x$xKB%r8nAAbAv1V`3zF=~Uy@;fx7_=WqijjU%s#Lm^s;!(Xfxv#4<VXU+OhRC4
zXoTJl^m;A^!9aK&g&6BSo59Hc2~wxN`sfM%c$JO}9-G!i$yy+pr)i-BkFH0ZXh)Jc
zID6jRvaoqB_WJaz5WFu{dEVXf`2!l_m#S)1|Gy3h|9{dD{9g$EYY)N1+94?0^Y+B8
z7!()wyt?PR-Am=`-=6rKUq!zL&;9YMbiLc%5B3*f1EL0S0KD^1FgOmuk&d=%RKi)!
zKnkGmLkQg(UZd#9H!)L(|G%5$2)#}Sy}QhPR8kIYgNiDFrghQTvsm7fu=gxi*1TT%
zYUOvUW)3e)wt3%bn>P!^>u)`Er+D*nNtr-HuvoTdsbmlIBbH%dWxipa+w^VQLxXIZ
zmoBhaycwsfLt@GQiWUk9*8T&HjY(N}K~YOU3BrY6A)WufDY!~GtbU27%Z5!<ji)UR
zWwz`rGEKGrJ|lCU-u)#MyUg9UnoX7WoZR}Yi{*#jte$t=cKoE~-I~9x`(y2`>KSXI
z{LqI*H8VXaYr!i=W{>>QF`%o(wIACW=Z`MbFWEMK+`4J8s`rifeEq_6?@YZt^*_e{
zxMw~-b2L%a`(bJQbydn<bW?vr{~hB!4OiB%YT)c!KEH3^Dh{hYzi;NM`&5jhKU3PX
zNBey(g7=N3`_<a_Yqbd1?4vZl>TBqGwm}LAsw|;#^xI^Pk!8z^+|q@7+JH_GE<dlD
zR`G$j3WpvjVRl&4tmIrT*5eS*lm2DqudsB~K`bmE%rFd~yL27bwrhzaV##R;x73$3
z0#PXU$@*x%w9;)hpM@JmiQFq6NveQb)=SQ3Qp!v!DycZm-TJAH6U@~?Xp%`lCFv(A
zh)UdDP=IuV(#b0w?os}`sHlIC$-f5NX8zA{%hLFlDK<mF6$)srO0rWT$UqAOV~l=K
z809Zgs_N1jSioeX`3#*Doy{w>oaqp_%za`jyB?eK-3nrDLaIQ@JETce)iB?5%e1h0
z(YZZg+dgv%!H1Qu>pd&w6=W}&DBqZ>sC>Qf)xu;&yHL@-RN;Y0aZdGGVXCd;de2?Q
zx>XD3BxR?x#!LBP=b`t@Z}%(|y;JsAW$%>>orjj}hgS$qtrM(uNo%8EZCtW8ueh2>
z!KH>NxExkRX&t}sDcQf?xMq3N0%17idPE-2n+~Yo%F<l`%UwGlS{b$OJ0J9iV&{Ja
z9DxIAMkEh@-p9`)tY~l}xT)Gl;YD^mH)%+rB7z}Jv)Jbb7WRX;zGU2%G8R6{UPlS(
z6`n=paeU-_k~Cl{Bx9o?$hq<<n1EBK9{3e)FWA{<iTh-&T)UtAG5BOLAozIv7_#z&
zyX6jqSjJSA$09=$JP+*#Nm>z%POW=%Z1U&)E{#$Pss^LpVoO?Fg2k1zY`kOHm@08V
z-A~aO+bP&~CX72D9W#0jHtjTDj~g?LO&XdYn|$RPFTxOIE+013IC4sFAEnseA;{+V
z{d3$;H9Y#Nx!SC6&`Z`KGiXx>Xw$W-m4}7;!-DN_!g!dyom({scGOpq8@^fkfgLh#
z<3RtwfO{Q(63IMSFz}}-cm{!}Jv%lQ5^X-8A1c(~<^VsB`h2{DGIUcgN5M-Jv{Ud7
z1++<cGPL4pJ2AN=@21$lqTpXs;Gy8(Qm{e+EiO?v92)b-m<}(gtqjFP%}6B16FZJ4
zwN_C}tXZ~cL@TkDMuudL04W|xu<Ja<Xb15Gn|VFOXe9YF6g-K5jj>GrKTU}ge1#qm
zY4F)M!6>S}eB`=gQCodatJby59|n=HYkAM{Yx;R$jH+~-9*$~ib<Wj&Dy?qALdOFR
zKdXgYuj-KMp2n;*gK@OVes}L<zbhu^+@N5ppYKn!?Y<oo+71X!y@ILtfex8ho!k?u
zqjJI8wp#(Awo5AAeIQ->$wbo@@S6nFR#xUgg-Z97YE`e*ndid`0ik6l^})Pa4BgjM
zSp{T{DQ8`3U3+TNwtGbfRXX>Iz2y4&8-=Snx&b*}Tt4TxQN3zlw?@w9ST(Vz84&b(
z?1p94!fvgcqhhsyMGLv=x_QT|J6CP&*3Q*!TxC_GQFFme?D~P($=SNOt@Dkyw6{*b
zX?g>?wOxX#>p=<254S}6;#GB}u5!V#a6#C(|2~KK1C5e;e`}Gh`9X_XX9FUpFI`n@
zbh~b8?sNE|Oj5$C*{nOFns5A+qhGe5+3XEr_R<&aSGpebBFH#p$+hVY!re+hL)@>R
z0WmGb0y?iTXb9+-rM51hr!>$|2C@8%q|`03XL0xrNgjQs8Zs#$Zb2H8pC4F#fD0RR
zo$Bl9ea0glr)N=>XqGg?$)sR_oxE;S&ZZL$KB%7!VTZ9LO|oU)N&(>y(qX-YVx$`)
zaj@WV3+ny|{sMnYD)~+BV{QA2xpYxmnlcys;h~h>xu|ufTGn4adVT#|Oek(#(yo_k
zpmJ*lPeC{yTt@@hgU5W?sMv7nV9>5+F?~S8hDs|99|lrRp)HGCIyR^p45}%elMQOn
z954heFsPUF2Xt%828;o2*a)Ngw8oy-I;nA+MSEtvr5VVK?tp~Be3M3ouo|&Y(ZrXP
z^$F??5ui~nV&yaFP7vTGF>Od#p*+p{MQR=h53e*DJjt$6E(5`a%%WkZAxMU+c*4^f
z$mt}Gfy^W7H4aV9P$<fi3_X)~t?vo3WSAcd`_{hRR8#KIc=F`>87&gBkGRa;E9C4Y
zsiL}MQIi0@k94GNW2$*is<Jg%xml>({LrE&IksMwW4jA-7HsZ1t)O>=S2%gG(y}FH
zGTe5_pqi~$lAud+uFOJqP#Oid@fW>}g5Tt_R`E(j(|k;*Xj{~_0YcO@&hK7m5*oJ(
zwc8f8+p-t;qIUg?&c3R)>dY&o3XNX?yc+kd%|dm@s)25eTx08e9B{LBr_iu#)kJA#
z&Rl)pf*66DqI*<a+9TAZHG72E=5#%PbGEEKLM|f$YWUKFk0-XW0YKo~f&4ic*u61`
z6^%bL?FQtrz*&SfV8wF_+(gh`$j*VM*cAoHQINF@3X!ugXbYNxcF8_3V1q*mU9bo(
z*|YK$BVSRlL~<U1=Ow`++LOataulHu8D2-A1TGp%k=Jo0%|!B+G0$$LS2#F|C|3wF
zZ$+S-+6+{nzm;;l5^-n1i8`tRb%Cm2^(ake&K1xTj6lh1<}kt<sDaZ68XN5zR}ijA
zz1ziPPg9#@XIB!BlAnk~A!iM`r1k9@0fP|CLo(Be1r@fXN7ONB%LmXpGh~vGoHfcw
zv{TuBA7m2;+A*iAbenId2UMi6%OA{WPvpaVNdqsR-b6k@rotEoElem9yE3(dVor-j
zk%QnAyO`;*QMsGsGFlMIl;%^Gj)VTrkR@wcB<?A@(&b5_lyfm%4U8CFB&f~q5#m|>
z0Y3RF%GeKk!!jt*26?b=WkW8-Owh=5{Rr_VkP2Zm?3(-mF!IU#3HC{n|2k;!GP>Y7
z<dIC?iieO7=1&Z$Nf2GsUt+v#39vFT*A?U!OPR5mA_J5gj`B6^nOsfyxr{X)tjwC^
zWJ$9C;w09kwV9#{5u9FQYsg^HAz4?gvCoQ5)n&l4CtrpSFksO?N7tA>p0zw_X%Q?f
zNy|3DLUt^c-JdjdCYyjT9!NoU*!07;H`<a7T|z?_L{74i&qFh}rAPH%(R)3MoBN5R
zhQe(dDP6XJv~J$B*t9p<G$=F;rdqdwM0VD#+PLO3@Xuyc$~(Ct_o97$(tcd9A5Xd0
zlPL5AGN_A+!51pnr(%`P58iF=mSCcvriC461R0s(+faIyB8B2?r~L;^GUz7a`5;NU
zGQ4r@7@VOvEh#UqX+vfY;ABnj4CyI_`SzE>(FcFVC<|Dy)2EFi9C$H$h;K~OMs`x?
ztIwRNTZv`dhd>*L^$@NH%yFP9uj!!!#898OVN^K=lw$aeo0PslGsv)JpQuLdSsCRh
z+$C7@xeq|ebiV*oh}g=x_!F`8PR*y`r0i$Zl<sGYHUPU&XC7@N;=jG6SLOmG(>+Fh
zms~XKXS6ZvMvf}&GR>%bJg?^8Ql|CM=Z{$lfXKNQ^txm?#oBMneU2H@!PtcW53a}d
zaf9?cJIuUS#(_vCEp19-1b5CztYa?<!+RKPewkJ0w{R=LJIT_T8GdFqkZ6YtCBQ?5
zqS(l?Ej1{XO2C8pusqHTSPzViPx1?>4v^ENc<~%}S4fq0Qaf=981x*c7%>-Q-<~qK
zY``G#S_*UsL<e+4e7S5HQ71WU)SYC08;hmqvfZpC>?g6hShnWD*@@^Ra|<d~tVth2
zuYHnHH~-g}{se*-M}~sTmU;q)w`4xS+<t=D5Fi(!ND2;*Jdd+Pc2^414@e^v3thg2
zx(}muKU4!qKbv=<ZX6x^@FO7seu`xP6@%PCq`|CN^6Dw7;K~f*51*`!>84?!v56A@
zAWLUJX66&mW2z(@rb|HG_c@gz#y#M8F;`j%Ls!#sabv2Y@z&^j0f_KR%rgc+>dM-=
z3(49YLhX)ZZ7=LPmn!-I$s5ccRP<fncy)iGq7Ts5R05tu1L3XJu6e-wJwn5tWWy-|
z|Eo?Vo_tEEdI|=sD^*ZBX-YXNQmuPauFh1$=6eN(2J?*h`cA=EyK3i5c1ihm?(mYa
zHC0xFK3PyGS+z~5+C~<yO`DTVeL@qnk*$Z;e$vu($I`UCY5P07-rn_BFblz1vfSPU
z<H=-s7a1CsSEWkZ9~!h9n0cuiSaU&<B=S#MI|OUTl650GZ7O)hGHXd1>jY!nlChqp
zB#rHYu{~8*pDf!blx<9w9TdtA(yMNGNLsR}$yAUu)(gh^L_^oYktO3kFgB%XYVkHp
zM%P0lXL8;(R(*c|qzZ$>#4PWa`nt43*?^rWSa$TZV=l4<5z2O*CLcQTfrGs1E1-h9
zG|JG$^wA7BHh#C9CL9zb@h5^1s<3h6uo?#i*bA>20pj)f^xraiW%-V@IA~+?yYxLZ
z1Iakf=z?mcHJ@lgc{2bsW4>c4^E{&^2ah^x^fc|O2!yI(pdUa*A0Wql&%?}#U|0^I
zlF;iSjFM=Utn`VO!GP72g}fz88)L&D9HhNX#s578->2YzK!8dKzKhxuC?y(*j{>fV
zq;O`DfD^n1k3<-ZkfahsE`sQMY+q<I^RG~)@RLSJ8<0ZDae(YbKuVQ40t8~vqO#eE
z^p4W`n7z;Cjs60Xr)sk{dLEAn8*!3E>BV3kU(A)%Gn?v_O4sYvuU6kWGgrM>xoNg=
zMt@z89niAjhtIz8?CsL|XBV5h1!KdE^?Hc*ck7xhTvb26HQ`*Jf;t&?bCJnuo+(@{
z<Lu?c)m<*BNtU>U5_hVkK2=gX7n>VS6g8(x%2!RCz3u_0vzuqM;6q~jnP<({tPlgd
zVx6^KD+C&7Z=H|b8eG_Vd-tLZ=I;j?9w!<kL^>*381R+u*63KIF*$g1Crl2~JR&5g
zNzpM&e*v_Ve5&GM`ck%2Kz*SX(^Qth?(*SwFfUCj%)mV@R4Z9aP?P~?2l*E>i)}&M
zy0|Xirg`zV)eo{<Ir}4U)C}x!9k4?^lsePcR=(|njjf66p|36jjnj%kjZQKg)yw=P
z8UVf#!}P2Fj0@78Zz2KALro|c5sM|44l-duNI{g*HGDm7rc&9rLv-S7bO^r1aUR37
z2jhnD#4B+d_+I?*eU#ajL)l1dB5Ig_f&ywbO7kYKYQ`rNYtsVzoZ^hwnVfQGE%h(Y
z`V6i5+o&HW9aPd9=GQ^-46XyZw!(|RvZZk5g`{nxVB5H8=~_5>$Fg;~enYZ;pHRQ=
zy}HDy(~I?k32SZ2)tXq>Ex7h2j5YVnTvg`-ldj1OMX#z(>=sxEmL+X%f~_rK+x8F?
zNM+L6CRm}}wy=N6x^1PX^d9^zlwtc+bz<$C>Q_0GerV<FuB2^~VB3_kmZ#82^B$6D
zZw7Cicv$cc@%jA%WMn7DPulitwZMI3Zyj0d|1sKRA-s0>d6MzcoY5{D!P59DIJZn-
zoo7SD)!$NIE0Q$I0^B)OW<z9*(3#&g=zH<+eEAuX?<9z8@-1Km{wv#&HV_2sFQK3M
ztP?^1sJTUyc?yFLw<e#Zc3hvX(STD9T12^*(lSm`qvRnhpkeyjFs_H$iD9%Xw*<#!
zjY(Poib%3)Q;e94?8<ANVT`BEI&cb`i1&=1>qqP5LRmjbzo0F51p<E!ue$b5#&2P)
zNy!=mxREXbMbH<Q=QIrhAdZKQc(sxXI^q_H?zM51534}Bz<%LgLO#WL@^9;rk`oRC
zrsVUK4odL7M(CRcBU4NWCz}_z0uxZy8-u(bvVYm3vBV)G|M&C(0Vo2<r=G`kIv8|8
zZkE;<CtdN3p16nq2tDSj07C}d4*nS3&{5AHqTo;I_6HRF83O3S1Sg~XFX^6%Ci+++
zv;i+l==L}0$uSg!d;a77l9O)-+^fqUbWnW$L(nlpIf)S^v5kq{3Jrw;YV!o85=?_m
z5-<k179#jLDNzc_(WPT)qLy-qC3*HUe;n07lo)uPS(s<edP#tC8BeDw^Fu#07QvK9
z3GU*IH*x?vYIT7Jo?Z&fGpc)5Zs&k%(LNyTICkse^|EA9gHY5k-!BxcPwY50qf6Ka
zQhR!C_y6p4%IX4^->)*?<J5cL1jcy}DzT1bM`P0A5geYRW0T<6w9xm?;kOU})zL*q
z&rIKk6*bqj%jNK4@|Jn2d{e@{DN(*@Rb5n6zp}pLFWqmt7kYoxk#Mx8;FM(Y&B-5q
z{rbUFdELBGD0f2vs(f>*wr<X_;@psQb_vd|zdoJVab$7JQNeli`hjK7_N3=2!ShtA
z!j))%+ZuI8S;EmWAHCyfW3<c7!#56p=jduHh?V<L!*x9LK(74l-la;n;8>q%-@9n*
zP8hpCzrT$uI<ETcVGCE`f|u%|mehug*L#*6Kwqln9SKJ>yy6tK{02Oy(n_hyFQUYE
zxbEoHY2V-7Q{8J;|IF;@t=0XkR?}Or{#ku-?<U<Ey$jlJ44WsS_HhFEeAs+uhX;sZ
zDeqf|_~<T;{gd}x>B{8Kn6PEi6mx1l&uHiKC?l!WU!fQQF`l3w|91$oW%!hF4YjDK
z#C(TVl?P9m{)R;6R13!HB_obTXr#b#QmUbae(RPQ@w04fy=!zctZfLz(if3F1Zp1q
zKnpuT<IAR(&7|^t6;$9b_`c-FB!<N+U871Q>z6byq$?i=2OlQ#(80y)?^+Lfl6z&>
z6VL#=Q{~gq0)8g9!3Z!d4yye5Kw2sNx@yc!VqQ+W+?A^)nD@Xwf5rq+gdXFfkEJ<d
z;O!X#WK$<EjA;XorZfQ0yh~<5;9${yx&Bs$Hy?+EWL)(F)qkhLd+YKYlQGh6U{}5a
z5r=R3;8XH}6Pm|DQRyE_q>rRbiGcaFw5bwEMNK{)Ae?FDP5<&k^f5iG&$O+?lpdme
z-ItFaRtX%z<l`~Un&1XjUMEz~i}v4E7iQi*Yy9%|;+hwW&|Zhq)68$C&!kq5<Gx9G
zhU5Ne)`PMPqL9z_F_2~Z7}+&z8f{Z*$owj;fJ#au9iw?Tk%5BDyGKg1@{)p0&K1aV
z+!`=kH9x~$n^VvWxZ?b;IC5EzGi_5RrNcHCqamF|Nr91!0O;dFQIA<Utq0G;T9b(a
z{jNt*oBlO4D?uzmC>}H*AeZm6>ZlbkF$)qZqx}+`7(ric5R4D==}9=j2=_fd5`z-7
zo@@{BjVawQoErqiVg+!6T4J^hxjuCYC0hl>3FDL}8=;UaRfw~ZQC(k~|Ig_>ARP0v
z%iPB$@G$32*c+D1T;B@e7xa)r`i8-PgplpV>R)pT=#)49dwOFveLZCMOV#<w9{^Ue
z4BI&lD|sCtd>V4+h0a-y@n`dXJVqH+`eF#AlWD3NwY%0hrb<IzbXUFta9FOubSe-2
z0{0EnBK>9=RB8sM+$Uh85{W5@EmjR&MZ$(xQPqZYQPzB&a`uulNtf)lh#oL|%AIg1
z1fu#R29n1&)HwbYx*=*uB0!1%6QT_J1(Vp%M^FX~eTItCxJ#CbbWpf1UzSK~hg>@`
zrb$ncamJ=L|F#v7uheZ?2T!ANtb<jxsi;@A;;6lO{KoOSj^@vn%j@oQ+9LNS4(H7y
zH;yD+N0uB%R~!vVM~mQS`GsTMayjrY6$&jQ$H0w&L}T}RMM=j2!Eu0@4EDlgkdBQ%
zv^%(OdwSY6?`w?|TFZJ`HSf3T5FZqarGB$<J0>~dkpvDJi9TRF2I4k=!?B3Urm8Y8
zs!%1MNSNV(CmXS5y2|8Wi|H$SrsRegaU&Z`yDOxP=MTZ)^w1N7eW#9zdPEKl3`(|x
z7tkOdqJX3iS$smGH|VoY@N;TnngG7jgQq0U$k!<+V~;Qq@js)S_Dj;9ObaX|a)+$~
zQ<{<z^^nVu3N+!QOwHMC$ud;*Qz}CU_aR1JP>DE^*pGaWlJLPZa%C#dG@o8S{2$<H
zmboi=BibjCBi(p1RhAi2kK9v&9<R~rC_?ZBR)?LdZ3H3lP^&dHlE+EgD+RL!-yXgh
zxe=L<EE%^fgZn3?gl~lBzqVxD4894B4eOd;pL%ubR{LVzHXxkfPFho?RX4piyz|yu
zfyL5IGv?*WhS%#}ty`>IKU273DNR`Ff2}na^r{|Ka5aso^0tNEME7Y(G-?W&X<va;
z(y1nQliE%be9181P}c^QOQA8CDDAveCX{y0^n+bPjGP+5TJuTmx@2t^6dhBwP08AA
zP~u6}_6fCpi?vUrHf&06I3#R1bkCqIDt@TZ!?zUFTEP!$5o|39TNj*CCGD+(y)|jy
zF4(s(*>^I_!DhkQoV0EgtXr3?+f&vG$sBRX>VoYDtQqOsOr-LCYcJeiE?IZ3uIKF4
z30rH*UM+o3XUX1_vQ;K*%}|$<40V_64J)?NgsmPe(#Lu3+Up^&us3}6a3kyy?{juj
z3rHJQ%QE$ejC&LHd+*x2nKD(2P}H(iv<{DMT5ebp)!Xjcw||n!w`Iw`6+(}OmOIwk
z)q2$Ro7I+oa+khfTFyV+dO+LX#r-c`J+%i*G(Wei50-I1FIG{!L__hi9fxe1H3x@s
z06bWSU6IlE!#5>03NZI-*WBswbw~9V+4S<MHJ0K7a3+0{cHAinPE%l^-~$Arp}*(Q
z(KDy|a&^B_l!I)zenTtVj=L+|2gPOIYMC*xpIL*XcR=|>y(EQPbL7*(MKJjRPO&vy
zy0|KH$SKDQeEjG2Nua#(v?@dDpgfUS>`Iq!`Te~VWbxV3$LO$nS{<qWEp^dg<Xmui
zg_01;r^$v)1{lt0UMvP8n}-{h{kgA6DD}J5Q*WMt3oD#j(6D0SWf!T}kbS0nelkN6
z*}5Bcm@(NCc^WN~fm52L9DdH@IyB5GkShe*2If?s!klWSN=7nvpD+u6)ElQa<6^nw
z^+B#Z*jL{&2;cxfFJm_mPAr<q@LOs@g4_iEdA5v*{^nQcmX@4!1pFgn$~SvxZY7Td
z{{pEwnw5p}yUKNEA77rekNz{QRN_j2FJ$JdW!Hz7YBw)gwg8wWOIw7}mc`O_GyRgC
z_Q;ZD9gw+XS%*;8ku2LLlx_QQ$?YfqrYcd|H{1Wo+9$Wm5~cfKQB5vbyP!i21M-<8
z2}?J4+7g_d*Wb0a0uovGNh;85HUez|wh`#8dmO`rug2n0wm$MHS3W^y#yKc(M$&L2
z$wJPxHV>B7zd6Vhp&z%Z*cxF90<Mf92)SdC<otp5^!j3p#WfD~QE7$H%3PyakUqe%
z=IH$OxQ-(abL5h{)a3cY$Gk?sr;NdPN_MNCXA!46Fo0#VfmTc>0(_frBF0}r47RTO
zFbF&?rffq`u|Q%=D(j~r>mXnAq!5!7C1MjNIhGInKa=F0nbFfRm9(}B*4A5?>5jC`
z5}S941B6!7S9->uMUwp8!1TjR<ja_3B*6G>bAPSft(xlYgFVLN_!!JG(vC)?ad%xh
zKQeS)R)AOL9b2EQea_<xxnmR2(4+^5v^0*`zHA)%shk1iHzHxGK5N+WPj>~4Uprn8
zragtlsnW`1X}eI`o-FMIuCZ9!CA%abTd#Tj67~zZ6OaxOLR#1C8KR!pp7CN&{C*<{
z=02$n$a{%ArPHT1r@^_xhc>8QcEK0nqlZX&hHr(@Pt!_D8HgLw^-k*}JJ!@jx+&~Z
zTISuE113hOF}v~|5Sc?Df2&H3(|R@cf<CSR?@G&fR|fD4$d6TnQhVk%uDbyIfiJ?-
z=1i&*gIGphuMoHV1*p!nJ{#!5=iu=xt;q%<QJSyEH$s_#DB_$emgalq<8diRc&5cz
ztx~~gy%Nj(W;l+FkMmD^zx3yY7~QIyHh#l+U3IM~z+zdHtA1+zF<|j7f?15e!S+zv
z!b|dwAgeh?$xe$_Dtxm<0?>kj^ao$gfLPcEJFMVTb!LaS&I3wj3xGTW?h=VT{R>ne
zoti5Y`*RA2U=elf8z7Pgn2(Vv>PU+!DwDnE{ZZx)_cCQQG4Ddea}mv;j>CTTu}nrV
z^I>F=<UL<U4Aw0Bs0Hda|L-XHTMC#C$Th@7?eIioh`~%oPe+OSt}u9HwTlqy$)+e3
z@+S@FYiZ+?NsP4dJ2xjg`-INEWalxV^H{39=2jDq#*G7{y}Gebux`MYS$pSN=G#{F
z_JT@iP|OYgU}&ji{W9d%n}4|Lja>`+#j0&LdWlwnjDM-rgC{@Om2BKBG{T?HV&m@H
zfuCG>_rhY;;p@F0SJuqM5|y6$i$bLba%#AOsY=)y<^w+*d1GW@*PWKV%%MB`JSUvF
zuV3u|(E03P8Rw|E53P*KPfDC~8|OxspuyoNC5gyulhRiS7VEYwIksj|5#3AneV~^d
zb%~OeTTM*d^YuIH_e0l9BKGH>TXMKRvRC|OwFLEk!B|Is*0XMZC->7%Q}24sPj~dR
z^fqgL)~v$~--h8@BUVYD8BPZAGU%?dfAV1m*=TV(A0S@t1&Ko%M@Z+BA!K%5=#M;_
zFJFDy45a+h`gD2n<*QHssE8-;`x^4(%U2)!;2LS!Gc6Zm9OfO8^41jiT<|amvyk)?
z=A7(%YWWGiFPeS=ABd#zB|kA_J<-RFSx-2=IwQGAk4L_Knb8xdcxB3F&WO0_tt_aO
zIWe*|n86t}4TyRP(C{@_L!!pldji1;3I<PzT3_!0iuRoVFX;Q2TR;E;&&;${ELfw_
z&l4Qx>nLziP)z|*oqP)dAosLL;gW2eebtCXsJv*vCt2uAEG#0W;6wIO3L-4U7#Nb1
zSd67vWvRF1klPTHvaaE|0Q5*am(6H;YJCQxdcgDfGKJI~1cUw~x($Q&;@WR{lErO8
zaT`2AOE(^&*pt5b{hpM#zSS*x=bkYxOE;ZDNhh2|mDiD*rsC@-ukHeOV{T}^b-r@$
zIFw>$j{d&MCD;8|cT**S`R()T6V)3COdkEf;#e+g_*NuY)+Lm6%{-CY%CfO?E`Hb8
zzHBVL9=dC6l#r>-G<o&86hA48@fRqdvt6<lCS_g8mT?7XqVXtwAZilYgWZ&cd^IsM
zM*ao5wa_h*w~`JNDH2HP0hcN5JO#uk;|Xn&$Uef#c{+s{2FYKb2aHijCkk(*fTlT@
z^T6mv3YPFN`X>m$dC=}zv6o*yw5qMu6{cJ*t1$L0Ol|3AzbmGK2Rhut_;;(WdZn~(
zRfk`|>e7l;1I1uXTfAzb7`Qvls}_n`xvKir0*V!KHO&uf6dPAD+t+5@Ayo>sXehGc
zC|}i41ofd71B)7|8WW3JQF^t2MGHA|{e2rnWg}Xa3bhF`vn_@VG7Nc#<~G6Vw{}%S
z_Z}z~<9EeWd0&TLxfEin>sXm4-98lzhvAP-sNJ=yp<BFbqOevl)!o<8tz3kn_m8S{
zy7hP)eepf@vnpMK{EVUx<7&08a?Sz0UR~v?u|T(O{`3P5KdZGy#1FvmM7Qp~L#tbN
z&swQ#o1gsQ3vaw|+W~K24`37Awz`#dr%czhuz8ik&+Xp(^ut=Xr$$U#c{FK5_)A}D
zG@gvUvo*C8APLPJd><pA&TxeC8E;-x@k5z|DW9UDQXe@fiE|8qAIb<j@@Zh<KtN7K
zybM80TDY9i`}*=;Nfx(R{mRD|N`J@%q`H>=xph<TpAN=c6XPJQFOGl?3zOXBqMsk}
z<BN1r5Y6xcCVMtL8+5@EAOK1Z-noc~2C0p|ON>)4acr3FU3l&H6tZjfxR{(SQ=#l8
z6<@w1%3YF=m<i>Rp|fHtEj6N~%1+26o2-Cz^w^FcJK-BRbIdn*kofzjr~dR*FfcJh
z;)KC59;7EKC!efv5fGNRSk2%mF`fWkbIe6|(3842HbNhfz=!XEZu|L3*MSpfT<im0
z_<Y7#gmk20uAHVwp^Cb%ShQuoG2<cNqZG&h{>4Rq2>Mw5sN$|{00$ybM51~OE;QvS
zz_-z<!=jCNSdcNwh7nN-r4A5~TA?yFoI=^pVN_QRO2Cid_l<?evmc2iijRz}QOM>?
z@Dr$!1*hrkdJ%VwZ>1|=(pEr}Q0Gc$t5%GaKPdj8^9`q9Y+G(}OP_XHY}%D5z<*bw
z`^h`jCqIEyp>Vd4w4izjN)@<L)<zf!o6L|wxZ4x$2Nu`$UQ?3-a-yUOJ_qqd>!guf
z5GHE3+%;~+N018Oxd3|q?Q9#nzanXty+*J757bEy#m-T{VE7WHU7_1y#9&J-JJE+9
z3h7JpwyYG7|Ll<T<u?KbVlgIG9vBb2MB?*tQOP3(;hpR|AoSg~(8yWd$m$OGp&UoH
z%E(8w34M-lA}k#;7P>bP0TY8qjHu*Zg5;Q@GiO71&?<dc5zC3`#);**8RW&!Y^TMl
z+@}i5gg!q<yPSWO-kykhd<tW794lTr8B6Hd#}s@Y8AKC(5*<uRe0%VD%F8~HPJO{A
z(%A_t+F6dQFFHy}OJ$UMQ|>d5WSj#<y>J-rm52OTv{4Uz?=k%qL+Nm@pyC~m6o=<!
z5RQ@PaFF*PE|19=@0q}t{-VsOhgkPWDP{T6NAe)eWtbwvC>gp)25eb)q>EaXUQ_y5
z3tvwu6|7d)j3*L|5oqyAjS}mEZ=|4!GL~m$j56WBoR79FLrbNPDH4_{R<g_&H)2Hj
zpog(7Ju(BDG%uLXlT0SX5fc_9JeI&g7~e*jh+!q#l$xaCQJy&3l0y_?2#QYSxdar`
z6tEwzd^;&C6R+H&SQiCPQ$ThS60XEB8n)fH(1V>6Y)2p(cf&|(A{5-q{|z$ZKNtOf
z5WttLN`+5)smed(OdoOuA97X}+CSthA94r_KjLbB$$5UsZU2a?`-rRmC0B*pkGPE=
zaUCB~V)ZY%>VM#hQScwRijTO4Uvh)^{}DIvsoJ1Yf65{FwVhL~`-p4&RIOF1?{Nq|
zHS1Jr*eoDs<y3vDUvk|jBv85SADbN4pI$W8Ue-U<J5?>$`yX=ndARe0PIW{zXMD)9
z$m+0}Q(Hb&>s9zH9|9l<YRf9SEoKiYRM7fHAU{Ct)2(rxs_7n7UsO#GzF~2ywz2W~
Fe*qb0f0F<J

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/ray_distributed_executor.cpython-312.pyc b/v1/executor/__pycache__/ray_distributed_executor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd7369bfa1589c7b2d77057a4d4cbb89c68c6c4d
GIT binary patch
literal 295
zcmX@j%ge<81UW3-nTm`I439w^7+``jK8pYu(-~42QW$d>av7tT7#UKTq8KZgG?`z5
zlxQ;E5(`SKbjd6(DauSLElEvrtw>ESEy*wP(`3FSTb7fPt5;^ImkJfsD@v@4hjEIS
zfd<?XkH@ZmCBtWs1-}CHOL7bJ3o;9IOA?FHQ%iI!O3f`TvdvTVb25|k3o1)8^7HgT
z_UM-x>cfoI2icQ?a1`85y@JYH95%W6DWy57c14^(3xGanC>8<|AD9^#8NaeIF*1GN
PVvsVt$RJk44ip9e5R6sa

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/ray_executor.cpython-312.pyc b/v1/executor/__pycache__/ray_executor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fb52bfc9c9c915a886e0b96e976eb0389ace804f
GIT binary patch
literal 23654
zcmb_^dr({HmFLy_2@(j900Ebm0RsZRZQ6D>7;NJQc8u*#$U~8JFIZR-<Vx6WRwPbW
zW(FtDHcn>N^rSQG%yey>N^gy`J6q%3ncC^8c~qyiW>?qHE#=0&ao1$FDt`?&&SZOP
zYiEDwySkE~g}b+EFXG<s{XE|}=R4<o-+wJDvvYW&#&1RbcZlQuo;=!P$~o5mt&ZdF
za2Gg%6Le8-g1-8wE~cN*>&R`08e+x?BXb+0rkHuc%-p7^C1#zlGPgNui`ggaF~@|1
z`E^m}gp-w57Av19XJMA8E9RbXGq*Kb5v!c2WNus36RVo2Vs3l1I#x4L6Z1}ZW4;L=
z3v)zkV|5dCvHFR6=66Q@v4)9;SmQ(^^Or@NV*CWp+~v{cSj$99taYL_);7@=YoBOm
z;jZYmSjR+%juYFzUWRtLqn)v?i7pmb5#1i^p6J$balN3M=o0Oc87V5GJ+a=2ULB|B
zM7J3DF~*3Vi9YzvKUO{5M89YjI|SXlh2v@wChibC2kF~CE#{IGeFU9W3ff`SbH_NL
z>KmL;{bRkFC|~L>7FUBfugL${pvF$@zOL)?{fazeT{^`fh?AkYXi|uTlki%Pgrd>V
zrKkwE`RH77P9m302qi<|Xeg2B(ko@>KX-N{c;xuVk&~li#}vb0{5q8riAR#b=*-lV
zD8cIv&q<OPPX=eBq2%O@6hm0ml$Z>P@vFhBAt@0|&IH3Vv)8)}N<D=Okwj98T$)RY
zLXZ^|6O)%`1jS5|ky)jTzB998JUBZeC8-(5q);ptlFrN}XXlcNYdm~e6y~C0E&wSS
z&WYif_+(@Xofs|@e@^_$oR~-|o}%b;q4<^a*Jr7(){$4l@LY06>M|;2>Il3ng=S|(
zNpYVGU4MB-x*|$iNDVbL5{gFV#h?_r9t=n45=o>qz=N_XPR|Hp^xRxLo^KXLYA}q_
zkB8y{8)g1%G!zzN7^`E_%-n3Q8<F_bcv1=_#VIPMd}A7=`pB8nXHSis9~lmgof#Vm
z9=&k>!nu*KI>G8YH{0C$5d3#Ik(<y7+=L#hQ#WA{jiO1=GYB)oWgwSeoUi~2O@fK}
z%oA482A_p|*R5SPr6S+^(_%6-42YQjH+CKmc?m#x%rhV2k&M5_Mk&Ce&tDe#8A%W&
zerA%#xa1=Fuq1|(k(oFj4#oLPBBJ8LOst3Hfs?-`@^MiV_~Z;Pi3u^uCs7a*UExEM
z7~@?2_!JL_&6Sx@YgEi?{fd*-0f?e(zxo$EN?Aylra4l>6i(4cX2-hhiZvLFhhkzd
zsMv$S*bG4u+|FR|D|4Y}F2)iJ3NztgP@*-exPrk@JU)|Tok$?DArenYEr^oZDBb{o
z{t>qhC-=|8eaYBt-)v;IHyM%u$-S@4?K`ml%096#8oAUrdmW%2@4Fg}#`>=A=o51Q
z*oVOiYM#LCb*YicrdL1y6P<Yd7Wc$xG+Ec2T$yjh=*?DEuNbSdwe>enFYQ_})@RGz
zH-;7s-#8`pYFRe`i5sExtbd20?u|fl8R+|ubQ4CwAQ&&}Cjb}|X3-*A1v3K>(}a!r
z7=Q?^g8duD3A^YJtfF&LFF3wo%%h<)#5xgMjyM;PV8x`K1`w&r5Lzjee}kLw2yKE3
zzAC{jRtr|aHfa<p;IFZ9Lc35YdIgVYL4KcLBP1!-YAz~?LMF{Xf~JW&mcCl3(b7}O
zqBLHlsn3_WRXVHSLpr~WQ~!i*LM__eK=lZ9Vx!syp<Zkf{KY-Wg{v*)#R{qy_2*pq
zRyc(Ql-?{fqTek-lW4(6@aSu+(2S5aj8+SL?bmHx9ZC&WQxWdcaMOGv!h0`;5?CKa
zn3LC_<**S|EA~@ojtrg(o*NuHsW>m5I(0gD{LJ|I;OJSUyx==~=G=Lu>d1xR!QjQw
z@zJ4EBf;U3i=#(I#ue-FqrvlMPL7NzHODU;I|ghYJUVz}BzXM7kQ#novCbvL1ff2~
zk(iq$)SL*;&MIa}1nG#6g>&Q%t>HLo6QQN`KLDY+1C}7g1u2|8Ney9f)0A%0qrp<5
zswka#QzCe^bdpEVC9PWgG-F;gpZZnNUy7S{ZVV@1LVtpLRhM*WF-WDY6fFqf0ue49
zKV4arIOkmWgjP*ge>@MZKaI36=u>*ZbY&m#fJZQXLJt{QN87v~FEdrdLLi0j<0+==
zJ{~4;b2`jfxfZiUPQp-|o@stl0K9^k`tgcRdO-(BDA@)=rkftL0eKS5|1Wu_2_J8I
zoCJLyEs()tmFBz7by>!Mzc0s>ZET@j7$3nZ`dpC6?&v8{-QmGw;D83l#zsyBi5*hB
z6n$ZQ@YqOj{QThg@!-hVAePdwqU%?5I~2?8%uEzCy{lSrfJ$BqNkUKvO-Tfpia7#q
zXm*Z$U%^*DlTa++lOobgT*44>QVk_@&4wh9Ixz~qiMSdBXq-cEidYB50Lr3NsO*zU
z0dq@}D2tY>^2*g9IE#2<Qk1l?vdf_ax#J?SCW;gEuTYIcV*E=m3I0f_6vH3OU5@r6
zcvb?{41@V`GMtbI#b&{cDei>Em<4ATs|JqGm=L3r(lP3ljfmV_A~Yo?2m^qfkOCB5
zu69F1X!Gr*5n*6sva`sVr~}fu!DaWouxMPh`kt9Nr$6IpksU3oj<(g#{h7`e<<1vZ
zI|s8zj^7%3?ZnL!Y43}&^QFfw&ua_cTu58}iwlpejmybQ(=NGb*Q#}QwyrT#7m(`$
znYzPr-Qh(S%B=R@IdS{Mow3_v>DGe}!Yfrni?*zzYT5A6QJ>wtPb;`zcJ5d+bGEXK
zwNXZ)Ut6{I!Qa@DY3P+3dNU0#$qg^PYfLwsqQ=%e_VXEkkL>Ts_z%eb0~!B_>>qiz
zR`#EJ${8B$S*JVW^vmdvvrl&R-QS&d?t9AV%8u%?9&g6eDtlTpp1rbXZ^knsdq&c(
zku?+QUbWV)*|`IU7LD&&8yG9F0WTAdW_bAvaNMD_i0|fS8aR9NBk8UKAC$t^(<N~8
zIM=10zlCWmNwIj1eDL6sM64B&*Wf*p$Z>@L4n8J^;#f#v217|ck|gGD=30V3dzMdt
z3Fj|`k^r{^F^ym;Rp<eY1Z?LvB+=_Ck4R<xiuwdLzX(KgOUoTfT#tu?InYIY(orN;
zYP7ZmwYCMR)*tDlaYQF*Aameb6AQgUD@xl2<=Qphy9F4RP9CFDiO;*iVFEGv4qkTf
z8OM%?jvZM~Ro3OnxLRdbYsNJoy9UzMfsaov5mPp~{|AmcToP~fk*W*s={)h(Vu7BE
zNJLWG;{!MZy+(|ri<tZp6aDqk(&5v#Lg|`IBiPtM8w4(DS|ETbL6V2LF9JO;==EGm
zH=QRyS}7ct(ih0_ts0}sT;zLoouj`l<JkNkk6)fkCJBIqnQL*jS1H9m1^CfP{`$-u
zpAZ2>l7x*7wzmAFG!rAo6bcB0!`PQh0h3c{<D<vUkDNP=kgyoJDhfS3kRRAHJ~9=b
zkpP!sI0Uo^u#F^m{Ae#DzA_7ZOFJA<ibdk;W(Zg`EGCeKH7+0xqK^`TQ>$WDx7Ug>
z5}%w=EI`_!WKv>D6l+pMQ_v@g$h~68;eW+=B@&Hx85n@FD5(kY8*!~QfkC0X^G#cT
zr<UL<<(<Xr2KRxZ;+M|K*G}F%xu(}woYXxt7|Y6^0ZKhfyO$eQ9Ub?EGd&08o`dP0
z<3)I@U3RvwIy-*uta)75_-4-=Jxk`S+qY!6W4&!%u6fVRuNk=dj>k={i^K0Z{cB}h
z@2D>A=uiQ>7zcqDR{{I8Z~$xRrfK<YdIVjB)4-K@r;>oKCk{(63FbEpks_c^>434o
z2N3;BMzA#mNmk79L}co6a=s!wCxm+NipTN31kuR6r$ZfcB7`)B!S>k>#TW-E1;x`P
z72V7{q#{D7cM9T!%e|n%VG&XaJGQnt8H{3{o5e;N>DhEC6%uHpB*tcvV(<!hhN*-!
zi4Ja@yyhGchmeDbAT+`cXba{VyMK#W{luKVO|=c-1^i>?yq%evopR02`-k3XS*aOW
zbY!ibjI~Y%*>d}`wLRI|K(;gR#A2+kTr-#f3<j&szE;J#o6}bQ<CrN=c8Js5itLPY
zKhlwys<t3F0{;{Q)(_@7Dt(?BS%iA)gCr^{mNQ)vgX+Kv^E<a1immh9q4EjkfTtjY
z+bg?z)7IXPLnNUs2maS5uygpGj^F7lMz^Kt=K@e3xX?UQPmwQ=w3v_3H+z5<OYCAw
zp-QO&Y4dv*Eq^hJT+kPx{t`PI>5r0m&N!LhktB%=WzX|-Pt!(s(^DWO+G^C$^@1^3
zuO&_ywa_hk>(^2izE?mV6U`?;mQu#=VI_b1oZr)bKQE)eZZF@8Bq2!l6xyS;tB|S?
z$6Am?3yjo)@9Q;^_Ns1*L+_gNrRk<yG<V^vl?(z0R{sltg$2`sIc1)1FQn02$!(fz
znwWx3k6_ZqHle%KkupwqZ%P1f%B0n&<8B==aw#K0U`fa-G1hhH5Bg+Dk~E1uT3^4}
zQPj`;ETT{8T%W89revR%E2R_6Dbw2)O(eZw`-GlZX^f>8^;~j?R>t&B%~kjcErKa!
zNZAD28-|qrE#1G?C3kDFTEC}vX(5F#MqqEjr@2zrx9!@9F4*H|K27a{>G?fLfx@7D
zjyH_|zuT9xl$!74fqZZ5=#NwDk2V^Bf``W9QEk)G7rrUWF!!1xte@h-`Y!?k7aS?a
z^gtnAb4`<2aMM$2v^AKyt-sZ2M41Z?tu+hI<cnGXDN8EfTEG!-D_a|mg|bvx$`RzX
zbhpaUej-uqnI6$xg|ASSvS|I*eNx(Tz(OA97Ro5(k8t1YOgYgaP_2cso1LZBX{xNS
z76sQlin-aDDx=}K<p*o(PVU!Ap42aPEOtWvSMd$!LV1#Q#Oy)u%ipflYF%&@tuB`~
zT1BJcUZ_a9Qx(Dd?9r&CT$s0t+`NH)Ax%Z8dBZ%o**t)56sV7uJ3_M#jLveO(Arn{
zqRit3pXU0m{#Lz_Tc|`XZu+zqTKEc{ROO`Z?JBK@Iu3ZnQ+n*DXiH!&<keg>t{8(s
zw9THf-_YGMr#vOsKmlju$44sz7|}jGR`6-A=fSNu{@NF7=m=o&Gg{tcUhb!*Sg3k#
zY<1D>dbB*~8OD{tyqmpi7QCsdR1Fc=QoT&MwVaTQc`@_8+{~9@e0)jT6tE}d)6!wy
zU6>>9f-hB_E0=b$o1T<cOOJk@08~{^U)YocUTsaI)!-bo_7=f&z7(p9t%PcfS%K0z
zZ+1-SXhyZ#7HW%VZEZfZt|+uBA6lQPPt`H0XkYSWt#v|ms{VVNP*dP#QdQHR(_#x>
zt?gQA$m31b;q6P+;$8cFn-=q`F6F_<*1YBq8yGg!D0a<)zX<P76w20If^PbYn!E5V
z;;p`<g=%x5tqiU1hz|1wioMXVK(&SP>AC4kn!E5VjBHW6ghIUL(n_D6(n1Pfth&nu
zpXSnX2z77Q=jnH2ssS?(ioDR2YJ{sBE<VL4^Ma)5sFuI*y$Y`VR?YL%q<Dh&R8xv)
zFw<+~ZtVsPHULv$?A2!r4C6=mSF|*RuQuBou}=|HRp)!?VqAw_XaIMU&`P-3k(|@q
zT3Om$Ei?m*wQRAPv1?}Q!kSwh{`_jbrj=LtrmR{k7Fv_nwQ%&P6ra+XvZk65S7LwQ
zBw4v17{OXPewvotre_|w7CHuSTyHo2I4Ag7XiK$}#5!$SJAoY}%uH!)-;`?EINn>N
z;|ry2k)pYfBDtV7e2cz)Rf{itwcLQwzW|K3Bd4_xtGP<`bSjUTz(age%_T;)sOB4}
zd0UF=E-_;zX9Tm5+D3&gSc@RFWZP5iv|_Z{Qrl=ARee^f{gd))xvpRrlFRd)I!cWa
z`c#5ar>w<o0;If(b^Mn`h~&aB4I&Qkn&zq~;qv9e3=95+nrmEF>zJbJnV(>q8B)6p
zT^JjN)^c=gn6#FB4C;OUa_Fkagltelh^lBfq)Oc&Hi!x=q=$#O2|qQH#FvaQph|!h
zjF>ny-_DZ(0x2m1c|or#84j@QOzL}R{`6K&fJFlg1Jp(cbF<M%7*ZYnYA6cBlPzmy
zQoi$${V=^q>n7z+FdUjCYn)*CawIAQlcB_wgyP?vsL&Dd6~%Du>;;IPtnoQ0e`e<r
zs%wf|o`PgM2r~uM&O|Q}f2UZb*)TJh=rT&LAV4Dg13itHn3<C>JQ4w7m!8QHB_8g1
zM@|$oz_%yny@CV*s1y|DVzKKvAq_?RibOOJT_(lY2JHjMJHRt=>jQZGo_;Gq5Cp@z
zoBA9^*2Q&#{-z<NBe+WGCJm6(8A5-68tf$3*Pd~xqZtt7+6V0bDa>JVvWth14kkUx
zh?p4IkY@)I{gQZA%|yalWS{^BN+i$YbD*U5l<y?<8ZX8n6&AZx`xUJP^o5clad~DA
zKnINkn=pZ&j7W)OK@ma8b_V$Km&JGwADJv_bFTUj&+5GvNnYkB#cQyB$#n_Iwc<B)
zgGzjEb-M!mQOKO5(d!#(EKy$~Mp{RSA3e*51OZ?G5RN22R@<lPBLi`XuxFQ!8OZ>|
z2urI5GqxP$z}m|enT2o?a@RzHc4It$<A$mhY)D{EgO{!cb7?Uz@f?uBN^JhjR^mNo
zQkEMt5|aiFMrXpIXyS0-xdpDH@<az-{|ge(Dz38Tj`y~AaVYDnTaNs`>-LU&pSf>)
z(DIYA2U6NIn05{_p&-PShASd0B2-f&ww8XRQ;a0Qo$nvP;<&C(XKu(Ct_tyU@dyml
ziiSDB9|IDZuV#r8Jezz51`#2_&zl&ILhQ%#LH#v<BLKTHrhtGtEPRD@84}E?k~9RQ
z4P#buOyf|b>PYfmF4%>Pp8Yalnkk{lI1SiKijZMo4<8F%!D0X|BG|+7$Tfhhzr;}Z
zGHY%?BCZtJ$0@!7qc}liMt_P65Cns{833Ld0Q18H)G@3jieHt|lI)gr-&8H7V$~+*
zZ98`E3-se}N0&*(RCYFpY<v|XnRqGQB4v)M8P1szx}l@afs6_TIfKOw9znbc{I8(c
zkU%zIVpQs(Uc96j(WHdp%j5gABj<uIpE-9DA0XLr#gi+$80oPQP|9X!q1?|4tB;~Q
zr3L_~g+TYM$?2syMSAm<Y@}<7F$x<-#Sjb4O4})+DFMQQfT$Q(?C1xm0x2V5w*V^u
zn+U8g5@J`JIiiq&wkaVUM^@GBpqyHvb~#AkY9=GcxFBJ}$Vqkd@=`T0<sk)xL~>v@
z?5Y_WZQT?HNzDl)$wJdGADLwfS)$F1ViLqlb5n|$)|V)#c5ysKl!s@4Pr^x1i6BUg
zY8J{00nrVDJOu&Y5|IVPEWVONlN1wCjfCQaB_(NMMo1wC&6apQq15Dh0GLinGf_?M
zuNbFiB5?^D5l(VYQNG-Cjh`JkGJ16M2n;kX1}_et!`v0Yq^31cOaSVcxZ)Wc9v(eE
zdS(n}R9XgUm<lC9lSKOqNun3Y{v}cppsjHM#Mej$wMrG5j{(@IE>=u{RhY?6AbD4p
zs+l92FU9D^sBL+HkP}Cu*fc*3VpXT&Qb9Ke0B6>h(k;qOw3$(6fGpM`0}R-!Vtx|p
z+`NheN{u=x8sgN7P;?Q7j+Jr=pcB6m1gy<MyQz3{b#0y{#mPd{ShSM)7=vM9&WNB`
zaucfPUQsNhwn0l2Q=EM)aRxjIMHf^$DUL8C83sQO4=8SJk~9-y>9?s*Ml#ZrzD-U$
zm6cPNeTxFjst0B`vnsZ*U`bLBr5lKrzK&O-3ooLYpW=DxB}R;-QDm9#{In$J_o<e@
zvvAx;H@HV+uF)@h`WLNhR_@TCj;ufU$9+2%jklao^&dQ}nu9o88Ap@sXv#SDK6LEO
z@@*OZsLUVDx|`Px`sVVqv*DSO*#&ewbaec(q4}-Wx597l&U7D>yN_kMPs`n>-wm&H
zpId1eUuihMIQGa>v-H&!&$fGQneB(=?T0hlN9FCK4?Ux69F(_fdR@hf*}g;Rz>8~~
z?j_y+thYYn?UudW8Sh@%yEk34f6b(?7+5DwZ`v~oWp9=DcN5EpSG?O-Jl$_6?jK(1
z8+zy&TH_3AX+2s0_H=#Enn70)ST`UrjYucg$fGIkfqP%e^qrLZPQKrMN_ICd*_QWa
zJ+*fRZV#+B1~QF@<i<k}zVe=DFk97<sp^uey6$zoSG5}kE!$4($b_aR-E;b$kO>UQ
zfuT&`v>Z5{ZWvn}d%SDUqU%vr-FJ^K+8#A^-fMinY5&bLi^EG@k6MPZd|!6={%r5w
zXBJ~ChOY_3=jJo6fb0s~Z-408w`MfeRlebQv+nh}H4e^fLu0m~J=^)h6AOHpD{to$
z8(iqSr*++7s%!g=oony@!BI9h{W9PGU^g__?cM8~zP<8^gRAhaRhkP$!pVwkeALvJ
zX*w)79e&4}ZXBfwY>30uqXGw9Xc#IeGou3M))hcMP8D!vun20Aoh_@ayB{1)f9Aq!
z>&5q+FR$(6_yf-dxSHBKFW-LoiJ5EYSvO%8KJ<4l4WpG6)ps1X9T|6r?C!|81F}2t
zp1VKm?|wpw)(xf_`=b3>IaljnK67v4ec%3@$1#j8*&5&C@VAd4f9(MnLfKreId3|b
zzIgWxETtY<%gL9n4%|0p`j5-~$5*YRkK48_+J0W?2jApxfAjR~r|-4g3$6J3@9&WP
zyB9~7E`9Sf3iC9qnH{zv-D>~fKXK%E#&a#5S!aE^`S3G?zQvxlHljLTbGmuo``-OG
zk1Y-^CbP{gWGB#w{JsMp_8(pG9+Ufz-ZL&6-*kM>k?ub#dymnQ`tb01ESNg`&kmoz
zFDwpcoDH(Gfh@ds$oM&Tqz|7*5jO7{heQA_ve&AYt@X>N?>DCV2h-O2RqGJKTiest
zCblg4WN%-(rvLu#KRx)9gR3<!E*{Ogsu#aXns8@p#<^W~Zhz$V+_BuYESodFU9xXi
z#y24Q23C9rSKNnwZO~(d*f{S?x@T_A*ZS7(6>sOF^HEjPTgH{D_C?z-+XLyoqwlvL
zlby|rgR-l6$+GOtI(^Gt1Z13@va|DE#j3OWiIeN>TdC>$!L_^1Sc*G-@9N!ai^tM6
zeOYJq(v<9M%s9#7;_lRY&cIp)x9zwN(9*p9hpr#E-sjPC|KhQwmmf8E+_U^q6Q*M7
zAsfr)ofv80is`$fcVCce0xOk$ixzZe>DYIji>61F)l1Qp%GO28V@KtZ2!pprm5tfT
zp?CJZ)0M64c-wgI3z^=-a_`}l-j`N72h$xx@3dz<zNL<IZQ$Oudl8_A{f%oTQ$^#t
z!Qv@j<1A(6Pk63*|Fbg7ZaaF^y#Kay$-CVA%*ItTXWaW__r3?7zwrGh-=iw;8;0f2
z-MuC^^sQ9&V@d}qpAt60x@q2z#bDd<ghLt6syKgtwzeTtyH~E=`^ew4%J*mZVVNIZ
z@sDKuCuRT1th*}X?v&k~D5RkrQ(N2e%whHe%6#jUT=k*F;lKBFE*W80_r}gQ2VNg|
z=xKk{-1@`1AJp9&mYa7h4KG)H=fo2eSK9@QRDB3oZTmTf#kW1SI#uAwI=A0%%j`TS
z?>x7%^L%>8MFKJZGfr=_KeKX9*W&eW9bW#-Lq{W~q_%Bw^ij(p%-ZiReD`Z;Q!851
zgl=K6*&nrZr+bdP-!hE(TpYgLv$St{Fk6dBm1_f;+TC*P?)&FgY6liiJgTnEY8Hgq
z`t~fmoiAp$ZO?2Qkhcw_TLxe(*m6>rt@17J&eZqG^?jN8VHv-w;dga%)hH&QrhM_}
znwu;0=GMsMd(QT?YOZxew^mcUEb8u;u~l(6-`(ZYtJdvVt@F#LR;^vX^!k_2XBu|M
z4LdRo$K{6O?|VlVk1=bY#sX|!T6K0ks^{-kWt#WM&3iJ<C*<Z6@7JGPve2~fciS>8
zd*znBnU<3>e!i3MUX#5SmyD0Rb<~SqxxV+_lw7}e#k=ppzK7nSw0kJ+9m;we-}2l&
zpK0GGx9?kN-v7|MKkeS1_U>mB-y*wP?gFm5Gwz+Td#AdJ-!aO&M&5HDeNx8xPw6nX
zz7x8So{B~w!;hYx&~d)w@almeK6<*7^Y(wV-U(1kG=i-Ew5$6|9_!zkJYVt||E{g^
zOASU@U-_jL^Gg50FLjs|H>|?gmJ7x_?Cen(0=E1^8(iXc*B9|(;t!IPY<dKUKOjQQ
z+ulK>t1D$vlBCkuQ%VrW#3!VZd#)uOvz0T9DLzRoI^I;Yvyy%bHDD9=LwuB)xOfe=
z%*jxJ$z_}sX~C50@#7cH51)B?EO_L?xpO09=h<NdNud0CmGhP1PSAMdEPtgHxaa$}
z;HtK2($_F%i6h9#ER{6$o%ZidA0A5|I?F)yGmpt|c9-nj^~lwdaqX8~`=1(gWd{Id
zWfiZTzIpoFXVxt6vrW8o4uug%8xLN>HuFlDrbv58D$b_t9voXqtiJ9joK+~;zd(mn
zQo}4cF`*@7rwP)EmY6QsP>|7Mu2tgz2k1n!_8~?xC-c(fahOAr_3haFnQ<If%2_lH
zkU$GoieRI!V3*R_rAkgAHG*Iy3OSj2%qnL?tL}%9NIlt+;Kyd-VxY^+#z`Vgh(sDt
zr7npRQPCjD95uslNGn+lI8CJ$Mz-&MB-acRX|SdD@!DwHR;HzAoALR!Er4P}s+$A}
z1YjF%X48%y5Gmqt_ks~6qJvcp^a?8A;vc&BG}(oZKkOWTOq_X}>}gB4@426R@VOPw
zv9$9TK%^PG`Kq<yXPrA%U2SRW3-^<FF;G#;VbMoN5pxFa^Hm#;CPEQLV^tb}CehHX
z0BFIGGTgAUsm$XGOeM?`fenf$o0}$p-1NW@Mpq0VUHTAN$&IkXWvXnPjjATy#Mo*=
z#eh98-GfMy*X9ui_?Q7d8CR1nYq9w1k|@SWrg}9Z0CFPnd;uYZMj#m?n4*ju=Bl%+
zsH#D1{x-^DHxBCn$wzretLMTb2!|Y(wI;#mlJS=!$r!}qOrD92D@olUui7YO&9CPH
zvhY1G%|V_886wQe>9i?iY-ptl;e3c!Pk$CQ@f<tVw5gTUDs?2)gA%!R73v)WlrsP)
zh?jnb7sQ_9<o-Fm2<%yWPSmNLfGFFrJhue?4XNHB;2%PP0R9#ZtU!IgT;C6#ChMqA
zJ6eC%vuD-QnRdST04E1te9X5okjB9WECLyepn1pr!|xneah*<EPpkHgMwF#Jd91gH
zTDAh(8(!e6VqBTaEfDcSK6*9*uNt`FT@s)H&Xf5v7L2H;6uxXt8Gti!YLRpUr7$Pq
zDtgAbBuR$Yqovnc2z*-74E+W>8HO4HrQ=K4T_!8ET1x2}3wDHsx{KRYx*kpA46JS(
zJ4z>n#W(?bkeyq=dLx9<Wm8SVD<Ddb%|?LIA@hL9FEoYYMJgJQP9dEt6NGs^r&Qr^
zkh-jbp{Xe{Z>RG>Hq9+Eksv5PgI)&Hc@TyKR-8;E2uPR+MHP_{w9mJ0fwzmv!G9#k
z{d1%S<d!p$M!n2nHrv#iY1$(<?Rn=yx@pf!)5*o*Ri~f9Y?JJ2%D6gYS4X<*z=Ol-
z&J!!HlZ!?c*Zk1cj2&-P19of6gSW5U`B%69)pr-t?l!RARn2#+?uLHgUGa3Kon64~
zL<Kr!S7+L_J8j*K_s?8DMhJRjPmg+{=1&rTdhI9I9wh(6!U_)7I7hHSayKlWzq>or
zdQfgXxZ*mLwjNT+fjK90wven6qsin`(tktW!o>h<MF3+W=)4k4g>#F86k5qVzSkyN
z(x-Iss=_&pQlMWr)VE;%sxD=`p^v~|697atZF*qFV#yf@wLq<G!MO@cNp&;{Ha9&f
zGfc7!f2jL+<_HW($;=X_DQz%Ku`XCrCdpBBa58VkfW=l=29=u%gck-1`nPpjZ^t!t
zum$Q~J<fj3#Z~3)6okfc4Ov4iM?@tjeGEXQ^gmG&&T`u$iAX$=48?I8ts6m#BOINX
z6J{gfD^U@G>A4uBp_eG4JWq}o{+Ip`ffB6*^{B*gxUh;CwEqKzQU!(SWT+blUrA4)
z&bcajt)yj^6Pf0SRDxJIwl3(Ut_@<Jw>;OjQAoZ@tK%)Czrj7j{=NI&-apy3%I~{9
z`RAX{92%1kjlFwy<<Lb~<U1=LJ1Q0rXRE!~#@V_0rZ;<jzh~WMYP3JG;#|d&dCkI=
zbuAvvIGgi=gsi)MjpPy8#+Ik-yR8QsP_Rd4<baUERu54a3UG7I>PH?>iCrrm(2w1}
zbXC4~?dG+#x9k4CRo4q(hdz4hMM8!H{;XrjYTTgcCD>>1{!Iq&0vOmRx1ht9-4e0@
zQve*$fP8fGBN#N)2#%;^3b4*4V7wF&!BN`WI@7*bA;y$}Odh0)0^%h@Vi<p!VbaaP
zOgxw8Rcb94HIp*B)G4ItJd79mAXv2A3#OFmhNGyC{OZ7_;M13vH%B8g@f%GAbHix@
z+)a;QXM4WlTJz?%uj<%N&pD=23!P$tYBB+}$GmxGVE3*-KU)OzPT~x6G5oxbG=8*=
zjerGHZ5bw^s1^A6W<Y&_&NN9tdvR<60(r6nl7p@9<osu-s3SRI#Dhzoy-dZCtpr=J
zwCxD+Snd3maneo;qe~+`9|o5<d-;oBCLS`E7V5`<VhqpCUWf2M9FESvLGF(g$gDiH
z7Q^rZSb=9cwog3OOGUAZCuaB#s-WYO+D29*s=ifi2_Yd|r$P$PK$k<QjKt`KJg$5Q
z<W(-V*--dOhz^uV|A@I$OfWb}h>A6zz<!a;MpTtod7*&0WF)E>+1oY=l~a(^d(wAM
zgme(EE(^n2P^4>Bs>MSTp-x>eH=~M6JEEusIMktL1u8b`2y-TAW#%xLs*7)gEedqY
zjH$@w$;}Mw@%$dl_Hg0e6?Nw^BL$wH?H>u%eSo@da6h*;|AV#taed31hh9H)&$m*)
zlQ`MB<~Ms^@4aWsbPmX!1DVbtxpU~9Ju97~D|IIpU0Fw6x}o=>qxVszKU>+DZt6=n
z_CuYqqa)j~H@$5i=^_pkwt(w)&er(2rs+=nc05xPfUGm!cW$L-9H`V$lXf(s6s8s_
z<N#K!ZlrU+nW`SSs^{Ltm8#wB=x^HLe+we4Q*!gE^x2CKn=i7w`ij#!C`@R_Npea9
z*YYyXv-wpS!!OXy4YDBGvNIg{z_>MwT}tkgH`gk$6Vw=97_Q~{kCON@&kmy%xreZ`
zMwQtaO=Hv?vn=Ri)&&E~%Tw}cQV(x>a2Vpb^$E;;r%?JQlx8j*Kq_@vz^5+9QdAD9
zxi>vU<<w|VrRpQPAy}{KBv-OQODEWfUI_N@=PA~!I&fC`BSCv`xCi_gi3~SA>UITO
znK{RmVg7;NP2jA|;H)eQ<|4Dwk|k(V2BwW~YNn<*SktUkl*-c$)MCeh4%LLYHJ8@T
zj&*<+-29Y0;9yDFX?vyBiB`6=R-%+-hgL%Ao@#jn$2_2Y!3oaKc?HxL#=u`Jni-!~
zO5rOw$;2D!zViHZI3hwvR?2fD397hIo+_X2DwL$TQe|(KY3)HDaBdhQU4H8aM%>l~
z`ALCty99{Pg#1xbKz;!>$QWbOBlX}&X?Ya)k1fzWWd^|&^~GuzD(Dullv}`2jkha`
z;OzOUs8VYoZWgQlgf)^sKA_{i=9=EKsaf!1Z&7G@3Ft2z$;k8I=Dhi(W5J#`&n&;j
zwQ@T!8`r?MeU8)N@7A|oF?^1@rt7N4g)!{9jAQ2p&mL#TF>_lX#jvZtUu8G+ifuHG
zo4dwfKBBlz;|j9K879!70BjlQx{Z(JFQUjWHSGSBWc(1>B|azdnTsRmP7R)=>pf2M
zlo)nP#t_{B_5?#Fy@1#Jz-S!yn-M{^;$&A{eY)BQ`1#%d4<fGRP4FQ}9N;^sf{vaX
zXVHTzviJ_%IMNYd_HnFI?CWjpst$JLnNIOzLk@ZhbB<6rEW##_cIR}6Hwil#B&Hj>
z&YlH-6@&E(Oisy2hE5#glyL<-;mg{^R%9xHE82<@;^wl%ym$fJ(G(qu-&hLYdF^rp
zhF#adf+hH?xJZZ(;=%=XU)hlv-0ejMT(~fejS6yaX7LIY5hFBzBwtMj#K=dEoPt4G
zp~;`F5NHpGcq(<l8SpL9&@3|?DwKnYy6UB)l*B?7R#ND?^e;4-!}J=V*A*6thyY2W
zLCrV`mlJZ#dPxdWiaa;<ylY^Jfk*l$%JzHo`U5JxBEP*PV=`)lV!Q-qP5K_iR+B|v
zFlQl@pJ&Ct0j^%g5;}_;XU?kNsq|2TH*(pRL%6sl8Ylr1k_8=7_L6;Sph$lc$lFX6
zhCLBL!6Yck!;XY286goWu1ganbycc+Vw!@&$l<y*wJGXVG4=>8Z>AcOeoFnd<o3eS
ze<z<6COGWc8tK1KDNPjS#5sCg8JM%p!S#?Z-BB~C_aIPrShEs@GIPvm(MR1^KStcv
zW;y8M23c4c(Vo+I<&Jl&_i1!Lbakh#-Dy`h(`a_f*6vknFLd=b$7}YR_KdYbwl<_2
z_dYPKS`Yuiy7!kbd~n>v{(HwGXSsT(3~p%Ye`Yc;WiN~*SnPpEbc4%2*}3nNV(gsH
zpYaaK-l0Wj*5OSz?UfySiKlg+%6giX0%;yb6S|5sU@kRv#uGbN?!EQ-<rA<}?di{S
zACkKdJqSJQercs<Q0{)|Zs<Gn>F$@vI$)5jZ<3k5LAh`6{q`ZUzOgL(VAHa#@7^n`
z?fcQV`pOU6_rGpi)-CS^(^_4xa=V$T9dgx<`yCIOf3p3(szcd!SOjquz9$^gBRk(p
z@~}N}E97*0A5_Rq153`wRrSl!m8$KJ&>!Cs*>~ifxfS0jByMic@F!*d<kBeQbR7X$
zrZm-jxUF~jDC(<i%J_E6zTFS5r+vHM^NnV=^^%(1kBXXV)>^r3M|4kmxccq)I#%j-
zE}s0&5gk`v`|PNW2@ZQ6I(mMshXCW(R=gnhDC^3$bf#Z8#jGwMxGVE$*H-NRHM_L}
z*XOaItos5?O~9sGId^@=)hE09vh`h$I=V9*=j4uaXo9<coin)YP#@W#1`g^t?~v}J
zbt}66(NjO#_L~D}$l~Y!nF-<lYJ26V+wfNhZKIs|uT9->|8;-osLB2}J|6DBIpD$j
zZ_BFa-CR5Bu>S3U6YigKZhE^-qqUX|0u;cgx;bcrV=F~*f!V*#NjP&vmevA3AG;=j
zE;9s93bL!@N^aBC_$aLp+8JPdSe>tx-7NdIOVtfvF>ZL+#>I%BJ2=_F>SpG%AFCN?
zg0_v9#ZWYPc}wANaiSS&1MNRm?XFrsNWcLEjp2I?U#T9iF5OWG#96fvi*J+KDPkMF
zh%1#k>Gj9-`uFsrBV<6xxSC5M=1`(zxzYs+wC0WnTxX`X(ibR#jpCn>tD9aVaAFp_
zssZRIc}e`k^w*M`T*Sjlv>}redeNqqsef=#3U!z!VP~9FOi3IN5v65{{2{#<nR-kv
z+)K+zJiU6z+e@ziz52D+VK@>$MT+0zerD`^YBllZw9yay4ga=u$BXH@m(oV><LcTQ
z#}|baV{O*wzj1P@YQ^YZH`bdDtqpKy82y<|FWfUc<?vZIXaVc)a#PzHUv6rCM|gKv
z`t10-`~Nb&&cXk*MP~}Eo5KdvG2Pk;i`C@M@`u(8_&&Ckt()*&tK;hVCzcA+!N+wl
zj=>j##46t!g<xUX>zB{Vw&uG>)7=LjB<1cSa@(+M8(z0jG}bh-dQD@x$G*Uti5$7i
z%*k?JOt<Zk8}`b!z3Vm>IzX9h4W`4aK75g-wr|ZsE(rU5YZQlVJ8CY<>!8449ncUA
z+OnNJ*}A4DWwmHD%$zRYE?+ajje;t@%T>4iYZmfZIak%1ja+uv&Ml2Ew=RA5cKO{Z
z+1<Y8pkOD}Muk9yVJ}|{->hA_xIBE<^ZKY<y-l`lTX!Mu>0ZC7eC^;Dbte0L<2py*
zr(f0UOt`7cU{XPwO>oy9#;ibiowJvoiRa9sT}2^*(50{nPnBQ<bF!SkB)hpc!GI4}
z{A#!N;_wdb$Q3j0awCZoEh!a{e?`GI#wd`fJ7awm2lK0!4oNmjQO-heh=twhn@|nO
z-7Jv!5@I2cJ!f&vf=NP^2;@#41es4YmM){ZnZ<N1OL%n$<b{$LVA|$Dj_SK85v`?M
z%}Au4vr(5CaREv`yUJ`qz!bVfXPUxE$wTpVTJiaKYNpx}Ch8~A1-oKTHF$Sv={0tR
zmNC1h4lEYfT=n+XM(QsWqBeMrZuirUQsGb$GoXhBjh1NBK`n-?RP6L6s@+d7!a?jh
zAjnD+*bk|O_H3<hT>pyoAQaBHq4uz}A8Q{!F7co70z;tFLBFN5f55eVz_oqAwST}h
z|AK4(d#>^yI3Ek_{(#%@8@*Adf5PDf<5k^=?ibwY54gZ@^d_Btox|(bPEHqiY%t$=
z@dIP~|1h3;Tv>DD<c9|L2gZFL+Nzd5yJBm+Vg7L7r9bOTbJa^%(~W)i+vG-=2=80r
yhO%6BhT~-p_FSvnHmo4M<2QP{u40YD3m8W4SR?PVx};U-TK?>>Ir=i(_J09RRwd>D

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/ray_utils.cpython-312.pyc b/v1/executor/__pycache__/ray_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da79b95ca2dcd202b01009a4a2f6836775d1d0e2
GIT binary patch
literal 20559
zcmbt+X>c1?erGrC8w3F!;MqJx5|jvu)_sejE=m@qk!0DXJp)7RCIt!vIo+TnB4CCy
zaV1p7iKKY5qBrqcNlop@v9nP=Y^`=bc{8bOs<yTY5NQL`Lsc{tr)npkXj9otCaK;1
z{a>R2kb*~^?34Jq``yR?{qKkW;dVPXgt+PZv7T>m+~3lN9xR2IwRQu?-Qz?~<m23k
z_T)!+d>i71N#lr-r!-^SG-)0&vv*V6GHD&LPTEFn?3<6<M;s_)jyoq^BQBO^iMuB~
zBOdl{je94nMylAmE$*AF9;s&U_PBl0KjLTaj(A|QW~7F_JL9#Jbt84`-4(B&42}fZ
zyF1=6**Mb3bCOl|pg&K%X|j2wd9r1sh2?uuwsoYH=M0=wEeRj-+6+h9#Hx{YyEe0q
zkq*@K#XBcAjcj7Is^eXg-6P#R$4dC)J(Ho45VdiV6Kme)#9FEGBV(bZu*i>WWjS@o
zsh7;foR`F)w0+DVHoR>b*&#N*&5i67o5W_ZMRJL)QvaAm6p*t^>=xVb+>K{Do_o+|
z4=d9l^^1JU%5h^RvGZ;7$X>L!5AAJ2sr`lbF1#O@<vTd3x092#wF+Ron@6@_O}0#o
z=v!NQj)Y$4-Wj{W-88<=-Oy{+j%>p`I<QLp(zfC%ZADu6bwI($wl}uDqiD|?yk0jH
z`WZDl9O6}{D2+vD;z=<!n#8B&#7uHVmO=*Aed+b{$0LKMjt`z08a}C-UrEHK5-8z0
zAC;r=xD+3pN{q$Ek>VPcl9B1@$hbT;GmY=+GndcJB&TPR1LNbeG#*V($w+m^60u|?
zJ~cir$sh7+)#!{YO9@nrN0Vby@+6A*hZ0Fio|ME`G$~z@63UdUps0n~k5S9D1Ilb-
z^z4)<#V^bx5|XU-gB;(hQ}Q)QepQZ6PfPOAsKTajQjSheMhm4>@5Rxpk~kADul8J9
zF&p*`4c1^>qtYaekj*QSj9!UL$nc!kGfo!f+Z4SXjm0TDB1_8Dj65nS5sV^|z(7&M
ztRyj?(b7h89Qt5k?cd??TR5>2N2heefSodmo&|1<7maVbMogkXG6Ql<fEEkht&&-?
zN%kOWjTy99G$YR;S^%X^(JEO*8>QpPN)Z&Io=bG-DTR6_(TRF)(It7%Ci*C}=0>V_
zfxF3%R9)mkUbX5%bavg^re={M+|U+Uz|INR<MGMx4YvMat>_j35HfWmmKYbb1R*&k
zT#+0?A;hDpSbSC>h=@hwv6LhV(J^ejKus%BQV|AUIW`cvJalpB=*!0=$Bthf8a#e6
ztXgCV(3u!5AOp69X2f3nt-XZk_xXEVvY30znC5=R#Bpgp#-$BE;D46~lHk)^1V~Z~
zvs}n9d?IAT9?f9KR9hs%z%-&ZjZRHY$KsM05u@Xg(HSus5vA*~Q7MA)g-ohRk>X>j
zDJqXEs^!`Z_OwSLqw%PsL?Q}$<uKX#Ukq$bPEK!~j!pL^QASGk-JIFIch9xm($;wF
z%GT-G<khLfR$9TW*Za3hH>J@T9G9(fbT%@RjK!7k^sL;1wo<{3`w-TL+J|hV717V<
zxfPf1*2%1^X;I9$`tFZCcJ-|~xc*%W$3AuSt)U3FZs}+l2pg`|A}U|FkMK?5BKILb
zEPL?wAukJfD73bM+=*Cq(y=5E$JtCZJvY3v+?`a@jtB$v2jAVZa8BNYuXSUg1!H45
zf-cI(GEv+tlqdv!d=s?!8-kuU$0v2F$W7Qb6vF2Oqo(WACtT~l>1)oAHYnjFffx(o
zzoy+Py>{vOQDI)+<4XYhOXun@)z#nhxu)6aoinESv~kRUb88q*g$f8(&=IV#NfE>;
zNf8oLNde$KJtZdv09rWYP>p!1e%dm5CXtLyN|Dhi;NqLf@?92H69KAf*IQI%S})au
z%KG8BCe5lY;AU#$xGYb}L}1vlNkk_lt&8aBs01WTbRiNGm5_;nmTJ{tNmLz$8q}6`
ze0qio=?AI+dx0W!MH6DAP$sqMtAVhr*dB~onL`9<tPSRB`?9rtOSM~bwfnQR`<H4D
zE}UEmHh<9aUP~^xCmY<83!cmdPcEGPvA=nxwmly>yb`FtH+*+E7ucQ+Y|jM_X9I`V
z%*MLvRnF+EerDt98p_%n%+?Mr)gJ$3B3t{7g_C)I!{W(|za!)7c>V+s^s^K2fADgT
zOLG%=ZVdC*(?DVRzJCwMtP;#9-%1uw#zgTHl-knk%Y0&>azB+$%)H?=2WTy|T;T+L
z{nm6|1t{47lw3sGvmB7JarhU(0_BKl09!^YE`=<rMWZ(|;XMrsEiokmrbD%8(4#tl
zrwdRi_n=fc>Ix!nW?F~Y*jOYXfo3aFc{bJi91MMB*+FV`645*dEDNaEe|LYz-<xrr
z%xpQigxKGk_t)k8J0AOYtoS=}{@$#=ciF$?X`udTW9tX|-`k&S?8`RxWg7Qp0(%j!
z1Uhqpt=YiVho=AR{Bvh++tKW{qsxK8r#trCF@0Lqzv|-xI~m}pevMQ}kx62PK(xSa
zg$y#`2)P<j$XI%p-IN+YG+K^Jix{^WsSMtVdw`;aphF5z@K|2EkiQWgOVE+#^&J)s
z*RTPyHO;>X_?|P&8Rtw1`a*m3C3177%B@#|T@4Dqe)$O^JR3sVkT&V~cg~!2>e*>?
zvPc2+e2m+WHm1#E#yNA^e32_r0)1^JDqwe|E^U@QY4Zea#)crXb40C*oZf2MJb(OG
zm{ZM$Ch?gz>g&B>Mnv3MD9)$~<05u%L(u1=%@b!(-is1HBb*d+%ZKog_aRb^aVep?
zG{6J702{8l*MXzzh$*oIxZcF5qyZn%U)6;Z3ib#zCYrdWT4m|mgxOWM5}lj|@0^^v
z29{r@#Z(=H-=~-m5wbAyARngmDn)1E3%ROiT;uWe??9|fhKM9JAwsoiZ7GBc!ImLt
zJdAJMxG}KVRQq!X;JGpv(TdWB(}IH^;M~5Pt2gWFU3P83aj$>`R=m|2f7g<?`$7L>
zFHV2=7e>x^lFw8L_ruwjPORFv9Vhv0)i#!p@7|oL>MS&r^KZ`jH)s62Gp^l;^EJVH
zZ`^$&SJRiR>C4sZ&(`eER|%Q+U28@|t!LrHGYePMu-LWSzH`~TD<2F!IP_>&COB}%
zvf97}8Wzqz3v#vX?|v&+v+Z%swl6GPQ~QJ3KWq7umQ2;|Ox<p+!j4SvFe+5B3aehO
zy8cc}9`vyBy~bRyKO5}N1rKL~hd=Qw1<&2FfZPRI7RQ#m4lMf*=9@cm&Eafwc&T~Y
zofCO~aN(?mtW4LVva$~M5KPhE+EGN{_7H2K5{{|F<(04t4|*YYqc*sB!<3?0rNs4^
zJe5!_Gt(mEE?`9gx$-$g3SqF~-cMbZWH|=@6*VF>#0q==d>Lwna49j{p4+EyozA(M
zv##bv@zVlPM~98b9}f9QoFKL*5>Xuy!qkvG@$QO5zC9C-7jmqTh&VMGi7+-_H7ZG2
z4xzeg28D`Cswo~*lBy9<E$>FMb_@xO<zXsiBDr0@M6d3G^a1879*KZq??5V}dPf+r
z%MDbEB5Gf`gXrgPb6*&E`yl@h7K?q?Y87v9y6<1(@L09j?VS%cJv2VN^r+*{Uw`Py
z_8wm2koIM*$G&$}*ko^b+SZln9?G_z&U^fsz}c*4_zNT7evV%?BNIUF@#kHwd6zF!
zeJ1OAdDY0fhxspzMvr67P6dW}9zAqEP#z9GxcOoDAJJ<k0~a>LQH-t_h*D8lBi8LX
zY1twgCCJH4-(p~rv*~U3h*`8iGUi7tOqR8RC$_3?O}SA}5=1ZH1P>G?*(jv>gvcaN
z4Os}XG$uhsF)EStIw?s>A$e7T&<a6y47vd(%}$L8;dS_-C$vwvgks65X(29Mm*PUt
z=#(r8S7wx1AwD%V9TKFQ)6ytp+%U8S(7g17gy?jPwMJ5Md}{QX0CpAKldLO51>n;0
zxFl$!3OiWIp)ny^)UF8Nk*4LT>wsl(3maqs-3epz)FjE`g2pZ>LKH*MD?;j?nVw2$
zJ!8nl;f$h2SU?vfDNH3Gsnf*AVzQDfG}NsWhC^Lz1C_)uYiU?@=p9VSqjbpiK=1Uo
zMx=yE>Us{xBy}*BItc>1u})40vE(Afw)6vUlAF<jc5s~7tq24PJQVo~k_%#mEK(6l
z(9Q$F643v=b|jc+UAqn}igGm_5QRD*x!UHwWzE{^mu(IC#;yg^vaLSf(79mx9k0g6
z6JF5+^}wb{x}6tEvY`1obnEr;O!FV}I<<!U$yMfq(vb8j=T+u;M8n5My;YnC)9{D9
zY9&Dp&?3_epsR9fki$rH$SiM0s%iu=E-j;K*SA*!lPREpJWi#o1(;K4?pR@sz(Qj~
zFrEsmUt=xx_fb+AK!gRZuDREJw|lWO*U+17=zVx{x%$9@HShG^K78wN#@P<ZX<_)O
z*MIvvx4x6}_GG<159%I8Gv1yh?~#n{h=w>A6|l*#phfvIMXyry8b!neGC+~z^!6=^
zB8bZIW0Vpp`Yp;35Hb8{G26bVGMYDKwjKTCQg++WKXCZ?M~B%wz-!&IdW7;v@mCDA
zpbQL%11u+TB0s~Eh@NV@z)rX#T#{#iSH>9b!FejG6T?u@vMu<K(|YPeQ)(5sln7X<
zVljCN$?xM&A?9_S``qcdBQ6}ym>M+TL}D?J@Ww{93oqrPn)fFuodwa5ECS^pz+CWt
zk+u9DKg)+qsm&LnF$IVu0bDjJO(&rlE*n2#jpE?K!>QU6P>%xH0K3H|nbrX;);=M%
zIeb1YK~oEq3SJRN3dzEaSn{gy7W8GsR804+FhGsLqT_NjK2y*vFujA;Vg!_2PGIn5
z>lA<{PLhe+oGn``1%>_?e+o5+wX!<qe{IE6pZ9eB;9Hr_9jhF_b1x$I-Zi7q>wrve
zcdQyYo1ZnTdN*i=Wn!+88r4+dq&0y~yr{tdF<*xPNnmEHe*n<&BGjPcLS=)<UnXL4
zAMt1r0jeLPs40O=cry}r4>7>XG7%+<3b0}gOWHKy)bmSEz1L&hH=8()iD=e2TiTLl
zYUK$MB{zh$Ic=r>^p<(<ofcD>7IuR4hZ}<4%Y<)320rz?IeXfkwp{1s)}&uAC7RN9
zK%^OHk9e>R0Xdem1+n#gt3Dd2NGvayCr|~OrwuDsr#G24>n)`DiF!S?^t^^0RQPvV
zlf+Q5FhR6pLlAA1Yo`qrdorZIqWnjNoy6L{X5wb;AxG-(FH3T4Y*vU0<FV^fg4BGP
zy+UC23gK#00n?EX<IwnlrvN7`;z%({F2}~NCbbF$b^;s=F$Va1Nsz&%DjF^C6JCvi
z1p#WJ<EaT#f)4COo?<kbpd&vPOHv0>onIk!p56>$0BS~*F;*FTg@{wHD|SZXGhke_
zx*KMp)lVHG%up;}W;BRHeLgdORS>}>%dsmnm}H;Ej!nsZSE8ekDA6!j6sS4X>cVnB
z(k$q$Mb%nJOL^A~O%zgHr4E0|0EJXdSQuv05rw`(#T8F|5*A*cnt{SK(VfIzT$cnX
z!G?PB{3~TBUYoV9s%1+i3|^JM0=|VY3uHN(QQl(wAWI-=fGr;qfln2Q5sq2(#QG?r
zU4eDOwu3G9Tfe5wPoMbQTd>E#cq364a*`}Hz~<Lqe)%lMIUY+$;piZ6i?-zveaj;X
zY&8cru_e6{BTF9O3H74HJ4*6(>|$bO@(Pl{7jIG&p$BF03~AG3BiW>c1<kfs5t1-0
zL7A4Ns7M?p&GDtp+JuE0S7W1B1wfl1N|5>iLd2HBY(wTl(lrP(34pF56qjQR+6HtD
zh8>6*IzG^)QF#g_Xe7!OAs)LX2}3~HiP#me+!)vt&15Q$?Mhw++{6@RM%p4wMo~_I
zU9{BnB&{8rJf^r|Poqgeiejj2JBLGFjdXcHv&*!YGU;$+q6YFCh*WbdDNVwbL<Y=+
zC~u(*GVRFylxv8I@=<yTRN4~NqS;kdD-2NyY-Y$IlT0noP;{N@S*OQg$x24`Q&4sY
z6nU0P_-MG$$WV@UDpZH|MB+_(2bJ-xha!at8hE`z&{#fi1V<d0snCcb|0W6%Qdjl@
zqUO10)tt+lb2ew4&CAZ#RnB0x<ZZ)HVVEr$XDf6V-p>2ymOMM=Pd*I_nYNwT;I53R
z_Nk}lPAuyY=1+dU|HNM=m-fG$G1WY6?a#ID&bIFUtaWeJ*0|ufb24uWE_P>a?KxX0
zYYRQ-e%PDsJ@~2Z5Qw<2@AI1aT+Nnj&6cH_aIR)wwr1Z_&4Kyhr`DPb6c^U;il-s(
zX<kfZn)|>5glqCOow=IsY)yA2(39yonD+`9PaAlG_VbW(&F=I3n$b#3f)z|cHP;-@
zHEqu}ZU3xkCq#t>>z%q4r)S~D_YW*?%{3g#HXK@V9$Il#-yXg-ylSxccCUIkpOCBC
zk*(U1uWDGS^4~f6t_yGZs=9nttCsN(jUKn>3p3ZeOXKAV^d76paYb(8W5!K@CbH!9
z5zJr&V=Post`w;)i5W%JzFwn@8XHA^&h+)#N*hubTgm)Jv{L?!WKj`Y$@G>sj`L~L
z#|B+MVHDXsXGs=0juJ%{jn|H$MLzL*+9aA%V6ZW=B9~E#rx4909^zM-Lx~5_okMu;
zSE;{Y4fuC{!_JkhLj@j&xVO?OK)L1WDC6EHh~L~0Dsd-pDH*~@Nho1~+ym15u_AA!
z&uh+_wu)A^nhnV!{{pVX3NFf?<`FwebHJCg#94{1?-|PKxKY|5de)WpzF*{`sC3c&
zq$+j$)hO5nvJ=KZJvLB%MzKKwW_4u;m=zglTww@5mSFfk2~Glx%{VkOu-uG;%K?AE
z2*L(ND5f|FKM{*E3c5mk5D6K?3qkfRbn!DfO!62-09Nj26h(L8w9z<;I+CLUtIkN}
zb0Y@5Q=rvRSUFGxMFPbULF!oQK_YtpA7s72IuL1M-X-v_0AEw0N;K`E^FmY<QAEK~
z%qW=Um099@1aL13`Bo5jM+Kp72dk$DmqF|!r_Nox6hYO3(v<vN1gJt|<jumy9vh3H
zDJ)izqR~1Ng{AgL{Z9)5`7bI=LeP)(F`~E5v`<)NJO0*=AUebGkbKhIHv!3WJh<a>
zjD~y)aOx_mKmIL$j|bOV53bknr^XvRw7f=;TeeFi9>-7~-b#k>Hn?Qa4$#i&+6ViA
zaVY_Hn|vtM9l3#>j4+6cfEE&mF&jQWoN-(^6fPEoR~)C1TIhd~-X|km&K`N?k?DTm
zhxLC{4}GXF*R~xg|D=$B{Jo|Y{%17))aF5r2QFygDu6Vs9WyZi@wkv`*7${<BGeZ=
zj5JV5*+V*froJe`kz*svM4T8PV3tYX*rDe+KkN}eR@;0X`ic-#kh5RJV}>0=W96HC
zW{;xPjK?OyuV|dl76GuXK=~+xc@k$vX_9??8lTdqvyOdiz+mSlqe-wv>xRpCE(X}p
z7VLZBQsS(A#nRb|EBCG9$_W?2BY!Psdi{CQj}6ID8_!=Dj!~`xZ^U*@H4!dR%?zqk
z@A;FFR|keJMJ^4UJ$~+$OB(-YA^>DeoctZYjA~+t>`lBfAXXhkU5cW5PfE#4nr2S(
zqA)5mlk&GwHe^%l%3SBlUDTfUS<}YGE2>L}c+!umZgvzHUwl0pmw%5&!$;KW<P_8}
z%$q`kR!LMyZvf=Ug2vtjDjg*GKFU4CpYj&Y12c;?@5nVB$u=Fyn1Y|%T(|AF?B93J
z59Iy5Isdk-f7_D(rTLfhf!g`AD-O@?(5=w-H!t$Hw*KL{$BxY_{@Qzc?(SK9b8-0L
z*=7IHTeb!B!ncW;n)&{|MgF%B!K$!o;q0}GzO1cb!M$Sh+;-k_t{Tkl)BH0R=dSuU
zrhE3g_II6&(YxLymymb0J@eV^j%QvD8pX2CmK>W`JDbh*D>mnC>n-aY*Zt^cww|A(
ztJ{Ze9m+XFS!d`=uF+iod9#pZxL`@RywrR-V{2G-ajus8{9|X^N_A7d`e5F_DO24A
zwz0c6-+MR{I`WBq#owN(?pWo_ooDz}tIhW^_(g}`1Dj!>eznHou76g~`I}b_ybq27
zJ(=p>2R(WfLub#b+2re4Gg?r=MHSo@cm3*SjO7;!@kBqWsT=I$e$+S6b=+@Uhi^$&
zKs?{tUt=%Ib$pfhze+q`x=fc-(jiq+LKnG59^9ef>y=IOj5{o9q!@R2o5U3@R2-#K
z&n-QReM9#(&(Ffc4@My31q~%5{zTDjt5i=kCW~69UuDEP&!lsx;IE4MwFy%4ZU||E
zUSnNJvfXV6`b;XW4FAsWGM5<Bu)KhJ@-0NE!{uy=EKS1p1El*rBlT5m3FO1gXh$`X
zlc8G6T9C*Uw;Z3ycd5U3sazx3<G%v!Fl;81E?*{O23N|sBu&Ho@*XAq0Y#*oRt?kR
zjA{}t(NIb4bEpIpkwp22DBebN_>8!%aa>(qBo<xCw}Q%9zA|FY@8N*PA^3LN6D
zy8YU%*K+Ruth;~7y?w!uce)q$RmL27*Vz@9cLUORW`^z;25!6iw&RxL&cS6{+q1e2
z_~TQ@W=%2d1SO3W_^)-AZUR7d7>_{wDOdUGn@%pN@XqHa4RZ$aR8Jdz*+G+EgP2x4
zI%vBP3L?=E+A_t>la@InYs;wj!aQs$)JvNf^WXO(@u_mJX%qfc9M4AuQ4*kERNhun
z+3Mqy>&iw@RKn`B150Qr9i}^c;yPQW3Tj!sJ;ldL6qU23mh=*GJw&n6*r4p*7{sCy
zndi{w0j#Yf?wd2SXZ4(gJ^hn`IV;b_I8u^N^loeeex{_v*%0(GK*epI2ye*5=S2VW
zX`)kf=%{DT@hjAW?{~4DGwt}UBklaIO?0R66g_`vi1Bl_gb(Rf(JdlB#<LU~N?DNN
zN;|a_)UZJrPo=zKRiRXE8ZD9Xe}WkN4M8hc+PCCRy+GyB>m}!0Y1hPVy=>{Jui7#0
zw)?hc)EI+5+c!Z9nX14&=MjBr_jOXrJJas8=Uu})UK2OxokPwq8)e$7_Y0%5y)rak
z17edqe>t?Id9k{3?X>M<|3@S*An;tG{%f>j`#4ZiH~=G%<HLq9SCy_(g30}QvRH$1
z2lTJf6GD4!xd9JjB>Ve@AiFE4&-oH9$s%!^II^J{J|_mBPt$j5&X@Mdzx{%fU01gL
zzKLVcw>DP|=E9$@hDmB0$a^3isB}KkRVATut|nbmz=+<m6{=5HVKsv5R-*>+vL)>o
zjVVCVod2DdOk`89gem=mDev&|sj?OuSc{D;ZmL`lJvOKPtY5o6Q+Uyq)K!(RU5j3F
z9sWG={MzU%{lXQgtvtGPEyMri*tf_Wm3k9f(}1=TL?(yyyvnWWqsK|D8#Rp6IR)D@
zSBE_kV*FjhJ2srm`nkH~8ND5S9&^F6)A6#NTYBo{Cdi#@L(uc)8j|18v-Grd17WGT
z#&qM0Rtj)K>dKa~U2bFh+n#QOf~$kQcd~d>x&bL&=^*0Z`)+;K-{ZyZbiK$^k75sU
zx%UlpFkf(v$iZ<#Kr5k-dyClHm%OMKNc;5OfVF%D&+J!9xoNI^ztTRq&$Q~fvks^f
zNyWheRE5U@WhHp5wEwnJZ)N*afo781PQ}y1O$db!%N`%wOEC31cgOI~bzMa`3SMZ`
zIOmyj-vIRB-7r^og9~krz7M`|sCaLPDYVLrf4aUyQ&L=j)lYMmg0AsK3?@w73<Ny{
zslrg8Sc5cbntt$kKH5P%D`^0!Qo)sKOTiu$OEB}Grkf;z8yYiMTgfE?+&5JyDqV`r
zFkM>tu(dV|gB`$~qJ69^b*n2-3cdxJcNyjZKZ6<Ep+G;H(oru5g%DjLLb_%=r8df#
zQ>}i1Q`JXUwhqkiYj`RFs~41rn(CCApg@x;To+uwbei5#>yK&XWG8l6zKsYzMUCaR
zr$*srmyD2I6L&xqC8btWY{70wesZG{R1oWRMa-rcf~AhkbEN;m>O${G8cLc)QG_X2
z!C|*1+c)jT7;Mlm;gKfxIdxSfqZ-*BH^B-i!;epau@EotCN3BO<#h`{IwBNZZw3sf
z_RxqhOz2oh+lVn1P1j-J;<ecHG)Zl&ke<Va8pgdcTmwr*hNrLyu=uiK1Fxe2EF2j+
zMF|%Qp??bt142T&QOaOY4ijoTI+Gw*Y3(4C+m}n=2&Wp=T7U%A2E#3>eiYTIUjc$n
zcv!6-9vpl*a`D{Ynd49tpBNrEdt41L)$xgQ7Y2_<SoYw#vu9PC?nVm-*gvD~e~3uk
zd|}}A$nn?CAHM)y*zl!+mm|aHE~2SQ7yMMdUo}zNmmocUOtt;7@dOO5&|1;jk(bYu
zEdMDr{vQ#+DTqqR|4C0s`Sh6r4%n?yAyr%X(o?Ga74oZOFkM{Z4bYR?dR~`^3*e;b
z{Ky7P<^*PPFByXS1(gq{>Mr4wl&s*oCQV57K#y2}XgWwt*;ZDtq!CT+f-OVy)Yvef
zuyBE?k+H9(9<=)|3LL5$$$$+NUd7A-08`oOtn(EaBiC1)3o?&riUb0xjh(07{EDe<
zf<^u7O^r%^#ni^Ji3qEQQ-MM4YA~~(W0A>RFQnQ_cp$7#MDu3Q@$11<N4VUDLEk3k
z;lK_8c@(6CuyFQydp>OT<cyXS`i0b{QdczEs5X$o;^`g~2UD)%Fk;gO$N%NSFCL%0
za{h42Ocs!Rs_Fc|;2B^)8$45h?8aw9n`H$PR6XpzEEbmmXyFc>70v;KCRGPWL0n{x
z7HTaksoev`Wx3I-+MQ7OPtc5}b(yEP%@n05A|;GUP03TElPcYax``W6P&CJqsux&~
zTp)l7HI=eghRUMstjokS!R?$nQthm3oM=TgX)zm}t8g`sVR88a^+^U8nfMa<n-u*T
zMPSo8rmdD=qBrJ>@W=G_1B%G8R`nJ1>p0p4qZYL1(F9ydNMlmw{y^-pe4nD<L=<Y$
zd>S55f{P+r4AoOSJq(AjsmOmp*?&n9Aq)AhsGut`I*RL3xba2T5!qHmSQ4)LPO3JL
z3%U)UsQfjRzplFJn^uA)GDiwct2Ik)c?yf6AqBW@XfLX#U>PVJOtqF!YvBVPAh;vU
z407_nr%{oUu<FoZD>kiq_4k51hFY^Op}1Vcd@-v06;VOOR-!q~5mN6vhuYgo#b$w`
z20j@roH@8`YItJW3dOoj$XM%g*4C`Gb=lf>e=65?B-?f5lm5qD$DY_u{4}^@DY$FF
zlXo`coSU-FO%FVeox6&T4MyKF9^U`t+0dJ<>djZRu>bI9piijb-JWN)oXwfD2D8@S
zvbC|Gz0U-OKeL_7+uJhsV9wr_wYM$XJ2KseGTpm#-G{Q>hnBmKteTv54>WbRPu)6o
z=kjN+rnP#`Ui}kW;E7Gh*VZpM^L0)4Qg>6ix^T8Gyi~Vs!IiHIQp&wwzx(T%u6>Vo
zEY%%BVzBXphW8ril4qvp(4*v1@EFafF5~QY;K}qH%{Ok!_aDq}ANay-=pN+ZqtbYc
zzjX#n<7vpaH&J%ewueo))6jhw8vn*4$b9N<%(%N*)=LlJZo;#QJSr}ndFrfLd?V}Z
zd0N$wX&U<Lj!fh5s?pHsL6bJlUBBqax;nH=M42tGXGXr6+5D|#S7gOsw`lml@t$MJ
z-?3oJhx-4l<-?Zc(B9?xp=@aHA9dVsyFc*g@+aT^uWu~+76;x7WI}rv+}Zk}yv={-
zbk^3Ivvp-{UH9jfZ9AVj>lP2^8h2(JcRqIREUe(-8~IRQzNIhMvM1ZJC*QW^e_M_2
z@G}SOC$zweZ#)t+=im6$_2yGwTh6yF>)SSe`p3>1<}KTr5w_)o16kofruAUv;KhvV
z5<Gaw7sdcz7zbwq{B%9GcIDgqbL|6J{I|7!-oELFJ%7}bYd?`~Ke5z)Dr0N?skNoJ
z{d<;ed$GbW5LNHWR_|J{J`FZ3cz#mbyl?_Hi#`~6Z{&gF;lNV!u7%;ew;7ffZ`(>O
zwjGyiKY26rjSHE;MGS%N;Tn9^U*akh0p9(#Y*oiy4=ys*wct{dt5FBpC4em1Z9)%v
zA2eYPcXj8x`|ro`wtZ`U>!IA%q3qV7O!zbs&hT6ETlQr(?|;<4YBl-}tr^X*$#7->
zvWK&K$@G*7yt-_AZKbU<*S0I$wri<vPp<7iw(Y>9k-zpWwVlb>TCmZ2=K#6KWu8F1
z?<fzzfaA|IJGEKG_4GZ6<oZr#`%W%*pTeB>I)2=J>VDh8$fEzTt2xts3eHUS7R+<6
z10$$ydiS*j$4WzUuAx8M(7)8MJ=btJ+i-ZPVPL_#A{<x}4n6u#RydcjHRqi|&e@rD
zcHSR(=v#7be;9r2+|8Du>wZd`e8Ccx={=kGH{aQkX*u*L^@x_`48JGey(`nT=aKtS
z@1y2VqO=x6uxROvf#uzI7@aIevo_)W&Ib(-T;#oF+x5)Cb#!Svzc1Sk6@1%+6PQ8A
z{x#0f;Q$n%fW0}>yn_L1d&U{gn8JuxOt@FH`9b8-#IkAVY1hH|bDx?ze*SFM$W^s|
ziMvR^1O;a*-gl0FW;9~)aGV(M=IcB1!Jb@jdp5W|-?TZ`v_IRl{~xU;H#UwUC#wI;
z+6kTup637Q%j-OrQrQHY_#<1*H%#1Lb-OOqSpI5<8S($z@4V1x%9;io7pjeqeLUh(
z6f6c4-i-KLBeI5{-XUc^H_6XI)mQS={$(nCcxb^ipam!qneVnPZnMiDBui}w9~Hjg
z_l;|$DJWM&o-Wxc#jB+$C^6V25B+9G&873N43uu(pN%HqG$X4<B;!7H5X?Y00xz5E
z;8nt9H}n<x$LLGrG5$Nfy@^O|E4K$RLPa#Lyc#%oR*~wc4$ZQR>)E*ONpbP#Q8rkF
zeAF&Ag+h$cQslou13w{3bsjJC+!NE`&+8j=^?lj;zNPxDZ~|QM1u`{V_h)b?a>*B-
zKb;SRa)C41z?r4M+4-}1pk6l-Dc@sfZ^qP{arROYybrrFrY_B?4h<Ir*)7<1(yuc7
zYmBGGt$ER{Mr*Op;!CkEGpD9``9=veih1}^lNUI&LpR2B;wIeWHNnM(_@oVCg1D>=
zLGOV968}zT+N@nEctLM)<YB#8;7n$$<b0Pdv!jqB&pS9_B`s3fy=DB;20#|~jsd%z
zd=pW@PAN0yv4&EAfC#rFaU+Rwnse;)s&rE|k|cYS>ey5p+#T5O^^`cP>2cLgfJMLx
z8J9hX8AG}SrSV%6@_(TAi78V}ESr?TI&-CQQ-ThjrRutXsQK{7e~&tUN6<=kPna&f
z)wgfnx|#F#Wxah%-mUYe0Im1x@7CvhJF~u>OTOKJ*DBxq&`+&C{20Z%5?Gjq_7B4E
zg+FWPy>)uw#GRvgZ_Q%E2hHy_=YqZ2VDD0J%aV6XzO@b4e&P6<Ydx54J@{Gc;kzgA
z4BScP1FiSY-92~z*r$OIZW#+l;HSzpZU$Pcsb6$11v(e(Po05`DZl_9g8F+HCcDI<
zU7<awan5&<syauf@H0<LU{IK!vRVzbQ-K)`kFnp0Qe;AZswFu~stlP9j|^nQ$^V6-
zFy%R!B%vv+WP*9MilvmPzhqizmHi4%xGXt*?Ro^VQ$oQtOnOHfB*09`VI~r>J6(n5
zHTP%PLA?^Rt8UhZ0%@5paI#D2YCTKS#HoaoB%ND9prXT|dRg}M{&3+Un|2euK~F8H
z=(I=V3hph*q$yQ{dI7rT8D{s>3oWo8V$gnufgC+$QqO8)+q?9(nQGez@6wQ%JGfe}
ze};>~cLA`-@l&l{hozYkO(ywBbq=wMRZOsx$t<c`G##7TT)O*I619rxSGyA|Qw3g<
zU&oVOfKyFZrl#WTUKx{FndqenVLzlYBt0-fz_2p|`i-}*YzMUa&WGgxi^4b&oN@{=
z_+p-4vvIuRC!F&M*YSkg^fz4h-*PoixUMH$=m|H>5;s5L`kruzUwXpr`Kht$Z%n72
znEHQe58Qce$=)(=$ye9Tdsj_YdA{i<CeIU7_=#!vs>x!0nSWv%eCD~pn>#a&Tb^<B
zvU=6P)i%rzKMVNz0shX3XB<6Ow;1@w#ZIsweB+l63l9hGmv~RUX49&Xo_oNd(DTx(
zYxG>3;1BWjYex-UzJ0ZaYwh^LEE)Ji`I?SZBfUKJ1@0v8HmtGK)$?X6-@Ukfjl*L#
z;O1){bUfqm`1$H_59g};k~3kTe`nkEw7W0YeJ0y|=CQ4F)lP~3yn54s%VuA4X1*!!
z@XQb5mVRw;(f97<`QdzB<EN&;Kd(BG_X~v#3jgh;s=@8tUl=WewcKCW-FW{|ZQbBD
g<B$3b^uCp+_iaXc-)=tUG5%<e>zLj6mv(ype+hEbB>(^b

literal 0
HcmV?d00001

diff --git a/v1/executor/__pycache__/uniproc_executor.cpython-312.pyc b/v1/executor/__pycache__/uniproc_executor.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..963aeb7de7d4168069a27cff8fd071cad81fbec8
GIT binary patch
literal 9603
zcmb_CS!`QZcK2~#MJ*JyOSB}*qAgRgEN`-t*pcMKu`H*y5+|I6L-AcnlpdGd_h?%x
zRd`whl{-jdqtn`H1B}|A%CLd@(?zFf(iG?b(+@IoK+c1VIGFY$e@x^-gY>88-1i=}
zSa#>5SKxhjId?nv>{q|`dR+vPWcgX*omN7AixneT^}>2kAmla?i6}@Uf?ty)Bux>M
zfMv5}PFf<Cq%~sYb&F(6+9P&ewn~nqGvefBo8(HmBW_+6Bu~V{=kq43B0jyXI$0B`
z;bps2o2-k}@v=kmC+j2i$v`BKY=|`QHmB5>Y>G4`n<LG<?vh%Pt&!GbTcnNG-BNq9
zBhtak9x0gI71@>SjC3ZuB3-=AD|IJ#M|SgamDH2m6WJpW6QOmq_a2-TQzT>}uM^RC
zoru-6<DOY>-OF2RptY9nt+ei&7eaMkBglA2P#wcDNs3KMG-Oh3r?X0yQMGnrhS8Y#
zRyr+>UZwG@l4bzui^t+KRE%a=IzyQ<4^5V_bbJoJ=2I!Gx)Z5{5|z@^)0BnGYRfcL
zqGCc;SYk4(z)0Smq{>WMRBhOq$f#cY!i1@4Ce0Msg!gq8OD1FNd{)V171ehU7tKmk
zZvcq43pAciO(mvbuOl1NU!d=2sjR4Vo4PN=QgajY848<oRE}a+1E=KqRQz08q|$|K
zDrL;AdPi7nN|{K{(bO4HR%@PtfO%Xjn~G|OfLhI^G@GOB5{qR3DX+z38rP7o<#l>x
z{UoPKN+N<tA|^2)ny*_TW>KIPYNa-6n=&^6=#)vcK)anfpvML^>vhXLeTs<FNsK?S
zLA1d**Mgl8(N5i>iI*JIB08x@ueqpKbi+@eRn$kTaDIfM)m!UE`&5<axo(ZrIEmOO
zdTFhQ;{{r$%?6|NQU%^7Rsp=9!~1Ccrd3}&sv1TGVCDvG1e~%4&fEw%sfBNoSVx;h
zK{QQSL_gG9puHZxt@EZ(lj?grm3WJ#<HlX8Hb#MDQ{!=+6F9P*kRuPQf6TG2RQhsc
z*2E#UWTJ52bWd;3k!S@1paEaolW`wEgcTNrMbn~L!S#6BdH$R^XUYkpS#cY1#vJ!8
z_iS3*qD8dA+Io!;n5oKu-uQ~Pxe-EGtx{vOi8j%G-?3@;n`f{XP#fP_gCaMYNX{}X
z+;<wXM8LIo8d<+-h+Z_#@!T;DFB&s%4Y|G#odKDVh)IbB8dPRz@CxUrU@RpDrF2Z>
zZAoO*FvE)h_IF>Fq-0c+0IGv!;!%cN9<nje2}E^C>3B@yZK?%()Q0EDpz4Gi6<Ojk
zWl?QewN{>qF_2VR6+~HlZv1N`AA`}k;Lt=9ZY3GJs>8}^t-_^dG!;uy5R!B%aTUb{
zh}Y=cl^C0rLmn1@skCi+w=P_>MNlHNY7rB0g&_s1bupAz(KHu{QEeSHfQthf;#tOM
zN{LR!6cCj%LrtiQV*ON_To&o&M4TdiVq%n|G-OpRGL@!S5VzHVSvwB4Y5SFNrXZ&8
z-{@D8nf^>7vtNO|QDy(t?2%(f=Z?^RDKXifnFo=c>c@NOzkHyd>N=x8n@WJPh)0cv
zaAsbu(zJllw9vkdqr+SKTVM<FKSOqn{AXME;b8Ij*~0O&`FAcoYI}Fd^2pI#8a!GY
ze6uk4=IY>B!Eqq(=vekIFRaznml|7(jlG4&-crM^5>&g7m)dr%b#(pB<)>bIt!v3v
zt|hMy3ph!z<n|TaJq35qO3ml)y=!}pm0H{K1EWvPrrxThkw>2HvV%CiMMrbN(Oh)&
z6dXMd4nOG4J9-{Dj+Y#s%^i;%y_;Hg7aY64aO_!!1CT8u3Q@~N)b~)hO*TZ7f~`Cm
z%%vEn4KZ2_c3%{LRVxf{j3Z>$u~9Zkv)pttYT9?!yS0urV~ttgvwfmq2#H10h6u`;
zj8@Ua#Z#415i&WGXhMZyK%_tnE}Bso=FC&(izH-OICz0e@L=zAxU?^bOxy?3z+mf8
zSQUm?7fh>(1Q)}zF*jx&%(xuzYV>Xh3Y$*;_GlCgl4w-5${8u4sAh?#RC6Mwge>eO
z92|s9b?bu@si`#Q2^l3KvH}}Gpb%sWyPhH4%|}2UMp$_oGN9hhmw!3+Pc#4F{k3nk
z^Iag*CxPZ-pr;V%DFy}$fx%+ncp-4S7#J=DhF1fl#lYD@;OwuU_|}qpt*`%qd$sSx
z!}mY$JNfgAcUqSJ;G_0O^}V0OmRu!Y&x)`zl=mIVI}WiySZfQNq3q&xb{Gn`QMAK%
zd)i4UGLtA=1mhX*$UOcvie8R!5PH?JVUZcQt=7bo-kwNJ-xWA6Wn5jySRWJ@dbVS1
zXAw38urhM~HS)yYSoDVq{!r0B^tpd%>HWOp)F%RD{HUr;w<hgMB1u6!sun~$I{;%<
zXDXeFPNE1`Ju+-cqS4DSDNEy<l{#{d#)q(1z>npcDM1!3Ijh{U!IOZsictXYdddl)
z*e&;vFd!}3b2etm*)NiueHt+5+{Dwr-}nta&)Jm<R~x*}#$c8m`1-1_==f<kXWxmx
z7o9nq?Ay6-N)UzX0zf!+k^;GkIe_PxMb_Gu3^}oAS1OW1sWyN(&+C;%SI)Jg*}?IZ
z0-Q}(<O&!Pu8X9LD1Kw6Zo>92x__@Vb}%+_ZbR}2<UMcz7u|p4#uc>E72yiGYJQJg
z5kjV|79?Ib3bFNC$ZmtTm8%FwyxhCO_+0|Z-87xvMB}RCgcM6oim_J~UfNFR@w6n-
zxB|9D6fBnT2`<g#SD>Jcn1FR;yxwc%(}B+hKkec44Hg4hU91-})s+A$mX%m4P8n{C
z?c=T7f6{y<o1C3YCKQGw$#62&C4+axsGOA))j4`KPBTg(ol?EnOpPk6!X@7@4jaL2
z6f<NZb{ezSAwx@>Pvg;;T{A-1dEPap`HcdVQU0QsG!hq=YSq@`Kdbb&_P+v?$O16r
zH3CZ7Q@iv^slH+9^jE&dwfc@_OEEZ52o5|r{cz-yp4Iv@OQ(O+7P@&j?>X|owsI9d
zWsBF@y))#Rujx+Dqt2s`e8)=Ny~XYmh3*r1|B0Jp`MNWuU3-eV1`4|dZoc`OmOZ8Z
zL&g4+h5nPD?|$QstJJcm*b*+ZgjW_;TZZ!fp;A*vv1xCiY42)N-%Z<Eeapwgw|?*!
zKUz9n^3)bRZ3R!;UC&2T4-Y@=edHMi>!CWZ<o)icom4k{OH8=CtpkDuPjI=W=;_LP
zx=OzKCGY=~?Ev<@jP}^ypXwU6kbiX_f&4Rzb9l)7nYVNJkomJiRw!?l$C`l{M}cOf
zihv743s(Rrl(!{O$O%&dD(m}ZL!hB@9#_4Zp++@>apJC7qm2q#fTVvHCJUK05_%8H
zoMvR)0}z3xE`I=(g|_WHv1RHX1Bi?i4R>xM)&8Qdv*7D2d0I-fo%x#XQlO*M)K+$q
z>aKNSt#*}()#=i7K-IJsFwo88|JT#Yv1A7HhJq0Rd4l~A_Q!q%nQ>m+^$zF#2{b=@
z-Yt{O0LXLB8_d^qKL5O1)H`xIS6?V0o`1XiUUe0w-K$@T%~5cEAl#vyE}9VKiIBi~
zogb0ChCAG(!6%`<(7pW<cbbRcNK^sWNXb{H-DJM&*sm;kU+1dtT;6f+SwjV&wUgkH
zZj*V!-h=`>i`llFs2(st;&ag%8k3Znh1Ts`+T5Fk@iHoWPF7BzMl#h*k060;<Uymj
zjvN5gw!xA5S5SGb&9s@x_%LwVH|sHBCntJCukWPG=inAu4d{8dKH;X%J-sXdYINj)
z$BWmlHZqElHO-0M>_@7B6ulA^V@fQVi7{|Qspc0m)YEGH#W&ub7&(7wJUaaLg$twO
z6VVH&#?Pt_c_yof=_{#_N#kh>z%t^;;AS*v7kam2{dt>Mz~Lt$({7;RMI9_S4(10(
z9yvyzcv_2|g9XpQHD71ZceLO;`mI^;9s@Dpt@-fWjdLHIFWaI1EY0Ai_(dUsJny2w
zKoS6{!t4$gwi8lK9H|WLWE}&lP4lC-AOZUq8n+|Cz}<D|l{+B=4ybP`*6%6Q@5#IO
zEFFdnG{lGJZ=C<a(^fVUPcJ{#T@yoo84p><ImwToJ{=NHhuTy}REsA>RaX>cFa$!u
zckx7{?`LBYk2FNtK^Uo8l`Kdq)eO!JI{^*cMPVrY8JgY<Pp?|1!1-6$UMyQCA-t<u
z2^I;Xs1^i6Va_n}#Lxm`D7YDViR>qsp-IFhF%vOE!;c{~aBOM3iXMn2^c%5+Su_0P
zDUc-B$-1fD+FK6WtcRBmt<<f=9~@k1D|8)MC(u%^Cbs&rNwB^qteC$g_+2+wn#vxs
zYj-KoSZePqHFuQSI=}I?TLVw3>u%26sw!Kd4D?dlaL0eEwQR?lgZTVqCzf2Krv9dK
z%UyP3%|rZ+WiOVhNJC2*XMvSn-X-Pc@QwK!9d`~dcdb}fF5Y$iZGWL<px_)>uR)mC
z1TrF=5xy}ytgce9zs$cUPV(;)XY-wjf^*mM>HNME50%2c;X?OF!8x*S1>kakye^FC
z1Kanlh=uk6ZS<?dzsG35U>z5hlMlo~&(JzxWn5UdnXSIE%VBLT1z*M)TAw(*xK!&?
zzscIp35p{=4v4QLBZ{zo0h<04*rgJT79bF9TO!~Qn6G;x7SY5*(spX!5|nm8yOY|H
zOs7m7+6vIFC301WxIwAd)z(ox@N+4l%#2=DC`-kpu~;?*0-4300Jok>1&zQD1omP|
zFe_6Tnl#X$q{GTVC9PM2G&P+_QMu0r#zaug&^U-WX+9`YIWe80Vi5dufM)R-2+Qw}
zr<0kOl7QEYjk)>|gpW>7O-V3U5S)4n5wkc18)2hC1ynmsVo1n@oD93P)hG?lC`v{i
z>hGTh$n0bo7T{s7{Seoh1$$nLc_m~SULN`n92k7*rOIj;%uJ@i;)e~TQ++(5Nw0Ey
zLhjeM0<kWAEB(e9z%1u55G&)G;OB#>vT|&i0;;r5ZG#igK1b(+36aKzf~XAB+3A^J
zLJ1}Sh5T6ijbm+`x-WQz2Gc1?n?DXOJqp$<p;vgvsN7N?-Vl=kQIcfbND`ch1jrh`
zJ^gxgOuqOYFs2Kahap`Vj-p*Gp9SSB+#<L#Kq+|n7&fFb90E=VW)sDRWJZz0!AmnV
z72Jq4z)ATGA_W>sf*O>SL>!Q<En_UA?SGoWOAj8lGOK1U>%@iIgC3x*bZU<hOi`dN
z*a}8oXIMIA1gOCSQ-EkW=}>qP3#M_?VZIA4#J3n|D0cC;{uX3^DL|wTzFOKTroilP
z!o#JZmi|~!P$=_s17dw2fFw5hzz#5h6^c=kg|idsAm9#|ViOYdJLI$nw*@a#LGb#5
z?~IL|i;j+;dTnep`p$vqxwpqA&b)Qu{P5_-i)Y4PfBB{HkVUo7)MZ(1e=#To(6T@(
zT>BV`(ix4$rI;*3j19P*1g~kD02S22z86V{ZBgI9h5_6-{tg0Xbq&S3!=Kk3E)%oU
z1^U4|v~Gq{-go#ZL}jaP*b9#KFC4*V%>%?8$Ne=Zz>_c-0vj<M1vkjkPIlVXs3k-@
zD^An@F^)gu-P55l(g{yLdZcrF!3KB*S)y9Fq2(GoKYVJ88(nabsIyg5T2}1<lmL3$
z9FN?H&F>V448It&+k=vS2P?@hLk0#}HR;+1vB))F?av2p58WENGgYYDz3S^(vaHoN
zeq8&D=8u|}#|ljcR_h0}P@`pKHt#!{cN~2d-KbzVy4&ISTS@%}yls5|{RZ(aLhuRR
z<xNTRBD~8(bj4)!>|_?h3!59}=4loK4BJvpn8w#Nm(je_%Ne}1;ocxES~f!0vlvI&
zmU5Pyc_WZDi)PTaG>fk|+tPijF+YT`EVHO3w<Y6*7(WWx#<kEjysBgT2IQY4MyFXi
zn^Dd2Ocwa*C=6GvqJodtCe^C-nbMh%m;E7jH5<%Mqp{1e1b@PZXX#{`&8r>w5)<BZ
z?_om=K<pc&7yA>O!3hiLYg)PXQEi&eP^}OSKRk#JQ1G12AF$v}EE}h);{yMlhh3gK
zGp<?^3Qd9+g3%)k#p2?8ZuV!`;?-KB+N>-GZ8939sL2h{umtsmBQGT2=O6SRa7J`b
zP)yVWZZ#BY4zAW5TCzQM41eYCTJ`TP`uhw1{w3#HW7{u0A9<Fimfw9q|LxGfAOH0D
zqsH?~-Zh8kL*EVG9q-C}za0FRm;dqQ;_<P<@v$!)=StOW#p=#Nb?0hzciy)<@7S%`
zRY_P50%j@rury{F$W(Y$5aFRqv&Gr_*p5!{CQBS0QHG~gy}FQ$Q+OGSg3HYjgCgUk
zCN8faC}ua{Cm)0CyX)i|Q<c^6yP(awt6c529@}O<Lrb~YVeMHNc~E!v%zqOoeuJ5|
zXPhh4$F9K#{)<D8M5a@6I5rvA9D~}8cf_z3%#$^L0GV2KPJs=lfV&`bheGvfCV-}+
zA+oMLQrdu4vEqOs>}NQxhLhE1LWGBvjepo+f6gc8#EKe+&10QE?}oL1B4PNlt~PRr
ztdfxAaEdBuEJS&2+q;k2!~riK05grzFgFsynu^za81!q@Dg#I}Kr|<YJH(aYhK&mN
z0lz2)udp>Z(r1j+%?2$B%Y7o05~|<m2a^e`RDF*az*U=#F3pn+Yae*B1yGbGoSsyh
zeroPHaVj{AeHE7q0?e8V_zGKr4kQ^){$;ZufLA~S*JINCB{}w(?0!swk4fOS!~=!@
zB8`tp*O%l{fn55MjC@JXJtpBV$wYxnJSO`dlcQfb{WsrTb+%u#J+(=K(0+5~DZ%g4
RADhEM&+@CkBk<wd_+PKOMKJ&X

literal 0
HcmV?d00001

diff --git a/v1/executor/abstract.py b/v1/executor/abstract.py
new file mode 100644
index 0000000..db8303f
--- /dev/null
+++ b/v1/executor/abstract.py
@@ -0,0 +1,352 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import time
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+from concurrent.futures import Future
+from functools import cached_property
+from typing import TYPE_CHECKING, Literal, TypeVar, overload
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorHandshakeMetadata,
+)
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.tasks import SupportedTask
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+from vllm.v1.engine import ReconfigureDistributedRequest
+from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
+from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
+from vllm.v1.worker.worker_base import WorkerBase
+
+if TYPE_CHECKING:
+    from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBase
+
+logger = init_logger(__name__)
+
+_R = TypeVar("_R")
+
+FailureCallback = Callable[[], None]
+
+
+class Executor(ABC):
+    """Abstract base class for vLLM executors."
+
+    An executor is responsible for executing the model on one device,
+    or it can be a distributed executor that can execute the model on multiple devices.
+    """
+
+    uses_ray: bool = False  # whether the executor uses Ray for orchestration.
+    supports_pp: bool = False  # whether the executor supports PP
+
+    @staticmethod
+    def get_class(vllm_config: VllmConfig) -> type["Executor"]:
+        executor_class: type[Executor]
+        parallel_config = vllm_config.parallel_config
+        distributed_executor_backend = parallel_config.distributed_executor_backend
+        # distributed_executor_backend must be set in VllmConfig.__post_init__
+        if isinstance(distributed_executor_backend, type):
+            if not issubclass(distributed_executor_backend, Executor):
+                raise TypeError(
+                    "distributed_executor_backend must be a subclass of "
+                    f"Executor. Got {distributed_executor_backend}."
+                )
+            executor_class = distributed_executor_backend
+        elif distributed_executor_backend == "ray":
+            from vllm.v1.executor.ray_executor import RayDistributedExecutor
+
+            executor_class = RayDistributedExecutor
+        elif distributed_executor_backend == "mp":
+            from vllm.v1.executor.multiproc_executor import MultiprocExecutor
+
+            executor_class = MultiprocExecutor
+        elif distributed_executor_backend == "uni":
+            from vllm.v1.executor.uniproc_executor import UniProcExecutor
+
+            executor_class = UniProcExecutor
+        elif distributed_executor_backend == "external_launcher":
+            # TODO: make v1 scheduling deterministic
+            # to support external launcher
+            executor_class = ExecutorWithExternalLauncher
+        elif isinstance(distributed_executor_backend, str):
+            executor_class = resolve_obj_by_qualname(distributed_executor_backend)
+            if not issubclass(executor_class, Executor):
+                raise TypeError(
+                    "distributed_executor_backend must be a subclass of "
+                    f"Executor. Got {executor_class}."
+                )
+        else:
+            raise ValueError(
+                f"Unknown distributed executor backend: {distributed_executor_backend}"
+            )
+        return executor_class
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+    ) -> None:
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.load_config = vllm_config.load_config
+        self.parallel_config = vllm_config.parallel_config
+        self.scheduler_config = vllm_config.scheduler_config
+        self.device_config = vllm_config.device_config
+        self.speculative_config = vllm_config.speculative_config
+        self.observability_config = vllm_config.observability_config
+        self._init_executor()
+        self.is_sleeping = False
+        self.sleeping_tags: set[str] = set()
+        self.kv_output_aggregator: KVOutputAggregator | None = None
+
+    @abstractmethod
+    def _init_executor(self) -> None:
+        raise NotImplementedError
+
+    def initialize_from_config(self, kv_cache_configs: list[KVCacheConfig]) -> None:
+        """
+        Initialize the KV caches and begin the model execution loop of the
+        underlying workers.
+        """
+        self.collective_rpc("initialize_from_config", args=(kv_cache_configs,))
+        self.collective_rpc("compile_or_warm_up_model")
+
+    def register_failure_callback(self, callback: FailureCallback):  # noqa: B027
+        """
+        Register a function to be called if the executor enters a permanent
+        failed state.
+        """
+        pass
+
+    def determine_available_memory(self) -> list[int]:  # in bytes
+        return self.collective_rpc("determine_available_memory")
+
+    def get_kv_cache_specs(self) -> list[dict[str, KVCacheSpec]]:
+        return self.collective_rpc("get_kv_cache_spec")
+
+    @overload
+    def collective_rpc(
+        self,
+        method: str | Callable[[WorkerBase], _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+        non_block: Literal[False] = False,
+    ) -> list[_R]:
+        """
+        Execute an RPC call on all workers.
+
+        Args:
+            method: Name of the worker method to execute, or a callable that
+                is serialized and sent to all workers to execute.
+
+                If the method is a callable, it should accept an additional
+                `self` argument, in addition to the arguments passed in `args`
+                and `kwargs`. The `self` argument will be the worker object.
+            timeout: Maximum time in seconds to wait for execution. Raises a
+                [`TimeoutError`][] on timeout. `None` means wait indefinitely.
+            args: Positional arguments to pass to the worker method.
+            kwargs: Keyword arguments to pass to the worker method.
+            non_block: If `True`, returns a list of Futures instead of waiting
+                for the results.
+
+        Returns:
+            A list containing the results from each worker.
+
+        Note:
+            It is recommended to use this API to only pass control messages,
+            and set up data-plane communication to pass data.
+        """
+        pass
+
+    @overload
+    def collective_rpc(
+        self,
+        method: str | Callable[[WorkerBase], _R],
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+        non_block: Literal[True] = True,
+    ) -> Future[list[_R]]:
+        pass
+
+    @abstractmethod
+    def collective_rpc(
+        self, method, timeout=None, args=(), kwargs=None, non_block: bool = False
+    ):
+        raise NotImplementedError
+
+    def get_kv_connector_handshake_metadata(
+        self,
+    ) -> list[dict[int, KVConnectorHandshakeMetadata]]:
+        return self.collective_rpc("get_kv_connector_handshake_metadata")
+
+    @overload
+    def execute_model(
+        self, scheduler_output: SchedulerOutput, non_block: Literal[False] = False
+    ) -> ModelRunnerOutput | None:
+        pass
+
+    @overload
+    def execute_model(
+        self, scheduler_output: SchedulerOutput, non_block: Literal[True] = True
+    ) -> Future[ModelRunnerOutput | None]:
+        pass
+
+    def execute_model(
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        output = self.collective_rpc(  # type: ignore[call-overload]
+            "execute_model", args=(scheduler_output,), non_block=non_block
+        )
+        return output[0]
+
+    @overload
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: Literal[False] = False
+    ) -> ModelRunnerOutput:
+        pass
+
+    @overload
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: Literal[True] = True
+    ) -> Future[ModelRunnerOutput]:
+        pass
+
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        output = self.collective_rpc(  # type: ignore[call-overload]
+            "sample_tokens", args=(grammar_output,), non_block=non_block
+        )
+        return output[0]
+
+    def execute_dummy_batch(self) -> None:
+        self.collective_rpc("execute_dummy_batch")
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        output: list[DraftTokenIds] = self.collective_rpc("take_draft_token_ids")
+        return output[0]
+
+    @property
+    def max_concurrent_batches(self) -> int:
+        return 1
+
+    def profile(self, is_start: bool = True):
+        self.collective_rpc("profile", args=(is_start,))
+
+    def save_sharded_state(
+        self,
+        path: str,
+        pattern: str | None = None,
+        max_size: int | None = None,
+    ) -> None:
+        self.collective_rpc(
+            "save_sharded_state",
+            kwargs=dict(path=path, pattern=pattern, max_size=max_size),
+        )
+
+    @abstractmethod
+    def check_health(self) -> None:
+        """Checks if the executor is healthy. If not, it should raise an
+        exception."""
+        raise NotImplementedError
+
+    def shutdown(self) -> None:
+        """Shutdown the executor."""
+        self.collective_rpc("shutdown")
+
+    def init_kv_output_aggregator(self, connector: "KVConnectorBase") -> None:
+        """Init KVOutputAggregator"""
+        self.kv_output_aggregator = KVOutputAggregator.from_connector(
+            connector, self.parallel_config.world_size
+        )
+
+    @cached_property  # Avoid unnecessary RPC calls
+    def supported_tasks(self) -> tuple[SupportedTask, ...]:
+        output: list[tuple[SupportedTask, ...]]
+        output = self.collective_rpc("get_supported_tasks")
+        return output[0]
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        assert lora_request.lora_int_id > 0, "lora_id must be greater than 0."
+        return all(self.collective_rpc("add_lora", args=(lora_request,)))
+
+    def remove_lora(self, lora_id: int) -> bool:
+        assert lora_id > 0, "lora_id must be greater than 0."
+        return all(self.collective_rpc("remove_lora", args=(lora_id,)))
+
+    def pin_lora(self, lora_id: int) -> bool:
+        assert lora_id > 0, "lora_id must be greater than 0."
+        return all(self.collective_rpc("pin_lora", args=(lora_id,)))
+
+    def list_loras(self) -> set[int]:
+        sets: list[set[int]] = self.collective_rpc("list_loras")
+        for s in sets:
+            assert s == sets[0], "All workers should have the same LORAs."
+        return sets[0]
+
+    def reset_mm_cache(self) -> None:
+        """Reset the multi-modal cache in each worker."""
+        self.collective_rpc("reset_mm_cache")
+
+    def sleep(self, level: int = 1):
+        if self.is_sleeping:
+            logger.warning("Executor is already sleeping.")
+            return
+        time_before_sleep = time.perf_counter()
+        self.collective_rpc("sleep", kwargs=dict(level=level))
+        time_after_sleep = time.perf_counter()
+        self.sleeping_tags = {"weights", "kv_cache"}
+        self.is_sleeping = True
+        logger.info(
+            "It took %.6f seconds to fall asleep.", time_after_sleep - time_before_sleep
+        )
+
+    def wake_up(self, tags: list[str] | None = None):
+        if not self.is_sleeping:
+            logger.warning("Executor is not sleeping.")
+            return
+        if tags:
+            for tag in tags:
+                if tag not in self.sleeping_tags:
+                    logger.warning(
+                        "Tag %s is not in sleeping tags %s", tag, self.sleeping_tags
+                    )
+                    return
+        time_before_wakeup = time.perf_counter()
+        self.collective_rpc("wake_up", kwargs=dict(tags=tags))
+        time_after_wakeup = time.perf_counter()
+        logger.info(
+            "It took %.6f seconds to wake up tags %s.",
+            time_after_wakeup - time_before_wakeup,
+            tags if tags is not None else self.sleeping_tags,
+        )
+        if tags:
+            for tag in tags:
+                self.sleeping_tags.remove(tag)
+        else:
+            self.sleeping_tags.clear()
+        if not self.sleeping_tags:
+            self.is_sleeping = False
+
+    def reinitialize_distributed(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        raise NotImplementedError
+
+
+from vllm.v1.executor.uniproc_executor import (  # noqa: E402
+    ExecutorWithExternalLauncher as _ExecutorWithExternalLauncher,
+)
+from vllm.v1.executor.uniproc_executor import (  # noqa: E402
+    UniProcExecutor as _UniProcExecutor,
+)
+
+# For backwards compatibility.
+UniProcExecutor = _UniProcExecutor
+ExecutorWithExternalLauncher = _ExecutorWithExternalLauncher
diff --git a/v1/executor/multiproc_executor.py b/v1/executor/multiproc_executor.py
new file mode 100644
index 0000000..ad2ece5
--- /dev/null
+++ b/v1/executor/multiproc_executor.py
@@ -0,0 +1,877 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import multiprocessing
+import os
+import pickle
+import queue
+import signal
+import threading
+import time
+import traceback
+import weakref
+from collections import deque
+from collections.abc import Callable, Sequence
+from concurrent.futures import Future, InvalidStateError
+from contextlib import suppress
+from dataclasses import dataclass
+from enum import Enum, auto
+from functools import cached_property, partial
+from multiprocessing.connection import Connection
+from multiprocessing.process import BaseProcess
+from multiprocessing.synchronize import Lock as LockType
+from threading import Thread
+from typing import Any, cast
+
+import cloudpickle
+import torch
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.distributed import destroy_distributed_environment, destroy_model_parallel
+from vllm.distributed.device_communicators.shm_broadcast import Handle, MessageQueue
+from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
+from vllm.distributed.parallel_state import (
+    get_dcp_group,
+    get_dp_group,
+    get_ep_group,
+    get_inner_dp_world_group,
+    get_pp_group,
+    get_tp_group,
+)
+from vllm.envs import enable_envs_cache
+from vllm.logger import init_logger
+from vllm.utils.network_utils import (
+    get_distributed_init_method,
+    get_loopback_ip,
+    get_open_port,
+)
+from vllm.utils.system_utils import (
+    _maybe_force_spawn,
+    decorate_logs,
+    get_mp_context,
+    set_process_title,
+)
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+from vllm.v1.executor.abstract import Executor, FailureCallback
+from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
+from vllm.v1.worker.worker_base import WorkerWrapperBase
+
+logger = init_logger(__name__)
+
+
+class FutureWrapper(Future):
+    def __init__(
+        self,
+        futures_queue: deque[tuple["FutureWrapper", Callable]],
+        aggregate: Callable = lambda x: x,
+    ):
+        self.futures_queue = futures_queue
+        self.aggregate = aggregate
+        super().__init__()
+
+    def result(self, timeout=None):
+        if timeout is not None:
+            raise RuntimeError("timeout not implemented")
+        # Drain any futures ahead of us in the queue.
+        while not self.done():
+            future, get_response = self.futures_queue.pop()
+            future.wait_for_response(get_response)
+        return super().result()
+
+    def wait_for_response(self, get_response: Callable):
+        try:
+            response = self.aggregate(get_response())
+            with suppress(InvalidStateError):
+                self.set_result(response)
+        except Exception as e:
+            with suppress(InvalidStateError):
+                self.set_exception(e)
+
+
+class MultiprocExecutor(Executor):
+    supports_pp: bool = True
+
+    def __init__(self, vllm_config: VllmConfig, monitor_workers: bool = True):
+        self.monitor_workers = monitor_workers
+        super().__init__(vllm_config)
+
+    def _init_executor(self) -> None:
+        # Call self.shutdown at exit to clean up
+        # and ensure workers will be terminated.
+        self._finalizer = weakref.finalize(self, self.shutdown)
+        self.is_failed = False
+        self.shutdown_event = threading.Event()
+        self.failure_callback: FailureCallback | None = None
+
+        self.world_size = self.parallel_config.world_size
+        assert self.world_size % self.parallel_config.nnodes_within_dp == 0, (
+            f"global world_size ({self.parallel_config.world_size}) must be "
+            f"divisible by nnodes_within_dp "
+            f"({self.parallel_config.nnodes_within_dp}). "
+        )
+        self.local_world_size = self.parallel_config.local_world_size
+        tensor_parallel_size = self.parallel_config.tensor_parallel_size
+        pp_parallel_size = self.parallel_config.pipeline_parallel_size
+        assert self.world_size == tensor_parallel_size * pp_parallel_size, (
+            f"world_size ({self.world_size}) must be equal to the "
+            f"tensor_parallel_size ({tensor_parallel_size}) x pipeline"
+            f"_parallel_size ({pp_parallel_size}). "
+        )
+
+        # Set multiprocessing envs
+        set_multiprocessing_worker_envs()
+
+        # Multiprocessing-based executor does not support multi-node setting.
+        # Since it only works for single node, we can use the loopback address
+        # get_loopback_ip() for communication.
+        distributed_init_method = get_distributed_init_method(
+            get_loopback_ip(), get_open_port()
+        )
+        self.rpc_broadcast_mq: MessageQueue | None = None
+        scheduler_output_handle: Handle | None = None
+        # Initialize worker and set up message queues for SchedulerOutputs
+        # and ModelRunnerOutputs
+        if self.parallel_config.node_rank_within_dp == 0:
+            # For leader node within each dp rank,
+            # each dp will have its own leader multiproc executor.
+            max_chunk_bytes = envs.VLLM_MQ_MAX_CHUNK_BYTES_MB * 1024 * 1024
+            self.rpc_broadcast_mq = MessageQueue(
+                self.world_size,
+                self.local_world_size,
+                max_chunk_bytes=max_chunk_bytes,
+                connect_ip=self.parallel_config.master_addr,
+            )
+            scheduler_output_handle = self.rpc_broadcast_mq.export_handle()
+        # Create workers
+        context = get_mp_context()
+        shared_worker_lock = context.Lock()
+        unready_workers: list[UnreadyWorkerProcHandle] = []
+        success = False
+        try:
+            global_start_rank = (
+                self.local_world_size * self.parallel_config.node_rank_within_dp
+            )
+            for local_rank in range(self.local_world_size):
+                global_rank = global_start_rank + local_rank
+                unready_workers.append(
+                    WorkerProc.make_worker_process(
+                        vllm_config=self.vllm_config,
+                        local_rank=local_rank,
+                        rank=global_rank,
+                        distributed_init_method=distributed_init_method,
+                        input_shm_handle=scheduler_output_handle,
+                        shared_worker_lock=shared_worker_lock,
+                    )
+                )
+
+            # Workers must be created before wait_for_ready to avoid
+            # deadlock, since worker.init_device() does a device sync.
+
+            # Wait for all local workers to be ready.
+            self.workers = WorkerProc.wait_for_ready(unready_workers)
+
+            # Start background thread to monitor worker health if not in headless mode.
+            if self.monitor_workers:
+                self.start_worker_monitor()
+
+            self.response_mqs = []
+            # Only leader node have remote response mqs
+            if self.parallel_config.node_rank_within_dp == 0:
+                for rank in range(self.world_size):
+                    if rank < self.local_world_size:
+                        local_message_queue = self.workers[rank].worker_response_mq
+                        assert local_message_queue is not None
+                        self.response_mqs.append(local_message_queue)
+                    else:
+                        remote_message_queue = self.workers[0].peer_worker_response_mqs[
+                            rank
+                        ]
+                        assert remote_message_queue is not None
+                        self.response_mqs.append(remote_message_queue)
+
+            # Ensure message queues are ready. Will deadlock if re-ordered
+            # Must be kept consistent with the WorkerProc.
+
+            # Wait for all input mqs to be ready.
+            if self.rpc_broadcast_mq is not None:
+                self.rpc_broadcast_mq.wait_until_ready()
+            # Wait for all remote response mqs to be ready.
+            for response_mq in self.response_mqs:
+                response_mq.wait_until_ready()
+            success = True
+        finally:
+            if not success:
+                # Clean up the worker procs if there was a failure.
+                # Close death_writers first to signal workers to exit
+                for uw in unready_workers:
+                    if uw.death_writer is not None:
+                        uw.death_writer.close()
+                self._ensure_worker_termination([uw.proc for uw in unready_workers])
+
+        self.futures_queue = deque[tuple[FutureWrapper, Callable]]()
+
+        self.output_rank = self._get_output_rank()
+
+    def start_worker_monitor(self, inline=False) -> None:
+        workers = self.workers
+        self_ref = weakref.ref(self)
+
+        # Monitors worker process liveness. If any die unexpectedly,
+        # logs an error, shuts down the executor and invokes the failure
+        # callback to inform the engine.
+        def monitor_workers():
+            sentinels = [h.proc.sentinel for h in workers]
+            died = multiprocessing.connection.wait(sentinels)
+            _self = self_ref()
+            if not _self or getattr(_self, "shutting_down", False):
+                return
+            _self.is_failed = True
+            proc_name = next(h.proc.name for h in workers if h.proc.sentinel == died[0])
+            logger.error(
+                "Worker proc %s died unexpectedly, shutting down executor.", proc_name
+            )
+            _self.shutdown()
+            callback = _self.failure_callback
+            if callback is not None:
+                _self.failure_callback = None
+                callback()
+
+        if not inline:
+            Thread(
+                target=monitor_workers, daemon=True, name="MultiprocWorkerMonitor"
+            ).start()
+            return
+
+        monitor_workers()
+
+    def register_failure_callback(self, callback: FailureCallback):
+        if self.is_failed:
+            callback()
+        else:
+            self.failure_callback = callback
+
+    def execute_model(  # type: ignore[override]
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "execute_model",
+            args=(scheduler_output,),
+            unique_reply_rank=self.output_rank,
+            non_block=non_block,
+            timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
+            kv_output_aggregator=self.kv_output_aggregator,
+        )
+
+    def sample_tokens(  # type: ignore[override]
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+        return self.collective_rpc(
+            "sample_tokens",
+            args=(grammar_output,),
+            unique_reply_rank=self.output_rank,
+            non_block=non_block,
+            timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
+            kv_output_aggregator=self.kv_output_aggregator,
+        )
+
+    def execute_dummy_batch(self) -> None:
+        self.collective_rpc("execute_dummy_batch", unique_reply_rank=self.output_rank)
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        # OPTIMIZATION: Get output only from a single worker (output_rank)
+        return self.collective_rpc(
+            "take_draft_token_ids", unique_reply_rank=self.output_rank
+        )
+
+    def collective_rpc(  # type: ignore[override]
+        self,
+        method: str | Callable,
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+        non_block: bool = False,
+        unique_reply_rank: int | None = None,
+        kv_output_aggregator: KVOutputAggregator = None,
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
+        """Returns single result if unique_reply_rank and/or kv_output_aggregator
+        is provided, otherwise list."""
+        assert self.rpc_broadcast_mq is not None, (
+            "collective_rpc should not be called on follower node"
+        )
+        if self.is_failed:
+            raise RuntimeError("Executor failed.")
+
+        deadline = None if timeout is None else time.monotonic() + timeout
+        kwargs = kwargs or {}
+
+        if kv_output_aggregator is not None:
+            output_rank = None
+            aggregate: Callable[[Any], Any] = partial(
+                kv_output_aggregator.aggregate, output_rank=unique_reply_rank or 0
+            )
+        else:
+            output_rank = unique_reply_rank
+            aggregate = lambda x: x
+
+        if isinstance(method, str):
+            send_method = method
+        else:
+            send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
+        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, output_rank))
+
+        response_mqs: Sequence[MessageQueue] = self.response_mqs
+        if output_rank is not None:
+            response_mqs = (response_mqs[output_rank],)
+
+        shutdown_event = self.shutdown_event
+
+        def get_response():
+            responses = []
+            for mq in response_mqs:
+                dequeue_timeout = (
+                    None if deadline is None else (deadline - time.monotonic())
+                )
+                try:
+                    status, result = mq.dequeue(
+                        timeout=dequeue_timeout, cancel=shutdown_event
+                    )
+                except TimeoutError as e:
+                    raise TimeoutError(f"RPC call to {method} timed out.") from e
+                if status != WorkerProc.ResponseStatus.SUCCESS:
+                    raise RuntimeError(
+                        f"Worker failed with error '{result}', please check the"
+                        " stack trace above for the root cause"
+                    )
+                responses.append(result)
+            return responses[0] if output_rank is not None else responses
+
+        if non_block:
+            future = FutureWrapper(self.futures_queue, aggregate=aggregate)
+            self.futures_queue.appendleft((future, get_response))
+            return future
+
+        # First drain any pending futures in the queue.
+        while self.futures_queue:
+            future, get_fut_response = self.futures_queue.pop()
+            future.wait_for_response(get_fut_response)
+
+        return aggregate(get_response())
+
+    @staticmethod
+    def _ensure_worker_termination(worker_procs: list[BaseProcess]):
+        """Ensure that all worker processes are terminated. Assumes workers have
+        received termination requests. Waits for processing, then sends
+        termination and kill signals if needed."""
+
+        def wait_for_termination(procs, timeout):
+            if not time:
+                # If we are in late stage shutdown, the interpreter may replace
+                # `time` with `None`.
+                return all(not proc.is_alive() for proc in procs)
+            start_time = time.time()
+            while time.time() - start_time < timeout:
+                if all(not proc.is_alive() for proc in procs):
+                    return True
+                time.sleep(0.1)
+            return False
+
+        # Send SIGTERM if still running
+        active_procs = [proc for proc in worker_procs if proc.is_alive()]
+        for p in active_procs:
+            p.terminate()
+        if not wait_for_termination(active_procs, 4):
+            # Send SIGKILL if still running
+            active_procs = [p for p in active_procs if p.is_alive()]
+            for p in active_procs:
+                p.kill()
+
+    def shutdown(self):
+        """Properly shut down the executor and its workers"""
+        if not getattr(self, "shutting_down", False):
+            self.shutting_down = True
+
+            # Make sure all the worker processes are terminated first.
+            if workers := getattr(self, "workers", None):
+                for w in workers:
+                    # Close death_writer to signal child processes to exit
+                    if w.death_writer is not None:
+                        w.death_writer.close()
+                        w.death_writer = None
+                    w.worker_response_mq = None
+                self._ensure_worker_termination([w.proc for w in workers])
+
+            self.shutdown_event.set()
+
+        self.rpc_broadcast_mq = None
+
+    def check_health(self) -> None:
+        self.collective_rpc("check_health", timeout=10)
+        return
+
+    @cached_property
+    def max_concurrent_batches(self) -> int:
+        if self.scheduler_config.async_scheduling:
+            return 2
+        return self.parallel_config.pipeline_parallel_size
+
+    def _get_output_rank(self) -> int:
+        # Only returns ModelRunnerOutput from TP rank=0 and PP rank=-1
+        # (the first TP worker of the last PP stage).
+        # Example:
+        # Assuming TP=8, PP=4, then the world_size=32
+        # 0-7, PP rank 0
+        # 8-15, PP rank 1
+        # 16-23, PP rank 2
+        # 24-31, PP rank 3
+        # so world_size - tp_size = 32 - 8 = 24 should be PP rank = -1 (i.e. 3)
+        return self.world_size - self.parallel_config.tensor_parallel_size
+
+
+@dataclass
+class UnreadyWorkerProcHandle:
+    """WorkerProcess handle before READY."""
+
+    proc: BaseProcess
+    rank: int
+    ready_pipe: Connection
+    death_writer: Connection | None = None
+
+
+@dataclass
+class WorkerProcHandle:
+    proc: BaseProcess
+    rank: int
+    # The worker process writes to this MQ in single-node mode
+    worker_response_mq: MessageQueue | None
+    # This is only non empty on driver node,
+    # the peer worker process i writes to MQ
+    # `peer_worker_response_mqs[i]`
+    peer_worker_response_mqs: list[MessageQueue | None]
+    death_writer: Connection | None = None
+
+    @classmethod
+    def from_unready_handle(
+        cls,
+        unready_handle: UnreadyWorkerProcHandle,
+        worker_response_mq: MessageQueue | None,
+        peer_worker_response_mqs: list[MessageQueue | None],
+    ) -> "WorkerProcHandle":
+        return cls(
+            proc=unready_handle.proc,
+            rank=unready_handle.rank,
+            worker_response_mq=worker_response_mq,
+            peer_worker_response_mqs=peer_worker_response_mqs,
+            death_writer=unready_handle.death_writer,
+        )
+
+
+class WorkerProc:
+    """Wrapper that runs one Worker in a separate process."""
+
+    READY_STR = "READY"
+
+    def _init_message_queues(
+        self, input_shm_handle: Handle, vllm_config: VllmConfig
+    ) -> None:
+        if vllm_config.parallel_config.nnodes_within_dp == 1:
+            # Initialize MessageQueue for receiving SchedulerOutput
+            self.rpc_broadcast_mq = MessageQueue.create_from_handle(
+                input_shm_handle, self.worker.rank
+            )
+
+            # Initializes a message queue for sending the model output
+            self.worker_response_mq: MessageQueue = MessageQueue(1, 1)
+            self.peer_response_handles = []
+        else:
+            # Initialize remote MessageQueue for receiving SchedulerOutput across nodes
+            self.rpc_broadcast_mq = get_inner_dp_world_group().create_mq_broadcaster(
+                external_writer_handle=input_shm_handle,
+                # Since there is external_writer_handle from executor proc,
+                # where the ready signal from actual writer is sent out of the
+                # create_mq_broadcaster method and after this setup, we make it
+                # non blocking. The handshake will be triggered when
+                # worker.rpc_broadcast_mq.wait_until_ready() is called
+                blocking=False,
+            )
+            # Initializes remote message queue for sending the model output to the
+            # driver worker, exposing peer_response_handles for driver worker
+            # that include handles for all ranks
+            self.worker_response_mq, self.peer_response_handles = (
+                get_inner_dp_world_group().create_single_reader_mq_broadcasters(
+                    reader_rank_in_group=0
+                )
+            )
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        input_shm_handle: Handle,
+        shared_worker_lock: LockType,
+    ):
+        self.rank = rank
+        wrapper = WorkerWrapperBase(
+            vllm_config=vllm_config, rpc_rank=local_rank, global_rank=rank
+        )
+        # TODO: move `init_worker` to executor level as a collective rpc call
+        all_kwargs: list[dict] = [
+            {} for _ in range(vllm_config.parallel_config.world_size)
+        ]
+        is_driver_worker = rank % vllm_config.parallel_config.tensor_parallel_size == 0
+        all_kwargs[local_rank] = {
+            "vllm_config": vllm_config,
+            "local_rank": local_rank,
+            "rank": rank,
+            "distributed_init_method": distributed_init_method,
+            "is_driver_worker": is_driver_worker,
+            "shared_worker_lock": shared_worker_lock,
+        }
+        wrapper.init_worker(all_kwargs)
+        self.worker = wrapper
+
+        scheduler_config = vllm_config.scheduler_config
+        self.use_async_scheduling = scheduler_config.async_scheduling
+        if self.use_async_scheduling:
+            self.async_output_queue: queue.Queue = queue.Queue()
+            self.async_output_copy_thread = Thread(
+                target=self.async_output_busy_loop,
+                daemon=True,
+                name="WorkerAsyncOutputCopy",
+            )
+            self.async_output_copy_thread.start()
+
+        # Initialize device
+        self.worker.init_device()
+
+        # Set process title and log prefix
+        self.setup_proc_title_and_log_prefix(
+            enable_ep=vllm_config.parallel_config.enable_expert_parallel
+        )
+
+        # Load model
+        self._init_message_queues(input_shm_handle, vllm_config)
+        self.worker.load_model()
+
+        # Enable environment variable cache (e.g. assume no more
+        # environment variable overrides after this point)
+        enable_envs_cache()
+
+    @staticmethod
+    def make_worker_process(
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        input_shm_handle,  # Receive SchedulerOutput
+        shared_worker_lock: LockType,
+    ) -> UnreadyWorkerProcHandle:
+        context = get_mp_context()
+        # (reader, writer)
+        reader, writer = context.Pipe(duplex=False)
+
+        # Create death pipe to detect parent process exit
+        death_reader, death_writer = context.Pipe(duplex=False)
+
+        process_kwargs = {
+            "vllm_config": vllm_config,
+            "local_rank": local_rank,
+            "rank": rank,
+            "distributed_init_method": distributed_init_method,
+            "input_shm_handle": input_shm_handle,
+            "ready_pipe": (reader, writer),
+            "death_pipe": death_reader,
+            "shared_worker_lock": shared_worker_lock,
+        }
+        # Run EngineCore busy loop in background process.
+        proc = context.Process(
+            target=WorkerProc.worker_main,
+            kwargs=process_kwargs,
+            name=f"VllmWorker-{rank}",
+            daemon=True,
+        )
+
+        proc.start()
+        writer.close()
+        # Keep death_writer open in parent - when parent exits,
+        # death_reader in child will get EOFError
+        return UnreadyWorkerProcHandle(proc, rank, reader, death_writer)
+
+    @staticmethod
+    def wait_for_response_handle_ready(
+        handles: dict[str, Any], proc_handle: UnreadyWorkerProcHandle
+    ) -> WorkerProcHandle:
+        response_handle = handles["handle"]
+        worker_response_mq: MessageQueue | None = None
+        if len(response_handle.local_reader_ranks) > 0:
+            worker_response_mq = MessageQueue.create_from_handle(response_handle, 0)
+        peer_response_handles = handles["peer_response_handles"]
+        peer_worker_response_mqs = [
+            MessageQueue.create_from_handle(handle, -1)
+            if handle.remote_subscribe_addr is not None
+            else None
+            for handle in peer_response_handles
+        ]
+        return WorkerProcHandle.from_unready_handle(
+            proc_handle,
+            worker_response_mq,
+            peer_worker_response_mqs=peer_worker_response_mqs,
+        )
+
+    @staticmethod
+    def wait_for_ready(
+        unready_proc_handles: list[UnreadyWorkerProcHandle],
+    ) -> list[WorkerProcHandle]:
+        e = Exception(
+            "WorkerProc initialization failed due to "
+            "an exception in a background process. "
+            "See stack trace for root cause."
+        )
+
+        pipes = {handle.ready_pipe: handle for handle in unready_proc_handles}
+        ready_proc_handles: list[WorkerProcHandle | None] = [None] * len(
+            unready_proc_handles
+        )
+        while pipes:
+            ready = multiprocessing.connection.wait(pipes.keys())
+            for pipe in ready:
+                assert isinstance(pipe, Connection)
+                try:
+                    # Wait until the WorkerProc is ready.
+                    unready_proc_handle = pipes.pop(pipe)
+                    response: dict[str, Any] = pipe.recv()
+                    if response["status"] != "READY":
+                        raise e
+
+                    idx = unready_proc_handle.rank % len(ready_proc_handles)
+                    ready_proc_handles[idx] = WorkerProc.wait_for_response_handle_ready(
+                        response, unready_proc_handle
+                    )
+                except EOFError:
+                    e.__suppress_context__ = True
+                    raise e from None
+
+                finally:
+                    # Close connection.
+                    pipe.close()
+
+        return cast(list[WorkerProcHandle], ready_proc_handles)
+
+    def shutdown(self):
+        self.worker.shutdown()
+        self.rpc_broadcast_mq = None
+        self.worker_response_mq = None
+        destroy_model_parallel()
+        destroy_distributed_environment()
+
+    @staticmethod
+    def worker_main(*args, **kwargs):
+        """Worker initialization and execution loops.
+        This runs a background process"""
+
+        # Signal handler used for graceful termination.
+        # SystemExit exception is only raised once to allow this and worker
+        # processes to terminate without error
+        shutdown_requested = False
+
+        def signal_handler(signum, frame):
+            nonlocal shutdown_requested
+            if not shutdown_requested:
+                shutdown_requested = True
+                raise SystemExit()
+
+        # Either SIGTERM or SIGINT will terminate the worker
+        signal.signal(signal.SIGTERM, signal_handler)
+        signal.signal(signal.SIGINT, signal_handler)
+
+        worker = None
+        # tuple[Connection, Connection]
+        reader, ready_writer = kwargs.pop("ready_pipe")
+        death_pipe = kwargs.pop("death_pipe", None)
+        shutdown_event = threading.Event()
+        # Start death monitoring thread if death_pipe is provided
+        if death_pipe is not None:
+
+            def monitor_parent_death():
+                try:
+                    # This will block until parent process exits (pipe closes)
+                    death_pipe.recv()
+                except EOFError:
+                    # Parent process has exited, terminate this worker
+                    logger.info("Parent process exited, terminating worker")
+                    # Send signal to self to trigger clean shutdown
+                    shutdown_event.set()
+                except Exception as e:
+                    logger.warning("Death monitoring error: %s", e)
+
+            death_monitor = Thread(
+                target=monitor_parent_death, daemon=True, name="WorkerDeathMonitor"
+            )
+            death_monitor.start()
+
+        try:
+            reader.close()
+            worker = WorkerProc(*args, **kwargs)
+
+            # Send READY once we know everything is loaded
+            ready_writer.send(
+                {
+                    "status": WorkerProc.READY_STR,
+                    "handle": worker.worker_response_mq.export_handle(),
+                    "peer_response_handles": worker.peer_response_handles,
+                }
+            )
+
+            # Ensure message queues are ready. Will deadlock if re-ordered.
+            # Must be kept consistent with the Executor
+            if worker.rpc_broadcast_mq is not None:
+                worker.rpc_broadcast_mq.wait_until_ready()
+            worker.worker_response_mq.wait_until_ready()
+            ready_writer.close()
+            ready_writer = None
+
+            worker.worker_busy_loop(cancel=shutdown_event)
+
+        except Exception:
+            # NOTE: if an Exception arises in busy_loop, we send
+            # a FAILURE message over the MQ RPC to notify the Executor,
+            # which triggers system shutdown.
+            # TODO(rob): handle case where the MQ itself breaks.
+
+            if ready_writer is not None:
+                logger.exception("WorkerProc failed to start.")
+            elif shutdown_event.is_set():
+                logger.info("WorkerProc shutting down.")
+            else:
+                logger.exception("WorkerProc failed.")
+
+            # The parent sends a SIGTERM to all worker processes if
+            # any worker dies. Set this value so we don't re-throw
+            # SystemExit() to avoid zmq exceptions in __del__.
+            shutdown_requested = True
+
+        finally:
+            if ready_writer is not None:
+                ready_writer.close()
+            if death_pipe is not None:
+                death_pipe.close()
+            # Clean up once worker exits busy loop
+            if worker is not None:
+                worker.shutdown()
+
+    class ResponseStatus(Enum):
+        SUCCESS = auto()
+        FAILURE = auto()
+
+    def enqueue_output(self, output: Any):
+        """Prepares output from the worker and enqueues it to the
+        worker_response_mq. If the output is an Exception, it is
+        converted to a FAILURE response.
+        """
+        if isinstance(output, AsyncModelRunnerOutput):
+            output = output.get_output()
+
+        if isinstance(output, Exception):
+            result = (WorkerProc.ResponseStatus.FAILURE, str(output))
+        else:
+            result = (WorkerProc.ResponseStatus.SUCCESS, output)
+        if (response_mq := self.worker_response_mq) is not None:
+            response_mq.enqueue(result)
+
+    def handle_output(self, output: Any):
+        """Handles output from the worker. If async scheduling is enabled,
+        it is passed to the async_output_busy_loop thread. Otherwise, it is
+        enqueued directly to the worker_response_mq.
+        """
+        if self.use_async_scheduling:
+            self.async_output_queue.put(output)
+        else:
+            self.enqueue_output(output)
+
+    def async_output_busy_loop(self):
+        """Entrypoint for the thread which handles outputs asynchronously."""
+        while True:
+            output = self.async_output_queue.get()
+            self.enqueue_output(output)
+
+    def worker_busy_loop(self, cancel: threading.Event | None = None):
+        """Main busy loop for Multiprocessing Workers"""
+        while True:
+            method, args, kwargs, output_rank = self.rpc_broadcast_mq.dequeue(
+                cancel=cancel, indefinite=True
+            )
+            try:
+                if isinstance(method, str):
+                    func = getattr(self.worker, method)
+                elif isinstance(method, bytes):
+                    func = partial(cloudpickle.loads(method), self.worker)
+
+                output = func(*args, **kwargs)
+            except Exception as e:
+                # Notes have been introduced in python 3.11
+                if hasattr(e, "add_note"):
+                    e.add_note(traceback.format_exc())
+                logger.exception("WorkerProc hit an exception.")
+                # exception might not be serializable, so we convert it to
+                # string, only for logging purpose.
+                if output_rank is None or self.rank == output_rank:
+                    self.handle_output(e)
+                continue
+
+            if output_rank is None or self.rank == output_rank:
+                self.handle_output(output)
+
+    @staticmethod
+    def setup_proc_title_and_log_prefix(enable_ep: bool) -> None:
+        dp_size = get_dp_group().world_size
+        dp_rank = get_dp_group().rank_in_group
+        pp_size = get_pp_group().world_size
+        pp_rank = get_pp_group().rank_in_group
+        tp_size = get_tp_group().world_size
+        tp_rank = get_tp_group().rank_in_group
+        dcp_size = get_dcp_group().world_size
+        dcp_rank = get_dcp_group().rank_in_group
+        process_name = "Worker"
+        if dp_size > 1:
+            process_name += f"_DP{dp_rank}"
+        if pp_size > 1:
+            process_name += f"_PP{pp_rank}"
+        if tp_size > 1:
+            process_name += f"_TP{tp_rank}"
+        if dcp_size > 1:
+            process_name += f"_DCP{dcp_rank}"
+        if enable_ep:
+            ep_rank = get_ep_group().rank_in_group
+            process_name += f"_EP{ep_rank}"
+        set_process_title(name=process_name)
+        decorate_logs(process_name)
+
+
+def set_multiprocessing_worker_envs():
+    """Set up environment variables that should be used when there are workers
+    in a multiprocessing environment. This should be called by the parent
+    process before worker processes are created"""
+
+    _maybe_force_spawn()
+
+    # Configure thread parallelism if OMP_NUM_THREADS isn't set
+    #
+    # Helps to avoid CPU contention. The default of spawning a thread per
+    # core combined with multiprocessing for each GPU can have a negative
+    # impact on performance. The contention is amplified when running in a
+    # container where CPU limits can cause throttling.
+    default_omp_num_threads = 1
+    if (
+        "OMP_NUM_THREADS" not in os.environ
+        and (current_parallelism := torch.get_num_threads()) > default_omp_num_threads
+    ):
+        logger.warning(
+            "Reducing Torch parallelism from %d threads to %d to avoid "
+            "unnecessary CPU contention. Set OMP_NUM_THREADS in the "
+            "external environment to tune this value as needed.",
+            current_parallelism,
+            default_omp_num_threads,
+        )
+        os.environ["OMP_NUM_THREADS"] = str(default_omp_num_threads)
+        torch.set_num_threads(default_omp_num_threads)
diff --git a/v1/executor/ray_distributed_executor.py b/v1/executor/ray_distributed_executor.py
new file mode 100644
index 0000000..9a56c09
--- /dev/null
+++ b/v1/executor/ray_distributed_executor.py
@@ -0,0 +1,8 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.v1.executor.ray_executor import (
+    RayDistributedExecutor as _RayDistributedExecutor,
+)
+
+# For backwards compatibility.
+RayDistributedExecutor = _RayDistributedExecutor
diff --git a/v1/executor/ray_executor.py b/v1/executor/ray_executor.py
new file mode 100644
index 0000000..406eafc
--- /dev/null
+++ b/v1/executor/ray_executor.py
@@ -0,0 +1,626 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from collections import defaultdict
+from collections.abc import Callable
+from concurrent.futures import Future
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+
+import cloudpickle
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.ray.ray_env import get_env_vars_to_copy
+from vllm.utils.network_utils import (
+    get_distributed_init_method,
+    get_ip,
+    get_open_port,
+)
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
+from vllm.v1.executor.abstract import Executor
+from vllm.v1.executor.ray_utils import (
+    FutureWrapper,
+    RayWorkerWrapper,
+    initialize_ray_cluster,
+    ray,
+)
+from vllm.v1.outputs import ModelRunnerOutput
+
+if ray is not None:
+    from ray.actor import ActorHandle
+    from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+else:
+    ActorHandle = None
+
+if TYPE_CHECKING:
+    from ray.util.placement_group import PlacementGroup
+
+logger = init_logger(__name__)
+
+COMPLETED_NONE_FUTURE: Future[ModelRunnerOutput | None] = Future()
+COMPLETED_NONE_FUTURE.set_result(None)
+
+
+@dataclass
+class RayWorkerMetaData:
+    """
+    Metadata for a Ray worker.
+    The order of ray worker creation can be random,
+    and we need to reset the rank after creating all workers.
+    """
+
+    worker: ActorHandle
+    created_rank: int
+    adjusted_rank: int = -1
+    ip: str = ""
+
+
+class RayDistributedExecutor(Executor):
+    """Ray-based distributed executor"""
+
+    # These env vars are worker-specific, therefore are NOT copied
+    # from the driver to the workers
+    WORKER_SPECIFIC_ENV_VARS = {
+        "VLLM_HOST_IP",
+        "VLLM_HOST_PORT",
+        "LOCAL_RANK",
+        "CUDA_VISIBLE_DEVICES",
+    }
+
+    # These non-vLLM env vars are copied from the driver to workers
+    ADDITIONAL_ENV_VARS = {"HF_TOKEN", "HUGGING_FACE_HUB_TOKEN"}
+
+    uses_ray: bool = True
+    supports_pp: bool = True
+
+    def _init_executor(self) -> None:
+        self.forward_dag: ray.dag.CompiledDAG | None = None
+
+        # For TPU or XPU, avoid compiling NVIDIA's NCCL
+        if current_platform.is_tpu() or current_platform.is_xpu():
+            os.environ["VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE"] = "shm"
+
+        assert self.uses_ray
+        initialize_ray_cluster(self.parallel_config)
+        placement_group = self.parallel_config.placement_group
+
+        # Disable Ray usage stats collection.
+        ray_usage = os.environ.get("RAY_USAGE_STATS_ENABLED", "0")
+        if ray_usage != "1":
+            os.environ["RAY_USAGE_STATS_ENABLED"] = "0"
+
+        # Create the parallel GPU workers.
+        self._init_workers_ray(placement_group)
+
+        # KV connector setup
+        self.has_connector = self.vllm_config.kv_transfer_config is not None
+
+        self.uses_sampler = self.vllm_config.model_config.runner_type != "pooling" and (
+            self.vllm_config.ec_transfer_config is None
+            or not self.vllm_config.ec_transfer_config.is_ec_producer
+        )
+
+        self.scheduler_output: SchedulerOutput | None = None
+
+    @property
+    def max_concurrent_batches(self) -> int:
+        """Ray distributed executor supports pipeline parallelism,
+        meaning that it allows PP size batches to be executed concurrently.
+        """
+        if self.scheduler_config.async_scheduling:
+            return 2
+        return self.parallel_config.pipeline_parallel_size
+
+    def shutdown(self) -> None:
+        if logger:
+            # Somehow logger can be None here.
+            logger.info(
+                "Shutting down Ray distributed executor. If you see error log "
+                "from logging.cc regarding SIGTERM received, please ignore "
+                "because this is the expected termination process in Ray."
+            )
+        if hasattr(self, "forward_dag") and self.forward_dag is not None:
+            self.forward_dag.teardown()
+            import ray
+
+            for worker in self.workers:
+                ray.kill(worker)
+            self.forward_dag = None
+
+    def _configure_ray_workers_use_nsight(self, ray_remote_kwargs) -> dict[str, Any]:
+        # If nsight profiling is enabled, we need to set the profiling
+        # configuration for the ray workers as runtime env.
+        runtime_env = ray_remote_kwargs.setdefault("runtime_env", {})
+        runtime_env.update(
+            {
+                "nsight": {
+                    "t": "cuda,cudnn,cublas",
+                    "o": "'worker_process_%p'",
+                    "cuda-graph-trace": "node",
+                }
+            }
+        )
+
+        return ray_remote_kwargs
+
+    # child class could overwrite this to return actual env vars.
+    def _get_env_vars_to_be_updated(self):
+        return self._env_vars_for_all_workers
+
+    def _init_workers_ray(self, placement_group: "PlacementGroup", **ray_remote_kwargs):
+        num_gpus = envs.VLLM_RAY_PER_WORKER_GPUS
+
+        # The driver dummy worker does not actually use any resources.
+        # It holds the resource for the driver worker.
+        self.driver_dummy_worker: RayWorkerWrapper | None = None
+        # The remaining workers are the actual ray actors.
+        self.workers: list[RayWorkerWrapper] = []
+
+        # Used in ray compiled DAG: indexed first by PP rank,
+        # and then TP rank. In other words, the inner list is
+        # the TP group of workers for a PP rank.
+        self.pp_tp_workers: list[list[RayWorkerWrapper]] = []
+
+        if self.parallel_config.ray_workers_use_nsight:
+            ray_remote_kwargs = self._configure_ray_workers_use_nsight(
+                ray_remote_kwargs
+            )
+
+        # Create the workers.
+        bundle_indices: list[int]
+        if envs.VLLM_RAY_BUNDLE_INDICES:
+            # Use the bundle indices specified by the user.
+            bundle_indices = list(map(int, envs.VLLM_RAY_BUNDLE_INDICES.split(",")))
+            assert len(bundle_indices) == self.parallel_config.world_size, (
+                "VLLM_RAY_BUNDLE_INDICES must have the same size"
+                f" as the world size, but got {bundle_indices=} "
+                f"and {self.parallel_config.world_size=}"
+            )
+            assert len(set(bundle_indices)) == len(bundle_indices), (
+                "VLLM_RAY_BUNDLE_INDICES cannot have duplicate values,"
+                f" but got {bundle_indices=}"
+            )
+        else:
+            # use the first N bundles that have GPU resources.
+            bundle_indices = []
+            for bundle_id, bundle in enumerate(placement_group.bundle_specs):
+                if bundle.get(current_platform.ray_device_key, 0):
+                    bundle_indices.append(bundle_id)
+            bundle_indices = bundle_indices[: self.parallel_config.world_size]
+
+        worker_metadata: list[RayWorkerMetaData] = []
+        driver_ip = get_ip()
+        for rank, bundle_id in enumerate(bundle_indices):
+            scheduling_strategy = PlacementGroupSchedulingStrategy(
+                placement_group=placement_group,
+                placement_group_capture_child_tasks=True,
+                placement_group_bundle_index=bundle_id,
+            )
+
+            if current_platform.ray_device_key == "GPU":
+                # NV+AMD GPUs, and Intel XPUs
+                worker = ray.remote(
+                    num_cpus=0,
+                    num_gpus=num_gpus,
+                    scheduling_strategy=scheduling_strategy,
+                    **ray_remote_kwargs,
+                )(RayWorkerWrapper).remote(  # type: ignore[attr-defined]
+                    vllm_config=self.vllm_config, rpc_rank=rank
+                )
+            else:
+                worker = ray.remote(
+                    num_cpus=0,
+                    num_gpus=0,
+                    resources={current_platform.ray_device_key: num_gpus},
+                    scheduling_strategy=scheduling_strategy,
+                    **ray_remote_kwargs,
+                )(RayWorkerWrapper).remote(  # type: ignore[attr-defined]
+                    vllm_config=self.vllm_config, rpc_rank=rank
+                )
+            worker_metadata.append(RayWorkerMetaData(worker=worker, created_rank=rank))
+
+        worker_ips = ray.get(
+            [
+                each.worker.get_node_ip.remote()  # type: ignore[attr-defined]
+                for each in worker_metadata
+            ]
+        )
+
+        for each, ip in zip(worker_metadata, worker_ips):
+            each.ip = ip
+
+        logger.debug("workers: %s", worker_metadata)
+        logger.debug("driver_dummy_worker: %s", self.driver_dummy_worker)
+
+        ip_counts: dict[str, int] = {}
+        for ip in worker_ips:
+            ip_counts[ip] = ip_counts.get(ip, 0) + 1
+
+        def sort_by_driver_then_worker_ip(item: RayWorkerMetaData):
+            """
+            Sort the workers based on 3 properties:
+            1. If the worker is on the same node as the driver (vllm engine),
+                it should be placed first.
+            2. Then, if the worker is on a node with fewer workers, it should
+                be placed first.
+            3. Finally, if the work is on a node with smaller IP address, it
+                should be placed first.
+            """
+            ip = item.ip
+            return 0 if ip == driver_ip else 1, ip_counts[ip], ip
+
+        # After sorting, the workers on the same node will be
+        # close to each other, and the workers on the driver
+        # node will be placed first.
+        sorted_worker_metadata = sorted(
+            worker_metadata, key=sort_by_driver_then_worker_ip
+        )
+        for i, item in enumerate(sorted_worker_metadata):
+            item.adjusted_rank = i
+        self.workers = [item.worker for item in sorted_worker_metadata]
+        rerank_mapping = {
+            item.created_rank: item.adjusted_rank for item in sorted_worker_metadata
+        }
+        self.collective_rpc("adjust_rank", args=(rerank_mapping,))
+
+        # Get the set of GPU IDs used on each node.
+        worker_node_and_gpu_ids = []
+        for worker in [self.driver_dummy_worker] + self.workers:
+            if worker is None:
+                # driver_dummy_worker can be None when using ray spmd worker.
+                continue
+            worker_node_and_gpu_ids.append(
+                ray.get(worker.get_node_and_gpu_ids.remote())
+            )  # type: ignore[attr-defined]
+
+        node_workers = defaultdict(list)  # node id -> list of worker ranks
+        node_gpus = defaultdict(list)  # node id -> list of gpu ids
+
+        for i, (node_id, gpu_ids) in enumerate(worker_node_and_gpu_ids):
+            node_workers[node_id].append(i)
+            # `gpu_ids` can be a list of strings or integers.
+            # convert them to integers for consistency.
+            # NOTE: gpu_ids can be larger than 9 (e.g. 16 GPUs),
+            # string sorting is not sufficient.
+            # see https://github.com/vllm-project/vllm/issues/5590
+            gpu_ids = [int(x) for x in gpu_ids]
+            node_gpus[node_id].extend(gpu_ids)
+        for node_id, gpu_ids in node_gpus.items():
+            node_gpus[node_id] = sorted(gpu_ids)
+
+        all_ips = set(worker_ips + [driver_ip])
+        n_ips = len(all_ips)
+        n_nodes = len(node_workers)
+
+        if n_nodes != n_ips:
+            raise RuntimeError(
+                f"Every node should have a unique IP address. Got {n_nodes}"
+                f" nodes with node ids {list(node_workers.keys())} and "
+                f"{n_ips} unique IP addresses {all_ips}. Please check your"
+                " network configuration. If you set `VLLM_HOST_IP`"
+                " environment variable, make sure it is unique for"
+                " each node."
+            )
+
+        # Set environment variables for the driver and workers.
+        all_args_to_update_environment_variables = [
+            {
+                current_platform.device_control_env_var: ",".join(
+                    map(str, node_gpus[node_id])
+                ),
+            }
+            for (node_id, _) in worker_node_and_gpu_ids
+        ]
+
+        # Environment variables to copy from driver to workers
+        env_vars_to_copy = get_env_vars_to_copy(
+            exclude_vars=self.WORKER_SPECIFIC_ENV_VARS,
+            additional_vars=set(current_platform.additional_env_vars).union(
+                self.ADDITIONAL_ENV_VARS
+            ),
+            destination="workers",
+        )
+
+        # Copy existing env vars to each worker's args
+        for args in all_args_to_update_environment_variables:
+            # TODO: refactor platform-specific env vars
+            for name in env_vars_to_copy:
+                if name in os.environ:
+                    args[name] = os.environ[name]
+
+        self._env_vars_for_all_workers = all_args_to_update_environment_variables
+
+        self.collective_rpc(
+            "update_environment_variables", args=(self._get_env_vars_to_be_updated(),)
+        )
+
+        if len(node_gpus) == 1:
+            # in single node case, we don't need to get the IP address.
+            # the loopback address is sufficient
+            # NOTE: a node may have several IP addresses, one for each
+            # network interface. `get_ip()` might return any of them,
+            # while they might not work for communication inside the node
+            # if the network setup is complicated. Using the loopback address
+            # solves this issue, as it always works for communication inside
+            # the node.
+            driver_ip = "127.0.0.1"
+        distributed_init_method = get_distributed_init_method(
+            driver_ip, get_open_port()
+        )
+
+        # Initialize the actual workers inside worker wrapper.
+        all_kwargs = []
+        for rank, (node_id, _) in enumerate(worker_node_and_gpu_ids):
+            local_rank = node_workers[node_id].index(rank)
+            kwargs = dict(
+                vllm_config=self.vllm_config,
+                local_rank=local_rank,
+                rank=rank,
+                distributed_init_method=distributed_init_method,
+                is_driver_worker=(not self.parallel_config)
+                or (rank % self.parallel_config.tensor_parallel_size == 0),
+            )
+            all_kwargs.append(kwargs)
+        self.collective_rpc("init_worker", args=(all_kwargs,))
+
+        self.collective_rpc("init_device")
+        self.collective_rpc("load_model")
+
+        for pp_rank in range(self.parallel_config.pipeline_parallel_size):
+            self.pp_tp_workers.append([])
+            for tp_rank in range(self.parallel_config.tensor_parallel_size):
+                # PP=2, TP=4
+                # pp_tp_workers = [[0, 1, 2, 3], [4, 5, 6, 7]]
+                rank = (pp_rank * self.parallel_config.tensor_parallel_size) + tp_rank
+                assert len(self.pp_tp_workers[pp_rank]) == tp_rank
+                assert pp_rank < len(self.pp_tp_workers)
+                self.pp_tp_workers[pp_rank].append(self.workers[rank])
+
+    def reinitialize_distributed(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        self.collective_rpc("reinitialize_distributed", args=(reconfig_request,))
+        if (
+            reconfig_request.new_data_parallel_rank
+            == ReconfigureRankType.SHUTDOWN_CURRENT_RANK
+        ):
+            self.shutdown()
+
+    def execute_model(  # type: ignore[override]
+        self,
+        scheduler_output: SchedulerOutput,
+        non_block: bool = False,
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        if self.scheduler_output is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
+
+        if not self.uses_sampler or not scheduler_output.total_num_scheduled_tokens:
+            # Model will not execute, call model runner immediately.
+            return self._execute_dag(scheduler_output, None, non_block)
+
+        # Model will execute, defer to sample_tokens() call.
+        self.scheduler_output = scheduler_output
+        return COMPLETED_NONE_FUTURE if non_block else None
+
+    def sample_tokens(  # type: ignore[override]
+        self,
+        grammar_output: "GrammarOutput | None",
+        non_block: bool = False,
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+        """Execute the model on the Ray workers.
+
+        The scheduler output to use should have been provided in
+        a prior call to execute_model().
+
+        Args:
+            grammar_output: The structured outputs grammar bitmask, if applicable.
+            non_block: If True, the method will return a Future.
+
+        Returns:
+            The model runner output.
+        """
+        scheduler_output = self.scheduler_output
+        if scheduler_output is None:
+            return COMPLETED_NONE_FUTURE if non_block else None  # noqa
+
+        self.scheduler_output = None
+
+        return self._execute_dag(scheduler_output, grammar_output, non_block)
+
+    def _execute_dag(
+        self,
+        scheduler_output: SchedulerOutput,
+        grammar_output: "GrammarOutput | None",
+        non_block: bool = False,
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+        # Build the compiled DAG for the first time.
+        if self.forward_dag is None:  # type: ignore
+            self.forward_dag = self._compiled_ray_dag(enable_asyncio=False)
+
+        refs = self.forward_dag.execute((scheduler_output, grammar_output))  # type: ignore
+
+        if not self.has_connector:
+            # Get output only from a single worker (output_rank)
+            # When PP is not used, we block here until the result is available.
+            if not non_block:
+                return refs[0].get()
+
+            # When PP is used, we return a FutureWrapper immediately so that
+            # the scheduler can yield to the next batch.
+            return FutureWrapper(refs[0])
+
+        # Get output from all workers when connector is present
+        assert self.kv_output_aggregator is not None
+        if not non_block:
+            # Block and get results from all workers
+            return self.kv_output_aggregator.aggregate(ray.get(refs))
+
+        # Return a future that will aggregate outputs from all workers
+        return FutureWrapper(refs, self.kv_output_aggregator)
+
+    def collective_rpc(  # type: ignore[override]
+        self,
+        method: str | Callable,
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict[str, Any] | None = None,
+        non_block: bool = False,
+    ) -> list[Any] | Future[list[Any]]:
+        """Runs the given method on all workers."""
+        sent_method = method if isinstance(method, str) else cloudpickle.dumps(method)
+        del method
+
+        if kwargs is None:
+            kwargs = {}
+        ray_worker_outputs = [
+            worker.execute_method.remote(  # type: ignore[attr-defined]
+                sent_method, *args, **kwargs
+            )
+            for worker in self.workers
+        ]
+
+        # Get the results of the ray workers.
+        if non_block:
+            return FutureWrapper(ray_worker_outputs)
+
+        return ray.get(ray_worker_outputs, timeout=timeout)
+
+    def _check_ray_cgraph_installation(self):
+        import importlib.metadata
+
+        from packaging import version
+
+        required_version = version.parse("2.43.0")
+        current_version = version.parse(importlib.metadata.version("ray"))
+        if current_version < required_version:
+            raise ValueError(
+                f"Ray version {required_version} is "
+                f"required, but found {current_version}"
+            )
+
+        import importlib.util
+
+        cgraph_spec = importlib.util.find_spec("ray.experimental.compiled_dag_ref")
+        if cgraph_spec is None:
+            raise ValueError(
+                "Ray Compiled Graph is not installed. "
+                "Run `pip install ray[cgraph]` to install it."
+            )
+
+        cupy_spec = importlib.util.find_spec("cupy")
+        if cupy_spec is None and envs.VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE == "nccl":
+            raise ValueError(
+                "cupy is not installed but required since "
+                "VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE is set to 'nccl'. "
+                "Run `pip install ray[cgraph]` and check cupy installation."
+            )
+
+    def _compiled_ray_dag(self, enable_asyncio: bool):
+        assert self.parallel_config.use_ray
+        self._check_ray_cgraph_installation()
+        # Enlarge the default value of "RAY_CGRAPH_get_timeout" to 300 seconds
+        # (it is 10 seconds by default). This is a Ray environment variable to
+        # control the timeout of getting result from a compiled graph execution,
+        # i.e., the distributed execution that includes model forward runs and
+        # intermediate tensor communications, in the case of vllm.
+        # Note: we should set this env var before importing
+        # ray.dag, otherwise it will not take effect.
+        os.environ.setdefault("RAY_CGRAPH_get_timeout", "300")  # noqa: SIM112
+        from ray.dag import InputNode, MultiOutputNode
+
+        logger.info(
+            "RAY_CGRAPH_get_timeout is set to %s",
+            os.environ["RAY_CGRAPH_get_timeout"],  # noqa: SIM112
+        )
+        logger.info(
+            "VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE = %s",
+            envs.VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE,
+        )
+        logger.info(
+            "VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM = %s",
+            envs.VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM,
+        )
+
+        channel_type = envs.VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE
+        if channel_type not in ("auto", "nccl", "shm"):
+            raise ValueError(
+                "Invalid value for VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE: "
+                f"{channel_type}. Valid values are: 'auto', 'nccl', or 'shm'."
+            )
+
+        with InputNode() as input_data:
+            # Example DAG: PP=2, TP=4
+            #
+            # SchedulerOutput -> 0 -> (SchedulerOutput, IntermediateTensors) -> 4 -> ModelRunnerOutput   # noqa: E501
+            # SchedulerOutput -> 1 -> (SchedulerOutput, IntermediateTensors) -> 5 -> ModelRunnerOutput   # noqa: E501
+            # SchedulerOutput -> 2 -> (SchedulerOutput, IntermediateTensors) -> 6 -> ModelRunnerOutput   # noqa: E501
+            # SchedulerOutput -> 3 -> (SchedulerOutput, IntermediateTensors) -> 7 -> ModelRunnerOutput   # noqa: E501
+
+            # All workers in the first TP group will take in the
+            # ExecuteModelRequest as input.
+            outputs = [input_data for _ in self.pp_tp_workers[0]]
+            for pp_rank, tp_group in enumerate(self.pp_tp_workers):
+                # Each PP worker takes in the output of the previous PP worker,
+                # and the TP group executes in SPMD fashion.
+                outputs = [
+                    worker.execute_model_ray.bind(outputs[i])  # type: ignore[attr-defined]
+                    for i, worker in enumerate(tp_group)
+                ]
+
+                last_pp_rank = len(self.pp_tp_workers) - 1
+                if (
+                    pp_rank < last_pp_rank
+                    and envs.VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE != "shm"
+                ):
+                    # Specify how intermediate tensors should be passed
+                    # between pp stages, no need to specify for the last
+                    # pp stage or when using shared memory (the default).
+                    transport = envs.VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE
+                    outputs = [
+                        output.with_tensor_transport(transport=transport)
+                        for output in outputs
+                    ]
+
+            forward_dag = MultiOutputNode(outputs)
+
+        if envs.VLLM_USE_RAY_WRAPPED_PP_COMM:
+            from ray.experimental.channel.accelerator_context import (
+                register_accelerator_context,
+            )
+
+            from vllm.distributed.device_communicators.ray_communicator import (
+                RayPPCommunicator,
+            )
+
+            register_accelerator_context(
+                torch_module_name="cuda", communicator_cls=RayPPCommunicator
+            )
+            logger.info(
+                "Using RayPPCommunicator "
+                "(which wraps vLLM _PP GroupCoordinator) "
+                "for Ray Compiled Graph communication."
+            )
+        else:
+            logger.info(
+                "Using Ray's NCCL communicator for Ray Compiled Graph communication."
+            )
+
+        return forward_dag.experimental_compile(
+            enable_asyncio=enable_asyncio,
+            _overlap_gpu_communication=envs.VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM,
+        )
+
+    def __del__(self):
+        self.shutdown()
+
+    def check_health(self) -> None:
+        # Assume that the Ray workers are healthy.
+        # TODO: check the health of the Ray workers
+        return
diff --git a/v1/executor/ray_utils.py b/v1/executor/ray_utils.py
new file mode 100644
index 0000000..b24dba0
--- /dev/null
+++ b/v1/executor/ray_utils.py
@@ -0,0 +1,498 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+import time
+from collections import defaultdict
+from concurrent.futures import Future
+from typing import TYPE_CHECKING, Union
+
+import vllm.platforms
+from vllm.config import ParallelConfig
+from vllm.distributed import get_pp_group
+from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.network_utils import get_ip
+from vllm.v1.outputs import AsyncModelRunnerOutput
+from vllm.v1.worker.worker_base import WorkerWrapperBase
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+    from vllm.v1.outputs import ModelRunnerOutput
+
+logger = init_logger(__name__)
+PG_WAIT_TIMEOUT = 1800
+
+try:
+    import ray
+    from ray.util import placement_group_table
+    from ray.util.placement_group import PlacementGroup
+
+    try:
+        from ray._private.state import available_resources_per_node
+    except ImportError:
+        # Ray 2.9.x doesn't expose `available_resources_per_node`
+        from ray._private.state import state as _state
+
+        available_resources_per_node = _state._available_resources_per_node
+
+    class RayWorkerWrapper(WorkerWrapperBase):
+        """Ray wrapper for vllm.worker.Worker, allowing Worker to be
+        lazily initialized after Ray sets CUDA_VISIBLE_DEVICES."""
+
+        def __init__(self, *args, **kwargs) -> None:
+            super().__init__(*args, **kwargs)
+            # Since the compiled DAG runs a main execution
+            # in a different thread that calls cuda.set_device.
+            # The flag indicates is set_device is called on
+            # that thread.
+            self.compiled_dag_cuda_device_set = False
+
+        def get_node_ip(self) -> str:
+            return get_ip()
+
+        def get_node_and_gpu_ids(self) -> tuple[str, list[int]]:
+            node_id = ray.get_runtime_context().get_node_id()
+            device_key = vllm.platforms.current_platform.ray_device_key
+            if not device_key:
+                raise RuntimeError(
+                    "current platform %s does not support ray.",
+                    vllm.platforms.current_platform.device_name,
+                )
+            gpu_ids = ray.get_runtime_context().get_accelerator_ids()[device_key]
+            return node_id, gpu_ids
+
+        def setup_device_if_necessary(self):
+            # TODO(swang): This is needed right now because Ray CG executes
+            # on a background thread, so we need to reset torch's current
+            # device.
+            # We can remove this API after it is fixed in compiled graph.
+            assert self.worker is not None, "Worker is not initialized"
+            if not self.compiled_dag_cuda_device_set:
+                if current_platform.is_tpu():
+                    # Not needed
+                    pass
+                else:
+                    assert self.worker.device is not None
+                    current_platform.set_device(self.worker.device)
+
+                self.compiled_dag_cuda_device_set = True
+
+        def execute_model_ray(
+            self,
+            execute_model_input: tuple["SchedulerOutput", "GrammarOutput"]
+            | tuple["SchedulerOutput", "GrammarOutput", "IntermediateTensors"],
+        ) -> Union[
+            "ModelRunnerOutput",
+            tuple["SchedulerOutput", "GrammarOutput", "IntermediateTensors"],
+        ]:
+            # This method is used by Ray Compiled Graph to execute the model,
+            # and it needs a special logic of self.setup_device_if_necessary()
+            self.setup_device_if_necessary()
+            assert self.worker is not None, "Worker is not initialized"
+            if len(execute_model_input) == 3:
+                scheduler_output, grammar_output, intermediate_tensors = (
+                    execute_model_input
+                )
+            else:
+                scheduler_output, grammar_output = execute_model_input
+                intermediate_tensors = None
+            assert self.worker.model_runner is not None
+            output = self.worker.model_runner.execute_model(
+                scheduler_output, intermediate_tensors
+            )
+            if isinstance(output, IntermediateTensors):
+                output = scheduler_output, grammar_output, output
+            elif not get_pp_group().is_last_rank:
+                # Case where there are no scheduled requests
+                # but may still be finished requests.
+                assert not output or not output.req_ids
+                output = scheduler_output, grammar_output, None
+            elif output is None:
+                output = self.worker.model_runner.sample_tokens(grammar_output)
+                # Ensure outputs crossing Ray compiled DAG are serializable.
+                # AsyncModelRunnerOutput holds CUDA events and cannot be
+                # pickled.
+                if isinstance(output, AsyncModelRunnerOutput):
+                    output = output.get_output()
+            return output
+
+        def override_env_vars(self, vars: dict[str, str]):
+            os.environ.update(vars)
+
+    ray_import_err = None
+
+except ImportError as e:
+    ray = None  # type: ignore
+    # only capture string to avoid variable references in the traceback that can
+    # prevent garbage collection in some cases
+    ray_import_err = str(e)
+    RayWorkerWrapper = None  # type: ignore
+
+
+class FutureWrapper(Future):
+    """A wrapper around Ray output reference to meet the interface
+    of .execute_model(): The top level (core busy loop) expects .result() api
+    to block and return a single output.
+
+    If aggregator is provided, the outputs from all workers are aggregated upon
+    the result() call. If not only the first worker's output is returned.
+    """
+
+    def __init__(self, ref_or_refs, aggregator: KVOutputAggregator | None = None):
+        super().__init__()
+        self.ref_or_refs = ref_or_refs
+        self.aggregator = aggregator
+
+    def result(self, timeout=None):
+        outputs = ray.get(self.ref_or_refs, timeout=timeout)
+        if self.aggregator is None:
+            return outputs
+
+        return self.aggregator.aggregate(outputs, output_rank=0)
+
+
+def ray_is_available() -> bool:
+    """Returns True if Ray is available."""
+    return ray is not None
+
+
+def assert_ray_available():
+    """Raise an exception if Ray is not available."""
+    if ray is None:
+        raise ValueError(
+            f"Failed to import Ray: {ray_import_err}."
+            "Please install Ray with `pip install ray`."
+        )
+
+
+def _verify_bundles(
+    placement_group: "PlacementGroup", parallel_config: ParallelConfig, device_str: str
+):
+    """Verify a given placement group has bundles located in the right place.
+
+    There are 2 rules.
+    - Warn if all tensor parallel workers cannot fit in a single node.
+    - Fail if driver node is not included in a placement group.
+    """
+    assert ray.is_initialized(), (
+        "Ray is not initialized although distributed-executor-backend is ray."
+    )
+    pg_data = placement_group_table(placement_group)
+    # bundle_idx -> node_id
+    bundle_to_node_ids = pg_data["bundles_to_node_id"]
+    # bundle_idx -> bundle (e.g., {"GPU": 1})
+    bundles = pg_data["bundles"]
+    # node_id -> List of bundle (e.g., {"GPU": 1})
+    node_id_to_bundle: dict[str, list[dict[str, float]]] = defaultdict(list)
+
+    for bundle_idx, node_id in bundle_to_node_ids.items():
+        node_id_to_bundle[node_id].append(bundles[bundle_idx])
+    driver_node_id = ray.get_runtime_context().get_node_id()
+
+    if driver_node_id not in node_id_to_bundle:
+        raise RuntimeError(
+            f"driver node id {driver_node_id} is not included in a placement "
+            f"group {placement_group.id}. Node id -> bundles "
+            f"{node_id_to_bundle}. "
+            "You don't have enough GPUs available in a current node. Check "
+            "`ray status` and `ray list nodes` to see if you have available "
+            "GPUs in a node `{driver_node_id}` before starting an vLLM engine."
+        )
+
+    for node_id, bundles in node_id_to_bundle.items():
+        if len(bundles) < parallel_config.tensor_parallel_size:
+            logger.warning(
+                "tensor_parallel_size=%d "
+                "is bigger than a reserved number of %ss (%d "
+                "%ss) in a node %s. Tensor parallel workers can be "
+                "spread out to 2+ nodes which can degrade the performance "
+                "unless you have fast interconnect across nodes, like "
+                "Infiniband. To resolve this issue, make sure you have more "
+                "than %d GPUs available at each node.",
+                parallel_config.tensor_parallel_size,
+                device_str,
+                len(bundles),
+                device_str,
+                node_id,
+                parallel_config.tensor_parallel_size,
+            )
+
+
+def _wait_until_pg_ready(current_placement_group: "PlacementGroup"):
+    """Wait until a placement group is ready.
+
+    It prints the informative log messages if the placement group is
+    not created within time.
+
+    """
+    # Wait until PG is ready - this will block until all
+    # requested resources are available, and will time out
+    # if they cannot be provisioned.
+    placement_group_specs = current_placement_group.bundle_specs
+
+    s = time.time()
+    pg_ready_ref = current_placement_group.ready()
+    wait_interval = 10
+    while time.time() - s < PG_WAIT_TIMEOUT:
+        ready, _ = ray.wait([pg_ready_ref], timeout=wait_interval)
+        if len(ready) > 0:
+            break
+
+        # Exponential backoff for warning print.
+        wait_interval *= 2
+        logger.info(
+            "Waiting for creating a placement group of specs for "
+            "%d seconds. specs=%s. Check `ray status` and "
+            "`ray list nodes` to see if you have enough resources,"
+            " and make sure the IP addresses used by ray cluster"
+            " are the same as VLLM_HOST_IP environment variable"
+            " specified in each node if you are running on a multi-node.",
+            int(time.time() - s),
+            placement_group_specs,
+        )
+
+    try:
+        ray.get(pg_ready_ref, timeout=0)
+    except ray.exceptions.GetTimeoutError:
+        # Provide more helpful error message when GPU count is exceeded
+        total_gpu_required = sum(spec.get("GPU", 0) for spec in placement_group_specs)
+        # If more than one GPU is required for the placement group, provide a
+        # more specific error message.
+        # We use >1 here because multi-GPU (tensor parallel) jobs are more
+        # likely to fail due to insufficient cluster resources, and users may
+        # need to adjust tensor_parallel_size to fit available GPUs.
+        if total_gpu_required > 1:
+            raise ValueError(
+                f"Cannot provide a placement group requiring "
+                f"{total_gpu_required} GPUs "
+                f"(placement_group_specs={placement_group_specs}) within "
+                f"{PG_WAIT_TIMEOUT} seconds.\n"
+                f"Tensor parallel size may exceed available GPUs in your "
+                f"cluster. Check resources with `ray status` and "
+                f"`ray list nodes`.\n"
+                f"If running on K8s with limited GPUs, consider reducing "
+                f"--tensor-parallel-size to match available GPU resources."
+            ) from None
+        else:
+            raise ValueError(
+                "Cannot provide a placement group of "
+                f"{placement_group_specs=} within "
+                f"{PG_WAIT_TIMEOUT} seconds. See "
+                "`ray status` and `ray list nodes` to make sure the cluster "
+                "has enough resources."
+            ) from None
+
+
+def _wait_until_pg_removed(current_placement_group: "PlacementGroup"):
+    ray.util.remove_placement_group(current_placement_group)
+    s = time.time()
+    wait_interval = 10
+    while time.time() - s < PG_WAIT_TIMEOUT:
+        pg = ray.util.get_current_placement_group()
+        if pg is None:
+            break
+
+        # Exponential backoff for warning print.
+        wait_interval *= 2
+        logger.info(
+            "Waiting for removing a placement group of specs for %d seconds.",
+            int(time.time() - s),
+        )
+        time.sleep(wait_interval)
+
+
+def initialize_ray_cluster(
+    parallel_config: ParallelConfig,
+    ray_address: str | None = None,
+):
+    """Initialize the distributed cluster with Ray.
+
+    it will connect to the Ray cluster and create a placement group
+    for the workers, which includes the specification of the resources
+    for each distributed worker.
+
+    Args:
+        parallel_config: The configurations for parallel execution.
+        ray_address: The address of the Ray cluster. If None, uses
+            the default Ray cluster address.
+    """
+    assert_ray_available()
+    from vllm.platforms import current_platform
+
+    # Prevalidate GPU requirements before Ray processing
+    if current_platform.is_cuda() and parallel_config.world_size > 1:
+        from vllm.utils.torch_utils import cuda_device_count_stateless
+
+        available_gpus = cuda_device_count_stateless()
+        if parallel_config.world_size > available_gpus:
+            logger.warning(
+                "Tensor parallel size (%d) exceeds available GPUs (%d). "
+                "This may result in Ray placement group allocation failures. "
+                "Consider reducing tensor_parallel_size to %d or less, "
+                "or ensure your Ray cluster has %d GPUs available.",
+                parallel_config.world_size,
+                available_gpus,
+                available_gpus,
+                parallel_config.world_size,
+            )
+
+    if ray.is_initialized():
+        logger.info("Ray is already initialized. Skipping Ray initialization.")
+    elif current_platform.is_rocm() or current_platform.is_xpu():
+        # Try to connect existing ray instance and create a new one if not found
+        try:
+            ray.init("auto")
+        except ConnectionError:
+            logger.warning(
+                "No existing RAY instance detected. "
+                "A new instance will be launched with current node resources."
+            )
+            ray.init(
+                address=ray_address,
+                num_gpus=parallel_config.world_size,
+                runtime_env=parallel_config.ray_runtime_env,
+            )
+    else:
+        import os
+        import torch
+        import vllm.envs as envs
+        runtime_env = {}
+        device_count = torch.cuda.device_count()
+        nccl_if_name = os.environ.get("NCCL_SOCKET_IFNAME",None)
+        vllm_nccl_comm = os.environ.get("VLLM_FORCE_NCCL_COMM",None)
+        if nccl_if_name is not None and vllm_nccl_comm is not None:
+            runtime_env = {"env_vars":{
+                            "NCCL_SOCKET_IFNAME":nccl_if_name,
+                            "VLLM_FORCE_NCCL_COMM":vllm_nccl_comm}}
+        elif nccl_if_name is not None:
+            runtime_env = {"env_vars":{
+                            "NCCL_SOCKET_IFNAME":nccl_if_name}}
+        elif vllm_nccl_comm is not None:
+            runtime_env = {"env_vars":{
+                            "VLLM_FORCE_NCCL_COMM":vllm_nccl_comm}}
+        if "env_vars" not in runtime_env:
+            runtime_env = {
+                "env_vars":{"RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES":"1"}
+            }
+        else:
+            runtime_env["env_vars"].update({"RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES":"1"})
+        all_envs = dict(os.environ)
+        all_vllm_envs = {k: v for k,v in all_envs.items() if "VLLM" in k}
+        runtime_env["env_vars"].update(all_vllm_envs)
+        # ray.init(address=ray_address, ignore_reinit_error=True, runtime_env=runtime_env)
+        if device_count >= parallel_config.world_size:
+            ray.init(address=ray_address,
+                     ignore_reinit_error=True,
+                     num_gpus=parallel_config.world_size,
+                     runtime_env=runtime_env)
+        else:
+            ray.init(address=ray_address, ignore_reinit_error=True, runtime_env=runtime_env)
+
+    device_str = current_platform.ray_device_key
+    if not device_str:
+        raise ValueError(
+            f"current platform {current_platform.device_name} does not support ray."
+        )
+
+    # Create or get the placement group for worker processes
+    if parallel_config.placement_group:
+        current_placement_group = parallel_config.placement_group
+    else:
+        current_placement_group = ray.util.get_current_placement_group()
+
+    if current_placement_group:
+        logger.info("Using the existing placement group")
+
+        # We are in a placement group
+        bundles = current_placement_group.bundle_specs
+        # Verify that we can use the placement group.
+        device_bundles = 0
+        for bundle in bundles:
+            bundle_devices = bundle.get(device_str, 0)
+            if bundle_devices > 1:
+                raise ValueError(
+                    f"Placement group bundle cannot have more than 1 {device_str}."
+                )
+            if bundle_devices:
+                device_bundles += 1
+        if parallel_config.world_size > device_bundles:
+            raise ValueError(
+                f"The number of required {device_str}s exceeds the total "
+                f"number of available {device_str}s in the placement group. "
+                f"Required number of devices: {parallel_config.world_size}. "
+                f"Total number of devices: {device_bundles}."
+            )
+    else:
+        logger.info("No current placement group found. Creating a new placement group.")
+        num_devices_in_cluster = ray.cluster_resources().get(device_str, 0)
+        # Log a warning message and delay resource allocation failure response.
+        # Avoid immediate rejection to allow user-initiated placement group
+        # created and wait cluster to be ready
+        if parallel_config.world_size > num_devices_in_cluster:
+            logger.warning(
+                "The number of required %ss exceeds the total "
+                "number of available %ss in the placement group.",
+                device_str,
+                device_str,
+            )
+        # Create a new placement group
+        placement_group_specs: list[dict[str, float]] = [
+            {device_str: 1.0} for _ in range(parallel_config.world_size)
+        ]
+
+        # vLLM engine is also a worker to execute model with an accelerator,
+        # so it requires to have the device in a current node. Check if
+        # the current node has at least one device.
+        current_ip = get_ip()
+        current_node_id = ray.get_runtime_context().get_node_id()
+        current_node_resource = available_resources_per_node()[current_node_id]
+        if current_node_resource.get(device_str, 0) < 1:
+            raise ValueError(
+                f"Current node has no {device_str} available. "
+                f"{current_node_resource=}. vLLM engine cannot start without "
+                f"{device_str}. Make sure you have at least 1 {device_str} "
+                f"available in a node {current_node_id=} {current_ip=}."
+            )
+        # This way, at least bundle is required to be created in a current
+        # node.
+        placement_group_specs[0][f"node:{current_ip}"] = 0.001
+
+        # By default, Ray packs resources as much as possible.
+        current_placement_group = ray.util.placement_group(
+            placement_group_specs, strategy="PACK"
+        )
+        _wait_until_pg_ready(current_placement_group)
+
+    assert current_placement_group is not None
+    _verify_bundles(current_placement_group, parallel_config, device_str)
+    # Set the placement group in the parallel config
+    parallel_config.placement_group = current_placement_group
+
+
+def get_num_tpu_nodes() -> int:
+    from ray._private.accelerators import TPUAcceleratorManager
+
+    cluster_resources = ray.cluster_resources()
+    total_tpus = int(cluster_resources["TPU"])
+    tpus_per_node = TPUAcceleratorManager.get_current_node_num_accelerators()
+    assert total_tpus % tpus_per_node == 0
+    return total_tpus // tpus_per_node
+
+
+def get_num_nodes_in_placement_group() -> int:
+    pg_table = ray.util.placement_group_table()
+    current_pg = ray.util.get_current_placement_group()
+    num_nodes = 0
+
+    if current_pg:
+        nodes_in_pg = set()
+        for pg_key, pg in pg_table.items():
+            if pg_key == current_pg.id.hex():
+                for _, node in pg["bundles_to_node_id"].items():
+                    nodes_in_pg.add(node)
+        num_nodes = len(nodes_in_pg)
+
+    return num_nodes
diff --git a/v1/executor/uniproc_executor.py b/v1/executor/uniproc_executor.py
new file mode 100644
index 0000000..095d3d1
--- /dev/null
+++ b/v1/executor/uniproc_executor.py
@@ -0,0 +1,183 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from collections.abc import Callable
+from concurrent.futures import Future, ThreadPoolExecutor
+from functools import cached_property
+from multiprocessing import Lock
+from typing import Any
+
+import torch
+import torch.distributed as dist
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
+from vllm.v1.executor.abstract import Executor
+from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
+from vllm.v1.serial_utils import run_method
+from vllm.v1.worker.worker_base import WorkerWrapperBase
+
+logger = init_logger(__name__)
+
+
+class UniProcExecutor(Executor):
+    def _init_executor(self) -> None:
+        """Initialize the worker and load the model."""
+        self.driver_worker = WorkerWrapperBase(vllm_config=self.vllm_config, rpc_rank=0)
+        distributed_init_method, rank, local_rank = self._distributed_args()
+        kwargs = dict(
+            vllm_config=self.vllm_config,
+            local_rank=local_rank,
+            rank=rank,
+            distributed_init_method=distributed_init_method,
+            is_driver_worker=True,
+            shared_worker_lock=Lock(),
+        )
+
+        self.async_output_thread: ThreadPoolExecutor | None = None
+        if self.max_concurrent_batches > 1:
+            self.async_output_thread = ThreadPoolExecutor(
+                max_workers=1, thread_name_prefix="WorkerAsyncOutput"
+            )
+
+        self.driver_worker.init_worker(all_kwargs=[kwargs])
+        self.driver_worker.init_device()
+        self.driver_worker.load_model()
+
+    def _distributed_args(self) -> tuple[str, int, int]:
+        """Return (distributed_init_method, rank, local_rank)."""
+        distributed_init_method = get_distributed_init_method(get_ip(), get_open_port())
+        # set local rank as the device index if specified
+        device_info = self.vllm_config.device_config.device.__str__().split(":")
+        local_rank = int(device_info[1]) if len(device_info) > 1 else 0
+        return distributed_init_method, 0, local_rank
+
+    @cached_property
+    def max_concurrent_batches(self) -> int:
+        return 2 if self.scheduler_config.async_scheduling else 1
+
+    def collective_rpc(  # type: ignore[override]
+        self,
+        method: str | Callable,
+        timeout: float | None = None,
+        args: tuple = (),
+        kwargs: dict | None = None,
+        non_block: bool = False,
+        single_value: bool = False,
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
+        if kwargs is None:
+            kwargs = {}
+
+        if not non_block:
+            result = run_method(self.driver_worker, method, args, kwargs)
+            return result if single_value else [result]
+
+        try:
+            result = run_method(self.driver_worker, method, args, kwargs)
+            if isinstance(result, AsyncModelRunnerOutput):
+                if (async_thread := self.async_output_thread) is not None:
+                    get_output = result.get_output
+                    if not single_value:
+                        get_output = lambda go=result.get_output: [go()]
+                    return async_thread.submit(get_output)
+                result = result.get_output()
+            future = Future[Any]()
+            future.set_result(result if single_value else [result])
+        except Exception as e:
+            future = Future[Any]()
+            future.set_exception(e)
+        return future
+
+    def execute_model(  # type: ignore[override]
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "execute_model",
+            args=(scheduler_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def sample_tokens(  # type: ignore[override]
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "sample_tokens",
+            args=(grammar_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        return self.collective_rpc("take_draft_token_ids", single_value=True)
+
+    def check_health(self) -> None:
+        # UniProcExecutor will always be healthy as long as
+        # it's running.
+        return
+
+    def reinitialize_distributed(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        self.driver_worker.reinitialize_distributed(reconfig_request)
+        if (
+            reconfig_request.new_data_parallel_rank
+            == ReconfigureRankType.SHUTDOWN_CURRENT_RANK
+        ):
+            self.shutdown()
+
+    def shutdown(self) -> None:
+        if worker := self.driver_worker:
+            worker.shutdown()
+
+
+class ExecutorWithExternalLauncher(UniProcExecutor):
+    """An executor that uses external launchers to launch engines,
+    specially designed for torchrun-compatible launchers, for
+    offline inference with tensor parallelism.
+
+    see https://github.com/vllm-project/vllm/issues/11400 for
+    the motivation, and examples/offline_inference/torchrun_example.py
+    for the usage example.
+
+    The key idea: although it is tensor-parallel inference, we only
+    create one worker per executor, users will launch multiple
+    engines with torchrun-compatible launchers, and all these engines
+    work together to process the same prompts. When scheduling is
+    deterministic, all the engines will generate the same outputs,
+    and they don't need to synchronize the states with each other.
+    """
+
+    def _init_executor(self) -> None:
+        """Initialize the worker and load the model."""
+        assert not envs.VLLM_ENABLE_V1_MULTIPROCESSING, (
+            "To get deterministic execution, "
+            "please set VLLM_ENABLE_V1_MULTIPROCESSING=0"
+        )
+        super()._init_executor()
+
+    def _distributed_args(self) -> tuple[str, int, int]:
+        # engines are launched in torchrun-compatible launchers
+        # so we can use the env:// method.
+        # required env vars:
+        # - RANK
+        # - LOCAL_RANK
+        # - MASTER_ADDR
+        # - MASTER_PORT
+        distributed_init_method = "env://"
+        rank = int(os.environ["RANK"])
+        local_rank = int(os.environ["LOCAL_RANK"])
+        return distributed_init_method, rank, local_rank
+
+    def determine_available_memory(self) -> list[int]:  # in bytes
+        # we need to get the min across all ranks.
+        memory = super().determine_available_memory()
+        from vllm.distributed.parallel_state import get_world_group
+
+        cpu_group = get_world_group().cpu_group
+        memory_tensor = torch.tensor([memory], device="cpu", dtype=torch.int64)
+        dist.all_reduce(memory_tensor, group=cpu_group, op=dist.ReduceOp.MIN)
+        return [memory_tensor.item()]
diff --git a/v1/kv_cache_interface.py b/v1/kv_cache_interface.py
new file mode 100644
index 0000000..286e1b1
--- /dev/null
+++ b/v1/kv_cache_interface.py
@@ -0,0 +1,443 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import copy
+from dataclasses import dataclass, fields, replace
+from math import prod
+
+import torch
+from typing_extensions import Self
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.utils.math_utils import cdiv
+from vllm.utils.torch_utils import get_dtype_size
+import vllm.envs as envs
+
+logger = init_logger(__name__)
+
+
+@dataclass(frozen=True)
+class KVCacheSpec:
+    """
+    A base class for specifying the KV cache format of one layer.
+    """
+
+    # number of tokens in a block
+    block_size: int
+
+    @property
+    def page_size_bytes(self) -> int:
+        """
+        The size of a page with `block_size` tokens in bytes.
+
+        Returns:
+            The page size
+        """
+        raise NotImplementedError
+    @property
+    def scale_page_size_bytes(self) -> int:
+        """
+        The size of a scale page with `block_size` tokens in bytes.
+
+        Returns:
+            The scale page size
+        """
+        raise NotImplementedError
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        """
+        The maximum possible memory usage of this KV cache in bytes.
+
+        Returns:
+            The KV cache size in bytes
+        """
+        raise NotImplementedError
+
+    def copy_with_new_block_size(self, block_size: int) -> Self:
+        """
+        Create a new KVCacheSpec from self but replacing the block size.
+        """
+        return replace(self, block_size=block_size)
+
+    @classmethod
+    def merge(cls, specs: list[Self]) -> Self:
+        """
+        Merge a list of KVCacheSpec objects into a single KVCacheSpec object.
+        """
+        assert all(spec == specs[0] for spec in specs[1:]), (
+            "All layers in the same KV cache group must be the same."
+        )
+        return copy.deepcopy(specs[0])
+
+
+@dataclass(frozen=True)
+class AttentionSpec(KVCacheSpec):
+    num_kv_heads: int
+    head_size: int
+    dtype: torch.dtype
+
+    @property
+    def page_size_bytes(self) -> int:
+        if envs.VLLM_USE_INT8_MLA:
+            self.dtype = torch.int8
+        return (
+            2
+            * self.block_size
+            * self.num_kv_heads
+            * self.head_size
+            * get_dtype_size(self.dtype)
+        )
+    @property     
+    def scale_page_size_bytes(self) -> int:
+        # For MLA we only store a single latent vector
+        return 0
+
+
+@dataclass(frozen=True)
+class FullAttentionSpec(AttentionSpec):
+    sliding_window: int | None = None
+    attention_chunk_size: int | None = None
+    """
+    When hybrid allocator is disabled and the model contains both full 
+    attention layers and sliding window attention layers, sliding 
+    window attention are regarded as full attention in KV cache manager 
+    (blocks are allocated for all tokens), while computed as sliding window 
+    attention in model runner.
+    In this case, we use FullAttentionSpec and record the sliding window size.
+    Default to None for not using sliding window attention.
+    """
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        max_model_len = vllm_config.model_config.max_model_len
+        dcp_world_size = vllm_config.parallel_config.decode_context_parallel_size
+        # Note(hc): each dcp rank only need save
+        # (max_model_len//dcp_world_size) tokens locally.
+        if dcp_world_size > 1:
+            max_model_len = cdiv(max_model_len, dcp_world_size)
+        return cdiv(max_model_len, self.block_size) * (self.page_size_bytes + self.scale_page_size_bytes)
+    @classmethod
+    def merge_window_sizes(cls, window_sizes: set[int]) -> int | None:
+        if len(window_sizes) == 0:
+            return None
+        elif len(window_sizes) == 1:
+            return window_sizes.pop()
+        else:
+            raise ValueError(
+                "All attention layers in the same KV cache group must have the "
+                "same window size."
+            )
+
+    @classmethod
+    def merge(cls, specs: list[Self]) -> Self:
+        """
+        Merge a list of FullAttentionSpec objects into a single
+        FullAttentionSpec object.
+        """
+        assert all(isinstance(spec, FullAttentionSpec) for spec in specs), (
+            "All attention layers in the same KV cache group must be FullAttentionSpec."
+        )
+
+        sliding_window = set(
+            spec.sliding_window for spec in specs if spec.sliding_window is not None
+        )
+        attention_chunk_size = set(
+            spec.attention_chunk_size
+            for spec in specs
+            if spec.attention_chunk_size is not None
+        )
+        assert not any(isinstance(spec, MLAAttentionSpec) for spec in specs), (
+            "MLAAttentionSpec should be merged in MLAAttentionSpec.merge"
+        )
+        merged_spec = cls(
+            block_size=specs[0].block_size,
+            num_kv_heads=specs[0].num_kv_heads,
+            head_size=specs[0].head_size,
+            dtype=specs[0].dtype,
+            sliding_window=cls.merge_window_sizes(sliding_window),
+            attention_chunk_size=cls.merge_window_sizes(attention_chunk_size),
+        )
+        for spec in specs:
+            for f in fields(AttentionSpec):
+                assert getattr(spec, f.name) == getattr(merged_spec, f.name), (
+                    "All attention layers in the same KV cache group must have "
+                    "the same attention spec."
+                )
+        assert (merged_spec.sliding_window is not None) + (
+            merged_spec.attention_chunk_size is not None
+        ) <= 1, (
+            "Model with both sliding window layers and chunked local attention "
+            "layers is not supported."
+        )
+        return merged_spec
+
+
+@dataclass(frozen=True)
+class MLAAttentionSpec(FullAttentionSpec):
+    # TODO(Lucas/Chen): less hacky way to do this
+    cache_dtype_str: str | None = None
+
+    @property
+    def page_size_bytes(self) -> int:
+        if self.cache_dtype_str == "fp8_ds_mla":
+            # See `vllm/v1/attention/backends/mla/flashmla_sparse.py`
+            #  for details.
+            return self.block_size * 656
+        if envs.VLLM_USE_INT8_MLA:
+            return (
+                self.block_size 
+                * self.num_kv_heads 
+                * self.head_size 
+                * get_dtype_size(torch.int8)
+            )
+        return (
+            self.block_size
+            * self.num_kv_heads
+            * self.head_size
+            * get_dtype_size(self.dtype)
+        )
+    @property           
+    def scale_page_size_bytes(self) -> int:
+        # For MLA we only store a single latent vector
+        if envs.VLLM_USE_INT8_MLA:
+            return (
+                self.block_size 
+                * self.num_kv_heads * 2  
+                * get_dtype_size(torch.float32)
+            )
+        else:
+            return 0
+
+    @classmethod
+    def merge(cls, specs: list[Self]) -> Self:
+        assert all(isinstance(spec, MLAAttentionSpec) for spec in specs), (
+            "All attention layers in the same KV cache group must be MLAAttentionSpec."
+        )
+        cache_dtype_str_set = set(spec.cache_dtype_str for spec in specs)
+        assert len(cache_dtype_str_set) == 1, (
+            "All attention layers in the same KV cache group must use the same "
+            "quantization method."
+        )
+        return cls(
+            block_size=specs[0].block_size,
+            num_kv_heads=specs[0].num_kv_heads,
+            head_size=specs[0].head_size,
+            dtype=specs[0].dtype,
+            cache_dtype_str=cache_dtype_str_set.pop(),
+        )
+
+
+@dataclass(frozen=True)
+class ChunkedLocalAttentionSpec(AttentionSpec):
+    attention_chunk_size: int
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        max_model_len = vllm_config.model_config.max_model_len
+        max_num_batched_tokens = vllm_config.scheduler_config.max_num_batched_tokens
+
+        # During chunked prefill, we allocate KV cache for at most
+        # `self.attention_chunk_size` computed tokens plus the newly scheduled
+        # tokens. And we won't allocate KV cache for more than `max_model_len`
+        # tokens.
+        num_tokens = min(
+            self.attention_chunk_size + max_num_batched_tokens, max_model_len
+        )
+
+        return cdiv(num_tokens, self.block_size) * self.page_size_bytes
+
+
+@dataclass(frozen=True)
+class SlidingWindowSpec(AttentionSpec):
+    sliding_window: int
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        assert vllm_config.parallel_config.decode_context_parallel_size == 1, (
+            "DCP not support sliding window."
+        )
+        max_model_len = vllm_config.model_config.max_model_len
+        max_num_batched_tokens = vllm_config.scheduler_config.max_num_batched_tokens
+
+        # During chunked prefill, we allocate KV cache for the last
+        # `self.sliding_window-1` computed tokens plus the newly scheduled
+        # tokens. And we won't allocate KV cache for more than `max_model_len`
+        # tokens.
+        num_tokens = min(
+            self.sliding_window - 1 + max_num_batched_tokens, max_model_len
+        )
+
+        # +1 here because the sliding window may not start from the beginning
+        # of the block. For example, if the block size is 4 and num_token
+        # is 4, we need two blocks [XXCD] [EF] to store the sliding
+        # window [CDEF] of 6 tokens.
+        return (cdiv(num_tokens, self.block_size) + 1) * (self.page_size_bytes + self.scale_page_size_bytes)
+
+
+@dataclass(frozen=True)
+class MambaSpec(KVCacheSpec):
+    shapes: tuple[tuple[int, ...], ...]
+    dtypes: tuple[torch.dtype]
+    page_size_padded: int | None = None
+    mamba_type: str = "mamba2"
+    num_speculative_blocks: int = 0
+
+    @property
+    def page_size_bytes(self) -> int:
+        page_size = sum(
+            prod(shape) * get_dtype_size(dtype)
+            for (shape, dtype) in zip(self.shapes, self.dtypes)
+        )
+        if self.page_size_padded is not None:
+            assert self.page_size_padded >= page_size
+            return self.page_size_padded
+        return page_size
+    @property
+    def scale_page_size_bytes(self) -> int:
+        return 0
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        max_model_len = vllm_config.model_config.max_model_len
+        return cdiv(max_model_len, self.block_size) * self.page_size_bytes
+
+
+@dataclass(frozen=True)
+class EncoderOnlyAttentionSpec(AttentionSpec):
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        # Encoder-only layers do not need KV cache
+        return 0
+
+
+@dataclass(frozen=True)
+class CrossAttentionSpec(AttentionSpec):
+    """
+    KV cache spec for cross-attention layers in encoder-decoder models.
+    """
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        # For cross-attention, we need to cache encoder states
+        # Get encoder length (e.g., 1500 for Whisper).
+        max_encoder_len = vllm_config.scheduler_config.max_num_encoder_input_tokens
+        return cdiv(max_encoder_len, self.block_size) * self.page_size_bytes
+
+
+@dataclass(frozen=True)
+class UniformTypeKVCacheSpecs(KVCacheSpec):
+    """
+    A KV cache spec for multiple layers with the same type of attention. Here,
+    same types means always need the same number of token slots. For example,
+    sliding window attentions with different window sizes are not the same type
+    and should not be merged into one UniformTypeKVCacheSpecs.
+    """
+
+    kv_cache_specs: dict[str, KVCacheSpec]
+
+    @property
+    def page_size_bytes(self) -> int:
+        return sum(spec.page_size_bytes for spec in self.kv_cache_specs.values())
+    @property           
+    def scale_page_size_bytes(self) -> int:
+        return sum(spec.scale_page_size_bytes for spec in self.kv_cache_specs.values())
+
+    def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
+        max_num_pages = max(
+            cdiv(spec.max_memory_usage_bytes(vllm_config), spec.page_size_bytes)
+            for spec in self.kv_cache_specs.values()
+        )
+        return max_num_pages * self.page_size_bytes
+
+    @classmethod
+    def is_uniform_type(cls, kv_cache_specs: dict[str, KVCacheSpec]) -> bool:
+        """
+        Whether all layers have the same type of KV cache spec.
+        """
+        block_sizes = set(spec.block_size for spec in kv_cache_specs.values())
+        if len(block_sizes) > 1:
+            # Different block sizes, not uniform.
+            return False
+        one_spec = next(iter(kv_cache_specs.values()))
+        if isinstance(one_spec, FullAttentionSpec):
+            return all(
+                isinstance(spec, FullAttentionSpec) for spec in kv_cache_specs.values()
+            )
+        elif isinstance(one_spec, CrossAttentionSpec):
+            return all(
+                isinstance(spec, CrossAttentionSpec) for spec in kv_cache_specs.values()
+            )
+        elif isinstance(one_spec, SlidingWindowSpec):
+            return all(
+                isinstance(spec, SlidingWindowSpec)
+                and spec.sliding_window == one_spec.sliding_window
+                for spec in kv_cache_specs.values()
+            )
+        elif isinstance(one_spec, ChunkedLocalAttentionSpec):
+            return all(
+                isinstance(spec, ChunkedLocalAttentionSpec)
+                and spec.attention_chunk_size == one_spec.attention_chunk_size
+                for spec in kv_cache_specs.values()
+            )
+        elif isinstance(one_spec, MambaSpec):
+            return all(
+                isinstance(spec, MambaSpec)
+                and spec.num_speculative_blocks == one_spec.num_speculative_blocks
+                for spec in kv_cache_specs.values()
+            )
+        else:
+            # NOTE(Chen): Please add new branches for new KV cache spec types.
+            raise NotImplementedError(
+                f"Unsupported KV cache spec type: {type(one_spec)}"
+            )
+
+    @classmethod
+    def from_specs(cls, kv_cache_specs: dict[str, KVCacheSpec]) -> Self | None:
+        """
+        Return a SameTypeKVCacheSpecs object if all layers have the same type
+        of KV cache spec. Return None if not.
+        """
+        if cls.is_uniform_type(kv_cache_specs):
+            block_size = next(iter(kv_cache_specs.values())).block_size
+            return cls(block_size=block_size, kv_cache_specs=kv_cache_specs)
+        else:
+            return None
+
+
+@dataclass
+class KVCacheTensor:
+    """
+    A class for specifying how the workers should initialize the KV cache.
+    """
+
+    size: int  # size of the KV cache tensor in bytes
+    shared_by: list[str]  # layer names that share the same KV cache tensor
+
+
+@dataclass
+class KVCacheGroupSpec:
+    """
+    Represents a group of model layers that share the same KV cache block table.
+    These layers are regarded as one layer in the KV cache manager.
+    """
+
+    # The names of model layers in this group
+    layer_names: list[str]
+    # The KV cache spec of this manager layer
+    kv_cache_spec: KVCacheSpec
+
+
+@dataclass
+class KVCacheConfig:
+    """
+    The KV cache configuration of a model.
+    """
+
+    """The number of KV cache blocks"""
+    num_blocks: int
+    """How should model runner initialize the KV cache tensors for each layer"""
+    kv_cache_tensors: list[KVCacheTensor]
+    kv_cache_scale_tensors: list[KVCacheTensor]
+    """
+    The kv cache groups of the model.
+    For models with only one type of attention, there is only one group that
+    contains all layers.
+    For models with multiple types of attention, there will be multiple groups,
+    see `_get_kv_cache_config_uniform_page_size` for more details.
+    """
+    kv_cache_groups: list[KVCacheGroupSpec]
diff --git a/v1/kv_offload/__init__.py b/v1/kv_offload/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/kv_offload/__pycache__/__init__.cpython-312.pyc b/v1/kv_offload/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7cf3bdb1d8caea14312487152d38c68b5bc3786d
GIT binary patch
literal 163
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIq8?=7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>Sve5=clFR<R_-+$H!;pWtPOp
k>lIYq;;_lhPbtkwwJTx;8p#O6#URE<W=2NFB4!{90A~FsYybcN

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/abstract.cpython-312.pyc b/v1/kv_offload/__pycache__/abstract.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..19ca266ba7bf5fd3241fd079b0f31e524d668843
GIT binary patch
literal 6713
zcmcgwO^h2!6>k5JJ>!|lWcDw=wb{VN*~BKmW|I&WCDCSyHkqt831TfItEam>ZcW?m
zt!~f676+sq4hR9uDcO|}IdI4-mmE3n4J0m%!Xau2DH7tq0m;b(t;C7%Rdu(!?Fk7Y
z(6Xzm>*v*b-+T4yz4}ABT+;B^*`HcJU(~d}&`0>>g38u!P`RO*T3s_!X4+1*)Ae*a
zQ_rO6J7Z_txq434vv$5+s25~CXHT_@^<qj(Ywv1ienT@0JbfplXx2--Als+VUc8f5
zt#^V2>(fDR3BA)3y)$y=4EoA3isk-nWllc@rc0NbP215;tFv-R@8~OBFvHeemo**1
z+SGy`_TKlHse3weqQT7Su(gX9FR`^_rP9@w<p$G4uj5jm*W%1ITHNf}TpVGZ(2Z4>
zt+y<r#g=V{K6JrDg4`_W9g`+mg6XCyxa(GlE)U3dg|lXv+?8~jj%_>Z#8+2XZOgOP
zxO=L^@Ys&C+Up*wu%oPLDT2)AofWTzmE_#Ee%)&8HgmbKKn|^nn<H{Q(QrLoctpG@
zoVHre60XOb4u>2q-II*#wmo9LDkpaZ??R>q!6{h?8rTXL?1WN#4qN6-aNSh1Xi1VY
zF=*Wac?^Tt9ydI0DrWeaWq6j;iO&S`&0a?~gR0jPz+Yz<!NZj<Hv+_Y$I!cO&(=Ne
zMuJ)$=(w#DLCpN9X9-#dYVUGEJ%j<Nk>pV;dQQ)1NzvN6fCj0T_zq>$T@W&O$Fuva
z=W?^k&gl@G%a3SXARx^_&3fHs7eBaG1qN|RP<IJUFdWE^wIT{}q({<&F0|sTW2Pq+
zC^f4%GWv`|2@wSnGcZGClcvKuj>kG2>ydI224Lv0<Ri?5^h_TC7!ZhTLJl+8a$f@T
z?)%rEKi;&iGufdaG@N$V=3dN72+AZc>l`}+Q`an~=K{(=T<j0Bok#}K3%CX7CTvrx
z30wzA0zixw{HTHi=wW9i?I%Rh^&G(y1{>;i%xKqz<#{}2eIG>jc7<q2gBzI|L6~qD
zk-3dF8<=0`uywq3W?Qt)!X2shn#4l#twhx!6AalKLvtj9vP?a~5BnLc(E=g#v5j{=
z@+6*gVE~Kv`1ZRI^A*bavdycdzmWs3r2Wj9v*-L-ec2_W_S)QQIc6p0PhIf1ppmE-
z$$3h*N*`y*{e4$=TSnl*<trO}Y<&%t8yeT@DI6kcGgZ&<EYF!~o^Phj%tkhJ{NcM^
z=w~ZAzbv<WsD{B$q?w!vxME;SmmXXi>qtj%fpIq=jfM24vvo(Tav`a}kjU1KF!Iq(
zmmCHL_OaVsY-L9wd?d7CC@?rKl#cwoa!UzmN!SejTO{@kt)Hr-2P4ZK*%d$~cHmi|
zb~qO0twLYUO{)hN-S3X3N<B)I*NA5ZXTHKc946#v=~?<*6En0j{@Op!*1UGN*0s7v
z)xe|IdvBdQvHBLT+17Hc+lMkcwKdyr*Vc~JR@WMVJ=a2YSG#>b-<Es~784q%s@6BK
zid#VOBW*aV70aTG`ch@epK3HZdYd;IeyP!DJ9JK>KGSG?)YI*tr_gAajzP^hlswB&
z#w7?dKLcpQ9BNV;Nmk6#XE7|kf{J?>#fJ7UoykoNOIm*6es1S5oy(O!Irm7zYb&GW
z7pYiyn8l|eLlhF)B2Ce=bppl6Hm_+Mw)qO$V4tbe^v;u|%G#(WL*LRy7v5J#r1Tb-
zdtSHa`7cN>+Gt@vaJS((4XHf8Bwq~|XPCd37!o*xrAk4}gRs~^#R3XHOAbU3*#2Cj
zp?BcWrM<X~hC+q(9z*IS`lRAb{M|h$eyly%z5iD6)9>8N9=<=n_g;4I{ayQR_CKxt
zDO*t!Y54Zokd)7eO#vuLRQMEXS&2`slK1CE!Pq-Etvr7wF1cS)U#>OaQuBU6@V2wY
z&813l3=6Rv+(;+{$>nFPjwfEAT6WoS>~WjfN294AR$Q73Bo<!$r2os>z3i*^=XZX5
z`Toq@$L~ET@7TDcfS}O{Ao6ISXX^_TBOrLjOpya4Gm%a#8+T&$!dU-QGizo?POe@Y
z&4&BSZDi}EL`xnm(_=Jd%)$Ux07_FaN@a6qG}A2dS@f4Sa`icImF4rqA6A$Ky&e5R
zrR?t*DI<uC#eR$tlmi$+5RR&PXotjnnSLdO&{{bh#?B)YRl(9T#-fukXhf^|^jI_+
zdq%7TadF5=+?-CygHG)`hS<8}S<OB<TRQ*bKp8@)kQ%{wNF#90D&P(q&vbB(c%0IQ
z$XAE7!jQYuYcHcedB8_xi4tW5Mo$P8K?c4SVPrIDNgD3wX+P_7yD9bIk}4RJzR%Aq
zZU-+<=&q`I&SP-sj(3Ib_^I0bRa~2a51R}VWON4c!)Tc#y847z0^!NFkv;1{4R$1N
z7_!Kmf+40eaPY<fxqxiMb$e}`<LF5y5sCaNrojK&EMl~_HwKk{gs}*aLegZ6G69N^
z!vKTg2gE~&^JR2FXLck#0Z7J(unK2l7)v4!OvD#7O4)^YowOUbhnX<OCAx!slU5P$
zzZSENea~tegFi;>UZOyLB6vjLnaqiz@hWR}dbUXkbC;q=%isvrfE3(%uze8UAjkp=
zoPw_=P@;TE#>z20JO`Z;j`TbU%bd*q1}{y5C_9=l^yanVoIE9-wzCGmj?f_V+)>mX
zIv_HgFdw4qS|&j<vIDS*yl3R0{tsZ36FYOTe-f0$fNl&NM1cyNrKh2z|NTGkJC3@V
zi93hq<$Po)7WY1p(w+m-5v?b<lF5(}yT!ENF=&G%E|g^QPRycblwy)iueT_r4pSA{
zPHlE55w2HMcC$?i8Zjsd5uGQdqcnn^CCbO)t%b~wVY8OHd<u*ju8{5;a4#Z}ojBhn
z{a88lQ*y#~=9U=HkD1%S(3ANE++P^DSTiVCi9h4P%Masbr}kyQxq>^~kK5l*1VRB%
z+~Lp}5R>nT`F22mnU5ve3Qxu^G=X6w5P+aPkK_|qG81lsfTb${bz7j;XTfz^q{$#`
z{@?gdVmV;+6d4|jO-KhGVn`+wFcyq!_K;4GM>&;@I0P-Jp!4gfxuho$SE0^q<Y1Id
zuz%x%<cOaUi69ewG4w$ORGoOnY+>+=2(+vEDz*>~qQKM8_M<yB4;PT(O{u&v<{}2{
zhZeWZu_$zjugAERnGW5~AhMBHovzivF-R-nBANmR+a6(~G8anZDk+JNOA-W_Oncz5
zp_m%%odhJ-{TXJ3Xv}K!3-Y+Cq^?#L#xp6(wgp}9t90rB)hblTM4R$^ag>T06*8qf
zMzz<d_$C!HxjIg@vHX(~bV0>C_`APDv7yQQd?r`Eb>jAg&DV|(HPnCmjYss7x%x1T
z+HeoD_F;N9SHAu7-O6U=^iV_ni@lHN6%0dd$fk00w+`Jtxq0BtEe-YIVj(wo`_SE!
zn}@%>rJ+7tkc4*R%J=siy!GMcp4u>jj|auwH_grBfk!!f1oTjQ_|<7lKXLcM<{NJh
zHPnB<xJ9qwu0n3%=J#(on|qHx23ZBBlx(RoD|SLKKcg=jf{aVuUd#pR##NGAr7i;4
zpN{UyxGN~1^mo(UOLgs7)qo?Z;sQoqr8as9l3k?_sRaqU#93mR#Mz%Zt?pOe7T*F*
zvKQAxG0db=sfYPjQrRz$YpH{O*6@4vuiCN4`Em;PBabz_hD=LOf0@pt4i7aHz#=_8
gl%F%QBbQnjYAAvZ)E>|OAeCCUnfZrCZ)sNl0@rXd#sB~S

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/arc_manager.cpython-312.pyc b/v1/kv_offload/__pycache__/arc_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd4823d5398d59079d4ee12e295de0ba9ac54d98
GIT binary patch
literal 10966
zcmc&)Yit`=cD_RnpBjmjL|d{YN29msSYqUdXv?y9Elbu~vSr6|He107L2*VhWxg^q
zlq{Osb%G#}8?}~#MI|HIwNezY45zh&EfDwD=4XKR2Wi?7ch&{mb_;Zi{-7ZTTjW>I
zy~E*4qr?GPbRgZib06oPd+xdCeD_@bV|lq1!4sfA^q+1;=-=>%`WUjA%}L0tAP#X<
z00pUWio$taKo``H>q%Z8po4~S1Ig0?W6(5i3Yy2wLCd%$XdSnbazmgj$c!_=^6_#C
z>Ch13jPE1P#9Qv^m2t)^=FCpZAMuBilFQBs953+PfZr#<r}?zR3*LzU4|z*}And#H
z6R&vLNz3JD!d`An3Jd&Lg!jp|bCZ(+DDj7;250z?Bv<AO&U!=MDPEAP&I^3R3mtH;
zb5SW0m7F@+)bI6O;X|BUM#zszUMVX26xNh9Cy$5ly@Gf&PH|{l$5G>Y&d%w0n$z=!
zNt&bIH;fxO18?HZyPzd!<SkHYdY>M*7L}GksToR{eCec)vp`9CQHd2wD)J>j&&HL-
zOb9`L2I}lwWkGE@;h_R}sDzd#z6$dIbZyYGdale_B|A=BIJreC(T|M?Sy^~agxD>$
ztUnkD@IeqL2$q#D^DNL{J5F%kh~%H)*$aFm;PsIP>`AZhGVdg$_!(F|e>lWO!U4Z;
zj-B;Omsu|x2}Gx+@M5wPip;yLr1^kX^0H%+5cNq>ffsv8A!g}fcP|X#gW*{prq24p
zA<63xVP+<<GKj3#=i^0@=h$$_$9Ls>?(bz!3H&?Jm+Bjg1|&aBl$HEJUd&VJ?{@VA
zp`puRQDOsrQ4(260M_yN0^ut#$CAkc16hV9g>VoUcU|0{rz3fVDPHnO-5${&<9peh
z{FDk7m$H*#fk^mbHw#)S`LO`A0y+_x3JV~^AbTnhp3TdryGxNe8wiK5L?dj6@^<E1
zfDp%cuK=<WfhpD-;@FG($xwt{_A=}ysKVvGa5MxH1QCn8FG`m8vR@K&A_Y>=z#o8x
z4EjZp1$IN>P^Z9qxjAL>tY2jL5TS#&aF%(zko#3erEt`Dne8AiC)=5q#2MfcuWJ$O
zr(g^o7G5Fm!OXH9{t(E1h8IL0SO8m5Jljt8^dt*Su<D!*gNjOFJmZcCEK8W^Bv~M3
z^>F26R!f}u<pPFtWMKJKGG{Nm0SYaWg<(6uWU%2$7Bno%YxnK%W~XwR)61R?`9M~{
zb+I;R4%@%KsOtc~P1oGw9Oz<+`BJnIZ#|eXv34F2o4X=e7wp<1aS!ldY=iy~C`4`t
zi{Yr?!y8uFW2{%*`pPVd`V*mnmJxM6UNX;Kb`V<ykT=;M`+yRM<=@|3B7t*YW`tS4
z2>Yb4$Nqeef}I6Rb;=*|1_E>Y*a=WzPSKaV+zB%Uns`tZlpoX_cG*@*6-{ZBpH(+D
zcn;PZnDx$ypkKHz?0J6(tCzB`1U?A*#wimdmV@<A<`xJTg#{789Az00*`Rlh4R}H1
z>;w;$SU;h=qOV+3AQqQwmv97pAZ8Uz6Cs$hAN~Ag?~Fez<axdbR??d@7a|{+?3AK-
zMX~WFS`YSkM(k4c9=^b&aeQZZaxzb)6PAUA-JdhRikSt&Bmuu6%sbAoK~OFBUqAQ=
z1d-Lyiv`OGRQ4-Wa;EtE=y0m0t8`>j)>p{od<gpv5A1!gQ@$*EATC-5DgNI4FGyBU
zoQfk4slW+`zbN%nQoT94mo0+Y94*aS`aApP=xO!^=c+t$ouHdSAwUi=9{BKVDVkQZ
z1@Gy~f{$#rfLn`NJBOUQ(JA%IX%#9UFIN=X7XeRB)=Ay)zhBl(z<Xl9Y*eHuS7W~v
ziUvJk26>O-!sH6#Y&|}2#Ow1*b56ZXV?`q51sjkPF-_3uZwFmcFye~%Bb~~iomZpo
zBZsfJc~`(c;fl;jm%|~~Odt?+&2+o2%y>Y_FiLZQNAd&}Sk@Jplg%CvICaV6iS5zC
zC|zo`8;|`4B-c@zZC{`lnRIK%0{z%r_tf40n|UZO<uZSG?dWgHNr{^IUGLE6{a;;#
zva)n@`<=c|`!<?SCYw*Dng<u?C+50MAdF;&2!Z$-UX+aj511t6!y2YOSRaVC{XJv=
zA5-(XI5mLYI*-u2KCZo@ISo^ZAQac%%WCCSO01(mFQ#*vmTxuvojvF2IQ=dYr>Apz
zmhUM7Mvv>p;GfgQ%7HiC;su(NIQ63fp3ooh_)c1=f|slZO%SSa&g>UG#H%|E0tS)7
z9$abxbKoJqUAE>$BpVc+!Mgwyf@Ou>xUo?IBC$Hn<y0#Bp`myQ5?D;fjs?r_cegDJ
zryaE`L(4-eBg-Re)|BJbM~+kL(*4=Hv-hvvz4ov-<vO)6n6^0<=GO-AjQ;g#+P>qN
ztu|q<&FE42&eh5rqc=`xEU2zMV@38|P%hNN07a{ZIVG!i9%jFSra&%a_1^#gS-tCJ
z!`MRUKZaHMm0sQD?@`;VX}-0-xb;<P+6*%*c{m!cyie!JX;xe}T~^WvKI62iixgV?
z0JH>6Gh16t<Go+<fUVWt%kGXb<TQ+aYwX9!oQ+ijJOp=7oH771VpC$fFh<1X3T(uf
z7w5p&2`o@{nu#(BjgTkGC^SJ%HVOQs#|Ni6qc;)(;H4NkV!N<8Q6P>-go9v_${H2j
z6k0H~R!GDWHDy$cgsH?DHI=on$q1(LYe+z4E2|fbFR!xIwTbGM1ap4fxE@;%CHl@K
z+Rmq#^H7+su3b6)(eVT`w)WHY;q~K*BNr0QV<~2A>G(6I^5)q;KfC&Rl6mDX&Ze2F
zn`dvFU2T2Bu$gkK<91|s+>GCdZ`fQ(o9hAda57~ZOqd6^Dm_*WqV$&_T|rXT@E|1R
z%uAe7RX}|Ype5?9Ut+@%*J&H486=Ep*G%VJ9E_ZOKvA;ef|=B7sjFDO4K*#5%~1oD
zeIt$yuZGITb$u}UB2Q+ZQ4ce~V`|iBZj-_>ZxWi=<(51^GbZI+I7dm?s*(pra;W+I
zTa`*tI}N&OyBJ7A-E#A^RHIS?>a}V<|Bll!_<%ZWm`fg&3P6&a1fZqH*xx6OC2FyT
z$U|d(Gf31yefzdD(HKviYmrPeXshi?WRjEqwlab67nd_!CG*!9=OyO9LL&fV;96Ob
zGV!m@3fY`Js&X=o;|Ez+8wp1g!&Zim3?3=$!A1?MiGatJ^+E4dSs&m-!Vcxr9}@7C
z1iZe5CN6K<WCO<sByXvOGmw*ZY`3OqBXw^ANwEhu=5_RRchlb-TxU|vhc<TifG@V~
zTD^Gt&0B9KZ7u2A`rD>krrTw=%GQQcwXP*Yx~6{R=O6w2nc}cF9PLR*`?~ds<G{1M
zuB8F&#8-zOIoh99)~!mnXK&3WE8Eg`$BJp$v|(>f+MCygpV(c6wNGp7R!@8)t{uGN
z{?z?({4?K!mM_{rZ@(8vHuR=yk1iRWwmAVFWJhXEI$RGN8{GrR?tx9cuDxoBer#{f
zm{H}9!ZE%s7$a5L_A+Cvw`}Y^mfU;nOG9$+;Fs^D+D;SF&x)A`!q2-=oqMaT%>j&W
zL9+NT0?=@VSkae<hB-U)gP~!rC$_O!aG~1*F7#S}k<(up09{ZZ2JS-_K@2@W3=Npc
z8De080Al1k$>LSA6O5xm2S^}h&Eo*FD`Gpq<r8;~v4A(AAc5Bu|F3}20{`#C8c*kO
zXkOz*8mjV;v)mWPu}X>e5NF<`sqsZ^1n4i$L2@1aU`IZrIP!<XiMF8>GnDn?$Ci(+
zbw9$6{(|c0Ur)4MNHG_nL7_MQ%d^kRz=IRz87+dRIZwS8WL*GHy9qqq=6EqfiPT~h
z@qt+=2D8dNq_z=&AJ)v0Cw~Y5FM0qU55x{B=ewt{-_U@STGnt1ptR~wrqE}U8r~m6
z5<pPp$s>Sm=xPAWd)dA*u-Nl7z;#2M=5$z7mnfl{L-WQ0`kFgT^$~gh1Eb?JPsyXU
zy8?$2;T*InsmGtw*dUiYDu=Mo_ak%(R$yK~Z;G3yca}7SPv9Ij1+3OiSS{0}Zr-Rp
z&b%4QHN5$}g@PagtdmhZ4=prS`~QSPjd2Kv8kmA`sKXW@Zd7IQ3v*n53@(p;VTtQ8
z9*Y~kPZwcsT6%|1q9sq<q^=trci}1qTO)idR&+$b$fH_YmQbp}|D+Dqu@`7qr3Q7V
z0u8gOqd{+0t<S%)mZ~j)4tVqVvbc4+Ip0Ffar9>fwI%GmoitkPgLO3smw<AM+A9Bk
z7q7QQxt1iQcC}yJ0KK#%30heCY}0aYX*+zi^_l4&t(52IuucEYt^M<MV4f+EEu+#Z
zD9iaXvTsaqST?Ks?LA6zsk8xmGOG0fxt}TAhrpNGtl*v1M9p0`4c4~wiR-zXeIvmd
z4c+<vev6~zaILi>Wu+s+J}H>he0kn3LwR}JP-tVFmQe`P?Z^jacoD-&68o2}<VDWM
zvZJU;_U?-KW#WKO!96P-@QTvKyR;Jb$p(9HOkXwzdCngV;`2C(b;o+Lm!~Y}=ZKq!
zNPO4_F>MlV=C8tu9LKaFz&HWXVz@3*PUOyA$}yiHUaVgNj%h0K#aD6eAWrbXM%F`!
zonT+t;FtKIC}2Q9P_lxJX&kte4T3iWSG?F@$|gY9xT%26uYi4-@MD~ufJC;b463nC
zeas&b@NzpV3P8qD+yQSkxf%yY6|M<R$9EXA86$R*t5C$Lev>GJY$bINulGm=`3aeV
zKfkaK)5ca%#OEFiVDgU=Ju6pZ4rJY8O`1@qxD6(k1}l9XWsIn?Ibq(TKpNYwHOHNr
zPir38I@ZS@O23``huKG+r_%P;4g0>Nec$@{6Z_$e0ieipGqSfnt!_=Xb)@SWZui~l
z+o(I5tULO!|4Ut}?qs^P{e_8kRAdlcUh$#=mD>~c))dpW?zmrnw|>KUI_W%}a*iaK
z5s1WD>H&v4b}pFH6^&~rQWdS~J&g;aPi<982Upz7?hoS_<!?0iB%6Cu4em!a_cLeb
z{hGTq_xIf0^LGtNN9)q?8aZFgFVC-2sTyZ`@4*Lr!r8Z4k#2R~dGpgZSFO3s?`rpC
z%Fx~;&l%)s`rjY~VU>FJ8QYa)_ACsq8q)UNtGx+(8w|KGycA0^O=-q)^W2SdtHY0(
z_B3O^dFIBM4Q3BCU*#V&Eor7<tvks825iW<k*#U%#N&$AOfRagS!rKxUp;u+eaoGy
zY+g9=bjR*b4y?ZOanIVoMvFTMe|7G!cN|`#()P*~%d%xPx@37`Z+)&uJCA@+t6E@*
z7{@A&&tQpK7an=!#>fWq3PgvV+8ff1&U8cb?f9+uMng}sp(nSBUCFwxbUpjRVyLWo
zp*NLRWU5fr&XxM*`i;uYWMyZf>tw2OV8Mvjr{}|KpZF3@?$j%XAK4CPkj`RFGx&UE
zu_kPXUzkx-YofLH;i<11PpaZ+YF`+*Ido%aX*kI=JOid6j~QFFt_?h9oS4mmk|&H4
z;<HTyRE9x2cduMpzO=F9P;$qiM9;`qKTYkpxM2N*tufu?PS-TTgh1u&R!}*Ml^|u=
zBu2?~f6?U+wx#&&u_=N66U3~C%a+UJ+%-Y4fTsP|46NtEpg;KBmFo%k)Nq|zJPsH~
z<Fq7Diz5*3H53G7^;&4UC?LzxC=?*`nfi|T<WM%qBKrUe%K0q9*LLx>m+4C_{&?Ft
zodqAO5yjEE$ch)D9zS?Pz3?{l*1+TMzOG%aB`+z5%gHH7ix&+vz75wJxSP{`rr(Nq
z<^bhF%!gL4Q%(s#0=YZOwL;j6+aj(GI~&E-4dR@JmvR~lT+sz+Bv%tpz$uO>dpA{Z
z62^+AI1$BxROHUNiU(=d^dQBJ{t0M^6o~_+UEK+D-M^Go{r;7`OV-lR&!gJm2M51!
zfA0R`=;uct#!?4{mkiIUYm?P2>u=nD``+8>me!@gU!F}n+BY0sNk`Xu?1`fnj=K%7
zZdO22Lhu2dsy##qEFA+Yb$jU6(Cv|1BkR@&1F8BWOM^v}A=Y$e`OJm`f<LWm{1eB%
zj14G0uR>sR58gTY>Cr@U?^e5b@Vo3{Be9F$5WA>HEk_e&uP7m%Y^WNfqL>#9;Ws~k
zWCT$-tfOgE-gRl055nQ+8W^d+(yiz|Fc^S>b~`Pjq{3Z_D4QECvVW_erJU5LQ%96X
zHuwVY;~6JKlt#pSXK&%kB<~gVzC4D1xwYl@U0nq&{u4TihamY6^xts5QD(b&^ahBd
zDP2>ya&7tA2Gf+lzAx)_u)li(F3y0M<}}mvEdev{)t{iKUsFG#Z#P25NdcO?=yc%g
z-H<oPdpxq$;|YejDBR+EWX9upC+ZDkYfK&w7xsBPf)zNB>4|VSAk;xtz{d;$M=peu
zIBCNP)^`D)D+D)Aj^KnK$k%c14V)0%_cO@dg$O?`z;Io_c8(-=$cVp%<bCv9*J3a~
zKSNmzr>Hek2I2QZdXu~}J57dNYlqiQ160W%$Ui)=iC>v2E3{g#ec((w`!WcBe7R?n
zyfd}C46m(qtRG1>9oj^Y&-54#4eK2bjzCOt6G1*>KTjE~>H3znKTFoTGJ5>=%u=_?
zB`r;x2K@D$)72X))(<~8oqY9p20{KS$0mMd`t$~N^=E70<er`v2=dC@@U%vqHo43f
z4g>&l<DZHs_x`qmk}mIrkBC#Q!&mZMGu>T2`29u~+{-H${_vx(fJkJWZ;`*Whwc!-
z_WC46{6xUm_Y%p=yH%0}9kRdNAWJIX<BcN!w{b4FCbGFtQHkRM2NhU-#V$xPdWxdH
pF(RtvpHa)dqwYWH43usYLGmXCQGG9rZ|NyEQMd0KgfoQR{{U-kR)+up

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/backend.cpython-312.pyc b/v1/kv_offload/__pycache__/backend.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..863f43cfdc0534dbff01ccfaf4382f0286d0ebcf
GIT binary patch
literal 4102
zcma)9+ix6K89%f4U3+aeF-dbNn!4t)O6<jLp(Io&4$ve5xuULGbwL`<&Ybm5JUg>J
zXU6VYez1@w9MKA1P=a`%k3@axpOAN6VhO3ys1=bALVerDMyhy$-*@J+YbPZfY0sR?
zcfRvof9Ko3)ax~d<`#bAyfMMp-)WMzVlp_`!QeKtnXS33Mc<sO^>VFTFW<^*G|#(*
zUa?hF<APi2m0M*sF1nRowN=$vj$LDRX_wh$&Th`87mU6i<>PT{LQz&gS>?HGb#kCJ
zYM&FyN+TELm#_XPnljrm5T+IMc+mCjh89(B1YDSHmt$PL>iX9DbyIdRssGG3?bW~+
ze6`OlYji7P$+hg@Ev)_;N^;iHY}U%zS}Skoc;Tip&-f9>I=MBiRoY`6&Cc&uT4i3b
z3%uIN*~Q($M+s@Gw#VMnS`(|RQHmy%G^>FbgwlLlW2~m5z251#5X|w`bg8!VjxTgm
zmsoMR-X;xnzoY;3E!{Q)b5R|-?z^_sgDwZL>-w8?+VOC(X9kY%U9KrA!8?ZK1^R-b
zv_c^`W?tB9b3rU&I8S!Cka|eBfy$A|g{CAC{7_gtzL7*-);CNy<aBgl3HRBKWd=N!
zBbF2AJwMO~JkSL<?SUTndYh|p%!X7oBssy5@B&0@o7Ot_>;;-S9mg8iL-#$s>u(Yl
zxHvRjcc2s_VTgZoQ#b)v+Nt~FJEC%;xCI+$jeJbMgYTgGy>^=g+14#>n|**VPrZhq
z#fp(j2?nf@TlxGyXpMYSlwqHXsA3q7=LCi!C^Qg`1<Bn`R5c9CHKjBRNyqh_e=j$K
zUccFQ`U`<6)_Ab+UiiwT@2|hYo37Jt_6G=Cuess6z2?SJbA7|`<9KK$c3JEX#1uGf
z&5lLSVtV<r*pXjD_vH@zv{JuS-mg6S*UH(4r_byaKA1ef28&992chte7=vU}#?Udi
z&9>Q1e2+I<TmL0v2;JP)mCWpKC}vXM>>}Y1MihgY@1N{*<t@6gp($hC)x<PrlDwmf
zXV6C#M;hwzQ8m-m=ZO3yx*ayGv6<Q5Zr|Fz^X~q%e!rrN6IgFdl0!VR#|<N@8Ai{y
zLzl*rhVd@qCfO+)hV5HeE?L2#&t+7$;Kksj7je4daO9Msj2%__!iSfGK~!k_zAH|V
zkoCm37I$64fHE^A7HM%sX(6f@styp!<PXq&xy!!DRf?72EIV=T&TD^K`NPWnnG5%)
zFYa7FEaZ!4p-pLOm@5>Yzcc@c;d7A3!XYgvy%aYKjIvfrMhEX>@HkM}d0y-k?80uL
zRpMnpQ5Mv#3g#tV<+U?72?Vb42^xXAG6q<apu!GdtTwh<$H}SW<OD|QBzR1BO7<k~
zni<p^Q&IV9oXcB|3YTS1PtjRdNf9F(@CvX&cw>4t(wKsiW&{9Ikx*7+MKJ;Fsqg~I
z_yD9HqAk88$@QArHKen}qf(FCPS~?3veR}v(kZdiJ+__0ECUIoxrT>DynuZ%kFJqd
zfjU}{#F?;%f;LXenMCI-B`;u0Qe^C~2WRK^3hz%pICUP`IH4SRBnv?lXJG+@+YGN;
zZtLyGGL159gxQaycxs-m8R(Yj5#9nQ$;R9sVfV^iCI~3Tv+g9|$N+1jBRDr=K3nHf
zg`Tk4BnD-4Di5o5rBXB*yP%6_mP<itYLV5)8`<q(q^0=~M$Z&oPNYQym=?WgLQf(f
zas5b(H|d3npL!iA8}{PYM{phM-1Eb=?iiQE40sSn9Bu?e8hX;~;NkG`@^O9B0SJe%
zUYA?z6pBw!9cG1Kyo;D!j9*uRwPmp;FK3F-%D62qD|C$QqB}MoU#Bx5{uyYhsD{Hx
z-+)8Rj8}rQN0~3{t|J3_f3H$m5SJ3lV8k)=`eSAz!QKQ#S`dH%H?3}xeB9RYiuPaz
z*QMxLSh@%sn<^<YNi)HS*HfQ)B3cpOg4dBx1oonVE`Aad$e&KdO#|<A8hFPxzDFmM
zp!+&YgRZCy{j@;a`e!EhYlv~()cb;OIDRPI!Et+yV&ok^)FmRqwNZe8(1Jwp8MN+%
zo<#+g3Yip`VhDp3+oS5_m<|^e)+uJbhZx7(5_>>tG3NHK2&l`-eTq0KsVHT~)BA|A
zFCI5`fylQeQw!7V+L&2qGqaY|9r6f-5<sd1raEN2Zu*th(9EmjseBEEU;F<n=*H@|
z_|B(W!H82SPOCH%Vx#=eBpZ2_;xfMN2~6ae1YePUNB%+}Bu0=69H9U}gl+m_or^5)
z=t|(sn7Ua`;X>M_hW{rgSNz~cukZ36fP&jU5yBVg3q;u?6#9}QKp&S)3c!z*)JFmQ
z*ybuuODb4**x`9LJ$Jtn*BL8~XT)i`g9=JPWq~-0F3O`iit_k}r5-y$2rj-&8wE1I
zpkgGhdg#>?i`3EIMM3E*UZjpNATDLpn>j~Q>b`-W{3AN5kn*UIYPsTbAHFnX_<Wo{
zpwF<vO0!>}7OGQKG)rYteK@H`Q^oq9fBf;8yRQ!!hW85hezAY$=Z|QdkYY5{6=}6t
zzjNUc!zbCoXn1O>IQQWE{D<%CpKlKHG`X~V@52726*YNSJ#|>bVk|dF+o+3k_(XZL
zZ3%LLGDS3P;olcmh#(hfi<FPfQ8mA~v9xI6!B|8|Zvkt$5eAMcmB~gFqk135<3F;>
zc2RXT5F!5Z2p-#4+3lz;qspssnfpUQr6y&md>P#^uW8yriD^@RV=sKh=KsN#K4afK
hES=V#|J^q~IWf0?V(yS(a`^JA+T5P?FNTlO^uGdkCZPZT

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/cpu.cpython-312.pyc b/v1/kv_offload/__pycache__/cpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2a214fc6a8fa5d4641e14e7e99deff6e1720ddad
GIT binary patch
literal 4414
zcmb7HYit`?6~6PZV<+(|@5FIDZBnSWjh(b9eb6>Z)5rF)U9?G1Wob1yGvn6DjBW0W
z(<HK2RaJ>}DQYDi4MK?WYYQz>`NbcEfL}=b@iavaqeLy*AHY9DQn8Ep!MQUYJ4s#8
zUdeaPJ?GqWU*|jL_>Ue>BZ4Ng-%c%f5&D!2?B=Kto4*0#Arg^D$w;B%6h&xSrsFhx
z8JSVoIIB3~4wKKyPNgB<VA2lRrMTm6lXl9DN>jW^X^uCW;|AHIc;jA^cF8`)ANQNI
zTMj5K@fMSAlv|ayc$?B5Z#TzHa);6x?=<OVxl8Gecbl|F?oopAAcbgj0g2u_Nc2ga
zPZ(?e@!mx`;{Q7tL@2{`QIl{&%iyaK+GzZ`EGrY4bTW0_2ws;oUQR4ZSml#Aqww<}
z;{{U)^IFC=O-gI2O!^AZIg?N&;QECe#=z#YazaaHumVOsS27845>}8Vvyxy0-cKfF
z;H1*m-%F$u*Ch<|+QvVasK;-d_}cWDgfJ(iMWS`(gXuT5Xu}U$I~Va^*u{a_-r7{M
z5#V%AWOEm?xf=i7L|T;14Q<<Hg(+CKXZ5biU^5TIx4;=B6sJT44nRpvl3qqhN~G^J
z$61k)97$Sa@33*F=#UyDm*k#p+iuFDlXN!_pxq=jOCHHfM%Aw`$&fMmC0Wr4w*1Rz
zfr<wvQKZ2L!0Bs8Fz>i&+gk}VOtTvc1aX7SSI~W*dWbamTJ0{AN8bS#&r?q*i$kG2
znk6%Kwb_PU3>b>lSp_;zt4*5Q))8sj-fb#R=Miti2tWfPXH}1ks+PaN%8bZ9shklk
z*e`<?QN(f8@TPO%wAma#BWHv;b?Ma3F{k8Ijhm4;6+9x9Oi3b_N^^7b#Lv@`08YzG
z3mQ&T{NC_M^C^KiJ)h0UDPhrIWSon*4TqY`O4xAmd@7yNc;0B<F^vH%8SZlnf|Mnb
zaR(e4loiYWfx2Ni9_|D|gf&=Il9QOYiKXi1c|lI7D$lFrJvffL_3u+LP07ZxsqCPZ
zz+iuHA$RonvALsCOis<jvWwb{OgcvVAT~c7gA-*e*u~&7qS-~<19p~r-f*3$eS&t7
zs~Eb^ZlQIT=Wc`U>RJiDaP5259V&Idqj$ek>W=E&(PC_LwR>#Y`)6Nhy(PHje}9vq
zTfJpOd%R^Q8aTAfzHkMBI(&4Qz2~VCuLky)29D?hM@j?7^?~EX6PN!my*e<t%>K#M
zy9uiz!-*v=htopE83_*&*D>Aq=fHhP+|y+5?9^Waf4kFH#PwXcK;;3pIckBz5QX#9
zY}FlWHVbsknZdG|A8JxU0k?T4hm4+5wp$heTC<Q%b~llp+Ye9Nrv+?Dp2^cs8G9bM
zvn_bbStkj<o@KUTxz#rC#Vu>Z1<WQo>aX%6Bszc0Y=d{*_aH&aOfDt_c{Q~p8I1&n
z79?>OtO04FVaAH{hDS;#W@L$%<{^=&29v<TQulOvE}glV=4||N7XD6fOMOvpGMCL}
zum<2YxhY9K!2vE0axgX0g!^Ct6HJC5aA29W0o_qqj6gmi+^|>0O)$r3t6)YFt-YFi
zHxX$96_ZED#2+AWCghxS4&w}tu$UwK1Eh<P4&E5qxaII(7#U3@xmMu66nYbd+r(cc
zvtL4Y3$6KD?-xEUtcCka;g}wdmBM3sc&ymm`^wKfW{duV&;8em!{eplYx?lDGJ`xl
zTQ1bOXDt{m1xNJY$Zy+9<5T+h)D}Z`dY3PhUC7^7^7ZS!{ztjzzJu%B$Xajzvr{16
z)AE4*o~PUe3ik_l3q@CNxfQi^lmh$oz`n=r&jZmnmHjp4EjL-VBle6f4V~48&K6_m
z%7{8o9frPrWRqb!Tgr$Dw3s`nEP(sT#klQ<P<P}lk{5`4^FILm%ZPeA_&?D|fG}G<
zz(1+TAVXDiO)YobrnW(ynk7!KtJ(8yr-$I+u~q7WMDthWv|WNhK%mc}`>a5xkU)P3
z>7c;oS%4@@a{O!+wDwGd>~+6O-|J#g!BJpq@XQl<l9aNm0heHFR|77I{kvM8dP+a3
zWaj@Lc5cy^5ZqO-ZA2pwGaFd9$!*^x^8@N3l*u){+T8y=V-fC$f?t8XiGIP{q$14K
zrBi?xu2%7IDV3{~o$?}=Nka$OxDpUDX>MZr?D$|pPR&UiRE289VR#anmgXz*Mm4<G
z?fSq9PTp$0Py@WtNR-SFp+@{T42Q$SfecSd<%OJ>;LR0qi11iBrD_H{CoQU&+^Lnx
zNoq0t1lik{$HYDGVbTqfj=Uo#5gil1ia4!cG6b~IWLD#RI-y9a;j~I~qp`-shd@gu
z%Rqqu%?dTmWW`E-p)U2+k2SV@oLG1b-QP&whipyo|8ZfxwZGIlthWxoXg$2%5ngMX
zge*@mOb1#Z#00}Di$D43haatmW2-$w%a_;Nht?pn_&MFrz1TbQY!0+LyvyhR(TMt^
zn+_)A{mb6L2bUm11%fN*ADz&9qov+ay?1oAcU<?6uk9TyJ0N&LhzNPN8c}Fut?z&t
z^bYCaLnd)d4<D;>f&*Jk&X9Nc?7jEO)hOiKUv%v+`u4AT`(AKE&jx-q_{+hfcl5by
zbQfpUHTwBK!?4unDgoZ@@qvkx)bG9&oH)w<o*Mru3?eP0vLp8nm0csxD;Y5d2@0w_
zp8sYpAzKnmN;9*r!ld}cG3X3dgnH3nR1F&rs3wIQhI2|vs~L<*m;zodD@z8eEkgN7
zN>@xu0ep(cJe8tPkYt(XBNW~PTovLU8Z%!OliivfDHPRjK=;`lRHproDeBRs*NA+}
z16__#F%;cI@GXz@I>xBA?$C<x=*TB0e|oam7t_0k$_!z@at9vlTVYo|)VmHmo_aQ@
z4~`YjOcuK)^_D5!J^e2SQ8Ht+xnv|{_=JosLyZgttr|_t2<D0K1Z=}F|9?cS|BBYN
z5EvL{IU0rAlVm8XB_Rhl61Ds|3Yf6|PFnvt0iCLZO~`mj5gWDtP^uQ}f+ll*I9jW0
zVGnT42|=?ilDvV@S5FNKcIvf~cesv{9UP(%3#?+Go+&6Ys-{RWVD!{6rAT5br>G{L
zO=KILb+pJI5bPs1_SBKy%-}f*lg;oDhs>B^aBtVM)Gc2kUh*?!y_{KlxK3LBdm2xJ
zi1?Fw8oDw=QPgWEqV|1?n*WMMH_+7$bl@d=cZ1Mhf&L}BxPcCBpmQ7O^p^7?MU7D_
L-q*+^O#A-@!oxb*

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/factory.cpython-312.pyc b/v1/kv_offload/__pycache__/factory.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b78cba792e8e0ee04f9c1e121c57d4875684298
GIT binary patch
literal 2858
zcma)7O>7&-6`uXo^3RlIN|Y2^T3eP~))pCAg%c}^3!AkhJAoQBanUe9H*4-tUS;{y
z*_9fy6d)KWLZOE!hgK?*AUfpW!j~R>?6H6^%P@e{g$y_-a_EhT(BD(v%yMbkP=OAx
zZ{EzjotgLE_q}-(i-i$1OZ<)bs1KpP(m~Lqj&k@rP_~hQ49-G1+Vd7y<a0bnb-@yf
zVoqebXh}smCo^5L`ie?U;Sd&y40f^=Du#1m4)F-fIP!q=ch5z6w1AAh50Ife;5&0M
z99ucnIlZSdLPppKJrMjU4pq5S<ZpDal;S)kt6P?S$HJh;-g^6u8(MbpM)tLvOA9a&
zF-xYSS>@$rOkjBI$AyAb)(x|?{ALB`VJ7@j%PMBerGmMf?>P~LI)g(3$~M9%#~CQc
z-$o|N30TAumX{Ik!^#M(7x<?VhYW5G=5W~Hv1ADFfwdtSazO!a#Rr{@a}lsmz%vOe
z1<?ritVFAFD&h@3d)IkA@03Z^3uy!|o3;b0SkjBwixkVos)e<R?%eglc}ur#jV;Io
zJFBF$lovZk(vIeq#__NL;zRyJVH?%CI$D9z^KA{0xYLO_0u0o-PXGa*2|)($afaY@
z_jcsqe?Jxtp}`k;L;N7RF4o1PPpGp<Ri%_%oBav%3KLaVZAgv!OVhavx~12uQ=OEl
zzNe~QGF0ZLO8rdNB9Ollrr}Y~*M`rlrmgB0!MagZ{a9gwjWjt17t9Bjq&>a+3HT1@
zLHw5AMotHt2(5Gw2@Bn}$p@aVBPZYps-sOV!0($V#Vw@-FJu-gW#U-o9WUmqntye#
zZy7tf;}9^C{V5WI14tBvO=GQYZ2ae1#wk`Z6|*ws=mdV4dVlq$D=)wI63)PmnM&2U
zTP|hR0JoX7>CAg;TG<D6rr<*)U8#C94H+i2nIl1z4#J|*P^agta$dLWt7-oynm=0w
z@vjYZFgUh1c(FNn@%}rl!7GjVgA=1Wmv?7dC(>>-eF!!{L6Oi>0!-4aReXbxGVw&G
zTET=OA|-i3-m*yqbmpb+?+^@a8beim_g$3?g674Zxm9iA|F}BMp1lC#-y5hcqiFxu
z%=W7vzuJtb2LmT}es%u`_s_X6F1n{~wgzsw(OYei4`n_TKmB=g_~Jhh=xqg!Pd0>)
zVw<ro<4ffQlB5@r^Q;~asEa7y3j_)nnxw-90EH6gDB7&^b$)}th3;{6{wNr&3w2?o
z3m@36(+tkw10Z!M)1_2kgAkB%kO$DM9I;jxY3hOkvo4jc|BsWp6keC>^2RYID0avI
zs(yk#>jM2A=g`Elwn8!bT&v4nO7uDLV6om;7rUNF&hhTN<O~FQux_(RIf-C?g=XNn
zW=K!>qt8fPs&m1)KskBI3sD^VRquHAjoZ&6$LnXSJ!P_%yj`+aE0m+y@XHMa?5tWl
zmxa3F!1JJXNJZ7B^@!G+S#{D*MZEzao<sDKUBE>10ppFp9H@RR((wDR9xMsKW5yFQ
z4BinM6GDSQD1^PRY1^xJSWRQBq5P#!mM5B}LOG?7QEGaUiqq6S+PgOyqf-iVl2T2j
z!$^<MwgNM1r}<oq<f)&S@xONZ*?4tcnskrJIBZ})0s%A&qp`Dlr!F^7U3Qhx{rG7&
zKIJM?Aor80y=1nT%r>I?33V@VwwXA)`;L3*Mk_Jj2<=A_JHqF&-^ZGf$^B$z%ido9
zczyTnW-`-CPH!$g8NaYMo@tI}+!wF6#<Onp<bHhIjh{alQr(H!hgTk6a8J*-h8EoZ
zg@e(Fz0v9B=(Kz3dTTV>c<mrL23)_{N?vX(9>hm>zW2q_SMeEFnQ`MY2g<RJBAXF6
zG565?N?H6%Jh>ycU}t5VaXl6D6paB#)4Z_ODbt`wHSHIxx<wPNX?}qd4Kwd}0zAEh
z76C%Z=4UIeX?m$thRSZ1OE&x+VW}))sMH2|f!ci^#2*kllVyNV&N0ysid_ZqYqbBv
zYa2Hk&Q^A3c=yb%asO)b+^l<MwmI^On|P%epKFQNo=E*|J|s=<o@gWJ{y4+BKV@0>
z=O2AXCl3WAA7@tWA*KyT>XZJHZ3%j)lHuX+`aok=-}0dOw_+EfiLMRNw<WzcoqqbZ
zr1O>4RGh)qi|5Oh1<x(@HLc&tvuJoSFbK#(XpQtDYzH61gw{GQdBmO+qJ98<`<}8(
zF2GM@k_vV&7Q;()Nb7@-VP(#z^i}dQ%+aUYz6GK!a2$6iBkuTPboMb)zd;j^(WS42
z{>S3EuS1EgpS40`8}dKpGo1P@0?~e*L)_3FnrNbleKF~dOuIAle;0U;XJ`Eviw3@s

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/lru_manager.cpython-312.pyc b/v1/kv_offload/__pycache__/lru_manager.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3bc2288ee19890f1e29273927eb99131c3feab4e
GIT binary patch
literal 6122
zcmbtYeQXrR6`%dO&oy_p&*0$0K7T=u4_`^Z*cfOb7y`y72{dXhB&*|gZJ&K#-MusM
zu}&bOk)1d-ZmZfzRdK3FF(Os@6Dj}nPpV4o9S-raNu@|lrRKkLk0@>a>YLg7@_8Lq
z>PR~~^XARl+4tuC-kbSzO^ppf3A68o#CnAOjyuJ|6&m?rXe=NRiBuRxC_hEvHXWuT
zjGrNGCd@`SKS$bZ*c37Q%@K>=60!QN5u4ve=v>$y;r)E1#$Q7r8l6U>=>`(blJzd5
zf5*RN(&Dv#jXPdSv!9nmNtVQup<n{KmNN-S4qOgP(6*ik$AaU}2b57StJR!~1;h)9
zm@Hk0OF_+Xet0+xlu&e}e?p2TwAwOZFc1xlNU~P<f-J=YFaggxpG?G)2`{agPXvPF
zQdHFJMEr$BAdysp`qK2eq>ua1UqBM_QzG)yBIRd9r$|ez$Vl8UE3!8@ze(gIvt)S+
zI7O3W1*-W5>$k0=+JR~TDqp4!)1nn9HR~ugplm5qK%PUir_2b!d>+P}Vr|7}4Ozn$
zSVJvvnx#6t29WCj&iYBaw@!1Nd+Em;w351L^FTQs^=ugOTnQycJpoTVoE#a!Ht<~5
zRkhc1Wi%8V^+*$7B*k+Xn+0Bz9{4~P5vQ38tXho}#Zv_dTSW;LY)%wQLyi0Sm!Mie
zDy1TU4B#qJ;=Eg+!6=?Vib~6t5d@SH*Cg!C_5C~4ke8LW0Kbg6G?Ttg&7?2I%V?}3
zg@<(x2XH8u4RrBczb_Gq`{JSazC=JCkrMmfNFM6#89yZX!lBE)_+(-<7WGYp!x7)a
ze&6_n5YzXbFDxg8h`!mn;**+15JJ&VLJ(3rj5Oa>9B#nhZiVU^%6fK9v$OnHeWyM-
z3Jv??!>8|^m}cL%Ke&kNJTM`RCqE*Lf+I+ZW|E~uQjP{ox&amz9{e-;6jb2B)D*2!
zC(&!qA~eOQXbh;;Wvryh@`%dZrS#qutFqU5l^w&9tBL|xpwbuM5$RM7e1V=l$P&sO
zW=O`%`Wj2|GIAZfGzJu^Swe~+O964x%gHXF%8hu)Ittnf#**N^w(>t}oNhSmhF~3!
zN5%@%OyO8;JQ+_l8R}LaYyw8*EL5ObSHraR^X)sQ&t_eX3j^~53+Lz0FP&X+`KJ4`
z4%hV5QvXLozZ=Rr8@_ZjrY(&*2Gwj`teqK}Ig_)Zrd>H3ay|ugc^il`R`x>}SwJJ8
z0HW;v&6TY(*g3IM$12SRG+Y$=EP9(#**7R7b&C{Ma*(cchA{wz>Y}nm<56h#G#CVp
zS*m#u8nbVtfg{p)3+uXoy!4Rl1}3kG*iUYTwq};4VIc^1G6mvs08ipXT0NLnz$h#z
z7-9tlkh#*px&RLdknwg`sw~RKb$liwQmuw|tz_xIGG2!YtXo?@ZK|~Hk}c!f1D36C
zTsZcNV`;wi=CLeaJ2&|5;NpuJzWM#ZEMGS_I5W7|`H1)E2Ii5|HK)#~s}5hr;k(D*
zA6{|vr!D;(Esobs-0MSVETBZeNh(20rHa}wzQO%^v2%bOSeRB-3@u0(=PJ}}%O>-z
zRf3=k)+?+CEZ@hXNhH?-*~@7b8L&@QBvE6-Atj;PV+V|B_DF0(5)v^1j0v7v@=4hP
zqeWoU9gj=IlEKl`c0>D+u`WEP2dZo6i|uV69$4mA+7EuVy&HVbQ9pNe=IY#AGjA=X
z9yxYrovsD@ynWTVE92a?Y<uK<c8x<#hc>DltBj~zg$9llpw2@DbpoZjs5EgfMrDi~
zOr*w7!U}aaW5CS}oDi@KJRRJuWZc<aqDqV@URqaO2X3=f+S2znUT_(#YJ#yyJS-(7
zeQ&oJ>TVqmKs8bhLv;;pvagTMA6?r2u)ZVBcckk(DtGtK2iMF1SwxFN>#zzV08!%v
z)Vdny=pa1;Kl)ldQ77J?z*Jo(DA<E_Dm_onHn0#xrs#5jE{BOt_NW0m6@z*T($Fau
zFq2bR-7NA8#w!>z*y%+nuo<2~=n|N5ik>p5rZJFOT|oNNpi*jftICZ5f>xJGuYt7?
z^J9cA&3lGIQ5tUnm4okf7d9WZb5$9`$wXDz<e#u#R+aKPD!jM{@SBq_ffO7=tIBn(
zF$22MUnX$uBt_+5meK0B7CFlAO*nDTt|}t)F?+WlwY>gK=3`f?D&@U2Wv<v^=Ax_$
zS}8dpb|uc7z*t6#%BbdI3<GNco|Sh8tft6T@mA?0(3{;#BBhaDS}K?e&C0J#SrRy?
zkpgs!%6-fgk2n{=zbJU7=qnIM^`wXd)r)snJ@qN%J4z@eX{LxIhLRB+WHBlO9%~Kd
zbVyP#Op^es*~)QNbFE_`sX0uoB|xPyVJTV>qoc`)Ff2=wpl4PZ7fMJGMecyb%bieZ
zEFRUEcq}dhEFc+su)H5v;Acp41j3N>2LR3r0+>`NF7L$S*h{_EYDheQXVv4+>Jvz$
z!KVk!f@2PD5!lpW^&oI7SP%wKQuN4EQ;h!Pw^PO_x{e1TE>e~O!mpt<8`|BSXXsYj
zWADMm!}qs8IPllLKlMHAefiz9%Wg>btj#$Dqfcz8#+i0@uJAjTU4L-jaj$yMWV~lq
zyaO420JFIv6?AQ#wq)(iOSKQ}ZP`xmN3VYH>S||qrnCFA&Yq03^`>o+q#hWekFV5s
zW?gPQ-Tc($%er<g@6WjQrd_+T+jcJpR<`*bH}1&U(azqS6E(W?Ce+jpk&<`Lotrtg
z%J0bVI~K*;<G03d$8N=z$5xtqAMuA_Ax-UTCd9iI+1vJ8_H?5U&ls2)Smm1`!TG}3
zl5O>7TiS1{x75{^?o3N}wyEXzky}Sro4PVhU0Jv1iIuCZd%~D&w&dzi-PQ&7ynD5F
zU#50ny6d@>+LP0!FC29@yWhL|n_#-_&`NX9Lq|{A(vx=deAU{K?mT?|)Mu^F!P=(J
zE^^tOd!|p~k1yID^6jv;wv$xOg0^m7xHNxhwc%i<;b6LZ;K9o)4Hu_vUpZQ{ZHKbk
zT48}t%&gOvL#);IpMSkVf%X-Q+&`;7)y>{wq0-DsG8mMU^#{jN6w|=6B;#h_KzM{C
z1sIpvO+1_>NdX7=ZxHZh$gxC9<tp-O#xN_Z%&P&HqXXo-r~aSs!g~ML+?*>SAso7l
zag05RW}gQXW8~L?g9m+9mFq7W(~bT%QHo`NX~wH`R*8r1CY%N_N~Aw#HpYudh_aKA
zS?Nf5O8x=J^xAZAz~_%LQt796oF^Fp6`Wbhne1_3(&`Cxh&l`vj?g5>)w4De@Khqs
zmQqfpLr(kmCvJo(1~QbtKn2GV-~P0v>9M`;^XA<*ZP`XQcGab`nMU7DF1yXW@a8Yy
z%yx9%?Elpupu(!FE92@~PCarRUbCW>J$W9g&1S(F_T2orRaa-m)wv{n>e^c=9L_T>
zd)9cww=5m_sPBWmbo=3r;Beskz@e3Z!#4yR7}U|1wm0iJIXGOY;6$<=p8Pvd4Im09
zl!jaKy3d&24|g_KLCUY`1^OM10|~}_Mt2j%)Q=)t<q(?n{GPc&=?5K}>;;VrhNXb)
zrN|yo@X8BU2lhl@ym%v(!k1PXuD-e|IHqBuf<w|j(Z9i@cE?=b3@D^6yRB*A>ipGJ
zzAeqSmGq0@`Vrrf;}GAT<=ehf@CDS{?&B2oTk41G?N(@bsZ(C+qSu8lh@ydrBnX;K
z5F#-#3HM}z#tXtvlYwwy#4HG6EGP&v21bp&9E*izoT14$MUnAIRAWNXgxrR^c>Bt`
zaJ3g#_#8$8viu|5I*BV1$xlP;4k8vMkyXa|FsZOJE1y7h1Fg|CXIZnb+)LDw888~&
z_t`vo=Xf*s)Kbs#nM`|k4nh0=vw8f=)mgYx)N<oJZ^nBhhj8bQJM!e6b1~e3rKgvB
zGi?X+2--Ot%e5>&eXlpO`zV&$lH(6>wye8j>6MJzmt&ywrL}2M%vjs<9CX&g)HZI*
za?iapnLWpH2-*)^dHl*f!*HI(pDe{PJG!5MWRLz|_?L#f4$U5ng~L)X5sF0>{UXp&
zLFo!y4iZ&rP545uYhr&_5Uwt|;8rgf2#!iZG7$<Zx}HlM<tsm!4#(&KWG_VZM7bEr
ziPp94MUfQ~3iqPKoHD+A(RDwBTli{8&vYzD^zCp=z6dnDbro#P979pmHzq`N{0(*d
g1MUBo<|sOkp!$|a)R8Bqs}$u)H|_lf;RccSUlO+j`Tzg`

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/mediums.cpython-312.pyc b/v1/kv_offload/__pycache__/mediums.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2c5890147f0fb87e72633464efb64ee8dd8ae027
GIT binary patch
literal 1873
zcmbtU&1)M+6rb5I$tI3d*Q#w?!nSf+7Gf<)KjMO0NE{kUTTw7AL6>E<J90MOugtDQ
z*Z7cw4~0@lPfAa9Zw>0DQ0O1gOQ1b1JrqI@y*XXwl2hKBl~l`^9MXY(^Y%CM=Dqp7
z_vW{`xmg0kSHAXQnUF{LGalMVDQ<z%CoXZRPXgMa6m`j$S~ASCuLNpKr9>h(h^rhB
zS7j=r1EsWXX#&>(uP|)@K5(=u0<8i%a}2F!k}>-aZZK#rU%j@~gn90h$ac5Wh_mgO
zIS#Il$LKUtGyv%nMq1P*Ey<-2nZy*Pt^nSVT=_t0X|BR5psS!)GtH>vwQGLl?0$4T
znR2lA;j9h=ed(Qu>ppn*!W}b#2w>Jf{z7k~U7~k*6zDr%kA)?ohuxsfc+wCD<TGNM
z<++I?jRS@mdBM1gn;`lmr7($c`}nRAwolWMM#$|EqZ0s>pXgv@wNI=u8zdu!gv_aK
zn#Igeaw&{+)#lvJa@7mdci-j}FgB!INtoXeKM9_r>rbzmX%L&S7q6!_-(l(cm)$Gx
zZR}oQrth`QI7@Fuq1p5O!0cTzcY9XU=^#U9z+A5zB#k)BtCr=3UTRr;=TBw0F<zes
zm&r1SyX4Q6)$f<TTRt>?x%}(K&l`WNY<{JDbGCprl53o$T^>3UrU1md3KlPda-79|
zavG0=k?l4VRuk{dS<FikD4&BP65OEkvmh~kTz+2s<@y2|z61i|pMUw@^?vi)=I`_M
zht)bi2WZon!Lvd;V3w87T2>IbT_5!`mUX9V`=gbLWx0_9u;P13n#+(Oj@0CGl5)NX
z+5;jE6yb4fOChjxlRAh4@>r78>QR-d?;oxmCO;Sj0rg0u>e~JK5cIXu9!(wiCIczN
zQM>_Sx`CJiEu@ysGZ34gZM94>)co9y&pw~-na$_-j6LZZJ&km*)&mwqJS#heBZX68
zp*sw%z>@Eij6yx<GT8A~0VoABT;@wFYj1DqWLS-IVHHnOLEI&O%`cXzc~IdsJm3`+
zODM1o^D{|mr=AlqD07#iA%6{pa69qH&m)Ec&5PGTOj1C!g(HcowR>Ct0`Ij#2H-IQ
zWd_h_>Z&i8fvx|Q0kD3d41nEf84w)pEuD;MME?c2GDnU|=6M~}6NJ8r7z!N~VIkN?
z2)anN+YU#jauwd#IOACQ`6@m`jozikf6q|EZbQ%5PRg-z%2pA{5)P)F=GD!zAwS^j
zuo)kKWCO&JOeuY$5xV$@Ec{L08EP|h?f$1fzBMGE43{gk_HgOqkia}#EPtNhkGS45
D_;8y(

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/__pycache__/spec.cpython-312.pyc b/v1/kv_offload/__pycache__/spec.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..993a38759b8e5a43ee6daecdb7098103c365b537
GIT binary patch
literal 2790
zcmZt|OK%%Rc=q9q?fBIYplOq6LR*MwW498}QmTmHqNY3oQUU@?XtmiLJL{}>&Fng<
ztsqq>2M`A;F6|MxP}B=QfjdHqDU!>o6|E2lZh?T1IPrb^aFRBoWafL#x8HmGLpGZx
zuq^pA^T#1VenTW)i3r&F0)XqpAckO(rcf1{VpS9n7cHqNSLFbftVC0(Dgi88L)9VR
zC#+;MRZRsn#Y#7atHaGqH51@NR<@a|<^;kNu7GUP$~Ozuf<Q#VQtZ$zA^duEL?oAp
zk=i6inhCe0i27JZE)M^JNKy2qxmPNFPFr?8uIXNrc`J@l6#V36k8#a&IKbJZ_uqb1
zt<1k#dHwRjr3Ii2o3`nxmQ$}Y4mz@LIGV8t!fdg{bpOy>wVDMK)2_d%*&50Sdx`U!
zZCC*@{jOy-D~??=>w0KhxThjyXA^+ygpsOXkg8}1Rmn&i;wHq6B@BrvHPMha<y(<>
zbqJ^lmV_9j8&5>UJx5I(0}SqESeE5j9<jk$s7Z+9e@!-&Jz5WShKeaax9b&p*`>JC
zn!~APQ)l2Y)g9YrIs`)(K~=mI05JYL??G;^6ECKdMwFES0RTgYGboS^VS}gxO&dZ3
zH9fRG5;w%F;%nq%VMA;rA7TOu8sd5ceT~ec5{=xWG`Ka;<vkYjH%KF>`WO$-#^d{O
z#0(K+3y;!oMc%|d!gq#aDY$V!-VWB&g-96E>NFv4;CqJ@<%O<$8A{XCEVB#cNB8Hf
zM3+`fm(IO?nZm)Yv=}#=%=R=3a%fPuz1)DzQO}|Jie}dtHErsxFj{MSZO*9X(siH(
zjllwj!CbR$m;Cgy<>;%bYjzn&?}`~;3A@7|TGzM@ruf5aQ0ppG2Nb(Mvbv^1!`W_)
z@t8ISv_bKx><aK>R%Sn@Yx)X{csvi^^K<o9TirFnmrUF9r8@Kc(Wo?;v4>xjeA#7I
zjgP=(j=6QQ3@N4m&6d4ptK2eMGoHpl!OWHR*%!~Po@HgrTrRgdFdytPx>8;{QwED8
z^<@{jq15X5NmUJogW7%aq2R|1OtAYkY*)$MWbX6ar@3uW$j%FYOHwMmoh0MWd?Npx
zJbZs*x<Bz!Z{nq`<dHl1sjd9XR&oaRJL9GP_<V1C9;L?aPZs-=FZ3o~=ugh|Cg+fL
z^zQLz?qmx6%tS9U(a%ivGE-lk`cCejuJle<Zf7p;NaBe!3Qobt3Zwn}bT2=B^SS=X
z*&h7mXTP8NDPP%2R(ko$4p>Qig)_*%tw&Q8X~7EmSqAVr=?F!!`%M}G7_3Xo!>O<v
zfM^av(P$oBH!X`UGun2UF}Ska2`b8k%o=T&jx(-lumk4`)+Y|@)xq6CifK>+Zcxq5
zVDwV9X6l~l*luYczVIz63j8P-?xIVSkHhW{L$cNI67L?_H66!XX%7$jjkxgKLHf3H
zB$efpcsqr~i)HEV8+*VC$KGz3G<g2Vz!r>DWIpyQv>iST;DO};x^8+a7#5RL&alEf
zbB$4#>w$-c3%%NDF>r05Z;sd9^8*Z%F)-{rouft=42^f-tJKmu(0;boWOQbhVhhE>
z)MK{m@I8v(H<@KTq<X2{vY3mSroko^Z8=53stDTkOO5<0?nwflg4h(rAP@W)z%EV>
z8f7Dc5s#zMJ$gVoV&)mV8s+0ioR0-i9P~C$*5U|uCAz7qep*$V4ptbz8CCtTtyvLg
zNL39-S5-a%cQ_`D<2%fsg3XsPa=rw=68r?dZ7aUA6oiQ5%K|hEg)d_WIKCPj9|?W}
zH}o?olAz9b7E#=SvC{@%ll&q-yCWA87lrNPL>b){l|*)HqVyMmb4Q9P+l2tiB(itL
zCT{3oKL5>yuP$s&mV0BTw<Vz7PaV2;;)Z<VgWlnjH<!Mf>CL>n^~&Pb;l<v_QZMz+
zUkQ*2wEZap6k3FK6i0nYTh=+YbKth0*B#5kV#BsUR^X!o&OwcGe1Q2W*us%s3I{#M
z6!=GRGM3iPly)a0C<uRBg>k`<`t$&?b%(DqUJ8#Oe3Aa}$>5kt{xoj*riNkMA6h?o
zAx!NoKMNwzX2d-Q+qNVK!oLa;j^88jM}H%k-^sCG$^1Ps`#>t(lb?Q&8ol=3?bPH|
R<!|MrkiE9}4}l{H(f`@R#Gn8G

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/abstract.py b/v1/kv_offload/abstract.py
new file mode 100644
index 0000000..c1d1cbe
--- /dev/null
+++ b/v1/kv_offload/abstract.py
@@ -0,0 +1,161 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+OffloadingManager class for managing KV data offloading in vLLM v1
+
+This class runs in the scheduler, tracks which blocks are offloaded
+and their address.
+
+The class provides the following primitives:
+    lookup() - find the length of the maximal series of blocks,
+        starting from the first one, that are all offloaded.
+    prepare_load() - prepare given blocks to be read.
+        The given blocks will be protected from eviction.
+        This function returns a LoadSpec which encapsulates
+        information required for performing the load.
+    touch() - marks the give blocks as recently used. Can be used
+        to track block's LRU. This function is separated from the
+        prepare_load function to allow setting block recency even
+        for blocks which do not need reading from the cache, such as
+        blocks that are cached by the GPU prefix cache.
+    complete_load() - mark blocks which were previously prepared to be
+        loaded as done loading. This is to re-allow their eviction.
+    prepare_store() - prepare the given blocks to be written.
+        Returns a StoreSpec encapsulating offloading information,
+        as well as a list of blocks that were evicted as a result.
+    complete_store() - marks a previous store as completed.
+        Following this call, the given blocks will become loadable.
+"""
+
+from abc import ABC, abstractmethod
+from collections.abc import Iterable
+from dataclasses import dataclass
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+
+
+class LoadStoreSpec(ABC):
+    """
+    Abstract metadata that encapsulates information allowing a worker
+    to load, and optionally also to store, blocks of KV data.
+    """
+
+    @staticmethod
+    @abstractmethod
+    def medium() -> str:
+        """
+        Returns a string representation of the medium type
+        this store/load targets.
+        """
+        pass
+
+
+@dataclass
+class PrepareStoreOutput:
+    block_hashes_to_store: list[BlockHash]
+    store_spec: LoadStoreSpec
+    block_hashes_evicted: list[BlockHash]
+
+
+@dataclass
+class OffloadingEvent:
+    block_hashes: list[BlockHash]
+    block_size: int
+    medium: str
+    # True if blocks are removed, False if stored
+    removed: bool
+
+
+class OffloadingManager(ABC):
+    @abstractmethod
+    def lookup(self, block_hashes: Iterable[BlockHash]) -> int:
+        """
+        Finds the length of the maximal series of blocks, starting from the
+        first one, that are all offloaded.
+
+        Args:
+            block_hashes: the hashes identifying the blocks to lookup.
+
+        Returns:
+            An integer representing the maximal number of blocks that
+            are currently offloaded.
+        """
+        pass
+
+    @abstractmethod
+    def prepare_load(self, block_hashes: Iterable[BlockHash]) -> LoadStoreSpec:
+        """
+        Prepare the given blocks to be read.
+        The given blocks will be protected from eviction until
+        complete_load is called.
+        It assumes all given blocks are offloaded.
+
+        Args:
+            block_hashes: the hashes identifying the blocks.
+
+        Returns:
+            A LoadStoreSpec that can be used by a worker to locate and load
+            the actual offloaded KV data.
+        """
+        pass
+
+    def touch(self, block_hashes: Iterable[BlockHash]):
+        """
+        Mark the given blocks as recently used.
+        This could in practice mean moving them to the end of an LRU list.
+
+        Args:
+            block_hashes: the hashes identifying the blocks.
+        """
+        return
+
+    def complete_load(self, block_hashes: Iterable[BlockHash]):
+        """
+        Marks previous blocks that were prepared to load as done loading.
+
+        Args:
+            block_hashes: the hashes identifying the blocks.
+        """
+        return
+
+    @abstractmethod
+    def prepare_store(
+        self, block_hashes: Iterable[BlockHash]
+    ) -> PrepareStoreOutput | None:
+        """
+        Prepare the given blocks to be offloaded.
+        The given blocks will be protected from eviction until
+        complete_store is called.
+
+        Args:
+            block_hashes: the hashes identifying the blocks.
+
+        Returns:
+            A PrepareStoreOutput indicating which blocks need storing,
+            where to store them (LoadStoreSpec), and list of blocks that
+            were evicted as a result.
+            None is returned if the blocks cannot be stored.
+        """
+        pass
+
+    def complete_store(self, block_hashes: Iterable[BlockHash], success: bool = True):
+        """
+        Marks blocks which were previously prepared to be stored, as stored.
+        Following this call, the blocks become loadable.
+        If if_success is False, blocks that were not marked as stored will be
+        removed.
+
+        Args:
+            block_hashes: the hashes identifying the blocks.
+            success: whether the blocks were stored successfully.
+        """
+        return
+
+    def take_events(self) -> Iterable[OffloadingEvent]:
+        """
+        Take the offloading events from the manager.
+
+        Yields:
+            New OffloadingEvents collected since the last call.
+        """
+        return ()
diff --git a/v1/kv_offload/arc_manager.py b/v1/kv_offload/arc_manager.py
new file mode 100644
index 0000000..45b166d
--- /dev/null
+++ b/v1/kv_offload/arc_manager.py
@@ -0,0 +1,237 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import OrderedDict
+from collections.abc import Iterable
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.kv_offload.abstract import (
+    LoadStoreSpec,
+    OffloadingEvent,
+    OffloadingManager,
+    PrepareStoreOutput,
+)
+from vllm.v1.kv_offload.backend import Backend, BlockStatus
+
+
+class ARCOffloadingManager(OffloadingManager):
+    """
+    An OffloadingManager implementing the ARC (Adaptive Replacement Cache)
+    eviction policy with a pluggable backend.
+
+    Data Structures:
+        T1: Recent cache containing blocks accessed once.
+        T2: Frequent cache containing blocks accessed multiple times.
+        B1/B2: Ghost lists tracking recently evicted blocks from T1/T2.
+        target_t1_size: Adaptive target size for the T1 partition.
+
+    Algorithm Flow:
+        1. Cache lookup (lookup):
+           Searches T1 and T2 for block hashes and counts consecutive hits
+           until a miss or non-ready block is encountered.
+
+        2. Cache touch (touch) - Adaptive Learning:
+           For each block_hash (in reverse order):
+           - If in T1: Move to T2 (promotion from recent to frequent).
+           - If in T2: Move to MRU position (end of queue).
+           - If in B1 ghost list: Increase target_t1_size.
+           - If in B2 ghost list: Decrease target_t1_size.
+
+        3. Block eviction (prepare_store) - Adaptive Replacement:
+           Determines eviction source based on adaptive target:
+           - If T1 size > target_t1_size: Evict from T1, add to B1.
+           - Otherwise: Evict from T2, add to B2.
+           Finally, bound each ghost list size.
+
+        4. Block insertion (prepare_store):
+           New blocks are always inserted into T1 and removed from B1/B2 if
+           present. Blocks may later be promoted to T2 during touch operations.
+
+    Adaptive Behavior:
+        The algorithm self-tunes the recency vs. frequency trade-off:
+        - B1 hit: Recent access patterns matter more → increase T1.
+        - B2 hit: Frequent access patterns matter more → decrease T1.
+    """
+
+    def __init__(self, backend: Backend, enable_events: bool = False):
+        self.backend: Backend = backend
+        self.target_t1_size: float = 0.0
+        self.t1: OrderedDict[BlockHash, BlockStatus] = OrderedDict()
+        self.t2: OrderedDict[BlockHash, BlockStatus] = OrderedDict()
+        # block_hash -> None (only care about presence)
+        self.b1: OrderedDict[BlockHash, None] = OrderedDict()
+        self.b2: OrderedDict[BlockHash, None] = OrderedDict()
+        self.events: list[OffloadingEvent] | None = [] if enable_events else None
+        self.cache_capacity: int = self.backend.get_num_free_blocks()
+
+    def lookup(self, block_hashes: Iterable[BlockHash]) -> int:
+        hit_count = 0
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            if block is None or not block.is_ready:
+                break
+            hit_count += 1
+        return hit_count
+
+    def prepare_load(self, block_hashes: Iterable[BlockHash]) -> LoadStoreSpec:
+        blocks = []
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            assert block is not None, f"Block {block_hash!r} not found in cache"
+            assert block.is_ready, f"Block {block_hash!r} is not ready for reading"
+
+            block.ref_cnt += 1
+            blocks.append(block)
+
+        return self.backend.get_load_store_spec(block_hashes, blocks)
+
+    def touch(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in reversed(list(block_hashes)):
+            if block_hash in self.t1:
+                block = self.t1.pop(block_hash)
+                if not block.is_ready:
+                    # block was just prepared to be stored, not really touched twice
+                    self.t1.move_to_end(block_hash)
+                else:
+                    self.t2[block_hash] = block
+
+            elif block_hash in self.t2:
+                self.t2.move_to_end(block_hash)
+
+            elif block_hash in self.b1:
+                delta = max(1, len(self.b2) / len(self.b1))
+                self.target_t1_size = min(
+                    self.target_t1_size + delta, self.cache_capacity
+                )
+                # move to MRU position (end) to keep it fresh in the ghost list
+                self.b1.move_to_end(block_hash)
+
+            elif block_hash in self.b2:
+                delta = max(1, len(self.b1) / len(self.b2))
+                self.target_t1_size = max(self.target_t1_size - delta, 0)
+                # move to MRU position (end) to keep it fresh in the ghost list
+                self.b2.move_to_end(block_hash)
+
+    def complete_load(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            assert block is not None, f"Block {block_hash!r} not found"
+            assert block.ref_cnt > 0, f"Block {block_hash!r} ref_cnt is already 0"
+
+            block.ref_cnt -= 1
+
+    def prepare_store(
+        self, block_hashes: Iterable[BlockHash]
+    ) -> PrepareStoreOutput | None:
+        block_hashes_to_store = []
+        for block_hash in block_hashes:
+            if block_hash not in self.t1 and block_hash not in self.t2:
+                block_hashes_to_store.append(block_hash)
+
+        if not block_hashes_to_store:
+            return PrepareStoreOutput(
+                block_hashes_to_store=[],
+                store_spec=self.backend.get_load_store_spec([], []),
+                block_hashes_evicted=[],
+            )
+
+        num_blocks_to_evict = (
+            len(block_hashes_to_store) - self.backend.get_num_free_blocks()
+        )
+
+        to_evict = []
+        while num_blocks_to_evict > 0:
+            block_to_evict = None
+            if len(self.t1) >= int(self.target_t1_size):
+                # try to evict the least recently used (oldest) block from T1
+                for block_hash, block in self.t1.items():
+                    if block.ref_cnt == 0:
+                        block_to_evict = (block_hash, block)
+                        eviction_t = self.t1
+                        eviction_b = self.b1
+                        break
+            if not block_to_evict:
+                # try to evict the least recently used (oldest) block from T2
+                for block_hash, block in self.t2.items():
+                    if block.ref_cnt == 0:
+                        block_to_evict = (block_hash, block)
+                        eviction_t = self.t2
+                        eviction_b = self.b2
+                        break
+                else:
+                    # cannot evict enough blocks, cache is full of in-use items
+                    return None
+
+            block_hash, block = block_to_evict
+            del eviction_t[block_hash]
+            eviction_b[block_hash] = None
+            to_evict.append(block_hash)
+            self.backend.free(block)
+            num_blocks_to_evict -= 1
+
+        for b in [self.b1, self.b2]:
+            for i in range(len(b) - self.cache_capacity):
+                b.popitem(last=False)
+
+        if to_evict and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=to_evict,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=True,
+                )
+            )
+
+        blocks = self.backend.allocate_blocks(block_hashes_to_store)
+        assert len(blocks) == len(block_hashes_to_store), (
+            "Backend did not allocate the expected number of blocks"
+        )
+
+        for block_hash, block in zip(block_hashes_to_store, blocks):
+            self.t1[block_hash] = block
+
+            self.b1.pop(block_hash, None)
+            self.b2.pop(block_hash, None)
+
+        store_spec = self.backend.get_load_store_spec(block_hashes_to_store, blocks)
+
+        return PrepareStoreOutput(
+            block_hashes_to_store=block_hashes_to_store,
+            store_spec=store_spec,
+            block_hashes_evicted=to_evict,
+        )
+
+    def complete_store(self, block_hashes: Iterable[BlockHash], success: bool = True):
+        stored_block_hashes: list[BlockHash] = []
+
+        if success:
+            for block_hash in block_hashes:
+                block = self.t1.get(block_hash) or self.t2.get(block_hash)
+
+                if block is not None and not block.is_ready:
+                    block.ref_cnt = 0
+                    stored_block_hashes.append(block_hash)
+        else:
+            for block_hash in block_hashes:
+                block = self.t1.pop(block_hash, None)
+
+                if block is None:
+                    block = self.t2.pop(block_hash, None)
+
+                if block is not None and not block.is_ready:
+                    self.backend.free(block)
+
+        if stored_block_hashes and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=stored_block_hashes,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=False,
+                )
+            )
+
+    def take_events(self) -> Iterable[OffloadingEvent]:
+        if self.events is not None:
+            yield from self.events
+            self.events.clear()
diff --git a/v1/kv_offload/backend.py b/v1/kv_offload/backend.py
new file mode 100644
index 0000000..538f7bf
--- /dev/null
+++ b/v1/kv_offload/backend.py
@@ -0,0 +1,97 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ctypes
+from abc import ABC, abstractmethod
+from collections.abc import Iterable
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.kv_offload.abstract import LoadStoreSpec
+
+
+class BlockStatus(ctypes.Structure):
+    """
+    Offloading status for a single block of KV data.
+    Holds the following information:
+
+    ref_cnt - the current number of transfers using this block as a source.
+        A value of -1 indicates the block is not yet ready to be read.
+    load_store_spec - backend-specific information on how to actually
+        read/write the block.
+    """
+
+    _fields_ = [("ref_cnt", ctypes.c_int32)]
+
+    def __init__(self):
+        super().__init__()
+        # initialize block as "not ready" (ref_cnt = -1)
+        self.ref_cnt = -1
+
+    @property
+    def is_ready(self) -> bool:
+        """
+        Returns whether the block is ready to be read.
+        """
+        return self.ref_cnt >= 0
+
+
+class Backend(ABC):
+    """
+    An abstract class for allocating and returning specs for writing
+    KV blocks to some backend.
+    """
+
+    def __init__(self, block_size: int, medium: str):
+        self.block_size = block_size
+        self.medium = medium
+
+    @abstractmethod
+    def get_num_free_blocks(self):
+        """
+        Returns the number of current number of blocks that can be allocated.
+        """
+        pass
+
+    @abstractmethod
+    def allocate_blocks(self, block_hashes: list[BlockHash]) -> list[BlockStatus]:
+        """
+        Allocate space for writing blocks.
+        This method assumes there is enough space for allocation.
+        It is unsafe to use without checking get_num_free_blocks beforehand.
+
+        Args:
+            block_hashes: the hashes identifying the blocks to be written.
+
+        Returns:
+            A list of BlockStatus for the allocated blocks.
+            The ref_cnt of each returned item will be -1, meaning the block
+            is not yet ready to be read.
+        """
+        pass
+
+    @abstractmethod
+    def free(self, block: BlockStatus):
+        """
+        Free a previously allocated block.
+        You should only call this function with blocks returned by
+        allocate_blocks, and only once per each block.
+
+        Args:
+            block: The block to be freed.
+        """
+        pass
+
+    def get_load_store_spec(
+        self, block_hashes: Iterable[BlockHash], blocks: Iterable[BlockStatus]
+    ) -> LoadStoreSpec:
+        """
+        Get backend-specific information on how to read/write blocks.
+
+        Args:
+            block_hashes: the list of block hashes identifying the blocks.
+            blocks: the list of blocks.
+
+        Returns:
+            A LoadStoreSpec that can be used by a worker
+            to read/write the blocks.
+        """
+        raise NotImplementedError
diff --git a/v1/kv_offload/backends/__init__.py b/v1/kv_offload/backends/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/kv_offload/backends/__pycache__/__init__.cpython-312.pyc b/v1/kv_offload/backends/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b61f8c770cd93732a31bfaaa26121780fb9b2608
GIT binary patch
literal 172
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFz+t7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>Sve5=clFR<R_-+CnY9lr{<*;
t>&M4u=4F<|$LkeT-r}&y%}*)KNwq6t1)9wW#Kj=SM`lJw#v*1Q3ji8jD&GJA

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/backends/__pycache__/cpu.cpython-312.pyc b/v1/kv_offload/backends/__pycache__/cpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c7e9638e31e741844e3b72cd98385070651d3ede
GIT binary patch
literal 3682
zcmai0U2Gf25#IZwj@0o-k|Wx(BGa`Li3%*rzqFk+ab($1jYdr>)IgaASL*I4Q9Azg
z?x<P<l^BJA%Bcgp4@F!cKm@cvCAdIUpg@~9zqb#hDVxH<Mh&!m$QxZLNZO~)?C~gy
zRnrAIJ3Bi&H#_^y?EcyB_Yr71|FiTTL_+?C1GfovX8SrY9}|_Rj7}2RvpSPu6D)%~
zr*j!T!Bd{sg^VZRp}e5CWyFM-@g}@<?9qLh_Cz~FSn?)O+int7)V%jO=Nk!$O1&WU
zX<|d_Uu2@~pQFlTl(EHcS(=fY)-~Y0V|q@RpGcasFz|mnmsF>$oS{wSH6_a0ZDUDg
zUdyU>J5`&ql2*Y4#n7d<zqdzMaX#<Rx-Vq=2QdCA>{ufSMkNVW<K`eXtxaV#VNPn5
z5|UzPm?aP=c+hA|u`49SsO(KCA+C_?Ou{=wqMRK7PnvwQ#cAA+oK_XK$s&4$|LsvA
zzhFKlR%7xOTO=RB3Ei(t7*b@4L~g8JB<sv1d`K`0dCjmzSx#rumMk0XumI$|sp%;?
zu)VUZ=t<L*WfMOZiQM@2m6(;u$MWg?aVu%eXx8!Th4}e%^KmVvr>A52MQb*fjV<VU
zCbn=QHoqX}QYjtIAU5s9-Ha*u!bpD62!g$(@ZP<SxUS%&`2vuyZjdLU|5jUBJh&<L
zY#ofO@E`fNVS+?`=y^7o(PY{7$#N#A7Ifq#S^iNWsXH@98>oU}Dy`|NDcc^!TFh&v
z-KM~%t+S_X4m#?K?XT}u(R5vw*BPS&mYNKZi$*6<1Ji*LJXsUt{?$#g73`@7kClVR
z)_faR{y6#j$<pAZ(o5sz;P{P+8qW$xSG&F>&^<?Dbh#!JU>eO+=e8GsX+{^Igi`@y
zDV`#Q1ElaOf0HBxRnR<I+ab_bJ-~^`rFh64KH-Jz5mT({1>OgG?R7mLa8wUgNGXrn
z4)cDBy8z%$vVC|K_2lq5m^0H$n(fOLGBO>T3WC6GSOX{m(d!ljat;EEjOA7eGUx8n
zT@SsB(BCrm>*xfm0(xcMRZ?-(urWhm)UdM%V4aMz#t~4qJsC|+7cvIgiMAO5=;*N;
zn4ZQrkVJsk2XHq@9a1W3X=;66c2BEBP8pge>uJ-9@<s?(<5#E&2N&pJ1oFXw1_g81
zZU7rVMhu&0fiwYm_3CE)&1!tI9G|Sj-!37t-+6W<y29TMZbgSz_)YQX)|vPU|41C9
zfKd>GZo`PvsQ(Zc$oj@yk<2wR+*O7M*XLoj5!2mStVJ->h-lLcfPIP>evm|Yo71(d
z(GR>6fMY0SXjo`|L}(D~E~o}FhL^_9LCjKLQ&9Gq?*&t449E@gcPV(6uZCjfP^==2
zZUs8;<Zk7jbBw?5S)j8T7%T?{p9`#isK)VL9}SExIWV1tS`RtxF*K`SWcQRw+!_tn
zUmy_8;j&OlTao$tApP$Exu9KU_qE0@K@gX@ra7|TWzqOLHxIXq$zCNtVP?oOZ(%uh
zJY-#+aq`|PU{fgab9gi@%|aN`w!hD=6}N|EgKKBM<5!s_u&=OkBTBcw$&)6JIM)Vv
z1n>rr_TAeY*3g#bCjGMK|L(%$e#Pw>a{C-liaZo7cJgz?cGPQgnRM283HV)fQn1>B
zk<89$wkMg-!;Mc%x6S2qd8iLGrH5dR9jYVNoOO#q2TBaBVD8ojkAr5LaV|*{ZxzUX
zY!3E=ZULzqS?X!ReajrCk68i&ciZ8<Cjfh?BE5Le`t*Zeez0+%dg5vsen+lub8N2<
zs>6<lyck)PD!s=`qZiA)7fa%yC&A9Ur>k8j%Uvfc!BeI9#KYi3Nt`GJCu$xtFu3A*
z($QTC4?gY~T6tqj>b&#Tt+zfISvydTj+LWhm7YtR()gAXs!9V7rGd4MvNZfy8mI}R
zGrHp=o#9e==y69BR)!B(!)MFkv(@m0a`-|e{OZcYuC;@eo|BKHQ@CunCX!J1ir+~}
zfyQc27Gmk4S!e*$oP}^fG>Vp+O-=>?o^Vx5o5R4jv?B9$S;dgWdKnXJU)oG(O)HsI
zH0Lt!2UErf68iLE9ax+Jfr)Ophs$F@TM9OvC<@}JHVg!gF?i_Sz_0r@gQF#Jv=kiO
z5~Zp*SQZDX;z(H>Su6bR{q^@BiLW{L|4CT0=O%3wsqezfp75~a<PN8>Gmwh!!Iiem
z6}kPY{Lk6jAs%#=8)-QOBZf+TT;D$H+=O(a^(zhWZ=g2@-7>~|7tyqu<I7Dp@%b#9
z@P7WUYThyrwTYMmKyDB~Z7A~DwMu0CvuhidS6}!|->>@qbgdj2uLLib#LNGB7#TP5
zgCBPFi_xHQ09XSrOQRb}4-%|q#vl-z$BWoNb^4w&P9t{?38Kot_knQ%$zde)PQltx
zf4B9a5D9+7%mRUTTa6WjbE~In1iFn&UtssofFSs4fli@&ZG7X<`gdvs*a!TBcgq*w
z*+#xL#0sz9dwCn4a<A7!PPoEs_4coRzuX(EaddS4jR!B6&rdp|XWs5F1r$4{jt)cv
z#zE-pppw&dO|jCstT~dLR_HeD!}w|*SvWDGK)grb>8vD`SxqijY2Boo-__WCSHp4$
zO;WLF6zm??Mw3SU<!vC$ocHj4TF(2)bWlQ{y6EvbalG$Dx5ZbTNA_#R7z{DO<|!aG
xj$xQ>4`BjNN&i2{iKpbuU&$*^Nqom6Fh}pcyF;Mc2@Nw>n7iRG2=>(Ie*i&k4jKRe

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/backends/cpu.py b/v1/kv_offload/backends/cpu.py
new file mode 100644
index 0000000..736cf37
--- /dev/null
+++ b/v1/kv_offload/backends/cpu.py
@@ -0,0 +1,62 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ctypes
+from collections.abc import Iterable
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.kv_offload.abstract import LoadStoreSpec
+from vllm.v1.kv_offload.backend import Backend, BlockStatus
+from vllm.v1.kv_offload.mediums import CPULoadStoreSpec
+
+
+class CPUBlockStatus(BlockStatus):
+    _fields_ = BlockStatus._fields_ + [("block_id", ctypes.c_int64)]  # type: ignore
+
+    def __init__(self, block_id: int):
+        super().__init__()
+        self.block_id = block_id
+
+
+class CPUBackend(Backend):
+    def __init__(self, block_size: int, num_blocks: int):
+        super().__init__(block_size=block_size, medium=CPULoadStoreSpec.medium())
+
+        self.num_blocks: int = num_blocks
+        self.num_allocated_blocks: int = 0
+        self.allocated_blocks_free_list: list[int] = []
+
+    def get_num_free_blocks(self):
+        return (
+            len(self.allocated_blocks_free_list)
+            + self.num_blocks
+            - self.num_allocated_blocks
+        )
+
+    def allocate_blocks(self, block_hashes: list[BlockHash]) -> list[BlockStatus]:
+        num_fresh_blocks = min(
+            len(block_hashes), self.num_blocks - self.num_allocated_blocks
+        )
+        num_reused_blocks = len(block_hashes) - num_fresh_blocks
+        assert len(self.allocated_blocks_free_list) >= num_reused_blocks
+
+        # allocate fresh blocks
+        blocks: list[BlockStatus] = []
+        for _ in range(num_fresh_blocks):
+            blocks.append(CPUBlockStatus(self.num_allocated_blocks))
+            self.num_allocated_blocks += 1
+
+        # allocate reused blocks
+        for _ in range(num_reused_blocks):
+            block_id = self.allocated_blocks_free_list.pop()
+            blocks.append(CPUBlockStatus(block_id))
+
+        return blocks
+
+    def free(self, block: BlockStatus):
+        assert isinstance(block, CPUBlockStatus)
+        self.allocated_blocks_free_list.append(block.block_id)
+
+    def get_load_store_spec(
+        self, block_hashes: Iterable[BlockHash], blocks: Iterable[BlockStatus]
+    ) -> LoadStoreSpec:
+        return CPULoadStoreSpec([block.block_id for block in blocks])
diff --git a/v1/kv_offload/cpu.py b/v1/kv_offload/cpu.py
new file mode 100644
index 0000000..4b1bbe6
--- /dev/null
+++ b/v1/kv_offload/cpu.py
@@ -0,0 +1,93 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterator
+
+import torch
+
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.platforms import current_platform
+from vllm.v1.kv_offload.abstract import LoadStoreSpec, OffloadingManager
+from vllm.v1.kv_offload.arc_manager import ARCOffloadingManager
+from vllm.v1.kv_offload.backends.cpu import CPUBackend
+from vllm.v1.kv_offload.lru_manager import LRUOffloadingManager
+from vllm.v1.kv_offload.mediums import CPULoadStoreSpec, GPULoadStoreSpec
+from vllm.v1.kv_offload.spec import OffloadingSpec
+from vllm.v1.kv_offload.worker.cpu_gpu import CpuGpuOffloadingHandler
+from vllm.v1.kv_offload.worker.worker import OffloadingHandler
+
+
+class CPUOffloadingSpec(OffloadingSpec):
+    def __init__(self, vllm_config: VllmConfig):
+        super().__init__(vllm_config)
+
+        num_cpu_blocks = self.extra_config.get("num_cpu_blocks")
+        if not num_cpu_blocks:
+            raise Exception(
+                "num_cpu_blocks must be specified in kv_connector_extra_config"
+            )
+        self.num_cpu_blocks: int = num_cpu_blocks
+
+        # scheduler-side
+        self._manager: OffloadingManager | None = None
+
+        # worker-side
+        self._handler: OffloadingHandler | None = None
+
+        self.eviction_policy: str = self.extra_config.get("eviction_policy", "lru")
+
+    def get_manager(self) -> OffloadingManager:
+        if not self._manager:
+            kv_events_config = self.vllm_config.kv_events_config
+            enable_events = (
+                kv_events_config is not None and kv_events_config.enable_kv_cache_events
+            )
+
+            backend = CPUBackend(
+                block_size=self.offloaded_block_size, num_blocks=self.num_cpu_blocks
+            )
+
+            if self.eviction_policy == "lru":
+                self._manager = LRUOffloadingManager(
+                    backend=backend, enable_events=enable_events
+                )
+            elif self.eviction_policy == "arc":
+                self._manager = ARCOffloadingManager(
+                    backend=backend, enable_events=enable_events
+                )
+            else:
+                raise ValueError(
+                    f"Unknown eviction policy: {self.eviction_policy}. "
+                    f"Supported policies: lru, arc"
+                )
+        return self._manager
+
+    def get_handlers(
+        self, kv_caches: dict[str, torch.Tensor]
+    ) -> Iterator[tuple[type[LoadStoreSpec], type[LoadStoreSpec], OffloadingHandler]]:
+        if not self._handler:
+            if not current_platform.is_cuda_alike():
+                raise Exception(
+                    "CPU Offloading is currently only supported on CUDA-alike GPUs"
+                )
+
+            layer_names = list(kv_caches.keys())
+            layers = get_layers_from_vllm_config(
+                self.vllm_config, AttentionLayerBase, layer_names
+            )
+            attn_backends = {
+                layer_name: layers[layer_name].get_attn_backend()
+                for layer_name in layer_names
+            }
+
+            self._handler = CpuGpuOffloadingHandler(
+                attn_backends=attn_backends,
+                gpu_block_size=self.gpu_block_size,
+                cpu_block_size=self.offloaded_block_size,
+                num_cpu_blocks=self.num_cpu_blocks,
+                gpu_caches=kv_caches,
+            )
+
+        assert self._handler is not None
+        yield GPULoadStoreSpec, CPULoadStoreSpec, self._handler
+        yield CPULoadStoreSpec, GPULoadStoreSpec, self._handler
diff --git a/v1/kv_offload/factory.py b/v1/kv_offload/factory.py
new file mode 100644
index 0000000..b4d40cb
--- /dev/null
+++ b/v1/kv_offload/factory.py
@@ -0,0 +1,56 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import importlib
+from collections.abc import Callable
+from typing import TYPE_CHECKING
+
+from vllm.logger import init_logger
+from vllm.v1.kv_offload.spec import OffloadingSpec
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+logger = init_logger(__name__)
+
+
+class OffloadingSpecFactory:
+    _registry: dict[str, Callable[[], type[OffloadingSpec]]] = {}
+
+    @classmethod
+    def register_spec(cls, name: str, module_path: str, class_name: str) -> None:
+        """Register a spec with a lazy-loading module and class name."""
+        if name in cls._registry:
+            raise ValueError(f"Connector '{name}' is already registered.")
+
+        def loader() -> type[OffloadingSpec]:
+            module = importlib.import_module(module_path)
+            return getattr(module, class_name)
+
+        cls._registry[name] = loader
+
+    @classmethod
+    def create_spec(
+        cls,
+        config: "VllmConfig",
+    ) -> OffloadingSpec:
+        kv_transfer_config = config.kv_transfer_config
+        assert kv_transfer_config is not None
+        extra_config = kv_transfer_config.kv_connector_extra_config
+        spec_name = extra_config.get("spec_name", "CPUOffloadingSpec")
+        if spec_name in cls._registry:
+            spec_cls = cls._registry[spec_name]()
+        else:
+            spec_module_path = extra_config.get("spec_module_path")
+            if spec_module_path is None:
+                raise ValueError(f"Unsupported spec type: {spec_name}")
+            spec_module = importlib.import_module(spec_module_path)
+            spec_cls = getattr(spec_module, spec_name)
+        assert issubclass(spec_cls, OffloadingSpec)
+        logger.info("Creating offloading spec with name: %s", spec_name)
+        return spec_cls(config)
+
+
+# Register various specs here.
+OffloadingSpecFactory.register_spec(
+    "CPUOffloadingSpec", "vllm.v1.kv_offload.cpu", "CPUOffloadingSpec"
+)
diff --git a/v1/kv_offload/lru_manager.py b/v1/kv_offload/lru_manager.py
new file mode 100644
index 0000000..0a0111f
--- /dev/null
+++ b/v1/kv_offload/lru_manager.py
@@ -0,0 +1,139 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import OrderedDict
+from collections.abc import Iterable
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.kv_offload.abstract import (
+    LoadStoreSpec,
+    OffloadingEvent,
+    OffloadingManager,
+    PrepareStoreOutput,
+)
+from vllm.v1.kv_offload.backend import Backend, BlockStatus
+
+
+class LRUOffloadingManager(OffloadingManager):
+    """
+    An OffloadingManager with a pluggable backend, which evicts blocks by LRU.
+    """
+
+    def __init__(self, backend: Backend, enable_events: bool = False):
+        self.backend: Backend = backend
+        # block_hash -> BlockStatus
+        self.blocks: OrderedDict[BlockHash, BlockStatus] = OrderedDict()
+        self.events: list[OffloadingEvent] | None = [] if enable_events else None
+
+    def lookup(self, block_hashes: Iterable[BlockHash]) -> int:
+        hit_count = 0
+        for block_hash in block_hashes:
+            block = self.blocks.get(block_hash)
+            if block is None or not block.is_ready:
+                break
+            hit_count += 1
+        return hit_count
+
+    def prepare_load(self, block_hashes: Iterable[BlockHash]) -> LoadStoreSpec:
+        blocks = []
+        for block_hash in block_hashes:
+            block = self.blocks[block_hash]
+            assert block.is_ready
+            block.ref_cnt += 1
+            blocks.append(block)
+
+        return self.backend.get_load_store_spec(block_hashes, blocks)
+
+    def touch(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in reversed(list(block_hashes)):
+            if self.blocks.get(block_hash):
+                self.blocks.move_to_end(block_hash)
+
+    def complete_load(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in block_hashes:
+            block = self.blocks[block_hash]
+            assert block.ref_cnt > 0
+            block.ref_cnt -= 1
+
+    def prepare_store(
+        self, block_hashes: Iterable[BlockHash]
+    ) -> PrepareStoreOutput | None:
+        # filter out blocks that are already stored
+        block_hashes_to_store = [
+            block_hash for block_hash in block_hashes if block_hash not in self.blocks
+        ]
+
+        num_blocks_to_evict = (
+            len(block_hashes_to_store) - self.backend.get_num_free_blocks()
+        )
+
+        # build list of blocks to evict
+        to_evict = []
+        if num_blocks_to_evict > 0:
+            for block_hash, block in self.blocks.items():
+                if block.ref_cnt == 0:
+                    to_evict.append(block_hash)
+                    num_blocks_to_evict -= 1
+                    if num_blocks_to_evict == 0:
+                        break
+            else:
+                # we could not evict enough blocks
+                return None
+
+        # evict blocks
+        for block_hash in to_evict:
+            self.backend.free(self.blocks.pop(block_hash))
+
+        if to_evict and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=to_evict,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=True,
+                )
+            )
+
+        blocks = self.backend.allocate_blocks(block_hashes_to_store)
+        assert len(blocks) == len(block_hashes_to_store)
+
+        for block_hash, block in zip(block_hashes_to_store, blocks):
+            self.blocks[block_hash] = block
+
+        # build store specs for allocated blocks
+        store_spec = self.backend.get_load_store_spec(block_hashes_to_store, blocks)
+
+        return PrepareStoreOutput(
+            block_hashes_to_store=block_hashes_to_store,
+            store_spec=store_spec,
+            block_hashes_evicted=to_evict,
+        )
+
+    def complete_store(self, block_hashes: Iterable[BlockHash], success: bool = True):
+        stored_block_hashes: list[BlockHash] = []
+        if success:
+            for block_hash in block_hashes:
+                block = self.blocks[block_hash]
+                if not block.is_ready:
+                    block.ref_cnt = 0
+                    stored_block_hashes.append(block_hash)
+        else:
+            for block_hash in block_hashes:
+                block = self.blocks[block_hash]
+                if not block.is_ready:
+                    self.backend.free(block)
+                    del self.blocks[block_hash]
+
+        if stored_block_hashes and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=stored_block_hashes,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=False,
+                )
+            )
+
+    def take_events(self) -> Iterable[OffloadingEvent]:
+        if self.events is not None:
+            yield from self.events
+            self.events.clear()
diff --git a/v1/kv_offload/mediums.py b/v1/kv_offload/mediums.py
new file mode 100644
index 0000000..8962819
--- /dev/null
+++ b/v1/kv_offload/mediums.py
@@ -0,0 +1,39 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC
+
+import numpy as np
+
+from vllm.v1.kv_offload.abstract import LoadStoreSpec
+
+
+class BlockIDsLoadStoreSpec(LoadStoreSpec, ABC):
+    """
+    Spec for loading/storing KV blocks from given block numbers.
+    """
+
+    def __init__(self, block_ids: list[int]):
+        self.block_ids = np.array(block_ids, dtype=np.int64)
+
+    def __repr__(self) -> str:
+        return repr(self.block_ids)
+
+
+class GPULoadStoreSpec(BlockIDsLoadStoreSpec):
+    """
+    Spec for loading/storing a KV block to GPU memory.
+    """
+
+    @staticmethod
+    def medium() -> str:
+        return "GPU"
+
+
+class CPULoadStoreSpec(BlockIDsLoadStoreSpec):
+    """
+    Spec for loading/storing a KV block to CPU memory.
+    """
+
+    @staticmethod
+    def medium() -> str:
+        return "CPU"
diff --git a/v1/kv_offload/spec.py b/v1/kv_offload/spec.py
new file mode 100644
index 0000000..a3c539a
--- /dev/null
+++ b/v1/kv_offload/spec.py
@@ -0,0 +1,62 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Iterator
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.v1.kv_offload.abstract import LoadStoreSpec, OffloadingManager
+from vllm.v1.kv_offload.worker.worker import OffloadingHandler
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+logger = init_logger(__name__)
+
+
+class OffloadingSpec(ABC):
+    """Spec for an offloading connector"""
+
+    def __init__(self, vllm_config: "VllmConfig"):
+        logger.warning(
+            "Initializing OffloadingSpec. This API is experimental and "
+            "subject to change in the future as we iterate the design."
+        )
+        self.vllm_config = vllm_config
+
+        kv_transfer_config = vllm_config.kv_transfer_config
+        assert kv_transfer_config is not None
+        self.extra_config = kv_transfer_config.kv_connector_extra_config
+
+        self.gpu_block_size = vllm_config.cache_config.block_size
+        self.offloaded_block_size = int(
+            self.extra_config.get("block_size", self.gpu_block_size)
+        )
+
+        assert self.offloaded_block_size % self.gpu_block_size == 0
+
+    @abstractmethod
+    def get_manager(self) -> OffloadingManager:
+        """
+        Get an OffloadingManager that will be used
+        by the scheduler-side offloading connector to track
+        offloaded blocks and manage evictions.
+        """
+        pass
+
+    @abstractmethod
+    def get_handlers(
+        self, kv_caches: dict[str, torch.Tensor]
+    ) -> Iterator[tuple[type[LoadStoreSpec], type[LoadStoreSpec], OffloadingHandler]]:
+        """
+        Get offloading handlers along with their respective src and dst types.
+
+        Args:
+            kv_caches: A dictionary of layer_name -> gpu_kv_cache tensor.
+
+        Yields:
+            Tuples of (src_type, dst_type, offloading_handler).
+        """
+        pass
diff --git a/v1/kv_offload/worker/__init__.py b/v1/kv_offload/worker/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/kv_offload/worker/__pycache__/__init__.cpython-312.pyc b/v1/kv_offload/worker/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..36c5ac0bdeaffbec6680801e28eafac07309966e
GIT binary patch
literal 170
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVdFq$s7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>Sve5=clFR<R_-+m**E{rxxkQ
r$7kkcmc+;F6;$5hu*uC&Da}c>D`Ewj%m~EAAjU^#Mn=XWW*`dyy{RfZ

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/worker/__pycache__/cpu_gpu.cpython-312.pyc b/v1/kv_offload/worker/__pycache__/cpu_gpu.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..64d3f8b98a20c96a93d20d4527a13afcb5c72bfe
GIT binary patch
literal 7817
zcmbtZU2GfKb-u%Y4*y0nB}%d+4=q_1Wtp=4FR#5>|F0F>a$;w@t7JQ%I3tTR|2#94
zE$uKd5*MIQ2bTIGE&8z9BtTVoA6&E#E>NIpQDB4ig=5PhF?CP@bszjD*G?8#pg_-=
z;gGb<?IP%fbnm(6o_p@OKXcA^FaOQwqY0#x?avcyU4;B6R?OtC60aTuu}pZvQz<e@
z>7`}T0;MHoP1`2z6t-DYj<j>qsnfQUEA5_i>$E*Zr#+J%opz+WY2TzT?Vt4Pb!RG&
zW+s_*%VbNsb+VNr79zNXZ4W48<jJ6$@B!W>P{|?FsCvn}g?66)hBlATKJDVYckPoQ
z3pr1C-(AA{1?GXZs<~s1iZCy*ayde29xk4j<ZPPD<|L>xCuLd4$cb#`R4jf&$nYqV
z$RuPgmA!sl5TP1MNL((F;nG4nE6#DT*;pbKn@R~0i^iP3@`H=n7=KmHio(^L5Z9RV
zTR0J`)-o|YodT&u=KA}w44)E2&3{ddWu$3A{JtRNQ?lkY>$(#6R4N<4!6kS}YcWVE
zF)wh_u{eyQIkI^<mzOnKx{=6n@oYXL$8GhsB6gs0?yoi=TPBKCp>9|Rku2lnr<7b>
zZ$gs5+nP}JL6u*y{ok@Y)gWu<se(hsk@chyb6?MpkM|JrBhXoJ7F>!;q2@uV;8vVG
zbz_ha(W2NglwvQ?ibHnR`qO6rd0-Vhid&(PQY?x?@oXoGr{K7^*GA?n5o_#!U`jL#
z>2x+TD~K{1V^ax9X0y|*zIg0~GZHIj8`$ZX9G`*RsJ6p859<nIl9W#)Ux>wL%tncg
zXVbZ?B=D#awjdu%8Ess{t{5CCs_U81H%K4U*ee#!n3NTb)@w5YJDm{0!ukeQyR)|v
zDNruxEjfWVI$X}m0xQqN-sq5qQ;d=+L4tv1VwtyXiqg6@=dvOz+>WJlDPfpRR2Kyg
z7kh&J;l5#ZbeKKxF$)LtZ4Ds79yHcQo)I!^LT2X@LJGQ8JMM?R!yv*Q8fFg<vqwN1
zuttG53e3?%AL|xKiA-Ez_p#|%PG6LU&W6Bfy{WFtXhORV)SH{B7xBbij@UFyCZ{=K
z@MT>WG`En+rv))43z{`0WFlVC3sRyFGe2el$TW|>5uDM5p3bLICT(mSEYod`N@y<g
zi`0BmF-hQRRc9i@C*p#n`Kukkg<vNMN5eyDrmx>0k<+=6Tq3tuj)~U=dGGD~k+GvU
zjtC>E#MDS`PM*nTMrKo~^vLY!$c<SpYdDROTUqgjAdbXydG2~HAI;5ajBq;#%ThB!
z5_@5=Hu#qoAiG002Z*=5)Dd~?iIi-Sk|*-KHMksEimZ&62FISX9=r41XD!>7JC{0F
zMoYaTPg?ff8Q*AWy)*tS#IAP!HneBKQ>2PVD;;d9@1WXou;{CVcdo{M(Y~~2ZL;XB
zboTu!zP9_9DYbKd(O(%JdvsnMK3#Ma=U1X7SESO`w?M!2kdEP3U<`?4W+q&HOs^Ek
zmWiN;7zi(vVC60FZ-sxGU=!?uBZ-@|B~4p8fy3K%376o;n!%f<dB<JbB+WZPgG=y0
z!0=8xcp7*<p#4I?kmWtVVdlIMpB6fu%b(BXoA_o}=IYww2d?>X>FaJ-^TWa7YCK7!
zQ9ceH15SZ2Cd(Oa$_OP=+|e)r46(Xf{srXVmM!24q1|wUhI7_=aF`Xs)jG;mcMJ}@
z(aBfalQoxF>p&h<NzhX3@&D3NbL$DTtTw0XSgVaMx0n`~<3m7bHF-%qom&!bkwYd+
zu|22;CNum{MAwg>k)HILd47zx+6hr?$sML#y)^AOLl&uzVf<PUBFT=rlu0GSCRHyL
zmuVG66jyR*y~U&;kl7U{o~`6AlUFZ!IL*ABcYNV|P~8a#b2Lxsr`W28zg`HO9)%>k
z>%B~>nMHhqMVWVMy4<L%dWLA8uIsPz+|@A~<aqjz8rM@_33<0^q2e~V1usAck~A9{
zN(}dkSMeMNUc-5aG>BA5-m7@)yARp`q;5^k)<njyN>9z8BaH1z4x1A7lJ_Z&FZ|}d
znDe0EtlaAWU_l~*%X(ay?>?CVG!~N)7wqC$Kz!9`E=8l!#ADdl7YwL<;lhl-DTY8q
zql?g82Dpa?*WpDz`1Tng2H4Jxg$^Rly}+;h1%3k8=EDsG)<;9|A<e{c0=rAptl)kC
zSlW4cE+=RXUYLa#q|tSh8VTu<PO}4GjL&Gcc%F}Gj;pdL#L^ng@1NnMDm}9wOfcwx
zTm_|^FbkMi(mY1V<+9n7h~K^DFi^2(OJt_AVh~v#bbkiEfgb1=%}NK%luy7y2p}tP
z4Qpag$U<6zSe?s3ywvRa#I#n3inuzuFXarL4WS%NRG7+N*X;9xn3cr+Ff2H5n<S*B
zMf@nmKFs<t!>>>r!0aGo8l8&G2_lz?rD1vMhH7r4jS*;BkmM?@yLMyW^vLhV>F8n-
zx*ju@>!sL(1GqR&zb$a{?CIw5Bx*_=0eR_5*kcIL3}Jd#{c0fkF#I@hpyWDG3LL0}
zM;^YbhEEo4>#p9{4ziv7Z0OUWa@QWUYtNIey+zx-z_YF$Z}B!A<ivNdPxr=wLs)h^
zZySEn7A?}C!yUNqS@4vC`~U9rBl>SA)?H^RBcr-dtvq-b>$@rg`^p1{)q%t1fupK-
zXK{Rmu6UWUw_Ejgm%V+ew{LZP-8-_;v9sJUsCEn%FH|}QR_6f&lsnI=oo6fCcdVUy
z^u6EoZCXj!IqDU$boq<pU>wu65?&~*+8zh`H^Ms?{S_uyX7;Mg-ZFDgWez_4!BgfP
z5bM~v8eS@_QIA8B5)&zfB9%~B=hz;HhD*$FDKuOGc+#?@tloSa8Z0q`rO;qgh1b@Z
zW6wLfS3dg702n!V_))MtHlf1b;6(AlVn+4udhTt#e{tbrsq^@w#JczWE%SWFv@Ls<
zJe6QirK`W(HKcY8RkpL09g){=drRvdtWKZ*<tW)bCSuId9LekyoE12Yc>QyTf}9sK
z@tR8l5e$)7e{~dGAqIXu5Lp}VSBkYBpiLJjo~_@%6q{TPAcUChRo70EwSWv`R8zqY
z?h_r-mQ-*6Uw;L7v!UPwel672+X^lSPwvbI4VGBH$&v;c+uO6LSz8O*4Wpp7&8$Le
zo6Q35j&PT3Zn0ajCea^nNf3B#P5B;$PS#*bz0(`8%=4`hbP|2xmgFId8zCM9$ENLy
zOTP>I6rbX0)*pK7!E+wgrXJwyps5**QGC2*+9J1`rZfwpUs%mERPf8_#q^}ma69+I
z>kj!d3vV-EwfTlZkp?-ujhk|mA*Xo1u$!S2WNTn7$ySv&6pG&rwuJ!fVG~d#b~WcW
zgIFfW%k;>23DQ#%{r{GfYyvpUz6Iu6`tI4H462IVoW&uC`SM;<0^TR^TZ)?XdTFjD
zyogKz7zK||XeqQ7wkg}h(@G0(L(o<TDy>zjO&&G-CNbb`NlH*@Qv#+=fTt}6#4EIe
z1|47)Lf@jHT?sX6xOeee<Xe>1H{^L6QJCbRErvn0zBc;HADk%jyn&qztj^&keJBKo
zbB;bTN+jx*g(4rpx>Dp`=WXjp<Q5fiUKaO(gg63Ogwip9j?aL`oBXv%w?-%6p+S;k
z@Yo=t(-qNoh+~+22eWrE!#FM;#SHzOW`pZ{8k{#=^hCVDXm%l;ljk&hA|oF@s9&r_
zoT5fgi|}X&7$!F-zJm;FE}Ii^CYt>$!X?d7g;Cb|L{5B97lAiM%_H54<xDUL@gbfS
zdGQ!DM>@p!p%AZN_C1t$Nn)JS<A{q#Oac)_{1G;Iu)%~?9&9r!ZP-#rnC2T{8_K-R
zrfbrGOKT#M)~*kipQ@V4$ypBHrnGIkK_=gLYlL@4G$zYIAFZWMS51Ni)K|lh(x1JI
zp$v;PhXD#TANIT<%o%7;^PvUxY5-ejW2wAQZ4Y3314F_q+#7hTp<+NYe+|yYq`6Fd
ze&Cw`+M99`D3*Q(c>E5j^n_JcSJAaN_{`I`IJ3^~Tlb7U+t#x(vp#rqecM>cJ675@
zR%z>8=9akPxk^{B0T+tjZ6x~#%l*gH{$nL?xYEB%^@g8s)$qrw+@&k4E8b}9DYxxb
z+jbY}N&^|_y#JGhpR5AL>?^tYN`b!0TbzxZ!+$mM`A8`|S~_?^4PPj^dMmwypJhMI
zmiC=hd(W0!+X0>V*lN#G_^=u{Tmm!|nD}oi<-0;{TCHw+(}Lt{7isTU{&4BT(vJNP
zPnLQQ|HITj&iwt%dfWLT{mj*|(pB1Z?9uo?-~3JZ*Rp#2;=1b+a4X*S3apH`{V#5=
zgcoIio0ZVs-@EN@`n8wz>@0T=tKGwElTW&jmRy}1L(%fkvByKl7HwsQRT;L-^s7w&
zIy3Mu_AlvwqRa1HQQy1r<h}0~?azFz_a_%7%f4RK*Sj+N)Hm>K|Dg)AedUL1{pF$a
z>d^T=SS<(qDid9#SH{;IFC8S<Rq2ne-TeI0;-wn#EErmzSejV9^zcOK)YbLiH2}&F
zTRu-OPSglfWa1%LI`=0}gC9Px_8EUjmyTb08oaz2f{`{m2$%%8bESRV%YL<;_;+vi
zl0g9WWmmWA>R$Okb@d})4t})@+Dg8Guk~BUmqVxg<BauR8T)vrGmdveGXXj<kmc7v
zEW@KnfdcPpwl<W>Mm$>Oo6!&A(V6Pwh^1f!^n_ZsBvV$R?u8Vp*`t#Jk9gA-GbVzc
zZ;ITS_O#Y}-8%;{g#wEJk?APeQm{3jkzzSP?gdf$Dv4MwUyImvpDLaN%QgGWydchr
zr-0UdH8i59)tsXKYl~#K+%&Q%PQv->&ckpUUc7})!=+A|5%~H3Z*m%qQhx&)BpEVr
z8G}RcLfR89_l&ANqvf6>YR{41_KYoDDxO<BTL}d3f3on&&kGeMwCrE<uR7LjD?eUm
zqWYc4IL^COX7`%?DHGjvlHOylT%;?!Z~;1>)MfCnuYRC1!+6UIZv@(le*GG9Inshx
zQM~7JoJMn8I?Lx%NP9W%Cj4SiZLvaF(`@i!Eo)W?S4L=aTr=FX4PO&Pyl99Mn0X-6
zY*Tpo&tv^8W{A^8{4M6Mi9WKvXkr+-m|;MaehS%LvS~SH_iuD;-?T#s=eo0d(}|P|
zDK}CyY3p3swjz9%`ZQJQ98!aOHa*Dq61cvdUJaJuLK;3&>OP`|j=u6?%WdkoJ-B*x
zlR)v%s~5ixzQWq3Lb>dr6@K+ywRit(0<>Ws8U+{u{5gqqYIY-lW286cZo?OM5kC*{
zPa)I%SdYRhuJNOwz8acGXBtl*A|4m5Q|IL6L`sV0QZX4GIMSS6HQq_O^!C}&C`7yJ
zLw+<Z@QHj{szVcvZ6akn_eYIF#7ARe$#FBpPcTEEq&YKuOcY~t;*XJq(AU_5yGSAa
zu0Bs3Hx9zP;?IFc!M}7HvP~;RQE;}XZU0WZ|3&(KNA~;<^ArC;E_`LNQI?kkGcTdr
z7C(IA?!DvK^pjA>OLs5TUkS9_pI?~Yv;w^m>e{qJi4h`je|%wl(}^_~X$ihU+1ID2
Q(-tZOKQjEDAfa3Kzo&IE(*OVf

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/worker/__pycache__/worker.cpython-312.pyc b/v1/kv_offload/worker/__pycache__/worker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..839a3de63bc896155326d318ab18696ad321cb80
GIT binary patch
literal 5297
zcmcH-OKcm*b(UN%mlP>dicE{PY_C5`OvIM#IH?=ga3R-?;(X-PQu7fSu&dpnwDOXx
z%q}HUpjx*O3K|Vy9SYb%4{^~$6SzPP^x|WhQ-EBgI)R8q3OFcw=#8-iq)0D)Z}vk<
zGEyW(2jc8}-@N}vAE(nv0?ibEZG5MfkiX+3Xfc1Vu>ymeL?^mnlCm%<lp~W70p}4j
zS{5foK8~8PvNS0PgvO~vrBWmhw<cwnC1}E*C1KV@Q~oR+AylN@cLeX9$xMWd5?x#-
zdW;HpqW)@@uS&2QzZ3D-dTMeZ@lTu-B5ri#{14o2b;@>_sySuq%vgFsaJ!6(;S^14
zdYUqrreCsDecZ7a9iO9`<^l5hxIfu=0R}e-C6j_qCL_8q8Kt5gp)oy5C0(TPlBCC$
z#XJ6SpiP9;1Wh8PrHC$d>~+=R1=;PnR4SS9u2GqOUajaRW$H3en^d6f*itl8wQZ$j
zF{P|l)M>b+sCKQQ%`mHCRc+<PR~21#R0Zg)*d@yBBnLDxW7z&(R;}2IQBj;3sw`OS
z3S~q5$VErFVrW-v#VVCNm^*+ejJ{Q+wqqYt08>RZO>4pCmo>{YspcR$Q>u1F(X8^E
zNgczgD7K?IRh!yF0VdQ(WR6+$hE8pcNeKX03wVEy8D+yU=Ba&#gGN3C)D$_bM+?gF
zPF$4=T?mgTv({92Z<;#A63Ez|p*p|Cs8eM?zp9vq?EtBG*Q_bQA-t_zya34Jv#tcw
zqM^H@4f^0p-fhj-I$y+u;Cw@b?k1@Tg~;clf%p){MbI!qb%0E@vQ<<8QHX^vHlIg$
zZ-h;EFaTFPT+RUQ)rtXf06c+ps-r9zrm0L(1-Ps$3p2E$R4m6R)k0}lm5?I{2wV7g
zTT&j)-nOD3#b>x^j@nE+rs%d);ERYZ>dtme>%jf8$K|&C5a<L0lnuD+Yo@ZG+KOGB
z0%1FVw_VjVYTKo%Y1Z19jJ;0^QD8qcODq8#X6T7*WH><lYIN8s&kfHRbH^Q(fvk^T
zt)71NyH`%rVbhozo~wbCSBB?JvphV1a`?)85i}buZP-(L|1&gKbGrkiJOx|aX?R0h
zPaHrr&?j6Ytvw`>-hd&|d?$rt-nJ>mSHB3wFiM?}5n#@~iYm5I(Wn9@?kE~q*MDQ_
zNT|g}J>@tSu(80U6!?G+ezI=B?0tb{;A11c3d=(8raDb!asLj-Gt{|1gqMBlvp_wA
zs6fUFDOWBQD{7e*i*B-5EL(cj#Br)ve5<OO{!YAD)Ge)8WN0yN)TlUaYQo19-L5N6
zS(eFqa92btb-RP@%hax#4$Hw7r-Q%C@n<rwVTY*LuRym<zKA4aa;u+6eXU3;mcBjS
zBJjDJ;-3%t9^z~x8f>=)_$VGr-_mcNTigHCLjq&I|3w5w-edTL2EVZ30=A8xLbo+A
z=#gbIDMDa~Q3>5Y1cG1`qj6o*<0V;_m&Hk0hw!H-X;PPH7X*+lSWCe;O}qWDk%E;B
zgp0JBZHwkL?!DDzh<IGFw(oq4V1b5O1udLb%D`y@eE3dN_<x0zshXlwlTND`MmRx^
zrC1e;s%$tm1fOZp2Fk!$v?=vNCPbtu72O{M9CS{BwJJ_+j{Yx^CwR0t<Hcq_ig=h{
z9KqP*?<s(<Hw^6@`KfZZX_O3YD_Y^90NHOE-P*$PxrCGl2m>#CwESR(r#p@K8^yyA
zSA<exRvCl;wg<MjKg`0o`#ZtS!U<htkQvoUF<dhU%>2BKkQylnW8n3pHg#M%Aj0hr
z*@QAJI#wVOwhNx<^kv|McwSdr%(oTAGnS!X>qWft7<AXjXD3emIo1&0PB$<8s3CqT
z4{}R);}G_WnrXXn2z}nb$Axvly)g~_SJ04DPVPMz+$42jHY6@MLP$t@<m+}zktMM%
z*2!$hkT!&Q!H&E@eks6i=j;A~*&s=6Um*499Ul_`#*c<t7tg{COkLC-I2_9QvTtzP
z)Vw1q?Mza9rg@ozZB-e>GnChsc;qXNu7Jrqn3?*FZO188GoS4qD997REr4r41OImL
z{6{=^{sf*65-4vaG|>*L87qjcRHnL7Ewe%36gvW)8&!3^5aWTAJ%Ou7u`A$KdW)*s
zSR)}peyGg`CK@R4;=vtiy8Xx{0AXK-4)TowvghEt``_7rKVNw7^q<bXfA0R1-&^fJ
z+ekMv1Gg`%9~oJLzs$(0JhGY@Y09Y^>FeorIlm_7Z$0see5iT)Tti%!2iN4m+vUH?
zPkV7KOs=+Mw;0^GS}%fLfLcd>0!q0Q1qF?MoeI~*uiFI$k3CuuXM<`Io()<(7AWwN
zRF|%C^-qwx^hjkF>XD%STZ-4?cHZHYE5e#h2N2s|U8=|GVHF7m5+5fWH!w%q*7P{u
zfLDC;^X?obPLKwWBcL8jatD-0y&K_BWIg&v@s3ZkK;D4bc}f16T#I?%1z~|)jlMw^
zgo4Zv%Glz8A70hy95(`};09T!t;(Q&2Idn`#LD!l2L7*PJ-2w^In^*B5I|h=676kQ
z76-<|{Cg)bc=btmm8-lPh0x*UWQh<5SMn-nH@={<3IuI8rqikFbRpqcMW|EY%9-Xy
z!Jyf3gvgB~?q~e2Ky5t9EhMxO{?_7w9flEF7Ow=S;GX?4bYK?!q_6+F+=w>DoB4rv
z_q?;`w*$BBKP>)k@%Q!B{-?n@dUNZ&!)v|6>%FJedQaVb`F`*DM!cEHt!56b%7>tD
ziOEF1ncKIXJGPcP_TH;^C+_FYG)BM3k?iizQoT3Eu8*zmJ$tYG(W{@NCR#GAHo7-s
zB>mWpm#)9Gnm>JS-$&BwD-)lje*7SlYjpo>^8m@_9}+o{_is0|C!5)Q&1|lj?P=!s
zwYo@p?<SGb-J9K{FaPgW4;=l<?gx7QBK4k6lMmC0^Jk(T=JuR_Ci>wsF&J-&v8XxR
zI%i>UlT4E(3=A;d-Y$?g4}#rBAS~heZLJ=8l-&ivDzH9*ynR@Nz%~xine_pPLe%qv
z620osiq5lgSVN<6<)EVBq7LdcFH^_teR1Co!FHx5zk(z7N$5bVz?ob_ZtmWDbLlrr
zjnQVR@5ZI;mu`)&51d#VIB|dAsZUd<T2azJ_#m^pk>Sp)kY&5!GDAi(OrY5w>>h{C
z6)|`)3Fm0C3`-fd7rO!M_F;#m2iuPwmU)jXH-MdlVfQTj><V;PZe(Ke!$XnSWuYba
z#J>NaXV*%3t>;K929uUVdUM`1j#HWR9&ROYlqAXSjV>HLekisZixl`^kpiC&`Zn;>
zdR|Dz`u(zGlfc+>+K9kdp%+5Yl*Ul9UQN}7CGU`Dn+%o2-OE?zPY$(<;Gy83VVoIm
z%&9`M&zS($>accAHh~P|9OBI3EaB`ug%5Hja&BN@>7m67O8Kl;|D9tOU_*ePU4*U`
z6$If+i3msjK@R_oJOg~m?pk^C_RFigPOfF1x|Vv7>024Ub$I3V>pzD{Pj1D&bz!Bp
p)^qS$_veYemDlel_Ft1Wr6WT6R&<lV=gTqSH9_cqNU-M!{0FA<Ks*2d

literal 0
HcmV?d00001

diff --git a/v1/kv_offload/worker/cpu_gpu.py b/v1/kv_offload/worker/cpu_gpu.py
new file mode 100644
index 0000000..646f9d0
--- /dev/null
+++ b/v1/kv_offload/worker/cpu_gpu.py
@@ -0,0 +1,185 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import numpy as np
+import torch
+
+from vllm import _custom_ops as ops
+from vllm.attention import AttentionBackend
+from vllm.logger import init_logger
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.kv_offload.mediums import CPULoadStoreSpec, GPULoadStoreSpec
+from vllm.v1.kv_offload.worker.worker import (
+    OffloadingHandler,
+    TransferResult,
+    TransferSpec,
+)
+
+logger = init_logger(__name__)
+
+
+def expand_block_ids(
+    block_ids: np.ndarray,
+    block_size_factor: int,
+    output: np.ndarray,
+    skip_count: int = 0,
+):
+    """
+    Convert a list of block IDs to a list of matching block ids,
+    assuming each block is composed of actual block_size_factor blocks.
+    Outputs to output tensor.
+    The first skip_count blocks will be skipped.
+    Note that skip_count must be less than block_size_factor.
+
+    For example, if block_ids = [0, 1, 3] and block_size_factor =  4,
+    then it yields [0, 1, 2, 3, 4, 5, 6, 7, 12, 13, 14, 15]
+    since 0 maps to [0, 1, 2, 3]
+    1 maps to [4, 5, 6, 7]
+    and 3 maps to [12, 13, 14, 15]
+    """
+    assert skip_count < block_size_factor
+
+    first_range = np.arange(skip_count, block_size_factor)
+    full_range = np.arange(0, block_size_factor)
+
+    output_idx = 0
+    for i, block_id in enumerate(block_ids):
+        base_block_id = block_id * block_size_factor
+        indices = first_range if i == 0 else full_range
+        output_end_idx = output_idx + len(indices)
+        output[output_idx:output_end_idx] = base_block_id + indices
+        output_idx = output_end_idx
+
+
+class CpuGpuOffloadingHandler(OffloadingHandler):
+    def __init__(
+        self,
+        gpu_block_size: int,
+        cpu_block_size: int,
+        num_cpu_blocks: int,
+        gpu_caches: dict[str, torch.Tensor],
+        attn_backends: dict[str, type[AttentionBackend]],
+    ):
+        assert cpu_block_size % gpu_block_size == 0
+        self.block_size_factor = cpu_block_size // gpu_block_size
+
+        # cuda streams for gpu->cpu and cpu->gpu
+        self.d2h_stream = torch.cuda.Stream()
+        self.h2d_stream = torch.cuda.Stream()
+
+        # job_id -> transfer cuda event
+        self.transfer_events: dict[int, torch.cuda.Event] = {}
+        # list of cuda events available for re-use
+        self.events_pool: list[torch.cuda.Event] = []
+
+        pin_memory = is_pin_memory_available()
+
+        # allocate cpu tensors
+        logger.info("Allocating %d CPU tensors...", len(gpu_caches))
+        self.gpu_tensors: list[torch.Tensor] = []
+        self.cpu_tensors: list[torch.Tensor] = []
+        self.kv_dim_before_num_blocks: list[bool] = []
+        for layer_name, gpu_tensor in gpu_caches.items():
+            self.gpu_tensors.append(gpu_tensor)
+
+            gpu_shape = gpu_tensor.shape
+            test_shape = attn_backends[layer_name].get_kv_cache_shape(
+                num_blocks=1234, block_size=16, num_kv_heads=8, head_size=256
+            )
+            if test_shape[0] == 1234:
+                # shape is (num_blocks, ...)
+                num_blocks_idx = 0
+                self.kv_dim_before_num_blocks.append(False)
+            else:
+                # shape should be (2, num_blocks, ...)
+                assert test_shape[0] == 2
+                assert test_shape[1] == 1234
+                assert gpu_shape[0] == 2
+
+                num_blocks_idx = 1
+                self.kv_dim_before_num_blocks.append(True)
+
+            cpu_shape = list(gpu_shape)
+            cpu_shape[num_blocks_idx] = num_cpu_blocks * self.block_size_factor
+
+            logger.debug("Allocating CPU tensor of shape %r", cpu_shape)
+            self.cpu_tensors.append(
+                torch.zeros(
+                    cpu_shape,
+                    dtype=gpu_tensor.dtype,
+                    device="cpu",
+                    pin_memory=pin_memory,
+                )
+            )
+
+    def transfer_async(self, job_id: int, spec: TransferSpec) -> bool:
+        src_spec, dst_spec = spec
+        if isinstance(src_spec, CPULoadStoreSpec):
+            assert isinstance(dst_spec, GPULoadStoreSpec)
+            stream = self.h2d_stream
+            src_tensors = self.cpu_tensors
+            dst_tensors = self.gpu_tensors
+            src_block_size_factor = self.block_size_factor
+            dst_block_size_factor = 1
+        else:
+            assert isinstance(src_spec, GPULoadStoreSpec)
+            assert isinstance(dst_spec, CPULoadStoreSpec)
+            stream = self.d2h_stream
+            src_tensors = self.gpu_tensors
+            dst_tensors = self.cpu_tensors
+            src_block_size_factor = 1
+            dst_block_size_factor = self.block_size_factor
+
+        src_blocks = src_spec.block_ids
+        dst_blocks = dst_spec.block_ids
+        assert src_blocks.ndim == 1
+        assert dst_blocks.ndim == 1
+
+        dst_sub_blocks_to_skip = -src_blocks.size % dst_block_size_factor
+        src_sub_block_count = src_blocks.size * src_block_size_factor
+
+        assert (
+            src_sub_block_count
+            == dst_blocks.size * dst_block_size_factor - dst_sub_blocks_to_skip
+        )
+
+        src_to_dst = np.empty((src_sub_block_count, 2), dtype=np.int64)
+        expand_block_ids(src_blocks, src_block_size_factor, src_to_dst[:, 0])
+        expand_block_ids(
+            dst_blocks,
+            dst_block_size_factor,
+            src_to_dst[:, 1],
+            skip_count=dst_sub_blocks_to_skip,
+        )
+        src_to_dst_tensor = torch.from_numpy(src_to_dst)
+
+        event = self.events_pool.pop() if self.events_pool else torch.cuda.Event()
+        with torch.cuda.stream(stream):
+            for src_tensor, dst_tensor, kv_dim in zip(
+                src_tensors, dst_tensors, self.kv_dim_before_num_blocks
+            ):
+                if kv_dim:
+                    src_key_cache = src_tensor[0]
+                    dst_key_cache = dst_tensor[0]
+                    ops.swap_blocks(src_key_cache, dst_key_cache, src_to_dst_tensor)
+                    src_value_cache = src_tensor[1]
+                    dst_value_cache = dst_tensor[1]
+                    ops.swap_blocks(src_value_cache, dst_value_cache, src_to_dst_tensor)
+                else:
+                    ops.swap_blocks(src_tensor, dst_tensor, src_to_dst_tensor)
+            event.record(stream)
+
+        self.transfer_events[job_id] = event
+
+        # success
+        return True
+
+    def get_finished(self) -> list[TransferResult]:
+        results: list[TransferResult] = []
+        for job_id, event in self.transfer_events.items():
+            if event.query():
+                results.append((job_id, True))
+                self.events_pool.append(event)
+        for job_id, _ in results:
+            del self.transfer_events[job_id]
+        return results
diff --git a/v1/kv_offload/worker/worker.py b/v1/kv_offload/worker/worker.py
new file mode 100644
index 0000000..58ba082
--- /dev/null
+++ b/v1/kv_offload/worker/worker.py
@@ -0,0 +1,144 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+
+from vllm.logger import init_logger
+from vllm.v1.kv_offload.abstract import LoadStoreSpec
+
+# a single transfer spec (src_blocks_spec, dst_blocks_spec)
+TransferSpec = tuple[LoadStoreSpec, LoadStoreSpec]
+# transfers are forwarded to workers by (src_medium, dst_medium)
+TransferType = tuple[str, str]
+# transfer result (job_id, success)
+TransferResult = tuple[int, bool]
+
+logger = init_logger(__name__)
+
+
+class OffloadingHandler(ABC):
+    """
+    OffloadingHandler class for managing asynchronous KV data transfers
+
+    This class runs in the worker.
+    It kicks off async KV data transfer requests, and allows
+    collecting back completion statuses.
+
+    The class provides the following primitives:
+        transfer_async() - kicks off a new transfer job
+        get_finished() - returns a list of newly finished job IDs.
+    """
+
+    @abstractmethod
+    def transfer_async(self, job_id: int, spec: TransferSpec) -> bool:
+        """
+        Initiates an asynchronous transfer of KV data.
+
+        Args:
+            job_id: a unique ID that will be used when notifying back on
+                transfer completion.
+            spec: the (src, dst) spec of the KV data transfer.
+
+        Returns:
+            True if transfer was submitted successfully.
+        """
+        pass
+
+    @abstractmethod
+    def get_finished(self) -> list[TransferResult]:
+        """
+        Get transfers finished since last call.
+
+        Returns:
+            A list of (job_id, success) of transfers.
+        """
+        pass
+
+
+class OffloadingWorker:
+    """
+    OffloadingWorker class for managing asynchronous KV data transfers
+    using multiple OffloadingHandlers
+
+    This class runs in the worker.
+    It kicks off async KV data transfer requests, by delegating
+    to one of its registered OffloadingHandlers, based on the transfer type.
+
+    The class provides the following primitives:
+        register_handler() - registers a new handler to handle
+            a specific transfer type
+        transfer_async() - kicks off a new transfer job
+            using one of the registered handlers.
+        get_finished() - returns a list of newly finished job IDs
+            from all handlers.
+    """
+
+    def __init__(self):
+        self.handlers: set[OffloadingHandler] = set()
+        self.transfer_type_to_handler: dict[TransferType, OffloadingHandler] = {}
+
+    def register_handler(
+        self,
+        src_cls: type[LoadStoreSpec],
+        dst_cls: type[LoadStoreSpec],
+        handler: OffloadingHandler,
+    ) -> None:
+        """
+        Registers a new handler.
+
+        Args:
+            src_cls: the source type of transfers handled by this handler.
+            dst_cls: the destination type of transfers handled by this handler.
+            handler: the handler that will handle transfers.
+        """
+        transfer_type = (src_cls.medium(), dst_cls.medium())
+        assert transfer_type not in self.transfer_type_to_handler
+        self.handlers.add(handler)
+        self.transfer_type_to_handler[transfer_type] = handler
+
+    def transfer_async(self, job_id: int, spec: TransferSpec) -> bool:
+        """
+        Initiates an asynchronous transfer of KV data.
+
+        Args:
+            job_id: a unique ID that will be used when notifying back on
+                transfer completion.
+            spec: the (src, dst) spec of the KV data transfer.
+
+        Returns:
+            True if transfer was submitted successfully.
+        """
+        src, dst = spec
+        transfer_type = (src.medium(), dst.medium())
+        handler = self.transfer_type_to_handler.get(transfer_type)
+        assert handler is not None
+
+        try:
+            success = handler.transfer_async(job_id, spec)
+        except Exception as e:
+            logger.warning(
+                "Exception in %r transfer %d: %r",
+                transfer_type,
+                job_id,
+                e,
+                exc_info=True,
+            )
+            return False
+
+        if not success:
+            logger.warning("Failed to submit %r transfer %d", transfer_type, job_id)
+        else:
+            logger.debug("Submitted %r transfer %d: %r", transfer_type, job_id, spec)
+
+        return success
+
+    def get_finished(self) -> list[TransferResult]:
+        """
+        Get transfers finished since last call.
+
+        Returns:
+            A list of (job_id, success) of transfers.
+        """
+        finished = []
+        for handler in self.handlers:
+            finished.extend(handler.get_finished())
+        return finished
diff --git a/v1/metrics/__init__.py b/v1/metrics/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/metrics/__pycache__/__init__.cpython-312.pyc b/v1/metrics/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc922035e2d983ae861774851de939d8c1596668
GIT binary patch
literal 160
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3T0&7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>gT4G6lEqC>&M4u=4F<|$LkeT
h-r}&y%}*)KNwq6t1)9eQ#Kj=SM`lJw#v*1Q3jo}BCPe@M

literal 0
HcmV?d00001

diff --git a/v1/metrics/__pycache__/loggers.cpython-312.pyc b/v1/metrics/__pycache__/loggers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c3b736c3595a074ecc38819280aeca48232d8144
GIT binary patch
literal 42175
zcmd753wT_~bsl*81vI)Z(2e&SXuQ#QG@c|#@BxzGn;^&;k~1>wQLBl22?B!$b-OV$
zY=JUI87CO+*h6XcWhlpXAV(WxGUJ$DYqON&IO8vmbvD^`UlLTeuEuM6Ek~Jny$cdl
zWM#ea{-^G<8yDc{v%fF71gq=TtvXe8s_N9KQ>RY-+rmO0hiBgX-_3sRw>a)k=tY0n
z7rbosJ2~z>?g}Sxf@7YWQhyy&4!k?(oeQoh*MfV>?Vxbiyk{YADv$Zy^Z5(jDKGPT
z<_i{lQ@#cNlz)Mr;#rtuzHp&vs)+gX<^v1Cso+BKR55$cpD$S`ohn@@n<``P-ud!{
zim3|bFPN`fsG6!`e&2lcLd{eS^ZVy(7wV?!n4h1oUuc+WSZJJTTnJ5t7MiA-Sa{)l
z^Fqs1%R=i^tAlfLVujfDfkUnERJ)ib7K<G-PNC?Uvl@X@onlxBFkhG0C3YtB5!UVG
zPH{r;ElwyBT_3o#v^_$x*eiBZ+-pvu<SqA9gvBdGynxta#Oq_BWe6>|gaW~US%J_>
zv0v=_z^y?YVBu8=uSTez*B}e6L1?WdbV&4zJ}RNevvLlLUU835cMzb2dU052K>0eT
zd_tqR7o{B$JH%nNp4YrW2qoSpG#PQ4#ST^@mf~8T(1P##h3rtb(2CGeR+=`Hru_r-
z6MCi&+;oIHJ|XX9*r~XV9vfGRVprn{DK?#05EIvzgs?;Lj>qQbV^`-z_zN!IydfT)
zpN+-CE+v0_X?ZarN{Z)HY<Wgh3Qo_)6H7BvYyrSZFD>7=u_Ptp=f#9HI~_l>cx_4X
zy)-|+Fut^SZFUAxO3u9m|DrgZSdu1|W@cs=XOwbF*hOiH3L!4Xk+XkxaW)a1M>J8w
zYx(?AOo-l?Uq-5U^y<y%jI^|T10VR4h#0^Aq8N)WE#kd$c~KH)P%u%7zJ}bR07>Nu
zyOpBx*z|Q|s+CYFI)g~D#O%`Ir9><dSIW*W&nITjFA1@EiYcn0MVH_emghx@y|b#`
z5T}oe(@O$?=@kiHvIJ61lp=~xpGE0dEG{aQM`vbGv{-@xHa|>Ld+3ibw%<X>dz{G8
zXr6KkjwzSu7J`CP^aw67@0we1zvcNrOEr}*x(m1hPAC@gM6ckXekSCL1)9$*`ZQkw
zQhEiSC8Zxw{cmvwBwpa(;-(6PLNO2Hi1G=bFBRSNgiE9<WEbNwD$h_axE7lhL)Vt1
z5Va8y5z-JH@%ch{j$S+yT8@iSJhTwI84|>6vx{PAdKn#Nfu*1?iR-aMXm;Voytp7P
zCh$5N56$YZBMi*xrPsyRM5!mVxRemp1n425&t*5t=R&bXA@sTI_WWFEdOjA9i*W`h
zCW!<iG`+MKpA|$&6hiR?^>Q=EID<mPoxUDhoS`qFYs-mcq(l+o=qGWtP>P@REPz7C
zR(Np{^%tYFi-P#Zv_=f{_T=b&i|EFC+)eI%$K?AQMv^-&&R>&i5h~TeiBlxt>^~pw
zODx>zyD@vCHxZL&#6<5K%Om^uy*eWH&Cg!#yKxgEbg_@}?t5*ZPs4W~;UC3|+_<TD
zqbLQ2O*C1V-T5N=hhECg1LroEIel&m9&S<z#Pu#71x_#$0<-$a&;p7U7NXNMCbV~-
zUT5KrX@X{bvT7_f;FHt{=Y5Y9B7ZA6ZRE6*(*cJSh&oM3YQn3MCt+|&Lb5!k5^8Wi
zr9cly6*h}FuU~3`e_ER?;8mZUO5tFoh*NYew+bLIs@DhDn~lxSCPg9HmXo`EwEY02
zBeXsI6O~2kp|qBgxR6D%WP7$WS8QpG=H*!)igz|1jlCXwRa89l7$Nh!cRaHh!Y;KL
z1^`nUqylK2Pepx+isNW}UKDSz#uk%JIVIX2WsHDPyRfpo?~rK1dEYt7e!~Ikmy59l
zF&b5T(dfbwQB(N&X!P^Tv3c!Fel#j9O-G{=4Hn4{M{$7|NX_(GPEIK~W#n{`LtR<w
zBWIW#>SHW>RuM+5m_uDHeizPL+!LqA<3*pzEBmhd+}hcc``rEM2kvuQE`(&<=N@}X
zH+|g5flN*96Mvq^|G2tiy;ZJ`Y<lprna9<1s;~L<>gB3?*AsHp&}IR>`nd9{r<8~R
z+jLS`kYyCsz=xl@9iGC?JUHt^n;d@b#h=j+D>U_aP@2VQ6x4XU@UedU0G{`_8SWOB
zF#5UR&>5sTij(u`1pPSo%4v@K8MMbO$1P{V7^^GJM4p~RXAh)cqCgMBcYP}2^zZSK
zM4|p&aIQH1o>OqGIN`c~*`t@`OO6$8E}+LUe^;D(3<vklSvR-BUE;!?$z&B#vq&6N
zN1N;QIX+oRy-u4dLh8gHN_K}9FolG!ilJC2zI>Gt_|Vd|P<9Uub<Tj&C!OI)*eg+C
z6b}g6LR|69#=$-$VvEzF;!c3Ip%5Jo>n$qBb3&4qBqc9)<A%5>fL<41vIEmHE5;Q!
zbytN~3lwDqh!g$|;?=}BmF+c(8Ze|&h(C`1@fA2A#NqDSXTIMslp3CV*l;1;a7Avo
z@|}j4WpB-@dv*TfK=s|858WGq-fvB1_^MxuJaaks`kv)+rFEH-wl!hxGw4i_j!ef;
zs(tUhtD7!I@#vPzRa&&kxeANWF$+r4-YVH!b+_)3w|%peYy6C3vx4KxQ|>a>^`=n>
z<Iy|C7LDd@{D;PUi2014CLYACceE)lc!WHOJ|riPYCL7=Di|Mi8a7x3ed1SVWt}Ao
z#ipgDIG6=u!N3rNj$aI^G&vq&6QxpQkZ4S^V*DqicWkmfgVJTS7Nai7&<>oLF>8K?
z(rE;E;sV3kWVk>YL9n!s9GV5BQF2V`<(>x@DjlFeM#FLl6k&>?>oPoXqEbYl9G+fK
z8X`v*h(KNV$o<i!-z#|FzOY3^>bq_=^Q<P*$L!WG0fwc?$_0n$0>kJA6X$x%Gvz^Z
zaZ`DMN6g1kC=YC%7fhmC@Pbh+5DT!F@FC16`m-5A##mN>AuJTw0*2CSz9O+m^97KL
z7mF{?R6r<3E<r4{xT#_R%dDvq0n4hX(wls^QYoHLnMHHFnp{v;ixL`XSZ&<~!F!Ke
zajtMtysFO%h)mQVgdjKuS<_>1T!J_R_RJ9(&3W`*YZ9dd%{c7QzabBOG;j%nq*=Zi
zaBaWp&0?R{Ag+l@n|yga40WTaH0PPC$qB&gEmxvm4_$HT^+Fwtk_&{jpdN?46&r7a
z-;%61nr+#06CCU05A?T_;WEavs)I5wDv5D10b)7}s#vhF1QvT~adw(b*h(4r??g0*
zxs)gyrQ(K!CBYkvsl?(zU!^I;pQ|gx=ngSTG*;A-N~$1`<#DXQqJp+AW77%ZC?&7H
z7R3U0F@6mzLX~Bg2){}hKA5?I^<oRs3RdPDSis##L=)Gs%AC1=V>zMJu<#jiQCl)v
zzZs+{9-S5DF{#9KvL=MxD!XOy`bx1@9<w-c>g<?5RDM(?Nj2LBib0HCLG1W1!@<l^
z*SYH6@K$GP+v&F|<K^G=zwQ6p@%JXbGWoEqb;H~C{no*Ut;6)S>6w@7*z>S`FTJ#U
z+<*9C{}J-`e%##uuz8TYjo)wE_poi0yv>=qP`a*1uIowHjmdRmDR1@1t$R}=rysVS
zq3=zZ-hTRR$qX>)9hrs}daupYG_JaTKA=u5*3L_QHl)wOgCR}b5kB={-O(7*?9E8a
z-Y6w|*c)MtJvTXNFFaw7Qpg$z%@}2Uv3PNL0bNLK#-&%q#kf*VLDm*jgG(qF>kVo7
zMnV+Op+AoWkeXT)(F<tZ7k08{R9uToug9ridShLLKUrndSZrKK_!=iJA5B#sBJ|XN
zx_7WfYshqUQ%G}0eQ(UPwynA!dFvSFB$^PW4HV#o5Wvv)m+%06+#8NL_;Q~W+t4H!
zw`r$|ZkE~#T?2#EHlbQ-qj^|rqY2CsAhk`XmfC>JQX7;tE44vU%}_11(fnv|T2h8R
zQVc)RRdS}u5#T7SEkQV_-L$sUnvNmV+H^_<k%j43qd9BcWT#DQ+Q$3>a*Tf#&Ta0o
zmrr{e9(Wtp`qItgGXA{dkGu^Sk7;l718?)%Qo8+|j6d(WM`&>hZhYWvTpLTboRIP7
zJ@Lrf$b#!0c<a^z>CiD5f8Jx?(fWf@$clhE5oZ~fM5;2a3+-o3@ci1WY1c=Rn0;=!
zR$PMPRm>!k<EA5F;1|QvmBd`A&mdsav5va{ctGUm@S}LHfx}Jcgl!f<tTc*G5a$yy
zHu|zDni9aMvl7!}lMRZqqkIWq<Fvv9Zp*9g4yS8-W&D-*uKF_m^1G!E{B@bqijM<j
zcV1bWlFR!Z2KrOpewFAL{S?WmUi5#9*tGW`C!e!^MHoHyvuqXyl7SOU$`ks+X#bFK
zYcvEoU>>Aj3$cVc9p<j(eME`WDJ)sHy}IVtw^4vNF@vaSAe0Vt$bpV^ce-=G+`0c@
zU^L|&Wwn}A1t;x@$Yds2Vi%*9o2VUeOHwiFWLHzmGHk{1=D)D7xg9@+v28PEbsRZB
z&h7ZDH`|Z{dRy+ZLk>3MKPv}=FEZh=9E!|$-M2#yHW0FMF!&=K4hK4W%OlmI9tMA8
zezVQRSPTOz+#Crka-MiToBRxpbHydqA!b!hG`!lvH@G_ocN1eb>`d09gRwO*WU5Of
z*IX20k`P*2PJnfZOoj`k>i{OvN<+zCx(c!EYobzOVX$<$UY*GhZT~7=q4cHMY?exn
zUZyX^X_@KO4?jiu62~H4BIhMISS5zY-%1WmbEY6rdJV5}>Sx3b>2qus-tFdCRSxy@
zlq3V^HuogR@wFK~nC3fVzGFSG!S8$QuSxmajj%M|C-Z&x0_px2<^C5p_)Cui4e7uE
zIdC8qIF$*OrGtCq;GT5wkQ_XeDQiiW9g)k9V8LBn0)bDkF&!9`1B0o+VHUMZ4tAx3
zgK}{2-dK9*C3)zjjo{0fw&8T!DY@+w0Hy*>I@qur45xzwa&RCuczh#xB2!xV-q=^i
zGCc?GxHp2~@A|7*8Czt&CCzuseE0g~BmTgqi{opy6E#8*BWgWtxSKK|yUAN$u-qca
zjLkv`p*911#i2`mZeeM#Lpqz`YDwopI-`rD#M*-x8ewv9raTD?Jc@5KkP&J#D6hG7
zC_DyP)L3j0l&DcIwrn&Of;#KqlU_hsq!-CqASXr+<0OckQ(Updo6;18{WLj014p0j
zXxdeZb+*!69h6(yN+URD8Z3-1-w?3<qfX(;#_h90R)qJFSNvT#x4DmtO5R<3d+}jW
z!>Wt%<^6J9|Gl#Gz$tm))bE!*tUC|(JQHe7hlb_Q@V(3FJs0FX7g8@=ei*uv^45bp
zp=H6HaV!x&Zf<)VY{~@NSQqY=gWb&2CkOjB3p|BITdw>T-zJye=wsYGgqYn&9OUiD
zw2u&f+OoYrqKs;Pbi+gY9HzK=n~b~KSR3Uo43pj45wc_C-$qWFMCP%#XnT>2A@VJh
ziMVCE*-#%Ej84;l%6YQBQ{8eN2uzKkV>kOP1}xugX2DyI8E_=O3c)POXEQVXBm=^3
zcCsHjb~Dn98~h+QN9*XEM{vG+9D|@|#W_bzO3ou#=AspsT?~7u`rrlTopZD{&Upm4
z;F+=VDlWTNJJhc(2N+(3yd+2;;?vq8=a~!T1mIPTZ!JNhS&uc>s{72}9r2TIsp(Gm
zX*c2MK1(WYu2T;+f9GgU%z5JbcW5K81=>z!u*)NqlL1~;yjb9IbHw=OJU>zC3M|le
zDxF;(p`1+dnp-+26Ee(2Y-0N6Xag+gF*hla_%ef)(62gvJ?|GdMjr-qBI9*#&-Snt
z$A^APjkq}yPvkt$PY0PBKN)r>TaUgr6H=!eY<}y)sL@bcWZ)WDJrZm5#gm;B%bbCB
zi5Yxxd2ta^F+dPPB<V;7UyfnR(-Ok=?2>_t>LQwi9~3!RbL!%i(7BgFY!?_i`>`2O
zEk;{gvL2Bk%+tPIpG}0IR$+YpL_qbECF8n;#mu|?#2eUWUX0D7in{<vR-Zq=1MH-;
zCj_OBJX%g&TMXApv?iBskweoq`+&`H#UqGUmuD3BEVNQAQ#<jbN|0ndl8P5q`oltA
zSMkC^m~cTFXAnh{c~MY`h}mU3;tUrmZ|z0hqf~drEiS$mS889Hm^dFDzi|HImCGlh
zlSd~nMbAt|CoY^ibNP}gwO}l@hr|^(8FMV%piJCzOS6j-G1ck@Cvnj_3v!zx6i|h4
z#Gr1Yc*zTGfp|8z!4f9Rw@;~v{<{DX|8sC*5KECLq6S+{8{RtRZ<oF88{W>xO>OC>
z;Rj8_U#obp?yGgb)Bex9zumo>_tfnv_pKIS54EsZ<+2&uN(?LWw8?y1n%^t)dvjjF
zTa@`$Y4a8AxxZ2NH?B23@V8|6@-$y3^L45E$Ohk+;mh8=@b-nf$J2Gh;cV~&kG;j}
z?$zU9PX;WC2YXu2T%H2oCeIZVzZ-Zv@R+!EmA&342lw3{l7lLHPP|PzI4lQ;@5SZd
zsG0PcT8QokeiYise_(?jwB$b|*9~p(!<j&7Ixs8;hSP!32Z2#b{1Y4eNlW~ra^2B%
z-C4Qr?C)Qa>n?8aFR-NTa-cmO=y?$6u_WEM!SA;urL59*2j#kh_v3Qiu?>FwkG(~}
zA47%k_h-L8yI%0HVNm7=H(jm*-{ZpaEf0QaYp)RECE44Y_ENL0UrSNj?P2ZMBzv3E
z-Zt6Ww*FGe+xEyiyq!s+)c{*Z{7ZNklZ4;g$8JqwC+3rmSePAyA2*?q+}2JMfKW4%
z;rq0?>dJRm3gaI{Rmn@5pr#FSn$Zw#FRQdell?<M=Gs!|_1VOAsP|~f9!v);6uSmu
z6k;;s8_UtF^GnmOLLG@wKP*{^Nl|!p#H+gqN>O%P=}knDNN{B<5n}oZcEUv(zsBCC
zp?>lVaN_6SV2t_$X@9NkuTA?qWq)VdKk~po@-biX?!?;@n@&e@gbjfvnb>-ag^(N!
zrGve4us0n%C<hPzkl1=!N$z7kK%z-Y6`Ggj?qK@q(*bgb+mUEBq-tGUC*P~&(1J<v
zVoJIpN}yRpu2k&|l5?nv872+xqcD=<<!Wb~r!aDeO2>a44sCvxdO~YwH#z*=pWdRM
zr(OA;_RSKHXWVgbaf_qh%_5IyVExi2UIy+hv!9R3>C*ryb`;SL>VYlnl@<Xro&yNe
z^f_ug2Tgqryjb-)=+&anL9e9GvE_&F>Arwx-_vHNC-Bre?Afz5@5uM4>kU@^X%yXf
z^j^P}K#*l8R@;XaJ;Xt?-B|Zj9(GaP7R5U++h;9;0-vt7mv5-;d9f#}D)kkJ9#w&F
zil<##DC&{AUXf4;H-HWJfKqGhWeeMAKkLNO85AN*YHX~P{t+v7&R(nS@I21F>za1X
zVo%|fLRFS*N{~MQ6ng%9=Q{y6V$jMW>Quw9FKe!tbad&T@Vf$zO>lhZG>0`*Ot`2a
zwzvs+4hHjeOo)@8{1u+CgN?V#7^GA+b?dR(ZtF2B%uXj*v#I@?<Wl;yO5>ZQht`qs
zM$TMHqXE2_v8%TYv&QD!Um<3k;6gdg$2In{MfBs|fpqVY2fatOT+R~?-*<bDtWB?u
zf34wRag)q9rFxG%Vc`_F{aGGYP@_`ywc+*Jj|NlT<_+)3Oicsrs{QzB0YP9Z-@jXO
zH0aLKdo$?ySrlL=VYk^(puBEG%z1R?RsUrh0LjWP+zP3LHEwE4fWAVVYzY7q*Sxr>
zqMvwmi&7h-5Xtu4a7P4CWdQx)N#e9bBUyN7I?yKv`o875cRW3ON*+G-u>bVKz?qcy
z45MS3K)emHO#xz-RGb7qY<l~L@L+m#+fOyGIi$*j(Le1(U6{Jux;Ts`n&<anCeCuB
zA8S1qD+tG%L6Z8~PJ!-&C?QQ?@4F_G)mIk9H?WnB4J=Is2D{2{5ZC;^)2yl9+iB8K
z@?Vch#MY~Qo7RTXd*p=Su)dNjO>N$-Jyf}BfZBq{8&k97EAC!S*Z0f#^Y_!-Gx_#p
zs&?;vAGnnaU-GfHI_(X~-VoT949Q??GqvGNWz(jgD`<Mg<$+rP(^X5N*!`zhkEi)A
zneSR3eZcRfiK$~3*5tQQjQ1>RZ#s1WRlpbZvG2%phTu<+hg~hr3$-{b5|~KTXn8Xh
zc2*4$q8Vzx!=dd@8UqPsv4`k0A?ZFqv<cN98Z>W5h;|Yqhn*ZrgJ@9RcYc->@OCJt
z4OCOV#U9f-sYqf61G~&dKDxlwt8xfz2Y~velJ{C{ep!r5KZh6TEpq-2Ill-;->#*|
z*6muhs7vnIt>4CU`kX6SY@x1v4*(%aHPs<9t)1!CV{+@Ubn6+p^~`r#&!u?kziD1u
z#h`a)g01S704Q`}(Ia%%Jht-rv@wPsU<pAmuqqj1FuubNZw9!w3CCs`W8YOiz5ju?
z|6Akt-RXTV$@^Y<I1J^#m%p>?ekKVuFfQP#kDU_eim{7JR7>4Acd9gkab~%sngWxJ
zyP+7QdVr7_L`)!)Mt!~Pt-mYS%7v*TFarD?c>db!i!-~EUBO|haG{&pbYs1n;w#FN
z``8T!+xd}dgvVTQya-u}HaGr_EjaR3UhNJtlD<ODo8<g0a%hy;Pqn@Hk{o<a``N5D
zhN(#}BJnP3jdO3GV{47?2TSi9PnUJbWgQQLou6vKK@zZV&~~kHj_P7AIKE1+H^?a`
zr<5FXUBSdUJ1!}{Mv=++FZdt-GMu-#O{dS(__(}r(}Q0O-Rk<gm%d)Gl}~R~+G^pf
z!&oky#p*&|FO+!BILrkDy;)Zb?A@|tVDIXhfxJ&UdCzAYPwO0>)~!5ay+DPd3DtOX
z26*clf_7Rj&~YCUhlB4Yoy~l0ose%F^dbFCeRZH8^zpHEf*<;rezrp3*$SbMtq^K1
zijvx0FF}=rSXogzD#V~LBbf^Xr2*?Zy{phxuCAV~YBAqrx+jy<Zlf+7M-vts?Nh8a
zvzTHm3P+@1h;F7nD^5(nm@IC&A)<AGEi%|E`?0yg7^HV<+$I@QD(wpxXF~((K_O&i
z)<^mu=#_Q`a`_>~+qdkD6N9xMqfxRC5Wo=eTxS=t>#doF9>(H-udZu#;=B7_&ID`k
z{tVds(IVn<I%U3dy$<up6Bk$C&A1$?l?u{EPCGdraI&~ogJ{xV_?zTfcS0>KO6_<h
zGz)FY5*MpAGn++z3DL1=`ZfHhMCn(^*G0~b>}Jz0=vBGR2}159fLOTA{c`<&*}s1~
zx5)%tt+KZjsz2WTw0A`Ij%0D27$f_B$U#cDow1}I%6jQlcy^qVC`Qg>VI4~t>*%ms
zD(JCr%Aw5ctu7T^YXHgQvS8#x@IwpMc93Q9J#12L*ad-@lV2h15%xjA+q=^3$K>{7
z>Gm^n`<d^wgR5!I@XcwyUFO>#@tx?39TSfK1`$KEm-LU|WL2NdX#=}gU#C-sKu;86
zp9UlQWqv=jEG!sN<zhv<&sB;Y1wF}5h}={K3wE>DjuY26sovxqrZRsK9-6rPo+37J
z;n$eBHuLGt%Y`8ZD<H3r^A&CR$=9sUTLF*HoVM^{owexIGHKDPI%mO0BChb3*XcQ^
zk|`?CH2xcpF<IS3kU3e2t|_<ZA#v6eCL%gMFvYWzs7@RhaEV1CJEtu;=uE15Y88hA
zJR+S`Ex~&}rnFKvrIp|yLYW#5#}RONft_OYi4~g9F9t9L@|e;pg;E?x2;h8b01yHQ
zsiJe=Q`OLgDpSfX8pnvu`EAmi39>|A#3eFn@K2z50&3vA4W-B#+K{LD%BZ_3Gcm_E
zQ{gg}diLsZw#!H^>ec}ZI6*Z-0y5i$pdAl;%e_Nflt1^m<)L}@-8@ZD2cG>_-b&tz
zJ5j91T*=dU;u$BzbtP`@RzBizbHsV&Jjj<=v784JM7}Pp1IGONXTY#g7XZ$(<3o6;
zK8Rnh`^{hCdxX3d*N6G~6m-j*Xw<*2c+pC3OYW$l`s@JBD-`5FE3iN-$bn{J$-Znp
z!4DN$e#SwY#X{bPg+>{DjQ7DTp*~RZD1wrQf5i{3XArHxXSGYE)-Jv|;stUZYOfXk
z!+>5(v{E$_s!}Vp=0wKp3QwY>cZS&lpJs%d$I^c}yWS~v?0~x<9WKvmi9!qR3UhEr
z1du&|W+O_G+7V8aJ?9Zhgi_>Drq}jXktL6!oIHRx_4x_&C>JWS@(5V+2;}4e9@WUh
zu76evRXJD*TA&4Upcx|~F|5P2QxDh?JJmu>R>_Mkc@^j6MXWA+cEEJ4P?rU(!~&}%
z2bNLu9bnZ94Oy^CEwD;+V3Blpw{kTKp)6Qs7FcCDuuMu|-<z6*<}6s{7FgvuutHj~
zNHAvCGh2k#ELas5SQR<2nw|rzO=!=8RcV1$nFEWKC+yjwTpdDZ7OW}@tg0MXEzf}!
z7P_)vRa;<H=fE;(&kp747J9N^)mUKF<iMiU5PKNiq-7C%c7WU~L_l}@RJv=S6}1Uk
zKd=XMb{tf-E{o1W#fi;-wYGHDc2=~^ly&+{snaG<;x2;{Pv|+Dzbnkd%R46+C4RvS
z*L_02(3QBPzpWTb<G|X0F_Y9=uvVXgHCl492Y9lBKPdD(7k+~UenSrY?&rWC5{5Ce
z?fF&A>6Q{VS|B#&KqPr1dv+-CUSZ_9B@S8OhjQQ><8}x5`-J@{@n}won=BBUav(;Y
zQ{n@{!RMB^*#f^g2R<zd*t0{44+)1+;<20(w^$&y<Us6y4#XqEQ9wMF1F_Wtu{8(c
zz;hsu3&(9Bwpk#y<v;`vq&_>;`h;-O24cGfVtWq6Asr&podT~#T#VhAI4zu6>B#D@
zoffE_IZ%yRdIxA{g>yO3!WL-Z9B8C>!JZwUO$g_6pmkZGb>%=a)CzZiHYr@lf!1w-
z)|~@w<T+)#D7=sZt;Yfl%E4KDI0?zvBajSmzy5|5L_+tQzi+;qcwK)(U39PISEszf
zi%b>SpSY=i6fWuCzT^-tBd<fomn(QXY`ndMw=w<Az8rJ6_3!2{QXSRbP&R`P(!;>_
zzbt%4_$hp&ML^Dj(3PAZydsp=_&LvvWsQSe4V=-Yu%_~m_qwewJf)ghQG770BF-~I
zD@vZKP?W4D{iji;;3$3`J8p@%uIZSJOfD~6g~Ai8XFw5@eItWM3`htT7N(c!<SQ&V
zBw+R@9wG2BXCO|)Qq%ix=>*EJ6vAN3GMR2-3RFt5YP>;Onik`6GV_9y&@dz>G7B$p
zyRv9HmdS3LvS{DvKoiV;K;ej>ib5n=$?Bw5Fw0KOx+>KUG21nC3MwHU2r(Nup+lj5
z*r&oFaBW8&dR=NXY?_;K2DZgvsSku+7iVX#19wZ;=<K6_jrl_%J+hh`v%wP@I1mzM
z<I^~M6@?A89U=`z6u-s14rHl>OzD3j=YJ;WpTL395szx#r+8cDir<n66fpirO7xrL
z+=rv#c?LRc7X8#HB#qO_sH()<Yf<8j7!?`l?+;NdGR4JoS|i6#Tzv7w_|eNJj*o_}
zz>o(+e74>zgNuFxduuVYO+AZ3d8-N?S`pB_$aqTf^OS#<uCMl`hq@j%AQs}(AJJd6
zo~eEoR88kd$hJUsIT<Aada|*btg$a5G<W04SGSdqf_Ew$!=j+6VSk#!5ip}<s_C0i
z8+0bS&b{<$n@AfCS;yDeSWccd6t0c&on4W{QUaRSCaw)Cz?35=W0O=?GQfjUN3>pL
zhwJ2li&pLJPuHS4){+&hIkMogrWnZr`ste?*~|cvmNsdY+xNq`z2do6^w2d(5SgyK
zZi^zsjMMb$wu3Zf^!W9d1p1MURTH0D-!*F5xJ$uUm6z;G#d^)(Op&sCY_gn{$T01u
zRX;h#>>&1nfTMq?q~cRHDzmZ_NtR^8WtBUy9q6ZMR1IJm0|?YobLuu3lKtb$m~k-o
zyav;L2FWmEsO?DR0@cYvFPM6sBB~OVWXq&A>9twVZS{+F&QW`*dBj3b+-@c|KiZ^M
zE1-?AXnc8^CbMLi8Pp_-r-fWwo}a&I=4%Yxh!TMPM3}i`HVw$qrAEedh*?##&L~R$
z)#d3|MOX}=sU_LK5UHm!i>%kDmVGxZBB+?aSCEQi#IX07O{8^nftk=}<%D=65-$7%
z8yegvB>($_M6;iS$T>pJZE~PO!Og<hD;!9~XE{Wi<q&a}3z2gK<!#R@??UX2D0PDE
z<vx&AG{l=-SYEJn3a!SNxXrZ2z*L8Ujuf1#h%LmUi^;YunAD9H^#%#CNFqo~1Ut>Y
zOO>IWfKNQ+_{bqqc@DNUz*GsX>t!R9axg#IWR+AWU@~t42+?b^60GYmP|-N7-Yg37
zWKVXP5filxv6yOgiKJ_hBjJjfzkL76gY#D}j?H|b>>r={<78s&2dd{SJ>+Y;=bK|Q
z_Zxoh&tACykM)pmjs4&kzfRA$$7WDlJgKoCsGi5V=RfG4P2J-@qQxoGJq^02Rrd_*
zp5wab@)0cyLHE3+d%k%@Bl!$3U|^!^vG*Lz%xuRD;%Z0ax8uf^(_pqqHMpQV;^Op8
z9rMPt9xj#s4UjOSqUP&kn&<tonIZQ4)|m9a(s%XkU+CZe&DamrkcWE6cgLiEi-^*{
zBj<l3=YJ>X56DT8Ba`!hoQLFWz|nfhF6GSWAuMJu>q8-}M%EsZ?8+K{yJL7{8-|HF
zv~3OIGxZK0371Qcr~*`54O^d#u^MY_{ug@x;*MBwK-JeGM2;{#Xm5v)FobAtXY_tD
zse3-Fdlq%i7j@4s=$>EEJ->TI!>KqZ(orztt)e+?pMz7x)az!8Q<V?UVFBVYhBJ+6
zeGu>2hR6_XE`Te?*nRovnagJ;Plaw=C(C+depdq&Nw#FQ6^^;U$Sn*VetOt1UYVTS
z0d`XsY{sq4&wqNzSVo*YGcjRTYL%wx*kIPXa*8~>3p$RU7{74*gbiFql#^`}OD`TJ
zw85Gntw(9uM@E3-s;z2F2RFq;MDY^YonMk-O1XaOkKUp&RVxaXqx9o}S-~3b&BC+_
zzyKJI7bP3DW0q_YiX{!P(NaurDlDd5@#Tf^F;$DNm^wclKTyh4(;Ts@v-7iwo7#aT
z7~HtN^m_FAtRRSshMhE?t<&`=#mu6Iz}DQF1fY=Wq(*{jJ~B*5N=Y=^cE|L5Tq&U-
zjf>L3u`tt;8Zj42ag<gnIztS@mvLsv%nV_%e9;*)4bDCX7GRy0kpPt|P%71Lrad?f
ztJ^<lt)Nt?DRi#Fv`LGDog`R@Gt;k1xf(5J$qW0k)2hL8RvcKCW7f-~JFQNY`W<5s
zr>c~xxnwWcq_?T{zD%uGqbJ|K7*k+ZMa`TI9o6ie2<x|OS*%pser1`q>z}NMHZ13v
zAX=Uij{&RFBjvLEO8K@gEP+ua;<_}(S~rnqB+24E&AOP3mO5j`l}bGmeY9&_uSCqD
zQiLw9nUiPjReE)Kc3y}ML<ggLq8bycw3u<!B3bOa>Ev1I$d0tFAV$O*Gh!~wt8|;+
zXe8OPod%#%GxDMlSZ4;BY@PA7-u!CA&?${MpL1tY#gg7;y0_v$$F}Y4typkCQyhz=
zrBEz2uuN0>*N|DnoXJLy(O|~Nnlkk7mO5Aozy3L(4md_%iL5Gq=EX>W*>$D{t&~nK
zCC=yu<V8WX+goA?9is+eZ#2W~NxUV3EwP7jOKp;fOQg;o?v+CLG4+a6+1+na*#AKe
zsYzui_^}db2OoYwG5!NNpO8axJH-)~{)}G!oSgrgod1WMO>&-)^OT$|a-Na%LvsET
zIX@!jFUa{Z9Fy2+h}74cQL@HMhNfu&DgA#G|G$v)SLD!QOmdKe19qI`A_rH8aFT}{
zTpYqFl{!3~|IwG0`4k2BiEvT@IX-gyaF_u%cJ%1eI;!n%+Vdu(0{V3jrXH7}jJrVK
zE3wpqzGxndB&GaKnTE!@msTeqYZ|%V_coH1O3gARBDMCVTgK&<@pQ|}a?8u4wHta|
z(Y$s##f-|8htlO_UoKrfCYO)F%3M`Tx~gBU>Q7f4ma7i07Cy=2hL1s4+_}&9-JzrF
z<E!I$x_)VTt>y1sPZg87se6ZUl&PR`lS2e(*|l_}oA=AjIOkodopw5#+Bb>hEzGbE
zX`?r{r<+FPCaA7f-mOWs;n=FPnSE@48hT5|ul0SSFH_u;sX3cz=%TY!1zgJ@PP(@E
zQr^aA&_G7QmbK5`n?kxymadiMYot5%lca0y{I#)fjAe?uHr=k`5$FY0HLtz0c0sNj
z0u)${ZXMd<e67ej1kL#{vs~GxRE)3s|D?EX_2?5HSJ$;w;OQ@V;)U<d_+~y=Tn5ah
z%ZKIi;Y@AA`shakKv2b=EzVg{@`NLkT6u{2gc6aibXexY>rD^%9>glC-z;ILV;W`F
zigb7kW&>KtVgL$y;Tsn+<^7v(NBL>e%5Uk*)V9%~n&B<Z+g6m~o1T?$UHf6<Xzh#l
zlE6+EGT7kTtx)=g(tStdz9X6PVS@7l!KrKCEadu+I<~m{en9DY7UcFEcVvS7_aYy4
z0n8o-hRzuqh3V-}_Z*UY4rR&*2+X7bruQ(Q^a4s4PzH|zO7Hp??^9t08I%Z`D%AS-
zfA;G?n<?(j)SNV$D%6K24gt?~XyUfv3?EvH+@svvSQC>GSIV6kF9`Rh!=rL|G*cd-
z+`IKUbR9tEUC6v0nfJjOLf87_{j-44$MWt*-km+^j(u{+K6J3h!Sj#VNxjbfTU=fz
zvTlWigx-T0=&ncZQ`WsK>oAhFh10Ej<kmfz;&7(+GIh#)u5IrY=Wau?re{7vJ8z(!
zC2NNXslmPJfn)N(u}twE6twsyLQ_>Uust|V*d9dU2#Pv#(vjf@?@fM0WgTIuhma}S
zDl#TV&^ZSw^%Wy^-w{gPht%CjJv@%oefJtZszK^umbxE#<CIs+u-r17Dein6d_k>g
zD|%rb>&&QWcwdHZU0b|2hh$-vtPPpM{zYg&4h>|AVJ}NVP!on<UK6sbN3!-k8NO-l
z@V!waYiG%t(KDcZ-L_Y5+nXuw$ka@z2x=bzg4&U+83^iz4T<*kqWeB1>t@M1vUAJS
zjH$^eH@BLb&o;O0=BPRLDVxK~U39$2OnS9uI=c04fa0D2fK=PwRO^UbIf90z{@`Z)
z;YU8MvSsz8KFWu4M)^Rxe4kvtFH_d=P1oA^Kk$CovVQG@Zd5R5pbw+_X@?>z9`OAb
z=#?!nMNjQ}RE`|Y6!)U?AD4Bk7d|Z8OSLKB`ap6ykJ`k%eG_}Rp^^0933>2Drg$Jz
zb1WOc&`AO?1nl==K<zt)J~DLgvmZ^Nbo&_khqYGQC%0iVL_ltpGS;&TxOO1Gqc$AB
zL&J?6Nbfx(?>&<#-k+&?IXmkS94+EJBglFPSsy%ytVixQ{62NhgDmTPX!*vLbi;t$
zfPU7QsX3~YwW;-PBud|iq_s%eI+WoX*Bb6o%2t*#gp@RdN9B%DR_n9bS$Bd0c+{cH
z+YV)P``&ct0lD))rg$h*bNZ>Xvb<=spGM^f7e2Vf)rFCH+p|$Fawr4BeE2@~^9akl
z3&&r&`_f&9<gP>7h@Nmf%_{?dE)_sGs9#+-0CWIA|5yg*3_p9HP~Oh~^q};)*&C?`
zSoYOw_QST>TU-24rsmR9rzJIO@M^Wehix1Dskeg7p_>slT-AmrBxK6ERqTI?hBvW4
zn5lWeNcmjEdpXP*-G}Aw!<pi})|5SCXtEyQtP?Fha0H#DXMOQL5v2i!v|b>sE0PW$
zl*0!z#lzO5U5Ajg3rX9N6!acPt2KJhQg-K}`=U`?YH5#(YTg#rWn6?=2CvKbE7JaE
z+25S<M?Mae+!;=nw#%jM4`Hmf=|Q0T<BD*q>xG9EFQ$SoX4?B{zHP}2ou%J?<F~FO
zU8fqmIV9H|T0Q>G`3%?`VmrzsnTD}UbI0Sds&rYmjCLT;KDi7;Me}UtyX#6o5r`2f
zXayyC#D_5H^L;;lIvvDV{_#`60aoJ2PfzA~hKu4Q;30pnxBL~}{V(^|y;7X_2fe+o
zROCrV5UlvrB}8=T>Ri@ofP8#prvXlbyQI?qyBQ6<g_8o%Lv)h9wcuhmthk|Z?-1Ot
zc7p$f=K3wSkcSZWZQog3$A$Y+xL<aDfY|hWiA(`dUO5l6y*+{#ru1klA?MN4epq1W
z2a*;z9T>}bp#OLj+K&0ptAXXd7sF7UUMHN)%d<P4F8HCP>H4PQ7aVhiIoaY>@aY;k
zH~}?IC!k=+OyQW00xkral<pvsw&}~Z7B!iZDmUvqgJmAsR3^<6Y>UyB2rOuwP)#q7
zlew*Nw)#ufTv>b-w%DPsqF(O?As@{8(3LJB>9>%D^eu8|XNH-c3Fj-k7L(;9{VBdE
z?pMW|>Ulxwk0|DUq(B$$Gr+YmAqqG`4lXpr$w6`qO#)mSgX~mUmwKoWdsm#k$Wd=n
z3S#G67uTt^YqMR^<VO2d^osbu1~{DMs%%PEM&!!K!^-|uKGW2)%HR2n>}`15&?$Rs
zaXHKaOat9H`~Yj8((cvcnYxp!=V5g!6=+O(kEdD=-52h^lxjNu5HEp7u=Eu*??t~7
z%@mhsYGAG(Yl@b1Wv5)(`LMDJ1FND9w4lPbN~X2yo6>cC8+CoF6JV{=wS#i);KSPC
z)rpVWaGvpD+uqfQyHzrsE302Uo963f`s-ce;iUNinIE{<^oSpRlF!wvCb>WTp~rjZ
zQy6)UJFYi*^lhLa_gQgQBgl5_*qWa=`=k9>*%cl&YtEAe4-3%TN9sgAbgn4p*)^Y{
zoXB|1$|tz}`(F#5UAYC6o2X{aqvcbc6O32r(N$~@wKHR#RhOFWX@257jMEJ!tgJj5
z%y8ZJ6X#K-r!;@F@(7vXy6-2>WA}PE=13Bf^SnvzWN6=;A9u~$2F`Qa$<V|9Yvl2~
z`eCNbecq(AL0!3_81cQ^!_Wh5Aeg7g$?T4u`A?Qd|8{sg<Pq5(Gb;~nZg6{yH$N1d
z_J%&~&iu?78lNU4eZJRw-7U|K5J$~ay6;m#B>v%`p2GZH@gV%L`L6qL8jYJfqQ9BH
z2t8)L>AqRlt$c71w%D0FuE#Qe1s6Dre8yRvGDCHrjt#V_>&=URdRqTt{_ZjcT+i+A
zXH7V|Z&!G`_ig8Gx>mzD7cw`g!!&={OmWeC*L}O>>YRH~k7fSq{ezjQy=;c-zFpzH
zq{lLUv*3Nk4A*_T!kf}#nZH@^e#Q*feY?W@tRBn!&4TwiGhFv+@a*V?bIzuG;F4`}
zNdlZDC+FN%9lrSsK05?H+l$^Pn4!9FmvUH4GQZP|6GG0pYkDg4SA$*v=-16q-M0&L
zi%De-`kbE1{MDfQ0DayJ)qT4_w{rMu*%$Rx<}aXwe&Eb2H+RDf)qT4_&o-Vc=_$<L
zPnY(cBMhqvGo9``&fRgm@()lp;xAv*L(Sh6e(nwPP4^McspV|L30Y{9{Ye0oXSM5*
zyxkcAOTV){EwBp?__^D9na$rUcwaKZb>FV=-qK^4zgh79wi&Mbc7?a9$1;Dj;C<N)
z*L}Ofdq<CD{$|1Z1v6at?F!F^LS(_aqeC%&cZFv|Te9GN)r6z_c7^vfJ(l@vfydAN
zT{B$w#hrH?@2sG|-_=9R-(B;vfo0|enEwzfd<X25mrURS8fY4lE`WN4dt_2^^r&m^
z^Ag+cY@j7HbtZM=^XJI-J#zkxoWDa3+wlBz_~`22X(>*=d`(M&ZHX#w(o3*xhtdF-
z%stU%di_7iA<Dt7laanpKAtkCo+4$)si)U8`HIOGB!>(hvaMZJ4p0g?05lh()5{X{
zsNjW)mSxY?(ECs~Xr~Dl+lQSY-(QduBZqcm)w@M#n^kGpS($)T5ZE@XQn*OAy-5p|
zg*i|#rP@YIK>JR6wMxx)EdZRjPyw(lT-wZ4iY;oyz$?xJN&lIORj7tTJAv&D(}u3%
zCw%~ItC#KWDt@K~AgHLIU0&RSORE2xDj3`SRf-@Qv1p#LjbNNup=%jc^#aSzGuu|K
zp@TW9;=wj8hoD7sf}w=%PUAkK5TUh|oHlZ3t-?$xsm)6*t3Ut)9WExQQI&<1B7z2W
z5M3c9U&Ax5uS{G^pwA`dmEblE6#|$p+F`%yCN(WllC`!X9o3}KZ<8R$lgGBG>0%-o
z#xKdbATtV8BlE*)exJ<m%ivm}V80yf$2CK+)2!MTd|n*bc@A_u2y`&}Yjh9M`luY-
zn-0PqW%m{h%4LJ<y+x+M!nHX_X43o~ncs77DZTfyy!Y}3f8{Y*I5%L?^+)&S<lxbC
z@Pv$Ois%lcy>i*!blG9K?63~8xLmvU2>BgO2an0YW0sf)<gx?$ok?USz87Mlb>zK2
z%^#BaL#)DdYm!=AYqeFYps*gF=0|0I)Dm+<4vwfX)q9w%S2i7xg9q-Pm4m0!!E<u(
zoN;ecy6m)EcG_BIW+1*s4jxYjPs>5b`?VXM(q$*)vJ-llbMJZTkb@oRAl;C|5{$@Y
zBll~pkq6|!Kq`QW!TNT)9BfYqBXTfeVC25fh>T`ykpnHMKwqY_`!~Grds(FYa@l?r
z!4J#GMsT<!6>LLK2=_cEikB;|R>kD0(F=y8T=$b4ef{!pyz>4lke#;zW(YFC;+{M1
zbg)$>qm*PJUk;9?B8TCogO}vsrH$Z~$NuV+zm0WOwkMB9*^}nUR?_`Qdi0_^%8c7n
zPbP~}Yf0FpS55xk`(k?JtUPjdgFnZv-GX?q<YTg3u3Fkh0(P<0S(zV6^9N-9fYH9d
z59|75&%Q(UcC7nk?~q~FE6qn_p02%y6<JtE)@<Idjmq9g+B+zF+4WnO<)O<P-Ydo(
z1}K+zFzwwddvO&(ttyqYg0N(BK=vMBaj2ux-C$Q_{P9=R=-8r*q#GtS8YWgJ8Bz|)
z{K5NEGJiVFUzGWanP9^YS@B(5<9P?RTB<tImBSmA!>gxQ^i~<W%ZT2u4)^<&kNBh5
z`K;RWn0nu#jWTS6u!vO2bzpNe%^#EbV;>Da;!h)D`QgW<&FRuZ8>NR<VQLpx%#Db9
z3e>Fnk;}ar6feymm-*u#U3$cy+4OK_hf%7g{&eW*qtMY5U&nwDg-M0?r^BaY{PCwV
z!5U_t^an-7Z%@A?vN)FJ8k7044B3_Mk%K*YbL9-~qcVTgHV(UU&4&h0^W!q?1?%?d
zt#Fvs7+vj9nm-})Cs-UBa@IIG6}Qc67=-m6(0wG$pJvrUnTgm~;Skxq4?JNrdP3$W
z7@WPJpU;a!ghr2pIt2PR0{v{z)4gu@K!y+LRI@c*wnr}8^PlMExF-j=remtXHO0dY
zeoBLwJF<43+z7yQ!ELo-Rwc{b*j;jB|H#R9lpJhFsTgmr6(=t3?8Ib;-KSfgMeOhh
zF7}Ra*oLx|m}4y_V!cDM8z=I}c?7mLS;=Ekbx+Pmyh752GSS223w98gUHe@i7`82T
zgurs&1%l<8sdr}Bu2TM_y1PT=k^U7q|CF5HCg<C5aPadC`I&wlv7X_4m1!7-pEUrB
zW=Yk7=<$3w+GMXz^TP;8cI-0ETaO@P(aFVs4Joj96D(f!WGX6G{h7LY+|KscAG~w)
z%b1+YS5IUDWp^E4PU6B}y0f9U;%?JdYoNV$$N#vdAzjnEQPaD6mJL8ge?gV>-by|C
z_iHg}8(&k{h36072id?r%%sduW`a$67p39JAV58B@ZKomX_RFT=)w~}R~y-G1<>e-
zB$s055w*t0tMRa_JZw6Gt+`w+9@&nhn`CMAgtiG$E0EGV3&_1CPQ5Fm+ZOAzU#2O9
zTkQQ^BFr}c9xzW=+Ayoci|axfb6ezaI&w~q;O5;4)wUhQW0wA4hmrLka>6yaR{y*d
z?N7;}ULpNo<P?ze|B_Ql&SP?jL6rW496ved$T>hxGdXN$(MLX3XObS|8n&fAW_wM>
zZ_o#Ft^r-~--YKb4*li!*-UB8?TJiz!|lmTbvWg&$W-;F+~t@Z&p9qQp19&(PZ8<F
zsh*Jo_s4(p=10Tw$f+$BvN=~=;n}lxX_LcGYVVmX`rX{8n-Dzi^pu!31nCWcYdY6k
z<?6_0K6|%V5oGVG8A0+snQ#|-&N|jzn;iY#cWtrXt#*g!yh;RFg%lq(?s>L(tK_L$
zvsiJkjb1W$A7=;JvuGsYkkQD`!9#n5mP;tmqM(g*g`G`zU2&TB`&JA}q8s#w9iNbT
zO~obMzJlv@!&vrzL|&{3aj23Ez)DBRVOqYlmX6bSA$p+_i+@kC$(f?=NK_t|lIC$o
z9TSd+{)yl7-!FyMXvKT=U#Y*F{BUSJ{=vS7#WZ1k<d^*uDfh&WANVI2$e(NJc4Nmn
zwwRcW$79j?ctX`bX6nOP*Md_47*^)sVKaww2Dm7I+#Phk6?k#4U>;d<CefYg5<JW(
z&{AL*KbJtyzz$y)di@S8Xp#MiOB~751Q(f-zvX<V4{QFf_^9H?NJ~E+iiPH(y-$1g
zno_WS#m+P>DRD|VbYtmtQDVpY2Vjd~c|I|FV}2GVaIW5DaP+!{R1N76j!VqqBrX&H
zSO6?iOp78iq7XW=GJA~@V?jqJJtIB_LmkZj3lPEP23!m>4nJ;6I7W>&4oC6gYK5gm
ztmmbFhEIxPLGh>=Vx7iOeYB=j3f1EWx{5PtgnW(~^+m*E27rUbw@+uPYj2;*_=>()
zT)%o0r2Ve*?&+`da#^cN;|m@Ha3xRWdqrO<y1V=+*!H-x;j2Zs5}~94TkHkJcaFYY
zh%2!IoIkJ&AtqvFy#N6gZg6EJOuK7@mG0+AzR2o-;*A*T!jH0-!-o%}Ew&w@=!BVv
zFpKch13jU^p3t72&_F+Y_`e7L@%a_@8AO^0jykvgYxsap!UACxKXLr$v~K^G6puNC
zp<=w<=AenhSN~%5+L?#`NXo6vH27jXL^bKzT8CrW6BQg&=)C$rp$s-e-2yC(ii|}N
zoXjey2k-gBuxRgjFosPAvAts6HC`xyMbH9fQ?y+0;SwD+jUSijs6JlgHD4i2YqKy|
z7A-=mLZLzkAS?(tZlM?<MM4QIiw1;JxWSvwaHUdgYNMZzE#ewHDfXwp1;g34Pij+8
zuY!PVhK9lQ*bSWJ!+=S!uB_S((NtYjJr~$*5JR1GLee-X6^=0Q1Siym!)&9W!vmVh
zc@~=@AC2E!oQASYsF!RupjdHsJWzzvj3sIopqJ?utcj&*9P_8*iBeB!ZW*JP4sL}e
zabW5OL`V$Eqy<ELI}CH8?t!h8&>}`EC;|=pc~L8kN)IMO&8jS>Ssk%dq02ZW5}L++
zJwVD;98-fKUHD#)-2{U0WmZ4lp=t#QVj>2@K=u#}oDfaWtKSoX<&~w^3DwqM5>B$Z
zp|bO#h$^A!R0jeT0yk!dBEVZ`m|{}dDO+e2K_~~4=b~C?&5SI~0ZQpKP_?wcF7wrl
zqsNsBaWQsvUc}kCYcY^GBfQGIn?jr8sEtraTqy=B2=O928#PUghW-#ma^e5h3Pw6<
zqe-CRi{SHdF{Q;e?F=ZrX;~e#KOg&}#Vh%C8f50|2Tt5Ay|Vj_3JIEV*<+{A@&OS5
zJksb21`)H&RAGS^P`_GT>t(TvjVm50FA>zgFM1Lsx*z*#`ExeAEGw2>Gr@hUU?m?j
z+zRF+UxJu1_N@34Rk~lNkkUwkI8FB8d!6n#zIR}k+DG<$X%5YOKJ@7EZuu?w_!C5!
z*`t4#YN78}uvnF7(!cBkbHxXXw$!$G*dCci%heFowZ(vCckG=nVn!~A_uH@P>{44S
zcI{ACy(W6wYIj_CRSQ#WK1g2EM;eTxh&Ti<s3SXeV-^RPaj(3jc4eHm1sO|Rk1c9e
zkuWZ3P?A}uIHL({h+?e0wlphXpiSc_-#knzs4*fZaS;q#AJ8i9GA1MAg_-gX7qjJ^
z!V^4wm`Q&dahXwig`bU|U_((jxg;t1`e<{XnLK$x`W1>s+bGg`a>mISBj*S?N6Ded
zg)yqkGIy9)*N&_VH2Nj7S1+9>XOf%?aFlXOS)%Ga380@!MK&?ezT8x*Gy-zN*fY`U
zffK)GrHtq$GxJMVVbI3%EzYBqM7{J!<w9xMk*v7{7!!=DYtxi*c50PoX)-nr=Cp*1
z?Em_!_dkDsnq6a%IdF)6t26r#;FLqg-;nZm;h2Lev`&Q&Zt#b`>u>tzwRHP_xqbid
zbo}$4Z})7ppUMPk@5UYk8b1zJ5VM1eLdwrLe&}*R_))}F_5To3tp4v;chRAs4w6Aa
zLP~O^RPXpk@OUO1NqIxxYuT6L8$S+Ir)qjXOl$;(f2SrBY}sf#h}G<95t!)q{h3fV
z^o7$cd*znB&pfVnNHm*q9Hy)x)zH5&cygokRHko8F6()Q$k3m*#Lf(ze3tKK36MRl
zi%DfM&68{{)i&~o-?!PqweEk?%Hc{A60w<|KMuC8{q((7^?<>{;7MK97wlBmlC9KH
z+Q?}qrvpybbq++)85REwJfPz4+q+9@K*@+hx7TlkoxPk38ORzm7S=9pg#I!z!N7Te
z`eYaR^LE}Tc@y8`G|8yFN9{Y5C|R|=@2C^zKc${?5K**S8dCoHOmz)}6%{q<ijIwn
zj#XTVTJrAsx6ebgOMi{Mv<xla3Ttp3Ltzmt?N@4eGsG}iYdow^RBWAvhlwBXoBM$3
zmjO#y@9l&oosK~Vxq|ScUwy>zLaS}8=0f<9j8ZVFk+Yhkh{@KSaAB4E{5!%64Le95
zvQVMkCAB85UwOpi{wKZm(`X;#q29rI$Vqs1sWawBTv+C?tFx(pV7+xh>j!-Ri#`#;
zk6KHbZ1fc?eN2{buOkR%iYi4EFSk<fo_+i5&rkeUs!cBnq}4|8fveJKzqL{nC)sIR
zDI3wz2Gx@$bJUaMZ`~U;-6VgjP<O5#@qMUjZ4VpnVbA2`<&)~dsFnuVAvl<eMvz?E
zN6vn7M#;$*23gk)+FcQf`|8rt{LVK<Q2$f!f2IoMUZHx9vM1*YRQ^9e47x(q=kabf
z;BZam@G%_j0%?Wx@kwAnyG#PV5am?V+->>FPpy^7<!zh!6y)U^np4d~a{chVgj|1M
zvw#A9I0ConCm)Z)sGEi4E8;3^wg}qhqJyMGO>Iy70l=>AP=!MtyjW#L^lA|m(JM)c
z?zVpA>=q?_f=efcNmPU%k`&?RDXyTXrh6zf&2g$>_@H!&YWo5zskmZSrzILM66(z<
zf$63Bd0duA7nMio6Oj-l4<`Y@Ur0pWlw!*at8&|_K#$4yNT8<_ka?2`UD?g-IVgVi
zt{pV@AqHzqWtauS_+mnuy}At6Cjw&-Sg<U{vExmCq*z2*mZZpQ0})lI6_;p|W->wz
zEb$`P=`W&;c?R*u{4&-8afx_lrHBO~y}D3PjUzClg%+R@vq}=Jw-si?${Ha~e3nE!
zwME)UOtr#nd{I=>7>H;Twt^Bc(I)HCZ_?`la(<nhBXE=&<AO1Bgz2}R&_YBa23(bb
zo+2M(rOuP@Yvg>BoZldaSP&%;jm8#XlZCDB;?XD*wkd9QQ|rH{SR`{$g$u05H&R#&
zIZbdB??Ko&S)LaUOP@zP{BiLl+)bCm;Q(*o2z-z8{}I>nhg|C)a&<r8Mr3Z}Pr0f;
z;zoYtbUB<qL=1e0{2|xzhuq;GIXw<1&OkVvKjJyZq~nhZ%I<vTVL`*~yvOxzYsq^<
zsrHf7{xd0DtW$qB#noi$n^MgO<obi;FN>rG&dFuxQe5$~yjn-$olDO+{A?a9a+I$R
zr}~e|-N&{#ygY06I4(NwE<Qs>7ah-nQKzHmZqYMbk?SaWcHDEwQG}tG+B5NtgZJ4H
zXPe_-s%hUd4!_SXIu`wo^Nv*Q;4_Z-Hm_E4)eUR;Uk|K@<*K3EzST1ixuMNG7h-{e
z;l6P4w1wAOzVTDq%fT_#^Vn0c+OnEl?UOw<xKAAMHu->~V$HpF=^F)`9K83Y+0T99
sqoHrlZc)f)Yo4QTZD^Cj&-(B^*ZXv0*wOc+lAm@s`k!*-vbOpE0o@f_n*aa+

literal 0
HcmV?d00001

diff --git a/v1/metrics/__pycache__/prometheus.cpython-312.pyc b/v1/metrics/__pycache__/prometheus.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..13e0a0265820a746d9e0ce21f4501d774e560403
GIT binary patch
literal 3416
zcmaJ@O>7&-6`tYmlA?YoIksHalSWoc|BzLZO0tnAAtXgnU|Fet(3(K8SaC<v(#u_9
zc31QYbfEwNYQsjIn|&&B=)r*tv^_OI+k<ZfdJ!wTQn$JkO;Plw+6hpkm%bTtcj;91
z06Q}~^Jd=6d*A!!{h_-%jiBhU+uEO@_c#9ImuS25><)D9p%tVe73-+fYH<m}e?*T|
zqorsyR*F^Qr8wquQ9V&jmXa7n5KU6)A#UwcN~u^$Q(QUbD+pT^ZzU0;88!9>465-D
zQK?%^(AZi;O@0_F^{5hz^r|VS`&^t$|C2Ahl8buM;>_&a((>X}uYbzaby~Jfwn*1C
z%Vw^ZsXDr?)tFhPmX*U^mu6_TteflWlzAs)n5a^FgF2QR2+FF)%Hg>Xiop*z#Ipok
z;~p5m4rVKnpc`~HF)P_||F@Fxdtv*q-Bn_?<d0T_6a2qc`(iyR=7zE}{+dd!-wRtc
z@?s4S+vmr~jdkqQAMW7y)Tr-7E}M&Qy|YAZ;?ziJLK2t|Y^@pV1Pm#>;Sz0)7^Y1W
zol!+~N!c{kv~`D3HSZmNe{o@cX8GNjl_hz8<?`|z{7=c#bBkM}Qy^_qmHa;mqS)k&
zwe`DqOviYER9&%%1&3XAiDOZgC(9d})p5A0W5FaPb*%=<R;gX5)F7LeFV7R^7#1-Z
zaZLxNb)Bqfph+{7a@k>UHUj8jTG`5z6@#k)D3MKtY09cji2|Zx7qJrTRHICH$p(zW
zY+0v@;neb1aw#ujT3(VGn;J6>PqJyXwx;RS8(4;($rR>J`<7%7Bgl&xN|kzvHjLvc
zU3J#IWL;qfnEey<j63biV!^J~3N@{E!B*HhwJ%(ECN551o1g_<TP@UFd&4veo4Q^t
zY>pM$_b7zk%-3A+6x_+Fg`oj{?Fbn*1Zp@`ECs4<bSNR|8$TcT#qcM?&E#vJOX$pn
zy^*(?BX8}F6nCVT560fx8(V0OE!>IRP2WoIWG^(O{DIVSH*+hqpLzZ9_`=@!a&vt7
zi)bX3hSjOwyFIsh4kOX-?|c!Br_wA7TD$~<BQfK-0Oi3c0`zClxrgjF+aPpQc&gY3
z@(1HK4{cE@+^%0KYQ&es$WHl_e(>Hvc9%a^34+icL8yVk)eW?S>>ht^3FV?&KbdXA
zMX7OQ0Av77q4f!CGZ<M_EI_4cd^Nh#1d1O>imjPOJ}t%;g@LR~;)e_QWO#`bkJ2FI
z7{A}vt1BXIJL5P!$Qr~!#{t`j$w`bemzMy90fHGPA=bw$Zd=BA&>NcPB>aAhgaeLd
z++{$?l7Cf;`;D+czT_p?t^;baFT+m4>^I@FicoE%&wG%R{;~UkyVHMeH+g<1IoU?k
z&d}Ur>Ai#O$ZmG@rgR_;?n!5x(%A=-kEPf5dtbWQ`&n0ZdqH68IV|x53oQK<I)Ejp
zTLt{h$3<zNN`M@H3<dt4Mn5bdbOYM~rWzPf*QQzv-|15$4O|JRKipvx!R%?+JwR4C
z*9dTn(Vejva-+GJatchgVzi7y88D7Z=yiDcIQt6fDf=&?Mb_Z069m=aMBl7!=m=s2
zZUmZKbAar?<2G&W#>s4It}r!C>Kl{=#7C-%%em7(0#yZ^S_lG`v$ZO<h*D;zWr@86
zrMA@-b;~>tY)Z<2abm7L2l4ZyPKiMQ`?g7(@Q$2f+t>@PBy_Ip=BlCxc+HDJFD?tN
zjB%p7l1m8Cc`+Sq<Ync+I<jpFIiTSU#ZqjWu~T4rFC8k*Mc6PON(GB7?or|cHk6dP
zF1dY1HUdHu@cDopKz+xz-~DXp#QksW4Uad6$Nw}maWi$$HSp2J`|D4-Mjwp-^6IbU
zU&((wH@%-3+{>J9W=?;cdXhQ&uQ)n3`M-eWAQOO%02ZDHYy)j$7pFRadn9aO1711-
zdlWbu7$_~s7wjNksdTs2ch(%>p{$Ev>7c(6#Bw(x9qW(GHf+xJqBH^;4tKl?S=f!p
zk0LGv7H{jgj;=?qqB_pSw!XHs;n=EKH;$mI{FSY5&nxU2&nkl4FT_)e;&`q|&Zq?P
z1{Ly^Ei%Ix%%~3Iapi-r{eWMB6eO1x?{dh5HBD_%Uw;*paU$b;%6zwwA-&Yh^)jt-
z>h|K4tMH<bv_eW7t10$|7lmCsOfBwRpz#(lX07(+I@porL1Gp@OM?nXF@Z8?wx{=#
zUE7U)37*h+yoe8a`tEACwA<HiMg<#=Hl@*ztq0SOrLllAXMdl4BF+E%plk3c!hB8Z
zb>118_-*#n@BQZ3p7eH8diy_zQ9k*lbsV(aE}~)vJ<6ntZ$=*toi1LCKDro(ey(3w
zgYlQq>klbMF6$aKY!QbYPed1wnS3juVLWB_Bw0kHEVm5CVa_<xyk1#W49F(Mn`gm1
zPea7JAYx4zgAMR84xyISq&KRj>ge=M_8N@wcgFfYRB#cDA=SX?zo6cKpxGvx{X2T)
zuc^V0ez2SR`gY<lfr@wr@1PU+C-+W{H&2d#I@mn<-CZ>OG?B&W!}HyEaOdS$pCM?U
Pl5TwN8R^1BEENA2#4t^&

literal 0
HcmV?d00001

diff --git a/v1/metrics/__pycache__/ray_wrappers.cpython-312.pyc b/v1/metrics/__pycache__/ray_wrappers.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1dce9210cb505ea4737c583294b55291e00b314
GIT binary patch
literal 7801
zcmb_hU2q%Mb-s&T{DT7jNlUi06e&><NkF1aOQPa9s_m){Wk!))rA88Om)J{kMf~~h
zf-+zzVO-7BZrridK1d!rQ)cQm(#Q|)Q}gId`_P%ZfTbJJJMxS>oj&vpG}&p#Pd(@E
z4*&|H>bg6?xp&X~KlhyPoO}1T9UTz@PgeT5{<}Ux{taK;$M0meB!Q5dL?fDzC2353
zSs~|3`vlC3SurQ2p$g=stUnh>2LuwvH-9#m3#G%nB#@2dqUk8l3)znJ9v?YNwBR+O
zh3@+7anf<l3j;4g<99`e+sV06;KrJ`U7Xti+&xX)ZqAJZx043E9(p*p3%K3X=W%;E
zw+FbrRPwleWnq}m*a%^Mn5&Quze3(gUm>rHuaGN3qVGR&QnLxc>YKUrTp^#Q8MDC7
zvqFxVi?n1wL2u*jqN$qa3JVLA0l)KNk!GH!nS!S07qAZSg3yfV8Eh7KiDxtRqHXHQ
ze-hqr5=zp7M$$e_xJJ^V<^w8Gzb4XvCegsWr1`H&cb)d>U^$QoT0Ixka$`Qu5U`ov
zgF?pt)>A-k64NVKiJHy^5D>#%r_Gx%fhtj)4I`vX6295W@iwE#jJ{UV88u`ml+A)X
zM`b;4m})jlwPZrHqD(C-&ibwBi@9QfnJ+L_U{=89-VrRxpxJo?$Ckf(E@kG5siIz-
zFjcld&574bCr+JQIzdxeeJ)ijn~Q~fYB`(DrIwGUoPJX{#ucU(i<BA3V%Z8Qik{a^
zMX5aAX3j~sv>Qe=_5oQT_oMx_=>GfNPt^8*f4%!cEq39H{RiKY{ye&cqRKSOG6ak`
z{I|XW?oCqlu?tn-<>ngL1Ri&jo+m#ZA>>CO&8y;7sUh#GWJ-2TsO!j@3GWP;u0oKi
z<nBn-R~5enmESom!OmO`xa}J0<!~eK=Bhroy+Eo0`_PPfCEi{)@!IzrbK5jhx7Vc;
zgs>APN`pU|@J)Jq9{{JRy*I=6$uB%Pyea(eS8sN?^D=wf+(TNoSz}dj_rzVTn}RIK
zMUoI_E6>c9a&wf)g?Txv&e5zP=Sqet=TtMZC<9W+d9U157vv>cHj?rSuLDAuRFf-#
zae1L&%87{O*G-x;tcY%K<H={JB^oAU9WZaJ)1aoJ(RsC$H5KT`u*59QTVc#A*rye_
zq-IOhHY-WfGo~e0^kTx#aA&N5JvS?6r%PABunbFBvV>&=RZYf+bwZ9k0i?3Goz2*7
z2cg{fEsz!RS#)4yaOB?L(Y3*&zZ)FCAzc@)AHP2^v^w<R#eW${+&`SSJ@nV}*UznX
z{l)j{e)8BvJw!UX-ko`S=3eZ`TI|T}$3Kld{jbrk`|<AUPyhUl4>GGGzZ(1H*u8@%
z)()On-+%I-<0tR;%XOd7C*PNcSD*jY%r9r|jhtE=IkhfN*AATi_0#`2{K@=3jD7M%
zT@?Dx3tOT%&|N2DS9d+qGSEl8A7wrs`TMcI8@o4oc5U+PKlQIC&#x!G|0&pbyyvYb
zLm056yqcp{fKju=@-6m`BI4M23^IV7o~2**@DU1}M-wz(mAGyOwM5;71`#e}AirN=
za;A_gs-`}tXLYkIU(wA)4xVH3_lh+CGR;ziwemPuARFOioSdy&bJXk0Pyyrg3gE2#
zVqPw)%+xcbtje&ZZU8bDvuXyAS<?-G<H8kCxy+)<R8T%9AEC*G<hVRKJ(}=3<Wm_{
zMghTh4xaQXo!QxyF)gbTm2vsZM0#94HgRfPRw7>QVVRZY=cna-;Wc$yeqrj^aj)nC
z1^%LG7LDmtY5}BBnoELcQU#F0gz1Wbzj|*InPM?Dmo3bta;lzB8QN0HU>VO3pz*L$
zj^<5tIjW|bs<NzRb;uN0GLsoTH#s?RZt}@T&H)_CM3EIPgQ22xafdWOa(qDKfs->0
zXK3E{@na{vjw>BMd=;buG69JwKehxV;j?@U&AK#~5ZDmti|z5a;aNip_&UYgQ3ZwI
zty;nDuS~Tw%SSdF!-3FjSIG8W(%Jp)^4rU`{=>J$+b^%jCu^ZeuKu%$5IRj9M^UVZ
zqT~u%DU11-qP$j8vvvtXMCBl1#c=t02E@Er&{#k6M}gcSygwUF&?7M<*vv=*xkkS9
zN&ew4V_p8<`e732uKQyCCqEYJ1d?BiUt+Q)0)G?vc30Rz2L9f|BUyOc`ePu?@lsk0
zLqrNOX%wO*38E!Q^HqWn*!ZcRN{>Np=RM$-%!jn#HGevwg=mn5u<pE13tyAcVJ!l2
zSETGq#H=_7{;XPBpg*ufjLId<7_!O=rMxDCE+k8)o=w`eY9x7GjD<jhmUWHF23qf#
z^DoM(!4(AfC^rZsl}uKLjkcT2a;>mBv_gjKFvz!%w;~*QQT~S2l>--`Lvt`|1NVq#
zyjTHN=ONV!7tBwjs>q@ZysC<K9qh_Oe0S9kzR-*Ppn>y%-*akR6&jI9yNIJIKvd%Y
zNN~{(B1SKsDU&<C*@S4XD5_B-!}KCwPssIJ3BTnxOT{eZio-B8vHV<i-0dX-+<WmJ
zSPBXm;x9Xn)jAt8QFs>y21GW-+Ny^dR~g)~abDo}ER-7G0kT5sy`*FRXUC>Lm|ETY
z>Avw#q*`cjBi?f_KD8E~`dC|!pMFca-#>J(e{`*Xbfc?p^_kk~nQhTG5W(os_8oq}
zm=eu2y8{#~cN!-l13@CW4C&5icky2&cZAu5&yE2^hym{SY>AwLeheJU_1YL1R`3ka
ztffh4aUN^JaSzrBYkK#Mx8Hd8r*HrCR%tzcs1`cJC*R`gaQpbIe*~GYGwUWr@l*i1
zaGtwv>L}Jl!cGGV)C1!ihSRqsQ_oSh2eQqu*n^>uSx_=1#t_x9Qf0W!N_SSeh#lFX
zJve!H<sX=TRerDh{u}G@v07-1uOE&mWR{(Q>WL^j0trhXISRxIDhk-5qHuV#q^u6!
z1r^H@^}K2M=d%UX<g;hr!8YSaFqp7a5b=&7!L=G0AlJyIPw*e8$H<}4jnT1<BS$x*
zaew5CJzaG_r1bz9+;{8c8<lzx-$JDCv0FViUR;&ddPnMEWJSp12UdIEo8H1^^@D={
z@U5O(rT6x25y)-@eExBJd>j=A^d3C3;IoAq@gQVs;oSjqKA;6SOh&X|6HtbL7Y2xo
zT3xUu&jA{Oe{?}Iy*o%cwZ9%rI*n|gY=A<hS?4?u{0U#`t`I2wzd)e$FbHH%!W1A1
ze;Se|kPAA?uwl*)(s#lf!p6?voMRdW=dF_VPz{aNcm~J{*^H6nrymJviM9Sjdq`u5
zG3^2Ec_;yB5Hw*4%!LW%|0B4;jRHdu^AJwYXBf`D1=?nSQR#bd%}{v}>mC3C;1=z?
ze&)}nH)7ongE<%lZ5*z279fGA{%j($!`|8N0pAW~p2Hl<o8fZV3rKJ(J8k?d@{s%y
z{Ee4@*fu`o+W2NT;utujO$Lr{Ee5`Y6*mV(*QB=zWNmB4{#&g1(E(6ocYD?X5D*0#
z0g)311tAOy(Li$;#H|}$%O3#v6&9G9bM5=p-R;|}|Me`~YqrzIt>9cKvqVj!CE`K1
zFT#K89U!2U-!R^(O3YW4@}MJE15GZi&25Vv`&0v9`VtHcPiyo8+MSSWqsA*YHU-3r
z%wfQ&GMyR^qC(hPx{V9Lw&Bk#c81`<xNi?a&JKH=13bqFy!7&VbN0(a2?kA!?*ajo
z*z*XK_)H$X@q^nJ-iq)DXl$*24B%p8@X$uzp^br|?XbTo3fcuSzDW#ZM+#096fDdc
zlr7T-aRU8)Wna5>J5Bxsmp#Cj?O?>c_`$XK!PTktc%l|cIKhC860?uQ295{~fWYB*
zVgsT9Lz0Jolm8!fv0>xz*Z2S3{nzP@eYecDu3;|-IC|^i>ePEb+=d|FsErsnY71gG
zffw28g_2hPPo=aUtX$-m$U85uD}TceEFjmNB{JMFlnl61m@DJ$#Y^@LHyV4kuz(3L
zW%oqHJ2`Kkh75kSz>h>uF&vBJ2fCjtnb<$SS01&GP0fca8E%7_%F6b=#4H>ZT4OgG
z%Mm%@1e>uV6F6)cJ2&YMp$0?pr|>uS06_qk{2|z+-a|h-XUh{Sw3p}OQ1YNWX&?>9
zNgf-C7M?=denqH!=nA)O@$M3aPI+rr#PY7<ow)?JPR?fxLk8LMwhj5pyUDh_pTrmw
zZVDFgV9X_p!e*C{p!!*RlttHNv=cl!OorqJ{P_h%L-5^0E8pGd8Cf~E(Rbu$v-TEX
z)s`)APg~9>jmB4#G@Sj@;NI*lppkTx#?l>h4}M8;Pa^4fSxiXQ07wz!1~SCMc;h?H
zj!zwp0#7Af)#e{NsH!Df<_2@M-4gnSoACLBqnNFGt)~QQP$}gZT>w#0rr>uC_hU)r
z*h40ld{~RWg~1H;2ym(mkZ=bV+-#z=t!d!)u~(3^?i))Z4;9|(Rt&hQhMQ;mV;0{<
z+y<*lSy~38a`cJw$FS9_NLts&Fev5Z7mzU~fm|b>NvFT)k{f%xGQ08Ecunfx7(7;!
z`o8dYZTfuv4(A>Sa<&FwPl<kpXLsu<lvENfHsQM(Xfs@a!i-F&=8bvEFz?MSxqRHc
zm|-F|9pFtH+$7)?e7Z9j?v=IAEp05FdhPLOVTG7;-@`C0u&*sTU7lAJw}Hj5z8`j%
zzRnIIgI|bo$#bD|55W<LTLTwWtN5(Yx9pp^Z?gsH0AbwtOCWINEeKlyBE<fkT>6}x
zgkN2fgn`ec)aTMD7WDjAU{rW=lK|O%S=cL#*ZLFN1k&y49^r6paBQ1Ex;@@69Ifr0
z*d~x}PX>iUwY^8T38dS-VIfgF@YFVebbBx+bkz1w{wIO-zw2<`3iW(R1YuyKyZ_A@
coXo&i271F=u`^TTH&ekg&x*hKwgB{h0HDGhJpcdz

literal 0
HcmV?d00001

diff --git a/v1/metrics/__pycache__/reader.cpython-312.pyc b/v1/metrics/__pycache__/reader.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..79fd03840c2c717fed04cecf79e323d00671cfc8
GIT binary patch
literal 8674
zcmcgxU2GdycD_Rn|0z<GM2eR6GnOsM)DIQM-q^7nC(4gyS+??{Bu?d|1jQLjlqr&#
z8Of4N8P2X3rMCu5?><=Gb`b@;K;(6RC|#g&p5pYSS!{ulrW>&nEt+<>5BtVM&KB)c
z&$%;0(ON2Xfua}SoilUqx%ZrN&pr1$m%pj0u@fk9_Ag_9+(pRm@I@~*8nN-W3?VlN
zPk1IyrkOE@LD~>EOdH3Hlr{p*j+rRU#?8}~F$+Tk#y|!MZ@Nr)^KFAV)@^ObF;;7}
zK&w??ZyUF?TeWr@wA-t++q8BEv^%S`+qL!@Xm?d<ckpfj_;$dwQ3GFlnH{U)TlqS{
z#McWh-m_pKg!Zt|9%jDbvT4lCdxcuTCAgvn{L1^Fr@Qh?)XX=+NFLq~V^dCkN119W
zQ#f;7B_E~h)lr3dp&?4;qBC3hoiL)8Z~hK$r%<ozfi<OAz6H2^^PWK4AJDJ?MzQf>
zIUI?HB?(@vue>lgH2Uf*e+IPqv>=PI2vVcr=~P^ZActPGbs-y%!Iv9EAY%+q#tg54
zFN_%l7VKp>3N3;eXjap}#2fM3JR2~HCLk96Wq=zGO9Dry=b}lGONq&8L7o(5Bo3Z1
zy%e<DIVdlLBa_-EZaO^AjSC!zoQ%Z6vcPlaWAY?-PMCjcHXNT3xOjM6h)ca(IKflq
zSb~#aTrL8WNnDtdVu^{kz|EdIb()JMBsrXj2z1oR@GKBBaXAM1QdUh0bp{ZOlfp1i
z0;};End4*8s2~annUe%r;*wEq?jU7WSnQ~nRe44N7R4G0;iphYv4=v_Nq#1dv@;ZX
zdnO#$S}dUupNzm~qa=%pI}{2h5=l8M$C3#NzOsBQBHtn#U_kO;PxZ^wss2<f)hCC=
z2|@0gn>qO8p>qd?{&;M>KQ%8;CKLU$@%VKA?7n_Ymwr(Q^MV*m&C^w&l>-KonxXn3
z`I<GEtR)w5xPCBHbk=6;vyrU-%E*1TNvwkow0m_|K>qDrVcr;E70YwUnS?Be3q1qe
zbQ07`CSs9rJU$QW5COSxWq_202|?r{YTuw@qRToGFpC(JL=;wZVug`NF+zXQjjtZ8
zsF3wYdG*Q<goLa=B>&2O?<<Gv@=3KD_NcB)JG4~O1-Fr4R-Kz_WPV+U$VqYGZw3-v
zQUtq#JBCFOTojyPizd1=zd9L{IC(xLaDCkQ$ryMxpA@7-m&^%sF-ZnC?xoF*&<B>{
z!JoNg0(@2w=c#W=DIpSz#v<CL=;d&g598MmFGPSLl$e<gg(DFm1v?}pC(jAsJ}E&A
zrIH{A?kUAg?J9v|Ry8ae2VulU(7393(G((9ZSa%O;^;gqIFFOmc(V0ZhVHXo)y~+f
zx}6`vXH0|PnF(PbFu;LE0>p%HoKyF?JQ<c@Qzy8IBsY@+^Mf7FCxW66rrXY2Owo8U
zT-{$<fK9}z8-8Vf+5eTJ_VOuJ4{WTi$6;ux<}c+is0Ba4BEYd$4u~ubh^By9v7G>8
zCnv=4boi%mtiCud3F54}={XS=6kLl($A}~o(b&X{7#@cRHa-(M2XRM>k<Y4c;C=$I
zq(ni2zyw_5^IRArRRkkQSey@XuR<JyXvxJS>IWFsW>Vl9Ts$@%lhJYUlR7w!qV!$0
zIePA-8XJ>TMwozZR1}Ubh{_k_2Dq-Cp+vNcP8E)y56`R9Q6JZ3Mp0CD2>l>}j8f6*
zWQcijtt}i8lM+Pkc$^BXsol%Pc+ikKgq);I>QI^j+Vq+{>N$e*Ni)-U&{UZXTYwqn
z;dJHbgz7%gc8!Tn0?~P9TCr%Nj09}ewot|9X$1!nYq4@+wIx(>_zkOl@RI;=(Y@q^
zz0^#c?jM{i+FVe<uG*cIvU{)m`F(b$>XFE!m_<RJ5fcx2CI(3({5C#-`UaUGi$n&$
zQp=PEyYzQ_-qv28Ct2pLPY79L(##ZF*+ZqL00M0-JabzcTVk$qz-Qgs17MNi++I*}
zL`KPINtd}64Qa#k<gKS*R%4n>=>Svj2u~RUJT29wN*kxpxLXQ*#p7U0`M_9)m73HH
zx%xCqt}bpPIZGw~d8OpMNr$c=dsRE}X3BL$#zTgdv_ZEL=-Nxjo3ILt?4oHKjWO`5
zd{xI!vuV=@mMWSAL6d)@_B{R__Qa6<U87gEr@XVwRn@Y(epM}ef(6gI+P{sBt<+l4
zhiq&s+t~cjcYFD}<)QD6@^`C@p_-PoIc-T>bvuFO0kOUbehrqlE!r0y+gKkDHI;um
z>)X=ywBrNkZG^H=blt(19;cfALdJbe3tv-R>%SsDEBnOv8J48UC<(a2SHUp=P7J&>
zL_skg;*y4p`lf~Hq&Q!R54Hg1ISSSf+wp|Qa_rbKI*Qs2qci}8AYjFi#<(}I**O>t
zQl=PS7no6n#(UL{z1(vuAgj_JnNlLaoxRca3u^a8?kP?qgEW3Fwg<{W>GKHj>NC+J
z|Nmj0@}c{Pb5&8HQgx*94B6Bi-m2-nl}SCfHreR=c8r)Pspn28E&%YOIS;I>ww^)l
zObW(iVOpxTx;Q%)eZ`QzP#%#k+(Rq2V4~nsF-;&63m8QV@1hMWgj$M)iYthU8E__?
z+6%q^8!-CNcuhE-4e+swg%nFjl?#TZlPGKmObQ9)rU<)H4%}*DJ5&n|uO-eU00!#W
zBE{JOkBCPZN*aeuR;KKV9sFCACCnZb7W+Xah8qKNJjnkf#T*7yl;9~QtWbA%h>uMO
zlKe2j9-l{Kt@Bb~tY#n>#}$vxQ&x>0_lj#k0-%S;>;+LwiUFr$(?k?_#jLKVV$lU+
zBvlM*C6~5hdSeYWkS>7Y06Xa~BHBoCs2%9iDmHAUq=cyyx`19p#PUi*MTiJViEv7q
zOv>UhXo6#fNWX-m^Aag>q;1!wq4m0^wYv6vUHe+yo{YKZ_FlVi<-(e~Bk%55p1AK0
z7M%@6hv(XnD@T^P?m2d?``VYEDEPWFgI{`^vrMse$676yujSSob}Y@ld*SAV)qNiy
z`smQzeSd%OvxD~=hQBo$Jau0iiLa$(C9Z~RXRn-H8oF20LC0A+RPY_h3~H0+T2I|`
zpL$S7x=u2mcYV?M%Jq@#@ulO%hL*L4J^6+`>;Bf|<L?i@H+;u@clN%21cvtdVCb$<
zX2VXJc4Y@Dy0$I9{{Gqb&ff8S>i@+55A~nF{EugTedagK_x-O^wr`BUP_pY14d1Kj
zdQeMRyH`3_1BI5OnUVG8y(_*|f1&ws=Ja|~=kn~zY@z9i%<%e=Q^nfW<(icXe>577
zy7ILLv*sns^3Ii5$xJ*=x-nXcExX@6d-H6ut)s|w6<Y(v=8gvrv)A{n(dw!D#saJl
znn?Yw-0p*S%%3_wajY)pcD+!jJDzhMFHJL~zN3_4h|`;68z@*D5ud<?HA^$mXlyQ0
zi2?BpqiFG`K-?f{<{dYji$HHJX=VXFCGgbT+63=_g-A7Q`8>I1j2I?J#PC)F#U#dR
z+-Zss0YTQMjn@rVeJu1}G>$^eQ0hFn#f$_D>efF9(*;<nk@z&w>eoX+Nx0L|m#H6%
zctJ(0A7k49RF_DxqbJvKFmwFc@Ri}E&U;So&g-9^{p9SW=ZlRkH!lA8V!?6f`o-+7
z70-vhTfWr;w_ATSkiD399LlkW{_~#Wkc1HSgN6Ys`x(PRO*f@d11S~6zmNzg^sMlZ
zdC|1gyeEJF^O7mpJzI+oz!3~jVec(v6D~6(Z5SmY>Jl(0Y$TbQSB$A-3L+^D%FjZB
z;!tm$AZ(`QB^*w-2n0Du>tm@9?H~?9(+&7Zh<Ly>b^aSY*L!}_cWJoDy8q(EcV5h%
zzR$K79ljjvQ*(|dp`&;ht0PcFDn-SpOcnJ(eS^d(o(Ie|j(980R$FzRK`6RtlFQ@B
z8loa(I}RP^Rm(+mGwOJ3(F_RCILnBp7)cw`X3V%{G!rc_gI%XLpE@u0N9ocg<hshU
zsF5YjXt@fzDRXs6A5FeTmd2t=kGTrSVWk-V09y9{Mvm&XNL#g8pJ0hx&deaQDraOB
zcGF1Reii*KkJ3M4m{YUFmI_Ymqi|yOAel~*?=uX+8uDG6j7c^vk0$M+J#B}T?E#BA
zWIO{^UWcyDqBCuqDra+gJ9vi^{KP^1#G*Z|>NCpfypR?20lv2ZzBi00hPV)Ls8Pcf
z6_X2aH3zrdxDyo<MQ!TE0R>k^Xi`{+Es}`YmwJbQ*93tY@!_4Qcr@e}0xY8Leh~wr
zV%9K}T?+{?m{Lo@fVA0FaRDNzd^aa&<kXC;s9YhGKw-{NsU`FSh$ovxjkWtxK&*ZS
zKPjt1gac%lInCr)@0T?@GfdG_cf)_(zqIFiYsS3pZT;)?%D{&wZk<@=3vEZ%+6MA%
z1BJHd3f|{4_M*d^YYFBZ!D4SP=WJP;$~yz=kL_O__;~Q6!CyIZ)*VaTd27dV^q#e^
z<RGqQxV3(I0A_0VvZg7+z~D=7zdLtx?%j(wFBaPR3*N^v_Vuprm3<!`ymj#B>73QS
z)O63fr(`0ood7I=_0q_fHU4cliyfWspLy?0#+6;TXKhEO9S`ip<^;*sob7pMd%?M<
zVC`6UxN`2cHTRypdr!gLS#WecFdA%~zjwGY7uVeFd3SpO8XO(pnBZ&4$ePSw8+58f
zDF76;myWM{yg6Ujny)wS>n-?#1yBE_lV8>}f^Z&hHvE%DfLT`8wVEq6#hUt@w{!XJ
zyf={RIdW$p-*fD)>+`qs&%B&-z5+PKW=C25fK!}xmrkn@91qV(<q?E;Iy7$o9ejnq
z^q55kA`G17upiFDelTv{9l>6zL=M1+g{Oag>D~?zX)}g1X;zQdi;P^pJ*tR$+l;7l
zP2q97rTj^hH>FK!gBIltYP^0(W(2ugiY{#$`qSM@Z)2~{vv^x(hC}!}<^{V9X*W2g
zMN7r)lt~|T(aJLuaEHbl5iu=*Jr-?g%l|MYoJI6j2=65vX}Dpa=Z+I1hk2?T%{JA5
z*ldfIZxA5H3}a7-G3<zli=<c~C5d5n@dsROxTI`^hZ=Z{)8RSsB)($Y5r?tDfKw4*
zoFY1kVu7BR+bFeazOWfHXm}CNAlFM+jbit@&0hNKbVjiWTLGs?iV?b0PdmiNaU87v
z8Gh2YP(hZ_P29DY28%<(u(y9#(*T>G-j{v*#@zL}WqZD{r%>OUv98y7vlB~mg}S{N
z%kL}V%2c6kV6AO1-!@oi8!C8DYH_76@8~P`^yQq*OJjNG-t~P4R$u=3%tvQ_)lB0;
z-nwV`jeFK$$xU3|QXSor#qPsv-OuE^pZTKu*}SzgW6w2o;%=NOcy_^dtgFw~1B%~u
z(~<XJ7Ub_<^FNmNKlX+H@hc}X&t>b2O)Z(@+5JBnE*Z&={a>luH#@sDoAY)4leG&%
zSkH3|{CTpuPX|E#K%?R)|3@oGB5qT~v-wA9C=!psEjZ0@>7R3o9sfK!P5(YscKk`l
zpq4L+W*A7#P|^9-B$q>q9y6HesaMq$K-c1{dO*oDkQ}RyL@%{z(5K6W9;ybIdY}~R
zQS~3rV<Hc)=z!8YP?wAh!+dKcO#8o+&fk*9e@l8H?J+q1!(d}}mIzcEMtCjJS3gh>
z3`WMCiEa>hXiY$Yp|Huq_%g3=5O`=!K$RLaE>Gq-a(T*J9*xVxG-u5l1Rh!wP^G;?
z4C7tmm!G&9-yleT{f5E7Jh{|VBJfxlT|IDXjFNW`d~W{i=mvf**^Nx&Qo~YYdH>Sn
z&DIjk)_BKAA9vZiqo41-`^IN3l%cWYe3GdvHu#r(*H4v<NbmdJYV@OKl|J=S?&UMT
zRvW%D*)knjHaohsJNw3U*D||2y0UxujrUxu#?{wywTJWeBYD%&4HJw}nq&6DNbtu%
d=an~0Mxd)Ozh}$U2J-gqys77b3A)fF`fpEbodN&=

literal 0
HcmV?d00001

diff --git a/v1/metrics/__pycache__/stats.cpython-312.pyc b/v1/metrics/__pycache__/stats.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..518d2a3cb648e6f444d18ccab7c9cb9d2bdc9ee5
GIT binary patch
literal 17798
zcmb_^dvIG<df&ak1$hBn5a9bM2_(e_M2Vy**^+EMthZ%Tv|irC?C!!4?xh3@1n7G~
z*<`7$veiy#uN}#4v!a{qgi5wCU2j{tO}n0HrlZX4WIIjU!6l^yd}ljLPo_=MKQfT1
zjMM(r-*@f<AOzamHpk+3&-u>#obP<EbKpM<1biGqQuuzNX+OvPIVJ2+WkuFAJjdPT
zWKQOj+&Fz*Nq)*T?wWFsyLn2xlfsl|+%r`*Ud7TvvU*A!7pJ`AUY6#QzA68>pT#{%
zX(})t;5kK9eW+WNteFaq2d6^gp{d&OTHrk{?ldP?-{NHPW0yIGkFBAM*Reb=@_csQ
zc)eA_53Horee5o)(_rNXkY7_FztPGMB0pre>h#!T<<=s%?y1~nE4LoG4Nv8^u+cUm
zugT6EZ)Lb<;94A98^g5%*XH2bXZc9`U(r;?A}+%(D-*GqWJXTJGloZ2-k4E<^~$kK
zES`*Mn&Fv9C`lQ(z@^vDos1rT@#OKB&y1Zm+(%Qh5#Ff1IIYA_DDkwMNL{&@iDk5i
z+X$XaT}h;r<7rhnd0k0mj8GBr%1mZ@CSypa5~+lC^@0-9(y6$$3+!X9GPiyX$-A7w
zjq@@$?s^qeGVYdL<AUN*s$};;<a#+-7_U}Dq&-gB%hFX&+Q-t>l%5qMUZdt%OjC}>
z;#U<m+_{d68H`g4#|ag_n#hDTOe3LX5^-(tl;J_1l2M6X3{j=^(K4D*jjx(eG($iI
zZ7kw9#Aq}Xn^K}t!xxQCrRA9<#ieNUjhR@|%BhY<<#aq6RfE);a5<e$8o_8ZmP)0m
z%XCUZUWoGCiBv|dMNF*&_=sBv<o@@;q0H3u&~##YS0<)jQ8K&Un%Q??|FwO}P%?3O
zXnHntHJuu|o=i>+UEe)4g;8S)Lo^$0aC%m)q2>rs4;l_7_dV`&p?9sW`R2)my{kfV
z9*Ks=n=dZJSB1vBFuYdZaP#!S#Z{ppFN~~(YHyxc=>CUi^TLqYZa1}I=RCktSWg1{
zX35^Mo%72sMUdUHFd-~(6TIxX6&Ux(RZ7)_ORm0!eU!yp+_<QCWw+u3&U;I6&WfL5
zC18Ce*uVn!7C&Bdk&8%14ecmM@T@uOxqoLx!V_tgZ7uS`ZzeKV!!fqUYAmCK(-Ywg
z_IxU>Wx}cw2c?F`5Ha_7&=*EHs$S8aV=+o$R}}SnEcsmc66&R9rY<XLrB>`V!kKh9
zcIAqyTtRncgVYR#6Xv<osL1Z&;bAk^sGo|x6*b3#k40@&s*;&eQ)6+9Yq3=(E=p%*
z{htH;Hh-7PFf@U;UGv;~*bRIAcy6Ab=b}z+nNs#S!?{9Auq(5ay^~xfVB<4HIV@y|
zem0FwxLc7&e|GO^-D{S|3FJO<jj_WN@fjX%W?E6{<bW4sK>FKI%&2!3OfIfKQwfre
z-fT33Ba<{5p2Fiisx%qHlbM-LDk_b{@SAl2!QR}4pee}-vo~)v%J^I~s?mak!#C9q
zeAVp$bIluxYS12NKQgtK0si(T_X{!bcC{|HJQUm3x}RMT9*W_$?(OWG@9m>+cYb>h
zeLJ62aUGpMYW$J*<Kur+zjQ<Id`547cC~%~g78ReVP^_ULZ@}ZKGR;XeQp4}i=CVV
zqCBXfd2SNYv^>~*Kol_P?0>P8%wNM~RDKo|GwIMkF@LhU7`J1UTLM<JOBBDrGCiP(
zq1c4`V{5D!7tZjcv@xGjm3x^3J;q&8TZ1rbJCs>$rSfR3+RmI<-wrizs9j;yR&8gN
znR>fM<+ZctD7&wnz#4yyQkCY(O*Yu=6u+#-`<2_BY%Z3wWA;9O6Et$eb;Er_*mPZ8
zbEy9-t)bg0`St51SS9~o*QWjddTsc3Z_m2S{~|){dmyJ*E^FY;3ghV0sxpyy%i;SZ
z17cx_apKiBR~_^@Z2i*JgchEdNySM9hY^p*l1W82<wYWe>QhWShr!0LDk|k%RZ`)U
z@}|?8(^gDX!j~12HX8H^QUm00EQLSdlj-y|%3(4oJq0}onU|C4_%*F$G`~h|vwm2m
zDQG81#!}(eE69e|oe}J0GfyXFC@3^nXGA4)W(}&!RQftPo>0?Mtd6BAlnh~`)FW}l
z_>w91N)}f!@kPnTSo_#t(dmvzOwD2Xj2Z#LsESQbD=E3C*Qh-}tGxvJsDL}Eq)fJ4
zJ)H*gp2$Qz>JG}@N!b!6R}=|;N)cZtHB6)gsbU(jOB!&P@o}R%ZIZ=YQyDL}@Ox2Q
zdk*8h$rU;{srL5s?>wKELbqRf`=xhB3nF0-zkPV|{EB~TUaBipao#{qYyrQ|iQ9B>
z+fw6)TkmbX-}sX)pKN*H`I+xeeA)2J55>{EDCNZPiWpux`Qg~TF<l&aB!(HXdqwPC
zn)&d?y&Jl?_Ys5xmF!#*JC|PlaQxo5E)G3{q>#8k=#G#Jh4oN)Rq9+ix+3-DLk+o5
zzaHve-kTdZt`8hv2_0V>c{Vq4OdmOx8+l0|d1-ZIRF{SpMi&Q`-oh+$()JZ;`?91<
zdml;L8KQ4R>RWzZm!5qj^)W;bT3&9^rQMIDo+p7{rQ3(0;{`Vt=*?SSCb{AkL&tJ*
z90?jGvMwV61CJC8!n43qPHC2M1QXbR!`kig95?Bx4@I2K@OW<46>-niT_7!e12vnZ
z2m;zjWF{$k;z=c@e#A5C(r7d$y)crUYbc`?W&(T@g*2kWo7`psp6#Vc99wm9E4KVA
z)+UUmAkMi;;@lL=P;6augBO_Y7tW|NN;okQPNkg_AHEs`zq_n}U0BpC51P6aZ%&$Y
z{F2ET9%X7eGyBx^7&cC28v$?-syL8Zuul*6E$`NYJG0`>ub9WBubqdbUO2mq3Rb8*
z`#C?yVeam^q2sY+d?rb%I_c?Tn=!qe_$MKzV_<b98atc(U)YUDTt(KRmM?{f#-h~N
zQ%atlaTV=Y`;7&`Ve<Ft{@&%z75_lKz9}E9&jtJSAUlkw^np`)@Kjbj#nvgpC;k%T
z9|@|YA*dwYRa#lKi2y02OuaM>vS%pC>_Kr_O+z2f%&H{d)#m_UeJ9hgjCzRT0ZUbl
zE6HRu8sXIeVA=M*VCt+}sTzS!%9sH7+gsdYm*5c}OFqwm<>LhopHKJx4SfnNy`GW9
zZ?ALsd~uHVcsdI;TvbiM<?`&hllg+fXWeZhzz8Wz@SNrsd%oc4%QBxZ6q_{bn25*;
zwlc6j4%F8g@-7(iWY`O2sKc;#!4#ylZP-^S9vLNMG7!D8Z$gy)FdBWcJ{W(Yb4=dT
zskMyykC^ncEc*=ti-@Siz-Q%lg<oe!{PpL;5WXaOEkx9;8jVxSuZQ1^X)pn=r>`lp
zDe_R!l0c|>L77lgX3r6AmKcX9p921BEE9ec+C$i^Vl}~N)~G{AbPSae0ashZ*<!Ay
zh{8NH!-rmA2~qooNO6YsI;GSw7IQ2v0NR20GX1T?qelG4t-ioiMLWObEAy7h>)=?)
zO6S-v>F{+{vb0~Tjd_>Vrqc?U9xwqa@O`I$8ZQg1q)k^g65n~df2T)QvVs!t^iO&M
z3rv3OI%-?#Hh0BF7xg~a{b|N=OlOKZh?--OD)l(N>IniT36LpK)NUezsk@va>}dio
z0%$bEqJ9F?KAu+Px#n|aBs^$l{03E#0d8`i`y19srgyJM-AixiQvV~Vn~CtQ6{%}!
zQkRAwNnH%FZAIF)v|pD7elBeT?+Vo3KKstu#q+wf^}VwwaC`Kf(Z!c^srS86N}YM<
z%pw$k&fhv?axZ^Hw#BB(cvlNXQ!;7BtX?8q8v*7TVkY!4N)njHpLP-8d)#9I+^8UN
z+rn9)Y0<qZY|9HL*S2iU3XONPRbgvhcy_I={pQ%6<Euh@Uf5F*{GP6*`T~c~eK-3&
z5ZLEGHasDu*&p>1$Db2yI$WnMDe@k2MA3d54QJu=Oq@;2v1AF?cu>kUrl`a&c=BS&
z%D%y`VI5Ob|9@<ww10BPh7%cON@JadH)AGapt(vir)+0Nu_!8m+xXMSyt~DHA$UBZ
zxtf%-VKv=AP_TH$SGi=tw@di=MlOz&m+^GwoRzD`eTp9(UL=n1;uJ{<{Mh@kwR7V&
zN&tC2%9H)$K_wvj=P**>BnuZ(Y8_m_!qqADN`ulk;UY?Pa%-F(>PvcPVr4yMS+pCh
zSgN_KRESE=`XjYQ%|!?WGVs)k<g}UF&OTu{&C~G&Gz-gqBw=8if~u*X86o1;>P#vH
zYmh7&&BVMJOJp33q-B)pXgobbK1V}}&!{RKl+ib#^QkljqvqOmlft4iTI`AfXME6d
z=0_)DaX7VSnOK1#Y!ze7Ys~0~r&B3~3TzN>QI>7gYjEgCWy_;)A?v6sr<Pf;(H?Cw
zt;V7;IR@#aYDS|ytqtf%OGUbT1@kZ!BF0qCQSv;23j~N|s7DBpaA2%NeU)P0An<Dh
z$TCoW9l#LS4Tf9Gs458v^)&*dd6cuIF~Sk}0Dsy~0LTqKxYn^HD>U4J>w8PS7zOui
zZM!*or+Zas&9}5#v9*qEU{NQ*y*?ip&K^DgaNq*iS+=ErRk)Bp_(E0)XS+u3U(&k{
ztO_rz?cJXhnzOAtmM`h8yH|z%`Qg39{Dj4eOWljV{z1)hgWj@hRoMIa&fO2TKiqjb
zE3_`|U2-p7ToOMxyegdjtP=jAaN0bqG?U7Q^}EO^vc5|9CmU~1kSe)5L8|2D1Svne
zM`4E*DT$@LM2JWQSjs-EHA>Jvrn7-ajZu5SbY#={u=KM%6t{Gul!BuI`Fa^zz8Z@|
zxeCYPYFg96vXTVfo0$gtQ#9-7G}6(zqNEfk@9@@G+K+i6q?oEE;GU0W5>txdh1N6!
zg$jC-WFJ75s+mZrTE?tNxdB{sl_cv+v&r~K#b-|$QbNNKP}Lby(#9g8iu6oYZV5fV
zPDw_<F^XL#KzpT<Kvxw4q@|nsei@JcHf0dFk3WqXCNe#=*4ah$v1e820&TW$1x5CN
zWD##^zj<b1W>sj*w{5Yod52E(D0%kIGmx+-+0_GrTx?twwj<HD4TZNq6t<e=L_Jm}
zr+<l@r^$(~bSxr(wvH6j*X1g9EhotA+6^fpEWzaTvX=-;_A+iRSR9_ni)#C=wj`D^
zIX#gV<(WKQfMlQ)<LMwhkQ!2qcgwiyRceu{rB-IWkvgNnyk=D75)#zrA|~~fbLv=l
zf?Z020Kt>#qHj=@(2@}_@!-^STWQjoUl~!N7Im09d@WHXY&fX#HdWHLjTs^G+nHK=
zbULQSrr3Q1BTb@H3F`Vp0yZ6^+8XGcFcMO6#Z2RZ7MH75qHRivf#gvu3QIAXW_PJ(
z)2A3IMd~WjCF8E-XfUbq8pW6{#|Sn_$teOU0%-!Iv#D<o*px!AQZ9i%#h>;j08!|k
zwffFgp)=pwar5Onps|j8iFQ{c-h6i-W4DVZ-k)3*`bvsdqTXU-{R3HH>yl?x7|6F0
z@fRtVMzVo&$*88V{)YfX$~CW%an%UQRUrLk;g&ECJ5#Afx_Uy8tB@9DTt~`Y;C!$*
z{fZ9{0Q_=5u91VVK|@5l6E$)zN=kAaF!j(+8ko*O<)1Dq$&DymBR9#-atm5(#UE>h
z%EFdyLvC<36lphV&OnSZ*2ai*ZvSSqszFmoLbWix+T|DQ+F)gm+#j*EpobS`sN{XJ
zeQWUAIpsF`=~&8bx4}|m*068|KCP%@U9nWvhCI?YSzvi2tcxkf)5qF$?6+A??Lr}3
zvkUBy)I%4x`9BVWmWfSGtBjV3w2eCRB$imzno(<??V<;HE1k=V;v`D#8-bL0Ts1S<
z%FbOT9W9X$R#qFk7`7ye$rRv~HmkA0IFf^Dd*$9J>$Y*@&O5h_2BxHuj)Tj_?!FHX
z+&l0G&ztv)J-zhp%6E3rcWb_@o4(ufhmM%(1FYOYzJCX$+w#xis_~)No8NbUzJ2+=
ze!6<xW^(>8de}fSv}?4->x%&7#jSL~D7$WP8HW<)Ia`09bSMCotzgsD3Fm6qE`0+Y
z;z}NXN>_@%gJ(hWJfQGH0bWAS*qm!;c*DSn6!+k7eHh?nj>q8Vxo_2Q+&5jg9pi7f
zSaojR^*h`T-9O;(@;vu$NZ@Aqf8l<U$4eLf&=^x1VJEr<hYkLk!C$v-hpk%$??KW)
z-kMeq&+T|>*Hi_x7#%!_d!1NPJ3Q!={R<37>jd~qx;W1Ep4Shb`$WDU`?PksbGd%`
z=yGiN;*aKl{9nvT@ZE+c-r)NUJ`(X5!ely;GKA|fsMsD*=ak0We~jD1(YXVy8g=Zc
z4yZ5+9cV^@?yhQ>F}w}tT?j7P&9TijZ!+lrK_ff?aFfe#>HNLdK6p*<J^#n@gT4QL
zGIw}PKRovE@VV9A^Q&9VXF*PNO?L<1AI#N7^twp4cE@sOcIV;jz>!bi$OeyQ#iNX@
z*p0TD*>IyxV`79AMr1P=I9xh7{@7rC?oiPUj9W1K4F+U1PFjL){Kz+hTRSX^$rSpa
zS=wx25RTI8=*L<l^<Bg_tcu^1r(maXWv;D!Vc3~xdH<6tl5q|HKRJJyd%Q;v4rN92
zL5xvl%45}!LPn#)-awJgXbNw}q>KR6NK4*>e;YnaU%<te;f2y+*;{^QJfQ~kUZZw2
zec@<{{sNSj<<qO8vADxP(JRH-%6<oHj29se`>uSO?i@dHQ+J(M?yiHw@WN&eyLrJX
zUBVD5UEa)lD!mGDM&kuDAib+BOxgmy1V8UM4Dgb`JMW1)t1<6^Q;|49S(txnMj3iy
z#X_Z<c(n_oCC7bP(3-HOq*s*%T;1RRsnxOzqajLQ0cA<QFAKl112f%HhC~vj$&FtY
zDz`E3p7+dG%~yYH30bUzTMf=r?;*PZmZH~WEX;!QVNP9ky7;9Ncf*G<Z7<^NSjE-%
z*?WdwsmGE&B5w1Y&!tGcN_-g7RC&{qkO^5UN^AAEkgL8<;O`R{B0#p0At<Tqn$iA^
z(b2Qf<FA}O_v)pS(Xpdr7o%s!qNA^zK6B|JQ%+5BpNir2Tp|@srmv7^yh@>mhni7m
zT8~k>?2cMEpQYVL6LN_;HjgeNe$!=po5pa5!21OL5rKb9;GYoq0f5m;iUUpQX<L*H
z-kr!KHQImj^;*GX!yATVvW&UTGQLwfYO}~+qbaQy2l^)Wq=D<{U#`maAJqE~u5Le+
z6+74H7P)Ih?8^2Y(ZwT=#IDc$El)Xz*SdOhT_ZYt69;m8&ggs2taiPWmA0{RJ9KGB
zPTGx&;OxlBhtjG1&LazF9!illu{J06t%!ZuffKrT;*r?*#0QUZPTIL5?aVi9$u;a)
zY1okuHRVDPJrr3!x)R#8))S$+WT8rRw-3F2DC;+GpSyLqtf^?H9_mEoZs7euKC~qt
zYR!k*0iOh_12vBuIH@(?caWOcUhr|<`xm^>QVP{vegASKx8taee|1L}j<azOz|EbL
zMs#W9{+@@@zO}A>th6b7;9Y-%cKLT{+d$l0+)+M}AQgpi%YTh!B?SlXkGU!SMm16M
z3GQ3}8K*&<7b|j+>PqSgdrP$)H5@L49;`4g6qRC}KIdJXolmEJzRG^33ytK3O?!qW
zQyy5)d*+2n=gb#N;QdiQreC}1xSY{qTqNMiLfN?9-E>@Z(ODL#XN`aN51GWMz(r+S
zViY;$ud+7(71|o9e%5WbQC~EF*n{IsvoMdz3BYb@=y@o;iXFVZd(f21>W`2ITLQ(5
zs`Ia&eD&lB!|SLFYK(G&HkYvcoQC%z9zUOWb@b#3=E*4*usoiI_uPe(C(oX{gaTv@
zN4zF8`F$D(qd>+?Hu4d3Bp#D9k@aKq3hO<>4}tnh?qJsJ1O;oKpzKZVZyGr7zCUkl
zUpSc$Hr$?jdoH_WIJae=zGdG^a9_T6;KTI2^d0ZR5DsE{E;OKr29{6VKl3PbIA7az
zx9$D5?6#5IwuAb%gDbTM^YtCM`iNd1S-!YZKb+q+@~@&FMem$>NC*C_E3cw5y;td5
z3DF~h(9TDpzVbSc8@Z+q)A&fx8j;LbuMtQB#7iv*Ixg&}b}+>TA_@~O4<LW!mIqrz
z-S8k^D9^>Q6Dl2LCJL*N=Nyh=&C2bt8r8@nK2sJdx5H|Po7Si>R#wA{8Wq$d+?Jwe
z*~Qe4x_N4M(^B-pA_aDL!<TWCDjahUgm}eTP%@xmK*18{eJD|Z$^6*;v2}!R_^~^V
zN>yBlNqPcN7Uuo-?ttZ1Y*%gCly%s5z7Fe{C8i*Zu`_RS2EWP(YZBd>g!L=>yYP0c
zsFhr%+Qbq{lm*t#Rl-dWc#8m2Ty7wS+B*or`gZ8qR3O+;ioUjKDwihk27n=zIw>^T
zK8GD3VyX`vrMf|Bd2(3J4Sa<nQC|1}F^vuYJo%~Nn%i?ty?Rsc(rm8pkluG_wdwGJ
z9}>JdoNL;tH|<=W%?%yX@vrF^@FLgJnQI=>n}_a4aw9M5_}Bd6f&@I3-=#P0y6?>m
zzo_G1(~GQpTX(K?SZ^J+bq~Gu%t8&sd#E)R9Mpq@_iOdw$o=yx!Ds1pS<B*qT>Eo+
z`*WY3*V_-TNJrLc>!1O6yYV!xWoN#vFW=Ig-#V1<8pw4W)w_=7x9lQJYfrvCLXp0s
z`PQyn>yX|$^rTs8@nL9f?Cl;s%*u&9y4bUnd?@ZA6{Ruf$E%)BrcOAQ>pz#eF%HSR
zVBW;tznwPjn*_d3;0OUmH_a4d4p!#IzlWqDB=MUPmH4@OpFo+vUn3lW9R9S&0Jpf$
zgkxU_K2N03;_@8h7rWQ-D(4tq5M7?(rN#mh!^_VQZnz-s_UvB^brn4LVoKqjLN&#(
zOC1F-#e7_2OTkYuiEHR71SnR+HAM<RiiNm_=Ea8hpIfh`)CAw;IkFb2FL>}pYqgEp
z#$G+tSE#16*(Sw&)RLcK615bdSdHCMkW$0Lp2%8rPr-vP8tQ-&M==o>7fZqiI|^P(
zQ8Q2ch?$~*)*y~QCs>9JxBdc9oB45NK_MS*)kGEZ-{MC>cr8RfEfGt8Fyh6XfY0!f
zJ<YtTa|bTbg_DMdJ?!F@J=C?NxqSr?K63(ZgUtuTrpJ}4Z{l4wM_4qwKei@O>PfAb
z>&PwqK!P8G<H-%bu2F5P9@W;MDmxDAoC!HT!!#Xj(#PO4?A-nbjSIrNk`;MRGS~U{
zk*ofMz^4F}-v~WH4jeQtRe(|HdWrikk9Y_8JMiUU(lPprIrDsxzo+PtcQMO}Rq_;;
z)<e(KqfG@)J-iG3njT^3R<2j7Sy=6r_6TqDzXcj^DQI~NcTARzYB{0BW2(#+%YNCj
zaS6*`_LzKnE>zqd6GKn-w7-XzZ*reCwBM`Fiv8JO|7ZR>FreF`Z;$4r4qfV4{05%v
z;=PZF3F}gLsp+BA|M{;_?2*)OZgCi$Z19W{nK3nLKO&oX-rnLh3F4Tmq)bWh$g#!w
z$W^4Br>OEdv_2Os&YL|j{RcE{a+tt>*3fcy^!?G5hT)|XACBG|%?5X8#ocVoV-a7)
z8>}L$WxVx|(T;kU0QFVQOaBew2qdXbV#~x!kAES!JbeWb40Z7$J%x-c?`5A)x35#G
z(83-$@}3cT|A-HJ;`rEwn7N$P;s(xS>xS!hkW<E)g7kAY@E`Xr{D9TwPI4999Dy_8
zE)==AVZyyn^~PM>K;cJjxPh`bnpp=}dhh6c3M&EYlLNS&Vr`?x8epW^D#)zg#<1pg
z9}UA8+C{q&X0J)uk08vqCye3Q%+IoSv_Wz&UNJq98~nCJIgEN}%|SgIo^=;50Wt!z
zS+Ea3*dNtnp?J6+AgvOfZ54YwXFF*rtJFzrUXZlW94?f+CD0sx_nWlQq+r5v-HO|g
zcWZv}%nLtlU47=|1>wCw3Bx1b%~+9iHy9a?Kj5FD&}OGYb<MkO@{F}OOdG|mFwY(y
z!PM|nW@}KS1^aizIAfklY)!4HeD>yDhoIn=tzQTotL!w;rr=2;(>xhtqNx^VYWN(V
zvZfI;H8o39rwrPcVo{4}byiqv+a5NHe4keQEZVW&i{JjvJKtGq&32C9XA*0Tt#`lm
z{<oG6=#9G;e0i}hC${Qh>tgRx-|{{vU3ouLuJ#o_Ts{rt0$NPqR}G|Xnbu(3Ar>@G
zLuEuahzQ#hbX*=liY{{BzzVU555Ef_Tj0_u^*^969{T^3KJK#R*>J0)euN@(6=rTv
z+&U;fpqZ0$2U;VyTZb-!TQ9x#sqjF_iXD%{QATfnhqE|!iOoX&Q*^5S3}EB9Nz3@E
zaa+p62b+!C^C0tgF>e0Ht_`d29y1qzlVKYndtGh2WUlLJsw*$^yPHp9hE3uuTYMvE
zzxYurFfyVMMpJ){$X6V6e)EG~>3G}P9$bfKtjk9H6ffhr9OvDYya^7ItoT#OdDlUV
zaYGvwtoo8RYEZl^m~FiKGC9pm%|=uopp5xm`E7~~6JW~VYZN1mkUgHWHJv{r1Y;;W
z5i8SlnoN!mEnD)r{-?LIa>?JLO(l~WCn{LaILWqb=YDXKe0ckZfqQ{mc#j_5^YidC
zP>dGN+?n~skz)^@`PrdAIkbA@{K6}y+xmV)mkw6WSdk7s_HdogGSZ0fry_xhItJ4$
zw$n_RP4`oZ5l>KQW7YpeV2r?jA<#yk_}H05Et9vmXf9;sk;?J>W2hXX{1Oxl`W8g5
zCz5Y!Ex7618(BVaZ_<oEf5iO0G`3E8g(lu}mS2h&poW~~@5etq@yX;mix;ZCDrbye
z(x}cDe_#9b(kF9NXN)gYc{~^R`>6*R{n?kFaFj4dPJ@ngs5AH&{&*U{d1SwU)J&;N
zrv(3h2>bs8p=c@zNcI-fsDkSh){siH&E8uYUglw?8yocls@QIOT#N5Xl|k#5hUT-)
ze@1nE1pEYutj(Xq(A}5$+H;g*Y|WV+%^WTo;Ybx@%U!k)hIr8Ye=i(XS5X9eVcOCK
zH_!9yBF9U=<aYd$>;EO!^WV9a|Hd8o+#UL*Fs2J*Fi&0nFI@qCxWEBG_jCCRl>9P0
z%JZlB#~k|<zU@NB6IVOmb>}<l96nY_#0m#lRuwNU9$x40v9b^=)Unp<`4{;DN6^Y*
zh@C92j^9?`0IVEJ?qC@K$^fu35c@KG!No@&a|FMf6dL)F#~i?y!(sjc{{=^oZSemA
DEVq2}

literal 0
HcmV?d00001

diff --git a/v1/metrics/loggers.py b/v1/metrics/loggers.py
new file mode 100644
index 0000000..cb36e79
--- /dev/null
+++ b/v1/metrics/loggers.py
@@ -0,0 +1,1238 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import logging
+import time
+from abc import ABC, abstractmethod
+from collections.abc import Callable
+from typing import TypeAlias
+
+from prometheus_client import Counter, Gauge, Histogram
+
+import vllm.envs as envs
+from vllm.config import SupportsMetricsInfo, VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+    KVConnectorLogging,
+    KVConnectorPrometheus,
+)
+from vllm.logger import init_logger
+from vllm.plugins import load_plugins_by_group
+from vllm.v1.engine import FinishReason
+from vllm.v1.metrics.prometheus import unregister_vllm_metrics
+from vllm.v1.metrics.stats import (
+    CachingMetrics,
+    IterationStats,
+    MultiModalCacheStats,
+    SchedulerStats,
+)
+from vllm.v1.spec_decode.metrics import SpecDecodingLogging, SpecDecodingProm
+
+logger = init_logger(__name__)
+
+PerEngineStatLoggerFactory = Callable[[VllmConfig, int], "StatLoggerBase"]
+AggregateStatLoggerFactory = type["AggregateStatLoggerBase"]
+StatLoggerFactory = AggregateStatLoggerFactory | PerEngineStatLoggerFactory
+
+
+class StatLoggerBase(ABC):
+    """Interface for logging metrics.
+
+    API users may define custom loggers that implement this interface.
+    However, note that the `SchedulerStats` and `IterationStats` classes
+    are not considered stable interfaces and may change in future versions.
+    """
+
+    @abstractmethod
+    def __init__(self, vllm_config: VllmConfig, engine_index: int = 0): ...
+
+    @abstractmethod
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int = 0,
+    ): ...
+
+    @abstractmethod
+    def log_engine_initialized(self): ...
+
+    def log(self):  # noqa
+        pass
+
+    def record_sleep_state(self, is_awake: int, level: int):  # noqa
+        pass
+
+
+def load_stat_logger_plugin_factories() -> list[StatLoggerFactory]:
+    factories: list[StatLoggerFactory] = []
+
+    for name, plugin_class in load_plugins_by_group("vllm.stat_logger_plugins").items():
+        if not isinstance(plugin_class, type) or not issubclass(
+            plugin_class, StatLoggerBase
+        ):
+            raise TypeError(
+                f"Stat logger plugin {name!r} must be a subclass of "
+                f"StatLoggerBase (got {plugin_class!r})."
+            )
+
+        factories.append(plugin_class)
+
+    return factories
+
+
+class AggregateStatLoggerBase(StatLoggerBase):
+    """Abstract base class for loggers that
+    aggregate across multiple DP engines."""
+
+    @abstractmethod
+    def __init__(self, vllm_config: VllmConfig, engine_indexes: list[int]): ...
+
+
+class LoggingStatLogger(StatLoggerBase):
+    def __init__(self, vllm_config: VllmConfig, engine_index: int = 0):
+        self.engine_index = engine_index
+        self.vllm_config = vllm_config
+        self._reset(time.monotonic())
+
+        self.last_scheduler_stats = SchedulerStats()
+
+        # Caching metrics. This cannot be reset.
+        # TODO: Make the interval configurable.
+        self.prefix_caching_metrics = CachingMetrics()
+        self.connector_prefix_caching_metrics = CachingMetrics()
+        self.mm_caching_metrics = CachingMetrics()
+
+        self.spec_decoding_logging = SpecDecodingLogging()
+        kv_tranfer_config = self.vllm_config.kv_transfer_config
+        self.kv_connector_logging = KVConnectorLogging(kv_tranfer_config)
+        self.last_prompt_throughput: float = 0.0
+        self.last_generation_throughput: float = 0.0
+        self.engine_is_idle = False
+        self.aggregated = False
+
+    def _reset(self, now):
+        self.last_log_time = now
+
+        # Tracked stats over current local logging interval.
+        self.num_prompt_tokens: int = 0
+        self.num_generation_tokens: int = 0
+        self.num_corrupted_reqs: int = 0
+        self.num_preemptions: int = 0
+
+    def _track_iteration_stats(self, iteration_stats: IterationStats):
+        # Save tracked stats for token counters.
+        self.num_prompt_tokens += iteration_stats.num_prompt_tokens
+        self.num_generation_tokens += iteration_stats.num_generation_tokens
+        self.num_corrupted_reqs += iteration_stats.num_corrupted_reqs
+        self.num_preemptions += iteration_stats.num_preempted_reqs
+
+    def _get_throughput(self, tracked_stats: int, now: float) -> float:
+        # Compute summary metrics for tracked stats
+        delta_time = now - self.last_log_time
+        if delta_time <= 0.0:
+            return 0.0
+        return float(tracked_stats / delta_time)
+
+    @property
+    def log_prefix(self):
+        return "Engine {:03d}: ".format(self.engine_index)
+
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int = 0,
+    ):
+        """Log Stats to standard output."""
+        if iteration_stats:
+            self._track_iteration_stats(iteration_stats)
+
+        if scheduler_stats is not None:
+            self.prefix_caching_metrics.observe(scheduler_stats.prefix_cache_stats)
+
+            if scheduler_stats.connector_prefix_cache_stats is not None:
+                self.connector_prefix_caching_metrics.observe(
+                    scheduler_stats.connector_prefix_cache_stats
+                )
+
+            if scheduler_stats.spec_decoding_stats is not None:
+                self.spec_decoding_logging.observe(scheduler_stats.spec_decoding_stats)
+            if kv_connector_stats := scheduler_stats.kv_connector_stats:
+                self.kv_connector_logging.observe(kv_connector_stats)
+            if not self.aggregated:
+                self.last_scheduler_stats = scheduler_stats
+        if mm_cache_stats:
+            self.mm_caching_metrics.observe(mm_cache_stats)
+
+    def _update_stats(self):
+        now = time.monotonic()
+        prompt_throughput = self._get_throughput(self.num_prompt_tokens, now)
+        generation_throughput = self._get_throughput(self.num_generation_tokens, now)
+
+        self._reset(now)
+        self.engine_is_idle = not any(
+            (
+                prompt_throughput,
+                generation_throughput,
+                self.last_prompt_throughput,
+                self.last_generation_throughput,
+            )
+        )
+        self.last_generation_throughput = generation_throughput
+        self.last_prompt_throughput = prompt_throughput
+
+    def aggregate_scheduler_stats(self):
+        # noop for per engine loggers
+        return
+
+    def log(self):
+        self._update_stats()
+        self.aggregate_scheduler_stats()
+        # Avoid log noise on an idle production system
+        log_fn = logger.debug if self.engine_is_idle else logger.info
+        # Format and print output.
+        log_parts = [
+            "Avg prompt throughput: %.1f tokens/s",
+            "Avg generation throughput: %.1f tokens/s",
+            "Running: %d reqs",
+            "Waiting: %d reqs",
+        ]
+        log_args = [
+            self.last_prompt_throughput,
+            self.last_generation_throughput,
+            self.last_scheduler_stats.num_running_reqs,
+            self.last_scheduler_stats.num_waiting_reqs,
+        ]
+
+        if self.num_preemptions > 0:
+            log_parts.append("Preemptions: %d")
+            log_args.append(self.num_preemptions)
+
+        log_parts.extend(
+            [
+                "GPU KV cache usage: %.1f%%",
+                "Prefix cache hit rate: %.1f%%",
+            ]
+        )
+        log_args.extend(
+            [
+                self.last_scheduler_stats.kv_cache_usage * 100,
+                self.prefix_caching_metrics.hit_rate * 100,
+            ]
+        )
+
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            log_parts.append("Corrupted: %d reqs")
+            log_args.append(self.num_corrupted_reqs)
+        if not self.connector_prefix_caching_metrics.empty:
+            log_parts.append("External prefix cache hit rate: %.1f%%")
+            log_args.append(self.connector_prefix_caching_metrics.hit_rate * 100)
+        if not self.mm_caching_metrics.empty:
+            log_parts.append("MM cache hit rate: %.1f%%")
+            log_args.append(self.mm_caching_metrics.hit_rate * 100)
+
+        log_fn(
+            self.log_prefix + ", ".join(log_parts),
+            *log_args,
+        )
+
+        self.spec_decoding_logging.log(log_fn=log_fn)
+        self.kv_connector_logging.log(log_fn=log_fn)
+
+    def log_engine_initialized(self):
+        if self.vllm_config.cache_config.num_gpu_blocks:
+            logger.debug(
+                "Engine %03d: vllm cache_config_info with initialization "
+                "after num_gpu_blocks is: %d",
+                self.engine_index,
+                self.vllm_config.cache_config.num_gpu_blocks,
+            )
+
+
+class AggregatedLoggingStatLogger(LoggingStatLogger, AggregateStatLoggerBase):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        engine_indexes: list[int],
+    ):
+        self.engine_indexes = engine_indexes
+        self.last_scheduler_stats_dict: dict[int, SchedulerStats] = {
+            idx: SchedulerStats() for idx in self.engine_indexes
+        }
+        LoggingStatLogger.__init__(self, vllm_config, engine_index=-1)
+        self.aggregated = True
+
+    @property
+    def log_prefix(self):
+        return "{} Engines Aggregated: ".format(len(self.engine_indexes))
+
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int = 0,
+    ):
+        if engine_idx not in self.engine_indexes:
+            logger.warning("Unexpected engine_idx: %d", engine_idx)
+            return
+        LoggingStatLogger.record(
+            self,
+            scheduler_stats,
+            iteration_stats,
+            mm_cache_stats=mm_cache_stats,
+            engine_idx=engine_idx,
+        )
+        if scheduler_stats is not None:
+            self.last_scheduler_stats_dict[engine_idx] = scheduler_stats
+
+    def aggregate_scheduler_stats(self):
+        self.last_scheduler_stats = SchedulerStats()
+        for last_scheduler_stats in self.last_scheduler_stats_dict.values():
+            self.last_scheduler_stats.num_waiting_reqs += (
+                last_scheduler_stats.num_waiting_reqs
+            )
+            self.last_scheduler_stats.num_running_reqs += (
+                last_scheduler_stats.num_running_reqs
+            )
+            self.last_scheduler_stats.kv_cache_usage += (
+                last_scheduler_stats.kv_cache_usage
+            )
+        self.last_scheduler_stats.kv_cache_usage /= len(self.last_scheduler_stats_dict)
+
+    def log(self):
+        LoggingStatLogger.log(self)
+
+    def log_engine_initialized(self):
+        if self.vllm_config.cache_config.num_gpu_blocks:
+            logger.info(
+                "%d Engines: vllm cache_config_info with initialization "
+                "after num_gpu_blocks is: %d",
+                len(self.engine_indexes),
+                self.vllm_config.cache_config.num_gpu_blocks,
+            )
+
+
+class PerEngineStatLoggerAdapter(AggregateStatLoggerBase):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        engine_indexes: list[int],
+        per_engine_stat_logger_factory: PerEngineStatLoggerFactory,
+    ) -> None:
+        self.per_engine_stat_loggers = {}
+        self.engine_indexes = engine_indexes
+        for engine_index in engine_indexes:
+            self.per_engine_stat_loggers[engine_index] = per_engine_stat_logger_factory(
+                vllm_config, engine_index
+            )
+
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int = 0,
+    ):
+        if engine_idx not in self.per_engine_stat_loggers:
+            logger.warning("Unexpected engine_idx: %d", engine_idx)
+            return
+        self.per_engine_stat_loggers[engine_idx].record(
+            scheduler_stats,
+            iteration_stats,
+            mm_cache_stats=mm_cache_stats,
+            engine_idx=engine_idx,
+        )
+
+    def log(self):
+        for per_engine_stat_logger in self.per_engine_stat_loggers.values():
+            per_engine_stat_logger.log()
+
+    def log_engine_initialized(self):
+        for per_engine_stat_logger in self.per_engine_stat_loggers.values():
+            per_engine_stat_logger.log_engine_initialized()
+
+
+class PrometheusStatLogger(AggregateStatLoggerBase):
+    _gauge_cls = Gauge
+    _counter_cls = Counter
+    _histogram_cls = Histogram
+    _spec_decoding_cls = SpecDecodingProm
+    _kv_connector_cls = KVConnectorPrometheus
+
+    def __init__(
+        self, vllm_config: VllmConfig, engine_indexes: list[int] | None = None
+    ):
+        if engine_indexes is None:
+            engine_indexes = [0]
+
+        self.engine_indexes = engine_indexes
+
+        unregister_vllm_metrics()
+        self.vllm_config = vllm_config
+        # Use this flag to hide metrics that were deprecated in
+        # a previous release and which will be removed future
+        self.show_hidden_metrics = vllm_config.observability_config.show_hidden_metrics
+
+        labelnames = ["model_name", "engine"]
+        model_name = vllm_config.model_config.served_model_name
+        max_model_len = vllm_config.model_config.max_model_len
+
+        per_engine_labelvalues: dict[int, list[str]] = {
+            idx: [model_name, str(idx)] for idx in engine_indexes
+        }
+
+        self.spec_decoding_prom = self._spec_decoding_cls(
+            vllm_config.speculative_config, labelnames, per_engine_labelvalues
+        )
+        self.kv_connector_prom = self._kv_connector_cls(
+            vllm_config, labelnames, per_engine_labelvalues
+        )
+
+        #
+        # Scheduler state
+        #
+        gauge_scheduler_running = self._gauge_cls(
+            name="vllm:num_requests_running",
+            documentation="Number of requests in model execution batches.",
+            multiprocess_mode="mostrecent",
+            labelnames=labelnames,
+        )
+        self.gauge_scheduler_running = make_per_engine(
+            gauge_scheduler_running, engine_indexes, model_name
+        )
+
+        gauge_scheduler_waiting = self._gauge_cls(
+            name="vllm:num_requests_waiting",
+            documentation="Number of requests waiting to be processed.",
+            multiprocess_mode="mostrecent",
+            labelnames=labelnames,
+        )
+        self.gauge_scheduler_waiting = make_per_engine(
+            gauge_scheduler_waiting, engine_indexes, model_name
+        )
+
+        gauge_engine_sleep_state = self._gauge_cls(
+            name="vllm:engine_sleep_state",
+            documentation=(
+                "Engine sleep state; awake = 0 means engine is sleeping; "
+                "awake = 1 means engine is awake; "
+                "weights_offloaded = 1 means sleep level 1; "
+                "discard_all = 1 means sleep level 2."
+            ),
+            labelnames=labelnames + ["sleep_state"],
+            multiprocess_mode="mostrecent",
+        )
+
+        self.gauge_engine_sleep_state = {}
+        sleep_state = ["awake", "weights_offloaded", "discard_all"]
+
+        for s in sleep_state:
+            self.gauge_engine_sleep_state[s] = {
+                idx: gauge_engine_sleep_state.labels(
+                    engine=idx, model_name=model_name, sleep_state=s
+                )
+                for idx in engine_indexes
+            }
+
+        # Setting default values
+        self.record_sleep_state()
+
+        # GPU cache
+        #
+        # Deprecated in 0.9.2 - Renamed as vllm:kv_cache_usage_perc
+        # With 0.11.x you can enable with --show-hidden-metrics-for-version=0.10
+        # TODO: remove in 0.12.0
+        if self.show_hidden_metrics:
+            gauge_gpu_cache_usage = self._gauge_cls(
+                name="vllm:gpu_cache_usage_perc",
+                documentation=(
+                    "GPU KV-cache usage. 1 means 100 percent usage."
+                    "DEPRECATED: Use vllm:kv_cache_usage_perc instead."
+                ),
+                multiprocess_mode="mostrecent",
+                labelnames=labelnames,
+            )
+            self.gauge_gpu_cache_usage = make_per_engine(
+                gauge_gpu_cache_usage, engine_indexes, model_name
+            )
+
+        # Deprecated in 0.9.2 - Renamed as vllm:prefix_cache_queries
+        # With 0.11.x you can enable with --show-hidden-metrics-for-version=0.10
+        # TODO: remove in 0.12.0
+        if self.show_hidden_metrics:
+            counter_gpu_prefix_cache_queries = self._counter_cls(
+                name="vllm:gpu_prefix_cache_queries",
+                documentation=(
+                    "GPU prefix cache queries, in terms of number of queried"
+                    "tokens. DEPRECATED: Use vllm:prefix_cache_queries instead."
+                ),
+                labelnames=labelnames,
+            )
+            self.counter_gpu_prefix_cache_queries = make_per_engine(
+                counter_gpu_prefix_cache_queries, engine_indexes, model_name
+            )
+
+        # Deprecated in 0.9.2 - Renamed as vllm:prefix_cache_hits
+        # With 0.11.x you can enable with --show-hidden-metrics-for-version=0.10
+        # TODO: remove in 0.12.0
+        if self.show_hidden_metrics:
+            counter_gpu_prefix_cache_hits = self._counter_cls(
+                name="vllm:gpu_prefix_cache_hits",
+                documentation=(
+                    "GPU prefix cache hits, in terms of number of cached "
+                    "tokens. DEPRECATED: Use vllm:prefix_cache_hits instead."
+                ),
+                labelnames=labelnames,
+            )
+            self.counter_gpu_prefix_cache_hits = make_per_engine(
+                counter_gpu_prefix_cache_hits, engine_indexes, model_name
+            )
+
+        gauge_kv_cache_usage = self._gauge_cls(
+            name="vllm:kv_cache_usage_perc",
+            documentation="KV-cache usage. 1 means 100 percent usage.",
+            multiprocess_mode="mostrecent",
+            labelnames=labelnames,
+        )
+        self.gauge_kv_cache_usage = make_per_engine(
+            gauge_kv_cache_usage, engine_indexes, model_name
+        )
+
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            counter_corrupted_requests = self._counter_cls(
+                name="vllm:corrupted_requests",
+                documentation=(
+                    "Corrupted requests, in terms of total number of requests "
+                    "with NaNs in logits."
+                ),
+                labelnames=labelnames,
+            )
+            self.counter_corrupted_requests = make_per_engine(
+                counter_corrupted_requests, engine_indexes, model_name
+            )
+
+        counter_prefix_cache_queries = self._counter_cls(
+            name="vllm:prefix_cache_queries",
+            documentation=(
+                "Prefix cache queries, in terms of number of queried tokens."
+            ),
+            labelnames=labelnames,
+        )
+        self.counter_prefix_cache_queries = make_per_engine(
+            counter_prefix_cache_queries, engine_indexes, model_name
+        )
+
+        counter_prefix_cache_hits = self._counter_cls(
+            name="vllm:prefix_cache_hits",
+            documentation=("Prefix cache hits, in terms of number of cached tokens."),
+            labelnames=labelnames,
+        )
+        self.counter_prefix_cache_hits = make_per_engine(
+            counter_prefix_cache_hits, engine_indexes, model_name
+        )
+
+        #
+        # External - KV connector prefix cache
+        #
+
+        counter_connector_prefix_cache_queries = self._counter_cls(
+            name="vllm:external_prefix_cache_queries",
+            documentation=(
+                "External prefix cache queries from KV connector "
+                "cross-instance cache sharing, in terms of number of queried tokens."
+            ),
+            labelnames=labelnames,
+        )
+        self.counter_connector_prefix_cache_queries = make_per_engine(
+            counter_connector_prefix_cache_queries, engine_indexes, model_name
+        )
+
+        counter_connector_prefix_cache_hits = self._counter_cls(
+            name="vllm:external_prefix_cache_hits",
+            documentation=(
+                "External prefix cache hits from KV connector "
+                "cross-instance cache sharing, in terms of number of cached tokens."
+            ),
+            labelnames=labelnames,
+        )
+        self.counter_connector_prefix_cache_hits = make_per_engine(
+            counter_connector_prefix_cache_hits, engine_indexes, model_name
+        )
+
+        #
+        # Multi-modal cache
+        #
+
+        counter_mm_cache_queries = self._counter_cls(
+            name="vllm:mm_cache_queries",
+            documentation=(
+                "Multi-modal cache queries, in terms of number of queried items."
+            ),
+            labelnames=labelnames,
+        )
+        self.counter_mm_cache_queries = make_per_engine(
+            counter_mm_cache_queries, engine_indexes, model_name
+        )
+
+        counter_mm_cache_hits = self._counter_cls(
+            name="vllm:mm_cache_hits",
+            documentation=(
+                "Multi-modal cache hits, in terms of number of cached items."
+            ),
+            labelnames=labelnames,
+        )
+        self.counter_mm_cache_hits = make_per_engine(
+            counter_mm_cache_hits, engine_indexes, model_name
+        )
+
+        #
+        # Counters
+        #
+        counter_num_preempted_reqs = self._counter_cls(
+            name="vllm:num_preemptions",
+            documentation="Cumulative number of preemption from the engine.",
+            labelnames=labelnames,
+        )
+        self.counter_num_preempted_reqs = make_per_engine(
+            counter_num_preempted_reqs, engine_indexes, model_name
+        )
+
+        counter_prompt_tokens = self._counter_cls(
+            name="vllm:prompt_tokens",
+            documentation="Number of prefill tokens processed.",
+            labelnames=labelnames,
+        )
+        self.counter_prompt_tokens = make_per_engine(
+            counter_prompt_tokens, engine_indexes, model_name
+        )
+
+        counter_generation_tokens = self._counter_cls(
+            name="vllm:generation_tokens",
+            documentation="Number of generation tokens processed.",
+            labelnames=labelnames,
+        )
+        self.counter_generation_tokens = make_per_engine(
+            counter_generation_tokens, engine_indexes, model_name
+        )
+
+        self.counter_request_success: dict[FinishReason, dict[int, Counter]] = {}
+        counter_request_success_base = self._counter_cls(
+            name="vllm:request_success",
+            documentation="Count of successfully processed requests.",
+            labelnames=labelnames + ["finished_reason"],
+        )
+        for reason in FinishReason:
+            self.counter_request_success[reason] = {
+                idx: counter_request_success_base.labels(
+                    model_name, str(idx), str(reason)
+                )
+                for idx in engine_indexes
+            }
+
+        #
+        # Histograms of counts
+        #
+        histogram_num_prompt_tokens_request = self._histogram_cls(
+            name="vllm:request_prompt_tokens",
+            documentation="Number of prefill tokens processed.",
+            buckets=build_1_2_5_buckets(max_model_len),
+            labelnames=labelnames,
+        )
+        self.histogram_num_prompt_tokens_request = make_per_engine(
+            histogram_num_prompt_tokens_request, engine_indexes, model_name
+        )
+
+        histogram_num_generation_tokens_request = self._histogram_cls(
+            name="vllm:request_generation_tokens",
+            documentation="Number of generation tokens processed.",
+            buckets=build_1_2_5_buckets(max_model_len),
+            labelnames=labelnames,
+        )
+        self.histogram_num_generation_tokens_request = make_per_engine(
+            histogram_num_generation_tokens_request, engine_indexes, model_name
+        )
+
+        # TODO: This metric might be incorrect in case of using multiple
+        # api_server counts which uses prometheus mp.
+        # See: https://github.com/vllm-project/vllm/pull/18053
+        histogram_iteration_tokens = self._histogram_cls(
+            name="vllm:iteration_tokens_total",
+            documentation="Histogram of number of tokens per engine_step.",
+            buckets=[1, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384],
+            labelnames=labelnames,
+        )
+        self.histogram_iteration_tokens = make_per_engine(
+            histogram_iteration_tokens, engine_indexes, model_name
+        )
+
+        histogram_max_num_generation_tokens_request = self._histogram_cls(
+            name="vllm:request_max_num_generation_tokens",
+            documentation="Histogram of maximum number of requested generation tokens.",
+            buckets=build_1_2_5_buckets(max_model_len),
+            labelnames=labelnames,
+        )
+        self.histogram_max_num_generation_tokens_request = make_per_engine(
+            histogram_max_num_generation_tokens_request, engine_indexes, model_name
+        )
+
+        histogram_n_request = self._histogram_cls(
+            name="vllm:request_params_n",
+            documentation="Histogram of the n request parameter.",
+            buckets=[1, 2, 5, 10, 20],
+            labelnames=labelnames,
+        )
+        self.histogram_n_request = make_per_engine(
+            histogram_n_request, engine_indexes, model_name
+        )
+
+        histogram_max_tokens_request = self._histogram_cls(
+            name="vllm:request_params_max_tokens",
+            documentation="Histogram of the max_tokens request parameter.",
+            buckets=build_1_2_5_buckets(max_model_len),
+            labelnames=labelnames,
+        )
+        self.histogram_max_tokens_request = make_per_engine(
+            histogram_max_tokens_request, engine_indexes, model_name
+        )
+
+        #
+        # Histogram of timing intervals
+        #
+        histogram_time_to_first_token = self._histogram_cls(
+            name="vllm:time_to_first_token_seconds",
+            documentation="Histogram of time to first token in seconds.",
+            buckets=[
+                0.001,
+                0.005,
+                0.01,
+                0.02,
+                0.04,
+                0.06,
+                0.08,
+                0.1,
+                0.25,
+                0.5,
+                0.75,
+                1.0,
+                2.5,
+                5.0,
+                7.5,
+                10.0,
+                20.0,
+                40.0,
+                80.0,
+                160.0,
+                640.0,
+                2560.0,
+            ],
+            labelnames=labelnames,
+        )
+        self.histogram_time_to_first_token = make_per_engine(
+            histogram_time_to_first_token, engine_indexes, model_name
+        )
+
+        # Deprecated in 0.11 - Renamed as vllm:inter_token_latency_seconds
+        # TODO: in 0.12, only enable if show_hidden_metrics=True
+        histogram_time_per_output_token = self._histogram_cls(
+            name="vllm:time_per_output_token_seconds",
+            documentation=(
+                "Histogram of time per output token in seconds."
+                "DEPRECATED: Use vllm:inter_token_latency_seconds instead."
+            ),
+            buckets=[
+                0.01,
+                0.025,
+                0.05,
+                0.075,
+                0.1,
+                0.15,
+                0.2,
+                0.3,
+                0.4,
+                0.5,
+                0.75,
+                1.0,
+                2.5,
+                5.0,
+                7.5,
+                10.0,
+                20.0,
+                40.0,
+                80.0,
+            ],
+            labelnames=labelnames,
+        )
+        self.histogram_time_per_output_token = make_per_engine(
+            histogram_time_per_output_token, engine_indexes, model_name
+        )
+
+        histogram_inter_token_latency = self._histogram_cls(
+            name="vllm:inter_token_latency_seconds",
+            documentation="Histogram of inter-token latency in seconds.",
+            buckets=[
+                0.01,
+                0.025,
+                0.05,
+                0.075,
+                0.1,
+                0.15,
+                0.2,
+                0.3,
+                0.4,
+                0.5,
+                0.75,
+                1.0,
+                2.5,
+                5.0,
+                7.5,
+                10.0,
+                20.0,
+                40.0,
+                80.0,
+            ],
+            labelnames=labelnames,
+        )
+        self.histogram_inter_token_latency = make_per_engine(
+            histogram_inter_token_latency, engine_indexes, model_name
+        )
+
+        histogram_request_time_per_output_token = self._histogram_cls(
+            name="vllm:request_time_per_output_token_seconds",
+            documentation="Histogram of time_per_output_token_seconds per request.",
+            buckets=[
+                0.01,
+                0.025,
+                0.05,
+                0.075,
+                0.1,
+                0.15,
+                0.2,
+                0.3,
+                0.4,
+                0.5,
+                0.75,
+                1.0,
+                2.5,
+                5.0,
+                7.5,
+                10.0,
+                20.0,
+                40.0,
+                80.0,
+            ],
+            labelnames=labelnames,
+        )
+        self.histogram_request_time_per_output_token = make_per_engine(
+            histogram_request_time_per_output_token, engine_indexes, model_name
+        )
+
+        request_latency_buckets = [
+            0.3,
+            0.5,
+            0.8,
+            1.0,
+            1.5,
+            2.0,
+            2.5,
+            5.0,
+            10.0,
+            15.0,
+            20.0,
+            30.0,
+            40.0,
+            50.0,
+            60.0,
+            120.0,
+            240.0,
+            480.0,
+            960.0,
+            1920.0,
+            7680.0,
+        ]
+        histogram_e2e_time_request = self._histogram_cls(
+            name="vllm:e2e_request_latency_seconds",
+            documentation="Histogram of e2e request latency in seconds.",
+            buckets=request_latency_buckets,
+            labelnames=labelnames,
+        )
+        self.histogram_e2e_time_request = make_per_engine(
+            histogram_e2e_time_request, engine_indexes, model_name
+        )
+
+        histogram_queue_time_request = self._histogram_cls(
+            name="vllm:request_queue_time_seconds",
+            documentation="Histogram of time spent in WAITING phase for request.",
+            buckets=request_latency_buckets,
+            labelnames=labelnames,
+        )
+        self.histogram_queue_time_request = make_per_engine(
+            histogram_queue_time_request, engine_indexes, model_name
+        )
+
+        histogram_inference_time_request = self._histogram_cls(
+            name="vllm:request_inference_time_seconds",
+            documentation="Histogram of time spent in RUNNING phase for request.",
+            buckets=request_latency_buckets,
+            labelnames=labelnames,
+        )
+        self.histogram_inference_time_request = make_per_engine(
+            histogram_inference_time_request, engine_indexes, model_name
+        )
+
+        histogram_prefill_time_request = self._histogram_cls(
+            name="vllm:request_prefill_time_seconds",
+            documentation="Histogram of time spent in PREFILL phase for request.",
+            buckets=request_latency_buckets,
+            labelnames=labelnames,
+        )
+        self.histogram_prefill_time_request = make_per_engine(
+            histogram_prefill_time_request, engine_indexes, model_name
+        )
+
+        histogram_decode_time_request = self._histogram_cls(
+            name="vllm:request_decode_time_seconds",
+            documentation="Histogram of time spent in DECODE phase for request.",
+            buckets=request_latency_buckets,
+            labelnames=labelnames,
+        )
+        self.histogram_decode_time_request = make_per_engine(
+            histogram_decode_time_request, engine_indexes, model_name
+        )
+
+        #
+        # LoRA metrics
+        #
+
+        # TODO: This metric might be incorrect in case of using multiple
+        # api_server counts which uses prometheus mp.
+        self.gauge_lora_info: Gauge | None = None
+        if vllm_config.lora_config is not None:
+            if len(self.engine_indexes) > 1:
+                raise NotImplementedError("LoRA in DP mode is not supported yet.")
+            self.labelname_max_lora = "max_lora"
+            self.labelname_waiting_lora_adapters = "waiting_lora_adapters"
+            self.labelname_running_lora_adapters = "running_lora_adapters"
+            self.max_lora = vllm_config.lora_config.max_loras
+            self.gauge_lora_info = self._gauge_cls(
+                name="vllm:lora_requests_info",
+                documentation="Running stats on lora requests.",
+                multiprocess_mode="sum",
+                labelnames=[
+                    self.labelname_max_lora,
+                    self.labelname_waiting_lora_adapters,
+                    self.labelname_running_lora_adapters,
+                ],
+            )
+
+    def log_metrics_info(self, type: str, config_obj: SupportsMetricsInfo):
+        metrics_info = config_obj.metrics_info()
+        metrics_info["engine"] = ""
+
+        name, documentation = None, None
+        if type == "cache_config":
+            name = "vllm:cache_config_info"
+            documentation = "Information of the LLMEngine CacheConfig"
+        assert name is not None, f"Unknown metrics info type {type}"
+
+        # Info type metrics are syntactic sugar for a gauge permanently set to 1
+        # Since prometheus multiprocessing mode does not support Info, emulate
+        # info here with a gauge.
+        info_gauge = self._gauge_cls(
+            name=name,
+            documentation=documentation,
+            multiprocess_mode="mostrecent",
+            labelnames=metrics_info.keys(),
+        )
+        for engine_index in self.engine_indexes:
+            metrics_info = config_obj.metrics_info()
+            metrics_info["engine"] = str(engine_index)
+            info_gauge.labels(**metrics_info).set(1)
+
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int = 0,
+    ):
+        """Log to prometheus."""
+        if scheduler_stats is not None:
+            self.gauge_scheduler_running[engine_idx].set(
+                scheduler_stats.num_running_reqs
+            )
+            self.gauge_scheduler_waiting[engine_idx].set(
+                scheduler_stats.num_waiting_reqs
+            )
+            if self.show_hidden_metrics:
+                self.gauge_gpu_cache_usage[engine_idx].set(
+                    scheduler_stats.kv_cache_usage
+                )
+            self.gauge_kv_cache_usage[engine_idx].set(scheduler_stats.kv_cache_usage)
+
+            if self.show_hidden_metrics:
+                self.counter_gpu_prefix_cache_queries[engine_idx].inc(
+                    scheduler_stats.prefix_cache_stats.queries
+                )
+                self.counter_gpu_prefix_cache_hits[engine_idx].inc(
+                    scheduler_stats.prefix_cache_stats.hits
+                )
+
+            self.counter_prefix_cache_queries[engine_idx].inc(
+                scheduler_stats.prefix_cache_stats.queries
+            )
+            self.counter_prefix_cache_hits[engine_idx].inc(
+                scheduler_stats.prefix_cache_stats.hits
+            )
+
+            if scheduler_stats.connector_prefix_cache_stats is not None:
+                self.counter_connector_prefix_cache_queries[engine_idx].inc(
+                    scheduler_stats.connector_prefix_cache_stats.queries
+                )
+                self.counter_connector_prefix_cache_hits[engine_idx].inc(
+                    scheduler_stats.connector_prefix_cache_stats.hits
+                )
+
+            if scheduler_stats.spec_decoding_stats is not None:
+                self.spec_decoding_prom.observe(
+                    scheduler_stats.spec_decoding_stats, engine_idx
+                )
+
+            if scheduler_stats.kv_connector_stats is not None:
+                self.kv_connector_prom.observe(
+                    scheduler_stats.kv_connector_stats, engine_idx
+                )
+
+            if self.gauge_lora_info is not None:
+                running_lora_adapters = ",".join(
+                    scheduler_stats.running_lora_adapters.keys()
+                )
+                waiting_lora_adapters = ",".join(
+                    scheduler_stats.waiting_lora_adapters.keys()
+                )
+                lora_info_labels = {
+                    self.labelname_running_lora_adapters: running_lora_adapters,
+                    self.labelname_waiting_lora_adapters: waiting_lora_adapters,
+                    self.labelname_max_lora: self.max_lora,
+                }
+                self.gauge_lora_info.labels(**lora_info_labels).set_to_current_time()
+
+        if mm_cache_stats is not None:
+            self.counter_mm_cache_queries[engine_idx].inc(mm_cache_stats.queries)
+            self.counter_mm_cache_hits[engine_idx].inc(mm_cache_stats.hits)
+
+        if iteration_stats is None:
+            return
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            self.counter_corrupted_requests[engine_idx].inc(
+                iteration_stats.num_corrupted_reqs
+            )
+        self.counter_num_preempted_reqs[engine_idx].inc(
+            iteration_stats.num_preempted_reqs
+        )
+        self.counter_prompt_tokens[engine_idx].inc(iteration_stats.num_prompt_tokens)
+        self.counter_generation_tokens[engine_idx].inc(
+            iteration_stats.num_generation_tokens
+        )
+        self.histogram_iteration_tokens[engine_idx].observe(
+            iteration_stats.num_prompt_tokens + iteration_stats.num_generation_tokens
+        )
+
+        for max_gen_tokens in iteration_stats.max_num_generation_tokens_iter:
+            self.histogram_max_num_generation_tokens_request[engine_idx].observe(
+                max_gen_tokens
+            )
+        for n_param in iteration_stats.n_params_iter:
+            self.histogram_n_request[engine_idx].observe(n_param)
+        for ttft in iteration_stats.time_to_first_tokens_iter:
+            self.histogram_time_to_first_token[engine_idx].observe(ttft)
+        for itl in iteration_stats.inter_token_latencies_iter:
+            self.histogram_inter_token_latency[engine_idx].observe(itl)
+            self.histogram_time_per_output_token[engine_idx].observe(itl)
+
+        for finished_request in iteration_stats.finished_requests:
+            self.counter_request_success[finished_request.finish_reason][
+                engine_idx
+            ].inc()
+            self.histogram_e2e_time_request[engine_idx].observe(
+                finished_request.e2e_latency
+            )
+            self.histogram_queue_time_request[engine_idx].observe(
+                finished_request.queued_time
+            )
+            self.histogram_prefill_time_request[engine_idx].observe(
+                finished_request.prefill_time
+            )
+            self.histogram_inference_time_request[engine_idx].observe(
+                finished_request.inference_time
+            )
+            self.histogram_decode_time_request[engine_idx].observe(
+                finished_request.decode_time
+            )
+            self.histogram_num_prompt_tokens_request[engine_idx].observe(
+                finished_request.num_prompt_tokens
+            )
+            self.histogram_num_generation_tokens_request[engine_idx].observe(
+                finished_request.num_generation_tokens
+            )
+            self.histogram_request_time_per_output_token[engine_idx].observe(
+                finished_request.mean_time_per_output_token
+            )
+            if finished_request.max_tokens_param:
+                self.histogram_max_tokens_request[engine_idx].observe(
+                    finished_request.max_tokens_param
+                )
+
+    def record_sleep_state(self, sleep: int = 0, level: int = 0):
+        awake = 1
+        discard_all = 0
+        weights_offloaded = 0
+
+        if sleep == 1:
+            awake = 0
+            if level == 1:
+                weights_offloaded = 1
+            elif level == 2:
+                discard_all = 1
+
+        for engine_idx in self.engine_indexes:
+            self.gauge_engine_sleep_state["discard_all"][engine_idx].set(discard_all)
+            self.gauge_engine_sleep_state["weights_offloaded"][engine_idx].set(
+                weights_offloaded
+            )
+            self.gauge_engine_sleep_state["awake"][engine_idx].set(awake)
+
+    def log_engine_initialized(self):
+        self.log_metrics_info("cache_config", self.vllm_config.cache_config)
+
+
+PromMetric: TypeAlias = Gauge | Counter | Histogram
+
+
+def make_per_engine(
+    metric: PromMetric, engine_idxs: list[int], model_name: str
+) -> dict[int, PromMetric]:
+    return {idx: metric.labels(model_name, str(idx)) for idx in engine_idxs}
+
+
+def build_buckets(mantissa_lst: list[int], max_value: int) -> list[int]:
+    """
+    Builds a list of buckets with increasing powers of 10 multiplied by
+    mantissa values until the value exceeds the specified maximum.
+
+    """
+    exponent = 0
+    buckets: list[int] = []
+    while True:
+        for m in mantissa_lst:
+            value = m * 10**exponent
+            if value <= max_value:
+                buckets.append(value)
+            else:
+                return buckets
+        exponent += 1
+
+
+def build_1_2_5_buckets(max_value: int) -> list[int]:
+    """
+    Example:
+    >>> build_1_2_5_buckets(100)
+    [1, 2, 5, 10, 20, 50, 100]
+    """
+    return build_buckets([1, 2, 5], max_value)
+
+
+class StatLoggerManager:
+    """
+    StatLoggerManager:
+        Logging happens at the level of the EngineCore (per scheduler).
+         * DP: >1 EngineCore per AsyncLLM - loggers for each EngineCore.
+         * With Local Logger, just make N copies for N EngineCores.
+         * With Prometheus, we need a single logger with N "labels"
+
+        This class abstracts away this implementation detail from
+        the AsyncLLM, allowing the AsyncLLM to just call .record()
+        and .log() to a simple interface.
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        engine_idxs: list[int] | None = None,
+        custom_stat_loggers: list[StatLoggerFactory] | None = None,
+        enable_default_loggers: bool = True,
+        aggregate_engine_logging: bool = False,
+        client_count: int = 1,
+    ):
+        self.engine_indexes = engine_idxs if engine_idxs else [0]
+        self.stat_loggers: list[AggregateStatLoggerBase] = []
+        stat_logger_factories: list[StatLoggerFactory] = []
+        if custom_stat_loggers is not None:
+            stat_logger_factories.extend(custom_stat_loggers)
+        if enable_default_loggers and logger.isEnabledFor(logging.INFO):
+            if client_count > 1:
+                logger.warning(
+                    "AsyncLLM created with api_server_count more than 1; "
+                    "disabling stats logging to avoid incomplete stats."
+                )
+            else:
+                default_logger_factory = (
+                    AggregatedLoggingStatLogger
+                    if aggregate_engine_logging
+                    else LoggingStatLogger
+                )
+                stat_logger_factories.append(default_logger_factory)
+        custom_prometheus_logger: bool = False
+        for stat_logger_factory in stat_logger_factories:
+            if isinstance(stat_logger_factory, type) and issubclass(
+                stat_logger_factory, AggregateStatLoggerBase
+            ):
+                global_stat_logger = stat_logger_factory(
+                    vllm_config=vllm_config,
+                    engine_indexes=self.engine_indexes,
+                )
+                if isinstance(global_stat_logger, PrometheusStatLogger):
+                    custom_prometheus_logger = True
+            else:
+                # per engine logger
+                global_stat_logger = PerEngineStatLoggerAdapter(
+                    vllm_config=vllm_config,
+                    engine_indexes=self.engine_indexes,
+                    per_engine_stat_logger_factory=stat_logger_factory,  # type: ignore[arg-type]
+                )
+            self.stat_loggers.append(global_stat_logger)
+        if not custom_prometheus_logger:
+            self.stat_loggers.append(
+                PrometheusStatLogger(vllm_config, self.engine_indexes)
+            )
+
+    def record(
+        self,
+        scheduler_stats: SchedulerStats | None,
+        iteration_stats: IterationStats | None,
+        mm_cache_stats: MultiModalCacheStats | None = None,
+        engine_idx: int | None = None,
+    ):
+        if engine_idx is None:
+            engine_idx = 0
+        for logger in self.stat_loggers:
+            logger.record(
+                scheduler_stats,
+                iteration_stats,
+                mm_cache_stats=mm_cache_stats,
+                engine_idx=engine_idx,
+            )
+
+    def record_sleep_state(self, sleep: int = 0, level: int = 0):
+        for logger in self.stat_loggers:
+            logger.record_sleep_state(sleep, level)
+
+    def log(self):
+        for logger in self.stat_loggers:
+            logger.log()
+
+    def log_engine_initialized(self):
+        for agg_logger in self.stat_loggers:
+            agg_logger.log_engine_initialized()
diff --git a/v1/metrics/prometheus.py b/v1/metrics/prometheus.py
new file mode 100644
index 0000000..1eacb78
--- /dev/null
+++ b/v1/metrics/prometheus.py
@@ -0,0 +1,82 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+import tempfile
+
+from prometheus_client import REGISTRY, CollectorRegistry, multiprocess
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+# Global temporary directory for prometheus multiprocessing
+_prometheus_multiproc_dir: tempfile.TemporaryDirectory | None = None
+
+
+def setup_multiprocess_prometheus():
+    """Set up prometheus multiprocessing directory if not already configured."""
+    global _prometheus_multiproc_dir
+
+    if "PROMETHEUS_MULTIPROC_DIR" not in os.environ:
+        # Make TemporaryDirectory for prometheus multiprocessing
+        # Note: global TemporaryDirectory will be automatically
+        # cleaned up upon exit.
+        _prometheus_multiproc_dir = tempfile.TemporaryDirectory()
+        os.environ["PROMETHEUS_MULTIPROC_DIR"] = _prometheus_multiproc_dir.name
+        logger.debug(
+            "Created PROMETHEUS_MULTIPROC_DIR at %s", _prometheus_multiproc_dir.name
+        )
+    else:
+        logger.warning(
+            "Found PROMETHEUS_MULTIPROC_DIR was set by user. "
+            "This directory must be wiped between vLLM runs or "
+            "you will find inaccurate metrics. Unset the variable "
+            "and vLLM will properly handle cleanup."
+        )
+
+
+def get_prometheus_registry() -> CollectorRegistry:
+    """Get the appropriate prometheus registry based on multiprocessing
+    configuration.
+
+    Returns:
+        Registry: A prometheus registry
+    """
+    if os.getenv("PROMETHEUS_MULTIPROC_DIR") is not None:
+        logger.debug("Using multiprocess registry for prometheus metrics")
+        registry = CollectorRegistry()
+        multiprocess.MultiProcessCollector(registry)
+        return registry
+
+    return REGISTRY
+
+
+def unregister_vllm_metrics():
+    """Unregister any existing vLLM collectors from the prometheus registry.
+
+    This is useful for testing and CI/CD where metrics may be registered
+    multiple times across test runs.
+
+    Also, in case of multiprocess, we need to unregister the metrics from the
+    global registry.
+    """
+    registry = REGISTRY
+    # Unregister any existing vLLM collectors
+    for collector in list(registry._collector_to_names):
+        if hasattr(collector, "_name") and "vllm" in collector._name:
+            registry.unregister(collector)
+
+
+def shutdown_prometheus():
+    """Shutdown prometheus metrics."""
+
+    path = _prometheus_multiproc_dir
+    if path is None:
+        return
+    try:
+        pid = os.getpid()
+        multiprocess.mark_process_dead(pid, path)
+        logger.debug("Marked Prometheus metrics for process %d as dead", pid)
+    except Exception as e:
+        logger.error("Error during metrics cleanup: %s", str(e))
diff --git a/v1/metrics/ray_wrappers.py b/v1/metrics/ray_wrappers.py
new file mode 100644
index 0000000..a319ffb
--- /dev/null
+++ b/v1/metrics/ray_wrappers.py
@@ -0,0 +1,169 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import time
+
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorPrometheus
+from vllm.v1.metrics.loggers import PrometheusStatLogger
+from vllm.v1.spec_decode.metrics import SpecDecodingProm
+
+try:
+    from ray.util import metrics as ray_metrics
+    from ray.util.metrics import Metric
+except ImportError:
+    ray_metrics = None
+import regex as re
+
+
+class RayPrometheusMetric:
+    def __init__(self):
+        if ray_metrics is None:
+            raise ImportError("RayPrometheusMetric requires Ray to be installed.")
+
+        self.metric: Metric = None
+
+    def labels(self, *labels, **labelskwargs):
+        if labelskwargs:
+            for k, v in labelskwargs.items():
+                if not isinstance(v, str):
+                    labelskwargs[k] = str(v)
+
+            self.metric.set_default_tags(labelskwargs)
+
+        if labels:
+            if len(labels) != len(self.metric._tag_keys):
+                raise ValueError(
+                    "Number of labels must match the number of tag keys. "
+                    f"Expected {len(self.metric._tag_keys)}, got {len(labels)}"
+                )
+
+            self.metric.set_default_tags(dict(zip(self.metric._tag_keys, labels)))
+
+        return self
+
+    @staticmethod
+    def _get_sanitized_opentelemetry_name(name: str) -> str:
+        """
+        For compatibility with Ray + OpenTelemetry, the metric name must be
+        sanitized. In particular, this replaces disallowed character (e.g., ':')
+        with '_' in the metric name.
+        Allowed characters: a-z, A-Z, 0-9, _
+
+        # ruff: noqa: E501
+        Ref: https://github.com/open-telemetry/opentelemetry-cpp/blob/main/sdk/src/metrics/instrument_metadata_validator.cc#L22-L23
+        Ref: https://github.com/ray-project/ray/blob/master/src/ray/stats/metric.cc#L107
+        """
+
+        return re.sub(r"[^a-zA-Z0-9_]", "_", name)
+
+
+class RayGaugeWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Gauge to provide same API as
+    prometheus_client.Gauge"""
+
+    def __init__(
+        self,
+        name: str,
+        documentation: str | None = "",
+        labelnames: list[str] | None = None,
+        multiprocess_mode: str | None = "",
+    ):
+        # All Ray metrics are keyed by WorkerId, so multiprocess modes like
+        # "mostrecent", "all", "sum" do not apply. This logic can be manually
+        # implemented at the observability layer (Prometheus/Grafana).
+        del multiprocess_mode
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        name = self._get_sanitized_opentelemetry_name(name)
+        self.metric = ray_metrics.Gauge(
+            name=name, description=documentation, tag_keys=labelnames_tuple
+        )
+
+    def set(self, value: int | float):
+        return self.metric.set(value)
+
+    def set_to_current_time(self):
+        # ray metrics doesn't have set_to_current time, https://docs.ray.io/en/latest/_modules/ray/util/metrics.html
+        return self.metric.set(time.time())
+
+
+class RayCounterWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Counter to provide same API as
+    prometheus_client.Counter"""
+
+    def __init__(
+        self,
+        name: str,
+        documentation: str | None = "",
+        labelnames: list[str] | None = None,
+    ):
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        name = self._get_sanitized_opentelemetry_name(name)
+        self.metric = ray_metrics.Counter(
+            name=name, description=documentation, tag_keys=labelnames_tuple
+        )
+
+    def inc(self, value: int | float = 1.0):
+        if value == 0:
+            return
+        return self.metric.inc(value)
+
+
+class RayHistogramWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Histogram to provide same API as
+    prometheus_client.Histogram"""
+
+    def __init__(
+        self,
+        name: str,
+        documentation: str | None = "",
+        labelnames: list[str] | None = None,
+        buckets: list[float] | None = None,
+    ):
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        name = self._get_sanitized_opentelemetry_name(name)
+        boundaries = buckets if buckets else []
+        self.metric = ray_metrics.Histogram(
+            name=name,
+            description=documentation,
+            tag_keys=labelnames_tuple,
+            boundaries=boundaries,
+        )
+
+    def observe(self, value: int | float):
+        return self.metric.observe(value)
+
+
+class RaySpecDecodingProm(SpecDecodingProm):
+    """
+    RaySpecDecodingProm is used by RayMetrics to log to Ray metrics.
+    Provides the same metrics as SpecDecodingProm but uses Ray's
+    util.metrics library.
+    """
+
+    _counter_cls = RayCounterWrapper
+
+
+class RayKVConnectorPrometheus(KVConnectorPrometheus):
+    """
+    RayKVConnectorPrometheus is used by RayMetrics to log Ray
+    metrics. Provides the same metrics as KV connectors but
+    uses Ray's util.metrics library.
+    """
+
+    _gauge_cls = RayGaugeWrapper
+    _counter_cls = RayCounterWrapper
+    _histogram_cls = RayHistogramWrapper
+
+
+class RayPrometheusStatLogger(PrometheusStatLogger):
+    """RayPrometheusStatLogger uses Ray metrics instead."""
+
+    _gauge_cls = RayGaugeWrapper
+    _counter_cls = RayCounterWrapper
+    _histogram_cls = RayHistogramWrapper
+    _spec_decoding_cls = RaySpecDecodingProm
+    _kv_connector_cls = RayKVConnectorPrometheus
+
+    @staticmethod
+    def _unregister_vllm_metrics():
+        # No-op on purpose
+        pass
diff --git a/v1/metrics/reader.py b/v1/metrics/reader.py
new file mode 100644
index 0000000..48c88e5
--- /dev/null
+++ b/v1/metrics/reader.py
@@ -0,0 +1,257 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+from prometheus_client import REGISTRY
+from prometheus_client import Metric as PromMetric
+from prometheus_client.samples import Sample
+
+
+@dataclass
+class Metric:
+    """A base class for prometheus metrics.
+
+    Each metric may be associated with key=value labels, and
+    in some cases a single vLLM instance may have multiple
+    metrics with the same name but different sets of labels.
+    """
+
+    name: str
+    labels: dict[str, str]
+
+
+@dataclass
+class Counter(Metric):
+    """A monotonically increasing integer counter."""
+
+    value: int
+
+
+@dataclass
+class Vector(Metric):
+    """An ordered array of integer counters.
+
+    This type - which doesn't exist in Prometheus - models one very
+    specific metric, vllm:spec_decode_num_accepted_tokens_per_pos.
+    """
+
+    values: list[int]
+
+
+@dataclass
+class Gauge(Metric):
+    """A numerical value that can go up or down."""
+
+    value: float
+
+
+@dataclass
+class Histogram(Metric):
+    """Observations recorded in configurable buckets.
+
+    Buckets are represented by a dictionary. The key is
+    the upper limit of the bucket, and the value is the
+    observed count in that bucket. A '+Inf' key always
+    exists.
+
+    The count property is the total count across all
+    buckets, identical to the count of the '+Inf' bucket.
+
+    The sum property is the total sum of all observed
+    values.
+    """
+
+    count: int
+    sum: float
+    buckets: dict[str, int]
+
+
+def get_metrics_snapshot() -> list[Metric]:
+    """An API for accessing in-memory Prometheus metrics.
+
+    Example:
+        >>> for metric in llm.get_metrics():
+        ...     if isinstance(metric, Counter):
+        ...         print(f"{metric} = {metric.value}")
+        ...     elif isinstance(metric, Gauge):
+        ...         print(f"{metric} = {metric.value}")
+        ...     elif isinstance(metric, Histogram):
+        ...         print(f"{metric}")
+        ...         print(f"    sum = {metric.sum}")
+        ...         print(f"    count = {metric.count}")
+        ...         for bucket_le, value in metrics.buckets.items():
+        ...             print(f"    {bucket_le} = {value}")
+    """
+    collected: list[Metric] = []
+    for metric in REGISTRY.collect():
+        if not metric.name.startswith("vllm:"):
+            continue
+        if metric.type == "gauge":
+            samples = _get_samples(metric)
+            for s in samples:
+                collected.append(
+                    Gauge(name=metric.name, labels=s.labels, value=s.value)
+                )
+        elif metric.type == "counter":
+            samples = _get_samples(metric, "_total")
+            if metric.name == "vllm:spec_decode_num_accepted_tokens_per_pos":
+                #
+                # Ugly vllm:num_accepted_tokens_per_pos special case.
+                #
+                # This metric is a vector of counters - for each spec
+                # decoding token position, we observe the number of
+                # accepted tokens using a Counter labeled with 'position'.
+                # We convert these into a vector of integer values.
+                #
+                for labels, values in _digest_num_accepted_by_pos_samples(samples):
+                    collected.append(
+                        Vector(name=metric.name, labels=labels, values=values)
+                    )
+            else:
+                for s in samples:
+                    collected.append(
+                        Counter(name=metric.name, labels=s.labels, value=int(s.value))
+                    )
+
+        elif metric.type == "histogram":
+            #
+            # A histogram has a number of '_bucket' samples where
+            # the 'le' label represents the upper limit of the bucket.
+            # We convert these bucketized values into a dict of values
+            # indexed by the value of the 'le' label. The 'le=+Inf'
+            # label is a special case, catching all values observed.
+            #
+            bucket_samples = _get_samples(metric, "_bucket")
+            count_samples = _get_samples(metric, "_count")
+            sum_samples = _get_samples(metric, "_sum")
+            for labels, buckets, count_value, sum_value in _digest_histogram(
+                bucket_samples, count_samples, sum_samples
+            ):
+                collected.append(
+                    Histogram(
+                        name=metric.name,
+                        labels=labels,
+                        buckets=buckets,
+                        count=count_value,
+                        sum=sum_value,
+                    )
+                )
+        else:
+            raise AssertionError(f"Unknown metric type {metric.type}")
+
+    return collected
+
+
+def _get_samples(metric: PromMetric, suffix: str | None = None) -> list[Sample]:
+    name = (metric.name + suffix) if suffix is not None else metric.name
+    return [s for s in metric.samples if s.name == name]
+
+
+def _strip_label(labels: dict[str, str], key_to_remove: str) -> dict[str, str]:
+    labels_copy = labels.copy()
+    labels_copy.pop(key_to_remove)
+    return labels_copy
+
+
+def _digest_histogram(
+    bucket_samples: list[Sample], count_samples: list[Sample], sum_samples: list[Sample]
+) -> list[tuple[dict[str, str], dict[str, int], int, float]]:
+    #
+    # In the case of DP, we have an indigestable
+    # per-bucket-per-engine count as a list of labelled
+    # samples, along with total and sum samples
+    #
+    # bucket_samples (in):
+    #   labels = {bucket: 100, idx: 0}, value = 2
+    #   labels = {bucket: 200, idx: 0}, value = 4
+    #   labels = {bucket: Inf, idx: 0}, value = 10
+    #   labels = {bucket: 100, idx: 1}, value = 1
+    #   labels = {bucket: 200, idx: 2}, value = 5
+    #   labels = {bucket: Inf, idx: 3}, value = 7
+    # count_samples (in):
+    #   labels = {idx: 0}, value = 10
+    #   labels = {idx: 1}, value = 7
+    # sum_samples (in):
+    #   labels = {idx: 0}, value = 2000
+    #   labels = {idx: 1}, value = 1200
+    #
+    # output: [
+    #   {idx: 0}, {"100": 2, "200": 4, "Inf": 10}, 10, 2000
+    #   {idx: 1}, {"100": 1, "200": 5, "Inf": 7},   7, 1200
+    # ]
+    buckets_by_labels: dict[frozenset[tuple[str, str]], dict[str, int]] = {}
+    for s in bucket_samples:
+        bucket = s.labels["le"]
+        labels_key = frozenset(_strip_label(s.labels, "le").items())
+        if labels_key not in buckets_by_labels:
+            buckets_by_labels[labels_key] = {}
+        buckets_by_labels[labels_key][bucket] = int(s.value)
+
+    counts_by_labels: dict[frozenset[tuple[str, str]], int] = {}
+    for s in count_samples:
+        labels_key = frozenset(s.labels.items())
+        counts_by_labels[labels_key] = int(s.value)
+
+    sums_by_labels: dict[frozenset[tuple[str, str]], float] = {}
+    for s in sum_samples:
+        labels_key = frozenset(s.labels.items())
+        sums_by_labels[labels_key] = s.value
+
+    assert (
+        set(buckets_by_labels.keys())
+        == set(counts_by_labels.keys())
+        == set(sums_by_labels.keys())
+    )
+
+    output = []
+    label_keys = list(buckets_by_labels.keys())
+    for k in label_keys:
+        labels = dict(k)
+        output.append(
+            (labels, buckets_by_labels[k], counts_by_labels[k], sums_by_labels[k])
+        )
+    return output
+
+
+def _digest_num_accepted_by_pos_samples(
+    samples: list[Sample],
+) -> list[tuple[dict[str, str], list[int]]]:
+    #
+    # In the case of DP, we have an indigestable
+    # per-position-per-engine count as a list of
+    # labelled samples
+    #
+    # samples (in):
+    #   labels = {pos: 0, idx: 0}, value = 10
+    #   labels = {pos: 1, idx: 0}, value = 7
+    #   labels = {pos: 2, idx: 0}, value = 2
+    #   labels = {pos: 0, idx: 1}, value = 5
+    #   labels = {pos: 1, idx: 1}, value = 3
+    #   labels = {pos: 2, idx: 1}, value = 1
+    #
+    # output: [
+    #   {idx: 0}, [10, 7, 2]
+    #   {idx: 1}, [5, 3, 1]
+    # ]
+    #
+    max_pos = 0
+    values_by_labels: dict[frozenset[tuple[str, str]], dict[int, int]] = {}
+
+    for s in samples:
+        position = int(s.labels["position"])
+        max_pos = max(max_pos, position)
+
+        labels_key = frozenset(_strip_label(s.labels, "position").items())
+        if labels_key not in values_by_labels:
+            values_by_labels[labels_key] = {}
+        values_by_labels[labels_key][position] = int(s.value)
+
+    output = []
+    for labels_key, values_by_position in values_by_labels.items():
+        labels = dict(labels_key)
+        values = [0] * (max_pos + 1)
+        for pos, val in values_by_position.items():
+            values[pos] = val
+        output.append((labels, values))
+    return output
diff --git a/v1/metrics/stats.py b/v1/metrics/stats.py
new file mode 100644
index 0000000..4e9db98
--- /dev/null
+++ b/v1/metrics/stats.py
@@ -0,0 +1,420 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+from collections import defaultdict, deque
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any
+
+import vllm.envs as envs
+from vllm.v1.spec_decode.metrics import SpecDecodingStats
+
+if TYPE_CHECKING:
+    from vllm.v1.engine import EngineCoreEvent, EngineCoreOutput, FinishReason
+
+
+@dataclass
+class BaseCacheStats:
+    """Stores cache hit statistics."""
+
+    reset: bool = False
+    """Whether the cache was reset."""
+
+    requests: int = 0
+    """The number of requests in this update."""
+
+    queries: int = 0
+    """The number of queries in these requests."""
+
+    hits: int = 0
+    """The number of hits in these requests."""
+
+
+class CachingMetrics:
+    """Metrics for caching with a hit rate of the most recent N requests.
+    Args:
+        interval: The number of the most recent requests to aggregate.
+            Defaults to 1000.
+    """
+
+    def __init__(self, max_recent_requests: int = 1000) -> None:
+        super().__init__()
+
+        self.max_recent_requests = max_recent_requests
+        # The current aggregated values.
+        self.aggregated_requests = 0
+        self.aggregated_query_total = 0
+        self.aggregated_query_hit = 0
+
+        # A deque of (requests, queries, hits) for the most recent requests.
+        self.query_queue = deque[tuple[int, int, int]]()
+
+    def observe(self, stats: BaseCacheStats):
+        """Observe the prefix caching for a set of requests.
+
+        This function is called with information gathered when new requests
+        are being scheduled and are looking for computed blocks.
+
+        When there are more than `max_recent_requests` requests, the oldest set
+        of requests are removed from the metrics.
+
+        Args:
+            stats: The prefix cache stats.
+        """
+        # reset_prefix_cache was invoked before the current update.
+        # Reset the metrics before aggregating the current stats.
+        if stats.reset:
+            self.reset()
+
+        # DO NOT appending empty stats to avoid helpful info get kicked out
+        # due to sliding window.
+        if stats.requests == 0:
+            return
+
+        # Update the metrics.
+        self.query_queue.append((stats.requests, stats.queries, stats.hits))
+        self.aggregated_requests += stats.requests
+        self.aggregated_query_total += stats.queries
+        self.aggregated_query_hit += stats.hits
+
+        # Remove the oldest stats until number of requests does not exceed
+        # the limit.
+        # NOTE: We preserve the latest added stats regardless.
+        while (
+            len(self.query_queue) > 1
+            and self.aggregated_requests > self.max_recent_requests
+        ):
+            old_requests, old_queries, old_hits = self.query_queue.popleft()
+            self.aggregated_requests -= old_requests
+            self.aggregated_query_total -= old_queries
+            self.aggregated_query_hit -= old_hits
+
+    def reset(self):
+        """Reset the metrics."""
+        self.aggregated_requests = 0
+        self.aggregated_query_total = 0
+        self.aggregated_query_hit = 0
+        self.query_queue.clear()
+
+    @property
+    def empty(self) -> bool:
+        """Return true if no requests have been observed."""
+        return self.aggregated_requests == 0
+
+    @property
+    def hit_rate(self) -> float:
+        """Calculate the hit rate for the past N requests."""
+        if self.aggregated_query_total == 0:
+            return 0.0
+        return self.aggregated_query_hit / self.aggregated_query_total
+
+
+@dataclass
+class PrefixCacheStats(BaseCacheStats):
+    """
+    Stores prefix cache hit statistics.
+    - `reset`: Whether `reset_prefix_cache` was invoked.
+    - `queries`: Refers to the number of tokens that were queried.
+    """
+
+    preempted_requests: int = 0
+    """The number of previously preempted requests in this update."""
+
+    preempted_queries: int = 0
+    """The `queries` number for preempted requests."""
+
+    preempted_hits: int = 0
+    """The `hits` number for preempted requests."""
+
+    def record(self, num_tokens: int, num_hits: int, preempted: bool) -> None:
+        """Aggregate request information into the stats."""
+        if preempted:
+            # Previously preempted request
+            self.preempted_requests += 1
+            self.preempted_queries += num_tokens
+            self.preempted_hits += num_hits
+        else:
+            # New request
+            self.requests += 1
+            self.queries += num_tokens
+            self.hits += num_hits
+
+
+@dataclass
+class MultiModalCacheStats(BaseCacheStats):
+    """
+    Stores multi-modal cache hit statistics.
+    - `reset`: Whether `reset_mm_cache` was invoked.
+    - `queries`: Refers to the number of multi-modal data items
+      that were queried.
+    """
+
+
+@dataclass
+class SchedulerStats:
+    """Stats associated with the scheduler."""
+
+    num_running_reqs: int = 0
+    num_waiting_reqs: int = 0
+
+    # These are used for internal DP load-balancing.
+    step_counter: int = 0
+    current_wave: int = 0
+
+    kv_cache_usage: float = 0.0
+
+    prefix_cache_stats: PrefixCacheStats = field(default_factory=PrefixCacheStats)
+    connector_prefix_cache_stats: PrefixCacheStats | None = None
+
+    spec_decoding_stats: SpecDecodingStats | None = None
+    kv_connector_stats: dict[str, Any] | None = None
+
+    waiting_lora_adapters: dict[str, int] = field(default_factory=dict)
+    running_lora_adapters: dict[str, int] = field(default_factory=dict)
+
+
+@dataclass
+class RequestStateStats:
+    """Stats that need to be tracked across delta updates."""
+
+    num_generation_tokens: int = 0
+
+    # This is an engine frontend timestamp (wall-clock)
+    arrival_time: float = 0.0
+
+    # These are engine core timestamps (monotonic)
+    queued_ts: float = 0.0
+    scheduled_ts: float = 0.0
+    first_token_ts: float = 0.0
+    last_token_ts: float = 0.0
+
+    # first token latency
+    first_token_latency: float = 0.0
+
+    # Track if this request is corrupted (NaNs in logits)
+    is_corrupted: bool = False
+
+
+@dataclass
+class FinishedRequestStats:
+    """Stats associated with a finished request."""
+
+    finish_reason: "FinishReason"
+    e2e_latency: float = 0.0
+    num_prompt_tokens: int = 0
+    num_generation_tokens: int = 0
+    max_tokens_param: int | None = None
+    queued_time: float = 0.0
+    prefill_time: float = 0.0
+    inference_time: float = 0.0
+    decode_time: float = 0.0
+    mean_time_per_output_token: float = 0.0
+    is_corrupted: bool = False
+
+
+class IterationStats:
+    """Stats associated with a single set of EngineCoreOutputs."""
+
+    def __init__(self):
+        self.iteration_timestamp = time.time()
+        self.num_generation_tokens = 0
+        self.num_prompt_tokens = 0
+        self.num_preempted_reqs = 0
+        self.finished_requests: list[FinishedRequestStats] = []
+        self.max_num_generation_tokens_iter: list[int] = []
+        self.n_params_iter: list[int] = []
+        self.time_to_first_tokens_iter: list[float] = []
+        self.inter_token_latencies_iter: list[float] = []
+        self.num_corrupted_reqs: int = 0
+
+    def __repr__(self) -> str:
+        field_to_value_str = ", ".join(f"{k}={v}" for k, v in vars(self).items())
+        return f"{self.__class__.__name__}({field_to_value_str})"
+
+    def _time_since(self, start: float) -> float:
+        """Calculate an interval relative to this iteration's timestamp."""
+        return self.iteration_timestamp - start
+
+    def update_from_output(
+        self,
+        output: "EngineCoreOutput",
+        engine_core_timestamp: float,
+        is_prefilling: bool,
+        prompt_len: int,
+        req_stats: RequestStateStats,
+        lora_states: "LoRARequestStates",
+        lora_name: str | None,
+    ):
+        num_new_generation_tokens = len(output.new_token_ids)
+
+        self.num_generation_tokens += num_new_generation_tokens
+        if is_prefilling:
+            self.num_prompt_tokens += prompt_len
+
+            first_token_latency = self._time_since(req_stats.arrival_time)
+            self.time_to_first_tokens_iter.append(first_token_latency)
+            req_stats.first_token_latency = first_token_latency
+
+        req_stats.num_generation_tokens += num_new_generation_tokens
+
+        # Track if this request is corrupted (only check once per request)
+        # Early exit if already marked as corrupted to avoid redundant checks
+        if (
+            envs.VLLM_COMPUTE_NANS_IN_LOGITS
+            and not req_stats.is_corrupted
+            and output.num_nans_in_logits > 0
+        ):
+            req_stats.is_corrupted = True
+
+        # Process request-level engine core events
+        if output.events is not None:
+            self.update_from_events(
+                output.request_id,
+                output.events,
+                is_prefilling,
+                req_stats,
+                lora_states,
+                lora_name,
+            )
+
+        # Process the batch-level "new tokens" engine core event
+        if is_prefilling:
+            req_stats.first_token_ts = engine_core_timestamp
+        else:
+            itl = engine_core_timestamp - req_stats.last_token_ts
+            self.inter_token_latencies_iter.append(itl)
+
+        req_stats.last_token_ts = engine_core_timestamp
+
+    def update_from_events(
+        self,
+        req_id: str,
+        events: list["EngineCoreEvent"],
+        is_prefilling: bool,
+        req_stats: RequestStateStats,
+        lora_states: "LoRARequestStates",
+        lora_name: str | None,
+    ):
+        # Avoid circular dependency
+        from vllm.v1.engine import EngineCoreEventType
+
+        for event in events:
+            if event.type == EngineCoreEventType.QUEUED:
+                req_stats.queued_ts = event.timestamp
+                lora_states.request_waiting(req_id, lora_name)
+            elif event.type == EngineCoreEventType.SCHEDULED:
+                if req_stats.scheduled_ts == 0.0:  # ignore preemptions
+                    req_stats.scheduled_ts = event.timestamp
+                lora_states.request_running(req_id, lora_name)
+            elif event.type == EngineCoreEventType.PREEMPTED:
+                self.num_preempted_reqs += 1
+                lora_states.request_waiting(req_id, lora_name)
+
+    def update_from_finished_request(
+        self,
+        finish_reason: "FinishReason",
+        num_prompt_tokens: int,
+        max_tokens_param: int | None,
+        req_stats: RequestStateStats,
+    ):
+        e2e_latency = self._time_since(req_stats.arrival_time)
+
+        # Queued interval is from first QUEUED event to first SCHEDULED
+        queued_time = req_stats.scheduled_ts - req_stats.queued_ts
+
+        # Prefill interval is from first SCHEDULED to first NEW_TOKEN
+        # Any preemptions during prefill is included in the interval
+        prefill_time = req_stats.first_token_ts - req_stats.scheduled_ts
+
+        # Decode interval is from first NEW_TOKEN to last NEW_TOKEN
+        # Any preemptions during decode are included
+        decode_time = req_stats.last_token_ts - req_stats.first_token_ts
+
+        # Inference interval is from first SCHEDULED to last NEW_TOKEN
+        # Any preemptions during prefill or decode are included
+        inference_time = req_stats.last_token_ts - req_stats.scheduled_ts
+
+        # Do not count the token generated by the prefill phase
+        mean_time_per_output_token = (
+            decode_time / (req_stats.num_generation_tokens - 1)
+            if req_stats.num_generation_tokens - 1 > 0
+            else 0
+        )
+
+        finished_req = FinishedRequestStats(
+            finish_reason=finish_reason,
+            e2e_latency=e2e_latency,
+            num_prompt_tokens=num_prompt_tokens,
+            num_generation_tokens=req_stats.num_generation_tokens,
+            max_tokens_param=max_tokens_param,
+            queued_time=queued_time,
+            prefill_time=prefill_time,
+            inference_time=inference_time,
+            decode_time=decode_time,
+            mean_time_per_output_token=mean_time_per_output_token,
+            is_corrupted=req_stats.is_corrupted,
+        )
+        self.finished_requests.append(finished_req)
+
+        # Count corrupted requests when they finish (only once per request)
+        if req_stats.is_corrupted:
+            self.num_corrupted_reqs += 1
+
+
+class LoRAStats:
+    """Tracks waiting and running request IDs for a single LoRA."""
+
+    def __init__(self):
+        self.waiting: set[str] = set()
+        self.running: set[str] = set()
+
+    def update(self, req_id: str, waiting: bool, running: bool):
+        assert not (waiting and running)
+        if waiting:
+            self.waiting.add(req_id)
+        else:
+            self.waiting.discard(req_id)
+
+        if running:
+            self.running.add(req_id)
+        else:
+            self.running.discard(req_id)
+
+    @property
+    def empty(self) -> bool:
+        return not (self.waiting or self.running)
+
+
+class LoRARequestStates:
+    """A per-LoRA count of running and waiting requests."""
+
+    def __init__(self, log_stats: bool = False):
+        self.log_stats = log_stats
+        self.requests: defaultdict[str, LoRAStats] = defaultdict(LoRAStats)
+
+    def _request_update(
+        self, req_id: str, lora_name: str | None, waiting: bool, running: bool
+    ):
+        if not self.log_stats or lora_name is None:
+            return
+
+        lora_stats = self.requests[lora_name]
+        lora_stats.update(req_id, waiting, running)
+        if lora_stats.empty:
+            del self.requests[lora_name]
+
+    def request_waiting(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=True, running=False)
+
+    def request_running(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=False, running=True)
+
+    def request_finished(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=False, running=False)
+
+    def update_scheduler_stats(self, scheduler_stats: SchedulerStats | None):
+        if not self.log_stats or scheduler_stats is None:
+            return
+        for lora_name, stats in self.requests.items():
+            scheduler_stats.waiting_lora_adapters[lora_name] = len(stats.waiting)
+            scheduler_stats.running_lora_adapters[lora_name] = len(stats.running)
diff --git a/v1/outputs.py b/v1/outputs.py
new file mode 100644
index 0000000..c0b2835
--- /dev/null
+++ b/v1/outputs.py
@@ -0,0 +1,249 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import ABC, abstractmethod
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, NamedTuple
+
+import numpy as np
+import torch
+
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
+else:
+    KVConnectorStats = object
+
+
+class LogprobsLists(NamedTuple):
+    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
+    logprob_token_ids: np.ndarray
+    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
+    logprobs: np.ndarray
+    # [num_reqs x num_generated_tokens]
+    sampled_token_ranks: np.ndarray
+    # [num_reqs]
+    # Used for slicing the logprobs in cases like speculative
+    # decoding where the number of generated tokens may be
+    # different for each request.
+    cu_num_generated_tokens: list[int] | None = None
+
+    def slice(self, start_req_idx: int, end_req_idx: int):
+        if self.cu_num_generated_tokens:
+            start = self.cu_num_generated_tokens[start_req_idx]
+            end = self.cu_num_generated_tokens[end_req_idx]
+            # Recompute cumulative array starting from 0
+            cu_num_offset = self.cu_num_generated_tokens[start_req_idx]
+            sliced_cu_num_generated_tokens = [
+                cu_num - cu_num_offset
+                for cu_num in self.cu_num_generated_tokens[
+                    start_req_idx : end_req_idx + 1
+                ]
+            ]
+        else:
+            start = start_req_idx
+            end = end_req_idx
+            sliced_cu_num_generated_tokens = None
+        return LogprobsLists(
+            self.logprob_token_ids[start:end],
+            self.logprobs[start:end],
+            self.sampled_token_ranks[start:end],
+            sliced_cu_num_generated_tokens,
+        )
+
+
+class LogprobsTensors(NamedTuple):
+    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
+    logprob_token_ids: torch.Tensor
+    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
+    logprobs: torch.Tensor
+    # [num_reqs x num_generated_tokens]
+    selected_token_ranks: torch.Tensor
+
+    def tolists(self, cu_num_generated_tokens: list[int] | None = None):
+        return LogprobsLists(
+            self.logprob_token_ids.cpu().numpy(),
+            self.logprobs.cpu().numpy(),
+            self.selected_token_ranks.cpu().numpy(),
+            cu_num_generated_tokens,
+        )
+
+    def to_cpu_nonblocking(self) -> "LogprobsTensors":
+        if self.logprob_token_ids.device.type == "cpu":
+            return self
+        return LogprobsTensors(
+            self.logprob_token_ids.to("cpu", non_blocking=True),
+            self.logprobs.to("cpu", non_blocking=True),
+            self.selected_token_ranks.to("cpu", non_blocking=True),
+        )
+
+    @staticmethod
+    def empty_cpu(
+        num_positions: int, num_tokens_per_position: int
+    ) -> "LogprobsTensors":
+        """Create empty LogprobsTensors on CPU."""
+
+        logprob_token_ids = torch.empty(
+            (num_positions, num_tokens_per_position), dtype=torch.int32, device="cpu"
+        )
+        logprobs = torch.empty_like(logprob_token_ids, dtype=torch.float32)
+        selected_token_ranks = torch.empty(
+            num_positions, dtype=torch.int32, device="cpu"
+        )
+        return LogprobsTensors(
+            logprob_token_ids=logprob_token_ids,
+            logprobs=logprobs,
+            selected_token_ranks=selected_token_ranks,
+        )
+
+
+# [num_reqs, <dynamic>]
+# The shape of each element depends on the pooler used
+PoolerOutput = torch.Tensor | list[torch.Tensor]
+
+
+@dataclass
+class SamplerOutput:
+    # [num_reqs, max_num_generated_tokens]
+    # Different requests can have different number of generated tokens.
+    # All requests are padded to max_num_generated_tokens.
+    # PLACEHOLDER_TOKEN_ID (-1 by default) is used for padding.
+    sampled_token_ids: torch.Tensor
+    logprobs_tensors: LogprobsTensors | None
+
+
+@dataclass
+class KVConnectorOutput:
+    # [req_ids]
+    finished_sending: set[str] | None = None
+    finished_recving: set[str] | None = None
+    kv_connector_stats: KVConnectorStats | None = None
+    # IDs of externally computed KV blocks that failed to load.
+    # Requests referencing these blocks should be rescheduled to recompute them
+    invalid_block_ids: set[int] = field(default_factory=set)
+    # Configuration describing how many finished sending/receiving
+    # notifications should be expected for each request. This allows
+    # handshake-based connectors like Nixl to update the KVOutputAggregator.
+    # It captures a static setup info and should almost always remain constant
+    # for a given connector after discovery. Default value entails no change.
+    expected_finished_count: int = 0
+
+    def is_empty(self):
+        return (
+            not self.finished_sending
+            and not self.finished_recving
+            and not self.kv_connector_stats
+            and not self.invalid_block_ids
+        )
+
+
+@dataclass
+class ECConnectorOutput:
+    # [mm_hash]
+    finished_sending: set[str] | None = None
+    finished_recving: set[str] | None = None
+
+
+# ModelRunnerOutput is serialized and sent to the scheduler process.
+# This is expensive for torch.Tensor so prefer to use list instead.
+@dataclass
+class ModelRunnerOutput:
+    # [num_reqs]
+    req_ids: list[str]
+    # req_id -> index
+    req_id_to_index: dict[str, int]
+
+    # num_reqs x num_generated_tokens
+    # num_generated_tokens is the number of tokens
+    # generated in the current step. It can be different for
+    # each request due to speculative/jump decoding.
+    sampled_token_ids: list[np.ndarray]
+
+    # [num_reqs, max_num_logprobs + 1]
+    # [num_reqs, max_num_logprobs + 1]
+    # [num_reqs]
+    logprobs: LogprobsLists | None
+
+    # req_id -> (token_ids, logprobs, ranks)
+    # [prompt_len, num_prompt_logprobs]
+    # [prompt_len, num_prompt_logprobs]
+    # [prompt_len]
+    prompt_logprobs_dict: dict[str, LogprobsTensors | None]
+
+    # [num_reqs, hidden_size]
+    pooler_output: list[torch.Tensor | None]
+
+    kv_connector_output: KVConnectorOutput | None = None
+
+    ec_connector_output: ECConnectorOutput | None = None
+
+    # req_id -> num_nans_in_logits
+    num_nans_in_logits: dict[str, int] | None = None
+
+
+# ModelRunnerOutput wrapper for async scheduling.
+class AsyncModelRunnerOutput(ABC):
+    @abstractmethod
+    def get_output(self) -> ModelRunnerOutput:
+        """Get the ModelRunnerOutput for this async output.
+
+        This is a blocking call that waits until the results are ready, which
+        might involve copying device tensors to the host.
+        This method should only be called once per AsyncModelRunnerOutput.
+        """
+        pass
+
+
+@dataclass
+class DraftTokenIds:
+    # [num_reqs]
+    req_ids: list[str]
+    # num_reqs x num_draft_tokens
+    draft_token_ids: list[list[int]]
+
+
+def make_empty_encoder_model_runner_output(
+    scheduler_output: "SchedulerOutput",
+) -> ModelRunnerOutput:
+    """
+    Create a ModelRunnerOutput stub that contains the correct
+    per-request bookkeeping but no generated data yet.
+    """
+    if not scheduler_output.num_scheduled_tokens:
+        return EMPTY_MODEL_RUNNER_OUTPUT
+
+    # Convert to list so we get a deterministic, indexable sequence
+    req_ids: list[str] = list(scheduler_output.num_scheduled_tokens.keys())
+
+    # Give every request its own contiguous index
+    req_id_to_index: dict[str, int] = {rid: idx for idx, rid in enumerate(req_ids)}
+
+    # No tokens generated yet ⇒ one empty list per request
+    sampled_token_ids: list[list[int]] = [np.array([0]) for _ in req_ids]
+
+    # Pooler outputs are not available yet ⇒ use None placeholders
+    pooler_output: list[torch.Tensor | None] = [None for _ in req_ids]
+
+    return ModelRunnerOutput(
+        req_ids=req_ids,
+        req_id_to_index=req_id_to_index,
+        sampled_token_ids=sampled_token_ids,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=pooler_output,
+        kv_connector_output=None,
+        ec_connector_output=None,
+        num_nans_in_logits=None,
+    )
+
+
+EMPTY_MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
+    req_ids=[],
+    req_id_to_index={},
+    sampled_token_ids=[],
+    logprobs=None,
+    prompt_logprobs_dict={},
+    pooler_output=[],
+    num_nans_in_logits=None,
+)
diff --git a/v1/pool/__init__.py b/v1/pool/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/pool/__pycache__/__init__.cpython-312.pyc b/v1/pool/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..42b8a32d1b5076518825ecf2ca1f7240c50eecf0
GIT binary patch
literal 157
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+31(#7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>KEka=jg}BXXa&=#K-FuRNmsS
e$<0qG%}KQ@Vg(w;2*kx8#z$sGM#ds$APWFd6(t1#

literal 0
HcmV?d00001

diff --git a/v1/pool/__pycache__/metadata.cpython-312.pyc b/v1/pool/__pycache__/metadata.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1a783d4477ba928aaf3635aac9400e721e01f2f8
GIT binary patch
literal 3972
zcmb_fU1%KF6~43cv;SJHBui`UN?J=RS*zGm<kXc6ikrHL(=@gSkwWmsFsye*_R6zA
znVFR%bzRirP`i1EO$)LhU<L9ZW79fNh#yMvYuktJbQ^XUTyRMHkhd*TDfFr5+?idk
zl(nJIi#Ye*bI!eY_WXS3=ug3*kHAp4kFvjk)z`Rb48d9K{0<fyL?RNSkQ|d@7+kv)
zSIPx5tFSpP#Zexo@HrtRFvLY<;hu9m<(3&2d7Vi7H6jW3TsFHY^*B;DNIl<@dL^&y
zll=$bkmQqH%Ms_&mPzshzrTgyESCf+aE(iKth$oHZ;+Q{EU%Q-(-|eLY4flPzEvnF
z+5E+~(rP-V0i!RgiN$PQ%*nZex+<nu(pe>aL6I}9x3kV>XB!q9L?$UlA}QB9L}q0U
zKUC%=W)5dzxx>+InLz4#u9SVQlzXm}N2w&po+X#$h9B>hJl9Cdx9Uy$n!ol3B~>e^
z7N5;a@&{JmQdZS;Q7>GU^CGaa8CerA7E4wySg9R9R8$MOqAn_OUK2B*7|EA%qL#TN
zOC?2??3-+f+qo~}_?%k70~AfT^BIs0qBE2Wq)e7u^&EDYL6d@vYv?_lo3civJ{6Is
z4By)~nlc*udxf^_K68(^`3ofJn!n4dc#Y~sf`?Q;k^qpTpt^DWEcsoR#c8s#qy|At
z!yg!r|7UJW&lRVN+2T<>tzMM%qaT!JPRw4Ok*AdGg{k7IeyNb3T2YkT)XMZ!5rT9o
zC+lg9-O1vr<rhUblhx&%D6SoJV%YZTWQ*tkKDYp6ojeZ3%&y*ziCYu5-!-~M&BS;u
z@rsdn<x!uJc*7hyTpKxQjGTOU#Ta?rjKyoQ7me795BiMQ33D`A8$D%=o_aK6jJ~<+
z7dm})B6xi}a4pF+T?ZR<4|VH#ShTvety9~(lPtG!<mGWf?l~_7$O5^`%qKaE*9&Uq
zlEtPKrNtMF8iv<3)Q+oNK&>v!=(MV5(~4MB<)y5mti|`5?AscHc*!Ubuv~X!<HW5K
zw-;*z)5gH`gT>nMw+;9kc)QxYPzfzmJPT?MXwE17mPZux>6|QzmQNIO1xyE62SoAx
zQd)5&oRZaai_PYBD<q2Pe7>Nk^=tuBNmTprgM~%ND@;#KfmBqxfu~{y+$HoK`m5}S
z!?2@4bs82Qk|+MqP4>o#D%WEU4Bt7wdA`ae&DfzkXEx7NxpDJA|Hk=Sz&m6Pj@(f;
zl`1z;=iIz+>-Y|VX{U?f7a98rym$}dHBxWq*C1&{Jc&sG<}J5LBUx}zuB}vJ*WeM*
zvC+&ednj%Sl8s+%3P8W9BT!6p%YMK#4`5mVN`hMs;t41T+;R*S`^FL{`9U+Z$|eI=
z$Z_{sCxzB}Y!hqorGgsA?1B<7Y57}lZQkm1b`CB|n$_WGVmLvyc)HI}Jf-=)2k6j@
zG$Z~9i`I<z-+^u&3T?jQ{|kcaZixWQIlf&$h<zqhw(0>KCOH+eLmfkM7zyMkN%Cp}
z*KI^<CkPzyvm+SedM&!oGp*?L0-h)VLG&6lBe7a!+=z^C_ZgAtC!y|IC}D&WmC%uY
zvSe`hN%%l5JZ6N)wyqfADKk1$i%uHR$?YpfbcQMq8=>J!Xrj)NSbR6=MHKUTef3V#
z)msZEjBsM>T_b#SH{6iWM6i0=RW?hI<P}KG4EnY)uvk!EW32A+HS-K_yY4yX%S3FJ
zy;Y+2!Uajz>bX$LDw5cUIVZ-bX{oJQigfA(Xsgszcw0Pfqn>&cHfxFf)@^s?3}|YI
zck5(VAVV*if%sOUHhjz&KK9`B4(l57UFW{^M5#TJohr6jY7_}(o#hrqsgQA?ON}Fc
z2+05vj4T=$He4OTErm0Dj(#-#PIVZ!h@p05&=^93d@T*+L-G|j_$1uB5xW(uasy^>
zbVIqNY%LnSNyNCG$n626=WvxfY`!qHK7aG<)~iO(c$J%~b3Pm2V5&!W-UoGWyZh5O
z>MX8j=DsL@Uf#vE{W^V^8kCwDt-8m@&3yg^)R(<JZq%pNW~RZz`lY#kM1ID!lU`-@
zW*q4lMRb(e#_7g<mDBNkI@;zbH0SqSjrRE}Y0++j&Se(R74FiT^>!J1nSDcVcCT<Z
z*FcJ^e9PUK*ZW2p8vQaau@dPg_k~83Go;KfqxbiXGW4nUn{7Ybja>^JWe#p3Wwswq
z+PA?s!*3}=M&0+ev}e9~i-kTk$<Ubk28%x=5HIPgMcMK_ZRhQf!(2<cELO_qEVfY6
z7oqJB<O_N6f>Ov_hDxA@P{VJr(BRTQws<w2zbHH9S$E3wnyeNyY@+q=en))?j#xsb
zl+#K%%LT0o`U*P3z0qXxc~O(!w_8O73JuK<Nejb{eau^$6yHPX?}5;?41})#xayC7
zqE$v_szbAX@y}Mc*@}Pm?}1RIGf@qUuD|v;(D|zaH%q^aRRe>ti^lKFZO&E3=N`TD
z*XWxSF7i0o_3?W*-ZMSHo6HUGCkO6CH>1DpfArce>*^5JPebnWzMr4@>6uD+bbI>2
z*u(I{t_Kreaxa^~?vKyiICpbp`_=2`s=?{?(~tcTv!mOLk8Q1N^IIL}(CAir>%#4|
z?eA~?#EguXhmJ#=7!aUM<OLfxLYBYzZ<nm881J?*yRpTcY+#&SS1D{*2dSi_XBBO-
zsHAnM)H#uERZJ3Ua2r-=)>6Eouo6cprfxfIu{?8jTXs@C1u7UR+A5Gb%P`Ep1i}n|
zO#=TQNB>4%{wkQL2FKQYb%D72|8|9$MW#-W?y$h9+l+B4JIFva0pdt-JKN0&X8+)A
eZ8KSCaeZv&izA;OvDZI5`{%$P0=vkk_W3XQVLC_v

literal 0
HcmV?d00001

diff --git a/v1/pool/metadata.py b/v1/pool/metadata.py
new file mode 100644
index 0000000..9883ab8
--- /dev/null
+++ b/v1/pool/metadata.py
@@ -0,0 +1,82 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import torch
+
+from vllm.pooling_params import PoolingParams
+from vllm.utils.platform_utils import is_pin_memory_available
+
+pin_memory = is_pin_memory_available()
+
+
+@dataclass
+class PoolingCursor:
+    index: list[int]
+    first_token_indices_gpu: torch.Tensor
+    last_token_indices_gpu: torch.Tensor
+    prompt_lens_cpu: torch.Tensor
+    num_scheduled_tokens_cpu: torch.Tensor
+
+    def __getitem__(self, indices: slice):
+        return PoolingCursor(
+            index=self.index[indices],
+            first_token_indices_gpu=self.first_token_indices_gpu[indices],
+            last_token_indices_gpu=self.last_token_indices_gpu[indices],
+            prompt_lens_cpu=self.prompt_lens_cpu[indices],
+            num_scheduled_tokens_cpu=self.num_scheduled_tokens_cpu[indices],
+        )
+
+    def is_partial_prefill(self):
+        return not torch.all(self.prompt_lens_cpu == self.num_scheduled_tokens_cpu)
+
+
+@dataclass
+class PoolingMetadata:
+    """Tensors for pooling."""
+
+    prompt_lens: torch.Tensor  # CPU Tensor
+    prompt_token_ids: torch.Tensor | None
+    pooling_params: list[PoolingParams]
+    pooling_cursor: PoolingCursor | None = None
+
+    def __getitem__(self, indices: slice):
+        return PoolingMetadata(
+            prompt_lens=self.prompt_lens[indices],
+            prompt_token_ids=None
+            if self.prompt_token_ids is None
+            else self.prompt_token_ids[indices],
+            pooling_params=self.pooling_params[indices],
+            pooling_cursor=None
+            if self.pooling_cursor is None
+            else self.pooling_cursor[indices],
+        )
+
+    def build_pooling_cursor(
+        self, num_scheduled_tokens: list[int], device: torch.device
+    ):
+        self.pooling_cursor = build_pooling_cursor(
+            num_scheduled_tokens, self.prompt_lens, device
+        )
+
+
+def build_pooling_cursor(
+    num_scheduled_tokens: list[int], prompt_lens: torch.Tensor, device: torch.device
+):
+    assert len(prompt_lens) == len(num_scheduled_tokens)
+
+    n_seq = len(num_scheduled_tokens)
+    index = list(range(n_seq))
+    num_scheduled_tokens = torch.tensor(num_scheduled_tokens, device="cpu")
+    cumsum = torch.zeros(
+        n_seq + 1, dtype=torch.int64, pin_memory=pin_memory, device="cpu"
+    )
+    torch.cumsum(num_scheduled_tokens, dim=0, out=cumsum[1:])
+    cumsum = cumsum.to(device, non_blocking=True)
+    return PoolingCursor(
+        index=index,
+        first_token_indices_gpu=cumsum[:n_seq],
+        last_token_indices_gpu=cumsum[1:] - 1,
+        prompt_lens_cpu=prompt_lens,
+        num_scheduled_tokens_cpu=num_scheduled_tokens,
+    )
diff --git a/v1/request.py b/v1/request.py
new file mode 100644
index 0000000..3d92906
--- /dev/null
+++ b/v1/request.py
@@ -0,0 +1,259 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+import time
+from collections.abc import Callable, Mapping
+from functools import partial
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+
+from vllm.multimodal.inputs import MultiModalFeatureSpec
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.v1.engine import (
+    EngineCoreEvent,
+    EngineCoreEventType,
+    EngineCoreRequest,
+    FinishReason,
+)
+from vllm.v1.structured_output.request import StructuredOutputRequest
+from vllm.v1.utils import ConstantList
+
+if TYPE_CHECKING:
+    from vllm.lora.request import LoRARequest
+    from vllm.v1.core.kv_cache_utils import BlockHash
+
+
+class Request:
+    def __init__(
+        self,
+        request_id: str,
+        prompt_token_ids: list[int] | None,
+        sampling_params: SamplingParams | None,
+        pooling_params: PoolingParams | None,
+        eos_token_id: int | None,
+        client_index: int = 0,
+        arrival_time: float | None = None,
+        prompt_embeds: torch.Tensor | None = None,
+        mm_features: list[MultiModalFeatureSpec] | None = None,
+        lora_request: Optional["LoRARequest"] = None,
+        cache_salt: str | None = None,
+        priority: int = 0,
+        trace_headers: Mapping[str, str] | None = None,
+        block_hasher: Callable[["Request"], list["BlockHash"]] | None = None,
+    ) -> None:
+        self.request_id = request_id
+        self.client_index = client_index
+        self.priority = priority
+        self.sampling_params = sampling_params
+        self.pooling_params = pooling_params
+        # Because of LoRA, the eos token id can be different for each request.
+        self.eos_token_id = eos_token_id
+        self.lora_request = lora_request
+        self.structured_output_request = StructuredOutputRequest.from_sampling_params(
+            sampling_params
+        )
+        self.arrival_time = arrival_time if arrival_time is not None else time.time()
+
+        self.status = RequestStatus.WAITING
+        self.events: list[EngineCoreEvent] = []
+        self.stop_reason: int | str | None = None
+
+        # P/D: Connector-specific KV transfer parameters.
+        self.kv_transfer_params: dict[str, Any] | None = None
+
+        if pooling_params is not None:
+            # Pooling models.
+            self.max_tokens = 1
+        elif sampling_params is not None:
+            # Generative models.
+            assert sampling_params.max_tokens is not None
+            self.max_tokens = sampling_params.max_tokens
+            if self.structured_output_request is not None:
+                self.status = RequestStatus.WAITING_FOR_FSM
+
+            if sampling_params.extra_args is not None:
+                self.kv_transfer_params = sampling_params.extra_args.get(
+                    "kv_transfer_params"
+                )
+        else:
+            raise ValueError("sampling_params and pooling_params can't both be unset")
+
+        self.prompt_token_ids = prompt_token_ids
+        self.prompt_embeds = prompt_embeds
+        self.num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
+            prompt_token_ids, prompt_embeds
+        )
+        self._output_token_ids: list[int] = []
+        self._all_token_ids: list[int] = (
+            self.prompt_token_ids.copy()
+            if self.prompt_token_ids is not None
+            else [0] * self.num_prompt_tokens
+        )
+        self.num_output_placeholders = 0  # Used in async scheduling.
+        self.spec_token_ids: list[int] = []
+        self.num_computed_tokens = 0
+        self.cache_salt: str | None = cache_salt
+
+        # Multi-modal related
+        self.mm_features = mm_features or []
+        self.num_encoder_inputs = len(self.mm_features)
+        self.has_encoder_inputs = self.num_encoder_inputs > 0
+
+        # Read-only views
+        # Prevent directly appending to these lists since
+        # they should also be updated simultaneously.
+        self.output_token_ids = ConstantList(self._output_token_ids)
+        self.all_token_ids = ConstantList(self._all_token_ids)
+        # trace_headers
+        self.trace_headers = trace_headers
+        # State
+        # The number of tokens with prefix cache hits.
+        self.num_cached_tokens = -1
+
+        # The number of NaNs in logits. A value greater than 0
+        # indicates that the output is corrupted
+        self.num_nans_in_logits = 0
+
+        # The number of requests being preempted by the scheduler
+        self.num_preemptions = 0
+
+        self.block_hashes: list[BlockHash] = []
+        self.get_hash_new_full_blocks: Callable[[], list[BlockHash]] | None = None
+        if block_hasher is not None:
+            self.get_hash_new_full_blocks = partial(block_hasher, self)
+            self.block_hashes = self.get_hash_new_full_blocks()
+
+        self.skip_reading_prefix_cache = self.get_skip_reading_prefix_cache()
+
+    @classmethod
+    def from_engine_core_request(
+        cls,
+        request: EngineCoreRequest,
+        block_hasher: Callable[["Request"], list["BlockHash"]] | None,
+    ) -> "Request":
+        return cls(
+            request_id=request.request_id,
+            client_index=request.client_index,
+            prompt_token_ids=request.prompt_token_ids,
+            prompt_embeds=request.prompt_embeds,
+            mm_features=request.mm_features,
+            sampling_params=request.sampling_params,
+            pooling_params=request.pooling_params,
+            eos_token_id=request.eos_token_id,
+            arrival_time=request.arrival_time,
+            lora_request=request.lora_request,
+            cache_salt=request.cache_salt,
+            priority=request.priority,
+            trace_headers=request.trace_headers,
+            block_hasher=block_hasher,
+        )
+
+    def append_output_token_ids(
+        self,
+        token_ids: int | list[int],
+    ) -> None:
+        if isinstance(token_ids, int):
+            self._output_token_ids.append(token_ids)
+            self._all_token_ids.append(token_ids)
+        else:
+            self._output_token_ids.extend(token_ids)
+            self._all_token_ids.extend(token_ids)
+
+        if self.get_hash_new_full_blocks is not None:
+            self.block_hashes.extend(self.get_hash_new_full_blocks())
+
+    @property
+    def use_structured_output(self) -> bool:
+        return self.structured_output_request is not None
+
+    @property
+    def num_tokens(self) -> int:
+        return len(self._all_token_ids)
+
+    @property
+    def num_tokens_with_spec(self) -> int:
+        return len(self._all_token_ids) + len(self.spec_token_ids)
+
+    @property
+    def num_output_tokens(self) -> int:
+        return len(self._output_token_ids)
+
+    def get_skip_reading_prefix_cache(self) -> bool:
+        if (
+            self.sampling_params is not None
+            and self.sampling_params.skip_reading_prefix_cache is not None
+        ):
+            return self.sampling_params.skip_reading_prefix_cache
+        elif (
+            self.pooling_params is not None
+            and self.pooling_params.skip_reading_prefix_cache is not None
+        ):
+            return self.pooling_params.skip_reading_prefix_cache
+        return False
+
+    def is_finished(self) -> bool:
+        return RequestStatus.is_finished(self.status)
+
+    def get_finished_reason(self) -> FinishReason | None:
+        return RequestStatus.get_finished_reason(self.status)
+
+    def get_num_encoder_tokens(self, input_id: int) -> int:
+        assert input_id < len(self.mm_features)
+        num_tokens = self.mm_features[input_id].mm_position.length
+        return num_tokens
+
+    def record_event(
+        self,
+        event_type: EngineCoreEventType,
+        timestamp: float | None = None,
+    ) -> None:
+        self.events.append(EngineCoreEvent.new_event(event_type, timestamp))
+
+    def take_events(self) -> list[EngineCoreEvent] | None:
+        if not self.events:
+            return None
+        events, self.events = self.events, []
+        return events
+
+
+class RequestStatus(enum.IntEnum):
+    """Status of a request."""
+
+    WAITING = enum.auto()
+    WAITING_FOR_FSM = enum.auto()
+    WAITING_FOR_REMOTE_KVS = enum.auto()
+    RUNNING = enum.auto()
+    PREEMPTED = enum.auto()
+    # Note: anything after PREEMPTED will be considered
+    # as a finished status.
+    FINISHED_STOPPED = enum.auto()
+    FINISHED_LENGTH_CAPPED = enum.auto()
+    FINISHED_ABORTED = enum.auto()
+    FINISHED_IGNORED = enum.auto()
+
+    def __str__(self):
+        return self.name
+
+    @staticmethod
+    def is_finished(status: "RequestStatus") -> bool:
+        return status > RequestStatus.PREEMPTED
+
+    @staticmethod
+    def get_finished_reason(status: "RequestStatus") -> FinishReason | None:
+        return _FINISHED_REASON_MAP.get(status)
+
+
+# Mapping of finished statuses to their finish reasons.
+# NOTE: The ignored requests are the requests whose prompt lengths
+# are longer than the model's length cap. Therefore, the stop
+# reason should also be "length" as in OpenAI API.
+_FINISHED_REASON_MAP = {
+    RequestStatus.FINISHED_STOPPED: FinishReason.STOP,
+    RequestStatus.FINISHED_LENGTH_CAPPED: FinishReason.LENGTH,
+    RequestStatus.FINISHED_ABORTED: FinishReason.ABORT,
+    RequestStatus.FINISHED_IGNORED: FinishReason.LENGTH,
+}
diff --git a/v1/sample/__init__.py b/v1/sample/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/sample/__pycache__/__init__.cpython-312.pyc b/v1/sample/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5dca8803378ef30bb9d6d7e7f950cd4edf463300
GIT binary patch
literal 159
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3A<$7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>K7;G7UZPr$H!;pWtPOp>lIYq
g;;_lhPbtkwwJTx;8pjC4#URE<W=2NFB4!{90IPN-&j0`b

literal 0
HcmV?d00001

diff --git a/v1/sample/__pycache__/metadata.cpython-312.pyc b/v1/sample/__pycache__/metadata.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..221a3191242ddb0ad16e3d8d48efb228817561c1
GIT binary patch
literal 1529
zcma)6&u<e)6rNp=9mjUSaa==!F*Hr8Is&f}A_0;`r3#5lnj(c>d>L(a2D4=L2eadV
zd+MP*R6P`*VxR2Zg7{N<!QCFLIaxxL+FPm!A@$Umwc|Ldh*)Xgy!XEM-h4CjW`3KS
zO9A;&__Mta0eGv7lP^A2j=z%10l)xj6gXN<)0D1Ly{5}CMq>`FK@AX12M+*-KL8wm
zt&ehFk4x0zO}(7>TUljI%wm(97Bz!lTUyyIuWs|;A@eK}1Re{laZ)r)Nc^rT5(LyV
z3~KtffW)3Arvpbi*1nqofW)z0l@5}ST5O`hNIO3-{t+>WC}xHvC5PPqIXu=E)!cDB
z6U8MboRX2PIL&^<EU6F2$O`Fm(agE%T!f}biX;`&G206t&Y7&>VicoRekOae;%tPc
zCBJ#4VXc-q8#$?zQ+QJ=FNo}p>G;%k>t7RYs?OLJX-*uUFq1bJ5h;^WRA+?X=16Cz
zi#<ogx#uH)H0+5~owzDP_K(Oq<_qLD97Mgk&%E70WLyvV#5F0miNvMT@j2q&9&wS4
z1F`U!k!KC!TFt4joX<!gePqg)XT&Gm=C<cfd9z-F`;F;>1xea_PVng*$T5RGv9N1m
z^xR`OI7LKS@{~6~va$kkA@GTH3YO<Y5+T=g2tp!-kmKP7ReA=YXAP5%5xE)6dLj~!
zh%2v<xQLMHx*j(b(LhGSUC*NeV%y>(X1iR>J~-Jg0jV8uCT~Arm!x<Fj->?u-ZQx4
z8@}z|<R+^Ve)C1+_T4*sw~0aRUBhqkC!TBUQ|cJ|>qel?kQmPR2rGV*B~(Er(((`f
zlHx}&oG%;{Tg4vi&##1VWsuE>Fh7#RboQ6(Pu2EHKV1r8X>isYX7ew1+N)ioW4!sK
z+|RCsaP24oE-kh1x1NUZ`Y=}rVPR0XazI<O_o!behp;?YEOm>WVhC3Um#=m+os61t
z>00+j=SB!W9~PF{o4r`)Zp)JqM@evXxx3ZbI^66RjSw2L`ckQF^)?UT;m)hsU%z})
z+UPId3gIn@<d#GDsT?aC-*3OX-_EzK&SLAE9`5JY{($Rj<z(sQgh)>wI})&%0<K6Q
zuBn}??5|fwJ69RC08%{=y@I3ji1zR^l@yg+Rhh}^s0Z$`FQh47MG%ywIErbS_AUvu
e<+mX7C#XtxdiuS7UE4SUQXI#m`HwQAQvU&$(S|nw

literal 0
HcmV?d00001

diff --git a/v1/sample/__pycache__/rejection_sampler.cpython-312.pyc b/v1/sample/__pycache__/rejection_sampler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6ededc857ce9ad6db34c1e33f20debb99b68ad97
GIT binary patch
literal 26659
zcmchAdvIG<df&zSbwL1pKS59=MUkRNk&-2gdf3!kvR*66*<D&*7~;L8K!E^#0qPZS
zmrgumGV6}WbULDvoiW{}i8l5m+-9e%oo*ZDpL9E&OmRi6fxV?0wd-WEooNfNw3#%2
zwEcbOJ^+xQ<!w5>77xxnkMDfv^}Wt_uK&H)>*nyptly4)B5~Z$=tX}jwaBwitQ>cb
zdz}+F!4%^rO(P}~#mzDEh=u)HN387EHfbNRvph@8G3gv}vbZ(onskr2Cp{w`_HK*u
zlim^UWW`7Yd$-4Yll~Dui#uY0$;y#R7I(&~CaXuPS=<$?nXDbDWpQ_`ZnA!)p2a<}
zhRMc}Mi%E|O_R+dEhf&)iB2*2kx9jWq*d^aghcnmVZCF8UvZ02aR9FZH`2ao2_Gxr
zAL%f2CpaPSE+<rq_KDL4D0=K8iy9l*DpZNqiF0~-;a8{@w~5^iNDykoZlQLQQgxf8
zo9{SKvwoA@hE38NMZeHgK5wj2Xnxl^(j&B#&)*coFM{b5f`GZ*#kn|PKxo|ra%hwE
zHjK*_{I%n6Gpu=`<6YZGuRvuBBibqM5W4~ON@2Y9*qE7(`Bvn9Lr*LGZrYAp=t56+
zvbid>v)Qa|Hs}9$vq>ZTtKwTJYy-XnSpS|0q0m1)Ce)0ZKJM1{h0yaZ_mP%0vg=FM
z*<OB^jG2YrcdZ7r-J3$&BD9a2i*VSnDZIWScrR_zpZ@Z-h0U<E3OkFS?zwI59{f3t
zK(|S8Na9p1GAf=!+!KvQQ{h-*d|Z^e&5Ah{Q|u`zno7j+<~x%ZpOO++lb6MKG9e`u
z@1@A(R7{l4Pp77)Q>gA|3DNlYSuqt6BB=<{nj%wEvD@LR5g~jtAqmOw&1mXcSdb!P
zsU)(i)a*zs7M>F0kyt7!QgT2|P9>(o*TWP}A<?0=hiK)cDRK0uIGPZ|qP9HY(dlF=
zF&R!wC4c_E@hH_7&I}(pcJln0qsK0WFQ0$y*tzhjqe|t8i^q-~{d)NFv9lMBT^zpr
z`o&{EpT%g5(vav+g%)|X)68-2fenb<hzaD<ESNz2&7yV8Jjach1k1bph)uAHcEKh(
zCj5H!!mnUw#LKZsu2XagF3~;a7Tj3E9>F8>4BBSp`Ay(>H%YJ9B;6%?$0`IL+N=<L
zf`5}z0bt`2{bFFEqtGKgMx<rTE>spRttw$Nys4iwO0M!PjX8xX;8G1-UId}KJOuQC
z{^JQNM)Wpoi5F^$Fs>1OAlLO9YS*rVrp_XbMNu2*ecih@WBb?6akoq(b(gsA2E~6-
zoDfG-(L`KZwvlN_6Ydb6%h$wEl(x>K7*9p0NGOSIHkyjv4vi&ZvBb?}D1|bS*mwfF
z@7iQY5R;=)^r|R?qHzX-z+6kErjkSb{SoO_^hRGo8t;!>P4*8C4h-}S>>b!Q*vCqq
zOxzT2h*EFprWm>ziKjxTL})Y?k)mU_StBV?nvBL1*z~tU(@E9>OD{!mh{1}Cj*3$$
zlu0G7g9r?1zbGF`g(4C#)(c#X5GZtv`XPxi*30Cz=#+sy_28<Qx+#ikp)FG6=9Um6
z453IIO+=(|F%=?;6S*3VMTs(~J(95R(W5UwBgqJp5GuhUB20ifpjH9oZ37!2N;7bE
znkEB7buBu2Efh^++@<IZR2h>JlcB4L)HT+h^+*~}3XlzCuO{Ntm`!!OjDn}eFu5_p
zWGX=erRJ9mVJ~Z{s5;>j5d>D6@(f@iMk_JKiYLXlr^WcF*vHn`y2^<-)|WmstVc9C
z>Np#~O1lvHsu-GzB$HTn>(QY!3}=M3&7gwtQ=v%%mR3p9H-gr<gzi%J6F0HirO;#o
z3ui1Q-ioqmzOA)oKrvtgwNWvd><b-7E%6qcW45eEBXL@~01HNeaU-swwnZqR4Fguu
zh$PuG$HY()tOOHHyd)$f#AGO*NQIKqQ&R~Eo8_7az&Z*B94wYdN*p(4Il)+<HjV0D
zq4j;4O*@;`u_(A3#(!Lli&R$#5hG-Sx?z0OWljJ};D!zs_LsI`wqtLVZidiytkc4h
zV;CzAb=IX(urlKznVtTgeILO;G2P=*M%KI~&HW=AXGlpVE^SJ4VWW1Mn*c3a|4i7|
zr*PbiIc=VBZA=$TA8A?&;G!k<L0PXJFZ>GTqO#Bf)aN$WZ8@j7v_&BbiX9{@3ZcTO
z*f4vdq&UN2CeMVWT2xWI$fwnv3{PUJ6?YOVKb53eP#UAjumOnVpQ3V3Y%jG`9ZIQf
zlosi>D%PYJ8)MB#&D54F90rX|Cd1(*4HRZ__U}*hrzWTRr=n9k)GfE;*7V+eFJIp)
z_Q#@E`=@TFt|j9AH)65L{u=}R>V)+hOCzk!VBgejsR<D8G^}SYeR^+SLUxjrw7;9>
z)|}pXhwQ9>;%v;-1?Q~q^SS!w5BU3hwti5qADr{%diG{}4$D1<AMIc5IX`E8;_S+G
z?ap=`l)DZ-ytdkPV$S*#XU8)@;}qwlCe|q)MgeKat|re(#B7y-zDL4FDZ3=5rlt6(
zF})~9N;g|{{~e3z9+uSv64pN{W1(GdL|@FOx!*9MWSJ#5V?%nmWoJ)YX4QI@w2cs)
zabVGwS%_&z%A>cRwhHEtEgxyE3s%(N^}NEbWEO03lVJbY@sWnnj5F<=(B;KKL2kyC
zwxsQ>b$8l55h%*iqAA_fz)e(d%+;6uj2oELZOl)*)7G>}SH5RFDQb#6X%EH)W4HcE
zTMMPro{5(A`B1XWUyReoPJMi4_*AQ2AFYM-c;OeRTMBP_45@mw=ywx*&1pXE0@hBo
z=!{n|%~YhV6CFiWwWxF$qtvxAy?kj9G!VJ+^PBd>O&D9}#I}vlCVDoerM(|%YjCC_
zwL{NOd(#ykyY$h5Oz4h$0}F;xWTNfE(s;7KDkw$YIi;zTqboU#VHOw`*js^DP`RRg
z8QOM!ilmuH?2S}H8ok!1s%>v}Z-joqkg;xuiUlFo8p#N%z@ze<zR;y>ktqnUNuwv!
zGCgm^rzfGUk!aW(x{(--Tn#6qcf>dQLPx-%uZp2_i8v~b6-i*=pu`?GfFd3Y@^T{z
zd8bGoBV<M)S~ASy<5Fa@n0=Ryg-WVJ+lqT%rt_CoIg@xotScGPY7uEu#m>?pDQ$u}
zt&c`=?}-UVQlr;c_ty=@Nl31}8~R&lk4A(EXF_yr3}qp)OC;4LQ*5LlDMeB#2oa<T
zkQ}uER1&KKVhzebOUI~>Mwo1L4dNsI(Fi8l1ZpCqCSs`l-q^i!=Pw@{3caOfzlFhP
z6FEHv^`4;+V#WiK=#r5eB9<`3x!a{+HgJZ}Hez#qHwOAtuGXh7{Ju*h)B%5ey_cD<
zVL^Z{K<nDrFQK?7l3YyEq~2IBL^#Os5%gG`gftKVD=IVYkQH}a@27AIf-csR2z>~v
z7my(BixTNB;tf)pqH%zqWO_`YdlwmpTepo_Cv>yO#@%)#0i_SJGn)z~7M6&4p;JdO
z(WC%f6QdHXM_L=0yRi*3t*r}DC?IrBA`1j8B>u_BtuXCJ9l&M94?rY9i-IP`C~oLn
zTD;rJ__#y_RH>SRb_IPj%tT3bODnZHBql$FNd=RzJz*KL2+>K!CZujp(VHp>pb<t1
z!cifq_>HRSs!Vp*DLf%aq%0g0;|hOv_-o-y7mghXpE-6;saD%XEeLcF;(&{oRBBYY
zNkdpqR;4bIDWo6;1JnU?Dxuie##bC;u|y=bYf!0EZAuzYZ7j%+)u?9ZD<?dffMO$I
zic(3XYIK^7qDoj*+6HktF_r@QihsR)rud2qs$Hi!C`wF9#6XmqFqB(kZo=BINQ0E;
z)JIDquGj68+VCTFQm~Z*;__^sBog(cJqQ%Oc*OMaV?7e3u)4(+U(swb+yXTHC4;JX
zOJ8~Il`TQVuL3GeEW<bH0|G<|iyo<+kaA$h+>A)Vo%#*Js+L0s49R~EO<<PGAL9J=
zSzm|j>-d;|?Ax7j?#}pjKW**GwjPjM4`iIpxzM(3=#U&blySD?dCp&(@wH`~Z3uI9
zEt%k;T(@hE&$YIHkiMVJRkf}KJ9GZFTwD8do29iP@8sG#5%{aKzP`u4zRxXO$DXHw
zmV6x->V3xXAvapcH*!t=*~VAp##iTjc{kV6o@swsZr+!1Hau<Kk!{{7H}Cv@%@10>
z*RtCD3KAhqXX|&%^}BO?OQv<_%C=_~bAx-%`<&+*cIEhn9ABN~x5@lA<Uey*DGP|#
zcV_E)<+|RL${)S-rw4y{FjLpNT6b!W|Ey^{tI#3y9W2r*^PMcxCi87Yu<CMreU5J;
zpaEAi5U<bIa?K(9<~+?=&yL5Q9T<je>pr=4ABG_7AC&!rIe&f5Uz=;|%(lJyxb4+N
zZ|3+{bN-I3|0UV~Qr3S+_8-dmL(ja9P(_AseqPD>TXMm^T+0p&pWmJ5EH1Z1QWsml
z(g}(kp@8<=sG*hNh2l)a|1lHsQ<|Q~aTA7Ej}qDgjSn)>`sX994utly`8abkHF9Z(
zU>3M04rR)z08XT9Vq-D<8P^LivJ~{-33qW#HC|8<AeLLp>8oE{U+)_POcyQxwCx`R
z!^vRSQ-=C+eJ_+94}|+N>V{zY*s8Zb!=p^q#{LPmkL`LHft?=Bcp=I<CTcd8P4jxm
zJJ8!v&Yku$b*BQNH7VWe9?6`ph&Ljyeq9D$CrGVb_oORy_%pt=J?&wz{hQP;qs*jz
z5cB;n7+>NV>mI#TU0H(g?oc`F&uL|Lo1~ri`L0Ro$IoSOTW2I0PEEt2+wGTLMw;Tj
zBT5OF3!>LWrAFf+Dmm8pVzNNIrG2O&VcIx}=1j39rzaIhJP{`tN&x3GVk8B22gxKR
zLdcRrRFv5?{G*9UoV|z!CsBOk5t3U92{u&Rv%5Q>auH%aDl1`Jq;wlg7bv%gsW9n8
z<F|@eH|~ZfBgyMZ6)`p=N#l&QMgn8AI*(R-rRhl=@MxCe0-}X7DzGFCMiEa@ql~ji
z!^pa`bpux^%T#|4Ws_GhZ?hbzTHDraXr~<7xl*4UI4=*JUkzOVJIQtQW;+hc9fu$7
zdUQC`aRNz8k)^BPE_pi#wo{G;t<^PW>$>E+t_Sw-i$9qB-sF?Iqu@V%`?GzA<i0~c
zn*P(7AI_}yot@(|H9fL(dv3?RKMsF4{G-?Z^vxf>xw_*uO7E7PJ!qk!=gE#?xqcY-
znBewouwM@LuN=+<`&WZ|GtQ=5TVJ+qkKDHBku}q{XSMCvqlnygGUE*9oWabNz1c0N
z<SnOid@GnwyZdv_>;gv!f_pV}Wnjl?JOox|XMAt_W8Zf0J#X{VK+V18#pZ0FPY(1w
z_||IRmAr#<HBz142WRERp*dg9S9Lc%pU(QW%RaEBmK@&<mXqa!G9UcT^asCw|JPUf
z?ciy|8mu~NIEA5B+y%|A#NKG|g%y;7>4%%ps61YcM?XrLAP%zb(eucrm@>Eq(Yv%c
zZMqKbat9D+EGdH<r47sBQSPqwu5HvZ&W)Pi1g*M)(lb_=k8CglSZOcN-=g__pOqW6
z%-CkEmr&BA#cyKENB#|fUx-L#XNC@?sZE*^Wypc5{vk>QiF~7)zg~(OV#a!nI;b{e
zrUbxz&NMam`c3dgv2s}~Mnmr$fVO=Z_^B8{DN;96StVOL`PEF(Z<RYMeJgZTJto@F
z!wp!G&T=z~Qw=EkW6>C>6<SAMReL^E&#~z^I}a<24Rx%rTC{P1#XvvKV0qIxtSZtd
z%c@+%p%@Nus2cqyS$(oY&^Q*FgQ3<kIyJ4>K)PT@WyIDc;)Pk{yX_LKUy1xAl&bZU
z6pl|}Wk+IBK_!2tsA7?DP)Cx7IzOt+%R`GyikirMr)2|)D$f23)J={efb<*WTKlt*
zVS|IK!QI*5kQ^LZ4MOT|dRp5}#G!T=JAAoE=6gT4m}}j0?&o%HaDQh1xhDhXpZG3-
zl6`n%`Rxbo3zmh`OK&fpUG;Ct44i-L19iLbKUaMhl4OPbQRQ%@ebm@GNHI3$923?c
zG9hvO!(*!;r;PY^%ap_>Nz+CuE2z!b(>AFYTiw`_1=wKdWd$_dVurfrast?_Ic=5x
zJcUiHKIL21S@?`2MfwSQ%AL-qEfa<fRxbxDsOe*~frqmQLK!P9#L(i>uC%MHt=4H^
zM7Cg}HtU}97Er+gkxd(Uh;>{!n=OPKGsu`HZU0EKwa*}>+}OR-Q$Af2t$5&I*mMi%
zrTJ8w{wCP;e&|?X{x?}0GhV4a)vnhBmR`(x+425JTa$Fq1Yyg5PI?Q~AXwQ2@dlLt
z%iU%viWG&1SQNe*ON?HJmFVxSJ7AURuB6n0`-oCia5iDYk91wOwUsvL_LEnmaeaSk
z-YCopp-C_mg%_qH*Rq4kVrz!F|1GdusG^=-Ro<mn2|qh*NO5@2T*8Yg(lNAss)@mH
zaUttR@;ab`P{zWFjoBz9(l)v)R6&i2XI%t^6o18g4H9OddSfJhyYL!LNCgKQwWmBu
zXS&@`Ma>Uif^j;9G^DahL$qWDmN3!AiqbU2tqvifD@_8EBq<sy!P7%kBpX8dooyTF
z-6lqtpAo39fTM!+@mxz^ws}Zy9?H}Y&3T{lEm?j*<_8}0hgaUrTR2xc^meG<O$X(s
zgHUpR>gi<a?J>Fa7*tlK;qH|EJD=GsOm_u9fbi^+J-afVSN`naT2m0pdA4;}ZXI52
zIy`q~t+j(}1P@MTdymPz$9^n6X}t`cS5H3ksOCxQ2_)p&2C{8O<hCQ3qnB6PUeEBs
zTuXnpWl(MzgvH_B%;L<-Zr~T(^^7wIE9TBY%&Kk7La3|hhN_*Z?|$&|$~Q8{UWZ^-
zTQPSW;uVx}-(K0bH{&~!L#JDg$t}ko#pRaQ7u=|k^|#CZ_T|&xx2=r*iT8>B5CFFC
z&Tcs&Z#j|i;9n5o8sEi$Z_n&F`0!Ttm9NRKeC@f#>?I3_zjn^6D(PvAZ^^+MX~HB^
zJ^KW~W(RN3&$vr;C|8EmYsYD2^U@YtuIw<bn7JU09xc}nxMlQoE!TnEGTOS9>nu8?
zgT@Rp;z&DjETqAkfi!su`q(+}@EBTTrq0Q!RKZfERKld0B-e<-wo$6a*ba%07VRaa
znl?a+nV1VjB|0PQb`_c4m^qF{Srr;)DfSKpzd^xoB1pOr=zAojZW1yL+zD;6NsR67
z!@fv<8%41>{A?|EKlXIzsv73bKJ|sNz5&@cknv$F97OoEsaM?@594yvS+W7q!Wx!a
zh9C9GEnmst<TnV(;)onP^5~o#yhI8G?FQOCSbD9m!|wH200yT@CgKMnX5{z~;xGkO
zy65b`ps=hGK&re@|2N2?Wd-hxsTjw>f5FU>M!L=|j&g5a(Zp}dj5S3|l0BGA^qL;Q
zbbT9!(DZ%{_=?8Q)EqTTTlA79t|01{g=D@1lB$<R%P<izNu><bad0t#E#rS`!l^1d
zGhQ^D6inRvtyb=RoZqF*;7`_b673M_3<Z7!Bw5~xPDyVg4jwRtsT33&V+FccNkgaL
zNIW?mODPtJmv9<@^;;5=zFvxy;z+zRxM7{VkbP~Zl|w5KE62_8jTui{uBtu5w?7S3
z&Dqx)nlmjs9(?nYhC}nG=8h~>ulXt$c7OZ!((rG6lgxvB<=wOMXP4Ta@WHj3#_#M}
zO8xG><+tx2{G_IP!33gn&kL(zaQCu(S^Ch8$b+LRf$yF`<R|`@pjX!R<Xv3jD<Hpx
z1@kT7(p^uk7;&7fgu{wEOveY)F^coy@Y~aon3m%RhlRvwI4qH5$DAA_;x!tRz08iY
zB-&HVEH0f!OtHYYA(3p!ECLD-pN>>?6o)w15`tnST|hBIaCgLoh$KaBOXF0OIF&>@
zkqxur)qFKZMX=&9Y&%<!m88Y^s=8^(@Fh_|mZIdR$oac>xzEkjHfO%qW;<zGcKni~
z-+aZG$>x4q*^#$V1oXJJ>E4yaE6Ydanr(R(OXImf?LB^x&wJTx1=rl0_pzv-bJsl!
zu;>L#7vMCu<Zbu`52)(QJ1FMVE4%2;&DFQuOE0GL9(v=sy5@Va#aP};Z-CqO!GZe+
z@;-V4=!Rzjid{5u_R74u%JvmguCeul-uu0I3%xw8uFKmfg4Wy>b64+9%umR!hF>@+
z?U}`>l<(=W)jsvturAmTM|t$XK`|%c>7tmMbNlW#&o@8w(A(G4HXCfUIjy1v@uyAO
z^EUiy-J_V3YY38WO5R0putl^krIwG}zkR<y@1Yc41N#dv-ZZ2reGj1rZD`NuwhA=T
z7&NL`@cy*EdFk?U`~9!q_dV#4>-+LlNbRPuuxma#-}(y&QW(7FX2etm$|n64n)z2L
z*hK-ETGb<%lN38f0Ta<cueebs0{x*S%(!hDA+vSpIYqxJq0`)3tnUP1O)kpSqk@^p
zp;pRLwge-XS_xa(5=AhI2&F;Z;J{MWqe~@-aAUERv(gL9ZUQT~tsGxx$_j1Qb&qbv
zG5TGJe!sY!?Msxge~B_>djb~|_gL{55xZwkIR_C)9&iG`gZwdb!S0@NYgM?iYNqF7
zo37-*^6n_7bV?QhHuQKEa?7ZhDZ`#l>jAcQM>#8catO0g#*!{r3s!wNsTj8Mi89u2
zxZJ=sCS3t3%W!OgVpbk!IOtsB3hE(7(u9&kLf1WMkI{c$s#DJ-%N=VCEEh7J$8hxV
z7vZ>7FJ1W6aHLxHv>$eUFPyiyX%0?V+B^VbVAkzC$GG&*8NX%$@$2uJnFXKel+syB
zFew%1&WDd)96o+IeBt8x!<V|N6)O&&Csm$qW0p8o2lc`a5NE`x==gMEI;rv}>)3QG
zrdpK9;Ev;FHx$S4xCGCH+lr^i2SFlpgPIHZKuAoI&Nxn|$rfB&P+BD2TUM*AdHz9^
zg%gibtNV|Jr{hs_NKl>d6t|X6=h=0tDG}<Q<{GMs!6mTOrb}Ssh~P`oJH=fvKq_w1
zG*#u9na<QPJw=^#VW6}T(9e~%u6j$cuUdyHY2IIC{yzlh5(NiI-r+H=kat2H?9-lB
z+0(i_@YvIlv36uU9XU@e)TZU_*)4<emcf<C<1KqL*1Z|e-kc|x^|Z^L_T{%9d$wh)
z+cKVQIZs{I(=2<Mmraj7Z5eAD#HY^!)tQ>k)xg%-)44z>8`vrbwl2Rd2fFFKB^zj$
z1MSO)<v<tSy$xA!NcM(ikLNs%S<g1vv+aqeCu8l&czOzm?3cIff3oFZ#(FU0Imnvq
zls%nKJY5-USH{y-t}4)Kkv%QTJr5=_ZTlX3_GPU5GM;@f0YU`0vv?=xs#>_RJS^9A
zW}I8soXu+$Rd=t?U(fk!p1W-I_KdX}5`nWJ>u7)MXwOyG&%2&hcV?>x<m!PZFP)I9
zPt3X4$#K_XPuJ7>j%@vQxqkbKIa9xVwSL!}cg^X^I&oCd%`^n42RM4h**3zO=U#`4
z1PoHRskSO@K6i38+jGv!9JCQM>+F!79XV&kGncK#K6@6YFinFwXEn=h$~o(D&MNlW
zKxG21CLmn*yq>c;v(`@8+PR?|Dxg|T&KbznZCMsFbv?hV@!0J7dX8_-SesM^P8#W`
zp<dvH#6-rE{}7AjOY!8gj*2DxxUAtz)1tqKqn4ael+}Ad6$=~%ZmCwov`22KBwwt1
zz(oy1XCbS|Tt^Zu9^4qUGbM=V;JW9Xx`ILl<*Q5yqSpGU=!^}J$VgkpfVvJ+nGz+C
z>?xAB*aOZ3ny$A&C$Eu<*x(mb-zD8Y&$!vaXdP^UhBH{7+f7RMW%75^PaHyIg(Ang
zB03yOj>4KxR~8cNKu7fpQa$tFHFgu)0P`Lr2Qk$ji=4#N%Lgh^Q!fnwL~kfcPI~0*
ztU5)q10v1ZreUn1ReBnvwmB3!6~`g2-Zj;nNNC|8#c<gwoMM#mNE!+qnV!TsNeY)$
zLZHW2aYl@@5P@#lX$L@s`ud0&j@m;7_fleOaD1X+(Tf$i#py0}Y=CvkM)8ocBcN;0
zzR<olMg|y62VF1H#$m%LPO+EfP)M6?93ZJfL{6iy{O;HUXu+S7Iqlty;*d_85B0Ea
z{ag_8(mkv<CLAzj9-eDFOh0rLGEDxLaE{a7fEw+DbKM^4cd5!U1>ZrS)QY#J&}SH5
z$=NfN(D~qpRD$t&s}Q{rR$SBZBwRSfJ0f|d;dYApGbNFGdACC~D>3bYsS_k3OAN-p
zq}UG-B#C-yL#}G2`zecp?_gsm{~8hSz#a}d{Qmj<OKp!mO(2CCPg7Y&=cw0sfv*Mz
z*FYVe1}{YxTW3$NRc>P>yHj?8@Pf=%uGN65S3mdItL(F{fz;bP@4fcUYYU#Nzf<;i
zE?-^scR#VxDYiE-dn`wggR&!-arCVDx8mS9%eTvXJF_a);=DNEp0h!>`_g5f6K`4i
zwdL0z99#7aW~_sZx+|tzidWkRn(V;_?RzvR{{lgI+vhTJHmCfC4HKo-KZ1#J)3zdA
zj4O9WT{v-`v8N0(QyK;VR^LvhFgkHg8J18SG-+{2tai{lOT-2?b&Rd7P|;EEo4QLc
zC_|B_wUKO)M4~<h5ny{&9ikB2U{$|lI+86JJ#AMWFTPlXEq4o7j^2p$hOYL8M&D#a
zu%s5{4)%s#>J9CAlU-Mfv(^d%Aqwp2W%bmJf&&j7qzV;)8SJvu@z&60-B+O%NLmS2
z<!cpDHX5JNGW4>Ptf^PGj3Mg_9gD!97~a5iX%o~%wI}1OnZTtIDflCo4!X8mHToNx
zo+6S?6fzngjZF)T_0YXZMm!3ADU2S@!%M+#AmuuRB6>9hxG4<y&XR8YS|m12=n*f`
zN&|s0Vpzl<6VnWz(5*uII?Pn!1rW7@>OHob*KpXbS7q+&I(QZG26|su5SXt*pY_$O
z)=~*GR5S7pKKJ@r^$PbT_$o8<>xzpv!|?7--B!FRyzq5Vii<I6H#RHi>O=fUKct|P
zI!J$rG{s%OVIz6{6RJhQCq!N&h=9EA<|?c1)h*U71r{42?|bUAo}larF1;;#+LlKi
zd-^lh{*0$T7pT0~wAi#XvKrV1ifRok3@z-Ctsy26yO`t(;kR<FuKkx@2jo_exY~@h
zMwMItfEtb>C^@GmQo@ASzd;07^?;Q6lsl?P<6b)1H?<O0Jy!TlTRtw_8^W!p8C#Ly
zXPAXxF^8>`xysn#iV1g1B7d;V^Q5ek0R)Dlve)|{z-bu5c;tGghAir7XCpUZ7*>jK
zalxfhD-9CpoUy%s0Csjb;B;FfkI`wipigM`CgB^e(J%-&nid&SwOP&ghAwu})yjl+
z{Uwxy4vyW%z+mY|ZbYK7$kmvr5gjHeswU$Q%<;I_Ky7GJ7#dM;OT4wMut<AD-EWbL
zOH33PP}bZ!T;M8#I~%I+3$`8|3Wwg<*&7<@?hBn73%ym)*WaR@2sux^>%ssMNzo5)
zjeDZF43M}9mmu^8;wd@WsP{UUkjN^B-cqF~ZLAW~TMQb^1dLw6>^`d9u~mJ9m~2MZ
zO;CWE)Ned!w@q|s9u3u^&XQM8gke&aa2H03kr0N2P7Pl~(x@(zTQyl~D0Bu^{5Mzt
z0{7;dCD6{5m30}T)5fnr*a{;)6f&+x9mOq&HvpGz4bvqlW9Zg3G>nT;%y|jENTErn
z6GXnXiwXK9GeQnHB^Yj)l2GC*eHWm}ElG88pv&}xf%;Yg<1*$(O{N?5>g9CeCAdO8
zish<uAa*{o39;3!EwoSccGLrvl6Hn)yy}bCs0OqIg0>OAVDYo!(h{~mBkr)fxr~Xy
zQ5kcdwGtTZ;>Moc(p3~zEVwVBIQ5QnyH$$*D#0-*ru0Wt(#0<J!i02-zHRb0i<shy
z14nWcm;MZel4K;*mn2kyc7pT!dhowMjkNRE=O;~EP2;`Oi>F~@fh7cnmC5-@GOReP
zWXpgk8>pN;wN~4j3GMu(c3|E;=U50p80NhTrr+8Fr~O=I6C~>$bB<hf@ZPz_bIW^I
ztGAQAr8?umF>Aw8_cDA9db9jXGXK&eSB8J-34c0Q-8ApYS8;WN`D%`D$XM$cb0|4u
zAl<=&zh^5zx0og1uvH_cAkVgP3__J=;R$a@sO2p9uyea$;WpSuSv!RT@+)D12PXmU
zas-}uFFhpRmb0gqvs>tOz=AM0j0JgMH#ez{N`mG3QB0BPeIGo|nOAtZcGG;p+Z_kE
zomQ@>zvXNj1{<33rm9q&A@k#GME!~qY|P|lMXU_I`vr?dIZyYrOP>SHE^YfrJLAA8
zc){A>;zTGEc7pVXUhgC5=9$fz$vEnUurVQr`H3q$q!wJGg!vhsJZ$YNwkVYFB;*+q
zg;byOpi0{}*no8biBt~77Z-1(!c+J_2<`}tg$Ln##Ll^1B}|w)$_&C=>GdQ9Ogkmn
zgb7fpr=;m^c7)BgmGsBR+tfqo0ac{nCD?P4pCJN|>>yWJQ!ucW8dPz6{jO);L)Oia
zj5AcS`CRtdVQfB|{k?PVoO@!e&eeCTS8=lSLvsDlC-n#B`8m_vKH7@SOT&=TmIJGv
zEjivh7nwhr<y&OF<pFkE%TM@099uUW#GRd{P`0s0ZtQvR%4*|&*dW)eTb56+@R|05
zvh@&ChKsG05acS?oE2GTP<95F?yNd{3~OYS8&X{@$G2vzLAG(>$rcb2VccqESKcsn
z@NzAGYvvpVr+7D)-@p3mf>>soH4El=U6Dv=>{tx3_UHneQ4d$vlcw8rhema`z=>A8
z@dYq&vO_|jU@3O1D7jBlu4S#3(K4t++C>m%Jc1RM$jP$79-RJYbPKy)WM^DFgiZSk
zurdQ0>ZiRF>JV_orNP3@l5$vC%GUA~)pDv>6^GE?9cerIkHkBmorQMOKHb3u`@16T
zBd>JOCjp{0|Nc0{Sw6YH2zEJ)tm^0*J@6Nm|FXDv7)JgAF1I;+C&Q+?t6XNruH)ae
zNksM)H)Kw_K@Fw|SBXSKklv$Y8@`|=iQNIEdV>q}R7z6nG+nz`MhjC$RZ$8+!dnrE
z0qy>vdhDZ?TXzeQCDM_aYTKh%l?we^U?Y7@!Jkv`?<jZ`f#Ot;$nePz3%;JCRFpQX
z_)FVF?<&?c832?5^Vecb22g^V9lvRc<<C&{Dv_`KSY9As)toOt62a2&YDIAN1gK5J
z)=d45MeFwmf3Wv^dmkSB@m_iV#noMxW>5XpQ~lIg@w5h~OTT?((e!)LAKd)#W~Tr6
zkL%?A3z<uo<^Id7U9UrysPNw%pC8ZE?pSfiwR=}9UY<RHk9RCL$aOeNs($LLo;|td
zqf@C*d|T%%imz_1rS*fa-v4T*^W}&8<j$jyl5*$i)t1-h&aJh!eQ@*s%}f_%bWujv
z>DAWP$k&mtxO;N`BrX6h-(2Z^6p#lG%Uwrg|B*+dvi}skDsk&ibtw#H+6GpA15cY;
z7oGVU&foPpj#;WdYiRnQ?tWdSZTHGex$V$u!z*(YYfkrF=e!f%W6OIV#2$VHmtf@f
zS7iQ`%;AeNe=)~5{?dk9gt%(LSF5`2?_e}XNsiGUq6JK*2_pOzs32doSIX@zXPT#-
zVeBp3Xp@Ng@xK!FV=#mgr?MB)8PmF!eK@PGVARhqSY`r6)X%SD2kIw-`c<X_UyAxw
zusvT{(!Z*-2i^qcnd*4k3r5BQYQ^fN-3CRgDuGq~0tnU@La2EG1P4Y0v!mjnkHSoC
zx*D@{6uaJ&u1Qzlf$1P!d;JRDE$OP6x_Aq?N8kmJ?PVbs^UCs+6(1eJJOd|VOw=)|
zD^S+=S3%VSFQn?Wb@N|egz=Yc+s{U)zR-3tRac4nW$6j9?QW2A_>q1}fr3E4j}B6g
z?;a6F)~TbBBCS!mx-uv5tb9OMxe66NCFo30{07B-hl0(Bwe+7T_b(}Uia>Fz#F~J?
zD*|i*x8T_eU)+x3WEN|%5$V66R+4Pz8wj?Zuz_%^N~rGJpb_r>1`v0NaQ~4?xPzsH
zd(B^Y&#~xO@;-3L_5G{<ouJna|Nn1#{Zn5{t|hqW{!At4x$5@i+bg?1{MN%BdFxTR
z`skx?%GKme9;{rT`#()BA9US^H+X3I)QaW9^DB4c_F>sS3^!l@MU-l)n0pPSnu8zg
zy}vipzI)}i-2UpLU2^;J)ut13XTYocjpX{dynV$jZy9<Rd%WfJ)242ac~lB5IM)E5
z)f{^GbyWIsmE3-2wdpJ}zL0tR_~l<Rck~^^D|Y`s;}!o36F5q0i~dlY@rqf@=&!&l
z?2zD8nb#tiW*qURq8(X|cbL<5+JEclzT?Z)GN>8kZOC^d^%mbhFV~()ZO^FbE^4W`
z|Jpb}nzoQx7J8|>potgNDMMuhQ`)9e6MQzRASshsWZgqDFQY%IYzcik?YfSQ1fwmD
zJ{}Xvn8hy9&~~hJVFdOZk~F2CP(b$%6dTS7Bz$0n60!)odBv@XnM9miQ91}$=}yU+
z4wDLv!##=Cf=Y4<q9Iuf@MR8ZGz{yLVo!{XCB;;dgbSTe(64Ig`PWpRg1=xC0TFgL
zxI~o8IVu*~ej}Z$u9<gzR$Y7V#NvreGl^u)dmpyR&HGoY56rm?S*`0qms~rrS}_P&
zEl|I-PY!g<p8iag<QAgK$n0LN=$So16|T)+Te!K5FF^FIxF4QatvHHgukY^H=fA%2
z_EO)fw|n;Zn$`Z^$#+i9jVyJ`-uC4&+1vYI{NeFOBl3aspI9$2=}8G(7(ROR*wOH>
zoj)>sIDF~U$gxq)#()kL`MbRQtI1L@*#AmW5!1fb?T+F#TYinRTE-g3_X;3?(C#Rf
z<S;qwpTf5Q*;fg8CJ#W8D_X;4_6XLy!&vVXX{U6msC+s6%)kasuhS`uwZn3?umjZ^
z*ulDXs7f~QrKCNhYld`B8J7l)9W>*QkG}vT%Zp%_z<ZHg^g>Kapj8&(R)(6SA*s^b
z;hT=yjLj75uH{C`20zhF#;9=9M=-906pd6>5iZ4=gSJrM3tB~zBKwMkj!m%yOIHfk
zJ)m$!vz@Nid%@@$zWYF6n3RP}i2nm|#l{Xwr0bMUMm(Z-ky}xGdU74TV}wp|z_~Lz
zIXx-epbGzt0!I64)(LCUUs2XyBT#H_Gm6LLtG}hx-=TmBSp|ysDy5NVrSR${YL(`x
zf|iw}D(UA`<iAn?jRNHgQXVvPa=9v|jYeE0lK+9KQSccCKo^_pOU0(#KUABAeB$xm
z-7&vo$+YTjoIR3rxHA>O#}0hkpyIQtntS^e_bq)T6B<~p8k{}zQ%B8OLGQdRw~;i{
zc6_zr1e8w@@0;^C;i0(fdT``J-^!5OdQj#MKH_Em488`0tJ77zE6tCBxG61HUdUBe
z!GiC1&s$;ltF6EH)y1#Ep>gT<gI)K(wbCO856Jw1hiRFA4NjiRZaL7SR$v#e-CSM6
zz468IP1-7{Q0JcWJjcDi%DZ>w?<{S9;FcQ)SB6)8d*-Zgl5~0QI_4cYr+2}z)Fb=J
zO>#LcJ9oj8bm_G0-3p86!trlU0#h<~0uJ~PjmYKY;rm~EaQI18|Lhr!Rb;$v%co@T
zjungS-L-P%C)UHN;nA!vUs}W6d-35;e3hMjnN&<l#J;5n1^<`=cJu<ln+~Dkaon4U
zD<1ZpHn?EnMyo{oSP8Hc^_%cvd@VVaRF^yvUB#z=)=g#UN%dw9Q4FO{&r<Eu#uwk%
zg&w7OT`nA<`;1Gx>{@KuBF2R|c0Et&C<6uFR_p`vQ<^#;F_$Z)c3n{wD~Vk_Dr$<p
zPNsetxPUMb5XDOMB_E>F?@{n=N~90a(m;`UNpaz%44+57H6<y&a5xf&=~w**HZC}k
zXBcx)Q0!;fT_|?DNV-eOzfHjc1?1n%9K4ttf&x#n(Ujsc4k%SW>))qB4-hDpiD*jt
z8NHIK!=xLwd%w%6ww87(<UF8WzB(jTg9VY?m-J&9<SizX>2IB!DfBb0@;`F?r(Dfn
zaqWM}ZTm}Z=u>X@r`*v`xdWeahd<?dKIQg*%C-MzSM|czR$aka`_s;@3|GBymF^y`
za$ULhjtp11aQNPt#WSm12k979v;1@W6|1RsLArN)@%D3$;`whnub52DPjR+}8&Y{2
zz2E{+UDML8#c1BeUfo<(ZQjG86&!9WHQ#T}``BwGSIJz~maUMp@>MLYmaD42*Spx8
zuVb%`+U2W!6MJpu>bK=vSTxAlJ?~w4=gPBI_WDipUK7666}Wq5{!HG2_*2|MqNZ$!
z1Ao+WP|T@UbJ1Jc#5FYLYU@7tbed{&4*tFLJL$Xy@u$Gzz~X_t4RO>CROcNO!{w;j
zyo+KuFs#l~tvs(o^wQe}({58k&R><c;P+{5BO3@C;sm8;;nGs)2mSZ^>60=3p1gz7
zot(FlVeO(fw+_uiZ*fz%sWn$wlegg4fQC3~X+!CvHxNH|M=kHAH-E{v1}LdoAJ!Ur
ztEJ(nqgcJ(cmusP>Ww$i+X((oH2iGsdyVfjE`2i-?0aJB|J=OI<bG!1%scZGqf24y
zi{#DwkWtUo)Y0PkMFZZn3X~3!sZilTIuktb#B>lh*-T$Cp%YpiFTGNwLt0KRXLb@A
hdGny@hzb3xZ)8{I0_?R?uUAE{RFD6h6=XZ+{{XdFxZMB%

literal 0
HcmV?d00001

diff --git a/v1/sample/__pycache__/sampler.cpython-312.pyc b/v1/sample/__pycache__/sampler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a382518e6d923d2701338e1afebcf296933b803d
GIT binary patch
literal 12009
zcmbtaYit|YbsoN-5~-K<upT47X^E6&`MtKhUVEQjJC5z$c9jGa#Tm(z_{z-4wiK%C
zEewQ0H?W1Yu#5(<HwdtD*JvD|MfPWY7EMu*mJ6~28+DrPkNlHY4v^+g`<*)vQZ((P
z>Daowk8{sG_uO;OYvz{?4PFjU(*9S8J9{|p*VHf`hhAC#dsJ?50yoA97Qvddj9J*P
zHDw#KS*XvJw5J?n4pz4(ohjFti`5-Tcgi#7NqNV-tnEztQvNYNtGkj7sm8HJR(B@@
zso+?U)ji3kRP$Ift9z3zsn)Sp)O}-ZR_<+1@L%VI2GKS>Xb@TX{lccz$J*ztp~m^q
z6MQl@CrZ3>DW>ppER{`)G8!VE7OyJ2l9>_HGCwJ0QmiwT5ya$9na|8B*;z%7{DzR7
z4OvwG`<bb%l$nsv00QmygdEK#($SQd%1Cq3*yUIv8JkFoA*&iNKraGyMv~Qr3v5~G
z8w@EX2U$lVJ#|J@VnR%bp)U~2W|MQ#iI@<*l92=%U0o9~C4Na1qVddZT8U0cVoVXG
zD0Y&@Xp1%>mP|&oVmg*o5+Y3sT+C!o<L{il=+v`Izs~>T@4gz1S9rv6e!a2&pH`0h
zK8{u7aGczjRj`cNgf77<+9$1fZW4!jy<yDZ;XItMS#XHX>Bed_T3v98Zowsb1h;4x
z?DH;;6Fj1K(kpncJH~vX|E2SMFTv*rE>HcjNw?5&-TsA6#8|^Cu)hq0U1+Sr(1@LN
zzm!7SS@o_0^{J}gtMOve+6ihwcL3Z7{z>!(tLSY4hNhRS*DN**EiW1Kh%KO@wF*<K
z=x2Lx6X{<wQAvNorkb{Kq8p$lokII{hj|X0Udcg{jhCH<Tj;oMA8UUFU+4^KX?!`h
z&Z-@D<hiSsvCa!zs7H0__aSx$^6BOA{J%5<!*C^`Tw-ctGLuYZuHZuRvLa?>K9S~e
zhehd#m%$B3_;)Ayq^?2um?ZL&_}y6%z`_v*LG;8z1T}7eMM)Qp^9h+Bmtt3<M)&w2
zAJ3$qoJ13$iGh%4%55?MjbH*m&0#@hR!T=q*oi;1T0)U&tz;%GvOR(TbeZ%2*tPaX
z_>-CRWl>Uy9AF?~CX<<%GO|~rW+cL&Al=79m1VAof~J)Dgdp=*E+rH(nUEC?a-RVS
zEy*)2$%|Lx$yqs((Ra4rfM9F!(AaTNCM8U$;+Gif(-{T7Q>ob1a3Xy<CM9BNWzg7H
zA|ghxUD%3vEX^lU*;riRp?O7NPO~03<O&mUWM^>Jx)m{3Gm!CM^82)Dej<T`**Jc{
zAl1~~<}{!^FJ?t0p<rXYHa=&L0_j^!eA4l`7Y5@Y{+uMrVmdBv7&{o@wF|(`vdZ>F
z_;Hz;r*S?dDwi?>rb&|-DWwb2M#-*~R^sJ2nII{a7BVRaj6VAXo-x@bNR64}CdWzi
zHQ{8WvEc-yL8D5S2AKzbzDBAOla*^!ITNr)6DLJXftVP?UaX9QKicRk1mp$b;3wvI
zL7a@uCKdA(Ks9+0Dfj@{%E?w15{!kEOg1`0<PT-wg`knG0EwZOoC<HM7IHdb6NzL(
z0S&kbQetA3#G-;^QoG4jrvT-{SM8o3J;p;TC2*DbUBhB{e`v6Z<JCLTPVxWFeE!X(
zEdD7cic_EsLSw#gmWLwz+cB`1T(^p@<1>@24My_gxWdu&Y^tIgnUri09AkI8suu`F
z__G-(P<GETKnrY`MOv3mfbKTNu$Y18#We>Rh`tfbN+$UUkrywEX=N5?GKXs=O+l+A
z(k2e*1h(sQhI$(3g;|Nrhvs)0@<h6ZzX%qHxR4@S$iSgp1syyUn}bnED>2Y3f^6{Y
z1v>cwes~;$VIX(`VB9npnrI!4Knan}VEfb78^2KP$&PD)YJ+i#%w)ykQJN1q<Mg+l
zM)5b6TbyDJEn0Kj4-i}!K7@r+j8KEiS-!AnfH^LzJM<i<c#O%$9E?`YLCa}C%yIWD
zXG1R4A<seysP1SqkxnSlsN@5L+JqCGiK56xwR4vwJN0`jF1<vKZpfzEWidI)8mcE6
zjVEKW9F59E6VG4!{jnh>l^x0^vS9^ULsY_7XAd4eG;>fKN+u?TvU5<V>7mQXWNPU0
z@Q}8Y{v$=Qb5b+V%xlqrC`Ak!kD*r%qxju5?y<XJ(N%PJJaTtE?%(sEXSM%$-u}ql
z`?za(wQD4A|1?nU*`2rlo4acr6S%Xg6NdpSt2VLKAVCOGv>-!m$x5P-h%3>FOnO$v
z_7VH2n>HL?Gy_X5B?M7*YC1V?@)y|QIccXkjWfQ*<?L52GQzkVH%)8TJPVGTmEdZh
z1!vCr$zaYQSY~!{oYaij)obYB6$w~yrP}~)WzfN#Wtym{c?@}2aADk(k_wQ*!dq%j
z8<9_CkTYa$!2((WRRel8XUSP}HY2cPP)+rrzR>skZTv2{7d$!7C)S(?RJo^HUYuc4
z?an!`*#vIEn?93s3O2UWeM*}#Lm`=E&-5mvR{0g|2K^tq{#ZzJFWz)3_DpVn&GWG<
z=ghh9J1UUa!>c*lRf7UegR%v;(qoJQPoGh*{0cS$Hs`(XH2ApS%lY8FyUwcqY9Cnj
z>MaQRZ~h05M0`i^>tQk-h3kkoT)P1XpUqA+XbQWc#pa=)cC~}GrbG?uUbbmmR0s2g
zRjZOw9ZE)uUs7GVAFH-&vAA~iqR{QS*Qq+SJFnVdd#5ClbJYR2M43|qQ_Q$kp--gY
z5=*4PRL^W$MtmU7iy^;6av;$WNyK4kGZo!bkcLwI)do-^&Z;hLQ9*6iDFF|RjZ51I
zqEUm8qI#Z#E(IJK^O4#a9$1|#F-e#YT+q~hMDI9>QTcUf=xf|sBiA|fu;bK&ZKb`Z
zihEDx8`ivBN2t_(xY&L;?=Sn>3%;%8K=<9ohk;1BZ)>S<U$JlBgAZ5xjxPDjO}%#q
zA2y+X`<>kF+~5AiP5+vcYwoz!xzzci{dbPtKDOEv$~&JnwUwH}#inrC-&|<jUf6kL
z-DYj}=ACP9Zs)+~GoQ^o*ikrgdUeP9MfcXctI)Ky?CUA`Lgmfj{QDrMrR&z<(%=sx
zdDl}Srw?Ql{oUn;&gJtD8~VQLi#!gt-SRE@mQVb!@vi^A_|uttGhg<9k;W=~BOrl-
z-&X1yDfW$&gWb!?2UBY{j^DS=VYtACvBK`9-9P%^&bMxVYqdF)cRhD<T{}Tu-;Pr6
zP_cLDfpxWaq}&sJ?sIl|^NrwIu(#mukvfRacJkF!Z^eO&n<fv#BsA1szm5V**DCia
zx^aX$tD|6Z7KMx%duA{$SfEUGj7)jeQK0qJreM8qUQ6S8;yT*TPHEWJj{k-zxo1&r
zLLwD%NFlUT#})Ee)Q0GV6KBr7|L)nhqi>$OpxTAR<)}0afRIg-=7Xq9hfwI&l-H!L
zNxMr`{_A|FA%8CnU8CuQ;~MuY$OXF|w{+ZkZRxdT<tHhe)`JUQZd+|Ro<CI%wB7jL
z;`f&K-5I?-x)NI+UEREAH85Oo53>`9oBRYO;uPceDOA93Zn}CDee?*H`&NS^(>iap
z5v>$V2L}AIot660Exm>UddaE97pnboLcDU%!k8h`8ae|Sv<OM}Oy=8+&2Q-b6!3B{
zifi0cY;Iw3;cjz&VKuO=6bKaqp_MJGfpEbc*0yJg1K>%&u<fltG_XC}D{Z*Fz73Ze
z(O-=fNa>NR?{R+#Ygu>9CRi36>2qLcT>&)M`7*yj8o_)gaJ#j&s>@IMb9UWBaOMcg
zk#kO3FTg|5t!WchHLYl6W|fywnPaWzBV5yV_EP_#-kkb;sJe>Q>0pHxqc%-WVa;=j
z`wsjE_z|vY(<`WeRPDm@X`7uymh^YcLte}@>6@Ady>%=%ddbGrJYVQ%uKPFO*)@9(
z-V5<sF|GPEUo#C&;H%?#DO(IkQdBrKcg}I&ZmdH7lZHFwm|xMZfssU-h{=el5YWnG
znkaNK+}wzkb0b@Z(21u6Pi9s&=IIuZCQQzz;}l8DNcAL>EJ8!5gUC<IgLn;VNYT}7
z7HRtGJQ(6@O70`73ulwDcvXhstQy>4cHyH)`>;*8CpMVdP_t&YnY!1mG*g1on}CtF
zQ?Ubu>Z?+K((9~8b1w+FtOhkDf~ZE%V5ttK93}EIRqvFTrql<$eSoim1cdgJWg1$d
z07Du@5%Si07Zt~%af7}Q*dA1mzO{^`HfqTNT}=tn2=K||XB&J&T8G3?8bmSQXlOBZ
zUgAvx{yvl*Jcy2352D<<z0|trVe6j4{<li|zxi<gHw*6bg~0i;ue;>i`Ovqs+|$2!
z_GwRlsb{FzGxWf@+H){}wjAI~fq{pCf%5iHA-JX7vaQszzu2<B&~l>OzOAt9$iwy{
z<?u+MV>f(^jva-ahYRh83&F!{4w&k~?$L*xqvh~$Df~t;{KhX1tcKqMWVs#Qh7R|X
z@DCOPgN4AMg8L9k@>MpKnsyeOc50qUsdc#6I$RhzRT}w5apW6@m*VHT21=a=ik$~a
zoo_$td^`VcxvlqBbSZlG!_~II#kb&1biHGNw-DJ|3ZE>7PXb%n-&6AMD*AV^3jCF=
zW@X*uh<J<c-T6k^OC#s+D){=#E&YY9*z5j+fB#p_?Y9P&2H1p9(I2{hrszLh_IJ_$
zVDEE}qs5zdt@*iNI}j8Cy9@5!FPcHR>3@V7RB&&#r=HG-k<`a4W-w%xj$(%D5R|#B
zhzQ#UxsJ-2Nd-Q*CZD@8E}cSAWfs}3nC~#esMb6GXM!f-W%jTX=r0EP?@s)K<L3=O
zYbXTzR|BI3_bA(?>Nb7hy|fOgp!yEiO~@xXT+@K4eO|q9ir{2sF%;7|m^O106<j%F
zI+!b=LovN-TOg}jC)TPs6${9n)U#)B^-PX0IFtrsC9LBxPGZ4XMN^%(d5CrK?oY5)
z&Thf=2WB{Owwf6nELEKtxr%FbteoiqxGJ%4&IQ_?hRr1BGj<OmWh!SqMQ9u;j|hd*
zbu8g(<n)H1v=DP?Y5FSja6+1rD+z7h%zqu>cOj_Kz~vBsmEUza6OSRUtm%AnZJw`=
zy^c^WIFZ6c^iCiJhfJkOmXfKORZ);sL!O25cF0m`D^>xTf$I^<2%1}vdCF$$J;oBD
zs(DolfE}8~H52JHSMRDn#l-j;KYU7~iGLRrX7K7yVcF^pOcRr03K`H1?~5vAotc&K
zPDF(DR1WN`IuR}5xZzMPX0qWK0>mGZSM>6p5i<C~Aypp+Wjm`mqG4g-dex!)35YcP
zqcf9-37n}*kIANr=Pw<>Z4CLO5AdT0N^JWG{~)g{GE$vdQb3~1uiD}<MS>#XBz%&=
zvE)I>E&UnQO~s`)&}1{ZSN*K1b4qR01jsm0_!N}#qjxnkvg*>IWb&ttqtPt(5PIg@
z4OLr{sQ6b5$`4S$bnoGUoi{#S{P-u^KOguEwwFSVLLmIrj)BjoKbwBg@#WEfI{#?L
zISR`gZsuSw+j>i_JBzJ5SFEe819?xmv;R)t?Y@=fm5)|C59S*YHn$IB+UV-0_wqip
z5YB~`Ldzem_zT_pzZ`zld@S#x81L}X;pOy7s?c-v7yXY~PUYRe{X!7_RiJnI%8L8J
zK(+P{YAKJZq)?-r72}omhWxb|EeY5#Y=Pw(G%tKz3fI^}8r;yVr??x|8@9M@ii=yn
zgFGVB=GFyU&L%mhU`Kvz$=QBvNkd03SwC&E!|E*97T`I@troq0g_D9nORnO4A{(+x
z6KF|sD&9eXWHd;X?Wod$Y4LJDJ`YJvB+{ah%!$%%j8--!&xeeo{DYvs2Wt5|3LLK2
z@GQ0#{9B*9x!(Rl|L}v+M?G&mci4j7U-i7P<hg0PdGVQz>)nz+laJ@m+&r~-=B`}y
z?=JVe@ihUhaW;?lzt=fb8QFi`I_QiO{l;T5c;ywwcEMgTKshtriNLi1$>+Mkrk`VB
zWF3=>;Ls-Z<{VNtOlTb=i?pY8n%vl$$2epbg4PLTKG}{OO1<Q9{lLdGjuoSBtbje)
zr3S@J7$b1AS4<$=acd26Xx2*&SA~srQoMD-M#?SLJS_Qb8ers)EHJ{>v-5VmJf93T
zsx9UhOO-36+9xuZBvO-^%BM-1C{yBy$+Nl%F&Dk<ugr?3V)BgYrxM+hc##%W9ZY3Q
zq@twLDAd+;CLOJfeWWuqq<=wWzD|d-td}}X5Nua0Jy)SEnvp6WUTK8V9jK!j2hcs=
zXIv*O9R>A@7_Tbpi?7}|`B#9%CGvB9drG}0i@hfc?#*BMgN3GTtN!f|{ih4z(Ng$y
zF?_lZI*kCpvlae-ceu3qSaI{Qg1h72eZ9r4$Dq|H^Y~`5@6B?MF9-We!9B&`o^^*!
z%RKrygbBWpqHm<&JC3NK<nJr``wIMUiGQcazw<BK3+F!kW%!Z*&!0Itf8S&O=H<5v
z+YS~Ezx&Al9&lH}lGBemPuB}e-lwpHf}HKertNnp3z6f66W?5II-hqUrIv5d!UogD
z#g^%$sJ;GoC`e(}bDkxpL@}lZ2LLr6Ezwf-Dv)s0fkSVd+l^kLpyokuof{2TS;ufe
zSG!JW1~Xaw4ri+(nG(&WY`XSgMMZGbmPzAFjH=F7$^3Yu(raWrSq`7n`i88hltoX)
z<Z6OtO7Z{+)VBb^1d5J4^bqOomd^Yc7L^Vck;@D~Y>uIP9N1#SkCCE3!lJ-EMgJaF
z87}&VS!Hk0zqjn~UT<)bl6HB#>?lJP_68wjee0}dh`Q*_X*!k?qfylxrT4qDNviv!
z(eL8zwm#yDMukiqFIVa0*-K5$!Es(>9+pJ;K8XZ@z1@%wpr-m|C8i|eTCPQUodzib
zf;`16KG9@J11%9^gO|jdABo%&yh)*tAebJZ%g7jqT(kCOHZDSGM6nBcPsW1B*ENrZ
zA|Z(i(wy>n$kXqxbI+_h9PVf5EOy7h-Q;gM{H(Qd+jo}_9C_w@&C&Z5Zw35I{xt{c
zxGdd+Yc8t65N=uXP|eHrhgXy$Ke9&Pxa!{a^#-cVTR3O)n$_djTh?*dP=DIkawEBz
zTyvlfd~Ka;E~>dXZ{SAvV)xe`wAO9L%(YFdW^qK8#XHH{$u$numD!)>?&ZFwst$=7
zQUC{Ed*(Uh7%(YDU8k68Zj(*|0@>a`e)dLgF}M7|op0a%_R6VZ&z?eHPth~H?jrzr
zH$=Y0ar|!E=iQ%m)6&NuZ2$S-&jxAf<L1)Gu?Rti9LLMZIp8JBnho`*n>yDV_{C^z
z=dGhlN7r1`!bUs4_MoQEr@jx_QciB~foBe{!&~m^T~_X%yghe&Xw8Q9(~j=ti+8u)
z{^)jKWm~Z$vPM8a>ut;nH%Ar|i+x|a(4!-yv5qZ{O(q*q*V#Zd?ck_J93Ymj`>6Gf
zw%s6>H%<%nr<(`X9QXx-&3z_OF6ybA7+P%Y=T_9%4PrtT>X7D1;6f-=H+xqYNvBmS
z{+j4xfCxU;m`qGX*w@DF(x{!RA7Az)<p>gr3gXyQlr^<469R1f@^D0dW2fB+(qC%3
zF(k9MbP*#F%C4Q-T{D`=$`R9KGsCKGt^;Dk3|c5s4~eOrH0`*p4iXlOps0Lh;Ul(C
z=23OxLu%*}#;<#v#yd(Es_vtjmKl|PfF?8_UNxdvvso+_m@&(nmS1!JCtTZqal4;z
v$Nqym@`T&>ggf+vd*car^a=O+(_rhhhUd;pc8fPZaU-#q_$^0uw!;4ci$rbP

literal 0
HcmV?d00001

diff --git a/v1/sample/logits_processor/__init__.py b/v1/sample/logits_processor/__init__.py
new file mode 100644
index 0000000..8b174af
--- /dev/null
+++ b/v1/sample/logits_processor/__init__.py
@@ -0,0 +1,352 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import importlib
+import inspect
+import itertools
+from abc import abstractmethod
+from collections.abc import Sequence
+from functools import lru_cache, partial
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.logits_process import LogitsProcessor as RequestLogitsProcessor
+from vllm.sampling_params import SamplingParams
+from vllm.utils.torch_utils import guard_cuda_initialization
+from vllm.v1.sample.logits_processor.builtin import (
+    LogitBiasLogitsProcessor,
+    MinPLogitsProcessor,
+    MinTokensLogitsProcessor,
+    process_dict_updates,
+)
+from vllm.v1.sample.logits_processor.interface import (
+    BatchUpdate,
+    LogitsProcessor,
+    MoveDirectionality,
+)
+from vllm.v1.sample.logits_processor.state import BatchUpdateBuilder, LogitsProcessors
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+logger = init_logger(__name__)
+
+# Error message when the user tries to initialize vLLM with a pooling model
+# and custom logitsproces
+STR_POOLING_REJECTS_LOGITSPROCS = (
+    "Pooling models do not support custom logits processors."
+)
+
+# Error message when the user tries to initialize vLLM with a speculative
+# decoding enabled and custom logitsproces
+STR_SPEC_DEC_REJECTS_LOGITSPROCS = (
+    "Custom logits processors are not supported when speculative decoding is enabled."
+)
+
+LOGITSPROCS_GROUP = "vllm.logits_processors"
+
+BUILTIN_LOGITS_PROCESSORS: list[type[LogitsProcessor]] = [
+    MinTokensLogitsProcessor,
+    LogitBiasLogitsProcessor,
+    MinPLogitsProcessor,
+]
+
+
+def _load_logitsprocs_plugins() -> list[type[LogitsProcessor]]:
+    """Load all installed logit processor plugins"""
+
+    from importlib.metadata import entry_points
+
+    installed_logitsprocs_plugins = entry_points(group=LOGITSPROCS_GROUP)
+    if len(installed_logitsprocs_plugins) == 0:
+        logger.debug("No logitsprocs plugins installed (group %s).", LOGITSPROCS_GROUP)
+        return []
+
+    # Load logitsprocs plugins
+    logger.debug("Loading installed logitsprocs plugins (group %s):", LOGITSPROCS_GROUP)
+    classes: list[type[LogitsProcessor]] = []
+    for entrypoint in installed_logitsprocs_plugins:
+        try:
+            logger.debug(
+                "- Loading logitproc plugin entrypoint=%s target=%s",
+                entrypoint.name,
+                entrypoint.value,
+            )
+            with guard_cuda_initialization():
+                classes.append(entrypoint.load())
+        except Exception as e:
+            logger.error("Failed to load LogitsProcessor plugin %s: %s", entrypoint, e)
+            raise RuntimeError(
+                f"Failed to load LogitsProcessor plugin {entrypoint}"
+            ) from e
+    return classes
+
+
+def _load_logitsprocs_by_fqcns(
+    logits_processors: Sequence[str | type[LogitsProcessor]] | None,
+) -> list[type[LogitsProcessor]]:
+    """Load logit processor types, identifying them by fully-qualified class
+    names (FQCNs).
+
+    Effectively, a mixed list of logitproc types and FQCN strings is converted
+    into a list of entirely logitproc types, by loading from the FQCNs.
+
+    FQCN syntax is <module>:<type> i.e. x.y.z:CustomLogitProc
+
+    Already-loaded logitproc types must be subclasses of LogitsProcessor
+
+    Args:
+      logits_processors: Potentially mixed list of logitsprocs types and FQCN
+                         strings for logitproc types
+
+    Returns:
+      List of logitproc types
+
+    """
+    if not logits_processors:
+        return []
+
+    logger.debug(
+        "%s additional custom logits processors specified, checking whether "
+        "they need to be loaded.",
+        len(logits_processors),
+    )
+
+    classes: list[type[LogitsProcessor]] = []
+    for ldx, logitproc in enumerate(logits_processors):
+        if isinstance(logitproc, type):
+            logger.debug(" - Already-loaded logit processor: %s", logitproc.__name__)
+            if not issubclass(logitproc, LogitsProcessor):
+                raise ValueError(
+                    f"{logitproc.__name__} is not a subclass of LogitsProcessor"
+                )
+            classes.append(logitproc)
+            continue
+
+        logger.debug("- Loading logits processor %s", logitproc)
+        module_path, qualname = logitproc.split(":")
+
+        try:
+            # Load module
+            with guard_cuda_initialization():
+                module = importlib.import_module(module_path)
+        except Exception as e:
+            logger.error(
+                "Failed to load %sth LogitsProcessor plugin %s: %s",
+                ldx,
+                logitproc,
+                e,
+            )
+            raise RuntimeError(
+                f"Failed to load {ldx}th LogitsProcessor plugin {logitproc}"
+            ) from e
+
+        # Walk down dotted name to get logitproc class
+        obj = module
+        for attr in qualname.split("."):
+            obj = getattr(obj, attr)
+        if not isinstance(obj, type):
+            raise ValueError("Loaded logit processor must be a type.")
+        if not issubclass(obj, LogitsProcessor):
+            raise ValueError(f"{obj.__name__} must be a subclass of LogitsProcessor")
+        classes.append(obj)
+
+    return classes
+
+
+def _load_custom_logitsprocs(
+    logits_processors: Sequence[str | type[LogitsProcessor]] | None,
+) -> list[type[LogitsProcessor]]:
+    """Load all custom logits processors.
+
+    * First load all installed logitproc plugins
+    * Second load custom logitsprocs pass by the user at initialization time
+
+    Args:
+      logits_processors: potentially mixed list of logitproc types and
+                         logitproc type fully-qualified names (FQCNs)
+                         which need to be loaded
+
+    Returns:
+      A list of all loaded logitproc types
+    """
+    from vllm.platforms import current_platform
+
+    if current_platform.is_tpu():
+        # No logitsprocs specified by caller
+        # TODO(andy) - vLLM V1 on TPU does not support custom logitsprocs
+        return []
+
+    return _load_logitsprocs_plugins() + _load_logitsprocs_by_fqcns(logits_processors)
+
+
+def build_logitsprocs(
+    vllm_config: "VllmConfig",
+    device: torch.device,
+    is_pin_memory: bool,
+    is_pooling_model: bool,
+    custom_logitsprocs: Sequence[str | type[LogitsProcessor]] = (),
+) -> LogitsProcessors:
+    if is_pooling_model:
+        if custom_logitsprocs:
+            raise ValueError(STR_POOLING_REJECTS_LOGITSPROCS)
+        logger.debug(
+            "Skipping logits processor loading because pooling models"
+            " do not support logits processors."
+        )
+        return LogitsProcessors()
+
+    # Check if speculative decoding is enabled.
+    if vllm_config.speculative_config:
+        if custom_logitsprocs:
+            raise ValueError(STR_SPEC_DEC_REJECTS_LOGITSPROCS)
+        logger.warning(
+            "min_p, logit_bias, and min_tokens parameters won't currently work "
+            "with speculative decoding enabled."
+        )
+        return LogitsProcessors()
+
+    custom_logitsprocs_classes = _load_custom_logitsprocs(custom_logitsprocs)
+    return LogitsProcessors(
+        ctor(vllm_config, device, is_pin_memory)
+        for ctor in itertools.chain(
+            BUILTIN_LOGITS_PROCESSORS, custom_logitsprocs_classes
+        )
+    )
+
+
+cached_load_custom_logitsprocs = lru_cache(_load_custom_logitsprocs)
+
+
+def validate_logits_processors_parameters(
+    logits_processors: Sequence[str | type[LogitsProcessor]] | None,
+    sampling_params: SamplingParams,
+):
+    logits_processors = (
+        tuple(logits_processors) if logits_processors is not None else None
+    )
+    for logits_procs in cached_load_custom_logitsprocs(logits_processors):
+        logits_procs.validate_params(sampling_params)
+
+
+class AdapterLogitsProcessor(LogitsProcessor):
+    """Wrapper for per-request logits processors
+
+    To wrap a specific per-request logits processor,
+    * Subclass `AdapterLogitsProcessor`
+    * Implement `self.is_argmax_invariant()` base-class method
+    * Implement `self.new_req_logits_processor(params)`
+
+    `self.__init__(vllm_config, device, is_pin_memory)` does not need to be
+    overridden in general. However, to implement custom constructor behavior -
+    especially any logic which operates on or stores `vllm_config`, `device`,
+    or `is_pin_memory` - `self.__init__(vllm_config, device, is_pin_memory)`
+    must be overridden and the override must call
+    `super().__init__(vllm_config, device, is_pin_memory)`
+    """
+
+    def __init__(
+        self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool
+    ):
+        """Subclass must invoke
+        `super().__init__(vllm_config, device, is_pin_memory)`.
+
+        Subclass constructor may find it useful to utilize the `vllm_config`,
+        `device` and `is_pin_memory` argument. However regardless of whether
+        these arguments are used, the vLLM logits processor interface requires
+        all three arguments to be present.
+        """
+
+        # Map req index -> logits processor state
+        #
+        # State representation is a partial[Tensor] comprising a request-level
+        # logits processor with the output token ids argument and (if required)
+        # the prompt token ids argument pre-populated
+        #
+        # Note that the partial carries a *reference* to output token ids, and
+        # will thus always operate on the list as it is currently, not as it
+        # was when the partial was created.
+        self.req_info: dict[int, partial[torch.Tensor]] = {}
+
+    @abstractmethod
+    def new_req_logits_processor(
+        self,
+        params: SamplingParams,
+    ) -> RequestLogitsProcessor | None:
+        """Consume request info; return a per-request logits processor.
+
+        Return None if logits processor does not need to be applied to request
+
+        Args:
+          params: request sampling params
+
+        Returns:
+          None if logits processor should not be applied to request; otherwise
+          returns a `RequestLogitsProcessor` instance
+
+        """
+        raise NotImplementedError
+
+    def _new_state(
+        self,
+        params: SamplingParams,
+        prompt_ids: list[int] | None,
+        output_ids: list[int],
+    ) -> partial[torch.Tensor] | None:
+        """Return state representation for new request
+
+        Returns None if logits processor is not applicable to request
+
+        Args:
+          params: request sampling params
+          prompt_ids: request prompt token ids
+          output_ids: decoded tokens so far for this request
+
+        Returns:
+          logits processor partial[Tensor] or None
+
+        """
+        if req_lp := self.new_req_logits_processor(params):
+            args = (
+                [prompt_ids, output_ids]
+                if (len(inspect.signature(req_lp).parameters) == 3)
+                else [output_ids]
+            )
+            return partial(req_lp, *args)
+        return None
+
+    def update_state(self, batch_update: BatchUpdate | None):
+        process_dict_updates(
+            self.req_info,
+            batch_update,
+            self._new_state,
+        )
+
+    def apply(self, logits: torch.Tensor) -> torch.Tensor:
+        if self.req_info:
+            # Apply per-request logits processors to corresponding rows of
+            # logits tensor
+            for req_idx, req_lp in self.req_info.items():
+                req_logits = logits[req_idx]
+                new_logits = req_lp(req_logits)
+                if new_logits is not req_logits:
+                    # Modify logits tensor row in-place if necessary
+                    logits[req_idx] = new_logits
+        return logits
+
+
+__all__ = [
+    "LogitsProcessor",
+    "LogitBiasLogitsProcessor",
+    "MinPLogitsProcessor",
+    "MinTokensLogitsProcessor",
+    "BatchUpdate",
+    "BatchUpdateBuilder",
+    "MoveDirectionality",
+    "LogitsProcessors",
+    "build_logitsprocs",
+    "STR_POOLING_REJECTS_LOGITSPROCS",
+    "LOGITSPROCS_GROUP",
+    "AdapterLogitsProcessor",
+]
diff --git a/v1/sample/logits_processor/__pycache__/__init__.cpython-312.pyc b/v1/sample/logits_processor/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d39f0fee4d3bee856df5b6a28793f098697129c7
GIT binary patch
literal 12668
zcmb_CTW}lKb$5YXyh(uITOz5Y_z)rSA<33xNt6<aqGUNV$%v9{BTm63c1eQ9%Xb%|
z$RT6KRb#4EYpFA>=t<hpnNF>Yld1bve|6kwlIcu;0F$wp4b>_Wb=u7I0}7RK9zQ+j
zE*1bu&`vsC4DQ~&&vVZ`?|c8PtjtB=iSmCI`As(=KgSRADbHm#4qFJhORf-^$Xt{J
zjW-wM*taEUfwv`UjqyRA!#ZnJh}nWRmgl4Pm?P+jIfG92Eks>0chJr9T+|cvKzm!X
zELI*YXJz)NH|7ggu)HJck5vXMS>73~id6@zS>6?`iPZ*cV|Bs0SbeZQwkx=cmAj+6
zV-3Lu=<ka)1{+zKC)yO-6WkLMgCa*1H?_fhWzpu?-r!!2Scp=tw7kz5>kPKa<-s=D
z8*G<-!F@`-QmfQWSc4r(K-sVO>Y)+-l>>4`FT7>{=JIiiTzP{JcFI+XP3baw%-W4!
zGKaZseR#PV`gH$+eQKajkCVtPa;;n^*DIc>Q2=PmBkxiU$-Cj-P!b-$B943H#v4Kq
zHdk>dJ$WoV^O?{zDV5{Ayayn7)<P~2S-e5yX2tiu)tEkbWP-?hzrzKO&TxU&Utr;2
zfYZyRF;$~dSc@szWI~1#$B6QJN{NS+fJJvkX(|+!!jp<_PfApaNKt4}cKMaz{!riZ
z{e54$ICudH+>v-h3q=zX6AFb-??7TAqN&3)5mr<+fkovbQY;yb#3zO&D#cVNsh>zm
zR1SqxvJ}GZFmz;A(jtj?fY<BT2xlXbx@9Q6^2JDecxz!D6kblero^{3uSyy~gycwA
z3#F2>q$z5^s=LohT6ppb`=(C7h3<bbaZNcFp-LEG0AREkK!Crf-Pu$mDl1g?ZJ8cd
z<GLD+#`+TR@yNvNvEf7lmny~*vJzEAIU&Xqny99d$pqEJa7xt@F)_+;B<A2tP_=t@
zxNnClQKCxm7>X=TPbzUyO)BA36p(gJ5oINuka5<CDk^blEUL)evo+TMtZrkfP+=;)
z{_K^D1D7ujh6aW%T)aFI8oo5t*FQ2cbZJDlQAJD9c-WvCBLxN_NJbkDCT?U7gbImq
z^8^`nj%d8u_<L59Sm!wnd$DJZGfQRewGKjPgXS>nrrc((@Rs?)i0{LU_;6%`jF8Xi
zCzS3tZ<*uHk*|&tGH-Q$-Wawy>y(F0xha8CQ|K0zo6N-#t->sRKbJWIFwa@0D$Vl3
z8^)?Ge3?13pNT6Fl6L$RFmP*(hY?3e3pqqoZrZ|;S6~i~+$y_neT7VOEkvs^M{6bY
zz&u}sFO-m59@#Nxo#Ttvu-j}PJLjz5B!6QuVVUFKw8-{({%ia+H%*M$0<PKp0|`kM
zrD#-)#8nO6K$wi!3S=!Nqp1m~rMQp4C>|xQ(V0*(5s7QaIKl)?q>{6pgNYnRAeE|S
zucC1~SVOT*4Rp^Q!g(33Z=P1&+_})@#O&cN(d@(^#Fn{PfL#D22GOZDRn#Opp=gjB
zob5a>MQ}|T0tYJ{*eut~{%z_BfNQq>_iG&}*Zq+gih^iltQ*9x1VTxob$}ne!r(__
z$C1#5OG8(Nb!$|K>o$NHWUDU7%2;Yb=i^dL(S>VLG^J2vAl)V<lS*9Hd4yAU_FoSx
zNt9!{pir8iy5~|Vu0>)>KYj%SW46ZpuA%G(iOtX#%I%nL4@V_cRaD(oK#<NUssIy;
z`22RLM~fwUl96PWfwZpcsbj~Vd+nIg154{k&VWXV_n-*sxpt^WMGXKoY^H)R>IpIN
z9}0CRXY_giM3PHELl3~L&%s~)FGv>1uWUp(__Nl7tH+*SZM~T0o7e5Gw7X-)9=P}A
zkL}&-j`FuXH$Ca<zSaJ#tB#k}ycLVir_jg!*1*>X(iP`c&%d<Fzr1#!YvICAYo1wj
zWi1|O^}5IZ_Q1`7HQ%{4->$pfJ6?D_@QE3p_|(pql|OY6|A8M@bgubo@0Q;wUz+{)
z8}GcavghEc@6e}K;_v!()=O%i%{CBE<-*{nUMNXdbpGzKx9*pO&kvrizwocS(pRpo
zdR|)hH?8@f`*7EXp0uxj!)mE4e^gnO6)a`dzsm~H<G1QTSnI!tNBYVvKd2V_IN=9J
z9FV`y34Jc-eVZNgWzKV)aKEO#uUEL=D?nba*otB`oU@}~G(u4HGGR_3y$j-7wJ_1j
zDlwVD+AWXFX}Im|nIooHD2S#BvPt0QTbv`exv!oi<W*q*dCR<2LtSf(V%3;^iy!7V
zG^iPskd}nPQd&5h{Xq<S%>m}Dn$OIe^=h4#7ssVX`X<=O1+n)gH^-F{)pL0@2g3LD
z&w-hT)_Elcv(}nW72dL7VwB;DpBF$)<ps8>7*L^Tc@aI;Q0Q;wK$z!tdfq0pUt#7q
zZ1aveq2%l?vll2yP;&E5tt~&IW6o)gG4HtL<4MsDI=1hi>MmedcAMkA$rbI3<8$`K
zQA+*7zIc9*eQ}sGazJ;tPJ_DSN~p_k<ke-9xlT}*J@fXWooqI13UApy2lO{*e?MpL
zz;3jdwV+BZ0HdKc^Sdx-2eoONw|~uEq&CZ><3J9mjJD}YZ6>Lxonk}=fg2g0K@F!(
zDlu_vMjTH?qcdHvr@$~BkAO;Ive|`F7<GXvcAWom-yrBl7c1)@A4fa(ni8Gq6eTeh
zxsIASqH1Dd+?bW=KQ^Bz#bptDi{J>rlqy<~;Y9qJLN!HZ!-1|&z%b?j2pxr?w~o|_
zfT93Lz{e>Vxd1&ITFt>_OfwVLr0Y0KFIdQ_sB-#5FG6x!jC3pA;`Q#C?%5NDDLjD6
zVi;7lv8*#usz~xo7tUdt8bu3<f%z<sDPU=j<y03gmyJ<yMsg$33H1b9n`o>;Eodar
z=EDgM7YP>4Oey5$?2OIm%Z-LxvgI-HI-a0gQD#7MiJ9DafCfr$l+kuJ2sVl&%iuAg
zo3f)j!JGp|E1e?vZ{gQ)Q^0G0EupwCGh$pZOdG(Mfza;RHnB@Ah2(-g$1I&T+&uJY
zq&%)mV0yN3i_HaQo#BlE9@<o$J25zWXp7C%rfQR0cWjH9<=xU{cGu2bbgp~09a+t!
zmLdpDYLP_TM`$M&N=ynWv8q5NZ3M2TC^{(0VBM+2Q!#~tXQ{g)DzmA;d)9dzR(FI#
z$e^JR)|tZ^9;fRn+HcGvqbP24K?N6CGYmRs-bB>PjBLnY7K$>5wqk-(TDOC-Drp)G
zxM(L9?!!WBRK5<*J8}=ATz4CNLrF=S)Ey{Am<4Ie4H;m45@S<3k3*@bm<u#a_ha?0
z?WWn-OlbV|Fxd8Iputu6tM7vPSs+jL6Hg<vxE}K^w70Sr&bjxo!=3gtt~i>&mJ)1P
z59#b)xUjyfCEa@D!LFk>%NMPSudKVPZ%6*FYSrDIGsV*NU;HTW;Oynh*~_b*E9;ew
zOOfyGS*<+2UL&s6iVtc7nc6_QW`BDBP`YXuOsHCamRKtMSsN*<dVBEZ;L`C`PurTO
z>al4LKKnsr)$zqOG4P)EUGE3h74g}OqjAxF`{gWO=B$2Pu^;Ta_4>UJ>JMh>4}P$F
zrT)}y8#C^}tn*ecTGy%??hf7=Tz=-0s(p*+*8TNMElb*pzx8Hc)=H{79($qSTiU9(
zb=}{PZtP$2pHF+vud~uOR=qt?x@>*V^R8#<Yw50$bmQd}|CO}o%9_LbcKOZn+v+Ed
z-PwyA*?lZKz!_#_Pq7*4%$t#GzP>eI<(jX4%~$c%DS&b6A(ea9{LRZP%hl=jFMd@2
zkvr`h*kV<BVF1IbykF+(KW({RTho77xZmY~{0|Qc{U@D2JZ8uIY3KQ)!jJ6x&mR(g
zbVz{wCKD1BpcVcbe+0>02tDTF0UUU|+*ICBgv#7wnlRKbHS>`Hv%JWt$eWI{(07Cc
ztkOLoD&%42Xzmz2F{I;u@qC1W7C?bk$}wfyBIn>RfxTZGfxro9K-Oc^=-3uS7WhD@
z*HD$ERFIvL23~1#yh=pJ>i1GB$<J0R47j{f*;$|D`I<?tZKlB{gJ9=TrY9re$?Zy@
zq((ZE*Zt`1BdSb+T7a3&WV-pjaEek;q2NqP8tA=PK+wxsFv=`YX&-E`Zi}cPEtz8O
z9g`ygiy_CbRz<s66b%7XX9yr;i;7)DdLCN+EjI6g1YAQAT*F89+6VTgjJ;{qE`l`h
z`4^p!-K{I`_SHaN`rMV3z}1ZVYMQ^g0bPjhM$ke)2N1ubRajz^m1_}@;$;9|G7=BP
zlvsk!=sx^3!h0x>m8kCD4p6w51CZ7kuUrK(ev7=ty=4KX%SsQ<@zkq9nek{j7Xh51
zTp1Y6$Y<=C%5#ia0wL>sR1FN#yjx{*)Cjprrt%I}q1U!~^Rcdy^XA>D!U%FcDpY#j
zLL{un9T5r;E^>>OMKW%ctv4J6XJHDlzU3)Iv*rZT2{}j16`JsZjNk`ngCnm+lCV(|
zK%E%MC{pxDu2?aqgeBl$F}Hs^glD&Qhq$a90|H2P8Y73sASw+;HHZu>)>zmXqy&Vu
z6-}Y4IGu>^!zeGKf3P2?6ZAE4Is!&Y$#AV1tKB4EZGeeq;J<MglE1Qk2|Pda)R}k2
zLCBT6$=|fxw3?y2zvk|O=tb{rhJ4>T&3%^}{4N2GvveQS`LLFt^dgKyU%=#fNOB>Z
zg@px!wVb^ZN?f^~q^D<F$1uuW%wFBS(L`8^s;9g2tyXZ1c1V8x-{jW|Buj(_+Y{bW
z?OHtd#7dlHi(gr4U+#L~IQYZ@g}+gej{mr-mJ4|35y<L$MlN3p4G#?s!0|!oQvVD6
zeGr2#3Vjt>Sm>|o{vyofxKtN$jFI8~zR)@Nml#C1PfIio8_(o}?u@|hXu!IvE`%qg
zNStB}Heh22DZ<Z}pp*{ath=^zb|~jpsJKC+qoblJoGP}VjeZ51d<cIPMbmG=Dk>+A
zx}Ufk!30=s>|ODnN_$S_!c<@%l^uF&wK`o-9mFTDc$?FXW{_Hr$_MtgkL_({uTv}j
z(`nCX>;=|B$zG3}kEc%ztTexv=9|{tyMKjS^SG+<?$Di~bx&J*-<hXY*pdwaiZ_Vh
zvBBO6HhKX-)V(Z12M7Z*5f5p?d65LQd6h522h!r#-38%QhzP~u<Z+&8DDc=*sDao5
z>?MTaEu{>E!Vv+`aW&F09fASiq(;zE5H{4C*eMheCd3D~Z;bARU}ywScXGf7tcDtS
z6-LoL22(Q^PgN1P{KmEA`xUier&b{7^Gr?0pwGX<Up)Z{P`rz@9Zk2Mxh15__pCa^
zk2J9Ugc=Ai)*nkBd;XKUi;JE$N7VyIYsS&K9Qv{22=GPy3mijq7>39{rr_TAA1Jy@
z6oO~BaBj;5t+GY7%Dlpt663O<*v28k1E+m<#Ua}jr|eK%vJ=lT;S|tygEz%w(9LSy
zibpBKkdo0x_T;}EaMH?8HRU17X9}&y9da4W<de&lirgF)*$X9p*;l$RKvQx|fUN@h
zRn9mAe!b?5EG2;}2bjbjHhn|sJs`Z7C`PoYh(0sCyC@z?GQ)1ObXN^~<#Ixth9071
zy1fwG|BPOp%vb^2FBd5gM@xe;nrn9vL)S5|XT(ueiH>)J6#%CMG3h$QuCGZnBE_|i
zz^FJTsY(|U5u$ONx<mK4G97{i<)myO^3Y*0USQN%lrfhXAMYr#Q99wc56u&Z6&0H&
z0D_!=U=X_I1@E2#0f(EEMr4RAf%Ph)xTjLITYNq-tw2pD9&v!1nOmg6Ul;^}&_xOr
z2q@1<=~@IbU2Hf7C9)A8k>W-mC=AgBv?vpRcsykl6LAsR!(k_dkI^FNM?1w)1O8EC
zBcR#nriF|`9OD15dIp;5#TTs@l{MP$xgy2z^g*dbS&vaTnpJ2=p!*L(HS20<542qh
zDkO}u(tJ>cqQKekLvoiyKyrr6Iszy07D)wrFHeUIc%Uh;D%kiSrvMTE7w~csHyj{8
zdhv$FBnT=-05K5_{ThfbA`PUp2pq#J3|pJGtN>1K>zE0&b=!a|AQlqW@{}b~WdhFm
zqaac-n34-X<p+aZ0gKG+1%WL%=muzHAV}D+YXbu>Znx(k8mZ86DXhTQucsgqspf}6
z??juVO7W1eDu{3;p&7!JZ;F>69LR)`_;>=Y9Pr54TZ{o_xF7}%GYMij?4m<xc28+>
zktd+vz!s}+NI+HWCnrxW@_$}tC|R4q;uH^R2RCV0H2WE);5qYMqCsjrZ*l=n8i(pW
z;77nNTQ<r<g#09Y;dwnszRwbPMbuyf8^ysyToEI=XmGK)Ttb3~Ad90Ibp~AK1hFBZ
z5I1LvLaF#|EbxTcP&BQITt%VdmZ&H8-4Q5tGLeePOt8UbZU^V2m;i#I(-F16H?VC+
zTorILddbiqTU5=calj1Wx&l~07nOqvEidvF**G+{&<WTN8i8c9U%HbtpY7R!N_Oht
zgFRN!XImgo_Y&`3Faiytae<c|OKPEr42Q9a6!^<5ze&)b&&kN=?;(Q*+7uGhmZxB5
zUFYU`db(h!6^{3&(6-(36g;`9{LPI*llOBo<!*QIcuX>3iDSym3mWnPd*=8FZcg|P
z_kG)6KxAje0<j$=>l{JC1p*CeJIAT)DiBlufG(4m3cHjeo}DSij8G%xhVeSg{|oUV
zks427OA4fJl)*%B6$wsp3UWyl3%hp0xT?dr39l@PYC;^B3`<9w1hBVpSP4ckjMXA1
z7q|}3E533WMoiGJqUJ?rDj@6^NF0OU??mBk1g`B6s|Gc$=}t8=5tl%WKm?nyFY{z6
z5(0F{lRb@L*El42O9;%DB*cq>`<XXnV8sxWt`L$q+tAtO9hjidqy@=745NauY$r9l
z9#kLBR3HA}=t}j8wEM*3QAohBuCDu*{XtzIQx~|`zEXGSL0xaAu6L#C)JGK`SDgjx
z+uyJh%=kJU)rhxW&Du#>1)SDb?Or;Xt_&=n`?xZY_5{|vl?Fd~#_;x6?mE~eA)M!;
z^8gPB;XDrkKNY(}P>atT2j#`;-Y6!fW6l*E8H%A4I*!RTNFdC`@H!3oP2$93TvE$n
zuVn}96*u|<;t$V-7s$G!Va?-v`^B3tu6gP(H*|C8S9ad%$|)a%Y&NYJp=WaAHe{IG
zfcMsi9*1>qErjn<hxDf70S+G=kC+GlfGG<)6!ScUFYwk;4zu&ZoG{0yIF-9q2RUff
z3$1Q78ArE<6KG**(*^M0;p$+HATd0w+mQ?-@^y;ZQg<<;WX^={LJBmNyNx^r)E_gm
z4LjhL)t*PBei=qxAZu>#+o%5Y6!_z<9q*lb_tb-yqnVbYpR_!8$9vnpRI}FDvV7s4
z&~4XGAoIdXW6y2ZT4m#M@Z-v!N9_l1pI<ummqS@MX*~`{9=@7I!wv{kQH<~Cu2Ak+
z2M&llp^$kp17G$~NKS+yBY*)No@C~w&W}L=gHA$Eyu3juDhs{lQc2y$7#%JI!C|6q
z1)GVnvu-m41fxNU7bNHmCJUGhV{!qL{g}vR@(akQKZN84d15IO9NDI7;ndpheOW8M
z4;}rdhJS1@@`IN)uq@k6Y*kr{PuTm&*OV3D4ajqe%dHt_`!DVAxnVUMWLtL$Rjd`f
zp;dMLQsteC%Y3G)HEYKrN3JOA#4i_dRot$=+i<5L<7`^4$~fCL+*tmcAh_=B{y@tF
zPC{5iaAnI~Ld{bDw+G%C$P&ojyYdgOe)rX<m^D_2i-T|!y5AH-ptKAVG`$S0pt(-*
zP9Mbx6bt6i%a}t(W2gym3}Jy|^cWVsj>*fA=vHYg%(h4Oh7)inj$J5KyRj6RO?Qr`
z;^0$3B#NTA$?Xfo{V`T$$C4Y^jK!q!?j~IPqNsKCN)|vjh}v`-jTL+YtE*VGX>R4>
zAUP6YRcPF+-He<<EN>h&?qikL4s{zhw6<Lr?Z()a1_84zctU}u2R^TJ-dZ>CiYV3F
zKCcr~9hB_>3ji9pD2mTB?lHoIY*+B~(byV{>e06_!Pu$p4TYpQ_`}ScP(vYh(4bqv
zuVtqV6y?0(y8Q{}Fla~7L1Pggw$I3k;8#G`&HSM|%<BvE9q54aO#Np_vsRAdKw)te
zKPBZqCBBEG=^<(T57P0Fh(9Nu|0FFB$;F4H=OO9+)FN;epjXcFsfXt*PY5KRx(N3Y
z_cN>SA>aNpXVvYOSDZ}?HXwZAG-x?a%$5`3B@VOA$Qxa0QUPouG_LUtYkY0i&Y!TP
zN&V8Z%lvXEBOb}@KDvR!X3KYTmCMiG<L`ws9j7uar#A=`WPAHLu5zt*&$4w{zW0Sp
z`^k)WGE>|8p_ZwI15K=aBsdpa7vIRZ_GAQcL%^c!u%#AY+_4*0Zs~?a+0*0<*T+3^
zi=1t(qA_cQ_ajdQ-nh#OkcVYd)n)CNbCBBIStsUPq`rB%a#_1Kl-bvtX$GZ#DvJYv
zFtyceltJzZi0Zuu(g*rhn$M+4Q`Y9-j_wE=)IF+h*%09Uv}S_iYL-Gz3BG@M*;?kd
KeBI8Z!~X(SgBN-L

literal 0
HcmV?d00001

diff --git a/v1/sample/logits_processor/__pycache__/builtin.cpython-312.pyc b/v1/sample/logits_processor/__pycache__/builtin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b81ebd86b828ce42d58f2ceb72b1c16b69230b3b
GIT binary patch
literal 13159
zcmd5@eQX=&dB5Y`krYXhl=W?iGHHF8mMvM9<XCoWIJRWRmaMq3;<jpBmg1dcN))Nw
zk&dKMuCt~Eoq3A{3=_Q+v%ChgjChFh#}H@e&~*D_8TOA(QbOj|Vk(+qD==WpWT0CI
zY<r&fcoZcc69@fgC-c4c`{TLieV*s{ys!VUxY$C$6Jq}$_&3cI^-D}>4=I7f=Knyj
zK=Bk$ho}j9h@LPE8E8x!Ld*m^#7=NS97!`F<B$>Z*^p_%JY*($T&QTmGGv*s4p}E`
zLpGWcSP|<OL&X#JAv;YOD1qZm@6hV7Lk<IVj^fR)Q+$zNeTT{BI!Ueta;<r}B_!7d
zxy5<8yLh`$DwGM15koaJ=N*EDXJ$+ga|*Oz7RrS(l27uq)F>l3)LPkAB|^oBncwv~
zJ5)K%cuRkc6Y&}p^BI3A<R1<RiutneN=yg`1jsEO{N|-z-<juo&-9%iIH#BfrzeFg
zesRD{EB4F&iOEnfJbKA5`X?kWqgYS-qk(HLP4fPzpg8&?qrs?jNsI&pNs5Tdu8WcD
zLQhZ>0?}Y3><<N_)6k3MN+>jOCK4VAjw<wEK&6Tr8ncPbKZVEwB~U{&PYoG(nm6!_
zz>JymE30vy6}S;2&%xr1yb<CC-UM+IZx+muE*fF^B1l_!i(uugNIIxtgB%+Wni<=z
z)1y&8A9}JwJNvZN>rhHB2E&(juGe}UR^|(krHNMPSuyg$^<Y3yii47GG8pzv2on);
zI>6?QifcyJ*xUfNS)k(dSYDwP9W!XLt@kX;({aj|D~ZC|)JKm_adw1`YV@VXv<;y(
zfj4i6GY^?}vU7u;bG75tm@ThjHag~bGVh&i7PQWNtGs#bda^~_plz42vL{P<!}v24
z1-&6P$pdq#(BfNf@nGI4Ra^O5?8{dlH#}suEehimYc0bi`m4{c12y#c2!zaToV#7?
zYnt+M10sGfg$Yc?VE=G@6t<V>#4O7egLn-h5`*LevpJ=}HGz+X1To88ifzI_<qO9q
ze3I~rq*y0_wI-n~7LF=hG$IDBDcp=8MkK{F5{mev9fuWXw$5bC7Zt*|J2_}SIjt1s
z3e;(^I3uMbCJ8=15(DXwt1nDUMyFwDGFX<eIg;{n3M&br5fNE}bR(AFl5*1&VVV*L
zS#ErOJJ1%Lm~5L2P9BW<#Ze)8a4Pmp_tEiZgtky{xNUMedMy%e!_Cxoy}eCBp#vpE
zxcDYD>C!eF3x=Y>a4W3A?DGY~!KlwSQ+x5rec7s&BI8IuhTtZZF;Z3asmczyvLjV_
zO0GPWu%+Fe1iNmo`pn&U-+IrQF0M|z@OIbz6ZcL$D*x!jW5(dIV7UvL?ygH!x60M6
zsp?L-x^u1iNP@j>|IE{LzxH13(#V>pE9E&RdyYL4WX~CFQ@3Gtq^zD*tLL-Uj(5i&
zjHgRnbB?!T_h;|TKDq*3x7iatAKP3RGv#Saxw~X{SE6U#=Gv%lPStnH^_|NvF8f#N
zk0#hZv~0rsL9mEIG$w`vSyh91<ROv-x9|crO?wS9^+1n<lkTu^T@c;DiAjGTD!E5R
zLExv|gs>pZ2Om%mXt4nrN!XoRY=TfJ1(5|G2N^9GzU~);{%~}rS&zIr6%S%(_`PpZ
z8;(+OA9lzE!@MvR$jK|n!-<j^ABM;R70s;%c2s^nD8(mEqq5WF#bucF04OYuu(((U
zMX+yh8Dc905_aIuE@l@nnUAolZ+IHk0~48P(p$@u_1dv7<eZz-&m3iQgA3oD|Mp_9
zT)uzJ(XwK0QP*Z0Mm^|@5k)w#ZH-6;vc^lWT9oe+Jq?m!)}Sxxd#I~nih3F9&N8#?
zEH}%=Sv^|J8i7VoYv&VZkVdnnxG8Q#*(uSty}SWND_H+os2?|qRdJJ45vQi;v7FrB
z>Kn`nkca_;4_88-+k?=CzWsG*Mc*F!f_9ZV+D)<`6ZOUr{~IWh(;C`1@HNko`RkSe
zwT>XAzK9kuzfztpRD-O(@Tzyt{wU0z*3+IalRNO;fIhS4*`irXf$_}vbqbUfkuPVP
zwZ^S+8-6>ngRI<Is6LsyC7RRCV>wN;MZIy@d!i$5E6|7ei9S#l?Rc;cpyDfWtLP|5
zNwp^%)cgKd;D)ydJ$3AY*<zTn4kwD=j~k>~DASP-x)uaWC|*qHIRfo;tOuTo7ZXjL
zFMo8b2yuUbacg!E43bc@_Q_mzB;N3ldnY@88f)sUWsgp4Mw5LsHBJ7!#(}egzs6}3
zvjVJZTR0N-4TmCuaggj@r^5MpUf{)gtb!s^#C0hq5e(7m0<Uo7C89Z~u$RC7+$F{S
z(!lwi^Dp+E89e{Oz;peIMHOvQa7Iu#>6#zRmA%-H8=G)}$mFz7#FZ+RSXcrSA<PIq
zuU(bH9hh$mgSL^fvXO{p#W+a-ghKns#59{?SQv?jg2MRuDTNt^z{nHupqNzA?bjm1
zU~a&CB;<EAD7GF|ciB`y?31E^OJ>}9f<C`SCv+nj;3M3mK6TWjZM!xqYZJDO`nFVk
z*Lr=IY}=FQoja0jPx{kkyBGTB`xCwCnmu<<-Z{C{DAycH^rsy)$=I5sA-$)5&X(SH
zaE@KD&)btR+1dDMY1O^jbXirZtYNjRVTqQ@yq}acDAjd;{_GREnNq6ZNT!0aIaAh}
zRcp<LqbB93Uv<>0{kps<SNpoFeXciMS+j6s{>GxPR(T+Os6ENvwcoKX#^kDl>8jdP
z)xOoLeM`?l>XWK{8531^IAfz4+fxlk)*Ft<PWK!$cRAUVu5Z47^4`hidb$3{Blaiu
z59}XG^3lFz<(w&9x;r_#TG|Lz=K9n7+vj=~2IdDAJLIzFbfs(E(~<HVl|4sSE03mI
zyRw5za#c&Zw0hmumU5kxT_@K{Pkvfimu_v#D_0=niTPDhjn8CiDQ9iU(Ih*X5^Nf6
zC0zc!+U2tMcfYqg)&88^{@jNixxMEjcD21fUF}L$@0Y9hFLf>TtW>urdTw7xJ4#cI
z##KjS+F7<>nYW~zZdmDJS;})n_8eJ`Jz`fpCqC*~ak|%?UrXDZZ(g`{A!YN(HqWBx
zV_QR}h&p_cUa{7w>fERroBDd(2-^+xIHiZvB+%-Ysc3FL>uG2`sWw&wEV$!|(>(pq
zpvj3@Lo}y*_4H31Q8KfIVL&G`V>uMF)iumpM@wjOWtNQ_;_Nugf0m1)2~QrL)5@)&
z{o)+a8L&=}KEM87ctGqhd~jkA%&!4xpqR!5VG=SFCKw*^77>vnq8L^T;jm&EiG{Nc
z0mURmMxtP1Dy*M`6S0sg5=1n+yhc@w^kLIoVEGUGhlA)v@Ll(ZVuGZUpmn;HAA~Hs
zpC5}!QGr*@J!Kafuc09Ci$=x;0N{RUTtc;?iVRg;aQ?~3(DY2To}3^>JT#Dg4}zN%
zVYEG~jy=HaiHnboR9*euZ`}Dt%5_L~9ZI>5%C4i2Dn5L1#dUPe_56x?_h+@9yBF?U
zSZVHlB!1MnUVCZ9T)k1fKULi(SGO&*?_1uptW_UR*f(5l%dN8O6gFvUS?c{!Xz^;o
zxZ?20=Dlf0d7_wbCV)Y}I${5W;PWXKpKl_9un^)lpYN5JKctorT4&MRa3m5E!5v14
zXp`d?i4xk1XmX2aZiyGLz&J=yp*Vy&Ef|2(rwDySWEc{ZLqv)|@H&+-lylwbn&u3H
z@Af0_*S=S)#s^;9#Jo(afh$`a+@#=@G1J_EB_>0`Ynj``SH{@NH7?aGM`iEvO$y?f
z@6dLxBH4Sl|4x5~g6Psq@4o!t<;NIR=YrD+z%Tb`=E3IQLRP-JsDP`;0PZ1{XTXVL
zByJ-EaT}SyO=RXxS=W#mN{hf>hYlk~*H~a7U&lBACzKW17V|d!au`v+9m^LJx01<g
zSE`6h>2%O9?eHyaf$D9}qa3*SH$nl}yp%6To;aArzMM%D1d;W$&LW=HHaxV!F~|d=
zLr0*DQh9DAJ<*aChQC|u5nLH^D|x_?Vi+J?3ep7)RuMT<F%ARa1W6S&#;lveikX@Z
z!|qf47FrrGDLO}NS?7Wj0%x6<Ri(~p?3Z+of>1)Ng+fE!61bygJcYhi&f{<$TjG`i
z!BJ5QUIJ@+cQd>k>5eW;edcX_xAsBp^6;9sn>ZgfK=<4BfW@(Bc)Rz0-@U#y+aXX_
zPvm7d#s%((kImKU-tfX0U+N49lKHxkAnt%a>=uP#f5;DRUpEns?roCP?GN+rz%_q(
z6pF727FA%n-H}){5Sb9%krB7*9&iW4J3R`mXH^k$0GE#(n57zupqT>&sixydcnw-?
zqGOY|Y@FrlYSFITj<T@|>c`CrV7I67B=Gd>l;-aPbZij+eH3sc{8;#Lz^qxeg+6o7
zSZ*uivM9~t3HZ+s_zzmm8UcMXV>qK7Puw_4M{}A!o;xU*fqu0O2Y7(hZEG6K`9Qb2
z)ke>2%@t^^vvr?reH)|;tX;>m8|R`qWH_dS*EBl?wrS3{T%ac=uO}Tew$+pFJlLme
zO$0^`86#Q(krBw5P(VWbz@_lp+zUY=gKmnJ$obG^N<0MB@c4qr3LkDFFC#t&nc`^(
z6obzvVfUJdP|VMU{1d~x|K!Xw1vx$+g|t2ksLdaePC`U&n1JpioZ?OD(UsJR0r|wh
z>WM2WFJ4(WafNIIZ?RIAb%^@-U?7?WS(3=(jJRM_n2;2sFa@HJSD26xR@iZ28nRUT
zNgRc0s<D6wRvf|L8U{fKyyh(sC!T@~g+({6Vgg~|3-Z}P7|2r$p<xMyvnC@{8Hskq
zOyg6n{RdE0T7v+bY?Uo&pZDGBOV-NGS2h_#l_g>O+(Ox^(sk}cPuf$TIG5hrkT{DN
z?D(DIshR_F&4Ev9TIWrGY+ghFV4b%nFDHB7KC@)_(YZS>tUC{+os|TViFaSU^XgmE
z>rQXlS+P(&Uz{Ai8@v;IYy4y9et=4~Z5a#YZb<DpEblqIeB{SnKRNNiiM2iF(HmR4
z;Verz>t$#CV$Z|IcUvB`tT~UsXxY4T4_|usTMxdq=IjR9?8*9b%VE~!ODQZIk@<;N
ze;X5`2}9)84T$8+Ej{^zhyYc*9;yJOz(N=B=<a_?&$CAG0&W9%z?%wZ6Uc19)kN!&
z6A09+XxEb*aJ4}#m0<*kt6J9p2M$>LfKmAc?PRjhZQFtH+DvmnZrHAv--13i(LyCo
z*Ei$0;=mKh@<joVs^bF(c+8!af3etZ?FDGsH{Z9!C-$ycIx?K0s8iJteb9Crd_&?8
zLVpJ$g?78>0eGV;`lk$2<OEiq_{2HN1PmH5Qe_20wjtR|WNSUhdZ%%2`QB+_bI;Tj
zBn^Qei`ZyC1Yk*69d90g<2d*!<~mcQ4RUG2nyqoEEamN%;h(J=Qu&BM{1&tlU&i1n
z1_;E|@A++vHDiE^IS&l5p`a91kD$JTB}7i>A%kHo#UKVhNrC{8K@n$JY`lNq-hm7S
z(MQoud}S&at{m|IyfT(j&Ym;=A)eXKaGi^t87S;r=H9oyXC=`Oxxcsl)P_wuGZtnG
z9Y9n=2M|@iIL;yfzucoKyv-`GK=RSSS3gV!d|(y`DiEwlKHfsk;H?52DwDKPunATH
zPVO-!*wyz4amA~3;rtyAoi&9!<bcCxXST#Zj+INu*}fAnLPKr^xd<Q>W~?cf%tZim
zlmK=p<9F$o7i`D!rO>W?+Ttx!ssQ#5A~=2mbCA<KD~zVH3!1_D=;INTz@B<)^Z~m_
z$2<Zgk+bmiTpW3Z!SB$T7zQYI$uphR>n3%H1V)(A+XzZd%F~ZqS}}_bwx4wBqJu(o
z&7p()Fa-%cCScr}sY+KqK6w5Dq>3TCxa0}rzW^XOMSo>P5IH^V4iMlE-eR{DjZCUg
zKsw+CA{->JK*b7MNI*jXTZmu;0fL4GBH$qQ<9&~>j0+0VO9vPH6;Mqa$6y}@IWufP
zu>(Mvj79MSqLs2u+oA#>N&sb9AtivGGts`~ZQHt`5NF0gjEZo62hh5J9v)#dQ;|_D
zSw;c^i%}R+*##GFz$qP>%zC3>et<S}lNaB>wcLhaJ3lE_aN_&G&;p-Vbf%#oo$_k^
zHFko2ZNgd=wW;zZxx6W1`P5PU!^?|xYpz4f7gk*-)1{SZM|JY#(veh4kKEF;;^<j1
z_oy`OfY#eoC~i7Jy#}xu@@*A;l}S`73vG5hd8kWQ)rzOL?s6bX)9+o+W2%YQo*XLE
za1r^Y734IH0i*_-7d)N1qsQ43)a?>LK?d<IB0>1!$tkRO=kvugxOy~;22I&BK{yqR
zb9xvqZUR)ODJv>oq|JE;Dm3c0&DEx<+sA%)?52yjjCqLb3y>cXtU2sQ5EnDB%_o7(
zfLyhS$e@p+$rii{(1XBcnh?r>$KH7t0dhxPaRb?WY@GfRdVz-Jx>x{pf62T`XOS7%
zVsI11(0YiRGKmQoMX`c7&}0DtYFpP(ROfHev!g;-n3@z%&KxbcvkKret>r(!ND_Li
z|CRbr*l-kEXa7a_fLzu!*DKd_C7)j$UvB?dX~o>{t(Dd<POX-<J?5yAich--{)=q%
z-}lthgI=rn3iLo`E&dTsor}ic;)^I^E}B+kfx0@$qFUZaTNSAlMI#_D@N7>d#j98{
zg~2oiry)>mnjk_kDdC6H;G5>;!p}6*_*6vsJE$uC7J?jryLjtj@>$I)&7wHCIs?$|
z#2Y6*t8#sgRNCl1@e|hvu2grw+}*$4J+R3^<|f5f+Y{#j@;R%?$=5%*n&8Z<s`hU2
zo#I77t~!umsJiCQ&D$a2!S;8rKDe4XcuGEa>XU<~Wv6$Jk;}bv{$xqAe>*C)tu=JX
zwO#9o-&9-}|JZpT!%?kgXaImE<zE%&IW(Ln=FrbJ#q<9N=83cLl|+P_;!OzjKw7~s
zz8$1(U>~nxKy+{)#J1^+oVL9LC55!DSiPlbx7^O;oJkkwY7h$@z}PRKRov(5nFhKo
z#P30%1Fs4$iomO1VWS2JRCt9f>TO+$y;HkXoH(n&EO{HSs(4ypg*y!_qQHaz_u6<7
z)u{M72I#66{}=-n0)>%;DB1a2NbG4a*blG+4E_Rs($6743})jj<a7q#+UX3&@pJ~>
znc93bMj3Zy3`VY(PCM%|42je?FERJJm!figM>ePT{73aa{id4OD6%J{x#yFY=PxdH
zEK2u|t~grcq61L9sN+94>|m40b((S3<e@!?XO4Y2+GDrS9z->?2T_&TaJ`BZOd_8E
z2U>9OC!+9Eio(LH>Z!lzg|z-2{4;_F$we%1sDNppd*v3)ghQa2;LDI}Sm4w(Aj09`
zB9%!qVW#L=^K0g~ISx)+WK5o!Wp3l;6lDD!Pn_j*hq*WD+ij%oVN}`T4`2q!0XrU;
z0bD;KhRT=p2bXRtNPpGPpY8=N=<92+8t4ZvC&3jX{W%tG&2bj54C#$)$*WTwx4mY<
z%SCaEw*GiAtnL|{P2Bp$crJUb=wckM`oxQ{{q4&ze=wlE?9AzxqU5O8t(_JFFmbDD
z*p04E04s2}!wnZk+!EX-kpwsKpKRSems-yb48jRA+@pf6H5r){!6Ku?ZVXV_iN_#-
ziz?`9BFrQH5Mqi+9fMc(CYt7o9bBw%^)+Wjyn&e<8DBB^)!T%MX;_VjXGt%9!k5#S
zjSM<n=&FjU^HK5R37*6NYu=<jw}U#_aFlJ>OK+Y_clV~c`_{YrWOG-7OI)A3v3TRt
z^19^p#T&~v*2>SW*v=+;SFD%Qo~A@!l9O$9>5ARA&ZUd1-t^t_C0|<XSu6I+#a$#f
zW2KJu)6l=UbfespD)+9Jd*L#RWA~fiz4hH>Y?1%i(URU>H*W%6Sg{|jjd;6K`;M*e
zJ0{y266fZ=o*YS6corh_k;T!a=vqZ5cw%>^9Th8%z3JxGIcxHq>}-JE;6jO`LWWEd
z&E65|lwF-`rJd=P!*hL$rq!~2aQVf19526=-W(u%+*_qM0+CQi{oeyptA98kB0s9a
z(g@d-0kevDBqJIzK-Y`H;;msKVihk&Td%jbsuze`Lpv@Ix5C+<AddJ0f+}x|uoL7A
zh1}zB&AZ1h;z5FX432IlB5lE=3v8&$@YgYuc+-dp*Mdo+6Pq9g2Lb9a{Ymj5B;gBF
z(t8kO7@DSkW2ES|f2O>@q-?*U_WZ`c(grY$Ah1zv$<NuQU$EB1neX-Aq#qlv(sV_#
z?J<S#$ETQ9NPYJ)1+T}$^cgIJ6uvY4h9<f+T~a<5NVd<7%)_xfq&IfC7Fl^$LxzI{
z*kR79WZhEPQs6=L@*ubkA9a4ne9*m8)%)QqA9en8YNhH0*>Ndj!n$V4Xn9-&F|wrp
E1OJ`O$^ZZW

literal 0
HcmV?d00001

diff --git a/v1/sample/logits_processor/__pycache__/interface.cpython-312.pyc b/v1/sample/logits_processor/__pycache__/interface.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f1fa1c210d978da936fa0427b1b9d11c737605e9
GIT binary patch
literal 3583
zcmb6cOKcm*b(Y*+QvB;1yEfvLY$v5_QILzqso)k+WHu3^(t<3zC=qnA+8v5p?}wRL
z${~RQYU>_~T!a>d-BWwC;R0<=X>S2?DbS0A<X|ii#759VZj9t2Ku>*dc1cl8TA&MY
zX5MGs%=?f2k<Vuce2)CC{hJ&ipCQoy)Oc}3Btq^Ji&&CFT&XU(iF!gpIN>B+xh{)!
z(otNsu8Otnq}+5p?T*#Q1gtn2H(SrTxq42(s*|thVSmagxW#%=A~efXfYVON9j}i|
zBtc#$*4RB_WoY_wGP*~7f=<?_=ro<AMLI(#PXpRgyD38YP(wys{RP1@Nhcaf0iQ|`
zs#@7U<sO3`_zCHGkY0G4h%k?%iPTRES`la^Dh*ElMn^4=e~vumM3`KDZ6z!iTRdQf
z8MriP`c_#A(>LkcZR(j6)?=0t7^Y)z4*YV}YrCOrv;!ZY{N|6>tNO|t)s;6_Yp;jt
z8?C_hJ;SNNw!%%rZ8^5Ly>2kW<$%fDb{u!b_Zs%L8DCLM@wLg(Hvzm)D5*;psV6|u
z<Ukeq1f+B%IDO)W{tmrvGipYs+CisQR>QQedxlGOJ<RC3>sxIH*EwB(yKOiTg{9%7
zuyCukdVO`Hy0W=?qqe*j$~S+sy#9zB;idk)z7V*rg_hl#4-B?VgZX#bSHJt}ovU=g
zv9}gl9Wa!)umcJ$>?|&DR23-xwjFT2#e9=;?z08k3n*(CCattOtN>!gFb)e|g5e%{
zHhucHw|8sLvc-2_`T2D=-DlYZbEysHcfkjM8+>u}kfSv~9h>SFL~}h!WvW<-Ye1nY
zO<}YEoQ&ag49hV*7Q+g{5D}>``<fA$&08&SH|<_or;OV?pkAPDAztGF;5D;pc-vI7
zy@szfe5OSzqsBbU2u7XTT^gnsb-_DUs2G-olYnaF3@gHU47F!yhcKn<mT!WCl3=W`
zsOyI3`EV4(5!ZF5AWvZ<61IUs$%8Prj4}rhhCv@<Qz%*3aRyhYr5G;2g3rV7EAmXf
z_Ovwl%NxBHNnvKsJIG)BNWS<aJGr-Zke&TVp6xF`mS-bLDCC42#sGoe(LM~vZlFm^
zqH-f)CGN?C$W<U+la_2LH1$(dd*riJI%cJ;bR!KV;&@jEc4c4(Dlzg|sjtU3WGg!)
zAqNstbPR5j8^Y!Ro2Lb<fI5kDWve(uFLu)9QdnFQk-Xjy<gh3r9FkdYiEK9eIorP*
z2Ii3r!+nCe*=^o792+A^>+jT}og!+2rp@Ef(FWO4$z-(n+c0cSH4xFJRmLF9Fw|^s
z2W4u$M|owyS`!|}N@hBoy#zPlcsEUBXu7Z{_P{;ji+9hBs8$(a_#R4tGE8<!FGosK
zA_BrJX1Z>Q+Qp!?kWjVgj&0H~Z$rY{p6)`3vQDTn8nl^LGtn0P4=c4W5SD=ZB<SPG
zFQl?mdnAREH9uIz65>L>QA_AtmP46Sr@<}(JNp(6mto*27|j&v2gT0z>_FGMr$!a)
zQ>wTN8{;l{o+ib){d5%8p&BLc319xtt9F0A+-f-;ZR8{^@Z%a03Dlr!K=m8)=Vp^?
zZBbaPn5emJ4wZ#!k-ey;ZM6f<H9CMB_!f${-LQdXd-E*^%jkf_7C@nLf-S<tzKt3V
zdtEW`p55t@i&g~sP2`U4Q5dp^88=iQ6MQ86cb6GSAaAlZ)WODA!dPn>T=RU*c3aR<
zAzHPdd8`uj64!V~Gkv$!j;b6er)@Jzt<E4-j@7K)*sLxIvp@o%b)YuF0Xr0hB0tq2
ze&HgRAco@%>|=XSuc3c)&2MOiwr%fF?<;=e?Jd#QFAug^v_(A&@*MBoC!;D+Xo|9Y
ze7ndAl5he?i^V}X2{{od3c<N!Fx&8g?)gz?d=1kk$mqMKG~}8v7qylshD1I8Kce>U
zD_|LjqPtD70oaXE&48ar?`nQK06#zg-+_?547JGi*}xbO*3^K`2e!RyFbfJ8hr%-;
zFSBjFG=MNAhcCIL)qHOrei$T;_*mh&Eeh9&`Y1oK9Yw&I=-H^{y2c&aZjIVI4*FNo
zR>MJ`i>#xIM%_I-YVKj`PloJ#YRJyz(rA0miU5h;g)9r(SQ!T_LZK4)%xsF%6v|t^
z@31R~RyRfZv+p3|RU9zc*b)vS-T5NoaKJ|h{}6_I<cU)1B@|`qp?64NI!Y3CTp)S{
zqE7V^NoDTInU{M>oEKkt|Ll8bqjhaV%umPihYHYeU&P(Zh?T0$J*fU+?e}Xv0?UWD
z{`}UXw+?X`bHb`u5}YYz?vI;?1g4k-tKNhlWtF+7GcP{)*}=?wPXVB(l1$++1uMb&
zMFLjQn*p^dp9z!3mdUX8M<y$pK7^upuks3#6d;A!!3&#mhX1I9GKFV0!!{H>Rn?#a
zO=g?n!y_^$S}c^YEeW?o9jY?ap`!QZIovRdyh_l9EDmJ{UUh5^(dTgx4<zA-lfDVl
z*P^%c_t_i3huO`42SYC@Nz#`pkuH2f;BWR*a^_QV=`)i1Cpq^lS^7kN>A5OP6Az}I
z6PUoF6VtneUYeAq_ijF@JiPFbKPvylI=Hm-*Xtil{%v)Cx_VIj!EUb4aen{Y;{NpF
sLGj9N?hBP9vU?XkmR|TWF(u9Q2n=B6#Hk*F&np#aZqNJ|fk~MBKlQnaRR910

literal 0
HcmV?d00001

diff --git a/v1/sample/logits_processor/__pycache__/state.cpython-312.pyc b/v1/sample/logits_processor/__pycache__/state.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..71484ad7794d1110026cf28adcf6e85480e95e4e
GIT binary patch
literal 7296
zcmcIpTWs6b89tOqnbyVfHMZkR7~8qXb>y_jn$~HvCb4tb5+g{`U9=4<Ez&j<iBu0M
zCl(wm7&0Ki3e*_}INg)CmnBGn?QxHL-;33_v&ywtfbFGka@C>OUbg=~q$pZelVQV-
z?Zb1w{Fm?l&+k9RVqpR)%l}Lp*+a-*u~JLCTd3ZG!WvPC!evR0OK}{Q1KB_>m<qCT
zFw5tJl)%b-Hk4~gwdBN<m}^b7=EA8kM^u4^V2%KNkyL~u0dkHgp}RzBc@l7TNkv(k
z2yLxiTWmR;h<uI%5}Ykwuv98r28FVaS(G&$3bAY7zdVyZbAIN`w=c||OYnB|l%lB0
z74_YMYFc*Wv}|P--_9$trP|R;#!|hj?TVW7)nTppMPos;%*)issHSPqjB_$4Z*?ox
zJsc84B`HoJsleMnlvGgVRiPgSs39fr27X(h6l5h{72O`*t+%>$0qd>oN9k5tYHKK=
zVhbS(4|O)vtqV|RGu^tVgyu!1^{$W#D?Lj1E}x31QAMn+G9OSPcljsop;Iv>s<tUO
zhgV`SHVz|OU`!j7+o9a%tO_l0XzAF|(he=1?)VNUcPX8?mfG#k;gv3E?O6^b_Sl_1
zdY>+6Sp_)uk02rE)ok9BEGlPiNO_f-nrW%JCCwpsB+~-!NWf8jK{X{=SEM<d8kQi*
z?wA5&p#*%CVLUBltO8Y~d4oz>#<V;z&15r9nPwrEw=_dHr&z<dbSj&bG#v)#WNeq@
zIip}n)R7Sr3QQ2Bd1~Z#osKObNlJlg`T`sW4xX1ZIOf6vRTtpk3M?&|YIZ)Et}SFO
zQlqf2C}req7H)00Yp_A?n6#YFtGaSHA<33xEvnL-x}fPg?qSTk+a#rHi?CC!U|P~5
z8}BYOr@~!SHf>&`&}(Tqtin?MJtmx5-pJQZb~xd#0CZy`^QwBI-YLnjs-`a)H=J9^
z(t@_6!tLPBY$A|y9+dF^v@=y@Mofpu6OwL7x_Z-LkDPV53lafm1j?fXQ8;G7M4I`p
z?UB|!@=R9Efv}lKST?S9VYZa6F2RKqjj9<dyDa4lMVr@DWkQk>M<j!~6sz&}u$EMl
z?y!s_PQW8Whq+4{oE!yVH;;8knkAR&evUXSIaiRWtXnE5KtTtsK^a|AC3&|n`*&c1
zn7t`4n-buaD~pP1W<a!<C{b9-B?FtcLl&5-In6u8V9u}>fySU>x_f(+(5!J2Al1_r
zSA9TU6!jMB0FKENC`HBgB*qqN)V4d*npvx)o#Wa9qp~e91)Q~8T*}!YXZK9a1R;*0
zp#Uf$)j7!4$O?ChGXor1AS)ydElyeq_*wy}-PWM5)ipSPu^i0A6<K06Z@*=d2+W>M
z2s8$rG>%z2W^It!F@{@d2eA||Iy_R5cI+5x;#vq{|GYS9<?@qxEq}z4>4It<xm7s+
z`fE3itCLx6ZZf}YEgJgdQZ}2LTzYxZlymtk^e|LQBdjr7G|50RnO_EirZru&(&^&B
zZm><(IwxRr^EhO8NF_@8rC-L@U%AJ>7c2Md{rL|b&OtHkFOD3#$8U=JDk2#ky~lqn
z?ybU9lJN)#6(kfRzXAmyKe-Oy#$=8`yGP)9?{%SGu9Xz-!@v`F2k;z_8MQ9599#}2
z_~Lt4L8_ZcoCZ_@nRBHR;JHEOlU~mSMa|_6W^H7KT@GR*G^5bU-oQH4O@InoS{C*-
zRja<zHE<C?KmjgHbv6-XqQJxh*bm2i%+Ve=zlk@JDELyu-jh~!6YNxj)E5)Y7}s>@
z30!d!GRDUC?ydO2kKzZ*(f0Q*-M_RI9WF(O*R74{@Md(Pd~p2U^vBWBia^>A(LR{7
zgMFU%OhFH0pP#wVhN<Q+aLC>!Y`hA7SaIr#YcG8W!1&=okVn%-wj=^{2)1#QY7k03
zYBBXG?rlOE7Zhf2{9ed_79welZHc2LadcBWP>y%KfBXLJ4RMfN+ZGrkW&G#&gm($%
zf1U8sh~-0rCoX+{0)ly+hiMJzI(TV~X@#rJ0)Y;IKzs9;IB#EZ?H0pIb}c#U*!vnS
znGb?U+UO-E!yZ*Hp+le>;64H1f*gaHazq>F`5XejrI_$$H?adR_6B^rpP~z{V};-*
zIru*X%ECNur|NB1oH--wc+{H3u3L0Cb#0DwdjE03-!b8O;CrA`ki0evNX(!&dIfbe
zr_NAnP)GYhjw?mGfg2!TsDyMMWF`uL<f>wuD@3kyP~89Za^?=Xh)cW<8HigaiMDS=
zMm~y+eA+o&ZvSpI80c!NkU*@h5&}tlKXxCaaj+x~K74yq94!y+XBfI$2|Y1HcwQrx
zr-IGZttL!Y$zyId5wQ6=!^k#O9y<aAtHDfhxXI;w{XfK;p|QF{K8<&+POn{haOr7$
zWJ4U;ePRzb=GckhoZgwC!A&*Tp!=ZTQ=wXK1FU!|QSVncd=gzH%Yj6&IC_OS9?x|*
zKK~aa#Nb0P@9QDOj{5!E;=U$i@ee@rV<KnnkY|zjR%D<Q8Q6>r0oraw50#>aHlvAh
zSMS=J58hnwEOm`-M8^Pmo<lO{+57^MjsJHfYlc2GHUJ^HM4%{LHuBG<;%tI%AfO!t
z2az@avmNnyjZJ0C*FTRmJo=x|aI0$!i1@VY;70V|^Xd2}SPsGuI~)X{njha`1g2(g
zMvW@WriGkw{``e=ME_`~{K7dbsIqh3ZI0c*bA(nnu%?0HF-P1@=^8D-<7*yG1H5o<
zVkYa$-m};;n9-QS7jyD#BII*FgiKbIsn1FEBO#V|AfdqAnqprQWneuyoNyH~&;r*j
zEQ?VG;s#3Mz@|8a_3-`hme^Mk`!>bByXt*|TYclDzVUmp^3Vu+mV3+bLC-#i*(K7Z
zR#bNwX=DzfN0k7^G%}nK&%++8PDXOQ2~$Blny?L8n=ocRSi@P9TMk(0@UygnhW~$D
z`@`T97w>Kd*h9rbM^^K&kk#sU3V>+vaywl2oT_8c3uM6`=y+~W1Oq6Hlb#jU;9*I1
za5Wg=B{!DBf-LaTbY2#9_oC6j*SR(2z3&>m6A77FU&57XC;q~`1nDd_ieS!t(VCs7
z(R4V6o>5Oo@5~yy`VOiB1OS|~*53Y-bQVGDW#EtV+G1}qe4Qm)9ECt}w}YTKj+ylO
zDSB&QFqn6M^X;f}FLwjv3mnw(+hg!ZO9L6fpu!8FD4nhc5#69xa>t09Fxh+;GH@04
zkkP~JEmf2JPvf1AiCsVTo2g$-J+gjVd|ce<n%az?c-GbXx89L*@BVUk9~$9u=bp9k
z2jlMN%T}Q;d@qX6w*lwr*6TdmoKJjULmXh%ClQ>T1^0k<!U<*}2nR1jUCycLv>i^T
zA)rynVmX>lzgv*AZcj@(tr!_-=Ccq<p%~q?<7v1wIBP7bVW!jcAhc4{0E)^)doe@*
z-4@|p3L;=FGcMRc5HLE5z04kuW9bNHXb2eP={KPCn6TqA8q+9tVTPwRqaf-(CEI~c
zL984m;FO#!wT(RGN6LMJPx--eB)%FgMTVa8L%t$B0*)RlzcdNI+pRHS^jSyGs$S|i
z@Q5#UOjHDD0q3l}d-Y-|zJGnX6hB;P!8UPc8_ukRNw}>Vfl_r?6ke)ylTceFzzahU
zyC3SM{v%%yC|85E)=IQZ7+F74A@F%LUBypD;)KzM*8sV2S3&50m|36x;ChunvC@Y1
ztLw);NV#=U7+STe1U{ASy~5z5V1>Zvcah&KrK6|6#Ii#uBu@tZyi`Mo>bIb&9)!ja
zGz51c46X3!NhtvqLKc(&gnL5}A{HPV4FP1Q7lOPkzR++BcwMb_dqeEoEKbbm898qj
zvVcDL*48Xd&VrUJJ{^{fx$6)&Gn2D+#HZO5QI?704tz(nLp`hh8nU&9zzst{58qcf
z`pp$?n*0bH@Y{iv!1D|)jRH=?ij7H+KzlPMq1nUD7m0Z91W%UXhaP|xA-K~HL7SX>
z3!*MdGSwhRXLsv{p5E2k1>vp6MmmCPxUh2y%62QG6AM@SF^4HvvA>ZEUOZ<F=9-rw
zyF<#yUq^r$DxY{0zxzLl?D_N1;nh}<_P+gFy~j$u$2NOktprI=|5kV6qwd7B{-Le@
zS4#b_{H3$+!NG_9A9s#!N62sjhD3XJ`>!6GPQ!LDexv}AaYjR`{R@Xh4905zxsf2I
z38760y*Sb$dGReX2~@&$=o!qWF>CZggD|n!y^BQ9iUMUKGTk9xg3kA>Ufb#!FZGN+
zn%<h2DNW2gji22R&pJxQxGK_DaR&^L(bq7;haN?SI4Ji9md;~#5;KgZII#5=mN5GT
z{Fyl7F8PFib(?P$#@5eo964DU`{p0UN@Hg$1X?z(e5Z<EunLGM0pT3C`n`?e$x_eJ
zF9_BcsBE(iXA@j{HqmCsGX^~DGwk0ONqH{A&Stl2V8|_a1e%OicF0=JL!6f)F4zeS
zAtskzPC6mPq(kC*2r<drfO$EiI+%`X-~c<KzoWAZmEXeZ&U@S98;&74NiRV!>Zysb
zsY;OJxW9)8ci=NJ@EMW5;sq`MD8~i1+X&zB8Gqrc(2qH8aGPNM)imG1o#VbBn6vx-
E8|VSzT>t<8

literal 0
HcmV?d00001

diff --git a/v1/sample/logits_processor/builtin.py b/v1/sample/logits_processor/builtin.py
new file mode 100644
index 0000000..4ee7dc2
--- /dev/null
+++ b/v1/sample/logits_processor/builtin.py
@@ -0,0 +1,274 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Callable, Sequence
+from typing import TYPE_CHECKING, TypeVar
+
+import torch
+
+from vllm import SamplingParams
+from vllm.v1.sample.logits_processor.interface import (
+    BatchUpdate,
+    LogitsProcessor,
+    MoveDirectionality,
+)
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+T = TypeVar("T")
+
+
+class MinPLogitsProcessor(LogitsProcessor):
+    def __init__(
+        self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool
+    ):
+        max_num_reqs = vllm_config.scheduler_config.max_num_seqs
+        self.min_p_count: int = 0
+
+        self.min_p_cpu_tensor = torch.zeros(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=is_pin_memory
+        )
+        self.min_p_cpu = self.min_p_cpu_tensor.numpy()
+
+        self.use_double_tensor = torch.device(device).type != "cpu"
+
+        if self.use_double_tensor:
+            # Pre-allocated device tensor
+            self.min_p_device: torch.Tensor = torch.empty(
+                (max_num_reqs,), dtype=torch.float32, device=device
+            )
+        else:
+            self.min_p_device = self.min_p_cpu_tensor
+        # Current slice of the device tensor
+        self.min_p: torch.Tensor = self.min_p_device[:0]
+
+    def is_argmax_invariant(self) -> bool:
+        """Min-p never impacts greedy sampling"""
+        return True
+
+    def get_min_p_by_index(self, index: int) -> float:
+        return float(self.min_p_cpu[index])
+
+    def update_state(self, batch_update: BatchUpdate | None):
+        if not batch_update:
+            return
+
+        needs_update = False
+        # Process added requests.
+        for index, params, _, _ in batch_update.added:
+            min_p = params.min_p
+            min_p_before = self.min_p_cpu[index]
+            if min_p_before != min_p:
+                needs_update = True
+                self.min_p_cpu[index] = min_p
+                if min_p and not min_p_before:
+                    self.min_p_count += 1
+                elif not min_p and min_p_before:
+                    self.min_p_count -= 1
+
+        if self.min_p_count:
+            # Process removed requests.
+            if batch_update.removed:
+                needs_update = True
+                for index in batch_update.removed:
+                    if self.min_p_cpu[index]:
+                        self.min_p_cpu[index] = 0
+                        self.min_p_count -= 1
+
+            # Process moved requests, unidirectional (a->b) and swap (a<->b).
+            for adx, bdx, direct in batch_update.moved:
+                min_p_a, min_p_b = self.min_p_cpu[adx], self.min_p_cpu[bdx]
+                if min_p_a != min_p_b:
+                    needs_update = True
+                    self.min_p_cpu[bdx] = min_p_a
+                    if direct == MoveDirectionality.SWAP:
+                        self.min_p_cpu[adx] = min_p_b
+                if direct == MoveDirectionality.UNIDIRECTIONAL:
+                    if min_p_a:
+                        self.min_p_cpu[adx] = 0
+                    if min_p_b:
+                        self.min_p_count -= 1
+
+        # Update tensors if needed.
+        size = batch_update.batch_size
+        if self.min_p_count and (needs_update or self.min_p.shape[0] != size):
+            self.min_p = self.min_p_device[:size]
+            if self.use_double_tensor:
+                self.min_p.copy_(self.min_p_cpu_tensor[:size], non_blocking=True)
+            self.min_p.unsqueeze_(1)
+
+    def apply(self, logits: torch.Tensor) -> torch.Tensor:
+        if not self.min_p_count:
+            return logits
+
+        # Convert logits to probability distribution
+        probability_values = torch.nn.functional.softmax(logits, dim=-1)
+        # Calculate maximum probabilities per sequence
+        max_probabilities = torch.amax(probability_values, dim=-1, keepdim=True)
+        # Adjust min_p
+        adjusted_min_p = max_probabilities.mul_(self.min_p)
+        # Identify valid tokens using threshold comparison
+        invalid_token_mask = probability_values < adjusted_min_p
+        # Apply mask using boolean indexing
+        logits[invalid_token_mask] = -float("inf")
+        return logits
+
+
+class LogitBiasLogitsProcessor(LogitsProcessor):
+    def __init__(self, _, device: torch.device, is_pin_memory: bool):
+        self.device = device
+        self.pin_memory = is_pin_memory
+        self.biases: dict[int, dict[int, float]] = {}
+
+        self.bias_tensor: torch.Tensor = torch.tensor(())
+        self.logits_slice = (
+            self._device_tensor([], torch.int32),
+            self._device_tensor([], torch.int32),
+        )
+
+    def is_argmax_invariant(self) -> bool:
+        """Logit bias can rebalance token probabilities and change the
+        outcome of argmax in greedy sampling."""
+        return False
+
+    def update_state(self, batch_update: BatchUpdate | None):
+        needs_update = process_dict_updates(
+            self.biases, batch_update, lambda params, _, __: params.logit_bias or None
+        )
+
+        # Update tensors if needed.
+        if needs_update:
+            reqs: list[int] = []
+            tok_ids: list[int] = []
+            biases: list[float] = []
+            for req, lb in self.biases.items():
+                reqs.extend([req] * len(lb))
+                tok_ids.extend(lb.keys())
+                biases.extend(lb.values())
+
+            self.bias_tensor = self._device_tensor(biases, torch.float32)
+            self.logits_slice = (
+                self._device_tensor(reqs, torch.int32),
+                self._device_tensor(tok_ids, torch.int32),
+            )
+
+    def _device_tensor(self, data: list, dtype: torch.dtype) -> torch.Tensor:
+        return torch.tensor(
+            data, device="cpu", dtype=dtype, pin_memory=self.pin_memory
+        ).to(device=self.device, non_blocking=True)
+
+    def apply(self, logits: torch.Tensor) -> torch.Tensor:
+        if self.biases:
+            logits[self.logits_slice] += self.bias_tensor
+        return logits
+
+
+class MinTokensLogitsProcessor(LogitsProcessor):
+    def __init__(
+        self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool
+    ):
+        # index -> (min_toks, output_token_ids, stop_token_ids)
+        self.device = device
+        self.pin_memory = is_pin_memory
+        self.min_toks: dict[int, tuple[int, Sequence[int], set[int]]] = {}
+
+        # (req_idx_tensor,eos_tok_id_tensor)
+        self.logits_slice: tuple[torch.Tensor, torch.Tensor] = (
+            self._device_tensor([], torch.int32),
+            self._device_tensor([], torch.int32),
+        )
+
+    def is_argmax_invariant(self) -> bool:
+        """By censoring stop tokens, min-tokens can change the outcome
+        of the argmax operation in greedy sampling."""
+        return False
+
+    @staticmethod
+    def add_request(
+        params: SamplingParams, _: list[int] | None, output_tok_ids: list[int]
+    ) -> tuple[int, Sequence[int], set[int]] | None:
+        min_tokens = params.min_tokens
+        if not min_tokens or len(output_tok_ids) >= min_tokens:
+            return None
+        return min_tokens, output_tok_ids, params.all_stop_token_ids
+
+    def update_state(self, batch_update: BatchUpdate | None):
+        needs_update = process_dict_updates(
+            self.min_toks, batch_update, self.add_request
+        )
+        if self.min_toks:
+            # Check for any requests that have attained their min tokens.
+            to_remove = tuple(
+                index
+                for index, (min_toks, out_tok_ids, _) in self.min_toks.items()
+                if len(out_tok_ids) >= min_toks
+            )
+            if to_remove:
+                needs_update = True
+                for index in to_remove:
+                    del self.min_toks[index]
+
+        # Update tensors if needed.
+        if needs_update:
+            reqs: list[int] = []
+            tok_ids: list[int] = []
+            for req, (_, _, stop_tok_ids) in self.min_toks.items():
+                reqs.extend([req] * len(stop_tok_ids))
+                tok_ids.extend(stop_tok_ids)
+
+            self.logits_slice = (
+                self._device_tensor(reqs, torch.int32),
+                self._device_tensor(tok_ids, torch.int32),
+            )
+
+    def _device_tensor(self, data: list, dtype: torch.dtype) -> torch.Tensor:
+        return torch.tensor(
+            data, device="cpu", dtype=dtype, pin_memory=self.pin_memory
+        ).to(device=self.device, non_blocking=True)
+
+    def apply(self, logits: torch.Tensor) -> torch.Tensor:
+        if self.min_toks:
+            # Inhibit EOS token for requests which have not reached min length
+            logits[self.logits_slice] = -float("inf")
+        return logits
+
+
+def process_dict_updates(
+    req_entries: dict[int, T],
+    batch_update: BatchUpdate | None,
+    new_state: Callable[[SamplingParams, list[int] | None, list[int]], T | None],
+) -> bool:
+    """Utility function to update dict state for sparse LogitsProcessors."""
+
+    if not batch_update:
+        # Nothing to do.
+        return False
+
+    updated = False
+    for index, params, prompt_tok_ids, output_tok_ids in batch_update.added:
+        if (state := new_state(params, prompt_tok_ids, output_tok_ids)) is not None:
+            req_entries[index] = state
+            updated = True
+        elif req_entries.pop(index, None) is not None:
+            updated = True
+
+    if req_entries:
+        # Process removed requests.
+        for index in batch_update.removed:
+            if req_entries.pop(index, None):
+                updated = True
+
+        # Process moved requests, unidirectional (a->b) and
+        # swapped (a<->b)
+        for a_index, b_index, direct in batch_update.moved:
+            a_entry = req_entries.pop(a_index, None)
+            b_entry = req_entries.pop(b_index, None)
+            if a_entry is not None:
+                req_entries[b_index] = a_entry
+                updated = True
+            if b_entry is not None:
+                updated = True
+                if direct == MoveDirectionality.SWAP:
+                    req_entries[a_index] = b_entry
+
+    return updated
diff --git a/v1/sample/logits_processor/interface.py b/v1/sample/logits_processor/interface.py
new file mode 100644
index 0000000..0cbfb18
--- /dev/null
+++ b/v1/sample/logits_processor/interface.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from collections.abc import Sequence
+from dataclasses import dataclass
+from enum import Enum, auto
+from typing import TYPE_CHECKING, Optional
+
+import torch
+
+from vllm import SamplingParams
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+
+class MoveDirectionality(Enum):
+    # One-way i1->i2 req move within batch
+    UNIDIRECTIONAL = auto()
+    # Two-way i1<->i2 req swap within batch
+    SWAP = auto()
+
+
+# Batch indices of any removed requests.
+RemovedRequest = int
+
+# (index, params, prompt_tok_ids, output_tok_ids) tuples for new
+# requests added to the batch.
+AddedRequest = tuple[int, SamplingParams, list[int] | None, list[int]]
+
+# (index 1, index 2, directionality) tuples representing
+# one-way moves or two-way swaps of requests in batch
+MovedRequest = tuple[int, int, MoveDirectionality]
+
+
+@dataclass(frozen=True)
+class BatchUpdate:
+    """Persistent batch state change info for logitsprocs"""
+
+    batch_size: int  # Current num reqs in batch
+
+    # Metadata for requests added to, removed from, and moved
+    # within the persistent batch.
+    #
+    # Key assumption: the `output_tok_ids` list (which is an element of each
+    # tuple in `added`) is a reference to the request's running output tokens
+    # list; via this reference, the logits processors always see the latest
+    # list of generated output tokens.
+    #
+    # NOTE:
+    # * Added or moved requests may replace existing requests with the same
+    #   index.
+    # * Operations should be processed in the following order:
+    #   - removed, added, moved
+    removed: Sequence[RemovedRequest]
+    added: Sequence[AddedRequest]
+    moved: Sequence[MovedRequest]
+
+
+class LogitsProcessor(ABC):
+    @classmethod
+    def validate_params(cls, sampling_params: SamplingParams):
+        """Validate sampling params for this logits processor.
+
+        Raise ValueError for invalid ones.
+        """
+        return None
+
+    @abstractmethod
+    def __init__(
+        self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool
+    ) -> None:
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply(self, logits: torch.Tensor) -> torch.Tensor:
+        """Apply LogitsProcessor to batch logits tensor.
+
+        The updated tensor must be returned but may be
+        modified in-place.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def is_argmax_invariant(self) -> bool:
+        """True if logits processor has no impact on the
+        argmax computation in greedy sampling.
+        NOTE: may or may not have the same value for all
+        instances of a given LogitsProcessor subclass,
+        depending on subclass implementation.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def update_state(
+        self,
+        batch_update: Optional["BatchUpdate"],
+    ) -> None:
+        """Called when there are new output tokens, prior
+        to each forward pass.
+
+        Args:
+            batch_update: Non-None iff there have been changes
+                to the batch makeup.
+        """
+        raise NotImplementedError
diff --git a/v1/sample/logits_processor/state.py b/v1/sample/logits_processor/state.py
new file mode 100644
index 0000000..c15219d
--- /dev/null
+++ b/v1/sample/logits_processor/state.py
@@ -0,0 +1,165 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections.abc import Iterator
+from itertools import chain
+from typing import TYPE_CHECKING
+
+from vllm.v1.sample.logits_processor.interface import (
+    AddedRequest,
+    BatchUpdate,
+    MovedRequest,
+    RemovedRequest,
+)
+
+if TYPE_CHECKING:
+    from vllm.v1.sample.logits_processor.interface import LogitsProcessor
+
+
+class BatchUpdateBuilder:
+    """Helps track persistent batch state changes and build
+    a batch update data structure for logitsprocs
+    Assumptions:
+    * All information about requests removed from persistent batch
+      during a step is aggregated in self._removed through calls to
+      self.removed_append() at the beginning of a step. This must happen
+      before the first time that self.removed, self.pop_removed()
+      or self.peek_removed() are invoked in a given step
+    * After the first time that self.removed, self.pop_removed()
+      or self.peek_removed() are read in a step, no new removals
+      are registered using self.removed_append()
+    * Elements of self._removed are never directly modified, added or
+      removed (i.e. modification is only via self.removed_append() and
+      self.pop_removed())
+    Guarantees under above assumptions:
+    * self.removed is always sorted in descending order
+    * self.pop_removed() and self.peek_removed() both return
+      the lowest removed request index in the current step
+    """
+
+    _removed: list[RemovedRequest]
+    _is_removed_sorted: bool
+    added: list[AddedRequest]
+    moved: list[MovedRequest]
+
+    def __init__(
+        self,
+        removed: list[RemovedRequest] | None = None,
+        added: list[AddedRequest] | None = None,
+        moved: list[MovedRequest] | None = None,
+    ) -> None:
+        self._removed = removed or []
+        self.added = added or []
+        self.moved = moved or []
+        self._is_removed_sorted = False
+
+        # Used to track changes in the pooling case
+        # where we don't populate the added list.
+        self.batch_changed = False
+
+    def _ensure_removed_sorted(self) -> None:
+        """Sort removed request indices in
+        descending order.
+        Idempotent after first call in a
+        given step, until reset.
+        """
+        if not self._is_removed_sorted:
+            self._removed.sort(reverse=True)
+            self._is_removed_sorted = True
+
+    @property
+    def removed(self) -> list[RemovedRequest]:
+        """Removed request indices sorted in
+        descending order"""
+        self._ensure_removed_sorted()
+        return self._removed
+
+    def removed_append(self, index: int) -> None:
+        """Register the removal of a request from the persistent batch.
+
+        Must not be called after the first time self.removed,
+        self.pop_removed() or self.peek_removed() are invoked.
+
+        Args:
+          index: request index
+        """
+        if self._is_removed_sorted:
+            raise RuntimeError(
+                "Cannot register new removed request after self.removed has been read."
+            )
+        self._removed.append(index)
+        self.batch_changed = True
+
+    def has_removed(self) -> bool:
+        return bool(self._removed)
+
+    def peek_removed(self) -> int | None:
+        """Return lowest removed request index"""
+        if self.has_removed():
+            self._ensure_removed_sorted()
+            return self._removed[-1]
+        return None
+
+    def pop_removed(self) -> int | None:
+        """Pop lowest removed request index"""
+        if self.has_removed():
+            self._ensure_removed_sorted()
+            return self._removed.pop()
+        return None
+
+    def reset(self) -> bool:
+        """Returns True if there were any changes to the batch."""
+        self._is_removed_sorted = False
+        self._removed.clear()
+        self.added.clear()
+        self.moved.clear()
+        batch_changed = self.batch_changed
+        self.batch_changed = False
+        return batch_changed
+
+    def get_and_reset(self, batch_size: int) -> BatchUpdate | None:
+        """Generate a logitsprocs batch update data structure and reset
+        internal batch update builder state.
+
+        Args:
+          batch_size: current persistent batch size
+
+        Returns:
+          Frozen logitsprocs batch update instance; `None` if no updates
+        """
+        # Reset removal-sorting logic
+        self._is_removed_sorted = False
+        self.batch_changed = False
+        if not any((self._removed, self.moved, self.added)):
+            # No update; short-circuit
+            return None
+        # Build batch state update
+        batch_update = BatchUpdate(
+            batch_size=batch_size,
+            removed=self._removed,
+            moved=self.moved,
+            added=self.added,
+        )
+        self._removed = []
+        self.moved = []
+        self.added = []
+        return batch_update
+
+
+class LogitsProcessors:
+    """Encapsulates initialized logitsproc objects."""
+
+    def __init__(self, logitsprocs: Iterator["LogitsProcessor"] | None = None) -> None:
+        self.argmax_invariant: list[LogitsProcessor] = []
+        self.non_argmax_invariant: list[LogitsProcessor] = []
+        if logitsprocs:
+            for logitproc in logitsprocs:
+                (
+                    self.argmax_invariant
+                    if logitproc.is_argmax_invariant()
+                    else self.non_argmax_invariant
+                ).append(logitproc)
+
+    @property
+    def all(self) -> Iterator["LogitsProcessor"]:
+        """Iterator over all logits processors."""
+        return chain(self.argmax_invariant, self.non_argmax_invariant)
diff --git a/v1/sample/metadata.py b/v1/sample/metadata.py
new file mode 100644
index 0000000..b1101b1
--- /dev/null
+++ b/v1/sample/metadata.py
@@ -0,0 +1,44 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+
+import torch
+
+from vllm.v1.sample.logits_processor import LogitsProcessors
+
+
+@dataclass
+class SamplingMetadata:
+    temperature: torch.Tensor | None
+    all_greedy: bool
+    all_random: bool
+
+    top_p: torch.Tensor | None
+    top_k: torch.Tensor | None
+
+    generators: dict[int, torch.Generator]
+
+    # None means no logprobs, 0 means sampled token logprobs only
+    max_num_logprobs: int | None
+
+    no_penalties: bool
+    prompt_token_ids: torch.Tensor | None
+    frequency_penalties: torch.Tensor
+    presence_penalties: torch.Tensor
+    repetition_penalties: torch.Tensor
+
+    output_token_ids: list[list[int]]
+
+    # `allowed_token_ids_mask` is a 2D bool tensor of shape (max batch size,
+    # vocab size).
+    allowed_token_ids_mask: torch.Tensor | None
+
+    # req_index -> bad_words_token_ids
+    bad_words_token_ids: dict[int, list[list[int]]]
+
+    # Loaded logits processors
+    logitsprocs: LogitsProcessors
+
+    # Speculative token ids
+    spec_token_ids: list[list[int]] | None = None
diff --git a/v1/sample/ops/__init__.py b/v1/sample/ops/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/sample/ops/__pycache__/__init__.cpython-312.pyc b/v1/sample/ops/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fcc16870f9856d6067cbabe812e8fb2fea11e969
GIT binary patch
literal 163
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIq8?=7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>K7;G7UZPr=NA;~$H!;pWtPOp
k>lIYq;;_lhPbtkwwJTx;8p#O6#URE<W=2NFB4!{90Add(Q~&?~

literal 0
HcmV?d00001

diff --git a/v1/sample/ops/__pycache__/bad_words.cpython-312.pyc b/v1/sample/ops/__pycache__/bad_words.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c83fa518121c59a86e82c5ec70b05c29fa7b5d3d
GIT binary patch
literal 2096
zcmb_c&2Jk;6rb^ac>R@4Qrg%~9JeB=V$on|+NKsMC8B_W(v&vgKm=O3-gUCg`a`>$
zHYsZqAr7vH)K(noNIkd`2Uoe|PvD5e#hZv?t#T;POAbhm0v9guX8ch%d|i0fjNf}R
z?>95Q_uhUN2zU{Q#(t@O$|LkMF<L@bz&Jn{p$AAtGS<*Mav=rFu1)X}nRm&If^I<U
zVUbyd{J0P-kRfv|OXg*q7G(Dq>^%Q3(QbuAbReW%ZJZ8o6HNd#;eSB$v`(bBUfBz{
zo>d(4?U4u0+-67BY}(<q+=6Nv&XMa$S-O?eWkWJ^OG;K!Wy2BkNyBW|26gbdVlM01
z6hk1I!ofeW4}OB_0kZHV^vMl`3XIug79opivE1QnGcV)Y5V>>-Asw#|cI;?J!4Ak_
zfwdT!GFRX%R%U1fZ@Dbi2RRL+EM7nb9`+!M4Woj)1Bw5e^W81q(g;F^>wWY&ws^};
zExdl+bit*lSjgfgKwH;Xw2ETv%pQ5z-X9=3*%Wg*jHYBAQJTFxIX(T(?3^@x<-Mu7
zn4lA0be2qnCCA?)nUWdE>q=T(ksx-#Tyz3jn`~Hi0?CxQoYbVoCP!3O@=D57<fg+A
z0PuKIet$b|X7cg8njbZj`hsGPt}Kry&M%ECaZSA*&##(`xorHVre)$cUymEfOkPvs
zxx5i?-N$$}zv@J!WInI0N^PfPsM!Tg0f(7d)O+DT4-DfjOl#=Ci$bT0{#{>J(c1A1
zJT%G|ccNokNjo~e?HjN8UwRhoFHP?RW0greI9d$Uf<xtNc5no=iK%ZVw<j)_#7d;n
zRT1sr`ReS4;18cHe^v=p!{>_PGqLyHg&pz4*Rz%A&TwK|OjLzLRZKkf1xr_Ue6Q>d
zjTPU$cVXLqVm}1;IDjjm7pl??4qBD-ppdG((XK|aw;`L&f2i0XLLWmi3rvAE+tm%3
zXGo`7EL0iQHk)f0t%qqf;2B6ir<zK}pbW*h!%4@g6L?N3w3R_>fo4wc0nHH)(XPW?
zPy~i?8m2W=_oB#aKMb6;2hKhj7`KIB5f?A)3d7}e<?17KEAow4{otzo*0t}2*?k5@
z&g(}AYIk-yBguL)-D=<zsl%3#L{fUnpui^)Lv#HXMTsUwT!HVPh_UF0vDHjKWk1m9
zHpwHY0Ew*SCM`~>qz(Jr?jSV6lATSw+X2$>>u*q!T{DeFWAvi{<8XR1yP!1aKHOtE
zImGc8&<7^8(TaWyY`u><8*G5{h307_q5n`4q+6=F*x=952O<0<3?l;*B*c$;de^3E
z1M$CPB{W!##<#E?J^ds!R-D@P$7<cj?yZ&+cHb$xd$iUasdY!op30Pc{H)!5?l(6Z
z=&Ca)d<HN*z15?`<)nRd#1=;Gc=p9sE@NJYGjn=s(c#isE@|pM@*I9n$r?G`VKvn-
z9Y)QXlo5xO)s#tVh~E1#qV>>tr7)4n$;+DZrcRziI>Pt`raFT$J`fNN{Mg%9;=dYQ
z6YG2rK2!7e+?~ENU1val8j6(U^4NyD5v_Az*Lid-TzdKbM|C%`1jKs}JVYDe@f>bP
z5`%=M%4aHUW%jY>(Z%ZEX*)Dl=g3k6WvFCq#O_OVH+40jsM_0wV{ItV{{abB4gnF5
XfcpANWB1j%hge>?;IBT=C>?(SMx*M!

literal 0
HcmV?d00001

diff --git a/v1/sample/ops/__pycache__/logprobs.cpython-312.pyc b/v1/sample/ops/__pycache__/logprobs.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4b90294d48b91ca45756f3da8334e467154e3dfa
GIT binary patch
literal 1306
zcmbVMO^6gn6t3#oomuzKTwG9Ac{wcD$=b~d;tvwg<QDbd&t(WSy<N34wOd`)R8{Zp
zhzEs02wuFIV{!^%#dC7<nvjEvg3wpV!P}U<<&wOrnehiq4k_sBSFieg@2jug>)#g^
zW(f{CbyqxW5%SV6CZjVp_8+2gpD@xTjIv15F2#3CMrEtpq9h`mZq7`C-oDusZ*2zj
zw?1z@nBI#<9@fUl`S*AIigo_QKl5S#Mw=b@dTMVB)a?wSc=l#;O_v;MC!}zKTiDPB
zr0!KluiI4+s*p7ks^@*e+2oavz7o^sqoOv3E0<L=cNkP&kE5o;1}ZN_(R9}HVv8%*
z(A}oJoy(frrfs;ZjVi{c3N%nl;-CFbaJo-!ky~`@D?&DD*nMwebZ_jvM&c+(J;^NK
z_*~b@S>TeFNXH^&;Caypqjx}Wz%ICc?jScDdWPqY8}Cp!aVRt%!B$%N69%wA)kBOp
zCjd7r2d7QZPYPXDLi!c-xZ(z}0D*MnL@91^23y=HF1>;Q%k>4yS*yYctrF0f(d-Dz
zQB?;!LP{tCA;=j+?X}9$qbq+2$lLQ1s;b=xiz};*#e58kyhctXFSQwfuoksVX2Vw(
zOwXPRmKSChj*p0655e&{xBw@=02fw1h3)4RhvVzHEBcwmBdmhTCOXE+8=#RE{{w9e
zK?2IvaP#kQdzYB!wf5h<V${p^$9LwhdqnQl-#D-qTedFa$h5IujPFM4OAO$zi>WKC
zv=Y?`mzy4UCwA-8XU}Y%=BX6xX*F<tt<r5N%XE7!wRu@dp6be`llo7pL31R?!&z4N
zI?Kj2l=&Jm3z)`tu04#?Z8AJY78dU<ef#B$x#g#G%impnHV03pU>`S0JkxZtjOilF
zn(1)*X3=L(ChcR5?}Mf@uCivy3eN}AhN{aZ4b>jqX2|^$F^d>v{J)`@IbUj4Oa7Tz
z!liE&+r??vqLjXF6ME_;ng4@)I&72Z;O#@-9KCb&o_n%#>cz^Xrz@A9)62tXk$(LB
o%8#o*tPTm9KTkiJ|7AXyzaDzL{M+)M-n-u-(G~jIe;acD0|gUk!T<mO

literal 0
HcmV?d00001

diff --git a/v1/sample/ops/__pycache__/penalties.cpython-312.pyc b/v1/sample/ops/__pycache__/penalties.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3f71f96a9ff6eb2515e54af9c2fb578b9024d569
GIT binary patch
literal 1925
zcmZ`(O=ufO6rR=oXf3TICwArdhk9#zsElK^G}ujv)1;x7;<Sf`9!y|aYsdClvp=03
zxsh3e1BDWL2st@E+1KJgd(5?`w)9Y&1R@3p0&NeuEjXuM+Bd5oix5AdH}Ac9^X9!b
z-`hV5g&YDR$`9_nEJA+?rAx(*aPqE%&<=8tBN4PD)(nxn%u+@YvP@)8SyED2A*!b>
zX&|c@t#{9N<H71^XV|l6*!45)183NCScl)hDBLCfPX5h)D@DinPFc!1ulpD9fK!As
z<-Vjl;+e5@rv$N#rc@bxDSW@ENW5f+A!%A6_HDvk9D!-XjjYi1Ef0GEZCdt*?Gk&L
zVAvY=>^im>_M?DW-@0tg3T=mLBv^G>#0Ntfcp<Y`P{+RIIuSn~QXFBwhEFfxLn{=2
z(*R@Nt$di`5Hpv#f#2sk7&KVe=ntq-%o^0MX?<nuAj|MSc?fI=#b~{6vn$@tAhe}z
zWts3yDOTew_$pofbUo<!Z0WJS4q$toV%?GI?;#Xt4<M=_39*5;1XdJFu^wk)IaUrj
zd47c|na!Iy6X-hh8~SW^J2PYU`eE9>W1cp`>^+Lf0+X#_v)$*}G|tQafGR3iqcuCk
ze8{Q={syL^S)B)pxaQyuw}!dl*-;%k){0ArMMZU$0V-0XqB<%XNJais%oxoB<C4X5
z8$r!pwjy^E^HTpyL>7yLyC^56e{WQo7gj?zyvS_2irK|Gjrq$T)#q`QxXabB$<_kD
zx<QCn-T0sy*<MI+H3*|>ufo}|$%oodv?0fyosPggBB5vr*fvVa=&kXc#RrRbZ*E`T
z-aIZ>4yQkU{P}O%pM~EGPs(3!f0-1KI{ZvAj}&u%^5;*F-kE!xd#c>{J3rRai!J>^
zOCM?JAdk27iIYOs&=QnYwG)Vr=&)etfYo{^0i}m82Fea%@R4bgcxgvs9Sop1Vu|(e
zbI>{UD085;#Vt9O*L%3>Y{L>~9Ql#b#TH;k-Mp5*`Hl7yr&w^@l@&~}&rIS*%yevK
zn-Qap8q5d4OCTm4)2Iy>F4w|FMd30GY+52$9o7Wk<W5KZ7EHL|!vrpqpjLPN)rv|*
zs$69Ot*vp@_1WAdDkg?!SWr<?sGN3<55I<zb^^j*z=Vo#6&>udX%M1MfNi5!2AX&u
z-X_sdVWd?WJ}wU3uivX54^2NAnt4^yC$vN5LUJA%=Cl0NQGRNF?y+*1pL&vCI8+ws
z1&C28&`DUhDL^*s1r8<_zJqHG$b6RAO-!TN26IW2qMwhZZmD55BsN<KsAskJ)9T87
z`)Tc+&9ocZt+Xz#h{kgnnv$Y4?P^-yk0{M4t(WUpAe#okSE(piU?=(sSRzZ3bfP1v
z@DIB394$OY^NBVgX)WX2{l$BWi45|K^7syUKoS*XXwB%`d&aJjWQC@qvB|xO-HBvC
zXgM@)?#=AZBzd73Xk`51rG0t#@`E5L2ul%Z`R{Mvy?s&=+SQVDwN)PLxyVBQa4t#L
WYoGmU{9>f?3pFPWy;5O6E$DwwKiC2Q

literal 0
HcmV?d00001

diff --git a/v1/sample/ops/__pycache__/topk_topp_sampler.cpython-312.pyc b/v1/sample/ops/__pycache__/topk_topp_sampler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..de5955516c22971d3b2fa67e7e2c7dd9bf74b9b3
GIT binary patch
literal 12753
zcmdT~TWlNId7dGM_lrnNlr34ZMz+_oEL#^}cD=TDy|OGjwq>o?vXe&L1vBCdWlAK6
zJ2R9ml}hDwgQdD#SZ-Qa27<2g6uB0#ULe34Xde=!K!UapoTU>o0|#}{?L%G)rFPMv
z4^9973}=SoQqJz8dB_2H=G@QWIsgCtmvjCp5b#nElFWOF-*!{fzhTA*qy{oi|JFuP
zcPO6X=_EC-f9aHM+(u*Cmb9msafYPrNk_^#?j&g@=}NiB-6ZWudQ#qTFG)L-zLbC5
zp9+izXv#(jULkm&)~6hAuu*3z-t`W}y9L`6Yb?b2-nUm;hM^}lwcDyOQoLu)YmCSH
zpv@km#`^O9`sHzk54^+NuQVKQ+O&VLet({xb5RuE@Z8$X=63U;cbM_W7oKyo@tk}Z
z#%t!cY_gh0VXLqW>JD1_Vx;1>7D#ToOHRHCMsEGWEB!pX^W|6N<s-1F?Xz@u^RMua
zjCRwSYetadgqVgTBcx|!`1(i0$&4gU$QMOkfV?k}PAJi&I5{au-8RiPl*tZCv1`NW
zY)T8ovXUgEm1ri(DREIs#f%-oZ=jNS`X;c)yTBj<HBR%?xQ(aB?R<c@2@G%NnK+ZD
z;xzAgCot~doq}^JSUrfI=3RnY@IYPDXX`45;ohVtLr4z$)*Dx^wF|!b_4P}6(o3H=
z?&ZC(t^PmAmHS}jfj`KV`(fq5JavN}Zy2MxgIdECF>?Wam&UkMCMigBA9+~_K*QOj
zz$(``h0O>OlBmpz83jn5OR|cXIWWy~X`ZAqY&?-v1Syf8WaDBoDP9+Nc4C%{b6rSG
zUQ-}1L2EI^$~X%)6yq$gMnaK$y`<qeoIM3B!QmV-o8o5KY=-9)T!c_*%PK-z79}>3
zJ^+jp6M9KkEdV1C&Womi^)#m>C|M~z8UyYz0|P09_^0nf>0i@#D8;N=wCAY5a8Q&1
z&oq^zb5zvqouherhL-+Z0SMN^l-o#IU!%7)qZs0in(|xqMoK!YnEW&qHcG88Z{zK2
z%>Byjuoh}+i&bl+V14E+iYbVow9#lWOI6LY)hM;TyyJdFIFdQGSv5xLbIoDxNvqM%
z`kH%^soJ|XtKLW%?dEMco3g_wonnoY^{uMiX_XqOxNU}#+F{4O<iCNQbp-$C*@rJb
zXSZ|oo=pn@{l)}Y7I>5xz!ut;4JCxU=k{Nfk$27{Ir-YTbX<^t-=qo;?x}F4!C}3c
zb22GTa7hqF4ml=fgt@<|>WD0y>C+k6=)xvsmYd-cNp1poe<G`}d_u-FvNOvIaW0!w
zdf72SVZS;uaxr>!Y&d#mWN_>&=SI&AUyhCqUc59ieEF3DSP5bUuqn&M0T@^imWlW*
zE}e^k<l|zqWZ|=7R${M<(sWYfc)7Q`2^N|Kw9(wrC=s4f$p=R(A-8F+gdB}!c}_x3
z*0w)q0h&`6x|%1Ej*C$-9TPM^Y}9p5;>i%2tCG{ayfBfS)SCp2CTW168GsR-Fq74q
zCItl(Q4XYcLJ?vBE`o$~uQ@KC8yotn=DPIy*M=`&8q$2m5ZEuwWirXxC~R?bn#7rI
zMq^|l87KcrV{kmp6OG2;IOS+m#y<woyYN33`jk|rFO$d|P&f%@KX4=a(#uDuUlRI~
ziHW|<ta43E_st}eslJ(kK5}?MpO}&HG|5bvs9q@bW@aT6{Bzr`Y()89V}ns0lOq5G
zzgeIjy90|Z)xGVJyS3cDFVDbt-Ax5r3!N8K|AogPwiMc{hW0)R?fbN$vDDD_NkiYK
zq2^MERYPpK=~TIO=emOmcRr)+;VsaS-CgSFS3CNbn7{Hr+ehs@lxKeC-tnx93U4ii
zI@M6;y3H0DqMz9rXznG=52_spN%J<dc?%WXQ3~u<1G^su_B?LfRcbt{HXbcD9?PGG
zIYLd}^_8}DtJ}KQj+c5~ReN47Y(1$qoGf?jDs`Bn`Hj)mJ!G0bwWE(r<2EZCR2y5`
z-m7l!&7XdM<kQZBWU)_ScPK(m$dTSjAuULpB1*DGPiu50213IOm?i=y2)lU)VY>pa
zW(!DwV6o>I!`7Gw!7}fFmZqq&+VZyPy+Hc*9JEOHZ_>t2+H~gVsp^$f2H_dSX^dA-
zV68a}Ap>imr;yWX!WS69sTfKtm2>87#>hEG+y-ifb8dl1YSb()&0Z0K@DJ!*#wIq%
zeN+o{OtO><1Dz_00*-OzGa3P^3ll;`W8iBP1ne>@HNd}<LJ<Axw-5kx?R+AoIe29@
zBXqkY6el`k`T#znvKUuV+zrhE#|>=iiUUR|hYo5kqavVdG!<5Z0e0a4aAuSQ<}M}e
z!>9)$Eu<qlU_eyYOf(09a~UxN*9JjC87`q{oZC^$s|Kj(J9ZM<$lr!&fm+{2ZD}rr
zyVP*ks`CN;V4xU2l6RK3cNE;)%D#q@uU+-E7dj7p;yYCCctQ2Il>^~YphFFG6n4Gz
zN#G?YEOiX19Rm+0{=xB+z>fljj)7vwXaO3An(qW}2UiZRUH$N_dv7fTi=pFr$K!^!
z<*O^_iw%8+fx$w<V8J~ob-_wD@Bz{s;e&sK1n_}<!Ioogf?$_=;1{vft|@F)6L{MO
zrKAp30|(g%4<TAY7(-4o>0B?vn77Z+vg<s>n^yO?XvJgH*QfXUm1-OxXt**1PZJt;
z%pJcdN&-=WQ;9i{i8Z7P$Fw=^j?N{jgl~WE!QMkXEH4T&n-&!oq+Ujph^Bo&65h@V
zvcg(m)61UWl0<2q;9}D#T%XHBy%Oq|b4RM?`^-c-9il+iX|oSLgeJS466%W5c8ri5
zb(RRnQRM(}Do7QA*Ss+?tt2M1Vpi^UY)bqx9$^)Qqr91G+l<0dzF&bB@;4y@`fjEI
z!Th=9&gJfV-d{AdJVt3_NRA_h;Aq-bYTTnX?pc{xoqIU&kSjL6R`9=8MiJGiHgp!c
z$JB<gb;{=Pmi<Fd?eHx$j6L&Hq0W`&Qs+Un^I);_@B{8)_#sgC*`GEQ8ZH*x7e7nb
z_)iF7p9i@9Lj!olgm)n9ieLgJsAHe-PCTROm*D6F3SuS+Ioj++ARYSFvt2&F$Z=L#
z1oiA2r!n8WE9aVu80)aU2D5_oVw<XC-x&3$skgu~K~KuOd)||C<=puH>W!H5thtO?
zY3ltp21MBuHm(Udv(*%`NloCHHMcR!RC`S&WC4(j{nv$~XD;t090JjE8T)y{k?7My
zm#+T52}$VytX1m82(^=YwB|7p=^ichL0NZ$B{Zc0Y>6H}=@3MkJt?F?o4>|o1g$wH
zrZNezBBC2argRt^dWBR*nT;kB)1agaH!@-xd;ke98Py!1Yo}z5;S)1a%?XMyieqLb
zAzbhFZi+Y3i?{?JUP`0i*64)v3M6GTm5nVnWNjyu&28Tli85Icd-~z5exHK&Q(rJY
z_uk3n_y@_m$<=|o;wQcXj~lyJ_Y@lk3WtUYjY9?h(37UtJEONpSEL_AK5qZ0eQC7V
zbTU8uI26%!@0Ca~)RiAB`vbQ|7e^m~^k(;!*nXAm|2cc`wttCUdbu15FLmB#bo5+3
zR|s|fEcD{Ko$5Ta?xdPp?i{;)Y?=GcE2YLRwXtjURH3n}*w|NUJghbzesH<ic(icr
ze4+7t!GE5>B04)I?mAkky3h!r#g^t$LNuy*qv(YJ=Mkj+(dgS*E?KE@MWehJi$*0x
zQeu}7g3+8;h*t+sI;Lp$L|V~2XAM;w6tFD%rHCv-W|Z*Yv_QpdiV4YNG}=u|FW_k*
zW4)%UQh4MNMhH{#H=*V??@+(CIUMd^2X{LTtt8he`23XlFZ`^J(2b5$^pjBJj{mlQ
z-GLd{m`KZV<FfF9cvmd698jBj*IlH-P5HyOPAr~S-mUs}tb0hAcSD(vl=&%dLq2;e
zx0qYL`oWub-&{Sdw)Ynr`c==s(*S9)uf;KH&5D`2vyzIMSxH&VtfcI@vyv7swmB|X
zvtp+1tfZo5R#H|oD=B-<tp6Rr7KCuffm{Ldaq+W26p5IwFQXKS;n^7hH7_D+{{s@6
ziCUgk5Sd7rs_1G)9=~g*6*5mNrmk5}SG0s1I-sUZEzugy5GLpvtY<0ZOrbhu+Cf%t
zo?f#Xpg(1b)arVp7HlPEv<iA(g+|?Of|M4xN~fSy8iEK-m>KB|X3t_vyS|?Yf6`YV
zlJRc?@aZfuh{YH!Vb#|mTA-fzw;*UNOKXu2+wZmKM~nWK7KXtSP;zerSHN<l=<Zk;
zEHjRGM{kZkVw%dn(5;sjUtW6Sy%Qzh4xs;)g9YD?qHj;h*Q5G+R!<dueFdgZKka=u
zVGl$xbNeA<8VD!g_~3AD3!xkhMgpkvib(`H*l5FuBr1OO2rvkSjh<2>;qCKGj=rhn
z>~#%d)8h$;h_+WvP|(jr!W05WO)!pV4(h;Qw%0vqN6u0AfE{b5K4bhV93$tLhCLvo
z)zPMM4#o85@}|z=ql^(y^SL<*E2*O$@iuG5d8cLgOf}d1Ey(7aye;Pht);TZsB!TQ
zV1#<4TJ=wGC#FHSns@W|oSO${#<y*}Ep9u3W7_NKhdKA}{73eB8W*gO$=TOD<_f{+
z16J|Q{qrFD*gj)+r8s$7MnlQEIxwyo;w(p+XVBT11%K;)Xavc4HXXy82ljd*nPlOT
zL8<Coxp&x4^t9{O60vJ+j7y`#L5AB7qI)ILQ^!tlO6;0o+-ZD4H-*mlXS!`fyF%Zj
z923$!SZTjPzK{?MP&~$s7IrbK0MDZ?2HH}Z7j9^FS&DTBv{1G0QA{Ui!SM)x31YBZ
zH5>ReP*u~Iq?n!rKQRaUBx#;(S_a!wfEIq-K~UJ>Vh1%b;{4F{HD@fFlHmr^CC4}g
ze7oHq9dk@x*U)_e?lSP8z=YmPCc)p(yx`dZS11mxd5PknxA9ccFe+)1Ax&h2VN+?-
z5o{+E5uI}x67n9{6{4HDJqxpCpFjU{xv?dG@tKnfu`AA1y4bL<;NJIS$L<fN?@q5y
zJiNL*UEDFGGTRp}EVVvyxfkZ2MA%Z~1vT=*3RjHmT^;!F@V&!7aD43j$Xo0=u11dM
zy`)8#8tGc4SC5r?PO3d8e>hm^Ia%yEQ;eL=d&?1a<(L{d04aB4$<3;6cBOSqcrbiF
zx%$>4_i<~Qy(-Lbxe(b~jP&Qdk3s1gxjnMd`e4h$)<;dJ^PX~K$4ci4_x<VbO+VmP
zri*)ysymOWk)yDNw$8lwF9((;mX4_ImiqI61P`{90<0QfS1yAc{3nF~TMS%SI8*k8
z7b?aqK#dtp5Pk@o2p|j>UQ=eJmEdVqxzNi9l98_GvB|-uv;j!-G_*nGt|l1La~`~z
z^?(;fr~rRG*=yATxKnkduN@?;DedbSwRNG4&N1~s%2=)WuMpHtAh!NmeNDkytzyD5
zZ%Y3S;7!#XmC}X6@9vGd!rXTWBvqpzvR7T`yMi!R<Fi7?P`V3mYG%ab48R%iEP90y
zH_;9Qf7gr{<0dNT`2_(@8i(B?uqFL5q`H05Yw*#0Rp6r8iB%_OC%`v~l?;HywC0@Q
zlHdiCcqo!$7{xJ~ga|xT#L0?)qXp7p<${HviU$VM^O|cKu8;r`r6jbIk=%7G(Sali
zc?qK*W9`Qf5pPqZdAa$6w!3XB+}#efY45_tCvMNJz+zx2wem*M-35wJD166p+wmRO
z!a3l$hS06}VjOg#L@C&*20K?ei^1IsXUpNOcedZ&zWnvo!KLlRaBnGmL=7J)g-@vA
z6A$0`q3b99ANhYAEQViSIRAtRmYD4TNy`^YZHLshLk|XvZ7=?P<YD&j+8zcTF=xt*
zx5R8!nXSvtl~#3Ij|nZzaf`Ewy-U2#^{>2NBRp;?SM}~2a+JY?^ESogVM{aK#LKGV
z11OwQs6Ia!+=QC5bO89@2b*0Jj5bxS8dT)K&x`0&4-;|>@OuR_Dy|x;o<dfom)BEf
z@S@#7o;nJc#kas~j=Aq$CT|!(-_Wnu*ti5Q8jw{`fN>LvWI{=p!vAY<8zJN4g=*y@
zk(L#K<8@CC+$;2^;6^o(7E|Ey0Cgh9kuG@SP+dcKoYcuI_;?PSy>yk8XVbB3l9*1+
zkp~m{O9<kskx>8AZ3tpMcy!C*6qe%U0bxR7K1ioAJB-m8jED{4u&9aH5YjoUB5o8U
z3&KS@6CJ?{j2^>JejlO*>e&{`6Wm}sJo8d+U;fyi{ps=xAN1Vq0oLmM#I?5!j1^oA
zK5}pSg)0oK)ZSHU+po6m|9M;Q;z)ilKMUTBJhynd<ZoB~?W>-Gzx`+agW$1f?|T9!
z$g#y^OWb>}lzbhkuVdv@!Pimrb(MVkRp0*A%SB&*f$7&BxD2ey2&T;YU&0Tdu-cN;
zJX2*GR=2M70vUn*YJx#E&+lu|532c+&r-uJC*Ze0W-b7&FWAmgB>h@_8OJ*m(^*^Z
zK^Ca{75NV41T%&ATs5Jtv;j4rcU7tW&NK&W`TecIl!?~ja&Y@tvxbgM{=rtOmytq4
zvGN}(r#J7c@3yrbyZ|?QxCz*<G4kfg;$vM|1-?ZYXx*Pwq~936O_G&F3~pm)Yt07W
za=5rjfZPJPX~^GiY;bsf!!$B<Zv6^8l!BKLbw-MF027i42nhwAWrzu0-XNbVi`Ab*
z5r~*caI7Ru!3za6WNPkBM_<1(e2m<jg4K}8D)5{O?pimX6EBk6sI-7DQ8+09NS8u`
zhG3l4i_C?vx9Q(w&nYZg9qeS5gDp@5xaT5I$*`9(5GM&_B)NK9t2VK+>&Ch_!e}g+
z1@mY#G~CaEkp@p#Y8FVQGw#BA*&#T`njL`GZn#9Sy7b)<(6+;OBWwoVXyCD?;9&}0
z|CyUm1H`NdM|uq~z6y~?=N#n5Z*It<DSQ)y4@lWpUtviloE*@P1ow*1y+~v&?+`lD
z0=xi}f{Q}J1k2BB-PB2F&%<3aC&_~5i$*Imf?w7LukAq78<r$ds&Ou9Zi8;L7PQwY
zZ%Ke5qA2d7#8%U*ruD19nkuxejR!9^4Rngt#f;0+;)sh#zckOmigoXOFfH6rK$n{q
z(ovv%8T~c723PTBy^KvUdImq40!Uw=p6;a_&7Zo0@6O+xUm7n(delfy(Y1f=`iJxP
z<{y5o*f;!%Yxr@nrR;wLE&?08<W>-#k%YG_d6v25M1k2`@a-*wX*m0&?hSakWml<X
zzuL0D)N)2`IaBtBmj+f&gIH=kOFyM-t=`2T2s5uQ-}2@Ad#Tpl#v~WjmWyTomZia^
zw^tdQW>lXhAB0u=TXh%QvQ+f#EHFEX#OrR;O?x+ax6qqTYc}|KGH`RuO~O&>M8V+e
zA^jy)7?ZtlnHx_`_Tu}=B=OH{K2i=x2G5rz6oFchlo&6TW%2}yyv>p>;8`FzYfk;)
zC~@>^uFA!a^g7lLVzd(@qJ3Y&)EgLG#)v2rc%1hr-FdhN(wh5(ewXm7bPKYms>ve6
z>vo!^pL!`e@JlN4ORD|fG2Zt}YS+I|NB`B+wDd<s&yEG>Gv^#lU!a#J?j&v}o>3&T
z{!Ke&YgmZ9+kUfsNqI!Kt=ky7f91&cPkishIt9rG!yk`)H1eOAd<sq5N&R|oFTDj0
z`_{<f$hsZUPh9?Yb2oEKyy|LQcR&H0x;tPMxv<DhIeqWGdGpPu9?X4}Zmt>w(v>mR
z9gv3Zm9{R-9gNTe=xK#ZhIKonpM;v0#z24SyW3ZYbgQ9#>kcTb>V&!eUV4|gMo4d5
bBNWuG5sQHKBQ-;Nu-sc&&odw7$btMH1FQmG

literal 0
HcmV?d00001

diff --git a/v1/sample/ops/bad_words.py b/v1/sample/ops/bad_words.py
new file mode 100644
index 0000000..8e2c798
--- /dev/null
+++ b/v1/sample/ops/bad_words.py
@@ -0,0 +1,52 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+_SMALLEST_LOGIT = float("-inf")
+
+
+def _apply_bad_words_single_batch(
+    logits: torch.Tensor,
+    bad_words_token_ids: list[list[int]],
+    past_tokens_ids: list[int],
+) -> None:
+    for bad_word_ids in bad_words_token_ids:
+        if len(bad_word_ids) > len(past_tokens_ids) + 1:
+            continue
+
+        prefix_length = len(bad_word_ids) - 1
+        last_token_id = bad_word_ids[-1]
+        actual_prefix = past_tokens_ids[-prefix_length:] if prefix_length > 0 else []
+        expected_prefix = bad_word_ids[:prefix_length]
+
+        assert len(actual_prefix) == len(expected_prefix)
+
+        if actual_prefix == expected_prefix:
+            logits[last_token_id] = _SMALLEST_LOGIT
+
+
+def apply_bad_words(
+    logits: torch.Tensor,
+    bad_words_token_ids: dict[int, list[list[int]]],
+    past_tokens_ids: list[list[int]],
+) -> None:
+    for i, bad_words_ids in bad_words_token_ids.items():
+        _apply_bad_words_single_batch(logits[i], bad_words_ids, past_tokens_ids[i])
+
+
+def apply_bad_words_with_drafts(
+    logits: torch.Tensor,
+    bad_words_token_ids: dict[int, list[list[int]]],
+    past_tokens_ids: list[list[int]],
+    num_draft_tokens: list[int],
+) -> None:
+    start_idx = 0
+    for i, bad_words_ids in bad_words_token_ids.items():
+        for draft_idx in range(num_draft_tokens[i]):
+            _apply_bad_words_single_batch(
+                logits[start_idx + draft_idx],
+                bad_words_ids,
+                past_tokens_ids[start_idx + draft_idx],
+            )
+        start_idx += num_draft_tokens[i]
diff --git a/v1/sample/ops/logprobs.py b/v1/sample/ops/logprobs.py
new file mode 100644
index 0000000..cf36d46
--- /dev/null
+++ b/v1/sample/ops/logprobs.py
@@ -0,0 +1,25 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Some utilities for logprobs, including logits."""
+
+import torch
+
+from vllm.platforms import current_platform
+
+
+@torch.compile(dynamic=True, backend=current_platform.simple_compile_backend)
+def batched_count_greater_than(x: torch.Tensor, values: torch.Tensor) -> torch.Tensor:
+    """
+    Counts elements in each row of x that are greater than the corresponding
+    value in values.  Use torch.compile to generate an optimized kernel for
+    this function. otherwise, it will create additional copies of the input
+    tensors and cause memory issues.
+
+    Args:
+        x (torch.Tensor): A 2D tensor of shape (batch_size, n_elements).
+        values (torch.Tensor): A 2D tensor of shape (batch_size, 1).
+
+    Returns:
+        torch.Tensor: A 1D tensor of shape (batch_size,) with the counts.
+    """
+    return (x >= values).sum(-1)
diff --git a/v1/sample/ops/penalties.py b/v1/sample/ops/penalties.py
new file mode 100644
index 0000000..241d9de
--- /dev/null
+++ b/v1/sample/ops/penalties.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+
+from vllm.model_executor.layers.utils import apply_penalties
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.utils.torch_utils import make_tensor_with_pad
+
+
+def apply_all_penalties(
+    logits: torch.Tensor,
+    prompt_token_ids: torch.Tensor,
+    presence_penalties: torch.Tensor,
+    frequency_penalties: torch.Tensor,
+    repetition_penalties: torch.Tensor,
+    output_token_ids: list[list[int]],
+) -> torch.Tensor:
+    """
+    Applies presence, frequency and repetition penalties to the logits.
+    """
+    _, vocab_size = logits.shape
+    output_tokens_t = _convert_to_tensors(output_token_ids, vocab_size, logits.device)
+
+    # In the async scheduling case, rows that won't have penalties applied may contain
+    # -1 placeholder token ids. We must replace these with valid token ids so that the
+    # scatter done in apply_penalties is valid.
+    # NOTE(nick): The penalties implementation is currently quite inefficient and
+    # will be reworked anyhow.
+    output_tokens_t.masked_fill_(output_tokens_t == -1, vocab_size)
+
+    return apply_penalties(
+        logits,
+        prompt_token_ids,
+        output_tokens_t,
+        presence_penalties,
+        frequency_penalties,
+        repetition_penalties,
+    )
+
+
+def _convert_to_tensors(
+    output_token_ids: list[list[int]], vocab_size: int, device: torch.device
+) -> torch.Tensor:
+    """
+    Convert the different list data structures to tensors.
+    """
+    output_tokens_tensor = make_tensor_with_pad(
+        output_token_ids,
+        # Use the value of vocab_size as a pad since we don't have a
+        # token_id of this value.
+        pad=vocab_size,
+        device="cpu",
+        dtype=torch.int64,
+        pin_memory=is_pin_memory_available(),
+    )
+    return output_tokens_tensor.to(device, non_blocking=True)
diff --git a/v1/sample/ops/topk_topp_sampler.py b/v1/sample/ops/topk_topp_sampler.py
new file mode 100644
index 0000000..02ea658
--- /dev/null
+++ b/v1/sample/ops/topk_topp_sampler.py
@@ -0,0 +1,290 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+import torch.nn as nn
+from packaging import version
+
+from vllm import envs
+from vllm.config.model import LogprobsMode
+from vllm.logger import init_logger
+from vllm.platforms import CpuArchEnum, current_platform
+
+logger = init_logger(__name__)
+
+
+class TopKTopPSampler(nn.Module):
+    """
+    Module that performs optional top-k and top-p filtering followed by
+    weighted random sampling of logits.
+
+    Implementations may update the logits tensor in-place.
+    """
+
+    def __init__(self, logprobs_mode: LogprobsMode = "raw_logprobs") -> None:
+        super().__init__()
+        self.logprobs_mode = logprobs_mode
+        # flashinfer optimization does not apply if intermediate
+        # logprobs/logits after top_k/top_p need to be returned
+        if (
+            logprobs_mode not in ("processed_logits", "processed_logprobs")
+            and current_platform.is_cuda()
+        ):
+            if envs.VLLM_USE_FLASHINFER_SAMPLER:
+                # Users must opt in explicitly via VLLM_USE_FLASHINFER_SAMPLER=1.
+                logger.info_once(
+                    "Using FlashInfer for top-p & top-k sampling.",
+                    scope="global",
+                )
+                self.forward = self.forward_cuda
+            else:
+                logger.debug_once(
+                    "FlashInfer top-p/top-k sampling is available but disabled "
+                    "by default. Set VLLM_USE_FLASHINFER_SAMPLER=1 to opt in "
+                    "after verifying accuracy for your workloads."
+                )
+                self.forward = self.forward_native
+
+        elif current_platform.is_cpu():
+            arch = current_platform.get_cpu_architecture()
+            # Fall back to native implementation for POWERPC and RISCV.
+            # On PowerPC argmax produces incorrect output with torch.compile.
+            # PR: https://github.com/vllm-project/vllm/pull/26987
+            if arch in (CpuArchEnum.RISCV, CpuArchEnum.POWERPC):
+                self.forward = self.forward_native
+            else:
+                self.forward = self.forward_cpu
+        else:
+            self.forward = self.forward_native
+
+        self.apply_top_k_top_p = apply_top_k_top_p
+
+    def forward_native(
+        self,
+        logits: torch.Tensor,
+        generators: dict[int, torch.Generator],
+        k: torch.Tensor | None,
+        p: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """
+        PyTorch-native implementation of top-k and top-p sampling.
+
+        The logits tensor may be updated in-place.
+        """
+        logits = self.apply_top_k_top_p(logits, k, p)
+        logits_to_return = None
+        if self.logprobs_mode == "processed_logits":
+            logits_to_return = logits
+        elif self.logprobs_mode == "processed_logprobs":
+            logits_to_return = logits.log_softmax(dim=-1, dtype=torch.float32)
+        probs = logits.softmax(dim=-1, dtype=torch.float32)
+        return random_sample(probs, generators), logits_to_return
+
+    def forward_cuda(
+        self,
+        logits: torch.Tensor,
+        generators: dict[int, torch.Generator],
+        k: torch.Tensor | None,
+        p: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """More optimized implementation for top-k and top-p sampling."""
+        # We prefer `random_sample` over `flashinfer_sample` when sorting is
+        # not needed. This is because `random_sample` does not require
+        # CPU-GPU synchronization while `flashinfer_sample` does.
+        if (k is None and p is None) or generators:
+            if generators:
+                logger.debug_once(
+                    "FlashInfer 0.2.3+ does not support "
+                    "per-request generators. Falling back to "
+                    "PyTorch-native implementation."
+                )
+            return self.forward_native(logits, generators, k, p)
+        assert self.logprobs_mode not in ("processed_logits", "processed_logprobs"), (
+            "FlashInfer does not support returning logits/logprobs"
+        )
+        # flashinfer sampling functions expect contiguous logits.
+        # In flex_attn/triton_attn fp32 inference, logits can be non-contiguous
+        # because of slicing operation in logits_processor.
+        return flashinfer_sample(logits.contiguous(), k, p, generators), None
+
+    def forward_cpu(
+        self,
+        logits: torch.Tensor,
+        generators: dict[int, torch.Generator],
+        k: torch.Tensor | None,
+        p: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """
+        PyTorch-native implementation of top-k and top-p sampling for CPU.
+
+        The logits tensor may be updated in-place.
+        """
+        logits = self.apply_top_k_top_p(logits, k, p)
+        logits_to_return = None
+        if self.logprobs_mode == "processed_logits":
+            logits_to_return = logits
+        elif self.logprobs_mode == "processed_logprobs":
+            logits_to_return = logits.log_softmax(dim=-1, dtype=torch.float32)
+
+        if len(generators) != logits.shape[0]:
+            return compiled_random_sample(logits), logits_to_return
+        else:
+            probs = logits.softmax(dim=-1, dtype=torch.float32)
+            q = torch.empty_like(probs)
+            q.exponential_()
+            for i, generator in generators.items():
+                q[i].exponential_(generator=generator)
+
+            return probs.div_(q).argmax(dim=-1).view(-1), logits_to_return
+
+
+# Note: this is a workaround for
+# https://github.com/pytorch/pytorch/pull/151218
+@torch.compile(dynamic=True)
+def compiled_random_sample(logits: torch.Tensor) -> torch.Tensor:
+    probs = logits.softmax(dim=-1, dtype=torch.float32)
+    q = torch.empty_like(probs)
+    q.exponential_()
+    return probs.div(q).argmax(dim=-1).view(-1)
+
+
+def apply_top_k_top_p(
+    logits: torch.Tensor,
+    k: torch.Tensor | None,
+    p: torch.Tensor | None,
+) -> torch.Tensor:
+    """Apply top-k and top-p masks to the logits.
+
+    If a top-p is used, this function will sort the logits tensor,
+    which can be slow for large batches.
+
+    The logits tensor may be updated in-place.
+    """
+    if p is None:
+        if k is None:
+            return logits
+
+        # Avoid sorting vocab for top-k only case.
+        return apply_top_k_only(logits, k)
+
+    logits_sort, logits_idx = logits.sort(dim=-1, descending=False)
+
+    if k is not None:
+        # Apply top-k.
+        top_k_mask = logits_sort.size(1) - k.to(torch.long)  # shape: B
+        # Get all the top_k values.
+        top_k_mask = logits_sort.gather(1, top_k_mask.unsqueeze(dim=1))
+        top_k_mask = logits_sort < top_k_mask
+        logits_sort.masked_fill_(top_k_mask, -float("inf"))
+
+    if p is not None:
+        # Apply top-p.
+        probs_sort = logits_sort.softmax(dim=-1)
+        probs_sum = torch.cumsum(probs_sort, dim=-1, out=probs_sort)
+        top_p_mask = probs_sum <= 1 - p.unsqueeze(dim=1)
+        # at least one
+        top_p_mask[:, -1] = False
+        logits_sort.masked_fill_(top_p_mask, -float("inf"))
+
+    # Re-sort the probabilities.
+    logits = logits_sort.scatter(dim=-1, index=logits_idx, src=logits_sort)
+    return logits
+
+
+def apply_top_k_only(
+    logits: torch.Tensor,
+    k: torch.Tensor,
+) -> torch.Tensor:
+    """
+    Apply top-k mask to the logits.
+
+    This implementation doesn't involve sorting the entire vocab.
+
+    The logits tensor may be updated in-place.
+    """
+    no_top_k_mask = k == logits.shape[1]
+    # Set non-top-k rows to 1 so that we can gather.
+    k = k.masked_fill(no_top_k_mask, 1)
+    max_top_k = k.max()
+    # topk.values tensor has shape [batch_size, max_top_k].
+    # Convert top k to 0-based index in range [0, max_top_k).
+    k_index = k.sub_(1).unsqueeze(1)
+    top_k_mask = logits.topk(max_top_k, dim=1).values.gather(1, k_index.long())
+    # Handle non-topk rows.
+    top_k_mask.masked_fill_(no_top_k_mask.unsqueeze(1), -float("inf"))
+    logits.masked_fill_(logits < top_k_mask, -float("inf"))
+    return logits
+
+
+def random_sample(
+    probs: torch.Tensor,
+    generators: dict[int, torch.Generator],
+) -> torch.Tensor:
+    """Randomly sample from the probabilities.
+
+    We use this function instead of torch.multinomial because torch.multinomial
+    causes CPU-GPU synchronization.
+    """
+    q = torch.empty_like(probs)
+    # NOTE(woosuk): To batch-process the requests without their own seeds,
+    # which is the common case, we first assume that every request does
+    # not have its own seed. Then, we overwrite the values for the requests
+    # that have their own seeds.
+    if len(generators) != probs.shape[0]:
+        q.exponential_()
+    if generators:
+        # TODO(woosuk): This can be slow because we handle each request
+        # one by one. Optimize this.
+        for i, generator in generators.items():
+            q[i].exponential_(generator=generator)
+    return probs.div_(q).argmax(dim=-1).view(-1)
+
+
+def flashinfer_sample(
+    logits: torch.Tensor,
+    k: torch.Tensor | None,
+    p: torch.Tensor | None,
+    generators: dict[int, torch.Generator],
+) -> torch.Tensor:
+    """Sample from the logits using FlashInfer.
+
+    Statistically, this function is equivalent to the `random_sample` function.
+    However, this function is faster because it avoids sorting the logits tensor
+    via rejection sampling.
+
+    NOTE: The outputs of this function do not necessarily match the outputs of
+    the `random_sample` function. It only guarantees that the outputs are
+    statistically equivalent.
+
+    NOTE: This function includes CPU-GPU synchronization, while `random_sample`
+    does not. Call this function at the end of the forward pass to minimize
+    the synchronization overhead.
+    """
+    import flashinfer
+
+    if version.parse(flashinfer.__version__) < version.parse("0.2.3"):
+        raise ImportError(
+            "FlashInfer version >= 0.2.3 required for top-k and top-p sampling. "
+        )
+
+    assert not (k is None and p is None)
+    if k is None:
+        # Top-p only.
+        probs = logits.softmax(dim=-1, dtype=torch.float32)
+        next_token_ids = flashinfer.sampling.top_p_sampling_from_probs(
+            probs, p, deterministic=True
+        )
+    elif p is None:
+        # Top-k only.
+        probs = logits.softmax(dim=-1, dtype=torch.float32)
+        next_token_ids = flashinfer.sampling.top_k_sampling_from_probs(
+            probs, k, deterministic=True
+        )
+    else:
+        # Both top-k and top-p.
+        next_token_ids = flashinfer.sampling.top_k_top_p_sampling_from_logits(
+            logits, k, p, deterministic=True
+        )
+
+    return next_token_ids.view(-1)
diff --git a/v1/sample/rejection_sampler.py b/v1/sample/rejection_sampler.py
new file mode 100644
index 0000000..75a7475
--- /dev/null
+++ b/v1/sample/rejection_sampler.py
@@ -0,0 +1,791 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import replace
+
+import numpy as np
+import torch
+import torch.nn as nn
+
+from vllm.logger import init_logger
+from vllm.triton_utils import tl, triton
+from vllm.v1.outputs import LogprobsTensors, SamplerOutput
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.sample.ops.bad_words import apply_bad_words_with_drafts
+from vllm.v1.sample.ops.penalties import apply_all_penalties
+from vllm.v1.sample.ops.topk_topp_sampler import apply_top_k_top_p
+from vllm.v1.sample.sampler import Sampler
+from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
+from vllm import _custom_ops as ops
+
+logger = init_logger(__name__)
+
+PLACEHOLDER_TOKEN_ID: tl.constexpr = -1
+GREEDY_TEMPERATURE: tl.constexpr = 0
+# Maximum number of speculative draft tokens allowed per request in a single
+# step. This value is chosen to be large enough to handle typical use cases.
+MAX_SPEC_LEN = 128
+
+
+class RejectionSampler(nn.Module):
+    """
+    The implementation strictly follows the algorithm described in
+        https://arxiv.org/abs/2211.17192.
+    However, we want to clarify the terminology used in the implementation:
+    accepted tokens: tokens that are accepted based on the relationship
+            between the "raw" draft and target probabilities.
+    recovered tokens: tokens that are sampled based on the adjusted probability
+        distribution, which is derived from both the draft and target
+        probabilities.
+    bonus tokens:
+        If all proposed tokens are accepted, the bonus token is added to the
+        end of the sequence. The bonus token is only sampled from the target
+        probabilities. We pass in the bonus tokens instead of sampling them
+        in the rejection sampler to allow for more flexibility in the
+        sampling process. For example, we can use top_p, top_k sampling for
+        bonus tokens, while spec decode does not support these sampling
+        strategies.
+    output tokens:
+        Tokens are finally generated with the rejection sampler.
+        output tokens = accepted tokens + recovered tokens + bonus tokens
+    """
+
+    def __init__(self, sampler: Sampler):
+        super().__init__()
+        self.sampler = sampler
+        logprobs_mode = self.sampler.logprobs_mode
+        self.is_processed_logprobs_mode = logprobs_mode.startswith("processed")
+        self.is_logits_logprobs_mode = logprobs_mode.endswith("logits")
+
+    def forward(
+        self,
+        metadata: SpecDecodeMetadata,
+        # [num_tokens, vocab_size]
+        draft_probs: torch.Tensor | None,
+        # [num_tokens + batch_size, vocab_size]
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> SamplerOutput:
+        """
+        Args:
+            metadata:
+                Metadata for spec decoding.
+            draft_probs (Optional[torch.Tensor]):
+                Probability distribution for the draft tokens. Shape is
+                [num_tokens, vocab_size]. Can be None if probabilities are
+                not provided, which is the case for ngram spec decode.
+            logits (torch.Tensor):
+                Target model's logits probability distribution.
+                Shape is [num_tokens + batch_size, vocab_size]. Here,
+                probabilities from different requests are flattened into a
+                single tensor because this is the shape of the output logits.
+                NOTE: `logits` can be updated in place to save memory.
+            sampling_metadata (vllm.v1.sample.metadata.SamplingMetadata):
+                Additional metadata needed for sampling, such as temperature,
+                top-k/top-p parameters, or other relevant information.
+        Returns:
+            SamplerOutput:
+                Contains the final output token IDs and their logprobs if
+                requested.
+        """
+        assert metadata.max_spec_len <= MAX_SPEC_LEN
+
+        bonus_logits_indices = metadata.bonus_logits_indices
+        target_logits_indices = metadata.target_logits_indices
+
+        # When indexing with a tensor (bonus_logits_indices), PyTorch
+        # creates a new tensor with separate storage from the original
+        # logits tensor. This means any in-place operations on bonus_logits
+        # won't affect the original logits tensor.
+        assert logits is not None
+        bonus_logits = logits[bonus_logits_indices]
+        bonus_sampler_output = self.sampler(
+            logits=bonus_logits,
+            sampling_metadata=replace(
+                sampling_metadata,
+                max_num_logprobs=-1,
+            ),
+            predict_bonus_token=True,
+            # Override the logprobs mode to return logits because they are
+            # needed later to compute the accepted token logprobs.
+            logprobs_mode_override="processed_logits"
+            if self.is_processed_logprobs_mode
+            else "raw_logits",
+        )
+        bonus_token_ids = bonus_sampler_output.sampled_token_ids
+
+        # Just like `bonus_logits`, `target_logits` is a new tensor with
+        # separate storage from the original `logits` tensor. Therefore,
+        # it is safe to update `target_logits` in place.
+        raw_target_logits = logits[target_logits_indices]
+        # Use float32 for the target_logits.
+        raw_target_logits = raw_target_logits.to(torch.float32)
+        target_logits = self.apply_logits_processors(
+            raw_target_logits, sampling_metadata, metadata
+        )
+        # [num_tokens, vocab_size]
+        # NOTE(woosuk): `target_logits` can be updated in place inside the
+        # `apply_sampling_constraints` function.
+        target_logits = apply_sampling_constraints(
+            target_logits,
+            metadata.cu_num_draft_tokens,
+            sampling_metadata,
+        )
+        # Compute probability distribution from target logits.
+        target_probs = target_logits.softmax(dim=-1, dtype=torch.float32)
+
+        output_token_ids = rejection_sample(
+            metadata.draft_token_ids,
+            metadata.num_draft_tokens,
+            metadata.max_spec_len,
+            metadata.cu_num_draft_tokens,
+            draft_probs,
+            target_probs,
+            bonus_token_ids,
+            sampling_metadata,
+        )
+
+        logprobs_tensors = None
+        if sampling_metadata.max_num_logprobs:
+            logprobs_tensors = self._get_logprobs_tensors(
+                sampling_metadata.max_num_logprobs,
+                metadata,
+                logits,
+                target_logits if self.is_processed_logprobs_mode else raw_target_logits,
+                bonus_sampler_output.logprobs_tensors.logprobs,
+                output_token_ids,
+            )
+
+        return SamplerOutput(
+            sampled_token_ids=output_token_ids,
+            logprobs_tensors=logprobs_tensors,
+        )
+
+    def _get_logprobs_tensors(
+        self,
+        max_num_logprobs: int,
+        metadata: SpecDecodeMetadata,
+        logits: torch.Tensor,
+        target_logits: torch.Tensor,
+        bonus_logits: torch.Tensor,
+        sampled_token_ids: torch.Tensor,
+    ) -> LogprobsTensors:
+        cu_num_sampled_tokens = torch.zeros_like(metadata.cu_num_sampled_tokens)
+        cu_num_sampled_tokens[1:] = metadata.cu_num_sampled_tokens[:-1]
+
+        # Collect target and bonus logits.
+        bonus_logits_indices = metadata.bonus_logits_indices
+        target_logits_indices = metadata.target_logits_indices
+        final_logits = torch.zeros_like(logits, dtype=torch.float32)
+        final_logits[target_logits_indices] = target_logits.to(torch.float32)
+        final_logits[bonus_logits_indices] = bonus_logits.to(torch.float32)
+
+        # Compute accepted token indices.
+        accepted_mask = sampled_token_ids != PLACEHOLDER_TOKEN_ID
+        num_accepted_tokens = accepted_mask.sum(dim=-1)
+        accepted_logit_indices = accepted_mask.nonzero(as_tuple=True)[1]
+        accepted_logit_indices += cu_num_sampled_tokens.repeat_interleave(
+            num_accepted_tokens
+        )
+
+        # Compute logprobs for accepted tokens.
+        accepted_logits = final_logits[accepted_logit_indices]
+        accepted_logprobs = (
+            accepted_logits
+            if self.is_logits_logprobs_mode
+            else self.sampler.compute_logprobs(accepted_logits)
+        )
+        accepted_tokens = sampled_token_ids[accepted_mask]
+        return self.sampler.gather_logprobs(
+            accepted_logprobs,
+            max_num_logprobs,
+            accepted_tokens.to(torch.int64),
+        )
+
+    @staticmethod
+    def parse_output(
+        output_token_ids: torch.Tensor,
+        vocab_size: int,
+    ) -> list[np.ndarray]:
+        """Parse the output of the rejection sampler.
+        Args:
+            output_token_ids: The sampled token IDs in shape
+                [batch_size, max_spec_len + 1]. The rejected tokens are
+                replaced with `PLACEHOLDER_TOKEN_ID` by the rejection sampler
+                and will be filtered out in this function.
+            vocab_size: The size of the vocabulary.
+        Returns:
+            A list of lists of token IDs.
+        """
+        output_token_ids_np = output_token_ids.cpu().numpy()
+        # Create mask for valid tokens.
+        valid_mask = (output_token_ids_np != PLACEHOLDER_TOKEN_ID) & (
+            output_token_ids_np < vocab_size
+        )
+        return [row[valid_mask[i]] for i, row in enumerate(output_token_ids_np)]
+
+    def apply_logits_processors(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        metadata: SpecDecodeMetadata,
+    ) -> torch.Tensor:
+        has_penalties = not sampling_metadata.no_penalties
+        any_penalties_or_bad_words = (
+            sampling_metadata.bad_words_token_ids or has_penalties
+        )
+
+        output_token_ids = sampling_metadata.output_token_ids
+        if any_penalties_or_bad_words:
+            output_token_ids = self._combine_outputs_with_spec_tokens(
+                output_token_ids,
+                sampling_metadata.spec_token_ids,
+            )
+
+        # Calculate indices of target logits.
+        if sampling_metadata.allowed_token_ids_mask is not None or has_penalties:
+            num_requests = len(sampling_metadata.output_token_ids)
+            num_draft_tokens = torch.tensor(metadata.num_draft_tokens, device="cpu")
+            original_indices = torch.arange(num_requests, device="cpu")
+            repeat_indices_cpu = original_indices.repeat_interleave(num_draft_tokens)
+            repeat_indices = repeat_indices_cpu.to(
+                device=logits.device, non_blocking=True
+            )
+            logits = self.apply_penalties(
+                logits, sampling_metadata, metadata, repeat_indices, output_token_ids
+            )
+
+            # Apply allowed token ids.
+            if sampling_metadata.allowed_token_ids_mask is not None:
+                token_mask = sampling_metadata.allowed_token_ids_mask[repeat_indices]
+                logits.masked_fill_(token_mask, float("-inf"))
+
+        # Apply bad words exclusion.
+        if bad_words_token_ids := sampling_metadata.bad_words_token_ids:
+            apply_bad_words_with_drafts(
+                logits, bad_words_token_ids, output_token_ids, metadata.num_draft_tokens
+            )
+
+        return logits
+
+    @staticmethod
+    def apply_penalties(
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        metadata: SpecDecodeMetadata,
+        repeat_indices: torch.Tensor,
+        output_token_ids: list[list[int]],
+    ) -> torch.Tensor:
+        if sampling_metadata.no_penalties:
+            return logits
+
+        assert sampling_metadata.prompt_token_ids is not None
+
+        prompt_token_ids = sampling_metadata.prompt_token_ids[repeat_indices]
+        presence_penalties = sampling_metadata.presence_penalties[repeat_indices]
+        frequency_penalties = sampling_metadata.frequency_penalties[repeat_indices]
+        repetition_penalties = sampling_metadata.repetition_penalties[repeat_indices]
+
+        logits = apply_all_penalties(
+            logits,
+            prompt_token_ids,
+            presence_penalties,
+            frequency_penalties,
+            repetition_penalties,
+            output_token_ids,
+        )
+        return logits
+
+    @staticmethod
+    def _combine_outputs_with_spec_tokens(
+        output_token_ids: list[list[int]],
+        spec_token_ids: list[list[int]] | None = None,
+    ) -> list[list[int]]:
+        if spec_token_ids is None:
+            return output_token_ids
+
+        result = []
+        for out, spec in zip(output_token_ids, spec_token_ids):
+            if len(spec) == 0:
+                continue
+            result.append(out)
+            for i in range(len(spec) - 1):
+                result.append([*result[-1], spec[i]])
+        return result
+
+
+def rejection_sample(
+    # [num_tokens]
+    draft_token_ids: torch.Tensor,
+    # [batch_size]
+    num_draft_tokens: list[int],
+    max_spec_len: int,
+    # [batch_size]
+    cu_num_draft_tokens: torch.Tensor,
+    # [num_tokens, vocab_size]
+    draft_probs: torch.Tensor | None,
+    # [num_tokens, vocab_size]
+    target_probs: torch.Tensor,
+    # [batch_size, 1]
+    bonus_token_ids: torch.Tensor,
+    sampling_metadata: SamplingMetadata,
+) -> torch.Tensor:
+    assert draft_token_ids.ndim == 1
+    assert draft_probs is None or draft_probs.ndim == 2
+    assert cu_num_draft_tokens.ndim == 1
+    assert target_probs.ndim == 2
+
+    batch_size = len(num_draft_tokens)
+    num_tokens = draft_token_ids.shape[0]
+    vocab_size = target_probs.shape[-1]
+    device = target_probs.device
+    assert draft_token_ids.is_contiguous()
+    assert draft_probs is None or draft_probs.is_contiguous()
+    assert target_probs.is_contiguous()
+    assert bonus_token_ids.is_contiguous()
+    assert target_probs.shape == (num_tokens, vocab_size)
+
+    # Create output buffer.
+    output_token_ids = torch.full(
+        (batch_size, max_spec_len + 1),
+        PLACEHOLDER_TOKEN_ID,
+        dtype=torch.int32,  # Consistent with SamplerOutput.sampled_token_ids.
+        device=device,
+    )
+
+    if sampling_metadata.all_greedy:
+        is_greedy = None
+    else:
+        is_greedy = sampling_metadata.temperature == GREEDY_TEMPERATURE
+    if not sampling_metadata.all_random:
+        # Rejection sampling for greedy sampling requests.
+        target_argmax = target_probs.argmax(dim=-1)
+        ops.rejection_greedy_sample_torch(
+            output_token_ids,
+            cu_num_draft_tokens,
+            draft_token_ids,
+            target_argmax,
+            bonus_token_ids,
+            is_greedy,
+        )
+        if sampling_metadata.all_greedy:
+            return output_token_ids
+
+    # Generate uniform probabilities for rejection sampling.
+    # [num_tokens]
+    uniform_probs = generate_uniform_probs(
+        num_tokens,
+        num_draft_tokens,
+        sampling_metadata.generators,
+        device,
+    )
+
+    # Sample recovered tokens for each position.
+    # [num_tokens]
+    recovered_token_ids = sample_recovered_tokens(
+        max_spec_len,
+        num_draft_tokens,
+        cu_num_draft_tokens,
+        draft_token_ids,
+        draft_probs,
+        target_probs,
+        sampling_metadata,
+        device,
+    )
+
+    # Rejection sampling for random sampling requests.
+    ops.rejection_random_sample_torch(
+        output_token_ids,
+        cu_num_draft_tokens,
+        draft_token_ids,
+        draft_probs,
+        target_probs,
+        bonus_token_ids,
+        recovered_token_ids,
+        uniform_probs,
+        is_greedy,
+        NO_DRAFT_PROBS=draft_probs is None,
+    )
+    return output_token_ids
+
+
+def apply_sampling_constraints(
+    logits: torch.Tensor,  # [num_tokens, vocab_size]
+    cu_num_draft_tokens: torch.Tensor,  # [batch_size]
+    sampling_metadata: SamplingMetadata,
+) -> torch.Tensor:
+    """Process logits based on sampling metadata.
+
+    This function applies temperature scaling to the logits,
+    as well as top-k and top-p. For greedy decoding, it returns
+    the original logits.
+
+    Args:
+        logits: Input logits tensor to be processed.
+        cu_num_draft_tokens: Cumulative number of draft tokens.
+        sampling_metadata: Metadata containing sampling parameters such as
+            temperature and whether greedy sampling is used.
+
+    Returns:
+        torch.Tensor: Processed logits if non-greedy sampling is used,
+        otherwise returns the original logits.
+    """
+    assert logits.ndim == 2
+    assert cu_num_draft_tokens.ndim == 1
+    if sampling_metadata.all_greedy:
+        return logits
+
+    num_tokens = logits.shape[0]
+    temperature = expand_batch_to_tokens(
+        sampling_metadata.temperature,
+        cu_num_draft_tokens,
+        num_tokens,
+        replace_from=GREEDY_TEMPERATURE,
+        replace_to=1,
+    )
+    # NOTE(woosuk): Update `logits` in place to avoid allocating a new tensor.
+    logits.div_(temperature.unsqueeze(-1))
+
+    # Get expanded top_k and top_p tensors.
+    top_k = None
+    if sampling_metadata.top_k is not None:
+        top_k = expand_batch_to_tokens(
+            sampling_metadata.top_k,
+            cu_num_draft_tokens,
+            num_tokens,
+        )
+    top_p = None
+    if sampling_metadata.top_p is not None:
+        top_p = expand_batch_to_tokens(
+            sampling_metadata.top_p,
+            cu_num_draft_tokens,
+            num_tokens,
+        )
+
+    # NOTE(woosuk): `apply_top_k_top_p` uses sorting to calculate the mask,
+    # which is slow for large vocab sizes. This may cause performance issues.
+    return apply_top_k_top_p(logits, top_k, top_p)
+
+
+def expand_batch_to_tokens(
+    x: torch.Tensor,  # [batch_size]
+    cu_num_tokens: torch.Tensor,  # [batch_size]
+    num_tokens: int,
+    replace_from: int = 0,
+    replace_to: int = 0,
+) -> torch.Tensor:
+    """Expand [batch_size] tensor to [num_tokens] tensor based on the number of
+    tokens per batch in cu_num_tokens.
+
+    For example, if x = [a, b, c] and cu_num_tokens = [2, 5, 6], then
+    num_tokens = 6, and expanded_x = [a, a, b, b, b, c].
+
+    Args:
+        x: [batch_size] tensor to expand.
+        cu_num_tokens: [batch_size] tensor containing the cumulative number of
+            tokens per batch. Each element represents the total number of
+            tokens up to and including that batch.
+        num_tokens: Total number of tokens.
+        replace_from: int = 0
+            Value to be replaced if it is found in x.
+        replace_to: int = 0
+            Value to replace with when replace_from is found.
+    Returns:
+        expanded_x: [num_tokens] tensor.
+    """
+    batch_size = x.shape[0]
+    assert cu_num_tokens.shape[0] == batch_size
+    expanded_x = x.new_empty(num_tokens)
+    expand_kernel[(batch_size,)](
+        expanded_x,
+        x,
+        cu_num_tokens,
+        replace_from,
+        replace_to,
+        MAX_NUM_TOKENS=MAX_SPEC_LEN,  # To avoid recompilation.
+    )
+    return expanded_x
+
+
+def generate_uniform_probs(
+    num_tokens: int,
+    num_draft_tokens: list[int],
+    generators: dict[int, torch.Generator],
+    device: torch.device,
+) -> torch.Tensor:
+    """
+    Generates a batch of uniform random samples, with optional seeding
+    if available.
+
+    This method creates a tensor of shape `(num_tokens, )` filled
+    with uniform random values in the range [0, 1). If `generators` is provided,
+    the requests with their own seeds will use the provided `torch.Generator`
+    for reproducibility. The samples for the other requests will be generated
+    without a seed.
+
+    Args:
+        num_tokens: int
+            Total number of tokens.
+        num_draft_tokens: List[List[int]]
+            Number of draft tokens per request.
+        generators: Optional[Dict[int, torch.Generator]]
+            A dictionary mapping indices in the batch to
+            `torch.Generator` objects.
+        device: torch.device
+            The device on which to allocate the tensor.
+    Returns:
+        uniform_rand: torch.Tensor
+            A tensor of shape `(num_tokens, )` containing uniform
+            random values in the range [0, 1).
+    """
+    # NOTE(woosuk): We deliberately use float64 instead of float32 here
+    # because when using float32, there's a non-negligible chance that
+    # uniform_prob is sampled to be exact 0.0 as reported in
+    # https://github.com/pytorch/pytorch/issues/16706. Using float64
+    # mitigates the issue.
+    uniform_probs = torch.rand(
+        (num_tokens,),
+        dtype=torch.float64,
+        device=device,
+    )
+    start_idx = 0
+    for req_idx, n in enumerate(num_draft_tokens):
+        # Do not generate random numbers for requests with no draft tokens.
+        # This can be important for reproducibility.
+        if n == 0:
+            continue
+        end_idx = start_idx + n
+        generator = generators.get(req_idx)
+        if generator is not None:
+            uniform_probs[start_idx:end_idx].uniform_(generator=generator)
+        start_idx = end_idx
+    return uniform_probs
+
+
+def sample_recovered_tokens(
+    max_spec_len: int,
+    num_draft_tokens: list[int],
+    # [batch_size]
+    cu_num_draft_tokens: torch.Tensor,
+    # [num_tokens]
+    draft_token_ids: torch.Tensor,
+    # [num_tokens, vocab_size]
+    draft_probs: torch.Tensor | None,
+    # [num_tokens, vocab_size]
+    target_probs: torch.Tensor,
+    sampling_metadata: SamplingMetadata,
+    device: torch.device,
+) -> torch.Tensor:
+    # NOTE(woosuk): Create only one distribution for each request.
+    batch_size = len(num_draft_tokens)
+    vocab_size = target_probs.shape[-1]
+    q = torch.empty(
+        (batch_size, vocab_size),
+        dtype=torch.float32,
+        device=device,
+    )
+    q.exponential_()
+    for i, generator in sampling_metadata.generators.items():
+        # Do not generate random numbers for requests with no draft tokens.
+        # This can be important for reproducibility.
+        if num_draft_tokens[i] > 0:
+            q[i].exponential_(generator=generator)
+
+    recovered_token_ids = torch.empty_like(draft_token_ids)
+    sample_recovered_tokens_kernel[(batch_size, max_spec_len)](
+        recovered_token_ids,
+        cu_num_draft_tokens,
+        draft_token_ids,
+        draft_probs,
+        target_probs,
+        q,
+        vocab_size,
+        triton.next_power_of_2(vocab_size),
+        NO_DRAFT_PROBS=draft_probs is None,
+    )
+    return recovered_token_ids
+
+
+# NOTE(woosuk): Avoid specialization to prevent unnecessary recompilation.
+@triton.jit(do_not_specialize=["max_spec_len"])
+def rejection_greedy_sample_kernel(
+    output_token_ids_ptr,  # [batch_size, max_spec_len + 1]
+    cu_num_draft_tokens_ptr,  # [batch_size]
+    draft_token_ids_ptr,  # [num_tokens]
+    target_argmax_ptr,  # [num_tokens]
+    bonus_token_ids_ptr,  # [batch_size]
+    is_greedy_ptr,  # [batch_size] or None
+    max_spec_len,
+):
+    req_idx = tl.program_id(0)
+    # FIXME(woosuk): Because is_greedy_ptr is not None at profiling run,
+    # re-compilation may happen during runtime when is_greedy_ptr is None.
+    is_greedy = True if is_greedy_ptr is None else tl.load(is_greedy_ptr + req_idx)
+    if not is_greedy:
+        # Early exit for non-greedy sampling requests.
+        return
+
+    start_idx = 0 if req_idx == 0 else tl.load(cu_num_draft_tokens_ptr + req_idx - 1)
+    end_idx = tl.load(cu_num_draft_tokens_ptr + req_idx)
+    num_draft_tokens = end_idx - start_idx
+
+    rejected = False
+    for pos in range(num_draft_tokens):
+        if not rejected:
+            draft_token_id = tl.load(draft_token_ids_ptr + start_idx + pos)
+            target_argmax_id = tl.load(target_argmax_ptr + start_idx + pos)
+            tl.store(
+                output_token_ids_ptr + req_idx * (max_spec_len + 1) + pos,
+                target_argmax_id,
+            )
+            if draft_token_id != target_argmax_id:
+                # Reject.
+                rejected = True
+
+    if not rejected:
+        # If all tokens are accepted, append the bonus token.
+        bonus_token_id = tl.load(bonus_token_ids_ptr + req_idx)
+        tl.store(
+            output_token_ids_ptr + req_idx * (max_spec_len + 1) + num_draft_tokens,
+            bonus_token_id,
+        )
+
+
+# NOTE(woosuk): Avoid specialization to prevent unnecessary recompilation.
+@triton.jit(do_not_specialize=["max_spec_len"])
+def rejection_random_sample_kernel(
+    output_token_ids_ptr,  # [batch_size, max_spec_len + 1]
+    cu_num_draft_tokens_ptr,  # [batch_size]
+    draft_token_ids_ptr,  # [num_tokens]
+    draft_probs_ptr,  # [num_tokens, vocab_size] or None
+    target_probs_ptr,  # [num_tokens, vocab_size]
+    bonus_token_ids_ptr,  # [batch_size]
+    recovered_token_ids_ptr,  # [num_tokens]
+    uniform_probs_ptr,  # [num_tokens]
+    is_greedy_ptr,  # [batch_size]
+    max_spec_len,
+    vocab_size,
+    NO_DRAFT_PROBS: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    is_greedy = tl.load(is_greedy_ptr + req_idx)
+    if is_greedy:
+        # Early exit for greedy sampling requests.
+        return
+
+    start_idx = 0 if req_idx == 0 else tl.load(cu_num_draft_tokens_ptr + req_idx - 1)
+    end_idx = tl.load(cu_num_draft_tokens_ptr + req_idx)
+    num_draft_tokens = end_idx - start_idx
+
+    rejected = False
+    for pos in range(num_draft_tokens):
+        if not rejected:
+            draft_token_id = tl.load(draft_token_ids_ptr + start_idx + pos)
+            if NO_DRAFT_PROBS:
+                draft_prob = 1
+            else:
+                draft_prob = tl.load(
+                    draft_probs_ptr + (start_idx + pos) * vocab_size + draft_token_id
+                )
+            target_prob = tl.load(
+                target_probs_ptr + (start_idx + pos) * vocab_size + draft_token_id
+            )
+            uniform_prob = tl.load(uniform_probs_ptr + start_idx + pos)
+            # NOTE(woosuk): While the draft probability should never be 0,
+            # we check it to avoid NaNs. If it happens to be 0, we reject.
+            if draft_prob > 0 and target_prob / draft_prob >= uniform_prob:
+                # Accept.
+                token_id = draft_token_id
+            else:
+                # Reject. Use recovered token.
+                rejected = True
+                token_id = tl.load(recovered_token_ids_ptr + start_idx + pos)
+            tl.store(
+                output_token_ids_ptr + req_idx * (max_spec_len + 1) + pos, token_id
+            )
+
+    if not rejected:
+        # If all tokens are accepted, append the bonus token.
+        bonus_token_id = tl.load(bonus_token_ids_ptr + req_idx)
+        tl.store(
+            output_token_ids_ptr + req_idx * (max_spec_len + 1) + num_draft_tokens,
+            bonus_token_id,
+        )
+
+
+# NOTE(woosuk): Avoid specialization to prevent unnecessary recompilation.
+@triton.jit(do_not_specialize=["replace_from", "replace_to"])
+def expand_kernel(
+    output_ptr,  # [num_tokens]
+    input_ptr,  # [batch_size]
+    cu_num_tokens_ptr,  # [batch_size]
+    replace_from,
+    replace_to,
+    MAX_NUM_TOKENS: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    if req_idx == 0:  # noqa: SIM108
+        start_idx = 0
+    else:
+        start_idx = tl.load(cu_num_tokens_ptr + req_idx - 1)
+    end_idx = tl.load(cu_num_tokens_ptr + req_idx)
+    num_tokens = end_idx - start_idx
+
+    src_val = tl.load(input_ptr + req_idx)
+    src_val = tl.where(src_val == replace_from, replace_to, src_val)
+    offset = tl.arange(0, MAX_NUM_TOKENS)
+    tl.store(output_ptr + start_idx + offset, src_val, mask=offset < num_tokens)
+
+
+@triton.jit
+def sample_recovered_tokens_kernel(
+    output_token_ids_ptr,  # [num_tokens]
+    cu_num_draft_tokens_ptr,  # [batch_size]
+    draft_token_ids_ptr,  # [num_tokens]
+    draft_probs_ptr,  # [num_tokens, vocab_size] or None
+    target_probs_ptr,  # [num_tokens, vocab_size]
+    q_ptr,  # [batch_size, vocab_size]
+    vocab_size,
+    PADDED_VOCAB_SIZE: tl.constexpr,
+    NO_DRAFT_PROBS: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    start_idx = 0 if req_idx == 0 else tl.load(cu_num_draft_tokens_ptr + req_idx - 1)
+    end_idx = tl.load(cu_num_draft_tokens_ptr + req_idx)
+    num_draft_tokens = end_idx - start_idx
+
+    # Early exit for out-of-range positions.
+    pos = tl.program_id(1)
+    if pos >= num_draft_tokens:
+        return
+
+    vocab_offset = tl.arange(0, PADDED_VOCAB_SIZE)
+    if NO_DRAFT_PROBS:
+        draft_token_id = tl.load(draft_token_ids_ptr + start_idx + pos)
+        prob = tl.load(
+            target_probs_ptr + (start_idx + pos) * vocab_size + vocab_offset,
+            mask=((vocab_offset < vocab_size) & (vocab_offset != draft_token_id)),
+            other=0,
+        )
+    else:
+        draft_prob = tl.load(
+            draft_probs_ptr + (start_idx + pos) * vocab_size + vocab_offset,
+            mask=vocab_offset < vocab_size,
+            other=0,
+        )
+        target_prob = tl.load(
+            target_probs_ptr + (start_idx + pos) * vocab_size + vocab_offset,
+            mask=vocab_offset < vocab_size,
+            other=0,
+        )
+        prob = tl.maximum(target_prob - draft_prob, 0)
+        # NOTE(woosuk): We don't need `prob = prob / tl.sum(prob)` here because
+        # `tl.argmax` will select the maximum value.
+
+    q = tl.load(
+        q_ptr + req_idx * vocab_size + vocab_offset,
+        mask=vocab_offset < vocab_size,
+        other=float("-inf"),
+    )
+    recovered_id = tl.argmax(prob / q, axis=-1)
+    tl.store(output_token_ids_ptr + start_idx + pos, recovered_id)
diff --git a/v1/sample/sampler.py b/v1/sample/sampler.py
new file mode 100644
index 0000000..39c63fe
--- /dev/null
+++ b/v1/sample/sampler.py
@@ -0,0 +1,316 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""A layer that samples the next tokens from the model's outputs."""
+
+import torch
+import torch.nn as nn
+
+from vllm.config.model import LogprobsMode
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.outputs import LogprobsTensors, SamplerOutput
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.sample.ops.bad_words import apply_bad_words
+from vllm.v1.sample.ops.logprobs import batched_count_greater_than
+from vllm.v1.sample.ops.penalties import apply_all_penalties
+from vllm.v1.sample.ops.topk_topp_sampler import TopKTopPSampler
+
+_SAMPLING_EPS = 1e-5
+
+
+class Sampler(nn.Module):
+    """
+    A layer that samples the next tokens from the model's outputs
+    with the following steps in order:
+
+    1. If logprobs are requested:
+        a) If `logprobs_mode` is `raw_logprobs`, compute logprobs
+           as the final logprobs to return.
+        b) If `logprobs_mode` is `raw_logits`, clone the logits
+           as the final logprobs to return.
+    2. Convert logits to float32.
+    3. Apply allowed token ids whitelist.
+    4. Apply bad words exclusion.
+    5. Apply logit processors which are not argmax-invariant,
+       i.e. that can impact greedy sampling.
+        a) Min tokens processor
+        b) Logit bias processor
+    6. Apply penalties
+        a) Repetition penalty
+        b) Frequency penalty
+        c) Presence penalty
+    7. Sample the next tokens. `sample` method performs the following steps:
+        a) If not `all_random`, perform greedy sampling. If `all_greedy`,
+           return the greedily sampled tokens and final logprobs if requested.
+        b) Apply temperature.
+        c) Apply logit processors which are argmax-invariant, by default
+           the min_p processor.
+        d) Apply top_k and/or top_p.
+        e) Sample the next tokens with the probability distribution.
+        f) If `all_random` or temperature >= epsilon (1e-5), return the
+           randomly sampled tokens and final logprobs if requested. Else,
+           return the greedily sampled tokens and logprobs if requested.
+    8. Gather the logprobs of the top `max_num_logprobs` and sampled token
+       (if requested). Note that if the sampled token is within the top
+       `max_num_logprobs`, the logprob will be eventually merged in
+       `LogprobsProcessor` during output processing. Therefore, the
+       final output may contain either `max_num_logprobs + 1` or
+       `max_num_logprobs` logprobs.
+    9. Return the final `SamplerOutput`.
+    """
+
+    def __init__(self, logprobs_mode: LogprobsMode = "raw_logprobs"):
+        super().__init__()
+        self.topk_topp_sampler = TopKTopPSampler(logprobs_mode)
+        self.pin_memory = is_pin_memory_available()
+        self.logprobs_mode = logprobs_mode
+
+    def forward(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        predict_bonus_token: bool = False,
+        logprobs_mode_override: LogprobsMode | None = None,
+    ) -> SamplerOutput:
+        logprobs_mode = logprobs_mode_override or self.logprobs_mode
+        # NOTE(woosuk): Use the original logits (before any penalties or
+        # temperature scaling) for the top-k logprobs.
+        # This is different from the V0 sampler, which uses the logits that
+        # is used for sampling (after penalties and temperature scaling).
+        num_logprobs = sampling_metadata.max_num_logprobs
+        if num_logprobs is not None:
+            if logprobs_mode == "raw_logprobs":
+                raw_logprobs = self.compute_logprobs(logits)
+            elif logprobs_mode == "raw_logits":
+                raw_logprobs = logits.clone()
+
+        # Use float32 for the logits.
+        logits = logits.to(torch.float32)
+
+        logits = self.apply_logits_processors(
+            logits, sampling_metadata, predict_bonus_token
+        )
+        # Sample the next token.
+        sampled, processed_logprobs = self.sample(logits, sampling_metadata)
+        if processed_logprobs is not None:
+            raw_logprobs = processed_logprobs
+        # Convert sampled token ids to int64 (long) type to ensure compatibility
+        # with subsequent operations that may use these values as indices.
+        # This conversion is necessary because FlashInfer sampling operations
+        # return int32 (while PyTorch argmax and topk return int64).
+        sampled = sampled.long()
+
+        if num_logprobs is None:
+            logprobs_tensors = None
+        elif num_logprobs == -1:
+            # Return the full unsorted and unranked logprobs.
+            logprobs_tensors = LogprobsTensors(
+                torch.empty(0), raw_logprobs, torch.empty(0)
+            )
+        else:
+            # Gather the logprobs and ranks of the topk and sampled token.
+            logprobs_tensors = self.gather_logprobs(
+                raw_logprobs, num_logprobs, token_ids=sampled
+            )
+
+        # Use int32 to reduce the tensor size.
+        sampled = sampled.to(torch.int32)
+
+        # These are GPU tensors.
+        sampler_output = SamplerOutput(
+            # The sampled tokens are expanded to 2D tensor with shape
+            # [num_requests, 1], where each row represents one generated
+            # token per request.
+            sampled_token_ids=sampled.unsqueeze(-1),
+            logprobs_tensors=logprobs_tensors,
+        )
+        return sampler_output
+
+    @staticmethod
+    def apply_temperature(
+        logits: torch.Tensor,
+        temp: torch.Tensor,
+        all_random: bool,
+    ) -> torch.Tensor:
+        # Use in-place division to avoid creating a new tensor.
+        # Avoid division by zero if there are greedy requests.
+        if not all_random:
+            temp = torch.where(temp < _SAMPLING_EPS, 1.0, temp)
+        return logits.div_(temp.unsqueeze(dim=1))
+
+    @staticmethod
+    def greedy_sample(logits: torch.Tensor) -> torch.Tensor:
+        return logits.argmax(dim=-1).view(-1)
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        logprobs_mode_override: LogprobsMode | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """Sample logits based on sampling metadata.
+
+        The various logits processing functions called in this method
+        may update the logits tensor in-place.
+        """
+
+        logprobs_mode = logprobs_mode_override or self.logprobs_mode
+        assert not (sampling_metadata.all_greedy and sampling_metadata.all_random)
+        if sampling_metadata.all_random:
+            greedy_sampled = None
+        else:
+            greedy_sampled = self.greedy_sample(logits)
+            if sampling_metadata.all_greedy:
+                processed_logprobs = None
+                if sampling_metadata.max_num_logprobs is not None:
+                    if logprobs_mode == "processed_logits":
+                        processed_logprobs = logits
+                    elif logprobs_mode == "processed_logprobs":
+                        processed_logprobs = self.compute_logprobs(logits)
+                return greedy_sampled, processed_logprobs
+
+        assert sampling_metadata.temperature is not None
+
+        # Apply temperature.
+        logits = self.apply_temperature(
+            logits, sampling_metadata.temperature, sampling_metadata.all_random
+        )
+
+        # Apply logits processors that only apply to random sampling
+        # (argmax invariant)
+        for processor in sampling_metadata.logitsprocs.argmax_invariant:
+            logits = processor.apply(logits)
+
+        # Apply top_k and/or top_p.
+        random_sampled, processed_logprobs = self.topk_topp_sampler(
+            logits,
+            sampling_metadata.generators,
+            sampling_metadata.top_k,
+            sampling_metadata.top_p,
+        )
+
+        if greedy_sampled is None:
+            return random_sampled, processed_logprobs
+
+        sampled = torch.where(
+            sampling_metadata.temperature < _SAMPLING_EPS,
+            greedy_sampled,
+            random_sampled,
+            out=greedy_sampled,  # Reuse tensor
+        )
+        return sampled, processed_logprobs
+
+    @staticmethod
+    def compute_logprobs(logits: torch.Tensor) -> torch.Tensor:
+        return logits.log_softmax(dim=-1, dtype=torch.float32)
+
+    @staticmethod
+    def gather_logprobs(
+        logprobs: torch.Tensor,
+        num_logprobs: int,
+        token_ids: torch.Tensor,
+    ) -> LogprobsTensors:
+        """
+        Gather logprobs for topk and sampled/prompt token.
+
+        Args:
+          logprobs: (num tokens) x (vocab) tensor
+          num_logprobs: minimum number of logprobs to
+                        retain per token
+          token_ids: prompt tokens (if prompt logprobs)
+                     or sampled tokens (if sampled
+                     logprobs); 1D token ID tensor
+                     with (num tokens) elements
+                     Must be int64.
+
+        Returns:
+          Top-k int indices tensor, (num tokens) x (num_logprobs + 1)
+          Top-k float logprobs tensor, (num tokens) x (num_logprobs + 1)
+          Sampled token rank tensor, (num tokens)
+        """
+        assert token_ids.dtype == torch.int64
+        # Find the topK values.
+        topk_logprobs, topk_indices = torch.topk(logprobs, num_logprobs, dim=-1)
+
+        # Get with the logprob of the prompt or sampled token.
+        token_ids = token_ids.unsqueeze(-1)
+        token_logprobs = logprobs.gather(-1, token_ids)
+
+        # Compute the ranks of the actual token.
+        token_ranks = batched_count_greater_than(logprobs, token_logprobs)
+
+        # Concatenate together with the topk.
+        indices = torch.cat((token_ids, topk_indices), dim=1)
+        logprobs = torch.cat((token_logprobs, topk_logprobs), dim=1)
+
+        # Use int32 to reduce the tensor size.
+        indices = indices.to(torch.int32)
+
+        return LogprobsTensors(indices, logprobs, token_ranks)
+
+    @staticmethod
+    def _combine_outputs_with_spec_tokens(
+        output_token_ids: list[list[int]],
+        spec_token_ids: list[list[int]] | None = None,
+    ) -> list[list[int]]:
+        if spec_token_ids is None:
+            return output_token_ids
+
+        return [
+            [*out, *spec] if spec else out
+            for out, spec in zip(output_token_ids, spec_token_ids)
+        ]
+
+    def apply_logits_processors(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        predict_bonus_token: bool,
+    ) -> torch.Tensor:
+        bad_words_token_ids = sampling_metadata.bad_words_token_ids
+        any_penalties_or_bad_words = (
+            bool(bad_words_token_ids) or not sampling_metadata.no_penalties
+        )
+
+        output_token_ids = sampling_metadata.output_token_ids
+        if predict_bonus_token and any_penalties_or_bad_words:
+            # Combine base outputs with spec tokens when speculative decoding
+            # is enabled.
+            output_token_ids = self._combine_outputs_with_spec_tokens(
+                output_token_ids,
+                sampling_metadata.spec_token_ids,
+            )
+
+        # Apply allowed token ids.
+        if sampling_metadata.allowed_token_ids_mask is not None:
+            logits.masked_fill_(sampling_metadata.allowed_token_ids_mask, float("-inf"))
+
+        # Apply bad words exclusion.
+        if bad_words_token_ids:
+            apply_bad_words(logits, bad_words_token_ids, output_token_ids)
+
+        # Apply logits processors which can impact greedy sampling.
+        for processor in sampling_metadata.logitsprocs.non_argmax_invariant:
+            logits = processor.apply(logits)
+
+        # Apply penalties (e.g., freq_penalties).
+        logits = self.apply_penalties(logits, sampling_metadata, output_token_ids)
+        return logits
+
+    @staticmethod
+    def apply_penalties(
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        output_token_ids: list[list[int]],
+    ) -> torch.Tensor:
+        if sampling_metadata.no_penalties:
+            return logits
+
+        assert sampling_metadata.prompt_token_ids is not None
+        return apply_all_penalties(
+            logits,
+            sampling_metadata.prompt_token_ids,
+            sampling_metadata.presence_penalties,
+            sampling_metadata.frequency_penalties,
+            sampling_metadata.repetition_penalties,
+            output_token_ids,
+        )
diff --git a/v1/sample/tpu/__init__.py b/v1/sample/tpu/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/sample/tpu/__pycache__/__init__.cpython-312.pyc b/v1/sample/tpu/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..294f758872678a54ec4488739f8673eb102631f0
GIT binary patch
literal 163
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIq8?=7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>K7;G7UZPrmlTxh$H!;pWtPOp
k>lIYq;;_lhPbtkwwJTx;8p#O6#URE<W=2NFB4!{90Ape&TL1t6

literal 0
HcmV?d00001

diff --git a/v1/sample/tpu/__pycache__/metadata.cpython-312.pyc b/v1/sample/tpu/__pycache__/metadata.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a26dc7412ea723d020363a437416091a6f23f9a9
GIT binary patch
literal 5134
zcmbstOKcm*b#}R=$R#CFq9n@tu4B6v6N{9ZxK3;#wqnOlZ2415ZVMi=T5*QbTFc$d
z>{2!j2hhPq<n~bcP}n)u0SY96bI7p)3ZwyY2+$nJNPv_*DF}M#jgEq(?Wu2eNs6Lr
z*Gb3b?0nvT-n{ole{XFS5j0Ksy&COA=o>bvwm@aD{RRx~B8)Jnp&Xaya(tTS*qqmV
zX&-!jnvnCS{T$*E319*HVJ+}s%LBoqkZvIykIo<*yoGS+0q?CosE|(w3w%QSCz~aB
zCxjJS$!LmYIsU9lG<+e!IpXWOnYUk2?99TvhgJThGC-)hay%h8VVmSkLKQntiQ~_y
zx@<ar+c4!t?_*{vOx;hUGTHu~V+s<K<}gb0S3uFUj|f*?)6^p%rXD{5O90XGSO{MQ
zBKTMcp#l+lEQH^M2&6?42A(bMESQeCvruK$>dwRpWSct+yE87`4iZM;*8#syIF=ZW
z+(I9=J^)QwOLviO_}8-s#_R_?+A5fF7rK2HbT7c}Aw8ro%QI-q-Ds)dMJssyz-hq6
z?bwAo=wb?28CXN}r~&Uzwn>I@?0>;#dE9kNsJV_r_J$Dd!`<W=+(UYB9PD|zfeB1;
zFA3uqMp+T>x#h26?=NtPerI6j(v|7FX&Tffcv{JsnySyAC$_>o@d9PHfP%J&23Z$^
zZpIN6O_S#-A-Hhbn@~l^M$QRp#=J?5Im?OYhHMgD(QK7iyWEcXzYl)fJ<#1ncI8MA
zstPuZKHx5Vz&V1ZTJ{HM8^F+iUP;+GGi9pgsIAa>Vvk<WA9?A;#Umu8sdFi_U@sVY
zYDv>_sipCh#nd1v+svnO6-|<6!3j=iN^TA-FW)%uB&Cy8uoN)1m;sj2XZW)$?S>&-
z$97DzN?x<&tdg+}T5zI99$4A3Z7dR9R`HM4mv#VU3IPbwF4i$dl$nRdp?gYcp9j#2
zv|r#aJZT*f4n(!(IaT>-LV>yhRx|ehA=gWFa-I6(w5yyGmgkAiB9%ccCqM~AEIm{6
z1i)Zp*Gu|fa2MS~SK-^(rjcv81V@Kpi^*ycEo(7c$+e#&?y$LW@QH`M19%M3ttfQM
zs2o7iu8sELQu}Z*I9w53WzkrkW8v6oHx-Ntmi2s2rsPe_5wB~CjLDLkA<kfhCXr2r
zDmhD5v+~Z($@qaqwXs<1s=E%?<8A)!7EqaMrZR1BzK*%YQwZrC=HK!IL?y{o$+Iu^
z<q>VWDPSJHA`d3TzMK9Jg=#{YW*jRis~+!nE!b~YlOejw!azgAfhX^0g_V{S9%5I^
zt;kye;2Z!>O|pw!%}9_cS)8p(#uBTG)7HQkrgb=>ra0^%8(JNX*c6A|#D-Rf6Mh7T
zS+0pbIC7isLs!{tZfG}s)lAg<tYDR0|Aq#uO(c6tE=}z4l$cGd{#2NL$hRzWK$}L1
zHf0nXT$C#9q+u2$H%>#kk!+${5D6qpgL`91S!(2@*}8i+E7^u*=#qD_s^CenMs9Ye
zL`upzWs%5L+Hy4m%t{$0Zvk~mGDgl+HN{qeB>ex))TE?Xl4{q;Rph`0UCF5#$y!iM
zKzvjHX=XtMM94N$&R7Bvdx1z5tQs-HgmptYdFhG-SyF=hi1SR#s?tVQ%Bt51mS!7*
z$*g3lH%Oh9lXTuXTBFM>S!bi8APn&qBsVxo8AG=fRc8jST0?Rp5wQuilDh~su=a>~
zixLF4IYK3n6GB{`Sat*MPRR4nm_5Cd+RfvM;qa*RdRCgDd2&dq!Znk6m(a`tWQpjK
znw221*2I$(N+hp7Ny3q^BeEno`)pp5vIYf5V196Ifl%@Yy=z3ersy_1F_V%}&sB(|
z06oQAkglorLNmDzRRwv3Ah<-q6-YO1$+9VAQ>`HBP&~nrGif|Q!D1N$!&&XvjIt<x
zdM3eB78ohJhmM#r^RnkTbQl&g^^u-M?-=~H*=7GD&vM93beq5J>qiAIRl0dRA<z*3
zaDrJC>bNCEbAr|UMfbyo#pp=V@^U4Ix?t{=xH0*}9LnykT<4NdNf{YMvtCZ_kWd(d
zcIf`KjJBRXwsLm$`u+A&WXvminv|Ot5-na8>KdUHFx@KDt4H0+lo=)waiTfpx|@ir
zMW|=C=U|sTe<-Buz>FJcoSwRelDuP4Cw}VH)00=GX5{I~^OvSxzi>vrG<kXQ{4~&J
zkEwdlsQa#ZWMvl&4_ukRiJ;@lXcpbagl86}2Uzzr=$tm@36@-w`4HP-GFvRuO42O&
zxOBohiD;vNZ;bw^^EkoCW}!U#H<UI%N8=M4V^d#_O|6{Uh>VmXBkzxY897wE{Oht0
zh2rHPio`d<drRTH_h(AsL@{~p^L!~e^Hr?p{{D}K)?+7%krP|7p^ezVQtaSLuq^PQ
zi9a8HZ{ppFGJ@e>$tT*!+V^buFo;62O`sM@mLkdZu`{2ymd1YdosSQR4+F5ZdTb+>
zD#cRk<F9=lFOC0lJ$U)6VCPe>0*z>Fvv=P{@6l54(c-alf4Nxfo!aQVSn9pF8SUHl
z@q5~!kOP4DXemCr8GptbY;_K9bS6uk$ztmGNA1PV6C0f;OPweGc6P1v;^t4?>)!WW
zcQ`7RQ8*;JE}h^`Ck{A4S%y?XWZ4mAIR^<qW8;V{znNDwZ^v`;BpeZC4-cnZmK7ah
zhMT4=S#EfRxz6nfbB3Y0KIVo8$}W}@g%p!B>)s<yEbB&YJyY0ulsTOc-z=hMpggTU
z)SNC#Ok%4nGw!TX77r+^dMJx7j!)HXM`Sm`eeqbdpKT4YEq_)s6x->6Xlz`Ay14cv
zf~0IMI<Ywg%hwDF4qw}GYj-DfrurUmf*?Np6~ivjXBf$_`{xkI;tK|*tY&rsUUH!?
zGPVs5rZ8J$9jm&mH^A3_i^?L}dtmw8YWLlNI|FON{;j^D<yTh@|6$_x#F{X)`Gnb4
zynp%Zs<0;XZ^j3_(Ew2E>0f?r1+NKx;8uV=wYq;z7~G8a7lkgMRutl!dj^X_&u0H{
zQRw}8Wb|WwedIiBuHt(y-1oin(j8+>IKS1=y?plTvBRJ0>tk0K?bVrk`|joMJzMHN
z@V-#$K2(a1t_fGR2KN?)K94MTdg_HwFRUl0L7T4C%)P^ZI{wb_V$ZXsj_1~d=`DY2
zndkk|y;JvN_sM(4yGC*E;nKh_zD2OO?L&b!cN=bYprafCQV+vN{Nh&kaM=%ErpsWt
zg^hx!yYKGQovCt&%|tYEsLUV%M;!UK6-JC$$3q@QUf5;^PlTLs?XOqFqU<^2c@Fbw
zXNWz{lS|`CIQ~UKlkj4$PZjRTx;{k58KQfRyU!Nh@7~RMnVts__R6zPLRa>29QQ*2
zafxqG<R9qp*L_2q(XLIgbxRCG|6MrL&lgd=+>7||5Bwa*!R=%{D8Yvxx(lur{{>^I
B@OS_K

literal 0
HcmV?d00001

diff --git a/v1/sample/tpu/__pycache__/sampler.cpython-312.pyc b/v1/sample/tpu/__pycache__/sampler.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..77c1cb51536fe171e2e70fa1fe8d6aa29f6f63ef
GIT binary patch
literal 9288
zcmbtaYit`=cAnvL_?D<AWl0{{aco8sW%(8P5o-<D&c?A7Z)^h_#Q`zm45g7s4l^^9
zEiDDet+%0ex3E;8kX$Ta1uYO6Hn0jd#k#+`KNsj967-hpV7CyE07d?^3}m1||Fq}a
zd5}`5O^aSwm-l(@z2}~L&UeoEp8^3d1u5nDxj4{EQD0)kOpH<3(V(zO@zglQ)4VN3
zkJIGWmbQ=EX>7Bn9BJpcGwm98k-8)0PBY^Sl%3-q8}&BDyB<=!Td+^Jn#60r&+K}6
z+{ZHlJ>6OBF-yE>pLW~4o1%E{pX~KD?oBeh|Dj_%FlUPf=1<+?(%F<Cvng&4auF+O
zA)|_!N%r>5JFJq+W+hn_cvi{^GN+1CMu~lm+Z&78w9s{FGAm0H%55Q|NV1{@407+~
z)ND?T(ponVxn<HIok019pmIE?a+BXoeOdVXZ@;>jFwcv>9;32z%0^M20Q&_B*iMbx
z3RDu<|BxBC^ESaTO|GwgA~3`*xOj))PP%v}9Fg%*eA~WbUHi~*3m%}+kUp@EdFUMX
z?n`sOc@EwK`|<5NPv3XrHC?<H=KA-YyZ@R#yk_3t_$+)t2=c*w`W!+C&KiRGP5Z9f
zwC~*g&e06?n)&cP^IC+kfctrU_nl%bX^TL<@2$A_R-oKkpzhP-ZMUdsyXH3JFhSQ5
z!`Fs?JBJ|qYkHMZt<EJnPyMBnqMjKoG&M&>X%ulMyZ}Mgn0Q>wh-y3zO%6p!B{fex
zo=9<u5|1k&rxd&RUzdi|bap5!W(QSHo)px<`?)vIj?BC%45h@0q3oPGC1r+YQ>paO
z?C_96-rW#96Qd}{vU4)Z^n8=C`Ixz82wIgOWZy1QUon9tcZuozJ=3)VEtKX;Nt2?g
zXw8HoysmiKcwU-I7Sx=aNf>Gdhf{D!oeAquSf%pxbUllp4U>u|B5B%TmTJGxj2R2S
zv}sU7dsCjy+nyN|7VN6|o~gWj+P8Ns+$wF-<EiJhd5*jTZqh#X^?ySGrt8NO__!*~
z2${IZD_RqroM@l8s;i%<OS7qx=2Rs)F{QbaDTz~0p3q!6uVp-n=E-H0k8^@BFGQU(
zZbwG$%1zkk)(7%h(3laIh#pgrX)Go=K*l8{`5q_p^PyY1_KX<~EzqlsLAFR${ZzPf
zHL?=<<>@DHJ$|d)94)xE!|kj6EB$N9;_Gjg!y^UvD;L#uw8~HiU$68Im3oIZZROsR
zTRnZRe6B8UAy^GkO}#~?N5;F?9IBAcYF;jtipyMvm(q#)yRq)|A&iB4wJW`<b+gmf
zeL|;^@;23)KLh<d-kKpP3pS98MmKAlwr<m;12b*U?dBbtzi@Ysu}OVQb@Xf8$x~Xh
z^I{s<-T^hud2dRP1uYQ2b?L^<>+g)c9lvt(mgeBa*|^*V1EP+)>j48z$p;}*aL=`y
zXy&rn)EwM@npmftEX+sDJNZu6QJg;l*&_7~aJK6YEuE|9SI)1gf0r&DJh^%6#cSo3
z(Zc1eP}`%QEd6Bd)RT*kFK%#a7t05ZmqWuvW|-VVqMnzQO1TVV_j^q|4RUSV#dQ5!
zggKaMFMvqAj8Y^Yf(*po1)3zy-PatmqHyo2t;P~v=@<eTn3M&9pNs2aJKtuqU{~`A
zpr{}t7b!gA!qUQexUf(Ty;ccDOQGn-p>k-j$PDU-tly?3TK^7*fJ0J^R7T!<#tZhm
zt&zYj+OAQ5hAIQ;?MbLI8qI-L*PfwJwZs%>nOLoE*n@6ZrGcs;t27vIDJxpV_e~NR
zi|=kvf)!C$>`8SyqNnlx_9UKGE&Mm#zNZtayA&Tajn-~Y$~$0Xd>4C?wRfl5W_C??
zo2A+>%&r$)qeDe`APH4K-kx__CvoLnx2UJ~F(Qspn|v6CX-;09%L>sZc>rs^x_2kz
z>mpB7bEd^iJgfQi2dG!fhbm>`GoZq=&<|=FD*8_rbgz_DLDGqGkP!-N0bR`*QmuI>
zg$zPaz?t%ExY!ZMqVC$0(3N;_m(cT?lb8rCxQiGsAArdUsyI|8kceiNk@53E^ZDq{
z=`@b~56D2Nd#SG8N~FIO>EF0oj+`t6w?k|tG*Ai+6hk9LW(4x8iwd__nva&6k8b(H
z#nvO0*5Oj?aPj2j%E|XiC*Rw#+rr+03rP8UD!xM{-=U%}w$&D?v>hq69a&EnW22SW
zl~U|Vx$SD<Dp-i{VW6`GgZ+m~ekdD-9k+wf2~y1+tHG7v`ibXve)ZAQkCubwrt<~o
zR;0(+=oM?}a^z+q_*J+AjS!&|E%~F*Z<PFJxBOl34@kCn3vSq2Q%52AU2W$8CZJ;2
zxeVF<+U`%IhnlG0qU0D5irO_FSn~LH1VHYG-d%dGDIul7uMpy<<)7~~?`m()2RIks
z0nv7qP+uw3w?6TO^EZLd1I18ZIdrkeT+|IKV^Y)nnOxeUt$8e{(b&>X5Ow%HRu)tg
z(f@`*y$jE5!Li^3EYv^^)+_-i(S{ZnthC*F@-9$Pu9>?O)zB)}6tcT+j}5#geD+Bj
zZ?E0V0`omHTzSWy8FZeRwv;EZ-AFZvJ>5W=npP3kYc^-(890^OR6~d(xSs;ky!ta`
z*|#|rfCFpZ84J*h1x+%;0w!Yh7t0U9n@?v|Xa}qq^ICH+$&<=CtHxSH&aubf=Jnx9
zl)cX$o0SsWM3mKmW!;Q=0XfHlZWGfm5n3l;Pg2sN2(;>EnS0lN0hM!Nh6Ti;uUI$G
zlDKnh{Sg%Qn3yzM%#%m!=G83#>@c`soQKRcni@~BD4u7BFYB||cc4H}b>k`bM0IL6
z(*!+mpwzhiKJh+wG5ofa9h_msj0%6em=F|Wk%8T`-~#Fy&Gxgy^{3UT5O`n5aI)L~
z8zEhJ@WzqBLd-PWkHvx-G?V*4UZWlz$~sW~2x!$@lSDi<yOK+5_5`QOXzev89Qou4
z8I=G`B5ubhl;s~_b_p^qfHZ2l$4{yTleC~N7v?>I;U!KGZdlRW#wZ1$xg`j?rxMb)
zW6_=O(2p#~_H=*}p_IRcY>|3(oH{!2+4QH=o1HH%{O<jiuiq>&hYNw_JXp52-b(Ay
zQtQzTTe-Er;Mt1wJvsRJ;6`}kgL33ea9CVaC%b;J)G=IXKT~QyvniL`&lP-N!~kkX
zSE6elZ1{`ar(X=e48K)yBmO?Sa&|4VkuLUJ_-)_ImdgbONVIgVzOnMgFYi40@bQP`
zaJ1n5D%87nZ-d$FuhZJ{Fl=_0XNy3QSf_8HQ19F~0zQrW+J+tvM4amMqP<QpHUN@&
zJB9?GJ524hfS|1b5apfEz;<BDJLbU-pgqVtQIju#PH&_~^R5u3qNhp{?=t86DAO9y
z;LC%ybkDzIiR)D{r3$iwZv-L)Y)-+b9z@=<syHj4I+@@m#FVJcvFem8C{t33hY>Mr
zeofqOn*h)~BM4dW;)wifb}^HTGWsL1WipyKnad<FM#!b)Gq6+5!6BqW*sA%{oH7Ic
zdr|}kR&$cqy9>SHg=*otUBzd)R8D}%2GEGt+C^vza{P2ofv{v;hnGz-R5W7)xX^c@
z9lAgBEvER_Vbi~W4rLZH5dARKd-%zZAOE=0bG+1ZywWpL>KS>_{@eG9JtO6w9~POe
zue$r5Tzh=2c=YTG`FE#YcHb;Ak?lw?c?HeoNI#&rQe+fx;eo-;-qL~5BGb9e1S`ye
z5_6!~Gg#~%{KB~@{Mx^<@RE58+^|A`U=aBntS_T)x=W-T&_G1m`@e!3rceNQXb3N!
z0Xa+{DmHl#L=*Avo@9=>Onn5`R)Z^f2V&z!pe65oZb1#2`bD<`gGvp;1OQwNp>Oyk
z>VgQ39sqB-&?K|~p=FQd57guo1d0R~ybusj=i(`GM$r7i{j8M1m^O!kCxX+W$QWdl
zqnNz`S=6QLWa}0*`eTh2<qx4xLA|1@RozE;6Y4b=dzV}BH#pu9B`*~SSNz>2fA`v*
zvj1>_23YO!J_;@cUoxHl;%nPt->9(1OYHG~W>2j6m+9rRTTRW&eJhSiQ(vj6Z{wX}
zQ{V5K&Q$GG-^uMz>!bOl`L({EFH}N@OQFLXwqodTIn-YX9WRBBZ-&dEQ$^+!5v3@7
z6#}3Tugq|1As*Mf@pxL|b15wQ<MEGkTuSdD!A6~3E<JuPBP1nZGPwsznqxweQo3V@
z{vPp;<crt?4__tLOum5~__i=~lTbC!+oqQ$BcmX`qlZZo0zCV8l$QO_s-PhJKxZe)
zpo|&fLxqE$Zy!>xY&PeCDie10Za1~9`d9o_CzQc9bdOZsSYjw|$BqX}$EohVZ#*97
z32P*jVI;6DwUny5vBpqskt&XXJMe}cbuV@A_^{SaJ7eotKD++u^(qC$%{#xj`}y4+
zELL5IoE;WLC>v{I3D(wWc(C?Ens$z^=RV7Snnxm|FP#7A{|7%38LhgGIY+m_-x^pM
zs5+qxL^`^vZY(iWYh?Ap%7v;2Yp|`zjt@(>>9DiiS{TYOr>X5xekqR!Z?9V%YsZ4l
z(<mI+?SwK6Zi}q7tO-w~$5JseSZa+`-PmsK`9D2S(^U>(Jem}Zp3&&6j0k*}_OT4=
zzXJZ=FYZ$x+#-4h_0^ta7)79h$<itGgD>)qMjEAN-WoeWs%3f`eFQSK%sjX{U`|~P
zwTTOix}l9=jAPm|t@<7@2Up8w8rKCkI3-l0$Pe#Ay*P6WbYlbehp%6U$-5iHhVo1;
za>KjLUF|aL_PiV8GYcNrLxbp2-t)Z_Y!7}>3&b~yK;<2~fQ~os<y~MQzUNHH;~B6M
z3qIbS_wi2N`BQLrleP=Mlf17{9IIYl8dEnpu;AbKUi{X*1OPY%{-3;|z@jkR&rB!t
z5{8t)B|uLFeM&54;q#{|rp0;q5Q+{beAP7E%G*<-!g8reNd}K7&2qC6e3~$z7Wobl
zQ@{%V7{=b45))G_j27;zGJIr(MU<3ukCieyIkYi^8WK!QiNY)_HZjL05#J+lV-F>A
z>Y$WN9%2n=3%n?RZUPI7Pl^D#bfh<c+x8+kE{O}*gF7;u;6ZbbxPOE00O^IjfqRN8
zS}q;ZQl{X`1Dk;FzpAK042F!=d7}ub!HqFV70#KvN^lBnEy=2)06u6;h_UHhN)>^<
zg1Mr#1fWqt0UK@1CA%lvjKXPPU8G@dhvj4e#wAiY9ynyMptckCoeV3H7{NVB=9K|L
zOT}ZF=#=Fp@H{h;%1+1v2R<J_${0)oK*{lh39xZok+@k3JH-K97SM7MT8SwxlOQLX
z5RgrYDG9dD@;Mo6a9wZ_#NUSM0INvsJvc9yA-ofLav_8~A*Pd<kkO$-mO{7!xm|-a
zS54^c<pm`n5Lp-_@LRqKuPhockT!gOSK-qnh$wM64bL<sWhM#!mM_C#_?kJzLEPas
zl;u0v;7a7u;Ht`3kW^6r7B-E&GngSB(!2=06$sA(eL9Z5C&q9SQZA!v=%!*Nr-E2&
zfs90AyEAcw;984$VbB=oMR*4?ueo7CB&d0DYE~afXlCnaLWR&IpFNQwwWPy_lej<3
z5U?t7(B%-GeVq!lJQ`aXTayc8W&feYD_dY>udQ5LKe2ga`C7Sk<iU-_Ys>Vun^|1g
zYG+ra6=|I-w;$UW{?)0cryw}!{oGsbKVND;U+`_U_f^{aOYQxebg{j^+<pR@I{GRd
z$4VW?z~TL{+;O(x2YcIfU@iG1^*FUL{8%bQ1}mK-rOuHTKPq;PlsiWYfi0%B!t|Ax
zzV*Q`j=XUGdSJ8XB{RC+dw4xn>OE0p4s2QOLHAJo2;AczbnLJ;zahU2pD4Ju+Pc^2
z^-G_<`{}!zm)74czjmg?o+-7RDR{TK`wHH_8eX1QK3xKj1kRRO$!vs|Gv)RH!x#U!
z+<vyv8MeNEFTUo*8#=fQYVLTPmlE-~E?|tV<1!ifM<^>H{Jb5T9gZ0vPIZikZj5%o
z>>^J?h{2cdnE9nz2cAc8nCk`ss{|3sJhYHYeoE<>1<jGhT+jjSMfuO6idJ0t7_zFJ
zrs;276n*|n%Kt~I?cb<#f21yNH?=MXUb)6?^y$LHBXLQ51^<(TK3$!64A2l&Z+>)r
u>3Y=;<!!hBll+7HGGB6cRh`fPcgqB7O>S&rD3|Y(yASTZ@<5Gj>3;y1t`;8v

literal 0
HcmV?d00001

diff --git a/v1/sample/tpu/metadata.py b/v1/sample/tpu/metadata.py
new file mode 100644
index 0000000..0c1a22e
--- /dev/null
+++ b/v1/sample/tpu/metadata.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass, field
+
+import torch
+
+from vllm.v1.worker.tpu_input_batch import InputBatch
+
+DEFAULT_SAMPLING_PARAMS = dict(
+    temperature=-1.0,
+    min_p=0.0,
+    # strictly disabled for now
+    top_k=0,
+    top_p=1.0,
+    # frequency_penalties=0.0,
+    # presence_penalties=0.0,
+    # repetition_penalties=0.0,
+)
+
+
+@dataclass
+class TPUSupportedSamplingMetadata:
+    # This class exposes a more xla-friendly interface than SamplingMetadata
+    # on TPU, in particular all arguments should be traceable and no optionals
+    # are allowed, to avoid graph recompilation on Nones.
+    temperature: torch.Tensor = None
+
+    min_p: torch.Tensor = None
+    top_k: torch.Tensor = None
+    top_p: torch.Tensor = None
+
+    all_greedy: bool = True
+    all_random: bool = False
+
+    # Whether logprobs are to be gathered in this batch of request. To balance
+    # out compile time and runtime, a fixed `max_number_logprobs` value is used
+    # when gathering logprobs, regardless of the values specified in the batch.
+    logprobs: bool = False
+
+    # TODO No penalties for now
+    no_penalties: bool = True
+    prompt_token_ids = None
+    frequency_penalties = None
+    presence_penalties = None
+    repetition_penalties = None
+    # should use tensor
+    output_token_ids: list[list[int]] = field(default_factory=lambda: list())
+
+    min_tokens = None  # impl is not vectorized
+
+    logit_bias: list[dict[int, float] | None] = field(default_factory=lambda: list())
+
+    allowed_token_ids_mask = None
+    bad_words_token_ids = None
+
+    # Generator not supported by xla
+    _generators: dict[int, torch.Generator] = field(default_factory=lambda: dict())
+
+    @property
+    def generators(self) -> dict[int, torch.Generator]:
+        # Generator not supported by torch/xla. This field must be immutable.
+        return self._generators
+
+    @classmethod
+    def from_input_batch(
+        cls,
+        input_batch: InputBatch,
+        padded_num_reqs: int,
+        xla_device: torch.device,
+        generate_params_if_all_greedy: bool = False,
+    ) -> "TPUSupportedSamplingMetadata":
+        """
+        Copy sampling tensors slices from `input_batch` to on device tensors.
+
+        `InputBatch._make_sampling_metadata` causes recompilation on XLA as it
+        slices dynamic shapes on device tensors. This impl moves the dynamic
+        ops to CPU and produces tensors of fixed `padded_num_reqs` size.
+
+        Args:
+            input_batch: The input batch containing sampling parameters.
+            padded_num_reqs: The padded number of requests.
+            xla_device: The XLA device.
+            generate_params_if_all_greedy: If True, generate sampling parameters
+                even if all requests are greedy. this is useful for cases where
+                we want to pre-compile a graph with sampling parameters, even if
+                they are not strictly needed for greedy decoding.
+        """
+        needs_logprobs = (
+            input_batch.max_num_logprobs > 0 if input_batch.max_num_logprobs else False
+        )
+        # Early return to avoid unnecessary cpu to tpu copy
+        if input_batch.all_greedy is True and generate_params_if_all_greedy is False:
+            return cls(all_greedy=True, logprobs=needs_logprobs)
+
+        num_reqs = input_batch.num_reqs
+
+        def fill_slice(cpu_tensor: torch.Tensor, fill_val) -> torch.Tensor:
+            # Pad value is the default one.
+            cpu_tensor[num_reqs:padded_num_reqs] = fill_val
+
+        fill_slice(
+            input_batch.temperature_cpu_tensor, DEFAULT_SAMPLING_PARAMS["temperature"]
+        )
+        fill_slice(input_batch.min_p_cpu_tensor, DEFAULT_SAMPLING_PARAMS["min_p"])
+        fill_slice(input_batch.top_k_cpu_tensor, DEFAULT_SAMPLING_PARAMS["top_k"])
+        fill_slice(input_batch.top_p_cpu_tensor, DEFAULT_SAMPLING_PARAMS["top_p"])
+
+        # Slice persistent device tensors to a fixed pre-compiled padded shape.
+        return cls(
+            temperature=input_batch.temperature_cpu_tensor[:padded_num_reqs].to(
+                xla_device
+            ),
+            all_greedy=input_batch.all_greedy,
+            all_random=input_batch.all_random,
+            # TODO enable more and avoid returning None values
+            top_p=input_batch.top_p_cpu_tensor[:padded_num_reqs].to(xla_device),
+            top_k=input_batch.top_k_cpu_tensor[:padded_num_reqs].to(xla_device),
+            min_p=input_batch.min_p_cpu_tensor[:padded_num_reqs].to(xla_device),
+            logprobs=needs_logprobs,
+        )
diff --git a/v1/sample/tpu/sampler.py b/v1/sample/tpu/sampler.py
new file mode 100644
index 0000000..8f0463c
--- /dev/null
+++ b/v1/sample/tpu/sampler.py
@@ -0,0 +1,215 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Sampler layer implementing TPU supported operations."""
+
+import torch
+import torch.nn as nn
+
+from vllm.v1.outputs import LogprobsTensors, SamplerOutput
+from vllm.v1.sample.tpu.metadata import TPUSupportedSamplingMetadata
+
+_SAMPLING_EPS = 1e-5
+
+
+class Sampler(nn.Module):
+    def __init__(self):
+        # TODO(houseroad): Add support for logprobs_mode.
+        super().__init__()
+
+    def forward(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: TPUSupportedSamplingMetadata,
+    ) -> SamplerOutput:
+        # Use float32 for the logits.
+        logits = logits.to(torch.float32)
+        # Sample the next token.
+        sampled = self.sample(logits, sampling_metadata)
+
+        # These are TPU tensors.
+        sampler_output = SamplerOutput(
+            # The sampled tokens are expanded to 2D tensor with shape
+            # [num_requests, 1], where each row represents one generated
+            # token per request.
+            sampled_token_ids=sampled.unsqueeze(-1),
+            logprobs_tensors=None,
+        )
+        return sampler_output
+
+    def apply_temperature(
+        self,
+        logits: torch.Tensor,
+        temp: torch.Tensor,
+        all_random: bool = False,
+    ) -> torch.Tensor:
+        # Avoid division by zero for greedy sampling (temperature ~ 0.0).
+        if not all_random:
+            temp = torch.where(temp < _SAMPLING_EPS, 1.0, temp)
+        return logits.div_(temp.unsqueeze(dim=1))
+
+    def greedy_sample(self, logits: torch.Tensor) -> torch.Tensor:
+        return logits.argmax(dim=-1).view(-1)
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: TPUSupportedSamplingMetadata,
+    ) -> torch.Tensor:
+        greedy_sampled = self.greedy_sample(logits)
+
+        assert sampling_metadata.temperature is not None
+
+        # Apply temperature.
+        logits = self.apply_temperature(
+            logits, sampling_metadata.temperature, sampling_metadata.all_random
+        )
+
+        # Apply min_p.
+        if sampling_metadata.min_p is not None:
+            logits = self.apply_min_p(logits, sampling_metadata.min_p)
+
+        # Apply top_k and/or top_p.
+        logits = apply_top_k_top_p(
+            logits,
+            sampling_metadata.top_k,
+            sampling_metadata.top_p,
+        )
+
+        # Random sample.
+        probs = logits.softmax(dim=-1, dtype=torch.float32)
+        random_sampled = self.random_sample(probs, sampling_metadata.generators)
+
+        sampled = torch.where(
+            sampling_metadata.temperature < _SAMPLING_EPS,
+            greedy_sampled,
+            random_sampled,
+        )
+        return sampled
+
+    def compute_logprobs(self, logits: torch.Tensor) -> torch.Tensor:
+        return logits.log_softmax(dim=-1, dtype=torch.float32)
+
+    def gather_logprobs(
+        self,
+        logprobs: torch.Tensor,
+        num_logprobs: int,
+        token_ids: torch.Tensor,
+    ) -> LogprobsTensors:
+        """
+        Gather logprobs for topk and sampled/prompt token.
+
+        Args:
+          logprobs: (num tokens) x (vocab) tensor
+          num_logprobs: minimum number of logprobs to
+                        retain per token
+          token_ids: prompt tokens (if prompt logprobs)
+                     or sampled tokens (if sampled
+                     logprobs); 1D token ID tensor
+                     with (num tokens) elements
+
+        Returns:
+          Top-k int indices tensor, (num tokens) x (num_logprobs + 1)
+          Top-k float logprobs tensor, (num tokens) x (num_logprobs + 1)
+          Sampled token rank tensor, (num tokens)
+        """
+        # Find the topK values.
+        topk_logprobs, topk_indices = torch.topk(logprobs, num_logprobs, dim=-1)
+
+        # Get with the logprob of the prompt or sampled token.
+        token_ids = token_ids.unsqueeze(-1)
+        token_logprobs = logprobs.gather(-1, token_ids)
+
+        # Compute the ranks of the actual token.
+        token_ranks = (logprobs >= token_logprobs).sum(-1)
+
+        # Concatenate together with the topk.
+        indices = torch.cat((token_ids, topk_indices), dim=1)
+        logprobs = torch.cat((token_logprobs, topk_logprobs), dim=1)
+
+        # Use int32 to reduce the tensor size.
+        indices = indices.to(torch.int32)
+
+        return LogprobsTensors(indices, logprobs, token_ranks)
+
+    def apply_min_p(
+        self,
+        logits: torch.Tensor,
+        min_p: torch.Tensor,
+    ) -> torch.Tensor:
+        """
+        Filters logits using adaptive probability thresholding.
+        """
+        # Convert logits to probability distribution
+        probability_values = torch.nn.functional.softmax(logits, dim=-1)
+        # Calculate maximum probabilities per sequence
+        max_probabilities = torch.amax(probability_values, dim=-1, keepdim=True)
+        # Reshape min_p for broadcasting
+        adjusted_min_p = min_p.unsqueeze(1) * max_probabilities
+        # Identify valid tokens using threshold comparison
+        valid_token_mask = probability_values >= adjusted_min_p
+        # Apply mask using boolean indexing (xla friendly)
+        logits.masked_fill_(~valid_token_mask, -float("inf"))
+        return logits
+
+    def random_sample(
+        self,
+        probs: torch.Tensor,
+        generators: dict[int, torch.Generator],
+    ) -> torch.Tensor:
+        q = torch.empty_like(probs)
+        # NOTE(woosuk): To batch-process the requests without their own seeds,
+        # which is the common case, we first assume that every request does
+        # not have its own seed. Then, we overwrite the values for the requests
+        # that have their own seeds.
+        q.exponential_()
+        if generators:
+            for i, generator in generators.items():
+                q[i].exponential_(generator=generator)
+        return probs.div_(q).argmax(dim=-1).view(-1)
+
+
+def apply_top_k_top_p(
+    logits: torch.Tensor,
+    k: torch.Tensor | None,
+    p: torch.Tensor | None,
+) -> torch.Tensor:
+    """
+    Apply top-k and top-p optimized for TPU.
+
+    This algorithm avoids using torch.scatter which is extremely slow on TPU.
+    This is achieved by finding a "cut-off" element in the original logit, and
+    after thresholding the logit using this cut-off, the remaining elements
+    shall constitute the top-p set.
+
+    Note: in the case of tie (i.e. multipple cut-off elements present in the
+    logit), all tie elements are included in the top-p set. In other words,
+    this function does not break ties. Instead, these tie tokens have equal
+    chance of being chosen during final sampling, so we can consider the tie
+    being broken then.
+    """
+    probs = logits.softmax(dim=-1)
+    probs_sort, _ = probs.sort(dim=-1, descending=False)
+
+    if k is not None:
+        top_k_count = probs_sort.size(1) - k.to(torch.long)  # shape: (batch, )
+        top_k_count = top_k_count.unsqueeze(dim=1)
+        top_k_cutoff = probs_sort.gather(-1, top_k_count)
+
+        # Make sure the no top-k rows are no-op.
+        no_top_k_mask = (k == logits.shape[1]).unsqueeze(dim=1)
+        top_k_cutoff.masked_fill_(no_top_k_mask, -float("inf"))
+
+        elements_to_discard = probs < top_k_cutoff
+        logits.masked_fill_(elements_to_discard, -float("inf"))
+
+    if p is not None:
+        cumprob = torch.cumsum(probs_sort, dim=-1)
+        top_p_mask = cumprob <= 1 - p.unsqueeze(dim=1)
+        top_p_mask[:, -1] = False  # at least one
+
+        top_p_count = top_p_mask.sum(dim=-1).unsqueeze(1)
+        top_p_cutoff = probs_sort.gather(-1, top_p_count)
+        elements_to_discard = probs < top_p_cutoff
+        logits.masked_fill_(elements_to_discard, -float("inf"))
+
+    return logits
diff --git a/v1/serial_utils.py b/v1/serial_utils.py
new file mode 100644
index 0000000..0a68063
--- /dev/null
+++ b/v1/serial_utils.py
@@ -0,0 +1,532 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import dataclasses
+import importlib
+import pickle
+from collections.abc import Callable, Sequence
+from functools import partial
+from inspect import isclass
+from types import FunctionType
+from typing import Any, TypeAlias, get_type_hints
+
+import cloudpickle
+import msgspec
+import numpy as np
+import torch
+import zmq
+from msgspec import msgpack
+from pydantic import GetCoreSchemaHandler
+from pydantic_core import core_schema
+
+from vllm import envs
+from vllm.logger import init_logger
+from vllm.multimodal.inputs import (
+    BaseMultiModalField,
+    MultiModalBatchedField,
+    MultiModalFieldConfig,
+    MultiModalFieldElem,
+    MultiModalFlatField,
+    MultiModalKwargs,
+    MultiModalKwargsItem,
+    MultiModalKwargsItems,
+    MultiModalSharedField,
+    NestedTensors,
+)
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.utils import tensor_data
+
+logger = init_logger(__name__)
+
+CUSTOM_TYPE_PICKLE = 1
+CUSTOM_TYPE_CLOUDPICKLE = 2
+CUSTOM_TYPE_RAW_VIEW = 3
+
+# MultiModalField class serialization type map.
+# These need to list all possible field types and match them
+# to factory methods in `MultiModalFieldConfig`.
+MMF_CLASS_TO_FACTORY: dict[type[BaseMultiModalField], str] = {
+    MultiModalFlatField: "flat",
+    MultiModalSharedField: "shared",
+    MultiModalBatchedField: "batched",
+}
+
+bytestr: TypeAlias = bytes | bytearray | memoryview | zmq.Frame
+
+
+def _log_insecure_serialization_warning():
+    logger.warning_once(
+        "Allowing insecure serialization using pickle due to "
+        "VLLM_ALLOW_INSECURE_SERIALIZATION=1"
+    )
+
+
+def _typestr(val: Any) -> tuple[str, str] | None:
+    if val is None:
+        return None
+    t = type(val)
+    return t.__module__, t.__qualname__
+
+
+def _encode_type_info_recursive(obj: Any) -> Any:
+    """Recursively encode type information for nested structures of
+    lists/dicts."""
+    if obj is None:
+        return None
+    if type(obj) is list:
+        return [_encode_type_info_recursive(item) for item in obj]
+    if type(obj) is dict:
+        return {k: _encode_type_info_recursive(v) for k, v in obj.items()}
+    return _typestr(obj)
+
+
+def _decode_type_info_recursive(
+    type_info: Any, data: Any, convert_fn: Callable[[Sequence[str], Any], Any]
+) -> Any:
+    """Recursively decode type information for nested structures of
+    lists/dicts."""
+    if type_info is None:
+        return data
+    if isinstance(type_info, dict):
+        assert isinstance(data, dict)
+        return {
+            k: _decode_type_info_recursive(type_info[k], data[k], convert_fn)
+            for k in type_info
+        }
+    if isinstance(type_info, list) and (
+        # Exclude serialized tensors/numpy arrays.
+        len(type_info) != 2 or not isinstance(type_info[0], str)
+    ):
+        assert isinstance(data, list)
+        return [
+            _decode_type_info_recursive(ti, d, convert_fn)
+            for ti, d in zip(type_info, data)
+        ]
+    return convert_fn(type_info, data)
+
+
+class UtilityResult:
+    """Wrapper for special handling when serializing/deserializing."""
+
+    def __init__(self, r: Any = None):
+        self.result = r
+
+
+class MsgpackEncoder:
+    """Encoder with custom torch tensor and numpy array serialization.
+
+    Note that unlike vanilla `msgspec` Encoders, this interface is generally
+    not thread-safe when encoding tensors / numpy arrays.
+
+    By default, arrays below 256B are serialized inline Larger will get sent
+    via dedicated messages. Note that this is a per-tensor limit.
+    """
+
+    def __init__(self, size_threshold: int | None = None):
+        if size_threshold is None:
+            size_threshold = envs.VLLM_MSGPACK_ZERO_COPY_THRESHOLD
+        self.encoder = msgpack.Encoder(enc_hook=self.enc_hook)
+        # This is used as a local stash of buffers that we can then access from
+        # our custom `msgspec` hook, `enc_hook`. We don't have a way to
+        # pass custom data to the hook otherwise.
+        self.aux_buffers: list[bytestr] | None = None
+        self.size_threshold = size_threshold
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            _log_insecure_serialization_warning()
+
+    def encode(self, obj: Any) -> Sequence[bytestr]:
+        try:
+            self.aux_buffers = bufs = [b""]
+            bufs[0] = self.encoder.encode(obj)
+            # This `bufs` list allows us to collect direct pointers to backing
+            # buffers of tensors and np arrays, and return them along with the
+            # top-level encoded buffer instead of copying their data into the
+            # new buffer.
+            return bufs
+        finally:
+            self.aux_buffers = None
+
+    def encode_into(self, obj: Any, buf: bytearray) -> Sequence[bytestr]:
+        try:
+            self.aux_buffers = [buf]
+            bufs = self.aux_buffers
+            self.encoder.encode_into(obj, buf)
+            return bufs
+        finally:
+            self.aux_buffers = None
+
+    def enc_hook(self, obj: Any) -> Any:
+        if isinstance(obj, torch.Tensor):
+            return self._encode_tensor(obj)
+
+        # Fall back to pickle for object or void kind ndarrays.
+        if isinstance(obj, np.ndarray) and obj.dtype.kind not in ("O", "V"):
+            return self._encode_ndarray(obj)
+
+        if isinstance(obj, slice):
+            # We are assuming only int-based values will be used here.
+            return tuple(
+                int(v) if v is not None else None
+                for v in (obj.start, obj.stop, obj.step)
+            )
+
+        if isinstance(obj, MultiModalKwargsItem):
+            return self._encode_mm_item(obj)
+
+        if isinstance(obj, MultiModalKwargsItems):
+            return self._encode_mm_items(obj)
+
+        if isinstance(obj, MultiModalKwargs):
+            return self._encode_mm_kwargs(obj)
+
+        if isinstance(obj, UtilityResult):
+            result = obj.result
+            if not envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+                return None, result
+            # Since utility results are not strongly typed, we recursively
+            # encode type information for nested structures of lists/dicts
+            # to help with correct msgspec deserialization.
+            return _encode_type_info_recursive(result), result
+
+        if not envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            raise TypeError(
+                f"Object of type {type(obj)} is not serializable"
+                "Set VLLM_ALLOW_INSECURE_SERIALIZATION=1 to allow "
+                "fallback to pickle-based serialization."
+            )
+
+        if isinstance(obj, FunctionType):
+            # `pickle` is generally faster than cloudpickle, but can have
+            # problems serializing methods.
+            return msgpack.Ext(CUSTOM_TYPE_CLOUDPICKLE, cloudpickle.dumps(obj))
+
+        return msgpack.Ext(
+            CUSTOM_TYPE_PICKLE, pickle.dumps(obj, protocol=pickle.HIGHEST_PROTOCOL)
+        )
+
+    def _encode_ndarray(
+        self, obj: np.ndarray
+    ) -> tuple[str, tuple[int, ...], int | memoryview]:
+        assert self.aux_buffers is not None
+        # If the array is non-contiguous, we need to copy it first
+        arr_data = obj.data if obj.flags.c_contiguous else obj.tobytes()
+        if not obj.shape or obj.nbytes < self.size_threshold:
+            # Encode small arrays and scalars inline. Using this extension type
+            # ensures we can avoid copying when decoding.
+            data = msgpack.Ext(CUSTOM_TYPE_RAW_VIEW, arr_data)
+        else:
+            # Otherwise encode index of backing buffer to avoid copy.
+            data = len(self.aux_buffers)
+            self.aux_buffers.append(arr_data)
+
+        # We serialize the ndarray as a tuple of native types.
+        # The data is either inlined if small, or an index into a list of
+        # backing buffers that we've stashed in `aux_buffers`.
+        return obj.dtype.str, obj.shape, data
+
+    def _encode_tensor(
+        self, obj: torch.Tensor
+    ) -> tuple[str, tuple[int, ...], int | memoryview]:
+        assert self.aux_buffers is not None
+        # view the tensor as a contiguous 1D array of bytes
+        arr_data = tensor_data(obj)
+        if obj.nbytes < self.size_threshold:
+            # Smaller tensors are encoded inline, just like ndarrays.
+            data = msgpack.Ext(CUSTOM_TYPE_RAW_VIEW, arr_data)
+        else:
+            # Otherwise encode index of backing buffer to avoid copy.
+            data = len(self.aux_buffers)
+            self.aux_buffers.append(arr_data)
+        dtype = str(obj.dtype).removeprefix("torch.")
+        return dtype, obj.shape, data
+
+    def _encode_mm_items(self, items: MultiModalKwargsItems) -> dict[str, Any]:
+        return {
+            modality: [self._encode_mm_item(item) for item in itemlist]
+            for modality, itemlist in items.items()
+        }
+
+    def _encode_mm_item(self, item: MultiModalKwargsItem) -> list[dict[str, Any]]:
+        return [self._encode_mm_field_elem(elem) for elem in item.values()]
+
+    def _encode_mm_field_elem(self, elem: MultiModalFieldElem) -> dict[str, Any]:
+        return {
+            "modality": elem.modality,
+            "key": elem.key,
+            "data": (
+                None if elem.data is None else self._encode_nested_tensors(elem.data)
+            ),
+            "field": self._encode_mm_field(elem.field),
+        }
+
+    def _encode_mm_kwargs(self, kw: MultiModalKwargs) -> dict[str, Any]:
+        return {
+            modality: self._encode_nested_tensors(data) for modality, data in kw.items()
+        }
+
+    def _encode_nested_tensors(self, nt: NestedTensors) -> Any:
+        if isinstance(nt, torch.Tensor):
+            return self._encode_tensor(nt)
+        if isinstance(nt, (int, float)):
+            # Although it violates NestedTensors type, MultiModalKwargs
+            # values are sometimes floats.
+            return nt
+        return [self._encode_nested_tensors(x) for x in nt]
+
+    def _encode_mm_field(self, field: BaseMultiModalField):
+        # Figure out the factory name for the field type.
+        name = MMF_CLASS_TO_FACTORY.get(field.__class__)
+        if not name:
+            raise TypeError(f"Unsupported field type: {field.__class__}")
+        # We just need to copy all of the field values in order
+        # which will be then used to reconstruct the field.
+        field_values = (getattr(field, f.name) for f in dataclasses.fields(field))
+        return name, *field_values
+
+
+class MsgpackDecoder:
+    """Decoder with custom torch tensor and numpy array serialization.
+
+    Note that unlike vanilla `msgspec` Decoders, this interface is generally
+    not thread-safe when encoding tensors / numpy arrays.
+    """
+
+    def __init__(self, t: Any | None = None, share_mem: bool = True):
+        self.share_mem = share_mem
+        self.pin_tensors = is_pin_memory_available()
+        args = () if t is None else (t,)
+        self.decoder = msgpack.Decoder(
+            *args, ext_hook=self.ext_hook, dec_hook=self.dec_hook
+        )
+        self.aux_buffers: Sequence[bytestr] = ()
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            _log_insecure_serialization_warning()
+
+    def decode(self, bufs: bytestr | Sequence[bytestr]) -> Any:
+        if isinstance(bufs, bytestr):  # type: ignore
+            return self.decoder.decode(bufs)
+
+        self.aux_buffers = bufs
+        try:
+            return self.decoder.decode(bufs[0])
+        finally:
+            self.aux_buffers = ()
+
+    def dec_hook(self, t: type, obj: Any) -> Any:
+        # Given native types in `obj`, convert to type `t`.
+        if isclass(t):
+            if issubclass(t, np.ndarray):
+                return self._decode_ndarray(obj)
+            if issubclass(t, torch.Tensor):
+                return self._decode_tensor(obj)
+            if t is slice:
+                return slice(*obj)
+            if issubclass(t, MultiModalKwargsItem):
+                return self._decode_mm_item(obj)
+            if issubclass(t, MultiModalKwargsItems):
+                return self._decode_mm_items(obj)
+            if issubclass(t, MultiModalKwargs):
+                return self._decode_mm_kwargs(obj)
+            if t is UtilityResult:
+                return self._decode_utility_result(obj)
+        return obj
+
+    def _decode_utility_result(self, obj: Any) -> UtilityResult:
+        result_type, result = obj
+        if result_type is not None:
+            if not envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+                raise TypeError(
+                    "VLLM_ALLOW_INSECURE_SERIALIZATION must "
+                    "be set to use custom utility result types"
+                )
+            # Use recursive decoding to handle nested structures
+            result = _decode_type_info_recursive(
+                result_type, result, self._convert_result
+            )
+        return UtilityResult(result)
+
+    def _convert_result(self, result_type: Sequence[str], result: Any) -> Any:
+        if result_type is None:
+            return result
+        mod_name, name = result_type
+        mod = importlib.import_module(mod_name)
+        result_type = getattr(mod, name)
+        return msgspec.convert(result, result_type, dec_hook=self.dec_hook)
+
+    def _decode_ndarray(self, arr: Any) -> np.ndarray:
+        dtype, shape, data = arr
+        # zero-copy decode. We assume the ndarray will not be kept around,
+        # as it now locks the whole received message buffer in memory.
+        buffer = self.aux_buffers[data] if isinstance(data, int) else data
+        arr = np.frombuffer(buffer, dtype=dtype)
+        if not self.share_mem:
+            arr = arr.copy()
+        return arr.reshape(shape)
+
+    def _decode_tensor(self, arr: Any) -> torch.Tensor:
+        dtype, shape, data = arr
+        is_aux = isinstance(data, int)
+        buffer = self.aux_buffers[data] if is_aux else data
+        buffer = buffer if isinstance(buffer, memoryview) else memoryview(buffer)
+        torch_dtype = getattr(torch, dtype)
+        assert isinstance(torch_dtype, torch.dtype)
+        if not buffer.nbytes:  # torch.frombuffer doesn't like empty buffers
+            assert 0 in shape
+            return torch.empty(shape, dtype=torch_dtype)
+        # Create uint8 array
+        arr = torch.frombuffer(buffer, dtype=torch.uint8)
+        # Clone ensures tensor is backed by pytorch-owned memory for safe
+        # future async CPU->GPU transfer.
+        # Pin larger tensors for more efficient CPU->GPU transfer.
+        if not is_aux:
+            arr = arr.clone()
+        elif not self.share_mem:
+            arr = arr.pin_memory() if self.pin_tensors else arr.clone()
+        # Convert back to proper shape & type
+        return arr.view(torch_dtype).view(shape)
+
+    def _decode_mm_items(self, obj: dict[str, Any]) -> MultiModalKwargsItems:
+        return MultiModalKwargsItems(
+            {
+                modality: [self._decode_mm_item(item) for item in itemlist]
+                for modality, itemlist in obj.items()
+            }
+        )
+
+    def _decode_mm_item(self, obj: list[Any]) -> MultiModalKwargsItem:
+        return MultiModalKwargsItem.from_elems(
+            [self._decode_mm_field_elem(v) for v in obj]
+        )
+
+    def _decode_mm_field_elem(self, obj: dict[str, Any]) -> MultiModalFieldElem:
+        if obj["data"] is not None:
+            obj["data"] = self._decode_nested_tensors(obj["data"])
+
+        # Reconstruct the field processor using MultiModalFieldConfig
+        factory_meth_name, *field_args = obj["field"]
+        factory_meth = getattr(MultiModalFieldConfig, factory_meth_name)
+
+        # Special case: decode the union "slices" field of
+        # MultiModalFlatField
+        if factory_meth_name == "flat":
+            field_args[0] = self._decode_nested_slices(field_args[0])
+
+        obj["field"] = factory_meth(None, *field_args).field
+        return MultiModalFieldElem(**obj)
+
+    def _decode_mm_kwargs(self, obj: dict[str, Any]) -> MultiModalKwargs:
+        return MultiModalKwargs(
+            {
+                modality: self._decode_nested_tensors(data)
+                for modality, data in obj.items()
+            }
+        )
+
+    def _decode_nested_tensors(self, obj: Any) -> NestedTensors:
+        if isinstance(obj, (int, float)):
+            # Although it violates NestedTensors type, MultiModalKwargs
+            # values are sometimes floats.
+            return obj
+        if not isinstance(obj, list):
+            raise TypeError(f"Unexpected NestedTensors contents: {type(obj)}")
+        if obj and isinstance(obj[0], str):
+            return self._decode_tensor(obj)
+        return [self._decode_nested_tensors(x) for x in obj]
+
+    def _decode_nested_slices(self, obj: Any) -> Any:
+        assert isinstance(obj, (list, tuple))
+        if obj and not isinstance(obj[0], (list, tuple)):
+            return slice(*obj)
+        return [self._decode_nested_slices(x) for x in obj]
+
+    def ext_hook(self, code: int, data: memoryview) -> Any:
+        if code == CUSTOM_TYPE_RAW_VIEW:
+            return data
+
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            if code == CUSTOM_TYPE_PICKLE:
+                return pickle.loads(data)
+            if code == CUSTOM_TYPE_CLOUDPICKLE:
+                return cloudpickle.loads(data)
+
+        raise NotImplementedError(f"Extension type code {code} is not supported")
+
+
+def run_method(
+    obj: Any,
+    method: str | bytes | Callable,
+    args: tuple[Any, ...],
+    kwargs: dict[str, Any],
+) -> Any:
+    """
+    Run a method of an object with the given arguments and keyword arguments.
+    If the method is string, it will be converted to a method using getattr.
+    If the method is serialized bytes and will be deserialized using
+    cloudpickle.
+    If the method is a callable, it will be called directly.
+    """
+    if isinstance(method, bytes):
+        func = partial(cloudpickle.loads(method), obj)
+    elif isinstance(method, str):
+        try:
+            func = getattr(obj, method)
+        except AttributeError:
+            raise NotImplementedError(
+                f"Method {method!r} is not implemented."
+            ) from None
+    else:
+        func = partial(method, obj)  # type: ignore
+    return func(*args, **kwargs)
+
+
+class PydanticMsgspecMixin:
+    @classmethod
+    def __get_pydantic_core_schema__(
+        cls, source_type: Any, handler: GetCoreSchemaHandler
+    ) -> core_schema.CoreSchema:
+        """
+        Make msgspec.Struct compatible with Pydantic, respecting defaults.
+        Handle JSON=>msgspec.Struct. Used when exposing msgspec.Struct to the
+        API as input or in `/docs`. Note this is cached by Pydantic and not
+        called on every validation.
+        """
+        msgspec_fields = {f.name: f for f in msgspec.structs.fields(source_type)}
+        type_hints = get_type_hints(source_type)
+
+        # Build the Pydantic typed_dict_field for each msgspec field
+        fields = {}
+        for name, hint in type_hints.items():
+            msgspec_field = msgspec_fields[name]
+
+            # typed_dict_field using the handler to get the schema
+            field_schema = handler(hint)
+
+            # Add default value to the schema.
+            if msgspec_field.default_factory is not msgspec.NODEFAULT:
+                wrapped_schema = core_schema.with_default_schema(
+                    schema=field_schema,
+                    default_factory=msgspec_field.default_factory,
+                )
+                fields[name] = core_schema.typed_dict_field(wrapped_schema)
+            elif msgspec_field.default is not msgspec.NODEFAULT:
+                wrapped_schema = core_schema.with_default_schema(
+                    schema=field_schema,
+                    default=msgspec_field.default,
+                )
+                fields[name] = core_schema.typed_dict_field(wrapped_schema)
+            else:
+                # No default, so Pydantic will treat it as required
+                fields[name] = core_schema.typed_dict_field(field_schema)
+        return core_schema.no_info_after_validator_function(
+            cls._validate_msgspec,
+            core_schema.typed_dict_schema(fields),
+        )
+
+    @classmethod
+    def _validate_msgspec(cls, value: Any) -> Any:
+        """Validate and convert input to msgspec.Struct instance."""
+        if isinstance(value, cls):
+            return value
+        if isinstance(value, dict):
+            return cls(**value)
+        return msgspec.convert(value, type=cls)
diff --git a/v1/spec_decode/__init__.py b/v1/spec_decode/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/spec_decode/__pycache__/__init__.cpython-312.pyc b/v1/spec_decode/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27db775b804300df531c2f4adadf2cd50378054e
GIT binary patch
literal 164
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJVIqR3?7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>K7NJCda3wCg-Q5>c_`t=4F<|
l$LkeT-r}&y%}*)KNwq6t1)9kS#Kj=SM`lJw#v*1Q3jmV#C%^yz

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/eagle.cpython-312.pyc b/v1/spec_decode/__pycache__/eagle.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b4ccd3ef20c2087547c837fbf0b7861cbda96fd
GIT binary patch
literal 44943
zcmdVD3shTYo+o$(5(r5k0TKuygb+{he%n0!z+gMr7(0F?p{hbK5;j-}awVMD5gk``
z^%U;PZ0wz$W8AOcsmuxKq^HPqpDky$XUo;o)8#(XbLL({`l{5<G}V)t+1|6ehm=#3
z)4h9k_V@p;uCBlrJJr=^&siDY``z#H|K8vC|NgJ<-{t0-IQ&BT?@s?u0>}L)`cQtx
zq~q~l>p1Q<7vKWA5I08ejF4_NV=O~Q?#xi;tbR<-+`5oqEQ`g<9?NEL<801Y4hz$V
zOta=O^Q>jeGMhV=JDWF_$NUW;>#S|e#@tz<{MmxB0_M&R70%kn?96QpIcAH-ikLem
zR6Oe(b27InR5I%tb1}C$R66S(b2GOkR5t4w^DuXAsC?Et=4I}@P{pio%*Wi;P~~jZ
zSQT^ILe;Z1V>Qg3AF7?L8>^f3kNMemL8yMVVXT3<3qy^wO=C^7&122%+a79}Z5?Z6
zZbztXwtcLfxr;&_vz=p|%v~Jnn(ZFzW^QL_&+Oi@z06$_>Y42w>z(Zz>(g-=T+klu
z{{Zbwzp;G**Vz6H?kE>1{WceHe~^*%KM*JjX3t!gztW!pPp~~u9vsjP)%KmrC;^D6
ztbq61`msY-b^eOKA&{efT_T$g&W9!@gK*|dO@{;Hk@?`HU!SlJ&dttGhbE%abKw(n
zfnXwc@Z8YAQGR0n68kir4~1q2=fYFd7ZarygVFKO#MK}l8K2_kX2-7}Y<!Xh0<MLE
z=jX>S@^cIG_%4j#duon<ZGsO_tZ4A{D7?+n;c0-GyLd6k<FjBO8V!ai`w@bCXd=SO
zNU&y6o)81HFh4)XM<e623!&&VyeG)Jcqka0j|794&v&#BhXcXagZ$vc<Rwa8ba>)o
zDA+L)nwXt9G6(O4$V6!51i?CSZshFniIYPEBjcwJA00k(_Vi2ewoNYZJc==nMv9`$
zvjl%SGCn^Y9-j@)&hb~rC$3DOoi2nJ{3D@>$fZ=tPXwbAfr;pZKO^Bd%Lju`1SH&=
z-iH>ZLjl$b#b^2H=v?@Tgn;OL!ZVpHQH;Ku)k>sG<Q_lI+CuI*s^FQ4+4<0P_+qN8
zh%|m?;KZqs;nAbxhfkeBq=GXT6hpyDw0l}K%i#RN(fNf#3sX}lYeu4gK@OY_zPb>M
zM9)MgqQQh|I6S`)Jv0%Wy!1E!9ly!+p<I~!c>F~stvW$&Oc&tBGIF>;V<01#8ORLk
zXV{vRo(SVuAJBiBRv$w!dnzN4g)wa;cOV<_3%19lFT^(@j)}p|(T)=^?c#6V#ow}v
zf9@{+x@*}S7sv~m1J<A=U<>93^R#2qOw|sNXK_G=l)p=yf<OV<#u_LDeA|rg$<`qF
z0ei3@SQxY?Av%JNKoRpnd$RD|pqm24Xvrd0k3#JdXux*v60-z-mXDUu>@{uQ<Vuzo
zaG@N<tQ@65XTYr;n?c{D2eng7WwMph7$^h$60Eh^SZg)Qx7%n7cz20UeV_ldUZ1iA
zDv+xy*}8d%n@y!*J>pZoo>r%1>lg!-fKwW%3c6={pBw>zP>4BEjX0h_&2Di5I>f0(
zoO0|~`k8}I!ucTSg?ZJ)=3hQbQ}=Cy5;9hSynL9We!!^=)Ca2qa-0TyS7RS)PUNx`
z`4m4lKNkt|qX~1`-jT=(1g}g_1}F7tnPVDpST4B7Z&_&3i0NY7cq%xin@Mh<DK9t>
zBe~s@TPw!(jAPul07)xsCO!8gSU^nWvrDS1^b*K!q@t3uUn~<}Daf%5d>K+<x*61M
z=Wix&rw^+cwFmp5?pmpAO1Sz)UJAm8_S0H2XY6Wh#f4O<#dw!G7b$VoH&U6EFXZJ^
z-0FMArMeXtQl)AeEmwSJyoyVGqa<$iOK~aa72xD6eu$ZBZ^e(}W~x=U;!=h$QY%{&
z7p+r5;p<S{GxdsFea|$hZpEeDJ89)CR$>Ndyr$ZTebEZQeitb$)n4qYR0#{vOh~l_
zYO4gKy|tEuMSV;^)1MY8>5T4I{In+jWwZx>6DbcVvDEjXA!djUDc>_k6qowGya%Z}
zV}_Yw)lYGyr97tisc)slB97>Y;yZIvajEY>h7wc9{WAHyuH%aVL3?F5rRJx&EYw5k
zy|7maQQy2jdPe#B>islxR!O72l{$uXY%DY=A%LopFY4mZanYC3Vx3pq>RW-CUXSS4
zl<=9aD=zho+)_1GeWPQFd*)@urM_bsA7*}#Tn&*^s}izHduXj}7nC&W8<5(RFF?|W
z!S8)~T>^UT+Dv7n)hD3jp}u$2r$Y$|cRf8n?c9E$ygHS<{ysS&{~9H|`kummq`BX0
z@3k%^#V#v*NC{Wpi&@b*<tqjh{u(~C+dw%AFJ`CJ%d4bS-?8jidf#Y_wGXq>Mp|k=
zOoRHB$Mi4NTB#WsjVPs$Wu^7BM#-ZKO3c)rlo81O(D*?TSHO7hQ(^>i0;W*^?7l@K
z5gibcTEC-jDsi+33JPTY#pt(`c+qbwu8SFqInnPZUoqp%lHyk1Gv8I+iYuV|(5$Q^
z%9}4n87-kBvqu+ASW|OmZYi<Vcg&>3#!B^16#rO`;+tMC^hSmfLw(QuhU!*ai{|KU
z#XYmExYTznRaU@1q4-CCM{yyi-&EY{JCI8ovr@7}OCaZ>E@rugzFExGPBFxN1N-%2
zUMx2acAf$OvjG^^>lv@hhcLsnT#lQ}oXqG)E^n3Txma!>hjK(N+<0ow+vc0vk)q#I
z${8@kEXrI${x2YZD@ymfO1S#g><`VDa?NA8F)Nja=CD!+wpXsGFcp_3>|}a^BiEfl
zL!YY9-g-&TrOi~Y0#AJh3~6nt*-r|z<ZAQm)gp-}&ir#V7sW+umeQK&h15QNmGkF~
z9=UdZP^K4!u6m=Fg5DsJo4oVM(~Wm74F5=yXyu(;2uxfgf*K=ec~1==9z6WQ@R`Gn
z-svgt)wu=lYZKup0~6pUrlLXK8=dnmM1m}#m!*s}dgntykjA{Asd*<=l3kMe*1RJR
z07zxyo#VYn&W((W4~!0tr+nYfNEiaqtMfsg5aYk09r|zR@brEL^WX^$KI_-BcfzES
z!B}X*^xAav(s+1bcK#|)Qxmi!dx}hTXkzkmFdR6HVEE@xhbKb|f#CQgNM@1n#4ORz
zN(ZJ<Pi-O^UqJxR@>O^x3W!X(K;+3QfFP403s^JB)Ir5BYc?3YG#5x@@eAQ_ke5qo
zVFbiv6uBn3vlFi;Q-*@!gk_Qlh6)hVh0xsO<?+b$wP2zMrDrr!CG+SUDiulCB1jNe
z2nBg1RS|)t*cXWU6%33gW9BLT$?uHtd?IUtp9o(JCalbFT>ctIfR*T-m!<=OU|7!I
zoc6)f*(PD0ogL?c7pEgp{%XRdjIK12==e0z;38<V6uER(@pDW>qeRJ+>6GIaWWr;@
zBR3`J!9+cMGTg?JF_P~%bzLM;sKib8%)@9Mry&U1FUEPI;K>o1&{Jpdw4Ws`=SN0P
zj1QhXacX$va3XK}*yZU!ozRb-96g*cUYY>Sm#ES?sezlwl1ayjY|xd%AZR9XgJDo?
zCxhddg+V@%6#=O@7)TVWa3?3`qYHeHwQMBePy<+(CB5|*=H@~PLlmGcB@EYs{9Ghq
zm<~rf+7mgfWyhxjk%S3VMVT<ugDkYWGht<4;~;EI6B#>_$WfiSN;eXfG?K6=V<HlK
zHIm50S0Y#LwejHWg<v4Udr*76kea}80rO~Kemo4axjd#=0lY*wX-2=uMDu2fh1nKq
zR>lV3OsNYdLZP|WFdA78(nOE&L^DlfgR0HXP0sRk5asFo&(kuP$US{>@WlAQ@Y%zs
z$BzsojEtB+5xtbCV;Np))65fq#wTblk55hTgxq6@&(EVgXvhUDS&5?b2`rELC@AEK
z%!x=eVF^*viO_iP%0wt(p@8wpOLHIvp>b$_7EUgVvmpvfJn{$yuLMJhqRC4jn?LDq
zkmptwI32->XrhRLlLt6DWPEOF3X5mNZ%gPS!O#?2U*xrp5Nn>!pgf@j2{v)nk&$qw
zIxRE@9t6f(a^lJ@ZKBp3ms^;%fR(D8>@ikXlU$PEJX+IEE5#F4(uZk~8(94!gt>Zm
z{QmA>OLTU=Wqx|TDLTQUZ<=0T*weH3@}6KzX!=6S{8g-e;TGztmMd*7tN;N<$8TX<
zQ}g`QgmD~;0XQ$?*JSR9LW^rw{5z0uq#HBzI=5xv+_g*k4Wl#eYm$5iMc+aCDvw(W
zC2Ngntr4v4g0UUXxUWX?^@zS6$u}bUM&wvUE~%(VENYU9I>n;SCH-6G%_29w;>nl8
zD><4(N0a2}5FH%|F~!U3q_QrttV=2z6w3w)jw|k}mR#+kt6g&K6J7fd%^I(%mumKj
zHT$HRvtrFzidGr-_$5!T=;@U_&x@Yt$*=TLdBr<d?_6EAOa6Y*-@jgt)Eh?kmXULN
zrP6k>v|TDaB$ggpFCC%)=NDO=yM?(}h1x}5yW~3|`cA|x#ge5;v{XIL%&0U`jB)@u
zsynVDw=aJ3480rT4Ndeei#NB@+q>zhq<86NS%p;AB$hQvWe3Hwg90jLE|bhY(d>J7
zPO3R1)*O0hJ`^u&k;?XqW&4*#<JPiw%cP19v7+Olwd3BX)PF|oKl8{|CfRC5TkRK_
z8T;~3*!<$#dAIVmGBO>FUt}8c3%2sO{Bk+Uhq+SS0kQ7Dy6xc4I9>k!xYI2;TSRAz
z<lHAZ_X+lWTLvySf5TFaL^iu*^*yxuz?sRj-yD+cRieF0vhNY?dnEfw(SC9x_ta*7
z;Z`=6lZ)zNT$EQzo;K0b_Rw?w4+Hl)rM`1w-?{bf^Q^j`m3ZDMy;B;u*d$B2Xeobp
z;k`HRzHzS`#de|b-pbp`;!4XUSH0+}mt1>9*B;4rNOT=yU2C?!ec;y*d{$ZaUf<om
zczyvDr&hGr3bwjGH2lE)k@@}+z^Tex8v4ZI{ldg~D&P6qov+1F1zV+PtNgI*`+e{C
z-MfM~9>jTT6wQ>3lAAB(dc|DtN|ofJt`#gD_d0*r`*H7sDT>Xy)rGoYyp?o`C0$a<
zA+hApQr@G=nw4L<rxR;?sG_4{-{^YfNx|rSR8)F9bSo6MRIQ%>qplzJecT5y#Z*D_
z7sg*GQ$(+6k6T=i3W{$x+-i7K+`L}g8ZRt~7ngov&Z=Q0^ZmSl%Q>doY{g8%@Oxw~
zmCTi*xpKo?{m9j}(J?HP99uf}nbjG$RY|sX(bg{6`b1mbgP>sRTeqD>*=%_~&&t3k
zF>?8(lC46tRS3R)8@BzAY8qCLt=H^X8rrZ_Ci|vMbhSyY=S0_YOV&pn-BQP(*fDtj
z<a!62Z6%K!&Skq)QZJU&ueOUN&FhYqCDW$2VmY!hCYHAdMt9uql<d_T_UfgfxW)T!
z;mX<Xm8?F0w`|?gveqVAIyWpWTbZ1rX0vMVy?n8%PpIr?b0%KfcW*$f-7nM}pzq2@
z4%c$q^2}d2{7Z+~h@xpISsFx31MBoU(N?!wAle#*mcjdn#g=2D?HKBsOM?tOZmAV5
zwUVV-v^1k(R?dmG1{U$bz>kK-mQm3*`g0aJhbyZ8!p7A$z8AWSF3o*pvEJ0njkIp@
ztvoMUYS1Cc4*DX;P;2_q#F_JN)ZFx}<gc45x6GIupBO72WBKF~CR*QRjBhgi&`NtO
zA=!^F-~o1qCfSyEz&|||;?fUt7u>I9;IOazwG5f}bA})g%pE_9<KoV6@9Re2&*X{T
z!4tWGC)SBSgMW?OzlukMa`Afk>v$#d#@S}C;4jzQ+juq2+e81DQqxv(or}veHeOgP
z71oM{wZErZ?OQ#D|9N8J9>KB)yT#kTa^qK)FE3vcto4Gip8poov9e53TPQz53R&As
z!Le)G6cO{}*{wr|=&KxyyG#3&BAov<MC1Pv9{x<VRans?R1|E#O52bWLkgjLqHVT?
z{un7EM3_|DrlWspNV0fEi}#=9uN+?)!++01OY3HR$I{T-qc=vE`<9PkoU)cl*yO!E
z4ck+EQUyrZlX12qmU%m{!~z_)Qdna+z%VL1uyTkC$QYq=6iDPpl7ay#>>mj2tc;E-
zrw5=^z@NjDIjEZQBRA``7lE%3e@=@J5zx^|e=!IA10`MBI~i(<8Lk(^vNXFEgWd(<
zB%+sq+n_z<GZ~NKTvX+daWlrWY?96>V8}n^Tpv-mff})AK$F?|i)AVlhQ-WSre=-w
zR9}=c#nn<_P$`o+>H@4@h)1~IjvuCQj$GqXE=E*pjW{s_4ReHPh(V-yoP^u&_+8IO
z8bbVc{1n>YqB(3q42_hF=9qbgD!1bYI*IPX6s2U5QoD9U!6)z0_WueHbHiw>#oTG4
zrfKpYK<h%!gVtq<<;ARwhL!^w8aG2nsU1JWHM6+6$yUlurO5^T$*V-4@hL9#y=Vi>
zD)n1&@%v*r2+^Rf2iR!1jP~Fg5rar7JAN|_J3R2I(m)sU(@NC%WXwfdI3t#`NPXJ!
zWGG6Np^S7;>%fPeX?-#ljW&!kZl?XoF#b%;__{7aLV;Od$A+<3uvmzgTC*j^AyA<p
zrpCyn{9IhDAXfNcwo0v^=~mMzF1cjrdpjU$hv&PvMMs$GubmTx+X2B5?NOkjzcqUz
zmLIc$-k#htx;RGPOkeMk0Af^{6fItXieAfC)&_)Yw=+r;b9|Vi<gr+Um|9zuiLGab
zSkYo}ta#BGhKsd6+=K`OIJH;bERGr23R?nLTK%$5EurFyl_(`$bRpG##b12~GFS<!
zVy>A1)mL!^^eV-Fu{2gXGpK~9?|>eBS&SI^F;rzpcBemiQw%ek5Sy4mMrsz_s4Ko$
zjoiDmj^zr+(@fN8<77&-*qctpowh4jqDPecm9p_ofTY2jj+tVvm^<c-Wqp{d@L(3p
zqQ{l=Gbx_5;)4-T7RW%$sI~qot;fxbst^>{H+$1djS_0aQSymYMW0vF1@hAP%@(DX
ze~SwcA3y`fZ*jk)S7Jdbru3q2u?#V_*EkbG{^8cR6!&M*^UO7_AZFSYOM7iL#j?ih
zQ!SB!uhiO#lE0{gsBf$<ChW8Dz`V>-C5O^_c}$J1xB!c=>K(sySW1h|sNzbg*dHWa
z$S*a1qmxQ7U~A4s!hRH}L)^{GZydy0T#oU^_LrHUl3sl)`LMN9YwkTCbEEFSaTeWh
zF)R(aPpJ?T*Jadp(VNyLmy{6o9rMmyR=*TiK&O;BEwu)xIObO3!9^G)ev1|1hV&Bt
zGG&9jOd8x+*6X^Nu$)W!Q*MpPjPX5+FEG-1#jU>O5rh6qad{C>1KvzTO{2JCUUgN(
z{<0f<^fuu4rc!Y;T0K}8t4Q_R6(z3vzDE1CFKmrfpzU@IM;TsM(<rW)Hx!rp4rIi9
z&sym}v?;67Vr8sSJGRo-h@oAtx)_CMl^DmwXVf`M=24>cQu8QW^>lc<<fQ=#Z5317
zLvd;MbM#k~aHU1i-@D+?v2uA#?ZBel3Iz4N3#LmLiA{~AxM)pcn4K1GXo^*&mCOkU
zsr5)nPh^KA1TEaK7iqLG4lPX3uJk(6Xk&6H=~FR1&oeMR3jeB@p68du^gL;`(QY-A
z<`>5Fik^<?#en<8OsFOGl~%iJVS2@K8l}9z_r3~FQa1BVbqpx3Sg8U<haKpxL7bM3
zD`7L=Qe5hLJ2pgk;u)@zYvUri*KnSA3HUYO7~YzAJ@X~*HQmmTw_cb1{rRJezs%Fl
zp2%Xnj1I;i2A}$E@-wG#F#Q>$qojhNYKh2Xi~zWV5ir`)^+%BYS1Emw$_xbS7|JC<
z#&CRJ&wmZUj3C6nLN3~+!Lf_ZzpqPV2Bv4BJ7WnX6;Q_EoyZA-9f{O%=7;9O7bhp6
z{X%LY%&Tx7jNgTE=&$e-$brT48xp28J`*uEr=yXyJgJ7)UOpF2GIWChFSvO!-_NTM
zaJ<BM@`5SlP2;qA8S@9#_7bDstIf;y?)SF!dao5Xd(X%WW58!@Ebjy#?De9BewXSD
z9w@lO{zC~v<kAGVo>r)RKpiFmIuxn#O!7nwOqix4(_#39C&9;Je0QGKBrsd&W-m;K
zgDK`VV}$Z_u8>=pG2aeT)N)2>Ow}+&k4kZ?3mDs)G2mFQqkjAm0(6uf&(Q<xHpdgH
z%M(`5pQi`mvx)rqi2zHP>TmuO1>T^?EA*gEHeqFKSefoc>{iz8Ja%M`{|<%c5odcL
z8YKNC>MJ@|5?B8sv2yiSrh~7^L{|s-Tap4H<HY~t2?b4LVpQ-`<T9O~2rUE;^ZXp2
z&{MM~@~N99CZh{rh$dwQn7D%6-e8CFw5ugdO!W$JA$xIvJPeZ<Zox$1j(!=RoL}Ih
zEK_i?d0KZ9hSx3yd2rJg!V$y{Le9a&7~SKc>C3@{5nO5TSi!-zC@um*T<geXu#%^y
zL!t3RF%>h}42rM=%Zo6gM1d?r5hX>bag0?k;}cmI!AAyX-Vy-=b$k{KVq)7{PYnzW
zk?zr%k&|b~hlhB=Au-6JU}*cRWTNb^!;AkeJ>H_nKc>h3Ko6Q3{7rh?q6bZ7{(JOb
zBPkbyNR@U-6s4^ZX;Kb}V#ZS@t+O38QIjg%!2c$oCTvt^SqLE6GdT*4Gy;V-EG$Wi
zsXV6HT9FT;>Gn~dkg2lUD7S3vCG3m{yK|DfOIcgx!pp348j*CYNZ5Dyq65KCx5-6J
zTT{%*bTow%j^OK)K?oV33(|#P@*$ZsJCFWViOjijFQV2LpzN2(kw1}pgeDV+<Inu@
z*QuD<$r*6Xv7M!m^#1pV6IsV@29C3bE2@zk4WgrAbwG49FPY+wO3C3D9sbn{(a{JV
zletVVSH~;5q>960#o_xC_b&()!w&|;iW7pxvk6{A-;KWIx`$@pqr$S~z&kT{W;W^%
zZWIm(mI0w~AYNJfUhmyrsd7-P90WrM{M@QM!Qut8$X+KEHi?Bzs~5z=wzacT*I}{i
z@WaBxg5|JKco-2H`|l0hJ0vuKFZFibjXa^acG<NuamOPV>k!%u_Lc1I7mf9sV0yf9
z;|&2kawFK}H7J;5t`^PJg1ISPRVP(FCssYTUIn6m#U_337pwLQa66kM=RwhV5EZ=N
z2L4#dfbKDuQDR!k1=kMzRCDt~bMq!KJ3B;Mhh#e<+K$Bi`{LdTuygZ|B64Pa!RMJ=
zZY9{dHT8nUhoV(h3t-y2Jd&$r!_~5MEZ%-VuvD%bd&pRDrLBlU?AZ1VS33d={X$`v
zVClj$-u_%FqJb;z0H4y=BD19hqX$?SP(_N?@-*`>DQV%zZths3s%4=Yc`!5=Pf
z0V7Z<9}vq2?$@uEqkG(ss@tXNei45b-)6ZVKAT31WGoeprOU^Jy1g65o_PKKCB0;H
ziAEPOMFe9lYdRk~G+y2LuzKj81&No2Z@#hF-2VNU_h+Q$=fvjczzQT*`0^VoCc)Ma
zuW5le0NB+n!)OtG3mCzY#UolgEZounCT~gE(r_G70Pbed-7K^m6j~1o?tvR8Hl6Nw
z^6umbwR=$>!P&!NEuHu**BiG~GXA4mw7BENweiZH|CVFOGXYjb^?Rnfrnsw;wQ-Z^
zY7(0Fue%P!JwD0PDtcOlwnIYuA;B{k_cUzfa1{-YIYR}8T^SPF>@-l8gAc8h@#=2D
z=8JpVZ{==w9u{qF_*yyfWd-Hp<Gk%c`;b_En0TxCj@zzVE-AlW%&*6QT+ctal!acT
z0a7EHYgQ{Bnj7Mts&{7Z%&uiD&#rqqmQKbCeKLb?HDh&Py|7uZG}Ckevpw#t`@MXj
zalhc-FFFt07~XW&3I0CO*^kQ06Kabyl$t*03>K;`gc*{pHXynWp~>8Sp}t>q??W@0
z9XDq;s(UxgeVdiFQe~%D*%>dbju)3v>v$UC)jeR8R&_n*ve>i($JJhPyXRJqP}a8g
z>PBIYVCmU(dEaTe)3kbMxoI7v)hhQtL?r}s^B-P|TS}HYW!VjIdH0&Y-Y+cM%Fq?=
z`>e2dId{FVMkuHiYWFjCWW88eFBCLvWoPC$J<c=~=Aj;74BNPhR-wEV4as2tl0%pc
z>OEpLc%8n@wmv}JFgC}Vnwg_M-qP{?H{O3k=sSLI>_NrHFAFUrETHjG$6lGK&IT2+
z28D_?%p~1iEClUXmpV=V)nvU<{oPv3?3}U<V=GCgRIJ#gihi-8|K6)&#X+fbVCgs(
zhLWb$)1tFga(0T&&UI%u`VH&Po4@{M+*Y#u{H?s3Ia>vszkRLZeak()wD*{Zzq(_B
ztr{S!>)$(m_jugym+T#)y<=@)-QNAkULwnYth}^tZ;9K>9%t*T!DFvL@8`Q@i19kM
zNFEitj*4|h0qaqfpCAdXhws1oz`tH~RzQ3cms=rO{0}YuRj|;TKe6~XTZg39=f&3N
zg|p|x)^k{UH!Mx41B)kG{F0?xv~&x5MjlLTSWaP3=T}R%HcW=K0nyflB{8>R!?G8E
zF>z4CO>f&;h3M_Pr~je#W2@*rin#-?vp*RBXk7FT-OP<U8ztufjBCkxM06gB+a1f_
zkjh%bvX-?BRJN>}R#{p&GfMK7hLK;1j~0Lxe%)E0YR64`*^2%>>s_m8ZxPxD?+=LW
zM;_S!L;0VTi|sFp_7?#ozxoqf8;a%dY>OHA@!XH*#P)Nd{Tz$5fk+ls*(TA_Bw2bz
zOK;p({qCEx%z}w4YnR+ZqI(Ea<^CJOx${4I6Y0thQvu8JmQJ96Bzx1b;pw<(igynR
zw%S$GLt6(Tm3N{U8#+~vvS6uA$>3mJY}~hD*&lE2+p!qR(p(R%HSzZDAJl(TFSU<|
z?IRCfT5o@WBp`eu7NNcsjFy&7xA$gF+*>7i+eNHK9YaFrkl;Ox7I%B!8ND+qH1rFN
z{epWRi*+*>qpP4gZmVT-8eY-njh8mWYxiN<EXYG6RQumMcK2A^Q_I##k|x3;xsFAW
zgvmNZU#HM@MCd*u_>RVXEm$_ITd-_a7tpY>aCYbIzFU1O)ej46<NjX3UK6kCx^-f6
z@33g^!q;jpmQCd1<I3t+8&-P-clXkXxTECu*sU?i(G1i=Xc@TQaKBe*8C`drTsrc^
zYH9JxvLmb3zrb+&S|;Z{r2FEPOs>@XPQ#rBp{Dn~ZUZ7q*0>c2falABEUeO4A@fXs
z_vI-AWzFI7cM%tmn?Lgpm|rQ({M3V&*RWY=c%>|R(`$IepOfUfE8@aTwA0ATD)kYF
z1J5rc@lA%z$zp?w=&^!zPl6(r`jI;m{~rf*j32MbpI$Uv<e-^D@z^hxqS1o3gaa?*
zGi5Itq5q**;;3(#-Wbqb9s;7B6*C5y{=#BTxG83cF%{-T@N{A(#=jwcF`dSC{J_y>
z;n&~~Zn1eLXGa8lLXQD;pdTa$vS!S(JN>EhNOjy>-vBKl#jV%kyhHoOqNLWMl!2n6
z!AIBPf~&f0XE?upVg|)DDX8$-OVbhW)IxZYgn+$pLsA$A>N%(d1m|(0W)l9gu<x$N
z_2v|`VTk!pgqY}iFv60Oga^Pu*w+h0oPh{Jdfl5GG~NqP4+uc@fJK(i6M+=Cv~)1s
z!J-VFI@jzSp7KtlAVAvM8=mtf)28KB7i_-R+?WCuSm24YK#C6}Q93;lQt1tmC~R{0
zq1q7jPC*1Yf?`cxmK7S5G|2*|z~RIfMeEFYA%*m0P1PomDM1zJNxl{jznP4hyvk-y
zP7p^GND@Pu_&o$A3N_BCvV9We9K}wX@|iqKKBn?x1esBNstJ6qd<1<&zMs<LKhoo`
z=<!o}&|x&8n@;2?AVFf<CWQlK1XjF64!v0|6WPkang*;ga@bowFu9V0Wrx%^ov*Le
z?L0%VVWkoCf5otj`~fn+vC7Q>`77{?1^%V%cvTH#8r{`G&7Qw-@4YdyG_Z6vZgsx>
z=8ZR(UlpwtD+3R$)tg@bs_$;@Ejo6%DpvCExNc^}-Bl~+MRy}scUPq>w<+|FKDZ+G
zo)=x`Z)V56e#zS{db`(NTlXHo&TDZ=mI|D3R+>Jsv~Cr1Wj$XwIh*6{*o_#%-mQMG
z;cmlP;0NK4!czBfvHLiQD4Mpoj2x3J2vr=Ij!cr-nB-W&S}4mfF|~|jAlA-gaAYzY
zwN-w!qOg_FjVC0NG-Z#VZJ1gGwbr^c4s7-ZXixeLac>(ZGcIzI8Q%aU2CHNyU~AA~
zV@6s5>A&XMrK!I!r<t)*KHGmEBtMl>+{$?CpdMvdG%7w=zlheh<EJT4rHf@Vo`6>T
z!W{tc8B5h2{0jp(X<48^L#||o=vzB}N;$Cyn6zY!z(L9hq;!D+&lJcc{c!Nw^;-4<
zE`x)04K2?kk4krBhEK>L7?c*kPGSk@nUq*=v`mSsB>@C2x(w)v0yg~?^U`8_nb)=l
z%BYX!%~WplWFLVP=Um}gYFQXiV?jR2q{%;*_fT6}IqIIw4W*Xbia7aNeMj{19Y6Gz
z&BZCDgOpHy%rcd61|vtuM$c=UKYOAC4PjE&q5qF}u!%6XN9-XomB~9d<%Jf=bYT1b
z6G@ehNZjcgUL*A2!jWkx6)78wFSRiElszrteeDtqj(FA0GX)Pjba*bB%8g0`swOsD
zqOW>iNiHqTBpR!%@OA!Iu;XEin+T}e5_al|P-M<KF*!L04uZThQ@!}$OmGsKNb*J+
zK}zo{$-OlNG4hHEXnXU|E<~bC3sAO=lEN&249t0<eMFm`vfIm8MWYvWNL4R#X>K7D
zU{xgY?_6MEGKdIQy^NMeO$G#@>FB9*-pJMP<RyMCJbjH>0aFW<<h@j2U@-;^|2uF&
zdoOc#I_xh>7-^G5Ge!7)@J|>fcz)t4qd3bO<Y$!bM--%on$IjBAg6h9ZvHB&KMo9+
z|5wb1@fVWBWz&_p$%zZH3S4GnVOHLuLE#34lK-~^@PDB+*-7#>+wJ*(O<tJ*=r54>
zY(^d4v2p(&l=%Oo$LI9;FO)_ZFyq_01^Q96Zzp%0QZ^{J#~_@8Dv&VAfkYoqxHKY0
zKq$wUND_YK2nyh0CZfB|54lW%!2<OpHgJ+$0GY5&=thLlRAsiRZy9wc+XZz1<0B9Z
zTx<AB*n=F|h*cr-`&fH{K-6>gN~y3xENoaZKI-WD!QPMdLifT|zWn-cmp{${QRQ>s
z3I3Y{pt<FjESF0qtzt>*TE18UGG(V^!_j>p4g#ya3&*py3DLe+vhNe^`_}CTAbt;(
zge;`~oZvjp%<hD~gJkrHMxSJ?7LC;_(<`qF##WGRa&i^_X3^NZ`uc`(FH$xi)`2!B
zfaIB((QJZ%IdGQRy|RMPdd&d=x<STD$=D(qTOimkSliaxfobHJa9A&HUpp-p?TK4z
zS6ig|ArXI;q0cijicCusT+{mA%XeSCr(1b>y}DO`;tO<1_TH-y%RuFEJ@VBO0wXjZ
zyg#wwdk!R4kVkPkY`oJ*@IX)-lp0TnjVB&VtT&zlL8lZ1o%|cMH!HqdPb3{DGAL@3
z9NnU$d+k-x(X(WFq$tjKR(#NMh+AYGni?n{NS1ohQcsfg5UB?_28uLvhPHWx@*ct3
zBN%)B_Ge$yp#dXw+<Jc?^GJ>n3<c6blU2Y{j5PlLL4-*?9?Fll5{4@28LAXTm&-pb
z<N@1$dfH^n0EC&r?$!>=2xRUWmKo5yINGu=rcAgj>eEV~d3cl$pD~CR(g8A-N$Jzl
zXdz=yY}61W*J;_CTg=in-m{nuA!oTJS%Flkf&OJB1+boiv;kSt+^_?gBnG=^il&e*
z<gFog4d0?<L#MrBSulp7X=Dk$uC$0rCww);NgyC>oGE`Ywt~n#4H?zW{g;5|eX<<L
z!>8fP$OkZXpwkjm1ZtNjrvcii*`jh!V*Fs_#0(5&1Q`NIsAVb>hx+V^e~U?w+C{hT
z$$!5?eF_*bg@t+8iA)~ofo(jYj<G9cKs|k5ScrN9bAUnEi-H0%L}~}Zfz!Q=s{k<w
zg_2lEsxU;6NUG*Ttbni+QXVJdf^Zi_mSB!=ltl<M5SkPyM(6+t+B^ucAXEyxVjRYa
zAc5jSe?Q23FI@G$lEkFsy_L`adFM^Tf=1`IVJJydhxDqwNtEUS6+DU21PH5&rc+*2
z^hK2%8D%0PXW!4`S1~yF`}Fvq@kr!e4yH>o5VFGm8+tGt;RocpNAb+WF-;!b`9C4=
zKPB(1NoH6yQ4pA%Cs7D6?v?YszmTCW{2x+0Qe!4$DUE3xVOR_QLxM#`;j=L8_{ZeJ
z*^=Yw^q5xK9VNR!p{a84FvpvsS1{ZslYr4`pQdk|#3mTt!g%<~a7hbLi;{4JgRhOJ
zL=TwyHP9lcD9uGtO{xv+OAtM_^=YDn?L1mzJ5jtXrrP_FU5FtL1*4J2=6Dj5sno_~
zwnZ8x4CZ@ih3niGZq8dx%D|hX9=TVvLF@1y7;O8Px@7VjwB`PIL5)<<D;D(L>j1O2
z;K1jZy8MH>ErXtLlPoXr3pcn{P*26)55>lnHnvgAZ=rTTv<y75K<$vYgkWl|gO!u5
zuSBYH?AGNSlIMu%IU*QK8C#-PboMTRUjeSm+9AQaN9aBAVDbSk^qv;Irv+o#W@+;(
z&$N{Hh^2ehOR>#6p~(A=`Hoqr>JqBE1n_!tKdb7CyIUpqLD79M?(j>FcG1xu_jbfx
zwegZBsiapd>5W(Im8wpORj1Slp60l#MRIkBu8wtAm*nadUA^nBepav^(b*#_3a=C6
zWJq)lt%G-h@|PbG%a5eM-rFaZ41?8{3i+bUT8+w9Y*jHHN2_Q77PwX*SUQ2?SoR8i
zr$x(Y@G5e=K+<gf)h40mlwdt27*EMsf#0Jc{VqLT!DBLg_fHXY{%??iche8l!dMi7
zH6z8O6U&hU{gj;!B=Hmh3B=+Q7NL*{Qi@{OGj{&uJb)t**__id&6tdl1M-KgSWyXV
zNdspHWPX^!Rc7*c=7Zfz2l5HVHT@P%;dT{w(8L@Vxdjjjzr#-pk9c-2F%y&m%plNc
zmj_sp0)NqxRvxFEXZn-O7HZ)pnwW`pOiwyI*$om<vVM!XUm<_*lMr^vUn}O*^UwPV
z`D@@ayX3DG^Xd6pp^~WGOQ}(V9;kY<1t25}y<%AvM^?lk+<MU#B`Q1nA)Us^{{YJ?
z{h+4imt7d6`7&mugh5?F{|(@{iv=K-7RXpTgI<X5Y=*;gTBbFb+JQZ-MH`hI)OXB|
zF;%Ga|Fh~2)ip4z80)GqR;Z~khj7dnWrh{9`8tFJsW4{IjF0)87C(Lbx2mO7TrhrR
zx|p#oMf!-<N|6^U+>s)EjA^BS66B5)R;){oXh*6Ph8XFXcPiiNn?`}$KRA_Pt%Nbn
zZZ%YK#f+@abTJ2u;{d*$Tvu_b%9`m>;;C=229x~`g+HZji=fU~jB@m<@f255$lVz$
ziWSG4{qTMZ>YPy`F|l8)NJ~iuu<Df<>RZV#Ry3YE=ODdCy|fhFFuqbsY#>+LlFDiY
zP+oLUD=517izP8qzdNMntGJjFh6_1j6z%-Y9Np;yl6FSS1tmnKl^`^|3tZ}--SWiF
zNu^tKN1s!2fGV4vS~BL=nk87nlQS9ZRGmswq^0Br1+m<x!&vmhc2V}l2rC2gA@Aww
zQDd)C2KAjxYt>2%QS<Z_&ZnkQT*=g$N^nr$C8f7hN?i3FU^c>2>bs}a5XCifPI0O4
zSeeqAi{;Vtioccu+M+jH5G&gjYfOo+zM*{e4dn|nf}7DON31;NRTWE<%B$l_D)o)j
zF7-=sp>@hZrP;0B<uL75MOc9Q(DZ>`hQ-7ODi-xLQ_|H`L9apIyEx6>!&;(Z5y?4b
zG$Va#ep%kE_@&bOP`8(r+N$rF3DvE*pyV{ExYaj|j~i*dQ^#4VkI5!QO1K~`MRLs}
z%o8-A|36}WW-Z0SbhDkPxdv9CtoBrM?C^-e@Zx90T+F_yf2&9jB`FOx5#3uANp%o&
znmPzO(=(O?-+;Vet57}Mr%vwtKSdD#&*^c89=}B~J9ygv5@seP&TcD-B<#fJQFJO4
zjRXFDN<#!Vo~K8I9v{);U($m~^y{N@^Os>&Ey*r01ZU@?S5+|rW_B=5rQ-@Ee3c$i
zdeBxR^DiJSPG-x%cL1#fwjQqp8SQ{4^j0Pb+$Y!X(}T7Sev2O2Sh@K>CKr>wH>XM8
z%j}XLQy38|c-AJv<f2tcHh=an$VEpjSs7xKT+~zi@6lro50bH9dLK++!e1#fSiVQW
z@6v--8U7V|5aA)=Vy4cviQg-YnNB)jgb)~0WCqVv(g+j}h_JxyyWut#ex2ZM5ZpqU
zbh1r!K9R>VW9NS2$Rxj2DfR*uzCBF|RB}j%2Eqd}$W(MbM!CI7xg}-p)gXy{b5hh0
z{?91tzoW;Wv-om|8viF0l%NM|`d=m2*XZ%@>G7NN5b;Pj<uWi%(6(|$DiN%5cy@L1
z*9q1i;Bn2hlPtonT41^-H-J$@PNAQ{&nbd%_<LWw`!!h{``+_n^#Slk!1<^FlfomK
zJnJSeF)1n`!)J2|uFj3_(;L<^g7J)CJ+ldE@zM^l6l4prw3}!Wr44v)7MDuJ?IL(8
zZDMiPk|k~~UT%A6c5fH0lRSGxFi~9hPp^BPyK(X}80UhF{%X;h`+oa|=ZNGP6+NSp
z=Zxq%6SujR4}oz~p0{)otQSRS7jne1SoNCg-t+e}ATbDf3d-p!m#vQF-VEFh-wI1b
z4PsHlTIUb;f3#ofI4X7=1=okzCcjwJr13Bdph`t`Vo{w`)FKwOtVN|g!{VM{Y0pV<
z&q+Y`fb8J{ODDI88T9Fe04ex2XQig+#HQySls>3`Q2Oxv3lBVE(~F{o1V(dwC`eHW
znbB$!OWM{Q?O*`G*j4YU?#_P6QNMI}(^I?Jwbu52kLc-w{C0J-&^91e58Mw(M_v^1
zSM?%P1^}eI>YdAXE<=hmZp)9`%0X}{&->EISqpCjZuTzo>v=v%Pv*LbUF2P<fS~!N
zuTAm|ioU_Py=t`rWvLt@`O?aQn^q#rxR)m$TFW<UdZe1;Vhv=2y(<%lR69bEYC$Bc
zl<ls)bmyhjyn9xm_BqJvmYrG}eN^Uq=Sk0sn)gcXmc;Wbh3dV6t>@mWXe}S4-#sW$
ziGOMMQDr@daF8Ba9s2(9_m2yEpSxFo|J9G1g~nmgJIrWJ-C{|%&@)WLCST*~RnfN>
zVxusPChKnGab<fX_ps<5hR|#rGSUNghB0`{j-kAnOla1^)k50<66g@f*A|@x@6O*C
zCj)za5p=0esbQbkun&XJ524!)OEvW@#F@aB^GTK#(bB@?oHr~aF<id)U+M03-S2wP
zBMzPw`pyb_&x)RN=rMQ0YV`YWzW=7^-Vf<hXSL*P6P<06bFb*!i=jI!IQOnQ&n^vb
zLQH$;os)M?!aCXN+<pCztv|Ag&G<TrX3s78!oqbN(k+b$B`{;w68CpW{$A1Fd#`=n
z54ana8kE6RE0ydOOZGy6!&xIa8$@Tr>Y;UK3q+XHjZBe9aQ$AXexF#s@7{&=`ho4z
z!p#Sz=EGw1;rlbf>9gz2=XQt+L#stL6u5GY6l6|{T_=T8r^T)_4{Ogrvqq}y5Gy;R
z%EMwMAgotDFW9_~{N0lOpol+P&1Pkj;?pPk`vhCfXZcmT%LjM${NUI}kPr5~6TTA`
zn)XAfLhz7M#rAIvY2g}-_pSqw7Vd)3I*7caMUhJ~xo)nqb<Moy5`6uVZ$R`7&=NDe
z!lR!n^Zq)|DirvHe4mJ+npgR`Ap?ptu#cF<)%D(MxYsMx9+7H~i?zqqM0Fa8>X4|4
zc)KoD*f?&hlWeV`trc1C9~Ik1(QNCsGsw0mZ|MjklRe6AET(G<_g?+zstCFMk+`*V
z`PGM3Z`@b+Uen#CwL>dS>%KjbuV3`_Lzkdn-8XW}`Wcwe^>^!6&#!&`KEL5RCizZ_
zzSENL1=06H-0oS)pqkONhA}({;*&AFRV&HQXK|3@F5e@T@408VulqPhEI%Y1J|~t#
zAm7cjceVvRw79pfW^zRhTh}r<TNPO9U!K&VK_T!=Le50Fe^@ZUz0hWm+6*uB<;bdX
z^0p>32qu$<1H|Mw8~zhU^Z0k+dpnJFtJ>Crl%4)<!(=9tv-2iplJ#`gNK*3H4i{tp
zsuFyVI%c*o6ttYs&af_^gRGoS4~geRq>loDmw%da$yw1<IkjZ^Ao+_;lzxm&tbxvI
z9RolX)@ey310~jJ$#LPRpm|SEEQ=x1CL&=G+Z=Cwz#y~FNj@$a4k@^&O6KLJwLy_w
zoAf8x!5W0yr?*SARDqxn)74uTV6iLjspYYzNxf+hH<`V7R$rBL1VRjK$g^Wry3Cwc
zDTVq*Jl00B+*Hqzr6{d~tezz0V)?9%3)0G@1vT07Ppem2j)i3D>KY2QXisbVDz%h~
zE0(g6Fq0y?Dq(bx3K(&~S4N;Cjo_O1?D&v8d?rlT#mWH_T&G1wgRd6()duPP7PX9u
zOBn|<ZHkZjR>DxCzi&#NmZdV3P=llybI>>m&|IT)){Y;@7K*4q5r~bBlx$??qG3@F
z=}7ZL15Q^a1^51k5Cu?~)9JDRGRs|yWlHS$q+B7B3`pm~rwS%7v)(#lyMt*<R}YX$
z$CTiqAA$f$8AaKSqpVNBl7W5B1glfPAcaYpBw<D`O+Z3YmLvq*eTu={At0dENoBbE
zb?n?L^W9;0v<_|0(-<P@K}ZCg#oH2wElNcgkvE{J{cirRDIz-_)8U%`&-56h2RqwW
zlS}26{|KK615S+4gnx;G-lIn$J(xsd*5tx0$q+7(&jEUTj7K5^Cf;daq;dK$(C1@%
z{0TkSp^Y)si+2hX`su*^Ul1vwgL!f~t?po>%O=HBg~WacKDr_m!1UyE0Rs06z+2^_
zr}*n7+WvG$Krsc$Crv05$i^24pbTqgKzN?VZM<BfOe0lfJoq~7Q9vwE;oieII_~m}
zB+BMsS$zknwAkSOL;pmPjYOe%E42r%`sE_UXcT3x?0B<NY9entJAbDs)$O63z!D;4
zr4|hQerV<izV;1g#}|goa??+p9k=v1bvH>%y1irV`G4tH8n~&uarid|1t%$sI~&*S
zO%E+iFeYr-7k75hY1aKYhm=6|abgPH2?-7R|0MY1%Rjoj;Q_b3bQ79}`CVdumz3Wx
z=JzjU#Xap>{Q7uli&WY#mi7w=PK%{T=>#@a(YYHBzXB(h5wQYlpPqPCuT*tVtU9<}
zbqGvy6hx6DD3>hNqNRG90q8Fj!2uHo!|E0L#ftsw6)+y|d1N%bopU1xnyo_H(FeK*
z8A99fPmCj*rEP0Iv9t>X!imA(@co?kbK<aF+_7>9Xusg6qqHBV)M}`PlVxOC=d>Md
z3QO2R_ZiW025p&B1n~wXarsK-3Yhn>w@lK9>y}2L`DhvxDE>A)Cze9?(fP<(COPXw
z(j4wtclOG{1NWwcGcO3vee2E_lVS=TlDk`UcduP}Fa(vnb@%geN44ar6CHJ{MfU=N
zqi)?X829dBq6_|CL};N-ayC+*JDVkEhv@8BcXp+O625}Cf=?Dku<j9zd;a$ExeN@G
z2w{qER}bf8F*=yG9cLmaZ$n^#ZYmozZ^4$6+^i8T^;^`zKZRzdyg4m|6tZX;qlqk-
zQo&^-FgBA7?JQ8Pczz$v>YQ=;K9%utvg=P*bBvE;oqY{3S(&%ncV@Ir+%N#S9mL!@
z@wSKlHcdQQXs>gR%mp{Qmg_dmm2v25kK7u89d0XhZ*ROQS!+dWEmZVnbsbC6CNZ=7
zvaPv5bCU7>UYrzu5z!5;W?IZp#WbQhO7j7yQ=Dn<C$0TzS@c!#kq^+O^jpmQ1#(DY
z4-g|scJ)`vK~Dm+AzY%qh%GOJv}#i9H)7mGQ<^o}^}_vgDHb*EB{Iw92A0GADJ21%
zf6(@k1#KZF^DL-Ov<V5uJgr?~veu3<N;@+9LAcdOn7Gm>s3n~;*)J_tn)Z`=hbY=i
zL(rAKs_m}`=Aaj{W9-JQrwXuED5X%}%J@m8C$jC1pLRd0wbLrGb{hCr?EsEXh53ed
zBGiZd!r5S$rF|nMp<p|H{P7$v+Msx9;rIc=MIGHjHq)%cQr}u-Nz<$%d!ZU<Os!J^
zw5+)F6J8p#Kc%0{e;e=!huiT}HJAgk-P~3zu?KfV!lxE{ewPwzq#pMv5W_9Iz#md#
zsPDfId_X^{LQq`FID>uej2Hy6qQg5wW{xR7>N{Y#j9$N~;~z&)D84weY4l1UWw(|u
z){dcNKX%a)-uq0*sXOU*g{;AP2V`@!ODS_8SD7u}(gkuL=%v<1bBqP@lywkw-)$Uf
zu+byVfECb*lg55p?EQdEDT|H^KaRej#0BMrPAofq(R#&WhE6d%eo86%f0hPEvqoBd
zrqv_AL>XR5TM53tqoDZIuHP;rTw{cN)zYTg<g4^W%H}ruqUjm^R*=?j#b2SH3)T3s
zT>j#-#++6UrOhg`^{v$^8h)?T!jk=0jy;~D?1UZ9Xn_=k3HID`p!xc&S>#aq0<&nh
z@@t4yuvwJ%jItD|tsDODX(cfSij`dXKTVqz=9yQX9FxDqXkSi)t=-oDu=zb}c75gg
z?J_dHVrf%tOS9`)edJ8*qi4;oludceM4DaCg6&da$MX2&yNrPSY5tnMlr~y+nKQ4n
zVn5Sp9qo2ht#V(*B{5gEESCPhVzD&Zu8hcNiuM@oR{W+it2o{ZJY3yP`jjyB9Y|rZ
zG$(<v*_E)DAUONhuf4`41z$>K!55Ita_PnycF-D+PFzfwf^_xh_$8<$<NQbHAy4}z
z)7J$Rjt+8o-Nx(M=n!2m>SbwF4WguNQLkz=HK_{J$P9RpK96F;BMJ*7P3&${f^j6_
zd;YaxxP829{QSs~Ieu^sq(riPG7&lo`3mSK!=13m1~p}RB5b76Er+BebnVbtc8}f8
z;#`8@i?=pCQ7v6yD*I5vTC#!4PeThTn6T6RkaMqvleg8#nVh}$&7oja*1SGEaCGEw
zG7GYVO3Fwu+v!CbZ+afG77=b-y%e0hJU<5+92iBtG$Cu2r<XHTe(!6+>5G>DiWyiX
zk}2bP$$2$j`_`^S*pV+T{ESXRaY#|Tl26h}Fuz<G_}$9@MfoU{zoOd<ldMv+_c-j@
zQpZQg!U*Y^KUr<2B+n?tY0cAo?Nlny6K7BTgVf^m+3jsx8}Tw7@$@pmE~yvf>CoH+
zNSdiqgAlG=%7j%JH=$WJbFN)W75ix;CK>xH4;Cf<Q-?|-TPegFyB5N$K!UY{UwF7E
zX`fn(YnOM=JT+K$K++f|J7Vn8{#c2W3Hq#2vJ;@@Z1cCt3m-9@cv_VcnOG!wBYl!=
zW<n1&zX(q%H;EE<n<;oL^V4*z@LV``fhs=)A`nlc21Y?k=*gt2YFap9BRUzAY)f9b
zDqq^0yh<13xJV+OqFlZ*F5fClif}SF;0OVw1EQ=G_@Bx3HF|s>k3`|<Ty&TiHnZs5
zU_dqroHwAXa`Jc1S(pfBPX2jHNyitSs4e^e(F3!f2s$-=F_AYti%W22)jY_=;r8Y9
zZ)OFyfC?ERYt$5z?FKxNb#STk91rS0U4P8)r?xmskLTzyOnK<1>7L#9DQcEHm=alM
zWedLs7%rO#@y96caXkE1nG|`5JXntuCrN~?0af$55l9TO1%!AC><;3zFxDfA_1-5E
z=50$6NtDP!2its;mlm6+rg>b4#y~^3Z((-!D)NKAD-#=ZBulWpO%jDk@AQ2F*FR%d
zz)i!-HU{-a*(W(rBQ(e~xgRE4o#f`e=G-o-r-s}m;_Dd5&$vKt`^}+J*%`46Qg|>v
zQ2hv^9D1p4uL!%Ty(8<E6Ox6L>((u2N#=tz4#8ij@grKw{@#YK2VuE+|241RM&P?s
z5EQFHJm1ePTu%Q_b6v~*pXAm(D)BM9sEx4nB=nsinK`;g^VpZT8`KZJLT=qIxyJLV
zp(~kNLp%h^+SQdZm%8EULcYvo0Sr!dNL72psy*vfJwpF^vFbcHA&<OOLUo_8{{^x7
zg>~<Xbn#=^qsm&LZeYC<*Me@~DpfKzTlo+~XtHBV*TF){(A5R=m->wS%A2tK3fZZ@
z%C8XfE7tQX|0>^mt9(7*7q`Q9A#65E_5sm8aKB1AbXq)gdfk48-A>sk+8ddJt~-U}
z_VHWCALnMn90jDV@;`xf+#;@n-HO>F8zF@e+N~^OZY!C7XuR79&Bn~tg?ndz`0~du
zOZ!fX`%Z88&fK(;En3qplVqzGZS|`Mgwy8*Tm6RZ1@KiY<;$@Rb0hdg`40KM(v^{Q
zTU)$v&(EM{N>Vv{26a;Ru-H8;b-yTfzj#wGgQCkiKY^9UEY49O--jyMdqjH=N(x)B
zEH{d>!J<^RNmYYl)!=&7VP;>rRTdMpIKR7JGFOS_s#V>(+5gB|BosF$B{oMltb_5I
zKB;CvtQnAMMn(MDDj(%LA#)~`bc!XNYnM0j52ZyR$v{N;tOzalB6_#D0G7Mh<)U5)
zK)C_^X7u*8Ti1ljo=>d3kPW2|skr-Lad*77L9kanvb(6kw=yzH>VBT7cNAf8Im(6d
zcB#BaEbqaMs{J4LZ`hxE<n*m{%0`=I@v?(r<w2?Ps91UQ&mI54{b%kC=Xr3SNGUe%
zY>=GoqO*N%h(yPv&LOdLNa}oE?0jD8d{OLt5u>@J2qKPkjoS<0OBJA0E|ae0tnTNT
znT{gJC|1>x)S9j6w)vJBmS!DibYEnWm1US9^*$<eEqA`td#6__Z4gTvR$tyIga)nq
z9n&3Ck{t#<RO_J9jbsG#6I;_~mV&pB-$2!M`SpMWleCb8^ep8PtEKaH@2y@~r~Sm-
zwpmzAA23V(u&@bsH*e;qmEw6SUw#23G0{oRrq!z(ww_0Jm;>pQ%KOFgeyMy=EFb)n
zb3gw2kG{TPKaHT}=sVZ$T$9S%#PT+&e6Lu(_m8T7*!XedhW#iEzEZuJ71%b>-X_`i
z!bZ!zsvp*WTrc&Gh`l3H?-{Z84BF2@_s3RL?^c##rIkkI@}XvB6-y@`sWm=9%?E=q
zCeBjw+b;;!z4wMU%8sPQ%Sz9NwTUL<v0KN;tY<~H%=(0&;;|dYK7rI|Hs?92TiW;K
zt9q<RVs734^#yhuN8N{>KPnLl2Y&_=zpd0x>}F)0ql<MG%G}UO=1gn1%n1LxNI6#M
zKh7_EsU-8qrUBDSHQY~13@=q?|D>jM%$1oa(c!u6c2Ytkuq<<r|06atu&^>-*YOsJ
zA!)Lm=we7*Dn=x84gR0Za9|omq}inh)E&Q>>>VEXR7u>6I+X!K1b!_D$UBp_sq8N;
zv9z!?Ej-1tQFHz<Lt!c;b%{u9Z^w@>z=bVzJ!Qd;0DPisxP^Anz^>*?9ck5g$#7@|
zu}eKka$v`gU3{5h38{f<TOenb>aVzD$T0)N^^&cNgY^#9*ptWltI9E3FH5YX>5Am>
z!+^b0WdiJ}C-f#5em6-047K|`a(#y$ui)X&k`ba`g*%Z4gBjzgdnh7_0@Xbp4AadC
z0T~8CV^)1+jDo*TsdHrf1-F%4E8dPrqyk1z_Xr88K;A!(^E5sz8(h;%t%G7K1m;~o
zF_*2>)Aup4_1J@Uv32yJZ!}&~CYAWb62DZ^CzkZxJGNeObm<r~er`+c=JDc+pEm6K
zja*Eohql^3*(VL269>=zH*+@3l-t-{;x%MVc$=}{wZ64ug7-kmR4_AS<ld7s6ufD%
z(d16IpuRe@?&@Lk+GId|t#qwk@a&V#r{@-bL1w(aEJuc4a(H}B4_ONJM?C`-gO!>8
zrqVFjm_3Q9n)=Z|U=#RH;keBObYR14PTr(F+g+|1)|zZkR&64#aV!%q@Q5%WAc?BQ
z&cA}2Z{8|E7@^ubektyb4%9Q99+T&~?yaVjJNp<Zo+Z=Zo<1Gfp1t<@5n#H^)QT+B
z#iX);B=5W)CV4)Q&C<!ITZRWmnoTAJQ9aGB_l@+XJSc$9-HJk#_bWk}n2rQ@02zox
zf;=6w*wLkz?9IZ$?2};08qE|;rNM9vs6E?@sgzPCfnDo6GBGU+x53B^HNmcReiD}7
zARp+6V8`1rND}7s^M(UHh(b~niR@&R6P8J`AQ(=b9`aJhJEl06FtKxqtV9O9onwV%
z6P5oEpVykUPtj*waWhL3_d3#H;udg)#jx2*sx^&baU-m#7q=`~HX#HLl@H0&1=M<J
z^e;V)Fa};&zJiM_dc?|}hlQ9rb&_YF=-IdKIdJpnPwXYwHp|J*x~*8W`hH?_Y~^z0
z-85f|1*?x4U5#6Yfyd>T=o?x;#Y=gzT!%GPS^0RmO|*jsGMiTa8yvSeXmn?&mbk#i
z)Y$(NqAw;(X;QE|6H`XN%hbYNi2Wgxt^_6RWzqwGs|>o}sXbEN4Kbl<P2TZ?D7hhN
zuvLbYyj&Dw;eZ7bswo4aO35H%4wh+zrd)<P<*sHXjb<7k7OKDY^VB>!PX;TAK*j_m
z$;uKV$HL$dE|r1p;~-rGrI7X@l^OINKR*bg&B3Gm+`_ynIXQ}JSpWm}r6wYfSe&OB
zL&<QuUck(F0`TNSnAwH|0WMV*27W-93@3uo36yL?&Ev$xRWAs*K};DyX5?Pb9K27Y
zP{><T3%K(;sHSHm<!e0yJ1dzI4}GGpm#@HvH7e_6(_<8S;9sMI66&aurwu=kX(tPP
zj*#mpA}Raj0(rcKM<Qc7z(?ro&k_8@rs!sN6wwo8P%5a>U|0^<>bFnAr^Wq8Gy{JZ
zS+K3Mp=rtb$k(uXQffRdHXi>A-w3V}SvqtxFYalCI@^Y4FJ@nJ>rLwlEb%ws_LXuv
zmsJAM#kB^uN47#trv}&;Jn*poz+(dr6+f*%uzU<rO6pck>&}jN{ejQP8&_217r+1_
zyQ0FD|Fe8!ZvIxLDd(te%g$MFM}dRfpJ%}PZ-1so0@eUO%Cii#TG&<ge%)Dr4S$dt
z$}~<?1_+HoHq0^(Va|z=EFZ?xypbtT#1`PcNsm9G$9L%Q4QkvQ<YL0Hn4laVqQ^-J
z_)BszsoLytfLZ!X=pi{A1*r`(X@pbrUV8lR^nis~jxQru0lEHwTzzmQGQ#0R)(KWR
zMz`W;$QP8HDcB0b)nSZ2!iOo5lM>Mq$`hK$UxnZMoNOxSI(bwo4<au`_G2abHV1VY
zoBi{g6B&l8O-K2bfgI?8{G!{ITb9S!?DJ)PrlDcA5c*+;hAorc(79T;#o=|&@k95=
zZrmAT=-jH|j_Xe9J}-SqZy+Tg*|g(UHv2RwpJw)%my{^ova-(toaWxK+_7vGvQIk)
zy||G(BdeXFyJgG4{EBGxEoM$9=Wg68VNMsB)QqkiesARN2u^8hT|emms9z{QAeJ1w
zk3;y;Ex9mm&SZVteZ&2@jHS9_^cYM~%3R5yduVVB-7>%fMJ_D984+;3O>whW(6W_H
zo}kNAZRL>5go`9rI#x4R_TC9^naRhZfX$_^gSsJ|p?A~MwPhd&z_}~l>A%yzmCZhl
zJD}$<U)Th#+A=ezg#(queb>E}%RckCimELubJ~#4(gK+QUq1KF*YA8?u=>TE`p5Y!
za3rJ0@Vt&?OAcgP-nNy^oJP8=1TC|b!#+&_gR7NR4d1uCZ&?feAoNj4upSa~1|OSQ
z_!ZqW4FP-cmVq3ox;zB7a@Z&CkSMv`f2)5hmwnneXW8x8t=LvR`z)aTDP&GNXUba&
zz8$&|5_3u)JDA^j!<5djmz9zn)HvQ1{mPlUId=|hWiu}r11(>U-0^Sau+MF!6|9|N
zPS;~I3ptgUX{cK{^xp8@;Vq2Ey0uCgmUUYu<aA(#fA8wut6Lno*Umm>@2&F&F3WZO
zoMb2w4JGS_QdG_9{v7?A$7+i=d`x*iLqEf48JFeW${@dkx?)4I&^G*-!+WdUVK}P0
zcVdg9_k+L}>@80%HmlyHsdbYc|05pTHvN=5=M`-4I1KA%5M$?$#~qc6ghdm2u;Uld
z;c$t$Oh3Y#V;Q7(0XSH9cmA$t9ODSz)d~aJpwq&$Bi@)kN=J6~yNpso^UJJ!YaND3
z0yCB}lf{m-M8w_k(>8$xS<aL+rcx_L8c0dvsbB)Sv_rSXp*ZdS*Nn6hYe<O1)E3Nw
z(H)IrvVyvxEEzMjlJEG%vXs(3tB<rycBnTyqX)Hn!H;~O)%)3LwY2OgAU@y3og&Z*
zOhQq|ia#rPNdFx~x+tgHIv_K=<tr<hx`{szxH;}CyokFO16P^VhJ+brsF~$#AU1L+
z4=sqfS)PPO<(=_g!$mvWm2qa{0hXrcrlNGYWA+rt^wExXaNNnlgM4G61$q>?dl5W2
z*hHjjL9h6YvRwq4J_!Tvxw{bI|1m-THQMQNa8;mOpo9*#6lG_MTN8=Uz*UYr@@c=4
zSXFf4Bm*^$;wDXIrrrC%-vaD+32~`{1Bi=}GnPo%l@GHku{`A$FB#$`<?oc;DO+t{
zE?X~YUdoGG%a#`eE7UowHqCCyTqm0A1aqgL@5B?y3#+7p7VI3?kF(&~hvwS2z5LxK
z5Y(4)9u<||zI^NQihuRYTElwL{v~r<Z~D&hZyvvCmTW}lTq#(2e%)5Pp|6XB_&0iE
zbeaFq@%^&*%a%shEqksX201(@Pck}1qjTA@ZY;k(5Z4>NGy2WZ4ZR%&2Kbk5y|n!5
zKlyr6Kj1Xe4rrAeU819F?ZUdF=lW=zip|P}-5GlmE)DBnFKr=x1jUrHBMyaDi%T(?
z4637Rxl1s61-+LocK$&=Oub|#JQ)_oaa4^ka~s4(o1f#Oq3H|F3(@HiPiqs81G$U=
z$#y@C&?1_=)Eo};Z&J^ilYB+u!trzvl+9`|l#6;bQO+U|FI5&^2s9IKJrsgaKD!!3
z=E2!nES!N~quVcV>LQs7W|AYB1MVHY802|c(Go2zGUMPup(i-GfFd;~5BI54v3zbF
zr`us<W~f&yl?;S2(0RrKg*o$3XtsF=aP}Ete8)u1?h%?(7vo-Om)WkhPl+6YarcRF
zc5v#DFO9Xzv2j`MG;#!EF`ufN$9(6(wnh8QMtCATCi%J4OOa+JXq<gAMX*FQOLV2J
zIn^L3hHtZcJ1+vlJgvuxs;9(F*)`!wK%d!!Nw$DCZ1i#z`fUt2(Ki!vvuj6|%gZoc
zTFjGekGQGxH?s;eH8B}v*l?m)DXFaK*Q^j!cv|ZdMLR;}NIYBR67E!>Y9U-rPe^+r
zSBWB*i!^f+9>ot#;>$t48P@NUEL3(uRoV%F4k0p+`o~Bp<LT^d!44C&RPo<p4+_0b
zu#NrbWgJ-c^Rz4BkBi*LV=Ggq(>>1ObmmXF@=v*{|HKviC1?4Rb9|{c=rW+=ugd`c
zQrGh-*ZC<|`6)O0DcAie*ZV1VjQzEI$~An-?faB_?#ql!L^X1{<GPfyi=}G)l<WJH
ztNAN#_@_Dcn=h{Cc&=w{7TB*_zs#D>*Wtv)vDa3h(yyzCTk_u?xiPYp3HN4k?Un&=
hELU0PrLMR8Z}cxa-f`b?<BC$zQ1eAL!q_77{{kq>Eyw@>

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/medusa.cpython-312.pyc b/v1/spec_decode/__pycache__/medusa.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..60a42c828a758a0c8dc97de12dbafde649f33e09
GIT binary patch
literal 3886
zcmZ`+O-vlg6|SECnZNE~hBdzic8ra^gJ7_Y4fr>U*O4U>uvgwh*-@faGhN^r_w>wG
zH-<rjWJMgX;$&?l5%$UKX&u>z<d)+)$}Lhv2X6+omdH_(!`{ZmlC{1huli>IGbu#%
zt5>gH*Sz}PSFisfNf881<9?C*YZ#$_(ShGMPuN}tVHK%JWi*s=pG+Z;2{2R+Xl#MY
zaE{Dsd_l+vj?8JnLMRh*WL^swBAJLI3tF@wW<*C0YEmJVi7_aEa0oX&Vca)n;sJC8
zsi9@0hMxpHU82mSBHz-%REn`9Ki0IuM@4-mHw&Zp3~b6XMKZ4tRn8W56EB#cj^^~7
zDQm^qSxjIUo&~EyQN<bzT5^V5$Ss(21k1%4884JDF%6iAUsnnxEvL^;VpCBSQ^~p;
zaQl!q*#0vJs|ceEqoPbeWiqT9z?{lrJ}>TG;L0<c$}Mx5pvuF1eE+;E;IJCR5%`OC
zz%>1z5g-CwMpVOC%6Bzb6I3JMHwrdQ5I;Vj+;8*5Q>h}3s;<4X%=y|(q8v%Z?ARn$
z=M3c<DVB-`CW{v%NocMzS@N{Wtfm-75`vtZ#X2U62_Z_F#hX}98u+t0tY@*|EVQGy
z;B4qIz~R_}if`qzILq$Z96eGx-u?%4tEj?MkX)ax1YqO=0l{3}hhg0Up}eqb;EAxR
zZV9U#SnsuJbTIj*y*6~@hX*|R$4&Rqyx%f^V80Gl)!$u4DP}4aB~dUV6c%>e$licx
zYnb=}YAq-WvOZUkrxlaV$xciSJLc=XakEjv**Oj3ehd3+n^mIBc$oHeO%&xfa;l1T
z*~l$oJGy%yI{5c(dDSeJaEi4#18Xxo+cfCu00!QU51ED1P$^d$G!+7l2N&i>&y3w1
z#Y0+ddZ<)3Zxr<*dfY>|P7Kiv$|}x6h7A=QNTo|<J0#0a8p?}pdvTWbC)(g;#!sQU
zjcOw5I<~?+54CT$cCB!CqnkacYR_4#=WMm-W2@(5I(6`c*j5$$EwR5UUa-UqRdLc1
zCpW~aH5P>>SXvWM>!E7Ppw%*1Z5g&&hF7>>Mz+B}vJbdFqaGhqF|lDM3@_#7f|v8Q
zKrm2)z6Z7xbPjBR;3#ZSz7A9B+-()cXR##~EPVB@XMT4o_^a6ZDz3s^MxXQ9z%0rJ
ze%6c75?|r-{4NKcs4`Cj{;GU%|GW?5`+>VhIJ6`z@g^|5+bY7Z5WFSmy+wkz1Wk%k
zr&WT!Us&73!9JFP*P&;q#LxRua2}=Dsc-)a4S17PbA^;(^A5o5ShiRw&6$|8Z_YGq
z0pJ6Gwgt1O<qXqi7jq?>qhcyVC;-So+EJRbg=wvry$Nf)wY>ARMHlQ|I<TZTZ_xAv
zm^zKL)3rg5uNGV10h_1q10$mXorAUJ*457Yo$Fo4HxegSgv~??9aa<lR-*s$$VTGi
zitsXmE;AF%M%%=*kw5l5;2(((#mCJL#EtfWYWuL&KKyn2>90ms#Pzm`Z~8uXJYe;W
zZZwTS{~-Gt?%ws^hS&Q>t){W{(AamcSk(Rl<~zG-%%G9}!?E!*+_NLi;}<zw^kC`4
zZYt|td0>Q49du(3=u`$STvT9|;4lKH5>V^FIgJ=()?otBYsis}wD~&AId62jM*R7d
z^DkrIxVm>J0pQP{fj!h27532JD)ga6K4`qhM%QB_?j^wqr1Cz<f6kOq868F^kipDD
zY(9l(FzD`;1@==k&!mJYLW2r0m1wEplAx)~+EJIN<QrH~QvsI&TflNL`Tc7@yyRSW
zE|8KrBdHh7q%l`26^V(}RK)I}%$KG}&rx13>gj1E3m2klkRk9vXpCH!2`bSGgdCzB
z%~rdqq!2~Zu;#OI6zj^ghGksRrc<n&6@%2AI`b*ng?U6PDysW47CYWS`p(oTx^5Y|
z+h{9v?w?ZUg9~3vsc$-ZH@lM6t^uoSV6*#BwR_O&9;|kMXmx*B?Y?exUw_TBow1e6
zcPHMkDAxa4L{jhCkuUqd=zlH_ZpIH(<4G%?tj3R9@#EF_`M<@_*LXIZ2G$kR+d(QJ
zHXeBaY8FZ9Hxl?*mr`#X(0_jJQk?x$oWIl&v?KJ=bF;ZI;-RJlnl<Yro8O%m@T+J8
z3~{csyKjuF8K^88VI8#f8+*sgQ|5_B)Jp*q2-0mTePhfY?K~@#j6HjriC{&~{GC>*
z6Sh<S?#Y||=q)1;z3db~vlV<fHAIRbr$J7IZQd-B><yb=#H45tT2>NTknETe8XFgZ
z6n8$T=yF@~%L3;P+zYR;I#(!^WiqEPw!ed}`ph^uF=*L#8~wYz`%&~^bW=)HrKBY#
z*N#+sPg=bv*TvyYpxFNV{hRN#t)9Do?sbssh^$DjBPe!g?ZBE@JvM3`8~tkH@6y#x
zG5-0)or!x(&&589yK78Ux@t*R-x`!do*ir+A7P)3@Z;YLrkZI@p(_O}%XUPjSpfAE
z$f7KNHm7LbOi-59Vpf(3Jry!aJL-wh(%Ke2!Maf-gfbsFN;PawH^~5%0=jMsla5nD
zGsuqR^chTOf$L-(ISb0)A<_vCCmRVxkJHf%H+~J>GI|*Z@S$2r<WIe5dB4WP6A~oR
zx+>lmw}W)lCGlro^c;SqJ=AJE$S~bCPzzEigd(vO_1^HE+@1Hg!&K7~<<o2A%kmfH
z8Upe6pKQ}dtrH2Iw|`XSJ1o9qgFjdc1o@+DAJq^%9$$V%AKNSvx?WPfyI;E1RI?Kf
zJLJG8t?PuIrCYWGo6)k}37UPt;kS3bs~k*u#_p#Tp|_5mbc|hQ#S2iXg7>sLq>O}#
zLx*<X|1~qxa0HmlDDWZSGGv=$d+S8nsn2lQug=_KJ4fG2YXtbZbC2LMXm*ap4xM+Q
zagj{I1f>y!BEQBm46_|VjI@PX{)2kA(5WqScnghep(`N26i}q)-cL5dJ-3B7!YFg}
J6@t!j`#%-)bTR+{

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/metadata.cpython-312.pyc b/v1/spec_decode/__pycache__/metadata.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5349cba6af196ecafb29ba21ea68be163496555
GIT binary patch
literal 2938
zcmb7GUrZE77@z&i-rm8%Ayl|KIFJ+1fK&-Wl~`LX)ka8+C2hcFbKEX)uy=di-J^ng
zi4Qg*u}RAlT(kk7#6Y6H*`!HpVq%lN961}#DGwy}#Wxh1#y)js@Afzlp-!?h-^};T
zH^2Gjo8Rp3#l<{8MW%0rkJ<oujyqOia>Dv4BuoPlh=dFxL?1z5nUu*s%53RAS|UjB
zDG;gaK%^JQ?7W5C^gd>s3@|TnFF-(>7}SFyIjCtpp`3x)6y-YWl>}Z)0)2!C`p8}&
zQ6pTTVOEwHk?2IC#7ad~xMf7r?7z*L+Eq*Ms%3W7vb$=FuvX-*gFa5Oi3Gx%LyS?2
zHnh8aNZ3|HUIc@zXunS9gJ>Uj1d5^SQcMb+l|qUrbxV2>#}Yb4H8`jXx-u$7g|Mi>
z(r7#)6bx#xJQNq+7_7(*YQacMmc*<B4OZwubx6_$Ss4oJnh=hP;gF=keFI7~u5BMJ
z*=iL+XO}M&lJK|QfvRbs=XC}c$)!l%76}VEy#a*0b{u6)Pk@3{BzQ%|83G+h5;PP9
zL6)K@ooG#x2Q@s^_wSh&JrZk)g=5XxEi_+=w|~$v+Ag)o;enRexIU~zTgGHL(lU0m
z#q=SXk!*?NLU|-M4vPgLrf53acUTvM3E!ImKeEN58ZE6=pz0b}@zl=I%f7ZHUt8L9
ze3Jfyt6E1209jEQLqUYBD(P`G8p2Vr3c7T;D523UQ6j8}Bq)P83%;jA<PZpvUljw8
zpbMf&TXs|AcTO54m;}AWzVvPOA~As$N3&dL7K?o5aT&xAu&!~Us9>!kYpn#QTl4@%
zSZgzztx=@YR&S^KYmkfNLT<f;O}FQ59hS7&8jNm|6du{h*CLh2$`_z2+4NvZ25;dX
zDYM2lTZ6Q;3Hu(1*#C{lu?HfDwdNj(iVOU>HZfb0!M#JgOZM<Zy@N039=<q(!ddnX
z9!p7J0K;Z5hTSMON(`q_x=1hN-iJ%*1`y~=(BBkD0jB2#=70bR8BrgPNh&7Q0HN;3
zO_7Qd)Z`BpKP4)@b1F_L73ZCbQ!c<m3NZ?#w0HzEx}t`LA*)MKO;I5ej_R$)AQ_E8
zHWZIw3w}^lBA8MUW01N6nF&c%v_Ki8Lb8@!4kLj4Ku`}23tD(Wf)wKBEQz@=7jL88
zszEuZqXiKW7f`p!=R7ty>0N`B+mu2Uqq#3wy#vi#26)fVvm@nOCR-z-;Tz)HUQ|2^
z`ABe762y2UGCtwmfgv~5USzHfptHFKHXNX`YNj?_5t!tkz5ij_efoiOzWmmiIqJuA
z_nj$jf69IO+3`=(-mVAAyml)zci`smeA!L;zLMgqQ{JwXhQ@j4Lsz<?GsV@dRP0Yx
z9ZOfVPV#@%9lYbY?a4U&i@o>y@Am&%xj~Wje2S~tU_ou&Y&aQC9qM>YKH(m5PixMn
zIQNSG@Up*c$={Ybem?F0Y}wzv<nR7%FzxS6arG;{`a8DUw$$Oy#~(jA_vqYHUw4Z0
zt~53+H?}V|wx>F}(~UjLjTe_1FJ>IBb&5QMmTK7G0D@t^ZO=F=Z%MPG$<g}<5sW&d
z^CB2N|LoP|)%g=Y_x{rVQ-A8>7f)-yOmUu-s+w7M(v9ZKR4+LWEVkV{dH3YQF*LE7
zpDcOFg3|Jg=UB$uobjE=)St@Kw`c0wGVZ{JlPl%d0B7T0ziI}akBHaM+oj?2`@z-a
zqUS5R-lKa04#){YG#HTt0rG+nQN*~6WrrYq9S_P`jq1h+%6^_rb*CT%qftc<>R~0S
zAzNAwYdT8ZsIFqxfp+uP4Lz8{ifCRkwFwR11!_5J%;Zq<yI@v0<+K~9`WCFQpwc~k
zdFpbSu3N3Fo@t#5r|H^Nw0%#~lcxQvZr^NYvNKIL7D&~#vrWmSG<|S&U)A)5sS9b^
z_lhQ%cI1pLTO%77eznRwBhIxZ!^zq;2KAAqta92h<yb4iJr3|SuWU$Kr_hX-ct#c{
zh8SR>J^wE%X)1n<AY)!>wFb#%V6vNO!`=J_A=jA=<tY{a*<jw$0;pP}2!i;V1w{RG
b;QA9d5E#<_57|MWlR_23K-yp8uIcJO>kx)b

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/metrics.cpython-312.pyc b/v1/spec_decode/__pycache__/metrics.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0940d4102b3ec4968844effa86af2a1e61d4a3ec
GIT binary patch
literal 9531
zcma(%TWlLwcJm@R91cZ2Em_oK^s+@+4?pC{v1P3sYvZ-!m6JGiQl&AM;*4Y}eC-Tn
zTLiUhEL=cIv$5SR)(-X~+I~5(7w}I3e+Jk9O;MobSW3yArf7mq(dLh~yiL=uo^$6x
zilv-fh<EPeoOACz_ulim`bWQCpdiJ$zluHRqNqP&#ZDfpu=P(+xJ}8FOvkA?{4#Mm
z!OSrUc8;aZc5co^`rUJG__A?Nf}i6_9~bu~ggJqx7)lWo-#yx-IwvX&L!F{z*L6yE
z-($?yd)AP1e$wZGKHlz|t0Qe*XcL^afb3J;OOl0F@sUNPL1|Q)l;+*gy1<Z}ll|AZ
zxt0|=RQEN)&W0GnD@QVsXgs26hHD|F#N`leG@MT>(dBp~6T7UOOeGg$i_qwcC1aUz
zJhix}sL_g%D3?{)`fDiMrW9(9mZ>@B&wyWZtimZSnVEzhnVoZ!8fVo!q~@|}JgK>{
z2AuLL!hMg!D<5!<!xaE69w8J_W)x2L%G3fU3)i_a-((lG!#L3HgSFPJh#|kZo*5;Y
zl4Hrm^O;CS%Wl1_s3TfNNlUSeqQXj3NlCUKBn?5N1vQnBwCE*8UXCm3s31s?ei(^f
zDmMb8k{%}TF)b5|Y7&sqfO%zFX+>Q~sfkE3sz?!4Aw(jJi>k61$tbcEiK;10lT_uW
z%Zdhr&aX(BOG?EEk)#a0nPoKz(3uqW5*jeOWJZC`SW^07axs>Kol=!^%bE0YMjM$r
zZ_k@7ca)$Qf#h-`jMEEeQg16sO~qqp2-qsCk%f$A)H`Jh#Aw2nNHnUXVY*f$oQ8m`
zEJT*$neaj+nn|fEMz9847#1H+r!>QDt{`e1a~PE($A*RP7Th~HHVl=ca<oh@(m6T{
zN9sOfAM*25h@B-<4Kb=0fYmz4KBD08veCFknlz*=N&ox8SSFDkOUKe9nTWcmWJazo
zPdtC*?FnTp9-ALauVgNzl4F<S@x<8W17m~}WYd+ggpyHV|3=d*2Afo_WLxkGY&$Ze
z(A*89XdRGUqrMC@7CZJ8Lqm7jyD5F}_)`~KFO(?OD{MhO6~(3532z8l>Jup3hJ{|G
zm+ZcZuS{qCfXRfNHUe46G^+<#WI|ffgfeMz4x&@YF&3mlCCB8bCAS0M6y9!!wJ~R?
zU(gw3GD$h+o;AV@^%h*fRTglG#IzwSIQA-YmB<)t4Q!O$`S*exwE`P8`!$jYxmCnf
zeVB=u;XsB<jU+*);HHK+gVU7wLK(!MV;U|C@1EL(;QrLSrl^+{^T=kq|Nlm91K0yN
zS`xBrRFM~N1l|qYIiT|$zYIXFz;{04JM%rzaNsk(le9>Wcq!jMq4N`;@lr9+yDk^@
z9M$(6eH1vF=a1$CM?Y`am2VyTmxg_7CyHWyK^)e_;k&PFh+_{9=;HXMIQE#O8i&;u
z7;-igF!*pd8A&MNupxxQi4@8bD2w6nPnRQctH%=#%c&?dv$15x2!z9tWHJRZ2!xUr
z4p%b`*<o;T5IBTqhL1>ZIKY=uvf2!tY7nyq%y1TjZ7Po?%<AE%U4iT`smGkl#h2=+
zUAs59w&JeVYiDk<8(eF#qchJn-;8c>oyBe`&$ZrZ+Tf%=j2!%Ud~@VSd9HiCc|H1D
z!1>V^uKE(gxrFt;5(S_9(D5hu-C`+s1L-J<Zr9<v(GmrpPuZvVG3SIc*``J8^SSjR
z^pv#->JXW^PR(&L3%N_?6!!uHT9cdeDEv|*09U02T6SNj=Y$nch&P%lPsdr%U7!H6
z|9rxhzY<DUP-#^%+ZG0<$hXi?kYZ6$B}aa15=gj_vIembrPO7Fk~Ael1aBsmP(V(D
zqPZN2OUoKeLb49&V2I2Cq<Ru3qM>|GSRhaz3=snJ3g{38^Z-!IAT}t1tfHn&xgK?-
z0I&l2NMubv6j0VIRrXrEvh^hmxAP-<7Ua2$(Ef;4QO#<IVqG^lzeMqevmG^fIcoP#
zAR1n5^O_0o2)`7`PS>6sUdY?jB22F=>`2X-EUDRt!i2<SkyI8?wS<wqIH2u_xfM#?
z3#cJa)nzg|t5ln<vch=3G=syfGrWlu+{aWh7B&1}DG@6uj6G@yh*oe*9fW#zcP&N{
z{vJi}{g45d2KKIT?*)qcM%K7ZkUgXO@hcUlrtv%Ud1udu7eBbT(Fxt3@$H0_Mw5oR
z+cs0e#7x<yQ;|bt^M`?tWb>h+IxRVTEcfJUDkNL@(|C+f>{O*4DAj=6M#<TgGPxZn
z)qvba38hF?+JRCHrB$Y6pAJ($8SY3r4VG0|38}*{h^e3$azRwwL(AqcwUWoW&)HzD
z&9^#FAXbGgdM8leyL7%Q-+i#qeO&K8zR6FSYDwoi3w*!M_vZ(W6b4S~1E)9nGp2sh
zd8xqf)%m^o!DEHNbNb-9P5x!lHKg-H1s;`IQS2^=$8_=7pIF8#nD@}ROE3xK2014`
zf!3YQiAJwb8Rx9j+J86|K&U#|d|hR}6Z;wayUKnic8%S4#^z*t)dfFy289wyOK5Ub
zrLwG8Li?jCWr0tto}5Rf-=2X3AmrGbCkymeT{+GwxpS=5%R?KBy)uLLYf{Ld1|~^n
zoq6#x2XG9+Wub4?Td~R-$_zM+8oeqx)PxG`8n-Sd$n<@eZAY7<uKHy6Qfn1KsLJ4M
z=6o}h%@Jn|5iE0B=5yYhJBRCLb7GFaXYrm$22>eU$)<t|Cge4(_pfCD0_!@GRB?Pz
zI$Y#xOv^IE(l#Z5NA3{(w)!D^iK58?eG3L$1=m2Pe#8BmzD?8Adji;&^zYa!bco5a
zqlXq|iOB<A0W-Sapwru~r+0EuNh(*<>Qr{9)&&JsJ31LpMI&)-YSe+9hY4u7y8oj7
z=NgsoJgFai;qEKz4eN*2J-=Ck%D2Qe{Y70po&C>BvXW&89F=~oM3Ug-q5DK!z_^lJ
z%v?Gu4U8UK7?w_0eidkaHMP8W34AxR3luy$Xk*&2G=rWQ`hGiu*kk|~eMH1`@V2#~
z(+mDsjJUfMvjPWL0YJbyae2`kv2xN@_vnFzfq{^ps8EARrVUnGPE<(A5#W?MirE-s
z5Kf4vA{oOKQPs!_5upaRl!_&Zk_0lySi=pR4=*IE)p9-YN5kbc8%^eP(Fb)HVTejR
zlGd;d)pU!AR9;sYCvNOYz#dpGEbc+r+yg@ZPJ|N?@cXVB^;Jlk;YC~xbgZg@t3~_|
z^g&26MLr8t&$d=>`&rY#9EFb4fTQgPEex7I&~)SH@BX|fHh$jHdi%ny3wLHdJomx5
zjh5jx;qzeUhtGZR+<JeZcS7%-*a#lU^KGAZNgpnJu(1AGVc@tvaD1a{D$fUt!4Bvu
zc6CGftJdJ{pWXV|M(f_Y{e_`P9sXJ;*TkZ)^-j+tU$EFc_F!1=p2~|I#oogYMZI?>
zFLsxBs$N>}c@*d?v6NrR_a4;6gAdL>5|4b<u<PdXuR2N|%G(9rKyP1u&+`w@=zCt&
zdrsx~uCHL$Z`^w0j$G)P*1M)RT27SbJ@nwfX7KPsK@Yxwvukd<efrjEom`ZS&XXI>
zC)d1R@^vM~<KJJZr~G}On2InfD{m=^Jx{yqy+Wy%^7?O-jmFuKPenId?ZgZN1S-1T
z>JVmwn4$bpQA&^#1V*{R#gbqopTYJj*Jl9RFvDZ1p)S8pJ!Zi5c~VEaTAsLFuF+DR
z8{C(DlUv}S2r$!j>BHa$!Kc))tHtzJ5IqV%C)qyo7OKGQ{))oYGD{&c$S59}%|cue
zyck~b;st<s6+{K?niZ#Wg9pRSiLxMj6u-<XK8R*{ue%_c#fE%FedUpR8G=-i_d$!l
z3c)K?uI<QRj0ge2MO2nGE0XmZgqg~xUc%!pML}52<0nqSe;{>CXC*?=UpXs5luBJW
zYWhXskOR&jMpKSzj$x{VYXyQb;LgV1?6-ZOw?fjGVBMu1X;>nFh%*R0RS_`ffQ!KE
zUAYqTdP{@RRPwTtL{S%s$5(&{(fBe30Hyg<av2;gLfG`Lc38Kw&;!ywY4AHIT$WHf
z%=!B+TC3z#$Xw|O;%e?Byrs(uhT)tIOeH{-*xP4s*Z0~fD`ZzO183GX@yRY#PMEOC
zXv7m?g^<Ir6A(k5HH3I%ULipb&Dezlfii@^WtcRBYYZXKXr&nwfD1y*)R#>&6}0~{
zUFkB`HbBvEg&xOrb?z)gq-7?@+-L7ueXCpsOf@s1Y2%nmRM^4Zff6UXwo!6bP;zaf
z<g921N^aS+jgq^95}212b1Ki3zD6Q-wb!qT;Lg=Bc9USnfjP^_-bI=ipZpFp5@cVF
zui%n5$1dSsR3+QUo1tz9H+(n5C>Mk1<y+w7{srvUs<7(IRT#lJC!P=RVw71#Sdi+g
zXkdD4MRFhn;QL!TgE1_Ua-waN-lBi!exJI<yw}44l~wUq%zKki;#S2~->Lv71k7tQ
ztw29bV6K=Y3+4(H5@)l)XB_El_v~_F9^yEug(|6P9{JG_Yj7CAGyD*|TTXzeArU+E
zWf(czvomEYh@NdN(<c-yi8Pw+uZdeFU9#<Ebi2!@V8-=%TUca=zYjq>@{#R3;aH_a
zj-lX@%o*AgM?<2~QkMB3RN*Q|=HrSCk<Dmo8ADxRh|L>;MC5ISP&Ti+(Pj6Ru}zI(
zGS%pRX21O?v3DmZn-ezRE>uR9qR5o`h6`eL2~BN-tpWoArIH5LY(_Q4z9(gyTb3QG
zo&!o`=hat`W}QvOT2}M6x;?vAyR~ZCW?Z}u?b8a0Db7bU#pW)Aish>Y6TfV*0JejP
zO6;ZW;V3i%oS@wen5wo$jMS1y?K$!=lOH&V;iq1(Sqp*Cqd*9()-QH<7IqKmyN8Mm
zqs8`P#nv9M6x;W0QCz#QR`*n(#-@s5d%ok~7R!tYh`tYOO{u@oy<hL%Uu+mJwjVN)
zqyvB?33<K)uny1AMG?%<BY<|8pdA3TzP*LsLwfI_V#7qS{W%k@ZyeD20IeI)j+_Ft
zzWl&3Ks!Rv#?i9v%?C#E{0QVFH&x$kP96<i2!tGdBp&{vp%Lxdwvs@#_pfKy<NEG{
zYjwreV4-zTZyhW){GizWgJSCd0JVi+xHe%;EHzRc2MfUoJvgx$eEv@^)-QY+eEyc_
zCVTT$BwhcB>*Lhs^o5Ov*Y)WO51aCh12=~YjRSh)K)!K&U4`uap}X3>Bb$xm`RNNf
zfQhdcgU@dvrIHIw-p}~SZ=blS#y9A1pR&-X;eq^p<F1(={`Z6ZGadDxh%P99(t$Y%
zIvIkcGhzE{zcIc0jL@H@89_Q%ryO~`S#mT?xgT`NGr}|^0AK|J$~f>I^(=Z2R;f<5
zWGD1$=&onds}Z^>(<_HzK-<*{v5=YC@bJ#nXX!6?6+$&TaHK|1CdZ;ZZ_|PJ!~nj1
znPF$2dI9>>KZgw8c%r7eJBMwksnj<y!&Mtz1tb<eNGs}3uo0IQa+QOQY7AR1L1uU?
z>7n7KmHkrU6=mDbSG-@6OK-&>{~my~zk`f8rp_fN0mOYezwhoDc={^v$8`P}i6Rc^
z;?Pr!BEr4$`pxj-1Bf&pFYqUH9-hG9g6-GE{gp7|IzRqkPUoi!{EW`e5ST-{c!<C}
zbyJ;t$jjNZE>3^ku8U{?n`JtMch0Vzyx9t)_?vIM^v+B9wta=RQ+nH}Pg%X~>}TSS
zAA10ZIAbB&d<_oN@)3=OwBzZ33W|YRHasUym88B7>sFCnYA<H^_F!;wESgaztP}Ur
z@hq#|$XNuz>?-`UC}ikHHo^<qAk{ojXd2d=hOeD1anHGgFFHmZaC*mh$psZyQp@f;
zO}9>$JXqtYo`LoAcl+;ZABEO0>eBd@7n&cZ>40mN1{btMVd2xhr{rsTpJeC+j7YT0
zwvazg7j4z8G-MFUrJwcQ1C|$agN?GpP6NA&*l7&B>can`!0o6d7ufeHu&!Fcx?)$^
zRpz{DMUgVtP;_?BNmW7DF(O&VQ35YqQt;m-i0+bzT|Wv>_iy3+FG3dLRA(*f0yG%D
z3J+lWbFcaaVqx|N_-UsgyGDVs>X|4=le#pyDNVu4yXgK>n$pD%I6*;>%wBQr;@ays
zF1~Z|&YO9ENasUEY3d1r!2`X^{p}V7MKaFcv>$YbcBvS-GJMW|!YG=GELG8RH(YQb
z(<>_e+liVaaA-}9nm!FVOoorNK-34~5Go2w^I*P&C32hwutYX7g(ci7^TavF&|K&C
zz=gq2nh(ZP>J`8MxlU=<AS<ynO>glOE&e+-_(!VoU#YhLphEvf^?m7WzWK(6x9gf4
z&K%?Wh6&P#OB7`AAj|klSp8=5MVfATOkw`btIS23o~0jC<WqWq_0aC3zpLQiqx<)i
cNNsxN<MW^Pf2#dM=;Mp}^lMMCk(|l@1I9DuB>(^b

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/ngram_proposer.cpython-312.pyc b/v1/spec_decode/__pycache__/ngram_proposer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2154d281698b8449095515bd1c093e81045303fd
GIT binary patch
literal 8691
zcmb_BTWlLwc6a!G44<N8y)}|$TeKeZGnN&{iQ-2T+mW-0k#&@KxwK{^QKCp@W~4~U
zsL(FFD3utsjBa5W3v3i%foSUh^#TQ&eiYjR1)8E;lw->wI}lK{>we^?U{+of=udmj
z9S%v!baqqhNOR`gbMHOp+}C+r{*%Y!BJd<EAH{##O~|jYU_3QNWcw^b$Q{BHo=K1q
z{mYD)plnK*r!6CvY3qn}+BRaFwvX7S9U~3~+n5v1Y1fF0Atv$);Vm}^Z@p*IIgYqZ
zM6mI;&+PYrGd{dSV0outnrzg|m5_HmgYFi*JPWS}UN5}9XSDNIr;i2szzxg2qNouc
z=wt<*f+d}5s`ukVAgi`QZe8_uV=TX?g1>*B3D<vx(uTuU%{MN{(d5i@RGtup7%yq&
z$+)apk_c^SF_s(`G@rDyO_<SKZzU4bXHv<r`1ok$9C?d{?f(Ge4iU%*!xLB{Mlg?=
zc+(A7B;E|ev%s`l1^cAGva^o!wr9}of(`zx4bTkVF&FOueok1fXY{~UuxK{HMX_%y
z&n>w5-7;C81(_`Gxj{xe^WLye^9+xRvFX>vR5~RIqUN53iHVNtGgI7VbX-n=W_Y(b
z3(kzfOj7bruw=SGe#lg>o2=wk?DmcALC)^y8{1dmuaGF}OrK|HRYeN)Dp8-&iyn4^
zbCExZ+6)TxGIo+df^W6m0<s)N6X+E*@bY&uRK^W#(IoFN@X2}uD}NP}LMGXA*}%q3
za-D%!GZCLLhG_x4N+bAPvc3gRpCO$G4Wp&g10(M+YRccq&N6Obi)Q(NflqcBSov$1
zp+$>g5f92>iuH##D;D0e0DGijgr&Jq$Q(1-W3(-Q74rgUJZg%TS|;tliImGQ&yjL_
z1FM*^Lk6w<9Vdoq9A|jzf)!4=&A=*pR#{ix`uooH@8Sb`muA1L+3&wU<fBF}W5(~n
zIPhV}JPF%}f6i!DUY<`2al#Su75b;I@Px(*oGp!n8?~U67Di_hF*!af6fKSxNQ<fI
zv>Z*OQd2YO=yW{!6e%{RS%Dr+!Y4KdpE@-EmAvHCl#rA(W=dnHQ@oHcn0v6jPDuz!
z%`c5k2>eV!5RC>bWr*B__ax1fOl#H!K}<=SHJ+4@9?=4`u|%AYCedO>c`-I7Yju?*
zRD_ZxEku11RfM`GX(E;2HD5X=#uACLN+B6EO^MMGU5YOVnh8WYN7FN)*Gy8@%s35=
z$PnJ^v7)Ps#%5#jMC^J((Cjd4XudUTOcZ1Dni(7(_(qE)B*sKHOuE<%K(ou~DDoHg
zLrKEr;_&&OS0nOtI+Bj3d*zr2{<L>)=ETYVsS`pZ5x*Wu&&w03WCZ;}WcF|bCpyXt
zqcE`%eIkm&#lG~s=7>h)$+#SiF4XPtD}4qXjgs_dup5?0-q)D(^{T$!tnXyjaS~vO
zlJmW&`d-ZXE@mAU0X~afu#vj<T<uY{_Gqs5oLYM>W4Y<ts^xZ*3Jwx%$ps>6Ad(B5
zR|Dsvoo%b7E7x*dZ8@H6Iit3m$yhcVjli&eZ*I>~b<fe<o|n`;FJ;)x_Pw9he^S4G
z>hsVq>;Aefd+?=Snf}G`kB*J@?_ihK&HY`UPJA+PpZ)tc{^9E1UESC}jO4u_a$gv+
z_B@CV_Nu|&T<~Qz_;SX+8LGQ;>Gq{R9nLua-5q-3Cy^uf+waH!_V6!~5Btt%&Tg>X
zpob@rW4j-)-S_P(d*VyBd#f*^S2>8&bBkSOH$A>vSC_A@T>t3Z%<$?Jm2J;^e3`Q=
z$CfW{vff)m%R?(yeilUCH`s#)g<n0JYwlB<`?9r>zZCy!?iX_#>`R-h@1t|Sb=#b-
zZCD+mvAESl;k_9_l3^!T?(h;dSh2s8DSG@g4?TF%I4?zE^J+FxkY~i?XwfbpYl54R
zMiDo`7Th7@WYH=YLsvo+lVKO<m_?iTOS$B`4I8s)mrL9xOWu}pra&<p92Oml18iK$
zx0c&Xy$k1|M@CKP!!xqSz@bOU>lrlA%Vzit<GbjT14g~#G-NU)=`PcGrc9TO6adDk
zfF}YuRlGV-OMb@S4$?_g4^OK3Z)l4reb)oj)?Fkh-ouCv9)^^4R!WHkP}}u-(4aJu
zv*g-1A&V}>rI==k_<D8DiXN|;rq04lpH{4sdks$I?=v)Yp?9sOt<LjDrZE%7!jt>T
zoD9s^Bjs7Y`Q7TW%l?-kH{%wfSl=XJOYA;u$(LjD=ma+_h*CV2<WgfCHF2C_;<y<p
zo*d_>8Ro`PA{QGS6~KXj4@)KcTrO%)0St=c(m<(%)M|%lXA5lgrXZuxc#@Bg3KF8m
zf#c+fn9L;wf#0E0EFtynkn{Ahd|Jxz%yfF5qpku)NE5NNz;#{6p;Q0R69%zqQILeB
zjKh^D1Uh6v+#w1ThVHtz<=&5jo0yTg3P)^I;Y0~BnAhT9c51xCX#78v<#u@W@KY*2
zH54k4d-beDS8%6drQUB)+qG*E6LCp?hXRNPu3dXt*+C9#x%VdoQP77ByJH%rk&8=Q
zOs|9~D{d#gBn_t$pPj1VypN_tScr5Ab_A@%Qxhm+KrLciH5{(d%n;UyXf(wZ01yVu
zOp6^9gE<m0ZWb|Q7VSu@(HFd^iym5twOEZtNW=>S5kpXsLx9FWv+DV@EtXCTNnW$b
zDI9LtEn?^_9!78k0mg>nF#wv6hC|WP8f(;V=y8LwwYA2S7$1)(V+oqb)5BFt=UF)=
zLj`3ZX@Rj)Gb7(;;u4y2I(<42`%toH$M6=Kc7`K6Dqn*3(u*`EDI6j_eHq^q7wOoS
z-FNa~`#{zW|1AJF!~GA#16g+e69;K-{rI`N&t*G~J#0Fjxs>-ct;)H!ezmRtfv<nF
z^FTgS`(tVKSgvV6Z5qg)8h*Iv^0wKuFPQbWKe3Sjm*oyW@*jEZZ(CzF{2h<kw!FVH
z@9)U_Tk`(U9oKDF`IGZ^s8|!aW4mpGPtLzz_3x)hx9abHQseS?pEMFrbGG@p4fe$2
zK;4S+WuP-NnD_a!p)S?ewSFbnJEZmweGyQ5FMbhw(0e)WZ!5A1)#pM7)zHE9!`Z&!
z`<C3Hi|V0^Uks{;hM}D89#%t_bD_7?&|42fSAT0Z1%eRP1US9(n)t|nu;3xVeFZ=9
zw`CozBIY_;K#EPL69Qkc=yq6Y3=6d8is&&qlayxC>69o#TWBDSRyuUVaVKy87XTV4
z*eU{rN{93cA@9NgShS<duXf46Gw3oFor+UpZq|bXw$m~?F)KJR=4J=DWS!<#+~9s7
zLD~J#pn<u0La|Na;o0?6y3L!ff<qybMdw=CupDxf9jao(aNu51;v%cC;EGJc^hAek
znp1$&fbIoCdupcjV|fbLir`#{cmhD!qo2QXNH~w6bpAw`oZ^{01DNJE)&>{DhrXhc
z00A2=ljgz-{ltl<p__#9QN;n{IC{jyFpw8&cOI;wIk|z|)&MM#LXdDBSx56`>w#?7
z$uC<6mWMNgnGf=<;aqD(ZH?S#)Yc=J%l}%_vE{Fa{Z-ep`kmV&ne%yHZMNaK>N}qI
z*Kaj+uMesXeVGe+U&HE^TuVf4i9GN{pvM-=<=6u%dtjY;#2zf{C2h|a_LHWzTw{;g
z*aM+09J+^WN1o;KY-^rv*mhc*Tp3@%Td`+HOCcy|j1OAXZCsQ)n9MT6KPO=`on*}d
z8Iq*grryV|ggX=_Mz=VwL@LJX`Q<|W&RHqf{5kZXsn-(Oa<KHo42Qj#Hzi}!LNuzm
zqR0ZWQoz}0^u3u_Laz}qmKE``K{JE<(JW|tbwh7Y^3<EtJppE47R7FCj0+^biQshv
zcs%u$!|N*%0h&(fZvfmN1=A6$Ywf}|flpzAd6}`cZPhgttcXB9(zdr?r>KLpw0(Tx
z?uCMr7G0#i@y^2Sg@T(FS>p0$_?4r}@#VH{4<!wmI)PPF+nVW9*C#Husk>kW0<a9$
zt&HAoDA=)7=8B~<Q!KIM02ms?yp`O2K-s>;n5-UsWH_EHaJTC)lIdN}=$oC}Xyu8;
zsixNFF(7wH+47WA5~XyBbFa92AUJ-T+8Lraix!5_!`4MNSREHn6t@w;F0$oBMqz16
zU{!2z{Z>qG7CnlmT7tvV@E1}WC)$7tZ9Ik+VB^jz9>uOWLEbm;KuwUx&37!g$IW<|
z?$I5w;ccDtnguUAG$*|oL9`+;z_2515z$mrL!|XZ!9VkGc>}lZk{q4Jh!Tvu?(Sny
zV+0#T<8lERc)!&$iPVmn<NTaB4864gTvf}$oLu2;yfo&3TO9~T(=)P!8Ql)+RWx4%
zs5gSYfLHnnfF<&zo_Iq)K9jBQc^K;b($kk=^4^ZM!>V^*#+<J`ux?gsdor$kb9jC4
z`Um%2>mOtf4yet~XB`cj4X@-IyYqET_}_RS@AW-#+ZtUNFL=j&M{}M1YG?oF0ksp_
zwywUXI@&kg-pn68a<}GBU&^vAtFdhRz}o5D-V^HH6Q48c-T^3QTL&Jn&wt%Qyb-#^
zadRhA`h|>m4b}f1f+&LH0CuF>xRdA}o`ZFQ3wtsNgxyckH(C{|!c0LsvAw*fs`){@
zwym}=KQkMt@tZ_0og_$f&5Csa4yI9y*Rnh_1;OPXLXrZ%hryrqM`n87Y!$krG1&De
zCK-1ueX3oKm&dSZ=b1$ZyiRysybaE;Td~slxeOkgrnm5Qqtq#gsKstL-L?gAlQcDU
z&}hM;xF8~NL)-zUpZ2vv#9>$5c<L~Lrac`%F+pF@w`eomMNaNy4RB?qz{QJBXoV6=
zt&&!y)UKo(bMrD-hCkRkD)1{FN>rQ_Iu<~0uv?X@YgJgRt5{tE){Ipw*tU^CEMs5z
zXPV`l2g5)U$)a)KlD%k6AXSP(VyIgRi8hdC#>V1vG_!>KXB;kvlf^`mGJ1akE;>0#
zbjIZg%&IW&j3>EwO17$pCWO@HT;sap$<YKP?XyC-n4Z5n25H|+lJDW(7oc+@!GZM<
zW1})R#X%Y}A#-r8D~ME;q5;!0Zar(&BQu76M2w4uzxrQzXdV`}ix+^R`(&#C_t^6y
z8XrCL!YdfD4FJSzyUs2g2R+x)+!g5#=2!G0+nh*Cn#ZuJbY$S<Qc@gm9RL%B*(fy8
zO`}(WOI$f>R6i?r`#y?9@GE$wKhcw)R#L;|g8S6qzO|Sd>{_~*w+C0=eqe9i^aXCs
zEzhl5)?UkXo=`haZ20=Kj($jHoGb)$i>n`~zJm`P-AjXcyCXCB!`Wwa0LSiax_fN(
zjn!kShg&)im!EFWt*+&+m6Jbv`O~3KhBjQiOJ}x1wM(x-{<1U#L4rT9G?aHZfwRk<
znffrY<qoWLsqUuL*|pf+`3LSUXyd6}WtLyd3}H}Lzxu)hUss;%TJhwYnpYgaXXWIF
zi(3utE9R9!$f10DR!=_gbwb3^+_pNue)#U9+SCi}SkFpe`TX)=9=HWQyax64O{@JN
z<dnLnYk3ID9xt}Y3>F3%;$|~bA4LlAi@u|FW&VMkdt7~rAb6>3Upss|x;CfQM(+2j
zwJ$CWZ#vu<0<V5g^>sgV^uXBM^{cJxeV-pz51z`pU&vZs(CvLd#EUM?3ITa~zPPUd
zzaG=Ge2h><wDY<TrfEI>0k=>80ap(h;eZnHDuTBWd>6q0g6|{P85wGhQ+o7yS`?uc
zBOA#JuwZ5wX4^&>*RM(N-^jT~<lKLfj{mmBOpNDiLgA2=m~0t&g9#N(4a{pyzOl7n
zMr5nL@nhFrSHX$}SS`5z9=JVFu+yT0u)czmqAo<;6lF<hPr*Y`FLAgFK8pH{P%}V_
z!D1l#n;I-`n~AAbm;7}<F<CSG22)coy~Qx6^EI_pq8STYzF@(M2=1+#f}Nrcl;@<V
d3+1^f$`YI7k4Jtm@*58pQ9$Tx%8)M3{{ehkp~C<G

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/suffix_decoding.cpython-312.pyc b/v1/spec_decode/__pycache__/suffix_decoding.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c845e06b9d141d5022d845b0fa80eccffe97bded
GIT binary patch
literal 4670
zcma(VTTC0-^^V^d8=GL*5HKDBVQ~^Xkc5(uG`p-xvdM1QXh~BEZ8{n}*DzquOlHO;
zq(;g|Dv>rH`Afbk_G?pRKk}KcYXAGgY}k%9+Db@ORc)n8-m+Dte)Zft9@`Kj<;vXW
zIp?0&J?9L6jz+@>TEX{w=}(;q{f#W#=BrKi&coyx5|PLh&;kRar{F1i7rYGF^A>zX
z|AL=E9&`<fzDG#(zw|hm3xRbe9r%GP=F*HEzFjC3vx=OTmdNV5td@+A1S7YcbHJTG
zR9ozQ0h4D4(;F8&BD3HXJ=mA`h~7uO1;6OS0nv|xIJ9!48Qq!p!XO6VG>F4wPX6)%
zF$kFLV(1ZCh^)7z!*<VnDW8|_&*GdSO7hZ8O;HscYY+YrW}(fiI9DnNhO~xRu?E7b
zH5fLpXsm<Iy7=tqvSFzDG{*_reQ7PDXiJ<b=D9QHCMGiD=Ppc5rZbfCtz}7Pa|J=y
zS*fThnxV6TEV3mX>#VViSp~StNkV~~7H|>E25_OsY+h4}?2MK(q#S!)&SMSBIZP?m
zZ(fp&<<ep%rxZC|R_^5s!YURQIR~kZQ{%&KUjviyIck$!&1zJG#P(kJ+dIt=E0mcP
zy1l>K@RU6(%~-YLGU5TtX#nB+k-G&WKoIJ*0fcLFcMC><@ViTZh`95{2oOPc1^mU`
zd1Gwl8GzO1LWm4_a=6&O0iNtZW$z)pdRC6Q7>)63uj}PNG3xHGqqJ{MBPsz8@7nKO
zSs}NK(;mB{DBR}_4P#!!s<CW$k#&w7ioAyJmauN<=??pd-f+K~h3p==ROFlY4P_O}
zx;>y%KL&!1BlG*O(8wFNQ>}mqF+MNk3`MhJ1gm-DZL*Tg(<^y+28$rc{&l3Nh`8V~
z8ztnNodT9^R-k^%ORnE$4)CK9yVyeqcBv=_v|~qVKy*Ltvwb=)<Tc_AcEE9FN=zr7
zM_%&(Zg56X<y1)>GX!l38)NrNQy0#!PGPPfEpqC*v8>1(c?;ay1V>dsRf)L+++@^s
zJH&$wlEL#2Qu8gtN5%ypE~!6+?jfpl_FJ8t*~x7NDkG<@k*qnA-Sq8*hAIQY)<D)A
zpsT)0>V%cLVy3Q;v;G5T$x$mgX(lJFWY$bl_+$SGptkGGk0F#Cuk;OCeIJ^AA6D2A
zi@jm8H-7Sali^L@ccI=r-~rj~5{bC{A_=*6r!J7#BG&9FiMk!ouu;<FT>WJN67d`w
z2mS!Me1?|LhSz9%+b?VLS@e{-^G}4n0N3B}ZTQRnR&haOXk2DiM-kGFl)WqU7f$$d
z+7fbUGU&-Ec-H~<q%oF#gw95w9Dwr{v19Gss4oCEk?%mOQ4f}bWz;I}tU_XXC+>d-
z^g9j^hh;fHxeo#N=v|}M8l&Ak6h86x9iV}}L#V&^Hgq}A&^hqjBHEQhl;<`$J=Ow0
zBznqizxCuj6e@hk&B+#+fpXZ5qYT9SmikDw#PhEVzP<mlw$-3%47pGuLoGV&t{dY6
z@B$ZOqx}#WedYFYur6cd5MJMJP<3Zuw}_Fhuh7a#citF*TB{5fB%F!fX8r*3bOX<w
z!EVN#H^#4hFKaJsBij14m7^=;4S09f@P?<%lYjXRvrCJ*tF_0koOLNTM%PkAwpnxs
zd;{KdYx_?&u-sX*$395`hu(RV_6rEYQJ4gL(rVQl+mtU^CtuRq4MWCdYx$OyWLkI8
z0Ljt-nK@Y8)#=`o3WYjR%nGcyE(=Ad$RIf{VhxJ7L$ASWSX*z@lDdJ_({;MK!cv}~
z+5?~(M@~q_B3qDjgDnc{?6N@0Q7KQWKZAwTx@0WtPF+dFrq##X4<s<By-hjY5nUrW
zNh6j^_t|Y2SjL)QVB4=R3o5n)f~sO!w1c1+p5%o7rew&MWWA)4a@DC+bo&UYM;yYu
ztkBv)Bhko?Irwk}xl+XUH4=5~7}Ob1OxLR%J9aR!cjGlFXEdrIT~%Zq+nwYdC^?F%
zQM=BLI&}!}$mi6O9n~SR8!lzLOAtlAep`)7z)*-5Z7&oiPD#|}`UZwgN!Cam*U*sN
zR=>mct>SeZ>JCFu-AmFP8i|w|32WK_l~2@!e2qh@Jw~$I-8@^%utcqPxS==O?<i=D
z5QsO+NGbTKTy{_u3<GPj?Wb4hB&`r*H=0J`GQc^XCl3Y=DNSnU#{pQ+Lb85{stGj4
zZN|PIcz=8Jf;BMxcy4oM^EZ{)F)PNJF?Ordj16tw{Wdnb8&6sB5i>rrrR~H|R^msi
zA=EQyb&s0eqc1wm?o*prE3xk9eOB*`3BTA(<siat@37T7W%f?JX3XB{%^Q_i@AF$$
zk~5Rsw=wQ5`n!pgmEg<-_bOl}rZ%q->HwZGlNl>{*@R#0a;1xsXxi(#yqh>`B~F-$
z6ISA)nYj4+>P{kC8Ro3v8FP5%n-k{n$J_D2%237{x?~Prdi~4o+1uM!Zj=7!x6Pqn
zZO7T&c*2Sgn(;v^&Y5wzfBXE$JMrt)0E%{6k)#<(T9FAeGVyBU^(kxmQ*-*$H`8-F
zk<We#q3)y4ndj3leAehi6MlUc-y|*p>!7F}&g|h{F|Q_HAKN~g-5$@HJ+qtFDh+0d
zsFiq6CH~&`>=50j!Y8bWtT~bWX2qPixjlc&oVc~;^$Z>XW(H4K>^YM?S4j<7sWWEk
zOf`nO$M;aEyJPbT*frX3MUI=1<6DzoeemT6e~Fx}-eFMcVpU|C<QOv}W3Sq+@lVY0
zPpt8q=J?Gw<Dc(DKCgOFv}>QlC(X#o7eD(ha;EA>(Rl{UA5U$E2DE-~rd+KMgsIbF
zFzi9i2t^}&6ftvuglI(Hi|vC79E#1=dt}r}aS2}RxNo?i2%_`N@L=!|4{m^9K-Ect
zdx&;J5z59~I!fwuh{u@c?J!Shl?r4Y;rY8Ip-?*s^1P_zcwQsdYkj06yxKk*AUv{a
z2W3&vG-2KLN)V4fA`sU|H%mGqG38hz)hX@B$BX_MbdS)F9-lu{jl})ots8p?hU)MP
z<4^5&r>cH30j2h{Tb{4NUxv-TQ`I2d3!!kwrug*iW9e~fuZ?W&UG;eUQRgmlO*&}%
zA#SMa+Am<`e7eJTKKXYF6~i7NA26A<iOfAkTg6&tNi9M2t(W{%LWkk~LfD~8j+!oO
m^FWzcQYR8ty$r+b1rXEqcXa%(X!5^-Uo%Yf--z^-t^Wgl@^AeB

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/__pycache__/utils.cpython-312.pyc b/v1/spec_decode/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..122bbf63bcc0346896b0c6d00f5b9de2522578bf
GIT binary patch
literal 858
zcmZ8fzi$&U6t<Jg^@>SaXa`i56J<G7=>-(2RDuE$6+)s_q%d_kC9#v5`tFSFD-B}k
zz<|Ub(0_m-ET{`RI}0}z-BhV8Y#{{+F<~D`RrN{sd+&Qc{mEa-<x4;dv)<8-0stq*
znTRzuPH$@C0APS210mdk5a7aA0T&6x7AbZuTzX?|S$*4^`e8~um{ppskTV+f8ZFTZ
zW$)+q$=gqVzOQ97avTVF9?5J$R3f4d91k-}F9M4CoPN~T0eB6bYkg5L+*tu&56X3D
zGEB_{Im@W$8I$Ln%ff|mkHtL0J{KCB%9&t0kMe1iJToV468W!jF@a6sS+7=~iG;Yc
z>k9HBAyT<ix-{y<A#W+#X2g9-)wU}+=_E`eyTrw$6Jt$QZ_;sW4DWAxc6OzkH;Ov_
zfRm`jR6m>Lf=Ci|$Qg1~5Ka_TG>*=&Qb@Ivm4oKPjmFa_n~#I_Ml*9*+~Xo{OAiV|
zi8Rc+e;@cN<UXgos#>B)RCO;|S-rEfLVQNsKJTmTIP!NH3;o?&zF9uVw<dm~D3i;)
zpDj=soC^d=BooeKp$HZgJ;N|5&CB+|&<4}jjvOy_yg@T{Y9nAx*S?{JBeayFrGZS*
z?NL!f#|EmVsCqb;qWY+$Azga;`Vn$d<i5X`qS|Q6fKCoBrf6|c|BCz}vP<@<9tAeN
zQZ{eaUcT`0g!y0s=_|9^am?}+KL9af;Ie_8yJ3tIM%Kifb`4ANhQ5YH2;pxVz}oTb
W{C;_8JJ3F?41rdk>%WZ3d;9|)^4FpO

literal 0
HcmV?d00001

diff --git a/v1/spec_decode/eagle.py b/v1/spec_decode/eagle.py
new file mode 100644
index 0000000..48d34ca
--- /dev/null
+++ b/v1/spec_decode/eagle.py
@@ -0,0 +1,1229 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+from dataclasses import replace
+from importlib.util import find_spec
+
+import numpy as np
+import torch
+import torch.nn as nn
+
+from vllm.config import (
+    CompilationMode,
+    CUDAGraphMode,
+    VllmConfig,
+    get_layers_from_vllm_config,
+)
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.model_executor.model_loader import get_model
+from vllm.model_executor.models import supports_multimodal
+from vllm.model_executor.models.deepseek_v2 import DeepseekV32IndexerCache
+from vllm.model_executor.models.llama_eagle3 import Eagle3LlamaForCausalLM
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.platforms import current_platform
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
+from vllm.v1.attention.backends.tree_attn import (
+    TreeAttentionMetadata,
+    TreeAttentionMetadataBuilder,
+)
+from vllm.v1.attention.backends.triton_attn import TritonAttentionMetadata
+from vllm.v1.attention.backends.utils import (
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+)
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.sample.sampler import _SAMPLING_EPS
+from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
+from vllm.v1.utils import CpuGpuBuffer
+from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
+
+logger = init_logger(__name__)
+
+PADDING_SLOT_ID = -1
+
+
+class EagleProposer:
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+        runner=None,
+    ):
+        self.vllm_config = vllm_config
+        self.speculative_config = vllm_config.speculative_config
+        assert self.speculative_config is not None
+        self.draft_model_config = self.speculative_config.draft_model_config
+        self.method = self.speculative_config.method
+
+        self.runner = runner
+        self.device = device
+        self.dtype = vllm_config.model_config.dtype
+        self.max_model_len = vllm_config.model_config.max_model_len
+        self.block_size = vllm_config.cache_config.block_size
+        self.num_speculative_tokens = self.speculative_config.num_speculative_tokens
+        self.max_num_tokens = vllm_config.scheduler_config.max_num_batched_tokens
+        self.token_arange_np = np.arange(self.max_num_tokens)
+        # We need to get the hidden size from the draft model config because
+        # the draft model's hidden size can be different from the target model's
+        # hidden size (e.g., Llama 3.3 70B).
+        self.hidden_size = self.draft_model_config.get_hidden_size()
+
+        # Multi-modal data support
+        self.mm_registry = MULTIMODAL_REGISTRY
+        self.supports_mm_inputs = self.mm_registry.supports_multimodal_inputs(
+            vllm_config.model_config
+        )
+
+        self.attn_metadata_builder: AttentionMetadataBuilder | None = None
+        self.draft_indexer_metadata_builder: AttentionMetadataBuilder | None = None
+        self.attn_layer_names: list[str] = []
+        self.indexer_layer_names: list[str] = []
+
+        self.use_cuda_graph = False
+
+        compilation_config = self.vllm_config.compilation_config
+        if compilation_config.mode == CompilationMode.VLLM_COMPILE:
+            cudagraph_mode = compilation_config.cudagraph_mode
+            if cudagraph_mode != CUDAGraphMode.NONE and not cudagraph_mode.has_mode(
+                CUDAGraphMode.PIECEWISE
+            ):
+                logger.warning(
+                    "Currently the eagle proposer only supports cudagraph_mode "
+                    "PIECEWISE, if you want the drafter to use cuda graphs, "
+                    "please set compilation_config.cudagraph_mode to PIECEWISE "
+                    "or FULL_AND_PIECEWISE"
+                )
+            self.use_cuda_graph = (
+                cudagraph_mode.has_mode(CUDAGraphMode.PIECEWISE)
+                and not self.speculative_config.enforce_eager
+            )
+
+        self.cudagraph_batch_sizes = (
+            (sorted(self.vllm_config.compilation_config.cudagraph_capture_sizes))
+            if self.use_cuda_graph
+            else []
+        )
+
+        self.use_cuda_graph = self.use_cuda_graph and bool(self.cudagraph_batch_sizes)
+        # persistent buffers for cuda graph
+        self.input_ids = torch.zeros(
+            self.max_num_tokens, dtype=torch.int32, device=device
+        )
+        self.uses_mrope = self.vllm_config.model_config.uses_mrope
+        if self.uses_mrope:
+            # M-RoPE need (3, max_num_tokens)
+            self.mrope_positions = torch.zeros(
+                (3, self.max_num_tokens), dtype=torch.int64, device=device
+            )
+        else:
+            # RoPE need (max_num_tokens,)
+            self.positions = torch.zeros(
+                self.max_num_tokens, dtype=torch.int64, device=device
+            )
+        self.hidden_states = torch.zeros(
+            (self.max_num_tokens, self.hidden_size), dtype=self.dtype, device=device
+        )
+
+        # We need +1 here because the arange is used to set query_start_loc,
+        # which has one more element than batch_size.
+        max_batch_size = vllm_config.scheduler_config.max_num_seqs
+        max_num_slots_for_arange = max(max_batch_size + 1, self.max_num_tokens)
+        self.arange = torch.arange(
+            max_num_slots_for_arange, device=device, dtype=torch.int32
+        )
+
+        self.inputs_embeds = torch.zeros(
+            (self.max_num_tokens, self.hidden_size), dtype=self.dtype, device=device
+        )
+
+        self.backup_next_token_ids = CpuGpuBuffer(
+            max_batch_size,
+            dtype=torch.int32,
+            pin_memory=is_pin_memory_available(),
+            device=device,
+            with_numpy=True,
+        )
+
+        # Determine allowed attention backends once during initialization.
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
+        self.allowed_attn_types: tuple | None = None
+        if current_platform.is_rocm():
+            rocm_types = [TritonAttentionMetadata, FlashAttentionMetadata]
+            # ROCM_AITER_FA is an optional backend
+            if find_spec(
+                AttentionBackendEnum.ROCM_AITER_FA.get_path(include_classname=False)
+            ):
+                from vllm.v1.attention.backends.rocm_aiter_fa import (
+                    AiterFlashAttentionMetadata,
+                )
+
+                rocm_types.append(AiterFlashAttentionMetadata)
+            self.allowed_attn_types = tuple(rocm_types)
+
+        # Parse the speculative token tree.
+        spec_token_tree = self.speculative_config.speculative_token_tree
+        self.tree_choices: list[tuple[int, ...]] = ast.literal_eval(spec_token_tree)
+        tree_depth = len(self.tree_choices[-1])
+        # Precompute per-level properties of the tree.
+        num_drafts_per_level = [0] * tree_depth
+        for node in self.tree_choices:
+            num_drafts_per_level[len(node) - 1] += 1
+        self.cu_drafts_per_level = [num_drafts_per_level[0]]
+        self.child_drafts_per_level = [num_drafts_per_level[0]]
+        for level in range(1, tree_depth):
+            self.cu_drafts_per_level.append(
+                self.cu_drafts_per_level[-1] + num_drafts_per_level[level]
+            )
+            self.child_drafts_per_level.append(
+                num_drafts_per_level[level] // num_drafts_per_level[level - 1]
+            )
+        # Precompute draft position offsets in flattened tree.
+        self.tree_draft_pos_offsets = torch.arange(
+            1,
+            len(self.tree_choices) + 1,
+            device=device,
+            dtype=torch.int32,
+        ).repeat(max_batch_size, 1)
+
+    def _get_positions(self, num_tokens: int):
+        if self.uses_mrope:
+            return self.mrope_positions[:, :num_tokens]
+        return self.positions[:num_tokens]
+
+    def _set_positions(self, num_tokens: int, positions: torch.Tensor):
+        if self.uses_mrope:
+            self.mrope_positions[:, :num_tokens] = positions
+        else:
+            self.positions[:num_tokens] = positions
+
+    def propose(
+        self,
+        # [num_tokens]
+        target_token_ids: torch.Tensor,
+        # [num_tokens] or [3, num_tokens] when M-RoPE is enabled
+        target_positions: torch.Tensor,
+        # [num_tokens, hidden_size]
+        target_hidden_states: torch.Tensor,
+        # [batch_size]
+        next_token_ids: torch.Tensor,
+        last_token_indices: torch.Tensor | None,
+        common_attn_metadata: CommonAttentionMetadata,
+        sampling_metadata: SamplingMetadata,
+        mm_embed_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
+    ) -> torch.Tensor:
+        num_tokens = target_token_ids.shape[0]
+        batch_size = next_token_ids.shape[0]
+
+        if last_token_indices is None:
+            last_token_indices = common_attn_metadata.query_start_loc[1:] - 1
+
+        if self.method == "eagle3":
+            assert isinstance(self.model, Eagle3LlamaForCausalLM)
+            target_hidden_states = self.model.combine_hidden_states(
+                target_hidden_states
+            )
+            assert target_hidden_states.shape[-1] == self.hidden_size
+        # Shift the input ids by one token.
+        # E.g., [a1, b1, b2, c1, c2, c3] -> [b1, b2, c1, c2, c3, c3]
+        self.input_ids[: num_tokens - 1] = target_token_ids[1:]
+        # Replace the last token with the next token.
+        # E.g., [b1, b2, c1, c2, c3, c3] -> [a2, b2, b3, c2, c3, c4]
+        self.input_ids[last_token_indices] = next_token_ids
+
+        assert self.runner is not None
+
+        if self.attn_metadata_builder is None:
+            attn_metadata_builder = self._get_attention_metadata_builder()
+        else:
+            attn_metadata_builder = self.attn_metadata_builder
+
+        attn_metadata = attn_metadata_builder.build_for_drafting(
+            common_attn_metadata=common_attn_metadata, draft_index=0
+        )
+        # FIXME: support hybrid kv for draft model (remove separate indexer)
+        if self.draft_indexer_metadata_builder:
+            draft_indexer_metadata = (
+                self.draft_indexer_metadata_builder.build_for_drafting(
+                    common_attn_metadata=common_attn_metadata,
+                    draft_index=0,
+                )
+            )
+        else:
+            draft_indexer_metadata = None
+        # At this moment, we assume all eagle layers belong to the same KV
+        # cache group, thus using the same attention metadata.
+        per_layer_attn_metadata = {}
+        for layer_name in self.attn_layer_names:
+            per_layer_attn_metadata[layer_name] = attn_metadata
+
+        for layer_name in self.indexer_layer_names:
+            assert draft_indexer_metadata is not None
+            per_layer_attn_metadata[layer_name] = draft_indexer_metadata
+
+        cudagraph_runtime_mode = CUDAGraphMode.NONE
+        if self.use_cuda_graph and num_tokens <= self.cudagraph_batch_sizes[-1]:
+            num_input_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
+            cudagraph_runtime_mode = CUDAGraphMode.PIECEWISE
+        else:
+            num_input_tokens = num_tokens
+        # copy inputs to buffer for cudagraph
+        self._set_positions(num_tokens, target_positions)
+        self.hidden_states[:num_tokens] = target_hidden_states
+
+        if self.supports_mm_inputs:
+            mm_embeds, is_mm_embed = mm_embed_inputs or (None, None)
+
+            self.inputs_embeds[:num_tokens] = self.model.embed_input_ids(
+                self.input_ids[:num_tokens],
+                multimodal_embeddings=mm_embeds,
+                is_multimodal=is_mm_embed,
+            )
+
+            input_ids = None
+            inputs_embeds = self.inputs_embeds[:num_input_tokens]
+        else:
+            input_ids = self.input_ids[:num_input_tokens]
+            inputs_embeds = None
+
+        with set_forward_context(
+            per_layer_attn_metadata,
+            self.vllm_config,
+            num_tokens=num_input_tokens,
+            cudagraph_runtime_mode=cudagraph_runtime_mode,
+        ):
+            ret_hidden_states = self.model(
+                input_ids=input_ids,
+                positions=self._get_positions(num_input_tokens),
+                hidden_states=self.hidden_states[:num_input_tokens],
+                inputs_embeds=inputs_embeds,
+            )
+            if self.method == "mtp":
+                last_hidden_states = ret_hidden_states
+                hidden_states = last_hidden_states
+            else:
+                last_hidden_states, hidden_states = ret_hidden_states
+        sample_hidden_states = last_hidden_states[last_token_indices]
+        logits = self.model.compute_logits(sample_hidden_states)
+
+        # Early exit if there is only one draft token to be generated.
+        if self.num_speculative_tokens == 1:
+            draft_token_ids = logits.argmax(dim=-1)
+            return draft_token_ids.view(-1, 1)
+
+        if self.uses_mrope:
+            positions = target_positions[:, last_token_indices]
+        else:
+            positions = target_positions[last_token_indices]
+        if self.method in (
+            "deepseek_mtp",
+            "ernie_mtp",
+            "longcat_flash_mtp",
+            "pangu_ultra_moe_mtp",
+        ):
+            hidden_states = self.hidden_states[last_token_indices]
+        else:
+            hidden_states = hidden_states[last_token_indices]
+
+        if isinstance(attn_metadata, TreeAttentionMetadata):
+            # Draft using tree attention.
+            draft_token_ids_list = self.propose_tree(
+                batch_size=batch_size,
+                logits=logits,
+                positions=positions,
+                hidden_states=hidden_states,
+                common_attn_metadata=common_attn_metadata,
+            )
+            # [batch_size, num_tree_tokens]
+            return torch.cat(draft_token_ids_list, dim=1)
+
+        draft_token_ids = logits.argmax(dim=-1)
+
+        if self.allowed_attn_types is not None and not isinstance(
+            attn_metadata, self.allowed_attn_types
+        ):
+            raise ValueError(
+                f"Unsupported attention metadata type for speculative "
+                "decoding with num_speculative_tokens > 1: "
+                f"{type(attn_metadata)}. Supported types are: "
+                f"{self.allowed_attn_types}"
+            )
+
+        # Generate the remaining draft tokens.
+        draft_token_ids_list = [draft_token_ids]
+
+        if self.use_cuda_graph and batch_size <= self.cudagraph_batch_sizes[-1]:
+            input_batch_size = self.vllm_config.pad_for_cudagraph(batch_size)
+            cudagraph_runtime_mode = CUDAGraphMode.PIECEWISE
+        else:
+            input_batch_size = batch_size
+            cudagraph_runtime_mode = CUDAGraphMode.NONE
+
+        common_attn_metadata.num_actual_tokens = batch_size
+        common_attn_metadata.max_query_len = 1
+        common_attn_metadata.query_start_loc = self.arange[: batch_size + 1]
+        common_attn_metadata.query_start_loc_cpu = torch.from_numpy(
+            self.token_arange_np[: batch_size + 1]
+        ).clone()
+        for token_index in range(self.num_speculative_tokens - 1):
+            # Update the inputs.
+            # cast to int32 is crucial when eagle model is compiled.
+            # tensor.argmax() returns int64 by default.
+            input_ids = draft_token_ids_list[-1].int()
+            if self.uses_mrope:
+                positions += 1
+                # NOTE(woosuk): We should handle the case where the draft model
+                # generates tokens beyond the max model length.
+                # Since it is complex to remove such requests from the batch,
+                # we keep them in the batch but adjust the position ids
+                # and slot mappings to avoid the
+                # out-of-range access during the model execution.
+                # The draft tokens generated with this adjustment
+                # should be ignored.
+                exceeds_max_model_len = positions[0] >= self.max_model_len
+                # Mask out the position ids that exceed the max model length.
+                # Otherwise, we may get out-of-range error in RoPE.
+                clamped_positions = torch.where(
+                    exceeds_max_model_len.unsqueeze(0),
+                    torch.zeros_like(positions),
+                    positions,
+                )
+            else:
+                positions += 1
+                exceeds_max_model_len = positions >= self.max_model_len
+                clamped_positions = torch.where(exceeds_max_model_len, 0, positions)
+            # For data integrity when async scheduling, we shouldn't use in place
+            # operations in case they are modified in next step's `prepare_input`
+            # of main model.
+            # Increment the sequence lengths.
+            common_attn_metadata.seq_lens += 1
+            # This is an out-of-place operation to avoid modifying the original tensor.
+            common_attn_metadata.seq_lens_cpu = common_attn_metadata.seq_lens_cpu + 1
+            # For the requests that exceed the max model length, we set the
+            # sequence length to 1 to minimize their overheads in attention.
+
+            common_attn_metadata.seq_lens.masked_fill_(exceeds_max_model_len, 1)
+
+            common_attn_metadata.num_computed_tokens_cpu = (
+                common_attn_metadata.seq_lens_cpu - 1
+            )
+
+            # Compute the slot mapping.
+            if self.uses_mrope:
+                # all dimensions of positions are the same
+                block_numbers = clamped_positions[0] // self.block_size
+            else:
+                block_numbers = clamped_positions // self.block_size
+            block_ids = common_attn_metadata.block_table_tensor.gather(
+                dim=1, index=block_numbers.view(-1, 1)
+            )
+            block_ids = block_ids.view(-1)
+            if self.uses_mrope:
+                common_attn_metadata.slot_mapping = (
+                    block_ids * self.block_size + clamped_positions[0] % self.block_size
+                )
+            else:
+                common_attn_metadata.slot_mapping = (
+                    block_ids * self.block_size + clamped_positions % self.block_size
+                )
+            # Mask out the slot mappings that exceed the max model length.
+            # Otherwise, the KV cache will be inadvertently updated with the
+            # padding tokens.
+            common_attn_metadata.slot_mapping.masked_fill_(
+                exceeds_max_model_len, PADDING_SLOT_ID
+            )
+
+            # Rebuild attention metadata
+            attn_metadata = attn_metadata_builder.build_for_drafting(  # type: ignore
+                common_attn_metadata=common_attn_metadata, draft_index=token_index + 1
+            )
+            for layer_name in self.attn_layer_names:
+                per_layer_attn_metadata[layer_name] = attn_metadata
+
+            # copy inputs to buffer for cudagraph
+            self.input_ids[:batch_size] = input_ids
+            self._set_positions(batch_size, clamped_positions)
+            self.hidden_states[:batch_size] = hidden_states
+            if self.supports_mm_inputs:
+                self.inputs_embeds[:batch_size] = self.model.embed_input_ids(input_ids)
+
+                input_ids = None
+                inputs_embeds = self.inputs_embeds[:input_batch_size]
+            else:
+                input_ids = self.input_ids[:input_batch_size]
+                inputs_embeds = None
+
+            # Run the model.
+            with set_forward_context(
+                per_layer_attn_metadata,
+                self.vllm_config,
+                num_tokens=input_batch_size,
+                cudagraph_runtime_mode=cudagraph_runtime_mode,
+            ):
+                ret_hidden_states = self.model(
+                    input_ids=input_ids,
+                    positions=self._get_positions(input_batch_size),
+                    hidden_states=self.hidden_states[:input_batch_size],
+                    inputs_embeds=inputs_embeds,
+                )
+                if self.method == "mtp":
+                    last_hidden_states = ret_hidden_states
+                    hidden_states = ret_hidden_states
+                else:
+                    last_hidden_states, hidden_states = ret_hidden_states
+            hidden_states = hidden_states[:batch_size]
+            logits = self.model.compute_logits(last_hidden_states[:batch_size])
+            draft_token_ids = logits.argmax(dim=-1)
+            draft_token_ids_list.append(draft_token_ids)
+
+        # [batch_size, num_speculative_tokens]
+        draft_token_ids = torch.stack(draft_token_ids_list, dim=1)
+        return draft_token_ids
+
+    def prepare_next_token_ids_cpu(
+        self,
+        sampled_token_ids: list[np.ndarray],
+        requests: dict[str, CachedRequestState],
+        gpu_input_batch: InputBatch,
+        num_scheduled_tokens: dict[str, int],
+    ) -> torch.Tensor:
+        """
+        This function is used to prepare the inputs for speculative decoding.
+        It calculates the next token ids for each request based on the sampled
+        token ids from the CPU. If a request has no sampled token ids (e.g.,
+        during the initial decoding steps), it falls back to using the request
+        state to get the next token id.
+        """
+        req_ids = gpu_input_batch.req_ids
+        next_token_ids: list[int] = []
+        for i, token_ids in enumerate(sampled_token_ids):
+            if token_ids.shape[0] > 0:
+                # Common case.
+                next_token_id = token_ids[-1]
+            else:
+                # Partial prefill (rare case).
+                # Get the next token id from the request state.
+                req_id = req_ids[i]
+                req_state = requests[req_id]
+                seq_len = req_state.num_computed_tokens + num_scheduled_tokens[req_id]
+                next_token_id = req_state.get_token_id(seq_len)
+            next_token_ids.append(next_token_id)
+        return torch.tensor(
+            next_token_ids, dtype=torch.int32, device=self.input_ids.device
+        )
+
+    def prepare_next_token_ids_padded(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        sampled_token_ids: torch.Tensor,
+        requests: dict[str, CachedRequestState],
+        gpu_input_batch: InputBatch,
+        discard_request_indices: torch.Tensor,
+        num_discarded_requests: int,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        This function is used to prepare the inputs for speculative decoding.
+        It calculates the next token ids and the number of valid sampled tokens
+        for each request, considering the "discarded" requests whose next token
+        is not sampled and comes from `request.get_token_id()` instead.
+        It also accounts for the rejected tokens in `sampled_token_ids`.
+        This function must use device functions to operate on the inputs, and
+        should not introduce any blocking CPU-GPU synchronization.
+        """
+        # TODO(Ben): Combine this into a custom fused kernel
+
+        # Precompute get_token_id for when there is no valid next token
+        num_reqs = gpu_input_batch.num_reqs
+        self.backup_next_token_ids.np[:num_reqs] = np.array(
+            [
+                requests[gpu_input_batch.req_ids[i]].get_token_id(
+                    common_attn_metadata.seq_lens_cpu[i].item()
+                )
+                for i in range(num_reqs)
+            ]
+        )
+        self.backup_next_token_ids.copy_to_gpu(num_reqs)
+
+        # Mask out the sampled tokens indices that should not be sampled.
+        discard_sampled_tokens_req_indices = discard_request_indices[
+            :num_discarded_requests
+        ]
+
+        valid_sampled_token_ids_gpu = sampled_token_ids.clone()
+        valid_sampled_token_ids_gpu.index_fill_(
+            0, discard_sampled_tokens_req_indices, -1
+        )
+
+        # Generate a mask for all valid tokens within those requests
+        valid_mask = (valid_sampled_token_ids_gpu != -1) & (
+            valid_sampled_token_ids_gpu < gpu_input_batch.vocab_size
+        )
+
+        # Count the number of valid tokens in each request
+        valid_sampled_tokens_count = valid_mask.sum(dim=1)
+
+        # Get the rightmost valid index per row
+        last_valid_indices = valid_sampled_tokens_count - 1
+        last_valid_indices_safe = torch.clamp(last_valid_indices, min=0)
+
+        # Get last valid token from each row
+        # (assume undefined state where there is no valid token)
+        selected_tokens = torch.gather(
+            valid_sampled_token_ids_gpu, 1, last_valid_indices_safe.unsqueeze(1)
+        ).squeeze(1)
+
+        # Use last token if valid, pre-computed backup if not
+        batch_size = valid_sampled_token_ids_gpu.shape[0]
+        next_token_ids = torch.where(
+            last_valid_indices != -1,
+            selected_tokens,
+            self.backup_next_token_ids.gpu[:batch_size],
+        )
+
+        return next_token_ids, valid_sampled_tokens_count
+
+    def prepare_inputs_padded(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        spec_decode_metadata: SpecDecodeMetadata,
+        valid_sampled_tokens_count: torch.Tensor,
+    ) -> tuple[CommonAttentionMetadata, torch.Tensor, torch.Tensor]:
+        """
+        This function is used to prepare the inputs for speculative decoding
+        It updates the common_attn_metadata for speculative decoding,
+        but does not consider the rejected tokens. Instead, all tokens
+        are included as inputs to the speculator, with the rejected tokens
+        used as padding and filtered out later by `token_indices_to_sample`.
+        No blocking CPU operations should be introduced in this function.
+        """
+        num_draft_tokens_gpu = torch.cat(
+            [
+                spec_decode_metadata.cu_num_draft_tokens[0:1],
+                spec_decode_metadata.cu_num_draft_tokens[1:]
+                - spec_decode_metadata.cu_num_draft_tokens[:-1],
+            ]
+        )
+
+        num_rejected_tokens_gpu = torch.where(
+            num_draft_tokens_gpu > 0,
+            num_draft_tokens_gpu + 1 - valid_sampled_tokens_count,
+            torch.zeros_like(num_draft_tokens_gpu),
+        )
+
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+        key_start_loc = common_attn_metadata.key_start_loc
+
+        new_query_len_per_req = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+
+        total_num_tokens = query_start_loc_cpu[-1].item()
+        token_indices = self.arange[:total_num_tokens]
+
+        spec_common_attn_metadata = CommonAttentionMetadata(
+            query_start_loc=common_attn_metadata.query_start_loc,
+            seq_lens=common_attn_metadata.seq_lens,
+            query_start_loc_cpu=query_start_loc_cpu,
+            key_start_loc=key_start_loc,
+            seq_lens_cpu=common_attn_metadata.seq_lens_cpu,
+            num_computed_tokens_cpu=common_attn_metadata.num_computed_tokens_cpu,
+            num_reqs=common_attn_metadata.num_reqs,
+            num_actual_tokens=total_num_tokens,
+            max_query_len=new_query_len_per_req.max().item(),
+            max_seq_len=common_attn_metadata.seq_lens_cpu.max().item(),
+            block_table_tensor=common_attn_metadata.block_table_tensor,
+            slot_mapping=common_attn_metadata.slot_mapping[token_indices],
+            causal=True,
+            dcp_local_seq_lens=common_attn_metadata.dcp_local_seq_lens,
+        )
+
+        token_indices_to_sample = (
+            common_attn_metadata.query_start_loc[1:] - 1 - num_rejected_tokens_gpu
+        )
+
+        return spec_common_attn_metadata, token_indices, token_indices_to_sample
+
+    def propose_tree(
+        self,
+        batch_size: int,
+        # [num_tokens, vocab_size]
+        logits: torch.Tensor,
+        # [num_tokens]
+        positions: torch.Tensor,
+        # [num_tokens, hidden_size]
+        hidden_states: torch.Tensor,
+        common_attn_metadata: CommonAttentionMetadata,
+    ) -> list[torch.Tensor]:
+        tree_attn_metadata_builder = self.runner.attn_groups[0][
+            0
+        ].get_metadata_builder()
+        assert isinstance(tree_attn_metadata_builder, TreeAttentionMetadataBuilder)
+
+        total_num_drafts = self.cu_drafts_per_level[0]
+        level_num_drafts = total_num_drafts
+        # Sample a draft token for each child at the tree root level.
+        num_children = self.child_drafts_per_level[0]
+        if num_children == 1:
+            draft_token_ids = logits.argmax(dim=-1).view(batch_size, -1)
+        else:
+            draft_token_ids = torch.topk(logits, num_children, dim=-1).indices.view(
+                batch_size, -1
+            )
+        draft_token_ids_list = [draft_token_ids]
+        draft_hidden_states = hidden_states.view(batch_size, 1, -1)
+
+        # Initialize empty tensors for concatenation with the level outputs.
+        tree_input_ids = torch.empty(
+            0, device=self.input_ids.device, dtype=self.input_ids.dtype
+        )
+        tree_positions = torch.empty(
+            0, device=self.positions.device, dtype=self.positions.dtype
+        )
+        tree_hidden_states = torch.empty(
+            0, device=self.hidden_states.device, dtype=self.hidden_states.dtype
+        )
+        # Precompute the draft token positions.
+        flattened_draft_positions = (
+            positions.view(batch_size, -1) + self.tree_draft_pos_offsets[:batch_size, :]
+        )
+        tree_depth = len(self.cu_drafts_per_level)
+        for level in range(tree_depth - 1):
+            # Get draft positions for RoPE.
+            draft_positions = positions + (level + 1)
+            exceeds_max_model_len = (positions + total_num_drafts) >= self.max_model_len
+            # Mask out the position ids that exceed the max model length.
+            # Otherwise, we may get out-of-range error in RoPE.
+            draft_positions = torch.where(
+                exceeds_max_model_len,
+                0,
+                draft_positions,
+            ).view(batch_size, -1)
+
+            if level_num_drafts > 1:
+                # Repeat the positions for each draft at this level.
+                draft_positions = draft_positions.repeat_interleave(
+                    level_num_drafts, dim=1
+                )
+
+            if num_children > 1:
+                # Repeat draft hidden states for each child.
+                draft_hidden_states = draft_hidden_states.repeat_interleave(
+                    num_children, dim=1
+                )
+
+            # Concatenate the draft tokens, positions, and hidden states.
+            tree_input_ids = torch.cat([tree_input_ids, draft_token_ids], dim=1)
+            tree_positions = torch.cat([tree_positions, draft_positions], dim=1)
+            tree_hidden_states = torch.cat(
+                [tree_hidden_states, draft_hidden_states], dim=1
+            )
+
+            # Build new attention metadata for the next level of drafts.
+            # This is necessary to support tree attention.
+            query_len = total_num_drafts
+            common_attn_metadata = replace(
+                common_attn_metadata,
+                query_start_loc=query_len * self.arange[: batch_size + 1],
+                seq_lens=common_attn_metadata.seq_lens + level_num_drafts,
+                num_actual_tokens=batch_size * query_len,
+                max_query_len=query_len,
+            )
+            attn_metadata = tree_attn_metadata_builder.build_for_drafting(
+                common_attn_metadata=common_attn_metadata,
+                draft_index=level + 1,
+            )
+
+            # Apply new attention metadata to all layers.
+            per_layer_attn_metadata = {}
+            for layer_name in self.attn_layer_names:
+                per_layer_attn_metadata[layer_name] = attn_metadata
+
+            # Consider max model length.
+            attn_metadata.max_seq_len = min(
+                attn_metadata.max_seq_len, self.max_model_len
+            )
+            # For the requests that exceed the max model length, we set the
+            # sequence length to 1 to minimize their overheads in attention.
+            attn_metadata.seq_lens.masked_fill_(exceeds_max_model_len, 1)
+
+            # Compute the slot mapping.
+            query_positions = flattened_draft_positions[:, level : level + query_len]
+            block_numbers = query_positions // self.block_size
+            block_ids = attn_metadata.block_table.gather(dim=1, index=block_numbers)
+            slot_mapping = (
+                block_ids * self.block_size + query_positions % self.block_size
+            )
+            # Mask out the slot mappings that exceed the max model length.
+            # Otherwise, the KV cache will be inadvertently updated with the
+            # padding tokens.
+            slot_mapping[exceeds_max_model_len] = PADDING_SLOT_ID
+            attn_metadata.slot_mapping = slot_mapping.view(-1)
+
+            # Copy inputs to buffer for cudagraph.
+            num_tokens = attn_metadata.num_actual_tokens
+            input_ids = tree_input_ids.view(-1)
+            self.input_ids[:num_tokens] = input_ids
+            self.positions[:num_tokens] = tree_positions.view(-1)
+            self.hidden_states[:num_tokens] = tree_hidden_states.view(num_tokens, -1)
+
+            if self.use_cuda_graph and num_tokens <= self.cudagraph_batch_sizes[-1]:
+                num_input_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
+                cudagraph_runtime_mode = CUDAGraphMode.PIECEWISE
+            else:
+                num_input_tokens = num_tokens
+                cudagraph_runtime_mode = CUDAGraphMode.NONE
+            # Run the model.
+            with set_forward_context(
+                per_layer_attn_metadata,
+                self.vllm_config,
+                num_tokens=num_input_tokens,
+                cudagraph_runtime_mode=cudagraph_runtime_mode,
+            ):
+                last_hidden_states, hidden_states = self.model(
+                    input_ids=self.input_ids[:num_input_tokens],
+                    positions=self.positions[:num_input_tokens],
+                    hidden_states=self.hidden_states[:num_input_tokens],
+                    inputs_embeds=None,
+                )
+
+            # Get the output hidden states for the draft tokens.
+            draft_hidden_states = hidden_states[:num_tokens].view(
+                batch_size, query_len, -1
+            )[:, -level_num_drafts:]
+            draft_last_hidden_states = last_hidden_states[:num_tokens].view(
+                batch_size, query_len, -1
+            )[:, -level_num_drafts:]
+
+            # Get the output logits for the draft tokens.
+            logits = self.model.compute_logits(
+                draft_last_hidden_states.reshape(batch_size * level_num_drafts, -1)
+            )
+
+            # Sample a draft token for each child at the next tree level.
+            num_children = self.child_drafts_per_level[level + 1]
+            if num_children == 1:
+                draft_token_ids = logits.argmax(dim=-1).view(batch_size, -1)
+            else:
+                draft_token_ids = torch.topk(logits, num_children, dim=-1).indices.view(
+                    batch_size, -1
+                )
+            draft_token_ids_list.append(draft_token_ids)
+
+            # Update the # drafts counters for the next tree level.
+            level_num_drafts = self.cu_drafts_per_level[level + 1] - total_num_drafts
+            total_num_drafts = self.cu_drafts_per_level[level + 1]
+        return draft_token_ids_list
+
+    def prepare_inputs(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        sampled_token_ids: list[list[int]],
+        num_draft_tokens: list[int],
+    ) -> tuple[CommonAttentionMetadata, torch.Tensor]:
+        """
+        This function is used to prepare the inputs for speculative decoding.
+        It updates to the common_attn_metadata to account for the rejected
+        tokens (and newly sampled tokens). It also returns the token indices
+        of the tokens that should be fed to the speculator.
+        """
+        # E.g.
+        #  common_attn_metadata.query_start_loc{_cpu}:
+        #       [0, q1, q1 + q2, q1 + q2 + q3]
+        #  common_attn_metadata.seq_lens{_cpu}: [s1, s2, s3]
+        #  num_rejected_tokens: [n1, n2, n3]
+        # This function computes the intermediate values:
+        #  num_tokens_per_req: [q1 - n1, q2 - n2, q3 - n3]
+        # And returns:
+        #  common_attn_metadata.query_start_loc{_cpu}:
+        #       [0, q1 - n1, q1 + q2 - n1 - n2, q1 + q2 + q3 - n1 - n2 - n3]
+        #  common_attn_metadata.seq_lens{_cpu}:
+        #       [s1 - n1 + 1, s2 - n2 + 1, s3 - n3 + 1]
+        #  token_indices: [0, 1, ..., q1 - n1 - 1,
+        #                 q1, q1 + 1, ..., q1 + q2 - n2 - 1,
+        #                 q1 + q2, q1 + q2 + 1, ..., q1 + q2 + q3 - n3 - 1]
+
+        num_rejected_tokens = [
+            n + 1 - len(sampled_token_ids[i]) if n > 0 else 0
+            for i, n in enumerate(num_draft_tokens)
+        ]
+        num_rejected_tokens = torch.tensor(num_rejected_tokens, dtype=torch.int32)
+
+        device = common_attn_metadata.query_start_loc.device
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+        key_start_loc = common_attn_metadata.key_start_loc
+        new_seq_lens_cpu = common_attn_metadata.seq_lens_cpu - num_rejected_tokens
+
+        # [0, q1, q1 + q2, q1 + q2 + q3] -> [q1, q2, q3]
+        new_query_len_per_req = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+        # [q1, q2, q3] -> [q1 - n1, q2 - n2, q3 - n3]
+        new_num_tokens_per_req = new_query_len_per_req - num_rejected_tokens
+        new_num_tokens_per_req_np = new_num_tokens_per_req.numpy()
+
+        # [q1 - n1, q2 - n2, q3 - n3] ->
+        # [0, q1 - n1, q1 + q2 - n1 - n2, q1 + q2 + q3 - n1 - n2 - n3]
+        new_query_start_loc_cpu = torch.zeros(
+            query_start_loc_cpu.shape,
+            dtype=torch.int32,
+            pin_memory=is_pin_memory_available(),
+        )
+        new_query_start_loc_np = new_query_start_loc_cpu.numpy()
+        np.cumsum(new_num_tokens_per_req_np, out=new_query_start_loc_np[1:])
+
+        total_num_tokens = new_query_start_loc_np[-1]
+        # Example assuming num_tokens_per_req_np = [2, 4, 3]
+        # this implies that `new_query_start_locs` is:
+        # [0, 2, 6, 9] ->
+        # [0, 0, 2, 2, 2, 2, 6, 6, 6]
+        #  _r1_  ____r2____  ___r3__
+        new_query_start_locs_expanded = np.repeat(
+            new_query_start_loc_np[:-1], new_num_tokens_per_req_np
+        )
+        # [0, 1, 2, 3, 4, 5, 6, 7, 8] ->
+        # [0, 1, 0, 1, 2, 3, 0, 1, 2]
+        #  _r1_  ____r2____  ___r3__
+        token_offests = (
+            self.token_arange_np[:total_num_tokens] - new_query_start_locs_expanded
+        )
+
+        # Expand starting positions to match token pattern
+        # [0, q1, q1 + q2] ->
+        # [0, 0, q1, q1, q1, q1, q1 + q2, q1 + q2, q1 + q2]
+        #  _r1_  _____r2_______  ___________r3____________
+        old_query_start_locs_expanded = np.repeat(
+            query_start_loc_cpu[:-1].numpy(), new_num_tokens_per_req_np
+        )
+        # Final token indices are:
+        # [0, 1,                                // req 1
+        #  q1 + 0, q1 + 1, q1 + 2, q1 + 3,       // req 2
+        #  q1 + q2 + 0, q1 + q2 + 1, q1 + q2 + 2] // req 3
+        token_indices_np = token_offests + old_query_start_locs_expanded
+        token_indices = torch.from_numpy(token_indices_np).to(device, non_blocking=True)
+
+        spec_common_attn_metadata = CommonAttentionMetadata(
+            query_start_loc=new_query_start_loc_cpu.to(device, non_blocking=True),
+            seq_lens=new_seq_lens_cpu.to(device, non_blocking=True),
+            query_start_loc_cpu=new_query_start_loc_cpu,
+            key_start_loc=key_start_loc,
+            seq_lens_cpu=new_seq_lens_cpu,
+            num_computed_tokens_cpu=common_attn_metadata.num_computed_tokens_cpu,
+            num_reqs=common_attn_metadata.num_reqs,
+            num_actual_tokens=total_num_tokens,
+            max_query_len=new_query_len_per_req.max().item(),
+            max_seq_len=new_seq_lens_cpu.max().item(),
+            block_table_tensor=common_attn_metadata.block_table_tensor,
+            slot_mapping=common_attn_metadata.slot_mapping[token_indices],
+            causal=True,
+            dcp_local_seq_lens=common_attn_metadata.dcp_local_seq_lens,
+        )
+
+        return spec_common_attn_metadata, token_indices
+
+    def get_model_name(self, model: nn.Module) -> str:
+        if hasattr(model, "module"):  # multi-GPU
+            model = model.module
+        return model.__class__.__name__
+
+    def load_model(self, target_model: nn.Module) -> None:
+        draft_model_config = self.vllm_config.speculative_config.draft_model_config
+        target_attn_layer_names = set(
+            get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase).keys()
+        )
+        # FIXME: support hybrid kv for draft model
+        target_indexer_layer_names = set(
+            get_layers_from_vllm_config(
+                self.vllm_config, DeepseekV32IndexerCache
+            ).keys()
+        )
+
+        from vllm.compilation.backends import set_model_tag
+
+        with set_model_tag("eagle_head"):
+            self.model = get_model(
+                vllm_config=self.vllm_config, model_config=draft_model_config
+            )
+
+        draft_attn_layer_names = (
+            get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase).keys()
+            - target_attn_layer_names
+        )
+        indexer_layers = get_layers_from_vllm_config(
+            self.vllm_config, DeepseekV32IndexerCache
+        )
+        draft_indexer_layer_names = indexer_layers.keys() - target_indexer_layer_names
+        self.attn_layer_names = list(draft_attn_layer_names - draft_indexer_layer_names)
+        self.indexer_layer_names = list(draft_indexer_layer_names)
+
+        if self.indexer_layer_names:
+            first_layer = self.indexer_layer_names[0]
+            self.draft_indexer_metadata_builder = (
+                indexer_layers[first_layer]
+                .get_attn_backend()
+                .get_builder_cls()(
+                    indexer_layers[first_layer].get_kv_cache_spec(self.vllm_config),
+                    self.indexer_layer_names,
+                    self.vllm_config,
+                    self.device,
+                )
+            )
+        else:
+            self.draft_indexer_metadata_builder = None
+
+        if self.supports_mm_inputs:
+            # Even if the target model is multimodal, we can also use
+            # text-only draft models
+            try:
+                dummy_input_ids = torch.tensor([[1]], device=self.input_ids.device)
+                self.model.embed_input_ids(dummy_input_ids, multimodal_embeddings=None)
+            except (NotImplementedError, AttributeError, TypeError):
+                logger.warning(
+                    "Draft model does not support multimodal inputs, "
+                    "falling back to text-only mode"
+                )
+                self.supports_mm_inputs = False
+
+        if supports_multimodal(target_model):
+            # handle multimodality
+            if (
+                self.get_model_name(target_model)
+                == "Qwen2_5_VLForConditionalGeneration"
+            ):
+                self.model.config.image_token_index = target_model.config.image_token_id
+            else:
+                self.model.config.image_token_index = (
+                    target_model.config.image_token_index
+                )
+            target_language_model = target_model.get_language_model()
+        else:
+            target_language_model = target_model
+
+        # share embed_tokens with the target model if needed
+        if get_pp_group().world_size == 1:
+            if hasattr(target_language_model.model, "embed_tokens"):
+                target_embed_tokens = target_language_model.model.embed_tokens
+            elif hasattr(target_language_model.model, "embedding"):
+                target_embed_tokens = target_language_model.model.embedding
+            else:
+                raise AttributeError(
+                    "Target model does not have 'embed_tokens' or 'embedding' attribute"
+                )
+
+            share_embeddings = False
+            if hasattr(self.model, "has_own_embed_tokens"):
+                # EAGLE model
+                if not self.model.has_own_embed_tokens:
+                    share_embeddings = True
+                    logger.info(
+                        "Detected EAGLE model without its own embed_tokens in the"
+                        " checkpoint. Sharing target model embedding weights with the"
+                        " draft model."
+                    )
+                elif (
+                    isinstance(target_embed_tokens.weight, torch.Tensor)
+                    and isinstance(self.model.model.embed_tokens.weight, torch.Tensor)
+                    and torch.equal(
+                        target_embed_tokens.weight, self.model.model.embed_tokens.weight
+                    )
+                ):
+                    share_embeddings = True
+                    logger.info(
+                        "Detected EAGLE model with embed_tokens identical to the target"
+                        " model. Sharing target model embedding weights with the draft"
+                        " model."
+                    )
+                else:
+                    logger.info(
+                        "Detected EAGLE model with distinct embed_tokens weights. "
+                        "Keeping separate embedding weights from the target model."
+                    )
+            else:
+                # MTP model
+                share_embeddings = True
+                logger.info(
+                    "Detected MTP model. "
+                    "Sharing target model embedding weights with the draft model."
+                )
+
+            if share_embeddings:
+                if hasattr(self.model.model, "embed_tokens"):
+                    del self.model.model.embed_tokens
+                self.model.model.embed_tokens = target_embed_tokens
+        else:
+            logger.info(
+                "The draft model's vocab embedding will be loaded separately"
+                " from the target model."
+            )
+
+        # share lm_head with the target model if needed
+        share_lm_head = False
+        if hasattr(self.model, "has_own_lm_head"):
+            # EAGLE model
+            if not self.model.has_own_lm_head:
+                share_lm_head = True
+                logger.info(
+                    "Detected EAGLE model without its own lm_head in the checkpoint. "
+                    "Sharing target model lm_head weights with the draft model."
+                )
+            elif (
+                hasattr(target_language_model, "lm_head")
+                and isinstance(target_language_model.lm_head.weight, torch.Tensor)
+                and isinstance(self.model.lm_head.weight, torch.Tensor)
+                and torch.equal(
+                    target_language_model.lm_head.weight, self.model.lm_head.weight
+                )
+            ):
+                share_lm_head = True
+                logger.info(
+                    "Detected EAGLE model with lm_head identical to the target model. "
+                    "Sharing target model lm_head weights with the draft model."
+                )
+            else:
+                logger.info(
+                    "Detected EAGLE model with distinct lm_head weights. "
+                    "Keeping separate lm_head weights from the target model."
+                )
+        else:
+            # MTP model
+            share_lm_head = True
+            logger.info(
+                "Detected MTP model. "
+                "Sharing target model lm_head weights with the draft model."
+            )
+
+        if share_lm_head and hasattr(target_language_model, "lm_head"):
+            if hasattr(self.model, "lm_head"):
+                del self.model.lm_head
+            self.model.lm_head = target_language_model.lm_head
+
+    @torch.inference_mode()
+    def dummy_run(
+        self,
+        num_tokens: int,
+        use_cudagraphs=True,
+    ) -> None:
+        # Determine if CUDA graphs should be used for this run.
+        cudagraphs_enabled = use_cudagraphs and self.use_cuda_graph
+        if cudagraphs_enabled and num_tokens <= self.cudagraph_batch_sizes[-1]:
+            num_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
+
+        with set_forward_context(
+            None,
+            self.vllm_config,
+            num_tokens=num_tokens,
+            cudagraph_runtime_mode=(
+                CUDAGraphMode.PIECEWISE if cudagraphs_enabled else CUDAGraphMode.NONE
+            ),
+        ):
+            if self.supports_mm_inputs:
+                input_ids = None
+                inputs_embeds = self.inputs_embeds[:num_tokens]
+            else:
+                input_ids = self.input_ids[:num_tokens]
+                inputs_embeds = None
+
+            self.model(
+                input_ids=input_ids,
+                positions=self._get_positions(num_tokens),
+                hidden_states=self.hidden_states[:num_tokens],
+                inputs_embeds=inputs_embeds,
+            )
+
+    def _get_attention_metadata_builder(self) -> AttentionMetadataBuilder:
+        """Find and return the attention metadata builders for EAGLE layers.
+
+        Returns:
+            The metadata builders for EAGLE layers.
+
+        Raises:
+            AssertionError: If no metadata builders are found for EAGLE layers.
+        """
+        builder = None
+        chosen_layer = self.attn_layer_names[0]
+
+        for kv_cache_group in self.runner.attn_groups:
+            for attn_group in kv_cache_group:
+                if chosen_layer in attn_group.layer_names:
+                    builder = attn_group.get_metadata_builder()
+                    break
+            if builder is not None:
+                break
+
+        assert builder is not None, (
+            "Failed to find attention metadata builder for EAGLE layers."
+        )
+        return builder
+
+    def validate_same_kv_cache_group(self, kv_cache_config: KVCacheConfig) -> None:
+        """
+        Validate that all eagle layers belong to the same KVCacheGroup.
+        Need this assumption to ensure all eagle layers can use the
+        same AttentionMetadata.
+        May extend to multiple AttentionMetadata in the future.
+        """
+        kv_cache_groups: dict[str, int] = {}
+        for id, kv_cache_group in enumerate(kv_cache_config.kv_cache_groups):
+            for layer_name in kv_cache_group.layer_names:
+                kv_cache_groups[layer_name] = id
+        assert (
+            len(
+                set(
+                    [
+                        kv_cache_groups[layer_name]
+                        for layer_name in self.attn_layer_names
+                    ]
+                )
+            )
+            == 1
+        ), "All eagle layers should belong to the same kv cache group"
+
+
+# NOTE(woosuk): Currently, the below code is not used and we always use argmax
+# to sample the draft tokens. We will use this after we find a way to manage
+# the draft prob tensor.
+# Refer to https://github.com/vllm-project/vllm/pull/16899 for the details.
+# FIXME(woosuk): The logic here is duplicated with the main sampling code.
+# We should refactor this to reuse the same sampling implementation.
+def compute_probs_and_sample_next_token(
+    logits: torch.Tensor,
+    sampling_metadata: SamplingMetadata,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if sampling_metadata.all_greedy:
+        # For greedy requests, draft_probs is not used in rejection sampling.
+        # Therefore, we can just return the logits.
+        probs = logits
+        next_token_ids = logits.argmax(dim=-1)
+        return next_token_ids, probs
+
+    assert sampling_metadata.temperature is not None
+
+    # Use epsilon comparison to detect greedy sampling (temperature ~ 0.0)
+    # consistent with sampler.py's _SAMPLING_EPS threshold
+    temperature = sampling_metadata.temperature
+    # Avoid division by zero if there are greedy requests.
+    if not sampling_metadata.all_random:
+        is_greedy = temperature < _SAMPLING_EPS
+        temperature = torch.where(is_greedy, 1.0, temperature)
+    logits.div_(temperature.view(-1, 1))
+    probs = logits.softmax(dim=-1, dtype=torch.float32)
+
+    # NOTE(woosuk): Currently, we ignore most of the sampling parameters in
+    # generating the draft tokens. We only use the temperature. While this
+    # could degrade the acceptance rate, it does not affect the distribution
+    # of the generated tokens after rejection sampling.
+
+    # TODO(woosuk): Consider seeds.
+    q = torch.empty_like(probs)
+    q.exponential_()
+    # NOTE(woosuk): We shouldn't use `probs.div_(q)` because the draft_probs
+    # will be used later for rejection sampling.
+    next_token_ids = probs.div(q).argmax(dim=-1).view(-1)
+    if not sampling_metadata.all_random:
+        greedy_token_ids = probs.argmax(dim=-1)
+        next_token_ids = torch.where(
+            is_greedy,
+            greedy_token_ids,
+            next_token_ids,
+        )
+    return next_token_ids, probs
diff --git a/v1/spec_decode/medusa.py b/v1/spec_decode/medusa.py
new file mode 100644
index 0000000..12b903c
--- /dev/null
+++ b/v1/spec_decode/medusa.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader import get_model
+from vllm.model_executor.models.interfaces import is_mixture_of_experts
+from vllm.v1.sample.metadata import SamplingMetadata
+
+# Initialize logger
+logger = init_logger(__name__)
+
+
+class MedusaProposer:
+    """
+    Medusa proposer class for generating token sequences
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        # Save config parameters
+        self.vllm_config = vllm_config
+        self.device = device
+        self.max_num_tokens = vllm_config.scheduler_config.max_num_batched_tokens
+        self.hidden_size = (
+            vllm_config.speculative_config.draft_model_config.get_hidden_size()
+        )
+        self.dtype = vllm_config.model_config.dtype
+
+    def propose(
+        self,
+        target_hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> list[list[int]]:
+        # Generate blocks and compute logits
+        blocks = self.model(target_hidden_states)
+        logits = self.model.compute_logits(blocks)
+
+        # Get draft tokens and transpose the result
+        # TODO(woosuk): OPTIMIZATION: Return GPU tensor without GPU-CPU
+        # synchronization.
+        draft_tokens = [logit.argmax(dim=-1).tolist() for logit in logits]
+        return [list(row) for row in zip(*draft_tokens)]
+
+    def load_model(self, target_model: nn.Module) -> None:
+        from vllm.compilation.backends import set_model_tag
+
+        with set_model_tag("medusa_head"):
+            self.model = get_model(
+                vllm_config=self.vllm_config,
+                model_config=self.vllm_config.speculative_config.draft_model_config,
+            )
+        assert not (
+            is_mixture_of_experts(self.model)
+            and self.vllm_config.parallel_config.enable_eplb
+        ), "EPLB for Medusa is not supported"
+
+    @torch.inference_mode()
+    def dummy_run(self, num_tokens: int) -> None:
+        hidden_states = torch.zeros(
+            (self.max_num_tokens, self.hidden_size),
+            dtype=self.dtype,
+            device=self.device,
+        )
+        with set_forward_context(None, self.vllm_config, num_tokens=num_tokens):
+            self.model(hidden_states)
diff --git a/v1/spec_decode/metadata.py b/v1/spec_decode/metadata.py
new file mode 100644
index 0000000..6955ae7
--- /dev/null
+++ b/v1/spec_decode/metadata.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+
+import numpy as np
+import torch
+
+
+@dataclass
+class SpecDecodeMetadata:
+    # [num_tokens]
+    draft_token_ids: torch.Tensor
+    # [batch_size]
+    num_draft_tokens: list[int]
+    # [batch_size]
+    cu_num_draft_tokens: torch.Tensor
+    # [batch_size]
+    cu_num_sampled_tokens: torch.Tensor
+    # [num_tokens]
+    target_logits_indices: torch.Tensor
+    # [batch_size]
+    bonus_logits_indices: torch.Tensor
+    # [num_tokens + batch_size]
+    logits_indices: torch.Tensor
+
+    def __post_init__(self):
+        self.max_spec_len = max(self.num_draft_tokens)
+
+    @classmethod
+    def make_dummy(
+        cls,
+        draft_token_ids: list[list[int]],
+        device: torch.device,
+    ) -> "SpecDecodeMetadata":
+        batch_size = len(draft_token_ids)
+        num_draft_tokens = [len(ids) for ids in draft_token_ids]
+        num_sampled_tokens = [len(ids) + 1 for ids in draft_token_ids]
+        flattened_draft_token_ids = sum(draft_token_ids, [])
+        num_tokens = len(flattened_draft_token_ids)
+
+        draft_token_ids_tensor = torch.tensor(
+            flattened_draft_token_ids, dtype=torch.int32, device=device
+        )
+        cu_num_draft_tokens = np.cumsum(num_draft_tokens, dtype=np.int32)
+        cu_num_draft_tokens_tensor = torch.from_numpy(cu_num_draft_tokens).to(device)
+        cu_num_sampled_tokens = np.cumsum(num_sampled_tokens, dtype=np.int32)
+        cu_num_sampled_tokens_tensor = torch.from_numpy(cu_num_sampled_tokens).to(
+            device
+        )
+
+        target_logits_indices = torch.zeros(
+            num_tokens, dtype=torch.int32, device=device
+        )
+        bonus_logits_indices = torch.zeros(batch_size, dtype=torch.int32, device=device)
+        logits_indices = torch.zeros(
+            num_tokens + batch_size, dtype=torch.int32, device=device
+        )
+        return cls(
+            draft_token_ids=draft_token_ids_tensor,
+            num_draft_tokens=num_draft_tokens,
+            cu_num_draft_tokens=cu_num_draft_tokens_tensor,
+            cu_num_sampled_tokens=cu_num_sampled_tokens_tensor,
+            target_logits_indices=target_logits_indices,
+            bonus_logits_indices=bonus_logits_indices,
+            logits_indices=logits_indices,
+        )
diff --git a/v1/spec_decode/metrics.py b/v1/spec_decode/metrics.py
new file mode 100644
index 0000000..79d856a
--- /dev/null
+++ b/v1/spec_decode/metrics.py
@@ -0,0 +1,224 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import time
+from dataclasses import dataclass, field
+
+import numpy as np
+import prometheus_client
+
+from vllm.config import SpeculativeConfig
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class SpecDecodingStats:
+    """Per-step iteration decoding stats from scheduler.
+
+    Each scheduler step, statistics on spec decoding performance are
+    aggregated across requests by the scheduler and returned to the
+    frontend in EngineCoreOutputs->SchedulerStats.
+    """
+
+    num_spec_tokens: int
+    num_drafts: int = 0
+    num_draft_tokens: int = 0
+    num_accepted_tokens: int = 0
+    num_accepted_tokens_per_pos: list[int] = field(default_factory=list)
+
+    @classmethod
+    def new(cls, num_spec_tokens: int) -> "SpecDecodingStats":
+        return cls(
+            num_spec_tokens=num_spec_tokens,
+            num_accepted_tokens_per_pos=[0] * num_spec_tokens,
+        )
+
+    def observe_draft(self, num_draft_tokens: int, num_accepted_tokens: int):
+        self.num_drafts += 1
+        self.num_draft_tokens += num_draft_tokens
+        self.num_accepted_tokens += num_accepted_tokens
+        assert num_accepted_tokens <= self.num_spec_tokens
+        for i in range(num_accepted_tokens):
+            self.num_accepted_tokens_per_pos[i] += 1
+
+
+class SpecDecodingLogging:
+    """Aggregate and log spec decoding metrics.
+
+    LoggingStatLogger aggregates per-iteration metrics over a set
+    time interval using observe() and then logs them using log()
+    before resetting to zero.
+    """
+
+    def __init__(self):
+        self.reset()
+
+    def reset(self):
+        self.num_drafts: list[int] = []
+        self.num_draft_tokens: list[int] = []
+        self.num_accepted_tokens: list[int] = []
+        self.accepted_tokens_per_pos_lists: list[list[int]] = []
+        self.last_log_time = time.monotonic()
+
+    def observe(self, spec_decoding_stats: SpecDecodingStats):
+        self.num_drafts.append(spec_decoding_stats.num_drafts)
+        self.num_draft_tokens.append(spec_decoding_stats.num_draft_tokens)
+        self.num_accepted_tokens.append(spec_decoding_stats.num_accepted_tokens)
+        self.accepted_tokens_per_pos_lists.append(
+            spec_decoding_stats.num_accepted_tokens_per_pos
+        )
+
+    def log(self, log_fn=logger.info):
+        if not self.num_drafts:
+            return
+        num_drafts = np.sum(self.num_drafts)
+        num_draft_tokens = np.sum(self.num_draft_tokens)
+        num_accepted_tokens = np.sum(self.num_accepted_tokens)
+        draft_throughput = 0
+        accepted_throughput = 0
+
+        elapsed_time = time.monotonic() - self.last_log_time
+        if elapsed_time > 0:
+            draft_throughput = num_draft_tokens / elapsed_time
+            accepted_throughput = num_accepted_tokens / elapsed_time
+
+        draft_acceptance_rate = (
+            num_accepted_tokens / num_draft_tokens * 100
+            if num_draft_tokens > 0
+            else float("nan")
+        )
+
+        # Conventionally, mean acceptance length includes the bonus token
+        mean_acceptance_length = 1 + (num_accepted_tokens / num_drafts)
+
+        pos_matrix = np.array(self.accepted_tokens_per_pos_lists)
+        acceptance_rates = np.sum(pos_matrix, axis=0) / num_drafts
+        rates_str = ", ".join(f"{p:.3f}" for p in acceptance_rates)
+
+        log_fn(
+            "SpecDecoding metrics: "
+            "Mean acceptance length: %.2f, "
+            "Accepted throughput: %.2f tokens/s, "
+            "Drafted throughput: %.2f tokens/s, "
+            "Accepted: %d tokens, "
+            "Drafted: %d tokens, "
+            "Per-position acceptance rate: %s, "
+            "Avg Draft acceptance rate: %.1f%%",
+            mean_acceptance_length,
+            accepted_throughput,
+            draft_throughput,
+            num_accepted_tokens,
+            num_draft_tokens,
+            rates_str,
+            draft_acceptance_rate,
+        )
+        self.reset()
+
+
+class SpecDecodingProm:
+    """Record spec decoding metrics in Prometheus.
+
+    The acceptance rate can be calculated using a PromQL query:
+
+      rate(vllm:spec_decode_num_accepted_tokens_total[$interval]) /
+      rate(vllm:spec_decode_num_draft_tokens_total[$interval])
+
+    The mean acceptance length (conventionally including bonus tokens)
+    can be calculated using:
+
+      1 + (
+      rate(vllm:spec_decode_num_accepted_tokens_total[$interval]) /
+      rate(vllm:spec_decode_num_drafts[$interval]))
+
+    A per-position acceptance rate vector can be computed using
+
+      vllm:spec_decode_num_accepted_tokens_per_pos[$interval] /
+      vllm:spec_decode_num_drafts[$interval]
+    """
+
+    _counter_cls = prometheus_client.Counter
+
+    def __init__(
+        self,
+        speculative_config: SpeculativeConfig | None,
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ):
+        self.spec_decoding_enabled = speculative_config is not None
+        if not self.spec_decoding_enabled:
+            return
+
+        counter_drafts = self._counter_cls(
+            name="vllm:spec_decode_num_drafts",
+            documentation="Number of spec decoding drafts.",
+            labelnames=labelnames,
+        )
+        self.counter_spec_decode_num_drafts = make_per_engine(
+            counter_drafts, per_engine_labelvalues
+        )
+
+        counter_draft_tokens = self._counter_cls(
+            name="vllm:spec_decode_num_draft_tokens",
+            documentation="Number of draft tokens.",
+            labelnames=labelnames,
+        )
+        self.counter_spec_decode_num_draft_tokens = make_per_engine(
+            counter_draft_tokens, per_engine_labelvalues
+        )
+
+        counter_accepted_tokens = self._counter_cls(
+            name="vllm:spec_decode_num_accepted_tokens",
+            documentation="Number of accepted tokens.",
+            labelnames=labelnames,
+        )
+        self.counter_spec_decode_num_accepted_tokens = make_per_engine(
+            counter_accepted_tokens, per_engine_labelvalues
+        )
+
+        assert speculative_config is not None
+        num_spec_tokens = (
+            speculative_config.num_speculative_tokens
+            if self.spec_decoding_enabled
+            else 0
+        )
+        pos_labelnames = labelnames + ["position"]
+        base_counter = self._counter_cls(
+            name="vllm:spec_decode_num_accepted_tokens_per_pos",
+            documentation="Accepted tokens per draft position.",
+            labelnames=pos_labelnames,
+        )
+        self.counter_spec_decode_num_accepted_tokens_per_pos: dict[
+            int, list[prometheus_client.Counter]
+        ] = {
+            idx: [base_counter.labels(*lv, str(pos)) for pos in range(num_spec_tokens)]
+            for idx, lv in per_engine_labelvalues.items()
+        }
+
+    def observe(self, spec_decoding_stats: SpecDecodingStats, engine_idx: int = 0):
+        if not self.spec_decoding_enabled:
+            return
+        self.counter_spec_decode_num_drafts[engine_idx].inc(
+            spec_decoding_stats.num_drafts
+        )
+        self.counter_spec_decode_num_draft_tokens[engine_idx].inc(
+            spec_decoding_stats.num_draft_tokens
+        )
+        self.counter_spec_decode_num_accepted_tokens[engine_idx].inc(
+            spec_decoding_stats.num_accepted_tokens
+        )
+        for pos, counter in enumerate(
+            self.counter_spec_decode_num_accepted_tokens_per_pos[engine_idx]
+        ):
+            counter.inc(spec_decoding_stats.num_accepted_tokens_per_pos[pos])
+
+
+def make_per_engine(
+    counter: prometheus_client.Counter, per_engine_labelvalues: dict[int, list[str]]
+):
+    """Create a counter for each label value."""
+    return {
+        idx: counter.labels(*labelvalues)
+        for idx, labelvalues in per_engine_labelvalues.items()
+    }
diff --git a/v1/spec_decode/ngram_proposer.py b/v1/spec_decode/ngram_proposer.py
new file mode 100644
index 0000000..378937d
--- /dev/null
+++ b/v1/spec_decode/ngram_proposer.py
@@ -0,0 +1,291 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+
+import numpy as np
+from numba import get_num_threads, jit, njit, prange, set_num_threads
+
+from vllm.config import VllmConfig
+
+
+class NgramProposer:
+    def __init__(self, vllm_config: VllmConfig):
+        assert vllm_config.speculative_config is not None
+        assert vllm_config.speculative_config.prompt_lookup_min is not None
+        assert vllm_config.speculative_config.prompt_lookup_max is not None
+
+        # Minimum length of the n-gram to match.
+        self.min_n = vllm_config.speculative_config.prompt_lookup_min
+        # Maximum length of the n-gram to match.
+        self.max_n = vllm_config.speculative_config.prompt_lookup_max
+        # Number of tokens follow the match. If there are less than k
+        # tokens follow the match, we will return the maximum amount of
+        # tokens until the end.
+        self.k = vllm_config.speculative_config.num_speculative_tokens
+        # Maximum length of the model.
+        self.max_model_len = vllm_config.model_config.max_model_len
+
+        # Pre-allocate buffers for numba batch propose.
+        max_num_seqs = vllm_config.scheduler_config.max_num_seqs
+        self.valid_ngram_draft = np.zeros((max_num_seqs, self.k), dtype=np.int32)
+        self.valid_ngram_num_drafts = np.zeros((max_num_seqs), dtype=np.int32)
+
+        # Threshold of total number of tokens in the batch to enable
+        # multi-threading in numba batch propose.
+        self.num_tokens_threshold = 8192
+        tp_size = vllm_config.parallel_config.tensor_parallel_size
+        cpu_count = os.cpu_count()
+        # Max number of threads for numba parallel processing.
+        if cpu_count:
+            # Divide by 2 to use physical cores
+            # and not logical cores (hyper-threading).
+            # Cap the number of threads to 8 to avoid using too many threads
+            # since other components like frontend (incl tokenization)
+            # and Structured Outputs also use multiple threads.
+            # TODO(ekagra-ranjan): bump up the cap from 1 to 8
+            # when TP parallelization for ngram is implemented.
+            self.num_numba_thread_available = min(1, (cpu_count // 2))
+            # Divide by tp_size to ensure each tensor parallel rank
+            # has some threads since all ranks will run this.
+            self.num_numba_thread_available //= tp_size
+        else:
+            self.num_numba_thread_available = 1
+
+        # Trigger Numba JIT compilation for N-gram proposer.
+        # This usually takes less than 1 second.
+        self.propose(
+            [np.array([])] * 1024,
+            [""] * 1024,
+            np.zeros(1024, dtype=np.int32),
+            np.zeros((1024, self.max_model_len), dtype=np.int32),
+            set(),
+        )
+
+    def batch_propose(
+        self,
+        num_requests: int,
+        valid_ngram_requests: list,
+        num_tokens_no_spec: np.ndarray,
+        token_ids_cpu: np.ndarray,
+    ) -> list[list[int]]:
+        """Batch version of ngram proposer using numba for acceleration.
+
+        Args:
+            valid_ngram_requests:
+                Set of indices of requests that need ngram proposals.
+            num_tokens_no_spec:
+                Numpy array of shape (batch_size,) representing the number
+                of tokens without speculative tokens for each request.
+            token_ids_cpu:
+                Numpy array of shape (batch_size, max_model_len)
+                representing the token IDs for each request.
+
+        Returns:
+            list[list[int]]:
+                A list where each element is a list of proposed
+                token IDs for the corresponding request.
+        """
+        draft_token_ids: list[list[int]] = []
+
+        # Only run batch propose if there are requests needing ngram proposals.
+        # avoid calling numba function with empty list which causes error
+        # ValueError: cannot compute fingerprint of empty list
+        if num_ngram_requests := len(valid_ngram_requests):
+            original_num_numba_threads = get_num_threads()
+            # Ensure we use at least one thread.
+            # If total tokens is small, using multiple threads
+            # may slow down due to overhead.
+            total_tokens = np.sum(num_tokens_no_spec)
+            if total_tokens >= self.num_tokens_threshold:
+                final_num_threads = max(
+                    1, min(self.num_numba_thread_available, num_ngram_requests)
+                )
+                set_num_threads(final_num_threads)
+            else:
+                set_num_threads(1)
+
+            batch_propose_numba(
+                valid_ngram_requests,
+                num_tokens_no_spec,
+                token_ids_cpu,
+                self.min_n,
+                self.max_n,
+                self.max_model_len,
+                self.k,
+                self.valid_ngram_draft,
+                self.valid_ngram_num_drafts,
+            )
+
+            # Restore original number of threads.
+            set_num_threads(original_num_numba_threads)
+
+        for i in range(num_requests):
+            if i in valid_ngram_requests and self.valid_ngram_num_drafts[i] > 0:
+                draft_token_ids.append(
+                    self.valid_ngram_draft[i, : self.valid_ngram_num_drafts[i]].tolist()
+                )
+            else:
+                draft_token_ids.append([])
+
+        return draft_token_ids
+
+    def propose(
+        self,
+        sampled_token_ids: list[np.ndarray],
+        req_ids: list[str],
+        num_tokens_no_spec: np.ndarray,
+        token_ids_cpu: np.ndarray,
+        spec_decode_unsupported_reqs: set,
+    ) -> list[list[int]]:
+        # find which requests need ngram proposals
+        valid_ngram_requests = []
+        for i, sampled_ids in enumerate(sampled_token_ids):
+            num_sampled_ids = sampled_ids.shape[0]
+            if not num_sampled_ids:
+                # Skip speculative decoding.
+                continue
+
+            # Skip requests that require sampling parameters that are not
+            # supported with speculative decoding.
+            req_id = req_ids[i]
+            if req_id in spec_decode_unsupported_reqs:
+                continue
+
+            num_tokens = num_tokens_no_spec[i]
+            if num_tokens >= self.max_model_len:
+                # Skip requests that have already reached the max model length.
+                continue
+
+            valid_ngram_requests.append(i)
+
+        draft_token_ids = self.batch_propose(
+            len(sampled_token_ids),
+            valid_ngram_requests,
+            num_tokens_no_spec,
+            token_ids_cpu,
+        )
+
+        return draft_token_ids
+
+    def load_model(self, *args, **kwargs):
+        # No model to load.
+        pass
+
+
+@njit(parallel=True)
+def batch_propose_numba(
+    valid_ngram_requests: list,
+    num_tokens_no_spec: np.ndarray,
+    token_ids_cpu: np.ndarray,
+    min_n: int,
+    max_n: int,
+    max_model_len: int,
+    k: int,
+    valid_ngram_draft: np.ndarray,
+    valid_ngram_num_drafts: np.ndarray,
+):
+    for i in prange(len(valid_ngram_requests)):
+        idx = valid_ngram_requests[i]
+        num_tokens = num_tokens_no_spec[idx]
+        context_token_ids = token_ids_cpu[idx, :num_tokens]
+        drafter_output = _find_longest_matched_ngram_and_propose_tokens(
+            origin_tokens=context_token_ids,
+            min_ngram=min_n,
+            max_ngram=max_n,
+            max_model_len=max_model_len,
+            k=k,
+        )
+
+        valid_ngram_num_drafts[i] = drafter_output.shape[0]
+        if len(drafter_output):
+            valid_ngram_draft[i, : drafter_output.shape[0]] = drafter_output
+
+
+@jit(nopython=True)
+def _find_longest_matched_ngram_and_propose_tokens(
+    origin_tokens: np.ndarray,
+    min_ngram: int,
+    max_ngram: int,
+    max_model_len: int,
+    k: int,
+) -> np.ndarray:
+    """
+    Find the longest n-gram which matches the suffix of the given tokens
+    whose length is within [min_ngram, max_ngram] (inclusive).
+
+    If found, we will extract k right after the matched ngram.
+    """
+    # Do not generate draft tokens is context is shorter than minimum n-gram
+    total_token = origin_tokens.shape[0]
+    if total_token < min_ngram:
+        return np.empty((0,), dtype=origin_tokens.dtype)
+
+    # Do not generate draft tokens beyond the max model length.
+    k = min(k, max_model_len - total_token)
+    if k <= 0:
+        return np.empty((0,), dtype=origin_tokens.dtype)
+
+    # Flip tokens, and the goal become to find longest ngram
+    # on the rightmost position which matches the prefix with
+    # length [min_n, max_n] (inclusive).
+    tokens = origin_tokens[::-1]
+
+    # Longest prefix (not including itself) which is a suffix of
+    # the current position.
+    #   lps[i] = max{v, where tokens[0:v] == tokens[i+1-v:i+1]}
+    #
+    # As ngram is capped by max_ngram to save memory, we only need to
+    # store lps for the first max_ngram prefix.
+    lps = np.zeros(max_ngram, dtype=np.int32)
+
+    longest_ngram = 0
+    position = 0
+
+    # lps[0] always equal to 0, we start with index 1
+    prev_lps = 0
+    i = 1
+    while i < total_token:
+        # tokens[:prev_lps] is the longest prefix as a suffix of tokens[:i]
+        if tokens[prev_lps] == tokens[i]:
+            # Token match: tokens[:prev_lps+1] is the longest prefix as
+            # a suffix of tokens[:i+1]
+            prev_lps += 1
+            # Check if we found a longer valid ngram.
+            #
+            # Update position when longest_ngram matched prev_lps,
+            # as we want to get the target n-gram of the earliest position
+            # in the original tokens (i.e.
+            # latest position in the reversed tokens)
+            if prev_lps >= longest_ngram:
+                longest_ngram = prev_lps
+                position = i
+            if i < max_ngram:
+                # Store LPS for the first max_ngram prefix
+                lps[i] = prev_lps
+            if prev_lps == max_ngram:
+                # When prev_lps reached max_ngram, update prev_lps
+                # to lps[max_ngram-1] to avoid matching ngram
+                # longer than max_ngram
+                prev_lps = lps[max_ngram - 1]
+            i += 1
+        elif prev_lps != 0:
+            # Token mismatch: try the second longest prefix
+            # among all suffix of tokens[:i],
+            # which is the longest prefix of tokens[:prev_lps]
+            prev_lps = lps[prev_lps - 1]
+        else:
+            # Token mismatch, and no more prefix (except empty string)
+            # as a suffix of tokens[:i]
+            i += 1
+
+    if longest_ngram < min_ngram:
+        # No valid ngram is found
+        return np.empty((0,), dtype=origin_tokens.dtype)
+
+    # Flip the position back, so in origin_tokens,
+    # origin_tokens[total_token-1-position:total_token-1-position+longest_ngram]
+    # is the matched ngram, so we should start drafting tokens from
+    # total_token-1-position+longest_ngram
+    start_position = total_token - 1 - position + longest_ngram
+    k = min(k, total_token - start_position)
+    return origin_tokens[start_position : start_position + k]
diff --git a/v1/spec_decode/suffix_decoding.py b/v1/spec_decode/suffix_decoding.py
new file mode 100644
index 0000000..d76e0ff
--- /dev/null
+++ b/v1/spec_decode/suffix_decoding.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import numpy as np
+
+from vllm.config import VllmConfig
+from vllm.v1.worker.gpu_input_batch import InputBatch
+
+
+class SuffixDecodingProposer:
+    """
+    Speculative decoding proposer for Suffix Decoding (https://arxiv.org/pdf/2411.04975).
+    This class imports and uses the official implementation from Arctic Inference
+    (https://github.com/snowflakedb/ArcticInference).
+    """
+
+    def __init__(self, vllm_config: VllmConfig):
+        config = vllm_config.speculative_config
+        self.num_speculative_tokens = config.num_speculative_tokens
+        self.max_tree_depth = config.suffix_decoding_max_tree_depth
+        self.max_spec_factor = config.suffix_decoding_max_spec_factor
+        self.min_token_prob = config.suffix_decoding_min_token_prob
+        self.max_model_len = vllm_config.model_config.max_model_len
+
+        # Lazy import to avoid error when Suffix Decoding is not used.
+        from arctic_inference.suffix_decoding import SuffixDecodingCache
+
+        # Initialize and empty cache. This object will take care of caching request
+        # outputs, evicting old requests, and manages the per-prompt suffix trees.
+        self.suffix_cache = SuffixDecodingCache(
+            max_tree_depth=config.suffix_decoding_max_tree_depth,
+            max_cached_requests=config.suffix_decoding_max_cached_requests,
+        )
+
+    def propose(
+        self,
+        input_batch: InputBatch,
+        sampled_token_ids: list[np.ndarray],
+    ) -> list[list[int]]:
+        """
+        Propose speculative tokens for each request in the input batch. Suffix Decoding
+        will speculate a dynamic number of tokens for each request every decoding step,
+        so each entry in the returned list may have different lengths.
+        """
+        draft_token_ids: list[np.ndarray] = []
+        for i, sampled_ids in enumerate(sampled_token_ids):
+            if sampled_ids.shape[0] == 0:
+                # Skip speculative decoding for partial prefills.
+                draft_token_ids.append([])
+                continue
+
+            # Skip requests that require sampling parameters that are not
+            # supported with speculative decoding.
+            req_id = input_batch.req_ids[i]
+            if req_id in input_batch.spec_decode_unsupported_reqs:
+                draft_token_ids.append([])
+                continue
+
+            num_tokens = input_batch.num_tokens_no_spec[i]
+            if num_tokens >= self.max_model_len:
+                # Skip requests that have already reached the max model length.
+                draft_token_ids.append([])
+                continue
+
+            index = input_batch.req_id_to_index[req_id]
+            if req_id not in self.suffix_cache.active_requests:
+                if req_id in self.suffix_cache.cached_requests:
+                    # Reset the suffix cache for this request.
+                    self.suffix_cache.evict_cached_response(req_id)
+                num_prompt_tokens = input_batch.num_prompt_tokens[index]
+                prompt_token_ids = input_batch.token_ids_cpu[index, :num_prompt_tokens]
+                # Start a new request, this will build the suffix tree for that prompt.
+                self.suffix_cache.start_request(req_id, prompt_token_ids)
+
+            # Append the newly sampled ids to the suffix cache for this request.
+            self.suffix_cache.add_active_response(req_id, sampled_ids.tolist())
+
+            # Suffix decoding only uses the most recent tokens up to max_tree_depth, so
+            # we extract the pattern from the end of the input.
+            start = max(0, num_tokens - self.max_tree_depth)
+            pattern = input_batch.token_ids_cpu[i, start:num_tokens]
+            draft = self.suffix_cache.speculate(
+                req_id,
+                pattern,
+                max_spec_tokens=min(
+                    self.num_speculative_tokens, self.max_model_len - num_tokens - 1
+                ),
+                max_spec_factor=self.max_spec_factor,
+                min_token_prob=self.min_token_prob,
+            )
+
+            draft_token_ids.append(draft.token_ids)
+
+        # Stop requests that were not seen in the input batch.
+        for req_id in (
+            self.suffix_cache.active_requests - input_batch.req_id_to_index.keys()
+        ):
+            self.suffix_cache.stop_request(req_id)
+
+        return draft_token_ids
+
+    def load_model(self, *args, **kwargs):
+        # No model to load.
+        pass
diff --git a/v1/spec_decode/utils.py b/v1/spec_decode/utils.py
new file mode 100644
index 0000000..1901c6f
--- /dev/null
+++ b/v1/spec_decode/utils.py
@@ -0,0 +1,16 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.sampling_params import SamplingParams
+
+_SAMPLING_EPS = 1e-5
+
+
+def is_spec_decode_unsupported(sampling_params: SamplingParams) -> bool:
+    """True if request is incompatible with speculative decoding"""
+    return (
+        sampling_params.frequency_penalty != 0.0
+        or sampling_params.presence_penalty != 0.0
+        or sampling_params.repetition_penalty != 1.0
+        or sampling_params.min_p > _SAMPLING_EPS
+        or sampling_params.logprobs is not None
+    )
diff --git a/v1/structured_output/__init__.py b/v1/structured_output/__init__.py
new file mode 100644
index 0000000..029129c
--- /dev/null
+++ b/v1/structured_output/__init__.py
@@ -0,0 +1,338 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import multiprocessing
+from concurrent.futures import Future, ThreadPoolExecutor
+from typing import TYPE_CHECKING
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParserManager
+from vllm.transformers_utils.tokenizer import init_tokenizer_from_configs
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.structured_output.backend_guidance import GuidanceBackend
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputBackend,
+    StructuredOutputGrammar,
+)
+from vllm.v1.structured_output.backend_xgrammar import XgrammarBackend
+
+if TYPE_CHECKING:
+    import numpy as np
+    import numpy.typing as npt
+    import torch
+
+    from vllm.reasoning import ReasoningParser
+    from vllm.v1.request import Request
+else:
+    torch = LazyLoader("torch", globals(), "torch")
+
+    ReasoningParser = object
+    Request = object
+
+logger = init_logger(__name__)
+
+
+class StructuredOutputManager:
+    """Engine-level manager for structured output requests."""
+
+    def __init__(self, vllm_config: VllmConfig):
+        self.backend: StructuredOutputBackend | None = None
+        self.reasoner: ReasoningParser | None = None
+        self.vllm_config = vllm_config
+
+        self._grammar_bitmask: torch.Tensor | None = None
+        self._full_mask = torch.tensor(-1, dtype=torch.int32)
+
+        max_batch_size = self.vllm_config.scheduler_config.max_num_seqs
+        self.fill_bitmask_parallel_threshold = 128
+        if self.fill_bitmask_parallel_threshold < max_batch_size:
+            self.fill_bitmask_parallel_batch_size = 16
+            # Use:
+            # - at least 1 CPU
+            # - at most half the number of CPUs or 8, whichever is less
+            max_workers = max(1, min(multiprocessing.cpu_count() // 2, 8))
+            self.executor_for_fillmask = ThreadPoolExecutor(max_workers=max_workers)
+
+        if not self.vllm_config.model_config.skip_tokenizer_init:
+            # The default max_workers if not specified is the number of
+            # CPUs * 5, which is way too high since these tasks are CPU-bound,
+            # not I/O bound. We also know we would never dominate CPU usage
+            # with just grammar compilation, so we set it to half the number
+            # of CPUs.
+            max_workers = max(1, (multiprocessing.cpu_count() + 1) // 2)
+            self.executor = ThreadPoolExecutor(max_workers=max_workers)
+            self.tokenizer = init_tokenizer_from_configs(
+                model_config=self.vllm_config.model_config
+            )
+            reasoning_parser = (
+                self.vllm_config.structured_outputs_config.reasoning_parser
+            )
+            reasoning_parser_plugin = (
+                self.vllm_config.structured_outputs_config.reasoning_parser_plugin
+            )
+            if reasoning_parser_plugin and len(reasoning_parser_plugin) > 3:
+                ReasoningParserManager.import_reasoning_parser(reasoning_parser_plugin)
+
+            reasoning_parser = (
+                self.vllm_config.structured_outputs_config.reasoning_parser
+            )
+            if reasoning_parser:
+                reasoner_cls = ReasoningParserManager.get_reasoning_parser(
+                    reasoning_parser
+                )
+                self.reasoner = reasoner_cls(tokenizer=self.tokenizer)
+
+        self.enable_in_reasoning = (
+            self.vllm_config.structured_outputs_config.enable_in_reasoning
+        )
+
+    def grammar_init(self, request: Request) -> None:
+        if request.structured_output_request is None:
+            return
+
+        if TYPE_CHECKING:
+            assert (
+                request.sampling_params is not None
+                and request.sampling_params.structured_outputs is not None
+            )
+
+        # Initialize the backend the first time it is needed.
+        #
+        # NOTE: We only support a single backend. We do NOT support different
+        # backends on a per-request basis in V1 (for now, anyway...).
+        # _backend is set in Processor._validate_structured_output
+        if self.backend is None:
+            assert request.sampling_params is not None
+            backend = request.sampling_params.structured_outputs._backend
+            vocab_size = self.vllm_config.model_config.get_vocab_size()
+            if backend == "xgrammar":
+                self.backend = XgrammarBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
+            elif backend == "guidance":
+                self.backend = GuidanceBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
+            elif backend == "outlines":
+                from vllm.v1.structured_output.backend_outlines import OutlinesBackend
+
+                self.backend = OutlinesBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
+            elif backend == "lm-format-enforcer":
+                from vllm.v1.structured_output.backend_lm_format_enforcer import (  # noqa: E501
+                    LMFormatEnforcerBackend,
+                )
+
+                self.backend = LMFormatEnforcerBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
+            else:
+                raise ValueError(f"Unsupported structured output backend: {backend}")
+
+        grammar = self.executor.submit(self._async_create_grammar, request)
+        request.structured_output_request.grammar = grammar  # type: ignore[assignment]
+
+    def _async_create_grammar(
+        self,
+        request: Request,
+    ) -> StructuredOutputGrammar:
+        key = request.structured_output_request.structured_output_key  # type: ignore[union-attr]
+
+        # Note that the request was validated in the engine core client,
+        # so at this point we know it is a supported type of request.
+        #
+        # TODO: we still need to handle xgrammar compilation failures,
+        # though it should be unlikely as we test that up front as well.
+        request_type, grammar_spec = key
+
+        assert self.backend is not None
+        return self.backend.compile_grammar(request_type, grammar_spec)
+
+    def _fill_bitmasks(
+        self,
+        batch: list[tuple[StructuredOutputGrammar, int, bool]],
+    ) -> None:
+        assert self._grammar_bitmask is not None
+        for grammar, index, apply_bitmask in batch:
+            if apply_bitmask and not grammar.is_terminated():
+                grammar.fill_bitmask(self._grammar_bitmask, index)
+            else:
+                # Note that for thinking support, we will need to
+                # reset the relevant part of the bitmask for consequent
+                # requests here.
+                self._grammar_bitmask[index].fill_(self._full_mask)
+
+    def _async_submit_fill_bitmask(
+        self,
+        batch: list[tuple[StructuredOutputGrammar, int, bool]],
+    ) -> Future:
+        return self.executor_for_fillmask.submit(self._fill_bitmasks, batch)
+
+    def grammar_bitmask(
+        self,
+        requests: dict[str, Request],
+        structured_output_request_ids: list[str],
+        scheduled_spec_decode_tokens: dict[str, list[int]],
+    ) -> "npt.NDArray[np.int32] | None":
+        # Prepare the structured output bitmask for this batch.
+        if not structured_output_request_ids:
+            return None
+
+        max_num_spec_tokens = 0
+        if self.vllm_config.speculative_config is not None:
+            max_num_spec_tokens = (
+                self.vllm_config.speculative_config.num_speculative_tokens
+            )
+
+        if self._grammar_bitmask is None:
+            assert self.backend is not None
+            max_batch_size = self.vllm_config.scheduler_config.max_num_seqs
+
+            # Allocate a bitmask for each token needing to be checked:
+            # one for each speculative position, and one more for the
+            # bonus token / non-speculative token.
+            self._grammar_bitmask = self.backend.allocate_token_bitmask(
+                max_batch_size * (1 + max_num_spec_tokens)
+            )
+
+        # Generate a batched bitmask for all structured output requests.
+        # When speculative decoding is enabled, we need to include multiple
+        # masks for each request, one for each possible bonus token position.
+        # These are stored inline in the tensor and unpacked by the gpu runner.
+        cumulative_index = 0
+
+        # Optimized parallel filling of bitmasks for
+        # non-spec, large-batch-size cases
+        if (
+            len(structured_output_request_ids) > self.fill_bitmask_parallel_threshold
+            and max_num_spec_tokens == 0
+        ):
+            promises = []
+            batch = []
+            for req_id in structured_output_request_ids:
+                request = requests[req_id]
+                structured_output_request = request.structured_output_request
+                if TYPE_CHECKING:
+                    assert structured_output_request is not None
+                    assert structured_output_request.grammar is not None
+
+                apply_bitmask = self.should_fill_bitmask(request)
+                batch.append(
+                    (structured_output_request.grammar, cumulative_index, apply_bitmask)
+                )
+                if len(batch) == self.fill_bitmask_parallel_batch_size:
+                    promises.append(self._async_submit_fill_bitmask(batch))
+                    batch = []
+
+                cumulative_index += 1
+            if batch:
+                promises.append(self._async_submit_fill_bitmask(batch))
+
+            # Wait for all bitmask filling tasks to complete.
+            for promise in promises:
+                promise.result()
+        else:
+            # Fallback to serial filling of bitmasks for small-batch-size cases
+            for req_id in structured_output_request_ids:
+                request = requests[req_id]
+                structured_output_request = request.structured_output_request
+
+                if TYPE_CHECKING:
+                    assert structured_output_request is not None
+                    assert structured_output_request.grammar is not None
+                apply_bitmask = self.should_fill_bitmask(request)
+
+                state_advancements = 0
+                req_tokens = scheduled_spec_decode_tokens.get(req_id, [])
+                for i, token in enumerate(req_tokens + [None]):
+                    self._fill_bitmasks(
+                        [
+                            (
+                                structured_output_request.grammar,
+                                cumulative_index,
+                                apply_bitmask,
+                            )
+                        ]
+                    )
+
+                    if (
+                        apply_bitmask
+                        and token is not None
+                        and not structured_output_request.grammar.is_terminated()
+                    ):
+                        accepted = structured_output_request.grammar.accept_tokens(
+                            req_id, [token]
+                        )
+                        assert accepted, (token, req_id, scheduled_spec_decode_tokens)
+                        state_advancements += 1
+                    cumulative_index += 1
+                if state_advancements > 0:
+                    structured_output_request.grammar.rollback(state_advancements)
+
+        bitmask_tensor = self._grammar_bitmask
+        if cumulative_index < bitmask_tensor.shape[0]:
+            bitmask_tensor = bitmask_tensor[:cumulative_index]
+
+        # After finishing with the xgrammar operations, we convert to
+        # np.ndarray, because that is much more efficient for serialization
+        # and deserialization when sending this to the GPU workers.
+        return bitmask_tensor.numpy()
+
+    def should_fill_bitmask(self, request: Request) -> bool:
+        # NOTE (Hanchen) if enable_in_reasoning is True, it means that
+        # the model needs to be constrained in reasoning. So we should always
+        # enable the bitmask filling.
+
+        if self.reasoner is not None:
+            if self.enable_in_reasoning:
+                return True
+            assert request.structured_output_request is not None
+            if request.structured_output_request.reasoning_ended is None:
+                request.structured_output_request.reasoning_ended = (
+                    self.reasoner.is_reasoning_end(request.prompt_token_ids)
+                )
+            return request.structured_output_request.reasoning_ended
+        return True
+
+    def should_advance(self, request: Request) -> bool:
+        if not request.use_structured_output:
+            return False
+
+        # To determine whether we can advance the FSM.
+        # Supports thinking usage where we skip the reasoning components.
+        if TYPE_CHECKING:
+            assert request.structured_output_request is not None
+            assert request.structured_output_request.grammar is not None
+        # by default, we should always advance
+        # for cases that don't use thinking mode.
+        if self.reasoner is None:
+            return True
+
+        # if the model needs structured in reasoning, we should advance
+        if self.enable_in_reasoning:
+            return True
+
+        structured_req = request.structured_output_request
+        if structured_req.reasoning_ended:
+            return True
+
+        # Check if reasoning ends in *this* step
+        if self.reasoner.is_reasoning_end(request.all_token_ids):
+            # Reasoning just ended, so we shouldn't advance til
+            # next pass
+            structured_req.reasoning_ended = True
+
+        return False
+
+    def clear_backend(self) -> None:
+        if self.backend is not None:
+            self.backend.destroy()
diff --git a/v1/structured_output/__pycache__/__init__.cpython-312.pyc b/v1/structured_output/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7be6178bf1687f173247b559b3b222a288a4534b
GIT binary patch
literal 11672
zcmc&aTWlNIbu)a69C1b@MZKlb+th=y9)4+MS&k)3mTm3EuOvzWg6525%0p5+Lpqj1
z1>R&ow5Z$2XbU?CiYRD+I@m>_1%k$({#>9x97*mlvv#UQyC43eD+eh86z#cpW=L5Y
z?Yd}y4lsA_<J@!aJ@?%6y7SNF<!%BV!S)yNZ=4{Ae?tZ1vFn*#h9roG1V?bBK+K}A
zMIaNFSxdq?Yb8<HD%cYCSv$_#1V_R->%@7x;7XLumf^fZa3?&o9-MayRHA&g9Oqqv
zH$l(RIA10(iHg|@oOcVpgn!nb2+Rg>*&|dYg0n%A;O$}^o=eqiHU8ElY_qi(h7{^%
zQ5ywg)z8-Bx^kf*(Ky>k5=p;>;AzeaY17C0(m3zORxLYQ$FsBb@HRqw8Q=UdtQkGC
zEf!*u;OGwtj``T4*R?K@p^BHNFcY$<j`NvxM&woBwOb+|<=#uBgo(R+ER#-&AyO^B
z_MP`8BIl+i&Rx7PGYJ*$8-kEHmrBmX=b_|@C*$dekeZ+85p?hhAC*$ccyj)|s3`H`
z<!CahwbWt2bm}&rj4$(IWKK*aA~B3cLRc?FmzOT3q8vs;PiEp=G#TT+5sg6y4rW<(
zH7#ahXrkP^ne<{Ntv4NPm=vRlL=?@2{`S0<H_$-Uz6k=9^9uidhL_T+9abE>71M~M
zrDb|ycLy>L37(iGIbznrk+W9L!rSI7ob^N7tevy*4$jUw=4_l3%1*7!yP)iXav4{~
zyLk`q;wip-&RPSw(5v@w1BCZ52%ZKU9)Mstim%{(ykpLS`<4SnAI^Dky_=^{NpH1t
z^qh-hpr2o#OF7`FfO23@*$3rHF2MQW8(eaPDi0D<-@xUeiR64d$@dEU9bRA)+P1QD
zDUp?m`@*L1#;~GBPbsW=?f|doyByQG4<<<vPIwXL?snO<vza9#s2)EY0VSP(2_j2E
zsn{2{={!#mX=8tg1uO>)3_2b%?J{Z>C?i+;equ3B1dM=Ygr6+20CU>^EHL|P2x7r^
zux<r70<aZl1K0uwp|Y0Sup;psX9HM|(Vj*dh#$_Lt~2uK1|zr7Xyi)Yq9kxE14hni
ztjPGTSkui0bk_Qb%a98&Zbh-)e8p`>d+EE-QOX;+HB$1vG4r>ZuYDO1aCp{lG1npu
z)7{3nhwPKdtUoE+v+Cg2^bZ^DrSHPgQr^g|z|NWSiCO;vqgUy>V$a&e*7Px>CTln5
z$hmKi18-EOL7!>Q!bu}n`j+5HI4y5I6Z4hW#NIul4VOkSa#@=(yA_9p$U0!e9;2=F
z{lsHH0e6+o@7vFAq=d`J0j46?FA*VX=H-9G15(@0rI!}@m-hhhB|4ig(SR?JoOp>2
zJwSL8(Yui!q{Q32h%^k9NO8QN3!|4vgg|9kQ6YtzROd}i+o&$kgP_HDQAB*FG7(*k
zL~h2@iKuj2L`O$;r1_+j5><OVnI0Ta-I2MBAVg5R%1E(WJeLtb&uJ<SMu*8HGl_`A
zzb~mxb8!IGu|*c6VpI@dZfQ`!(yf%hsjNA`&1gDyD<XjcRjq&!l6X?36B!{LUlda@
zUXnobs%5do42+verbQ&l)Jk4g=Mj+C5ri2p0?}3VOSj{Tks=i$NK30Oql1X#tH>h2
znv$H4XmVaM*2ZY$f}zn;K<lej`)eYLLI(7QY8CjTi1tUViYFFRVmh)PQVq=WCbfP(
z8NDg+FuzidkW;luyfCNjk{409L?97~A#o5TLufq8*waW%kR&ASS?&4Lg}!uRv2QWH
z*qe@uFnI6X%!yMcZ=c}%g!s+A#ijJERI(2#vc5b0eFvz}7r``(M8b<ps>>)Wv-`~z
zU6F<j2qa0Re*&hxN90euvue9f<&O@*r#xTRv1;3PRqq@-g}x2XYny)2^Ru3H@i&#f
zt^2fYyY@6d(K|H_N=-<v2`M$ha?P+(Gbz_hu6px*1E^C^-a{*%KH1Z^5#IES<%f>1
zj&D=_uU$l4<D=-W{J)AQ?W1!0=vMpK)3b8>#MAe;nlEhCPOn~k9(w09&vxh<g74U&
z{R-VA(@hH9Bhx(!J+?)Uy{0rIeM-waa?3kgEvKK7a?9DLQMq|?t9A-d)Q6wEvt2*A
zI)4B1^M;f8hGwOqS8nK48iwVD;n!A6qZgWH3NE6eQejw`VHIXrW`-5!qRd<@Sc&om
zleQ}|a|N}vy>bvt=O=@?zVln%lb<zjc3*tXbSTWI%#7yF+}LKmRd5`R7<Fc!Hyu-&
zrsbyTe4uUDYGHkA6x28OZlr(vqfdXd&7NPg{Y^PwDX&nddYP(MsN*tqT%o3AY8s|c
zR{qSz?!xvFs#7<0RENleX_}mQ!^lAn2sU!UkUj)MW&w5D_uM0wh;-4s5!(O?9ol`*
z2SM}t1;;)>DBiP76F&x{X`yKRlwj7#d$s16^j@Z;n~h>-aIIKiR1-sM!CRVvky|L5
zA4Uy97{<(sH47&8?IUn@kEH!ZyE$&CEgA;~Bp8iWFz$3S5mZQ#qRF2FW~+|5%7Fi~
zU`_&N8^+v?4144vuGmNd)Fm<%OsMj|ocSo=cNXzuw{rztR={unv*7oZ3`MRiYxz0x
zcNRmPV{U3Os8#wdw3qTm4(4KFBxcE?k>>#O!Sp0Viu(wP-aVtb?&@kcWYJWR`%Wqr
zy{V}`*Szi_sxHt*0=OoUh)xmcbQ=6aT%mh?%RV8|3z{zxP51Ii$i%RZS#|01d0aW6
z*BRiQ*OO9a5h*90Gx2V8BVm{Ycj=%~1nq>KNf8}>m6oE3MVJd#jM0Ro`VQz1NksNJ
zXbv4OR%RmB&0eGlOKTR<DZ-Qxk;|ZVA)OSy(;q&7Gpyr6idrMhdDLO(>pOtArco+l
zP)eLcUEMdLLWZ9Z#gr)aqY8(VxtRb{p)wMcmXfhZ4Ag6yHw-1!X>6TSJO$w58I+)f
zisw**rh^fSS0J}n8;i&WR4K#YLgvVF+hMwNFVuGsqPv<t_4pJ|kL>Bmd4}?o?@Leh
z4pXHtoifvzV+QkqIwjC82fCHOs2mv01*QvjYq_^zAuBGD1s_2%KOOmKMD{f0{k4j}
zOZIo={Ks?DaY*yQ1|`@l2YZ#^m>e8af*0iAh1JP?Nf#fNYmO^56LQVO7O3OtJRN-0
zwMn-<ZwluF)k>gE4z%SPTYi!JSu)=gdhN7<?y>zXRd5r&nn%-{6&-I4_=36d#akfF
z)gRrgIQj>RrNZ~hMX)EnY8If_tD1AI)1RIAER<`$wiUddW3KP`f)9Hi^eVm%+1Ih2
zRyxnhooAn(*z#Rmb>@fOS#>I|kn9RQbM=d(umf-CKO}Xr{<{yE!}Q-mQTG9m{(v5_
zd=KhZtcST-MIBd^>_%U3%ZsjjsV-{;7e*iHD)DP_CS((*pjoXvaCjoO`6ca4(y>%x
zF%Cwj!OZp&GpkkrLq;V&?GfaQl(<$}<YN*N0NBFBEG>Q$ip#x+akA+tT7xbUn&mwL
z3?e$Hc>82;pW>a6y%Vd}f|uw3(zmQqYXTT*Kh1uW&C#7XS0|)-t*p@9GTr_7(vzMo
zdNSvl#9O4=v61}7P8BVce}~avrwCI^MYAi&apL>mCy4LC&aPPS4uSiawJhk`77!F4
zL!V0x(2mB~_n429wHiA`68DcE27_WHraNtF_ZXTCFoH3#M2Od+dk8#m_^9P^DU#+z
z@TEY6aVoXf_fqY+BqE&#@K~6A7xGweA=i)N@2cg|#YJJs@aOjJyz0d+SFv@u<4`8p
zJFv74qey5U@a{7Kg>IASwj6yl=Q;}M=e+|m6<VEKyZ-3%@96sVZz=7=a{KUh`$!%M
zyEd6=Tfe5&J(+mMd;??*GPm1hrhT24nI451kePvvq2HeQ^vpBn+$)+04}QfFo`H!R
z#u#Q>58GyPG)rc{RecMrVjo}@-$ThwNI=&YX)K`w%d(nEsMU{%rgz>T>GHs#6xEcI
zNuPfN)DqhLB6UMD9a89{GJSL-p!AQ+{o_yhE&5W<bxAum5EQ^?T~Zqk$_zse#5qZ=
zH=KVif&@W?<6{tc(0puZxjwm=4$q9A6~*Y%caw`@96b0wn`LJp;1JtOGbF~)q1yc`
zI66Rkiv+F$M`Do()%zbaLHYq}etgVe&GrkA<=8(G5bYY^HE}PBV)<Yf(+I7ZSqzae
zQ``&mL8MtbXUW=7BykyNWE^rZ_=~~_=;cTkU5#wfq=hj|qPIBm_C?mFJ0H*Ii4`Zj
zuB-)w-p@ebl|eMR42hl<ch+s@c&vER#R#M5%X)N*cowP;&b~;kVyw3WlXV-bS)sD7
zg<?!~4}>XBFs`XNtI?Mv_N;wR?AI)kj9rVCtkZNXVgVU%`<`qOV`)50EeB^=E(aPp
z?*H6IWL+Zrf5n=00{vmXR?4&G3+UADdkjSb;yqv^lK+MG>p%a$_6vB<o3)xcM`iPb
zq1;yJbf>Y5EX@(~B;sR(lCa(kC|P6#F)J0otsw)p^v!++2h5WOCWsGH;&is+gDG?P
zh3*nYBWKW43Lny^*MKa2vt`)|7*#j2R(x5X<enz76;N*lj?@9cmGtV|;mwx#<Ojef
zUO08*AeG7czdvMDq$>73S#N2b_x}V~2(w_tiXYB}-z<*Lk?1tvhFOdDtRHTd9JK^M
z`xgfH4FpAF4OfYfbq0HzVl7mMYPA5Q4@vus5KYJL@J47fh(o@6>T#r1!ghz|4<Q~9
zA<{vpK?nkag9~011~Lo=5#14pX#26niXBVM`tU=nI3sXx=t9*2wg}vqie0D!hwwsd
zN`eTnY6W*vE#qNEya=OUbt{4;2L@0y7ULJwx{8AEcS;bD3#r<rTTw7<?a*g&DHPCD
zGmkLOp=2I)_7@}DNZIM@Lw5)&6U#toTBC<%D7hd?orp`|t0Nl<&FuY1oYTBRWax@f
zRPEHEkhhG;5#{cnyWj+$OiQX8_0dLA$vC>Rg$rWUrL6$0H?I*@*P`<h3MybTd|#qj
z6|~_(>b;gb4>Kk90saQiO4Xod?h&uN1k;=MSM4-5<y>_*@>(Z*>J(2{_Jnhu;T^Eu
z7%j{>C^Lf!Gc7YHj#$ouRZlUBhm}2S&T|A%JREs2lJj@xsBTF21WrfghEb*AqTFzC
zbp{N%_Rv3E`sF31ZBlNV%rlMa&AE<Ka?2@*p+Y#b9ipq-RC9qL>Kk&d>ep_foXIi0
zTT~d?HP_|->zmZ|Jkz@V{w8x|r>bUkDjx{0PJCW_V$G4SZCO7q*LJNr^F4z~&t<vi
za*heT@U!{4p<LZqE-(fu<dwP+xo#v^H<b%aLAt}XDeOs^J^7?+i#@wmo@Xi_QV*zn
zWmu^^E>|AUot*ltHy8Le#C|J$uN_37YAy5E!|MU1`MlhGe$#(GAE<x$?t^#N$Cb8o
za@)D56I*T5+kuPu`o^`19fn;$3sx({i3?3c-N{!h!Bpm%>WB0Ldfle5XJq!wQ~MTs
zew&%xbrAJ!FnOlxq4$CJ8N<G^Ld7nGy-yytxG%qMaru3V+iCB}F)jIqQ%b{Wx#9Ga
zxu-X`8ZNB4pR=LIT~BNqcjT_q|H6(wm|8o#mcjmZryS^naB}mo!k(4cvw8Mtp6x9-
zZ4HeDtD~m&wbfM_d=(^WI`Z|+x%%EbdrAXT*mq_2-EH=pJFO#1>$u!HuC!i}Td(Bn
zTh_0yPr_ce)jo1T=$bu}tG@BLeIuAVbv+llu~mKJ(cOG?*W;*M-IuHGf-v`EQVxV5
z_)zF3n$Hw^h(O0<a?2me2YQvjF*$HdkA<B1=Ci<+!UPHQDol|?ZKF~XmTSUrui&YB
zlvElA<i>%Ge!213rsr6`p*z=eI@fzT*D#8?l4(@vR+(<yqT6$>_Jh6zvdPf9>w_rG
zVZOu%KLiP`>kxn~J|ek9{&@n|_l97EBHmJFq4+OBsSZYTmr6#?&^YGvDcPRp?PmJv
zDgl4wSZ1z;9AXQMBBBdlEj~e)?#Do?gM4GaS$(5UWstZuq&J9D$?&02&~2{|B??fn
z+<lmYGtnk3uv5|xp%-{bZWI|i{n6>1rwzgj3f;L0afYfo93>l){X;qbSdJQl6oOuw
z9|iYCGCh`~r*;C>4=+EstON$+z`(`{W$>arcyTLm34~xpwZinvO#e1>7LEvn=KKhk
z;vbj&<2h;^M*0dy8qyfaG@1;~61nGIrNewPbQAooZ#{}8yP5MtE}{Dm6NUliwV02O
zB3))q5bp8zZV+kqdy2uPq7$4XOQh(=0jpVO&R+|asg)Utj~sAjH46i)V-%g;!;wEm
z#h*X|76aU0Yi0^!IP0Fkn0F6C(A5$;@}PS)ee2bkOjqfL$3otO8$f*c2oS+#DdMi4
zO}Z!Vul@t*&l(d3M1fn4jYecYDAcJOH3ca!n8Cs<C|g`qJgu9aR;0aaSnVnm3A-A_
z6Wa8I3?RhzP$PRnk2{sFGji9NZO<5V4-c%)Y*Sr3bU<TLm}T)nG7L*QM8iX+UELwF
z2=(0e7}h5V;VUD6WzhnaP7Z!w6H`ke67PeA=Aje3JSOl_(YRb#Za?hszXA3hB6l+&
z0djk26b{b;jevHSKDwk(tW2@bs1`W9R2yD5$eS?$o(WZ<3-Dw#!ABzSJ46J2xPV_E
zAWuai?`NWd-r|fzxKu0>5fMj<r%}S7<SI(QZ6t84RJ93l{7+tHQGmZ4AWWj#Zo;pL
zn%Rozqgl5$E*=Bh7S=D`LzPIzi65Z^MV)_5;2CNmSU;*oNh`dP7Z&*;@jKgS!Pakg
zuTSq1@F~oZ$Lu5PlLZ1k8@65aDI`g+eTv+vs4m!11~%T^yz9hSma>nN5Pe;n$kq05
z3_h{tYDeV2X_+1^*ijRL_3k=xw%%sHd>AZhLa@xP6K5%bw0A)4eNB2axt5iEZ3R23
z0gxj-kI(&bso=y#7tz`McyPnEarM)($D?w`aG?y>y9xJ^T@TKF&+4@Y9-k->@YzW3
zqECUXw^y#u7YO)lwC$qL>k*5+RU;K5P^e8r9-iuhzgJ=zQ3T67Jcs`hl|)Q>8)|hx
z)En-$w5u-st6y0A+Xe5e_VZs@`!!TV!7SB_FQAIrOZyR|8CRyoXi`E~Pw=x&B$JK{
zQW%RD^sgxX3q`HMa9Wf8?+7l4NZ`KBWteeesNJ4*e*I+_3hGND1?VwbzReiMm8Eu9
zmqs(QBo|c*J5XVbUaA#BfcO_85rwo=+L#GQOY|QqJ`He#CZujg1xa<JZZ7b#wD^|@
z)}fOVv+_eUGj!{s$yV2hcHl<EUqc;|0a6N*f|VpmFpSBne<e=6AlNU7mKQ|p3!?u8
zap46KenFi7qs2;EK$en|<QG=vb6fC*t?_dk^QA5Pdt2uhRB-JFzjXe6+2a#i)Zo2|
lonZaFck|xBy~!`i0&CyiDr>yw_@g6bBU}H2Kq;Qk{{a73TM+;N

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/backend_guidance.cpython-312.pyc b/v1/structured_output/__pycache__/backend_guidance.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4838867c2f40cc08cceee9067012d48839dae75
GIT binary patch
literal 11526
zcmb_CYit|GnY-kYTrO86C5qHrT0Lxwa!mQ5+G?!CQ6yQ8BTIIyq$!(rLvvRWWxlez
zvMnBksBI3F(*TwaZ7sJctO7lpg5+>Yi$jeAdI)fTa=1UDDTB;LxpUFpq5X4UD!13`
zulr_}yQC;4y&i5P&d$vD&0}Z2_w2va)G!33DD~|~Z#O~w5>@o%C>D1AlO%{cgg^*n
zln821GDzaODQJSHDQb>UL5f5$bJP;E2CXq$(1z<|ln&C+PDSl8CdlA6OVkl#gDfsv
zqct&S(22{os4M0Ux?{D$+E`t%4!6-!Ppm#zPZFY4s>O49gI@gf#TtT*7>A5D#pqx&
zNyLws2+=9nA#ZuNxO~C>u30Mvy%@^ufiecP5knn&pbi7t4DF2A`Y!ARO2IaP729V_
zLd_dgutRW)oY)CJ+l;9RpeY+c2(I#$8A@;iW|v5rh;c%weS;9{M7KV=zSdxO5$*wa
zy;!>s-eV{1gwQ5<#X7-PWzGiifY1m(m&na9Lem?T;6cD|7n(&@Xc4{hlX&raGJ(`q
zE08l*p%r@cE|UI^-yobxKdIV<kP-?<L$d5QsWsDIzBtB@oEsZ?{<+C<)jS+u1QbUk
z9#QycVs=)Ppz6FFiY23w`0T}y6pG2v!c2rxixY{E0C2O~a9NQS!pedq3R4S8azS}E
z6uv6Ph5dkW=pPG7`vFr)C6b7vp_^t!g_n&1`2-%3zbY=OOf)*X5D`N0u$ZbTl>>7#
zDR)^_Nl4*2mBO!CJY2j#6y%6-b{{}?hfoYynovv_1G0CEC21f{%v<!<(o;X!QR1sL
z1hGUaKp0v|lR7Dp#9J;3m@7?OBPEw$f+rzUf*Cy}t3agzHUym(@!y_x(E4b`Iy`Bj
zIG3qxF4Nw*&`5sEq*@;mgb3QnQ1qgdNQ#mY5oMK0mddrskfMlEyaYb$x2Q}+j>KgJ
z?JR6uB&?{`YoX`@^zGrVhoV>cc{vg1XA%-$nt(4Gm5N4W#c!6Juzb~myQ)+~5o0pi
zaE{~tc&T5BCHs?+<Pjw#!4V(1v2f~(gI7<9{n5yk{^X)Emx%XYi$-Jp*N*k?JO2JF
z8b$H?`3I7Vk`IQ)Sr-)K1<00(9b4^c&)d|ttu60uy7QIWU-{lwSH^bOqnqA`?5Tp8
z@O3|ObZ*pV97pnO<JxG3<+gfG-5<#GoOyKk=*s9;?V$&3Z^1$wc!mUQHt?7xnEKVx
zw|lnj9Us>>u8g9w>L0QvKQ$BHCO~1hU6`0q8MHDH?~`hkL|}$^*dQ=KFo^H3pz<e)
z&!-rqH*ZDb?@eh!KmH{$?p5qMbRNroy{0|OaTOrhVrv<(rpe31JLII_CV2p;nql`<
z3LUs=i2{quDiuy77gbsi#Uv`>J@=cWR)p;=y*Hn@GA|?c;W()o!8(CL!lEpHHsMGI
z0k0o^@{^D)6OXL~UANlzc6i&?wbRsgula8C`uS{A|4k=An%nQS-ECV>Wt)z#ICrSt
zjrMJ7Fz;yEqMD=@=pKfjk@Q{L9fYPkgh(L$2D*)Wg9w@hlL+i6S_De8f{e6)9JdKp
zkp}5+gR)(q0gG9*`x(_WUX(aRnO6N!e~%{tiDArND$E<QrK}B+Lq$pxyn*>=jHJJ4
z*=R6QQ9%;KpCXQVwya~Z2(u$bu1LB>g3%2rwMa-EfabTW4#c~BI1!(T%&JZM7+BUp
zJ|QB9u0%yX6kp`8&w-4PlOd2gZAQBx!O8_pnYicYW>n{ll!)<40<=sdB}%HjRAjCt
z!l5g?4DBi#jh2w!AyrBiqcbvM%OZu=@O&~MD?HYBe5$SDumgL*PeDKVRmhf!N31)?
zwr1GY9D6dup3JcqGVBGA2KJh5y1PIVHMM)e(;0TU2<`)s($<%29n7>2=2`cx$(xgF
zqxYunPVJgaZOjVwkk+VKWhL=7kiZJBEGFSqW;NBx%SkaTwZSUF#u-BeF+QsAehuDk
zk9Z-|pns~-AhcGY!gq^p{|_`&g)$WvtPv;0t(WHO^it_L?=6+}l0XV3od$LB_nuid
zsFuu1gN~U7P5T*i-KgV~p6^k{7*v{?N0Ou>={lbz($r;5&rVE?zxdqf@Z`uCKQT4V
zPmH}ZHldQoz<#lV*~CZ1Yhn~EBd}QbSV#%aiIQ|2MwO01=69;ivM5DDQJ_&nqw&Q9
zmYzU(M<7${3@pKbA_=bACnheGjjEa>aYZ#HWYs3duSFz~+-6X*CD~OpyYTF)16C8h
z%EO8hlHVc?py^Jc>=eq7U80hbjPwuaZC#YR!iiWi0&H7cWvZi+RVomkgZ}b&Aj3kv
z`zcVj_#gP@P=-AOl%Hb*88)zMw{!#5Z_^!*orI6edHor$A4A(RY#T0gXV~r?U(?%N
z_xkSk-3#0eZ28Z8;K??RWqoHK+bAEi!aQb)n$~<nXTGT|*VLD3>dQB@+<E=>>j17{
zR>%TN*qK{3H*4N<<z4O-8mkMHjfHOT@r4*Ki?7LHL-xX&5f5N)dI<{U+*Fm1z|O12
zN!1j$PQRCna+6Za3|A0U$Z++AqEQfGil~V${z^oNh2*Pc^kdQv?HnwwT;EF1LqqCd
z<-t@R?h5LRv@h69u8y4RWX5$8nM6Ig=EIrh!@1^@ndXxqlH5#zFxeSR!Im2|&{f+b
zv{`q+{=}N#9YQ(*^>P_&6F`VbiN#by<;seHS=0g1+cJ@-Sv=FE-=Wex9}mSuo>v*3
zk0pc!pgvw@dH%J9P*j6RUw~ec17#e_kQ9{0QT7bV(0)kBL6R<@3~@F#Or%~^LfL8f
z$!L%_h~H9-g();PSZedFCkkft965`hkL=v81?q+4W(%`<VwZr&E<;*sv=PxbVfYzI
zmwUV5KbM&vFA}18o;I+I0+=D#8vtk(T?|kY;z`j4B{M1sRFD?!P_q<k46a#m%@%ZE
zOd8khV8*ZlBi0BG(J9)HBMVNh9ZVkN<hu5>7UAI5IsxVehtnpof*b0!P_G5&wr(EL
zOGOeqMLere4|w%>e3RgXvRClI{JurEzd;&>ZdkUI$oQ;UlaxSkiGn7JR0jN#SR@XV
zFGz?RK?5eDQDph^(a>yl!%MTKfdMO)g{tytXfJ2$BF^WzbxUNLl-iN&#v3Cl`hgPj
zhNW!)Ayxv8UvU<)=+gPklhY}WA*4AhYoFu}$RKYoLsw18+L5P=L8?{rwN=~okQ4_;
z8?0+2msK->_ptaFw5D2gMk>nnK$%2W06`vx44BE~$+<coxH|K7zB~Q5`*U@NGj)fv
zbw^f4K62IN5BOK9ZFkp>+jqx#+qu;-uo-^neiD2iw+Cfin7UO)w?ZO<YQ<KTyx;mj
zvJ%V7K1}h|kE7aAq)p%vBTpL%k%}~Lc-AF=u8Ae^imUOGY{N%qI8Vs;=8duc5A%?V
z$a*qHD6M4PaHUFZX~QdDLKcW&>y$9`^@Am021~-6+8hpt#iSy0Ar86FTw;dPHkk{>
z1ui69LoT_@DRUy13`t-Q1Q-UZWyoH@UZ%`VOA8_wfsO_ecRd6nYMlj6UVu4dd1fIR
zT@38&eKr)8E4$BxK-CMd5`B<Tx8EQgFzu%?AFFmTA!}+%BWZ{uK<p-wOaco}1ETaI
zWU3R~0(k*Md69k)5&J1kiG2lOy@Il{kjZGL(fer*WK9U~PO)FfJlE-d5BM)o|Lc$~
z69p#$_JyN0<7mw}4rUw&Hy}F-{BY~_o3H0w{*24N?K-?U`m?E@OyzqHAU^2Kw|A|K
zzBTp8;ktF^=9!%1K*n)k+i@uGX(-fzJ%4NJ=2VXD%dmYLC$sGF74i|y=IF)@-MCFR
zKQfGpJ!XW#7XJXNDmNoap(2623i?Ab%@UUhAelc?T77Q6D(q95cL|Yo6=_yRpkQvN
zP0g?_Ak%*wK{lhTQ&}acN+PEn1rW`Z#d1Q7#5u687DS-p5)FMR5{+{4grZYdS%)g*
zjmcUPXCgN$Swxu&!5E)8d1*qdP9`DFWsZt*O%1&YN20nQQU&ou-PDpLOqphlG7(X#
z46+Y3veiRbnh7BSv}6S91X(fO9YB)51Q{5?EWx@~u6_ITTIT~tOWxyMc`m<?)S&SZ
zgsu47e9k+N@eXXhl=Tj+FndYOyLxpswdLyCqBRjM&A<ecdk7D45theqL*WjQCV|XG
zfy~C?(4nO=%_H23l>Q8>HU&18?tMY19?4guH<rBy3I8bq!!b+qBt9F6L23eo)>S^1
z9GVQlhf=h8(Yx+Zh;z`8YOGX<`Y0O+9SIiDh7Ru<`R3Ee<;JYslVN+-gPT3M<0BdP
zKQOY*j^^9DkqpRlohzf;MehT7`48Flf}LQSHI-;9TIAq%2{-n5;TD()?>ky%Im1_D
zY}g-kP8A9E-K6`Ype2aU(}Kv{(BdzYbRNc08)ksB__%ljf(9ryV)zco8r(zN5!8Ta
zVGmWSEFPfveyP^VZ7qlX9qN1#GVI{ln{xEg3=Of-pLM+7@xh@FPi)guV9jeH@*%Bl
z-5whbDH6O{C{_qWT9q_)M~T!(q0+ag0ew@l8uu%RJ>b7bD@G<ZHjR)f*rMC<k?vU+
zB4E5OEpk|WUDa5oBs=wEF=<3?kwjTkDjg%~HJB*nt=wabdmk+o#YG_0M6<VCH(fcp
zEkn0Gq&x6}!J?i5sB{r!mr#bx5$OzMs*8u%8c5d=zEJ^}$uTi8tw+i<#|YV=Ds?51
zh?cZ8CJ)VxYCvOMK^c;A5@IpcqB*D5X)!J*Bq@df36!C?sPwN!Q5(vx!cYD=WPeFK
zayRGPJsEdTmg>pZwdU%2Gj+XLsyFZUd~+(_+_8LNbs$T1<QrO-&#zKhsx{x(v^=re
zou!(7OIa+Z3(jUs?S{EPz+-dze)s!d#>Ec?c2P@V&}Hdf7dB4(C{iGxxH)>?^Zs+Y
zs95N-SUT2E6bN{105&`dPRi1<KK3^gKbj~IP~4R9<G!+sY6X_GbgV%c9=lePg~MB}
zxiF<bi4mp=Q}BLzazFtS&nD#GGJVVZEeBk*lE^C8Qt76ttj!pq?6T2Rg3nMZ<`okJ
zr_FD$OK^Ks=8(|(xTPmHC}<PJs!Hk}85d=}K!#T)+^a`1JkV+p;Q89hUdS62EH_Oo
z5h35R>TXcQY*pfWcs5F~Em>B{cwo=k>i5r4#HKNJ!yatkXJXqi_TKld68*zt|FeQ(
z130D2&PsnD$)})zD^Bz6da3j*?emf~4({NRHEk6b<ZUn6W{D*lY7SI`dpuAKOZK!~
zU{U=|htjE!vf`K_!7HcJwoyVCB!Y1pxx}QI<yxg%#}=G79Y25z>9p+!#1AQ5AAf^P
z)AI*(oYJ#&?NiNzPc!;@FwNKnH(HxMCctV@{k=LpGOR=3mUE6G(zNU-TbD<NeuFHd
zC8Q=Q(!9T-0jg<Q?|qq2`gHjG5xrD;3iUcBNtDg*O%p#L1>X<NIuur6_-XTjQh&Xa
zw!qmHEfz3z8z!|NC=Rb9{iG+P*gf#uMT-5qraQz<QgW1E-0Bl9m0cxQQ}5N(Il2xm
zvXBwrMppNv>M322@H0{IMg%TS;2HyN;$}h%QAGwP3T<tf@NX=}XL)=<f^ThQhz`U;
za5;Mlp`y*iA!beSFE4AJmJ40B;JZ2vJ$1r}J@1Q92Zm65GAchEsOa=hFgA`o{9&2+
z)Jm}aotB~duVh=!uT1Q?nsTo0jH^568p^naAkz5AePHYG@YbQ>g4yJAqKLy&Ae&LR
z(NYXIrt1Ep3*CKmJ;`;!)uI?yx|XCxwEh%iDrnVN@rG(EzOiZz&m|&ZQKc0rf<9b;
zdvD_!N>(jb#M#LHD_LYv?4E_}yX5l(iOrC&f|OW-1DP);0Kh=0#OX5mmN!j)kGw+y
zA2d^7iT$nlI;mM>@O=c_rAvx@J)+FPEr2O-R3#PZn=nAp+$!$6eP~t$Yb_}~ojUTr
z*>3~=*Jvno^Y({d6R_D^t>@mM*N<(E<pxGG1EU{YdN?rt_N8~||CW({_@=Lu{JyP|
zOwrTY&Ty#)?0(H879hv~E}Fh$oNCpM9|BKt!B45SA_T8pdL0In-h?c5WHQ0&n;VL9
zN@!N*N~1v>qIf7Ax~&SNo_<O5v*5!7PM%9FL<MdxbPb%ws3eAjMJ^EzFG%q9NPxQ-
z6+;k?07Da?aV{du3t}MErw<pA@xmcWf;}w=Z6uQk2?B;3A{05m^{S-b->8`}NRvp2
zb8&=NrOscTnp7Pq=ck@MKQ=O5;u|RqXsYFfvGK8&RonOr!xt_Lzo1%2&P_cxG6vtj
zOuz8r$n=XZ3{UXW!{hjxTtbpt>O$QpWN@ntyyJp6hHh0<YX~AB@coPZGX9QbIy4Kx
z&4hk;BE5_!(;|Pyy&hs%KU;PaV;C6H62dnrN!0?@ZfI8eI-V76x=O<BJUSzdxRCbd
zxL03=018UaXs+s0&?=$q=kSyN1IYT15F%kA+>LHkMt|)2ad^G)?qtT-S1?24uk7sa
zEjSiV(DmC5fn39hOv8x>wi6$@+Sk%q*ArXx6M4ILyXk1IX(-b)^uRu}kGr|g<!%(7
zY20o(o@*J*v<yCQ4CZSa-+VS-)3n_-kZT*tv<*F|8Oql-m)cHe+D<>HIi0U<Dz%Md
z+D0DKjKJJ$PrPT|c0IAv*m{q-%d8J&8;{<$JZkJ&wdA`FZ7`Xx6D#NP{l`{D^WNsQ
zp>1#PDw%I<U%P%cxN6yHXvre(f$YPcY{S$l1reXsp`GTQd~?_O7uFAL`Jefq@dIY7
z@p-rnY4O2rh}T!J61Cntj@yo%`u1FXZ>GLC&-LWnJJxM?=Re~5H_6T3_Z?YoDBs$)
zCf+^w*lzLqerLAT))icY&;MyVQQx@Z<F-04W__2o+?RGdZ8^`OjOS3!b3EfYzB!Qf
z3~sT5zhdidP28NwyDvUAn`+P(5T3St9Z1xzp@|QNx7?GkAdeFkgkfM_yAEbt2iK*I
zp{#3giyqXxRhL}+c#DSsB7D6i9R(_=9xZqeAmv^wxIRVQ2mmALs_qqlEt%ln6|opj
zaMNtowdoR7W^Y!pQs<GST#>NFTAXpolD0_BlJ<t!f(2|HBf|O(625pcO{QGq+P%0Q
zV~4L;5EsDRY2_zmGUkC2&#P`DT2mA+(s!Vz-zwdM2i_*>`)DZhtQ3R$_u_XTz{N2s
z2<@^JGR$YiXk}Aryb><{-c9;zKs5p5$>>56JIt=$4Og!Be5Ut&*7^L`$Csa7G4FVe
zY+Tvw&U#KRPwX)DIi@|swC9-q4AZ~K-j8INbIT(i*_a(?<Jy^x6B`G%nvQ0j$F}HW
z@MQt*(ELKv*|VAs@=M5A)TGoflvIcD*`Fv&X4GN@nF)6d67oJYIk|ul(U%+n?LtCA
z@2J+}mP$H8@kO-(gBFxXR1QR9NEY+BBB3K!4`JxFV}X5#5zs&A!g5<ekx1?K4v~f0
z`Pu!7*Ae)T@mZ>6pN7DffU0S3MnaZe`ORtoJFi-d#5NmETmkDvbD*&(wrbXe_CXnk
zmV#9WHm!P5brfX^%CIbzQ3)Msh2N{vL)ty%)6!1>3g=D8QOFBsk|cL&f@D7?93K<*
zPl(QcBM$tMVE>)y{)FiNgb4hXi6Tv(5|I6lA;@#&FU;<bDeotg|6i&8U(~j&O}umH
zUH|4Q+1h89&wo_kzV`b2wx8PXpUKugzkK1NhR&_7f%j*B8rd4YoNbuiqUwKPuU~yR
zYj0n+7OV_;YUA220gpnnooohodsSFFv2I=)yd4K`ykLgLM;7}^_lmsI`}MEwTA*HN
zButLSrYFdnE#Hw{0-n2OXepqU0(@bDfRiN2VJIpT!Khf6GZ8)hd|&^k_Gd}*i}^Z#
z!Hf!z>bz^z+U51`wU_TYGj#_G7Ssxow5_vX!$q3t=`G++1%|NNcOAHO!bDsmUnD;@
m+sNa2Z+8Jdk3N|@dNy<P?1%N4qww7gfZ!D#Ti}V=;C}!!ZWcxW

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/backend_lm_format_enforcer.cpython-312.pyc b/v1/structured_output/__pycache__/backend_lm_format_enforcer.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..68362e751851c4a3d5bdf1783177e23452f46a44
GIT binary patch
literal 8551
zcmb7JYit`=cD}<IzK1V~dQcCGaV*)i6UvcgJ9Zo=u`GG**pg#8FYcxTiZhZa4@u?D
zP__ta*BfM8Z8tz1pnx1K7SUoCsDtE(gZ^=URjL0hP@o_!r<5lO*2T6c@~cc_^s!r@
zJ!c*iB~d|oLEd}ko_o*S$9a6`&Oi8k9s)_`ev$r7J0X9-2P-+v%K9mWkVPUAk&#Kl
zD47HU&o<eXVH0eIOK=Rfv$8$oNI3L5Cp$B)giEh8vOD1hx?T2Uya}(~=8*Y}FX7Yc
zPT8LcBm#QfB?mL1L@3jgXv#Dvni(Rws9%3~I1$#%mP~8P#*j=~qMaexT{a>GL^tG-
zPs|C6?oU{wnh5Ju&nBv;Ms1fIqF3^YywoB3ME|5i47|%(ToRoUYa?ff7<`wAA*sn4
zRik&A^d_J;OQCJ_ZZRzRCT(KNyIf+|920B(8YeXxvuSQIsU}l$Qc*PfWLlEN7^Asm
znio>Z)D;OHe3#$6I4lhPV0h@|v!iFAq3t4-F4JT>D~XqLSEX#aAkkAv1^fEPlbIPg
zot?Uvq{)l|EuQnq!rb{>Qj}<n)!N2Ynop^DDv4uxbtbQ#N~VB=xSenY#%GdrJ7H`_
zP3N+T7L+rSIhskTQWnaTL<_sOw#3s}RhptneL#FxmNS}LwPvh&W^<|JgrLCmH3yYo
zQrW^DU?B<EGp;Xf*yLSX=V{z5n|Zca*x`={ygmTgB2hs+jWk`~%WNxx*cO>jZPxLO
zlNdXC84kglS0rH~t!9$SRT_ZacrdlOX!|DeX<5|gCFlzftVJ7-cme{RW6VbVFj{A!
z-~^)4KmM>^&CK-Aq-UO1lXOZ_pT3?ydhFS&N2Pu_J<&fir(Vfr`*F$rv(NM^wet~j
z`T_M%7$+pi8Nt}^+PmX3bJ{^eOhn=P&XBg^tl+Qgg6sx)>>_+i#ru5O`~0dabW6SC
zdCb~)N0r#@j&<lkQkYrEVOG}v5h{yBBB=Ta+p9!kr(IU3jZ(6U%n5h|m2*f=*mv`E
z5-!Opxg$V<9xV0{Imsj1tya+?c|if4pe+2RR&&%OC%S;<6Wx+qbch~!_QJCtls7OP
z1$JAK=rj8{L_hQk>HKY|;E5(w=|uCKCl=D$&R-bOMcNWOO9}j&4;|DhAWD<TysQe7
z$&{L-b6QI(PpOnu4S`UE87fVtuWKGEy`7g7RY;4PL+7H<Aj~dh8YO+A9OSwT{|{8^
zWw=NhNwKwy^K8*}n!GhZ$UFx<k;|4eZJF)5_V4C7?XK%;R*RhVMkUmEbdeRw&uq^V
zhRiXIdrW)3i!Vdo6FD+x18p3+9CK)_EM;jIjG!HmX-%LtLQ<A<*Cf&0UoDtcOjR@q
znj<+g1Ewry*EmIzCuuj1M<Lhv98FK9vq@P1zM9=Q1~eQ|Otc02_>!rVG-DlKp?3#S
zh;Ql^hmp!P$Zn9ewvJnamCnQE&ciEhM;7=mTRInpSDV`^&3)zOzDo14a`Um(V7L<8
zUk>hHXKi8szxj8S{kv}ESNy$IyDi*Tb&-}xB^)n@<F|_+&zHi_KWyt-<%1Qzugv#V
z_@~SK)3>EB_`zy`w02d4Bp9Y`@b1Ru@OMC|7bUeOa7D&CPOAhV8U`V<6+xMcwhjV<
z#T0F*p8rq5YG4A2YytRKZ~AUApv-&2;Kf;v6q#}O8?zZFA2XvM6n2`-PDwNh>~yi9
zPhd@#lHE{?+36l^&`;cFs2`s9lzK&TSlXDCu3JaE<@^J)NjVKBTrvf$uy-d3*wXPh
zyi}Qm3}m2t_iqm^&Hm=Of9mdExUkyNd2966Tcwr*3nQzMo+V#75??sClStfttsFd5
zFBgRs|Nd`4E)IO-AfeW(kL)@KXCCfYxbP^@ax;5#z7*&!xq5XG&^+0E#+>-*CV9Y9
z*G&tG>LLN<gmP<weP+C*1E@lcG)HI*9zJID9R|OqZ*D&{nSRYs8yC&VGP<Zjbf^8Y
zdYr+rC{#DdYHzI4`$D<*g=Kzu|8i%k_re1Ag=@F57N_ZlHSa`HO<fVvSy8&a$zIkL
zB?Gse7ByWHc<5v%SUzXfH%d!5LG0OS%foGuVRMQ$^ik%P#JDZur};PACg`AV)*%=}
z2QfPWnSyWLus8f<T9z%yQP{K7=GFH)hg^^;Y+$6j5_zf|d8!h5p&WUkW+gy?Iy?*h
zs)I!1m7Wvjo)Zhso8J4bF2hpPz!5O1ZQ`H9L%pSFY{0Ee5}B)~3AxVDJ_e<!0mu?{
z%h7nN8*T5^ePCw*mg!)OBEzr$7ZU7Z6zX+ufR}QX%}<M_L~6W&90kxy@Uu9&X3^0@
zNHhb6UzNn2E&8Tz7lDCt7BWCa4&n>m<P3|w!XLPuEc5-}62>>q)C~FUfpRc@XHR8d
zxI8di8Msu2U+_}ZPTVbE&VyYgSLgPf$4Tls*#wnEGSx`$=rceA<=X>=g2!gMDLa)E
zNiB5mBriJo4IG5A9BSI$4b_T;HJ2b{lNm`6G>;%;a$;V_Ixh%s=aaHQp*|Q1Q3nEb
z3kYceK}cq^In}`Of<QU!#K~y@tZ0HY7O=j?!jr~L<Z?3I3yl<w4n<&&PM4;@5MP$E
zN{-T_NI;#UFF^J&(KkuAC=@M(o}u|smLU5Xc@*AL2@jOR11sFX!@W=4z5HPBsS+2t
zHMqoncx;6`RpmVP@NKqApty7S?vtOrsaKZ=*RiGA?zQ(ViMJ2^I$b4Dy>t3*^Jiz*
zv0Ck5?4!)mp(?@hHuT4`>fr3pFAe|o`Cp%}5~$u)^kP|E$EPaquy@^pIuz?c#=g&(
zJkC1>|5~yv$vVo^238gsz?-aSlQ@wD^vg*OK)QB7qE0}iE_ilNhig1)6+pO%hP{A$
zNrInq$2{B7su|0r>a`q?Ntd-zeG(htQDfb0thJw*S`PjJdFg4x7-B%N5%p*WR<1=v
z^dyk$CD<njGdTpr*|aJM+tt!sMSN4YKSL%cXW(Raje@y*fAr_0w@!aF_Td<qydDqA
zxS?ri5Ddhv&do>~58)@qv4S!qrM4q)1T6aYRAGtWNf;FxjMT`qp{b$=RD=$CYGlre
zwJ2wvRcmN^TEAMc#u;UiwT$XKmtEfUZhmu5eA3_D`rRDG8qflci<>z5zXwMQOtz%D
z)o|JDCXQ&mwj_Oy=T!vMdYVSr*pliv+Ur&W7fxGK(SDk|??~CE0OGy{NO#^**B=9e
zEve|R_VWYVdl3#s&DUCBKLRR71bV_-fL}7A?N_xEcn9MagpONMqiFJ{(eK}PdiNHF
z@R(&pcHUWZiY&TP>aCksEz)|2saxxw?L1%xeGOW<Pwken&bw5!pn590teqK$U19W{
zxkh4+(Zb-_td3`+rq)DJYoc(`0B|m91jA9w2}I4Sh<zFp)BSYe<j$R<Vop+`;4z{~
zer6^|p#%-g%ius}rKk~tfe#;p`2jpnQU&g(S}4lB#+@4<8`ZdJB?rNp3|Ci*;gW*q
zpk*8`#WG2_-hu&|7kdh0r_K!zUDoWEhR+PYp?NP!Q_^*_gJb9iV`qnkH8!cJ8ZV~-
z4?q+s!ICxat68|mGW+r4Dm8A+kgex61QWxQ=HL~0Gb5yO*~#>j)>O9!tF0BGcYV7V
z<qyG9^yL}O%xz%8SFrUGuF{QT1Tmdbwbs-XxUNgV<RD;~m1M!#56zjnl1rx~MROPx
ztvQptE?9Wl#QQoJRnX8NxYUyY%>$`iW+n~(-86yQBO1%pZt0i;Udj)_i`*apV)*t4
zodcE5qvg({_q|8g+PgmTeCSy^vC@8U;p|%P;Y#mFxp!oFZl(8?GQWG(7kSV<Sm}PT
z-2LKx--{b`b*1-w9sPK@`}lp|ah?8Bx%Z{zr&fB$>gdmvyPv!7dv2{YQfcigxArX+
zS6T-b&eZxp96rAiyzu$!caJ;>Jy8k8%c1z~*)KvzmR~OiFMvnr^8+)u+G_4zZ5mlF
zmPTGHz4m%3_y&-g{cyMC^H)6(KUV@h<v>p*Fi;K*lmaKKEb)aZd{>$8s_^}Q_A30y
zeSYLosHy5C?yf3N_@1TEeedqIrmofC#SLcgrjGrU$kB4-=xS$Ar88dcjITDw9@|+&
z<3J7WUHb7#;7G}J<iEc?KtiL8g6QBL-!**5rSW*Gx)e!oE1RM>yuQ)h)2C3W$LNim
z6ND)Z!yA#o2wb!kz{SB0G+XE5EQkVhE7egOMDvZ}ck2%PQ|=Sa-~veAKKgYJJbWF6
zj2?pwE>!KJ?vgz->8y~EGH`1abI`Lu)40jJEbEu1njLWDp#hCc<;A4N12#|2Cew0q
zLYAx;6obA^K))5kuT(8`uLV`{tsvQw_s0DfkS}U2V2nWc{ld=+Ak7BGxIIzsI(X+2
zs6dH-c9r+9HMK1s_~5`=Ti0UYgF>Y(UT%x8v>klxwg){`Vt0GCgMQ#^93}42q7_Th
zm*Hs}L~@F7V@Pvzg`S;OV0O3(qZLFW0Q6nF{?gHykG_aZU&8DZW*0F-%Stf>r+5=b
zuVOZW86E(|(2~w#b{#W)R(Q8$K=KP%!|X@!SCH|$<Xeuld#au%?MGL;4pmt!heq`B
zkvqC>hv(`!#$or|0c;J$-NS!(;%`qNX7(Uv_8FKNdFs|5zEy03t+*y#@c#qM&`uHl
z4Q38QQ0TffVK~`HMJSG78r=cVAE~HpdTQK5t*L|MVd)cYQilZ_A-sm~vV1YzmXb{z
zg4PT+%Eoi4=Kwt##0%z18{jX%8~A}kPhuVZnIlgU)l^_YrcqwDq&<X&=52MOYZr+{
z+dDQ9E)aigyT)82*V#A8H3qoV5F(5WZyISU+I~rXRYS^+#>cqP!jl#{K|dcg{g@6U
z(vxY>cyQqH!ZW&~j)LP(!xdfu+;|kU$Nb6_HNK)KQA87pjvbCi3$Hf7Ee*z)cxOA5
zX*d%l#sfg8z1jSJ17Gzh0uuT<?55^PE9tDFCbRIpOjkw>)wKXF@3fT4i3aGP6WD4O
z^O+e%a}Qs~i)mOYO=Gjue0hwebNK95a)=i|gEU4`P-y@I7zp674(-q|Zkv{1MM>K~
zE75m>$6vu;`FF^`vN(MeXSD2$mYn-mUH(VG)=Dr|4#sYredG-O#ZTV(2{f*{o8I5`
zm%G-yEjQDP*$=Y6O+E1Lui7}@81pZ|@S^7f&#hx0o&50RgW&#Zn79K~pWPQ(+e+~O
z1vpjQk^An5!L{P<xbN;*^S4)RjPJ-g%Lc%}vThH!YES2XJ&urYd!>1Axp^;M%#1N>
zt<lmGBP*?Ee)mc#IQpk5i;aJJ>>=UqZwU*pY>lo0ky%zs;g`XGw>3R#YlqwSPz3q{
z{g28)So7!po>PP5^ZuTpPV)DI%|q?%JtsfZ%-(CZW4+To^elUCPhjW}d+(4P>aiY*
z0jhDt-rDzENuhWg##M=XGM|MnMLAiaXx!jq&>Z-|DT*%GaDu!F7u*Vd<CCaD(Hd!C
z{Y$7~e$zFNnW7=m+H_K0P0LC=ok4&t=noW;pte`1&OQ_0cJOgis0H-J3Pq!3cm&-+
z=vP1A=Q}Q6|7lm_@O88q-|U={a}!BerS4qxy8-=1NB1EpSzDZo<~m_qL!G2IfePlH
zC=VcmqhpwL2VuNl67TQHzOP8nS0wre!hb~${wwMKip2lZ#xb^U2xdItLSJ&7zvqsZ
zx#R!b_C#s-;Ac~RlP<k9zS4HN#DyOQJ62s!J#+<r;f8YE$%Py@&Q|@z=B?W7jAJ#>
zS7osrJgS$E><7NJ!}B_8^?;jqoA<G;pV?R1b$FdXY0{up6&am4$oO<3lqL~s)hyG^
Nc$VXj2^6~1`#&6%!(IRY

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/backend_outlines.cpython-312.pyc b/v1/structured_output/__pycache__/backend_outlines.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d393c0c46c42481e3f78b2fa310c27e6ab02cc74
GIT binary patch
literal 14526
zcmb_@Yfv0ldT2kU=M6J3!wfG$gB~zQ40_qfk|i%lAj^`$7LwM+tIQ75jTkf!e0q=s
zHN>pfsi2KghQzzztT)DaEm|vCZIY_BlTF1=%Bii~KMbH9)Mj&)*thDsZrv(uw3W@~
zR^9u3r>Ez|Xzy;_dnityK9BF5{?2#4=b8UfR%T@&MGU_a{<NK8KEW3~8MOktrLqh&
z&q$2KMwlo&$g)`GBHSQHpZp+CpN2sLeF}pDJo$(*Y8o^}&4Xsz-w?4xt%KIgSlgft
z`Unwwv}~}P))^y?sB_Rs%ce+0v~sYLmdz1Y)II2qRt;7~J%b)vXNh>D)q~a1n!%cA
z?O-j-$X0^zxJcb#J$>$oHVihfOss)p<Vwj3dE>j8?~-iq@>+4Qp0?TxTFbJn4YDx$
zrOcqbhg5#`D-1*S!YF>UJFg*AlpOB@zAz0o%gv*`S~))-+y(W|<kx8B!96iEUHzWH
zJ@mN?dYU-qG$T1*W26e%t*=f0mcf=xdnL5H<f?7$tx~n*e$6oGlWL?Yc(zHkk_Vo9
zr8>zA&wUe|ul_Tf-p8u8U@R6-1QX$SOzHD+sznMWf}u!IQB+|#EJq~hQ+DCS=XwGs
zpYAz%_DtVts4&V(C^#lVseB+99gBoxSDp)!U{rw`>$%|M#JPA-l8KL3y#om{9!iW8
zS?V88jEyI{gQ2T(OxoUX8pcP1WP3yZ7+o9ys{{}*m#kchhk`@nksz5+E3e3jKs-|)
z2n9nUvg$3UyO!(B#Y1XYu5+Bos%=z>#{voriv}la3fla6O+M~3B%sf1kf|JzLx?^-
zaaw`hdKwDzjLZzO5(5W?eT^C9ElloDGD#e4fFW07VI;G}L!BU5Bm+E+k^rMj6Gop^
zb?D!lL0Tw7V{|%P4*auQm*}L4Y+I5U%`Axa%VauzCYeCCHDS_w=(Gi`2EA^Axy|<Z
z1mb`S)sl$AwuL8UqFQqZCFR&AP^{l(Rf8f&h80|h_>1Q|649}avG7=XB1m9A+HZ_^
zK5^t~r`!<<4|R-9Bu3(~j%$%fwBy==4kb$@xRpR99YY$KWOvp-HldaU0%LI{5eUb^
zi9ld-M-g`X1<i+H6-qs1)67QgfxEkY=>LI#wYF=<aLch#)v{XUn=$;Zbqm^=5MokK
z`1KU4A3$NANpholOWyO_z!j71x0&zoQ+$#yjqhs=ag=UJ@-+Z!fJq2C$k7bf)!*@%
zWMOV|evMXsH?w<FhNR(9@Snu-h5^RM^{H&YC#XVTB&duKL<ey~rV3|bl6*rI!m$_}
zQ-L&KrJcxE<QoCl3^>oE4y!D5YXev13G53)6kN23i8Nw|@<1pa9ScWf*cE7=Y}mFb
z1?@**j1qusn%Oim)y-*dOUm1_>}g$Mm-a0+EW3})Sk`Us1;g9cH?1jK^SaABe{}BX
zLOA7WUADJ=>a3hM&zTqM7bnv#ovD`2Rp*fzVO`ukV|d+q(>nV^%Dm%&!#!gsO)y8n
z#v-ZHjeP+S2ph{Lph8Qfj?2|nK$YkJvPGPJsHXVXQ~|^i8%H7XNe=p6Dd<auvA!1V
zN&EIB%JkY%JZD8InVTI*;S}?_5aO;dA?`Aani3KfdiSKDuX2vN<uEW)hABZ}C2rKE
z_sBhy2EFejR7yPNuwF-^O79~Xfbdy~{|>MBe3b<<^y=-oCp{R|xp%#kC14|rtJQ0B
z&rzh(qVzTKSMNKDv|N;8tRzgC5=ay@0kmeloO>pA>*disdMWoz8k43wMt${nOnPYm
zaL&U2lyIH#nc={-s%%naeUp37#I6M+VM!$N%j2?=5EBz)vN#+kqJBoi43`sI37%>Y
zp7v<)Mu5a45o`fztnu1_0*qG`u8fBz+2<y9=&Kr@8R+jLm00u+jfW#rKs&v|Bp%I(
zGgUa>bGqjR)p+vh{xc_gR6eLARC^?xkV!BSkYRE9k=MkzY8Z`&W2*I1FfuOp5E3V(
z4d82>z=pgU4ts1kd_}EP#^eyl-$eMDtk-#B<1levJ(U<rPKad$JlT&hH7<0TevvuL
zekh&-h$q#4Mbif;NL8R8r<y_|@o-31R5nC>`01{Ed<C=_6+C>DMP<2^LuW!6pp%XI
z7Gxx=zo^400HIWYB%^%FUcFX#FkRP~s_R^_b#AyD)9%icyYoH!s=McA&w5$S+K$8N
z9Y<3;j;@p)U3ZJQx?`yw$5zUYZFp+Zo;@kgp2g&<=kUzw`};drJx6|ES~~DXa<S{1
zuiQ1woL=@ES$BIEcD~*EX6s_-YVF>Xd+$;x<vwt;=hMpi^~&S#MV600`{U=Ao&8%p
z=PKW1xUzC!q7_wX=gyRK=VH&&;qO0n`>9puu^9pCo$j=wG397XI}WBC2bUcuHhHG3
zB5kiv+3VBxj+DJ4ZSP&N_dcko+%z$k`iEA=*|_eln}22Qm5oaGeCu56!eh%F-D{O6
z9}2wFy2<bs>wkPv!+4)iP+onwukuujA(RnEP{A-+9(xB~=9!#IQi{WZfMZ5c+!iH?
zrM!om1jxgj#OLwp5@Is1wFJ){MRlzx>8j2h!@HT;K~M^PpP@MWOvLPeLxQs>NR$w*
zW8qjJDo5jF!e>;4M4W_1RKxIiBtj_}<znK{LDdi%mx8K2tOSDBg5gMTC?fl~3}GXY
z($gWotSE>uU3z+gkqBs~30WiEz)(054JubB_Y{+7>3+Wfpp=u4fsW&Fzdm_$5@>PZ
z)Z6`U_Ad>k>i6G04-~s>KeBEw->CG?@15Jb;jN#aoSRI0{VA`1)w}<pMZldEELKfo
zqVATTsKi7x%`+1WLA~WRLw3MJ)ABSOz$5{8Bk_qzZ}GA-4Z}D96^ChN-K@#xKA(}a
zK#j`7P|9HlN;}m^WH1(DljeBHPjwXN_a$hcOpkP7>C2eCfEn(t&p^(@L*-!`XzefT
zbc_5K<d_mCKC@~L1Y*Ic90;h^Kp+~I#z9#LsP;hM<?&!dYat?nqs*=sO9PmpUQI4y
zhH`^`DnU6%vx87j&O-JY^M!#E+BVHrp=!Opag)bq`&0D!z*4a#!24!(wP0PZKeWl?
z^JFi5KCp;e0=#b>HbUlPg)(g(oFWAO*_5Grc54Z$a@NH~P(o#1;!xQGv(zB*K+&1~
z18YKnHe<HU1g0X7e|O9})q|yh<1N`fv>kd_vpr0b4SLwIhvb&Zz&bHYRZ=-TEs{ra
zz|$&u!Av!PVP7p(z|$^)Q94*Q;qujx6EKXth#7MHUXX4E)I#ajQpQgXKz+fd!n>xV
zWk`+%4VH>VZ669ZLp47c2}Xyc;EBm<o$xX;#;>=;0ic4wrkO>S;@4+T9g;j89FHUd
z!@&^H%7khl@)#kgmZ}CcE>t(3)-e(XQKQIGMy|j}pmaKtNYIzy(leum;_(RR!ed0f
z78nK)%7`o#sGqn7dYHZk1yDbkQFs=oQRq>ea%vtqlH^V?mx1!Y>L@)vYf<E&B(sVd
z3$xx}OW7L0a^diWxIlLPTZawI1UJF^43ppO3WemcgdzsTNEo!3_^_zSSuq%s#GrI7
z7y~qki4j@s9eCDnwd$hxJUz*Zc!7+|Vi-ngJ;dulfTazSL}eVHD+;pH3IDdCy}^i5
zFm@PNt1Q6+bO^aIpCRpE=mma&WTln|wPj~EPc>zxBr>!@Cu;FnGpbo2EUCtfzQQIb
z!QfYD?5#|LlmV18J9SzsXubx}DPI7^!Oqy7uOGd6G;Q0Jvh7;Dv}W7)Nmbn}yY6()
zTj#84XLHKgym(;Exf^QIPTz{txAc6<>Hmq-w<$25dJy97>UD>k(rtmD#eIT*b_?n7
z*P<p?XAv1{K)NhSNp=!=5Ku!_v}ahqkI$f1S5U!J1lgrwG$ZS*cycm&SiYn)>tnW`
zRlVgkSciftIF%A;&!x>xDRa|e+nTu@<OaO0z}sNT-0>50({`lbr%<GP3kvhh6=sS{
zvT$HPXuyHtMl-w-8ndbJaFo(gMoS&3tmQ@6Tl)cW){T+{%;;JM%K)Oe0meXcDnWsd
z7=vSD-~^-SBv)aS%8$jzGE_-oSYg)4N|sa}&{;&14r*9r^#&!U&+0^3)L{ldDyJa>
z+%||a=8s)9Gbh*W?$`To_Ai`Vvx^x+JMG$+a_w7s;hyX9b!YXwea`+y`MR@e-Qk^a
zY}y!i?Ivi6)iVwa`$&d*LMcVD{}vR`zD{zeE<BP|<&Vw4Nb;qytz!~ee+izU)sg{|
z_t3}cE>c$4V!-7=xrF070dpvTN*6dV5^>dx?$5wjf~W#evJ4iI9Fe1PEJ1BBoo|>j
ziW+Dg(hb#s!;5yvJ{*ojvie+ov3$yJor47{k3$A~<M7NXH<L34Ab0HmG^fnXi-*5^
z{GH=}{M6l3KYZo~&-~T74|b)y2U6VwtKApxnJ;Nukx$%s?&wy06$-x&chJ!_^$67*
z4^+PY5D8l&=?rJEf%>b9KQaQd1IwU{7PMnRR0GOK1$REjTww&TkZ3pt)GTdht_98C
zgptZV$PiO5)OXX4-6_ZJRYwb;%;8Eqnp2KuC^kU0X0C&(8QU+x&jkPlF%JADC}~OJ
z;4O>I(k99;BSa)IAFpXGD2!0tP*i9H2ZpR7CyG^Q@(t)USyfCWwC}f}Noj@*K6)28
zy4K81>kT`#@6)NII%TfDXRf86ikfv4C#8Ba@{(UzP;kEl^nF>=o3B76EKR{)R6#>+
zS~c{=V=`3Z5b`^iQ6(Eo0CE~D1~K~@X4zrn7QEi(@&K2Um$1iIFuM$y>Iek#f((HG
zL7uAdz8rSOunw&`g61FjI%deVC~At;aH?8jhFX+@pYvPH1E=fj{r5d}i&bl$mg%0E
zBddm%`{M5V)lEyn-JTDGhdkG0TsBlM?A&5F!T7nIsc%}Ux_j}1svloms~ec^n?1E^
z7}zq{g{rN3PT0R?HVM^Rm7MTpcFSxK+*@{DsG}IBnr(qE-V7_CC$1jyN1eE7cH$9w
zADlO~l<>)SK$h;2ljZ=sq;5xM5?RJrx<|qatEWkKX_0mdlZy?EqQ9vqm4=jCP3iV2
zE+!U0M)y@wDm_w%JjEr@KB8%~gmW>cEl(M8&fA<@6Hh11P{Qp<`byX5IaWO&&V&S7
zzceLmdMW2()z=BG)@pFI8o|}dONLSOEfl4sQSVFL9RlXyqRgrrNt525S+iIK0A7hL
z=jN5N@LmNv+sPy{W+R-D63*jY45^sn^G0X&!X*DHM0lt8-{h~e*O?pqi_CQvpt<$g
zVWhiYB$wnN5|UMkN{!ERked1?cj|so^k9k^kDQ2}!|-qzoFNd2^iLk3{zp-fNf>;n
zlMs*)b3r08PJ={>hygk+bazxFC>TgPW`4*f&+6Q?)Ii<wD#gKcf%qrbA!B24k|@0#
z#a96?&*B)BLb_odwJxh_X%1MBSkxbj9w6|j!U|PuSP92KR|Z3ga%EMBKztNjqlkf1
zawslk+^t6updgJ$#}w7la|7)zzy|g5l0(>L)EuDX2)vLdu*Q@@AUHaVV>AY<T9kMo
zQ#5MWQCV3vjRg}RX=7vo$DYIt*I&Y0x;Ohp+rAl`%$koDc7R4=$=d+q9fUIoLK8%k
zsVr?0QzmiQ)Vgjif8g|hVUu$Drq4VuIe+_=S6|sM?_50d-Trs_@0ky;TPj~~_(sEq
zt!g$rADfH)NodX1w#f-){p_cjjkNH@+b7;UvF2=BuW5d};mw9Q<EB|CtJ$d8@pkQ-
zwE(E^oxatYL$gNkUb-66m5-$=AG<reT6uiNgcF^<XWj>sq%AcomYVfrr_#sHt{gkN
zT6r#Y?Cf378&CcTzu5c7wtKF9%g4^nn3gNgtvg+_q4|-yk%jB4o|creWeHrX?K1)b
z>$zucqrhrcEVUcu)tek!_V^ahJ2clQxL2)pKY!Q=He1@&l5(|t!LaZl8y<1Fsdv?L
z8a=mt|GCLy<$uC*-8;Tuc=!~LxDJi%2g<VhEI4+(l@Gktn*vu+1AU?We|=HTxSnOH
zg81Riy*(WB56;FOAM=lGb-fnDN1Ur?5C2h>y{C!)s7b)G&(dq;KRW2>W%++%1t=Ft
zD&#LzQjLL@_}fO%e#|q*VHQHw_HP(-4%;N$tH??NJ7_`ByEw%_Z$im+ikW3ELy-6@
z&}Rz5TS+cq(EFD1Hehf|X@*`XHE9~nN+7+4Ve(o_$e&>j;;RsLnJApC1gE2+w1ym~
zO9DSe!$jw<8WfJXX)JD0*jrJUK`8j15)zBf&;|h}13)k$Y%n?@dRjUNM|d;|CwMwz
zHZ%uw)k^%7;nof?6b<n9y=^mRIdC41a(D*WRGjj5p@gIy<}(;9{Js*Bk?t3JYpVc<
zrbptiphe+k*;{bGXF>pflHjvUeo6BR<vWFl+(Mm8@%YvDAc>F1qz>SeBM>JWk|A0q
zgP&<agus&m_89SRqh=TSL6(5|e3Q)&IRFK-zd8k9{>xvTe)I5}rQjUy^IA(#br$Pf
z0acZta7tC)B>xpStr)VMGA2QnxY`M4hrI<c?3?DC1_3oez;PkWN1cUwfQcv70NO@{
zzU~<_@BqVW=A`LV)^(wu5P&|r4f-R_0rdSdx;9=C@+k!B{}N#U6&QV{$>T*-po|Y?
zq>~s5#`Mh=g9$MrL(ozL!$b^?fOHFi1oNu~G}13n$8Z5T;Bf#k$!?(n@J;qC95htM
zF9Uj~SXdUAulh%Qi=Ag#=2kf@i1~9+b*LFj%?!9_#QFED+z?S+xpiTb6A4hsn6J~C
zZ_x7O6*(r~7$YYpd(itk9EM1bEK3UZPsleC;E9F+PeeK4F99ppm<5xDl`D8$fBxT@
zpHDN(p6>Un?;cEf+m;SO(B}Q>|Db+`uUA&F1PC9z>Q>bRUUd-dg!~ayfbb_WN`D0;
z{<$+3dd_#9Q@JyJD&N)jqH2A%>xIDip67bHE~v)t^Id%>pN6P#Y(ljTT<m_X>jHG|
z^I51O0e)}I5hWyO7|f6Wt$^&rDY)nj2-}PgspcVqCskI+pFzEXb_N*sG->#u^^*sG
zea!qA;r$I{fP+uPmL=m|<C@qx>zS|ny}I`<%@{wfYr1)Mrf2pr-1c~@CSB8(s%g7(
z=KJSvpZk&T@7v#RU#@;S<#_tOx9&lO=Ph5l)}N~NuT=QgcQnmeXW7|<v&y=wYN6uy
zJ5!AZ?;g6>*m=LMG1IjzRok{w(FQ(*IU966vf=Wq;x0gT&()plhagug{Ha5|A0&R<
z_2Kn<hx%c@%_gS4d2<)ztkO(H+>;C1RuME-KZB#kkl%&OS5B6&j6KM0$W#t?r3|+Z
zX$`c+grXX|1_pZ0Ur?>uGtk$6f!xKuRV8ss{sMu04>R=TkUN<DIb=Q)`2m(=m;tY2
z$X`LG+LhpSow5n}Q>>>uiH<gHAHSr<y?%sEn0*BQ%1+?6urWU~RtZ%P{mhPCi@i&|
zYxRd_F1`NJH(q+rGu^x4-Eq@4Bg`Zo*qm>inLjsoZp9`p_H5W|(snUr7inQv%D!t;
z;QiLm8Gg6*b2Dg8;PSRtym2P&ZcVvcS8T1HI(98ySZaFb%WIBy!0vqqIK!6McRKGm
z_TKl_Z<?8M*BfCiw7ycdXT46GIk)bqT{!T@m051X)w)!<=Gv#$HQsmaStR#dZR<N*
z=FV+e7;nQD;K!^-5Jm(sk@mKxysdY9-`{t8-;XSRU-o|4vZpsy)_dQDOVTE3OL^K>
z%i1;`v8119OFGLk)eW0{EPTgy&r??Wss=Lne~?!H<NuemqI#4qXUT%r2YZVNuJv$<
ztXwK(L*}(QwK4hmHptmH6os7ATpl4wh(F2a%}`4F$*r!0_Ji|-)cIE4w`IelMJp(w
z9Z~7)0ey~2G0^AAP+}(VP8?179tFHqb?cuC<axc`FZax7QU8($Bcm<q7zc6mKS3Os
zeCEl=Pmai;tMslAH7dnnIf!>?6>%J-5Vcex3N|zWSBv1rUVCsn5s!jMq`YLZ5%08s
zD1yKYjm!l>g~}V|pWJf}Rjn?nYKd^sS0-p>irf0NUW|p&HWjbO3CxC?S&)Qb5yd?z
zXCps^kL~k0in*Hk^!fga&z<k-RULXM(DTBXfeQl!&0X?7X2|Nv-(vP2WU8&}LZG|<
zV&AE*^Dn9nc<Jl!%T`b(r&b0)@Pw`g^1e*tbV5l^XVgSh(e*|0k2ob}a7Ud{K7j(r
zoBEyG_}Rz#{OrYaRZFU><xWl7*PZfpFS}2sY$rD=>z8+&Sgm|&+5VKqGN#hry(#bB
zJD1b#J*oB{jiJzPJ*$<y%l6(3XPJ-8MOMn1!CC!QS-Sc_s`|iRA5R~8E_LX+W$*JV
zj_0Wbd3M!vZrOS6L0M%Uzk5*Iu<-I*EwjcAh$B9J&)N1l&(t+%xuVXn><tTv#jZE6
z-?O)Tz8ARDcD|Gi-hiqOd<lGX87=_cBNSLgDVepNrda5k^Mhs8E0)P!Ud$<7q&(+~
zl!PRc?>7Rk6$gH%9AC)#uX2-9-xHSy19((Ej3fuXD{hMWO|HOqmDSQ=d=+>Qv;I&C
ztVg)ZYsg(@ECs=5488>Du%bY`gctfCQi1Vq&`vR=9ge|$W$hq}Va=H|4(^^S`DZSB
zekl-)pu@ng79QTOiXj4!#a7+50)iP%u6F+A*cG_<?xP`hQ1`?j1vDOm`*%bMM!>}t
z1m_hE$7&IAxTt_P8Sq@gbR|2A<DlbFeR~M6CBo?jh5IN4Jd#L^DMvdxq<Bd26Q!eY
zr5$kb4{rQuwE>;^bV$R&jsyvY6aFrZAAuilBoU45jLLA?Tk>ZYfnj3;0W}OB)9EIw
zG;bfOt%x}~-BGb`vhzIhH(Y2T=gY7|${=$-D%~x3R2+{2(fGywSY!h3SSsO=2<$O5
zg0QJ>g+EEq*jSdE{@e5$5nzj&0jlhyS2J@=bRWe$d;#T$MXV6~hyLJ`KqA^|vp&U<
z;59H_VI&%}fa)v)^0({42oOzF4#x6GD(|bc!HU@W8$J;%Vq9XzNLGOI0Q&Xdgm`@<
z92x<vy*wU98IdtP^37)&kw@~Rc#tLkcC3liZqabB(>EGpbcA?440{N4j-3#Vl>BuY
z2dsG%MHoxf+GJ5T=k#&fkpQxX`y9C~@QcrBPRXNI&`_xoEKu8pN(EJr=_OPuCXh)}
z4HQC(e~4wO&wd9=1p!4ehi#bch7D1$6Wqjb8ieB;6}9t?bB&AM)e7H?anouNDmKiu
z3y-gvn;$wE^Nxi}Yo=Y)ttXW2hA{V@_Qf-sHleIzi#MT*&t$QJi_g6K=MQTbP-ATk
zDO&@$_yBNu^>W?*yA^l&<(k8*<&V90VA=d6I{Jj;=;yP0zF-8HtGs%>yyt`92Lo_%
z^9*|euWz2%;tc@W%s4AHEe1;k41%7&pdrpztBx}ZwyqZD?_6EG_z#_qu15aDMghw$
zmTrOnaKE#g;s1dVpbQrc{{TN58J%WZWa4qRpaLR#6klJ)#uqT7we5HtZg?EE3W&(@
zSpPU=swEsnM>zaQgZv)8^U8#x+Oj_i0$UGRG!5awm6-{+9C?Kxt0vE4){Plj57a}g
zy7AJmU&;JLDC3l-%T&FzX*>~*D1L3q0DU3Ioz)iFdhI|Soo0R+;?KD5=`CS}ppS*#
z1JrIsH$Hlt1|9S`hW=`W{;Y*m;45mc>Z5=9qg}E#U5Uhpz>rt%$Z~<N!hM0^xLTH3
zyLPWo<-tL&nl$^HXasG|nRA-1<Hb2?1QUJdl%_R3gp%&IJ8l}}6J#Aaqf}OY1{qKn
z%l^#Fusc6ttRFMZj~Uy?jP<`Vtv_YNPZ;}8nb!Ztbo`X@|2t=3xz8EM{@tpVAo6Lb
z_}I|!FNQ<^YH`h;db8!*zQw?*<+17R`<3+zmv5hb_snwV`PIsS>9ata22+}MrFhru
z^%cGW-fhh@zO=O|Wo=sAwQ6mdJ_$badE1<A`V3rOp6{FM``WXg7^*)uxIw+)Y!A7^
zEZ9=*TMRt6c&ORLn#~wX8xOH{v=N?}Ml40xCf2(3G~3Ox6<g16)okm-#~WGgit7IX
DQX?kD

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/backend_types.cpython-312.pyc b/v1/structured_output/__pycache__/backend_types.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..17a37a2c304f7e5eea0038452bdb73f258aecabc
GIT binary patch
literal 5691
zcmb6dNo*U}bvPU@B8QS}d1+!N8OKf{!ZFp<E*vL;Q<+*UJC*{8PAeM4U^w$7jXewf
zXDC}dDX0qA@WBakkaKE!DIDbD+<eTb2+)g*_MlFi)<MxjfgTu3r=0rUpM^tG3K0VQ
z>-+D&{k=bbDim@Y{0!lq-Wue%f8!+lrGvrt6BulA8mA=;u8KWxBuu`_o5^Z2f%Bvx
zn5k-tjRhlZW~!M4M>2FDJCm(up-&kDX0DoJFli%iid8YeSpq3kbMO~=Zkp3F8=RIU
z-1Va&3GM!iq(80>kzq1K_AT+x!9sOEJ2wF5a)ggyMo5aS=V4uJuYVDss~%WO6bt{w
z*=&*blH(W3-k?%*T&k$9N!%4%D<-@FO>q^~P#gy)h05allXCguWcl*U>@+OoJ}?Zk
zY+FnEGR(wrYpr76AeP=FR1L0S9Un}#w_vcz5w4ohxGK+cBzZj>2lU4giNHV~h;(0w
zOkap>Ux<Oe5IGPg?;T!nX+w1zlxTAex888)>aK2E&TKL7Wo6k?Od`u(PL@quYZy2d
zW%*`9F@ha|SPjz?l!j}2!li||Suc;RJa^&JWVzy{<|n5of8}MS=f|&H8K3vk<%@GO
z<w<XFp)!B9T)8?w{+?VJpZ=WNMmc^zJLa18vASMA<tlWUxTkJ6&YpYo##u6E=(Vx>
z8mQPBTLle{t-dh^dJia<ZASW7O;JIYn(VICiBqbtQFId4jKIKoADRtrD}Uh5nfvGN
zp1b$<`oz}$BOjgEEPh=4<mCG0E%D%;iTg8mXYO5IpWGTed`G*l-_`HkSfAc19J*7v
zzj$}?-nI3qt%EOqRM}koc=3~KAI{Rl;T0X`lYv$IZ9j&lZ9ZC}nk0h8la!VuX_7%-
z&;*iQN^7YNAu^%?fQj!1kV}G=jzQ%BDnl}wpk-laAhwf-ot%~jAM$t8S|PS8!Y<y)
zYlE@X0;~>ga1jlIYuVy(uX#*U#WWS#{P{e&*&vR4${?%6kOIj|OE#6-dXap+NYsaQ
zN?tA)%DU#IUGzN1OH%^&XQ@G?K(VnO&bI|<HaRp^WiG*SIVt!}5SLI>w}>O%S^?K5
zRDwpTQ+rj{h$i{CC4~}6QB_iRVGW4`pa{pZzDlf+xKb`!AE(RCThR<JY*Q_b0(-@`
zqzYWtuyl}t1ov64zN7;Q!3`mNsRKzs(x{<3?ls+Ve+_8HC7en2l25QSGvUBUBCCqg
zP+SrtYMu$Hi>{h&8$b(1DgXu0v<u&_OH+#B5XpvpdP{czYbeE8dI;oOOnQPtj3s&m
zCKQ9XgR)1ye*(Q%@FghwxSOwZhm61`N*!P?!^v%oq91b1N7OK)!V>#+t9K!;-VYQ*
zhd2(}MW%YRx~%9Hhz<9aeS>WC^h@0^B+GUsMO#%Y6+{A1QwvvOvg}pxkI)UMhLIM-
zx2tX<HOI9a*&@3T)m@Sp!8Nc`;FB!rw<GO@T0-jp9&`)BbD-eYCB@PtV%FU?)VyU|
za6V@1ZE*xD=IKiybzixtiBPvgAv>XVU)xK&U4TDDbjPs42<YV?4Fo7=`>DG5zlg<o
z+b|p!Js69Q3p!`s(AKO}TLaNJb)uq=X%bvi16K=O#%Z(41PP{Yga54(>Po8Jupmr0
zkzcmYf=Q{waiT~O(`K)Aw0V<8!EpokZzBt=2OO6IKa8C=Rh<er0m5?P3drIS44+MD
zFUf}x=Q~B7sp+n%I5)l*U7M;ar3wU7n|k@0;;JjMZfWFpznI$mW2A{Ga2wy-0<=tM
zk>FL}3ebWP0@@!GR(O0gPE{bXa1SK41ouUkqov2lj!T(c2-h<E*z0^4$9yAy4dqls
zL3e~P5wDa36wMQRNjna8u|wi2M5vBmR|sqVA!4Y!Lev|bsmY1Tl`t&^HYlwqAb6I|
z!1}eAaCeO>y)i$;qsP(ojryM_n6w;ZDh%|xBex0JJJ5H4&BOV2Am}TjiAYBC#38P4
zavgr(E2y3r@9UeMf~({7rzoOqzOa{S+4i*#dW%Cej|(C;1!%mCENiwZ%M?owFA3Cm
z0>*ML39j!6D1Is-^l@xn#pWb7C2Uw!#GLBag_u6+^I?M#*!e3o8{FT7cb}$4T6{hw
zK1{Ya=pI!bAOCWZ4Zk|`3|F?3T>1b5X+0l~KGPna{=M!Wn0P$$<;?DonUwh1=@tjw
zL%;=HfD1;g{R|gE%rc0tMp*atf!zVqDe-~(jDs$~0i)J1;P{SD25W5OGmN~d@Q;2`
zA$%K_+J*2{c$8u(423ZN4(vcN3?(reWnd(*QC3Tl0WD2(Q0C^LM9#*_Rgq-10Vr=X
zS`Lced~BxxJ7Py6TPP0p7P1%ow?gyGq_qrX<d3Xl^Y{pnRrZeb23Y*ZC#08KwN<4i
zJ23IYuxiBTh$jX{EMq34F96T|g0q6A9eGRHHtV_p1(6b#JYh~$6@0Nlh=iyL@wz9>
zMBWqO>dkO*Ql-&u{|VlNK@dlFF#Wb~iV#N?3ww|4UIxeI5U-|#^)9Y}C)MY?UtH`a
zdfG1x{Zc)^p~Z*}qi`gikoeAI@-}FSqB%NAXaL5qiH8D=a&WxaQ#S<$R_X%0j`-Sj
zlV~cpWvnk8a?_!su-UhI`bQ-0al-&}!zx(`-Vb4d3?CxxvI*|d&4w8(pWwy@fdUyS
zs5Zu)r%#-|cwYVie5`V~wW6yl5#CU?Xrckp@r1rtwe&8^Jzgyx3QzmBW|YlK-P#YO
zzXyDW68h$>lMx>Q+EamCRY^67Vm0dB4D_U?j0TToYOgh4+KbWvV55Vy*`EAF-#`Ei
ztKN_-D;B(TnEyMFvGBtbJ%bJAF8}Mt&v3+25Gx<YaazWvD@&clHEe3|cUGbKE%&W(
z{^`CWe-Vys4Y783<TrCHZ52}D*3r|gB=+Sg);}GPo~2+OWC<9xUJNtMBR>~CKEGRv
z*)@+KA;p6fK5aq@R%$9m=kqgiKKi~#9GXIaG(;rbTBi8n(@U|k(_;Y|d=EeL`O-Ru
zA-e?M3M~h`!-Qvn+;DZnDMitn$<IsMwd+KMOg{;3$z%vP8+C(F6s0%Pt-s4;&6h8e
zV5d~Q>^uH<v-5Ng4r8gsMB7Rx5{d0Bmk|HO9sh<q_6;X}n;ibTF#I3k)qkSU53gU^
z8hLL0y`6MAaqNNiJN;9Ahl3$x@54u*96kML;mOfA|9t4&6K-TD{fk6Ge4y@d*te#5
Xj?eG#ui(-)2OTJc&wqytEJgnxY{}1g

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/backend_xgrammar.cpython-312.pyc b/v1/structured_output/__pycache__/backend_xgrammar.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1c8420497723fbf391164a69ddcc03431481838
GIT binary patch
literal 15035
zcmb_@Yj7Lab?{v*7S9C%65vaGffOkTvPepzthe=|DC$8`ibTKAI0(pHlA!Qlc9*h<
zfVS$m6RPpl;!ImglXOD2o-sXEXOti9sGWAIHcji-4}zo$dP{#*Ci(H@A8fL%<8<cx
z&bhmb2L;*6_hmV}d+*+J&wZVHUiaW5m&-xmiJE^9nc79jFR)-d7Cp0ef+1v<2t;6_
zB#3WQl!=*wrWhM!87#9=bBqgeF-y=w%S_Z7v{HCm&<<~N)Dd$AowSaN@-bJ?Me~+u
zS<D@D)4Vn6iIoS-Y2FsCh<StFm@nvyRR$~RH+!@yRvoO4)dXu|wZU43h@8aHJ~jpG
z;%*ZW%LNCd_3!D!7M$;~S~ge*-<@K^doT}tf{midM0$z9zfJ^~=r!Psmcb^yz6|Q!
zqVJJ<|0oeWf58Nsg>tb)+$>s#O|^hms1RF+&4TxJbFfYDi7uf+V4z$H<t>v;pz2rH
zd4Is9+J&$Z9*Tx#S>=W!VpM={u7MXX_Jq1m_jI2-)8DJI$K#U$Ms-Hw5hWB&jEsm9
z6w5A$W8=|CeB@$S3ddyl;yE9Y6)7AYNL&%)ktBt3^o5g?eTlFDC04DztVk0>%7i2e
z7bcYP3FSn12w;UrD|!KEEG#`*abaAEB;qn4D<2w7M25srSPqTo(7vHW{HiFyD8tf~
zkdg?AgYjXtO0Nz@<WMwnMT}0;dX>F4BB?e=XjenHBF2-WxBc*CmWU+C2qb6{nAb^=
z6-=U8U`0+a!)jXu4%XBvSVY^fNw7lRF4zFdF=-DtRQC%yc738l`nJ=4tdJsEtPMgs
zOHyQvelAYNOvPm^jhP?)mLj1Xq=J~~12}C)KL1weLBsNUdK>BQN<)tE`Bp}5gqdO#
zw^4dbJC9MHe;XtZBefe}l}aNwR%PV!?<dFo7|5DDE+Z#xQhY{!Y?G18zsKtHc_SCE
z{hBt724wyXBdW-kj9iKlm^-HTIITQoia%X|xx@;LH5)DS@6vNE-QOM7*x@Nt!CJTE
zu^G9PNiYkH(rT2)wivnmdu&@iZ{!3n3A54CJC^r!%7i`6?W|yhQf_WAPNQkTd#t0N
zpl5%7%ag;7?Rd0(VXu>9k_2r10|8ETiSeO?APS+YiJ|bI>Y%TXGC3|9c^P<@S|%%r
zabO|9o<b2pRy|=s2#rhPaO7G@9uE(R0Y*ad`W2q92!VM6OLE4-*FwsuB!;1dYbZQ4
zDu%>(crYpoz^-U98i@fH9h_7|S;E5?s8O9)qtRFhSl4i5M6CrDs<X&Yg7Qe&sHzeo
zGU5t_<CCG6M<aj&2ckM6awIM*;W*^&bi~MfB|Ky*FDB&NEL1is##N5am=0blM;KR*
zVV{W)CsaGINkzN@6Iboe;TjF#+OU_7Kd-t@yg1MkI(59S@5J%$bE;=pO2k5=6C)!a
z28MAc?p}?Vb|+%vk*FxCW}KU97UNfCwd%RPzVo3MdM_P6fByKTQ1@|=Fro7&RNIgN
zT@{~*!Rm@b6Vb2|xhiTSm(_~GZ`wk^YMW&-IxL~IQ_FJG4n<%NGO|^_-~Z(|I+fUX
z=XhkiT?tDgqSAhCV&8%NSN4gW(a2!u_@pwLh<D-;JFo8Qd}QT22Q~2&GGs)@_@wFz
zg~k)I0{y@~hLQ~%IDAJ@H6ADV0x<pS<RS0L@bziFKEv-#^LsP=`80n%%M!b5*|vGz
zM)<0m!fbpdzPx4cvU6Y7LYg-JIDR{xX*`f_Jh0GkaJnCWnp);s-|2X(Bh#`s-LiM7
zao_aGH!iF;_%jV1>4uJ##ulx~?sVgBz~HNyJu-77<9%w;`_wv1>YIN2%<X3~bvqX8
zcKoukX7;6-mok+*)0I0{>Y9Fh^!Cw}ruLQQw)Jv*W7&=V^(xZXtf9>`98EVIUGey4
z%Vx@S*epjHk1=b6Z7ib$tF6z}Je96_YK7mlQd7IKsc{v?61g48G#*Je9=Y#JH}<@5
zPB-?g+qqiDwD}EJwv24uHf@HvuQ=TqXI<J^mvMHaogE9#gAYBvjK`n$_%oiaw5KcM
zIh*#Jg{5+pKj62*n?JM$>k7mziQkzJVK3<E<qa{9#G+ax5%i4s5K@BipxC1V_d`wK
zGKx_{N{QJk!0x2&z=U+BmIH>&SWd*|zotw8TSDCO<PMW#!|Y8aekE1db50oNG5xkZ
z3s2f}M^VouggfoI{xNgT3H|&?Qzk>KPqFd;Q-r;Q3h<TKy?Lxgt_b@=5%!!AH(&{&
z*l#P<#+R`Y;=ceR=x{0XRU!!~$RQUwN#5j!Oe18-^wM5JrZ}Z8hpB{8kOKV=TNU(I
zN)6xy4xx-yf>stR-?18+{EX?1{bn*{nc^O^>ZMcw3yj%D@#+d3tp2gzqJ816wJJGv
zV64rUasDmXjj=OC*=l?j94Y39jNtq;)~J1rQ36J7!OCqnzUAL37Die^VBg`5Qv&rR
z6oM3c$7QVAW!NPK{-?N?NuaDB?U7=sn5_723$lflgZ`Gp;Fvh1v`ndv9E%5QXHW#O
zrCMYV(y_40f*JBID;<SlO2;rc4vA`0qzKwOa`MP?;b;VGB``kx@@QfrD)>jkS4Dp~
ziqd}4pBNgNkif3#@L!CIVOjJKgZ%S{<Nk;&Plz4K?K*dYvOk_s{E1=zRmA9*C&tGU
zk|GLz9Io8q-=;DFn2#5A2`Lecq7c#rAqYKdEUdtYB`UvFc1XDvsF7SaR`c1*7y2cz
zoQdkyC2D9)PQ*jn3?-x^)rml%3n$L@bPuRjT@<Ts1707b%3bQ|?Rf!I7)>&VBymK%
z1}5LYrDwYbp1pLuFEntxS2ZJgm5YLTCu^!ixnbae6&M~lqlht;6DDHgAp8wf#ukL5
zAtgMbS~P=F<zPw)Np-+7Pl!D<pEI6xr9v&!Gw1as*bOtH>kzO?doX_hlY^M_LZWh@
z$Uqm2teW91%gD1qE5JvB6HcT)NRmw(CAcwCeKF1hko*Ca;UH7_n&rCPnYw-Hx_yhz
zeJd4Jv+XnOnToD-Mc0a_{;n^xt1rE)Z=t;p<dk>M8Zmjx{;(U`m2FyX*pq2EmTow<
z=sLEcUF$tx=D<Muz`(-O1Et#?PB$E0bREvM>r7X4-sP7np1IMz;;N;n52hOqF1ilp
zK-$w4?eo#4ibHvj?sP-<qN{rq6oa!fXK$sJd^@IlR@`;BCerTKtcNsio;$qQuyf62
zt*Q8oCyl#qG3!oJS(EVv(!Rh-W7C}V_Sh;YCdu2$`R4i4?>@EEw0EVx;g)#&^nY2+
zl~q{>G|IY2d1aOW4nSF5HyfLYWvULQs}A1VbHDO_GJX8gQq|=d_F>hgf~vzyRi|gz
zU-A`i_TA`P@mySIO|G(a3-LCrR2;td&4t5#?;l_A^slk7pjm=-HsWbo^;KtlThhKQ
zD<1Dk>$Xhm(RAz4b&jnp%i2gy{p_nVuR_hb%j$8!fb5Q6f4&ulC8K%&&-|fYzggw+
zm{GM;{Ej@Nb5p1$sM2fN!U@RC5(OwgdrIjFDW){{H8|R3@-EXKV6{_H6^=$hu~u~b
zHZ&MfVqy7;M#?6QlwX3rWE_q`tKWuva?3_qEsZIKjZr*YC#&v?j60Ba2j+L&GyjA8
zZ`@1n(+jrK5;``Dyb(A(svMyPgWia5gUuv`pa7N*a+P-(Ix-mnwezD|1<<~v#ALF1
z<GA#SR{@qDyX$0y_uM#7yX_A+Ra+<&568q%NOgolv4k)IW=%-tL!s|Xgri!Gv=16<
ztc`_UB-B>uiB;K1T#>$w#UV)EB^0Z6qERi7FhQ9nBR_bZd~V*#m1Qq6?VMw!zAMY(
zyZaP<KeYSTI4Ebo#W36%=5E&-!S|Yl;WlYl5f}E7dvdO!!>|x}*U+;>WWg=O90ove
z@o|C)Y;T=pf)>#_Rze*Dcymd3JHTVd8y<k?a_|;#2%7K@R0&-{4La!<Y&jUM-fjrZ
zATPQAhXd;cr&uQNqFbb@54av(;L0ik_m!vUt6mSTLpRiw3m%abTtYdNE1+B<ctvkX
zuYga7vrv~~CB<(Ns-R7kPz~;}>dA7DTQ9&sDAk_=foC2K%cIgM{Dj=QXwjjp5hu=c
zmP|75n)<2vEJfghmLNq_B2aCIqv6<~5I&NuG3Zj4934i@O#qe=*>y6<(47vLRkt7x
zhbN*+2y9s;Ax)}gNgS7?D*&dN(cV*i$SKC9#E>Y<;6k8QC;B4cAkdc5I1Yj~C_{In
zB1*AH98S8RIt*haBB&Ovp>znKi!2l*E*AdR{s)rBxdbI<l1Z6Pl9$ebmWsMmA=iR-
z_>Ac;Cat8UsT@JdwTeN;WGv^5%fo^_!2mRl1Re(dpht3z87pC{2y7D6k0Dbi*W(-K
z&FIW5H7Zn8Hav!>8{9Rynn`njOTKe_Xh<AaWPjKn1;;XKOxm)6Rweku!c}y5$bMy1
z^q;zXzQf_5f*q1e)bf-41JZ=(k3cI8!vAs@aB0m@?E>twJUkJNPIf%f^i((sDqKO^
z;V`IkprR!V4EZ*vl4nkBti=)ehZB-t-*kVQOpE#i+Ca@KsV4pkImQ5}GYY)vSy1^f
zT?UQTq-XK_bC^hwsIDR!3z#+8F@g10v7Xa9L_){a(T<0!5Tl&;U>IklsQQngsVqZs
zon(0eJ`88$qO)<uTl4Rgb)Y+Vt7i|-9L{)mq`f=lpI!ELt$M0v`58WIVk!?k^fj*d
zYQf|$M{S~}0YpHCZ(HQs=F8Lk_J8BsvR+bEpY@@uBYHcUY22S~+`rU#5ZwZGD{e16
zmqjueX^fta70Aqz5i$jo3MXNweiGp8#%D~Y;==FwlOR>3OkaIg81lwWhQt{&DR8Uj
z>?eV_auOE173jUN13h2rY?Z=d2nvRzOqWT(l>DpiQE}*sY*64v`j^16pi}`QIXIak
z@CcYD=n;W)ktfgRBhe_eICRoCpi3MWJSdurbK{9qM#G9fT)NwQSDHhU(|GtKtbu9?
zkB@_4C81rZ+6-&Ppi@esZeu1oH<i8%u#`3DDb`I*rJTYf=XG|2W;X!5i#P@$p;TMf
zFzwdJ)$M&Vbt9E=Z%ezk%~vkFJ6AkS8PArqXUp8g15f+UJ(XEIkmS09@b2kXmz+&=
z&5O>>;JQPtG{ZNi`R2Db&n1>x_Ac}LR@{vXwnj>%ssjascG&uhC>E)YQtY2Y=5ZXo
zB#kl!RDrw~5AlX4#U#Po0lYWIYac_0X!&e-3ixggv!U?mTZq~l<ug(ebI6kdx_bH=
z<cri(gnd-p8aw{C2#$ss=z%u=P5uU-u{ES^4Y$UYZ2|a_u{AH+n&*OPTjv8?Gx{-$
z`N0EQowm+aT~`JjP`FkkI&l(op;5c}?G_rGLiz%Npwo3;lg53k!HkcF;^H-MGSa&M
zy?;>U_dq|=>zMojB!<gbW3fDKro$%dH)<h;wf}&Ps~{;@njLA|j``>B4n43P)Oet-
zNCFg!V|}8VAoIA1Ue2lRRFVt=Xo2ER_w!N4UnETa37eEb0^@RfGwznOyJf-F^5}SQ
z>FC0v>IQf7pef`f`D65eoUQ;(^v9q_x&<-#2uqAIPTL1g5@k`5HqPS*0FbQQxV#kh
zXHX^M62bUe+fbx5=SXi;+P3L|t)9*W)KCGt5iuFYWE2wB9fE5XaMVzbj~og~W~{;~
zQX5Ws5p&eb;O^F(B!bS1v{B=-tLDK(A}Wp0Eb?$Eg{^)c6Fe^{o~5Bt)iNN)<%A?n
zV?`1ZoYw}eR#TQyWBwle%l`|KKOor(QttcSg-=?xg79tWy52i|Ipb<dyPB5FU7s|y
z&bKW$?Y!PS?akQh)Asr$^UhEFZJ*RM&vSQs?sH&bH(M6WHMcf{n}V}^W+C;>^Obj>
zy<fRp*L%JH=E)^<Z`SPPeDiFU!0Yb7z0E&)k!J6MX9K=ux4XHfIbpu*tw@$Y_U_4h
z-k+RV!)&&N<qpktWeL3I0UBOe2Lqpa-syX*FAHYYp}R7D-BZx$I+O*QYx6Cd-@Ilq
zaSe2L=&X+*8Geb83SzqwiHTqG=y+-$Pk<dLN?-C5QluSRP2+HBB!20_65P{?63W3Z
zD<x68OKLA{qp|>{nh_&t_TyLg&~z{Oi2%K7o|ph7oddUEB&ynk35gPcY8!=nAGA%S
zV=x{~c`rPeNFnqfT!PH^89WL|1=^$FF`<uwaP-kbHB5PBeAqnA3^M}zI{$}^iQIsr
zWC#IJ3(U!*R4qWQ0Nr?g&9Uc)3o#`OH-P?OF^sVlvVS6;_bP&ZaBW1pmFrMhaD_fP
zaI^)``@U8NgZvZb`*4c$-i{k2KXijl%3y)qC~0E|dCiCg-#YlnZxDDhlib(BTd4oO
zGOr&^6IcrC>o&o5k{H~<SdJ&cXr~xGf`g8Mzd-~CIz^P+9nDqdiSRf}j*N$qxgI+*
zC*9$q#Fzu<tKR^9mC3I$+-&5?!&qa<2?W5Va$11QyipIlkt=GIyTLJ90aPc|h~X{*
zuKaW4nKC`v1Hk%dAGtk)FAdb%<ILoZ%Vx0pz_)%1P6c?TAuh;@=MB8!ss*&2L3lf2
zU@b?+qvD0(0hJ3&Qh2h+r-Y}W3;x%(K=LQdIgni_uwH@<m|{}Q4bxTfr_3w^Dz*bU
zBY(-h%utULWqt3ms;OhA%3cvCrMIBHE@7{064rirL<F%sE*(i;0LMY@iZ)b0`<naP
zI2B;~gVQZ4AL#)9Ik?odTY>!79Kv5=XAO{i@xRFzpg<C~!}0U#i#J)kg7n<%dgJUT
z)fa!ghR67OW#tSw4xAJ52<YAD@0Rg8TRV>s4iJfV=L_L$xq<~`0o<9Z7O)Y)p|4uB
z!TjzPPof$yuD{=}t(bHN3cvHU`T~&3&5#&tW$Sc&X69<j3Rdeg6O?}~{Ut!bTDf3R
zE=q}U2-Av)5G4Wr*TNz=SFmcbANZ`SmXC)OVDSYFz&36HM8LZvLyF46oxaM#&5v3G
zcM}k-7P|cG#fuj%4fLE0ow{)8{PBUyss(HVxFwd}r2SJ;f*1(=223AsDELBppq9tC
zbBp$m&?tHM|A)XH0tOlGs>rX=8C!d6^N*BecPkjsS-4Dazq#+mzMFf0aCD)uEA8yM
zSO2~@eV`Al>Y~b9Ba6<qJ0PVsLR{nEy-wJt9N^^k)j;C%yxDuB_vWb|T)1^@k>9%F
zskzlX;|9<7&C@fk<+f+io@X9z#5ua?+;Ru}oyLZ(agbXlwjB;oDgdj6RMpM~XM%tF
z&FLN-ciY>(W%rg(yiIf51Mikk>Y7%|>u&YDz2`yswtug0zIk%Bx_Pekj`=}#`%iY<
zQy%O-sWxr?j3W&#StqG#0i2#nP2Vz0e+x@OwIT^6kMu{7fL(D6^SIucU2#l1=Ubj^
z?WKQ$hM!{N9gyIuwX}1UKWhDv{C4-PYqvYH1d4YC{u5uHeT#u>oLd$!?-tBWbWo~W
z)}t9i<20PH=p>@oiwgEp81LgW?(684E9nJ5R#(a!CT+KqyfQF`Yq8-e<v%Em%aDuU
zL14yEUE1(SCzW#JQ)vhT!xa0qqbhY%pYtt3ge=TAl(RVDwwDRz{D!bbOsP;m=@kV<
zGkr=!D5%TR$B=bWGmJEU+h1?g=ij9<<z{M*^Q9rC%wM|($n!QlDYJnYZpt?smHDrd
zQ_1;11&aau8qy6@%H1#hp3;`XQWC<zA=SZnw>}wc;ck5GEKBY5SB?ZU6r9aAV=Vc%
z^w&?YTP4~VbDXjW_LK#5$<Y+#kXRsI!&(rpVO4Tg<=FOozeX-))wRDo#UQKL@Bow(
zaT~otna6TI@<5N*uuWON=InNEKn=x|4aQzZ@$32?uGjwqo{}qUj2UrGGMh<0%(oTp
z#6TO&Q=chi`XTwVoZgo*y#}$(Q>Ir;FEcNbYwU~U<&Evji`wT-`(s+7KZ8DFC1PS=
zH02OolOIj)+@v@<4(=81vEwM72lqtt$Z5%s^lUZO><M}<9<%MMTI#VW)|bhKT`0!k
z{wf>+Pjd1(E#^c7pDp-b(LHP2CqNWQk%<TTq#iZu*P=#s_wJ=|L<WNp5b04BhD*5s
z5r(7WkZIoB{^a)jod(48$7NJhp?3%a@q-lr*C2k~s66OT?kWYVMdyPHdjs@$A<$zg
zx%o^SR4@pCp@yuE%8!wIk>LnjjYF7CM{;K=ylBQ7mhVQ~$({k~!cJU`K!oqt7|BJ`
zMmKuSOfH-dDD(J>0=oFdFfr`a-v>W2!26({6aA+;{K-aRLIzOrT%;p#95zH3Nhk1I
zHzdh6qqVV*;iw-%RyHgM#0pm!0C4-LhX<?R8-s1pLJO?D`cEMoG&Wa@+p+gt!<#f%
zQ|Wo=O|@uyBcYz4+9@FYp@dZ*yL1r;hHAE^rGd2y4l&%RlOo1WYvDOs^e=9Q5n+Tn
znB>6(BLy*pS|ds=)JH<Mh;$iiytL2a>VRGPDc0HLgsy`@OqL|6W%|!NjIkX<AV!pe
z@RoiLlW#&I<1MD&cr?|qmQonr8W=lk{7^)C0MHenlgni+ItU?b#a5lM2GZ8Rf_2x5
zt?VIQ3+zsNc3(g9(CYdAtFOJ9HF5UpRZ!T^-8h%wThe^X+<|wFzIAk&?}B?VTY1J>
zy=bjot=&F<AoJ9r^izkHY7bAB6}Q6cgSn1nei!st@1M3W+iF(ox8u7O`-F~OdF_=|
zXXVWZ1_Hl5wCvoTHL<P>%xZ1Jk2l@kG<W8m{<r#<YP)7Ep!8QY&3<d<Thphq=E9L}
zOY__2tCsnl>u_7Q`|g%y=YiFV`W4Uf`N$bi?d@*pEn}@&wAQRTo96<VmacS5*RpdD
zAam8Ow(h@In>lbcec<d;>$#iuWlwXq%xpi!{L+{|or%$k-;>AKv}kS0n#%3x86(JO
zGSjp#-L!AXw|}|^;5_wOuu<9XJlJU61HRB%=ZrJs=}db%@0#z5_s*vG_CD~O{-wuT
zP+`yPJe}To`hn+6wwc)cU#x>?+*A8GVPS(|sUY0w^1Yq~&k4F>54}}c&g828O_qiF
z->icjlLz&5mxQSS`zhnyn)Yt}oG`e3RsMzMQ%hC7?|%bAm;e)g{LOk<A*zZK_q*=5
zEqG3s#ONo!Mi?M$O_hJe*9$P!6%VUxU}WXBI5JnQF){|W31+d-@XS)hk^9FN_#W&J
zKK{?=J_vpK0^+)H0u1gDf}LEd=y`wF0^di$&NE-icp>pl;Ea#_<L;(2d&p0%O=ru=
zPxmyP-A{hTZ#q{)ezrAm?rHKbjobUG$-mkT^;MYPXWJnEejotp2R{3mUF-)9?lU{s
z4|Z^v-(x>p#(wY&f7Z@^Xy+jRVY&D0)9i<>{MnuChdVjU@3)_;WItlu=RE939uD(0
z_H(=0kDB>&?d(VG9Oj?4_qo}Rj_`dB_G1SJ`Hw3&=<(xfd*3ehV?W=wgZ+312l>EO
z%EDA<?#FFl|HDZq)Qb<{7n9@QeUVUK)J)KukW=mWLx2wase;sjW%|2}4lO=WLVHH_
zQHTwuqJ-{5bvv!fiAo3=4NWMKsN6xXjqnE<az{-2eVq2ojB46IgNej21XODvp{=BD
zrL|Xgbr?)C$L~9gA0^OmQ3?HwT4)sNQ)<)W+tIEl&!_BJW7HMc94$lDIucC`f_qH6
z4WV%cKCHwW2kGxI$(!wHu~UniGSUqf6%c--1#}&e9s(S2St2991u|rqH5+00{~+7`
zgS7pE@V_9QPs!#_N$01e_fyjG-zGC-`iwyG-wq=Ofdl69Rr98wJA5~vz1{o6Gjqu$
z$L{OhKezjCzOZC(ylw%eVsfsVUSgO{3svoF1T$+ae9O{r*<+YrH+3^i1Fgr5UXR(&
z`%Uh8(*mi<w(e&9clX?5;rQErawJQjcwbn<S9Xkffnm-w^RHwH&D?KY*D}<5@P7gK
CJ!8oL

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/request.cpython-312.pyc b/v1/structured_output/__pycache__/request.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a880620672653903ded8e0f5604f97a078a7e9ec
GIT binary patch
literal 4702
zcmbVQT}&L;6}~e&JNv)G&%zoT@Y*J}*RWs=2G@!mVeEiY0xmy}vz0tu?+keH>`(5@
zI$jJBREgrMtz=7;NS+#3QG;bmAy4UR-m3Oxwji;Y*b;4BRaIZsCRM6D_1rtV3%e|e
z)GKlS&d)u2&bi;Y!=F7KCxWJMzl^<bBlLH&C^l<hvh{nIEF%d?jDo`E$b=cXX2UFu
ztYV3CVU8g*i(-xQVV=%8#TK`R?R0Kc9C2sZ8Fz(Ubj>U7xF_t1d&Azi5Ed9DquD_5
z=<Sh3LrAi{k0kqJ*4%wuAckuthwPG^vUi%3T<>$?x(pL^|BFyZgN(typ4QS>hM9XZ
z7MGK0?GnaG3~MeLQMDjzcqbz9loCtKT#4XFTs8a?8cs)vkTjOoQfW;!2|>$l(hx|*
zBiN{~l=-oo+08wc(qhSk8ZB5(hmv=_4Dqgvh)2Wh6p}46Co!)Alf;ItGB4YjU@qI{
zY-ES@K(`d=cG*$d<H(-ul&s(t$|v!X4SZvNpDX#yE%CBrnw1>jFOTdkteiVI1iEW8
zH2^1gwj^C6*UTQK)|YjXTecPLq*n403+H;uB<p66mI=`XobQ7(ygN7>GHg)T?ZR>S
zowTfK2A`tA8a3?VOd$pWmLqC10f7|dgd|IbpcVovn#=}|We96xuC+2+1+9Vkz-Tfd
zM<EiWW`P;`+xi)F%V-`gG8yP+VO7}{n0W@b%rmouzoHd=he28^#vIKvPngGr(<V>`
z1zAX0>;YLwwmP+xha#jcNkqdJQ4}!>Ii%r8ETO4l0_??bV?h+xz(9pnazz4x?}xjz
zc&aNEONF!uo{_cCopk??&fMykyOh|Cu2e?5nM`!uR+M<x?e4B!r*&b|*PW@1;hV<E
zxLD!OxsE;j*jbHxAK0Xxfo>7y?Z|yVcOA~v`*XE{joO}UZO=XaYgcVfXxI==WQ7y!
zLPySj;JLqZb$Z=@POmwa6Y94>7L~<@gAE#+Kfwf$i2(#cab|&GcKR62@<g({Y4+l}
zh$pz$LE>74ch*(p-5w>&6RsG!c_fx14$&vksA#|e_tk6}KEoeD8VMF{Z3tT!^ft;^
z-$i#UZ=-japluYB2m(fV3Yj^fMYOa!6B=y(_uu;VzXlYWW}?~alR<|ekRW#6?(Qsv
z3=^m@oG~>9nG#7vW$c9wOspiAKus%}VS8)f^5o^wA%h1NP>zW=0S-A;R;H<fLK@))
zBGx2EZ_3eI#oGo+2%sqwJe%v@D-HG(ArPRx1>GY0hrRo`tKq)19Dfl1^y<2+BhOkr
zEt`S1&pZ!38-d<zp!W|~^+4}h;NpGmH=bN;`$lU|wzUTqt`|J2@%{H(EAj<iBF5A5
zwZA!Uf$@8_7Igpa)IcNps?jlU*z(mO2KutxAr7XwLx7Cj>)D;R9`;Bp-r5QDh#@!g
z5bQl-Z~z9Cum?=v)Wp=1UjT%p%-r$4TvEx|LsSuK7ty9rzafOOLTF9s((PT?54&Y1
zm(pDV$`6@rf{|8AOpQp>CLsdO)l<EA8782FPau2*1cDs>*_eP9Cbx#>62MIW=7yt?
z2eMR_Ew%zE&mG*$5e0^RP@)ni!0-3%+wh&r`cAF+dha>@IymyHi|e(=S9-IxU8}w?
zTfS&nbHA3iunuQ#{3;!(hwyO_j*@5=TPd=2umf&l;Pw@1fU)L}Vs`!ts$-}9bmIqY
zKMz_}f(;bWngaK@Uwd{(jYNPZS_e#)kyc7Gh`>&>fl68tREpkbjV3^DQLU^6;w?Et
z!5+7P)Xr>dsLDGR+A9)O*)I~MW?nuQj<5JWKk(?lns8dTpQgVs*a(GJOhn?cC>l;t
zj3=eELgsE!d?y`IObRBTX9%JgNhFd0GUV|iirZLZrjtOJxEsl&Vz>zu#iDT;DwBi>
z6yrwHk$Y#@Q#hHDv6jKFkUbK2z%E(SWNbL5(}}1CDpW&=MgXZKvBd2l+{F2hkeM+A
z&uGo09mx{)KhS-EHr+?oxFflrOf3%Io7NjTvfhw>awzK^`eR$xJG#bA<&GR%9J@dH
z(ZvTpUE_{zT5I#H%j(ND9b0M3Hg)DLu-J42Us_?@vLL>WlJomvxzf9ZV94)Byf@D>
z){~#K0c2TE5;k)q&(j%ab?QwgS9`Nf{Vx$L3JfsIyAkjC@cPpAJZrHAa!?x^^)qAH
z?kidUmAnPEHXWXqRv3whk22+*h!-}jtyya;IkZndc9xvlM>r0?AUmc<NXasjiG;j5
z=&VDsQqTd8%C>ZE8)zV{E6K3lhMywDsDbUPP_61#*HgS63rxaYonwL7uI;n*tESwX
zd1jiOAn;eEPUE^AvZQ2IG^r?Cs@~fSOU*lENm5lbII)UU!4_WyGb}57T7~2P@@W-4
z6+W%PQRY)}BP&|Tr{s}W(aQX?zk&!$@Jkh`f?t|<^Oxys-AxC5RiubMjlc+P5?lPu
zKWBoLQ3K7L7)=IlN0gWp*oMP^`RWePuLl`mCNP~$C!}Dl!Og;l1}4WC7T`CmQaYYe
zG08TAdt+j3)Nm0FF?nNFj%tRBY>8tR-ncY4X;`s5Bi}Ks<ClgmT{HOT&15Vp8~ot#
z*yX`XCaT$n#s}Vfb70)?7LAE0q86EfPu0osslmyq@qrO>a$v}CUX3Ve+5Dho=><0I
z^k9%Ht7q+C87AFj_)}}41}&nT&GX^irMtSV^{LSG(b3<wf8745x-PUo^&eQCdocIO
z(a+i+wy*g+e=)r2Z&|+k;O@QQr^3+<p*<_KuUyk<F#sJKwx++>nkeN|RyehKK^OXT
zdmqt0zcjDg4pLG_R_Iun{#<#a=)zguewL6ImKJndz&t$kap+0?x)9nvJoGTM=09m3
zzVKk7a5#A%t=!Rte%;<rbiB9po^CrtkLb(_ovZwp-Y>kma9+2cr?xd`ZOyvvIAu7U
z6;7|--sm66_K)boh;AQw>h$Ri18dF;I(NaWYxRapifECj5>ZuI#ixni&O&F@!B<x_
zjj^22I;ZKs6jbv)y>B<6Q@jyTW%{5tcrBBHPg44PGJN!%Uhx@a);U@#j}_nX#kfNq
zGn26MMkIO*K5Io#2X@hS7%glx=Nu)Q&ALXzO`cZU1<$a*Y8L79_zDonD@45x9XyyB
zW{XEm{WqxQ8{~S1UU`PPpCSK0(eQUH$FMIDba^jgJsV78mTCNs?P2=z2s)@DtUphe
X3e&(0GWyYTc|<1{roN>Udj9_azbhxu

literal 0
HcmV?d00001

diff --git a/v1/structured_output/__pycache__/utils.cpython-312.pyc b/v1/structured_output/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ca5c367bccecc460be835cc21d42aedf5e8e5cfc
GIT binary patch
literal 18018
zcmb_^dvqJuncocF?*|_M!RPQzNFpdwFN=DalBg#|$9g%YCBq<QNP@zHo&h8g25heD
z(@=@KqBcoIualZ?a*pX^=Y;NQyUK31tEAnYoF>}?7>ogp<*t0<ZR_^5rA_T=;{Buj
zzB`x!D8ce>&W?ncJNJFR``zz;-|v3IUs|mu3a+r`TcN6h6!jZ?kuR+jpx5`RDC#D~
zQY;;&BJ>zdV^|edjj6~}J*FW~?U)vx>aZ@NAJZ4}7{-hw%`|2vPs^AEo|>>VVjHuO
zJle25;uv!j^E)F|V^t)q3s*;K#%f4dAFhqK##|(92)iS7V|5YFn1`k~J>O00tsiS3
z&&Ej8SW~gC=15CWMN<)m+*`+5i}7t^?U2_P?uc}bb&@z!xGT~<)=g8<gDQ%1v1YjU
zyi=qDYk5a41;^S+s&zxEO-XGasrC)24kfjTq&hdGRw=2ioOi4fejfOBL!KIL(>rvr
z)y=GGY>Sb4_#fNCR==Vd>s3)lDYoVnimiPIW(uz{AIq>VNb6(WuTW!Kp+@ucxRh3Y
zXX}(!2EH_pN6E9Tybo+ETMsR4XWQ5Yc<x}^*+zKoWINa<c<y35*=Be?HmmY>eTt2G
zY0(^rMq}|nJQRxxqwsD$`}Eg_{fCYXA3Aw_^e99aMoynQ6bMdn5Z1~8b0`{$`@^xx
zNsfnj(?}pWI}!`9@TL;2NBKY`65yXm#Agz5(S8OBvxzWQjDY->q3G<{*d;C+N=oIA
zM<M6IKs-1ls;^G+q5*EC4p9{giq=>n9u7r0!5@tAoM@T|g*ksB9tsOdcbpGIg^3s+
z;dsGUN)VlKseUpt|Kv=3Ah~Hn-bjq)!h#P|d=KRfYRcxs0Ab)adc6Smn^cOPE=!by
zX-$YqYgsz2ix+v5qEf2q@_LF{r}c7~(o^AV)hpDyYME!!`jq}Kb@2#AT>vgh8`8#<
zF{MjFv9u|riyP(gDQcR?4EbGpPFpv=<6FuwNy)X#Jd}idX<f<y<FY+m;xZ-BuO3X9
zQreVZFC@QuOhZjlX>;5u=bf&SL#1a*JzZ0JlS3@+fnZ8gF-?PM6Dn2<=`OiM>G`fs
zUYThNP}y3!w?M53QtBUzHfbBsMSGdz2XXw^!?Y=m4|1`ZlnrM?rX;l90Xgg`P0E_G
zV+t9s1*k{fkbWuibOR~8;U?#hYoe)FyEIhFDz`x9$ogtbL&clqg44}%sPs%(<Qk@1
zOR;hYW~EIIm!7QtU4zUMX-ygB%yM0in$1f+Fk%O5OgmE!;c!{+fD#X0DRaD0j+^e1
zL!~Ecg1(sFDXtl)(fNCh!Ws9<wN7u6L#1a*4Kw6?SJ_2qYS!qr26{ofn;5u;W@f^(
zOi=<c<DqyYAY5YNF$Uxi$SDToUMMawu?Z$V#W6&XFjqqHDMprB%tRs@M3L$<Nfq*w
z!XOD@^@1!9{l)rv9+Z%S%vq?I=Y&K!j?Hk<Nf3W>!BBM4r&Ja~$>|?Q(aH3b#Hd%Q
zf}~;%QYZODG|KU%!o`8~#AAGL%6FEF3NgM|@}Z$hHGrhO65v^>3Lf{iU~y9<<i&_;
z6qObTfT#oo1((1X%Bvdv6f?e!dk%e7z%cX0k-m6jrf()R(;E-)lU%&_YGT*!$1d&S
z`of{{zM0whR4m$eIUJ7kUGDD_;(Q_)Pw*UDq+1`^0(>*GqG4}15E*9!`;*-PoI8JU
z?)=5M^X(1Cf`PEG9|BUwQ_#MEf_;v<J#;(p^TX>9#=fa9akG3agg^a%aCz0DR+tLR
zNSjXBe>o6NaH5ut&(3gXaU+YyqW*EH{1QycsHhIkB)n?A1&WJ0mb)AZLcy6()F0s@
zF@6>b=tEH!Vg;{Dv_H^EQ3uqIbF66Rx##^M)*p}gAvbqb)P~|*L=e?sE-E(4+{5~X
z87}B&xgcz0kQa7S$O1$Zn;xQ+A8Jf+LL6!pL{)S~)J!D8VID<^)LAX;qLZAc1L|>6
zR@4%PfQ^=qMf}l31W2rcC=?!|E>744Iu(s?8{l!15gR0`lTOGqhrZ8*13}JPB|79j
z^TnAHZSvS9HWNXgP}o@1No>h?V%3e(V6Y&LLgI9!3sO;Z1{0A)820$foIf@(A;9R>
z0{6VAlSn9<$-*d-(M;-<U$8>C8k<CUx$B~%tXgRb>_7#H;6+N)AsE)B&<yFAT#toh
z_Dd8Ja9_mrzVYJga9Fh!`IJ8fX<OkZ=wKzyQELq4?##QkXI<Opo>+5H+jnL(Org$`
z(bV2GITjl7&MjHzmb`Ny>m0~AxBtYqYC1l5=);z_tf66Ew_q-~S~DFxvaTKT=7PcV
zy)y+%W8ShmYuTN*?8{pA-I};Pp0gZZSF4&$pHV8KDP!=g=_pIp!n66>p=|BY`{tp-
zw*47P&$8=%%hok3#k8+EsOs9ellOI$tM2AgH=ZikYp<uSr51;-y|iS{Gdr@(j+H=`
zc`RewU8t@t*qZXT_N=Y_zFy<f&5f>^DC~Vrp^C{@?O(0hKd-x6-}I&3YB0^)Nry7E
z{aJH=p?>Ge<!t@_`IC2R>lgbMU&=Q4KB(<mpbG;-nS-Y@=gwyjp3e?EwP0I(Vfo3|
zUdlT93XX=nqb=)bTiUbYeDlDs9oyEllxr(gYV<4)E!ne;eOUwiuUo68st??+quh;o
zS69~6we(`nwKMP9optRl7;M+A*Q`s2*VL4IaGg@Qb#qVLw^4Nsi+ghJ?&Y07-uw36
zTlCupvhG0`+r4V{+{hhs!+ir)*K{*=BUP}tzn6I9h1XtK*>U^qeYL92G;e_p)OFl^
z>BdV-m)}ainZCV!;ia7W*u3QvjXtkw&uZG2jx0ZM`@#pB(|kSfLlAz-g+dlCdL23G
zCdE->G)sZyM~|sl4XXkTUo)%rYQ?H2ifZ$D5PsvZO!(PkjBFfF@wm`=CKwI~0s}Ig
zc@CCCNyYY+N<6oPl(;e#f(<4R4#%ztOhUlTPymU*F#%>OAWTWyAMS>im9|K^V6n5L
z$7sHSa!jw^A{|fBDaub0@K#crD=E#O?ma?no>o+0r8?Mo-YM=(@^ji;N|i&h;+<B-
zQIe4>rD9czLZk*|f$}SD&r)9X=oi{Ve4_WUPaTlmYd}c|yQ-*1LcqQSa(pT<uw$oa
z@Povf;r)J5$3;;}i^eJLDjS*vNi3>Ce2Q8>mhoytjlhK`L{o`)P#bsE53)}*U>1;6
zaRK!rlqHe`f!c`?=1(>}JkLHk@f%P^I1aZt>RxTjyyjICtlaAQo4y;qrTTp9_H66+
zT<gw!>%MI3zFU*I)+4#9qxq^QvsF*#s?N;o?^e4Ot}Ll?)$Q|!LT%H$=AW4eKaP4e
z{8Lct7uHy?j9F0b!VVo3HKVa82P_Dkj0Peckig{kg9ZUsAcQS`|MQ7JxR|2%``K6!
zXf*~E@~HZgCderH6Znd^KY*WrTE#2WXDYSUaNnfYHcJ^XdBXxx`0NAVfSXjj$OjZP
zUCxbA3a=8Mq`xYsO6H_A9hVBjy%M)p;#F3ylvbrE9)4%Ql;m5#qNWO*ouXlxYh`oj
z4D}T?RN(rQG7`QExLtQ?7f|{4>4|D%Pgp%`2<y_YW~S{5fs}x<)-+$y<4R-JY;4JE
zOddJP#fbtQj78(zRZx`2r@0_T1>y|G1wv7Qnc+bVizS5cY;Q0Y0VRWDL9s?AWr#8-
zfS5dYcI5cz@EQN1A;3NShmW5YZC^ipwD@}LiBrQO{bEw*3nB_48e~Z+(tSh$9t9Dg
ziV30)bT2M?S=7t~;!~oDyE+qyvIzksgJwDwih`IB*buB|(B)<js1Qw10AC;$rL|nI
zpS0u0ytb?CWbt(>7J;_$jwyT;s4D7<r3GYolnh1D;D(A(FDVLi?6w~}#UtHsz)yG&
zZgbQpo`yF(uX!@<yK<h#G8)(2TKCPTZ#<o8>C4q_og2MtcV548?MmL>nzgqswdd?z
zbH_f`d+ym=GlteXMt3otZ2zOn$5y6u_Mwbn=)Q?ES+2XUxvw`}Yg)LvYGjtazEb@!
z{hvtHk?hBordCWj`<{$p&u<KF*bJ*1@>QMLs?J<hH%OhboJW_wzMRb22Q!Ajhj&6{
zp&xr-p)0IL#g!#rX`%AzxDH4`u19YoG!<7C5|}kAR{gF<UV<PFP%=riRKQTC6|6+g
z1!6~ACJyLnFq$5`SRJe1unnomGIhXKi1x_?mpoz`@hSHMiSWwmVA0E(1LOg*QNl3{
z?;7RafT?CmZj+Z5!TT6kNAW;3$l<O(&cXH%YY3GFqU|!su3-Hn|8O`O7zdV{L^GMN
z9!cVSV9bUD2L1=4Od>iSOMp?sGO=hc8v?VMaJ!E=9%mwfSzNb5B7$l~I7Uogl1G>U
zLjsDkj4%~Tgjoh4OQk2o@=ip-Iuvkm2g4x_HcOwV0o#ltD-<wEI~rqXk^5(2;ZSf^
zGzGx|@`po_P@KnoTr~UrmjOe>EdJ3?=O7BrwMgKq03fB;O4g33fdwvz_2)-MPWjLG
z`_G*j_HUFP#CQQvRMdl+90g+V$X}u{6qy0z4z&YAgo_8*Ks+Goi|z57F^e`B<^nvL
zFL56E8ngmqNfKyDP;|(omHR5%NCGRrKcFO3JuC_MYfw3Ii|~hVo1;J<aQ5UJ-nrv<
z_2#_3>wSIKT~K&!*KBJlm3830T4OZ9l6JZlLMyJ@L#vJ>^V+)&9r=ddY(sCpVMn%M
z$4V^Ma3o`>yXR>}d9t)`r6cFrHE%1JJ(;H7_szWpi}U))YbRelRWMku8?PA`dNZy4
ztA>Gsy#`cXyL(B!YVXJxI>-u7I-lLU_3ATQdv_1@9=Z6!Kze^i0!^uBeJ^a?vNQdE
z{^HL!OQDVp$|Y_ZM7gxU{TpAo?aS+B8fpE&C8r&xuB)!AgX$0!R9ytHfS|A{+}={E
zZ>wH4X{fX&4ezXZo|>Rp`V~uB3n;J-@KOCWs*(~Q*Zk;K7wC(i1}T`Y0qR1i;(-fL
zN%~cnib7;kUcG<|oB01)CaDZ1$rM*4(}W@kcuSeuYf@@4M_*@EDHF8tPvf{a$W=*3
zrIa$l^YNNT=2ZH~*O%IiE0QW@V8ME+N4Z#(Qj>}TpEgI&qzo_{mY`}9=K`c<+5$MS
zBEjUA0bf-R&>N~(Yhi}0fEVjhRv1f7TtQx0eai4U#TrsZxEoWZ*QxL8<k7!Om-?5o
z%CXP~XUa6Kps%GCS%n5^GvM<yN@>8%f0NQpBM|h!l`@wQ`03UM65%zaNMf2=pkLLc
z^nZ_B9>9uqXMi#^6;!9yY1I`etV&z1P+m*&`XQbR#8Ik70y7MvI%RemNOi=HP`HOf
zf`n@VToeNJ2n4B=$^dXw#4=A4<*5wL9AXZGXeDSURs?n-kDEa6ex_0_CR9^4V1}?<
zCCqRM0^g-?QrA?|ipCC6#VbXXF$7(*7E=oR9!CR-TnT`+;7~-d+T?h!GL?l?>BvN$
zY(b02B|_W078U}HP(EtwusNznlR6Mj16%itG~?BYb+BWB9FG?fI0Wq^0*D#}2|=EN
z4QGP=laC9yQ}L(^h>kN~J3f49*ne*H@bGC=J`rdn^8nT(p`U0ZuXsQvAcYuaPO|&l
z8yYONm)s84CYuNXJX$g%OTg!sl*&TY!YJH+J4Y3q^?B#EtaIDSxs{_i=iYf8Kp0l%
zLhZLses5dW(p+%V<{eDd!Tb;`$GzFsy{nFWAi)<6@7tMs)viU?jlCI5%RPJTyp;&@
z1oj)m^{4p!6y+?Bu<K~jb%-1~;%1MeE3(*gN%eC~PtxK=P8^?&bHX6Qk3a#iHU9_;
zU&q@8IplTnxGRVbk`?KYh=$P0=3&}k$HkqG5JId1*n(hpp+LAeO`<6z$Xbo4B{hgf
zd<1wtFe_H^9GdP3Uq)aJ_z_anM#%AGH6(=rL=N~dyHp*27CW^Wo3)$<O(YcIhIu~5
z^QSS&1Uov*O#}eT=MmfU+W7B~tXxcx$^$Gb(w9W~vgjy|0f$3+#eWyF5>p#gn8-|g
zRw*G6q7>N#YPc!~k>SjQd88^tIw*||(Q84#UEn!fgvurHRdogS;eP~~{}O(}AH#|S
z7P((TZQ7Ifp3Hhr=Der!-ZNS6nN{z(RrmR<_uQK`OU|XCMS8LSHBH8Q4xq5C`~2T(
z%v#r4J+*1e+=)VK``i<S#?Cx|ZjF7p#{PWcu59D3eB*8a;O4dSvjwwb;ds7gYZm^S
zw-zilAJ=SN9?sPa%p32RYwp@Ti=990eAkm{-L`7q4oXQ&$I|g!v+suap3}4Vbk^Cm
z+BcN%JDTk~`U~S~-|0`PyYkgrvejFb&#hK(`=qV=-Rk9YEBz}^E|1-+%6a!@diLeo
z_TM=9nT|R{AER^3v7dF`dJ<HVeCv*EE8v*FZhh=_=fd#}bFAQQSe(ted+s)GDl~7$
z1+qrbds_>wo0iPWdv6(6URYDpO^4}qwYsH#jZ%B+?^~$$o@HaMZQ#bqd(GYXW?#11
zw|phnylcUH&tA7UlC$>|9QAoeXV%fVbZKQE=h&Hd?8`d#-3oo+ICjs{khipDEp1D?
zKd|(!9i^$J!L<`KWpM%c`@8iBP1QX`|L${$X+2I0W|*V5tiyYB|Gu~G2(8;7Ur`Fe
z3Z&Ojs+OZ6DC6YKmbZYsR7@o(QM}H8lS2tVLBmHW;eis0#Fg^{P-CqepQfXAaYZ7t
z<p+(51c%L7`+Wr`fsGi)MXnS`U%BOStS+wL4AY9DBA0>9lr9-PvTP^n8|7Dan3Vbq
z)lS7xmXNE1;+x?ZwA9lL2kmk#&{KV>rzy?LU=XG?FKVvPSE#G%r>QHn*N_~L&8X+j
zE2!vmGE9L6RDhX;lZ&V%08!NY#F~=fUJ~Q{51?zK$pb{HFl>Tsu&~aH=V8TjNr3@L
zlYsplYL@K;I0lsbAOP*{Nrt?L)`IoKJXbD!o&%I526%9Mb_+8O=bH~Cg5`$iM<Li=
zNZl1028n$o#$PJd6Q1=Yw-jYOh+zWKlm;W8n=1PobZn~^twc01i%uc3p*Iz{jB1M_
z%o(trredtmYa)1SARg!W9|Lg+g+$YNJfD+fFIqQ5en}W2@(H9X^B~%Wplk?+E9LiU
ziBy*Av2NH&CGkshkA_)F1LXfLv}FJW6YfC(U>3b?el}CTbyeSAu-E17y;*y2#?ZT_
zY0x@9u~Zivo`R$KzE*9utr;lTgB@L2M_0x%a1X7l{%k}4wUJM%8VglVuAV-hdFr{`
z=|JYm@ijbo9Z|!>c}fi@IMuc_N@cadj_uh}u+$bTb?aKS$24z+7+24`svle5wyuP4
zpUU-|&efioHx<0w=8da{u6uS5ocjFsuG#ZBrPVs`+UnL+wB2#nQM2&$x9u4_19GmF
zSyQX5%(_}*H$fL2&NZXP=={4iH5B+lz*C4n9@=`)O#R$!JUF2Kd5z~_ulnb`S_p3t
zL}&>ULG-U6fQQ4pqg=F<kQ#ZR3-l};5md63KnxWZF!)@+rV0p*vS2ION@!bv0D;!=
zdgMU>ouWZ|-wb{zH1U1e3f=*<hMLuR^?~!ys0sJYLsMMv5)+zGoCNSZCBPFU8sHIT
zBmj#+m<0^-YDE_S`S=r-(japj&pwr!APUrH$#38xU3)wh3&WD;6Wo_H4)9DUDm4#c
z092MO%n{i2IVJ{&GyIj1z)3X^UkyZN!k}W2;oy+=@82)?!5<O;8M(y4K{^~7UFvD$
z0k<Dyx&!0E?l!Md0=uESd{uE~aB$y4HIS~6DvpS>=?h~|d#bO`>)X^JQb{!wIP2B%
zufv29)elbMXTqVlr~(%-wU8KxcOcaafIH?ga*7%PJ>ga+!=WxYdE>D7pFy6@xJ>cj
zVUGHYq2Qoydb#0W2UnX1L9xAuXNRp>N9$6@2afJ}4FZ^#uU%dUFCARg<m|n9`?joo
zTh6{?UUSD@4cZDGRXP_Ae{<iR>bf;2z$$Asl*J*zmPK}jmVkxeM;5}%up~C_$Q2fW
zJFY+!Y#E!E>>e;)mF4g<E|?1VxePoA=Caz#N|kn6IVUVBW%pI$!2AZdgJIRLXwn*R
zH`KsW3+{$mc<P{K<qVCCliXOvum%HOUo_x>0%<)!7n+p*og!txT(^L^Zb<7{ecD*s
z*8vz%+><2tE&`00&^eBGf_YpCTvd!{fJo|DQ%X;ka*L6I{FVA>Dz(9y5mk5;4J)OA
zOKNc(00LBmb5n{t6+pDcIaSIG?tEs}N~}y3YfT%`y$gg-`3yPaT47$*6=7W`LKvm_
z2j^LR+6uE|`!WgwxC94gB^rXTGZ`s~M*N?C6+MNwQ&zsSa$izb(2A<q>WZ+8O&$sK
zR?+Z)5??tVq^D+Zsxw!jyUdxD(#qxp9E1TTv$Hj%kG0=d18`N`3;@_yV4-QnJ*|v?
zU93B0mvciuRFz;Is9y)Uiaa1cVSM&VJ(GJqNvCbmm%obU{PQWRU@u#@bqH9oo)R5_
zJK*Gv)z?3gZ_^G!1qWOIds0DholZL*K?Q|p%cx+h#JedaCxN<7p~K@pDsLfj1CoYq
znj%khDCE1!=-AA*RN~cmt33NDr#uGvS-#d@rdeI3@+pPCi;$cut-pdch60d+jZvGn
zl=Z|$X4GDq(Ub)&3Vqu0qNQX}Kn;q$1vM}mYG@!eG?w9FibR4wYvle{s@K~dxCe}D
zLM`A>5t0c=Iz(~jlrcR}^M?<P9ziPrREwf!Lt=Ptg5$x<fs+)9sd#)w80_l<Kgp@Y
zxDQTV`_NT<G7ybj?j!JtFE}&P2cC1|ec)Uf=lH&2Q$pYA;i1E)hJ6v1bckqDayP!D
z6;x7sXF&Y|0}6mn7E~SZC=h(1SRWVd1NSg+xRC4jO~oT&Ne3F*;FT#W2^CbbjT+UL
zsAi;Gk$hk%$z6uBWh8r)@-+i`U%W@g>2OSl0&(Nf2}J>$;=ln1RIri`#>e0!3{@*s
z(FnnC7V(9|wviHTBq7;+RPw23B5+cM$7g}!yl!D8p_Wp*q=Lf99DW*r842>VL6=9B
zggAO4Kv%B9R00uL8bDM^7NM2&d08MLz?$@)25(6)`+#c@eZzA@mH`JOm_~9ANbqaa
z@_hVHpmqLF;RarpKgIB$<L%#J1kK-uhvaA~AzUUrVT*!h8|9J}>0E}EDmkZMWeDhL
z4R+j@>3<o+4oS%?ZYhwPqR`qQ6nYr~Xzf%2wM)(?tSSj5ST#94aDPc|Wf_;}=AETQ
zk5&t84RF?5zUW`3XY~L_Fkl^r;N+2Go=?Q!P5@1W>VZemfx;)!-Jhc3Ob$&&x-D6I
zDkP9xz|f=&9OFirq!A8p;j92Wl1D-N)&}83H_pEY1p&p@U`?VCIgq&ihz87vPNYQ`
zyXd1}0jGrECGZ1+o(RcJmDs*)I?D2faY8_YfeE>1wqGB-Hn<S{)`7(*v*zZd*7wcr
zOYygoZzfmTfAG>RXSRFrR^a{a19z($GcDU!o?bb5YxWm)zc6K*&g81jW-MpHqp#<2
z`e6-SnY{0j$t#(uU(McM=|zO5sInL!x1!ybwSw(GaKY3*^yvmH7hSS#_$qwZ0w*wJ
z)hi+r{QB^mhfHiz-}cP2Z5KDSk+qVvJ+pb!fgW$_!ZQ~xzL37izY0wy>o1Hy6X;D2
z^^W;376Whu>%X|^!Z-l%rN#9MWES-kaP|+dI;^t)1n=dmtP18Iy901?aZ3=ATOU2W
z50`izC;4%xnVe5Ms)*e+z0|hE=Iop2HRvD$mRQEsy<EKvQQI)8>N^8B2X72!n)lo~
zo2x#UvmeSB4w0$l(cf^Ccy)_(N~8yi41NGjNH~~DHXe@xHXZ`cAQYU^?xyf~vdzZ~
zUj<)l^e*UD7<-TbP#-<;z+<30*)keKf1+X)=u-(^4!Br~`@k1QMN%iVL^OY)W>QR2
zM_TOW|0DD;Y3%NK=GpFxo4nmgP1}Y3wq)H<7`DbJ@o#3jQ{AOLbr6qBK>0w3gNqZK
z`rtw)m6f`cbOp-FBP=Mjmb6JgqP&WeszFB7U<Z?Jr{!6bhylVEoIG(GAk}j0Ad^&W
zVSpoULysRkk}(i&kYazSr2h&-XYqCcZx`VP<&ken<&y@$E}wyo=OUczC?-D<Dm+2*
zP^R<9d;FilO*C>KQ8*ri8NYz<>Hy1%rsL=?FTsBR3Q>F*Zwl**y2K2MKfVj1y;b~Q
zU_onfTz({tAUYJTWs5NuATs)<qZkwT|A00A72Yy<yA3x{OOo)jG#*^+u^t|W3=SyZ
z`pEwq3|fK-9@HZ#RjiWVN>e48%EEe>HgN2p5bfwH155^IdZc@gbSbZ?w8;4X2F;(u
z)%0E1oM1KezzM>_r5|ovHFpEnmucAj(~es&<OWY>c8_E{r*gK@jA683cIC~DS##s6
zxfwHgcIRy9fb~g@``g2Fr|!DzznwrQZg2!2S=XqvJJ$_r?Kyhgq}3j#!9jfU&itl5
z*-d+H9bVlul(QVnZW>zZxHh(^`L(qvvuS8<IAb|jaMsS9_@uslX?VH+gZkcUwt2%s
z2f!!`apDy%thzS?qH@n{Tj==ao;8)(>VYGeo5>r=rS_%gb8hc)Yu3Fb?;gmy2XgN1
zdG{bVU*Fo6b01jH6dX-5ZnNs>E>t&Vsyhp<oeL)l)$YYze{`VG+Ou%tw`*>y!S`7Q
zW$}<94(4p=jRp{o)|uD1vl{oJcj?5^-b~%rRZTxc*VN686g&;!CRglrzO2^>{%Bf_
zC+UK{YJt7>!qWD)4!n6_W!q}|u8*r*3N=i=raN2HU1;cD^et<bxgSrzJ)PNoGUpq~
z^q$Jpje=Krt!vFhb@aS7_~zhpaHT)jz5`BL7c>jgg_ia=lCLFSPvu+svn~BA?YWkn
z3zm-^jf-Q;J6E=>G~aqY;~l#F*s5dXZd1z}=U+R&G_ultYcSVzWWiK$FnLFJ7XJ4P
zLR8O@Rmagn*VcU3&TQAtT-Rfn&fVY~f6rNav*kw1QuV5{^NzdyZhc3geqiOXl}!Nt
z?%NMH&we=AYH-297U^a~%i{Bk{9?}=zSn%Y`b`V^JC4ReO+%(-$4YqR+1ve@rs3OH
zVNA{{@Gfd-dZX*LuBFE1E4TEy`o|aa8~U^>*K=sqak$`U%R9VThj+Pq)iLn9wP6}(
z=W8@&s3{m~@`eWZqG2($7+oG->HL#T?`_KLdm=aRwM_q$na0zrhBGif;E3Opb?v;>
zb*nDx8k&3Jj@|_mTd-|isreJnd!C=}yxo`Eb2`_5CbJcG{&N7C1DK5;JpiI@aa`Yh
zZTG^3oVhKdY5U#h;8<imME~}FGgZ_4Ii<0B?z)(QOQFavph)d5poqH)8m{xK>D5jT
zz~PYb@9u-b=&1jkqJbGe?O1$qd1`rVh5u>$t-zl_*D_59b5)0a;mlZ0KmpA3h42_G
z(VsnLKiQ}G`K}?`$?dAYR1Z@lwW?okH;z<kf4R>wV%7f2s)g{cYK<fNwZCd^7}>4;
z)ov|>A5zL;mDB4eXTPC_55#rgl%)BldR`6gNvc;2De5qB{eonG%n=l?sFZ470UWB7
z^BoW$cqQSNR;5&+b?8SQYMAJ{D0Tl~)&SA?HxCOz_{fUEFPh+xo(WC`P=x^32i!sf
zk_9DMCBCG-=b5$(7cP2}nhO^$^m|n$0S^v)w6IYZA@vd?s_2%H><v!E;M*a8K#;!@
zE9sfsL)rf`icWM=+Ng+hFZTlg42L)mtBxATybUM82Z8U>Cn=g}{}(MtauqnYz&S*b
zp#Pk{NyC?(HaK0Nex!yYLwc0>zk?dB@@?hODB}Mo+%`IZ823(cQSdJ2_a{3ZF%~6P
z4u^n;G{61tc!ZyE?R#%x#hFDBns;w`Z{l~vXYij?)zbX0vBeMIwqbUa5usy+G9Ca{
zfQ5ijz}^5zuQ(QfaA#>U78U;s$X*<fivM3&HI7IqgXa1F4H198QLN%95Sf(*(RKVM
zEh|II&gK5)_T?vkc=abO(lB0jRMDVZ{10sH0e=yir~}|usgtM%4i#j&S-<oyi29<k
zCJ`Nn4Yu^-lJV$#h}8T#WcVxW)&K;6vg`0&f^XeKx%a;}k#p?>R|lJCarliBubs$Z
zcXM6GbB)Kdw&Qb03+Af1QNlW26A$iU6c5y-coYOYg7^GxyaC6+hsSVBTFO7rEYqS?
zW$rLK>HN}+g?@lHMdM1k;A6S?GsK@{3-R%K29Sn}7lBUS!HlE`iVXf4xIru`MkVTr
z8a#D+D4Jw|*fq$UG@|DiQQyjXv>QMAm`H%HJ$&@RgJ7cgC*USlDbBDy*%y|d!_+BE
z)q&d-=(0SLU(}M15BXja=DA7ks<hhsF~US#U*pg@fq2Y{MsyY?kwvdt{B+cZF1vgR
z3z*3}d<6(l6p!bHqMO7>-;qkalK!p$Z@^R!Nxj?;_!ZCj$VZGmNgI@AiA<UUa`NPK
z`OE$mf#mY_5BTc?qK<rQD~KBW>jcEjiML@hcyuAQl3sz0rTpCksn7CXF@Uk*jEc>2
z@9|_Fkg>^`1bi`ssx0{^lCT%BJV0=8Kq%^@uP69tv7HyOyq0_pK|V>8j?m+ngx<rV
z9zUgkPZ;<mjQSUN`w`yo;F}z)5w(*nkOw~Kflqa%&w%#xCRjS~pAshE4tpU@|E-Rq
z+kZpZKBPP!QpS%c<~LN;hxp&}5!Lb$)$lh|-A7dWN0jfcsly+u9Up3%KhkXdYt4zA
z=ER4Z`oGca|1X-|ADe0x&b@Z@_2Wy)oM~Y0&>ds-!r|AtU-vHgbH*KW2k$r=7DwLh
ze#e{HF`9EeF?ZrlU0cD>aK~W(ma$;izOL7Jbl_pLW}#~8LE&>X!ZLQc=T3ZVtXcSa
z&e%MsyJxV>Y1ee4G<}9HxH{L=By_K)bxlh`pb}IyuIZ&PIM8|4j8fP{=}hZp68^vA
zDl6Um83ng>#!c_}e0w$BxweIJw=Rs|oW3!gY25*zA7-fPLT$^!>6>FW#xl%~TrI?a
z#_>2!y9)M(H8lqARn@L(F#yf#8rSt0TtA{>Xy^J7x`}qIKTf|y)9v>UYYcQX5jp=K
DbA4dH

literal 0
HcmV?d00001

diff --git a/v1/structured_output/backend_guidance.py b/v1/structured_output/backend_guidance.py
new file mode 100644
index 0000000..2962a43
--- /dev/null
+++ b/v1/structured_output/backend_guidance.py
@@ -0,0 +1,265 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import copy
+import json
+import os
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.sampling_params import SamplingParams
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputBackend,
+    StructuredOutputGrammar,
+    StructuredOutputOptions,
+)
+from vllm.v1.structured_output.request import get_structured_output_key
+
+if TYPE_CHECKING:
+    import llguidance
+    import llguidance.hf as llguidance_hf
+    import llguidance.torch as llguidance_torch
+else:
+    llguidance = LazyLoader("llguidance", globals(), "llguidance")
+    llguidance_hf = LazyLoader("llguidance.hf", globals(), "llguidance.hf")
+    llguidance_torch = LazyLoader("llguidance.torch", globals(), "llguidance.torch")
+
+logger = init_logger(__name__)
+
+
+def _walk_json_for_additional_properties(data: object):
+    if isinstance(data, dict):
+        for value in data.values():
+            _walk_json_for_additional_properties(value)
+        if "additionalProperties" not in data and (
+            "properties" in data or "patternProperties" in data
+        ):
+            data["additionalProperties"] = False
+    elif isinstance(data, list):
+        for item in data:
+            _walk_json_for_additional_properties(item)
+
+
+def process_for_additional_properties(
+    guide_json: str | dict[str, Any],
+) -> dict[str, Any]:
+    if isinstance(guide_json, str):
+        guide_json_obj = json.loads(guide_json)
+    else:
+        # copy for modifications
+        guide_json_obj = copy.deepcopy(guide_json)
+    _walk_json_for_additional_properties(guide_json_obj)
+    return guide_json_obj
+
+
+@dataclass
+class GuidanceBackend(StructuredOutputBackend):
+    def __post_init__(self):
+        self.disable_any_whitespace = (
+            self.vllm_config.structured_outputs_config.disable_any_whitespace
+        )
+        self.disable_additional_properties = (
+            self.vllm_config.structured_outputs_config.disable_additional_properties
+        )
+
+        self.ll_tokenizer = llguidance_hf.from_tokenizer(
+            self.tokenizer, self.vocab_size
+        )
+
+    def compile_grammar(
+        self, request_type: StructuredOutputOptions, grammar_spec: str
+    ) -> StructuredOutputGrammar:
+        self.serialized_grammar = serialize_guidance_grammar(
+            request_type,
+            grammar_spec,
+            self.disable_any_whitespace,
+            self.disable_additional_properties,
+        )
+
+        ll_matcher = llguidance.LLMatcher(
+            self.ll_tokenizer,
+            self.serialized_grammar,
+            log_level=int(os.environ.get("LLGUIDANCE_LOG_LEVEL", "1")),
+        )
+
+        r = GuidanceGrammar(
+            ll_matcher=ll_matcher,
+            ll_tokenizer=self.ll_tokenizer,
+            vocab_size=self.vocab_size,
+        )
+
+        r.check_error()
+        return r
+
+    def allocate_token_bitmask(self, max_num_seqs: int):
+        return llguidance_torch.allocate_token_bitmask(
+            max_num_seqs, self.ll_tokenizer.vocab_size
+        )
+
+    def destroy(self):
+        pass
+
+
+@dataclass
+class GuidanceGrammar(StructuredOutputGrammar):
+    ll_matcher: llguidance.LLMatcher
+    ll_tokenizer: llguidance.LLTokenizer
+    vocab_size: int
+    printed_error: bool = False
+    terminated: bool = False
+    rollback_lag: int = 0
+
+    def check_error(self):
+        if not self.printed_error:
+            err = self.ll_matcher.get_error()
+            if err:
+                self.printed_error = True
+                logger.warning("LLMatcher error: %s", err)
+
+    def accept_tokens(self, request_id: str, tokens: list[int]) -> bool:
+        """Accepts a list of tokens and advances the parser.
+
+        Returns True if the parser was advanced successfully.
+        Returns False if the parser failed to advance.
+        """
+
+        if self.ll_tokenizer.eos_token in tokens:
+            if self.ll_matcher.is_stopped() and not self.terminated:
+                self.rollback_lag = 1
+            self.terminated = True
+
+        if self.ll_matcher.is_stopped():
+            return True
+
+        # TODO - Add jump decoding support in the future:
+        # self.ll_matcher.compute_ff_bytes() - this should always work
+        # self.ll_matcher.compute_ff_tokens() - this only works for
+        #   "canonical" tokenizers
+        # For conversion between the two, see
+        # https://github.com/guidance-ai/llguidance/blob/main/docs/fast_forward.md
+
+        r = self.ll_matcher.consume_tokens(tokens)
+
+        self.check_error()
+
+        return r
+
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """Checks if the list of tokens are accepted by the parser in sequence.
+        Will not advance the parser.
+
+        Returns the prefix list of tokens that are accepted by the parser.
+        """
+        if len(tokens) == 0:
+            return []
+        if self.ll_matcher.is_stopped():
+            return []
+
+        num_tokens = self.ll_matcher.validate_tokens(tokens)
+
+        self.check_error()
+
+        return tokens[:num_tokens]
+
+    def rollback(self, num_tokens: int) -> None:
+        if num_tokens > 0:
+            self.ll_matcher.rollback(num_tokens - self.rollback_lag)
+            self.terminated = False
+            self.rollback_lag = 0
+            self.check_error()
+
+    def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
+        # this will automatically return [EOS] mask if the matcher is stopped
+        # or otherwise in an error state
+        llguidance_torch.fill_next_token_bitmask(self.ll_matcher, bitmask, idx)
+        self.check_error()
+
+    def is_terminated(self) -> bool:
+        return self.terminated
+
+    def reset(self):
+        # This method may be not needed anymore? TODO
+        self.ll_matcher.reset()
+
+
+def serialize_guidance_grammar(
+    request_type: StructuredOutputOptions,
+    grammar_spec: str | dict[str, Any],
+    disable_any_whitespace: bool = False,
+    disable_additional_properties: bool = False,
+) -> str:
+    def _process_schema(
+        grammar_spec: str | dict[str, Any],
+    ) -> str:
+        if disable_additional_properties:
+            grammar_spec = process_for_additional_properties(grammar_spec)
+        return llguidance.LLMatcher.grammar_from_json_schema(
+            grammar_spec,
+            defaults={
+                "whitespace_flexible": not disable_any_whitespace,
+            },
+        )
+
+    if request_type == StructuredOutputOptions.JSON:
+        return _process_schema(grammar_spec)
+    elif request_type == StructuredOutputOptions.JSON_OBJECT:
+        return llguidance.LLMatcher.grammar_from_json_schema(
+            '{"type": "object"}',
+            defaults={
+                "whitespace_flexible": not disable_any_whitespace,
+            },
+        )
+    else:
+        if request_type == StructuredOutputOptions.REGEX:
+            tp = "regex"
+        elif request_type == StructuredOutputOptions.GRAMMAR:
+            tp = "grammar"
+        elif request_type == StructuredOutputOptions.CHOICE:
+            tp = "choice"
+        elif request_type == StructuredOutputOptions.STRUCTURAL_TAG:
+            if isinstance(grammar_spec, str):
+                s_tag = json.loads(grammar_spec)
+            else:
+                s_tag = grammar_spec
+            triggers: list[str] = s_tag["triggers"]
+            tags: list[llguidance.StructTag] = []
+            for s in s_tag["structures"]:
+                begin: str = s["begin"]
+                trig = next((t for t in triggers if begin.startswith(t)), None)
+                if trig is None:
+                    raise ValueError(
+                        f"Trigger {begin} not found in triggers {triggers}"
+                    )
+                tags.append(
+                    llguidance.StructTag(
+                        trigger=trig,
+                        begin=s["begin"],
+                        grammar=_process_schema(s["schema"]),
+                        end=s["end"],
+                    )
+                )
+            if not tags:
+                raise ValueError("No structural tags found in the grammar spec.")
+            return llguidance.StructTag.to_grammar(tags)
+        else:
+            logger.error(
+                "Validation should have already occurred. Please file an issue."
+            )
+            raise ValueError(
+                f"grammar is not of valid supported types. ({request_type!s})"
+            )
+        return llguidance.grammar_from(tp, grammar_spec)
+
+
+def validate_guidance_grammar(
+    sampling_params: SamplingParams, tokenizer: llguidance.LLTokenizer | None = None
+) -> None:
+    tp, grm = get_structured_output_key(sampling_params.structured_outputs)
+    guidance_grm = serialize_guidance_grammar(tp, grm)
+    err = llguidance.LLMatcher.validate_grammar(guidance_grm, tokenizer)
+    if err:
+        raise ValueError(f"Grammar error: {err}")
diff --git a/v1/structured_output/backend_lm_format_enforcer.py b/v1/structured_output/backend_lm_format_enforcer.py
new file mode 100644
index 0000000..150c57f
--- /dev/null
+++ b/v1/structured_output/backend_lm_format_enforcer.py
@@ -0,0 +1,177 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import ast
+import json
+from dataclasses import dataclass, field
+from functools import lru_cache
+from typing import TYPE_CHECKING
+
+import torch
+from transformers import PreTrainedTokenizerBase
+
+from vllm.sampling_params import SamplingParams
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputBackend,
+    StructuredOutputGrammar,
+    StructuredOutputOptions,
+)
+
+if TYPE_CHECKING:
+    import lmformatenforcer
+    import lmformatenforcer.integrations.vllm as lmfe_vllm
+else:
+    lmformatenforcer = LazyLoader("lmformatenforcer", globals(), "lmformatenforcer")
+    lmfe_vllm = LazyLoader(
+        "lmformatenforcer.integrations.vllm",
+        globals(),
+        "lmformatenforcer.integrations.vllm",
+    )
+
+
+@lru_cache
+def _cached_build_vllm_token_enforcer_tokenizer_data(
+    tokenizer: PreTrainedTokenizerBase, vocab_size: int
+) -> "lmfe_vllm.TokenEnforcerTokenizerData":
+    return lmfe_vllm.build_vllm_token_enforcer_tokenizer_data(
+        tokenizer, use_bitmask=True, vocab_size=vocab_size
+    )
+
+
+@dataclass
+class LMFormatEnforcerGrammar(StructuredOutputGrammar):
+    token_enforcer: lmformatenforcer.TokenEnforcer
+    current_tokens_prefix: list[int] = field(default_factory=list)
+
+    def accept_tokens(self, request_id: str, tokens: list[int]) -> bool:
+        original_len = len(self.current_tokens_prefix)
+        for token in tokens:
+            if not self.token_enforcer.get_allowed_tokens(
+                self.current_tokens_prefix
+            ).is_token_allowed(token):
+                # Rollback partial updates to ensure atomicity.
+                del self.current_tokens_prefix[original_len:]
+                return False
+            self.current_tokens_prefix.append(token)
+        return True
+
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        for prefix_length in range(len(tokens)):
+            prefix = tokens[:prefix_length]
+            next_token = tokens[prefix_length]
+            if not self.token_enforcer.get_allowed_tokens(
+                self.current_tokens_prefix + prefix
+            ).is_token_allowed(next_token):
+                break
+        else:
+            return tokens
+
+        return tokens[:prefix_length]
+
+    def rollback(self, num_tokens: int) -> None:
+        self.current_tokens_prefix = self.current_tokens_prefix[:-num_tokens]
+
+    def fill_bitmask(self, bitmask: torch.Tensor, batch_index: int) -> None:
+        allowed_tokens = self.token_enforcer.get_allowed_tokens(
+            self.current_tokens_prefix
+        )
+        bitmask[batch_index] = allowed_tokens.allowed_tokens
+
+    def is_terminated(self) -> bool:
+        # We are considered terminated if the prefix ends with eos_token_id
+        return_value = (
+            len(self.current_tokens_prefix) > 0
+            and self.current_tokens_prefix[-1] == self.token_enforcer.eos_token_id
+        )
+        return return_value
+
+    def reset(self):
+        self.current_tokens_prefix = []
+
+
+@dataclass
+class LMFormatEnforcerBackend(StructuredOutputBackend):
+    def __post_init__(self):
+        self.tokenizer_data = _cached_build_vllm_token_enforcer_tokenizer_data(
+            self.tokenizer, self.vocab_size
+        )
+
+    def compile_grammar(
+        self, request_type: StructuredOutputOptions, grammar_spec: str
+    ) -> StructuredOutputGrammar:
+        character_level_parser: lmformatenforcer.CharacterLevelParser
+        if request_type == StructuredOutputOptions.JSON:
+            spec_dict = json.loads(grammar_spec)
+            character_level_parser = lmformatenforcer.JsonSchemaParser(spec_dict)
+        elif request_type == StructuredOutputOptions.JSON_OBJECT:
+            character_level_parser = lmformatenforcer.JsonSchemaParser(None)
+        elif request_type == StructuredOutputOptions.REGEX:
+            character_level_parser = lmformatenforcer.RegexParser(grammar_spec)
+        elif request_type == StructuredOutputOptions.CHOICE:
+            choices = ast.literal_eval(grammar_spec)
+            character_level_parser = lmformatenforcer.UnionParser(
+                [lmformatenforcer.StringParser(choice) for choice in choices]
+            )
+        else:
+            raise ValueError(
+                f"Invalid request type for LM Format Enforcer backend({request_type!s})"
+            )
+        max_rollback_tokens = (
+            self.vllm_config.speculative_config.num_speculative_tokens
+            if self.vllm_config.speculative_config is not None
+            else 0
+        )
+
+        if max_rollback_tokens > 0:
+            raise ValueError(
+                "LM Format Enforcer backend does not support speculative tokens"
+            )
+
+        token_enforcer = lmformatenforcer.TokenEnforcer(
+            tokenizer_data=self.tokenizer_data,
+            parser=character_level_parser,
+        )
+        return LMFormatEnforcerGrammar(token_enforcer)
+
+    def allocate_token_bitmask(self, max_num_seqs: int) -> torch.Tensor:
+        return torch.full(
+            (max_num_seqs, (self.vocab_size + 31) // 32),
+            -1,
+            dtype=torch.int32,
+            pin_memory=torch.cuda.is_available(),
+        )
+
+    def destroy(self):
+        pass
+
+
+def validate_structured_output_request_lm_format_enforcer(params: SamplingParams):
+    if params.structured_outputs is None:
+        return
+
+    so_params = params.structured_outputs
+
+    if so_params.regex:
+        return
+    elif so_params.json:
+        if isinstance(so_params.json, str):
+            try:
+                # make sure schema is valid json
+                json.loads(so_params.json)
+            except json.JSONDecodeError as e:
+                raise ValueError("Invalid JSON grammar specification.") from e
+        else:
+            try:
+                json.dumps(so_params.json)
+            except Exception as e:
+                raise ValueError(
+                    f"Error serializing structured outputs jsonschema: {e}"
+                ) from e
+        return
+    elif so_params.choice:
+        return
+    elif so_params.grammar:
+        raise ValueError(
+            "LM Format Enforcer structured outputs backend "
+            "does not support grammar specifications"
+        )
diff --git a/v1/structured_output/backend_outlines.py b/v1/structured_output/backend_outlines.py
new file mode 100644
index 0000000..3491607
--- /dev/null
+++ b/v1/structured_output/backend_outlines.py
@@ -0,0 +1,324 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright 2025-present the Outlines developers
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from __future__ import annotations
+
+import ast
+import importlib
+import json
+import sys
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING
+
+import torch
+from regex import escape as regex_escape
+
+from vllm.sampling_params import SamplingParams
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputBackend,
+    StructuredOutputGrammar,
+    StructuredOutputOptions,
+)
+from vllm.v1.structured_output.utils import (
+    OutlinesVocabulary,
+    get_outlines_cache,
+    get_outlines_vocabulary,
+)
+
+if TYPE_CHECKING:
+    import outlines_core as oc
+    import outlines_core.json_schema as json_schema
+else:
+    oc = LazyLoader("oc", globals(), "outlines_core")
+    json_schema = LazyLoader("json_schema", globals(), "outlines_core.json_schema")
+
+# Python 3.11+ sre_parse and sre_constants
+# are deprecated, so we must import them from re
+if sys.version_info >= (3, 11):
+    # Hack to get around pre-commit regex module rule
+    # because going through re is the only way to get sre_parse
+    # and sre_constants in Python 3.11+
+    _re = importlib.import_module("re")
+    sre_parse = _re._parser
+    sre_constants = _re._constants
+else:
+    import sre_constants
+    import sre_parse
+
+
+@dataclass
+class OutlinesBackend(StructuredOutputBackend):
+    def __post_init__(self):
+        self.vocabulary = get_outlines_vocabulary(self.tokenizer)
+        self.cache = get_outlines_cache()
+
+    def _compile_index(
+        self, regex_string: str, vocabulary: OutlinesVocabulary
+    ) -> oc.Index:
+        cache_key = f"{vocabulary._hash}_{regex_string}"
+        if cache_key in self.cache:
+            return self.cache[cache_key]
+
+        index = oc.Index(regex_string, vocabulary.inner)
+        self.cache[cache_key] = index
+
+        return index
+
+    def compile_grammar(
+        self, request_type: StructuredOutputOptions, grammar_spec: str
+    ) -> StructuredOutputGrammar:
+        if request_type == StructuredOutputOptions.JSON:
+            regex = json_schema.build_regex_from_schema(grammar_spec)
+        elif request_type == StructuredOutputOptions.REGEX:
+            regex = grammar_spec
+        elif request_type == StructuredOutputOptions.CHOICE:
+            choices = ast.literal_eval(grammar_spec)
+            choices = [regex_escape(c) for c in choices]
+            regex = "(" + "|".join(choices) + ")"
+        else:
+            raise ValueError(
+                f"Invalid request type for Outlines backend ({request_type!s})"
+            )
+        index = self._compile_index(regex, self.vocabulary)
+        max_rollback_tokens = (
+            self.vllm_config.speculative_config.num_speculative_tokens
+            if self.vllm_config.speculative_config is not None
+            else 0
+        )
+        return OutlinesGrammar(
+            vocab_size=self.vocab_size,
+            guide=oc.Guide(index, max_rollback=max_rollback_tokens),
+        )
+
+    def allocate_token_bitmask(self, max_num_seqs: int) -> torch.Tensor:
+        return torch.full(
+            (max_num_seqs, (self.vocab_size + 31) // 32),
+            -1,
+            dtype=torch.int32,
+            pin_memory=torch.cuda.is_available(),
+        )
+
+    def destroy(self):
+        pass
+
+
+@dataclass
+class OutlinesGrammar(StructuredOutputGrammar):
+    vocab_size: int
+    guide: oc.Guide = field(hash=False)
+    num_processed_tokens: int = field(
+        default_factory=lambda: 0, repr=False, hash=False, init=False
+    )
+
+    # outlines_core signals done on DFA accept; vLLM expects done after EOS.
+    # We delay the finished flag by one step so EOS can still be emitted.
+    _prev_finished: bool = field(default=False, init=False, repr=False, hash=False)
+
+    def accept_tokens(self, request_id: str, tokens: list[int]) -> bool:
+        """Accepts a list of tokens and advances the FSM.
+
+        Returns True if the FSM was advanced successfully.
+        Returns False if the FSM failed to advance.
+        """
+        if self.guide.accepts_tokens(tokens):
+            # Advance cannot fail because we checked Guide.accepts_tokens()
+            for t in tokens:
+                self.guide.advance(t)
+                self.num_processed_tokens += 1
+            return True
+        return False
+
+    def rollback(self, num_tokens: int) -> None:
+        self.guide.rollback_state(num_tokens)
+        self.num_processed_tokens -= num_tokens
+
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        accepted: list[int] = []
+        for tok in tokens:
+            accepted.append(tok)
+            if not self.guide.accepts_tokens(accepted):
+                accepted.pop()
+                break
+        return accepted
+
+    def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
+        mask = bitmask[idx]
+        self.guide.write_mask_into(mask.data_ptr(), mask.numel(), mask.element_size())
+
+    def is_terminated(self) -> bool:
+        curr = self.guide.is_finished()
+        prev = self._prev_finished
+        self._prev_finished = curr
+        return prev
+
+    def reset(self):
+        self.num_processed_tokens = 0
+        self._prev_finished = False
+        self.guide.reset()
+
+
+def validate_structured_output_request_outlines(params: SamplingParams):
+    if params.structured_outputs is None:
+        return
+
+    so_params = params.structured_outputs
+
+    if so_params.regex:
+        validate_regex_is_buildable(so_params.regex)
+    elif so_params.json:
+        if isinstance(so_params.json, str):
+            try:
+                # make sure schema is valid json
+                json.loads(so_params.json)
+                schema = so_params.json
+            except json.JSONDecodeError as e:
+                raise ValueError("Invalid JSON grammar specification.") from e
+        else:
+            try:
+                schema = json.dumps(so_params.json)
+            except Exception as e:
+                raise ValueError(
+                    f"Error serializing structured outputs jsonschema: {e}"
+                ) from e
+        pattern = json_schema.build_regex_from_schema(schema)
+        validate_regex_is_buildable(pattern)
+    elif so_params.choice:
+        choices = [regex_escape(str(choice)) for choice in so_params.choice]
+        regex = "(" + "|".join(choices) + ")"
+        validate_regex_is_buildable(regex)
+    elif so_params.grammar:
+        raise ValueError(
+            "Outlines structured outputs backend "
+            "does not support grammar specifications"
+        )
+
+
+def _prefix_needs_context(parsed) -> bool:
+    """Return True if there's a look-around/anchor before any consumer."""
+
+    def subpattern_consumes(parsed) -> bool:
+        """Return True if subpattern can consume at least one character."""
+        tokens = parsed.data if hasattr(parsed, "data") else parsed
+        for ttype, tval in tokens:
+            # literal, character class, or dot always consumes
+            if ttype in (sre_parse.LITERAL, sre_parse.IN, sre_parse.ANY):
+                return True
+            # quantified subpattern: check inner pattern
+            elif ttype == sre_parse.MAX_REPEAT:
+                _, mx, sub = tval
+                if mx != 0 and subpattern_consumes(sub):
+                    return True
+            # alternation: if any branch consumes, the whole does
+            elif ttype == sre_parse.BRANCH:
+                _, branches = tval
+                if any(subpattern_consumes(br) for br in branches):
+                    return True
+            # grouped subpattern: recurse into its contents
+            elif ttype == sre_parse.SUBPATTERN and subpattern_consumes(tval[3]):
+                return True
+        # No consumers, return False
+        return False
+
+    tokens = parsed.data if hasattr(parsed, "data") else parsed
+    for ttype, tval in tokens:
+        # Direct anchors or look-around
+        if ttype == sre_parse.AT or ttype in (
+            sre_constants.ASSERT,
+            sre_constants.ASSERT_NOT,
+        ):
+            return True
+
+        # Nested subpattern: check
+        if ttype == sre_parse.SUBPATTERN:
+            # tval: (group, add_flags, del_flags, subpattern)
+            if _prefix_needs_context(tval[3]):
+                return True
+            if subpattern_consumes(tval[3]):
+                return False
+
+        # if any branch has a prefix anchor => True,
+        # else if at least one branch consumes => prefix ends => False
+        elif ttype == sre_parse.BRANCH:
+            saw_consumer = False
+            for br in tval[1]:
+                if _prefix_needs_context(br):
+                    return True
+                if subpattern_consumes(br):
+                    saw_consumer = True
+            if saw_consumer:
+                return False
+
+        # Immediate consumer tokens
+        elif ttype in (sre_parse.LITERAL, sre_parse.IN, sre_parse.ANY):
+            return False
+
+        # if subpattern has anchor => True, if it can consume => stop
+        elif ttype == sre_parse.MAX_REPEAT:
+            if _prefix_needs_context(tval[2]):
+                return True
+            if subpattern_consumes(tval[2]):
+                return False
+
+    return False
+
+
+def _check_unsupported(parsed) -> None:
+    """Check for regex features unsupported by regex-automata"""
+    tokens = parsed.data if hasattr(parsed, "data") else parsed
+    for ttype, tval in tokens:
+        # backreference
+        if ttype in (sre_parse.GROUPREF, sre_parse.GROUPREF_EXISTS):
+            raise ValueError("Backreferences are unsupported.")
+
+        # look-around assertion
+        elif ttype in (sre_constants.ASSERT, sre_constants.ASSERT_NOT):
+            raise ValueError("Look-Around assertion are unsupported.")
+
+        # unicode word boundaries
+        elif ttype == sre_parse.AT:
+            if tval in (sre_constants.AT_BOUNDARY, sre_constants.AT_NON_BOUNDARY):
+                raise ValueError("Unicode word boundaries are unsupported.")
+
+        elif ttype == sre_parse.BRANCH:
+            # tval is (None, branches)
+            for branch in tval[1]:
+                _check_unsupported(branch)
+
+        # tval is (min, max, subpattern)
+        elif ttype == sre_parse.MAX_REPEAT:
+            _check_unsupported(tval[2])
+
+
+def validate_regex_is_buildable(pattern: str) -> None:
+    """
+    Validates that the input regex is not using unsupported features
+    of the `regex-automata` crate (outlines_core regex engine) and has a
+    universal start state.
+    definition of universal start state used can be found at:
+    https://docs.rs/regex-automata/latest/regex_automata/dfa/trait.Automaton.html#method.universal_start_state
+    """
+    try:
+        parsed = sre_parse.parse(pattern)
+
+    except sre_constants.error as e:
+        raise ValueError(f"Error parsing regex: {e}") from e
+
+    try:
+        _check_unsupported(parsed)
+    except ValueError as e:
+        raise ValueError(
+            f"Regex uses unsupported feature for structured outputs: {e}. "
+            "Only basic matching constructs are supported—lookarounds, "
+            "backreferences, and unicode boundaries are not."
+        ) from e
+
+    if _prefix_needs_context(parsed):
+        raise ValueError(
+            "Regex does not have a anchored universal start state"
+            "This means that the Regex uses anchors (^) or look-arounds "
+            "in a way which requires context before any token is matched."
+            "structured outputs needs regexes that can match without needing "
+            "that context. Try rewriting the pattern without using these "
+            f"constructs. Pattern:\n{pattern}"
+        )
diff --git a/v1/structured_output/backend_types.py b/v1/structured_output/backend_types.py
new file mode 100644
index 0000000..7dc9589
--- /dev/null
+++ b/v1/structured_output/backend_types.py
@@ -0,0 +1,136 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import enum
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    import torch
+
+    from vllm.config import VllmConfig
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
+else:
+    VllmConfig = object
+    AnyTokenizer = object
+
+
+class StructuredOutputOptions(enum.Enum):
+    JSON = enum.auto()
+    JSON_OBJECT = enum.auto()
+    REGEX = enum.auto()
+    GRAMMAR = enum.auto()
+    CHOICE = enum.auto()
+    STRUCTURAL_TAG = enum.auto()
+
+
+StructuredOutputKey = tuple[StructuredOutputOptions, str]
+
+
+class StructuredOutputGrammar(ABC):
+    """Request-level backend for structured output requests."""
+
+    @abstractmethod
+    def accept_tokens(self, request_id: str, tokens: list[int]) -> bool:
+        """
+        Determines whether the provided tokens are accepted for the
+        given request.
+
+        Args:
+            request_id (str): The unique identifier for the request.
+            tokens (list[int]): A list of token IDs to evaluate.
+
+        Returns:
+            bool: True if the tokens are accepted, False otherwise.
+        """
+
+    @abstractmethod
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """
+        Validates the provided tokens against the grammar.
+        Will not advance the FSM.
+
+        Args:
+            tokens (list[int]): A list of token IDs to validate.
+
+        Returns:
+            list[int]: A list of accepted token IDs. Will be a prefix
+                of the input tokens, and empty if none are accepted.
+        """
+
+    @abstractmethod
+    def rollback(self, num_tokens: int) -> None:
+        """
+        Rolls back the state of the grammar by a specified number of tokens.
+        Will also revert counters for the number of processed tokens.
+
+        Args:
+            num_tokens (int): The number of tokens to roll back.
+        """
+
+    @abstractmethod
+    def fill_bitmask(self, bitmask: "torch.Tensor", batch_index: int) -> None:
+        """
+        Fills the bitmask for a specific batch index.
+
+        Args:
+            bitmask (torch.Tensor): The bitmask to fill
+            batch_index (int): The index in the bitmask to fill
+        """
+
+    @abstractmethod
+    def is_terminated(self) -> bool:
+        """
+        Checks whether the structured output process has terminated.
+
+        Returns:
+            bool: True if the process is terminated, False otherwise.
+        """
+
+    @abstractmethod
+    def reset(self):
+        """
+        Resets the state of the structured output grammar.
+        """
+
+
+@dataclass
+class StructuredOutputBackend(ABC):
+    """Engine-level backend for structured output requests."""
+
+    vllm_config: VllmConfig
+    tokenizer: AnyTokenizer
+    vocab_size: int
+
+    @abstractmethod
+    def compile_grammar(
+        self, request_type: StructuredOutputOptions, grammar_spec: str
+    ) -> StructuredOutputGrammar:
+        """
+        Compiles a grammar specification into a structured output grammar.
+
+        Args:
+            request_type (StructuredOutputOptions): The type of structured
+                output request.
+            grammar_spec (str): The grammar specification to compile.
+
+        Returns:
+            StructuredOutputGrammar: The compiled structured output grammar.
+        """
+
+    @abstractmethod
+    def allocate_token_bitmask(self, max_num_seqs: int) -> "torch.Tensor":
+        """
+        Allocates a token bitmask for the specified maximum number of sequences.
+
+        Args:
+            max_num_seqs (int): The maximum number of sequences for which
+                to allocate the bitmask.
+        """
+
+    @abstractmethod
+    def destroy(self):
+        """
+        Backend-specific cleanup.
+        """
diff --git a/v1/structured_output/backend_xgrammar.py b/v1/structured_output/backend_xgrammar.py
new file mode 100644
index 0000000..c9f2dc0
--- /dev/null
+++ b/v1/structured_output/backend_xgrammar.py
@@ -0,0 +1,362 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+import vllm.envs
+from vllm.logger import init_logger
+from vllm.sampling_params import SamplingParams
+from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputBackend,
+    StructuredOutputGrammar,
+    StructuredOutputOptions,
+)
+from vllm.v1.structured_output.utils import (
+    choice_as_grammar,
+    convert_lark_to_ebnf,
+    grammar_is_likely_lark,
+)
+
+if TYPE_CHECKING:
+    import xgrammar as xgr
+else:
+    xgr = LazyLoader("xgr", globals(), "xgrammar")
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class XgrammarBackend(StructuredOutputBackend):
+    def __post_init__(self):
+        self.disable_any_whitespace = (
+            self.vllm_config.structured_outputs_config.disable_any_whitespace
+        )
+
+        if isinstance(self.tokenizer, MistralTokenizer):
+            # NOTE: ideally, xgrammar should handle this accordingly.
+            # refer to https://github.com/mlc-ai/xgrammar/blob/d77c0a0173ef14779c918e3be7966ba852f7910f/python/xgrammar/tokenizer_info.py#L98
+            stop_token_ids = [self.tokenizer.eos_token_id]
+
+            # not self.tokenizer.vocab_size as self.tokenizer.vocab
+            # collapses all decoded errors into a single token.
+            self.vocab_size = len(self.tokenizer.vocab)
+            tokenizer_info = xgr.TokenizerInfo(  # type: ignore
+                encoded_vocab=self.tokenizer.vocab,
+                # NOTE: https://github.com/mlc-ai/xgrammar/blob/5e141f6ff1ca02bc31f9e512e68b61f2a8ae88e5/tests/python/test_tokenizer_info.py#L43 # noqa: E501
+                vocab_type=xgr.VocabType.RAW
+                if self.tokenizer.is_tekken
+                else xgr.VocabType.BYTE_FALLBACK,
+                vocab_size=self.vocab_size,
+                stop_token_ids=stop_token_ids,
+                add_prefix_space=True,
+            )
+        else:
+            tokenizer_info = xgr.TokenizerInfo.from_huggingface(
+                self.tokenizer,
+                vocab_size=self.vocab_size,
+            )
+        self.compiler = xgr.GrammarCompiler(
+            tokenizer_info,
+            max_threads=8,
+            cache_enabled=True,
+            cache_limit_bytes=vllm.envs.VLLM_XGRAMMAR_CACHE_MB * 1024 * 1024,
+        )
+
+        self.num_speculative_tokens = 0
+        if self.vllm_config.speculative_config is not None:
+            self.num_speculative_tokens = (
+                self.vllm_config.speculative_config.num_speculative_tokens
+            )
+
+    def compile_grammar(
+        self, request_type: StructuredOutputOptions, grammar_spec: str
+    ) -> StructuredOutputGrammar:
+        if request_type == StructuredOutputOptions.JSON:
+            ctx = self.compiler.compile_json_schema(
+                grammar_spec, any_whitespace=not self.disable_any_whitespace
+            )
+        elif request_type == StructuredOutputOptions.JSON_OBJECT:
+            ctx = self.compiler.compile_json_schema(
+                '{"type": "object"}', any_whitespace=not self.disable_any_whitespace
+            )
+        elif request_type == StructuredOutputOptions.GRAMMAR:
+            ctx = self.compiler.compile_grammar(grammar_spec)
+        elif request_type == StructuredOutputOptions.REGEX:
+            ctx = self.compiler.compile_regex(grammar_spec)
+        elif request_type == StructuredOutputOptions.STRUCTURAL_TAG:
+            s_tag = json.loads(grammar_spec)
+            if "structures" in s_tag:
+                # Falling back to deprecated method of compiling structural tag
+                tags = [
+                    xgr.StructuralTagItem(
+                        begin=s["begin"],
+                        schema=json.dumps(s["schema"]),
+                        end=s["end"],
+                    )
+                    for s in s_tag["structures"]
+                ]
+                ctx = self.compiler.compile_structural_tag(tags, s_tag["triggers"])
+            else:
+                ctx = self.compiler.compile_structural_tag(grammar_spec)
+        else:
+            logger.error(
+                "Validation should have already occurred. Please file an issue."
+            )
+            raise ValueError(
+                f"grammar is not of valid supported types. ({request_type!s})"
+            )
+
+        return XgrammarGrammar(
+            matcher=xgr.GrammarMatcher(
+                ctx,
+                max_rollback_tokens=self.num_speculative_tokens,
+            ),
+            vocab_size=self.vocab_size,
+            ctx=ctx,
+        )
+
+    def allocate_token_bitmask(self, max_num_seqs: int):
+        return xgr.allocate_token_bitmask(max_num_seqs, self.vocab_size)
+
+    def destroy(self):
+        del self.compiler
+
+
+@dataclass
+class XgrammarGrammar(StructuredOutputGrammar):
+    # NOTE: This would be a generic-enough class for
+    # supporting different backends, in the future.
+    # For now, just xgrammar.
+    #
+    # https://xgrammar.mlc.ai/docs/api/python/index.html#xgrammar.GrammarMatcher.find_jump_forward_string
+    # for jump-forward decoding
+
+    vocab_size: int
+    matcher: xgr.GrammarMatcher = field(hash=False)
+    ctx: xgr.CompiledGrammar = field(hash=False)
+    num_processed_tokens: int = field(
+        default_factory=lambda: 0, repr=False, hash=False, init=False
+    )
+    _is_terminated: bool = field(default=False, repr=False, hash=False)
+
+    def accept_tokens(self, request_id: str, tokens: list[int]) -> bool:
+        """Accepts a list of tokens and advances the FSM.
+
+        Returns True if the FSM was advanced successfully.
+        Returns False if the FSM failed to advance.
+        """
+        if self._is_terminated:
+            return False
+        for token in tokens:
+            if not self.matcher.accept_token(token):
+                logger.error(
+                    "Failed to advance FSM for request %s "
+                    "for tokens %s. Please file an issue.",
+                    request_id,
+                    token,
+                )
+                return False
+            self.num_processed_tokens += 1
+        self._is_terminated = self.matcher.is_terminated()
+        return True
+
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """Checks if the list of tokens are accepted by the FSM in sequence.
+        Will not advance the FSM.
+
+        Returns the prefix list of tokens that are accepted by the FSM.
+        """
+        accepted_tokens = []
+        for token in tokens:
+            if self.matcher.accept_token(token):
+                accepted_tokens.append(token)
+            else:
+                break
+        if len(accepted_tokens) > 0:
+            # Rollback the FSM to the initial state
+            self.matcher.rollback(len(accepted_tokens))
+        return accepted_tokens
+
+    def rollback(self, num_tokens: int) -> None:
+        self.matcher.rollback(num_tokens)
+        self.num_processed_tokens -= num_tokens
+        self._is_terminated = self.matcher.is_terminated()
+
+    def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
+        self.matcher.fill_next_token_bitmask(bitmask, idx)
+
+    def is_terminated(self) -> bool:
+        return self._is_terminated
+
+    def reset(self):
+        self.num_processed_tokens = 0
+        self.matcher.reset()
+
+
+# cf https://github.com/mlc-ai/xgrammar/blob/a32ac892676d2eedc0327416105b9b06edfb94b2/cpp/json_schema_converter.cc
+STRING_SUPPORTED_FORMATS = {
+    "email",
+    "date",
+    "time",
+    "date-time",
+    "duration",
+    "ipv4",
+    "ipv6",
+    "hostname",
+    "uuid",
+    "uri",
+    "uri-reference",
+    "uri-template",
+    "json-pointer",
+    "relative-json-pointer",
+}
+
+
+def has_xgrammar_unsupported_json_features(schema: dict[str, Any]) -> bool:
+    """Check if JSON schema contains features unsupported by xgrammar."""
+
+    def check_object(obj: dict[str, Any]) -> bool:
+        if not isinstance(obj, dict):
+            return False
+
+        # Check for numeric ranges
+        if obj.get("type") in ("integer", "number") and ("multipleOf" in obj):
+            return True
+
+        # Check for array unsupported keywords
+        if obj.get("type") == "array" and any(
+            key in obj
+            for key in ("uniqueItems", "contains", "minContains", "maxContains")
+        ):
+            return True
+
+        # Unsupported keywords for strings
+        if (
+            obj.get("type") == "string"
+            and "format" in obj
+            and obj["format"] not in STRING_SUPPORTED_FORMATS
+        ):
+            return True
+
+        # Unsupported keywords for objects
+        if obj.get("type") == "object" and any(
+            key in obj
+            for key in (
+                "minProperties",
+                "maxProperties",
+                "propertyNames",
+                "patternProperties",
+            )
+        ):
+            return True
+
+        # Recursively check all nested objects and arrays
+        for value in obj.values():
+            if isinstance(value, dict):
+                if check_object(value):
+                    return True
+            elif isinstance(value, list):
+                for item in value:
+                    if isinstance(item, dict) and check_object(item):
+                        return True
+
+        return False
+
+    return check_object(schema)
+
+
+def validate_xgrammar_grammar(sampling_params: SamplingParams) -> None:
+    """Validate that the request is supported by structured output.
+
+    Raises ValueError if the request is not supported.
+    """
+    if sampling_params.structured_outputs is None:
+        return
+
+    so_params = sampling_params.structured_outputs
+
+    if so_params.regex:
+        try:
+            xgr.Grammar.from_regex(so_params.regex)
+        except Exception as err:
+            raise ValueError(
+                f"Failed to transform regex into a grammar: {err}"
+            ) from err
+
+    if so_params.choice:
+        choice_grammar = choice_as_grammar(so_params.choice)
+        try:
+            xgr.Grammar.from_ebnf(choice_grammar)
+        except Exception as err:
+            raise ValueError(
+                "Failed to transform choices into a grammar: {err}"
+            ) from err
+        so_params.choice = None
+        so_params.grammar = choice_grammar
+        return
+
+    if so_params.json:
+        if isinstance(so_params.json, str):
+            try:
+                schema = json.loads(so_params.json)
+            except json.JSONDecodeError as e:
+                raise ValueError("Invalid JSON grammar specification.") from e
+        else:
+            schema = so_params.json
+
+        try:
+            xgr.Grammar.from_json_schema(schema)
+        except Exception as err:
+            raise ValueError(
+                f"Failed to transform json schema into a grammar: {err}"
+            ) from err
+
+        if has_xgrammar_unsupported_json_features(schema):
+            raise ValueError(
+                "The provided JSON schema contains features not supported by xgrammar."
+            )
+        return
+
+    if so_params.grammar:
+        if grammar_is_likely_lark(so_params.grammar):
+            # xgrammar supports EBNF grammars only
+            try:
+                so_params.grammar = convert_lark_to_ebnf(so_params.grammar)
+            except ValueError as e:
+                raise ValueError(
+                    "Failed to convert the grammar from Lark to EBNF. "
+                ) from e
+
+        # Test parsing EBNF grammar, possibly already converted from Lark
+        try:
+            # parse the grammar, but we aren't compiling it.
+            xgr.Grammar.from_ebnf(so_params.grammar)
+        except Exception as e:
+            raise ValueError("Invalid grammar specification.") from e
+        return
+
+    if so_params.structural_tag:
+        try:
+            s_tag = json.loads(so_params.structural_tag)
+
+            # Using the deprecated method of compiling structural tag
+            if "structures" in s_tag:
+                tags = [
+                    xgr.StructuralTagItem(
+                        begin=s["begin"],
+                        schema=json.dumps(s["schema"]),
+                        end=s["end"],
+                    )
+                    for s in s_tag["structures"]
+                ]
+                xgr.Grammar.from_structural_tag(tags, s_tag["triggers"])
+            else:
+                xgr.Grammar.from_structural_tag(so_params.structural_tag)
+        except Exception as e:
+            raise ValueError("Invalid structural tag specification.") from e
diff --git a/v1/structured_output/request.py b/v1/structured_output/request.py
new file mode 100644
index 0000000..94ae36a
--- /dev/null
+++ b/v1/structured_output/request.py
@@ -0,0 +1,94 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import dataclasses
+import functools
+import json
+from concurrent.futures import Future
+from concurrent.futures._base import TimeoutError
+from typing import cast
+
+from vllm.sampling_params import SamplingParams, StructuredOutputsParams
+from vllm.v1.structured_output.backend_types import (
+    StructuredOutputGrammar,
+    StructuredOutputKey,
+    StructuredOutputOptions,
+)
+
+
+@dataclasses.dataclass
+class StructuredOutputRequest:
+    params: StructuredOutputsParams
+    _grammar: Future[StructuredOutputGrammar] | StructuredOutputGrammar | None = None
+    reasoning_ended: bool | None = None
+
+    @staticmethod
+    def from_sampling_params(
+        sampling_params: SamplingParams | None,
+    ) -> "StructuredOutputRequest | None":
+        if sampling_params is None:
+            return None
+        params = sampling_params.structured_outputs
+        if params:
+            if params.all_constraints_none():
+                return None
+            else:
+                return StructuredOutputRequest(params=params)
+        return None
+
+    def _check_grammar_completion(self) -> bool:
+        # NOTE: We have to lazy import to gate circular imports
+        from vllm.v1.request import RequestStatus
+
+        if isinstance(self._grammar, Future):
+            try:
+                # We will check whether the future is ready within 100 us
+                self._grammar = self._grammar.result(timeout=0.0001)
+                self.status = RequestStatus.WAITING
+            except TimeoutError:
+                return False
+        return True
+
+    @property
+    def is_grammar_ready(self) -> bool:
+        return self._check_grammar_completion()
+
+    @property
+    def grammar(self) -> StructuredOutputGrammar | None:
+        completed = self._check_grammar_completion()
+        return (
+            cast(StructuredOutputGrammar | None, self._grammar) if completed else None
+        )
+
+    @grammar.setter
+    def grammar(
+        self, grammar: StructuredOutputGrammar | Future[StructuredOutputGrammar]
+    ) -> None:
+        self._grammar = grammar
+
+    @functools.cached_property
+    def structured_output_key(self) -> StructuredOutputKey:
+        return get_structured_output_key(self.params)
+
+
+def get_structured_output_key(params: StructuredOutputsParams) -> StructuredOutputKey:
+    if params.json is not None:
+        if not isinstance(params.json, str):
+            json_str = json.dumps(params.json)
+        else:
+            json_str = params.json
+        return StructuredOutputOptions.JSON, json_str
+    if params.json_object:
+        return StructuredOutputOptions.JSON_OBJECT, ""
+    if params.regex is not None:
+        return StructuredOutputOptions.REGEX, params.regex
+    if params.choice is not None:
+        if not isinstance(params.choice, str):
+            json_str = json.dumps(params.choice)
+        else:
+            json_str = params.choice
+        return StructuredOutputOptions.CHOICE, json_str
+    if params.grammar is not None:
+        return StructuredOutputOptions.GRAMMAR, params.grammar
+    if params.structural_tag is not None:
+        return StructuredOutputOptions.STRUCTURAL_TAG, params.structural_tag
+    raise ValueError("No valid structured output parameter found")
diff --git a/v1/structured_output/utils.py b/v1/structured_output/utils.py
new file mode 100644
index 0000000..d2d14fc
--- /dev/null
+++ b/v1/structured_output/utils.py
@@ -0,0 +1,469 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from __future__ import annotations
+
+import hashlib
+import importlib.metadata
+import os
+from typing import TYPE_CHECKING
+
+import numpy as np
+import regex as re
+import torch
+from cachetools import LRUCache
+from diskcache import Cache
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.utils.import_utils import LazyLoader
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+
+if TYPE_CHECKING:
+    import outlines_core as oc
+    import transformers.file_utils as file_utils
+    import transformers.models.gpt2.tokenization_gpt2 as tokenization_gpt2
+    import xgrammar as xgr
+
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
+    from vllm.v1.worker.gpu_input_batch import InputBatch
+else:
+    xgr = LazyLoader("xgr", globals(), "xgrammar")
+    oc = LazyLoader("oc", globals(), "outlines_core")
+    file_utils = LazyLoader("file_utils", globals(), "transformers.file_utils")
+    tokenization_gpt2 = LazyLoader(
+        "tokenization_gpt2",
+        globals(),
+        "transformers.models.gpt2.tokenization_gpt2",
+    )
+
+    AnyTokenizer = object
+    SchedulerOutput = object
+    InputBatch = object
+
+logger = init_logger(__name__)
+
+CACHE = None
+
+
+def apply_grammar_bitmask(
+    scheduler_output: SchedulerOutput,
+    grammar_output: GrammarOutput,
+    input_batch: InputBatch,
+    logits: torch.Tensor,
+) -> None:
+    """
+    Apply grammar bitmask to output logits of the model with xgrammar function.
+
+    Args:
+        scheduler_output (SchedulerOutput): The result of engine scheduling.
+        input_batch (InputBatch): The input of model runner.
+        logits (torch.Tensor): The output logits of model forward.
+    """
+    # Serialization of np.ndarray is much more efficient than a tensor,
+    # so we receive it in that format.
+    grammar_bitmask = grammar_output.grammar_bitmask
+
+    # We receive the structured output bitmask from the scheduler,
+    # compacted to contain bitmasks only for structured output requests.
+    # The order of the requests in the bitmask is not guaranteed to be the
+    # same as the order of the requests in the gpu runner's batch. We need
+    # to sort the bitmask to match the order of the requests used here.
+
+    # Get the batch indices of the structured output requests.
+    # Keep track of the number of speculative tokens scheduled for every
+    # request in the batch, as the logit indices are offset by this amount.
+    struct_out_req_batch_indices: dict[str, int] = {}
+    cumulative_offset = 0
+    seq = sorted(input_batch.req_id_to_index.items(), key=lambda x: x[1])
+    for req_id, batch_index in seq:
+        logit_index = batch_index + cumulative_offset
+        cumulative_offset += len(
+            scheduler_output.scheduled_spec_decode_tokens.get(req_id, [])
+        )
+        if req_id in grammar_output.structured_output_request_ids:
+            struct_out_req_batch_indices[req_id] = logit_index
+
+    out_indices = []
+
+    # Reorder the bitmask to match the order of the requests in the batch.
+    sorted_bitmask = np.full(
+        shape=(logits.shape[0], grammar_bitmask.shape[1]),
+        fill_value=-1,
+        dtype=grammar_bitmask.dtype,
+    )
+    cumulative_index = 0
+    for req_id in grammar_output.structured_output_request_ids:
+        num_spec_tokens = len(
+            scheduler_output.scheduled_spec_decode_tokens.get(req_id, [])
+        )
+        if req_id in struct_out_req_batch_indices:
+            logit_index = struct_out_req_batch_indices[req_id]
+            for i in range(1 + num_spec_tokens):
+                sorted_bitmask[logit_index + i] = grammar_bitmask[cumulative_index + i]
+                out_indices.append(logit_index + i)
+        cumulative_index += 1 + num_spec_tokens
+
+    # Copy async to device as tensor.
+    grammar_bitmask = torch.from_numpy(sorted_bitmask).to(
+        logits.device, non_blocking=True
+    )
+
+    # If the length of out indices and the logits have the same shape
+    # we don't need to pass indices to the kernel,
+    # since the bitmask is already aligned with the logits.
+    skip_out_indices = len(out_indices) == logits.shape[0]
+
+    index_tensor = None
+    if not skip_out_indices:
+        # xgrammar expects a python list of indices but it will actually work with
+        # a tensor. If we copy the tensor ourselves here we can do it in a non_blocking
+        # manner and there should be no cpu sync within xgrammar.
+        index_tensor = torch.tensor(
+            out_indices, dtype=torch.int32, device="cpu", pin_memory=True
+        )
+        index_tensor = index_tensor.to(logits.device, non_blocking=True)
+
+    xgr.apply_token_bitmask_inplace(logits, grammar_bitmask, indices=index_tensor)
+
+
+class OutlinesVocabulary:
+    """
+    Wrapper class for `outlines_core.Vocabulary`,
+    which allows us to store a hash with the vocabulary
+    """
+
+    def __init__(self, vocabulary: oc.Vocabulary) -> None:
+        # Actual vocabulary object
+        self.inner = vocabulary
+        # Have to do abs(hash()) because python hashes can
+        # be negative, and we are using hash as a cache key.
+        hex_str = hashlib.sha256(vocabulary.__repr__().encode("utf-8")).hexdigest()
+        hash_int = int(hex_str, 16)
+        self._hash = hash_int
+
+
+def get_outlines_cache_path() -> str:
+    """Get the context object that contains previously-computed return values"""
+    outlines_cache_dir = os.getenv("OUTLINES_CACHE_DIR")
+    xdg_cache_home = os.getenv("XDG_CACHE_HOME")
+    home_dir = os.path.expanduser("~")
+
+    if outlines_cache_dir:
+        # OUTLINES_CACHE_DIR takes precedence
+        return outlines_cache_dir
+    elif xdg_cache_home:
+        return os.path.join(xdg_cache_home, ".cache", "outlines")
+    # If homedir is "/", we may be inside a container, and thus writing to
+    # root would be problematic, so we fall back to using a tempfile.
+    # Also validate the path exists, since os.path.expanduser does
+    # not guarantee existence.
+    elif os.path.isdir(home_dir) and home_dir != "/":
+        # Default Unix fallback: ~/.cache/outlines
+        return os.path.join(home_dir, ".cache", "outlines")
+    else:
+        import tempfile
+
+        # home_dir may be / inside a docker container without existing user
+        tempdir = tempfile.gettempdir()
+        return os.path.join(tempdir, ".cache", "outlines")
+
+
+def get_outlines_cache():
+    """Get the Cache instance to be used for index caching"""
+
+    cache_dir = get_outlines_cache_path()
+    if envs.VLLM_V1_USE_OUTLINES_CACHE:
+        logger.warning(
+            "Enabling outlines cache. This is an unbounded on-disk "
+            "cache. It may consume a lot of disk space and should "
+            "not be used with untrusted clients."
+        )
+        cache = Cache(cache_dir, eviction_policy="none", cull_limit=0)
+        outlines_version = importlib.metadata.version("outlines_core")
+
+        cached_version = cache.get("__version__", None)
+        if cached_version != outlines_version:
+            cache.clear()
+        cache.set("__version__", outlines_version)
+        return cache
+    else:
+        return LRUCache(maxsize=128)
+
+
+re_llama_byte_token = re.compile(r"^<0x[0-9A-F]{2}>$")
+re_replacement_seq = re.compile(r"^.{0,6}�+.{0,6}$")
+
+
+def _reduced_vocabulary(
+    tokenizer: AnyTokenizer,
+    eos_token_id: int,
+) -> dict[bytes, list[int]]:
+    """Create a map from vocabulary tokens to lists of equivalent token ids.
+
+    Returns:
+        A Dict of token string -> equivalent token ids
+    """
+
+    unicode_to_bytes = {v: k for k, v in tokenization_gpt2.bytes_to_unicode().items()}
+
+    def convert_token_to_string(token: str) -> str:
+        string = tokenizer.convert_tokens_to_string([token])
+
+        # A hack to handle missing spaces to HF's Llama tokenizers
+        if (
+            type(token) is str
+            and token.startswith(file_utils.SPIECE_UNDERLINE)
+            or token == "<0x20>"
+        ):
+            return " " + string
+
+        return string
+
+    vocabulary: dict[bytes, list[int]] = {}
+    empty_token_ids: list[int] = []
+    for token, token_idx in tokenizer.get_vocab().items():
+        if token in tokenizer.all_special_tokens:  # type: ignore
+            continue
+
+        token_str = convert_token_to_string(token)
+        if token_str:
+            if isinstance(token, (bytes, bytearray)):
+                # For BPE tokenizers where tokens are stored as bytes.
+
+                # safe to ignore since token_str is of type (bytearray, bytes)
+                # by this point.
+                token_bytes = bytes(token_str)  # type: ignore[arg-type]
+
+            elif "\ufffd" in token_str and not re_replacement_seq.match(token_str):
+                # Handle tokens with invalid UTF-8 sequences.
+                if re_llama_byte_token.match(token):
+                    # Llama-like tokenizers use <0xXX> for incomplete sequences.
+                    token_bytes = bytes([int(token[3:5], 16)])
+                else:
+                    # GPT2 tokenizers: map each byte back using unicode_to_bytes
+                    byte_vals = [unicode_to_bytes.get(c) for c in token]
+                    if None in byte_vals:
+                        raise RuntimeError(
+                            f"Cannot convert token `{token}`"
+                            f" ({token_idx}) to bytes: {token_str}"
+                        )
+                    # safe to ignore, since if None in byte_vals,
+                    # an error is thrown.
+                    token_bytes = bytes(byte_vals)  # type: ignore[arg-type]
+            else:
+                token_bytes = token_str.encode("utf-8")
+
+            if token_idx != eos_token_id:
+                vocabulary.setdefault(token_bytes, []).append(token_idx)
+        else:
+            empty_token_ids.append(token_idx)
+
+    return vocabulary
+
+
+def get_outlines_vocabulary(tokenizer: AnyTokenizer) -> oc.Vocabulary:
+    """Get the `Vocabulary` object for a given tokenizer."""
+    if hasattr(tokenizer, "_outlines_vocabulary"):
+        return tokenizer._outlines_vocabulary  # type: ignore
+
+    try:
+        if (
+            hasattr(
+                tokenizer,
+                "eos_token_id",
+            )
+            and tokenizer.eos_token_id is not None
+        ):
+            eos_token_id = tokenizer.eos_token_id
+        else:
+            raise ValueError(
+                f"Error during structured outputs setup for outlines: Tokenizer ({type(tokenizer)}) has no `eos_token_id` property, but `eos_token_id` is required for structured outputs to work properly."  # noqa: E501
+            )
+
+        reduced_vocab = _reduced_vocabulary(
+            tokenizer,
+            eos_token_id,  # type: ignore
+        )
+        vocabulary = OutlinesVocabulary(oc.Vocabulary(eos_token_id, reduced_vocab))
+        tokenizer._outlines_vocabulary = vocabulary  # type: ignore
+
+        return vocabulary
+    except AttributeError as e:
+        raise ValueError(
+            f"Cannot get the vocabulary of the tokenizer "
+            f"({type(tokenizer)}). The tokenizer should have a "
+            "get_vocab method."
+        ) from e
+
+
+def grammar_is_likely_lark(grammar_str: str) -> bool:
+    """
+    Check if grammar appears to use Lark syntax.
+
+    Args:
+        grammar_str: Input grammar string
+
+    Returns:
+        bool: True if grammar appears to be in Lark format, False otherwise
+
+    Examples:
+        >>> grammar_is_likely_lark("rule: 'abc'")
+        True
+        >>> grammar_is_likely_lark("rule ::= 'abc'")
+        False
+    """
+    if not grammar_str or not isinstance(grammar_str, str):
+        return False
+
+    for line in grammar_str.split("\n"):
+        # Remove both comment styles
+        line = re.sub(r"(#|//).*$", "", line).strip()
+        if not line:
+            continue
+
+        # Look for EBNF rule definition
+        if "::=" in line:
+            return False
+
+    return True
+
+
+def convert_lark_to_ebnf(grammar_str: str) -> str:
+    """
+    Convert a Lark grammar string to EBNF format.
+
+    EBNF reference:
+    https://github.com/ggerganov/llama.cpp/blob/master/grammars/README.md
+    Lark grammar reference:
+    https://lark-parser.readthedocs.io/en/latest/grammar.html
+
+    Args:
+        grammar_str: Input grammar in Lark format
+
+    Returns:
+        str: Converted grammar in EBNF format
+
+    Examples:
+        >>> print(convert_lark_to_ebnf("rule: 'hello'"))
+        root ::= rule
+        rule ::= "hello"
+    """
+    if not isinstance(grammar_str, str):
+        raise ValueError(f"Grammar must be a string, got {type(grammar_str)}")
+    if not grammar_str.strip():
+        raise ValueError("Grammar string cannot be empty")
+
+    defined_rules = set()
+    referenced_rules = set()
+    output_lines = []
+
+    def clean_line(line: str) -> str:
+        """Remove comments and whitespace from line."""
+        return re.sub(r"(#|//).*$", "", line).strip()
+
+    def check_quotes(text: str, rule_name: str, line_num: int) -> None:
+        """Validate quote matching in text."""
+        if text.count("'") % 2 != 0 or text.count('"') % 2 != 0:
+            raise ValueError(f"Mismatched quotes in {rule_name} on line {line_num}")
+
+    def extract_references(text: str) -> set[str]:
+        """Extract rule references from text."""
+        # Remove quoted strings and special characters
+        text = re.sub(r'"[^"]*"', "", text)
+        text = re.sub(r"[+*?()|\[\]{}]", " ", text)
+        return set(re.findall(r"\b[a-zA-Z_][a-zA-Z0-9_]*\b", text))
+
+    # First pass: Find root rule and validate rule definitions
+    lines = [clean_line(line) for line in grammar_str.split("\n")]
+    first_rule = None
+
+    for line_num, line in enumerate(lines, 1):
+        if not line or line.startswith("|"):
+            continue
+
+        if ":" in line:
+            try:
+                name = line.split(":", 1)[0].strip().strip("?")
+                defined_rules.add(name)
+                if first_rule is None:
+                    first_rule = name
+                if name == "start":
+                    first_rule = "start"
+            except IndexError as e:
+                raise ValueError(
+                    f"Invalid rule format on line {line_num}. "
+                    "Expected 'rule_name: definition'"
+                ) from e
+
+    if not defined_rules:
+        raise ValueError("No valid rules found in grammar")
+
+    # Add root rule
+    output_lines.append(f"root ::= {first_rule}")
+
+    # Second pass: Process rule definitions and alternatives
+    current_rule = None
+    current_definition = []
+
+    for line_num, line in enumerate(lines, 1):
+        if not line:
+            continue
+
+        try:
+            if ":" in line and not line.startswith("|"):
+                # Save previous rule if exists
+                if current_rule:
+                    output_lines.append(
+                        f"{current_rule} ::= {' | '.join(current_definition)}"
+                    )
+
+                # Process new rule
+                name, definition = line.split(":", 1)
+                current_rule = name.strip().strip("?")
+
+                check_quotes(definition, f"rule '{current_rule}'", line_num)
+                definition = re.sub(r"'([^']*)'", r'"\1"', definition)
+                referenced_rules.update(extract_references(definition))
+                current_definition = [definition.strip()]
+
+            elif line.startswith("|"):
+                if not current_rule:
+                    raise ValueError(
+                        f"Alternative '|' on line {line_num} "
+                        "without a preceding rule definition"
+                    )
+
+                alt_def = line[1:].strip()
+                check_quotes(
+                    alt_def, f"alternative for rule '{current_rule}'", line_num
+                )
+                alt_def = re.sub(r"'([^']*)'", r'"\1"', alt_def)
+                referenced_rules.update(extract_references(alt_def))
+                current_definition.append(alt_def)
+
+        except ValueError as e:
+            raise ValueError(f"Error on line {line_num}: {str(e)}") from e
+
+    # Add final rule if exists
+    if current_rule:
+        output_lines.append(f"{current_rule} ::= {' | '.join(current_definition)}")
+
+    # Validate all rules are defined
+    undefined_rules = referenced_rules - defined_rules - {"root"}
+    if undefined_rules:
+        raise ValueError(
+            f"Referenced rules are not defined: {', '.join(sorted(undefined_rules))}"
+        )
+
+    return "\n".join(output_lines)
+
+
+def choice_as_grammar(choice: list[str]) -> str:
+    def escape_ebnf_string(s: str) -> str:
+        """Escape special characters in a EBNF string."""
+        # Escape double quotes and backslashes
+        return re.sub(r'(["\\])', r"\\\1", s)
+
+    escaped_choices = (escape_ebnf_string(c) for c in choice)
+    grammar = "root ::= " + " | ".join(f'"{c}"' for c in escaped_choices)
+    return grammar
diff --git a/v1/utils.py b/v1/utils.py
new file mode 100644
index 0000000..29099d1
--- /dev/null
+++ b/v1/utils.py
@@ -0,0 +1,414 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+import contextlib
+import multiprocessing
+import time
+import weakref
+from collections.abc import Callable, Sequence
+from contextlib import AbstractContextManager
+from multiprocessing import connection
+from multiprocessing.process import BaseProcess
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Generic,
+    Optional,
+    TypeVar,
+    Union,
+    overload,
+)
+
+import torch
+from torch.autograd.profiler import record_function
+
+import vllm.envs as envs
+from vllm.logger import init_logger
+from vllm.usage.usage_lib import UsageContext, is_usage_stats_enabled, usage_message
+from vllm.utils.network_utils import get_open_port, get_open_zmq_ipc_path, get_tcp_uri
+from vllm.utils.system_utils import kill_process_tree
+
+if TYPE_CHECKING:
+    import numpy as np
+
+    from vllm.v1.engine.coordinator import DPCoordinator
+    from vllm.v1.engine.utils import CoreEngineActorManager, CoreEngineProcManager
+
+logger = init_logger(__name__)
+
+T = TypeVar("T")
+
+
+class ConstantList(Generic[T], Sequence):
+    def __init__(self, x: list[T]) -> None:
+        self._x = x
+
+    def append(self, item):
+        raise TypeError("Cannot append to a constant list")
+
+    def extend(self, item):
+        raise TypeError("Cannot extend a constant list")
+
+    def insert(self, item):
+        raise TypeError("Cannot insert into a constant list")
+
+    def pop(self, item):
+        raise TypeError("Cannot pop from a constant list")
+
+    def remove(self, item):
+        raise TypeError("Cannot remove from a constant list")
+
+    def clear(self):
+        raise TypeError("Cannot clear a constant list")
+
+    def index(self, item: T, start: int = 0, stop: int | None = None) -> int:
+        return self._x.index(item, start, stop if stop is not None else len(self._x))
+
+    @overload
+    def __getitem__(self, item: int) -> T: ...
+
+    @overload
+    def __getitem__(self, s: slice, /) -> list[T]: ...
+
+    def __getitem__(self, item: int | slice) -> T | list[T]:
+        return self._x[item]
+
+    @overload
+    def __setitem__(self, item: int, value: T): ...
+
+    @overload
+    def __setitem__(self, s: slice, value: T, /): ...
+
+    def __setitem__(self, item: int | slice, value: T | list[T]):
+        raise TypeError("Cannot set item in a constant list")
+
+    def __delitem__(self, item):
+        raise TypeError("Cannot delete item from a constant list")
+
+    def __iter__(self):
+        return iter(self._x)
+
+    def __contains__(self, item):
+        return item in self._x
+
+    def __len__(self):
+        return len(self._x)
+
+    def __repr__(self):
+        return f"ConstantList({self._x})"
+
+    def copy(self) -> list[T]:
+        return self._x.copy()
+
+
+class CpuGpuBuffer:
+    """Buffer to easily copy tensors between CPU and GPU."""
+
+    def __init__(
+        self,
+        *size: int | torch.SymInt,
+        dtype: torch.dtype,
+        device: torch.device,
+        pin_memory: bool,
+        with_numpy: bool = True,
+    ) -> None:
+        self.cpu = torch.zeros(*size, dtype=dtype, device="cpu", pin_memory=pin_memory)
+        self.gpu = torch.zeros_like(self.cpu, device=device)
+        self.np: np.ndarray
+        # To keep type hints simple (avoiding generics and subclasses), we
+        # only conditionally create the numpy array attribute. This can cause
+        # AttributeError if `self.np` is accessed when `with_numpy=False`.
+        if with_numpy:
+            if dtype == torch.bfloat16:
+                raise ValueError(
+                    "Bfloat16 torch tensors cannot be directly cast to a "
+                    "numpy array, so call CpuGpuBuffer with with_numpy=False"
+                )
+            self.np = self.cpu.numpy()
+
+    def copy_to_gpu(self, n: int | None = None) -> torch.Tensor:
+        if n is None:
+            return self.gpu.copy_(self.cpu, non_blocking=True)
+        return self.gpu[:n].copy_(self.cpu[:n], non_blocking=True)
+
+    def copy_to_cpu(self, n: int | None = None) -> torch.Tensor:
+        """NOTE: Because this method is non-blocking, explicit synchronization
+        is needed to ensure the data is copied to CPU."""
+        if n is None:
+            return self.cpu.copy_(self.gpu, non_blocking=True)
+        return self.cpu[:n].copy_(self.gpu[:n], non_blocking=True)
+
+
+def get_engine_client_zmq_addr(local_only: bool, host: str, port: int = 0) -> str:
+    """Assign a new ZMQ socket address.
+
+    If local_only is True, participants are colocated and so a unique IPC
+    address will be returned.
+
+    Otherwise, the provided host and port will be used to construct a TCP
+    address (port == 0 means assign an available port)."""
+
+    return (
+        get_open_zmq_ipc_path()
+        if local_only
+        else (get_tcp_uri(host, port or get_open_port()))
+    )
+
+
+class APIServerProcessManager:
+    """Manages a group of API server processes.
+
+    Handles creation, monitoring, and termination of API server worker
+    processes. Also monitors extra processes to check if they are healthy.
+    """
+
+    def __init__(
+        self,
+        target_server_fn: Callable,
+        listen_address: str,
+        sock: Any,
+        args: argparse.Namespace,
+        num_servers: int,
+        input_addresses: list[str],
+        output_addresses: list[str],
+        stats_update_address: str | None = None,
+    ):
+        """Initialize and start API server worker processes.
+
+        Args:
+            target_server_fn: Function to call for each API server process
+            listen_address: Address to listen for client connections
+            sock: Socket for client connections
+            args: Command line arguments
+            num_servers: Number of API server processes to start
+            input_addresses: Input addresses for each API server
+            output_addresses: Output addresses for each API server
+            stats_update_address: Optional stats update address
+        """
+        self.listen_address = listen_address
+        self.sock = sock
+        self.args = args
+
+        # Start API servers
+        spawn_context = multiprocessing.get_context("spawn")
+        self.processes: list[BaseProcess] = []
+
+        for i, in_addr, out_addr in zip(
+            range(num_servers), input_addresses, output_addresses
+        ):
+            client_config = {
+                "input_address": in_addr,
+                "output_address": out_addr,
+                "client_count": num_servers,
+                "client_index": i,
+            }
+            if stats_update_address is not None:
+                client_config["stats_update_address"] = stats_update_address
+
+            proc = spawn_context.Process(
+                target=target_server_fn,
+                name=f"ApiServer_{i}",
+                args=(listen_address, sock, args, client_config),
+            )
+            self.processes.append(proc)
+            proc.start()
+
+        logger.info("Started %d API server processes", len(self.processes))
+
+        # Shutdown only the API server processes on garbage collection
+        # The extra processes are managed by their owners
+        self._finalizer = weakref.finalize(self, shutdown, self.processes)
+
+    def close(self) -> None:
+        self._finalizer()
+
+
+def wait_for_completion_or_failure(
+    api_server_manager: APIServerProcessManager,
+    engine_manager: Union["CoreEngineProcManager", "CoreEngineActorManager"]
+    | None = None,
+    coordinator: Optional["DPCoordinator"] = None,
+) -> None:
+    """Wait for all processes to complete or detect if any fail.
+
+    Raises an exception if any process exits with a non-zero status.
+
+    Args:
+        api_server_manager: The manager for API servers.
+        engine_manager: The manager for engine processes.
+            If CoreEngineProcManager, it manages local engines;
+            if CoreEngineActorManager, it manages all engines.
+        coordinator: The coordinator for data parallel.
+    """
+
+    from vllm.v1.engine.utils import CoreEngineActorManager, CoreEngineProcManager
+
+    try:
+        logger.info("Waiting for API servers to complete ...")
+        # Create a mapping of sentinels to their corresponding processes
+        # for efficient lookup
+        sentinel_to_proc: dict[Any, BaseProcess] = {
+            proc.sentinel: proc for proc in api_server_manager.processes
+        }
+
+        if coordinator:
+            sentinel_to_proc[coordinator.proc.sentinel] = coordinator.proc
+
+        actor_run_refs = []
+        if isinstance(engine_manager, CoreEngineProcManager):
+            for proc in engine_manager.processes:
+                sentinel_to_proc[proc.sentinel] = proc
+        elif isinstance(engine_manager, CoreEngineActorManager):
+            actor_run_refs = engine_manager.get_run_refs()
+
+        # Check if any process terminates
+        while sentinel_to_proc or actor_run_refs:
+            # Wait for any process to terminate
+            ready_sentinels: list[Any] = connection.wait(sentinel_to_proc, timeout=5)
+
+            # Process any terminated processes
+            for sentinel in ready_sentinels:
+                proc = sentinel_to_proc.pop(sentinel)
+
+                # Check if process exited with error
+                if proc.exitcode != 0:
+                    raise RuntimeError(
+                        f"Process {proc.name} (PID: {proc.pid}) "
+                        f"died with exit code {proc.exitcode}"
+                    )
+
+            if actor_run_refs:
+                import ray
+
+                _, actor_run_refs = ray.wait(actor_run_refs, timeout=5)
+
+    except KeyboardInterrupt:
+        logger.info("Received KeyboardInterrupt, shutting down API servers...")
+    except Exception as e:
+        logger.exception("Exception occurred while running API servers: %s", str(e))
+        raise
+    finally:
+        logger.info("Terminating remaining processes ...")
+        api_server_manager.close()
+        if coordinator:
+            coordinator.close()
+        if engine_manager:
+            engine_manager.close()
+
+
+# Note(rob): shutdown function cannot be a bound method,
+# else the gc cannot collect the object.
+def shutdown(procs: list[BaseProcess]):
+    # Shutdown the process.
+    for proc in procs:
+        if proc.is_alive():
+            proc.terminate()
+
+    # Allow 5 seconds for remaining procs to terminate.
+    deadline = time.monotonic() + 5
+    for proc in procs:
+        remaining = deadline - time.monotonic()
+        if remaining <= 0:
+            break
+        if proc.is_alive():
+            proc.join(remaining)
+
+    for proc in procs:
+        if proc.is_alive() and (pid := proc.pid) is not None:
+            kill_process_tree(pid)
+
+
+def copy_slice(
+    from_tensor: torch.Tensor, to_tensor: torch.Tensor, length: int
+) -> torch.Tensor:
+    """
+    Copy the first length elements of a tensor into another tensor in a
+    non-blocking manner.
+
+    Used to copy pinned CPU tensor data to pre-allocated GPU tensors.
+
+    Returns the sliced target tensor.
+    """
+    return to_tensor[:length].copy_(from_tensor[:length], non_blocking=True)
+
+
+def report_usage_stats(
+    vllm_config, usage_context: UsageContext = UsageContext.ENGINE_CONTEXT
+) -> None:
+    """Report usage statistics if enabled."""
+
+    if not is_usage_stats_enabled():
+        return
+
+    from vllm.model_executor.model_loader import get_architecture_class_name
+
+    parallel_config = vllm_config.parallel_config
+
+    # Prepare KV connector string if applicable
+    kv_connector = None
+    if vllm_config.kv_transfer_config is not None:
+        kv_connector = vllm_config.kv_transfer_config.kv_connector
+
+    usage_message.report_usage(
+        get_architecture_class_name(vllm_config.model_config),
+        usage_context,
+        extra_kvs={
+            # Common configuration
+            "dtype": str(vllm_config.model_config.dtype),
+            "block_size": vllm_config.cache_config.block_size,
+            "gpu_memory_utilization": vllm_config.cache_config.gpu_memory_utilization,
+            "kv_cache_memory_bytes": vllm_config.cache_config.kv_cache_memory_bytes,
+            # Quantization
+            "quantization": vllm_config.model_config.quantization,
+            "kv_cache_dtype": str(vllm_config.cache_config.cache_dtype),
+            # Feature flags
+            "enable_lora": bool(vllm_config.lora_config),
+            "enable_prefix_caching": vllm_config.cache_config.enable_prefix_caching,
+            "enforce_eager": vllm_config.model_config.enforce_eager,
+            "disable_custom_all_reduce": parallel_config.disable_custom_all_reduce,
+            # Distributed parallelism settings
+            "tensor_parallel_size": parallel_config.tensor_parallel_size,
+            "data_parallel_size": parallel_config.data_parallel_size,
+            "pipeline_parallel_size": parallel_config.pipeline_parallel_size,
+            "enable_expert_parallel": parallel_config.enable_expert_parallel,
+            # All2All backend for MoE expert parallel
+            "all2all_backend": parallel_config.all2all_backend,
+            # KV connector used
+            "kv_connector": kv_connector,
+        },
+    )
+
+
+_PROFILER_FUNC = None
+
+
+def record_function_or_nullcontext(name: str) -> AbstractContextManager:
+    global _PROFILER_FUNC
+
+    # fast path assume it is set
+    if _PROFILER_FUNC is not None:
+        return _PROFILER_FUNC(name)
+
+    func = contextlib.nullcontext
+    if envs.VLLM_CUSTOM_SCOPES_FOR_PROFILING:
+        func = record_function
+    elif envs.VLLM_NVTX_SCOPES_FOR_PROFILING:
+        import nvtx
+
+        func = nvtx.annotate
+
+    _PROFILER_FUNC = func
+    return func(name)
+
+
+def tensor_data(tensor: torch.Tensor) -> memoryview:
+    """Get the raw data of a tensor as a uint8 memoryview, useful for
+    serializing and hashing.
+
+    Args:
+        tensor: The input tensor.
+
+    Returns:
+        A memoryview of the tensor data as uint8.
+    """
+    return tensor.flatten().contiguous().view(torch.uint8).numpy().data
diff --git a/v1/worker/__init__.py b/v1/worker/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/v1/worker/__pycache__/__init__.cpython-312.pyc b/v1/worker/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6589914c563fcefa0c410727396f40c1a8eb9309
GIT binary patch
literal 159
zcmX@j%ge<81UW3-nIQTxh(HIQS%4zb87dhx8U0o=6fpsLpFwJV+3A<$7U&mb7U-5F
z7Nw__=vI`PTUunBr|RcqCg~ScmSp7T>6hi?<m#6h>X+viWv3SD$H!;pWtPOp>lIYq
g;;_lhPbtkwwJTx;8pjC4#URE<W=2NFB4!{90I(<}=Kufz

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/block_table.cpython-312.pyc b/v1/worker/__pycache__/block_table.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..121a1cc83e74b37e492e47ceb1590b566a776a15
GIT binary patch
literal 14690
zcmd5je{37qd3QXLI+7=mqNv}Lboyn95+z0Q57~+mC${X=aqKR&lQ>FUmgb#g$`q;I
zQMN@>tx<TLvU-ctZHR)dD2)vW4F`zwSKMJk(_-r~48wS_J#se}Q`Zecuz%>tYl~vQ
z_I>Yo{H0TpVr#Lp_<q0dz3<2S-uJ%u{I|8Wb_%|T`J3Sn9;2wAVn+YWg~V185^qof
zCD0LSmL{=j)&#LB!YrC+%{10A5zC@=)=JXmNX;TU%aXJuVq3J&+G)x}iB{2Zo7SMt
zawh5-O0Zs|gqqu?LRl>-W1-AeEUR0gefE#A!AT#j*3OIZfDl>=%uBK5B`9!&qv3cU
z5}ThFCCHjXLii%Y+~K9=XO@-^Eziw~Qb+@@g|0$o3nl<qi3B6Sh87vY1V09TX82h|
zvtSi13tV|;EiKeQJu5PEF2Q!qJX<5!MaZ>6rQm=XPN<!;3UyFpGpun!ja_g-%lcw#
zH<UT5${L`I6Fg$=g4bXUjXRWUqc=fcr_fx0Zx&i0?-E*z`8LSc3%i7Nh}~j?;N1aQ
z2lVLNp^h^ypJRotYv$X9DbISeSpX%6wqr487I>IJlfdmzZxXtpz8UHbsW4{}dZ4~V
z=oJ}&FtL4vL=AAI59;=8uLG#<z^Q(K;9aTp4XE}*kyz-$>EOADsM^nAIv|G=qRK4>
zF9)K_ivdaeimW#2InqK7EQu0Ul$8hLq4S~;h{rC7QCYPwg`<H*aWN*Xs8&I|7!HYQ
z{RL5qijhFsAYK&f3l{^SAao9dqj6D+h{1~@nL@}`Hhn;eV&J!R5yCg9q$x=Siq%Oo
z<O++7qLLQK6_yv|tdPT=<V)5h=?jAtB{d~!DA$)eEOW?N^i~2wx9Yj*1hlP5Kwe-j
zOhR9G+^N?I=48#cDZ!GYA+&zSqA&HYLyvO!1Om*dViasq93{ylsRg2#bl6&)fLTF1
zRxgEC4SKp1Lun~fOhKu>^owN_75C_wg(f{!ir;2$7pMiJ78OCfU2kEuFq5WuTe034
zW`Q37vq-xgF)8v+hgmUazErBGV9q7@^?E75FV0^t1MclB!=<lOuBU_@_@IxlFrc?A
z#R6SY-hg3|zEMz<<#`(wAJ%*6%3{H<my}}Y)2!zVdcdYt{Xq}Z#pFw}kSp?Q#okNB
zi;AF+l3HMkLTN9KfEbs0zf4v4zeHVTUZyV5K1c8>klD@`zNe*md8(Mh!qUo~;t!!J
z;Zc?F%d#l&b1{iO{vuCSI<IL4J{W;U!FV_ptpKCz8q_>f{E6V@@Z$0!54z}_DDkm5
zJ`{_FmL*Ay#(8M6EXr}2mzS58Vp3cbMh!t#sx2d+S_>W&n+|jbNEM3C2$H4(`EZmE
z^5?L1C7_aKoZ??PFUHTqi18Q?#X4D#RC7TYlp+7jZ@s|BrC?NsEnTjJqiNMC{&Y|R
z1A*7Fgv<a^V+9{awO-k6n-T^HdV8XFk;2PS0W|SSI6BV<<8dG~u!z@sRzgFrzZ8x{
z_;VtU!^*)$kq^rJmrJ7XWj;Jtl`msg1-FO{tq?#v5Bm`+`lAvq_=I~KHhf}`UtE@f
z9^s2&LF8d`Sqw&lU@4XDJDOM~YIyOY7>%r)2II*h#8;NYkNz9JlRmG6idaJJA=P3~
zhXHO!YD1YM0c?^}>p{W;=U2{2VL>Z_4e-TaWLZ2SNij)sU`Gz-aX}26Bi5N}iN~bS
zdDQ}2-tGz2p;3!)OEpE8R7*mXVzTPS{kLpDDRzl;*|$gK<VY+IAeTUH=2dGDWMp1c
zYa~%VA6ybuPoRP_TD63VUA13|NfANY<m+(%Ez8#em<zBEYo?~kVl@`2bx+H(D4`f=
zDB-r^v#DlTjLZ?jXcR+CtI3A?Uc&Y=5)fHTzF$5)7GGQ%TM93Y#EArtTwb0$u>ZoO
zI2H+?8(Uh5pN~byE=D4YV;9HAV2*&$SQ(v0msV6Z0CNRXIFM*KRJ3A7^+Gb{yC5xB
zsr)F_;afA`V_S2(rZMi#we_u;uRC*1UWgo<4sXi-p<^g-rMi4;GuJ<#8yH-hxySY8
z`iItL?sGkPj&ikSyd#QpWTXB==fs01KG!su@l9n0AJ0?t^h9oAdc%9?r94A79;LS!
zrrDjRn0j~KPIWz|0UXclJ*o^GEr5kl?r}YvyQc5Nvj<;N;BVJUWMZ4`UD<ZO((cc3
zt}NG~a2@OMY}b_1HT9SMe?9zz;XFfmN46-F*N)9w9$Bg0{<j8i4yLF7T>Ady?_Ivv
z^Es^O+Vt{Sn6Gz)z!^}ufw!06xpM0Y^zRsj{vD)$Yo4WG97p$uj_wD8L+{vb**3a2
zPG|R?Q1+g<J9siX_@XlSV$M~6V`7Uj`Rb4u{m{oZg7fdso2|Ca2R&ndGM4R`R(htf
zu<L=>_wCPTy$2NU0l@qOkYMB(y=K18`hM}qM!7marWjl2W=}6^obz_9&HUbpoF8Tl
zE%G*~`=#s#N%^aeiKETbkD8m0?q_~9NkgdGH2#ML86-V+DG(Met5!*jFH6yrp`wik
zebK7I{MLS8KUj;jOs{|yWn?2sQ&3*s7rNmWFIs~OMH@}4!7xeRF4&vUyJ(x0)f?J!
zx@EOW$5E}2uLNloEf3T*RbSGCTl*^5xW=`YO_xcFB$EKBAtq#+hW2RR8d-k}MVq%Y
z3|P}<_{Sum=(kOCr2h(ai$3YINodZg9#Ax3+E*wQS;8ZlY6(hGa7Ai_wA70QOhk-I
zotQ-%#AlIwm_{o{8i7Eymz0`nkzwt}Wh6CG3epg10a{Ir3ISkoqOojYmx{j#&E!9V
z;41adPPtlhoO{#Z)WkT~;?1^<D=p&>T<$m6*V*;fyRP2U>1_WKO8*nM+Ri8k&wwzu
z)~y|T#8OSI>#cwAr8Rrb<;l7R6xTqyMsYp1X34Q!mhDp5u2jukb};>{!tR4OclfzA
zbCzvU*p@8YuCVRv&!k>Rzpyc@j2z7LAIx|Ue#kzx1rq~4U|9H&=0qNkLIT_h$Q!+`
zEKX{iGn7Z*r%AU#X$rVwI!X3GpGhP3K7iw6s)#M)pg>uTt~EhHBdWWcs9ISR8p=Eb
zSE<~vA92)hR{&?0d(HW(bKRDjyw46xZ~_7*%Th>X;`8weG?9-4&FheWWoL{eO~e_6
z-N4W{5>F6)a}s<oNd|=zdqW<4F<PDoJ3@o<>Q5u+3MHY*e2XcGC6QfSHXnyd3BgEc
zC#!XumLa=wAi7j7o$O)^4yY)b<(rOPC;<fdGz37$#@1}3UupEGPbrP#AYrW?*;b#@
z>dUtJl~(^+U2gcmo!&cF-nZYml9_r|89u&NcSBx3zCOEtJkvaYlph!`a)SAg?IX0W
zpg2;SQ2cF3prT8f=1s7i>3P$tnJ5$}ul|x|LPKMUF@&C<nKwmPpOKeI0>8i!=}DN{
zHZG_&AY1{EEwu)M0A#kYK)wX}sG0?O;bj0SzW@QSz}uB-Sf5HW=~Jo1jpntQ-0)a-
z_>eMu=>18gcZHY_3}*)>m4V6Zz?3pDbqA7%tJk{D1JwZs53oH1@N3AbZ7C*)(KeDR
zc!S#l;Y}REomPWDUznk&8?*!mMWgj#EZ6810Pdn1F~cZTA8{F&K%E0mP^FWt!(bCL
z+PD_bgsb}WqpHU1RSU=$gYJ-3D>_$<4%s;J4l{>-P-C#op<8CPhCr+uAG14*19T{i
zg~oc-N9eHA3}GIGHY~b}j3`ffv!snJUUWqnZK>euu?Z%9a|dW>zEpiiv<3}EFBF{x
zr49n|tG0uZ{}c`z&->TMb>s0+64){d890DGna2ND6l<g2HtSr#Ez)N>DIqH)q_MVH
z(kc^Mj{7*NAB&Ky<a9<%m4ZDZf&Vc=4lEM7dQ{6LIHAK)oTRnW6$2Zo&#vvYM-awQ
ztaM)tOY!Akg@aQ&E(Wx{MAsL!+6JRJG-S20vR`a&P8Q>`YF-S=7t})ALLr%jY=_Z^
zxkLhOZ})^^i%ZLK@SK*N3lm*s8@*A3Re&V_opwZWlY>B~;^<7(-*xol>!_YxZ*|@5
z+SrrbeN=(J?xPv5bJNwnE@V3oDDdYxkaM?Zy2cgv_(O)SpMax9Ef3~?M|aliSG@kL
zcTDk)Wxab9@7}xK$;|%aiubv-6L84tAI&^=Na;J2;kq|n{kewbY{MR<VGlytyXkJq
zy89J(|3izZeit<Mw7l`e>rXtaVd}eag!;UTs^69Kv}8R4if16*mmNB;z@O(hc0WOr
z{<{_TZtTAY`Zo*~+qjP-nCEDO(*_uNed#^#9K3Z<X`i}tR%w5B?YVz_{E6@H|K5JE
z25&@ChrmpnhBJ?L4$E@9!tt5z$<*W7-aSh1o{i^~-bsbq4=C4r%cyea*ax1!@A{iA
zW%`WbI-^mA{WPlNy!~nOJI-59#XGrn;sICp+R;~!=3E^q^IOiFPQ^6_X@YdW;_1(N
z1{Dt+KM$rK&kj#3!_#-3SB4K}JWu_s##~#cnP@E9+2}$Gm2b^OgJB9-ztg5<bRH_5
zQ*db!g9=PfH1SnOD7LhM$AkH$<y$6gS)d6d<G{M{=?3{*gtK~?ah2$(6wj*a_Yeds
z6WGVm7}t#MK85W|ow?7BYFLufgywPkb>hjxG^7_H0G!Er=4D7%;MY*VuVVdmZbz`Z
z{?8Cd8HTM2+nQzj6}CUMaGxF5%)P=n6Pjw~1TiVrA+sa*%K1&YQPcu#l+~Y5Jj2pE
zY}Q66-%o=CvT*=L@|iW+U_d5R%N)1}11b{&`Jf5?WW=g)EU|>(&PPhP%4vlqe*sP8
zeGpXe->b0REZd{7J*n|~Y=4<#l-Jy6`!)ISY;ypD_kf&M)dm9>S%m?IrWK*~IY^*!
z4aOQ6DH7ZcokEJ0a|T-AC%~nueo9NynjuC^2qwuGx7Ym$r{MIqycbw^I2OGKuD0!-
z%do&7n~~91tWCV&<At(Od(n-0<Z^IvDI!+-<$H~Q$y5C934n(8b^c<1+){e^<K(8U
zFaY}Sr}*)Gg|<~q$$Hi<1a*HX{{%l#(dx-3pER5SG>k5d5(mQIE06j4aX&wC*0-(e
z7eskE5})GrCVqampWox>_ns}`t<C!g+#?!|#Do8WP;R1<c46T&5Q=|{|CeuktGc5$
zo3j;@HKa2?ZrptW(D*FfCycvm_#@i*mFyfJE%ksP!umt0)%-FcNU5$0afekPqkNOj
z=yj3CA*e7IjC?*nfJXAO5P(m0km9;h;5h8fH4J390oZA4yR+P&!VRX~>F4iqW0{E~
z3U?$|*9{wUZ4c~&wpQ3GU3}I#pg0H8rn}DJOu?aGth@KXK);HX1HTI025Zx2N{oDg
zxCMdfa4S)`8-a@q8Ln2~exv$^<YZwhlg`43(o2XWtVAG=W?a>i7Z~IgJD>qcc+0fa
zw%UJ20Jt??r8b=nS!b8x?8-WO6=!eiSn5p1IhrYKU!igpf@z{|Mj`R5pbZGqiJ@|Y
z5977bj@atR;sv_&WeCc(aUEg<idsjswF=Qv)lab}n%3K}%&@)N_pbjPdc)=Dfn~F_
z!V|q=#7!MPFU)Nleon-X00<BOiMA>P%j*8!5W^nD*^^;=wEe}5+EKzA`64e7QGBj|
zzpWVv-k{<|KBI5O_`C_FW@udX3G^Q`zfYq`p9Jq7j-y>hq5l{P;OtddK#UX8ECN*(
z{y(V&N)pXw=$2ne{RcKj&2g22I|Y|FS6jc{n2Nu3<>r+;@$Y}_dtdvQF}dt{%4D+>
z%x{?_l+%;G4!nkm!o6Q0pxOh0#h9=h!88{Ld<9NJg&GEKx>WPISS%u;^GQQu7*eV^
z5|-l<?(-7bq|#FuAlbC@SWQ&WJj|!C=nMw0U=V}=Zo%SkeH>bZThy39G?;2VP2^sh
z$3|fcE?`URsg=cJ(YQuILN%nuEsEemR=I@!8WP}*mHZQ6*)=L}dX}~vqc=Uxc?(H_
zmTPXy*Jx>$>h8<iw6q=54lT`5jjj1wEnP>|H@(5V&gGq2-bH!4^7UHUO$`ifHE8KG
zCYJ>cFAdG>%<Bj87R<m{?#6r#NwSo^Zp%iJeI|=P<w=EZwgNXS{*6;4x^o&Xbu9io
zYqm_RAI?({r9vc13tO1WbBtw%#wv`l4r8puIB(x?smrx@e0S>2sXT+}i9PQPy*otG
zo3`353zX&KG;JA6?}i&M%h<-AEsXM3+A@&_Xb^1xFo?FSCd)3kB(l2mrgn=z*U5i(
z;mw6S1L@5UK5u~-P=nIhH)r!Tm;>y%*V<lf``8A#Ek^H|pEAL4y@=n~M*n;Mcm0Ut
zSe`Xm`cjs+xSJg2`!L^|a=+DfvkmjTdDddF=Nenq_kMT!&1t1^AkSdIV|(9oyz3z8
zO<Ut53zTWxN5<n8S^V%a1HY|jK?us<%gr)2%0>x2@M_Ksujb6~YR(L=<}C1P&T8b-
zf>(2_NW87^c1};(ppPAX4uPBV2({NN@Mf+~#P@VsOQ+`JhL>?#8>>(cueBVX(gt7C
zaY6(1@f7<tLRoE98NQOMgZF991)kto5eO|il;d2jLM!yG7upK&&Du*kct@wr(=2pA
zeS^>|bVBSAx=1+>@7?e{TjL7n>r*`^z>*6;gAW-?dMGi7FAz$3nY>~U(UvQ|7$I*T
zN69U-T8j@vK+nKiGQ4X-&tK`9UcXF7y$m<#6-JL%)`SORc}WZ{M?iUiFJH5PHJ1<3
zX(9Bm=pSkWvMoo6Fu)rgh_&x_AvSU!uG-_c0gx|QbGy)|tjwyHkvC<1B?p>dDr;5j
z3Gd68vhreYC^whCJBvGtqgr8HG-KeKp<Z*m#)X)9Dr7nfmfjbkeAThamEA)+l62`^
zTfAQD2aZ=$(vh^|Nk)eSRu*xK>Uns%W(Efzm$co+l?31Grt7=Sa09l=tvcXskxeV5
zz;6I=k&2rfyhXC$TclO{%hdHZ^jAh96J6+esp!B<v~Oo453HY$pXUb?-9GKb$0EM9
z(atR7b%R`NqS8Ka*C7+7J`CUxM@hRez(-IjlL#*n#ji3TSrQ(VRqh;l3P~JyvaeP<
z^rKivNen7wPC`GL^i>SLh5^1jDDyCq{RB5`G`5SMw&@H*aiYU$RTSSb{0y4NA3*>%
zH*dCeJ?I$vb|Bj^sdP-PoqS}cIA_M$4IaBc4W)<g?%MaEW8VX}H|HLCJCvE2xjT9!
zGjbHP^E33sgNeNx7w%3R%8Va=e;i&a)RUJA4Rx>+)Yd)PMM3o|nM0@Vjlb}y!`Wef
z=%prJq!ri54LiJic+^hSHs@SzIhXf=tKosCWxXS9-}sU;c=)boCg*9)w2UgA(Jc!;
zdSI#g0n)T7=jzV6{Qud^)z;<P5ZuQI8L#?VfAOf1JO(h?x;8sHfA?hG0;&Jn@<6?e
zZ27w95KsMp-*;%-`a|AvXq5Tk2n`{*NggFv$rXon<QiF~=OIyHaT$88^~E<sooy>D
z2L|sMjocexu`%Svtn32zy4PHEgTccD5p;?u1>wooH5i^)Gq<+geA8j#6REn*B8?MW
zh9Xe9@$Ll$B98&=tJH(efwVb0ct9CE@DH6+uby0cdhJS%YtC{#3fGf5kbeH=^hWc2
z?!ZHa>Ux~)aQ|-zC4B>_Lr6qyz2AXsH94>%;WZ|Qc2_;{8EDa^z~R)E?!L*T=kIg-
zO0<xQx4p(x!NcuNhc6HoIPbv48)NJtEx)0^-c%A0lZNtB0Q#0$QzgY&Xd+>TD%1>`
zQox2gC<XnVc^GK0rJ3tF@?z*-yMOIC5d-v6ry5eB``i$q?H&095%@JCI|DdK--Mvb
z&4A@Q;HF>Tjsb4cb?iTh!4V9OLhu`B7#=ymkwVT?#aS3J3>zkVhB9k(?XnvMxDWb(
zMz>P%P^;ZvVxM2({OMQj`0jHvCH6_^Pp@#2n4y5^yU#)569l#a1QuQd7z?bf1!?Mf
z<2G@{vlbjN3HCU=hB%H{6jW@I7}yE#Du4a~#F~d5;LoiR*&&4+O7FkV!3~fuuo8OM
zf5RB#!BWQ<hd00&n<NH53FC4H{}Vf-JgjiT>1XeAlO>dk9t0SJ@RslwCI1un3m2TL
z;Px`&uWp_KcRky<8w9Z6C?VW!hjh8aiyW>KZN^xlYyN4(3*UHcXC=N^yw7!&uu>U#
zrbo=H3T~odO7P<$u@int@>YoWw|191fJ$eD;)Cb#2pEG^#|7|(UIXYln%{zSIhv{?
z5CCsbI4&;26H?v~-Le)(5NTLWfHd*y@ro1ltm5p?6fPTJ9K=fV#YS=9CMkvmOBj3w
z0<|U(5MrS~K$5UX#-QX5iDMQGLU<m$3{LzVog&gQwnU{<<q(nn5X)9DAgXf+Q&;q0
z3lcKkLR_Q%(L9lFq6P+Y{*i}`!xsByQ)}J=F{q=K_IwSdH0K7U?C8#LV2ab78MT<J
zqng^*dtZM!@5G!7Za7m7Zyw9nW6q84kOoY7z{!!vF<?OOVKifEmNr?YQb*E#Y5A6K
z<5YT7={ta@{HgcBJps`NGkB1n!h`)}3cOJ1!#7tpdQ)Fjy7yuI<ogXI`oM$DCb8Kt
zIyN9ezXn9;)_~}fYRr}+bkX5KGP=hDGsNYAi9Bbr>_wLcMCkH>2%+vrmj^`X@_=Xy
zig+yFwJu}%u2k|7Mj9KC13sr}A+AN@)*@V2UHH6tR6ze%_#9l`3)%~92PxM6f1hNA
zzVJi<8!pGg5qT7jIp+f;shw16N!`V9ty=R4qSUF@0t7siX+lsb7%DrhIqRO3z5`7_
zE+`ovf5FLsrngv%ZulpP`!{On$5ii+sa^2*6PxG8nY*^mtJa@egA8qdNMZQ%&()l!
M>0KXF7!rK{2gLDH+5i9m

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/cpu_model_runner.cpython-312.pyc b/v1/worker/__pycache__/cpu_model_runner.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..12273ef4ae718bf152e033fabe7070781330315c
GIT binary patch
literal 7884
zcmcgRYiwKBdFQ?;iVu;LNXfJ)o3d=hlqD*5oZ6OM)v{!}ksR5blQv<~-O{{Q66woF
z?!A;Pf*zDWz+}upTnw2Npg{biKV&#XG@!s7pg`bkKQath$w~^9TN&`s4O_84^yt8W
zQ6T%yxx5rfv3U&J4#D&I&g(nh`CjL{|75pY5G0BHtElWm==Zo`B(7X3-Gj<4Bp`v3
zP@D=;6t2?}9cMxesWTEAVgbfTT-+2g5g02q#mylzsdG|u+!C^ox=FIeZ6O<}H%az*
zOQ?m^&5|ST3^^%8Bhezd?o#^hp;j85MMCoe5-g(gE>niKiIiYnKzGY1hTPD$iRLL<
zurII`sArA|wEO{&2~b)~B$-gft7<%)2v3VLK$wxl+$5BiA4*buG?|!+PD9HYO+-~*
zN>1y8nx{pTk0%9Df<D`5Dt$JUK9!!DA}h3<z3}pjxbM%>iG(Oe%IJ`ysoW@i43)nG
z0*WX^2`EGhl*kCQ$i@iitEV6|#V(>LN?;ajA(P+`ObcwNNpK2HqFG=CZi*Gm3tXsK
zU`0!;y>=#U!SS16h7D#~ptM72g|Y=o8<Y;gE;?bZOLW5Sd$-RQxC~%DMSJmDtk42;
z+7{7OD&)S10xqp(wC1#$br$Hx16hG^nn@66qY*Juz9F)>33A*nJ%#KY>K0PVw~8t^
z_dKGIN|Vu$U1zfBt!9L>RF=M5h7#@oj@xQyY1JSuikXeMTcto5+;e$9LJB>O-lVdq
z5xL)J8V61`_~lI?d=~K-Ym!K-vJ<S}GJ3X3V=jf}P!BqY6zU31p;zHl6uR;9RpwQ6
zg$l5f8WTySGhIqbjQ9mH0xaW?D*i-L^(*OADk-a?5IhrT*4lVADMx1bNLmQ<SLARi
zCCVBHW1ukeJYh{<<H#V{4rpktc+IpFR-?0`aThIV1?qT-X;@-Lb4S8TBrJ%0SXC3e
zm<V5zL_u@&sidN&<YYut6kZh*N>Ww=ti~#$G$q?$aeaqoo{vaj7{V(o0R4Xd{L?do
zYCJWVilzqCunZD1a5a78*wM>J#6c-~X)raX&Lk6qm^}t(4-Q^Q%9llX5GbGv5-$^J
z38v=cR#-68QOj3B<D6~KsVI<rF^@Lw{&oAFO`Gfb*}ToS^yB5;HQT`_3~K2qnvk>o
z=bra`@A__wtKR<KI{I_w{+y$K!_ii7^yVGCIY%&OKA(H`{3_&*;KN-#i|m@Yb7OA+
zm)#G|wt~4kZ|+_<_dIEX6?67IPZcZdd&4zykhy=58yRZSOtPq^<-}y9!on~BGaq5_
z3&5<PA}JLBdJ^a@wiXxxO_>CCfxSklhFV2gWUy(h!eqwmEdd!rKLJU-MyntedII*Z
zXbwXt6zYaMOULk~)uk-WS608#%cAQ2W1#ZuQw1kX{kmi@JK*#JLa)J@uQAu?EEDt8
z4TPq^87l#9J8H16Xs+0f?enTm^c;;90cwP0mdOH51=CJsm;?~F2^MJDXmo7n_I+Z$
z?JzjkDL4~bMI+WY#sB9W-56s*odlXdZ6q(nG&`0Y5M7y1gyW*z35eIIS<F%Rwo3mD
zS+$bQ0{uX7mR0gKW=s7-4_(#6W|=o$$g*#oQ7h^@%cxk|Ns3ieq5%Q^EURZ-y;jX*
zzty}gt_F;<jDagwr}%e=nhbDS6KEKGe$5h9q6tL}CnBPZPpp|<B5F%(QuGl4PVNG@
zybE_ab(6G3I?aM9scSmTUhXX`K1@VVZGOLunMG@n#gr6|h~?3l<MleKf$j{Rkdl$G
zqzngZCwIew$_!+n#=QR9ZMWkqFRglq7RNVzJ-0`5fn)a$uli0dzPRD=<{bN$2XcL*
zn;qS^``#BnknTup9mjLd<GGIG7&h=L&)@m}*0<I%oO2H6I)*o$9ZO8EYhXFE?i?yM
zp#x(SEK!2JkY?q#P8<FF%P+qSIAnaK8lwOy+1aqHXr|e)lol0v55Q%t&144|F`Y_d
zM<|t6`AcCnGNW-(Rg5c|SxgAZm8d#H$S?Qc!PZM~?9050t%_!=YAA3USi)tn!bqcL
zHR`f_2&zggt>q4YWqQ5=fp_D{{|VVVDzc{L<G)~v2#Q~glHwDggj<iDsI~p3@Yg#F
zu046zo=;tS7e_W7-lguJzqan^+t}fKk9(K9Nxj1rIn=uEu^D;1OYVX<koN{w-F*f3
zvw8QkpSllSA6pz*e0{^=d^>YJvox^o*#Ca$9`)<zKRWT@iS>c+f9Bk^q!xA$=64US
zxK>71gcW7w?7H&=Eb4i#XhuGNq4Pk#^FX2VNWSw(p>u4lb8K;96ZSf=>gg?b2J)VP
zPd$S-sm->orSLC&>utdeU)Ou5-#vYE<ek%xIMn{^BL?|SQ*r>#tJy>`#e)r(L_VF0
zltm9Z5W=)1Cddtj351^jaTcqHas>ni3KV2TtheA_CE(znRS9V$FY0~TP?F$1Rd$7)
z8ki&b2*5Fq)g^#7P%;3mn7XYA0BvNr$~#x%fK^C<naubuf}5g76VrY*>6emW!B0GT
z|2`!c3<fCT?11-W(!G9-jV7j&nvIMxd@7E#WNb^xaLp<u<*?D~z>C780U-J~?3)E>
zo&CQ9bp_v<p<FCvG#Qxj*75yT7nv4@X`nXDEpJ<|TXXJ1D`SPjr}KwT7Y<M44^OO_
z&uw~kEgvo%IG#Une9d!Wk-cGgXmu2<oxinqZg{&2-hsS#U|IMeb|-dkZ((RWKQ#Wy
z*l#BOabnf`%Hr5t<3$G9e1ykp92@N95U#??@D?_!P}Zl5NcIB^=yx27I}|ysf~V?A
zln^Vkqwau}_tbY`pn_Rs9)YWd#Vlv`Zbt<(A3^2NH)3#u6@hKBXpq#Hxr~wc2?8T3
zOm56VNX1SdNh-cik^~yYwivCg(y)in+kiP^*wL*^#tZ|G?GK%=5oTs<W`oDa?#kmM
z^UROJavXDiI#p);sif>zXGDJ_8Bay=;~|*<N%#ZCJmahyEhH0SFkq37LWg_|GR@C}
zspY4o<fX6#++UfF!C1l+T{<khkdDXau&b{zus3Aks~}S0t9&9I=VkGAMRO{V8Bs_}
zqHKs!yU|aKjwrxu=rS01`6TRI#aNp2ihdwahPu3EcGq!P{Q$B;5|*hFrthwqhyT?M
z(oqNw=YzxR_U~=joNu4Mety&0w(0IzqL;=BzJa`NVAUPmaPKI%19^9#;69mmpDb~V
ztMxI%*<0`%<Rk?~r`e&4Xz#lDnI|p`%-O&9lrZ?+5%!dw`Pj~#YHz9$Gr&jZZLE`T
zfwCe3bq8%baEJc%E4wW4W`hTz8WojHZ{4~7#JCq>{SuZ3kTtVyyO2Ro14QI=0N#d+
zjaTLp5njh7(^-!|Rp$jfeG+HHh*|K>>o;0s!eBtn=2U>51l@@><|IMEP^3QqNR1+G
z!OBEP@u{#N0PkhG>X51JzKEymM0n_ECpg`qi8~EZpfdpveqmz|o98tPkNFB%6Y4ge
ze?1+R^d1?{*PS1%637FVI4~M}DVdbyVE}4$BB7aHB=dEHF^-4gJCHF+G$xu*;Srxs
z0qgf*D8@{)m*3eDQIdEbv?>n65UxK-d{P-}Ba&fdqGTZZVgVIt3%B?7co9KykNe2>
zq3v^AE$#4ddmaTj?p5lxT12?K$CgN0Y@xWFONZV&_U^F~f@;ZR<@T3$Qk=bHf~;tw
zxsK(wB7$PYv!dKP{n5D(&wX+@f8u=Z$oc%i3r}zlp&mgd0(evs=3{)K()*ySCqS{@
zf_NUp?<k1hRU$gqbQl9L)=+}*Fs>{TtM+fo&_-ShJc_@1P6LnP8q*BQ{;TKlmHo3{
zgVmO|BcQ*bZ&6@Kz6PhNwVAKM0vkP&uyX&uSoaFjO~fx5h*5EqH5X}+pyUP=s$!QA
zxrC@7GY3Jfr@;ons;xH=e|lC-s2A`fY9=WOqFfs~!5d(IzO<KYfH?#_H>m3gw!v-e
zOprwUxEc&GxDEcL8r`X@ETXrt&e0!p<`Yslen|)qXI}VrC|5#JTgNh%dJR@5@vwPx
zd#|og0aBB`8FnOU{J)6UPXGr4F_j<|pmFpnl9UC_ina5MoJ>SB;vI%KY#Iv@Ja`FS
z29r6hD46SvSFj$QJMurI*^e<IIAl7HKHJ&5ICf*=v)u<4$JWdKru-6g-C^aIp^$%w
zvmfCM>o)xox9-oijhEz~!mtqh73`2NpvN@b+^_4T%K)fhlyAbygI|5di>fS!<A0Ku
zVMm>p8?fRu^fe&r(Qmn7g%f{@*DG6cn^QkBrlgEL^m@Xz^4l<%<1h}(S%q>`vrAtF
zyGH?553H~_e5`RqhBcGE3iM&(%6J@vQgD1(#4@f~NgbjJKqMnZTz&#L@dTW`0)OQ#
z$o>O|bDyvb*Z&AX_QXPSu18=}T<{cc?YOn`XYg?E&bzwj$2Xzb_p`o2YfrwlXMUnc
zo4EZOo&7hsw=LH#YvvsrzMxU}{?2TF*tySWLf12TeckN+0^T^j-iBR&RB)i^&5`C&
zH+A0@JhczqA36Z_kN5SDx|qLrF;Le``WKEG#|>X}5By920GV#*1PHa^?_&{&|HtWT
z*cLQ=(>D5I0YOx%(My+DD>{Zfjk+Yz0%O=txk+HN6pxvLq>3$Ks-eV+)IjR=KXJHp
z7d@O-lWIC4o_Q(Iq_vZ;4MFfMg>(e!!SWZM<_bhk!@gQ;^=qI!ro)(2ekxQxQJAM>
zQOtnPrZM280cVjVJo?v<s!8PAlA|8bV$A0C_!YhmP+Dc48-<pPvjqGVtcD2B{X099
zV}~BL`wH!Y`S!s=``LW^+4=JiJ$(hwb9v8m^OHrI<Bo1vcNVO>^448Tf3ciivp&Bu
za4=`<UbFRK77HB7nY-4_y<aTv(kp*da2)x~{t-X*LDz^I-M5*cdf(kV(#72GVxS&q
z2U*cSJ;JvUnStS&Nu5i<*-1D~mp8Lc<U~S#6%Qbv*2;t?E@v5{2PkCh*l2$IeI-bu
z2)uX|J_6yp(VIAkAj-t|)a+!~?7?7KjY<j$@@cybnEq)d2;sh(Pct%p4C|Viy!?pg
zNko~@cAI(CedS^KI!wbRTfxex$WRpZxd~Cd4^aE>k?jHU{2SWy0QEdT-+6!lIP@>g
z?whZyHt(7@JvNO}RL9Lfe~fThJVzti`G{_%_Lmr_6>+WDM`~8;=yK@45EP{A5e+q>
GzWy6T@5ZqJ

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/cpu_worker.cpython-312.pyc b/v1/worker/__pycache__/cpu_worker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..191d765045d5603a80270771fbd37a8f101d95bf
GIT binary patch
literal 10410
zcmb_CZA@EPcK7*<XZwL2W56T^9>EDX0RzM2izG}KNCNo)2C_3#cDGN)?*VrFweLMh
zpk_DQrYf|vO6JEZiFQVlsVX&5M%rvuX)~>=P4`E)QvdjcWbJvI(av_Ks^%XvWYwLv
zQhUyOezqabbgT9X-aYr;bI<)c_k3OdQ+2h2K#E)bEczcUg!~!{MzR)w&A$QQ2H^=$
z#mTguQ_~cbO>tAgJZ+}*I?J>L>dbL#!ZvNw>MZf91U*e_ur+Q^IHnyMY>PV+%rv9H
zRq^UX&2&w|HSN;MbljcTF})+<nf7R9d%QN`o%U+5BVL!NpRP|dOgB)(L<EQ6yGQA>
zoNhFc(}Z_kB|Ib4-!m6#cP>%E>d&w+7Nk^qC>)Q6XW|0D79qJPLGE}x9#0IVlC#k{
zC^@6asLaJvb8~_SMVBPVoET2>sRSnp0v|M~&Y|?epct7ynOsPy?#O~D3Q3tu$HVe$
zN=y_GCJIHh=3Htn8VSdTCcZYBoJ|4A8UW9ycp*NykW9iLCe`*vO1vnDYMVCpC9S~m
zQArk~GYhi7b1>7Wm`WyKpoqRM{p&0gHXi`+CvZdp!DE>=*$MCEDZ$K}1PgD5e~Vz{
zt%7aVu}Wqs-gdQmx{9y5N~USPj;EpB&O2r;uzA*LJ6{hQ=n$-pK$CYYSHV|rt%g=7
zZx<}HCcfsXWt!m|co*c=yj!S&9xm)LM;XwpNuyvFtU!4O;JJAp?}0g(_*$T}W0hQ{
zrae<6*r?iJOA347T!ho$BHD4Nj(7^T4)_0}YSF$8<=didS3;2IQ@rYqN*pgn7X^{i
zH!xx=Yz}4&{3Azfo-+~hed-30u~tiKbcTEnI6XsUOc`^=lCge3-79cD@SG__Vip6p
zlye3CB1EQ*+L(5ejFO&<|N7PKE4B<3!`W?1KY)7#BiC%JhT;#%yXKWD*=@AMY7MBA
z^OlV59;_4-MP#oI5fZC6pi&;gQ`(mPhaNk(p+hm|f4**xDqDN=^X+A=>{qt#{>s)s
zh1RcLar^T<GPX<=Z~ee#$c+!G?iKhaLpbA_ktL9GTgyQj#EMu41TQSxx{yV?mO~R_
zYBm~=Cg)foiNb~tu@}T}M3C4^(RiGl5m+g_DDbSD>Sy;zr%+@RE`2hb5L9|W61chL
zXgX+99pQ)^U5v_6K~k$lA(9e#PMQy=p;(jFh7q`gkVuJ3s^d~rp64Vv9JyG4XXB|f
z;H8qBjKg!H5aySHUezisq(R)!9H-qNPIaZjA_ztyZd|-ZxMnzWF0vrWAo`#Ydh-hr
zLBz|THoSiB+<ET8_~g(CH!(SWYV_R6Np5&_62&LXAPIv-c@a5Nwdt}{wM0Susa81!
zqEn>{a~IXB0;Ib2T@%DXeZ@<v8Ki>RT4|)olSAW^!`#%!;Ka!(wY?I`8>1JBQ{&E`
zJU>49dusCw5vMK;4xRmq_EYD^C#KX!Sx8DLaV8apQ_#0`9#lgdgt%R`NJ4y8+yP4#
zJ@~=Ji^zu>cc?yX;heGVLU%qYiVc9H+Bq%~4@(lqNp>i+g>>cLPjt(Pbay(M?vlge
zoFI2yUO05*@Wn$ycRV`Non8Xrm+VHF*}d4?t#eU#B)w1&f}!-1$O64(Pf@~#j8jKh
zApIwNetU&Ha}#^bT9rck@=QaXsn0X+JkyqM>e_G;d*d@=vpY82q<>)5lB4|!?SD)k
z{M6~nIolsO+n=`Y&$SOJ?L%26kZ<b9HNC7fy`1$Qxc~Zt;h&6tIQrmdcIWBUvrie%
zwX<ty^X?OQcgHiUxw_^VO`3MUH+E|*=YL7@zx1iM@y6KOV>xf1;_b_M4=LV58)lQ=
z^UOwC+H%dqO7rkj09wu}EoYzZYRT;yP<9QJfR?~}-@f(jT+3;t<#gWL`Cxx`;%ggb
z!j4dz#Kd|wc95pNP2y~-Ssnh~`Hh{VsTF}uSU-srObCPt=sR6iB!Sb*6-BHdP&KT=
zXNAg8Jaw@HPWh&6m`fy9u6hcX_X;_0(y+fP<1uTglG-q^S4<g`TvQL0)InKmQ6(6Z
z37Iu5643{W1i5ir;>}lyVLX9QD=M$#`&-7Wpfa=-yojph1ymP#>y}ZHuya<861}Y@
z4D<DEn=BM#71Yj(8PsRf^SHdtSQ(s<`MZG^P^_SoRxDr$fEloiCV`o+S_a~JX(z$c
z21@Mn<Dm{MUmai-RZs~V)_Vvz<&0cZXt4^)E4H`P!+>Hz11jZ}$0)Abnz4#?@;(DU
z)@4AYJYzMmDVTjMRBADxihD~Ny?8sWTka`hzhpqAoOc{UoC8J;jC0U{OF7iCrIG<v
zo)gp_HZV$gnK98{sx_dJK_?$K>VVFG0hjXFi4tr;#(Ke&8ZzpjcZGGxZAN=+*nmno
z?=&bG#u@NTvBwe#GGnSGydZ;`JQqzaT;3v=P`cnP-kgNb4LGl1a*c|Z=19c!O;91o
zo3YYRMTn=CK^lS70qG@CZ`Eh0w@q&~TA<eoH3eTvgD#PvdF(T^WIsdwewR{BQS@~z
zph_gwj9-*~EGxbYnMxmvhZ8e=cwo7`q*pXsf)^H}5g~L;Gu)*C0CdDt&`m;Sze0ZG
zU2h%vk@rs9gW8|ee^~#p^~0SH!++cS=WX}Bk6K5*gntPq^2ZGU%e$6<Wy>a@)vav;
z%0%1*9^9Rs1e^%d*k}I*=`I0t43AYpnXXS)JOSYEJkzt-8HM2$a@%`*=62-$MiIGJ
zwIx$C(Il@@na_~6O7)AcV(!wcis8|z3*6}N$*~LKD^ME@=!R0G)(D%#jh~<3E{sf`
z92}nFUL7491{=um5pB|vBnt@<Rf6gTCC{M-4}+l;m4%4BAPOSxh*~u<{>I74i6PZG
z)pw-lO|_0gTx1xWnAR!EOR7uvno@~0Rz-Q${N~|<Vk=Vc@nJd46|FtASHaf>9}8^4
zbUZ49;g}NRU}8p>1>J%{TUj-u9Z7RT+=3j9OR85pYMi4yk2a-*4yw2ZFh!JIn$@G4
zQj%I#a9l<7V@kG>%Agm=&48sUBzX}vuF53PB{u9&Fs1}v#6wnXI!hS{qV6=?#9nN4
z6c-8eGd4}F);EApYo4Qc0Wr;@AWLu)3Z|9L$GWqx53pQUk(D)G`Z*l<74m6aW3H}G
zsq0&H<ehal>mNB={$k`W$KM}c4;*;V@F;NNX+wLi;h55JY`tM%btLa<c;{@+->vw&
z|9V%h_f@6$)$Fbz#WnN^8cc&q``}03kxjFy!*kv8#2whM5zo$dzWyF}i+i-AvkYfn
z84gW4dNk~Ob;HfWkE+}9ZTnY;pD^qvem3XtQT#nQ|ES_0T|J*~Y|AwUmB!$mw)Mu)
z>Y2RDpLKQQn_6>Cy-HJWuIZT4bnLn#-_)M>w%$IYctiKQ9=0kk4Lw{|dS3&>tJ!ni
z0doq3?(jd1-i<14hgXLm!$4^EwJ6S(+lL=H_doSC+z7rM%y|NeCy?_TQ9MT;1akdj
zO8?lpXMA<&BbVo?yZ(mrZRgFQ$8Hwr1-o(`!%D|+uH%f-apoWU);q?t6O&5E)LW)&
zjx|TNHlWaZKBf1A1)5|03gZXh+UVM-R_;)k4lIwajX!1lIVPwu!Dmh|PSJk#-L&L<
zLB$u$`9g{>^qB4j%dzWdk<dHBd+}TGI|tUAdtpbr9IKWmbm3}S<HDj4S8c!}3u1CC
zg0jv?D01+B6V>Audk|~4C7v=QJO$3;UDMcdNQw(WnnmtrqY|4;$t-wZ>68d@9X6F@
zf$2Kg=v*=-Lc1KgYtrtKT6HNbCc%RYnlwfic^GJm2)1f;mt7^M)ha~5+eH843VBM`
zT&r2D$u^vROpoMgMwen1IXox*e=Sg)gOS8}_!#qy1H5IPu#k%aw~$`mQJQI?Y7skM
z#1G2XEpi?OY}uxRvW1H6sgglH1-fet6c-Z-N9MtO)#FGFC>ky<>UB~Yec_oUS&;5h
z+U}O=3Uwzh$by)NCIv3M7>;Ve!h(mr94IZ}E3jai5*mM3NZwVObFqqx&AARMuESaS
z@bfDzvKQ_KuotdeOR(m0HZ0Uuiba)J4*H;o+m>QQSEJN$uK*&OifJeWt(qJbzYehY
z4gCB*d{j5^A#BDRoFJ!3Xi<Xd@(uGvKn6!4RFHzm8z2`kmv@)8>qR&#NDOUMa6xUA
zt}yUzj&4-w#vHv*q4zzZJ9Rc@@I=Am2K5L5h4PI;O{uX?vt{dsR@zQu8@>S)R!l4A
zk`I?L8Qc1TO~rAxrHim{((W^0l>F{}AkYUs9)|ngwHmYeLkvZdN`4{Q+u)&?!S=Hj
zY(HSN6|nUy1rakA^sm6`tIb%!>Z`Yq74wQUN+9S66ut?T@Jdyts*+cku`N=fYmQ)8
ztWrDL^e<||ImR#!vMpt*j2)%OTd!Ei9Ly$TtK^v)`v7wU^J9gUF}|jy49#1vk`Jtg
z{k%eF%rOk0Y)d8#=NA2xvT=hJQbx@Tk??YAX1VBhR`fRQ8T*y~-~DWP`r<HwD7Vz8
z`B#;$rhnVSp{Vy-abz5#iKmkkZ(p&O@uk^VO~#JYr3T<PN5&2u<gA1R^~@H|vh#M$
z3k4qFt1@;cn9soX&Bi=pXeVw<eDxNN13z5jxZT^(pa^_eA!I#k0`Bu`K1cE7Ahcc+
zLz8h^+A<RQHC7o-P%Q!V3S%1kQS@tyUTx98v0gGfoh?w%6@CEn)?q~3CN=esDwzd4
z8p5+I+STk#SkiU%*w@Yvf(GXWDOBt;q`&{fmsoiHVbP#w$2vi=Lxn*Hw7fhouwz~F
zyw;nICfTBHVUcK&8WLyYU>uhs#hQ$R5ONV`P@I$cizS?Uxh(8w!z|eIn%-hlGcgd5
zxDZ`b;*=zIR!k)T3#W%eZ6TGKg_iXEl7w$oEQFf{h+V_vqsjDwj0Q}Y-TI)Vk?3S0
zEQ$ur%+eNWxa_Uyp(q5y2Mg1I4qIFGrAzavg*ea>w$RdTv+|8t?iou#ggvz|H_yU~
zQ<s2V>4=KQSMX6-SlV&`SN(?ez$U>wp6?U}Gi-Tph@FTFaO$iqE<Hyl5l$|^a7&@*
zEEdf(#V8eerj;y~DP7l!C_cf*rY@H$Qr%1KEzU1g(Ybrxv%U+oG>7>LxgY*9|5v=G
zAmN?Sd{J2XzfDp61Eh@>Nx38azn>z?^THG#w*D;e(||U`G4T}Ci=cVQvL2a-wR3QQ
z-1sSO^5oRX$=6Q~bI7F~%e6taz!h;pf}06pcUGlB%RT7)LJ_^tF1)Px=%U@9jws)`
zm63z^*rHOML9dAJz1plf&pHcezB6(=hc}Qz3aU9SBt?{lnggi?^;J8(`Gz$dwc5BP
zU}TDdY73{+;LNJF#c+H9UT19jjZkgEWq38<^=N><7!9bf%<axO`rx{AUglb3^h&kF
zQqiPphWFv1Q+E$8W3{Jn3Ao}UCDjeDFL;%;1!~Lk=%N5#m5XR%2D>xb`sEa&7QAWg
z$wu?5wXQBvkOXlN%xW;c@b#NXf}0KxLt3rm1S*Cog<Ny7#c`-yZuuX$`i}rf!lzj<
z1Di>;FUK5In1k!g;m^&)-j$_yX8oODAG&L^wR_fGd+!8t`v#PK1G#;p%D&M@uF(x*
zwL9`P1De6zrnuU2u8`siWox=O2-UMUzxQx<&k+Fo`!?X=p>NX+=vnCICe1zfEkAbs
z$fY!$fMI^s&<?Jl-|<mH`}Nj4y+1s9_h`2N-1`1=e>#|LXouGXd*cRy_6-L)a&(pX
zg|9<%^K-5}ifhlEZz!%K`9nvpGdJJNHT5a*=YBcQ_-^`gjok|TF+Dlvkir~#KtEvy
zH>yZuaDyiP<}5tA_yRfKe#N){=f1Ahk*5t!H|Ot;J#IJ()X~jtQ<%2*&)xT}2l}5d
zM>njbF$BBe-<{q4(uXyVcbx_bP=+Uwokx|OM^{~W=gzEi_a|;|&K*$Pft<Trad+Qu
zRos1F5NgLsDqq`>t8G_m+jF%il-d&ydzIQ@pjzGdIZXmRx5D>dTOEJu@?>k<)?I<y
z-+AOZxIxUg!JT)wZ0B*<$N}~#+m;Qyyv`oTwj8`4-Y`?uM>frXlm%p(FuQJsAv}_A
z>CW~H-tW%#4rW_k%`*N^!6$XDIrGfGN1=gr<`pG0aA(JA_!_^)Umv_N{`UBz>OeL$
zpfIn%3lY3I(QxM1F0WlyI*+aUj>Gr%x8A9}`PzFIZe4h{G23}e@f}}x4P@zoFTXfV
z!NGj_#j6ylK0$r?&%Wal+H!y2?HwVOpIR*N{fCa05v${8P5u!Ft<vy&0eGnt<t@$w
znrLSD-#i9V??qDlic>}$EtMR8Fxn|`S7o^$!{F_<WEi>VfxVy?2FA9fQZMLJ!38Ni
zFTEn8h|^N6+JH*=3&wMmFbv2TuaZH}n|Vvg6u*ah0urtVLfN*lWuNh)YXm-w*Kked
ztF`!Gs)-Ugnh-cSC5Pjm;R^z|?^P&0!ADo^V(Joz<3v;r+C^|?Kup2UX0XFaQA~*t
zw!|}p$5%O(*56%=VMvt$1qe>OAcp5aAX{bacRz)A%J+d(d7MJT2bS^}Md6|Lr-+AM
zDtPlw*R|to$FolMsi!&Ha%A1ppJn<#a@Jx*>ipXI9MhsOEl-%%PmFT2!Zbt345ZSv
z@2q|2cIzWoTOk^j_xf&}fBSsS8-l>wy0<6iJ*apO=Gg-eJs@T34#AUUUHxy&mK|7h
z>-sWCor2i5rZY8%-6RSyFZlVvg<vhd<>PM$I8JqN=%_D%L(ZuT$9)TI6}?47CREMQ
zq%6LLkYy&7ii<3OVgx^Eu&5Rk^kNdrGJY=M2f1BD>8?q0ZL8Gk!h>~0fS(3%FtI*p
z*KCCoy5M&sK7P=7ll~4qzr9K}YRK;P&#U)ZTR*95*|0(mA;CJ|MioLdad|fE2sy~^
zJsVDh7!Yf}LHsW!sF$pc&*v$VwfbfsNMURBZ5g)7TKzeVRl~PyZ;jruDE>~Z?SVyW
z+n_1ykvl`11hP$=#oD#O9Jjub_XlqCcLtQb{n<T7A6$4CQjWit-Se8_pWHA*^Cxy@
z(+c_L-=-L==eFhF2xOYcqOB*mOMDa8b_PDGE0TiWO~5Y}Qb{Qko{8vtg&vD)!B=@*
z?`uD53hBWp{TTEbP|ol(GZCeZ+KA{OJqj*d79wESh#@WBt_R3#w07goK+;|W^cMrq
z)|L=xXU)RVj!bRQS{Hjm`i}#!RgdIwdMI6wvg@Olu;u_u?;xW5&;$6l5z_9LcDO@W
z#L%4{Os9|Od^aH8hdPu75@LXApr}n7p&Y*;u8&FJ*M#{OQui_0{V{3#m>l>eIs8k~
j|1s(RC3)>vcJK8!*X_+$Y|m^<CdzZ&_8Wq^HpqViZJtMv

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/dp_utils.cpython-312.pyc b/v1/worker/__pycache__/dp_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f8000d2a62df08ef31a4b09ff9c242c270ff69f5
GIT binary patch
literal 7631
zcmcgwU2GfIm7XDo<nUMj5-CyCIFf9!wk6A!B1KW`I=0oOt(89;DHLZ3iZhZ(lQZm{
zp&bbnpcE~tAP-5<0=9twmHQH9?FT<C(4s*5*rE>|n%NaIs{mfKeF(4*3?yKIecE&G
z{E(96Zu-)Zc<0XjIrr~7-#O?0DI5+k@Z`A<vX2FZ`3rv7Pp6gH(^-bO!-$N?=9vYS
zzFiA0`gRw%1rLjLuDrM4Tkz4mJI@#V3x1mC@_|BdAxQI{e5ep!2p1v?kwVKtOQCh4
zm1SIv6qMQ?z!>-}w2NNJx8xFiKj9WSL|*C?{qPG&U1AV^P$z~YSMHSAx;b46iDBr|
zBSwy{hkl()oY(?wqR(uDV?9g0S8Rp8F|iHi(GI^3Xxj-tb56Zd=QGA-*L)1K<ch&$
zVUArOqtDOapV&ubb%Tr^OAgAV?ZqgRn7Nq5=BArhYUZulkkl)M&HOhQzg6u0iD#jI
zl}*OKLNW76)`+~8Ch2@$%3o6CrR*}4gq9^OB^Fc5L@5>FJD8QTS}LzBFH0oJ8KLVh
zr?t$=oB3=;QjMO>ij=vTDlKAJN?Re4x}xMo)#%I+DXmF%jcPXU&Z;R@$|$mES4f4T
zwraE#ty!d?4yKW@06`b)h7^B$e}Lo;qd9dCXf?y+Tvn#(way;Vj%#XQW!GJ0Cg**+
zoSf8nyEGTHbB(vi+Moq+yN(<!)M#zzU^KSuT5`R~B;E6Cv)9$EyewRL?YaO*AP`9`
zWh6mU1a(!;5Jk?eNy6pVgkoA0vE8Di-IgR-AZhugI%>Ex#ZuBoa7~6+ly1R!7$Ng*
zo}Do$X4Uj!UP{TCOg^=w5Ik0ty+VbjwX7l=Uh`xPe^y>nQi=>x{2<vnem6miAYmND
zLlL3kQ3!(YzvsuaLUF8^EuPlW1Tb^@-O|(x(>JH2v3z!MthlPJDDv2?e7-PtYkcgs
zLT*ZA48|{M*}OVhTs68<6liqfsWc#hiYHwl9)Ic^kZdr24aYwCm!0r)mGE;LbGxDF
z2lG3j6P3`3jVtvK!}sj?W*+-ycKOH-AFc3FJ@(e;{10nw-J9Os*7(mOJFO#?){#w5
zE!g(a<mO8{7u^G?j1dNumhv_Tollq^Y_`#>knD0wE)`Oma#NDkR8b-pUX3`Oh9o|t
z)=MO<MC6PIN3k9R7lm(vGHIF1*)>h?bq|yu1!J$~$SQL-<ZeLAb>BL#0k@b>&H<}k
z!T@8JJ!PNffICOozEO|4hpq>fQmp&SuCiZrBU6>VvzWT!n``=Jh)d*TR>X2oQ#spI
z?roH7h#LCjB6hCvF8j;;L*D~y%`8*)gHrJGU*U8<b6JQJwN==AZ1WXr{Z}-Ho0()u
z2flctT}*3fI5v~TQYt9T;WAVhiYvpTDI~LEc-ADMsD>viYv;}y9H@zA1V9B-rV1tl
zqz8nPC?>cb(u)ahpW#Cl!Z9#I1>-8|WDKtcU{Q#Q4M9V!hoC7nd?`|rQ)xm@!`CqU
z)SpAL!PFy6OJXN-rV=@`@ts<v-_GuKCb!3`oip!U-I&|FvKwyy@a^~CzT0;9JKJ-=
z9sb?PU!VLuJhw4di=Bh&@%LWYT&{54wb*3S*B6PC_u3w{{oRsXj{n)K@4fob+}7~F
zb0eT78&^p;%!{CjJwU<^iq}jO1G>QOGd~3~!yQ^@%Rqw%N?Z*B*6_&ale5rff8!f^
zQq+mAn<ETkV?5_zyV2Gre7nuMyX;okRZjEUZOZIXWNr8RMlzeFxpEGM?Ga#xR`wf7
z^Jp!0&oWo`*mx%~t<^5iA(9V0BJcsUw)PE742Nq44e`!Xbsz$CAjcq?TZ>*?REUNa
z!ZgE}8&=^z88Em-MadJyo8bn48(dbC3WghiZ@3Ft8Itt71b2_%bPSIuEtZy(UV8pU
z_hBA1@ohw(=0LNCs*TY>yMgp3k~F%kJ}_QWv5K%V^~6+@&QwuRwN#NP;9aN|>5>^}
zg-($AZ;)&-wf@1ai@*BO*5!LQbgs8HFuaxi*S0P3URmej`(CDR;FHoXSMRNEcRyl3
zi#<wzmZ%O)?+m<D8F;BWaG~1!?TxEn1f#W<PHdad6B9d$=}Ka{nwZ&1T&N^2R1+7g
zy)Wxr&u)A`7p8ZF*@`e*70&Mnmny=gs&J(mpVPV6uCHHDjO*vV`?>EGFhC!M-VfD6
z$MumH^_Sk*cf0(7x|fM1Hp8`G6zmRFtBl2VunLB8H0r<M;|^-UL5%`efh;t1sO-u)
zT15NP#KEFtC7!NpXv^QX7iIS{s|D@;WtZJ=4P=Y1COdM3WAo5$WA#l2X6j(xme$Z3
zz%Vy&!WZR`1SCnGoW=YECgYeOVoeab^O8(X;3qaua<r6Ev(edPqSN3o0bs<U5jg}g
zWE_N;39#rvfSDE_-79hd+Wi22ssagstnb*?v0uHuHFR$lj_(T}qNTTA?;qdkpRDvx
zR{N)R`e!Tsv(^6d)!2p2$ZkvLhvoOnwQ!#vihrW&gHwRIN@%*)5#4R?xpVU4llwld
zHBe_bKt_mZ9olI*QE53*ZAt2UlA^=tXj)H6HWkKbYbvygqL%lP)<Btynx!SM1|xQ;
zrm?&OE(uaAf@!baBy%9|n>S$PuJ18FZt|PKA#j%&@L0Kr>;ns6>z)RgH(ZmWJm|7V
zq^3c1AE0%Is$qQVu|aGDZruyxda;)^qXsBFP8(m@NBYWMHKsXmJPLLqCwd-wZQ2DQ
z^{sogHhW}nkes@8zU(XW)HmnTS3pw(h??<H;j)y;ijpd1mjo%DSwWW^4Zo08g=GcF
z7CiPs7Vt-dpi$vUR$GyX>C&UCPUV307j8pEQ%mfs5J6UCNl=yq=u{9yWi&wBpT%)C
zi2#kl&`<}XXz9EFXjlZ{*q-{PP?grqdC^JT&SE4{l1HhOw^lG-D9JL8)tI9s;=r(;
zXTk*+ca4;!Q@9Ls0k{-c0*GIfXiS1qN}8Z5<{WU2&MNUkO&6r6=4-C*4eBPVGlEts
z=B2mk0Jz%+-0~UWB9Z7eT04H^emi}e^d!9mJBO}3DmI7_O!Fi_aH*vsoW(PHdPf~e
z*3N?GdAhM@0>n>;&R@>tOEfY|%d1U+nz{Awm@7?sp6N@H=KzM33D?%HI{3lKt)x}h
zWH>qv0ucziVW%NLf&lSHr7T3)&0`5yWC-!FQ&XfU-NL>Q;w-NSS*;;XdbbF1cvj1=
z3RY++jvC(OJRmm@k-kUGC`IX7(odaKGKSNmM0^Hwl$X&Go328Dx(YO4q|^z$zKxX^
zF?ku2OPHW9+@NgJL5M!<s8l2e!~uOw!tQE{SS1W#5#}m+1zNrhKlL||fE#^^3H9s3
zxyQkCI(JSFp4$&Fk*-?zXsvs!Hu!vP`1xA&#D35l@ovoRw=!L^Pr7~?yBFJfe*4({
z7ap<qfy2-4#HK2-scP&6aJx6Ig7pp!Z-*ZTCv|R84^9I8cO|#GtDR>yuKt&=^WHl&
z=!{kPSl#6cN1=H~UmY%XdiNO*W%yYCW_X`xgy|X|sqtNV9=G5H2c;fhLNUGftR6h8
zb7w8$2PIQ(ry5{`^E6t`!UlyKk&>JR6c$n<T%m}Pfy$Lq;RZ%5<sl?(3RV#*lB#8z
zeQ1aD_hHAt-*D&PefSYsq+P<Ux<vQ74?K|evS-6I3y$|eje_T)<DEh~ZUe4S*13j3
z0JFgXoq_?e4F`=`d5AK3l@qzLABnc?w`4o>gvgRckhyPQCPd#Fu=IMM?6ssc%!Icb
zuql5%SPq(_CHeFUI0ID8FDVKE)rA`>RY(^Ud0EvCG7WILX!9>JCF<Xba+~tTQVB^A
zZ@j21leCZ(RZuTY0Oz{dAV{i3=@-eeI^&Q`lMdLnenyx-%<gD1kYv-Dj8c-RlaD-P
zQJW*|2>i?luPilDJ~BjOqL$|%iH9UKz(%`+SlimEO}$MwL?{)}@;OX@E1fS%jyxwI
zH!t*Nglj;!b|Dfm-10e%oA$z#eZ)>=53ns5&C^YUH*)Fv<%_~HNf%etQ;t|<k!!D=
z5+p5?bP5mZ(2Ve^3~X3ZfnxELpVmX$5{^=Ph>dW?jng-|N)Qy3V;LCOEZFZn+HAN#
z0wAHfntlK_|NqqXADYxkW6v$w2mJ%EV$^T|9auPgmhrVNam}mR8FQuJ2Ee~6X}D_n
zpo*-dZ-IGUCKBwOrZ^kiU@@nt>3sj$rrFYzQQ<Aqb8+VM6o?^g5GaO0*)WzkxY*m)
z@`0usO5zB!yrlz{pIY{$YkqzX?%4@O7G~s*K|4g)gIIvPM@^X-|4<W)H+jjBX-vO|
z_20*Y+EHp-sidn|My)KpsroK_8f_G9DM~^R<zS2-K5(WgdddhA`!OwSZ^j|R6vcJQ
z38u*F(BmHb)c=44%<LRXFI|%rUvm5P$G*`gEitfs!Y~-NFMPdETKaVw&p^66I8zJt
z)j|Wcz9d9GLjj!^@X9u(`-ED2Oy^^NJ#(eT_tp4VjTdTsw8r=B1-;|m3U_+r9li6^
z*X>{^YptDn_o&_i?Z=>ZXh;u^>D(BkyU{*9KJn=FN_=W3K3j>;R^#WZ(F?yHuS75F
zT-TG}Nj*5Fb5oG+c8=8e5&c^)?zvrEUNG%E6Ykafz)hIYxe025;W~bPKAA8)09Ck~
zcF9Ha(ggMtE(}NUhLB_zOPVAa!KM!a#*#6Dc*{L%avDK1X$;VkriP<7^`%q|jE;G0
zZ}v0q-wDQ7Mj!2WYkbtaFCVpzkKUORyf82kgAk#&HU^(c$>3(EQq(D<mz<{GhViuF
zy+$u2O?QsEZW!dkEhu{36nBPC7U5Ddy-H8|Glp)42@8I<prB)Mo}{1?1d5FM3rOp3
zmSy*NhVA%ICiEpE{Ea#OB{TgcGx$F)59``vAo)7N1iC)@Vb!15@YcOyHnx3!kAYWR
zXl2`L9X)k7yr00^18;!Ov7x#Tb38M6yza+bfaxBp2Qe37yuqK{c<;tu7{89Uv9YbL
zPviIFbq2DJhW7AP9|^JF+PePfjr%w13}k;lL|=cH{PXM|XZNtAo_LWxSBu5#Zg@ZG
z>8*R<4I>W>)_s@*H*Kiy$DBDb=5XZAiI2MO#6OO2ag{cJ-cZFeycfpGITtgWtUY(U
zHgo>#ma8l~NrhwPNvyx_!3>D+>8tx_mdEw@X*R$_`|e)*c!pCRx??@oOD{d$;w
yMwk=HPjmNkk0vU|r|ML4y%i@idv~Z3Ol)~R4c!lIYZU=~+=^#nzYV+5Q~N)hH<u;=

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/ec_connector_model_runner_mixin.cpython-312.pyc b/v1/worker/__pycache__/ec_connector_model_runner_mixin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1928a41f5f3f7f568ed686476ab825b7ac596862
GIT binary patch
literal 3934
zcmcgvU2NOd6}}`zijpW(wwyRl?1Zh;CURpb&aWLLTNB02nmFDtXG1FtBV_VArbAKg
zC6&a6vjs&SoDJ9t3~2J`00ovJ9k9neuG`~Yq}qi9BEeE@z_vFfZn0w6!_K`FWyf>8
z?PV9x<++FVoO5~3cg{WfLoyjhFzm=rtq&6j{fREZ5or-?9|3U>nW%tF&g5;b#20vu
z(t<6NB85mvEQlqkATeIVj+W$t%xKY$6=JYYvg4&hAyHBa3gbuZWT~Uj!D!i5OQ}MN
z(J{NT)K%!>5SEDqa&bFd>MnG1h(|bucRb>P6BTyy=mIhmcaW((;#<6)c`=h*I2}Ka
zr!5C-V|mReI}SFyGSQ|hj^SBlr)XQ=yjHSqT8=gi{8HJ(wni$jkGR?R->9k#=f^H!
zU=%?zBltVdPPrZ_8eYEac=)Dwx#$$HV&Zpzdb%#P)(NL#+btgGNM3pOJ7aqOTVwf4
zZ%<s9$nd^;6?-~1bWrBF)1X0}DY_dOAf=Aw!Ax-Kb43>eD`7d7r`zSLU=)^}8+LrV
z;>}e&DmH1%V6$Rl60nTGC&3J1Wn*nOxbGgqsK7xec`TS5j$jc>vmLD+8y?eqFRV-+
zi_;NPxD$EQdRLG^E@FzNgkw04MYb!t5Jl+4RUi+t@&?&NOZGq8m9T=7CeuqTOiN~L
zgPsm7V3nQXztNPUn#}05(9#rN*VO*1&iQC2;qTet+shOh-(|?SO!49;v10&_=tdEo
z?MF)`9pX1*wD8CLLo-Hz-`bC0x`(_LUJ(inxjVh~{#lX9yfB$uh;a_hBM;mfj8Og-
zzsS$VLhkx=5iN3`@L?`c*^Dr;@XAEl(`Jg-v4#yTgq=2LV?dS$A7Na}@FWFVNGD7g
zkx<RP6kyF4O*~b(N@U7QxS%EYayKKa%lI)sd;nLMez>M-|M*_cE6wHRthphtNC5Lg
zH!CMcN3Na3Ioq1b&CPo=WhZytwoAF|!?_z}at)Ilq(xhi&azSuvQlTsnw^{XcbAIu
zQ&?vQp;=U3msmKlP2jRGm+ONQyT@U=jlPVd)V@_!d#rT*eEjZswfFR@a;BklJ?<V@
z>3(e~){r~va(_+ke|Y(~C#!P*=kldB5JY~;4O34qvved$%9aTBD#V#E+7JLP^$>%{
z4}sVU9%R6y@7V}Lz7<Rs(X15iTYrYonMCtkhKG_fF_DR|m<B;qXaR!aXt_`<{8UKk
z1iz<Srkml&ZcygZ6KkXgX1{l%#KuzPE*#&^<u4UGKn)y(2|O+%WzTA&?{WIomGu64
zdbpMzt{yp8KQdW6GP#nzQdO=r)Luf9_JtgyS(AX@+B-09>BOFOC(hE0+%#yeO!F36
z<Uitm#!YUKWs~S*uI)M%#Qj}5{iGLA+KM)f17rmC97_vdx^@F#?}q6RII=$g;Y*Y(
zjBe-5ZAEin*ByZg9NHZ~_{%6t9;_>G)|59JDQ$V^nZPGI8b?RjvnfciIDoyY{}=tu
z1khVM_zlpw_85?G32|FG`IfNm<PfR1B3`?sEk?XHLc_A;@)yzj9AKB0luhGy@Gde-
zL%V5gEfJ!fLyM7FWs?Xj-84_%Y;m_i__;9r9Ezbu;Y0o&$Mn!TxM_g(u1zdhhSq-o
z<$O`lSrbKf0p0!ruujptX@uUQMS6gq@c(M_2D&M{i*9hg5^iwh6*yWZNvQLJ3K6$l
z%W=J;V_-r*$=~q;<V)BqnnkbZ_e@!ixn6(u_KSq&>T{%QRzQK@37QCPU5c=mUYaiH
zr>6E&&FkgI#g1t?S2u77Hm+07E(5MAxNyTOrfmnVs&>MW0jf?4($QBo9@wRDgeyr4
z${BeTmJ7$W%e9xK`8Pq*eG1cG(bte^9jI$yrE~w1^yi+}S9%UEDUa3O`-eVJSJjcK
zJW^Fh8tT5fdc39{uc~LO@>!T0a(7)mRFe-?htAZ8CTl~JtMZkn>YloK;4}3=Lm6Be
zuPcK!W$@vdnv(y`Tc0WUW+WOr*67;xlkuj6I{WLXOf8kE4xXwHUaAdVT1kyR6HxNZ
z(p#&_!1DK3Upw8DQL?wL4A+$5&y}NJH>3Z%&_7)oocGV>@`t!jk3`Pp(5ELxf&N|Y
zR6Zm8J|h5~>GEY=cZwyf>wa9P*EMvWKr6cbUZrTa-Y5`#&oTfSGiB3{n3m!B0(8>8
z2z|9N<4aet<CY281qOjvfwlzRV~^|u2BCF30Oo#5(LfS<HL@6fj9ArTrIpb7%%(j+
zxbXi1-9Zhpv&qZiIM?Xeb3ebl<ClF8`l@|HwVrHKpzNoe-OoiztO-c!3br=887Ydp
z8@u0V3h;ay>sWF>IC}Ty{rz`;yeur|AIJ}nJy5G^t`<A|T!bAhaiE$VOgbUPnKV3~
z{+nqLxDcbbR@H`oeZHoR)MBI0W58^wp|AIXnueHe@;k+2OcOk}&;(qnDP2wPUp60}
zuci;zV#Cj4z^1yonZjogSO$)wKFaL!qq=UE4TzL#lx-XS8o^&8H(Q)Cm}~twBpUrk
z18rL1f97>s#(l|~pM#7fv>_!YD5sBha9PuWh+0z>51U!ql(qiauxb)?liBU|QJHpj
zXQ!Yo4a!b}2?c#9q4m^P8Rz<NHpp|AVZ-kYxkj1bEbGKt8(0@c4%6eN>BLZSic+*B
z2bZ#ZI)Lss$a&z=w#OZVsVQ(A_e|os$X7DrUjHMySVI@T;(3l=gLU#R=<O%y;uAFR
h1Py&5q@F}Zzle2z@XktX?``St@@ekaa|9DJ^Dl08yw?B#

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/gpu_input_batch.cpython-312.pyc b/v1/worker/__pycache__/gpu_input_batch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4563686d5c12804bb46896efdc94dd9fee595b78
GIT binary patch
literal 40325
zcmch=d2riTo*#&dBuIb+NP_nT-URPk6scR(Em5*0yKTB{G(|uXDPH~ol0}&s%aiV1
zx<?sHGrc2f(pghGJ!?94s@XM@YI>@(t*P2%oMckLBiZ{yW940@(y3%7sVutXRA=+g
z?&te{7XUtr_Vgq_i4X6+?>oNl{vPl67unfaCVW%2-<df4p~>`b$f12{s^xjQ*<^ZT
z3YY@sDbuuh)NCfZWy&&b9kp`1b;>rH20!am`e-_SZBrT3_E9^BrA=i{XN_iYd-{}P
z+Bxdv_Kd0Q>73D=Y1gQWyX{l%>D<v=ZqJ;`o6aB2=k}~A&ve0P0k=D*3a5)ki@4o6
zRXklXS~6WaS~^`eTE_jdr^=@*Mk}~IXR30#YP5>mT~pra>d|U$cTd$!*N)bjO+mB8
zbix$K{kAEP_lZR*>nCcFN9#B&A25#w8?B$W`U?JvLio(F%)nT9Y<y}g6oSJxJ{Ag(
zz~VSNd-3qa;9EC?p)i~U=Wb4gC(g|V#-@%3$HF(I;HA0XH~`rfW@o1+X0BZrlg6e)
zK1(d;(%AHz;S+Oe?#uIYK}2Yn3eH>$U-w^?W~cpgFy_Mk@a&D?jDI2!^3O{C;PjPX
zfN*h#-X5Ft2PVeD{##>HKm>lSv$NL_=}PEwa3(Y>aW55vbHVT!6~$+b<sBIdk6(Xz
z4$k0_n-f!kpcHc>=0rGjL7E*8hA3(*@7(OI;P8YL91l;-&Wue>gy$(&4PQMybF6eC
z<PV{|{y=biHW2jRoC)2Wo12xw!2n`pjnB@_`$JO`<5WHmuc;H#?9I6&Q?uhYE{|QA
z3XZF-!GCP3<N0;o8-u1%bHFredD#@S25kZJK7fO1!SoXR1}t|n;Iaj*s&5AQ!foSj
zyADs|?o8dC&fQs)g=$_2KYEx99>%HXWxr}sQ_tj(bmWu8Z7Mc!JIEcdjAjS3Cd(5N
zRjqp3PBok>n6CR}tA6fauI`tk`sMACo{NWbkLCvnt6c8N`?hJ+6D$b8@2Vx>`L<2(
z^M!!|<V*gxK;gG-qeb%;Ur{XY=-Bx6U_kBEm%`{Av2-c;7CPQY%$?d5V~*)*|5c^0
zhhnaf+N=F@yrai*=9GS~xihZ?XM)mLcvfnUWnQ6%r~VwvpSd~hA4ey@iN2!r^H9t^
zdov6Vqua+^)6(o*&_6dDnxMWIig}Vf(DA0iV=?E{tTg5a$}}ot*(%D)fRSk6$MWW+
z;4MF88j!}WhW!|9<LG7jM}5zVzvm+`9+|>AY{4|C&K!DJSm3Mm)&y^D9$7H?DJ}lZ
zn?5#=_-qnQ!cs9AwJ>72gi2!7hCaq56ADgU4N=zK|9Y$=JU!PjH!;^19+R#G!)>>3
z?%6wVV^6SSYT`=A+<f@@>`ce4sj2CXTU{M*&q_CfQpdHqoBoLzs=+HX&fDkaW7&SH
zyfC~c!hZi9@Ajr{PYThC%tKxn_e{^KPeh$=*;&n;)yutdZ6B-cdv3MVWG&i$X0LpX
zFed6InDch1%Hs&}h^mT$rhH+&f_A7%wE^xR-X)XNfFGY#YQ#^>inf!gV3V3)DAgr3
z6C{f&mCu=>I~9VG8sNPYvl7NV)0Qh=cGWXi{ioKIVY&4%YdyTtbcDH%MC?bTR!Y`7
z5x6~`*a>La<elZez=9H*#bvyKI8rlUiE$BwzI(2)w)kSvT`>PWOdfyV`iWZV-=-7=
zu@=lU5nb9b$2;g{VN8t5hcxV(-T2k=;MkRm!|YTdN?*YM3#D!3PWfeNA{g+7XT4+N
zw0gjX1<N}z6A0e+-Z|0gy>c_`4PPIF!2xfNg}mtWw<ZFJb!%db9JJ0UBem5#HWTn-
zE%Kfk_D+PnH)n3l%)UL-{#XAWK3^JdeLjR@S+CH#cTAFIC8+~N<K4k$k$hzDf)S$1
z^LmwT;l%LK=af5Df{u|GU_V8_596LG>d1NEk#ieaZsWS6F-je!j=Ab0uGVLT-e_U>
zYR_tY++-d&WrkUB%KY4FEy|0Vthsq{yU9~5=QpwZrj>k_-xhJUB_zfiji1)81myOk
zto`Ul^YFT3IGSIi1z!ov9mg2{`;M{v;}Pfas4JIuL|<{t?)T4(O$Yt{SeD;EJsY?=
zMRup(|JKd1DHUQ3g{7Fw?;o3)nZ;aA(<Z{$rY0~oS|?`0QaTDJQO}U5tHjbUH;-SB
zWuDL`YWUoon+i%^f~G43g;Y)9YsjE}%O^3Zj%+P3Vs<p-Tu=(nOP%D`2jgQCN18W*
zM9VEVXv~Fv3FAAaEvM`6oQW2eF7-T|SgvD*4I8$GXl_BIu!ZHeZrEC*1+~ioR?xg*
zYmR!Vmxr0BX~WhOb$LE`_x*R5Js7bYw)!oX=fUNr+J~<#TOYiMw%M@NMN7&zY~^ag
z8@8&gmX3SpAH4kNn-9N<L<*2dN3^jeVk=&%UA8?&@-179E%(koXj!(gJS5N(^|jqQ
z_n`05zK8pOS3dA+i>I5ayb)XBk`)R5%4SW=if5V9bK(|r+EMe;(O;S9_qkQ~il=9#
z<t<y|Cj6{ezoZ|fHmD-T@uz<ks_pszjxPJiq!B%tCgWeACtwL$16KUm@Rt^}O=29T
zet~o>?HPdEgD`271~PS9R?r?W6Uh{CAe0k-+4##rXjjmBwLIYdcG_rWFe{LY7!HaH
z!XYn#aBv3l10F!FARG!nIAkZdiIB(%6a^gwS8_q9V)(iOCGaW5Uv9vBH9b%UKX;%v
zP>$c+Kn2K@JjBUIUX}2n^fQ75YVK9=DTGfEpkCOEVYf|or<R&yS`Bz<pe9&0Ij|ib
zsNKOoH&}sx)<B&~-X+>AgH;?4UXQ@M9yxde4Pp!ejqpFRJ?F{c?S5)aG$FlO)PxVe
zb-doKC}(p*jn{KuBH&sQd>eG%)&$>1-M1~lw@LSHPw@5Wz8wj^&D>XOJxic70oJ0&
z=t}Ty)qT4YeB0*DzP?!2DI!8RuQ3vHPLJK@gcr!OP%N8Vn7D#dM1sW%H6SNg3`#IP
z5WEGpA(k~aG2@>OPR~m7v8-FO<6~F+p@}=em_wl?$qs%6w9gC@O!RY1ajpi_(s(FV
zo#61#1d+`)LNh0slZm<E)+kwyZmf`~2V!<^PGM5L71W5<^1%3<|Hdu<I1$mHv%*1X
zDmVr>Avf+y=mHMdIoS|#a<ah*I#CBNIN(y3f6$j80Q|Iu@o&MBNKr0W;j-y48(cam
zv5*EA&F}nMNQX-&2d;q>^Xmk`1i3P`kl_N&CgO~MjRhUi9QNp;h>}hD0+vs$pQv~t
z?Q9JU5~EbJ8^4p<#AkS!G(H8f^?Lh?n0d8iQn1L?{DB3nUMb%$SmbHJd2Quut}xLV
z{1ew!m<Uq^E~uwZZ3%pWUhjX4Y3jV~-(s3YT8VaRkE`b0`pH6CQa{ma2rWd!L&~>H
z3(+jizcA4p{G;BAF_N}mTgX_jFJv#|e46%&+SAdq%Cv9^B@rwe3+Ahd{e4i2W&AGK
zK285bWn+*oQ8xVhP16NCkoIXt!bl=shkvM{1Df6V-KB=STFCHG&6Y6E^f4iX)@m_+
z(=w&h6%mg7`%Tl`R#){}%BZW;n%(%_rLKt0<e#uM8g-~XYDEM`O3%^zw-y_-dvedw
zXN#{@8-jGV)rLM#p*AiW`D?aaYNJ^TC#(&k`}rq?6635uzfN6^YO##pl)7ryAYZGl
z1nF+8E8-*hhq`)Gvm3v=)RjJS32TE`QvUs>Sf|v6P7eR3>29ly9t~sE##PO3{O(d4
zBt_z%ur~CW`ZvWor8fHYTz|tpx2-nzXepyMW;DC;yGw28tBbHU_G;-Q)J9nIGk#NM
zm0Jcxvu(qggu(m+*0(jg@w*GwBnRQ&E>wh25{k7`pVcM>xF*p+`kKb6tb<y<+;u3)
zbvVhTvs^r+zPfRj&U%G^M~joN>K)hoge`JHg9eC3KAGe?rMY-6`U<m49ht*kEnZT|
z&uG4!Hb1Mm7BX*}L(r#%|DNWPfIA7O`L~b-?9OX0p27vqg%<xK&2IcAq@u3|yd0Ob
zFucT<lUy$+xn4<feM582n|$_>n00*a=JAiM5>;6&Ef9ucOQH(%nI($n%ao4cN21!7
zsFFF5hnA=&B&q=EB{B%Tk1aeFheP&DDJWrilCMfsSc%G?nkr?lBu(uDnVF)?fU-id
zfO7+%1`(x1eLR+SCn(K^VrgLAdb(pCL+6Il_`_VC7E1&3N7D2pV9a&}x{g>rSVhBM
zjo?i5jO9|sNwUtEWoC}c%3^tjRN6l?%Q;L%&Rt1>6cvd-0jHuJ;1Y3Z8iyPvEn6%t
z2r27)EaU3b>=+f&5rzk8WuUK&6(%?m(|4u#$E=}XIOez}fq|Z<It|4f5+t@zS8@mB
zh;#nAn4AA3CX}iB#Ih8t5&nh}{>HZO+(!w2LrK4U2Th}zJ1<)-|0>eH3FXebe=Z2!
zWq1Mtf=YpBVunRKz+=TC07stmNg-qd-ISh9#dg2MTnfeDSdqY==i!lpbHOlId?n;k
zCGt(or+B9Tu@WJK=VhCnK}FFR=<kj3o<|b>IYT*@m;>*50(cA<a}}JQ>*J=!<{-Yg
z7Axeg2~zV>Tak{A>i~-q{F4-TS-Q?J6mwE9hx`Vk=ZdN}R0opoSp^vp{LnE&5ZWjj
z1r11OOF1+kJY2-&zsZ%~{wu2XyWsj*$UinUHT$+EeB!7TZu9a_kA-f;s>S|^m6LyE
zEZ~Pi4oZ7{R?s9+gdOQgP%B&xl^BHTZkt?6A~}e3jtrXjV>x^b80i)Pts4+EX-e2>
zRo5TO-R30`;~S$+cuNVNRA3MHClr)+;`3vyfTxlekV+aW91G3QjAL$sdS42TVKxZf
z3eJRmE=2*8GRY@T#|bmNUMyu6=kvKf`-iCH-sDeF=RgOdYBTc<IU}@~iYF~3p=Jog
z?wR5>rs}Rm+oruDTG>j!Wzq5``Ynl8G}CWsv|%6p)<z4<7j5?)(b78nxYVDmW<<K5
z9qr(0lz-_o)i-~1=E<38cFEHIh|?F%FMgI+^r+=wOSGu`%gnTTC`LE!)p4h(vPQ1x
zXBGW&#XeTCZ=>P>&+J)k(?>&3hP3Fb^*;$mF1-Au)l$bJdZA;esFurnS$VHqKFG=k
zH_AD7C2_lHXg?)U`K+}3!=}eg%lrOR`tj`_-QFxcMEE|dsr#tuNz=-{pGZHw{n_o!
znv)c`>REN|N5xNyS6Y8^<)_y_yS`a{LP?{&=Z7~wz5z5A&nFh48b#>fn6#h>O|5d{
zY1VjJZoI%6FKjekq_}lorklz;qb2px(#B}*-e^&EG`}QTTpO+GBB$@zm-$)cJc;5j
zOHJj~9}YdH;x3;5LElIFpX^^NL}4{}x~Z}CqZ>~YJXCnW=Yt5*$Wy3Ab$ILKszFvY
zC|4a~RfjgJjt~;%&+420=w-4M8@68*ls<a>;p@w-%T+%~`)T%P*`HtCEI^?9S<k%n
zA32^l646kyspi>KAe+)kxul(yw96&EtfY6Nq#yBep4Bz}(J`vs<fI*+IX*wWS#U{^
zG}?Cc=I5m-!B<Th)wyTzPl8kyAMABLwSVvmqvUQGy#w%$UcKQ^VMcaZtEKPIYR|g+
z{-mBVsYfE{ge^~6wCd0@spXYX1vq-g>mR?K2v^F~&O<b#x*A*LhLfz}q}(vV8b&r6
zE>P07&$@d5q=0PHN%Vn|R1$T70N&a6!*@P@XL}}{Jd;*r;%k$e&a$Sna??fDbaA8U
zGROZ}Pye6vk*xuVpgJZ$p4^_uZq-5fHGXvR$w|_{9%StYBW;KOGVfm%|Fh!FI^NBz
zqsnlrjUGJAO9Wltp1sr;wp!cCqXY={qL*yiY0#cEkC@5c`el}>e$PhT06D6uls%u^
zBzp}4?K{N7)JBh=Ca-pQ9Wo!`e%@bn_58T_N5yNce;L^9LeBztYagF8sxkD-8`sPB
zZ8i^XH1pY@INHULq!b7#%xbXJG|1KaS@r&n>VxD}xiv7Tf%Ke*IEa!|Y&Fq?M`<fZ
zt)iK1!^A1x5<|RH;+B}Ou9yhh0OB9XVZn5ytImWUP1vpN;;=~+Ng5)9cwgyNGMZo{
zZso{OmZH#|yo5Pk^~-^pBt#kBGks|{xjo+-{(k<$Q%m6w?>@e};cAQ6+jxm$lm-zS
zT=AT=frHSr;_vw(B(>8Pl}QSb@@X8@ZS!5rJ?L*lyMXRmNM9qW3fgiJvYa;kHe}=o
zk&-q!6ZAS}k&;(BA&xf*jZ*42Nh@f|2h4=&!q=S=6i)c&ZTG!u)3%V9O$(MwCZFZb
z)yvY@_zmw^Ake1PxtF#BD4P$wS7#-!qJg9R9_lW`_AG5}ADIn%K`COJAn_`+nM75*
zdAZ^(WQ4rz%aR@fp_pS1tcC=&;H_XFW+w^}*@ieD7|T}Zyz%Q}GuMIviBwOqG+>61
z>BuHH6HvBckyIUQC5cF-|Ahi&&jjD5bQIn&M6C}L6`G>}fNR)55tRH$ib7Gxy5mjg
zoWc+u>Z*^C5~z_xy5I<_II>YO9B~dWo{KonZIydJJootA;<+tX`BGS}>SR@&>#oj-
zy))wKjCNzHk?qyYUcG7Wh&u9QN6or}CY9`5*;&t=^|G^tIa_3BH*<Dxd8(tHGTGC@
zJT2VP$~>*QC7zj<oA;$PBReOaXL46W?B#r@hzCa==w?1RP>9rT!K`%xba%68uhL!X
zg2mY5Bpwi28aFWfrEiMEOlGF$jgG1BltLFYi3W-=mRU4RG#q$J#3`hFqLi+gj94>!
zNFgg4?h6)@z@c^ogHw#P5`#oJlLAcC^k{Ms4OT1V7S@%N$d?2GDIa_bQ@r5R=IFaN
zD9uch0@Z?=x9x7)LRvzr3d^R|%^jqCH(iX!dtG9G<W3_t<y){oFlGA=l+b*GD@~r|
zDM8>&4mFb>pqkn>oVZ5bD-ru6MP1QnV6aO|3rhqAW%}+VN(=>zyhfgy4H$`hwZ12U
z302{G8S1o@jbG%^V7N4!8pAY6i+9R5*^=S`C-83-_*%5yhY@I=Y~LONi*3dOtMoar
z=-dvK8p4LMB17wYQW-+`ZVx@Fi}DRv(rl6;Qt5>Uwa}B)0aHFcd$j~;7SKi6Mi9N0
z4jF!$Z8vOYdKWT8JBxP7X;@3&_}wih<U?ZFln?n3_nz{pB@)I6*oesCwXX}ujp$zi
z3z7k+e0S}Ev<3UP<+g>V?E+RKDM8@mu&No0*)&7DT1lFa^6i%U3=wpKl<(THjX<bC
z)oVf*nHyOmhAu2m@KwfT#-t!dz<L9{lh+;5#3|oy*rNqUQ=-5LEWRo5)vyr6NWem*
z2Hk!9d`pm@Y4VD|SHnUOBap7wMPPf(UF*UuQd;sk{p$AAP)FAVz8ZD{I{iHwmjeGl
z2A>Od=tnaSaV+FNCCHzz=ZG=09mew)_<x1`1+kF--1a;cwEU&*FzFfMgtz<e+Ab!M
zGVtDa!}D5NlXo<m@r%3`43}nuuVAc(bw%goZ)qWoU&Og*xHQ|R_Jqwghc(~-UN{9Z
zlkz9Nn17r_yrsE}UuDkWw2cr-j4^tRpw(#U0_599TAB^Cx6mK;B?zrxFmnW}_5Yxy
zVEkgW&Xjx$nTRWZs=X?6a?yyP*%0Hqn%($Sb903MuI3lW(pGse(nPQRt_CrF)tT8m
z`M~hgY|`Ha<^uo8-_t@Ezjw1p%{uu#!$-5-GD}6_N196$42Z)n@Z(}Ur6nzf@vGu0
z%w-{q+EX~Lgj|<aGn|$Zlo9y-p^>v@Q}F{ckCoOmxigN$?mI><AHSx>{43%O`4KDC
zD}GQSa!mRL8MMgVDS3GYM+s-I&0s%lz^lmzNIC2qk^TV%D<Y$V3|jZ36*8!1l~X>1
zjr1BBS!5KGQA<W68MH=8V`R_@qZ~h=6+@~dgJye)FpFhyzJ2y>iT0gxseqz&AOVMT
zn?hI-B9^V|O}O@&c+Xh+iHpaM4ZkMQBrVbWDbds~&5}VAr$l2-3Xwr`qI8;!x5=OZ
z8p};pBF;-Rok@2Ih~srhdc=9@9>LxtSl%{u-MmD@QTh%U<z&#9h}kt|mqY_0=1Nh4
zNgt4J?l#SpMBQDYp3U{(643&RDxG#EE2{S2C)@u-2G<?|qqlD2U}%EgO8NspWBCx`
zoWk+e;576=!GLly=Y5J-LtyO2#`!!b7olB}euuoL$@nfA_hI-P338ZBT?V6c3~J_B
zW(ddNDEjSK21GbyQ5uogI7co+RVRiVh@c6VbP0|lQEpS1Ah${IZ%1biy`IjcHFi@$
ziR@`-p7xcuH#~b5Gq-Y!A5}iATuhHTJm0r24U@oTqquq9(Tr1aADnytob2>6r+2w<
z)7iw&%_)+ZR_1J7`G(wfjI|xx#91CXQCG#BRkE{zIUAOxpE;Yi8rv3!DTO5;bJj(B
z2IZbJtmn+)up-@Ao?y<-Xj=!lDdut}qd1);6e?%-@}*Z87rIv*HAkKKva=3}EMJow
zhFHT8&g)fVMYzDa4H9M9Udim0OY_X`i+bu8GoyKB-ydIYlxqfA&EQ7m5X&1{%-|BH
zTIQ&YI69(-PRNH|Wrtp+%qy7_aU;$9A}#yKtlGz%`$>olSOs%dEKNjwLy_hoGAoDH
zo%^;94vS&TxsT`KWe#t|(HiaCBX=HSoyRD24Rh8k?`1eJHFQKCy2OSc5tr?y%wD>*
zcX?tpBhs)ZQnrWL2cm<#L?z5#vgBKSZRPDqeSf61pV{|7G}h22*Y9EVdlqdUxZZay
zWiorsR$H&!c969}3@+QNn4K!p-n`YlSMEN?y3dhs9cps<H3li0-6`9PnY~!Hdzsz4
zTqIX_v+C~EQ=9e!Tb1>4Wgn~Ti#Ylg4>Cs|KNwcC?yA{rJp8m{v+-io?UCJG%-tos
z`<T0L_3Ea3f7DeeyIPs6^-rC0=TX*qblr7ytGn-kO?KBYH|6T?;PJf7?N$9=`I)<Q
ztNXBm--|<TB4pDZxoJOZ+K<jO^8UyY>ad>YN@v!V-&%JyA^k_Lhc4M&%iOig$2Z-O
z5Z1~bAM^MYk40VX2Ys8a=B3^b4?aHlGgos;=%2Y;wu;L?bUk)GNQ*X6kJU5jKPLBo
zgY|!dny-mDn^sDgvxjHh$y}YQDC!<wv^M5$Qz~Y)Vbi@g+BYosz0CSvrg)9a*|>t9
z-Ob~5FjvQF&$_Fh$7^NoR@vRj+?}h1o9=-vca`k!X728|m5V?zYJ4j&deQCxxw@FE
zYxUB)Yk)^?XYO_-_-g;Adl2dmcaiM!GM5+U_@dM&4zRWZ4{TI3=n?MbEo!Mo=4y<%
zdXQpqqg>R%iaJ)i*Ngg)V?oKI^S^g~tE5RT>0%{a@eEULf$Xkk?&{?R=Jr8XL^!lF
zS9`=YsK)PSMg40v>qYyL;}5Ws0X2RTb2qINqJ$6=Q+yKta`c;lk?f{ItlZjk_w#dt
zds+V8Nd94{n0f|&-14KAXmPn*>|@0~Sg3)XRn~qu`FJu~Rr}#PkKch_x2N#I@TR8&
zD(nMC%|Ctpv)6ZwQHRh6c<4c3a?E_nO#QB(x%*e=nfowmub?!Z#*3_b@=nypJbk~k
zTKLgNDnR$T3$keRu071N2gRmJ;)N_(cT=@`8|A7#R@E2D?pu5lMznc=x&fcy($N>T
z+?7gKQ5%_L+pBxmo%^Bk$!~}>9Nx$~5^)|uN<F<vLl-`n1szrEj;d&3g<ROo3Y+D^
zepcAOcp~a5TnfmQdl~+__CAC1^(Gasg}GZ+PB3@xR?i?IK{K~9>(Xq^du9gaVA<J=
zPPY1uAHVsdH#eQb(cU4s_ay5*sdxJ#=Io;OFNxTTQAxdhNr`Q_is7#)+lb;x61v;q
z!8K9?*t+m_G*S!DC20aQ(mdTW&y#qR(o6X!Gg3U@T(B4fBWF15qA<iba3~RADW5{T
za;P%}1gB2g=7?ZK+CoiW4Olp{e+GEF1>yK1JQ7V$<_n;@A_63@EmXQw8v98U;t|BR
z?#Iz<z=RlbmdPX%nM;+3L$qkhC(;@wwh^!d5skQ|DG}k^wR}Qx_E(5Sv~bGz6=Hc)
zqQLnTViCcY@_mI^btzHc{0gxe{zkEy{zkEy1+fGgVkjZ>@rbrIiA3ICp^unEg7B{t
zuk$P7nJ{l~Ji7()b{lU(5&L^IGJ3bCw!m*u5wWs?WOd%a_PD~5C)YHwrnWng%hz#p
z0JgzhpAC4YZ-$^+o_c$1KIFX;gdSSi=jXjL?;Z1wgCQbi^Y|>b0?&kkO}_T5ERAhA
zEL{r?>Mm%3`Np_GgL|EYmDJBhl#Bc(jHFl>6%Dl>i*KrH^+Fx~tr6_E{FZm(s`pz;
z(%<spus#B6e6pVR2xqR3`zkmK9J506t?0mWRQ<PKRcgPAT2r{@C9-keidd~!MqnZ|
zJ|+b?r={$gCVolbWH}SdSy#@m-X;Jsrkn#+7)|0aIcLckNr{9C2J0A0yE-v7<>x#i
zu4v%ebXwe`KO^HG!!Ryq0n-)=VR=)SGexnkmO|I4mn3jzN&z*{Q)15cS~zp&;mlbR
zZUm4$q~Bh7W%crgXAlgH!xM3ogGkyU0-jXnvb~epJ6B6K?L*PpMz90f?`J=l08Jn5
z=pnj+!Yuoky%nea$z8_mWlN`+y#aIt?qtYoVR<bpr&wM;XN(?<eRp59tV%BHXJ!4X
zZ?m$4i)W+G;sn<3=lNApT>aqbV4e;zE1m)F>SUhI)uM=JZxqx@B89Q#aLEquy2G2m
z7}hc;sPmQKO=nj$zdYhB=Y>h&MhZ9WO{pA;>POs;%H5=I+8YsSyN_%~d400Ii`lzC
zh}-w_wCb6?UbeR}d)vy@O?w~rBYsG>x1x4dUfHzwa=!-Djcjjcb|Oga{dx{c#Vv=i
z5sHT+zD%}PFnh())#bpZy@mS{H>L7fudH0&w0Cn~%0X?Y!Zi=^Sk!zqVA^DRGnllM
zehNud)x{iL5y$>5BFq$$5Im^tJj$F$pMt+WotnvOtJn?&4oxS$VwQ<6{B@5f&fU~0
zIrZg*>|iJAOSyan^onrjjxxJ}N_hcv2N=K9Wt?abppp75m{l4i6#%zRU13zDehNNF
zQv@?|6hhS;MKDDvBBU?%90jzeQg^(JLa3Uf2&Uv{eb2IByT|uVp-d3bq<#xFF8CJ1
zI0eab7sXT*9pae$J~8Adq>I%YMKGg=g;2G;BA8agLRwqRQ3Nw`6hhS;MKCQ#A^ooA
zD1sR|3ZZI_BAAw=kmgo%6v2!fg-|s|5lqWb#9x3CQmz0IQJkNs9Ss{_#M}v}5GD2w
zaGpBH?1d?)xQjRxY_PhPn2RV3&b%vO)N~3{#|P+Xs@Rk-VH+3jiV*QR!dN=jcsFAq
z{XI9`Ga-tr%uie$FT#hYkd%+M@MzpDsL~9iov}mOd|v!oY2!A*gtW!Hlz!IUK#cAa
zNQ&n*V46*z`$RCK*9xI(i-}-budUJYF@7cUya_cU;+sTV5fNr7AC)WIta*y~l&i^f
zdAk<Y_|?lTf*Iu&Le+AMU|P8ayo{cs2xjCcgsM4;U|Nm>E=bQ&1T%6JLe(5aFfGR&
zIVH5N2xjCcgsM4;U|Np-M*C?ty^JE5k)sf*<|u+`ISM#BJx3AD$WaJYa}>d}90#?M
z8NYgtBAAh*5US=Vg7F-~`?Y+~Y6mpC@yq8BmEy#?-o(&{j8K{_IW$r{qCt$`_lCs&
zdMO2Q6e=telE)q5YP6;(E-&Z22`7CmBkjH#MOFI<2uVw1yha9%EGa++*Uerf8!2dU
zeJ;+58EV>?6*ullPYKMGvvz)?tpx4tcggPp8GNI68sFlrXoTJHjoB`J<M0JV6Dv`u
zTVyPdagU5|lfm_lqy*&ZQAK_EJve=Kg+KkL1o{gYvCP>iQYHGq66n_Mm=!l~#xj*V
z2{}l!c87>y(_{n+1MA?ZLpvD`hVCTl6%+jbGqJ8KU@~x}pr`oJxrgVLYZ%wRCA&I$
zet7reyK5I&$DyZnf6?~mZIKHX*^x^TI}W08zV!;}x_Up{|9JmO9xH3*To4ylUx5ll
zS2`|}3-ag8V>n-;a=757>X*ZE;~~~~=xH8n9EO~lwvTgpy9ErV&VMeGi(=z&iOLQi
zA!V6IuI^>ky{i{l^#CbRN+Pbhm6C|>K*W9^;yS=_;R;YFe_D8Ix{Fdf#c|>KN+{SG
zS3I(BKlANhn_#|^9G4Hyzkhz|2=tqXtJ^6ij^A+|o`pE`%OCn5`&TZqicYlvoLNS+
zMxLeaqKJoimR!?^xV6id<@$ZBejn<${*W5GhLnxqBO7>Z-9@pvnvknYCGerk!*bmq
zs~cSFW_1VD$XwNx2mLOOth*@k8J;y)CthUsrj<Im`8aDn{#0Vkr{f+IZj#LLvK;Sn
z-twj8B9`NmbJ|%>`$kUZqBYvkEH@0WhJm%bwM%P7tl==V1J{3cFNKz%`K*mL__q1s
zmP5H^A8XmScI9c!+N)1PYj3cYGZc&~NV}J$rKaVhOW^ODAlV?@b~E!ds~T=;!_y7n
z3CS(C`;th-8})UQ+(N0Lb!P)_ZgOdQ?3Lb4XsN$O*aV>lm%-F5U%@dr;HI5w;N6&4
zt=`3{YIo_>5Daj6%9fKZ;mpj|q(F`6bc)zw)v|hIbKtZ*aGnjEk91tvw7;b0$~!C?
zw2tShyC~Nos!85^(VpJrI=QBw)%34Q(3>Nh?*1QF{;2Y)g>@Z$digKj{PQ;>mtSGW
zz7etGxY!3d@8>)~7b?Y;fsw}}E8VQTJ=)dx^&;@<)_d63>~G3Q=V~mAHa2w^6;2tO
zwKPUB)cM#PX1?L47qzh|JGqV(?cK)n)?F0)9PjHSK0=GxeJj0k%SqO9^7A~_a`rbH
zDL7D<S+eB$u<CKuO3ezoN7plZ@sdYTysmbyN}KjUE<jVILdcEOj9f7(G4~)>pz5x8
znl(2ko?*?-N%l{0twTSYVR9Z&4#i;B)<0cB^iQz_>?9$&OPV)}9!Ix`v~hHTEJV6G
zGqhh#Sdh*mu0T2=I)0+@q+D(<;OKXaBjCwj9Eb1>yR-rsTEjc=3Rvk{U^?!DP5K|<
zFpT9EwrWAEXT1YSFzNTWkNG}rq!ZOnu9mLxtCf(neyY^RwqU*SP1F-|nF;TZl0aXf
zrNrw>P`?X`c9D2<K~1XA^o2AP3koMnh0BS!7E}aPBuvC5i}Enyil9ndk}G<Q`q69)
z{C<1D1TCuKp20b25!}dE1l6Qsg<4+5ubMJ#iZ3>NH5*#qykMuJEvh6(6bASCD`8a1
zx>Sp8{BBD}6ec+xlFgPIDQGtI$0jjkQpE4;T(3CJ0<SlIBtTR*3RHY3hxaw4>eVna
ze$`aPM{~4zHAZ;NrpFUV0+e<_ej=ELXM>iK@jEG!7FZYbdn@@^YBs`aHa$NPOv|rT
z3vK*L8OCh!z;eGH7>ni!fuvxv%Sc7DVZO12b&gxaL#N0!`n8zGuU--nOe=|q|I}Ja
z1k>V)xJWIY2&ToOp_20Hc#2?JJP|*t<tKt^@eZYA2B)5%2&Tn5@`89Gm=<q%dpz;@
zG&JmYGZ!-7bMejQg4p`lIKDmQ_vnz2z+W$+2&Q3ra(jBaVv3FAz?9ZNL2MOMW6iYC
zI(Ppggiha{7wsqcj)m`N5v>>oR5Y)vP+Zh(8|ws#b7=~<@k9GO)5b4}(v;O9Zvc1i
z<0^ls$mw<*snx5%p~S|`%s7>;tEdmp%##*9gsYM1V&vp-Ub_7MdeD0-D9wAZbJsh2
zmAmOWdheJ-IfwO>NS7Q8BqS|RsuN!w8uaq`NUMq7%V`bI`n&}2@|){J{Kz>M9q7f;
z^YAM8ky@EfdQ({j>BR!Fa3#Eg1Z@&fw+8TI?0S4fAuoN3X7SZae~ceRRDs(D6k)}y
z@QS64;}U2oK_A~izRtN|kZ!Y50{(#F8gdg7lo%osMLH57KSP$H2umooKUrAvmlSS=
z3@#<fd3og2@TrT(j$S@>e&q1kuOctuT7Hs}D5`vQLpBvJmdhJHvBF|Gcor$F`2=sr
z97+(r!9m%zO$)0c8R9}AT9tXq;@#PHZ5PI!#5;X7&u?Kh2>r25RsBO|vj5@!Mf+C0
zPp&_}>JP~E$65XHh#UW_VG=W!A9dtEc<Z~QCswv*lbmDIS*^2^%8~g^m7gJ~vh8n^
z1PR1Bme%~>XryWH2Dtu`!L^rI$$`b3SWeYeo;On0$MX83?#g9s`mBABgAI!L)$m-;
z>q9(j4k+zmr9E=#Ay#^5qx8t)nP`4xB)>W0Y=#+il`hS!yIOzlE<j+7)s>xH*gCk0
zO|#ft`o_aImJhIk?#1KSz$sS^u&RNzN>+6e8v$_LP9(oR;;e@m^<hUi-!+cI{|(XB
zPSw>;qM$y$m74R-H)v1oz&?G~!3=ZuMO*sG%{kmcY}nnx#X}XH5UQ+JvWi2CBhe0Q
zB36Y%4ia$S3IffY!<-#kB^8`0tHcJ@#naKDgYwWhHgt~a#Ianu?1;EquorY+4n^X-
z#@|^vvogAJCQ`MBIS0@{h%tDE4W3DfF~no=z2rAmhE`6mU?X`ybJB)xBn=7F9)|ze
zP24{y_n&3`XXXA2tp7sPQ-h7}d-7;6C-&erEWg9}9@AD}%|%IPP{wG_9=Yc<>p6`)
zfm|=oipz@t?L-cMcb{b4CqJ)b-F&}07j_JxxTrpP;4&MytVG?*qjGM%43$a!4U)8S
z<}6pYj?S#!*mNG*>f0;#jj+BEC00L=r8fy$AG^d|b?dG=ssyDg{cCq|Qm<&yuXTv#
zRxOupwjYw)&$IUP5%&e$41`M@?53_hxpSCx4nKX9bzasR6?nBpo7;cb{&73{PBXTs
z^4;1fOyf@8yOj~}Jr~&?Y;LFO8{nnkQUr7m+Ic;AK;HWb+xv<FALMW@CqN<k0pGj-
z#dU}-g{{kSaSJPMSs7Uy-Y7o2c#1Y|pn^IE)cx5G>;y+zRC9gI)faIc-XfvZAoC2a
z9blf*>PBPE^P>|SMFrKW#~b9D1FYu2+HZXx-l(}8ftb-%6LGai2hLEh;X9MduvecN
zvutS$^TFcC^LH#Jmp6WhcA4{m*7VpHQH4Xi9j`x`h(PG29qCxMKgq<=jP1e$%v{R$
zl8abxcM={*-8+!IBzj2sG^Q2;2eVXwco``H;MBt4l2FQ@e|&4Oh_rTSA&g(7Dj**|
zQH3JdYAoC`E84(2Y<dHXISB$p3U))7U^d+^uwhe+RQPpD1VYAgr|mE<kio7#P$K;L
z7q4>7A3aFq)lPKLu0Z|}Ui%2{kx9@o&<U)t^cY2#{t!kio1O#0#g<s#2*8*4a|Ezr
z%V5l@-XO?D{&?7ncqQq7C9pH`hQU}Czw(CP_!puEAhm&_GH^>l90?0u$HNv1LU+oN
zcD*G7|1VnnNEw1FWU#ee6>mn%y>fXUEANxbhgkX0M*055b3b>LV-uT<XM=plHhd=@
z*f!meYv(~KhVubMovf%+E;_)94y=WLdiS%t8%5_9ol)F<R@%%;o8{8>&C+(v<<3Ic
z$!Ep0Kf`8rtEsHxUptDTwA3DE^@lg=aoXo+&Kdxm%2xKIE2D@S<@>1q8l85hj=qzW
zEL4+lv51)N74O3_Yq#*<waj4u0PmUtx;Rvwl)j*Ii@P-TNa&h7gdhSd<x5F9F9i%I
z;)$d;$teq@38C>MoJEop;ZE{IoRd-zNJoHMr2yju+>%o83c`w|76~aJ4?*diCfsw3
zw>$x@+ny?}d@+}rCW-n@`LwBxrWDDI*aCTl7G?&!KKQP@o$|*!q2U%S1Ekfe*^OUq
z(gU`5*%V;}k_fsOM`{Y|@(4o$kzni9(j>{4DjgF@7_{9cGv;f!KnM8K9vFc{A#?!#
z0*Qelt4wM&k$gZHH?il4Q&-yMZbtZ^R+>QG1f37D{61vah$C2F03q4jAuWdS3kb<J
z1>;r1Sf0rNEXN3~*%TZQcZWSydR)P%)8nQi?IT)>#xGK(`W`lXG#eoH1shB{++M2r
z8ozqV#N`Xdln%#RKa({^Jk6%VoeSy6CHrsCn*>q|tv4Y>s!hQ-0K~PB0h7j(p#KAs
z3y45&@%!fAHDlj>{s=!39m~Q3>Bl|1xFA}wEB8Yyr=-IurgC7}t-boBA6%x1O}azI
zZ;|oaWau0u?f{-OE<l!kpMd;KGA+sywV=j`|2y&^C4h8;j7b={9&Q#F@#1D`=`He`
zOZ2-T-6TJb*<X|G9Wpo`?~;up^LNO`G5Q18Km^Rp$10S2ch!^D`hC3Wb>WhqqHq*P
z$VSV*a^WEjLoO7Ed4SgTBiX!c-=jdeWc+(FIA{J>WLqMG3a#yA;G_vJWg$IlrQd$6
zBcwc+r~*?Ty;5qJvfRF}fs;dbY7*#@9c~(qTPQjfNbGIMFH$&j9Eknk-S58ptQ4#b
zPQvozb(iI~{j6>O+HG)ZWjXJk0cBoR1>P7z?|%30GiTw0uw2y2idt6!bgk!F)28$2
z3xWLIPVc(Qivxk#MLeS(uzjnS<-T*Q@7(9NIfsNZk}8l6jIIvLy=PeOna^KM0rukX
zA5X%EBb-rp@s}Aka926{(awmo8gKk%pD^>YzQlU0PORRJxDLs#Vdfg%a2+R2Xw@(C
zOnp%OgX;ws-VTL$<icf;N|`08Nm;V{pSkiM3@gVMaB1bQz|QsaB2nT{LL#vole^(d
zVm`j-`Cj1rcqQ>+6)B#FSk2HT4p-;qQ?L>o)7&!@u~%};n&^}-Jtf)B^4lZ%gAwN-
zOw_Kf<kVY4FJ+bqI}Yj(VN=A@lBZ3P`ZEz{%`aS4zcS^yvwmJ&8@J+jtElYJyTA8t
zJPmeGp~dCgl|e3Q#}C{7u<c>p%H<!9emuICxmFx$JMv%RnFP(+3F;uIQ%fnETsi#W
z<nHx~?zju?U%E||?eScK<e94LW$ys<4y=`|H8Jnecs_Z1_zl7RtO|!y*X*q7aJ+!L
z3;A`ZgRFXRZSUGiR(&j9M9CFXawV|Q-NfD>*nV*N)7mGmJ#npi<gQ`XHN07NEM7+O
z%lVDK&Fdx2@d}DqX{sBHR}sXk;IZx<h*y)l##B-v7dNdJH^pnoZOY5c+RpwF1IMZ2
zKZPanB2~<(7(J<<Mr|a$K}=If%BO`R?XhyJs5rf0(+B2p%Qfu!dIOURr@jTLDSN{n
zTJGoD5b`c&^>JLKMYgx~=XXhlDLo;Bw(e^0t<rIyr1w_yh=0-^&r_a-zEhDflWYeM
zqk2MTkPcoQcI7?jrKdMHT;3lXU9rhcL#%0Nqi)~2YhT2^FXGyVbN@eW{j=5$*NM+s
zSJR1mSB|r9xLek6!2U$Ue&YXKcb(uTjeb&ixWJagq7bLd8{^Ml;Vg>E(ZZ>J8u577
zY`jx!kW)gDypT1)f-WR&O7;6A0T(bLB9dpp{Hab*)1|8;c+cITE<kunF{E6K!W+ge
zJx5WbY%*x8VJwS3Dvx_ou?dgpX@#f#L$cAztF<IWPHIU{VpHkdYSj*HsRcMmtw{?X
zmIRECl1^6Axlz)+nDYx)<+EZMFs!(VHh>*uzJpI)>Q*=3g^l8uq9lmyVHG`c#W1TF
zj+Xf_6Vt%5i3S#_MtEDUy+E$A6T7JpTaz?6Q$D@*Eyi2Q!UG`U13Su7iMrZGMB0j5
z{Zq>)>cHf(5`DXcfu4>Tk<0={l*;rSkj)DgUHxtgm;$D<q<cZNi34((8cYa8LVJun
zG#hRLC5T{xT1X?-C1BESue@JpgJN)!=7E$C@u`2Md;zQR2o8F3+6ccVNO~E;E~6_F
znMowyjGsT~iMJAb*-D3{t{bz0cvLQ|xellFKaz2Zj5o-56GkizWaqV@beilIylzY>
z`qC9i4UtT-93nuCu@fs(?K<6*@SuZ2LYXH*)S@KBQN=jYe}el?Q^HtyAx-!a4T^O{
zNu-l#bab$ij@8W7;z-G$Tyg+<hK-U#i#g94T9n)Ib3b_F{Wq3IBG^-z@ZJDc<A?9!
zs)j~f?ox|ow0w_TwvUzV+bF|!%;G2>AgJtQl{oge+O%4-c7E;6weyj#GpzC~ppSDS
z_A<~#c|{Ly|3TH_Vcg*I(|1367wUzjmzHg^x1V|YSKngZz05llsi1pYK*HozZ@HRf
zR~vJ+tzQ1|>pyz^^Kit~w&A)Qv0vsZ9tc`o!yLjJsPrf`z4d{Y!0|RK_oe44bia1-
z(YybMy4gu&#5dLmdSWT0ipIQ*K1j2B%4f(IwSIrswrd>yQUN_qS~ycn7`-}6vm3vY
zG~K3r+IZDdN#~;~{i>B_@UeX;QkK%CyxtQ~oz8I8sHh^jMl*;fW;KN-RF*t2mpQh=
z7jOB@=!pf!!cfpjH^=FPAH1X<(q3tYf)+cKdCc*fl7!ouyk}=G9!|JqTcC3Fdb`@S
zr`q`?OX|xmgWki6!j+V|^xUm?X0APSbGm7Jqx*E!)bhT4JtzfRMXA0%@dmyAPD*1!
z%{###m`4$K9gz1#_<Cw`>O&>UJM+ek;gnf-yW*SlD9wvePwB-wA+Jmqi8b<K+<~_U
z!Jc+#*l|A=G}3gdIMmUXf?=vsDL56pHKsO^*6;~UHR8)qHq3KAki;>ubh<NaEUetG
zb)Wm(8k<702ue~i$%Lg+GQ)^L4E<J8oy79BDUq<zUhm1<UdotfY@9!VoP>6W1|L;8
zK2^}oAE)7gCg?@zP?DfK6?lba$a$mzL3br6bh)gTmG!RrSHnNP`=h&&vSXOLaI;OM
zu2-%bVs%52eIpxn=Qk=ZU^;tNQ4^`{k!uH8?O<f+{6_7Cjf$5d_R?Q;_3E2tWoHL;
zc^l3yaG>3oH_O4gxRG3cWZ-PXg_-dzpU9-YPu284!$_K^X!hZ>2C>^a%~PV)QgY!q
z$BvIV&tp4AB9yx*AO3OO#xuRIpPKRVmv_ACG>fGX*BFE_j6zuDg6JXGTcIjEwCR=(
z-P3BOC!#!1231J_`x`I=gywJo0#6A?G;n=Cp7ZhY=X~0|FRRlA`qbEjq^FQ7N5CMS
zz?}wK&Pc1(i<=EdB7tcK`zT&?`9Cx$oDSvE9=+<di}`hr<m>p$pqKG0j}UEpq3BLS
z!jk-gaPLre>p?Z6yLq@?rJ6aaWk>hAqdV$5u!!UL4bkR9r0!_k!rcIhyPdnY^LRwK
z@$T_wFCaxl-D4+y4CkHAe1EV|6QW3X1K2~n+p_ct@SzXH-tU@B-$XaQYvuBAoj_IK
zWQvwB?D|tvAPM(9^Zhz>XTEz3SG%W6_J#BS-{+~`;bXqvi#v#3!V;Ndq^sG~J+wmD
zBniAyK5hBrGIy%slux8i4CrT5Cks-7!>Of6Hzg@#Ea6X5x%&@nCJZ<0onPzyeCOe&
zr~tj&1_IXPZQ4dXIpV?8p@N4b=0ZwPzA%GS!ZH`~&f-BiTKMK0v5o2~9<&O9oWd}j
zo2LPa0e1Al%f{lyuR6g>NjI4wm^5+idKmYd;JFPY5oLRoJ_>2&e9=hc_jckY#+2ds
zeN+xkLt#m$2R(uc|Nqb7$>+$JgPsDrF3r;Ip0SJ&R<Ix}>ET)0prtK3G`Q6#$r9%!
zdT)-NVI<BWmc?HnQ#>BQWBYPap=w^0fuCCWNu>A-L*A#6A4eAaQ4U&Yx>#A4Ty}(&
z9U<zO?wP1(j{1nBjrASFK@u*PYhtdZh^seZ?}Z8VD{fVMR?)B={%GOJ!v9gx`~JDb
zV-NZ{zuV19y5*97R?@$EYXkd+PDfohEL9DGTeP-k^%yNtPVdk28zU_Tab%?B=u>IE
z<rJi9xg}A$l&&dSR3;a7v!d=u(SeBj08CwIC%gAB_a3@CudYe1JAkuDa@}!Ocl@ce
zQFmIddx_P(v{82n`=GWO2i8h)%nLa!=dC;Iepz9v?AtzV(UirfEt2|wb<vdemXAfb
zwe>YbPJO|Lb8JbwxritP$r1XPsz0As|1U_`Bj-1={KgH`uD$667}Ad3ua05BOk%N1
zctlj$uLr)8ORr`{sQx>6-YG~}HVie!KLoPRiHE&sQjx7?`L!E3`etS>U&QYFTgO-`
z!hEZtJ0n8(-;2;yG%Y^@x>7L`_-~6=NQBmZAhZ&<?`evce?)aiYA3Z0A02#naKlx*
z{1%O<{|0TIRD*AeP$gbdgzAmYsQ$`cTz@n_e%+3E+bnfM&#bPbd_RC-J=0cNrSl>V
zS~4k)V9idBgMrDrk4@?A?@{6JlJOlfFd`Bk*^>Sm?mI;Z{XS98_K#5&p|c2qSGJ%;
zag(5xF5=v9wyox3PvNgjmh8RH++2y##XMabP_K+(aw1K}-d`yG-OSUy0iDcS%#DjK
zg)%&<2IORV9)PhET`koba#)ZS2$}l5NRFpf5pK7}j36~2F6c{8Lni6Jl3}CvPOTeK
zxTUZwxBWDQX*$b)LiIx|)jiWzcfZ_ybiMoN{SZxObu7P5&TnD)EgSg|k+etb=RWtq
z*ghtyKk&kr!?IK1ojTHH<p!=4RAaf+Y)Q|a-YHLM)FkLXBg~210_LPEB1|K$mWaJ&
zJBEZE$MA19{U!~?-$Pp4>iPeH=bc1}vPdubFA3wMS-6eys$H#SuAYd!ha>JwA31*f
zIKMAV*`95Y+K~E)uU(=|7SbLv2FT!Q*!^TXNd{Nf4v~#yuF{8O942Eg8BfUg2W0$j
zWc(8{HpuvbjDJf8Ri?6mjCkM#>HDwAd5DbvM8-IbSjJ2MJHyB3rGw-(O-33Sndl8T
zD1S3B7E3!u@2N@-_(&cy{+I&LGNq`5X{wcI65~TyqP{A5DIC=%*NF29;as>hOnzjX
z#$Tu!RrzfbbYz{q(e6Fbs=8=(L$skW+S>NZs>9Z_Ve?jDNj#0)NYPgo&rs}kQ*~WD
zQ?cWiW#J>|LucHfxScpp9M4wlIi`Z*xJ$9SO@*aPwGUs5=PK?zJaD?4|M*lqUvYa(
zg$*k<R?r$RP&^7vt)1~A#a;~ETD(NDmqLpeFH`L0gh+*AuQW9_KUdI>A5S->=fo}6
zwDu*>()i<&UzuQiZq+>FS;c7;c<C{2!tc}Z=kycry<kZz*~+btr;!Ea&B}hB!L0#X
zPg=?HrML+{E0<P#KOTKf*7&4(!km_~G#)q6?=r|p`dtY>=fBTiu`Za?T7I=)b)zQZ
zbr;QPSrOmf=O(hmuUjl>C(X;lD;2D6&vO$w;`WTRtmWC~Cj7+nTxl<xS8o1r;p2tp
zCbGwCiqg)Rqje1*oqmF?t=utu{4Y-bx$4-;%vrqo;L=j<gIC{wcR6i&e5GgkIux4u
ztFN=J!`K|lGLJk@qiFGNS6atbRo#aRj~C);u%oQi4IgDa$&$UD%-b2yAV0e)E9ZG8
zY|m@T(vF$qgS_(0X}+aeXus2ZYHh-X=v3L}wC1H@0yXO(dLeXIkZ-AOrv!HdrKM#p
z1%741kD3>3P#G(EjhL5fS8Pw3Db*3Pj?9Qz$EJ0;mw>H0jP?;Lk$abst~srjgMNuZ
z^(v!>#*D8a<{)9}I1W67f+30KLU1?p^su$Euj38)@PVzU+H!AAO-;9x%&T3M=kd`U
zE9CyuH}N7lo;4hsYM<Z|F^QJ+SUv|Pt4t-DN@5-k(U?lVqD__TlxHTvvp5{*Zl*%~
zd4yP*;n6;h3onC^)IpV^gm6$47Y}i(t6kxsLXwkw3p8KCqFqzvaUEi;N`ooF7L@MV
zM3`?jQ66*T4{R%QCn=?3MJeI+)M%cJmFUp9;J814D=!1Vb_KsYf@f=R#g90JSgGcR
zhqZ46rFO0v^7F^-`E&RDiBDywJA&}W>=(1|Lv=$VaX{+D1d0Eq&;*RQ)oeEZ=PZ-C
z<_lBNzcJ<gpC;$OHTk|U4SZp0`@c>5zo7rHw|rsh`nAPow*1lrgTnWHVLJ4MsqPEY
j5c-eB@oP(yIWKO4f!<?r#L4;VSIoz9%;;`pa#a3*k{7$1

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/gpu_model_runner.cpython-312.pyc b/v1/worker/__pycache__/gpu_model_runner.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4460825cf95fa994862bc65dac93651eea65058f
GIT binary patch
literal 184645
zcmdSC3wRvIbtXCk41fVJzzl%F`!#rDK)m?`_y9oye2D}pJ|t@-c{D^1Nr2M>sAs^J
z2i7C91KF}gI<`gGP6WkDL`6&lC(fEqoS06WSdR0UCP4SN!%djG%I3?xoA09|Il1e-
zyL<mr-PJt+8l;qbd-uCdV!FDXr>ah!sycPfsUH;-<k|2<9G{(dIF@PqPxQf`9NqE$
zjx3w)7264$U=!>STR?l;19tYE5y-$hBa$gP0uDQcWk#~Z>_9eiJ0dxvGvH+ItVphy
z8^{&&0(tB^JCZND0xssxiP*)0Kml_*BZZ<n;1)drk608a5{m=HVo9Kch1nzCKq)J?
zEKtVY<@&oqtPE7LIJuE3u_{od$FCM^0yWH?7pWEN0(D}2pq_o_M|@&Kph0X5G>T1u
zCg$ggG>a{P7UnL9w2EzkHs&sjw2S_LpSj(U4sl&zo!A-Z6uSalVt1fh><RR+Fi)gc
z><jdX{egb=T@+a_ZU}5(?&8QsaZ_NExH+(yeV0VGhy#HE=JrMg#jSy@;<msxaeH99
zxFfJb910AHI|Dmecxhx<+!fd*?hfo`-(`^zaWpW>+~tuy;@-es=B|kB6ZZ%9Gk0a=
zfcQ}0A@N|~Ap5S091_O@W8&e!Vev@di1={eVex3-sCX=JjD=T6j*BM(C&WhrkBE;3
z9%X(tk&lUw1s-GW+DJfrJn*>qMBoYW$-tA$uP*X&F&GFkcYWk3F%$?fw=Z&191n~$
zcSA%F!+|h!H%3m0rvs<OGl4VWL|}sXHAN=Hvw^eB-5iOCVnAf>mPk~b3QUR9fob;L
z8hKij0upn#MPgz+5NGc8$c%U{aE`hCk@Mn(zy<MQ;G%dbaEbYKL_Q%V0tx0`7nv15
z8Th35OyC*u*}${nbAji?=L64+zYzEZ@rA$(EKX<SQ{txspJwi^$S;a>fjRNTz>DH%
z0-q5-8~CjFQs5==bAiu^pAURqd^zy4csX!cyb`z~ej)G$mZm%MOX3#;UlhL-_>%bL
zz?a2W0<VZy16RdY1Fwo-34BHTYT&El*8*P?e>w2W;;#gLg{A3<ye7^E=9#-U^1Aq|
zfnOEB9{4)@?u)!3{#xMIn7cpn>*AY%H<^2V<eK<a;4S9f5cv)9?ZDg2y)klK{LR2`
zGWVv)Z;9^&-eK;|kp=M^fp0MPmdJ05zZ3W!<{pTAQ~ce)?=tsb<Ufet3Vchv5xBv=
zw?@7#{$Aksn0s5~_r>o7zQf$xBYz<NVc-v$dq?EE;?2NK@q2;qvG1YCABle)_+#eY
z8Tr2WCxJg<?%~Lvia!YafVp=?-W7is_@Ve`fj<*}6!;PI+a39H@h<{@0r!Y78u?4{
zuL6H1CId-P4#?uIz%6kxuqZACmc-kE+v1M{KepS#ZmAG7U{6F5Q-KuAV{haqq8d=e
zzYhGh-IieskB0A{QP>mskKw-w|82POR7NGf19!v4;lC61ZG$`fe}wOnU-<4N(7eEZ
zVj=q}B*V7XCLDOdCOj1W(%YHvz!P|n`5uJtp>UDm`}fRu48DiMKM4Ox_z&L()nxJi
z^F_P=$Ul;E%x_ooh487+Oe8K$jK}fm+#e51q4<;pcj5R{G#<VX7emp|>9FL_P#xn_
z(-&2z5Drh13vsfgurM<ohAU@Unu0U#&r%DHKXzm^xO?B|?uYh|?Nu{}qZie@v5*)R
zj?YX-!fNjEi__uZ$V4cH978cG*AahO5K%(za6BH4#wVttYJuUT=>AOAV|eTejh_ui
z1+~cVITVhEgit)B<{d(1CQ!=ZQ^>Yt9OHE&5~2))<5M%J57o@G`^3obUMVzv=284i
zGr#&+I366I5kjZQKR6zmj?YLF(bK_jG;}f&7EmwuZZo$-Q$koRF!Euad5?fx?4F9A
znmDaipGJ0((8aJ63!aju#NauE0R$FUFf$Ec!}=$x?WWk_@nBpEMPsMJlIlJailuu1
z=-koi$jM`Iq(g#IN^tg^ksx?lnwptbODWkZZzM)vPG6*ulaZ<MvoU|RT0l7n<I{Rd
z7ky4I`-=0gg7hW{tKNxN@N{JAWGE6mH6g{~K>&SLZJn0F(;<l}C5kiAiE*vbPtKe|
zeS)W^q@ai<i%?~Eh2rC9M#8aiX<{0vrj}6CBgXlVBv6|W(gEiDiRc8{aOyN6pIt3B
zI{P3s>#k6Y(9Uz{=u|u;T^toph6Mrrg#tXs!_nB3G;t{`9h?dYXig8+j+Kx6$OjEj
zd~9ZVdP<7N7{;IjLlLzURTC#Jpy$KEsZ+u51>i<Jrn+N#)L=MtIuc&578)L+G&LPo
ztIcmhKa_;VnU>HD(bH;~5y-li)f)H+j4mOBLCN9Bo+;_b)Kr9`djP|<=GH(~E8s(I
z5<DG_(&!{)W|cwxOAehlczpk%!z057gGWdA?mu??=wp;KYhw&J))M=p(=(`s*R1J7
zXzSB440ciV9EpU+!)K-<XqKa)=xJ)zYKBfhQ4F4C5rZc$Qi-9+M4U!_fe!1DkQ5SQ
z@NgXqiPHo<8>)b6KaDgD_z9q^215)`749`Ea6A+{tLE$Zu#bXcS|bB!gdx+`NH}^r
zenuNUpf2KcJQ$zCzz<Fcu^<pCOnpwpyC-ARB%$eGBpf;yjsXW8<HE!_)rnCN6@oL<
zh?Ki`Vi)QWN3dP>j)c!mjE4_}#VP6H5ozkwM1&z(IW_(S@?rtO(76z(2ZlcZ&jw5!
zv?v$@YN^#2P2-{QGvT11dB!Dxr+uVhjBqg;5~omP_1=*&1BE%g+BGvl?e5P>L+{;t
z^_Ea8){3u|gA|EV(N*DU<G2(i(sBxP6&M&s#UdbUu{cQ3Nu6w#@u3e|06dL_pGLby
zW9m97JS71dM8p84%EZvApc3J6;AkuuLR0El#xQ7ESSTK+*3zgiYFV<IlhBcg*fiyX
z+U2Ja^JCNDakX;ynVIO>uyBw7Fe<@<ig!y>vDk9IiqR-RARUfIE-nu#+A|YbkwL*j
zkL;#y(Fw6f|J+Lil9iCJ`>>DPLm}~Gh&hXnMJ9-XJUS5-rp`03@)OYs5GIk(IxSTU
zHL4svbmaJBL5#dnjJy+LW1~ldhff?oa^kpJHXOSc9cSbE=u8wt_V7#`15hm(kwT~9
z#|ee^3o*55bT?p(hQ~nz^%zAcWQAA3!Ku?g{*$qT6EPx1{8JxQYSHR)Tr{lAQrXxv
zK3m1m*)WFAbo?TwHrA{<WdykbtidS;EV|OIk4}!OL|IY#L_CH8GainC#G(=>34@7B
z!yj;t)9CVWa$qEd-_h_SstVer!-IG^rn6v_C@V6ao{F)NSa=94i&!Ylr<l5AgyCXZ
zz6E2Loy4?gWydh(Ok7|Q(VJ-@rI_m@7ct?5L@@*`pTN=vlqN%U?Vg_5J3X_D%~fih
zgfcJ_otlX<c!|_RfoA5+l(&m!(c_FT*ww1>DMX)$(y-G;PH3EPI4BU=sZQ(Vw5~cd
zabY5gqKg@>3P;0F&xB)fHodEPj9xPejtmM;FqgSfsZK+ZRXKvR9h^EkyvjdQ&DZh)
zl8=W~SK3EREyr*fKO3CU$Nd>89HaSwy0QiY5uX#n3{eV9>Y(dkv<=!MHvNyZmi0T;
zLSs;}QHDvGW<kIZitL&ZKyB3akRZ_VBX%al7FGJn2qea!qHM~EsRbu7{0v{UWZ5S{
zfCXgP=};VWh32PebMlI*^|26^3>Sl1br8xCT*GNpRIkCxl&EOhqCuk^=$wMR8mj1{
z(|rsX3p3`>q7`YB<KhTb(5m+c)*Q4vNe>yP#WsIjy5s#X!tshNY$L`6m=^YMrjQYK
zOfm)tkF33g%r*QSv_TNE!r9>*+As*&i04_JmcAy7SNjP$;ha-0!TEwCkSFAZGf!m*
zd2r`nbP#Q01Z?k-6KQCqw?T<W%a!0VTA>!jX!-|Q7}K-r0Y#W5vW1lkEyiMFYRN?O
z999ql@agFwIvIEvQ!7G5D|MoS#UECwu{fqMQO!Gt$>AiMYsWe7hw71yKid1e-=0AY
zn6M{oLGou$!htV+hh?+H9o&DCQmuF<b60ra^KIP=x#;^Pn=O%nFC%>-8(#)IiA;Ps
zc|H#)uY|`l-@LrpoCl;WHPdicB8%@OH`?sBMAl?E4>8|~93BTTY?B=M%m}tg!kiV4
zU>7p3XTFX0r3W=E&|KuULNKYy+JCZ^r!(KY#!;X>a(43&<Y0mNlMOuFeDfUG4jUXk
z4yWCA(bi<^v&HP^Gwim<&?e+_A@ecYdHY+AF*S31dgl0BSgb~|SY-PkOb`Ad)oV5X
z!Pg31voKeWpTX)9s~k0J^c?o8YMF+@40nOK0_IibUmRRDETpfY8fp<um&*nR_GdGa
zgv>bdXX}F?|9l7wF#RJVKBbnf$}@;+sl}kAcn486UNg0HRWU3ow(K;$fowZs;m9fJ
z6@VmNrJq;n=PUH{Rr+DD7V7)~9fla;x=(+8zNaTHPWMbtOm|@m1~T7uVP^Bdmb06~
zJ&}o%J<}KCXQrY(wDIjZ*Vl7?N;(^sdQJn%bQ;o49EBhn8}$rcYFv}@bn`gh00gmr
zz|XU`d&RbvEpv_~XG5xaGkbrKZENd%bMo~`rFE0sx@obM1vlMu+L|^{g!)uf^PJ-)
zcdDU}KI;&_s{XaASF4oDez~%Lv2w#);hlowmjf>bl!7|Bpe|Xz`F6pUl&e{B^~$c^
zg}Noz&Xm7P@$Z!VI~D(K*}psGDV-m=muc%5vA=K2=qQ{US#q`B%d>ealoJ1~5<h~9
zN)=D5>}gdz1F~me$+PutY302fTS1W)v!F<EwaKnF#nmmlx|dwN|5|D*98e0j$OT(|
z9;3ncM~>mGBhJk4JF`ZLa)|4KEov0}O!Fa9$H?N(;R~{8n>51=*QCxgGCbfghf~7#
z6iD4uAZe2ZNi$<w4Nt*N)MM730Kquh4xDLUBdtL|%=~z{Bes__#xqXa#xtHo9cD8U
z8CNo1%68ahGiNiR9dUy|SP>rU(%@?`<8d-EOZD@baB$a%?a3;X?}!^@bh3hnneWp!
zPEbMm9mJG-sm4LAjkGJD*(}7#3KnvI#H!<N^DWg|``?fBA=e_FLn7-K+Rl!@*^Kix
zf99o6@5U_Z!ve`CuuZN{pMibxDdu}-Di-%)FXz*+$QSahn&!Ln^7tS>er6)(<4a+m
z#y;|akv0)wnGx0VQ49>=7*<E!M#6vmpLnES1epF}=}o-Ue46UdNK;Yb%)A93=^Fj~
z7KLSDWe7$}R&++3z9>CSUM{ecV&KED{RpE*($~p9BRZ{Sg(N9-QTkO%&uG^Ih2+G+
zLZMxflM`5fw)EQ+k}rlX5c`BSx@x90bzUvk)*`FOscN54v-R~NP5N3pNZ+Jf@@V6%
zg<Wc1n^KvvmXIp;FZcni%CqGbD9$F?*`zpoWM|Kkv+rIuNI=rnm~wfNuBKF3l~UF#
zm-Q-To8+=h3zA$mIG3NwFT2`sE5G_~eUnl@AlDBl^+R&~&{F;I`<WR7g+HkuzMA=k
z%w+vA$V@@=Pi^q~z-epSthDZyTS1$=il;;Nbinb7`-=PhtjxATlm&uVT&5ItEERRk
z4d3yvd#B>9iiO6vYY;R)d<*0&(^k9=;IT+DB4wwV2IsPuoW4}PTgh*^mEVF;fK<0d
zuG^y2?Ud_wF4pau+w;=ll)H4U;J^NJ699=(1AebEclQ>D-$hg&tdMXpsOAM}3cx}d
zZdWk)H1-x+h%|u&(i`|uv$YMb>YyG~Gbf^P>DQS5F}6IEewSkYDSqCvy^miT>mljO
z<f0$KhZvE-7i{-38nXKC)^^{^!W&T6G`zO$)ou53=*wxV_Py5mYUeetT-9|im%Q?9
zb&c~)uReA!pT1nSruH{GUhhyE*UOFT?-h_=p{=yyeK)!G*lV-Ok~Li)*zlJAiWfc(
zhw*Td`+gE$=7JyRm-YZ#@(Y<nM#5QEtFy2}U_>UIBV^HHAK%$5w$u2|xo>LceM56u
zXs&hHY)ipQ&0{h1j8gOI`(hTlwP^H0czh-vW<-Q-U@x5?ojwy5!K#e-7>7*o#fWe1
z<LqthAblsp@$=zu)ECxLYiojbKM^KILbQRY?I>dH{!SlQCt+z-bd83^d}CA5aJTdY
z0Hu0je4D0^RW(~<PmHPF7+458Kg-}+slIeyVqar@h>fnv*HR14Ob7y~2df4csXB1W
zeTzaf7lO;ZN>Ccu1{#k?hsK{T{QzJ}@6yi?3E-SyP?#FWSa1iyV~c{HO>B}_Fvv!N
z^k)=thJGHVpC8drn123}ei+gbb&_QM^8p;Ollb|R?WY;`tZl&g^7chXTgp}R^1&Am
zE;=ewRh`%3a@G1p$NE(3_L~m5b!5>ok}9cqW!sf)iw>-k>S<IgI$BfZ)mKMfJNW8B
zx!iwkL@w`Lbo8bwJFXp<EBlrleOmEU@-m#~li~Yc#N=n<{QWk$ryN2iHlW$U*M)4n
zbFe{mVpB>R)LbD~$oraI$PedXgIk8eRy=GQ>_V8uge??=3j{~F@RU<1d?7pFM!tE-
z*NuEV!W%*{-bE<01n*+Jy?B?vzZ7q;P=-7^RuqO$!69S;-g3k#6Dq>x$gdLa3c({3
zp{z=TRpGlzs1E1p-!=HI&b0}@hVpAB2QBifg})X2Yy={gI_q@SzS^ncscfO{g{(k5
zgR35}_^e~I`Z$FKz~~bi!wuoaa8o#s#=n-2&=hVKnps_}VP`O+g<FtA3oEU4jgs0}
zE_K%J8g3O>PT@BFZQc4>X$}UTQ)ow-?YTDdpYZDf)s;#jnEgCAp~JdVtt??3@T3!e
zR`u8VpbM>{w~I*|S<m>x9a=7WyL*LhwEH??tybva`5?7Lp6It;)T;A7>GN2h^o6^S
zL*A)8p&#+Pg*S!uc=re!)@c2WYxq0DttfL7()O;|N)GGR1FmmIx;`EE>rkJ5Y8|}m
zfJf`K7BO)N@wXuU2EaOi_eP9~Yb@=cju}nX<*+<0@xj3Lt!VR2Ivj+<_lxZiwxRUR
zXuU0y((2KO5xpJZgRFnHYS0Ti;IobSY}b8;;Ijihb>Sglrw&JkFbv<FL}!Fu;bCDn
zqd&tK9V77HCA=k!!e<Zpf{J7ddja+C@Cd`xedtSvu>S=I-y8)-g#*_00B+<#4#0Xm
zI>LKU-a(YNm&GF-aR`U-y^ql#qEll!d>U?39W2{R&_?7(4nxhgl++WT<gEYpYksG)
zS^GJK!>IcK;mG|;79QqQ0qy({+UqE4agg=$vG79=NPEAwOV78C(LBrx49Y_~<W1JC
z%i>V2#`M}~shYx#MhMS|Q&GmAJyj?i2keK#M}!kE7~Af^!<=#nzaczw-<EjvzM+I`
zT3>$bzVRMob=7+WZR!LYIDmdQ3i%Yr<gc$D3mg{>%rQ#>o`r`sCN%w`cOHKsi^mTf
zx6V&^LU<D8?g^h@D_WKw*!l4^tbYXIkMh<Pf@rmm2~Vw2tI!($+UPoow2vV--V+(Z
zID7&Oe+284h-*2jsCQXi!{Nu*9F?c6^TZ*@edwB2(=<#!gZX3)dW(G0<{;MU#li&Y
z^n@_Eyl2@O<t##;6y6phI=yiSBKrE{$h{8ZU#D4G`Jj1G#13K=G==w523}qlrtuwG
zv(ByQqX#*!8XLfir;)?S2aHxNr9O6m5fajjW3;R>DgbXR4QB))9&Qw7P%B!2Weew!
zI{aXq=C$N+;WruOJ|8|MXrt)@TJ9qLF5&MJ_#?`lz~3zXK8e3IDW^3i=(9wb@J!lB
zIsG6w*KGSWumr95Y+Bo#Su_1};q9ow1lsF)wAbXn1C9xl`3q@fo&_GgfIK6}AAKr(
z3T{#OG_V(#7cS7+fyR_TZH*QN48MptQDH7TrLVAG#P>A&{tU-@eb)ReLY@|0f-g=d
z!*R-o{|TRi?+nXXqXC~s+;f2DWxUU0ro9Xtxq>(sv^an+Tlhj6<QFYV{3WEmq`}58
z+;T?Ld)Fa+5wSmknkTeUQ2#H%XLgy-m*MkCJx5NT9KtK`eTMm7eNZ{Vs}GEk)@~1q
zi&f-TQ1-LJS05Bp@13t9_H!%S>OpDI*1wE&&ujH&H0oFI{R?T|ui^Uz^w&JzpF)cf
zJ!#fkHbZzFzMsZ!+_L=<`##hg82YP7{fppR{1$|fmYr{^`RNjR*&6F~oHK7|RwSM>
zeZNoh{HlXTJI2nc2M1gRk3M0aBp&^W2QiFvh(Qdq6%S$<P#}f{XC5((oDm~$MF#jp
z4D&eCZpCOq45Mu1VeqWYybuFZy!If5#W^!#7|<aGwbzOVF^of3I%JIGiTSgcBpRE@
zWMi1c2S41XkC}lLhh50LgnGTLw=sXSqfVn$%^YTNIBb<O`1Cfb8qeaW*Q%{%bJ&rv
z(MIulUIt(Kpq@tiAP);zCL4Jg^NmzR{43tVT{zfn<!<wBohv`%Ku%sBH?hV*q4OHV
zGuSDJ*Ui(IZ^SUpLlC3a4B;-sFxVCXS~5sfl|6{RfxFE&VsQ2lots$o^d>VlcOg}^
z>9*>X$t^tGd?S@{1dXz+*e=;;0gVLti)cxFJ5R~`adHRuG2h73$G;NUle@Uvd?SX@
zyNI#J4B;-sXg1xJwK>4U&9{(4eRjbv`Rum%A?_bP%v}c5N4Ssq=3_&!pB-WS?&o3X
zr4!t3zD>aaz`Bn6Bkp6|ZN7QAh}p$`5%US|Hs6S0;22_j+zjC^#4vEo8pkJ3^0?;P
zMVQ>rzvHL43%&*hqP$7&Z@v*@BmY8qXSmyZPl~3SyAlrGo=Csh@U<T4(>&aKOU1wo
z3$_DtGjKGTBamo|@f|<U)34Dk7kIe&zV1we)4*;fcwu06uI)6n-Vjg4zIHDA8s=XU
z6w|<XHrjXdFhJ$uZu5QFE<Is^p>t*o?n2DH2^*u`7WqtmhQ~ACLM}UVu8x0>`vC^-
zOnaxb!Cvki{a0&vEz8N%%elf+e}r=Wc#U#?iRWd$`8bmH#=pdUtxJM$4Ub{I6E?2?
zfnG9dx<>g{?U~Q&IVrf1-ssop$&Zjj0n4E+{tAccqriW?Fm3)a;Ey)OU*)+8?hg;k
zS8czX!F&FBdz?gC*n=D{aku&AF;Vj|?#srXL0zp&ma47&C+B%C<{Nn%xv`P-Fb|8r
z!Ch7in8~+zsQKo&f;<iC4GMSNjKN*A&iFgr4OsVaxA~5LgS!!K&`a*egudeD7k8O`
zHHjHz<%66oF?7<mGA7GEW3}((@2vJSYi+r1_~z;qr$IwMeBAiAcn(O#ooR0?3db=g
z{%s!7I_*bnkxrhQ`A#^w5?30WX%v3aDvjj|cJlYkT)FGI=j{T`4V*G&W<YJMb9qci
zl>VXV<}Rdqio4ki6I%9V%-YEDCJ!;+(w=|U7%<9uKrTNpOXMySr-JD)8oMDL54C>R
zbaR*V5b9$U_s@6?^Bw<l?w<Th?lRwJv5t_M<1+VIBVP*`I0m8zCel*h=5F)N>&j+X
z#q{SclxZ=R)7mt}W18>lMJ6Q(8fzuw^l!=kj+rlaEz5t3`>vV41$`5;iQs>PS{N&~
zk5bA<$p7iIS{Um)?niRmv__YD{}+{RtUK4t-vS2^H()}@UGQz>Zu2c<T`zvyp?w1<
zV?5-el$X|;|AD7B-^*~qn48wj-vTGn@_!J{&G2&Bdf*)Y`Zt#Lpb>Qb-<kh|YGdpY
zJ_`IFc?4Zdt3{N%&G&t9+XDB}`szWrKm(mUsGY?GE^V}~wNL_oi;}f^pUOys;6d&C
z2@V090~7o!{@=K3^8ev3^Sx{ZW`V659Dvb!b!GuM-wDKj&P$nm5aiGBm~3tOEdRP}
zj~o0)K7U|TKhMKiJ%53J0Y-h~b02zNw&Yt%JLA8`V<AQ!cbjkPUP<c>i_wHMHD(Un
zb=}Kb1h5;>3dG_26&}ZY6B;4jr@0T>z|GxA!JTREv^jW=dn2Y5?sp=$lC(G(+-<&*
z(qh#G-!o<$?&9^*6)HZ%{aL?!mVd3$i!bqT7TefIr?v2}^BCrP^8Tx+&-0kedbf`I
zns3y{64xIz-h@)5^qKi^*Y&crS?4nMWi`99?CT5s3;EpSZu2c2g}((>JaCPA|8_B8
zctGpkf467A{%>pDw6ZPe!G~&DgLA=J_KUpT*q6b#xM=g2k4c2u(5<UvwiTfGF?H$`
z>EA<D`+}y5{f~&S6SgBXefK>~TwE=Ju6tODLg6qHf(|BW5JL@;i*z$dQ3#5Y8mF2a
zW6GXtwx*bWT+N2kIn+k|8PeY%Yw2(CbE)M-^lWtMe3Z#~&X6^Tb0ixN-B&08`NS~P
zRD?mFzd&^nT#!H~4K-*Y(wC;HLQ>;pJdkNga%Hy|D?-gPmBux_nS3TG&$QQKYB3aF
zqR^U4_bY^AWt!Znny<;ILM>=KrZ%K~1fyXTrb(Tf3U(593pTZe3^*7Xl#r1QOH2cv
zl?zp;ET)={#`qaE#_!|jABmQ~rF&58NU!0?pQ*)Q9{)rhUuNxx7GdgskYOdG7A{TS
zUH>YEsBD^X4Hg5nkU}K#O40FwzSck7kme6XB4`EOBTY<~XGra#_YaTdg$iL<Iu|-Q
zLAD3DuaC~^x;5A|0pcl1`;2wZKs6yI{T)?}_FGV`N<+NUCs}_<2Pl{-s@3}-Ma<V~
z$C^wnG+I^r&et^_N!4F#d#`2~1RC+oGJ$4{Ky5^~ilz++DRdsHO;G+0PC<8F!zQ(M
zc^utN1UEDy{a*x32^3vfTZEa~EUCT5(A`Y?nOcF_gD{$u86+qqWPp|x)UoMXYNC7!
z$T$Z;(9L`}DGqr_|Aj&eIZiXh&6qg=U=tuF{ht)2Mu7aiG;tCV-U19_kf=9wf4M1v
zOpFYvnc`(pt}qL5QbMPbRTr`*qG7FCP8tz3t{_#dS$7GZfubC=*~t@{&(cNiK{2@u
zHCb86Pyg_m>Bq@{0IR2(Hxnb{1W-AfP;=qdon8P=8rm?@0IgpE-Vo_lz3E>@lMhf0
z@}V#+g-=s;VXuZ|s#*7_G7Na6^(^aE3~e(^)Os3z=wGgRto4|r*6^0*0UB25?e3;f
z9zsn@do=0q391}T)?8Ba!m$6MNuaB_96Qm3hErFL&S#?QT$`F_%5Yn)Va>BbOkM9K
z^giH@P|s0U5+x<VDA9&T%@N3SL0FP#d!n^6qqq`n?j+iQsd<ltA~WGpNt%*0{hcBy
ztZV%1ijXjCL;cODo?h`X?!kw>?(YNzCWZKzCIU~(MCmW6lzfuU=L(TU8kwXasM{lu
zo}oyYXim*uhp9uX=9$!2b)3Y6BM~z}dY|R0^#-Htsz=l3)U^mOMW|lZY)nzv^kqtt
zs+XI+(eOc2{gi0Y1g&~*3PZOhq!|v0k+LT@Gejgzs-)PCvBP7dn9pF5CM>9>W)w{+
zpGGwF*EKy!O*nz7P4;Of5a7a;3bPKHwH-AJGr{_PHCL+@tferYO&io)SXY=}$_1)h
z8+OoWkjTi+xau_QfD{vvSYaEafY*=NTw$ofx{7SEsO1=H<7B)??=?WFX?L^k)dN93
zc&Do6)a^PkW0<Aud8j265E>s3PZPP(k)hyhn6$z<p!q~Tq1#W8sBShyVK9f+%gbg#
z-SiAsK9~N0nm8LX5bWEix!OAjJ+d+~NPv>~Aks}XshL=@sBQ4&1`C$iQwc{VPEQbN
z(aadAt!qWp@sl@4`5N)mERgFdD8s{G5Sbg{O`~-Y(St__ey@oXXj9#|iu57{<)T4O
zYNi&-S6Ff3)*RGwuCz}x5hD^h_?}=|AFvKB<eECVDsvXI7oygz(v~A*IZ?D9=^)oz
zY1A>JTY4@nYez^|{I9)FG!#>^Ok+qVh$Ym4D-~^WneLyt5Y!e0|2Nu8`mgl!Kj`Pb
zQ}Y$;7IM;-U9nsQa3x5erd{^C@VZpKTyDtFOU|-G>!v$T*Y&GuBmLrvR85;wvq7$5
z%Ey%}z8brf#+`EGPE9enx>c#}m#h1=bj!c$JCyoCxqgtsYEr&+if^0j+eTltspYve
z_bAOHa`Om<HT=DE?C+cnZ#2ydO6z916*_@?<kmg!mdmY278@U4avr@~Uage3%jNBJ
zE-3mK&gy!lx>v65O`-x-bxKvYT-812PL<U_bvpk}Ro`OOdZt8OTB($_%B8JJX{TJ;
z39r06bpt6^h2m<KUCq2y=qc9c5j@pUw`=H9d|PDSmK*zJ->6oB=3b?FRBmQp4R<N^
zR@t=`8i=_COU@po=|*Ww&W=>AU#Z<J*D_7-DkwEIw<}E><faWu(>}RrAI0&d>Kc{0
zez~q+sXHv!9cHDbY8#Z=Ub(h+Vfa?<##im%+5Y=O%GQs`TR#Sf3sQC6O5Lbj$BM5`
z)pRN~19Hs(rL2UeAE{>hWS38IZI@l!lf%bl*YSV0*$cYwcuKx_@R!CEZ@cVmU-bB|
z4a=Ucdsz%<AJhhYol5;~xqkP}!;AIDDYu$bb(>PXS+3r^Sk1DpNG-2<Ws6eTD_8ac
zs=~YNol5(F+&-YRkIC(0$>uT2q5<maH9h1)zqBe<eR37l*rCnd*s3)4%Z>d?;~}~6
z5PAS@-o)Cx9_{DyDET#VevOjfb1T1x8V*f%L~c4VH*(wMyW7-E8tXpfT~UASxYD&l
z?%JVr9hAEcE|nib_O82~1e5z-h9lPnmHTc6VQT$GR;#<4waTCz%~f@`lj+v`p-D+4
zH!kKkzLEI)CzZBci*37p;_?6hXr;PaWp}IM?vmYI3+1=mTkh0%QsLX>uI-EUJ1#rE
z<VrznzNlR;YFCPS<f5L1Ew_rc-l^ZXASj#m$eZ>o*6&>rt6whaUn<&=meY;+cR%s%
zPrN&_SpV>4#}{3xl5(Y_LoVr1O8VrIzJ-t7D%qaevhDK7ZSO|w(z;T<X2sVl`+9G9
zzgzw7>JKtAe8p5ObZpBTQr@j>*mTR~-AegJxqM@?Y}36=d+C<<Gc(JJ@7XeoiV?AO
z(}M7=$TuR3ExW0u8}HWpG=v~k+QwV?jj5(KrD;%Z8dRDdmYW`C-GNrxg7N-R!5wI*
z4!%05RCmhNor~4oto!ek+3Gr!+O2Z!)}*uQPIXJFvR0|=kSjaTjn#Em1*NW6uIpWB
zR{HnI{d*Rx_OdcI$xWNk2(N6tLV&;W%#~-1VXu^LmdiIUmJb*?DU}=L%8kj2O{@+2
zWM7{~c9Qkm?^M^%JG6FDe7j}e?#1enI~9JWZS0dhKGHVMzml&j9W(D1+0&BpG`^po
zU0L`+v8`u)a{cIH_Z~Jl`{mkxW>jIj?BA~V1F}ExK~F^uL*R;g8*D9prFlSZ9#EPO
z$jt|+0UFReyX|}J<R(qz9lMybfoUf<-^y>k)7kgVfwvAQo!jNk?Tej5)TaJB?OpHW
zy_Ki5Z;{)#EVd7lXA2OQ26>b0Y69iC<=V=?ZIeB1if5DT+4P+*W$>Upc<`3z;Cud_
zw7?<RGlX$w8hjxA?q=E9yyR>JNFbc7L#}O5*6onj?f8E92WP)`Hd)!RSa}rvT4=QM
znh{9jyH~F7g?hN+s+C=}^LE+QaJ}@M>bI&v9({c<H{oNARD<$>02O|@!hfw<>DVfF
zZ2kVmA8h^J)?|f$u>y1ugpRPSPR_5JFCvs{?a<}~R-p#jW9Hko1^KoyGZsxCWT2?E
z-EwU=gQ8w`)z5pChCaEW4<n-L+g0yw1SoYqNK(f@A;JuTThk@ibX^ma?qRum_|HrK
zs_KVT(34)QVWhA!)wWJ)+akBYu!df>H%`3y`0I}&tM&n8)y}eNMpkX@)WuDAKXd{<
zDXh-9c_VUeW;y$i^RjxaZe6O9y>1hgUZvAeHdJ}1EO?c^5xH;V&qx32zz+{3>w6dL
zA0>REu5fu?9{S7>#;5^IQSs#w#oH!(+paap-gQY&=Ql^c_0TsSLWMQ3SabV8GKcM>
z8Y+WuRMosz`D*1Im;16q@lYSlW0Gl^k1K5ha@)X-4a(LrdF$As>+qdo?<?(B+CRw3
ztU~=>Dg>3*h;h?@93J`OQmVv;yPMeZVLihGZ93Snn7`r9;Lvy1{oXo;22HZ3>H5ZZ
zw!XDhBb=aiTNz-R(E|RCYa>eMP8t8(*^;H@XW1~na>Jo)*(Yz=x7fU&ifOp#(Wv_^
zck9pcZ3VRkeldqe1z?kasKf_3j)Fp9SaI1sH|9-%?X_)S23wkcmS^kV_&W@6!h(JF
zgRD_%@6<KDHu>tLQr9ilbuZRoCc?6U#`;6Q@lXoGnAvQZx5K8wo#OIW)?HZ#oo1cV
zeUO{g#X8@Q*4b}A#4_wm9X>{R^c#fZnpg2}zvbV4XZ@CM4Sr)#S-)Fezk6~0DD`dc
zoq-*M^UA;hdEmg}z(Mldbf>HToyULUaRcG3O73PQcc5`}O65y!AD(mEcKS38YC6{%
zTV~INSf|9Rd;chY*0Sfqq>m83^0~jAmy0lq^p<@LY{93nW>xc<28CwJ@+~`CGsoa>
z(-ysIp%#n{2IC=Is$H@ET^_s#aL0((|Evv7`tpv?>_EG`Joe(4;%b#$t+!q6KzUac
ztF@X(yFG1_H=ce9LMKS9?%jan6&vho>rcWSH{x-r18D@@dW$nBW>>{ZGQ-JpGv5Nt
zNPP;1;}iBzWoU{9$8i2*bs{xsnL1&wvau9aaMU8Fj|4};{?TDbFiSkgY*G}B1?#qX
z6S0XX_RP`oFk^#Cb?}#t<44Ve2_|VDMa$4ONU&jUi&4A!c$dRe3ix+?Pra(kmj@r9
zE`JuupS9h|FTFhZM$=M$Ysy{n@-v^&mKW>f@^wmik6hmK+xCU63kUF5D3=c<Jwvn>
z*>PouQqm%qw9KEKzmzQLPrCZ=u9bLjp+GL*k@W0Xo^TS2xui=oMsVD3XN+!Gw<0E}
z!T2@?7gdxxF$aI|@4?S91j{6Qa#jNS)<~9s;P}@ZpSK@FV~+V9E4b)t-uVd_umzUG
zSazmFhvFLhnX%X%TI(ASO6RE`2!m+bsqHvN;B~2b#fVGi^&F?hZ%3MEZCLqvYCr^2
z#pNs4cs2i=pY6%JXUopbV<T_bXd~QYqwQ~yS9)WZW6d;9r(q^P2ZpsKOWcmZiW3_T
z7Nf;#R56=OR&fge+lt31+hNj$xN%y#CZt*MBA$^cy$zdBn{2ixQ197nXm#XR>8w0!
zf2qVeWU`d!XubtIKMB5IpLOQikh(wNOk^dP*_M~KIBceUDbs+Tpjpr2tyW>?$6c1%
zFVLE)vd!k6w$0|nYkAB>CWipEdzfkl4H64TVaPBy!4$DMC7sQW*YjMg&R322KuUTN
z`DdSiRGe`#uKCih(MPUC-XxtvtauVG4x`=n(lNA&S#I-+sQ66e@z|4X7NNFD!v7Ty
z%olPfGc*%AgpvNNF|`sLWH4=GG0tENGV{&gW3uB)%z$(XrWR`KO&;biRUKp_ADqFs
zB;_LpI|Y&kQHtuMc?`@=u>Li|$t-yX>3BwrX{S)RVZ<Th-LSoi<4qirX_mD?jl*%N
z2)RfH=x2uVqq7tkJ%58rd4xQ&$x1y8-e-fy1skl=Z&C<>=`S!zI6th@GM1jDgoXOa
zst$`<wyahLLst4e@=~)Hz-qo3C#C^4OIc-NK7bu2A;t{S5s5M$%{o@G#+=qp<uo8J
zHLN6E%+6nW6jFbSeH;Z~_9(CZ+U_?>uI{_?$;I-vITxk@#oc_%-JB|^PrB;w((b)U
zE@@IqI^~kiIVame`Q=K#Qn^j8+_qS`W3KSMhL$(Rudkm!^LpK4LtoNacc-FZzWc`&
zeJ}2t8=jlF>wzV{Mw$M1r<$>?+$1+|Qkn<l=E3CFM;4nOO_n}-`Ejfme~Mi^E#<qm
zBt5P3Pv7$R?-kf8`#<p5T<)a1Wih|?8mw|*d8tG8%JwVUm6B$;q<Q|a`7_Cq9s;i#
z@D!C@zVPMxx#3iCyHeaK7k6HJc)@w2=o|Tq#oOj~-_cC&%sa0Yy`H~V(z%c+m#kNc
zx5&j?7K;bxcBfobimL&;zWJuxu*#KVD{lB8&(_iNPR(023(-aYsN&xz`}gVe9!sl^
z{mckq-kd90+9I=!sHZ0Btk#y9w+L^(fS+X(Ko&gM1aJ+G^a;RvCbU{?@xcc5A`C{!
zesPV7;kl+b@m1M_+`%nf`LOxdV!4C?O)%ntRnLrz8Gc9TabQgzN5T{AN(E+<ju|oc
zO`U>)JM9q3HxXq4>?p-|5;q43zA4QMd~oeV(#S|Z+H8yY=-@rp?SpN8n4Mx4ZaaOk
zDKYFb5+N^k6GhC|P6o^(7k!5g4*Pv#=%SI``A{@YmiJ<GI|3QOGJrDRm^j6tGjk;h
zHKSR9@|}kPcNohu^3%e?T_?%1y$_&irs}otG`oGnu<t);q@q?@X%=hHcN{hX4PT#j
zSZf;aW8{$T2=VAAHF18F0IPaLvCOkaelBkuMry~+F)4&-(s6VeBb0o>Nocri!C8zY
z%|%cn)^nN>?bW1XRg~w5bc`V{tbOV*F6ZKkyGeF8Dem>Mdp-8HH|)3a!H+J!ORSGJ
zIlnELzy6MEGuw%3Y${)>p+#xfE;nrd7q%J2-eiNeLIU8%Lx{%)$d}>305Jlr7K)QJ
zoK`&6tE9K}G9YQ@;0X}ZY8_-XP|`GZaivSfrLFs6Lv;e@;FlPNYG?Ma%n11eARx@v
zcGLM$H_cG14iLxuIp#^LcDu-`INH2ew8~#CWyj*?DJ-x71|roQniXT10C8UujPjy}
z`l5C>+?QG{XNFaof0g>U7ipihz1PtCX4UIeO2e?+FnqK52kXAKZn1&!#p@Usvr8`T
zQp$JB<-6w`pL4D5MdYOQ;!ZgJExpKBHDp#;+h=8(jV65?xvs1#&SlxDu~x0s3;DFb
z*Quh#$OH4Bv*6{t7xNTno$RdREP`beo0hu_A-@6_siIH9W95V8A2#A_iB45t@mQiM
zb~Ai2h=rNYv3AZ_ZmzZXx3a69FjTRSZ#~P`0;P3`$v~@X1-SUMggDazVq-I4<}qn3
z{!KsLolGs<V#cxB4BR)LEG+XKmryS(xwBE1e`gzES)YTR^_mcK*9Zh^pL`zWI1^4Q
zdwA#>r<E<a*<AQn@m$RJY+fQ)dMuG^B{&-=W)6EMeYzv<#b*0$@h0vy+00$$8@<_T
zesR}z10!bh6Zw;V?r**UPlx%%U7TpzZBbw=(%P)lo}}?a-m@78Y|q=V0qN#x&G)P;
z;d(ab0B#55SO68lJ{}(L=Pu;Fk-N<|Ps7K`Y(b)65*x{t&*Z>LA8clft<P*>qHuDn
zMGRxR12ymMJRBwmoR;e7&dHrTj`>F1UFH{eVFQ<!$Vb=+_c7n_-D7@n7nFgWRzkYh
z9dGArac12KQp&WTFo}$9h=Q;KJU8<#6~X_I`ORGkx7okgbRXva<~u#cW&2B?!sZd1
zT<zigGI^BynD1E+#uBYWRy?x=$)hVg@yYX=Esj6NLlZ?-N-!K^j7rCo5Itw?gp#%B
zZh~10L#q{8wRfVV5{1or5sIz#%0~|^1uhg>DbJs?&6XkLsg>!_3tGPAsOyKNbmJDe
zm}9mg;hq#$$B@n?DxQUH+JxIw$B#zVDD~9p^!k{!hSDOw-kOz(;zT92926yp{#IE-
zm#AW))d_E+`cgS-XSbC|{p8uzkO?_ZC9O&~Hv%O(FY0N~zJw<hL+eLYr`21(CgF{f
z%o%$UH5_l4vVnWjP&(r=ut=i1)Fx`75JtPIderKS8OmLjqohV)Hs^R5pq5`lK3Pn$
z?3Fe0v8Z*TCQ+LYOT|@&krm{0K2e@l4@;PMxo1Haq@Z<qiE;t#_U*Pr#dBk8V2H%)
zXucB_)X#}>YPH$AMBN%GEm|{C!RXOiDa=*9QJ9{hEY_bWeQqet0E63-f|m060CRtt
zP6z5|eTjN2d`kFu8(~FM;jl&BXa{Y^D%D3pDX^=N1A}q319dgjx41vUi*mhZtAKyh
zFe@H?lr$t766IQNBIgY}(ubh4881bF>(-+(!SgZSdb^cA*SbcUPnvPLYw|hnGT({P
zL<MhCj5bd!nDEXvrjMd$mW`s>Cg7_zl+T;Fa#x}v(U@qW10RMLO>3lF8!y&Mu{Q46
zCtu*Do9{_WN{fpI^f`65Ic>BxbF7(dNwi2$d=!}3%+i`@O|-DF)0AjlBeiu~wWhU|
zbsJmO`$EPAHshgGF!RSV$F<g8tL#sk?ZRC;Hd*3+EaP(KOW#Sfq|Y~r7Uuf{)NYRF
zVZNWE6t@%h3wA40AAl0`!gxk-l&8R|!D2s=K&^~=Q3_r!>mIgZ2`t-dU3RctQI5WA
zXj`LaKF6Ul--$Mk5&F)`x^G@KQ*akw;V@<JE8N$7Cyb*E7Q<@YV5kC_smxr#lyHVl
zVy~aZnqx=Ex;gk5yM%)7selx73}W|S#DSrPD+9swil1RTF@rmm$N7AmOJ#Tv6KjSs
z|IB<PcoCEDq;?O+Q{YW#my>Ez%uksYT7WaB-I!?PM*y*CK5!_EyE7n`%K&1m>ohhS
zm3~aW{F2`UM)zTGi0GaT2)9lE82$PU%2ng|0ZPOS86`)<=X-E4fpY?(XF5a`=;7CD
zaIWDpPNvDK8<TLKwCz&EV^cFeVM6f1hCCRKao<yMTyXakPc(dFKQ8ye<uSN^OHe(!
z;)=%YCo%4V<*F>C4{-{YN#Zh8x&l?NBtO-75e2Hb`i-Qx#5GqFucv&N5Vy{!G=#W4
zD>ax@7t<Be*`bWt$ke~28$c%i0oB9nPNx(kl`O5NB5@2ct)03+FhQI;7v_f;YS}3%
zjGGPlorYo%m*JiX$DllhWM0OMf-V_dJ7ECjfMhx9rWF851QJ{iUw~4F5fObt1;nIZ
zMlRCp^uuaiV6+F*2pR&+YW~sTv5~`vg2zTjM;K!WcaCZoo<b#p9V+1(k|?`K51eJX
zekm+yx<n4@CyD5cMB7MeSN*<PHJeUwaD{D2`pJ@pT@dSMHyTPbol3a58_HbtGfzKX
zr=K_I=hx|nj{k8Zly>|=dIRS1zJ$BQVR?e`SjS?SwbzC#YXG&5o%*jSn=L(0X>;_x
zQVXczOq4(qGrZ<~sTNUxq@zSk!gc46#KuTH$8?1>nRL>;BOQx#dP<{{B-}ubgE3MS
z#K9OV&cI~tJdMN}v~toh9cOe@G>aR<eOXK$Ma{f4F)eMQ1O-r1(?T`X28z4_mzlJ?
zuHY9Z6(coIJD&^E#WDp37%X0m*_vtUetP-1NSH39Fj7b)rJz>DaRo$#HG-K~16a+c
zixknwq#UC<aU6(iDWD+tMM~$vb+2gWGsevp{&wwj@D}wgA+VZ*F-^k)SN0hw&bzG8
z>}^){l9}l0NDvl!8h83l1px<cQqx99kgnb~2Z!{lC`$S!m6yfnrJ9Qb8qTV@R2;iU
zL&G-G^kM1M%C&Lp`&0pj%zr?+Ld8MDCU&znu!GbSaAk({T?%C-Xal*>#2hxTUDTUg
zy#(OnOH)$9K>TA$TS#71E4{gMfLv&d3v4)nqm2-va8Pa105EzE4ayW$bPraVn-Zsa
zNVrViCiPJ{`C4oZN*Xjw*$JCG8=vPM^w!Q?3-xBzS~Rv=Qb%ibJ@^f*C}V>Ve8F`@
zWw!D*rEK$3+2*-DB%*cb#Y38q>D5#7!fn?&oF$fTfxOzXSc<DgcGW1Zb+T*SwLQ08
z>$O-;TSdE4zGJC;$J|~f23IG$>J(R_>}s6fd<{b8eTY{vgxqSol$v3=W>~4&BiHO%
ztl5`zR;C@}4#<@QO63l@a>ruj&bh)=U1zd~t`@=p=KFcJ@(u>7B@i7rtL<Aqmw%T8
z_=j%S49y)(l{P4)?Q&^5QbAa{ZcwfpoIA|42)4+zTjs`onr$ocrMyjww@>!=ee(%r
z;~{zDp<CWV@8OD|!>=A**zm2b-`KiTGjusO<*8IWB)m93rL+#pt%J95hg*&Ba;|ws
zUEY!`?@N06@S7@cQOY~y@{Y?6oJ=Ik+mfDxN&mq`{Fb-9S5dPBU4-Uub$_FKv47WM
z#qP^lDHMo1R+O4;a?Q3I#}{jMu_Eclruo7pPtSW59jWr#6qF|#cE}AoSas;)rBqG3
zre2cr^`z>%QdLb%FQ8Yh>Sf9WqzRI0XkvBVB-d{GpxjkiIJf^^m93?FZiM>$Dx~sA
znA+oI;#&N=sB5^SZsT27x#FU(yn6A+F8{p~c3bUE`v(ELt)lstKB<)V%jNyh8=>>~
z0l8#g&Iut=lGNTSH}8csXwup6US;F_7Nu#u+_YY)-0<RloWP$;Rn)vz@M^*QDY>F+
zZhxu~H!JOs8+Y7zT5cT1A%Ci-S*hulYx)=Z<eH6hhf=Mb3r?kXpWM4I*}9Kz$?~-;
zzCqbHcmopY+mo(ZWT;fM%fP^jEpo*crDB_0vF*kqixnfNXq^om=U#Wqjg$JCWJz;s
z{f5i?Z+m<1l8VbZxq6*ay;H8<nXEpT^d7`-3KeMCD7S1>S`Nr92j1Nzw;a7ZmTKB|
z<KuGE!FQjA(!}M1sisb)X-IAwy4fi=jo}+oz1w8(=A^eR<*ik`-Lkh^@otp88yBPn
z;l>m4ru|Fa10+na(>}K!a_E0oLTVWee#N&*_H9~tTJ{ZGE`U#I`}L-4;$jCf+jirk
zGIUJFfA292o}zjr_cqQye5<7O?us(Ro4e#qdvAO9rAnLTL$^v-0U_S}_|3z~k>klt
zCvJNmNfkA|aqL>9c6Z@o%gC*w5#(K3r@>9*t!Fst-No9g{jS-#gL1{-jRCo0G*z_@
z(h-%N01F}#PTP)AI|(;8%id<i+ar5>7IJ0pU~2TB>AM-Na|6D+Fyy@G3SY9M^S$oA
z1;5fiD)*1xoc(e43Av)<YVQ2zR7Hc<o!825SM>cf)7JBd9q?5&B+J{Ao_74E%A1qr
zy-80mei72P;d1Vhr|GV{BIzapYPxo@^Hxb`vTxVThi~=mK@@+V(!N7(-*Mxd+`cF2
zZAta*N{*aJ?#BN|l6{X}M)!2z^;Bz;A@e}}uAg`+kZ!mA5&PT-r#Bm9*M^11WY<v2
zU6XXT8>h&Mr&IQHDxS@<XY-AMn-`Zn5C7C@^ZM>KZ%%p|QjHtGlX>IN;+6w)<AKX=
z<XYMYH6gkYl8&GiPdAC8cxxd+zEGd6-<kC8{Ap%JQ86O!vOjDm$!{&*dfBsnVZRL7
z$ANvO?>gDD?izeIAwD#jY7fY@2b9_|xppk&DZ82h{e-&0xiN?a);G>WV7hPaFkti4
zGd(Gip;qdK<+|aUe!1@8<$UOpEx6^zAq~tXD=@Eq;@VKMelY1B)Sz^x)kK43(X;7B
zkL=lxH}t0l_ocNUn>O~#u1)ABQUPjTLNoU4p#JOp>ykziY~LogZM)Srk|JChy5$|Z
zIV5|J-u4bLj{(^`aHDn6JA5-JdynJIe1~Q4u;Lw+y`wizy(|0}<K=|IR<-f{fWubN
zq)$lNwAC)V+JRQubVPUHk;X=a?5t3n4YIR=^bDLX#aS;q>yy4-T+qipwFrLM>A&q<
zr^(UK+H=`~tP?YLCjQ?4ErhHkt!;HkBEi<Cl|W6*e$gH$5mokB$pk<a+6)Jyc;y4e
z1sE<XAHiVZ3v}nR!<xNuJ&Oz5oX!w3uV-^sl;9vn^!*M&CrehA2&TMYE!Rp8kuwae
zt}o_cvl(gD!HpV#S%Sk!cHEMQLtF=1vTAkdR)?C2Ok(-b0XLWwIiWA3(@vQ3Lo1jR
z?A|%Hj@56U!%A}*2LPLR+VK;^f!G9xjvwh69o~CzlzpAKcv8ZSoTZQ97CXd^`XUq2
za7Z%ch&l}(0GWwkj0RG~2g~4WI0{K5wqB+}&O$M|+qXYz7ShQ|VVfl_dd$d+I2l?>
z=s2^aJ~EEsJI}12ObB7$nW^&-R*IrTDhRv?#N*3j%Gby$90FGc3gR=^UWZW&a5X}{
z*qMn_aWbI-zy#dC=M!e=a(4!P6dN<&1S|%yyX=g744Ef_4QuU_xY7@TT1J@~9O;Y=
zVuG4{0mkQmVUtW@LiD>O(&dGkdn~B6vh+VG@*Cut2{B34acU+KVPe&6`>jc0LJRyf
z>;o{nCrnbD?OZjM0@F+9!03Ab+Qs>^w2c&vd+A~NVLK8gI8VGiwpiCz<c-T$<UwXO
zK{q3#Yc5~vTPgdpY?W@6<SQU9vG1ZJwsI%h>66_)#ocks-9buz`)~E{hoBQ=1B=RD
z$-R<$x1#+{MeS>OujZw&<gO(JyM?~R+KmfOCu;^$HFYVh$e6|<bZ{!G?q%hamSJ^X
zS@l6l9;Ti$o44$z<@rTr|5{}$EPC<SXHWcXLCK4cT;BEBz~2^lwC~~<Pki>#do8xy
znh)A-b#2ME!5`Odeen>Mc$ZRxBP(Xjhi|zyV=AxPrjbt-Ex3$)I#4r>e8R!VCt|F8
z(ue`YWsfOW5~I_6JCB2N{|rlc5$h`!EX|W~qDKTKVNbt6!MrK~W{xt(E;SzNIy!Y^
z)Ti45q47W*xCwDOf@?5gt3~LBeAVv~-mC}MY9(XuFfNQ{qQOwL(6~5^fx~n)yvxlS
zKyWJ(4?&gSw~>uR%_ybt6QlM34r)3B--gen=9MUB#re5OSVd>zP}YIQX5p2>MUQVT
z>yEqjYIw=roOB*YwjNl-ubY&x3W~LjAKMFQcgpIUBHSulP>BA`g%)Nmbin2ZZZ{2U
z0$4PB`9sqc>*X7OkffH_<i|tP-m#1csMDBc=S-n~I>X?7j1zXt-o&&3sS2nRWLiy|
z2<<>9rVA_SQ;6$(fH@Wur*-_dQ4@N=d+&7EUfK?61VbD??$N@S3`8+^n{SR^vsn|6
z7>XMr`gFO3l~fOWEffPF+;1`I!MDaNiMy`bxdCCc0!}TSKyS?E;GYxb=<9hb^9_T;
zX8kH5wUy2ET;6hM<n*5q6T*LCT>TDfUcplnVVE8QONwkiX)=MB^}xs?157M1=J!ZB
z$Wgn)ltf=7S}!q%CB*BAiNtu3j1k&P!Gzrs$-tN;O8=GoevThCTcewP-OvNExtJvk
zE?N)1ikhRduvu1WG5B9vC^7X;Vj31yJ1$-|y*0x*tBpUX#jt(^x&3i4W_cc~WmH#1
z`4J7VKLudV+GyeJqc!f>t+ugLN$K4F_q-KLm0j2^E_!?Ca@kIL(^APMh<#Vry*Bi<
zq02d`k}A5ARW4b_c9yiqnt$}oCtiQzwzvPMS+*Kt(|9+3;KC|=skH5y_noS@sun#P
z=CV@#8%Qy{WoOD&x<VVMu}x{*E;nvZamT;rXSe2o4FKBx^yMBb+6(FxSBvZdv*R|_
z>TZNWWzy4#9X%V=n!W>>h_WW)&!f6)t%0?n4OC7i42Vw;26Tpg^leGJje$=Bg2vic
zOH04FZQT%G<eG2}4dI?5bg9v~>JX8IDKVy+MRu38HHTWl_}l1PVMY`$YC_1+=wg)C
z0cbU4$wDoZAvSVZuCArRk_t;~Vo3c;I=mvne<u9c1K>e|N!?-7EjKjufg5+d6|an4
z83S6-#ul`=8NYWc8<ol-xpHW+av1C}O3)^|+pZPfa4x!slTMB3!cN<a2>xV{nJ!y)
zhmkSSUPY1VqW)I>0a5%6kPN-2h@c9Z@KT!QmDS#b`hi4O%-&!(>{uKi3YiH<l`WCQ
z1YNR`F8dT|={PR^%U+yb(Hapo;THQ)Bew8lM}$~wYgT+{`A88@!>C^rez+FiTs}7W
zM!QdUclsXh@APf#^sRr=*R{jfPG6fleSN)8BBU3NPM`J*|Mi`|4aVn_eq-T^oSvSU
z0Ee0mDRGhqduTqg354}){7finO4>L1qSM`)nhp%a#l!87<68r@J?dwR^(buth|#QJ
zURo*A2j~`d07lA$e}E6D{II^HW4mb_#z~I?ld+g!Xi4i&DG&Xl7L3oZ^8y{0J?065
z?&H?7iIE9LoD9a8UQvt&5nH=*&CfD62z2zpDnF<}eyL?88q-i(6%EA57JCGFLLk4)
zR$2X8?yI@;9SaASDu(9@Qq}F(iebV6MrGcEV!QuU|NNl^*mKx%GjFl#p*i>6qS9CD
zuGA%ceMu<p6!k9z<)V?f?7QxotEaR9pe-K%k}6$@N{<sV^T*hL?*Zvvi}+X}`LiDf
zF-gx!&(V^=7+X(vB2Hzlc%)6p&0;hDA#$^lc(x*PX)s(QUDXv3(5IEe0<Cy7;tILq
zEc|7Yd@=r<LdI;akU5Kc6Cq7&d9fFyWv$DxSk>Hbi;q>uPxK9Y0i<6YR$Kl=0bg@K
zfzpljSQX@xXxX>oNtXkSSM$Jx%Q{aXi<2>)JLEz06CRRDL9H_rg;c~OB(_&ReA3Y+
z3yZL_vVx`vd7<BV?!XVr6;-@}=bzA1=%$^EwD(FVkq=4NHu6;Fn<Nouiy@tBv2IH%
zr5KWt9+LO5$T=5z7ZF3}5*A#uxoKC9<s}TG{<C>6{WVs#W(#NWI?k40rJB!3w>MFe
z@Seq(l%52%|34i~i4u*y1?@FE<l$qGl`heGo!Uq`yGG4g%|78S7>X~cvRTTsTaP2O
z+{%aYfJp*}rf@A}T+iV>xF+qX6lmvQMMu_vu^Q~J_&Q#)l^lH{E8by*cXOBdMtQVO
zU-97DDa-`)OwxXL#e+14?4cQyUc=ea2SAnczXhtY503$po6VYW7nrSNxSD^ay{+b@
zL>ce<>$$u&S<i1tOQ<`a%SdE1hB0la*n@H`;-$43@jq8Q9KT{r3iSa!ke!y-|95y%
z{s5?)|68D{ux@QD+)smV$BO31=XFE#W44lAHeu}H|J|5Zo~WE0UR@%e-88A{bW8(d
zJU>KQo<}s%Ikw2w<l^>^K&w!fhZ~=fBtvd5jVrzztYqT8Ui4vgjN7MUEd5hV9%Gdi
z$)|kh&rE>9JRXWd)fF$2P07<2rn&+nmiUx-VrnMl3rA05=Weo>J8419vxtRJ)D-<{
zJZ(+U*T@YES*F;_7V#)clg)$C&?yGtI7GF=v1!QF5GOkpnTiv`9)TL84#FSZW5?MF
zU6WY*OSGxRo}Pyb3a&pR58{k~OZQJ`J~F*ZGG&=DX`C(Z{S6wgxy-sPq&<`fW^Si1
zVt)`MTP@k}kq*+&A^Q0q{roxo{3d>oe>@B&OOl?_xF<|C*FnD0ACc#$=!c|Eq)qfQ
zgC8}E<*%{IvmrqRv$N7(3MI%*^8zpm3qCqFIYB0wB$34p>CY(2DCLrK3dYot+FzyZ
zM~DF<8S8Tfs9K@*c2JKB**mny1kClq_A1Fft@bZx4FmR!I2F~TzVrkYEMS?fQauFL
zX<437BZl~>T0-0UWf`LbO3giyDRdQ6OHCQ4G;d8>Di_$Tiv;GevbC<vHAU0hD@(~@
zf<2my8C8Mmpl`v7H2{e30Kqp+?yP#*Scqwb=~ipix-}YthgYUG#fqf$Yc&;5>rP8c
zB26)3BJvTp`pqpoAX})hhXE(qG)KDCEU;Bk99R#=j^hVs7Zo-#30W=YS1bAba(;g@
zfADU)eW+yH@RDm6V{EkF($Cn*T!VH@p6uDb<T=0&-pLx8;^~6T&1Cn!B@Z2b;7}RH
z8tZ%H`W~fzM6Mr6!se#CDe3M>I(zV&>V`p6U#hbkRv}Vd@T}K;Dr&Ght@A<1DCKKN
z!lbINSMeQ^eTU$_OZwqt?M_oWRvPxo4SRpwfJ5xsxjmQnr^wRiCb@3Y!nwsdGE8(i
zPj)|)BHMv<u7B;)l4lTy@3p?9Z=>QHfS|{X)|-uszR|^+JtX4Oa;;MK^e15&v5~|k
z8V8leAsoOjHV)q$mK#TL5RU_Pzv97xde4Fz$Mn4qEqM;6Jgr*Y?|3V(_Tc!xYU2&N
zTs3fG=-r3OAe{FwEVnTcg36}(<4VhbjQ<q_m$Sgz<GFn^Yax8&#LdU#?PH6*hnGA@
zQl8rRs%y_cya+M|mkaK+`jZ{oZ#=WudKgyW?)BLk57<BGx79Ty8wM6@2f<uS)oxA>
z9+qnllRLjQ>Fd9h-%sZRMW(&4e|vxC*D^bWlwZkD@+*?Hy~&Mx-))dLK6I=0AiA2D
zLh?z;`hJw2bgfrh1F~x%O)`UIGLl;!N)9}P-*+EQZW)t35CLm|XhXr^2R0mApn;hv
z0%6<sVQy$o6ZT5B4kX(KlAb|e*L$t&-i*8+Nx7P@kG}KJTMykF`N84uQ9HNg{X?GX
z#m2egFF*d`<MZ*k#>Ko&vIE<Ue%B0jq+GgHy_*|;F!a44r0G~AO&hA4Tkvw>i-n4_
zN_JK$&L-K}l=8r)Q`d@Gr99mWc8Hsi7)BusgP=Sz?*v9IjWC~_?@Q*l%e|28D}K*i
zd9_)o>XEB@zFGRMns3xBxpyR;JCg1lcbffg9(?^^%GG$i<(+kJt%Fv5&-Z!&V9Oc+
zHlkANdf(}Mt8;ZjtXm^ZJ52mR+=`X2RQ1bM{og4iTdK*b{>7?M*cJ9QlL@|B2wPaz
z9JUGT6%QHYgqhuB2ZUV?u=@VY=FrVqVUjVVS-Jc-qfn4(C&SRRo?!Hr8O2$~H=?~N
z?N#1S;wPOUn#eHCUl}W7`$b#a(B-hwq{KDmlp}krPM^})sSv%;&!Xu1aqtdSK2|%q
zL>4h0*u~`7v#)$00->3i!dX<p!Om*5C5Ka+xgSFU##NM_q=}s7aJCj<3kj(SpPaMU
zPkZ_G^z$rD^d8=-+(x`64*xd@Tg^i(Wjw@{DOR6I5({x<tWTo#VkZG6IEXHrr|N3g
zl7H)xdmD~0U=OpV?zJtiZkgZr&0XKx_l<o^)!V^K{OhuA$ak7zY9s@AqfD;Y3E{$y
zZlz;~+_59+s=4~uEms?cWjPs?_JG#cYurR)W~ddkULc07iALI-y$n_8Oo*Y%zZ5YR
zqovUWVzX&?Y-`&nbgjka-ik#69(mS>NNK@Ew=}q5uxX$~p3f1*5~VEJg<vIQfis`M
zQJ<k4>b>$Y58#;`4jm=hCau_l76^_q!2Ji~$%N0lGJke>YSn^Juw40Q*34jSEjQg*
z5a6*mHf0Lv22;z-X_?X!?4zyGf5yhlOgRZzq?M20py5iaI%2`WN?QYuG1<sn=G(M$
z21{&a%w{tNcdY@H1)Il;3B@;k*kY3Tgbtpo`L<#OX}yJ()d?J9Mp$h9rQ>TrXTd1C
zA9S;>2eg4phri#1o4Y<V{8pG{!JLx*Ua-#=#0{p7X}J$1{5E>F5UfzfLWW|0;TrX~
z$oHIG%1#s{+>8xf@KS5S4GMsj_%h$V51*e7gJ+EtR%1qkx`^1(mKe<JijtkbWiWjL
z@!brki{k^l)rr--b{+;LDFL&%NM{>+HHs&71L8rRkNLLhN3>T#!b@d?#cG(xFw-PF
zfDP<d&ZY*Qnk}qgVzj2nR&;g9%$2*yY9g-*8v#}rWR=%2&%u0~b|~!-T>@OY%rNe<
zS{Mj+;@%~4K0*oy<`xIFSvA%FLzctS2pMSUQ4W#$PUHw|Ig-}W)_LzW({LB3L97j}
z;MvDxns1tuv|3=+D8*5g8DzL%0K+!<knw3a5@j69*>W8B*d`AeL573a{1@z!6ELB@
z5}8D|$#0ezd}Bs5!!dcpa2k&IQSP)dHbQqi&sN4C<#7@O?Z^0+`NqAJm5FjFs1w^?
zKLlj+Yt<~>H*bY=7Gs;w;neR)6)^MXE=%k}D>E$lknzzcYv6}z3zhY<Rele`46B-g
z7Oi|nY%kZ0XPkym;ggutXUPb_$5+Nd8`RKjY-JwhO2$jI4w%}Qtw~#poV3WHHg2qA
ztjwR_;6sNPrYSyBi({=-cNS@9>(d}OWdT7w$76v}=2>5Sg2ysVO2DF=VYVpY10)tk
zN!I9l%X@PfK3L^p(SIn-VqkKpbxIfIFq>~ncr;4)QCrgT-c`%|m(#@$4V6iUCZ9HI
zz+HkJjCAZP=s|0I<Xl;6TcxsS?PYY-D$RrFXagXOX|SgMLiWdz$XRyqWVMPW!!7aj
zbeh}BWR#F0WZ*y(YkqEH-E#J}&aZQI8LRUXvT=Z-k3X2HAxder6R~K;^qDwqJlQAD
ztuB}MthRE2Ig-ZM`b4SVAS#I23G`vM2_hBE_-jcU%NJJXgu~SjOHEoY+oLDaawC$y
z;`s=<HK*m2Sdk4rf!z;=Oh4eAZNofl(Mprgtj?F?D%Q*}gT&^u_E|rAN$<1t6qC=U
ze`)SSJJIji!n7Xp^WI1_CkolB$T~NR*-=|7uTlE*7NxV5GFu7fTS0*Pm$MRW8Wb-*
z&DNQpvdE<wqe`zYnQ)o>^y)aXFwLT^b7otSqoo-WOKQev?zz=@TE)N5%$>$PSfhN4
zQN;U~&Gw&J4TF@9!7r^2PqZ4nX`B4~>hQ_S7Jgq??MFK(gZuKO)#28CjvZWU8og_R
zQJJbl^(nB?#xv~ro2@x-^XFgsd>%g?8I;1XjS(I6#b+Sr|G42#;ma@ngV|s@>e9{V
z;$F=V$vT@#Ka^rdzvnSRXJegd;(^dt$K8OjpfGJFc+x1$Fw&ceGbK|`=J;DVni&p_
zj}@GWPD5cITJHZH&7qdS#=+G2pg4h?S+O|l#I={qQ<#Q@4}nfUHQNb#23m5paQO{|
zDuZ(+*DMHoF5E_e#(%V{j?jgPm^6>l{SRqJgoBtN8Fx|oAzZkE52s}laouJFGpnGn
zDhn`LnAD?GM6P`lITH{{?@|W3T?@J`H@I9^A}0NaBK#hT)Xq8cn6&_~`KB-8{z^KO
z4aUNeFl@TREF09H=s1hXs_W;WHB=m(#%iiUbPB7MK-b8OtVg6%SuzRmG?~DKB?9eg
z${0I%#a*NmQSI=y68Yf{M`qg@>}VV<<G6Af7bu>_ZNFOO(><mAl&#|w>_1Co1PVL2
z)tIZqtJIF*wC<5UPGJ6=syak2qLb22auIoFovvAO{|@<)9Tkbmj{YHqYDc-zsVH4S
zshQ3=Ofkmj=P3QSsQ5nmA*B>{_N+Rf@D<be$oI&zoPy~<TKYbI)GBb@(Ir-RuNE#J
z9nuj>_1^#r4#{Uk?Y_qUL6H3y^7GK;;Sjrrd@n8~l|nIpN7`xg+mv=QmCeqb8Mm5j
zRM1H(jU*;1su|ID8Co`U^Cvgcp`Rdg6wuF+(|a~gH&X&L5Zu1W1vS@T7pr+xoPPat
zE<64u+bSwE9YKyf08d6=$WDnzcN?i$FH2jg0z2quh<>)?M=e-J5i|of`d~CDf@+so
zN5cMzAx=z{D_wCRD=thW12aaCs%~g2rgx5Xl#29FE@=nDF=>f<fEi3#eo(FT8MBGg
zi<Ger#3L&9;U4WY*}cLl)1|tVLdMIEl4F<YY~VMX>>Rlfm+C1kN92|xNoQlqjoTM*
zxx13iuB5vQM+Gac32>KRZTL(A$GdZhWjeofSDWJ8EIT*fa4tEA=}N!KS0=7Z%sbvJ
ze7*46#RX^5H;~+Vc(LrrTs~6bDA>1E_H9jWJF@6|Sa#OV6<j`t6T6C<S3Y?K1`+5Y
z&7^-M*)ftVADwgEapt|8{bDvVh@t5pGY#^`W!Eqc<x-xSpXJ~H3u<@Tbzv+X-I0`R
z+q~r3LTVV5SGUr2R0FbqK=JRD{d*PvA=!WE-H_}*B3B=gT}L2som+-8IbVx*@V!ug
z%M)?#4Mo6Q{R}a!{65*$ryY?l;+i{GLCVE$>Vw{wruv?2+L3I=DfZCMa<c%LiybA>
zZF(uwT*8oCJ)~6cm8<tIR_~uXc*lji^XLo~^`Uc0Pjd<i_}&)T+oE{=vKI$-qseun
zN$(!yiPKgu%Tp5o=(?5Pm8z_oJAf+==PQ1N)Lm+N7s_$_=H*;8tG9Z-nO|!;A~%l6
zB~S~mn@6VWE+0sF>2?M$uEhJoj%B`g>9)@<nY12<<l3Q|Idbj3%Xz69pHkB)lW~v{
zxn|_%qjJq5t&rOJJnbUGg(BIv{#MEQWx1h@>gM?goSa_Hxl`+#FTd8IbPUQJWPPGz
z`(iE5`%_I_IJs}aF|qG%2^nB0fdK|IL96U-RlFUtw<A^2I3Gy%?~+?~-OJ1<E&GSE
z>MP-^2j(v>;7+`4OJ&>d;-G5+=bKmZ?hTPn&n|nKX1a!@1G01A#=4t{CFk)J>8NW;
z=~~zp*|{Y-a122Jw-p!9D$W|&S)(bk<IX^gkPWzOY`O3JzH3jvelY3mLmE<pPfOvv
z*7v$=z7SFqigSbP+_3QE&3<{~o+amAR<stgU3Rw9rL6pZSnXtYVaLM%%iFuaw{e|!
zq5#1MNPq-LfFuZl1o#H{ev=}p2Pu&fC6Rhtw&O&h1nNOclro_FU_nz(y9wobYpQ8$
zs!3~lf9Zz4aj%&)-KyPmD>rHDCcVuJL1!Q=?=IbH@9o~bzk4amtrBk^_y3(Ug8{*z
ztz>_DN7UfV%z4e3^Z3s9_<v8{HGb<E(LDf-eu5VmmP!Ey0>`TO0G*PjQ|vkz@f-r|
z%eu94DOL6lO8B!5erQT@A2+UJBtI#3AC(%8O17gUMK8qoKvL!zS1#_Ciu=F+S$XiZ
zgumj`WJ=I@AnI#lxi?FmX2_CZ@ER>`iWUc=4gDY4%uQL6xo$37EUbfBD>-^h7>Z9V
zUlgso#epXz>k~ARvR})-sUQL@6fO8gGsg%>xa(Rd!d=-+Z@-kgYOX_z@W(2EKrejD
z9+G+w$-O65dQU|1PfEQfmdECUuV1-!1@8L_s^x-~NI{F(dtxq2%s;v2a=&4|ZC-SL
zr}YoIztz3!>YF1Zkg}?8WWSlMbj+e<zv%0|b4Bu@-AdNVE5A|uX06yT5GmhFS|URb
zW-@J!{z&xzNzyCUtrhHbxI0SOTqBulME@Xph8&bI9?e6_JjnY`vt({whC9Q<Qp@30
z^9VXbWfgT7u7Oa3iEd#`GW*t5lpt!sg{KzKb~Q>di80~J1l<R7@p^N++&myP56I1f
zQuE;5vG>g4iIab66`N1V&Cf{9&xmKwiOtVMnuE!O#j{}jjb~mBXC|v=Ka=#<0xLvz
zHA=3=r5QL=Y5A5_bnTqWj)ONut)8g0I%+L~b+a;$kwZqjfa=Vb{1gA1W1@er7}!ha
zs=bmGKpzJsD_1Y7l<bwV-7new|4Xh|zh7+FPiM@*_5+Ic$RXq3GxZT`ToZ-Q-K4*C
z-(4b7-#;Xk9*VdLHpYE)&UVjMO71ipmX0kQhdK)YZc5tcMx)*eh^OJ5RkZrn$|}B5
z_-5gf>$`b>;`&3^YT3YwwG>miul$V{ZojZ({%*>jnE%kc>IG1a2a|qH;2Rg-ys&if
zPRjSo|HA*Sf3^A$0CMnY^UCGiT~h8YId>myXnveK^dQ5On*%@)Xi}`xfUT9>wX(ZM
za`)Wnl-vWD+v=fS6sg~XNo=uDg0mYl^C!w-b@o7-ez#C^4JRxEJEh{CcP>c9LmvVP
zX20>HG()~?!M5u3Lp8_kfv=og|5C<^y_sCr>^EZQkt@srsbV0C5*h$YQkjDnMpuIZ
zRmmQyWDi=RtYsOl9Xdp7>G}@%CYG&)*P(z-4P#!gcCxiB;qHN@Vcg{oqwfr?0-A+B
zF^@otExa?L2&QtjVky3F&wD-nR=QXih}dfr$b@#u(Jng<NsdE!ncTz14HM}FrLZ8W
zGjR_*as3;yyi@Ex2qhUrf*w*at)kW<oHsJl$jKU(&Yynxe2Ssqlrcn-ph%YQTxY5<
zMwA_qS;Bduweq1s3k#~?*aczi+C@;y*9d4a<~lb9mCN8bchC+3==`M@&cNs_bS};+
zLY5$cxGKVLSV$EC!pSWBw}jJP?uLB|NaEx}gZ*HL`KUnhp{J6-gyb2?F^NG$WH%k~
z9H8s4BxrheAKr9UV>BV2m8VHO>scy66b83u`uXCnJuy8G<E|c~&$%_GD!fJt9hT5`
zwP6fdz4)}xN;)+6Yeoa?x~<{VmjjyhOoE%XI4FwRmJniOD?$vk6vWMO%N~`n0x?An
z#1vNe8!$}xk_yJ<METZx)S5vP@e3g|Bhj>PYn<)gJD!egkaW}#KD9g&MC*O^ZR&{{
z5*oi=ikz*r=KTaVP`dsl^qj&eDPZTrn2$~f5kIN-w&JPYSKq$&gpsY6V*A?XW84;m
zGX(mgw24YOW(p@e@I<dg>XV}4lE2?X)7B?y51MG%{uu<L=>ixAdfqxFTDPX-r6InK
zVuPOGp5n8S^qBF{Z-G0nYe^G#?#Eb-dim*$OtlT55Vb>n8`Qo>4Qsy>#7Ry%v{5>5
z`Yfh()`MI#MaV%<O~CwuF$A{ZB?Ig(_9SJ6OUx1~1KmBfSADJ@cM3BpKUBuC5S)s$
zU-d*SG~&;vObw~&^gM8&-iOua+OG!uG*kR3Wf;#J6G|A>@=!ycT7qYiZ0f4j_}Z_Y
zV4Yj2kT-;h6Ix6)q|LezkeBF*-nW^n(8C}ue(V%sBkPlK0lr#3d7e;v2>RDk>iuBJ
zB||VHobwf9&>XhmoEf&`4Esu)E#W+ztziew*<lmTIbkEtwr~p0_HZH2x#41*^THmS
z9pNmTonZ^k`N0C53&U=lU12BAMdAFf7=OjMo#0s*3K!him(bS?dLBlm;$ri7U-RP|
zJ)^#l_NymG=kNgN#b>p6YUnwGkQOeTDVR*5^QI9PRO4vB{A;T%%KRM-D`Sp4Dr5>!
z^5b#BUK;8UzNE~Qg?$qjv^><1I__u6u^v}ojysgl3guH5<MC2>Na)p8Uc9^B?6U0&
zfcO(?e%kML>#N)Fwp(py)GYPoe>HVQO$G65Y5ZAbLVLwM06>g}ve-OSg|Dvr?%}Gp
zi`7<ys4_#y3ztto_?CR2ER~|Go^&9Nj#wMsBTC=)#OqY8|D91QSW(Z^OvQ!Dn#ZH5
zDYe||s(_|CYz<e@7Yx_Xq)RCHuU^LgpC)`GtLB4BEnN}sJl^}{rx@@?*VMAL-(U&7
zQ_%CZlyJq@Y3x*^6?OV9-U(DNM4ePyUeC-__~3f=FwUk|5yt%jg04_RMcEJ)l};ba
zQrV$Nq9PbgO~yf*Hw%YI5CD^*O))fS&nOf3Ffk8sr$&WGco%Mr#)Jh9;Ij!Y64<XW
z1z!0%l4fuYKKYi7Syk<AcAtq)7{8ohaVv~z&S8#alSVYpjS#qjTTa4~FVIdTmd9be
znTSR;C$c6=E@Jtc8T?G31fU(pN8bDh@D>2NAG>@~=)mX`4pB7=g6FPL?ZGlntT1fr
z2zf15%$U^U=dNOtl*p^5mx8m(OoeTJDHuqJ<tojo?W33gW=jhTe~pF=^m3@UpHibf
zLq+-G9BNn*gf5N|y4@K<{h<3yFk?Y9fz~4~UU`E;*>sQOY{El2(K~Sg4l~3f>pbBl
zI?*R%LLL5zNFEj|rI%AgL@G*sqD<<)QI3C1CuYm%qDK3W@}Z^?M(Fa36#7*<eT7b)
zbdPEBGvmFdDec$kq?rKxXS!t8e@qgWON#l5BSu9ILe4s4Y4pZtgku!@U+C08`O`3m
zSc7`><*^qb_#;QCp_nD%LhvJE%t_g*vd=STuV1<x92W$l8@Mpx6lGM*?w`@$8>g{{
zu~de*|3gGq@y(g&hY5kGKPT<91yU~%TIuvGoye?1xQ-K`-V?{6V5A4^qg<g7lYG&*
z5hm%94Hxz;v9&h{Q2I3pUqC2kja!&pfLDba?Mk?M{Tl1mG5gue&z?yfF9K^&xJ*!P
z3%@`)nOS`(mn<Hl9Absra0Fr*N*l&p40USroB`mL3nAv~dP`?Na~ZxiVyV~9q9EI*
zCOC5`mX+|`{CG!o2K%&MF48ID-<7HYqhR1<#y|M9KUuiLzx39azYML*5FzZrT(A_3
zP%_9Xfmt4G%!))yRkW;0E^C*{+Lw<-%DTWSV#b0T4Y7O0)*bcN%l;9`KN5A8gUuAk
zgK-_$G{gfcl`N&qsBEnRCVI}-vu|a~b}}Sf3@pOUb3NnmRKVIzdC0CgC$L|#_dm=`
z>&zjxRE1=%kgYY6wPq=E$t7A_!PX-#5x?IgS(}#4tJWRsjm@wtgz1{4a;>5DJ8jD|
zk+#9r2B4nrml}qaj9)wXTTh4$LvtgdXFs@9WFpllxf^vD=?ty6Rf^jhzI4ZRxBm}4
zVkua^#mOAemzG_3`oHB7UAs`aqfpN=bz$-AGq+~Az-p;z382bt0P-%cR;4Y+r1E3H
z4V!xs;);qau$RFO?A!xELMuLl=xL3TKizn1G8ektQdzfL)+d$q-FfQHMX_u@eHjAN
z?vtwe<f=VV)t<XWcl}}&Sd``Kb+Eqle_-(;UwZ9&$z6Z*5IB=>G~90B+{vXKO9w=E
zhwR<~yT*vSS9b4_+<PJrD;)a3;$DZzo}I%YcT4u}J4JVZ4ZRo4X!;Dq+ui(mI1?}7
zzIiDVpG~%QN!G4A##Ji}{J=Nl5t=1y^QyHK(!d7JZ}dr4pKPVuk4z~I07~=E9bRa}
z7b9!a9g-LJhW-`UdV;lC%CVrMcGts<R3A8;9&W{ij|x6(=W6%SRogLeZee!U`(|%6
zzhvPH^CN3+?;CZu>%d%nqxW_%Sk{&3vp!<`R=x2Hw|^m;-y}L)wnXyf-Lj(JLE5Fr
zwYnuw_Z<&V^<h^^0Oh-+id}bJh*TUvW>K$S_I60#4qjog=akrcO7uQ4Z^akLb<6f@
ziA+if)RBaBbwi?kzic0o>?7};1)TN$ik=S*j>?>SzNQTmem|(}+DOAM(7ekUH!>(>
zHn__-GAWd0D6QSFP{?Ws>@jX+Q!s}f+bCo=RP5ZyrBI&1+qL1Kkke4&-^iyB_{8lS
zg%om8HboS28*2JCiYeqVRCaEZP^c6_*9|X)e1`JYjWP<A)6)tHRT})eHmVRJ7IQ7L
z@2p<2Rf~0p#JUq}j*^Ao8<%fietTrq(F1(`*Tc8Ma$&nvh$%%X?7Fi{?mZ>pukci~
z_Xw=X*1Hag&i4EM76MuwkXi@s_DQWrW&bhA2<FWTwP*!bGx}bB!_qSVKEKnw;@r0m
zP}L0Zz%la_SH(N=e8zfR13=90Im*92y<D@}`^0L^>9wY|XnnI>zfY>)C)Xd4>JPkE
z^qya=KM`&3mfMd??MLPIlT!Q1sHbXy24si(qqMZ<0?}Cy5wWujNa}0Nd!w!@v8EUE
zT?-yGpoewsF-Bc2|6oe#f-PL@LaJCwrnwajaycYM{qOA)%ljkc#}+c~6*os4JLJY=
zQsc3xuN^rwmEJyrUeVO~&Xu>WL;)+?F$_UmQ{O{_si|~<9@XuTYxk|z?prvxR#CH*
z9jWO2ZY4UK=-CAUa&*_o!pKsk<Y`*YTJiJ(q_A$#_@Ef|_^90Asb0MDos+A@gdZ*z
z_uMP2kJh%xwIfpP2t>aqyv}{wMkRDF)x6X2R>OuNway)F9E`RMK1f3lui))^kb%&G
z4NY6qB3JjVR`)GrMcel-WG_yvxLQ6m8ESTZ2tO);<Hn8WjTo>SpEDWk5Xg|hE6iSh
z`r(CCL&*WooBv)-?&<W@m`fqMXsuLeMMmU?Hi745Vm)LAfd2+m0pq%xh^FEPc79mH
zlMg+v`Ztv{GpQPYx2Av!E^wN{1y04D14v!q`lf^Hn?94KAOEv2As!inkW?V)2s1B`
ze5W{LPT<Cy^>~U?aXzKG&k_LnH<LNpgxqtJvc@F=1o9GqL#4x`#9hbMRO)_Q<;BA*
zaXQaM4?7IzHcESe*Jlc622)6~Fzv)Uo7hhA26kU20SGuJ;LSI_153jWEOq(^St{KU
z-+>)ro?^x>e`Xu9Dx~eUDD8H!2;;YPUytwepa0BeiVs?3pZ$zRzTxtP&wl>%n(7{9
zI!a*K@B#Kb@VS8nahW^pf=Z5BoQ4b@e}N&k^&1UXxQ3QS;Imx?QP|wZmy!BJ<zx4v
zY$PCD(v>L*UnENQOGp~X;wn|t)WWY5EovtPp~Q4topAHJhB(d4$m%asUa!*WU*i-a
zX%)RHKR9(*_GuLgO*bb~iJ$Tcp?x3}Ll00G1IG4%PIRr6mXYE}r&Qi4mk&Wc9x2@q
zI_bU(b3n_gs}<8sN7g-8>wL>A1EQ;yMA&5;2HeAvUs5iXcl_AX3GXqb<#H)`NLUK5
zmiEnO(XuhYu^wm{cN~j0!q-I|W~8Pzx$%V5cp~bmkGh(dJ(6n|G(Kckv*c=KfiB6_
z6>;qV{n&)rxelv#ZeYm+pAE8or)1wL?mD$<e*$t*v9kBhm{hr2vg6P9pvd6eiOQ99
zVYRF86Kyr3dGM|ir=NaUgW85bCmY_$+-psZ<!`3qm3_fEil81A1lZhl8D9tZh$%ov
zR-YyOGE_Nkhz#nVkkB*~X3aDfXvOioVJM~VaZqPAg7SYlIQsFlTEX!-0kxxpjG?!w
zA!2Ov1o>i)q&H;;Z1LlBk~*J(EALA*h(??(a~@2<a%is6lQafXt{Z1EHkA>VJpNo|
zU>-|8SQ&|PwP`9YQ&P)N_+P2IScGYqmvvns;GI0lrJ*$qdPbWtFC<fLpKko}t#@G<
zOzR^K%;%YykJB(88wt#HtP>q?FIRhI7)xLxU6{J40=Hs>W7#EeCy2Tku9PzEXp>+9
zuGHv}lY{=}uU-vZe>TwLJ9&{1oD$P3d2`il)dM8v>hsqpp+b6fGCrRI$Ob@9*rjr0
zDkU9eJ$R9Xvi7C(m%xAmd=&v*ZK)9Svw`mp*x7h?oPCzy(ttD4FuwyX2aYJmr=A}N
zJ}p#5nWwKt-|36E+>&uTKU5hyoa9_C=<_Gc#XE<_E{Dbg^(Z{yt&lINqKACVzHx%V
zy>vdFky;|JiP~Dcc8$J%XnIq#(5q6O+cf8;1g8=LS`xUn%%A0$59qv8m!STxeoaO;
z`9hbb;Yb2bBCd?RNQhqNuM5Z<P`PU2c=dwU38+hh%4hB(d_kzlU%CvSuNSUe9wU%$
zWCD%#gnrNu_J#(!OREf#aLJnJJ-*Snj|ugIs7N8?byWQx8e*`T6Yo`<iNVC&l<#`z
z34BB3=;P#KLIscWFS5CgKoaZm9gcVZ&0QB5X3A%Yw~n&rXA0Ap^<r6ZhHOa4$4bo|
z*kMV&I6emVm~Oh2M|~x9`4TDc1LArz2#<sgy2lx+adwMvo0fVDPJuk3o5GASc@X7r
zND#*FVl2bYV@wO5!3o|9H)Sl4<*MMK#3T@l<tOx0jRnN2D*QHOOf^g>IGO0+Y|5`v
zOnP5#9PkE(7IBJM60+B$FND_-Yr5%Yq#(`{0YThT5D=|~l8)sWx$B68KM!z?ilP?J
zqH)Diw(f9#1csoq5PF0WNBx|6&Et()OBSY7ys7<?cmI2t@3}<paoPKX<b5LIeG-I5
z3AiUkq$O0kSR$A0knm^Sac4yCJ1ODMdXk6_H@0h~{-x~It^<*h;SUX_(yTRW!Tii>
zbyvjN{h`5_4Gu#I=PWGm6Ybrk7g-Eq#T!^ES?xX+DLsxv-sD8PS)x|JOWmmiFcl^8
zAQ54zyj`+t>k`dfqOB`hP$w5aEwP_;CJXB{MarUTxu{JlYKs=QU!S}+8TGc1o+UuZ
z58pb>^uQXW;>Hb!p>V+X(2!M_HD|%*y{cKX0b8YW`4~<NU}Y0RJdp&92>C9)6x%?h
z{Euv)m{_n&5rL5hAYDQv%rH2JpwQbODR}exn>Qk2la8>7gjGO8G3su3cv%@!aVHQc
zRZn3lZ6Z!KXa%T?JGo;BXOPNH*v!<Zyqa?eC{f@kgBnH~(gFOGd>&#7AQ|DzO;58X
zVaEx8XQ+r_NzV*tQNCo=u8<IT!pay7r$99<1*s`dYd9TBM!-5?S2_A^7c>M7|0)IO
z3OTApC%%9V*{7!xqolQjt#JqJR5rmer-Y%*Ms*4qUwxp|iq#s3Ak_Hm&~<vDU%DR2
z164U)qDOh-aMs%?s;dl;f~XO%8AN_P@EHYcM=ptjU!WZ{HIa#kf~+q51LhLKZ-m>I
z7a)ZjpA`NEci{Pg31&#jBWPAQC+U(+wcn%=UOLf{FO%^wnNkBD#JnUyA;(IJ?T=>9
zqKIjjV2H|xYou>eRx6Y&J8l<s=Gv4XI8b2@-}KK^B=f4u3TJjZHpPSqD1WT-%rpt>
zJ7ea@Z)OG|1LH`C85AVbmP`O#s`n^}dm$PIw4x>)Y%3`2LnXE%Lg`s?{Uy!M{}wfc
zg9KO6T=rT?HTlr!l4`o-n%z>(Zm5sK?a<(SXEd+i^@dvwi|JBc4P0nA3S>vM<fs-M
zK!$6@d0k_0lP|vaI>6;7kCWsI>3~#m;JpHPcO)%b-%!-<knP0zUpyyQcS+S<n99q*
zO)LR#%3dJ?P0zMN>>F9JjjWYdEslwS9&zVU7-fK^HgAJ2_EMSH(0})c)NmqFeG&qN
z_43YnTeKQ}Kr7ZAHSnN^*mXx&94PLn=s3D=Be{gFeBBcO^VVIn1gN$hWDU_om*kVr
z4daOQ{(W-)NvZ#2%$Yy`;v$wJzv%P>|82mSN4Rx~I?GGL%NNA@oninR%w5={=9Vsc
zC42LH_PPyDBqO$JwJ2cxN$#EV8TZK*;U3AphlvyFC0D)dYLZ;=D(a60>g7Pc6zInS
zuzXeW4Mr<E|K5@gd_g<%6(NkVxBqJPgQtv!(taaH)w)1~qEPWkkW7^6^VDu&VIZGC
zK_i=T2%-ZYJ^8?X4O#O;kGF<lt2}3V5vkY@(t^VdUA#8zgK4^i{*aOmQ+qlbQqV+{
zPEcOVpqsdBdbKhBOtmq8YHd=L+GtKUu$NM5lR2gAub}6tw=l(h_2_yp(g*o6y`36=
zZ}X?*AJ<p?IrC5bl>FoRQ$J_^>7SB+oR9c(=KpE!pFxu-9Y1IO)W>v41wBH61D#<(
z&jLS`jTc6gWNCx|o*4B!A*g&75D}^9SsCGUX#6P}-q@?Bk8<4-Bl9Y9Qdq?601}W)
z`~)_p9m<$aRJ@4gs{?(E9G<Ca3jo}O3>qs|lE#Pg?A6KZp`^P^F+O1BCcbPLW8j3$
z_V??kgfK`|_+1JyZG|DUHP@ZEj(f56sjDQ^26L1xdsJ279Xeg4)3@pL1f@7mq3_V?
zTXgz8Ix+i2Vj68(q>kb7bYRPVVmrImpVCT2wy@Yql*1Y8vQa8&fxr}NMxa6V@0I*}
zqt?>5kH7QeTae=z0{cKXrvzZ0L?Z5m=RljoElSaCSQ1o-)!mY{TkJWEb;q4GM<At{
zg>cnu_8|<xBmDSD-fr0Wkr1R#uI`trVN>XNyY-#!x4Myc4H4x)CIxsXIG+noAa9tK
zWWJdhwU&vMo$$aab|0WM4cil1(=tmJ3&=*uT!Oubw~{kH#ioHs>0Y^XNGfF>!Vld%
zv=~I@-u;xh7fFi|yR4d9DTysZ5#N5<cTn;jgf#UvHFnt{ip>f_Y`0e~3P?qPrN#((
z`tFm8`Vu3%cOovm@XwsFY5*xV?~8Z`W$yvWdmu4q-!N6fhe~_Ee}$;E@iv6ABzRu>
zoaF8U3aJ~Wio5TYNws?=_r5vXeOp=7Q^&j~w!=^-QqoELpYksHE9-!H8EnhQ+QY11
zkZ#)Oq@p{qjm~$_9k%mEqij8ldU7KL+y@S^6jGRB@?(ZT#>qzz1gbt)RpZz)J?Z3x
zxJLd2qo&LNi4m|8GiOhF;F9VrqRx0Mcbzp!Z;PbyTlHo;0>}aw9Qm=(*&y*6F@QXR
zc+%mW>dko?MCFVL+NUXSWVKy8!tR6sJTVh01U^%)!@Tqvnmzsq?IVyCzc5QDrhN4=
z-Al5$AE3zp2@hhq*T#aIm6=peqBIl5vWREJr$-L9piGrWMOY0)Tre&_o0&M_9LBw^
zJPxoj87wz=LByC!R#Q8G?;H9%R0uN@hdb_(Y(1h4>LWuq!*95pACU4vwo3W+b6HW~
z1^2)55@v(BmzV`!n`CZVKD7L_Xx<~6ha~gR-IrF)PhjpL!%_C|;4(}Tm4{KQd!ZE;
z!CWCGVy%Ly6s+*f2|6-(-1?m>a_0f5^T3MrKom@gpj=8G?eFACrF|>*K13&T>t>0t
zxCbQPz}=pRZxpE8>%LlY`VQR--ys-8Vn!9SOCc8LQyCoDV>Yea%6h=u%tz#}@DZsG
z9*5o$O1)sXU?5#ijdIj5eQBLld;g3nAqM5oj;Z(tSOfRrK3q1XP1W}@spbud?WDrk
zNCO?JOT8&rz*xf(8`^VV8)WE>sj!(*2cRVN#uTUslfK+lZ`+<Q;!|}~fg;g^TRorP
zwd&Q=(C@uQQrj@R+hD92$9@?fWq_djIX{_s*Yj~djokf1d=CNN52X1iaDNP;1cvKY
zj<A|YIKvSfxV#{K*T?UIB|Zsm^CSk1Pkk0ti^)nL3RsZCN+%Sn%jfOqm@vc?_s4w!
z))TiG^577`Lj>TjVq6&C%pPv=#Uq1F41$I-U>x>MEy5f=DE=!HXLy_H$+EdP7P>gj
ziqf*8y3qZ4pUOG_C*l0n0I#ja;}2wWeaRo9M+?0;#nKqYjWA0y8|i6txDN&-vWR=J
zEO?WK!XLbR3fu|Bf2X?^l&6-Y(q_bx;JN=3MafpG#H-5PF664H&~YyV%+)Q+PQ4Y&
zLPFKG=L&KPS&(tU*Ww~)FZbi9x$Hc{Kw#AGEKD~hlXo132bn8wLN~`Br<wFGP!eX+
zQs^ql6^Eq?Ske3L*=pdnabB43oEzEf*7Ls0^R-i7Z(H?uixu5c34r)}B4p(q4fJzR
zhaU&vO`vLSNOV?V^ZiEl?d-+#lB;2E_;0<<^Ok5ywc@|I7jOoE8*nR7?%)sD;eVI3
z;1=EA@V@C?wYM;qFXLNWSellb2BoG!v1;gj`~C-+244#_l4=hc$(3i(0+2F5?$vCa
zD5)74=`zYU<lAg~)ro*@vuR09fdeAlDHD@dd~!tI$`RjoV!Fk)IKH)IOTP{&fn4Ik
zTs04nFR6N_6}YRjk=o?^_6L|;@qSRM0b(_3kcs?t2oB*(;dCgRfLkiO475{j)Ed^d
zS;5p_0tuzQ3#Q>`k!RLap<2U)_sY6JLfQYxZx;V5^lldX19A^qLkGDpXohK;l^H!`
zW6B0<X7Zsq;)8SJE2)Obyid%_%<{@iFmT285}QlVD|CQFOw%nTzAZ;7e+5T#ULK!V
zGB7h%Qln*Im_&Vz^|zcE+l*a9hX&%WZK7OFr~SU2uBJ!JS8Dgw5XWkps#dS{(5T6H
zOU;Fmxpiu6?RUG}wREq3o^g#cM}?ozq?h&_rpv2rs|`gp?Vz_Mg{g-=oVMFGU_*fZ
zh-EWnRQNtpz~;fMx}yyk8C4phOu0Akn7Qxr*p;)vv0c;c$y1%;j-Dn*WyWpnV`9S4
zE(Cb0Wt#B748w%C==?^>n<dLND`h*_wDFcPmInbX0JN~@CrXyBOSo$WNEX9Gnl2f_
zx*EC&Iqvwm>r;>eLzsT$ijUSHUsZ@(T@(m^inkC*4MS+A(<l0TCUjox_hE_vuSBs_
z;)cUJ!IiV9g0@g{zem49nf*DU3$Ib=hg3>{r3RUO0jbl1<7cm5h`Ax8J`17g7yzb#
z(gvqXpa>@MT33ZYuEs|fXuT5t1LZ<BjM>yxijxr`;m`4i<3e$dOeu7oM-H;iFsITA
z6%vX$+2>DKlbEk2GCzRZY{F#I7A;P0z@bsXZM8gF^<rkMuWS(){tPb}A|<_qMUV&i
zQs{vHYW5WpzV~$br}v33Q4jbdly$?fUQr`g?3XI`gVzA=K_&PLzPZf#o#fdXY>T{)
z^0xY+c6;V*YwbrK&kc14w5yxv4$NO#^g_9{yb?;}a2b@FFWXyJ?5)83S<F~*0$zt;
ze@5=tx88H^xU&OFt_^wMgo9_$*0ttpi-PL{9rcPDrej@G_l?;%XQQoMa_flHIuZ|j
zWJxb_KQx)!3M6OKeE<9xM0XR=iR$`|OI3319;tTE14Bw(LDby@4tpK+wra2?$*+-}
z@YfBWL;deN2Od<Q;Ei@eb>HGCxvE#9ztKBaaT4w2_pR_-QVvb*zfa>{X0ko9wOq26
zixnN@Rr{(j9U5m4f7UlG&D^>A<2r0^U{c_nJ3W7Kv0$yXpWr%*%H*P2si^j&G*cZj
zJs_l|h363y9Gz^(Ylm+h7K^&?)R504(qONXtaVG!BHks{@4B1uzV*O^Y(xDK&Xk9z
ztBaS;!)q_s#8KIFo4E1#)O_*(n^ew?pTLdeW7EC|@%W*)$S3W1^u=>JOX3V1VE~*G
zOF*#!`lsnZ=v-lv)gb`%mVYJ|{vPdz*ut*s(N@_L5qgErvadX~ge`hJhHwg#P+0La
zu9u~@g28~L>I0Mwkb1pk7YGbFdZJ5m8=$9~1uwNW*cNi3?K7BqQUGlGd$`AZx`wTc
z7XqPV!m?=vFhAN9h##0x=$Oe(SSppLJjbv-9w!f=`FYPGg(4Qto+#(36VLGYs=JU*
z)Fj5@Vfaps`<$I|hMhMo2ce%Ec6=2exxZ!lrjp=`M!Ywcv*ZK5fAe2XgTGAF3Ot#7
z$Yhwifv}ayV+z9gH&TLWlSafy1BiMqeG&ZT(QmOq^AZ_$@*KkX8ZiKzgUksMs3slZ
zLX~_1De|}2pBg3_lcL~Kn8kfsr;-l%i?!&XBycWYFpc%#_M}9()WbJGPTgB$f?uy&
z0`BT?!T=nvj7>)9X3h{+fo}Q<+TkS~VVBkxfTFjYDODqYoZPL3wckxz+Ubh8JRRcl
zKWFV2=ZR=3Ci=Co8cML@PlK&;Jz9FN`b_&x;%c^PPt?#S=M6Fru-}aHU>@aa)zgK8
z3R{6|b6vR<;w~;@#>SJv4=^m?j-6x<SfEMajnP}2#vw(k5XZ$NQF@@915y4Eb>ViF
zKcLVFJmN5-ngRf|FvsF#GWbQh{9_aqOXoh?W9eKek(+ul&8+X@F{5F)yT>2W<-ex<
zzeI_NG-80LygH0ZDH32Qdj-z=#<#$u{x(Ht>`YP_;4~8h8YSWUCYO#eDu;|LW0^!N
z615d#uN2EBmIk*sCV0$ZuFifY^y1`JI95W7Wcz)d0U^W+tPNsRJZpn@sh}vGK8q7K
z7*@$Ft{Vq617_Wf(uBXIbc_nhQ6q8Mh|zk9bpw$U%ZXQ=5vtH<9|r`kaP``FoJSD?
z`G%Xp@yk<VkL3^%XslzT*vLpKY8KWTwkkI0#flMKCE_)~O2|rtvjqF#Yx!?@ZhHVA
z7;*aNGNFPc7gRIoxLT>8cFq!Q>z=cS&L$D2Vdmy_Qj3UI*8!MrU5nZHK68xK+&VY1
zo~+@pnavO_uj5_^#evgO`Dv&`te4ivrEROFZD2RRe5traDsGuKM?IBq9Jzf2DhX8$
z-#GK;84x)Tr8wdEuTAVEvCoR*;0Mm4sKX<ATO>z|*l}RRaRB0~{F3_~FJdiUl6<@G
z=0-ew=QG#bB~fS162Kf;VkZC{s~@JBiu2|(Kxeti7Q0poYekr&71pjNa6HHxW1Cdg
zCYN<dWnFhN?m8o7L-RS&!YZ+_MYNw5I}X2h`n_TC)DvRc=?Jb1Th@Jk+1DcZT3|&t
ze?WBXih5zUxm+W9d*%<U`v|-dD4%^tB;S$w>~&A2=&8T8Z`lt)SFQ(^Ov93=<4*Q_
z8B+HV(S8(US9v!qOBZ)6ofe%P(UK~VX61SFB%#ZN^&jKCeC~aF`vz1Bz3m&&?;-Dk
zEi1N`<=`J&{r1&pp-(PsmI|B2!amX7hjX+M{vYesp;>qE)<N0XEjhc{7wMDA@vJxM
zZ;}1|lD|J%-yzozOZCGWnTGrw4-IMg1rJb1xN3y^!{uR8#(*JT0N`!hU8LB&ch$Zx
z+R`(hxoU4*x8`%`!-dbTf-<!hi6w*v`pU>ge+oH8!<a8DR(n~iRM0B6jYJAY=PVys
z0Hg=fQbQ(Xm)t0_Ub5B$8*kNmVBO|gs1t2qzE^GKDaFakJd9Yjuf=cjp-t-vJf)ON
z*y$#)+2iCUmWEH{Dgo-_|9`F$_&#j0HO-j7v`^DBehSCc96)3gVR3|-d?01|$Ad3S
z3D6-|`OXS^n{Aktxvhc2hhqZ`{`ciX&i6@D1&3w*#jD_3^L%g}U#ECpK80C|bqyfZ
zpTOznTTZ6EjqN%d>M{lSE37J{Ag)^-diwmB5cFLe3!!T27L>6&U|jSw?ePB*okR6Q
zxI&8?+jukUe72;;oe`>UB+yQKs~^HbY<O9ts@x5(HW!+%-n!}4i`NROCG^Xv048WB
z>`mpuUa1h^zlS4*BR8$s_qKdsbAjnQH;kQUZvJY1&64vS_gn6Wy?rh%T3kY=NL70t
zZ{u5yjc?gp|J)bmX%m`V!ewWRN8Y!#Z{(*}XJHqtIW648Ga_ReaQh4oiQTcufu*ia
zt0u~tijN-%XV8Fj2yTokCCu;e^Ct;`PY|K3lja0~6X;8(al177bOP;{gc~@;(yvcG
z58y-L8g3`BtAyXj^|UML12N<X>h;Izle8iI4a0p)K0s9`ZcVIKw0-BZV)@=x%RVx9
z@43|@J1QkdWdy2!00Ff*UYou-4J~XwEg}2(LCwaR?#BphH!Z0<m6-%fD6J7U?Ql~P
z>@$rj{R|An6ust4bdHo@Po$;u>8lu%Mdk(A)ohb%f}AZ(vNh9a%zR;da$JDP1~AWs
zF(63_mzWJC#u&A>z)018G=V^y4o*sTAOvde`n79Ug(*PZC#E}db@K9y@NWKXip@r(
zO^HalKfoCeg{W0A2XMwyDSbXIhEf{>hhUMX8+5+*_R*iDE^r3<Lmw0v4#2LC*nM+p
zYwpsoy#(}xh`SlO8<vX2!BtCb)LP7WE{i>@*2epmvc;-Zi$7|^irl<ngK=IB=}_AJ
z>+yKISFLT(#)OCHt=%O)(nPe{&(dAAl`RAxRanm`CwAZy$48-h4_m^xG(@|nc0;vW
zK}%X!nxMxd5q5)}k^%rO>WXpAbS>}1t_TyoPl}n)y{6(a7QJ;Ym;liigs>Z>AJ*h1
zsJjm9M2}$-OarhQbtfE<GMR!IOhu%6n>UFoDZ<F_lj|2(m&A6E21@2=%)+)9e18+m
z;TPvFV?n!g{>ACv-+S@;<g>6uVuos$FOvZ<8G*%ns*fDIa|<4x1zSQl=i*~M9-`k%
z5OrS<k;u9K@L@<}p}sbGq0x8r^7t66fXS8%qTlnrb4g{MebM*%hK9+j4dat!8rGmZ
zZ&2#=d6-FIAs$z<zBJVsOADRD4Mo#r3|3Sjf#zx^dzfxKK@WZXM~CTcXjo%)=Qd}=
zsb|_LERApHPG3tS#KLUCfR2tbYy3NmgqUOV_-3yt{4?Uj3V3d3lxnJ|NwIWc{L0nm
z#)TiDDzPlag~z0FZakKOtYD%f2tT3ZnHSF!EB^eY3)p?fXB*)kkV^PRoI*qm5~;!G
znc~g$P#RU4WNJTglGzmZ0?jZYvQC;|Y~IDRRa-S%@$b7!7p}h%z8#jmyCv`Lh_|1h
zNo?x`j6%M*WlPtJr7LRlEZQV^o+k&^1hKI=vuf{%BBR}stu=m^0RQdX_pN!dwFDY2
z8!4%|{l<?>>A)9;a{$NuRmoDdR^(fB%4MxmS*rrGa{0afNYUurLDJSa_R4HLx5ejI
z?M-X;0+~VEh~>vu?I#kZw8l-;1GOMq0^Mv*13OwdG{xpkOB~5CDNWL$H;ZvOmEgr3
zr!$`+A4^guxJ;hqn8fXI%j0s|?aL!6R?@Mxys7y7sLk4J85JH<xBFXU5HRy4b1%ZI
zqY7zgHqJkJM3GErQQ_Ys1jsV#w$Pqnt0L~8yRyzI{1Yy=NMAO0V3z2Ys53r`gf|Rp
zcIU5s7RCe-d(~VT>uDaz;*sIy-Qr(5xMBfXO)g0U7MxtMGE%gQ5V5ICCPW-wv2-Lv
z+#wb1h!pj%TKn$Xob#uCncQTsrB66TV>^>^a^NQC{3ch}^yyf)A=b@yg33=ct$NIl
z3XF_+=RudD7EC(unUuRQ@iGag!zoI+DWBBAz@^`#2$P`#03kmUs>1Rc{Pl1eG^xx$
ztAq<YvO@%y*$4%Jj2p&R$)#LU`E<$ku_3R>gf68{H-qW`dlpQAm9$b@Z2txz?$)}S
zZqA?l4zH!ZmT}H>iQHbg6W>OCA0aE82Bb_XU3nL`fy}|^+HLqs%B!AK!#NXFAmW=+
z1wVt`BLodlkFb)y6omg8MH}4AItF*rLm+o>o&<DqV3|V!5mv<G0PTbEuka;2;z~k{
z!?*{RD#(ODqlJ2xkd8hSOPRVBOM}E%2*r%g#*ELwH&Y0Pykw~g%juZ;+|_F@G6ZxI
z6wz$Y4?gEtu>J{4W3qWYH;x@1Qe7DjUIMwRU=xO>Ta)Jg$4K)lH0)|oN9_IJhaLo@
zU$Xf{Tf1m($9Ww%Q`sdF_G#G-Qg(x!Js@Qd%%!Z^>z7W-4LhZVop+`q_Jeb2kc?XM
zqmCNU(I#5ka0W<(>}mxh&yQX0w^HYg^DR-YZ}H&m*%fd1a>u;&UQ_Qv&r;q>aot@v
zSZ)sIt)0x92uU56#w2I+GI@h=_R7wF$=MH!sD;2n_kwk~9sH{N0r(^^=I;Q5sHo$k
z99SxWu}A<>9pGWfo?gk*yXx8b5&2<3y-If7+DCFv!YRr_K?_;Gy8F%R$i|s3=GV+m
zFCLc)Yb1w%J-=Z77Z$SSKldOlCASjnypmlXQWg(Q8KnQ50kr#vDY#}>_un&k_ts=F
z4S?YFD_35GVi<JLgsYI(k8hGR#))aeC(Iyv;~i>7+blxy`G(j{NryVoLw2dnCvg&0
zk$LGaZ8X;<9SrwIf4n}Xj1qQAG=JhS8eTL8Ow*%rp2>-+@oRBr%iz(&13v#Cv@C=v
z-%(|RT?$?C9lkmi^bL$%9-BM|$}!*rSA1$*W4w$)D<l(Y4#b<E3Sq@!L)D_tW8>E@
zpB1WT1TuQA1=Wb9hEQ(ILXQ-pD`uw*&ayJbgYfnhQpvDfTHx~NMBBe4GAxs2LAh<&
z$H$-iE)6dM#bS7Ih2#p!Rw3J(RzNIS^VYFxpS?LN+G<5}EzX-ZdbY~NQ>!*`yTNW`
z?pJI#ZQOlL)ar~{3mCVY_~ddyr&Q1>7wne`_M?+$mi)Z|-ay#m#ywq4U7Z5PD3>ef
ztM6Y#6*u!#xMIFu$JC>X5*DXK<^c9s>M{@pNCqiXzG!$0`aEAoD3A)GohCDNKf*4A
z0M-rR7wNf)16;b%{xLUK6$el%2<70JO)kUm+<>`~Pn1s5M2B=_Q<Uk7q?u7K(!2Dn
zNJI#pOBJ@%MGIx{|Dt-?Xq2ptV)GtogH*$|q8ywsPYrypi2ecG@?^n7*4T>K#VHD6
zv&0H%SE1@(s!9m(S+<G3K#`oj_&dDycJzhbM@ZOO>yJ;J?Y6q5W=7E&kWw4f*#gpO
zBi2e-SIp3ygGwbIdZewInk)(Q)^F%r>(B^lDv-;h3YBzdc8!cAj&E(XXnJ}KsJnix
z6&gfK&AdaTX&ZD6aRxc)s1K^$m#igq)%rkhXtWLxb4t{*n98K)0+sYS;wpb?9Bm_D
zgf2dC%gWRzuvkk&tCp+R+OImFg0k}|Z1~KXESR)sg)K~h6XxYW2`AHb^F)=FP7P@&
z)u7DEL7COWpXj%tUwy9qZqwSeS`0OG0jBd%z%)ZaQt6S{WTcNy4-SHf0PS{AQa;*&
z6Hpj*z=`h;aVdk20XyF}=3{EgVDdvp9QZ2A{#A`5gfT6@l_IbKXID43D)#P{4IooF
zq}SPwsTG7RkoGmf*!^uphOXi7;s^SE#upMfxPO7pwUxzAmDs9X_yNr=q_cLzFhBNs
z@K$i4V`*wWxLVN8W{f~OH<f2@B^MA)xQkQFso1Dvc|zzcT%%rs6VGfa0-{(h0uB^#
z7?T^c$}wn@n+S0b;^YR2IXM=sdLJr#AZUf($BS@l!-JH`8&p0GO`(%cjGs;X4`Gll
zze*ueHjG)++JP+Q%+yO1f!X}ii-3#5cp3C@xcs{eGqq4jCx$f4SgN_g*z=G}C%lmm
zKnysW#C`sXu?!WFJ4-8)s{zvd!pUUi%ol+)mgBTDY1U_Ve?Xt&In*ys@p>hjm(#s(
z?_ExnoA*e~d*tRLQuC2W{m~V;XEVU8Cu%)`i9Rz+#5H_IRg2ZV0HPF`g1hE4aF0~H
zCsI5BiAdD!lFbd0xdB#=vb9#S)<&%L%b%4yh9%%k0u80{Bgz(JCcG-fL2BVuaj9Ld
z>y_$y<+^=R9e1#J-|k$^_b*kxQ~OqJ#NGj+OKsCT^>5X~f*y8z06eMd0%&C&)}<oI
zZA<F!S=)ix0x2^`Wr5iv%$JHJbJ41~c)hIy*aA(h1nLqN8+OVK!&1XAR12FSnW>vQ
zxR9|(=#!OoOA{*<-M5~;6P$xlWD)l#wpj4K)xVL6xCHlF#t8OG$yq5o>m_G>g73jT
z$<r4t^+ofGqGc7R=118o4bA$yJ`qA)_-9%JQ}OlLp~seC?9;&nDwx(gWjzpfU<RXY
zR?;CfFhnt(CkYmLv^UnHe&ah_Ez?BS$~LJUbA@AUa4q9_NKYe5kL64(aYd~^0bGRW
zd$mm<X<;a4qXIMQyMrP)nU<~RZ#R|!-DbwYj2i(8e?apH(ceNQjbICjNL3QMSfR)<
zlCMLs3RM)1#uxS@jVfm$A|;kFb&c(=H_2CoQJQcolgBjil9*EVB$R&?BKIF?jQ?BY
z3RPZ`>2tv9BxAfadm+KacC6Yv831<e3Y?|cnXkqH$v*&Bkp7_+`w&Juyj(geBu9np
z=#U&8&;f}!fbM(<n@+f3%`2DShAyvF%4?PL_DgyD=Q0w?B#>;`dT7N8AZ~bP{Z-3-
zN3jU!pEVIjj|ezs8|;=V5=eD!_M?#M@&1iBq16+uYIyk9*imAX=-c(BYAOUOoux;v
zL+_MOA9Pg<=8Xb$QiXrPQ?z38p*Lzm{}pj{C_Ofo^k}^JIPBoHpoKB%&_)iU19i|<
zwHQo|0_H6QwWH}`vUEE7g1VNoy0o93{wgTVRJUO^W7e$gY?)DwC+P)nxqW&)N-$Bg
z5MPHhb{{`aqTDT@vkVhuTkD}=?*0x@_Z2!Z;?mgPG0s@$jgyp9<<@w@d*~T|j%U?d
zpMApH2DZiy5+VnNIvo>r{5SC&)I9HzhH*pUGagp^cQBp7I*p=MI`q3<t-{&NPLzDa
zJ#PQVftIOKTWBzom$=9LHsS0(RQK`YE4wfYQs{ljxL9(=N_}LKG)Euvt(Ba!knS;Z
zN4||)+g$MBe)HD*dacZXuc%ZNG;78_NnXTSA2&VQkJ{1WOsKO7-g*oZB(6_7U`S^Q
zn$=wqvw45ac?<UU#tEWvlMbOACGAMMiA!z9f%iVEt~PP5+DkC|U_S<fEfcib)6WC5
zxx&x_1(4^#cYn%Y#J~BJSC745ddl#;5hB^Qj7-}Va+Loai(D)l%tTGEX$U+n^B9y9
zt^;+1t;tNZiG2xa>Yfaga!p(suPo*HO9G&(pvmy8;6ns1x+y~_R>CcSXvu^DP~7@Q
zp|iQd?LAt>|8F{Rl?QHfq?)6KSeYD=<S=E<xZbZ($V6$<DKtW-BlIE}AuRXf)8nx;
zEYaha6O?ujP#il}G;SmN|59S65S7Pw4J&vXp^Kg~4m!1~&_|c|=)ngRopg<3g<OqG
zQP$NMF1((sigOe%n+vGPDwz~`Gvk*rJ6~<d9!k;prMku9s<ym<P#((NwAEl2e7|8K
zi7)mh=fFFhb|+IP+A}M7vZ4Qux?}I*Ho)TFdr<No1XRbGtMaQkva4NkwKKQK@Re&W
z1{u!0ZA7dU_w3Ljjk_BM@P0QQ<`u}fZBlL<5S1B-bF)<1jLkq^`$q;-9>J&NRWZVb
zy!(oQ9jo@9DDYVVdnLF6-ghz*I0ZrNeC9&$BMU`$0$}AE6K_t))qAAsJqjmMb(h{P
zR>E<}j%amLv@`%7V@*F$MpA2l6jlNIC8{ME?5K7>EVgxrY~3xv>-3(}tJWviU7opN
zwn1o=JdLuaRq{ada-Z0~PxK7VjclZtJUPHMlk);n9`H$aMe=sTJFO>YUAxy4$?M%n
z!@XAygC@(#le4Q=va8?Px#3}kQ{>-7wpU5OMc`XAd*6S~b=@jlteP*3<oa27A@?if
zt{~e@vW^njRxa7fBjB@sVa4W0<=z;*Jt}*sf=e@!XD1YZVO!PnW{+I4Q>xhcUZz;F
zGg5J!+)Q*IARw}G$zHC?yCr+aI=TMVeLaRF*(w#|mG?%9_W^X<<+(YGN)(m6k#id#
zo*X@kb$ue>ui@aC8ftE2Ya)w{ygMVU?Bc*>guMOjT(Nyn>=>kT%b?^Mx;c!-*3I?<
ziwkcAFCWal?T}OfqSOa3zjso}$c;IX0D>nzCQ0Yv31r3Ej0m!Q$BKOib2q;OX5C`X
z!AQv=crmuRWUCj3T#GrY)+Xw!1<X5eK64Z7idwxJ@lD^OGb!j|52#yy9HPC`yH(YP
z+@>G8(+*W;2oW05t2k{EoWu#<{|8TgmTe)~Xy0hS6pnPs$0tE@GlEe^qyjS51e<D%
zS~{2(U|h7q@6nk6W+>)26{4M?bXv6MY6wg{oy}vyvO%CMDWhO&QM1HyLxeR2$w%D5
z5VYBPXfhneWEd;Cel186z%eH3<LnZ?2O|6hp^_pt)9E3dh_j^PvcwymXOzRriF1{b
z&{$#_uo@-ItLcK|$&KHCi6*u$A$!JD(R{V+lHe<Y&}F@%rAC?0xL^7n$qHSyKGJ0D
zyVVyhEQyx4Ve)eNz{zmtY%rJO@UUGf7d1&mkd?sov>g%?;%j84F{mgjV{0@?=BDKw
zx%sHne00@(ENX)~Y6)k<A3_VAOZ=b|#y!JBD=385$!l@O6fXIp$7N@Jp-F<5bR^jC
z5MP(NYSN*%cR~lz<vM_Nha4XKT*5ZVL>!$CqQ@)O^Hebv-zjPP3AJ+(jv8e9?cpqa
zL=(N8QJl(V_<(9o;2Z<nWSg4m(W5$M_iE0J8r6GaJqr7i^07iyE^fW0eU1sA7FI)?
zn*-ZL-4ru9;KdV-U#`a2enYdc<MV0PYADFza_wPzFqLuP$y>7?_dQ2#!<pR4X2j9k
zN$KpD!n9k_Yb70?yE;{YN~K;^LA^@jgXwuJzF<&m70%V`L9~Z?wF=M(zm1kbuAk(2
zdB!$Ha#nVPZEC*Ed$nHub#?<csy?ZWdHX7o>}^`*3~lh(F%{o2Y}0-^y;ZF<Jk(^q
z=1}xbP<O^>$b@ZZW;pLTqW~Mva3*w1;HezCC64Vz?wNR>ef%20jx<HjGLq~=p|6wA
zb)%V-r(lXimh8}gESP2RK798=l&RB;g_3aLEWJa)C-;k>=|Y?{z)EvXroqm%knNvc
zVb{yHuuFF|Fhn(^NP#V8!OMl=f{C4KEw$fp0UtHtBC=*xTOG@=3l_0O3LJ^?)$`l5
z+b%69HKf$c9d`3P;Uk&2wR_a(+ArA?hYBGBO$!&pQkQsPI<dZL_^niRo`Q_jwM|V1
zw0zZ27#@qm#VX`8z%}$oFTPRou{kBHzuvgfeS5}h*p5Fvlw1;smO_@osk9sIun*|O
za<K31348SXYfp^mq)4!;g>CG9wpQr$!;mAK|8j0Pf8vNv9tCQTU_Gw{bvvdLD;2A1
znw$8c$G1L>&xECrr<S1SmSRs1%kc9Vas4lhTj+n8NB=9)ZCqve4u!sq)Aarm9O;v5
zJNt(Bk*9`p<Kz<pf=c*`<u*z_Zok^-J4uQbTYO{m_@?uGyD0h@X3|7TUV!Kd)W%ZB
zC!Y(&ik~=qc;w99BO^yoog6$f+CO^Y%<$-$!$<ZHpF9zBoM8-Zm@`1<OTo|+Mv0pH
zW2)v63K2aR%TnwOt_mS;H2YV09?J@0udkTdB8D2~QaYkr1Wo4nM|9aod6{W5OhBWY
zc>FFs_!^!51D%+>5Gcq7AwLDDFH-1TI^CwH%uN$B)BQ8L_uuH=4=KdB0!$~ajV^zO
zPJc?LKS7jO5qnQnzLzNQWU|A6H-RlcgdN{CXtG7xKX5zR$xUq)D~EfLbFkP_DA>3r
z1{w6iZ3OgBLc;ecu?Y<rbFkZB5-7AZDdokA`AupRq!@o8@gYZECCXa(O**|xr|(gI
z;7mL>20s#H|Erb+{go+>NzTNi)L^j!1yy$J+_~{<1Tn+;5yI1G+?a*a*FhrZV>YHz
zqJYm5egA(@`!nlc(oc=$#0ACl?LvYd?Gz%VgROjvO?NmGBlpbNt5=_Wc6|IAZ8vB`
zG3`sH_LF10PINz<LmNQ%0}2){5!`E}hg-K|sblUk$rHq#>PT5X5Kh(`TDY`PZa6G8
z9FAH8b3r*LAms!AYuE_sW$i=oEZXP#86$v;RT`wc205=q%4_*f#q!wiRY&r60P@_H
zcN2Qx4l;^a2)*&r?Uy3nrsXop+eQYd8OQ@n32y~Qcjd0E<kDWLv^P?^6MU6ub*)_8
zDOGpM)k9MCkX(I8sy-B{9wEEpk~+C$r&O|2F4-%U?7iDBl>j@^9re`89+GL&UWVSX
z7@AuU8G~)G?yi&FEt0!sxm<F0%pHo_+zVqXHt%|EBRTdHyN4sS2PHdge(IVy-iqP}
z5GZKG(&6$`xY%lfz_tz^F>4-X849}Rjccv#f8hU?|4!@g)#K*drltOGrmxt6(t@YR
zttJ5GOSF8STz*I@KNKk+fju)2*@1H&soq6=8LrOBh1;EytrK1WqlJFCuu&>(ToR<h
z*5$F4!Y<L?B^Gu?dkzspgD}=s?OjlADzDSz(0ir2y{l#WK1xgN$oZgb->qS2Q$7bp
zO3~9MIcU?CTex7nl^HGD_aQ|g&#|<}TeY@q6eLK<YNfo|xeNfx%EdhrJR_Q2A2@2H
z`o6hiH}~GHB$2om1;cq+NfRuG=k{w&T-^Y3XQ}$|uMNC@;MReKvkNDGZB#t|1X%@p
zzzXtqE?<yJcg<VSDuH&<zkA-oZ2}g{R_v8`k0I-9if6ADZ9tBL|IY@=-Vk-xF11R|
z#$~VM+ymrJz`P?$u?XDwt9No&s(awv6pR$v<(FK3+0`q#dhhI)T>HSCDex{fNd+x)
z`=btq=ShsW6-P6iIKq-4#h6<ct!rHhh;4(|-O7$C$x$WdRc}D6)c??gC?cX-4F`><
zjA~PH1%aim<>5OQh>ue@C|QT12M%k`1ClkcRI|L}&S~PB)$Wt5gVEjr?KyMCn*l84
zXj_kV7rdUDCERUZ&-W~xmhu6<mt+!8*3xA0EL$5SYs1pBKeqO4z%{h1W#cHkz(DR<
zzv8GDTl&S85o$(og~)lVSVfBT>$&+DY?*}^Y~&$!r{vv9_SWtuvA9VD>xh)+$o3lj
z+K16ic*NOoCgX-i1l!Le3>7->MjT)Grw<2H(1DnO?R)vTM-Ay)RCutNF+BWFI2{5D
zeLJqu4Tv{?!}z)pDyOtbMeO8b0yAUsp%QvVLng$CzmY=ew@IzT63|k=2v+~klkRx~
z7YF>V>3Ji!C^ZQ?X?^@d)KvHuosx`5V+AxzUlguRLK7WJ3<<!A**sm9G;ixitIWdW
z{Uq}JJHt;PD5rV5QnFNvmiqr_%>}Oo@@-NaDU-})T$N?j+yq8#W)mJW5qA~f9Azun
z#=mcE{0VitO?Un=L|dOP*7r9U-%0JyG5lUJLht5y`fE+^)|wFJJbESxh%@RpIr9UX
z#$dt!ha_`)-2hxZ-LDB-J}5E}%xcj1H9(#aLLb?(jFF%C1LK#;0hVGm4i{YH?u^rK
zWNDjZ(4D0&jET19=f);U`HU>NgiAmy#?_0khdaw`=EgaI3Zv{4{5P0<Y8uKTSEnvL
z$Gm;@_)f#^81lL_NuJjLdP;_9%)gmZI}{MQuECQMk@@^Zs79%{a-4pwSM2Jbf#Cyy
zvf|gwhsFQWxdg!0tvIo9Ax@8Pm^zC_*2Z6(USCBr4S`6#`Yhfyeq&QKJre|^U`7&(
z@jW`@bC<4O5BaWLx;73jCftBdja?Ym-jIsp@)bq)qSlN_Vi?GX&p$>Gc#~+t=U_1i
z7iz4ZgZv3>s!nY!C$2f1X-|U3H-$(CNIzsy@Pn5XPp6A%JHomJr~iE1<|CfqEsl;O
zus+KKQ>^3uHM%FnaU?K<D&MzpmC&`dXe5YYlN-IZs<51+Yzh=$f$5T@vAg+k8;x1w
znSkJGhL5YcDYE+BFr?eFuq@FZFx%ZV4>EBB<JVUFz(OHIx{BVOIPuZGlCB@_g7(IC
zlj+MAO{WAJRConCup8F3A`mKYUxyzm5GR6$bJB6cqGuBhEo5D{Q?P1?YgqyJOQ}l-
zmICCiqeY@l%1VqlZ&a&<Cewu>ZN7S6O($H^AWqeLdh&MR6v~hDdDL7;VvPG9?OF|K
zI;PNoA$MLnn!%fDR;H%Z?w*6dVY9x=<J^Jx!W8-nN-S4%)PD6eJ``?d?KUZNxR=2+
zrjL<}6gqrNO|Jv(U8k0<wr$8YRj=NA%(pS<@giBf>*y({{D8;KTZcP2(XQ4|`vpJE
zpr=Wo$HNmy^FCdDV>XU-bPy(bwA|GY?Edsi=~H89zof4Y{$+;ZVH;xu)_=wcJ+2Y+
zoDJXGj#S7YAQ9<TbD0=WL)vfHJhex?n%Jj?v|s4SV9liiJm>v9gmI8LF|3BQU$qU?
zam;j{4r$NT5WXhdxv3f+&tSJnfWI@@Gda);AwK<KHKz6}l!mi!knaRN&Qc~?;;0r^
z4aIA2+h+E$Pn}TXBF0HIto^EQ5@hb|z$rIOoYtPIA!vobUJ>r(EZ|5PCx`+|I>NTM
zGry_KmW=D1#}Eni#_ZEcNpT78akkJF&f#`q311;6>?BU!#Ammr+43#&QTH=j<Du61
zYC8d;u_v7Ka>>tI!X$Aj$8^fjo%_|c1rOXXaZWE4FcRa|X3t;^nkkqm1R5ZC&@<o?
zZk{V=Nxv?*H5ZcIz&h596~#2027Et|`gCu`J#|5iJ)0kPC-emUF?msqt^KNRz<bBr
z@g5B>wP8YMmojlhORI*$#k01c;kxl{i~1E<|M1KdC%+-`oK#b3ze3^EHT7yjP(#}9
zj3;Of8_p2&0XwFytD#wvXz9$Uv-z_*v!2=F+3dHoRS!$F-X^TnahaF04nMEvsr_o}
z8dk&-M(DqwJyk=&{Mmw8S2$(1FlhT)>TD5%;x0{o^G~}@sF_{;CQ8kw)snPdA$_)#
zwXt``H<>zHI^)Hx<3n47wK!@hbZcr>4XYz+;)Z%h`wi7i{i1pm_D=nh8dkq4mu}6L
zguQ3>s?Wf`HY8kmx2|DKHDOMTul)*DsO>Ln*J>#2MIX;p=hc}qlvkEeLYZy}-dPLH
zAv2^S_o|wc_B-*K7FI*ya<!FbDklF6(&^Qa`~8XM{+R7}Fqk`aD_)Ln|J3FytKpJy
zrcx*8uc$d_zhUphuW46mXzFz}q<-CS<=c5`3mP%U;0<Xs{~Rp?ZG@_D#mkOx#RRd1
zla6?KRY3<W_d0L!)ubf23|DFMlunATZB3zmsbCu6&%W(cdnD>srPv*#2CN5EB#*PH
zH`M&X#@UKl>#SqeJ6k^Mn@v^MGW1|IiUGYXp+6JTBuPIq?bRnZL*yKECeNkJWIVq$
zPRgtQg~!>FI_1@uw|$bk?URCSpA_pqdG#0g{XoI!^pO)}o9qLV;HuE$<BWTSnePw8
zP1uP200Gk2d2DJo@9PmsP~4l3!XB=1+H>LBb!Gbpf8xNl>LE}bMbA*!fvuZxAMMFy
zRW}<No_(%C@ru-Nek?SlqU9jb)!=o=Ik0sG4i11)r-)gAyJtD?f=gXEHy{M>=(Op_
zFZ6u~q(^bj?z=Qau3X@|8(ay9G`Nl4BniWm^lF~MM^q^y17VN-*Vv>9UAW+0uE!{J
zoKENI)JmskaeB)nFwxL%gkxrKHX!N}#;~Vez>T4|()iP}^c3=v;MfIVs$D#TRslvW
z5MQxnkJ-6Lli)Z9{=$n=Vbeuh8&TP63*%_P>5{F_!S9&DJCQc0U`CukO3aS0redHn
zko#C(!X3^f2r-!y>g+_h9P|IEK<+eS*5kaQgVZ&ch)rmrb|LnrKw3$>nP~M9NC{5(
zzvw|JU6$Y!vv6<$`iO$ClOhnlzra*=FH@|4qLUr>VtLR98;e`lFe{o^))|ITK+PqT
zQOvWHX(60wX)3^zSIK`DK^t<&i=R@wXQ&h=U38G>iGODjLLziF#J?yLWYM(21(Hlc
zI7pX&MLBd*=n}PuheE$ep<kyHGgbU6y7y~zNgW}%?o5N3IUn=UE0g(;FhrrxQ8L<G
z#tNyIKsLtYl@wGurf>#PVrF#RYvgT7$fOiBYYBTOR7+_Sl%Y4Z1n2w+=cyz@#t<BI
zs-(nq6e8>(VGmtCOCchagcgd-^rdrD6k=k>K?e6FJdW8za1yM*bZ{fi47JOUj!-NM
z-(l*~h3jCI#q!SzfIK*d@tc@HAVg6?LgYYof+SSajlM_KxIvNF2l+l_3vZD$l7%v=
z9UFse<gHRvHV|n%vEj%29~+WiqI>UC@{Hg$u0_t&uu0ckVB9Xo{32eKK%-T-Ou0YH
zPPiAdayFdOicCNor2_wqPBNV$becqhSaD+9Gun$&9}W?3f$_;c^~B|u*>SfI#K4>O
zB=ONUJv~8eG!sT1(^rIvn59CpREU<QwY*Z2;B-DTnH-81qMND2R;^gMHgzRrN=&Vq
zsT$iG?t5!Qe|N;YL$rF<y-k`*cXpjvfAIb6Ls7VO$gP)h>)+39TnEC6y#m-qVr4rJ
zvhF*|R~?madn17!IWV*m7>X8^$VI(UQE$}cXJX23sk$2yHg_L%y4?j3aJd_p{x50%
zLM*fD8d&oVibGFCyr-eYjTjW|k;RbLB<40gG8u9X8>Q?+58MV<Jribez2RZWH5@H&
z{Lo}9YGPW;&61~C_Ux5Bd+&~|c=iL13!2Hc+qNa+s;hRbxOug>^}e_JQCCvF8$AZ-
zJQsIK#a*cIQl(tmBh~g0AVR^T9m#Pq@<^aWkd?BdZ^h9Ug^1SMBvG5~UGeUP_$<F*
zBPFE>{z6R%ip6^&F{1qIq~bccxLqo42T}}FLfy5JyH<9$O77PAjC+SqM2b%S<^H>H
zY=N7*;X?YZ5g=vn?VnE<i%zc9*1zL_%fH<D{k*?$z3W=7JqTgyT3w^qG$c12l$s7k
znhr<mMgWcoF;;$&?DR`cf7DqiR__#dpT?`?=RL5b0XW849;F8`di8^`THj1?iX`46
z0oig1yn^E6G`Gu5r=+G+QTUT4p<%z|>WB2J8D2H&(WZ^N<c24uh9?2{40qZh37}6%
z)h8n5C&klGO65<^+klQNJ0X>9jkb+MTZW@$foOGGw5B8K?~1nc%Pmh!El=bAMy?^h
z?V%x)BO~uI5;XE|SQNkz+1&_mNZH*lx%<&J4qp_qxZ+*_>EOIp110m_cQd5A19IJn
zR5uc-I})imDmp7Q=$$L#&XM<>qtX0;nBTEY0$BX6!y9W&zf=Qc9=zvX$+Z_v<;Qzg
zLgq`&NMdc)jPSrp-d)j*whU@U7&4#@aYkeM0FC`<zX?5M<2Z!5fhD-~AmnGsKK!96
zrSzzgoQQXeoud-GhB!ts5VFY?tFI|qTo?5=tQC0{PRb<>Qb~hcGANY{Mv8{s%aw`_
zew2~wgE~7&9Lc8&$BJ&1$g@giv})(wlVa5{$*s|brrbQpk+VBQI4r4be}vT+LuTVS
zlYvbNE0&72s#dwGORDNZjP;uOxqYkF%8#HX?}HCAHV=@{oa$4xBU-aFTGkRRt@{U?
zIXeeVVlV~N4ZUxL8yOg(G6az(0B`OQ_nlrZZd_=WiyNilMlk1L`{0I|bOq&6S_kI6
zCx?tny<pyZa^?;{!h81{F`Bav7#}$(Yri3<UaUX#e)eJDzH*Sy^|sy2@wwz}Mo%nj
zn9q(@0`s$sb<(;ON8SCxim$vR7q+exw%#wUTD-E_abUH0Sac4H#lz9=L-Ql6!1-<(
znBTVwQ|@B_qcTIz2quri8<lL_`d0vvR8scF)3=|Fx~j<bedkGh*V2M{>iMmM#`&RD
zXJfRu>`{xFu-)MASpJ+;vroj7i3!Dh+btKhN<}b(*dHl6a4Q`NX?!=Y6k|96DZF{T
zrd>_2rd4;{Rle%q7dI~#8+W1LfE#xCRqhQ_YAw25H9kpx*;htoXB&{#Q9;?&0N-+J
zfsSvMM(cJ$PMr_47@A<R45j6_hLksvOFE^JPO<Ayq~!4Y(0U`PQ5SU-iH@ph-+<gV
zBK3_#`i=mBe%UNJcieC6`R1hDcwA~c9(6W-=frnC|Gre-F(U04iFAyL$Bs)K#~~zd
zIsx05lqP6$)ZzVHZDQdr(Y_1kXi@v}lTy*H`SeF$Fj5<lSDZ?K)Ona<J2c$unFR#`
zC6J3h%+0LKnoC_Z`(T?>*~LQm+K;ZJV~U3@g}dM%Kg6Q!K4pA#%!nZ*<u-mCpYcC_
z^mHn98p*ncZldEz*8Lx|&hx;49`x}ebfFQWn0@$T=H~C+(%h%KrgxkAv!BXK`_n$p
zQ-+N1xiS&{URfp{e6PLViHkoo)5V_^7gM;C!hfFGUxACis4sXb+x%Y2U;{4xx2FCU
zJQ8cHPp6y2w!Eiyq)BP6r|L7L5;KLX%(%Z|=yyHsFh$C1a9(xnOUKVWL)ueWmV0Sb
zhkJQxPkA!$6`GOLJ#X4mfsA|gX-{=p?zK=J_jaT`ZOXj2i*kykr#)@Yh&j@p_GH9z
zurauDWlTlK00acTK5~7E1fF3Z?W{Jz4_HBFfEF=4tTr1AUp9QX;LC+yc73_%%kD21
zzizmxD{r2G=;da@Ru-{92qhmkTDY%3sPcY-zJQQE1y&_LfS3z?Dt>5piMFPL>{`Mm
zZ37)PouK;Zl>7|d<P|VIUnzdY{Yv30u2%}k;2Skoaw5Uh%PvjucC#pKL{8KaNe4`a
zQ~9k;486D*kl1EOsUvy|r`{}%GY`^}Sp`%Zz4Fe)-#?f#<y0%92WT+mQlCz_)sUX3
zjfnnf5PCsV&~QF=u3)Zk&NWvwXP9%(6`#)lNRM?U19hRjR?-1BFccN_pG}k{MaHGd
zqCvXCZPS%+O=pGJ1*OmiBk6!jdFG7*JR?##>Clg_Ut8e`{rh?jiC*6G_;K~>@UriJ
zEd5O8O*dK)yTzOC3EHP69mu^t=@u?&=N!%?rEUn3%)%?P>3ZhN1d=3Vg1MX#wy2{D
zLW~gd)M0GDd;$0M1b}gq0<9i5-C+x2>j?62S7%(|Znu_N4e1H}5K~9Ir-CUl#xz7>
zh_zeIMf-)SbGAALH;v!8alJBr`?WM`=w{JuI>vC}%_2Q9AjY;bYdwRpHN*T=&g9NO
zOf}<79_y%^&gc>VPZfeel3=FqF&k&ZZ>nb;u2ZS!pjtcaR~>c4e5HT7?;AJXr+hSV
z)odPEl=fNMZ0-fv@1dRtw0zZ&kP?Rbt)O8x=WX*hmDy<qbIInikoKUOLi-J+%wmpC
z5I4kqfU<hT73XJ7`u!D<W20JbYG~Gp(vGTE+Ar?v^fW!Sc!-{quQ!vQ{3Z#tjgJwf
z_4RT;rIoLSX7eYWP{Z0Ul>DF6uGEnBwUX-*&et)SH@#Y-&xVDOLHo8(()6Fa`X9Hs
z|3&@#v#1e&60nX=ySB0oImee-SqlFSZ@5W$(SjSKfAVk{r(e$iX_2nTXXA^qrd`7t
zJWWqY@g}rIZl>vBy69=$+)TM?x@o+baWh@zz~4+eqb%rH5|cXdRv!F|>I<igP8V){
z;h+F6HVjH>_Kg*SCkV#r_!)MW^Sw!HU9(nY>`t(R7Z6>D(ur}07*A-0F27ADVm&cy
z;1H-7gYO1E7>h^v5(u^Fok@(HO^kL8dTpEPOyfg@K8Kut0@hEu!Pzc4c8jo5ckEuv
zZ4#S@-_Jc5_1DY(eG+yYw1rL7((aU;oty>0?qdhr4k|s6H=nv{uL7B!cgQH`9+Ywq
ze$2dd-)il*n%=dh_2*|yySFx<s!Ts!u=N=sh)!2*z0Z`>z)glQfRnU=Obv03x9nYN
zKvMl@Kx&*x$+&~3srBl%=Gjl`p_?03$va&jffvvAHidqZP9$hz<{;AzTQehj6K;*H
zS}rgqB=v+q1FsBYiF4n%*QQ=%%xHn;BjE))G2>?HQNm$*2WDdOb-Mfkoqk9svV4hU
zOa{lm;(t;27rNDmQ55qiq6)CTp`{t*JrOp|OfbMLQGP;6^LQ8K%tx?Z0lY7KfmoT0
zDbKp+1>`3*P^Kj$av2lG&yWjVty?Q)aKCoU9_KnGA$y#d7kqVKIdkie&CPJ`DkK5I
z7`+*jj1*Dm61{<slK0W+H|UZzcf6(HqGbDa75-OB@C}>-9zKSCk#c>O@?u<9#&Bg_
z;1E5aQ517u$52(;i3?7^{y#H5cH#1P%sYPmJcLBhw~RO8CgY`8KG(rK4+b~Xj@3x4
zpTu%Dw^Pim(+mU)M(sd7QusWbzDKXXI_=YR`58J<XNy@AP1|*64Q;~kAi?K#xy5_f
zq40?}O&DAF#G9TTrrE-c8S|epTfou)HYJ@>X(t(xRMfB?Ia8bF%;UNb9M#dnVlpED
z#BZHst6Q}-tic1Cz4?BA(W<*GlHU#m{6OE_&?+4EIEsLK;bP2X(y4#o$Rw0OeO>@&
zs!BiS1*99SZV`SGtYyGvSZrLblv@X+)`7c2uweja2*?=V3=O@Xy*~<O%`>;3S*jLW
zhax5W=SDF><s2{~t2QtbWV1^$yGWxuH77G~&09%M9^MXqr}YndzSSc&?vlK_HcWW3
zo}K$B4ZjZ!IBk@(>JpsVhlZ5wVIyOJ)xf+(wzo+3mWaI#d^_A{e9St@StmOWNX`SI
z{Qy}C5KK22!SqSBu%xMpT53g0E8N1#jk~4B-E!lI)Cen<I;LA*u>var;+FH=dn9|0
zXdg<tBij#1cI18%FGY+#EiQjTCJXg=R@QI)&|oS<^VZAOZdgg&X_tGCNcgiJiP{<;
zn2gy?h?`kTFy_@!U!&~XBl-4-){=X+$_L2XFZy@95BwBj<#$NA9b#@jUh(zAw+_qB
zU6ONG)YTnz1r*x~#-Jyw5f&g!7unS<Q4Cm<v`MbEhuImNbK5(gBl>#4-l593OZIkf
znZ?Ro%o;`ck_X<;9^N2#(;R4ouwLw?<T9DKkHF^WmF&GhtwWZ%IS+Ed*&%1l6r%=r
zqjt0*+%s1^$~EL1G;UP$&xfYH=WM)ZufpqQSBjO)D*}lt_Pw7y2wvrDqc=xatsd$x
zL&p2`;Mn`w$Jg?!qprHBuQyu0BU)6$c$L0rWfx;G)~+~e!AGs?UI*l3MaM^l)`Fb5
zA<E%|aif$2%M-{7b^5hz_~qO2_okGbEHHCD9ns3#XnC_-J|LA3M9Z4wvOQAS9%RhW
zYKA08MKplTPN}#PV3Le0nn4*9pub10y(~9$FG4Tj02B0?qjnEGY7^g=0&SAL4PFeh
za~@fc60L6cU?4x*n@Yn%$_9HZ47S`s1cyI<)Jg9yWe<M*e`X&SvyXrLsGQOmaQgUB
zK|=D6L&KPL{<O$(B*XNVI|4_XrXObK9w{^Zu%+Tiqv@|Y`cseenEu+@ax~raql~m8
zxfwrlrX4BG_)%Hfk-Cf@HKrZu%J@-F+EG)6n4Wgjp0SB$BuWhvq2XaFrt<Cdvu_xg
zk&6x+NRLW{cQ0(%_yIi?HJI=_MPwH{^sxR^f?Xgj7d2wSuO1HIH<jlzDU;AG(@RAR
zwM5+zZ4*L<9cr1Xqct;^n=?Xz2|JlYR-+M^eQFSes+f{2QZrg;6P_d-I*dKLg<RbN
z6|NWQC$ucki@<Y^>Ip}L!!1W)g6Sf+cUvR(ZE``KR8aT!sdt`v>zP$c4?}BelS<p<
z(jKX_CsNvX^T>K>Ib4zA-rSL>uac(vk~JHQwid5OV7h1S6n=!_gj=*O{whxTP&t3|
zDg8uqcB9ufCgMFq`C#~oe>>Bsq>VG~w6yrvS=yBvQW-C_$I*|W*M~I36{JdGI`cVd
zj@mCYq`~L}#ExCNr-nG7{r|_?n}D}*-gm+{cmO0ofCNZ_Cjj2yeTfne9lUgrqGVmR
zmAEt|P!cH~@&K|e8nhj6@|8;6nrhM&)h0E)b-qv=^|8F`ZIv`ns~l~dP1<4zDgz^Y
zvT9d*^!k>zlsI;~+wb>(=K{f@Bsb}fsKLxT?|r}j<M)T%5;}z?Tu>Z}!+mD?O7KCi
zTBs><{cI#ZK(aS?V<dhB^$=xuZTvnAO$_nccp7`PS~`9v4{<cyMMEV_`p1{Su^lTL
z1Yf~7?%&gma>t#eec*L^8l$Ig&=W&#dmB$N^Mxr1qfOj-(|%jlVNrS;_aDh?3fr^=
zNLm4#H|*igUr5wu;a)}GoT*=bn5ciqcGw8QLg2edft|>R@7BPlH-uqU%93?AuUKUp
zMe<tbGO%Q1I9@w(>4ab{=B>pGLBYL`ckjDx-OspeZM>yTu=Mbjo?EaAbU2#bfGwBI
zRfiENOAbuoE##2d;l+`w?y$utSeWu;3b=xnh82q#O(T>h1<O|6vUSDM4t{#ZfFAte
zmTtY!yq|C0|87&H`GCBMx@~Is&_+JORvi4O0l$^qUD;c1{7!jtZ~Z1ydJNt+o6@yt
z`V5#q34s!>&p`L>WoB&;9ZI6=#Cu`D!5ZNn1n5sg48usTHGGv}q;ym@HF+>F1S{4>
zWw0uCieo*L^}(+rjMx!ru9l~1=IOW5f!0ma+#jLWZm^xm&;m407UIDon|jnaBm%WY
zvZUO^dz%FBUf#PG1`pZxlG-<n4FU}L+Uo9*ZBuMqgzT++_SU(ysL3LjYI#$wVA{r;
zwyl_e(+j=U&TwI~P`HgR+;%e)CT7C6F2UBz+j=9m{;;WEoS@m^k)XLmQI{wc^aYgh
zRQ&u%vm(6c?uFrsPN0qDOGr>O%o8rHnOibJ_IljfZcx{8dHocnisSrf&d))G%(p(=
zCUdo-kELc4Y$~1B46J3jVH2MU>nAQ&?KpE(AM(>Caca!AUy~Sfgp9?crysSxMH6ht
z<LdHXUf=n0zW>GbtywebzUdQ}&d3m~{^u{HbaW<XS3>EMwU`3_q&)ZydZi$khUDD>
z%aIWl%aW#MfkBn-PlA1m)R#$@Dp{U(UeO0jm5`}g%qg`_fQ!{6Av!^iD3m^4DTh>l
z!9K~@JeM=@=uaUjX*rLWHo<U#8@|k7dYrYq+5-C;J~>7$b{2GiG#OfPdQ|Dq6%u9c
zNmEc`N2O)zG?WC;LX%wQ59|RAa{km`xkl#=+^ccDKr{8A!a9>vQ>;vBjV29-8h11<
z4XtrRt!$R_#5Cr#YC(f7$7Z57wOsO(_6&h}c$@4){r#G>c+T3U=GNu2O7^40wo~eY
z@}Bn4yl<D|Qh!6HPndh1mUiFxE;UB^38n9mpVeQPCB#^YwplxTX|UUXeQlS^hW?)V
z@;T@{ke=IaH75B<D{X8mU^|eZ!R?d%slO^_A=7u;uYQrAV4*?go2cVzQ2wg^GVMpF
zr2U9<4Rqqbn549!>1YOGn*of<^y?P6EVJ2D%QyvyxyzpVAxiY9y|+%P0j)lHP|cD2
z#M)JJc9Qi-SPPhDbEdq=g;uPO$#JQ_h?SVAw5!1NY5YQ$Gv|}EOelxu-c4IZLF4+@
zXc;l>O<M+*kfhv^?%!cn#C12$33m-vB&=GcKr2mZ$=Tc~Y-<@No>r}D?PRim@t2K0
zp9ydYQz-X(hRjEsO?wGD21zr;`CQzS&o;#UcjS)yA9VX0x>5QwB}3C5f_?D#VZzK0
z^e|WeCOKzj0uPoPF9b%|QI6R(g2n-;6C43{on?p<%)T9vs%UFDvu8a|0jw2I;Oz8;
z2|uA!jCjsp44$2y@(>0T)7TKH{B@!wCD=cfxFr7iheZ^e=1!fh7ZDvaW0H(0*K;?i
zn17FrI<y~RD6Y>0SZy)?3j0TKQQ#!FFQYV!rV-16`Dul_BB64zZ8UA3W46gj5g$SX
zISKe`MD7V={nXN_mXUydK)E2M4fiabVyO}fP(0W&A`pWl`vH8!3aKrI#kLs68CbLc
z52g_`2m;)56jP9H-=G^)R`@fD_zbcm8asNEKIGHuf1xL0Kyd+jx`aZ(UY$1A2xn%I
zWkj0>k)`!(R0-=jNbDFbLP(IMB2f+Df8i;XA;&ACX2i1Bzsp=H#!Mm*cb_XxTVR2*
z$7=OQ^d!(NN;jqvKs7DeX(CctEL8?a`w6|7N&kbf&A1okMq`AiSgzE-Vxy5FhS)o~
z-z9&qQ)TGSiY@&(rSJw^0xqPg$*6&29ILk?fsn8XPq&1Qdr8>KgMg3|53A0Ib0vIw
ziIDE&(|t>iFQ>PzI*P)@4evNt9BpAsTiDSChXw!Z6IUm$A6Q{VS;7vY(2<K!+{_n)
zcnnqxI1wc1E7%E5J?@o=%5kstyuCi|bvtk0elI=6oiTTC4KQhTH_o4HFM%o!^zt&^
zS|(U)cx%nl^UKz)o9An#wr9oB8@BX@9lh%^cB55j>E&B`!~Mr2#g8M2=Z#Vl&wauq
zt`Ds^I>VOEu%q)1*{AgJHs6w$x7EI51RhnSard%q_Z?5`W$T^%!uix_UjBSaG`9x8
zVW5bUQ1><n<Ys2!9n_g>Kx<VA&UOgQhC2sgS*kjVcb3oZTX+_nnC!wULzjmZ+m?2}
zHF$0CX6Chnd}-&+5x#WiigQ=gnZGc$<h?ox#?j^7urpPi1+m@&&+D~UYZsrp5&Xj!
z-hN>vzZV(swBC4}_iUfHf@~VsQ02`cinN;qyTwYEYotHEM(TNM{cUTbR?9Qgu?pT+
zfwTRxtruJvS4p^}<(;D|xgAih07{rapWO)c5Grm5czq=mUoCv2P^2!1(gIfwTt1*c
zyFrFPtP8+amt<Ye0K-Cz@Yo-I`t47z<n}0$Hb{~7fQ^xz7tdR&{blo(h(%dORz<7p
zp$!2v_^<AGV~0?>g)fD5qXCFRhf4<u=DxI2C~f0QnSiwDLK+XP%Z}D)L2bBTTiCe`
z_tl!lx7x3@zt=e!aUI}02XBllWQHNpUD&vs*Mu&>yAFhp90OCUHV3*DNV~Q@+&&cU
z7z)=MgoDUG;vLn3W6!c<5BPy$XHB$Y$Dh=Gy;kTr#&<xSLaYH;6yDCew%<!l>O@Ri
z!_KN}b)d>YvfOgjBDgwuS4Xt4k^Qy7Q(iteQrVB`;cuxf+<pie7-dyzNpDQ@rI1Wl
zOL=29Qrb@r4=Q9!U&PhVxAZNckPF)*d4PHA<6ZslHm@t+%_6>L57HHT)3U81T2djD
zbnzu!BvVpd1LcF#?dYSWS(j~S?$XM6+xngiH3IxW9l%`|E$u+Bre{wB6hEkMn_1t^
z5eNH6AB^gCc|-b-K4{hD?bb7V{l93i94R*OU6v!IrkGg*u7YADCSc_vVj<>Y-MuB;
zuE08)-*DCda-p8&GZHWP1cP&Pr*v*Mf(j3j<Y#pOE6zB^kP$e#Ng=~}%v=>aC<H_W
zWha&#XTKD?JH<UE?t}&Zp%i&X3&ip5Nq}?nf%g4R$Q(0jGGppx!W*8aXG)%i4ap!t
zxz3-T<^ZBu@9CbHn0^k*siJ%bu&iLzH<uP5J*`VbmLR)=(AW)fpi(l?BT6jhgkC2F
z1SOFKLx!hDCPxFY^tiW}U3yXKl}O{{IhHmx`kWLnK-?58XLN~68l|~G+&}{G7sG#@
z7P9Bz4SXd}-O`I;H_-D7qjha>4PP7nQQZ!J0L~4B^L$Z9G0Zmbjy8sqAI-{N=v=5<
z)9I_qqOj9Z+P-GgXLe#bA*{hROkp`i3r80_BSZ^d&8t{^Hr%i?lDBJa|Ek3?-?vb+
zICI<5{Ju?BzmpL$V-{e5l4bIV(cuf{*Yz0_^2YkiA0wwQ7>rl((vns4Z-Nn}MW$x_
z7m67d&Xs!3t%|~Hoq@35M-CD%nGyqm%_MdPGR#sh)%2@{sLxfZscMIUs|IgL?!Vw+
zn&mwClV{`X%*x}3ES{;DQd%4!*(Z>A3gozuszOJT-Bh|0Sr5=ekkXBNRNwLw;*uyD
zvJ3rQPl+po)D94-*2Ib8+TdOuA6k5ds|EuCt{zRlTJ<QUjCxe^5O1H>ub>OTO5IZr
z>3t@-H=sZ1v_#!EsWXi-s4>OoMk`LxsiZj;Ikcz<SDWPE0cmmnfG`?;T(jQ_52*`6
zyU}O`Em3+c!FjEAmCK3RH2{;|@KQ3-4>0o5p|)Uz3-EIk7fL^CV=s8Q{FgW0v{M)d
zl{fK%&#FW>aCbG@;uotmLaoBuCh-{bx|fpu7Dg8)94{?8=qu~26>Qy@M|p0L`(q$I
z*e?6>TV+>9A;l`4c*&um29XXNAmy_bHoqS<akYh~@{wbW`q5H4h)YE~Ot+G-@({0%
z@rbjd#h*_9)I36jzDJ2rdB99kBEQ6ySeaeqZ=mH9l31VmE<Xi#%TFXa3{;a;qWSyn
z!0?miQK%Fsv`p=Kl3NBo2jtk`^ATDYsxUC(1HT$`wifQ07T%fMBB%?6%du`|(r8&Z
z#~fh=KI$wq`;ZzYI<Zzcw9=Pm(O+nG5ix}{XP!;w1&y3&=Q(j~!<R>HS@l;-O+$-*
z89XY7(NdjYysz`YCuKi!dvatM!y~(@znZCjO8qWBX@{0ue%2cNwCwYF{WyutCtTue
zcFHiUaF7tAMh%XSBm~5(KPzOt?odbXMdE`U+URfmq=wt*MmMES1`&@|e?7f1OrR||
zCcA3q9IhVOhx!{Fm!HQc<R|qPm`NJD7*@VV%oq3OFR3ne1*heF{qo9(n6!3o(zuS_
zxm`^Eh0{MT=U@H(B<WvF-+&8cd^KB=qRO5bP7{x39?wRs<oF{{M;u)A1i)EfAHf4U
zIt1oDqeQnJJLTy=<Y5OU&xP|U^z%$15TUprc?WJWg_NL(%LDcG^|6#Q6VoS0Ca&pY
z$pI(~jQWg2L!x9C?126RB^E7r5<z>$H7KRaXt0E5O&}+Tg`v*Ol=mMR?4dkK6nU1n
zbzVJ4b4WyrI?R+vJpO4QLd6}LJ^kH#2K!q85(Q+c(<7%wJtv_tJ#yjsbu0+U_C>(+
z9MGpFw4G7^O!Kh-6%)S4CdNj%i=K&*ivY9soaUw{8QbH+gb3g)9&|g9otYLfA99Tb
zVSU0=Uf+7!vuCUa?2*Z7L^Cqwhg;iePXJt#DcHbBo|wkLbf!qFz^qQFphv+!F`vFL
zF~MM>VyP!bP5}tV4?C)sc*rPUJNK7ZXJY2DsngTL(=bae);IzAaBeg}%*srq(rK8W
zy+oL$Yz%La=3h?!Xz7n75e!w#0-*8Jq689fnrK#Jw2D|76;TB865I73DU6M|G5{l%
zaju0TX6y^vw2FEypNCt_40RSMI0Gc2y(9OZDDi3fT*8E*nCeE$FtwLh_rp~85-}o{
zL`961u;P%8hv+e$w<Lv<G))p)U5qkjLn8!$qK)jZ_K9V&tV?gh;9;E^<@QqcXot<U
z;ugzPE!j%BA$Uz4vnn4;qVOEC17eONM-TQ63?DssxOXqJhO=+5pF2QbEMrq+L1^)?
zM&z=|DK8M5K6MV<25_hl>*V<{5G$BmVk}j9<#r;Kn1isys4EOBuwjs3l&sPFPfl|r
zK*XS-VoAG?4GwZI)B7$2g-j)*3jIf_V~03ahew}B8wUY_HG;laIz8bZUjIR2nhe92
z*kb5$FvL4NIdY!Ns>ISsu}l0Ci0LQ66C?bxlcShRMp>*feiEfH%EhwQM^CP?yiJph
zrK!yyv$3cd&K!%G`vwXUAgNh-))Rk4;?ymCoXJbzx3C_{TKKzIy8<<g#R8JN*(R!w
zL@m`!=u)&7N@^jXMUkdQ9<VmdY42x1#Qr{XFmeP7eO&Al%C_-k+aOYTC$sc@_&cbF
z1b(<^*R5JWwUFeen@@L(=3`ciE0>alsxH2&>!$xt&VBt{q<H^a->V0s`2}+Wt5)xd
zwRG{BRe}&|1msD?-3+{!)q)y=km-U|kx0RIm|4v$7xEhUJkW$;nzfcMtR=;dLC~n7
z?UCOEn2vmyD|vN47!zRd*xaz&0<9ULsEIFX0tNrd{>%FplLSvA?`gbI_J=iZ*AU<d
zwEezFiVODK`QXBnw{4ZH_8gHp6!vzm*t@{~xnj9&5w%g4lHN+YmbPMVx$7)g=zD$e
z>flo4ZD;eUt8U5v*2J|5p?()%ziY(>9391~>$YXrw!6-J2}8#v8hll)kO;0J-Zdn+
zj`FUfP-lQ9NrtYF)K~Iqmj)0N&?W?TQc2D*qN~g6x(VmKl5;)C&91^LFI|2qoLj$I
z-EyN(Xx+=V?tQoHFKfPE6RAGFkn|-RmHpu5gMzb;cM{%|NM9!-wJe*7d5MyHQ`A*<
zKRpEqE5K3mEH(lEXMTXuzZ;irjjOp8i@~qH_{NKo%B?H8+g9@{z(>i06=9>XfIzEQ
zFo?hx_3=f0k)qx6Y416TR-O4*1}+aoU9gv1@>41*G7o-B{u}v%cZl~6MZAaR_XAVw
zO4{W#!QRH(+iuLP*n3t<mcD^6Zio~&%^m#kC1`b&t?e@CO3Q?j7QUo~r0d<QrVP0g
zce74RJ@m~n-U4Hz1>s^s>xpLNt(jS8PBy3AhrQ8;rQlmL*JdCPdKZROlHSU=mJtE=
zm!<s!o!)v>)P@r65VwFWDA*t4?T<z5M?md2TUSig7qLcE!l3shmDZpNDQ@_yk
z*mBcjtClQLb0u7a{x0k|$nQ8P>^R2nIJROr{#UJg!uHa|fn|H+yGPNaR`>g9I_FkA
zWwzdc>n;edqRp)ps2?=l&dbnetq)u3aVK@2gO?79ra7o<qN*5!lJd!Pg?vzsLBqjx
z4FHQ2^%;_h7A&p2rFGR-EZCZPTQlIotSxu#?iGLv<>U)F6?{&GkkiiRv<o@A`JCOi
zg2JB1`8|(Ea-Nvmvube*miA>!`_0FA%Z}TYcFM^9OZ!Dj(M!%7&%q+pie)F+8G&6G
zq)YWLSekiDvtZc``!_3=y^M=SfLws}S$4ME1?5{T!9t%noWHqU=mg8@0GKZ{l7F2>
zGVxZuywxjMYnQFH3?E74=WXF_TLjxa-nMVWHn3V$oiM`RsS}#}_~yP_{_map);VdU
z|5h5v=fyRT=5@`g%c%Qs44g*rc1uN3@NXCFFMBe}$lz?&i-Hqf2$Qbv9^g$k6$R&V
zu-}EJ#7j#$DWJbd6!%20c-Qi+brN5v9Rz-md_H3_>&J=upKyU+WZ=9iluXE=$`1z>
z4UN-EOk8@LZjU0}c|><n4|6S(sEGdOp&ko>(tfr}N!(CkbIL5XZMLtBGk<dQ>?puX
zW&b4YF?RZ*Y&k`=;=(p{(jJviO-~ZsDO>I&c^c(>0J$3I%L26(7FU!lt|)@Rw%Qb0
z%JKSLxBmi%WnYPhvLWw;nd}KZ#^qVl9?8)Q0Alq_pBA^&N{Pl!BjpR&9*<3VSejDK
z#SM0?k|Zti1bXC|MkcxE#sZ`20c9xWVcSNwYuvaQWJ=p6btB3d&|k%E>QCrN6}tH&
zY@=l{e)1GEvkfCfuwIz|JNP)$l(5Zs`2O`6#AyR`*k%$QqzqZPY_FuXzL&4<6>5(!
z*B%GkHcsu7v@%8I(>e31Eoc5>xTJ5zMi#m5IEzH3%{lXX>CP|ZFYbFM>7CJ~*_FKQ
zs}9#fUc^xf^J!SQ7&C00LY^{YNqz?GFZ5UO3K9EMCm;NoSh7JTNkA+ag_iwk4ZE*N
z@nHBV<P$CZ48KwK39^`eJY9}e{l)NqfL;c^Dnn8Yb6sJ-lD#Zqu+sTwrmlBnicW{z
zDD470&y9|qIU5W>!i=`6QeVS?lkHO>N>+H7`J+Ri>=ol<0>?-kQXv)gb0i4t2gZC=
zPDbqb#eJ7LjD_trrJ&;Bh6OQ*oA4<71c)Z6n9ULMH7teLU^Zv{=Sk{6Pb2utI_eBT
z=+*fnwwkbw1XxJz8r)L+;vE}1AX#GLxsAulp4&cW!A9Y=^h@bsXY-1wC2Det7O@t~
zzFPlAeWaxMmQ(0H%y%CSo4mJ8N5nou8I>=k&-mdI-)FQYWwa3aPq^fs#LSu~Jw){c
z>-16&V=ZVH!tpm#1ek?kFit*ovHDEn>JbojK}Vq7&*r*~m3=p{va^|QB}VBmI#ZS~
zjx~K<psJ_S;LAEJrRF@rRLYxR0FG%HN1*Rs+`#m+s`<R?pQYl|AXcGNAXZ2!GQHpX
zVbbO+rB-zUGR+t;jOmze2a9U`O=~dDCIN{(89D|jA>)HIBAJclf0AS&Qo(~YgqS52
zW(QhhrIfxx(?pA(4ZG}BL1pM_`;iC#Y}^{EMT>iIXifb`-MDjo&Cr`)e_dI(p>2_*
zrOy~rpp{@v-5T%)iRH(xaYe61b^$**-ESoBNyvm>ILrGB3JV$E)GoLo_Zqxz=xAh!
zVPNqkJ!GR;Afs*$*$MOuwz$o(r|t^bA@Q7|$=6l#iK){HjS4ZXOxQP~@cLK($0j=`
zkD7b=Noq;5hfyNCslVf8>a+Y5%A#t~(lL>THl(WckTrIMGO1o5Ax{#`G-?vA@tOn&
zyoQ`g&&Y-bijCxzrC4b9Si3QVrp=^mB^I*Pr4>qxmzoQ?=p1?aVKNskSY62rw#cc%
za(#xFAEmYPLsl&-N}+sKOB!6UkSo3~QVVKnYCIr(?uPIka{koc2ZYaCA0BX1|D2>F
z9fPMZ(qUQ27)sp^y<@t+nuagQ9O+MJXm!Z#jWQ%dO)_~XPKj64m~@Nc%Cu*QxdE;M
znb$KMkmwW9*Gc_W6lelUp^p1qx-mKBH&G%{F!}fCiAg7amcE|FYs@@43D6xD_)T*B
zf9Ur6blXQag4W>}<~k#SUPLa40SO3mqN-g85|K(oe~;PDjL?o!ao~z5%bC)56)8tl
zHoirPI|HK=0G0vyP!t*_(pZ4|9mMY|5Z8Gom`oip=F&i%7qQdr@wI~EK#&2)z%BrC
zI5A4GLn!+67)X9hmix<8E~-w^hQQy@>v!qKs_ZHi_`hSpj+t>B0BH|7i#aK6Zgg@4
zgh$vyW|<9eH{pv}W#*Vjv=c3Zx?D#c7fk@ftidyiFgp;isO(%X<$zG!Axn1l0!V^^
z39>y+GCs6L-{caBbH@>OrYd2z-PB<AOSIzt2{Mb#avDS)h0+$jv_&Z0!<X&}n>_E?
zDx*x{RYlbp;0p#|k2l)WM`l_f(^>{O<!DW>P_vJ(*(cNtz>e(P?y$2mnpd}Un$O!Z
zM+fcPf-94kCl_(_uYoCCTaI9><ZYE<Tf-f@>#nDCagR{e#g}zOJlg@JA|cEy?GbAG
z_}adRyI*kc<=uPfK%ag&eTfVJd-f4>u87>6#^ktLVAJ`=?uZ+*$%XGZO0hXBLqWRu
zQpi!3FX?%wFI=<ZRwiH5gZ*0>Aa^~;S8W%57jqz|jh8%+h`9o@y)N%!_f;z%N?UJS
z<VykX;vv1>qNZhA6Dq2>>T((a6gSU<Kq46lUOEkw_GrUS02nVG=k2w3Y<UZhef}j>
zQDz>3<QB+OkTyQ2?Z&fw&JNTBDH8kmY@d)_%V*av!S3!BA-jXm?ucXq`X^f2cq8X#
z#jOs$<3PA{h%y0b-xHTl2-)>~HgL&%BiVg(yAgX)-O`gc^KPBs+Yg2d4*@I)ThqcT
zq01p5x0TOry>UE}+cmcrC@F6hUMm!Q{k*RqHjBggbxX6Tjp_`T^_|-{|NLS$6QW);
zFSXy8;cL2qjSe%_WSp01TuU$TmQKOa&0D&o_PnJeqAvC5?*rW@1L={$U$W`Cc#e@}
z7<7&+d<dHIAmScVEd1W60gXqnz$$TH)SkWAN0IdFf5sv?XwcOT>hHmtd2Ss_Z?9U)
z3ELY9yNI<=GMquoLM;$RHW89nEN;l4!x;Ai_R{ZQ99@B(Ug*A;W1__vO1!kTgD{9^
zIEC%tDZ^9PWfSSbum6JK)l{YqW;mk5#?Odz)dP0mS{p(px`_PHrFCkPr+lsRn*5Ck
zDT-07yK9%?sUDVl?Q(-qpLm4~w6FpkBk409Y<=`vr$AA!{~S$m8Np0B1}tezh)doY
zK)g#&Lcg?8d$kV>9q=tBB`5=#=Lsr8US&EiS&te$Wq1<XZ`ro7FG*x@#wiS?sp>hg
z<gvii$P{;ka`8Hn;QokiY<2nuJ^c{3SlYfR|LF6~l!^>g5uuN4o`0Oype&lc5fK<a
zz%&C1X!LpRCupG!Xcdpqyjr3)ud>isXGAL=|BYtUzeOULQB5{;PSln?_hJ-i|Bbu&
z#$7_=-sQ%<k=%WJ<KD&73n`2GtLAXyUOsnU*uL+M7u1B}sJD`|1b(kr@V4;YmYasK
zw<Y536udim@6L#~Tk!7Ty?Y|wedIUJ!odnG9Hc1B3(*Gs&EtGw-@KV-gX(bZmYcp?
zr@uGxt%>lFqu-id?tq-VF54A$RWG&kt}QFhwmW&mk;yDwY+JThgA!fP0s_6WB5W!D
z=!0CHYrp>I_gyd~3ko*M<;ed0J_rw+b3P7`sL(6<y=L8)(t4AU{$B&0uJzFScaoCn
zZcgvbHGU^YkNY|iVG?^T#s7O`Aq05ZdeKrh&`IH#cxm--%|n?XjxwTgxPq7zdK-;r
zGCs<VeaU`<WCPp)>}SISRL60I(HI^6B$ZI9b(}hFnA6YcP8<BmpS39CHCgTHTCgxM
z@F~p*z%kYYf&uESqPXrizz+@4giEFO<m>#Ysya8oW~8zq9Bm*HE;StJ0S2-s?laGP
zJ5AnV90pT;dJ>cYkPgXYIOz|9ns|J0@WAll?xDVe2lk!lAMQIe+;{B2fhULe4IMgm
z^au$TKwMs>9Wn#iaD-&TS(w-c@pNJY9CVnpA`WStxYL6rY$aJwokygGlD#Nw&qm1}
zk;d1)Lmt`}!t><hMNhmRCcYp|Ab)@|pNcOx5eXdlfA8Pn_FIOBQCd)QN%6tOXD#t1
zzaD-y`rL!&b8ReM9H*r;$vU|t>S2r-p>GgNIt%(5_fup8+6ZsrhcS*JY652S*tt<r
z8IVCt5*dfvitZ))Hi(~yRm})wFTc$8jIj(<qF>aPq!!))n>smi@g$l+?hBG;rHY@r
zKDZf#!@y3Y@$;8;cXJDcTpyq7Bd!Rvxddkg?*ukno<heF^4j^l_6W?_<d?qQaJAvS
zIoXx9rh^$3wx-XN9F~$La-rDHiYhFcA79Uj=OXannIO#nrZPW+*_u0uTderOeU)TC
zrcObgWCHRcr$$cUltMMi{b#z7#0N*@B=KDG9985?aFf>(m{fpf2uvRZFhXMX#0ui{
zXhQCv5uU9kPd`ngO04l5?JAuqPgr2Iy?sn;3}y49|4Ee$WhJN~WtH$*B|=s+pVcg6
z_48T%bE&JeZQsEc>{u=sy0!J)$G+8xo%?$>_o^lHzrq5MHRrYAOT%l16l>O-{a+n?
zWALXsJl+FOs)#w>x9hA9aibM3?pd+)MlIRIAiO#hDXb0G?OM9{){EC(yg3qS*cC49
z##V3cAa;5`wq#2F7P@a+ia%my|7_2WUW1<dGgMy8K>(p+!O=;aQ)R@}br@x7C>bgZ
z+D53~&47<23xnGHDvfO!wtgDqP`GLgSLlN4$2Q}SQSK5hb+FQMqP1|)f)dixyzMti
z8?59rz^fyhvC#6c$q@z>c{$`v*&xYZ<EUV%ss(ZwCeW#p(4iEBbg3caC%ERz&+2a|
zRf~cK*J9O={B%88mQU|fu-@dQ3zJmJOjjS9hLzzd&fPR_F@!ObLoADgZ^%KF^AXtt
zfqD^}EJ>8AYM_y8h9<WNAI2GIAffN9$H|7Hj%Y{ss&Esx4k6uBXdgyf($DH?+b%Bb
zuUbeWjFvZUibnBYAcW5tGt@V7dK%;g+}3fQV&<+hqkyM9&+VAmk}xRQX&RXmE#)y?
zd37#Sg4NPASc-JSF{(2=)80=?!BNXzKCho|nxDq*%Ubxp0ZtzUs3@=4v%vd6?tFIc
zY06{~Zm}Ga!xDARIVnY|V6mS54#8OE#O$m_iAp~*G0Z$5c^%hCH%6ZMb1EiLnM5kj
zKhV=hl*-4HqDdsF(D>w1kQv|}Q(LMDBgvRmbfc25f2F}3%TT_uvCUEyak-_<gh-!A
zMH1Tk==C+4OVxK9xy1Ztfym8kFJ5{vZ1aUpKHMRoBHMBzArNITVL||Gg~@d<X3kFn
zV)07-<$58jg3qded`59Us0PW!X<<`7BF(E2T%EkDbIytlGIZU}@~(y(dfwGMXN~4p
zF1SH2fC-+tjJtN{N_ORv^R4`A`4M~TT=J^T@jkWZT_4V{#lZ2s^1|g8fIRy8&Z|44
z6*WRdH($}MJp42rO?)pI{-KR&2QVnWd)eB?EaAm$ICz{I9foq@C=B~ePl=ZDx=>9Z
zGo2edKTKj^v8+?vD8vefC&!)#(TerCSUSi~&@05jgG1wh6F&AVd7;-+>8LsRqGvXr
zZo|5P`PA^4EEt+WvnO8imQ_OKNrK@8&G~goAJRiJ<P+%Z5#?OL`k~IAaB0oL;3JrT
z;gZBL+59-U0gK<jI0Jf6`B6;@t=NhjSsArI1K3K28Kg05^BXYFT4|mQWt`D7H+v{!
zHht;@Vs1hT8)A>+t>{(F79|z%6cD40&D?gRm_CDb1-t>!qPa%-J!JPM)4_MDGA`fx
zkcuG#yYYwvxd#^_GcG=ad*1LoJA^YIh@13)PT}B0@u@2Xuyv#s4C&8d0+bNj)Z@7N
z-4^$qw!Q4q;^KttaYvOL*{AxeYW~e;soa}TmKLg%+?V8B&N_l>+FC1-?UB<aen+92
zEBQ%l%?f&yuO;%6`b%v#n;k5dUBFY(HlRZbOu_}?NH+W@g|dLZMF&}242=ht<S{y2
zq1?}uAvTSWTG(FTf+&Z&P;MxXUX+>xM`Jc0+(`!{W;~P*U0PfhYG>{T=+hb0>tABM
z{v|w9ub29M0mId;XHl%X!LmHz^wNTnaB1yBK-#etkPi1FhX~pH`U28U(n^6=@q|n6
zKRBxE#<wJV#A_%^t{+zGg|kJWLilXk=u<QQ2IPm;3(J#MsE6gLePc>A`oU4l@tdxj
z<-HQiT|RQB8}HNzp=q)wlofJ9A5e*d;orIt!;XzHteaW8H+~Pf<a(MdMhrb0eQ<l=
z-nY?R3#Tj4gudv8|GgUi_iuDVKXHLW=^4|7ioZhZ#et1}LN+;vU(wGNPaTD?p^d({
zx_?>9i0vV@!mO|#+L)r2nI5S;Zsf&-m=A9Z#gY5bjqcj9`SqUzAu8nhoZ+-cc=b-@
zA^h=24bN)VyHVe3{KUo>I3sdhGBu9)KfUqm%L8!#m5uIN8d>nE(G%gS)r(GUj1xZn
z8(m>)h;}Kspc$mhQ1E+3bdA3gmlqnHlK<I~P-<W+e4dT>BR-Fx+vpaYl-)uu%;0Gt
z31+Z)hL+fb%dfwn2lktklH60LGUH}qjg`f(KW$(mzjU??`>l#~Gq;9+wnAq^E~Jz_
z*@2Q_4V3~VBZE*f{I)ME1VCu)mf~EK^O+pXGYkWBd@3Q!cxCHPGD-(-wlwcPv(Z<`
zEtiL8m|#Hm5h5Ml3i(a_rTCD?vQW--yS(O6NDwGB`;I?5<PLd5B_WSL^Givg;y3lb
zp`R_M9Kn8(L5vp!%7k~s6;#udpSYBl%2|z8%oa@<UMiohfWK$uuj(&%Roi|1qUuL}
zlGhmSrQi#)8$yTVXZ1JuqWmo9TiVUWugEXUe$-!TP4q4p`P(E{uc&_ICm8vwgm0}K
z&Szym>Mw`>%Nd|aPhm82KK`q!U-=2^ROR(7xg;7bkb=F2Zv2w$U;Xt1J1|}sGj31!
zdDWNvq^{B8j(xT&`0Mhw@!yc2)Zb8*+#km;tFH1Ba-=b9V6An^C7JcTR1vBO`Dpia
z8cezk8h!d#w`v>gf|N#=_Lo<GRnh^>8Tna~PM0PfW<4;h<Qb6&k~qOVH^PC$F%n=z
zZoEuFyRShaUK3&30|mfSBj<w`AP@;r2ql`{V}0Eorh29b2Qx{#I7#1)3WvnA5(N!9
zJVO^IPeR8JGQXk=5!op{5;JBea*9{Uol29Zawuv}L|$hqK$LceD8Gz&ARip$rYBfj
zCr8hYJUcect&f3XsUwa6Qw|&jh#+Js09yzJxXCdH5>qaeR2Zp;NlyDc03EzQYJf^b
zP)zbgp}-V4U9SX%G)Lh4NRY_0S{a~Pg!R_*XAdC%^+N}T`cW~+{{{aDtJ_*uxl*%8
z)F{SRSjRJvldtovkMGdF{@(t__Z>l`hsH)vjgnxr8u!EVL%L!ep50I^Q$y8ylmovC
z?>H9Ftd6PCQJAP&pH2eNpu@B8wC5;yVHELBJU4PN;1THs8mZKKj*)nJaC$>pO8v;B
z2(%T`qho-MV(Wp6L)E)JGZ&`DkROnR7+hssUZ^1zEXfg%<WGjR6e(xxvY`+>;vyk8
zD9u7?l?mZvV1fJ;Cz(#oHpXP0h*K07FnAWZ#UEfUMJ^Jx_WGP}q^iV)m#fgjh%Qn=
zo*N6E^_+x&yi|&H*{7^jHHjn9CsRF1yvS3<=yN2UFAh_mtPmSmpP@LC4$H~zk%<5r
zRUFBK(}%lJ984iJ-29^fjLwUsYH%9kjg2)Fa9xJh5rsBHNW-2g2xNF_Kg2|(n}#Yc
zOG(X{s15u#v}7|ftjLqUPp=(tJPN~pe*tO)w-qnk%k(rtPsFkXl{JkuG-Hx5J`|%s
z?&i*7Pc^f(S01C(I5Y=|{cLh9FiGPb9at<p<+a|^4~`)Tg?VPuYMIXQ84^2RWr-m=
zZWK4D?q-n1GG+7!pd+10U$f}8NV)zC+<g0D4$&-tlrocX4sgFh`TsxU>+k7iqu2eE
z!ftwH0tZZZj>*6MF}d}V7ZNz&4w1i)>4`K-nXV{P5anoPj^j^Vpq%h@`#buupFHPK
z*i5=H@wzYKDV8TPfJD+NvN=o*#3+2+KT<$!TXo!Pbo0=S@%y~=G)Onb1B4M<&~)jQ
z*i~FH-Hy_2FWt&0mM+T3F?uCZam+nQ#%@I6Kc?Z0o-sz0MNz6dpf)0Br;ubTngfg^
ztO!zU9K9xEt>midm8l{BGd<PQ2c`(ZG?!_+88a)BYs@+dy<;MULeB*1ta(cN4Kt0L
zkqI!_L|Ug=sSl1B#j{Wm-=rk^>FM|J<f|4b+AK5YC~sMmqn-4<i*62jWgWsvPuX<K
zq1$=-`nQy~Oj>6p*jI7XisB-&$e`%P`g<&o{06W-`7cb!GK&GQV*^3xJwrG|^vf7t
zkTevrQ`wL?OUZ4g8yhkw@g&MKN+Cq0T*BqWYRLf)6mpp4o4QOa;}l7+D7yiXmqEf5
zVq3FLz?zvFH)a|>b%ynEZUWK7QZdlM(+`NIHOX>a%*td~NDPML4P(xAuc(S=$(dS}
zCb~zvM5;fB1UIM*OY97E>#Z3eU~UB!4a9zA+6p<CYS`NlZ0)?QeZ|(fmTWYqK?~H{
z^?r%2W3PT8NpNjhc5Qk01ZekZ5J_1$Dik&IMa@FdKE7z*vTa}3v@dMi2hzNdTg&Ix
z3c2k(DQLWxUi4mWIRsk5j&eu{ddn6EZ#3~`tvAMRb-z6w@$829Vbog_hLt%lY<+^Z
zU$xYP@N;{?BB-ueGSZi-o#EbN;hy7s)p5jhr?CFgf%mKh@8$YnAtvnbt>)%0bX|8Y
zjo++`_(;}=1n=6GY&Wa;svZP@AmPFR0!@8v*;XHI?6~<9-?%?)_brty+w1NkaK~aO
zlG}<<UckNb-mR1mUuPJ~&Cl~ydng7=`Qpil#kX_<an_Lm8@$}LWrZEJ5nJ7j{AC*$
zy)Zh`xvIFimTm1}Q+wFfzUubA{`}SF!&Tis%=$~$_gyP)=%W;_mRE&++XY`Y@9U2E
zdL!i!?<`p@a=-rg)yEf~c<1mRKJoSwD@A}9%tu8)L%N`uFK8ADy7_|c?>;5;KhEQ?
z;Bl~*p}5fiV}BmNYf5_5q9{_-(-JMJixzK-7Wkrd-S=&#hBV$(GiMFw)<B!ItRCW~
z(R6n>y(UTuqt$#)wUD!&&)E+B(8}s?&CXk?e9hiSCB&Y}?rdqFvy%NiDBrez(<*G+
z&u`nmT)h81n-}7iMa2s(VK3z`+_v}KCcbSjyyXC2aNx4(4)Me5_=385Q?$ByuJ5%2
zmkx-Uv<puzoDEwl0k^r%^@)Wi$rTDH%qNLAu2?GXc*+D%C-3PDcO8m&ptD*uH?+_l
z-L`wKPq27+i$_vn?_M(9Xu4(zTedKPMe$25Z>e3e)ZZa(^zFQRd$eW?dPg+R8-?m<
zMfF;`&a>m5F2w_p%)+??3r%3|la?xB|FT%fVqKI(Ad91xyr?A?+$9*Bv+JC-OF^Nb
zhi~XvcA%H_gdIK179OjImVrpYAavYq4#8Fdh*9#oi*MK^G#puOID(d%H^Y*c;A!SP
z&4Q<m_W;KAP<Y#+u;;OP>zcvn$%^KbtQqmkw0X%w+0x!f&K8VIPu67%Dm^Pl$gEz@
ztbRybQ7U#D??(IwBkn_&Eq4k%uMb@v5(?}2LI||(g)m&Wa39OgycLRduf6p7msn3~
z<O>^x!dAYp^*=lo-u76yo!z%Q#upyGY~C!EyS9Q~dlB|Emw{hfS;O1Q7=Uao@2Cws
zTJJzvJ?(0m;OgOBJ@_nCcJP(JPX+oaX?_bO?L4d(0`Ru;jZTQg<@JJh2%uO9tinR4
zvkr9*<G+;$`O1S)RKEX4KO||ZAXi-Wem-z}*KEuXqmQ@yM7x5k&eCXUXS8xl)LXyo
zJtzY*zuOvaIe0%cDLd!BF(oq#G8egJLQWN*Q?*nU&Te?$p|e)b?G5Kt0Iu3z5r+7&
zNta!7eNsdNSOyYuZru&na&G%tGJ>y}^tqm>r)ptlDL>r0Kio3#ZWDy`vWN8d%=8(6
z#2t|7t8Nb4EAH3|!!{9P7e<O|I)$3ue9i7KAgdjfVMj}}9#Y&@*D`^yiy=>Xl&HX(
zrG2;UZL6>q>GU#YYZ-L+qi)z=L`Uw9mT!rcH2lnFLP}0uLHR=2>(y7Q*K{cbS<&K3
z`h&NUhWE{IAd%?O_tWt-pZZ}oLcjoI=2n=UBy<IW0f?4X14Mh?di9w*o=Vmiq`uoK
z)bv1#Tc{c2YX(<phE{XE(6Fn0qxK!^O74!ZeMdNV#~o)iRZ%~WKW9G#7PEWwtQ)oP
zg)Ks1HxGFgS2si)Gu@bcoG!sp%}|B=mK}ZHFN&5|&kx;!w7G?_87g>tMbudwEo~zI
zmG=qR`NK&ghTZ!RYqet#GX1p0z8fdzU<-5CU043=W{7o`v_)K7Z+aPn86xe1yMcE%
z+^|O6I|O$(?<ORH*9I;PEc(%-JU!@K1`in1g{W+M(ZXc7b{AjV9kz9cP2C?pqelh3
zufy$QR!u-J`1r#S1C4wgZXXAT9Q%WUy-g?V#uZD^31jk#&-G+m>TSIV&$rFJdVF}V
zE%}5l{k=|diW!qnSj{n$3GOj_@`=3Eb%L2`hz={Z?%rSH4#7;z!$jml`mbS!LD#Gv
z0&Un!BwkwL&~c$4si7qht=c*Nyk*Y9L@N!SHO(4TuBzWV2ALXAAdRZMyf5he$^I1F
zQ`z0bzMAD6!aa>#Hc3%2W$#ZXUUFP0%a{&ft$w;^_-(k`*)#U+NL}Ga!QHXJ#ks*H
zTjeufvdF1G>^w=bM1ne;O*%t1NFa~_8zf1HH|JjvCYR;W#qyq~@{eWO=NE`3n{3vh
z)fC>b+IFD!CST82=xZtPm7{)@pSa(BNWMtQDao%tqep2VLJxZ*Nh-fnQ!dGblr$)y
zN>0o{x174a__NRw+$fVYn+6LW>8j%OxJM45{)W;nS%^D|zEGmN%1?ebQ4+Otf)Hi0
zKlS&z=W9~mpEV#{rTRsFf*xWz)vD|dl;IRbFg{7K4uYoy5&5#&RDXdg^`&Z4KC9#G
zDjn8ec*z2eLD82L1@KVnE6_K61xn|$sV}BJr<VonC1HG|<SP*cOgAX7JCN&p`*C{|
zA=%U5?_DxzjeS+=7;<8UA<=A!Q9QA&(P`zsAPHasSTWm(<O3$6N;8m0l2PTpheOXy
zOQIx}co3AVNH7vX7X$qY?0`hp$mB`?$c_^bu46_de*UuV&GN5Szfrw(cIi_$y|?<l
zH}I{2+a-sXEKV#PGEAU@j1YxZVmRH|36LbHhC!!p)PHfe_#z5<#*%~6=ZDXq`STyr
z_4hl)_j96Emcz(61hOFINJleC$t@7GOiknbH#IU592*TBWh!Mc$7zO(Hg)Qv`svJX
zU#08oJ7ZZmX$D3iDXo5tIbkehG&n|*LaHnG6{^KQr$b(jj7iSUk0j0uK&imFnBydH
z#h#ny@UDE}-bW2{dy(Cbtwi+!5n06QnrUZr>2+?N=~JgJa2yed&W=t2(~T&+XF!ef
zNY&4XN1l%-C1RBX_!g-59GVy<w2UA@y#X$rP%b=A%heNr4V9;fI{x&T^A{9wupq<)
zXMh4XJ@vGh9Km{x5ea|-6IpR|>I?|X_3OGU4LxGp-)qKA5eP*411&*Xo-ovvrAiVF
z%v>iL2>bz}?to;JhUmE8z%!GTmXX=h;X2d$N&2BINBD23BW5FKOdt>vvv0eXO22eu
z(ee5dZ@VQC!0cQ-qpcx%8WSR=g%PWqqNKN(`kyG~t!iB|!Q}Jg|8vMLH$_jRiODeE
zIA9t{2yqwiA(qCdJ8a;HX%Iy#mQ3+Zi6(4*O5qz3%4dz!w2V+-Nd!<P1d;5dBKRj6
zDdGmG`|C%!M*5g9jnFs?I<hq*MktD<Ge8p3SUnkFW1m??eL9Y~uuBw~&XULlaf5xv
z`_OhcK$T8>!;gR|VAsJ!tnI38$r^FB%~|hcW?#v_oR5PGpIN=MJ(AfzmjbKfS2{0u
zE<E#v9do9;u0wNHAPIe-%gRrC&sDy7YQ<H(X2i>1<rc0b<M(}N))cL!(vwN&@GKfv
zvdY%X^qNMmDPK*0BYmm+_cCr|;$*dw)v}gO-z+*;{+gAZGIYf_DbSN$mtVY=Nl#hi
z=Ab91&Rf59YQ@vMmQAm)S5voiWX0XImP@ZLT}i`IV8z?AmWS8-`MR3M8>Z_Gk)n=k
z4U3Qc_Q|D&<)V(Y0{T{{^VKh%y>5#XY`bP#Z2Ik<CEIerwzVRPrWk6UYi@e-=)9$C
zUh-d}%kxoDOYt(7u~uO<y8w3f`lqjcI+|N_qZk|3;%e+yi!<hi*76w`Tgh^I$!cxW
zjjHPhVWaxm!Nq45^}iihIyiSQT->$l>lA#<I=kHsOsj%73YgMi*ir#%L4FZ7<8Qko
zh24?7ZYYbIbOmmpwq@sE`PAi4MM2tm0ur;ZVo#g#g~K=!$nussg;ypnPe5OQ%*RW>
zP$j$tChe=E_5x=2z8GJjoCx{R;;^acqYoa}>xw%+iWO}8`TZ>5&3yn-Ojp!a{ATIm
z$nOF8scJQ+B<egE&2`U@1MI^Kq%>nTY^@~c(s9L=x0ap^UCs<$u4_K^AJ-fR{7)a`
z=-k^GN$lJ0=H1O1-*K3CZ_W5li(_|}?z`@^J+(=H)@9z~Gk!1Gy{F9hy|QFHbMIhm
zt&?~+VQkTAcaP@c&8)nNYIl$@*ObZBT6eL_0!>Z4u-{d{TcF+t`<P7nFeQ`%>BD3u
z&6pZW^+Wbhl0GCKiPDE=B{l^kA;c_zO45hv8sC$dM1zR0ET?Kx_lsHzhRBCeg_@Z)
z$N9F)DX71Y#50|a!;%`;kef%HIn@yI6C~QH)^W|IsS@--MS32gG*qVKowKqRO%E1{
zvCuveGLmRrx*)%5(ZrV^o3|e3W!+7+<B2_Cy4HSlT#-~%1FCjU2^m9k$ElnyAmc$4
zdUi2XYKz?VP#BYI0vHUM$PuYf2Gy!VrB~@m$u@nwR8B$tg}gxqB;qg&(?xvwV6FJ9
z(?R*O5>mQp!3Nnyl?TJl))B0e-Tl}%|Bk_L2_<8HYlTFNRL>zB_O~{+zqP$+Q}?&N
zjCcjo*AWfdcyb@&39CE}LM*fNBO(qNxmwhLsOo=-TubS-gVy^`v>iGRWg@WSs)E>d
zZJ$Z?iTfh16A{70+BYa4jJu>VmQ<e7oAfmw6~#S8Ibe(>wh;h<T*r}^q6oo5=lxj9
zv)D_Wz9@2i{($`dA>D4$ZIZm!Pyq<{mF)qbRzTZok=)OU&6p#9OKvYym~!NhE5i*6
zVWZE)@fBj3;wp|snotZTMyCQXo9LwOB^m3;DS1Q{V50^TbKJ;efP0T(@21#$a0}2F
zj$7Z^qofukt?^<N(tduJYH@>Fl(x5jOKUxkw7^A3)8&*3*;RaY)lw#(T?0eiiL8KC
zN6!4rVpqh`IA@9$RW5Dgi&{Y5j+So?mu<TV?9pDpG(}C`#gd4rd@29NS>CsUH|@ZS
zN>zU_rTtD`>EiQzUIR1;3cZBq3A%mM;Q|n65ePkbSo>hFtmbM>)S5m2A{N8zqi>zN
zcJ5Z$_iDaX1C+vov^g96WM;3R5M^)GU#pK)cSP)+&_8h3-Y8pfZzY32ra}=VX~}uB
zPv|<pcO8H_{EBHP>Xht)werr^8%HC~jyZGGl=+(Nk}d42T`|?&&8s3?VMVntf)y@k
zy0Mop=mH&*E%?B%%oR*EpwA=AOCY56@bx`d_06@=_6H}%L>mH!>q^(<E|9HnPT`Z&
zgAIW*1Iwm0<L6+lXs@nBfGh?u==^gFXBN*co`Cnphp)09v-8`Z7H9Q0>Hf6IyxVL1
z(~gqeg~mTCOvdv%$`vRL;!65M^aG|lhTp_Xp20~!DDde=Ur)JGbv=dDrl#(g7Ge|T
zD}#C-2gsYUDu2RQjO${t%H>j(l2!dNQJz#ODX3k2x~Hm%4ugEtxjx~-9Iedc@z#h)
zyDXHvk-9?ri7v$PV)CoCN%8t;MlJPZIUi7rj<X-+7g4ZCV@*3pilrgY4NOBbDJ0%A
z;hEt#0+NqRUG&hb!H$QRG5|VGf*K4y1xHqiWh-NzD`!%$RXufeQ`2=K%5$CMzfSfK
zA*hSf7a+PN8V|!UwRdnIBrwk4SbJo2)N?i%JRj(2Xz)*;3e-P4F)>*`GS)CU)c^!@
zNM|&VIMqa;LCTnjp%$n=8=Qnp6;R$sN4P17J8+}*GtWFik$$;Jt~)u?(#%fIt$0vQ
z&X}lYq3Sc9&{gPFIy-}@9;a3Z$%~Y!lNV8R>G&MePj5UtZ$iXT=X?!iy1!e0b}rri
z_URj$i``${`<1<KpZ@3`Ru$bVIWGN%GEuj>M~eJ36^I+?Be3X3OCp`Bxe7c5XoisN
zt}!Z8v-YV{GlLS5>Hnkr(JuaF-A(V!?r)Saq7v%Ecy9Ef2-alfjFc=}`u`8D@N8jb
z5*zF!|01%%^&pB^@@W7Z200i3mBdZj=o1;FldaGFh`i-07VL)Q4n~V54A6;;eNo_s
zE%bj%{!K)3VLoX3krrTa-Ob#vpw4(6RtbMjMJ5p-rl1G&k0m{PNl&B%jAQp-!HOaA
z8q0WFnPBS#KblTfIfcZgujh;Eg`!rzs5M-;1&ZEn<+x>+-!rD-l%-1r3oHwqA#Kk_
z@@yo}bR;7s@%uQ96@01ldU6<y-JJSJPUBqqkDcJ+0_IrAZsfBYZxr21ie&f0oSmnX
zr;ZaT-42|gxq*cwaBknT=RhwoyB3hm&fNJIgxo4Vw<?lb{dUHRW9KbB@94qqfQnMh
z+dw0@SrxHiU(m~%cU^D8QAu2QJZLty@W3JQf}yWZJ^FH^rLYWROw`TTrG+Y>GEDTk
zdHocrAW`>ExM);M3e@@sDQ`Uw6<WXHTpzmMKVu%yU=YX?J43_KI(Uid&Pfl+HI^p`
z;>VduLcWPqmT;{<#Db-w$&S!cfA*W9f|ASx&{N`!<)ws@)Pp9G;{8kwLyPqQ=r$aW
zi6Ia&oTKr348V^j2JAM7dD0v*Z*tg6^)p-?02@nNky)trXr&;=4#i3^E<)+~x^Ztp
z@hNSEjfLErG!I*8ayl@CIRxAt6BNvqgJYagI_01$`$ug;Ts`sfr_eHwZ#9Wun5%M-
zQ@_UJk1&ya3k(D`$lv82qooK21xjsmX9S?QMUFxJg+irVr{*bA3xq;n;uTVioz0q=
zQFk-^wI})lqfc_u>t3|HNPaZxLQ9294HqQ!YIbR<$Ef~*oSQZ@(|ZJRtz_sywqGI&
zsgeW4;Nmsp!2!TNf@AWe@-u^~sAnt7%=7({2j+;459Ccx5@L%)GMD5!JtL5q^h2GT
z==|j*s18FX0SF8;<$NX%Eee3rNBl80ZYEd`ay!<JvB?XQp3~4mCK+}@yr}2irEzc*
zMUEMRljo1(RLvyn7{S^TCzAMmtbDOdCfo}xZ>69rrY}=?hXo7hx=SS-7W2xbAPJI4
z+yEIdeDb2G?mia0$dOjLsOSC{^z<9Z5<6+b7&)x00@!vsAYynh3`4fmzCw$tk8UKK
zCQ4G4QMej%qmINqfvKG9ryJo80w08SY%#-`Q)D<~g5U{d!yix6_l$(BgYOJ}3}qdK
zP5``!<uajIhzg1)X7WJ@JAqiX=pe@>3F*b0>m7yzXGhKha|8$lXg@?F`QyZ;UUn9R
zG1+z@i_8zLM<CqH!bdD!Y$67`Gn1dN6Nvi;L$JDl2gQ6@cPHH@q?bg}OW11Z;cXt#
z5`bXqTekJV?gc^j(ebbRXJil?2XqjWA^8JQpIlEkw>E6A#r;l2gHX}KSM)?G`ohk>
z`Js39%Z`1Z3B$d7fG;12lpmNMf|XmL?l@m}JnE`=-)N}M2|KHCQqC?Q6A)_#LtZ0<
zDDo<!u6lU5Z%u_U2&b;0MX2A+*YAcCKHN(-HXv9HXv1}T^-Fzk?Z38PsNKWY?s;El
zsLP4wHzDFW`0!E0tx;DU<Xc3$5>8!hx1N9mCCo!e$-uz*Qa7Jlf1`LgcW1PwF6^rM
zaYg6C?r3G5P`Q<_+#2;Zgq!+ro#dPLg+2R8P^fr;i4-;xAm5FVYwm^p(ZaIDPc4pz
z3!8+(t$g9un<*=WJEMiQLLmvQ+}L}&aQm87SJ?%@qo!_s*j0y9cGH%3o(%6i8rgCz
z(s+EnPlVT5yZ}=isDZksw+>!A$fU;Hyv4mlSbKF{IHuP@^3F$+cRoa6asAp3A-!Tb
zUD~oO+sYW8LIWrlkXFgtaXIBqUXf@UCEU~-$?Jndb{_EgOcueE$D8t2Oa+idTWDhr
z`MfD#FnM^BX9WU;rnJ}6E~WjtW#fK{NXZy?x_dvtk$toMk{0Gy5aUt2wDw0tZ02$v
zvfEHNfP{Ia8X<t`IwG?rTmTusK^vy)lta6Ud8b8cmgjl!92IgY9ikO?gGy@lD@07D
zM5o}uGj%-LYOo7yQNH}F{;Gs#=35b#&{BgR_p0IKCpkaTu7lVL@~608trj3K8wGx+
zB+j$+$dQ8ZMrYl4*+xe$8KOF=XAHB+Q`je+fhfw95%2f~0$b%q|8lM$(hD$sbAu0#
z0lOlF7_OSQRLRXKL%l}&nCR((00*W$x|AJADnc}gZt?d}Dt48G$VR;#7xryQ<8;<e
zxHL*ehw+4q_3t+kgT_urj)D6ka<VNUAYR8iHoCzlZSN8;#tt%R*8oJ6%#w%_`W*JX
zrV!qrH=O%4>YNOtYQ)FBB~QV6$&?{vh7eFOgn-h(*m-aZC_7n=+9o5ATD6@X*E2Ng
z&z}rNgwhg0lt8>RN6k+8tNJU~F<2=N4*T#CXYuRkpWKh2hMDjlH%}<+Hl(YZ!X7yL
z5KOvW1Veer_>zS^+2ZEKZnaGElRpjc+ct>3r328!a^3nhX{JSwwJ9P>W)e(l0@36-
zwC0oO%{XN|wTbHFh@?81F*L&|yWKdAM@b>F-g9)?gIy(*B&V3_oum*ceXa%7E<k(E
zr&Wy*BCJ6&1U6Pk6KZl~>H@@GE_#4ENQAYgNk#2xQB&zxQMyxd3F(&##YkN}7|J54
zD<}<W3=wHi#|MaO@&_(G(A&i^iF3xqrX1DP_|(|UXzqV&xS~h(Vj~(CDoyn*KdGVO
z{5>$Q7eSaS{a1<kIR&Cs!P5dD-qWZXZiH?OcF)CN_xgvrdj|W5nL6d+?n8Tr_w>e6
zAo4T{xIEK^De(zZGHU=@XE2Z_I>Zs=0MEyK51%<T(~z(amAZ#WRaI$*N`ONkUk1*g
z2ARAKfQ_v-vMTlJ;3|o_Z|8wEUATSjz<ajBReRPI^JViFu|G|=dVg%s{ws%P)tN)P
z$uAzD2N-wztwBitI=w%?ynT}|{}iAJ;gzl)xBgF(x*K%gGS=epTMczRg~o3e8u5IT
z@gH}CHhK;-5Yt71c3h^2ipGSUhEG9IDxiLbpb=@cN}9v$Xoyo?09r;k-ND#pBQti1
zGn`})vzZyh<o+5N;cikIe}J3MtErL3%vq*FjEiu~MN5fpl2;=!EHK`t$QX#Iusj^(
z#?C+`E5Q9R#rY?6!=?=+NxD_gjqxboq^Gao2E&A-hzN%{G9@W$s(H{gAbZ5%t7!Cc
zKOo<<3yhh#QE)P$l*-YNj5(BamGKUmrlg0(f|BA~%pMpe_9E2MIGlYT3l_&!Wh#7M
zrv$!96(BM`VaP;8ZHJN}_Y7qxTXdiv!-_2mzlp{mVTh9(iEj^%`Zm+ItEA)$r3@)~
z6hXNd(KQfrZD>?Uku2tbaZ%RK<5G;7$dQyEV-{G6J&&po-)s~+<PXsY#E3U%om%C_
zVmybL!UqkOJ{lR<FnzqNi?U-IpI#!QH}UCB?>r@J*~4$yvz!jAY+0`jT^hoXEpwm#
zzR?Id8k5eMeb-bVm^znDoj0H1O}lQJI`0ypwSv#Ch-6pIrQJ2>zHhLay+DynbFI<S
z{W6^yR&u~`e9xNm>!12k9Sq~WaP5U3<#(=@`M$dUjr~GdCtubXDcgQ?gf9cqx|i8i
zBm%Ke)XNw3&J9H!-ms%CY^lSYnF(ap7lC;hC$$f~jiuzpqRad5lvFI{;HS8B;qm#j
zJGLUhRt3?Xh>d9kkO{?Q+pef@tKjS5eLWFhA5<akmQ}4f3%;~>@u*O~lP}*HDcp6d
zI^sNlgIYN>I=nbckpe^&aN+?bPnr&;RfLr6gY8P3WwW40AlRX<P#v*D3qfe?;TwCF
z?LARv39Qla&XyJD7DR!Ha{7QnFF4zHXWLDu(0-i9pYu4*Wza(atUQbwZe1?gdM`Pt
zG3&32wl3(Sx#dflE4c$pexZJVuOGObJMclWE;}b$w3U<*>eh7diK(r&k>x*J-W@6I
zxwSvyJcz8<BI|@}uVlSq$7;<sp=LW@vmJUZY5_p}wq}VI_eg+h#ZtCfQc04sq7F=?
zr1NGsU$P@?aeoM!cR|-{pSph@(jHYy$t$M%yVMS4yrV4Qr~s`Tz<brCFlUM8H-ww}
z`TYJl+g;UuVo%iKg3-i<=U^saoy|lN(sIL;z(*hS>rti;A^K3z70&Pc__a^Xed^-?
zZD+r2&K)Q<e%sU6K9HOIy*%$gmg##PJ$k%+zte;-KgdeP^AB>92R!B<6sD3(Y4SjA
zDn~>26#gq0k;E~Gb@##;1UP&eg32eY9RS02vqR#WX1#<<UYP@Fz-$4c=kMsgtQ_Ow
zIlZz!t~*GR9=pJE)oJmIwMh0B@Q}4g^&unBKa2odPeT4^dPunB?PZ*-6Nvxd1%pV(
zh_gvJYH4DPYDxP5%cK+gmH7J7&<BuEPb%Qkh!7>%v_9l8tF@ISh5!z^)K0i?TvMg2
zbeh|B5A(S0CLhjFUK~q6!heLEgQ%|?FI^W6dkG~yxR>A{WTc}WFjDA{A?^LJJ>CH#
z{3bDi?V*NAlQDG=Cd|T=Yve)`nMW=sGwPK-G~?Mf#Z=o>z=?J0^&Os>;$F76)1E@z
zkq10gFU;0@UYPa8QpELb#wmgyNDT2h(G^C+Qh~@Za&lrcmINGvQxIx=8x19r8%fFf
z=x*>T*)~T@?^@Be#>P?E3&rVWtKXe*I`jp!0uxPu1KClsmu)9a|KKzJN!a9us69*`
zrx29ENHCT(HG*~if0NHJWsPaue~w;%LN_KU{V|@fR?83sOyp_$^f1Y`UpOCNgkd7!
zGW2T^Ym@W=XlD>$yBeQa(lV!<sRdzjRZN+jshTr{S*nHrjeLpmD$A2U5BH6DsPba2
zWG(RTY0W0FG_YGUpdtO{q)@Squh_P1*~Uzebnx~LSQI8r={<T(`Wf}%`o3^oe>i>j
zy;SA~_37<cDlDFrbT78RQP^}<Rdl!Wh1<if?NPEn(#2<Yz2~XFycZgTQD?Q_Y~Y;@
zAeiQ4-A_&RW<W*yo>N!d31!&1{R>u1+_b=yLAz40H}Lj`4~U72aI%gf@7(o)5l(lU
zB_AXce-|rZEz?b{;R|Ynf=<4mGwSw1zmC)(v%rqEdhX}watan&Wi?|mI`gCK!FfFr
zD{cSg0ikP%$6v|Nyp4>)*e=5iak09#m9-$UXjNylxFqT+hsNPrrY_U-Q=J)WwN00E
zK)+T3GqMC_4f*0|<@Tt%E?Tw~#uTE3q=pMW*216aOxW@C>QT_Oqgd>$qL>xgrEZ17
z_-)e`M$_be6HT&C0*S^w%~|(OV;DepE-hYn4mv?_O}ymM3zGy@XysI_BynqqLAM7Q
zZl49(qDtEM8l`~i^J)I%AhDj=<xf!$_(A0qc_~dLajKF+G$D&JLaNM=iomIoF3F$j
z_jJ-+8q>l{{j3G7Vbi0h;x`ACl>+%xn9{1WElVZEpZ3|LStD4h(0#+oq}L*SVm60{
z$1GSwm_HRZCT91fab=AVYlQA#+cM;Bxt6giC2!&{o${did$l!*w7=YHT=Ek$jiN!6
zl~-G=cwWVCk{l!Qjp>W6x~5sPc3;rS8R-r}Ue_eYF2{#;!Uq8yi_bc9G)<mY_9<*X
zrYEDq3`t-<0FVL0Pj!~nF~A%go4~m&4v<D<FIIOa;sJ>mG$Rv$B=%p7=QEy?%S^vg
z7Zu^Tujoc~C!m6M!f;GCY8++2b)(6CJyvDiXbPST^mNhaOZvDw;pn3BF$pAj3g;{a
zN~E6nmHh3&N$~u@=*5^N-Xqt7Avc8O=zB<kdzWtCr`zY?%#p|f_hY*K3f-_N0_;EC
z-oY)Fxglz99`p4*nv0$A@HrhOjW85@^BW_U#%MvsilsuD7T_)BIQJ}0kN^e25e_+H
zI40a5AlwGY5hkb9hYYP(w7X={nl9970NV;>@FQC3k|&2*J**TN)a|A^Smh4HlnFFq
zKu7%z3@|{}heU`$MbuDEL*<tfr5^drP`}7e5Z|__)JklQ6`DE1Bx{NM$(v*t)YKH%
zpG{S1qM=lE>W~Kp=+CKI6NXp{Ob{ud)YFDpFlH~MV+g0p;V_MusQ+P@nP>{o8iWv!
z#8gigh8=nVfc`Zm2Dt=8C4VjLl##3&J(VsEdNU+HK>wx`LTRujWrbp|k<r1G$--~=
zEGD(_QkKxVn;NtHB<F{q?wB$siwo+U#-UjHZg6`KiMH+5^)_0582Pgm55It<A9oo&
zTo&^)i~Sq2ZX3n@e&v%6XQCU$k6+O=6H7rI^9szq3*_(s)u^ad=QzT59bURPzfW*h
z-*#5x<s<Gf%4rrysvP3pk7QQ3&(QFvIf_xDV)n#jxf5t^?l3&Wtfzt9HhgL#083HW
zQ__4Q;uww4*9>Kp6HZY;G?PfudfbzU0aE%S6Bi&6Y305^b3zKUb{zm-d)!<Wh&ke4
zhebc!7bp^{XYMKmb%=(t*Codtq0bhSL)4!AO?v$g$QDzhlh*|N%C=q#63ZD^y)y&9
z#J2j7Cdqcxz|Wz1m!ivQ!cI-Fd!WFzQqmf3+b6Ug<J*pbOu^K*QglV`xdW>ub=Uoo
zk`_=Ju+wul3&q=4inqhap1XW;oOd?~?jGLV6LI&=TkbfD7M+6k0FOV%fz{IfsH;5c
zD#JFlEN6ZY#1wCx;OXE!9T890yfs?UE>!H{EB1u#rK^sjaB<U0%l;L|K(u<hP(8?3
z559YXuYQ887Uq_PE84?39rMQb%G;t&Pq<_Y@>r2IZ(TUW+e?U?QnuI&LXf!Gy^(g?
z-nmw)bMF9jMRUJiXxh&=?O$mcT(KYEn+C5rmok^S=ZhAe;WNF9O?+lqxM^_Neqhz^
z;2lS9Vk3Kq?>e;7bvWWU60sk_?wv&FL2LWy$Myrva>{qA?0tnPvCR1XK`OoHW0^`v
z5J%sbf89Pb6`g=BD=*^ViVnLe(mO(XBwq4#qV7)E4#hYN$^hBI6faDTnCPKAiw;H?
zrf5xih`JvWcPAlCPR!;8j)-hf%pouvBUq8&px*lL=vIY{iCvwIE;cw{MfVR-F{ExR
z>48d^eXK%Q$pbSzpS0g@jH7_&kz+^<=PQ%0sRecqcN`RU9OHK!`_Ycaak%2`b@PP_
zvr8|m7S*6%M4fJifl_|YoLrnWpN2zOW}#p&K_6M{xNWb;kz?l*dIA@51HVb!6#Ocp
zAM$02wpUq+X&cNvMYlhqvCagOen78GX_w}YxNXW0=>x02FVF`PWr}%*vAsBTZWw#I
zVG$Tn#k~`;zFvVhU%GfsrNauhNcH_DZqOB%cXsloiaJ(6%bk$S*aXIXnSy^8S&7->
z`y_?rX!Z%D<J;3xlX*On_HOPbySSN(M{Bx&pxJ~l^*&;@!R?OuR>4uqJ4z$AvL*d8
z83uVgT=RGYcbo5ilEGa0W*X_LRIZsy%o(d*py1&5t~Kk6tznn%dh0vJYwclIEAQCy
zPT-rZE4vQyosaQb4~HFxdFzp%CByI9UVVnyz3MIvmu-0`_|4w8FNVu@0k&n$2<N-*
zlC@;~Vq(k4`eHqA_1;Ux>zYR=+CzmUKUhUAZ5B#<R!RZK<bJPkYk1p0q;PQVK-5wq
zSbRL-yXtQ0`Ra}pOJ}0fZ3`g|mG#njmrkB_yr~X;77q$#y--Yoa*#RgzDZYB7q095
zQ7LR`y5|5D<5mEoL;xzj3@}T3-p!1Z4cxX2zHii(_3Oos_`lFZr<9?M7dkA``@IfS
zar}WbZUWG>f+p`l<X=o85dGL}Um0T3!0>aN?JkqFAYU*^DMwf2NV?#v92sRd+ONgs
zPm!-ZM?)!@NNcn&V0I{VTKiKia%lka&Im#3r|8RcVH$%R;HwjiAV(8w!X;0iAie2*
z$up0q$z8vfS!`j4unlJ{CgKTNl4syJn0pw)V0q(&pq$O7r1wM!PR@l~fnl0WoH{vH
zh)RklH(#1a)*=7{j?ED?$$-Em*^ZGk^cDZ&Ziw;j6gpYVdun9j)CE#tfmvhVMaU+)
zhJ$B;Msap}!Vk1h+F>x#2S;5=oWj|3O%!rg0pes`7&q)UWOt@!^Rd6da|g}Ozk}E@
z{w=za$~OZ`JB6D4e9ity<-m`;g9O|M{z-8?Ukn_vT`R@iWSci%u($B`78R-rX6V4x
zy^~vYy(Qex9jWPA&LzdR?8<QEwq<8KB;6QDTmxUwAQW^g7j$6Q)YOt;OpuUT83_q4
z?jAh?m4J{`%*JOuZ>qm-YGi{embGD44Y0;oH{gg8$Oc>%o-p9>DqdO#zF9)<PYNpB
z2OP@`^3g>caBRg+#+nRGt*4&G;DWHa7UGiJSwZ7AeS*Q4qBZ#B95B&$jpH8<NE)s*
zI0O1ukA%#aBvQ48;B3;XCzSz5=ktV1i!XtLRoXbQqZ2N<yy{U=>v+h7s@}z9qJ-9J
z1;z#XPksYZDpWiw576<0MjY<oTHv1i<x~jr$H!Q#cvT))y7o}IKZQgLfmP&{Kf&%0
zMlM~z``6~ql#1Wu?{aCmO2nBe#p#lLjF-tz>Ms;L(zN3rRwm)83dCmG5F7FR6Rt;z
zEeHyycxfsWDCGu~E^WL{_N)HNWqgDd{p&}n|G)f1EvnrX^=kg)r(mP}G~O&fslTk{
zAJ?w=2Oa(cIh%x`(|p3kdVzUEyR{{F!|S888|wvW8)DNCGklcT{x9}|cTr;+f{*@m
zrq=Xz?O7^rCLp>{!nN7F#{K34`jUms4%WEYLAx(KY+Pq-XoFv*MQs~m`@hkmI}<7t
zukyI&njdM@y4AVz0d+3U$aYrenO|0fC^4u0qH{|SF?2tm6#fVHx?`J+;@*uhYR3cD
zzKwphEH=rjH0D$7{<e2xJg~o`aGnuraHEg$gB#s8iQlQ|Q)5J`ImJdgYv%8ijr8Hs
z!1Tnk3C1MY;a0>30~{DP%3$#okbPwfrbHs`ubEc(`DtcraRl}lpw~Sy2Fr=-*x(*X
zvsT@GA0@~$buY^{^$Kq`&Nzi?-GVU6uwSN(`;|<nK}bqVjeck*gULuLCM;%h374N4
z)wpo}{4__9_blr(4#g-#m6Xd4PfYKdIo9ccbpaV?ZGA%96_9mN+lvsuP)1Z*oS2$o
z-+@VP_8vTNXy0J}Oid>V)w23Yh?A^Z48sKYuoC%<@4=q?`g;%d^$#B$8hmnQ|E6A*
z=%B-PY6R^4I9?U%M9eX%^vk9=X7+6w7s&x@M?+P+F)D`NH`BgJ-4l6N5`YlTZ!+~n
zX_A?AkJ>6TC7b3;DdSAhrhX{zGg(U1O1v|V`#k?DZSAY#XjI2ix(6Tce)0(SXLNS7
z5xH18UlIj8mQ4<7SCIOkc#<U2T`ZZ=yG3Rj$ybP$5T3=kRTSmmaqQuK4X?4}q5k9j
zhq(qy#~nC7F~<7Y@bvir?EX##M*y3zjN@3=#{L$wGq<>IB`OpKD6NZh`_GgXZGdBz
z_+A|=B&iXg++Tp@Z%&f0gfOWHtH?n)K_^;mAUV>Q_1Mt9-3JdJ81Csl+PjzgONw)b
z@?SCHAHM*dy13eaR-{Nzr@kVIe2OwCW(u|g@i8G+W-}p{r_LyGkq{TfXAzIsZ&6n0
zBp=HlD+0jpmns}qw8eLc8_GBn2^2XDTyBnNA;dz6rN_5oni`WR?rNM2oCy$xMW$ZR
zFFV6?UqR>%!q*QYJ3dCobq*nMT+h+v*9v*fd|vZh2F~bVQ^DQF766zp+J0s<G^GI$
zJ!~mln7Ri%{-$|Lw76O*?%<0%fFn1bey6BPDB8gn?NE;Ji&LV8AgJ<;?wX==7K@}n
z`qIHybVM8-(eehU30AiW)jN6oIV<1KMC5C!NDhE?`Ng6-n~=AY&)W%ryA++ZK(G+J
zd&E+CeY+?kxop`E>%L%C2qm3-N#`=?{3$wzcd=OTw({QAum|V``Zib8RYU5FwL3{l
zHLGONyOwOoEC+eOY6lkr5qMh!Z#(a82Lk^cyMt69yY=sr4&=NMG(3P;JH9X-wwEJv
zg1!a}U4>xV&D(ab*!D*4j&N=tZ||Eo-gSBfCt>-l84U=ULClYBym#Ae?;g;rGo9hw
z9^T#~`D^B#%?bWiyn8^bv^q$pccEnk3>FhBbOmpzh*+ww9}sGH@U=UZEj#2wckm@0
z%l3|cNuiZ;)bO^N>n{ln1AN24vTcB|fGT-=rC{H~+xM*4_eE7H-aX5XJyHd=$@P<_
z%Z3PT4G%?4?P61Pf<`0Ors$jOKPUL!Sa@gypvAQc4<=O|X#F?z%XYA=ibct$mCAOZ
zat~j*N2ol&R~`TdN2^*o?>H*LS(S?~+}IIr?zzQ!LO)T8#IB&!N_^{f^7c-t)gDmH
zaBdqgza@X4pn&zfrG5pH2~t0nn)Gf~VKmE=(2+}`C0oMYHuUMO1+dW&&aVbIQ%$#i
zEjcN(TYt}(;s9qV1u{{^n^qkviv++{sN&+Q@s7nVQltgTe%`WQ`AB96dijQ4q2UR>
z;R#T+5j)Im)C;~{yl<D_dxG~pG1mu~3iMSXgL`?C7sBWK|KHq~K*w>MXZ8%xz|3HP
z0f=jG&)^;$0}vO%0|WsA5DyT%X&sgzkOPvSK!EB2B@qH8#qq{q!i}KV8-a;8g7WlM
z(329udCmq-vKu<_TgxjandU&A@t8EJtg?A8&e7yZk-f>j-S4mJV=!pavS0S-2h>z|
z9bHvj_19njX#>Grudz*bwyg|AIu6Snhd&|0IHSU?<9QR|4B%IY69?s0i0OWj?ArVk
zX4uQt1T8l*Pfj%?UD~0=%=n_J<(2{o4B}z23l=T_%jtqu4G=;k8;C~2C}1?dE~OaK
z8X)qeXejaeJgVVlD>(hBV`N26$1iuEot_55M7Srm2d1#E(r|%CkT)frhU+;ETW;_b
zHkp83aTM9WO8dE>P0+)&bI7IuNqmxqmAVUYd%g*^;>|D(d=^fd5WA%LxYFB4+a<KM
zE_vWf4wY$+r^aC77;!R<d<oWr*&Al45_NNf>0p>0ARL{GpBiq`pa7;yrY49jtz&~?
z3*v0h21Fq04ZA0EFhMvc;Ma0gFx08$$TG0{B{Y_$g*kqLw5w$-W;q$8RBcyemV%P`
zjz5)jo*=-WSq`F&(u;~;5|+KozNN#VniH#Is}rj^h<x{G=<t!yvE%PQf*a1dp*D>8
z#8@7ekzn79j0->$W?GWIfMjV5Q-bptZOH6PWvE0flMsff>8Wwp0623tCbE(-_kC#m
zK|-R?S*^RjgWK8GBzpZ%?e5=D=ZKc_k^ob;MW3_4T@Nh2V*4d*V6CWw*!7MNi#irW
zf|8qbh#Yb53Ojd2i#nj?VE2L}UhM$Y-{}gu>cScI%Y8R8ppV}|u%SNc+;p?9dHH;(
z=Xkj8#C+-pw(6hU%SC}8E&E^h_IXod`CyepNs#<Xjh=*o@Ta(KB;t;&n=B*>#Q+7l
zsv<yP(1B*usR1ACG&1ZW_7eREtO+uhDTWN@=`<*Qr-JVedHa`Pr|t|11A!(E%6Ezx
zlM5gt8;Y@ze`J!4sdKt=sKh3%VF#7$sLiErw8{pKy^FUE%rW>tFl>r~F91ZC1gqxK
zn8$h>qi0*L!g&^0WvSrXt33pDzF;nmfXq=LH9_4p0HY|NY&#Nd(5av(1)wNn?4K}b
z`cgkSPWCad#@To?dm(@cSkpMesn7$5xRaL{3{uxQXMZ8XnCCP+*TD+P^l809(@&V-
zCKC=2O|v}kg-rlaO!IUCZssN=w0QE80RRsIh)Lw_QP0L8>)3M%Jz$1V9C|A^I_orT
z)HY8)O+!8`Fvp^?0rh%l<uUd;2g=(#!(hOZF&6zqq;d$2S07<L32s|g$1!XLaHWZk
z(P-=MOei&m{v{PUK@v-Yk~A$bmw{8$9<EGal*jq^;*>$xh}pC+D0LI?VKR>Tg29BO
zg~fzXqKJ^S2TaFtOh-7s#$vF7WxU}+juGTYP2lh*3P7v1OLme`q`ef=wkTk|oN~2v
zT?t*fQJdaU0hKsMpfTxU%YvITwp{IHb@eAW8iCaVrrd)L()9%k$pA{0tK-D^g&3|C
z+~0%i27fn+W{`JOnl=f8_n;+U%s!d|L&vxbuKW1ZQ&ZE=P9;seZ604*tW;l4qfd=X
zQ{$5fATG$|)Clj9h!7V`JqZ#KJ92}I`<H-Z{Db`=pkB-gFPeH?u`E5xRSyZ8Qj_?p
z5cX?yI69hGZgx-7Cc$SPPW0!`Lq)?VWo(7UvvoD)fcF<9;iZ?zgkNd(LVC2K8t22>
z=1A?nwc33P%=3@`>s4!oUD1-7<??XJ7HkUFhHt{|>d4pktrhjs<E%*ib{T&q&{zzY
z>|!}SDz6VU?!G<}+I=+SI~FcK9&#TCgST$K<=!U2UH$zMk5Ys;;;5MC-iS`plwu;3
zClS#_DC;m;?_(?xQ@Ma9d&0!D8oP)-F`>bwnpFgspGkHLhK6;DB-7U-d_|(q32`ds
zpn$%dw1%W0BJ_dyp*;gnX1D#!pF$U_?4-dbi(5>r5~lWQ9Uqod;S*H)B9%jHl|u_z
zH{r+5|4!AK%l~mYjs$lqhp<`04_--?>dc_I#R8L1v2<0vm(S!P^2^KSLgI=bi&wK&
zzXu96@8hM(LQf<{D6yV0k*GepC9)Aj$o`y0g~?KVK(Y5Jpm`lDBvl=_uQaAKpT~T#
zHi(tE?>A3p>ptTs{xcyv-$LslLDrOOci${1{%XgXr&TW5EEnK7PLFo&X1^b0=EOzZ
z-)#_Dw}*4LzxDjm_`=|;2fln@`T2QUD0e$Kx2sy}4mJ0$W$cdT)`y(+ALj{GwRhDI
z5f|}6;(}NOL&6oXfml%!s@ZWp5GmgeZCO|K(hIVyb2aCNYg;ti{e4&M(sL{2A3*E1
zu;vB`4R)bo*aA%;S5c^>Bh<Ms)Up4)wouVXIO|}@cJL?nwg`DU81nR1ZvUp#bz%#I
zT+lp={{!GJVbkW2TSs=l`h>G4D#0$GJ@_=qmw`NKO95<7)0}2d8%R?JN1A}dn92^B
zl{#Y~^e0#h)aPd`BYkq85=1>qy37@N5>Pb3OaQ`g=7Tqxvrhm{k}qxSP=+X;Nf(})
zsH@<qi6{e}ng}bL^Cne^TkZUdk+;rNY3V3mt;LPsbG1fXi@l9COczRE2T#7v(UC3b
zx=+rgq-?lFP7}5~p6ZNwqs%)gZ>t&(IBDx6ekt`5oN-xzv|lC!R~#do?D__OWW3oR
z-?AN^8E{h%+8Z`~t}_#uIDHz-s;L=v{?_Yy@-aXkxI1UMBHY%n-`Eu&e-ai_$d~oS
zAUAUY({DH}!^AP2wh2ca*J~o@&^i}P!zy)QGCi9qnwt3fZFu9jj+O#qPo17Pa}kG3
zxa3)nqHM%Dcv=2D0mug#(_|cdH0ov8tx+G}B3{`&Hbwjy>4786I=}nSanG~kIL{Jp
zOlEV*OD<vj+@5n_y~*S=FbRF}q#xT)3)yOhmFMYmz>L{V%LT~zw`}fi+uF_ANoJWr
zZU7fzGU$i!{@-G@aA(bbM=>Te_xBY0Dh2;Q!9P-<P;i%mdlZnFCaDecX2e&-Me^7V
z&V-yFr8I^w|Ab<gX^{J+7<(5p`uiigt)c{GdBS+>k11gbC9u8mhjjbDC?EmO<o9pJ
zvyDP~j5R<FXRscagNE9bf<gn?KVx=t(}di>#Rj3h2W8$(Si~W`9b00l0CCvLz8jT&
zFmF)k_^`4MC`4}A;uNR$ukARtmV2CG5D{m+?5vMC+r!TGXk{Of0P<kypwIznSZ5(=
zg*M40O_7o<a><rZarcdk?$C}AMiDH7MPFVT1mL3<$34N?;{ZvK96XYVf=F(=oZG(g
z^o`tZR0wLL)tXZsPeCk{+l?L3)4*&`kcr}(<?t#QsqBy|J5~abu6=UXzHs?|!%b*m
z$*a%5@;ua7U+cXFJQI#(d7}u?443poOY5Rlosb^Z6h<S}56RUJg)8<XDBX6;rQOlC
zu1H(I+}0my3&?GOsJABK?UKD+>`mL{y6qpAWO=gY2R?9?Dmm!QPwr)6B-kf=dCOoM
z02IEUb`fUEwr8SNyeg3T7yeW3w@p8O1lx1M0n2Q2#!*Q>LTRr74Mcyd+2#r$>oD?a
zF~bWSsf?LP6ar5MUPe-k*p|~s@aC!=nD8+iv`kI&AwTsX-9Ru*dyxKrqzCCgr3cXK
zPwauA2&ZkDkioQ^!vaaZ&?}rSm{g^{6&ZPuTFJ(UROC$104UvAu5N;KClRKSu64Q@
zaP)Dt6C-OgT84x8gZ$lK9n<v`9k!Enlu6i{)X;n>V;7N4-)Hvf%BZk6o4BEzyhs}%
zmuaAcQy^Xf6mz?>Z0}KXOu_e_LGK0W8B}PJLx%O!08yf;Ff0&&b`t=d8c&e{rwRI@
ztpJQ(MrERG%rXw>#Cq#~zFkl+Zc1>0=k%G!pesQ(nWR%^{l~CTPfL$)^Ynr6eF3eS
zd3GGTHdE#DkUAL|;-y|pNP5KtirIh!FHFM~JG#Lw6G26njT)Vnw7orH^ZXPaXV!Og
z`usSro}(OG(t(XGETkDgJ>biVWrH}ycYV#H+Z(8Z`<@}Ea<Nn#pt{*+7qeq@F~~5x
z8!OO@1wjIa{RP&?Ak%l_n;g^MIf)vi-GCI*JBUFz{r9MH(m{#k=`~1W&uZmk#rjiT
zZ(^EDPvdXnUUI&S+8K41_ad=5T*2>soHv35jA%^x#U;~=M{z!!K1E{gNi_#&eMu+2
z`)56m^&9L!kFdcN3tQoKy)?RW7hI=DEBuj)-nEL}`GdMEGuQ|sD+%umlCjy<nLl~{
z8_$F1rK-OnfBBZR@-2{BZ{G?h(o2ut$ZjQ3^KP8iJiAB}q_z__aMx<~!$gu=C-`*{
z?{?X{{bpU$o3pRaM(dm2&3G&0W6@gB37=?bLPdwJLbtUyl-;lljxLz1q^@QcYH<pL
z`TXK9kI!dB^Q$BI9c%d=^Mldysz`auT6qha!j<fLWN(k0+Y`+zg=00cwy*@Px5m5a
zLPaac_HY9ZK6lAiPr>6cXO)L5d&1>AZ@6}XgJ^d|om;@Gw>v_(2amftRMQ)B^@eP{
z8!0Qacd`BJ7$QGSD&EW*4`8CnZuK@k5M3HuCpBg#jtPvWL7+uEbrzB)(D4LAj5AWe
z<Kh$r7&%(!9pXEfOtV!RCI=~UuIIyig{B3WB6vx->2kmP;*}R8t|r;lw0tbm+#@&l
zgk3vBww)XMkNRP>569~n1R7=O9OB8BnS6TCa)}N-R7cW<Jp+eRqD~FM=HT-fVb~qC
z{*ovPP;SX07am)LtLcffCZ;H+Ymh+Amn~f)vm`RXVwJ|)VFE7(#ad@c&2CN}FMYY)
zugI%xQK1iv_QdQ-SIMrbh^zgE3vwfyxb2X&l1Aw06+)MaY*t}Tmo`B~>VGgHmM=7Q
zTYlHlmG-W!+p-QpBC-#gV157&t`wQT0koJ6t2TKsh!AJeR3m}Fm<%-7FZ2d>&4~sh
zNIRQLO$I&LVCFy<K1(ZQ{65Irg4QPOH|f0?KYr=&wOk!t*D@Wk&~xlHM<=)r6;LwM
z{+dx5pn78JHjnJ!YHtJTV>Q*Ww`o1X#9Uq1Vx1zP)ghJMrw-AqRSETelps1xoB)&W
zxPi`3sEu{(k1_up+BWjgI7|*=`|xZ$0Ao7`qYFlepxA|@D4lqX(|iK{F@$~G;OA&8
z6kb}TzI&dTkY;e|*Ur(Jlw6bE4w8^0>_#WoYgtJajkEbFS*_hb7wF~FNRhN87=N0a
zfMDnW_)Q-3H4*B>D+ZF1P^YIJ{2*Og&zI1hpAVhVi3)m;Oz|pGKz$6@2rwy)74{$s
z1H%V6-NWeeY{5m9jq=nps@fgFAP-b>zkpB6Q5SYJXNUALEF$U83ByRG?Lztu%oOQ2
zDPSk}&rvd?JhL<W_bGvNa-~ru#BxWbXZD_lNbY%1d&UEdo2HqIV$hXQ3%*3y5j%*p
z*RtA(q8-cAn06XZhxm*p_M>7YaHl|qFoDKwVE)WDB*WhO=l%BtbW_oMc2qC-z!l!j
zrp}dVuBQLJrV}`l&kry9qooazQaZRoTOSO7<~850HCG=*%e*yj99wRVGz`fNLy?99
za>Ide!@+RPp|I!hLZ+IvZ_U*YiuBE#lEnk>^sMD<g)~3~unkh$Tb`3i;4fO=6{#PP
z>jxtB2j%*M5R79d;Q_gBAe!e}-VRiv9(E0@flB05MY4TzwlCDM^MmYOUg_4g95S`2
zB~gR=<%a$bvUh(};ENVCEk6-y-YYln4K?ix<?Tmh<VOesbxMoS{5gx#A!I{7(aUyb
z=|lRWe}&)_@xHW+kV&?Md;y^TOI~)$7IDf>3s~6Zkk0JKVIY$)?c6sYETlYsT0P<6
z`zK$_Jq+HOd_kYgZid|?hz#i_O6ZJ+b6_V3v!-R}a0vgTcC&LjYaf`k<WCf!+=Q&n
z&X~D4^JTJnvS1s4$6W9os>>f3?bmuf=Xy};EDAuY0*c<r7oO@{nvq8N8OxT5QgIKo
z|JUD-?{_(SMt4;-=P;~XX&V)sKD`u3!M5ly+nDB@%nxtQT=rZJGrPVCK2%Lk;d7hj
zoT$N!T<<U=*W=51jIq*U=PI?B@e5UFb$<V{ccxl<Zbq(`auW2m8nm3o@8#SnYNH7;
z{&Ft!4clVm)neM*xSW?TkMp$c+IV)wt36}%2j)-MF3jjof#$uZEs%<_&E;*Bib21K
z4$Cg1#yR~hTFsEs$ycRxX#VHV<(WAOn#<SngY}dT)>Fadd?rJ~)_|Fdpt)SFgjuT5
zGc(iqa|OQ&NuIe(q9r}}>jbR}ma9LcytFFKTo46dow8VfE+^727iz24tW62uc^5J#
zT@UKbT%nc<V@s^n3)ZW?bt|M_t4>=XQUvP*D4_;VV5`Ip@r$CFK`kd{)sPl9e(`jV
zai_(!T7j_twu-P9U(TJ`ucaGb<8ldVFoQQGY)zKVWy3#m@o!sxC+%{X;i|w)A8M{l
z>$RC?ls?DH=SopydB7e>D;8M26>~*%CCN}M;a!KcRvW*7aodeMEoSs;u56Ci3fT0H
z<85^(x$K#9pF67MHh$+kTFap!R)n^37iT2|i<oX;(N)+AnR9D%a3SSt_Dq{ro`hiV
zWCA(Fxiq2x!nbp)mTKfXZH1p_FRbF}>(y*U8Y@9-llFT#?-97OyZYm21@2NnWy|F=
zxwF5=X6w+<awv;2Dj?y!8jZ}O5~$4Sg=7vdFmvew^s)3>em+!IFHViokGTm{tR$|Q
zO3s5+7ds;`nqU*7iLR@OYD=V#f($t0xd^lEhJP>CX9Lk?@85t9{``D7Q;dAz{~4w8
zE$h$_V-=EkiHno|*cTiH;dPzlHz8^urgIyF|IVV3R33-Xh0B&J5X>Y{sS4d>tn+2c
zOaW>_Hs3<7L_1$J!&G^jmlEV{wkM<8Dxun-lBg5WkbTkxZtU1`g0%1dSe3Z3HWqxp
zeb4gPV%E~rAGm#T`yMV<^NX%cmJ#N34er*+90*fdLrWRKHVq>%5g3Q`7Rb+#cO3;=
z6na3u2I)tXm7Ow}APuv+#0-TPwAx)5u9)ir6{F(@NWF073M=`H$eZ+-OCqr|5FLNG
z?>2qTv-v3f79dc}eil|DxxDR9&^;*yxw(&s9Hx_X{OI85-jQS7qX&ljq&FzX52>Y}
z(2y6AvYAmS>)I%@NfOKIo53ws0vA-2{(%ZHBTCG&Z!Wz$^_hwBXJhFX#$nDE2e?0^
zD$|*B)%G@aO5-|iX{@zDm^>yZ5R_=AkRa73NdJUNV~#P1#j#fhxZSEsgOF{U5jgi3
zCa+<ln8w3)7R87jh5<nAJRPdJbQ1dpuTaf78;)$u<Xg;PfQ(qS5g%nABIY35FN~fL
zj1?O3QFN2WilyjP8|i#RNfKJ6l_!j*^eq}1`^3~U>gej(&~^6p*$}}`#|#n7)me-~
z>bgnB=L;WZhq@jyjbeG!2*{w)Ntm^grc%raXAJat`BY&eovA%yP2&{)PcTryN;HpP
z+5@j$oUmU6)-|ism^f;CXX`)f`h1TL!^L>>k8v8V75uI6o!;I#?}BccY%7_!E%>73
z^?(c|NAh=qWM1lxl(xvFEwJtcpYA=^dgh0tE>+*>ovM(3SGb|?hO6&Rwma%+Tj`9n
z@00Q80Vy9=Ylz(bfjPOoZ1YNkTt*h~s(Mz>$yIwp*`BDoGUBe6-SuI2L&(1~;vbOx
z17Y~Ka}T}O6WM=O-hVdq)N^14O<E3GA&H>=4D&npA*%xO+}7jPdxGFTPB%F$L>yL_
zBQR!K(GsrM9O{5h%|5wfU$|pft{9G1G({?Q$Q3(QFGqS$%J{1|c{jyU5wI*caQM$F
zUp)WL;~(V0kaN|-o;&WEh`UvGw}v_fW%nR>1o=%kl>6F4ox^hda0o6GYBon|2IQIn
zazRgjD9|Rm+gPMUcDI0&5vkuQ*Kdu~56bm}N`_E7Xo(AHwFL_!U|P6KBZbX33Y%|w
zYTk6b?zkr2@xa_)yX<LS6cuY~{t-*Gbw{N2gxq=}-1;zl<=w2P3{`c9E4Kde(d*^m
zo<lb(4u#x@<cdQdXA8BB@QKHuE$9J_1-M~v;Z}x1jl05ieQVx+s4931KJ@l4!UC93
z<d3-9Wq12Z-v{olsJ9<73i;(wQ}7ljj+7#A$lbL3sO;{(T~u~0Z*lxLOL$}|T-1EK
z$aAf5$)}{J6gAVplrNrxO9&`8ur93?Hb+~xt~SW6gOS$#a_j#0cE5Kd)Osj%__*8(
zDb?mXrClqta%unVGVirxZ`8cm{Cab^td-q`Dz}8ox?wl0sD9ZIcDF;Gp}@10`Oc-a
z{H;+>^}^n$w{zv3?Co3F7p<;cI1p`Yg6qPY^^MEW{o5rs?YiC^=|3U&pZH$==dL*y
z#l?#^YuZ-^!!_F$9d}B7k<zVl>DJXp<<f^}0LZ~0K4{(cmE#anSaja>*1lQtddc$V
z!`^KXZy#P0_U>Lxi~4#(_4}`<U4QzzbloA>?_bP}R<xrT6}ztY-KZE0xd%fPgD4#F
zZkD~9qouX49lUmMc`#hs7WFnqt6HOtz1O$NjR!uqi<QNTX<&mD)kfS+GDi5snj4N8
zn^w|Rp8lGBb)VcyO8^OqSMb5~UbWD?ZDH@?xp1EEqvGaJUh}<iD{-t~0lZh4vkKWo
zi!Cq~7qa<&{4to;WsPf1y`hp__XG>3&&}4(uaE!n?(13M9S6f*hr+Fg!)|;pO8S?3
z1^CWE60-X*1-=n`>bD!*BRgz=VQ(7Qn*JBv7K9S*1M3(My1gf2g^~dLPqD=KO&}<w
zbcSs#`C<a|fKAC4&O2|Qly0<l9aA7dD@8jWk-$7y4@A#Oy12b;uA+uqP4~&g%&Q?6
z&ep*^*ep*q&$r$qhIyWVH6X&_u_}a@*c|=r1gQ`+>XCVU<j5I%E;z%Su_6Z~bCWNv
zUjAk}i^11~I@(}9{0B%!{235J(U(5^M>;ls{6c^z{&cngvJSUH>oqbM0<Y5C>)V<<
z#^&4P@%#NgoImuc>Jt-@m(oAe0VMbt4iUylfT76-nmGH^5Cq!j90buepha+-L{fx|
z4Uo_)2+*0fA1nj2c5`b8>M4tcgzdkc5%3KODP?FBXx|0~%1};5V`m5?A!ZUoJ~Iql
zYm^sD=g1aAtlr10=P2x#3B9vvxQtYYw`{Z&TBBLSJbURRkYdA_0LRA2$}T=3d~6*$
zegNh;CXX<$SN_jbYA2!VB#s9J0lo@~IWq9QWMm+Lm0kjtzFg9}U?ZV7zFA(keLL%$
zS?@h9?>Zbhej>c<M6{&pwVl^?E_)&01_k7j&5%-q^ICYcZNAgo`R)^MJrQbxiwA4b
zP6(~#7le?(AyhTK>3`k7lC!cYM7rvv;~TErv9KTP`bb{A4DYmMHLpE!?TM(Tary8{
z$y=kLisP%#{mF~pcro0Ijpaz_@KLysl`Ba2F5mZwkdj|;Hy42Nt_VQMdDL`_(k|k!
zGy1oHZ*V_I231OY61sGTsbHo+OG>UJJp8r_&sc7<V`s|8evm~wK)-7BZJ@v#tk-iH
zyd8-lOp&L<n!egA@&~}pe&aWt$!yhvo?%M)Hf7XiC)Um5s(P>LnFo$8F<tnDcbE!w
zo5^w^r<o|XT^lXXQ;M~E%_zfQH&<xspvL_y@AYWqj9<8(SHBV)F-GlyQ1s{Vp>?Qc
z$a^s$`5>_+z0AJ`t>s^V)}goO|1)C8tQ)@ArEzd$g9bqhFt!FZ#3!ex&On4|^fY{X
zpEaO7_?dr=PbC##|C1gj2+S-mlgB@aJYGpmde};*eFqbY8>NG<^egz*%vE5lfX;an
zr$!-Y246S<W{ze2xfzDmu(P}LFI4|kDnO^*MA<HW5Y~BTybNXHXWJb0jK}s$ZneZk
zTOku2L1QjXj+@GBl^Eo%jR(7AKIa4SK0<)oiRJ)smkT>~St8pXmA5|{dhA?y`%|*5
z8xmZh^6on|zDUh(xn}qEgVFYfLVHhz#-EL+SZXg>WLxFDeW4eOOMhFWd5_$@C(=A3
zH;;U;`4CL{&hLYDVe*_ed}TOP)V}g)sPD*{^Jo;7di}j}^{)B73+HY)VHiU2AGQE?
zZz_o7RLVJ(k(?$urzw)NMb6o>+Iu5s-<7`5p~Jwl?QWc|>;+M0euBw^ZL)J4ZpoAf
ze5nC5hBaV_MrTJdyf@(6$5|20#vd#&a8nyQ<!l)Bz%5CiAqfRCNtW6`fH{=M%+N2)
z91i7&F;oo7>q$lg5=Rz8_7?EPNYZ1FaaEy){s<A|HIvgaAhKX4S8Rr>N+%KoX-v)h
z8vboG{0^FU20Yfy24e?-y-Cu|Htz|zo~8GJp@oTk<8i~(1F*?vRYerz<+IMdse_un
zKtL1KWFjNbcp#|@gKj--#F>N{Ay*SK5E*5(6JFLp_6|TVgrr50$*6+MX2RkE*BP0Z
z@;v!~<x%f@Qg7V|tPnBi@yqBE7mi>eos5h}U_Zg70_}m)vjh~F+XRyOR1FVsfzJ%K
zzBz)-0Kt0u0x>`LvNaY6(CP;MD4`>&AB54FX=BNAedyVqB&6+UEB-|S0<WOS00LRe
z>`ucCSHm6WrjKl`Y@OASdqO8H#5BszM)rhM65yZ8&Xf?a(n{rw(nv<fjf@T$@hRyd
z9f2XaYv{Z7aPg7({Wr^Nm!AJ#dAlw`xkL8ukaKr1D@MEE5i626Am<HSfAoXALm%c9
z-GxeC2WT8l?o?{s$x&a416Uo2rnwCqizNG?xP&jlFU(RZm2_z*9%czp7gIAb8TGLo
zbYe}ql5&_}Rz?oyZNTI_hnDKLi`jcj<OMe5F*&~_=E0gZwQVRJHh+Fj=hqt@)J8|z
zlHg*-6#p`CE)AZjvInNQO~u@F>=+oFj-lx-Xf*`Xv}ZWgr<&P?O@uPYQDgK+i_O$(
zvA5Ov!A9Lg-44o%16aS)GmTmajGhTEe@0iU)B4Zc`E1ro8NXWV0a^P1S<~jy%xvMF
z>o7`aG03hIlNYr6l<3m(8NX%@@5v@JtW~I)h*wD}eNfZ?Qys=7AgnsbBo+Ap`67Q(
zJ75w51pT)s4N&_Tkk;LaI&<uZoXC@Gf++r}$%{<7pFh{zL{x4rzeZdbg60N$P|w6o
z6&@PceF(_m(-)!t0C9iaAmIcg&zNF?#LZjK8-mlPXU@ZR#UyqZ(jefrbeb49k<zJ*
zXST@`m_}7x|Bji)xPMvyh_6f{NWx(}!SGRn;Nw%L$ip*SGEQDHgW-HMrD^~v=`Gqb
z6bgQqf*(-erG)=Q^^zSH&S}CHDo8;*i<L5C6vT%JLNYOFXOO&9%tQG$N#kcAG|0Ik
zY&_wY8N9I3v(qrz_Z-wuVAzoKDahiWR7vGB=q1F2OYjp!0)G$y#NforNEwB8BR;C5
z7)e5rHP_DeQCLVE3kF9=rEjASD5w7(Rb@!~5fOvAZJCkArh@clwwp;`rB{f2bEM%^
z*&Ljok!!MBZ*UlCl4ptbIHIw@0$-L;Qnl0@E^Y@4qryKAXUwHho0FT;TC?@&@zsNC
zwqbTxE!(P>M%Qeez!S+WaSyl<tJC4K5y%CC@=MmZe6r2A+!ES;V9hpS@`!D9WUvnV
zXsE0Or1gBqyd8Km;i;83GAfs5B6U0Ex}A}_J#yWiwYq&o7zw;Kd2RBY18ce4Le6cW
zT(Uj~PmRE)BhF6Q33<dd=g>zPaA8?_)6*IDY#{~;>HM|I&eoM8=1K#1U9z+5>n|Yd
z9dd77E@zZ4<=~As^IKQ)BAff<&3$XTkB9S5%nwD2DqbtQR`y#J3u3ge^wrr{W+R2Y
z;lf^6Jb+Ljv(<M;d)_D)Hbx3N<id^+bRJ;)4_*Mol>B}eM?>aNVK0Qxi+#ZDomCq}
z`{}z9dK)Kc&-)?NX5?No^!c*Ikc~D-9dF}f(*^W4gU1-6twj@lXLO-H9fXrfB9pCH
z1D*ikFRJ7fau_U{iOm@9Bh9qdnb?-)YIVZ)3XgE61P<}D>#9Sk5Q~Q{Y%ka@nCO$f
zrScRC6TP=#Tk{wxTFi8N)debn#Qy?}A?X_|kQjBeLFyU6Du2W@ja!o;Ww}&sBw>8o
zdah1;tMRL)CkT<6Y|>^r@n(MLW^k0@7u*u3!}+s%xYJsV14-JYG!VD@94fT&&|yS{
z+|2~J^^*x#veUOm4!w=75O_WlfF^Fg^w0PjjMK~s&tF0tW?K(ZZJIzkERd~#jj?Mn
zVQiSW0o|BUh>24^;w$99n4LP<i)a~fGa(FAv!e$QIAV5o$Y8V#!Wd)D!4a}Je1w@C
z=0e*>BT3eo%WE5YY9tQ<d4cH*koP{%0XI{EArDQO@HRCeR=949W3Q#g2c;_7x)^nu
zpLjS$Lv0yliKSA=`e!1}E!CpD+2Q7A*jHr&{9d#YhZ`FsP1nfzHIe)_IlnEE-y`Su
z%sX!OANXz{+<z3-Lv9vqUa96P$lux<E*OC>SY2DBu3N6_{$3p@4OMXRn-O&tM_kpi
ztNNYHNPWLt-ye4M-)!7XZhO5=+`MVD+!rZtm&@DX5;IcVEEhL}&d{`J!Hyjyr+(Qk
zXSYSNx60YzZmwkyGI~UloZS@3Zk4lJSBgJ?@8Vpceml&ZkeRpIa7NuSs2Pnna|=R+
z{%~%~%H|un9gx+|%!+3BV>cn4?G9`Y-tLH}SN8OVJ$=yro*!7?=QWS)^zdyV;@l!T
zx7^J3EI;;MD%`TcNF+4BaoB3w2&FOl97>bYdg5VATb)vYLGaL?nL%g?iq}U;0XqRw
z1Mb*Rf6|rUl~Y}#jPYl3bkg1jSbV}Dtk39B8xG2KQna?-rE(k#AkC0`!AXNCW#5k&
zJ(t4B;2kJyM%pm#hXz?ta~hb2M?i1}ai7)mFv#h!wdk{qwPILxfTL;9XsW@x$^6Ap
zQpkW=IH)uPiIzdwr>?C5WD8m~T&aa{V!f(99rNW24#+jvU14-gLU)OdNoFi&K*uy-
zmnp4x{|UV%q_#^My|8*QCS4*8UPfSHs9KWtu1<2%8%2PXx7hC)9=inBx@Z%cADCw7
zH6fFFA!fdwkZyh|7!Me21QmvqpCr;Jlr8}HC1a?JxXZX{^!a0@2?Uf4#8yVoiRG-9
ztHO|L$SQ$c1BgkTSP(HMDx5hp!!dbj3m$FYwMp9uZh4Z3G8^9VBLYotp^?Bzvju0#
zT1M#`6=82%#Jlr`cV{#=e|~SYwQW8#0Vb^toCp_u&J-w-Qc2?*m)2aH!P<&=_Q;++
zq3k^iP6Y6~xBVf@LTV(tQO<5$-X~{of!@g-XbUp@ZRJ>`b5QOa3>OZCTto9Su(lj+
zYK4o(b2qYmN(I0WJcMVLffl@xGKvk3g9x(7aX&;ZKo$$s<&6CL#X0N6oVQQFCh3~9
z1gtPdqn2bRbrU+Nndc@AINY~PM$)Trn^4C3Al`d|^-A=fD5Q{lPlNMX7{*au&vFwv
zsUuu0Q(8jpm{O-PL`)t`Dx!H6pxdt@N%{r_e?*zMby8^&@mLxb*VK4G`cvGjrw>ZU
zG4E#!ljav4#YivA0d>aUGbn@|Zxf@bx5+teq4tBJ&Y=iIjyi|mJ1ln|4CNe}Pm9{J
zUUpt_hVpAyj?FvQY}?pzrvzeM5nCmQ`)ju9geP^ft!~Zcga6Uj=B~|s^@Xs@f9-|E
zlwV6(goQ1C$maja4VRz!>HKDwz2BM&%;i6#9V6)04g5;KMge=mePE`Ij0_Ep5Mx|V
zh7>1#Zs{I|)|Wbh%V!xv`HyI&FX-icc9c9eME|~dcD|I}qr~q}KwLmBJ9(R8zfZx_
zG}!dfrDrJiUBqH(M=zb<J2k@*G-f#F5@i^m3@=mg6$*A!@S7C;Ed~FTvcxI&0>!>T
zv27Gfp>JxZ;6KsrJT;g}VCK-X%@i<)mduys`;_Gg3c4uaBE`N)!35oYg<^*(_zK<r
z1_g)c_En0JV{GX#1rXa2r0tYI8;kU(bo+e@{*HowL=dx1O~uj<Fh-K}`_$Gx%K0g!
z_fsr|nz@@||C65WqF6RPD?$)+a?Tgr&z+qPNFI7VK{+;4Y=jDo)9n!5K1H!%ik+d@
zSqjGJmKL@|cGINO2x3_iQ#k7bV;omKa#G4E%JUV91t|9G6uU~nA5ohx(6e8n+fs^M
zr`VrS@K+T4cM48WaF_xSGe=6Nw$bTFBB#dEAUz{~j5JI!?7+CC;ENPIN5SVQm62Z<
z<%L<+Gkl^G%F9guOTR;z=joQII5G+iV=v-4<{zd0hyq5$VJydD3;-wMFcMD--4bHU
zb_uqWnRGRStz3Ni7F9)o6}=Ds5XjFL1tsmpRI%T3C%-}wSq#WtPQk0rSDf*5b|3F|
zSVf;=vx#lXxp4tM5XBg_9J1U?v5SsqzI(CrwH?<Wq*<r12d$ldknyz)9v|4le(%`x
z<03LE1s<_<`Dk3gPkg{qC}zbwQp5pE+-VWL@wAx~u}PUsuNDU_QAiv*Uw0}gbaTg^
z85b#{3|mkOJPO7IR$Gx+d8fEh5%G&wJIdne6zj5~Kg+oan%Zv(Z62UDgN9Hn_?qvg
zZxU<n<Q2TS@0ERuh&YNB7QK4*m9tBEuS_eH3S{2lnwMUly)wJl_S&{<+d{4y*<KsB
zQ(FCV7SX|8Nf8vTsaMij)F!x#iLRm8*{wrxWW_UBbS5QR^xUbeT?#G_tmMA67ghr+
zyA%-*QQlppq*Kf$<Q6D)ilL<Q<>D*F3jx_)9M7Of)t6G#w^9V9D!i|qyLL`VXSX&O
zEL7|)in6Y#Et4Q`)K<KB42ImJw!DQIfL--5i$f~XUUnB%rNuK?xn0C&jpEN!6RmBG
z?iz@0@4cJ<tX1s2Q(dQs6v12ZnsgTBjb%{>?07B(<iZ9egWW@Ju>3XWHRsZd>~2&t
z*|RK|qE=iink{&$l^hn`BvjR{8<N#Lxw1#eWr;AtShqB@y!-V_ueYoW$d%m+YYirz
z1E-cMSYce90oyp_+AZ4$;)Se?BznXl%bju$8yj{*jmAq}ha4!S(WlLt4=l7_nYdE1
z*dg01;&%3Yz%phLx9CObM(r<);@eg!b{2*4s%|BNMV*2pGoDG&_)v;p>{On#9ALAf
z^tFa-4T?xNsHL*{&EnUKm2`HC29(C_Ec%4C1XIynMx&*Oh$FAV^>XQz(s(-EZL1LL
z*-XPPOPZg79I5Q`EqAPlE2l!+_lLS5x;hM@&5-MWY#)iIBWJwda>OF;wJ1|op|<XB
z`U#6z%W9zrs_|gHu_&A6Gq8p^{K~NG@-B70x#RU6Ay<oRZ;jhojtkau%v)Ms_@x$P
z&7WH6e09ewJ3?6%vfUF;r{}vYsbVn}%GPUJ;{u|JGgGWsNnLqDZpFewTq!RRE0&L~
zG|J68;{xK!Hk(+wbbPsIwJOxuBiG<59w>QbnB#eciilslt)fjyr<e^^#S}ZmFuBX(
z8HnB8nI$@wsucl0s{`!ky<>5@Q|g5@kQ38H$MP_|D2R^tcHg6)c#8I1$!@@FKx&+O
zWlj+hr&m=f=@heR-^xyRcwI?6gJKU`^2F-ZDn-E0^{P1iK!X`F4R`GqG;lx>R8>;0
zq_Zd#uHi00E{9necAu~^H!Mee#g;4vfEocWnm@WwHUIFHtf;MMaX_|tlnl`h+Z*Y$
zU|Ds6ltQumPIf+l>BSj2yGjx9fcmm|r9&>?qNLL;zHwpPPO-NARuzI!1o?`vmRS@|
zO&GA}wb<D+Eb1~gKpE^7F5)YdOcsR+RP_ZecAw1vPC|S07gJ?M^`1ZS@}pNCm2Ga`
zotC8mc~gBTvmVrJ_T-9vT|ZI96}ys|X3xEwVna7`SoM#l3Tb(FtxgeiZNwCcDIU14
zi29lVqN2^4?`D*vW4UgcmP@cbS4*>%I+#~vJi<h!ud9C%y4Cuq0xx<5*j2W8bg63b
z;cHn+COyfbCGMiwE{l*>{L=A=SR{)@VX*|&(F90;CPmC+YlI>+{_0m}3G@L#lyAkF
z!dJ0xxo4+b)Rj`j$_iXa7t%6#rHXaJDwame;dzE4ckIQXvUb_t9_rdF+xOlR=^+&@
z<{6a}*ig4DonHyS6%TEPTa<!qal`^W2cqpO*mQ8S=fGb&zk^+rZrCnL5v4i<zz}Qn
z=-2FVf#OQ>ajRIt`au!&qtr`#`f~NM^zQ6ivv8j+muyqgS)vUlU=%xxYJ;d`uv<)&
zYWDI>cAF)XdX_}m#^sXcl~lQ;LvgW$Y<(6%CjzhABvf=Mxh$He!obDU#bZlV*B-g%
zlI?Zze3mwqY8TsSS6Ini-t+nk3Oe1sT1|a#zguw7DsEbuQ3U#3O^vf(<z#Asn71;x
zTD2Nnt^eA=>j5ZQ#05Nyx2B25EK0Twlc%Iv5%G&oW6MsbSYE&)R_j25Zs^NaEwwMF
zEOlR-QqtKYd|ZNvy-UaBTwf^5C)*q1c9t@nk}DRhU!8csUVsAa^JlM=$J6Oa1Dn*v
z0GQ$*IKSq+Cm^cMbi|Zy%)C3B^0g^l?p4&83_xhV&#dg;L7R9*b+o!ZT3i7&nP^o#
zY$0M=+$}uH5IusiEQSVo{rE1P4kevGAg2+EoyQ$m4N3-&6LU(*<nb&5$Sxkw7V?Xf
z93I~!lzEk09?t_kRLSS@0;pUl{MCvZUw8iE%X3%e7LUL7`D>qtUI0ezUJ=Wwt_xlY
zB)s+O%{pWO#M1yb-OzZl{qkNq-Kxb|${}l~2r`5U<q=0-7xrL^;j<OQ?G&3zUei`D
za8bP&-OxJ<?xj;yt)E4QEQc*(zH%CN^~H+CU>q(i@VSOl`Yd7>99u7mOQ)7QmL_Co
zm0A($F&k_pokeXJ+PIxXhphW8z!X+4D*}tWmlx*|<xy+CxEcCDN(%k<4_yy_)5qd$
z9pjneKSn?uYb<x^SO_b$1}4gO$fZ4sNC|jhad`+fKZ;tEboPKIY}`)K_+;uP5q3EE
zb~$Jf4_Tss@hLpExpQSo-VA*rc6-O}ya&`9S!e{XyRx`4VyzdmSo7#tYaZgPdH7Y1
zS!%>xs24q;2%ab54<bEQMl2Swcj@f%3vw+m0mPNGRIzGh&*~F$$1tH3Rf^LmR<8Ca
zFs@qp-m%b;<KKBCPI2XgWyT^l+`(QZQUpC_i&T8q`Ia+Og?+G7NoNT*p~knIyFC8x
z<Xe*=-!{2=yJBYv4oupm+-rN440a2YE*Z(mWC@cgMPfk|+rudpQ7Uhdi(r)vPg#HQ
zt91Fq2G(2p)dmD{laAvl8ec3Hv;6pFmEc$DZV@-FpsV<~4x9!*@sk!eMzf<#EL-YW
zPFa2|RNpOE0olR>WoM??vRw0S(_2jnaIKcrj_cNMJHF|Vx9|U$?)lM=4t&19k)EW}
z<KIy5pK)}JWt^IxB!?BCxd!Ph3zgJ_C;qXMr^v4yL|0X6?&QQte&Qxd85c)@qz8N}
z(Je_a#nQkM0xel`&=W=yA^xXCBzB1`Z!t;~Ct|#T+gJ`a-53CAiL00fVmAJ0YD(&*
zgDlb9V|Fqk>>r<cCdl<!v)H}P&XTgJYQ~82tWWW4rk>ClyaKLHBqGsEppL3;8r-Y^
zcTmY~E}w$K4KhMRqD!%ojmZ}SW89IUR6sd4Rsin{6X=9Q1pQcsS^-J5Fb9d8bin9H
zjHyOs2S{2_2NQ<D52uEj>;k7p6J<KaySFaig~^ltaRktug`|c=99fg<h_I}RLP#ED
zVbU8hW{-K@YZLPM5yyw0!UUO?{1<0no|(yR#40v47AyqVc!WO;-i9iAK{W+66p&n$
zM0{AO9ziUR6;~Mry1=uK(i<q9kJ#k&8Tb&A8tDmdCio3_!}xRKr!G>1xDbb5p9Gv}
z4%5l-x<Rs3u}1bD^HPw#0+(TQ{QSxB00{<3#KcucH>m`_C4<*!4hdvQEtI#$tag?+
z=!fyFaS48PpyAv~1vXRAMnO9TB!wk)B8WA7rb>99x~S9^3c9JNix<5(IWvK`j!jBi
z>1jdIQ#9qm#hD<dBI?w<SblOg{&jn(id>d<0TvrcE|k9P`Jl9uQuv31C=g7e8A-jA
zl*tMOAs$7<H%97<IoPwAvEWldP8noG!QGUdC-IjK7%ycH{O5w;9ZBQk(jcYqrt%bU
zq|T1=QbS0S9-<6<{izwo&(nm$ESy58_fRr#w2{n<@1>+7)<B+gVRCGSI7n*s`zW0c
zCQoNTNlo03L}{3U1C*_bRrAbdV=5X@=S+ZkR-KYYC?{XN<~e!04pOa$C}1SoBNRJI
z!7&PsBT&~iDlwd)0v=poCh#Qb1Z64KT0|?DSbgN3gU?9mb5zm86g)z~qZB+w0V7gA
zPBBJ19;Mim6pSHIryJf1JuWt*PEyh-3IY_2Q*fFBgF?&5xr{Q(=(m$dRX-={p$X;(
z@plY*eq+*kO5<<^X>5v(`vC$Vfeou`(^yF`?JG@D{nM1SQ0t+ZRj=p*rRw9Xrb^>v
zd>*?T$+5vuoFqL>+4%Q0-lru>l*lIsC4y(C%ANVg$IhU1kka)rPE0>P9=I5UcU#K9
zL3&aJdOL|KAFI@Rk?;-xqp|bU=?ic$C`r#yMtzDUzAOllx{2p_(+Gq;OF4}(oRQ#j
z7oMjBqx_Sp5d1mH#g{AE#%CR4P0Uh)-m7P)C74W5T_enpGeYTk%AgOtnjvsOT@-Va
z>eo7?refsu9fVQjCr2fw`Zs!h;<<?_=`s~6Pbzfg!o@^0_?#E=BIWd&<h;n-Esj15
zhu%=EkzO)uM&d?h){I}ELbXYiPr|B)S>`WLW{wtM0M(AFt>DA?i^#z_F8_w|atM@=
zm+hp#L`fnqz)1dAsMIf0@GBHtrQqLE@T(NOjKF+HOWdFQ-2MV&StZ8MGG;NX+Kl^y
z00jYc1xv3`wZBHew<%yMO9m6^%k=CA6ueIX;~M=s#bgQyolIgZ#B4jz66h4|l)fYi
zFn0^?0x`9q$!)PfaNpwifsp+JA>)=%bxWweCDhy&DsBm-w}i6WLjMOs|9=xU{XlU3
zKycp@^6~fAg8R16{;4(90>cUjK5+<^t+#~kTf)Gn)->D;2tLgcEc-0Cgs$7d@ms>a
zPp#>ACQy(qScZ^*SB=~f_S_Z@CZ;9U*}DD}J8uci{O`8VCkuVIgq~YM%Wa|cmf*i7
zbmDe>{$b0fRvWz(!CeYI*(6wy$4Sq$;4X_5Yqu<cJ^Q3su(Y9Zw}cM%qJ~>SJA2Fa
zTf&Z8!q6?D?>2>-ZwYAFiQB^7TLO|!+!7vI-;AA~rrPO^2tW%#QwoICoLi~Gw^R3g
zXwO@CIBYL}DeX>q<x+d7eru>|D||kOgzN=hSl9-xM5t~H$m^gc%a!{>Lf*neSlIuu
xt<Pd92zk0b7AW%Z9&3iBZPD?ufS->`j}KccEzwkWsJJt<<;W)~?4F%8{x=eqbNB!N

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/gpu_ubatch_wrapper.cpython-312.pyc b/v1/worker/__pycache__/gpu_ubatch_wrapper.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..efc4c06bf3b72dce9ee2ae6654be62849d65e3f7
GIT binary patch
literal 19075
zcmch9Yj9gvdf3JLb@AdGAPIorLxf0zA|={-Qj$$dvMf=yWqGq)+Xw_)QlRjl?*%21
z1uE^1w}v)OM5T2^?Isc3Nyl`pY2-{MmeX|B+w3OWNq+E}bb(ycjkfDfXaBVHQd{kM
z@}u8(?gJorCAmqqN7T9JeZKShp6B3i>~<>!E~)>m#KtH^{S+gzGf07r5e-G%pyE_q
zlcdJ+t4(TB+HtK0!@8s{r61Rmus&%>8OMzztVx>2O{9)FWf`}SG(*ywvW?qF*qEeK
z_Hld4G43F7Q_`7ojk`$LoOGvZ#%oB}lB`YDjn}2>$LmuK;|;0C@kWwvO*W-G;~o;W
zCB3QU@n#aHlP#&%@m3PHCw(dZxSxa_$v~=Yye$<R4{9ha#dw(Z_h4M;#yc3jmO4ts
zov%}I*Lzwq^*!-Jjdx19Zpf|KlG{aU)<RyLoHxFWq}4-OgOb)gs|hv!4BH$FX$14r
z(PT1uHpxKP5|3u1v1F9vAfh{*o`sL==`$mTkFwF}b6*2*nqfm)!LFp8%)}YN`cg8P
zdODMyNK8TndXmXTnCZwQo0*x0xSNCcBsLJ4&Sa92L_DMytRv5zWU^80PiTm-Of<_x
zCNk{BC>xK&GU+UHDJ#@sL)D2*nF|cdCgNL)Lr=CuI+2YeGn115B|sjVVOb`fjZ7z_
zS!gE(X|>Nl+iZ%7C!og{nKYMSajf=pQ7#f^5Nals!V#W%Dw>U*gFz8c>Qd43Ol0OP
zrpfSeF=<)IM<+!#eis5aD25u>#Hn%Z8H&*{`nYC4q%wvnS}IlXfn4n)b9E2TjqB%3
z(5^miAZ1KS+(_bP$T4APRv$78jxz*&W!g>hJX;d!>6t973ny5nGh8B@$fUV3!A_F7
z2$MR?KvrF%V&)=Qaq0wXdL|XgX3j%2WD(4fNIIHgA`!tFiKH^|nIwkkNaVGdXj05!
zYXKg?8Hq&G=}b0C`hqfsY=(`U6O7`Lux>1*gC5_dHgK-KJl3C0P4`bHru(u{7WPHo
zrI{!9>^}b_)1OS7?Vp~_p39{BFTghJzcA2$F~go`*#61s8F|Srid#24J<B#gbHwvQ
zfZGS&x2bz}?~2}Aa@JkTUCpiNn=3-KO*i&m-@n+w*LJPwyGq`^J9^%`Yem1S<f?uB
z6x%7croI_oh3w6nVag0iRc?x4zRih@QQ9;n2$2mE*NvMQOI$~m+!)uBh1G=&g1dYg
z;Yf|(k+Q^Q;!$$u1gErXQ_^u86HJ+zEG#$|va+qvDeFTIXM=46Ptaps!J;(E1~7|E
zTMvd18M7Vek->Lis9W|z5a2KgCKaZ0?&@68+0HxLSM=?rdg6P1SB@4=&+ocAzN+_$
zO<?U!^C!>I#t7t;=P#~dba5@CXLOUAxNbu0f!w%$b9}-WH@vPNH^hyvQ{%?C34GJ6
z4z_>e>63Vx*-TP8)F-3qC?E>K9LuCq5iZ3EG-4__HYPZwD9jau`7u58Cp!$|ncn~$
z4j^VF1Wr*?64I6n;#WrCoas1_E;;rsO;%}f%2-)m3{P3Mrah*HZEFp=H<`rb^*Oy7
z9?BbXnw;T0K+kE9Q{RGcj*0+w5go)dbFfVzO<o)d%2N>q#+(*n%0|xVAf`Yws}1R*
z{|B131|%n~K_DeALIBWn0PztlPco6744gh0=sukVx{$)y$(dv}G0kRT3<n51q_hH*
zD-$C)Bpf(1ok<4(+cPZI$ev?Jdq78e1Bq+^mXafhfUnLnY#=iMU2xS6F>wiyRB9%j
z5L*sJ({X4j1-pRs6v$>UN_Gt9DQ#o{oh5Of1p3MaScaQsV%fw6COIp^cnL6UdXj(z
z*?{;M0-DlLc~scf495f@B@n$3O%OVbfCsu0VI~aOQkS8yRjGcMo#gf^F`RD&+-|_A
zp}m0@VRAOj1NI~J%50s1@TSJF!ES7UWm3^ZIu4V0F#+(MWe`+l0_EunmsbmGR-Ujx
zx6FEc;~N0jE4_iSOqzKmv>AA;bvQ6FlZIJ@70#ZEK5R7~2YJ<T{&jV)j9i(vxiD;J
zX?F(_TtMPWlCyzK8a!@hdOE{qVeVjjh<3+9H0y$MCzujk1hFwe%xo_v)gx0BXD%dS
zOax8@@MGBo!wC+V*AcUX`V<}+EFqp5Kx;GUtYA@gj9?S@G{J1_4rrPkKyMJdkWtWc
zOmd<sSukLS9J?EeaEPyPX#xQj(LIuW!hJ>NV1MH2-hybuatZ8*djq^H)csz{6(~Bl
z@y>0l&d@rgwOC8^{tX>`mz|;eX3E`g!+PCXbnW0>JN~r(1MmCZ;=pl!;P}eGi51t$
zf}vFBDc1G#b^Qg)J!j)W=woO5vblZP*<SJl3;H)5rRI*sOMG*GLBDElDm4Wl&0cEh
z#;B*{4;S>Gm|F-DiYW*j07Jx1koz<QZUEAos?3Enbdais>ZOtz%$MaBv4UJn1=YW&
z)S9K<)r^Jo;$o0x!4+ZmfcLJ3-3uQM%Sy9ui9`s>i$vzy9zN|-kuz8sY3&uNWTuN|
z4{!D?blmE@*|%!$CMhkvxn<$SVrw7Y+V_b$EKZC<qoC%mcVZqnowF1>3=o8L;?&?K
z6gR7$%!*)UF2y3**=a_wVCX_LIRn8g8;vn%qp|ZG4r9}HWdIMuygg#OiY2}d6$wkT
zdD_A^!>i^{#kAde_2#Ren0v{jh0N8gRXf6q)5jv;#vVd%6ul1g%A8a`M$yBy=SIML
zom$rh4gL3O>emhMT{lvV{zcuw%wl}uU+@h*>n2PzQ{Ld>&c)89y2T#e6W*{u;?Iw1
zw1)l-v)0fjc7V;s;J@NzQoixuAZaU~71uEa;IE8R4yA??m~tsWB`{$oyqATsB9}Iy
z1s+T<vmfKOxQU@5%?#X`J#Jxue~Vio?0~Rw3VF~f2l+P0cReDXhI}{V*D$rn3qlP$
zq}0V7Og)615N?ROfCFrtb%$zXnNAX81v5L7PNU!}*idjlu?_@SfrjL40)!ZlUl_qC
z;?r2=Nyad)<i;YLM8FQn1}U%;Hb^?nfFrb1mB&Xa1?82ko>j1cs$`(BP)Y|>PJde?
z;|pj>sh@SqWz^OtuC1t}Fl`BB=oF?cjxnW25>o`$oG$BC+Ha9V<?oD!?aiVPK^)A9
zHmAF-dk^OcTxGl2HZcuY<)9oYf93rGHOhTcQ+PnCT&{9NC{+@d(?iWVIW|j$^q}Nm
zpM`{<AuJF+j-Pt=7<|}gz!Pea5(009{Drg&DhRGoWJ3wP1g4Mhq<~k>0dE=yHcl`-
z6$O0+$Pso-nT?#4qE<x&;{>-7j!2TIU@dDzSmd$={n)9oQ5IKIr2T}@PbM>GfvGH)
z6}%BiTf&hYi)0pICRz$>IgN}sWFV-qJXA7vlEvXBMsz3=5`vWG8bqasbU+k(jhmZ$
zAG|Bnx`Xnx5gOXuC6d%&Uom)y4<5ppf2}!iYwyjy#pYhVx%bYI<>ua%=6$5x=dE4E
z)-c~1UV3e%bpVsR_jd1vmYnz6Ix*@id3_iy*&2U8U-S>~@MjxX>l`Y%nihKQoVc&k
zb~y?ot90<bk@EK!eIvYYWW{%+F!JW9dtP7ByNCDgx!beiJwjS(XesD_+eXmdCd#gy
z-7z?$Z|L7JfanGz6P+48&uikE*Qq=RH)<zYO>ARd$SUVc-py(fzM2sB9sO1PlyZ(`
zxXJ?LH@#U@jS!d9Ji4r`@5^g)nz;5nkP_BV&`*Hm{JJ@>jq71lx~y_;WJp<uQrZ&N
z#;K(BJBES*Y8jxGF56h{ot$u^e8NvtA=B8Vsm7An{03sc8<a%93B7w4w2L4pRdO=s
z{mE$RY&<$Vx3_8+K6Jl__oMWe<c1+2*8P{z6Cw0hsKs3(%|k@H2`t0{1gtIyyrsE8
zUDc>_cQU>_EixVevkfH(RCodGAuanVG$1%ZZW@ID5lNEeu*1L=!W6T3a{ejfDL{P=
z3GFYhP)i4kJxBPSBOh_AJ<o34*ih(Uv(3JO%^*#Z4*Ne9tlz@+a8+TN<6A-b$IdVt
zg(l^B)y60PS*P+E!i;<jPG#_q!|#Ug)~;?pK%fVn61lAk0f-j#O!@*K?w3xSI2jpv
z>Qv<EQzuVGPM<t2IH#j5tT#i@E;0-a4B;Xo%q0}YB62p1NI<BSL^Tw_MU_H^Wn-8_
zr=pi|BSlbZ7IdKJU~4elqNt$>8yGSYB2@(-X@Z@A@`@mK=#aSQkX@bY{;Fqa4x6|E
z-mk7upVu}PYeRf(s9^p{<F*1_vNaTKUA(QUXglz+?EvE4p6{iLzC*n4P|^1s?|ZIr
z>YmeAboTJho)u@`vUAT`vv1+jlD`-l<wK(@p`$C!$L7r_n6-T;_o@HcdHM?@)!b8X
zuGyO2JP0M*zMK1$4*t}4pm6GQXIH7dwdCn6we;LK>0Q=!N^h}}^$~REnc0}aG6A$m
zCUKi>%!5~{eNz|8avB*KvJF`z0mMD7>}e{i=)dBCM85~-CiObsqy9iIql<58Lb|az
z>)~vcO`HYIVPI}B0GjRq2ooIWpc1IU0Og6qd!iyrVGaTkbFeo677`PfB%;s=q27WC
z#D0tk4yEBymIYmyRwVHm7?F5h#4|3~B4ElORY1n^RBeZH7A`%9tPm`}t!94LjRV&Y
zEVi%Oy4GsF3%hO|xOrfyeWf<MOo!JTEhR_OLhXWKoznP%rC`@PeQ)<I`qy<D`{0I7
z=Y$2*$qQy=nd}Uk-h_A&0g*LBK9UI4@U3<dvIRDc@Mi}hzXEd!#+fwE(Oli;0g0)L
zSQwecE1-L>y_Ub4UzUY?>{oVX2oN}41r+uM^@g@`|ERG5GHEPm3n*e}UN_4rdEF!h
z`cxpVD1LlZ1_3p#QVoQq%0Zrvw5F1Wr!{ZP+T<#6W!DW+8VX=B<uoJID<EO!%~`u#
zN=<wN{j5G`p3vSl$R{Ij$(g1U=0dIuth+_t*`U&}OeqXQxr96$8tTnqJ$03uQrPcu
znJI;FD5sU{WpTj7RWM_UxFP4k45PiG%E_(dG`Ee)SgZhrib(m*hO+RXUZOnKbZfb6
zwq5RYszVNyzcK{nx{n#fwsKuLl(SBC%i;1jXHbXown=8YaNU*N1pB$#O>M7Efm!U^
znkJ6{S~I~80!jq?!7|nVsFH8i>8UI#^N7nSdvS!iX1hkm;B3USuK)&p88CO=mZx*{
zb?uuLJ(ag(tiob~8m=mrv&Xf!&B}T@a*mueqU?yc9{<U?05h)l6ID$>G)L^9TT4&v
z+FJHBK&zo*x;&k?U8LHn0YE$#A?52Z!?3dlFX_HcUDQ;kU$&~ZC6*3ZqI&_=Sc#wo
z-qX=(K#QQyufX|e`G^Kmi5Lr_9+;Ow4GhGgLZ6SicCcwDVu5oE)CK)9mq{@fQ4fxS
zYZC1gQ0Xiai=wUIBIx!Rh=WQWjn<%DhDxY4SD;{`v2#dwkPeB)K?tJoiqr{g6VYU1
z4y%9#1$56uaSdh^=m0<^?Q>v*EjNb+iGUi2iNmXceIl8;h)_p4P|$<H=3<3)VjxV6
z5okz|U<i=LxxmbHfWWy4z;Iv`VHcq#W(Q?Z6_6)@%x;3bn;4hFm<FDBC*UmHa)_J*
z`%RMR4wY>b(jX@@#E6s$a7nln0Kin+mL#L9Bzaeic<`Yk+A>eXvUCyFh>RAqClV}I
zp4iPpFB^DvO4G0@A2*F?;X=Jt5|^Ls4u)7w(1s<F<jtlgsR)`Lh)p;k+4TdcGQ~C!
zs*2UA80apwfy%Zlc`JbB3?^ON9noY4409I~*>hl!;{vihT3Nvg7?re5Odm31L~{Ef
zAe6U|Y%8Z&jcluF->(|gB=+}^H35gHR80$)*FL5vn^?cn2hE?NzbdE8Jt5kDOq-9;
z0_1gZyzfMn5#VFmQil%(%PRNlf-k4V5o@Wd!1_#~m{a8-wXP}&qL7N$4yqiaHdQ4-
z6m+5z`OE98X9t+}=B+iL9TgU9N=3JM8Fbn5%xFN7QB4Hi{79WRyqSAQ`ZHqsyIQpL
z;9yu}fLH{QMIsk+Rwy8?sC5v<NTRx9k(CmRk|xrDN0?kt5H*vvDhQ5!4jWeKM=;`z
zu5?_`!lf*eU;;}tm<>4=nFhhJ8OI44xXD9sOGLyKf`P<Dn-rc+LglVp5$%Bu5s4be
zS8zn6J$G<3=U!Ec;mS&#s;r3Ez<-2}xc?0v$nl@k?rX=d9xu{uJl(d~@lMa%J*#xM
z)Y@BY-Nm==DvYgx`OtgaTXY9`cW`mI*nWs_KlF+F@LHYc#_{XNi*<v1-QY^yu6fM^
z9aZy`=JV?E2l(~_pSXwB%OCvjZvWr;J4(L3qVGxG_hdN`+FcBt<U=P*!GU7%ARjz<
z-(m>V%+uIQVBJO8>#mJm9a}h6Y}v`T>@2oC!M8kdmtJlj{e(X9z=M!1yAOZ)Ki$L2
z?qT@&=Y3yt$awxB;2#;*{pTJ2QLFARJwu}nx*rZ3Mop$4Sq-DLrXMvJM*Suh<>a3s
zMjLxqD;UM=Qi2|CO`*;z1nFdXA)JG-pvOCTsE>;$QlS>I?F2_6Jprsn8cfW%#AL&<
zd8~<tgGDV0`#e@QzDW26_A*8cgmSZ|F|5BBO=QJeLA_WSIZpN^^w8KKD!AQct+qsn
z1p`SUK!QaZu5V#85#|CIFhOC+WCi^c5N6o>#9S`ufb(H{u)!C>gF~|y!?=0bZ=?6G
z(EBEO3h>IV7IzaTm}NQyQ$+>?<^Y*wMU*_Vd@oKgh=xUn2tq_UF#-s@<me#Q{>{K|
zlA|Db;(2gaZD)p?^FQV&{1LRp{V!Na(9PTrQ&wlu(#l&}S1kVfTBqfxW<v*@<vIzj
z2dSMy1yjk>z2xRSJw?w>-m|mld5ZTuRdAH*I~Jek>$er_2l@KJJCTo`=ZB6KhhE^}
zul|LC70m38uEqE#_MTF!zcBV`OV7M{%@ZtoLcAwbY96@P<Oj?7x<Th{xNk6eYvzq$
z25|d}u1?<7xj3=v>MOY#ZqV21w;b!WRBP{g9c6bHX&+DfigY_qx3AKjpgaohT=V*G
zZNIs_=neDU@QQawDbRo4pbI*dY2Uh;a@AeCeD(6ObNiYL4|D(9{hzo7KX<jQ1_z75
z5k5Gw5<If%I;x!MHs0M<as`X7Uf$JPYV0i4du~LoN7hYLP4E|#zQ(a`rQCr<4Uc8E
z^RDeh*B;)rr|3GsyAG_n4u0zEoj+2l^WJ#&`m=AHT-Q<lzRwSiel+<Pmsi_PeR%oZ
zQ%lG0F#opm?&Wz0-*#%v<Gba#=~*1U^V+Is&%CkJw{zJQTy<@KP>)?TP(23<BiBw{
zJ+*M0r?)*A)liP!^&=VzI(LS6XK2|R`qhSo3O=WK;Km9F;Fk~jx0d>nL(}#TI-lNu
ztV#Eyw!`*gwBfJ9^f9CLulBY<_^+EAA>+qJBZPlU8;;dme(W}3N|WJOuPFxNhT@RC
zVSJ+(aKcyBa-g|GmIg)rMp<J9EQiD@N%{sL=O8T}AX*6|0mP}1Ribau=8O}%+gh1z
z0d0k0N{ux!$-SU7I;H3_<o3(v5Rl6b>hYq5nt@tHmm!Y}89hnMqQZ=*u_BMwU*rsu
z%xnU96<vlZydX1M2=lgyeN)(zO;WV^nx#sLHltK7Nzv9k#44m{6~-lJjq7eJa&q35
zvz^|`yc`sn5lQ;B<johUkYQ}oMp8KMe}FN8>P|aV9-9&pIXtxds&V5Fv4m^Y_;Dz!
z!kJZYcw6{i*aB)BNfk~tzWg%WMksGO6%KDeoFsM*h8r@86j6ntB9xH5f`#-V<spQK
zkfhfkl~_%XE{H_IQN<kXtfB}Y(@7;ZF-8(&Ceo{4VY6rn0IjDxP;_^%xV!(~xsni|
z^ha_fPO2uf?C$=O!+HMgp~Hi^9}F4}?=!Ilh!dWJeG@`5=lVOCsxS)dHH;#cz@oyQ
z@CfX63?VPe{u}h(Lhtv`L!C6c03KX}tD@*g62*DFiJ|YJ_dWFf0KGp%?-qKC;1N~u
zRzhr#RL<&L^CPDGm)MF9Fy0kv&Eim~?-yEgnfhW72p&@3`_@O&(Ga1dtw>5udL*SL
zLP}i^Bc=67N*lJ4(h}XgaG226E}rfx(nCBwRHXOt^qy6E->2SgpiMxIZP#sY*}u?H
z&7lW=ATsxZ)b8QClYe@7)pPXy%Wt1rJhsGqxAV^Bf`j)ElIpqcSr}e=ZPh(cFqWM4
z1^a_-P;J@X^A8(A%6m-1A);J*s&z!K`^y%3#AW=U-Y{Y}#VU^-3cQ5g{1WEu2I`}2
zW&8v-7>RZOt{jrIf^^=VvrSdfENB8<ndaoQ-!y=!nMSmlhBp;()Y1A=<#OhnC1(W`
zAz63izJNkJ30g|UAYay<m*IgHRYdiiDQ8osEI`4eUh)nYqw^tSyjU?tN>#INR~3a(
zGjGTl<vw2419f%f-T9h)ZO*AWSM~B_fR>cZQ_huh=W24bIn^Fig=+PZh~lao-U5e<
zJ<=Lf%=0WzVkcY!fD1P|!4{t`bI&gE-AtU}Vr*g>lyUInN8z#IG%DAv@G%40*NHY1
zZqlGSloO>_<lqGtXdo+}2yq0HfQgi#kupB^LSa#wMxq$9!<9g2mSI6rDq<mAZ_%!b
zY6n4=WYS_cM0%->aG+Hcg&%mYgs)>b!A4%Wh&kjn1l*C$W~K>33)K-sCD<j*OsaE&
z9V~WfWg033@G^WjEcPArme6|_J>*gZO+uh6TN7-uIG(*E3Ft1;O<V+!Jl~O1WN8In
z?NpXg-tsgnspZE|@{=A8XQUEs%3+aY)x$-H@>3{TK$>f>LZfPhd~p7`E`m<iTc{S_
zvbkx^-@VlOU;R&BJyked$d%|8QD9heb(Ok@mb(wnpImJFxUS=)Y^koPSl7YVb(8`<
zCAbvSbNIf^=&t#N&TMx8>mJyBzkzD(S@X3m_O1AKl$u(KP2GG`cd0p4YVCuoMMZBf
z@9l*;jn;w<B=CWqV1(Y(`8rLx>x-^#-ql@lwa5Wa$pwF{C0EA=^ym1(X0SU-t^oP#
zD7ku2m<OPPJRMwf`ARL@mNYlVO1?1u1)nH|MoRvkqW?+W|76j>pZD)CH3W+dVZI?;
zY}my&?D|5d2@Ku0n{gyo7)djXWPOlw`IpV&+ZcfsA6JR{E>?;8056Ex_7Vh;Da&aP
zN9K(=of>-<*PQQ$&1KCI=IPr|T6{p0H>C~0or`r%IX!Ct{6k`hZS&@w0aAd^m+>!f
zphm!rfNv-CaN4zFKSPBByrI*lQH5X?Nj9o!R5$#eVa5mO-9_(1@HoII6+4dXGxk3~
z+FV=Jt|Hr(=p^K0`7-XQ*PtxiO><E#or^E?&4aM9;Fc_1e{J~c@WS&S+k7Q|_rG^9
zomleoexQ>r_h8{$c>fd2bj#ljKf91$dii7j-sR`dfVuc5gGZL>z+%hCboj?3u(2#1
zAVu0+VP}@;K#AVAZZY7^1cPMgj!7g90H7#DDk%SN#9^5##VtJ0=<+&P8l0^v2PR~l
zn(-J6#X2=&2TN?Y^1C@>R^gJ>?w8F_Y;R6~MSRSo`s7EQyj=kOOhwBoT4LzGvTv0V
z74=mFtO+gjQKLmtj>x9U<uq_BRr^Pp-_e}L5)D<^5EaKn>Z{~#s;^Vi6{Fx8CmVVS
zF>#es(*QrRyo#Y2iDX<m2W$cyAgw5B!oh)CcjSm#A!HyS8-$D`L}vpsAX7m(RQ{^n
zfK~RD9rj6AxvU(@gV|JC|Njr;%{yVW0L4^0RTFe?btz<W$_DqT@YejCb5fIY;he@z
z6?3&?Ye_I1ODtvHo!u$ts~Kv)I>b3=&aJds1L#jx>2N{ArZ$}oL~T_L&gD0t_LEh~
z5Ct@ALN*o{PdaA@22Njbj#N(BZOeO7`@kAfQ@gjeh%!0k?Aw|H%po<ke`~s|oQc8R
z&&@U_IE@b*HN_tN3Zou^9#JH$ayc{E|8=>#so|<Dh)x~enkMgi7+c-cQ(N;1-gx}{
zI{w+_cXTTZ|Csr$wkyq2>h>c!J!BmdCGY<P{Z~+1)Fu%-5@^V$XF${cEF=hqIKGYn
z0{uQ_|H(tDh^q3<9BHVXMJ1fbqLSK#PerYepg(fv#0k+Z@FJG^8YWtvduH_M(XTyo
zdQ`l|bp~@tkAIAzJLt`$*M=VAg7O14(XJ)(#Lr-M0<&xImjaZ#l@ShZD1gGAJVF-?
z@OW_NAZx>NdSpD=KgW9G=)H~Jx6uoMhiZEGF@RaoXz=eK1s($I#oX_Z-18t@Omc#=
zO3bJpI2j2_7HV@|o<N}<Wf_TogS(-UDn~GZY(xgoEV1+z#iDQxgoB?Vm=<cJ%nCtD
zG;RDobj+d1Co|@oz9N?nukqk!bP}%qZMoAgre6fcg=+;Y391cm--@@t;4C$7FE;Pv
zoA&|xRBGB*Y#QR5h6?sl+m2$}QNHacu%yUUd6sPfP!_qmZnqXg`*`?s?khEJTW$n>
z_)hRkwe7{)Fkc(K)A2$7`~7_F;kCZK#lC}l-@)a&?f0CWxBH6Q_w(EL|3#`ee1;!B
zvmAPfcfM3=?3mBq$Y0Md#+Mt1mL~Ydp=H<5y~gHZV;|qxx7@gA*|i7!Qe)qIR!m#U
zE;kO}xxhCLFS~~Cl_9=IdltYV2yA&bPj?sTKA!HoW4{~acN{A2IKl5YQQYwY4}bIv
zCEEUlLEGRcSYc%K%?tbZx@`pu*aYN|zjL_@*!Ba!8J3!S3zzw({(>D%0p6S5qGyoz
z46b-~6&&{(I*Sbhe8T|97Dmd|yzJ~+Hg|#l)j>gC6XzH1;MN5BnqaYJkgpjm){OEs
zqXpAiSI;}ix05A%aG7pjoWub!KOFk&eLvU-?;^HY;mIQySbW{LA~z!?+Et`m$nbl4
zy0=8P0o%G^()*y47qxti3-Mc-n;B@M1dAvw2JhN`&lfEEcJsd7C0`HzdE4=?a}S37
zeWjLgscm3w+pglaJ^Z#k>-Cg>&jw}lI|`@Po2Z(G8~%UoFUhO5l)0Pz{@jOiD~-p|
z<k@!J4<mz)J8t#g?C0rFRmW|e@A%*L-|_No`@s}cLbH*$a!|H^l^!V7b{1><_}ac@
zy6<sNZu@FbhWN(NQvcmu-{1S;-j&895|j`60N8o|mk)ZyFNZ3H|Dta>;nn@ku9g#B
zy1(@rPPCi;w##s$-!v9#s($2$TnCFxIeF4k#%`kB9;q$-#sEGekAdKPE)!?Jj!8N|
zd2AMIT|^I=KM`*sf)eyexHl~R`~spiFteg=g2+egG8XMXuM<6F0okLn_bLRq55U6*
zgdRidy&CVj0lu&l4WNR=keO=iShrvZOl8tb+cw_Swqe7xCn#ghy4Gv3-m(6if)Cgm
zrG)j}CWCc>+o0gHUZXX%E|@nc_^g{>&=|Jg9s2(M5BG0S7+yc8?JzXlnfW01er|(;
z;Q9&8euE#jjMY&{gEe!*gHaGK4c2=N%^Luqb>oR|XbeX+;+Swap^#{9cE;fT7`~>5
z-zN!2&&J4mN>DY)KUxF2A{2^&Fw9QF{VnmADv-no7JT6s#w-2oB*vRb9IsAD@4m?8
zF!7xgd4nas2@H#G0>#zDbroEsVjP!*-0qHx*ZiNTP7bTw`{&^2N7AuaG6I+xf3^T#
z0wDV))RD^7GzZBUOY~HP_9EjX0VV#x4U3|t;2?G7AGqN}%etK;a?EQpXu}tOOr?>e
z&14fvE}Tf=d-Dj1h>s4MNbZG!u=vv{VUhOW9O8v57Ns<@*9D{0Im%t4eZL<=WYcZl
zh=O@PTpoa5fEi{#hay04DDExr;J&y<vtgz*?$4->P~sD__X^#7omKBIR3JvHzd
z75a>N@qyN$(QZ)S{eq@6P^{-Os_!#u;P0tpKe5!!|Hg{Ncf|-BS!;WsHEQbCDez!>
uYHjNzT0=5)8b4e~*Z8Fj2tA;CG<{!C;5~R*lQn3LYJLuyX84f3_J0AdVpVhi

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/gpu_worker.cpython-312.pyc b/v1/worker/__pycache__/gpu_worker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fcf3ba751a281d33ac93d0af9c43bb906cbdd4da
GIT binary patch
literal 41672
zcmch=dvqJunI~9ykpKY@APEwDi3HySMS`M8Nfh;@NJ`X;k|kQU=_D}4f+SD?$rM1z
z;!=q^<L*#t_gWrL+VUjc$UWJOeC(YlJ?Uxn&h#1gV`n|vy}Kxp>Vm7~iG12~&h*)x
zJ+!5aJJ~;Wf8VVa2o_}}Gufh4xOLz6)_r{6?|$D`f93TSakvup-;IC!HIDl`deAPf
z>Uh*_<+wLFo}1u!3vW$WCM@jNI$_1HEn!RAC+tbbgu_DN_C!IlaH5d89SLXBHQ`DY
zO%$<bYr;L@W@$a@uQypdQLKjflKu%la~C8^lBE-+%w3o$O9mza$?}QvWW_`U^K&MG
z$;ydJ=5{5jlGPK{$(o6pWbH&P^D9bhO4d!(CF>{Z*|R$lN;XV1Ft;bsm~5J8Vs3Au
zIoUGN!raA))@0j68*}>-?aA;&n7RFlj^yTv&CFer=uCD^bTM~nB9iQ$=w|M+#Fk{w
zL=STZ5?hnK6TQq`p6E+%o7k4zKCzuWS0r{M`zQLDJDAv+9GDnL?wZ)eo+}f(lY1ui
zB==72WzSWKeaZb3`;&tcgUJIE2bf=VVkkL0G0faGiIL>NiG$2tn>dslofu{AO^L(F
zBNIm~oRy0;#E!maQQqRjv6xHnpzrGv$CG0dV=Qhx>T_b^1jRkX@u62Zz9DwxJ)4^1
zq>H0JKFl}9O8KVPGkkOG6mMN9<T$<sPpx=r<E`gBeETboiPKlC;f{r}!O)?T&xS6~
z3KwHSXeu$8N=5#j@*4|V<%+?xskAUTl^&X%NylDJAD^6=JRcKe_so1EF{Sv0EwXcL
zb|yA{WiEy!-tiYsjzot>M~03b9y=u424}7yM$wr>B8g1S#m|Rrazkt;H7~@X$yq*@
zh|Wz4lZgZz@tJr!KADIw#CW-u9-@34#mCRir(=9HHghR1%+4fZGikXz6-!5_=2Pj}
zWE5$mLX4lEilLl3HRsq=6!o4-or?*%*`jPM#>GpfG34^|$T~Ohyf8aICzoHCOs)4u
zdp#6?ZZ4`sV^3-I3H5QaW+Z0Mqu1#1*zBpnQ?akl$5LrL`luPGCXZ&MVlf_G<?&QB
z8GkuV-7|YG8hd#zCZtmc@Z$B%pp!073d#97c=)I01p%EAol8un&&>)+_>~RK^OGlq
z*>mwkOn6S1oI`5zK8&{~Bx8JhG94R77tIPR%hU67bF%_EcYHE+@m-7TIut(;J$oe`
zOQB)K$79J^;mYZm$+^^p*|h9Wvgha=%RWAH9vOQN36sg>q;O(BJvX05qD`k_7#4WT
zsQ<9>^3*2FWjVp8CTA{cW9I0Yp~<NWF=c?rZuRl>Tx<$&tYR>AWoGI)jg?dLGcz%@
zG}${WOrA@R&t8np9OhGU$+{S*V5tzJ7Dne&7`M?>dXn{JF-Ck&Y{aWYw+pdUoS&ae
zL{n3fY4jJy9J)1{qRuXQj?Iq)lPMZyex(mFPz7~N<6WLc1NeFLyV4m`%A8d0ZuQ~O
zUQE?*V`+|YSdzI3D<<m!-V(F%)|j2Q;lDlR;2p7ob45$sISXI#ig%)rAL0uU;^bZD
z?0gX>u9F|;-7#0pQH5-I7n|Nns0X1%ycc;mV{XJQe#JiF;eAN$S92)fOW^0_OJCt8
ziun<~3{O5j5c9_zv66FEmZOqaIYLSiqXNHWSegRU9l1?X-0!JgD9?V*$_HPuYd#Yd
z@bfFRLr5iZ36c-WsZ`2=Zxwv2`07}-+PWG%*PzT={MO=k6Mi=#Ro(R7^<^V{9l}Eh
zZ-_PW^?I%$_%`tkXd(8&FR6DU--Prnu~zCu^jLFF3);Rkbqn80snu56`L>+Y?Fb3$
z?Qch&I{1Tp81L4~ci=s3M*B9yx0COTbs=s6O7FsRgpbg>V$a=p?uL6y%ua6xDYw9<
zCnrV^p0^^Wt@!Qbdy%qFf79FG*Qfh!$A}3`Pp|LCyiw%jcOcz%zCX4@eJeZh+^^^3
zG|xqCX#qcg*gJDl@51u{+m;UTyD>8N;J-3v_oAl8=yme@&?~!?Ee!Kwl;4k(yV15m
z{O(!eUbal^J<Wv=%LU40l--xGsYI3aMlMRsPGRn1HN7a?**%!Md$4sl8B1T7<z+u6
zJ1@j9VQ)~jy{UqnUh%+98|tImxPRC3CYRO&ue%nx-*a%>qGi##Xj`-|I^MUuhiAGh
z+#)w^SKPVx>D;{40Kv;!L56_@yIMe7`C@@KYb;zG`9$?J>0&LfX}{(&es5TW7oQyC
zYT=?~y3|OaxxUBocGNeZJsZE@<KDJib*3vcpJ^H%c^B_kEPM|nCS4XTCvJ`6mwV?6
za%xzc8=|;#LhGIw8hT=A<N8qJ&7_;P(CJpqW&BQu4Y%g{k`yK@;dG~#*7*H3a)}tJ
zHP?A-P9OdM+Jj$G{~oP|#_wX`qLVLt->H$L@4Mbp$1+BBnHKK~m(!xHny>LI_|x08
zCv9e|P0!OT$;mHVG!}LU-AE*Cp&M0ApqzzXy3tt0zFomqfhi(2_~?amM1Nw#PAwF4
z(Sp&n5K%}c&^Dpi%;ecbjE{uILH@>4q08|^B6KzuN=;sh@uBqWK&U0Pa6%)sLdqgE
z5E4NC2z)ekVR9~(+S8KiRH!A8x{P=tpUd&|1)@ZzF6vL`60>s@dmI#$TUnB#Gn2`f
z?3_=<qURUlbKwHH2xNHt5-8+YO7^ZPM=oAlid<xrp}JWKa`Eg85xr9}&^nX+m2i#h
zNX>&pl$}vVB}b#O2Ymu6Q(aU`(gKKV#7@qpWANl-a*!6?$b34UNJZjFg}9;zf!>%L
zh^7*;*j$u#Q}pcoIS}9}*$&!0B?r$OJ9a!ee&W>7X!PW%69*3;8#xsnK75LZWc0@j
zsukzio0AI^idnYDXU@&a4nB5v{=D2^mj2Yp(1}yS(bJ=YCr3`pZDvuPJ3Ouz7(G66
z{KTmj<hl(bo*o|@I{Jk0gU3#sJS{uYv%=H`*{OECAQ!4G*?&?czXz4qbw#!foqSfd
z4?R0PC|9K!@qKo75`#o}6Bj`KgJ@jSI}}&zBB7GTZjo$H#S-T>9^tI_D_N~n3LU$f
zQUV_rgzfZlT+t}w@1oHZVF)4Zy7tTc-Rb09_gs9gD?KTIq3L>ge#g%Ki#uZ7iTK&>
zxhvQ<XS(UdcVFu1Rt9MI`MG&@`;5$85%wX&1)s7pN3_wjAD*eNgP;9}YusZ$=PJHl
zC^{>%l}*`TL$;(m+q^5gscY5ExvCy>1+Jo1Kj-mF?po1ZE4d^0+>!s_IrxdEamCZT
zTEOkyZ&|XhI2#^2S){gQciV%u%~IQt*fx~$G-o%pOPl({O?{c#ZFkPx9sW0m|K#x9
zU76}bOGh7gN?$vA{b<&|KkILQ?67%@k%zbJwPV+hty(Q5`z@dP1CoEc=->W;9J@vT
zZszC}{k^*5v9}QE{M@F-AB?><Ce>~gYqx$HsCskk^)V^XD+YR{zz#96<H1_5elgI$
z>af+8qQv?pscu-T8-4&s{ZX<0=!2Sisb;TOv)6FcH~-)pZ+%0mKP1*4$_6^`ZqA$>
zU$t?eQOhIF8Y*2a<2Lm^;yjy*mxh1u_~UA>xK#3n?|H)yYP*+fd&u))ZHRszq31c-
zk%(Q2CFBAj27Yp8Y)aj-DU1WTtB^VU@C8;xI1!h$T(x3D*U1<&;$_;!(yzH`i!^T`
zYT>GF5h&Beb}YOvg2<q;mUm4Pk(GB{wJ+MIeR-aE)bbwYUUR%wFlCE#Q`WCyL;niu
zeH8@MqGPdOx@6;Y)A}}H#L@D6!}@Bgotv^<Ex78yhN9PW(K;P8Vrwof6^N=rGqMP+
zwzF1SdB=<^trJ69y7vn-Z0EnEk6F8&S6z$FMcV>ue6?s1Zsu|?7V(ygU%{j+Ji_sX
zTDjk{q;;}kx?XFI@yk0Gi_#(OdBF_=*S+>x+s-ZA74*JE?Xk;T*fqxX)^{y(@z6W~
zgTVxm;aG<Lp2phW6O@I0xA1Z-e*OYuy*;z%uoq2Y^_x7OT4+@;h7e=VL-Cm@>`N)^
zui)zeMzO5~n{i~}z-ii5LbNx9&IvKZXo+k+7Xn-nQa0Ake2-8(6-r@WN+4HcAB%)b
z<Qleh@v%#BY&C$5l$u7S=8=aGMOB3{++_O{Koo3*v1F969kvCj+oHhm2id_kN!d$#
zG_UV+wyC*!*)f#>7A6c)Mhpzn_BL#_)CTMv^K)454^eTWbfZ@j_6TRl{UY6{CUTIP
zsbDeDvoYWhKrbl0aDhVYj5;V#_E*`Zw?(eVNya)+Nk#irdNLuqS?4L)%0=iF)Slp;
z6wOC%JD^|T1*%CBw*`;7sI%f1;ghoAwO->scJBSOvF%44?{r9wJH^JG%Z<D44vLL?
zGtPP}*PfCagWnm*1}ddMix_B;0-MFa=B1H``-Y``r^J1yR`!iQwpqi)AMG1|cky=m
z&Y2tb8|U7fetr6lgjCTkR<tiybcp_r%)ar@DcaKTil=4O$(1)rfo?I-y&ULSa%G(*
zulcU~?mT;U@((B8`O05D`xnnG`Bt3AAGCM<xai#?sePZ=zHhmGP;|CroOQPx*^16g
z_d&7Z;F3FAUY*(0E0*^z6=i+ZHz)7;>NC#6nTEs5xcllKIE!C%Uw3CcC$pa5_rs#6
zDeI~DewFBH{CT0>RrHHT<)~ANDBC})2oF~j$aWgeYt~m{3mF?Zjow<jzG8JznMTCX
zFKxDB^|VdX>YR5iT5?toeGN8WU$vORWrUlowbMFVX%xcN-zTi2!`xR7u32?WSN2O>
z%JOPCR%8>VbGqCpO>>#of0033W_f5Wvv9AD+7)J5@5?J#ox(O{MH0S-62fkQ$B#0%
z6L4WAn!Ff`0?)N2Vl!-(3g;;X%_<>IG3@+gdJ@xkcJ4|vT&PUT%M{8M2tkiLN3O5q
zmZEp1&K+giT!F_zu{v$k0{;ocd<!==aUKR5*N$V!StUBFZZ@wt>mOtC_?FU=uU+)D
zueihO=1?}&B87UzQ19P_w!QA5d6O**-t3cV`ox;Pdu4suK=qqPUq7l$yj#4~x=(D~
z_kmq(9g$j(h^<HN2ac{fxQ6YRrQyv>!}l?<+?=OFm_Y4h8wT>4aZF>FjpP3djyDP9
zz;FIFol9A$fo5QcaG22<IDaBK1M>iTP5zZL4>T&G8Z$yW+scWq#l)TmT7&I*I{f%8
z3(}ZS6N{Gj9oiV85r3LX>tkNaPw@{I<cuWYEXrNjnX?T|P0oa7XA)P4DWruogf$u-
zG3+-AGZO-16#`cP?lBd4*CJd+4q=x<!S9D#E>U<)m1CkUC4aP*(Eg*r{A`bueZ&ze
zdtP*Ib~Yi{DO-m!PN@iEoXUmZ;^@>SMKgqrP&Pj0x@dCp%2_a$$UP@3V)`ihLW@Sm
zKQY=LAk)-;gWEMO>-I_R8qr-Nx!Xl|yW}3Y=N|ajbKqfRt5n%5R`xDeZd*E>^_AX;
zW1-CkLsD?77~HxX?7M5Z7u>nZSxZW@ffJ8x_|4$CfJ2muZn2{K&QPYJd%2>2=@2~q
z!KLEIHZIusMsn#;)>pAqtc=;>nR#s0U`NhkOTU<s*)uj{^?8bhuXfQuWy6{FUJPf8
z`GAfR<-#r?eWpV`st@@q+`E=BoKtuhu%NQe!fzwB@H@DLZOY5hJyKLYUWf8B{Des;
zr(RK(!9q~&{``PDNR}du3?06C=aOAnGgh4KIZyYU?W|9x^!g({Z2+vz|DE%{d<rX*
z?S@VG)3l20aNIQV&A-g1Hc(H_zzxx_Pq{ULnHc6cpq)S3AdLw&3Q}B2^LrblG1;Ja
z$0Z9&Nh5^`GHO~|9Va!~&lg<W!D@T*SICFB{JcwHp-`XB4O&p0mjI7fEsK_G6&u9Y
znE)dl;+ww(6D)Rvm?0xK&9#69=PKsS%a-Xz&CmEH^qgWWU`d~{M)l<v`J2T45)9G=
zyVaKQi<qIQa$<zca|Q<PeA}kQ29wmR)zK6s-mHZhzgk+M?n}}>p_VgX8bR`zzlBbt
zEX}oOyNLImYDBwm8euvnO;Vw)MT<7v-ETXzTBF4+TCQdrIPcl0-`=)rTPT=jeWghg
z{K~Fr!eH|*<fX5eMv#^d7-Aze;kJ1fQupO~;c=Q^t-LEI$DLXbQk%?Y_zq|>j9>Wf
zHl8#We9gwDj@Fx<Pv)FI4Cdrx){X;Oxbd6QjuFjw8U%R$rM*q`;FHJi;rx^aw1Tup
zwNNcTyxCUG53N6@xsBgx;+FF+#5|ejg~#br>-}g2Kp7oc$OdH)Tby?x=6IeL9%;4<
z-{rlpa98bV;$GRs7vpq|PP)wMZ<4px>zFCNC!{oKc}`0I)As_(DN)NYX;V&~rEj~m
zC(K*I36%Dgp)Bno=htkm;bc#rx5(qGT6E-KK0D0jtLle0r_WcUH<?E&6jqU*d~!Kj
zs|Z>G`xY1zVn`rYjSUSQiw>TCVQeTma_ZEHQ_<1EvEgG7DH13{<wVCS+l0w0Af#Ug
zTr`8z-^Aqn3=Ve$;r9?{Avk<8G|5ln1OwzbJ01?vIZtSzjL@Ok`E+RZT<GlV{0yIp
zgceF!41%;1IKY8yN2q;aUpSORa-#8ZPLv9zf!2pW=R<;LGJ#Vdc*H`WKF@;GM_!lW
zsW?uJLJGu`LI&1wWWhmr(!d&u%#P|2Ecpn03#ibvzJ@MxX}#A8h~q8qsn4gmcdcW>
zONjrjRdzroX@+Oe5ui8A*%W1<5|qx}iOJ+yesb?Za}FUHRq7Pk&03k-3x^WxKO<#|
z7^Q364;{BA-w(f&yz|UTXa^%Be;GUo7)r(1z}=`V3$@FZ?uEUCzlF&c437X<i+a`Q
zCLZE6kfCAHWeS%OqEn;z!ely*H0{5%c7_(lSsszla7=;zHj0ftS7f}_L?E{7?3K_g
z-h$3*#Zr-ls<GL02q#-~I;B-P4e_*rP`F3-ssNyR#8sd?0>ME9**cq&3sp%o*)}&j
zC;N2qG&Mmf0R)E78jTdWa=l-ab+lZYD})exIW{#9a5Q=rr++cLK$=5x`P#&4nCzdK
z0ZW*Q(pg@7Cd$v{mqKG%EhVo`O#Gn&$2qY?d?uDx*MM>cwboZTHKk=unSLI<ljb3A
z=Yhb)<fX}Yg3d%`fBr-f2rHM1NSICS%pfM=)WvB0TvUAv5V)ZJ74}n12Xo6!>@*hh
z4U%meN%|QFxw40PQtvrhvFJ<;qJq}*Q^e{*gm5Y?yJN|@^c97Z5;jpJFDoXciLrSY
z5~}jO!gY#KLA;~N2<Hq@*)J%PdO%5)Pz68L9*WLPCgx)!f-oz{9!RF8<4NU7pjoZp
zN^Nkd+&Ko`obtL9Ar(Kw1R*zQtT%E%T|d-b1Sd(IZ^JCh=in8wLZ!18O4m>GpQ6~*
zP4IjwZ@x)%Z<5^2qPtmghedbz_L*gO@28&P*N$92^4i$-u}sbOyY>~&o`-Y*)-3v)
zCI1f5zvFJhvVRxDpW4MhyA&7{1A`w7E(b<({6<7P275oZS<3q!65QJ?2AZWnpBU(q
z0!PHakq=|bfzvEOZU`m&uw*%K1blr1@T@*D)F*|Gi=pE;yxFo)rmQ{N+%7fui_QH~
z^HH(+=#AruSzaXtl&b6#1N*WS)e=zRiVmq_pIEW)GgM)}1;=G24XYlmr2I|aKla_)
zlj$82n}$UH(06^=V9lG~eEpm6m;bo>-D)YkUkvYG4j;G|JfHv&6<xRaAJ4u!o9Wt{
z+51c;a7x7^4&d-^>yAIJ{z<jeGb;9suJj!FCnIkjdHsk2YOe&kGAEy*Vp~wd%33M7
zSqyHLg1g1w?#%x2d%^Kl&JKK|qWyM23hxoad!+D~7#_>CpFp`MEtL-|J2Szq+ox6?
z*7BZ5HpI;Y#~&AQHK8ALzSViV{C4`s-+cF*naI9O+y3S1!KL9>aim!*dD=uz+im-g
z-S4_rJbj;%PoL=NyE86rJ1A~DC~Z3?ZacQ(IsVwgdADTg#fC(G2#z;hue;cDr|9pb
zXW#3-2mX-c?-Ko8kKF}0=Pc#CwKs>Q+AguSOF8RY@$>?i^!jMTyn5_`r-U4mrxB1i
z&Sw$SxMjHkCy*<iIyQ(JMSr8@?-u>t+0qKBv`H*&l1c}}(gD1sl3nO6Z^??M0f;^-
z=4%jr4U(@*^mW~_OIt?7EhG1QBOg`lxM6!x5yBa5u=1nI8mdo3tc^&u17hvKa^<c}
zaQEH8kAl?%eRhd8T~f_}STnF3+?A==jh@|uj;)m{!(wGvs@yMD?#~1VKPXk>ZxL&@
zEC+is6<b$1OYcd`s=J{48OtM^Gg!LHIZH|(2e`8OOvAw4K55r+ao2Ha*SNTAJTvfY
zrvA)w>2n#+b7*qct}M>0J+-2z_9p*>i*H@TfaxltQ|c--%;SG;=k=X8E#KMusi*E{
zTB`3B>$~rJwg7weRIdkV2uxuh&HoNZuF#noDQ9+m08&9EBX}#}p^UXRIY;1a@7uMQ
z+c+k+_LT5VE_MoOboQr_Cq%wAaXmo)F9X?q0r`^8%eEJ|%N8K1ay=8c7&$h0di*db
zx|7k<LxaagqR*a;9vggiY-m)r^e~K7_$IBG7TLq3NFdQiXnnXq_&&Uaw{eqgfGver
z=#h|nlKaDHB0G=^TNR}3FX5jevPnC~`nPZ|l&H(35g%#{T<QeEu5k~7Rc|i5zVPNZ
zUjIg>_0V!~^ur-Bcw)(u^_EE9EuweJofk6RE%&|q*c;y@dNxU(cG1&*Cz0{AuXu*O
zuyMuvEs}Si=-v0r6bLu&k2Vd~*#4}>G1y!vyJjJ4D8#Xwn?vhFK5q!E)1b(^a*u+p
zaKaLT(RS7y-uXF@6C|s{WbM@+`CkxYO^^ILcq|0e9$Ay5j5?(P!Pq*S9tC5RoNc1B
z?Y8T_bL;wnOC8MyZa*BqN-H!@lLpF~HWUjn_L9_7V_@gRspZhP!e8Nep<J#0+St%H
z;T{onu%`a)qO<+JQ#s>ULy6PSXSGj*AEjeD@Q)i{!e$fkWe7|NUjYYXM?QI%*&&|M
zX5I?Ek4iF|d^pz6zqBdK+r9@Wah6u+=9r)3ZO2tx+M}g2J^Zj~xzOPYjy`nU)a<Cu
z?6}UT|CgkFg7^f`hAOR==Iu8`CpPF=6C_h>8H6lUj%gc^fDO`{EQ?0V_(J;Aa<OpV
zv`?F&p;5i}Ah^<~waEAdkE~<Nh@qn?Mhr927!pKz+A*={AdEW|0T$@|^+pr$2Nz4J
zABw@JC>J9{ZQ6|*Yc8}$M{YDfOi7Gew3=2AcKr%1F)f7&wG`xxX&rOWN&tuK{`Fdp
zx*3`1E;Hm(&EKRKv@!RdI{PuQjrnI*SI^qMR-P6MsGWLV>U#fWc`fRj_?nm`?wWV;
zUbO|Cc>#FTO67~+_ZdPyhV-o|!m4J2a&-|W^yU+CKfR7LxM6wqeU&)yPyTZ(*{ake
zK`b$xoK9ZUKnF!M2;d3@ux*}j7d}P`O<-<A7iKR5qnWx;#11%dQ?Uj*pUpj*J$fd@
zj@KZ`3u#7RKPOHcPeqFKWaG#_Hgle`WU{{J;sSslY@^UDONS=uBo|s$BpR&NCH6A-
zQF_+E4N@_R<mNZi8Hyu|$;8w=RJ0&OOidsO94!gpBnsc4qVX9$GbW^yTiN*BfF4K<
ze_?h$gwxtkBA!H%RF2+nq}``faZL)~CJHu2O`rrXnRCG}g$MwF=0r>|8n<Q(rRA1^
zS+wgC0gzS)2o?l4$DLL-cY(%=@CI(V8~JzfywIy|<oZiBzy_7qUJqNf5}86<=QZx8
z<@<;Ksh1HZ3xUJRY3iD8Ua&z}Y{5rRQzu}gR7@Zl?#Uk_iyRR$c7TsjGDPCxp-G63
zLH#U#F0Noq&<IqHca^SG#HLiS?+`?IL#c~#Xxs7HtJQ}KB*-rS7vpE~{$~J7p?u`4
zyd(1-S96VoPLOy3&ig}8Ed26?*i7gO-v8yvnKTB$3_+6^w`pNEL1R@P`06+%z$y|t
ze2ykSTa51vF|39S0X|Oh+A&CCQ$qFpc}-WIjioQgP#z5!RWKn0p*Yq9<Tockx^8wp
z#XM0nVWY~UOH%XDie%U<^`An7vI#Q_y~flWW*&xS;z|VEK(R^+s>5Myp_{=jB-^L9
zDyP3qhd{OR_O&|a&ccPCQJDIkAh<sV8SN13)jVJ^1hIZWn=UEL3D(V%STYEmOpxee
zE<Abp0<<tgmmu^`z^Goq5I@f{QM*^gLs9%}=v@3|^lUuUiIs>HWGVj?RvBn{=4Pyl
z`w@x?Tr{4VrPW0(Xa+q9Z2R(zQMbs#L6a_l0)r|-xhtfqXX>L@4QnSbENqBYE*!~4
zgB2M~y;(+np>_tb<s=NXD<CF%iK)Iq({-U~Py-b6N2rk#1ei&w3j@HBf<RU*T&n<f
z<)#xtVSwC9jiBN%KO_7RtvP=}w?lLrrJD|N3WSo$L0S-?M2js)9bKfHkxmIj^U1b2
z5V%sd?P#Hj98T#B=~9pq00cx8>>7xz?x&1Oxl9$vr_A+e6|5|#&B35>HDlSU2yCkL
z7w%H|Wt3%JYvp<!i_H&GmL-9X`h-8G^e&QKjm~053x7zS{{lBns_oy9$1=sTB~#}O
zB@%SVd?GFTXpS(k8nrQ{=uqwbsdZi_`zBX!yofI}eCax0MXUN1Y$(^b&#F0J>ynM3
zfZN38Z3+sQaUadNL%0KK18eS4IB^JQhF3hB;aAr7PU?1_w0V!Xd5^UDu(<i~a@&y)
zdo!)T+AJq64Iec$XIci98+P3t%7pd<>KU{&t=e2AxN%<p<4V#CfUdwz+lr?)Th<Qd
z{!^#-wW8}qlCw^9)~z^0547hF(b=)$>;yPiT*pv>I?+@2poT#`Tg3V;QvHxvKeSvk
z{Bwt`xCnJCuFU}t)GB}BqA(BF&@F`q#n2#uN1L*(eNyYF*g8s2O%JQvrRwcs^>(TH
zfLMKC$%m}+Kr`Px-#)Yj8WdKGx9Ov%)>~<*ZKv3_Q)(L#+eVg~4rUq;p#w%OEbyDl
zO*=A;{eUHR_N+PzyZ{}MHiJ9@tWz6APs6P-srjIYf1ZQr8kZL>1*TQkC~fK%H+4&!
zc8QyI-Q}gdr$zkRbUNd#CYf2!bx+na{*lLb!!G$12rwf0Bg>xdoTd{>sYYoL{VmI$
z*2gY~s|Yxy%SSm-BRW1o9=>Hyh$8wjjeVlOZ`reLZNwX2TX8m{SjkyQY9*c?HCHuq
zwzO)skm;5{WEXg<%S|uxRnMo8L+g{uc8Fy=mVNyhXa5&pwcss$#^Lr$CJFr)?KMZb
zZ2xPQ<H(M}b)*hM3%-SElY4HbagQm>6-!#B;EnTjlFBiI?6g#bB3z@CI$x@Vm~nz6
zAiQXeTc8VTUFbg)OS1)Z7Mk%>SZ=T(rYGq{3H$bJl5HoNafkT1kiK$6NMFuJD?l-=
z02L$)NUBKK;vgWa<sp!84z$haqzPwG%*H|3&fpl?h0RGRQg&+b<w6{4Q0x?OL`0Y>
zLT*izJuPEe5|gqPI@IOiDdNu2I&lz1K(7e1p=HI_3K`f>1L0)|nY%DSsv4!rezCHD
zxpE-m8CV+4xQ8f0Y26zUsWc*%MwSY*{@~5ZjIS}{Y<vQ!wH<~0I-r(H^=hyjljPLb
zaiRc)zedivr0{>j^Fn1_9}q1H3k0#LZ&Hg1Q~|8zE0cU7(HD|@TSed2WnW*$*~gk7
z`}88v)3Cy@25!_5<^klDJ9xpo5e=Vr0c2Et8Afap!xZ$QQt~b#%%pxv-C2?PeS$16
zlYXahnRn%))>rK_MdnhwDxR&wE=DG1U{)@S%ERme?=V_?#jy^}c4%n!!cJAqMIrZe
z0-J~&Mj0ENL*Dy{Fu4ULn=U)GFa~*#K~|l*#gGpcuF)e;Hzs<XAQ!DWOypM~cFJ@j
zGNzLPnlSMHt)~>o^^b7NKSpHwu&V4StrjY3ys$|fg*mzB1b>T$;ykibl=|9ev)LiG
z?YLXN;ynED=|q7m>Q(vPBTT+`-}OVERy2@Uuj~!vY!yACr{_-hist~~>*cRKcl|kK
zf&R13+5;uFKQD0{s9w836EMgY=u#}D8_wIO9n1Q1j9k@ATbLP0O#ElwWd`Y`dKN9v
zUb9YF&y(&NfItXGZXi}{HWST+{4QAp<ng-o)pk1o>#NqZK4+kXW_jPLjbvzTU<m^-
ztb>(i`fxn96fFgt?ZnFGU1l0_i#E(`J0$AWEe~25{dUq3FiWq4zDC9y#Dsuj{`DRP
z9bEvO=v1Fwi#mLT)2IRl_CD<!sotREdM$6`SAXLKCWj1v%{ASqxs2Z%mTR+yaOEQD
z;;CZ};=E^hCk`241OvK@<~@ZGl7As)d%hp`3wR;K42q=?JB34A(G;AUj;zmbv5-Ny
z43LBoh#oBla@eZ5jbH7ZtV!kKivTwgh;0H0nw6>L0^r&Ggp_?oxtc2{C5ftrG=JmQ
z48BA;1c*`%pU@`6BGEyLWj2;g-cU|$NOX`=n!K@`SbjB@$=l0`MdE=D1MEe;N*7(Y
z!z2&<b)i7`1QwmTzcVL?a<v>fpUb;)VpY6dbG0aEmDrUR6_1NWT71mHJzBUnKg>j6
zg+E9SYVpt?2Q;_wJ3VZ;HP;3)4{G7YuQsc$x;J=FCdW{VuxIyvP)o_QX+2lH8>AmK
z%F<jy?FMm=YB7x8MUT;AGaIElZp7DIi{AGujg;vVy1)6+&`B-a_%%|i8oSo3R_N<i
zjg13MDFjLfy9}{~_MzG29HCT%z>#G!Lbo8ur{L_Q(ZmEHTlj;pOyMGkGa8#qoR!^V
z5#mw|;!MJ%Lel&#ieAGi+2O%ZVVVSMsm+Z=9EBT*EWA!PQ>3^@B}}H2YDXbTN418C
zfFc2~9w+`2B35W`yvBWh<W|EE<L`9cDOsuQW%P2K<6d$JzfZ-ziQB?90s?a-8c8tm
ziBgOJ_S%J;ls3rHMnW+AKme=)zaw~|gaR12tbmx1dSqZE^I|6*1{8#_dObRzpDu<U
zsTgM`drJ#1=n=?F1jJ$IE~pVA0P<iAZYmafBCyO(KteBdbzQvF#W3wI1>o7UV0#H7
zs{^bdbjWfJM+v~cW)0X*uL(wmSq39US{Mifc+CVpS$*_64k>2q0BWlTGAe?r=xGyF
zy5OK}A{cT-q}i1w3vVgm=jdgOUGIfB&&OsMNC!K0VMT_rR2dNpo~H0VvR4}=G=^b>
zgj70({m4c3#(;_mPy&xJYlcA*&^=Eb35<V^nch>96u?j(WQTLW!}FB9D9X<#lUE2~
zlq(b+Idwh&nPqb#CA(>AsPwc@!3x##W|NBnnF{(=2-AWvI41}aq6svSgpcTEfR}$m
zkAw#b|B`NhOt*heHwN?(WyeG`VY`u;6TApOFFqstQ(zvMMLM+}&}pB1IZ9ocihVsr
zRac(QPNpfQ+R@BB7O56uEl_5aT%tCZd?Bkz?JiZl0E3e{J40J(qZEFETew((2t10h
zLMBa}k}WSoV3VX}S$_jepbl4FzKUBCA}LprpzjP1doWj2)p|9O@G%89YHZV*q^LWC
zD%ts$+`eHP1Hfc4g@=@--Yp1C3BMq(Qr4GihFXe%5`r|0O93}3wQ-ie8ZFd+$#V7k
zv^XhZngG{Gbg)efwn@POF*qOvN5$Z%6g(~lk1sP(B!lgb-19{~E8wbIA35x`#h+BQ
z+!)N31xP@yQ>^WjYWIn?`=r|EMEomz?sEqR>BFiP$enqsfce!H18FO-xw-pJKniSM
z8dlAtWGWAQ0O`HMIouZsINc814Scu_IOu)PGsvNQ2f!7VR}%}`B09Gqo1Oz=&jG1t
zOzat3ah?Do>Z-WGuQ+QSHa5W;Kn`9(70<SINUb}>)*Vvo2y~K{TMuPCO^j_+48Lp@
z-S{`~uP>t}nbMA*+pPO7MV~<)uWxB+wTNrq0c$Tz#IQm1H%NX0`<RGfmsr|G!iABC
zByiX!mbQK7u$Hu=zGWSs71~NV2;vQ`7DF;L7n{tMwot0phov19e>27EMh}$)ZVXF-
zun0`a-(ePM+iJ0;Ebvhvc+)Obc8HZ7Qss8Ba{F>%N2aX*uH~b$iW_Mu7#4$JDY#t>
zZeK3jktqe}YTX%Na<Yn9gxz9bccyI5-BW7(PBGZIT-KE-jR3Fh*09`uv8`WfJ1Vvv
zU2Zy-X*`awF$K#7?|ndQJFwg|lxZA>_lTwaqxQ|Who#Ozv2$>_{XnK|2;Re%u8+F5
zWO_!IyAEeMkDwMuEnCqwD7+NHl9oNxkWA(N<-lO34Dzs+A<KTt!?JCe((QQIp@a@B
z2X<x3SoFh|Pn7oU5`(*z%aF^SyU(t+l$H#W04|X9PSwKB&9W8GrpLvcr}B6AO77Ns
z?p8qLO!}0tU&+5!^l#01B;z}eU@)h6=@?M)o^8^WL2=8VwB?w%<yf|+En8iOLD+NL
z@`$tb6pNm&rQ?~JF3cSQ#1%-a=bo>JWvC1fGU9XR_<jF@ydjerdN$+lTk)Tv(OOBb
zP!SZ3h?SB1&hB4)e#nNIqL_GaZ634R*AO?v%rTgOXzC4N29+sB6#deOWiy#KI)+LD
zgCWds9Xbfp$+;45xp6J1jqtyrh~GSn=^|`a*}wAP%WA5iKL@^K(IBX10$X;7zK&&I
zXU5sdsvI%z+wEx5uhX}A&}$jhSye-zO%A4RQ|r1HR;am!>YUo=B`7p)N1y2HTlQ_w
zIJYZZPs2jH3gBQv<RKgzH6vBD{;&XIc@RZZE*u+BK6#f$+XMB<jp@vbhDS3rN>80D
zEVw=?XC^?%Lv<HCCX8P~nM@Zz!a;;>3=+FcyCoK#iCvDuq8uB?d^GG7h<#B&OTr`M
zQjIR*Syb9|VbEEnRd_8O^9G~xbr^+9DTaA`s@1!5Q1T)jBJCt1htPpw4-65@g+%0_
z9tr`e)Fkgn!aoW98XWXOJw`Furt9732LR9DQfE=~YaCWgf8e#N-?{prtnQ6H8Bgfb
z((+72t5mU5tk}6+I<Qpupu93u6_%>@iB<cgszYMcq2=<?rJ_%Lf!Drq{Tqsqd$zdx
z=8l`;Tm83>+}@q>^h0diUxX#uRm6soTny5PtSU#9)+_`-<QrC&LyMs?*qK-Z?bAT}
zwbmm80?(T@UWKqzX+ll1x}69X8s(Z~bqCEGO^$d?k|6aO$^4+#a@XgG=!@L`#<CA~
zg7&iJ3eCtvAh2jnll1xXACVE+vIk~rF%#K?L4sjIIL$*DDo8cXyUdQ`43q`voYgpt
z1HW%Fw-)u&0uL9r0L!xp`_pc%7;T|9!){ZZ23l*9g3jFXt~7Dd?9%dGEO=i>Z1ovU
zm~y!m)A%)BvU)yZ)*og_31+*7lUyy#5!x+GS8KT&mc`ELaRv8c;S@|g(4Usx0y!`k
z_097$^899@VG>kJld>M+V8_L@_sv9duR0f<(;=;9#xGP+cVLJGO!~Ufh^4s%R;o$d
z7A=PH3p;SF#*^mS;BBeofSIPmtG}(DEjbjMGqMvx7|a+sm|#C~mFFiRUL~kj=1X&Y
z6m7ng@ZX~Ja6qnB)Y}-7r!T202hEt*a%T30!s9boDmCspjO5DM6Jsa6(D-8#knA*9
zAn2ad;ih0TpINYkzTQ-toem5500VK<>f+CKeYpsVu&NmxfjUT_eM<NN-Tr_*QW}2>
zDv-JP;q;hgo`RX2GZc+h1~~u-LN{KoMo-BeF!10md8jd_QgXnoy^zPrZ)JosEKrtJ
zR-Kd!<>(9@<L884MAFx^HSOAjiIXCGUTjSZHD{c)S>o3Yh`|FNJR=4VLSdx7TdF@I
z)*qoTGVs_b)^tiW2gI5KnW5*FYo5<ID<66)R%-hhkxD9AnZ~Wy0X7w52dFAuwb|>6
zAWiXE5lH4Adj46l6xw|+wEIC5j8oRWQLLy`J!t9qXJ5;<?F21cvIV4YN$De-qq!LS
z5!f5D3E3!m8#7J4_q}~tsLYkOish|Rd7oI`m!;yiqqvIVrGs>IUVXE5rK#_y7c!0e
zR($)j!A)Pdx#Df2w~rR>LCY5|Jb`>?@fx?SFk&a;+YUlps_qc0JEZCXv3g+1_s~-#
zdHO|9e`fcId!7>y0--lx7_<9cpd0ot6~UA(L~57+F2prRn<NXXoX|Xcuqph#uVw3d
zNK&KyF$YNv(Ea|v7h#l}@%AaleShB4H_~qVpW7WHJ!_BqXdz?!-hU-pF_0$d2cEtw
zpiB%#eB_h5duV{vsKlaKicuOTw4kmztluX3wk`X1WSoj_wd}+kW17?E`(7<F*@$ku
z<~Ha?L+=Y~rA4U0dWn+rFSGql+e>Ig+91^vPC#)6K$C}E=Bd*~TDWPAJX)yntF8RP
zE69=Xmb?oTFD*~(nl?G*C+Pu3pAwa7d)s~$sxnNWLQ9nMYqnErJz{#+>BzAhR$%O0
zi*`O&<)ko2D868^@O}N{Z@tFcqLp`E1UxQya?@zLIlUG7%a=oVwN~9LTw@EBCskv^
z1e=m{v1Yb<p}1R<BP1#^x?qo_Urx&bG9nC%V*F&3w3RW&VHJ`N1PJH^2q#-E<H^oG
zA3}2rKprFB{}tSj!6Y?*V0h`-IiU}8KoO-pi7-Wd9Ap?Lj8Ih1#n=@HamNJUt0@?t
zWP0OvNN~=`jyXubrok1k6&_#CQH*uV9=*P>S1gz4PgHxVkL+Z1M8?7)B$6%XnE1E0
zb}LIa)kU|wr)F`KCgaZ#fXV3gy|(B29!L;AD6PxX6U7ecppV>TfSO)Ae*L)QsTV!<
z_dN{{wP%v)Tk(V*_+Xpw2VHM<L3g<B-8w0}PYf&TCDSOrVP{5tcZv18Zg{e7y|-rW
zjD67eLF<S1O!M)Kzad-GbHkafto?!aEw5C$Rjk~)T-hg84v3WlAM|G`q0D;hhU3%n
zs!a9f+oxB`d+s~~JHj_xZcW|~v_tX%N~%sSP<gZGAMa%T-#rG5C9r8V$X4iLglEco
zRLQlf;$f@pFRhMY_u7@xjt*ce<z6^8T2`i25(QE8i$r$}Qj-Q{*gnQ=aL`Fo@%&62
zJ8=>!>tr2V6?YOidaZfOrd+1&r3!k^P-mUzHVJ!)UYx=~<Y*!`i_Yd-&)i98oXz*0
zyA_7X!@zd%iu7HbHLEE#h&B6H1!@eMIgc@NPVzj%_%)vB8MJi`Pjng{x+!ceHq|Oc
zWYn51AuRgBw>xt;g+kVpIRBe%h47zIlXq3+(DD2RP@ryAAm^m-oM{_6MPKLb=azlj
zGR|!Z41)ah3rYT~?$AXEvI0S!v>wEHo;qGv^VQ?UsoLvy<ISRP^Rlli<Lpu@O%>Iy
z-@vGugZL!XS~!#6+Y?l4&2qXHEn(W#Y`C;7`?hAx6mhBcY^>8<e-jgxDb>Eaej<9n
z7{EHmh1g^wePN+YJEX|*oTcK4X1~TgbgEVs-LtTZL#F-d2**tzkNU92zM{^y|7$cW
z$Ly_*edk2Cwq_<es8|*h%F~nwyUa|D^Eo=K29st?R|s0!r>x9KI0y_f<%vJ*MKlNk
zQ+Bep2BY7_5Snr@XuyOBF(W*#X{_i|#y2xa4go`mY(PJiUJ@=4P&x@?Dr929l4}IY
zQ}<@Ym-J@gT5^LK_qJZOLsY=2u%hom7oQMRylf`^yRi4g5jq@;PlZNKel>KOXabTN
zP`*?~>P=9RA<Z3V-(hFK7c-#2L61C?QX-Ma-~Ye3#$hhgr!D!Z3;0X~Hu%!>iP^I-
z;-ut+*)qw?9wvI6gi;Q&_+@xa(If2JXt^cQL0kfwYJ5Z3BiAd|zOf9bUyzIFmV8LT
zBPN{12vzLM9KzcWMsb5-rO6q5s!ciOB~b_EoLP3kFu9<FjZx$nMRwD7$u8iVbeIt^
zQNReAuTiFC6OUytYm<hWA)JFZJ5f-G7UlFX$RsLs8{f?00d>_vojNZ!2&XM4wSsDp
zLE-(MxPx@QQYX6WZZ+I<H|gIzI0-A;Fz8Xlg<5XCxKiJP!<EXSPwIPaxapjx^0xcV
z#e408Z`FJth&cNLALam$w#p&W8q|(f%M9aPaL?O~C1*r*MzXb`Y<&}*GlG-rW}F<!
z+!wD=p7_YTnwiR>`<`J`$kY6b&x0tNtv!EQGE`-k%hr#I)D*37+C|G0TlNHWZ_bKi
zXLCe12>cseaUAN3gSvp-z#rC_LaZ_DvjS!i;BRb=u|qeYAXgw0!e39*2Vb^M<b1k-
zm=blJaA2J%RLvw$qWc$it(l=uSR54XF>P&_pTo+4MM2<^i7-nynk>S3+yDk$Ah*eM
z72+%s27o}QjBt^nt2VohiO8~Jsgo3m%|ha9Rn|e7h5==oDJoc0EwVeJGx=tLOEdw0
zjC`(fKZokdpk;$On5ler#dGGt@Zk?PuMD4A4n8LipSknmP4}%A#mX(2;WJB~Oz^p!
zGxDdKYN6gWQ;oqzW-Gv&spaD;pSLJ;tLQ+VogsQmPXJ%|Sx-Boeaghbr$;wt87NlX
z#gO{kDXNAqTBGXL2U$Xk8K$0t7?^Cd48<)mPl>#BtO7A~l)$LkQ|4`w5_ua)hsA8G
zMhv%B5=yVs+{Q0r=vog~EKuAzRHTl-(6h{93sbYE&!CdxCR8^RDJ}4@mtZ%B$1bOM
zYi~+VJq8}V8|5%KQ?4MoY^^;xqSu65h+!7U_N4|2EIB#?t2{%`o;o!$HXc1SICfO{
zAIQIUeU6j}+cPGK@ZVFEn)OkVpb!98$LHkW+S(Wan>I{EX8YtS({vQ18PulrUIB4w
zRG~MOnOuu5Qu>O%p{nosiq}GuwyQoN()Vd*e-C*A=Jjv@an~T7*{(fO*SOd<PT!j7
zcu01)dPPs~17D-$qXS`BLi29JLE+W|7OCfXvFG`v6Dytwi?>ts?97Yjgtaoszen`%
zq5ZfPmb|d<dSP9NuvB=tDp#D{s@H(%8DL)bojnTEqE9DOR^JEzJzU?me%tqL|F=tw
z{qQ^fr1h#TX}gMj5j?%}^+89n;5$Ah@NWXPnN6bal<@X1p;{|Ym%NL2r1dGGeA)ru
zx-59bezkxv%n#w6#^KUA`;u?Tzhqr1L44OMo~t;9UnHS<6Z<b_2SOTcO9w;Br-`OR
zc~!&XbmMxzt7H`g-?D>%wYtEe*NPw@-J-=cuLbYc;^Q#zOX8Xx9r1QOeaO57vs7kn
z$7g|xersQv&UM&j2yY90tQU1*ZU|39B$}{^r|q3Z7r~b7g9{#wBl#A@P|#!U+#b7*
zBioDUKjHeK>ne%po4vOVwSqZ6I=A(d@t;=JfcH`>A?!`!-cOtNmYj;IPBS$IC2vxn
zxL#tWSP<2ZOfim%XZ{c4kkCv?VbOKok~7Z;y~?|CEw)_s<is7wi-^Z*U0B};TO?aF
z20u=)VBQ5WdB4G{E_$X1^CI9;d;561p6kr2I}@dU%D(-T-}BJ=8t^6Wm+JGp7;m;%
z9m^4uxa|Eu%{xNhkh+gqJL=ZwtCf$HwCJ~-EUiAf*y{R}`Am<j&l@fBykDlR3dpS(
z;x>VWAL<0aDPy+_9iJT`*?sz`<(JV9IqB)+a7=GeVYM_?o*3{DbcSi4R-vBI-cSw-
z)T!se3}sx7!~O+{rs&>^m1cYyg8&3rKV<-d!Wg&0QV8~DGE|pL0z}3~!ywV43H$;$
z&`kQt&Vw+4!lPw!h2}b`eldQCQA*0kd%l9MTO&t?T~JX#cpnaic!OTZzqIiS)X1W$
z=WWLdLHgS2x}Te3V;(Y9^(&-c<{5!TS)jfLb-5|)Rp@f79F+we6+U5f4Rw`^PXkJc
z@mi~anG~uoS9l)PqOW$+cfg`iK+zY-qd*O&s%zwskNQ423!QHDW2alpC?G^IbSLss
z{57&mQGrbU37;rTzLos`>?22Ep!k!zt{Vp*2C6lyuU%rG>rVB(z%CplYr@Q1#Nd`p
z-|)TQ@aHbBB$%!1`izpUa`>R)FFxnsWE{yGy9P__vOA}yatWQ^E5?QuOlYn7M1l#K
zh6zEc-?e|6KGm$h;w1|{pKf`@xyTLci`08+DBHNK+N&oC6KF~P4qm(Uy5+iq8K$?I
zy?*19FZgoNQw|T%{W_6$-DU=88X%@tBQwCj%3U|ucoW{}I>`g6C811%7qXf`4d(SX
zQoXuFTAWyD>|<-@6cx~m|BvXP?YowvoQ2J-uR<l0%^CRSUuGS3oy~yXx4dbA!f3r6
zc*6f^yKGTyK*~il1{88#xQ<tbac_-m5q<|w_N;zC=bA$9yLO+C&0u&4dlwFV>Bv?s
zUFHljW7O;UNHpFzqaFY7AGv?PnCEOk4D|2~GK5hQl>CNZac0NpegEi3b>Uwy;lh8^
z)M{DigKqemb(k5DzktI~MKzqv24P&Q7UR`%jV3x_Ie}O;h)!aqR9pdqF!NcMuv4}{
z{zrHf{Q(>vQ$)=~2T*hU>`6#8C}tdrF6*Z4<udAmJl+V%$&%K`N^k!bJ${334ACU{
z9mV3yOQCDHlowFCzEgFJUTat}6lwJK`b2+2-TsFt;ukQ-T2=wE7S`<mEQ7_5IUB7Q
zHt#_TiC`YIJSt>v@_yvxYFcj;WVZ}{a8%rK;zoh;hF1Jt+0Ly}=N_?hkJNcs>^yv<
zV8tKKb`42gqhi-66FiYNZ5KCf|A=Hz6lXTv5BxH67y{<@NGYZ0fX>0reNz7^vHz5o
z_kI7i)e@AtTFM3LGoCuejE%{KOmHM7EOZW&1PQD{ky;(rU7e|i(JR=VOTcQqF&dQb
z8IXhomhpd%AK{-ex9nisrR-uq(UdTCFl=D}8Dzqkz|-7?D=BQ88e*Q3tBnOSKP=p&
zplIxEGBAuRO2{1yBxhB`FjB13M-r1)pdA=FNBb^q9f}9rlLR&-bi6^4%eBtT$OXsQ
z_9ENqd`|cqY6gMm%HB*vl}%j%%qJ(jMK_XDWT>4S)awc*9(?$jH3^VE1P<sk+H$$(
z2Z|wqK&%a97v0U^d1alD%c<p>;t&oi*wH{rE>Hx@WCuhJdbi5%9Ao^l>#P6*X9_?C
zOqsv{ywcnDcp4uAy-0ndnk0+r)l+lTt)qlX%`ks~I#%hdZ<FgL<yE3|an8cS`U5uM
zm64)QJ93%vsBhT9+mu0osIdH+C`hR>OW6daGo?`IrBKebfB$}EuKM#Qq%QQFAMnRC
z8$ZVF|GCC}Q3|oF&qy}wiz1Tcf@$(ROk~yWbQS+_+mHI+>HpEbcbF}r;-9APj{f8u
zk6@Olcr{S$s(*j@PUX8}s~ntvo%(`)nESI3x2co#Rg{T3Bz6uh*A8c#RoU9E+mmAL
z7O8fZSi4KAJucQBhxaGW>P$^1tf8+s_d}#&$@{>~%=t8nWzDzZEAA~neJ)3ZsYUd(
z+`5c2knLoFX;Xt{(tMj(yG_Y>>3G&%nQ=F-g!kUPx)MJAQDe`YuI0x484rENw50jg
zpy+Rv{5_(-NAi;$`OKl`@A;o!#j(oXhrT_J9Qe)ppZ~-Ifs(D6zL6Er!H4dOn>F{`
z&Dk)-OUN*dR7SOv%DTm}?o8RPj0b8oyK)p#$Pl~a9~S+?lK+V4Kk^|;J5G2I8AvZ_
z$+4hLrfa0qVX<^rDm@~WQq0ohq`x%A^lntE@UY~MgiSCIU;k-1^5fcfYqKSd8GqCJ
z+kU+3-CcL*(H|X<7How8ptn>rqDAK9v;K~sbpDHowDpL%^+@K-b5sXN<>3SgebF&&
zk;0>5cyu{@gxb}#=L5IcbQDsD8#OW8*eW&lijBQe<6e9jR%#p-8%Oc^N@UwaORTjC
zwWw!p%(M;M?GfAdC?E9xU{Gv3DEeu~^%`x0%A2eEc3SG*FLv*j@FmyogDcKM%Io{c
zv-QrN70+PK*;Kvgte2eoMU0b%ZP~U#I@%hvU@O58hHxWP(^SJh80Gp!gcDIYk8Z%%
zK+ni<4MWYWK+x#(mHDSj;QRBhs}AA>pG4F_Xxw5(o~<`-W2VSKgsOoe=;fHygksW1
zt6?t~trAMX*_w%oI~H?<)pF4RaGjQE6I{>0?xuBg!{`Mj+U5jaSI9m|%}&snpdqNm
z{L47MXQy@~$o>RAo5a}D4O$-Nap7x1Cd0Q;OK1GTx7m2oT<@tz7$$;y+;p23%lO5)
zpWc5!9I3a5(c6`aP95ja(YUp#7M&XDt_c0D6ZzYziu^(HiUunLuY#ljrhOWek%`Jq
z2-=`#3Z^J$pc2nMn1YYlL_vmVI<&O)hs$L*+xJx>`={_zsDnQu7o!eHHB~trC!R`?
z^roW`VTK;(>DGWpx%~9#v*W`jo*P?xbg)Pf7@0sPWWrXu5s)VQAq9LLH%-Qyq4=x@
zM&a!2jvdx9x|0s@Oa!$_Q#i*$QO@43E8cDtp$1btwH?{w><)`c{})y)3OGXxHoY;U
z7$#bBe^k*(4`Hz)yyP}u{^IK2oso*$#NswAyWaLsbDpskv}46`1+YVUg31;^ABbRj
zv^94w!j91=&ZZS7eJ6w<e*M^>U-b3Uu>pPgG*EwQ^F1hldb%=YT@O8_56K9BSagOn
z9Rn-QU7vWHZ;eYW+r*Y__r2R6z_1=vAN^1GvIk7&d5g(>(vDR>SKlPn^@?@9caDBg
zvs{Pmv_{{n%33pJTQi=mxU>C}?VK0y?8@vvecv;VwbRq`MLBZGc(<#fhTa{+yKR5D
z+cDxOl<jlSPml|72iZFVgK$tSCmv?aNj)*_Y;8RYN6y-cwG{Tm39re!FfS=h-eq=h
zNZ*uPw1EZI=d2>9sLqyBLQ-&yh6Cwz>=?+tm;hq?f1<JYuV^ef<d7L5tPpL4gW>ZH
ze~O6s$PpMhg;+D_Tg~DY*_tpiWeFIx!6-46Sz_s#hzw|JCWo?6rLwK-gGOnX62Gk+
zF^^gvI;$mT3%+NbL*g{Cuao<;ftqajrd1c`YW+C}bBa%pYTJz*e-#l>eD_2Dwg?jd
zwT@v0Dp6=_I$cz`b#y7w{7~kjPSS((zRvOI=%qFCl79h@h1%Rs$WQtl^+SmD19omh
z{k&Urc4zClY0ho=xvoFA2C<+~#l{?#Vl>(Sh+ve-0`(*c!vzbB7J-hI)n~<5xobPC
zvNnhD6*g)m7TQ7pWn{QPu2IbOk_omn4o6ckq8x=(Q<~&>&?#pST`qvt1Q-g=Z8=1m
z)kwPhpXNcJQHu5$@WSP_H^*=7z0<c`-k)*zFKx#S$`g_&B6=e9JsF72>|}2{Y#|PD
z5~;M$X%HxicQuYmk3n0Kx?Uh;Lr?<t3BL^=*t1Z<!Dv+WM5FX=I|Wx1oD`RsIoSrT
zPPU(=FHY|x&m`U6q5Q6pi@HtuD9d-q^#R@fEpGUnIw=Yj((}Kg+h5U*M5yFqn5I>X
zO|$tVd`cnzC*7Lp_MhlRd$sU6-72UkQi2wKK(||TBb8%ehC+$@5J-oYX(K5rN6q9%
z`iV@TM`)o((%cXTyAn>4i_k-X#C4fGEZT@K%a9PMKr)%aSLsIEom?=^^pe=VC4?vu
z+uzt;c9&v(KsOr4!iN;!8;wpuMlLlKgXUHg?}X6P6hb(K4-@EYg59VuQ%BKz|L_V2
z-JQm^&%6VUhKJ?#s}B5PJ1DPQEhLwd^Odf;$W_EO;)CtvqO<9rQ~b|fwp2KZZuYKn
z__>vSL_eQx@i;c$9KKcd*5TWBScO>S@O;<)h<;XUJ&xd=Ch`hq22PS+aJAOz7`UB+
z5|U%!1DFiJ&xgYx(H#SyJI`1gJ&)2>n`79rT4Ztb-b&vdx>I(0^qp_OIDn(~Zu2Ah
zc~oFQ)&*Qa^|fauN0sQPT6WZ|TE{JpowtWR=jiv5jVq{CyjBxducPVC_}$^3y!eQN
zbG6Rm*mkS$w(a(dnf89MX(wfhgY;6zkmXKtm80JeQGfb<)E>7uwmdpxV<lP~T{pM>
zVCP#bMb|2-vE$aWxA)v_%D@hA%U;T7$L9rZN6~6^e&uYAec8IcRU3XEx~emqdPP_7
z=MFrnHH8Zup4XywM<5&OS+(I8iEfUIu7=MYcu>>8wK{IGIQnlT@9<*l0F~eWSwWej
z;TEcopGO@Q#~!L?|E(9P1N-lcvpD3n{TALLes1@X*LL!X+#I@Pdux=QBlO&R%f`C>
zHgaR#Zgu!pon?*@%N?Yp-w#eJzaJuBdS2})#r+}1l7k$0M-?!Q%baA>_g2e~I^XGp
zS>HR&K*LsDETD)hDt_c<&h{!tQ8okt1^hmAc^^6OySn|X#nF_lsav%%M;F#1ay*2@
zU+wkUn|9Gv`^Z5)tE0Bfj%O__19Gq&$g%p81q2C%20wFok#TX!ssq2MTxt1@^y}5D
zh4kd)$|`Q!U+-9@ICvFQDRR{nAPG!AIPi-k@GgYw3%}K&h(;(=j8ULu#m=BW<wEV_
zi?jw#<x(BAO3^}wZryl;glaG}A`%uzQxq^>rNG!9a#V&LW>ktN$6%oW`!707ITc3H
zfPYkL2#&{xy0Hr>h!)Sg;9HvKg-7_B7_ig!J>;rO8Rwc)ykZO67upW%pQdNnbq<9M
zMWah`NWLavnm(fOB;`bn;|q<jCIscuOR$v>BR;XQut$+idJ@*SHc?twp|#YF>O&4F
zo+9-jFgs8@N=8ZbRrwUCK%B0?7!?xF5^mG&N0g>k(MBP%B#m#w8bCLZqyn*pz`9Mw
zhH#IHB@~TSV4ZbyfiW|5<1tQB0vtFW@N>aNsiH@$=(%>{WBbWZ>{ToFng{l(o3m2g
zA+hdIruxu|ee_d%DC-PL&PLJMcxyP*G5Ep2hXhPH3ZNG0Xk}rYqO+4Zm_RMX?h~DT
zj|=UH<mVhsw|3pPcPm>x&IpOlk?k{6Q;G1nTo{e=vs2NiV&?t(sF_@(Ha`(RtL)Eq
z@^#R6I8#g^7x3s6lB*Vo$X51fwlkM7t7DOz*NxK&GIbxBnPJ<n>|)e1#z0CKrnLW(
z`i+PM+0R09k_znIuvf+2XKj9jNNh@{n%KLM*GI`AtQ0G`#Z)TI2Ze8CoGIzetBfrW
zV@PoeG#%s;Rv_tKL{uq9w(rYj%zrKPEznevTTDVCEMh9cl#$QD##)LY*mApBT*d5F
z1P3oOu>`YFH$SHs0V`(FVWcfhT2m?I%c<3hr>e>qA>(bD`kPQm74otOFxoXw-{w%X
zv5T0WV$FoeAGwlwkj1rB1Xi_Z@PogY!IunbDVUulMT}tPVqZvAzI0H<l3(hHOhITr
z!pw0*R7L4}O0U!$;mSvH6f&rRLX_$wM7O%7calQD5j`jSwEUG!Qv##U7**Cv;Yu5k
zi&8P7eN_>D_~GOVoymGed0`4M%|5iMw#<m7WI#}hQ8hIK<p)a?z5&yL2#o$^=H2AY
ztbS{UgYwduCIU*=xe`I4p*tx9M#-_`j=!Qgz!r$FkZXcMU!Y1jcOzGbWb75bKmh)6
zsbAo>YO`1@fHW=Df5*B0mUI1#8~B*3{u$Tucbw;Mxyp~Z^8Y~h#xJaPixud*#rpFi
zGU0DL1C58Lle08`%!NPZx<BR)eas#BnA`j@W!3dD2mi>=xWSLP-k)*D;V_a?R)~OT
zdp_oRK5+$ZJiqL!yH@at&Hu6e*vIyrj|<LvEImsTk2(5XJz2$V?#@<JX3MHRb5~oo
zWJ_vRZTNjy<Xv^(7h7;$!>zuzCRPjS38-~o)kUr%4*NQ#0JU0B^w<j*>ze-$Uzwgk

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/kv_connector_model_runner_mixin.cpython-312.pyc b/v1/worker/__pycache__/kv_connector_model_runner_mixin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eb77a92e005fe155a0ed35fdfa8e8d51662f96c0
GIT binary patch
literal 6245
zcmd@YO>Y~=b#|Ae_^}j8QJ<D%)21wiiY!^S980!bSe6wh{*V((c4DIFg5s`h%1ct2
zT}hTIBSzqZ(xyO)0(Fkgp=g4nK>mVJ^wbLp(WS7k5e3bmy-`vO2SE>gZ+4fWKCGrW
z^wN<y`{vDiZ+G6jubIF4{ayl1b^JONs3YX>IIx?;0yb6vct~UtCo(7VDi`PADX4r}
zhzlIz9I7Mjj62h=xGP;1uVOf->P~y&9tOKqZ`v34F}O+<)Bd<WT^+AZ2jT&SbF0C0
zC>~<4N3BVR<6#DS)!KAjye?fIuV-VQ+K_IHH!@gMo6`H@`_j$v=5$NEg(HfGy5L*<
zYHNCbd_PBcqBJT8zTnJN#3MYpK;-HNL=JqxTeySsd@Q&y=smAYrZP(8(v3(mo5?6i
zJxe2#Gnu5G%4QO3N}rFUQ+HFD$Ryy?Sy@pdbOz|C*6sZ#iW-e^hUbC;m;|uK1fzav
zLeps?sSjr}x^h>)lE@@(Db%P2`8ZBnV_#-QRV^II@Q>eoYeX7;V`TW!o1+&1;k}`%
zX^=6Qx&>03m5eq+73t2b1i~}gq(UX__KYrP=Q2j!Ek)llbBktYrj5GW32i4DL<cV2
z0Kw*B&m}YkP{9h+n4ZwJ7;l78EUbGjL1oGMQX{PGL;}Arl}YK6n!N=}h0kpox$@Td
zP3g+j^COp~Yu86dN3Ka%uaCcVecT9Dyy@zUK0Tuwp)07^YfP^u3O{lzd0UZZRE3(T
zq`7fsFIs~QFb=R!g@9d>IIjqDKo%Z2zObg_4!{IuR|Uq&FjW;87hu4)WrtFwxD`(m
z@XF4GDnho7CV8Bhbja=sUa!ULQGCEJPP$}o#jL+9xmpRBGA$Xt3aX$YC?OA#L+mR=
zr3NI0kzRIA3XI+*`yV*%HQCR2El77Lb*9`&9_)K_-SzX%SdGzKq3Q}1UqOR5f|{*g
zDa*Ej*24Odmd`K+ViXYIxA8aV9umDgXMY2gbew0+#@*v|r;S_Wbe9d=o~Q8_$p_pb
znR44Ro6q~^95?0L#M#j99JY^hWRaWl+q9ccJz&H3_ib{_lX>zvHyU$Od>zGTXn0dv
zDx>L%Oj4m}WJVo$9N50;EK*w06LLaN7!4Dt40DR@6MkT(=m`lKe2-Rxj2KTFP?T6H
zO2a@DiTrTAM^8`pOsA%g03SHqk-IY|2m0@vRC?6ZM9=iRemk4#nT1f$GuzuUm!)?U
z+EXb<VnInVgObEzRrmC~(U?xmPbd;N>&!I9fbtR+`t~r2?w4`3!^dh9(A_8BxrlhM
z;5+oR`RH=<v8BsT!>ymFUtTSQ2Xo?JE<CsrjuyiM`S3t4JdzVfpkEOii{jC|cr@2L
zRP22x-}_EMe77VLe^XIx&x`Gaj#JAWgHOaWr8*);H{dPAa8dYjni<{V^{6stkAnb!
zJt8G*w0;-c^zF1w4t5;>D7qDF3)^=Oz@HO(5FYdZc8FLwxtE&u2*xLXS!;&wK6%bG
zb@)`_@ZeLi<B1q638ei@&KF_t+I?jgfpb?+YudS*sj{B|lhtf1H&<$|Q>d_S|6Bs%
zGz4`?OUx>?4cInUZq%FmU#0=WL9&Hodnsdgp3@*%Yk}@Q`PLUfdl3&Vi_xOkn-_bZ
zh{r(}V$@VbIjjIRZZF&7UjVSHBBDP|5fCoQp$9}+&367VGS9{MQTQK?IV#j6vXlq8
zOoQBG1feuwkVKXDq?D|E&M{Bc@QWkNSd6Ahj>>GSEu7d(YcFLx3$nFt=)l$7maBzd
zSq^s=!zc6MlPkeUG1!|A_HGD#ZFPz8{_2v81otsj8a|8^=<HB6B&|{hL=gh%%+zZ&
ze0!x{WeA*hXg)zWqL;aLGp|J``M%^g>F@E7xY(bKg92^a_<eo~-@dKchDu#}IT4Hz
z9X*n@DOQ}?BlEdQY477bVUb@Hr1DNL3S%TndWpu(@f^7c>*2^pZ{8Jdk~wY%{)&l@
z38SyaIEo=IRz)#i(0b^MMhW+*GIm;t(r~9VNl8!Z^E8Bnj${@hZg>|;uq}-I^aysx
zkk)19TFn822sG1(8n*CevUb(AaC|QldI=MT5bc-HfdN5~jXZKZy7NRl1|g^@p3RGA
z!GgYWg8TW0xbM(>Rzq#8V(^6rz!!i$UaBVIfugS?@9QY|Vo$?eIkD^8P~F3(-!>JR
z`<6o|mRu```<Gk=_o0<Q-ID)B1KJ=;`hoH1#A82b7)^iEICNV012@#;{G%J7$34!W
ze$V5+Duhov&pE2L6dPsF9|zV-3oTnp-G8!8+bY10$`)sHk6A(A@^;)|+Jhb14t*86
zO0RA;gW5|BU}0ddZP}9*!<yCw9owAX;X<JOJ5c&7=GNqf-d+~3l>~>!3u(5d^>?kM
zDu9`9GXve?(-{7v@Y~3N&t3vc-%V@x_?_|co={Pu2|uYs6Mj;OCj7T0nujd%zvmxv
zSl-d#qA-OHx2@Sb3^c-2c-tflAroL_yRF%_@^jGLA}{&uX@Kp+1<J!rzOC8s14^v!
zSkw30&=gw!wpPJW{(g{scpDiEZAwhv(f_+O&k-{s|4EqR%+e)HYd|ZkG^hIz!o8um
zDHLl9+KL_S0`m?UL#PwFiqx$s899}?Re_;OauzZB(Y+_sZ1N7~c4;o9-!|)Zh0-k5
zj8G~w3s(U0CXJaG>UV?%sQGoxsM!*bO<ZGART6Zw{4Sp$?9_m1haSfcO=xRgU;%3H
zg8gMVY6^v2gk1j*@;!taFR6(xhuW505LOzGEH`v7iBAJfpLBg0C<OX*?*3e$e<g6B
z7&ws+oX7=+a_%AMSKPHlcURusl{<2#cw{VpWUSyGhq~QUS9BlByAKtjuPsOW3+{mu
zU+w8zscHPx<!=HlE5VjxurnX*ECjotG6}U7gRy)tmg_uK?7WokytEv=yao~P%+l)x
zG5Y8R6vsgIN?)<#TE64ja>qF0+u$=pUB%$JeDK_I@H{4~a6vo_gm`AKD#-8G8c4A9
zfA+e6X%W!r2Sc%ucJ6VPV>m`09~~Ni!JlJ8r$(Z}U!npGl0Z{#SW2;C_6-1b3(mB0
zXK>!F?6SiGl&w}8tElNIo`$wn@(j0k*}l6Ge+05L^r~{%Zq=Sc`S8$kcsM5xuLQy@
zAz8;-c5MLgAz*^bu<=-f;g+OKBCSZ0;g#@w3YRzli<0!-OhUD0MD&kT5)Rb2voehU
zGdp+D4uA|NoLW`I5a9R<olYrcOp0|P#Q;zHu)`9{3=gj%gxSz=Ok}evMV*_;9d877
z)ep=6*kKUXPJ^R7AS=$$IxjkZwjmH#O$nh=3qb3<;Ow+;0F}H9$2<Eh96%*E<EV1(
zTiN$&Nr307r+P{I`1pr+KWY2${YS#1;ZNP4^?e%11$y$Hqw7wfu($y#)iCamvz~F|
z^Ay-TJXbyY)}8RQXaOp<TW|7OZ}P5s4&)-eU!BiK`tzOv6zwgG_Lk~_e8m}F9lo$8
z?05DtCVUQ_E#Y|8Q<Dp~J(52=p9>$&dwSQMfJF9MQ-%YErL!D+r{Jv3we@|a=i5%N
z6BsaxHBe5iS)ZUbV~30?Ns_ZkNus?lHUi14s=}=*+@@;XiHRiJ8^a4H6ub+CD-LrT
zar0OuX1MhEX$Z~~3pn#Q(`_DS*!CMOc);nFQ(zRSi5XpyyCLY>H=?Em;lY6&>5T5Z
zh>;N_oA)=}6L1Y`UikF=c&6FjZm?gPN@^4h&8TIp+ipzF^n}L>YdPj6DGeefz&JpT
zbu3^93e%|3(2XX0KAELTH@mU3NSWKwvq<E!Br=<B1B|&Jc$Z<g2TlL`8NCieFms||
zh$;yj$E~?|&avSpocN3!{+e9OlZ(%Jp5vbbD*A$VaQqs9?zxw6m$+x-?XSt3&q&3@
hnn)a>XO4kyJhdOcyX@J2-}S<MhvRD33HIzG{tZvZpr-%;

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/lora_model_runner_mixin.cpython-312.pyc b/v1/worker/__pycache__/lora_model_runner_mixin.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bab497f6843527fab1d8414bce2931cb2d87db1b
GIT binary patch
literal 8743
zcmd5>eQXp-cCYT4p6QwC@qBpvg}=r&24=w?%s0yh&X|RT1>Y_oyD(X9GE6skOwY$w
zx52i?5#ms^r<}B0q#U5r=}i8?1fnBSq->-}Id&smqKk4fXOOK9C`7lBvi}X33)$8E
zk@u>nX9n*8r)2-Qwx_!4^{ZFauipE;SJl7pdffyr)&8fcJ)MO78XMMSFISfS6)IPV
zOkzalWM1Xce2nL?Zc}YBJG%=pf!!TxXUxf-*;O&^in&-_P~B-y%){yqRZ4qfURHOi
z4QXG@$LgZ$PX}TFR(GkvbYrZM)!k|+-4ts|H^-V;+oQImTVrkI`U<GGb3|!Z+NPa^
z#9Dcxc$JP@oH_ScCr|bfS-M1I?=8Me>zcAf8m2e7_b8`R86|u$dw4i}dLon5Q`t;H
zP3cqNbZRn{37^i=a5^h1YM4%BG78lO-Cv-H2xl}Tvl(5P)YFMf;*3H^f#iNqRnsHc
z%<0q_Y@yUj%ah8a^thTm1HACigAWfSa=BCnd0F$Y^5KM{>CkLDc=*^zA~~kKpQUFN
zYVxvSBD~?%CUUtf)isbt6GmgDnVwMf6wEfE;^_M`xe0xDLQjq*&6hSysoYo!f-bHQ
zg~T{mRbJ*4+qhWEXx3$35oDX<7;mWa%wE6GX;Bs~*<+&YP+W>zcAn<jptCGK*K#Qy
zMPhWj?1mm5=;4*SV4du-1{aaLWv}9s8x;R|Z=I2SFQB{80%TL7|B?_3Dvcm3EC-a3
zY(5JrO{eX0<0au%S!}Esd4Q{@hU@<}ZU|(Ha#M}$ma^>L|A%alD&wr(a&wL3)~dwQ
zyxam>Ym-|QNw%~1YlHR*c?D?SY_~(Zy{6p(?GAY6QQWu&AfXc|om1{epAll_hDLvw
z+592&1VdnMV0g}fiO0e8!Nv`Ttei_F6~jRleS&6^7FwWY9q_ZkZz&9Zc!lU?ZzLqo
zS)Qr&>d3*aJU3q3yG$KNDa)=O0qXpiw`5%8beF|Yl}wv-hH3a@+-p6r-sMVvj_5v%
zp6By6n1|nLSMNX#R$Er>R(ZyG60eMwC*vXOdG$WtQmtFH>THjYh;4MbJuGJxEu6{f
z;j%}Yur#IUgVV<kD`yf^2CxWMz1&15ZC&`>!Gnjw$q7o8jIK_Fvl%EXR0t<z)(sam
ztY^b&B6DT}0L$z=7?CK>9iS_rPAG3unx%#-9#5(XO^e43F&@t((n>r|J;>!S@yl?Y
zPtXiZhNA9`fRa9?uu<Y*BonHl8EsWk&YVEyk%XufFQcZ>n50TVR~VF8#E9LnYl?cB
z;>u854jO<$Lv@GY`sz?rPv@e!RBk{|&@+lYFgdYx`?j-Nm8hCJ70pfQW7$j;4K;dh
zD0-ejXw)1PtvYT(d7L5qU~bCrso8{Fo&hpUudL?*gUh(Oa7y2W;sSZ<ApXv)$L{(1
z9t1mPg&V%>zJ>6%Vt8AjdwXH~(L(33`QUp6>AlZAT~{aWdHNqn!H-A3H(KJkz^<n@
zo44Vqn{;kjlv)<0;Gz^*kot;JAFHe_N^6%~LZ|y9`#rI(BoTjT!51$2!VA7lMc<}7
z$L4)I3gV6>m<BN#b2OXIVUS@8X0c_^2<q9hO6EDD;bkn;j5pfobB-&3DCW46P`N_D
zpewG6qnMWkp5Q)J7v}Sv%-!a1l_@iJ=v&XJ0iu^*;COZ`ICEqQ9pWekv6L3iQHas1
z3Pur%D;aHqmW@TpBu=S{Oi>zbhXNv@qQ?^u!_O)4gq+Cf5U(Qwg`9@a9xO1D&^~0f
zjF9O_!&gSb3R7HEBM`3<gqqT(SJkzMukmew?%EqrTp+MkF7JZaQxtpdiG5Ec(h4iu
zRS0kVnf<AaZ*_kpl^l$ttthrFhyz7&U@ra12lvGTGz<cgwMs`NvL!+J&tWNGp`|v>
zQ(cNGzFp*)GMR#=w=fV$nIKcv-(dKdri2Fu%;o^TF2aP_WC%0}IfrvBp(S*k8WO|=
zNHR>MxXCf)YB*O@cXSn0rz7>XRcG}^fL+4{x<DTInlI~DzjM#G?m@7t(Ea{=@OVKw
zUa}GY0Mm#885CqR@l%-67@^EWI<7&6gm@#znT=~kkWmxqT$NVew*LZ#1lzV<=&uH*
zaY%@kUwK}ykm}j;?TY$mFm%+jYzQjW5`6%RIAfm?W*p!dm9SMAfaL9YA@8vK2f_kB
zdXqB*S)a-&5y9XyIm4CBD3JK2&MJnG%IF(682)tPY}qB4f;1Wdi4mu1_k&QUQ7qPD
z@w^*oIA3P?mg)PyX8HYf*K#@AJ`kjR2MT8RVCMjGJ$*Miu6Gm$cmGT8FW3C@ntMG*
z3Q`xig|~G<T2qwP6e536*!AwbbojB2xONr9_Cja$PA7N;VqAaG*S{!r7kW0{Ik{xx
z{q7RsUGB0WF!U<tAReluv*7SZOQMrl7bdfP@LMv#Jl`f9t~Yl<kjW3ZD;#1BtbxT_
zbHCs`fKFAWT;yO?>(~WbZFI|Jm&~69ZYn{qI!`mOb(*p36)TZ#d7EsT1{s!x>>(cu
zNq&qZ`IC)cD?&B7k-;{8M1IWY1zEUVv5`OHzu#mhGmaUd{@aXW*j{#7@3t9ql6UMO
zC%a)J=L`DRNuKh~y#2P*nlVSd-(!c3;SYJ#s?7eX&+<HNe}Uvm+EtyNH8WhDDbN82
zzZu~?EaMQ-xbx6H0ds~C*G<|^kn`MM+0JtjarCRkI=J=)uKyQ^Oe|YTPvqiX`J<3s
zMH5j-In-z_p^x3P87^i_nB*89Rt2w$r{ppnnII0?X(DqrBAQ{wl}=1DbJGm3RgEKq
zAwUV+I~>{Y%M<DJlo@uDxRo;+AQ6gJsYYYjaucdr4OgP+w%b7jeI4bv5YljBn&D^j
zgVYOOh7IU6XDpjRjaR9LW0yU;9L-wNiK$ZxhAQY)9bTJWSJ$&&z#Rj*8tm%Hf06$I
z9~X(#Qt)&=kOJVZq1J`QmBq%Dg~s&-X<uQ(zIiAc*FS3QTWB39whnx>|Ixs<g@L`r
zfxZ6}_|?FH%bo>)<X8Sk;hlE@-o2eqLnPck`|h0U&hSm|z3webUT3u7u|&dKFYkNm
zA%Tv?@aj3|>{Ov^2x^O6>;Kzn4+KkYU?_QscSVT+e<?_U%?p9vVxV^+u(24}ct5at
z$wAuJT;9D16AbkiL;VY(O~ufrJBJH9M+>1%_e0-?;oH{$SD^Wsmjt&w4ibO+BEXNo
zr|9ol@NX{qH{bVf#TeB7<&%CG<r$2!r4ZQsTkSPa$i?BNk+t02me!FK_PfyzsDJ8-
zjC9*R-Lw|!pLGi(Yn-30bVA+mvb@B~bd#8ISXTw8RDg~$P<_LJX&LO**;O&v<1Gh#
zZdX;=D*?!G<CUF`HGKdNN8V1?)dW)OjG@Xx^1|;LNb`<qn4bxYGtNwHfUa`}@w>~N
zan{VR-X70c4b(H@D|vYf<YrttK(%=RpgX<>=<XUock4|RUVGln0Nq^&&^<G5fXzC)
zMjf~7?8=MQ9=L|)vS@jal|~>aTOqFusqXWHL8o(+Vn#_ZW2HN>*oDQnuo#9S;-#Cg
zz8Q-xSg<_XrYae_7n+76!4S_7rWKmi@EjlqyE*z6vZ7hDRKySfc~k{<nk*A%&{oYz
z-bFbgf*fo|G<pzw^&qWLV|kp3plS1@%*^0Nkq1M&hK6RL9p26Sz16}nRY~g4LEgYi
zA#XYRAL9_)DwyXdFUe~jd758^ho85sD6~iCTh@Q{)?yVJAB(Ve{5;frW&aQMUmd%B
z>ZfBj$L@u;eiA8$MixU&j|F~pbJ5@TR3xh-H^#1y%}xG2{fEiFo4mK`tpbo8q_6)*
z<a(sAZdYOW$b9e7g47Mf-jz4nuD2D|?ks%k=zPyHNW7i~zZsDA!uGVcDD^(@Hx-&A
z^ZwUvzggI@XMWwAKbwJl4Qypa;thWJq#eNWOAQZAE{;U@Y~ns!+qx%e|3}*p)RVRN
zgUJv})BXl3W%R4N<;-(=!SXqlx{&eObPsyt1zdQFW4F#`kQ40RRxdeOo~%rLJ<$l7
ziN^8-WQtT1kel3Sgs1Po*c5|g#PLEiX8~Qqmp5(JwAMD$TFuA|M-%b$DSeDt{q*2V
z%(V{xUxQ@rI22}#4iQ`{%(Um)@0`6a?Ov4p3sR&gMHc;#YY!DR!kYaC*K7&b?3oK{
z&mbO;a0O}iGag!yb9)=Us?dI`4T12Bjl-?npEnIlw!ajHiSSbqYJckj+Fc?HyIgk#
zClKyR!f=!GZomojWNrS8bzHV3gd3KT!v^&Q8DgE~wE`4oi1Y&x0jft#qHmk^3c_eO
zkOc_MriyFwEtXJCuYHMrmot9~^2$5aMds^xRwGIaVs-z1UyPa?6!UbUe7y49>*Fi2
z*T-dg_2CLArdD~-2e0wk?7<|}oT?rvE5^q5;wEByF!d}SiGaqKmi`EOKBpxSnNTs)
zoptqMJ^nd%?1$n4VG1Z8aV+{8t)r=RMc=x)59WQZ7sS_@Mkqq|?}H*5tYtNihi;a2
zfzzwi1@qKtcKUH>*+KYVSpq8R7q8SrwCIc8anAd;6~t{!6Tc5i@W4kW%NpqEWv_0C
z`1B=aU_JijD_@?O!Ta;R%>{9@`SK7;D^~>x-UHG%=?WG`)N=%{n$qBmuzWa32Vm%$
z(<{Tx9-H9MUDpY!4D;Bx4~iGM!C=uhIPY6u5ZAM}2gk#BIBMb+cN9){;CJ+Bq>DBK
z-EhatXXJ41F2&;?P9#+G>>Un%GKK>T5stbj9xFgbm8Hosb}CL`_fF{hNVUP%)v&=v
zubO+A7=URK%j67aMov(gn4;T|gh)gYObq*}Y*wuXF?tf8#IZ<Xfjd!}!a{}OCSmWx
z!WYGyoD~QvS_xM85-IUP;f=+nmMbTIaH3?x`T%UA@IJiv=N)%DSpAX9^Kskv+Li>M
zm)7`%x4B21y|WwVY_r?0#Y+MbU~dVezFBQ{&9!froQx!r*7mDAiY=>4F4lGvcf*ng
zt4qDSaDprO$<XG<u7Kcv)YM%P;0{u{dww#0ZM@{fmPk6ge{$g3fw@qzW1xhLu#-d?
zSX)ILp+~#-KDPA;+ZNmV=j_GybtTr=vFi!mmu$dM;-OaB%VE_G!!368KK85^f-vIj
z%3{;1k^qgGVX?JrSR}bgYsVApR~CvinF*Chci&=1__4R4Rwy)TgksAQT5@3v<&`{G
zlSuQ5C)l|x8EIjgu>Q_#pXkL6BTEG8B{whZnEgYD@xqQfN0;zc5_w_!>_#MQpWB3_
z?MT`(YeUkOIXjZJAZh68$gJ(!TTh`qWEun7L8RMo#^Z7}2^Q>z^Ev!H4qs%Lof!h;
z__--_L-8Rn8zM8}!Ayo`vB|zH4w|QWrj`5g6Hb`|Uteg#v{jSQ{1Qbmn=(vB<QP;F
zQ*i3fJ_;BC)}N8fvDiGCX|2-Dk3-gnC-ZaG3ig<N?u;vwN^%0`ImntC`&MRt3hQEA
z=Y|GN5rb!P6Y-h@YKlH*c=x??toj|^Sl&l}zK`KOTFcH*f#M#}bh2|;3uDm*g(1EH
za{@%zN&f_zh^*QXC`vYt;~qPB&i)&baI1bzg8xROhotF0N$*3l`XT9iNY*?gk%wgG
rzmxqB$zJ$><Xv&~WYPQD1^0irLYI%vySgqoo{5t@H}r&H$p-yj$T!X$

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/tpu_input_batch.cpython-312.pyc b/v1/worker/__pycache__/tpu_input_batch.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..661c6b132c8763ee5bb24b3a7348a3a5dae39ef7
GIT binary patch
literal 27062
zcmchAX>c6J)!6I>46p<2;vnv0abtnS;s$Z?KExBENQkx|OKSkTB(XR(yPyadw5YG_
zFOWZ0iA-EYFmXl8vcC|FR3#|-5>XYWL{}<heU)pQfWFympej_^`SJaOO{L<>ue{eY
zJ+oLe0Gg7s5@x#J>-YNgo9>?XUiUQrb4EtG0KW<A-;DkJups;nGwf&863=c!;-26a
z{H6(E(llf;VcI-l9<tE8b;t^L%Y<z*WhjN>tP`n|;*dzwwu!XK^r3W`PMNSzN<$J&
zr%q%{W)5Z2v^e3IbPhRbI&C6rGJ7Z+(&<AvX5l5lZ~uwlmp(MB(hTL!ncW%xh#9vj
zZXF#Cg$E#EKR12x$i={0vw=_;veKpD$(f0<sjGu?GXcogP6Vc|hOhaq$kUU)8Mw@Z
zec|cxz?5&yAM#DhzQE*2z#oE=&d}S#Gd};=XxMjscmmh~%yDk|DiDo?1_M)}X&FJe
z=VvFvV=u|mvol90rbovIhesx`qU>YCqt^m{O_EFD;c(#UAFlmw@!$UG_XkJS7O2-O
zE%U4m8g@?z2ty{nFl6?d0v5j+{w(lk4OoNp@gx!og5MTM@uvVjHIN#x6avyOveXr)
zKkX;hAu*8VPX|~!Vy~D%h1L%>CPVf#!C&Xk@MroRz(bl(1^RTqbS1^_{E2Ny@@ECo
zfmXv@vHG)tUxq&iAi40TmfQ!hOn)A$l|rrle1JND)*5tal_lIjiUPoA`3nQt!P*3b
zmh>0x08bC(!haTj@f9<+W=ncsAdj|?Y5`hM0yX5*wp*aS(u7tQP-qH3%Mzf4I<!0i
zTBJi=3D9C4T9E)P(V>+I&{7>*l>jZHP^MY4zd8X|u2a+`KwUbtHUU~OC%Nn6>8Gb=
zX2VB^!=u;Y(&X?B-_-1+PY%2lif3SMa@rr5@Ik+i=P~36mJRsTo*#;*_ygC+Mg#Hm
znXxI~WMFbyo{OhnpB^0^@rB0b19AHZ_H3FC#k0o)@)R&kfQ_alJVi`f;P2U@9sBcw
zX+iMm=mj(6Of0)#ft)s+1!2JoIi#e&1smkp#3L-EK+eW+R|UwWu-q8tpzo@`FdI)o
zFq^@QJ4j=OCvOTn87!E~QpVkH{>bv7RyXj5cBsDvA(+R~#yyA~FX_j|7*J<0RJfF-
z_>zT7bUa6<kF0Fs1D+06@;l_IYveoRsXvRop2`)|Ue9E~w&j`V&la9ZHPeQ1-{YC&
zu##anOJUD|{%C_<n7SZ-WcyI-QK0R8tV}{HJPc;s7fe?Y`<2(gu+)O}qm&P|9u9m9
z82sDv^_xIDsR=z+?~$OLHdc#q-$Oe^tYmmUOC|JYy_a&adLRF`ZA#Kr8I$DO^4+GZ
za>f~Sb&#cv`yRS-v65VEROncJBn0>FIh@g-q>ak&itjdUR58w=jgu^G-1pFiJ`%aw
zs9}7*?K4c$hHgWATfW=0QO6_(Z49uqao<B5^{gaU8~V)iXGuNCcpCR4Z8S2>x8=J{
z8+y+LZG4~AV%+!8MiVQ^)rLM>ep{)Nw9%~B`sa*5j+VD+qlIw>ZTyg>jr$(jXk{h2
z+R*3h?^qk{dad8JHaZw*(8e{EHtu_9qmz~7YNLx`simjCllHJvgdihJxWgM-e}4sM
z5)fK)i<Q;G@U-6EExEoex&AG=16y+XJB4yN#BhG$s%gPA4>m1W0*4ut+x{aA>&LQ3
zx8#no9OZtT<*0>xg5~A}w>S{DjLyuSd}NW)(2LvrVQ`3L>;`U=jFyNyRYp@)&cq8E
zm=sA%%V;mj_*!~ore!JAZ86d+qm#)Tuqu@e+G}wUy%Kb^;|?_e4v24T${)B9w}q!=
za9?cm0eLzUw~bAO+uP!~hG!14`@+=ej@!V!nVE}cY(d7&Q#0{&bbKfn+!Q12o0|58
zW&)$}EQBRG{h@dnf<_?>FdNqWAzwme`8(icbaR+v6h@yvZVNy#VJ@C}Wny|5rMHIx
z5Riw%vvMGwmyk*1??{5jEula-ZoeuA0{%JGiL=YYQ+|k6P>&AuG~=6zJLxTvQJM~k
zr>jY${J2_vd|P=6QOl2O{3pQ$1pf54rMwP_r>jYoKW%M1=L+Oz15=}OzL~((FhoQG
zpj!?wk!Ai4_;>*iL95H2kpm&9CXi4~>2_FREqQ!&Jf8!nb>zx{nLv0fJT?uQ&>K_E
zgC^Efuv39}As0jIqN>z-EOz>?jyP0LgIB(ZX?fT;IXnYS`PFzH&5fbUjt>f>TXZ1h
zC%|b^L&npu2Bxs{L6j;kVJDu@LRayegi)Xa%ki<x)6nliAvQ!95?dKhhum1$H!?OH
zitoEN9P$lMOiaJc#tfAuZyN~24~@qw`0zyK<%|sbeQ!_85QEc)HPwV~dNvGW(}23u
z;?_`L;>zw*jWJ_|aG<)_@Bf}?4o}WB&y3A9g@@&<fpF7}+5J7;<NE{66JsOIGjri<
z(^JjYCnhGFueUaXKoIO`1_5A}LMdq6#0!&;=mQ9-!#AH}1Yf)ih(UtTECdj437dIB
zse947CKkp@8}MEftL?{oRV=S$(R$k+E2@T@L%VG>cp#S%Yi`9dCErLwO~b>p56;Fi
z3YQK<C3h^RU_CqkUgO=ySboVjX||elELX8931yW^X%{K&QcC+tY5!{JL0Z{*QOO7O
z_v<75e<y!-<C7a}MTfDn^~&mp^$+To`+qHeapUtFYn7+4aQS*g)x&}Z1<Rgak9=|M
z^J{ArFCn;W-P`{0_@i+UVe#d}`YWLRW?FwE)L-vW>duh5GfLeBQg>ms?jq7wf0H7V
zw8RQ)Vnubas-9SWMJ%T<R!|iyZ~ew0mQdn?Z}NnaiVynk_t6@D)%ozig9DHAzOk4Y
zK1HbWJRE<ZN}%EQec1~o>L`b*%@n~^t(5nY@?NF<FeyL0T7DF(FIlgt|K+QgDlk&N
z-&b_+^}DY}JdyHW+rG&7JmbqNYx|(k?euk5%|rVGd!iU>H5Ig)QmCe=Oeyq|La$QT
zK?*xo3%h_WbG^FmmnTrKTUpybw|{wZZQmsh>%IqlE3;n~K?`1t^>->YJfmv&LlB8I
z9HqMsvQ^V&y8z$Zq4xmLzac$){3$y;{`I!bPis*BHNd2*{$b;T#^g$>XeH%<hi>-z
zqt_Ghs*1d{L<4BQu2HEyMQTqewF9JfV72xFvaVWh?f7&brm(l^!)5VhO;T)$HcSBD
z()sa^9{p&0B`vfP4^-lAQtHo<`g2PCMN)rpwSJJwzuw;UX(y&?p-4XruG<c*t?uEe
z2d9?(iuVxl9*Q;{`7hc3z2NT))~admuZZ;>pc2Lo9ij4VrVIOfkaWZ2ML;3&>VPh^
zCb}SX&NN`cv}dFD;N!d}9?~;_W!IbAKAc5(CDweH7O9GzJcA%FfDW6EQkZK4#rjID
zcm}hN5KoZ<V0cW8>cLh3!i=PbX3<W(CxmreSP#O6u?+oT3<->RJ<O_s;l=`ymxM>A
z0k>7gh*sP>F%}Ag^%9n4j2}HR$*;jJgjKlYAuN#!uO@s?%x5P|nHmh^OChZBmhg=z
zICFn~{1-WQPcMZ(xOxBPs-r0?HpxE#>;PqgFFzTVL*i+a91X}(EvyDmK|q-?|Lmzm
zL(t}160`&{Nxz$B3`hs{)*I+?fQ8IwguenKJ*ex%z~8hin8SL|8F+{Wj-@`-^g9lL
z0Qm^NOwi6s8}|hZqcq_YfHoxmxKySfn(j$IgVR(!hTC~^E|}4Ofp&7}`SoiQs5><A
zlYR>p<QLY1tiTz4hom1sIl*++w{BW-IUuNqNDX3LS{_d!s0S|-DZp{E{uBcLw4K(Q
zwgp?lv*Wg#>1`g^+)UX~H{9AFh@7I=W(t-VlCTuCj0a`Ufrk@<dI*$pfoH}jTn3D#
zppHtGHtre)KWMIpyAsNqf_fM$0cvK?33{k0*kE8->SpRf>aEl>uu{xI$1svodBM-H
z9{LHkFlysY$4;Xkdzu~;F|c}T^zeg$3+jOa1C}_lraC~LZUe_sd(_m+${F{)YJz&O
z<0bu|9z8T*ptKfoDf||kmE>ZeJZw;~)N@F2l$AB^H$}g7K^!&TFjL+R;EgYbq#wnV
zPnk`^R0)*e1%~(1HqO8t&Nsyc5iqBcDuk@Ai8CCW5Io0$s-q#57pjFiF6=_VsUv)m
zl^+MWsn!P>#JE3))(4EzEaf+kgT5%w%M51RpMxhS{0c1`GI+3*u0;+-f)qbs<&FDu
zNb#monx#OBAF{M@*QMZ4_-(o_Mhps;dJZZ4tgLaDYhcWA-~hd1lwzqXIJ@vlv)T0;
zD{0){ErfZG0|!nVLql)>gu#KOfKzIa0|!o1tc-D2->pC~W58I7a^k>&lg!E(cb!w%
zfUy+i#DN1R9+Zu{>x|yG%j-aM!^pGLp3hYX;;T35ck5^2n+z2EF-sYDs0(Ju<R3s`
z1SkK(3k(vx#Ztx{X#UE`u@o%dTGe!7Aol;4O#aj@_3L3~KhB^WZK=J^pSBa0TKK6!
z&QrtJ74)&cX6-iaGWJ#u9O~df*$7%RIIxs_8%7WZ9{d?AVcc(~Enq8d8xWSdZj$rE
z@3S1UHTY#0(rCMo(;Y@(+_f>vtz{t%b;a$oT<?HckJLKiv=Jour$)^zrOG!az#DlN
z2_cxDJ}_T7Gd+#l+FV+^FXWn<4!c6LGc(gNM6z9Tf$&wv_aD&@k#S&Xpv^-vwns+$
zd+?<DOkBi}AaDxNs2ci?=&8jmuxW^TbMX`iLk6b&GQLIP&g7V!T#VdOC@wL)PNRYu
z8bsY#C*vZpT!EJ=yi_9*jYuX1;bk;N<$6S?4*UH+dHU^mn!4wRE+B-oeSN-}VR?8G
zwmRtmy08K3D&PaZbn(QA<FCoM^eE#>VB7+%<VMW4;00IVWLy-JJMe<bP;xe2y77W0
zjogD5T<wWxB}b*_<iiNh@Lf7`{=&J_126ebT(~4-ACr$D!kH9do|ADJl5trkp1mz5
zJSU$*>}kB9ITFu?u&FPEv3w&Wnx;o}<(ILH$YQke1<X1$UF*<SklQ6hWo-+>%7chR
z`$I0lODPt!jzGUs7kyqu;P((HZHX+~)sXWP2B78hSO_h684WTSZ5?+yb^T>O0s?p$
z!wWw6cv=X;u1I(zo(la56EeP=sOsaXS};454j>k?b!p)PJM9H(=zBgdA%u_s{{-kl
z@4&N%z-zi7?Tgw=Vg)51WZchKJRNfsEOjWw9#ZUi>hMHGPt@Vr$SSy3cDHOXC1%h4
zg=OjZ2j}mfUoB{OYHx^1&iBv1cV3ZPL~=#))}(rXC{hiPY81&sB+v5ql%^A;>BLvk
z$&I?E#p76d$xWo{SbMM1ewMVKT|BOqkBkwiWuvZT(W;0gL@ZglOlYX8^q46o<tS1$
z5Jj#kwSA<v@0rD1njVF~kSH`kG)EE3h*-8XM?`n5|CrK0NctfhrHDmDEL!S`)^<nh
zy75}vO~js9Zp~s^EW7v@qmeqLvX@l$u9o$Y?7qd+Sl>~l?-J>QP$Z*`jIE?bYxhTs
z_Y<)jqDZw(O3i*!vwzY0zT-W|QW_B}H<~(>rbDFZ5K@&Bu{;9MhK;r!rR_XvJCD$6
zXi4NXA~wfFNf8T(SfGe5BDx~^N<|x~Xj?hGCLY`<s!)nrNm1*fBjzZJIvS$lg{bGk
zDqI~6F?*3>uP65UkIpHcL&S6Fsr}G~w-t3qHD5@iMymM|B9*YG@s(7+;XR;uPZRIy
z-AlrA+o*0=s(VN^1m51yd@u73D6@jr>LPYmr1h!28lUyc@4c)@<wPovq^wDGF=x5r
ztRc>tMO(}+EzYjlYwv{by>s`Suk5u+rN5HuHgXH@y?poO#S^h=2=yD4@G5RQqO@Hi
zZS+YP+CwFvIKMjZ)ZUU*0g8io53zezEKlw2R2|UM+=|phq^9L7Yf@*d^{~?V3Tb@>
zpGp-Gt0Jd~=%sXx#NN0ZdTMW@boE54*E;a!HK`-kepG3Hm9#_rTM=uBSOc9^Y@u{b
z#NM=$^VHr!=^BXCph#XKd6%!RNnNx=%~N~L25PE-I2)+S+K97l(`ISNgz*3xT{=yq
z+RaP>dbz!X*h`}J`k1>#arY8;Z$gO;Y+e<yS4Hj3vHJZ={b5pn7@un?kxG}Yz>uTW
zH4uA4)ZP_qKBzPgkmdm_LC4Nz7>=qy#9kA%x5nJviu)LGA4{&o^VII4t*HgM6bak3
z+_fgP#T+?`qmwu~qmBa*)zzZixdlpY4au#EsgHNPsQiP5`wg+;a$KvxwU6vO)-`7%
ztkLuy`l9&rVkoB)M8Xf>dGOA!178F`4@O_P4Dsh)TC@ws*%8wT6AIo&q_&kFA{~H{
zo|U(06Ed<AfK-{S#M$}>i#a0`ib%zZ-TTz;jbZ<Jm9)L8H~uvuH3MH%arskwc`UC~
z$!j2a4N6`Y$?IBtDdxyq@+)OM1pasQtncsrboP!_aW)cX<MK<y*|E_Mk0N2BqWY;L
zQr&VYOk0Z7L8OkA?|t^>CvUDv$73CRO2;YEaSBPWD=p_gm0F?tj!uKgQ>ldpYw5H<
znrM$(VS1)<*>f;O!`5JKOg5Mp$pr%ZEx`6r7IDIu?Jd(BK!6@OCjB(47qMuOB>i+N
zPfS8UmLFA3u;u=YSnL+6%onQ5`9f4^z9jvgqg}a4B#`Ak2iQ8zo&$|dqXn7tdyd))
zl1L!?98^UwM1`hJ((k!iR+dBrSuR~d&!if0y&zrX3({3@r(2+(N5BdNd_Y2DD?f&@
zP|GPtKbF`_^9fs|cj3bNJJbj^yWGXEk*mS2s~rv7<=l&kMu)k2KwF&76Q1o{^_c*z
z*QDQGI)T=q|B&>1w~P;0pGOe=jHI7`YunKYN&0cyzI7CuF9~kzeE;CJv5;#r02>(m
zuF2U@*fl)y_V8TDH4<=LnO65|xJKq&!>&>A1YF^1*XT4XoK1xS^=|I~^$t(Ei>W6U
zx6Dk>P`{7*d#dM@>K_Y@4$FSkaiZ=Lb&{yNgZ>Kjd8l)v`Y`C9P_IO$PRK>fQXhf3
z3_;AIw?MrU!xf3!u8e`(L;Vg|T6_&lQ1^j45<h`#2<Los4%Ah}Oc}mcxgKDfV&)4I
zJcF$$54gc054?}SIY<%q6)L&)B)4A4^^jc8^5vDm)!bgNpY6HmH00#Rs_MX&%Xly2
z4p>C4SaUmCNEKi^M%)CJXp`*Syfv{t*#_2NXisbQbIO`n2c@1LQcT3+rPGlxEDBTZ
zXrU=$6A{ts6FVsktw=@mfKbbq*TfDAt0iKsB6`6D1Zz#~((6p-S4hM{MJy#Em{}43
zn%GFG(Sp}(`^(FNYhoLPVhxJe0_NdL-s4=b>p_V*`AT*p$!=UeO|rYd&#-6T8U9&+
zvI)^mr0&PyLLFXrWZ&sfa=awRyZkoE*}v-OethJq<3P-rt6C(Avza)XS5nuU-4x~_
zPLJYjA<mYS{55A!ti8i9GtjB3L3^9|D^$u#a9k9z0UQ;u>_Bq6L$S9Kdu!BwU;`aE
z-R@GPV?;Xk<iwhECb`kCt-#WHC-{p|v4C1Kar0O!{IzXaWCjyPHD-p=b~a`fOc-c^
zshDf(XcIMtd!SVEPsQ$lqkKm(aGgvB`2`b>${lcONRA&Ur7sSkOElUv{%T8Tja;l&
zBM+z6XnEJXV7;X-sq+mtE9wer#{r)7TcEEhT00l3)y~6NH5}I%)N1763=MO!yK&WU
z91~N2raYWcBNw|HR}Gh*q&CRvHS%yqja=+*Ts54uON~67Q6m?-8&?g-F{br4@^D6t
zT<mUKH5|tf*K6eAj2gMv-MDHvjuEfd$io>ma<RK{)o>gKK(CR9Giu~wcjKzzIIe?U
zBM)cP$i?o)Rl{-I4!uSm&Zv=#-Hoe;<G3t(jXa!DBNw|HR}ELf8IRzis9#J6^>5vb
zQf$ctHpT3)DTPt*fT!GP?YnZo5@C${(;x7vWNG7$-(a%uBTZXNR~w~RYM0VHXJ-p<
zs2|*v<e&a*csS$PaIu>Hc{ujQZAh*!VRq)>j2gLEtwtV>)#%w?<Ga1kb`D%`I}b-C
zNfYS%my6eA;o+Dp-tDpkas4IfN1v)@MVJIw>@p8{-GvF>2wiK^*N)WnB)V2aS9$1S
z4qdo842;zUms6O+B^<i$1V=?o&&<iGn5RC<8BF0ihw7f-YKgikg3mH8(qkZC^~s&0
zdLw^>_}hp|o1VZG3?CSWda^BUfeq#%G#SuGVP1-za)HH<a3Hj0@ge~}i2ljvV8YxI
zFywgt?)gY1gdf2t*_vx^|M=#kn~yJ&=EF~_f7|q%rs#!><me?>(a;>05wPl)IzBjX
z|G;uKtaebl7Z)xfBM>yE#<`w@z+)N&B$;ai)^klHtkfMQb%&p1le*&&dUO^>9o5T)
zQTM^9crfZXNZD<T&FeX2cbc-J3mvdBP`8|`xDOEbfyZOSeF_$3GO}o7_$Y+hK@>fW
zl(6TW8uMoKdImr6-S;hDB&98sNRg_DR22cTI@$s~hlEFHm2`;$XsaTFN=-kh=?4|n
z9M-5SiBuT@;~&HKilpa|nyzoqbru<%hsbfIx|dY<K5iq`2Q^|E>CDC`GZO1LBtA>4
zrjh)MM66$~RvJ!{hLcZZ(r`wjrrH5&TxZZ$FffPIeW-b=Dj;@6s+GzvQrWd4!`cmK
zzOC!CvQNsMm`UrgCxgFz^EYos2QQNo-;0W{d6=#;fV@SpXf<$uV7ZNycw?=de;xsS
zlzMYssBtt>Y-WozdJY?>b_BW@aa8LF$BFy+lZ&h)C=#w>EW^WSqIK&zq&`m-OP3@@
zVEJpgLuouk8c%(hO&ZU=fNo$F0)qURE|TerWJfMV@=2y!$@G#;?`metq9s<_pwxDg
z+V02Mk1svWC$&fL$<SrCwx!S#ERt2lYQfn|g8g1BSjzpN{C@dz<?_gy*t*WkD}}A3
zuyv(vMP3to!D+@wzditI!}T0CeAnUlg5w7|9`k~sQ)cZ`oL$6;{mj`*{cJr4i#J)B
zo2izJ%&qXPIpC3&!Pfg|Or$b0@|EaTo#ib09UKN^@Y_B(S0uD$5kU8wC76PDS_Hr#
zzu!bdiJkDi;&_!o<dgJcwhRr#a=f<PY388LF!=K7Z^6Vun)3kgTjtZLA8)#2mj47B
zsZG}fIUNG5mic@NS0Sd`>9DEA&UhGiCK=t<Y#ILnyh6-(%u}oUwyEAOwa7TF(6A{B
zHqDzxyNjct1?u_I;3yAEH)-R!D%@ofgO)1+ecxl;LNeOOQVTZC8sPa`)Q^YF!8>dm
z2WeAr>$K*V^ZX|(D?@8RPP}@U*U$5Zs0={I!!bIZSHtLdI7Y|wO&A>y$LKg7Mi4EX
zq#yJ={TvwD%S)09KvwM^&^{iH)yG-h(CK(MM(5h4J|2$IRqjH^!!bIZ-Ou#N!!f$r
zUFzfE7#+`kXZ7)LjE-Z4^X36ul3@#Ixb^v62i^Y6p;kvPJVlO8y(eebE(e@(qZ@}>
z=ghIl^*+GEv9`ACqFWx0(Y0--dl$EpbKtrhJRIZKv7O(Znn_<s2hF5ItsH7iGsdiL
z!dd$EpP)2v2Ia<H{pO#V4`39NH*fAj0f*UH=YM`4mNH-`-&7NQhZ>vv{L^nwx#0WY
zX%~KUD|=ijUVFcK)6-RF!{s_6Uk&x@IhR^4@m<`jk<w3DfhB!Gdt7ju9c~-+!^;}>
zWx>Wmug-+74GqXwLEErEbPaCmo<Q5^L||A}mxzK0{U>-a+%t6c>HfY19}S04TvQiq
zrr%aK=I!pX87|s6<Y#zi=&`x&s!#TFM4@Ey%n3LLkhK@i6|k$u2t8y#T}Yb1vebY4
z5fY@~$Lw^29rXc2`0{4T)ZI6ct(9&0+?N6W79F==!nOriSds*A)(+e~uqejtId|Ur
z8Lm308_95U(VA4D8+?k?2xjvd+P>Lf&=ytx>R7bCXBC`}!rsTPkivtDneoi>jcix6
zx|3vg#++r53gWD~leuXTaw-7$G`kb%iaknEGbw6bh5c1$V~(PwDcIfiKb-r((9A2k
z_r~2fA_vL7w#AdN@+zggo0NAyE+gfqq7tle6-IMvqEZc9WA0{c2OG##8}qbiIoR*x
zj&+{U7hT3-*GjCrU(Zhw*m~61g?Z}b<iVDZjlxoD5tos|?!_~)zC%jidD3?t<+n$Q
zBKD}W5q7oo!xkY$DkD<a(vOzUE)OlAjh63+bs`Yk1N^98cow+D+V?B%XGr@Qpa-%J
zN=BVOz_vhXz_*<uZKu90BW>SDp47MNgIzHosM0-1x(8L#9!g5RonjDMGsM+xWz+zl
zS{YxHj>cL#l$PV9<@l2~Nz0(#G9YP+HF!VvKJtPB8(;&>`vdO{EI~bWJAwDA9`O4w
zlKmG|@w%ya)Pb_YmKzYS_n^{qne<#%@x2sJU8F`L;Z~x?X09}_-_dd3p%gTdg2v^6
z$H!L-j?m4I;Kj$9yYE=<Iqo_lc34>3c>a=|Jxb>Q=^Ri+>7t@gosC0>fKKRX`S{SI
zLyr%V#xn`eZo}ACbp-avDY?BQw-*ZKo`Ei`J0U+J&SSu$O53xjR30Ri2Ot0V%kXOD
zU=)G`j>@RR8|yxcyO!#SvwpdlI6F6_qNQONP>Tc4&YA^>Yx9B`BMZ0(v-*Rk`%U+o
zqZ01n)I2T!!^sDe52itH)J56yQ7q2WFm{D!>oAOW@<;IG72Z3bNZ8G%xM?yzGvt1F
z$>j;>$l(cv`ul@-@+U|mfy_z2kId}z1oWSRjwCc>bw31GBstdgPVM}u889Z@GPl4n
zuR?L+C!XAvFc0du@CMj;;QI*N4?)4E1<ZC~;iFCT1N;K}nDTbD71pzY;Bh7YfSzMP
z`z^+KKCnr`Hb8g0%Sb=yHme8WNbt7x(S7Cc(sO61?<)E#vA}7W>dt645Xfiol7$x+
zUhwS}x53dYR|9m*c-#y}ZJ<WoHu_GAXX0U-Y(F*}zFDlL_08M~=U>Q^$jvksLZ_C#
zebmhjrEq}8IGlBod`_);63%>m!d{16OA27Vg#H0|Luj$ER4HsGh0QCDmFmx$K52>;
z9##sElfvVxg(nv?*J~TqqZYE>f8)J3mIk7*{WjsuiDKLY3ws~yV3TqcyzEN$E5-e!
zxPP@6qJsr7IE13Cg_O0dl&^GrcHol(E9Fm`pB#MB9EH89Wf!5u{j8{13|lO-^I<>j
z&AT`MA**KbNbJzDFW&k59e5`#y%Mo1t}f#0T6v4OdWfqpTH5zi>WBFvyLQ9Tpg5X{
zqiJREv)4a){mXFF(X{FqjEaM5+#we~VhG{6rn3|5ToUaZAo^{94)gNY@&6m>XUFl6
z+X*=~U=ghChxJH=@p<V@Ya%p=!RDl&5no`V<fbhl`XKN|eJ~@531r!b*14p>Xo3%r
zuUMeRn}-WQXx)-~Y3zDn$`!r_CMHK!uuVvI1>n?TW_E&gNDEU_(F0ICP(Wwq9}a`5
zCC`rH`9>kvYzWLpuuq3a!(-PW%uOjrXJt7s6?Wm7%pt>~yhu51u~S{HR<DbVmV|?E
zdR<3c;n|sqfNT1S3lF1p;o&b{_PvVh?P~!!;L(NBEH@6L*T>#)!3HU8JWAslqtb%Z
zwAlzA3t!VDFeF8OZC+>>o)AsHPS6hI*)G@Aj5jnpS<lm~J6S$eY7X1or9=s-C|d<=
z_kvddX9clOfqGq+0%6pb9GD1PAJ+8Go@&B#7=Sass8vnpI~&zAe*7~N7!Io+bqqic
zi>GMkU#F_Z_TK_b{#S@_VvH|QEAbqT=HuDh)fdmD{Uo4LGr>bRPP9j;PJm82|EZsa
z;0ZjT`Qn5*FB$2?X%44SFvLrQ5|>ikL5e$8d@JG4ZhmqzT6_X#p!Kq<Xm!VGStm?H
z>!p>^s&=KSmsIse`(9qHy0BXMN>nU@6Gf=)fX1RCHG?g=Dz(C=8Er7@m4L0{1QuP<
z?sHMcxu|$<yGeoO1T`r<kVrgdgFlIU2!;p#E(tQ8lnies>P}HlY6Jiw#H-ugsFSnB
z31K6l4%?ms1#bzzSGQT!k(|0!M}1VR-$g?7ub*E+H6#n?ewfuAgG^NP`sE~1<LUVQ
zl6sKY{Jw;zW`G+(=4bfc)@80DIaRB$++-pScT@`~Z?V>N)xMbE^1p%FnAFWXO0Ax_
zwoPgk+ze97e}}X`fXiP@I*d<j)2RqY+0oP8w)O!H*pB+dD5Iv&dx!2GT6I)K-XedQ
zZm>n0-Mh&<&Xae1KWg%Gr2C6%vVSMZ=s9-Dl2Ksab4d2jf$g6=bZ(gBHrUyq4fvgQ
zyRivD9d1BVkVK>V1|Wj=+e!md3GL}tbt*Xlh1C7Ir!h4GmxM_L&WD>ePP&`VPZ+C-
zh(n;05WX(pj2>9Ua-u_q8#Gs?rj;!41OF(PGkVsYId_gLxveC(b=BFnGEAKN{|Mi(
z^!#3hw~^eoRcAX`ch2t3RBKxL_9t(J8tCNdhr~|ym|PXcGW5sy9d`4}n655?Z^0&A
zi@I0&Ujj?{U*jcNN$@ICPu6E2S0=rRwjy6bWuf12OW0`ZQreC^Z98^5gu7p>Nlvwr
z(@1g}S98FA^+v_>U*^JPyC$%gP)%SUe<w{ydJ9bIM(bp`v+x<J4umH8d`Z$1-hu^x
zS_q+^1Cqo3UMgwS(HIpQw@dh4&c=gK<u;|~g7DiuT%9l9D*v_uFJlw7yjPkC)%8jR
zakNLpcG?p4Wm}17`ArQ^27JDFx)1-c1n?dpE%|(J%??j!7z@N+RbLQYJoz2G{17j%
z!zC_)e&M9g@SHr1uu;7H6fZx+%Rj@*zko|TMg3<(<X<7A5+SKmeh8rs&&kUO!l1is
z#mmQdL90yu6fge{FOTu^@A2{<@bU#-euJ0)h?oBamq+SEN=+vj;{)`9$Jd7zKqWsB
zHqDpJwnH0vg_|}^KoF^*cr%qIMWLd4GmR!;g*fk?bXVH6)2sx0<u@~EGE>-Bu<4*l
zCxjQ5s_wqFnMJeNLTN=L=l<zuIW!A<cvCVr%@&(?DR*h~e&HVlNItVL;HFcksQE+c
zoXOU?kyW#4!vqMEo4=HMw|A4m!OTj}e3nKr*DbZS!pNmf0dC8eRyrOHJ;UVY1=GtW
zTf@@mrhxZINWCwIpV9p0i1{^>ZU1uha_EtJQ^53N>oa=ayl&34y=q#X{dnQg!ZQKW
zo34Gf^QKsJ?ZYz<AU;Ji$4~zD%x|>JMq1|L?43(XRd>Gs-a8RnWOTVba_xa*C1>Sz
z(t0H7I6~5nKC>a&rk6I;WOFZ7{ZW9M)^12a8&NGN^l?Nr=qNniZcmhZsd^`dFM_h!
z(wF>y6yT<b0V&ugp^7nJic~FIA2eWv114S00h2DMC(?mPkB-CB^Hk!F2=F!8Iw<N7
z(B2Mp#9^Ow?~A9vC;AX=p$EsQ(G(mEbbQ6L@bFD9TKrzkEubSJo=f5SNB-(p|FR9}
z;GZf%lG*UsL`Xe^px6L-N8#I-0QjU3<xxwZj}dp!64zV3>QM$ESwv_NgQ^FAde!3w
z=;^-ddB0^z1+H#A8I&GMC%=ttp`-7=VhT+g)tM3d)!F5sjG-8u-9ue)*|eBUrvIHT
wm<oO;WdBb=`d@<kYoY0D;lS5I_t!$>*FqnpH=Mb*GX77>f@lJz<CXILe=+2D-T(jq

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/tpu_model_runner.cpython-312.pyc b/v1/worker/__pycache__/tpu_model_runner.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..61dd6d32f00b9ef71e11e59b1b0dcae00f7b68cd
GIT binary patch
literal 87151
zcmd443s_rOekUk_0D&YVkN`;t5O2iOU>j`w#0LDvE<eg;x~nP76*gD`>Pmi=s7I%g
zP#w<{m6=JoHk~bM)3b$B&NQ9$PP=z{H||WnNu_&tTi4*0>V{;TjKAG<X1`rmm$SW{
z&9~X#|J-}-75Gw*PBPzK8{Koy`~1)Uy#BBALx-clgePM8wTbIdv*|z42Y>Qa$0sjj
zn@n$;1e0Knn1+?NdDzUpvxc+q&WdD5EyI>*&TvjNcR1Hfak3+MQR}dkxy_OM;Q|)l
zHf&>Wd(<)PP{Rs`3z?rY>Ke;3o1#U-#cGH<>R~=5!=<WES=2l1Q{Db(`EWUNTOxsI
z#c&04=R_)_Rl`-xof`>8tB0$ZJ1<fbtsSmqZfm42T0dOR-1(7)Xyb5Wv}w308X68o
zn}?g3e?g=r+B)1CZ5wW5-?m75v}3q~x$Tin(azyc=5|E7qML^|Gk0NROLXh-R_1m_
zx}!bAJ<RQjY>RFm-p<@bk>2Qz;T_Cf9N8J&HM}djdw4hdc1QL^_YUuk_6_&3Z%<@j
zbpP;v<}Qi!M+b%nqJzVO(F4N=m|tn+VD!-NA?7ZN9F86tKEmAI$kFJr;bYOE;i2g9
z;p5ED7da7qX84)t$>Edi+aEa<Jw1GyxyvJGqR$RL8$COGHu~J~bJ26d=a_#WG93NV
z@Ry=r9{zIl`QhiIUm5;NbYyrW`oi!FEW9Ez8a+RJJ~}o$78QntXm~ix{3|2l(F?;D
zn7b-+F*-3k$=t!nrD$Y05{(W6*U;zHk*VnP@HBJRL}sEd4!;-`hedqX3U!fKG(H@U
zULL+2y)t|ydUg1!*%Y>jR-~(sT#H^Gz8<|Xe8X(YGKDvXU;4nTVC!%~Xc(Rq8i!xb
zG954pO|P4TP<T2V`M{!vzalh;Ulm&L*BX8;{HhP$<GDiH>z3iK3hnUiU?H!<Zxj4}
zN$A9P7ydRgf1biBY(ePj!d9LKOWPWzblnK~WuXW0x8ZL)OZV!yRp^EPuLwKTZ;P-K
z-@hvCdfhZUcikM?{S&I-P$*k=oIZDAU}XQnf&E7g4IPlP`=+kTma)-TJY<%0W=7*<
z7vae7i^s!L@rmgvd^og^)7NLh@UR~{+Nb&9yJY{x%Tt%a!qMrm(MV=M)#+(*?Bf3E
z=*&bUe0Cy!acKI$<xx?HofSuCX2N2~A{U+*6-OhHaAg1V)cC{&x!~DIB&xd0FNEVG
zk<sg6F*Y(TPDe+sAZ%nziRidIBaFtw>SriRE}__$u8hRR(W%&YSRA<^PG6ppOD>Ma
zp7utq3&*Bsu2abQ$n@By7<}9@<S;%hUPTot-+1^MLB%#PHGz6eU$}r8o8_W?qp|Q&
zsui{9==8}xcou8TW+4;>zAma#bXo{UkbG2N$qP@PICG4=jw(J`a`CClGc(g-Ja+7I
zBtC(#(TH3cQ~i|YjENI7tT(b`*F<b&W_mg@F?B)7TK2++sycEZJQWs4DV`F78n}<0
zIePlgvE%)HM@LQ$95{69^vQET0{1@Z=&*1)JQbT34^7Qnj>lw=Uj7k);6m(BJRFr>
zCnBR`;fvD|RR84Y)CFo+IRouTG&*vLMI1SQok|>yOvJBKp@#rEF&Y*o&_PNOF%(*O
zK&#*B(by%~c0y?e`*5g0K%EeV?zD^v6IW#Cj2OOx_FhGQPLGdtA@?!@zyz8Yj!ui$
zM@FxVPDDn}N5Vj+0AM?UCXVzoBtLz8<n-~A`wuFga_I>m+GtGcsePkkm%>v5p&<Dm
z3&%%+QKPb(dTnO(LU<%LaU+bj#lx{sZpJV;H4`3_iv}-8bYy2<jw8?R9|c%d^tGv<
zEX<WTW|Rz0MJ5FF;@OEQVfre0p#{EyV<%3Z8$pK+pu^4#4Go+eIerGsIxRbnPG6W2
zr_aZZPQ=h#PX4I^ST15%b@K8Qkl^^`IJy+TB8X^^JvADgA-v%&MR*?b17c>$<*4p7
z5|72F#f+?uO<bFpl8Z6|wah(){OhA4r(y;L;bi#5%i&o3R2*0!7ceAaX!jGEOwm@C
zj&J)e3jn&@G%5%*B4ZavMZ#}&?8m3cbBsW%4C<KdI1i|4zH(J;6l3)I2x5#~BD@Sw
zjbV%dXBZ%2sFdS?I2w(Ps-TgbrwIQqM>wp0^7nXtVnxlyXr|<kO?7<Ilxs5mD)uR1
z6YWigv+_;CaUm<5Eo6r+lWdp6lPGV&63!LOH}cs0pYwXoaGr2N$itj$6|9((^M!o;
z76=7`O~?(~#w~&!VRpD3lYzB4(bssE;6S(&;jVBITUD}zLiiLjAGhk`gpUV4CE-%R
zHJ+vV7Qwd+zTU7e?ALsY;ad*hz+|ssd2WPPvif<#Rj6MHzJtOuLMh(WYQ0NP8_Q(>
z)9I;X;}Erci%^DqY6Y)xEWw91{DOI_P`3zvlu(ED+cJ6h=^B2Zda-__UMLSYC@BGx
zMm3LIA@F(*k2&1*S$PQ+LM5dJw5ndWXz4;ikiouLX}bWtK#XeCt_3(zgLf<5wRpFE
zW(jrSDxn^K4fvyctU_Z(N$vS2wCBW}Y21vxiG8>O`G%11CcK;R?!>zV?=HMs@!pI#
z?M=4e-H!KGygTsj#+&vhJpz@d)VCAg+pt$5EHdnKwRM}r+gXZSwukA(&PMsR2wRcE
z4(wk{!#i0!Z#>;ALXWUb*nX$?1Dpxy5q7+8(%`uJbEn#ATtoDYam_8*C+YpQN7!u~
zPuLUQyI~%=!d|qm?{n92qcZw7C_6X254*p88TH)%xy#zWL7x2^_-|CVfeqqs1lIy#
zFr&Wx8^U#?dTdZ0;BWx29uN)!mj;DH_&u;;-W9@O^jV2<&A*86cs83)bA=-)`=D?%
z>=TaB=m;M|eTLw7c+PaqJbdJoDRffSc6rKrJS5vP_pZ4@_{zjsSoThf6Bj0?MkCm6
zD7#>FJ3FSHC)gmM)rH2xCkKn^q?|A(Od~9SeiG)%EbT*cAclHkVKFjuQ{y0pmJWGf
zbzA=+hB^va9<(&Bdk{m*8F?72f{2mB6D6|orImyDg*-%mBL-GX<v|P=ck6G&&}xDh
zfXMm>F*t33pyOE|j@Fn)w7MotM(~@pz+Y>dp2KVo{0-_on+ty}&y4tai7b?6<34dO
zcTM`aOMfG#mUl+XN<9X5A*Kc!lpN&#`dd61ujOBpb=;-D`K&r?O<1vxWX<Ns8+qtt
z6L;zFcnfzYto$_0-?IhrHXb_J&RzODQIN<NviO{ix@%BKSSGvlc-(~;G}PE55Y}k0
zLR))yi2fEVye4K-d^`8&EkybX?uYam)^k6TX>zCT<}Ret;GW2t+|B*<w~%uQa1u8o
zPlNQcws;?po3O?AarXym`Jyx4&;1fMYA#CDdTc6~u&w#_X2dqE&H5aSYlS>DTmbBk
z@EYjv45&45U$lRSyY)Bn(l7>jozO$L3o$fI%E0H7JY0VxW;6eapXDyJ!7x{&+Hklc
zr`C-0r@32yzZP6mf<X+FYtUX^!W8!ZC`H5g`13sPMDFBQxLbe6U*K+@15$T#zj&Ct
zgj}Q_=U@6e19BI2U+%h-mocuka$mGylDqY{U{$fCoBN^Prny^xC-Q{+jJj^)A&4F0
zZvCCe<D(Dl(#{fydsUCaU2EcMqXuzb;xY7h1}18w4>4cSV{lhS%)Q(XF@K4>^>;>0
zZA1cA+Nz|-d@Yo~YCie8?!#Ti@h5+UhwJYf4xA>lMzoURb36=?8qnO9$(!7*zY$}Q
zf1$*$aku`Sd{cLGS3;W!k^Z3OYceW9%sXrn3OGc*YL5R49zXuCxC<p4j0E^z<1zF%
zd=vT?cfnU{2lq3X?$|iRGy`{z@bHAmY`Q>W>?rq{ps!<VzO;J9-{t-&>pXYsZ}=L|
zA`v|fcOh;mck6HXYIwcISDnjsKddF6igiZNyny|j(O$zi?j8FFR;4^ZL~B?4w|N~V
zzrkJl8~GcwHU8i57?b}kcj<4zai=h2X3=KJfAW&f@H(K@zr)@7d-8X6H+OLy21K;A
z<1_1Nj499YJoWc@))#`5mILaqK~2x?wcYXG=U?&vj=LuREqCc}<Mi;=Fkg?W&(=mG
zfQPCp*Oz&^FHjQ=(|B6iul(XQK~HI`=4bYl0q%l6gNl4szo3Q&<Mxh|&poJxwq7Id
z_w=@L*Jogxb`1MP+VGE1`xkgUQTuz`t-n8`_M<!|QqOa@{ucNC16%b+dS2WmI6g<8
zjPckRCz21jpZ-Qp2AC0V;4vnDz+L+Lj*E{4^!+&ZkN-$>y}(__-C%~eQ<RbZB9F^f
zrwRV`nNTyxcg>E}V9y~G^Kw6XHu@Y8*7k<KNL}f)n1Q>$XfIzffR{lp3)w>PhFIgy
z7|9wgp#4VJ+!Fs&ULs;-aku`4Z=wFhUGO#7d-0V~ol&PUVh6cff5$=@aQ<`MpSw`T
zL+;k!f=4J3O7E0qwDCnAI#pzx23W1dVW$+4r(j>&?)|zc<Q)=eTMf>L`I>CLE)qm!
z3$Z$7%jo6!^iNzA3a(ugyteo>IAx3-hVRj9ncub<Fl~rgb76Ewq)n}yKgyZMH-cb4
z1%>HwEI2hC52`%P;IX!o(<cUk*TeC4uz?B~|5eG{K6M#9#VaEh!=pk>&Zn1Js>T2k
z;$TAGw#s&@2SpddFM=OLUtmEJr!_n!m-4{#3ZGM{a7;W*^()Z1hjPIc@T|`(W!UtJ
z#N^^jVQ~t%W%^~0&0M~nCFigzu)IRqqJS)!Tcow*wwZYVs&;}K>ZUe~D#X8j5=6{U
zmYzz^o1O_zU5kvK9=x3`=bcv>llkLdF<t<x{GyyET%Q_^PK<@(;vpnP?yRjUFWj#1
z#?&ucWLg~MY;t@6hH8j&9hp(2Ew}87aaI_QR~!R3@^S>M<SU%PE_=Xv42xGr&rcAS
zm&bG{luY$gfv+VzbtNVTo;`Z>*vNB7`xIFNaG&=dKX&5K(Z17%jt|Lhg;OVn$Cz*c
zV_M5aT9PxT21ZVuIMy#)FUP=!orwx^)-@4)=g9PVP)o(jkWGk&N3_E6EoV*5$T_2;
zIC@>qfe65bFp|V%%dv3mqHKxMuOmDK?*3SKBn;-RC>Ij;0O;T;0>m-7bVL;?SnDq~
z0Z6QKS=Y)o1=tJ;<bsLV#8fOkIt6NOb}TN6A&PvC!0H*fI3Wl$Y={9G8&MJz6LUGH
zaDGRwGS;tLxb|Comhzxonq0;pLR{@*$4{MB*}_K$hA;}JW146|cuJ&IF9YkDM8gOq
zEC}c1a%zww<-q({S_~5wm<`O-2UCm&ll|DCp^>38$3{*KJabC?5@qd%a6w!h_UeF-
ziL`~2%e5-*JG1}D!0C|_ef|BAEEze_cS3ek$!zif&t91)V#*An2gm`+n!Z(bFN6t{
zQAZ<Pc2Wptlqoe>F5}U)X-1tcSWK{-Arzp@A58p$lJglwq~n3?pbWIBMWhY8>|}mw
ze}U^S+j!^EM<IpkGlfX|KDmSqGss<Fuw{f1tx>jt1ucdzfKe}AmkWTyv5}~VF)sTx
zxsE6adtej;ohKCei()-2%KbtN?$ie0$QZJrKGo(z6<-;&#8xV}o&oZ+;>!6v3(TCH
zRnE{_wgO>@YabJLv4*g^jj(A{&VgjW*hM+#Mp&GV$vG2K@y%VbLy0jV#6~bZ%8r@o
z*aV57D4#i~`pk9NuKQw?I@RtasSTDW8*`=DOywyOGwRIFkg<#!k4gc8YfxS;)dSYd
z{cZ&XFzQ5-+8JXd6tDM0HSEZrRtu%3Hth>Rmh%uzk)4n<Az6ax`7owXG%goh8k$(B
z>D^nf(6P@EBq(D2L=(J*=0#flG_O(;Y(QQd`W&U*n1M((VdVToJPPp_R+yi9VnW39
z7Z)#&#V=Drh%>M-Z-$?MIaCObD0LC{5ES!K>+_08MV>OjhUMZINq>YDK`IC{O+bdE
z>}kJ|@yk<VnM;BqK_NReKq%N6vdflOI5N(bBV{F{#YCj7kVrH|kv1D5?LTB2K|-0U
zV{!pa#U$Z@(NLgH;6NS>8MdOaSu$ovvS7yZw}Tz==uF4V#7rBy6{E53+U1_@+b;El
zJ0cV3J7%uOFHTQ&5R0wjN@vH_X%VY;2Si}hEdkaG2*tDm5v?N_S&-%$xlx8$^%xbY
zaOm23z)ch#djVXiS51%Yra<GIWyR`E2O3j>EmB|$efidXl{ciyyQK0iCFa_%s^(Nx
zuT<4bVS#khUV7K3gDt7xPARyPzADl+ZK;~QQVk2MO4oIy>iVU+ehRBjS2U$6x}}P4
z`tm<4D^Ha*No7rQ_H>4`yed_`Nh;rzL_PhLDSx}<Z=Z9fO9OM3o3_>3##C*;RLk-U
zKFKxtDpKBd$=i-VN809mbJy2)t@;Bg|2E0LZQ0*DcO>nvUwAR;3(Xx~^_9QteaHKa
z`bFDv&6Z`~R(N^+@8-Rew@|Qn_-?_ncmG`f%|j0>LaB-#siH@zWMvh-%hOhS%33Q~
zYZnGrtSyiHoy-2sDASoP@uf-{q>_eINvl-S3a^5+tt@4$m29;OSMJ-|(1v%L-)WvZ
zvg-8RYWYTN#o4mju<zausp0s%<$<gAVM8Z-KdRY%H<8+NR>J?9=jQrX>;PWV`-k5<
z%s}_BvN=_`ORC(pT)9W7kiQ}2@09$VtQKqPyjoe4s_d02SvQrhHZ(78Nww^fT6W!y
z|G_KYePy}fIOS0LIM?Lzq?|R9vnJ_mf0Au-6wP~5MRih9-GcD`^n24Q_U?y8C6Dt=
z`HmH9)009|MKBrMlnU;Wg1f$#SPmSeY<#P=-Rbg*ba_jve4kXlZ`B(}dACX4ZBOzn
zbp;e7__)wiRhz2pmMXiKL|!eF9&Alj9h9mLrtRgozVu0UR**#xs3H5Ms{QwlFISzW
zJOb%JQ!21s3T(gIu^eC^@uhwBDc@$vx0$-qa<ed9-k2)yk;;3P%ePY+pbtQ_Rq}6L
z_M<azIv?7cDO<T@D^J=Q({|UJ$G>*`Ry<YJAysvxss<$dw-5ZY<3OrFhn`*oaZN+2
zrc0{nO4S^bYL2DtUevgj)wt@h)#UNMz312WB&~zVy1`}qI%|-RqkGj=o35&T_my{E
zNmtjWs=K7>u5@M1yHoE>r3sU}rP}T%`8h?!pJeAb3Lj@PNOyhg#XH@GO57}b*u9PF
z;s;Q+p+9drsCo@)puMkI@-?#&(kl5|wd~UFvbT4<wF4vS?N{D<MH^VDvL30dXSr-U
zlD=E@PF2zyN(bvw!A>dIsf^xa)vhN+`2p4<?~{P3vi99Cz4Il&DP^yc>{Z{m{QgVt
zy>xf$lkBWY7RUd@`q^<%?TYGDpj`^ID>Ke=fDL}%YE|94FTL|p+EJ8pR7#G@1xqTp
zLkjLl+IOxNm%ZKcR!iFL1qyMT@UOvDhsohubv2}1J(8;@?eV5OjgqHv(eur!+g0e6
zqGFU=RFZO4ORj3b7oaUP6_-9PV(_hd;xRQgui9%;_RW%ga~gxdRU^4-7W&^m{@!sU
zM|AXEQOaH+*(*ND&uL`st$kuQ)rH>Q@!k#%CJWV)y;iTT3Ud_55#Me?FW2-+HNDE5
zxLmW3db8?Lp!(e-?;O!GGRmWZmFlBeJD4hOmC9R{d3m{<P1|175q)E;xo@jkt!-lU
zqL$Q3uG-bo^0z17noO4k(&bg}?s;bqRjH8Xlpxyf54`Jp$G5OWLBH>v|AUL)y}05#
zK-jig-L>kgU+Pb78IZONpsQ<GB`P1gOg(H&)dKxgAn>01hGpUO`y=m-ES+BtZco~K
zjoPBZ0}yQ4^v#yrEqb?`llB@)(fn33I$Vcf3oE!0DMIbvwBNR;?T$I|R{diCH;>;w
zj*5j?c>QA!!;6Od&W0y8lcR!lCiOaV)Jv{<<_JozAdm?iYbQK#0uOE$vb1l`er<LY
zmD+WC7mL{_xf;{nYK*J2w*p{m1=t?gn}9#9n^G<Nq?UaI#wLvT?YpQeE7HeL%~>8;
z1D{}_HOaYR7+agEF-=?ro<xes#@{EzDTcs{NuyWcn?GW?vHv8cT=#GWf!TB&|8ARy
zaQOaX#F1@cm}I`$))z<j{~3NUs!341Pr-#sFt$D{#*K<~dxo{a38aiwBHgPdT3B~~
zZ8y!CLvIYF><yB=fq;^2virpqL>bE@K#_<HYwusfu~B=knMJ6ypv{>n5uYBrX*Mg7
z6*FHq#VIfL7%??D9A>jg7-!PT<Ld7l1tt@OUo3)|2{%xV@KK&g2Y2ajAuC}?m^nF&
z>IbH&LB0u#$_%yev>-uc4>79Kjix?92u_8s2J3~Ox?L55pd191gLzQ691g~(gY~gc
zo_HPU#n<VFn2mCfPG+>dWF16=4$?JHWZ+q9@s}xDt|Glp^sVvfP!8*8*$S-(w!4-K
z6lw$|mfi8`IL>5heky6ejoPVsV;8P?#t77GkIIlm{1trOs9%R6#w3MT2~*;T4@{x$
zP@7cJcE9A{l91{?D0Lr9b{(86_{ix?+lwDn22+)NQf1$A<^Ci#Rh6AI*Bp@Wzw!Wi
z*eVyQ@7roAs<rS<+Z(pDy*s(>$cN8i$mbVe%FB18tmXHu<;kip$=dZ}Yx&domy4P(
z{QChM|Ap|+5c?9@gmtkRFs99uHdJQaL!xhn*p<yOkYo5)fw`fqp&QSi%%m^{N5`R<
z5QNS`G<bO?I1vj9;Wz}|!vb)OB+i2`&9(;#opiELa2Gs-W0ys74NfrcQ0_W>6jxDW
z73Dx`ijKxZ7KUu%f24qi_>qgA$}2{Lf-p&$bxKFBgvE*R>kO~;iad>5hSA<6+#+Vg
zXX93&G8Nb(1@<fl`jR-+INj>rwxQ>~v*)oX2l$g^cJ%(o-o4*#NV~kZ>QeqT$={aj
z*o!rPN8u+qh#@(97($6ZM3G`Ye%4HFL{Vp`g=LV*E>6N@{nKxH9@8eKFvH1hQk&BB
zbcrm%%sC=v)6Jj-@&cID%p2qmX&aV1A^N&!GJl;1J`-77DuJfLSIsx86WNC7s7YI(
z4x23`ZAb^#b&uM*4I~E*TbHxGb;y~>@#~&R_c{-J@&Ujk5{=sHc{<If=98DmOXRX;
z0g{4fOV>XLmRW~QUp0RYXl`LWnvZsuK3!kb;<r$Xf<(cj_vz4ANv<V}!vUog7|B`!
z9}H7NZjUH<?1AiN!6Yr{>mK+9*LmR+zBLBEHo+`V9qJ6i3MLz#_J!n2fsq8}o$L>6
zN^IkClE~VL;6%P5rfL`sOnsMOYV*@2&)Ri4&V=1al9P{%e$%}9d2B?!jK5jOMk6=D
zG*D&>k(WU`6AqF_n{^^|)6;cPLtW?tyOE6O71L}{!kH)>(Z)ccDAtv5y|yF1mFJcy
zG=#dw0|p)eyI32FXWfZnBiYh~o3|N|^IA+(wuI|d1&duMy;v*DP>Re*`gn3XPouxr
z%{axMqZhxA)*F{;AoGy0Fx+rqF8i|$Qc;9;&m<8O*F6arWX#kps2NyrGsj}ekaW!!
zEO&BvIA-L0z_?GHG1OF<8EP1kExIr(7|is19D~zpW>VQkbK3sQJQa7MFteUF_XFp%
z*^$90{eVIGY`x#(2Y9$H`z+*M!eV#L94my(u^yh!Qz_xl1;`t{h86h?Q&tVeFNTB4
z&N8TQg@U6~0`mo3KL&OIlx~BJ*dDwJ<x&=+apwxyW)nXONw&Q}^Ei!c6<&a#<txG~
zhK<en>nxWSMxaRv_Fq`#EW8jTLN5{OX=^<uhQXuK@}p`pGH>tz__wGOltg1eY-m_k
zj8L0V`bl<zi}h;Bsh+1rY}zNrDFJGNoz^Jr@H=o~x(vn8j+s%aT*o+wu`%f31y!y?
z`<grsjRyxuBe8I6@G60ADj2&oF@qDr%yrtTt=DFxc2LDpWj&jr8?~yIDb*o^35_x*
zrWkt~Z0L}U&Y>@kObD_IDwfe1&gvq<v_th_YyhHDM@Pm1Ezskkgvki##Qi4DY81RJ
zu9~ZU=c_uo)1sWOa6KqX#ulT~#${|hRsNXlQo2=TvQacU<1ne9IZfJ{P=*DbgxRqv
zR42PQ{D?t<+Q-D-0jA2?Gt)C74IDbaMyJ8URr3G?18Ub$c`Y3m!(fA|N|I<1l%y|)
zW8!T}<e?2P$2zTgmP_I5Xs}WcDhWIi!q>o7P?^WV2%V7-925U{<RbnR{m`T${)B%1
zntuK>{rsQw^O$~qiXXW|&p<tMQ66%B7_}g6<}kIIHBNR=2|5%}7lur{@pAT!i5WQ;
z964%YHco~zV;-#oG-IHsy#6?`pyUDtDkI|bRXG=^j!uznq>74yi5G^G;xrmN6$6hK
z{GyOY+0y@z+Ca^e-3pjl0)h*1>g0S@Z3d(~6~c0n-dNtKLcP`0gR=YbltCmlHo+Yg
zlkF<3M@V6r!J9Ge*r#lsP|9XAi~?yBrXabD!;9(CV>$=}(J=wA9+C4XOH?368$=qx
z>mQXQ!cVly{Ph$`WNq-*=`eB~2LLcryr#0oRB6vjY0ums5k`)^aZDi?-Wp#J9@twz
z94XuOxY*R(O6S_r1}!ep$D1T?Q_9;Td3)~WE_?UP9ZEaBlCv)Ds!h3?C0Fy}_6M%5
zAiN_7y9rUtcCVD}o;$$kg_V-MGG(uk>@^ELi=a()q9pGgQ0OY!Qh`1x(3c7fN`b-U
zz(G0%5urFF`9dk*cFDIr<=ZX!b}#$(&K0IBTXFJ{D)*v#pA?wNn$Zm7s<{J6cT>{d
zgx|EiN}>KNT&IFj!RE&WruxRY!iRxYoW529d*+U&-Bl@fhve=^x_3M_fts3jZDmwd
z`pz|#)}%_Bq>?6-M?4M2r#Swot~*^;k*;n_RqvLnce9XfQsp*A_9sqNI@ke1I+5jw
zsJ}__Z%Wr~Qdmpr>e@8%KZvpPq|9CqiXHXFEl{bd9|ug1@{}EP+Uf<6tU`}lOci_0
zk2je-bt(6D$-RBfy6UT0*p{l@EY)sK`L?`qXs&PW3Lx>W;~mGsxa4g^=hQT(YIaLt
z(7Y(s^d-TV3Dl(mT~eTHsZ$DUojaCpXkD_VHXW2U9ZWVHOxlUH(ze$;cWA{P`p6B!
zW-#e)ebnB$6iRgsNL>T>W`Ep%M)Ee_%3tUKu~ET?#j*$9&X2QA9nYGP+*_Y4+mv)|
z!Y{rWx6J3SfLEk<5OG*i-kp+n=iO(Qz5NV>lFlILl0{W17ZE-e##dZzIOihye)F^D
zx&D+rAlU;c`xeQ*W$Bz`-;;I*BxjRGAWgYiC0DCLQ@`uDcm2n%XCCh|`L{mlH=C;J
zll9x~)vYip&7YRmF=WXA(O+ymnDn-!yd9FaW5wI~p@0ez=Rhg3NwPOB`j!qou<w4H
zZz`+*xX=V3>f!a0y*}BneZ}7U$XT3pH!M3F7po;_%YEnIo!HXu<&J&#o{>5R!Cg_P
zJs5`CLvD5?_rtLfwda&cOd%L+P7Yh{#gFinNgBn%rplk(@UEkIX(6T9@iA5|ND)r=
zn>XILfdTe(g{U&DLO<pe%B(K@=;8aoS#zA?vL|lgE;>nQF|y*|-YO4BlWJaKQ6kIe
ztdEnn8Uy<{n?bsu@u^<S7P2mwPk~lom}|y)E0Kj=VD^w~Rks3R*}+VdXf{3a!~m)w
zTOuSbQj02x0s8qF{ZJpt<(go~nuH_MQ<3YCKqIQP2vbFnVo@W~rUGIFu^530^SCl~
zS5n95F*2-$u*f&s4Ek~7=sxOP5`;nLx;$?ezE!yF3eM%M`YXTwG8oXy{!MevM_}m=
ztk{~tuT&@C-W7ZMBU|-C{fezA?F2J*(|zZrw6`%?)|7NLJ=EguS+Q?^=&VdyE1$*}
z>UD-MUxkAqu-b$8)E*5RGVn#mhFI1G)2R$%Ir`Y>Twp*O;`wr{;R7Xyb)r~~3W!1K
zi(J|XLduL;6VbuQKn?bT)@d<17V$1(7H{;(d^4%^PxGht&ziU}RbYy3M#k$p$62+I
zv*K(>yG!N{J#xC|2i`vV*3pz_i{#m|?CD;1_9U$eIj?;ULq>zRA1!;^6xZM#r^>Tu
z%?R8`qs0KmDx;waJzxNBoK>|k$xG5lI`0F<7NI(>dyM*2$YP9*jmtA&a;)!j%oI*u
zl#Wwul#7+r_jzh(gscn~#CpVLk}+U7F;SEe5^WQ+5m&6GpGHcR6Tb`r9Thk5#YS)j
zc8Cp#b))7}v4AD&px(cPGG8^Vx;+2#c`!JaUG;N0jGZ5lY=M-mNwPI99=>nuPTPy#
zJo?7bTb`6}r{vqY?AyJ9b&mM{84(ZNw{6XcNE@SN-;Ndg&PPtq{Fz@%U`O=yFeNS!
z8>XO|tU(%M@|8ZBYvcn$BMregz@cJgfJR1KfsM#ghUp9R{JCp3dxCgjW+T2AM+rs<
zdq*WA<;>=0AVzLnBiZs6&6~yjQ1aA>M!X~<B+TaJn_hE)*lIE&8YOb*D0Q<3sSOCC
z87iW*V61x>!vEK6YDNnTdw9*nlDJ0boUG=d`a5%(L>+4M5bk<yXPnTSJs{fU8j}2S
zjR>1)u>mpCxRg6tAE-nk@EsMHd_RL|`HxU8$gJvAqLuK|&xCqAZ@K=?=o16-=6Kc>
zlb8kaS@1LS2El#(!+JC~zJ>ckd9#PR1&eWxziIj{ZBv5y`UI96-^SBw*wB&4Nm$ex
zz8K%Z!@+jRLGIwut$#M?!|Xe`>-!6B{;%-&br9q%j6AjpvswW^Y^o;0pfEtBoD2h6
zM8^V61=7|RSkR>_3L%ZCQed+M=}a38!$g#pm1gHFh#f2pJrTW!GNps-#2BR`J8vK-
zF*|QM$;gnLl~I%4U|$d?d^$Ogir0ft5D%zQOn5m6A$_VlqeM-JXn;~nty0uZrN-?+
zW+{#uis}o~j5swF23?9L3W8e4d?%*HBA11*px5!n*ck?i2@)!%hAAe@o~ChuxYZh*
zh=ZCKi3G=C=M2=vu}f4zMU+0M2~jihUSt|A;Sd3z{8{uf6PjjH(xO10Bp?Z{ra{mR
z@0qDfQ`1+cGIFJbt~aQtni%FMI~f5)5sxQX*HEQMTth{$lqNexoRpRKtN4WUE$q_8
z#5oG0oxU7^JS{gFrih0sg0&;m8{)sGD5R4DH5OWRX<d@@`k{`{KX6i{d0+f9^0EUR
zrihd`4Pk!PN|A<MM)S|nCk=HuZ(xWem+h)!<oM9hbF!0vskzJUq3QS`61$Cpup1Tz
zL=l9*f@en~m&430(w;{Id(woh0&NK)sle<VD&TFWZGl6R7ACC>xqwArO#_jNTBV@3
zY)8EK1#U2rTFD2Mvi&cj?f;s*n0n5!3>ny`Vr-|K#9yNpubQ3|n~K{OPp8^;No~7U
z_B^v(baF12NiWn(CH1M2E~%s|RkBMe*)><dgzTCne{;&;Bl&w${{51F|D5yTrmi_h
zy0Pv3#CwVNUxp;u+~HfcM@-7|`U7X@LlS*GD%BlLdXCN?1tI2fPL`(<LPvX!nCJUb
zo({>=u~Z;=cBDOlhwjRhyGe34-8q(O?UP#j?z{U|%c>VzRyz7u$_7@wl__tF<ZS^1
zyW*7jNp`l+kCVQ)HdWRsm31b|cCBt1NH=z-Lt9dzJ}K0fZs<%kK*V%Mnxq!DN;O;4
zE#0Y>0jXu+i7j`l|CVE6^1iq8iOaNg(ERBMAp@nw2QjL&I#tpvl{Bw<s#Bhj<OwlH
zyX0wqoRi&A{IMy!wD{u!Q%Oa-B&fu^6HT=rk=l>kFFCRbZo8-Lk-sk4xaXcNwfBs)
z_e^rnv&s6i%l_w*p64DFmESsYC$Lh~opx6&R7mdjk350Z)}869P`bJ%T^UMMZk8%H
zv;H8~eY$Qln$uQ1@3=L&><WGCG8OqA!}4iU_hZ;PbyXy-0c9gc8#n$CDzS~+X)L`P
z5e$qrYT$dC{lu3y6yVx8MI!44ip187QmTtFuME9!04rgM$0B4AU;0zxkX0Uo&7xW_
z;%pm=liWZ%6FIC7)<iB`C<SFvo$_@Wff27iVNGb3GiI$BacM?d_YiOF&4MwUM8~q8
zFGAi08`ieKZ+a{1rrUy;vjrbuIMOp~LuocvD?3suo@;)MWCjFg#p+Wz{*HuWvSdw0
z?1OK46Lvc5O_psOW417(<pvyjz=*fOnGw@Kb|NFx|8#j|8^{PhE`TzVA-1M%cJ&<Y
zXgth>Q^*F#QpNXKS4N52hFDJ*ujX#O4GLy_-tuOPGD<MmMkn$UMFON-{3dLjfamn!
zys2-kHF^~|tNp-&VvLev>JejD+yMTAXIrGip?E?z9VM{2WvM=O3?Z%3Iwc3i&GKL)
zPjRt>$so3KE|PTk<t!mfu>`1nXDi=KhQyuG`cH?i#&=gr{oL^NWRze8Uw6XuG<?_B
z72IP(%%YirjkprzVixi+yOm~?*8sq-dlDsy(uDg0sD&AP@v=nODU4+^8_!p<_K!L+
z&1sv&{R(F=7L2MUY1!V4Z!}|(={VbBGEP{GZ)?GxYr8@li(u1{XG2<EY;(oZkE)F2
z>2c0&jb$)#PhSLoRAUK~Seyu@tZ=NArKOEEPsIylZ0gqF#p$cGt=0<Em{-_jLTMO`
zU+iK9B5h8bCw6CWbPU>K)HX8T8&n$6%J|@%KpN9B(*QslW2D8t6<`P|`fWk9L@h(x
zaF0!k;Bw7?T}OLzP3ug{P(1_iEp`R~`e5*QEeo62py0d3f=y8O3iSquE<+Jaq*CF_
zbmTZFNTN^U-0Qn^+J71GQn_L#%Qy(G`qWJOl)zM1*A$~PPOCfL&Y`jAag5=7*QYut
zqfv%u8ND<*%5?RkhoCe|?P6M4!6rolR$;V)-`N`690CiTG4d5en7;Z{rRdNw3RT#(
zAfzg{1@%oQ)5&9uV-D2Q%85*jQ-3KT>-y-aqSy(F9p%>cHp7aw&{xVQ&L--BgC8^k
zKWFJkgM*ks+4_K@!{q0z0jnD68fG>dpBEtGL0C*cApK6g_KJ2sWAuw*%qif+SVpf+
z#BQ7AYzPW4O?xn+X;Bt)u$n3dhI{n+CjGpO9};Sqfv5shmT{&5D}4%oA}&yXU;u6P
zq0$J$;UwH4=Z!;X8gB7hlr9^5b@3I-=HJlI@6wNrlI4zFj#AjG@R4%>(6LJ)uX1p)
z^5G%}J`Lxgb*U(_vfhvj)Gy-LL!lP-<GIGY(pkba*`4W)cwkarlS`(iF*d1j3in^-
zxtFR6;tKAn9ggU#jR8PBCYz_!I;bj>vS&>qm3=S%J~h#yWP}D`<U{&l-N=B&cudA4
z>ddUF=*o_<%W5N7d8+sVDxqNk<U|lhZ90oo`t%rKLIj@mxXXM?))dPp$rx?52;+?&
z<qYU&YO02*Z-mwnmN$<2E7+IBzJ(uf^|zS7Vl8Wwz}qj|BbDvBmw(TjEIT}Bf2eaS
z75?ec#Uv=ph0Pyln;pdL&v)ZQR^7H_`Hu5jPALdgunHVo7W>|Ld8zI@9pCDJ&^rkN
z1nb@}e6Miv`jRyXZ5eCDLolZMQ+0bJ{I~B(?mH{l&r)txVB404k}Z3slD+pjrIP-+
zg4OEU_kHjAk}ZArdY7w*z)V^#^S%A@TQ7gVce!Ec`@MHZ7vk@~{NBq;=a*i*-?;r=
zuhcNKTy`AVl~r5s+NG*~9EUQFvfYxud+9~VzdhwYDESXA`wv6Q(%Y!;aF@NE$*w`k
zdm!aKCV7u7dymgKpjY{B!#fQN{$+pboO87@`0m6z6RY;ZHxIsXaQ?+xb?<h((~&G~
zPL{NMyX!mKzO@Ym^}Ex_(`O*MUsZs%LuMKpnAUf!-*7Js|8^C4=ha)jx9<-Qe)r&t
zcL3R23*O9sBY(bmp>4^$l$EU6{J^?pwJdP!x!-tY?!ZG=;MQ4iwHGblbl!GC>kB|~
z1Q#5O7o=dfWbe6amh8R6{Vu-+ov_-4QPSf9BhUGk^W&VXL38k7O)YcOfqzfQ?wW63
zl7hW=pOJ#Q0r`98`}TccPJ0`n>Qfr}oub9QMUPa{p6u-Z!)HD;-#aaJ9+pZDqZd>y
z(%OZ|-|krI!_oSCC;#BN?>@KU8=NcD+t9vLv{am|+48`;HC?^s_nx_HUOFvR_onT>
zTmA1If9JSlZ}~VI>Q(4P^mMR&acoh9P6N7VHCXe$^*w9aQJbvaez!MiAN=qcfUp`-
zD-hLHpS0Hf{HHyp#^dG~cC@BH43!?Px5~DR^<XUXyi4a0cHaGeacaYP*HEe)d@Jm}
zV~QlGF`EKgy7dn!-mFQP1(gRHO*|i}-?~RIUB+1$^6iichg5ggY+hXBl!4Hm%})t9
z51hn#z>1wKa$NryS*J}fdyupFiF{R})lhytkx%=4oK7vVB3N=YJW&%YMC|-=X3v?_
zNXvR1656R1QnaUu^egtpapqN?M9v3TT<AgW2FwwbdsQMw*dQFc@EkzGFfH4y=S}TQ
zWY6YJZQr0w1DW_WWg3KQWg3L3WukA;SK2vQZzb471XA`G$)+cAGMEQOr&q1dXLI6J
zJg1EOZ3)<H*YVS+)w9_dbqMl2^f#bcqknN1dLY{m+6c!vNQ~<(spGNqcOnNg4o3!!
zgY179=j+IzaX2_WKz7_@#7IItZ0G@JM(Is@soaIMMkAq_hwE>Jrh!wR6O;jUE&x{<
zvgsS-(W<BAE+ct)A&0=Dof=(nBK5MzNTz**vNSdiPYddc#_rMmIDJMiXOyC`cJz1&
z7l$s&>(%|aOMxxmpw3@rC}SZe9rM>cf|)!s`e66E2>1je$vABeW<o||1EoWw#-OYX
z;`7*oshnnk&)KgWUui@l)!wJ;M={Dx@%=mmu`rjde-btg<BJ$H4B!Tf%|)zk24N_r
z$Zwj|<iz#-QQkrQi@Wq58qp~~rpco`Tz~%qa&F|gU^f0=P>&P*TYn>W!&wzn9ty#F
zv;O&ImHGp^lyNVeUY`OqCNqta$+J&~XgICRJH;q9`_s!Nj6})LJ)PG^ZQ)q>#d`-j
zBc{pW&tK9nf&sIhDbm>3sBa8b9~C}de!5=&bba&LWhOHFZiBjgM&B8<^`EHk3`+XN
z`VKlpUwF*3kwb!Y>mJZ~^>w!-QDV5>u#p6s<S0)J%CDg%OZW;rj{fFr-)vdNtUj)X
zb627SvtU`qzM_QBSVZN$0Q$9H1{EG}P_fnZbhacT&x<@K{hiSAKump|G+=CirfN8A
z!WO!^F3eJlh@Llhz1Ejehbiu>zccnw-h@}MUdy`1bl3nz8?}rnv1gBEshIkro|3yz
zuEE-r@ba30mLJpNmL!T3o`m}|TAK}Sh9*K{bUV}r(8%YI|BU=g|DpM#{5Wru{=QT2
z0deQ?%=+S26&L1a;@O<%U;3NFXV#B!quDzr;pd|rZ}i1%d7}Im7+qvG;{UIhah<~h
zb)+rJx+k9C9voVqW(|KfkO*M+T``t50Y1a?;9SgBBq|cVf01=F&tjUb#8+jaJmE)=
z<c;TO{0PTY&Y7qHXTqkKXgJMikYXQ>X^JR^8Dbl-@dm?(FpNiB2i%{iSOFVA9mO&H
z+|DC9n@%2+?FuoC>D)lMNfk3;7T9FxI{R!gBPTKga7-Nu<T2IQokBH}>ll&oGi>68
z_R4;RWM@Q@REVdCsZIZ!D*Y<`{5}2roPK^rKQ;>e4!Qm<{k%m#L|V<Dj^eUZlenLL
z?oj|_|4riW!6j!yQ-{%JA@I%Yr$W1iDIeu9I=gs>BH0-|dIYA_V242Vtcj=+XT?Ee
zDHkxU9kgTSy7)~h=)3fDkV^Y^lu-$z*O93?u2M#j6@P=mvS7IHFgfxyV}0TheQS34
znDQ8rJQeCO(TK$X`ngMf|2_T8)6WZ3m4?is2(lXSa!nsG%aM#O4UM!>LC$B=>)^?R
z<y?jAEY2WL-1G>IKA4;XMS2usRZv$Wy|<XyLIu80G3wVBNNgEc&x~ILR**%+$V7A^
zo*_0w6OZ_}_z6`hlGZ;Yk5Ot6^|xFE?L&}lGfc*cN65dL{ETpA1fo-n8AOU{AVHH_
zmsmpi{S{TPfYK=J8Zkl{!LST;))cC=c#7ivk5mJO7aSW@nsv3-XJmK8sBm$dGPp?j
zTDg@%kuG==aq%r0qh`R8vJoNIW_oc(ky=5{eUcrD^bo)H62@T}?oc)aU%61R63Ck&
z+jPmJn20Nep;5+QPXbGdg-(qUO+*PJDs+aQLXdW@Q%k*3xt<EWR&DhMSX^U&gzhDk
zlB$%mS8{?PdEdD^Y2BT4?uIR|l)F}P*QVU9lDl=zns%1ms{R@YD9<I*PXDdv?mIya
ztWP@YK^Y`NTOCrMV`)n=0Lgb>x-kS&VY;;~X$_@4Rde|uz!sOyzqD}h$3<;(eHp?|
zWUys%R4Um7wH~)G>8?*gAIDvvCbcnA7`uB#0(JB7NA9{sKUsA-By}IUA36m4bV*oR
zvNxsd9g-cwOb_fk9y?6M?WEsRu}Z2u9m~#5OIuQ#hosFz_nkxOjw5ML=e&?A?UYKP
zxR$l4IO%Gox;HJ>rJ4sM{0|JgmH#kM_f|gB1>zYTmo^{2?>x>j=%Ng|q|&aZG8mMa
zN%xIqFrUBL+L7FJbh-5y0I=E^djHyc*HGDSXMM-|Eh{LhO`xdO0VWNhWN2Wy9_mFk
zY1Fp!zH>{`x+Uq{^2lA9EZe;7-ZE!>0u4Fe+Y@h1ELbw>_dCummp(UVLuj$*?aH?*
zKSD<KK`At_&^LGb&9A)im0SC6J#*htg#sk|Ae7*W3+8g6F-J@WvV52f^(UMAlVt;Q
zb|M|;zLA@u6~*`rUy|&7u!fU%1^y<_0t+UkCWr6Vjzv!@v|S2qPlXOhp#!PVF)4KH
z!%-=8LMlHY*-sDyp%nJ|@(WW|zhw1iWZEg&J5%=Ul70KK9fr&tt9IBqBQ334&oA3s
zm@XLELQB@}PS)*Cy7v4{KG{uinHpd@GG(ojtW^tU$y%clx&h8bA=N%0wGZ4I{je!{
z=Gi}KO}3x?8`W6PW>_jy6ImBK-?J|iCaoRlZL+PFsf+d$F9k+^ypq*>%Xh0OX(hvJ
zZTrlu5p|NiF4;f^TiVcjAqb?wrdJNL3Zyi&A=!8kXn{KCnqWQB*CP2^lC49@wxOi&
zc*=KD@|{FRZytH$2=eg5h#2gE={D+;9nT~;J(CQaOa;zJfirqc)fn5yu(<|Php<rD
zA(eNeU2XGqsp2-NxGm{|9hsv`o>b>isq-kDN!L-(_XCA<M~Nu`Q*>m4Owq7gd`5D0
zq+Git*Y0K4-g~}#7)3{jo#CVQ-tr~u`WA##L!Z>p2WQgPCxJ7OtC>(tyE=KPOJ=E<
zMp0Ga|5oUF<NUnm?ee$Ee{C87agY^79m@vE0_337GMFqokSaSYl^y<Y%a3;a$&Tf+
zvu_-HsJEw`a&DK3+mo*L<ffBLb*ZkCQrAg1ldhAWuRUo`#r$*ghmuu&3!YSUpH$rk
zXVTM$)G*7J*~&p`<)G9+CKHpsLCJmqBZC`?OuM>xU6zWZVjAk7*~$ad$^%l%fn?di
zRM`=!?8t}xKRWU!N0!T;n>&~;t0jYoV3EO$;d0sLIXfT(n~cFdVAiGWo@8kkFoJVg
zf?E|sr*}K0s$ImC3G7ST+ZN*~sLXcky;t|g9pCRj^a>!M4^s#@bGh$f>{h1>oynq_
zZ=6bob}!fOk&5;t9bn(x8@<<%v>!?bDqw_;6@eK8Y3%RWlWqH!gRq5Fu^Oybzm=|8
z37#ePV1~)cM_pUK)A%iLwOUc~=E9_%4W&&>S<7U^urs-3NOBDU%#K2M0PAR!F~!$9
z#c*YE%h?tCbC0~R9@!4tnQ32jI?%FO;(z<gZ+&@T+d}iV2flOUTSq>${K)nvww038
ztJMwf2i^;$i|UiEhCAVJUb=k=?QZ#g3#QH*8Z=$qsm?D+onLz5F7Or1Ii3Vf<$Ezo
zJv2KvN~MjcWqHAz6P-!}u~YJOE>$m0e`v<yk@Ow@@EOTB1T|z|qhiT&amzP%+}^S5
z>wzxuKYpW2I|-NfNnQK?=+JWMP^$ElRC;Q;^vs;?FShMRMQaN_+O~hO84|n>=%U`W
z(F_`d@^Wnf0kSS_#~fOYwx#VQk8QcGg2$%Z{DPnV^n%6YIAH$yPhYSgCesc554EMw
zZ?*neO~LcMmNllMXb(rEgHQerzZ<dPpyQ+1y;F${AV;fYYm<qHikyH5c84BAW3t7q
zh{7ISyi5^RTa(rTCC^V$3j^Z~qy%P01{y#(x`A!D{z))Kz${EDA@&&@#jJ@uBk@d~
zC1=D40~0RWNHi1XVoKMSh_+*kMh_Sn7Q<AymeI(7(zvE40%qM=i|OVJOuUd{BYWZj
z?m|l|xm$npqv@;-EK7Taz$6{~YxH>B1>ZXE*53)65!(m8O?n*ex?|=#CV(wuRlba#
zhEbwIu!raf!Jf%h?$X~7$;&YEk_DEMAxSM4*Sk2sVgBc42#0=w{B)uVgeMC#SsZav
z%w$i(rR(rac5`3-&0#4P!w8arNUqMxK~KHBCSQ#R71yvG{i^z^>}D6><p!*ZHpsn5
z$Do@fz=LlB54Q8#L4efG^Fuz($_QYipkTHbc@`TnmtG^|T-ue|FwRBfNus8$dlCiY
zd9&35d!3=Yq1zUAer2~X$R$wfxDXz}H38!j;fQv*MM;K5eUfZqfw4gdOj)juPQ>vp
z4qt-?1({r-GY-=t`P-fW)h|fOF`B?2Ng6`Pj%XAU7cNg<h8QCZ^)M4KBv}}1zm21%
z?A3(uG+Qc)b#z7TlTJZm3!T&6AXkunI_UFv$n~G`gZm?3S0p}xx{8e8AX@}j^k7D2
zcwIzLZcHLgNKDCFtR@$o=9N1s<|)Is@PqR;ndc|dg)q&2ovgSkmg{x6i2Eqn9Q`oj
zL+)uN{Ut&Y6-P^0yJrcQ6_}7a<KTRYWe+1Jm!Knafo@yj7Gp+GOXUb$#I4EbB!*H-
zM)q>J7mUAa#&bj%PU33oJgH&<2O?S{a=z9@%=ElcFf4CQU!IYRnFU4WCX4v6q7##I
z6^Cp^g;3u3bPSknbOu$<o$itFHC%BL2NeJY{uMhoPpQ@##Q9CkEwMjC&2j#O`HR}4
zQti>CHTaPe_OXkxuPO1Z_}ZY`vFzD2m;cBc`1+Y|Y+h;FmaN?-Rcx2Mz02O6P=N{c
zDd&(MhYn%!oEuDf>em|3_)k@v=56VUhEzqDRMEAxL#o&_53L#)VC<0m9rJl<mrvOs
zFZkcDdar85)tPoxq+E59t8U@K;*C_tfYdRNtRH;fI`DD6DM*G#nh%??;V3FuDIv4Z
z{@ea#*Os}Qv_AmJq&8R-FIi^?y9RcccS$w7(%kVgTW))SWDmjI$Mstsuy^e!CF8aW
zIS=d&>FS<^l2mn%ME?)p?Z8jcUb$*7(PBKJvr<jEw)JmvvK@uk&AI$Ze=BxLk=v0K
z=Z>@sMmQQI7fvIv<kI`7tQw*~-;RIp%u;lvtUu|(k+1(xD>uy#raiSOPqXA{UhID0
z>4No-s?Ntfs2JJYXzf^>y*vHmmLbXB2m{=6XXh_2l&0O~DR-UZu7gDp)ws$b>|Y#(
z^qp&J=_ETJWFqF))%*5FK&$n*S<!*frcfY~wi)RL0&Kh)(Ki{G*0hZX(yI^bys5b|
ztr%@;=HZx(VR{#uEecm!lk?HHCq`N)Yc?x6kiywu6JoUCU<%CGuwZLqe4BP2<<6vv
z47g$mB@_}wMjH@pR}428ST3OJ2K^PAk@U-~9m|on$;g0=1O5gZ4#<c&AeUq%g88K{
zV@|<rHuWz23dtu?aLErp^UdCjtw=$_K^z2FiR8WE)Njj1UMy6}F;S?+aX}u$bqOid
z<<n-galyi8D6ujb(p$n^(DX2AxfdsjU$tRz%uW>jrb)2;RyN<dVv)2PDM&xHl;)z|
zti_Bw;>LZ#mV`UuWPa|1i{6k=$eC>8<?HW6amG^rBZ~=IPgde}&E`T?w+P=1Bf$gh
z(9>`i+N*J=xSziHB#E$uWt?oF<P8lf_MXcIlnGbW;Ehf|9e|9>$>w(PH!!!J4*3`r
zRV0HmjDjux56D?rRB7Q7-=zQoPzJr8Evk>nk5*RkHxUJ^!uUAo%FwE0vepXy{@WD%
z4&`v0To!UI&<~^dlW_~Sysk0xMMPckb^OS-j7wqIMJuXZI0sRDHHl-z{MpYbe_90<
zD_sAYTz4pwd?g~*D!G^zI=%oZBxD{;g3fuW#4}qi<w71&UF|XoMP8p_x(ghFQAnDL
z+MPCRCv&52J;l{1)}Pb5_jjl|M1HNNhVE4T390@B2!N}tptiwo(Rw<Q)r1>LN}Hw9
z<~dusch8(H>FG|Ebi=;Ls>l2Fl6M2|1SC(xvZrY-KkfC+IUbh!Q>6_Onf+>iP}&Z<
zDlM-ErP_lZmP)lJlJ?-*6*67ZlB(Gw)$D<EDu`NDP0(~)soacJvb;W3-YJ!L&Rb!1
ziX=zp^V9WhWN<&}szFpwMKZWK*?m|F9=`8B{1+Zy8uq%XIwf~!a_hnS?t@qqN-7=&
zst{{w0;G<6MazNxppE(~(zr1J8k{V#=WyE7@JUW~dGUN6AmXiF=(%6koOCrO%bFi%
zEYx&~#b&8`v$8ne&AaDWt{$8(Oqao2RcF$5Ho5iahi5-L1VUhP^Vwy5mvufYt5S)b
zFlA)|5h(3Bh83%*IEinFOt&xPOAv+Ld0Yw}pLe8Bot?McI<|NShPCcGKFpK09Z$MW
zpb<rWb&F8>z_sb|A(*7v^7yFP<nSjeh^G0qV~@c?DC>B99=|oon*L;Mf3kESReDe=
zJ@}#LN9BJ~&W`&Jo!(n5pqGPc&Xz^-GGX!m1k7F|G)tRQ;E3syYxvnnNmOh}WWi)6
zCTPLTP72wW9t;`gMy5bv{X08hfdvRE2M+{dF`d!WlE9VhY>LT-W&a`k;f$bPuchzW
zaak2^bkag#JLz8|AJuk}vRUR^)fjAhW05lH%@u#28vc7Ue3d(|)a`PN2^A}x4P|qw
zTn5GLW+_|W*i)L;jG>hoqZ+$~*f|u40al>hQ<1LUa=*SGvgr1jxkK|WA*7=E-NWx3
zP6fK9KsR=Q>4pwy`C@xl(esJPQc*Z}j4<4Ls{%&BlJ*9M?ze<_jFKAGd$I?*Oi=9#
z3lq=<Q5lS}H9bk&7S@wA=WW!Jui5mij&2(SOO?sE=k(<T+YEzkPpnlJYUT@HELY$5
zppQ*PG#F+P-hkf1m(^1yK~X?<p;hZ1u?Bh4DPi5CoAhCZg^bSKni3}HN@YB`5iMmc
zje%;bOZJc`#0VBy<-s}EGIZnkDY`5$h|}P-*c()@=TcUMrcf|?IR^8vIF{n9N}6=c
zn!R?AAw_;fQZCep1&5}m!tI0NucH@3h2jrUifqSSS9EcrVtc?x_{<izA_R(?DMlHw
za;I@y)))?xBT%wY&15Ln7}#j}T}t-v=!dL3ioZoaG#zkD_f(Sjhun9aZF|R>+TIAP
zTYJ`o_R^3bRyT%(oehbgWD6#3t*gbA(CaVi{v<owUHI69^8^M4yXQc{JqLl-6>FQq
z9K7%BU3E9DxSJm_(|`|&JIL%TZURL*weO^~@8q)kRMLLxp}!Kk97IK>+hLgM3R}?X
zx8h1C+&`46B-@I~?T3~t56>NcWG#BL@QuP-0}re<4}+VOTTQBPqZVDe<a8?otq`|F
zushw9rTT{FfbxBu9aw`2)<0_qp4gEp1Mjcx8xOo!aj^l=7E#wf8<{(r&BipDfp+W*
z-J?7LtSXak0seCJ%R?xR(J<x1YAX>HO@<b`GKhx)2A{seB{C$^P%GCxMrRt@XTx05
zzd;HkeF9uN!t3&7EIqS%v)0-C*#ev?Op}Do>mK+T=oRR?6KpZE&pP7TU^hC?tR2ic
zw3r<MgGmi!WAD0(;8T|{SD~npR`s|{?%d!ElyGF|suw;5U(+O!oYp<B6vApXKj)A<
zef7Es_{1qk#Rw2hYk9cQ`3C6?dJtOchNm8FsdgpIuQel%(J9D@30JKjBi$B(d`ObD
zExaE3oAlUm3e)a=hV^)p;durpHJ<0JC*d+8?1HFjn(Wl`<}T##;c4l9XUGzICTVh9
z_wZ#3V+HmZP)g3^)^$<viM&+E0{@NcQ3aDqMkz}^P0BwbR~t4_UvOkG(^E9Iwm)5C
z-Yz!6HPcUeJl$438#Sen72U-{CwFs~{)XNTNr7?<^t@sWg@};%x@p#{+mZ)C-b?I~
zH+`!92vI3~3E$*CJ#X%UbqtpUa%;0b4wns6xAQdm`wOJ**HdxV)2Z)RHN5vvK~jF!
zkJ+^xe*r+;VDuQxf3pR;Rr&ZKUY4#$wLwmYc})GyArGnx#E)2?Rm@f<Dpj2?L#={D
zC8PROC8{Qe^qja0^V$jS*567RqB6{4bwkRNdKh;x`b-JrHjVJTB2kqHj%ToBZl2qq
zm8W@r`rAl*AW^}wVYWI^{aQ_;dXje7>mK-iX`L57`6v+biJHRm!I%gb*Ikcs^V?vP
zJkN6!3SOs`(x}%B`bwEg`nA$|t}$Yp*m#{_zD?Uj#$Vti#m{pW_1zaOlVizj4U8Vv
ze$mvxEl@~jD^dU2L?vV0<XbTJ8OfLn%zn&lU7}8KFhh3lBi;pGcm2&<iy5F^odK{R
zoUKpPW5nfJOtTGeL&EiWKYT0V6FlYQBzNiW3tA5*8WI((egV|49I3-9!?0qu3V4f9
zf}Wz0GTWGF+yD|0J#X%UY;ABni}D8UPjO%UZHPCGyocFrYlI~RqbO0q<<bR5rbPNp
zaM!0kN_gTkywpoQfK5}PX)?xr^ta%^tgNn0lb3aW?&9#D4M9e|iJ&rhm51r?M2P2s
zeri_x345*C=0x+S^(y+%!}^eR1)sCsG&-(j(?94ShFHrjW01xNRg-#hII}0?*LfW=
z7lo8wWi(%fMj8a<5JAKG7T)t4)W*2KTRyeFU*a{;-@FtKGq7#H3_L7-)siTC6)VM*
zJwD50!){F39i95z8h=F#p@XXt%wFX&^fyZMCu(u0Q0pD1CXe5S^uMIX;Vwbb3<Nf|
zoif#$I$`tsD#$hGu;0gRFF7~=@>=#e(^a!U$Q~s`wQA$jq{xk2^;&2%WXy{c8FTfh
zY8GDuQr^yHgcms<WKHEdaq%9!VFe>wn20`QoS07WpY-DAZMp~yr);1D{BR^PlZfp4
zN8iGr1Hjo%z>v3U@0=Os4P}GOOP8`kuozdNlO2s1s7Bz{>YhX*0ntaH_>eF=3~VUT
zZ*;9Y)vh_lx9?>3EMmLcGt>MYopo!FCHRWI^7-69t!bMFh0*`^vA2#bG(YgPLB6K8
z{b5<fyn`JtQNtpL=i+LT^NLt632@6+)eE;sC}pa*cZ}ek@=LLwpbXO*&`}#`XZuMV
zevY7riQMx%gkk_f?0heqf5ZH?86YYkHvI2qUo|rziEmR+WXW0Wn;4mUjRoucon*!5
z+KjmSM#tv^gO=dW2?m(VO@C$jzj5R@Ww{GJYCEyeJvVr(ZUrp5wi7>R)P%1Vy3999
zn1HnqV=Q_yJj2e@%q)tcp^%kvJ4y^hba3r6e8lkB75Lyn$-hT|;{SsmT+YF6NarvE
zK*jrLsq9fNfZ@O$A?u%X(LLGsRvFN;dkx`4IrEGEfdI9S(OwvdL?k?Aq!ig39ld@Y
zw@>2koEauR&xtM>S_%IQ$;I!}52Ly2<Q7J>A&c+g75vB^MSEc6;sgY^r-%s=$NeLP
z>b)nBrl-r^MJxp-Kmc}9Ren4(;KW!Ray6H-hM6XQ*F3vd9xzg313K%1!r~98H4H>f
zm1n>~B+_0)5opMZPb-6{RB18EVh~k{S>zeL5|({riblK024G}r0^_i^q6jHuV_=C}
zC_jl>yi7lsk}~x*euqLC>*wd>dX0cmpjwl{%|(pG1M@2=N96}0P;+O4n5M{B1S!`y
zD2HiseT!T#(+|zO;uQIP443RWH1urW(L?<sr;i^Q7#ca$FOm)jlp0t|VHam6G7-m%
zWbqXv-!wIeB;dm^P5fWs3biZr<v*rue@H<@L}NM%vKL)<9@e)6RWF2Vbi{CZBoEO*
zJx3XQjeg#sAJT6SU!@<0H22_=9cwXzZbJn|$R!Y+7-2|H-OPpe>7JMuFHhj6D5b|o
zI3mcUoTPPrA|8cxa$I^u8UswV0T%%=6&7Aqrcgq-A*Si)Bl<~FU9uuGOtXNdu9!N%
zx~N24w1eipsOSULz+%`K%=0SM<C(@Xjs58A7mURw=c$Rs|AXMjhV`FPfi}|V05VX<
zayH%ZQwEKtiFH{k^CwrokqeY4)Jk@7gHo$(6d~JTnTXIw>0Xirk=+U<U$yP74E`7$
zG=pF0QPvX2n&sjt66u=IVVW}2AU!d*9QbfHg+$r}QYVwT-XxW8O47ydl_`Hau4Mp~
zGgzk*ENdCT5*(#6FL-o4Fs>6!cWx&6T&t<Ddcm_0Pc`;PjXe(>+Zc;41mTZlGj4F$
z@w04G;dZc?pit4D3baaemCaW0pOy=^KBOzPNe(4hzjf)QW!HX)XgE%o=Z@Xly}0M@
z!Fv-(*3_D6+$A;A{n2!9#DWvtt)@Z<s)NTd3n7{e!IDQsxZ_8;q?+Wx)8#Fx@<FM5
z@c+uQ6cg3Ay8iuw_X^ULjf_YOn?W7vnhvl-s$0MgsfL}?pV=s)hv|Ay6_=v-zOo!R
zjVoyA;$6B{XR%_r1XmKR*6mHzJtNgU!$kV2umvcFd}qhEcA$3k5FV~Z&0UpAXXqha
zpWZ8Zdhd4M+r8|8n766upgHMkOosN{D@81l-tCZl9cfQXvTgspXFq%vS@?_Ra}fsf
zvemn!YP7vH>1~654YIDpwMU*%%H4V2O_vjq^g9#fc{bU$XT`PmVTlh-a+JW(PR$mD
zk+@vF{ch;)wq$ibQa`lUrR*&*kdtg>*881xDQDY#C+@PTPPv*SSJR?b(SBGC?O1W`
zeCV&8JM#E~`Kj((Dct&4G&4$itz@lTvDT;CI#X>&q&8f<9zb0o|6^?iIwk$h%3b#7
z-Z@8>X`flCz-7e#v@Mvjh3?xzKebpKl~3%Z%9f96+CSPdu<RMc?dXf==TD|eLdzwg
zByLOhkakCHF%$&+4brZm<%Z+<T@n|>_h0($my)}Nq=w_mz7rqSZThJDz_JI|A|F`F
zqVz4xB`wMB1Cr+;($^P1u~{n%-xxv<SJuo80hte&519$$+d7g~TqLwkA86GFk*tMn
zzd1r$7`vtR-Kq9LseSOrz60t#Mw!|?Ywk39NFrBl5^e}8u1OX5NX58`N-Ew1YgR?L
z9|=hALE)~lTOnnj-FLR9Nq>Q^M_(*jJhXH**|g_@YcC>^+L1D5dZa*4DzHNe?6}*v
z9M}y;HM=_Mp{F9{X_7p+0w@*QC53h^1F@>5(Eb%qKhhU%PPw*AuI+cLAGmftZZ!E1
znx8bAT<(u)$HaP!Of;w32BfxudlUDrVdDf)xeK0{vPcd)E5G)kt>%*)yz${Gz<_g?
z{mb~*_rG<0K^1&Y)$~d=y?3|YJ(#Q+SS}u%%X_$w8N<q8(o3c7WRz>UbUS$UEgfLc
zFO=SASDcsi0?*4rVB}LA5o$-6UTmeea8Gsl!>Z0yRgYBFvr@GkmD*nTQPuWa*}tBh
ztlCa6tV4~q7k&bRQrqUut8E?MeD3yhOXolMG6vV8`M#?eaZ0y+Vl_4Q!m`!8d4Bt?
z3+ZyYRH}UI(x_Cv4Ltu{1M?QHJkl<?+81A3YFxY_xq6w*9NiU`a&=0s&ZVXm7sSpm
zTPcbrEt0Ecv2WSczEmx_Hm|taAqv*qiy`N4UFp~(`S#2mPM1}a^{~b2`Inc=T2p14
zB`7<UZJj&#uyOm{W~p%?)p$f|Jo4eemBuq@Tw~!!jb|3J=d<6=e=GlA*^-TCcoQ2*
z8$j3Tfv{TRV*a9c+1|BuQL^vG`%j^*#9O#pRkv_<@fz%Jy(HC>{jK`l_wqih{=RLw
z>gc@vp$F9_YtqWRp)^Kqc<bUTl4}pjB3S^v>B+7`A683UM<2M3J+@IJi%mt<xPB+u
zwkz2-KofS+qoSI0btnEm$;rn2nP<umJSjF+ZAyE}(}5tz-<?umXS#B0x}-K;y%nN_
z>EPxkPAjurhU?ylBS-Vd!toXBmWR$7NQ?YzEC(xx<k<GNKl5T<{@8?{zx(OlEK>=T
z0{*h$_|N~+bMWUsebx*l`1wzp0Kph-n!fKUK9`mK?>ASSb7ub_&wVan|3QQMTy^0O
zbKK_|T=%W{=UOZe0%hkmSw70jIcLxN$eDA_mnY}r=0j10fNg9In~fMXbny9P5kGH(
z)FWhF%-ZOr$cZ30Pl6P#$t+|iaDPM0!Nj$)Nn9(Dh5HpOJT?e)R04Yv5arXz3^^H0
zBZx(5{<#@fR*{OlW;6kZuU$+AI%i0H5&5xOWNujZPfv|cTnN5!qvnORms++5`y!F)
zt6&b}bcraj-XQq0By=q2VbcPQPf;X(8ts<Y7fwJ-%)y!kPY<@jl$cn+NX(4P<HpO3
zFWIGjXt0G%NER77urRZ!xML(PscwDPriPXI)K*5-7FN<!gN+v>nhdrw&<|=~d^uSK
zt<FHYt^1oJw?}^52BUMKxg$wmDDAFH)^tnmZpQje7yEDRxYhR9WNxZU*Fn-26N$M9
zi#FK8Nq0BasnUvDrx$iCmvmr}_cbhBNp|d^3;hnS+THX0w^|l%Jg|3t>@>CSVJGV~
z2V@ObX3(D-$wC+!d@zxIuJY)8ZpczqW8q@6e4YX#pk~OqpiAf>Hevn-1YPm@xF$gW
zqE4ZbBJ<Zs=u_8wApIFb83@C?HYmYJFw|tkK-F2Fv)NP6=%zT3uYr69Cz8!t;zSi-
z&twI6>2K&0sIUgv%JPL;V^H%9RuvfM>loOk$)H{?cfHny`q%O={rw7QycqNdeAS-S
z<AM~a&KQs=sptNfIkc9=8@aEM4vb*EqZw6)iIEm9ZYy``Z$3*Qo+i$jFbM@5-(q=G
z^AU}8t?QNWlnB*&<T}WN`rScwCef2=lupP?<YeAFlgRlhF~o9S&bey7YBDA!-u$-W
z591RzPF{&bqV3A@N)Zm37Tc98GTN`eT<m#v@h+rcB8u(;k$Kwbbfy>>pt~^;M3?ch
zI79~n4biU1$S9U8V7P*2RtSR;n~hDd;xEB<qvGiFDCI}@$Aocv3f(Xh8^e{fV;9@o
z+i_2q7XQW%&P>rwvZOT<K_Vpuj9LdH6PLn~>yXJAjp3$cnAj#$ze;}eF^%|inq=ay
z%$~4nNm>YB0r8+Q7CgA`m})A!J-8nhH?W+E!5B;*j9sLvp}^5#EK02t)qEjH3;Plx
zt2t$PH9T?QA}ofZd|2Fu@X*DHnOJ-9R2bDoFid@qPLMQ_Ds!ZeVVO)^s9d~4AURAw
z3H-opaAf*CtQ1UB_M;Jz=0}m}+#+F%0uTZwZYcp66zJ;^70W2npV7~s)6X9PxfK%-
zP8OYAcg%nzgCZ~!869H;GG-1!7dDc!u0>@hBO@tL8kwGn$$7ZJn5}L^7LyA=dOXFb
zc`$9PoR~#bpieHi22%|)j3g=-5Cw$FM&nsRyMi!^muwENm+cch7`iun>nNLgW7}yJ
z`zopcIxcONo21gFRB4A)+5yFB+mljLsW(;9AeA&M<387dRYx%dnH+5oeYH5y78X1%
zD04s@we0O(zrJg=x&!6{QgvITx-F@?y;9v?QX?&$KaAC}qA?Y~MXH@zgmir<RlilL
z-<qo5C)Mvu|9{ne3v^q@c_u&t1W14cAK?21zTY4vQ7@7bMTwLsQKI#->{xbaihv|a
z6scU0vIJAH+)Z1mQ7WoQBkDA*>1|F;Z<Crnn_bgwTFYr-J59I66(9pes5RSqcl$Wq
z1BrIsx@Y(7_s`r10A5kD;-qJ<sJVlC=g!QXnfuTG{-GrZ(u~vs*OFRb&b1y;W0kG*
z-NDvwv9;S@(KEew5!~gzYkfXPXTZLVg^gV&7OhjNyxAJuaai1O7<grI>#{DPIA^-&
zlPc<D8`H%q6fK25OHGJ~VMeQD&l`d*+eA{WBBNKoy??4_5oYp_2dov?g_AQCovB50
z3OBQdzSN>EXL@|*iGU5}wIx&CSN0%^%hxBT3}3VU%STl@yW^hDl$yVoQyxh$Kv&hQ
zYgscl6iGH@uUk$`%FTpcSYCc4H7O(i-y(@9_~|DN)I%MTPd#;5V}GpQ*_im&_O_kY
zgm<jTJL`<^WZQOD8sDijQob$`ci(9=?p$w*+4eDs97X&KWTN980!)H0E`#bzB$Z8&
zfnqGur)B*i19NQk^x?2WONYu81@<Apu*hZAGqw<``b*AfZ#U7Vhfp#EB1tRV+q7eF
zl;WWaZd$zxlsM)FZ#D`<u`j{p^cEdt<p}1;00qJj`a}s9>e)w*7)B}hJosnMuvO(-
zr&#6y2-2gh2mBE!5@rdWi;*KBa(VO<E8<MY-gePv_YB4X5fAx-nsxbYP+Q(e^lnPX
zN=%&O6#NFYn^!w$2-a>AYd86GH<KTUw5yiO&`)0*Fs}=l?Ll*yXfB(re5L;7`i0hD
z`(CjfCSGN?&HEUB$hgbgiwyJn!kij;h79r~;7oWN?dHqJkh>q&D70fAG^lif)`DT$
zt;$kSTR2Y6ZXu?LKX6q;EC~Bp>J5&I#?fsLYEcd8skOvZtW;AiPqTex*~5qgxIqT*
z3&iC5D08T!f5(2A#z`*24mRQ%SRqC>M=qnDm2ovk^<Kf7)N+$%xL8wgzR!JJlcQRX
zUWZZ#U{Yj0p73*QKV|jy$w~FkwS9}rZ~|+I-0Z^QTw3c;S5R<Nbta<jYRr?%h<dC<
zgg)$Oxr`4esZjEd@V%r)^|nZT2RS#HaQx@Fs?wrb*BGnGq@U}WwnaI%PJwG(GV-%A
zHB*QD{^}WyABp3D<6=6#RGy7Vg|eu5Dv!Cvew?aWc@2t-io;Eq6gnQE219fWkMO+d
zXM8?g%ZtL#Txaddv2rOY#-J)yNcXTKovvlz_%ruYgZ7Q7Gm84vGGQEFE5D~q8EdI<
z$><*pKQo{Ll^Nx35hk6J>5{v}EaujgWbknZ*6XIYOZchAT-EfBpvSk@CO@_Mej@js
zxJcuj@-r|D)im40_(<?mQcmxZpHR<GHU?D>euIov*yH&m@xNcNYhx<|Wpb?-puEe%
zVP!tILha~E?S1$JjS`<ArC%6AMa)O#-&3cU1_-k?1(p62V7r2guDX!J1zMiG#E<Dh
zIX43P4qg2&B`>kElrX~g4=Bg1Lcd2jL`&4Eo(%<rP1G?jj9~-pZK9nPng(1K5P)<n
zY&|n5oaR4<hXgl0z#RHP0>{1jX*n)b6-3A}<bZ49%$W<4UqsUGi_%MAIwgeC3%`aN
zb=jPs`yyRnx&Re;-zZ%G8+<HINR9>}cK0w965&^<IH^jh{R^jXpPUq*hB+S;SciwH
z5YsvMD&^WKxkAZyB%W+^L1O&Ip15o~MS2lP%2yE4>a7vN=0`A*mvqdt5!vLx`g3ac
zVo}*keK-0-h*@$tSllEQ!;P48-u1?**H3YaMUcqFX_xnb+{`a|$#TOo`_%W1Z&}{7
z1oFCrdAksug*$8V=N+Dcb1BEvK3H|moSLik7p#LDgxsR*&tH3fw(Wb5zj5^Sqk-J6
zU~adV+kNx!yGP$X>d!p@T7kS;<;)m@d39o59Xv2~zS;@OLiTFqsCsGg#-y)ltFN*1
zhZFBU|Mv5N(nG=0BVy?h)ias{F0hJ-3@K)<b@^(DY5l|OcMIPx4CL+$=I$4B_p8P8
zQl_kG>E5|h4=N1)KyKdjp_xtBz6cIOLFr44HyYuzjzxJdo5`B-iurZl%YLKq^}>L4
z%gr@^-a{V0FmQz_|0~6Mxg2izj$S_c)n;-Mm&Y6SUh~4;Rl_R7l9hM8<66foY-ZPd
zKl`o1Hwyz<J;AJAF-x{2&3b&wyhx6;K<2Z*qJ|Jco<eH0X1(MT%Vs90SP<lr8Usx^
zb$Z|BeL-urXsw>TI6rvXy6MB1YZvCr0@l_=bL!R9%Mdn|!_VGq$9x9pxY%o3f)!iD
ziY*IY3YfdJ@0<&mcWU3!d}f<ivF&DAz})@e&)_F3g^2)3t3nY&e!KjY+LvqR_RMvB
zUwG^Mo96@Ny>JZ(e;E)LI(&|e3-;jV-Qwom@2$CQ-M5sPbG`mreW;*fZt}e?;L~Ik
zgHMx{Hnrmu__OQRe`3Ou@I+Wu`^xT@cTX8^o6G+7ULpK$eUeVMeb#-S@*+Bv`_xm9
zPxmi3ryR5!L}T8;szk9k`(VCNTx&-DR=)9IdGf6i6XmOn2c4!Ef*0Q_CwMO*^PBo;
zj)@kl8}=YkR${8duFJ4u`5MF-L>PkgEp0E@wg6f9@!;AnKy?&;27UvNK=7rg%t0G#
z0?taq8KiL+<7O67u1NqE&Qi4egh4r?S2&X^1aZbB5A+>QWxphiB~LhcU|?uu(Bl~x
z@X#<2)VsuGUM&E;D-D0++y4UscCC04I**v<7&ckzWfNEtA#16xY~B1b_(qdSS}zxQ
z-^^`#V^~+j6`+Azo<hC%<2`t|5g~1aafcQcLQ85zI<{JSI?0nH!;%CoUIYa|(z4@~
zu_(ABNnk4Z=-WjDxCM&*M9Zv?T&2kP4VH;Q#h=ok;N=!z=16R4cDNFN<FmlNaxKgq
z$`{eL=>aXn5`EI7E>VmIX~@SNtc*0u2nSp!-_~+(;xfRrPg>}D9n6<By{nya$aSb^
zmlYn$%*;bs@@HvdGTD{H)cVWSy5t<c0|zcClO{%2lVN40d{;d~F8)KJx?!+rA>$s8
z{z~%dlB!ATc(wezCf09?GM`EX`%?pppG<`*fCXy*sgK~0BsHpk3WhKD2&NyzOR&;A
z%d>GY&6PX}V@uXz+9R|`MweO!PpOm1Xe;e_0$k-wtAuG7*g(bFUSuJ`KFfSwdB*^g
z*(-z4XTRTEd1$Vp-d}@~`;7DRNHcK1@o?!rr;(U|36?@@Y0+0QG<ayJk?{a{V8OSZ
zF`2}S#gvU}I^oJmroEBc@9m(dzQZHLK;Nf$pm0=q9I`VUa%YY}xyPaTOtEB{sR2py
z&bmELMy_~s5lpp-N%`97LFT{?IhQ1|qb0-@uZNI345s{_<Lup{-5hC$4<qR3Fyw-=
z_B9%%zbfb2<Bp>q_mJlqCs+0_<}{Kb@C+xPJTB>a2=Ahia49L-vJNr#;!L%iJoG`F
z23_0n3*7IWDh@D^8v?kWcMDVxyb?eFcZn*>;+`?iNYnt=QCGHcE;#rdfJv^R{Y^Z=
zw8S~(Mx<IeWBAM<+yhFgyv$L%;?swdYj4x@xfm`X4@q4nr<gX-1@<z<u`fe<#Zj*k
zHjs=koUx)13y3O=3v;MGoXdI+RT@sY$xiS*%!^3aLQa3qk|Y_5`YC+eJi}f$S6xqM
za+Q-~BM?i%nH>x}On9E@BI^gk`eWfl*fV%wWW}%z!Z_4}(^)y>R-MmqjEB3bIKicM
zu{Q`MnZa<7ll82it@@U&8t&~tSU_jiUMbougZ4F|eNE8bF526tlA#cLz5iN2Jo(u2
ze6~tB2}inAyCztBK&(9g$1zJa-NBkYV$Ggl&0f)3G1cwMtXQ;Wl2hqWdcSY~VW2h)
z$))<MM0=IrUNhD6VR8BF8ejFsg)*_aJy_fUA3W(f*Dcp9KB)1IFMJ`8zAIGk4AyTK
z>$gJ;2|vp4$I}4+=rwRJmr=k}i+gUT*N2KWB7`LKnnDVfV$nfg+X19hU%pzZ1S*C%
zMuH_RVo3`;D8rW!Jn+@dZ5E4Lr&Azktbjwjwm^9s>~eC;W}ousHiOJ;TtiNHLq)Q`
z-zvOGV}UQP7NW|{+x5Xshr~^X@N=$kuHKioeyO27*sxV>*t#(O*7I*Z?{DbCy${Q4
zUTJ)}ao#xh+(Loayu)AKJ!1+rubVN=T4qsKW2n52gi&*cUpxBhQGfa78PgKHK9{Z+
zOV@{r8bi*Fb4M3ye2v>dvN<*^>k=IWHw-iSnKkHxqip5^nwYt;m{;~v+Ksfip7-<C
z-fPlTv_~p*C0im#;1;MNSh68dvSB)9v7+{s_Ltj3_L6VAUpf8q=>>Y5N(`t2Qx7S0
z#Rjor!~FOg&%ge>zhVb2hv4HWw@J)x3fZB1Rg3oXoM=BU^O^z5nbdw>{`3VDoW7t8
z_50A`%+{4|{3uVCYU7^w0#?UjW==4(Ld>l2XI4$^P}as{po~K4S<~)o76`~w)9${Y
z*VXQm{PRi35<UZ+j)Y_k?ft*F3i^Xxq~w$YjFk(>s19oY{;}5ip@rtk+r<6QU7$a-
zr6xR}Js`#M2G8s~EpnUcnZ>WPs=wtNwn_yBmanPGLaa6o)u~JREBo-|{n{bW5qF@p
z7SgP2WmjlRRS;(_zZUXXJ@l9+K48>9DopCxh6+$b2YXuuiRRZRbs1z-O;7G(js4yh
zb+c6!ZdTi1y;*E;C9urB?a;pZX(g{_<t7=uLweJg&WPg}f?*#64-n3FlzmRvM4QTH
zO4wG_NVzxAWgceb*D3d3DVe53*^-1`!B5$rPA5I{B5hf_kc;!DV~>X5au2)}tAKgA
zkQtwh=RLFok-01Z-x)CPS|pWds6dzb(<{h7C=5r|1`5`ax+DYGuv(b&2CN9on|}4N
z%lJT<4F~~NVon?uH*;VPh=Gc1<s$t-6`lna24rFSA}yjFn#52XX%+3Q2-5&R_o=$V
zbx@B<wy2sRX_>*aQZcR6pH?=NsPwUIVaLs?H~RwS-jLbK6^wnA6g7CI_9n@M7*OC&
zJ0Gyz6rWBHy@2mS18aSD^2Y)CSW|TafaGHUlEiVv*^QP)Bt8g)S40gD{Q*aLOEW}a
zusIl+xI>$Mg(?ab9UbiB(~zj5=UCdH)K~9$G$pSk%hY_QD1FhSN9cW0T<=Tyn?$F;
z+7;I%n0Mut=C*;5r3etGfJB7pEt4O>9Zm1%^5{vl@i(E*{V_age*$1yB|obrqm$Rm
zL$5{C1Nxo>naxUIN-9!uhszWLOwIk?b`_Xv8Jap)gR8G5a3P8dt#HB15OUr!4QSiw
zAm|HZ8#?P%E@2OWy$=BPAkol*r=wKk?@+=Zt17->LK_l=2sKniEhRsopF|z78inss
z?kFX3AlJ-E0Rp*U<4F}Gw{k3=n^AJ*ACny2i9uyzyU9p6N5LJ@kXdWoR@g^B=z&6l
z*sT~5&M35Tt)&A2^T9ZnEkkf_=;BXb7YoM=9WS-tXeS}c<G%EYx$f8cUhP{L4|YB&
zc0LJ&k3z5zzd19C`93*+AYk3dEI-x;iq=k>Nv_avqha>s_uOxse*N@&m4Dgr<Ay-N
zk!jOndiM3yYpLAcWNzbpS0EjZ3bCiuiRpE7jSHqg`ZfiR@4Q*?-jjj!BiJqMMc?ww
zw#flQ{H0y~tggSZ=iklH6|aMp3U-I0N8KITZkyXz?hXpd*oN8u#i5LkxH~-e|H1B{
zftrCoiv>%^1EH%ywUYsqyZ{JU%%21jUn1w!^Jj*T#s@%1BODd4gpdk^S6g-|Zc`Y#
zY3lc`S0UsO*ec{!o|{;&3LAxe1e)+)_i2U#4`boq62ZTW2f)7{poS<Wh!*^#dg5W7
z<lmH`m;KZeCM|x9atx%=_rXCL2WSP+@G15+y>+V~oUuh)35dOqs-w_OAai>k0)!zt
zQ=T)B=bY+YltEbj%z6Y=o2z`S;njwP!@(^_#4Sfw2Vvx^xD?LeXRQHilY-JV%sqMA
zx&cUNe)C6&0`_x3LjMdS`-=lJK+FD$QKlA*H9NG_L>SenL0>W?Q-iM5Mm?jDOhSX~
za*OI2%<}|z4_D|%^$yBwv?Buz<{nr>`RtMFqv-M)NbDo@jC|}X04nNz$lo~`@EQ2E
z2ZBAI^fHnNu=i7dJq1lY<xuODbDtUPJqR%*WuBE_uR?B5Jwr7}0p*~wllr}FD%gv6
z4#M=rS7T^1*msD59VGBq6X#t76@W3Th4}pdU5WyC1N2jcc|W3`jNki1%DqF$-)ca=
zC`^yza}tUtxyC5w2p>s#wLD>D^V@O$FnEm5`{0A6(cn|#ZN1J_V5mm<ZUUq=c(W)#
zx<6n(5C=##foAJVoi{pt=?&oDkq!#8R3RG`1Y2VP_)>JR`)}+M8^NB<pUy)lxu%r?
z^Xh@L!R(~6L#*sr_`<?TU*)b~<sPw8j+9sV1o=#W`DH;cd##wgHkiF$%w7*|9pH=p
z?Cr1`Cs<q#*VYIN7)q}~#6~zp_$b*3PB5YrW)XMTmnT8yI)cpgj|!PL-!`|cL;w{v
z{REJ7zfj2hcmE!c*_DVr;p=D_-a@TJu#>J9JG4~W0o^p<F553O;5Eo%3Eo|#s1r%5
zTkHEkNllbaC8tl7%Y9SNlL=6IbjZK8gwd*{iwsdECB_>0DfP@?G$0Qha7Q0!=y~Ng
z0f+fbr1xP4M8oZWKzW6j))H%f?r>Y1pl?z-tz=>e`W2qr^j9pB8YM{m%~24Yna>R{
ze^C#M%+@9Blp=*IkX`sOI#QSW2#|au9u)qXKsSwDI0ZJ2i2vkvyDkWIm^fxQ7^Mcu
zsQW*oXYNnaa}@UpdYT07;bO^0l$%+Io`J0GI1BX5n~@xXVJA|2BXP`lC9z);1Kd}P
zoVRH;*uJ9pAc6L+v7jA36!w1(pdGF?N*fU*qjl?i8bYwDPH%`COOm~iy$GCHG7LoA
z;pJpw6~sSfkbbqa;T%YBWNvc^oHPC{J@M^hubh1O<h*&#`@_t4^WM%2RPTY#T8=C(
zBwp`)k*{-qz<vPgX1K1SBn$ocs30E9HxQU_d{i*M>9%?ECmE<6o=|c!KV{)1|Fkiy
zr`7bMR%6dri?*Uv(k~kN|Kq<0^dGn2(_n`-9pEApofM^v1`e-6*GIsX$v?H0f|MpU
zzB=L0_5p>3e99sBSv{*gjoSw_uv+W`Q7UBd`@m<~1O5qnz~{@<eGtncNt0!v>_h5^
ztiA_a8CQ3J4eAaM=hN>Yco|#KBGbYbRQUfP;MjdwxIducD&sZ|lYfiuGEDxy;GXJ^
z2lvrz4aU(Ra37YidoJ74=5G{6!|=Fw_tvihz~jokK+v1?@uLv)y#e#S&jETvuK^nH
zVBXG|=gVd<e!u6fK1jj}dxM32Vxb(nx$w!Uy&<>|%W#SrBzWTvjwH?E-nq8#AAIY{
zH=hiY?*x>FYaciVlHH9xJ>LQ5EP!-o8dMwNFz{Rg&2Z}TXuOg2x6K;>n$eyPi3FP0
zWc6$`{%E6dr!F}LG-Cj{+^!p=$aGk7jz0iUFtPE6OrlDNpCa5>%Mmg`2a{)!gfQ-i
zxlbfQ+!1r%5_c0nW9~zlIsS;bugJ{QQZe@xTUo99Fh$2d8N`7XsgFnQF6gBXJHfjr
zMHWx&S2TlI$WxM!dnS&7ls$XW!@qF~B{od%EMj!flnVOmlEb;t?n^l_Olr{{j+OOd
zW`sUU4p4HKlBXycpyU`OU`|0<6p7?PH+5+6?DzznPBLNo3RgifcfU?w*m*q5ydFYK
zoLVQQ*3DH0;TEjE?RIKAqb$j*Rsg#7L}gYX%x1uf7@f#d@T&j<fK#5F=7A5$@-3pZ
zC1734^39^PIbdDG@{OXkF<^CmV$-E{1XJ6^)ONmnzty#7drsmHa*W$cP1+8oT%d{W
zr-F^xCSTHC!Vjy0E#!_9BFYXep+dBl%d~#94XtVDm&7P+ud*D^>k&sL;dD2P%3_Dp
zpjDP8D9i*+5w(F(08pN*_nY)S$T=29j}G>sDzqxUMk(k_#XK`wsauO~l|L$|bt^)O
z&shmO8A{kmObPolDSEFSZAI=kxQGhxbk+Aue!$o!!GzWnt5c(@15cV^)@M=yib~O{
z4uud)Mgqq28SAQ1ofSFfGI!7%X-AAC#fcWVq<Y3x4TbC|fxGTht6Eyly+}U#o8@2X
znVIr$P=Cugl-?xg)w9~lXIUW+J9}tTV~kF<tL@9Vs2SfPU(<@JqLu?MHl^RY<Iw5h
zvuBCzdd3YmKNlP@XF1N*jVZLI8uZQ~g^=U{t)l~RI+-lWdtO#Z9vXytDs}|K#Xd%R
z0sOE-m)8qdK}_O5=r}gvf~zIR*m2TE=BO2X9wAOPZ(A;io3getm1PQ9gXf3OOq_8X
zcMlTKcaWrAidE)aAEmD>cO~j&&=1c^R2{FU{0%J2aN_uxvs`1@!8MjiO8~06io&&|
zv<%W7!$pBGm71eC6if*?le|btV>Q6vG+ad2WR>Ot8U<+Oo|iPngpIVXkuW(*>q|>>
zS>;b`r`{RJow)FSk>&A7SJe><8;3^RgF-mr#8B8YGzPa%L*sQRTx;P)i~v_)R>Fiz
z{Z8XMwA}MBTydYLmyc7}7T}0cCots)iNP(uzvR-GBhEx6%E*N50N)}_`2bmV7Q`XT
zQTJwP>;5}*6kE3x=Fku0PSP@Vh&D&iwpO&Q4cfYI*}5eq0XRs?uKMT1MCgdI=!g9`
z`r#)v*Wt@;^rbf<1qNHw60F`XR&V!Lcl+$!)BW%1{aL%gdaiB`R`rQheg3L_)BSKH
z7;HKsHXRA&Ro{g#+Z>;ryx3+J60;+ckdWVkn(}Kxc}^7gDAkmm16#!Ab=*NLF5w3B
zi<|LS!$;}NiEEQs)Z{N}p6*$+7n1_?obk5Z8EV`Gm5M#D?g=*T5*v4c715LvDp-RS
zoA78IG%K=8l){VloS?lLflveX+C@^eYY+<>`~^+ZJ0$N+p}faJd4)6X8x}a?%+3J;
zklh-}YYH`VA&xeFTXk#JfA0&v&cpuokNaDWOn39@W+z0141lRv>Q&oin`E-OPRv_3
ze>k{)zqo!sgrvzSC;%kLQX*PPe3p73JCZ^lBN`e-Fnfr4Xc5y}AQ)g=dD-*~f$yT7
zI5ADU0?}L$G&@AIBf#!nO}U)%H7oa-Ge-;EMlSLRrbr)QOw>sQ=U+n6`yoxRTZ{3m
zc?xCY51<|r;t+jD-P8bzqi;z0Q>#z{V4GK}zCRzZ!NPD6s0&z1bO3dMg&H9}I49DE
zc%>TlAo{vQ?<)#A-Q{w@3ETy!`U5l$l0&AZ36I;+cSH)03>R-op2fT;APV>G4(^AX
zKkHPg+sDlmsgUv*cZTP2z?kGLthotxKC8lW7Jh)ui&U<*?pdX}es3Otx8O#XJZgmu
z<inxbpW>B-ZAhXfm-W%38hnI}F88sC6Ox^!KubZGAV5Q=<KYa+n>rf-?r@ZdHU?j~
z-a&aZsWBvgHW}cBv7E@!9rir$nmCB_;773bbspLs0EjY~s%rf$Tm6zX^FwnBL;Hz*
z2w4j`jew62pG%6)xi;9;D>n58oBGA3{`Z^qlTXq;zPvipB-nd-uP=Yy{8PTJg8}QI
zP-T<P*(p|To7z2n>Xx<au2JVapb=T#f<Dl4S+2zrgcJ&c!Vj3fVU*$z8S8TC2^SYE
zs{T4Wkx9=Y46Ej|u0&djT6*qUrkwat6g*w+1w|AReoy5lqLc<zfvXx?1-PmuJJMAB
zL|F|UB(CPDeUWoooJAQw`aDJgMtYyac%IOMFDZ>^bl_LKlfuoE-$+~K2_?037aZzS
za!#6Q4SuIQE?O#8r)%*|FtbC%0He@30DJKVfFbZwC@QP#G*MH5Rl1LLO0|-wJfqw;
z)@P!Y6H~JK)~buY4FjK@1|9ll(4G%wybJE<MW}LVt#ZgFjasrf_8hR9izf8I#AsAA
zXrUx6oZSn!;Yw6T>b~Xh?Osfda<G~-u24MkW+eOsGpa%H2s_cX2BiaYT-_-Ribjd#
zr*Th<)<Kk1xKxUIlQhhZX)*<ltj&`aq{+V>HCGRCMU#xaYQPEYH^5cm5yu@er4KXW
zB&~IcxU60BBU;fPVSJpb8jhaok;|%QjGKnaybLcdrop`w^k8U(!GPAJdL;NIJu|6o
zWG1z{)cWKco{D0?Ma5|(dB+~PlzKk3SIx^g%?OJ+tq6-zXodE=AxFgf<$BdKzF9y5
zM0PzSUpsYJ&Z%d(*V3IjqW+e1h&xF86AtJnRYAt_1^!EAbqX8DNtv1*@;83!8TpEO
zj!_0(`2_L*<BsuX<qPs$fz6q8A*s&l{XvRMgX~r)Qx!ouHs}G32-DVQ<B-m0RZOW%
zfO~YM7OE|-Y#Vvpg&*_@`21yNvLK|1dX@32Mj%o{BNK|J-M%9+wQ>5HNLxb2+`zCn
zuBH^?R=qvF7mmS8J@?)#abTIFUSNZxcm=gR$M}V_ZpR?#WpdmJhZbkYgmJv)1@}0o
z-G!$xT;A<+{~R2jWA1=a?AQg)1~?1Ou7q&H2XSmwzzl&(Is3h-q>PX8IO!flkS%YC
z5_{Y=d~TR?hfyE==(6|oraLBJX)8Dm?cdkU-h_#P5Yb%Nhc5N^*R2sO*b#*12=UuU
zxi(5@xe3JQ;M(|4Q|>w?^z8^=q=axZVU`kFTEc&(#6?LGRnUVZoUY89gusTA2{DB6
z?Xe4C1JmOFDwVUHCBtC)jT;D&B}`F0q%y&M7(YR|J|tl~uSj(q%_^y<TZ}KDG|23;
zg(vC3?@;nxN|?~fOK;jmKX)SuXObGMWN$4qA#x~E*YJ=WW1TLKyU)Xbn4Wr(o=Rn|
zqv&O5kukT_0x@0%!lS~Og8KyG(;*0%+#gRkkNk_A978On^Dra_<AUtT$wRV00I)8d
zvkD0R4yVaau_5t9q450eSwEsmF~pwF8$;bK(jc+1VP2+a0K+C}QA9n-M~P+)(UahD
zS#B8I45B+c^fvO>ET1{@pQS;jc+2CkeT_0nK&CxU0B*rnB28ztO}!AbIbn$Aw=~Zq
z4#~R3Oz4|E0oP3wK%U&>z!^^w$Mq3S!|DuLJ49<o(7H>s?gDq>>I;`&xR<C;Ed}}R
zsE2#yV6jsycCw&DWG@`5X$aP|i8XDqMqObkso1d)OpRh;W3aGYENu4|ZdtNd1nuiY
z`?`6=?AQ>rcZ+tA?2n1|$Dm|aoC%&qHjJz9SD-TUqwG{i+EjPIS`=|G_dyQP>fj!d
z7!##bw3P;J4Wf;Lg4mov+ZNHb#c%5j+ImD=552-p1gjxp27afJHR}qBrqV*C&R}V0
zptN)9vBj*M=@){zEn;qqKWokWfm;-20Rt3DKaA00Ar(M6b@b_j?T?A=k4^Q@bOsAs
z#lqJ417hLETh>jHWSs*6ajZIL3k<?bnt~-;ZkKGC>JJsw2a7g|MVk<MsiZMjvgvlo
zCMcqmG|oLGB4-KZmd`%J-B*jb+iwou%H8El-{s5QMMl{Bf{nXH{1xwpm2y_`%$e^z
z6Ub_(!M^w#7eh6z!J00yrfbF;BD?4gv9!Zi+Uv{fMH)iDrSeX(yfavSSS&w01Jmh-
zxf8IQUdXsr+J*=c`30ephPl0STM<E`ttM3CoE=7h2*i*m?$RTOM1Fy<v<+;c>W*Ml
zzgX2D%7ZJis$gD=nAgHGYsI{^EYmFJHA7*hI%m2cZ(oeJZ5D|+^dYyZp8N96#{(68
z!HRyd0<{#8doqk@WzO_o%tF)V>D@D@{PwyJ3z~fPrhA)p2#90Um2Qo|tr`VVX%@}R
z^T`XH0dwDn=IoFae~@1liB_yyl2!$+J4Gw0R9@}B+z)mQX4neu&ebiywq+^5_@$C>
zl}sBK(=)j+cs6^^@LKY#$-Z@aZm0Lbb5ubs7Phr4Ku)*H{ML$~b%SW#Fn=Ln?UFCh
z_wfBM-nQ;Vx2zQ_wJ8nwh6ztto&l)69|K2=q7|xuchJ*u$7(DYt@0Q3qdE7fNu&1Y
za2u0)Rr5u`&4<Soy7rWYTr66;Hcs%19a>nX79FdpL8D)dj{SX%Djm>O1ZAe`SE`h_
z78MEXRC(?K*+wV!d!0LogY4kW2_+sAG3^;BcFEUigB*gN3+K){8{31!S;L-zC`LMy
z({iWzY)c#&96d2X`zyb}wpI%|9K}~>J0uz9g;U&!uLs@2K{x@)5FoHP=jNJ*tP^4T
zm@s^T0t{eFbh!t{j-3LVJ8b4#C;|@pQ7;@h{x_U>m`e&^z#EQnB90A`wnP4^ocHK0
zi`zU_7ID$u@eS0?#LL7XEfOt7K}*XmOAC3{f9l3l!QwWtxXoYO5iH&=7H_}Yza(EL
zr-W1ei<a!^(Li-iz_L@ZG3gChcPlRKDiQ6De`KNbl3@Begq-rHuLoBaTaj5;(>T=+
zulbAChM=`ow6@OUyX%hFbk<#*fg}v0cZYWhr*MklqGD|MM@VZIA0Zs65jiVGx8;(N
zM2-S1V`0Eo3Id}Jxjh4}F)7lbhrVI#!EF0w){-l%$+e6bCuq!w<pY<Ewjv*PM;qd=
zH8U`Q_@rFLF(wLSjL4iCWx#_ZbN2-vR3h$B7q}e3H-Y<zS;Ff{OGNlB3`_L75a{L#
zkMgv-RLiXk^g?-Pjb140s`s)tXsZ=%wLU~+vmq|gR?gV|2sH^`MEx<-Kpaf=I=_Yt
zUMGPjD*g}(q8u!1Kqy4uMQAF7>XBZXT&Eo(i7I*)f6zqBkV}gi=g-y|yx&Zb@hcu4
zgNyRcj|?^)7lz?g2C+(xPmB%`x#M&kJ_-6j{>g%ujFBV|@mYu5E~O%mo5HJ%Q<xJL
zBIQ}g8=nKh`Ya1-GD5*eKo~@!zYdBWMRbKqiU~xsAI5zBgjS{LwA+0aVV=P<CN*7#
zS%;GlCk0|Fp^&bGX?6{KAuCf5PJx(862`^4NnlFIE53YbRYqwzU!qChiLT(w2i8~|
zwA9?P)GWf6Xwi+L+2ix&3$8%^jwuSkkzRm6nY43C_rU8#P^n=4K{5XzBE{MAahtFH
zG~SLBR@f7>P-rUILis~v9&O!YYPBUAv<Tx4$R-}1{hP45Qi*ExbqL#v_hV%}>>31(
z%n9Z3v9n|d3HjeKiLf0S6990}j<I;mlFZoYcpUPML3p7$4=NRO=P|dS)CS5~sbSCq
z=`xg-u%1RiIGw{%9D_`Q0y(RcEgT;;$s2`(Yc;9s>=27l%ZPa14pHW6{me5i*0IZd
z20J1rnHk+Kd3z*=!VZwfO7GaZML?ls$=j661EC15P>PeLfD`uq0#jBbYL*-VpI62O
z@oC^^*X?!3tml_$l~efKxP?rWcuV58us8+8uhA+d1`iW$K$#n^S%X<EVphw1jz4SD
zl$i*c$;*?RP6%1;43#VvvEHrqqP0GhQyI)@6muHq4*GLi5JV=u5kX`qbR@7!4)*?;
zK2w{P`4a;CsR!`|+44S!Otfr63l9Vg)18WbTB-+&HbE7sseVCafS<_WgYh}6I(Il5
zBCe4OFccU(1KN2&ic~BMpQzu$D>SwYYWxYBP`q|ZTOJvUt?=3zZ-3?fZ5m_Z9Du$|
z*QIA)eg5+EA!`L2N#?Hh+}sN{ll&kat(nWFn8AzjoT`k_B$}lSTWhCq>1h+!-bMJm
zD1NkF%UVU|$|2y0GQz91_50`z9pD^}5kFlGPpGxKV1A6$L(-o9<ph`RI72!n6S+3^
zFT-UC-IezzINU_-TrL2Pe3B-ZQ6k{L(o<8yRG?#)Myy>e{CqM=4K$+q2eK%=Anh?G
zQTP&gy9R(T#Kpn7kQ{^eAQw&?9z9-{%pA>;+66dq!X+v}XlytOE9<#ok9z=^>PZBH
zJ~@1RJZu7NBZqwgu`(&}wC6PNQmEmKgpJ1$&SqSWw#Zf=TZgm+$)zj><c1?zG~!}`
zt;6XPqi5k!h?rPB+V;wzivI~6_EyFL1I_hM;SoH9E(0WB@5-Uif2Qm53$x9^@{MBo
z#sxj%z2365`OIxTTU#iv<R$A3>u;q^r7mXVOrN_xd2MpG>)H$NXVgq}eV7h)Vdl%B
z8IIZNJO1#%O~b+yVtvoebMLus9e(`16K}uZPk$nmnMI*-?MoS%cTI_oEFU-)a7Wg{
zqrWaB_)FV;9s3qsZ;ib<<}2;T?NDjs+ySw)Iat~*mLf8%<J;@!vVXT@mVzXM=dlm*
zV^K${F0+;dw#9Iw&0tZC<}fX8BG#7MkX+|pRFR86w80M)_!3BgPX;U!CQ04~U*$-1
z*Z?HN6HYn}{N{uw7FDKV-qN_qaAPk6VWOxX{SnPW3A#g`_3Ed_IbK;W+Un=JeYW=b
zouaMXr{%2T=ka21p~u31!5WHv5xTr$i{UTA^nuAC;h#jmN1gm0b)pSE(XoK$H;8O4
z@y%if-Zuv8p_gIX!dKAv{m^6JHJU<K<{=fHfdLi_@$(9?DLNK^$iR;&k`lm;J63<j
zr3awV^kod-c!miLP1+zzO9XySFX*onJ$!jt9H{~`Efxc|Nao2`2HV<WGs#pk!9LIw
z?DM;m@R{UI#aks^8Dl~(jqw6VHo%x)OC?vYC7xfsS3g5-M4rVRpS@SdK~#~Pf`I>F
zCXuO2<tV}!eIGx><**T+ImZTsA5p$I3K!sNaRU-|NFN3lQv4eVa(Mv4sY~*JJ#_6I
zB-m025_1gXUAoUU0%oi73Vw#Oh9&?p7=p{3exly<!r$SMu!Z|o1<~$4?;+a+nV6Gs
zm%qW|-j+BR1cVp_8sr`;E$j!_2mLmE%=LJbZ4QM9V7^H#*feDe<rG~Xxi)gyGG(4F
z!?r<eNK)?#nyW=~b--N9)V^v&b4}3PB$}H7=H{i6QlGhyA&}bxIb`E)%a%hm1dF$b
z__J*ZrROoXa`j?CeXyWSENENUAQo(&>RW8x%;OV=(h*4jJdsv_{`FvY2d%^}nLP^4
zeQ-59w(02->F&?<iPlZ<k3I{feiSK<<mz&F=p#jpHO>m`o_o?~-4L{H7Ok5Xs^4mQ
zv&nDmWoR0!@(Z&keZ)LnD<byxhBvmnzQu3tVz<dJf6z+G|8qxPd*;<={MPnJEFu>+
zD+-lagwe-oQ^tV26igNadE^}SeuSPP$EURzcW7e9n#A0FK5uXnh6%%ttCxOiIcf)a
zCxKVu9cbzJkRACX!%Vq;25DVDQ-+7(N>bgysoYVtt|f(+-WIy~3P^Doz7nPJK1sed
zG(L7*)zF8TG-+}|O<I}-aJf#K5sq%fa7PAL01HXpj&2IP;&2U)gFc1$m#eZ8!O8WU
zB`3QI1<F>0B+BJpn?cqw5$6A)Pdgb(x6IwKNBDKTHUl~_2n>z+I{aU*Mbf9!v$gUJ
zR?pK|Js0)(2VbJ!)L+*_7H>6xqx;>&=k!7lg=Oa6`)EgCa3q5X><IsWBv%7t38JKT
zeH^sVaKG&A7(t}n5zkg<2iZ%XKPzngh(JaqTKzi;TM*GD+f(iuk{Z**^cr&f>dUG5
z2vOuq?k3>czcLc`m(nx!!d0{g5#+nn-T#OroI?uLF2-mUBu~jS)O^I4G?<1doX#*P
zu6aGc3ec<xL{)GOv;o~37s}{2gR@L>JWV5Ujhd94ef$Xx`CC+BCRd17T1K1UR7pu1
zuBT&v(svz}Rj4JUY1XWVHb)r*bA~CYf3J{FYK-XzG=R79I7ZJ3^~0-QzWimMt<Gnz
zLkeaxk8Tqz?iP!?L;1zQ{CY9Jo|#;ews0u7bT(u9Ob7u$oY$Pe%xW>S8gjRi9{sY;
zSc3R61*kN?A(+=L=CvcH3iO(*XHP;tHLr)XYAQ8UP%~5NgCpYnty5_qrrQJAHFNgY
z3SKSnr?*ZS7j0R0X+}S6*a_xzoJ6y_Az0ldR(FNu%*PhY@v;%+mvza+BuJK-1hgu_
z(xbQRC)OU$LN{I88#WIxRnLKeaLNEp>%@o~dF#Nymk^o=L6h)H02U%`qHIcuqs<uq
zLYQ*DLdpN6<olH5W17PWqod)ZeXKU2h$i1bNd?`npd2k&p@wn|lvL5rYRZk!!njO7
zTPPvZd*)dnY#Mb93c}z8;aOZFf^b~;8r}RZB`;C(N0hvc1ZBsF?cfs1sSZ-b65gSk
zCaT;(KZ!D70fdEey2cd!DM*O$5cYCzDo2skgl4LRX%}3jpX8@oc#p1;vqZ+)7B<q)
zA5*fP62^HVzJ@>)qd=63z>t5!7X%_lnAt)&RSIP?<c6z-0r-z^MR8`Nw~epvUMfn-
zSMlHT+jyye`3mXrw|Cx69!)eJ)-Pq3MvN?nHJ6cd-FnR$G4bDKUB#ODR?wQuyy)_?
zrUYZ%J#(sY-MtcvF(p!PUT@r`_cd>e=veON;boqQj3?@i1v6`3+I(a4vJTluQmV0Z
z-Z1|~v88)ihkT^OXxub+c)mew+KMm0xG9omHWtl3KDT9|!q>1xtin}Xh}iq|#^Tx5
zxx~4nJ_LZRKy`E_@>Ifhy|HR3*>bhua>25Zenff`9!oT)_*%LmI+odgXqjb}k0o{K
zjcX!16L6|tDrkrpDTDV-u}zIn_gvq5ZLer6n_d4($IBf)TeFzlvTR}{b|&N+E0%bu
zq=*rDJX26QGd|n%%HEgviluAj*T2#6Iz-o<V*a+9tz!PJWfPTJt4qqd^!Tqn^WroA
zVE{BV(4V`eVxyfkjWcQ~T|3_mA$o)^qeKeAV~NRS_mc5*IZ>CC9Z8@YTchhq=uR|N
zgi2Z?iIiDNF1Tl;j8vSmk-bS4<GR`LxgGOabG<KrIikbQh00|*Ef=&JE0;&~NydIX
zA`C_KFQL=uoIMoL;WWR4oo@19?;XBJ7o`S}i)>FYQOl_x8*yIFd`xdlTRxVMVcf7>
zoonn^UYmxTqtMvC+*V|4Tkgm-Zd|Ul7@H#n{d!~el07$q#*NuD@M+5?mVGwCj>%Zc
z%AHA^dHkiPZ#)gnY%!}oVx-G7+BFdq%VLbumXlew@oBwrpMHKzM8`6;>R9I9WP;7u
zqmPs;Z#T1f-mu^f7`yK#=#4G(BDhUi)GUvHQig7H@(G1vfwA*u&%1ly-g}R->XV%j
ztHoFl$|)o~JCaEGjfdEIDLL(G(dD9LBd$dXw5m@vrYH|mzIF2(dtcuhNko1rIq#kk
zXSpF{BPCjO;ImsQtA3^E<)R20B6|?H^@OM+VxnJW`3p{_UvR0<zh?{mvSPJU2k)ig
zm)s8BC`dCFEB&JU`nEToe*Ni4BIWz`|7FLIJC-Sb&!IPV+)L6M+apOuQLjSz)*X>V
zoG}Jd6O2>E=5lWRYaOrRi`pnAZ(26uex#!Wg)*}vMx4?2lCp@2a+uuWPm+=2><0$4
zjuYfMK?!X~F|tPj%?vd^3~2aS+(1o&H3?=WkTb^6WJ<vT_!3YL?gn^diqt2_IlP2o
zBC2B&+G59~!iXgFdQyKHh^#O?PBb0AuPF0N%Eso&1Q)j?Nn|SchrpAt$feaY*yDH$
zIv(hF4sPmXmMqHBZp#j^ZCOMlRk1ayhk5t!A@~}5;`*q+f?g6D-R~`g)j6n8!jolL
z%Gp5|DYbdp7}3p{uRZ9(r%8lTRk^?`y@Q{^f2ZUcC10n+LVMOHl)H!=uxn*%!)Ce4
za3Z8Tagvj_=@CkFW=zf>;0*r^hLm6Jd$A9WZ~_MBk~ME;@7x-(2sB^Qe8w&7+6C*)
zFWuVI>ofHFEWM%Z+)KTSDXCXRX7>71>MrdFrKC<5-AXC`_PW{gzq@6=>sH13g}j^P
zZx+3mb!+q9kU5=9uVxY{#y$71KHWPrM5a+`>*jYXl)b)d;c0)`o~c9#SS)EVHTl(=
z{F_NT$ZEgz7+=i$(C@GXnxEh?j|`s~9@k#VE)*jwa~x-WumzT+{vORn@GNlQY5A@u
zG4K-I5w(QD>sK_MF|`T(oMn>8CMTQ%UiAP1MxGcy$($_LB{Ka_Ap}GsoCxl?hrTpS
zFUKcn2H7;G(wq=t1HNcM;kPDl6*PRUaXw@IOABjWp9pT~6*u(yH|!DD?76gK(ULah
zneOvj96p1C4+=?_ghP~&)GLPWHsAvLxCzyv5s}}SeX<E8H({SFvusyBS%^u=h8_0q
zbiYp>HLa0?lX28d2Q;;!MqINjXlC`J16{3v23`ZD(OS|(VUz1{Au(CUr2hyg>;(;d
z(Qsw`19}zZq!zU#u=!v6fM-5)@8sSnE$FYTouobj)#dzw(}Z#28u$VLF_1qgFZ#KS
z54Aw;5+lzv*n-K}1u~UX5*&k$5h%!#kXHf?%+k2g0mWNkoPZJ2SU590%GCy#B5Y#{
z!5`>C(0$3$SrQgA`@A8@pod6>!9h$PF8C!C*cA5MZl$S#6N6_RTedh_NZdTCDw;!Q
zTyR4@-Ldvbt`tt8kQ}w3t0DXuB^&EH-h&a3TYc*Iuz(j)o+UMOYLq14kV6f*d9SJG
z)LLx8=yxYAaOpR7kc+Za2<$C;+(Yjj)f+CQmmdPSzKsF@d;EtRcV3wF>J0imI1*nN
z06+!e1hpZFjs0AO_i6ruNa7{2-#~GJl1zdQshC#~%WxT1I5Rr;B`Dp38wmYW>xPB?
z_YU0Z==T}=eU|=^E#p#eC?)UGjwMs(^x!R1t`a$7W5B#Al$I$eWX+goD*{%;HL{b{
z>&%XT)e*8~PLJNQRff{D!9paU8!6PKrcbZA+&i@cKFDoZ<Q!P?yUuINm_B+d&9O?A
zR-5#=Nr&2x`qLbM=gHP-{pIAT#86tsbpNfi@(@b3i`Eh)@{LC4uuY(Xet%jyP%(8w
zpwZLb1D?dlJy7NjiL(rkh_j@kDnL*qs77Bfhm3%pk~&$P-n;Ff8>ah+ijI}Y7bkQp
zXc1uTDT{@FesHIUk5O=de+GZ5Y>_z5JL?j|Nyi{Tg=U|HpRscsA7>jpmJM4LY`ZgZ
zes|2yK~$+gNgJ&VqS`O%KD1`?ctSJh=Q8}(hD$vmOZqp~O`rezmRoGM@L3!oOV)JH
z<xZcWfNvcyQaxmf5>8f(1GG1gRyLg2H1!l4kcNV2a4)XL8pFk6cC<x$5AGNo86u88
zOlWDi==)PNU1AJ%C(eTRgfDx9l=A4?9y~WT%vG&quRY8Z#VOoD<Dk&LhxUO3DX$^?
z4X(3j&T;4u3tLS|7Y$ew9>d3E*X0+?>=hB7s%;@(Y}hX5ZTA_n7xM~zMF{fZ&uhc4
zkfq3H;G$OH1ymlxuB16(+v|R0t^=Jwpd_FbG%~cDxWgD`{Ff+8;eJU!j$ZHsN^4S{
zl{PSwR^Ykx3nOP7{0rRPiRov<Hg*<}5>6vj%^h`|hQ`hUu3?Sshnq;~34u>bDj-;k
z0QI9oZl?sDIqW3}M-#E4CR8(wnZXJsyBqmonj$KG8hS_W5xH&#q?vaN1uFM$--j?j
zqps(MU5Mp3F%JJ5UN&EjbHjt+3d3?|c(my_(}{C*@9XkN-Rd2C&W#NP_C({@ao}$Q
z+}1G%S%I@>j_m8%#~o_`EV~747X)fYE;KrxgK5z*k6Sn=>Eq!pxYSTy8gc{A#&-ut
zPS9C`Rr#8=o8)DM3+Fbt8}V(PCZ#>s1lvX6xM39I!rlsUEqZ4UxW3R7maR-Yq!Bnl
zOE_9BkoA|LqOn8DDpDtCLo45EhB5PchU|MQ`kAU1Yl$y-&&jcg5g01r6B+Zs-N-rj
z-)}>Ctn(T=C9(w=PB{k`Cmj0?+cAX$ycHgJ5UlFcu}J3c;ZcE-{j~CXkzw0NX8EN(
zp~9-UQn7H8&yW|gl+MC1q{3&|<Ez@^M{229EUfo6bovXo(S1|l%&}W0N2s(6ng=ND
zGn6tA67xL}{l>nB?_lB5_b`qN{BR`@_l_T0l51Du1MV9ha9`&IPx-jnW&DcaB7{9^
z%f}O3Nw`LGUzCVH<nI#FYydMRT~7p>rc$DYmCEsm@|rto&=Lww8U~a$P(o3RS6f91
zwQjwpycTGvrW{!sKh&Vo(Fu=O1J(jRu1t~`rOwnZ{59$iC$Z?xgVOm}ID=_EFhX^J
z+dIW*xKT&4@PC=_wisdsxJmWnMB2F^@}oRjt*-eS8z1|EPH>`U*e){%6uo#-Yp0&7
z5w2wwH+l<!&@<s5DEUVuaflW8ykvwWSK+MzX+8p#Uge4^@QEpSg1(<Bybs$sNE%!!
znoDPmv*+f{`8M_j%)1xO8CTOTr_J;zp{dcja?ppt#)=R?CIi(RD|t%*Q-Ypghvo+p
z6GdDdCA&IGfPX8;iQ5gZ*^X8U58K$ws*iZ<9xyIyQSu4mDMC*{zEV)KGDPj3t%8Jn
z#emdV1(BwOnL>~NA)HF$4raUnA&6v>n2oB!W~J}{geSr&YI8z_E|><GTxo!D=`s7{
za#Hx;RQX*>m<TY5%U0qRfRIB4C^=3Y|6|tiNP@*!@u4k~IDr+g29mk=^edVZSizl8
zcHHQgs}u{J%U}mqL<$m&72gJf94DZ+IfcROS~0u!{p@;Rx%#OMWDapWP||!G1{Af<
z*KDuargjFbRiXNpV12t--%h`3V1^YeS%<ir^E(%I20QkO9ee#H`=)kYc`W2;4mvi9
zj*SaRH<N<f_KVy0`yB_ScHXuY-?iv+8W<d|yDWS_uQf^uh20A$!CV$Qnn0_F3t))a
z4yR7QUKps@xbqD53W2_0;dM&BObJu&Gmno6Lnoc1qrzWMZREr$oX4&WKvmueC1$r1
z8E$bBHqh^IvT}iWBn=m+<z1jbh2di`E^s+LXV198mZ&Q*P{k!~?wO%JgYB4w$TdkB
zVUqfud~RgqjMF`O&LccWzth<7LA(x1kBtfhd&7>{i%yF8M*(A<gU8U1K{%Tt;1{;X
z6=NpB0>S2Rlh!SdbLiy6C@CZ|aqxiJDp*JuANEX?n!ocoxReA!A`qK0Y>{r0J+;7O
zd0+?V1Tq<6a<Om`D-bm>PFRVeyQ3Z$urhmBX89U!UacHG11s855EWyBlMpa&_bR=t
zWSO8C+7dL9dIk;56KKaySJGJ%1YVuoPFi3eBySmClzU{recnAZL2d8?PGvA8-!x=@
zF62;Ud^X~q;y<Ag3Y%#mmx@)gHdiU;1k4sl2_jr|-=ZETB$Pk_0n9yIIu5q7E?oam
z4-BwA7vcedKv~$vpHg%eg<`sz6L%FY!fM9DrHG~Uu!D+a#~0&sQAYPt**ye0nt*#T
zHxrivr=x{E4ux5dP(ig+QbL=JR26&Pc?Pxx1H7tgDo{fO^4YVz05-C5!hoehwRFFX
z-9NWRoh0>>ILpWdp^hr6r=)?BMtZD3eoVGjhPIS6xZGykNky47mPw7*(9gB>Bp*36
zD7#HtN4HujVe(j#4TlTm>bZFcO|SEedwh_oH*BO5N(Z7!@T?$gqRI*g$~onFo*NTD
zpu~Iu96*szHt@p+&J3R)9u+pzlWkOgb=;E-^WiHn=81MHToPB9FbJ*=%0qN_P_<jA
zq>;~0CtcV^Nf#yCkw`OzfngBT1JiGpG)BS>D%4HMPYC2PrqMsqj`nrB)=LT7I30BD
zZTiWW$KRkFV+Jq+_xI>0+ug2Hxd8pVg(Ph5z>8sn-6~XKJHS1}K1B*MU%h@gNvBWy
zsV@1aI?D&T22s~=M_2l{y3C*Itao(TbTi`vU6oH)^?|O&r>nW6EBPO~ygRzeJG!<z
zx~4n2$L{F5KS?m^6CiokCwyYn>5u5|==R*vwcgQH+|fDj==$&Iw%pNmev*)g`(`8`
zn|1n@PZA9Jgu6N<AE)T_TT#~sx-L=I^?`09%175|!ecs0(&bh@Mk_sNrGwQ;)%EH>
z(Cz-jAQ!lsrZZ%GVCenpWc&1!{^XKNNlRJTK3)2fE&Y=9qrG~eSfAp{uJbkQ{76Un
z$f@=ey?quETb$-S?6fd`bH|$(mgx#MczxL%1i3gZ;4V%#J=pH`Ws#IBy*&hBY$BcO
z8u__>D?2Y4lcy?P{KB#k_agiC27Tdd_gvP?yJ1P9FPyJnr-cd_m*@*4X;ytPLOn+k
m>0D9G&+9g@^ODiLY{d0QNtWJ0?c+r4<FwqEt3SxCBL5!?i5-ss

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/tpu_worker.cpython-312.pyc b/v1/worker/__pycache__/tpu_worker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..47eb17af9b70ca7be24e06afdff580986eac8567
GIT binary patch
literal 15458
zcmch8du$s?dS~;gCfO7ziF#NsQWEu`WKohWKjgP8$+rB^cx=t=EGJolVz(s9Y*JI*
zvPTNFJDW@p&E5dx!R2847Msx=0<7j{@7B2s5F-c<69kt8xjUSCB!^7H#?D}8|5)5V
zn$rXe>_5r(RkOP(nVM`4yH~clzN-4_UG>$kzOVQ{yk0j0E^YreshJUm`6&i;XD<@F
z+ZKj-!0=3r;Vry1ZHZaHx23J3EoQS|oIPz99WjUKj5%r8ny!ddP+nGa#azWWx9Ev^
zDD6mdqBrKHv@=~P`eHuOAM?|2MY>9?j#X2dP1lHlSb);5bgftytE03#T`xAo8Yt~a
z9}*j5jg;onO=5GbnbO{Li`W`#rF3OFD28GoO8e4nVtcHe(*AUZ7><R-&R8c6SEake
z?pU|j6YCKpu?UT;PWOs^u|7)Iqz{Yzv3^Pi(ou0BHeg|_j1Uk8KZY?v7aM}Gldm<x
zM}%hSm@u?3r=^#E`8u78mS{~6i^q~y3nLznohZhf6h~;xso3da%o*`)>>Q=*)91wt
zu?v)LNRNsaV;8YCml^)h+YI0Mu~n-pHYPL^7tBUedR!cfO;{LVA~v>cUA9J=S87H>
z(>GrU-OG|Y0tqG42}z3n9P>>@EGj#eNT(AsX(3`&ZKIiGwPJdCQFt{$AkF=1IxUW6
zGqb5VNNp1`(h?EkVwM-u@x=szj6kF^DLIu$r&a`BZN@;HPf0RK%`C|R9~UxrQzV-a
zg^UaZwib)Hb2l!NL`IqwNNIlH@X!*{*||9ZTj05#y)}AEcw<SBFuzX{<TzyHvtnEl
z1RkRN$t6Od^!Q>rA<t%s2ys=f+@6R-m*bODmnLpaOpQ%Ir1$pH;$oISqoxzm9f+_e
z`P5zT8*WeEijPl!^CskZ3I5+2yP^f5&)&-<A&Lp|(vrNmB&)vL$$5caN(;q^h)wm5
z$}&`+%4Tja3Q5&_?bWdaFlnQvdWu0z!-n0!vAeaD$rvSA)M_GNyW&eyVor!lazd7{
zxihH@ABTZTVsWZ9ershA+5p1^gC=B>LMW4!L$leX41YMZB&9NQp}W_w-{_WbuD?O2
zIts<q<1k#A7#)w_o{UYzN3Ty_p1LtHH4RCXkW|v1Wa+B)6a%||NX3G{fH+`cRu{uZ
zc#B};t%9Am!Jl1l@D9N_>*k$rJ3t&%KpYEyF5W%s<UMcOV=T|T&BR>1OR&#cc`wAc
z`AXggVb83c_d}TDtN3aR^X`=jhJn}`i1qTld;m(e^0iQMC0{3C9w(&ML#m(e;~T)Q
z;tvVcf<vg8wH|^d(|YZEBcud?qY3<4@SDM}1HT3QdMKq~;Yev`H5zJah4e;9ZxWjM
zpjINph9I^DVzHi9Beo4<gM7OXD%RNn;Wnrv41T+dfsr~)M@k<h+BZ6GI5uv+6MEGF
z{9V8w=DUT?@~xV)2wi&LfU@&Fz~8;>j`XW8W1>~hUD&AcB;Bd1JDp7?(zs3TsCN3T
zFWr%JgNcGXpXF75N{aI&br-gwCLNN_l7Ydq!3KZ3-v;UdlXK*lxRIQ*K&U7W87600
z&`%PB17ewYQ9e<Q(z1(Oz=1VT2W7B2ZTi4rlnfm7Br{Wy0uF~B100-An?7(Db<34{
z{DNPnOdmL1dWgr8jrwxTLbaY^`eYp9%hzb+<YA=B@x=8_2B+%*97f3pa(MN&K+l_X
z+Vr6ZMt^~$)lAVT;P4r=Wg(=~rVkv(NI@CxW{OS$N0mX_4(N+9dO0ib*Oc<d%``it
z1&lOi!I(Eaj$syhO<JdT>zy8kA<a;?v0C&r$Z^=DbqeaK)#*&T9Mx$k;a98^1x{%x
z2h=^Nmu&jP%i91?0j606EM;YK&X0?UaL!|yO*$_P8S`4Qc2DUXrcc*m*bM6wZ@B}z
zkR1E^+)%4o&lx@M!g-xCeIDe%!bvl%Q#uy0Ko82!!Udhv^xvxHalMq8vv^47T4t7+
zh;!=aC~Q=FVoA;tlqzt7)lpeS4@f>fKa0o&&Sq&PdXr>lQ)xUCg$!aFJ{p=PiKHNf
z?xoV{(2Nk05_bhYBxg^BI;BV(>3{-B5G&v`cvF<694%azte$k1BuWAaUJv*TI8@AN
z2jC;ARj<O49DnWlXdDsA?VC5oRdz{&Lw-@@)rKrd&80FRs`qCO0HTnx#Eh2!U8!}8
zsYL-gCG3lLgXm84amwSDbbz9_%*zXRQ%OM&R!e|HmH;Y&(AVPv*%?V7cM~%(Wb$$`
zmbBrJgz$qqUiD}r!OMUSRR{G5ZhEy!CQA~aGC|DBSR^l~^>`dbm*iAhil#&j++cuo
zV+MAS&W=D-Pmuz|NYr{dRvP@edF!Q1lh-EzmQCJLof;Zc?ErnUs-5D#3iQ*nbjq|w
z(&l1IwYkKaBtR2PNOQluFd&PI12BaBa)QhWa{rr4Cq_=*IUx+BQ!@jL%WxiM2C&@&
zcZUYF!*BrcmPSSwmsK`Sv1&ZNQf-{PQ9TX;g_MUS`WCa}XWE9=?AvThp{Wb~hC*|9
zzIj+_9>&n2eW9kVeA5x7>4?U;Hx%s62Tv)%Q<&ELtf4vI5LFtYYxZ}&g`UG0*;(-T
z-aGrfvpY_ve<*+Wf^zu6+W0mXDV!Wx8_#ngg$r$S#|o!To1qhh=ztmOD}?&;p)*S8
z3>Mc?Xz9tf99LS7W2mvv-k)#3ptN7WP_Pgl$cM+3@HmFrJ`4A(+4F3(!Zt&w&=`hR
z`3ivs@LYxNbI23^%;U>@niWrT-qWLadNwY7>N!#fcI1PDN^meAJgx+fuZ=(Dn!gC1
zcw*0=oK#Lu=1;z&!2jT@*p23r0-~RKqCev<ea^LSbKxD1In+Xjp(%(pH9W(bx<B=F
zZ;bzV@}tQomj8I;D<=~Q=Yyw}Aaowedd5}1ckP{P1^<Ol!ugB0l#92%vRS>AJ1oQb
z^;Whip0-U-q|n)gBh;dBEl;`j9UH^-?!x>sYGr0gjL*TUm;sD+N7BMcGwdXSyhJin
zNdweCE)-T2MqL2{U=$wqK<#%WU<wY%vK&|vb<500mZ^x1L?A>i;pZ}ZAmZYl2nnl&
z^-spY2e4<{)U->*N~5`s_oppF4hiAHTTG#E1ZVn?!XDaYdrCr2*&Z?hEJ>8iy2Cw3
zd;3Qq)Ip(Ok@Xa2!Dzn`#qd@<YrdXm!GL!q`QQN64;<dH@-LRb+h{%5I_k<nP2Oo<
z)n${@0CIX>Jod{0x&;GjnVe>ckjDT?W;(<g;Ac;)0fP3#)|nxlf)W~Z+Vnpz9;p^a
zHo!zVfT#lxIQ~r-$dm_)<-nntOYYEXKVWpidb;WF865-cn&}H=@_cu=q(@yQuTK5y
zwF74vK&-DSfMON00R<NTUha40fN0#9At>Ddm1fR`GH`I!A|KT`7KU}o^z}JfwaUl!
z*m3}jTr1f}WdP#BSv|Mue|?EOo3nf$Zq+&K_n99U`)$=$(%y4sSvr-o@y;K)&2f}R
zjg*5{dzpEF@k430&wY%t1str`c8vns%6lmMuai*>QU|%q>??D<QBcWEsWuRSs^{j_
zThsCJiB~7bCRG3R$%_yPx}(YI_~@<6w^e54rBHwWo9RRx0RiZk08S0@aZrB|PzFID
zA;**ROPM=>ewH%w*`Xr$!YpE`yMP)%cNCumB~3PS_EI7(373BU7PL~e%8ROlUep21
zvP4Mm*-Uy_L$_honw8XwqW(;^0c24f0DY75svosra|F<55#6d)7{d#*iKR672+;_x
zR|48zM(xpHiwR~9QqXB=$^=p&+Qv6U)s21EaHQ(gd~yuS$1O{6c2zIc%w^`N{z_0Q
z;{0+ZA!b!)5fA${_=q4io=%A=nc$s_;JR0>ZxXd~E}fkLD4ZocLSoX72{i_M9vdCI
zG7-NyI(<d8FDB%9)xMBTWym!w1FtOvx0R0F3DvI=l!_6%b|hjw6w#_)7#lj|fTHDj
z3B@ELMD2*ww2xX3S8Dg3j>Q4MEhha1oOp0Bh9mD<-*dm?zJFF>+rHu$ukXF9?_7Ov
z>Yb_0rv44G#U0tPT6}|F0?rux%Eq`n$h=w8sjyvNRWh#1Jlm?Utq+#~$30`cc{Zr9
z!F78+G^B)v@}Uz-=)^XA5}=(6(vB(Yu>v3!u36!lAMzih9;G${`N)J4nfOHhoA3PP
zcL2?}+|Y>nLl4CF#ebUxc;qRBdwzKB!)thaH!5r+05w2Gu7-#9d_zQOh-h$fn;ifY
zxfcTUKjSKkRZZtxqDo6N-*QxGIr@0|&tCtN*SEP*Kwv||?>gS|z5{L3Kwv*Wsk+8|
zZA7V!<ZFkO+Tk_#GhbES7gBtoEnoYZ9XgFztK(Bo$Ft_v4=z8t{K54{*Pr<Vd4G@M
z@7cJxv9ghV()o$~$=%J~OS?8}OXV8kIIl0y1r;v1?tS8T%AJFlmcG)lxbx`F#&Evx
ziqdxlGr18G9-_eR{?PYEzTjFP%K6}c5*&ES4emG?uJ&tSOCx}d2TY1tJpiUH6a^40
z1H+jDI%h2hR`m37=C?Bp^IHIeR&A?x6Jq4-GOHJ+i%oJdXD_GiT6M^V&ZivUm;*iC
zk1TpAzdGd5MdPY7=LCpK;nKUW$%c-Ex61W;8*_G@8x9BC4{UnqcP(~ij#;gcQ8hvx
z1-p%U$n?uWk#dJ|u0j|1RI6YXU{DJvul6|*{>I^8Ch4s_#vE8yr^&5TP?k=X_zPu#
zhh9GFaPXf#2LQnkr&CuBGU%)0z*eCw+~@Y>DFZXe>%5(3(haL@jxBc(E*OBrELbm-
zu20vh8*-KbBMT?Y96FVA>3v`I<UG6`r@tIPS>=q>GVo;8n~9W+l%a#tYoW0FYYz3*
z%3LMyz`CKHO5RB+Z_dkCtiYaL^~r`VE62gCUNFnmsd9h=^BTSL%M&_p&Y$zGz}3LK
zhOAaWsdyRN=N2aSML<v=>(%O9HE+K&4yV&8`I^p`tCp|pw7!bW7}}efTurX}4$K9q
zlc#jvg_m{8^Z~-v=w-kPtIAbl{#?xpN};NfF{#pfd7J5Ah8W3m53H2mguP;6?pxlS
zdDHey=AI?u0-GU)6)R1zfH|;eQ43vrHAD~i5UQ6#-KwRVq8QaPvn&gecH*mUEdUBI
ze(u(j*5Cg>FYlaRIW!NjCxo~ll#)V=37)5Vxlkt`iI92dhgt>D$1sF}>I|%Gj+88j
zlIl)@-3tt6U=1SyV5JQsuVE&qra}XVl_lT8h?=RaJSi@w1vEtp`~)FcqS`4`!iAzK
z|EiN&aWRG3v23QO2UF|NB9}@c?z@*DRO2TLZ^~-Dm{^_xRUX{<7vubrC@#lQJt&c0
ztj<tv0T@v$#l)L&R2|6KJD}Mkzl9vWdkM6aYTCK%qJ(xp3gakn(r)Nv06E#B-7l;9
za40nMPI5j4c`Cq=LsCi5L|_WWX=X%~le03wDG{`CWEp@F^^0k=lwu6kso7E)nd%bM
zI#h1x%%HMMt<bShZO{V>DOE34gmXp}j>L~+hc`@uyG!L@h%%sejb~v_A^{4%RF`hW
zlvJ-yYV+t$Czb(@0a6seY(;6DUk$f%*lnF(^=qikh>*xCR_LOArb<amT;+<xNlmGs
znJgItO+V_<t;Nts)gl_YNM5amJfJDoJ5RN#)uk<n)77iGjJ~UWZMB-CA>krKG`Zht
z=(3R)WPymN!A;yvz%n!ITM3(B^I)$30>w+O!^Q>d**~!6DxgMC19GR8hSOUOXV<)i
zuA}*`5v6P7@4HSbT>IM9hXBG3J?#BsaoaasXlTzj^e7EI_Z?rcOsMmN+@sva#mB;S
z@Jv2<UJ0K6#Qry)zw~ScuixhiJ;V214|_lLcYaY9Dbx-9Y54KV){%>wLt~!|Z3ZR)
zXw_HmFxIN-of@Y5%uXXScw`e4acpgYga1XKn&$=-ZXnNHQn*V6uKBA9yUV>($y8S7
zy{(G3HSayHc#l7p^CvDVCoVtrUZELL@0RBx3K!W3=X*~py{GfNSC!tY+uXHZ*qF*m
z3$)$k(IIU!=vxsWqkbyS9#+`H+iaAAKU9qFx*2ctXH6X+oPTsa-*if8I<?hw=AG+n
zllR{!G<D>g`jn<VE&j>KR@21V^+M?I#>*f2G@a-s*HUQgT7TowK)&&~(s=xxYhU=Q
z^Zs_l-@ZQl!_yz0-trHujTS;}>-|b-ka9OYy#8ol?Hb_YKyW>v)O4<~fLB}F3S5f`
z?XM`ID+-5Twbi}JHd2Powxf^dm9}%AShiX&LL}%?^MOt!(3uY$RRTx10>@y&J%Rgg
zeDCZR{=ofjZih~6`A=@2zNPqYfr`@G0v82;Xno{U-{EKey1c(b@po*7&u@;tybTOa
zrhWKvN@+X4Id)rVyS>S^KJ!(>Rb<Q8waIq<;*JH!Rq<Z=rG$67zZx98%Gmynaa?s*
zfN0U)K*Y235d^^_I0=i;aEOTUZx@Y1px`Wzn9AVhoW(qI$W_Q3v1%gUD<x1=7v&|y
zUW7#QefUUNaq+rFegO0ezHs=4_TFJnE(_ezBoytiS$s9xEhO)YD!%B(x3_%fHraFZ
z767+t!(>wIU=3vYO?Oau6U;DRFQL{Zy@P)Q74PZbIz*Iqa8E8fb`USWU~+(|50rLs
zbKv}z@4_Z~LF*$6c78a<h+Mu~ZYb%Xc`I5EWti2{IfrV|z2%VsO=ym{>a+Q~mYjuL
zf*gkWOy_|djj~~3FL%G;joSpMc#Jhuk_Xr4K3BeNdTT6TKP<^#xi2#Wbu@;YU~9Bb
zkxqzRY0%7w@Ma2-3BI<`jftt@4p^(KW+FqSn##eO9yuin6jl&~uAtReR5?26fDs5h
zu~0o)2wpxV;kc9J>>|E`f^)LCzCVO)rPHrg6zyXxRpuHmM!|bKMw)>Pu)4tnH1f^}
z3I@8+gNiS>>Fa)0*S^_tcB}5(rvKbO`05Ka^$*Uze|EE`=UKSxhcA8j(&O>1@W}n~
zKfLkGU;Uu+{YvAG>>mUn_rUwU_uu(;su=E&wuCrp`y|>^tn$m~*S7sxK!FrY=_B*e
zzL6m~W2I&|Jp()=EVJn&iZ8Npc*}QUlRfd`)gPDj|C9JCT{e5f7rej$d_=eQM;0o(
zBxo0-DVfNB!nOy@88w;fvGs@{U{YC5KhnYq8-B`mY181!!b&13UXaSq0p6<)+REir
z7p4ft#lNQ)-lau8K~1{a13*m({}?JLU8LksusbC}cuy{PvdKuO65rFKZiVgMa6M&@
z{QsDYN+Qq^z9*#S=4FZeXY4@9bo^Ire}g$4d)ZrnbN7WQ=~398r)=+w&Bt{_*V2Cg
z;=p+*BS@u25Mp-7w9hRVb|^E!Tz95egWM*AL6sA*rD9Q=Z)XwN3t(SI-L?Sl5J~YM
zP9_$?qFFqrOnvYEQB)hWo09+v+&J6;#5i1v=muD6H;48ho)E5*5oq<^qxw@{v;+_K
zDO}$+*N@n5p91qKJMiL6{Q7q_EF`?2iSW=4pJeVI0`lk3fxQc<l)VS~Nd6R9zNV>Y
z-8pd4;Ii81^o4MH@5XiE6^#!53vK)hC}E|>oDqYw52pYXe0!##SMl|3`3`TghiR*$
zdn~=i2>+UzU4xA=R0?q!Ug^HLTmKt&pk;3d_T`C|?aHv?8{YCA-(-*f#wUPep^+~P
zJw~oH?QOY!yQR0`p|b5hqWF$%`Gz;yVcKrhXXMc=E5Ctbz!I^pjEtsH&maq-%kXsE
zQ19GJ$@3w39^OyEH9a+(0$t6%_C%-P(58BunvypKI+K2&e*%M1dWvXIxwL2G@mT`T
zyS3h}l)PpxDXxTL7)MPzVLmg@%zlOK-^e~KV*EYJ7HZZ+G)mhC`l0vH3lpYtu*s8m
z@OGb;=U3{?nJbMyiPa+nevA2xt<;v5frud*#Wy_=K$&*n-X;Or*xlvCxW3Ope^>UM
zE!YH%V<P7$_p|}tT-tLs*$u6suH5qluo@Iw4jOBp&I#qAj%S~P*m9cK;=u;_4ZFb}
zfMJc;R=OvRXDD<fmAp*`fNlI*AR2K{>!1d*Lr_0yhmTq@lSqORjh~8msCJAbF^L)z
z(T1YsK??~egWz`v@gh6H0U|^AIf5U&gG8Jfq``N8S~XY$3E>9|l<@kZsdA_ShrABq
zl_Tat_*D(7XK<0EATxa&#`#e(0R}dFj`Z%09XA7yz8a4yjmOq}&)9IGzAIlpq|^@;
zs%i`MZH4gZXMu1&Fr);A{?X$E6CYR(dkb7so*PuS!N&vnBd;k(Uem09a5i?Y|ISnP
z=-0@&e=SNk7vDa7*i`1n9Mb%f%xCXq_DesN)l*7QyB_x%j?W7q3oV{ci-29V&Sv&V
zI^4W;U!n2i0luL{dmWUs-|5ZQVb5)NIJz=4y11BL4kbdfOPM4pdqeOa#Tq>|L!eX!
zgbfjJ?<>Cl1Fbinox1$`UqJ7XU!DY(ScE(!mgAD>*Uesj?yI^Veh_^>x>eo2<?GmF
zJLrT(ESDmdX{h506c2KA>gWFiF4BWf4^c-NkE`xD)&Z|vf#%}zH<l7<ErsA>C2zw=
zwZYGCRQpUen<nEJc?~}(SIED|51#T=bwbvW+Q5$oKR8tMcB0z(R8l55#uVNY#K`0c
zeh}oS)=Wlq-k{B(qXG{TmOx!YP-qZ5p$Q6P?HEKsK>i9pe~lm9Lgatq2WO8o;^%+k
z=fC4;0zYH;Y1KctWu+g&(7nxo;;_B@OYa#+_h+@i9S8WJ_o!{ysX&TleAPQHq})t<
z=Z*&{j%f<+BL7a#Vs)I_kU(GQIQ7XG_5OBz7eoJ-J>wXH^cxmO_r};RgZ|F9tQN=l
zjhA*9@HQ{Jyo>&h)8-hp6hcEgHY7fCH9nkHTy47!41MW#IYR69T?V|JI*a4v`s<ka
z<l||~dve!_rNZavy1X&=xMt(Zhu_BZqff$^eiYODcAZYg;I1Di<m`WV<b#n%BbeNe
z;S=kxY@B`4vDtT4={$$ACouNd`tXKr<Mqv+lS&8WJ+|YtI?g{9v5V*b78(TJE^Br8
zKubDsw9wf6rKiy`Ovev=7(W=b3Zz&VwRQQ!#vK=i+&Het31jH4-1P#rdlEW=rH3ER
zZ&-iq`pC8ZJC84}e@AIOft7`yT>J_>Z4PnzV9QYN61)b9^VwuPPF{g%)tAh|569@X
zlcI^4BwYz$uvuON!-2Nw@Ep?YI4phg63t{t9`m~B%VK<6t-TPTKYWR5Sb^>U)lWG}
z4i!!E<Jq7#?@x;YF42F8MvnyTmo!oB#WBI-QmvwyQ2P-rYCq_1QEO;C6&P_%FPA0s
zf}~c`6#e&T5}~J2_1?%Rm=*}CqEt6c(9kY!Ahni8Xs@S5c%u@hB(=1tbtP$ZWQvJZ
znDG!zygLNrL4+t(Yeq|SwgmN>YNO7iLoztTz$!5ddMM3?MmH?(U)86xYK2Hta;RQC
zR%=!Rat8FcqO{bKs9jBgbZQ&Y_WA{6Z_t_!uZpy$;`1Upkno#4Xu9e$A~aK32|q8)
zEX_rWN-zQs(J@RFZsd=#Xt4Rf6R9{B4F)4r$*C1Zf+7XAO>b&K|J`1+2oa>{BK{Oo
zqUJ0$sPh%Ogr*>EvNc1L_Us53xEjDT<9B&cErVJ;y|^@~|5)!ER6)H@$f@iZC=q1&
zIr2*=2M;glNATIPSuB<>os6aNr;O`46aEPk{3*jdXKH`OG(2b8e_^#*tpCVb;R8J3
z=S<`|Gw_`0d(I33^K+)_Idl3a%=k~3n+kLDIn)1~IsBZ7e(nm~e{IXv`j+!^2e&r;
zd%yjb_4A5`g5CWG*S>pg(|>W>KK2uPWYZqezR&ILKeJChx1alkGi|qozl2{8!}nV*
W#$Nl}KK_}%{kxMp6%e4?{ht9svs1wU

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/ubatch_utils.cpython-312.pyc b/v1/worker/__pycache__/ubatch_utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8906c8a64a7bffe8203570220c0fe192d983ba9b
GIT binary patch
literal 3318
zcmcH*U2GdkdG^<9d!20(H*M26@ddZFn@ht{F1hv^=X!1Lt_OslTzRmNRvYgm*=Fta
z&90Ag&J{r_0(1|ErvwR!h^JPqboW>x9)g4f5-(m{<ghAIq=Sb_2pL>~#0z}0UOU@f
zdJ+$e>~FvSnfd0M@0;Hx5-|kB<UcejQG`CBL~lp|(s=;L7P^6Sq%$TeF$IR9IBT*c
zuE6;?XYvIBc)Tf=B83QpFvFrZkuKaux_FQ6db$@lEJ!$tr4v9EVwl5mJ#q<fUBa>+
zg?|huRzy91n=cILGLGm8;0@q}&zE!s_=<i63pdk&yU<4;^zCC{KLmP%H7+;&n96gE
z7u7XKE1H^ZQ{tUk1z$D|&0Yj*;A<MuOcR?|tn!MnS`2waTtIZL0<wiLDlj@Kus0B_
zoYxt;avx*;J#bi9VRatn7GdQamVgp&^ZlJiYho_q#c#Z>ImNXl(<ovuLGZg(Y&)v$
zlX1sd$K`+!33jTaTx3EkqQRt#>ih!07OJD0Az=@_8HBt?)9-UM`LIqGU(X`+K4VWa
z)JFWY{5jqa(|nHiC3Kfr%<+Wgm?zkdMjVf~9jihh3qb}1Hdk!A@ASW4pK(f+nTk=F
z2EA46Out{9yYR~T9G)?a<(W#&S+mMB@0n(4=Dn9@zHO0pOlGRfG{S1tF--ehrRGV7
zt>RL}scj@f!9UmI9)XGMF9X;_`|^>NJnqWlEji=LnLB(dd(q8aY-JZ*_{j_ZKuls`
zPZ@406RtARQck(bsXNJ5?t+`U(8}dq_$m3ez(r#n@P`gRyKjNy|8sU5aG{qFkzs-y
z=SPza08SDVC;+-aC4+!^v2wMf`Uz)mjD+KIz#pL|rvN}?4mO=}mCTOQIy2{<nQNVy
zcj2eZH>7zo44R9%m?x=fSu0^x^<t`8vh=D+aamR0t!ic<5xN<#sH#>jTaM-!R@nwE
ze%Z22GDH_BRftu=#Ho3lQFh2t;N3<3B>o0S1Q<Su17g1n;CpC)_;`~)zBf41<VV^(
zFT}Pp9R#1YjKqO9%Lw`HD{zQHzQY0I@08K?NS%3dC=9lzSj1RW52E1>Ry1A5dWc16
z1ucf}TmOdAEx;)=I<o=1I$DQgUqU%{@iA2);{b9jNmKj<05;{O)7_&Pfz-5d(JJd|
zkjsAhk__ljLz_C^M0;{-XV8@=cfRAsXB+&izY|XcJ1As+yu5*G*;uhiN!7s}{CgD*
z>`{NIpOug{Q)B8ZQR)no18VWi=x)oG^3RBX>~H#w9OuPwSzCrw(3dT56hN@1ZVsx>
z8o~COW$NBZDytB@VwmQ$LP%?xkN)P!X~1l{qjWED$BJvXxZVp|-=$5aKx>k!(=^#c
zZ4t>st@zmQ<70bD@{f_Dd&-IJZ?;l-7k)~<A?5eGj0HEf;3^9ZX`vh3Buxh!W}!)~
z2iM1o+ZEGr)QSap`cyX1tn%yi-=LapA*Wx<4-2IufVMyC=w6@+*#jIW;G;t;@_n|~
zWN)#d8G0?eZ%ecAvpv;W9U9yyy3gGU5`{qyy<Ps$`8v~|i96uK;X|XNExj-09a?hy
z5n2(gMbC^n3pYf(AL-54+xIQuz(33@^gWCJlV|C`Gei<DYu|t5z<)gwiaguX2=s%L
zza=@eX!@fr*16t#LR_iN_qeMp-1O+;V|s}2#1M1`UL0`SKM%CWSyhKnw~zk=!{bf7
z;(!uw8#?v`C^>6RF6y!6iYIJfV%Z*N;<6_|YMuWAT<&Vgu9gUmHc3%;vW+!TT(d3W
zVBIf=xhQ#&il?bKQLKjQm3Mr_An@D>s!I5|apLKM6BZqP$_Sn;D(%+Z$fw!<E9ThK
zp1S(9$sZ=57B=nsaEH62TLP0sf;9*CR_b>Pn_K}!x-I*!05;K+7&>}v>#ZNZ_0y%s
z3okcQvkwN{)Wu&<{wDjY?8D@jHox+S7r%e~yVn~7llLb-%HGXBNbG96%Z*pA|ABw|
z&l8!QuiuF`C%)L=#~!6m?W})1zdPifzuHV+Yw)Qj5=x~XNwFU(KUB68J0Cn4c__Ws
z;n<Ye;7>de(fH?fUTU0vwVArq;737uVlu3J?4fjd_p&Qp1B(f;I0+ULnMUT-UoP#Y
zn)6?6d}GO-UuurO(-lRNjpW(Ji&vY{wMWu$BRSQWexoV92`>p*Y$Hw({pyn&^5Xr6
zEVc=~qn-%4Wt3M5t-hWB<*8C5vlNfhSJAnk8PL+=CkN!4VLN1k(xVj6BqAp%$WTBF
zr57pd8X;QEkGJ2dx=qr5H%OPdEj>@(23?xs_Rj&dIfh~WDI#X_PiX8DH1rpA8mcTC
z{}(GW`8EOoEtieAeR3R~oY?-r9i7^ge_%AxR9j@2xjR?d2tK>r&u_1GDAkrE<~3$d
x9&K|zlAQ{W`O95oUx;=DDr%36G2-6n*w4=X<ZPRx`1x7?yDtnr5rFph@LyH{@h|`Y

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/ubatching.cpython-312.pyc b/v1/worker/__pycache__/ubatching.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1d06f0632ca427fac59ad9232e7c11e97c9d13c2
GIT binary patch
literal 12408
zcmeG?TWlLwc6Z1jIebWzL_KIxBB`fESrVg1BtPP}Y;T;662H=ouqi`x#xiA!Qf4UI
zQsqKj7_E#ZwGHgTHa38@MS$8!3b-Fd_oF}g=vRL@mQ>OM1u(GbNB(FjK$`t1dd{8U
z@S&07xWJ|#y#&w9y>sTyz2|-Iz5iZO;UG{F?BB-s2MGBCR`R7vyV<;KBIF*qKzPD4
z2{MjXQ-YZ?jhh&?%{*>~HgkfVvW#138=J6B*~V@3-jd*^?BjNZ#7Wd4I0YAPeFM7Y
z8J?LiMJt3#!Nl8kK@0xjDThx@<P_oUHwkb19KMca+|4_Ls!Jx`d6ONlhWi@0cfq}f
zueeFZYfVI`72K2EDt0maoKb7z^%_oJ@l*9)$MI@713Ta}YB<9?;52DC`**<cYdD8?
zzzJ$N$9BMJ)o@PkfYZ)b0+l*=H^5Fi;T!lWp@y#(%#&kV-<o`PYa3tlBXB*yRmxMo
zRv?pS4SK5+x`Bt4f*ZMhsgke1X&K)$$ArA!Ao5s<QMh+zQt|0zGy(VSOVi@DsK`fR
z)5(-@Jq1mbC)K9og_hW?C<@6`L`sQ5bV{j<od4O`6GulQZ;nRJzY{tB&e-`Azc{Z{
zTsRg@#V%{_Db<nV7tWqNF?K$Wa4uFn+&ZnY`PU#t_lQ8o8J>)rcxK!TR1EMYf#uDD
zWztprl6pT`xwVaFe*~^Y;CQQGpR6_L#|G{72JPH7?e=ZHYt)D1N8o}!U#bN?w2W6!
zJ*=d1=B9F1#aDr}RrA#VYxo*~9^M16mahd^$JYU@2hNl62EGBHm-hnP#qR>x$TtG?
z@jie}d=tQCz8Ro@&L0Yj9L#+Fydwxj<703tnv6~eVh|)HI2DhH)4dmw&GF<!P?}4|
zE{oI2_<R&4DmW`)Yw9vc36FQeRgfB~k9Mb+;=JOFO;1hb#i$Z0GqWi{tBWjrTdBZz
z=OP!Qq8JxMr7|`%8@U#Zry{g3r3&j(d;+9bYw=7#3+<MlP6}FMz1B#(FKXwc*kysA
zO$ae(5sT3fn&H3s1%P{Gfmt9C{qcecYMP-VWWfwI&2U1Eg&Mv|%Yp@JI0?08g_=dL
z*`Q|CYuJlTuW?XA!qc)~hniilIiN;e3AXSAYWm3M$YW+K<Pxz#L^TmB5a0+z)DY2)
z0KJWfUlywo)FAKxQ0$@*yBfJXJ$)tQR9Hz!TzZ+FN;{G8+bAqr`QzbmYHB7t6QAi#
zMa2mr)q8z*WZ&K^BSJV4zZjmGOI@B$hOZ_PQ{k)q;cL_46+sNo=H;nxW=`QEk$4i=
z9ht8$F(-ZbcC;H(6u=_MH4;zV68o_&>+4)%S2=Ii--B0QHqeLHrfhRJUK{oH;A>cK
z*6VG<SPy19-@t2I)*FQGDzdwpm)K7#H{l~Brn4R@NLnf=m#NKKAd`qvR#Linq;&RA
z>Z~syf3Dr4S6(2gf&duys$xy*qEP5(61iSh@_jSVvyruYrFW3^Wu@dhC{<;p<ayrW
z7vaF@4D4h+X28*(BO<<+7jsk^#jaZz#SStSiSuA)MAR87_X>*!gG#?*i6w-ns8mHn
zK}t=FLf+3Q6|*yZv|xLXhL0Js0WK19JSchrD)vYOx)wwb$A)ro)E<QKm74$-$@7r|
z|8ni0u7QAk8qfIqWq<#Qe^BOzvK^sSZrA<xhr1u_mbum}=gM%6GS`^l0x}m^<yxL&
zi%;f!87?Su!Bq`MZE2CY7L-lIX_mR>RW3mBv4{IZ8DF35>s#f*S+{4&DK^4DVkoBh
zg5pX=_G`Gg2Nooie}bZ+i>ls8P|#9(4=LSBP3i(#z|FJwAok@fwCC^g$1IdZg6
zWu@eue5hQ6Gr6OfL7-zAI~j7Q(ttw}aRy=&f@T1UXDT{(QHY4MNstN608%5Vm?c4#
z8WAFP5@M+|D4cLT7D>&`2#O8wu0|7zl{Q_JkV<IyR9OMbC0sYQTxvT~R=NNHB&Ad$
z)?F>1g)*(L%dM}kw2q`*dnvPvMFAO~;fh6}R5;wVD(j1_mG0IsEC;t{Xjcm2P;hc{
zn$DS2ms}Mo3lhavoJm1V#30n?{bdSLrg10m9pvXC$?gef_8gY?9RAq7#&xL!FP21I
zW`7On<^DLOPcbhk#uK|T0vzuy7~@G@rlC`<OzP5|Z$VRRWYh~LX^!N{!&0}ZSir8t
zE-P$omX9h9kRdIe37J#@vZ_(DgfrA+MQnlld0#2PN(|D^072Rd0I20}N9W{QckWto
z`tGMPfdM%%@YFf5?yA0h`qt@;t3`ITEVrxjv*sGknTcy~t2pRX#k^!YahOD`vH}z_
zpj|OVR1<Bc5r$#~wVD=rH6kgK6i5oR;7yO%<^!c<*n;pj3`au!1yZ05M779pU`TgA
zVl!QP<*vPJ+`gY=x-^y=gpsL%SNU9Pi>9InqVuiWPFKglB(ZqLZ8F!E;ksq6`_WKl
z&mnowp*8OCPcmb);fkXWkE`Ki`NV6~h&><PWBffIESom%qZs2{*`&QP=gn|9_2tn_
z`(e5L@EUjICz&*js!<o!2)cZ>Zhf{>5jxf8ZKkR|ey?nvsvYl?xz6QOX7^!vxA8np
z@EY~wYUo)o+eSXz*oIx{0<kikCck0|foYKqHPG?G8_=Uc2s^3gDKI*%<a-q9m*Blu
z30aN4^+U0O(L4XEkTq}T9coI|0~1seDIAGnjY|;>7-)XgiO>89Fm#~)u-r*1jtJ(i
zb8#WT&wI;6M1S%=ye{1aut>h;NL3)?4$JQFlcCJuDS7bJQ}?MfcPi~ZweD_SaR-)%
zGHt_h+wfEOaGD!VyN9!$hK#3E_H<@Ey|Slw)e}y0;j}wU<HhYlh~hA#G^of&oNHWQ
z2gSpMIO<Mx#|#Zx0rsQdmX)op!$duzvCF8GuEk-!A(EP=Y5sguDeX$1UV=|am{MrY
zA|E90k$rpCxSl`FG^oKSHxtz*14Ub3?)kPL#J8CYM*M4Bc!$Z%!<*ajB(I<}D1QZa
z4?Hypn+m<=)rJ*^VH8D--G|k3vUo~n4QoTNq%_~M6N@QI0!f2$t;Xl#$hes2t6UEa
z8ZgmX<68dDlWa&Q85N=fMkK2*AsLMtDAn3`pqh^LQ5oU<GUvw?5Y+WN;qn<Jwl&FI
z(;DaBN;usi{TzDSE}Z-;FG!1lT_{KkUDARc)KUnp84<O(TwKHsXe<{GgM{uXph+ld
zARbQl?L)T?rJWsFSJmyYTVty(SQlzp8vSG}XCbc6tuxaD<?GPFJz|t_6fF-Dqma2U
zKbXJ13IyG01zPjBMc1u%(X2Wg+{aKAsa$=m)SpD=YfE{rw*CdYChY;RNY?#5D}K5t
z<^xvWcHeTtio_PC?`%|HS85w_7#aDJ*uj7VB_!I>pcoSiT2TbcO37CZq7!(_ARZ|Y
z9-gD(m6gI+^Ty4lGKMNCHFE_PVT>#q+PV&vEzu+&(Ny@7I6Z}4jjCtf!3`Sm@&{g8
zgpW$-FM!qC#0IF%1v8l!0k<dPZk64w%Y3GDpWM0cse50V+n09lD-jNKpD%Ap|6foT
zeUU&D6e<+dxEBOvdkeq4piF6D5RD&RR#1vxS~3!pLAh=4se3TZ4W`|Ll<@_(U?eER
za%WM{`7*9!>@lO*c;QlXHjxSiaFst9of0Auh>9aq)3_r8_pV6fquFRedt!?~Iu(Ov
za~xK8(btP%0E+b--Gvm<rqFdg#db{FEwY@z4JTO0ONk<Ge~N7gx)B5s;IfNIxj=Q6
zDk*iblqpB>=`jSO2u>nEe<Qw$;4K7i19(iR%b<&Xbia%OOamko{F~&3$z<VjezL3e
zMT6Jkf9`VUEO5<PNxkph_}%eLU8h{vnX_RVM|SxiIvzMO-jM7K<?PtzAdOu)C*HY;
zw<XiiB{y{CDzIJ&eLi$QaOd1ut0KPkhv5g|Ts78eh`;UO_=E9GbFbXooAY2>Eotfe
z2gmOmnc!=3@U>hWw$&3){U(lUW5{W#-DtE~>NaW^%MoV7YPO7QI2g<R4XavbEJvYL
zg-%Owqmi-nV*NElZQXE~Edd1d?zIhv)zZ3IWwofe0xkokX2oO-=%N?hvtqtf>{$!T
zba_+EGgp8M=g4Ezn22^hWKzrtA*rtBz7GurCMZt+;xw$&M=vG>Ui@=-b{GDV2LM<@
zXXUE9eZ|@Fh>@M4G#gU=Jv`HkJ}P|m2S)`-w8+dcg%KB$X`>W5?>bN%VK3vCaDkQO
z58zU^FfEo%stzZW-*{KI$Y7&G{1D#!4g96u0APAH$Eq{9VryAG^VHUvbyuxBgP-ln
zv<%5DLn|%AvU4QOj%*EakfJ#4O<cnI8<_MGxdg{XZgMx61?C(Od#r?SsA`zlZhj2l
zH_Q*x2skJ9zY2wJn2PqnOh~gEW)r!^E|@1^Q}*wff3(J7d-gNt?-;bO;EX9fEr#?&
z?;o-#EbK!{iuDSda)7HXmbwmPysntxMqw|_CSwxL4p#Ali|RVQ?V1>!nGwYKZrC80
zh)cNrqtPGHaihEMjl^^;nvf3lX}F(47t#p;|5YM!Po1Il`aNH~ndvz!_Z(j7IV#s5
zTROE~)3$s{uIX7i{>)W%$CGw--bp=mb>6?a;sUEcT-~Z@qddSG@&sJO%h*3M?L%#|
zVb``}6EO<-E#l)c1&rrg6KmNGro`o09NQ`hy6_`wUy88<uf$lUh_MWB!UUB!&s){Q
zNjG4ReZf@NEl1XdSXJ@A!Svx9Y67g=@|h+JA+wq@2=Ic!CE+wn1eh%041v2UbL&y7
zbhZ{YfRcdp&+wOy11MIjqfc!e>ovQ-uxGjs$Xy3kx(>=Uhn8&Xp7!O5C(Q4zJUJtG
z49lL8B`(|Cxx}q;jle?AAgh3>66DC{e*<_aLPuVS(B>jSo2dq|DLv#hJWYe6Dk}@@
zBs#RRlDEyT69&$a0m~TBMiXjd%mnAu;FmvB#(=GxBW<J~wu!ERS9~AdK#jd_exF=p
zRIRmd&rRLgi~TSJy1E{+sG5LwN#qeAo5f22bOkQvG42b`h{DzQ^sJ;F3K3@j_g@ho
zwdrMeTp3ul$(3D8=C3PiZjav@&s6y33jcj66X=%%{c9Bi&pZwHYtx>t<$BrE^_`hi
z4$2h+IXm$GI}R%8ih(~$82Nn}<c<!SzZ|q2eZ!_yCugT3^dJqKa)E^{K~lF55K*Zr
z+iH{4lN{*FVkklRg0UkC_9h&M18G`-Q-3t|v7Lr9gn6IyE5=@wy)KYE|3=AeYs@r3
zVx|uu$-ZGtVNbLeZuDr+?wUUKvgC#h@KGgcG3+x)`_xA}$!W+%7o(gwKWg|+D}0Ch
z6Me@H-*M)LwqVZFNTVlR#GW8G9L970;2_M^nL=*RvfzZnLnb&R<V4Mb<3Tp<4z6JC
zu#M!6-U6pRvujt&7wqSnrrvNZI3|ts(v=?{Lq0ytk_E>(;35P68`f)vcOlD|n1Juj
zcT6V}bHR&(kPN2aEQG)ZVOjNZaG>~17l`5&z=iE|q)0(54bK!+BZ_{UD8wliF`9&f
zVolioX9x;vOyeDt1I3EIHOYr6#E%e#=0GU<qKKdp0SddqKx%-i;_4AHrPkn-m!vcp
zAM=u6GZqZL!o*ekfFA)5P$;S|sGW*l5%R8GJO3z&3xND@@Rzzl%HfPr6>&8$Gf$l@
zY4&uw?eq#jXG;!4{BNzKZ!kSLy4rhUrTV1Yd*TuE>(IUM-SApXTe|ne;^}nt$@RSl
z(}&(!-TUr}?~J_n-6#E@o_Kir!Rbs>kKEL=*3_5Y`)-=`rhRAD4;)D!J-d3~+=~Ca
zeBj)Z=%=#}=O4^x0%182UJLZ651dQ0zO?`R*UrkcJFwymE+2jB>`1d6u(I{sS+O{}
zUQv_wwEss%#}cz%>4Q)(>kDPQZP})tM`z@waJF%G*4MEdeQ+?_y!%o0qce}|(gVlk
zuH$m^Xf`+mek?eWZQK9*e!1;nwyycxI;Y#QWX^esz2dg>mh;Z>HO`y!k;+cUY+O}~
zZ+*YfOKMIr-z&Z|-z)y}5{kobea8>8Us^gwS@z3)9iw(u9D~+SkD8`g;S>d&3KY@W
zP}xveJPD>AGN{GdzB21ab3CP<KAKI%6H*`DYmd--bp-}jjue)U$5M(r5{V|0(<you
zQHn(984!g{KnO=uG=;r5J)NKlf_NUs@F4;WmuQ-&G+=CCu$V~mKgEtu=>iT-1(lFq
zhp+CqphL69AHXk8(ZwS$B&7!XFInlGqRFX36N8cmxEMflR&@#`&(sxln#?MVTe{Sj
zg~cS20X-y5vPC?mBEE;<7YI-($`cgs4K;B;Bz^)<(IrUN0p`pM!+>fq)n5_cABgKe
zN$@KY{)+TJ_XpFY?oMij1hd2Ye?R)<muXUcXXrk+9FV>JvS(n09R1GvmkbklK@jGS
zu?*9F=lmvtOO7)$d+$q|1TGsc8{>IVOMF95-p&kNkcTd;G`^Q64bNO1%Tt-o{c`92
z71x19`?H=CS++XEj>zoDrrFeMN|VqFE9pJS7&X_2AKl1=-;%>`t<?QIO=_Nb`=9h?
z2F}O>XI8vtVdT#m2g|<KJWM<4lG!fk-w*vaZa7$G_eQ0a34xl_`CnADGF91z#+(_h
z&ue$xJAL<brnW<_?Z{c61(pPA8tygTZOl}+%GIqo8@6$z!FT_VT;H9uW7R=wn=_tv
f+0&kLV%<gDH971SRs*b#rC!<M{niat8ruI4m``iI

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/utils.cpython-312.pyc b/v1/worker/__pycache__/utils.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5a5c46c8bf92ad65b26bca3def4e76e5bf93e9a5
GIT binary patch
literal 16353
zcmeHuX>=Udm0neEs9u0>5c^)((b!3G7fEs71yiEzu^}mqMpprBuot+hK@t#<Ln+D(
zI75%f<V;A$lL$&CF%>B@$~nrh{VzFZekjY2E`n0G%hEBD@tiaM*BsEtcK#&aeYJEq
z2zo}zpUgQ^BwoFG+kMM@-@WhN*Z-}u(#PRRxc(r%dWhrxf<COrZ$>u1aB$o`PU0j!
z!6o@go~O7Y;Yd0sok`cEi+wv2?xbhZ!{V+)#bgD_xD!IsJLzR<o`f&ypY$gKlYwOA
zWF<?hNK_?*lR*|25}{=EWHpO>6FZVMlQk^vOVlRoChJ(-pQukZOg6B1Akmm?nrve6
z%0zRrWwM3Es}ilrw#l|+`(!)M$sWanegqR8NpVu-IR|%!lS1!uQuRj|6FrlivXiCm
zKx&PZ`jL^zO?FAOa!{(1yQO-`HRF*Q-gQm(NR4vE+<CJ|$xCW_PP%KUg5#w6?Q_v;
zGg|GFTDH&szizb^t@e94X+&z12js9Eo^dpxw^F-2D7Ud#hdd;QS<LJq#wbYQyY9(h
z)EkvLS-ow?YPQuyC8Tcis|PJ_Tbj}6#Vi)-_@qA28DVt#zb2i5uSF*eI-}B{TqzCF
zI?7|1@nOu(_@XO3_6u6SFt7V1c_zA$$Vl;6ChX9?QZy5dC8DaTyJzBZLPC+s*S>S<
zROH0jQztH*n>aIpl+dwEMowko>D2LP?5doS!cN`)a$1rTC(@~z_^ckh9J?Y*3kg{<
z6MWxFB$7rP^=n@S#W*TN6Q`2XvLwY*vntYS<Qo|!8p}iy(M4H_#8Z-d1IgmNl8(u$
znpPs|RAMm_i=y?&jFL`9VvHWj>?k(*syrK4Gs+@TL$L)#K~E#|iD+gftt64wXm|c)
zITNMv9$$zjBw0aTQ!JgFU&zRjWHKVBVi=JUnO=})WtyANg>Ri8%4d}H!u;iVIi~x~
z6#77IuibL2WOs0a`LU@W@_RrOnVaM#Zqgy~lTOJYyCkRVmRzz&a!Z~WVU?TVrHXe0
zKoYks%s3<gYvx7VhqxDUzvPnz$uIkm7La|EPJD*d4IsBts*)=4u3F`8@RPyITsWwQ
zij#Akjb`cOSvfH;D<WHJF_RW!(L`(klO&7Ac*S^%<||5zEFvZ*X~{;Cv}PhgIiZf~
z0TwYAK@X|cqFX6`Orv71hVD`1%z~1dh`CB8$BnoXf18(pOMk@Q<1%*Ut*T}2d&svi
ziRYI2WiDdk7so9-@I`gmv+Tr|-EzjlaH`|9(Cr4*_gFPnT+94imGxD8qYO~Xc$OV=
zAuC>dqlDM`T6WIWS@Gf<R9zqQ7G0Dt_QyF#i?!vU^2^*@{gz~We(d<j9OH^R(_-ag
z>~5>|H!veBo|TGa59rwAS+2lW&?=wlv}0X%tjCHO{A11Yitx2cdzamF{Z>oGx7FH7
z?oH5Pee|vPF~)GQj1^n<E&Izx6IiKS4lE1HK8R*+xpLWS#BTSwxMerSWzRUua1ndf
zP>zc<SgkH{VJCr=o54lcp|m1L4+2YO;sB;dBA$$A)NrHjRu`}pbRh!3iDx1ag_=+r
zDWIiNDk)%<E0fV15rgLwatiE^&(uOPqRQV@i(d+TH3BmTMGPtt5Qu<saz3Mb?Nq&+
z6+$DKG*DD!rQ#Vm8JS)rGSNglv#3;qyk2jikp)o3F4cF~=?oLq_>!!<2+MURAW(P4
zQyJY&O{#jOMa=lDr_P&nOUUUWrL!U>oi6Q=-cep+I+}@HDJ=lNaj9}*X6roC6e=SW
z^ie=eql{88hCmmr0qeeE&-B`ITILkil&7*D=-x<#p;;uN65oqu&&~h!;#ej*KQ<qq
zAIU@&OvT8Jg?$J1U)?8<CF0X#^NX1)>D1UYNU5=FJIAi4m8-HcwvdSf=H?fb4m7yb
zv=v21Esmjmsh;OK?$<ZDrvc7eb*n-X8XpVI8?6JYuE#=CUL2=)TfU`_-i=?j9sW_`
zvkU8O-_8o(UUl8}-TCH5TR7LYPixyp1)B4%!@1T2TI&H;eWR%-*K}BGLZ$4hzmsh`
zyxv5$sx~@@bDfv8&P(|~V}3_NzEymG;=x3rg6n#P-{f3fzO2xW{_On*pAWR=16`YL
z=U$&C>_T!@+*R;#{fDXj?tIs7dUyPMXzWwxr<XqwK0LBM^kP;R_;PUcWA)P$4{v-p
zx;}U?EA(&l9L)6`)q0M8(Q{l2h^uGs%oPN#x-J*$(n4Kp`yWoOhxR|Ia8_33Lp}LW
zcfrFQoZz#8;fLSW0(<lOFJuEl56?ad>?s7f-V=ObhuwwoOVovt{Mf{*>vLgv6I05?
zFs1fG;Lb$F8;IQF03~)-F|xvEiXwrZBk{83v4Bb9-z9K0#R&r_$BJ{=0fFh9C?iZo
zYVfxiKtO~go^SyL9TUHx9)3uQ6n{gdxTx$!s0)V@(d4ugJ+k!DGhD;=p}D&w*W;Nh
zks`y79!jJkiq#{C7!ACP=2TK4ZgQXTpLPCMm$DBZAn3d*FNU3LL+MVmpbSyEOBu(@
z*k(Hs)A@)>Ge^6@=vwP<qrWurwYqx&EvvMpZ*uw0-dyJ)t@99=>&yD4Z1Z@od9T*I
zcfEQ4k5iB9U%usE74CFy1RGX^Yy@RfY_IKcv;`%=UU#grxkAXWAEZ)^EswR9m$?u5
z323CwWIR=bnh$w4Go_2PgJ!}4Py<kxy0;yFd7)Q8SfxFGllwBb<Ie6}&8Sv0`iUzy
zenuNVvmQK~70$9TDr^N9T5Uo2n9ZeVhE|tx_7uhq27_XFbpVUVFG9tcv*!Y(%*Wzk
z@T;?=EVy?GvjxRw`&nab3pK*t6_PVkRCOR&=PXs#B80cmrZu<Ldj-nI96Lgn6h#zj
z2scOjWXrQ6ELUu&Y^hBpJ)kn%satGRHe~@q-?M}<tazU@64$cVDs8=2d{B>|C}Y#Q
zCKO^RC<OE}f`gRcRZdev4+Sq#aFPO%0;UXfAx45YI-QUsu`3IytFi>4E<>G2=uDiF
zF2IBlGK>We`;GlbjG&yM2CB+=NpGReZ>1IGt|8L|OIJ`{DDMWVCCSDKWlJq(H_EDh
z1hnbRhwXi37>P^m+p@SVQeUIm8whT4kPv~6wa!QW?tD!HaK5=c*EFs*jjuQDTCD=K
z2b%A{^2pzg%#FU?+5H!^z6)8Q8wG0{?;W{&WNkpJ8Cn&7-qDp0RDKx<-VyHi<eG=I
z=Hcx439b3Wdf+4^k_ai)3QDbFu4P<n8P5uh`G%HU!+_Q>uo~D1cI1M49|iY*+0vd5
zwdO-&F0@Yz?aRJ6p@k+;y|rrfB1y6rvU|>Hedj>`=k1*ay=-VGJ92hCa1O;fK&1uc
zLOt2u{n_CDtg!!C7$SyX8}U^{o+o17ZUKuUf9o?>x~0ubYoqeqBK|2SkZdWU{#Zhe
zD#lq>IfaZ;Wb!Mr3T$GU>r(48>s6BbHr4Dz00j02-#d8gVAhY}hu%AX>wGTIr3Jb^
z5A+nAT%gO48xExzg(t!x(sxtQq#TLpz6fcXIISZdh(x}-5KWjl6_JRPjzJ|RU{L7L
zqtFS1=|c)>^2#v^1}UJ;qq{Q;^H8pd&lG}5z0%amVsau8iG+D&4^r7sj~XmV+Pgvl
z?J@Nxf?vPO{lqm<aE-dZ!Ee-e7Tgp8x3vrwDp*wD>IVv57WHwys$cq9bc%Pm8z07?
z_qZDi0p5L%UpukM(YxRoav#{(QCD!|jfUDg3l$U-IA3s8y>nvq#;uM`FH(Lr$vfP=
z26R)GV)(Nk3pF?Y36hG3_-}HuQ+AO;fI~cgh~6H#!u)oyZvi<@7W2|UpJEP<j_=Sw
zJRh0(KIuojfLX7C%D_Yvlmyu;d6^l_CwpgHk{?E$N+~1-kX|VVkWz(|szq<OTCcM0
z56ncNS4<n$8QpK#Q)p3f4!C;Fw4kVD!>G1DXUVP+iA!aprrr@_Z_>H>9ybfMhq1Bp
zBEF4)^bun%4<okJP~Hn$k-39Rri$F;K5!V!$m>DV{1lmi*(a?m>eWfpC<D6-v&yLG
zp{%6jL}VJO(bWhYaVGRSg4$<_#;i30DNLW)^S?#}o7wqwHZF_?=DMWl&`RxXc}nHz
zvdb!cl6%h+bIfuv$D26Stau!xr_$7IdFH5hTOJE6=!m<WY=x1)@sZ1@bk}ivrwdd_
z4i`-ti%8*F>U9%rDwH=+L2rzu=NAoKGbLXynMvKPL{qb}GD)R^qz{?Xj<b}iypB|5
z3PHGni80+z2PDh7<B{ZR@tCYcsnj$Az0T$(VlAsF<tXx0QZ!0s5&ERaus1!sic9@l
zIOur=|0%Wmy9gkuc5tE2Y;YJzS6Q74v}=L(TwtFT*q7aZ?s4G!22Lo|-CA`w&PLw$
zr;S{FOSWbFaox_%pwQ)eQpMHpy2BSLxyqr{lkZ);bukwh&;kSNfx&#JHy^6ag+whR
z=0h#{Q2j5x?#ik{05zUaT{^6^|K_hbL{;LxAMQT3+ogLKj8k!3VsINH!D2nMo7j#b
zLHjrBx)x_G^H)z|xQ_GOJ1}Eys}-Ba5>w3RPS_}n)pHn1$W;(jsVmk|pq3p4wrsei
z?k&^5U7-)DDMEQ$1rBR9;q~C)!|y;=XNA4l;NE<&CKv40g1u{TEeNqb&Ne;taHehX
zh87l7NY*NsDWD0_U71A~ONd+aU?dVvrP3K@gj6A%TnRGlGPzSj6`0(iS!cskNOx3d
zuPP}D7(x}n={uB00db6a9l<~5HY%&LJG!*W?sZppzPj#C>~7P#t2tlOzV2$zH#8&u
zMBok_`AK8fQ>WvAC+n)algYO3)*AL~at^l#T-VqC#9!<7L6)?3tkpg^Sn$%9j}yB$
zDgDW?!@cuitbo!xvj<;&N^e8HP*3zq=y$Sh0f#l`2KG$`+9SamQ|q4PADSA*Kf8fY
z<@}Se`7C4N1jl7;^x00kpRtXjYVCO(Y)cHMoW*(Hhtum{I4yK~htH5fj6KVC8E_{~
zENTPVa4z$x;o7d$_Z?`-UDA?mpd?wi%$>B2y%ue?8!ZCkfU6D@SD}EcIJP&;0u@6H
z6&+jqyjWo(qvJXk7M9-f5fojL6|!-QY7}<AMG@BP*j1GoyE9j05lR+J-eP)&m3@7R
zpl{SL{>eAw*aF0r@u`kpUYMUxD;c$@sEx8!jU>rv&J0^qZ@&KKC~IkH>Xf<4hE1Ji
zi$yLVYy7k<Mnz)wF{V$U6XLFuB783JfvCeG%<)lCh0`P<i!WH|!?4_E#MyL4T$+XT
zUd_l+X;ggeN?aB3KbclDXz{9?SQMoNnTW*U;DC1|mJ#DgC~ZmjNepv8sL=$lvG%Lt
z)H7odA$hN)rO~Bx_E5mE)9@#tYH`e41_ftA?21?{7*D~~A~G&NC@!@X`w!e2DBBp}
z!)4Y2;(j_0Z4!`N;CPbm+?zmz6&@yi#+l`T#1VJ?GyWdWbGPeU+#>()o!9xW;}^7F
z$VTi+N%16HJdV+EotMin(tBuDPGMgvN0xROjDoWt7^T!jlwQbSC~ArE#;Wt@AfS>`
z_g7>a%vSCC;N|<@UH$HR*KS?AU;VweK6v>zOeK1!sfAy9-JZ<nP9ft9SeqAcV3fCV
zg|+-9n}}pu64fiwd07=F!d~4M2g|6LD5@$7x}<yy0W|is61$>%USrIq%u_~^GMrHy
zYu&6q%uFh!XDC=gpwbdx2N@Qnj=y1El($j(PpR5}K>!nJhzr!;N&boS@u^Su{P56!
zIF#)@`q+Q0z_|gb4&FNmv*W{+^})m0@DU*AOS=nBr+4?J6WLk+v8PpBAh^1+?r+O>
zzVOKZf?cgK-#D0U7|ITv`!x2Wk@dZ2vwO~?`USqM{tK+WMk}#iwd=8emtDXACkIZi
z_n-N3+b72!@_$zGQN@qiwEi>MzO!iLTxlbkf7fsRXa5<Mko7<Bt2tgL=pMF5R9%Rx
z2B4RTd=gPKW9HFenZF6c&Sg>!O(hd~_5&8SVcbqMZI0Uue#!9vIf|gaoyz&K4fTLe
z@}9B73Nv`RqCZ7P7&={!Md9033;?jvt8^#BrH}^v!1J1k&n~1FR1=p_C7J<h!Xlyq
zN>tVy;Rt-MG5JcGT&#c{a&(OP$}rU?Gio||fo!9fn78Dc^Kj70C!wN{CEl7`158;P
z$CO$1Ad7(=jc%$3fqH;1yV;W78xTxI>A6gs<DfV-K;qU|!C|9tgz#X>Zr37wP&_71
zr_(sOr{E`1uL48iYyoPfX2t7Q;()jLv>GR$DL^;HCb4Anc5_7Am<cf@%aV!sWJkgW
z+qPe~^CeUuABw{<$G~*0U;J-806QNMid>5(7UZx?7wAARvyezAH^FVn3Ig4kil(sV
z-=TzmL<xb?_RBYagKBUL;bCbh<@ZtXzvEB+CIV>aU7QfgRy5>;b*q&dHBI+ky8BYz
zTm4@9t@iu8=54-z`u&R!E<W6$wGL;6kuPf+?;W^%py1|eyEi#!t>@-Ns95biH!t34
z)S#jH8?vqjLy@|L=F4^)?H;z<Y7v2Guy@<CWw+;-K4EL|Dhy~qL}ekC0T+X3N~ADd
zFW9<(<?L&TR;rkW&T0$K*QcH{CsS`Svad5$;@Zwp!_72mxS5_)$J82_HVfMkjh3xR
znUJcVjiMLIGiz`grT+?ls$s1z)LLuM0&CcYzu~^1`8%_&PBxQzJ-}Xp@@b#qnAt$p
zgLVQl5vY2DvXDxF9J`GHyhs@rHq<h!whekZTZT9XYc&sdFzh_AP`kF1)5wK(yW)m3
z+_~%~8^~?1i@V(nw=ehG%xkE3z;rUZaUymudr0KM7G1F&mF>JjaHpG4jB5stoBZuC
zG)&U8w>+igZof#HMA#AikKj1Au$N`<(ZalV;aj**0WE=~uR_=`y$E1jAdQW&6eKIW
zJkay)k_;}Uta(-q<e_U9#uA_wuvJQnI1PzbZKzJFn7*E}8-WHDRnaJJY!FW-qx17b
zF`i<bo7#SLr$)tNlEm0wm2Glq)&kQH)%i3)4((W@Vy!Vw7&bu<`X%9*fn>n<1qBKw
z^_XM{yC*~%BfD!ux+rcJ#b;9}P4`U{Qy7#3`SyK1C|;zCLE?NgPSa}W>M<p)sv~Tk
zsEg*5mjnH|84-wWpKFa_ic_o-vw}`hzf8o2Uk&q0Ixy16mp+V{W`ic&rY8yfrx`=O
zLH9ZkRRjdE<3w@L#T935MpKf=VAqh1Mq8q2BaJn|MEp6c^?I?(Z%!4*XfaO2*r0|0
zw3{;$jUkz8y-{@n?m}kc83LQ@9`Fn9azXKvq_CiT4{6FDQt%$-HW-vM=^{L^cJ-=q
z;<~TcMZMbawVU_3$o{DB$joN8G{M}P)@&Fm<pBCXrOeed@dZwmtyPu#=-jXI$4ti%
zGd<j)BUx9=Pn*N5Rr%(DT=VY7&AV66=XV{=2D;bIKMIUJadIttU?_q;S>Ohb^11LS
zEqv;W@EJ|$UG-&ad-H9(vwKc!ZD+D@#0$+ip-&U~a>9rvj69rsEF9SIcWM67e4slQ
z=+^@M4}G5pUU=f?2G8;aj(V*b0d#^Ru16J#Y-Sm{-9|D=51IH`QjSD6LsFc&V2Llg
zBt?2A6KH=9j4C_vJ3cZ|%kTmk)}f*Yyr>Xb<;XV(v=j}LE%Cj%i`S$GJGZk>mSJC)
ziz~4exaMq|04kf0b<VeFgYKK4>jAo(_*~-Wt*}Z-4zhD8V;S2vu$@oPYFn)>DYwI-
zTzp&Q6h7t2(A={J7PJb(i4R%h*mkVAXhid1^$O=k+%AI@YA~B9d08|tK3JgGO#(Ok
zox&_mqed%{fK~kV4#*5=*cE-tk{QRLLNc(mV7(|5m|mF1A?{_mZ}%#bxxg`rOccaa
zOa}*3iE7$M+lN6eA-}!zV?aHe85c+@nCNEJod*h=(90B=nT1r06jw``-We881Jw+@
zsH6ih2wc5piZ`-Qhyznwxp^wglvvg$wykYGw-9SrSUiUNoUu3rfGWz6l_jFWfK;=)
zQ(HFBl%XF(^c9=mUQE$|O9->#<wC~JHSn^y0Ct8!%;*sFo<Meqgyq&ifZpXB+-Pbx
zk)FmqNo%gn&Ck{=ic4k?rXW_7N5!FFx)?R}Z$WwMv>T+YzKie<CrF(m<)dW%jGh<W
z-V@<UcHUPAVGO$fajS9{f$o9532KV&qA@G9BlQZLg<=a*RQDiqV}3!enMh~OSq3Co
zI;AMEDh*Ll!RiZK>kp{Se@?;oDfnZ`_puAUyJ%vSKcWQFPsNfA!St_@ta=eJKBB;o
z50%p>WXl5O-=YMr$6J2ur=u_tWP=^+esS&CBY$t!)tmMAKJ{=r+Wz>p_3Eyh=YLw?
zvFghUJ092ctu1}>(t6DaO*okoE@;Aq&(41?{0_uJgNO=^?f2*2Pd`Ynw~u|%Fuv-~
z*NbZ{TK&kX|4V<>>Rapnmiy61{tj3);Fu2fYr+1<!SLge!?}@@+Q`YrBc~x^s_TAU
zAI^rt`8si}`tCm<x{W!ZLlZjIyblL8anI+%-a;?exU(?Gbq@X@_(AXsai=D<uKMnr
z-5B5haA`GoAGfx;aVzSHo9o<V2pL-`S0gw%BxJpQD?b?Ne=kW&Bm{W~wmcSk|DBa2
zi+?Xk{vRcYSj6AI^P;3Umj93Bi1IJ7>6G^=AQ_^pQSbo;|B3=8EQ-en24@f%KcGA&
zG9FTlM27Mw6p*Y?{tX4}@bd2v+fGK*l*tGK4Heq%6C^4A5)qi94N1|v?(chudrm`H
z*HG3!R4yrSD6k|&zJKqglds+XgyX#jes<ucAJ_jU-{%J|z)aQ9_f+^>OAFz7(gMEb
zXJkctPUywSWG(&4oYr^jbK!WQfn-H1*S|N{_oCMK;un2~HK7aAVq#<O$?Tp}wz${@
zanXOou#(MUxO#|A8O-fsUQgTJZq|(XdEV`(?QGNAUB*=TMRHTy&PR|ppY7a`<j{lS
z4<`*SJ(Ak&SVB$7$()Lo%iC(8<h|WB38fx%OUhW$?XD$)8h!=xobqrqZhfxNtzUOE
zj|n<KP9QOExXNJij!U>UWtqZZ7%<Iw(7&Jsinh;YKB_?Vlc6~$ZS9-+8lPW3$}AjK
z(^dl_E^feEdHsr<vRh|3W)%Phc33dnL9m(Fgvr)nTw|2%J|Jl(4YSmBL*ZAUlZlD+
zY&=F9?`6~Dbg9_JB|1Jp1BA^W0Sh>;L=J?Fqr-@J4!;<JL3w0WiOyev(wm%*!_q@P
zB*NiV76(#kQAMo`Gn=R9VQf)wL@`WN5^S;fWK~UAM$a?MrXC&^FJEE?q{Q_oY&49v
zEU{uE;y1_wdOfbnRw=ShT4jtyfO9=QgCW7HKu$3n5RA^r>{gL+qBza2Coui^wXmS?
zDCxd+@x@PPC+nldybx-waHM3S@oN)v#;nq{#%kDw7-7BAo{k8nLvO`-jeh*brUE7%
z%pz4VCPA+(>od&sw6&Fw5$KN0e7SMH6)R-%CIKM1c3|KIM@H0n<%g(qld$l2DZ&++
zxj;kCAJ+WgoPUqz-;?v>cIPYkVC{ytHs|fpygfPZ0nK~h=JAaR@9Hb>Tt^o4+d%96
zX{}7t#vQxL##~@f3k>E0`yU1N=l%6o!>1qlPj3WkHlR7bmFqaHbsWxhT+li$Wc?Si
zt_ucOouCn=5rlW@{utO2PHOV0urmsNvS|HAQC1Zf6(v)%?!m<o@Q^}~W4JLyW@op}
zaiivSICV5S4WmCUoEg_l*rldXoYC;h#gdDTK5Df0w|M>G2!q8BzAaVpQ(1!?v3Me~
z^@ad5@hfz&((8;SZST}5GZnL68R?B%^Q>Rbv1^xl70ZT~h5eS%Jdhb=;Z4|Ppaxme
zdi5?=7sa6B$fMSUV@4alKS)J!3C#GZQL|OhI=z7v&4DUpVNvMnjb6)26-hE}gITxO
zWlna{#<-vJHr4ru6#PB~w<!S7bH+U$azx{|N^*u7^4LL+$!Oh0em2IUTQ2h8w-uOU
z*vO73pP@4N7r&2y4qR~ZJpW4%$M^h<8~BP7|AGtrC3pB|+)<4?`W1KjD+-T)#qIlw
z8~Tbn^%ZyaXWYsE;S7D{8vT{$D$n;m;V3M;;p80tUpadCodpiTCVdvz=LFxvd-65?
z1t;DcjV%Q?-e7f)Z?l48hno1te4v`{j}@GVZ&cO1m$;R<|C&~XORPwsvi{$D<Lx&#
zE9h%~CEtZ#?c5u_i)(9$mzPIENqPF}<HmPCsc7YQ<99x5HEXf8M*P;tiSLa%{M=$t
zs~ak~@r7FLooh7@zWvbkAX1?6*rVv9mtv=RuDj=ncMpFMx3lh?xL@~v>w{L9Jhfn7
z!HHBfb-(-mTUK*OL30f)_xHSi=)oZk*KR8)2^Vmi?(e=kS)hh+*$J)tDR#|heT+ZN
z=UGDw?=L@C&NdHebr>QgZ)u;BK%lL2t?mb{AGB(%qlF5VR;0i_4H7IW@g4j{K40BZ
UaI(nQE+ewx_C9q}3WJdU1J6Hm`~Uy|

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/worker_base.cpython-312.pyc b/v1/worker/__pycache__/worker_base.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5bbd161ce8fd017ca0a5f8a50f8053519406b34
GIT binary patch
literal 16809
zcmbVzX>1%<o?rFJzQ}GKB3nGf5-+hOs%h)8MOm_FQrAf07?y00>6vXeyNYB}eb80a
zlG$#~aJ)`HC*HN34I+9L19OAfEFEPN1pyK#`Qlydhh6Mq!M3FBo`Qstu^t5Zkf1#@
z;A8>>`TgIk>Wh@T&Xf4+-RJ-P@BZt?Mvs7yu>aHe|9Dmq{+=>sup5c3utgAV36daL
z62dfntqDugI&HO3+Lo{-?bG(8W7?5)PCHqdCDAb5z}mZ#?rAqGvnM=B@3c4RoA$B1
zBhi>_nr>ogXTqNhOb1xHA<>*{nQmceSE4o9Hr>Y3?!>NS`*b@?dlDVV;B=6sy@}n)
z&go8;_9eQK-P7F`LAEQ+n7=X6liV}CC)qpQ%j%mFVsh{F-eli&pG8Qy<o@Yi{O!Tt
zUi|f01-VHcxQ*RXm>xvlDf!F!A**mskOJ=tQuA%A(PkejYe89SxomjJ5^DSJ)L<%P
z(OnbKL?SwqkV7`T@#<?Yo{3DHKQnRh!qhq4HlAA28?G)b%CAI~kX84*l1L;c(y7__
zoZg|zS|pZH6gj0uuA@8>V-*<D8&AcxNFqHqCo7b_lzwUaCHc*atZK-%UViz~)eD!u
zKRJFW^3s`e7p`1==`|GZy^&U~$x1|#V{-gD60vA(UXIKv>8g=C6j@CtuFH}1%tB;l
zDe`6}nn*>HGWvIC7Nw{rN95G?xROpK*|MTaoOY(tDlWb<K_gySlw-(xluRm;l(qS^
zgpD<xQ=-XaRQY~JTg+&>{|XvPnS^W<phf$*x|E7tPD^s)rA#Vi*67XKi>#5CV*K=Z
z+-PLBQVdLGVcH@I(^kncZF37!zhsr|l1+9<cKkVTp-#C$YLHyBKFR&AW7;J($Zpvw
zduFY>G0?14^1N%G_DTbi7hfN~K71STZN#@pYQiXf{Lu(b0E2znkGf`j0~o1!VW4_x
zJdH71P~R%G%56Khn6t>c`1}}S*Q{M?L;H4&y9?hAsa+1De7EGvHeiKzsRN~*Qc&)q
zQn}kG-Hp;7lsGV7C(?VQF1Z)^2K4AgUX*%h-7LQc`Mp*7UgY~w*DpJaQxH)yAP*Yj
z?S0pN+t}Fj5Z2X)+I>r|(4g*lmBG~uQB}_VEl-Q_lqM^)(U>f1^HEI%{HJfI;`K|H
zE{j@Pj3wk~DzPN0@?um0NQv>}VnQZ>ifZw6N)>0*ibq6{;<K|d!M`{kRiqnHMGlMO
z2{kQ7XH-pz#xzyLo6wYWLR?HlQ!;YNWF{4lv2jL3IXo90!HjIMN}Vh!{IQ6D&nSR8
zN~=n1^RgoHN1}#V7u{R+?sQKg9g8L+N;Gv%x3joIienw|nT#e&5%wlI!0Umy8j%$C
z%J_h~Q<1fdlA4M+tH6VBhz);RL8NX8IZIB6l&f==1p~*Fi;zGI13MvYSuinlRTH!*
z_d|>7`HWU*L9?=e7A`Yg`JzR6WVB!uqEbsKv~ZXuXyG%{l`mS9=SGXBN{yL93xG2Z
zXb~{el`mS9SBDlYl^QdJ7VdJ|ve0IxD_^uIuODNyS8B`@T6oR0WC3mSB^#GP$8t{8
zn8-!Q*>b{8ClM*{EN4Y~zc~`Mud1^nSKeXHfn2lMQlggSy|G-YS+`^h*`q(jl{0{(
zM{xnTKORlQvmD&hDFbE+_!rYDycR%jx%Id*r;e3#)V~U($HWQrNyvDD>}_%alfj$B
zGpy-U0sS%Y5<LS^lCQ_{zT+uLeygS_y^JyOTp~S#R+K>-yyWsj!L!#gi#1)UYO9~o
zm^fM0jougAH(MP&U67WVVd@{<nE2{ETH#e|^KsQYruk?}0>u*f`>Yv&jt2w~r>Mqf
z;t9+rtK|j?y($p4fJu{qax`G7<W#6l38GH-C5d_&WLo!e`pVB#_a@Rx)T}}#Dw!ES
zA;CnV(lMZ##L;Zh$Pe4hwx}Sn8O#m@W0tk0XH;3a9%aj3GD};oU5@}!rc|KOav8x%
zoO-8IW?2&fMcCYss`O$zN+(4`43sX4x)JG4z7lh*pz)y8p$6Tq%86Na3cLsFTkgij
zQ|YbK2_yV=d{j#=jxNR*4{A|mPSy^-m3ij)v)7)HM-%ax(Zwa)ZEBPjHG2K&QI0~5
zPh<v!CcL<$yCNJ`BH30>b%+9m&B72SQ~xKT6`?dFbnjcW-*W|v-TMmNNAlfAD7U*V
z*ELk=I+X7^#9P+pdiNK4$MU^nRM%Y;4-~}b^5S!p>nZjO7kZB6dyY}Av)FgA(04lD
zcbam&#evbnz+`@4l5%_N>S|j4+I9Gm_!JxP(ZKMkz2NH3ySk}U=fJA{eSfhnh>yFt
z?-aEeC>m``PGJPS-uD*6SoeL`?k((Ch?OY>GL&XChS1b4K|{>LJC=|oJ9<vmL;|Py
ztU)yy^%XC^A~Nu;BhBGYz+O(JwF@S}mZdX_l2$&kC}E7M(qy7Cidb*PtwsQT{1wm?
z+3u=)+E)82I&BfMUlG1++Pmr6t2~X&ci74^FDk@O$Rc}%#6yVkTX-h~=Rg2TIx{!V
zaHIkIqu?i!nZ>Yj81pDc5mhfg$X^K<VI@KhBbmhr8#vovwTs6!dYy)RhN5koKq0>m
zBCxjvND9{Mae!_-CeF*zgoZWF%du<Xa2h<i5|?DQ6aMTDnm5JUsG;!GC)=0qV*^C^
zXxWbH<<iJT1u+_1M8a2uN3N#r>wGfYEL2e;gA%CV-sBNc&BW%#s45bQi>Kyr^5%`;
zLO73=P95ZZ%D6QtC)3Ij;}bdWW-wrcD|WsgE&}mkvh7uSWNa8OCm~^rX#a}vwM+2#
znLwpCr83FL++rp&1G;ui<@s1SA1iZ5==<bzI97EIwA1ptxe>=rQpp^UbV^i-T!Rks
z2|3J#Z0yk}<CsNx0g+1c(vH~!3X};RkUR-i*{-^6axQ>Z#%Yk9A&xGYVSpbX0SrJp
zVgdY2nNu{&1jzW3aN9V6Ws6qD<=r-VDlRK{Pg5MQ2ut`EvQFtupq+U1NywA5UWmI5
zc;-<}Q<Q@kUw46T;DWG~?Ob>94znqh)?sX1Ig505chz2NhfShdCG@@`JZSA)J5uNx
z$#;!xhEIKFzuS6d)%C#Jdh`4}Z_h7%ZNK-ul1=dK`A)$7iDhbMh;tLl;wYf4YH{UK
z1xqpz*n<iJ)2*|qSoJB>vuC$K2=kUeCy9F~-w6thV4kme>Q}&gWS<^iT!iEl6=yT4
z7{hD~xtUKa4#ou-ql(=Lhb+n^j2Plau1q0aecHM=N+TK@tA0pT<r(Tkto4fUg}?dc
zz^(9y;kzw;cm4gFuKw?Iy4b>=OTY{Ul7{e>7C8rCFqDr$$B@0iG4a#iRdxE6;w3Dv
z@&NQICMwNz4mFoR$IUKbN22(@FU;~I<UA%=LK59naSGfu5L}dqUqnk^lToJ5r!xsj
zoB=aVOq>LQnUtkCP$6B@EX3e4k|P;&MvDRq5MH=kuj!~_+CgCr$(h}xB&+ecl$eYz
zv3bD2&e23E009;TyfQm_W1f(VretDNB8hy@73S6CG2?1d1S_n_2ct@CKCa0zh^}1N
z1>)hj)&!L+bn8_QQ*Y$-R5tD*SalCIHOth|z`HFqcz2F#fg<1eO3q&S)^j$fy|FqR
z%B&dIjJv~$(B&C;*LVuAY};SW)n=>rS5vc!j>>6@wo&&d16K4U21)Gx8AV9X;wh^j
zlL>+!;7m>+Mi{AB(quI(zO1slE<;fj?~f-FOB0c;yTEPCOeY~J&WJGr6rstX-opgh
z!Kzz)e6!!L*|P3q(u|=+`G>wN<suD2+?EMp#3t21m@6tt&}%Bu8lK)P{O8pFGDURm
zdIMWTT>9?we_}wu@6^xlRltZqsA5Z~Mut`8w`x}L-6vPxsGrrf7*B2AwORPH+WD#}
z#S@^da@gCT!IOYg&E`|HHMq1~{PV|8N%(+a&SOYGWhE@&TOSsvMO`q-86#r{&q3_C
z4n4vQ#8@zX>@kog+Mo+Hiij}4MZ{=&6Tv6z#Q=Ew#wv9+8><wrV;Gf0T1bUXA<$Ov
zi+R6T@Q>#Gqj&vJZ@Qk|{-n{G@0cjJ!LScakP1`GECRo%>5LMCK4D%aI<UkZ_YI~J
z4Noa2&}Z8^UFv*BlhQX*HBfFA{xNkqNfAML$Z{6Y+Jn?oXqaSP(#A(3x+g+d7#eh>
zeUY-B9=V1{L`ugZ5ryP!-3C>xZUbe|?KA0gLV1b`?NU6ZDWs`V=o*#d6g@}L^At@|
zL|m9|O{H`vC>3eyiHlI^VwGJKy-3kZ6p`jiA?`qVnWAQjS}7uaQ<<iSh=KAWilP+7
z5MfcWrpT0XEh_0nS<#l1d8#Fd;s-|uz?fmBgHjar<4=7Pfd8)WmDT2OmD+{AeP1<>
zI1WGB)mw7li;LYAEHzLHOn*zsO(~DiH(2sg$|rR7mZ*KHN$@mn`6=~7i`CJ$eq_V8
z@%rZQv-$qxTLKEUTt?*Ia@ieyB_FaIYKf{on_!>6oHQER933T(#nHER=;Pxbp*NBx
zr`0jAHosy0ckWNz>u=wAVf`ohJ<m|LflptcZUb!mlFRMrD~h8f8@`X+ooiR~?!8+M
zWJ>Lrw7BO$$%Zd#HhT`|-G{dvY$=E~Cbk5Y#$@ZSmuSvASB<Hu=rAkVI8s$)<3;vL
z(b~ki?W6NXUT`**tX9XNwTa(geTTMeX2I7u2|oizb_aBQ<zQ-GxBf4RZV9!<7nol<
zVS2F}rWc1~B~yjul&rHbyTJJ3l)5ArObHE=TXx9~GF{N~WG(E>5aX7-vIliu*~{yy
z>d7$UlNycs#%=XYsBeO?#v?aY_2MR*=63}cY+5jGGc%u9rB<|Vk=ke;W_D?X*`>``
z2^m~=@x0v5cLAeH5Tza10U2I`OV&`g-pr}#s|vVhSs{&7G!0;7)cYzaA!CWCO8nO%
z2{lmFieO7bz&|jEN>m?Mh4WHrWmHbh#lf_Q7c|bZ8H&k-%!VTcM<SYygU>8Wil)HL
z@ec-*U^#)hv$lL6r1SW!99x1RhO-W@Ldy_WRLqlt7@vZkl`){QShJlG@y2`{(mjZw
zoScyrwF=h};s%yrE2C-oJ_%Wc#j9XWsV`X68=OxT-*}QS@r@C-a&XCPI0b5v$`-ly
zcb?7{>^DyA4JPsP9lyc1GsX3>E@d&s%{AURrjBMAhD>9G%*{}yY5y7}plPJWH|wDG
zU-9is<x&==;wK`^f<)$<vZ%*$gf3Zt;h}8EFv|pC*`Bj2T{-(sW(B25vck0POg1b#
zEF>m6ObQBt+d}_f80g1z?2L$cuTw=BFmQu|qFASpsImgE!#0nq!b*}5GA5ek1c4;B
zFoizYR!SQ)7y^w6wt!d2Dro>y4B)Shl-CDt9D_v3e)r^&s>}i69Q1aJVex$Wh75gJ
zWiSR!$xK3vLl`SR8Ls4qH4mHu^!~8@&C5$z2NW-I#hO^zBN+$@hG;#sS`j<D^5W&m
zgQ~WKVbim-csiuGVP?n}woGcBt1q5BR9Q&|dUw2Q%#nyfD4!P(iTvTJqvnyQFhzp9
z=e^Tp`h40ryvkC>6A7aXtVHxWPTBz8lTVF^urTtiu$qcllx~AP0@}dU7t2S@PpzDt
zGHn;_?5!|KK#I)I8Z3kwaw%CrrSdi+-N~<&EAvGvX@*=0j*)m^*#9AN$a)7e7(ln0
zP{Xj^rWGy1GRiVKgq&QlMMjazz>J4u^(xr~31Ur+4>2X#&Q}@JRE0Xr%KZO;di7OA
zVB17t_g-kc8;c{)Y>qs?cI4xeKRfx^>!cMA7DER~7Y-6XdYBb}6$thhI!5yyqpQAO
zdOOxG6}rbh?;iWL@9Y=8zWcs`l3VCGvHIM0rmu_=h{JgtoBPwQoe{&6*k7(KW868|
z+8<+d&hOOepIPBfM`Ch`_vuLXvLh*a{U4lo@5H9JujmVWaPhs11)rGriT8bdr2XRh
z8Qn*q5=jDWf)>;WE#<AIp0L$rE3l&Fx}Xd~UByUr4UXJVk(jey8^-p$RXxhM(!gNW
z>|d9GbX-~hlyTHxfWAn!9w;;T1Lc}jV+)ms!>J>CRd|Y$C}k9r+?DAfCmIIYGGAro
z2}3gz-C=gL=WhX6i!?cmdVv~&HbU29)>T$Ag&QruBU8Kk4o+2fr4te(KD8=dFQ1jw
zWP7&5e^vD_>As04#}n`gZNXb7KRmhWDni$p%X|Ba-NPHfeD|T%$@ec8{jCLmZ{FX#
z{_N-e1I7N)J1%gvH|_TWBH$q~QgR5s0S5898@@bhgv7xbh#;y(e_Q_q5qC=<p1eK~
zOSKFyn`Im5pcSyupR;KMO)Tu>nt(RVPi~R3ofNc+Q-Jlh0WtJ!NX6VX@$%$&<dq9o
zF1&E*Ol0!RD;FltTnX9PvFp~fsy7(!NeXH9P!YyQ`NxQKJ8f3CU6YqoBK{TZLoKu6
z?Wg}F7UkFIqn<*9>u?Ey-D_<h_k7fo_ruOuY#La#6}?S22i`lecK8>4f3p9N_CrDa
zwNq$rz2*7Pvv&BV|AA{@{px+!etr!eKvU!ztW0xi%{>rn&F;YiCH%MDL(aMr+L0{g
z30CtaKwESKbz!C9dvNA6xr}#6Exkjlh4SrGx|@CAVrQ2e3Ah3-+ZfMM9?c?X6-SDl
z$E9ni3p=@lXe4g3V7l8W`!$kCS$NEv|AAwhXSHlkc{P$YS&*D&`D4#yr}2sU)dl5m
z{=Zhb!${_emK}4#vJ>tk_Jz*6$&kHnQT{+9-2n^WAdS~FDf|es`Eo<9VSz0DbwO${
z+bNd!cWFdqSjgFP4dpX$2CTSp_CFLPcdh}kC+9%y{dt243-4I8ezT`GXr{2z@)+hU
zs^$IjIp@MYvrXlTw&nN#{<K}#d6zlItcB2S&R%iW(Li~4SU6y&DqqP*Czf;GHsBks
zKGp>?QPl;hQL>slUUubNE3ZpU%kIa(Sh%h;vJ1r6)P-eF&ZBhZJPU{FDv*`@oMKjB
zFXuK-0OwiR6LAZ5q0$nskR+HcvjM2*aWlR1+O@HAy~{NHRga*ZEZ6V&cFi>&71*n{
zOMy5}^cR-jCyA&GVVIjRW?fjZeouJE0!4w9{+Xu@d~fX+o`y;O2Aqsv!?;xPmhCm+
zh9%UTz3CzJP2oKJ1BoujQwy+Vh-x|sP99!>;2Gc_3#0ms3_+Rd4eue7H{g`LLcHN9
zl_3{I(0Vjqgp>|mf~->&L5It<&`okfOIoS)X58{r_Ni*IirHD-%*4qagMrE`Ak&U1
zJeiDn8#83h$?&Fui{WA-1Ib^_-lS#Fg85=2u>_cXRZOL^H`ss_7~2<#_l5~ad=VN+
z2r$$`ye7+wY!bd=2sqJ-vn3bQnb5}?(_+ZY7aky3C`s%j1yL#Q4O>2X!_5(P2HhHo
zWE(lDG^(?mV1~dHNlOr0&=hmQ;LCg>#q1$dWk3qu1eA^t&`iTP-xEYP4T3!RXz=ND
zOE~-N1$LWQ&LBxQI6Qp0LkAj5D37IKY=Z$5x_Zb-kiHT)nn6`>QQ;{HXH4V3$h@CT
zUyk!rd}Dj%8@O$L?;=w_o4g?@El5~3E9ul_nP#SCz`|{)Y~UTj?J634xKHj==ac)w
z&}_~pnF2E;a>m34ag?hh2IUm_OOsPp48GTf5f@{C1Hi};_^IG1bsrP23@}hWz?0EE
zaX<noXJWE4zzQlrp}dI#g$OJ>$fJpj%$#!cHls!PhzWpncZ9i6sZbT$q`0DcFsP!b
zbT4`Xu8`U5&(nbCXh0{^v`D&>yPNBF2*YXJwwPYzO8I6cgafDmw}!7<$79Y%_kqVr
z0gfVR>_Trwvs!0#h1^ILFGVhjNIVL8IS==HNb63{CGivSl@9<gul$Vao7h%yP3%Nf
z-Oe`i&#20lROfUz`6e(gdX;8j7=%aM=Yo5c@Nsuy$eH-etG_~jH4Szb9H2*N>0X=s
z`0_`W^UeELoyD%bACG-Bww}D(#XQY|WtM!?e*hX_x2NbkwPnMX@=n3sSa1dNu3*7+
zD(^aV&vp9OuA^U&_t%~;y}NEoh4!I*`%t0%Sib#Op?y5xKK>Vn?|IKX=sHw{1tTEl
z17acYR6g)jA#freIDvt?o8G$wkC)b-l2vGqSy9s3gn1jAFqtn<@OI_BT?Oxfy!SxC
zd-`+l=?DE|+lD%m51c{Afu>ELh;Dnt)v2Ptf8)8rf$=>4`^UfR?%foR{9X6ao0G+k
zu3JC(@F(lqy^fJ$P<+rkw4S?j^<M8-NwDu~FLv(R@U8zCy60ov#cpx!7*c&B#gWsS
z2gW~ZE;+2bCoNkxG~DbO``RM}#a}dR4nOy)bXT0X-!WMX4i$n2^TC4~(*5A!QmfE&
z3_Ab)#|ok6^P%U9ZNnv-b;8o}m0;c9a?^J&Fhq=Y$1U%N-eTJns*7!6v90fGx1+fQ
z8vi{5A5VWY&4=%q*o4ELw`bEkSh8E1FIylUH3o2*yL$@3;e2qo5ImX>9xVjV<%8!|
zFZ|LUTzjq1b1L6+>a)Smd(J&*7uQ?=AiWtF{4&s92=wOz{p%C=0>h66L#vYzzP}ti
zTRzkWf&OBkZ>zyR)U-Nz&)4_0PiPukzgiePnjbuRzwy`?okRJ~r#9LVL4><lZ0)#p
z;=>c0t@}59`}3{)ziAMfo+&gQ%QqhTtx9j?uUfk=9Jl?|amV+p4SJyLWoLkPjSxY)
z7A8de8zjC>h|s7d3p+Ck)r1}`XzaSMVA=z!%5zm>oJ7AE5~|2NEIM^$Uf^V&>qs0-
zDaFwN(<c#5(3u{~aDS@)0gK^L^>3+-zy4TgZ+Pt7pmYbB?C`7GR8AEtUH!|L=fQ>=
z;$E?H|HhHRffITB?|g36|DX|~T=^o)8klh27vA{EJ>T=+*sAW1kj@`>k9%x?=5dU-
zHq>}GmM`jkH2QWot-7oD?vmPfya;>U9dJ`&z1oWGhmS>^+$(RA&T<6p;J;OKc8^T$
zRe#>sf6q7gjic)12(11^*O=|UIL2)ax|4h6Yy)&MX>R2Z-4fh2j&7ub%Gqukr*s8C
zSJ6WZ2uk0w9r}99AA$q@xoz2@l}~dgX}2OrL2j_W19!P)`;YB6EH@0m4cVr$9gG4S
zdTHX|3|FG;QG>Hc#^>fqLk^V{+&H2VaVlVSY8>S`GXmBq3`Ir&yVBif-ipbK<oBhl
zv%GBPO`R*LN<sFZN>KiUk``IHjc>iml_(|o#=={M`O#-<Ej`SYy0*myy0+Ia6zH8b
z;BEt^Zrigat)JbPyfbvS_4uam`2Tv~5B^5*xZ9wiYTdsvw9yGnf8?wMaWi7VuAoYd
ztp#6q-q*c$<(_YEv88qO-2W-<LZ{!Vw8eKC1Hw)B3EM|K$87)6al)pMO{V6a>24T8
zBZ2GN-w7NQ4V}~#!Bo2vW5byX!x4lgsc}T{Mk3(Zh<gCTyMtz~s``g?Fs&E>@a%8D
zsoi?}!?)Kb@A^ZVt`N7GUP0x~TX+{WkJB!b%5}xEM8EPWE7j242oT}>Ai_iOwgBZ&
zeaP8%!p$bi$k{5t|9OAF4%Hez7`yVXFc5fXI3kfTPl}}E8(`7iRP_#Wy?|X0ZqV#U
zfV0qo!qH6Cz2K<KjHzy;{pv1awaBH3ygc8G(66j&^=`U90@jjT4~>S|z1z`oT@(84
zlllUNUlBkf3$3AiYlvw<H@#g&U&|w+*(dG=PpqCV_8%zpPvrY2ih*DuFpv)nFlJ`;
z{C%JJl}*@f==`fsmd=qOkQF4@tzfqL0B|x&@%VRCdvk#n2D=?=cT%b4EOS6l|I+fO
zPKeDm5}Qp>wJCp&1#mOL%Sct9u=1a%iXM6GxiT+|Z1487EWc;+JdD#xo<V1(PbLnO
zesHkabMT%k{K((>!Q1b>z3Cs?bPXXc`iECFDk=Df^Zwz@(D6<G#ZM<c_h0<%Y~Fuy
z({=F)29%qa<FOzPocq%N0KCk0ps^7MYf)gwZ0G6fm>=`bY|2hpyE0xKxO?g6h=v%)
zPx>t8fhwQy3wsgOm_eb+ov>xClQKD3tEbTvfZ8n<x(`7)zloomc)K^f!$n_D!57N=
zLic<Jww<-h_ks64Z^6}<clF(OaYa2ALx4J^Ttgh%tt9YKk`$#VN>kK8(IQ1pQA7%R
zMWyH;A=2%n<mX~y6BQDyD}PGS9g2u->kj4+sQhOt_^%X^rj-L=#k+^LU+<i=L}e5)
zG`bsGC+8d|bI#d~pTrD(<rW=-%s&TT2otUCr3Om5g!bKQM?Rb`Q9T%M_~Uqy+M0wv
zPJhYeag1%)H?G|2-}u2NkYAAf6y7ZOl!6||fk&+!YxcD(>-}p#_^2u0y07FwAqK}F
z4U`IAvN#T`OB+Y-*zR1p<ND-OehBgi6@IF1v2W>z@E|&ExubnL@$Z*P0;NB@y2ZY~
z@z@+gB~P=XZT-r|(LZ{9OF*(TWO3|Yw~@EZ{*u$>Xu9Js3HW>lHz0gUZEnXU%cIUv
z3GO?WEVQ34?#|<-{MYSH#~>#NbXK8|@*Y0A-&AEltrU*V#F&ef?u0%8Y=c68&o9eK
zjU8GVZo9gReZr}fqERXPm1>wX{~QiTdNzu=*sc)&q&G9Q0y#H^4c|@XnWg(#c}0+C
zBDlV*t~AWhIhWB_FdSDnR9k}8B~_F0QyDS~GXsp?$;P<;bhylnmwy_}{Ll0@vjME=
zVCap$0b1>DvnmD!UYHT3Fn1j0K4t`-#?mo?;qlBp&j?<1Cw{{Y9T9&m>nP!lYoym_
z&{_w^y6ZWv8at&F(1ftO`VOL!&0?{@vESl(C=C2c2<L_H-wVEn!mj@&oOmeoKNLa_
zh0%w?#6!xSekdGzC>;307WkF@{IBd6HtiQ4wRf+4zu4Bfa=F;kziIC*2KQ{*cYWb*
syZM8=?ma8cFC4zrtH1lB73(+7Nvp;Gl|b<~Q}!2amcic$6f>ate{O3Kv;Y7A

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/xpu_model_runner.cpython-312.pyc b/v1/worker/__pycache__/xpu_model_runner.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f48f3bb35bcba3eb085ebb4956a7dec4f739121e
GIT binary patch
literal 3324
zcmb^z?@t^>bmn$%Z|}IH#nRHsRgNDe-4>1zV=4w|4YY`jgjhB0nK;?*E^u`3hqHUY
z5lk+IM2M}e9~Aou{iKBSudv_zBC(|HN)wxEqTgtahNkg@Z)We7JBq2APO>xa*Svl6
z-kbO4$4DfEV3^`($p#6b2Mj3>e+ekg0kDX4q+=7MZ~|in`%GU-NC+GjOfew>O*H)}
zDIsy1-wdSWgv?>d45mVf5JrYTaS-{CAsaO-*wvp1`_LfL19M21jnIlvqDBm?2j|dA
z$%sU4UQj}RGEBivt(HmK#<ZPM)9RQ(ff9N5!pLdT|K{obvqQs!!$1kWZ<?w8OnNjq
z23SopowSLW8FR&J2S?s}JEI%sJGpe)pjzoKd=X1XaRh)*;p7HNU>zlVI!*|>&k%LN
z@K1y*x47`AIFClLF3yD$0X?Am=fs2zs|0Is9!=v!=p0gHr}li+zh|1>h^3e*G0JU;
zjb>;JL}I!znbZs`?$k`eNeCPnj^aozSu6R8{~02O7+x&E^d(+IcFDKM^WQ57BijdT
zJ{E*obR~$;ES~kPl&CyX5ZMYG&m!XeCy!cDH?r`Q52Fj94di$5r-ch>3M;<hGm7Z!
zBX)*r<3!8pDw(2cHfvDFZ{^q`6T-tmoO(^QG*vf<YTIdIq}7Y2p~G&`GR#rRa+B7;
z<OB)POx3aou~>Lwu~^~BnJzn(?aC&zowiEH47+nWccSOjODBvjGkLKqo43a^=`QBF
zuF3AMsSLej(5~rhj&Nra*V*xGp6&sKGY!>2iI*+h4@|2ErpE=e8A7$qYmt`qaNWY-
zYB>7!2j92f3U_Y_sJ3-OLPw6xi)(W8R-g)fV#%=ka$Toz!~c3f^8y1z=6D{q7XV-v
z4BQQnJMw55vosE*b17n_tYu8=fMYQQF}e?Cr@{52n-C;RGvHf0X;?GuI}gLX{ghl2
z(+63A3g}Kl<Ggq!Tm%H|ZsRH7Kw>cgJ|?_mDpL@eD3^?Fl9zxO<q>7xR0PM*Q^OG;
z8cvOsPix~elTOYUv;p{)CkzwDC9dT&jXRH3!E9kWnI8*iU5;E0E(CAOhgappYjP7k
z1mtC(BT>W7(e$uV!xAv9rVK)y5MlX{GZ`Ev<fEKwmN)@I^o&LbWrw1TY+|X%(}f;n
z&`U5mky2)AhG`O_V9Jc(XE?>9M45y6#2Lo{dpw8kipqv4`;Yy)ziGn{E2K}|fyM9_
z;YR_$iuKqZ-IB0B#%<@jHQ4A4b_ZJFE4~F$I15*C5t0dtD25{HUFeTd@LBO<dUlM8
z2(z-XV-PRu6>=VJTX=#c{f<$wV>iv7EfsRRY32>9T6M*a-86f&3c2T_*~|B5Xs)fc
zmthq<Jo~n#NT3Ys=qukMwA|Te?eI>-3iZF2o<eTfz9B&A7KW?RtgNzF57t!lLFj_e
z(}X-$#3%7x>U_M{%xJ1<^~K5QNh58Kn5t%sXH4Co!%tNgR)vaf{0A(5D{CP9hT&e#
z%tP_0wvc&=)xsjnp2c#BSw@uIGxzfFQYrVEYU-k{_RS3aH+#KCuzjYos$=jA-i-?A
zn>PNhD(3-r7t>tBs;#3PAo?5)W7^Ax+1xONS3fO7b$S?>iokn`BSPP_9O=>&TP*=N
z&{*B7#hc=Z|LH4*8Nj+#0o{GEeSYBb*}F~0=LgopQ8y$k<cdg}VWBN-VztaItks@z
z>Yhp<dK6^YXR#|Xhc<n_V27)=8wiT*mg*?Lj-O|rBeFM$Bb~FUp{C&Nn4=Vul2|2N
zH%8T*>EV(~hf2=$Rdgd70h~|mjIjjMAM9DMB?|tIhX|&PP{`l;TVrgg=X%f5$?GRC
z`>%!;Lbv3D>(S<=q3c7pqaCZ!jxzPodYkgy(6>Xk+j>{qddt-2f1vKF;TJgqog>=m
zZeEiQKK`k(q#uyKEEeofY6e>I=lw?pg6M~r4*+~K*f0<iZpH+Fl|4?V^p=K46J;sj
zNOnG(Opj4^rMNTQ2WZ@Vfbw=&qPWj#%IcTX#9mtQ$?mxO(u$Amcxh1<E*^46D(&N)
zkvnxq)a72cC->1l*u<{CH3ZX!fH8g~A>4is#U7yW@2KS-YQ2YEyD#j$Bg*%K_1Dh-
h9DJ!DZAx`GcJ0GW1k1)z<lFnuw-<L7g)+p`<!|+@xK027

literal 0
HcmV?d00001

diff --git a/v1/worker/__pycache__/xpu_worker.cpython-312.pyc b/v1/worker/__pycache__/xpu_worker.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b3afc69858aafcc7b6daea37c3c6908e4cba6ee4
GIT binary patch
literal 9256
zcmcgyU2Gdka-QMukQ|ECk8S;PB+-_*k}2COS+@MMk|o=#wSF8~w(pbxbChNz4aL8k
z8Ojzx?HS1ek#TqM?n7c5i-o<w;noW;uzqx&vQI&Pyv(e08D>sKHaG{ty(wp1aL7}t
zduB+A=GmJIkOnx@U0vN>UENdtRW<*~@Andr5{{n=Jt2bl4Jug4X=Yyi5;FG*j^M}y
zF>k!dc@mdx=G&fh%sWU_XG=Jfu6Y;E+Y|02HBaHZBjHJU=e;=ZO!$)YJdN|Ngg;p`
zUxV}RL?9WQ4<>8pYjK%M)FtcZ>q){!@Ls;*DQQSFf51juCOFSW1n1?0Pwgi4;5r%c
z{T3CbBc$%Vkw_%R(y1k38A^d=US@Bl#RSJLi|K3zNIoGY$ZR6Lyv&P;Ljn#lmg3S$
zR^oXMNWsOdDDo+p%_L&-Qd&$#Y`W`aT3qEty$iR79-+W;f+UN=LRRKEmQSq-Vmg(C
zcF;x553XLHN^^W-Hk(TE;-Vp{@${L6S9!?%HE5V8kT&OS964|I5FE|fcn4?aoty)H
zPTs}2c=wWblUO1-_ecJDilaUv<~>L^@q^_Z8~LXuiSzKzB^&4c$YD|DY0d{N{hP#X
za=zvo5%KFDkkgo1u6~q(0%J^#Sxm$vDXRO{K%49$R;TVwq!(ieq^wolfuD!UHGnmf
z<mHt#rw0Xz<wRi(lw@?c=qi(xhCEumSGVE$H{^XnE>_<4<cXid4$PBzTi%{`<eg8=
z{YVmdBJL<M7Bd^JyenSbyII4Lt33oE**+ltl9W9bdmQh3t7N<_{g}K+I-KG)R<88^
zm=yn9ej~?*J5R=gr50B1Q}{+;26a}s^!}9i%)UX%4HhMS$jX)8oIUS;YBS0tQO4U;
z;<0j^qfEkPi&}b@)wY(XR<5kJ-J+G=WwlI+YUN66C3jl1c-YF7-tq2I-pakD1*~Od
zioa7yA&5Vrm%i6~S+<qU^Z!+YZ;`+Mby@T7JjFS`a#{B9EB90LYseF9aks65jox35
zP}92ob|#y19Yx>r(OmSZm|hYRLTZ`eQ?Z2v&qbLzF}BD{%q=02U>0~rimmY+Bd3R%
z!%}X>;O9lgun)tG$S<Zvj+Ito8D2VfSnA8*9(gv&C)46OqTCYX6;_gCi>t-bQX-u}
z+;d=NeWqni#ge>EWhI_n&Iy@_OZUbWWnoQ_1zytq`^M30_K%`_OJkUMJc3@6PO&nY
z4=eI9ZavbdJEd#}Y&ylV*mkkHpX1jAU@#4y&n(L8z~%<k>n^ZspflY8=3ded-I$!5
zV&`UN$KGeJ&dyw#n7la4j!(>@GY00Ef}R9U4B&>wfulQw)KXe^a{NMeS?{RUe)i(n
z%<MRO?fucK7q98v)mUy$%oPV@r!G#-%>Gbs|D%l8=0?Y^yrKTm<jmD;x>HVziz_;1
zDpS<mW=;=YHC9m^HI`sqw~t-DuG`_X(3@mFC8foMbPU$rQ0@wxr3pA%y}Co<6HB5W
zrY|B(iWMOu%P7{O2eK}DBOaEuMm7831W`ohQ1`GbK8aXXLWY~M(w+Yv>6eq4{)~`0
zD#t`P<&WOZ4xK)=I>h%UgoXahIvhi(esp^EuO06<c2z&DoOv8YGwWg-beO9v9)MA6
z7a;2^@qju0aEI6n5}um7Zk1{*(1#v0Kb}*1FDT=4dv=@0yXzvF+O)=Z)W&x<{e?iQ
z7U)p}Jx?xv8#t~|$CbeGoj^zn98m*DwgWv1)uRM@_9%i5YQF9*U-wRTuhu=Lc8@7^
zxX{+4wGF6k14`@Qvm4LH|9;}{CZ3;BnlEo&*`e$1UAcRu5F9B4d-j}me+~5EufI2W
zcXHQ8){c-bgAH2nq#8WAgED8;;8~n`R}H>f%<TEy&@M={bv~MYIIXpwP+L#DY-qYa
z{mHb}@UGhMuGTQ5HVo~&PTF<aTkBxNP?y#|uC|ZwKqhoW4PDu33280o)t2+6Oep;5
z!-pSgq04IMa-pH`d9QMHZr4sQ?~|_x8&kJiPqe-JilEzSHphQHwcARxb)d{E&^EDX
zB0QAG$N-}Q0;qruigj`G{KH)4!#cagcDaZRs-b~+5doB1TWzlqe|p=$0GT$(4cl9K
z@Rdfja@Ob@c8=U|7-%O4l{whx8_v8lZ(FhfMzc)|K%^or!vNJGU=@>N>>>b7Kv&C|
ztk??-Vm&-`8VoIqATPEuLBs5_u>=Bc08*io6Nrsu^`M-V0n0&i(>Uusu(q64IFLfd
z5?KVRwUACpdSFT9!6X+ON$8|8zDaQq^&CW>7!m*pf`rI5mp-t{x(}d*l!nJ0V#n8_
z`J$>Xy6ro*Q{Q<1^e3ma`iNQ|*{bhV=-!u|-CsmLk7%8z)Xq~|ox>^}+8k8^p*<JT
z!aRyRjA+dRYV*KW^U2LCh47$4cNE&A&w7=S>*|T?YWt1NnL>T15*|?M2NZfhJc&eg
ziM*T@Q~S0a+9Y`E?ZC4fmR8$(am!JHMpm*G6(E{LBC57Ur%6Tn-fiEom5bZ4*mu>@
zeZ}fx#u^=M$GnZR<$#B?f9l{Id3#yOnJ3FiuFu>X<zN#XbrmV^u-rEc;Hv=RING`u
z$&v=QIZ#mvMXTPNuM>cE6;~)vu8zYNYy5!V+|@Y%lv8;Uo}SN~R-fQ56bG!Ty(*B~
zYRh?1<%a7mJ^WvG&YMQ};nC4t-=H&&MqF><@gp8=il{u5cjKHV@8SGNqoOnK%6oEf
zvV-%5oSG^SIbOxJ$RWqhh5PbyHF;OrP737RWu+jDRN8@+d(QK}*>f_4H;k0`T00TU
zYHjS-aITohMq=a@p2_gBRmL!xOje35^GtdPS0s@m52%;ncrdw1A;mK*>03-PmRk2(
zfaJ;zW&y11ss!Y91eJ?M7r--Mk*v(j%uGqqVuLvtkxwn7&M>-O5=2QxNSezo%1n$g
z5D^07rWE{bh&G^dxrqDvOZ71VbP-D|W+89^upP}R8M`ecvq>hCmLvf{J(J2N7XY(E
zub08y2e8HfnlptjN+++xP*17XXM#Hw`D6?rGYEqY1XH4tEYT<<3z^~JVs}VOKTKz_
zZW2Ngq(q_>m5c;2X0@-y!a5V<;#p(XsKJj)Cl8yI!Bxq{WH^_8#AIS3I1I2jB^h%4
z7kG%>Si+U*Q_O;*@bQN=U<^FWz%d&na`xznrQAVg>Ovo5EPEmy1CJ-R3hK-?Vmh8O
zNMbF705uM%iRSt*ieg%1gp^fPT*N3d0Z}I*mMB*klRMbQn6ak)bRImf73dcnsSE&Y
z=GF?I!YV6iin$e&m{eLu69exgu?`^{K9&OaESrH<!&66I4U8$|&`Kc%u7SS-;u*e4
zG}l<%r0l{vY?vsNqv$ipwN$GyMg1)TWFo?1x#Octp!C;f%U~71{yia0)gm2YWPzG7
zh-9c65XaGd^hmG_+4%TmMqXzZV~Z=ien{j|)D8_`0v6;_%93~*Nj8igVe~i*55Pp|
z^JPIK2*l|=V@bdV%%;Q<R3E^;UukDy5Cz_<(WOq~AuW&aV2Q7M2kLeK!hSxCuEh7y
z&}UKChpa$ig*J72Qd$<zAQoTQB=iIO5Eq~^yef!{uv$eY;(64*DYh0963AO;SJw>n
zm@1KcP;Z$hcpCt%xoE@KQcL3#$c0N#?T>TafL^6;SbcDgn!!1`=eg_As5X^q+onQ0
zl;0>vR4TGf^}g&o{`JI{6I$N|weP}K-#Ab=14>h5$HH@G)y}h9o#z!QwCf=K9fgkL
z&n~MSXP%EK%*ZZ5j*?7)8G7EWGNa#gDWOY1x=eN!IuTbV;_4Xr#<A<R`!A8;X?W;8
zn(zef`R@8Y9^0lG!9nx*HL6Lanl$RLN*&&&y1#4d(ArL@Z6~(C;i8&10}pC}4P2){
zmm27Loc=a2xJx*}xwDb}u0mJ0)-|Md4Jn<cVCd7qLNKHR7|3=^k>DEnr^r`!U{(Ty
z;9VVRy)S$sXb1b$gMC{Eqe}mTdhmly-%Cp;mX4UiUwA(EXv|5KIl0B0QcmAcnVSmL
zR$#&!GpI6yTQFr(Wrm;6Y3F9ubF*9L=9KF<)N?ltzVDbp<<ykQOrbVD=JD}wePQrU
zm6l^FeQfi}cXaCmSqmLgL&pqXOr<aXW3NhIM;hwf^^*Q@A>9A0TMeIn-lcS%huOT>
zT4+ToZAB_=DJp*Oxm#u4`^K(>#)0YL>x%a{ii)o(SNzLBol@Vo6*#I;M={vm2eJ|L
z#UT3#z=8V+hybB7RRvy-N-lt?ILa&PauHC+sn@wIcqaaXjJ^t-s*Qjnw8iMI#Yqql
zp|w3V{ZNRanK_6ymPV}-D~6d>^H|N+;3AY-SAoUQx){AHNfJk4k&0wV20fx62~O4E
za2#Q}iezc#t!-N>8bT2ytfDJRnrZ+LbXRl{Qk`;#)h9%^zxOUEUkiZhT~;4)Wb!K#
z=ir=H)O_P@ye_%hY7WwT&v>&n+u|s;JXsdQtrA=29O!Jw+up+ELR|YKdV{Xt(w7_e
z)n7KdV^+TOhB>3)Kt%%TKm`ekK&>K;T)c&eBM-YGmE8@LcIl}KCMd?yxmc0PzFIVu
zio{XYDpb2Uv39tO&Sjh|N_@m5l)b+4SStx%#F$k9^R4zRj$8Gmw<QU*zHCvUb#;AL
zvkoQ=zLesAUMC{nX&m6mIUt5IoNJl}+y}AiOj?w|DM2A?2F0j{8NGIFY?2+Fn`Gx^
zN2jk{otd4}?GV-1gOf93qm%5-nb}E*El<o})V&4;*sh3ZqHt^JH10?b8=+a3(X;L-
zhQCDy_zX~n%$@E<D9q$K1i)-@l@*p)Q!t2Ap@tUzGDGT4OvIBBk^1xlC|YF3*$pU*
zWBjy%c?@JCzK=NR*=$M{k~{|4x-Bi~E@%sZc-;=yuzCPF0f_`aJ##28M1A4jR}yl(
z?l!MyMHD+RLej_(;b^o@qgzaN0q!LD6sP;j?lj@rApy{l2cL}BojG1iOQHkIVoHn^
zCZc_hqTM_vqOC1nf=9$|#M%yAoW8-nz9<cdT)8F^Iu?si&A6yG2Fe{MVKa<Z4f5Xt
zzx2;=pxhw}zJTUyQ+;ikFRc2)nlGaIB2TV=>pQVMbXgmkR)?myhpz54haUAk?0eGi
zg!?-EWm-9UUg>^st9fK|{AUnqZq?{+mF|Ax_}cfSZ<`*#lmV3<cs8dEUQ!1yX@isM
z;N&(vwL{n5o47ln(H$z?u}ydFboG33`t#FT*9EofLLu02Kk!N5mE9Ju`H!0ByNO*V
z;jjG_%|IZzKBROEKOfM}OsQw4v@>(+nK@<nx)QpvRd-XNZ@y$Y5jaxbIrluf#asl0
zvlHrgwEl3tK)3(G{&-vqpHjo8wD6c39@}EZVF<>nP^|#rdPm5g+3tDodX@SkD%D+x
zoU@96{EqB&9eFH&@srPgveh+Y&_6z_Qp`)Lw*Ucox>coHA%mub%RMUHgUT~^XRr<;
zDjnJLxjf#zI)J<uqztQ67%2kc^AE_MPHS|#O1E#(%vXV}p3_>-CAH@g!d!><2)HfS
z^AeuM2M(<<qBcgf#;DpD-KP2>fZ0|O;Q{w(_2DW^s?EFU_!ZTJu~US+6bYa^Ds(5t
zvbvXL!K29n;AeH3Wq+KFCCnN(%W~;OmKD)95+~7vhllQ1NT(C{x&wPW_yg8!AUey#
zzZ~F>3OPvPHN^g7#O^omTo!rQ`)q_1(E%VK)G~s72oafn{6JVl65;WOkBEP9wCx6o
z&hG#8N1Ywt9SH3@;SK9@pmEoYaugA$+x4KFm*_ma>q9x3XbJru@&9g#^g0K38wpqQ
zo$H#jNp&`DIa_vZ=bX_eW4|Nd^~z4TS~20jJ|w%HUaT4{MC1_udxbHpTI@kZ%RgZc
zx&(@%`#KTf4dX8jQNu=HP3b|*QP#%z#_@k2qQ<?Q2vC*K>oKF@Px80<#Vm|weEc=I
z#`?dAWW?&5Fmdg8)VO|%BHz)-iU^}(Tcn37m{5?s++#H?3R1G+(<0@6Nf^_|A$RJm
zu^rBfe+5-&nWPbT?Al3^eB~lY?{5hD*F@vL6OAv3&KE@A3!>`<(f@+z{a518UJ%3o
c=4tr&2V0)@JFY#KU?aUByM9lgHy+`C0GnGYcK`qY

literal 0
HcmV?d00001

diff --git a/v1/worker/block_table.py b/v1/worker/block_table.py
new file mode 100644
index 0000000..9f6c19e
--- /dev/null
+++ b/v1/worker/block_table.py
@@ -0,0 +1,327 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import numpy as np
+import torch
+
+from vllm.distributed import get_dcp_group
+from vllm.logger import init_logger
+from vllm.utils.math_utils import cdiv
+from vllm.v1.utils import CpuGpuBuffer
+
+logger = init_logger(__name__)
+
+
+class BlockTable:
+    def __init__(
+        self,
+        block_size: int,
+        max_num_reqs: int,
+        max_num_blocks_per_req: int,
+        max_num_batched_tokens: int,
+        pin_memory: bool,
+        device: torch.device,
+        kernel_block_size: int,
+        dcp_kv_cache_interleave_size: int,
+    ):
+        """
+        Args:
+            block_size: Block size used for KV cache memory allocation
+            max_num_reqs: Maximum number of concurrent requests supported.
+            max_num_blocks_per_req: Maximum number of blocks per request.
+            max_num_batched_tokens: Maximum number of tokens in a batch.
+            pin_memory: Whether to pin memory for faster GPU transfers.
+            device: Target device for the block table.
+            kernel_block_size: The block_size of underlying attention kernel.
+                Will be the same as `block_size` if `block_size` is supported
+                by the attention kernel.
+        """
+        self.max_num_reqs = max_num_reqs
+        self.max_num_batched_tokens = max_num_batched_tokens
+        self.pin_memory = pin_memory
+        self.device = device
+
+        if kernel_block_size == block_size:
+            # Standard case: allocation and computation use same block size
+            # No block splitting needed, direct mapping
+            self.block_size = block_size
+            self.blocks_per_kv_block = 1
+            self.use_hybrid_blocks = False
+        else:
+            # Hybrid case: allocation block size differs from kernel block size
+            # Memory blocks are subdivided to match kernel requirements
+            # Example: 32-token memory blocks with 16-token kernel blocks
+            # → Each memory block corresponds to 2 kernel blocks
+            if block_size % kernel_block_size != 0:
+                raise ValueError(
+                    f"kernel_block_size {kernel_block_size} must divide "
+                    f"kv_manager_block_size size {block_size} evenly"
+                )
+
+            self.block_size = kernel_block_size
+            self.blocks_per_kv_block = block_size // kernel_block_size
+            self.use_hybrid_blocks = True
+
+        self.max_num_blocks_per_req = max_num_blocks_per_req * self.blocks_per_kv_block
+
+        self.block_table = self._make_buffer(
+            self.max_num_reqs, self.max_num_blocks_per_req, dtype=torch.int32
+        )
+        self.num_blocks_per_row = np.zeros(max_num_reqs, dtype=np.int32)
+
+        self.slot_mapping = self._make_buffer(
+            self.max_num_batched_tokens, dtype=torch.int64
+        )
+
+        if self.use_hybrid_blocks:
+            self._kernel_block_arange = np.arange(0, self.blocks_per_kv_block).reshape(
+                1, -1
+            )
+        else:
+            self._kernel_block_arange = None
+
+        try:
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+        self.dcp_kv_cache_interleave_size = dcp_kv_cache_interleave_size
+
+    def append_row(
+        self,
+        block_ids: list[int],
+        row_idx: int,
+    ) -> None:
+        if not block_ids:
+            return
+
+        if self.use_hybrid_blocks:
+            block_ids = self.map_to_kernel_blocks(
+                np.array(block_ids), self.blocks_per_kv_block, self._kernel_block_arange
+            )
+
+        num_blocks = len(block_ids)
+        start = self.num_blocks_per_row[row_idx]
+        self.num_blocks_per_row[row_idx] += num_blocks
+        self.block_table.np[row_idx, start : start + num_blocks] = block_ids
+
+    def add_row(self, block_ids: list[int], row_idx: int) -> None:
+        self.num_blocks_per_row[row_idx] = 0
+        self.append_row(block_ids, row_idx)
+
+    def move_row(self, src: int, tgt: int) -> None:
+        num_blocks = self.num_blocks_per_row[src]
+        block_table_np = self.block_table.np
+        block_table_np[tgt, :num_blocks] = block_table_np[src, :num_blocks]
+        self.num_blocks_per_row[tgt] = num_blocks
+
+    def swap_row(self, src: int, tgt: int) -> None:
+        src_tgt, tgt_src = [src, tgt], [tgt, src]
+        self.num_blocks_per_row[src_tgt] = self.num_blocks_per_row[tgt_src]
+        self.block_table.np[src_tgt] = self.block_table.np[tgt_src]
+
+    def compute_slot_mapping(
+        self, req_indices: np.ndarray, positions: np.ndarray
+    ) -> None:
+        # E.g., [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        # -> [0, 0, K, K, K + 1, K + 1, K + 2, 2 * K, 2 * K, 2 * K + 1]
+        # where K is the max_num_blocks_per_req and the block size is 2.
+        # NOTE(woosuk): We can't simply use `token_indices // block_size`
+        # here because M (max_model_len) is not necessarily divisible by
+        # block_size.
+        if self.dcp_world_size > 1:
+            # Note(hc): The DCP implement store kvcache with an interleave
+            # style, the kvcache for the token whose token_idx is i is
+            # always stored on the GPU whose dcp_rank equals i % cp_world_size:
+
+            # Use a "virtual block" which equals to world_size * block_size
+            # for block_table_indices calculation.
+            virtual_block_size = self.block_size * self.dcp_world_size
+            block_table_indices = (
+                req_indices * self.max_num_blocks_per_req
+                + positions // virtual_block_size
+            )
+
+            block_numbers = self.block_table.np.ravel()[block_table_indices]
+            # Use virtual_block_size for mask calculation, which marks local
+            # tokens.
+            virtual_block_offsets = positions % virtual_block_size
+            mask = (
+                virtual_block_offsets
+                // self.dcp_kv_cache_interleave_size
+                % self.dcp_world_size
+                == self.dcp_rank
+            )
+            # Calculate local block_offsets
+            block_offsets = (
+                virtual_block_offsets
+                // (self.dcp_world_size * self.dcp_kv_cache_interleave_size)
+                * self.dcp_kv_cache_interleave_size
+                + virtual_block_offsets % self.dcp_kv_cache_interleave_size
+            )
+            # Calculate slot_mapping
+            slot_mapping = block_numbers * self.block_size + block_offsets
+            # Write final slots, use -1 for not-local
+            self.slot_mapping.np[: req_indices.shape[0]] = np.where(
+                mask, slot_mapping, -1
+            )
+        else:
+            block_table_indices = (
+                req_indices * self.max_num_blocks_per_req + positions // self.block_size
+            )
+
+            block_numbers = self.block_table.np.ravel()[block_table_indices]
+            block_offsets = positions % self.block_size
+            np.add(
+                block_numbers * self.block_size,
+                block_offsets,
+                out=self.slot_mapping.np[: req_indices.shape[0]],
+            )
+
+    def commit_block_table(self, num_reqs: int) -> None:
+        self.block_table.copy_to_gpu(num_reqs)
+
+    def commit_slot_mapping(self, num_tokens: int) -> None:
+        self.slot_mapping.copy_to_gpu(num_tokens)
+
+    def clear(self) -> None:
+        self.block_table.gpu.fill_(0)
+        self.block_table.cpu.fill_(0)
+
+    @staticmethod
+    def map_to_kernel_blocks(
+        kv_manager_block_ids: np.ndarray,
+        blocks_per_kv_block: int,
+        kernel_block_arange: np.ndarray,
+    ) -> np.ndarray:
+        """Convert kv_manager_block_id IDs to kernel block IDs.
+
+        Example:
+            # kv_manager_block_ids: 32 tokens,
+            # Kernel block size: 16 tokens
+            # blocks_per_kv_block = 2
+            >>> kv_manager_block_ids = np.array([0, 1, 2])
+            >>> Result: [0, 1, 2, 3, 4, 5]
+
+            # Each kv_manager_block_id maps to 2 kernel block id:
+            # kv_manager_block_id 0 → kernel block id [0, 1]
+            # kv_manager_block_id 1 → kernel block id [2, 3]
+            # kv_manager_block_id 2 → kernel block id [4, 5]
+        """
+        if blocks_per_kv_block == 1:
+            return kv_manager_block_ids
+
+        kernel_block_ids = (
+            kv_manager_block_ids.reshape(-1, 1) * blocks_per_kv_block
+            + kernel_block_arange
+        )
+
+        return kernel_block_ids.reshape(-1)
+
+    def get_device_tensor(self, num_reqs: int) -> torch.Tensor:
+        """Returns the device tensor of the block table."""
+        return self.block_table.gpu[:num_reqs]
+
+    def get_cpu_tensor(self) -> torch.Tensor:
+        """Returns the CPU tensor of the block table."""
+        return self.block_table.cpu
+
+    def get_numpy_array(self) -> np.ndarray:
+        """Returns the numpy array of the block table."""
+        return self.block_table.np
+
+    def _make_buffer(
+        self, *size: int | torch.SymInt, dtype: torch.dtype
+    ) -> CpuGpuBuffer:
+        return CpuGpuBuffer(
+            *size, dtype=dtype, device=self.device, pin_memory=self.pin_memory
+        )
+
+
+class MultiGroupBlockTable:
+    """The BlockTables for each KV cache group."""
+
+    def __init__(
+        self,
+        max_num_reqs: int,
+        max_model_len: int,
+        max_num_batched_tokens: int,
+        pin_memory: bool,
+        device: torch.device,
+        block_sizes: list[int],
+        kernel_block_sizes: list[int],
+        num_speculative_tokens: int = 0,
+        dcp_kv_cache_interleave_size: int = 1,
+    ) -> None:
+        # Note(hc): each dcp rank only store
+        # (max_model_len//dcp_world_size) tokens in kvcache,
+        # so the block_size which used for calc max_num_blocks_per_req
+        # must be multiplied by dcp_world_size.
+        try:
+            dcp_world_size = get_dcp_group().world_size
+        except AssertionError:
+            # DCP might not be initialized in testing
+            dcp_world_size = 1
+
+        if len(kernel_block_sizes) != len(block_sizes):
+            raise ValueError(
+                f"kernel_block_sizes length ({len(kernel_block_sizes)}) "
+                f"must match block_sizes length ({len(block_sizes)})"
+            )
+
+        self.block_tables = [
+            BlockTable(
+                block_size,
+                max_num_reqs,
+                max(
+                    cdiv(max_model_len, block_size * dcp_world_size),
+                    1 + num_speculative_tokens,
+                ),
+                max_num_batched_tokens,
+                pin_memory,
+                device,
+                kernel_block_size,
+                dcp_kv_cache_interleave_size,
+            )
+            for block_size, kernel_block_size in zip(block_sizes, kernel_block_sizes)
+        ]
+
+    def append_row(self, block_ids: tuple[list[int], ...], row_idx: int) -> None:
+        for i, block_table in enumerate(self.block_tables):
+            block_table.append_row(block_ids[i], row_idx)
+
+    def add_row(self, block_ids: tuple[list[int], ...], row_idx: int) -> None:
+        for i, block_table in enumerate(self.block_tables):
+            block_table.add_row(block_ids[i], row_idx)
+
+    def move_row(self, src: int, tgt: int) -> None:
+        for block_table in self.block_tables:
+            block_table.move_row(src, tgt)
+
+    def swap_row(self, src: int, tgt: int) -> None:
+        for block_table in self.block_tables:
+            block_table.swap_row(src, tgt)
+
+    def compute_slot_mapping(
+        self, req_indices: np.ndarray, positions: np.ndarray
+    ) -> None:
+        for block_table in self.block_tables:
+            block_table.compute_slot_mapping(req_indices, positions)
+
+    def commit_block_table(self, num_reqs: int) -> None:
+        for block_table in self.block_tables:
+            block_table.commit_block_table(num_reqs)
+
+    def commit_slot_mapping(self, num_tokens: int) -> None:
+        for block_table in self.block_tables:
+            block_table.commit_slot_mapping(num_tokens)
+
+    def clear(self) -> None:
+        for block_table in self.block_tables:
+            block_table.clear()
+
+    def __getitem__(self, idx: int) -> "BlockTable":
+        """Returns the BlockTable for the i-th KV cache group."""
+        return self.block_tables[idx]
diff --git a/v1/worker/cpu_model_runner.py b/v1/worker/cpu_model_runner.py
new file mode 100644
index 0000000..40f011f
--- /dev/null
+++ b/v1/worker/cpu_model_runner.py
@@ -0,0 +1,122 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from contextlib import contextmanager
+from typing import Any
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader import get_model
+from vllm.v1.utils import CpuGpuBuffer
+from vllm.v1.worker.gpu_model_runner import GPUModelRunner
+
+logger = init_logger(__name__)
+
+
+class CPUModelRunner(GPUModelRunner):
+    def __init__(self, vllm_config: VllmConfig, device: torch.device):
+        with _torch_cuda_wrapper():
+            super().__init__(vllm_config, device)
+
+        assert device == torch.device("cpu")
+        assert self.speculative_config is None, "spec decode is not supported."
+
+        self.use_cuda_graph = False
+        self.cascade_attn_enabled = False
+
+        self._postprocess_tensors()
+
+    def _postprocess_tensors(self) -> None:
+        # Note: replace device tensors with cpu tensors
+        def replace_tensor(obj: Any, cpu_attr_name: str, device_attr_name) -> None:
+            cpu_tensor = getattr(obj, cpu_attr_name, None)
+            device_tensor = getattr(obj, device_attr_name, None)
+            if cpu_tensor is not None and device_tensor is not None:
+                assert isinstance(cpu_tensor, torch.Tensor)
+                assert isinstance(device_tensor, torch.Tensor)
+                setattr(obj, device_attr_name, cpu_tensor)
+
+        for v in vars(self).values():
+            if isinstance(v, CpuGpuBuffer):
+                v.gpu = v.cpu
+
+        for k, v in vars(self.input_batch).items():
+            if k.endswith("_cpu_tensor") and isinstance(v, torch.Tensor):
+                replace_tensor(self.input_batch, k, k[:-11])
+
+        for block_table in self.input_batch.block_table.block_tables:
+            for v in vars(block_table).values():
+                if isinstance(v, CpuGpuBuffer):
+                    v.gpu = v.cpu
+
+    def load_model(self, eep_scale_up: bool = False) -> None:
+        logger.info("Starting to load model %s...", self.model_config.model)
+        self.model = get_model(vllm_config=self.vllm_config)
+
+        if self.lora_config:
+            self.model = self.load_lora_model(self.model, self.vllm_config, self.device)
+
+    def get_model(self) -> nn.Module:
+        return self.model
+
+    def warming_up_model(self) -> None:
+        logger.info("Warming up model for the compilation...")
+        # Only generate graph for the generic shape
+        with _set_global_compilation_settings(self.vllm_config):
+            self._dummy_run(
+                min(
+                    max(16, self.max_num_reqs),
+                    self.scheduler_config.max_num_batched_tokens,
+                )
+            )
+
+        logger.info("Warming up done.")
+
+    def _init_device_properties(self) -> None:
+        pass
+
+    def _sync_device(self) -> None:
+        pass
+
+    def get_dp_padding(self, num_tokens: int) -> tuple[int, torch.Tensor | None]:
+        # Note: For CPU backend, dp padding is not required for now.
+        return 0, None
+
+
+@contextmanager
+def _torch_cuda_wrapper():
+    class _EventPlaceholder:
+        def __init__(self, *args, **kwargs) -> None:
+            self.record = lambda: None
+            self.synchronize = lambda: None
+
+    class _StreamPlaceholder:
+        def __init__(self, *args, **kwargs) -> None:
+            pass
+
+    cuda_event = torch.cuda.Event
+    cuda_stream = torch.cuda.Stream
+    try:
+        torch.cuda.Event = _EventPlaceholder
+        torch.cuda.Stream = _StreamPlaceholder
+        yield
+    finally:
+        torch.cuda.Event = cuda_event
+        torch.cuda.Stream = cuda_stream
+
+
+@contextmanager
+def _set_global_compilation_settings(config: VllmConfig):
+    import torch._inductor.config as torch_inductor_config
+
+    inductor_config = config.compilation_config.inductor_compile_config
+    # Note: The MKLDNN and CPPGEMM backend requires freezing parameters.
+    freezing_value = torch_inductor_config.freezing
+    try:
+        if inductor_config.get("max_autotune", False):
+            torch_inductor_config.freezing = True
+        yield
+    finally:
+        torch_inductor_config.freezing = freezing_value
diff --git a/v1/worker/cpu_worker.py b/v1/worker/cpu_worker.py
new file mode 100644
index 0000000..4420a05
--- /dev/null
+++ b/v1/worker/cpu_worker.py
@@ -0,0 +1,206 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+import platform
+from collections.abc import Callable
+
+import torch
+
+from vllm import envs
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.utils import set_random_seed
+from vllm.platforms import CpuArchEnum, current_platform
+from vllm.platforms.cpu import CpuPlatform, LogicalCPUInfo
+from vllm.v1.worker.cpu_model_runner import CPUModelRunner
+from vllm.v1.worker.gpu_worker import Worker, init_worker_distributed_environment
+
+logger = init_logger(__name__)
+
+
+class CPUWorker(Worker):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        is_driver_worker: bool = False,
+    ):
+        super().__init__(
+            vllm_config,
+            local_rank,
+            rank,
+            distributed_init_method,
+            is_driver_worker=is_driver_worker,
+        )
+
+        self.parallel_config.disable_custom_all_reduce = True
+
+        if envs.VLLM_TORCH_PROFILER_DIR:
+            torch_profiler_trace_dir = envs.VLLM_TORCH_PROFILER_DIR
+            worker_name = f"{vllm_config.instance_id}-rank-{self.rank}"
+            logger.info(
+                "Profiling enabled. Traces will be saved to: %s",
+                torch_profiler_trace_dir,
+            )
+            self.profiler = torch.profiler.profile(
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                ],
+                record_shapes=envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                profile_memory=envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                with_stack=envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                with_flops=envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    torch_profiler_trace_dir, worker_name=worker_name, use_gzip=False
+                ),
+            )
+        else:
+            self.profiler = None
+
+    def init_device(self):
+        # Setup OpenMP threads affinity.
+        omp_cpuids = envs.VLLM_CPU_OMP_THREADS_BIND
+        if omp_cpuids == "auto" and platform.system() == "Linux":
+            cpu_arch = current_platform.get_cpu_architecture()
+            if cpu_arch in (CpuArchEnum.POWERPC, CpuArchEnum.S390X):
+                # For S390X/POWERPC SMT-8/4/2
+                self.local_omp_cpuid = self._get_autobind_cpu_ids(
+                    lambda cpus: [cpu for cpu in cpus if cpu.id % 8 < 4]
+                )
+            elif cpu_arch == CpuArchEnum.X86:
+                # For x86 SMT-2, use 1 CPU per core
+                self.local_omp_cpuid = self._get_autobind_cpu_ids(
+                    lambda cpus: cpus[-1:]
+                )
+            else:
+                self.local_omp_cpuid = "nobind"
+        elif omp_cpuids == "nobind":
+            self.local_omp_cpuid = "nobind"
+        else:
+            local_dp_rank = self.parallel_config.data_parallel_rank_local
+            omp_cpuids = omp_cpuids.split("|")
+            if local_dp_rank is not None:
+                world_size = self.parallel_config.world_size
+                omp_cpuids = omp_cpuids[
+                    local_dp_rank * world_size : (local_dp_rank + 1) * world_size
+                ]
+            self.local_omp_cpuid = omp_cpuids[self.rank]
+
+        if self.local_omp_cpuid != "nobind":
+            ret = torch.ops._C_utils.init_cpu_threads_env(self.local_omp_cpuid)
+            if ret:
+                logger.info(ret)
+
+        # Note: unique identifier for creating allreduce shared memory
+        os.environ["VLLM_DIST_IDENT"] = self.distributed_init_method.split(":")[-1]
+        # Initialize the distributed environment.
+        init_worker_distributed_environment(
+            self.vllm_config,
+            self.rank,
+            self.distributed_init_method,
+            self.local_rank,
+            current_platform.dist_backend,
+        )
+        # Set random seed.
+        set_random_seed(self.model_config.seed)
+
+        # Construct the model runner
+        self.model_runner: CPUModelRunner = CPUModelRunner(
+            self.vllm_config, torch.device("cpu")
+        )
+
+    def sleep(self, level: int = 1) -> None:
+        logger.warning("sleep mode is not supported on CPU, ignore it.")
+        pass
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        logger.warning("sleep mode is not supported on CPU, ignore it.")
+        pass
+
+    def determine_available_memory(self) -> int:
+        return self.cache_config.cpu_kvcache_space_bytes  # type: ignore
+
+    def compile_or_warm_up_model(self) -> None:
+        # Reset the seed to ensure that the random state is not affected by
+        # the model initialization and profiling.
+        set_random_seed(self.model_config.seed)
+        self.model_runner.warming_up_model()
+
+    def _get_autobind_cpu_ids(
+        self, cpu_selector: Callable[[list[LogicalCPUInfo]], list[LogicalCPUInfo]]
+    ) -> str:
+        """
+        Return CPU ids to bind based on NUMA nodes.
+        Currently for rank N, only CPU ids on the N-th node in available NUMA
+        node list will be selected.
+        Args:
+            cpu_selector: a callable object to select CPUs from a CPU list
+            of a physical core. The input is a LogicalCPUInfo list, sorted by
+            the LogicalCPUInfo.id. A selected LogicalCPUInfo list should be
+            returned.
+        """
+
+        allowed_numa_nodes, logical_cpu_list = (
+            CpuPlatform.get_allowed_cpu_core_node_list()
+        )
+        assert len(allowed_numa_nodes) >= self.parallel_config.world_size, (
+            f"No enough allowed NUMA nodes to bind threads of "
+            f"{self.parallel_config.world_size} CPUWorkers. "
+            f"Allowed NUMA nodes are {allowed_numa_nodes}. "
+            "Please try to bind threads manually."
+        )
+
+        # Get CPUs on NUMA node `allowed_numa_nodes[local_rank]`
+        selected_numa_node = allowed_numa_nodes[self.local_rank]  # type: ignore
+        logical_cpu_list = [
+            x for x in logical_cpu_list if x.numa_node == selected_numa_node
+        ]
+
+        # Select CPUs from each physical core via cpu_selector
+        core_to_cpus: dict[int, list[LogicalCPUInfo]] = {}
+        for cpu_info in logical_cpu_list:
+            if cpu_info.physical_core not in core_to_cpus:
+                core_to_cpus[cpu_info.physical_core] = []
+            core_to_cpus[cpu_info.physical_core].append(cpu_info)
+        logical_cpu_list = []
+        for cpu_list in core_to_cpus.values():
+            cpu_list = sorted(cpu_list, key=lambda x: x.id)
+            logical_cpu_list.extend(cpu_selector(cpu_list))
+        logical_cpu_list = sorted(logical_cpu_list, key=lambda x: x.id)
+
+        # Reserve CPUs for other processes
+        reserve_cpu_num = envs.VLLM_CPU_NUM_OF_RESERVED_CPU
+        if reserve_cpu_num is None:
+            need_reserve = (
+                self.parallel_config.world_size > 1
+                or self.parallel_config.data_parallel_size_local > 1
+            )
+            reserve_cpu_num = 1 if need_reserve else 0
+        assert len(logical_cpu_list) > reserve_cpu_num, (
+            f"VLLM_CPU_NUM_OF_RESERVED_CPU ({reserve_cpu_num}) "
+            f"should less than {len(logical_cpu_list)}."
+        )
+        if reserve_cpu_num != 0:
+            logical_cpu_list = logical_cpu_list[:-reserve_cpu_num]
+
+        logger.info(
+            "auto thread-binding list (id, physical core): %s",
+            [(x.id, x.physical_core) for x in logical_cpu_list],
+        )
+        return ",".join([str(x.id) for x in logical_cpu_list])
+
+    def profile(self, is_start: bool = True):
+        if self.profiler is None:
+            raise RuntimeError("Profiler is not enabled.")
+        if is_start:
+            self.profiler.start()
+        else:
+            self.profiler.stop()
+            if self.local_rank == 0:
+                logger.info(
+                    self.profiler.key_averages().table(
+                        sort_by="self_cpu_time_total", row_limit=50
+                    )
+                )
diff --git a/v1/worker/dp_utils.py b/v1/worker/dp_utils.py
new file mode 100644
index 0000000..464fbf1
--- /dev/null
+++ b/v1/worker/dp_utils.py
@@ -0,0 +1,230 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import numpy as np
+import torch
+import torch.distributed as dist
+
+from vllm.config import ParallelConfig
+from vllm.distributed.parallel_state import get_dp_group
+from vllm.logger import init_logger
+from vllm.v1.worker.ubatch_utils import (
+    UBatchSlices,
+    check_ubatch_thresholds,
+    create_ubatch_slices,
+    is_second_ubatch_empty,
+)
+
+logger = init_logger(__name__)
+
+
+def _get_device_and_group(parallel_config: ParallelConfig):
+    # Use the actual device assigned to the DP group, not just the device type
+    device = get_dp_group().device
+    group = get_dp_group().device_group
+
+    # Transfering this tensor from GPU to CPU will introduce a GPU sync
+    # point that could adversely affect performance of vllm with asynch
+    # scheduling. This environment variable exists to quickly disable
+    # this optimization if we run into this case.
+    if parallel_config.disable_nccl_for_dp_synchronization:
+        logger.info_once("Using CPU all reduce to syncronize DP padding between ranks.")
+        device = "cpu"
+        group = get_dp_group().cpu_group
+    return device, group
+
+
+def _run_ar(
+    should_ubatch: bool,
+    should_dp_pad: bool,
+    orig_num_tokens_per_ubatch: int,
+    padded_num_tokens_per_ubatch: int,
+    parallel_config: ParallelConfig,
+) -> torch.Tensor:
+    dp_size = parallel_config.data_parallel_size
+    dp_rank = parallel_config.data_parallel_rank
+    device, group = _get_device_and_group(parallel_config)
+    tensor = torch.zeros(4, dp_size, device=device, dtype=torch.int32)
+    tensor[0][dp_rank] = orig_num_tokens_per_ubatch
+    tensor[1][dp_rank] = padded_num_tokens_per_ubatch
+    tensor[2][dp_rank] = 1 if should_ubatch else 0
+    tensor[3][dp_rank] = 1 if should_dp_pad else 0
+    dist.all_reduce(tensor, group=group)
+    return tensor
+
+
+def _post_process_ubatch(tensor: torch.Tensor) -> bool:
+    orig_num_tokens_tensor = tensor[0, :]
+    padded_num_tokens_tensor = tensor[1, :]
+
+    # First determine if we are going to be ubatching.
+    should_ubatch: bool = bool(torch.all(tensor[2] == 1).item())
+    if not should_ubatch:
+        return False
+    # If the DP ranks are planning to ubatch, make sure that
+    # there are no "empty" second ubatches
+    orig_min_num_tokens = int(orig_num_tokens_tensor.min().item())
+    padded_max_num_tokens = int(padded_num_tokens_tensor.max().item())
+    if is_second_ubatch_empty(orig_min_num_tokens, padded_max_num_tokens):
+        logger.debug(
+            "Aborting ubatching %s %s", orig_min_num_tokens, padded_max_num_tokens
+        )
+        should_ubatch = False
+    return should_ubatch
+
+
+def _post_process_dp_padding(tensor: torch.Tensor, should_dp_pad: bool) -> torch.Tensor:
+    num_tokens_across_dp = tensor[1, :]
+    if should_dp_pad:
+        # If DP padding is enabled, ensure that each rank is processing the same number
+        # of tokens
+        max_num_tokens = int(num_tokens_across_dp.max().item())
+        return torch.tensor(
+            [max_num_tokens] * len(num_tokens_across_dp),
+            device="cpu",
+            dtype=torch.int32,
+        )
+    else:
+        return num_tokens_across_dp.cpu()
+
+
+def _synchronize_dp_ranks(
+    num_tokens_unpadded: int,
+    num_tokens_padded: int,
+    should_attempt_ubatching: bool,
+    should_attempt_dp_padding: bool,
+    parallel_config: ParallelConfig,
+) -> tuple[bool, torch.Tensor | None]:
+    """
+    1. Decides if each DP rank is going to microbatch. Either all ranks
+    run with microbatching or none of them do.
+
+    2. Determines the total number of tokens that each rank will run.
+    When running microbatched or if should_attempt_dp_padding is True, all
+    ranks will be padded out so that the run with the same number of tokens
+
+    Returns: tuple[
+        should_ubatch: Are all DP ranks going to microbatch
+        num_tokens_after_padding: A tensor containing the total number of
+        tokens per-microbatch for each DP rank including any DP padding.
+    ]
+
+    """
+    assert num_tokens_padded >= num_tokens_unpadded
+
+    # Coordinate between the DP ranks via an All Reduce
+    # to determine the total number of tokens that each rank
+    # will run and if we are using ubatching or not.
+    tensor = _run_ar(
+        should_ubatch=should_attempt_ubatching,
+        should_dp_pad=should_attempt_dp_padding,
+        orig_num_tokens_per_ubatch=num_tokens_unpadded,
+        padded_num_tokens_per_ubatch=num_tokens_padded,
+        parallel_config=parallel_config,
+    )
+
+    should_dp_pad = bool(torch.all(tensor[3] == 1).item())
+
+    # DP ranks should all have the same value for should_attempt_dp_padding.
+    assert should_attempt_dp_padding == should_dp_pad
+
+    # Check conditions for microbatching
+    should_ubatch = _post_process_ubatch(tensor)
+
+    if should_ubatch and not should_dp_pad:
+        logger.debug_once(
+            "Microbatching has been triggered and requires DP padding. "
+            "Enabling DP padding even though it has been explicitly "
+            "disabled.",
+            scope="global",
+        )
+        should_dp_pad = True
+
+    # Pad all DP ranks up to the maximum token count across ranks if
+    # should_dp_pad is True
+    num_tokens_after_padding = _post_process_dp_padding(
+        tensor,
+        should_dp_pad,
+    )
+
+    return should_ubatch, num_tokens_after_padding
+
+
+def coordinate_batch_across_dp(
+    num_tokens_unpadded: int,
+    allow_microbatching: bool,
+    allow_dp_padding: bool,
+    parallel_config: ParallelConfig,
+    num_tokens_padded: int | None = None,
+    uniform_decode: bool | None = None,
+    num_scheduled_tokens_per_request: np.ndarray | None = None,
+) -> tuple[UBatchSlices | None, torch.Tensor | None]:
+    """
+    Coordinates amongst all DP ranks to determine if and how the full batch
+    should be split into microbatches.
+
+    Args:
+        num_tokens_unpadded: Number of tokens without accounting for padding
+        allow_microbatching: If microbatching should be attempted
+        allow_dp_padding: If all DP ranks should be padded up to the same value
+        parallel_config: The parallel config
+        num_tokens_padded: Number of tokens including any non-DP padding (CUDA graphs,
+            TP, etc)
+        uniform_decode: Only used if allow_microbatching is True. True if the batch
+            only contains single token decodes
+        num_scheduled_tokens_per_request: Only used if allow_microbatching is True. The
+            number of tokens per request.
+
+    Returns: tuple[
+        ubatch_slices: if this is set then all DP ranks have agreed to
+        microbatch
+        num_tokens_after_padding: A tensor containing the total number of
+        tokens per-microbatch for each DP rank including padding. Will be
+        padded up to the max value across all DP ranks when allow_dp_padding
+        is True.
+    ]
+
+    """
+    if parallel_config.data_parallel_size == 1:
+        # Early exit.
+        return None, None
+
+    # If the caller has explicitly enabled microbatching.
+    should_attempt_ubatching = False
+    if allow_microbatching:
+        # Check preconditions for microbatching
+        assert uniform_decode is not None
+        should_attempt_ubatching = check_ubatch_thresholds(
+            parallel_config,
+            num_tokens_unpadded,
+            uniform_decode=uniform_decode,
+        )
+
+    if num_tokens_padded is None:
+        num_tokens_padded = num_tokens_unpadded
+
+    (should_ubatch, num_tokens_after_padding) = _synchronize_dp_ranks(
+        num_tokens_unpadded,
+        num_tokens_padded,
+        should_attempt_ubatching,
+        allow_dp_padding,
+        parallel_config,
+    )
+
+    # Don't microbatch unless every other DP worker is also microbatching
+    if not should_ubatch:
+        return (None, num_tokens_after_padding)
+
+    # This doesn't actually pad the ubatch slices. It just initializes the
+    # split point to the padded value so that padding can be applied
+    # to the second ubatch in pad_out_ubatch_slice after attention
+    # metadata creation
+    assert num_tokens_after_padding is not None
+    token_split_point = int(num_tokens_after_padding[0].item()) // 2
+
+    assert num_scheduled_tokens_per_request is not None
+    ubatch_slices = create_ubatch_slices(
+        num_scheduled_tokens_per_request, token_split_point
+    )
+
+    return (ubatch_slices, num_tokens_after_padding)
diff --git a/v1/worker/ec_connector_model_runner_mixin.py b/v1/worker/ec_connector_model_runner_mixin.py
new file mode 100644
index 0000000..00bc909
--- /dev/null
+++ b/v1/worker/ec_connector_model_runner_mixin.py
@@ -0,0 +1,87 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Define EC connector functionality mixin for model runners.
+"""
+
+from collections.abc import Generator
+from contextlib import AbstractContextManager, contextmanager, nullcontext
+from typing import (
+    TYPE_CHECKING,  # noqa: UP035
+)
+
+import torch
+
+from vllm.distributed.ec_transfer import get_ec_transfer, has_ec_transfer
+from vllm.distributed.ec_transfer.ec_connector.base import ECConnectorBase
+from vllm.logger import init_logger
+from vllm.v1.outputs import ECConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import SchedulerOutput
+
+logger = init_logger(__name__)
+
+
+# Defined as a EC connector functionality mixin for ModelRunner (GPU, TPU)
+class ECConnectorModelRunnerMixin:
+    @staticmethod
+    def maybe_save_ec_to_connector(
+        encoder_cache: dict[str, torch.Tensor],
+        mm_hash: str,
+    ):
+        if not has_ec_transfer():
+            logger.debug("Not have ec transfer please check")
+            return
+        connector = get_ec_transfer()
+        connector.save_caches(encoder_cache=encoder_cache, mm_hash=mm_hash)
+
+    @staticmethod
+    def get_finished_ec_transfers(
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[set[str] | None, set[str] | None]:
+        if has_ec_transfer():
+            return get_ec_transfer().get_finished(scheduler_output.finished_req_ids)
+        return None, None
+
+    @staticmethod
+    def maybe_get_ec_connector_output(
+        scheduler_output: "SchedulerOutput",
+        encoder_cache: dict[str, torch.Tensor],
+        **kwargs,
+    ) -> AbstractContextManager[ECConnectorOutput | None]:
+        return (
+            ECConnectorModelRunnerMixin._get_ec_connector_output(
+                scheduler_output, encoder_cache, **kwargs
+            )
+            if has_ec_transfer()
+            else nullcontext()
+        )
+
+    # This context manager must be used within an active forward context.
+    # It encapsulates the entire EC conector lifecycle within execute_model
+    @staticmethod
+    @contextmanager
+    def _get_ec_connector_output(
+        scheduler_output: "SchedulerOutput",
+        encoder_cache: dict[str, torch.Tensor],
+        **kwargs,
+    ) -> Generator[ECConnectorOutput, None, None]:
+        output = ECConnectorOutput()
+
+        ec_connector = get_ec_transfer()
+        assert isinstance(ec_connector, ECConnectorBase)
+        assert scheduler_output.ec_connector_metadata is not None
+        ec_connector.bind_connector_metadata(scheduler_output.ec_connector_metadata)
+
+        if not ec_connector.is_producer:
+            ec_connector.start_load_caches(encoder_cache, **kwargs)
+
+        try:
+            yield output
+        finally:
+            output.finished_sending, output.finished_recving = (
+                ec_connector.get_finished(scheduler_output.finished_req_ids)
+            )
+
+            ec_connector.clear_connector_metadata()
diff --git a/v1/worker/gpu_input_batch.py b/v1/worker/gpu_input_batch.py
new file mode 100644
index 0000000..7cf6afa
--- /dev/null
+++ b/v1/worker/gpu_input_batch.py
@@ -0,0 +1,975 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Datastructures defining a GPU input batch
+
+from dataclasses import dataclass
+from typing import cast
+
+import numpy as np
+import torch
+
+from vllm.lora.request import LoRARequest
+from vllm.multimodal.inputs import MultiModalFeatureSpec
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingParams, SamplingType
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.utils.collection_utils import swap_dict_values
+from vllm.v1.outputs import LogprobsTensors
+from vllm.v1.pool.metadata import PoolingMetadata
+from vllm.v1.sample.logits_processor import (
+    BatchUpdateBuilder,
+    LogitsProcessors,
+    MoveDirectionality,
+)
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.spec_decode.utils import is_spec_decode_unsupported
+from vllm.v1.utils import copy_slice
+from vllm.v1.worker.block_table import MultiGroupBlockTable
+
+
+@dataclass
+class CachedRequestState:
+    req_id: str
+    prompt_token_ids: list[int] | None
+    mm_features: list[MultiModalFeatureSpec]
+    sampling_params: SamplingParams | None
+    pooling_params: PoolingParams | None
+    generator: torch.Generator | None
+
+    block_ids: tuple[list[int], ...]
+    num_computed_tokens: int
+    output_token_ids: list[int]
+
+    mrope_positions: torch.Tensor | None = None
+    mrope_position_delta: int | None = None
+
+    lora_request: LoRARequest | None = None
+    prompt_embeds: torch.Tensor | None = None
+
+    # Used when both async_scheduling and spec_decode are enabled.
+    prev_num_draft_len: int = 0
+
+    def __post_init__(self):
+        self.num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
+            self.prompt_token_ids, self.prompt_embeds
+        )
+
+    @property
+    def num_tokens(self) -> int:
+        return self.num_prompt_tokens + len(self.output_token_ids)
+
+    def get_token_id(self, idx: int) -> int:
+        if idx < self.num_prompt_tokens:
+            if self.prompt_token_ids is None:
+                raise ValueError(
+                    f"Tried to access token index {idx}, but that token was "
+                    "provided via prompt_embeds, and its ID is unknown."
+                )
+            return self.prompt_token_ids[idx]
+        if idx - self.num_prompt_tokens < len(self.output_token_ids):
+            return self.output_token_ids[idx - self.num_prompt_tokens]
+        return -1
+
+
+class InputBatch:
+    def __init__(
+        self,
+        max_num_reqs: int,
+        max_model_len: int,
+        max_num_batched_tokens: int,
+        device: torch.device,
+        pin_memory: bool,
+        vocab_size: int,
+        block_sizes: list[int],  # The block_size of each kv cache group
+        kernel_block_sizes: list[int],
+        logitsprocs: LogitsProcessors | None = None,
+        logitsprocs_need_output_token_ids: bool = False,
+        is_spec_decode: bool = False,
+        is_pooling_model: bool = False,
+        num_speculative_tokens: int = 0,
+        dcp_kv_cache_interleave_size: int = 1,
+    ):
+        self.is_pooling_model = is_pooling_model
+        self.is_spec_decode = is_spec_decode
+        self.max_num_reqs = max_num_reqs
+        self.max_model_len = max_model_len
+        self.max_num_batched_tokens = max_num_batched_tokens
+        self.device = device
+        self.pin_memory = pin_memory
+        self.vocab_size = vocab_size
+
+        self._req_ids: list[str | None] = []
+        self.req_id_to_index: dict[str, int] = {}
+
+        # TODO(woosuk): This buffer could be too large if max_model_len is big.
+        # Find a way to reduce the CPU memory usage.
+        # This buffer is not directly transferred to the GPU, so it does not
+        # need to be pinned.
+        self.token_ids_cpu_tensor = torch.zeros(
+            (max_num_reqs, max_model_len),
+            device="cpu",
+            dtype=torch.int32,
+            pin_memory=False,
+        )
+        self.token_ids_cpu = self.token_ids_cpu_tensor.numpy()
+        self.is_token_ids_tensor = torch.zeros(
+            (max_num_reqs, max_model_len), device="cpu", dtype=bool, pin_memory=False
+        )
+        self.is_token_ids = self.is_token_ids_tensor.numpy()
+        # Store prompt embeddings per request to avoid OOM from large upfront
+        # allocation if max_model_len is big.
+        # Maps req_index -> tensor of shape (num_prompt_tokens, hidden_size)
+        self.req_prompt_embeds: dict[int, torch.Tensor] = {}
+        self.num_tokens = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_tokens_no_spec = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_prompt_tokens = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_computed_tokens_cpu_tensor = torch.zeros(
+            (max_num_reqs,),
+            device="cpu",
+            dtype=torch.int32,
+            pin_memory=pin_memory,
+        )
+        self.num_computed_tokens_cpu = self.num_computed_tokens_cpu_tensor.numpy()
+
+        # Block table.
+        self.block_table = MultiGroupBlockTable(
+            max_num_reqs=max_num_reqs,
+            max_model_len=max_model_len,
+            max_num_batched_tokens=max_num_batched_tokens,
+            pin_memory=pin_memory,
+            device=device,
+            block_sizes=block_sizes,
+            kernel_block_sizes=kernel_block_sizes,
+            num_speculative_tokens=num_speculative_tokens,
+            dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
+        )
+
+        # Sampling-related.
+        self.temperature = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device=device
+        )
+        self.temperature_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=pin_memory
+        )
+        self.temperature_cpu = self.temperature_cpu_tensor.numpy()
+        self.greedy_reqs: set[str] = set()
+        self.random_reqs: set[str] = set()
+
+        self.top_p = torch.empty((max_num_reqs,), dtype=torch.float32, device=device)
+        self.top_p_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=pin_memory
+        )
+        self.top_p_cpu = self.top_p_cpu_tensor.numpy()
+        self.top_p_reqs: set[str] = set()
+
+        self.top_k = torch.empty((max_num_reqs,), dtype=torch.int32, device=device)
+        self.top_k_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.int32, device="cpu", pin_memory=pin_memory
+        )
+        self.top_k_cpu = self.top_k_cpu_tensor.numpy()
+        self.top_k_reqs: set[str] = set()
+
+        # IDs of requests which do not support spec decoding
+        self.spec_decode_unsupported_reqs: set[str] = set()
+
+        # Frequency penalty related data structures
+        self.frequency_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.frequency_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.frequency_penalties_cpu = self.frequency_penalties_cpu_tensor.numpy()
+        self.frequency_penalties_reqs: set[str] = set()
+
+        # Presence penalty related data structures
+        self.presence_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.presence_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.presence_penalties_cpu = self.presence_penalties_cpu_tensor.numpy()
+        self.presence_penalties_reqs: set[str] = set()
+
+        # Repetition penalty related data structures
+        self.repetition_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.repetition_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.repetition_penalties_cpu = self.repetition_penalties_cpu_tensor.numpy()
+        self.repetition_penalties_reqs: set[str] = set()
+
+        # Speculative decoding
+        self.num_accepted_tokens_cpu_tensor = torch.ones(
+            (max_num_reqs,), dtype=torch.int64, device="cpu", pin_memory=pin_memory
+        )
+        self.num_accepted_tokens_cpu = self.num_accepted_tokens_cpu_tensor.numpy()
+
+        # lora related
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
+        self.lora_id_to_request_ids: dict[int, set[str]] = {}
+        self.lora_id_to_lora_request: dict[int, LoRARequest] = {}
+
+        # req_index -> generator
+        # NOTE(woosuk): The indices of the requests that do not have their own
+        # generator should not be included in the dictionary.
+        self.generators: dict[int, torch.Generator] = {}
+
+        self.num_logprobs: dict[str, int] = {}
+        # NOTE(rob): num_prompt_logprobs only includes reqs
+        # that are currently in the prefill phase.
+        self.num_prompt_logprobs: dict[str, int] = {}
+
+        # To accumulate prompt logprobs tensor chunks across prefill steps.
+        self.in_progress_prompt_logprobs_cpu: dict[str, LogprobsTensors] = {}
+
+        # Internal representation of per-step batch state changes, used for
+        # reordering persistent batch and generating logitsprocs batch state
+        # updates. Should reset each step.
+        self.batch_update_builder = BatchUpdateBuilder()
+
+        # TODO convert this to LogitsProcessor
+        self.has_allowed_token_ids: set[str] = set()
+        # NOTE(lufang): In the mask tensor, if the corresponding token allowed,
+        # the value is False. Since we use masked_fill_ to set -inf.
+        self.allowed_token_ids_mask: torch.Tensor | None = None
+        self.allowed_token_ids_mask_cpu_tensor: torch.Tensor | None = None
+
+        # req_index -> bad_words_token_ids
+        self.bad_words_token_ids: dict[int, list[list[int]]] = {}
+
+        self.logits_processing_needs_token_ids = np.zeros(max_num_reqs, dtype=bool)
+
+        self.req_output_token_ids: list[list[int] | None] = []
+
+        # Store provided logitsprocs. If none are provided, initialize empty
+        # data structure
+        self.logitsprocs = logitsprocs or LogitsProcessors()
+        self.logitsprocs_need_output_token_ids = logitsprocs_need_output_token_ids
+
+        # Store last speculative tokens for sampler.
+        self.spec_token_ids: list[list[int] | None] = []
+
+        # This is updated each time the batch constituents change.
+        self.sampling_metadata = self._make_sampling_metadata()
+
+        self.pooling_params: dict[str, PoolingParams] = {}
+
+        # Cached reference to the GPU tensor of previously sampled tokens
+        self.prev_sampled_token_ids: torch.Tensor | None = None
+        self.prev_req_id_to_index: dict[str, int] | None = None
+        # These are used to update output_token_ids with real sampled
+        # ids from prior step, if required by current sampling params
+        # (e.g. penalties).
+        self.sampled_token_ids_cpu: torch.Tensor | None = None
+        self.async_copy_ready_event: torch.cuda.Event | None = None
+
+    @property
+    def req_ids(self) -> list[str]:
+        # None elements should only be present transiently
+        # while performing state updates to the batch.
+        return cast(list[str], self._req_ids)
+
+    def _register_add_request(self, request: "CachedRequestState") -> int:
+        """Track add-request operations for logits processors.
+        Not applicable to pooling models.
+        """
+
+        # Fill the next empty index if there is one.
+        if (new_req_index := self.batch_update_builder.pop_removed()) is None:
+            # Append to end otherwise.
+            new_req_index = self.num_reqs
+
+        assert new_req_index < self.max_num_reqs
+        self.batch_update_builder.batch_changed = True
+        if request.sampling_params:
+            # Detailed added request metadata is only required for non-pooling
+            # models, to support logitsprocs.
+            self.batch_update_builder.added.append(
+                (
+                    new_req_index,
+                    request.sampling_params,
+                    request.prompt_token_ids,
+                    request.output_token_ids,
+                )
+            )
+
+        return new_req_index
+
+    def add_request(
+        self,
+        request: "CachedRequestState",
+    ) -> int:
+        req_index = self._register_add_request(request)
+
+        req_id = request.req_id
+        if req_index == len(self._req_ids):
+            self._req_ids.append(req_id)
+            self.req_output_token_ids.append(request.output_token_ids)
+            self.spec_token_ids.append([])
+        else:
+            self._req_ids[req_index] = req_id
+            self.req_output_token_ids[req_index] = request.output_token_ids
+            self.spec_token_ids[req_index] = []
+
+        self.req_id_to_index[req_id] = req_index
+
+        # Copy the prompt token ids and output token ids.
+        num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
+            request.prompt_token_ids, request.prompt_embeds
+        )
+        self.num_prompt_tokens[req_index] = num_prompt_tokens
+        start_idx = num_prompt_tokens
+        end_idx = start_idx + len(request.output_token_ids)
+        if request.prompt_token_ids is not None:
+            self.token_ids_cpu[req_index, :num_prompt_tokens] = request.prompt_token_ids
+            self.is_token_ids[req_index, :num_prompt_tokens] = True
+        else:
+            self.is_token_ids[req_index, :num_prompt_tokens] = False
+        if request.prompt_embeds is not None:
+            self.req_prompt_embeds[req_index] = request.prompt_embeds
+        self.token_ids_cpu[req_index, start_idx:end_idx] = request.output_token_ids
+        self.is_token_ids[req_index, start_idx:end_idx] = True
+        # Number of token ids in prompt (token_ids_cpu or prompt_embeds).
+        # NOTE(woosuk): This may include spec decode tokens.
+        self.num_tokens[req_index] = request.num_tokens
+        # Number of tokens without spec decode tokens.
+        self.num_tokens_no_spec[req_index] = request.num_tokens
+
+        self.num_computed_tokens_cpu[req_index] = request.num_computed_tokens
+        self.block_table.add_row(request.block_ids, req_index)
+
+        if sampling_params := request.sampling_params:
+            if self.is_spec_decode and is_spec_decode_unsupported(sampling_params):
+                self.spec_decode_unsupported_reqs.add(req_id)
+            if sampling_params.sampling_type == SamplingType.GREEDY:
+                # Should avoid division by zero later when apply_temperature.
+                self.temperature_cpu[req_index] = 0.0
+                self.greedy_reqs.add(req_id)
+            else:
+                self.temperature_cpu[req_index] = sampling_params.temperature
+                self.random_reqs.add(req_id)
+
+            self.top_p_cpu[req_index] = sampling_params.top_p
+            if sampling_params.top_p < 1:
+                self.top_p_reqs.add(req_id)
+            top_k = sampling_params.top_k
+            if 0 < top_k < self.vocab_size:
+                self.top_k_reqs.add(req_id)
+            else:
+                top_k = self.vocab_size
+            self.top_k_cpu[req_index] = top_k
+            self.frequency_penalties_cpu[req_index] = sampling_params.frequency_penalty
+            if sampling_params.frequency_penalty != 0.0:
+                self.frequency_penalties_reqs.add(req_id)
+            self.presence_penalties_cpu[req_index] = sampling_params.presence_penalty
+            if sampling_params.presence_penalty != 0.0:
+                self.presence_penalties_reqs.add(req_id)
+            self.repetition_penalties_cpu[req_index] = (
+                sampling_params.repetition_penalty
+            )
+            if sampling_params.repetition_penalty != 1.0:
+                self.repetition_penalties_reqs.add(req_id)
+
+            # NOTE(woosuk): self.generators should not include the requests that
+            # do not have their own generator.
+            if request.generator is not None:
+                self.generators[req_index] = request.generator
+
+            if sampling_params.logprobs is not None:
+                self.num_logprobs[req_id] = (
+                    self.vocab_size
+                    if sampling_params.logprobs == -1
+                    else sampling_params.logprobs
+                )
+            if sampling_params.prompt_logprobs is not None:
+                self.num_prompt_logprobs[req_id] = (
+                    self.vocab_size
+                    if sampling_params.prompt_logprobs == -1
+                    else sampling_params.prompt_logprobs
+                )
+
+            if sampling_params.allowed_token_ids:
+                self.has_allowed_token_ids.add(req_id)
+                if self.allowed_token_ids_mask_cpu_tensor is None:
+                    # Lazy allocation for this tensor, which can be large.
+                    # False means we don't fill with -inf.
+                    self.allowed_token_ids_mask = torch.zeros(
+                        self.max_num_reqs,
+                        self.vocab_size,
+                        dtype=torch.bool,
+                        device=self.device,
+                    )
+                    self.allowed_token_ids_mask_cpu_tensor = torch.zeros(
+                        self.max_num_reqs,
+                        self.vocab_size,
+                        dtype=torch.bool,
+                        device="cpu",
+                    )
+                self.allowed_token_ids_mask_cpu_tensor[req_index] = True
+                # False means we don't fill with -inf.
+                self.allowed_token_ids_mask_cpu_tensor[req_index][
+                    sampling_params.allowed_token_ids
+                ] = False
+
+            if sampling_params.bad_words_token_ids:
+                self.bad_words_token_ids[req_index] = (
+                    sampling_params.bad_words_token_ids
+                )
+        elif pooling_params := request.pooling_params:
+            self.pooling_params[req_id] = pooling_params
+            self.logits_processing_needs_token_ids[req_index] = (
+                pooling_params.requires_token_ids
+            )
+        else:
+            raise NotImplementedError("Unrecognized request type")
+
+        # Speculative decoding: by default 1 token is generated.
+        self.num_accepted_tokens_cpu[req_index] = 1
+
+        # Add request lora ID
+        if request.lora_request:
+            lora_id = request.lora_request.lora_int_id
+            if lora_id not in self.lora_id_to_request_ids:
+                self.lora_id_to_request_ids[lora_id] = set()
+
+            self.request_lora_mapping[req_index] = lora_id
+            self.lora_id_to_request_ids[lora_id].add(request.req_id)
+            self.lora_id_to_lora_request[lora_id] = request.lora_request
+        else:
+            # No LoRA
+            self.request_lora_mapping[req_index] = 0
+
+        return req_index
+
+    def remove_request(self, req_id: str) -> int | None:
+        """This method must always be followed by a call to condense().
+
+        Args:
+          req_id: request to remove
+
+        Returns:
+          Removed request index, or `None` if `req_id` not recognized
+        """
+
+        req_index = self.req_id_to_index.pop(req_id, None)
+        if req_index is None:
+            return None
+
+        self.batch_update_builder.removed_append(req_index)
+        self._req_ids[req_index] = None
+        self.req_output_token_ids[req_index] = None
+        self.spec_token_ids[req_index] = None
+
+        # LoRA
+        lora_id = self.request_lora_mapping[req_index]
+        if lora_id != 0:
+            lora_req_ids = self.lora_id_to_request_ids[lora_id]
+            lora_req_ids.discard(req_id)
+            if not lora_req_ids:
+                del self.lora_id_to_request_ids[lora_id]
+                del self.lora_id_to_lora_request[lora_id]
+            self.request_lora_mapping[req_index] = 0
+
+        if self.is_pooling_model:
+            self.pooling_params.pop(req_id, None)
+            return req_index
+
+        self.greedy_reqs.discard(req_id)
+        self.random_reqs.discard(req_id)
+        self.top_p_reqs.discard(req_id)
+        self.top_k_reqs.discard(req_id)
+        self.spec_decode_unsupported_reqs.discard(req_id)
+        self.frequency_penalties_reqs.discard(req_id)
+        self.presence_penalties_reqs.discard(req_id)
+        self.repetition_penalties_reqs.discard(req_id)
+        self.generators.pop(req_index, None)
+        self.num_logprobs.pop(req_id, None)
+        self.num_prompt_logprobs.pop(req_id, None)
+        self.in_progress_prompt_logprobs_cpu.pop(req_id, None)
+
+        self.has_allowed_token_ids.discard(req_id)
+        if self.allowed_token_ids_mask_cpu_tensor is not None:
+            # False means we don't fill with -inf.
+            self.allowed_token_ids_mask_cpu_tensor[req_index].fill_(False)
+        self.bad_words_token_ids.pop(req_index, None)
+        return req_index
+
+    def swap_states(self, i1: int, i2: int) -> None:
+        old_id_i1 = self._req_ids[i1]
+        old_id_i2 = self._req_ids[i2]
+        self._req_ids[i1], self._req_ids[i2] = self._req_ids[i2], self._req_ids[i1]  # noqa
+        self.req_output_token_ids[i1], self.req_output_token_ids[i2] = (
+            self.req_output_token_ids[i2],
+            self.req_output_token_ids[i1],
+        )
+        self.spec_token_ids[i1], self.spec_token_ids[i2] = (
+            self.spec_token_ids[i2],
+            self.spec_token_ids[i1],
+        )
+        assert old_id_i1 is not None and old_id_i2 is not None
+        self.req_id_to_index[old_id_i1], self.req_id_to_index[old_id_i2] = (
+            self.req_id_to_index[old_id_i2],
+            self.req_id_to_index[old_id_i1],
+        )
+        self.num_tokens[i1], self.num_tokens[i2] = (
+            self.num_tokens[i2],
+            self.num_tokens[i1],
+        )
+        self.num_tokens_no_spec[i1], self.num_tokens_no_spec[i2] = (
+            self.num_tokens_no_spec[i2],
+            self.num_tokens_no_spec[i1],
+        )
+        self.num_prompt_tokens[i1], self.num_prompt_tokens[i2] = (
+            self.num_prompt_tokens[i2],
+            self.num_prompt_tokens[i1],
+        )
+        self.num_computed_tokens_cpu[i1], self.num_computed_tokens_cpu[i2] = (
+            self.num_computed_tokens_cpu[i2],
+            self.num_computed_tokens_cpu[i1],
+        )
+
+        # NOTE: the following is unsafe
+        # self.token_ids_cpu[i1, ...], self.token_ids_cpu[i2, ...], =\
+        #     self.token_ids_cpu[i2, ...], self.token_ids_cpu[i1, ...]
+        # instead, we need to temporiarily copy the data for one of the indices
+        # TODO(lucas): optimize this by only copying valid indices
+        tmp = self.token_ids_cpu[i1, ...].copy()
+        self.token_ids_cpu[i1, ...] = self.token_ids_cpu[i2, ...]
+        self.token_ids_cpu[i2, ...] = tmp
+
+        self.is_token_ids[[i1, i2], ...] = self.is_token_ids[[i2, i1], ...]
+
+        # Swap prompt embeddings if they exist
+        embeds_i1 = self.req_prompt_embeds.get(i1)
+        embeds_i2 = self.req_prompt_embeds.get(i2)
+        if embeds_i1 is not None:
+            self.req_prompt_embeds[i2] = embeds_i1
+        else:
+            self.req_prompt_embeds.pop(i2, None)
+        if embeds_i2 is not None:
+            self.req_prompt_embeds[i1] = embeds_i2
+        else:
+            self.req_prompt_embeds.pop(i1, None)
+
+        self.block_table.swap_row(i1, i2)
+
+        self.request_lora_mapping[i1], self.request_lora_mapping[i2] = (
+            self.request_lora_mapping[i2],
+            self.request_lora_mapping[i1],
+        )
+
+        if self.is_pooling_model:
+            # Sampling and logits parameters don't apply to pooling models.
+            return
+
+        # For autoregressive models, track detailed request reordering info
+        # to support logitsprocs.
+        self.batch_update_builder.moved.append((i1, i2, MoveDirectionality.SWAP))
+
+        self.temperature_cpu[i1], self.temperature_cpu[i2] = (
+            self.temperature_cpu[i2],
+            self.temperature_cpu[i1],
+        )
+        self.top_p_cpu[i1], self.top_p_cpu[i2] = self.top_p_cpu[i2], self.top_p_cpu[i1]
+        self.top_k_cpu[i1], self.top_k_cpu[i2] = self.top_k_cpu[i2], self.top_k_cpu[i1]
+        self.frequency_penalties_cpu[i1], self.frequency_penalties_cpu[i2] = (
+            self.frequency_penalties_cpu[i2],
+            self.frequency_penalties_cpu[i1],
+        )
+        self.presence_penalties_cpu[i1], self.presence_penalties_cpu[i2] = (
+            self.presence_penalties_cpu[i2],
+            self.presence_penalties_cpu[i1],
+        )
+        self.repetition_penalties_cpu[i1], self.repetition_penalties_cpu[i2] = (
+            self.repetition_penalties_cpu[i2],
+            self.repetition_penalties_cpu[i1],
+        )
+        self.num_accepted_tokens_cpu[i1], self.num_accepted_tokens_cpu[i2] = (
+            self.num_accepted_tokens_cpu[i2],
+            self.num_accepted_tokens_cpu[i1],
+        )
+
+        swap_dict_values(self.generators, i1, i2)
+        swap_dict_values(self.bad_words_token_ids, i1, i2)
+
+        if self.allowed_token_ids_mask_cpu_tensor is not None:
+            (
+                self.allowed_token_ids_mask_cpu_tensor[i1],
+                self.allowed_token_ids_mask_cpu_tensor[i2],
+            ) = (
+                self.allowed_token_ids_mask_cpu_tensor[i2],
+                self.allowed_token_ids_mask_cpu_tensor[i1],
+            )
+
+    def condense(self) -> None:
+        """Slide non-empty requests down into lower, empty indices.
+
+        Any consecutive empty indices at the very end of the list are not
+        filled.
+
+        Returns:
+          swaps: list of (from,to) swap tuples for moved requests
+          empty_req_indices: indices not filled by condensation
+        """
+        num_reqs = self.num_reqs
+
+        if not (empty_req_indices := self.batch_update_builder.removed):
+            # All removed requests were replaced by added requests, or else no
+            # requests were removed at all. No condense() needed
+            return
+        if num_reqs == 0:
+            # The batched states are empty.
+            self._req_ids.clear()
+            self.req_output_token_ids.clear()
+            self.spec_token_ids.clear()
+            return
+
+        # NOTE(woosuk): This function assumes that the empty_req_indices
+        # is sorted in descending order.
+        last_req_index = num_reqs + len(empty_req_indices) - 1
+        while empty_req_indices:
+            # Find the largest non-empty index.
+            while last_req_index in empty_req_indices:
+                last_req_index -= 1
+
+            # Find the smallest empty index.
+            empty_index = self.batch_update_builder.peek_removed()
+            assert empty_index is not None
+            if empty_index >= last_req_index:
+                break
+
+            # Move active request down into empty request
+            # index.
+            self.batch_update_builder.pop_removed()
+            req_id = self._req_ids[last_req_index]
+            output_token_ids = self.req_output_token_ids[last_req_index]
+            assert req_id is not None
+            self._req_ids[empty_index] = req_id
+            self._req_ids[last_req_index] = None
+            self.req_output_token_ids[empty_index] = output_token_ids
+            self.req_output_token_ids[last_req_index] = None
+            self.req_id_to_index[req_id] = empty_index
+
+            spec_token_ids = self.spec_token_ids[last_req_index]
+            self.spec_token_ids[empty_index] = spec_token_ids
+            self.spec_token_ids[last_req_index] = None
+
+            num_tokens = self.num_tokens[last_req_index]
+            self.token_ids_cpu[empty_index, :num_tokens] = self.token_ids_cpu[
+                last_req_index, :num_tokens
+            ]
+            self.is_token_ids[empty_index, :num_tokens] = self.is_token_ids[
+                last_req_index, :num_tokens
+            ]
+            if last_req_index in self.req_prompt_embeds:
+                self.req_prompt_embeds[empty_index] = self.req_prompt_embeds.pop(
+                    last_req_index
+                )
+            self.num_tokens[empty_index] = num_tokens
+            self.num_tokens_no_spec[empty_index] = self.num_tokens_no_spec[
+                last_req_index
+            ]
+            self.num_prompt_tokens[empty_index] = self.num_prompt_tokens[last_req_index]
+            self.num_computed_tokens_cpu[empty_index] = self.num_computed_tokens_cpu[
+                last_req_index
+            ]
+            self.block_table.move_row(last_req_index, empty_index)
+
+            self.request_lora_mapping[empty_index] = self.request_lora_mapping[
+                last_req_index
+            ]
+
+            if self.is_pooling_model:
+                last_req_index -= 1
+                # Sampling state not used by pooling models.
+                continue
+
+            # Autoregressive models require detailed tracking of condense
+            # operations to support logitsprocs
+            self.batch_update_builder.moved.append(
+                (last_req_index, empty_index, MoveDirectionality.UNIDIRECTIONAL)
+            )
+
+            self.temperature_cpu[empty_index] = self.temperature_cpu[last_req_index]
+            self.top_p_cpu[empty_index] = self.top_p_cpu[last_req_index]
+            self.top_k_cpu[empty_index] = self.top_k_cpu[last_req_index]
+            self.frequency_penalties_cpu[empty_index] = self.frequency_penalties_cpu[
+                last_req_index
+            ]
+            self.presence_penalties_cpu[empty_index] = self.presence_penalties_cpu[
+                last_req_index
+            ]
+            self.repetition_penalties_cpu[empty_index] = self.repetition_penalties_cpu[
+                last_req_index
+            ]
+            self.num_accepted_tokens_cpu[empty_index] = self.num_accepted_tokens_cpu[
+                last_req_index
+            ]
+            generator = self.generators.pop(last_req_index, None)
+            if generator is not None:
+                self.generators[empty_index] = generator
+
+            # TODO convert these to LogitsProcessors
+            if self.allowed_token_ids_mask_cpu_tensor is not None:
+                self.allowed_token_ids_mask_cpu_tensor[empty_index] = (
+                    self.allowed_token_ids_mask_cpu_tensor[last_req_index]
+                )
+
+            bad_words_token_ids = self.bad_words_token_ids.pop(last_req_index, None)
+            if bad_words_token_ids is not None:
+                self.bad_words_token_ids[empty_index] = bad_words_token_ids
+
+            # Decrement last_req_index since it is now empty.
+            last_req_index -= 1
+
+        # Trim lists to the batch size.
+        del self._req_ids[num_reqs:]
+        del self.req_output_token_ids[num_reqs:]
+        del self.spec_token_ids[num_reqs:]
+
+    def refresh_metadata(self):
+        """Apply any batch updates to sampling metadata."""
+
+        if self.is_pooling_model:
+            batch_changed = self.batch_update_builder.reset()
+            if batch_changed:
+                self.sampling_metadata = self._make_sampling_metadata()
+            return
+
+        # For non-pooling models - generate and apply logitsprocs update;
+        # reset batch update tracking.
+        # Update sampling metadata if batch state is changed.
+        batch_update = self.batch_update_builder.get_and_reset(self.num_reqs)
+        for logit_proc in self.logitsprocs.all:
+            logit_proc.update_state(batch_update)
+        if batch_update:
+            self.sampling_metadata = self._make_sampling_metadata()
+
+    def _make_sampling_metadata(self) -> SamplingMetadata:
+        num_reqs = self.num_reqs
+        if not self.all_greedy:
+            temperature = copy_slice(
+                self.temperature_cpu_tensor, self.temperature, num_reqs
+            )
+        else:
+            temperature = None
+        if not self.no_top_p:
+            copy_slice(self.top_p_cpu_tensor, self.top_p, num_reqs)
+        if not self.no_top_k:
+            copy_slice(self.top_k_cpu_tensor, self.top_k, num_reqs)
+
+        if not self.no_penalties:
+            # Since syncing these tensors is expensive only copy them
+            # if necessary i.e. if there are requests which require
+            # penalties to be applied during sampling.
+            copy_slice(
+                self.frequency_penalties_cpu_tensor, self.frequency_penalties, num_reqs
+            )
+            copy_slice(
+                self.presence_penalties_cpu_tensor, self.presence_penalties, num_reqs
+            )
+            copy_slice(
+                self.repetition_penalties_cpu_tensor,
+                self.repetition_penalties,
+                num_reqs,
+            )
+
+        needs_prompt_token_ids = (
+            not self.no_penalties
+            or self.logits_processing_needs_token_ids[:num_reqs].any()
+        )
+        # The prompt tokens are used only for applying penalties or
+        # step pooling during the sampling/pooling process.
+        # Hence copy these tensors only when there are requests which
+        # need penalties/step_pooler to be applied.
+        prompt_token_ids = (
+            self._make_prompt_token_ids_tensor() if needs_prompt_token_ids else None
+        )
+
+        # Only set output_token_ids if required by the current requests'
+        # sampling parameters.
+        needs_output_token_ids = (
+            not self.no_penalties
+            or bool(self.bad_words_token_ids)
+            or self.logitsprocs_need_output_token_ids
+        )
+        output_token_ids = (
+            cast(list[list[int]], self.req_output_token_ids)
+            if needs_output_token_ids
+            else []
+        )
+
+        allowed_token_ids_mask: torch.Tensor | None = None
+        if not self.no_allowed_token_ids:
+            assert self.allowed_token_ids_mask is not None
+            copy_slice(
+                self.allowed_token_ids_mask_cpu_tensor,
+                self.allowed_token_ids_mask,
+                num_reqs,
+            )
+            allowed_token_ids_mask = self.allowed_token_ids_mask[:num_reqs]
+
+        return SamplingMetadata(
+            temperature=temperature,
+            all_greedy=self.all_greedy,
+            all_random=self.all_random,
+            top_p=None if self.no_top_p else self.top_p[:num_reqs],
+            top_k=None if self.no_top_k else self.top_k[:num_reqs],
+            generators=self.generators,
+            max_num_logprobs=self.max_num_logprobs,
+            prompt_token_ids=prompt_token_ids,
+            frequency_penalties=self.frequency_penalties[:num_reqs],
+            presence_penalties=self.presence_penalties[:num_reqs],
+            repetition_penalties=self.repetition_penalties[:num_reqs],
+            output_token_ids=output_token_ids,
+            spec_token_ids=cast(list[list[int]], self.spec_token_ids),
+            no_penalties=self.no_penalties,
+            allowed_token_ids_mask=allowed_token_ids_mask,
+            bad_words_token_ids=self.bad_words_token_ids,
+            logitsprocs=self.logitsprocs,
+        )
+
+    def get_pooling_params(self) -> list[PoolingParams]:
+        assert len(self.req_ids) == len(self.pooling_params)
+        return [self.pooling_params[req_id] for req_id in self.req_ids]
+
+    def get_pooling_metadata(self) -> PoolingMetadata:
+        pooling_params = self.get_pooling_params()
+
+        return PoolingMetadata(
+            prompt_lens=torch.from_numpy(self.num_prompt_tokens[: self.num_reqs]),
+            prompt_token_ids=self.sampling_metadata.prompt_token_ids,
+            pooling_params=pooling_params,
+        )
+
+    def _make_prompt_token_ids_tensor(self) -> torch.Tensor:
+        num_reqs = self.num_reqs
+        max_prompt_len = self.num_prompt_tokens[:num_reqs].max()
+        prompt_token_ids_cpu_tensor = torch.empty(
+            (self.num_reqs, max_prompt_len),
+            device="cpu",
+            dtype=torch.int64,
+            pin_memory=self.pin_memory,
+        )
+        prompt_token_ids = prompt_token_ids_cpu_tensor.numpy()
+        prompt_token_ids[:] = self.token_ids_cpu[:num_reqs, :max_prompt_len]
+        # Use the value of vocab_size as a pad since we don't have a
+        # token_id of this value.
+        for i in range(num_reqs):
+            prompt_token_ids[i, self.num_prompt_tokens[i] :] = self.vocab_size
+        return prompt_token_ids_cpu_tensor.to(device=self.device, non_blocking=True)
+
+    def make_lora_inputs(
+        self, num_scheduled_tokens: np.ndarray, num_sampled_tokens: np.ndarray
+    ) -> tuple[tuple[int, ...], tuple[int, ...], set[LoRARequest]]:
+        """
+        Given the num_scheduled_tokens for each request in the batch, return
+        datastructures used to activate the current LoRAs.
+        Returns:
+            1. prompt_lora_mapping: A tuple of size np.sum(num_sampled_tokens)
+               where, prompt_lora_mapping[i] is the LoRA id to use for the ith
+               sampled token.
+            2. token_lora_mapping: A tuple of size np.sum(num_scheduled_tokens)
+               where, token_lora_mapping[i] is the LoRA id to use for ith token.
+            3. lora_requests: Set of relevant LoRA requests.
+        """
+
+        req_lora_mapping = self.request_lora_mapping[: self.num_reqs]
+        prompt_lora_mapping = tuple(req_lora_mapping.repeat(num_sampled_tokens))
+        token_lora_mapping = tuple(req_lora_mapping.repeat(num_scheduled_tokens))
+
+        active_lora_requests: set[LoRARequest] = set(
+            self.lora_id_to_lora_request.values()
+        )
+
+        return prompt_lora_mapping, token_lora_mapping, active_lora_requests
+
+    def set_async_sampled_token_ids(
+        self,
+        sampled_token_ids_cpu: torch.Tensor,
+        async_copy_ready_event: torch.cuda.Event,
+    ) -> None:
+        """
+        In async scheduling case, store ref to sampled_token_ids_cpu
+        tensor and corresponding copy-ready event. Used to repair
+        output_token_ids prior to sampling, if needed by logits processors.
+        """
+        if self.sampling_metadata.output_token_ids:
+            self.sampled_token_ids_cpu = sampled_token_ids_cpu
+            self.async_copy_ready_event = async_copy_ready_event
+        else:
+            self.sampled_token_ids_cpu = None
+            self.async_copy_ready_event = None
+
+    def update_async_output_token_ids(self) -> None:
+        """
+        In async scheduling case, update output_token_ids in sampling metadata
+        from prior steps sampled token ids once they've finished copying to CPU.
+        This is called right before they are needed by the logits processors.
+        """
+        output_token_ids = self.sampling_metadata.output_token_ids
+        if self.sampled_token_ids_cpu is None or not output_token_ids:
+            # Output token ids not needed or not async scheduling.
+            return
+
+        assert self.prev_req_id_to_index is not None
+        sampled_token_ids = None
+        for index, req_id in enumerate(self.req_ids):
+            prev_index = self.prev_req_id_to_index.get(req_id)
+            if prev_index is None:
+                continue
+            req_output_token_ids = output_token_ids[index]
+            if not req_output_token_ids or req_output_token_ids[-1] != -1:
+                # Final output id is not a placeholder, some tokens must have
+                # been discarded after a kv-load failure.
+                continue
+            if sampled_token_ids is None:
+                assert self.async_copy_ready_event is not None
+                self.async_copy_ready_event.synchronize()
+                sampled_token_ids = self.sampled_token_ids_cpu.squeeze(-1).tolist()
+            # Replace placeholder token id with actual sampled id.
+            req_output_token_ids[-1] = sampled_token_ids[prev_index]
+
+    @property
+    def num_reqs(self) -> int:
+        return len(self.req_id_to_index)
+
+    @property
+    def all_greedy(self) -> bool:
+        return len(self.random_reqs) == 0
+
+    @property
+    def all_random(self) -> bool:
+        return len(self.greedy_reqs) == 0
+
+    @property
+    def no_top_p(self) -> bool:
+        return len(self.top_p_reqs) == 0
+
+    @property
+    def no_top_k(self) -> bool:
+        return len(self.top_k_reqs) == 0
+
+    @property
+    def no_penalties(self) -> bool:
+        return (
+            len(self.presence_penalties_reqs) == 0
+            and len(self.frequency_penalties_reqs) == 0
+            and len(self.repetition_penalties_reqs) == 0
+        )
+
+    @property
+    def max_num_logprobs(self) -> int | None:
+        return max(self.num_logprobs.values()) if self.num_logprobs else None
+
+    @property
+    def no_prompt_logprob(self) -> bool:
+        return not self.num_prompt_logprobs
+
+    @property
+    def no_allowed_token_ids(self) -> bool:
+        return len(self.has_allowed_token_ids) == 0
diff --git a/v1/worker/gpu_model_runner.py b/v1/worker/gpu_model_runner.py
new file mode 100644
index 0000000..357feb6
--- /dev/null
+++ b/v1/worker/gpu_model_runner.py
@@ -0,0 +1,5143 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import gc
+import itertools
+import time
+from collections import defaultdict
+from collections.abc import Iterator
+from contextlib import contextmanager
+from copy import copy, deepcopy
+from functools import reduce
+from itertools import product
+from typing import TYPE_CHECKING, Any, NamedTuple, TypeAlias, cast
+
+import numpy as np
+import torch
+import torch.distributed
+import torch.nn as nn
+from tqdm import tqdm
+
+import vllm.envs as envs
+from vllm.attention import Attention, AttentionType
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    MultipleOf,
+)
+from vllm.compilation.counter import compilation_counter
+from vllm.compilation.cuda_graph import CUDAGraphWrapper
+from vllm.compilation.monitor import set_cudagraph_capturing_enabled
+from vllm.config import (
+    CompilationMode,
+    CUDAGraphMode,
+    VllmConfig,
+    get_layers_from_vllm_config,
+    update_config,
+)
+from vllm.distributed.ec_transfer import get_ec_transfer, has_ec_transfer
+from vllm.distributed.eplb.eplb_state import EplbState
+from vllm.distributed.kv_transfer import get_kv_transfer_group, has_kv_transfer_group
+from vllm.distributed.kv_transfer.kv_connector.utils import copy_kv_blocks
+from vllm.distributed.parallel_state import (
+    get_dcp_group,
+    get_pp_group,
+    get_tp_group,
+    graph_capture,
+    is_global_first_rank,
+    prepare_communication_buffer_for_model,
+)
+from vllm.forward_context import BatchDescriptor, set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.model_executor.layers.rotary_embedding import MRotaryEmbedding
+from vllm.model_executor.model_loader import TensorizerLoader, get_model_loader
+from vllm.model_executor.models.interfaces import (
+    SupportsMultiModal,
+    is_mixture_of_experts,
+    supports_eagle3,
+    supports_mrope,
+    supports_multimodal_pruning,
+    supports_transcription,
+)
+from vllm.model_executor.models.interfaces_base import (
+    VllmModelForPooling,
+    is_pooling_model,
+    is_text_generation_model,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    BatchedTensorInputs,
+    MultiModalKwargsItem,
+    PlaceholderRange,
+)
+from vllm.multimodal.utils import group_mm_kwargs_by_modality
+from vllm.pooling_params import PoolingParams
+from vllm.sampling_params import SamplingType
+from vllm.sequence import IntermediateTensors
+from vllm.tasks import GenerationTask, PoolingTask, SupportedTask
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.utils.jsontree import json_map_leaves
+from vllm.utils.math_utils import cdiv, round_up
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.utils.mem_utils import DeviceMemoryProfiler
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.utils.torch_utils import (
+    get_dtype_size,
+    kv_cache_dtype_str_to_dtype,
+    supports_dynamo,
+)
+from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadataBuilder
+from vllm.v1.attention.backends.utils import (
+    AttentionCGSupport,
+    AttentionMetadataBuilder,
+    CommonAttentionMetadata,
+    create_fast_prefill_custom_backend,
+    get_dcp_local_seq_lens,
+    reorder_batch_to_split_decodes_and_prefills,
+    split_attn_metadata,
+)
+from vllm.v1.cudagraph_dispatcher import CudagraphDispatcher
+from vllm.v1.kv_cache_interface import (
+    AttentionSpec,
+    ChunkedLocalAttentionSpec,
+    CrossAttentionSpec,
+    EncoderOnlyAttentionSpec,
+    FullAttentionSpec,
+    KVCacheConfig,
+    KVCacheGroupSpec,
+    KVCacheSpec,
+    MambaSpec,
+    SlidingWindowSpec,
+    UniformTypeKVCacheSpecs,
+)
+from vllm.v1.outputs import (
+    EMPTY_MODEL_RUNNER_OUTPUT,
+    AsyncModelRunnerOutput,
+    DraftTokenIds,
+    ECConnectorOutput,
+    KVConnectorOutput,
+    LogprobsLists,
+    LogprobsTensors,
+    ModelRunnerOutput,
+    PoolerOutput,
+    SamplerOutput,
+    make_empty_encoder_model_runner_output,
+)
+from vllm.v1.pool.metadata import PoolingMetadata
+from vllm.v1.sample.logits_processor import LogitsProcessors, build_logitsprocs
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.sample.rejection_sampler import RejectionSampler
+from vllm.v1.sample.sampler import Sampler
+from vllm.v1.spec_decode.eagle import EagleProposer
+from vllm.v1.spec_decode.medusa import MedusaProposer
+from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
+from vllm.v1.spec_decode.ngram_proposer import NgramProposer
+from vllm.v1.spec_decode.suffix_decoding import SuffixDecodingProposer
+from vllm.v1.structured_output.utils import apply_grammar_bitmask
+from vllm.v1.utils import CpuGpuBuffer, record_function_or_nullcontext
+from vllm.v1.worker.block_table import BlockTable
+from vllm.v1.worker.dp_utils import coordinate_batch_across_dp
+from vllm.v1.worker.ec_connector_model_runner_mixin import ECConnectorModelRunnerMixin
+from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
+from vllm.v1.worker.gpu_ubatch_wrapper import UBatchWrapper
+from vllm.v1.worker.kv_connector_model_runner_mixin import KVConnectorModelRunnerMixin
+from vllm.v1.worker.lora_model_runner_mixin import LoRAModelRunnerMixin
+from vllm.v1.worker.ubatch_utils import (
+    UBatchSlice,
+    UBatchSlices,
+    check_ubatch_thresholds,
+)
+from vllm.v1.worker.utils import is_residual_scattered_for_sp
+
+from .utils import (
+    AttentionGroup,
+    MultiModalBudget,
+    add_kv_sharing_layers_to_kv_cache_groups,
+    bind_kv_cache,
+    bind_kv_cache_scale,
+    gather_mm_placeholders,
+    sanity_check_mm_encoder_outputs,
+    scatter_mm_placeholders,
+)
+
+if TYPE_CHECKING:
+    from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+
+logger = init_logger(__name__)
+
+AttnMetadataDict: TypeAlias = dict[str, AttentionMetadata]
+# list when ubatching is enabled
+PerLayerAttnMetadata: TypeAlias = list[AttnMetadataDict] | AttnMetadataDict
+
+
+# Wrapper for ModelRunnerOutput to support overlapped execution.
+class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
+    def __init__(
+        self,
+        model_runner_output: ModelRunnerOutput,
+        sampled_token_ids: torch.Tensor,
+        logprobs_tensors: torch.Tensor | None,
+        invalid_req_indices: list[int],
+        async_output_copy_stream: torch.cuda.Stream,
+        vocab_size: int,
+    ):
+        self._model_runner_output = model_runner_output
+        self._invalid_req_indices = invalid_req_indices
+
+        # Event on the copy stream so we can synchronize the non-blocking copy.
+        self.async_copy_ready_event = torch.cuda.Event()
+
+        # Keep a reference to the device tensor to avoid it being
+        # deallocated until we finish copying it to the host.
+        self._sampled_token_ids = sampled_token_ids
+        self.vocab_size = vocab_size
+        self._logprobs_tensors = logprobs_tensors
+
+        # Initiate the copy on a separate stream, but do not synchronize it.
+        default_stream = torch.cuda.current_stream()
+        with torch.cuda.stream(async_output_copy_stream):
+            async_output_copy_stream.wait_stream(default_stream)
+            self.sampled_token_ids_cpu = self._sampled_token_ids.to(
+                "cpu", non_blocking=True
+            )
+            self._logprobs_tensors_cpu = (
+                self._logprobs_tensors.to_cpu_nonblocking()
+                if self._logprobs_tensors
+                else None
+            )
+            self.async_copy_ready_event.record()
+
+    def get_output(self) -> ModelRunnerOutput:
+        """Copy the device tensors to the host and return a ModelRunnerOutput.
+
+        This function blocks until the copy is finished.
+        """
+        self.async_copy_ready_event.synchronize()
+
+        # Release the device tensors once the copy has completed.
+        del self._logprobs_tensors
+        del self._sampled_token_ids
+        max_gen_len = self.sampled_token_ids_cpu.shape[-1]
+        if max_gen_len == 1:
+            valid_sampled_token_ids: list[np.ndarray] = [
+                row for row in self.sampled_token_ids_cpu.numpy()
+            ]
+        else:
+            valid_sampled_token_ids = RejectionSampler.parse_output(
+                self.sampled_token_ids_cpu,
+                self.vocab_size,
+            )
+        for i in self._invalid_req_indices:
+            valid_sampled_token_ids[i] = np.array([])
+
+        output = self._model_runner_output
+        output.sampled_token_ids = valid_sampled_token_ids
+        if self._logprobs_tensors_cpu:
+            # NOTE(nick): this will need to be updated to use cu_num_accepted_tokens
+            # for async sched + spec decode + logprobs compatibility.
+            output.logprobs = self._logprobs_tensors_cpu.tolists()
+        return output
+
+
+class ExecuteModelState(NamedTuple):
+    """Ephemeral cached state transferred between execute_model() and
+    sample_tokens(), after execute_model() returns None."""
+
+    scheduler_output: "SchedulerOutput"
+    logits: torch.Tensor
+    spec_decode_metadata: SpecDecodeMetadata | None
+    spec_decode_common_attn_metadata: CommonAttentionMetadata | None
+    hidden_states: torch.Tensor
+    sample_hidden_states: torch.Tensor
+    aux_hidden_states: list[torch.Tensor] | None
+    ec_connector_output: ECConnectorOutput | None
+
+
+class GPUModelRunner(
+    LoRAModelRunnerMixin, KVConnectorModelRunnerMixin, ECConnectorModelRunnerMixin
+):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.compilation_config = vllm_config.compilation_config
+        self.lora_config = vllm_config.lora_config
+        self.load_config = vllm_config.load_config
+        self.parallel_config = vllm_config.parallel_config
+        self.scheduler_config = vllm_config.scheduler_config
+        self.speculative_config = vllm_config.speculative_config
+        self.observability_config = vllm_config.observability_config
+
+        from vllm.model_executor.models.utils import set_cpu_offload_max_bytes
+
+        set_cpu_offload_max_bytes(int(self.cache_config.cpu_offload_gb * 1024**3))
+
+        model_config = self.model_config
+        cache_config = self.cache_config
+        scheduler_config = self.scheduler_config
+        parallel_config = self.parallel_config
+        self.device = device
+        self.pin_memory = is_pin_memory_available()
+        self.dtype = self.model_config.dtype
+        self.kv_cache_dtype = kv_cache_dtype_str_to_dtype(
+            cache_config.cache_dtype, self.model_config
+        )
+
+        self.is_pooling_model = model_config.runner_type == "pooling"
+        self.enable_prompt_embeds = model_config.enable_prompt_embeds
+        self.is_multimodal_raw_input_only_model = (
+            model_config.is_multimodal_raw_input_only_model
+        )
+        # This will be overridden in load_model()
+        self.is_multimodal_pruning_enabled = False
+        self.max_model_len = model_config.max_model_len
+
+        # Always set to false after the first forward pass
+        self.calculate_kv_scales = self.cache_config.calculate_kv_scales
+        self.dcp_world_size = self.parallel_config.decode_context_parallel_size
+        self.dcp_rank = 0 if self.dcp_world_size <= 1 else get_dcp_group().rank_in_group
+        self.max_num_tokens = scheduler_config.max_num_batched_tokens
+        self.max_num_reqs = scheduler_config.max_num_seqs
+
+        # Broadcast PP output for external_launcher (torchrun)
+        # to make sure we are synced across pp ranks
+        # TODO: Support overlapping mirco-batches
+        # https://github.com/vllm-project/vllm/issues/18019
+        self.broadcast_pp_output = (
+            self.parallel_config.distributed_executor_backend == "external_launcher"
+            and len(get_pp_group().ranks) > 0
+        )
+
+        # Model-related.
+        self.num_query_heads = model_config.get_num_attention_heads(parallel_config)
+        self.hidden_size = model_config.get_hidden_size()
+        self.attention_chunk_size = model_config.attention_chunk_size
+        # Only relevant for models using ALiBi (e.g, MPT)
+        self.use_alibi = model_config.uses_alibi
+
+        self.cascade_attn_enabled = not self.model_config.disable_cascade_attn
+
+        # Multi-modal data support
+        self.mm_registry = MULTIMODAL_REGISTRY
+        self.uses_mrope = model_config.uses_mrope
+        self.supports_mm_inputs = self.mm_registry.supports_multimodal_inputs(
+            model_config
+        )
+
+        if self.model_config.is_encoder_decoder:
+            # Maximum length of the encoder input, only for encoder-decoder
+            # models.
+            self.max_encoder_len = scheduler_config.max_num_encoder_input_tokens
+        else:
+            self.max_encoder_len = 0
+
+        # Sampler
+        self.sampler = Sampler(logprobs_mode=self.model_config.logprobs_mode)
+
+        self.eplb_state: EplbState | None = None
+        """
+        State of the expert parallelism load balancer.
+
+        Will be lazily initialized when the model is loaded.
+        """
+
+        # Lazy initializations
+        # self.model: nn.Module  # Set after load_model
+        # Initialize in initialize_kv_cache
+        self.kv_caches: list[torch.Tensor] = []
+        self.kv_caches_scale: list[torch.Tensor] = []
+        # indexes: [kv_cache_group_id][attn_group]
+        self.attn_groups: list[list[AttentionGroup]] = []
+        # self.kv_cache_config: KVCacheConfig
+
+        # mm_hash ->  encoder_output
+        self.encoder_cache: dict[str, torch.Tensor] = {}
+
+        self.use_aux_hidden_state_outputs = False
+        # Set up speculative decoding.
+        # NOTE(Jiayi): currently we put the entire draft model on
+        # the last PP rank. This is not ideal if there are many
+        # layers in the draft model.
+        if self.speculative_config and get_pp_group().is_last_rank:
+            self.drafter: (
+                NgramProposer | SuffixDecodingProposer | EagleProposer | MedusaProposer
+            )
+            if self.speculative_config.method == "ngram":
+                self.drafter = NgramProposer(self.vllm_config)
+            elif self.speculative_config.method == "suffix":
+                self.drafter = SuffixDecodingProposer(self.vllm_config)
+            elif self.speculative_config.use_eagle():
+                self.drafter = EagleProposer(self.vllm_config, self.device, self)
+                if self.speculative_config.method == "eagle3":
+                    self.use_aux_hidden_state_outputs = True
+            elif self.speculative_config.method == "medusa":
+                self.drafter = MedusaProposer(
+                    vllm_config=self.vllm_config, device=self.device
+                )
+            else:
+                raise ValueError(
+                    "Unknown speculative decoding method: "
+                    f"{self.speculative_config.method}"
+                )
+            self.rejection_sampler = RejectionSampler(self.sampler)
+
+        self.num_spec_tokens = 0
+        if self.speculative_config:
+            self.num_spec_tokens = self.speculative_config.num_speculative_tokens
+
+        # Request states.
+        self.requests: dict[str, CachedRequestState] = {}
+        self.comm_stream = torch.cuda.Stream()
+
+        # Input Batch
+        # NOTE(Chen): Ideally, we should initialize the input batch inside
+        # `initialize_kv_cache` based on the kv cache config. However, as in
+        # https://github.com/vllm-project/vllm/pull/18298, due to some unknown
+        # reasons, we have to initialize the input batch before `load_model`,
+        # quantization + weight offloading will fail otherwise. As a temporary
+        # solution, we initialize the input batch here, and re-initialize it
+        # in `initialize_kv_cache` if the block_sizes here is different from
+        # the block_sizes in the kv cache config.
+        custom_logitsprocs = model_config.logits_processors
+        self.input_batch = InputBatch(
+            max_num_reqs=self.max_num_reqs,
+            # We need to use the encoder length for encoder-decoer
+            # because of KV cache for cross-attention.
+            max_model_len=max(self.max_model_len, self.max_encoder_len),
+            max_num_batched_tokens=self.max_num_tokens,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            vocab_size=self.model_config.get_vocab_size(),
+            block_sizes=[self.cache_config.block_size],
+            kernel_block_sizes=[self.cache_config.block_size],
+            is_spec_decode=bool(self.vllm_config.speculative_config),
+            logitsprocs=build_logitsprocs(
+                self.vllm_config,
+                self.device,
+                self.pin_memory,
+                self.is_pooling_model,
+                custom_logitsprocs,
+            ),
+            # We currently don't know whether a particular custom logits processor
+            # uses output token ids so we set this conservatively.
+            logitsprocs_need_output_token_ids=bool(custom_logitsprocs),
+            is_pooling_model=self.is_pooling_model,
+            dcp_kv_cache_interleave_size=self.parallel_config.dcp_kv_cache_interleave_size,
+        )
+
+        self.use_async_scheduling = self.scheduler_config.async_scheduling
+        # Separate cuda stream for overlapping transfer of sampled token ids from
+        # GPU to CPU when async scheduling is enabled.
+        self.async_output_copy_stream: torch.cuda.Stream | None = None
+        # cuda event to synchronize use of reused CPU tensors between steps
+        # when async scheduling is enabled.
+        self.prepare_inputs_event: torch.cuda.Event | None = None
+        if self.use_async_scheduling:
+            self.async_output_copy_stream = torch.cuda.Stream()
+            self.prepare_inputs_event = torch.cuda.Event()
+
+        # self.cudagraph_batch_sizes sorts in ascending order.
+        if (
+            self.compilation_config.cudagraph_capture_sizes
+            and self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+        ):
+            self.cudagraph_batch_sizes = sorted(
+                self.compilation_config.cudagraph_capture_sizes
+            )
+
+        # Cache the device properties.
+        self._init_device_properties()
+
+        # Persistent buffers for CUDA graphs.
+        self.input_ids = self._make_buffer(self.max_num_tokens, dtype=torch.int32)
+        self.positions = self._make_buffer(self.max_num_tokens, dtype=torch.int64)
+        self.query_start_loc = self._make_buffer(
+            self.max_num_reqs + 1, dtype=torch.int32
+        )
+        self.seq_lens = self._make_buffer(self.max_num_reqs, dtype=torch.int32)
+        if self.dcp_world_size > 1:
+            self.dcp_local_seq_lens = self._make_buffer(
+                self.max_num_reqs, dtype=torch.int32
+            )
+        # Because inputs_embeds may be bfloat16 and we don't need a numpy
+        # version of this tensor, avoid a RuntimeError by not creating a
+        # numpy buffer.
+        self.inputs_embeds = self._make_buffer(
+            self.max_num_tokens, self.hidden_size, dtype=self.dtype, numpy=False
+        )
+        self.is_token_ids = self._make_buffer(self.max_num_tokens, dtype=torch.bool)
+        self.discard_request_indices = self._make_buffer(
+            self.max_num_reqs, dtype=torch.int64
+        )
+        self.num_discarded_requests = 0
+
+        self.num_decode_draft_tokens = self._make_buffer(
+            self.max_num_reqs, dtype=torch.int32
+        )
+        self.num_accepted_tokens = self._make_buffer(
+            self.max_num_reqs, dtype=torch.int64
+        )
+        self.key_start_loc = self._make_buffer(
+            self.max_num_reqs + 1, dtype=torch.int32)
+
+        # Only relevant for multimodal models
+        if self.supports_mm_inputs:
+            self.is_mm_embed = self._make_buffer(self.max_num_tokens, dtype=torch.bool)
+
+        # Only relevant for models using M-RoPE (e.g, Qwen2-VL)
+        if self.uses_mrope:
+            # NOTE: `mrope_positions` is implemented with one additional dummy
+            # position on purpose to make it non-contiguous so that it can work
+            # with torch compile.
+            # See detailed explanation in https://github.com/vllm-project/vllm/pull/12128#discussion_r1926431923
+
+            # NOTE: When M-RoPE is enabled, position ids are 3D regardless of
+            # the modality of inputs. For text-only inputs, each dimension has
+            # identical position IDs, making M-RoPE functionally equivalent to
+            # 1D-RoPE.
+            # See page 5 of https://arxiv.org/abs/2409.12191
+            self.mrope_positions = self._make_buffer(
+                (3, self.max_num_tokens + 1), dtype=torch.int64
+            )
+
+        # None in the first PP rank. The rest are set after load_model.
+        self.intermediate_tensors: IntermediateTensors | None = None
+
+        # OPTIMIZATION: Cache the tensors rather than creating them every step.
+        # Keep in int64 to avoid overflow with long context
+        self.arange_np = np.arange(
+            max(self.max_num_reqs + 1, self.max_model_len, self.max_num_tokens),
+            dtype=np.int64,
+        )
+
+        # Layer pairings for cross-layer KV sharing.
+        # If an Attention layer `layer_name` is in the keys of this dict, it
+        # means this layer will perform attention using the keys and values
+        # from the KV cache of `shared_kv_cache_layers[layer_name]`.
+        self.shared_kv_cache_layers: dict[str, str] = {}
+        self.kv_sharing_fast_prefill_eligible_layers: set[str] = set()
+
+        self.kv_sharing_fast_prefill_logits_indices = None
+        if self.cache_config.kv_sharing_fast_prefill:
+            self.kv_sharing_fast_prefill_logits_indices = torch.zeros(
+                self.max_num_tokens, dtype=torch.int32, device=self.device
+            )
+
+        self.uniform_decode_query_len = 1 + self.num_spec_tokens
+
+        # Cudagraph dispatcher for runtime cudagraph dispatching.
+        self.cudagraph_dispatcher = CudagraphDispatcher(self.vllm_config)
+
+        self.mm_budget = (
+            MultiModalBudget(
+                self.model_config,
+                self.scheduler_config,
+                self.mm_registry,
+            )
+            if self.supports_mm_inputs
+            else None
+        )
+
+        self.reorder_batch_threshold: int | None = None
+
+        # Attention layers that are only in the KVCacheConfig of the runner
+        # (e.g., KV sharing, encoder-only attention), but not in the
+        # KVCacheConfig of the scheduler.
+        self.runner_only_attn_layers: set[str] = set()
+
+        # Cached outputs.
+        self._draft_token_ids: list[list[int]] | torch.Tensor | None = None
+        self.transfer_event = torch.cuda.Event()
+        self.sampled_token_ids_pinned_cpu = torch.empty(
+            (self.max_num_reqs, 1),
+            dtype=torch.int64,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+
+        # Pre-allocated tensor for copying valid sampled token counts to CPU,
+        # with dedicated stream for overlapping and event for coordination.
+        self.valid_sampled_token_count_event: torch.cuda.Event | None = None
+        self.valid_sampled_token_count_copy_stream: torch.cuda.Stream | None = None
+        if self.use_async_scheduling and self.num_spec_tokens:
+            self.valid_sampled_token_count_event = torch.cuda.Event()
+            self.valid_sampled_token_count_copy_stream = torch.cuda.Stream()
+        self.valid_sampled_token_count_cpu = torch.empty(
+            self.max_num_reqs,
+            dtype=torch.int64,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+
+        # Ephemeral state transferred between execute_model() and sample_tokens().
+        self.execute_model_state: ExecuteModelState | None = None
+        self.kv_connector_output: KVConnectorOutput | None = None
+
+    def reset_mm_cache(self) -> None:
+        if self.mm_budget:
+            self.mm_budget.reset_cache()
+
+    def _get_positions(self, num_tokens: Any):
+        if isinstance(num_tokens, int):
+            if self.uses_mrope:
+                return self.mrope_positions.gpu[:, :num_tokens]
+            return self.positions.gpu[:num_tokens]
+        else:
+            if self.uses_mrope:
+                return self.mrope_positions.gpu[:, num_tokens]
+            return self.positions.gpu[num_tokens]
+
+    def _make_buffer(
+        self, *size: int | torch.SymInt, dtype: torch.dtype, numpy: bool = True
+    ) -> CpuGpuBuffer:
+        return CpuGpuBuffer(
+            *size,
+            dtype=dtype,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            with_numpy=numpy,
+        )
+
+    def _init_model_kwargs(self, num_tokens: int):
+        model_kwargs = dict[str, Any]()
+
+        if not self.is_pooling_model:
+            return model_kwargs
+
+        num_reqs = self.input_batch.num_reqs
+        pooling_params = self.input_batch.get_pooling_params()
+
+        token_type_id_requests = dict[int, Any]()
+        for i, param in enumerate(pooling_params):
+            if (
+                param.extra_kwargs is not None
+                and (token_types := param.extra_kwargs.get("compressed_token_type_ids"))
+                is not None
+            ):
+                token_type_id_requests[i] = token_types
+
+        if len(token_type_id_requests) == 0:
+            return model_kwargs
+
+        seq_lens = self.seq_lens.gpu[:num_reqs]
+        token_type_ids = []
+
+        for i in range(num_reqs):
+            pos = token_type_id_requests.get(i, seq_lens[i])
+            ids = (torch.arange(seq_lens[i]) >= pos).int()
+            token_type_ids.append(ids)
+
+        model_kwargs["token_type_ids"] = torch.concat(token_type_ids).to(
+            device=self.device
+        )
+        return model_kwargs
+
+    def _may_reorder_batch(self, scheduler_output: "SchedulerOutput") -> None:
+        """
+        Update the order of requests in the batch based on the attention
+        backend's needs. For example, some attention backends (namely MLA) may
+        want to separate requests based on if the attention computation will be
+        compute-bound or memory-bound.
+
+        Args:
+            scheduler_output: The scheduler output.
+        """
+        # Attention free models have zero kv_cache_goups, however models
+        # like Mamba are also attention free but use the kv_cache for
+        # keeping its internal state. This is why we check the number
+        # of kv_cache groups instead of solely checking
+        # for self.model_config.is_attention_free.
+        if len(self.kv_cache_config.kv_cache_groups) == 0:
+            return
+
+        if self.reorder_batch_threshold is not None:
+            reorder_batch_to_split_decodes_and_prefills(
+                self.input_batch,
+                scheduler_output,
+                decode_threshold=self.reorder_batch_threshold,
+            )
+
+    # Note: used for model runner override.
+    def _init_device_properties(self) -> None:
+        """Initialize attributes from torch.cuda.get_device_properties"""
+        self.device_properties = torch.cuda.get_device_properties(self.device)
+        self.num_sms = self.device_properties.multi_processor_count
+
+    # Note: used for model runner override.
+    def _sync_device(self) -> None:
+        torch.cuda.synchronize()
+
+    def _update_states(self, scheduler_output: "SchedulerOutput") -> None:
+        """Update the cached states and the persistent batch with the scheduler
+        output.
+
+        The updated states are used by the `_prepare_inputs` function to create
+        the input GPU tensors for the model.
+
+        The SamplingMetadata is updated and copied to the GPU if there is a
+        new/resumed/paused/finished request in the batch.
+        """
+        # Remove finished requests from the cached states.
+        for req_id in scheduler_output.finished_req_ids:
+            self.requests.pop(req_id, None)
+        # Remove the finished requests from the persistent batch.
+        # NOTE(woosuk): There could be an edge case where finished_req_ids and
+        # scheduled_req_ids overlap. This happens when a request is aborted and
+        # then resubmitted with the same ID. In this case, we treat them as two
+        # distinct requests - clearing the cached states for the first request
+        # and handling the second as a new request.
+        for req_id in scheduler_output.finished_req_ids:
+            self.input_batch.remove_request(req_id)
+
+        # Free the cached encoder outputs.
+        for mm_hash in scheduler_output.free_encoder_mm_hashes:
+            self.encoder_cache.pop(mm_hash, None)
+
+        # Remove the unscheduled requests from the persistent batch.
+        # NOTE(woosuk): The unscheduled requests are either preempted requests
+        # or running requests that are not scheduled in this step. We remove
+        # them from the persistent batch but keep their cached states since
+        # they will be scheduled again sometime in the future.
+        scheduled_req_ids = scheduler_output.num_scheduled_tokens.keys()
+        cached_req_ids = self.input_batch.req_id_to_index.keys()
+        unscheduled_req_ids = cached_req_ids - scheduled_req_ids
+        # NOTE(woosuk): The persistent batch optimization assumes that
+        # consecutive batches contain mostly the same requests. If batches
+        # have low request overlap (e.g., alternating between two distinct
+        # sets of requests), this optimization becomes very inefficient.
+        for req_id in unscheduled_req_ids:
+            self.input_batch.remove_request(req_id)
+
+        reqs_to_add: list[CachedRequestState] = []
+        # Add new requests to the cached states.
+        for new_req_data in scheduler_output.scheduled_new_reqs:
+            req_id = new_req_data.req_id
+            sampling_params = new_req_data.sampling_params
+            pooling_params = new_req_data.pooling_params
+
+            if (
+                sampling_params
+                and sampling_params.sampling_type == SamplingType.RANDOM_SEED
+            ):
+                generator = torch.Generator(device=self.device)
+                generator.manual_seed(sampling_params.seed)
+            else:
+                generator = None
+
+            if self.is_pooling_model:
+                assert pooling_params is not None
+                task = pooling_params.task
+                assert task is not None, "You did not set `task` in the API"
+
+                model = cast(VllmModelForPooling, self.get_model())
+                to_update = model.pooler.get_pooling_updates(task)
+                to_update.apply(pooling_params)
+
+            req_state = CachedRequestState(
+                req_id=req_id,
+                prompt_token_ids=new_req_data.prompt_token_ids,
+                prompt_embeds=new_req_data.prompt_embeds,
+                mm_features=new_req_data.mm_features,
+                sampling_params=sampling_params,
+                pooling_params=pooling_params,
+                generator=generator,
+                block_ids=new_req_data.block_ids,
+                num_computed_tokens=new_req_data.num_computed_tokens,
+                output_token_ids=[],
+                lora_request=new_req_data.lora_request,
+            )
+            self.requests[req_id] = req_state
+
+            # Only relevant for models using M-RoPE (e.g, Qwen2-VL)
+            if self.uses_mrope:
+                self._init_mrope_positions(req_state)
+
+            reqs_to_add.append(req_state)
+
+        # Update the states of the running/resumed requests.
+        is_last_rank = get_pp_group().is_last_rank
+        req_data = scheduler_output.scheduled_cached_reqs
+
+        # Wait until valid_sampled_tokens_count is copied to cpu,
+        # then use it to update actual num_computed_tokens of each request.
+        valid_sampled_token_count = self._get_valid_sampled_token_count()
+
+        for i, req_id in enumerate(req_data.req_ids):
+            req_state = self.requests[req_id]
+            num_computed_tokens = req_data.num_computed_tokens[i]
+            new_block_ids = req_data.new_block_ids[i]
+            resumed_from_preemption = req_id in req_data.resumed_req_ids
+            num_output_tokens = req_data.num_output_tokens[i]
+            req_index = self.input_batch.req_id_to_index.get(req_id)
+
+            # prev_num_draft_len is used in async scheduling mode with
+            # spec decode. it indicates if need to update num_computed_tokens
+            # of the request. for example:
+            # fist step: num_computed_tokens = 0, spec_tokens = [],
+            # prev_num_draft_len = 0.
+            # second step: num_computed_tokens = 100(prompt lenth),
+            # spec_tokens = [a,b], prev_num_draft_len = 0.
+            # third step: num_computed_tokens = 100 + 2, spec_tokens = [c,d],
+            # prev_num_draft_len = 2.
+            # num_computed_tokens in first step and second step does't contain
+            # the spec tokens length, but in third step it contains the
+            # spec tokens length. we only need to update num_computed_tokens
+            # when prev_num_draft_len > 0.
+            if req_state.prev_num_draft_len:
+                if req_index is None:
+                    req_state.prev_num_draft_len = 0
+                else:
+                    assert self.input_batch.prev_req_id_to_index is not None
+                    prev_req_index = self.input_batch.prev_req_id_to_index[req_id]
+                    num_accepted = valid_sampled_token_count[prev_req_index] - 1
+                    num_rejected = req_state.prev_num_draft_len - num_accepted
+                    num_computed_tokens -= num_rejected
+                    req_state.output_token_ids.extend([-1] * num_accepted)
+
+            # Update the cached states.
+            req_state.num_computed_tokens = num_computed_tokens
+
+            if not is_last_rank:
+                # When using PP, the scheduler sends the sampled tokens back,
+                # because there's no direct communication between the first-
+                # stage worker and the last-stage worker.
+                new_token_ids = req_data.new_token_ids[i]
+                # Add the sampled token(s) from the previous step (if any).
+                # This doesn't include "unverified" tokens like spec tokens.
+                num_new_tokens = (
+                    num_computed_tokens + len(new_token_ids) - req_state.num_tokens
+                )
+                if num_new_tokens == 1:
+                    # Avoid slicing list in most common case.
+                    req_state.output_token_ids.append(new_token_ids[-1])
+                elif num_new_tokens > 0:
+                    req_state.output_token_ids.extend(new_token_ids[-num_new_tokens:])
+            elif num_output_tokens < len(req_state.output_token_ids):
+                # Some output tokens were discarded due to a sync-KV-load
+                # failure. Align the cached state.
+                del req_state.output_token_ids[num_output_tokens:]
+                if req_index is not None:
+                    end_idx = (
+                        self.input_batch.num_prompt_tokens[req_index]
+                        + num_output_tokens
+                    )
+                    self.input_batch.num_tokens[req_index] = end_idx
+                    self.input_batch.num_tokens_no_spec[req_index] = end_idx
+
+            # Update the block IDs.
+            if not resumed_from_preemption:
+                if new_block_ids is not None:
+                    # Append the new blocks to the existing block IDs.
+                    for block_ids, new_ids in zip(req_state.block_ids, new_block_ids):
+                        block_ids.extend(new_ids)
+            else:
+                assert req_index is None
+                assert new_block_ids is not None
+                # The request is resumed from preemption.
+                # Replace the existing block IDs with the new ones.
+                req_state.block_ids = new_block_ids
+
+            if req_index is None:
+                # The request is not in the persistent batch.
+                # The request was either preempted and resumed later, or was not
+                # scheduled in the previous step and needs to be added again.
+
+                if self.use_async_scheduling and num_output_tokens > 0:
+                    # We must recover the output token ids for resumed requests in the
+                    # async scheduling case, so that correct input_ids are obtained.
+                    resumed_token_ids = req_data.all_token_ids[req_id]
+                    req_state.output_token_ids = resumed_token_ids[-num_output_tokens:]
+
+                reqs_to_add.append(req_state)
+                continue
+
+            # Update the persistent batch.
+            self.input_batch.num_computed_tokens_cpu[req_index] = num_computed_tokens
+            if new_block_ids is not None:
+                self.input_batch.block_table.append_row(new_block_ids, req_index)
+
+            # For the last rank, we don't need to update the token_ids_cpu
+            # because the sampled tokens are already cached.
+            if not is_last_rank:
+                # Add new_token_ids to token_ids_cpu.
+                start_token_index = num_computed_tokens
+                end_token_index = num_computed_tokens + len(new_token_ids)
+                self.input_batch.token_ids_cpu[
+                    req_index, start_token_index:end_token_index
+                ] = new_token_ids
+                self.input_batch.num_tokens_no_spec[req_index] = end_token_index
+                self.input_batch.num_tokens[req_index] = end_token_index
+
+            # Add spec_token_ids to token_ids_cpu.
+            spec_token_ids = scheduler_output.scheduled_spec_decode_tokens.get(
+                req_id, []
+            )
+            num_spec_tokens = len(spec_token_ids)
+            # For async scheduling, token_ids_cpu assigned from
+            # spec_token_ids are placeholders and will be overwritten in
+            # _prepare_input_ids.
+            if num_spec_tokens:
+                start_index = self.input_batch.num_tokens_no_spec[req_index]
+                end_token_index = start_index + num_spec_tokens
+                self.input_batch.token_ids_cpu[
+                    req_index, start_index:end_token_index
+                ] = spec_token_ids
+                # NOTE(woosuk): `num_tokens` here may include spec tokens.
+                self.input_batch.num_tokens[req_index] += num_spec_tokens
+
+            # When speculative decoding is used with structured output,
+            # the scheduler can drop draft tokens that do not
+            # conform to the schema. This can result in
+            # scheduler_output.scheduled_spec_decode_tokens being empty,
+            # even when speculative decoding is enabled.
+            self.input_batch.spec_token_ids[req_index] = spec_token_ids
+
+            # there are no draft tokens with async scheduling,
+            # we clear the spec_decoding info in scheduler_output and
+            # use normal sampling but rejection_sampling.
+            if self.use_async_scheduling:
+                req_state.prev_num_draft_len = num_spec_tokens
+                if num_spec_tokens and self._draft_token_ids is None:
+                    scheduler_output.total_num_scheduled_tokens -= num_spec_tokens
+                    scheduler_output.num_scheduled_tokens[req_id] -= num_spec_tokens
+                    scheduler_output.scheduled_spec_decode_tokens.pop(req_id, None)
+        # Add the new or resumed requests to the persistent batch.
+        # The smaller empty indices are filled first.
+        for request in reqs_to_add:
+            self.input_batch.add_request(request)
+
+        # Condense the batched states if there are gaps left by removed requests
+        self.input_batch.condense()
+        # Allow attention backend to reorder the batch, potentially
+        self._may_reorder_batch(scheduler_output)
+        # Refresh batch metadata with any pending updates.
+        self.input_batch.refresh_metadata()
+
+    def _update_states_after_model_execute(
+        self, output_token_ids: torch.Tensor
+    ) -> None:
+        """Update the cached states after model execution.
+
+        This is used for MTP/EAGLE for hybrid models, as in linear attention,
+        only the last token's state is kept. In MTP/EAGLE, for draft tokens
+        the state are kept util we decide how many tokens are accepted for
+        each sequence, and a shifting is done during the next iteration
+        based on the number of accepted tokens.
+        """
+        if not self.model_config.is_hybrid or not self.speculative_config:
+            return
+
+        # Find the number of accepted tokens for each sequence.
+        num_accepted_tokens = (
+            (
+                torch.cat(
+                    [
+                        output_token_ids,
+                        torch.full(
+                            (output_token_ids.size(0), 1),
+                            -1,
+                            device=output_token_ids.device,
+                        ),
+                    ],
+                    dim=1,
+                )
+                == -1
+            )
+            .int()
+            .argmax(-1)
+            .cpu()
+            .numpy()
+        )
+        for i, num_tokens in enumerate(num_accepted_tokens):
+            self.input_batch.num_accepted_tokens_cpu[i] = num_tokens
+
+    def _init_mrope_positions(self, req_state: CachedRequestState):
+        model = self.get_model()
+        assert supports_mrope(model), "M-RoPE support is not implemented."
+
+        req_state.mrope_positions, req_state.mrope_position_delta = (
+            model.get_mrope_input_positions(
+                req_state.prompt_token_ids,
+                req_state.mm_features,
+            )
+        )
+
+    def _extract_mm_kwargs(
+        self,
+        scheduler_output: "SchedulerOutput",
+    ) -> BatchedTensorInputs:
+        if not scheduler_output or not self.is_multimodal_raw_input_only_model:
+            return {}
+
+        mm_kwargs = list[MultiModalKwargsItem]()
+        for req in scheduler_output.scheduled_new_reqs:
+            for feature in req.mm_features:
+                if feature.data is not None:
+                    mm_kwargs.append(feature.data)
+
+        # Input all modalities at once
+        model = cast(SupportsMultiModal, self.model)
+        mm_kwargs_combined: BatchedTensorInputs = {}
+        for _, _, mm_kwargs_group in group_mm_kwargs_by_modality(
+            mm_kwargs,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
+        ):
+            mm_kwargs_combined.update(mm_kwargs_group)
+
+        return mm_kwargs_combined
+
+    def _dummy_mm_kwargs(self, num_seqs: int) -> BatchedTensorInputs:
+        if not self.is_multimodal_raw_input_only_model:
+            return {}
+
+        mm_budget = self.mm_budget
+        assert mm_budget is not None
+
+        dummy_modality = mm_budget.get_modality_with_max_tokens()
+        return self._get_mm_dummy_batch(dummy_modality, num_seqs)
+
+    def _get_cumsum_and_arange(
+        self,
+        num_tokens: np.ndarray,
+        cumsum_dtype: np.dtype | None = None,
+    ) -> tuple[np.ndarray, np.ndarray]:
+        """Get the cumulative sum and batched arange of the given array.
+        # E.g., [2, 5, 3] -> ([2, 7, 10], [0, 1, 0, 1, 2, 3, 4, 0, 1, 2])
+        # Equivalent to but faster than:
+        # np.concatenate([np.arange(n) for n in num_tokens])
+        """
+        # Step 1. [2, 5, 3] -> [2, 7, 10]
+        cu_num_tokens = np.cumsum(num_tokens, dtype=cumsum_dtype)
+        total_num_tokens = cu_num_tokens[-1]
+        # Step 2. [2, 7, 10] -> [0, 0, 2, 2, 2, 2, 2, 7, 7, 7]
+        cumsums_offsets = np.repeat(cu_num_tokens - num_tokens, num_tokens)
+        # Step 3. [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        arange = self.arange_np[:total_num_tokens] - cumsums_offsets
+
+        return cu_num_tokens, arange
+
+    def _prepare_input_ids(
+        self,
+        scheduler_output: "SchedulerOutput",
+        total_num_scheduled_tokens: int,
+        cu_num_tokens: np.ndarray,
+    ) -> None:
+        """Prepare the input IDs for the current batch.
+
+        Carefully handles the `prev_sampled_token_ids` which can be cached
+        from the previous engine iteration, in which case those tokens on the
+        GPU need to be copied into the corresponding slots into input_ids."""
+
+        if self.input_batch.prev_sampled_token_ids is None:
+            # Normal scheduling case
+            self.input_ids.copy_to_gpu(total_num_scheduled_tokens)
+            if self.enable_prompt_embeds:
+                self.inputs_embeds.copy_to_gpu(total_num_scheduled_tokens)
+                self.is_token_ids.copy_to_gpu(total_num_scheduled_tokens)
+            return
+
+        # Async scheduling case, where some decode requests from the previous
+        # iteration won't have entries in input_ids_cpu and need to be copied
+        # on the GPU from prev_sampled_token_ids.
+        prev_req_id_to_index = self.input_batch.prev_req_id_to_index
+        assert prev_req_id_to_index is not None
+        sample_flattened_indices: list[int] = []
+        spec_flattened_indices: list[int] = []
+        prev_common_req_indices: list[int] = []
+        prev_draft_token_indices: list[int] = []
+        indices_match = True
+        max_flattened_index = -1
+        total_num_spec_tokens = 0
+        scheduled_spec_tokens = scheduler_output.scheduled_spec_decode_tokens
+
+        for req_id, cur_index in self.input_batch.req_id_to_index.items():
+            if (prev_index := prev_req_id_to_index.get(req_id)) is not None:
+                prev_common_req_indices.append(prev_index)
+                # We need to compute the flattened input_ids index of the
+                # last token in each common request.
+                draft_len = len(scheduled_spec_tokens.get(req_id, ()))
+                total_num_spec_tokens += draft_len
+                flattened_index = cu_num_tokens[cur_index].item() - 1
+                # example: cu_num_tokens = [2, 5, 8], draft_tokens = [1, 2, 2]
+                # sample_flattened_indices = [0, 2, 5]
+                # spec_flattened_indices = [1,   3, 4,    6, 7]
+                sample_flattened_indices.append(flattened_index - draft_len)
+                spec_flattened_indices.extend(
+                    range(flattened_index - draft_len + 1, flattened_index + 1)
+                )
+                start = prev_index * self.num_spec_tokens
+                # prev_draft_token_indices is used to find which draft_tokens_id
+                # should be copied to input_ids
+                # example: prev draft_tokens_id [[1,2], [3,4], [5, 6]]
+                # flatten draft_tokens_id [1,2,3,4,5,6]
+                # draft_len of each request [1, 2, 1]
+                # then prev_draft_token_indices is [0,   2, 3,   4]
+                prev_draft_token_indices.extend(range(start, start + draft_len))
+                indices_match &= prev_index == flattened_index
+                max_flattened_index = max(max_flattened_index, flattened_index)
+        num_commmon_tokens = len(sample_flattened_indices)
+        total_without_spec = total_num_scheduled_tokens - total_num_spec_tokens
+        if num_commmon_tokens < total_without_spec:
+            # If not all requests are decodes from the last iteration,
+            # We need to copy the input_ids_cpu to the GPU first.
+            self.input_ids.copy_to_gpu(total_num_scheduled_tokens)
+            if self.enable_prompt_embeds:
+                self.inputs_embeds.copy_to_gpu(total_num_scheduled_tokens)
+                self.is_token_ids.copy_to_gpu(total_num_scheduled_tokens)
+        if num_commmon_tokens == 0:
+            # No requests in common with the previous iteration
+            # So input_ids.cpu will have all the input ids.
+            return
+        if indices_match and max_flattened_index == (num_commmon_tokens - 1):
+            # Common-case optimization: the batch is unchanged
+            # and no reordering happened.
+            # The indices are both the same permutation of 0..N-1 so
+            # we can copy directly using a single slice.
+            self.input_ids.gpu[:num_commmon_tokens].copy_(
+                self.input_batch.prev_sampled_token_ids[:num_commmon_tokens, 0],
+                non_blocking=True,
+            )
+            if self.enable_prompt_embeds:
+                self.is_token_ids.gpu[:num_commmon_tokens] = True
+            return
+        # Upload the index tensors asynchronously so the scatter can be non-blocking.
+        sampled_tokens_index_tensor = torch.tensor(
+            sample_flattened_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+        prev_common_req_indices_tensor = torch.tensor(
+            prev_common_req_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+        self.input_ids.gpu.scatter_(
+            dim=0,
+            index=sampled_tokens_index_tensor,
+            src=self.input_batch.prev_sampled_token_ids[
+                prev_common_req_indices_tensor, 0
+            ],
+        )
+
+        # Scatter the draft tokens after the sampled tokens are scattered.
+        if self._draft_token_ids is None or not spec_flattened_indices:
+            return
+
+        assert isinstance(self._draft_token_ids, torch.Tensor)
+        draft_tokens_index_tensor = torch.tensor(
+            spec_flattened_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+        prev_draft_token_indices_tensor = torch.tensor(
+            prev_draft_token_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+
+        # because input_ids dtype is torch.int32,
+        # so convert draft_token_ids to torch.int32 here.
+        draft_token_ids = self._draft_token_ids.to(dtype=torch.int32)
+        self._draft_token_ids = None
+
+        self.input_ids.gpu.scatter_(
+            dim=0,
+            index=draft_tokens_index_tensor,
+            src=draft_token_ids.flatten()[prev_draft_token_indices_tensor],
+        )
+
+    def _get_encoder_seq_lens(
+        self,
+        scheduled_encoder_inputs: dict[str, list[int]],
+        kv_cache_spec: KVCacheSpec,
+        num_reqs: int,
+    ) -> np.ndarray | None:
+        if not isinstance(kv_cache_spec, CrossAttentionSpec):
+            return None
+
+        # Build encoder_seq_lens array mapping request indices to
+        # encoder lengths for inputs scheduled in this batch
+        encoder_seq_lens = np.zeros(num_reqs, dtype=np.int32)
+        for req_id in scheduled_encoder_inputs:
+            req_index = self.input_batch.req_id_to_index[req_id]
+            encoder_seq_lens[req_index] = self.max_encoder_len
+
+        return encoder_seq_lens
+
+    def _prepare_inputs(
+        self,
+        scheduler_output: "SchedulerOutput",
+        num_scheduled_tokens: np.ndarray,
+        max_num_scheduled_tokens: int,
+    ) -> tuple[
+        torch.Tensor,
+        SpecDecodeMetadata | None,
+        UBatchSlices | None,
+        torch.Tensor | None,
+    ]:
+        """
+        :return: tuple[
+            logits_indices, spec_decode_metadata,
+            ubatch_slices, num_tokens_across_dp,
+        ]
+        """
+        total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        assert total_num_scheduled_tokens > 0
+        num_reqs = self.input_batch.num_reqs
+        assert num_reqs > 0
+
+        # OPTIMIZATION: Start copying the block table first.
+        # This way, we can overlap the copy with the following CPU operations.
+        self.input_batch.block_table.commit_block_table(num_reqs)
+
+        # Get request indices.
+        # E.g., [2, 5, 3] -> [0, 0, 1, 1, 1, 1, 1, 2, 2, 2]
+        req_indices = np.repeat(self.arange_np[:num_reqs], num_scheduled_tokens)
+
+        # cu_num_tokens: [2, 5, 3] -> [2, 7, 10]
+        # arange: [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        cu_num_tokens, arange = self._get_cumsum_and_arange(num_scheduled_tokens)
+
+        # Get positions.
+        positions_np = self.positions.np[:total_num_scheduled_tokens]
+        np.add(
+            self.input_batch.num_computed_tokens_cpu[req_indices],
+            arange,
+            out=positions_np,
+        )
+
+        # Calculate M-RoPE positions.
+        # Only relevant for models using M-RoPE (e.g, Qwen2-VL)
+        if self.uses_mrope:
+            self._calc_mrope_positions(scheduler_output)
+
+        # Get token indices.
+        # E.g., [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        # -> [0, 1, M, M + 1, M + 2, M + 3, M + 4, 2 * M, 2 * M + 1, 2 * M + 2]
+        # where M is the max_model_len.
+        token_indices = (
+            positions_np + req_indices * self.input_batch.token_ids_cpu.shape[1]
+        )
+        token_indices_tensor = torch.from_numpy(token_indices)
+
+        # NOTE(woosuk): We use torch.index_select instead of np.take here
+        # because torch.index_select is much faster than np.take for large
+        # tensors.
+        torch.index_select(
+            self.input_batch.token_ids_cpu_tensor.flatten(),
+            0,
+            token_indices_tensor,
+            out=self.input_ids.cpu[:total_num_scheduled_tokens],
+        )
+        if self.enable_prompt_embeds:
+            is_token_ids = self.input_batch.is_token_ids_tensor.flatten()
+            torch.index_select(
+                is_token_ids,
+                0,
+                token_indices_tensor,
+                out=self.is_token_ids.cpu[:total_num_scheduled_tokens],
+            )
+
+        # Because we did not pre-allocate a massive prompt_embeds CPU tensor on
+        # the InputBatch, we need to fill in the prompt embeds into the expected
+        # spots in the GpuModelRunner's pre-allocated prompt_embeds tensor.
+        if self.input_batch.req_prompt_embeds:
+            output_idx = 0
+            for req_idx in range(num_reqs):
+                num_sched = num_scheduled_tokens[req_idx]
+
+                # Skip if this request doesn't have embeddings
+                if req_idx not in self.input_batch.req_prompt_embeds:
+                    output_idx += num_sched
+                    continue
+
+                # Skip if no tokens scheduled
+                if num_sched <= 0:
+                    output_idx += num_sched
+                    continue
+
+                req_embeds = self.input_batch.req_prompt_embeds[req_idx]
+                start_pos = self.input_batch.num_computed_tokens_cpu[req_idx]
+
+                # Skip if trying to read beyond available embeddings
+                if start_pos >= req_embeds.shape[0]:
+                    output_idx += num_sched
+                    continue
+
+                # Copy available embeddings
+                end_pos = start_pos + num_sched
+                actual_end = min(end_pos, req_embeds.shape[0])
+                actual_num_sched = actual_end - start_pos
+
+                if actual_num_sched > 0:
+                    self.inputs_embeds.cpu[
+                        output_idx : output_idx + actual_num_sched
+                    ].copy_(req_embeds[start_pos:actual_end])
+
+                output_idx += num_sched
+
+        self.input_batch.block_table.compute_slot_mapping(req_indices, positions_np)
+        self.input_batch.block_table.commit_slot_mapping(total_num_scheduled_tokens)
+
+        # Prepare the attention metadata.
+        self.query_start_loc.np[0] = 0
+        self.query_start_loc.np[1 : num_reqs + 1] = cu_num_tokens
+        # Note: pad query_start_loc to be non-decreasing, as kernels
+        # like FlashAttention requires that
+        self.query_start_loc.np[num_reqs + 1 :].fill(cu_num_tokens[-1])
+        self.query_start_loc.copy_to_gpu()
+        query_start_loc = self.query_start_loc.gpu[: num_reqs + 1]
+
+        num_tokens_unpadded = scheduler_output.total_num_scheduled_tokens
+        num_tokens_padded = self._get_num_input_tokens(num_tokens_unpadded)
+        uniform_decode = (
+            max_num_scheduled_tokens == self.uniform_decode_query_len
+        ) and (total_num_scheduled_tokens == num_reqs * max_num_scheduled_tokens)
+
+        # Disable DP padding when running eager to avoid excessive padding when
+        # running prefills. This lets us set enforce_eager on the prefiller in
+        # a P/D setup and still use CUDA graphs (enabled by this padding) on the
+        # decoder.
+        allow_dp_padding = self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+
+        ubatch_slices, num_tokens_across_dp = coordinate_batch_across_dp(
+            num_tokens_unpadded=num_tokens_unpadded,
+            parallel_config=self.parallel_config,
+            allow_microbatching=True,
+            allow_dp_padding=allow_dp_padding,
+            num_tokens_padded=num_tokens_padded,
+            uniform_decode=uniform_decode,
+            num_scheduled_tokens_per_request=num_scheduled_tokens,
+        )
+
+        self.seq_lens.np[:num_reqs] = (
+            self.input_batch.num_computed_tokens_cpu[:num_reqs] + num_scheduled_tokens
+        )
+        # Fill unused with 0 for full cuda graph mode.
+        self.seq_lens.np[num_reqs:].fill(0)
+        self.seq_lens.copy_to_gpu()
+
+        num_tokens = [self.requests[r].num_tokens for r in self.input_batch.req_ids]
+        num_tokens_np = np.array(num_tokens, dtype=np.int32)
+
+        # Record the index of requests that should not be sampled,
+        # so that we could clear the sampled tokens before returning
+        discard_requests_mask = self.seq_lens.np[:num_reqs] < num_tokens_np
+        discard_request_indices = np.nonzero(discard_requests_mask)[0]
+        self.num_discarded_requests = len(discard_request_indices)
+        self.discard_request_indices.np[: self.num_discarded_requests] = (
+            discard_request_indices
+        )
+
+        self.discard_request_indices.copy_to_gpu(self.num_discarded_requests)
+
+        
+        self.key_start_loc.np[0] = 0
+        self.key_start_loc.np[1:num_reqs + 1] = (
+            self.seq_lens.np[:num_reqs])
+        self.key_start_loc.np[0:num_reqs + 1] = self.key_start_loc.np[0:num_reqs + 1].cumsum(axis=0)
+        self.key_start_loc.copy_to_gpu()
+        key_start_loc = self.key_start_loc.gpu[:num_reqs + 1]
+        # Copy the tensors to the GPU.
+        self._prepare_input_ids(
+            scheduler_output,
+            total_num_scheduled_tokens,
+            cu_num_tokens,
+        )
+
+        if self.uses_mrope:
+            # Only relevant for models using M-RoPE (e.g, Qwen2-VL)
+            self.mrope_positions.gpu[:, :total_num_scheduled_tokens].copy_(
+                self.mrope_positions.cpu[:, :total_num_scheduled_tokens],
+                non_blocking=True,
+            )
+        else:
+            # Common case (1D positions)
+            self.positions.copy_to_gpu(total_num_scheduled_tokens)
+
+        use_spec_decode = len(scheduler_output.scheduled_spec_decode_tokens) > 0
+        if not use_spec_decode:
+            # NOTE(woosuk): Due to chunked prefills, the batch may contain
+            # partial requests. While we should not sample any token
+            # from these partial requests, we do so for simplicity.
+            # We will ignore the sampled tokens from the partial requests.
+            # TODO: Support prompt logprobs.
+            logits_indices = query_start_loc[1:] - 1
+            num_draft_tokens = None
+            spec_decode_metadata = None
+            num_sampled_tokens = np.ones(num_reqs, dtype=np.int32)
+        else:
+            # Get the number of draft tokens for each request.
+            # Iterate over the dictionary rather than all requests since not all
+            # requests have draft tokens.
+            num_draft_tokens = np.zeros(num_reqs, dtype=np.int32)
+            # For chunked prefills, use -1 as mask rather than 0, as guided
+            # decoding may rollback speculative tokens.
+            num_decode_draft_tokens = np.full(num_reqs, -1, dtype=np.int32)
+            for (
+                req_id,
+                draft_token_ids,
+            ) in scheduler_output.scheduled_spec_decode_tokens.items():
+                req_idx = self.input_batch.req_id_to_index[req_id]
+                num_draft_tokens[req_idx] = len(draft_token_ids)
+                num_decode_draft_tokens[req_idx] = (
+                    len(draft_token_ids)
+                    if (
+                        self.input_batch.num_computed_tokens_cpu[req_idx]
+                        >= self.input_batch.num_prompt_tokens[req_idx]
+                    )
+                    else -1
+                )
+            spec_decode_metadata = self._calc_spec_decode_metadata(
+                num_draft_tokens, cu_num_tokens
+            )
+            logits_indices = spec_decode_metadata.logits_indices
+            num_sampled_tokens = num_draft_tokens + 1
+            # For DECODE only cuda graph of some attention backends (e.g., GDN).
+            self.num_decode_draft_tokens.np[:num_reqs] = num_decode_draft_tokens
+            self.num_decode_draft_tokens.np[num_reqs:].fill(-1)
+            self.num_decode_draft_tokens.copy_to_gpu()
+
+        # Hot-Swap lora model
+        if self.lora_config:
+            assert (
+                np.sum(num_sampled_tokens)
+                <= self.vllm_config.scheduler_config.max_num_batched_tokens
+            )
+            self.set_active_loras(
+                self.input_batch, num_scheduled_tokens, num_sampled_tokens
+            )
+
+        return (
+            logits_indices,
+            spec_decode_metadata,
+            ubatch_slices,
+            num_tokens_across_dp,
+        )
+
+    def _build_attention_metadata(
+        self,
+        total_num_scheduled_tokens: int,
+        max_num_scheduled_tokens: int,
+        num_reqs: int,
+        ubatch_slices: UBatchSlices | None = None,
+        logits_indices: torch.Tensor | None = None,
+        use_spec_decode: bool = False,
+        for_cudagraph_capture: bool = False,
+        scheduled_encoder_inputs: dict[str, list[int]] | None = None,
+        cascade_attn_prefix_lens: list[list[int]] | None = None,
+    ) -> tuple[PerLayerAttnMetadata, CommonAttentionMetadata | None]:
+        """
+        :return: tuple[attn_metadata, spec_decode_common_attn_metadata]
+        """
+        logits_indices_padded = None
+        num_logits_indices = None
+        if logits_indices is not None:
+            num_logits_indices = logits_indices.size(0)
+            if self.cache_config.kv_sharing_fast_prefill:
+                logits_indices_padded = self._prepare_kv_sharing_fast_prefill(
+                    logits_indices
+                )
+
+        # update seq_lens of decode reqs under DCP.
+        if self.dcp_world_size > 1:
+            self.dcp_local_seq_lens.cpu[:num_reqs] = get_dcp_local_seq_lens(
+                self.seq_lens.cpu[:num_reqs],
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.parallel_config.dcp_kv_cache_interleave_size,
+            )
+            self.dcp_local_seq_lens.copy_to_gpu(num_reqs)
+
+        attn_metadata: PerLayerAttnMetadata = {}
+        if ubatch_slices is not None:
+            attn_metadata = [dict() for _ in range(len(ubatch_slices))]
+
+        # Used in the below loop
+        query_start_loc = self.query_start_loc.gpu[: num_reqs + 1]
+        query_start_loc_cpu = self.query_start_loc.cpu[: num_reqs + 1]
+        key_start_loc = self.key_start_loc.gpu[: num_reqs + 1]
+        seq_lens = self.seq_lens.gpu[:num_reqs]
+        seq_lens_cpu = self.seq_lens.cpu[:num_reqs]
+        num_computed_tokens_cpu = self.input_batch.num_computed_tokens_cpu_tensor[
+            :num_reqs
+        ]
+
+        dcp_local_seq_lens, dcp_local_seq_lens_cpu = None, None
+        if self.dcp_world_size > 1:
+            dcp_local_seq_lens = self.dcp_local_seq_lens.gpu[:num_reqs]
+            dcp_local_seq_lens_cpu = self.dcp_local_seq_lens.cpu[:num_reqs]
+
+        spec_decode_common_attn_metadata = None
+
+        if for_cudagraph_capture:
+            # For some attention backends (e.g. FA) with sliding window models we need
+            # to make sure the backend see a max_seq_len that is larger to the sliding
+            # window size when capturing to make sure the correct kernel is selected.
+            max_seq_len = self.max_model_len
+        else:
+            max_seq_len = self.seq_lens.np[:num_reqs].max().item()
+
+        if use_spec_decode:
+            self.num_accepted_tokens.np[:num_reqs] = (
+                self.input_batch.num_accepted_tokens_cpu[:num_reqs]
+            )
+            self.num_accepted_tokens.np[num_reqs:].fill(1)
+            self.num_accepted_tokens.copy_to_gpu()
+
+        # Prepare the attention metadata for each KV cache group and make layers
+        # in the same group share the same metadata.
+        for kv_cache_gid, kv_cache_group in enumerate(
+            self.kv_cache_config.kv_cache_groups
+        ):
+            encoder_seq_lens = self._get_encoder_seq_lens(
+                scheduled_encoder_inputs or {},
+                kv_cache_group.kv_cache_spec,
+                num_reqs,
+            )
+
+            if isinstance(kv_cache_group.kv_cache_spec, EncoderOnlyAttentionSpec):
+                # Encoder-only layers do not have KV cache, so we need to
+                # create a dummy block table and slot mapping for them.
+                blk_table_tensor = torch.zeros(
+                    (num_reqs, 1),
+                    dtype=torch.int32,
+                    device=self.device,
+                )
+                slot_mapping = torch.zeros(
+                    (total_num_scheduled_tokens,),
+                    dtype=torch.int64,
+                    device=self.device,
+                )
+            else:
+                blk_table = self.input_batch.block_table[kv_cache_gid]
+                blk_table_tensor = blk_table.get_device_tensor(num_reqs)
+                slot_mapping = blk_table.slot_mapping.gpu[:total_num_scheduled_tokens]
+
+                # Fill unused with -1. Needed for reshape_and_cache in full cuda
+                # graph mode.
+                blk_table.slot_mapping.gpu[total_num_scheduled_tokens:].fill_(-1)
+
+            common_attn_metadata = CommonAttentionMetadata(
+                query_start_loc=query_start_loc,
+                query_start_loc_cpu=query_start_loc_cpu,
+                key_start_loc = key_start_loc,
+                seq_lens=seq_lens,
+                seq_lens_cpu=seq_lens_cpu,
+                num_computed_tokens_cpu=num_computed_tokens_cpu,
+                num_reqs=num_reqs,
+                num_actual_tokens=total_num_scheduled_tokens,
+                max_query_len=max_num_scheduled_tokens,
+                max_seq_len=max_seq_len,
+                block_table_tensor=blk_table_tensor,
+                slot_mapping=slot_mapping,
+                logits_indices_padded=logits_indices_padded,
+                num_logits_indices=num_logits_indices,
+                causal=True,
+                encoder_seq_lens=encoder_seq_lens,
+                dcp_local_seq_lens=dcp_local_seq_lens,
+                dcp_local_seq_lens_cpu=dcp_local_seq_lens_cpu,
+            )
+
+            if self.speculative_config and spec_decode_common_attn_metadata is None:
+                if isinstance(self.drafter, EagleProposer):
+                    if self.drafter.attn_layer_names[0] in kv_cache_group.layer_names:
+                        spec_decode_common_attn_metadata = common_attn_metadata
+                else:
+                    spec_decode_common_attn_metadata = common_attn_metadata
+
+            for attn_gid, attn_group in enumerate(self.attn_groups[kv_cache_gid]):
+                cascade_attn_prefix_len = (
+                    cascade_attn_prefix_lens[kv_cache_gid][attn_gid]
+                    if cascade_attn_prefix_lens
+                    else 0
+                )
+                builder = attn_group.get_metadata_builder()
+
+                extra_attn_metadata_args = {}
+                if use_spec_decode and isinstance(builder, GDNAttentionMetadataBuilder):
+                    extra_attn_metadata_args = dict(
+                        num_accepted_tokens=self.num_accepted_tokens.gpu[:num_reqs],
+                        num_decode_draft_tokens_cpu=self.num_decode_draft_tokens.cpu[
+                            :num_reqs
+                        ],
+                    )
+
+                if ubatch_slices is not None:
+                    common_attn_metadata_list = split_attn_metadata(
+                        ubatch_slices, common_attn_metadata
+                    )
+                    for ubid, common_attn_metadata in enumerate(
+                        common_attn_metadata_list
+                    ):
+                        builder = attn_group.get_metadata_builder(ubatch_id=ubid)
+                        if for_cudagraph_capture:
+                            attn_metadata_i = builder.build_for_cudagraph_capture(
+                                common_attn_metadata
+                            )
+                        else:
+                            attn_metadata_i = builder.build(
+                                common_prefix_len=cascade_attn_prefix_len,
+                                common_attn_metadata=common_attn_metadata,
+                            )
+                        for layer_name in kv_cache_group.layer_names:
+                            assert type(attn_metadata) is list
+                            attn_metadata[ubid][layer_name] = attn_metadata_i
+                else:
+                    assert isinstance(attn_metadata, dict)
+                    if for_cudagraph_capture:
+                        attn_metadata_i = builder.build_for_cudagraph_capture(
+                            common_attn_metadata
+                        )
+                    else:
+                        attn_metadata_i = builder.build(
+                            common_prefix_len=cascade_attn_prefix_len,
+                            common_attn_metadata=common_attn_metadata,
+                            **extra_attn_metadata_args,
+                        )
+                    for layer_name in attn_group.layer_names:
+                        attn_metadata[layer_name] = attn_metadata_i
+
+        return attn_metadata, spec_decode_common_attn_metadata
+
+    def _compute_cascade_attn_prefix_lens(
+        self,
+        num_scheduled_tokens: np.ndarray,
+        num_common_prefix_blocks: list[int],
+    ) -> list[list[int]] | None:
+        """
+        :return: Optional[cascade_attn_prefix_lens]
+            cascade_attn_prefix_lens is 2D: ``[kv_cache_group_id][attn_group_idx]``,
+            None if we should not use cascade attention
+        """
+
+        use_cascade_attn = False
+        num_kv_cache_groups = len(self.kv_cache_config.kv_cache_groups)
+        cascade_attn_prefix_lens: list[list[int]] = [
+            [] for _ in range(num_kv_cache_groups)
+        ]
+
+        for kv_cache_gid in range(num_kv_cache_groups):
+            for attn_group in self.attn_groups[kv_cache_gid]:
+                if isinstance(attn_group.kv_cache_spec, EncoderOnlyAttentionSpec):
+                    cascade_attn_prefix_len = 0
+                else:
+                    # 0 if cascade attention should not be used
+                    cascade_attn_prefix_len = self._compute_cascade_attn_prefix_len(
+                        num_scheduled_tokens,
+                        num_common_prefix_blocks[kv_cache_gid],
+                        attn_group.kv_cache_spec,
+                        attn_group.get_metadata_builder(),
+                    )
+                cascade_attn_prefix_lens[kv_cache_gid].append(cascade_attn_prefix_len)
+                use_cascade_attn |= cascade_attn_prefix_len > 0
+
+        return cascade_attn_prefix_lens if use_cascade_attn else None
+
+    def _compute_cascade_attn_prefix_len(
+        self,
+        num_scheduled_tokens: np.ndarray,
+        num_common_prefix_blocks: int,
+        kv_cache_spec: KVCacheSpec,
+        attn_metadata_builder: AttentionMetadataBuilder,
+    ) -> int:
+        """Compute the length of the common prefix for cascade attention.
+
+        NOTE(woosuk): The common prefix length returned by this function
+        represents the length used specifically for cascade attention, not the
+        actual number of tokens shared between requests. When cascade attention
+        is disabled (use_cascade=False), this function returns 0 even if
+        requests share common tokens. Additionally, the common prefix length is
+        truncated to a multiple of the block size and may be further truncated
+        due to implementation details explained below.
+
+        Args:
+            num_scheduled_tokens: Number of tokens scheduled per request.
+            num_common_prefix_blocks: Number of shared KV cache blocks.
+
+        Returns:
+            int: Length of common prefix in tokens.
+        """
+
+        common_prefix_len = num_common_prefix_blocks * kv_cache_spec.block_size
+        if common_prefix_len == 0:
+            # Common case.
+            return 0
+
+        # NOTE(woosuk): Cascade attention uses two attention kernels: one
+        # for the common prefix and the other for the rest. For the first
+        # kernel, we concatenate all the query tokens (possibly from
+        # different requests) and treat them as if they are from the same
+        # request. Then, we use bi-directional attention to process the
+        # common prefix in the KV cache. Importantly, this means that the
+        # first kernel does not do any masking.
+
+        # Consider the following example:
+        # Request 1's input query: [D, E, X]
+        # Request 1's kv cache: [A, B, C, D, E, X]
+        # Request 1's num_computed_tokens: 3 (i.e., [A, B, C])
+        # Request 2's input query: [E, Y]
+        # Request 2's kv cache: [A, B, C, D, E, Y]
+        # Request 2's num_computed_tokens: 4 (i.e., [A, B, C, D])
+
+        # If we use [A, B, C, D, E] as the common prefix, then the
+        # first kernel will compute the bi-directional attention between
+        # input query [D, E, X, E, Y] and common prefix [A, B, C, D, E].
+        # However, this is wrong because D in Request 1 should not attend to
+        # E in the common prefix (i.e., we need masking).
+        # To avoid this, [A, B, C, D] should be the common prefix.
+        # That is, the common prefix should be capped by the minimum
+        # num_computed_tokens among the requests, and plus one to include
+        # the first token of the query.
+
+        # In practice, we use [A, B, C] as the common prefix, instead of
+        # [A, B, C, D] (i.e., the common prefix is capped by the minimum
+        # num_computed_tokens, without plus one).
+        # This is because of an implementation detail: We want to always
+        # use two kernels for cascade attention. Let's imagine:
+        # Request 3's input query: [D]
+        # Request 3's kv cache: [A, B, C, D]
+        # Request 3's num_computed_tokens: 3 (i.e., [A, B, C])
+        # If we use [A, B, C, D] as the common prefix for Request 1-3,
+        # then Request 3 will be processed only by the first kernel,
+        # and the second kernel will get an empty input. While this is not
+        # a fundamental problem, our current implementation does not support
+        # this case.
+        num_reqs = len(num_scheduled_tokens)
+        common_prefix_len = min(
+            common_prefix_len, self.input_batch.num_computed_tokens_cpu[:num_reqs].min()
+        )
+        # common_prefix_len should be a multiple of the block size.
+        common_prefix_len = (
+            common_prefix_len // kv_cache_spec.block_size * kv_cache_spec.block_size
+        )
+        use_sliding_window = isinstance(kv_cache_spec, SlidingWindowSpec) or (
+            isinstance(kv_cache_spec, FullAttentionSpec)
+            and kv_cache_spec.sliding_window is not None
+        )
+        use_local_attention = isinstance(kv_cache_spec, ChunkedLocalAttentionSpec) or (
+            isinstance(kv_cache_spec, FullAttentionSpec)
+            and kv_cache_spec.attention_chunk_size is not None
+        )
+        assert isinstance(kv_cache_spec, AttentionSpec)
+        use_cascade = attn_metadata_builder.use_cascade_attention(
+            common_prefix_len=common_prefix_len,
+            query_lens=num_scheduled_tokens,
+            num_query_heads=self.num_query_heads,
+            num_kv_heads=kv_cache_spec.num_kv_heads,
+            use_alibi=self.use_alibi,
+            use_sliding_window=use_sliding_window,
+            use_local_attention=use_local_attention,
+            num_sms=self.num_sms,
+            dcp_world_size=self.dcp_world_size,
+        )
+        return common_prefix_len if use_cascade else 0
+
+    def _calc_mrope_positions(self, scheduler_output: "SchedulerOutput"):
+        mrope_pos_ptr = 0
+        for index, req_id in enumerate(self.input_batch.req_ids):
+            req = self.requests[req_id]
+            assert req.mrope_positions is not None
+
+            num_computed_tokens = self.input_batch.num_computed_tokens_cpu[index]
+            num_scheduled_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
+                req.prompt_token_ids, req.prompt_embeds
+            )
+
+            if num_computed_tokens + num_scheduled_tokens > num_prompt_tokens:
+                prompt_part_len = max(0, num_prompt_tokens - num_computed_tokens)
+                completion_part_len = max(0, num_scheduled_tokens - prompt_part_len)
+            else:
+                prompt_part_len = num_scheduled_tokens
+                completion_part_len = 0
+
+            assert num_scheduled_tokens == prompt_part_len + completion_part_len
+
+            if prompt_part_len > 0:
+                # prompt's mrope_positions are pre-computed
+                dst_start = mrope_pos_ptr
+                dst_end = mrope_pos_ptr + prompt_part_len
+                src_start = num_computed_tokens
+                src_end = num_computed_tokens + prompt_part_len
+
+                self.mrope_positions.cpu[:, dst_start:dst_end] = req.mrope_positions[
+                    :, src_start:src_end
+                ]
+                mrope_pos_ptr += prompt_part_len
+
+            if completion_part_len > 0:
+                # compute completion's mrope_positions on-the-fly
+                dst_start = mrope_pos_ptr
+                dst_end = mrope_pos_ptr + completion_part_len
+
+                MRotaryEmbedding.get_next_input_positions_tensor(
+                    out=self.mrope_positions.np,
+                    out_offset=dst_start,
+                    mrope_position_delta=req.mrope_position_delta,
+                    context_len=num_computed_tokens + prompt_part_len,
+                    num_new_tokens=completion_part_len,
+                )
+
+                mrope_pos_ptr += completion_part_len
+
+    def _calc_spec_decode_metadata(
+        self,
+        num_draft_tokens: np.ndarray,
+        cu_num_scheduled_tokens: np.ndarray,
+    ) -> SpecDecodeMetadata:
+        # Inputs:
+        # cu_num_scheduled_tokens:  [  4, 104, 107, 207, 209]
+        # num_draft_tokens:         [  3,   0,   2,   0,   1]
+        # Outputs:
+        # cu_num_draft_tokens:      [  3,   3,   5,   5,   6]
+        # logits_indices:           [  0,   1,   2,   3, 103, 104, 105, 106,
+        #                            206, 207, 208]
+        # target_logits_indices:    [  0,   1,   2,   5,   6,   9]
+        # bonus_logits_indices:     [  3,   4,   7,   8,  10]
+
+        # Compute the logits indices.
+        # [4, 1, 3, 1, 2]
+        num_sampled_tokens = num_draft_tokens + 1
+
+        # Step 1. cu_num_sampled_tokens: [4, 5, 8, 9, 11]
+        # arange: [0, 1, 2, 3, 0, 0, 1, 2, 0, 0, 1]
+        cu_num_sampled_tokens, arange = self._get_cumsum_and_arange(
+            num_sampled_tokens, cumsum_dtype=np.int32
+        )
+        # Step 2. [0, 0, 0, 0, 103, 104, 104, 104, 206, 207, 207]
+        logits_indices = np.repeat(
+            cu_num_scheduled_tokens - num_sampled_tokens, num_sampled_tokens
+        )
+        # Step 3. [0, 1, 2, 3, 103, 104, 105, 106, 206, 207, 208]
+        logits_indices += arange
+
+        # Compute the bonus logits indices.
+        bonus_logits_indices = cu_num_sampled_tokens - 1
+
+        # Compute the draft logits indices.
+        # cu_num_draft_tokens: [3, 3, 5, 5, 6]
+        # arange: [0, 1, 2, 0, 1, 0]
+        cu_num_draft_tokens, arange = self._get_cumsum_and_arange(
+            num_draft_tokens, cumsum_dtype=np.int32
+        )
+        # [0, 0, 0, 5, 5, 9]
+        target_logits_indices = np.repeat(
+            cu_num_sampled_tokens - num_sampled_tokens, num_draft_tokens
+        )
+        # [0, 1, 2, 5, 6, 9]
+        target_logits_indices += arange
+
+        # TODO: Optimize the CPU -> GPU copy.
+        cu_num_draft_tokens = torch.from_numpy(cu_num_draft_tokens).to(
+            self.device, non_blocking=True
+        )
+        cu_num_sampled_tokens = torch.from_numpy(cu_num_sampled_tokens).to(
+            self.device, non_blocking=True
+        )
+        logits_indices = torch.from_numpy(logits_indices).to(
+            self.device, non_blocking=True
+        )
+        target_logits_indices = torch.from_numpy(target_logits_indices).to(
+            self.device, non_blocking=True
+        )
+        bonus_logits_indices = torch.from_numpy(bonus_logits_indices).to(
+            self.device, non_blocking=True
+        )
+
+        # Compute the draft token ids.
+        # draft_token_indices:      [  1,   2,   3, 105, 106, 208]
+        draft_token_ids = self.input_ids.gpu[logits_indices]
+        draft_token_ids = draft_token_ids[target_logits_indices + 1]
+
+        return SpecDecodeMetadata(
+            draft_token_ids=draft_token_ids,
+            num_draft_tokens=num_draft_tokens.tolist(),
+            cu_num_draft_tokens=cu_num_draft_tokens,
+            cu_num_sampled_tokens=cu_num_sampled_tokens,
+            target_logits_indices=target_logits_indices,
+            bonus_logits_indices=bonus_logits_indices,
+            logits_indices=logits_indices,
+        )
+
+    def _prepare_kv_sharing_fast_prefill(
+        self,
+        logits_indices: torch.Tensor,
+    ) -> torch.Tensor:
+        assert self.kv_sharing_fast_prefill_logits_indices is not None
+        num_logits = logits_indices.shape[0]
+        assert num_logits > 0
+        self.kv_sharing_fast_prefill_logits_indices[:num_logits].copy_(logits_indices)
+        # There might have leftover indices in logits_indices[num_logits:]
+        # from previous iterations, whose values may be greater than the
+        # batch size in the current iteration. To ensure indices are always
+        # valid, we fill the padded indices with the last index.
+        self.kv_sharing_fast_prefill_logits_indices[num_logits:].fill_(
+            logits_indices[-1].item()
+        )
+        if (
+            self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+            and num_logits <= self.cudagraph_batch_sizes[-1]
+        ):
+            # Use piecewise CUDA graphs.
+            # Add padding to the batch size.
+            num_logits_padded = self.vllm_config.pad_for_cudagraph(num_logits)
+        else:
+            num_logits_padded = num_logits
+        logits_indices_padded = self.kv_sharing_fast_prefill_logits_indices[
+            :num_logits_padded
+        ]
+        return logits_indices_padded
+
+    def _batch_mm_kwargs_from_scheduler(
+        self,
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[list[MultiModalKwargsItem], list[tuple[str, PlaceholderRange]]]:
+        """Batch multimodal kwargs from scheduled encoder inputs.
+
+        Args:
+            scheduler_output: The scheduler output containing scheduled encoder
+                inputs.
+
+        Returns:
+            A tuple of (mm_kwargs, req_ids_pos) where:
+            - mm_kwargs: List of multimodal kwargs items to be batched
+            - mm_hashes_pos: List of (mm_hash, position_info) tuples
+        """
+        scheduled_encoder_inputs = scheduler_output.scheduled_encoder_inputs
+        if not scheduled_encoder_inputs:
+            return [], []
+        # Batch the multi-modal inputs.
+        mm_kwargs = list[MultiModalKwargsItem]()
+        # list of tuple (mm_hash, position_info)
+        mm_hashes_pos = list[tuple[str, PlaceholderRange]]()
+        for req_id, encoder_input_ids in scheduled_encoder_inputs.items():
+            req_state = self.requests[req_id]
+
+            for mm_input_id in encoder_input_ids:
+                mm_feature = req_state.mm_features[mm_input_id]
+                mm_hash = mm_feature.identifier
+                mm_kwargs.append(mm_feature.data)
+                mm_hashes_pos.append((mm_hash, mm_feature.mm_position))
+
+        return mm_kwargs, mm_hashes_pos
+
+    def _execute_mm_encoder(self, scheduler_output: "SchedulerOutput"):
+        # Batch the multi-modal inputs using the helper method.
+        mm_kwargs, mm_hashes_pos = self._batch_mm_kwargs_from_scheduler(
+            scheduler_output
+        )
+
+        if not mm_kwargs:
+            return
+
+        # Batch mm inputs as much as we can: if a request in the batch has
+        # multiple modalities or a different modality than the previous one,
+        # we process it separately to preserve item order.
+        # FIXME(ywang96): This is a hacky way to deal with multiple modalities
+        # in the same batch while still being able to benefit from batching
+        # multimodal inputs. The proper solution should be reordering the
+        # encoder outputs.
+        model = cast(SupportsMultiModal, self.model)
+        encoder_outputs = []
+        for modality, num_items, mm_kwargs_group in group_mm_kwargs_by_modality(
+            mm_kwargs,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
+        ):
+            curr_group_outputs = []
+
+            # EVS-related change.
+            # (ekhvedchenia): Temporary hack to limit peak memory usage when
+            # processing multimodal data. This solves the issue with scheduler
+            # putting too many video samples into a single batch. Scheduler
+            # uses pruned vision tokens count to compare it versus compute
+            # budget which is incorrect (Either input media size or non-pruned
+            # output vision tokens count should be considered)
+            # TODO(ywang96): Fix memory profiling to take EVS into account and
+            # remove this hack.
+            if (
+                self.is_multimodal_pruning_enabled
+                and modality == "video"
+                and num_items > 1
+            ):
+                for video_mm_kwargs_item in filter(
+                    lambda item: item.modality == "video", mm_kwargs
+                ):
+                    _, _, micro_batch_mm_inputs = next(
+                        group_mm_kwargs_by_modality(
+                            [video_mm_kwargs_item],
+                            device=self.device,
+                            pin_memory=self.pin_memory,
+                            merge_by_field_config=model.merge_by_field_config,
+                            multimodal_cpu_fields=model.multimodal_cpu_fields,
+                        )
+                    )
+
+                    micro_batch_outputs = model.embed_multimodal(
+                        **micro_batch_mm_inputs
+                    )
+
+                    curr_group_outputs.extend(micro_batch_outputs)
+            else:
+                # Run the encoder.
+                # `curr_group_outputs` is either of the following:
+                # 1. A tensor of shape (num_items, feature_size, hidden_size)
+                # in case feature_size is fixed across all multimodal items.
+                # 2. A list or tuple (length: num_items) of tensors,
+                # each of shape (feature_size, hidden_size) in case the feature
+                # size is dynamic depending on the input multimodal items.
+                curr_group_outputs = model.embed_multimodal(**mm_kwargs_group)
+
+            sanity_check_mm_encoder_outputs(
+                curr_group_outputs,
+                expected_num_items=num_items,
+            )
+            encoder_outputs.extend(curr_group_outputs)
+
+        # Cache the encoder outputs by mm_hash
+        for (mm_hash, pos_info), output in zip(mm_hashes_pos, encoder_outputs):
+            self.encoder_cache[mm_hash] = scatter_mm_placeholders(
+                output,
+                is_embed=pos_info.is_embed,
+            )
+            logger.debug("Finish execute for mm hash %s", mm_hash)
+            self.maybe_save_ec_to_connector(self.encoder_cache, mm_hash)
+
+    def _gather_mm_embeddings(
+        self,
+        scheduler_output: "SchedulerOutput",
+        shift_computed_tokens: int = 0,
+    ) -> tuple[list[torch.Tensor], torch.Tensor]:
+        total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+
+        mm_embeds = list[torch.Tensor]()
+        is_mm_embed = self.is_mm_embed.cpu
+        is_mm_embed[:total_num_scheduled_tokens] = False
+
+        req_start_idx = 0
+        should_sync_mrope_positions = False
+
+        for req_id in self.input_batch.req_ids:
+            mm_embeds_req: list[torch.Tensor] = []
+
+            num_scheduled_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            req_state = self.requests[req_id]
+            num_computed_tokens = req_state.num_computed_tokens + shift_computed_tokens
+
+            for mm_feature in req_state.mm_features:
+                pos_info = mm_feature.mm_position
+                start_pos = pos_info.offset
+                num_encoder_tokens = pos_info.length
+
+                # The encoder output is needed if the two ranges overlap:
+                # [num_computed_tokens,
+                #  num_computed_tokens + num_scheduled_tokens) and
+                # [start_pos, start_pos + num_encoder_tokens)
+                if start_pos >= num_computed_tokens + num_scheduled_tokens:
+                    # The encoder output is not needed in this step.
+                    break
+                if start_pos + num_encoder_tokens <= num_computed_tokens:
+                    # The encoder output is already processed and stored
+                    # in the decoder's KV cache.
+                    continue
+
+                start_idx = max(num_computed_tokens - start_pos, 0)
+                end_idx = min(
+                    num_computed_tokens - start_pos + num_scheduled_tokens,
+                    num_encoder_tokens,
+                )
+                assert start_idx < end_idx
+
+                mm_hash = mm_feature.identifier
+                encoder_output = self.encoder_cache.get(mm_hash, None)
+                assert encoder_output is not None, f"Encoder cache miss for {mm_hash}."
+
+                if (is_embed := pos_info.is_embed) is not None:
+                    is_embed = is_embed[start_idx:end_idx]
+
+                req_start_pos = req_start_idx + start_pos - num_computed_tokens
+                is_mm_embed[req_start_pos + start_idx : req_start_pos + end_idx] = (
+                    True if is_embed is None else is_embed
+                )
+
+                mm_embeds_item = gather_mm_placeholders(
+                    encoder_output[start_idx:end_idx],
+                    is_embed=is_embed,
+                )
+                mm_embeds_req.append(mm_embeds_item)
+
+            if self.is_multimodal_pruning_enabled and self.uses_mrope:
+                assert req_state.mrope_positions is not None
+                should_sync_mrope_positions = True
+                mm_embeds_req, new_mrope_positions, new_delta = (
+                    self.model.recompute_mrope_positions(
+                        input_ids=req_state.prompt_token_ids,
+                        multimodal_embeddings=mm_embeds_req,
+                        mrope_positions=req_state.mrope_positions,
+                        num_computed_tokens=req_state.num_computed_tokens,
+                    )
+                )
+                req_state.mrope_positions.copy_(new_mrope_positions)
+                req_state.mrope_position_delta = new_delta
+
+            mm_embeds.extend(mm_embeds_req)
+            req_start_idx += num_scheduled_tokens
+
+        is_mm_embed = self.is_mm_embed.copy_to_gpu(total_num_scheduled_tokens)
+
+        if should_sync_mrope_positions:
+            self._calc_mrope_positions(scheduler_output)
+            self.mrope_positions.copy_to_gpu(total_num_scheduled_tokens)
+
+        return mm_embeds, is_mm_embed
+
+    def _extract_encoder_inputs(
+        self,
+        scheduler_output: "SchedulerOutput",
+    ) -> dict[str, torch.Tensor]:
+        """Extract encoder inputs for encoder-decoder models.
+
+        This method extracts multimodal input features from scheduled encoder
+        inputs and formats them for the encoder-decoder model forward pass.
+        """
+        # Batch the multi-modal inputs using the helper method.
+        mm_kwargs, _ = self._batch_mm_kwargs_from_scheduler(scheduler_output)
+
+        if not mm_kwargs:
+            return {}
+
+        # Group MM kwargs by modality and extract features
+        model = cast(SupportsMultiModal, self.model)
+        encoder_features = {}
+        for _, _, mm_kwargs_group in group_mm_kwargs_by_modality(
+            mm_kwargs,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
+        ):
+            # Add the grouped features to encoder_features dict
+            # This allows the model to receive them as kwargs (e.g.,
+            # input_features=...)
+            encoder_features.update(mm_kwargs_group)
+
+        return encoder_features
+
+    def get_model(self) -> nn.Module:
+        # get raw model out of the cudagraph wrapper.
+        if isinstance(self.model, (CUDAGraphWrapper, UBatchWrapper)):
+            return self.model.unwrap()
+        return self.model
+
+    def get_supported_generation_tasks(self) -> list[GenerationTask]:
+        model = self.get_model()
+        supported_tasks = list[GenerationTask]()
+
+        if is_text_generation_model(model):
+            supported_tasks.append("generate")
+
+        if supports_transcription(model):
+            if model.supports_transcription_only:
+                return ["transcription"]
+
+            supported_tasks.append("transcription")
+
+        return supported_tasks
+
+    def get_supported_pooling_tasks(self) -> list[PoolingTask]:
+        model = self.get_model()
+        if not is_pooling_model(model):
+            return []
+
+        supported_tasks = list(model.pooler.get_supported_tasks())
+
+        if self.scheduler_config.enable_chunked_prefill:
+            if "token_embed" in supported_tasks:
+                supported_tasks.remove("token_embed")
+            if "token_classify" in supported_tasks:
+                supported_tasks.remove("token_classify")
+
+            logger.debug_once(
+                "Chunked prefill is not supported with "
+                "token_embed and token_classify tasks "
+                "which using ALL pooling. "
+                "Please turn off chunked prefill by "
+                "`--no-enable-chunked-prefill` before using it."
+            )
+
+        if "score" in supported_tasks:
+            num_labels = getattr(self.model_config.hf_config, "num_labels", 0)
+            if num_labels != 1:
+                supported_tasks.remove("score")
+                logger.debug_once("Score API is only enabled for num_labels == 1.")
+
+        return supported_tasks
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        tasks = list[SupportedTask]()
+
+        if self.model_config.runner_type == "generate":
+            tasks.extend(self.get_supported_generation_tasks())
+        if self.model_config.runner_type == "pooling":
+            tasks.extend(self.get_supported_pooling_tasks())
+
+        return tuple(tasks)
+
+    def sync_and_slice_intermediate_tensors(
+        self,
+        num_tokens: int,
+        intermediate_tensors: IntermediateTensors,
+        sync_self: bool,
+    ) -> IntermediateTensors:
+        assert self.intermediate_tensors is not None
+
+        tp = self.vllm_config.parallel_config.tensor_parallel_size
+        is_rs = is_residual_scattered_for_sp(self.vllm_config, num_tokens)
+
+        # When sequence parallelism is enabled, the "residual" tensor is sharded
+        # across tensor parallel ranks, so each rank only needs its own slice.
+        if sync_self:
+            assert intermediate_tensors is not None
+            for k, v in intermediate_tensors.items():
+                is_scattered = k == "residual" and is_rs
+                copy_len = num_tokens // tp if is_scattered else num_tokens
+                if v is not None:
+                    self.intermediate_tensors[k][:copy_len].copy_(
+                        v[:copy_len], non_blocking=True)
+
+        return IntermediateTensors(
+            {
+                k: v[: num_tokens // tp]
+                if k == "residual" and is_rs
+                else v[:num_tokens]
+                for k, v in self.intermediate_tensors.items()
+            }
+        )
+
+    def eplb_step(self, is_dummy: bool = False, is_profile: bool = False) -> None:
+        """
+        Step for the EPLB (Expert Parallelism Load Balancing) state.
+        """
+        if not self.parallel_config.enable_eplb:
+            return
+
+        assert self.eplb_state is not None
+        model = self.get_model()
+        assert is_mixture_of_experts(model)
+        self.eplb_state.step(
+            is_dummy,
+            is_profile,
+            log_stats=self.parallel_config.eplb_config.log_balancedness,
+        )
+
+    # This is where the second ubatch is adjusted to account for the padding.
+    # Should be called after attention metadata creation. This just pads
+    # the second ubatch slice out to the total number of tokens
+    # (num_tokens + padding)
+    @staticmethod
+    def pad_out_ubatch_slice(ubatch_slices: UBatchSlices, num_total_tokens: int):
+        padded_second_ubatch_slice = slice(
+            ubatch_slices[1].token_slice.start, num_total_tokens
+        )
+        ubatch_slices[1] = UBatchSlice(
+            padded_second_ubatch_slice, padded_second_ubatch_slice
+        )
+
+    def _pool(
+        self,
+        hidden_states: torch.Tensor,
+        num_scheduled_tokens: int,
+        num_scheduled_tokens_np: np.ndarray,
+    ) -> ModelRunnerOutput:
+        assert self.input_batch.num_reqs == len(self.input_batch.pooling_params), (
+            "Either all or none of the requests in a batch must be pooling request"
+        )
+
+        hidden_states = hidden_states[:num_scheduled_tokens]
+        pooling_metadata = self.input_batch.get_pooling_metadata()
+        pooling_metadata.build_pooling_cursor(
+            num_scheduled_tokens_np.tolist(), device=hidden_states.device
+        )
+        seq_lens_cpu = self.seq_lens.cpu[: self.input_batch.num_reqs]
+
+        model = cast(VllmModelForPooling, self.model)
+        raw_pooler_output: PoolerOutput = model.pooler(
+            hidden_states=hidden_states,
+            pooling_metadata=pooling_metadata,
+        )
+        raw_pooler_output = json_map_leaves(
+            lambda x: x.to("cpu", non_blocking=True),
+            raw_pooler_output,
+        )
+        self._sync_device()
+
+        pooler_output: list[torch.Tensor | None] = []
+        for raw_output, seq_len, prompt_len in zip(
+            raw_pooler_output, seq_lens_cpu, pooling_metadata.prompt_lens
+        ):
+            output = raw_output if seq_len == prompt_len else None
+            pooler_output.append(output)
+
+        return ModelRunnerOutput(
+            req_ids=self.input_batch.req_ids,
+            req_id_to_index=self.input_batch.req_id_to_index,
+            sampled_token_ids=[],
+            logprobs=None,
+            prompt_logprobs_dict={},
+            pooler_output=pooler_output,
+        )
+
+    def _get_num_input_tokens(self, num_scheduled_tokens: int) -> int:
+        if (
+            self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+            and hasattr(self, "cudagraph_batch_sizes")
+            and self.cudagraph_batch_sizes
+            and num_scheduled_tokens <= self.cudagraph_batch_sizes[-1]
+        ):
+            # Use CUDA graphs.
+            # Add padding to the batch size.
+            return self.vllm_config.pad_for_cudagraph(num_scheduled_tokens)
+
+        # Eager mode.
+        # Pad tokens to multiple of tensor_parallel_size when
+        # enabled collective fusion for SP
+        tp_size = self.vllm_config.parallel_config.tensor_parallel_size
+        if (
+            self.compilation_config.pass_config.enable_sequence_parallelism
+            and tp_size > 1
+        ):
+            return round_up(num_scheduled_tokens, tp_size)
+        return num_scheduled_tokens
+
+    def _preprocess(
+        self,
+        scheduler_output: "SchedulerOutput",
+        num_input_tokens: int,  # Padded
+        intermediate_tensors: IntermediateTensors | None = None,
+    ) -> tuple[
+        torch.Tensor | None,
+        torch.Tensor | None,
+        torch.Tensor,
+        IntermediateTensors | None,
+        dict[str, Any],
+        ECConnectorOutput | None,
+    ]:
+        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        is_first_rank = get_pp_group().is_first_rank
+
+        # _prepare_inputs may reorder the batch, so we must gather multi
+        # modal outputs after that to ensure the correct order
+        ec_connector_output = None
+
+        if (
+            self.supports_mm_inputs
+            and is_first_rank
+            and not self.model_config.is_encoder_decoder
+        ):
+            # Run the multimodal encoder if any.
+            with self.maybe_get_ec_connector_output(
+                scheduler_output,
+                encoder_cache=self.encoder_cache,
+            ) as ec_connector_output:
+                self._execute_mm_encoder(scheduler_output)
+                mm_embeds, is_mm_embed = self._gather_mm_embeddings(scheduler_output)
+
+            # NOTE(woosuk): To unify token ids and soft tokens (vision
+            # embeddings), we always use embeddings (rather than token ids)
+            # as input to the multimodal model, even when the input is text.
+            inputs_embeds_scheduled = self.model.embed_input_ids(
+                self.input_ids.gpu[:num_scheduled_tokens],
+                multimodal_embeddings=mm_embeds,
+                is_multimodal=is_mm_embed,
+            )
+
+            # TODO(woosuk): Avoid the copy. Optimize.
+            self.inputs_embeds.gpu[:num_scheduled_tokens].copy_(inputs_embeds_scheduled)
+
+            input_ids = None
+            inputs_embeds = self.inputs_embeds.gpu[:num_input_tokens]
+            model_kwargs = {
+                **self._init_model_kwargs(num_scheduled_tokens),
+                **self._extract_mm_kwargs(scheduler_output),
+            }
+        elif self.enable_prompt_embeds and is_first_rank:
+            # Get the input embeddings for the tokens that are not input embeds,
+            # then put them into the appropriate positions.
+            # TODO(qthequartermasterman): Since even when prompt embeds are
+            # enabled, (a) not all requests will use prompt embeds, and (b)
+            # after the initial prompt is processed, the rest of the generated
+            # tokens will be token ids, it is not desirable to have the
+            # embedding layer outside of the CUDA graph all the time. The v0
+            # engine avoids this by "double compiling" the CUDA graph, once
+            # with input_ids and again with inputs_embeds, for all num_tokens.
+            # If a batch only has token ids, then including the embedding layer
+            # in the CUDA graph will be more performant (like in the else case
+            # below).
+            token_ids_idx = (
+                self.is_token_ids.gpu[:num_scheduled_tokens]
+                .nonzero(as_tuple=False)
+                .squeeze(1)
+            )
+            # Some tokens ids may need to become embeds
+            if token_ids_idx.numel() > 0:
+                token_ids = self.input_ids.gpu[token_ids_idx]
+                tokens_to_embeds = self.model.embed_input_ids(input_ids=token_ids)
+                self.inputs_embeds.gpu[token_ids_idx] = tokens_to_embeds
+
+            inputs_embeds = self.inputs_embeds.gpu[:num_input_tokens]
+            model_kwargs = self._init_model_kwargs(num_input_tokens)
+            input_ids = None
+        else:
+            # For text-only models, we use token ids as input.
+            # While it is possible to use embeddings as input just like the
+            # multimodal models, it is not desirable for performance since
+            # then the embedding layer is not included in the CUDA graph.
+            input_ids = self.input_ids.gpu[:num_input_tokens]
+            inputs_embeds = None
+            model_kwargs = self._init_model_kwargs(num_input_tokens)
+        if self.uses_mrope:
+            positions = self.mrope_positions.gpu[:, :num_input_tokens]
+        else:
+            positions = self.positions.gpu[:num_input_tokens]
+
+        if is_first_rank:
+            intermediate_tensors = None
+        else:
+            intermediate_tensors = self.sync_and_slice_intermediate_tensors(
+                num_input_tokens, intermediate_tensors, True
+            )
+
+        if (
+            self.model_config.is_encoder_decoder
+            and scheduler_output.scheduled_encoder_inputs
+        ):
+            encoder_inputs = self._extract_encoder_inputs(scheduler_output)
+            model_kwargs.update(encoder_inputs)
+
+        return (
+            input_ids,
+            inputs_embeds,
+            positions,
+            intermediate_tensors,
+            model_kwargs,
+            ec_connector_output,
+        )
+
+    def _sample(
+        self,
+        logits: torch.Tensor | None,
+        spec_decode_metadata: SpecDecodeMetadata | None,
+    ) -> SamplerOutput:
+        # Sample the next token and get logprobs if needed.
+        sampling_metadata = self.input_batch.sampling_metadata
+        if spec_decode_metadata is None:
+            # Update output token ids with tokens sampled in last step
+            # if async scheduling and required by current sampling params.
+            self.input_batch.update_async_output_token_ids()
+            return self.sampler(
+                logits=logits,
+                sampling_metadata=sampling_metadata,
+            )
+
+        sampler_output = self.rejection_sampler(
+            spec_decode_metadata,
+            None,  # draft_probs
+            logits,
+            sampling_metadata,
+        )
+        self._update_states_after_model_execute(sampler_output.sampled_token_ids)
+        return sampler_output
+
+    def _bookkeeping_sync(
+        self,
+        scheduler_output: "SchedulerOutput",
+        sampler_output: SamplerOutput,
+        logits: torch.Tensor | None,
+        hidden_states: torch.Tensor,
+        num_scheduled_tokens: int,
+        spec_decode_metadata: SpecDecodeMetadata | None,
+    ) -> tuple[
+        dict[str, int],
+        LogprobsLists | None,
+        list[np.ndarray],
+        dict[str, LogprobsTensors | None],
+        list[str],
+        dict[str, int],
+        list[int],
+    ]:
+        num_nans_in_logits = {}
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            num_nans_in_logits = self._get_nans_in_logits(logits)
+
+        discard_sampled_tokens_req_indices = self.discard_request_indices.np[
+            : self.num_discarded_requests
+        ]
+        for i in discard_sampled_tokens_req_indices:
+            gen = self.input_batch.generators.get(int(i))
+            if gen is not None:
+                gen.set_offset(gen.get_offset() - 4)
+
+        # Copy some objects so they don't get modified after returning.
+        # This is important when using async scheduling.
+        req_ids_output_copy = self.input_batch.req_ids.copy()
+        req_id_to_index_output_copy = self.input_batch.req_id_to_index.copy()
+
+        num_sampled_tokens = sampler_output.sampled_token_ids.shape[0]
+        sampled_token_ids = sampler_output.sampled_token_ids
+        invalid_req_indices = []
+        valid_sampled_token_ids: list[np.ndarray]
+        if not self.use_async_scheduling:
+            # Get the valid generated tokens.
+            max_gen_len = sampled_token_ids.shape[-1]
+            if max_gen_len == 1:
+                # No spec decode tokens.
+                valid_sampled_token_ids = self._to_list(sampled_token_ids)
+            else:
+                # Includes spec decode tokens.
+                valid_sampled_token_ids = self.rejection_sampler.parse_output(
+                    sampled_token_ids,
+                    self.input_batch.vocab_size,
+                )
+            # Mask out the sampled tokens that should not be sampled.
+            for i in discard_sampled_tokens_req_indices:
+                valid_sampled_token_ids[int(i)] = np.array([])
+        else:
+            valid_sampled_token_ids = []
+            invalid_req_indices = discard_sampled_tokens_req_indices.tolist()
+            invalid_req_indices_set = set(invalid_req_indices)
+
+            # Cache the sampled tokens on the GPU and avoid CPU sync.
+            # These will be copied into input_ids in the next step
+            # when preparing inputs.
+            # With spec decoding, this is done in propose_draft_token_ids().
+            if self.input_batch.prev_sampled_token_ids is None:
+                assert sampled_token_ids.shape[-1] == 1
+                self.input_batch.prev_sampled_token_ids = sampled_token_ids
+            self.input_batch.prev_req_id_to_index = {
+                req_id: i
+                for i, req_id in enumerate(self.input_batch.req_ids)
+                if i not in invalid_req_indices_set
+            }
+
+        # Cache the sampled tokens in the model runner, so that the scheduler
+        # doesn't need to send them back.
+        # NOTE(woosuk): As an exception, when using PP, the scheduler sends
+        # the sampled tokens back, because there's no direct communication
+        # between the first-stage worker and the last-stage worker.
+        req_ids = self.input_batch.req_ids
+        logprobs_tensors = sampler_output.logprobs_tensors
+        cu_num_accepted_tokens = (
+            [0] if spec_decode_metadata and logprobs_tensors else None
+        )
+        for req_idx in range(num_sampled_tokens):
+            sampled_ids: np.ndarray | None
+            if self.use_async_scheduling:
+                sampled_ids = (
+                    np.array([-1]) if req_idx not in invalid_req_indices_set else None
+                )
+            else:
+                sampled_ids = valid_sampled_token_ids[req_idx]
+
+            num_sampled_ids: int = (
+                sampled_ids.shape[0] if sampled_ids is not None else 0
+            )
+
+            if cu_num_accepted_tokens is not None:
+                cu_num_accepted_tokens.append(
+                    cu_num_accepted_tokens[-1] + num_sampled_ids
+                )
+
+            if sampled_ids is None or num_sampled_ids == 0:
+                continue
+
+            start_idx = self.input_batch.num_tokens_no_spec[req_idx]
+            end_idx = start_idx + num_sampled_ids
+            assert end_idx <= self.max_model_len, (
+                "Sampled token IDs exceed the max model length. "
+                f"Total number of tokens: {end_idx} > max_model_len: "
+                f"{self.max_model_len}"
+            )
+
+            self.input_batch.token_ids_cpu[req_idx, start_idx:end_idx] = sampled_ids
+            self.input_batch.is_token_ids[req_idx, start_idx:end_idx] = True
+            self.input_batch.num_tokens_no_spec[req_idx] = end_idx
+            self.input_batch.num_tokens[req_idx] = end_idx
+
+            req_id = req_ids[req_idx]
+            req_state = self.requests[req_id]
+            req_state.output_token_ids.extend(sampled_ids)
+
+        logprobs_lists = (
+            logprobs_tensors.tolists(cu_num_accepted_tokens)
+            if not self.use_async_scheduling and logprobs_tensors is not None
+            else None
+        )
+
+        # Compute prompt logprobs if needed.
+        prompt_logprobs_dict = self._get_prompt_logprobs_dict(
+            hidden_states[:num_scheduled_tokens],
+            scheduler_output.num_scheduled_tokens,
+        )
+
+        return (
+            num_nans_in_logits,
+            logprobs_lists,
+            valid_sampled_token_ids,
+            prompt_logprobs_dict,
+            req_ids_output_copy,
+            req_id_to_index_output_copy,
+            invalid_req_indices,
+        )
+
+    @contextmanager
+    def synchronize_input_prep(self):
+        if self.prepare_inputs_event is None:
+            yield
+            return
+
+        # Ensure prior step has finished with reused CPU tensors.
+        # This is required in the async scheduling case because
+        # the CPU->GPU transfer happens async.
+        self.prepare_inputs_event.synchronize()
+        try:
+            yield
+        finally:
+            self.prepare_inputs_event.record()
+
+    def _model_forward(
+        self,
+        input_ids: torch.Tensor | None = None,
+        positions: torch.Tensor | None = None,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **model_kwargs: dict[str, Any],
+    ) -> Any:
+        """Helper method to call the model forward pass.
+
+        This method can be overridden by subclasses for model execution.
+        Motivation: We can inspect only this method versus
+        the whole execute_model, which has additional logic.
+
+        Args:
+            input_ids: Input token IDs
+            positions: Token positions
+            intermediate_tensors: Tensors from previous pipeline stages
+            inputs_embeds: Input embeddings (alternative to input_ids)
+            **model_kwargs: Additional model arguments
+
+        Returns:
+            Model output tensor
+        """
+        return self.model(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+            **model_kwargs,
+        )
+
+    @torch.inference_mode()
+    def execute_model(
+        self,
+        scheduler_output: "SchedulerOutput",
+        intermediate_tensors: IntermediateTensors | None = None,
+    ) -> ModelRunnerOutput | IntermediateTensors | None:
+        if self.execute_model_state is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
+
+        # self._draft_token_ids is None when `input_fits_in_drafter=False`
+        # and there is no draft tokens scheduled. so it need to update the
+        # spec_decoding info in scheduler_output with async_scheduling.
+        # use deepcopy to avoid the modification has influence on the
+        # scheduler_output in engine core process.
+        # TODO(Ronald1995): deepcopy is expensive when there is a large
+        # number of requests, optimize it later.
+        if (
+            self.use_async_scheduling
+            and self.num_spec_tokens
+            and self._draft_token_ids is None
+        ):
+            scheduler_output = deepcopy(scheduler_output)
+
+        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        with record_function_or_nullcontext("gpu_model_runner: preprocess"):
+            with self.synchronize_input_prep():
+                # Update persistent batch states.
+                self._update_states(scheduler_output)
+
+                if has_ec_transfer() and get_ec_transfer().is_producer:
+                    with self.maybe_get_ec_connector_output(
+                        scheduler_output,
+                        encoder_cache=self.encoder_cache,
+                    ) as ec_connector_output:
+                        self._execute_mm_encoder(scheduler_output)
+                        return make_empty_encoder_model_runner_output(scheduler_output)
+
+                if not num_scheduled_tokens:
+                    if (
+                        self.parallel_config.distributed_executor_backend
+                        == "external_launcher"
+                        and self.parallel_config.data_parallel_size > 1
+                    ):
+                        # this is a corner case when both external launcher
+                        # and DP are enabled, num_scheduled_tokens could be
+                        # 0, and has_unfinished_requests in the outer loop
+                        # returns True. before returning early here we call
+                        # dummy run to ensure coordinate_batch_across_dp
+                        # is called into to avoid out of sync issues.
+                        self._dummy_run(1)
+                    if not has_kv_transfer_group():
+                        # Return empty ModelRunnerOutput if no work to do.
+                        return EMPTY_MODEL_RUNNER_OUTPUT
+                    return self.kv_connector_no_forward(
+                        scheduler_output, self.vllm_config
+                    )
+                if self.cache_config.kv_sharing_fast_prefill:
+                    assert not self.input_batch.num_prompt_logprobs, (
+                        "--kv-sharing-fast-prefill produces incorrect "
+                        "logprobs for prompt tokens, tokens, please disable "
+                        "it when the requests need prompt logprobs"
+                    )
+
+                num_reqs = self.input_batch.num_reqs
+                req_ids = self.input_batch.req_ids
+                tokens = [scheduler_output.num_scheduled_tokens[i] for i in req_ids]
+                num_scheduled_tokens_np = np.array(tokens, dtype=np.int32)
+                max_num_scheduled_tokens = int(num_scheduled_tokens_np.max())
+
+                (
+                    logits_indices,
+                    spec_decode_metadata,
+                    ubatch_slices,
+                    num_tokens_across_dp,
+                ) = self._prepare_inputs(
+                    scheduler_output, num_scheduled_tokens_np, max_num_scheduled_tokens
+                )
+
+                cascade_attn_prefix_lens = None
+                # Disable cascade attention when using microbatching (DBO)
+                if self.cascade_attn_enabled and ubatch_slices is None:
+                    # Pre-compute cascade attention prefix lengths
+                    # NOTE: Must be AFTER _prepare_inputs uses self.input_batch state
+                    cascade_attn_prefix_lens = self._compute_cascade_attn_prefix_lens(
+                        num_scheduled_tokens_np,
+                        scheduler_output.num_common_prefix_blocks,
+                    )
+
+                # TODO(lucas): move cudagraph dispatching here:
+                #   https://github.com/vllm-project/vllm/issues/23789
+
+                total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+                use_spec_decode = len(scheduler_output.scheduled_spec_decode_tokens) > 0
+                attn_metadata, spec_decode_common_attn_metadata = (
+                    self._build_attention_metadata(
+                        total_num_scheduled_tokens=total_num_scheduled_tokens,
+                        max_num_scheduled_tokens=max_num_scheduled_tokens,
+                        num_reqs=num_reqs,
+                        ubatch_slices=ubatch_slices,
+                        logits_indices=logits_indices,
+                        use_spec_decode=use_spec_decode,
+                        scheduled_encoder_inputs=scheduler_output.scheduled_encoder_inputs,
+                        cascade_attn_prefix_lens=cascade_attn_prefix_lens,
+                    )
+                )
+
+                dp_rank = self.parallel_config.data_parallel_rank
+                if ubatch_slices:
+                    assert num_tokens_across_dp is not None
+                    num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
+                    self.pad_out_ubatch_slice(ubatch_slices, num_input_tokens)
+                elif num_tokens_across_dp is not None:
+                    num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
+                else:
+                    num_input_tokens = self._get_num_input_tokens(
+                        scheduler_output.total_num_scheduled_tokens
+                    )
+
+                (
+                    input_ids,
+                    inputs_embeds,
+                    positions,
+                    intermediate_tensors,
+                    model_kwargs,
+                    ec_connector_output,
+                ) = self._preprocess(
+                    scheduler_output, num_input_tokens, intermediate_tensors
+                )
+
+            uniform_decode = (
+                max_num_scheduled_tokens == self.uniform_decode_query_len
+            ) and (num_scheduled_tokens == num_reqs * max_num_scheduled_tokens)
+            batch_descriptor = BatchDescriptor(
+                num_tokens=num_input_tokens,
+                uniform_decode=uniform_decode,
+                has_lora=len(self.input_batch.lora_id_to_lora_request) > 0,
+            )
+            cudagraph_runtime_mode, batch_descriptor = (
+                self.cudagraph_dispatcher.dispatch(
+                    batch_descriptor,
+                    use_cascade_attn=cascade_attn_prefix_lens is not None,
+                )
+            )
+
+        # Set cudagraph mode to none if calc_kv_scales is true.
+        # KV scales calculation involves dynamic operations that are incompatible
+        # with CUDA graph capture.
+        if self.calculate_kv_scales:
+            cudagraph_runtime_mode = CUDAGraphMode.NONE
+            # Mark KV scales as calculated after the first forward pass
+            self.calculate_kv_scales = False
+
+        # Run the model.
+        # Use persistent buffers for CUDA graphs.
+        with (
+            set_forward_context(
+                attn_metadata,
+                self.vllm_config,
+                num_tokens=num_input_tokens,
+                num_tokens_across_dp=num_tokens_across_dp,
+                cudagraph_runtime_mode=cudagraph_runtime_mode,
+                batch_descriptor=batch_descriptor,
+                ubatch_slices=ubatch_slices,
+            ),
+            record_function_or_nullcontext("gpu_model_runner: forward"),
+            self.maybe_get_kv_connector_output(scheduler_output) as kv_connector_output,
+        ):
+            model_output = self._model_forward(
+                input_ids=input_ids,
+                positions=positions,
+                intermediate_tensors=intermediate_tensors,
+                inputs_embeds=inputs_embeds,
+                **model_kwargs,
+            )
+
+        with record_function_or_nullcontext("gpu_model_runner: postprocess"):
+            if self.use_aux_hidden_state_outputs:
+                # True when EAGLE 3 is used.
+                hidden_states, aux_hidden_states = model_output
+            else:
+                # Common case.
+                hidden_states = model_output
+                aux_hidden_states = None
+
+            if not self.broadcast_pp_output:
+                # Common case.
+                if not get_pp_group().is_last_rank:
+                    # Return the intermediate tensors.
+                    assert isinstance(hidden_states, IntermediateTensors)
+                    hidden_states.kv_connector_output = kv_connector_output
+                    self.kv_connector_output = kv_connector_output
+                    return hidden_states
+
+                if self.is_pooling_model:
+                    # Return the pooling output.
+                    output = self._pool(
+                        hidden_states, num_scheduled_tokens, num_scheduled_tokens_np
+                    )
+                    output.kv_connector_output = kv_connector_output
+                    return output
+
+                sample_hidden_states = hidden_states[logits_indices]
+                logits = self.model.compute_logits(sample_hidden_states)
+            else:
+                # Rare case.
+                assert not self.is_pooling_model
+
+                sample_hidden_states = hidden_states[logits_indices]
+                if not get_pp_group().is_last_rank:
+                    all_gather_tensors = {
+                        "residual": not is_residual_scattered_for_sp(
+                            self.vllm_config, num_input_tokens
+                        )
+                    }
+                    get_pp_group().send_tensor_dict(
+                        hidden_states.tensors,
+                        all_gather_group=get_tp_group(),
+                        all_gather_tensors=all_gather_tensors,
+                    )
+                    logits = None
+                else:
+                    logits = self.model.compute_logits(sample_hidden_states)
+
+                model_output_broadcast_data = {}
+                if logits is not None:
+                    model_output_broadcast_data["logits"] = logits.contiguous()
+
+                model_output_broadcast_data = get_pp_group().broadcast_tensor_dict(
+                    model_output_broadcast_data, src=len(get_pp_group().ranks) - 1
+                )
+                assert model_output_broadcast_data is not None
+                logits = model_output_broadcast_data["logits"]
+
+        self.execute_model_state = ExecuteModelState(
+            scheduler_output,
+            logits,
+            spec_decode_metadata,
+            spec_decode_common_attn_metadata,
+            hidden_states,
+            sample_hidden_states,
+            aux_hidden_states,
+            ec_connector_output,
+        )
+        self.kv_connector_output = kv_connector_output
+        return None
+
+    @torch.inference_mode
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput | None"
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput | IntermediateTensors:
+        kv_connector_output = self.kv_connector_output
+        self.kv_connector_output = None
+
+        if self.execute_model_state is None:
+            # Nothing to do (PP non-final rank case), output isn't used.
+            if not kv_connector_output:
+                return None  # noqa
+
+            # In case of PP with kv transfer, we need to pass through the
+            # kv_connector_output
+            if kv_connector_output.is_empty():
+                return EMPTY_MODEL_RUNNER_OUTPUT
+
+            output = copy(EMPTY_MODEL_RUNNER_OUTPUT)
+            output.kv_connector_output = kv_connector_output
+            return output
+
+        # Unpack ephemeral state.
+        (
+            scheduler_output,
+            logits,
+            spec_decode_metadata,
+            spec_decode_common_attn_metadata,
+            hidden_states,
+            sample_hidden_states,
+            aux_hidden_states,
+            ec_connector_output,
+        ) = self.execute_model_state
+        # Clear ephemeral state.
+        self.execute_model_state = None
+
+        # Apply structured output bitmasks if present.
+        if grammar_output is not None:
+            apply_grammar_bitmask(
+                scheduler_output, grammar_output, self.input_batch, logits
+            )
+
+        with record_function_or_nullcontext("gpu_model_runner: sample"):
+            sampler_output = self._sample(logits, spec_decode_metadata)
+
+        self.input_batch.prev_sampled_token_ids = None
+
+        def propose_draft_token_ids(
+            sampled_token_ids: torch.Tensor | list[np.ndarray],
+        ) -> None:
+            assert spec_decode_common_attn_metadata is not None
+            with record_function_or_nullcontext("gpu_model_runner: draft"):
+                self._draft_token_ids = self.propose_draft_token_ids(
+                    scheduler_output,
+                    sampled_token_ids,
+                    self.input_batch.sampling_metadata,
+                    hidden_states,
+                    sample_hidden_states,
+                    aux_hidden_states,
+                    spec_decode_metadata,
+                    spec_decode_common_attn_metadata,
+                )
+
+        use_padded_batch_for_eagle = (
+            self.speculative_config
+            and self.speculative_config.use_eagle()
+            and not self.speculative_config.disable_padded_drafter_batch
+        )
+        effective_drafter_max_model_len = self.max_model_len
+        if effective_drafter_max_model_len is None:
+            effective_drafter_max_model_len = self.model_config.max_model_len
+        if (
+            self.speculative_config
+            and self.speculative_config.draft_model_config is not None
+            and self.speculative_config.draft_model_config.max_model_len is not None
+        ):
+            effective_drafter_max_model_len = (
+                self.speculative_config.draft_model_config.max_model_len
+            )
+        input_fits_in_drafter = spec_decode_common_attn_metadata and (
+            spec_decode_common_attn_metadata.max_seq_len + self.num_spec_tokens
+            <= effective_drafter_max_model_len
+        )
+        if use_padded_batch_for_eagle:
+            sampled_token_ids = sampler_output.sampled_token_ids
+            if input_fits_in_drafter:
+                # EAGLE speculative decoding can use the GPU sampled tokens
+                # as inputs, and does not need to wait for bookkeeping to finish.
+                propose_draft_token_ids(sampled_token_ids)
+            elif self.valid_sampled_token_count_event is not None:
+                next_token_ids, valid_sampled_tokens_count = (
+                    self.drafter.prepare_next_token_ids_padded(
+                        spec_decode_common_attn_metadata,
+                        sampled_token_ids,
+                        self.requests,
+                        self.input_batch,
+                        self.discard_request_indices.gpu,
+                        self.num_discarded_requests,
+                    )
+                )
+                self._copy_valid_sampled_token_count(
+                    next_token_ids, valid_sampled_tokens_count
+                )
+
+        with record_function_or_nullcontext("gpu_model_runner: bookkeep"):
+            (
+                num_nans_in_logits,
+                logprobs_lists,
+                valid_sampled_token_ids,
+                prompt_logprobs_dict,
+                req_ids_output_copy,
+                req_id_to_index_output_copy,
+                invalid_req_indices,
+            ) = self._bookkeeping_sync(
+                scheduler_output,
+                sampler_output,
+                logits,
+                hidden_states,
+                scheduler_output.total_num_scheduled_tokens,
+                spec_decode_metadata,
+            )
+
+        if (
+            self.speculative_config
+            and not use_padded_batch_for_eagle
+            and input_fits_in_drafter
+        ):
+            # ngram and other speculative decoding methods use the sampled
+            # tokens on the CPU, so they are run after bookkeeping.
+            propose_draft_token_ids(valid_sampled_token_ids)
+
+        with record_function_or_nullcontext("gpu_model_runner: eplb"):
+            self.eplb_step()
+        with record_function_or_nullcontext("gpu_model_runner: ModelRunnerOutput"):
+            output = ModelRunnerOutput(
+                req_ids=req_ids_output_copy,
+                req_id_to_index=req_id_to_index_output_copy,
+                sampled_token_ids=valid_sampled_token_ids,
+                logprobs=logprobs_lists,
+                prompt_logprobs_dict=prompt_logprobs_dict,
+                pooler_output=[],
+                kv_connector_output=kv_connector_output,
+                ec_connector_output=ec_connector_output
+                if self.supports_mm_inputs
+                else None,
+                num_nans_in_logits=num_nans_in_logits,
+            )
+
+        if not self.use_async_scheduling:
+            return output
+        with record_function_or_nullcontext(
+            "gpu_model_runner: AsyncGPUModelRunnerOutput"
+        ):
+            async_output = AsyncGPUModelRunnerOutput(
+                model_runner_output=output,
+                sampled_token_ids=sampler_output.sampled_token_ids,
+                logprobs_tensors=sampler_output.logprobs_tensors,
+                invalid_req_indices=invalid_req_indices,
+                async_output_copy_stream=self.async_output_copy_stream,
+                vocab_size=self.input_batch.vocab_size,
+            )
+        with record_function_or_nullcontext(
+            "gpu_model_runner: set_async_sampled_token_ids"
+        ):
+            # Save ref of sampled_token_ids CPU tensor if the batch contains
+            # any requests with sampling params that require output ids.
+            self.input_batch.set_async_sampled_token_ids(
+                async_output.sampled_token_ids_cpu,
+                async_output.async_copy_ready_event,
+            )
+
+        return async_output
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        if self._draft_token_ids is None:
+            return None
+        req_ids = self.input_batch.req_ids
+        if isinstance(self._draft_token_ids, torch.Tensor):
+            draft_token_ids = self._draft_token_ids.tolist()
+        else:
+            draft_token_ids = self._draft_token_ids
+        self._draft_token_ids = None
+        return DraftTokenIds(req_ids, draft_token_ids)
+
+    def _copy_valid_sampled_token_count(
+        self, next_token_ids: torch.Tensor, valid_sampled_tokens_count: torch.Tensor
+    ) -> None:
+        if self.valid_sampled_token_count_event is None:
+            return
+
+        default_stream = torch.cuda.current_stream()
+        # Initialize a new stream to overlap the copy operation with
+        # prepare_input of draft model.
+        with torch.cuda.stream(self.valid_sampled_token_count_copy_stream):
+            self.valid_sampled_token_count_copy_stream.wait_stream(default_stream)  # type: ignore
+            counts = valid_sampled_tokens_count
+            counts_cpu = self.valid_sampled_token_count_cpu
+            counts_cpu[: counts.shape[0]].copy_(counts, non_blocking=True)
+            self.valid_sampled_token_count_event.record()
+
+        self.input_batch.prev_sampled_token_ids = next_token_ids.unsqueeze(1)
+
+    def _get_valid_sampled_token_count(self) -> list[int]:
+        # Wait until valid_sampled_tokens_count is copied to cpu,
+        prev_sampled_token_ids = self.input_batch.prev_sampled_token_ids
+        if (
+            self.valid_sampled_token_count_event is None
+            or prev_sampled_token_ids is None
+        ):
+            return []
+
+        counts_cpu = self.valid_sampled_token_count_cpu
+        self.valid_sampled_token_count_event.synchronize()
+        return counts_cpu[: prev_sampled_token_ids.shape[0]].tolist()
+
+    def propose_draft_token_ids(
+        self,
+        scheduler_output: "SchedulerOutput",
+        sampled_token_ids: torch.Tensor | list[np.ndarray],
+        sampling_metadata: SamplingMetadata,
+        hidden_states: torch.Tensor,
+        sample_hidden_states: torch.Tensor,
+        aux_hidden_states: list[torch.Tensor] | None,
+        spec_decode_metadata: SpecDecodeMetadata | None,
+        common_attn_metadata: CommonAttentionMetadata,
+    ) -> torch.Tensor | list[list[int]]:
+        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        if self.speculative_config.method == "ngram":
+            assert isinstance(sampled_token_ids, list)
+            assert isinstance(self.drafter, NgramProposer)
+            draft_token_ids = self.drafter.propose(
+                sampled_token_ids,
+                self.input_batch.req_ids,
+                self.input_batch.num_tokens_no_spec,
+                self.input_batch.token_ids_cpu,
+                self.input_batch.spec_decode_unsupported_reqs,
+            )
+        elif self.speculative_config.method == "suffix":
+            assert isinstance(sampled_token_ids, list)
+            assert isinstance(self.drafter, SuffixDecodingProposer)
+            draft_token_ids = self.drafter.propose(self.input_batch, sampled_token_ids)
+        elif self.speculative_config.method == "medusa":
+            assert isinstance(sampled_token_ids, list)
+            assert isinstance(self.drafter, MedusaProposer)
+
+            if sample_hidden_states.shape[0] == len(sampled_token_ids):
+                # The input to the target model does not include draft tokens.
+                hidden_states = sample_hidden_states
+            else:
+                indices = []
+                offset = 0
+                assert spec_decode_metadata is not None, (
+                    "No spec decode metadata for medusa"
+                )
+                for num_draft, tokens in zip(
+                    spec_decode_metadata.num_draft_tokens, sampled_token_ids
+                ):
+                    indices.append(offset + tokens.shape[0] - 1)
+                    offset += num_draft + 1
+                indices = torch.tensor(indices, device=self.device)
+                hidden_states = sample_hidden_states[indices]
+
+            draft_token_ids = self.drafter.propose(
+                target_hidden_states=hidden_states,
+                sampling_metadata=sampling_metadata,
+            )
+        elif self.speculative_config.use_eagle():
+            assert isinstance(self.drafter, EagleProposer)
+
+            if self.speculative_config.disable_padded_drafter_batch:
+                # When padded-batch is disabled, the sampled_token_ids should be
+                # the cpu-side list[list[int]] of valid sampled tokens for each
+                # request, with invalid requests having empty lists.
+                assert isinstance(sampled_token_ids, list), (
+                    "sampled_token_ids should be a python list when"
+                    "padded-batch is disabled."
+                )
+                next_token_ids = self.drafter.prepare_next_token_ids_cpu(
+                    sampled_token_ids,
+                    self.requests,
+                    self.input_batch,
+                    scheduler_output.num_scheduled_tokens,
+                )
+            else:
+                # When using padded-batch, the sampled_token_ids should be
+                # the gpu tensor of sampled tokens for each request, of shape
+                # (num_reqs, num_spec_tokens + 1) with rejected tokens having
+                # value -1.
+                assert isinstance(sampled_token_ids, torch.Tensor), (
+                    "sampled_token_ids should be a torch.Tensor when"
+                    "padded-batch is enabled."
+                )
+                next_token_ids, valid_sampled_tokens_count = (
+                    self.drafter.prepare_next_token_ids_padded(
+                        common_attn_metadata,
+                        sampled_token_ids,
+                        self.requests,
+                        self.input_batch,
+                        self.discard_request_indices.gpu,
+                        self.num_discarded_requests,
+                    )
+                )
+                self._copy_valid_sampled_token_count(
+                    next_token_ids, valid_sampled_tokens_count
+                )
+
+            if spec_decode_metadata is None:
+                token_indices_to_sample = None
+                # input_ids can be None for multimodal models.
+                target_token_ids = self.input_ids.gpu[:num_scheduled_tokens]
+                target_positions = self._get_positions(num_scheduled_tokens)
+                if self.use_aux_hidden_state_outputs:
+                    assert aux_hidden_states is not None
+                    target_hidden_states = torch.cat(
+                        [h[:num_scheduled_tokens] for h in aux_hidden_states], dim=-1
+                    )
+                else:
+                    target_hidden_states = hidden_states[:num_scheduled_tokens]
+            else:
+                if self.speculative_config.disable_padded_drafter_batch:
+                    token_indices_to_sample = None
+                    common_attn_metadata, token_indices = self.drafter.prepare_inputs(
+                        common_attn_metadata,
+                        sampled_token_ids,
+                        spec_decode_metadata.num_draft_tokens,
+                    )
+                else:
+                    common_attn_metadata, token_indices, token_indices_to_sample = (
+                        self.drafter.prepare_inputs_padded(
+                            common_attn_metadata,
+                            spec_decode_metadata,
+                            valid_sampled_tokens_count,
+                        )
+                    )
+
+                target_token_ids = self.input_ids.gpu[token_indices]
+                target_positions = self._get_positions(token_indices)
+                if self.use_aux_hidden_state_outputs:
+                    assert aux_hidden_states is not None
+                    target_hidden_states = torch.cat(
+                        [h[token_indices] for h in aux_hidden_states], dim=-1
+                    )
+                else:
+                    target_hidden_states = hidden_states[token_indices]
+
+            if self.supports_mm_inputs:
+                mm_embed_inputs = self._gather_mm_embeddings(
+                    scheduler_output,
+                    shift_computed_tokens=1,
+                )
+            else:
+                mm_embed_inputs = None
+
+            draft_token_ids = self.drafter.propose(
+                target_token_ids=target_token_ids,
+                target_positions=target_positions,
+                target_hidden_states=target_hidden_states,
+                next_token_ids=next_token_ids,
+                last_token_indices=token_indices_to_sample,
+                sampling_metadata=sampling_metadata,
+                common_attn_metadata=common_attn_metadata,
+                mm_embed_inputs=mm_embed_inputs,
+            )
+
+        return draft_token_ids
+
+    def update_config(self, overrides: dict[str, Any]) -> None:
+        allowed_config_names = {"load_config", "model_config"}
+        for config_name, config_overrides in overrides.items():
+            assert config_name in allowed_config_names, (
+                f"Config `{config_name}` not supported. "
+                f"Allowed configs: {allowed_config_names}"
+            )
+            config = getattr(self, config_name)
+            new_config = update_config(config, config_overrides)
+            setattr(self, config_name, new_config)
+
+    def load_model(self, eep_scale_up: bool = False) -> None:
+        """
+        Args:
+            eep_scale_up: the model loading is for elastic EP scale up.
+        """
+        logger.info_once(
+            "Starting to load model %s...",
+            self.model_config.model,
+            scope="global",
+        )
+        global_expert_loads, old_global_expert_indices_per_model, rank_mapping = (
+            EplbState.get_eep_state(self.parallel_config)
+            if eep_scale_up
+            else (None, None, None)
+        )
+
+        if self.parallel_config.enable_eplb:
+            self.eplb_state = EplbState(self.parallel_config, self.device)
+            eplb_models = 0
+        with DeviceMemoryProfiler() as m:
+            time_before_load = time.perf_counter()
+            model_loader = get_model_loader(self.load_config)
+            self.model = model_loader.load_model(
+                vllm_config=self.vllm_config, model_config=self.model_config
+            )
+            if self.lora_config:
+                self.model = self.load_lora_model(
+                    self.model, self.vllm_config, self.device
+                )
+            if hasattr(self, "drafter"):
+                logger.info_once("Loading drafter model...")
+                self.drafter.load_model(self.model)
+                if (
+                    hasattr(self.drafter, "model")
+                    and is_mixture_of_experts(self.drafter.model)
+                    and self.parallel_config.enable_eplb
+                ):
+                    logger.info_once(
+                        "EPLB is enabled for drafter model %s.",
+                        self.vllm_config.speculative_config.draft_model_config.model,
+                    )
+
+                    global_expert_load = (
+                        global_expert_loads[eplb_models]
+                        if global_expert_loads
+                        else None
+                    )
+                    old_global_expert_indices = (
+                        old_global_expert_indices_per_model[eplb_models]
+                        if old_global_expert_indices_per_model
+                        else None
+                    )
+                    if self.eplb_state is None:
+                        self.eplb_state = EplbState(self.parallel_config, self.device)
+                    self.eplb_state.add_model(
+                        self.drafter.model,
+                        self.vllm_config.speculative_config.draft_model_config,
+                        global_expert_load,
+                        old_global_expert_indices,
+                        rank_mapping,
+                    )
+                    eplb_models += 1
+
+            if self.use_aux_hidden_state_outputs:
+                if not supports_eagle3(self.get_model()):
+                    raise RuntimeError(
+                        "Model does not support EAGLE3 interface but "
+                        "aux_hidden_state_outputs was requested"
+                    )
+
+                # Try to get auxiliary layers from speculative config,
+                # otherwise use model's default layers
+                aux_layers = self._get_eagle3_aux_layers_from_config()
+                if aux_layers:
+                    logger.info(
+                        "Using auxiliary layers from speculative config: %s",
+                        aux_layers,
+                    )
+                else:
+                    aux_layers = self.model.get_eagle3_aux_hidden_state_layers()
+
+                self.model.set_aux_hidden_state_layers(aux_layers)
+            time_after_load = time.perf_counter()
+        self.model_memory_usage = m.consumed_memory
+        logger.info_once(
+            "Model loading took %.4f GiB memory and %.6f seconds",
+            self.model_memory_usage / GiB_bytes,
+            time_after_load - time_before_load,
+            scope="local",
+        )
+        prepare_communication_buffer_for_model(self.model)
+        self.is_multimodal_pruning_enabled = (
+            supports_multimodal_pruning(self.get_model())
+            and self.model_config.multimodal_config.is_multimodal_pruning_enabled()
+        )
+
+        if is_mixture_of_experts(self.model) and self.parallel_config.enable_eplb:
+            logger.info_once("EPLB is enabled for model %s.", self.model_config.model)
+            global_expert_load = (
+                global_expert_loads[eplb_models] if global_expert_loads else None
+            )
+            old_global_expert_indices = (
+                old_global_expert_indices_per_model[eplb_models]
+                if old_global_expert_indices_per_model
+                else None
+            )
+            assert self.eplb_state is not None
+            self.eplb_state.add_model(
+                self.model,
+                self.model_config,
+                global_expert_load,
+                old_global_expert_indices,
+                rank_mapping,
+            )
+
+        if (
+            self.vllm_config.compilation_config.mode
+            == CompilationMode.STOCK_TORCH_COMPILE
+            and supports_dynamo()
+        ):
+            backend = self.vllm_config.compilation_config.init_backend(self.vllm_config)
+            compilation_counter.stock_torch_compile_count += 1
+            self.model.compile(fullgraph=True, backend=backend)
+            return
+        # for other compilation modes, cudagraph behavior is controlled by
+        # CudagraphWraper and CudagraphDispatcher of vllm.
+
+        # wrap the model with full cudagraph wrapper if needed.
+        if (
+            self.compilation_config.cudagraph_mode.has_full_cudagraphs()
+            and not self.parallel_config.enable_dbo
+        ):
+            self.model = CUDAGraphWrapper(
+                self.model, self.vllm_config, runtime_mode=CUDAGraphMode.FULL
+            )
+        elif self.parallel_config.enable_dbo:
+            if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+                self.model = UBatchWrapper(
+                    self.model, self.vllm_config, CUDAGraphMode.FULL, self.device
+                )
+            else:
+                self.model = UBatchWrapper(
+                    self.model, self.vllm_config, CUDAGraphMode.NONE, self.device
+                )
+
+    def _get_eagle3_aux_layers_from_config(self) -> tuple[int, ...] | None:
+        """Extract Eagle3 auxiliary layer indices from speculative config.
+
+        These indices specify which hidden states from the base model should
+        be used as auxiliary inputs for the Eagle3 drafter model during
+        speculative decoding.
+
+        Returns:
+            Tuple of layer indices if found in draft model config,
+            None otherwise.
+        """
+        if not (self.speculative_config and self.speculative_config.draft_model_config):
+            return None
+
+        hf_config = self.speculative_config.draft_model_config.hf_config
+        if not hasattr(hf_config, "eagle_aux_hidden_state_layer_ids"):
+            return None
+
+        layer_ids = hf_config.eagle_aux_hidden_state_layer_ids
+        if layer_ids and isinstance(layer_ids, (list, tuple)):
+            return tuple(layer_ids)
+
+        return None
+
+    def reload_weights(self) -> None:
+        assert getattr(self, "model", None) is not None, (
+            "Cannot reload weights before model is loaded."
+        )
+        model_loader = get_model_loader(self.load_config)
+        logger.info("Reloading weights inplace...")
+        model_loader.load_weights(self.get_model(), model_config=self.model_config)
+
+    def save_tensorized_model(
+        self,
+        tensorizer_config: "TensorizerConfig",
+    ) -> None:
+        TensorizerLoader.save_model(
+            self.get_model(),
+            tensorizer_config=tensorizer_config,
+            model_config=self.model_config,
+        )
+
+    def _get_prompt_logprobs_dict(
+        self,
+        hidden_states: torch.Tensor,
+        num_scheduled_tokens: dict[str, int],
+    ) -> dict[str, LogprobsTensors | None]:
+        num_prompt_logprobs_dict = self.input_batch.num_prompt_logprobs
+        if not num_prompt_logprobs_dict:
+            return {}
+
+        in_progress_dict = self.input_batch.in_progress_prompt_logprobs_cpu
+        prompt_logprobs_dict: dict[str, LogprobsTensors | None] = {}
+
+        # Since prompt logprobs are a rare feature, prioritize simple,
+        # maintainable loop over optimal performance.
+        completed_prefill_reqs = []
+        for req_id, num_prompt_logprobs in num_prompt_logprobs_dict.items():
+            num_tokens = num_scheduled_tokens[req_id]
+
+            # Get metadata for this request.
+            request = self.requests[req_id]
+            if request.prompt_token_ids is None:
+                # Prompt logprobs is incompatible with prompt embeddings
+                continue
+
+            num_prompt_tokens = len(request.prompt_token_ids)
+            prompt_token_ids = torch.tensor(request.prompt_token_ids).to(
+                self.device, non_blocking=True
+            )
+
+            # Set up target LogprobsTensors object.
+            logprobs_tensors = in_progress_dict.get(req_id)
+            if not logprobs_tensors:
+                # Create empty logprobs CPU tensors for the entire prompt.
+                # If chunked, we'll copy in slice by slice.
+                logprobs_tensors = LogprobsTensors.empty_cpu(
+                    num_prompt_tokens - 1, num_prompt_logprobs + 1
+                )
+                in_progress_dict[req_id] = logprobs_tensors
+
+            # Determine number of logits to retrieve.
+            start_idx = request.num_computed_tokens
+            start_tok = start_idx + 1
+            num_remaining_tokens = num_prompt_tokens - start_tok
+            if num_tokens <= num_remaining_tokens:
+                # This is a chunk, more tokens remain.
+                # In the == case, there are no more prompt logprobs to produce
+                # but we want to defer returning them to the next step where we
+                # have new generated tokens to return.
+                num_logits = num_tokens
+            else:
+                # This is the last chunk of prompt tokens to return.
+                num_logits = num_remaining_tokens
+                completed_prefill_reqs.append(req_id)
+                prompt_logprobs_dict[req_id] = logprobs_tensors
+
+            if num_logits <= 0:
+                # This can happen for the final chunk if we prefilled exactly
+                # (num_prompt_tokens - 1) tokens for this request in the prior
+                # step. There are no more prompt logprobs to produce.
+                continue
+
+            # Get the logits corresponding to this req's prompt tokens.
+            # If this is a partial request (i.e. chunked prefill),
+            # then there is prompt logprob generated for each index.
+            req_idx = self.input_batch.req_id_to_index[req_id]
+            offset = self.query_start_loc.np[req_idx].item()
+            prompt_hidden_states = hidden_states[offset : offset + num_logits]
+            logits = self.model.compute_logits(prompt_hidden_states)
+
+            # Get the "target" tokens for each index. For prompt at index i,
+            # the token at prompt index i+1 is the "sampled" token we want
+            # to gather the logprob for.
+            tgt_token_ids = prompt_token_ids[start_tok : start_tok + num_logits]
+
+            # Compute prompt logprobs.
+            logprobs = self.sampler.compute_logprobs(logits)
+            token_ids, logprobs, ranks = self.sampler.gather_logprobs(
+                logprobs, num_prompt_logprobs, tgt_token_ids
+            )
+
+            # Transfer GPU->CPU async.
+            chunk_slice = slice(start_idx, start_idx + num_logits)
+            logprobs_tensors.logprob_token_ids[chunk_slice].copy_(
+                token_ids, non_blocking=True
+            )
+            logprobs_tensors.logprobs[chunk_slice].copy_(logprobs, non_blocking=True)
+            logprobs_tensors.selected_token_ranks[chunk_slice].copy_(
+                ranks, non_blocking=True
+            )
+
+        # Remove requests that have completed prefill from the batch
+        # num_prompt_logprobs_dict.
+        for req_id in completed_prefill_reqs:
+            del num_prompt_logprobs_dict[req_id]
+            del in_progress_dict[req_id]
+
+        # Must synchronize the non-blocking GPU->CPU transfers.
+        if prompt_logprobs_dict:
+            self._sync_device()
+
+        return prompt_logprobs_dict
+
+    def _get_nans_in_logits(
+        self,
+        logits: torch.Tensor | None,
+    ) -> dict[str, int]:
+        try:
+            if logits is None:
+                return {req_id: 0 for req_id in self.input_batch.req_ids}
+
+            num_nans_in_logits = {}
+            num_nans_for_index = logits.isnan().sum(dim=-1).cpu().numpy()
+            for req_id in self.input_batch.req_ids:
+                req_index = self.input_batch.req_id_to_index[req_id]
+                num_nans_in_logits[req_id] = (
+                    int(num_nans_for_index[req_index])
+                    if num_nans_for_index is not None and req_index < logits.shape[0]
+                    else 0
+                )
+            return num_nans_in_logits
+        except IndexError:
+            return {}
+
+    @contextmanager
+    def maybe_randomize_inputs(self, input_ids: torch.Tensor):
+        """
+        Randomize input_ids if VLLM_RANDOMIZE_DP_DUMMY_INPUTS is set.
+        This is to help balance expert-selection
+         - during profile_run
+         - during DP rank dummy run
+        """
+        dp_size = self.vllm_config.parallel_config.data_parallel_size
+        randomize_inputs = envs.VLLM_RANDOMIZE_DP_DUMMY_INPUTS and dp_size > 1
+        if not randomize_inputs:
+            yield
+        else:
+            import functools
+
+            @functools.cache
+            def rand_input_ids() -> torch.Tensor:
+                return torch.randint_like(
+                    self.input_ids.gpu,
+                    low=0,
+                    high=self.model_config.get_vocab_size(),
+                    dtype=input_ids.dtype,
+                )
+
+            logger.debug_once("Randomizing dummy data for DP Rank")
+            input_ids.copy_(rand_input_ids()[: input_ids.size(0)], non_blocking=True)
+            yield
+            input_ids.fill_(0)
+
+    def _get_mm_dummy_batch(
+        self,
+        modality: str,
+        max_items_per_batch: int,
+    ) -> BatchedTensorInputs:
+        """Dummy data for profiling and precompiling multimodal models."""
+        assert self.mm_budget is not None
+
+        dummy_decoder_data = self.mm_registry.get_decoder_dummy_data(
+            model_config=self.model_config,
+            seq_len=self.max_model_len,
+            mm_counts={modality: 1},
+            cache=self.mm_budget.cache,
+        )
+        dummy_mm_data = dummy_decoder_data.multi_modal_data
+
+        # Result in the maximum GPU consumption of the model
+        dummy_mm_item = dummy_mm_data[modality][0]
+        dummy_mm_items = [dummy_mm_item] * max_items_per_batch
+
+        model = cast(SupportsMultiModal, self.model)
+        return next(
+            mm_kwargs_group
+            for _, _, mm_kwargs_group in group_mm_kwargs_by_modality(
+                dummy_mm_items,
+                device=self.device,
+                pin_memory=self.pin_memory,
+                merge_by_field_config=model.merge_by_field_config,
+                multimodal_cpu_fields=model.multimodal_cpu_fields,
+            )
+        )
+
+    @torch.inference_mode()
+    def _dummy_run(
+        self,
+        num_tokens: int,
+        cudagraph_runtime_mode: CUDAGraphMode | None = None,
+        force_attention: bool = False,
+        uniform_decode: bool = False,
+        allow_microbatching: bool = True,
+        skip_eplb: bool = False,
+        is_profile: bool = False,
+        create_mixed_batch: bool = False,
+        remove_lora: bool = True,
+        activate_lora: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Run a dummy forward pass to warm up/profile run or capture the
+        CUDA graph for the model.
+
+        Args:
+            num_tokens: Number of tokens to run the dummy forward pass.
+            cudagraph_runtime_mode: used to control the behavior.
+                - if not set will determine the cudagraph mode based on using
+                    the self.cudagraph_dispatcher.
+                - CUDAGraphMode.NONE: No cudagraph, for warm up and profile run
+                - CUDAGraphMode.PIECEWISE: Piecewise cudagraph.
+                - CUDAGraphMode.FULL: Full cudagraph, attention metadata is
+                    needed.
+            force_attention: If True, always create attention metadata. Used to
+                warm up attention backend when mode is NONE.
+            uniform_decode: If True, the batch is a uniform decode batch.
+            skip_eplb: If True, skip EPLB state update.
+            is_profile: If True, this is a profile run.
+            create_mixed_batch: If True, create a mixed batch with both decode
+                (1 token) and prefill (multiple tokens) requests.
+            remove_lora: If False, dummy LoRAs are not destroyed after the run
+            activate_lora: If False, dummy_run is performed without LoRAs.
+        """
+        assert (
+            cudagraph_runtime_mode is None
+            or cudagraph_runtime_mode.valid_runtime_modes()
+        )
+
+        # If cudagraph_mode.decode_mode() == FULL and
+        # cudagraph_mode.separate_routine(). This means that we are using
+        # different graphs and/or modes for mixed prefill-decode batches vs.
+        # uniform decode batches. A uniform decode batch means that all
+        # requests have identical query length, except a potential virtual
+        # request (shorter) in the batch account for padding.
+        # Uniform decode batch could either be common pure decode, where
+        # max_query_len == 1, or speculative decode, where
+        # max_query_len == 1 + num_spec_decode_tokens.
+
+        # When setting max_query_len = 1, we switch to and capture the optimized
+        # routine of FA2 for pure decode, i.e., Flashdecode + an optimization
+        # for GQA/MQA.
+        max_query_len = self.uniform_decode_query_len if uniform_decode else num_tokens
+
+        # Set num_scheduled_tokens based on num_tokens and max_num_seqs
+        # for dummy run with LoRA so that the num_reqs collectively
+        # has num_tokens in total.
+        assert num_tokens <= self.scheduler_config.max_num_batched_tokens
+        max_num_reqs = self.scheduler_config.max_num_seqs
+        if create_mixed_batch:
+            assert not uniform_decode
+            # Create mixed batch:
+            # first half decode tokens, second half one prefill
+            num_decode_tokens = min(max_num_reqs - 1, num_tokens // 2)
+            num_prefill_tokens = num_tokens - num_decode_tokens
+            num_reqs = num_decode_tokens + 1
+
+            # Create decode requests (1 token each) followed by prefill request
+            num_scheduled_tokens_list = [1] * num_decode_tokens + [num_prefill_tokens]
+            # Note: Overriding max_query_len to be the prefill tokens
+            max_query_len = num_prefill_tokens
+        elif uniform_decode:
+            assert not create_mixed_batch
+            num_reqs = min(max_num_reqs, cdiv(num_tokens, max_query_len))
+            num_scheduled_tokens_list = [max_query_len] * num_reqs
+            if num_tokens % max_query_len != 0:
+                num_scheduled_tokens_list[-1] = num_tokens % max_query_len
+        else:
+            num_reqs = min(num_tokens, max_num_reqs)
+            min_tokens_per_req = num_tokens // num_reqs
+            num_scheduled_tokens_list = [min_tokens_per_req] * num_reqs
+            num_scheduled_tokens_list[-1] += num_tokens % num_reqs
+
+        assert sum(num_scheduled_tokens_list) == num_tokens
+        assert len(num_scheduled_tokens_list) == num_reqs
+        num_scheduled_tokens = np.array(num_scheduled_tokens_list, dtype=np.int32)
+        total_num_scheduled_tokens = int(num_scheduled_tokens.sum())
+        num_sampled_tokens = np.ones(num_reqs, dtype=np.int32)
+
+        # Disable DP padding when running eager
+        allow_dp_padding = self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+
+        # We currently only microbatch if the number of tokens is
+        # over a certain threshold.
+        ubatch_slices, num_tokens_across_dp = coordinate_batch_across_dp(
+            num_tokens_unpadded=total_num_scheduled_tokens,
+            parallel_config=self.vllm_config.parallel_config,
+            allow_microbatching=allow_microbatching,
+            allow_dp_padding=allow_dp_padding,
+            num_tokens_padded=total_num_scheduled_tokens,
+            uniform_decode=uniform_decode,
+            num_scheduled_tokens_per_request=num_scheduled_tokens,
+        )
+        num_tokens_after_padding = num_tokens
+        if num_tokens_across_dp is not None:
+            dp_rank = self.parallel_config.data_parallel_rank
+            num_tokens_after_padding = int(num_tokens_across_dp[dp_rank])
+
+        attn_metadata: PerLayerAttnMetadata | None = None
+
+        # If force_attention is True, we always capture attention. Otherwise,
+        # it only happens for cudagraph_runtime_mode=FULL.
+        if force_attention or cudagraph_runtime_mode == CUDAGraphMode.FULL:
+            if create_mixed_batch:
+                # In the mixed batch mode (used for FI warmup), we use
+                # shorter sequence lengths to run faster.
+                # TODO(luka) better system for describing dummy batches
+                seq_lens = [1] * num_decode_tokens + [num_prefill_tokens + 1]
+            else:
+                seq_lens = self.max_model_len  # type: ignore[assignment]
+            self.seq_lens.np[:num_reqs] = seq_lens
+            self.seq_lens.np[num_reqs:] = 0
+            self.seq_lens.copy_to_gpu()
+
+            cum_num_tokens, _ = self._get_cumsum_and_arange(num_scheduled_tokens)
+            self.query_start_loc.np[1 : num_reqs + 1] = cum_num_tokens
+            self.query_start_loc.copy_to_gpu()
+
+            attn_metadata, _ = self._build_attention_metadata(
+                total_num_scheduled_tokens=num_tokens,
+                max_num_scheduled_tokens=max_query_len,
+                num_reqs=num_reqs,
+                ubatch_slices=ubatch_slices,
+                for_cudagraph_capture=True,
+            )
+
+        with self.maybe_dummy_run_with_lora(
+            self.lora_config,
+            num_scheduled_tokens,
+            num_sampled_tokens,
+            activate_lora,
+            remove_lora,
+        ):
+            # Make sure padding doesn't exceed max_num_tokens
+            assert num_tokens_after_padding <= self.max_num_tokens
+            model_kwargs = self._init_model_kwargs(num_tokens_after_padding)
+            if self.supports_mm_inputs and not self.model_config.is_encoder_decoder:
+                input_ids = None
+                inputs_embeds = self.inputs_embeds.gpu[:num_tokens_after_padding]
+                model_kwargs = {
+                    **model_kwargs,
+                    **self._dummy_mm_kwargs(num_reqs),
+                }
+            elif self.enable_prompt_embeds:
+                input_ids = None
+                inputs_embeds = self.inputs_embeds.gpu[:num_tokens_after_padding]
+                model_kwargs = self._init_model_kwargs(num_tokens_after_padding)
+            else:
+                input_ids = self.input_ids.gpu[:num_tokens_after_padding]
+                inputs_embeds = None
+
+            if self.uses_mrope:
+                positions = self.mrope_positions.gpu[:, :num_tokens_after_padding]
+            else:
+                positions = self.positions.gpu[:num_tokens_after_padding]
+
+            if get_pp_group().is_first_rank:
+                intermediate_tensors = None
+            else:
+                if self.intermediate_tensors is None:
+                    self.intermediate_tensors = (
+                        self.model.make_empty_intermediate_tensors(
+                            batch_size=self.max_num_tokens,
+                            dtype=self.model_config.dtype,
+                            device=self.device,
+                        )
+                    )
+
+                intermediate_tensors = self.sync_and_slice_intermediate_tensors(
+                    num_tokens_after_padding, None, False
+                )
+
+            # filter out the valid batch descriptor
+            _cg_mode, batch_descriptor = (
+                self.cudagraph_dispatcher.dispatch(
+                    BatchDescriptor(
+                        num_tokens=num_tokens_after_padding,
+                        uniform_decode=uniform_decode,
+                        has_lora=activate_lora and self.lora_config is not None,
+                    )
+                )
+                if not is_profile
+                else (CUDAGraphMode.NONE, None)
+            )
+            if cudagraph_runtime_mode is not None:
+                # we allow forcing NONE when the dispatcher disagrees to support
+                # warm ups for cudagraph capture
+                assert (
+                    cudagraph_runtime_mode == CUDAGraphMode.NONE
+                    or cudagraph_runtime_mode == _cg_mode
+                ), (
+                    f"Cudagraph runtime mode mismatch at dummy_run. "
+                    f"Expected {_cg_mode}, but got {cudagraph_runtime_mode}."
+                )
+            else:
+                cudagraph_runtime_mode = _cg_mode
+
+            if ubatch_slices is not None:
+                # Adjust values to reflect a single ubatch.
+                # TODO(sage,lucas): this is cruft that should be addressed in
+                #  the padding refactor.
+                num_tokens_after_padding = ubatch_slices[0].num_tokens
+                if num_tokens_across_dp is not None:
+                    num_tokens_across_dp[:] = num_tokens_after_padding
+
+            with (
+                self.maybe_randomize_inputs(input_ids),
+                set_forward_context(
+                    attn_metadata,
+                    self.vllm_config,
+                    num_tokens=num_tokens_after_padding,
+                    num_tokens_across_dp=num_tokens_across_dp,
+                    cudagraph_runtime_mode=cudagraph_runtime_mode,
+                    batch_descriptor=batch_descriptor,
+                    ubatch_slices=ubatch_slices,
+                ),
+            ):
+                outputs = self.model(
+                    input_ids=input_ids,
+                    positions=positions,
+                    intermediate_tensors=intermediate_tensors,
+                    inputs_embeds=inputs_embeds,
+                    **model_kwargs,
+                )
+
+            if self.use_aux_hidden_state_outputs:
+                hidden_states, _ = outputs
+            else:
+                hidden_states = outputs
+
+            if self.speculative_config and self.speculative_config.use_eagle():
+                assert isinstance(self.drafter, EagleProposer)
+                use_cudagraphs = (
+                    cudagraph_runtime_mode == CUDAGraphMode.PIECEWISE
+                    and not self.speculative_config.enforce_eager
+                )
+
+                # Note(gnovack) - We need to disable cudagraphs for one of the two
+                # lora cases when cudagraph_specialize_lora is enabled. This is a
+                # short term mitigation for issue mentioned in
+                # https://github.com/vllm-project/vllm/issues/28334
+                if self.compilation_config.cudagraph_specialize_lora and activate_lora:
+                    use_cudagraphs = False
+
+                self.drafter.dummy_run(
+                    num_tokens,
+                    use_cudagraphs=use_cudagraphs,
+                )
+
+        # This is necessary to avoid blocking DP.
+        # For dummy runs, we typically skip EPLB since we don't have any real
+        # requests to process.
+        # However, in DP settings, there may be cases when some DP ranks do
+        # not have any requests to process, so they're executing dummy batches.
+        # In such cases, we still have to trigger EPLB to make sure
+        # ranks execute the rearrangement in synchronization.
+        if not skip_eplb:
+            self.eplb_step(is_dummy=True, is_profile=is_profile)
+
+        logit_indices = np.cumsum(num_scheduled_tokens) - 1
+        logit_indices_device = torch.from_numpy(logit_indices).to(
+            self.device, non_blocking=True
+        )
+        return hidden_states, hidden_states[logit_indices_device]
+
+    @torch.inference_mode()
+    def _dummy_sampler_run(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # The dummy hidden states may contain special values,
+        # like `inf` or `nan`.
+        # To avoid breaking the sampler, we use a random tensor here instead.
+        hidden_states = torch.rand_like(hidden_states)
+
+        logits = self.model.compute_logits(hidden_states)
+        num_reqs = logits.size(0)
+
+        dummy_tensors = lambda v: torch.full((num_reqs,), v, device=self.device)
+
+        dummy_metadata = SamplingMetadata(
+            temperature=dummy_tensors(0.5),
+            all_greedy=False,
+            all_random=False,
+            top_p=dummy_tensors(0.9),
+            top_k=dummy_tensors(logits.size(1) - 1),
+            generators={},
+            max_num_logprobs=None,
+            no_penalties=True,
+            prompt_token_ids=None,
+            frequency_penalties=dummy_tensors(0.1),
+            presence_penalties=dummy_tensors(0.1),
+            repetition_penalties=dummy_tensors(0.1),
+            output_token_ids=[[] for _ in range(num_reqs)],
+            spec_token_ids=[[] for _ in range(num_reqs)],
+            allowed_token_ids_mask=None,
+            bad_words_token_ids={},
+            logitsprocs=LogitsProcessors(),
+        )
+        try:
+            sampler_output = self.sampler(
+                logits=logits, sampling_metadata=dummy_metadata
+            )
+        except RuntimeError as e:
+            if "out of memory" in str(e):
+                raise RuntimeError(
+                    "CUDA out of memory occurred when warming up sampler with "
+                    f"{num_reqs} dummy requests. Please try lowering "
+                    "`max_num_seqs` or `gpu_memory_utilization` when "
+                    "initializing the engine."
+                ) from e
+            else:
+                raise e
+        if self.speculative_config:
+            draft_token_ids = [[0] for _ in range(num_reqs)]
+            dummy_spec_decode_metadata = SpecDecodeMetadata.make_dummy(
+                draft_token_ids, self.device
+            )
+
+            num_tokens = sum(len(ids) for ids in draft_token_ids)
+            # draft_probs = torch.randn(
+            #     num_tokens, logits.shape[-1], device=self.device,
+            #     dtype=logits.dtype)
+            draft_probs = None
+            logits = torch.randn(
+                num_tokens + num_reqs,
+                logits.shape[-1],
+                device=self.device,
+                dtype=logits.dtype,
+            )
+            self.rejection_sampler(
+                dummy_spec_decode_metadata,
+                draft_probs,
+                logits,
+                dummy_metadata,
+            )
+        return sampler_output
+
+    def _dummy_pooler_run_task(
+        self,
+        hidden_states: torch.Tensor,
+        task: PoolingTask,
+    ) -> PoolerOutput:
+        num_tokens = hidden_states.shape[0]
+        max_num_reqs = self.scheduler_config.max_num_seqs
+        num_reqs = min(num_tokens, max_num_reqs)
+        min_tokens_per_req = num_tokens // num_reqs
+        num_scheduled_tokens_list = [min_tokens_per_req] * num_reqs
+        num_scheduled_tokens_list[-1] += num_tokens % num_reqs
+        assert sum(num_scheduled_tokens_list) == num_tokens
+        assert len(num_scheduled_tokens_list) == num_reqs
+
+        req_num_tokens = num_tokens // num_reqs
+
+        dummy_prompt_lens = torch.tensor(
+            num_scheduled_tokens_list,
+            device="cpu",
+        )
+        dummy_token_ids = torch.zeros(
+            (num_reqs, req_num_tokens), dtype=torch.int32, device=self.device
+        )
+
+        model = cast(VllmModelForPooling, self.get_model())
+        dummy_pooling_params = PoolingParams(task=task)
+        dummy_pooling_params.verify(task=task, model_config=self.model_config)
+        to_update = model.pooler.get_pooling_updates(task)
+        to_update.apply(dummy_pooling_params)
+
+        dummy_metadata = PoolingMetadata(
+            prompt_lens=dummy_prompt_lens,
+            prompt_token_ids=dummy_token_ids,
+            pooling_params=[dummy_pooling_params] * num_reqs,
+        )
+
+        dummy_metadata.build_pooling_cursor(
+            num_scheduled_tokens_list, device=hidden_states.device
+        )
+
+        try:
+            return model.pooler(
+                hidden_states=hidden_states, pooling_metadata=dummy_metadata
+            )
+        except RuntimeError as e:
+            if "out of memory" in str(e):
+                raise RuntimeError(
+                    "CUDA out of memory occurred when warming up pooler "
+                    f"({task=}) with {num_reqs} dummy requests. Please try "
+                    "lowering `max_num_seqs` or `gpu_memory_utilization` when "
+                    "initializing the engine."
+                ) from e
+            else:
+                raise e
+
+    @torch.inference_mode()
+    def _dummy_pooler_run(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> PoolerOutput:
+        # Find the task that has the largest output for subsequent steps
+        supported_pooling_tasks = self.get_supported_pooling_tasks()
+
+        if not supported_pooling_tasks:
+            if self.scheduler_config.enable_chunked_prefill:
+                raise RuntimeError(
+                    f"Model {self.model_config.model} does not support "
+                    "any pooling tasks with chunked prefill enabled. "
+                    "Please add --no-enable-chunked-prefill to your "
+                    "config or CLI args. See "
+                    "https://docs.vllm.ai/en/latest/models/pooling_models.html "
+                    "to learn more."
+                )
+            else:
+                raise RuntimeError(
+                    f"Model {self.model_config.model} does not support "
+                    "any pooling tasks. See "
+                    "https://docs.vllm.ai/en/latest/models/pooling_models.html "
+                    "to learn more."
+                )
+
+        output_size = dict[PoolingTask, float]()
+        for task in supported_pooling_tasks:
+            # Run a full batch with each task to ensure none of them OOMs
+            output = self._dummy_pooler_run_task(hidden_states, task)
+            output_size[task] = sum(o.nbytes for o in output)
+            del output  # Allow GC
+
+        max_task = max(output_size.items(), key=lambda x: x[1])[0]
+        return self._dummy_pooler_run_task(hidden_states, max_task)
+
+    def profile_run(self) -> None:
+        # Profile with multimodal encoder & encoder cache.
+        if self.supports_mm_inputs:
+            if self.model_config.multimodal_config.skip_mm_profiling:
+                logger.info(
+                    "Skipping memory profiling for multimodal encoder and "
+                    "encoder cache."
+                )
+            else:
+                mm_budget = self.mm_budget
+                assert mm_budget is not None
+
+                if (encoder_budget := mm_budget.get_encoder_budget()) > 0:
+                    # NOTE: Currently model is profiled with a single non-text
+                    # modality with the max possible input tokens even when
+                    # it supports multiple.
+                    dummy_modality = mm_budget.get_modality_with_max_tokens()
+                    max_mm_items_per_batch = mm_budget.max_items_per_batch_by_modality[
+                        dummy_modality
+                    ]
+
+                    logger.info(
+                        "Encoder cache will be initialized with a budget of "
+                        "%s tokens, and profiled with %s %s items of the "
+                        "maximum feature size.",
+                        encoder_budget,
+                        max_mm_items_per_batch,
+                        dummy_modality,
+                    )
+
+                    # Create dummy batch of multimodal inputs.
+                    batched_dummy_mm_inputs = self._get_mm_dummy_batch(
+                        dummy_modality,
+                        max_mm_items_per_batch,
+                    )
+
+                    # Run multimodal encoder.
+                    dummy_encoder_outputs = self.model.embed_multimodal(
+                        **batched_dummy_mm_inputs
+                    )
+
+                    sanity_check_mm_encoder_outputs(
+                        dummy_encoder_outputs,
+                        expected_num_items=max_mm_items_per_batch,
+                    )
+
+                    # NOTE: This happens when encoder cache needs to store
+                    # the embeddings that encoder outputs are scattered onto.
+                    # In this case we create dummy embeddings of size
+                    # (encode_budget, hidden_size) and scatter encoder
+                    # output into it.
+                    encoder_output_shape = dummy_encoder_outputs[0].shape
+                    if encoder_output_shape[0] < encoder_budget:
+                        expanded_outputs = []
+                        for output in dummy_encoder_outputs:
+                            expanded = output.new_zeros(
+                                (encoder_budget, encoder_output_shape[-1])
+                            )
+                            num_tokens = output.shape[0]
+                            expanded[:num_tokens].copy_(output)
+                            expanded_outputs.append(expanded)
+
+                        dummy_encoder_outputs = expanded_outputs
+
+                    # Cache the dummy encoder outputs.
+                    self.encoder_cache["tmp"] = dict(enumerate(dummy_encoder_outputs))
+
+        # Add `is_profile` here to pre-allocate communication buffers
+        hidden_states, last_hidden_states = self._dummy_run(
+            self.max_num_tokens, is_profile=True
+        )
+        if get_pp_group().is_last_rank:
+            if self.is_pooling_model:
+                output = self._dummy_pooler_run(hidden_states)
+            else:
+                output = self._dummy_sampler_run(last_hidden_states)
+        else:
+            output = None
+        self._sync_device()
+        del hidden_states, output
+        self.encoder_cache.clear()
+        gc.collect()
+
+    def capture_model(self) -> int:
+        if self.compilation_config.cudagraph_mode == CUDAGraphMode.NONE:
+            logger.warning(
+                "Skipping CUDA graph capture. To turn on CUDA graph capture, "
+                "ensure `cudagraph_mode` was not manually set to `NONE`"
+            )
+            return 0
+
+        compilation_counter.num_gpu_runner_capture_triggers += 1
+
+        start_time = time.perf_counter()
+
+        @contextmanager
+        def freeze_gc():
+            # Optimize garbage collection during CUDA graph capture.
+            # Clean up, then freeze all remaining objects from being included
+            # in future collections.
+            gc.collect()
+            should_freeze = not envs.VLLM_ENABLE_CUDAGRAPH_GC
+            if should_freeze:
+                gc.freeze()
+            try:
+                yield
+            finally:
+                if should_freeze:
+                    gc.unfreeze()
+                    gc.collect()
+
+        # Trigger CUDA graph capture for specific shapes.
+        # Capture the large shapes first so that the smaller shapes
+        # can reuse the memory pool allocated for the large shapes.
+        set_cudagraph_capturing_enabled(True)
+        with freeze_gc(), graph_capture(device=self.device):
+            start_free_gpu_memory = torch.cuda.mem_get_info()[0]
+            cudagraph_mode = self.compilation_config.cudagraph_mode
+            assert cudagraph_mode is not None
+
+            if self.lora_config:
+                if self.compilation_config.cudagraph_specialize_lora:
+                    lora_cases = [True, False]
+                else:
+                    lora_cases = [True]
+            else:
+                lora_cases = [False]
+
+            if cudagraph_mode.mixed_mode() != CUDAGraphMode.NONE:
+                cudagraph_runtime_mode = cudagraph_mode.mixed_mode()
+                # make sure we capture the largest batch size first
+                compilation_cases = list(
+                    product(reversed(self.cudagraph_batch_sizes), lora_cases)
+                )
+                self._capture_cudagraphs(
+                    compilation_cases,
+                    cudagraph_runtime_mode=cudagraph_runtime_mode,
+                    uniform_decode=False,
+                )
+
+            # Capture full cudagraph for uniform decode batches if we
+            # don't already have full mixed prefill-decode cudagraphs.
+            if (
+                cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+                and cudagraph_mode.separate_routine()
+            ):
+                max_num_tokens = (
+                    self.scheduler_config.max_num_seqs * self.uniform_decode_query_len
+                )
+                decode_cudagraph_batch_sizes = [
+                    x
+                    for x in self.cudagraph_batch_sizes
+                    if max_num_tokens >= x >= self.uniform_decode_query_len
+                ]
+                compilation_cases_decode = list(
+                    product(reversed(decode_cudagraph_batch_sizes), lora_cases)
+                )
+                self._capture_cudagraphs(
+                    compilation_cases=compilation_cases_decode,
+                    cudagraph_runtime_mode=CUDAGraphMode.FULL,
+                    uniform_decode=True,
+                )
+
+            torch.cuda.synchronize()
+            end_free_gpu_memory = torch.cuda.mem_get_info()[0]
+
+        # Disable cudagraph capturing globally, so any unexpected cudagraph
+        # capturing will be detected and raise an error after here.
+        # Note: We don't put it into graph_capture context manager because
+        # we may do lazy capturing in future that still allows capturing
+        # after here.
+        set_cudagraph_capturing_enabled(False)
+
+        end_time = time.perf_counter()
+        elapsed_time = end_time - start_time
+        cuda_graph_size = start_free_gpu_memory - end_free_gpu_memory
+        # This usually takes 5~20 seconds.
+        logger.info_once(
+            "Graph capturing finished in %.0f secs, took %.2f GiB",
+            elapsed_time,
+            cuda_graph_size / (1 << 30),
+            scope="local",
+        )
+        return cuda_graph_size
+
+    def _capture_cudagraphs(
+        self,
+        compilation_cases: list[tuple[int, bool]],
+        cudagraph_runtime_mode: CUDAGraphMode,
+        uniform_decode: bool,
+    ):
+        assert (
+            cudagraph_runtime_mode != CUDAGraphMode.NONE
+            and cudagraph_runtime_mode.valid_runtime_modes()
+        ), f"Invalid cudagraph runtime mode: {cudagraph_runtime_mode}"
+
+        # Only rank 0 should print progress bar during capture
+        if is_global_first_rank():
+            compilation_cases = tqdm(
+                compilation_cases,
+                disable=not self.load_config.use_tqdm_on_load,
+                desc="Capturing CUDA graphs ({}, {})".format(
+                    "decode" if uniform_decode else "mixed prefill-decode",
+                    cudagraph_runtime_mode.name,
+                ),
+            )
+
+        # We skip EPLB here since we don't want to record dummy metrics
+        for num_tokens, activate_lora in compilation_cases:
+            # We currently only capture ubatched graphs when its a FULL
+            # cudagraph, a uniform decode batch, and the number of tokens
+            # is above the threshold. Otherwise we just capture a non-ubatched
+            # version of the graph
+            allow_microbatching = (
+                self.parallel_config.enable_dbo
+                and cudagraph_runtime_mode == CUDAGraphMode.FULL
+                and uniform_decode
+                and check_ubatch_thresholds(
+                    config=self.vllm_config.parallel_config,
+                    num_tokens=num_tokens,
+                    uniform_decode=uniform_decode,
+                )
+            )
+
+            for _ in range(self.compilation_config.cudagraph_num_of_warmups):
+                # Use CUDAGraphRuntimeStyle.NONE (default) for warmup.
+                # But be careful, warm up with `NONE`is orthogonal to
+                # if we want to warm up attention or not. This is
+                # different from the case where `FULL` implies capture
+                # attention while `PIECEWISE` implies no attention.
+                force_attention = cudagraph_runtime_mode == CUDAGraphMode.FULL
+                self._dummy_run(
+                    num_tokens,
+                    cudagraph_runtime_mode=CUDAGraphMode.NONE,
+                    force_attention=force_attention,
+                    uniform_decode=uniform_decode,
+                    allow_microbatching=allow_microbatching,
+                    skip_eplb=True,
+                    remove_lora=False,
+                    activate_lora=activate_lora,
+                )
+            self._dummy_run(
+                num_tokens,
+                cudagraph_runtime_mode=cudagraph_runtime_mode,
+                uniform_decode=uniform_decode,
+                allow_microbatching=allow_microbatching,
+                skip_eplb=True,
+                remove_lora=False,
+                activate_lora=activate_lora,
+            )
+        self.maybe_remove_all_loras(self.lora_config)
+
+    def initialize_attn_backend(self, kv_cache_config: KVCacheConfig) -> None:
+        """
+        Initialize the attention backends and attention metadata builders.
+        """
+        assert len(self.attn_groups) == 0, "Attention backends are already initialized"
+
+        class AttentionGroupKey(NamedTuple):
+            attn_backend: type[AttentionBackend]
+            kv_cache_spec: KVCacheSpec
+
+        def get_attn_backends_for_group(
+            kv_cache_group_spec: KVCacheGroupSpec,
+        ) -> tuple[dict[AttentionGroupKey, list[str]], set[type[AttentionBackend]]]:
+            layers = get_layers_from_vllm_config(
+                self.vllm_config, AttentionLayerBase, kv_cache_group_spec.layer_names
+            )
+            attn_backends = {}
+            attn_backend_layers = defaultdict(list)
+            # Dedupe based on full class name; this is a bit safer than
+            # using the class itself as the key because when we create dynamic
+            # attention backend subclasses (e.g. ChunkedLocalAttention) unless
+            # they are cached correctly, there will be different objects per
+            # layer.
+            for layer_name in kv_cache_group_spec.layer_names:
+                attn_backend = layers[layer_name].get_attn_backend()
+
+                if layer_name in self.kv_sharing_fast_prefill_eligible_layers:
+                    attn_backend = create_fast_prefill_custom_backend(
+                        "FastPrefill",
+                        attn_backend,
+                    )
+
+                full_cls_name = attn_backend.full_cls_name()
+                layer_kv_cache_spec = kv_cache_group_spec.kv_cache_spec
+                if isinstance(layer_kv_cache_spec, UniformTypeKVCacheSpecs):
+                    layer_kv_cache_spec = layer_kv_cache_spec.kv_cache_specs[layer_name]
+                key = (full_cls_name, layer_kv_cache_spec)
+                attn_backends[key] = AttentionGroupKey(
+                    attn_backend, layer_kv_cache_spec
+                )
+                attn_backend_layers[key].append(layer_name)
+            return (
+                {attn_backends[k]: v for k, v in attn_backend_layers.items()},
+                set(group_key.attn_backend for group_key in attn_backends.values()),
+            )
+
+        def create_attn_groups(
+            attn_backends_map: dict[AttentionGroupKey, list[str]],
+            kv_cache_group_id: int,
+        ) -> list[AttentionGroup]:
+            attn_groups: list[AttentionGroup] = []
+            for (attn_backend, kv_cache_spec), layer_names in attn_backends_map.items():
+                attn_group = AttentionGroup(
+                    attn_backend,
+                    layer_names,
+                    kv_cache_spec,
+                    kv_cache_group_id,
+                )
+
+                attn_groups.append(attn_group)
+            return attn_groups
+
+        attention_backend_maps = []
+        attention_backend_list = []
+        for kv_cache_group_spec in kv_cache_config.kv_cache_groups:
+            attn_backends = get_attn_backends_for_group(kv_cache_group_spec)
+            attention_backend_maps.append(attn_backends[0])
+            attention_backend_list.append(attn_backends[1])
+
+        # Resolve cudagraph_mode before actually initialize metadata_builders
+        self._check_and_update_cudagraph_mode(
+            attention_backend_list, kv_cache_config.kv_cache_groups
+        )
+
+        for i, attn_backend_map in enumerate(attention_backend_maps):
+            self.attn_groups.append(create_attn_groups(attn_backend_map, i))
+
+    def initialize_metadata_builders(
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
+    ) -> None:
+        """
+        Create the metadata builders for all KV cache groups and attn groups.
+        """
+        for kv_cache_group_id in range(len(kv_cache_config.kv_cache_groups)):
+            for attn_group in self.attn_groups[kv_cache_group_id]:
+                attn_group.create_metadata_builders(
+                    self.vllm_config,
+                    self.device,
+                    kernel_block_sizes[kv_cache_group_id]
+                    if kv_cache_group_id < len(kernel_block_sizes)
+                    else None,
+                    num_metadata_builders=1
+                    if not self.parallel_config.enable_dbo
+                    else 2,
+                )
+        # Calculate reorder batch threshold (if needed)
+        # Note (tdoublep): do this *after* constructing builders,
+        # because some of them change the threshold at init time.
+        self.calculate_reorder_batch_threshold()
+
+    def _check_and_update_cudagraph_mode(
+        self,
+        attention_backends: list[set[type[AttentionBackend]]],
+        kv_cache_groups: list[KVCacheGroupSpec],
+    ) -> None:
+        """
+        Resolve the cudagraph_mode when there are multiple attention
+        groups with potential conflicting CUDA graph support.
+        Then initialize the cudagraph_dispatcher based on the resolved
+        cudagraph_mode.
+        """
+        min_cg_support = AttentionCGSupport.ALWAYS
+        min_cg_backend_name = None
+
+        for attn_backend_set, kv_cache_group in zip(
+            attention_backends, kv_cache_groups
+        ):
+            for attn_backend in attn_backend_set:
+                builder_cls = attn_backend.get_builder_cls()
+
+                cg_support = builder_cls.get_cudagraph_support(
+                    self.vllm_config, kv_cache_group.kv_cache_spec
+                )
+                if cg_support.value < min_cg_support.value:
+                    min_cg_support = cg_support
+                    min_cg_backend_name = attn_backend.__name__
+        # Flexible resolve the cudagraph mode
+        cudagraph_mode = self.compilation_config.cudagraph_mode
+        # check cudagraph for mixed batch is supported
+        if (
+            cudagraph_mode.mixed_mode() == CUDAGraphMode.FULL
+            and min_cg_support != AttentionCGSupport.ALWAYS
+        ):
+            msg = (
+                f"CUDAGraphMode.{cudagraph_mode.name} is not supported "
+                f"with {min_cg_backend_name} backend (support: "
+                f"{min_cg_support})"
+            )
+            if min_cg_support == AttentionCGSupport.NEVER:
+                # if not supported any full cudagraphs, just raise it.
+                msg += (
+                    "; please try cudagraph_mode=PIECEWISE, and "
+                    "make sure compilation mode is VLLM_COMPILE"
+                )
+                raise ValueError(msg)
+
+            # attempt to resolve the full cudagraph related mode
+            if self.compilation_config.splitting_ops_contain_attention():
+                msg += "; setting cudagraph_mode=FULL_AND_PIECEWISE"
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.FULL_AND_PIECEWISE
+                )
+            else:
+                msg += "; setting cudagraph_mode=FULL_DECODE_ONLY"
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.FULL_DECODE_ONLY
+                )
+            logger.warning(msg)
+
+        # check that if we are doing decode full-cudagraphs it is supported
+        if (
+            cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+            and min_cg_support == AttentionCGSupport.NEVER
+        ):
+            msg = (
+                f"CUDAGraphMode.{cudagraph_mode.name} is not supported "
+                f"with {min_cg_backend_name} backend (support: "
+                f"{min_cg_support})"
+            )
+            if self.compilation_config.mode == CompilationMode.VLLM_COMPILE and (
+                self.compilation_config.splitting_ops_contain_attention()
+                or self.compilation_config.use_inductor_graph_partition
+            ):
+                msg += (
+                    "; setting cudagraph_mode=PIECEWISE because "
+                    "attention is compiled piecewise"
+                )
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.PIECEWISE
+                )
+            else:
+                msg += (
+                    "; setting cudagraph_mode=NONE because "
+                    "attention is not compiled piecewise"
+                )
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.NONE
+                )
+            logger.warning(msg)
+
+        # check that if we are doing spec-decode + decode full-cudagraphs it is
+        # supported
+        if (
+            cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+            and self.uniform_decode_query_len > 1
+            and min_cg_support.value < AttentionCGSupport.UNIFORM_BATCH.value
+        ):
+            msg = (
+                f"CUDAGraphMode.{cudagraph_mode.name} is not supported"
+                f" with spec-decode for attention backend "
+                f"{min_cg_backend_name} (support: {min_cg_support})"
+            )
+            if self.compilation_config.splitting_ops_contain_attention():
+                msg += "; setting cudagraph_mode=PIECEWISE"
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.PIECEWISE
+                )
+            else:
+                msg += "; setting cudagraph_mode=NONE"
+                cudagraph_mode = self.compilation_config.cudagraph_mode = (
+                    CUDAGraphMode.NONE
+                )
+            logger.warning(msg)
+
+        # double check that we can support full cudagraph if they are requested
+        # even after automatic downgrades
+        if (
+            cudagraph_mode.has_full_cudagraphs()
+            and min_cg_support == AttentionCGSupport.NEVER
+        ):
+            raise ValueError(
+                f"CUDAGraphMode.{cudagraph_mode.name} is not "
+                f"supported with {min_cg_backend_name} backend ("
+                f"support:{min_cg_support}) "
+                "; please try cudagraph_mode=PIECEWISE, "
+                "and make sure compilation mode is VLLM_COMPILE"
+            )
+
+        # if we have dedicated decode cudagraphs, and spec-decode is enabled,
+        # we need to adjust the cudagraph sizes to be a multiple of the uniform
+        # decode query length to avoid: https://github.com/vllm-project/vllm/issues/28207
+        # temp-fix: https://github.com/vllm-project/vllm/issues/28207#issuecomment-3504004536
+        # Will be removed in the near future when we have seperate cudagraph capture
+        # sizes for decode and mixed prefill-decode.
+        if (
+            cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+            and cudagraph_mode.separate_routine()
+            and self.uniform_decode_query_len > 1
+        ):
+            self.compilation_config.adjust_cudagraph_sizes_for_spec_decode(
+                self.uniform_decode_query_len, self.parallel_config.tensor_parallel_size
+            )
+            self.cudagraph_batch_sizes = self.compilation_config.cudagraph_capture_sizes
+
+        # Trigger cudagraph dispatching keys initialization after
+        # resolved cudagraph mode.
+        self.cudagraph_dispatcher.initialize_cudagraph_keys(
+            self.compilation_config.cudagraph_mode, self.uniform_decode_query_len
+        )
+
+    def calculate_reorder_batch_threshold(self) -> None:
+        """
+        Choose the minimum reorder batch threshold from all attention groups.
+        Backends should be able to support lower threshold then what they request
+        just may have a performance penalty due to that backend treating decodes
+        as prefills.
+        """
+        min_none_high = lambda a, b: a if b is None else b if a is None else min(a, b)
+
+        reorder_batch_thresholds = [
+            group.get_metadata_builder().reorder_batch_threshold
+            for group in self._attn_group_iterator()
+        ]
+        # If there are no attention groups (attention-free model) or no backend
+        # reports a threshold, leave reordering disabled.
+        if len(reorder_batch_thresholds) == 0:
+            self.reorder_batch_threshold = None
+            return
+        self.reorder_batch_threshold = reduce(min_none_high, reorder_batch_thresholds)
+
+    @staticmethod
+    def select_common_block_size(
+        kv_manager_block_size: int, attn_groups: list[AttentionGroup]
+    ) -> int:
+        """
+        Select a block size that is supported by all backends and is a factor of
+        kv_manager_block_size.
+
+        If kv_manager_block_size is supported by all backends, return it directly.
+        Otherwise, return the max supported size.
+
+        Args:
+            kv_manager_block_size: Block size of KV cache
+            attn_groups: List of attention groups
+
+        Returns:
+            The selected block size
+
+        Raises:
+            ValueError: If no valid block size found
+        """
+
+        def block_size_is_supported(
+            backends: list[type[AttentionBackend]], block_size: int
+        ) -> bool:
+            """
+            Check if the block size is supported by all backends.
+            """
+            for backend in backends:
+                is_supported = False
+                for supported_size in backend.supported_kernel_block_sizes:
+                    if isinstance(supported_size, int):
+                        if block_size == supported_size:
+                            is_supported = True
+                    elif isinstance(supported_size, MultipleOf):
+                        if block_size % supported_size.base == 0:
+                            is_supported = True
+                    else:
+                        raise ValueError(f"Unknown supported size: {supported_size}")
+                if not is_supported:
+                    return False
+            return True
+
+        backends = [group.backend for group in attn_groups]
+
+        # Case 1: if the block_size of kv cache manager is supported by all backends,
+        # return it directly
+        if block_size_is_supported(backends, kv_manager_block_size):
+            return kv_manager_block_size
+
+        # Case 2: otherwise, the block_size must be an `int`-format supported size of
+        # at least one backend. Iterate over all `int`-format supported sizes in
+        # descending order and return the first one that is supported by all backends.
+        # Simple proof:
+        # If the supported size b is in MultipleOf(x_i) format for all attention
+        # backends i, and b a factor of kv_manager_block_size, then
+        # kv_manager_block_size also satisfies MultipleOf(x_i) for all i. We will
+        # return kv_manager_block_size in case 1.
+        all_int_supported_sizes = set(
+            supported_size
+            for backend in backends
+            for supported_size in backend.supported_kernel_block_sizes
+            if isinstance(supported_size, int)
+        )
+
+        for supported_size in sorted(all_int_supported_sizes, reverse=True):
+            if kv_manager_block_size % supported_size != 0:
+                continue
+            if block_size_is_supported(backends, supported_size):
+                return supported_size
+        raise ValueError(f"No common block size for {kv_manager_block_size}. ")
+
+    def may_reinitialize_input_batch(
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
+    ) -> None:
+        """
+        Re-initialize the input batch if the block sizes are different from
+        `[self.cache_config.block_size]`. This usually happens when there
+        are multiple KV cache groups.
+
+        Args:
+            kv_cache_config: The KV cache configuration.
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
+        """
+        block_sizes = [
+            kv_cache_group.kv_cache_spec.block_size
+            for kv_cache_group in kv_cache_config.kv_cache_groups
+            if not isinstance(kv_cache_group.kv_cache_spec, EncoderOnlyAttentionSpec)
+        ]
+
+        if block_sizes != [self.cache_config.block_size] or kernel_block_sizes != [
+            self.cache_config.block_size
+        ]:
+            assert self.cache_config.cpu_offload_gb == 0, (
+                "Cannot re-initialize the input batch when CPU weight "
+                "offloading is enabled. See https://github.com/vllm-project/vllm/pull/18298 "  # noqa: E501
+                "for more details."
+            )
+            self.input_batch = InputBatch(
+                max_num_reqs=self.max_num_reqs,
+                max_model_len=max(self.max_model_len, self.max_encoder_len),
+                max_num_batched_tokens=self.max_num_tokens,
+                device=self.device,
+                pin_memory=self.pin_memory,
+                vocab_size=self.model_config.get_vocab_size(),
+                block_sizes=block_sizes,
+                kernel_block_sizes=kernel_block_sizes,
+                is_spec_decode=bool(self.vllm_config.speculative_config),
+                logitsprocs=self.input_batch.logitsprocs,
+                logitsprocs_need_output_token_ids=self.input_batch.logitsprocs_need_output_token_ids,
+                is_pooling_model=self.is_pooling_model,
+                num_speculative_tokens=self.num_spec_tokens,
+            )
+
+    def _allocate_kv_cache_tensors(
+        self, kv_cache_config: KVCacheConfig
+    ) -> dict[str, torch.Tensor]:
+        """
+        Initializes the KV cache buffer with the correct size. The buffer needs
+        to be reshaped to the desired shape before being used by the models.
+
+        Args:
+            kv_cache_config: The KV cache config
+        Returns:
+            dict[str, torch.Tensor]: A map between layer names to their
+            corresponding memory buffer for KV cache.
+        """
+        kv_cache_raw_tensors: dict[str, torch.Tensor] = {}
+        kv_cache_scale_raw_tensors: dict[str, torch.Tensor] = {}
+        for kv_cache_tensor in kv_cache_config.kv_cache_tensors:
+            tensor = torch.zeros(
+                kv_cache_tensor.size, dtype=torch.int8, device=self.device
+            )
+            for layer_name in kv_cache_tensor.shared_by:
+                kv_cache_raw_tensors[layer_name] = tensor
+        for kv_cache_scale_tensor in kv_cache_config.kv_cache_scale_tensors:
+            tensor = torch.zeros(kv_cache_scale_tensor.size,
+                                 dtype=torch.int8,
+                                 device=self.device)
+            for layer_name in kv_cache_scale_tensor.shared_by:
+                kv_cache_scale_raw_tensors[layer_name] = tensor
+
+        layer_names = set()
+        for group in kv_cache_config.kv_cache_groups:
+            for layer_name in group.layer_names:
+                if layer_name in self.runner_only_attn_layers:
+                    continue
+                layer_names.add(layer_name)
+        assert layer_names == set(kv_cache_raw_tensors.keys()), (
+            "Some layers are not correctly initialized"
+        )
+        return kv_cache_raw_tensors, kv_cache_scale_raw_tensors
+
+    def _attn_group_iterator(self) -> Iterator[AttentionGroup]:
+        return itertools.chain.from_iterable(self.attn_groups)
+
+    def _kv_cache_spec_attn_group_iterator(self) -> Iterator[AttentionGroup]:
+        if not self.kv_cache_config.kv_cache_groups:
+            return
+        for attn_groups in self.attn_groups:
+            yield from attn_groups
+
+    def _prepare_kernel_block_sizes(self, kv_cache_config: KVCacheConfig) -> list[int]:
+        """
+        Generate kernel_block_sizes that matches each block_size.
+
+        For attention backends that support virtual block splitting,
+        use the supported block sizes from the backend.
+        For other backends (like Mamba), use the same block size (no splitting).
+
+        Args:
+            kv_cache_config: The KV cache configuration.
+
+        Returns:
+            list[int]: List of kernel block sizes for each cache group.
+        """
+        kernel_block_sizes = []
+        for kv_cache_gid, kv_cache_group in enumerate(kv_cache_config.kv_cache_groups):
+            kv_cache_spec = kv_cache_group.kv_cache_spec
+            if isinstance(kv_cache_spec, UniformTypeKVCacheSpecs):
+                # All layers in the UniformTypeKVCacheSpecs have the same type,
+                # Pick an arbitrary one to dispatch.
+                kv_cache_spec = next(iter(kv_cache_spec.kv_cache_specs.values()))
+            if isinstance(kv_cache_spec, EncoderOnlyAttentionSpec):
+                continue
+            elif isinstance(kv_cache_spec, AttentionSpec):
+                # This is an attention backend that supports virtual
+                # block splitting. Get the supported block sizes from
+                # all backends in the group.
+                attn_groups = self.attn_groups[kv_cache_gid]
+                kv_manager_block_size = kv_cache_group.kv_cache_spec.block_size
+                selected_kernel_size = self.select_common_block_size(
+                    kv_manager_block_size, attn_groups
+                )
+                kernel_block_sizes.append(selected_kernel_size)
+            elif isinstance(kv_cache_spec, MambaSpec):
+                # This is likely Mamba or other non-attention cache,
+                # no splitting.
+                kernel_block_sizes.append(kv_cache_spec.block_size)
+            else:
+                raise NotImplementedError(
+                    f"unknown kv cache spec {kv_cache_group.kv_cache_spec}"
+                )
+        return kernel_block_sizes
+
+    def _reshape_kv_cache_tensors(
+        self,
+        kv_cache_config: KVCacheConfig,
+        kv_cache_raw_tensors: dict[str, torch.Tensor],
+        kv_cache_scale_raw_tensors: dict[str, torch.Tensor],
+        kernel_block_sizes: list[int],
+    ) -> dict[str, torch.Tensor]:
+        """
+        Reshape the KV cache tensors to the desired shape and dtype.
+
+        Args:
+            kv_cache_config: The KV cache config
+            kv_cache_raw_tensors: The KV cache buffer of each layer, with
+                correct size but uninitialized shape.
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
+        Returns:
+            Dict[str, torch.Tensor]: A map between layer names to their
+            corresponding memory buffer for KV cache.
+        """
+        kv_caches: dict[str, torch.Tensor] = {}
+        kv_caches_scale: dict[str, torch.Tensor] = {}
+        has_attn, has_mamba = False, False
+        for group in self._kv_cache_spec_attn_group_iterator():
+            kv_cache_spec = group.kv_cache_spec
+            attn_backend = group.backend
+            if group.kv_cache_group_id == len(kernel_block_sizes):
+                # There may be a last group for layers without kv cache.
+                continue
+            kernel_block_size = kernel_block_sizes[group.kv_cache_group_id]
+            for layer_name in group.layer_names:
+                if layer_name in self.runner_only_attn_layers:
+                    continue
+                raw_tensor = kv_cache_raw_tensors[layer_name]
+                raw_tensor_scale = kv_cache_scale_raw_tensors[layer_name]
+                assert (raw_tensor.numel() +  raw_tensor_scale.numel()) % (kv_cache_spec.page_size_bytes + kv_cache_spec.scale_page_size_bytes) == 0
+                num_blocks = ((raw_tensor.numel() + raw_tensor_scale.numel()) //
+                              (kv_cache_spec.page_size_bytes + kv_cache_spec.scale_page_size_bytes))
+
+                if isinstance(kv_cache_spec, AttentionSpec):
+                    has_attn = True
+                    num_blocks_per_kv_block = (
+                        kv_cache_spec.block_size // kernel_block_size
+                    )
+                    kernel_num_blocks = num_blocks * num_blocks_per_kv_block
+                    kv_cache_shape = attn_backend.get_kv_cache_shape(
+                        kernel_num_blocks,
+                        kernel_block_size,
+                        kv_cache_spec.num_kv_heads,
+                        kv_cache_spec.head_size,
+                        cache_dtype_str=self.cache_config.cache_dtype,
+                    )
+                    if envs.VLLM_USE_INT8_MLA:
+                        dtype = torch.int8
+                    else:
+                        dtype = kv_cache_spec.dtype
+                    try:
+                        kv_cache_stride_order = attn_backend.get_kv_cache_stride_order()
+                        assert len(kv_cache_stride_order) == len(kv_cache_shape)
+                    except (AttributeError, NotImplementedError):
+                        kv_cache_stride_order = tuple(range(len(kv_cache_shape)))
+                    # The allocation respects the backend-defined stride order
+                    # to ensure the semantic remains consistent for each
+                    # backend. We first obtain the generic kv cache shape and
+                    # then permute it according to the stride order which could
+                    # result in a non-contiguous tensor.
+                    kv_cache_shape = tuple(
+                        kv_cache_shape[i] for i in kv_cache_stride_order
+                    )
+                    # Maintain original KV shape view.
+                    inv_order = [
+                        kv_cache_stride_order.index(i)
+                        for i in range(len(kv_cache_stride_order))
+                    ]
+                    kv_caches[layer_name] = (
+                        kv_cache_raw_tensors[layer_name]
+                        .view(dtype)
+                        .view(kv_cache_shape)
+                        .permute(*inv_order)
+                    )
+                    if envs.VLLM_USE_INT8_MLA:
+                        kv_caches_scale_shape = kv_caches[layer_name].shape[:-1]+(2,)
+                        kv_caches_scale[layer_name] = (
+                            kv_cache_scale_raw_tensors[layer_name]
+                            .view(torch.float32)
+                            .view(kv_caches_scale_shape)
+                        )
+                elif isinstance(kv_cache_spec, MambaSpec):
+                    has_mamba = True
+                    raw_tensor = kv_cache_raw_tensors[layer_name]
+                    state_tensors = []
+                    storage_offset_bytes = 0
+                    for shape, dtype in zip(kv_cache_spec.shapes, kv_cache_spec.dtypes):
+                        dtype_size = get_dtype_size(dtype)
+                        num_element_per_page = (
+                            kv_cache_spec.page_size_bytes // dtype_size
+                        )
+                        target_shape = (num_blocks, *shape)
+                        stride = torch.empty(target_shape).stride()
+                        target_stride = (num_element_per_page, *stride[1:])
+                        assert storage_offset_bytes % dtype_size == 0
+                        tensor = torch.as_strided(
+                            raw_tensor.view(dtype),
+                            size=target_shape,
+                            stride=target_stride,
+                            storage_offset=storage_offset_bytes // dtype_size,
+                        )
+                        state_tensors.append(tensor)
+                        storage_offset_bytes += stride[0] * dtype_size
+
+                    kv_caches[layer_name] = state_tensors
+                else:
+                    raise NotImplementedError
+
+        # if has_attn and has_mamba:
+        #     self._update_hybrid_attention_mamba_layout(kv_caches)
+
+        return kv_caches, kv_caches_scale
+
+    def _update_hybrid_attention_mamba_layout(
+        self, kv_caches: dict[str, torch.Tensor]
+    ) -> None:
+        """
+        Update the layout of attention layers from (2, num_blocks, ...) to
+        (num_blocks, 2, ...).
+
+        Args:
+            kv_caches: The KV cache buffer of each layer.
+        """
+
+        for group in self._kv_cache_spec_attn_group_iterator():
+            kv_cache_spec = group.kv_cache_spec
+            for layer_name in group.layer_names:
+                kv_cache = kv_caches[layer_name]
+                if isinstance(kv_cache_spec, AttentionSpec) and kv_cache.shape[0] == 2:
+                    assert kv_cache.shape[1] != 2, (
+                        "Fail to determine whether the layout is "
+                        "(2, num_blocks, ...) or (num_blocks, 2, ...) for "
+                        f"a tensor of shape {kv_cache.shape}"
+                    )
+                    hidden_size = kv_cache.shape[2:].numel()
+                    kv_cache.as_strided_(
+                        size=kv_cache.shape,
+                        stride=(hidden_size, 2 * hidden_size, *kv_cache.stride()[2:]),
+                    )
+
+    def initialize_kv_cache_tensors(
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
+    ) -> dict[str, torch.Tensor]:
+        """
+        Initialize the memory buffer for KV cache.
+
+        Args:
+            kv_cache_config: The KV cache config
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
+
+        Returns:
+            Dict[str, torch.Tensor]: A map between layer names to their
+            corresponding memory buffer for KV cache.
+        """
+        # Initialize the memory buffer for KV cache
+        kv_cache_raw_tensors, kv_cache_scale_raw_tensors = self._allocate_kv_cache_tensors(kv_cache_config)
+        # Change the memory buffer to the desired shape
+        kv_caches, kv_caches_scale = self._reshape_kv_cache_tensors(kv_cache_config,
+                                                   kv_cache_raw_tensors, kv_cache_scale_raw_tensors, kernel_block_sizes)
+
+        # Set up cross-layer KV cache sharing
+        for layer_name, target_layer_name in self.shared_kv_cache_layers.items():
+            logger.debug("%s reuses KV cache of %s", layer_name, target_layer_name)
+            kv_caches[layer_name] = kv_caches[target_layer_name]
+
+        num_attn_module = (
+            2 if self.model_config.hf_config.model_type == "longcat_flash" else 1
+        )
+        bind_kv_cache(
+            kv_caches,
+            self.compilation_config.static_forward_context,
+            self.kv_caches,
+            num_attn_module,
+        )
+        if envs.VLLM_USE_INT8_MLA:
+            bind_kv_cache_scale(
+                kv_caches_scale,
+                self.compilation_config.static_forward_context,
+                self.kv_caches_scale, 
+                num_attn_module
+        )
+        return kv_caches, kv_caches_scale
+
+    def maybe_add_kv_sharing_layers_to_kv_cache_groups(
+        self, kv_cache_config: KVCacheConfig
+    ) -> None:
+        """
+        Add layers that re-use KV cache to KV cache group of its target layer.
+        Mapping of KV cache tensors happens in `initialize_kv_cache_tensors()`
+        """
+        if not self.shared_kv_cache_layers:
+            # No cross-layer KV sharing, return
+            return
+
+        add_kv_sharing_layers_to_kv_cache_groups(
+            self.shared_kv_cache_layers,
+            kv_cache_config.kv_cache_groups,
+            self.runner_only_attn_layers,
+        )
+
+        if self.cache_config.kv_sharing_fast_prefill:
+            # In You Only Cache Once (https://arxiv.org/abs/2405.05254) or other
+            # similar KV sharing setups, only the layers that generate KV caches
+            # are involved in the prefill phase, enabling prefill to early exit.
+            attn_layers = get_layers_from_vllm_config(self.vllm_config, Attention)
+            for layer_name in reversed(attn_layers):
+                if layer_name in self.shared_kv_cache_layers:
+                    self.kv_sharing_fast_prefill_eligible_layers.add(layer_name)
+                else:
+                    break
+
+    def initialize_kv_cache(self, kv_cache_config: KVCacheConfig) -> None:
+        """
+        Initialize KV cache based on `kv_cache_config`.
+        Args:
+            kv_cache_config: Configuration for the KV cache, including the KV
+            cache size of each layer
+        """
+        kv_cache_config = deepcopy(kv_cache_config)
+        self.kv_cache_config = kv_cache_config
+        self.may_add_encoder_only_layers_to_kv_cache_config()
+        self.maybe_add_kv_sharing_layers_to_kv_cache_groups(kv_cache_config)
+        self.initialize_attn_backend(kv_cache_config)
+        # The kernel block size for all KV cache groups. For example, if
+        # kv_cache_manager uses block_size 256 for a given group, but the attention
+        # backends for that group only supports block_size 64, we will return
+        # kernel_block_size 64 and split the 256-token-block to 4 blocks with 64
+        # tokens each.
+        kernel_block_sizes = self._prepare_kernel_block_sizes(kv_cache_config)
+
+        # create metadata builders
+        self.initialize_metadata_builders(kv_cache_config, kernel_block_sizes)
+
+        # Reinitialize need to after initialize_attn_backend
+        self.may_reinitialize_input_batch(kv_cache_config, kernel_block_sizes)
+        kv_caches = self.initialize_kv_cache_tensors(
+            kv_cache_config, kernel_block_sizes
+        )
+
+        if self.speculative_config and self.speculative_config.use_eagle():
+            assert isinstance(self.drafter, EagleProposer)
+            # validate all draft model layers belong to the same kv cache
+            # group
+            self.drafter.validate_same_kv_cache_group(kv_cache_config)
+
+        if has_kv_transfer_group():
+            kv_transfer_group = get_kv_transfer_group()
+            kv_transfer_group.register_kv_caches(kv_caches)
+            kv_transfer_group.set_host_xfer_buffer_ops(copy_kv_blocks)
+
+        if self.dcp_world_size > 1:
+            layers = get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase)
+            for layer in layers.values():
+                assert layer.impl.need_to_return_lse_for_decode, (
+                    "DCP requires attention impls to return"
+                    " the softmax lse for decode, but the impl "
+                    f"{layer.impl.__class__.__name__} "
+                    "does not return the softmax lse for decode."
+                )
+
+    def may_add_encoder_only_layers_to_kv_cache_config(self) -> None:
+        """
+        Add encoder-only layers to the KV cache config.
+        """
+        block_size = self.vllm_config.cache_config.block_size
+        encoder_only_attn_specs: dict[AttentionSpec, list[str]] = defaultdict(list)
+        attn_layers = get_layers_from_vllm_config(self.vllm_config, Attention)
+        for layer_name, attn_module in attn_layers.items():
+            if attn_module.attn_type == AttentionType.ENCODER_ONLY:
+                attn_spec: AttentionSpec = EncoderOnlyAttentionSpec(
+                    block_size=block_size,
+                    num_kv_heads=attn_module.num_kv_heads,
+                    head_size=attn_module.head_size,
+                    dtype=self.kv_cache_dtype,
+                )
+                encoder_only_attn_specs[attn_spec].append(layer_name)
+                self.runner_only_attn_layers.add(layer_name)
+        if len(encoder_only_attn_specs) > 0:
+            assert len(encoder_only_attn_specs) == 1, (
+                "Only support one encoder-only attention spec now"
+            )
+            spec, layer_names = encoder_only_attn_specs.popitem()
+            self.kv_cache_config.kv_cache_groups.append(
+                KVCacheGroupSpec(layer_names=layer_names, kv_cache_spec=spec)
+            )
+
+    def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
+        """
+        Generates the KVCacheSpec by parsing the kv cache format from each
+        Attention module in the static forward context.
+        Returns:
+            KVCacheSpec: A dictionary mapping layer names to their KV cache
+            format. Layers that do not need KV cache are not included.
+        """
+        if has_ec_transfer() and get_ec_transfer().is_producer:
+            return {}
+        kv_cache_spec: dict[str, KVCacheSpec] = {}
+        attn_layers = get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase)
+        for layer_name, attn_module in attn_layers.items():
+            if isinstance(attn_module, Attention) and (
+                kv_tgt_layer := attn_module.kv_sharing_target_layer_name
+            ):
+                # The layer doesn't need its own KV cache and will use that of
+                # the target layer. We skip creating a KVCacheSpec for it, so
+                # that KV cache management logic will act as this layer does
+                # not exist, and doesn't allocate KV cache for the layer. This
+                # enables the memory saving of cross-layer kv sharing, allowing
+                # a given amount of memory to accommodate longer context lengths
+                # or enable more requests to be processed simultaneously.
+                self.shared_kv_cache_layers[layer_name] = kv_tgt_layer
+                continue
+            # Skip modules that don't need KV cache (eg encoder-only attention)
+            if spec := attn_module.get_kv_cache_spec(self.vllm_config):
+                kv_cache_spec[layer_name] = spec
+
+        return kv_cache_spec
+
+    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[np.ndarray]:
+        # This is a short term mitigation for issue mentioned in
+        # https://github.com/vllm-project/vllm/issues/22754.
+        # `tolist` would trigger a cuda wise stream sync, which
+        # would block other copy ops from other cuda streams.
+        # A cuda event sync would avoid such a situation. Since
+        # this is in the critical path of every single model
+        # forward loop, this has caused perf issue for a disagg
+        # setup.
+        pinned = self.sampled_token_ids_pinned_cpu[: sampled_token_ids.shape[0]]
+        pinned.copy_(sampled_token_ids, non_blocking=True)
+        self.transfer_event.record()
+        self.transfer_event.synchronize()
+        return [row for row in pinned.numpy()]
\ No newline at end of file
diff --git a/v1/worker/gpu_ubatch_wrapper.py b/v1/worker/gpu_ubatch_wrapper.py
new file mode 100644
index 0000000..9de1232
--- /dev/null
+++ b/v1/worker/gpu_ubatch_wrapper.py
@@ -0,0 +1,466 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import threading
+from collections.abc import Callable
+from dataclasses import dataclass
+from typing import Any
+
+import torch
+
+import vllm.envs as envs
+from vllm.compilation.cuda_graph import CUDAGraphWrapper
+from vllm.config import CUDAGraphMode, VllmConfig
+from vllm.distributed import get_ep_group
+from vllm.distributed.device_communicators.pynccl_allocator import set_graph_pool_id
+from vllm.forward_context import (
+    DPMetadata,
+    create_forward_context,
+    get_forward_context,
+    override_forward_context,
+)
+from vllm.logger import init_logger
+from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
+from vllm.utils.import_utils import has_deep_gemm
+from vllm.v1.worker.ubatching import UBatchContext, make_ubatch_contexts
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class UbatchMetadata:
+    context: UBatchContext
+    input_ids: torch.Tensor
+    positions: torch.Tensor
+    inputs_embeds: torch.Tensor | None
+    intermediate_tensors: IntermediateTensors | None
+    num_tokens: int
+
+
+@dataclass
+class CUDAGraphMetaData:
+    cudagraph: torch.cuda.CUDAGraph
+    ubatch_metadata: UbatchMetadata
+    outputs: Any | None = None
+
+
+class SMControlContextManager:
+    def __init__(
+        self,
+        comm_sms: int,
+        set_comm_sms: Callable[[int], None],
+        set_compute_sms: Callable[[int], None],
+    ):
+        """
+        Context manager for controlling SM (Streaming Multiprocessor)
+        allocation. Upon entering the context, it sets the number of SMs
+        allocated for communication and computation to comm_sms and
+        total_sms - comm_sms respectively. Upon exiting, it restores the
+        allocation to use all available SMs (i.e. total_sms).
+
+        Args:
+            comm_sms (int): The number of SMs to allocate for communication.
+                (The remainder will be used for computation.)
+            set_comm_sms (Callable[[int], None]):
+                A function that sets the number of SMs for communication.
+            set_compute_sms (Callable[[int], None]):
+                A function that sets the number of SMs for computation.
+        """
+
+        assert current_platform.is_cuda(), (
+            "SM control is currently only supported on CUDA"
+        )
+
+        props = torch.cuda.get_device_properties(torch.cuda.current_device())
+        total_sms = props.multi_processor_count
+
+        assert comm_sms < total_sms
+        self.total_sms = total_sms
+        self.compute_sms = total_sms - comm_sms
+        self.comm_sms = comm_sms
+        self.set_comm_sms = set_comm_sms
+        self.set_compute_sms = set_compute_sms
+
+    def __enter__(self):
+        self.set_comm_sms(self.comm_sms)
+        self.set_compute_sms(self.compute_sms)
+
+    def __exit__(self, exc_type, exc_value, traceback):
+        self.set_comm_sms(self.total_sms)
+        self.set_compute_sms(self.total_sms)
+
+
+class UBatchWrapper:
+    def __init__(
+        self,
+        runnable: Callable,
+        vllm_config: VllmConfig,
+        runtime_mode: CUDAGraphMode,
+        device: torch.cuda.device,
+    ):
+        self.runnable = runnable
+        self.vllm_config = vllm_config
+        self.compilation_config = vllm_config.compilation_config
+        self.comm_stream = torch.cuda.Stream(device=device)
+        # Two ubatch threads plus the main thread
+        self.ready_barrier = threading.Barrier(3)
+
+        self.cudagraphs: dict[int, CUDAGraphMetaData] = {}
+
+        self.cudagraph_wrapper = None
+        self.graph_pool = None
+        if runtime_mode is not CUDAGraphMode.NONE:
+            self.cudagraph_wrapper = CUDAGraphWrapper(
+                runnable, vllm_config, runtime_mode=runtime_mode
+            )
+            self.graph_pool = current_platform.get_global_graph_pool()
+
+        self.sm_control = self._create_sm_control_context(vllm_config)
+        self.device = device
+
+    @staticmethod
+    def _create_sm_control_context(vllm_config: VllmConfig):
+        comm_sms = envs.VLLM_DBO_COMM_SMS
+
+        set_comm_sms = lambda sms: None
+        if vllm_config.parallel_config.enable_expert_parallel:
+            # Currently only DeepEP highthroughput supports SM control so this
+            # only affects that case.
+            all2all_manager = get_ep_group().device_communicator.all2all_manager
+
+            if all2all_manager.max_sms_used() is not None:
+                comm_sms = min(comm_sms, all2all_manager.max_sms_used())
+
+            if comm_sms > 0:
+                set_comm_sms = lambda sms: all2all_manager.set_num_sms(sms)
+
+        # TODO(lucas): support other kernels besides DeepGEMM
+        set_compute_sms = lambda sms: None
+        if has_deep_gemm() and comm_sms > 0:
+            import deep_gemm as dg
+
+            set_compute_sms = lambda sms: dg.set_num_sms(sms)
+
+        return SMControlContextManager(
+            comm_sms=comm_sms,
+            set_comm_sms=set_comm_sms,
+            set_compute_sms=set_compute_sms,
+        )
+
+    def __getattr__(self, key: str):
+        # allow accessing the attributes of the runnable.
+        if hasattr(self.runnable, key):
+            return getattr(self.runnable, key)
+        raise AttributeError(
+            f"Attribute {key} not exists in the runnable of "
+            f"cudagraph wrapper: {self.runnable}"
+        )
+
+    def unwrap(self) -> Callable:
+        # in case we need to access the original runnable.
+        return self.runnable
+
+    def _capture_ubatches(self, ubatch_metadata, model) -> torch.Tensor:
+        """
+        Capture a cudagraph for a microbatched run.
+
+        The logic here is somewhat complicated because we need to make sure that
+        each of the ubatch threads initialize the cuda context before we start
+        the graph capture.
+
+        The flow is as follows:
+        1. The main thread starts up each ubatch thread. Each thread will
+        initialize its cuda context (torch.cuda.current_blas_handle())
+        before going to sleep upon entering the ubatch_context.
+
+        2. The main thread starts the graph capture and wakes up the first
+        ubatch thread.
+
+        3. Each ubatch thread runs the model to completion and returns the
+        completed output tensors back to the main thread.
+
+        4. The main thread stores the captured cudagraph along with its metadata
+        and returns
+        """
+
+        @torch.inference_mode()
+        def _capture_ubatch_thread(results, ubatch_metadata):
+            torch.cuda.set_device(self.device)
+            ubatch_context = ubatch_metadata.context
+            with torch.cuda.stream(ubatch_context.compute_stream):
+                _ = torch.cuda.current_blas_handle()
+            with torch.cuda.stream(ubatch_context.comm_stream):
+                _ = torch.cuda.current_blas_handle()
+            with ubatch_context:
+                model_output = model(
+                    input_ids=ubatch_metadata.input_ids,
+                    positions=ubatch_metadata.positions,
+                    intermediate_tensors=ubatch_metadata.intermediate_tensors,
+                    inputs_embeds=ubatch_metadata.inputs_embeds,
+                )
+
+            results.append((ubatch_metadata.context.id, model_output))
+
+        results: list[tuple[int, torch.Tensor]] = []
+        compute_stream = ubatch_metadata[0].context.compute_stream
+        num_tokens = ubatch_metadata[0].num_tokens + ubatch_metadata[1].num_tokens
+
+        # Ubatches will manually manage the forward context, so we override
+        # it to None here so we can have it restored correctly later
+        with override_forward_context(None):
+            ubatch_threads = []
+            for metadata in ubatch_metadata:
+                thread = threading.Thread(
+                    target=_capture_ubatch_thread,
+                    args=(
+                        results,
+                        metadata,
+                    ),
+                )
+                ubatch_threads.append(thread)
+                thread.start()
+            self.ready_barrier.wait()  # Wait for both threads to be ready
+
+            # Capture the cudagraph
+            cudagraph_metadata = CUDAGraphMetaData(
+                cudagraph=torch.cuda.CUDAGraph(),
+                ubatch_metadata=ubatch_metadata,
+            )
+            if self.graph_pool is not None:
+                set_graph_pool_id(self.graph_pool)
+            else:
+                set_graph_pool_id(current_platform.graph_pool_handle())
+            with torch.cuda.graph(
+                cudagraph_metadata.cudagraph,
+                stream=compute_stream,
+                pool=self.graph_pool,
+            ):
+                ubatch_metadata[0].context.cpu_wait_event.set()
+                for thread in ubatch_threads:
+                    thread.join()
+                sorted_results = [value for position, value in sorted(results)]
+                result = torch.cat(sorted_results, dim=0)
+                cudagraph_metadata.outputs = result
+            self.cudagraphs[num_tokens] = cudagraph_metadata
+        return cudagraph_metadata.outputs
+
+    def _run_ubatches(self, ubatch_metadata, model) -> torch.Tensor:
+        @torch.inference_mode()
+        def _ubatch_thread(results, model, ubatch_metadata):
+            with ubatch_metadata.context:
+                model_output = model(
+                    input_ids=ubatch_metadata.input_ids,
+                    positions=ubatch_metadata.positions,
+                    intermediate_tensors=ubatch_metadata.intermediate_tensors,
+                    inputs_embeds=ubatch_metadata.inputs_embeds,
+                )
+            results.append((ubatch_metadata.context.id, model_output))
+
+        results: list[tuple[int, torch.Tensor]] = []
+
+        # Ubatch threads will manually manage the forward context, so we
+        # override it to None here so we can have it restored correctly
+        # after both threads have finished
+        with override_forward_context(None):
+            ubatch_threads = []
+            for metadata in ubatch_metadata:
+                thread = threading.Thread(
+                    target=_ubatch_thread,
+                    args=(
+                        results,
+                        model,
+                        metadata,
+                    ),
+                )
+                ubatch_threads.append(thread)
+                thread.start()
+            self.ready_barrier.wait()  # Wait for both threads to be ready
+            ubatch_metadata[0].context.cpu_wait_event.set()
+            for thread in ubatch_threads:
+                thread.join()
+        sorted_results = [value for position, value in sorted(results)]
+        result = torch.cat(sorted_results, dim=0)
+        return result
+
+    def _make_ubatch_metadata(
+        self,
+        ubatch_slices,
+        attn_metadata,
+        input_ids,
+        positions,
+        inputs_embeds,
+        intermediate_tensors,
+        compute_stream,
+        dp_metadata,
+        batch_descriptor,
+        cudagraph_runtime_mode,
+    ) -> list[UbatchMetadata]:
+        # Create one forward context per ubatch
+        forward_contexts = []
+        for i, ubatch_slice in enumerate(ubatch_slices):
+            forward_contexts.append(
+                create_forward_context(
+                    attn_metadata[i] if attn_metadata is not None else None,
+                    self.vllm_config,
+                    dp_metadata=dp_metadata,
+                    batch_descriptor=batch_descriptor,
+                    cudagraph_runtime_mode=cudagraph_runtime_mode,
+                )
+            )
+
+        ubatch_ctxs = make_ubatch_contexts(
+            num_micro_batches=len(ubatch_slices),
+            comm_stream=self.comm_stream,
+            compute_stream=compute_stream,
+            forward_contexts=forward_contexts,
+            ready_barrier=self.ready_barrier,
+        )
+
+        ubatch_metadata: list[UbatchMetadata] = []
+        for i, ubatch_slice in enumerate(ubatch_slices):
+            (
+                sliced_input_ids,
+                sliced_positions,
+                sliced_inputs_embeds,
+                sliced_intermediate_tensors,
+            ) = self._slice_model_inputs(
+                ubatch_slice.token_slice,
+                input_ids,
+                positions,
+                inputs_embeds,
+                intermediate_tensors,
+            )
+            ubatch_metadata.append(
+                UbatchMetadata(
+                    context=ubatch_ctxs[i],
+                    input_ids=sliced_input_ids,
+                    positions=sliced_positions,
+                    inputs_embeds=sliced_inputs_embeds,
+                    intermediate_tensors=sliced_intermediate_tensors,
+                    num_tokens=ubatch_slice.token_slice.stop
+                    - ubatch_slice.token_slice.start,
+                )
+            )
+
+        return ubatch_metadata
+
+    def _slice_model_inputs(
+        self,
+        tokens_slice: slice,
+        input_ids,
+        positions,
+        inputs_embeds,
+        intermediate_tensors,
+    ):
+        sliced_input_ids = input_ids[tokens_slice]
+        # if we are using mrope. Mrope adds an additional dimension to the
+        # positions tensor
+        if positions.ndim == 2:
+            sliced_positions = positions[:, tokens_slice]
+        else:
+            sliced_positions = positions[tokens_slice]
+        sliced_inputs_embeds = inputs_embeds[tokens_slice] if inputs_embeds else None
+        sliced_intermediate_tensors = (
+            intermediate_tensors[tokens_slice] if intermediate_tensors else None
+        )
+
+        return (
+            sliced_input_ids,
+            sliced_positions,
+            sliced_inputs_embeds,
+            sliced_intermediate_tensors,
+        )
+
+    def __call__(self, *args, **kwargs):
+        forward_context = get_forward_context()
+        batch_descriptor = forward_context.batch_descriptor
+        ubatch_slices = forward_context.ubatch_slices
+        cudagraph_runtime_mode = forward_context.cudagraph_runtime_mode
+
+        # If there's no ubatching, just run the runnable object
+        if ubatch_slices is None:
+            # This is to account for the case where ubatching was aborted.
+            # When we capture full graphs we only capture one graph per shape,
+            # meaning that if we have a ubatched  cudagraph for the current
+            # num_tokens, we don't have a non-ubatched one. Without this
+            # check, the cudagraph wrapper will try to capture a cudagraph
+            # for this shape during a normal run.
+            if cudagraph_runtime_mode is CUDAGraphMode.FULL:
+                assert batch_descriptor is not None
+                if batch_descriptor.num_tokens in self.cudagraphs:
+                    cudagraph_runtime_mode = CUDAGraphMode.NONE
+
+            if cudagraph_runtime_mode in (CUDAGraphMode.NONE, CUDAGraphMode.PIECEWISE):
+                return self.runnable(*args, **kwargs)
+            else:
+                assert self.cudagraph_wrapper is not None
+                return self.cudagraph_wrapper(*args, **kwargs)
+
+        attn_metadata = forward_context.attn_metadata
+        num_tokens = (
+            ubatch_slices[0].token_slice.stop - ubatch_slices[0].token_slice.start
+        ) * 2
+        input_ids = kwargs["input_ids"]
+        positions = kwargs["positions"]
+        intermediate_tensors = kwargs["intermediate_tensors"]
+        inputs_embeds = kwargs["inputs_embeds"]
+        compute_stream = torch.cuda.current_stream()
+
+        dp_metadata = forward_context.dp_metadata
+
+        # We shouldn't be here unless we are running with multiple DP ranks
+        assert dp_metadata is not None
+        num_tokens_per_ubatch = (
+            ubatch_slices[0].token_slice.stop - ubatch_slices[0].token_slice.start
+        )
+        dp_size = self.vllm_config.parallel_config.data_parallel_size
+        ubatch_num_tokens_across_dp = torch.tensor(
+            [num_tokens_per_ubatch] * dp_size, device="cpu", dtype=torch.int32
+        )
+        ubatch_dp_metadata = DPMetadata.make(
+            self.vllm_config.parallel_config,
+            num_tokens_per_ubatch,
+            ubatch_num_tokens_across_dp,
+        )
+
+        if (
+            num_tokens not in self.cudagraphs
+            and cudagraph_runtime_mode is CUDAGraphMode.FULL
+        ):
+            ubatch_metadata = self._make_ubatch_metadata(
+                ubatch_slices=ubatch_slices,
+                attn_metadata=attn_metadata,
+                input_ids=input_ids,
+                positions=positions,
+                intermediate_tensors=intermediate_tensors,
+                inputs_embeds=inputs_embeds,
+                compute_stream=compute_stream,
+                dp_metadata=ubatch_dp_metadata,
+                batch_descriptor=batch_descriptor,
+                cudagraph_runtime_mode=CUDAGraphMode.NONE,
+            )
+            with self.sm_control:
+                return self._capture_ubatches(ubatch_metadata, self.model)
+        elif (
+            num_tokens in self.cudagraphs
+            and cudagraph_runtime_mode is CUDAGraphMode.FULL
+        ):
+            cudagraph_metadata = self.cudagraphs[num_tokens]
+            cudagraph_metadata.cudagraph.replay()
+            return cudagraph_metadata.outputs
+        else:
+            ubatch_metadata = self._make_ubatch_metadata(
+                ubatch_slices=ubatch_slices,
+                attn_metadata=attn_metadata,
+                input_ids=input_ids,
+                positions=positions,
+                intermediate_tensors=intermediate_tensors,
+                inputs_embeds=inputs_embeds,
+                compute_stream=compute_stream,
+                dp_metadata=dp_metadata,
+                batch_descriptor=batch_descriptor,
+                cudagraph_runtime_mode=CUDAGraphMode.NONE,
+            )
+            with self.sm_control:
+                return self._run_ubatches(ubatch_metadata, self.model)
diff --git a/v1/worker/gpu_worker.py b/v1/worker/gpu_worker.py
new file mode 100644
index 0000000..52f84dd
--- /dev/null
+++ b/v1/worker/gpu_worker.py
@@ -0,0 +1,894 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""A GPU worker class."""
+
+import gc
+import os
+from contextlib import AbstractContextManager, nullcontext
+from types import NoneType
+from typing import TYPE_CHECKING, Any
+
+import torch
+import torch.distributed
+import torch.nn as nn
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    ensure_model_parallel_initialized,
+    init_distributed_environment,
+    set_custom_all_reduce,
+)
+from vllm.distributed.ec_transfer import ensure_ec_transfer_initialized
+from vllm.distributed.kv_transfer import (
+    ensure_kv_transfer_initialized,
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+)
+from vllm.distributed.parallel_state import (
+    get_pp_group,
+    get_tp_group,
+)
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.model_executor import set_random_seed
+from vllm.model_executor.models.interfaces import is_mixture_of_experts
+from vllm.model_executor.warmup.kernel_warmup import kernel_warmup
+from vllm.platforms import current_platform
+from vllm.profiler.gpu_profiler import CudaProfilerWrapper
+from vllm.sequence import IntermediateTensors
+from vllm.tasks import SupportedTask
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.utils.mem_utils import MemorySnapshot, memory_profiling
+from vllm.v1.core.sched.output import GrammarOutput
+from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
+from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
+from vllm.v1.outputs import (
+    AsyncModelRunnerOutput,
+    DraftTokenIds,
+    ModelRunnerOutput,
+)
+from vllm.v1.utils import report_usage_stats
+from vllm.v1.worker.gpu_model_runner import GPUModelRunner
+from vllm.v1.worker.utils import is_residual_scattered_for_sp
+from vllm.v1.worker.worker_base import WorkerBase
+
+logger = init_logger(__name__)
+
+if TYPE_CHECKING:
+    from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
+    from vllm.v1.core.sched.output import SchedulerOutput
+
+
+class Worker(WorkerBase):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        is_driver_worker: bool = False,
+    ):
+        super().__init__(
+            vllm_config=vllm_config,
+            local_rank=local_rank,
+            rank=rank,
+            distributed_init_method=distributed_init_method,
+            is_driver_worker=is_driver_worker,
+        )
+
+        if self.model_config.trust_remote_code:
+            # note: lazy import to avoid importing torch before initializing
+            from vllm.utils.import_utils import init_cached_hf_modules
+
+            init_cached_hf_modules()
+
+        # Buffers saved before sleep
+        self._sleep_saved_buffers: dict[str, torch.Tensor] = {}
+
+        # Torch profiler. Enabled and configured through env vars:
+        # VLLM_TORCH_PROFILER_DIR=/path/to/save/trace
+        if envs.VLLM_TORCH_PROFILER_DIR:
+            torch_profiler_trace_dir = envs.VLLM_TORCH_PROFILER_DIR
+            worker_name = f"{vllm_config.instance_id}-rank-{self.rank}"
+            logger.info(
+                "Profiling enabled. Traces will be saved to: %s",
+                torch_profiler_trace_dir,
+            )
+            logger.debug(
+                "Profiler config: record_shapes=%s,"
+                "profile_memory=%s,with_stack=%s,with_flops=%s",
+                envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+            )
+            self.profiler = torch.profiler.profile(
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                    torch.profiler.ProfilerActivity.CUDA,
+                ],
+                record_shapes=envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                profile_memory=envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                with_stack=envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                with_flops=envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    torch_profiler_trace_dir, worker_name=worker_name, use_gzip=True
+                ),
+            )
+        elif envs.VLLM_TORCH_CUDA_PROFILE:
+            self.profiler = CudaProfilerWrapper()
+        else:
+            self.profiler = None
+
+    def sleep(self, level: int = 1) -> None:
+        from vllm.device_allocator.cumem import CuMemAllocator
+
+        free_bytes_before_sleep = torch.cuda.mem_get_info()[0]
+
+        # Save the buffers before level 2 sleep
+        if level == 2:
+            model = self.model_runner.model
+            self._sleep_saved_buffers = {
+                name: buffer.cpu().clone() for name, buffer in model.named_buffers()
+            }
+
+        allocator = CuMemAllocator.get_instance()
+        allocator.sleep(offload_tags=("weights",) if level == 1 else tuple())
+        free_bytes_after_sleep, total = torch.cuda.mem_get_info()
+        freed_bytes = free_bytes_after_sleep - free_bytes_before_sleep
+        used_bytes = total - free_bytes_after_sleep
+        assert freed_bytes >= 0, "Memory usage increased after sleeping."
+        logger.info(
+            "Sleep mode freed %.2f GiB memory, %.2f GiB memory is still in use.",
+            freed_bytes / GiB_bytes,
+            used_bytes / GiB_bytes,
+        )
+
+    def wake_up(self, tags: list[str] | None = None) -> None:
+        from vllm.device_allocator.cumem import CuMemAllocator
+
+        allocator = CuMemAllocator.get_instance()
+        allocator.wake_up(tags)
+
+        # Restore the buffers after level 2 sleep
+        if len(self._sleep_saved_buffers):
+            model = self.model_runner.model
+            for name, buffer in model.named_buffers():
+                if name in self._sleep_saved_buffers:
+                    buffer.data.copy_(self._sleep_saved_buffers[name].data)
+            self._sleep_saved_buffers = {}
+
+    def _maybe_get_memory_pool_context(self, tag: str) -> AbstractContextManager:
+        if self.vllm_config.model_config.enable_sleep_mode:
+            from vllm.device_allocator.cumem import CuMemAllocator
+
+            allocator = CuMemAllocator.get_instance()
+            if tag == "weights":
+                assert allocator.get_current_usage() == 0, (
+                    "Sleep mode can only be used for one instance per process."
+                )
+            context = allocator.use_memory_pool(tag=tag)
+        else:
+            context = nullcontext()
+        return context
+
+    def initialize_cache(self, num_gpu_blocks: int, num_cpu_blocks: int) -> None:
+        self.cache_config.num_gpu_blocks = num_gpu_blocks
+        self.cache_config.num_cpu_blocks = num_cpu_blocks
+
+    def init_device(self):
+        if self.device_config.device.type == "cuda":
+            # This env var set by Ray causes exceptions with graph building.
+            os.environ.pop("NCCL_ASYNC_ERROR_HANDLING", None)
+            if (
+                self.parallel_config.data_parallel_size > 1
+                and self.parallel_config.data_parallel_size_local > 0
+                and self.parallel_config.distributed_executor_backend
+                not in ["ray", "external_launcher"]
+                and self.vllm_config.parallel_config.data_parallel_backend != "ray"
+                and self.vllm_config.parallel_config.nnodes_within_dp == 1
+            ):
+                # Use local DP rank if available, otherwise use global DP rank.
+                dp_local_rank = self.parallel_config.data_parallel_rank_local
+                if dp_local_rank is None:
+                    dp_local_rank = self.parallel_config.data_parallel_rank
+
+                tp_pp_world_size = (
+                    self.parallel_config.pipeline_parallel_size
+                    * self.parallel_config.tensor_parallel_size
+                )
+
+                # DP_LOCAL_RANK * TP_PP_WORLD_SIZE + TP_LOCAL_RANK
+                self.local_rank += dp_local_rank * tp_pp_world_size
+                assert self.local_rank < torch.cuda.device_count(), (
+                    f"DP adjusted local rank {self.local_rank} is out of bounds. "
+                )
+                visible_device_count = (
+                    torch.cuda.device_count() if torch.cuda.is_available() else 0
+                )
+                assert self.parallel_config.local_world_size <= visible_device_count, (
+                    f"local_world_size ({self.parallel_config.local_world_size}) must "
+                    f"be less than or equal to the number of visible devices "
+                    f"({visible_device_count})."
+                )
+            self.device = torch.device(f"cuda:{self.local_rank}")
+            current_platform.set_device(self.device)
+
+            current_platform.check_if_supports_dtype(self.model_config.dtype)
+
+            # Initialize the distributed environment BEFORE taking
+            # memory snapshot
+            # This ensures NCCL buffers are allocated before we measure
+            # available memory
+            init_worker_distributed_environment(
+                self.vllm_config,
+                self.rank,
+                self.distributed_init_method,
+                self.local_rank,
+                current_platform.dist_backend,
+            )
+
+            # Set random seed.
+            set_random_seed(self.model_config.seed)
+
+            # Now take memory snapshot after NCCL is initialized
+            gc.collect()
+            torch.cuda.empty_cache()
+
+            # take current memory snapshot
+            self.init_snapshot = MemorySnapshot()
+            self.requested_memory = (
+                self.init_snapshot.total_memory
+                * self.cache_config.gpu_memory_utilization
+            )
+            if self.init_snapshot.free_memory < self.requested_memory:
+                GiB = lambda b: round(b / GiB_bytes, 2)
+                raise ValueError(
+                    f"Free memory on device "
+                    f"({GiB(self.init_snapshot.free_memory)}/"
+                    f"{GiB(self.init_snapshot.total_memory)} GiB) on startup "
+                    f"is less than desired GPU memory utilization "
+                    f"({self.cache_config.gpu_memory_utilization}, "
+                    f"{GiB(self.requested_memory)} GiB). Decrease GPU memory "
+                    f"utilization or reduce GPU memory used by other processes."
+                )
+        else:
+            raise RuntimeError(f"Not support device type: {self.device_config.device}")
+
+        # Construct the model runner
+        self.model_runner: GPUModelRunner = GPUModelRunner(
+            self.vllm_config, self.device
+        )
+
+        if self.rank == 0:
+            # If usage stat is enabled, collect relevant info.
+            report_usage_stats(self.vllm_config)
+
+    # FIXME(youkaichao & ywang96): Use TorchDispatchMode instead of memory pool
+    # to hijack tensor allocation.
+    def load_model(self) -> None:
+        eep_scale_up = os.environ.get("VLLM_ELASTIC_EP_SCALE_UP_LAUNCH") == "1"
+        with self._maybe_get_memory_pool_context(tag="weights"):
+            self.model_runner.load_model(eep_scale_up=eep_scale_up)
+
+    def update_config(self, overrides: dict[str, Any]) -> None:
+        self.model_runner.update_config(overrides)
+
+    def reload_weights(self) -> None:
+        self.model_runner.reload_weights()
+
+    @torch.inference_mode()
+    def determine_available_memory(self) -> int:
+        """Profiles the peak memory usage of the model to determine how much
+        memory can be used for KV cache without OOMs.
+
+        The engine will first conduct a profiling of the existing memory usage.
+        Then, it calculates the free memory that can be used for KV cache in
+        bytes.
+
+        Tip:
+            You may limit the usage of GPU memory
+            by adjusting the `gpu_memory_utilization` parameter.
+        """
+        GiB = lambda b: b / GiB_bytes
+        if kv_cache_memory_bytes := self.cache_config.kv_cache_memory_bytes:
+            # still need a profile run which compiles the model for
+            # max_num_batched_tokens
+            self.model_runner.profile_run()
+
+            msg = (
+                f"Initial free memory {GiB(self.init_snapshot.free_memory):.2f} "
+                f"GiB, reserved {GiB(kv_cache_memory_bytes):.2f} GiB memory for "
+                "KV Cache as specified by kv_cache_memory_bytes config and "
+                "skipped memory profiling. This does not respect the "
+                "gpu_memory_utilization config. Only use kv_cache_memory_bytes "
+                "config when you want manual control of KV cache memory "
+                "size. If OOM'ed, check the difference of initial free "
+                "memory between the current run and the previous run "
+                "where kv_cache_memory_bytes is suggested and update it "
+                "correspondingly."
+            )
+            logger.info(msg)
+            return kv_cache_memory_bytes
+
+        torch.cuda.empty_cache()
+        torch.cuda.reset_peak_memory_stats()
+
+        # Execute a forward pass with dummy inputs to profile the memory usage
+        # of the model.
+        with memory_profiling(
+            self.init_snapshot,
+            weights_memory=int(self.model_runner.model_memory_usage),
+        ) as profile_result:
+            self.model_runner.profile_run()
+
+        self.non_torch_memory = profile_result.non_torch_increase
+        self.peak_activation_memory = profile_result.torch_peak_increase
+
+        free_gpu_memory = profile_result.after_profile.free_memory
+        # NOTE(woosuk): Here we assume that the other processes using the same
+        # GPU did not change their memory usage during the profiling.
+        assert self.init_snapshot.free_memory > free_gpu_memory, (
+            "Error in memory profiling. "
+            f"Initial free memory {GiB(self.init_snapshot.free_memory)} GiB, "
+            f"current free memory {GiB(free_gpu_memory)} GiB. "
+            "This happens when other processes sharing the same container "
+            "release GPU memory while vLLM is profiling during initialization. "
+            "To fix this, ensure consistent GPU memory allocation or "
+            "isolate vLLM in its own container."
+        )
+        self.available_kv_cache_memory_bytes = (
+            self.requested_memory - profile_result.non_kv_cache_memory
+        )
+
+        unrequested_memory = self.init_snapshot.free_memory - self.requested_memory
+        logger.debug(
+            "Initial free memory: %.2f GiB; Requested memory: %.2f (util), %.2f GiB",
+            GiB(self.init_snapshot.free_memory),
+            self.cache_config.gpu_memory_utilization,
+            GiB(self.requested_memory),
+        )
+        logger.debug(
+            "Free memory after profiling: %.2f GiB (total), "
+            "%.2f GiB (within requested)",
+            GiB(free_gpu_memory),
+            GiB(free_gpu_memory - unrequested_memory),
+        )
+        logger.debug(profile_result)
+        logger.info_once(
+            "Available KV cache memory: %.2f GiB",
+            GiB(self.available_kv_cache_memory_bytes),
+            scope="local",
+        )
+        gc.collect()
+
+        return int(self.available_kv_cache_memory_bytes)
+
+    def get_kv_connector_handshake_metadata(self) -> dict | None:
+        """Get KV connector metadata from this worker if available."""
+
+        if not has_kv_transfer_group():
+            return None
+
+        connector = get_kv_transfer_group()
+        # Return None for connectors that don't need to exchange handshake
+        # metadata across workers.
+        if (metadata := connector.get_handshake_metadata()) is None:
+            return None
+
+        tp_rank = get_tp_group().rank_in_group
+        return {tp_rank: metadata}
+
+    def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
+        return self.model_runner.get_kv_cache_spec()
+
+    def initialize_from_config(self, kv_cache_config: KVCacheConfig) -> None:
+        """Allocate GPU KV cache with the specified kv_cache_config."""
+
+        # Init kv cache connector here, because it requires
+        # `kv_cache_config`.
+        # NOTE(Kuntai): This need to be done before `initialize_kv_cache`,
+        # because `initialize_kv_cache` will inject kv cache groups not
+        # related to kv cache connector (e.g. kv cache sharing layers).
+        ensure_kv_transfer_initialized(self.vllm_config, kv_cache_config)
+
+        if self.vllm_config.model_config.enable_sleep_mode:
+            from vllm.device_allocator.cumem import CuMemAllocator
+
+            allocator = CuMemAllocator.get_instance()
+            context = allocator.use_memory_pool(tag="kv_cache")
+        else:
+            context = nullcontext()
+        with context:
+            self.model_runner.initialize_kv_cache(kv_cache_config)
+
+    def compile_or_warm_up_model(self) -> None:
+        # warm up sizes that are not in cudagraph capture sizes,
+        # but users still want to compile for better performance,
+        # e.g. for the max-num-batched token size in chunked prefill.
+        warmup_sizes = self.vllm_config.compilation_config.compile_sizes.copy()
+        if not self.model_config.enforce_eager:
+            warmup_sizes = [
+                x
+                for x in warmup_sizes
+                if x not in self.vllm_config.compilation_config.cudagraph_capture_sizes
+            ]
+        # We skip EPLB here since we don't want to record dummy metrics
+        for size in sorted(warmup_sizes, reverse=True):
+            logger.info("Compile and warming up model for size %d", size)
+            self.model_runner._dummy_run(size, skip_eplb=True, remove_lora=False)
+        self.model_runner.maybe_remove_all_loras(self.model_runner.lora_config)
+
+        # Warmup and tune the kernels used during model execution before
+        # cuda graph capture.
+        kernel_warmup(self)
+
+        cuda_graph_memory_bytes = 0
+        if not self.model_config.enforce_eager:
+            cuda_graph_memory_bytes = self.model_runner.capture_model()
+
+        if self.cache_config.kv_cache_memory_bytes is None and hasattr(
+            self, "peak_activation_memory"
+        ):
+            # Suggests optimal kv cache memory size if we rely on
+            # memory_profiling to guess the kv cache memory size which
+            # provides peak_activation_memory and a few other memory
+            # consumption. `memory_profiling` does not consider
+            # CUDAGraph memory size and may not utilize all gpu memory.
+            # Users may want fine-grained control to specify kv cache
+            # memory size.
+            GiB = lambda b: round(b / GiB_bytes, 2)
+
+            # empirically observed that the memory profiling may
+            # slightly underestimate the memory consumption.
+            # So leave a small buffer (=150MiB) to avoid OOM.
+            redundancy_buffer_memory = 150 * (1 << 20)
+            non_kv_cache_memory = (
+                self.model_runner.model_memory_usage
+                + self.peak_activation_memory
+                + self.non_torch_memory
+                + cuda_graph_memory_bytes
+            )
+            kv_cache_memory_bytes_to_gpu_limit = (
+                self.init_snapshot.free_memory
+                - non_kv_cache_memory
+                - redundancy_buffer_memory
+            )
+            kv_cache_memory_bytes_to_requested_limit = (
+                int(self.requested_memory)
+                - non_kv_cache_memory
+                - redundancy_buffer_memory
+            )
+
+            msg = (
+                f"Free memory on device "
+                f"({GiB(self.init_snapshot.free_memory)}/"
+                f"{GiB(self.init_snapshot.total_memory)} GiB) on startup. "
+                f"Desired GPU memory utilization is "
+                f"({self.cache_config.gpu_memory_utilization}, "
+                f"{GiB(self.requested_memory)} GiB). "
+                f"Actual usage is {GiB(self.model_runner.model_memory_usage)} "
+                f"GiB for weight, {GiB(self.peak_activation_memory)} GiB "
+                f"for peak activation, {GiB(self.non_torch_memory)} GiB "
+                f"for non-torch memory, and {GiB(cuda_graph_memory_bytes)} "
+                f"GiB for CUDAGraph memory. Replace gpu_memory_utilization "
+                f"config with `--kv-cache-memory="
+                f"{kv_cache_memory_bytes_to_requested_limit}` "
+                f"({GiB(kv_cache_memory_bytes_to_requested_limit)} GiB) to fit "
+                f"into requested memory, or `--kv-cache-memory="
+                f"{kv_cache_memory_bytes_to_gpu_limit}` "
+                f"({GiB(kv_cache_memory_bytes_to_gpu_limit)} GiB) to fully "
+                f"utilize gpu memory. Current kv cache memory in use is "
+                f"{GiB(self.available_kv_cache_memory_bytes)} GiB."
+            )
+
+            logger.debug(msg)
+
+        # Warm up sampler and preallocate memory buffer for logits and other
+        # sampling related tensors of max possible shape to avoid memory
+        # fragmentation issue.
+        # NOTE: This is called after `capture_model` on purpose to prevent
+        # memory buffers from being cleared by `torch.cuda.empty_cache`.
+        if get_pp_group().is_last_rank:
+            max_num_reqs = min(
+                self.scheduler_config.max_num_seqs,
+                self.scheduler_config.max_num_batched_tokens,
+            )
+
+            # We skip EPLB here since we don't want to record dummy metrics
+            hidden_states, last_hidden_states = self.model_runner._dummy_run(
+                num_tokens=max_num_reqs,
+                skip_eplb=True,
+            )
+            if self.model_runner.is_pooling_model:
+                self.model_runner._dummy_pooler_run(hidden_states)
+            else:
+                self.model_runner._dummy_sampler_run(hidden_states=last_hidden_states)
+
+        # Reset the seed to ensure that the random state is not affected by
+        # the model initialization and profiling.
+        set_random_seed(self.model_config.seed)
+
+    def reset_mm_cache(self) -> None:
+        self.model_runner.reset_mm_cache()
+
+    def get_model(self) -> nn.Module:
+        return self.model_runner.get_model()
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.model_runner.get_supported_tasks()
+
+    def annotate_profile(self, scheduler_output):
+        # add trace annotation so that we can easily distinguish
+        # new/cached request numbers in each iteration
+        if not self.profiler:
+            return nullcontext()
+
+        num_new = len(scheduler_output.scheduled_new_reqs)
+        num_cached = len(scheduler_output.scheduled_cached_reqs.req_ids)
+
+        return torch.profiler.record_function(
+            f"execute_new_{num_new}_cached_{num_cached}"
+        )
+
+    @torch.inference_mode()
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput | None"
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
+        return self.model_runner.sample_tokens(grammar_output)
+
+    @torch.inference_mode()
+    def execute_model(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> ModelRunnerOutput | None:
+        intermediate_tensors = None
+        forward_pass = scheduler_output.total_num_scheduled_tokens > 0
+        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        num_input_tokens = self.model_runner._get_num_input_tokens(num_scheduled_tokens)
+        all_gather_tensors = {
+            "residual": not is_residual_scattered_for_sp(
+                self.vllm_config, num_input_tokens
+            )
+        }
+        if forward_pass and not get_pp_group().is_first_rank:
+            intermediate_tensors = IntermediateTensors(
+                get_pp_group().recv_tensor_dict(
+                    all_gather_group=get_tp_group(),
+                    all_gather_tensors=all_gather_tensors,
+                )
+            )
+
+        with self.annotate_profile(scheduler_output):
+            output = self.model_runner.execute_model(
+                scheduler_output, intermediate_tensors
+            )
+            if isinstance(output, (ModelRunnerOutput, NoneType)):
+                return output
+
+        assert isinstance(output, IntermediateTensors)
+        parallel_config = self.vllm_config.parallel_config
+        assert (
+            parallel_config.distributed_executor_backend != "external_launcher"
+            and not get_pp_group().is_last_rank
+        )
+
+        get_pp_group().send_tensor_dict(
+            output.tensors,
+            all_gather_group=get_tp_group(),
+            all_gather_tensors=all_gather_tensors,
+        )
+
+        return None
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        return self.model_runner.take_draft_token_ids()
+
+    def profile(self, is_start: bool = True):
+        if self.profiler is None:
+            raise RuntimeError("Profiler is not enabled.")
+        if is_start:
+            self.profiler.start()
+        else:
+            self.profiler.stop()
+            if isinstance(self.profiler, torch.profiler.profile):
+                rank = self.local_rank
+                profiler_dir = envs.VLLM_TORCH_PROFILER_DIR
+                profiler_out_file = f"{profiler_dir}/profiler_out_{rank}.txt"
+                sort_key = "self_cuda_time_total"
+                table = self.profiler.key_averages().table(sort_by=sort_key)
+
+                with open(profiler_out_file, "w") as f:
+                    print(table, file=f)
+
+                # only print profiler results on rank 0
+                if rank == 0:
+                    print(table)
+
+    def execute_dummy_batch(self) -> None:
+        self.model_runner._dummy_run(1, uniform_decode=True)
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.model_runner.add_lora(lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        return self.model_runner.remove_lora(lora_id)
+
+    def list_loras(self) -> set[int]:
+        return self.model_runner.list_loras()
+
+    def pin_lora(self, lora_id: int) -> bool:
+        return self.model_runner.pin_lora(lora_id)
+
+    def check_health(self) -> None:
+        # worker will always be healthy as long as it's running.
+        return
+
+    def _eplb_before_scale_down(self, old_ep_size: int, new_ep_size: int) -> None:
+        from vllm.distributed.parallel_state import get_ep_group
+
+        if get_ep_group().rank == 0:
+            logger.info(
+                "[Elastic EP] Starting expert resharding before scaling down..."
+            )
+        rank_mapping = {
+            old_ep_rank: old_ep_rank if old_ep_rank < new_ep_size else -1
+            for old_ep_rank in range(old_ep_size)
+        }
+        assert self.model_runner.eplb_state is not None
+        self.model_runner.eplb_state.rearrange(
+            execute_shuffle=True,
+            global_expert_load=None,
+            rank_mapping=rank_mapping,
+        )
+        torch.cuda.synchronize()
+        if get_ep_group().rank == 0:
+            logger.info("[Elastic EP] Expert resharding completed!")
+
+    def _eplb_after_scale_up(
+        self,
+        old_ep_size: int,
+        new_ep_size: int,
+        global_expert_loads: list[torch.Tensor] | None,
+    ) -> None:
+        from vllm.distributed.parallel_state import get_ep_group
+
+        if get_ep_group().rank == 0:
+            logger.info("[Elastic EP] Starting expert resharding after scaling up...")
+        rank_mapping = {old_ep_rank: old_ep_rank for old_ep_rank in range(old_ep_size)}
+        assert self.model_runner.eplb_state is not None
+        self.model_runner.eplb_state.rearrange(
+            execute_shuffle=True,
+            global_expert_loads=global_expert_loads,
+            rank_mapping=rank_mapping,
+        )
+        if get_ep_group().rank == 0:
+            logger.info("[Elastic EP] Expert resharding completed!")
+
+    def _reconfigure_parallel_config(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        """
+        Update parallel config with provided reconfig_request
+        """
+        parallel_config = self.vllm_config.parallel_config
+        parallel_config.data_parallel_size = reconfig_request.new_data_parallel_size
+        if (
+            reconfig_request.new_data_parallel_rank
+            != ReconfigureRankType.KEEP_CURRENT_RANK
+        ):
+            parallel_config.data_parallel_rank = reconfig_request.new_data_parallel_rank
+        if (
+            reconfig_request.new_data_parallel_rank_local
+            != ReconfigureRankType.KEEP_CURRENT_RANK
+        ):
+            parallel_config.data_parallel_rank_local = (
+                reconfig_request.new_data_parallel_rank_local
+            )
+        parallel_config.data_parallel_master_ip = (
+            reconfig_request.new_data_parallel_master_ip
+        )
+        parallel_config.data_parallel_master_port = (
+            reconfig_request.new_data_parallel_master_port
+        )
+
+    def _reconfigure_moe(
+        self, old_ep_size: int, new_ep_size: int
+    ) -> torch.Tensor | None:
+        """
+        Reconfigure MoE modules with provided reconfig_request
+
+        Return the global expert load if new_ep_size > old_ep_size,
+        otherwise None
+        """
+        from vllm.distributed.parallel_state import (
+            get_dp_group,
+            get_ep_group,
+            prepare_communication_buffer_for_model,
+        )
+        from vllm.model_executor.layers.fused_moe.layer import (
+            FusedMoE,
+            FusedMoEParallelConfig,
+        )
+
+        parallel_config = self.vllm_config.parallel_config
+
+        def get_moe_modules(model: torch.nn.Module) -> list[FusedMoE]:
+            return [
+                module
+                for module in model.modules()
+                if (
+                    module.__class__.__name__ == "FusedMoE"
+                    or module.__class__.__name__ == "SharedFusedMoE"
+                )
+            ]
+
+        def update_moe_modules(moe_modules: list[FusedMoE], num_local_experts: int):
+            assert all(
+                module.moe_config.num_local_experts == num_local_experts
+                for module in moe_modules
+            ), "All MoE modules must have the same number of experts"
+            for module in moe_modules:
+                module.moe_config.num_experts = num_local_experts * new_ep_size
+                module.global_num_experts = module.moe_config.num_experts
+                module.moe_parallel_config = FusedMoEParallelConfig.make(
+                    tp_size_=get_tp_group().world_size,
+                    dp_size_=get_dp_group().world_size,
+                    vllm_parallel_config=parallel_config,
+                )
+                module.moe_config.moe_parallel_config = module.moe_parallel_config
+            return moe_modules
+
+        model_moe_modules = get_moe_modules(self.model_runner.model)
+        num_local_experts = model_moe_modules[0].moe_config.num_local_experts
+
+        update_moe_modules(model_moe_modules, num_local_experts)
+        drafter_model = None
+        if hasattr(self.model_runner, "drafter") and hasattr(
+            self.model_runner.drafter, "model"
+        ):
+            drafter_model = self.model_runner.drafter.model
+        if drafter_model is not None and is_mixture_of_experts(drafter_model):
+            drafter_moe_modules = get_moe_modules(drafter_model)
+            # Check if drafter and model have matching configs
+            assert (
+                drafter_moe_modules[0].moe_config.num_local_experts == num_local_experts
+            ), "Drafter and model configs should be the same"
+            update_moe_modules(drafter_moe_modules, num_local_experts)
+
+        if new_ep_size < old_ep_size:
+            num_local_physical_experts = num_local_experts
+            assert self.model_runner.eplb_state is not None
+            new_physical_experts = (
+                self.model_runner.eplb_state.physical_to_logical_map.shape[1]
+            )
+            parallel_config.eplb_config.num_redundant_experts = (
+                new_physical_experts
+                - self.model_runner.eplb_state.logical_replica_count.shape[1]
+            )
+            global_expert_loads = None
+        else:
+            num_local_physical_experts = torch.tensor(
+                [num_local_experts], dtype=torch.int32, device="cpu"
+            )
+            torch.distributed.broadcast(
+                num_local_physical_experts, group=get_ep_group().cpu_group, group_src=0
+            )
+            num_local_physical_experts = num_local_physical_experts.item()
+            new_physical_experts = num_local_physical_experts * new_ep_size
+            assert self.model_runner.eplb_state is not None
+            global_expert_loads = self.model_runner.eplb_state.rearrange(
+                execute_shuffle=False
+            )
+            parallel_config.eplb_config.num_redundant_experts = (
+                new_physical_experts - global_expert_loads[0].shape[1]
+            )
+        prepare_communication_buffer_for_model(self.model_runner.model)
+        if drafter_model is not None:
+            prepare_communication_buffer_for_model(drafter_model)
+        self.model_runner.model.update_physical_experts_metadata(
+            num_physical_experts=new_physical_experts,
+            num_local_physical_experts=num_local_physical_experts,
+        )
+        return global_expert_loads
+
+    def reinitialize_distributed(
+        self, reconfig_request: ReconfigureDistributedRequest
+    ) -> None:
+        from vllm.config import set_current_vllm_config
+        from vllm.distributed.parallel_state import (
+            cleanup_dist_env_and_memory,
+            get_ep_group,
+        )
+
+        old_ep_size = get_ep_group().world_size
+        old_ep_rank = get_ep_group().rank
+        new_ep_size = (
+            reconfig_request.new_data_parallel_size
+            * get_tp_group().world_size
+            * get_pp_group().world_size
+        )
+        if new_ep_size < old_ep_size:
+            self._eplb_before_scale_down(old_ep_size, new_ep_size)
+
+        cleanup_dist_env_and_memory()
+
+        if (
+            reconfig_request.new_data_parallel_rank
+            == ReconfigureRankType.SHUTDOWN_CURRENT_RANK
+        ):
+            assert old_ep_rank >= new_ep_size
+            # shutdown
+            return
+
+        self._reconfigure_parallel_config(reconfig_request)
+
+        with set_current_vllm_config(self.vllm_config):
+            init_worker_distributed_environment(
+                self.vllm_config,
+                self.rank,
+                self.distributed_init_method,
+                self.local_rank,
+            )
+
+        global_expert_loads = self._reconfigure_moe(old_ep_size, new_ep_size)
+
+        if new_ep_size > old_ep_size:
+            assert global_expert_loads is not None
+            self._eplb_after_scale_up(old_ep_size, new_ep_size, global_expert_loads)
+
+    def save_sharded_state(
+        self,
+        path: str,
+        pattern: str | None = None,
+        max_size: int | None = None,
+    ) -> None:
+        from vllm.model_executor.model_loader import ShardedStateLoader
+
+        ShardedStateLoader.save_model(
+            self.model_runner.model,
+            path,
+            pattern=pattern,
+            max_size=max_size,
+        )
+
+    def save_tensorized_model(
+        self,
+        tensorizer_config: "TensorizerConfig",
+    ) -> None:
+        self.model_runner.save_tensorized_model(
+            tensorizer_config=tensorizer_config,
+        )
+
+    def shutdown(self) -> None:
+        if runner := getattr(self, "model_runner", None):
+            runner.ensure_kv_transfer_shutdown()
+
+
+def init_worker_distributed_environment(
+    vllm_config: VllmConfig,
+    rank: int,
+    distributed_init_method: str | None = None,
+    local_rank: int = -1,
+    backend: str = "nccl",
+) -> None:
+    """Initialize the distributed environment."""
+    parallel_config = vllm_config.parallel_config
+    from vllm.model_executor.layers.batch_invariant import init_batch_invariance
+
+    init_batch_invariance()
+    set_custom_all_reduce(not parallel_config.disable_custom_all_reduce)
+
+    init_distributed_environment(
+        parallel_config.world_size, rank, distributed_init_method, local_rank, backend
+    )
+
+    ensure_model_parallel_initialized(
+        parallel_config.tensor_parallel_size,
+        parallel_config.pipeline_parallel_size,
+        parallel_config.decode_context_parallel_size,
+    )
+
+    # Init ec connector here before KV caches caches init
+    # NOTE: We do not init KV caches for Encoder-only instance in EPD disagg mode
+    ensure_ec_transfer_initialized(vllm_config)
diff --git a/v1/worker/kv_connector_model_runner_mixin.py b/v1/worker/kv_connector_model_runner_mixin.py
new file mode 100644
index 0000000..db037a9
--- /dev/null
+++ b/v1/worker/kv_connector_model_runner_mixin.py
@@ -0,0 +1,144 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Define KV connector functionality mixin for model runners.
+"""
+
+import copy
+from collections.abc import Generator
+from contextlib import AbstractContextManager, contextmanager, nullcontext
+from typing import (
+    TYPE_CHECKING,  # noqa: UP035
+)
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer import (
+    ensure_kv_transfer_shutdown,
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+)
+from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBase
+from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
+from vllm.forward_context import get_forward_context, set_forward_context
+from vllm.logger import init_logger
+from vllm.v1.outputs import (
+    EMPTY_MODEL_RUNNER_OUTPUT,
+    KVConnectorOutput,
+    ModelRunnerOutput,
+)
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import SchedulerOutput
+
+logger = init_logger(__name__)
+
+
+# Defined as a kv connector functionality mixin for ModelRunner (GPU, TPU)
+class KVConnectorModelRunnerMixin:
+    @staticmethod
+    def maybe_setup_kv_connector(scheduler_output: "SchedulerOutput"):
+        # Update KVConnector with the KVConnector metadata forward().
+        if has_kv_transfer_group():
+            kv_connector = get_kv_transfer_group()
+            assert isinstance(kv_connector, KVConnectorBase)
+            assert scheduler_output.kv_connector_metadata is not None
+            kv_connector.bind_connector_metadata(scheduler_output.kv_connector_metadata)
+
+            # Background KV cache transfers happen here.
+            # These transfers are designed to be async and the requests
+            # involved may be disjoint from the running requests.
+            # Do this here to save a collective_rpc.
+            kv_connector.start_load_kv(get_forward_context())
+
+    @staticmethod
+    def ensure_kv_transfer_shutdown() -> None:
+        # has_kv_transfer_group can be None during interpreter shutdown.
+        if has_kv_transfer_group and has_kv_transfer_group():
+            ensure_kv_transfer_shutdown()
+
+    @staticmethod
+    def maybe_wait_for_kv_save() -> None:
+        if has_kv_transfer_group():
+            get_kv_transfer_group().wait_for_save()
+
+    @staticmethod
+    def get_finished_kv_transfers(
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[set[str] | None, set[str] | None]:
+        if has_kv_transfer_group():
+            return get_kv_transfer_group().get_finished(
+                scheduler_output.finished_req_ids
+            )
+        return None, None
+
+    @staticmethod
+    def kv_connector_no_forward(
+        scheduler_output: "SchedulerOutput", vllm_config: VllmConfig
+    ) -> ModelRunnerOutput:
+        # KV send/recv even if no work to do.
+        with (
+            set_forward_context(None, vllm_config),
+            KVConnectorModelRunnerMixin._get_kv_connector_output(
+                scheduler_output, wait_for_save=False
+            ) as kv_connector_output,
+        ):
+            pass
+
+        if kv_connector_output.is_empty():
+            return EMPTY_MODEL_RUNNER_OUTPUT
+
+        output = copy.copy(EMPTY_MODEL_RUNNER_OUTPUT)
+        output.kv_connector_output = kv_connector_output
+        return output
+
+    @staticmethod
+    def maybe_get_kv_connector_output(
+        scheduler_output: "SchedulerOutput",
+    ) -> AbstractContextManager[KVConnectorOutput | None]:
+        return (
+            KVConnectorModelRunnerMixin._get_kv_connector_output(scheduler_output)
+            if has_kv_transfer_group()
+            else nullcontext()
+        )
+
+    # This context manager must be used within an active forward context.
+    # It encapsulates the entire KV connector lifecycle within execute_model
+    @staticmethod
+    @contextmanager
+    def _get_kv_connector_output(
+        scheduler_output: "SchedulerOutput", wait_for_save: bool = True
+    ) -> Generator[KVConnectorOutput, None, None]:
+        output = KVConnectorOutput()
+
+        # Update KVConnector with the KVConnector metadata forward().
+        kv_connector = get_kv_transfer_group()
+        assert isinstance(kv_connector, KVConnectorBase)
+        assert scheduler_output.kv_connector_metadata is not None
+        kv_connector.bind_connector_metadata(scheduler_output.kv_connector_metadata)
+
+        # Background KV cache transfers happen here.
+        # These transfers are designed to be async and the requests
+        # involved may be disjoint from the running requests.
+        # Do this here to save a collective_rpc.
+        kv_connector.start_load_kv(get_forward_context())
+        try:
+            yield output
+        finally:
+            if wait_for_save:
+                kv_connector.wait_for_save()
+
+            output.finished_sending, output.finished_recving = (
+                kv_connector.get_finished(scheduler_output.finished_req_ids)
+            )
+            output.invalid_block_ids = kv_connector.get_block_ids_with_load_errors()
+
+            output.kv_connector_stats = (
+                KVConnectorModelRunnerMixin.get_kv_connector_stats()
+            )
+            kv_connector.clear_connector_metadata()
+
+    @staticmethod
+    def get_kv_connector_stats() -> KVConnectorStats | None:
+        if has_kv_transfer_group():
+            return get_kv_transfer_group().get_kv_connector_stats()
+        return None
diff --git a/v1/worker/lora_model_runner_mixin.py b/v1/worker/lora_model_runner_mixin.py
new file mode 100644
index 0000000..37abe56
--- /dev/null
+++ b/v1/worker/lora_model_runner_mixin.py
@@ -0,0 +1,213 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Define LoRA functionality mixin for model runners.
+"""
+
+from contextlib import contextmanager
+
+import numpy as np
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig
+from vllm.config.lora import LoRAConfig
+from vllm.logger import init_logger
+from vllm.lora.layers import LoRAMapping
+from vllm.lora.request import LoRARequest
+from vllm.lora.worker_manager import LRUCacheWorkerLoRAManager
+from vllm.model_executor.models import supports_lora, supports_multimodal
+from vllm.v1.worker.gpu_input_batch import InputBatch as GPUInputBatch
+from vllm.v1.worker.tpu_input_batch import InputBatch as TPUInputBatch
+
+InputBatch = TPUInputBatch | GPUInputBatch
+
+logger = init_logger(__name__)
+
+
+# Defined as a mixin for GPUModelRunner
+class LoRAModelRunnerMixin:
+    def load_lora_model(
+        self, model: nn.Module, vllm_config: VllmConfig, device: torch.device
+    ) -> nn.Module:
+        if not supports_lora(model):
+            raise ValueError(f"{model.__class__.__name__} does not support LoRA yet.")
+
+        if supports_multimodal(model):
+            logger.warning(
+                "Regarding multimodal models, vLLM currently "
+                "only supports adding LoRA to language model."
+            )
+        # Add LoRA Manager to the Model Runner
+        self.lora_manager = LRUCacheWorkerLoRAManager(
+            vllm_config,
+            device,
+            model.embedding_modules,
+            model.embedding_padding_modules,
+        )
+        return self.lora_manager.create_lora_manager(model)
+
+    def _set_active_loras(
+        self,
+        prompt_lora_mapping: tuple[int, ...],
+        token_lora_mapping: tuple[int, ...],
+        lora_requests: set[LoRARequest],
+    ) -> None:
+        self._ensure_lora_enabled()
+
+        # Set is_prefill to True, so we always use the SGMV kernels on
+        # non-cuda platforms.
+        # On cuda platforms we use the same kernels for prefill and
+        # decode and this flag is generally ignored.
+        lora_mapping = LoRAMapping(
+            token_lora_mapping, prompt_lora_mapping, is_prefill=True
+        )
+        self.lora_manager.set_active_adapters(lora_requests, lora_mapping)
+
+    def _ensure_lora_enabled(self) -> None:
+        if not hasattr(self, "lora_manager"):
+            raise RuntimeError("LoRA is not enabled. Use --enable-lora to enable LoRA.")
+
+    def set_active_loras(
+        self,
+        input_batch: InputBatch,
+        num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray | None = None,
+    ) -> None:
+        if num_sampled_tokens is None:
+            num_sampled_tokens = np.ones_like(num_scheduled_tokens, dtype=np.int32)
+
+        prompt_lora_mapping: tuple[int, ...]  # of size np.sum(num_sampled_tokens)
+        token_lora_mapping: tuple[int, ...]  # of size np.sum(num_scheduled_tokens)
+        lora_requests: set[LoRARequest]
+        prompt_lora_mapping, token_lora_mapping, lora_requests = (
+            input_batch.make_lora_inputs(num_scheduled_tokens, num_sampled_tokens)
+        )
+        return self._set_active_loras(
+            prompt_lora_mapping, token_lora_mapping, lora_requests
+        )
+
+    @contextmanager
+    def maybe_setup_dummy_loras(
+        self, lora_config: LoRAConfig | None, remove_lora: bool = True
+    ):
+        if lora_config is None:
+            yield
+        else:
+            # __enter__ code
+            assert self.lora_manager is not None, "LoRA is not enabled"
+
+            num_loras = lora_config.max_loras
+            lora_warmup_rank = (
+                lora_config.max_lora_rank if lora_config.max_lora_rank < 8 else 8
+            )
+            # Make dummy lora requests
+            lora_requests: set[LoRARequest] = {
+                LoRARequest(
+                    lora_name=f"warmup_{lora_id}",
+                    lora_int_id=lora_id,
+                    lora_path="/not/a/real/path",
+                )
+                for lora_id in range(1, num_loras + 1)
+            }
+
+            with self.lora_manager.dummy_lora_cache():
+                # Add the dummy LoRAs here so _set_active_loras doesn't try to
+                # load from disk.
+                for lr in lora_requests:
+                    self.lora_manager.add_dummy_lora(lr, rank=lora_warmup_rank)
+
+                yield
+
+            # __exit__ code
+            if remove_lora:
+                self.lora_manager.remove_all_adapters()
+
+    @contextmanager
+    def maybe_select_dummy_loras(
+        self,
+        lora_config: LoRAConfig | None,
+        num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray | None = None,
+        activate_lora: bool = True,
+    ):
+        if num_sampled_tokens is None:
+            num_sampled_tokens = np.ones_like(num_scheduled_tokens, dtype=np.int32)
+
+        if lora_config is None:
+            yield
+        else:
+            # __enter__ code
+            assert self.lora_manager is not None, "LoRA is not enabled"
+
+            num_reqs = len(num_scheduled_tokens)
+            num_loras = lora_config.max_loras
+
+            # Make prompt lora mapping
+            # Assign LoRA IDs cyclically to simulate a worst-case scenario.
+            if activate_lora:
+                prompt_lora_mapping = (
+                    np.arange(num_reqs, dtype=np.int32) % num_loras
+                ) + 1
+            else:
+                prompt_lora_mapping = np.zeros(num_reqs, dtype=np.int32)
+
+            # Make sample lora mapping
+            sample_lora_mapping = np.repeat(prompt_lora_mapping, num_sampled_tokens)
+
+            # Make token lora mapping
+            token_lora_mapping = np.repeat(prompt_lora_mapping, num_scheduled_tokens)
+
+            # Make dummy lora requests
+            lora_requests: set[LoRARequest] = {
+                LoRARequest(
+                    lora_name=f"warmup_{lora_id}",
+                    lora_int_id=lora_id,
+                    lora_path="/not/a/real/path",
+                )
+                for lora_id in range(1, num_loras + 1)
+            }
+
+            self._set_active_loras(
+                tuple(sample_lora_mapping), tuple(token_lora_mapping), lora_requests
+            )
+
+            yield
+
+    @contextmanager
+    def maybe_dummy_run_with_lora(
+        self,
+        lora_config: LoRAConfig | None,
+        num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray,
+        activate_lora: bool = True,
+        remove_lora: bool = True,
+    ):
+        with (
+            self.maybe_setup_dummy_loras(lora_config, remove_lora),
+            self.maybe_select_dummy_loras(
+                lora_config, num_scheduled_tokens, num_sampled_tokens, activate_lora
+            ),
+        ):
+            yield
+
+    def maybe_remove_all_loras(self, lora_config: LoRAConfig | None):
+        if lora_config is None:
+            return
+        self.lora_manager.remove_all_adapters()
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        self._ensure_lora_enabled()
+        return self.lora_manager.add_adapter(lora_request)
+
+    def remove_lora(self, lora_id: int) -> bool:
+        self._ensure_lora_enabled()
+        return self.lora_manager.remove_adapter(lora_id)
+
+    def pin_lora(self, lora_id: int) -> bool:
+        self._ensure_lora_enabled()
+        return self.lora_manager.pin_adapter(lora_id)
+
+    def list_loras(self) -> set[int]:
+        self._ensure_lora_enabled()
+        return self.lora_manager.list_adapters()
diff --git a/v1/worker/tpu_input_batch.py b/v1/worker/tpu_input_batch.py
new file mode 100644
index 0000000..6bf4f91
--- /dev/null
+++ b/v1/worker/tpu_input_batch.py
@@ -0,0 +1,593 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Datastructures defining a TPU input batch
+
+from typing import cast
+
+import numpy as np
+import torch
+
+from vllm.lora.request import LoRARequest
+from vllm.sampling_params import SamplingType
+from vllm.utils import length_from_prompt_token_ids_or_embeds
+from vllm.utils.collection_utils import swap_dict_values
+from vllm.v1.outputs import LogprobsTensors
+from vllm.v1.worker.block_table import MultiGroupBlockTable
+from vllm.v1.worker.gpu_input_batch import CachedRequestState
+
+_SAMPLING_EPS = 1e-5
+
+
+class InputBatch:
+    def __init__(
+        self,
+        max_num_reqs: int,
+        max_model_len: int,
+        max_num_batched_tokens: int,
+        device: torch.device,
+        pin_memory: bool,
+        vocab_size: int,
+        block_sizes: list[int],  # The block_size of each kv cache group
+        kernel_block_sizes: list[int],
+    ):
+        self.max_num_reqs = max_num_reqs
+        self.max_model_len = max_model_len
+        self.max_num_batched_tokens = max_num_batched_tokens
+        self.device = device
+        self.pin_memory = pin_memory
+        self.vocab_size = vocab_size
+
+        self._req_ids: list[str | None] = []
+        self.req_id_to_index: dict[str, int] = {}
+
+        # TODO(woosuk): This buffer could be too large if max_model_len is big.
+        # Find a way to reduce the CPU memory usage.
+        # This buffer is not directly transferred to the GPU, so it does not
+        # need to be pinned.
+        self.token_ids_cpu_tensor = torch.zeros(
+            (max_num_reqs, max_model_len),
+            device="cpu",
+            dtype=torch.int32,
+            pin_memory=False,
+        )
+        self.token_ids_cpu = self.token_ids_cpu_tensor.numpy()
+        self.num_tokens = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_tokens_no_spec = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_prompt_tokens = np.zeros(max_num_reqs, dtype=np.int32)
+        self.num_computed_tokens_cpu_tensor = torch.zeros(
+            (max_num_reqs,),
+            device="cpu",
+            dtype=torch.int32,
+            pin_memory=pin_memory,
+        )
+        self.num_computed_tokens_cpu = self.num_computed_tokens_cpu_tensor.numpy()
+
+        # Block table.
+        self.block_table = MultiGroupBlockTable(
+            max_num_reqs=max_num_reqs,
+            max_model_len=max_model_len,
+            max_num_batched_tokens=max_num_batched_tokens,
+            pin_memory=pin_memory,
+            device=device,
+            block_sizes=block_sizes,
+            kernel_block_sizes=kernel_block_sizes,
+        )
+
+        # Sampling-related.
+        self.temperature = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device=device
+        )
+        self.temperature_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=pin_memory
+        )
+        self.temperature_cpu = self.temperature_cpu_tensor.numpy()
+        self.greedy_reqs: set[str] = set()
+        self.random_reqs: set[str] = set()
+
+        self.top_p = torch.empty((max_num_reqs,), dtype=torch.float32, device=device)
+        self.top_p_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=pin_memory
+        )
+        self.top_p_cpu = self.top_p_cpu_tensor.numpy()
+        self.top_p_reqs: set[str] = set()
+
+        self.top_k = torch.empty((max_num_reqs,), dtype=torch.int32, device=device)
+        self.top_k_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.int32, device="cpu", pin_memory=pin_memory
+        )
+        self.top_k_cpu = self.top_k_cpu_tensor.numpy()
+        self.top_k_reqs: set[str] = set()
+
+        self.min_p = torch.empty((max_num_reqs,), dtype=torch.float32, device=device)
+        self.min_p_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float32, device="cpu", pin_memory=pin_memory
+        )
+        self.min_p_cpu = self.min_p_cpu_tensor.numpy()
+        self.min_p_reqs: set[str] = set()
+
+        # Frequency penalty related data structures
+        self.frequency_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.frequency_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.frequency_penalties_cpu = self.frequency_penalties_cpu_tensor.numpy()
+        self.frequency_penalties_reqs: set[str] = set()
+
+        # Presence penalty related data structures
+        self.presence_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.presence_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.presence_penalties_cpu = self.presence_penalties_cpu_tensor.numpy()
+        self.presence_penalties_reqs: set[str] = set()
+
+        # Repetition penalty related data structures
+        self.repetition_penalties = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device=device
+        )
+        self.repetition_penalties_cpu_tensor = torch.empty(
+            (max_num_reqs,), dtype=torch.float, device="cpu", pin_memory=pin_memory
+        )
+        self.repetition_penalties_cpu = self.repetition_penalties_cpu_tensor.numpy()
+        self.repetition_penalties_reqs: set[str] = set()
+
+        # req_index -> (min_tokens, stop_token_ids)
+        self.min_tokens: dict[int, tuple[int, set[int]]] = {}
+
+        # lora related
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
+        self.lora_id_to_request_ids: dict[int, set[str]] = {}
+        self.lora_id_to_lora_request: dict[int, LoRARequest] = {}
+
+        # req_index -> generator
+        # NOTE(woosuk): The indices of the requests that do not have their own
+        # generator should not be included in the dictionary.
+        self.generators: dict[int, torch.Generator] = {}
+
+        self.num_logprobs: dict[str, int] = {}
+        # NOTE(rob): num_prompt_logprobs only includes reqs
+        # that are currently in the prefill phase.
+        self.num_prompt_logprobs: dict[str, int] = {}
+
+        # To accumulate prompt logprobs tensor chunks across prefill steps.
+        self.in_progress_prompt_logprobs_cpu: dict[str, LogprobsTensors] = {}
+
+        self.logit_bias: list[dict[int, float] | None] = [None] * max_num_reqs
+        self.has_allowed_token_ids: set[str] = set()
+        # NOTE(lufang): In the mask tensor, if the corresponding token allowed,
+        # the value is False. Since we use masked_fill_ to set -inf.
+        self.allowed_token_ids_mask: torch.Tensor | None = None
+        self.allowed_token_ids_mask_cpu_tensor: torch.Tensor | None = None
+
+        # req_index -> bad_words_token_ids
+        self.bad_words_token_ids: dict[int, list[list[int]]] = {}
+
+        self.req_output_token_ids: list[list[int] | None] = []
+
+    @property
+    def req_ids(self) -> list[str]:
+        # None elements should only be present transiently
+        # while performing state updates to the batch.
+        return cast(list[str], self._req_ids)
+
+    def add_request(
+        self,
+        request: "CachedRequestState",
+        req_index: int | None = None,
+    ) -> None:
+        if req_index is None:
+            req_index = self.num_reqs
+        assert req_index < self.max_num_reqs
+
+        req_id = request.req_id
+        if req_index == len(self._req_ids):
+            self._req_ids.append(req_id)
+            self.req_output_token_ids.append(request.output_token_ids)
+        else:
+            self._req_ids[req_index] = req_id
+            self.req_output_token_ids[req_index] = request.output_token_ids
+
+        self.req_id_to_index[req_id] = req_index
+
+        # Copy the prompt token ids and output token ids.
+        num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
+            request.prompt_token_ids, request.prompt_embeds
+        )
+        # TODO: copy prompt_embeds
+        self.num_prompt_tokens[req_index] = num_prompt_tokens
+        self.token_ids_cpu[req_index, :num_prompt_tokens] = request.prompt_token_ids
+        start_idx = num_prompt_tokens
+        end_idx = start_idx + len(request.output_token_ids)
+        self.token_ids_cpu[req_index, start_idx:end_idx] = request.output_token_ids
+        # Number of token ids in token_ids_cpu.
+        # NOTE(woosuk): This may include spec decode tokens.
+        self.num_tokens[req_index] = request.num_tokens
+        # Number of tokens without spec decode tokens.
+        self.num_tokens_no_spec[req_index] = request.num_tokens
+
+        self.num_computed_tokens_cpu[req_index] = request.num_computed_tokens
+        self.block_table.add_row(request.block_ids, req_index)
+
+        sampling_params = request.sampling_params
+        assert sampling_params is not None, "pooling requests not supported yet"
+        if sampling_params.sampling_type == SamplingType.GREEDY:
+            # Should avoid division by zero later when apply_temperature.
+            self.temperature_cpu[req_index] = 0.0
+            self.greedy_reqs.add(req_id)
+        else:
+            self.temperature_cpu[req_index] = sampling_params.temperature
+            self.random_reqs.add(req_id)
+
+        self.top_p_cpu[req_index] = sampling_params.top_p
+        if sampling_params.top_p < 1:
+            self.top_p_reqs.add(req_id)
+        top_k = sampling_params.top_k
+        if 0 < top_k < self.vocab_size:
+            self.top_k_reqs.add(req_id)
+        else:
+            top_k = self.vocab_size
+        self.top_k_cpu[req_index] = top_k
+        self.min_p_cpu[req_index] = sampling_params.min_p
+        self.frequency_penalties_cpu[req_index] = sampling_params.frequency_penalty
+        if sampling_params.min_p > _SAMPLING_EPS:
+            self.min_p_reqs.add(req_id)
+        if sampling_params.frequency_penalty != 0.0:
+            self.frequency_penalties_reqs.add(req_id)
+        self.presence_penalties_cpu[req_index] = sampling_params.presence_penalty
+        if sampling_params.presence_penalty != 0.0:
+            self.presence_penalties_reqs.add(req_id)
+        self.repetition_penalties_cpu[req_index] = sampling_params.repetition_penalty
+        if sampling_params.repetition_penalty != 1.0:
+            self.repetition_penalties_reqs.add(req_id)
+        if sampling_params.min_tokens:
+            self.min_tokens[req_index] = (
+                sampling_params.min_tokens,
+                sampling_params.all_stop_token_ids,
+            )
+
+        # NOTE(woosuk): self.generators should not include the requests that
+        # do not have their own generator.
+        if request.generator is not None:
+            self.generators[req_index] = request.generator
+
+        if sampling_params.logprobs is not None:
+            self.num_logprobs[req_id] = sampling_params.logprobs
+        if sampling_params.prompt_logprobs is not None:
+            self.num_prompt_logprobs[req_id] = sampling_params.prompt_logprobs
+        if sampling_params.logit_bias is not None:
+            self.logit_bias[req_index] = sampling_params.logit_bias
+
+        if sampling_params.allowed_token_ids:
+            self.has_allowed_token_ids.add(req_id)
+            if self.allowed_token_ids_mask_cpu_tensor is None:
+                # Lazy allocation for this tensor, which can be large.
+                # False means we don't fill with -inf.
+                self.allowed_token_ids_mask = torch.zeros(
+                    self.max_num_reqs,
+                    self.vocab_size,
+                    dtype=torch.bool,
+                    device=self.device,
+                )
+                self.allowed_token_ids_mask_cpu_tensor = torch.zeros(
+                    self.max_num_reqs, self.vocab_size, dtype=torch.bool, device="cpu"
+                )
+            self.allowed_token_ids_mask_cpu_tensor[req_index] = True
+            # False means we don't fill with -inf.
+            self.allowed_token_ids_mask_cpu_tensor[req_index][
+                sampling_params.allowed_token_ids
+            ] = False
+
+        if sampling_params.bad_words_token_ids:
+            self.bad_words_token_ids[req_index] = sampling_params.bad_words_token_ids
+
+        # Add request lora ID
+        if request.lora_request:
+            lora_id = request.lora_request.lora_int_id
+            if lora_id not in self.lora_id_to_request_ids:
+                self.lora_id_to_request_ids[lora_id] = set()
+
+            self.request_lora_mapping[req_index] = lora_id
+            self.lora_id_to_request_ids[lora_id].add(request.req_id)
+            self.lora_id_to_lora_request[lora_id] = request.lora_request
+        else:
+            # No LoRA
+            self.request_lora_mapping[req_index] = 0
+
+    def remove_request(self, req_id: str) -> int | None:
+        """This method must always be followed by a call to condense()."""
+
+        req_index = self.req_id_to_index.pop(req_id, None)
+        if req_index is None:
+            return None
+        self._req_ids[req_index] = None
+        self.req_output_token_ids[req_index] = None
+
+        self.greedy_reqs.discard(req_id)
+        self.random_reqs.discard(req_id)
+        self.top_p_reqs.discard(req_id)
+        self.top_k_reqs.discard(req_id)
+        self.min_p_reqs.discard(req_id)
+        self.min_tokens.pop(req_index, None)
+        self.frequency_penalties_reqs.discard(req_id)
+        self.presence_penalties_reqs.discard(req_id)
+        self.repetition_penalties_reqs.discard(req_id)
+        self.generators.pop(req_index, None)
+        self.num_logprobs.pop(req_id, None)
+        self.num_prompt_logprobs.pop(req_id, None)
+        self.in_progress_prompt_logprobs_cpu.pop(req_id, None)
+
+        # LoRA
+        lora_id = self.request_lora_mapping[req_index]
+        if lora_id != 0:
+            self.lora_id_to_request_ids[lora_id].discard(req_id)
+            if len(self.lora_id_to_request_ids[lora_id]) == 0:
+                self.lora_id_to_request_ids.pop(lora_id)
+                self.lora_id_to_lora_request.pop(lora_id)
+            self.request_lora_mapping[req_index] = 0
+
+        self.logit_bias[req_index] = None
+        self.has_allowed_token_ids.discard(req_id)
+        if self.allowed_token_ids_mask_cpu_tensor is not None:
+            # False means we don't fill with -inf.
+            self.allowed_token_ids_mask_cpu_tensor[req_index].fill_(False)
+        self.bad_words_token_ids.pop(req_index, None)
+        return req_index
+
+    def swap_states(self, i1: int, i2: int) -> None:
+        old_id_i1 = self._req_ids[i1]
+        old_id_i2 = self._req_ids[i2]
+        self._req_ids[i1], self._req_ids[i2] = self._req_ids[i2], self._req_ids[i1]  # noqa
+        self.req_output_token_ids[i1], self.req_output_token_ids[i2] = (
+            self.req_output_token_ids[i2],
+            self.req_output_token_ids[i1],
+        )
+        assert old_id_i1 is not None and old_id_i2 is not None
+        self.req_id_to_index[old_id_i1], self.req_id_to_index[old_id_i2] = (
+            self.req_id_to_index[old_id_i2],
+            self.req_id_to_index[old_id_i1],
+        )
+        self.num_tokens[i1], self.num_tokens[i2] = (
+            self.num_tokens[i2],
+            self.num_tokens[i1],
+        )
+        self.num_tokens_no_spec[i1], self.num_tokens_no_spec[i2] = (
+            self.num_tokens_no_spec[i2],
+            self.num_tokens_no_spec[i1],
+        )
+        self.num_prompt_tokens[i1], self.num_prompt_tokens[i2] = (
+            self.num_prompt_tokens[i2],
+            self.num_prompt_tokens[i1],
+        )
+        self.num_computed_tokens_cpu[i1], self.num_computed_tokens_cpu[i2] = (
+            self.num_computed_tokens_cpu[i2],
+            self.num_computed_tokens_cpu[i1],
+        )
+        self.temperature_cpu[i1], self.temperature_cpu[i2] = (
+            self.temperature_cpu[i2],
+            self.temperature_cpu[i1],
+        )
+        self.top_p_cpu[i1], self.top_p_cpu[i2] = self.top_p_cpu[i2], self.top_p_cpu[i1]
+        self.top_k_cpu[i1], self.top_k_cpu[i2] = self.top_k_cpu[i2], self.top_k_cpu[i1]
+        self.frequency_penalties_cpu[i1], self.frequency_penalties_cpu[i2] = (
+            self.frequency_penalties_cpu[i2],
+            self.frequency_penalties_cpu[i1],
+        )
+        self.presence_penalties_cpu[i1], self.presence_penalties_cpu[i2] = (
+            self.presence_penalties_cpu[i2],
+            self.presence_penalties_cpu[i1],
+        )
+        self.repetition_penalties_cpu[i1], self.repetition_penalties_cpu[i2] = (
+            self.repetition_penalties_cpu[i2],
+            self.repetition_penalties_cpu[i1],
+        )
+        self.min_p_cpu[i1], self.min_p_cpu[i2] = self.min_p_cpu[i2], self.min_p_cpu[i1]
+
+        # NOTE: the following is unsafe
+        # self.token_ids_cpu[i1, ...], self.token_ids_cpu[i2, ...], =\
+        #     self.token_ids_cpu[i2, ...], self.token_ids_cpu[i1, ...]
+        # instead, we need to temporarily copy the data for one of the indices
+        # TODO(lucas): optimize this by only copying valid indices
+        tmp = self.token_ids_cpu[i1, ...].copy()
+        self.token_ids_cpu[i1, ...] = self.token_ids_cpu[i2, ...]
+        self.token_ids_cpu[i2, ...] = tmp
+
+        swap_dict_values(self.generators, i1, i2)
+        swap_dict_values(self.min_tokens, i1, i2)
+        swap_dict_values(self.bad_words_token_ids, i1, i2)
+
+        self.request_lora_mapping[i1], self.request_lora_mapping[i2] = (
+            self.request_lora_mapping[i2],
+            self.request_lora_mapping[i1],
+        )
+        self.logit_bias[i1], self.logit_bias[i2] = (
+            self.logit_bias[i2],
+            self.logit_bias[i1],
+        )
+
+        if self.allowed_token_ids_mask_cpu_tensor is not None:
+            (
+                self.allowed_token_ids_mask_cpu_tensor[i1],
+                self.allowed_token_ids_mask_cpu_tensor[i2],
+            ) = (
+                self.allowed_token_ids_mask_cpu_tensor[i2],
+                self.allowed_token_ids_mask_cpu_tensor[i1],
+            )
+        self.block_table.swap_row(i1, i2)
+
+    def condense(self, empty_req_indices: list[int]) -> None:
+        """Move non-empty requests down into lower, empty indices.
+
+        Args:
+          empty_req_indices: empty batch indices, sorted descending.
+        """
+        num_reqs = self.num_reqs
+        if num_reqs == 0:
+            # The batched states are empty.
+            self._req_ids.clear()
+            self.req_output_token_ids.clear()
+            return
+
+        # NOTE(woosuk): This function assumes that the empty_req_indices
+        # is sorted in descending order.
+        last_req_index = num_reqs + len(empty_req_indices) - 1
+        while empty_req_indices:
+            # Find the largest non-empty index.
+            while last_req_index in empty_req_indices:
+                last_req_index -= 1
+
+            # Find the smallest empty index.
+            empty_index = empty_req_indices.pop()
+            if empty_index >= last_req_index:
+                break
+
+            # Swap the states.
+            req_id = self._req_ids[last_req_index]
+            output_token_ids = self.req_output_token_ids[last_req_index]
+            assert req_id is not None
+            self._req_ids[empty_index] = req_id
+            self._req_ids[last_req_index] = None
+            self.req_output_token_ids[empty_index] = output_token_ids
+            self.req_output_token_ids[last_req_index] = None
+            self.req_id_to_index[req_id] = empty_index
+
+            num_tokens = self.num_tokens[last_req_index]
+            self.token_ids_cpu[empty_index, :num_tokens] = self.token_ids_cpu[
+                last_req_index, :num_tokens
+            ]
+            self.num_tokens[empty_index] = num_tokens
+            self.num_tokens_no_spec[empty_index] = self.num_tokens_no_spec[
+                last_req_index
+            ]
+            self.num_prompt_tokens[empty_index] = self.num_prompt_tokens[last_req_index]
+            self.num_computed_tokens_cpu[empty_index] = self.num_computed_tokens_cpu[
+                last_req_index
+            ]
+            self.block_table.move_row(last_req_index, empty_index)
+            self.temperature_cpu[empty_index] = self.temperature_cpu[last_req_index]
+            self.top_p_cpu[empty_index] = self.top_p_cpu[last_req_index]
+            self.top_k_cpu[empty_index] = self.top_k_cpu[last_req_index]
+            self.frequency_penalties_cpu[empty_index] = self.frequency_penalties_cpu[
+                last_req_index
+            ]
+            self.presence_penalties_cpu[empty_index] = self.presence_penalties_cpu[
+                last_req_index
+            ]
+            self.repetition_penalties_cpu[empty_index] = self.repetition_penalties_cpu[
+                last_req_index
+            ]
+            self.min_p_cpu[empty_index] = self.min_p_cpu[last_req_index]
+            generator = self.generators.pop(last_req_index, None)
+            if generator is not None:
+                self.generators[empty_index] = generator
+
+            min_token = self.min_tokens.pop(last_req_index, None)
+            if min_token is not None:
+                self.min_tokens[empty_index] = min_token
+
+            self.request_lora_mapping[empty_index] = self.request_lora_mapping[
+                last_req_index
+            ]
+
+            self.logit_bias[empty_index] = self.logit_bias[last_req_index]
+
+            if self.allowed_token_ids_mask_cpu_tensor is not None:
+                self.allowed_token_ids_mask_cpu_tensor[empty_index] = (
+                    self.allowed_token_ids_mask_cpu_tensor[last_req_index]
+                )
+
+            bad_words_token_ids = self.bad_words_token_ids.pop(last_req_index, None)
+            if bad_words_token_ids is not None:
+                self.bad_words_token_ids[empty_index] = bad_words_token_ids
+            # Decrement last_req_index since it is now empty.
+            last_req_index -= 1
+
+        # Trim lists to the batch size.
+        del self._req_ids[self.num_reqs :]
+        del self.req_output_token_ids[self.num_reqs :]
+
+    def _make_prompt_token_ids_tensor(self) -> torch.Tensor:
+        max_prompt_len = self.num_prompt_tokens[: self.num_reqs].max()
+        prompt_token_ids_cpu_tensor = torch.empty(
+            (self.num_reqs, max_prompt_len),
+            device="cpu",
+            dtype=torch.int64,
+            pin_memory=self.pin_memory,
+        )
+        prompt_token_ids = prompt_token_ids_cpu_tensor.numpy()
+        prompt_token_ids[:] = self.token_ids_cpu[: self.num_reqs, :max_prompt_len]
+        # Use the value of vocab_size as a pad since we don't have a
+        # token_id of this value.
+        for i in range(self.num_reqs):
+            prompt_token_ids[i, self.num_prompt_tokens[i] :] = self.vocab_size
+        return prompt_token_ids_cpu_tensor.to(device=self.device, non_blocking=True)
+
+    def make_lora_inputs(
+        self, num_scheduled_tokens: np.ndarray, num_sampled_tokens: np.ndarray
+    ) -> tuple[tuple[int, ...], tuple[int, ...], set[LoRARequest]]:
+        """
+        Given the num_scheduled_tokens for each request in the batch, return
+        datastructures used to activate the current LoRAs.
+        Returns:
+            1. prompt_lora_mapping: A tuple of size self.num_reqs where,
+               prompt_lora_mapping[i] is the LoRA id to use for the ith prompt.
+            2. token_lora_mapping: A tuple of size np.sum(num_scheduled_tokens)
+               where, token_lora_mapping[i] is the LoRA id to use for ith token.
+            3. lora_requests: Set of relevant LoRA requests.
+        """
+
+        req_lora_mapping = self.request_lora_mapping[: self.num_reqs]
+        prompt_lora_mapping = tuple(req_lora_mapping)
+        token_lora_mapping = tuple(req_lora_mapping.repeat(num_scheduled_tokens))
+        active_lora_requests: set[LoRARequest] = set(
+            self.lora_id_to_lora_request.values()
+        )
+
+        return prompt_lora_mapping, token_lora_mapping, active_lora_requests
+
+    @property
+    def num_reqs(self) -> int:
+        return len(self.req_id_to_index)
+
+    @property
+    def all_greedy(self) -> bool:
+        return len(self.random_reqs) == 0
+
+    @property
+    def all_random(self) -> bool:
+        return len(self.greedy_reqs) == 0
+
+    @property
+    def no_top_p(self) -> bool:
+        return len(self.top_p_reqs) == 0
+
+    @property
+    def no_top_k(self) -> bool:
+        return len(self.top_k_reqs) == 0
+
+    @property
+    def no_min_p(self) -> bool:
+        return len(self.min_p_reqs) == 0
+
+    @property
+    def no_penalties(self) -> bool:
+        return (
+            len(self.presence_penalties_reqs) == 0
+            and len(self.frequency_penalties_reqs) == 0
+            and len(self.repetition_penalties_reqs) == 0
+        )
+
+    @property
+    def max_num_logprobs(self) -> int | None:
+        return max(self.num_logprobs.values()) if self.num_logprobs else None
+
+    @property
+    def no_prompt_logprob(self) -> bool:
+        return not self.num_prompt_logprobs
+
+    @property
+    def no_allowed_token_ids(self) -> bool:
+        return len(self.has_allowed_token_ids) == 0
diff --git a/v1/worker/tpu_model_runner.py b/v1/worker/tpu_model_runner.py
new file mode 100644
index 0000000..e9eb7ca
--- /dev/null
+++ b/v1/worker/tpu_model_runner.py
@@ -0,0 +1,2173 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import bisect
+import gc
+import time
+from typing import TYPE_CHECKING, Any, cast
+from unittest.mock import patch
+
+import numpy as np
+import torch
+import torch.nn as nn
+
+# TPU XLA related
+import torch_xla
+import torch_xla.core.xla_model as xm
+import torch_xla.distributed.spmd as xs
+import torch_xla.runtime as xr
+
+import vllm.envs as envs
+from vllm.attention import Attention
+from vllm.attention.backends.abstract import AttentionType
+from vllm.attention.layer import MLAAttention
+from vllm.attention.layers.chunked_local_attention import ChunkedLocalAttention
+from vllm.compilation.wrapper import TorchCompileWithNoGuardsWrapper
+from vllm.config import (
+    ParallelConfig,
+    VllmConfig,
+    get_layers_from_vllm_config,
+    update_config,
+)
+from vllm.distributed.kv_transfer import get_kv_transfer_group, has_kv_transfer_group
+from vllm.distributed.kv_transfer.kv_connector.utils import copy_kv_blocks
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.lora.layers import BaseLayerWithLoRA
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.model_executor.model_loader import get_model_loader
+from vllm.model_executor.model_loader.tpu import TPUModelLoader
+from vllm.model_executor.models.interfaces import (
+    SupportsMultiModal,
+    supports_transcription,
+)
+from vllm.model_executor.models.interfaces_base import (
+    is_pooling_model,
+    is_text_generation_model,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    BatchedTensorInputs,
+    MultiModalKwargsItem,
+    PlaceholderRange,
+)
+from vllm.multimodal.utils import group_mm_kwargs_by_modality
+from vllm.sequence import IntermediateTensors
+from vllm.tasks import GenerationTask, PoolingTask, SupportedTask
+from vllm.utils.math_utils import cdiv, prev_power_of_2
+from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.attention.backends.pallas import (
+    TPU_STR_DTYPE_TO_TORCH_DTYPE,
+    PallasAttentionBackend,
+    PallasMetadata,
+    get_page_size_bytes,
+)
+from vllm.v1.kv_cache_interface import (
+    AttentionSpec,
+    FullAttentionSpec,
+    KVCacheConfig,
+    KVCacheSpec,
+    MLAAttentionSpec,
+    SlidingWindowSpec,
+)
+from vllm.v1.outputs import (
+    EMPTY_MODEL_RUNNER_OUTPUT,
+    LogprobsLists,
+    LogprobsTensors,
+    ModelRunnerOutput,
+)
+from vllm.v1.sample.tpu.metadata import TPUSupportedSamplingMetadata
+from vllm.v1.sample.tpu.sampler import Sampler as TPUSampler
+from vllm.v1.worker.kv_connector_model_runner_mixin import (
+    KVConnectorModelRunnerMixin,
+    KVConnectorOutput,
+)
+from vllm.v1.worker.lora_model_runner_mixin import LoRAModelRunnerMixin
+from vllm.v1.worker.tpu_input_batch import CachedRequestState, InputBatch
+
+from .utils import (
+    MultiModalBudget,
+    add_kv_sharing_layers_to_kv_cache_groups,
+    bind_kv_cache,
+    sanity_check_mm_encoder_outputs,
+)
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+
+logger = init_logger(__name__)
+
+INVALID_TOKEN_ID = -1
+# Smallest output size
+MIN_NUM_SEQS = 8
+
+
+#########################################################
+# Ways to avoid recompilation
+#########################################################
+#
+# The model executor has two primary components:
+# 1. preparing the model and sampler inputs
+# 2. executing the model and sampler.
+# The core idea is to avoid any TPU computation during input preparation. For
+# better compilation tracking and increased flexibility, the model execution and
+# sampler are divided into several distinct components.
+#
+# Below are the detailed steps:
+#
+# Step 1
+# It is recommended to avoid TPU operations when preparing the model and sampler
+# inputs. CPU tensors can be prepared and transferred to the XLA device using
+# cpu_tensor.to(xla_device), which only triggers CPU to TPU transfers and avoids
+# compilation.
+#
+# Step 2
+# The TPU execution should be decomposed into subgraphs (4 at the moment):
+# 1. the main model
+# 2. selecting hidden states for each request
+# 3. sampler
+# 4. encoder.
+# Each subgraph should be decorated in a torch.compile. This is used to make
+# sure that we have the same subgraph topology in both dummy_run and
+# xecute_model. The results from these subgraphs should either be passed to
+# other subgraphs, or transferred from TPU to CPU using xla_tensor.cpu() for
+# subsequent processing on the CPU.
+#
+# Step 3
+# The dummy_run should be comprehensive, ensuring all potential input shapes and
+# branch predictions are included as subgraph inputs to facilitate
+# pre-compilation.
+class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+        original_parallel_config: ParallelConfig | None = None,
+    ):
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.load_config = vllm_config.load_config
+        self.parallel_config = vllm_config.parallel_config
+        self.original_parallel_config = original_parallel_config
+        self.scheduler_config = vllm_config.scheduler_config
+        self.speculative_config = vllm_config.speculative_config
+        self.observability_config = vllm_config.observability_config
+        self.device_config = vllm_config.device_config
+
+        model_config = self.model_config
+        cache_config = self.cache_config
+        scheduler_config = self.scheduler_config
+        parallel_config = self.parallel_config
+        self.device = device
+        self.check_recompilation = envs.VLLM_XLA_CHECK_RECOMPILATION
+
+        # SPMD Related
+        self.use_spmd = envs.VLLM_XLA_USE_SPMD
+        if self.use_spmd:
+            num_devices = xr.global_runtime_device_count()
+            mesh_shape = (num_devices, 1)
+            device_ids = np.array(range(num_devices))
+            self.mesh = xs.Mesh(device_ids, mesh_shape, ("x", "y"))
+
+        self.enforce_eager = model_config.enforce_eager
+
+        self.num_xla_graphs = 0
+        self._update_num_xla_graphs("init")
+
+        self.pin_memory = is_pin_memory_available()
+        self.dtype = self.model_config.dtype
+        if cache_config.cache_dtype == "auto":
+            model_dtype = self.dtype
+            if isinstance(model_dtype, str):
+                self.kv_cache_dtype = TPU_STR_DTYPE_TO_TORCH_DTYPE[model_dtype]
+            else:
+                self.kv_cache_dtype = model_dtype
+        else:
+            self.kv_cache_dtype = TPU_STR_DTYPE_TO_TORCH_DTYPE[cache_config.cache_dtype]
+        self._hidden_states_dtype = self.dtype
+
+        self.sliding_window = model_config.get_sliding_window()
+        self.block_size = cache_config.block_size
+        self.max_model_len = model_config.max_model_len
+        self.most_model_len = envs.VLLM_TPU_MOST_MODEL_LEN
+        self.max_num_blocks_per_req = cdiv(self.max_model_len, self.block_size)
+        self.num_blocks_per_most_len_req = (
+            cdiv(self.most_model_len, self.block_size)
+            if self.most_model_len is not None
+            else None
+        )
+        # InputBatch needs to work with sampling tensors greater than padding
+        # to avoid dynamic shapes. Also, avoid suboptimal alignment.
+        self.max_num_reqs = max(scheduler_config.max_num_seqs, MIN_NUM_SEQS)
+        self.num_tokens_paddings = _get_token_paddings(
+            min_token_size=16,
+            max_token_size=scheduler_config.max_num_batched_tokens,
+            padding_gap=envs.VLLM_TPU_BUCKET_PADDING_GAP,
+        )
+        # In case `max_num_tokens < max(num_tokens_paddings)` use the actual
+        # padded max value to pre-allocate data structures and pre-compile.
+        self.max_num_tokens = self.num_tokens_paddings[-1]
+
+        # Model-related.
+        self.num_attn_layers = model_config.get_num_layers_by_block_type(
+            parallel_config, "attention"
+        )
+        self.num_query_heads = model_config.get_num_attention_heads(parallel_config)
+        self.num_kv_heads = model_config.get_num_kv_heads(parallel_config)
+        self.head_size = model_config.get_head_size()
+        self.hidden_size = model_config.get_hidden_size()
+        self.vocab_size = model_config.get_vocab_size()
+
+        if self.lora_config is not None:
+            self.vocab_size += self.lora_config.lora_extra_vocab_size
+
+        # Multi-modal data support
+        self.mm_registry = MULTIMODAL_REGISTRY
+        self.uses_mrope = model_config.uses_mrope
+        self.supports_mm_inputs = self.mm_registry.supports_multimodal_inputs(
+            model_config
+        )
+        # TODO: Support M-RoPE (e.g, Qwen2-VL)
+        assert not self.uses_mrope, "TPU does not support M-RoPE yet."
+
+        self._num_slices_per_kv_cache_update_block = (
+            _get_num_slices_per_kv_cache_update_block(
+                get_page_size_bytes(
+                    block_size=self.block_size,
+                    num_kv_heads=self.num_kv_heads,
+                    head_size=self.head_size,
+                    kv_cache_dtype=self.kv_cache_dtype,
+                )
+            )
+        )
+
+        # Lazy initialization
+        self.model: nn.Module  # Set after load_model
+        self.kv_caches: list[torch.Tensor] = []
+        # mm_hash -> encoder_output
+        self.encoder_cache: dict[str, torch.Tensor] = {}
+
+        # Request states.
+        self.requests: dict[str, CachedRequestState] = {}
+
+        # Initialize input batch early to avoid AttributeError in _update_states
+        self.input_batch = InputBatch(
+            max_num_reqs=self.max_num_reqs,
+            max_model_len=self.max_model_len,
+            max_num_batched_tokens=self.max_num_tokens,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            vocab_size=self.model_config.get_vocab_size(),
+            block_sizes=[self.block_size],
+            kernel_block_sizes=[self.cache_config.block_size],
+        )
+
+        # Cached torch/numpy tensor
+        # The pytorch tensor and numpy array share the same buffer.
+        # Sometimes the numpy op is faster so we create both.
+        self.input_ids_cpu = torch.zeros(
+            self.max_num_tokens, dtype=torch.int32, device="cpu"
+        )
+
+        self.positions_cpu = torch.zeros(
+            self.max_num_tokens, dtype=torch.int32, device="cpu"
+        )
+        self.positions_np = self.positions_cpu.numpy()
+        self.block_table_cpu = torch.zeros(
+            (self.max_num_reqs, self.max_num_blocks_per_req),
+            dtype=torch.int32,
+            device="cpu",
+        )
+        # adjust num_reqs to avoid SMEM OOM.
+        self.num_reqs_most_model_len = (
+            min(
+                PallasAttentionBackend.get_max_num_seqs(
+                    self.most_model_len, self.block_size
+                ),
+                self.max_num_reqs,
+            )
+            if self.most_model_len is not None
+            else None
+        )
+        self.num_reqs_max_model_len = min(
+            PallasAttentionBackend.get_max_num_seqs(
+                self.max_model_len, self.block_size
+            ),
+            self.max_num_reqs,
+        )
+        self.query_start_loc_cpu = torch.zeros(
+            self.max_num_tokens + 1,
+            dtype=torch.int32,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+        self.query_start_loc_np = self.query_start_loc_cpu.numpy()
+
+        self.seq_lens_cpu = torch.zeros(
+            self.max_num_tokens,
+            dtype=torch.int32,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+        self.seq_lens_np = self.seq_lens_cpu.numpy()
+
+        # Only relevant for multimodal models
+        if self.supports_mm_inputs:
+            self.is_mm_embed_cpu = torch.zeros(
+                self.max_num_tokens,
+                dtype=torch.bool,
+                device="cpu",
+                pin_memory=self.pin_memory,
+            )
+
+        # Range tensor with values [0 .. self.max_num_tokens - 1].
+        # Used to initialize positions / context_lens / seq_lens
+        # Keep in int64 to avoid overflow with long context
+        self.arange_np = np.arange(self.max_num_tokens, dtype=np.int64)
+        self.num_reqs_paddings = _get_req_paddings(
+            min_req_size=MIN_NUM_SEQS, max_req_size=self.max_num_reqs
+        )
+
+        # Layer pairings for cross-layer KV sharing.
+        # If an Attention layer `layer_name` is in the keys of this dict, it
+        # means this layer will perform attention using the keys and values
+        # from the KV cache of `shared_kv_cache_layers[layer_name]`.
+        self.shared_kv_cache_layers: dict[str, str] = {}
+
+        # tensors for structured decoding
+        self.grammar_bitmask_cpu = torch.zeros(
+            (self.max_num_reqs, cdiv(self.vocab_size, 32)),
+            dtype=torch.int32,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+        self.require_structured_out_cpu = torch.zeros(
+            (self.max_num_reqs, 1),
+            dtype=torch.bool,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+        self.structured_decode_arange = torch.arange(
+            0, 32, device="cpu", pin_memory=self.pin_memory
+        )
+
+        self.mm_budget = (
+            MultiModalBudget(
+                self.model_config,
+                self.scheduler_config,
+                self.mm_registry,
+            )
+            if self.supports_mm_inputs
+            else None
+        )
+
+        if not self.use_spmd:
+            self.sample_from_logits_func = torch.compile(
+                self.sample_from_logits,
+                backend="openxla",
+                fullgraph=True,
+                dynamic=False,
+            )
+        else:
+            self.sample_from_logits_func = self.sample_from_logits
+
+        # For passing scheduler_output between successive
+        # execute_model() and sample_tokens() calls.
+        self.scheduler_output: SchedulerOutput | None = None
+        self.mm_embed_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None
+
+    def reset_mm_cache(self) -> None:
+        if self.mm_budget:
+            self.mm_budget.reset_cache()
+
+    def _update_num_xla_graphs(self, case_str):
+        check_comp = self.check_recompilation and not self.enforce_eager
+        if not check_comp:
+            return
+
+        total_cached_graphs = xr.get_num_cached_compilation_graph()
+        new_compiled_graphs = total_cached_graphs - self.num_xla_graphs
+        if new_compiled_graphs == 0:
+            return
+
+        logger.info(
+            "Add new %d compiled XLA graphs due to %s", new_compiled_graphs, case_str
+        )
+        self.num_xla_graphs += new_compiled_graphs
+
+    def _verify_num_xla_graphs(self, case_str):
+        check_comp = self.check_recompilation and not self.enforce_eager
+        if not check_comp:
+            return
+
+        curr_cached_graph = xr.get_num_cached_compilation_graph()
+        assert self.num_xla_graphs == curr_cached_graph, (
+            "Recompilation after warm up is detected during {}."
+            " num_xla_graphs = {} curr_cached_graph = {}".format(
+                case_str, self.num_xla_graphs, curr_cached_graph
+            )
+        )
+
+    def _update_states(self, scheduler_output: "SchedulerOutput") -> bool:
+        """Update the cached states and the persistent batch with the scheduler
+        output.
+
+        The updated states are used by the `_prepare_inputs` function to create
+        the input GPU tensors for the model.
+
+        Returns:
+            True if there is a new/resumed/paused/finished request.
+            If False, we can skip copying SamplingMetadata to the GPU.
+        """
+        # Remove finished requests from the cached states.
+        for req_id in scheduler_output.finished_req_ids:
+            self.requests.pop(req_id, None)
+
+        # Remove the finished requests from the persistent batch.
+        # NOTE(woosuk): There could be an edge case where finished_req_ids and
+        # scheduled_req_ids overlap. This happens when a request is aborted and
+        # then resubmitted with the same ID. In this case, we treat them as two
+        # distinct requests - clearing the cached states for the first request
+        # and handling the second as a new request.
+        removed_req_indices: list[int] = []
+        for req_id in scheduler_output.finished_req_ids:
+            req_index = self.input_batch.remove_request(req_id)
+            if req_index is not None:
+                removed_req_indices.append(req_index)
+
+        # Free the cached encoder outputs.
+        for mm_hash in scheduler_output.free_encoder_mm_hashes:
+            self.encoder_cache.pop(mm_hash, None)
+
+        # Remove the unscheduled requests from the persistent batch.
+        # NOTE(woosuk): The unscheduled requests are either preempted requests
+        # or running requests that are not scheduled in this step. We remove
+        # them from the persistent batch but keep their cached states since
+        # they will be scheduled again sometime in the future.
+        scheduled_req_ids = scheduler_output.num_scheduled_tokens.keys()
+        cached_req_ids = self.input_batch.req_id_to_index.keys()
+        unscheduled_req_ids = cached_req_ids - scheduled_req_ids
+        # NOTE(woosuk): The persistent batch optimization assumes that
+        # consecutive batches contain mostly the same requests. If batches
+        # have low request overlap (e.g., alternating between two distinct
+        # sets of requests), this optimization becomes very inefficient.
+        for req_id in unscheduled_req_ids:
+            req_index = self.input_batch.remove_request(req_id)
+            assert req_index is not None
+            removed_req_indices.append(req_index)
+
+        req_ids_to_add: list[str] = []
+        # Add new requests to the cached states.
+        for new_req_data in scheduler_output.scheduled_new_reqs:
+            assert new_req_data.sampling_params is not None, (
+                "Pooling is not supported in TPU yet"
+            )
+            req_id = new_req_data.req_id
+            sampling_params = new_req_data.sampling_params
+
+            self.requests[req_id] = CachedRequestState(
+                req_id=req_id,
+                prompt_token_ids=new_req_data.prompt_token_ids,
+                prompt_embeds=new_req_data.prompt_embeds,
+                mm_features=new_req_data.mm_features,
+                sampling_params=sampling_params,
+                pooling_params=None,
+                generator=None,
+                block_ids=new_req_data.block_ids,
+                num_computed_tokens=new_req_data.num_computed_tokens,
+                output_token_ids=[],
+                lora_request=new_req_data.lora_request,
+            )
+
+            req_ids_to_add.append(req_id)
+
+        # Update the states of the running/resumed requests.
+        req_data = scheduler_output.scheduled_cached_reqs
+        for i, req_id in enumerate(req_data.req_ids):
+            req_state = self.requests[req_id]
+            num_computed_tokens = req_data.num_computed_tokens[i]
+            new_block_ids = req_data.new_block_ids[i]
+            resumed_from_preemption = req_id in req_data.resumed_req_ids
+
+            # Update the cached states.
+            req_state.num_computed_tokens = num_computed_tokens
+            if not resumed_from_preemption:
+                if new_block_ids is not None:
+                    # Append the new blocks to the existing block IDs.
+                    for block_ids, new_ids in zip(req_state.block_ids, new_block_ids):
+                        block_ids.extend(new_ids)
+            else:
+                assert new_block_ids is not None
+                # The request is resumed from preemption.
+                # Replace the existing block IDs with the new ones.
+                req_state.block_ids = new_block_ids
+
+            req_index = self.input_batch.req_id_to_index.get(req_id)
+            if req_index is None:
+                # The request is not in the persistent batch.
+                # The request was either preempted and resumed later, or was not
+                # scheduled in the previous step and needs to be added again.
+                req_ids_to_add.append(req_id)
+                continue
+
+            # Update the persistent batch.
+            self.input_batch.num_computed_tokens_cpu[req_index] = num_computed_tokens
+            if new_block_ids is not None:
+                self.input_batch.block_table.append_row(new_block_ids, req_index)
+
+        # Add the new or resumed requests to the persistent batch.
+        # The smaller empty indices are filled first.
+        removed_req_indices = sorted(removed_req_indices, reverse=True)
+        for req_id in req_ids_to_add:
+            req_state = self.requests[req_id]
+            # Fill the empty index or append to the end
+            req_index = removed_req_indices.pop() if removed_req_indices else None
+            self.input_batch.add_request(req_state, req_index)
+
+        # Condense the batched states if there are empty indices.
+        if removed_req_indices:
+            self.input_batch.condense(removed_req_indices)
+
+        return len(unscheduled_req_ids) > 0 or len(req_ids_to_add) > 0
+
+    def get_model(self) -> nn.Module:
+        return self.model
+
+    def get_supported_generation_tasks(self) -> list[GenerationTask]:
+        model = self.get_model()
+        supported_tasks = list[GenerationTask]()
+
+        if is_text_generation_model(model):
+            supported_tasks.append("generate")
+
+        if supports_transcription(model):
+            if model.supports_transcription_only:
+                return ["transcription"]
+
+            supported_tasks.append("transcription")
+
+        return supported_tasks
+
+    def get_supported_pooling_tasks(self) -> list[PoolingTask]:
+        model = self.get_model()
+        if not is_pooling_model(model):
+            return []
+
+        return list(model.pooler.get_supported_tasks())
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        tasks = list[SupportedTask]()
+
+        if self.model_config.runner_type == "generate":
+            tasks.extend(self.get_supported_generation_tasks())
+        if self.model_config.runner_type == "pooling":
+            tasks.extend(self.get_supported_pooling_tasks())
+
+        return tuple(tasks)
+
+    def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
+        """
+        Generates the KVCacheSpec by parsing the kv cache format from each
+        Attention module in the static forward context.
+        Returns:
+            KVCacheSpec: A dictionary mapping layer names to their KV cache
+            format. Layers that do not need KV cache are not included.
+        """
+
+        layers = get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase)
+        block_size = self.vllm_config.cache_config.block_size
+        cache_dtype_str = self.vllm_config.cache_config.cache_dtype
+
+        kv_cache_spec: dict[str, KVCacheSpec] = {}
+        for layer_name, attn_module in layers.items():
+            # Classic Attention path
+            if isinstance(attn_module, Attention):
+                if (
+                    kv_tgt_layer := attn_module.kv_sharing_target_layer_name
+                ) is not None:
+                    # The layer doesn't need its own KV cache and will use that of
+                    # the target layer. We skip creating a KVCacheSpec for it, so
+                    # that KV cache management logic will act as this layer does
+                    # not exist, and doesn't allocate KV cache for the layer. This
+                    # enables the memory saving of cross-layer kv sharing, allowing
+                    # a given amount of memory to accommodate longer context lengths
+                    # or enable more requests to be processed simultaneously.
+                    self.shared_kv_cache_layers[layer_name] = kv_tgt_layer
+                    continue
+
+                if attn_module.attn_type == AttentionType.DECODER:
+                    if isinstance(attn_module, ChunkedLocalAttention):
+                        logger.warning_once(
+                            "Using irope in Pallas is not supported yet, it "
+                            "will fall back to global attention for long context."
+                        )
+                    if attn_module.sliding_window is not None:
+                        kv_cache_spec[layer_name] = SlidingWindowSpec(
+                            block_size=block_size,
+                            num_kv_heads=attn_module.num_kv_heads,
+                            head_size=attn_module.head_size,
+                            dtype=self.kv_cache_dtype,
+                            sliding_window=attn_module.sliding_window,
+                        )
+                    else:
+                        kv_cache_spec[layer_name] = FullAttentionSpec(
+                            block_size=block_size,
+                            num_kv_heads=attn_module.num_kv_heads,
+                            head_size=attn_module.head_size,
+                            dtype=self.kv_cache_dtype,
+                        )
+                elif attn_module.attn_type in (
+                    AttentionType.ENCODER,
+                    AttentionType.ENCODER_ONLY,
+                ):
+                    # encoder-only attention does not need KV cache.
+                    continue
+                elif attn_module.attn_type == AttentionType.ENCODER_DECODER:
+                    raise NotImplementedError
+                else:
+                    raise ValueError(f"Unknown attention type: {attn_module.attn_type}")
+            # MLAAttention path
+            elif isinstance(attn_module, MLAAttention):
+                if layer_name in kv_cache_spec:
+                    continue
+                kv_cache_spec[layer_name] = MLAAttentionSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=attn_module.head_size,
+                    dtype=self.kv_cache_dtype,
+                    cache_dtype_str=cache_dtype_str,
+                )
+            else:
+                continue
+
+        return kv_cache_spec
+
+    def _get_slot_mapping_metadata(
+        self, num_reqs, num_scheduled_tokens_per_req
+    ) -> np.ndarray:
+        """
+        Computes metadata for mapping slots to blocks in the key-value (KV)
+        cache for a batch of requests.
+
+        This function determines, for each request in the batch, how the
+        scheduled tokens are distributed across memory blocks, and generates
+        metadata needed to map slices of tokens to their corresponding positions
+        in the KV cache.
+
+        Args:
+            num_reqs (int): Number of requests in the current batch.
+            num_scheduled_tokens_per_req (int or np.ndarray): Number of tokens
+                to be scheduled for each request.
+
+        Returns:
+            np.ndarray: A 2D array of shape (total_block_len, 3), where each row
+                contains:
+                - kv_cache_start_index (int): The starting index in the KV cache
+                  for the corresponding slice.
+                - new_kv_start_index (int): The starting index in the new KV
+                  cache for the corresponding slice.
+                - slice_len (int): The length of the slice.
+        """
+        slices_start = self.input_batch.num_computed_tokens_cpu[:num_reqs]
+        slices_end = (
+            self.input_batch.num_computed_tokens_cpu[:num_reqs]
+            + num_scheduled_tokens_per_req
+        )
+        local_block_start_idx = slices_start // self.block_size
+        local_block_end_idx = (slices_end - 1) // self.block_size
+        no_repeat_req_indices = self.arange_np[:num_reqs]
+        global_block_start_idx = (
+            no_repeat_req_indices * self.max_num_blocks_per_req + local_block_start_idx
+        )
+        block_lens = local_block_end_idx - local_block_start_idx + 1
+        global_block_start_idx = np.repeat(global_block_start_idx, block_lens)
+        slice_arange = np.concatenate([self.arange_np[:n] for n in block_lens])
+        global_block_indices = global_block_start_idx + slice_arange
+        block_table_cpu = self.input_batch.block_table[0].get_cpu_tensor()
+        block_numbers = block_table_cpu.flatten()[global_block_indices].numpy()
+        total_block_len = np.sum(block_lens)
+        slot_mapping_slices = np.repeat(
+            np.array([[0, self.block_size]], dtype=np.int32), total_block_len, axis=0
+        )
+        cu_block_lens = np.zeros(len(block_lens) + 1, dtype=np.int32)
+        np.cumsum(block_lens, out=cu_block_lens[1:])
+        for req_idx in range(num_reqs):
+            slot_mapping_slices[cu_block_lens[req_idx]][0] = (
+                slices_start[req_idx] % self.block_size
+            )
+            slot_mapping_slices[cu_block_lens[req_idx + 1] - 1][1] = (
+                slices_end[req_idx] - 1
+            ) % self.block_size + 1
+        slice_lens = slot_mapping_slices[:, 1] - slot_mapping_slices[:, 0]
+        cu_slices_lens = np.zeros(len(slice_lens) + 1, dtype=np.int32)
+        np.cumsum(slice_lens, out=cu_slices_lens[1:])
+        kv_cache_start_indices = slot_mapping_slices[:, 0] + (
+            block_numbers * self.block_size
+        )
+        new_kv_start_indices = cu_slices_lens[:-1]
+        slot_mapping_metadata = np.stack(
+            [kv_cache_start_indices, new_kv_start_indices, slice_lens], axis=1
+        )
+        return slot_mapping_metadata
+
+    def _prepare_inputs(self, scheduler_output: "SchedulerOutput", start_index: int):
+        assert scheduler_output.total_num_scheduled_tokens > 0
+        num_reqs = self.input_batch.num_reqs
+        assert num_reqs > 0
+        assert start_index < num_reqs
+
+        # Get the number of scheduled tokens for each request.
+        use_max_model_len = self.most_model_len is None
+        num_scheduled_tokens_per_req = []
+        max_num_scheduled_tokens_all_reqs = 0
+        end_index = start_index
+
+        # Use either most_model_len or max_model_len depending on request size.
+        for i in range(start_index, num_reqs):
+            req_id = self.input_batch.req_ids[i]
+            assert req_id is not None
+            num_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            if not use_max_model_len and num_tokens > self.most_model_len:
+                use_max_model_len = True
+            num_scheduled_tokens_per_req.append(num_tokens)
+        if use_max_model_len:
+            if len(num_scheduled_tokens_per_req) > self.num_reqs_max_model_len:
+                num_scheduled_tokens_per_req = num_scheduled_tokens_per_req[
+                    : self.num_reqs_max_model_len
+                ]
+                end_index = start_index + self.num_reqs_max_model_len
+            else:
+                end_index = num_reqs
+        else:
+            if len(num_scheduled_tokens_per_req) > self.num_reqs_most_model_len:
+                num_scheduled_tokens_per_req = num_scheduled_tokens_per_req[
+                    : self.num_reqs_most_model_len
+                ]
+                end_index = start_index + self.num_reqs_most_model_len
+            else:
+                end_index = num_reqs
+        max_num_scheduled_tokens_all_reqs = max(num_scheduled_tokens_per_req)
+        num_scheduled_tokens_per_req = np.array(
+            num_scheduled_tokens_per_req, dtype=np.int32
+        )
+        total_num_scheduled_tokens = sum(num_scheduled_tokens_per_req)
+        assert max_num_scheduled_tokens_all_reqs > 0
+
+        num_reqs = len(num_scheduled_tokens_per_req)
+
+        # Get request indices.
+        # E.g., [2, 5, 3] -> [0, 0, 1, 1, 1, 1, 1, 2, 2, 2]
+        # For each scheduled token, what are the corresponding req index.
+        req_indices = np.repeat(self.arange_np[:num_reqs], num_scheduled_tokens_per_req)
+
+        # Get batched arange.
+        # E.g., [2, 5, 3] -> [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        # For each scheduled token, what is its position in corresponding req.
+        arange = np.concatenate(
+            [self.arange_np[:n] for n in num_scheduled_tokens_per_req]
+        )
+
+        # Get positions.
+        positions_np = self.positions_np[:total_num_scheduled_tokens]
+        np.add(
+            self.input_batch.num_computed_tokens_cpu[req_indices],
+            arange,
+            out=positions_np,
+        )
+
+        # Get token indices.
+        # E.g., [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+        # -> [0, 1, M, M + 1, M + 2, M + 3, M + 4, 2 * M, 2 * M + 1, 2 * M + 2]
+        # where M is the max_model_len.
+        token_indices = (
+            positions_np + req_indices * self.input_batch.token_ids_cpu.shape[1]
+        )
+
+        # NOTE(woosuk): We use torch.index_select instead of np.take here
+        # because torch.index_select is much faster than np.take for large
+        # tensors.
+        torch.index_select(
+            self.input_batch.token_ids_cpu_tensor.flatten(),
+            0,
+            torch.from_numpy(token_indices),
+            out=self.input_ids_cpu[:total_num_scheduled_tokens],
+        )
+
+        # Prepare the attention metadata.
+        self.query_start_loc_np[0] = 0
+        np.cumsum(
+            num_scheduled_tokens_per_req, out=self.query_start_loc_np[1 : num_reqs + 1]
+        )
+        self.query_start_loc_np[num_reqs + 1 :] = 1
+
+        self.seq_lens_np[:num_reqs] = (
+            self.input_batch.num_computed_tokens_cpu[:num_reqs]
+            + num_scheduled_tokens_per_req
+        )
+
+        # Do the padding and copy the tensors to the TPU.
+        padded_total_num_scheduled_tokens = _get_padded_token_len(
+            self.num_tokens_paddings, total_num_scheduled_tokens
+        )
+        # Zero out to avoid spurious values from prev iteration (last cp chunk)
+        self.input_ids_cpu[
+            total_num_scheduled_tokens:padded_total_num_scheduled_tokens
+        ] = 0
+        self.input_ids = self.input_ids_cpu[:padded_total_num_scheduled_tokens].to(
+            self.device
+        )
+        self.position_ids = self.positions_cpu[:padded_total_num_scheduled_tokens].to(
+            self.device
+        )
+        if use_max_model_len:
+            block_tables = self.block_table_cpu[
+                : self.num_reqs_max_model_len, : self.max_num_blocks_per_req
+            ]
+            block_tables[:num_reqs, : self.max_num_blocks_per_req] = (
+                self.input_batch.block_table[0].get_cpu_tensor()[:num_reqs]
+            )
+            query_start_loc = self.query_start_loc_cpu[
+                : self.num_reqs_max_model_len + 1
+            ].to(self.device)
+            seq_lens = self.seq_lens_cpu[: self.num_reqs_max_model_len].to(self.device)
+        else:
+            block_tables = self.block_table_cpu[
+                : self.num_reqs_most_model_len, : self.num_blocks_per_most_len_req
+            ]
+            block_tables[:num_reqs, : self.num_blocks_per_most_len_req] = (
+                self.input_batch.block_table[0].get_cpu_tensor()[
+                    :num_reqs, : self.num_blocks_per_most_len_req
+                ]
+            )
+            query_start_loc = self.query_start_loc_cpu[
+                : self.num_reqs_most_model_len + 1
+            ].to(self.device)
+            seq_lens = self.seq_lens_cpu[: self.num_reqs_most_model_len].to(self.device)
+        block_tables = block_tables.to(self.device)
+
+        # Calculate the slot mapping
+        slot_mapping_metadata = self._get_slot_mapping_metadata(
+            num_reqs, num_scheduled_tokens_per_req
+        )
+        num_kv_update_slices = slot_mapping_metadata.shape[0]
+        padded_num_slices = _get_padded_num_kv_cache_update_slices(
+            padded_total_num_scheduled_tokens, self.max_num_reqs, self.block_size
+        )
+        slot_mapping_metadata = np.pad(
+            slot_mapping_metadata,
+            [[0, padded_num_slices - len(slot_mapping_metadata)], [0, 0]],
+            constant_values=0,
+        )
+        slot_mapping_metadata = np.transpose(slot_mapping_metadata)
+        slot_mapping_metadata = torch.tensor(slot_mapping_metadata, device=self.device)
+
+        if self.lora_config is not None:
+            # We need to respect padding when activating LoRA adapters
+            padded_num_scheduled_tokens_per_req = np.copy(
+                num_scheduled_tokens_per_req
+            )  # Copying to avoid accidental state corruption bugs
+            padded_num_scheduled_tokens_per_req[-1] += (
+                padded_total_num_scheduled_tokens - total_num_scheduled_tokens
+            )
+
+            self.set_active_loras(self.input_batch, padded_num_scheduled_tokens_per_req)
+
+        attn_metadata = PallasMetadata(
+            slot_mapping=slot_mapping_metadata,
+            block_tables=block_tables,
+            context_lens=seq_lens,
+            query_start_loc=query_start_loc,
+            num_seqs=torch.tensor([num_reqs], dtype=torch.int32, device=self.device),
+            num_kv_update_slices=torch.tensor(
+                [num_kv_update_slices], dtype=torch.int32, device=self.device
+            ),
+            num_slices_per_kv_cache_update_block=self._num_slices_per_kv_cache_update_block,
+        )
+        # NOTE(woosuk): Due to chunked prefills, there can be at most 1 partial
+        # request in the batch. While we should not sample any token from this
+        # partial request, we do so for simplicity. We will ignore the sampled
+        # token from the partial request.
+        # TODO: Support prompt logprobs.
+        padded_num_reqs = _get_padded_num_reqs_with_upper_limit(
+            num_reqs, self.max_num_reqs
+        )
+        # Indices at which we sample (positions of last token in the sequence).
+        # Padded to avoid recompiling when `num_reqs` varies.
+        logits_indices = self.query_start_loc_cpu[1 : padded_num_reqs + 1] - 1
+        logits_indices = logits_indices.to(self.device)
+
+        if self.lora_config is not None:
+            # We need to respect padding when activating LoRA adapters
+            padded_num_scheduled_tokens_per_req = np.copy(
+                num_scheduled_tokens_per_req
+            )  # Copying to avoid accidental state corruption bugs
+            padded_num_scheduled_tokens_per_req[-1] += (
+                padded_total_num_scheduled_tokens - total_num_scheduled_tokens
+            )
+
+            self.set_active_loras(self.input_batch, padded_num_scheduled_tokens_per_req)
+
+        layer_names = get_layers_from_vllm_config(self.vllm_config, Attention).keys()
+        per_layer_attn_metadata = {
+            layer_name: attn_metadata for layer_name in layer_names
+        }
+        return (
+            per_layer_attn_metadata,
+            logits_indices,
+            padded_num_reqs,
+            num_reqs,
+            end_index,
+        )
+
+    def _execute_mm_encoder(self, scheduler_output: "SchedulerOutput"):
+        scheduled_encoder_inputs = scheduler_output.scheduled_encoder_inputs
+        if not scheduled_encoder_inputs:
+            return
+
+        # Batch the multi-modal inputs.
+        mm_kwargs = list[MultiModalKwargsItem]()
+        # List of tuple (mm_hash, pos_info)
+        mm_hashes_pos = list[tuple[str, PlaceholderRange]]()
+        for req_id, encoder_input_ids in scheduled_encoder_inputs.items():
+            req_state = self.requests[req_id]
+
+            for mm_input_id in encoder_input_ids:
+                mm_feature = req_state.mm_features[mm_input_id]
+                mm_hash = mm_feature.identifier
+                mm_kwargs.append(mm_feature.data)
+                mm_hashes_pos.append((mm_hash, mm_feature.mm_position))
+
+        # Batch mm inputs as much as we can: if a request in the batch has
+        # multiple modalities or a different modality than the previous one,
+        # we process it separately to preserve item order.
+        # FIXME(ywang96): This is a hacky way to deal with multiple modalities
+        # in the same batch while still being able to benefit from batching
+        # multimodal inputs. The proper solution should be reordering the
+        # encoder outputs.
+        model = cast(SupportsMultiModal, self.model)
+        encoder_outputs = []
+        for _, num_items, mm_kwargs_group in group_mm_kwargs_by_modality(
+            mm_kwargs,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
+        ):
+            # Run the encoder.
+            # `curr_group_outputs` is either of the following:
+            # 1. A tensor of shape (num_items, feature_size, hidden_size)
+            # in case feature_size is fixed across all multimodal items.
+            # 2. A list or tuple (length: num_items) of tensors, each of shape
+            # (feature_size, hidden_size) in case the feature size is dynamic
+            # depending on the input multimodal items.
+            torch_xla.sync(wait=False)
+            curr_group_outputs = model.embed_multimodal(**mm_kwargs_group)
+            torch_xla.sync(wait=False)
+
+            sanity_check_mm_encoder_outputs(
+                curr_group_outputs,
+                expected_num_items=num_items,
+            )
+
+            if isinstance(curr_group_outputs, torch.Tensor):
+                encoder_outputs.append(curr_group_outputs)
+            else:
+                assert isinstance(curr_group_outputs, (list, tuple))
+                for output in curr_group_outputs:
+                    encoder_outputs.append(output)
+
+        # Cache the encoder outputs.
+        # NOTE (NickLucche) here we diverge from logic in other runners, as we
+        # assume to only have whole mm items to process. Hence we avoid the
+        # intrinsic dynamism that `scatter_mm_placeholders` introduces.
+        for (mm_hash, pos_info), output in zip(mm_hashes_pos, encoder_outputs):
+            assert pos_info.is_embed is None, (
+                "Expected all positions to be contiguous and embeddings."
+            )
+            self.encoder_cache[mm_hash] = output
+
+    def _gather_mm_embeddings(
+        self,
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[list[torch.Tensor], torch.Tensor]:
+        total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+        padded_total_num_scheduled_tokens = _get_padded_token_len(
+            self.num_tokens_paddings, total_num_scheduled_tokens
+        )
+
+        is_mm_embed = self.is_mm_embed_cpu
+        is_mm_embed[:padded_total_num_scheduled_tokens] = False
+        mm_embeds = list[torch.Tensor]()
+        req_start_idx = 0
+
+        for req_id in self.input_batch.req_ids:
+            num_scheduled_tokens = scheduler_output.num_scheduled_tokens[req_id]
+            req_state = self.requests[req_id]
+            num_computed_tokens = req_state.num_computed_tokens
+
+            # TODO unroll loop and assume/enforce --disable_chunked_mm_input
+            # NOTE (NickLucche) here we diverge from logic in other runners, as
+            # we assume to only have whole mm items to process. Hence we avoid
+            # the intrinsic dynamism that `gather_mm_placeholders` introduces.
+            for mm_feature in req_state.mm_features:
+                pos_info = mm_feature.mm_position
+                start_pos = pos_info.offset
+                num_encoder_tokens = pos_info.length
+
+                # The encoder output is needed if the two ranges overlap:
+                # [num_computed_tokens,
+                #  num_computed_tokens + num_scheduled_tokens) and
+                # [start_pos, start_pos + num_encoder_tokens)
+                if start_pos >= num_computed_tokens + num_scheduled_tokens:
+                    # The encoder output is not needed in this step.
+                    break
+                if start_pos + num_encoder_tokens <= num_computed_tokens:
+                    # The encoder output is already processed and stored
+                    # in the decoder's KV cache.
+                    continue
+
+                start_idx = max(num_computed_tokens - start_pos, 0)
+                end_idx = min(
+                    num_computed_tokens - start_pos + num_scheduled_tokens,
+                    num_encoder_tokens,
+                )
+                assert start_idx < end_idx
+
+                mm_hash = mm_feature.identifier
+                encoder_output = self.encoder_cache.get(mm_hash, None)
+                assert encoder_output is not None, f"Encoder cache miss for {mm_hash}."
+
+                assert pos_info.is_embed is None, (
+                    "Expected all positions to be contiguous and embeddings."
+                )
+
+                req_start_pos = req_start_idx + start_pos - num_computed_tokens
+                is_mm_embed[req_start_pos + start_idx : req_start_pos + end_idx] = True
+
+                # Only whole mm items are processed
+                mm_embeds.append(encoder_output)
+
+            req_start_idx += num_scheduled_tokens
+
+        is_mm_embed = is_mm_embed[:padded_total_num_scheduled_tokens].to(self.device)
+
+        return mm_embeds, is_mm_embed
+
+    def _get_model_inputs(
+        self,
+        input_ids: torch.Tensor,
+        mm_embed_inputs: tuple[list[torch.Tensor], torch.Tensor] | None,
+    ):
+        if self.supports_mm_inputs:
+            mm_embeds, is_mm_embed = mm_embed_inputs or (None, None)
+
+            # NOTE(woosuk): To unify token ids and soft tokens (vision
+            # embeddings), we always use embeddings (rather than token ids)
+            # as input to the multimodal model, even when the input is text.
+            inputs_embeds = self.model.embed_input_ids(
+                input_ids,
+                multimodal_embeddings=mm_embeds,
+                is_multimodal=is_mm_embed,
+            )
+
+            return None, inputs_embeds
+        else:
+            # For text-only models, we use token ids as input.
+            # While it is possible to use embeddings as input just like the
+            # multimodal models, it is not desirable for performance since
+            # then the embedding layer is not included in the CUDA graph.
+            return input_ids, None
+
+    @torch.no_grad()
+    def execute_model(
+        self,
+        scheduler_output: "SchedulerOutput",
+        intermediate_tensors: IntermediateTensors | None = None,
+    ) -> ModelRunnerOutput | None:
+        if self.scheduler_output is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
+        # Update cached state
+        self._update_states(scheduler_output)
+        if not scheduler_output.total_num_scheduled_tokens:
+            if not has_kv_transfer_group():
+                # Return empty ModelRunnerOutput if there's no work to do.
+                return EMPTY_MODEL_RUNNER_OUTPUT
+
+            return self.kv_connector_no_forward(scheduler_output, self.vllm_config)
+
+        mm_embed_inputs = None
+        if self.supports_mm_inputs:
+            # Run the multimodal encoder if any.
+            self._execute_mm_encoder(scheduler_output)
+            mm_embed_inputs = self._gather_mm_embeddings(scheduler_output)
+
+        torch_xla.sync(wait=False)
+
+        self.scheduler_output = scheduler_output
+        self.mm_embed_inputs = mm_embed_inputs
+        return None
+
+    @torch.no_grad()
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput | None"
+    ) -> ModelRunnerOutput:
+        if self.scheduler_output is None:
+            # Nothing to do (PP non-final rank case), output isn't used.
+            return None  # noqa
+        scheduler_output = self.scheduler_output
+        mm_embed_inputs = self.mm_embed_inputs
+        self.scheduler_output = None
+        self.mm_embed_inputs = None
+
+        # Prepare inputs, the requests might be split into multiple
+        # executions, combine the result of each execution.
+        start_index = 0
+        combined_selected_tokens: list[torch.Tensor] = []
+        combined_logprobs: list[LogprobsLists] = []
+
+        # NOTE: setup current batch's metadata for kv connector.
+        # Currently, only verified with NixlConnector
+        with set_forward_context(None, self.vllm_config):
+            self.maybe_setup_kv_connector(scheduler_output)
+
+        while start_index < self.input_batch.num_reqs:
+            attn_metadata, logits_indices, padded_num_reqs, num_reqs, end_index = (
+                self._prepare_inputs(scheduler_output, start_index)
+            )
+            input_ids, inputs_embeds = self._get_model_inputs(
+                self.input_ids, mm_embed_inputs
+            )
+            torch_xla.sync(wait=False)
+            # Run the decoder
+            with set_forward_context(
+                attn_metadata,
+                self.vllm_config,
+                num_tokens=scheduler_output.total_num_scheduled_tokens,
+            ):
+                hidden_states = self.model(
+                    input_ids=input_ids,
+                    positions=self.position_ids,
+                    inputs_embeds=inputs_embeds,
+                )
+            hidden_states = self.select_hidden_states(hidden_states, logits_indices)
+            logits = self.compute_logits(hidden_states)
+            tpu_sampling_metadata = TPUSupportedSamplingMetadata.from_input_batch(
+                self.input_batch, padded_num_reqs, self.device
+            )
+            if grammar_output is not None:
+                require_struct_decoding, grammar_bitmask_padded, arange = (
+                    self.prepare_structured_decoding_input(logits, grammar_output)
+                )
+                logits = self.structured_decode(
+                    require_struct_decoding, grammar_bitmask_padded, logits, arange
+                )
+            selected_token_ids = self.sample_from_logits_func(
+                logits, tpu_sampling_metadata
+            )
+            # NOTE (NickLucche) Use the original logits (before any penalties or
+            # temperature scaling) for the top-k logprobs. We can't enforce it
+            # due to recompilations outside torch.compiled code, so just make
+            # sure `sample_from_logits` does not modify the logits in-place.
+            logprobs = (
+                self.gather_logprobs(logits, selected_token_ids)
+                if tpu_sampling_metadata.logprobs
+                else None
+            )
+
+            # Remove padding on cpu and keep dynamic op outside of xla graph.
+            selected_token_ids = selected_token_ids.cpu()[:num_reqs]
+
+            combined_selected_tokens.append(selected_token_ids)
+            if tpu_sampling_metadata.logprobs:
+                combined_logprobs.append(logprobs.tolists())
+
+            start_index = end_index
+
+        # NOTE: current kv load and save get h2d/d2h copies involved.
+        # Those copies are blocking. Once they become async., kv_save
+        # should be called right after each single forward pass,
+        # instead of the forwards of the entire input batch.
+        self.maybe_wait_for_kv_save()
+        finished_sending, finished_recving = self.get_finished_kv_transfers(
+            scheduler_output
+        )
+
+        selected_token_ids = torch.cat(combined_selected_tokens, dim=0)
+        if tpu_sampling_metadata.logprobs:
+
+            def concat_lists(input_lists):
+                result = []
+                for input_list in input_lists:
+                    result.extend(input_list)
+                return result
+
+            logprobs_lists = LogprobsLists(
+                logprob_token_ids=concat_lists(
+                    [lp.logprob_token_ids for lp in combined_logprobs]
+                ),
+                logprobs=concat_lists([lp.logprobs for lp in combined_logprobs]),
+                sampled_token_ranks=concat_lists(
+                    [lp.sampled_token_ranks for lp in combined_logprobs]
+                ),
+            )
+        else:
+            logprobs_lists = None
+
+        # Update the cache state concurrently. Code above will not block until
+        # we use `selected_token_ids`. Add mark_step if post-processing changes
+        request_seq_lens: list[tuple[int, CachedRequestState, int]] = []
+        discard_sampled_tokens_req_indices = []
+        num_reqs = self.input_batch.num_reqs
+        for i, req_id in zip(range(num_reqs), self.input_batch.req_ids):
+            assert req_id is not None
+            req_state = self.requests[req_id]
+            seq_len = (
+                req_state.num_computed_tokens
+                + scheduler_output.num_scheduled_tokens[req_id]
+            )
+            if seq_len >= req_state.num_tokens:
+                request_seq_lens.append((i, req_state, seq_len))
+            else:
+                # Ignore the sampled token from the partial request.
+                # Rewind the generator state as if the token was not sampled.
+                generator = self.input_batch.generators.get(i)
+                if generator is not None:
+                    # This relies on cuda-specific torch-internal impl details
+                    generator.set_offset(generator.get_offset() - 4)
+
+                # Record the index of the request that should not be sampled,
+                # so that we could clear the sampled tokens before returning.
+                discard_sampled_tokens_req_indices.append(i)
+
+        assert all(
+            req_id is not None for req_id in self.input_batch.req_ids[:num_reqs]
+        ), "req_ids contains None"
+        req_ids = cast(list[str], self.input_batch.req_ids[:num_reqs])
+
+        prompt_logprobs_dict: dict[str, LogprobsTensors | None] = {}
+        for req_id in self.input_batch.req_ids[:num_reqs]:
+            prompt_logprobs_dict[req_id] = None
+
+        max_gen_len = selected_token_ids.shape[-1]
+        if max_gen_len == 1:
+            valid_sampled_token_ids: list[np.ndarray] = [
+                row for row in selected_token_ids.numpy()
+            ]
+
+            # Mask out the sampled tokens that should not be sampled.
+            # TODO: Keep in sync with gpu_model_runner.py, in particular
+            #       the "else" case here
+            for i in discard_sampled_tokens_req_indices:
+                valid_sampled_token_ids[i] = np.array([])
+
+            # Append sampled tokens
+            for i, req_state, seq_len in request_seq_lens:
+                token_id = valid_sampled_token_ids[i][0]
+                self.input_batch.token_ids_cpu[i, seq_len] = token_id
+                req_state.output_token_ids.append(token_id)
+                self.input_batch.num_tokens[i] += 1
+
+        else:
+            valid_mask = selected_token_ids != INVALID_TOKEN_ID
+            gen_lens = valid_mask.sum(dim=1).tolist()
+            valid_sampled_token_ids = [
+                seq.numpy() for seq in selected_token_ids[valid_mask].split(gen_lens)
+            ]
+            self.input_batch.num_tokens[:num_reqs] += gen_lens
+            for i, req_state, seq_len in request_seq_lens:
+                target_slice = slice(seq_len - gen_lens[i] + 1, seq_len + 1)
+                self.input_batch.token_ids_cpu[i, target_slice] = (
+                    valid_sampled_token_ids[i]
+                )
+                req_state.output_token_ids.extend(valid_sampled_token_ids[i])
+
+        kv_connector_output = (
+            None
+            if (finished_sending is None and finished_recving is None)
+            else KVConnectorOutput(
+                finished_sending=finished_sending,
+                finished_recving=finished_recving,
+            )
+        )
+
+        model_runner_output = ModelRunnerOutput(
+            req_ids=req_ids,
+            req_id_to_index=self.input_batch.req_id_to_index,
+            sampled_token_ids=valid_sampled_token_ids,
+            logprobs=logprobs_lists,
+            prompt_logprobs_dict=prompt_logprobs_dict,
+            pooler_output=[],
+            kv_connector_output=kv_connector_output,
+        )
+
+        # Check there are no new graphs compiled - all the graphs should be
+        # captured and compiled during warm up.
+        self._verify_num_xla_graphs("execute_model")
+
+        return model_runner_output
+
+    def update_config(self, overrides: dict[str, Any]) -> None:
+        # TODO: TPU config may need extra validation
+        # https://github.com/vllm-project/vllm/pull/20095#discussion_r2201497754
+        allowed_config_names = {"load_config", "model_config"}
+        for config_name, config_overrides in overrides.items():
+            assert config_name in allowed_config_names, (
+                f"Config `{config_name}` not supported. "
+                f"Allowed configs: {allowed_config_names}"
+            )
+            config = getattr(self, config_name)
+            new_config = update_config(config, config_overrides)
+            setattr(self, config_name, new_config)
+
+    def load_model(self) -> None:
+        self.device = self.device_config.device
+
+        # NOTE(woosuk): While the executor assigns the TP ranks to the worker
+        # process, the ranks can be different from the ranks internally assigned
+        # by the xm runtime. Therefore, there is a mismatch in the rank
+        # assignment between the gloo (cpu) runtime and the xm (tpu) runtime.
+        # This is not a problem in linear layers because all-reduce is
+        # rank-agnostic. However, it matters for all-gather as the ranks
+        # determine the order of concatenating the output tensors.
+        # As a workaround, we use the xm's rank assignment only when loading
+        # the embedding weights.
+        xm_tp_rank = xr.global_ordinal()
+        with patch(
+            "vllm.model_executor.layers.vocab_parallel_embedding."
+            "get_tensor_model_parallel_rank",
+            return_value=xm_tp_rank,
+        ):
+            try:
+                if self.use_spmd:
+                    tpu_loader = TPUModelLoader(
+                        load_config=self.vllm_config.load_config
+                    )
+                    model = tpu_loader.load_model(
+                        vllm_config=self.vllm_config,
+                        model_config=self.vllm_config.model_config,
+                        mesh=self.mesh,
+                    )
+                else:
+                    model_loader = get_model_loader(self.load_config)
+                    logger.info("Loading model from scratch...")
+                    model = model_loader.load_model(
+                        vllm_config=self.vllm_config, model_config=self.model_config
+                    )
+            except RuntimeError as e:
+                raise RuntimeError(
+                    f"Unable to load model, a likely reason is the model is "
+                    "too large for the current device's HBM memory. "
+                    "Consider switching to a smaller model "
+                    "or sharding the weights on more chips. "
+                    f"See the detailed error: {e}"
+                ) from e
+        if self.lora_config is not None:
+            model = self.load_lora_model(model, self.vllm_config, self.device)
+            replace_set_lora(model)
+
+        # Sync all pending XLA execution during model initialization and weight
+        # loading.
+        torch_xla.sync(wait=False)
+        xm.wait_device_ops()
+        if not hasattr(self, "model"):
+            self.model = model
+        self.sampler = TPUSampler()
+
+    def reload_weights(self) -> None:
+        assert getattr(self, "model", None) is not None, (
+            "Cannot reload weights before model is loaded."
+        )
+        model_loader = get_model_loader(self.load_config)
+        logger.info("Reloading weights inplace...")
+        model_loader.load_weights(self.model, model_config=self.model_config)
+
+    @torch.no_grad()
+    def _dummy_run(self, num_tokens: int, num_reqs: int, num_blocks: int) -> None:
+        if self.supports_mm_inputs:
+            input_ids = None
+            inputs_embeds = torch.zeros(
+                (num_tokens, self.hidden_size), dtype=self.dtype, device=self.device
+            )
+        else:
+            input_ids = torch.zeros((num_tokens), dtype=torch.int32).to(self.device)
+            inputs_embeds = None
+        actual_num_reqs = min(num_tokens, num_reqs)
+        position_ids = torch.zeros(num_tokens, dtype=torch.int32).to(self.device)
+        padded_num_slices = _get_padded_num_kv_cache_update_slices(
+            num_tokens, self.max_num_reqs, self.block_size
+        )
+        num_kv_update_slices = torch.tensor([padded_num_slices], dtype=torch.int32).to(
+            self.device
+        )
+        slot_mapping = torch.zeros((3, padded_num_slices), dtype=torch.int32).to(
+            self.device
+        )
+        block_tables = torch.zeros((num_reqs, num_blocks), dtype=torch.int32).to(
+            self.device
+        )
+        query_lens = [1] * num_reqs
+        query_start_loc = torch.cumsum(
+            torch.tensor([0] + query_lens, dtype=torch.int32), dim=0, dtype=torch.int32
+        ).to(self.device)
+        context_lens = torch.ones((num_reqs,), dtype=torch.int32).to(self.device)
+        num_seqs = torch.tensor([actual_num_reqs], dtype=torch.int32).to(self.device)
+        attn_metadata = PallasMetadata(
+            slot_mapping=slot_mapping,
+            block_tables=block_tables,
+            context_lens=context_lens,
+            query_start_loc=query_start_loc,
+            num_seqs=num_seqs,
+            num_kv_update_slices=num_kv_update_slices,
+            num_slices_per_kv_cache_update_block=self._num_slices_per_kv_cache_update_block,
+        )
+
+        if self.supports_mm_inputs:
+            torch._dynamo.mark_dynamic(inputs_embeds, 0)
+        else:
+            torch._dynamo.mark_dynamic(input_ids, 0)
+        torch._dynamo.mark_dynamic(position_ids, 0)
+        torch._dynamo.mark_dynamic(attn_metadata.slot_mapping, 0)
+        torch._dynamo.mark_dynamic(attn_metadata.block_tables, (0, 1))
+        torch._dynamo.mark_dynamic(attn_metadata.context_lens, 0)
+        torch._dynamo.mark_dynamic(attn_metadata.query_start_loc, 0)
+
+        layer_names = get_layers_from_vllm_config(self.vllm_config, Attention).keys()
+        per_layer_attn_metadata = {
+            layer_name: attn_metadata for layer_name in layer_names
+        }
+
+        with (
+            self.maybe_select_dummy_loras(
+                self.lora_config, np.array([num_tokens], dtype=np.int32)
+            ),
+            set_forward_context(per_layer_attn_metadata, self.vllm_config, 0),
+        ):
+            out = self.model(
+                input_ids=input_ids, positions=position_ids, inputs_embeds=inputs_embeds
+            )
+        self._hidden_states_dtype = out.dtype
+
+    def _set_active_loras(
+        self, prompt_lora_mapping, token_lora_mapping, lora_requests
+    ) -> None:
+        torch_xla.sync(wait=False)  # Captures input updates
+        super()._set_active_loras(
+            prompt_lora_mapping, token_lora_mapping, lora_requests
+        )
+        torch_xla.sync(wait=False)  # Captures metadata updates
+
+    def _precompile_mm_encoder(self) -> None:
+        if not self.supports_mm_inputs:
+            return
+
+        # Pre-compile MM encoder for all supported data modalities.
+        hf_config = self.vllm_config.model_config.hf_config
+
+        mm_budget = self.mm_budget
+        assert mm_budget is not None
+
+        max_items_per_seq_by_modality = mm_budget.max_items_per_batch_by_modality  # noqa: E501
+
+        for mode, max_items_per_seq in max_items_per_seq_by_modality.items():
+            logger.info(
+                "Compiling Multimodal %s Encoder with different input shapes.", mode
+            )
+            start = time.perf_counter()
+            # No padding for MM encoder just yet.
+            for num_items in range(1, max_items_per_seq + 1):
+                logger.info("  -- mode: %s items: %d", mode, num_items)
+                batched_dummy_mm_inputs = self._get_mm_dummy_batch(
+                    mode,
+                    num_items,
+                )
+                # Run multimodal encoder.
+                torch_xla.sync(wait=False)
+                mm_embeds = self.model.embed_multimodal(**batched_dummy_mm_inputs)
+                torch_xla.sync(wait=False)
+                num_patches = mm_embeds[0].shape[0]
+                items_size = num_patches * num_items
+
+                # NOTE (NickLucche) pre-compile `embed_input_ids` when mm
+                # embeddings are present. We assume `--disable-mm-chunked`,
+                # hence only whole items can be scheduled. This implies we just
+                # need to compile when `num_items` fit the (padded) `input_ids`
+                for num_tokens in self.num_tokens_paddings:
+                    if num_tokens >= items_size:
+                        # XLA Workaround: if torch.zeros(..device) is used, XLA
+                        # compiles a scalar+expansion op, which won't match
+                        # the graph generated at runtime. CPU->TPU must be used
+                        placeholders_ids = torch.zeros(
+                            num_tokens, dtype=torch.int32, device="cpu"
+                        )
+                        # Align placeholders and actual num mm_embeddings.
+                        placeholders_ids[:items_size] = hf_config.image_token_index
+
+                        placeholders_ids = placeholders_ids.to(self.device)
+
+                        mm_mask = torch.tensor([False] * num_tokens)
+                        mm_mask[:items_size] = True
+                        mm_mask = mm_mask.to(self.device)
+                        # Assign outputs or the graph will be cut short.
+                        a, b = self._get_model_inputs(
+                            placeholders_ids,
+                            mm_embed_inputs=([mm_embeds], mm_mask),
+                        )
+                        assert a is None
+                        torch_xla.sync(wait=False)
+
+            # Pre-compile `embed_input_ids` when mm_embeddings are not
+            # present. Chunk is only made of text, no mm_placeholders.
+            for num_tokens in self.num_tokens_paddings:
+                placeholders_ids = torch.zeros(
+                    num_tokens, dtype=torch.int32, device="cpu"
+                )
+                placeholders_ids = placeholders_ids.to(self.device)
+                a, b = self._get_model_inputs(
+                    placeholders_ids,
+                    mm_embed_inputs=None,
+                )
+                assert a is None
+                torch_xla.sync(wait=False)
+
+            xm.wait_device_ops()
+            end = time.perf_counter()
+            logger.info(
+                "Multimodal %s Encoder compilation finished in in %.2f [secs].",
+                mode,
+                end - start,
+            )
+
+    def _precompile_backbone(self) -> None:
+        logger.info("Compiling the model with different input shapes.")
+        start = time.perf_counter()
+        for num_tokens in self.num_tokens_paddings:
+            logger.info("  -- num_tokens: %d", num_tokens)
+            self._dummy_run(
+                num_tokens, self.num_reqs_max_model_len, self.max_num_blocks_per_req
+            )
+            if self.most_model_len is not None:
+                self._dummy_run(
+                    num_tokens,
+                    self.num_reqs_most_model_len,
+                    self.num_blocks_per_most_len_req,
+                )
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("model backbone")
+
+    def _precompile_select_hidden_states(self) -> None:
+        # Compile hidden state selection function for bucketed
+        # n_tokens x max_num_reqs. Graph is really small so this is fine.
+        logger.info("Compiling select_hidden_states with different input shapes.")
+        start = time.perf_counter()
+        hsize = self.model_config.get_hidden_size()
+        for num_tokens in self.num_tokens_paddings:
+            dummy_hidden = torch.zeros(
+                (num_tokens, hsize), device=self.device, dtype=self._hidden_states_dtype
+            )
+            torch._dynamo.mark_dynamic(dummy_hidden, 0)
+            for num_reqs in self.num_reqs_paddings:
+                indices = torch.zeros(num_reqs, dtype=torch.int32, device=self.device)
+                torch._dynamo.mark_dynamic(indices, 0)
+                self.select_hidden_states(dummy_hidden, indices)
+                logger.info("  -- num_tokens: %d, num_seqs: %d", num_tokens, num_reqs)
+                # Requests can't be more than tokens. But do compile for the
+                # next bigger value in case num_tokens uses bucketed padding.
+                if num_reqs >= min(num_tokens, self.max_num_reqs):
+                    break
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("select_hidden_states")
+
+    def _precompile_compute_logits(self) -> None:
+        logger.info("Compiling compute_logits with different input shapes.")
+        start = time.perf_counter()
+        hsize = self.model_config.get_hidden_size()
+        for num_reqs in self.num_reqs_paddings:
+            dummy_hidden = torch.zeros(
+                (num_reqs, hsize), device=self.device, dtype=self._hidden_states_dtype
+            )
+            torch._dynamo.mark_dynamic(dummy_hidden, 0)
+            self.compute_logits(dummy_hidden)
+            logger.info("  -- num_seqs: %d", num_reqs)
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("compute_logits")
+
+    def _precompile_structured_decoding(self) -> None:
+        logger.info("Compiling structured_decoding with different input shapes.")
+        start = time.perf_counter()
+        for num_reqs in self.num_reqs_paddings:
+            dummy_logits = torch.zeros(
+                (num_reqs, self.vocab_size),
+                device=self.device,
+                dtype=self._hidden_states_dtype,
+            )
+            dummy_require_struct_decoding = self.require_structured_out_cpu[
+                :num_reqs
+            ].to(self.device)
+            dummy_grammar_bitmask = self.grammar_bitmask_cpu[:num_reqs].to(self.device)
+            # The first dimension of the above 3 dummy tensors cannot be
+            # mark_dynamic because some operations in structured_decode require
+            # them to be static.
+            arange = self.structured_decode_arange.to(self.device)
+            self.structured_decode(
+                dummy_require_struct_decoding,
+                dummy_grammar_bitmask,
+                dummy_logits,
+                arange,
+            )
+            logger.info("  -- num_seqs: %d", num_reqs)
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("structured_decoding")
+
+    def _precompile_sample_from_logits(self) -> None:
+        logger.info("Compiling sample_from_logits with different input shapes.")
+        start = time.perf_counter()
+        for num_reqs in self.num_reqs_paddings:
+            dummy_logits = torch.zeros(
+                (num_reqs, self.vocab_size),
+                device=self.device,
+                dtype=self._hidden_states_dtype,
+            )
+            # The first dimension of dummy_logits cannot be mark_dynamic
+            # because some operations in the sampler require it to be static.
+            for all_greedy in [False, True]:
+                generate_params_if_all_greedy = not all_greedy
+                sampling_metadata = TPUSupportedSamplingMetadata.from_input_batch(
+                    self.input_batch,
+                    num_reqs,
+                    self.device,
+                    generate_params_if_all_greedy,
+                )
+                sampling_metadata.all_greedy = all_greedy
+                with self.maybe_select_dummy_loras(
+                    self.lora_config, np.array([num_reqs], dtype=np.int32)
+                ):
+                    self.sample_from_logits_func(dummy_logits, sampling_metadata)
+            logger.info("  -- num_seqs: %d", num_reqs)
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("sample_from_logits")
+
+    def _precompile_gather_logprobs(self) -> None:
+        logger.info("Compiling gather_logprobs with different input shapes.")
+        start = time.perf_counter()
+        for num_reqs in self.num_reqs_paddings:
+            dummy_logits = torch.zeros(
+                (num_reqs, self.vocab_size),
+                device=self.device,
+                dtype=self._hidden_states_dtype,
+            )
+            dummy_tokens = torch.zeros((num_reqs, 1), dtype=torch.int64).to(self.device)
+            with self.maybe_select_dummy_loras(
+                self.lora_config, np.array([num_reqs], dtype=np.int32)
+            ):
+                self.gather_logprobs(dummy_logits, dummy_tokens)
+            logger.info("  -- num_seqs: %d", num_reqs)
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("gather_logprobs")
+
+    def capture_model(self) -> None:
+        """
+        Precompile all the subgraphs with possible input shapes.
+        """
+        with self.maybe_setup_dummy_loras(self.lora_config):
+            self._precompile_mm_encoder()
+            self._precompile_backbone()
+            self._precompile_select_hidden_states()
+            self._precompile_compute_logits()
+            self._precompile_structured_decoding()
+            self._precompile_sample_from_logits()
+            self._precompile_gather_logprobs()
+
+    def profile_run(
+        self,
+        num_tokens: int,
+    ) -> None:
+        # Profile with multimodal encoder & encoder cache.
+        if self.supports_mm_inputs:
+            if self.model_config.multimodal_config.skip_mm_profiling:
+                logger.info(
+                    "Skipping memory profiling for multimodal encoder and "
+                    "encoder cache."
+                )
+            else:
+                mm_budget = self.mm_budget
+                assert mm_budget is not None
+
+                # TODO: handle encoder-decoder models once we support them.
+                if (encoder_budget := mm_budget.get_encoder_budget()) > 0:
+                    # NOTE: Currently model is profiled with a single non-text
+                    # modality with the max possible input tokens even when
+                    # it supports multiple.
+                    dummy_modality = mm_budget.get_modality_with_max_tokens()
+                    max_mm_items_per_batch = mm_budget.max_items_per_batch_by_modality[
+                        dummy_modality
+                    ]
+
+                    logger.info(
+                        "Encoder cache will be initialized with a budget of "
+                        "%s tokens, and profiled with %s %s items of the "
+                        "maximum feature size.",
+                        encoder_budget,
+                        max_mm_items_per_batch,
+                        dummy_modality,
+                    )
+
+                    # Create dummy batch of multimodal inputs.
+                    batched_dummy_mm_inputs = self._get_mm_dummy_batch(
+                        dummy_modality,
+                        max_mm_items_per_batch,
+                    )
+
+                    # Run multimodal encoder.
+                    # Isolate encoder graph from post-processing to minimize
+                    # impact of recompilation until it's fixed.
+                    start = time.perf_counter()
+                    torch_xla.sync(wait=False)
+                    dummy_encoder_outputs = self.model.embed_multimodal(
+                        **batched_dummy_mm_inputs
+                    )
+                    torch_xla.sync(wait=False)
+                    xm.wait_device_ops()
+                    end = time.perf_counter()
+                    logger.info(
+                        "Multimodal Encoder profiling finished in %.2f [secs].",
+                        end - start,
+                    )
+
+                    sanity_check_mm_encoder_outputs(
+                        dummy_encoder_outputs,
+                        expected_num_items=max_mm_items_per_batch,
+                    )
+
+                    # Cache the dummy encoder outputs.
+                    self.encoder_cache["tmp"] = dict(enumerate(dummy_encoder_outputs))
+
+        # Trigger compilation for general shape.
+        self._dummy_run(
+            num_tokens, self.num_reqs_max_model_len, self.max_num_blocks_per_req
+        )
+        if self.most_model_len is not None:
+            self._dummy_run(
+                num_tokens,
+                self.num_reqs_most_model_len,
+                self.num_blocks_per_most_len_req,
+            )
+
+        torch_xla.sync(wait=False)
+        xm.wait_device_ops()
+        self.encoder_cache.clear()
+        gc.collect()
+
+    def maybe_setup_cross_layer_kv_sharing(
+        self,
+        kv_caches: dict[str, torch.Tensor],
+        kv_cache_config: KVCacheConfig,
+    ) -> None:
+        """
+        Add layers that re-use KV cache to KV cache group of its target layer.
+        Mapping of KV cache tensors happens in `initialize_kv_cache_tensors()`
+        """
+        if not self.shared_kv_cache_layers:
+            # No cross-layer KV sharing, return
+            return
+
+        add_kv_sharing_layers_to_kv_cache_groups(
+            self.shared_kv_cache_layers,
+            kv_cache_config.kv_cache_groups,
+        )
+
+        for layer_name, target_layer_name in self.shared_kv_cache_layers.items():
+            logger.debug("%s reuses KV cache of %s", layer_name, target_layer_name)
+            kv_caches[layer_name] = kv_caches[target_layer_name]
+
+    def initialize_kv_cache(self, kv_cache_config: KVCacheConfig) -> None:
+        """
+        Initialize KV cache based on `kv_cache_config`.
+        Args:
+            kv_cache_config: Configuration for the KV cache, including the KV
+            cache size of each layer
+        """
+        if len(kv_cache_config.kv_cache_groups) > 1:
+            raise NotImplementedError(
+                "Hybrid models with more than one KV cache type are not supported yet."
+            )
+
+        if (
+            kv_cache_config.kv_cache_groups[0].kv_cache_spec.block_size
+            != self.block_size
+        ):
+            self.input_batch = InputBatch(
+                max_num_reqs=self.max_num_reqs,
+                max_model_len=self.max_model_len,
+                max_num_batched_tokens=self.max_num_tokens,
+                device=self.device,
+                pin_memory=self.pin_memory,
+                vocab_size=self.model_config.get_vocab_size(),
+                block_sizes=[
+                    kv_cache_config.kv_cache_groups[0].kv_cache_spec.block_size
+                ],
+                kernel_block_sizes=[
+                    kv_cache_config.kv_cache_groups[0].kv_cache_spec.block_size
+                ],
+            )
+        # Verify dtype compatibility between block_table_cpu and input_batch
+        assert (
+            self.block_table_cpu.dtype
+            == self.input_batch.block_table[0].get_cpu_tensor().dtype
+        )
+
+        kv_cache_sizes = {}
+        for kv_cache_tensor in kv_cache_config.kv_cache_tensors:
+            assert len(kv_cache_tensor.shared_by) == 1, (
+                "KV cache tensor shared by multiple layers is not supported in TPU."
+            )
+            kv_cache_sizes[kv_cache_tensor.shared_by[0]] = kv_cache_tensor.size
+
+        kv_caches: dict[str, torch.Tensor] = {}
+        for kv_cache_group in kv_cache_config.kv_cache_groups:
+            kv_cache_spec = kv_cache_group.kv_cache_spec
+            for layer_name in kv_cache_group.layer_names:
+                tensor_size = kv_cache_sizes[layer_name]
+                assert tensor_size % kv_cache_spec.page_size_bytes == 0
+                num_blocks = tensor_size // kv_cache_spec.page_size_bytes  # noqa
+                if isinstance(kv_cache_spec, AttentionSpec):
+                    if self.use_spmd:
+                        num_kv_heads = kv_cache_spec.num_kv_heads
+                        assert self.original_parallel_config is not None
+                        tp_size = self.original_parallel_config.tensor_parallel_size
+                        # TODO: Handle kv cache duplication under SPMD mode.
+                        assert num_kv_heads % tp_size == 0, (
+                            f"num_kv_heads {num_kv_heads} must be divisible by "
+                            f"tp_size {tp_size} under SPMD mode"
+                        )
+                    kv_cache_shape = PallasAttentionBackend.get_kv_cache_shape(
+                        num_blocks,
+                        kv_cache_spec.block_size,
+                        kv_cache_spec.num_kv_heads,
+                        kv_cache_spec.head_size,
+                    )
+                    dtype = kv_cache_spec.dtype
+
+                    tpu_kv_cache = torch.zeros(kv_cache_shape, dtype=dtype).to(
+                        self.device
+                    )
+
+                    kv_caches[layer_name] = tpu_kv_cache
+                else:
+                    raise NotImplementedError
+
+        # Set up cross-layer KV cache sharing if needed
+        self.maybe_setup_cross_layer_kv_sharing(kv_caches, kv_cache_config)
+
+        bind_kv_cache(
+            kv_caches,
+            self.vllm_config.compilation_config.static_forward_context,
+            self.kv_caches,
+        )
+
+        if self.use_spmd:
+            # Shard KV Cache
+            for cache in self.kv_caches:
+                xs.mark_sharding(cache, self.mesh, (None, "x", None, None))
+
+        if has_kv_transfer_group():
+            get_kv_transfer_group().register_kv_caches(kv_caches)
+            get_kv_transfer_group().set_host_xfer_buffer_ops(copy_kv_blocks)
+
+    def reset_dynamo_cache(self):
+        # NOTE: We check `is_multimodal_model` instead of `supports_mm_inputs`
+        # since the compiled model object of the language backbone of a
+        # multimodal model needs to be extracted via `get_language_model`.
+        if self.model_config.is_multimodal_model:
+            compiled_model = self.model.get_language_model().model
+        else:
+            compiled_model = self.model.model
+        if isinstance(compiled_model, TorchCompileWithNoGuardsWrapper):
+            logger.info("Clear dynamo cache and cached dynamo bytecode.")
+            torch._dynamo.eval_frame.remove_from_cache(
+                compiled_model.original_code_object()
+            )
+            # Reset the wrapper to re-initialize.
+            compiled_model.compiled = False
+            TorchCompileWithNoGuardsWrapper.__init__(compiled_model)
+
+    @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def select_hidden_states(self, hidden_states, indices_do_sample):
+        return hidden_states[indices_do_sample]
+
+    @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def compute_logits(self, sample_hidden_states: torch.Tensor) -> torch.Tensor:
+        return self.model.compute_logits(sample_hidden_states)
+
+    # TODO: Under SPMD mode, sample_from_logits has correctness issue.
+    #       Re-enable the torch.compile once the issue is fixed in torchxla.
+    # @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def sample_from_logits(
+        self, logits: torch.Tensor, sampling_metadata: TPUSupportedSamplingMetadata
+    ) -> torch.Tensor:
+        """
+        Sample with xla-friendly function. This function is to be traced
+        separately from `forward` for lighter compilation overhead.
+        """
+        if sampling_metadata.all_greedy:
+            out_tokens = torch.argmax(logits, dim=-1, keepdim=True)
+        else:
+            out_tokens = self.sampler(logits, sampling_metadata).sampled_token_ids
+        return out_tokens
+
+    @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def gather_logprobs(
+        self, logits: torch.Tensor, sampled_tokens: torch.Tensor
+    ) -> LogprobsTensors:
+        """
+        Gather the top_logprobs with corresponding tokens. Use a fixed number
+        of logprobs as an alternative to having multiple pre-compiled graphs.
+        Select the number of logprobs actually demanded by each request on CPU.
+        """
+        logprobs = self.sampler.compute_logprobs(logits)
+        return self.sampler.gather_logprobs(
+            logprobs,
+            self.model_config.max_logprobs,
+            token_ids=sampled_tokens.squeeze(-1),
+        )
+
+    @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def structured_decode(
+        self,
+        require_struct_decoding: torch.Tensor,
+        grammar_bitmask: torch.Tensor,
+        logits: torch.Tensor,
+        arange: torch.Tensor,
+    ) -> torch.Tensor:
+        return torch.where(
+            require_struct_decoding,
+            self.apply_grammar_bitmask(logits, grammar_bitmask, arange),
+            logits,
+        )
+
+    def apply_grammar_bitmask(
+        self, logits: torch.Tensor, grammar_bitmask: torch.Tensor, arange: torch.Tensor
+    ):
+        assert logits.shape[0] == grammar_bitmask.shape[0]
+        logits_cloned = logits.clone()
+        for i in range(logits.shape[0]):
+            unpacked_bitmask = (
+                torch.bitwise_right_shift(grammar_bitmask[i][:, None], arange[None, :])
+                & 1
+            ) == 0
+            unpacked_bitmask = unpacked_bitmask.reshape(-1)[: self.vocab_size]
+            logits_cloned[i] = logits_cloned[i].masked_fill(
+                unpacked_bitmask, -float("inf")
+            )
+        return logits_cloned
+
+    def embed_multimodal(self, *args, **kwargs):
+        return self.model.embed_multimodal(*args, **kwargs)
+
+    def embed_input_ids(self, *args, **kwargs):
+        return self.model.embed_input_ids(*args, **kwargs)
+
+    def prepare_structured_decoding_input(
+        self, logits: torch.Tensor, grammar_output: "GrammarOutput"
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        grammar_bitmask = grammar_output.grammar_bitmask
+        num_reqs, _ = logits.shape
+
+        # Reset pre-allocated tensors
+        self.grammar_bitmask_cpu.zero_()
+        self.require_structured_out_cpu.zero_()
+
+        cumulative_mask_idx = 0
+        for req_id in grammar_output.structured_output_request_ids:
+            if req_id not in self.input_batch.req_id_to_index:
+                continue
+            batch_index = self.input_batch.req_id_to_index[req_id]
+            self.grammar_bitmask_cpu[batch_index] = torch.from_numpy(
+                grammar_bitmask[cumulative_mask_idx]
+            )
+            # It's not guaranteed that all requests in this batch require
+            # structured output, so create a bool tensor to represent
+            # the requests that need structured output.
+            self.require_structured_out_cpu[batch_index] = True
+            cumulative_mask_idx += 1
+
+        return (
+            self.require_structured_out_cpu[:num_reqs].to(logits.device),
+            self.grammar_bitmask_cpu[:num_reqs].to(logits.device),
+            self.structured_decode_arange.to(logits.device),
+        )
+
+    def _get_mm_dummy_batch(
+        self,
+        modality: str,
+        max_items_per_batch: int,
+    ) -> BatchedTensorInputs:
+        """Dummy data for profiling and precompiling multimodal models."""
+        assert self.mm_budget is not None
+
+        dummy_decoder_data = self.mm_registry.get_decoder_dummy_data(
+            model_config=self.model_config,
+            seq_len=self.max_model_len,
+            mm_counts={modality: 1},
+            cache=self.mm_budget.cache,
+        )
+        dummy_mm_data = dummy_decoder_data.multi_modal_data
+
+        # Result in the maximum GPU consumption of the model
+        dummy_mm_item = dummy_mm_data[modality][0]
+        dummy_mm_items = [dummy_mm_item] * max_items_per_batch
+
+        model = cast(SupportsMultiModal, self.model)
+        return next(
+            grouped_mm_kwargs
+            for _, _, grouped_mm_kwargs in group_mm_kwargs_by_modality(
+                dummy_mm_items,
+                device=self.device,
+                pin_memory=self.pin_memory,
+                merge_by_field_config=model.merge_by_field_config,
+                multimodal_cpu_fields=model.multimodal_cpu_fields,
+            )
+        )
+
+
+def _get_req_paddings(min_req_size: int, max_req_size: int) -> list[int]:
+    logger.info("Preparing request paddings:")
+    # assert min_req_size is power of 2
+    assert (min_req_size & (min_req_size - 1) == 0) and min_req_size > 0
+    paddings: list = []
+    num = max(MIN_NUM_SEQS, min_req_size)
+    while num <= max_req_size and (len(paddings) == 0 or paddings[-1] != num):
+        paddings.append(num)
+        logger.info("    %d", num)
+        num = _get_padded_num_reqs_with_upper_limit(num + 1, max_req_size)
+    return paddings
+
+
+def _get_padded_num_reqs_with_upper_limit(x: int, upper_limit: int) -> int:
+    res = MIN_NUM_SEQS if x <= MIN_NUM_SEQS else 1 << (x - 1).bit_length()
+    return min(res, upper_limit)
+
+
+def _get_token_paddings(
+    min_token_size: int, max_token_size: int, padding_gap: int
+) -> list[int]:
+    """Generate a list of padding size, starting from min_token_size,
+    ending with a number that can cover max_token_size
+
+    If padding_gap == 0 then:
+        increase 2X each time (exponential)
+    else:
+        first increase the size to twice,
+        then increase the padding size by padding_gap.
+    """
+    # assert min_token_size is power of 2
+    assert (min_token_size & (min_token_size - 1) == 0) and min_token_size > 0
+    paddings = []
+    num = min_token_size
+
+    if padding_gap == 0:
+        logger.info("Using exponential token paddings:")
+        while True:
+            logger.info("    %d", num)
+            paddings.append(num)
+            if num >= max_token_size:
+                break
+            num *= 2
+    else:
+        logger.info("Using incremental token paddings:")
+        while num <= padding_gap:
+            logger.info("    %d", num)
+            paddings.append(num)
+            num *= 2
+        num //= 2
+        while num < max_token_size:
+            num += padding_gap
+            logger.info("    %d", num)
+            paddings.append(num)
+
+    return paddings
+
+
+def _get_padded_token_len(paddings: list[int], x: int) -> int:
+    """Return the first element in paddings list greater or equal to x."""
+    index = bisect.bisect_left(paddings, x)
+    assert index < len(paddings)
+    return paddings[index]
+
+
+def _get_padded_num_kv_cache_update_slices(
+    num_tokens: int, max_num_reqs: int, page_size: int
+) -> int:
+    """Calculates the padded number of KV cache update slices to avoid
+    recompilation."""
+    # NOTE(chengjiyao): let's say R_i is the token num for i-th request,
+    # so it occupies most 2 + R_i // page_size pages. The total maximum
+    # possible number of pages needed is sum(2 + R_i // page_size), which
+    # is <= 2 * max_num_reqs + sum(R_i) // page_size
+    # = 2 * max_num_reqs + num_tokens // page_size
+    padded_num_slices = 2 * max_num_reqs + num_tokens // page_size
+    padded_num_slices = min(padded_num_slices, num_tokens)
+    return padded_num_slices
+
+
+def _get_num_slices_per_kv_cache_update_block(page_size_bytes: int) -> int:
+    """Find the optimum number of slices to copy per Pallas program instance.
+
+    Increasing the number of slices copied in one instance of the kernel program
+    will increase HBM bandwidth utilization via more in-flight DMAs.
+
+    However, it will also use more VMEM, and experimentally, we observed
+    performance regression at 128 slices on v6e, likely due to running
+    out of scalar registers. Thus this function will limit the number of
+    slices to 64.
+    """
+    # The default vmem_limit_bytes of a pallas kernel is 32MB. Here we
+    # calculate num_slices_per_block based on 16MB in case any register spills.
+    vmem_limit = 16 * 1024 * 1024
+    num_slices_per_block = vmem_limit // page_size_bytes
+    assert num_slices_per_block > 0, "Number of slices should be positive"
+    num_slices_per_block = prev_power_of_2(num_slices_per_block)
+    if num_slices_per_block > 64:
+        num_slices_per_block = 64
+    return num_slices_per_block
+
+
+def replace_set_lora(model):
+    def _tpu_set_lora(
+        self,
+        index: int,
+        lora_a: torch.Tensor,
+        lora_b: torch.Tensor,
+        embeddings_tensor: torch.Tensor | None,
+    ):
+        # TODO: The integer index leads to a recompilation, but converting it
+        # to a tensor doesn't seem to work anymore. This might be fixed with a
+        # later release of torch_xla.
+        self._original_set_lora(index, lora_a, lora_b, embeddings_tensor)
+        torch_xla.sync(wait=False)
+
+    def _tpu_reset_lora(self, index: int):
+        self._original_reset_lora(index)
+        torch_xla.sync(wait=False)
+
+    for _, module in model.named_modules():
+        if isinstance(module, BaseLayerWithLoRA):
+            module._original_set_lora = module.set_lora
+            module._original_reset_lora = module.reset_lora
+            module.set_lora = _tpu_set_lora.__get__(module, module.__class__)
+            module.reset_lora = _tpu_reset_lora.__get__(module, module.__class__)
diff --git a/v1/worker/tpu_worker.py b/v1/worker/tpu_worker.py
new file mode 100644
index 0000000..a716a9c
--- /dev/null
+++ b/v1/worker/tpu_worker.py
@@ -0,0 +1,355 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""A TPU worker class."""
+
+import os
+from collections.abc import Callable
+from typing import Any, TypeVar
+
+import torch
+import torch.nn as nn
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.distributed import (
+    ensure_model_parallel_initialized,
+    init_distributed_environment,
+)
+from vllm.distributed.kv_transfer import (
+    ensure_kv_transfer_initialized,
+)
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.model_executor import set_random_seed
+from vllm.platforms import current_platform
+from vllm.platforms.tpu import USE_TPU_INFERENCE
+from vllm.tasks import SupportedTask
+from vllm.utils.math_utils import cdiv
+from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+from vllm.v1.kv_cache_interface import AttentionSpec, KVCacheConfig, KVCacheSpec
+from vllm.v1.outputs import ModelRunnerOutput
+from vllm.v1.utils import report_usage_stats
+from vllm.v1.worker.utils import bind_kv_cache
+
+logger = init_logger(__name__)
+
+_R = TypeVar("_R")
+
+if not USE_TPU_INFERENCE:
+    logger.info("tpu_inference not found, using vLLM's TPUWorker.")
+    import torch_xla.core.xla_model as xm
+    import torch_xla.debug.profiler as xp
+    import torch_xla.runtime as xr
+
+    from vllm.v1.attention.backends.pallas import TPU_HEAD_SIZE_ALIGNMENT
+    from vllm.v1.worker.tpu_model_runner import TPUModelRunner
+
+
+class TPUWorker:
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        is_driver_worker: bool = False,
+    ):
+        self.is_driver_worker = is_driver_worker
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.load_config = vllm_config.load_config
+        self.parallel_config = vllm_config.parallel_config
+        self.use_spmd = envs.VLLM_XLA_USE_SPMD
+        self.original_parallel_config = None
+        if self.use_spmd:
+            # Under SPMD mode, distributed env is initialized as if there is
+            # only one worker/device.
+            self.original_parallel_config = self.parallel_config
+            self.parallel_config.tensor_parallel_size = 1
+            self.parallel_config.pipeline_parallel_size = 1
+            self.parallel_config.world_size = 1
+        self.scheduler_config = vllm_config.scheduler_config
+        self.device_config = vllm_config.device_config
+        self.speculative_config = vllm_config.speculative_config
+        self.observability_config = vllm_config.observability_config
+
+        self.parallel_config.rank = rank
+        self.local_rank = local_rank
+        self.rank = rank
+        self.distributed_init_method = distributed_init_method
+
+        if self.cache_config.cache_dtype == "auto":
+            self.cache_dtype = self.model_config.dtype
+        else:
+            self.cache_dtype = STR_DTYPE_TO_TORCH_DTYPE[self.cache_config.cache_dtype]
+
+        if self.model_config.trust_remote_code:
+            # note: lazy import to avoid importing torch before initializing
+            from vllm.utils.import_utils import init_cached_hf_modules
+
+            init_cached_hf_modules()
+
+        # Delay profiler initialization to the start of the profiling.
+        # This is because in vLLM V1, MP runtime is initialized before the
+        # TPU Worker is initialized. The profiler server needs to start after
+        # MP runtime is initialized.
+        self.profiler = None
+        self.profile_dir = None
+        if envs.VLLM_TORCH_PROFILER_DIR and self.rank < 1:
+            # For TPU, we can only have 1 active profiler session for 1 profiler
+            # server. So we only profile on rank0.
+            self.profile_dir = envs.VLLM_TORCH_PROFILER_DIR
+            logger.info(
+                "Profiling enabled. Traces will be saved to: %s", self.profile_dir
+            )
+
+        if self.model_config.seed is None:
+            self.model_config.seed = 0
+
+    def initialize_cache(self, num_gpu_blocks: int, num_cpu_blocks: int) -> None:
+        self.cache_config.num_gpu_blocks = num_gpu_blocks
+        self.cache_config.num_cpu_blocks = num_cpu_blocks
+
+    def init_device(self):
+        os.environ["PJRT_DEVICE"] = "TPU"
+        # Note: Currently the XLA compiler wrongly uses 2D ring strategy on 1D
+        # ring, the xla tpu compiler flag
+        # `xla_tpu_force_1d_allreduce_at_chunk_count` is a temporary solution to
+        # fix this. It will be removed after the bug in XLA compiler is fixed.
+        os.environ["LIBTPU_INIT_ARGS"] = (
+            os.environ.get("LIBTPU_INIT_ARGS", "")
+            + " --xla_tpu_force_1d_allreduce_at_chunk_count=1"
+            " --xla_jf_conv_input_fusion=False"
+        )
+        # --xla_jf_conv_input_fusion=False is used to improve the perf of
+        # quantized matmul.
+        torch.set_grad_enabled(False)
+        torch.set_default_dtype(self.model_config.dtype)
+
+        # Initialize the distributed environment.
+        self._init_tpu_worker_distributed_environment(
+            self.vllm_config, self.rank, self.distributed_init_method, self.local_rank
+        )
+
+        # Device initialization should happen after initializing
+        # the distributed runtime.
+        self.device = xm.xla_device()
+        self.device_config.device = self.device
+
+        # Set random seed.
+        set_random_seed(self.model_config.seed)
+        if self.model_config.seed is not None:
+            xm.set_rng_state(self.model_config.seed, self.device)
+
+        # Increase the cache size limit, which is the maximum number of
+        # dynamo graphs that can be compiled.
+        # TODO (NickLucche) On gsm we compile 80+ graphs.
+        # Re-evaluate limit, with MM we may get close to this limit.
+        torch._dynamo.config.cache_size_limit = 128
+        # Use persistent cache to avoid XLA recompilation.
+        # NOTE(woosuk): Set per-rank cache path since different ranks
+        # can have slightly different XLA graphs.
+        world_size = self.parallel_config.world_size
+        rank = xr.global_ordinal()
+        # The PyTorch/XLA compilation cache uses the Torch IR to generate keys.
+        # Consequently, changes in optimization flags, which affect compilation
+        # results, don't change the cache key. This can result in the wrong
+        # compilation being used. To prevent this, disabling the XLA compilation
+        # cache during development is recommended.We can disable it by
+        # `export VLLM_XLA_CACHE_PATH=`
+        if envs.VLLM_XLA_CACHE_PATH:
+            per_rank_path = os.path.join(
+                envs.VLLM_XLA_CACHE_PATH, f"tp{world_size}_rank{rank}"
+            )
+            xr.initialize_cache(per_rank_path, readonly=False)
+
+        # Init ModelRunner here, so that we have access to self.device.
+        self.model_runner = TPUModelRunner(
+            self.vllm_config, self.device, self.original_parallel_config
+        )
+
+        if rank == 0:
+            # If usage stat is enabled, collect relevant info.
+            report_usage_stats(self.vllm_config)
+
+    def determine_available_memory(self) -> int:
+        kv_caches: dict[str, torch.Tensor] = {}
+        kv_cache_spec = self.model_runner.get_kv_cache_spec()
+        for layer_name, layer_spec in kv_cache_spec.items():
+            if isinstance(layer_spec, AttentionSpec):
+                dtype = layer_spec.dtype
+
+                # Use an empty tensor instead of `None` to force Dynamo to pass
+                # it by reference, rather by specializing on the value `None`.
+                tpu_kv_cache = torch.tensor([], dtype=dtype).to(self.device)
+                kv_caches[layer_name] = tpu_kv_cache
+            else:
+                raise NotImplementedError(
+                    f"Unsupported KV cache spec '{type(layer_spec)}'"
+                )
+
+        runner_kv_caches: list[torch.Tensor] = []
+        bind_kv_cache(
+            kv_caches,
+            self.vllm_config.compilation_config.static_forward_context,
+            runner_kv_caches,
+        )
+
+        # `max_num_tokens >= max_num_batched_tokens` due to padding.
+        with self.model_runner.maybe_setup_dummy_loras(self.lora_config):
+            self.model_runner.profile_run(self.model_runner.max_num_tokens)
+
+        # Synchronize before measuring the memory usage.
+        xm.wait_device_ops()
+
+        # During the profiling run, the model runs without KV cache. After
+        # the profiling run, the model always runs with KV cache. Here we clear
+        # the dynamo cache and cached bytecode to ensure the model always has
+        # one compiled bytecode. Having one FX graph/cached bytecode per
+        # compiled model is required for `support_torch_compile` decorator to
+        # skip dynamo guard.
+        self.model_runner.reset_dynamo_cache()
+
+        # Get the maximum amount of memory used by the model weights and
+        # intermediate activations.
+        if self.use_spmd:
+            # This is a workaround for the TPU SPMD mode. The get_memory_info
+            # API doesn't work with SPMD mode in PyTorch/XLA.
+            # TODO: use xm.get_memory_info for SPMD once it's supported in
+            # PyTorch/XLA.
+            import tpu_info
+
+            chip_type, _ = tpu_info.device.get_local_chips()
+            device_usage = tpu_info.metrics.get_chip_usage(chip_type)
+            total_memory_size = device_usage[0].total_memory
+            current_mem = device_usage[0].memory_usage
+        else:
+            m = xm.get_memory_info(self.device)
+            total_memory_size = m["bytes_limit"]
+            current_mem = m["bytes_used"]
+        # Ideally we would use profiled = m["peak_bytes_used"] to
+        # get weights + activations. But there is memory used during
+        # compilation / weight loading that impacts the peak and
+        # there is no way to reset peak memory in XLA, So we
+        # use the heuristic of 2% of weights.
+        profiled = current_mem * 1.02
+
+        # Calculate the TPU KV cache size based on profiling.
+        usable_memory_size = int(
+            total_memory_size * self.cache_config.gpu_memory_utilization
+        )
+        tpu_kv_cache_bytes = max(usable_memory_size - profiled, 0)
+        head_size = self.model_config.get_head_size()
+        if head_size > 0:
+            padded_head_size = (
+                cdiv(head_size, TPU_HEAD_SIZE_ALIGNMENT) * TPU_HEAD_SIZE_ALIGNMENT
+            )
+            if padded_head_size != head_size:
+                logger.warning_once("head size is padded to %d", padded_head_size)
+            # We adjust the usable memory size for the KV cache to prevent OOM
+            # errors, even after padding the head_size.
+            tpu_kv_cache_bytes = tpu_kv_cache_bytes * head_size // padded_head_size
+        return int(tpu_kv_cache_bytes)
+
+    def sample_tokens(self, grammar_output: "GrammarOutput") -> ModelRunnerOutput:
+        return self.model_runner.sample_tokens(grammar_output)
+
+    def execute_model(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> ModelRunnerOutput | None:
+        return self.model_runner.execute_model(scheduler_output)
+
+    def profile(self, is_start: bool = True):
+        if self.rank < 1:
+            if self.profile_dir is None:
+                raise RuntimeError("Profiler is not enabled.")
+            if is_start:
+                if self.profiler is None:
+                    self.profiler = xp.start_server(9012)
+                xp.start_trace(self.profile_dir)
+            else:
+                xp.stop_trace()
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.model_runner.add_lora(lora_request)
+
+    def load_model(self) -> None:
+        self.model_runner.load_model()
+
+    def update_config(self, overrides: dict[str, Any]) -> None:
+        self.model_runner.update_config(overrides)
+
+    def reload_weights(self) -> None:
+        self.model_runner.reload_weights()
+
+    def compile_or_warm_up_model(self) -> None:
+        if not self.model_config.enforce_eager:
+            self.model_runner.capture_model()
+
+        # Reset the seed to ensure that the random state is not affected by
+        # the model initialization and profiling.
+        set_random_seed(self.model_config.seed)
+
+    def reset_mm_cache(self) -> None:
+        self.model_runner.reset_mm_cache()
+
+    def get_model(self) -> nn.Module:
+        return self.model_runner.get_model()
+
+    def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
+        return self.model_runner.get_supported_tasks()
+
+    def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
+        return self.model_runner.get_kv_cache_spec()
+
+    def initialize_from_config(self, kv_cache_config: KVCacheConfig) -> None:
+        """Allocate GPU KV cache with the specified kv_cache_config."""
+        self.model_runner.initialize_kv_cache(kv_cache_config)
+
+    def check_health(self) -> None:
+        # worker will always be healthy as long as it's running.
+        return
+
+    def _init_tpu_worker_distributed_environment(
+        self,
+        vllm_config: VllmConfig,
+        rank: int,
+        distributed_init_method: str | None = None,
+        local_rank: int = -1,
+    ) -> None:
+        """Initialize the distributed environment."""
+        if self.use_spmd:
+            xr.use_spmd()
+        # NOTE(woosuk): This is just to initialize the TP group and broadcast
+        # the input objects on CPU. The all-reduce and all-gather ops on TPU
+        # are invoked by `xm.all_reduce` and `xm.all_gather` which use their
+        # own context.
+        parallel_config = vllm_config.parallel_config
+        init_distributed_environment(
+            world_size=parallel_config.world_size,
+            rank=rank,
+            local_rank=local_rank,
+            distributed_init_method=distributed_init_method,
+            backend=current_platform.dist_backend,
+        )
+        ensure_model_parallel_initialized(
+            parallel_config.tensor_parallel_size, parallel_config.pipeline_parallel_size
+        )
+
+        ensure_kv_transfer_initialized(vllm_config)
+
+    def shutdown(self) -> None:
+        self.model_runner.ensure_kv_transfer_shutdown()
+
+    def apply_model(self, fn: Callable[[nn.Module], _R]) -> _R:
+        """Apply a function on the model inside this worker."""
+        return fn(self.get_model())
+
+
+if USE_TPU_INFERENCE:
+    from tpu_inference.worker import TPUWorker as TpuInferenceWorker
+
+    TPUWorker = TpuInferenceWorker  # type: ignore
diff --git a/v1/worker/ubatch_utils.py b/v1/worker/ubatch_utils.py
new file mode 100644
index 0000000..33a1921
--- /dev/null
+++ b/v1/worker/ubatch_utils.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import dataclass
+from typing import TypeAlias
+
+import numpy as np
+
+from vllm.config import ParallelConfig
+
+
+@dataclass
+class UBatchSlice:
+    request_slice: slice
+    token_slice: slice
+
+    def is_empty(self) -> bool:
+        return (
+            self.request_slice.start == self.request_slice.stop
+            or self.token_slice.start == self.token_slice.stop
+        )
+
+    @property
+    def num_tokens(self) -> int:
+        return self.token_slice.stop - self.token_slice.start
+
+
+UBatchSlices: TypeAlias = list[UBatchSlice]
+
+
+def is_second_ubatch_empty(orig_num_tokens: int, padded_num_tokens: int) -> bool:
+    return (padded_num_tokens // 2) >= orig_num_tokens
+
+
+def check_ubatch_thresholds(
+    config: ParallelConfig, num_tokens: int, uniform_decode: bool
+) -> bool:
+    if not config.enable_dbo:
+        return False
+    if uniform_decode:
+        return num_tokens >= config.dbo_decode_token_threshold
+    else:
+        return num_tokens >= config.dbo_prefill_token_threshold
+
+
+def create_ubatch_slices(
+    num_scheduled_tokens: np.ndarray, split_point: int
+) -> UBatchSlices:
+    # TODO(lucas): Refactor the gpu_model_runner.py so we can pass
+    # in cu_num_tokens directly (i.e. query_start_loc)
+    cu_num_tokens = np.zeros(len(num_scheduled_tokens) + 1, dtype=np.int32)
+    np.cumsum(num_scheduled_tokens, dtype=np.int32, out=cu_num_tokens[1:])
+
+    first_ubatch_token_slice = slice(0, split_point)
+    second_ubatch_token_slice = slice(split_point, cu_num_tokens[-1])
+
+    # Determine request slices using exclusive stop semantics
+    # First ubatch includes requests whose tokens overlap [0, split_point)
+    first_ubatch_req_stop = int(
+        np.searchsorted(cu_num_tokens, split_point, side="left")
+    )
+    first_ubatch_req_slice = slice(0, first_ubatch_req_stop)
+
+    # Second ubatch starts at the request that contains the split_point
+    # or the request starting exactly at split_point (if on boundary)
+    second_ubatch_req_start = int(
+        np.searchsorted(cu_num_tokens, split_point, side="right") - 1
+    )
+    second_ubatch_req_slice = slice(second_ubatch_req_start, len(cu_num_tokens) - 1)
+
+    return [
+        UBatchSlice(first_ubatch_req_slice, first_ubatch_token_slice),
+        UBatchSlice(second_ubatch_req_slice, second_ubatch_token_slice),
+    ]
diff --git a/v1/worker/ubatching.py b/v1/worker/ubatching.py
new file mode 100644
index 0000000..9f16b1e
--- /dev/null
+++ b/v1/worker/ubatching.py
@@ -0,0 +1,231 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import threading
+from typing import Optional
+
+import torch
+
+from vllm import forward_context
+from vllm.forward_context import ForwardContext
+from vllm.utils.torch_utils import current_stream
+
+_THREAD_ID_TO_CONTEXT: dict = {}
+_CURRENT_CONTEXTS: list[Optional["UBatchContext"]] = [None, None]
+
+
+class UBatchContext:
+    """
+    Context manager for micro-batching synchronization using threading events.
+    """
+
+    def __init__(
+        self,
+        id: int,
+        comm_stream: torch.cuda.Stream,
+        compute_stream: torch.cuda.Stream,
+        forward_context: ForwardContext,
+        ready_barrier: threading.Barrier,
+        cpu_wait_event: threading.Event,
+        cpu_signal_event: threading.Event,
+        gpu_comm_done_event: torch.cuda.Event,
+        gpu_compute_done_event: torch.cuda.Event,
+        schedule: str = "default",
+    ):
+        self.id = id
+        self.comm_stream = comm_stream
+        self.compute_stream = compute_stream
+        self.forward_context = forward_context
+        self.ready_barrier = ready_barrier
+        self.cpu_wait_event = cpu_wait_event
+        self.cpu_signal_event = cpu_signal_event
+        self.current_stream = compute_stream
+        self.gpu_comm_done_event = gpu_comm_done_event
+        self.gpu_compute_done_event = gpu_compute_done_event
+        self.schedule = schedule
+        self.recv_hook = None
+
+    def __enter__(self):
+        global _CURRENT_CONTEXTS, _THREAD_ID_TO_CONTEXT
+        _THREAD_ID_TO_CONTEXT[threading.get_ident()] = self.id
+        _CURRENT_CONTEXTS[self.id] = self
+        self.ready_barrier.wait()
+
+        self.cpu_wait_event.wait()
+        self.cpu_wait_event.clear()
+        self._restore_context()
+        # Assume we want to start on the compute stream
+        self.update_stream(self.compute_stream)
+        return self
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        global _CURRENT_CONTEXTS, _THREAD_ID_TO_CONTEXT
+        _CURRENT_CONTEXTS[self.id] = None
+        del _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+        self.maybe_run_recv_hook()
+        self.cpu_signal_event.set()
+        self.cpu_wait_event.clear()
+        return False
+
+    def _restore_context(self):
+        forward_context._forward_context = self.forward_context
+
+    def update_stream(self, stream):
+        self.current_stream = stream
+        if current_stream() != self.current_stream:
+            torch.cuda.set_stream(self.current_stream)
+
+    def _signal_comm_done(self):
+        self.gpu_comm_done_event.record(self.comm_stream)
+
+    def _signal_compute_done(self):
+        self.gpu_compute_done_event.record(self.compute_stream)
+
+    def _wait_compute_done(self):
+        self.comm_stream.wait_event(self.gpu_compute_done_event)
+
+    def _wait_comm_done(self):
+        self.compute_stream.wait_event(self.gpu_comm_done_event)
+
+    def _cpu_yield(self):
+        # It is critical for correctness that only one thread is running
+        # at a time. These asserts just make sure that this is the only
+        # thread running before waking the other one up and going to sleep
+        assert forward_context._forward_context == self.forward_context
+        assert current_stream() == self.current_stream
+        assert not self.cpu_wait_event.is_set()
+
+        self.cpu_signal_event.set()
+        self.cpu_wait_event.wait()
+        self.cpu_wait_event.clear()
+        self._restore_context()
+
+    def switch_to_comm(self):
+        self.update_stream(self.comm_stream)
+
+    def switch_to_compute(self):
+        self.update_stream(self.compute_stream)
+
+    def switch_to_comm_sync(self):
+        self._signal_compute_done()
+        self.update_stream(self.comm_stream)
+        self._wait_compute_done()
+
+    def switch_to_compute_sync(self):
+        self._signal_comm_done()
+        self.update_stream(self.compute_stream)
+        self._wait_comm_done()
+
+    def maybe_run_recv_hook(self):
+        if self.recv_hook is not None:
+            self.recv_hook()
+            self.recv_hook = None
+
+    def yield_(self):
+        self.current_stream = current_stream()
+        self._cpu_yield()
+        self.update_stream(self.current_stream)
+
+    def yield_and_switch_from_compute_to_comm(self):
+        assert current_stream() == self.compute_stream
+        self._signal_compute_done()
+        self._cpu_yield()
+        assert self.current_stream == self.compute_stream
+        self.update_stream(self.comm_stream)
+        self._wait_compute_done()
+
+    def yield_and_switch_from_comm_to_compute(self):
+        assert current_stream() == self.comm_stream
+        self._signal_comm_done()
+        self._cpu_yield()
+        assert self.current_stream == self.comm_stream
+        self.update_stream(self.compute_stream)
+        self._wait_comm_done()
+
+
+def dbo_enabled() -> bool:
+    return len(_THREAD_ID_TO_CONTEXT) > 0
+
+
+def dbo_current_ubatch_id() -> int:
+    if len(_THREAD_ID_TO_CONTEXT) == 0:
+        return 0
+    return _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+
+
+def _register_ubatch_function(func):
+    def wrapper(*args, **kwargs):
+        if len(_THREAD_ID_TO_CONTEXT) > 0:
+            ctx_idx = _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+            ctx = _CURRENT_CONTEXTS[ctx_idx]
+            func(ctx, *args, **kwargs)
+
+    return wrapper
+
+
+dbo_maybe_run_recv_hook = _register_ubatch_function(UBatchContext.maybe_run_recv_hook)
+dbo_yield = _register_ubatch_function(UBatchContext.yield_)
+dbo_yield_and_switch_from_compute_to_comm = _register_ubatch_function(
+    UBatchContext.yield_and_switch_from_compute_to_comm
+)
+dbo_yield_and_switch_from_comm_to_compute = _register_ubatch_function(
+    UBatchContext.yield_and_switch_from_comm_to_compute
+)
+dbo_switch_to_comm = _register_ubatch_function(UBatchContext.switch_to_comm)
+dbo_switch_to_compute = _register_ubatch_function(UBatchContext.switch_to_compute)
+dbo_switch_to_comm_sync = _register_ubatch_function(UBatchContext.switch_to_comm_sync)
+dbo_switch_to_compute_sync = _register_ubatch_function(
+    UBatchContext.switch_to_compute_sync
+)
+
+
+def dbo_register_recv_hook(recv_hook):
+    if len(_THREAD_ID_TO_CONTEXT) > 0:
+        ctx_idx = _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+        next_ctx = _CURRENT_CONTEXTS[(ctx_idx + 1) % 2]
+        next_ctx.recv_hook = recv_hook
+
+
+def dbo_get_previous_event(func, *args, **kwargs):
+    if len(_THREAD_ID_TO_CONTEXT) > 0:
+        ctx_idx = _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+        ctx = _CURRENT_CONTEXTS[ctx_idx]
+        # execute callable on the ubatch compute stream to record/wait events there
+        with torch.cuda.stream(ctx.compute_stream):
+            return func(*args, **kwargs)
+
+
+def make_ubatch_contexts(
+    num_micro_batches: int,
+    compute_stream: torch.cuda.Stream,
+    comm_stream: torch.cuda.Stream,
+    forward_contexts: list[ForwardContext],
+    ready_barrier: threading.Barrier,
+    schedule: str = "default",
+) -> list[UBatchContext]:
+    assert num_micro_batches == 2, "only been tested with 2 micro-batches"
+    """
+    Create a context manager for micro-batching synchronization.
+    """
+    cpu_events = [threading.Event() for _ in range(num_micro_batches)]
+    gpu_comm_done_events = [torch.cuda.Event() for _ in range(num_micro_batches)]
+    gpu_compute_done_events = [torch.cuda.Event() for _ in range(num_micro_batches)]
+
+    assert len(forward_contexts) == 2
+
+    ctxs = []
+    for i in range(num_micro_batches):
+        ctx = UBatchContext(
+            id=i,
+            compute_stream=compute_stream,
+            comm_stream=comm_stream,
+            forward_context=forward_contexts[i],
+            ready_barrier=ready_barrier,
+            cpu_wait_event=cpu_events[i],
+            cpu_signal_event=cpu_events[(i + 1) % num_micro_batches],
+            gpu_comm_done_event=gpu_comm_done_events[i],
+            gpu_compute_done_event=gpu_compute_done_events[i],
+            schedule=schedule,
+        )
+        ctxs.append(ctx)
+
+    return ctxs
diff --git a/v1/worker/utils.py b/v1/worker/utils.py
new file mode 100644
index 0000000..45231c0
--- /dev/null
+++ b/v1/worker/utils.py
@@ -0,0 +1,415 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import defaultdict
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.attention.backends.abstract import AttentionBackend
+from vllm.config import ModelConfig, SchedulerConfig, VllmConfig
+from vllm.model_executor.models.interfaces import MultiModalEmbeddings
+from vllm.model_executor.models.utils import extract_layer_index
+from vllm.multimodal.cache import processor_only_cache_from_config
+from vllm.multimodal.registry import MultiModalRegistry
+from vllm.platforms import current_platform
+from vllm.v1.attention.backends.utils import AttentionMetadataBuilder
+from vllm.v1.core.encoder_cache_manager import compute_mm_encoder_budget
+from vllm.v1.kv_cache_interface import KVCacheGroupSpec, KVCacheSpec
+
+if TYPE_CHECKING:
+    from vllm.attention.layer import Attention
+
+
+class MultiModalBudget:
+    """Helper class to calculate budget information for multi-modal models."""
+
+    def __init__(
+        self,
+        model_config: ModelConfig,
+        scheduler_config: SchedulerConfig,
+        mm_registry: MultiModalRegistry,
+    ) -> None:
+        super().__init__()
+
+        self.model_config = model_config
+        self.scheduler_config = scheduler_config
+        self.mm_registry = mm_registry
+        self.cache = cache = processor_only_cache_from_config(model_config, mm_registry)
+
+        self.max_model_len = model_config.max_model_len
+        self.max_num_reqs = scheduler_config.max_num_seqs
+
+        self.mm_limits = mm_registry.get_mm_limits_per_prompt(model_config, cache=cache)
+
+        max_tokens_by_modality = mm_registry.get_max_tokens_per_item_by_modality(
+            model_config,
+            cache=cache,
+            profiler_limits=self.mm_limits,
+        )
+
+        encoder_compute_budget, encoder_cache_size = compute_mm_encoder_budget(
+            scheduler_config,
+            max_tokens_by_modality,
+        )
+
+        self.encoder_compute_budget = encoder_compute_budget
+        self.encoder_cache_size = encoder_cache_size
+
+        max_items_per_prompt_by_modality = dict[str, int]()
+        max_items_per_batch_by_modality = dict[str, int]()
+
+        for modality, max_tokens in max_tokens_by_modality.items():
+            (
+                max_items_per_prompt,
+                max_items_per_batch,
+            ) = self.get_max_items(modality, max_tokens)
+
+            max_items_per_prompt_by_modality[modality] = max_items_per_prompt
+            max_items_per_batch_by_modality[modality] = max_items_per_batch
+
+        self.max_tokens_by_modality = max_tokens_by_modality
+        self.max_items_per_prompt_by_modality = max_items_per_prompt_by_modality
+        self.max_items_per_batch_by_modality = max_items_per_batch_by_modality
+
+    def get_modality_with_max_tokens(self) -> str:
+        max_tokens_by_modality = self.max_tokens_by_modality
+        modality, _ = max(max_tokens_by_modality.items(), key=lambda x: x[1])
+
+        return modality
+
+    def get_encoder_budget(self) -> int:
+        return min(self.encoder_compute_budget, self.encoder_cache_size)
+
+    def get_max_items(
+        self,
+        modality: str,
+        max_tokens_per_item: int,
+    ) -> tuple[int, int]:
+        if max_tokens_per_item == 0:
+            return 0, 0
+
+        # Check how many items of this modality can be supported by
+        # the encoder budget.
+        encoder_budget = self.get_encoder_budget()
+
+        # TODO: handle encoder-decoder models once we support them.
+        if encoder_budget == 0:
+            return 0, 0
+
+        max_encoder_items_per_batch = encoder_budget // max_tokens_per_item
+
+        # Check how many items of this modality can be supported by
+        # the decoder budget.
+        mm_limit = self.mm_limits[modality]
+
+        max_items_per_prompt = max(
+            1,
+            min(mm_limit, self.max_model_len // max_tokens_per_item),
+        )
+
+        scheduler_config = self.scheduler_config
+        max_num_reqs = self.max_num_reqs
+
+        if not scheduler_config.enable_chunked_prefill:
+            max_num_reqs = min(
+                max_num_reqs,
+                scheduler_config.max_num_batched_tokens // max_tokens_per_item,
+            )
+
+        max_decoder_items_per_batch = max_num_reqs * max_items_per_prompt
+
+        max_items_per_batch = max(
+            1,
+            min(max_encoder_items_per_batch, max_decoder_items_per_batch),
+        )
+
+        return max_items_per_prompt, max_items_per_batch
+
+    def reset_cache(self) -> None:
+        if self.cache is not None:
+            self.cache.clear_cache()
+
+
+@dataclass
+class AttentionGroup:
+    backend: type[AttentionBackend]
+    layer_names: list[str]
+    kv_cache_spec: KVCacheSpec
+    kv_cache_group_id: int
+    # When ubatching is enabled we will have a metadata builder for each ubatch
+    # so that if they use internal persistant buffers for cudagraphs, and they
+    # won't have to worry about conflicting with the other ubatches.
+    metadata_builders: list[AttentionMetadataBuilder] = field(
+        default_factory=lambda: []
+    )
+
+    def create_metadata_builders(
+        self,
+        vllm_config,
+        device,
+        kernel_block_size: int | None,
+        num_metadata_builders: int = 1,
+    ):
+        kv_cache_spec_builder = (
+            self.kv_cache_spec.copy_with_new_block_size(kernel_block_size)
+            if kernel_block_size is not None
+            else self.kv_cache_spec
+        )
+        self.metadata_builders = [
+            self.backend.get_builder_cls()(
+                kv_cache_spec_builder,
+                self.layer_names,
+                vllm_config,
+                device,
+            )
+            for _ in range(num_metadata_builders)
+        ]
+
+    def get_metadata_builder(self, ubatch_id: int = 0) -> AttentionMetadataBuilder:
+        assert len(self.metadata_builders) > ubatch_id
+        return self.metadata_builders[ubatch_id]
+
+
+def sanity_check_mm_encoder_outputs(
+    mm_embeddings: MultiModalEmbeddings,
+    expected_num_items: int,
+) -> None:
+    """
+    Perform sanity checks for the result of
+    [`vllm.model_executor.models.SupportsMultiModal.embed_multimodal`][].
+    """
+    assert isinstance(mm_embeddings, (list, tuple, torch.Tensor)), (
+        "Expected multimodal embeddings to be a list/tuple of 2D tensors, "
+        f"or a single 3D tensor, but got {type(mm_embeddings)} "
+        "instead. This is most likely due to incorrect implementation "
+        "of the model's `embed_multimodal` method."
+    )
+
+    assert len(mm_embeddings) == expected_num_items, (
+        "Expected number of multimodal embeddings to match number of "
+        f"input items: {expected_num_items}, but got {len(mm_embeddings)=} "
+        "instead. This is most likely due to incorrect implementation "
+        "of the model's `embed_multimodal` method."
+    )
+
+    assert all(e.ndim == 2 for e in mm_embeddings), (
+        "Expected multimodal embeddings to be a sequence of 2D tensors, "
+        f"but got tensors with shapes {[e.shape for e in mm_embeddings]} "
+        "instead. This is most likely due to incorrect implementation "
+        "of the model's `embed_multimodal` method."
+    )
+
+
+def scatter_mm_placeholders(
+    embeds: torch.Tensor,
+    is_embed: torch.Tensor | None,
+) -> torch.Tensor:
+    """
+    Scatter the multimodal embeddings into a contiguous tensor that represents
+    the placeholder tokens.
+
+    [`vllm.multimodal.processing.PromptUpdateDetails.is_embed`][].
+
+    Args:
+        embeds: The multimodal embeddings.
+            Shape: `(num_embeds, embed_dim)`
+        is_embed: A boolean mask indicating which positions in the placeholder
+            tokens need to be filled with multimodal embeddings.
+            Shape: `(num_placeholders, num_embeds)`
+    """
+    if is_embed is None:
+        return embeds
+
+    placeholders = embeds.new_full(
+        (is_embed.shape[0], embeds.shape[-1]),
+        fill_value=torch.nan,
+    )
+    placeholders[is_embed] = embeds
+    return placeholders
+
+
+def gather_mm_placeholders(
+    placeholders: torch.Tensor,
+    is_embed: torch.Tensor | None,
+) -> torch.Tensor:
+    """
+    Reconstructs the embeddings from the placeholder tokens.
+
+    This is the operation of [`scatter_mm_placeholders`]
+    [vllm.v1.worker.utils.scatter_mm_placeholders].
+    """
+    if is_embed is None:
+        return placeholders
+
+    return placeholders[is_embed]
+
+
+def add_kv_sharing_layers_to_kv_cache_groups(
+    shared_kv_cache_layers: dict[str, str],
+    kv_cache_groups: list[KVCacheGroupSpec],
+    runner_only_attn_layers: set[str] | None = None,
+) -> None:
+    """
+    Sets up KV cache sharing by reusing the allocated KV caches in `kv_caches`
+    for layers that do not allocate its own KV cache, based on the mapping in
+    `shared_kv_cache_layers`. Adds these layers to the corresponding KV cache
+    group, which is needed to ensure that attention metadata is assigned later.
+
+    Args:
+        shared_kv_cache_layers: Layer pairings for cross-layer KV sharing.
+            If an Attention layer `layer_name` is in the keys of this dict, it
+            means this layer will perform attention using the keys and values
+            from the KV cache of `shared_kv_cache_layers[layer_name]`.
+        kv_cache_groups: The KV cache groups of the model.
+    """
+    layer_to_kv_cache_group: dict[str, KVCacheGroupSpec] = {}
+    for kv_cache_group in kv_cache_groups:
+        for layer_name in kv_cache_group.layer_names:
+            layer_to_kv_cache_group[layer_name] = kv_cache_group
+
+    for layer_name, target_layer_name in shared_kv_cache_layers.items():
+        tgt_kv_cache_group = layer_to_kv_cache_group[target_layer_name]
+        tgt_kv_cache_group.layer_names.append(layer_name)
+
+        if runner_only_attn_layers is not None:
+            runner_only_attn_layers.add(layer_name)
+
+
+def bind_kv_cache(
+    kv_caches: dict[str, torch.Tensor],
+    forward_context: dict[str, "Attention"],
+    runner_kv_caches: list[torch.Tensor],
+    num_attn_module: int | None = 1,
+) -> None:
+    """
+    Bind the allocated KV cache to both ModelRunner and forward context so
+    that the KV cache can be used in the forward pass.
+
+    This function:
+      1) Fills the ModelRunner's kv cache list (`runner_kv_caches`) with
+         kv_caches.
+      2) Associates each attention layer in the `forward_context` with its
+         corresponding KV cache in kv_caches.
+
+    Args:
+        kv_caches: The allocated kv_caches with layer names as keys.
+        forward_context: The global forward context containing all Attention
+            layers with layer names as keys.
+        runner_kv_caches: The kv_cache declared by ModelRunner.
+    """
+    # Bind kv_caches to ModelRunner
+    assert len(runner_kv_caches) == 0
+
+    # Convert kv_caches dict to a list of tensors in the order of layer_index.
+    index2name = defaultdict(list)
+    for layer_name in kv_caches:
+        index2name[extract_layer_index(layer_name, num_attn_module)].append(layer_name)
+
+    for layer_index in sorted(index2name.keys()):
+        layer_names = index2name[layer_index]
+        if len(layer_names) > 1:
+            # One typical case is encoder-decoder model, e.g., bart.
+            # The cross attention and self attention in the same decoder layer
+            # has different layer_name but the same layer_index.
+
+            # TODO - analyze where runner_kv_caches is used and the right
+            # way to ensure it properly reflects multiple attention layers
+            # in the same decoder block.
+            if current_platform.is_cuda() or current_platform.is_xpu():
+                # We know that the GPU runner is not impacted by this
+                # case. Some test code depends on runner_kv_caches, but
+                # not in a way that's impacted by ignoring this.
+                pass
+            else:
+                raise NotImplementedError
+        layer_name = layer_names[0]
+        runner_kv_caches.append(kv_caches[layer_name])
+
+    # Bind kv_caches to forward context
+    for layer_name, kv_cache in kv_caches.items():
+        # NOTE: Use list because of v0 PP virtual engine.
+        forward_context[layer_name].kv_cache = [kv_cache]
+        
+def bind_kv_cache_scale(
+    kv_caches_scale: dict[str, torch.Tensor],
+    forward_context: dict[str, "Attention"],
+    runner_kv_caches_scale: list[torch.Tensor],
+    num_attn_module: int | None = 1,
+) -> None:
+    """
+    Bind the allocated KV cache to both ModelRunner and forward context so
+    that the KV cache can be used in the forward pass.
+
+    This function:
+      1) Fills the ModelRunner's kv cache list (`runner_kv_caches`) with
+         kv_caches.
+      2) Associates each attention layer in the `forward_context` with its 
+         corresponding KV cache in kv_caches.
+
+    Args:
+        kv_caches: The allocated kv_caches with layer names as keys.
+        forward_context: The global forward context containing all Attention 
+        layers with layer names as keys.
+        runner_kv_caches: The kv_cache declared by ModelRunner.
+    """
+    # Bind kv_caches to ModelRunner
+    assert len(runner_kv_caches_scale) == 0
+
+    # Convert kv_caches dict to a list of tensors in the order of layer_index.
+    index2name = defaultdict(list)
+    for layer_name in kv_caches_scale:
+        index2name[extract_layer_index(layer_name,
+                                       num_attn_module)].append(layer_name)
+
+    for layer_index in sorted(index2name.keys()):
+        layer_names = index2name[layer_index]
+        if len(layer_names) > 1:
+            # One typical case is encoder-decoder model, e.g., bart.
+            # The cross attention and self attention in the same decoder layer
+            # has different layer_name but the same layer_index.
+            if current_platform.is_cuda() or current_platform.is_xpu():
+                pass
+            else:
+                raise NotImplementedError
+        layer_name = layer_names[0]
+        runner_kv_caches_scale.append(kv_caches_scale[layer_name])
+
+    # Bind kv_caches to forward context
+    for layer_name, kv_cache_scale in kv_caches_scale.items():
+        # NOTE: Use list because of v0 PP virtual engine.
+        forward_context[layer_name].kv_cache_scale = [kv_cache_scale]
+
+
+def is_residual_scattered_for_sp(
+    vllm_config: VllmConfig, num_input_tokens: int
+) -> bool:
+    """Check if the residual tensor is scattered for sequence parallelism.
+
+    The residual tensor is scattered across tensor parallel ranks when sequence
+    parallelism and tensor parallelism is enabled.
+
+    This follows the same logic as SequenceParallelismPass.is_applicable():
+    - In full-graph compilation mode (no splitting ops or using inductor graph
+      partition), SP is always applied
+    - Otherwise, SP is only applied for specific shapes in compile_sizes
+    """
+    if not vllm_config.compilation_config.pass_config.enable_sequence_parallelism:
+        return False
+
+    tp = vllm_config.parallel_config.tensor_parallel_size
+
+    if tp == 1:
+        return False
+
+    # When sequence parallelism is enabled, we always pad num_input_tokens
+    # to be a multiple of tensor_parallel_size (tp) earlier.
+    assert num_input_tokens % tp == 0
+
+    if (
+        not vllm_config.compilation_config.splitting_ops
+        or vllm_config.compilation_config.use_inductor_graph_partition
+    ):
+        return True
+
+    return num_input_tokens in vllm_config.compilation_config.compile_sizes
diff --git a/v1/worker/worker_base.py b/v1/worker/worker_base.py
new file mode 100644
index 0000000..c88b98a
--- /dev/null
+++ b/v1/worker/worker_base.py
@@ -0,0 +1,378 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import os
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any, TypeVar
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.cache import worker_receiver_cache_from_config
+from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.system_utils import update_environment_variables
+from vllm.v1.kv_cache_interface import KVCacheSpec
+from vllm.v1.serial_utils import run_method
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+    from vllm.v1.outputs import AsyncModelRunnerOutput, ModelRunnerOutput
+else:
+    SchedulerOutput = object
+    GrammarOutput = object
+    AsyncModelRunnerOutput = object
+    ModelRunnerOutput = object
+
+logger = init_logger(__name__)
+
+_R = TypeVar("_R")
+
+
+class WorkerBase:
+    """Worker interface that allows vLLM to cleanly separate implementations for
+    different hardware. Also abstracts control plane communication, e.g., to
+    communicate request metadata to other workers.
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        is_driver_worker: bool = False,
+    ) -> None:
+        """
+        Initialize common worker components.
+
+        Args:
+            vllm_config: Complete vLLM configuration
+            local_rank: Local device index
+            rank: Global rank in distributed setup
+            distributed_init_method: Distributed initialization method
+            is_driver_worker: Whether this worker handles driver
+                responsibilities
+        """
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.lora_config = vllm_config.lora_config
+        self.load_config = vllm_config.load_config
+        self.parallel_config = vllm_config.parallel_config
+        self.scheduler_config = vllm_config.scheduler_config
+        self.device_config = vllm_config.device_config
+        self.speculative_config = vllm_config.speculative_config
+        self.observability_config = vllm_config.observability_config
+        self.kv_transfer_config = vllm_config.kv_transfer_config
+        self.compilation_config = vllm_config.compilation_config
+
+        from vllm.platforms import current_platform
+
+        self.current_platform = current_platform
+
+        self.parallel_config.rank = rank
+        self.local_rank = local_rank
+        self.rank = rank
+        self.distributed_init_method = distributed_init_method
+        self.is_driver_worker = is_driver_worker
+
+        # Device and model state
+        self.device: torch.device | None = None
+        self.model_runner: nn.Module | None = None
+
+    def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
+        """Get specifications for KV cache implementation."""
+        raise NotImplementedError
+
+    def compile_or_warm_up_model(self) -> None:
+        """Prepare model for execution through compilation/warmup."""
+        raise NotImplementedError
+
+    def check_health(self) -> None:
+        """Basic health check (override for device-specific checks)."""
+        return
+
+    def init_device(self) -> None:
+        """Initialize device state, such as loading the model or other on-device
+        memory allocations.
+        """
+        raise NotImplementedError
+
+    def initialize_cache(self, num_gpu_blocks: int, num_cpu_blocks: int) -> None:
+        """Initialize the KV cache with the given size in blocks."""
+        raise NotImplementedError
+
+    def reset_mm_cache(self) -> None:
+        reset_fn = getattr(self.model_runner, "reset_mm_cache", None)
+        if callable(reset_fn):
+            reset_fn()
+
+    def get_model(self) -> nn.Module:
+        raise NotImplementedError
+
+    def apply_model(self, fn: Callable[[nn.Module], _R]) -> _R:
+        """Apply a function on the model inside this worker."""
+        return fn(self.get_model())
+
+    def load_model(self) -> None:
+        """Load model onto target device."""
+        raise NotImplementedError
+
+    def execute_model(
+        self, scheduler_output: SchedulerOutput
+    ) -> ModelRunnerOutput | None:
+        """If this method returns None, sample_tokens should be called immediately after
+        to obtain the ModelRunnerOutput.
+
+        Note that this design may be changed in future if/when structured outputs
+        parallelism is re-architected.
+        """
+        raise NotImplementedError
+
+    def sample_tokens(
+        self, grammar_output: GrammarOutput
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
+        """Should be called immediately after execute_model iff it returned None."""
+        raise NotImplementedError
+
+    def get_cache_block_size_bytes(self) -> int:
+        """Return the size of a single cache block, in bytes. Used in
+        speculative decoding.
+        """
+        raise NotImplementedError
+
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        raise NotImplementedError
+
+    def remove_lora(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    def pin_lora(self, lora_id: int) -> bool:
+        raise NotImplementedError
+
+    def list_loras(self) -> set[int]:
+        raise NotImplementedError
+
+    @property
+    def vocab_size(self) -> int:
+        """Get vocabulary size from model configuration."""
+        return self.model_config.get_vocab_size()
+
+    def shutdown(self) -> None:
+        """Clean up resources held by the worker."""
+        return
+
+
+class WorkerWrapperBase:
+    """
+    This class represents one process in an executor/engine. It is responsible
+    for lazily initializing the worker and handling the worker's lifecycle.
+    We first instantiate the WorkerWrapper, which remembers the worker module
+    and class name. Then, when we call `update_environment_variables`, and the
+    real initialization happens in `init_worker`.
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        rpc_rank: int = 0,
+        global_rank: int | None = None,
+    ) -> None:
+        """
+        Initialize the worker wrapper with the given vllm_config and rpc_rank.
+        Note: rpc_rank is the rank of the worker in the executor. In most cases,
+        it is also the rank of the worker in the distributed group. However,
+        when multiple executors work together, they can be different.
+        e.g. in the case of SPMD-style offline inference with TP=2,
+        users can launch 2 engines/executors, each with only 1 worker.
+        All workers have rpc_rank=0, but they have different ranks in the TP
+        group.
+        """
+        self.rpc_rank = rpc_rank
+        self.global_rank = self.rpc_rank if global_rank is None else global_rank
+        self.worker: WorkerBase | None = None
+
+        # do not store this `vllm_config`, `init_worker` will set the final
+        # one.
+        # TODO: investigate if we can remove this field in `WorkerWrapperBase`,
+        # `init_cached_hf_modules` should be unnecessary now.
+        self.vllm_config: VllmConfig | None = None
+
+        # `model_config` can be None in tests
+        model_config = vllm_config.model_config
+        if model_config and model_config.trust_remote_code:
+            # note: lazy import to avoid importing torch before initializing
+            from vllm.utils.import_utils import init_cached_hf_modules
+
+            init_cached_hf_modules()
+
+    def shutdown(self) -> None:
+        if self.worker is not None:
+            self.worker.shutdown()
+
+    def adjust_rank(self, rank_mapping: dict[int, int]) -> None:
+        """
+        Adjust the rpc_rank based on the given mapping.
+        It is only used during the initialization of the executor,
+        to adjust the rpc_rank of workers after we create all workers.
+        """
+        old_rank = self.rpc_rank
+        if old_rank in rank_mapping:
+            self.rpc_rank = rank_mapping[old_rank]
+            if self.global_rank == old_rank:
+                self.global_rank = rank_mapping[old_rank]
+
+    def update_environment_variables(
+        self,
+        envs_list: list[dict[str, str]],
+    ) -> None:
+        envs = envs_list[self.rpc_rank]
+        key = "CUDA_VISIBLE_DEVICES"
+        if key in envs and key in os.environ:
+            # overwriting CUDA_VISIBLE_DEVICES is desired behavior
+            # suppress the warning in `update_environment_variables`
+            del os.environ[key]
+        update_environment_variables(envs)
+
+    def init_worker(self, all_kwargs: list[dict[str, Any]]) -> None:
+        """
+        Here we inject some common logic before initializing the worker.
+        Arguments are passed to the worker class constructor.
+        """
+        kwargs = all_kwargs[self.rpc_rank]
+        self.vllm_config = kwargs.get("vllm_config")
+        assert self.vllm_config is not None, (
+            "vllm_config is required to initialize the worker"
+        )
+        self.vllm_config.enable_trace_function_call_for_thread()
+
+        from vllm.plugins import load_general_plugins
+
+        load_general_plugins()
+
+        if isinstance(self.vllm_config.parallel_config.worker_cls, str):
+            worker_class = resolve_obj_by_qualname(
+                self.vllm_config.parallel_config.worker_cls
+            )
+        else:
+            raise ValueError(
+                "passing worker_cls is no longer supported. Please pass keep the class in a separate module and pass the qualified name of the class as a string."  # noqa: E501
+            )
+        if self.vllm_config.parallel_config.worker_extension_cls:
+            worker_extension_cls = resolve_obj_by_qualname(
+                self.vllm_config.parallel_config.worker_extension_cls
+            )
+            extended_calls = []
+            if worker_extension_cls not in worker_class.__bases__:
+                # check any conflicts between worker and worker_extension_cls
+                for attr in dir(worker_extension_cls):
+                    if attr.startswith("__"):
+                        continue
+                    assert not hasattr(worker_class, attr), (
+                        f"Worker class {worker_class} already has an attribute"
+                        f" {attr}, which conflicts with the worker"
+                        f" extension class {worker_extension_cls}."
+                    )
+                    if callable(getattr(worker_extension_cls, attr)):
+                        extended_calls.append(attr)
+                # dynamically inherit the worker extension class
+                worker_class.__bases__ = worker_class.__bases__ + (
+                    worker_extension_cls,
+                )
+                logger.info(
+                    "Injected %s into %s for extended collective_rpc calls %s",
+                    worker_extension_cls,
+                    worker_class,
+                    extended_calls,
+                )
+
+        shared_worker_lock = kwargs.pop("shared_worker_lock", None)
+        if shared_worker_lock is None:
+            msg = (
+                "Missing `shared_worker_lock` argument from executor. "
+                "This argument is needed for mm_processor_cache_type='shm'."
+            )
+
+            mm_config = self.vllm_config.model_config.multimodal_config
+            if mm_config and mm_config.mm_processor_cache_type == "shm":
+                raise ValueError(msg)
+            else:
+                logger.warning_once(msg)
+
+            self.mm_receiver_cache = None
+        else:
+            self.mm_receiver_cache = worker_receiver_cache_from_config(
+                self.vllm_config,
+                MULTIMODAL_REGISTRY,
+                shared_worker_lock,
+            )
+
+        with set_current_vllm_config(self.vllm_config):
+            # To make vLLM config available during worker initialization
+            self.worker = worker_class(**kwargs)
+            assert self.worker is not None
+
+    def initialize_from_config(self, kv_cache_configs: list[Any]) -> None:
+        kv_cache_config = kv_cache_configs[self.global_rank]
+        with set_current_vllm_config(self.vllm_config):
+            self.worker.initialize_from_config(kv_cache_config)  # type: ignore
+
+    def init_device(self):
+        with set_current_vllm_config(self.vllm_config):
+            # To make vLLM config available during device initialization
+            self.worker.init_device()  # type: ignore
+
+    def execute_method(self, method: str | bytes, *args, **kwargs):
+        try:
+            # method resolution order:
+            # if a method is defined in this class, it will be called directly.
+            # otherwise, since we define `__getattr__` and redirect attribute
+            # query to `self.worker`, the method will be called on the worker.
+            return run_method(self, method, args, kwargs)
+        except Exception as e:
+            # if the driver worker also execute methods,
+            # exceptions in the rest worker may cause deadlock in rpc like ray
+            # see https://github.com/vllm-project/vllm/issues/3455
+            # print the error and inform the user to solve the error
+            msg = (
+                f"Error executing method {method!r}. "
+                "This might cause deadlock in distributed execution."
+            )
+            logger.exception(msg)
+            raise e
+
+    def __getattr__(self, attr: str):
+        return getattr(self.worker, attr)
+
+    def _apply_mm_cache(self, scheduler_output: SchedulerOutput) -> None:
+        mm_cache = self.mm_receiver_cache
+        if mm_cache is None:
+            return
+
+        for req_data in scheduler_output.scheduled_new_reqs:
+            req_data.mm_features = mm_cache.get_and_update_features(
+                req_data.mm_features
+            )
+
+    def execute_model(
+        self,
+        scheduler_output: SchedulerOutput,
+        *args,
+        **kwargs,
+    ) -> ModelRunnerOutput | None:
+        self._apply_mm_cache(scheduler_output)
+
+        assert self.worker is not None
+        return self.worker.execute_model(scheduler_output, *args, **kwargs)
+
+    def reset_mm_cache(self) -> None:
+        mm_receiver_cache = self.mm_receiver_cache
+        if mm_receiver_cache is not None:
+            mm_receiver_cache.clear_cache()
+
+        assert self.worker is not None
+        self.worker.reset_mm_cache()
diff --git a/v1/worker/xpu_model_runner.py b/v1/worker/xpu_model_runner.py
new file mode 100644
index 0000000..4f82c18
--- /dev/null
+++ b/v1/worker/xpu_model_runner.py
@@ -0,0 +1,55 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from contextlib import contextmanager
+from typing import TYPE_CHECKING
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.worker.gpu_model_runner import GPUModelRunner
+
+if TYPE_CHECKING:
+    pass
+
+logger = init_logger(__name__)
+
+
+class XPUModelRunner(GPUModelRunner):
+    """A model runner for XPU devices."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        with _torch_cuda_wrapper():
+            super().__init__(vllm_config, device)
+        # FIXME: To be verified.
+        self.cascade_attn_enabled = False
+
+    def _init_device_properties(self) -> None:
+        self.num_sms = None
+
+    def _sync_device(self) -> None:
+        torch.xpu.synchronize()
+
+
+@contextmanager
+def _torch_cuda_wrapper():
+    class _EventPlaceholder:
+        def __init__(self, *args, **kwargs) -> None:
+            self.record = lambda: None
+            self.synchronize = lambda: None
+
+    try:
+        # replace cuda APIs with xpu APIs, this should work by default
+        torch.cuda.Event = torch.xpu.Event
+        torch.cuda.Stream = torch.xpu.Stream
+        torch.cuda.default_stream = torch.xpu.current_stream
+        torch.cuda.current_stream = torch.xpu.current_stream
+        torch.cuda.stream = torch.xpu.stream
+        yield
+    finally:
+        # if anything goes wrong, just patch it with a placeholder
+        torch.cuda.Event = _EventPlaceholder
diff --git a/v1/worker/xpu_worker.py b/v1/worker/xpu_worker.py
new file mode 100644
index 0000000..26c6f8d
--- /dev/null
+++ b/v1/worker/xpu_worker.py
@@ -0,0 +1,189 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+
+import torch
+import torch.distributed
+
+import vllm.envs as envs
+from vllm.config import VllmConfig
+from vllm.distributed import get_world_group
+from vllm.logger import init_logger
+from vllm.model_executor import set_random_seed
+from vllm.platforms import current_platform
+from vllm.v1.worker.gpu_worker import Worker, init_worker_distributed_environment
+from vllm.v1.worker.xpu_model_runner import XPUModelRunner
+
+logger = init_logger(__name__)
+
+
+class XPUWorker(Worker):
+    """A XPU worker class."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        local_rank: int,
+        rank: int,
+        distributed_init_method: str,
+        is_driver_worker: bool = False,
+    ):
+        super().__init__(
+            vllm_config, local_rank, rank, distributed_init_method, is_driver_worker
+        )
+        device_config = self.device_config
+        assert device_config.device_type == "xpu"
+        assert current_platform.is_xpu()
+
+        # Torch profiler. Enabled and configured through env vars:
+        # VLLM_TORCH_PROFILER_DIR=/path/to/save/trace
+        if envs.VLLM_TORCH_PROFILER_DIR:
+            torch_profiler_trace_dir = envs.VLLM_TORCH_PROFILER_DIR
+            worker_name = f"{vllm_config.instance_id}-rank-{self.rank}"
+            logger.info(
+                "Profiling enabled. Traces will be saved to: %s",
+                torch_profiler_trace_dir,
+            )
+            logger.debug(
+                "Profiler config: record_shapes=%s,"
+                "profile_memory=%s,with_stack=%s,with_flops=%s",
+                envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+            )
+            self.profiler = torch.profiler.profile(
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                    torch.profiler.ProfilerActivity.XPU,
+                ],
+                record_shapes=envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                profile_memory=envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                with_stack=envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                with_flops=envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    torch_profiler_trace_dir, worker_name=worker_name, use_gzip=True
+                ),
+            )
+        else:
+            self.profiler = None
+
+    # we provide this function due to `torch.xpu.mem_get_info()` doesn't
+    # return correct free_gpu_memory on intel client GPU. We need to
+    # calculate/estiamte it.
+    def xpu_get_mem_info(self):
+        if current_platform.is_data_center_gpu():
+            return torch.xpu.mem_get_info()
+        else:
+            _, total_gpu_memory = torch.xpu.mem_get_info()
+            # FIXME: memory_allocated() doesn't count non-torch allocations,
+            # and we don't have any API to get it. so we mark it as 128MB.
+            used_memory = torch.xpu.memory_allocated()
+            non_torch_allocations = 128 * 1024 * 1024
+            free_gpu_memory = total_gpu_memory - (used_memory + non_torch_allocations)
+            return free_gpu_memory, total_gpu_memory
+
+    @torch.inference_mode()
+    def determine_available_memory(self) -> int:
+        """Profiles the peak memory usage of the model to determine how many
+        KV blocks may be allocated without OOMs.
+        The engine will first conduct a profiling of the existing memory usage.
+        Then, it calculates the maximum possible number of GPU and CPU blocks
+        that can be allocated with the remaining free memory.
+        .. tip::
+            You may limit the usage of GPU memory
+            by adjusting the `gpu_memory_utilization` parameter.
+        """
+        # Profile the memory usage of the model and get the maximum number of
+        # cache blocks that can be allocated with the remaining free memory.
+        torch.xpu.empty_cache()
+        torch.xpu.reset_peak_memory_stats()
+
+        free_gpu_memory, total_gpu_memory = torch.xpu.mem_get_info()
+        current_allocated_bytes = torch.xpu.memory_allocated()
+        msg = (
+            "Before memory profiling run, "
+            f"total GPU memory: {total_gpu_memory / 1024**2:.2f} MB, "
+            f"model load takes {current_allocated_bytes / 1024**2:.2f} MB, "
+            f"free gpu memory is {free_gpu_memory / 1024**2:.2f} MB."
+        )
+        logger.info(msg)
+        # Execute a forward pass with dummy inputs to profile the memory usage
+        # of the model.
+        self.model_runner.profile_run()
+
+        free_gpu_memory, _ = self.xpu_get_mem_info()
+        # NOTE(woosuk): Here we assume that the other processes using the same
+        # GPU did not change their memory usage during the profiling.
+        assert self.init_gpu_memory > free_gpu_memory, (
+            "Error in memory profiling. "
+            f"Initial free memory {self.init_gpu_memory}, current free memory"
+            f" {free_gpu_memory}. This happens when the GPU memory was "
+            "not properly cleaned up before initializing the vLLM instance."
+        )
+
+        # Get the peak memory allocation recorded by torch
+        peak_memory = torch.xpu.memory_stats()["allocated_bytes.all.peak"]
+
+        torch.xpu.empty_cache()
+        torch_allocated_bytes = torch.xpu.memory_stats()["allocated_bytes.all.current"]
+        total_allocated_bytes = self.xpu_get_mem_info()[1] - self.xpu_get_mem_info()[0]
+
+        non_torch_allocations = total_allocated_bytes - torch_allocated_bytes
+        if non_torch_allocations > 0:
+            peak_memory += non_torch_allocations
+        available_kv_cache_memory = (
+            total_gpu_memory * self.cache_config.gpu_memory_utilization - peak_memory
+        )
+
+        msg = (
+            "After memory profiling run, "
+            f"peak memory usage is {peak_memory / 1024**2:.2f} MB,"
+            f"torch mem is {torch_allocated_bytes / 1024**2:.2f} MB, "
+            f"non-torch mem is {non_torch_allocations / 1024**2:.2f} MB, "
+            f"free gpu memory is {free_gpu_memory / 1024**2:.2f} MB."
+        )
+        logger.info(msg)
+
+        return int(available_kv_cache_memory)
+
+    def init_device(self):
+        if self.device_config.device.type == "xpu" and current_platform.is_xpu():
+            self.device = torch.device(f"xpu:{self.local_rank}")
+            current_platform.set_device(self.device)
+            current_platform.check_if_supports_dtype(self.model_config.dtype)
+            torch.xpu.empty_cache()
+            self.init_gpu_memory = torch.xpu.get_device_properties(
+                self.local_rank
+            ).total_memory
+        else:
+            raise RuntimeError(f"Not support device type: {self.device_config.device}")
+
+        ENV_CCL_ATL_TRANSPORT = os.getenv("CCL_ATL_TRANSPORT", "ofi")
+        ENV_LOCAL_WORLD_SIZE = os.getenv(
+            "LOCAL_WORLD_SIZE", str(self.parallel_config.world_size)
+        )
+        os.environ["CCL_ATL_TRANSPORT"] = ENV_CCL_ATL_TRANSPORT
+        os.environ["LOCAL_WORLD_SIZE"] = ENV_LOCAL_WORLD_SIZE
+        os.environ["LOCAL_RANK"] = str(self.local_rank)
+
+        init_worker_distributed_environment(
+            self.vllm_config,
+            self.rank,
+            self.distributed_init_method,
+            self.local_rank,
+            current_platform.dist_backend,
+        )
+
+        # global all_reduce needed for overall oneccl warm up
+        torch.distributed.all_reduce(
+            torch.zeros(1).xpu(), group=get_world_group().device_group
+        )
+
+        # Set random seed.
+        set_random_seed(self.model_config.seed)
+
+        # Construct the model runner
+        self.model_runner = XPUModelRunner(  # type: ignore
+            self.vllm_config, self.device
+        )
diff --git a/version.py b/version.py
new file mode 100644
index 0000000..60ecc73
--- /dev/null
+++ b/version.py
@@ -0,0 +1,2 @@
+__version__ = "0.11.2"
+__version_tuple__ = (0, 11, 2)
diff --git a/vllm_flash_attn/.gitkeep b/vllm_flash_attn/.gitkeep
new file mode 100644
index 0000000..e69de29